JP2021033746A

JP2021033746A - サービス提供装置、サービス提供システム、及びサービス提供方法

Info

Publication number: JP2021033746A
Application number: JP2019154447A
Authority: JP
Inventors: 及川　卓; Taku Oikawa; 卓及川; 市川　貴史; Takashi Ichikawa; 貴史市川
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2021-03-01

Abstract

【課題】利用者が発話した音声に応じて所定のサービスを提供するサービス提供システムにおいて、利用者が処理対象を発話しなくても、サービスを受けられるようにする。【解決手段】サービス提供装置は、複数の処理対象を含む表示画像を車両内に表示させる表示制御部と、前記車両の利用者を撮影した撮影画像を解析して、前記複数の処理対象のうち、前記利用者が選択する１つ以上の処理対象を特定する画像解析部と、前記利用者の音声を解析して、前記１つ以上の処理対象に対応する発話内容を認識する音声認識部と、前記１つ以上の処理対象に対する前記発話内容に応じたサービスを、前記利用者に提供するサービス提供部と、を有する。【選択図】図７

Description

本発明は、サービス提供装置、サービス提供システム、及びサービス提供方法に関する。

利用者の音声コマンドに従って、様々なサービスを提供するサービス提供システムが知られている。

例えば、受信したオーディオ信号に対して音声認識を実行して候補語を識別し、候補語と各候補語に対する動作とを選択可能に表示して、利用者によって選択された動作を起動するシステムが知られている（例えば、特許文献１参照）。

特開２０１１−１５０６８２号公報

従来の技術では、処理の対象となる処理対象（候補語）を明示的に発話する必要があるため、例えば、利用者が、処理対象の名称を知らない場合や、名称を思い出せない場合等には、利用者がサービスを受けられないという問題がある。

本発明の一実施形態は、上記の問題点に鑑みてなされたものであって、利用者が発話した音声に応じて所定のサービスを提供するサービス提供システムにおいて、利用者が処理対象を発話しなくても、サービスを受けられるようにする。

上記課題を解決するため、本発明の一実施形態に係るサービス提供装置は、複数の処理対象を含む表示画像を車両内に表示させる表示制御部と、前記車両の利用者を撮影した撮影画像を解析して、前記複数の処理対象のうち、前記利用者が選択する１つ以上の処理対象を特定する画像解析部と、前記利用者の音声を解析して、前記１つ以上の処理対象に対応する発話内容を認識する音声認識部と、前記１つ以上の処理対象に対する前記発話内容に応じたサービスを、前記利用者に提供するサービス提供部と、を有する。

本発明の一実施形態によれば、利用者が発話した音声に応じて所定のサービスを提供するサービス提供システムにおいて、利用者が処理対象を発話しなくても、サービスを受けられるようになる。

一実施形態に係るサービス提供システムのシステム構成の一例を示す図である。一実施形態に係るサービス提供システムのシステム構成の別の一例を示す図である。一実施形態に係るサービスのイメージについて説明するための図（１）である。一実施形態に係るサービスのイメージについて説明するための図（２）である。一実施形態に係るサービスのイメージについて説明するための図（３）である。一実施形態に係るサービス提供装置のハードウェア構成の例を示す図である。一実施形態に係るサービス提供装置の機能構成の例を示す図である。一実施形態に係るサービス提供システムの機能構成の例を示す図である。第１の実施形態に係るサービス提供処理の例を示すフローチャートである。第２の実施形態に係るサービス提供処理の例を示すフローチャートである。第２の実施形態に係る表示画像の例を示す図である。

以下に、本発明の実施の形態について、添付の図面を参照して説明する。

＜システム構成＞
図１は、一実施形態に係るサービス提供システムのシステム構成の一例を示す図である。サービス提供システム１は、例えば、自動車等の車両１０に搭載された、サービス提供装置１００、カメラ１０１、マイク１０２、表示装置１０３、及び音声出力装置１０４等を含む。

サービス提供装置１００は、利用者が発話した音声に応じて所定のサービスを提供するコンピュータである。サービス提供装置１００は、例えば、車両１０に予め搭載された車載ＥＣＵ（Electronic Control Unit）であっても良いし、カーナビゲーション装置等の車載用の情報処理装置等であっても良い。ここでは、一例として、サービス提供装置１００がカーナビゲーション装置等の車載用の情報処理装置であるものとして、以下の説明を行うが、本発明の範囲を限定するものではない。

カメラ１０１は、車両１０の乗員（以下、利用者と呼ぶ）を撮影する撮影装置である。カメラ１０１は、車両１０を利用する１人以上の利用者を撮影した画像（以下、撮影画像と呼ぶ）を撮影し、撮影した撮影画像（例えば、動画データ）をサービス提供装置１００に出力する。

マイク１０２は、車両１０を利用する１人以上の利用者が発話した音声を取得するマイクロフォンを含む。マイク１０２は、利用者が発話した音声を取得し、取得した音声を音声信号（又は音声データ）に変換して、サービス提供装置１００に出力する。

表示装置１０３は、複数の処理対象を含む表示画像を車両内に表示する表示装置である。表示装置１０３は、例えば、ＬＣＤ（Liquid Crystal Display）、有機ＥＬ（Electro Luminescence）ディスプレイ等の表示デバイスであっても良いし、車両１０内（例えば、車両１０の天井等）に表示画像を投影するプロジェクタであっても良い。ここでは、表示装置１０３が、複数の地点を含む道路地図（地図画像）を、車両１０を利用する複数の利用者が共用する大画面に表示するものとして、以下の説明を行う。ただし、これに限られず、表示装置１０３は、利用者ごとに設けられた複数の表示装置であっても良いし、前席と後席とにそれぞれ設けられた表示装置等であっても良い。

音声出力装置１０４は、サービス提供装置１００から出力された音声データ、又は音声信号に基づいて、音声（又は音声信号）を出力する装置である。音声出力装置１０４は、例えば、車両１０が備えるオーディオシステム、スピーカ等であっても良いし、サービス提供装置１００に含まれていても良い。

上記の構成において、サービス提供装置１００は、例えば、複数の地点を含む地図画像を、表示装置１０３に表示させる。なお、複数の地点は複数の処理対象の一例であり、地図画像は表示画像の一例である。

また、サービス提供装置１００は、カメラ１０１が撮影した車両１０の利用者を撮影した撮影画像を解析して、車両１０の利用者が、ジェスチャー（又は視線等）で選択する地点（又はエリア）を特定する。

さらに、サービス提供装置１００は、マイク１０２で取得した車両１０の利用者の音声を解析して、利用者によって選択された地点に対応する発話内容を音声認識する。

また、サービス提供装置１００は、選択された地点（又はエリア）に対する発話内容に応じたサービスを、利用者に提供する。例えば、サービス提供装置１００は、選択された地点（又はエリア）に対する発話内容に応じて、音声（又は文字列）による対話で応答する対話サービスを提供する。

なお、地点（又はエリア）は、処理対象の一例である。また、対話サービスは、選択された処理対象に対する発話内容に応じたサービスの一例である。例えば、サービス提供装置１００は、選択された処理対象と、発話内容とに応じた所定の処理を実行するもの等であっても良い。

図２は、一実施形態に係るサービス提供システムのシステム構成の別の一例を示す図である。図２に示すサービス提供システム１は、図１に示したサービス提供システム１のシステム構成に加えて、サーバ装置２０１、及び通信装置１０５等が含まれる。

サーバ装置２０１は、例えば、インターネット等の通信ネットワーク２０２に接続された、コンピュータ、又は複数のコンピュータを含むシステムである。サーバ装置２０１は、図１で説明した、サービス提供装置１００が実行する処理のうち、少なくとも一部を実行する。

通信装置１０５は、例えば、ＬＴＥ（Long Term Evolution）、５Ｇ（5th Generation）等の無線通信２０３で、サービス提供装置１００を通信ネットワーク２０２に接続し、サーバ装置２０１と通信を行う無線通信装置である。なお、通信装置１０５は、サービス提供装置１００に含まれていても良い。

上記の構成において、サービス提供装置１００は、例えば、サーバ装置２０１が有する道路地図データベース等から地図データを取得して、地図画像を表示装置１０３に表示させても良い。また、サービス提供装置１００は、サーバ装置２０１が提供する対話サービスを利用して、利用者の発話内容に対して、音声（又はテキスト）等による対話で応答する対話サービスを提供しても良い。

＜サービスの概要＞
図３〜５は、一実施形態に係るサービスのイメージについて説明するための図である。ここでは、サービス提供システム１が提供するサービスの一例の概要について説明する。

サービス提供装置１００は、一例として、図３に示すように、複数の地点を含む地図画像（道路地図等）３００を、表示装置１０３に表示させる。なお、サービス提供装置１００が表示させる地図画像は、一般的なカーナビゲーション装置等で表示される２次元の地図画像等であっても良い。また、ここでは、表示装置１０３が、車両１０を利用する複数の利用者が共有する大画面の表示デバイス、又は車両１０の天井等に大画面を投影するプロジェクタ等であるものとして、以下の説明を行う。

車両１０の利用者は、表示された地図画像３００において、所定の地点３０２の情報を知りたい場合、例えば、所定の地点３０２を指さすジェスチャー３１０をする。これに応じて、サービス提供装置１００は、地図画像３００上の位置を示すポインター３０１を、地図画像３００上に表示させる。例えば、サービス提供装置１００は、利用者を撮影した撮影画像を解析して、所定の地点３０２を指さすジェスチャー３１０が行われたことを検知すると、地図画像３００上にポインター３０１を表示させる。

利用者は、ポインター３０１が、所定の地点３０２と異なる位置に表示された場合、例えば、指を上下左右に移動させるジェスチャーにより、ポインター３０１を任意の位置に移動させることができるものとする。

また、利用者は、ポインター３０１が、所定の地点３０２を示しているときに、「これは何？」、又は「標高は？」等と発話することにより、所定の地点３０２に関する情報の提供を、サービス提供システム１に要求することができる。

サービス提供装置１００は、例えば、所定の地点３０２に対する発話内容「これは何？」に対して、所定の地点３０２に関する情報（例えば、地名、山の名前等）を、音声等による対話で、利用者に提供する。

また、利用者は、ポインター３０１が、所定の地点３０２を示しているときに、「ここに行きたい」等と発話することにより、所定の地点３０２までの経路情報の提供を、サービス提供システム１に要求することができる。

サービス提供装置１００は、所定の地点３０２に対する発話内容「ここに行きたい」に対して、現在の地点３０３から、所定の地点３０２までの経路を示す経路３０４を、地図画像上に表示すると共に、所定の地点３０２までのルート案内を実行する。

このように、本実施形態に係るサービス提供システム１では、利用者は、処理の対象となる所定の地点３０２をジェスチャー等によって指定することができるので、利用者が処理対象を発話しなくても、サービス提供システム１にサービスを要求することができる。例えば、利用者は、所定の地点３０２の名前を知らない場合、或いは、所定の地点３０２が、山であるのか、岡であるのか、島であるのか等を特定できない場合等でも、サービス提供システム１に、サービスの提供を要求することが容易になる。さらに、本実施形態に係るサービス提供システム１では、利用者が、「これ」、「ここ」等の代名詞を省略した場合でも、サービス提供システム１は、ポインター３０１の位置から、処理対象を特定することができる。

別の一例として、図４に示すように、サービス提供システム１は、利用者の目４１０を撮影した撮影画像から、利用者の視線４１１を解析して、地図画像３００上の視線４１１の位置に、ポインター３０１を表示させるもの等であっても良い。この場合も、利用者は、ポインター３０１が、所定の地点４１２を示しているときに、「ここで何が釣れる？」、「遊覧船ある？」等と発話することにより、所定の地点４１２に関する情報の提供を、サービス提供システム１に要求することができる。

また、利用者は、図５（Ａ）、（Ｂ）に示すように、所定のエリア（領域）を指定して、サービス提供システム１にサービスの提供を要求することができる。例えば、利用者は、図５（Ａ）に示すように、ポインター３０１を所定の位置に移動させて、「この辺を拡大して」等と発話することにより、ポインター３０１の周辺のエリア５０１を指定して、サービス提供システム１にサービスの提供を要求することができる。

一方、サービス提供装置１００は、利用者の発話内容に、例えば、「この辺」、「この辺り」、「このエリア」等のエリアを指示するキーワードが含まれる場合、ポインター３０１周辺のエリア５０１が指定されたと判断する。

好ましくは、利用者は、例えば、「この辺を２倍に拡大して」、「１ｋｍ以内の地図を表示して」等と、エリア５０１の範囲を発話で指定しても良い。なお、利用者の発話内容に、エリア５０１の範囲を指定する発話がない場合、サービス提供装置１００は、予め設定された既定の範囲内を、エリア５０１と判断しても良い。

また、別の一例として、利用者は、図５（Ｂ）に示すように、ポインター３０１の軌跡５０２により、エリアを指定するものであっても良い。例えば、利用者は、「この辺りにコンビニある？」等と発話すると共に、ポインター３０１で円を描くジェスチャーをする。これに応じて、サービス提供装置１００は、例えば、図５（Ｂ）に示すように、ポインター３０１の軌跡５０２を表示して、軌跡５０２の内側を指定されたエリアと判断しても良い。

このように、本実施形態によれば、利用者が発話した音声に応じて所定のサービスを提供するサービス提供システム１において、利用者が処理対象を発話しなくても、サービスを受けられるようになる。

＜ハードウェア構成＞
（サービス提供装置のハードウェア構成）
図４は、一実施形態に係る情報処理装置のハードウェア構成の例を示す図である。サービス提供装置１００は、一般的なコンピュータの構成を含み、例えば、ＣＰＵ（Central Processing Unit）６０１、メモリ６０２、ストレージデバイス６０３、通信Ｉ／Ｆ（Interface）６０４、入力装置６０５、表示装置６０６、外部入力Ｉ／Ｆ６０７、外部出力Ｉ／Ｆ６０８、ＧＰＳ（Global Positioning System）受信装置６０９、センサ６１０、及びバス６１１等を有する。

ＣＰＵ６０１は、例えば、ストレージデバイス６０３、メモリ６０２等に記憶したプログラムを実行することにより、サービス提供装置１００の各機能を実現する演算装置である。メモリ６０２には、例えば、ＣＰＵ６０１のワークエリア等として用いられる揮発性のメモリであるＲＡＭ（Random Access Memory）や、サービス提供装置１００の起動用のプログラム等を記憶する不揮発性のメモリであるＲＯＭ（Read Only Memory）等が含まれる。

ストレージデバイス６０３は、例えば、ＯＳ（Operating System）、アプリケーションプログラム、及び各種のデータを記憶する不揮発性の大容量の記憶装置であり、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等によって実現される。通信Ｉ／Ｆ６０４は、外部装置と通信するためのインタフェースである。例えば、通信Ｉ／Ｆ６０４は、サービス提供装置１００を車載ネットワークに接続し、車両１０に搭載される他のＥＣＵや、情報処理装置等との通信を行う。また、通信Ｉ／Ｆ６０４は、サービス提供装置１００を、通信装置１０５に接続し、通信ネットワーク２０２を介して、サーバ装置２０１等との通信を行う。

入力装置６０５は、例えば、タッチパネルや操作ボタン等の入力デバイスである。表示装置６０６は、例えば、ＬＣＤ、有機ＥＬディスプレイ等の表示デバイスである。なお、サービス提供システム１は、図１の示す表示装置１０３、及び図６に示す表示装置６０６のうち、少なくとも１つを有していれば良い。例えば、図３に示すような地図画像３００を表示する表示装置は、サービス提供装置１００の外部に設けられていても良いし、サービス提供装置１００の内部に設けられていても良い。

外部入力Ｉ／Ｆ６０７は、サービス提供装置１００に、カメラ１０１、マイク１０２等の外部装置からの入力信号を入力するためのインタフェースである。外部出力Ｉ／Ｆ６０８は、サービス提供装置１００が、表示装置１０３、音声出力装置１０４等の外部装置にデータや信号を出力するためのインタフェースである。

ＧＰＳ受信装置６０９は、ＧＰＳ衛星から送信される測位信号を受信し、現在地の位置を示す位置情報等を出力するデバイス、回路、又はモジュール等である。センサ６１０は、角速度を検出するジャイロセンサや、加速度を検出する加速度センサ等の検出装置である。バス６１１は、上記の各構成要素に共通に接続され、例えば、アドレス信号、データ信号、及び各種の制御信号等を伝送する。

＜機能構成＞
（サービス提供装置の機能構成）
図７は、一実施形態に係るサービス提供装置の機能構成の例を示す図である。サービス提供装置１００は、例えば、図６のＣＰＵ６０１で所定のプログラムを実行することにより、通信部７０１、画像取得部７０２、画像解析部７０３、音声取得部７０４、音声認識部７０５、表示制御部７０６、サービス提供部７０７、及び音声出力部７０８等を実現している。なお、上記の各機能構成のうち、少なくとも一部は、ハードウェアによって実現されるものであっても良い。

また、サービス提供装置１００は、例えば、図６のストレージデバイス６０３等に、道路地図データベース（以下、道路地図ＤＢと呼ぶ）７０９を記憶している。なお、道路地図ＤＢ７０９は、外部のサーバ装置等に記憶されているものであっても良い。

通信部７０１は、例えば、図６の通信Ｉ／Ｆ６０４等を用いて外部装置と通信を行う。例えば、通信部７０１は、通信Ｉ／Ｆ６０４を用いて、サービス提供装置１００を車両１０の車載ネットワークに接続して、車載ネットワークに接続されている車載ＥＣＵ、又は情報処理装置等と通信を行う。

画像取得部７０２は、カメラ１０１によって撮影された、車両１０の利用者を撮影した撮影画像（例えば、動画データ）を、外部入力Ｉ／Ｆ６０７等を介して取得する。

画像解析部７０３は、画像取得部７０２が取得した撮影画像を解析して、利用者が選択する１つ以上の処理対象を特定する画像解析処理を実行する。例えば、画像解析部７０３は、図３〜５で説明したように、車両１０の利用者を撮影した撮影画像から、利用者のジェスチャー又は視線を解析し、解析結果に基づいて、利用者が選択する地図画像３００上の地点又はエリアを特定する。

音声取得部７０４は、マイク１０２が取得した、車両１０の利用者の音声（例えば、音声信号、又は音声データ）を、外部入力Ｉ／Ｆ６０７等を介して取得する。

音声認識部７０５は、音声取得部７０４が取得した利用者の音声を解析して、画像解析部７０３が特定した処理対象に対応する発話内容を認識する音声認識処理を実行する。例えば、音声認識部７０５は、画像解析部７０３によって、利用者が選択する地図画像３００上の地点又はエリアが特定されたとき等に、音声認識処理を実行する。

表示制御部７０６は、複数の処理対象を含む表示画像を車両１０内に表示させる。例えば、表示制御部７０６は、図３に示すような地図画像（表示画像の一例）３００を、表示装置１０３に表示させる。

好ましくは、表示制御部７０６は、画像解析部７０３による解析結果に基づいて、表示画像上の位置を示すポインターを表示させる。例えば、表示制御部７０６は、図３に示すような地図画像３００上に、利用者によって選択された地点を示すポインター３０１を表示させる。

また、表示制御部７０６は、サービス提供部７０７からの要求に従って、例えば、利用者によって選択された地点の情報や、利用者によって選択された地点までの経路情報等の様々な情報を、表示装置１０３に表示させても良い。

サービス提供部７０７は、画像解析部７０３が特定した処理対象に対する、音声認識部７０５が認識した発話内容に応じたサービスを、利用者に提供するサービス提供処理を実行する。

例えば、サービス提供部７０７は、図３を用いて説明したように、選択された所定の地点３０２に対する、情報の提供を要求する発話内容に対して、所定の地点３０２に関する情報（例えば、地名、山の名前等）を、音声等による対話で利用者に提供する。

例えば、サービス提供部７０７は、利用者からの問いかけに対して、自動的に応答するチャットボット等の技術を適用して、所定の地点３０２に関する情報を、音声（又は文字列）等による対話で利用者に提供しても良い。チャットボットは、例えば、利用者による問いかけから、利用者が何を要求しているのかを判断する「意図解釈」と、解釈した意図に応じて返答内容を生成する「対話制御」によって実現される。なお、チャットボットについては、公知の技術なので詳細な説明は省略する。

例えば、サービス提供部７０７は、画像解析部７０３が特定した「処理対象」の情報と、音声認識部７０５が認識した「発話内容」とをチャットボットに入力し、チャットボットから出力される返答内容を、音声又は文字列等で出力する。

また、サービス提供部７０７は、図３で説明したように、利用者によって選択された所定の地点３０２までの経路情報の提供を要求する発話内容に対して、所定の地点３０２までの経路情報を、利用者に提供する。例えば、サービス提供部７０７は、画像解析部７０３が特定した所定の地点３０２を目的地に設定して、一般的なカーナビゲーション装置のルート案内機能を適用し、目的地までのルート案内を実行する。

さらに、サービス提供部７０７は、図７で説明したように、利用者によって選択されたエリアに対して、音声認識部７０５が認識した「発話内容」に応じた処理（例えば、ルートの変更、拡大、縮小、施設の表示等）を実行しても良い。

音声出力部７０８は、サービス提供部７０７からの指示に従って、例えば、音声出力装置１０４等に、音声を出力させる。例えば、サービス提供部７０７は、チャットボット等から出力される返答内容の音声データを音声出力部７０８に入力し、音声出力部７０８は、入力された音声データを音声信号に変換して、音声出力装置１０４等に出力する。

道路地図ＤＢ７０９は、例えば、図３に示すような、複数の地点を含む地図画像（道路地図等）３００を表示するためのデータが格納されたデータベースである。道路地図ＤＢ７０９には、例えば、複数の道路が交差、合流、分岐する地点であるノードの情報、ノード間を結ぶ道路であるリンクの情報、及びＰＯＩ（Point OF Interest）情報等が含まれる。ノードの情報には、例えば、ノードを識別するノード番号、ノードの位置を示すノード座標、ノードに接続するリンクのリンク番号等の情報が含まれる。リンクの情報には、例えば、リンクを識別するリンク番号、リンクの始点及び終点の座標、道路種別等の情報が含まれる。ＰＯＩ情報には、例えば、施設や店舗の名称、位置情報、ジャンル情報等が含まれる。

また、道路地図ＤＢ７０９には、例えば、水系データ、行政界位置データ、鉄道位置データ、施設等位置データ、施設等形状データ、地名等表示位置データ等の地図画像３００を表示するための様々な情報が含まれる。

（サービス提供システムの機能構成）
図８は、一実施形態に係るサービス提供システムの機能構成の例を示す図である。図７に示したサービス提供装置１００の機能構成は一例である。例えば、図８に示すように、図７のサービス提供装置１００が有する各機能構成のうち、少なくとも一部は、サーバ装置２０１等によって実現されるものであっても良い。

図８の例では、サーバ装置２０１は、対話サービス７１３を提供するコンピュータ、又は複数のコンピュータを含むシステムである。サーバ装置２０１は、１つ以上のコンピュータで所定のプログラムを実行することにより、例えば、通信部７１１、対話サービス７１３等を実現している。

通信部７１１は、サーバ装置２０１を通信ネットワーク２０２に接続して、例えば、サービス提供装置１００等の他の装置と通信を行う。

対話サービス７１３は、前述したチャットボット等によって実現され、サービス提供装置１００から送信された音声データ、又は文字列等の意図を解釈して、解釈した意図に応じた返答内容を音声データ、又は文字列で、サービス提供装置１００に返信する。

例えば、サービス提供部７０７は、利用者によって選択された所定の地点３０２に対する、情報の提供を要求する発話内容を受け付けると、選択された所定の地点３０２の情報と、音声認識部７０５が認識した「発話内容」とを、サーバ装置２０１に送信する。

これに応じて、サーバ装置２０１の対話サービス７１３は、所定の地点３０２の情報（例えば、位置座標、地名、施設名等）に基づいて、所定の地点３０２に関する情報を収集し、返答内容を作成して、サービス提供装置１００に返信する。

サービス提供部７０７は、サーバ装置２０１から返信された返答内容を、音声又は文字列等で、利用者に提供する。このように、サービス提供装置１００は、サーバ装置２０１が提供する対話サービス７１３を利用することにより、サービス提供装置１００の負荷を軽減させることができる。

＜処理の流れ＞
続いて、本実施形態に係るサービス提供方法の処理の流れについて説明する。

［第１の実施形態］
図９は、第１の実施形態に係るサービス提供処理の例を示すフローチャートである。この処理は、サービス提供装置１００が実行するサービス提供処理の一例を示している。

ステップＳ９０１において、サービス提供装置１００の表示制御部７０６は、例えば、図３に示すような地図画像３００を、表示装置１０３に表示させる。

ステップＳ９０２において、サービス提供装置１００の画像解析部７０３は、画像取得部７０２が取得した、利用者を撮影した撮影画像を解析して、利用者が、選択動作をしているか否かを判断する。例えば、画像解析部７０３は、図３で説明したように、利用者が、所定の地点３０２を指さすジェスチャー３１０をしている場合、選択動作をしていると判断する。

利用者が選択動作をしていない場合、画像解析部７０３は、ステップＳ９０２の処理を、例えば、所定の時間間隔で繰返し実行する。一方、利用者が選択動作をしている場合、画像解析部７０３は、処理をステップＳ９０３に移行させる。

ステップＳ９０３に移行すると、サービス提供装置１００の表示制御部７０６は、例えば、図３に示すように、地図画像３００上にポインター３０１を表示させる。

また、前述したように、利用者は、ポインター３０１が、所定の地点３０２と異なる位置に表示された場合、例えば、指を上下左右に移動させるジェスチャーにより、ポインター３０１を所定の地点３０２に移動させることができる。例えば、画像解析部７０３は、利用者を撮影した撮影画像（動画データ）を繰返し解析することにより、利用者による指を上下左右に移動させるジェスチャーを順次に特定する。また、表示制御部７０６は、特定されたジェスチャーに応じて、ポインター３０１の位置を上下左右に移動させる。

ステップＳ９０４において、画像解析部７０３は、利用者が選択する所定の地点３０２を特定する。例えば、画像解析部７０３は、利用者によって決定されたポインター３０１の位置を、所定の地点３０２とする。例えば、画像解析部７０３は、ポインター３０１が所定の時間以上同じ位置にある場合、或いは、利用者の発話が検出された場合等に、ポインター３０１が示す位置を、所定の地点３０２としても良い。

ステップＳ９０５において、サービス提供装置１００の音声認識部７０５は、音声取得部７０４が取得した利用者の音声を解析して、利用者の発話内容を認識する。

ステップＳ９０６において、サービス提供装置１００のサービス提供部７０７は、利用者によって選択された地点又はエリアと、発話内容とに応じたサービスを提供する。

例えば、図３に示すように、ポインター３０１が所定の地点３０２を指しているときに、利用者による「これは何？」、又は「何？」等の発話が認識されたものとする。この場合、サービス提供部７０７は、所定の地点３０２に関する情報（例えば、地名、山の名前、ＰＯＩ情報等）を、音声等による対話で利用者に提供する。

また、ポインター３０１が所定の地点３０２を指しているときに、利用者による「ここに行きたい」、又は「行きたい」等の発話が認識されると、サービス提供部７０７は、現在の地点３０３から所定の地点３０２までのルート案内を実行する。

さらに、例えば、図５（Ａ）に示すように、ポインター３０１が地図画像３００上に表示されているときに、利用者が「この辺を拡大して」と発話したものとする。この場合、サービス提供部７０７は、ポインター３０１の周辺のエリア５０１指定されたと判断し、ポインター３０１の周辺のエリア５０１を拡大した地図画像を、表示制御部７０６を介して、表示装置１０３に表示させる。

上記の処理により、利用者が発話した音声に応じて所定のサービスを提供するサービス提供システム１において、利用者が処理対象（例えば、所定の地点３０２の名称等）を発話しなくても、サービスを受けられるようになる。

［第２の実施形態］
第２の実施形態では、地図画像上に表示された操作ボタン等を表示して、第１の実施形態と同様の手法により、操作ボタン等も操作できるようにする場合の処理の例について説明する。なお、第２の実施形態に係るサービス提供システム１のシステム構成、ハードウェア構成、及び機能構成は、第１の実施形態と同様で良い。

＜処理の流れ＞
図１０は、第２の実施形態に係るサービス提供処理の例を示すフローチャートである。なお、基本的な処理内容は、図９に示す第１の実施形態に係るサービス提供処理と同様なので、ここでは、第１の実施形態と同様の処理に対する詳細な説明は省略する。

ステップＳ１００１において、サービス提供装置１００の表示制御部７０６は、例えば、図１１に示すように、地図画像と、１つ以上の操作ボタン１１０１ａ、１１０１ｂ、１１０１ｃ、・・・とを含む表示画像１１００を、表示装置１０３に表示させる。なお、以下の説明の中で、１つ以上の操作ボタン１１０１ａ、１１０１ｂ、１１０１ｃ、・・・のうち、任意の操作ボタンを示す場合、「操作ボタン１１０１」を用いる。

ステップＳ１００２において、サービス提供装置１００の画像解析部７０３は、画像取得部７０２が取得した、利用者を撮影した撮影画像を解析して、利用者が、選択動作をしているか否かを判断する。例えば、画像解析部７０３は、利用者が、所定の地点３０２、又は操作ボタン１１０１を指さすジェスチャー３１０をしている場合、選択動作をしていると判断する。

利用者が選択動作をしていない場合、画像解析部７０３は、ステップＳ１００２の処理を、例えば、所定の時間間隔で繰返し実行する。一方、利用者が選択動作をしている場合、画像解析部７０３は、処理をステップＳ１００３に移行させる。

ステップＳ１００３に移行すると、サービス提供装置１００の表示制御部７０６は、例えば、図１１に示すように、表示画像１１００上にポインター３０１を表示させる。

なお、利用者は、ポインター３０１が、意図と異なる位置に表示された場合には、第１の実施形態と同様に、例えば、指を上下左右に移動させるジェスチャーにより、ポインター３０１を所望の位置に移動させることができるものとする。

ステップＳ１１０４において、画像解析部７０３は、利用者が選択する処理対象を特定する。ここで、処理対象には、例えば、地図画像上の複数の地点に加えて、１つ以上の操作ボタン１１０１ａ、１１０１ｂ、１１０１ｃ、・・・が含まれる。例えば、画像解析部７０３は、利用者によって決定されたポインター３０１の位置を、処理対象とする。

ステップＳ１１０５において、サービス提供装置１００の音声認識部７０５は、音声取得部７０４が取得した利用者の音声を解析して、利用者の発話内容を認識する。

ステップＳ１００６において、サービス提供装置１００のサービス提供部７０７は、処理対象が操作ボタン１１０１であるか否かを判断する。処理対象が操作ボタン１１０１でない場合、サービス提供部７０７は、処理をステップＳ１００７に移行させる。一方、処理対象が操作ボタン１１０１である場合、サービス提供部７０７は、処理をステップＳ１００８に移行させる。

ステップＳ１１０７に移行すると、サービス提供部７０７は、第１の実施形態と同様にして、利用者によって選択された地点又はエリアと、発話内容とに応じたサービスを提供する。

一方、ステップＳ１１０８に移行すると，サービス提供部７０７は、選択された操作ボタン１１０１と、認識された発話内容とに応じた処理を実行する。

例えば、選択された操作ボタンが「ルート変更」ボタンであり、発話内容が探索モードを指定する発話（例えば、「推奨」、「距離」、「燃費」、「時間」等）である場合、サービス提供部７０７は、発話された探索モードで目的地までの案内経路を再探索する。なお、「ルート変更」ボタンは、操作ボタン１１０１の一例である。

別の一例として、選択されたボタンが、「施設」ボタンであり、発話内容が施設を指定する発話（例えば、「コンビニ」、「駐車場」等）である場合、サービス提供部７０７は、発話された施設のうち、周辺にある施設のアイコンを地図画像上に表示させる。なお、「施設」ボタンは、操作ボタン１１０１の別の一例である。

また、操作ボタン１１０１は、「拡大」ボタン、「縮小」ボタン、「設定」ボタン等の様々な処理に対応する操作ボタンであっても良い。また、操作ボタン１１０１は、例えば、アイコン、文字列等の操作ボタン１１０以外の表示要素であっても良い。

このように、第２の実施形態によれば、サービス提供システム１は、地図画像上の複数の地点だけではなく、表示画像に表示された１つ以上の操作ボタン１１０１等を処理対象とすることができる。

従って、本発明の各実施形態によれば、利用者が発話した音声に応じて所定のサービスを提供するサービス提供システムにおいて、利用者が処理対象を発話しなくても、サービスを受けられるようになる。

以上、本発明の実施形態について説明したが、本発明は上記の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、様々な変形や変更が可能である。

例えば、上記の実施形態では、サービス提供装置１００が、自動車等の車両１０に搭載されているものとして説明を行ったが、サービス提供装置１００は、例えば、船舶、航空機等の車両１０以外の乗物に搭載されているものであっても良い。

１サービス提供システム
１０車両
１００サービス提供装置
１０１カメラ
１０２マイク
１０３表示装置
１０４音声出力装置
１０５通信装置
３００地図画像（表示画像の一例）
３０１ポインター
７０３画像解析部
７０５音声認識部
７０６表示制御部
７０７サービス提供部
１１００表示画像
１１０１、１１０１ａ、１１０１ｂ、１１０１ｃ操作ボタン

Claims

複数の処理対象を含む表示画像を車両内に表示させる表示制御部と、
前記車両の利用者を撮影した撮影画像を解析して、前記複数の処理対象のうち、前記利用者が選択する１つ以上の処理対象を特定する画像解析部と、
前記利用者の音声を解析して、前記１つ以上の処理対象に対応する発話内容を認識する音声認識部と、
前記１つ以上の処理対象に対する前記発話内容に応じたサービスを、前記利用者に提供するサービス提供部と、
を有する、サービス提供装置。
前記画像解析部は、前記撮影画像から前記利用者のジェスチャー又は視線を解析し、
前記表示制御部は、前記画像解析部による解析結果に基づいて、前記表示画像上の位置を示すポインターを表示させる、
請求項１に記載のサービス提供装置。
前記画像解析部は、前記複数の処理対象のうち、前記ポインターで示される位置又はエリアにある処理対象を、前記１つ以上の処理対象とする、請求項２に記載のサービス提供装置。
前記サービス提供部は、前記１つ以上の処理対象と、前記発話内容とに応じて、音声又は文字列で応答する対話サービスを提供する、請求項１乃至３のいずれか一項に記載のサービス提供装置。
前記サービス提供部は、前記１つ以上の処理対象と、前記発話内容とに応じて、前記１つ以上の処理対象に関する情報を提供する、請求項１乃至４のいずれか一項に記載のサービス提供装置。
前記表示画像は、道路地図データベースに基づいて表示される地図画像を含み、
前記サービス提供部は、前記利用者が前記地図画像から選択した地点の情報、又は前記地点までの経路情報を提供する、請求項１乃至５のいずれか一項に記載のサービス提供装置。
前記表示画像は、１つ以上の操作ボタンを含み、
前記サービス提供部は、前記利用者が選択した前記操作ボタンと、前記発話内容とに対応する処理を実行する、請求項１乃至６のいずれか一項に記載のサービス提供装置。
前記発話内容に、前記１つ以上の処理対象を特定するための情報が含まれていない場合でも、前記１つ以上の処理対象に対する前記発話内容に応じたサービスを、前記利用者に提供可能であること特徴とする、請求項１乃至７のいずれか一項に記載のサービス提供装置。
複数の処理対象を含む表示画像を車両内に表示させる表示制御部と、
前記車両の利用者を撮影した撮影画像を解析して、前記複数の処理対象のうち、前記利用者が選択する１つ以上の処理対象を特定する画像解析部と、
前記利用者の音声を解析して、前記１つ以上の処理対象に対応する発話内容を認識する音声認識部と、
前記１つ以上の処理対象に対する前記発話内容に応じたサービスを、前記利用者に提供するサービス提供部と、
を有する、サービス提供システム。
コンピュータが、
複数の処理対象を含む表示画像を車両内に表示させる処理と、
前記車両の利用者を撮影した撮影画像を解析して、前記複数の処理対象のうち、前記利用者が選択する１つ以上の処理対象を特定する処理と、
前記利用者の音声を解析して、前記１つ以上の処理対象に対応する発話内容を認識する処理と、
前記１つ以上の処理対象に対する前記発話内容に応じたサービスを、前記利用者に提供する処理と、
を実行する、サービス提供方法。