JP2021033746A - サービス提供装置、サービス提供システム、及びサービス提供方法 - Google Patents

サービス提供装置、サービス提供システム、及びサービス提供方法 Download PDF

Info

Publication number
JP2021033746A
JP2021033746A JP2019154447A JP2019154447A JP2021033746A JP 2021033746 A JP2021033746 A JP 2021033746A JP 2019154447 A JP2019154447 A JP 2019154447A JP 2019154447 A JP2019154447 A JP 2019154447A JP 2021033746 A JP2021033746 A JP 2021033746A
Authority
JP
Japan
Prior art keywords
user
service providing
service
processing targets
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019154447A
Other languages
English (en)
Inventor
及川 卓
Taku Oikawa
卓 及川
市川 貴史
Takashi Ichikawa
貴史 市川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2019154447A priority Critical patent/JP2021033746A/ja
Publication of JP2021033746A publication Critical patent/JP2021033746A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】利用者が発話した音声に応じて所定のサービスを提供するサービス提供システムにおいて、利用者が処理対象を発話しなくても、サービスを受けられるようにする。【解決手段】サービス提供装置は、複数の処理対象を含む表示画像を車両内に表示させる表示制御部と、前記車両の利用者を撮影した撮影画像を解析して、前記複数の処理対象のうち、前記利用者が選択する1つ以上の処理対象を特定する画像解析部と、前記利用者の音声を解析して、前記1つ以上の処理対象に対応する発話内容を認識する音声認識部と、前記1つ以上の処理対象に対する前記発話内容に応じたサービスを、前記利用者に提供するサービス提供部と、を有する。【選択図】図7

Description

本発明は、サービス提供装置、サービス提供システム、及びサービス提供方法に関する。
利用者の音声コマンドに従って、様々なサービスを提供するサービス提供システムが知られている。
例えば、受信したオーディオ信号に対して音声認識を実行して候補語を識別し、候補語と各候補語に対する動作とを選択可能に表示して、利用者によって選択された動作を起動するシステムが知られている(例えば、特許文献1参照)。
特開2011−150682号公報
従来の技術では、処理の対象となる処理対象(候補語)を明示的に発話する必要があるため、例えば、利用者が、処理対象の名称を知らない場合や、名称を思い出せない場合等には、利用者がサービスを受けられないという問題がある。
本発明の一実施形態は、上記の問題点に鑑みてなされたものであって、利用者が発話した音声に応じて所定のサービスを提供するサービス提供システムにおいて、利用者が処理対象を発話しなくても、サービスを受けられるようにする。
上記課題を解決するため、本発明の一実施形態に係るサービス提供装置は、複数の処理対象を含む表示画像を車両内に表示させる表示制御部と、前記車両の利用者を撮影した撮影画像を解析して、前記複数の処理対象のうち、前記利用者が選択する1つ以上の処理対象を特定する画像解析部と、前記利用者の音声を解析して、前記1つ以上の処理対象に対応する発話内容を認識する音声認識部と、前記1つ以上の処理対象に対する前記発話内容に応じたサービスを、前記利用者に提供するサービス提供部と、を有する。
本発明の一実施形態によれば、利用者が発話した音声に応じて所定のサービスを提供するサービス提供システムにおいて、利用者が処理対象を発話しなくても、サービスを受けられるようになる。
一実施形態に係るサービス提供システムのシステム構成の一例を示す図である。 一実施形態に係るサービス提供システムのシステム構成の別の一例を示す図である。 一実施形態に係るサービスのイメージについて説明するための図(1)である。 一実施形態に係るサービスのイメージについて説明するための図(2)である。 一実施形態に係るサービスのイメージについて説明するための図(3)である。 一実施形態に係るサービス提供装置のハードウェア構成の例を示す図である。 一実施形態に係るサービス提供装置の機能構成の例を示す図である。 一実施形態に係るサービス提供システムの機能構成の例を示す図である。 第1の実施形態に係るサービス提供処理の例を示すフローチャートである。 第2の実施形態に係るサービス提供処理の例を示すフローチャートである。 第2の実施形態に係る表示画像の例を示す図である。
以下に、本発明の実施の形態について、添付の図面を参照して説明する。
<システム構成>
図1は、一実施形態に係るサービス提供システムのシステム構成の一例を示す図である。サービス提供システム1は、例えば、自動車等の車両10に搭載された、サービス提供装置100、カメラ101、マイク102、表示装置103、及び音声出力装置104等を含む。
サービス提供装置100は、利用者が発話した音声に応じて所定のサービスを提供するコンピュータである。サービス提供装置100は、例えば、車両10に予め搭載された車載ECU(Electronic Control Unit)であっても良いし、カーナビゲーション装置等の車載用の情報処理装置等であっても良い。ここでは、一例として、サービス提供装置100がカーナビゲーション装置等の車載用の情報処理装置であるものとして、以下の説明を行うが、本発明の範囲を限定するものではない。
カメラ101は、車両10の乗員(以下、利用者と呼ぶ)を撮影する撮影装置である。カメラ101は、車両10を利用する1人以上の利用者を撮影した画像(以下、撮影画像と呼ぶ)を撮影し、撮影した撮影画像(例えば、動画データ)をサービス提供装置100に出力する。
マイク102は、車両10を利用する1人以上の利用者が発話した音声を取得するマイクロフォンを含む。マイク102は、利用者が発話した音声を取得し、取得した音声を音声信号(又は音声データ)に変換して、サービス提供装置100に出力する。
表示装置103は、複数の処理対象を含む表示画像を車両内に表示する表示装置である。表示装置103は、例えば、LCD(Liquid Crystal Display)、有機EL(Electro Luminescence)ディスプレイ等の表示デバイスであっても良いし、車両10内(例えば、車両10の天井等)に表示画像を投影するプロジェクタであっても良い。ここでは、表示装置103が、複数の地点を含む道路地図(地図画像)を、車両10を利用する複数の利用者が共用する大画面に表示するものとして、以下の説明を行う。ただし、これに限られず、表示装置103は、利用者ごとに設けられた複数の表示装置であっても良いし、前席と後席とにそれぞれ設けられた表示装置等であっても良い。
音声出力装置104は、サービス提供装置100から出力された音声データ、又は音声信号に基づいて、音声(又は音声信号)を出力する装置である。音声出力装置104は、例えば、車両10が備えるオーディオシステム、スピーカ等であっても良いし、サービス提供装置100に含まれていても良い。
上記の構成において、サービス提供装置100は、例えば、複数の地点を含む地図画像を、表示装置103に表示させる。なお、複数の地点は複数の処理対象の一例であり、地図画像は表示画像の一例である。
また、サービス提供装置100は、カメラ101が撮影した車両10の利用者を撮影した撮影画像を解析して、車両10の利用者が、ジェスチャー(又は視線等)で選択する地点(又はエリア)を特定する。
さらに、サービス提供装置100は、マイク102で取得した車両10の利用者の音声を解析して、利用者によって選択された地点に対応する発話内容を音声認識する。
また、サービス提供装置100は、選択された地点(又はエリア)に対する発話内容に応じたサービスを、利用者に提供する。例えば、サービス提供装置100は、選択された地点(又はエリア)に対する発話内容に応じて、音声(又は文字列)による対話で応答する対話サービスを提供する。
なお、地点(又はエリア)は、処理対象の一例である。また、対話サービスは、選択された処理対象に対する発話内容に応じたサービスの一例である。例えば、サービス提供装置100は、選択された処理対象と、発話内容とに応じた所定の処理を実行するもの等であっても良い。
図2は、一実施形態に係るサービス提供システムのシステム構成の別の一例を示す図である。図2に示すサービス提供システム1は、図1に示したサービス提供システム1のシステム構成に加えて、サーバ装置201、及び通信装置105等が含まれる。
サーバ装置201は、例えば、インターネット等の通信ネットワーク202に接続された、コンピュータ、又は複数のコンピュータを含むシステムである。サーバ装置201は、図1で説明した、サービス提供装置100が実行する処理のうち、少なくとも一部を実行する。
通信装置105は、例えば、LTE(Long Term Evolution)、5G(5th Generation)等の無線通信203で、サービス提供装置100を通信ネットワーク202に接続し、サーバ装置201と通信を行う無線通信装置である。なお、通信装置105は、サービス提供装置100に含まれていても良い。
上記の構成において、サービス提供装置100は、例えば、サーバ装置201が有する道路地図データベース等から地図データを取得して、地図画像を表示装置103に表示させても良い。また、サービス提供装置100は、サーバ装置201が提供する対話サービスを利用して、利用者の発話内容に対して、音声(又はテキスト)等による対話で応答する対話サービスを提供しても良い。
<サービスの概要>
図3〜5は、一実施形態に係るサービスのイメージについて説明するための図である。ここでは、サービス提供システム1が提供するサービスの一例の概要について説明する。
サービス提供装置100は、一例として、図3に示すように、複数の地点を含む地図画像(道路地図等)300を、表示装置103に表示させる。なお、サービス提供装置100が表示させる地図画像は、一般的なカーナビゲーション装置等で表示される2次元の地図画像等であっても良い。また、ここでは、表示装置103が、車両10を利用する複数の利用者が共有する大画面の表示デバイス、又は車両10の天井等に大画面を投影するプロジェクタ等であるものとして、以下の説明を行う。
車両10の利用者は、表示された地図画像300において、所定の地点302の情報を知りたい場合、例えば、所定の地点302を指さすジェスチャー310をする。これに応じて、サービス提供装置100は、地図画像300上の位置を示すポインター301を、地図画像300上に表示させる。例えば、サービス提供装置100は、利用者を撮影した撮影画像を解析して、所定の地点302を指さすジェスチャー310が行われたことを検知すると、地図画像300上にポインター301を表示させる。
利用者は、ポインター301が、所定の地点302と異なる位置に表示された場合、例えば、指を上下左右に移動させるジェスチャーにより、ポインター301を任意の位置に移動させることができるものとする。
また、利用者は、ポインター301が、所定の地点302を示しているときに、「これは何?」、又は「標高は?」等と発話することにより、所定の地点302に関する情報の提供を、サービス提供システム1に要求することができる。
サービス提供装置100は、例えば、所定の地点302に対する発話内容「これは何?」に対して、所定の地点302に関する情報(例えば、地名、山の名前等)を、音声等による対話で、利用者に提供する。
また、利用者は、ポインター301が、所定の地点302を示しているときに、「ここに行きたい」等と発話することにより、所定の地点302までの経路情報の提供を、サービス提供システム1に要求することができる。
サービス提供装置100は、所定の地点302に対する発話内容「ここに行きたい」に対して、現在の地点303から、所定の地点302までの経路を示す経路304を、地図画像上に表示すると共に、所定の地点302までのルート案内を実行する。
このように、本実施形態に係るサービス提供システム1では、利用者は、処理の対象となる所定の地点302をジェスチャー等によって指定することができるので、利用者が処理対象を発話しなくても、サービス提供システム1にサービスを要求することができる。例えば、利用者は、所定の地点302の名前を知らない場合、或いは、所定の地点302が、山であるのか、岡であるのか、島であるのか等を特定できない場合等でも、サービス提供システム1に、サービスの提供を要求することが容易になる。さらに、本実施形態に係るサービス提供システム1では、利用者が、「これ」、「ここ」等の代名詞を省略した場合でも、サービス提供システム1は、ポインター301の位置から、処理対象を特定することができる。
別の一例として、図4に示すように、サービス提供システム1は、利用者の目410を撮影した撮影画像から、利用者の視線411を解析して、地図画像300上の視線411の位置に、ポインター301を表示させるもの等であっても良い。この場合も、利用者は、ポインター301が、所定の地点412を示しているときに、「ここで何が釣れる?」、「遊覧船ある?」等と発話することにより、所定の地点412に関する情報の提供を、サービス提供システム1に要求することができる。
また、利用者は、図5(A)、(B)に示すように、所定のエリア(領域)を指定して、サービス提供システム1にサービスの提供を要求することができる。例えば、利用者は、図5(A)に示すように、ポインター301を所定の位置に移動させて、「この辺を拡大して」等と発話することにより、ポインター301の周辺のエリア501を指定して、サービス提供システム1にサービスの提供を要求することができる。
一方、サービス提供装置100は、利用者の発話内容に、例えば、「この辺」、「この辺り」、「このエリア」等のエリアを指示するキーワードが含まれる場合、ポインター301周辺のエリア501が指定されたと判断する。
好ましくは、利用者は、例えば、「この辺を2倍に拡大して」、「1km以内の地図を表示して」等と、エリア501の範囲を発話で指定しても良い。なお、利用者の発話内容に、エリア501の範囲を指定する発話がない場合、サービス提供装置100は、予め設定された既定の範囲内を、エリア501と判断しても良い。
また、別の一例として、利用者は、図5(B)に示すように、ポインター301の軌跡502により、エリアを指定するものであっても良い。例えば、利用者は、「この辺りにコンビニある?」等と発話すると共に、ポインター301で円を描くジェスチャーをする。これに応じて、サービス提供装置100は、例えば、図5(B)に示すように、ポインター301の軌跡502を表示して、軌跡502の内側を指定されたエリアと判断しても良い。
このように、本実施形態によれば、利用者が発話した音声に応じて所定のサービスを提供するサービス提供システム1において、利用者が処理対象を発話しなくても、サービスを受けられるようになる。
<ハードウェア構成>
(サービス提供装置のハードウェア構成)
図4は、一実施形態に係る情報処理装置のハードウェア構成の例を示す図である。サービス提供装置100は、一般的なコンピュータの構成を含み、例えば、CPU(Central Processing Unit)601、メモリ602、ストレージデバイス603、通信I/F(Interface)604、入力装置605、表示装置606、外部入力I/F607、外部出力I/F608、GPS(Global Positioning System)受信装置609、センサ610、及びバス611等を有する。
CPU601は、例えば、ストレージデバイス603、メモリ602等に記憶したプログラムを実行することにより、サービス提供装置100の各機能を実現する演算装置である。メモリ602には、例えば、CPU601のワークエリア等として用いられる揮発性のメモリであるRAM(Random Access Memory)や、サービス提供装置100の起動用のプログラム等を記憶する不揮発性のメモリであるROM(Read Only Memory)等が含まれる。
ストレージデバイス603は、例えば、OS(Operating System)、アプリケーションプログラム、及び各種のデータを記憶する不揮発性の大容量の記憶装置であり、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等によって実現される。通信I/F604は、外部装置と通信するためのインタフェースである。例えば、通信I/F604は、サービス提供装置100を車載ネットワークに接続し、車両10に搭載される他のECUや、情報処理装置等との通信を行う。また、通信I/F604は、サービス提供装置100を、通信装置105に接続し、通信ネットワーク202を介して、サーバ装置201等との通信を行う。
入力装置605は、例えば、タッチパネルや操作ボタン等の入力デバイスである。表示装置606は、例えば、LCD、有機ELディスプレイ等の表示デバイスである。なお、サービス提供システム1は、図1の示す表示装置103、及び図6に示す表示装置606のうち、少なくとも1つを有していれば良い。例えば、図3に示すような地図画像300を表示する表示装置は、サービス提供装置100の外部に設けられていても良いし、サービス提供装置100の内部に設けられていても良い。
外部入力I/F607は、サービス提供装置100に、カメラ101、マイク102等の外部装置からの入力信号を入力するためのインタフェースである。外部出力I/F608は、サービス提供装置100が、表示装置103、音声出力装置104等の外部装置にデータや信号を出力するためのインタフェースである。
GPS受信装置609は、GPS衛星から送信される測位信号を受信し、現在地の位置を示す位置情報等を出力するデバイス、回路、又はモジュール等である。センサ610は、角速度を検出するジャイロセンサや、加速度を検出する加速度センサ等の検出装置である。バス611は、上記の各構成要素に共通に接続され、例えば、アドレス信号、データ信号、及び各種の制御信号等を伝送する。
<機能構成>
(サービス提供装置の機能構成)
図7は、一実施形態に係るサービス提供装置の機能構成の例を示す図である。サービス提供装置100は、例えば、図6のCPU601で所定のプログラムを実行することにより、通信部701、画像取得部702、画像解析部703、音声取得部704、音声認識部705、表示制御部706、サービス提供部707、及び音声出力部708等を実現している。なお、上記の各機能構成のうち、少なくとも一部は、ハードウェアによって実現されるものであっても良い。
また、サービス提供装置100は、例えば、図6のストレージデバイス603等に、道路地図データベース(以下、道路地図DBと呼ぶ)709を記憶している。なお、道路地図DB709は、外部のサーバ装置等に記憶されているものであっても良い。
通信部701は、例えば、図6の通信I/F604等を用いて外部装置と通信を行う。例えば、通信部701は、通信I/F604を用いて、サービス提供装置100を車両10の車載ネットワークに接続して、車載ネットワークに接続されている車載ECU、又は情報処理装置等と通信を行う。
画像取得部702は、カメラ101によって撮影された、車両10の利用者を撮影した撮影画像(例えば、動画データ)を、外部入力I/F607等を介して取得する。
画像解析部703は、画像取得部702が取得した撮影画像を解析して、利用者が選択する1つ以上の処理対象を特定する画像解析処理を実行する。例えば、画像解析部703は、図3〜5で説明したように、車両10の利用者を撮影した撮影画像から、利用者のジェスチャー又は視線を解析し、解析結果に基づいて、利用者が選択する地図画像300上の地点又はエリアを特定する。
音声取得部704は、マイク102が取得した、車両10の利用者の音声(例えば、音声信号、又は音声データ)を、外部入力I/F607等を介して取得する。
音声認識部705は、音声取得部704が取得した利用者の音声を解析して、画像解析部703が特定した処理対象に対応する発話内容を認識する音声認識処理を実行する。例えば、音声認識部705は、画像解析部703によって、利用者が選択する地図画像300上の地点又はエリアが特定されたとき等に、音声認識処理を実行する。
表示制御部706は、複数の処理対象を含む表示画像を車両10内に表示させる。例えば、表示制御部706は、図3に示すような地図画像(表示画像の一例)300を、表示装置103に表示させる。
好ましくは、表示制御部706は、画像解析部703による解析結果に基づいて、表示画像上の位置を示すポインターを表示させる。例えば、表示制御部706は、図3に示すような地図画像300上に、利用者によって選択された地点を示すポインター301を表示させる。
また、表示制御部706は、サービス提供部707からの要求に従って、例えば、利用者によって選択された地点の情報や、利用者によって選択された地点までの経路情報等の様々な情報を、表示装置103に表示させても良い。
サービス提供部707は、画像解析部703が特定した処理対象に対する、音声認識部705が認識した発話内容に応じたサービスを、利用者に提供するサービス提供処理を実行する。
例えば、サービス提供部707は、図3を用いて説明したように、選択された所定の地点302に対する、情報の提供を要求する発話内容に対して、所定の地点302に関する情報(例えば、地名、山の名前等)を、音声等による対話で利用者に提供する。
例えば、サービス提供部707は、利用者からの問いかけに対して、自動的に応答するチャットボット等の技術を適用して、所定の地点302に関する情報を、音声(又は文字列)等による対話で利用者に提供しても良い。チャットボットは、例えば、利用者による問いかけから、利用者が何を要求しているのかを判断する「意図解釈」と、解釈した意図に応じて返答内容を生成する「対話制御」によって実現される。なお、チャットボットについては、公知の技術なので詳細な説明は省略する。
例えば、サービス提供部707は、画像解析部703が特定した「処理対象」の情報と、音声認識部705が認識した「発話内容」とをチャットボットに入力し、チャットボットから出力される返答内容を、音声又は文字列等で出力する。
また、サービス提供部707は、図3で説明したように、利用者によって選択された所定の地点302までの経路情報の提供を要求する発話内容に対して、所定の地点302までの経路情報を、利用者に提供する。例えば、サービス提供部707は、画像解析部703が特定した所定の地点302を目的地に設定して、一般的なカーナビゲーション装置のルート案内機能を適用し、目的地までのルート案内を実行する。
さらに、サービス提供部707は、図7で説明したように、利用者によって選択されたエリアに対して、音声認識部705が認識した「発話内容」に応じた処理(例えば、ルートの変更、拡大、縮小、施設の表示等)を実行しても良い。
音声出力部708は、サービス提供部707からの指示に従って、例えば、音声出力装置104等に、音声を出力させる。例えば、サービス提供部707は、チャットボット等から出力される返答内容の音声データを音声出力部708に入力し、音声出力部708は、入力された音声データを音声信号に変換して、音声出力装置104等に出力する。
道路地図DB709は、例えば、図3に示すような、複数の地点を含む地図画像(道路地図等)300を表示するためのデータが格納されたデータベースである。道路地図DB709には、例えば、複数の道路が交差、合流、分岐する地点であるノードの情報、ノード間を結ぶ道路であるリンクの情報、及びPOI(Point OF Interest)情報等が含まれる。ノードの情報には、例えば、ノードを識別するノード番号、ノードの位置を示すノード座標、ノードに接続するリンクのリンク番号等の情報が含まれる。リンクの情報には、例えば、リンクを識別するリンク番号、リンクの始点及び終点の座標、道路種別等の情報が含まれる。POI情報には、例えば、施設や店舗の名称、位置情報、ジャンル情報等が含まれる。
また、道路地図DB709には、例えば、水系データ、行政界位置データ、鉄道位置データ、施設等位置データ、施設等形状データ、地名等表示位置データ等の地図画像300を表示するための様々な情報が含まれる。
(サービス提供システムの機能構成)
図8は、一実施形態に係るサービス提供システムの機能構成の例を示す図である。図7に示したサービス提供装置100の機能構成は一例である。例えば、図8に示すように、図7のサービス提供装置100が有する各機能構成のうち、少なくとも一部は、サーバ装置201等によって実現されるものであっても良い。
図8の例では、サーバ装置201は、対話サービス713を提供するコンピュータ、又は複数のコンピュータを含むシステムである。サーバ装置201は、1つ以上のコンピュータで所定のプログラムを実行することにより、例えば、通信部711、対話サービス713等を実現している。
通信部711は、サーバ装置201を通信ネットワーク202に接続して、例えば、サービス提供装置100等の他の装置と通信を行う。
対話サービス713は、前述したチャットボット等によって実現され、サービス提供装置100から送信された音声データ、又は文字列等の意図を解釈して、解釈した意図に応じた返答内容を音声データ、又は文字列で、サービス提供装置100に返信する。
例えば、サービス提供部707は、利用者によって選択された所定の地点302に対する、情報の提供を要求する発話内容を受け付けると、選択された所定の地点302の情報と、音声認識部705が認識した「発話内容」とを、サーバ装置201に送信する。
これに応じて、サーバ装置201の対話サービス713は、所定の地点302の情報(例えば、位置座標、地名、施設名等)に基づいて、所定の地点302に関する情報を収集し、返答内容を作成して、サービス提供装置100に返信する。
サービス提供部707は、サーバ装置201から返信された返答内容を、音声又は文字列等で、利用者に提供する。このように、サービス提供装置100は、サーバ装置201が提供する対話サービス713を利用することにより、サービス提供装置100の負荷を軽減させることができる。
<処理の流れ>
続いて、本実施形態に係るサービス提供方法の処理の流れについて説明する。
[第1の実施形態]
図9は、第1の実施形態に係るサービス提供処理の例を示すフローチャートである。この処理は、サービス提供装置100が実行するサービス提供処理の一例を示している。
ステップS901において、サービス提供装置100の表示制御部706は、例えば、図3に示すような地図画像300を、表示装置103に表示させる。
ステップS902において、サービス提供装置100の画像解析部703は、画像取得部702が取得した、利用者を撮影した撮影画像を解析して、利用者が、選択動作をしているか否かを判断する。例えば、画像解析部703は、図3で説明したように、利用者が、所定の地点302を指さすジェスチャー310をしている場合、選択動作をしていると判断する。
利用者が選択動作をしていない場合、画像解析部703は、ステップS902の処理を、例えば、所定の時間間隔で繰返し実行する。一方、利用者が選択動作をしている場合、画像解析部703は、処理をステップS903に移行させる。
ステップS903に移行すると、サービス提供装置100の表示制御部706は、例えば、図3に示すように、地図画像300上にポインター301を表示させる。
また、前述したように、利用者は、ポインター301が、所定の地点302と異なる位置に表示された場合、例えば、指を上下左右に移動させるジェスチャーにより、ポインター301を所定の地点302に移動させることができる。例えば、画像解析部703は、利用者を撮影した撮影画像(動画データ)を繰返し解析することにより、利用者による指を上下左右に移動させるジェスチャーを順次に特定する。また、表示制御部706は、特定されたジェスチャーに応じて、ポインター301の位置を上下左右に移動させる。
ステップS904において、画像解析部703は、利用者が選択する所定の地点302を特定する。例えば、画像解析部703は、利用者によって決定されたポインター301の位置を、所定の地点302とする。例えば、画像解析部703は、ポインター301が所定の時間以上同じ位置にある場合、或いは、利用者の発話が検出された場合等に、ポインター301が示す位置を、所定の地点302としても良い。
ステップS905において、サービス提供装置100の音声認識部705は、音声取得部704が取得した利用者の音声を解析して、利用者の発話内容を認識する。
ステップS906において、サービス提供装置100のサービス提供部707は、利用者によって選択された地点又はエリアと、発話内容とに応じたサービスを提供する。
例えば、図3に示すように、ポインター301が所定の地点302を指しているときに、利用者による「これは何?」、又は「何?」等の発話が認識されたものとする。この場合、サービス提供部707は、所定の地点302に関する情報(例えば、地名、山の名前、POI情報等)を、音声等による対話で利用者に提供する。
また、ポインター301が所定の地点302を指しているときに、利用者による「ここに行きたい」、又は「行きたい」等の発話が認識されると、サービス提供部707は、現在の地点303から所定の地点302までのルート案内を実行する。
さらに、例えば、図5(A)に示すように、ポインター301が地図画像300上に表示されているときに、利用者が「この辺を拡大して」と発話したものとする。この場合、サービス提供部707は、ポインター301の周辺のエリア501指定されたと判断し、ポインター301の周辺のエリア501を拡大した地図画像を、表示制御部706を介して、表示装置103に表示させる。
上記の処理により、利用者が発話した音声に応じて所定のサービスを提供するサービス提供システム1において、利用者が処理対象(例えば、所定の地点302の名称等)を発話しなくても、サービスを受けられるようになる。
[第2の実施形態]
第2の実施形態では、地図画像上に表示された操作ボタン等を表示して、第1の実施形態と同様の手法により、操作ボタン等も操作できるようにする場合の処理の例について説明する。なお、第2の実施形態に係るサービス提供システム1のシステム構成、ハードウェア構成、及び機能構成は、第1の実施形態と同様で良い。
<処理の流れ>
図10は、第2の実施形態に係るサービス提供処理の例を示すフローチャートである。なお、基本的な処理内容は、図9に示す第1の実施形態に係るサービス提供処理と同様なので、ここでは、第1の実施形態と同様の処理に対する詳細な説明は省略する。
ステップS1001において、サービス提供装置100の表示制御部706は、例えば、図11に示すように、地図画像と、1つ以上の操作ボタン1101a、1101b、1101c、・・・とを含む表示画像1100を、表示装置103に表示させる。なお、以下の説明の中で、1つ以上の操作ボタン1101a、1101b、1101c、・・・のうち、任意の操作ボタンを示す場合、「操作ボタン1101」を用いる。
ステップS1002において、サービス提供装置100の画像解析部703は、画像取得部702が取得した、利用者を撮影した撮影画像を解析して、利用者が、選択動作をしているか否かを判断する。例えば、画像解析部703は、利用者が、所定の地点302、又は操作ボタン1101を指さすジェスチャー310をしている場合、選択動作をしていると判断する。
利用者が選択動作をしていない場合、画像解析部703は、ステップS1002の処理を、例えば、所定の時間間隔で繰返し実行する。一方、利用者が選択動作をしている場合、画像解析部703は、処理をステップS1003に移行させる。
ステップS1003に移行すると、サービス提供装置100の表示制御部706は、例えば、図11に示すように、表示画像1100上にポインター301を表示させる。
なお、利用者は、ポインター301が、意図と異なる位置に表示された場合には、第1の実施形態と同様に、例えば、指を上下左右に移動させるジェスチャーにより、ポインター301を所望の位置に移動させることができるものとする。
ステップS1104において、画像解析部703は、利用者が選択する処理対象を特定する。ここで、処理対象には、例えば、地図画像上の複数の地点に加えて、1つ以上の操作ボタン1101a、1101b、1101c、・・・が含まれる。例えば、画像解析部703は、利用者によって決定されたポインター301の位置を、処理対象とする。
ステップS1105において、サービス提供装置100の音声認識部705は、音声取得部704が取得した利用者の音声を解析して、利用者の発話内容を認識する。
ステップS1006において、サービス提供装置100のサービス提供部707は、処理対象が操作ボタン1101であるか否かを判断する。処理対象が操作ボタン1101でない場合、サービス提供部707は、処理をステップS1007に移行させる。一方、処理対象が操作ボタン1101である場合、サービス提供部707は、処理をステップS1008に移行させる。
ステップS1107に移行すると、サービス提供部707は、第1の実施形態と同様にして、利用者によって選択された地点又はエリアと、発話内容とに応じたサービスを提供する。
一方、ステップS1108に移行すると,サービス提供部707は、選択された操作ボタン1101と、認識された発話内容とに応じた処理を実行する。
例えば、選択された操作ボタンが「ルート変更」ボタンであり、発話内容が探索モードを指定する発話(例えば、「推奨」、「距離」、「燃費」、「時間」等)である場合、サービス提供部707は、発話された探索モードで目的地までの案内経路を再探索する。なお、「ルート変更」ボタンは、操作ボタン1101の一例である。
別の一例として、選択されたボタンが、「施設」ボタンであり、発話内容が施設を指定する発話(例えば、「コンビニ」、「駐車場」等)である場合、サービス提供部707は、発話された施設のうち、周辺にある施設のアイコンを地図画像上に表示させる。なお、「施設」ボタンは、操作ボタン1101の別の一例である。
また、操作ボタン1101は、「拡大」ボタン、「縮小」ボタン、「設定」ボタン等の様々な処理に対応する操作ボタンであっても良い。また、操作ボタン1101は、例えば、アイコン、文字列等の操作ボタン110以外の表示要素であっても良い。
このように、第2の実施形態によれば、サービス提供システム1は、地図画像上の複数の地点だけではなく、表示画像に表示された1つ以上の操作ボタン1101等を処理対象とすることができる。
従って、本発明の各実施形態によれば、利用者が発話した音声に応じて所定のサービスを提供するサービス提供システムにおいて、利用者が処理対象を発話しなくても、サービスを受けられるようになる。
以上、本発明の実施形態について説明したが、本発明は上記の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、様々な変形や変更が可能である。
例えば、上記の実施形態では、サービス提供装置100が、自動車等の車両10に搭載されているものとして説明を行ったが、サービス提供装置100は、例えば、船舶、航空機等の車両10以外の乗物に搭載されているものであっても良い。
1 サービス提供システム
10 車両
100 サービス提供装置
101 カメラ
102 マイク
103 表示装置
104 音声出力装置
105 通信装置
300 地図画像(表示画像の一例)
301 ポインター
703 画像解析部
705 音声認識部
706 表示制御部
707 サービス提供部
1100 表示画像
1101、1101a、1101b、1101c 操作ボタン

Claims (10)

  1. 複数の処理対象を含む表示画像を車両内に表示させる表示制御部と、
    前記車両の利用者を撮影した撮影画像を解析して、前記複数の処理対象のうち、前記利用者が選択する1つ以上の処理対象を特定する画像解析部と、
    前記利用者の音声を解析して、前記1つ以上の処理対象に対応する発話内容を認識する音声認識部と、
    前記1つ以上の処理対象に対する前記発話内容に応じたサービスを、前記利用者に提供するサービス提供部と、
    を有する、サービス提供装置。
  2. 前記画像解析部は、前記撮影画像から前記利用者のジェスチャー又は視線を解析し、
    前記表示制御部は、前記画像解析部による解析結果に基づいて、前記表示画像上の位置を示すポインターを表示させる、
    請求項1に記載のサービス提供装置。
  3. 前記画像解析部は、前記複数の処理対象のうち、前記ポインターで示される位置又はエリアにある処理対象を、前記1つ以上の処理対象とする、請求項2に記載のサービス提供装置。
  4. 前記サービス提供部は、前記1つ以上の処理対象と、前記発話内容とに応じて、音声又は文字列で応答する対話サービスを提供する、請求項1乃至3のいずれか一項に記載のサービス提供装置。
  5. 前記サービス提供部は、前記1つ以上の処理対象と、前記発話内容とに応じて、前記1つ以上の処理対象に関する情報を提供する、請求項1乃至4のいずれか一項に記載のサービス提供装置。
  6. 前記表示画像は、道路地図データベースに基づいて表示される地図画像を含み、
    前記サービス提供部は、前記利用者が前記地図画像から選択した地点の情報、又は前記地点までの経路情報を提供する、請求項1乃至5のいずれか一項に記載のサービス提供装置。
  7. 前記表示画像は、1つ以上の操作ボタンを含み、
    前記サービス提供部は、前記利用者が選択した前記操作ボタンと、前記発話内容とに対応する処理を実行する、請求項1乃至6のいずれか一項に記載のサービス提供装置。
  8. 前記発話内容に、前記1つ以上の処理対象を特定するための情報が含まれていない場合でも、前記1つ以上の処理対象に対する前記発話内容に応じたサービスを、前記利用者に提供可能であること特徴とする、請求項1乃至7のいずれか一項に記載のサービス提供装置。
  9. 複数の処理対象を含む表示画像を車両内に表示させる表示制御部と、
    前記車両の利用者を撮影した撮影画像を解析して、前記複数の処理対象のうち、前記利用者が選択する1つ以上の処理対象を特定する画像解析部と、
    前記利用者の音声を解析して、前記1つ以上の処理対象に対応する発話内容を認識する音声認識部と、
    前記1つ以上の処理対象に対する前記発話内容に応じたサービスを、前記利用者に提供するサービス提供部と、
    を有する、サービス提供システム。
  10. コンピュータが、
    複数の処理対象を含む表示画像を車両内に表示させる処理と、
    前記車両の利用者を撮影した撮影画像を解析して、前記複数の処理対象のうち、前記利用者が選択する1つ以上の処理対象を特定する処理と、
    前記利用者の音声を解析して、前記1つ以上の処理対象に対応する発話内容を認識する処理と、
    前記1つ以上の処理対象に対する前記発話内容に応じたサービスを、前記利用者に提供する処理と、
    を実行する、サービス提供方法。
JP2019154447A 2019-08-27 2019-08-27 サービス提供装置、サービス提供システム、及びサービス提供方法 Pending JP2021033746A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019154447A JP2021033746A (ja) 2019-08-27 2019-08-27 サービス提供装置、サービス提供システム、及びサービス提供方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019154447A JP2021033746A (ja) 2019-08-27 2019-08-27 サービス提供装置、サービス提供システム、及びサービス提供方法

Publications (1)

Publication Number Publication Date
JP2021033746A true JP2021033746A (ja) 2021-03-01

Family

ID=74678317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019154447A Pending JP2021033746A (ja) 2019-08-27 2019-08-27 サービス提供装置、サービス提供システム、及びサービス提供方法

Country Status (1)

Country Link
JP (1) JP2021033746A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216069A (ja) * 2000-02-01 2001-08-10 Toshiba Corp 操作入力装置および方向検出方法
US20110022393A1 (en) * 2007-11-12 2011-01-27 Waeller Christoph Multimode user interface of a driver assistance system for inputting and presentation of information
US20130307771A1 (en) * 2012-05-18 2013-11-21 Microsoft Corporation Interaction and management of devices using gaze detection
JP2016007898A (ja) * 2014-06-23 2016-01-18 トヨタ自動車株式会社 車両用操作装置
JP2017536600A (ja) * 2014-09-25 2017-12-07 マイクロソフト テクノロジー ライセンシング,エルエルシー 複数モードでの会話的対話における話された言語の理解のための凝視

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216069A (ja) * 2000-02-01 2001-08-10 Toshiba Corp 操作入力装置および方向検出方法
US20110022393A1 (en) * 2007-11-12 2011-01-27 Waeller Christoph Multimode user interface of a driver assistance system for inputting and presentation of information
US20130307771A1 (en) * 2012-05-18 2013-11-21 Microsoft Corporation Interaction and management of devices using gaze detection
JP2016007898A (ja) * 2014-06-23 2016-01-18 トヨタ自動車株式会社 車両用操作装置
JP2017536600A (ja) * 2014-09-25 2017-12-07 マイクロソフト テクノロジー ライセンシング,エルエルシー 複数モードでの会話的対話における話された言語の理解のための凝視

Similar Documents

Publication Publication Date Title
US11275447B2 (en) System and method for gesture-based point of interest search
EP2728313B1 (en) Method of displaying objects on a navigation map
CN106062514B (zh) 便携式装置与车辆头端单元之间的交互
US9625267B2 (en) Image display apparatus and operating method of image display apparatus
JP4705170B2 (ja) ナビゲーションデバイス及びナビゲーションデバイス上に表示された地図データをスクロールする方法
US10866107B2 (en) Navigation system
JP6604151B2 (ja) 音声認識制御システム
US9528848B2 (en) Method of displaying point on navigation map
US20130076883A1 (en) Vehicle system and method for providing information regarding an external item a driver is focusing on
US20200218488A1 (en) Multimodal input processing for vehicle computer
JP2016053880A (ja) 車載システム、情報処理方法、およびコンピュータプログラム
US20140181651A1 (en) User specific help
US11644330B2 (en) Setting destinations in vehicle navigation systems based on image metadata from portable electronic devices and from captured images using zero click navigation
JP4619442B2 (ja) 画像表示装置、表示制御方法、表示制御プログラムおよび記録媒体
WO2014151054A2 (en) Systems and methods for vehicle user interface
JP2021033746A (ja) サービス提供装置、サービス提供システム、及びサービス提供方法
US11057734B2 (en) Geospecific information system and method
JP7215184B2 (ja) 経路案内制御装置、経路案内制御方法、およびプログラム
CN108762713B (zh) 预约车辆的定位导航方法、装置以及计算机可读存储介质
JP2021032850A (ja) 情報提供装置、車両、情報提供システム、及び情報提供方法
JP2023179237A (ja) 通信機能付ナビゲーション装置、車両のルート案内プログラム及び方法
JP2021162398A (ja) 情報提供装置、情報提供方法、情報提供プログラム及び記憶媒体
JP4483454B2 (ja) カーナビゲーション装置
JP6582915B2 (ja) 情報表示端末及び情報表示プログラム
JP2024018785A (ja) データ処理システム及びデータ処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230919

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240312