JP6346281B2

JP6346281B2 - 車載対話型システム、及び車載情報機器

Info

Publication number: JP6346281B2
Application number: JP2016531202A
Authority: JP
Inventors: 宗紀杉田; 吉原　敬一朗; 敬一朗吉原
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2014-07-04
Filing date: 2015-05-29
Publication date: 2018-06-20
Anticipated expiration: 2035-05-29
Also published as: EP3166023A1; JPWO2016002406A1; WO2016002406A1; CN106662918A; US20170168774A1; EP3166023A4

Description

本発明は、車載対話型システム、及び車載情報機器に関する。

本技術分野の背景技術として、特開２０１４−１０６９２７号公報（特許文献１）がある。この公報には、「所定のユーザ操作を受け付ける操作受付手段３３と、音声データをテキストデータに変換する音声認識手段２３と、前記音声認識手段が認識したテキストデータから１つ以上の検索キーを抽出し、予め定められたカテゴリに分類する分類手段２２２と、カテゴリに分類される検索キーがない場合、検索履歴データに記録されている同じカテゴリの過去の検索キーを読み出して該カテゴリの検索キーに決定する検索キー作成手段２２６と、前記分類手段が分類した検索キーをカテゴリに対応づけて前記検索履歴データとして時系列に記録する検索履歴記録手段２２７と、検索キー作成手段が前記検索履歴データから検索キーを読み出す時系列上の位置を変更する参照履歴変更手段２２８と、を有する。」と記載されている。

特開２０１４−１０６９２７号公報

ユーザは、車両内において車載装置と対話することで、所望とする情報を検索することができるようになってきたが、発話の内容の自由度が高い場合には、ユーザは何を発話すれば良いか迷ってしまうときがあった。
そこで、本発明は、ユーザにとってより利便性が高められる車載対話型システム、及び車載情報機器を提供することを目的とする。

上記目的を達成するために、ユーザが発話した話し言葉の発話音声が入力される車載情報機器と、前記話し言葉の発話音声を対話型音声認識処理する対話型音声認識処理部と、前記対話型音声認識処理の結果に基づく応答を前記車載情報機器に送る応答部と、を備えた車載対話型システムにおいて、前記車載情報機器に設けられた表示部と、図像の画像を前記表示部に表示する表示制御部と、複数のコンテンツを記憶するコンテンツ記憶部と、を備え、前記図像は、前記発話に用いる単語、又は言葉を明示しない図像であり、かつ、当該単語、又は言葉を前記ユーザに連想させる図像であり、前記応答部は、前記対話型音声認識処理の結果に基づいて前記コンテンツ記憶部からコンテンツを取得し、前記車載情報機器に出力し、前記表示制御部は、前記コンテンツ記憶部に記憶されているコンテンツを連想させる図像の画像を前記表示部に表示し、前記コンテンツ記憶部から取得するコンテンツが特定されない場合には、当該コンテンツを特定するための対話応答文と、当該対話応答文に対応した図像の画像とを前記表示部に表示し、前記対話応答文に対応した図像の画像は、前記対話応答文に前記ユーザが返答するときの発話に用いる単語、又は言葉を明示しない図像であり、かつ、当該単語、又は言葉を前記ユーザに連想させる図像の画像であることを特徴とする。

本発明によれば、ユーザにとってより利便性が高められる。

図１は、本発明の実施形態に係る車載対話型システムの構成を模式的に示す図である。図２は、車載情報機器の構成を示す機能ブロック図である。図３は、虚像の表示態様を模式的に示す図である。図４は、サービス提供サーバの構成を示す機能ブロック図である。図５は、コンテンツサーバが提供するコンテンツの多様性を説明するための樹形図である。図６は、連想画像の表示動作に係るシーケンス図である。図７は、待受画面の一例を示す図である。図８は、コンテンツの取得要求における対話応答画面の表示例を示す図である。図９は、ＰＯＩ情報検索要求における対話応答画面の表示例を示す図である。図１０は、連想画像の説明図である。

以下、図面を参照して本発明の実施形態について説明する。
図１は、本実施形態に係る車載対話型システム１の構成を模式的に示す図である。
車載対話型システム１は、車両２に乗車しているユーザＵ（主に運転手）が当該車両２に搭載されている車載情報機器３に音声入力により指示を与えて操作するシステムである。この音声入力には対話型音声認識処理が用いられている。

対話型音声認識処理は、音声認識処理とは異なり、「コマンド」を認識処理するのではなく、「自然な話し言葉」を認識処理する。
「コマンド」とは、各種の操作の指示のために予め定められた単語、又は言葉であり、例えば「音声入力開始」や、「○○表示」、「音楽再生」といった単語、又は言葉である。「コマンド」を用いた認識処理では、「コマンド」以外の単語や言葉は認識されないことから、ユーザＵは、適切な指示を与えるには「コマンド」についての予備知識が必要となる。

一方、「自然な話し言葉」における「話し言葉」とは、日常の会話に用いられる言葉であり、「自然な」「話し言葉」とは、ユーザＵが音声認識装置への音声入力操作を意識した「話し言葉」ではなく、日常生活においてユーザＵが相対する「聞き手」との会話で通常に使う言葉である。
すなわち、この車載対話型システム１では、「自然な話し言葉」が発話されて音声入力されても、「聞き手」が通常に理解する意味と同等の内容が対話型音声認識処理により認識、及び理解される。このため、ユーザＵは、車載情報機器３に指示を与えるための「コマンド」を予め知っている必要はなく、日常生活で話すときと同じ自由な発話で指示を与えることができるようになっている。

また、この車載対話型システム１は、ユーザＵの発話音声Ａ１の音声入力による操作を通じて、コンテンツの取得、及びＰＯＩ情報検索を可能にしており、図１に示すように、上記車載情報機器３と、サービス提供サーバ４と、コンテンツサーバ５と、ＶＲサーバ６とを備え、これらが電気通信回線７に互いにデータ通信するように接続されている。

図２は、車載情報機器３の構成を示す機能ブロック図である。
車載情報機器３は、車両２に搭載される車載型の機器であり、コンテンツ提供機能、及びＰＯＩ検索機能に加え、ナビゲーション機能と、運転支援機能とを実現可能に構成され、かつ、これらの機能を音声入力により操作可能に構成されている。
すなわち、車載情報機器３は、図２に示すように、音声入力部１０と、操作部１１と、表示部１２と、音声出力部１５と、コンテンツ再生部１６と、ナビゲーション部１７と、運転支援部１８と、データ通信部１９と、記憶部２０と、制御部３０とを備えている。

制御部３０は、車載情報機器３の各部を中枢的に制御するものであり、ＣＰＵやＲＡＭ、ＲＯＭ等を備えたマイクロコンピュータにより構成されている。また、ＲＯＭには、制御部３０による制御機能を実現するためのコンピュータプログラムが格納されている。この制御部３０の機能的構成については後述する。

音声入力部１０は、ユーザＵが発話した発話音声Ａ１を取得し、制御部３０に出力する。
この音声入力部１０は、例えば発話音声Ａ１を集音してアナログ音声信号を出力するマイク装置や、このアナログ音声信号を所定の符号化形式でデジタル化してデジタル音声信号を出力するデジタルプロセッサを備え、このデジタル音声信号が制御部３０に出力される。
操作部１１は、複数の操作子を備え、車載情報機器３に対する手動操作を可能にする。

表示部１２は、各種の情報を表示するものであり、ＬＣＤ１３とＨＵＤ１４とを備えている。
ＬＣＤ１３は、液晶ディスプレイであり、車両２に設けられたダッシュボード（図示せず）に設置され、メインメニュー画面や、コンテンツ提供機能、ナビゲーション機能、及び運転支援機能の各機能に対応した画面を表示する。
例えば、コンテンツ提供機能に対応した画面として、コンテンツ表示画面や、音楽コンテンツや動画コンテンツの再生を操作するための操作画面が表示される。またナビゲーション機能に対応した画面として、経路案内用地図を表示する地図画面や周辺地図、ＰＯＩ(Point of Interest)情報を表示する情報表示画面が表示される。
なお、ＬＣＤ１３に代えて、例えば有機ＥＬディスプレイ等の他のフラットパネルディスプレイを用いても良い。また、ＬＣＤ１３にタッチパネルを設け、上記操作部１１を構成しても良い。

ＨＵＤ１４は、走行中の道路や交通の状況に基づき、運転者の運転を支援する情報を表示する表示手段であり、運転者の前方に虚像による虚像画面Ｖを表示する、いわゆるヘッドアップディスプレイ（HUD：Head-Up Display）である。

図３は、虚像画面Ｖの表示態様を模式的に示す図である。
ＨＵＤ１４は、図４に示すように、車両２のフロントウィンドシールド４０に像を投影することで運転者に虚像画面Ｖを視認させるものであり、虚像画面Ｖを投影するための図示せぬ投影装置や投影光学系を有している。
虚像画面Ｖは、運転操作中の運転者による視認を容易とするために、運転者からみて運転ハンドル４１の正面位置の所定領域４２に表示される。
なお、上記ＬＣＤ１３は、ＨＵＤ１４の表示位置とは異なり、運転操作中にフロントウィンドシールド４０を正面視している運転者の視界に入り難い、又は入らない位置に設置される。

前掲図２に戻り、音声出力部１５は、各種の音声を出力するものであり、車両２の車室内に配設されたスピーカ装置を備えている。
音声出力部１５が出力する音声には、コンテンツ再生音や、車載情報機器３の操作音、及び操作ガイダンス音声、上述した対話型音声認識処理における対話音声などが挙げられる。

コンテンツ再生部１６は、制御部３０の制御の下、音楽コンテンツ、動画コンテンツ、画像コンテンツ、及び文字コンテンツ等のマルチメディアコンテンツの再生出力機能を実現する。このコンテンツ再生部１６は、通常の車載オーディオ装置が備えるマルチメディア再生機能を有し、音声出力部１５を通じて音声を適宜に出力し、また表示部１２のＬＣＤ１３に動画や画像、文字を適宜に表示する。すなわち、これら音声出力部１５、及び表示部１２は、コンテンツをユーザ視聴可能に出力する出力部としても機能する。

ナビゲーション部１７は、制御部３０の制御の下、ナビゲーション機能を実現する。このナビゲーション機能には、現在地又はユーザ指定地から目的地までのルートを検索するルート検索機能や、現在地から目的地までのルートを案内するルート案内機能が含まれる。

このナビゲーション部１７は、ＧＰＳ等の測位装置、及び地図データを記憶する記憶部などを備える通常の車載ナビゲーション装置が備える各種の機能を有し、音声出力部１５を通じて音声を出力し、また表示部１２のＬＣＤ１３に適宜に地図や、画像、文字等の各種情報を表示する。また、地図データには、道路の情報として、運転支援部１８の運転支援に要する各種の情報（法定速度や、勾配、規制情報、警戒情報など）が含められている。

運転支援部１８は、制御部３０の制御の下、車両２を運転する運転者の運転を支援する運転支援機能を実現する。この運転支援部１８は、前掲図３に示すように、表示部１２のＨＵＤ１４に運転支援画像４３を表示することで運転者の運転を支援する。
この運転支援画像４３は、運転者の運転操作に有益な情報を示す画像であれば任意のものが用いられる。例えば目的地に至る経路の方向を指し示す経路誘導画像や、走行中の道路の情報（例えば法定速度、勾配、規制情報、警戒情報など）を示す画像、周囲や走行方向前方の障害物を警告する画像といったものが運転支援画像４３に用いられる。

運転支援部１８は、ナビゲーション部１７が備える地図データ及びＧＰＳと、車両２が備える各種の車両情報センサ（例えば、車速パルスセンサや周囲物体検知装置、ブレーキ操作検知センサなど）とに基づいて、運転者の運転操作に有益な情報を特定し、当該情報に応じた運転支援画像４３をＨＵＤ１４に表示する。

データ通信部１９は、無線通信により電気通信回線７と通信する機能を備えている。この無線通信には、例えば携帯電話網を用いた通信や無線ＬＡＮ等の各種の移動体通信を用いることができる。また、データ通信部１９は、スマートフォンや無線ＬＡＮルータ端末等の他の通信装置を中継器として利用して電気通信回線７と通信する構成であっても良い。
記憶部２０は、制御部３０が実行するコンピュータプログラムや各種のデータを記憶する。

上記制御部３０は、コンテンツ再生制御部３１と、ナビ制御部３２と、運転支援制御部３３と、表示制御部３４と、サーバ連携部３５とを備えている。
コンテンツ再生制御部３１、ナビ制御部３２、及び運転支援制御部３３は、それぞれコンテンツ再生部１６、ナビゲーション部１７、及び運転支援部１８の動作を制御する。

表示制御部３４は、表示部１２が備えるＬＣＤ１３への各種情報の表示、及びＨＵＤ１４への虚像画面Ｖの表示を制御する。
また、この表示制御部３４は、発話音声Ａ１による音声入力が受け付け可能であるときには、前掲図３に示すように、音声入力の待機状態であることを示すマイク画像４４をＨＵＤ１４に表示する。ＨＵＤ１４にマイク画像４４が表示されることで、ユーザＵが運転操作中であっても、視線を逸らすことなく、発話音声Ａ１による音声入力が受け付け可能であることを把握できる。

なお、表示制御部３４は、マイク画像４４の表示時には、連想画像４５を表示しているが、これについては後述する。

サーバ連携部３５は、データ通信部１９を介してサービス提供サーバ４と通信し、当該サービス提供サーバ４との協働により、対話型音声認識により発話音声Ａ１を音声認識、及び理解し、ユーザＵへのコンテンツの提供、及びＰＯＩ情報検索を実行する。
具体的には、この車載対話型システム１では、ユーザＵの発話音声Ａ１に対する音声認識、及び理解に係る処理、及びユーザＵが要求するコンテンツ取得、及びＰＯＩ情報の検索に係る処理を、サービス提供サーバ４が中枢的に実行している。

すなわち、サーバ連携部３５は、ユーザＵが発話した発話音声Ａ１を音声データに変換してサービス提供サーバ４に送信し、この発話音声Ａ１を対話型音声認識処理した結果に基づく応答を当該サービス提供サーバ４から受信し、表示部１２や音声出力部１５に出力する。
サービス提供サーバ４から車載情報機器３が受ける応答は、例えばユーザＵが要求したコンテンツ、ＰＯＩ情報検索の結果、及びユーザＵに応答を求める対話応答文である。

図４は、サービス提供サーバ４の構成を示す機能ブロック図である。
サービス提供サーバ４は、ユーザＵの発話音声Ａ１を対話型音声認識処理により音声認識し理解し、ユーザＵが要求しているコンテンツ、又はＰＯＩ情報を車載情報機器３に送信するサーバコンピュータであり、図４に示すように、制御部５０と、データ通信部５１と、記憶部５２とを備えている。
データ通信部５１は、電気通信回線７を介して車載情報機器３、コンテンツサーバ５、及びＶＲサーバ６との間でデータ通信する。
記憶部５２は、制御部５０が実行するコンピュータプログラムや各種のデータを記憶する。
制御部５０は、各部を中枢的に制御するとともに、対話型音声認識処理を実行するものであり、ＣＰＵ、ＲＡＭ、及びＲＯＭ等を備え、記憶部５２に格納されているコンピュータプログラムに基づいて動作する。

対話型音声認識処理部５４は、対話型音声認識処理を実現する機能を有し、発話音声入力部５６と、音声認識部５７と、発話内容理解部５８と、応答部５９とを備えている。
発話音声入力部５６は、データ通信部５１を通じて車載情報機器３から受信したユーザＵの発話音声Ａ１が入力され音声認識部５７に出力する。この発話音声入力部５６は、音声認識部５７による発話音声Ａ１の音声認識精度を高めるために、この発話音声Ａ１の音声データに含まれるノイズ（雑音）を除去した後、音声認識部５７に出力する。なお、ノイズの除去には、音声信号処理の分野における任意の手法を用いることができる。

音声認識部５７は、発話音声Ａ１を音声認識し、発話音声Ａ１を文字列（テキスト）に変換したテキストデータを発話内容理解部５８に出力する。
この車載対話型システム１では、発話音声Ａ１の音声認識を高い精度で処理するために、前掲図１に示すように、音声認識処理を担うＶＲサーバ６が設けられており、音声認識部５７は、このＶＲサーバ６を用いて発話音声Ａ１をテキストデータに変換する。

ＶＲサーバ６は、電気通信回線７を介してサービス提供サーバ４から発話音声Ａ１の音声データを受信し、音声認識処理を施して文字列に変換し、この文字列のテキストデータをサービス提供サーバ４に送信する。このテキストデータが音声認識部５７を通じて発話内容理解部５８に出力される。

発話内容理解部５８は、テキストデータに基づきユーザＵが発話した内容を理解し、理解結果を応答部５９に出力する。
詳述すると、この発話内容理解部５８は、テキストデータの中から上記「コマンド」を抽出して指示を理解するのではなく、テキストデータの単語列の中から、当該サービス提供サーバ４がタスクを遂行するときに重要となるキーワードを抽出し、これらのキーワードを理解結果として応答部５９に出力する。

タスクとは、ユーザＵが要求する用件であり、この車載対話型システム１では、コンテンツの取得要求、又はＰＯＩ情報の検索要求である。
すなわち、発話内容理解部５８では、コンテンツを取得するときに重要となる単語（例えば、コンテンツの種類や内容、名称など）、及び、ＰＯＩ情報検索のときに重要となる単語（検索キーとなる単語）がキーワードとして抽出される。

例えば、発話音声Ａ１のテキストデータが「えーっと。サッカーワールドカップの結果が知りたいのだが。」という文字列であった場合、発話内容理解部５８は、ユーザＵの要求（タスク）がコンテンツの取得要求であると理解し、この理解結果として、「サッカー、ワールドカップ、結果」をキーワードとして抽出する。
また例えば、発話音声Ａ１のテキストデータが「この辺りでイタリアンレストランをお願いしたい。」という文字列であった場合、発話内容理解部５８は、ユーザＵの要求がＰＯＩ情報の検索要求であると理解し、この理解結果として、「この辺り、イタリアン、レストラン」をキーワードとして抽出する。

応答部５９は、発話内容理解部５８によって抽出されたキーワードに基づいて、発話内容理解部５８で理解されたタスク（ユーザＵの要求）を遂行し、遂行の結果を車載情報機器３に応答として送信する。
具体的には、タスクがコンテンツの取得要求であった場合、応答部５９は、ユーザＵが要求しているコンテンツをキーワードに基づいて特定し、当該コンテンツを車載情報機器３に送信する。例えば、キーワードが「サッカー、ワールドカップ、結果」であった場合、ユーザＵが取得要求しているコンテンツとして、サッカーワールドカップの試合結果の情報が特定される。

また例えば、タスクがＰＯＩ情報検索要求であった場合、応答部５９は、キーワードに基づいてＰＯＩ情報を検索し、検索結果を車載情報機器３に送信する。例えばキーワードが「この辺り、イタリアン、レストラン」であった場合、現在地周辺のイタリアンレストランのＰＯＩ情報が検索される。

応答部５９は、コンテンツ、又はＰＯＩ情報のデータを取得する場合、コンテンツサーバ５（図１）から取得し車載情報機器３に送信する。

なお、応答部５９は、理解結果のキーワードが不足し、ユーザＵが要求しているコンテンツ、又はＰＯＩ情報検索を特定できない場合には、これらの特定に要する発話音声Ａ１の入力を促す対話応答文を生成し、対話応答文のテキストデータを車載情報機器３に送信する。車載情報機器３にあっては、この対話応答文のテキストデータに基づく合成音声が出力され、これにより、対話形式で、ユーザＵによる音声入力操作が進められる。

前掲図１において、コンテンツサーバ５は、いわゆるコンテンツプロバイダーが管理するサーバコンピュータであり、多種多様なコンテンツのデータ（以下、「コンテンツデータ」という）をサービス提供サーバ４に提供可能に記憶するコンテンツ記憶部４８を備えている。

図５は、コンテンツサーバ５が提供するコンテンツの多様性を説明するための樹形図である。
この図に示すように、コンテンツサーバ５は、「ニュース」、「ラジオ」、「天気」、及び「グルメ」の各ジャンルＪのコンテンツデータを提供可能に保持している。
「ニュース」、「ラジオ」、及び「天気」のジャンルＪについては、ジャンルＪに対して下位の階層に位置する下位階層ジャンルＪ１に細分化されており、これら下位階層ジャンルＪ１の各々にコンテンツデータが保持されている。
例えば「ニュース」のジャンルＪの下には「経済」、「ＩＴ」、及び「スポーツ」等の下位階層ジャンルＪ１が配置され、それぞれの下位階層ジャンルＪ１にニュースのジャンルＪに係るコンテンツデータが準備されている。

また「ラジオ」のジャンルＪは、いわゆるインターネットラジオを指し、この「ラジオ」のジャンルＪの下には、「ロック」や「ＪＡＺＺ」等の下位階層ジャンルＪ１が配置され、それぞれの下位階層ジャンルＪ１に音楽コンテンツデータが準備されている。
また「天気」のジャンルＪは、天気情報を提供するジャンルであり、この「天気」のジャンルＪの下には、地方単位で分類した「関東地方」や「九州地方」等の下位階層ジャンルＪ１が配置される。また、当該下位階層ジャンルＪ１の下には、更に、県単位で分類した下位階層ジャンルＪ２と、県を更に市区町村単位で分類した下位階層ジャンルＪ３とが、それぞれ階層構造を成して配置されている。そして、最下層である下位階層ジャンルＪ３のそれぞれに、天気コンテンツデータが準備されている。

「グルメ」はＰＯＩ情報の検索対象のジャンルＪを示し、例えばレストラン情報等のＰＯＩ情報Ｋが準備されている。

コンテンツサーバ５は、図５に示す多数のジャンルＪのコンテンツデータ、及びＰＯＩ情報をコンテンツ記憶部４８に保持するが、これらのコンテンツデータは、ジャンルＪごとに分けて管理されているのではなく、ジャンルＪ、及び下位階層ジャンルＪ１、Ｊ２・・・と、その他の付随的情報とを含むタグ情報が紐付けられて管理されている。付随的情報とは、コンテンツデータごとに固有な情報や、コンテンツの内容に基づく特徴を表す情報などである。

コンテンツサーバ５は、コンテンツデータ又はＰＯＩ情報の要求をサービス提供サーバ４から受けた場合、要求に応じたジャンルＪごとに階層を下位に辿るように絞り込み検索を行って該当のコンテンツデータ又はＰＯＩ情報を検索するのではなく、次のようにして検索を行っている。
すなわち、コンテンツサーバ５は、コンテンツデータの要求を受けた場合には、全てのコンテンツデータの中から、要求にマッチする度合いが高いタグ情報を有したコンテンツデータを検索し、サービス提供サーバ４に送信する。
また、コンテンツサーバ５は、ＰＯＩ情報の要求を受けた場合にも、全てのＰＯＩ情報の中から、要求にマッチする度合いが高いタグ情報を有したＰＯＩ情報を検索し、サービス提供サーバ４に送信する。

この検索によれば、コンテンツデータの要求時に、そのコンテンツデータが属するジャンルＪ、及び下位階層ジャンルＪ１、Ｊ２・・・が指定されていなくとも、要求にマッチするコンテンツデータが抽出可能になる。
すなわち、ユーザＵがコンテンツデータを発話音声Ａ１の音声入力によって要求するときに、ジャンルＪ、及び下位階層ジャンルＪ１、Ｊ２・・・を指定する単語を発話せずとも、所望のコンテンツデータが特定される。

このように、この車載対話型システム１では、ユーザＵは、コンテンツ及びＰＯＩ情報を要求するときには、図５に示すジャンルＪや下位階層ジャンルＪ１、Ｊ２、・・・を知らなくても、所望のコンテンツ、及びＰＯＩ情報に因んだ単語や言葉を発話すれば、当該所望のコンテンツ、及びＰＯＩ情報がサービス提供サーバ４によって取得され、ユーザＵに提供される。
これに加え、この車載対話型システム１にあっては、上述のとおり、ユーザＵは、「コマンド」などの所定の単語を発話せずとも、日常の自由な発話により車載情報機器３に対して音声による指示を与えることができる。
すなわち、ユーザＵは、車載情報機器３に指示を与えるときには、何を話してもよいし、どんな表現で話してもよく、音声入力に用いる発話の自由度が非常に高い車載対話型システム１が実現されている。

一方で、車載対話型システム１が提供可能なコンテンツの種類やＰＯＩ情報を把握していないユーザＵにとっては、音声入力に用いる発話の自由度が高いと、反って何を発話すれば良いのか分かり難くなる。
そこで例えばユーザＵが操作部１１を手動操作してＬＣＤ１３にメインメニュー等を表示させれば、提供可能なコンテンツの種類等を把握できるものの、運転操作中に運転者がＬＣＤ１３の画面を注視することは好ましくない。
一方、ＨＵＤ１４は、運転操作中の運転者の視野内に位置することから、このＨＵＤ１４に音声入力に用いて好ましい発話の例文等を文字で表示すると、運転者が無意識に文字読みしてしまい、運転者の集中力を削ぎ兼ねない。

また、提供可能なコンテンツをユーザＵが把握する必要があるということは、予備知識を必要としない音声入力操作とは言えず、ましてや音声入力に用いる発話の例文等を表示し、それをユーザＵに読み上げさせることは、「コマンド」による音声入力と何ら変りがない。

そこで、この車載情報機器３では、提供可能なコンテンツをユーザＵが把握しておらず、なおかつ運転操作中であっても、ユーザＵが指示を与えるための発話を直感できるように、ＨＵＤ１４の虚像画面Ｖには、前掲図３に示すように、上述の連想画像４５が表示されている。この連想画像４５は、車載情報機器３へ音声入力により指示を与えるときに用いる単語又は言葉を連想させる図像が描かれた画像であり、ＨＵＤ１４への連想画像４５の表示は、車載情報機器３の表示制御部３４によって制御されている。また、この連想画像４５に用いられている図像は、その単語や言葉を表し、或いは象徴する図形や模様、絵などからなる画像であり、その単語や言葉を直接的に示す文字列を含まないものである。

図６は、連想画像４５の表示動作に係るシーケンス図である。
同図に示すように、車載情報機器３は、音声入力を待ち受けている待受時には、虚像画面Ｖとして待受画面Ｖ１を表示する（ステップＳ１）。

図７は、待受画面Ｖ１の一例を示す図である。
この図に示す待受画面Ｖ１は、車両２の走行中の表示例であり、運転操作を支援する運転支援画像４３が含まれ、また音声入力の待受状態であることを示すマイク画像４４が表示されている。そして、このマイク画像４４に隣接して連想画像４５が表示される。

この車載対話型システム１では、ユーザＵは、前掲図５に示すように、「ニュース」、「ラジオ」、「天気」、及び「グルメ」の各ジャンルＪのコンテンツデータ、ＰＯＩ情報を音声入力操作によって入手できる。
したがって、音声入力の待受画面Ｖ１にあっては、車載情報機器３は、これらの各ジャンルＪのコンテンツの取得、及びＰＯＩ情報検索をするために、ユーザＵが音声入力により指示を与えるときに用いる単語や言葉を連想させる図像を描いた画像を連想画像４５として表示する。
なお、この図７の例では、理解を助けるために、連想画像４５の各々にジャンルＪの名称が併記されているが、ＨＵＤ１４にジャンル名を必ずしも表示する必要は無い。連想画像４５に文字を併記する場合は、ユーザＵが一瞥しただけで瞬時に理解できるように、当該文字は一つの単語を構成する文字列とするのが好ましい。

図７の例において、「ニュース」のジャンルＪに関連した単語を連想させる図像は「新聞」であり、この「新聞」の図像が、「ニュース」や「政治」、「経済」、「スポーツ」、或いは「サッカーの試合結果」といった「新聞」に関連した単語や言葉を、ユーザＵに連想させ、また示唆することとなる。
このとき、待受画面Ｖ１に、ジャンルＪの名称が明示的に表示されないこととすれば、連想画像４５の図像を視覚したユーザＵは、個々の関心事や興味の方向に即した単語や言葉を純粋に連想し発話が促されることとなる。

このようにして連想される単語や言葉は、ジャンルＪの名称に捕らわれることなくユーザＵの個々の関心事や興味を純粋に示すものであるから、対話型音声認識処理において、発話内容理解部５８が理解するキーワードに十分に相応しい単語を含むもの、すなわち、前掲図５の樹形図において、下位階層ジャンルＪ１、Ｊ２、・・・のコンテンツデータを直接的に特定可能な単語や言葉である蓋然性が高くなる。
したがって、このような単語や言葉が発話音声Ａ１に用いられることで、１回の発話音声Ａ１の音声入力で所望のコンテンツデータが特定され易くなるのである。

前掲図６に戻り、車載情報機器３は、待受画面Ｖ１の表示時に、ユーザＵの発話音声Ａ１が入力されると（ステップＳ２）、当該発話音声Ａ１の音声データをサービス提供サーバ４に送信する（ステップＳ３）。
サービス提供サーバ４は、発話音声Ａ１の音声データを受信すると（ステップＳ４）、この音声データに対して対話型音声認識処理を施して音声認識、及び理解する（ステップＳ５）。この発話音声Ａ１の理解の結果、ユーザＵが要求しているタスク（コンテンツの取得要求、又はＰＯＩ情報の検索要求）と、タスクの遂行に重要なキーワードとが特定される。
なお、この車載対話型システム１では、音声認識は、上述のとおり、ＶＲサーバ６によって行われる。

次いで、サービス提供サーバ４は、コンテンツの絞り込みの要否を判定する（ステップＳ６）。この絞り込みの要否では、発話音声Ａ１の理解結果に基づき、提供すべきコンテンツを特定できない場合、或いはＰＯＩ情報の検索結果が所定数を超えている場合には、絞り込みが「要」であると判定される。

例えば、コンテンツの取得要求において、発話音声Ａ１に、下位階層ジャンルＪ１、Ｊ２、・・・のコンテンツを直接的に特定可能な単語や言葉が含まれていた場合、ユーザＵが要求しているコンテンツが十分に特定されるから、絞り込みは「不要」と判定される。
これに対し、例えばユーザＵが「ニュース」というジャンルＪの名称のみを発話音声Ａ１として入力した場合、該当するコンテンツの数が多すぎることから、ユーザＵが要求しているコンテンツが特定されない。したがって、この場合には、サービス提供サーバ４は、上記絞り込みを「要」と判定する。

コンテンツの絞り込みは、ユーザＵとの対話形式で行われ、サービス提供サーバ４は、絞り込みに必要な発話音声Ａ１の返答を促す対話応答文のテキストデータを生成し、車載情報機器３に送信する（ステップＳ７）。
車載情報機器３は、対話応答文のテキストデータを受信すると（ステップＳ）、このテキストデータを合成音声で読み上げて音声出力するとともに、対話応答画面Ｖ２をＨＵＤ１４に表示する（ステップＳ９）。

図８は、コンテンツの取得要求における対話応答画面Ｖ２の表示例を示す図である。
コンテンツの取得要求においては、対話応答画面Ｖ２に対話応答文４６が文字列表示される。対話応答文４６が表示されることで、ユーザＵが対話応答文の音声出力を車両２の走行音等に埋もれて聞き取れなかった場合でも、対話応答の内容を把握できる。
さらに、この対話応答画面Ｖ２にあっては、対話応答文４６によって、ユーザＵが返答すべき内容は示唆されるものの、その返答の発話に用いる単語や言葉をユーザＵが想像し易くするために、この対話応答画面Ｖ２にも連想画像４５が表示されている。

この表示例は、「ニュース」のジャンルＪに属するニュースコンテンツを絞り込むための対話応答画面Ｖ２であり、このため、連想画像４５としては、「ニュース」のジャンルＪの下位に配置される下位階層ジャンルＪ１の名称である「経済」や「スポーツ」等に関連した画像が用いられる。

図９は、ＰＯＩ情報検索要求における対話応答画面Ｖ２の表示例を示す図である。
ＰＯＩ情報検索要求においては、対話応答画面Ｖ２には、検索でヒットしたＰＯＩ情報ごとに連想画像４５が表示される。それぞれの連想画像４５の画像は、例えばＰＯＩ情報が示す施設や建物、風景の写真画像であり、この連想画像４５に基づいて、ＰＯＩの名称や、特徴を示す単語や言葉をユーザＵは連想するようになる。
また、対話応答画面Ｖ２には、それぞれの連想画像４５に、項番（識別子）が併せて表示される。ＰＯＩ情報検索要求においては、この項番が対話応答文に相当し、対話応答画面Ｖ２の表示の際に合成音声によっても読み上げられる。ユーザＵは、連想画像４５から連想される単語や言葉に代えて、項番を発話することで、所望のＰＯＩ情報の指定が容易となる。

前掲図６に戻り、車載情報機器３は、ユーザＵが対話応答文に返答する発話をし、発話音声Ａ１が入力されると（ステップＳ１０）、当該発話音声Ａ１の音声データをサービス提供サーバ４に送信する（ステップＳ１１）。
サービス提供サーバ４は、発話音声Ａ１の音声データを受信すると（ステップＳ１２）、この音声データに対して対話型音声認識処理を施して音声認識、及び理解する（ステップＳ１３）。
そして、サービス提供サーバ４は、コンテンツデータの絞り込みの要否を判定し（ステップＳ１４）、絞り込みが「要」である場合には、ステップＳ７に戻って、絞り込みのための処理を繰り返す。

また、絞り込みが「不要」である場合、サービス提供サーバ４は、ユーザＵが要求しているコンテンツデータ、又はＰＯＩ情報の検索結果をコンテンツサーバ５から取得し（ステップＳ１５）、車載情報機器３に送信する（ステップＳ１６）。
車載情報機器３は、コンテンツデータ、又はＰＯＩ情報の検索結果を受信すると（ステップＳ１７）、これを音声、及び表示により出力することで、ユーザＵに提供する（ステップＳ１８）。
具体的には、車載情報機器３は、コンテンツデータ、又はＰＯＩ情報の検索結果がテキストデータを含む場合、当該テキストデータを合成音声により読み上げ、またＬＣＤ１３には、コンテンツデータ、又はＰＯＩ情報の検索結果に基づく表示を出力する。またコンテンツデータが音楽コンテンツデータである場合、車載情報機器３は、音楽コンテンツデータを再生出力する。

なお、車載情報機器３は、コンテンツデータ、及びＰＯＩ情報の検索結果を表示により出力する場合に、ＨＵＤ１４にも、コンテンツデータ、及びＰＯＩ情報の検索結果に係る情報を虚像表示しても良い。

以上説明した実施形態によれば、次のような効果を奏する。

すなわち、ユーザＵが発話した発話音声Ａ１を対話型音声認識処理した結果に基づく応答を出力する車載情報機器３において、応答を得るための発話に用いる単語、又は言葉を連想させる図像である連想画像４５を表示部１２のＨＵＤ１４に表示する構成とした。
この構成により、ユーザＵは、連想画像４５を視覚することで、音声入力により発話する単語、又は言葉を連想することができ、車載情報機器３の音声入力操作に対し、予備知識が無くとも、所望の応答に合せて適切に発話することができる。
これにより、自由な発話で音声入力操作が可能であり、かつ、ユーザＵが発話に用いる単語や言葉に迷うことが無い、非常に利便性が高い車載情報機器３が実現される。

また本実施形態によれば、車載情報機器３が出力可能なコンテンツを連想させる図像が連想画像４５として表示される。
これにより、ユーザＵは、車載情報機器３が出力可能なコンテンツに関する単語や言葉を連想し、発話に用いるようになるので、出力可能なコンテンツの範囲をユーザＵが予め知らなくとも、コンテンツを容易に得られる。

また本実施形態によれば、ユーザＵの発話音声Ａ１によりコンテンツが特定されない場合には、コンテンツを特定するための対話応答文４６と、当該対話応答文に返答するときの発話に用いる単語、又は言葉を連想させる連想画像４５を表示部１２のＨＵＤ１４に表示する構成とした。
これにより、ユーザＵは、対話応答文に返答するときにおいても、返答に用いる単語や言葉に迷うことなく、スムーズに音声入力操作を遂行できる。

また本実施形態によれば、ユーザＵが要求しているＰＯＩ情報として複数のＰＯＩ情報が特定された場合には、それぞれのＰＯＩ情報ごとの連想画像４５を識別子たる項番４７とともにＨＵＤ１４に表示する構成とした。
この構成によれば、ユーザＵは、ＰＯＩ情報を選択するための発話に、連想画像４５から連想される単語や言葉の他に、項番４７を用いることができる。特にユーザＵは、項番４７を発話に用いることで、ＰＯＩ情報を一意に選択できる。

なお、タスクがコンテンツ取得要求であった場合に、複数のコンテンツデータが特定されたとき、ＰＯＩ情報と同様に、コンテンツデータごとの連想画像４５を識別子とともにＨＵＤ１４に対話応答画面Ｖ２として表示しても良いことは勿論である。

また本実施形態によれば、ＨＵＤ１４に、連想画像４５を表示する構成とした。
この構成によれば、運転者が運転操作中であっても、視線を大きく逸らすことなく連想画像４５を視覚して、発話に用いる単語や言葉を連想することができる。
さらに、連想画像４５には、発話に用いる単語や言葉を連想させる図像が用いられており、その単語や言葉を直接的に示す文字列ではないから、運転支援画像４３を表示する表示機に連想画像４５を表示しても、運転時の文字読みという危険な行為を回避できる。

なお、上述した実施形態は、あくまでも本発明の趣旨を逸脱しない範囲で任意に変形、及び応用が可能である。

例えば、上述した実施形態において、自由度が高い音声入力操作にユーザＵが慣れた場合には、連想画像４５の表示を中止しても良い。
また連想画像４５の画像データは、サービス提供サーバ４が例えば対話応答文の内容に合わせて生成し、車載情報機器３に送信してＨＵＤ１４に表示させても良い。
また、図７〜図９などに示す連想画像４５の絵は、あくまでも例示であり、これに限定されるものではない。例えば図７には、「ニュース」のジャンルＪに関連した単語を連想させる連想画像４５として「新聞」を描いた図像が用いられている。
そして、上述のとおり、この「新聞」の図像は、「ニュース」というジャンルＪの名称のみならず、図１０に示すように、「ニュース」のジャンルＪの下位階層に系統付けられている「経済」や「スポーツ」といった下位階層ジャンルＪ１のジャンルの名称、これら下位階層ジャンルＪ１の更に下位の階層である「野球」や「サッカー」という下位階層ジャンルＪ２のジャンルの名称をユーザＵに連想させている。
加えて、「新聞」を描いた連想画像４５は、これらジャンルＪ、下位階層ジャンルＪ１、Ｊ２、・・・にタグ情報によって関連付けられているコンテンツ（例えば、「為替レート」や「サッカーの試合結果」など）の単語や言葉をも、ユーザＵに連想させ、また示唆するものとして用いられる。

このように、上述した実施形態の連想画像４５は、ジャンルＪ、このジャンルＪの下位階層に系統付けられた下位階層ジャンルＪ１、Ｊ２、・・・及び、これらジャンルＪ、或いは下位階層ジャンルＪ１、Ｊ２、・・・に関連付けられているコンテンツの各々を内包する図像として描かれたものである。
これにより、例えば連想画像４５として、ジャンルＪ、下位階層ジャンルＪ１、Ｊ２、・・・及び、コンテンツごとに、その名称や単語を一義的にユーザＵに認識させる画像を連想画像４５として提示する場合には、ユーザＵが一義的に認識した名称や単語しか発話しなくなるのに対し、１つの連想画像４５から、ジャンルＪのみならず、その下位階層ジャンルＪ１、Ｊ２、・・・やコンテンツを連想させて発話を促すことができ、結果として、発話入力の回数の削減にもつながる。

このような連想画像４５の具体例としては、内包するジャンルＪ、下位階層ジャンルＪ１、Ｊ２、・・・及びコンテンツの全てを象徴する１つの図形や文字、記号（以下、図形等という）の図像の他に、例えばジャンルＪを象徴する図形等、下位階層ジャンルＪ１、Ｊ２、・・・を象徴する図形等、及びコンテンツを象徴する図形等の各々を含んで描かれた図像がある。

また上述した実施形態において、サービス提供サーバ４が受け付け可能なタスクや、提供可能なコンテンツは、あくまでも例示であり、任意のタスクやコンテンツを設定できる。

また図２、及び図４は、本願発明を理解容易にするために、車載情報機器３、及びサービス提供サーバ４の機能構成を主な処理内容に応じて分類して示した概略図であり、これらの構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、１つの構成要素がさらに多くの処理を実行するように分類することもできる。また、各構成要素の処理は、１つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
また、各構成要素の処理は、１つのプログラムで実現されてもよいし、複数のプログラムで実現されてもよい。この場合、上記車載情報機器３、及びサービス提供サーバ４のそれぞれは、これらのコンピュータプログラムを例えば電気通信回線７を通じてダウンロードし、或いは、コンピュータ読み取り可能な記録媒体から読み出し、それぞれのＣＰＵで実行する。

また例えば、上記図６のフローチャートの処理単位は、連想画像４５の表示処理の理解を容易にするために、主な処理内容に応じて分割したものである。処理単位の分割の仕方や名称によって、本願発明が制限されることはない。
すなわち、連想画像４５の表示処理は、処理内容に応じて、さらに多くの処理単位に分割することもできる。また、１つの処理単位がさらに多くの処理を含むように分割することもできる。また、連想画像４５の表示が同様に行われれば、上記のフローチャートの処理順序も、図示した例に限られるものではない。

また上述した実施形態の連想画像４５は、ユーザＵの音声入力を対話型音声認識処理により認識し、応答する機器であれば、車載型の機器に限らず、任意の機器の表示部に表示させ、ユーザ操作の利便性向上させことができる。

１車載対話型システム
２車両
３車載情報機器
４サービス提供サーバ
５コンテンツサーバ
１０音声入力部
１２表示部
１４ＨＵＤ（ヘッドアップディスプレイ）
１５音声出力部（出力部）
３０制御部
３４表示制御部
３５サーバ連携部
４０フロントウィンドシールド
４３運転支援画像
４４マイク画像
４５連想画像
４６対話応答文
４７項番（識別子）
４８コンテンツ記憶部
５０制御部
５４対話型音声認識処理部
５６発話音声入力部
５７音声認識部
５８発話内容理解部
５９応答部
Ａ１発話音声
Ｕユーザ
Ｊジャンル
Ｊ１、Ｊ２、・・・下位階層ジャンル
Ｖ虚像画面
Ｖ１待受画面
Ｖ２対話応答画面

Claims

ユーザが発話した話し言葉の発話音声が入力される車載情報機器と、
前記話し言葉の発話音声を対話型音声認識処理する対話型音声認識処理部と、
前記対話型音声認識処理の結果に基づく応答を前記車載情報機器に送る応答部と、を備えた車載対話型システムにおいて、
前記車載情報機器に設けられた表示部と、
図像の画像を前記表示部に表示する表示制御部と、
複数のコンテンツを記憶するコンテンツ記憶部と、
を備え、
前記図像は、前記発話に用いる単語、又は言葉を明示しない図像であり、かつ、当該単語、又は言葉を前記ユーザに連想させる図像であり、
前記応答部は、
前記対話型音声認識処理の結果に基づいて前記コンテンツ記憶部からコンテンツを取得し、前記車載情報機器に出力し、
前記表示制御部は、
前記コンテンツ記憶部に記憶されているコンテンツを連想させる図像の画像を前記表示部に表示し、前記コンテンツ記憶部から取得するコンテンツが特定されない場合には、当該コンテンツを特定するための対話応答文と、当該対話応答文に対応した図像の画像とを前記表示部に表示し、
前記対話応答文に対応した図像の画像は、
前記対話応答文に前記ユーザが返答するときの発話に用いる単語、又は言葉を明示しない図像であり、かつ、当該単語、又は言葉を前記ユーザに連想させる図像の画像である
ことを特徴とする車載対話型システム。
前記表示制御部は、
前記対話型音声認識処理の結果に基づいて、複数のコンテンツが特定された場合、それぞれのコンテンツを連想させる図像の画像を識別子とともに前記表示部に表示する
ことを特徴とする請求項１に記載の車載対話型システム。
前記表示部は、
車両の運転者の正面に虚像を表示するヘッドアップディスプレイである
ことを特徴とする請求項１に記載の車載対話型システム。
ユーザが発話した話し言葉の発話音声が入力される音声入力部と、
前記話し言葉の発話音声を対話型音声認識処理した結果に基づく応答を出力する出力部と、
を備えた車載情報機器において、
表示部と、
図像の画像を前記表示部に表示する表示制御部と、
を備え、
前記図像の画像は、前記発話に用いる単語、又は言葉を明示しない画像であり、かつ、当該単語、又は言葉を前記ユーザに連想させる図像であり、
前記出力部は、
前記対話型音声認識処理の結果に基づくコンテンツを出力し、
前記表示制御部は、
前記出力部が出力可能なコンテンツを連想させる図像の画像を前記表示部に表示し、前記出力部に出力するコンテンツが特定されない場合には、当該コンテンツを特定するための対話応答文と、当該対話応答文に応じた図像の画像とを前記表示部に表示し、
前記対話応答文に対応した図像の画像は、
前記対話応答文に前記ユーザが返答するときの発話に用いる単語、又は言葉を明示しない画像であり、かつ、当該単語、又は言葉を前記ユーザに連想させる図像の画像である
ことを特徴とする車載情報機器。
前記表示制御部は、
前記対話型音声認識処理の結果に基づいて複数のコンテンツが特定された場合、それぞれのコンテンツを連想させる図像の画像を識別子とともに前記表示部に表示する
ことを特徴とする請求項４に記載の車載情報機器。
前記表示部は、
運転者の正面に虚像を表示するヘッドアップディスプレイである
ことを特徴とする請求項４に記載の車載情報機器。