JP2021043913A

JP2021043913A - 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム

Info

Publication number: JP2021043913A
Application number: JP2019167683A
Authority: JP
Inventors: 洋平岡本; Yohei Okamoto
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2019-09-13
Filing date: 2019-09-13
Publication date: 2021-03-18
Anticipated expiration: 2039-09-13
Also published as: JP7336928B2

Abstract

【課題】ユーザの発話に応じて、バーチャルアシスタントによる応答を円滑に行うことを可能とする。【解決手段】第一ユーザが発した音声を示す第一音声信号及び第二ユーザが発した音声を示す第二音声信号を取得する音声取得部と、前記第一音声信号に基づいて前記第一ユーザによる要求を判別する要求判別部と、前記第二音声信号に基づいて前記要求に対する有効な反応があったか否かを判定する判定部と、前記有効な反応が無い場合に、前記要求に対して応答する応答信号をバーチャルアシスタントから取得する応答取得部と、前記応答信号に基づいて、前記要求に対する応答を実行する応答部とを備える。【選択図】図１

Description

本発明は、情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラムに関する。

従来、In-Car Communication（ICC）又はDriver Easy Speakという名称で、車内でのユーザ間の会話をサポートする機能がある。ＩＣＣ機能は、例えば、運転席でのドライバーの発話をマイクで集音し、それを後席のスピーカから再生すると共に、後席でのユーザの発話をマイクで集音し、それを運転席のスピーカから再生する。これにより、高速道路を走行している場合のように、騒音が激しい環境においても、搭乗者同士が円滑に会話をすることができる。

また、ユーザの発話による要求に応じて、タスク又はサービスを行うインテリジェントパーソナルアシスタント（ＡＩアシスタントとも称す）が知られている（特許文献１）。

特開２０１８−１８１３３０号公報

ＡＩアシスタントを利用する場合、ユーザは「Alexa（登録商標）」、「Hey Siri（登
録商標）」などのように、特定の起動フレーズ（ＷｕＷ：Wake-up Word）を発した後、「○○を探して」といった要求を発する必要がある。

このため、ユーザ間で、一方のユーザが「あと何分で目的地に着く？」のように質問し、相手のユーザから回答が得られなかった状況で、ＡＩアシスタントにも質問する場合に、問題が生じる。すなわち、一方のユーザは、「Alexa（登録商標）」「あと何分で目的
地に着く？」のように、起動フレーズに続けて、先程と同じ質問を再度発話する必要がある。このため、ＡＩアシスタントによる応答が円滑に行えないという問題が生じる可能性がある。

そこで、本発明の目的は、ユーザの発話に応じて、バーチャルアシスタントによる応答を円滑に行うことを可能とする技術を提供することにある。

上記課題を解決するため、本発明の情報処理装置は、
第一ユーザが発した音声を示す第一音声信号及び第二ユーザが発した音声を示す第二音声信号を取得する音声取得部と、
前記第一音声信号に基づいて前記第一ユーザによる要求を判別する要求判別部と、
前記第二音声信号に基づいて前記要求に対する有効な反応があったか否かを判定する判定部と、
前記有効な反応が無い場合に、前記要求に対して応答する応答信号をバーチャルアシスタントから取得する応答取得部と、
前記応答信号に基づいて、前記要求に対する応答を実行する応答部と、
を備える。

また、本発明の情報処理システムは、
前記情報処理装置と、通信回線を介して前記情報処理装置と接続し、前記バーチャルアシスタントとして前記応答信号を提供するアシスタントサーバとを備え、
前記アシスタントサーバが、
前記情報処理装置から取得した前記第一音声信号を音声認識して語群に変換する音声認識部と、
前記語群を自然言語処理して、前記要求を特定する要求特定部と、
前記要求に対応する情報をデータベースから取得し、応答信号を生成する応答生成部と、
前記応答信号を前記情報処理装置へ送信する送信部と、
を備える。

更に、本発明の情報処理方法は、
第一ユーザが発した音声を示す第一音声信号及び第二ユーザが発した音声を示す第二音声信号を取得するステップと、
前記第一音声信号に基づいて前記第一ユーザによる要求を判別するステップと、
前記第二音声信号に基づいて前記要求に対する有効な反応があったか否かを判定するステップと、
前記有効な反応が無い場合に、前記要求に対して応答する応答信号をバーチャルアシスタントから取得するステップと、
前記応答信号に基づいて、前記要求に対する応答を実行するステップと、
をコンピュータが実行する。

また、本発明は、前記情報提供方法の各ステップをコンピュータに実行させるためのプログラムであってもよい。また、本発明は、前記プログラムをコンピュータが読取可能であって非一時的に記憶した記憶媒体であってもよい。

本発明によれば、ユーザの発話に応じて、バーチャルアシスタントによる応答を円滑に行うことを可能とする技術を提供できる。

第一実施形態に係る情報処理システムの概略構成図である。情報処理装置の機能ブロック図である。記憶領域に記憶される発話区間信号の例を示す図である。情報処理装置のハードウェア構成図である。アシスタントサーバの機能ブロック図である。アシスタントサーバのハードウェア構成図である。ユーザと、情報処理装置（車載機）と、アシスタントサーバとが実行する動作の遷移状態を示すアクティビティ図である。情報処理装置が、ユーザの音声を取得する処理の流れを示す図である。情報処理装置が、ユーザ同士の会話に応じて、バーチャルアシスタントによる応答を取得してユーザへ提供する処理の流れを示す図である。アシスタントサーバが実行する処理の流れを示す図である。第二実施形態に係る情報処理装置の機能ブロック図である。第二実施形態に係る情報処理装置が、ユーザ同士の会話に応じて、バーチャルアシスタントによる応答を取得してユーザへ提供する処理の流れを示す図である。第三実施形態に係る情報処理装置の機能ブロック図である。第三実施形態に係るアシスタントサーバの機能ブロック図である。第三実施形態に係る情報処理装置が、ユーザの音声を取得する処理の流れを示す図である。第三実施形態に係る情報処理装置が、ユーザ同士の会話に応じて、バーチャルアシスタントによる応答を取得してユーザへ提供する処理の流れを示す図である。第三実施形態に係るアシスタントサーバが実行する処理の流れを示す図である。

〈第一実施形態〉
〈全体構成〉
以下、本発明の実施の形態について説明する。図１は、本実施形態に係る情報処理システムの概略構成図である。図１に示すように、情報処理システム１００は、情報処理装置１０と、当該情報処理装置１０へ情報（応答信号）を提供するアシスタントサーバ２０とを備えている。

本実施形態の情報処理システム１００では、情報処理装置１０が、ユーザの会話を取得し、この会話に基づく要求信号をアシスタントサーバへ送信する。アシスタントサーバ２０は、情報処理装置１０から受信した要求信号に基づいて、ユーザの要求を特定し、当該要求に応じた情報を情報処理装置１０へ提供する。この情報を情報処理装置１０がユーザへ提供することで、情報処理システム１００は、ユーザが口頭で要求したことに対して応答することができ、バーチャルアシスタントとして機能する。バーチャルアシスタントは、例えば、ユーザが人に話かけるように自然言語で発した要求に対し、この要求を人（アシスタント）が理解して応答を行うかのようにコンピュータが適切に応答を行い、アシスタントを仮想的に実現する機能、或いはこの機能を実現するコンピュータである。バーチャルアシスタントは、ＡＩアシスタント、インテリジェントパーソナルアシスタント（ＩＰＡ）、ソフトウェアエージェントとも呼ばれることもある。

情報処理装置１０とアシスタントサーバ２０は、通信回線Ｎを介して互いに通信可能に接続される。通信回線Ｎは、例えば、インターネット等の通信ネットワークである。通信回線Ｎは、少なくとも一部がＷｉＦｉやＬＴＥ等の無線通信方式を用いた回線であってもよい。

〈情報処理装置〉
図１に示すように、本実施形態の情報処理装置１０は、車両３０に搭載された車載機である。情報処理装置１０は、車両３０の各座席に設けられたマイク３１〜３４やスピーカ３５〜３８と接続され、各座席のマイク３１〜３４で取得したユーザの音声を他のユーザの座席に設けられたスピーカ３５〜３８から出力する。これにより情報処理装置１０は、例えば運転席に座るユーザ（搭乗者）と後部座席に座るユーザとの会話を中継し、ロードノイズが激しい環境においてもユーザ同士が明瞭に会話できるようにサポートするＩＣＣ（In-Car Communication）機能を実現する。

また、情報処理装置１０は、取得したユーザ同士の会話に基づいて質問等の要求を示す要求信号をアシスタントサーバ２０に送信する。そして、情報処理装置１０は、バーチャルアシスタントとして前記質問等に答える応答信号をアシスタントサーバ２０から取得し、この応答信号に基づいてユーザに質問の回答をする等の応答を実行する。

また、情報処理装置１０は、目的地が設定された場合に、現在位置から目的地までの経路を求め、この経路を走行するために、次の分岐点までの距離や分岐方向などをユーザに案内するナビゲーション機能を有する装置であってもよい。更に、情報処理装置１０は、このような経路の案内を行うナビゲーション機能部に加えて、ＣＤやＤＶＤ、半導体メモ
リ等の記憶媒体に記憶されたデータを読み出して、音響信号を再生するオーディオ機能部、及び動画の再生やテレビ放送の表示といったビジュアル機能部を備えたオーディオ・ビジュアル・ナビゲーション一体型の電子機器（ＡＶＮ機とも称す）であっても良い。

図２は、情報処理装置１０の機能ブロック図である。以下、図２に基づいて情報処理装置１０の各機能の詳細について説明する。

情報処理装置１０は、図２に示すように、音声取得部１１、音声認識部１２、要求判別部１３、応答判定部１４、応答取得部１５、音出力部１６、応答部１７、記憶領域１８を備えている。

音声取得部１１は、マイク（音声入力部）３１〜３４によって電気信号に変換されたユーザの音声を音声信号として取得する。なお、マイク３１〜３４には、ユーザの音声の他に、ロードノイズやスピーカから出力される音楽等の環境音も入力されるが、音声取得部１１は、マイク３１〜３４に入力された音の信号のうち、人の声に対応する所定帯域の信号を音声信号として取得する。ここで、所定帯域とは、例えば、人が話す声の帯域３５０Ｈｚ〜７ｋＨｚや、話が明瞭に聞き取れる帯域３００〜３．４ｋＨｚ等である。また、車外等にマイクを備えて環境音を取得し、マイク３１〜３４に入力された音の信号から、環境音の信号を除いたものを音声信号として取得してもよい。また、この環境音を除いた信号や所定帯域の信号から更に、スピーカから出力された音の信号を除いたものを音声信号として取得してもよい。

なお、図１の例では、マイク３１〜３４は、座席毎に設けられており、各座席に座るユーザの音声を取得対象としている。例えば、マイク３１は、前席右側の運転席に座るユーザ（運転者）の音声を取得対象とし、マイク３２は、前席左側の助手席に座るユーザの音声を取得対象としている。同様に、マイク３３は、後席右側の座席に座るユーザの音声を取得対象とし、マイク３４は、後席左側の座席に座るユーザの音声を取得対象としている。なお、図１では、４人乗りの例を示したが、乗車人数はこれに限らず、５人乗りや７人乗りなど、乗車人数を５人以上とする車両３０の座席毎にマイクが設けられた構成であってもよい。

このように各マイク３１〜３４の取得対象が定められているため、音声取得部１１は、音声信号が何れのマイク３１〜３４から得られたのかによって、どのユーザが発した音声の音声信号かを識別できる。なお、マイク３１〜３４は、それぞれが取得対象とするユーザの音声に対する感度が、他のユーザの音声よりも高くなるように、指向性等が調整されて配置されている。このため、一人のユーザの音声信号が同時に複数のマイク３１〜３４から取得された場合、各マイク３１〜３４によって取得した音声信号のレベルを比較する。そして、最も信号レベルが高いマイク３１〜３４が対象とするユーザの音声を特定し、前記複数のマイク３１〜３４で取得した音声信号を特定したユーザの音声の信号として識別する。

音声取得部１１は、各ユーザの音声を識別する場合、第一ユーザが発した音声の信号を第一音声信号、第二ユーザが発した音声の信号を第二音声信号として識別する。例えば、音声取得部１１は、バーチャルアシスタントに要求を行うユーザを第一ユーザ、この要求に対して応答する他のユーザを第二ユーザとし、マイク３１〜３４から第一ユーザが発した音声を示す第一音声信号及び第二ユーザが発した音声を示す第二音声信号を識別して取得する。

音声取得部１１は、取得した音声信号を記憶領域１８に記憶させる。例えば、音声取得部１１は、所定時間を空けずに連続して発せられた音声を示す第一音声信号又は第二音声
信号を一つの発話区間信号とし、所定数（例えば五つ）の発話区間信号を記憶領域１８に記憶させる。なお、記憶領域１８に記憶する発話区間信号は、第一音声信号及び第二音声信号であっても、第一音声信号のみであってもよい。

図３は、記憶領域１８に記憶される発話区間信号の例を示す図である。図３の例では、に示すように、五つの発話区間信号が、発話順に、発話したユーザのユーザＩＤと対応付けられて記憶されている。ユーザＩＤは、各ユーザを一意に識別する識別情報である。なお、図３では、説明のために、発話区間信号やユーザＩＤ等の情報を自然言語で示しているが、記憶領域１８に記憶される情報は、コンピュータによって読み書きできる言語であればよい。例えば、発話区間信号は、音の振幅をデジタル量で表したデータとして記憶される。

図３において、Ｎｏ１の発話区間信号は、ユーザＩＤが００３のユーザが発した質問であり、この場合、当該ユーザが第一ユーザとなり、その他のユーザが第二ユーザとなる。なお、Ｎｏ３の発話区間信号では、ユーザＩＤ＝００２のユーザが第一ユーザであり、その他のユーザが第二ユーザとなる。このように、発話区間信号毎に、それを発したユーザを記録しておき、要求に対して他のユーザのよる応答があったか否かが判別できるようにしている。

音声認識部１２は、音声取得部１１で取得した発話区間信号、即ちユーザによって発話された音声信号について音声認識処理を行い、ユーザが発した言葉を語群（文字列）に変換する。なお、音声認識部１２は、必須の構成ではなく、要求判別部１３や応答判定部１４が、文字列を用いて判定を行わない場合には省略されてもよい。

要求判別部１３は、第一ユーザによる要求を判別する。例えば、要求判別部１３は、音声認識部１２によって変換された文字列に、「○○に何分で着く？」「○○は何処？」「何が食べたい？」「○○に寄って」「音楽をかけて！」など、要求に用いられると推定される語（以下、要求用の語とも称す）が当該文字列に含まれていた場合、この文字列を第一ユーザによる要求と判定する。また、要求判別部１３は、当該文字列の変換元である発話区間信号を特定し、要求を含む発話区間信号としてメモリ１２３に記憶する。

なお、音声認識や要求内容の判定等の処理を高精度に行うには、多大な処理負荷が生じることがある。また、本実施形態では、要求に対する応答信号の生成をアシスタントサーバ２０側で行うので、情報処理装置１０が詳細に要求を解析しなくてもよい。このため、要求判別部１３は、「発話区間信号の一部（例えば文尾）に特定の語が含まれているか」「語尾が上がっているか」など、単純な判定条件を用いて、要求を含む発話区間信号か否かを判定し、処理を簡素化している。

なお、要求の判定は、音声認識を用いる手法に限らず、更に簡易な判定手法を用いてもよい。例えば、他のユーザの発話から所定時間以上間隔を空けて発話された発話区間信号をユーザの要求を含む発話区間信号と判定してもよい。なお、他のユーザの発話から所定時間（例えば３秒）以上間隔を空けずに発話された発話区間信号は、他のユーザの発話に対する応答と推定されるため、要求を含む発話区間信号と判定しない。

応答判定部１４は、第一ユーザ以外のユーザが発した第二音声信号からなる発話区間信号に基づいて前記要求に対する有効な反応があったか否かを判定する。例えば、応答判定部１４は、第二音声信号を音声認識して、ユーザが発した言葉を文字列に変換する。そして、応答判定部１４は、変換した文字列に、「あと○○分くらいかかるよ。」「ラーメンが食べたい。」「いいね！」「嫌だ！」「後で」など、応答に用いられると推定される語が含まれていた場合に、有効な応答があったと判定する。例えば、「○○に何分で着く？
」のような質問（要求）に対して、「あと４０分くらいかかるよ」のように回答（応答）が返される場合、「△△分」「△時間」「かかる」「着く」などの語が応答に用いられると推定される。応答判定部１４は、これらの語（以下、応答用の語とも称す）が含まれる発話区間信号が、前記質問の後に記憶されていれば、有効な応答があったと判定する。これらの応答用の語は、想定される質問と対応つけられ、辞書として後述の記憶装置に格納されている。応答判定部１４は、この辞書を参照して、前記質問に対応する応答用の語が発話区間信号に含まれているか否かを判定する。図３の例では、Ｎｏ１の質問に対して、ユーザＩＤ＝００１のユーザが「あと４０分くらいかかるよ」と発話しているので、応答判定部１４は、有効な応答があったと判定する。

また、応答判定部１４は、Ｎｏ３の質問「昼食は何が食べたい？」について、辞書を参照し「○○が食べたい」「○○（料理名）にしよう」「なんでもいい」「食べたくない」といった応答用の語を求め、Ｎｏ３の発話区間信号に当該語が含まれているので、有効な回答があったと判定する。なお、第二ユーザによる応答が「なんでもいい」「おいしいものが食べたい」など、曖昧な語の場合、回答として不十分なため、有効な応答があったと判定しなくてもよい。例えば、応答と推定される語のうち、「なんでもいい」「おいしいものが食べたい」「任せる」「決められない」など、有効な応答でないと判定する語（無効とする語）を定め、これらの語が含まれていた場合、有効な応答があったと判定しなくてもよい。

なお、第一ユーザによる質問に対し、第二ユーザによる発話が「う〜ん」「え〜と」のような語であった場合、応答用の語が含まれていないので、応答判定部１４は、有効な応答があったと判定しない。

また、応答判定部１４は、第一ユーザによる要求が発話された後、所定時間以上有効な応答がない場合に、有効な応答がないと判定する。図３の例では、Ｎｏ５の質問のように、次に記憶された発話区間信号がない状態で所定時間（例えば１０秒）が経過した場合に有効な応答がなかったと判定する。なお、Ｎｏ３の質問のように、応答があった場合でも「なんてもいい」のように無効とする語であった場合、有効な応答がないまま所定時間経過した時点で、有効な応答がないと判定する。

なお、応答の判定は、音声認識を用いる手法に限定されるものではなく、簡易な判定手法を用いてもよい。例えば、第一ユーザの要求を含む発話から所定時間（例えば５秒）以上間隔を空けずに発話された発話区間信号があった場合に、応答判定部１４は、当該要求に対する有効な応答があったと判定する。一方、第一ユーザの要求を含む発話から所定時間以上、発話（発話区間信号）がなかった場合に、応答判定部１４は、当該要求に対する有効な応答がなかったと判定する。

また、応答判定部１４は、音声取得部１１で取得した発話区間信号のうち、要求判別部１３で要求を含む発話区間信号と判定されたものの次に、要求を含む発話区間信号と判定されなかった発話区間信号があった場合、有効な応答があったと判定してもよい。この場合も、応答判定部１４は、要求を含む発話区間信号から所定時間以上、有効な応答と判定できる発話区間信号がなければ、その時点で有効な応答がなかったと判定してもよい。

応答取得部１５は、応答判定部１４で有効な反応が無いと判定した場合、例えば前記要求を含む音声が発せられてから所定時間以内に第二音声信号が取得できなかった場合に、要求を含む発話区間信号を要求信号としてアシスタントサーバ２０へ送信し、当該要求に対するバーチャルアシスタントの応答として、応答信号をアシスタントサーバ２０から取得する。また、応答取得部１５は、第二音声信号が要求に応答する音声を含まなかった場合に、前記要求に対して応答する応答信号をアシスタントサーバ２０から取得してもよい
。

音出力部１６は、マイク３１〜３４で取得した音声や、オーディオ機能で再生した音楽等の音をスピーカ３５〜３８から出力させる。音出力部１６は、例えば、各マイク３１〜３４で取得した音声を他のユーザの座席に設けられたスピーカから出力させることで、ＩＣＣ機能を実現する。

応答部１７は、アシスタントサーバ２０から受信した応答信号に基づいて、ユーザの要求に対する応答を実行する。応答部１７は、ユーザの要求が、質問であった場合、当該質問に答える音声メッセージをアシスタントサーバ２０から受信し、音出力部１６を介してスピーカ３５〜３８から出力させる。また、ユーザの要求が、「最寄りのコンビニに寄って」といった中継地点の設定であった場合、応答部１７は、最寄りのコンビニの位置情報をアシスタントサーバ２０から受信し、ナビゲーション部を制御して、当該コンビニの位置情報に基づいて中継地点を設定する。これに限らず、応答部１７は、応答信号に応じて、エアコンやオーディオ等の機能部を制御して応答を実行する。

図４は、情報処理装置１０のハードウェア構成図である。情報処理装置１０は、接続バス１２１によって相互に接続されたプロセッサ１２２、メモリ１２３、入出力ＩＦ（インターフェース）１２４、通信ＩＦ１２５を有するコンピュータである。プロセッサ１２２は、入力された情報を処理し、処理結果を出力することにより、装置全体の制御等を行う。プロセッサ１２２は、ＣＰＵ（Central Processing Unit）や、ＭＰＵ（Micro-processing unit）とも呼ばれる。プロセッサ１２２は、単一のプロセッサに限られず、マルチプロセッサ構成であってもよい。また、単一のソケットで接続される単一のチップ内に複数のコアを有したマルチコア構成であってもよい。

メモリ１２３は、主記憶装置と補助記憶装置とを含む。主記憶装置は、プロセッサ１２２の作業領域、プロセッサ１２２で処理される情報を一時的に記憶する記憶領域、通信データのバッファ領域として使用される。主記憶装置は、プロセッサ１２２がプログラムやデータをキャッシュしたり、作業領域を展開したりするための記憶媒体である。主記憶装置は、例えば、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）、フラッシュメモリを含む。補助記憶装置は、プロセッサ１２２により実行されるプログラムや、情報処理に用いられるデータ、動作の設定情報などを記憶する記憶媒体である。補助記憶装置は、例えば、ＨＤＤ（Hard-disk Drive）やＳＳＤ（Solid State Drive）、ＥＰＲＯＭ（Erasable Programmable ROM）、フラッシュメモリ、ＵＳＢメモリ、メモリカード等
である。また、補助記憶装置は、要求判別部１３又は応答判定部１４が用いる辞書、アプリケーションプログラム（情報処理プログラム等）、地図情報等を記憶する。また、補助記憶装置は、音声取得部１１が取得した発話区間信号を記憶する記憶領域として用いられる。

入出力ＩＦ１２４は、情報処理装置１０に接続する機器との間でデータの入出力を行うインターフェースである。入出力ＩＦ１２４は、例えば、センサや、ＥＣＵ、操作部、マイク３１〜３４、ラジオやテレビの放送波を受信するチューナ、ＣＤやＤＶＤ等の記憶媒体からデータを読み取るディスクドライブ、カードリーダライタ、アンプ、表示装置、スピーカ３５〜３８等の機器との間でデータの入出力を行う。操作部は、入力ボタンやダイヤル、タッチパネル等、ユーザの操作によって情報処理装置１０に対する情報が入力される入力部である。表示装置は、地図情報や、走行経路、施設情報などをユーザに対して表示出力する出力部である。

通信ＩＦ２５は、通信回線Ｎを介して他の装置との通信を行うインターフェース（通信モジュール）であり、ＣＣＵ（Communication Control Unit）とも称す。通信ＩＦ２５は
、例えば、ＷｉＭＡＸ（Worldwide Interoperability for Microwave Access）やＬＴＥ
（Long Term Evolution）、ＷｉＦｉ、ブルートゥース（登録商標）等の無線通信方式で
通信を行う。なお、図４に示した情報処理装置１０の構成要素はそれぞれ複数設けられてもよいし、一部の構成要素を設けないようにしてもよい。

本実施形態の情報処理装置１０では、プロセッサ１２２が、アプリケーションプログラムを実行することにより、音声取得部１１、音声認識部１２、要求判別部１３、応答判定部１４、応答取得部１５、音出力部１６、応答部１７といった各処理部として機能する。即ち、プロセッサ１２２は、実行するソフトウェアに応じて各処理部として兼用され得る。但し、上記各処理部の一部又は全部が、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate
Array）等の専用ＬＳＩ（large scale integration）、論理回路、その他のデジタル回
路といったハードウェアで形成されたものであってもよい。また、上記各処理部の少なくとも一部にアナログ回路を含む構成としてもよい。

〈アシスタントサーバ〉
図５は、アシスタントサーバ２０の機能ブロック図である。図５に基づいてアシスタントサーバ２０の各機能の詳細について説明する。

アシスタントサーバ２０は、図５に示すように、要求受信部２１、音声認識部２２、要求特定部２３、応答生成部２４、応答信号送信部２５、記憶領域２６を備えている。

要求受信部２１は、情報処理装置１０から要求信号を受信し、記憶領域２６へ記憶させる。この要求信号は、例えば、要求元の情報処理装置を識別するため装置ＩＤや、発話区間信号、この発話区間信号を識別するための発話ＩＤ等を有している。また、これに限らず、要求信号は、要求を発したユーザのユーザＩＤや、車両３０の現在位置等の情報を有していてもよい。

音声認識部２２は、情報処理装置１０から受信した発話区間信号、即ち第一ユーザによって発話された第一音声信号について、音声認識処理を行い、第一ユーザが発した音声を語群（文字列）に変換する。

要求特定部２３は、音声認識部２２で認識した語群を自然言語処理、例えば形態素解析や構文解析を行い、当該語群が含む各語の品詞や、各語が成す文の構造を求めて、要求の内容を特定する。例えば、語群が含む主語や、目的語、動詞を特定し、何が、何に対して、どのようにしたいか等、要求の内容を具体的に求める。

応答生成部２４は、要求特定部２３で特定した要求に対応する情報をデータベースから取得し、応答信号を生成する。本実施形態では、サンプルとする要求と、当該要求に対する応答との組み合わせを複数用意し、これらを教師データとして学習器が機械学習を行い、入力された要求と対応する応答を出力するニューラルネットワーク（応答モデル）を作成しておく。応答生成部２４は、要求特定部２３で特定した要求をニューラルネットワークに入力して、対応する応答を求め、この応答に該当する情報をデータベースから索出して応答信号とする。例えば、「最寄りのガソリンスタンドに寄って！」といった要求であった場合、応答生成部２４は、この要求をニューラルネットワークに入力し、車両３０の現在位置から最も近いガソリンスタンドの位置情報を応答とすることを求める。また、応答生成部２４は、車両３０の現在位置から最も近いガソリンスタンドの位置情報をデータベースから求め、この位置情報を通知する応答信号を生成する。この位置情報を通知する応答信号としては、例えば、「７００ｍ先の○○交差点を左折して１００ｍ直進したところに、ガソリンスタンドがあります。」のように、最寄りのガソリンスタンドまでの経路
を示す音声信号が挙げられる。また、応答信号は、車両３０のナビゲーション部に最寄りのガソリンスタンドを中継地点として設定させ、当該ガソリンスタンドまでの経路案内を行わせる制御信号であってもよい。

また、要求が「○○（目的地）まであと何分？」といった質問であった場合、応答生成部２４は、この要求をニューラルネットワークに入力し、車両３０の現在位置から目的地までの移動にかかる時間を応答とすることを求める。また、応答生成部２４は、データベースの地図情報等に基づき、現在位置から目的地までの走行距離や、現在位置から目的地までに走行する道路の制限速度、当該道路の混雑状況を前記応答に必要な情報として求める。そして、応答生成部２４は、走行距離を制限速度で除し、混雑状況に応じた係数を乗じて移動にかかる時間を算出し、「あと○○分です。」のように算出した時間を通知する音声信号を含む応答信号を生成する。

応答信号送信部２５は、応答生成部２４で生成した応答信号を要求元の情報処理装置１０へ送信する。

図６は、アシスタントサーバ２０のハードウェア構成図である。アシスタントサーバ２０は、接続バス２２１によって相互に接続されたプロセッサ２２２、メモリ２２３、入出力ＩＦ（インターフェース）２２４、通信ＩＦ２２５を有するコンピュータである。プロセッサ２２２は、入力された情報を処理し、処理結果を出力することにより、装置全体の制御等を行う。プロセッサ２２２は、ＣＰＵ（Central Processing Unit）や、ＭＰＵ（Micro-processing unit）とも呼ばれる。プロセッサ２２２は、単一のプロセッサに限られず、マルチプロセッサ構成であってもよい。また、単一のソケットで接続される単一のチップ内に複数のコアを有したマルチコア構成であってもよい。

メモリ２２３は、主記憶装置と補助記憶装置とを含む。主記憶装置は、プロセッサ２２２の作業領域、プロセッサ２２２で処理される情報を一時的に記憶する記憶領域、通信データのバッファ領域として使用される。主記憶装置は、プロセッサ２２２がプログラムやデータをキャッシュしたり、作業領域を展開したりするための記憶媒体である。主記憶装置は、例えば、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）、フラッシュメモリを含む。補助記憶装置は、プロセッサ２２２により実行されるプログラムや、情報処理に用いられるデータ、動作の設定情報などを記憶する記憶媒体である。補助記憶装置は、例えば、ＨＤＤ（Hard-disk Drive）やＳＳＤ（Solid State Drive）、ＥＰＲＯＭ（Erasable Programmable ROM）、フラッシュメモリ、ＵＳＢメモリ、メモリカード等
である。また、補助記憶装置は、要求受信部２１で受信した要求信号や、音声認識部２２の認識結果等の情報を記憶する記憶領域２６として用いられる。また、補助記憶装置は、応答生成部２４が用いるデータベースが格納されている。

入出力ＩＦ２２４は、アシスタントサーバ２０に接続する機器との間でデータの入出力を行うインターフェースである。入出力ＩＦ２２４は、例えば、ＣＤやＤＶＤ等の記憶媒体からデータを読み取るディスクドライブ、操作部、表示装置等の機器との間でデータの入出力を行う。操作部は、マウスやキーボード、タッチパネル等、オペレータの操作によってアシスタントサーバ２０に対する情報が入力される入力部である。表示装置は、処理結果などの情報をオペレータに対して表示出力する出力部である。

通信ＩＦ２５は、通信回線Ｎを介して他の装置との通信を行うインターフェース（通信モジュール）であり、ＣＣＵ（Communication Control Unit）とも称す。なお、図６に示したアシスタントサーバ２０の構成要素はそれぞれ複数設けられてもよいし、一部の構成要素を設けないようにしてもよい。

本実施形態のアシスタントサーバ２０では、プロセッサ２２２が、アプリケーションプログラムを実行することにより、要求受信部２１、音声認識部２２、要求特定部２３、応答生成部２４、応答信号送信部２５といった各処理部として機能する。即ち、プロセッサ２２２は、実行するソフトウェアに応じて各処理部として兼用され得る。但し、上記各処理部の一部又は全部が、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）等の専用ＬＳＩ（large scale integration）、論理回路、その他のデジタル回路といったハード
ウェアで形成されたものであってもよい。また、上記各処理部の少なくとも一部にアナログ回路を含む構成としてもよい。

〈情報処理方法〉
図７は、ユーザと、情報処理装置（車載機）１０と、アシスタントサーバ２０とが実行する動作の遷移状態を示すアクティビティ図である。

図７に示すように、情報処理装置１０は、情報処理方法を開始すると、マイク３１〜３４を介して、ユーザが発話した音声の取得を開始する（Ａ１０）。

ここで第一ユーザが、質問等の要求を発話すると（Ａ２０）、情報処理装置１０は、所定の時間間隔を空けずに連続して発せられ音声を一つの文章として検出し、この音声を示す信号を、発話区間信号として、記憶領域１８に記憶させる（Ａ３０）。

第二ユーザは、第一ユーザによる要求に対して応答を行う（Ａ４０）。この第二ユーザによる応答が有効な応答であれば、第一ユーザの要求が満たされたものとして、図７の制御は終了する。

一方、第一ユーザの質問に対して、第二ユーザが「うーん」「わからない」などと回答した場合、或いは所定時間回答しなかった場合、第一ユーザの要求が満たされないので、情報処理装置１０は、有効な応答がないと判定する。このように第二ユーザによる応答が有効でない場合、情報処理装置１０は、第一ユーザの要求を含む発話区間信号を記憶領域１８から読み出して要求信号とし、アシスタントサーバ２０へ送信する（Ａ５０）。

要求信号を受信したアシスタントサーバ２０は、要求信号に含まれる発話区間信号について音声認識処理を行い、第一ユーザが発話した言葉を文字列に変換する。また、アシスタントサーバ２０は、変換した文字列について、自然言語処理を行い、第一ユーザによる要求の意図を特定する（Ａ６０）。

そして、アシスタントサーバ２０は、特定した要求の意図に応じて、データベースから第一ユーザへ提供する情報を取得し、応答信号を生成して情報処理装置１０へ送信する（Ａ７０）。
情報処理装置１０は、受信した要求信号に基づいて応答を行う（Ａ８０）。例えば、情報処理装置１０は、質問の回答を表示装置へ表示させると共に、スピーカ３５〜３８から音声メッセージとして出力する。

このように情報処理装置１０は、ユーザ同士の会話に応じて、バーチャルアシスタントによる応答を行うか否かを決定する。例えば、第一ユーザが「○○に何分で着く？」といった質問をして回答を要求した場合に、第二ユーザから「あと４０分くらいかかるよ。」のように有効な回答があれば、情報処理装置１０は、第一ユーザの要求が満たされたものとして、バーチャルアシスタントによる応答を行わない。一方、第二ユーザが「分からない」「うーん」のように、有効な回答でなかった場合、情報処理装置１０は、第一ユーザの要求が満たされていないと判断できるので、バーチャルアシスタントによる応答を行う
。

次に情報処理装置１０が、本実施形態の情報処理方法を実行する際の各処理の流れについて、図８、図９を用いて説明する。図８は、情報処理装置１０が、ユーザの音声を取得する処理の流れを示す図、図９は、情報処理装置１０が、ユーザ同士の会話に応じて、バーチャルアシスタントによる応答を取得してユーザへ提供する処理の流れを示す図である。情報処理装置１０は、電源が投入された場合、例えば、車両３０のアクセサリ電源がＯＮとなった場合に、情報処理プログラムに従って図８の処理及び図９の処理を並列に実行する。また、情報処理装置１０は、電源がＯＮの間、図８及び図９の処理を繰り返し実行する。

ステップＳ１０にて、情報処理装置１０は、マイク３１〜３４を介し、ユーザが発話した音声の取得を開始する。ここで情報処理装置１０は、ユーザの音声をマイク３１〜３４によって電気信号に変換し、音声信号としてメモリ１２３へ一時的に取り込む。

ステップＳ２０にて、情報処理装置１０は、ユーザの発話が所定時間以上途切れたか否かを判定する。情報処理装置１０は、ステップＳ２０で否定判定であれば図８の処理を終了し、ステップＳ２０で肯定判定であればステップＳ３０へ移行する。

ステップＳ３０にて、情報処理装置１０は、ステップＳ２０で発話が途切れたと判定されるまで連続して発話された音声の信号を一つの発話区間信号として区分し、記憶領域１８に記憶させる。なお、記憶領域１８には、所定数の発話区間信号を保持することとし、既に所定数の発話区間信号が記憶されている場合、このうち最初に記憶された発話区間信号を削除し、新たに取得した発話区間信号を記憶させる。所定時間を空けずに連続して発せられた音声は、一つの文章である可能性が高いため、情報処理装置１０は、ステップＳ３０のようにユーザの音声を発話区間信号に区切って記憶領域１８に所定数記憶させる保持することで、所定数の文章を保持することができる。

また、情報処理装置１０は、図９に示すように、ステップＳ４０にて、情報処理装置１０は、記憶領域１８に保持した発話区間信号について音声認識処理を行い、ユーザの発話を文字列に変換する。

ステップＳ５０にて、情報処理装置１０は、第一ユーザによる要求を特定する。例えば、情報処理装置１０は、ステップＳ４０で認識した文字列に「○○に何分で着く？」「○○は何処？」「何が食べたい？」「○○に寄って」「音楽をかけて！」など、要求に用いられると推定される語（要求用の語）が含まれているか否かを判別する。そして、情報処理装置１０は、要求用の語が含まれていた文字列の変換元である発話区間信号を特定し、ユーザの要求を含む発話区間信号としてメモリ１２３に記憶すると共に、当該発話区間信号を発話したユーザを第一ユーザとする。例えば、図３の例では、Ｎｏ１、Ｎｏ３、Ｎｏ５が要求を含む発話区間信号である。

ステップＳ６０にて、情報処理装置１０は、要求を含む発話区間信号に対し、応答があったか否かを判定する。例えば、ステップＳ５０で要求を含むとされた発話区間信号の次に、要求を含むとされなかった発話区間信号があった場合、応答があったと判定する。この場合、図３の例では、Ｎｏ１、Ｎｏ３の発話区間信号の次に、要求を含むとされていないＮｏ２、Ｎｏ４の発話区間信号があるため、情報処理装置１０は、Ｎｏ１、Ｎｏ３の発話区間信号について肯定判定する。一方、Ｎｏ５の発話区間信号については、次の発話区間信号がないため、否定判定する。

また、情報処理装置１０は、ステップＳ５０で要求を含むとされなかった発話区間信号
に応答用の語が含まれていた場合に、応答があったと判定してもよい。この場合、例えば、「○○に何分で着く？」「何が食べたい？」といった要求の種類毎に、応答用の語を対応つけた辞書を記憶装置に格納しておく。情報処理装置１０は、この辞書を参照し、要求を含む発話区間信号に対して、応答用の語を含む発話区間信号があるか否かを判定する。このように辞書を用いて判定することで、要求と応答の対応関係を精度良く判定できる。例えば、「○○に何分で着く？」の次に「時間がかかるなら何か食べる？」といった質問（要求）が連続した後に、「４０分くらいかかるよ。」と応答があった場合、「分」「かかる」といった語が、「○○に何分で着く？」に対する応答用の語として辞書に登録されているため、「○○に何分で着く？」に対する応答があったと判定できる。即ち、「時間がかかるなら何か食べる？」に対しては応答がないことが判定できる。

このように、要求を含む発話区間信号が記憶領域１８に複数記憶されている場合、全ての発話区間信号を処理対象としてもよいし、要求を含む発話区間信号のうち、最後に記憶された発話区間信号、即ち最も新しいもののみを処理対象としてもよい。口頭でのやり取りの場合、新たな質問があると、先の質問はユーザの意識から外れることが多いため、最後に記憶された発話区間信号のみについて処理対象とすることで構成を簡略化してもよい。

ステップＳ６０で肯定判定の場合、情報処理装置１０は、ステップＳ７０へ移行し、応答と判定された発話区間信号が、有効な応答か否かを判定する。例えば、応答と判定された発話区間信号が「わからない」「なんでもいい」といった応答として不十分な語（無効とする語）であった場合、有効な応答でないと判定（否定判定）する。

ステップＳ７０で肯定判定した場合、第一ユーザは、第二ユーザから有効な応答を得て要求を満たした状況であり、バーチャルアシスタントによる応答が必要ないので、情報処理装置１０は、図９の処理を終了する。

ステップＳ６０又はステップＳ７０で否定判定した場合、情報処理装置１０は、ステップＳ８０へ移行し、要求を含む通話区間信号が記憶されてから有効な応答がないまま所定時間が経過したか否かを判定する。

ステップＳ８０で肯定判定した場合、情報処理装置１０は、ステップＳ９０へ移行し、ユーザの要求に応答する応答信号をアシスタントサーバ２０から取得する。例えば、情報処理装置１０は、要求を含む発話区間信号を要求信号としてアシスタントサーバ２０へ送信し、当該発話区間信号を解析して生成された応答信号をアシスタントサーバ２０から取得する。なお、アシスタントサーバ２０は、要求信号に基づいて応答信号を生成し、情報処理装置１０へ応答信号を返信するが、要求信号に基づいて応答信号を生成できなかった場合にはエラー信号を情報処理装置１０へ返信する。

ステップＳ１００にて、情報処理装置１０は、アシスタントサーバ２０からエラー信号を受信したか否かを判定する。ステップＳ１００で肯定判定した場合、情報処理装置１０は、ステップＳ１１０へ移行し、改めて要求を行うように促す音声メッセージをスピーカ３５〜３８から出力させる。この場合、スピーカ３５〜３８のうち、第一ユーザが座っている座席に設けられたスピーカを特定し、このスピーカから要求を促す音声メッセージを出力させてもよい。

ステップＳ１００で否定判定した場合、情報処理装置１０は、ステップＳ１２０へ移行し、アシスタントサーバ２０から受信した応答信号に基づいて、ユーザの要求に対する応答を実行する。情報処理装置１０は、受信した応答信号が、例えば、ユーザの質問に答える音声メッセージであった場合、この音声メッセージをスピーカ３５〜３８から出力させ
る。また、受信した応答信号が、ナビゲーション部やエアコン、オーディオ等の機能部を制御する制御信号であった場合、この制御信号を各機能部に送って制御を実行する。

図１０は、アシスタントサーバ２０が実行する処理の流れを示す図である。アシスタントサーバ２０は、電源が投入された場合やバーチャルアシスタントの起動が指示された場合に、図１０の処理を実行する。また、アシスタントサーバ２０は、電源がＯＮの間、或いはバーチャルアシスタントの停止が指示されるまでの間、図１０の処理を繰り返し実行する。

ステップＳ２００にて、アシスタントサーバ２０は、情報処理装置１０から要求信号を受信する。

ステップＳ２１０にて、アシスタントサーバ２０は、情報処理装置１０から受信した発話区間信号について、音声認識処理を行い、第一ユーザが発した音声を語群（文字列）に変換する。

ステップＳ２２０にて、アシスタントサーバ２０は、音声認識した語群を自然言語処理、例えば形態素解析や構文解析を行い、当該語群が含む各語の品詞や、各語が成す文の構造を求めて、第一ユーザによる要求の意図を特定する。

ステップＳ２３０にて、アシスタントサーバ２０は、ステップＳ２２０で特定した要求に対応する情報をデータベースから取得し、応答信号を生成する。例えば、アシスタントサーバ２０は、ステップＳ１２０で特定した要求をニューラルネットワークに入力し、対応する応答内容を求め、この応答内容に該当する情報をデータベースから索出して応答信号とする。即ち、本実施形態のアシスタントサーバ２０は、ニューラルネットワークを用いて応答を行うＡＩアシスタントとして機能する。

なお、ステップＳ２３０において、入力した要求に対応する応答が得られなかった場合、アシスタントサーバ２０は、エラー信号を生成する。例えば、「あそこまで何分かかる？」「この前テレビで見た店ってどこにある？」などのように、指示語が使われ、これらの語の指すものが不明な場合、アシスタントサーバ２０は、応答内容を特定できないためエラーメッセージを生成する。また、ユーザによって要求された情報がデータベースに登録されていない場合も、応答信号が得られないためエラー信号を生成する。

ステップＳ２４０にて、アシスタントサーバ２０は、ステップＳ２３０でエラー信号が生成されたか否かを判定する。ステップＳ２４０で肯定判定した場合、アシスタントサーバ２０は、ステップＳ２５０へ移行し、エラー信号を情報処理装置１０へ送信する。

一方、ステップＳ２４０で否定判定した場合、アシスタントサーバ２０は、ステップＳ２６０へ移行し、ステップＳ２３０で生成した応答信号を要求元の情報処理装置１０へ送信する。

〈第一実施形態の効果〉
（１）上記のように、本実施形態の情報処理装置１０は、第一ユーザによる要求に対して、第二ユーザから有効な反応が無い場合に、前記要求に対して応答する応答信号をバーチャルアシスタントから取得し、前記要求に対する応答を実行する。

第一ユーザが「○○まで何分かかるの？」のように第二ユーザに対して質問をして回答を要求した場合に、第二ユーザが「わからない」といった反応であった場合、代わりにバーチャルアシスタントから回答を得たいというニーズがある。しかしながら従来のバーチ
ャルアシスタントは、起動フレーズを契機として、要求の取得を開始するので、第一ユーザは、「アシスタント（起動フレーズ）」「○○まで何分かかるの？」のように、起動フレーズに続けて第二ユーザに質問した内容を繰り返す必要がある。このため、円滑にバーチャルアシスタントの応答が得られなかった。

これに対し、本実施形態の情報処理装置１０は、ユーザ同士の会話（音声信号）を取得し、第一ユーザの要求に対して第二ユーザによる有効な応答がなかったことを契機に、バーチャルアシスタントによる応答を行わせる。これにより情報処理装置１０は、起動フレーズに依らず、取得済の音声信号に応じてバーチャルアシスタントによる応答を行うので、第一ユーザが要求を繰り返す必要がなく、バーチャルアシスタントによる応答を円滑に行うことができる。

なお、起動フレーズを用いずに、情報処理装置１０が、ユーザの音声を常にモニタし、ユーザの要求に対してバーチャルアシスタントが常に応答する構成にすれば、他のユーザへの質問を繰り返さずにバーチャルアシスタントによる応答が得られると考えられる。しかしながら、この構成では、ユーザ同士の会話の中で質問を発すると、バーチャルアシスタントの回答が不要であっても、必ずバーチャルアシスタントが割り込むことになり、会話が妨げられるという問題が生じる可能性がある。

これに対し、本実施形態の情報処理装置１０は、第一ユーザの要求に対して第二ユーザによる有効な応答があった場合にはバーチャルアシスタントによる応答を行わず、第二ユーザによる有効な応答がなかった場合にバーチャルアシスタントによる応答を行わせる。これによりユーザ同士の会話を過度に妨げることがなく、バーチャルアシスタントによる応答を適切に行うことができる。

（２）本実施形態の情報処理装置１０は、前記応答判定部１４が、前記要求を含む音声が発せられてから所定時間以内に前記第二音声信号が取得できなかった場合、又は前記第二音声信号が前記要求に応答する音声を含まなかった場合に、前記要求に対する有効な反応が無いと判定する。

このように要求を含む音声が発せられてから所定時間以内に前記第二音声信号が取得できなかった場合、又は前記第二音声信号が前記要求に応答する音声を含まなかった場合、第一ユーザは、第二ユーザから有効な応答が得られず、要求が満たされていない状況である。このため情報処理装置１０は、バーチャルアシスタントによる応答が必要なタイミングであると判断できるので、バーチャルアシスタントによる応答を適切なタイミングで行わせることができる。これにより情報処理装置１０は、適切なタイミングでバーチャルアシスタントによる応答を行うことができる。

（３）本実施形態の情報処理装置１０では、音声取得部１１が、所定時間を空けずに連続して発せられた音声を示す第一音声信号又は第二音声信号を一つの発話区間信号とし、所定数の発話区間信号を記憶装置の記憶領域１８に記憶させる。そして、要求判別部１３が、前記記憶領域１８に記憶された発話区間信号から前記要求を判別する。

これにより情報処理装置１０は、音声信号を適切に区分して発話区間信号とし、適切な数の発話区間信号を保持することができるので、膨大な音声信号を記憶する必要がなく、記憶装置の増大を抑えることができる。

（４）本実施形態の情報処理装置１０は、前記要求を含む発話区間信号に、前記バーチャルアシスタントが応答を特定するのに必要な情報が含まれていない場合、前記応答部が、改めて前記要求を含む音声を発することを促す音声メッセージを出力する。

これにより情報処理装置１０は、第一ユーザの要求が特定できなかった場合に、第一ユーザに改めて要求を行わせ、音声を取得し直してバーチャルアシスタントによる応答を可能にする。

〈第二実施形態〉
図１１は、第二実施形態に係る情報処理装置１０Ａの機能ブロック図、図１２は、第二実施形態に係る情報処理装置１０Ａが、ユーザ同士の会話に応じて、バーチャルアシスタントによる応答を取得してユーザへ提供する処理の流れを示す図である。

本実施形態は、前述の第一実施形態と比べて、ユーザが「なんかないの？」「どうしようか？」「なんでもいい」など、特定の語を発話した場合に、バーチャルアシスタントによる応答を行う構成が異なり、その他の構成は同じである。このため、第一実施形態と同じ要素には、同符号を付すなどして、再度の説明を省略する。

図１１に示すように、本実施形態の情報処理装置１０Ａは、図２に示す第一実施形態の情報処理装置１０と比べて、特定語判定部１９を有していることが異なっている。

特定語判定部１９は、ユーザが発した言葉に特定の語が含まれているか否かを判定する。例えば、特定語判定部１９は、音声認識部２２で認識した文字列を検索して特手の語が含まれているか否かを判定することにより、ユーザの言葉に特定の語が含まれているか否かを判定する。ここで、特定の語とは、「なんかないの？」「どうしようか？」「なんでもいい」「いい案ない？」「わからない」など、ユーザが困っている場合や、判断に迷っている場合、新たな情報を欲している場合などに、ユーザが用いる可能性が高い語である。この特定の語は、「ねぇ（アシスタント名）」「Ｈｉ（アシスタント名）」などのように、バーチャルアシスタントの名称（アシスタント名）や、このアシスタント名を含む語であってもよい。

ユーザが発した言葉に特定の語が含まれていると判定された場合、応答取得部１５がアシスタントサーバ２０から応答信号を取得し、応答部１７がバーチャルアシスタントによる応答を行わせる。このため特定の語は、バーチャルアシスタントによる応答を促す語である。

次に図１２を用いて本実施形態の情報処理方法について説明する。なお、情報処理装置１０Ａが音声信号を取得する処理は、第一実施形態の図８と同じである。また、アシスタントサーバ２０の処理は、第一実施形態の図１０と同じである。

本実施形態の情報処理装置１０Ａは、電源が投入された場合、情報処理プログラムに従って図８の処理及び図１２の処理を並列に実行する。また、情報処理装置１０Ａは、電源がＯＮの間、図
８及び図１２の処理を繰り返し実行する。なお、ステップＳ１０からステップＳ６０の処理は、図９と同じである。

ステップＳ６０又はステップＳ７０で否定判定した場合、情報処理装置１０Ａは、ステップＳ７５へ移行し、ユーザが発した言葉に特定の語が含まれているか否かを判定する。

ステップＳ７５で否定判定した場合、情報処理装置１０Ａは、ステップＳ８０へ移行する。ステップＳ８０以降の処理は、図９の処理と同じである。即ち、ユーザの会話に特定の語がなく、ステップＳ７５で否定判定した場合、情報処理装置１０Ａは、所定時間第二ユーザの反応を待つ。そして第二ユーザの反応が無い状態で所定時間が経過した場合に、
情報処理装置１０Ａは、ステップＳ９０へ移行して、前述と同様にステップＳ９０〜Ｓ１２０の処理を行い、バーチャルアシスタントによる応答を実行する。

一方、ステップＳ７５で肯定判定した場合、情報処理装置１０Ａは、所定時間待つことなくステップＳ９０へ移行し、バーチャルアシスタントによる応答を実行する。

このようにユーザが、「なんかないの？」「どうしようか？」といった特定の語を発話した場合、ユーザがバーチャルアシスタントによる応答を必要としている可能性が高い。このため、本実施形態の情報処理装置１０Ａは、特定の語が発話された場合に、バーチャルアシスタントによる応答を行わせる。これにより、ユーザがバーチャルアシスタントの支援を必要としている状況において、速やかにバーチャルアシスタントの応答を行うことができる。この場合も情報処理装置１０Ａは、記憶領域１８に保持した発話区間信号のうち、第二ユーザによる有効な反応がないものを特定し、この反応がない発話区間信号について、バーチャルアシスタントの応答を行う。このため第一ユーザが第二ユーザに要求した内容をバーチャルアシスタントに対して要求し直す必要がなく、バーチャルアシスタントによる応答を円滑に行うことができる。

〈第三実施形態〉
図１３は、第三実施形態に係る情報処理装置１０Ｂの機能ブロック図、図１４は、第三実施形態に係るアシスタントサーバ２０Ａの機能ブロック図である。

本実施形態では、情報処理装置１０Ｂがユーザの音声を取得する毎に発話区間信号をアシスタントサーバ２０へ送信する。アシスタントサーバ２０は、受信した発話区間信号を逐次音声認識し、認識結果を情報処理装置１０Ｂへ返信すると共に、この発話区間信号に、質問等の要求が含まれていた場合には、応答信号を生成して情報処理装置１０へ返信する。情報処理装置１０Ｂは、アシスタントサーバ２０Ａから取得した認識結果と応答信号を記憶領域１８に保持する。なお、情報処理装置１０Ｂが、応答信号に基づいて全ての要求に応答したのでは、ユーザ同士の会話を妨げることがあり、望ましくない。このため、情報処理装置１０Ｂは、応答信号を記憶領域１８に保持しておき、第一ユーザの要求に対して第二ユーザの有効な反応がない場合、当該要求に対する応答信号を記憶領域１８から読み出して応答を行う。この他の構成は前述の第二実施形態と同じであるため、同一の要素には同符号を付すなどして再度の説明を省略する。

情報処理装置１０Ｂは、図１３に示すように、音声取得部１１Ｂ、認識結果取得部１２Ｂ、応答判定部１４、応答取得部１５Ｂ、音出力部１６、応答部１７、記憶領域１８、特定語判定部１９を備えている。

音声取得部１１Ｂは、前述の音声取得部１１と同様に、マイク３１〜３４を介してユーザの音声を音声信号として取得する。また、音声取得部１１Ｂは、取得した音声信号を記憶領域１８に記憶させると共にアシスタントサーバ２０へ送信する。本実施形態の音声取得部１１Ｂは、取得した音声信号を発話音声信号に区分し、この発話区間信号を取得する毎にアシスタントサーバ２０へ送信する。なお、前述の実施形態では、発話区間信号を図３のように保持したが、本実施形態では、情報処理装置１０側で音声認識を行う必要がないので、記憶領域１８に発話音声信号を保持しなくてもよい。例えば、図３の発話区間信号に代えて、音声認識処理によって変換した文字列を保持してもよい。即ち、ユーザの要求に対する有効な応答が行われたか否かの判定が行えるように、ユーザによる要求の内容や、応答した内容、発話順序、発話したユーザの識別情報などの情報が保持されていればよい。

認識結果取得部１２Ｂは、音声取得部１１Ｂが送信した発話区間信号（音声信号）につ
いて、アシスタントサーバ２０Ａによる音声認識等の結果をアシスタントサーバ２０Ａから取得し、記憶領域１８に記憶させる。ここで認識結果は、例えば発話区間信号を音声認識処理によって変換した語群（文字列）と、当該語群が要求を含むものか否かを示す情報（フラグ）である。

応答取得部１５Ｂは、音声取得部１１Ｂが送信した発話区間信号（音声信号）に対して、後述のようにアシスタントサーバ２０が生成した応答信号をアシスタントサーバ２０Ａから取得し、記憶領域１８に記憶させる。

アシスタントサーバ２０Ａは、図１４に示すように、音声信号受信部２１Ａ、音声認識部２２、要求特定部２３Ａ、応答生成部２４、応答信号送信部２５、記憶領域２６、認識結果送信部２７を備えている。

音声信号受信部２１Ａは、情報処理装置１０Ｂから発話区間信号を受信し、記憶領域２６へ記憶させる。この発話区間信号は、例えば、要求元の情報処理装置１０Ｂを識別するため装置ＩＤや、この発話区間信号を識別するための発話ＩＤ等を有している。また、これに限らず、発話区間信号は、発話したユーザのユーザＩＤや、車両３０の現在位置等の情報を有していてもよい。

要求特定部２３Ａは、音声認識部２２で認識した語群に、要求に用いられると推定される語（要求用の語）が含まれているか否かによって、当該語群が要求を含むものか否かを判別する。

また、要求特定部２３Ａは、音声認識部２２で認識した語群を自然言語処理、例えば形態素解析や構文解析を行い、当該語群が含む各語の品詞や、各語が成す文の構造を求めて、要求の内容を特定する。例えば、語群が含む主語や、目的語、動詞を特定し、何が、何に対して、どのようにしたいか等、要求の内容を具体的に求める。

認識結果送信部２７は、音声認識部２２で認識した語群を認識結果として情報処理装置１０へ送信する。なお、認識結果送信部２７は、語群が、要求特定部２３Ａによって要求を含むものと判定された場合、要求を含む語群であることを示す情報（フラグ）を付加して送信する。

図１５は、情報処理装置１０Ｂが、ユーザの音声を取得する処理の流れを示す図、図１６は、情報処理装置１０Ｂが、ユーザ同士の会話に応じて、バーチャルアシスタントによる応答を取得してユーザへ提供する処理の流れを示す図である。情報処理装置１０Ｂは、電源が投入された場合、例えば、車両３０のアクセサリ電源がＯＮとなった場合に、情報処理プログラムに従って図１５の処理及び図１６の処理を並列に実行する。また、情報処理装置１０Ｂは、電源がＯＮの間、図１５及び図１６の処理を繰り返し実行する。

図１５の処理は、前述の図８の処理と比べて、ステップＳ３０Ｂの処理が異なり、ステップＳ１０、Ｓ２０の処理は同じである。

ステップＳ３０Ｂにて、情報処理装置１０Ｂは、ステップＳ２０で発話が途切れたと判定されるまで連続して発話された音声の信号を一つの発話区間信号として区分し、アシスタントサーバ２０へ送信する。これにより情報処理装置１０Ｂは、発話区間信号を取得する毎にアシスタントサーバ２０へ送信し、有効な応答の有無にかかわらず、アシスタントサーバ２０に応答を用意させる。

図１７は、アシスタントサーバ２０Ａが実行する処理の流れを示す図である。アシスタ
ントサーバ２０Ａは、電源が投入された場合やバーチャルアシスタントの起動が指示された場合に、図１７の処理を実行する。また、アシスタントサーバ２０Ａは、電源がＯＮの間、或いはバーチャルアシスタントの停止が指示されるまでの間、図１７の処理を繰り返し実行する。

ステップＳ２００Ａにて、アシスタントサーバ２０Ａは、情報処理装置１０から発話区間信号を受信する。

ステップＳ２１０にて、アシスタントサーバ２０Ａは、情報処理装置１０から受信した発話区間信号について、音声認識処理を行い、ユーザが発した音声を語群（文字列）に変換する。

ステップＳ２１５にて、アシスタントサーバ２０Ａは、音声認識部２２で認識した語群について検索し、要求に用いられると推定される語（要求用の語）が当該語群に含まれていれば、当該語群が要求を含むものと判別する。

ステップＳ２１５で肯定判定した場合、アシスタントサーバ２０Ａは、前述と同様にステップＳ２２０〜Ｓ２６０の処理を行う。

ステップＳ２５０，Ｓ２６０の後、またはステップＳ２１５で否定判定した場合、アシスタントサーバ２０は、ステップＳ２７０へ移行し、ステップＳ２１０で認識した語群を認識結果として情報処理装置１０Ｂへ送信する。なお、語群が、ステップＳ２１５で要求を含むものと判定された場合、アシスタントサーバ２０Ａは、要求を含む語群であることを示す情報（フラグ）を認識結果に付加して送信する。

情報処理装置１０Ｂは、図１６に示すように、ステップＳ４０Ｂにて、アシスタントサーバ２０から、応答信号又はエラー信号、そして図１５のステップＳ３０Ｂで送信した発話区間信号（音声信号）について音声認識処理を行った結果（認識結果）を受信する。

ステップＳ４０Ｂの後、情報処理装置１０Ｂは、前述と同様にステップＳ６０〜Ｓ８０を行う。

ステップＳ８０で肯定判定の場合、情報処理装置１０Ｂは、ステップＳ１００Ｂへ移行し、ステップＳ４０Ｂでアシスタントサーバ２０からエラー信号を受信したか否かを判定する。ステップＳ１００Ｂで否定判定の場合、情報処理装置１０Ｂは、ステップＳ１２０Ｂへ移行し、ステップＳ４０Ｂで受信した応答信号を記憶領域１８から読み出し、当該応答に基づいて応答を実行する。

このように本実施形態では、情報処理装置１０Ｂがユーザの音声を取得する毎に発話区間信号をアシスタントサーバ２０へ送信し、アシスタントサーバ２０で生成された応答信号を逐次取得して保持しておく。そして、情報処理装置１０Ｂは、第一ユーザの要求に対して第二ユーザの有効な反応がない場合に、保持していた応答信号に基づいて応答を実行する。

これにより、バーチャルアシスタントによる応答が必要になった時に、車両３０がトンネル内など通信環境の悪い場所を走行している場合や、通信回線Ｎが混雑して遅延が発生しているような場合でも、情報処理装置１０Ｂは、速やかに応答を実行できる。

以上、本発明の実施の形態を説明したが、これらはあくまで例示にすぎず、本発明はこれらに限定されるものではなく、上記構成を組み合わせるなど、特許請求の範囲の趣旨を
逸脱しない限りにおいて、当業者の知識に基づく種々の変更が可能である。

例えば、上述本実施形態では、情報処理装置１０，１０Ａ，１０Ｂとして、車載装置の例を説明したが、これに限らず、本発明の情報処理装置は、スマートフォンや、タブレットＰＣ、スマートスピーカであってもよい。

１０，１０Ａ，１０Ｂ：情報処理装置
１１，１１Ｂ：音声取得部
１２，１２Ｂ：認識結果取得部
１３：要求判別部
１４：応答判定部
１５，１５Ｂ：応答取得部
１６：音出力部
１７：応答部
１８：記憶領域
１９：特定語判定部
２０，２０Ａ：アシスタントサーバ
２１，２１Ａ：音声信号受信部
２２：音声認識部
２３，２３Ａ：要求特定部
２４：応答生成部
２５：応答信号送信部
２６：記憶領域
２７：認識結果送信部
３０：車両
１００：情報処理システム

Claims

第一ユーザが発した音声を示す第一音声信号及び第二ユーザが発した音声を示す第二音声信号を取得する音声取得部と、
前記第一音声信号に基づいて前記第一ユーザによる要求を判別する要求判別部と、
前記第二音声信号に基づいて前記要求に対する有効な反応があったか否かを判定する判定部と、
前記有効な反応が無い場合に、前記要求に対して応答する応答信号をバーチャルアシスタントから取得する応答取得部と、
前記応答信号に基づいて、前記要求に対する応答を実行する応答部と、
を備える情報処理装置。
前記要求を含む音声が発せられてから所定時間以内に前記第二音声信号が取得できなかった場合、又は前記第二音声信号が前記要求に応答する音声を含まなかった場合に、前記応答取得部が、前記要求に対して応答する前記応答信号を前記バーチャルアシスタントから取得する請求項１に記載の情報処理装置。
前記音声取得部が、所定時間を空けずに連続して発せられた音声を示す第一音声信号又は第二音声信号を一つの発話区間信号とし、所定数の発話区間信号を記憶装置に記憶させ、
前記要求判別部が、前記記憶装置に記憶された発話区間信号から前記要求を判別する
請求項１又は２に記載の情報処理装置。
前記要求を含む発話区間信号に、前記バーチャルアシスタントが応答を特定するのに必要な情報が含まれていない場合、前記応答部が、改めて前記要求を含む音声を発することを促す音声メッセージを出力する請求項３に記載の情報処理装置。
前記第一音声信号に前記バーチャルアシスタントによる応答を促す特定の語が含まれていた場合に、前記応答取得部が、前記要求に対して応答する前記応答信号を前記バーチャルアシスタントから取得する請求項１〜３の何れか１項に記載の情報処理装置。
請求項１〜５の何れか１項に記載の情報処理装置と、通信回線を介して前記情報処理装置と接続し、前記バーチャルアシスタントとして前記応答信号を提供するアシスタントサーバとを備え、
前記アシスタントサーバが、
前記情報処理装置から取得した前記第一音声信号を音声認識して語群に変換する音声認識部と、
前記語群を自然言語処理して、前記要求を特定する要求特定部と、
前記要求に対応する情報をデータベースから取得し、応答信号を生成する応答生成部と、
前記応答信号を前記情報処理装置へ送信する送信部と、
を備える情報処理システム。
第一ユーザが発した音声を示す第一音声信号及び第二ユーザが発した音声を示す第二音声信号を取得するステップと、
前記第一音声信号に基づいて前記第一ユーザによる要求を判別するステップと、
前記第二音声信号に基づいて前記要求に対する有効な反応があったか否かを判定するステップと、
前記有効な反応が無い場合に、前記要求に対して応答する応答信号をバーチャルアシスタントから取得するステップと、
前記応答信号に基づいて、前記要求に対する応答を実行するステップと、
をコンピュータが実行する情報処理方法。
第一ユーザが発した音声を示す第一音声信号及び第二ユーザが発した音声を示す第二音声信号を取得するステップと、
前記第一音声信号に基づいて前記第一ユーザによる要求を判別するステップと、
前記第二音声信号に基づいて前記要求に対する有効な反応があったか否かを判定するステップと、
前記有効な反応が無い場合に、前記要求に対して応答する応答信号をバーチャルアシスタントから取得するステップと、
前記応答信号に基づいて、前記要求に対する応答を実行するステップと、
をコンピュータに実行させるための情報処理プログラム。