JP7000257B2

JP7000257B2 - 音声認識システム

Info

Publication number: JP7000257B2
Application number: JP2018107851A
Authority: JP
Inventors: 秀伸鈴木; 真眞鍋
Original assignee: Denso Corp; Toyota Motor Corp
Current assignee: Denso Corp; Toyota Motor Corp
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2022-01-19
Anticipated expiration: 2038-06-05
Also published as: WO2019234487A8; WO2019234487A1; JP2019211635A

Description

本発明は、車両の乗員の発した音声を音声認識し、音声認識した内容に対して応答を行う音声認識システムに関する。

特許文献１には、車両に搭乗している複数の乗員が同時に発話した場合でも、運転席に配置された第１のマイクで取得された音声から、助手席に配置された第２のマイクの音声を除去することにより、音声が混入することを防止することが開示されている。

また、特許文献２には、運転者及び運転者以外の乗員が音声入力操作を行うことができるようにするために、乗員の発話した音声を認識して音声入力操作を可能にする運転席側発話スイッチ、助手席側発話スイッチ、及び後部座席側発話スイッチを備える音声認識システムが開示されている。

特開２０１７－０８３６００号公報特開２００３－３４５３８９号公報

しかし、特許文献１に記載の技術では、運転者以外の乗員の音声に基づく音声操作を行うことができないため、乗員の利便性が低下してしまうおそれがある。

また、特許文献２に記載の技術は、ある操作者が複数回の対話ステップで所望のタスクを実行するような音声操作を実行中に、システムが操作者の発話を受け付けている期間中に別の発話者が発話した際のシステム動作については考慮されていない。最初に音声操作の権利を取得した乗員のタスクが完了するまで他の乗員の発話は受理されないのが、一般的である。そのため、最初に発話をして音声操作を開始した乗員以外が音声操作に参加することができず、複数の乗員と共同で音声操作を進めることができなかった。

かかる事情に鑑みてなされた本発明の目的は、状況に応じて、音声認識の開始時に発話した第１発話者とは異なる第２発話者が音声操作を行うことが可能な音声認識システムを提供することにある。

上記課題を解決するため、本発明に係る音声認識システムは、発話による音声操作が可能な車両に搭乗した乗員の音声を音声認識し、音声認識した内容に対して応答を行う音声認識システムであって、音声信号から発話者を特定する発話者特定部と、前記音声信号に対して音声認識処理を行う音声認識部と、前記音声認識部による音声認識結果を解析し、解析内容に基づく応答指示を生成する対話制御部と、前記応答指示に基づく応答データを生成する応答生成部と、を備え、前記対話制御部は、音声操作を開始した第１発話者と、前記音声操作の開始後に発話をした第２発話者とが同一でない場合に、第２発話者の前記発話による音声操作の可否を決定することを特徴とする。

本発明によれば、音声認識の開始時に発話した第１発話者とは異なる第２発話者の音声操作が可能か否かを判定し、状況に応じて第２発話者の音声操作を許可することが可能となる。そのため、車両の乗員の利便性を向上させることができる。

本発明の一実施形態に係る音声認識システムの構成例を示すブロック図である。本発明の一実施形態に係る音声認識システムを用いた音声認識方法の手順の一例を示すフローチャートである。本発明の一実施形態に係る音声認識システムの第１の処理例を示す図である。車両の乗員の位置関係を示す図である。本発明の一実施形態に係る音声認識システムの第２の処理例を示す図である。本発明の一実施形態に係る音声認識システムの第１の変形例を示すブロック図である。本発明の一実施形態に係る音声認識システムの第２の変形例を示すブロック図である。

以下、本発明の一実施形態について、図面を参照して詳細に説明する。

まず、本発明の一実施形態に係る音声認識システムの構成について、図１を参照して説明する。図１は、本発明の一実施形態に係る音声認識システムの構成例を示す図である。図１に示す音声認識システム１は、音声信号を取得する車載機１０と、音声信号を解析して音声信号に対する応答を決定するするサーバ２０とを備え、発話による音声操作が可能な車両２に搭乗した乗員の音声を音声認識し、音声認識した内容に対して応答を行う。また、車両２は、車載機１０と、前席入出力装置３０と、後席入出力装置４０とを備える。

前席入出力装置３０は、車両２の前席における入出力装置であり、マイク３１と、スピーカ３２と、表示器３４とを備える。本実施形態では、車両２の前席を運転席（Ｄ席）及び助手席（Ｐ席）とし、各席にマイク３１及びスピーカ３２が備えられ、前席の前面に表示器３４が備えられているものとする。

後席入出力装置４０は、車両２の後席における入出力装置であり、マイク４１と、スピーカ４２とを備える。本実施形態では、車両２の後席を２席の後部座席とし、各席にマイク４１及びスピーカ４２が備えられているものとする。

車載機１０は、入出力制御部１１と、発話者特定部１２と、音声入力制御部１３と、表示出力制御部１４と、音声出力制御部１５とを備える。また、サーバ２０は、対話制御部２１と、音声認識部２２と、応答生成部２３と、対話制御ルール記憶部２４とを備える。

音声入力制御部１３は、発話者からマイク３１又はマイク４１に入力された音声信号を取得し、ノイズ除去、ＡＤ変換などの処理を行い、処理後の音声信号を入出力制御部１１に出力する。

発話者特定部１２は、音声入力制御部１３に入力された音声信号の発話者を特定し、特定した発話者を示す発話者情報を入出力制御部１１に出力する。例えば、本実施形態のように各座席にマイクが配置されている場合には、発話信号がどのマイクに入力された信号であるかを特定することにより、発話者を特定することができる。そこで、音声入力制御部１３は音声信号に、該音声信号がどのマイクに入力されたものであるかを示すマイクＩＤを紐付けて入出力制御部１１に出力してもよい。この場合には、発話者特定部１２は、入出力制御部１１から音声信号及びマイクＩＤを取得し、該音声信号の発話者を特定する。あるいは、発話者特定部１２は、車両の搭乗者の特徴を示す音声信号パターンをあらかじめ取得しておくなどの手法により、音声信号の発話者を特定してもよい。

入出力制御部１１は、音声入力制御部１３から入力された音声信号、及び発話者特定部１２から入力された発話者情報を、アンテナを介して対話制御部２１に送信する。

対話制御部２１は、入出力制御部１１からアンテナを介して音声信号及び発話者情報を受信する。そして、対話制御部２１は、音声信号を音声認識部２２に出力する。

音声認識部２２は、対話制御部２１から入力された音声信号に対して音声認識処理を行って文字列化（テキスト化）し、音声認識結果を対話制御部２１に出力する。

対話制御部２１は、音声認識結果を形態素解析などの任意の既知の手法を用いて解析し、該音声信号の発話者の発話意図を推定する。そして、対話制御部２１は、解析内容に基づく（すなわち、発話意図に則した）応答指示を生成し、応答生成部２３に出力する。

応答生成部２３は、対話制御部２１から入力された応答指示に基づき、表示器３４に表示させるデータ及びスピーカ３２，４２から出力させる音声データ（これらのデータを以下、「応答データ」という。）を生成し、対話制御部２１に出力する。対話制御部２１は、応答データを、アンテナを介して入出力制御部１１に送信する。

表示出力制御部１４は、入出力制御部１１から入力された応答データに基づいて、表示器３４に表示させるための表示データを生成し、表示器３４に出力する。

音声出力制御部１５は、入出力制御部１１から入力された応答データに基づいて、スピーカ３２，４２に出力させるための音声データを生成し、スピーカ３２，４２に出力する。

対話制御ルール記憶部２４は、タスク実行までに複数回の対話ステップを要する音声操作において、音声操作を開始した第１発話者と、音声操作の開始後に発話をした第２発話者（継続中の対話ステップの途中から発話した者）とが同一でない場合に、第２発話者の発話を受理するか否かを規定する対話制御ルールを記憶する。対話制御ルールは、例えば、タスクがお店を検索して決定するタスクである場合には、第２発話者の発話を受理すると規定し、タスクがメールを送信するタスク又は電話を発信するタスクである場合には、第２発話者の発話を棄却すると規定する。

第１発話者が音声操作を開始した後に、第２発話者が発話をした場合には、対話制御部２１は、第１発話者と第２発話者が同一であるか否かを判定し、両者が同一でない場合には、対話制御ルール記憶部２４に記憶された対話制御ルールを参照する。そして、第２発話者による音声操作が可能なタスクであるか否かを判定し、第２発話者による発話を受理するか否か、すなわち第２発話者による音声操作の可否を決定する。

対話制御部２１は、対話制御ルール記憶部２４を備えない場合であっても、第２発話者の発話内容に応じて、第２発話者による発話を受理するか否か決定することが可能である。例えば、第１発話者が運転者である場合には、運転操作に集中するために、音声操作の開始後の対話ステップを他の乗員に任せることがある。そのため、対話制御部２１は、音声操作を開始した第１発話者が「後は他の乗員が回答する」と発話した場合や、第２発話者が「第１発話者の代理で回答するが、・・・」と発話した場合などには、第２発話者による発話を受理するようにしてもよい。また、対話制御部２１は、発話意図を推定し、発話内容がタスクに無関係であると判断した場合には、第２発話者による発話を棄却するようにしてもよい。

あるいは、音声操作を開始した第１発話者が、対話ステップの途中で別の乗員の発話を受理して対話ステップを進めるか、別の乗員の発話では対話ステップを進めないかを選択可能とし、選択結果を対話制御部２１に通知するようにしてもよい。この場合、対話制御部２１は、選択結果に基づいて応答生成部２３に応答指示を行う。

なお、対話制御部２１は、第２発話者の発話を受理するか棄却するかの判定結果を提示してもよい。例えば、対話制御部２１は、判定結果を表示器３４に表示させてもよいし、スピーカ３２，４２から音声出力させてもよい。また、音声認識システム１が第２発話者の発話を棄却すると判断した場合に、第１発話者に受理するか棄却するかの判断を仰いでもよい。

対話制御部２１は、対話ステップの継続中に、音声操作を開始した第１発話者以外の者が発話した際に、その発話内容が操作中のタスク以外のタスクを要求する内容であった場合には、継続中の音声操作と並行して別途音声操作を開始するように応答生成部２３に応答指示を行ってもよい。

なお、どの処理部がいかなる処理を行うかは上記の例に限られるものではない。例えば、発話意図の推定を対話制御部２１ではなく音声認識部２２が行ってもよい。

次に、音声認識システム１を用いた音声認識方法について、図２を参照して説明する。図２は、音声認識システム１を用いた音声認識方法の手順の一例を示すフローチャートである。

音声認識システム１は、まず音声入力制御部１３により、発話者の音声信号を取得する（ステップＳ１１）。そして、発話者特定部１２により、取得した音声信号の発話者を特定する（ステップＳ１２）。

続いて、音声認識部２２により、取得した音声信号を音声認識処理により文字列化する（ステップＳ１３）。そして、対話制御部２１により、音声認識結果を解析して発話意図を推定し、発話意図に則した応答指示を生成する（ステップＳ１４）。

続いて、応答生成部２３により、応答指示に基づく応答データを生成する（ステップＳ１５）。そして、対話制御部２１は、音声信号の内容から、タスクが完了したか否かを判定する（ステップＳ１６）。タスクが完了していないと判定した場合には（ステップＳ１６－Ｎｏ）、ステップＳ１７に処理を進め、対話ステップを継続する。

対話ステップを継続する場合には、音声入力制御部１３により、再度音声を取得する（ステップＳ１７）。そして、発話者特定部１２により、取得した音声信号の発話者を特定し（ステップＳ１８）、対話制御部２１により、発話者が操作の開始者であるか否かを判定する（ステップＳ１９）。

ステップＳ１９において、発話者が操作の開始者ではないと判定した場合には（ステップＳ１９－Ｎｏ）、対話制御部２１は、対話制御ルール記憶部２４に記憶された対話制御ルールを参照し、発話者が参加可能なタスクであるか否かを判定する（ステップＳ２０）。対話制御部２１は、発話者が参加可能なタスクでないと判定した場合には（ステップＳ２０－Ｎｏ）、処理をステップＳ１７に戻す。

一方、ステップＳ１９において、発話者が操作の開始者であると判定した場合（ステップＳ１９－Ｙｅｓ）、又はステップＳ２０において、発話者が参加可能なタスクであると判定した場合には（ステップＳ２０－Ｙｅｓ）、音声認識部２２により、取得した音声信号を音声認識処理により文字列化する（ステップＳ２１）。そして、対話制御部２１により音声認識結果を解析して発話意図を推定し、発話意図に則した応答指示を生成する（ステップＳ２２）。

続いて、応答生成部２３により、応答指示に基づく応答データを生成し出力する（ステップＳ２３）。そして、対話制御部２１は、タスクが完了したか否かを判定し（ステップＳ２４）、タスクが完了していないと判定した場合には（ステップＳ２４－Ｎｏ）、処理をステップＳ１７に戻す。

次に、上記の音声認識システム１の処理の第１の具体例を、図３を参照して説明する。図３は、音声認識システム１の第１の処理例として、対話ステップの途中で、操作開始者と異なる者が発話した場合に、該発話者の音声操作が許可される例を示す図である。ここでは、図４に示すように、車両２にＡ，Ｂ，Ｃ，Ｄの４名が乗車しているものとする。

Ａが、「この辺りのお勧めの鰻屋さん探して」と発話すると、マイク３１－１が音声を収音し、音声入力制御部１３は、「この辺りのお勧めの鰻屋さん探して」という音声信号を取得する（ステップＳ１１）。発話者特定部１２は、「この辺りのお勧めの鰻屋さん探して」という音声信号の発話者がＡであると特定する（ステップＳ１２）。音声認識部２２は、「この辺りのお勧めの鰻屋さん探して」という音声信号の音声認識を行い（ステップＳ１３）、対話制御部２１は、音声認識結果を解析して発話意図を推定し、発話意図に則した応答指示を生成する（ステップＳ１４）。

応答生成部２３は、対話制御部２１からの応答指示を受けて、車両２の位置から所定の範囲内にある鰻屋さん及びそのお勧め度（例えば、お店に訪れたお客さんによる評価値の平均）を検索して検索結果を示すデータを生成し、表示器３４の表示画面に検索結果Ｘを表示させる（ステップＳ１５）。また、応答生成部２３は、「この辺りで４件見つかりました。どちらにしますか？」という音声データを生成し、スピーカ３２，４２から出力させる（ステップＳ１５）。

対話制御部２１は、この「お店を検索して行き先を決定する」というタスクは、検索結果Ｘの提示に対する応答を必要とすると判定し、まだタスクは完了していないと判定する（ステップＳ１６－Ｎｏ）。

続いてＢが、「うなふじに行きたい」と発話すると、マイク４１－１が音声を収音し、音声入力制御部１３は、「うなふじに行きたい」という音声信号を取得する（ステップＳ１７）。発話者特定部１２は、「うなふじに行きたい」という音声信号の発話者がＢであると特定する（ステップＳ１８）。

対話制御部２１は、発話者Ｂは操作の開始者Ａとは異なると判定する（ステップＳ１９－Ｎｏ）。そして、対話制御ルール記憶部２４に記憶された対話制御ルールに基づき、「お店を検索して行き先を決定する」というタスクが、発話者Ｂが途中から参加可能なタスクであるか否かを判定する。「お店を検索して行き先を決定する」というタスクは乗員Ａ～Ｄのいずれもが決定することができる事項であるため、対話制御部２１は、発話者Ｂが参加可能なタスクであると判定する（ステップＳ２０－Ｙｅｓ）。

音声認識部２２は、「うなふじに行きたい」という音声信号の音声認識を行い（ステップＳ２１）、対話制御部２１は、発話意図を推定し、発話意図に則した応答指示を生成する（ステップＳ２２）。

応答生成部２３は、対話制御部２１からの応答指示を受けて、「わかりました。ご案内します。」という音声データを生成し、スピーカ３２，４２から出力させる（ステップＳ２３）。さらに、「うなふじ」までの経路を示すデータを生成し、表示器３４に表示させてもよい。

次に、上記の音声認識システム１の処理の第２の具体例を、図５を参照して説明する。図５は、音声認識システム１の第２の処理例として、対話ステップの途中で、操作開始者と異なる者が発話した場合に、該発話者による音声操作が棄却される例を示す図である。ここでも、図４に示すように、車両２にＡ，Ｂ，Ｃ，Ｄの４名が乗車しているものとする。

Ａが「○○さんに電話したい」と発話すると、マイク３１－１が音声を収音し、音声入力制御部１３は、「○○さんに電話したい」という音声信号を取得する（ステップＳ１１）。発話者特定部１２は、「○○さんに電話したい」という音声信号の発話者がＡであると特定する（ステップＳ１２）。音声認識部２２は、「○○さんに電話したい」という音声信号の音声認識を行い（ステップＳ１３）、対話制御部２１は、発話意図を推定し、発話意図に則した応答指示を生成する（ステップＳ１４）。

応答生成部２３は、対話制御部２１からの応答指示を受けて、あらかじめ登録されている電話帳から「○○」を検索して検索結果を示すデータを生成し、表示器３４の表示画面に検索結果Ｙを表示させる（ステップＳ１５）。また、応答生成部２３は、「どちらの○○さんですか？」という音声データを生成し、スピーカ３２，４２から出力させる（ステップＳ１５）。

対話制御部２１は、この「電話を発信する」というタスクは、検索結果Ｙの提示に対する応答を必要とすると判定し、まだタスクは完了していないと判定する（ステップＳ１６－Ｎｏ）。

続いてＢが、「次郎」と発話すると、マイク４１－１が音声を収音し、音声入力制御部１３は、「次郎」という音声信号を取得する（ステップＳ１７）。発話者特定部１２は、「次郎」という音声信号の発話者がＢであると特定する（ステップＳ１８）。

すると、対話制御部２１は、発話者Ｂは操作の開始者Ａとは異なると判定する（ステップＳ１９－Ｎｏ）。そして、対話制御ルール記憶部２４に記憶された対話制御ルールに基づき、「電話を発信する」というタスクが、発話者Ｂが途中から参加可能なタスクであるか否かを判定する。「電話を発信する」というタスクは操作開始者が電話相手を決定することが想定されるため、対話制御部２１は、発話者Ｂが参加可能なタスクではないと判定する（ステップＳ２０－Ｎｏ）。

続いてＡが、「花子さん」と発話すると、マイク３１－１が音声を収音し、音声入力制御部１３は、「花子さん」という音声信号を取得する（ステップＳ１７）。発話者特定部１２は、「花子さん」という音声信号の発話者がＡであると特定する（ステップＳ１８）。

すると、対話制御部２１は、発話者Ａは操作の開始者であると判定する（ステップＳ１９－Ｙｅｓ）。音声認識部２２は、「花子さん」という音声信号の音声認識を行い（ステップＳ２１）、対話制御部２１は、発話意図を推定し、発話意図に則した応答指示を生成する（ステップＳ２２）。

応答生成部２３は、対話制御部２１からの応答指示を受けて、「わかりました。花子さんにかけます。」という音声データを生成し、スピーカ３２，４２から出力させる（ステップＳ２３）。同時に、「○○ 花子」の電話番号を取得し、表示器３４に「○○ 花子」の電話番号Ｚを表示させる（ステップＳ２３）。

以上説明したように、音声認識システム１は、音声信号から発話者を特定し、音声操作を開始した第１発話者と、音声操作の開始後に発話をした第２発話者とが同一でない場合に、第２発話者による音声操作の可否を決定する。そのため、本発明によれば、状況に応じて、音声認識の開始時に発話した第１発話者とは異なる第２発話者が音声操作を行うことが可能となる。

また、音声認識システム１は、タスクごとに、音声認識の開始時に発話した第１発話者とは異なる第２発話者が音声操作を行うことが可能なタスクであるか否かを、あらかじめ対話制御ルールとして記憶しておくことにより、第２発話者による音声操作の可否を対話制御ルールに基づいて判定することができる。そのため、本発明によれば、音声認識の開始時に発話した第１発話者とは異なる第２発話者が発話した場合に、第２発話者による音声操作を許可することが適切なタスクか否かを自動的に判断することができ、第２発話者による音声操作を許可することが適切なタスクにおいて、第２発話者による音声操作を行うことが可能となる。

＜第１の変形例＞
次に、上述した音声認識システム１の第１の変形例について説明する。図６は、音声認識システム１の第１の変形例である音声認識システム１－２の構成を示す図である。音声認識システム１－２は、音声信号を取得する車載機１０’と、音声信号を解析して音声信号に対する応答を決定するするサーバ２０とを備える。また、車両２－２は、車載機１０’と、前席入出力装置３０’と、後席入出力装置４０’とを備える。

前席入出力装置３０’は、マイク３１、スピーカ３２、及び表示器３４に加えて、音声認識開始ボタン３３を備える点が音声認識システム１の前席入出力装置３０と相違する。本実施形態では、車両２の前席を運転席（Ｄ席）及び助手席（Ｐ席）とし、各席にマイク３１、スピーカ３２、及び音声認識開始ボタン３３が備えられ、前席の前面に表示器３４が備えられているものとする。

後席入出力装置４０’は、マイク４１及びスピーカ４２に加えて、音声認識開始ボタン４３を備える点が音声認識システム１の前席入出力装置４０と相違する。本実施形態では、車両２の後席を２席の後部座席とし、各席にマイク４１、スピーカ４２、及び音声認識開始ボタン４３が備えられているものとする。

乗員が音声認識システム１－２に対して発話する場合には、音声認識開始ボタン３３又は音声認識開始ボタン４３を押下してから所定の時間内に発話するものとする。音声認識開始ボタン３３，４３はボタンが押下されると、音声認識開始信号を発話者特定部１２’に出力する。

車載機１０’は、入出力制御部１１と、発話者特定部１２’と、音声入力制御部１３と、表示出力制御部１４と、音声出力制御部１５とを備える。また、サーバ２０は、対話制御部２１と、音声認識部２２と、応答生成部２３と、対話制御ルール記憶部２４とを備える。音声認識システム１－２は音声認識システム１と比較して、発話者特定部１２に代えて発話者特定部１２’を備える点が相違する。

発話者特定部１２’は、音声認識開始信号が音声認識開始ボタン３３，４３のいずれから入力されたのかを識別することにより、発話者を特定することができる。例えば、運転席に備えられた音声認識開始ボタン３３から音声認識開始信号が入力された場合には、発話者を運転者と特定する。

以上説明したように、第１の変形例によれば、前席入出力装置３０’が音声認識開始ボタン３３を備え、後席入出力装置４０’が音声認識開始ボタン４３を備えるため、発話者特定部１２’は容易に発話者を特定することが可能となる。また、音声認識開始ボタン４３が押下される前にマイク３１，４１が音声を収音した場合には、入出力制御部１１は、マイク３１，４１から入力された音声信号を破棄するようにしてもよい。これにより、タスクの実行に関係しない音声をマイク３１，４１が収音した場合でも、誤動作を防止することが可能となる。

＜第２の変形例＞
次に、上述した音声認識システム１の第２の変形例について説明する。図７は、音声認識システム１の第２の変形例である音声認識システム１－３の構成を示す図である。音声認識システム１－３は、サーバ２０を備えないで、車両２－３に搭載される。車両２－３は、前席入出力装置３０と、後席入出力装置４０と、音声認識システム１－３とを備える。

音声認識システム１－３は、発話者特定部１２と、音声入力制御部１３と、表示出力制御部１４と、音声出力制御部１５と、対話制御部２１’と、音声認識部２２と、応答生成部２３と、対話制御ルール記憶部２４とを備える。音声認識システム１では構成を車両側とサーバ側とに分離させていたが、音声認識システム１－３では構成を車両側に一体化させる。そのため、音声認識システム１－３は、音声認識システム１における入出力制御部１１を備えていない。

対話制御部２１’は、音声認識システム１の対話制御部２１と比較して、音声信号及び発話者情報を、入出力制御部１１を介さないで音声入力制御部１３及び発話者特定部１２から直接取得する点と、応答データを、入出力制御部１１を介さないで表示出力制御部１４及び音声出力制御部１５に直接に出力する点が相違する。その他の対話制御部２１’の処理については音声認識システム１と同様であるため、説明を省略する。また、その他の各構成部の処理内容も音声認識システム１と同様であるため、説明を省略する。

このように、音声認識システム１－３は、構成を車両側とサーバ側とに分離させないで、車両側に一体化させる。したがって、音声認識システム１と比較して車両側の計算負荷は大きくなるものの、サーバ２０との通信は不要になるため、通信環境によらず、発話者の要求を確実に受け付けることが可能となる。

以上、音声認識システムについて説明したが、音声認識システムの全部又は一部として機能させるためにコンピュータを用いることも可能である。そのようなコンピュータは、音声認識システムの各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのＣＰＵによってこのプログラムを読み出して実行させることで実現することができる。

また、このプログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭやＤＶＤ－ＲＯＭなどの記録媒体であってもよい。

上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１，１－２，１－３音声認識システム
２，２－２，２－３車両
１０，１０’ 車載機
１１入出力制御部
１２，１２’ 発話者特定部
１３音声入力制御部
１４表示出力制御部
１５音声出力制御部
２０サーバ
２１，２１’ 対話制御部
２２音声認識部
２３応答生成部
２４対話制御ルール記憶部
３０，３０’ 前席入出力装置
３１マイク
３２スピーカ
３３音声認識開始ボタン
３４表示器
４０，４０’ 後席入出力装置
４１マイク
４２スピーカ

Claims

発話による音声操作が可能な車両に搭乗した乗員の音声を音声認識し、音声認識した内容に対して応答を行う音声認識システムであって、
音声信号から発話者を特定する発話者特定部と、
前記音声信号に対して音声認識処理を行う音声認識部と、
前記音声認識部による音声認識結果を解析し、解析内容に基づく応答指示を生成する対話制御部と、
前記応答指示に基づく応答データを生成する応答生成部と、を備え、
前記対話制御部は、音声操作を開始した第１発話者と、前記音声操作の開始後に発話をした第２発話者とが同一でない場合に、第２発話者の前記発話による音声操作の可否を決定することを特徴とする音声認識システム。