JP7000257B2 - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP7000257B2
JP7000257B2 JP2018107851A JP2018107851A JP7000257B2 JP 7000257 B2 JP7000257 B2 JP 7000257B2 JP 2018107851 A JP2018107851 A JP 2018107851A JP 2018107851 A JP2018107851 A JP 2018107851A JP 7000257 B2 JP7000257 B2 JP 7000257B2
Authority
JP
Japan
Prior art keywords
voice
speaker
control unit
voice recognition
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018107851A
Other languages
English (en)
Other versions
JP2019211635A (ja
Inventor
秀伸 鈴木
真 眞鍋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Toyota Motor Corp
Original Assignee
Denso Corp
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp, Toyota Motor Corp filed Critical Denso Corp
Priority to JP2018107851A priority Critical patent/JP7000257B2/ja
Priority to PCT/IB2019/000425 priority patent/WO2019234487A1/en
Publication of JP2019211635A publication Critical patent/JP2019211635A/ja
Application granted granted Critical
Publication of JP7000257B2 publication Critical patent/JP7000257B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、車両の乗員の発した音声を音声認識し、音声認識した内容に対して応答を行う音声認識システムに関する。
特許文献1には、車両に搭乗している複数の乗員が同時に発話した場合でも、運転席に配置された第1のマイクで取得された音声から、助手席に配置された第2のマイクの音声を除去することにより、音声が混入することを防止することが開示されている。
また、特許文献2には、運転者及び運転者以外の乗員が音声入力操作を行うことができるようにするために、乗員の発話した音声を認識して音声入力操作を可能にする運転席側発話スイッチ、助手席側発話スイッチ、及び後部座席側発話スイッチを備える音声認識システムが開示されている。
特開2017-083600号公報 特開2003-345389号公報
しかし、特許文献1に記載の技術では、運転者以外の乗員の音声に基づく音声操作を行うことができないため、乗員の利便性が低下してしまうおそれがある。
また、特許文献2に記載の技術は、ある操作者が複数回の対話ステップで所望のタスクを実行するような音声操作を実行中に、システムが操作者の発話を受け付けている期間中に別の発話者が発話した際のシステム動作については考慮されていない。最初に音声操作の権利を取得した乗員のタスクが完了するまで他の乗員の発話は受理されないのが、一般的である。そのため、最初に発話をして音声操作を開始した乗員以外が音声操作に参加することができず、複数の乗員と共同で音声操作を進めることができなかった。
かかる事情に鑑みてなされた本発明の目的は、状況に応じて、音声認識の開始時に発話した第1発話者とは異なる第2発話者が音声操作を行うことが可能な音声認識システムを提供することにある。
上記課題を解決するため、本発明に係る音声認識システムは、発話による音声操作が可能な車両に搭乗した乗員の音声を音声認識し、音声認識した内容に対して応答を行う音声認識システムであって、音声信号から発話者を特定する発話者特定部と、前記音声信号に対して音声認識処理を行う音声認識部と、前記音声認識部による音声認識結果を解析し、解析内容に基づく応答指示を生成する対話制御部と、前記応答指示に基づく応答データを生成する応答生成部と、を備え、前記対話制御部は、音声操作を開始した第1発話者と、前記音声操作の開始後に発話をした第2発話者とが同一でない場合に、第2発話者の前記発話による音声操作の可否を決定することを特徴とする。
本発明によれば、音声認識の開始時に発話した第1発話者とは異なる第2発話者の音声操作が可能か否かを判定し、状況に応じて第2発話者の音声操作を許可することが可能となる。そのため、車両の乗員の利便性を向上させることができる。
本発明の一実施形態に係る音声認識システムの構成例を示すブロック図である。 本発明の一実施形態に係る音声認識システムを用いた音声認識方法の手順の一例を示すフローチャートである。 本発明の一実施形態に係る音声認識システムの第1の処理例を示す図である。 車両の乗員の位置関係を示す図である。 本発明の一実施形態に係る音声認識システムの第2の処理例を示す図である。 本発明の一実施形態に係る音声認識システムの第1の変形例を示すブロック図である。 本発明の一実施形態に係る音声認識システムの第2の変形例を示すブロック図である。
以下、本発明の一実施形態について、図面を参照して詳細に説明する。
まず、本発明の一実施形態に係る音声認識システムの構成について、図1を参照して説明する。図1は、本発明の一実施形態に係る音声認識システムの構成例を示す図である。図1に示す音声認識システム1は、音声信号を取得する車載機10と、音声信号を解析して音声信号に対する応答を決定するするサーバ20とを備え、発話による音声操作が可能な車両2に搭乗した乗員の音声を音声認識し、音声認識した内容に対して応答を行う。また、車両2は、車載機10と、前席入出力装置30と、後席入出力装置40とを備える。
前席入出力装置30は、車両2の前席における入出力装置であり、マイク31と、スピーカ32と、表示器34とを備える。本実施形態では、車両2の前席を運転席(D席)及び助手席(P席)とし、各席にマイク31及びスピーカ32が備えられ、前席の前面に表示器34が備えられているものとする。
後席入出力装置40は、車両2の後席における入出力装置であり、マイク41と、スピーカ42とを備える。本実施形態では、車両2の後席を2席の後部座席とし、各席にマイク41及びスピーカ42が備えられているものとする。
車載機10は、入出力制御部11と、発話者特定部12と、音声入力制御部13と、表示出力制御部14と、音声出力制御部15とを備える。また、サーバ20は、対話制御部21と、音声認識部22と、応答生成部23と、対話制御ルール記憶部24とを備える。
音声入力制御部13は、発話者からマイク31又はマイク41に入力された音声信号を取得し、ノイズ除去、AD変換などの処理を行い、処理後の音声信号を入出力制御部11に出力する。
発話者特定部12は、音声入力制御部13に入力された音声信号の発話者を特定し、特定した発話者を示す発話者情報を入出力制御部11に出力する。例えば、本実施形態のように各座席にマイクが配置されている場合には、発話信号がどのマイクに入力された信号であるかを特定することにより、発話者を特定することができる。そこで、音声入力制御部13は音声信号に、該音声信号がどのマイクに入力されたものであるかを示すマイクIDを紐付けて入出力制御部11に出力してもよい。この場合には、発話者特定部12は、入出力制御部11から音声信号及びマイクIDを取得し、該音声信号の発話者を特定する。あるいは、発話者特定部12は、車両の搭乗者の特徴を示す音声信号パターンをあらかじめ取得しておくなどの手法により、音声信号の発話者を特定してもよい。
入出力制御部11は、音声入力制御部13から入力された音声信号、及び発話者特定部12から入力された発話者情報を、アンテナを介して対話制御部21に送信する。
対話制御部21は、入出力制御部11からアンテナを介して音声信号及び発話者情報を受信する。そして、対話制御部21は、音声信号を音声認識部22に出力する。
音声認識部22は、対話制御部21から入力された音声信号に対して音声認識処理を行って文字列化(テキスト化)し、音声認識結果を対話制御部21に出力する。
対話制御部21は、音声認識結果を形態素解析などの任意の既知の手法を用いて解析し、該音声信号の発話者の発話意図を推定する。そして、対話制御部21は、解析内容に基づく(すなわち、発話意図に則した)応答指示を生成し、応答生成部23に出力する。
応答生成部23は、対話制御部21から入力された応答指示に基づき、表示器34に表示させるデータ及びスピーカ32,42から出力させる音声データ(これらのデータを以下、「応答データ」という。)を生成し、対話制御部21に出力する。対話制御部21は、応答データを、アンテナを介して入出力制御部11に送信する。
表示出力制御部14は、入出力制御部11から入力された応答データに基づいて、表示器34に表示させるための表示データを生成し、表示器34に出力する。
音声出力制御部15は、入出力制御部11から入力された応答データに基づいて、スピーカ32,42に出力させるための音声データを生成し、スピーカ32,42に出力する。
対話制御ルール記憶部24は、タスク実行までに複数回の対話ステップを要する音声操作において、音声操作を開始した第1発話者と、音声操作の開始後に発話をした第2発話者(継続中の対話ステップの途中から発話した者)とが同一でない場合に、第2発話者の発話を受理するか否かを規定する対話制御ルールを記憶する。対話制御ルールは、例えば、タスクがお店を検索して決定するタスクである場合には、第2発話者の発話を受理すると規定し、タスクがメールを送信するタスク又は電話を発信するタスクである場合には、第2発話者の発話を棄却すると規定する。
第1発話者が音声操作を開始した後に、第2発話者が発話をした場合には、対話制御部21は、第1発話者と第2発話者が同一であるか否かを判定し、両者が同一でない場合には、対話制御ルール記憶部24に記憶された対話制御ルールを参照する。そして、第2発話者による音声操作が可能なタスクであるか否かを判定し、第2発話者による発話を受理するか否か、すなわち第2発話者による音声操作の可否を決定する。
対話制御部21は、対話制御ルール記憶部24を備えない場合であっても、第2発話者の発話内容に応じて、第2発話者による発話を受理するか否か決定することが可能である。例えば、第1発話者が運転者である場合には、運転操作に集中するために、音声操作の開始後の対話ステップを他の乗員に任せることがある。そのため、対話制御部21は、音声操作を開始した第1発話者が「後は他の乗員が回答する」と発話した場合や、第2発話者が「第1発話者の代理で回答するが、・・・」と発話した場合などには、第2発話者による発話を受理するようにしてもよい。また、対話制御部21は、発話意図を推定し、発話内容がタスクに無関係であると判断した場合には、第2発話者による発話を棄却するようにしてもよい。
あるいは、音声操作を開始した第1発話者が、対話ステップの途中で別の乗員の発話を受理して対話ステップを進めるか、別の乗員の発話では対話ステップを進めないかを選択可能とし、選択結果を対話制御部21に通知するようにしてもよい。この場合、対話制御部21は、選択結果に基づいて応答生成部23に応答指示を行う。
なお、対話制御部21は、第2発話者の発話を受理するか棄却するかの判定結果を提示してもよい。例えば、対話制御部21は、判定結果を表示器34に表示させてもよいし、スピーカ32,42から音声出力させてもよい。また、音声認識システム1が第2発話者の発話を棄却すると判断した場合に、第1発話者に受理するか棄却するかの判断を仰いでもよい。
対話制御部21は、対話ステップの継続中に、音声操作を開始した第1発話者以外の者が発話した際に、その発話内容が操作中のタスク以外のタスクを要求する内容であった場合には、継続中の音声操作と並行して別途音声操作を開始するように応答生成部23に応答指示を行ってもよい。
なお、どの処理部がいかなる処理を行うかは上記の例に限られるものではない。例えば、発話意図の推定を対話制御部21ではなく音声認識部22が行ってもよい。
次に、音声認識システム1を用いた音声認識方法について、図2を参照して説明する。図2は、音声認識システム1を用いた音声認識方法の手順の一例を示すフローチャートである。
音声認識システム1は、まず音声入力制御部13により、発話者の音声信号を取得する(ステップS11)。そして、発話者特定部12により、取得した音声信号の発話者を特定する(ステップS12)。
続いて、音声認識部22により、取得した音声信号を音声認識処理により文字列化する(ステップS13)。そして、対話制御部21により、音声認識結果を解析して発話意図を推定し、発話意図に則した応答指示を生成する(ステップS14)。
続いて、応答生成部23により、応答指示に基づく応答データを生成する(ステップS15)。そして、対話制御部21は、音声信号の内容から、タスクが完了したか否かを判定する(ステップS16)。タスクが完了していないと判定した場合には(ステップS16-No)、ステップS17に処理を進め、対話ステップを継続する。
対話ステップを継続する場合には、音声入力制御部13により、再度音声を取得する(ステップS17)。そして、発話者特定部12により、取得した音声信号の発話者を特定し(ステップS18)、対話制御部21により、発話者が操作の開始者であるか否かを判定する(ステップS19)。
ステップS19において、発話者が操作の開始者ではないと判定した場合には(ステップS19-No)、対話制御部21は、対話制御ルール記憶部24に記憶された対話制御ルールを参照し、発話者が参加可能なタスクであるか否かを判定する(ステップS20)。対話制御部21は、発話者が参加可能なタスクでないと判定した場合には(ステップS20-No)、処理をステップS17に戻す。
一方、ステップS19において、発話者が操作の開始者であると判定した場合(ステップS19-Yes)、又はステップS20において、発話者が参加可能なタスクであると判定した場合には(ステップS20-Yes)、音声認識部22により、取得した音声信号を音声認識処理により文字列化する(ステップS21)。そして、対話制御部21により音声認識結果を解析して発話意図を推定し、発話意図に則した応答指示を生成する(ステップS22)。
続いて、応答生成部23により、応答指示に基づく応答データを生成し出力する(ステップS23)。そして、対話制御部21は、タスクが完了したか否かを判定し(ステップS24)、タスクが完了していないと判定した場合には(ステップS24-No)、処理をステップS17に戻す。
次に、上記の音声認識システム1の処理の第1の具体例を、図3を参照して説明する。図3は、音声認識システム1の第1の処理例として、対話ステップの途中で、操作開始者と異なる者が発話した場合に、該発話者の音声操作が許可される例を示す図である。ここでは、図4に示すように、車両2にA,B,C,Dの4名が乗車しているものとする。
Aが、「この辺りのお勧めの鰻屋さん探して」と発話すると、マイク31-1が音声を収音し、音声入力制御部13は、「この辺りのお勧めの鰻屋さん探して」という音声信号を取得する(ステップS11)。発話者特定部12は、「この辺りのお勧めの鰻屋さん探して」という音声信号の発話者がAであると特定する(ステップS12)。音声認識部22は、「この辺りのお勧めの鰻屋さん探して」という音声信号の音声認識を行い(ステップS13)、対話制御部21は、音声認識結果を解析して発話意図を推定し、発話意図に則した応答指示を生成する(ステップS14)。
応答生成部23は、対話制御部21からの応答指示を受けて、車両2の位置から所定の範囲内にある鰻屋さん及びそのお勧め度(例えば、お店に訪れたお客さんによる評価値の平均)を検索して検索結果を示すデータを生成し、表示器34の表示画面に検索結果Xを表示させる(ステップS15)。また、応答生成部23は、「この辺りで4件見つかりました。どちらにしますか?」という音声データを生成し、スピーカ32,42から出力させる(ステップS15)。
対話制御部21は、この「お店を検索して行き先を決定する」というタスクは、検索結果Xの提示に対する応答を必要とすると判定し、まだタスクは完了していないと判定する(ステップS16-No)。
続いてBが、「うなふじに行きたい」と発話すると、マイク41-1が音声を収音し、音声入力制御部13は、「うなふじに行きたい」という音声信号を取得する(ステップS17)。発話者特定部12は、「うなふじに行きたい」という音声信号の発話者がBであると特定する(ステップS18)。
対話制御部21は、発話者Bは操作の開始者Aとは異なると判定する(ステップS19-No)。そして、対話制御ルール記憶部24に記憶された対話制御ルールに基づき、「お店を検索して行き先を決定する」というタスクが、発話者Bが途中から参加可能なタスクであるか否かを判定する。「お店を検索して行き先を決定する」というタスクは乗員A~Dのいずれもが決定することができる事項であるため、対話制御部21は、発話者Bが参加可能なタスクであると判定する(ステップS20-Yes)。
音声認識部22は、「うなふじに行きたい」という音声信号の音声認識を行い(ステップS21)、対話制御部21は、発話意図を推定し、発話意図に則した応答指示を生成する(ステップS22)。
応答生成部23は、対話制御部21からの応答指示を受けて、「わかりました。ご案内します。」という音声データを生成し、スピーカ32,42から出力させる(ステップS23)。さらに、「うなふじ」までの経路を示すデータを生成し、表示器34に表示させてもよい。
次に、上記の音声認識システム1の処理の第2の具体例を、図5を参照して説明する。図5は、音声認識システム1の第2の処理例として、対話ステップの途中で、操作開始者と異なる者が発話した場合に、該発話者による音声操作が棄却される例を示す図である。ここでも、図4に示すように、車両2にA,B,C,Dの4名が乗車しているものとする。
Aが「○○さんに電話したい」と発話すると、マイク31-1が音声を収音し、音声入力制御部13は、「○○さんに電話したい」という音声信号を取得する(ステップS11)。発話者特定部12は、「○○さんに電話したい」という音声信号の発話者がAであると特定する(ステップS12)。音声認識部22は、「○○さんに電話したい」という音声信号の音声認識を行い(ステップS13)、対話制御部21は、発話意図を推定し、発話意図に則した応答指示を生成する(ステップS14)。
応答生成部23は、対話制御部21からの応答指示を受けて、あらかじめ登録されている電話帳から「○○」を検索して検索結果を示すデータを生成し、表示器34の表示画面に検索結果Yを表示させる(ステップS15)。また、応答生成部23は、「どちらの○○さんですか?」という音声データを生成し、スピーカ32,42から出力させる(ステップS15)。
対話制御部21は、この「電話を発信する」というタスクは、検索結果Yの提示に対する応答を必要とすると判定し、まだタスクは完了していないと判定する(ステップS16-No)。
続いてBが、「次郎」と発話すると、マイク41-1が音声を収音し、音声入力制御部13は、「次郎」という音声信号を取得する(ステップS17)。発話者特定部12は、「次郎」という音声信号の発話者がBであると特定する(ステップS18)。
すると、対話制御部21は、発話者Bは操作の開始者Aとは異なると判定する(ステップS19-No)。そして、対話制御ルール記憶部24に記憶された対話制御ルールに基づき、「電話を発信する」というタスクが、発話者Bが途中から参加可能なタスクであるか否かを判定する。「電話を発信する」というタスクは操作開始者が電話相手を決定することが想定されるため、対話制御部21は、発話者Bが参加可能なタスクではないと判定する(ステップS20-No)。
続いてAが、「花子さん」と発話すると、マイク31-1が音声を収音し、音声入力制御部13は、「花子さん」という音声信号を取得する(ステップS17)。発話者特定部12は、「花子さん」という音声信号の発話者がAであると特定する(ステップS18)。
すると、対話制御部21は、発話者Aは操作の開始者であると判定する(ステップS19-Yes)。音声認識部22は、「花子さん」という音声信号の音声認識を行い(ステップS21)、対話制御部21は、発話意図を推定し、発話意図に則した応答指示を生成する(ステップS22)。
応答生成部23は、対話制御部21からの応答指示を受けて、「わかりました。花子さんにかけます。」という音声データを生成し、スピーカ32,42から出力させる(ステップS23)。同時に、「○○ 花子」の電話番号を取得し、表示器34に「○○ 花子」の電話番号Zを表示させる(ステップS23)。
以上説明したように、音声認識システム1は、音声信号から発話者を特定し、音声操作を開始した第1発話者と、音声操作の開始後に発話をした第2発話者とが同一でない場合に、第2発話者による音声操作の可否を決定する。そのため、本発明によれば、状況に応じて、音声認識の開始時に発話した第1発話者とは異なる第2発話者が音声操作を行うことが可能となる。
また、音声認識システム1は、タスクごとに、音声認識の開始時に発話した第1発話者とは異なる第2発話者が音声操作を行うことが可能なタスクであるか否かを、あらかじめ対話制御ルールとして記憶しておくことにより、第2発話者による音声操作の可否を対話制御ルールに基づいて判定することができる。そのため、本発明によれば、音声認識の開始時に発話した第1発話者とは異なる第2発話者が発話した場合に、第2発話者による音声操作を許可することが適切なタスクか否かを自動的に判断することができ、第2発話者による音声操作を許可することが適切なタスクにおいて、第2発話者による音声操作を行うことが可能となる。
<第1の変形例>
次に、上述した音声認識システム1の第1の変形例について説明する。図6は、音声認識システム1の第1の変形例である音声認識システム1-2の構成を示す図である。音声認識システム1-2は、音声信号を取得する車載機10’と、音声信号を解析して音声信号に対する応答を決定するするサーバ20とを備える。また、車両2-2は、車載機10’と、前席入出力装置30’と、後席入出力装置40’とを備える。
前席入出力装置30’は、マイク31、スピーカ32、及び表示器34に加えて、音声認識開始ボタン33を備える点が音声認識システム1の前席入出力装置30と相違する。本実施形態では、車両2の前席を運転席(D席)及び助手席(P席)とし、各席にマイク31、スピーカ32、及び音声認識開始ボタン33が備えられ、前席の前面に表示器34が備えられているものとする。
後席入出力装置40’は、マイク41及びスピーカ42に加えて、音声認識開始ボタン43を備える点が音声認識システム1の前席入出力装置40と相違する。本実施形態では、車両2の後席を2席の後部座席とし、各席にマイク41、スピーカ42、及び音声認識開始ボタン43が備えられているものとする。
乗員が音声認識システム1-2に対して発話する場合には、音声認識開始ボタン33又は音声認識開始ボタン43を押下してから所定の時間内に発話するものとする。音声認識開始ボタン33,43はボタンが押下されると、音声認識開始信号を発話者特定部12’に出力する。
車載機10’は、入出力制御部11と、発話者特定部12’と、音声入力制御部13と、表示出力制御部14と、音声出力制御部15とを備える。また、サーバ20は、対話制御部21と、音声認識部22と、応答生成部23と、対話制御ルール記憶部24とを備える。音声認識システム1-2は音声認識システム1と比較して、発話者特定部12に代えて発話者特定部12’を備える点が相違する。
発話者特定部12’は、音声認識開始信号が音声認識開始ボタン33,43のいずれから入力されたのかを識別することにより、発話者を特定することができる。例えば、運転席に備えられた音声認識開始ボタン33から音声認識開始信号が入力された場合には、発話者を運転者と特定する。
以上説明したように、第1の変形例によれば、前席入出力装置30’が音声認識開始ボタン33を備え、後席入出力装置40’が音声認識開始ボタン43を備えるため、発話者特定部12’は容易に発話者を特定することが可能となる。また、音声認識開始ボタン43が押下される前にマイク31,41が音声を収音した場合には、入出力制御部11は、マイク31,41から入力された音声信号を破棄するようにしてもよい。これにより、タスクの実行に関係しない音声をマイク31,41が収音した場合でも、誤動作を防止することが可能となる。
<第2の変形例>
次に、上述した音声認識システム1の第2の変形例について説明する。図7は、音声認識システム1の第2の変形例である音声認識システム1-3の構成を示す図である。音声認識システム1-3は、サーバ20を備えないで、車両2-3に搭載される。車両2-3は、前席入出力装置30と、後席入出力装置40と、音声認識システム1-3とを備える。
音声認識システム1-3は、発話者特定部12と、音声入力制御部13と、表示出力制御部14と、音声出力制御部15と、対話制御部21’と、音声認識部22と、応答生成部23と、対話制御ルール記憶部24とを備える。音声認識システム1では構成を車両側とサーバ側とに分離させていたが、音声認識システム1-3では構成を車両側に一体化させる。そのため、音声認識システム1-3は、音声認識システム1における入出力制御部11を備えていない。
対話制御部21’は、音声認識システム1の対話制御部21と比較して、音声信号及び発話者情報を、入出力制御部11を介さないで音声入力制御部13及び発話者特定部12から直接取得する点と、応答データを、入出力制御部11を介さないで表示出力制御部14及び音声出力制御部15に直接に出力する点が相違する。その他の対話制御部21’の処理については音声認識システム1と同様であるため、説明を省略する。また、その他の各構成部の処理内容も音声認識システム1と同様であるため、説明を省略する。
このように、音声認識システム1-3は、構成を車両側とサーバ側とに分離させないで、車両側に一体化させる。したがって、音声認識システム1と比較して車両側の計算負荷は大きくなるものの、サーバ20との通信は不要になるため、通信環境によらず、発話者の要求を確実に受け付けることが可能となる。
以上、音声認識システムについて説明したが、音声認識システムの全部又は一部として機能させるためにコンピュータを用いることも可能である。そのようなコンピュータは、音声認識システムの各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。
また、このプログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROMなどの記録媒体であってもよい。
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
1,1-2,1-3 音声認識システム
2,2-2,2-3 車両
10,10’ 車載機
11 入出力制御部
12,12’ 発話者特定部
13 音声入力制御部
14 表示出力制御部
15 音声出力制御部
20 サーバ
21,21’ 対話制御部
22 音声認識部
23 応答生成部
24 対話制御ルール記憶部
30,30’ 前席入出力装置
31 マイク
32 スピーカ
33 音声認識開始ボタン
34 表示器
40,40’ 後席入出力装置
41 マイク
42 スピーカ

Claims (1)

  1. 発話による音声操作が可能な車両に搭乗した乗員の音声を音声認識し、音声認識した内容に対して応答を行う音声認識システムであって、
    音声信号から発話者を特定する発話者特定部と、
    前記音声信号に対して音声認識処理を行う音声認識部と、
    前記音声認識部による音声認識結果を解析し、解析内容に基づく応答指示を生成する対話制御部と、
    前記応答指示に基づく応答データを生成する応答生成部と、を備え、
    前記対話制御部は、音声操作を開始した第1発話者と、前記音声操作の開始後に発話をした第2発話者とが同一でない場合に、第2発話者の前記発話による音声操作の可否を決定することを特徴とする音声認識システム。
JP2018107851A 2018-06-05 2018-06-05 音声認識システム Active JP7000257B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018107851A JP7000257B2 (ja) 2018-06-05 2018-06-05 音声認識システム
PCT/IB2019/000425 WO2019234487A1 (en) 2018-06-05 2019-05-28 Voice recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018107851A JP7000257B2 (ja) 2018-06-05 2018-06-05 音声認識システム

Publications (2)

Publication Number Publication Date
JP2019211635A JP2019211635A (ja) 2019-12-12
JP7000257B2 true JP7000257B2 (ja) 2022-01-19

Family

ID=66951980

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018107851A Active JP7000257B2 (ja) 2018-06-05 2018-06-05 音声認識システム

Country Status (2)

Country Link
JP (1) JP7000257B2 (ja)
WO (1) WO2019234487A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015033523A1 (ja) 2013-09-03 2015-03-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話制御方法
CN107767875A (zh) 2017-10-17 2018-03-06 深圳市沃特沃德股份有限公司 语音控制方法、装置和终端设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9452735B2 (en) * 2011-02-10 2016-09-27 Ford Global Technologies, Llc System and method for controlling a restricted mode in a vehicle

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015033523A1 (ja) 2013-09-03 2015-03-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話制御方法
CN107767875A (zh) 2017-10-17 2018-03-06 深圳市沃特沃德股份有限公司 语音控制方法、装置和终端设备

Also Published As

Publication number Publication date
WO2019234487A8 (en) 2020-02-13
WO2019234487A1 (en) 2019-12-12
JP2019211635A (ja) 2019-12-12

Similar Documents

Publication Publication Date Title
JP4346571B2 (ja) 音声認識システム、音声認識方法、及びコンピュータプログラム
US20050216271A1 (en) Speech dialogue system for controlling an electronic device
EP1768103B1 (en) Device in which selection is activated by voice and method in which selection is activated by voice
JP6767082B2 (ja) 車内通話制御装置、車内通話システムおよび車内通話制御方法
US11158316B2 (en) In-vehicle device and speech recognition method
US20070118380A1 (en) Method and device for controlling a speech dialog system
JPH1152976A (ja) 音声認識装置
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2018116130A (ja) 車内音声処理装置および車内音声処理方法
JP7000257B2 (ja) 音声認識システム
JP4478146B2 (ja) 音声認識システム、音声認識方法およびそのプログラム
JP5979303B2 (ja) 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム
JP2004301875A (ja) 音声認識装置
CN113160824B (zh) 信息处理系统
JP4624825B2 (ja) 音声対話装置および音声対話方法
WO2019163060A1 (ja) 操作制限制御装置及び操作制限制御方法
JP6509098B2 (ja) 音声出力装置および音声出力制御方法
JP2007286198A (ja) 音声合成出力装置
JP2019212168A (ja) 音声認識システムおよび情報処理装置
CN113689849B (zh) 智能体控制装置、智能体控制方法以及记录有程序的记录介质
JP2005084589A (ja) 音声認識装置
JPH11109987A (ja) 音声認識装置
JP7192561B2 (ja) 音声出力装置および音声出力方法
JP2005084590A (ja) 音声認識装置
JP2008092322A (ja) 通信制御装置および集積回路

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211223

R151 Written notification of patent or utility model registration

Ref document number: 7000257

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151