JP7172120B2

JP7172120B2 - 音声認識装置及び音声認識方法

Info

Publication number: JP7172120B2
Application number: JP2018086720A
Authority: JP
Inventors: 剛仁寺口; 裕史井上; 乘西山; 翔太大久保; 雄宇志小田
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2022-11-16
Anticipated expiration: 2038-04-27
Also published as: JP2019191477A

Description

本発明は、音声認識装置及び音声認識方法に関するものである。

ユーザが発話した発話フレーズを音声認識する音声認識装置として、ユーザの発話内容が動詞の命令形または体言止めの場合のみ、機械に向けての発言と判断する音声認識装置が知られている（特許文献１）。これにより、ユーザ同士の会話や独り言が、機械に向けた発言であると誤認識されるのを防止できるとされている。

特開２０１５－１２９７９４号公報

しかしながら、乗員同士の会話の中にも、命令形または体言止めを用いることは少なくない。たとえば、「そういえば．．．」→「何？」→「この近くにコンビニはあるかなぁ？」→「近くのコンビニ？」といった場合の最後の発話は体言止めであり、「ちょっとお願い」→「何？」→「エアコンの温度を上げて」といった場合の最後の発話は命令形であるから、こうした乗員同士の会話がされると、機械に向けての発話であると誤認識してしまうという問題があった。

本発明が解決しようとする課題は、対話装置などの機械に対する発話をそれ以外の発話から精度良く識別できる音声認識装置及び音声認識方法を提供することである。

本発明は、音声入力部に入力された発話データからピッチ周波数の時間的な変化を抽出し、当該ピッチ周波数の時間的な変化に基づいて、入力された発話データの発話対象が対話装置であるか否かを解析し、対話装置に対する発話であると解析された場合に限り、発話データに対する応答データを生成し、当該応答データを出力することによって上記課題を解決する。

本発明によれば、ピッチ周波数の時間的な変化に基づいて、入力された発話データの発話対象が対話装置であるか否かを解析するので、対話装置などの機械に対する発話をそれ以外の発話から精度良く識別することができる。

本発明の音声認識装置の一実施の形態を示すブロック図である。図１の音声解析部の構成例を示すブロック図である。図２のピッチ周波数解析部で実行される処理例を示すフローチャートである。図２の音声認識部及び第１記憶部で実行される処理例を示すフローチャートである。図２の音声認識部、発話文章解析部及び第２記憶部で実行される処理例を示すフローチャートである。図１の音声認識装置で実行される学習時の制御手順を示すフローチャートである。図１の音声認識装置で実行される音声認識時の制御手順を示すフローチャートである。発話対象と、識別パラメータ及び解析条件との関係例を示す図である。図１の音声認識装置の動作モード、その概要、動作モードの移行のトリガ条件の一例を示す図である。図９に示す音声認識モードにおける移行処理の一例を示すフローチャートである。図９に示す音声認識モードにおける移行処理の他例を示すフローチャートである。

以下、本発明の実施形態を図面に基づいて説明する。図１は、本発明の音声認識装置１の一実施の形態を示すブロック図であり、本発明の音声認識方法を使用するものである。図１において、自車両を含む車両Ｖの音声認識装置１と、自車両Ｖ１の音声認識装置１とを上下に並べて記載しているが、上図の自車両を含む車両Ｖの音声認識装置１は、後述する学習時に実行される制御を説明するために便宜的に示したブロック図であり（出力制御部１３及び車載データベースＤＢＶは使用しないため図示を省略した。）、各車両は、下図の自車両Ｖ１の音声認識装置１の構成を備えるものである。したがって、各車両の音声認識装置１については、下図のブロック図を参照して説明する。

本実施形態の音声認識装置１は、たとえば対話能力を備える機器（以下、対話装置２という）が搭載されている車両の室内で、発話のキーワードをトリガにするのではなく、音声信号特性に基づいて、乗員の発話が当該対話装置２に対する発話か否かを識別するものである。より具体的には、ピッチ周波数の変化、発話の時間的間隔、発話の速度又は音量といった、言葉ではない音声信号特性の少なくともいずれかを解析することで、入力された発話データの発話対象が、対話装置、発話者以外の乗員、又はこれら以外の孤立発話のいずれであるかを解析する。また解析精度を高めるために，自車両における発話データの解析のみならず、自車両を含めた複数の車両における発話データを解析したデータも併用して乗員の発話データの発話対象を識別する。

このため、本実施形態の音声認識装置１は、図１の下図に示すように、自車両Ｖ１の乗員の発話データを入力する音声入力部１１と、音声入力部１１に入力された発話データから所定の音声信号特性を抽出するとともに、音声信号特性に基づいて、音声入力部１１に入力された発話データの発話対象が、対話装置２であるか否かを解析する音声解析部１２と、音声解析部１２により、入力された発話データが対話装置２であると解析された場合に限り、発話データに対する応答データを生成し、当該応答データを対話装置２へ出力する出力制御部１３と、自車両Ｖ１の乗員を検出する乗員検出部１４と、自車両Ｖ１の乗員が電話機を使用しているか否かを検出する通話検出部１５と、車載データベースＤＢＶと、を備える。

音声入力部１１は、たとえば一又は複数のマイクロフォンなどを用いることができ、車室内の乗員の声が入力し易い位置に設置される。運転席であればステアリングコラムカバー上面やインストルメントパネル、助手席であればインストルメントパネル、後部座席であればコンソールボックスの後部や前部座席の背面などの適宜箇所に一又は複数のマイクロフォンを設置すればよい。上述したとおり、本実施形態の音声認識装置１では、入力された発話データが、発話者以外の乗員に対する発話であることも識別するため、複数の乗員からの発話データを入力し易くすることで識別精度を高めてもよい。

音声解析部１２は、音声入力部１１に入力された発話データから所定の音声信号特性を抽出するとともに、音声信号特性に基づいて、音声入力部１１に入力された発話データの発話対象が、対話装置２であるか否か、本実施形態では、入力された発話データの発話対象が、対話装置２か、発話者以外の乗員か、又はこれら以外の孤立発話のいずれであるかを解析する。ここでいう孤立発話とは、「暑いなぁ」、「眠いなぁ」といった発話者の独り言を意味する。また、孤立発話は、自分以外の人間や機械に対して返答を求めない発話を意味するということもできる。また、所定の音声信号特性は、ピッチ周波数の変化、発話の時間的間隔、発話の速度、又は音量の少なくともいずれかであり、特にキーワードなどの発話の言語を含まない趣旨である。これらピッチ周波数の変化、発話の時間的間隔、発話の速度、又は音量といった音声信号特性は、物理的又は電気的測定器により計測して解析することができるものでもある。

図２は音声解析部１２の構成例を示すブロック図である。図示する構成例では、ピッチ周波数解析部１２１と、音声認識部１２２と、発話文章解析部１２３と、第１記憶部１２４と、第２記憶部１２５と、第３記憶部１２６と、第４記憶部１２７と、を備える。なお、第１記憶部１２４と、第２記憶部１２５と、第３記憶部１２６と、第４記憶部１２７は、各機能を説明するために便宜的に別の記憶部として記載しているが、その幾つか又は全部をまとめた記憶部にしてもよい。

ピッチ周波数解析部１２１は、音声入力部１１に入力された発話データの音声信号のピッチ周波数を時間の経過に応じて計測し、そのピッチ周波数の時間的な変化を演算する。音声信号のピッチ周波数は、声の高さを示す信号特性であって、声帯の振動周期で決まり、声帯の振動周期が短いとピッチ周波数は大きくなり、振動周期が長いとピッチ周波数は小さくなる。そして、本実施形態のピッチ周波数解析部１２１は、ピッチ周波数の絶対値ではなく、ピッチ周波数の時間的な変化が所定の範囲内であるか否かを判定する。

人間の発話は、他の人間に対する発話や、独り言のような孤立発話の場合は、感情移入する（すなわち抑揚をつける）ためにピッチ周波数の時間的な変化が大きくなるのに対し、対話装置２のような機械に対する発話は、抑揚をつけずに発話することが多い傾向がある。本実施形態のピッチ周波数解析部１２１は、この傾向を利用する。図３は、ピッチ周波数解析部１２１で実行される処理例を示すフローチャートである。すなわち、ステップＳ３１にて音声入力部１１に入力された乗員の発話データのピッチ周波数を時間の経過に応じて計測し、ステップＳ３２にて、ピッチ周波数の時間的な変化が所定の範囲内である（すなわち平坦である）場合には、ステップＳ３３へ進み、対話装置２に対する発話であるとの解析データを出力制御部１３に出力する。これに対して、ステップＳ３２にて、ピッチ周波数の時間的な変化が所定の範囲内でない場合には、ステップＳ３４へ進み、対話装置２に対する発話ではなく、他の乗員に対する発話か孤立発話であるとの解析データを出力する。この対話装置２に対する発話ではなく、他の乗員に対する発話か孤立発話であるとの解析データは、出力制御部１３には出力せず、後述する学習時にデータセンタ３のホストデータベースＤＢＨへ出力する。

図２に戻り、音声認識部１２２は、音声入力部１１に入力された信号が発話データか否か、すなわち人間の発話であるのか、それ以外の単なる音であるのかを認識する。そして、第１記憶部１２４を用いて、発話データであると判定した場合には発話データの時間的間隔を計測し、発話データの時間的間隔が所定値より大きいか否かにより、孤立発話であるか否かを判定する。独り言のような孤立発話は、連続して発話することはごく稀であるのに対し、他の乗員との会話データである場合には、時間的間隔が短い傾向がある。本実施形態の音声認識部１２２及び第１記憶部１２４は、この傾向を利用して孤立発話であるか否かを判定する。

図４は、音声認識部１２２及び第１記憶部１２４で実行される処理例を示すフローチャートである。すなわち、ステップＳ４１にて音声入力部１１に入力された音声信号が人間の発話データであるか否かを認識し、人間の発話データである場合のみステップＳ４２へ進んで第１記憶部１２４に発話時刻を記録する。次いでステップＳ４３では、前回の発話時刻（初回の発話の場合は次のルーチンにて当該判定を実行する）との時間的間隔を算出し、ステップＳ４４にて前回の発話時刻と今回の発話時刻との時間的間隔が所定値以上であるか否かを判定する。そして、前回の発話時刻と今回の発話時刻との時間的間隔が所定値以上である場合は、ステップＳ４５へ進み、孤立発話である解析データを出力する。これに対して、前回の発話時刻と今回の発話時刻との時間的間隔が所定値以上でない場合は、ステップＳ４６へ進み、孤立発話ではない解析データを出力する。これらの解析データは、対話装置２に対する発話ではないので出力制御部１３には出力せず、後述する学習時にデータセンタ３のホストデータベースＤＢＨへ出力する。

図２に戻り、発話文章解析部１２３は、音声認識部１２２にて人間の発話であると判定された発話データを入力し、第２記憶部１２５を用いて、当該発話データに含まれる文章を解析することで、他の乗員との対話であるか否かを判定する。特に、ピッチ周波数解析部１２１によりピッチ周波数の時間的変化が所定の範囲内ではなく（平坦ではなく抑揚がある）場合に、発話の文章を解析することで他の乗員との対話であるのか、対話装置２に対する発話であるのかを判定する。これにより、ピッチ周波数解析部１２１で漏れた対話装置２に対する発話を拾うことができる。

図５は、音声認識部１２２、発話文章解析部１２３及び第２記憶部１２５で実行される処理例を示すフローチャートである。すなわち、ステップＳ５１にて音声認識部１２２にて人間の発話であると判定された発話データを入力し、ステップＳ５２にて、当該発話データに含まれる文章データを解析して第２記憶部１２５に記録する。ステップＳ５３では、第２記憶部１２５に前回の解析結果の記録があるか否かを判定し、記録されていない場合はステップＳ５７へ進んで第２記憶部１２５に発話文章データの解析結果を記録してステップＳ５１へ戻る。第２記憶部１２５に前回の解析結果が記録されている場合はステップＳ５４へ進み、他の乗員（すなわち同乗者）が応答しているか否かを発話文章データの解析結果に基づいて判定する。この判定は、発話文章データの内容が対話になっているか否か、たとえば前回の発話データに対して今回の発話データがその応答内容になっているか否かを判定する。

今回の発話データの内容が前回の発話データに対する応答であると判定した場合はステップＳ５５へ進み、他の乗員に対する発話データであるとの解析データを出力する。この解析データは、対話装置２に対する発話ではないので出力制御部１３には出力せず、後述する学習時にデータセンタ３のホストデータベースＤＢＨへ出力する。これに対して、今回の発話データの内容が前回の発話データに対する応答ではないと判定した場合、すなわち２つの発話文章データが対話になっていないと判定した場合はステップＳ５６へ進み、対話装置２に対する発話データであるとの解析データを出力制御部１３へ出力する。ステップＳ５８では、第２記憶部１２５から発話文章データの記録を削除する。

図１及び図２に戻り、本実施形態の音声認識装置１は、自車両Ｖ１の乗員を検出する乗員検出部１４を備える。乗員検出部１４としては、車室内を撮像するカメラや着座センサなどを用いることができる。乗員検出部１４にて検出された乗員の数と着座位置は音声解析部１２の第３記憶部１２６に記録される。また本実施形態の音声認識装置１は、自車両Ｖ１の乗員が電話機を使用しているか否かを検出する通話検出部１５を備える。通話検出部１５としては、車室内を撮像するカメラにより乗員が電話機を把持しているか否かを画像処理により判定したり、車載された電話通信用アプリケーションが作動しているか否かにより判定したりする。通話検出部１５により検出された電話機の使用状況は第４記憶部１２７に記録される。これら乗員検出部１４及び通話検出部１５は、音声入力部１１に入力された発話データが対話装置２に対するものか、他の乗員又は通話相手に対するものか、孤立発話であるのかを、より精度良く識別する場合に用いられる。

《機器の操作の学習制御》
本実施形態の音声認識装置１は、当該音声認識装置１を搭載した自車両を含む複数の車両Ｖを用いて、対話装置２に対する発話データ、他の乗員（電話相手を含む）に対する発話データ、孤立発話データの解析結果をデータセンタ３のホストデータベースＤＢＨに蓄積し、複数の車両の、各音声入力部１１に入力された発話データと、各音声解析部１２により解析された発話データの発話対象との関係を機械学習モデルにより解析する。そして、自車両Ｖ１は、データセンタ３のホストデータベースＤＢＨから自車両Ｖ１の車載データベースＤＢＶへ、ホストデータベースＤＢＨに蓄積された学習データをダウンロードして定期的に更新する。

図６は、本実施形態の音声認識装置１で実行される学習時の制御手順を示すフローチャートである。この学習時には、自車両Ｖ１が備える出力制御部１３及び車載データベースＤＢＶは使用しないので、図１の上図と図６を参照して学習制御手順を説明する。

ステップＳ６１では、音声入力部１１により車室内の音声を取得し、ステップＳ６２にて発話が開始されたか否かを判定する。発話が開始されていない場合はステップＳ６１へ戻り発話が開始されるまでこれを繰り返す。ステップＳ６２にて発話が開始されたと判定した場合には、ステップＳ６３へ進み、上述した図３～図５に示す音声解析部１２による音声解析を実行する。次いで、ステップＳ６４にて、音声解析部１２により解析された発話データの解析データと発話対象のデータをデータセンタ３のホストデータベースＤＢＨへ送信し、ステップＳ６５及びＳ６６にてホストデータベースＤＢＨへ蓄積し、機械学習モデルにより解析する。

ステップＳ６４にてホストデータベースＤＢＨへ送信される発話データの解析データと発話対象のデータは、たとえば図３に示すサブルーチンにより得られた、音声解析部１２のピッチ周波数解析部１２１で解析されたピッチ周波数の時間的変化の値と発話対象（対話装置２に対する発話であるか否か）との関係のほか、図４に示すサブルーチンにより得られた発話データの時間的間隔と発話対象（孤立発話であるか否か）や、図５に示すサブルーチンにより得られた発話文章データに戻づく応答存否と発話対象（他の乗員に対する発話か対話装置２に対する発話か）が含まれる。またこれ以外にも、発話の速度や発話の音量と発話対象との関係を含めてもよい。対話装置２に対する発話では、他の乗員に対する発話や孤立発話に比べて、ゆっくり及び／又ははっきりと発話するのが一般的であるから、発話の速度が所定値より遅い場合や発話の音量が所定値より大きい場合には、対話装置２に対する発話であると解析してもよい。

図８は、発話対象と、識別パラメータ及び解析条件との関係例を示す図である。音声解析部１２における解析を、対話装置２に対する発話なのか、発話者以外の乗員（通話相手を含む）に対する発話なのか、又はこれら以外の孤立発話のいずれであるかを解析するものとした場合、対話装置２に対する発話データでは、上述したピッチ周波数の時間的な変化のほか、同乗者の有無を解析パラメータとすることができる。そして、同乗者がいない場合には、対話装置２に対する発話か、孤立発話のいずれかであるから、ピッチ周波数の時間的な変化に加えて同乗者の有無を乗員検出部１４により検出し、これにより解析精度を高めるようにしてもよい。

また、孤立発話では、図４のサブルーチンに示す如く、前回の発話データと今回の発話データとの時間的間隔を解析パラメータとし、時間的間隔が長い場合には孤立発話であると解析する。さらに、同乗者や通話相手に対する発話データでは、乗員検出部１４により検出される同乗者の有無、第１発話後の第２発話の会話の成立性、通話検出部１５により検出される電話機の使用状況などを解析パラメータとし、同乗者がいる場合、第１発話後の第２発話の会話が成立している場合、電話機を使用している場合には、他の乗員に対する発話である可能性があるため、他の解析と共にこれらの解析パラメータを用いて解析精度を高めるようにしてもよい。

《音声認識制御》
図７は、本実施形態の音声認識装置１で実行される音声認識時の制御手順を示すフローチャートである。この音声認識時には、自車両Ｖ１が備える出力制御部１３及び車載データベースＤＢＶも使用するので、図１の下図と図７を参照して制御手順を説明する。

ステップＳ７１では、音声入力部１１により車室内の音声を取得し、ステップＳ７２にて発話が開始されたか否かを判定する。発話が開始されていない場合はステップＳ７１へ戻り発話が開始されるまでこれを繰り返す。ステップＳ７２にて発話が開始されたと判定した場合には、ステップＳ７３へ進み、上述した図３～図５に示す音声解析部１２による音声解析を実行する。次いで、ステップＳ７４にて、音声解析部１２により解析された発話データの解析データを、車載データベースＤＢＶに出力し、ステップＳ７５及びＳ７６にて車載データベースＤＢＶに蓄積された機械学習モデルによる解析データと照合する。そして、ステップＳ７６にて発話対象を特定し、ステップＳ７７にて発話対象が対話装置２に対する発話データであるか否かを判定する。発話対象が対話装置２に対する発話データである場合には、ステップＳ７８へ進み、出力制御部１３により当該発話データに対する応答データを生成し、対話装置２へこれを出力する。ステップＳ７６にて特定された発話対象が対話装置２でない場合は、ステップＳ７８の処理を行うことなくルーチンを終了する。

図９は、本実施形態の音声認識装置１の動作モード、その概要、動作モードの移行のトリガ条件の一例を示す図である。本実施形態の音声認識装置１は、対話装置２対して乗員の発話データ又は発話指令データを入力し、対話装置２は当該発話データ又は発話指令データに応答するものである。対話装置２は、特に限定されないが、乗員との対話のみを行う機能、乗員の発話指令データに対して車載機器（ナビゲーション装置、空調装置、マルチメディア装置、座席調整装置、ハンドル調整装置、ウィンドウ開閉装置、車内に持ち込んだ携帯端末装置）への操作を支援する機能を備えるものである。そのため、本実施形態の音声認識装置１は、音声認識モードに、待受モードと、指令受付モードと、会話モードとを備える。音声認識装置１のＯＦＦスイッチを押した場合には、音声認識オフモードとなり音声認識は実行しないが、ＯＮスイッチを押した場合には、待受モード、指令受付モード又は会話モードのいずれかのモードになる。

そして、待受モードにおいては、音声認識機能がＯＮすることにより、音声認識を行い、指示受付モード又は会話モードに移行するが、孤立発話データと判別された場合には待受モードを継続する。また、音声認識機能がＯＮして孤立発話データではない場合に、予め設定された所定のキーワードを認識したときは指示受付モードに移行し、乗員からの具体的な指示を受け付け、上述した各種車載機器などの操作支援を実行する。また、音声認識機能がＯＮして孤立発話データではない場合に、複数人による発話データを認識したときは、会話モードに移行し、会話を認識して、当該会話に対して所定の提案や応答会話を実行する。なお、図１に示す実施形態では、音声認識装置１とは別に対話装置２を構成したが、対話装置２を音声認識装置１に含ませてもよい。

図１０は、図９に示す音声認識モードにおける移行処理の一例を示すフローチャートである。まず待受モードにおいて、ステップＳ１０１にて音声入力部１１が発話データを検知するとステップＳ１０２へ進み、図３において説明したように、音声入力部１１に入力された発話データのピッチ周波数を時間の経過に応じて計測し、ピッチ周波数の時間的な変化が所定の範囲内である（すなわち平坦である）場合には、ステップＳ１０３へ進み、対話装置２に対する発話であると認識して指示受付モードに移行する。そして、ステップＳ１０４にて、出力制御部１３が発話内容に応じた応答データを生成し、対話装置２へ出力する。これにより、乗員の発話データ（たとえば車載機器に対する操作指令データなど）に対して対話装置２が対応する。

ステップＳ１０２にて、音声入力部１１に入力された発話データのピッチ周波数の時間的な変化が所定の範囲内でない場合（平坦ではない場合）には、ステップＳ１０５へ進み、図４において説明したように、前回の発話時刻と今回の発話時刻との時間的間隔が所定値以上であるか否かを判定する。この時間的間隔が所定値以上に長い場合には、ステップＳ１０８へ進み、孤立発話であると認識して待受モードを継続し、ステップＳ１０１へ戻る。前回の発話時刻と今回の発話時刻との時間的間隔が所定値未満である場合には、ステップＳ１０６へ進み、他の乗員に対する発話であると認識して会話モードへ移行し、さらにステップＳ１０７にて、出力制御部１３又は対話装置２は発話内容に応じた提案や応答会話を実行する。

図１１は、図９に示す音声認識モードにおける移行処理の他例を示すフローチャートである。まず待受モードにおいて、ステップＳ１１１にて音声入力部１１が発話データを検知するとステップＳ１１２へ進み、音声入力部１１に入力された発話データが、車載データベースＤＢＶ（定期的にホストデータベースＤＢＨから機械学習モデルによる解析データをダウンロードする）を用いて識別可能なものか否かを判定し、可能である場合は、上述した図１０のルーチンのステップＳ１０２へ進み、その後の処理を実行する。これに対して、音声入力部１１に入力された発話データが、車載データベースＤＢＶを用いて識別できないものである場合には、ステップＳ１１３へ進み、乗員検出部１４又は通話検出部１５により同乗者がいるか又は通話中であるかを判定する。

ステップＳ１１３にて、同乗者がなく且つ通話中でもない場合はステップＳ１１４へ進み、音声入力部１１に入力された発話データの音量が所定値以上か否かを判定する。そして、発話データの音量が所定値以上である場合は、対話装置２に対する発話であるとして車載データベースＤＢＶに記録するか、出力制御部１３により応答データを生成して対話装置２へ出力する。上述したとおり、対話装置２などの機器に対する発話は、はっきりと発話するのが一般的であることから、これを学習データに利用したり、対話装置２に対する発話であると判定したりする。これに対して、発話データの音量が所定値未満である場合は、孤立発話であるとして車載データベースＤＢＶに記録するか、待受モードを継続する。

ステップＳ１１３に戻り、同乗者がいるか又は通話中である場合にはステップＳ１１７へ進み、人物の応答があるか否かを判定し、応答がない場合はステップＳ１１４へ進むが、応答がある場合はステップＳ１１８へ進み、他の乗員又は通話であると認識して会話モードに移行する。

以上のとおり、本実施形態の音声認識装置１及び音声認識方法によれば、音声入力部１１に入力された発話データから所定の音声信号特性を抽出し、当該音声信号特性に基づいて、音声入力部１１に入力された発話データの発話対象が、対話装置２か否かを解析し、入力された発話データが対話装置２に対する発話データであると解析された場合に限り、発話データに対する応答データを生成し、当該応答データを対話装置２へ出力するので、対話装置などの機械に対する発話をそれ以外の発話から精度良く識別することができる。

また本実施形態の音声認識装置１及び音声認識方法によれば、音声信号特性に基づいて、音声入力部１１に入力された発話データの発話対象が、対話装置２、発話者以外の乗員、又はこれら以外の孤立発話のいずれであるかを解析するので、対話装置２以外の発話に対しても解析することができ、音声認識装置１の待受モード、指示受付モード又は会話モードといった各種モードへの移行制御にも対応することができる。

また本実施形態の音声認識装置１及び音声認識方法によれば、入力された発話データが、発話者以外の乗員に対する発話及び孤立発話であると解析された場合には、対話装置２へ応答データを出力しないので、対話装置２への誤った出力が防止できる。

また本実施形態の音声認識装置１及び音声認識方法によれば、具体的には音声信号特性をピッチ周波数の変化、発話データの時間的間隔、発話の速度、又は音量の少なくともいずれかをパラメータにするので、対話装置などの機械に対する発話をそれ以外の発話から精度良く識別することができる。

また本実施形態の音声認識装置１及び音声認識方法によれば、具体的には、発話データの時間的間隔が所定値より大きい場合には、対話装置２に対する発話ではなく孤立発話であると解析し、発話の速度が所定値より遅い場合には、対話装置２に対する発話であると解析し、ピッチ周波数の変化が所定の範囲内である場合には、対話装置２に対する発話であると解析し、第１の乗員による発話データが入力されてから所定時間内に、第２の乗員による発話データが入力された場合には、発話者以外の乗員に対する発話であると解析し、複数の乗員が乗車している場合に、一の乗員による発話データが入力されてから所定時間内に、他の乗員による発話データが入力された場合には、発話者以外の乗員に対する発話であると解析し、乗員が電話機を使用している場合に、一の乗員による発話データが入力されてから所定時間内に、他の乗員による発話データが入力された場合には、発話者以外の乗員に対する発話であると解析し、音声入力部に入力された発話データの音量が所定値より大きい場合には、前記対話装置に対する発話であると解析するので、対話装置２以外の発話に対しても精度良く識別することができる。

また本実施形態の音声認識装置１及び音声認識方法によれば、複数の車両の、各音声入力部に入力された発話データと、各音声解析部１２により解析された発話対象との関係データをデータベースＤＢＨに蓄積し、音声信号特性は、関係データを機械学習モデルにより解析された特性を用いるので、自車両Ｖ１のみならず他車両についても、対話装置２などの機械に対する発話をそれ以外の発話から精度良く識別することができる。

１…音声認識装置
１１…音声入力部
１２…音声解析部
１２１…ピッチ周波数解析部
１２２…音声認識部
１２３…発話文章解析部
１２４…第１記憶部
１２５…第２記憶部
１２６…第３記憶部
１２７…第４記憶部
１３…出力制御部
１４…乗員検出部
１５…通話検出部
ＤＢＶ…車載データベース
２…対話装置
３…データセンタ
ＤＢＨ…ホストデータベース
Ｖ…自車両を含む車両
Ｖ１…自車両

Claims

車両の乗員の発話データを入力する音声入力部と、
前記音声入力部に入力された発話データからピッチ周波数の時間的な変化を抽出するとともに、前記ピッチ周波数の時間的な変化に基づいて、前記音声入力部に入力された発話データの発話対象が、対話装置であるか否かを解析する音声解析部と、
前記音声解析部により、入力された発話データの発話対象が前記対話装置であると解析された場合に限り、前記発話データに対する応答データを生成し、当該応答データを出力する出力制御部と、を備える音声認識装置。
前記音声解析部は、前記ピッチ周波数の時間的な変化に基づいて、前記音声入力部に入力された発話データの発話対象が、対話装置、発話者以外の乗員、又はこれら以外の孤立発話のいずれであるかを解析する請求項1に記載の音声認識装置。
前記出力制御部は、前記音声解析部により、入力された発話データの発話対象が、前記発話者以外の乗員及び前記孤立発話であると解析された場合には、前記応答データを出力しない請求項２に記載の音声認識装置。
前記音声解析部は、前記発話データに含まれる発話の時間的間隔が所定値より大きい場合には、前記対話装置に対する発話ではなく、孤立発話であると解析する請求項１～３のいずれか一項に記載の音声認識装置。
前記音声解析部は、前記発話データに含まれる発話の速度が所定値より遅い場合には、前記発話対象は前記対話装置であると解析する請求項１～４のいずれか一項に記載の音声認識装置。
前記音声解析部は、前記ピッチ周波数の時間的な変化が所定の範囲内である場合には、前記発話対象は前記対話装置であると解析する請求項１～５のいずれか一項に記載の音声認識装置。
前記音声解析部は、第１の乗員による発話データが入力されてから所定時間内に、第２の乗員による発話データが入力された場合には、発話者以外の乗員に対する発話であると解析する請求項１～６のいずれか一項に記載の音声認識装置。
前記車両の乗員を検出する乗員検出部をさらに備え、
前記音声解析部は、複数の乗員が検出された場合に、一の乗員による発話データが検出されてから所定時間内に、他の乗員による発話データが入力された場合には、発話対象は発話者以外の乗員であると解析する請求項１～６のいずれか一項に記載の音声認識装置。
前記車両の乗員が電話機を使用しているか否かを検出する通話検出部をさらに備え、
前記音声解析部は、前記乗員が前記電話機を使用している場合に、一の乗員による発話データが検出されてから所定時間内に、他の乗員による発話データが入力された場合には、発話者以外の乗員に対する発話であると解析する請求項１～６のいずれか一項に記載の音声認識装置。
前記音声解析部は、前記音声入力部に入力された発話データの音量が所定値より大きい場合には、前記発話対象は前記対話装置であると解析する請求項８又は９に記載の音声認識装置。
複数の車両の、各音声入力部に入力された発話データと、各音声解析部により解析された発話対象との関係データを蓄積するデータベースをさらに備え、
前記ピッチ周波数の時間的な変化は、前記関係データを機械学習モデルにより解析された特性を用いる請求項１～１０のいずれか一項に記載の音声認識装置。
プログラムにより動作するコンピュータを用いて音声を認識する方法であって、
前記コンピュータは、
車両の乗員の発話データを入力し、
前記入力された発話データからピッチ周波数の時間的な変化を抽出するとともに、前記ピッチ周波数の時間的な変化に基づいて、前記入力された発話データの発話対象が、対話装置であるか否かを解析し、
前記入力された発話データの発話対象が前記対話装置であると解析された場合に限り、前記発話データに対する応答データを生成し、当該応答データを出力する音声認識方法。