JP7192561B2

JP7192561B2 - 音声出力装置および音声出力方法

Info

Publication number: JP7192561B2
Application number: JP2019028487A
Authority: JP
Inventors: 和也西村; 義博大栄; 直貴上野山; 博文神丸
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2022-12-20
Anticipated expiration: 2039-02-20
Also published as: US20200265837A1; JP2020134328A; US11295742B2

Description

本発明は、音声を出力する音声出力装置および音声出力方法に関する。

近年、車両の走行案内を行うナビゲーション装置が多くの車両に搭載されている。特許文献１は、運転者の医療情報を取得し、運転者の聴力が低下している場合には、ナビゲーション装置の案内時の音声の音量を通常より大きくする技術を開示する。

特開２００９－２５４５４４号公報

車室内外の雑音が大きい場合、ナビゲーション装置の音声が乗員に聞こえ難いことがある。また、ナビゲーション装置の経路案内の音声に経路案内地点の目印の情報が含まれる場合、その目印を乗員が視認できないこともある。これらの場合、乗員は音声の内容を十分に理解することが困難である。そこで、ナビゲーション装置の音声の内容を乗員が理解しにくい場合、理解しやすい音声を出力することが望まれる。

本発明はこうした状況に鑑みてなされたものであり、その目的は、出力された音声の内容を乗員が理解しにくい場合、理解しやすい音声を出力できる音声出力装置および音声出力方法を提供することにある。

上記課題を解決するために、本発明のある態様の音声出力装置は、車両の乗員の発話を取得する取得部と、取得された前記発話が聞き返しであるか否か判定する判定部と、前記発話が聞き返しであると判定された場合、聞き返しのタイプを分類する分類部と、聞き返しの対象となる音声の内容にもとづいて、分類された聞き返しのタイプに応じた音声を出力する出力部と、車室内の画像を画像認識して、眠っている可能性のある乗員を検出する画像認識部と、を備える。前記出力部は、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識部で検出されなければ、聞き返しの対象となる音声をより大きい音量で再出力し、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識部で検出されれば、音量を維持して、聞き返しの対象となる音声を再出力する。

この態様によると、乗員の聞き返しのタイプを分類し、聞き返しの対象となる音声の内容にもとづいて、分類された聞き返しのタイプに応じた音声を出力するので、音声出力装置の音声の内容を乗員が理解しにくく、聞き返しが行われた場合、理解しやすい音声を出力できる。

前記音声出力装置は、聞き返しの直前に前記出力部から出力された音声にもとづいて、聞き返しの対象となる音声の内容を特定する特定部を備えてもよい。

前記出力部は、聞き返しのタイプが音声の内容の意味を理解していないことを示すタイプである場合、聞き返しの対象となる音声の内容に関連した別の音声を出力してもよい。

前記出力部は、聞き返しのタイプが聞き逃しを示すタイプである場合、聞き返しの対象となる音声を再出力してもよい。

前記出力部は、聞き返しのタイプが聞き取れないことを示すタイプである場合、聞き返しの対象となる音声をより大きい音量で再出力してもよい。

本発明の別の態様は、音声出力方法である。この方法は、コンピュータが実行する音声出力方法であって、車両の乗員の発話を取得する取得ステップと、取得された前記発話が聞き返しであるか否か判定する判定ステップと、前記発話が聞き返しであると判定された場合、聞き返しのタイプを分類する分類ステップと、車室内の画像を画像認識して、眠っている可能性のある乗員を検出する画像認識ステップと、聞き返しの対象となる音声の内容にもとづいて、分類された聞き返しのタイプに応じた音声を出力する出力ステップと、を備える。前記出力ステップでは、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識ステップで検出されなければ、聞き返しの対象となる音声をより大きい音量で再出力し、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識ステップで検出されれば、音量を維持して、聞き返しの対象となる音声を再出力する。

本発明によれば、出力された音声の内容を乗員が理解しにくい場合、理解しやすい音声を出力できる。

実施の形態に係るナビゲーション装置のブロック図である。図１の音声出力装置の音声出力処理を示すフローチャートである。

図１は、実施の形態に係るナビゲーション装置１０のブロック図である。ナビゲーション装置１０は、自動車である車両に搭載される。ナビゲーション装置１０は、マイク１２と、スピーカ１４と、ナビゲーション部１６と、音声出力装置１８とを備える。

マイク１２は、車両の車室内に設置され、乗員の発話などの車室内の音声を音声信号に変換し、変換された音声信号を音声出力装置１８に出力する。スピーカ１４は、車両の車室内に設置され、音声出力装置１８から出力された音声信号を音声に変換し、その音声を出力する。

ナビゲーション部１６は、周知の技術を用いて経路案内用の案内経路を設定し、案内経路と地図を図示しない表示部に表示させ、走行案内用の音声を音声出力装置１８に出力させ、案内経路に沿って走行案内を行う。走行案内用の音声は、交差点などの走行案内すべき地点の目印の情報を含む。ナビゲーション部１６は、車両の位置が案内経路上の走行案内すべき地点に達した場合、音声により、たとえば「まもなく右方向です。コンビニエンスストアＡＢＣが目印です」という走行案内を行う。ナビゲーション部１６は、走行経路の渋滞情報や工事情報、目的地の天気予報、現在地付近の施設情報など、ドライバの利便性を向上するための各種情報の音声を音声出力装置１８に出力させてもよい。

音声出力装置１８は、処理部２０および記憶部２２を備える。処理部２０は、取得部３０、判定部３２、分類部３４、特定部３６および出力部３８を備える。処理部２０の構成は、ハードウエア的には、任意のコンピュータのＣＰＵ、メモリ、その他のＬＳＩで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。

出力部３８は、ナビゲーション部１６から供給された走行案内用などの音声情報にもとづいて、スピーカ１４などを介して音声を出力する。

取得部３０は、マイク１２を介して車両の乗員の発話を取得する。乗員は、ナビゲーション装置１０による走行案内用の音声などを聞き取れなかった場合や、その音声の内容を理解できなかった場合、「え？」などの発話、すなわち聞き返しを行うことがある。取得部３０は、マイク１２から出力された音声信号にもとづいて乗員の発話を音声認識し、その発話をテキストデータとして取得し、発話のテキストデータを判定部３２と分類部３４に供給する。

記憶部２２は、複数の聞き返しのテキストデータをデータベースとして予め保持している。判定部３２は、記憶部２２のデータベースを参照し、取得部３０で取得された発話が聞き返しであるか否か判定し、判定結果を分類部３４と特定部３６に供給する。判定部３２は、発話のテキストデータがデータベースの聞き返しのテキストデータに一致する場合、発話が聞き返しであると判定する。判定部３２は、発話のテキストデータがデータベースの聞き返しのテキストデータに一致しない場合、発話が聞き返しではないと判定する。判定部３２は、発話のテキストデータがデータベースの聞き返しのテキストデータに一致し、かつ、発話の語尾が上がる場合、発話が聞き返しであると判定してもよい。これにより、判定精度を高めうる。

特定部３６は、発話が聞き返しであると判定された場合、聞き返しの直前に出力部３８から出力された音声にもとづいて、聞き返しの対象となる音声の内容を特定し、特定した音声の内容を出力部３８に供給する。これにより、乗員がどの音声の内容に対して聞き返しを行ったか正しく特定しやすい。

分類部３４は、発話が聞き返しであると判定された場合、聞き返しのタイプを分類し、分類した聞き返しのタイプを出力部３８に供給する。聞き返しのタイプは、音声の内容の意味を理解していないことを示す第１のタイプ、聞き逃しを示す第２のタイプ、および、聞き取れないことを示す第３のタイプを含む。

記憶部２２は、複数の聞き返しのテキストデータのそれぞれと、聞き返しのタイプとの対応関係もデータベースとして予め保持している。聞き返しと、聞き返しのタイプは、１対１に対応付けられている。たとえば、「どこ？」、「どれ？」などの聞き返しは第１のタイプに対応付けられている。「え？なんていった？」などの聞き返しは第２のタイプに対応付けられている。「なになに？聞きづらい」などの聞き返しは第３のタイプに対応付けられている。第１から第３のタイプのいずれにも当てはまる可能性があり、タイプを分類しにくい「なに？」などの聞き返しは、第２のタイプに対応付けられている。また、第１のタイプと第３のタイプのどちらにも当てはまらない聞き返しは、第２のタイプに対応付けられている。

分類部３４は、記憶部２２のデータベースを参照して、発話のテキストデータに一致する聞き返しのテキストデータのタイプを特定し、特定したタイプを聞き返しのタイプとする。

出力部３８は、特定部３６から供給された聞き返しの対象となる音声の内容にもとづいて、分類部３４で分類された聞き返しのタイプに応じた音声をスピーカ１４などを介して出力する。

出力部３８は、聞き返しのタイプが第１のタイプである場合、聞き返しの対象となる音声の内容に関連した別の音声を出力する。記憶部２２は、聞き返しの対象となる音声の内容ごとに、その音声の内容に関連付けられた１以上の別の音声データをデータベースとして予め保持している。たとえば、聞き返しの対象となる音声の内容が「コンビニエンスストアＡＢＣが目印です」である場合、「赤い看板が目印です」、「赤い建物が目印です」などの聞き返しの対象となる音声の内容を言い換える音声データが関連付けられている。つまりこの例では、「コンビニエンスストアＡＢＣ」の看板と建物は赤色であるとする。乗員は、コンビニエンスストアＡＢＣという文字を視認できず、その看板や建物の色を知らないないなどの理由で「コンビニエンスストアＡＢＣが目印です」という音声の意味を理解できなかった場合、意味を理解できなかった音声の内容に関連した「赤い看板が目印です」などの音声を聞くことができ、その内容を理解できる可能性がある。

出力部３８は、聞き返しのタイプが第２のタイプである場合、聞き返しの対象となる音声を再出力する。これにより、乗員は、音声を聞き逃した場合、聞き逃した音声を再度聞くことができ、その内容を把握しやすい。タイプを分類しにくい聞き返し、第１のタイプと第３のタイプのどちらにも当てはまらない聞き返しの場合にも音声が再出力されるので、意図を特定しにくい聞き返しの場合にも、音声の内容を乗員に理解させることができる可能性がある。

出力部３８は、聞き返しのタイプが第３のタイプである場合、聞き返しの対象となる音声をより大きい音量で再出力する。これにより、乗員は、周囲の雑音の影響や自身の聴力の低さなどのために聞き取れなかった音声をより聞き取りやすい音量で再度聞くことができ、その内容を把握しやすい。

次に、以上の構成による音声出力装置１８の全体的な動作を説明する。図２は、図１の音声出力装置１８の音声出力処理を示すフローチャートである。図２の処理は、繰り返し実行される。

取得部３０が乗員の発話を取得していない場合（Ｓ１０のＮ）、ステップＳ１０で待機する。発話を取得した場合（Ｓ１０のＹ）、発話が聞き返しでなければ（Ｓ１２のＮ）、ステップＳ１０に戻る。発話が聞き返しである場合（Ｓ１２のＹ）、特定部３６は聞き返しの対象となる音声の内容を特定し（Ｓ１４）、分類部３４は聞き返しのタイプを分類し（Ｓ１６）、出力部３８は聞き返しのタイプを確認する（Ｓ１８）。

出力部３８は、聞き返しのタイプが第１のタイプである場合、聞き返しの対象となる音声の内容に関連した別の音声を出力し（Ｓ２０）、処理を終了する。出力部３８は、聞き返しのタイプが第２のタイプである場合、聞き返しの対象となる音声を再出力し（Ｓ２２）、処理を終了する。出力部３８は、聞き返しのタイプが第３のタイプである場合、聞き返しの対象となる音声をより大きい音量で再出力し（Ｓ２４）、処理を終了する。

本実施の形態によれば、音声出力装置１８の音声の内容を乗員が理解しにくく、聞き返しが行われた場合、理解しやすい音声を出力できる。また、聞き返しのタイプを分類し、分類された聞き返しのタイプに応じた音声を出力するので、複数の聞き返しのそれぞれに対して出力用の音声を生成するよりも、構成を簡素化できる。そのため、コストの増加を抑制でき、車載用途に適したナビゲーション装置１０を提供できる。

以上、実施の形態をもとに本発明を説明した。実施の形態はあくまでも例示であり、各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

たとえば、音声出力装置１８は、車室内のカメラで撮影された車室内の画像を画像認識して、眠っている可能性のある乗員を検出する画像認識部を備えてもよい。画像認識には、周知の技術を用いることができる。出力部３８は、聞き返しのタイプが第２のタイプである場合、眠っている可能性のある乗員が画像認識部で検出されなければ、聞き返しの対象となる音声をより大きい音量で再出力してもよい。これにより、音量を維持して音声を再出力する場合よりも、聞き逃した音声の内容を乗員に把握させやすい。一方、出力部３８は、聞き返しのタイプが第２のタイプである場合、眠っている可能性のある乗員が検出されれば、音量を維持して、聞き返しの対象となる音声を再出力してもよい。これにより、眠っている乗員に配慮できる。

実施の形態では、データベースを参照して、発話が聞き返しであるか否か判定し、聞き返しのタイプを分類したが、判定部３２と分類部３４は、発話内容の意図理解を行い、意図理解の結果に応じて、発話が聞き返しであるか否か判定し、聞き返しのタイプを分類してもよい。意図理解には周知の技術を用いることができる。この変形例では、音声出力装置１８の構成の自由度を向上できる。

１０…ナビゲーション装置、１８…音声出力装置、３０…取得部、３２…判定部、３４…分類部、３６…特定部、３８…出力部。

Claims

車両の乗員の発話を取得する取得部と、
取得された前記発話が聞き返しであるか否か判定する判定部と、
前記発話が聞き返しであると判定された場合、聞き返しのタイプを分類する分類部と、
聞き返しの対象となる音声の内容にもとづいて、分類された聞き返しのタイプに応じた音声を出力する出力部と、
車室内の画像を画像認識して、眠っている可能性のある乗員を検出する画像認識部と、
を備え、
前記出力部は、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識部で検出されなければ、聞き返しの対象となる音声をより大きい音量で再出力し、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識部で検出されれば、音量を維持して、聞き返しの対象となる音声を再出力する、
ことを特徴とする音声出力装置。
聞き返しの直前に前記出力部から出力された音声にもとづいて、聞き返しの対象となる音声の内容を特定する特定部を備える、ことを特徴とする請求項１に記載の音声出力装置。
前記出力部は、聞き返しのタイプが音声の内容の意味を理解していないことを示すタイプである場合、聞き返しの対象となる音声の内容に関連した別の音声を出力する、ことを特徴とする請求項１または２に記載の音声出力装置。
前記出力部は、聞き返しのタイプが聞き取れないことを示すタイプである場合、聞き返しの対象となる音声をより大きい音量で再出力する、ことを特徴とする請求項１から３のいずれかに記載の音声出力装置。
コンピュータが実行する音声出力方法であって、
車両の乗員の発話を取得する取得ステップと、
取得された前記発話が聞き返しであるか否か判定する判定ステップと、
前記発話が聞き返しであると判定された場合、聞き返しのタイプを分類する分類ステップと、
車室内の画像を画像認識して、眠っている可能性のある乗員を検出する画像認識ステップと、
聞き返しの対象となる音声の内容にもとづいて、分類された聞き返しのタイプに応じた音声を出力する出力ステップと、
を備え、
前記出力ステップでは、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識ステップで検出されなければ、聞き返しの対象となる音声をより大きい音量で再出力し、聞き返しのタイプが聞き逃しを示すタイプである場合、眠っている可能性のある乗員が前記画像認識ステップで検出されれば、音量を維持して、聞き返しの対象となる音声を再出力する、
ことを特徴とする音声出力方法。