JP7337965B2 - 発話者推定装置 - Google Patents

発話者推定装置 Download PDF

Info

Publication number
JP7337965B2
JP7337965B2 JP2021577727A JP2021577727A JP7337965B2 JP 7337965 B2 JP7337965 B2 JP 7337965B2 JP 2021577727 A JP2021577727 A JP 2021577727A JP 2021577727 A JP2021577727 A JP 2021577727A JP 7337965 B2 JP7337965 B2 JP 7337965B2
Authority
JP
Japan
Prior art keywords
speaker
occupant
threshold
degree
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021577727A
Other languages
English (en)
Other versions
JPWO2021161377A1 (ja
Inventor
知宏 成田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2021161377A1 publication Critical patent/JPWO2021161377A1/ja
Application granted granted Critical
Publication of JP7337965B2 publication Critical patent/JP7337965B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Description

本開示は、発話者を推定する発話者推定装置に関するものである。
例えば下記の特許文献1には、車両内の乗員が発した音声と、当該音声が発せられた位置および方向とに基づいて車載装置を制御する音声認識制御システムが提案されている。特許文献1においては、車両の乗員のうちから発話者を推定する方法として、複数のマイクからなるマイクロホンアレイが検出した複数の音声信号の大きさや位相の差に基づいて発話者を推定する方法、あるいは、カメラで撮影した車両内の映像を解析し、音声が検出されたタイミングと各乗員の唇の動きとを比較することで発話者を推定する方法が挙げられている。
特開2017-90611号公報
マイクロホンアレイが検出した複数の音声信号の大きさや位相の差に基づいて発話者を推定する方法では、例えば車両外の音声やオーディオ機器の音声が誤って検出され、発話者が誤検出されるおそれがある。また、人は発話してない場合も口を開くことがあるため、音声が検出されたタイミングと各乗員の口の動きとを比較しても正しく発話者を推定できないことがある。
本開示は以上のような課題を解決するためになされたものであり、発話者の推定精度の高い発話者推定装置および発話者推定方法を提供することを目的とする。
本開示に係る発話者推定装置は、車両内に設置されたマイクロホンアレイから音声信号を取得する音声信号取得部と、音声信号から音声区間を検出する音声区間検出部と、音声信号に基づいてマイクロホンアレイが取得した音声の到来方向を算出する音声到来方向算出部と、カメラが撮影した車両の各乗員の画像を取得する画像取得部と、各乗員の画像に基づいて各乗員の口の開き具合を表す開口度を算出する開口度算出部と、音声区間における音声の到来方向と音声区間における各乗員の開口度の統計量とに基づいて、発話者である乗員を推定する発話者推定部と、を備え、発話者推定部は、音声区間における音声の到来方向に基づいて発話者の座席の候補を絞り込み、発話者の座席の候補にいる乗員のうち、音声区間における開口度の統計量が予め定められた閾値よりも大きい乗員を発話者として推定する

本開示によれば、音声の到来方向だけでなく各乗員の開口度の統計量を加味して発話者が推定されるため、発話者の誤検出が防止される。また、開口度の統計量には発話時と非発話時との差が現れやすいため、各乗員が発話中か否かを高い精度で判定でき、それにより、発話者の推定を高い精度で行うことができる。
本開示の目的、特徴、態様、および利点は、以下の詳細な説明と添付図面とによって、より明白となる。
実施の形態1に係る発話者推定装置の構成を示す図である。 音声到来方向の定義の例を説明するための図である。 実施の形態1における発話者推定部の構成を示す図である。 実施の形態1に係る発話者推定装置の動作を示すフローチャートである。 実施の形態1における発話者推定処理を示すフローチャートである。 実施の形態1における発話者推定処理の変更例を示すフローチャートである。 実施の形態1における発話者推定処理の変更例を示すフローチャートである。 実施の形態1における発話者推定処理の変更例を示すフローチャートである。 発話者推定装置のハードウェア構成例を示す図である。 発話者推定装置のハードウェア構成例を示す図である。 実施の形態2に係る発話者推定装置の構成を示す図である。 実施の形態2における発話者推定部の構成を示す図である。 実施の形態2に係る発話者推定装置の動作を示すフローチャートである。 実施の形態2における発話者推定処理を示すフローチャートである。 実施の形態2における発話者推定処理の変更例を示すフローチャートである。 実施の形態3における発話者推定部の構成を示す図である。 実施の形態3における閾値更新部の動作を示すフローチャートである。 実施の形態3における閾値更新部の動作の変更例を示すフローチャートである。 実施の形態4における発話者推定部の構成を示す図である。
<実施の形態1>
図1は、実施の形態1に係る発話者推定装置10の構成を示す図である。ここでは、発話者推定装置10が車両に搭載されているものと仮定する。ただし、発話者推定装置10は、例えば携帯電話やスマートフォンなど、車両に持ち込み可能な携帯型の機器上で実現されていてもよい。また、発話者推定装置10が行う処理の一部または全部が、車両の外部に設置され、車両に搭載された発話者推定装置10と通信可能なサーバー上で行われてもよい。
発話者推定装置10は、車両内に設置されたマイクロホンアレイ21およびカメラ22に接続されている。マイクロホンアレイ21は、複数のマイクから構成されており、車両の乗員が発した音声を取得して、取得した音声に対応する音声信号を出力する。カメラ22は、車両内の乗員の顔を撮影可能な位置に設置されており、撮影した乗員の顔の画像を出力する。カメラ22は座席ごとに設けられてもよいし、1台のカメラ22で車両内の全座席の乗員を撮影してもよい。
図1のように、発話者推定装置10は、音声信号取得部11、音声区間検出部12、音声到来方向算出部13、画像取得部14、開口度算出部15および発話者推定部16を備えている。
音声信号取得部11は、マイクロホンアレイ21が取得した音声に対応する音声信号を、マイクロホンアレイ21から取得する。音声区間検出部12は、音声信号取得部11が取得した音声信号を解析して、車両の乗員が発した音声が含まれる区間である音声区間を検出する。音声区間検出(Voice Activity Detection;VAD)技術としては、例えば音声信号の振幅パワーに基づくものや、音声信号のパターンマッチングによるものなど様々なものがあるが、音声区間検出部12が用いるVAD技術に制約はなく、どのようなものでもよい。
音声到来方向算出部13は、音声信号取得部11が取得した音声信号に基づいて、マイクロホンアレイ21が取得した音声の到来方向(Direction Of Arrival:DOA)を算出する。音声到来方向を算出する技術としては、マイクロホンアレイ21を構成する複数のマイクが取得した音声の大きさの差や位相の差を基づいて音声の到来方向を算出するのが一般的であるが、音声到来方向算出部13が用いる技術にも制約はなく、どのようなものでもよい。
本実施の形態では、図2のように、マイクロホンアレイ21が、車室内の前部中央(例えばセンターパネルやリアビューミラー付近)に設けられおり、音声の到来方向は、車両の右真横からマイクロホンアレイ21へ到来する方向を0°、車両の真後ろからマイクロホンアレイ21へ到来する方向を90°、車両の左真横からマイクロホンアレイ21へ到来する方向を180°とする角度として表されるものとする。
画像取得部14は、カメラ22が撮影した各乗員の画像を取得する。開口度算出部15は、画像取得部14が取得した各乗員の画像を解析して、各乗員の口の開き具合を表す開口度を算出する。開口度の算出方法も任意の方法でよい。例えば、例えば上唇の中央部と下唇の中央部との間の距離を、開口度としてもよい。
発話者推定部16は、音声区間検出部12が検出した音声区間の情報と、音声到来方向算出部13が算出した音声の到来方向の情報と、開口度算出部15が算出した各乗員の開口度の情報とに基づいて、発話者である乗員を推定する。より具体的には、発話者推定部16は、音声区間における音声の到来方向と、音声区間における各乗員の開口度の統計量とに基づいて発話者を推定する。実施の形態1では、統計量として平均値を用いる。すなわち、実施の形態1の発話者推定部16は、音声区間における音声の到来方向および各乗員の開口度の平均値に基づいて、発話者を推定する。
図3は、発話者推定部16の構成を示す図である。図3のように、発話者推定部16は、発話者座席候補算出部161、開口度統計量算出部162および発話者座席推定部163を備えている。
発話者座席候補算出部161は、音声区間検出部12が検出した音声区間の情報と、音声到来方向算出部13が算出した音声の到来方向の情報とを取得し、音声区間における音声の到来方向に基づいて、発話者の座席として推定する座席の候補(以下「発話者座席候補」という)を絞り込む。
ここで、車両が図2のように右前席FR(運転席)、左前席FL(助手席)、右後席RR、右後席RR、中後席RC、左後席RLの5つの座席を備えると仮定する。音声到来方向をθとすると、例えば、発話者座席候補算出部161は、0°≦θ<60°のときは発話者座席候補を右前席FR、右後席RRおよび中後席RCの3つにし、60°≦θ≦120°のときは発話者座席候補を右後席RR、中後席RCおよび左後席RLの3つにし、120°<θ≦180°のときは発話者座席候補を中後席RC、左後席RLおよび左前席FLの3つにする。
発話者座席候補を絞り込む方法は上の例に限られない。例えば、マイクロホンアレイ21と座席との位置関係に応じて音声到来方向の閾値(上の例では60°と120°)を適宜変更してもよいし、さらに多くの座席を持つ車両であれば、閾値の個数を増やして、発話者座席候補をさらに細分化してもよい。
また、複数の乗員が同時に発話したときなど、音声到来方向算出部13が複数の音声到来方向を検出する場合もある。その場合には、複数の音声到来方向の対応する全ての座席を発話者座席候補とすればよい。例えば、上の例において、音声到来方向θとして45°と90°の2つが検出された場合、発話者座席候補算出部161は、発話者座席候補を右前席FR、右後席RR、中後席RCおよび左後席RLの4つにすればよい。
開口度統計量算出部162は、音声区間検出部12が検出した音声区間の情報と、開口度算出部15が算出した各乗員の開口度の情報とを取得し、音声区間における各乗員の開口度の統計量、ここでは平均値を算出する。
発話者座席推定部163は、発話者座席候補算出部161が算出した発話者座席候補の情報と、開口度統計量算出部162が算出した各乗員の開口度の統計量(平均値)とに基づいて、発話者の座席を推定することで、発話者である乗員を推定する。より具体的には、発話者座席推定部163は、発話者座席候補にいる乗員のうち、音声区間における開口度の平均値が予め定められた閾値よりも大きい乗員を、発話者として推定する。音声区間における開口度の平均値が閾値よりも大きい乗員が2人以上いた場合、発話者座席推定部163は、音声区間における開口度の平均値が最も大きい乗員だけを発話者として推定してもよいし、発話者が複数存在すると判断して、音声区間における開口度の平均値が閾値よりも大きい乗員の全員を発話者として推定してもよい。
上述したように、人は発話してない場合も口を開くことがある。そのため、発話者の推定を各乗員の開口度に基づいて行うと、発話していない乗員が誤って発話者として推定されるおそれがある。それに対し、実施の形態1の発話者推定装置10では、発話者座席推定部163が、音声区間における各乗員の開口度の統計量(平均値)に基づいて発話者を推定する。人は発話時には非発話時よりも多く口を開くため、開口度の平均値には発話時と非発話時との差が現れやすい。そのため、発話者座席候補算出部161は、各乗員が発話者か否かを高い精度で判定でき、発話していない乗員が誤って発話者として推定されることが抑制される。
また、実施の形態1の発話者推定装置10では、発話者座席候補算出部161が、音声区間における音声の到来方向に基づいて、発話者座席推定部163が発話者の座席として推定する座席の候補(発話者座席候補)を予め絞り込んでおり、それによって、発話者の誤検出がさらに抑制される。よって、実施の形態1に係る発話者推定装置10によれば、発話者の推定を高い精度で行うことができる。
図示は省略するが、発話者推定装置10による発話者の推定結果は、音声認識機能に対応した車載機器へと出力される。あるいは、発話者推定装置10が、音声認識機能に対応した車載機器に内蔵されていてもよい。
発話者推定装置10の適用が有効な車載機器としては、エアコンやオーディオ機器などが考えられる。例えば、音声操作可能なエアコンに発話者推定装置10を適用した場合、エアコンが音声操作を行った乗員の座席を特定することで、その乗員の座席のみ温度設定を変更することなどが可能になる。
また、音声操作可能なオーディオ機器に発話者推定装置10を適用した場合、オーディオ機器が音声操作を行った乗員の座席を特定することで、その乗員の座席のみスピーカまたはヘッドフォンの音量を調節することなどが可能になる。さらに、後述する実施の形態2のように、発話者推定装置10が個々の乗員を認識する機能を有する場合には、簡単な音声操作(例えば「いつもの音楽をかけて」という音声操作など)で、その音声操作を行った乗員の好みの音楽を再生するなど、利便性の向上に寄与できる。
以下、実施の形態1に係る発話者推定装置10の動作をフローチャートを参照しつつ説明する。図4は、実施の形態1に係る発話者推定装置10の動作を示すフローチャートである。
発話者推定装置10が起動すると、音声信号取得部11が、車両内に設置されたマイクロホンアレイ21から音声信号を取得する(ステップS101)。そして、音声区間検出部12が、音声信号から音声区間を検出し(ステップS102)、音声到来方向算出部13が、音声信号に基づいてマイクロホンアレイ21が取得した音声の到来方向を算出する(ステップS103)。
その一方で、画像取得部14は、カメラ22が撮影した車両の各乗員の画像を取得する(ステップS104)。そして、開口度算出部15が、各乗員の画像に基づいて各乗員の口の開き具合を表す開口度を算出する(ステップS105)。
その後、発話者推定部16が、音声区間における音声の到来方向および音声区間における各乗員の開口度の統計量に基づいて、発話者である乗員を推定する処理(発話者推定処理)を実施する(ステップS106)。
図5は、発話者推定処理のフローチャートである。発話者推定処理が開始されると、発話者座席候補算出部161は、音声区間における音声の到来方向に基づいて、発話者座席推定部163が発話者の座席として推定する座席の候補(発話者座席候補)を絞り込む(ステップS201)。また、開口度統計量算出部162は、音声区間における各乗員の開口度の平均値を算出する(ステップS202)。
その後、発話者座席推定部163が、発話者座席候補の情報と各乗員の開口度の平均値とに基づいて、発話者である乗員を推定する。まず、発話者座席推定部163は、発話者座席候補におり、且つ、開口度の平均値が閾値より大きい乗員がいるか否かを確認する(ステップS203)。そのような乗員がいれば(ステップS203でYES)、発話者座席推定部163は、当該乗員を発話者として推定する(ステップS204)。そのような乗員がいなければ(ステップS203でNO)、発話者座席推定部163は車両内に発話者はいないと判断する(ステップS205)。発話者座席推定部163が、発話者の推定結果を出力して(ステップS206)、発話者推定処理は終了する。
発話者推定装置10は、図4および図5に示した動作を繰り返し実行する。なお、図4のステップS102で音声区間が検出されなかった場合には、ステップS103~ステップS106の処理は省略されてもよい。すなわち、ステップS103~ステップS106の処理は、ステップS102で音声区間が検出されなかった場合にだけ行われてもよい。
[変更例]
実施の形態1では、発話者推定処理で用いる乗員の開口度の統計量を平均値としたが、標準偏差としてもよい。人は発話時には非発話時よりも頻繁に口を動かすため、開口度の標準偏差には発話時と非発話時との差が現れやすい。そのため、開口度の統計量として標準偏差を用いても、発話者座席推定部163は、各乗員が発話者か否かを高い精度で判定でき、発話していない乗員が誤って発話者として推定されることが抑制される。
開口度の統計量を標準偏差とした場合の発話者推定処理のフローチャートを図6に示す。この場合、発話者推定処理が開始されると、発話者座席候補算出部161が、音声区間における音声の到来方向に基づいて発話者座席候補を絞り込み(ステップS211)、開口度統計量算出部162が、音声区間における各乗員の開口度の標準偏差を算出する(ステップS212)。
発話者座席推定部163は、発話者座席候補におり、且つ、音声区間における開口度の標準偏差が閾値より大きい乗員がいるか否かを確認する(ステップS213)。そのような乗員がいれば(ステップS213でYES)、発話者座席推定部163は、当該乗員を発話者として推定する(ステップS214)。そのような乗員がいなければ(ステップS213でNO)、発話者座席推定部163は車両内に発話者はいないと判断する(ステップS215)。発話者座席推定部163が、発話者の推定結果を出力して(ステップS216)、発話者推定処理は終了する。
また、発話者推定処理で用いる乗員の開口度の統計量は、平均値と標準偏差の両方でもよい。開口度の統計量を平均値および標準偏差の両方とする場合の発話者推定処理のフローチャートを図7に示す。
この場合、発話者推定処理が開始されると、発話者座席候補算出部161が、音声区間における音声の到来方向に基づいて発話者座席候補を絞り込み(ステップS221)、開口度統計量算出部162が、音声区間における各乗員の開口度の平均値および標準偏差を算出する(ステップS222)。
発話者座席推定部163は、発話者座席候補におり、且つ、音声区間における開口度の平均値および標準偏差の両方がそれぞれの閾値より大きい乗員がいるか否かを確認する(ステップS223)。そのような乗員がいれば(ステップS223でYES)、発話者座席推定部163は、当該乗員を発話者として推定する(ステップS224)。そのような乗員がいなければ(ステップS223でNO)、発話者座席推定部163は車両内に発話者はいないと判断する(ステップS225)。発話者座席推定部163が、発話者の推定結果を出力して(ステップS226)、発話者推定処理は終了する。
図7においては、音声区間における開口度の平均値および標準偏差の両方がそれぞれの閾値より大きい乗員が発話者として推定される例を示したが、音声区間における開口度の平均値および標準偏差の片方だけが閾値より大きい乗員も、発話者として推定されるようにしてもよい。音声区間における開口度の平均値および標準偏差の少なくとも片方が閾値より大きい乗員を発話者として推定する場合の発話者推定処理のフローチャートを図8に示す。
この場合、発話者推定処理が開始されると、発話者座席候補算出部161が、音声区間における音声の到来方向に基づいて発話者座席候補を絞り込み(ステップS231)、開口度統計量算出部162が、音声区間における各乗員の開口度の平均値および標準偏差を算出する(ステップS232)。
発話者座席推定部163は、発話者座席候補におり、且つ、音声区間における開口度の平均値および標準偏差の少なくとも片方が閾値より大きい乗員がいるか否かを確認する(ステップS233)。そのような乗員がいれば(ステップS233でYES)、発話者座席推定部163は、当該乗員を発話者として推定する(ステップS234)。そのような乗員がいなければ(ステップS233でNO)、発話者座席推定部163は車両内に発話者はいないと判断する(ステップS235)。発話者座席推定部163が、発話者の推定結果を出力して(ステップS236)、発話者推定処理は終了する。
[ハードウェア構成例]
図9および図10は、それぞれ発話者推定装置10のハードウェア構成の例を示す図である。図1に示した発話者推定装置10の構成要素の各機能は、例えば図9に示す処理回路50により実現される。すなわち、発話者推定装置10は、車両内に設置されたマイクロホンアレイ21から音声信号を取得し、音声信号から音声区間を検出し、音声信号に基づいてマイクロホンアレイ21が取得した音声の到来方向を算出し、カメラ22が撮影した車両の各乗員の画像を取得し、各乗員の画像に基づいて各乗員の口の開き具合を表す開口度を算出し、音声区間における音声の到来方向および音声区間における各乗員の開口度の統計量に基づいて、発話者である乗員を推定する、ための処理回路50を備える。処理回路50は、専用のハードウェアであってもよいし、メモリに格納されたプログラムを実行するプロセッサ(中央処理装置(CPU:Central Processing Unit)、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)とも呼ばれる)を用いて構成されていてもよい。
処理回路50が専用のハードウェアである場合、処理回路50は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせたものなどが該当する。発話者推定装置10の構成要素の各々の機能が個別の処理回路で実現されてもよいし、それらの機能がまとめて一つの処理回路で実現されてもよい。
図10は、処理回路50がプログラムを実行するプロセッサ51を用いて構成されている場合における発話者推定装置10のハードウェア構成の例を示している。この場合、発話者推定装置10の構成要素の機能は、ソフトウェア等(ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせ)により実現される。ソフトウェア等はプログラムとして記述され、メモリ52に格納される。プロセッサ51は、メモリ52に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、発話者推定装置10は、プロセッサ51により実行されるときに、車両内に設置されたマイクロホンアレイ21から音声信号を取得する処理と、音声信号から音声区間を検出する処理と、音声信号に基づいてマイクロホンアレイ21が取得した音声の到来方向を算出する処理と、カメラ22が撮影した車両の各乗員の画像を取得する処理と、各乗員の画像に基づいて各乗員の口の開き具合を表す開口度を算出する処理と、音声区間における音声の到来方向および音声区間における各乗員の開口度の統計量に基づいて、発話者である乗員を推定する処理と、が結果的に実行されることになるプログラムを格納するためのメモリ52を備える。換言すれば、このプログラムは、発話者推定装置10の構成要素の動作の手順や方法をコンピュータに実行させるものであるともいえる。
ここで、メモリ52は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)などの、不揮発性または揮発性の半導体メモリ、HDD(Hard Disk Drive)、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disc)およびそのドライブ装置等、または、今後使用されるあらゆる記憶媒体であってもよい。
以上、発話者推定装置10の構成要素の機能が、ハードウェアおよびソフトウェア等のいずれか一方で実現される構成について説明した。しかしこれに限ったものではなく、発話者推定装置10の一部の構成要素を専用のハードウェアで実現し、別の一部の構成要素をソフトウェア等で実現する構成であってもよい。例えば、一部の構成要素については専用のハードウェアとしての処理回路50でその機能を実現し、他の一部の構成要素についてはプロセッサ51としての処理回路50がメモリ52に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
以上のように、発話者推定装置10は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上述の各機能を実現することができる。
<実施の形態2>
図11は、実施の形態2に係る発話者推定装置10の構成を示す図である。図11の発話者推定装置10の構成は、図1の構成に対し、乗員認識部17を追加したものである。
乗員認識部17は、カメラ22が撮影した各乗員の画像に基づいて、個々の乗員を認識する。乗員認識部17には、発話者推定装置10を搭載する車両のユーザ(当該車両に搭乗することが想定される人物)の画像が予め登録されており、乗員認識部17は、カメラ22が撮影した車両の各乗員の画像と、登録されたユーザの画像とを照合することにより、それぞれの乗員が誰であるかを認識することができる。
図12は、実施の形態2における発話者推定部16の構成を示す図である。図12の発話者推定部16の構成は、図2の構成に対し、閾値設定部164を追加したものである。
閾値設定部164は、乗員認識部17による乗員の認識結果に基づいて、発話者推定処理で用いられる開口度の統計量の閾値を、乗員ごとに設定する。閾値設定部164には、車両のユーザごとの閾値が予め登録されており、閾値設定部164は、乗員の認識結果に基づいて、それぞれの乗員に対し当該乗員に対応する閾値を割り当てる。乗員認識部17が認識できなかった乗員(例えば未登録の乗員)に対しては、予め定められた未登録ユーザ用の閾値が割り当てられる。
実施の形態2に係る発話者推定装置10によれば、車両の乗員ごとに適した閾値が設定されることで、発話者の推定精度をさらに向上させることができる。
ユーザごとの閾値の決め方は任意の方法でよい。例えば、ユーザの登録時には当該ユーザの閾値を予め定められた初期値に設定しておき、ユーザが必要に応じて閾値を調整できるようにしてもよい。例えば、発話していないのに発話者と判断されたユーザは自己の閾値を上げ、発話したのに発話者と判断されなかったユーザは自己の閾値を下げることで、発話者の推定精度を向上させることができる。
また例えば、カメラ22が撮影したユーザの過去の画像を解析して当該ユーザの音声区間における開口度の統計量と非音声区間における開口度の統計量とを算出し、両者の値から当該ユーザの適切な閾値(例えば両者の中間値)を設定する機能を、発話者推定装置10あるいは外部機器(例えばユーザの携帯端末やパーソナルコンピュータなど)に持たせてもよい。
図13は、実施の形態2に係る発話者推定装置10の動作を示すフローチャートである。図13のフローは、図4のフローに対し、ステップS104の後に、ステップS107を追加したものである。ステップS107では、乗員認識部17が、画像取得部14が取得した車両の各乗員の画像に基づいて、個々の乗員を認識する処理が行われる。ステップS101~S104は、図4のフローと同様であるため、ここでの説明は省略する。
図14は、実施の形態2における発話者推定処理を示すフローチャートである。図14のフローは、図5のフローに対し、ステップS201の後に、ステップS207を追加したものである。なお、図14では、発話者推定処理で用いる乗員の開口度の統計量として、平均値が用いられている。
ステップS207では、閾値設定部164が、乗員認識部17による乗員の認識結果に基づいて、発話者推定処理で用いられる開口度の平均値の閾値を、乗員ごとに設定する処理が行われる。ステップS201~S206は、図4のフローと同様である。ただし、ステップS203の判断処理は、ステップS207で設定された乗員ごとの閾値を用いて行われる。
[変更例]
実施の形態2においても、発話者推定処理で用いる乗員の開口度の統計量は、標準偏差でもよい。開口度の統計量を標準偏差とした場合の発話者推定処理のフローチャートを図15に示す。図15のフローは、図6のフローに対し、ステップS201の後に、ステップS217を追加したものである。ステップS217では、閾値設定部164が、乗員認識部17による乗員の認識結果に基づいて、発話者推定処理で用いられる開口度の標準偏差の閾値を、乗員ごとに設定する処理が行われる。ステップS211~S216は、図6のフローと同様である。ただし、ステップS213の判断処理は、ステップS217で設定された乗員ごとの閾値を用いて行われる。
また、フローチャートの図示は省略するが、実施の形態2においても図7または図8と同様に、発話者推定処理で用いる乗員の開口度の統計量を、平均値と標準偏差の両方としてもよい。
<実施の形態3>
図16は、実施の形態3における発話者推定部16の構成を示す図である。図16の発話者推定部16の構成は、図2の構成に対し、閾値更新部165を追加したものである。なお、本実施の形態において、発話者推定装置10の全体構成は実施の形態1(図1)と同様である。閾値更新部165は、発話者推定処理で用いられる開口度の統計量の閾値を更新する。
閾値更新部165による閾値の更新は、発話者座席候補にいる乗員の中に、音声区間における開口度の統計量が予め定められた条件を満たす乗員が存在した場合に実施される。具体的には、音声区間における開口度の統計量が閾値よりも大きい乗員が存在した場合、または、音声区間における開口度の統計量と閾値との差が一定値よりも小さい乗員が存在した場合に、閾値が更新される。つまり、発話者として推定された乗員が存在した場合、または、発話者として推定されなかったが開口度の統計量が閾値に接近した乗員が存在した場合に、閾値が更新される。
また、閾値更新部165による閾値の更新は、上記の条件を満たす乗員の開口度の統計量に基づいて行われる。具体的には、閾値更新部165は、閾値の現在の値と上記の条件を満たす乗員の開口度の統計量との加重平均値を、閾値の新たな値として設定することで、閾値を更新する。つまり、更新前の閾値(現在の値)をT、上記の条件を満たす乗員の開口度の統計量Sとすると、閾値更新部165は、更新後の閾値(新たな値)Tを、
=(1-α)T+αS ・・・(1)
として算出する。式(1)のα(0<α<1)は、Sが閾値の更新に与える影響度を規定する係数であり、αが大きいほど更新時の閾値の変化量が大きくなる。
式(1)に基づいて閾値の更新が行われる場合、開口度の統計量が閾値を超えた乗員が存在するごとに閾値が上がり、発話者として推定されなかったが開口度の統計量が閾値に接近した乗員が存在するごとに閾値が下がる。それにより、発話者の検出感度(乗員を発話者として推定する度合い)が適切に調整される。
発話者推定装置10は、カメラ22が撮影した画像を用いて発話者を推定するため、例えば明るさなどの周囲の環境の影響により、発話者の検出感度が変動するおそれがある。閾値更新部165が閾値を更新することで、発話者の検出感度が安定し、発話者の推定精度をさらに向上させることができる。
図17は、閾値更新部165の動作を示すフローチャートである。以下、図17のフローチャートを参照しつつ閾値更新部165の動作を説明する。閾値更新部165は、図17の処理を、発話者推定処理が行われるごとに実施する。なお、図17は、発話者推定処理で用いる乗員の開口度の統計量が、平均値である場合の例である。
発話者推定部16が発話者推定処理を実施すると、発話者座席推定部163は、音声区間における開口度の平均値が閾値より大きい乗員(つまり、発話者として推定された乗員)がいたか否かを確認する(ステップS301)。ステップS301の条件を満たす乗員がいなかった場合は(ステップS301でNO)、音声区間における開口度の平均値と閾値との差が一定値より小さい乗員がいたか否かを確認する(ステップS302)。
ステップS301またはステップS302の条件を満たす乗員がいた場合は(ステップS301またはステップS302でYES)、閾値更新部165が、当該乗員の開口度の平均値に基づき、式(1)を用いて閾値を更新する(ステップS303)。ステップS301またはステップS302の条件を満たす乗員がいなかった場合は(ステップS302でNO)、閾値は更新されない。
[変更例]
実施の形態3においても、発話者推定処理で用いる乗員の開口度の統計量は、標準偏差でもよい。開口度の統計量を標準偏差とした場合の閾値更新部165の動作を示すフローチャートを図18に示す。
発話者推定部16が発話者推定処理を実施すると、発話者座席推定部163は、音声区間における開口度の標準偏差が閾値より大きい乗員(つまり、発話者として推定された乗員)がいたか否かを確認する(ステップS311)。ステップS311の条件を満たす乗員がいなかった場合は(ステップS311でNO)、音声区間における開口度の標準偏差と閾値との差が一定値より小さい乗員がいたか否かを確認する(ステップS312)。
ステップS311またはステップS312の条件を満たす乗員がいた場合は(ステップS311またはステップS312でYES)、閾値更新部165が、当該乗員の開口度の標準偏差に基づき、式(1)を用いて閾値を更新する(ステップS313)。ステップS311またはステップS312の条件を満たす乗員がいなかった場合は(ステップS312でNO)、閾値は更新されない。
また、図7または図8のフローのように、発話者推定処理で用いられる乗員の開口度の統計量が平均値と標準偏差の両方である場合には、閾値更新部165は、図17および図18の両方を実施して、平均値の閾値および標準偏差の閾値の両方を更新すればよい。
<実施の形態4>
実施の形態4では、実施の形態2と実施の形態3とを組み合わせる。図19は、実施の形態4における発話者推定部16の構成を示す図である。図19の発話者推定部16の構成は、図12の構成に対し、閾値更新部165を追加したものである。なお、実施の形態4に係る発話者推定装置10の全体構成は実施の形態2(図11)と同様である。
実施の形態4の閾値更新部165も、発話者推定処理で用いられる開口度の統計量の閾値を更新する。ただし、実施の形態4の閾値更新部165は、閾値設定部164に記憶されている車両のユーザごとの閾値を更新する。また、各ユーザの閾値の更新処理は、更新する閾値に対応するユーザの開口度の統計量だけを用いて行われる。よって、閾値が更新されるタイミング、ならびに、更新による閾値の変化の方向および変化量は、ユーザごとに異なる。
実施の形態4に係る発話者推定装置10によれば、開口度の個人差や環境の変化に応じて閾値が更新されるため、発話者の推定精度をさらに向上させることができる。
なお、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。
上記した説明は、すべての態様において、例示であって、例示されていない無数の変形例が想定され得るものと解される。
10 発話者推定装置、11 音声信号取得部、12 音声区間検出部、13 音声到来方向算出部、14 画像取得部、15 開口度算出部、16 発話者推定部、17 乗員認識部、21 マイクロホンアレイ、22 カメラ、161 発話者座席候補算出部、162 開口度統計量算出部、163 発話者座席推定部、164 閾値設定部、165 閾値更新部、FR 右前席、FL 左前席、RR 右後席、RC 中後席、RL 左後席。

Claims (8)

  1. 車両内に設置されたマイクロホンアレイから音声信号を取得する音声信号取得部と、
    前記音声信号から音声区間を検出する音声区間検出部と、
    前記音声信号に基づいて前記マイクロホンアレイが取得した音声の到来方向を算出する音声到来方向算出部と、
    カメラが撮影した前記車両の各乗員の画像を取得する画像取得部と、
    前記各乗員の画像に基づいて前記各乗員の口の開き具合を表す開口度を算出する開口度算出部と、
    前記音声区間における音声の到来方向と前記音声区間における前記各乗員の開口度の統計量とに基づいて、発話者である乗員を推定する発話者推定部と、
    を備え
    前記発話者推定部は、
    前記音声区間における音声の到来方向に基づいて発話者の座席の候補を絞り込み、
    発話者の座席の候補にいる乗員のうち、前記音声区間における前記開口度の前記統計量が予め定められた閾値よりも大きい乗員を発話者として推定する、
    発話者推定装置。
  2. 前記車両の各乗員の画像に基づいて、個々の乗員を認識する乗員認識部と、
    前記閾値を乗員ごとに設定する閾値設定部と、
    をさらに備える、
    請求項1に記載の発話者推定装置。
  3. 発話者の座席の候補にいる乗員の中に、前記音声区間における前記開口度の前記統計量が予め定められた条件を満たす乗員が存在した場合に、前記条件を満たす乗員の前記開口度の前記統計量に基づいて前記閾値を更新する閾値更新部をさらに備える、
    請求項1に記載の発話者推定装置。
  4. 前記閾値更新部は、前記閾値の現在の値と前記条件を満たす乗員の前記開口度の前記統計量との加重平均値を、前記閾値の新たな値として設定する、
    請求項3に記載の発話者推定装置。
  5. 前記条件は、前記音声区間における前記開口度の前記統計量が前記閾値よりも大きい、または、前記音声区間における前記開口度の前記統計量と前記閾値との差が一定値よりも小さいことである、
    請求項3に記載の発話者推定装置。
  6. 前記統計量は、平均値である、
    請求項1に記載の発話者推定装置。
  7. 前記統計量は、標準偏差である、
    請求項1に記載の発話者推定装置。
  8. 前記統計量は、平均値および標準偏差の両方を含み、
    前記発話者推定部は、前記音声区間における前記各乗員の前記開口度の平均値および標準偏差の少なくとも片方に基づいて、発話者である乗員を推定する、
    請求項1に記載の発話者推定装置。
JP2021577727A 2020-02-10 2020-02-10 発話者推定装置 Active JP7337965B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/005115 WO2021161377A1 (ja) 2020-02-10 2020-02-10 発話者推定装置および発話者推定方法

Publications (2)

Publication Number Publication Date
JPWO2021161377A1 JPWO2021161377A1 (ja) 2021-08-19
JP7337965B2 true JP7337965B2 (ja) 2023-09-04

Family

ID=77292177

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021577727A Active JP7337965B2 (ja) 2020-02-10 2020-02-10 発話者推定装置

Country Status (2)

Country Link
JP (1) JP7337965B2 (ja)
WO (1) WO2021161377A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017134577A (ja) 2016-01-27 2017-08-03 三菱電機株式会社 情報処理装置、情報処理サーバおよび情報処理方法
WO2019181218A1 (ja) 2018-03-19 2019-09-26 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2020016927A1 (ja) 2018-07-17 2020-01-23 三菱電機株式会社 音場制御装置および音場制御方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06301393A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 音声区間検出装置及び音声認識装置
JP2003195883A (ja) * 2001-12-26 2003-07-09 Toshiba Corp 雑音除去装置およびその装置を備えた通信端末
JP2009222969A (ja) * 2008-03-17 2009-10-01 Toyota Motor Corp 音声認識ロボットおよび音声認識ロボットの制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017134577A (ja) 2016-01-27 2017-08-03 三菱電機株式会社 情報処理装置、情報処理サーバおよび情報処理方法
WO2019181218A1 (ja) 2018-03-19 2019-09-26 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2020016927A1 (ja) 2018-07-17 2020-01-23 三菱電機株式会社 音場制御装置および音場制御方法

Also Published As

Publication number Publication date
JPWO2021161377A1 (ja) 2021-08-19
WO2021161377A1 (ja) 2021-08-19

Similar Documents

Publication Publication Date Title
US11348581B2 (en) Multi-modal user interface
JP7233035B2 (ja) 収音装置、収音方法、及びプログラム
TWI442384B (zh) 以麥克風陣列為基礎之語音辨識系統與方法
JP4952698B2 (ja) 音声処理装置、音声処理方法およびプログラム
US9293151B2 (en) Speech signal enhancement using visual information
US9786295B2 (en) Voice processing apparatus and voice processing method
WO2020173156A1 (zh) 用于控制多个扬声器播放音频的方法、装置和电子设备
US11211080B2 (en) Conversation dependent volume control
JP6847324B2 (ja) 音声認識装置、音声認識システム、及び音声認識方法
JP7337965B2 (ja) 発話者推定装置
US10645494B1 (en) Active control system for a vehicular dual microphone and a control method thereof
JP3838159B2 (ja) 音声認識対話装置およびプログラム
US11107476B2 (en) Speaker estimation method and speaker estimation device
JP4561222B2 (ja) 音声入力装置
JP7065964B2 (ja) 音場制御装置および音場制御方法
WO2021156946A1 (ja) 音声分離装置及び音声分離方法
KR20230084154A (ko) 동적 분류기를 사용한 사용자 음성 활동 검출
WO2020240789A1 (ja) 音声対話制御装置及び音声対話制御方法
KR20110078091A (ko) 이퀄라이저 조정 장치 및 방법
WO2021156945A1 (ja) 音声分離装置及び音声分離方法
US20220262389A1 (en) Method and apparatus for improving speech intelligibility in a room
WO2022239142A1 (ja) 音声認識装置及び音声認識方法
WO2020065771A1 (ja) 音声感情認識装置および音声感情認識方法
WO2023122283A1 (en) Voice assistant optimization dependent on vehicle occupancy
JP2023180483A (ja) マイクシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230621

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230823

R150 Certificate of patent or registration of utility model

Ref document number: 7337965

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150