JP2023146123A - 音響処理システム、音響処理装置、音響処理方法、および、プログラム - Google Patents
音響処理システム、音響処理装置、音響処理方法、および、プログラム Download PDFInfo
- Publication number
- JP2023146123A JP2023146123A JP2022053147A JP2022053147A JP2023146123A JP 2023146123 A JP2023146123 A JP 2023146123A JP 2022053147 A JP2022053147 A JP 2022053147A JP 2022053147 A JP2022053147 A JP 2022053147A JP 2023146123 A JP2023146123 A JP 2023146123A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- spatial spectrum
- speech
- acoustic
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 186
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000001228 spectrum Methods 0.000 claims abstract description 90
- 238000013178 mathematical model Methods 0.000 claims abstract description 31
- 238000010183 spectrum analysis Methods 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims description 49
- 238000004458 analytical method Methods 0.000 claims description 33
- 230000005236 sound signal Effects 0.000 claims description 21
- 230000003595 spectral effect Effects 0.000 claims description 12
- 238000007637 random forest analysis Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 description 103
- 239000013598 vector Substances 0.000 description 37
- 230000008569 process Effects 0.000 description 30
- 230000006870 function Effects 0.000 description 24
- 238000001914 filtration Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 20
- 230000001186 cumulative effect Effects 0.000 description 17
- 238000006243 chemical reaction Methods 0.000 description 16
- 238000011156 evaluation Methods 0.000 description 14
- 230000004807 localization Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 238000003066 decision tree Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】発話位置を安定して検出することができる。【解決手段】空間スペクトル分析部は、複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析し、発話位置推定部は、少なくとも音源の空間スペクトルと発話している話者の位置である発話位置との関連を示す数理モデルを用いて、分析された前記空間スペクトルに基づいて発話位置を推定する。本実施形態は、音響処理システム、音響処理装置、音響処理方法、プログラムのいずれの形態でも実施することができる。【選択図】図1
Description
本発明は、音響処理システム、音響処理装置、音響処理方法、および、プログラムに関する。
車両における発話音声から、音声認識技術を用いて音声コマンドを抽出する音声認識システムが普及している。当該音声認識システムでは、抽出された音声コマンドに従って、各種の機器や機能を操作可能としている。例えば、特許文献1には、車両内に設置された複数のマイクロホンにより入力された音声から、発話者の音声を分離する音声認識システムについて記載されている。当該音声認識システムは、発話者の音声の音源位置を示すプリセット情報を記憶する記憶装置と、記憶装置に記憶された発話者のプリセット情報を参照して、マイクロホンから入力された音声から発話者の音声を分離し、音声認識を行い、音声コマンドを認識する音声認識部を有する。
また、特許文献1に記載の音声認識システムは、発話者の座席シートの位置を検出するセンサをさらに備え、記憶装置は、発話者の座席シートの位置ごとのプリセット情報を記憶し、センサから発話者の座席シートの位置を取得し、取得した座席シートの位置に基づいて、記憶装置からプリセット情報を検索し、音声認識部に出力する。認識された音声コマンドに基づき、各種ナビゲーション処理が行われる。
操作対象とする機器や機能には、発話位置に関連するものある。例えば、窓の開閉に対しては、操作対象が話者から最も近接した窓となることが通例である。かかる操作を示す音声コマンドに対しては、音源となる発話者の位置の検出を要する。他方、車室に設置されたマイクロホンには、各種の騒音が混入する。エンジン音などの走行音の他、音響機器が発する音楽、発話音声なども騒音となりうる。騒音の混入は、話者の位置を正確に検出できない要因となる他、検出される発話位置が時間経過に応じて分散し不安定になる傾向がある。発話位置の検出率向上のため、より多くのマイクロホンを用いて発話位置の推定性能を向上させることも考えられる。しかしながら、多チャンネルの音声信号に対する複雑な演算処理を実行するためには、より多くのハードウェア資源を要する。
本発明の課題の一つは、発話位置を安定して検出することができる音響処理システム、音響処理装置、音響処理方法、および、プログラムを経済的に提供することである。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析する空間スペクトル分析部と、少なくとも音源の空間スペクトルと発話している話者の位置である発話位置との関連を示す数理モデルを用いて、分析された前記空間スペクトルに基づいて発話位置を推定する発話位置推定部と、を備える音響処理システムである。
(2)本発明のその他の態様は、(1)の音響処理システムであって、前記複数チャネルと別個のチャネルの音響信号に基づいてフレームごとに音響特徴量を分析する音響特徴分析部を備え、前記数理モデルは、音響特徴量ならびに空間スペクトルと発話位置との関連を示し、前記発話位置推定部は、分析された前記音響特徴量ならびに前記空間スペクトルに基づいて発話位置を推定してもよい。
(3)本発明のその他の態様は、(2)の音響処理システムであって、前記音響特徴分析部は、前記音響特徴量として、前記別個のチャネルの音響信号の周波数特性と零交差点の頻度を分析してもよい。
(4)本発明のその他の態様は、(3)の音響処理システムであって、前記音響特徴分析部は、前記別個のチャネルの音響信号の周波数特性として、パワースペクトル密度を分析してもよい。
(5)本発明のその他の態様は、(4)の音響処理システムであって、前記空間スペクトル分析部は、前記発話位置の候補である所定の発話位置候補ごとに前記空間スペクトルを算出し、前記発話位置推定部は、前記発話位置候補ごとに発話している話者が所在する信頼度を算出してもよい。
(6)本発明のその他の態様は、(5)の音響処理システムであって、前記数理モデルは、ランダムフォレストであってもよい。
(7)本発明のその他の態様は、複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析する空間スペクトル分析部と、少なくとも音源の空間スペクトルと音源の空間分布との関連を示す数理モデルを用いて、分析された前記空間スペクトルに基づいて発話位置を推定する発話位置推定部と、を備える音響処理装置である。
(8)本発明のその他の態様は、コンピュータに(7)の音響処理装置として機能させるためのプログラムであってもよい。
(9)本発明のその他の態様は、音響処理システムにおける音響処理方法であって、空間スペクトル分析部が、複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析する空間スペクトル分析ステップと、発話位置推定部が、少なくとも音源の空間スペクトルと発話している話者の位置である発話位置との関連を示す数理モデルを用いて、分析された前記空間スペクトルに基づいて発話位置を推定する発話位置推定ステップと、を実行する音響処理方法であってもよい。
本発明によれば、発話位置を安定して検出することができる。
本発明の(1)、(7)、(8)または(9)の態様によれば、既知の空間スペクトルと発話位置との関連に基づいて、取得される音響信号からフレームごとに導出される空間スペクトルに対応する発話位置が推定される。そのため、空間スペクトルから発話位置を直接定める場合よりも安定した発話位置を推定することができる。例えば、発話区間内で発話位置が定まるフレームが間欠的に現れる事象が緩和される。
本発明の(1)、(7)、(8)または(9)の態様によれば、既知の空間スペクトルと発話位置との関連に基づいて、取得される音響信号からフレームごとに導出される空間スペクトルに対応する発話位置が推定される。そのため、空間スペクトルから発話位置を直接定める場合よりも安定した発話位置を推定することができる。例えば、発話区間内で発話位置が定まるフレームが間欠的に現れる事象が緩和される。
(2)の態様によれば、空間スペクトルの推定に用いた複数チャネルとは別個のチャネルの音響信号から分析された音響特徴量をさらに用いて発話位置が推定される。発話された音声の音響特徴量に対する発話位置依存性を参照して発話位置が推定されるため、騒音下においても発話位置の推定精度を向上することができる。また、数理モデルを用いることで、複数チャネルの音響信号と別個のチャネルの音響信号と同期がとれていない場合でも推定精度を確保することができる。
(3)の態様によれば、音響特徴量として音響信号の周波数特性と零交差点の頻度を用いることで、発話された音声の特徴をより確実に把握することができる。そのため、発話位置の推定精度をより向上することができる。
(4)の態様によれば、離散フーリエ変換に基づく簡素な演算により周波数ごとの強度が分析される。そのため、経済的に発話位置の推定精度を向上することができる。
(5)の態様によれば、空間スペクトルと話者が所在する信頼度が所定の発話位置候補ごとに話者が所在する信頼度が算出される。そのため、あらゆる音源位置に対して空間スペクトルを算出する場合よりも演算量が低減する。また、空間スペクトルから発話位置を直接導出する場合とは異なり、その絶対値による発話位置の判定可能性に対する影響が低減する。そのため、発話位置の安定した推定が可能となる。
(6)の態様によれば、ランダムフォレストを構成する個々の決定木による演算が並列なため、発話位置の推定を高速に行うことができる。説明変数とする特定の入力値に対する依存性が少ないため、安定的に発話位置を推定することができる。
以下、図面を参照しながら本発明の実施形態について説明する。まず、本実施形態に係る音響処理システムS1の構成例について説明する。図1は、本実施形態に係る音響処理システムS1の構成例を示す概略ブロック図である。音響処理システムS1は、複数チャネルの音響信号を取得し、取得した音響信号に基づき話者の位置を推定する。音響処理システムS1は、取得した音声信号で伝達される発話内容として音声コマンド(指令)を特定する。本願では、発話している話者の位置を、「発話位置」と呼ぶことがある。特定された音声コマンドが発話位置に関連する場合には、音響処理システムS1は、推定された発話位置に基づいて、特定した音声コマンドに従って指示される処理を実行する。
指示される処理には、音響処理システムS1に接続されている機器の動作制御が含まれる。制御対象機器には、音響処理システムS1の構成機器が含まれてもよいし、音響処理システムS1に属しない他の機器が含まれてもよい。以下の説明では、音響処理システムS1が車両に搭載される車載システムの一部として構成され、音声コマンドにより車両に搭載される各種の機器の動作を操作する機能を有する場合を主とする。
本願では、「車載」とは、現実に車両に搭載されていることの他、車両内での使用を主な用途とする、または、その使用に適したという意味を含む。即ち、「車載」とは、実施態様を現実に車両に搭載されている状態での使用に限定することや、車両に搭載されていない状態での使用を排除することは、意図されていない。
本願では、「車載」とは、現実に車両に搭載されていることの他、車両内での使用を主な用途とする、または、その使用に適したという意味を含む。即ち、「車載」とは、実施態様を現実に車両に搭載されている状態での使用に限定することや、車両に搭載されていない状態での使用を排除することは、意図されていない。
音響処理システムS1は、1個または複数個の機器を含んで構成される。音響処理システムS1は、図1の例では、音響処理システムS1は、2個の音響処理装置10、20、3個のマイクロホン30、および、制御対象機器40を備える。3個のマイクロホン30は、30-1~30-3と子番号をもって区別されている。音響処理装置10と音響処理装置20、音響処理装置10と個々の制御対象機器40は、それぞれ各種のデータを無線または有線で送受信可能に接続される。音響処理装置10、20と制御対象機器40は、例えば、CAN(Controller Area Network)を用いて接続することができる。
音響処理装置10は、マイクロホン30-1、30-2からそれぞれ音響信号を取得する。音響処理装置10は、取得した2チャネルの音響信号から所定期間のフレームごとに音源の空間スペクトルを分析する。音響処理装置10は、空間スペクトルと音響特徴量の組と話者位置との関連を示す数理モデルを用い、分析した空間スペクトルと音響特徴量に基づいて話者位置を推定する。音響処理装置10は、取得された音響信号から音声が発話された発話区間を示す発話区間情報と発話内容を示す発話情報を取得する。発話情報の取得に用いられる音響信号は、2チャネルの音響信号に対して空間フィルタリング(後述)を実行して得られた音響信号であってもよい。
音響処理装置10は、推定された発話位置ごとに、発話区間において発話位置が推定された位置別発話区間の長さに基づいて当該発話区間における発話位置を定める。取得した発話情報が発話位置に関連する音声コマンドを示すとき、音響処理装置10は、定めた発話位置に基づいて、発話情報で指示される音声コマンドに従った処理を実行する。音声コマンドにより制御対象機器40の動作制御が指示されることがある。音響処理装置10は、制御対象機器40に指示する動作態様(動作モード)を示す制御信号を出力する。
後述するように、発話位置との関連性として、音声コマンドまたは制御対象機器40により、発話位置により動作制御の要否が異なりうる。発話位置により、音声コマンドで指示される処理、または、制御対象機器40に指示する動作制御の態様が異なりうる。
後述するように、発話位置との関連性として、音声コマンドまたは制御対象機器40により、発話位置により動作制御の要否が異なりうる。発話位置により、音声コマンドで指示される処理、または、制御対象機器40に指示する動作制御の態様が異なりうる。
音響処理装置20は、マイクロホン30-3から音響信号を取得し、取得した音響信号からフレームごとに音響特徴量を分析する。音響処理装置20は、分析により得られた音響特徴量を音響処理装置10に通知する。音響処理装置20とマイクロホン30-3は、エンジン音などの騒音成分を含む音響信号の取得を主目的とするものであってもよい。音響処理装置20は、取得した音響信号を参照信号として音響処理装置10に出力する。
マイクロホン30-1~30-3は、それぞれ自器に到来する音を収音し、収音した音の音圧を、その強度を示す電気信号を音響信号に変換する電気音響変換器(アクチュエータ)を備える。マイクロホン30-1、30-2は、それぞれ変換された音響信号を音響処理装置10と音響処理装置20に出力する。音響処理装置20に出力される音響信号は、騒音成分の除去に用いられる。マイクロホン30-3は、変換された音響信号を音響処理装置20に出力する。
次に、マイクロホン30-1~30-3の配置例について説明する。図2、図3の例では、マイクロホン30-1、30-2は、車室内に設けられた運転席と助手席の中間を挟んで対称に、それらの前方に配置されている。図示の例では、前方は、図面の左方に相当する。マイクロホン30-1、30-2の間隔は、例えば、5~10cmである。この位置で取得される音響信号には、運転席に着席した運転者の音声、または、助手席に着席した同乗者の音声の成分が相対的に多く含まれる。図2の例では、マイクロホン30-3は、後部座席の右方後端に配置されている。図3の例では、後部座席の中央部後端に配置されている。これらの位置で取得される音響信号には、エンジン音、路面と車輪との摩擦音などの騒音成分が相対的に多く混入される。
制御対象機器40は、音声コマンドに基づく動作制御の対象となる機器である。制御対象機器40は、音響処理装置10から入力される制御信号で指示される動作態様に従って動作する。図1の例では、制御対象機器40として、音響機器42(例えば、カーオーディオ)、空調機44(例えば、エアコン)、窓開閉機46(例えば、パワーウィンドウ)、および、操舵加熱器48(例えば、ステアリングヒータ)を有する。
次に、本実施形態に係る音響処理装置10の構成例について説明する。
音響処理装置10は、A/D変換部112、通信部114、および、制御部120を備える。音響処理装置10は、音響処理装置20および制御対象機器40と所定の入出力方式を用いて無線または有線で各種のデータを入出力するための入出力部(図示せず)を備える。
音響処理装置10は、A/D変換部112、通信部114、および、制御部120を備える。音響処理装置10は、音響処理装置20および制御対象機器40と所定の入出力方式を用いて無線または有線で各種のデータを入出力するための入出力部(図示せず)を備える。
A/D(Analog-to-Digital)変換部112は、マイクロホン30-1、30-2からそれぞれ入力されるアナログの音響信号を所定のサンプリング周波数でサンプリングし、ディジタルの音響信号に変換する。A/D変換部112は、それぞれ変換された音響信号を制御部120に出力する。A/D変換部112は、例えば、A/D変換器を含んで構成される。
通信部114は、通信ネットワークNWに無線で接続し、通信ネットワークNWを経由して他の機器を相手先として通信する。相手先となる機器として、音声認識サーバが指示されることがある。指示される音声認識サーバは、他のサーバ装置とともにクラウド50を形成してもよい。通信部114は、所定の通信方式を用いて通信可能とする通信インタフェースを含んで構成される。通信方式は、例えば、5G(5th General Mobile Communication System、第5世代移動通信システム)、LTE-A(Long Term Evolution - Advanced)、IEEE802.11などのいずれが用いられてもよい。
制御部120は、各種の演算処理を行って、音響処理装置10の機能を実現し、その機能を制御する。制御部120は、専用の部材により実現されてもよいが、プロセッサと、ROM(Read Only Memory)、RAM(Random Access Memory)などの記憶媒体を備えるコンピュータとして実現されてもよい。制御部120は、例えば、ECU(Engine Control Unit)として構成されてもよい。プロセッサは、予めROMに記憶された所定のプログラムを読み出し、読み出したプログラムをRAMに展開して、RAMの記憶領域を作業領域として用いる。プロセッサは、読み出したプログラムで記述された各種の命令で指示される処理を実行して制御部120の機能を実現する。実現される機能には、後述する各部の機能が含まれうる。以下の説明では、プログラムに記述された命令で指示される処理を実行することを、「プログラムを実行する」、「プログラムの実行」などと呼ぶことがある。プロセッサは、例えば、CPU(Central Processing Unit)などである。
制御部120は、空間スペクトル分析部122、発話位置推定部124、発話情報取得部126、発話位置処理部128、コマンド処理部130、および、空間フィルタリング部134を含んで構成される。
空間スペクトル分析部122は、A/D変換部112から個々のチャンネルについて入力される音響信号から所定の時間長のフレームごとに空間スペクトルを算出する。空間スペクトルは、音源位置による強度の分布を示す空間特徴量である。空間スペクトル分析部122は、算出した空間スペクトルを発話位置推定部124に出力する。本実施形態では、音源位置の候補(以下、「候補位置」と呼ぶ)ごとに空間スペクトルをなす要素値を算出する。空間スペクトルは、候補位置ごとの要素値を含むベクトルで表される。候補位置として、車両に備わる個々の座席の位置が用いられてもよい。一例として、車両内の座席数が5個である場合には、空間スペクトルは5次元のベクトルで表現される。
空間スペクトル分析部122は、A/D変換部112から個々のチャンネルについて入力される音響信号から所定の時間長のフレームごとに空間スペクトルを算出する。空間スペクトルは、音源位置による強度の分布を示す空間特徴量である。空間スペクトル分析部122は、算出した空間スペクトルを発話位置推定部124に出力する。本実施形態では、音源位置の候補(以下、「候補位置」と呼ぶ)ごとに空間スペクトルをなす要素値を算出する。空間スペクトルは、候補位置ごとの要素値を含むベクトルで表される。候補位置として、車両に備わる個々の座席の位置が用いられてもよい。一例として、車両内の座席数が5個である場合には、空間スペクトルは5次元のベクトルで表現される。
空間スペクトル分析部122は、例えば、空間スペクトルとしてMUSIC(Multiple Signal Classification、多重信号分類)スペクトルを算出する。MUSICスペクトルは、次の手順を用いて算出することができる。空間スペクトル分析部122は、フレームごとに離散フーリエ変換を行い、周波数領域に変換された変換係数を算出する。空間スペクトル分析部122は、チャネルごとの変換係数を要素として含む入力ベクトルを周波数ごとに生成する。空間スペクトル分析部122は、生成した入力ベクトルを転置した転置ベクトルとその入力ベクトルとの積となる行列の期待値をスペクトル相関行列Rspとして算出する。
式(1)において、*は、複素共役転置演算子を示す。E(…)は、…の期待値を示す。
空間スペクトル分析部122は、算出したスペクトル相関行列Rspの固有値問題を解き、固有値λiと固有ベクトルeiを算出する。算出される固有値λiと固有ベクトルeiの組の数は、チャネル数に相当する。空間スペクトル分析部122は、例えば、(2)を用いて検出可能とする音源数(以下の説明では、「検出可能音源数」と呼ぶ)、予め設定した伝達関数ベクトルd(θ)、および、固有ベクトルeiを用いて周波数ごとに空間スペクトル(以下、「周波数別空間スペクトル」と呼ぶ)の要素値P(θ)を算出する。本実施形態では、検出可能とする音源数を1と設定しておいてもよい。伝達関数ベクトルd(θ)は、候補位置θから個々のマイクロホン30-1、30-2の位置(以下の説明では、「受音位置」と呼ぶ)までの伝達関数を要素値として有するベクトルである。
空間スペクトル分析部122は、算出したスペクトル相関行列Rspの固有値問題を解き、固有値λiと固有ベクトルeiを算出する。算出される固有値λiと固有ベクトルeiの組の数は、チャネル数に相当する。空間スペクトル分析部122は、例えば、(2)を用いて検出可能とする音源数(以下の説明では、「検出可能音源数」と呼ぶ)、予め設定した伝達関数ベクトルd(θ)、および、固有ベクトルeiを用いて周波数ごとに空間スペクトル(以下、「周波数別空間スペクトル」と呼ぶ)の要素値P(θ)を算出する。本実施形態では、検出可能とする音源数を1と設定しておいてもよい。伝達関数ベクトルd(θ)は、候補位置θから個々のマイクロホン30-1、30-2の位置(以下の説明では、「受音位置」と呼ぶ)までの伝達関数を要素値として有するベクトルである。
式(2)において、|…|は、…絶対値を示す。Mは、検出可能音源数を示す、予め設定されたN未満の正の整数値である。Kは、音源定位部121が保持する固有ベクトルeiの数である。Mは、N以下の正の整数である。Nは、チャネル数(図1の例では、N=2)に相当する正の整数である。
空間スペクトル分析部122は、各チャネルの音響信号に基づいて周波数帯域ごとにS/N比(Signal-to-Noise;信号雑音比)を算出し、算出したS/N比が予め設定した閾値よりも高い周波数帯域kを選択する。
空間スペクトル分析部122は、選択した周波数帯域kにおける周波数ごとに算出した固有値λiのうち最大となる最大固有値λmax(k)の平方根で空間スペクトルの要素値Pk(θ)を重み係数として、周波数帯域k間で重み付け加算し、式(3)に示す拡張空間スペクトルの要素値Pext(θ)を算出する。
空間スペクトル分析部122は、各チャネルの音響信号に基づいて周波数帯域ごとにS/N比(Signal-to-Noise;信号雑音比)を算出し、算出したS/N比が予め設定した閾値よりも高い周波数帯域kを選択する。
空間スペクトル分析部122は、選択した周波数帯域kにおける周波数ごとに算出した固有値λiのうち最大となる最大固有値λmax(k)の平方根で空間スペクトルの要素値Pk(θ)を重み係数として、周波数帯域k間で重み付け加算し、式(3)に示す拡張空間スペクトルの要素値Pext(θ)を算出する。
式(3)において、Ωは、周波数帯域のセットを示す。|Ω|は、そのセットにおける周波数帯域の個数を示す。従って、拡張空間スペクトルPext(θ)は、相対的に雑音成分が少なく、周波数帯域空間スペクトルPk(θ)の値が大きい周波数帯域の特性が反映される。空間スペクトル分析部122は、この拡張空間スペクトルの要素値Pext(θ)を含むベクトルを上述の空間スペクトルとして採用する。
発話位置推定部124には、空間スペクトル分析部122から空間スペクトルが、音響処理装置20から音響特徴量がフレームごとに入力される。後述するように、音響特徴量は、音響信号の音響的特徴をベクトルで表現される。音響特徴量には、パワースペクトル密度(PSD:Power Spectrum Density)と零交差数(ZC:number of Zero Crossings)が含まれる。一例として、音響処理装置20に一度に分析されるフレームごとの小区間に含まれるサンプル数が512である場合には、パワースペクトル密度は256次元のベクトルで表される。零交差数はスカラー値で表される。その場合、音響特徴量は257次元のベクトルで表される。発話位置推定部124は、空間スペクトルと音響特徴量を結合し(concatenate)所定の数理モデルへの入力ベクトルを構成する。
発話位置推定部124は、入力ベクトルと出力ベクトルとの関連を示す数理モデルを用いて、フレームごとに構成した入力ベクトルに対する出力ベクトルを算出する。算出される出力ベクトルは、推定された発話位置の情報(以下の説明では、「推定発話位置情報」と呼ぶことがある)を表す。入力ベクトルと出力ベクトルは、それぞれ説明変数と目的変数に相当する。出力ベクトルには、所定の話者位置ごとの信頼度を要素値として含まれる。信頼度は、その話者位置に発話者が所在する可能性を示し、実数で表現される。信頼度は、その値が大きいほど発話中の話者が所在する可能性を示す。個々の信頼度の値域は、所定の範囲内(例えば、0以上1以下)に正規化されている。一例として、車両内の座席数が5個である場合には、出力ベクトルは、5次元のベクトルで表現される。出力ベクトルは、そのフレームにおいて発話中の発話者が所在している可能性の空間分布を示す情報とみることもできる。例えば、算出された信頼度が最も高く、所定の信頼度の閾値よりも高い発話位置が、そのフレームにおいて発話している発話者が所在している発話位置(フレームベース発話位置)として推定される。信頼度の閾値は、偶然に選択された信頼度の期待値よりも有意に大きい値であればよい。発話位置推定部124は、推定された推定発話位置情報を発話情報処理部128に出力する。
発話位置推定部124は、数理モデルとして、例えば、ランダムフォレスト(random forest)を用いることができる。ランダムフォレストとは、弱学習器として複数の決定木(decision tree)を含んで構成されるアンサンブル機械学習モデルの一種である。ランダムフォレストからの出力は、複数の決定木からの出力の平均値となる。決定木は、複数の節点(ノード)を有し、1個の節点を根(ルート)とし、節点ごとに複数の分岐(枝)を有し、個々の分岐に対して別個の節点が終端に至るまで連なる木構造を有する機械学習モデルである。個々の節点には属性が設定され、個々の分岐には属性に対する値が設定される。個々の決定木について、例えば、入力ベクトルに対する個々の発話位置の信頼度が出力値として得られるように構成される。また、個々の決定木からの入力ベクトルに対して、いずれかの発話位置を示すインデックスが出力値として得られるように構成されてもよい。その場合には、複数の決定木からの発話位置を示すインデックスがランダムフォレストからの出力である推定発話位置情報として用いられてもよい。
発話情報取得部126には、空間フィルタリング部134から音響信号が入力される。発話情報取得部126に入力される音響信号は、A/D変換部112を経由して取得される2チャネルの音響信号に基づいて導出される。発話情報取得部126は、入力される音響信号を通信部114と通信ネットワークNWを経由してクラウド50に送信する。発話情報取得部126は、クラウド50をなす音声認識サーバから、送信された音響信号から検出された発話ごとに、その発話区間を示す発話区間情報と発話内容を示す発話内容情報を関連付けて受信する。発話区間情報には、1回の発話が開始された開始時刻と終了した終了時刻が示される。発話内容情報として、その発話から認識された情報を自然言語で表現されたテキストが記述される。発話情報取得部126は、受信した発話区間情報を発話位置処理部128に出力し、発話内容情報をコマンド処理部130に出力する。
発話位置処理部128には、発話位置推定部124から推定発話位置情報が、発話情報取得部126から発話区間情報がフレームごとに入力される。
発話位置処理部128は、予め定めた発話位置ごとに、発話区間情報に示される発話区間において、その発話位置が推定された区間を位置別発話区間として特定する。例えば、発話位置処理部128は、入力される発話区間情報で示される信頼度が最も高い発話位置を特定し、そのフレームの区間を特定した発話位置の位置別発話区間として特定することができる。
発話位置処理部128は、フレームごとの発話位置を定める際、発話区間の一部であって、そのフレームを含む複数フレームにわたる小区間を特定し、その小区間の全体において信頼度が最も高い発話位置をそのフレームにおける発話位置として特定してもよい。
発話位置処理部128は、予め定めた発話位置ごとに、発話区間情報に示される発話区間において、その発話位置が推定された区間を位置別発話区間として特定する。例えば、発話位置処理部128は、入力される発話区間情報で示される信頼度が最も高い発話位置を特定し、そのフレームの区間を特定した発話位置の位置別発話区間として特定することができる。
発話位置処理部128は、フレームごとの発話位置を定める際、発話区間の一部であって、そのフレームを含む複数フレームにわたる小区間を特定し、その小区間の全体において信頼度が最も高い発話位置をそのフレームにおける発話位置として特定してもよい。
なお、発話区間情報がフレームごとの発話位置のインデックスで表されている場合には、発話位置処理部128は、そのフレームを、そのインデックスで示される発話位置の位置別発話区間として特定することができる。ここで、フレームごとに対応する小区間を特定する場合には、発話位置処理部128は、小区間におけるフレームごとの発話位置のうち最も頻度が高い発話位置を特定し(多数決)、その小区間に対応するフレームを特定した発話位置の位置別発話区間として特定することができる。
発話位置処理部128は、発話区間において特定した位置別発話区間に基づいて、その発話区間における発話位置(発話ベース発話位置)を定める。発話位置処理部128は、発話区間において発話区間における比率が所定の比率以上であって、位置別発話区間が最も長い発話位置をその発話区間における発話位置として定めることができる。
発話位置処理部128は、定めた発話位置を示す発話位置情報をコマンド処理部130に出力する。
発話位置処理部128は、定めた発話位置を示す発話位置情報をコマンド処理部130に出力する。
発話区間における位置別発話区間の比率が所定の比率以上となる発話位置が複数個存在する場合がある。その場合には、発話位置処理部128は、1個の発話位置を特定せずに、同時発話(simultaneous utterance)と判定してもよい。所定の比率として、発話位置が偶然に選択される確率以上となる値、より好ましくは、その比率よりも有意に大きくなる値を発話位置処理部128に予め設定しておく。偶然に選択される確率として、車両に備わる座席数の逆数が用いられればよい。
発話位置処理部128は、定めた発話位置および関連情報をコマンド処理部130において要求される所定の形式に変換する。例えば、発話位置として、運転席(前方右、FRF:Front Right)とそれ以外の識別が要求される音声コマンドが運用される場合には、発話位置処理部128は、発話位置情報に運転席であるか否かを示す運転席識別情報を含める。発話位置として、運転席、助手席(前方左、FL:Front Left)、および、それ以外の識別が要求される音声コマンドが運用される場合には、発話位置処理部128は、発話位置情報に運転席、助手席、および、それ以外、のいずれかを示す前方座席識別情報を含めてもよい。また、発話位置処理部128は、発話位置情報に同時発話(Simultaneous)とそれ以外(単独発話、Single)のいずれかを示す同時発話識別情報を含めてもよい。
コマンド処理部130には、発話情報取得部126から発話内容情報が、発話位置処理部128から発話位置情報が発話ごとに入力される。
コマンド処理部130は、予め自部に設定されたコマンドリスト(図示せず)を参照し、発話内容情報に示される発話内容に音声コマンドが含まれているか否かを判定する。また、コマンド処理部130は、コマンドリストを参照し、発話内容に含まれる音声コマンドが、発話位置と関連がある音声コマンド(以下の説明では、「発話位置関連音声コマンド」と呼ぶことがある)であるか否かを判定してもよい。
コマンド処理部130は、予め自部に設定されたコマンドリスト(図示せず)を参照し、発話内容情報に示される発話内容に音声コマンドが含まれているか否かを判定する。また、コマンド処理部130は、コマンドリストを参照し、発話内容に含まれる音声コマンドが、発話位置と関連がある音声コマンド(以下の説明では、「発話位置関連音声コマンド」と呼ぶことがある)であるか否かを判定してもよい。
コマンドリストは、例えば、音声コマンドごとに、キーワード、動作態様情報、および、対象機器情報、を示すデータに相当する。キーワードとして、個々の音声コマンドで指示される対象機器と動作態様のいずれか一方または両方に関する1個または複数の語句が含まれうる。動作態様情報として、動作態様、または、その要素としての動作特性、動作対象物、制御目標となる状態、などの情報が含まれうる。発話位置関連音声コマンドに対しては、その音声コマンドで識別される発話位置ごとに動作態様が設定されてもよい。対象機器情報として、操作対象機器を特定もしくは特定に役立つ情報として種類、名称、型番、IP(Internet Protocol)アドレス、MAC(Media Access Control)アドレスなどのいずれか1個または複数個の情報が設定されうる。発話位置関連音声コマンドに対しては、その音声コマンドで識別される発話位置ごとに区別して対象機器が設定されうる。
コマンド処理部130は、コマンドリストを参照し、入力される発話内容情報に含まれる語句が設定されたキーワードと合致する音声コマンドを検索する。コマンド処理部130は、発話内容情報を表現するテキストに対して公知の形態素解析を行い、テキストで表現される語句と品詞を定めてもよい。コマンド処理部130は、定めた語句のうち自立語ごとにコマンドリストに記述されたコマンドのいずれかと照合してもよい。品詞が名詞、動詞、形容詞、または、副詞である語句が自立語として特定される。
コマンド処理部130は、キーワードと合致する音声コマンドを検出するとき、その音声コマンドに係る対象機器と動作態様情報を読み出す。検出した音声コマンドが発話位置関連音声コマンドであり、発話位置ごとに対象機器が設定されている場合には、コマンド処理部130は、発話位置情報で示される発話位置に対応する対象機器を特定する。検出した音声コマンドが発話位置関連音声コマンドであり、発話位置ごとに動作態様が設定されている場合には、コマンド処理部130は、発話位置情報で示される発話位置に対応する動作態様を特定する。
コマンド処理部130は、特定した対象機器に特定した動作態様での動作を指示するための制御情報を生成し、その対象機器として制御対象機器40のいずれかに生成した制御信号を送信する。制御対象機器40は、音響処理装置10からの制御信号を待ち受け、入力される制御信号で指示される動作態様に従って動作する。
発話位置情報に同時発話を示す同時発話識別情報が含まれる場合には、コマンド処理部130は、発話内容情報を棄却し、発話者個別の再発話の案内を指示するための案内指示を音響機器42に出力してもよい。音響機器42は、コマンド処理部130から案内指示が入力されるとき、個別の再発話を案内するための案内情報を伝達する案内音声を再生する。案内音声は、案内情報として次のメッセージが伝達されうる:例えば、「もう一度お一人ずつ順におっしゃって下さい」、「お二人以上で重ならないように、再度お話し下さい」、など。
空間フィルタリング部134には、A/D変換部112から2チャネルの音響信号が入力され、発話位置推定部124から発話位置情報が入力される。空間フィルタリング部134は、チャネルごとの音響信号に発話位置情報に基づいて空間フィルタリング処理を行いフィルタリング後の1チャネルの音響信号を生成する。空間フィルタリング部134は、生成した音響信号を発話情報取得用の音響信号として発話情報取得部126に出力する。
空間フィルタリング部134は、空間フィルタリングにおいて、発話位置情報で示される発話位置の方向に他の方向よりも利得が高くなる指向性を有するフィルタ係数をチャネルごとに定める。空間フィルタリング部134には、例えば、予め発話位置ごとにフィルタ係数を設定しておき、発話位置情報で示される発話位置に対応するフィルタ係数を特定する。空間フィルタリング部134は、特定したフィルタ係数を用いて対応するチャネルの音響信号に対してフィルタリング処理を行い、処理後の音響信号をチャネル間で加算して得られた加算信号がフィルタリング後の音響信号として得られる。
空間フィルタリング部134は、例えば、空間フィルタリング処理として、遅延和法、フィルタアンドサムビームフォーマなど、特定した音源位置の方向への利得が他の方向よりも高くなるように指向性を制御する公知の方式を用いることができる。空間フィルタリング部134は、GHDSS(Geometric High-order Decorrelation-based Source Separation)法などの特定した音源位置の方向からの音を他の方向からの音から分離または抽出できる音源分離処理方式を用い、2チャネルの音響信号から特定される発話位置から到来する1チャネルの発話情報取得用の音響信号を取得してもよい。
次に、本実施形態に係る音響処理装置20の構成例について説明する。
音響処理装置20は、A/D変換部212、および、制御部220を備える。音響処理装置20は、音響処理装置10および制御対象機器40と所定の入出力方式を用いて無線または有線で各種のデータを入出力するための入出力部(図示せず)を備える。
音響処理装置20は、A/D変換部212、および、制御部220を備える。音響処理装置20は、音響処理装置10および制御対象機器40と所定の入出力方式を用いて無線または有線で各種のデータを入出力するための入出力部(図示せず)を備える。
A/D変換部212は、マイクロホン30-1~30-3からそれぞれ入力されるアナログの音響信号を所定のサンプリング周波数でサンプリングし、ディジタルの音響信号に変換する。A/D変換部212は、変換された各チャネルの音響信号を制御部220に出力する。A/D変換部212は、例えば、A/D変換器を含んで構成される。以下の説明では、マイクロホン30-1~30-3のそれぞれに対応するチャネルをチャネル1~3と呼ぶ。
制御部220は、各種の演算処理を行って、音響処理装置10の機能を実現し、その機能を制御する。制御部220は、専用の部材により実現されてもよいが、プロセッサと、記憶媒体を備えるコンピュータとして実現されてもよい。制御部220は、例えば、ECU(Engine Control Unit)として構成されてもよい。プロセッサは、予めROMに記憶された所定のプログラムを読み出し、読み出したプログラムをRAMに展開して、RAMの記憶領域を作業領域として用いる。プロセッサは、読み出したプログラムで記述された各種の命令で指示される処理を実行して制御部220の機能を実現する。実現される機能には、後述する各部の機能が含まれうる。
制御部220は、音響特徴分析部222、低域通過フィルタ224、および、騒音除去部226を含んで構成される。
音響特徴分析部222は、A/D変換部212から入力されるチャネル3の音響信号について所定の長さのフレームごとに音響特徴量を分析する。フレームごとに算出した音響特徴量としてパワースペクトルと零交差数を関連付けて音響処理装置10の発話位置推定部124に出力する。
音響特徴分析部222は、周波数分析部222aと零交差点分析部222bを含んで構成される。
音響特徴分析部222は、A/D変換部212から入力されるチャネル3の音響信号について所定の長さのフレームごとに音響特徴量を分析する。フレームごとに算出した音響特徴量としてパワースペクトルと零交差数を関連付けて音響処理装置10の発話位置推定部124に出力する。
音響特徴分析部222は、周波数分析部222aと零交差点分析部222bを含んで構成される。
周波数分析部222aは、音響特徴量として周波数特性を示す特徴量を分析する。周波数分析部222aは、音響特徴量としてパワースペクトル密度を算出する。パワースペクトル密度は、単位周波数当たりのパワーである。周波数分析部222aは、フレームごとに入力された音響信号に対して離散フーリエ変換を行って周波数領域の変換係数を算出し、得られた変換係数の二乗値の絶対値をパワースペクトルとして算出することができる。パワースペクトル密度は、発話の有無を判定するための手がかりとなりうる。
零交差点分析部222bは、フレームごとに入力された音響信号の零交差点を検出する。零交差点は、音響信号を構成するサンプルごとの信号値が正値から負値になる時点、または、負値から正値になる時点である。零交差点分析部222bは、フレームごとに検出した零交差点の数を零交差数として定める。零交差数も、音響特徴量の一種となる。
零交差点分析部222bは、フレームごとに入力された音響信号の零交差点を検出する。零交差点は、音響信号を構成するサンプルごとの信号値が正値から負値になる時点、または、負値から正値になる時点である。零交差点分析部222bは、フレームごとに検出した零交差点の数を零交差数として定める。零交差数も、音響特徴量の一種となる。
低域通過フィルタ224は、A/D変換部212から入力されるチャネル1~3の音響信号から所定の遮断周波数(例えば、50~200Hz)以下となる低域成分を主に通過させる。低域成分は、騒音成分を主とし、発話された音声成分がほとんど含まれない。低域通過フィルタ224は、各チャネルについて通過した低域成分を示す音響信号を騒音除去部226に出力する。
騒音除去部226には、低域通過フィルタ224から低域成分を示す音響信号が入力される。騒音除去部226は、チャネル3の音響信号を騒音信号として用いて騒音除去処理を行い、チャネル1、2の音響信号に含まれる騒音成分を除去する。騒音除去部226は、騒音除去処理として、例えば、アクティブノイズコントロール(ANC:Active Noise Control)を実現する。
ANCを実現するため、騒音除去部226は、打消音を提示するためのスピーカ(図示せず)に接続され、適応フィルタを備える。適応フィルタは、スピーカからマイクロホン30-1、30-2のそれぞれまでの打消音の伝達経路を示すフィルタ係数を推定するために用いられる。適応フィルタは、チャネル1、2について抽出した低域成分を示す音響信号の強度が0に近似(最小化)するようにフィルタ係数を定める。騒音除去部226は、適応フィルタが定めたフィルタ係数を用いて騒音信号に対して畳み込み演算を行って打消音信号を生成する。フィルタ係数を定める際、例えば、LMS(Least Mean Square、最小平均二乗)法が利用可能である。騒音除去部226は、生成された打消音信号をスピーカに供給する。スピーカは、騒音除去部226から供給される打消音信号に基づく打消音が放音される。よって、マイクロホン30-1、30-2においてスピーカから到来する打消音と騒音源から到来する騒音成分とが相殺するので、騒音成分が除去または低減した音響信号が取得される。
上記のように、音響処理装置10、20の動作は、それぞれ制御部120、220により個々に制御される。音響処理装置10、20間で、動作の同期が保証されない。即ち、空間スペクトル分析部122において空間スペクトルの分析に用いられる音響信号と音響特徴分析部222において音響特徴量の分析に用いられる音響信号との間で時間差とその揺らぎがサンプル単位で生ずることがある。この時間差は、発話位置(音源位置)によるチャネル間の位相差の差異との識別が困難である。そのため、音響処理装置10で取得される2チャネルの音響信号と、音響処理装置20で取得される1チャネルの音響信号を、そのまま用いて空間スペクトルを算出することは現実的ではない。また、2チャネルの音響信号からフレームごとに算出される空間スペクトルと、異なる1チャネルの音響信号からフレームごとに算出される音響特徴量とを連立させても、発話位置の推定精度向上の手がかりになるとは限らない。
本実施形態では、上記の予め既知の空間スペクトルと発話位置との関係を説明変数と目的変数との関係として示す数理モデルを用いることで推定精度を向上することができる。説明変数として音響特徴量をさらに参照することで、空間スペクトルとの同期が保証されない場合でも発話位置による音響特徴量の変動を手掛かりとして発話位置が推定されるため、推定精度を向上することができる。
発話位置推定部124には、数理モデルのパラメータセットを予め設定しておく。音響処理装置10は、学習によりパラメータセットを算出するためのモデル学習部(図示せず)を備えてもよい。モデル学習部には、予め訓練データを設定しておく。訓練データは、多数の訓練セットを含んで構成される。1組の訓練セットは、説明変数となる既知の入力ベクトルと目的変数となる出力ベクトルを含み、これらを対応付けてなる。例えば、目的変数として、ある発話位置を表現する出力ベクトルとして、その発話位置に対する次元の要素の値が1とし、それ以外の発話位置に対する次元の要素の値を0とするベクトルを設定しておく。
モデル学習部は、既知の入力ベクトルに対して数理モデルを用いた演算を行って得られる推定値が、その入力ベクトルに対応する出力ベクトルとの差分が全体として小さくなるようにパラメータセットを再帰的に更新する。モデル学習部は、差分の大きさを示す損失関数として、例えば、二乗和誤差、交差エントロピー、などのいずれか1つ、または、いずれかの組の線形結合が用いることができる。モデル学習部は、パラメータセットの更新において、例えば、勾配法を用いることができる。
数理モデルとしてランダムフォレストが用いられる場合には、モデル学習部は、学習において次のステップを実行してもよい。(1)訓練データの全体からブートストラップ法によるランダムサンプリングを行って、B(Bは、2以上の整数)個のサブサンプルに分類する。個々のサブサンプルには、複数の訓練セットが含まれる。(2)個々のサブサンプルを訓練データとして、B個の決定木を生成する。(3)個々の決定木について、所定の節点数に達するまで、次のステップを実行して節点を生成する。(3-1)訓練データの説明変数の一部をランダムに選択する。(3-2)選択した説明変数のうち訓練データを最もよく分類する説明変数と、その分類に用いられる閾値を新たな節点の分類に用いられる閾値として定める。ランダムサンプリングされた訓練データとランダムに選択された説明変数を用いることで、相関が低い決定木群が生成される。これにより、高速な学習が実現される。
次に、コマンド処理部130により実行される音声操作の例について説明する。図4は、音声コマンドに応じた音声操作を例示する表である。図示の例では、「音楽を再生して」との発話により、発話位置に関わらず音楽再生が指示される。この場合には、発話位置による区別を要しない。音声コマンドに係るキーワードとして、例えば、発話内容から「音楽」、「再生」との語句が含まれていることが検出さればよい。音声操作の種類ごとに発話例、発話位置ごとの機能、および、必要な機能を示す。発話位置として、運転席(FR)、助手席(FL)、後部右(RR)、後部中間(RM)、および、後部左(RR)の5通りが掲げられている。
音声操作の種類には、発話位置に無関係な操作、発話位置に関連する操作、安全性に関連する操作、同乗者の操作により運転者の注意をそらすおそれがある操作、および、同時発話がある。
発話位置に無関係な操作とは、認識された音声コマンドに従って発話位置に関わらず所定の機能を実現することを指す。図示の例では、「音楽を再生して」との発話に応じて、コマンド処理部130により発話位置に関わらず音楽再生が音響機器42に指示される。この場合には、発話位置による区別を要しない。コマンド処理部130は、キーワードとして発話内容から、例えば、「音楽」および「再生」との語句が含まれていることが検出して、音楽再生に係る音声コマンドを認識することができる。
発話位置に無関係な操作とは、認識された音声コマンドに従って発話位置に関わらず所定の機能を実現することを指す。図示の例では、「音楽を再生して」との発話に応じて、コマンド処理部130により発話位置に関わらず音楽再生が音響機器42に指示される。この場合には、発話位置による区別を要しない。コマンド処理部130は、キーワードとして発話内容から、例えば、「音楽」および「再生」との語句が含まれていることが検出して、音楽再生に係る音声コマンドを認識することができる。
発話位置に関連する操作とは、認識された発話位置関連音声コマンドに従って発話位置に依存して所定の機能を実現することを指す。図示の例では、「エアコンの温度下げて」との発話に応じて、コマンド処理部130により発話位置における温度低下が空調機44に指示される。但し、発話位置が後部座席である場合には、無視される。この場合には、発話位置情報を参照し、少なくとも、運転席、助手席、および、それ以外の位置を区別することを要する。コマンド処理部130は、キーワードとして発話内容から、例えば、「エアコン」、「温度」および「下げて」との語句が含まれていることを検出して、温度低下に係る音声コマンドを認識することができる。
安全設計に関連する操作とは、運転者の発話による音声コマンドに従って実現され、運転者以外の同乗者による音声コマンドによる実現が制限されることを指す。図示の例では、運転席における「(自席以外)の窓開けて」との発話に応じて、コマンド処理部130により運転席以外の指示された窓の開放が窓開閉機46に指示される。但し、発話位置が運転席以外の座席である場合には、無視される。この場合には、発話位置情報を参照し、少なくとも、運転席と、それ以外の位置を区別することを要する。つまり、それ以外の位置では、この音声コマンドは無効と判定される。コマンド処理部130は、キーワードとして発話内容から、例えば、発話内容から運転席以外の各席の位置に関する語句(例えば、「助手席」、「右後」、「左後」、など)、「窓」および「開けて」との語句が含まれていることを検出して、その位置の窓の開放に係る音声コマンドを認識することができる。なお、安全設計に関連する操作に係る音声コマンドも、発話位置関連音声コマンドとみなすことができる。
同乗者の操作により運転者の注意をそらす(ディストラクション)おそれがある操作とは、運転者の発話による音声コマンドに従って実現され、運転者以外の同乗者による音声コマンドによる実現が制限されることを指す。図示の例では、運転席における「ステアリングヒータ、オン」との発話に応じてコマンド処理部130により、操舵加熱器(ステアリングヒータ)48の加熱が指示される。但し、発話位置が運転席以外の座席である場合には、無視される。この場合には、発話位置情報を参照し、少なくとも、運転席と、それ以外の位置を区別することを要する。つまり、それ以外の位置では、この音声コマンドは無効と判定される。コマンド処理部130は、キーワードとして発話内容から、例えば、「ステアリングヒータ」、「オン」との語句が含まれていることが検出して、操舵加熱器48の加熱に係る音声コマンドを認識することができる。なお、同乗者の操作により運転者の注意をそらすおそれがある操作に係る音声コマンドも、発話位置関連音声コマンドとみなすこともできる。
同時発話は、1つの発話区間において複数の座席において発話される状態を指す。この場合には、コマンド処理部130は、たとえ、音声コマンドが発話内容から検出できても、検出した音声コマンドを棄却する。コマンド処理部130は、音響機器42に案内指示を出力し、話者個別の再発話を案内するための案内音声を再生する。この場合には、発話位置情報を参照し、同時発話を検出できればよい。
次に、本実施形態に係る音声操作処理の例について説明する。
図5は、本実施形態に係る音声操作処理の例を示すフローチャートである。
(ステップS102)空間スペクトル分析部122は、マイクロホン30-1、30-2から入力された2チャネルの音響信号に基づいてフレームごとに空間スペクトルを算出する。
(ステップS104)周波数分析部222aは、マイクロホン30-3から入力された1チャネルの音響信号に基づいてフレームごとにパワースペクトル密度を分析する。
(ステップS106)零交差点分析部222bは、マイクロホン30-3から入力された1チャネルの音響信号に基づいてフレームごとに零交差点を分析し、零交差数を計数する。
(ステップS108)発話位置推定部124は、フレームごとにパワースペクトル密度、パワースペクトル密度、および、零交差点を要素として含む入力ベクトルを構成する。発話位置推定部124は、数理モデルを用いて、構成した入力ベクトルから発話位置ごとの信頼度を要素として含む出力ベクトルを算出し、発話位置情報(フレームベース発話位置)を推定する。
図5は、本実施形態に係る音声操作処理の例を示すフローチャートである。
(ステップS102)空間スペクトル分析部122は、マイクロホン30-1、30-2から入力された2チャネルの音響信号に基づいてフレームごとに空間スペクトルを算出する。
(ステップS104)周波数分析部222aは、マイクロホン30-3から入力された1チャネルの音響信号に基づいてフレームごとにパワースペクトル密度を分析する。
(ステップS106)零交差点分析部222bは、マイクロホン30-3から入力された1チャネルの音響信号に基づいてフレームごとに零交差点を分析し、零交差数を計数する。
(ステップS108)発話位置推定部124は、フレームごとにパワースペクトル密度、パワースペクトル密度、および、零交差点を要素として含む入力ベクトルを構成する。発話位置推定部124は、数理モデルを用いて、構成した入力ベクトルから発話位置ごとの信頼度を要素として含む出力ベクトルを算出し、発話位置情報(フレームベース発話位置)を推定する。
(ステップS110)空間フィルタリング部134は、マイクロホン30-1、30-2から入力された2チャネルの音響信号に対して空間フィルタリングを実行し、推定された発話位置に指向性を向けて1チャネルの音響信号を取得する。
(ステップS114)発話情報取得部126は、取得された1チャネルの音響信号をクラウド50に送信し、クラウド50から発話ごとに発話区間情報と発話内容情報を取得する。
(ステップS116)発話位置処理部128は、取得された発話区間情報に示される発話区間におけるフレームごとに推定された発話位置情報に基づいて位置別発話区間を定める。発話情報取得部126は、位置別発話区間が最多となる発話位置を、その発話区間に対する発話位置(発話ベース発話位置)として定める。
(ステップS114)発話情報取得部126は、取得された1チャネルの音響信号をクラウド50に送信し、クラウド50から発話ごとに発話区間情報と発話内容情報を取得する。
(ステップS116)発話位置処理部128は、取得された発話区間情報に示される発話区間におけるフレームごとに推定された発話位置情報に基づいて位置別発話区間を定める。発話情報取得部126は、位置別発話区間が最多となる発話位置を、その発話区間に対する発話位置(発話ベース発話位置)として定める。
(ステップS118)コマンド処理部130は、コマンドリストを参照し、取得された発話内容情報に示される発話内容から音声コマンドを検出できるか否かを判定する。検出できると判定するとき(ステップS118 YES)、ステップS120の処理に進む。検出できないと判定するとき(ステップS118 NO)、図5の処理を終了する。
(ステップS120)コマンド処理部130は、発話位置情報が同時発話を示すか否かを判定する。同時発話を示すと判定するとき(ステップS120 YES)、ステップS122の処理に進む。単独発話を示すと判定するとき(ステップS120 NO)、ステップS124の処理に進む。
(ステップS122)コマンド処理部130は、発話者個別の再発話の案内を指示するための案内情報として案内音声を音響機器42に提示させる。その後、図5の処理を終了する。
(ステップS120)コマンド処理部130は、発話位置情報が同時発話を示すか否かを判定する。同時発話を示すと判定するとき(ステップS120 YES)、ステップS122の処理に進む。単独発話を示すと判定するとき(ステップS120 NO)、ステップS124の処理に進む。
(ステップS122)コマンド処理部130は、発話者個別の再発話の案内を指示するための案内情報として案内音声を音響機器42に提示させる。その後、図5の処理を終了する。
(ステップS124)コマンド処理部130は、コマンドリストを参照し、検出した音声コマンドが発話位置関連音声コマンドであるか否かを判定する。発話位置関連音声コマンドと判定するとき(ステップS124 YES)、ステップS128の処理に進む。発話位置関連音声コマンドではないと判定するとき(ステップS124 NO)、ステップS126の処理に進む。
(ステップS126)コマンド処理部130は、音声コマンドで指示される制御対象機器40に対して、検出した音声コマンドに従って発話位置に無関係な動作制御を実行する。その後、図5の処理を終了する。
(ステップS126)コマンド処理部130は、音声コマンドで指示される制御対象機器40に対して、検出した音声コマンドに従って発話位置に無関係な動作制御を実行する。その後、図5の処理を終了する。
(ステップS128)コマンド処理部130は、コマンドリストを参照し、発話位置情報に示す発話位置において検出した音声コマンドが有効であるか否かを判定する。有効と判定するとき(ステップS128 YES)、ステップS130の処理に進む。無効と判定するとき(ステップS128 NO)、検出した音声コマンドを棄却し、図5の処理を終了する。
(ステップS130)コマンド処理部130は、音声コマンドで指示される制御対象機器40に対して、検出した音声コマンドに従って発話位置に関連する動作制御を実行する。その後、図5の処理を終了する。
(ステップS130)コマンド処理部130は、音声コマンドで指示される制御対象機器40に対して、検出した音声コマンドに従って発話位置に関連する動作制御を実行する。その後、図5の処理を終了する。
次に、フレームベース発話位置を定める手法の第1例について、より詳細に説明する。
図6は、発話位置の第1検出例を示す説明図である。図示の例では、シフト長がフレーム長よりも短いため、シフト長に相当する時間間隔で発話位置情報が取得される。この例では、発話位置の候補ごとの空間スペクトルの値が所定の値以上であって、最大となる発話位置が検出される。図7に例示されるように、推定される発話位置(推定発話位置)は、複数のフレームにわたり継続せず、フレーム単位で間欠的に取得されることがある。発話者が着席していれば、個々の発話の発話位置の真値(ground truth)は発話ごとに一定となるはずである。発話ごとに発話位置を定めるには、発話位置の安定性を要する。
図6は、発話位置の第1検出例を示す説明図である。図示の例では、シフト長がフレーム長よりも短いため、シフト長に相当する時間間隔で発話位置情報が取得される。この例では、発話位置の候補ごとの空間スペクトルの値が所定の値以上であって、最大となる発話位置が検出される。図7に例示されるように、推定される発話位置(推定発話位置)は、複数のフレームにわたり継続せず、フレーム単位で間欠的に取得されることがある。発話者が着席していれば、個々の発話の発話位置の真値(ground truth)は発話ごとに一定となるはずである。発話ごとに発話位置を定めるには、発話位置の安定性を要する。
図8は、発話位置の第2検出例を示す説明図である。図示の例では、発話位置処理部128は、フレームごとに、そのフレームを含む複数フレームにわたる小区間を設定し、設定した小区間における発話位置情報において信頼度が所定の信頼度の閾値以上であって、最も信頼度が高い発話位置を、そのフレームに対する発話位置として定める。フレーム長、シフト長、小区間の時間長は、典型的には、例えば、20~50ms、10~20ms、300~1000msとなる。図8の例では、個々のフレームに対する小区間Tは、処理対象となる対象フレームを中心とし、対象フレームよりも先行する1個以上の先行フレームと、対象フレームに後続する1個以上の後続フレームを含む期間となる。フレームごとの発話位置を対応する小区間Tごとに判定することで、安定した発話位置の推定が実現する。図9に例示されるように、推定発話位置が複数のフレームにわたり継続し、間欠的になる現象が解消する点で真値に近似する。しかしながら、発話がなされ発話位置が推定されるべきであるにも関わらず、発話位置を検出できない状態が複数フレームにわたり継続することもある。
本実施形態に係る発話位置処理部128は、次に説明する手法を用いて発話ベース発話位置を定めることができる。図10は、本実施形態に係る発話ベース発話位置への第1変換例を示すフローチャートである。
(ステップS202)発話位置処理部128は、処理対象の発話としてm番目の発話Rmを選択する。
(ステップS204)発話位置処理部128は、予め定めた発話位置Kごとの累積検出時間P(K)を0に初期化する。
(ステップS202)発話位置処理部128は、処理対象の発話としてm番目の発話Rmを選択する。
(ステップS204)発話位置処理部128は、予め定めた発話位置Kごとの累積検出時間P(K)を0に初期化する。
(ステップS206)発話位置処理部128は、発話位置Kごとに、発話Rmの発話区間において発話位置Kが推定された区間を位置別発話区間Vi(iは、1以上N以下の整数、Nは検出された位置別発話区間の数を示す整数)として特定する。
(ステップS208)発話位置処理部128は、発話位置Kごとに、位置別発話区間Vi別の区間長Liを加算し、累積検出期間P(K)を算出する。
(ステップS210)発話位置処理部128は、累積検出期間P(K)が最大となる発話位置Kを発話Rmに対する発話ベース発話位置として定める。その後、図10の処理を終了する。
(ステップS208)発話位置処理部128は、発話位置Kごとに、位置別発話区間Vi別の区間長Liを加算し、累積検出期間P(K)を算出する。
(ステップS210)発話位置処理部128は、累積検出期間P(K)が最大となる発話位置Kを発話Rmに対する発話ベース発話位置として定める。その後、図10の処理を終了する。
図11は、発話ベース発話位置への第1変換例の実行例を示す説明図である。図示の例では、Ts(m)、Te(m)は、それぞれ発話Rmの発話区間の開始時刻、終了時刻を示す。発話区間に含まれる位置別発話区間として、V1~V3が検出される。L1~L3は、それぞれ発話区間内で検出される位置別発話区間V1~V3の区間長を示す。そして、位置別発話区間V1、V2、V3のそれぞれに対する発話位置が、0、0、1と推定される。このとき、発話位置0に対する累積検出期間P(0)は、L1+L2、発話位置1に対する累積検出期間P(1)はL3となる。発話位置2~4に対する累積検出期間P(2)~P(4)は、いずれも0となる。発話位置0、1、2、3、4は、それぞれ運転席(FR)、助手席(FL)、後部右(RR)、後部中間(RM)、後部左(RR)を示す。このとき、発話位置処理部128は、累積検出期間が最大となる発話位置0を発話Rmに対する発話ベース発話位置SSL(Rm)として定めることができる。
図12は、本実施形態に係る発話ベース発話位置への第2変換例を示すフローチャートである。図12の例では、同時発話の判定も含まれる。
(ステップS222)発話位置処理部128は、処理対象の発話としてm番目の発話Umを選択する。
(ステップS224)発話位置処理部128は、選択した発話におけるf番目のフレームを含む小区間Sfを選択する。
(ステップS226)発話位置処理部128は、発話位置Kごとの累積検出期間Qf(K)を0に初期化する。
(ステップS222)発話位置処理部128は、処理対象の発話としてm番目の発話Umを選択する。
(ステップS224)発話位置処理部128は、選択した発話におけるf番目のフレームを含む小区間Sfを選択する。
(ステップS226)発話位置処理部128は、発話位置Kごとの累積検出期間Qf(K)を0に初期化する。
(ステップS228)発話位置処理部128は、小区間Sfにおいて発話位置Kが推定された区間を位置別発話区間Viとして特定する。
(ステップS230)発話位置処理部128は、発話位置Kごとに、位置別発話区間Vi別の区間長Liを加算し、累積検出期間Qf(K)を算出する。
(ステップS232)発話位置処理部128は、累積検出期間Qf(K)が最大となる発話位置Kを小区間Sfに対する小区間別発話位置Kfとして定める。
(ステップS234)発話位置処理部128は、処理対象とするフレームfを次のフレームに進める。
(ステップS236)発話位置処理部128は、発話Umの発話区間において処理対象とする次のフレームが存在するか否かを判定する。存在すると判定するとき(ステップS236 YES)、ステップS240の処理に進む。存在しないと判定するとき(ステップS236 NO)、ステップS238の処理に進む。
(ステップS230)発話位置処理部128は、発話位置Kごとに、位置別発話区間Vi別の区間長Liを加算し、累積検出期間Qf(K)を算出する。
(ステップS232)発話位置処理部128は、累積検出期間Qf(K)が最大となる発話位置Kを小区間Sfに対する小区間別発話位置Kfとして定める。
(ステップS234)発話位置処理部128は、処理対象とするフレームfを次のフレームに進める。
(ステップS236)発話位置処理部128は、発話Umの発話区間において処理対象とする次のフレームが存在するか否かを判定する。存在すると判定するとき(ステップS236 YES)、ステップS240の処理に進む。存在しないと判定するとき(ステップS236 NO)、ステップS238の処理に進む。
(ステップS238)発話位置処理部128は、発話位置Kごとに発話Umの発話区間において、その発話位置Kを小区間別発話位置とする小区間Sfの数を定位数NKとして計数する。定位数NKは、図10における累積発話期間(K)のフレーム数単位の時間長を示す。
(ステップS240)発話位置処理部128は、計数した定位数NKの発話区間内の全フレーム数に対する比率が所定の比率以上となる発話位置が複数個となるか否かを判定する。複数個と判定するとき(ステップS240 YES)、ステップS242の処理に進む。1個と判定するとき(ステップS240 NO)、ステップS244の処理に進む。
(ステップS242)発話位置処理部128は、発話Umにおける発話状態を同時発話と判定する。その後、図12に示す処理を終了する。
(ステップS244)発話位置処理部128は、定位数NKが最大となる発話位置Kを発話Umに対する発話ベース発話位置として定める。その後、図12の処理を終了する。
(ステップS240)発話位置処理部128は、計数した定位数NKの発話区間内の全フレーム数に対する比率が所定の比率以上となる発話位置が複数個となるか否かを判定する。複数個と判定するとき(ステップS240 YES)、ステップS242の処理に進む。1個と判定するとき(ステップS240 NO)、ステップS244の処理に進む。
(ステップS242)発話位置処理部128は、発話Umにおける発話状態を同時発話と判定する。その後、図12に示す処理を終了する。
(ステップS244)発話位置処理部128は、定位数NKが最大となる発話位置Kを発話Umに対する発話ベース発話位置として定める。その後、図12の処理を終了する。
図13は、小区間別発話位置の判定例を示す説明図である。図示の例では、発話Umに係る発話区間において、小区間Sfにおいて発話位置0、1が推定された区間が、それぞれ位置別発話区間V1、V2として特定されている。L1、L2は、それぞれ位置別発話区間V1、V2の区間長を示す。このとき、発話位置0に対する累積検出期間Qf(0)は、L1、発話位置1に対する累積検出期間P(1)はL2となる。発話位置2~4に対する累積検出期間Qf(2)~Qf(4)は、いずれも0となる。このとき、発話位置処理部128は、累積検出期間が最大となる発話位置0を小区間Sfに対する小区間別発話位置Kfとして定めることができる。
図14は、同時発話の判定例を示す説明図である。図示の例では、クラウド50により推定された発話Unに係る発話区間(推定発話区間)には、単一の発話Rnが含まれる。ここで、発話区間2の定位数は22となり、その他の発話区間の定位数はそれぞれ0となる。定位数が最も多い発話位置2が発話Unに対する発話ベース発話位置として定まる。これに対し、発話Umに係る推定発話区間のように、異なる時間に複数の発話が現実に含まれることがある。複数の発話それぞれの発話内容として音声コマンドが含まれる場合、いずれの音声コマンドを採用すべきかが定まらないおそれがある。本実施形態では、発話位置処理部128は、時間的に異なる複数の発話であっても、1個の発話区間に含まれる事象を、同時発話として検出する。同時発話が検出されるとき、案内情報を出力して再度の個別の発話が促される。
図14の例では、発話Umに係る推定発話区間には33個の小区間が含まれ、2個の現実になされた発話Rm1、Rm2が含まれる。このとき発話Rm1、Rm2のそれぞれに対する発話位置、が異なる。発話Umに係る推定発話区間の前半では、小区間別発話位置は概ね0となり、発話Rm1の発話区間に対応する。発話位置推定発話区間の後半では、小区間別発話位置は概ね1となり、発話Rm2の発話区間に対応する。発話Umに係る推定発話において、発話位置0に対する定位数は12、発話位置1に対する定位数は21となる。発話位置2~4に対する定位数は、それぞれ0となる。発話位置0に対する定位数の発話区間内の小区間数に対する比率は0.36(≒12/33)、発話位置1に対する定位数に対する小区間数に対する比率は0.63(≒21/33)と、所定の比率(例えば、0.2)を超える。そのため、この発話区間における発話状態は同時発話と判定される。
次に、本実施形態について実施した評価実験について説明する。評価実験は、次の観点で行った。(1)提案手法の基本性能、(2)諸条件下の発話位置検出、(3)諸条件下の同時発話検出のチャンネル数依存性。
評価実験では、車室内に5個の座席が備わる車両内で音声データ、走行雑音(騒音データ)を個々にマイクロホン30-1~30-3に収録させておき、音声データと騒音データをミキシングして車両外に設置した音響処理装置10、20に供給して実行した。これにより騒音下での発話が再現される。但し、実験条件によっては、さらに音響機器42により再生された音楽を音楽データとして収録し、さらにミキシングした。音源として、英語音声200発話と、日本語音声52発話からランダムに選択された発話を用いた。
評価実験では、車室内に5個の座席が備わる車両内で音声データ、走行雑音(騒音データ)を個々にマイクロホン30-1~30-3に収録させておき、音声データと騒音データをミキシングして車両外に設置した音響処理装置10、20に供給して実行した。これにより騒音下での発話が再現される。但し、実験条件によっては、さらに音響機器42により再生された音楽を音楽データとして収録し、さらにミキシングした。音源として、英語音声200発話と、日本語音声52発話からランダムに選択された発話を用いた。
まず、(1)提案手法の基本性能について説明する。ここでは、実験結果とする指標値として発話検出率(SDR:Speech Detection Rate)と発話区間検出率(SLR:Speech Localization Rate)を実験条件ごとに求めた。発話検出率は、正解の発話区間数に対する正しく検出できた発話区間数の比率である。発話位置検出率は、検出された発話区間数に対する発話位置として正しく座席を検出できた発話区間数の比率である。実験条件として、次の4通りの手法を設定した。(i)フレーム別に数理モデルを用いて発話位置推定、(ii)各フレームに対応する小区間ごとに発話位置推定、(iii)フレーム別に数理モデルを用いて推定された発話位置に基づく発話ベースの発話位置推定、(iv)フレーム別に数理モデルを用い小区間を考慮して推定された発話位置に基づく発話ベースの発話位置推定。但し、実験条件(i)、(ii)では、発話位置処理部128により発話区間において発話位置を検出できたフレーム数の発話区間内のフレーム数に対する比率が0.5以上となるか否かにより、正しく発話区間ができたかを評価した。実験条件ごとに、250発話の音声を用いた。250発話は、1座席あたり50発話に相当する。なお、実験は、車両の窓とサンルーフを閉鎖し、停車して実行した。
図16は、発話検出手法ごとに発話検出率と発話位置検出率を示す。発話検出率は、実験条件(i)について最も低くなり、実験条件(ii)について、さらに高くなる、実験条件(iii)、(iv)については、発話検出率は100%となる。このことは、ほぼ確実に発話を検出できることを示す。発話検出率が最も低い実験条件(i)でも74.1%となり、モデルを用いずに空間スペクトルを直接用いる場合よりも良好となる。このことは、発話区間が正しく検出されずに間欠的になる事象が緩和されることを裏付ける。
発話位置検出率は、実験条件(ii)について最も低くなり、実験条件(i)、(iii)、(iv)の順に高くなる。発話位置検出率は、実験条件(ii)でも88.5%、実験条件(ii)、(iii)、(iv)では95.9%、99.6%、100%となる。このことは、ほぼ確実に発話位置を検出できることを示す。
発話位置検出率は、実験条件(ii)について最も低くなり、実験条件(i)、(iii)、(iv)の順に高くなる。発話位置検出率は、実験条件(ii)でも88.5%、実験条件(ii)、(iii)、(iv)では95.9%、99.6%、100%となる。このことは、ほぼ確実に発話位置を検出できることを示す。
次に、(2)諸条件下の発話位置検出について説明する。諸条件下の発話位置検出では、実験条件として、音響信号のチャネル数、車両の動作状態、および、車内環境の異なる組み合わせのそれぞれについて発話検出率と発話位置検出率を求めた。音響信号のチャネル数として2チャネルと3チャネルの2通り、車両の動作状態として2通りもしくは5通り、車内環境として14通りの条件を設定した。
2チャネルとは、マイクロホン30-1、30-2が収音した音響信号から導出された空間スペクトルに基づいてフレームベース発話位置を検出したケースを指す。3チャネルとは、空間スペクトルの他、マイクロホン30-3が収音された音響信号から導出されたパワースペクトル密度と零交差数をさらに用いてフレームベース発話位置を検出したケースを指す。
2通りの動作状態として、停止と45mph走行を設定した。5通りの動作状態として、a:停止、b:アイドリング、c:45mph走行、d:65mph走行、e:72mph走行を設定した。65mph、72mph走行では、45mph走行よりも騒音レベルがそれぞれ5dB、10dB高くなる。
2通りの動作状態として、停止と45mph走行を設定した。5通りの動作状態として、a:停止、b:アイドリング、c:45mph走行、d:65mph走行、e:72mph走行を設定した。65mph、72mph走行では、45mph走行よりも騒音レベルがそれぞれ5dB、10dB高くなる。
14通りの車内環境は、次の通りである。A:基本形(全窓閉、サンルーフ閉)、B:HATS(Head and Torso Simulator)マスク付、C:HATS内向き、D:HATS外向き、E:サンルーフ開、F:FL窓開、G:FR窓閉、H:RL窓開、I:RR窓開、J:FLFR窓開、K:RLRR窓開、L:全窓サンルーフ開、M:リクライニングHATS寝、N:リクライニングHATS起。HATSとは、胴体付きの疑似頭を指し、運転席に疑似頭を着座させたことを示す。HATSの車内への設置により乗車した人物による音の伝搬状態として、反射、回折および吸収を模擬した。上記のB、C、D、K、Lは、基本形、つまり、全ての窓とサンルーフを閉じた環境下での疑似頭の設置状態の差異を示す。HATSマスク付とは、口元にマスクを着用した疑似頭を正面に向けて運転席に着座させた状態を指す。HATS内向きとは、疑似頭を車両の内側に90度傾けて運転席に着座させた状態を指す。HATS外向きとは、疑似頭を車両の外側に90度傾けて運転席に着座させた状態を指す。
図17は、車両停止中において14通りの車内環境について取得した発話位置検出率と発話検出率を示す。5席評価とは、運転席、助手席、後部右、後部中間、および、後部左の5通りを区別して検出することを指す。3席評価とは、助手席、後部左、および、後部中間の3通りを区別して検出することを指す。(a)は3チャネルでの発話位置検出率、(b)は2チャネルでの発話位置検出率、(c)は3チャネルでの発話検出率、(d)は2チャネルでの発話検出率を示す。3チャネルでは、発話位置検出率、発話検出率ともにいずれも95%を超える。2チャネルでは、車内環境Dでの発話位置検出率を除き発話位置検出率、発話検出率ともにいずれも95%を超える。車内環境Dでの発話位置検出率についても約92%となる。なお、5席評価と3席評価の間では、発話位置検出率、発話検出率ともに有意差が認められなかった。
図18は、45mph走行中において15通りの車内環境について取得した発話位置検出率と発話検出率を示す。15通りの車内環境には、車内環境A~Oの他、車内環境A’も含まれる。車内環境A’は、基本形Aにおける音楽再生を指す。(a)は3チャネルでの発話位置検出率、(b)は2チャネルでの発話位置検出率、(c)は3チャネルでの発話検出率、(d)は2チャネルでの発話検出率を示す。3チャネルでは、車内環境J、Lを除き発話位置検出率、発話検出率ともにいずれも95%を超える。但し、2チャネルでは、車内環境J、Lの他、車内環境B、C、D、F、G、Hについて、発話位置検出率が90%以下に低下する。このことは、発話の推定において1チャネルの音響信号に基づく音響特徴量を参照することが、走行による騒音下でも発話位置検出率の向上に寄与していることを示す。
図19は、車内環境Aについて5通りの車両の動作状態について取得した発話位置検出率と発話検出率を示す。(a)は3チャネルでの発話位置検出率、(b)は2チャネルでの発話位置検出率、(c)は3チャネルでの発話検出率、(d)は2チャネルでの発話検出率を示す。いずれの動作状態についても、チャネル数に関わらず、発話位置検出率、発話検出率ともに95%を超える。
次に、(3)諸条件下の同時発話検出のチャンネル数依存性について説明する。諸条件下の同時発話検出では、実験条件として、音響信号のチャネル数、および、車両の動作状態、の異なる組み合わせのそれぞれについて同時発話検出率、同時発話検出精度、および、単独発話検出率を求めた。但し、車内環境を全窓閉、サンルーフ閉とした。同時発話検出率(SSDR:Simultaneous Speech Detection Rate)とは、検出された発話区間数に対して、正しく同時発話であると検出できた発話区間の比率を指す。同時発話検出精度(SSDA:Simultaneous Speech Detection Rate)とは、検出された発話区間数に対して、正しく同時発話であると検出できた発話区間数と誤って同時発話であると検出した発話区間数との差分の比率を指す。単独発話検出率(SinSDR:Single Speech Detection Rate)とは、検出された発話区間数に対して正しく単独発話であると検出された発話区間数の比率を指す。例えば、M個の発話区間U1~UMにN1個の同時発話区間とN2個の単独発話区間数が含まれている場合を仮定する。同時発話区間のうち、正しく同時発話を検出できた区間数、単独発話として検出した区間数を、それぞれC1、S1とする。単独発話区間のうち、正しく単独発話を検出できた区間数、同時発話として検出した区間数を、それぞれC2、S2とする。このとき、同時発話検出率SSDRは、C1/N1となる。同時発話検出精度SSDAは、(C1-S2)/N1となる。単独発話検出率SinSDRは、C2/N2となる。
音響信号のチャネル数として2チャネルと3チャネルの2通り、車両の動作状態として5通りの条件a~eを設定した。
同時発話の評価においては、日本語音声と英語音声を合わせて250個の音声データから50ファイルの評価データW1~W50を選出した。インデックスが隣接する評価データの組、例えば、[W1,W2]、[W2,W3]、等のそれぞれについて、5パターンの同時発話データを生成した。個々の評価データには各1個の発話が含まれる。
同時発話の評価においては、日本語音声と英語音声を合わせて250個の音声データから50ファイルの評価データW1~W50を選出した。インデックスが隣接する評価データの組、例えば、[W1,W2]、[W2,W3]、等のそれぞれについて、5パターンの同時発話データを生成した。個々の評価データには各1個の発話が含まれる。
図15は、同時発話のパターンを例示する図である。(a)同時発話なし、(b)先行発話Wm+1の後半の一部が後続発話Wm+2の前半に重複、(c)先行発話Wm+1の期間が後続発話Wm+2の期間を包含、(d)後続発話Wm+1の前半の一部が先行発話Wm+2の後半の一部に重複、(e)先行発話Wm+1の終端が後続発話Wm+2の始端に一致。パターン(a)では、先行発話Wm+1の終端から後続発話Wm+2の先端までの期間G1を所定の値域100~500msからランダムに選択した。パターン(b)、(d)では、後続発話の先端から先行発話の後端までの期間G2を所定の値域100~mlからランダムに選択した。mlは、先行発話と後続発話のうち、いずれか短い方の長さの半分である。
図20は、5通りの車両の動作状態について取得した同時発話検出率、同時発話検出精度、および、単独発話検出精度を同時発話評価として示す。(a)は3チャネル同時発話評価、(b)は2チャネル同時発話評価を示す。同時発話検出率、同時発話検出精度、および、単独発話検出精度は、いずれも90%程度となった。単独発話検出精度については、走行速度が高いほど低下する傾向が認められるが、実用的な走行速度(45mph以下)では顕著ではない。
(変形例)
上記の実施形態は、変形して実現されてもよい。変形には、一部の構成の他の構成への置換、一部の構成と他の構成との組み合わせ、および、一部の構成の省略が含まれる。
例えば、音響特徴分析部222は、音響特徴量として発話された音声の特徴を表現できる特徴量であれば、いかなる種類の特徴量を用いることができる。例えば、スペクトルパワー密度に代え、メル周波数ケプストラム(MFCC:Mel-Frequency Cepstrum)、デルタケプストラム、線形予測係数(LPC:Linear Prediction Coefficients)、などのいずれかが用いられてもよい。また、零交差数の導出が省略されてもよい。
上記の実施形態は、変形して実現されてもよい。変形には、一部の構成の他の構成への置換、一部の構成と他の構成との組み合わせ、および、一部の構成の省略が含まれる。
例えば、音響特徴分析部222は、音響特徴量として発話された音声の特徴を表現できる特徴量であれば、いかなる種類の特徴量を用いることができる。例えば、スペクトルパワー密度に代え、メル周波数ケプストラム(MFCC:Mel-Frequency Cepstrum)、デルタケプストラム、線形予測係数(LPC:Linear Prediction Coefficients)、などのいずれかが用いられてもよい。また、零交差数の導出が省略されてもよい。
また、空間スペクトル分析部122がMUSICスペクトルを算出する場合を例にしたが、これには限られない。空間スペクトル分析部122は、その他の種類の空間スペクトル、例えば、個々の音源位置の方向へのビームフォーミングによる空間スペクトルを算出してもよい。ビームフォーミングは、チャネルごとに異なる利得と遅延の一方もしくは両方を付加、または、フィルタリングを行って加算された信号により、指向性を制御する手法である。
発話位置推定部124において用いられる数理モデルは、必ずしもランダムフォレストに限られず、別種類の機械学習モデルが用いられてもよい。別種類の機械学習モデルは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)、回帰型ニューラルネットワーク(Recurrent Neural Network)、などのいずれであってもよい。
図10に示す処理には、図12の処理と同様に、発話区間における発話状態として同時発話の有無を判定するステップが含まれてもよい。即ち、発話位置処理部128は、発話位置Kごとの累積検出期間P(K)の発話区間に対する比率が、所定の比率以上となる発話位置Kが複数存在する場合、同時発話と判定する。発話位置処理部128は、発話位置Kごとの累積検出期間P(K)の発話区間に対する比率が、所定の比率以上となる発話位置Kが1個である場合、単独発話と判定し、ステップS210の処理を行うようにしてもよい。
図10に示す処理には、図12の処理と同様に、発話区間における発話状態として同時発話の有無を判定するステップが含まれてもよい。即ち、発話位置処理部128は、発話位置Kごとの累積検出期間P(K)の発話区間に対する比率が、所定の比率以上となる発話位置Kが複数存在する場合、同時発話と判定する。発話位置処理部128は、発話位置Kごとの累積検出期間P(K)の発話区間に対する比率が、所定の比率以上となる発話位置Kが1個である場合、単独発話と判定し、ステップS210の処理を行うようにしてもよい。
音響処理装置20は、マイクロホン30-3から音響信号を取得し、音響特徴分析部222を備えていれば、必ずしも騒音除去を主目的とする機器でなくてもよい。
音響処理装置10の空間フィルタリング部134と発話情報取得部126に相当する構成は、音響処理システムS1における別個の機器に備わり、音響処理装置10において省略されてもよい。
空間フィルタリング部134が省略され、発話情報取得部126には、A/D変換部112からいずれか1チャネルの音響信号が入力されてもよい。
音響処理装置10の空間フィルタリング部134と発話情報取得部126に相当する構成は、音響処理システムS1における別個の機器に備わり、音響処理装置10において省略されてもよい。
空間フィルタリング部134が省略され、発話情報取得部126には、A/D変換部112からいずれか1チャネルの音響信号が入力されてもよい。
音響処理装置10の一部または全部は、音響機器42の一部を構成してもよい。
音響処理装置10、20は、一体に構成されてもよい。その場合、制御部120、220の一方が、他方の機能を有し、他方が省略されてもよい。A/D変換部112、212の一方が他方の機能を有し、他方が省略されてもよい。
空間スペクトルの算出に用いられる音響信号のチャネル数は、2チャネルに限られず、3チャネル以上であってもよい。その他、上記の処理に係るパラメータは、本実施形態による所期の効果を奏することができれば任意に設定可能である。
音響処理装置10、20は、一体に構成されてもよい。その場合、制御部120、220の一方が、他方の機能を有し、他方が省略されてもよい。A/D変換部112、212の一方が他方の機能を有し、他方が省略されてもよい。
空間スペクトルの算出に用いられる音響信号のチャネル数は、2チャネルに限られず、3チャネル以上であってもよい。その他、上記の処理に係るパラメータは、本実施形態による所期の効果を奏することができれば任意に設定可能である。
発話情報取得部126は、いずれかのチャネルの音響信号に対して公知の音声検出処理(VAD:Voice Activity Detection)を行い、発話区間を検出してもよい。より具体的には、発話情報取得部126は、フレームごとに零交差数とパワーを算出し、算出したパワーが所定のパワーの閾値以上である状態、かつ、零交差数が所定頻度以上(例えば、1秒当たり200~500回)である状態が所定時間(例えば、0.2~0.5秒)以上継続する状態が開始される時点を始点とし、その状態が停止する時点を終点とする区間を発話区間とし、それ以外の区間を非発話区間と定めてもよい。また、発話情報取得部126は、数理モデルを用いて、数理モデルを用い、フレームごとに零交差数とパワーに基づいて発話区間の属否を判定してもよい。数理モデルとして、説明変数とする零交差数とパワーの組と、目的変数とする発話区間の属否との関連を予め学習しておく。音響処理装置10、20が一体に構成される場合には、音響特徴分析部222が算出した零交差数とパワースペクトル密度から導出されるパワーが音声検出処理に用いられてもよい。
また、発話情報取得部126は、検出した発話区間において公知の音声認識処理を行い、発話内容を定めてもよい。発話情報取得部126自体が、発話区間を検出し、発話内容を定める場合には、クラウド50から発話内容情報と発話区間情報を受信することを要しない。発話情報取得部126は、取得した音響信号をクラウド50に送信し、発話区間検出と音声認識処理を要求することを要しない。
以上に説明したように、本実施形態に係る音響処理システムS1は、複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析する空間スペクトル分析部122と、少なくとも音源の空間スペクトルと発話している話者の位置である発話位置との関連を示す数理モデルを用いて、分析された空間スペクトルに基づいて発話位置を推定する発話位置推定部124と、を備える。
この構成によれば、既知の空間スペクトルと発話位置との関連に基づいて、取得される音響信号からフレームごとに導出される空間スペクトルに対応する発話位置が推定される。そのため、空間スペクトルから発話位置を直接定める場合よりも安定した発話位置を推定することができる。例えば、発話区間内で発話位置が定まるフレームが間欠的に現れる事象が緩和される。
この構成によれば、既知の空間スペクトルと発話位置との関連に基づいて、取得される音響信号からフレームごとに導出される空間スペクトルに対応する発話位置が推定される。そのため、空間スペクトルから発話位置を直接定める場合よりも安定した発話位置を推定することができる。例えば、発話区間内で発話位置が定まるフレームが間欠的に現れる事象が緩和される。
音響処理システムS1は、複数チャネルと別個のチャネルの音響信号に基づいてフレームごとに音響特徴量を分析する音響特徴分析部222を備えてもよい。上記の数理モデルは、音響特徴量ならびに空間スペクトルと発話位置との関連を示し、発話位置推定部124は、分析された音響特徴量ならびに空間スペクトルに基づいて発話位置を推定してもよい。
この構成によれば、空間スペクトルの推定に用いた複数チャネルとは別個のチャネルの音響信号から分析された音響特徴量をさらに用いて発話位置が推定される。発話された音声の音響特徴量に対する発話位置依存性を参照して発話位置が推定されるため、騒音下においても発話位置の推定精度を向上することができる。また、数理モデルを用いることで、複数チャネルの音響信号と別個のチャネルの音響信号と同期がとれていない場合でも推定精度を確保することができる。
この構成によれば、空間スペクトルの推定に用いた複数チャネルとは別個のチャネルの音響信号から分析された音響特徴量をさらに用いて発話位置が推定される。発話された音声の音響特徴量に対する発話位置依存性を参照して発話位置が推定されるため、騒音下においても発話位置の推定精度を向上することができる。また、数理モデルを用いることで、複数チャネルの音響信号と別個のチャネルの音響信号と同期がとれていない場合でも推定精度を確保することができる。
音響特徴分析部222は、音響特徴量として、上記の別個のチャネルの音響特徴分析チャネルの音響信号の周波数特性と零交差点の頻度を分析してもよい。
この構成によれば、音響特徴量として音響信号の周波数特性と零交差点の頻度を用いることで、発話された音声の特徴をより確実に把握することができる。そのため、発話位置の推定精度をより向上することができる。
この構成によれば、音響特徴量として音響信号の周波数特性と零交差点の頻度を用いることで、発話された音声の特徴をより確実に把握することができる。そのため、発話位置の推定精度をより向上することができる。
音響特徴分析部222は、音響特徴量として、上記の別個のチャネルの音響信号のパワースペクトル密度を分析してもよい。
この構成によれば、離散フーリエ変換に基づく簡素な演算により周波数ごとの強度が分析される。そのため、経済的に発話位置の推定精度を向上することができる。
この構成によれば、離散フーリエ変換に基づく簡素な演算により周波数ごとの強度が分析される。そのため、経済的に発話位置の推定精度を向上することができる。
空間スペクトル分析部122は、発話位置の候補である所定の発話位置候補(例えば、座席)ごとに空間スペクトルを算出し、発話位置推定部124は、発話位置候補ごとに発話している話者が所在する信頼度を算出してもよい。
この構成によれば、空間スペクトルと話者が所在する信頼度が所定の発話位置候補ごとに話者が所在する信頼度が算出される。そのため、あらゆる音源位置に対して空間スペクトルを算出する場合よりも演算量が低減する。また、空間スペクトルから発話位置を直接導出する場合とは異なり、その絶対値による発話位置の判定可能性に対する影響が低減する。そのため、発話位置の安定した推定が可能となる。
この構成によれば、空間スペクトルと話者が所在する信頼度が所定の発話位置候補ごとに話者が所在する信頼度が算出される。そのため、あらゆる音源位置に対して空間スペクトルを算出する場合よりも演算量が低減する。また、空間スペクトルから発話位置を直接導出する場合とは異なり、その絶対値による発話位置の判定可能性に対する影響が低減する。そのため、発話位置の安定した推定が可能となる。
数理モデルは、ランダムフォレストであってもよい。
この構成によれば、ランダムフォレストを構成する個々の決定木による演算が並列なため、発話位置の推定を高速に行うことができる。説明変数とする特定の入力値に対する依存性が少ないため、安定的に発話位置を推定することができる。
この構成によれば、ランダムフォレストを構成する個々の決定木による演算が並列なため、発話位置の推定を高速に行うことができる。説明変数とする特定の入力値に対する依存性が少ないため、安定的に発話位置を推定することができる。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
S1…音響処理システム、10、20…音響処理装置、30(30-1~30-3)…マイクロホン、40…制御対象機器、42…音響機器、44…空調機、46…窓開閉機、48…操舵加熱器、50…クラウド、112…A/D変換部、114…通信部、120…制御部、122…空間スペクトル分析部、124…発話位置推定部、126…発話情報取得部、128…発話位置処理部、130…コマンド処理部、134…空間フィルタリング部、212…A/D変換部、222…音響特徴分析部、222a…周波数分析部、222b…零交差点分析部、224…低域通過フィルタ、226…騒音除去部
Claims (9)
- 複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析する空間スペクトル分析部と、
少なくとも音源の空間スペクトルと発話している話者の位置である発話位置との関連を示す数理モデルを用いて、分析された前記空間スペクトルに基づいて発話位置を推定する発話位置推定部と、を備える
音響処理システム。 - 前記複数チャネルと別個のチャネルの音響信号に基づいてフレームごとに音響特徴量を分析する音響特徴分析部を備え、
前記数理モデルは、音響特徴量ならびに空間スペクトルと発話位置との関連を示し、
前記発話位置推定部は、
分析された前記音響特徴量ならびに前記空間スペクトルに基づいて発話位置を推定する
請求項1に記載の音響処理システム。 - 前記音響特徴分析部は、
前記音響特徴量として、前記別個のチャネルの音響信号の周波数特性と零交差点の頻度を分析する
請求項2に記載の音響処理システム。 - 前記音響特徴分析部は、
前記別個のチャネルの音響信号の周波数特性として、パワースペクトル密度を分析する
請求項3に記載の音響処理システム。 - 前記空間スペクトル分析部は、
前記発話位置の候補である所定の発話位置候補ごとに前記空間スペクトルを算出し、
前記発話位置推定部は、
前記発話位置候補ごとに発話している話者が所在する信頼度を算出する
請求項1に記載の音響処理システム。 - 前記数理モデルは、ランダムフォレストである
請求項5に記載の音響処理システム。 - 複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析する空間スペクトル分析部と、
少なくとも音源の空間スペクトルと音源の空間分布との関連を示す数理モデルを用いて、分析された前記空間スペクトルに基づいて発話位置を推定する発話位置推定部と、を備える
音響処理装置。 - コンピュータに請求項7に記載の音響処理装置として機能させるためのプログラム。
- 音響処理システムにおける音響処理方法であって、
空間スペクトル分析部が、複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析する空間スペクトル分析ステップと、
発話位置推定部が、少なくとも音源の空間スペクトルと発話している話者の位置である発話位置との関連を示す数理モデルを用いて、分析された前記空間スペクトルに基づいて発話位置を推定する発話位置推定ステップと、を実行する
音響処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022053147A JP2023146123A (ja) | 2022-03-29 | 2022-03-29 | 音響処理システム、音響処理装置、音響処理方法、および、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022053147A JP2023146123A (ja) | 2022-03-29 | 2022-03-29 | 音響処理システム、音響処理装置、音響処理方法、および、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023146123A true JP2023146123A (ja) | 2023-10-12 |
Family
ID=88286988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022053147A Pending JP2023146123A (ja) | 2022-03-29 | 2022-03-29 | 音響処理システム、音響処理装置、音響処理方法、および、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023146123A (ja) |
-
2022
- 2022-03-29 JP JP2022053147A patent/JP2023146123A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3707716B1 (en) | Multi-channel speech separation | |
JP6603919B2 (ja) | 音声認識装置、および音声認識方法 | |
US20160372129A1 (en) | Sound source separating device and sound source separating method | |
Fukuda et al. | Long-term spectro-temporal and static harmonic features for voice activity detection | |
US9336777B2 (en) | Speech processing device, speech processing method, and speech processing program | |
JP5154363B2 (ja) | 車室内音声対話装置 | |
US10224053B2 (en) | Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering | |
JPH11126090A (ja) | 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体 | |
JP2008299221A (ja) | 発話検知装置 | |
US20170125038A1 (en) | Transfer function to generate lombard speech from neutral speech | |
JP4457221B2 (ja) | 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム | |
Wölfel | Channel selection by class separability measures for automatic transcriptions on distant microphones | |
JP6606784B2 (ja) | 音声処理装置および音声処理方法 | |
WO2021193093A1 (ja) | 信号処理装置、信号処理方法およびプログラム | |
JP6487650B2 (ja) | 音声認識装置及びプログラム | |
JP2023146123A (ja) | 音響処理システム、音響処理装置、音響処理方法、および、プログラム | |
JP2023146132A (ja) | 音響処理システム、音響処理装置、音響処理方法、および、プログラム | |
Ichikawa et al. | DOA estimation with local-peak-weighted CSP | |
CN110675890B (zh) | 声音信号处理装置以及声音信号处理方法 | |
US20220189496A1 (en) | Signal processing device, signal processing method, and program | |
CN112562664A (zh) | 音响调节方法、系统、车辆及计算机存储介质 | |
JP2008216618A (ja) | 音声判別装置 | |
Gouvêa et al. | Adaptation and compensation: Approaches to microphone and speaker independence in automatic speech recognition | |
EP1063634A2 (en) | System for recognizing utterances alternately spoken by plural speakers with an improved recognition accuracy | |
Yamamoto et al. | Genetic algorithm-based improvement of robot hearing capabilities in separating and recognizing simultaneous speech signals |