JP2023146123A

JP2023146123A - 音響処理システム、音響処理装置、音響処理方法、および、プログラム

Info

Publication number: JP2023146123A
Application number: JP2022053147A
Authority: JP
Inventors: 一博中臺; Kazuhiro Nakadai; 周作伊藤; Shusaku Ito; 篤喜田本; Atsuki Tamoto; 和也畑; Kazuya Hata; 将行瀧ケ平; Masayuki Takigahira
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2023-10-12

Abstract

【課題】発話位置を安定して検出することができる。【解決手段】空間スペクトル分析部は、複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析し、発話位置推定部は、少なくとも音源の空間スペクトルと発話している話者の位置である発話位置との関連を示す数理モデルを用いて、分析された前記空間スペクトルに基づいて発話位置を推定する。本実施形態は、音響処理システム、音響処理装置、音響処理方法、プログラムのいずれの形態でも実施することができる。【選択図】図１

Description

本発明は、音響処理システム、音響処理装置、音響処理方法、および、プログラムに関する。

車両における発話音声から、音声認識技術を用いて音声コマンドを抽出する音声認識システムが普及している。当該音声認識システムでは、抽出された音声コマンドに従って、各種の機器や機能を操作可能としている。例えば、特許文献１には、車両内に設置された複数のマイクロホンにより入力された音声から、発話者の音声を分離する音声認識システムについて記載されている。当該音声認識システムは、発話者の音声の音源位置を示すプリセット情報を記憶する記憶装置と、記憶装置に記憶された発話者のプリセット情報を参照して、マイクロホンから入力された音声から発話者の音声を分離し、音声認識を行い、音声コマンドを認識する音声認識部を有する。

また、特許文献１に記載の音声認識システムは、発話者の座席シートの位置を検出するセンサをさらに備え、記憶装置は、発話者の座席シートの位置ごとのプリセット情報を記憶し、センサから発話者の座席シートの位置を取得し、取得した座席シートの位置に基づいて、記憶装置からプリセット情報を検索し、音声認識部に出力する。認識された音声コマンドに基づき、各種ナビゲーション処理が行われる。

国際公開第２００６／０２５１０６号

操作対象とする機器や機能には、発話位置に関連するものある。例えば、窓の開閉に対しては、操作対象が話者から最も近接した窓となることが通例である。かかる操作を示す音声コマンドに対しては、音源となる発話者の位置の検出を要する。他方、車室に設置されたマイクロホンには、各種の騒音が混入する。エンジン音などの走行音の他、音響機器が発する音楽、発話音声なども騒音となりうる。騒音の混入は、話者の位置を正確に検出できない要因となる他、検出される発話位置が時間経過に応じて分散し不安定になる傾向がある。発話位置の検出率向上のため、より多くのマイクロホンを用いて発話位置の推定性能を向上させることも考えられる。しかしながら、多チャンネルの音声信号に対する複雑な演算処理を実行するためには、より多くのハードウェア資源を要する。

本発明の課題の一つは、発話位置を安定して検出することができる音響処理システム、音響処理装置、音響処理方法、および、プログラムを経済的に提供することである。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析する空間スペクトル分析部と、少なくとも音源の空間スペクトルと発話している話者の位置である発話位置との関連を示す数理モデルを用いて、分析された前記空間スペクトルに基づいて発話位置を推定する発話位置推定部と、を備える音響処理システムである。

（２）本発明のその他の態様は、（１）の音響処理システムであって、前記複数チャネルと別個のチャネルの音響信号に基づいてフレームごとに音響特徴量を分析する音響特徴分析部を備え、前記数理モデルは、音響特徴量ならびに空間スペクトルと発話位置との関連を示し、前記発話位置推定部は、分析された前記音響特徴量ならびに前記空間スペクトルに基づいて発話位置を推定してもよい。

（３）本発明のその他の態様は、（２）の音響処理システムであって、前記音響特徴分析部は、前記音響特徴量として、前記別個のチャネルの音響信号の周波数特性と零交差点の頻度を分析してもよい。

（４）本発明のその他の態様は、（３）の音響処理システムであって、前記音響特徴分析部は、前記別個のチャネルの音響信号の周波数特性として、パワースペクトル密度を分析してもよい。

（５）本発明のその他の態様は、（４）の音響処理システムであって、前記空間スペクトル分析部は、前記発話位置の候補である所定の発話位置候補ごとに前記空間スペクトルを算出し、前記発話位置推定部は、前記発話位置候補ごとに発話している話者が所在する信頼度を算出してもよい。

（６）本発明のその他の態様は、（５）の音響処理システムであって、前記数理モデルは、ランダムフォレストであってもよい。

（７）本発明のその他の態様は、複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析する空間スペクトル分析部と、少なくとも音源の空間スペクトルと音源の空間分布との関連を示す数理モデルを用いて、分析された前記空間スペクトルに基づいて発話位置を推定する発話位置推定部と、を備える音響処理装置である。

（８）本発明のその他の態様は、コンピュータに（７）の音響処理装置として機能させるためのプログラムであってもよい。

（９）本発明のその他の態様は、音響処理システムにおける音響処理方法であって、空間スペクトル分析部が、複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析する空間スペクトル分析ステップと、発話位置推定部が、少なくとも音源の空間スペクトルと発話している話者の位置である発話位置との関連を示す数理モデルを用いて、分析された前記空間スペクトルに基づいて発話位置を推定する発話位置推定ステップと、を実行する音響処理方法であってもよい。

本発明によれば、発話位置を安定して検出することができる。
本発明の（１）、（７）、（８）または（９）の態様によれば、既知の空間スペクトルと発話位置との関連に基づいて、取得される音響信号からフレームごとに導出される空間スペクトルに対応する発話位置が推定される。そのため、空間スペクトルから発話位置を直接定める場合よりも安定した発話位置を推定することができる。例えば、発話区間内で発話位置が定まるフレームが間欠的に現れる事象が緩和される。

（２）の態様によれば、空間スペクトルの推定に用いた複数チャネルとは別個のチャネルの音響信号から分析された音響特徴量をさらに用いて発話位置が推定される。発話された音声の音響特徴量に対する発話位置依存性を参照して発話位置が推定されるため、騒音下においても発話位置の推定精度を向上することができる。また、数理モデルを用いることで、複数チャネルの音響信号と別個のチャネルの音響信号と同期がとれていない場合でも推定精度を確保することができる。

（３）の態様によれば、音響特徴量として音響信号の周波数特性と零交差点の頻度を用いることで、発話された音声の特徴をより確実に把握することができる。そのため、発話位置の推定精度をより向上することができる。

（４）の態様によれば、離散フーリエ変換に基づく簡素な演算により周波数ごとの強度が分析される。そのため、経済的に発話位置の推定精度を向上することができる。

（５）の態様によれば、空間スペクトルと話者が所在する信頼度が所定の発話位置候補ごとに話者が所在する信頼度が算出される。そのため、あらゆる音源位置に対して空間スペクトルを算出する場合よりも演算量が低減する。また、空間スペクトルから発話位置を直接導出する場合とは異なり、その絶対値による発話位置の判定可能性に対する影響が低減する。そのため、発話位置の安定した推定が可能となる。

（６）の態様によれば、ランダムフォレストを構成する個々の決定木による演算が並列なため、発話位置の推定を高速に行うことができる。説明変数とする特定の入力値に対する依存性が少ないため、安定的に発話位置を推定することができる。

本実施形態に係る音響処理システムの構成例を示す概略ブロック図である。マイクロホンの第１配置例を示す図である。マイクロホンの第２配置例を示す図である。音声コマンドに応じた音声操作を例示する表である。本実施形態に係る音声操作処理の例を示すフローチャートである。発話位置の第１検出例を示す説明図である。推定発話位置の第１例を示す図である。発話位置の第２検出例を示す説明図である。推定発話位置の第２例を示す図である。本実施形態に係る発話ベース発話位置への第１変換例を示すフローチャートである。発話ベース発話位置への第１変換例の実行例を示す説明図である。本実施形態に係る発話ベース発話位置への第２変換例を示すフローチャートである。小区間別発話位置の判定例を示す説明図である。同時発話の判定例を示す説明図である。同時発話のパターンを例示する図である。発話検出手法ごとの発話検出率と発話位置検出率の例を示す図である。車内環境ごとの発話位置検出率と発話検出率の第１例を示す図である。車内環境ごとの発話位置検出率と発話検出率の第２例を示す図である。車両の動作状態ごとの発話位置検出率と発話検出率の例を示す図である。車両の動作状態ごとの同時発話検出率、同時発話検出精度、単独発話検出精度の例を示す図である。

以下、図面を参照しながら本発明の実施形態について説明する。まず、本実施形態に係る音響処理システムＳ１の構成例について説明する。図１は、本実施形態に係る音響処理システムＳ１の構成例を示す概略ブロック図である。音響処理システムＳ１は、複数チャネルの音響信号を取得し、取得した音響信号に基づき話者の位置を推定する。音響処理システムＳ１は、取得した音声信号で伝達される発話内容として音声コマンド（指令）を特定する。本願では、発話している話者の位置を、「発話位置」と呼ぶことがある。特定された音声コマンドが発話位置に関連する場合には、音響処理システムＳ１は、推定された発話位置に基づいて、特定した音声コマンドに従って指示される処理を実行する。

指示される処理には、音響処理システムＳ１に接続されている機器の動作制御が含まれる。制御対象機器には、音響処理システムＳ１の構成機器が含まれてもよいし、音響処理システムＳ１に属しない他の機器が含まれてもよい。以下の説明では、音響処理システムＳ１が車両に搭載される車載システムの一部として構成され、音声コマンドにより車両に搭載される各種の機器の動作を操作する機能を有する場合を主とする。
本願では、「車載」とは、現実に車両に搭載されていることの他、車両内での使用を主な用途とする、または、その使用に適したという意味を含む。即ち、「車載」とは、実施態様を現実に車両に搭載されている状態での使用に限定することや、車両に搭載されていない状態での使用を排除することは、意図されていない。

音響処理システムＳ１は、１個または複数個の機器を含んで構成される。音響処理システムＳ１は、図１の例では、音響処理システムＳ１は、２個の音響処理装置１０、２０、３個のマイクロホン３０、および、制御対象機器４０を備える。３個のマイクロホン３０は、３０－１～３０－３と子番号をもって区別されている。音響処理装置１０と音響処理装置２０、音響処理装置１０と個々の制御対象機器４０は、それぞれ各種のデータを無線または有線で送受信可能に接続される。音響処理装置１０、２０と制御対象機器４０は、例えば、ＣＡＮ（Controller Area Network）を用いて接続することができる。

音響処理装置１０は、マイクロホン３０－１、３０－２からそれぞれ音響信号を取得する。音響処理装置１０は、取得した２チャネルの音響信号から所定期間のフレームごとに音源の空間スペクトルを分析する。音響処理装置１０は、空間スペクトルと音響特徴量の組と話者位置との関連を示す数理モデルを用い、分析した空間スペクトルと音響特徴量に基づいて話者位置を推定する。音響処理装置１０は、取得された音響信号から音声が発話された発話区間を示す発話区間情報と発話内容を示す発話情報を取得する。発話情報の取得に用いられる音響信号は、２チャネルの音響信号に対して空間フィルタリング（後述）を実行して得られた音響信号であってもよい。

音響処理装置１０は、推定された発話位置ごとに、発話区間において発話位置が推定された位置別発話区間の長さに基づいて当該発話区間における発話位置を定める。取得した発話情報が発話位置に関連する音声コマンドを示すとき、音響処理装置１０は、定めた発話位置に基づいて、発話情報で指示される音声コマンドに従った処理を実行する。音声コマンドにより制御対象機器４０の動作制御が指示されることがある。音響処理装置１０は、制御対象機器４０に指示する動作態様（動作モード）を示す制御信号を出力する。
後述するように、発話位置との関連性として、音声コマンドまたは制御対象機器４０により、発話位置により動作制御の要否が異なりうる。発話位置により、音声コマンドで指示される処理、または、制御対象機器４０に指示する動作制御の態様が異なりうる。

音響処理装置２０は、マイクロホン３０－３から音響信号を取得し、取得した音響信号からフレームごとに音響特徴量を分析する。音響処理装置２０は、分析により得られた音響特徴量を音響処理装置１０に通知する。音響処理装置２０とマイクロホン３０－３は、エンジン音などの騒音成分を含む音響信号の取得を主目的とするものであってもよい。音響処理装置２０は、取得した音響信号を参照信号として音響処理装置１０に出力する。

マイクロホン３０－１～３０－３は、それぞれ自器に到来する音を収音し、収音した音の音圧を、その強度を示す電気信号を音響信号に変換する電気音響変換器（アクチュエータ）を備える。マイクロホン３０－１、３０－２は、それぞれ変換された音響信号を音響処理装置１０と音響処理装置２０に出力する。音響処理装置２０に出力される音響信号は、騒音成分の除去に用いられる。マイクロホン３０－３は、変換された音響信号を音響処理装置２０に出力する。

次に、マイクロホン３０－１～３０－３の配置例について説明する。図２、図３の例では、マイクロホン３０－１、３０－２は、車室内に設けられた運転席と助手席の中間を挟んで対称に、それらの前方に配置されている。図示の例では、前方は、図面の左方に相当する。マイクロホン３０－１、３０－２の間隔は、例えば、５～１０ｃｍである。この位置で取得される音響信号には、運転席に着席した運転者の音声、または、助手席に着席した同乗者の音声の成分が相対的に多く含まれる。図２の例では、マイクロホン３０－３は、後部座席の右方後端に配置されている。図３の例では、後部座席の中央部後端に配置されている。これらの位置で取得される音響信号には、エンジン音、路面と車輪との摩擦音などの騒音成分が相対的に多く混入される。

制御対象機器４０は、音声コマンドに基づく動作制御の対象となる機器である。制御対象機器４０は、音響処理装置１０から入力される制御信号で指示される動作態様に従って動作する。図１の例では、制御対象機器４０として、音響機器４２（例えば、カーオーディオ）、空調機４４（例えば、エアコン）、窓開閉機４６（例えば、パワーウィンドウ）、および、操舵加熱器４８（例えば、ステアリングヒータ）を有する。

次に、本実施形態に係る音響処理装置１０の構成例について説明する。
音響処理装置１０は、Ａ／Ｄ変換部１１２、通信部１１４、および、制御部１２０を備える。音響処理装置１０は、音響処理装置２０および制御対象機器４０と所定の入出力方式を用いて無線または有線で各種のデータを入出力するための入出力部（図示せず）を備える。

Ａ／Ｄ（Analog-to-Digital）変換部１１２は、マイクロホン３０－１、３０－２からそれぞれ入力されるアナログの音響信号を所定のサンプリング周波数でサンプリングし、ディジタルの音響信号に変換する。Ａ／Ｄ変換部１１２は、それぞれ変換された音響信号を制御部１２０に出力する。Ａ／Ｄ変換部１１２は、例えば、Ａ／Ｄ変換器を含んで構成される。

通信部１１４は、通信ネットワークＮＷに無線で接続し、通信ネットワークＮＷを経由して他の機器を相手先として通信する。相手先となる機器として、音声認識サーバが指示されることがある。指示される音声認識サーバは、他のサーバ装置とともにクラウド５０を形成してもよい。通信部１１４は、所定の通信方式を用いて通信可能とする通信インタフェースを含んで構成される。通信方式は、例えば、５Ｇ（5^th General Mobile Communication System、第５世代移動通信システム）、ＬＴＥ－Ａ（Long Term Evolution - Advanced）、ＩＥＥＥ８０２．１１などのいずれが用いられてもよい。

制御部１２０は、各種の演算処理を行って、音響処理装置１０の機能を実現し、その機能を制御する。制御部１２０は、専用の部材により実現されてもよいが、プロセッサと、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などの記憶媒体を備えるコンピュータとして実現されてもよい。制御部１２０は、例えば、ＥＣＵ（Engine Control Unit）として構成されてもよい。プロセッサは、予めＲＯＭに記憶された所定のプログラムを読み出し、読み出したプログラムをＲＡＭに展開して、ＲＡＭの記憶領域を作業領域として用いる。プロセッサは、読み出したプログラムで記述された各種の命令で指示される処理を実行して制御部１２０の機能を実現する。実現される機能には、後述する各部の機能が含まれうる。以下の説明では、プログラムに記述された命令で指示される処理を実行することを、「プログラムを実行する」、「プログラムの実行」などと呼ぶことがある。プロセッサは、例えば、ＣＰＵ（Central Processing Unit）などである。

制御部１２０は、空間スペクトル分析部１２２、発話位置推定部１２４、発話情報取得部１２６、発話位置処理部１２８、コマンド処理部１３０、および、空間フィルタリング部１３４を含んで構成される。
空間スペクトル分析部１２２は、Ａ／Ｄ変換部１１２から個々のチャンネルについて入力される音響信号から所定の時間長のフレームごとに空間スペクトルを算出する。空間スペクトルは、音源位置による強度の分布を示す空間特徴量である。空間スペクトル分析部１２２は、算出した空間スペクトルを発話位置推定部１２４に出力する。本実施形態では、音源位置の候補（以下、「候補位置」と呼ぶ）ごとに空間スペクトルをなす要素値を算出する。空間スペクトルは、候補位置ごとの要素値を含むベクトルで表される。候補位置として、車両に備わる個々の座席の位置が用いられてもよい。一例として、車両内の座席数が５個である場合には、空間スペクトルは５次元のベクトルで表現される。

空間スペクトル分析部１２２は、例えば、空間スペクトルとしてＭＵＳＩＣ（Multiple Signal Classification、多重信号分類）スペクトルを算出する。ＭＵＳＩＣスペクトルは、次の手順を用いて算出することができる。空間スペクトル分析部１２２は、フレームごとに離散フーリエ変換を行い、周波数領域に変換された変換係数を算出する。空間スペクトル分析部１２２は、チャネルごとの変換係数を要素として含む入力ベクトルを周波数ごとに生成する。空間スペクトル分析部１２２は、生成した入力ベクトルを転置した転置ベクトルとその入力ベクトルとの積となる行列の期待値をスペクトル相関行列Ｒ_ｓｐとして算出する。

式（１）において、＊は、複素共役転置演算子を示す。Ｅ（…）は、…の期待値を示す。
空間スペクトル分析部１２２は、算出したスペクトル相関行列Ｒ_ｓｐの固有値問題を解き、固有値λ_ｉと固有ベクトルｅ_ｉを算出する。算出される固有値λ_ｉと固有ベクトルｅ_ｉの組の数は、チャネル数に相当する。空間スペクトル分析部１２２は、例えば、（２）を用いて検出可能とする音源数（以下の説明では、「検出可能音源数」と呼ぶ）、予め設定した伝達関数ベクトルｄ（θ）、および、固有ベクトルｅ_ｉを用いて周波数ごとに空間スペクトル（以下、「周波数別空間スペクトル」と呼ぶ）の要素値Ｐ（θ）を算出する。本実施形態では、検出可能とする音源数を１と設定しておいてもよい。伝達関数ベクトルｄ（θ）は、候補位置θから個々のマイクロホン３０－１、３０－２の位置（以下の説明では、「受音位置」と呼ぶ）までの伝達関数を要素値として有するベクトルである。

式（２）において、｜…｜は、…絶対値を示す。Ｍは、検出可能音源数を示す、予め設定されたＮ未満の正の整数値である。Ｋは、音源定位部１２１が保持する固有ベクトルｅ_ｉの数である。Ｍは、Ｎ以下の正の整数である。Ｎは、チャネル数（図１の例では、Ｎ＝２）に相当する正の整数である。
空間スペクトル分析部１２２は、各チャネルの音響信号に基づいて周波数帯域ごとにＳ／Ｎ比（Signal-to-Noise；信号雑音比）を算出し、算出したＳ／Ｎ比が予め設定した閾値よりも高い周波数帯域ｋを選択する。
空間スペクトル分析部１２２は、選択した周波数帯域ｋにおける周波数ごとに算出した固有値λ_ｉのうち最大となる最大固有値λ_ｍａｘ（ｋ）の平方根で空間スペクトルの要素値Ｐ_ｋ（θ）を重み係数として、周波数帯域ｋ間で重み付け加算し、式（３）に示す拡張空間スペクトルの要素値Ｐ_ｅｘｔ（θ）を算出する。

式（３）において、Ωは、周波数帯域のセットを示す。｜Ω｜は、そのセットにおける周波数帯域の個数を示す。従って、拡張空間スペクトルＰ_ｅｘｔ（θ）は、相対的に雑音成分が少なく、周波数帯域空間スペクトルＰ_ｋ（θ）の値が大きい周波数帯域の特性が反映される。空間スペクトル分析部１２２は、この拡張空間スペクトルの要素値Ｐ_ｅｘｔ（θ）を含むベクトルを上述の空間スペクトルとして採用する。

発話位置推定部１２４には、空間スペクトル分析部１２２から空間スペクトルが、音響処理装置２０から音響特徴量がフレームごとに入力される。後述するように、音響特徴量は、音響信号の音響的特徴をベクトルで表現される。音響特徴量には、パワースペクトル密度（ＰＳＤ：Power Spectrum Density）と零交差数（ＺＣ：number of Zero Crossings）が含まれる。一例として、音響処理装置２０に一度に分析されるフレームごとの小区間に含まれるサンプル数が５１２である場合には、パワースペクトル密度は２５６次元のベクトルで表される。零交差数はスカラー値で表される。その場合、音響特徴量は２５７次元のベクトルで表される。発話位置推定部１２４は、空間スペクトルと音響特徴量を結合し（concatenate）所定の数理モデルへの入力ベクトルを構成する。

発話位置推定部１２４は、入力ベクトルと出力ベクトルとの関連を示す数理モデルを用いて、フレームごとに構成した入力ベクトルに対する出力ベクトルを算出する。算出される出力ベクトルは、推定された発話位置の情報（以下の説明では、「推定発話位置情報」と呼ぶことがある）を表す。入力ベクトルと出力ベクトルは、それぞれ説明変数と目的変数に相当する。出力ベクトルには、所定の話者位置ごとの信頼度を要素値として含まれる。信頼度は、その話者位置に発話者が所在する可能性を示し、実数で表現される。信頼度は、その値が大きいほど発話中の話者が所在する可能性を示す。個々の信頼度の値域は、所定の範囲内（例えば、０以上１以下）に正規化されている。一例として、車両内の座席数が５個である場合には、出力ベクトルは、５次元のベクトルで表現される。出力ベクトルは、そのフレームにおいて発話中の発話者が所在している可能性の空間分布を示す情報とみることもできる。例えば、算出された信頼度が最も高く、所定の信頼度の閾値よりも高い発話位置が、そのフレームにおいて発話している発話者が所在している発話位置（フレームベース発話位置）として推定される。信頼度の閾値は、偶然に選択された信頼度の期待値よりも有意に大きい値であればよい。発話位置推定部１２４は、推定された推定発話位置情報を発話情報処理部１２８に出力する。

発話位置推定部１２４は、数理モデルとして、例えば、ランダムフォレスト（random forest）を用いることができる。ランダムフォレストとは、弱学習器として複数の決定木（decision tree）を含んで構成されるアンサンブル機械学習モデルの一種である。ランダムフォレストからの出力は、複数の決定木からの出力の平均値となる。決定木は、複数の節点（ノード）を有し、１個の節点を根（ルート）とし、節点ごとに複数の分岐（枝）を有し、個々の分岐に対して別個の節点が終端に至るまで連なる木構造を有する機械学習モデルである。個々の節点には属性が設定され、個々の分岐には属性に対する値が設定される。個々の決定木について、例えば、入力ベクトルに対する個々の発話位置の信頼度が出力値として得られるように構成される。また、個々の決定木からの入力ベクトルに対して、いずれかの発話位置を示すインデックスが出力値として得られるように構成されてもよい。その場合には、複数の決定木からの発話位置を示すインデックスがランダムフォレストからの出力である推定発話位置情報として用いられてもよい。

発話情報取得部１２６には、空間フィルタリング部１３４から音響信号が入力される。発話情報取得部１２６に入力される音響信号は、Ａ／Ｄ変換部１１２を経由して取得される２チャネルの音響信号に基づいて導出される。発話情報取得部１２６は、入力される音響信号を通信部１１４と通信ネットワークＮＷを経由してクラウド５０に送信する。発話情報取得部１２６は、クラウド５０をなす音声認識サーバから、送信された音響信号から検出された発話ごとに、その発話区間を示す発話区間情報と発話内容を示す発話内容情報を関連付けて受信する。発話区間情報には、１回の発話が開始された開始時刻と終了した終了時刻が示される。発話内容情報として、その発話から認識された情報を自然言語で表現されたテキストが記述される。発話情報取得部１２６は、受信した発話区間情報を発話位置処理部１２８に出力し、発話内容情報をコマンド処理部１３０に出力する。

発話位置処理部１２８には、発話位置推定部１２４から推定発話位置情報が、発話情報取得部１２６から発話区間情報がフレームごとに入力される。
発話位置処理部１２８は、予め定めた発話位置ごとに、発話区間情報に示される発話区間において、その発話位置が推定された区間を位置別発話区間として特定する。例えば、発話位置処理部１２８は、入力される発話区間情報で示される信頼度が最も高い発話位置を特定し、そのフレームの区間を特定した発話位置の位置別発話区間として特定することができる。
発話位置処理部１２８は、フレームごとの発話位置を定める際、発話区間の一部であって、そのフレームを含む複数フレームにわたる小区間を特定し、その小区間の全体において信頼度が最も高い発話位置をそのフレームにおける発話位置として特定してもよい。

なお、発話区間情報がフレームごとの発話位置のインデックスで表されている場合には、発話位置処理部１２８は、そのフレームを、そのインデックスで示される発話位置の位置別発話区間として特定することができる。ここで、フレームごとに対応する小区間を特定する場合には、発話位置処理部１２８は、小区間におけるフレームごとの発話位置のうち最も頻度が高い発話位置を特定し（多数決）、その小区間に対応するフレームを特定した発話位置の位置別発話区間として特定することができる。

発話位置処理部１２８は、発話区間において特定した位置別発話区間に基づいて、その発話区間における発話位置（発話ベース発話位置）を定める。発話位置処理部１２８は、発話区間において発話区間における比率が所定の比率以上であって、位置別発話区間が最も長い発話位置をその発話区間における発話位置として定めることができる。
発話位置処理部１２８は、定めた発話位置を示す発話位置情報をコマンド処理部１３０に出力する。

発話区間における位置別発話区間の比率が所定の比率以上となる発話位置が複数個存在する場合がある。その場合には、発話位置処理部１２８は、１個の発話位置を特定せずに、同時発話（simultaneous utterance）と判定してもよい。所定の比率として、発話位置が偶然に選択される確率以上となる値、より好ましくは、その比率よりも有意に大きくなる値を発話位置処理部１２８に予め設定しておく。偶然に選択される確率として、車両に備わる座席数の逆数が用いられればよい。

発話位置処理部１２８は、定めた発話位置および関連情報をコマンド処理部１３０において要求される所定の形式に変換する。例えば、発話位置として、運転席（前方右、ＦＲＦ：Front Right）とそれ以外の識別が要求される音声コマンドが運用される場合には、発話位置処理部１２８は、発話位置情報に運転席であるか否かを示す運転席識別情報を含める。発話位置として、運転席、助手席（前方左、ＦＬ：Front Left）、および、それ以外の識別が要求される音声コマンドが運用される場合には、発話位置処理部１２８は、発話位置情報に運転席、助手席、および、それ以外、のいずれかを示す前方座席識別情報を含めてもよい。また、発話位置処理部１２８は、発話位置情報に同時発話（Simultaneous）とそれ以外（単独発話、Single）のいずれかを示す同時発話識別情報を含めてもよい。

コマンド処理部１３０には、発話情報取得部１２６から発話内容情報が、発話位置処理部１２８から発話位置情報が発話ごとに入力される。
コマンド処理部１３０は、予め自部に設定されたコマンドリスト（図示せず）を参照し、発話内容情報に示される発話内容に音声コマンドが含まれているか否かを判定する。また、コマンド処理部１３０は、コマンドリストを参照し、発話内容に含まれる音声コマンドが、発話位置と関連がある音声コマンド（以下の説明では、「発話位置関連音声コマンド」と呼ぶことがある）であるか否かを判定してもよい。

コマンドリストは、例えば、音声コマンドごとに、キーワード、動作態様情報、および、対象機器情報、を示すデータに相当する。キーワードとして、個々の音声コマンドで指示される対象機器と動作態様のいずれか一方または両方に関する１個または複数の語句が含まれうる。動作態様情報として、動作態様、または、その要素としての動作特性、動作対象物、制御目標となる状態、などの情報が含まれうる。発話位置関連音声コマンドに対しては、その音声コマンドで識別される発話位置ごとに動作態様が設定されてもよい。対象機器情報として、操作対象機器を特定もしくは特定に役立つ情報として種類、名称、型番、ＩＰ（Internet Protocol）アドレス、ＭＡＣ（Media Access Control）アドレスなどのいずれか１個または複数個の情報が設定されうる。発話位置関連音声コマンドに対しては、その音声コマンドで識別される発話位置ごとに区別して対象機器が設定されうる。

コマンド処理部１３０は、コマンドリストを参照し、入力される発話内容情報に含まれる語句が設定されたキーワードと合致する音声コマンドを検索する。コマンド処理部１３０は、発話内容情報を表現するテキストに対して公知の形態素解析を行い、テキストで表現される語句と品詞を定めてもよい。コマンド処理部１３０は、定めた語句のうち自立語ごとにコマンドリストに記述されたコマンドのいずれかと照合してもよい。品詞が名詞、動詞、形容詞、または、副詞である語句が自立語として特定される。

コマンド処理部１３０は、キーワードと合致する音声コマンドを検出するとき、その音声コマンドに係る対象機器と動作態様情報を読み出す。検出した音声コマンドが発話位置関連音声コマンドであり、発話位置ごとに対象機器が設定されている場合には、コマンド処理部１３０は、発話位置情報で示される発話位置に対応する対象機器を特定する。検出した音声コマンドが発話位置関連音声コマンドであり、発話位置ごとに動作態様が設定されている場合には、コマンド処理部１３０は、発話位置情報で示される発話位置に対応する動作態様を特定する。

コマンド処理部１３０は、特定した対象機器に特定した動作態様での動作を指示するための制御情報を生成し、その対象機器として制御対象機器４０のいずれかに生成した制御信号を送信する。制御対象機器４０は、音響処理装置１０からの制御信号を待ち受け、入力される制御信号で指示される動作態様に従って動作する。

発話位置情報に同時発話を示す同時発話識別情報が含まれる場合には、コマンド処理部１３０は、発話内容情報を棄却し、発話者個別の再発話の案内を指示するための案内指示を音響機器４２に出力してもよい。音響機器４２は、コマンド処理部１３０から案内指示が入力されるとき、個別の再発話を案内するための案内情報を伝達する案内音声を再生する。案内音声は、案内情報として次のメッセージが伝達されうる：例えば、「もう一度お一人ずつ順におっしゃって下さい」、「お二人以上で重ならないように、再度お話し下さい」、など。

空間フィルタリング部１３４には、Ａ／Ｄ変換部１１２から２チャネルの音響信号が入力され、発話位置推定部１２４から発話位置情報が入力される。空間フィルタリング部１３４は、チャネルごとの音響信号に発話位置情報に基づいて空間フィルタリング処理を行いフィルタリング後の１チャネルの音響信号を生成する。空間フィルタリング部１３４は、生成した音響信号を発話情報取得用の音響信号として発話情報取得部１２６に出力する。

空間フィルタリング部１３４は、空間フィルタリングにおいて、発話位置情報で示される発話位置の方向に他の方向よりも利得が高くなる指向性を有するフィルタ係数をチャネルごとに定める。空間フィルタリング部１３４には、例えば、予め発話位置ごとにフィルタ係数を設定しておき、発話位置情報で示される発話位置に対応するフィルタ係数を特定する。空間フィルタリング部１３４は、特定したフィルタ係数を用いて対応するチャネルの音響信号に対してフィルタリング処理を行い、処理後の音響信号をチャネル間で加算して得られた加算信号がフィルタリング後の音響信号として得られる。

空間フィルタリング部１３４は、例えば、空間フィルタリング処理として、遅延和法、フィルタアンドサムビームフォーマなど、特定した音源位置の方向への利得が他の方向よりも高くなるように指向性を制御する公知の方式を用いることができる。空間フィルタリング部１３４は、ＧＨＤＳＳ（Geometric High-order Decorrelation-based Source Separation）法などの特定した音源位置の方向からの音を他の方向からの音から分離または抽出できる音源分離処理方式を用い、２チャネルの音響信号から特定される発話位置から到来する１チャネルの発話情報取得用の音響信号を取得してもよい。

次に、本実施形態に係る音響処理装置２０の構成例について説明する。
音響処理装置２０は、Ａ／Ｄ変換部２１２、および、制御部２２０を備える。音響処理装置２０は、音響処理装置１０および制御対象機器４０と所定の入出力方式を用いて無線または有線で各種のデータを入出力するための入出力部（図示せず）を備える。

Ａ／Ｄ変換部２１２は、マイクロホン３０－１～３０－３からそれぞれ入力されるアナログの音響信号を所定のサンプリング周波数でサンプリングし、ディジタルの音響信号に変換する。Ａ／Ｄ変換部２１２は、変換された各チャネルの音響信号を制御部２２０に出力する。Ａ／Ｄ変換部２１２は、例えば、Ａ／Ｄ変換器を含んで構成される。以下の説明では、マイクロホン３０－１～３０－３のそれぞれに対応するチャネルをチャネル１～３と呼ぶ。

制御部２２０は、各種の演算処理を行って、音響処理装置１０の機能を実現し、その機能を制御する。制御部２２０は、専用の部材により実現されてもよいが、プロセッサと、記憶媒体を備えるコンピュータとして実現されてもよい。制御部２２０は、例えば、ＥＣＵ（Engine Control Unit）として構成されてもよい。プロセッサは、予めＲＯＭに記憶された所定のプログラムを読み出し、読み出したプログラムをＲＡＭに展開して、ＲＡＭの記憶領域を作業領域として用いる。プロセッサは、読み出したプログラムで記述された各種の命令で指示される処理を実行して制御部２２０の機能を実現する。実現される機能には、後述する各部の機能が含まれうる。

制御部２２０は、音響特徴分析部２２２、低域通過フィルタ２２４、および、騒音除去部２２６を含んで構成される。
音響特徴分析部２２２は、Ａ／Ｄ変換部２１２から入力されるチャネル３の音響信号について所定の長さのフレームごとに音響特徴量を分析する。フレームごとに算出した音響特徴量としてパワースペクトルと零交差数を関連付けて音響処理装置１０の発話位置推定部１２４に出力する。
音響特徴分析部２２２は、周波数分析部２２２ａと零交差点分析部２２２ｂを含んで構成される。

周波数分析部２２２ａは、音響特徴量として周波数特性を示す特徴量を分析する。周波数分析部２２２ａは、音響特徴量としてパワースペクトル密度を算出する。パワースペクトル密度は、単位周波数当たりのパワーである。周波数分析部２２２ａは、フレームごとに入力された音響信号に対して離散フーリエ変換を行って周波数領域の変換係数を算出し、得られた変換係数の二乗値の絶対値をパワースペクトルとして算出することができる。パワースペクトル密度は、発話の有無を判定するための手がかりとなりうる。
零交差点分析部２２２ｂは、フレームごとに入力された音響信号の零交差点を検出する。零交差点は、音響信号を構成するサンプルごとの信号値が正値から負値になる時点、または、負値から正値になる時点である。零交差点分析部２２２ｂは、フレームごとに検出した零交差点の数を零交差数として定める。零交差数も、音響特徴量の一種となる。

低域通過フィルタ２２４は、Ａ／Ｄ変換部２１２から入力されるチャネル１～３の音響信号から所定の遮断周波数（例えば、５０～２００Ｈｚ）以下となる低域成分を主に通過させる。低域成分は、騒音成分を主とし、発話された音声成分がほとんど含まれない。低域通過フィルタ２２４は、各チャネルについて通過した低域成分を示す音響信号を騒音除去部２２６に出力する。

騒音除去部２２６には、低域通過フィルタ２２４から低域成分を示す音響信号が入力される。騒音除去部２２６は、チャネル３の音響信号を騒音信号として用いて騒音除去処理を行い、チャネル１、２の音響信号に含まれる騒音成分を除去する。騒音除去部２２６は、騒音除去処理として、例えば、アクティブノイズコントロール（ＡＮＣ：Active Noise Control）を実現する。

ＡＮＣを実現するため、騒音除去部２２６は、打消音を提示するためのスピーカ（図示せず）に接続され、適応フィルタを備える。適応フィルタは、スピーカからマイクロホン３０－１、３０－２のそれぞれまでの打消音の伝達経路を示すフィルタ係数を推定するために用いられる。適応フィルタは、チャネル１、２について抽出した低域成分を示す音響信号の強度が０に近似（最小化）するようにフィルタ係数を定める。騒音除去部２２６は、適応フィルタが定めたフィルタ係数を用いて騒音信号に対して畳み込み演算を行って打消音信号を生成する。フィルタ係数を定める際、例えば、ＬＭＳ（Least Mean Square、最小平均二乗）法が利用可能である。騒音除去部２２６は、生成された打消音信号をスピーカに供給する。スピーカは、騒音除去部２２６から供給される打消音信号に基づく打消音が放音される。よって、マイクロホン３０－１、３０－２においてスピーカから到来する打消音と騒音源から到来する騒音成分とが相殺するので、騒音成分が除去または低減した音響信号が取得される。

上記のように、音響処理装置１０、２０の動作は、それぞれ制御部１２０、２２０により個々に制御される。音響処理装置１０、２０間で、動作の同期が保証されない。即ち、空間スペクトル分析部１２２において空間スペクトルの分析に用いられる音響信号と音響特徴分析部２２２において音響特徴量の分析に用いられる音響信号との間で時間差とその揺らぎがサンプル単位で生ずることがある。この時間差は、発話位置（音源位置）によるチャネル間の位相差の差異との識別が困難である。そのため、音響処理装置１０で取得される２チャネルの音響信号と、音響処理装置２０で取得される１チャネルの音響信号を、そのまま用いて空間スペクトルを算出することは現実的ではない。また、２チャネルの音響信号からフレームごとに算出される空間スペクトルと、異なる１チャネルの音響信号からフレームごとに算出される音響特徴量とを連立させても、発話位置の推定精度向上の手がかりになるとは限らない。

本実施形態では、上記の予め既知の空間スペクトルと発話位置との関係を説明変数と目的変数との関係として示す数理モデルを用いることで推定精度を向上することができる。説明変数として音響特徴量をさらに参照することで、空間スペクトルとの同期が保証されない場合でも発話位置による音響特徴量の変動を手掛かりとして発話位置が推定されるため、推定精度を向上することができる。

発話位置推定部１２４には、数理モデルのパラメータセットを予め設定しておく。音響処理装置１０は、学習によりパラメータセットを算出するためのモデル学習部（図示せず）を備えてもよい。モデル学習部には、予め訓練データを設定しておく。訓練データは、多数の訓練セットを含んで構成される。１組の訓練セットは、説明変数となる既知の入力ベクトルと目的変数となる出力ベクトルを含み、これらを対応付けてなる。例えば、目的変数として、ある発話位置を表現する出力ベクトルとして、その発話位置に対する次元の要素の値が１とし、それ以外の発話位置に対する次元の要素の値を０とするベクトルを設定しておく。

モデル学習部は、既知の入力ベクトルに対して数理モデルを用いた演算を行って得られる推定値が、その入力ベクトルに対応する出力ベクトルとの差分が全体として小さくなるようにパラメータセットを再帰的に更新する。モデル学習部は、差分の大きさを示す損失関数として、例えば、二乗和誤差、交差エントロピー、などのいずれか１つ、または、いずれかの組の線形結合が用いることができる。モデル学習部は、パラメータセットの更新において、例えば、勾配法を用いることができる。

数理モデルとしてランダムフォレストが用いられる場合には、モデル学習部は、学習において次のステップを実行してもよい。（１）訓練データの全体からブートストラップ法によるランダムサンプリングを行って、Ｂ（Ｂは、２以上の整数）個のサブサンプルに分類する。個々のサブサンプルには、複数の訓練セットが含まれる。（２）個々のサブサンプルを訓練データとして、Ｂ個の決定木を生成する。（３）個々の決定木について、所定の節点数に達するまで、次のステップを実行して節点を生成する。（３－１）訓練データの説明変数の一部をランダムに選択する。（３－２）選択した説明変数のうち訓練データを最もよく分類する説明変数と、その分類に用いられる閾値を新たな節点の分類に用いられる閾値として定める。ランダムサンプリングされた訓練データとランダムに選択された説明変数を用いることで、相関が低い決定木群が生成される。これにより、高速な学習が実現される。

次に、コマンド処理部１３０により実行される音声操作の例について説明する。図４は、音声コマンドに応じた音声操作を例示する表である。図示の例では、「音楽を再生して」との発話により、発話位置に関わらず音楽再生が指示される。この場合には、発話位置による区別を要しない。音声コマンドに係るキーワードとして、例えば、発話内容から「音楽」、「再生」との語句が含まれていることが検出さればよい。音声操作の種類ごとに発話例、発話位置ごとの機能、および、必要な機能を示す。発話位置として、運転席（ＦＲ）、助手席（ＦＬ）、後部右（ＲＲ）、後部中間（ＲＭ）、および、後部左（ＲＲ）の５通りが掲げられている。

音声操作の種類には、発話位置に無関係な操作、発話位置に関連する操作、安全性に関連する操作、同乗者の操作により運転者の注意をそらすおそれがある操作、および、同時発話がある。
発話位置に無関係な操作とは、認識された音声コマンドに従って発話位置に関わらず所定の機能を実現することを指す。図示の例では、「音楽を再生して」との発話に応じて、コマンド処理部１３０により発話位置に関わらず音楽再生が音響機器４２に指示される。この場合には、発話位置による区別を要しない。コマンド処理部１３０は、キーワードとして発話内容から、例えば、「音楽」および「再生」との語句が含まれていることが検出して、音楽再生に係る音声コマンドを認識することができる。

発話位置に関連する操作とは、認識された発話位置関連音声コマンドに従って発話位置に依存して所定の機能を実現することを指す。図示の例では、「エアコンの温度下げて」との発話に応じて、コマンド処理部１３０により発話位置における温度低下が空調機４４に指示される。但し、発話位置が後部座席である場合には、無視される。この場合には、発話位置情報を参照し、少なくとも、運転席、助手席、および、それ以外の位置を区別することを要する。コマンド処理部１３０は、キーワードとして発話内容から、例えば、「エアコン」、「温度」および「下げて」との語句が含まれていることを検出して、温度低下に係る音声コマンドを認識することができる。

安全設計に関連する操作とは、運転者の発話による音声コマンドに従って実現され、運転者以外の同乗者による音声コマンドによる実現が制限されることを指す。図示の例では、運転席における「（自席以外）の窓開けて」との発話に応じて、コマンド処理部１３０により運転席以外の指示された窓の開放が窓開閉機４６に指示される。但し、発話位置が運転席以外の座席である場合には、無視される。この場合には、発話位置情報を参照し、少なくとも、運転席と、それ以外の位置を区別することを要する。つまり、それ以外の位置では、この音声コマンドは無効と判定される。コマンド処理部１３０は、キーワードとして発話内容から、例えば、発話内容から運転席以外の各席の位置に関する語句（例えば、「助手席」、「右後」、「左後」、など）、「窓」および「開けて」との語句が含まれていることを検出して、その位置の窓の開放に係る音声コマンドを認識することができる。なお、安全設計に関連する操作に係る音声コマンドも、発話位置関連音声コマンドとみなすことができる。

同乗者の操作により運転者の注意をそらす（ディストラクション）おそれがある操作とは、運転者の発話による音声コマンドに従って実現され、運転者以外の同乗者による音声コマンドによる実現が制限されることを指す。図示の例では、運転席における「ステアリングヒータ、オン」との発話に応じてコマンド処理部１３０により、操舵加熱器（ステアリングヒータ）４８の加熱が指示される。但し、発話位置が運転席以外の座席である場合には、無視される。この場合には、発話位置情報を参照し、少なくとも、運転席と、それ以外の位置を区別することを要する。つまり、それ以外の位置では、この音声コマンドは無効と判定される。コマンド処理部１３０は、キーワードとして発話内容から、例えば、「ステアリングヒータ」、「オン」との語句が含まれていることが検出して、操舵加熱器４８の加熱に係る音声コマンドを認識することができる。なお、同乗者の操作により運転者の注意をそらすおそれがある操作に係る音声コマンドも、発話位置関連音声コマンドとみなすこともできる。

同時発話は、１つの発話区間において複数の座席において発話される状態を指す。この場合には、コマンド処理部１３０は、たとえ、音声コマンドが発話内容から検出できても、検出した音声コマンドを棄却する。コマンド処理部１３０は、音響機器４２に案内指示を出力し、話者個別の再発話を案内するための案内音声を再生する。この場合には、発話位置情報を参照し、同時発話を検出できればよい。

次に、本実施形態に係る音声操作処理の例について説明する。
図５は、本実施形態に係る音声操作処理の例を示すフローチャートである。
（ステップＳ１０２）空間スペクトル分析部１２２は、マイクロホン３０－１、３０－２から入力された２チャネルの音響信号に基づいてフレームごとに空間スペクトルを算出する。
（ステップＳ１０４）周波数分析部２２２ａは、マイクロホン３０－３から入力された１チャネルの音響信号に基づいてフレームごとにパワースペクトル密度を分析する。
（ステップＳ１０６）零交差点分析部２２２ｂは、マイクロホン３０－３から入力された１チャネルの音響信号に基づいてフレームごとに零交差点を分析し、零交差数を計数する。
（ステップＳ１０８）発話位置推定部１２４は、フレームごとにパワースペクトル密度、パワースペクトル密度、および、零交差点を要素として含む入力ベクトルを構成する。発話位置推定部１２４は、数理モデルを用いて、構成した入力ベクトルから発話位置ごとの信頼度を要素として含む出力ベクトルを算出し、発話位置情報（フレームベース発話位置）を推定する。

（ステップＳ１１０）空間フィルタリング部１３４は、マイクロホン３０－１、３０－２から入力された２チャネルの音響信号に対して空間フィルタリングを実行し、推定された発話位置に指向性を向けて１チャネルの音響信号を取得する。
（ステップＳ１１４）発話情報取得部１２６は、取得された１チャネルの音響信号をクラウド５０に送信し、クラウド５０から発話ごとに発話区間情報と発話内容情報を取得する。
（ステップＳ１１６）発話位置処理部１２８は、取得された発話区間情報に示される発話区間におけるフレームごとに推定された発話位置情報に基づいて位置別発話区間を定める。発話情報取得部１２６は、位置別発話区間が最多となる発話位置を、その発話区間に対する発話位置（発話ベース発話位置）として定める。

（ステップＳ１１８）コマンド処理部１３０は、コマンドリストを参照し、取得された発話内容情報に示される発話内容から音声コマンドを検出できるか否かを判定する。検出できると判定するとき（ステップＳ１１８ＹＥＳ）、ステップＳ１２０の処理に進む。検出できないと判定するとき（ステップＳ１１８ＮＯ）、図５の処理を終了する。
（ステップＳ１２０）コマンド処理部１３０は、発話位置情報が同時発話を示すか否かを判定する。同時発話を示すと判定するとき（ステップＳ１２０ＹＥＳ）、ステップＳ１２２の処理に進む。単独発話を示すと判定するとき（ステップＳ１２０ＮＯ）、ステップＳ１２４の処理に進む。
（ステップＳ１２２）コマンド処理部１３０は、発話者個別の再発話の案内を指示するための案内情報として案内音声を音響機器４２に提示させる。その後、図５の処理を終了する。

（ステップＳ１２４）コマンド処理部１３０は、コマンドリストを参照し、検出した音声コマンドが発話位置関連音声コマンドであるか否かを判定する。発話位置関連音声コマンドと判定するとき（ステップＳ１２４ＹＥＳ）、ステップＳ１２８の処理に進む。発話位置関連音声コマンドではないと判定するとき（ステップＳ１２４ＮＯ）、ステップＳ１２６の処理に進む。
（ステップＳ１２６）コマンド処理部１３０は、音声コマンドで指示される制御対象機器４０に対して、検出した音声コマンドに従って発話位置に無関係な動作制御を実行する。その後、図５の処理を終了する。

（ステップＳ１２８）コマンド処理部１３０は、コマンドリストを参照し、発話位置情報に示す発話位置において検出した音声コマンドが有効であるか否かを判定する。有効と判定するとき（ステップＳ１２８ＹＥＳ）、ステップＳ１３０の処理に進む。無効と判定するとき（ステップＳ１２８ＮＯ）、検出した音声コマンドを棄却し、図５の処理を終了する。
（ステップＳ１３０）コマンド処理部１３０は、音声コマンドで指示される制御対象機器４０に対して、検出した音声コマンドに従って発話位置に関連する動作制御を実行する。その後、図５の処理を終了する。

次に、フレームベース発話位置を定める手法の第１例について、より詳細に説明する。
図６は、発話位置の第１検出例を示す説明図である。図示の例では、シフト長がフレーム長よりも短いため、シフト長に相当する時間間隔で発話位置情報が取得される。この例では、発話位置の候補ごとの空間スペクトルの値が所定の値以上であって、最大となる発話位置が検出される。図７に例示されるように、推定される発話位置（推定発話位置）は、複数のフレームにわたり継続せず、フレーム単位で間欠的に取得されることがある。発話者が着席していれば、個々の発話の発話位置の真値（ground truth）は発話ごとに一定となるはずである。発話ごとに発話位置を定めるには、発話位置の安定性を要する。

図８は、発話位置の第２検出例を示す説明図である。図示の例では、発話位置処理部１２８は、フレームごとに、そのフレームを含む複数フレームにわたる小区間を設定し、設定した小区間における発話位置情報において信頼度が所定の信頼度の閾値以上であって、最も信頼度が高い発話位置を、そのフレームに対する発話位置として定める。フレーム長、シフト長、小区間の時間長は、典型的には、例えば、２０～５０ｍｓ、１０～２０ｍｓ、３００～１０００ｍｓとなる。図８の例では、個々のフレームに対する小区間Ｔは、処理対象となる対象フレームを中心とし、対象フレームよりも先行する１個以上の先行フレームと、対象フレームに後続する１個以上の後続フレームを含む期間となる。フレームごとの発話位置を対応する小区間Ｔごとに判定することで、安定した発話位置の推定が実現する。図９に例示されるように、推定発話位置が複数のフレームにわたり継続し、間欠的になる現象が解消する点で真値に近似する。しかしながら、発話がなされ発話位置が推定されるべきであるにも関わらず、発話位置を検出できない状態が複数フレームにわたり継続することもある。

本実施形態に係る発話位置処理部１２８は、次に説明する手法を用いて発話ベース発話位置を定めることができる。図１０は、本実施形態に係る発話ベース発話位置への第１変換例を示すフローチャートである。
（ステップＳ２０２）発話位置処理部１２８は、処理対象の発話としてｍ番目の発話Ｒ_ｍを選択する。
（ステップＳ２０４）発話位置処理部１２８は、予め定めた発話位置Ｋごとの累積検出時間Ｐ（Ｋ）を０に初期化する。

（ステップＳ２０６）発話位置処理部１２８は、発話位置Ｋごとに、発話Ｒ_ｍの発話区間において発話位置Ｋが推定された区間を位置別発話区間Ｖ_ｉ（ｉは、１以上Ｎ以下の整数、Ｎは検出された位置別発話区間の数を示す整数）として特定する。
（ステップＳ２０８）発話位置処理部１２８は、発話位置Ｋごとに、位置別発話区間Ｖ_ｉ別の区間長Ｌ_ｉを加算し、累積検出期間Ｐ（Ｋ）を算出する。
（ステップＳ２１０）発話位置処理部１２８は、累積検出期間Ｐ（Ｋ）が最大となる発話位置Ｋを発話Ｒ_ｍに対する発話ベース発話位置として定める。その後、図１０の処理を終了する。

図１１は、発話ベース発話位置への第１変換例の実行例を示す説明図である。図示の例では、Ｔ_ｓ（ｍ）、Ｔ_ｅ（ｍ）は、それぞれ発話Ｒ_ｍの発話区間の開始時刻、終了時刻を示す。発話区間に含まれる位置別発話区間として、Ｖ_１～Ｖ_３が検出される。Ｌ_１～Ｌ_３は、それぞれ発話区間内で検出される位置別発話区間Ｖ_１～Ｖ_３の区間長を示す。そして、位置別発話区間Ｖ_１、Ｖ_２、Ｖ_３のそれぞれに対する発話位置が、０、０、１と推定される。このとき、発話位置０に対する累積検出期間Ｐ（０）は、Ｌ_１＋Ｌ_２、発話位置１に対する累積検出期間Ｐ（１）はＬ_３となる。発話位置２～４に対する累積検出期間Ｐ（２）～Ｐ（４）は、いずれも０となる。発話位置０、１、２、３、４は、それぞれ運転席（ＦＲ）、助手席（ＦＬ）、後部右（ＲＲ）、後部中間（ＲＭ）、後部左（ＲＲ）を示す。このとき、発話位置処理部１２８は、累積検出期間が最大となる発話位置０を発話Ｒ_ｍに対する発話ベース発話位置ＳＳＬ（Ｒ_ｍ）として定めることができる。

図１２は、本実施形態に係る発話ベース発話位置への第２変換例を示すフローチャートである。図１２の例では、同時発話の判定も含まれる。
（ステップＳ２２２）発話位置処理部１２８は、処理対象の発話としてｍ番目の発話Ｕ_ｍを選択する。
（ステップＳ２２４）発話位置処理部１２８は、選択した発話におけるｆ番目のフレームを含む小区間Ｓ_ｆを選択する。
（ステップＳ２２６）発話位置処理部１２８は、発話位置Ｋごとの累積検出期間Ｑ_ｆ（Ｋ）を０に初期化する。

（ステップＳ２２８）発話位置処理部１２８は、小区間Ｓ_ｆにおいて発話位置Ｋが推定された区間を位置別発話区間Ｖ_ｉとして特定する。
（ステップＳ２３０）発話位置処理部１２８は、発話位置Ｋごとに、位置別発話区間Ｖ_ｉ別の区間長Ｌ_ｉを加算し、累積検出期間Ｑ_ｆ（Ｋ）を算出する。
（ステップＳ２３２）発話位置処理部１２８は、累積検出期間Ｑ_ｆ（Ｋ）が最大となる発話位置Ｋを小区間Ｓ_ｆに対する小区間別発話位置Ｋ_ｆとして定める。
（ステップＳ２３４）発話位置処理部１２８は、処理対象とするフレームｆを次のフレームに進める。
（ステップＳ２３６）発話位置処理部１２８は、発話Ｕ_ｍの発話区間において処理対象とする次のフレームが存在するか否かを判定する。存在すると判定するとき（ステップＳ２３６ＹＥＳ）、ステップＳ２４０の処理に進む。存在しないと判定するとき（ステップＳ２３６ＮＯ）、ステップＳ２３８の処理に進む。

（ステップＳ２３８）発話位置処理部１２８は、発話位置Ｋごとに発話Ｕ_ｍの発話区間において、その発話位置Ｋを小区間別発話位置とする小区間Ｓ_ｆの数を定位数Ｎ_Ｋとして計数する。定位数Ｎ_Ｋは、図１０における累積発話期間（Ｋ）のフレーム数単位の時間長を示す。
（ステップＳ２４０）発話位置処理部１２８は、計数した定位数Ｎ_Ｋの発話区間内の全フレーム数に対する比率が所定の比率以上となる発話位置が複数個となるか否かを判定する。複数個と判定するとき（ステップＳ２４０ＹＥＳ）、ステップＳ２４２の処理に進む。１個と判定するとき（ステップＳ２４０ＮＯ）、ステップＳ２４４の処理に進む。
（ステップＳ２４２）発話位置処理部１２８は、発話Ｕ_ｍにおける発話状態を同時発話と判定する。その後、図１２に示す処理を終了する。
（ステップＳ２４４）発話位置処理部１２８は、定位数Ｎ_Ｋが最大となる発話位置Ｋを発話Ｕ_ｍに対する発話ベース発話位置として定める。その後、図１２の処理を終了する。

図１３は、小区間別発話位置の判定例を示す説明図である。図示の例では、発話Ｕ_ｍに係る発話区間において、小区間Ｓ_ｆにおいて発話位置０、１が推定された区間が、それぞれ位置別発話区間Ｖ_１、Ｖ_２として特定されている。Ｌ_１、Ｌ_２は、それぞれ位置別発話区間Ｖ_１、Ｖ_２の区間長を示す。このとき、発話位置０に対する累積検出期間Ｑ_ｆ（０）は、Ｌ_１、発話位置１に対する累積検出期間Ｐ（１）はＬ_２となる。発話位置２～４に対する累積検出期間Ｑ_ｆ（２）～Ｑ_ｆ（４）は、いずれも０となる。このとき、発話位置処理部１２８は、累積検出期間が最大となる発話位置０を小区間Ｓ_ｆに対する小区間別発話位置Ｋ_ｆとして定めることができる。

図１４は、同時発話の判定例を示す説明図である。図示の例では、クラウド５０により推定された発話Ｕ_ｎに係る発話区間（推定発話区間）には、単一の発話Ｒ_ｎが含まれる。ここで、発話区間２の定位数は２２となり、その他の発話区間の定位数はそれぞれ０となる。定位数が最も多い発話位置２が発話Ｕ_ｎに対する発話ベース発話位置として定まる。これに対し、発話Ｕ_ｍに係る推定発話区間のように、異なる時間に複数の発話が現実に含まれることがある。複数の発話それぞれの発話内容として音声コマンドが含まれる場合、いずれの音声コマンドを採用すべきかが定まらないおそれがある。本実施形態では、発話位置処理部１２８は、時間的に異なる複数の発話であっても、１個の発話区間に含まれる事象を、同時発話として検出する。同時発話が検出されるとき、案内情報を出力して再度の個別の発話が促される。

図１４の例では、発話Ｕ_ｍに係る推定発話区間には３３個の小区間が含まれ、２個の現実になされた発話Ｒ_ｍ１、Ｒ_ｍ２が含まれる。このとき発話Ｒ_ｍ１、Ｒ_ｍ２のそれぞれに対する発話位置、が異なる。発話Ｕ_ｍに係る推定発話区間の前半では、小区間別発話位置は概ね０となり、発話Ｒ_ｍ１の発話区間に対応する。発話位置推定発話区間の後半では、小区間別発話位置は概ね１となり、発話Ｒ_ｍ２の発話区間に対応する。発話Ｕ_ｍに係る推定発話において、発話位置０に対する定位数は１２、発話位置１に対する定位数は２１となる。発話位置２～４に対する定位数は、それぞれ０となる。発話位置０に対する定位数の発話区間内の小区間数に対する比率は０．３６（≒１２／３３）、発話位置１に対する定位数に対する小区間数に対する比率は０．６３（≒２１／３３）と、所定の比率（例えば、０．２）を超える。そのため、この発話区間における発話状態は同時発話と判定される。

次に、本実施形態について実施した評価実験について説明する。評価実験は、次の観点で行った。（１）提案手法の基本性能、（２）諸条件下の発話位置検出、（３）諸条件下の同時発話検出のチャンネル数依存性。
評価実験では、車室内に５個の座席が備わる車両内で音声データ、走行雑音（騒音データ）を個々にマイクロホン３０－１～３０－３に収録させておき、音声データと騒音データをミキシングして車両外に設置した音響処理装置１０、２０に供給して実行した。これにより騒音下での発話が再現される。但し、実験条件によっては、さらに音響機器４２により再生された音楽を音楽データとして収録し、さらにミキシングした。音源として、英語音声２００発話と、日本語音声５２発話からランダムに選択された発話を用いた。

まず、（１）提案手法の基本性能について説明する。ここでは、実験結果とする指標値として発話検出率（ＳＤＲ：Speech Detection Rate）と発話区間検出率（ＳＬＲ：Speech Localization Rate）を実験条件ごとに求めた。発話検出率は、正解の発話区間数に対する正しく検出できた発話区間数の比率である。発話位置検出率は、検出された発話区間数に対する発話位置として正しく座席を検出できた発話区間数の比率である。実験条件として、次の４通りの手法を設定した。（ｉ）フレーム別に数理モデルを用いて発話位置推定、（ｉｉ）各フレームに対応する小区間ごとに発話位置推定、（ｉｉｉ）フレーム別に数理モデルを用いて推定された発話位置に基づく発話ベースの発話位置推定、（ｉｖ）フレーム別に数理モデルを用い小区間を考慮して推定された発話位置に基づく発話ベースの発話位置推定。但し、実験条件（ｉ）、（ｉｉ）では、発話位置処理部１２８により発話区間において発話位置を検出できたフレーム数の発話区間内のフレーム数に対する比率が０．５以上となるか否かにより、正しく発話区間ができたかを評価した。実験条件ごとに、２５０発話の音声を用いた。２５０発話は、１座席あたり５０発話に相当する。なお、実験は、車両の窓とサンルーフを閉鎖し、停車して実行した。

図１６は、発話検出手法ごとに発話検出率と発話位置検出率を示す。発話検出率は、実験条件（ｉ）について最も低くなり、実験条件（ｉｉ）について、さらに高くなる、実験条件（ｉｉｉ）、（ｉｖ）については、発話検出率は１００％となる。このことは、ほぼ確実に発話を検出できることを示す。発話検出率が最も低い実験条件（ｉ）でも７４．１％となり、モデルを用いずに空間スペクトルを直接用いる場合よりも良好となる。このことは、発話区間が正しく検出されずに間欠的になる事象が緩和されることを裏付ける。
発話位置検出率は、実験条件（ｉｉ）について最も低くなり、実験条件（ｉ）、（ｉｉｉ）、（ｉｖ）の順に高くなる。発話位置検出率は、実験条件（ｉｉ）でも８８．５％、実験条件（ｉｉ）、（ｉｉｉ）、（ｉｖ）では９５．９％、９９．６％、１００％となる。このことは、ほぼ確実に発話位置を検出できることを示す。

次に、（２）諸条件下の発話位置検出について説明する。諸条件下の発話位置検出では、実験条件として、音響信号のチャネル数、車両の動作状態、および、車内環境の異なる組み合わせのそれぞれについて発話検出率と発話位置検出率を求めた。音響信号のチャネル数として２チャネルと３チャネルの２通り、車両の動作状態として２通りもしくは５通り、車内環境として１４通りの条件を設定した。

２チャネルとは、マイクロホン３０－１、３０－２が収音した音響信号から導出された空間スペクトルに基づいてフレームベース発話位置を検出したケースを指す。３チャネルとは、空間スペクトルの他、マイクロホン３０－３が収音された音響信号から導出されたパワースペクトル密度と零交差数をさらに用いてフレームベース発話位置を検出したケースを指す。
２通りの動作状態として、停止と４５ｍｐｈ走行を設定した。５通りの動作状態として、ａ：停止、ｂ：アイドリング、ｃ：４５ｍｐｈ走行、ｄ：６５ｍｐｈ走行、ｅ：７２ｍｐｈ走行を設定した。６５ｍｐｈ、７２ｍｐｈ走行では、４５ｍｐｈ走行よりも騒音レベルがそれぞれ５ｄＢ、１０ｄＢ高くなる。

１４通りの車内環境は、次の通りである。Ａ：基本形（全窓閉、サンルーフ閉）、Ｂ：ＨＡＴＳ（Head and Torso Simulator）マスク付、Ｃ：ＨＡＴＳ内向き、Ｄ：ＨＡＴＳ外向き、Ｅ：サンルーフ開、Ｆ：ＦＬ窓開、Ｇ：ＦＲ窓閉、Ｈ：ＲＬ窓開、Ｉ：ＲＲ窓開、Ｊ：ＦＬＦＲ窓開、Ｋ：ＲＬＲＲ窓開、Ｌ：全窓サンルーフ開、Ｍ：リクライニングＨＡＴＳ寝、Ｎ：リクライニングＨＡＴＳ起。ＨＡＴＳとは、胴体付きの疑似頭を指し、運転席に疑似頭を着座させたことを示す。ＨＡＴＳの車内への設置により乗車した人物による音の伝搬状態として、反射、回折および吸収を模擬した。上記のＢ、Ｃ、Ｄ、Ｋ、Ｌは、基本形、つまり、全ての窓とサンルーフを閉じた環境下での疑似頭の設置状態の差異を示す。ＨＡＴＳマスク付とは、口元にマスクを着用した疑似頭を正面に向けて運転席に着座させた状態を指す。ＨＡＴＳ内向きとは、疑似頭を車両の内側に９０度傾けて運転席に着座させた状態を指す。ＨＡＴＳ外向きとは、疑似頭を車両の外側に９０度傾けて運転席に着座させた状態を指す。

図１７は、車両停止中において１４通りの車内環境について取得した発話位置検出率と発話検出率を示す。５席評価とは、運転席、助手席、後部右、後部中間、および、後部左の５通りを区別して検出することを指す。３席評価とは、助手席、後部左、および、後部中間の３通りを区別して検出することを指す。（ａ）は３チャネルでの発話位置検出率、（ｂ）は２チャネルでの発話位置検出率、（ｃ）は３チャネルでの発話検出率、（ｄ）は２チャネルでの発話検出率を示す。３チャネルでは、発話位置検出率、発話検出率ともにいずれも９５％を超える。２チャネルでは、車内環境Ｄでの発話位置検出率を除き発話位置検出率、発話検出率ともにいずれも９５％を超える。車内環境Ｄでの発話位置検出率についても約９２％となる。なお、５席評価と３席評価の間では、発話位置検出率、発話検出率ともに有意差が認められなかった。

図１８は、４５ｍｐｈ走行中において１５通りの車内環境について取得した発話位置検出率と発話検出率を示す。１５通りの車内環境には、車内環境Ａ～Ｏの他、車内環境Ａ’も含まれる。車内環境Ａ’は、基本形Ａにおける音楽再生を指す。（ａ）は３チャネルでの発話位置検出率、（ｂ）は２チャネルでの発話位置検出率、（ｃ）は３チャネルでの発話検出率、（ｄ）は２チャネルでの発話検出率を示す。３チャネルでは、車内環境Ｊ、Ｌを除き発話位置検出率、発話検出率ともにいずれも９５％を超える。但し、２チャネルでは、車内環境Ｊ、Ｌの他、車内環境Ｂ、Ｃ、Ｄ、Ｆ、Ｇ、Ｈについて、発話位置検出率が９０％以下に低下する。このことは、発話の推定において１チャネルの音響信号に基づく音響特徴量を参照することが、走行による騒音下でも発話位置検出率の向上に寄与していることを示す。

図１９は、車内環境Ａについて５通りの車両の動作状態について取得した発話位置検出率と発話検出率を示す。（ａ）は３チャネルでの発話位置検出率、（ｂ）は２チャネルでの発話位置検出率、（ｃ）は３チャネルでの発話検出率、（ｄ）は２チャネルでの発話検出率を示す。いずれの動作状態についても、チャネル数に関わらず、発話位置検出率、発話検出率ともに９５％を超える。

次に、（３）諸条件下の同時発話検出のチャンネル数依存性について説明する。諸条件下の同時発話検出では、実験条件として、音響信号のチャネル数、および、車両の動作状態、の異なる組み合わせのそれぞれについて同時発話検出率、同時発話検出精度、および、単独発話検出率を求めた。但し、車内環境を全窓閉、サンルーフ閉とした。同時発話検出率（ＳＳＤＲ：Simultaneous Speech Detection Rate）とは、検出された発話区間数に対して、正しく同時発話であると検出できた発話区間の比率を指す。同時発話検出精度（ＳＳＤＡ：Simultaneous Speech Detection Rate）とは、検出された発話区間数に対して、正しく同時発話であると検出できた発話区間数と誤って同時発話であると検出した発話区間数との差分の比率を指す。単独発話検出率（ＳｉｎＳＤＲ：Single Speech Detection Rate）とは、検出された発話区間数に対して正しく単独発話であると検出された発話区間数の比率を指す。例えば、Ｍ個の発話区間Ｕ_１～Ｕ_ＭにＮ_１個の同時発話区間とＮ_２個の単独発話区間数が含まれている場合を仮定する。同時発話区間のうち、正しく同時発話を検出できた区間数、単独発話として検出した区間数を、それぞれＣ_１、Ｓ_１とする。単独発話区間のうち、正しく単独発話を検出できた区間数、同時発話として検出した区間数を、それぞれＣ_２、Ｓ_２とする。このとき、同時発話検出率ＳＳＤＲは、Ｃ_１／Ｎ_１となる。同時発話検出精度ＳＳＤＡは、（Ｃ_１－Ｓ_２）／Ｎ_１となる。単独発話検出率ＳｉｎＳＤＲは、Ｃ_２／Ｎ_２となる。

音響信号のチャネル数として２チャネルと３チャネルの２通り、車両の動作状態として５通りの条件ａ～ｅを設定した。
同時発話の評価においては、日本語音声と英語音声を合わせて２５０個の音声データから５０ファイルの評価データＷ_１～Ｗ_５０を選出した。インデックスが隣接する評価データの組、例えば、［Ｗ_１，Ｗ_２］、［Ｗ_２，Ｗ_３］、等のそれぞれについて、５パターンの同時発話データを生成した。個々の評価データには各１個の発話が含まれる。

図１５は、同時発話のパターンを例示する図である。（ａ）同時発話なし、（ｂ）先行発話Ｗ_ｍ＋１の後半の一部が後続発話Ｗ_ｍ＋２の前半に重複、（ｃ）先行発話Ｗ_ｍ＋１の期間が後続発話Ｗ_ｍ＋２の期間を包含、（ｄ）後続発話Ｗ_ｍ＋１の前半の一部が先行発話Ｗ_ｍ＋２の後半の一部に重複、（ｅ）先行発話Ｗ_ｍ＋１の終端が後続発話Ｗ_ｍ＋２の始端に一致。パターン（ａ）では、先行発話Ｗ_ｍ＋１の終端から後続発話Ｗ_ｍ＋２の先端までの期間Ｇ１を所定の値域１００～５００ｍｓからランダムに選択した。パターン（ｂ）、（ｄ）では、後続発話の先端から先行発話の後端までの期間Ｇ２を所定の値域１００～ｍｌからランダムに選択した。ｍｌは、先行発話と後続発話のうち、いずれか短い方の長さの半分である。

図２０は、５通りの車両の動作状態について取得した同時発話検出率、同時発話検出精度、および、単独発話検出精度を同時発話評価として示す。（ａ）は３チャネル同時発話評価、（ｂ）は２チャネル同時発話評価を示す。同時発話検出率、同時発話検出精度、および、単独発話検出精度は、いずれも９０％程度となった。単独発話検出精度については、走行速度が高いほど低下する傾向が認められるが、実用的な走行速度（４５ｍｐｈ以下）では顕著ではない。

（変形例）
上記の実施形態は、変形して実現されてもよい。変形には、一部の構成の他の構成への置換、一部の構成と他の構成との組み合わせ、および、一部の構成の省略が含まれる。
例えば、音響特徴分析部２２２は、音響特徴量として発話された音声の特徴を表現できる特徴量であれば、いかなる種類の特徴量を用いることができる。例えば、スペクトルパワー密度に代え、メル周波数ケプストラム（ＭＦＣＣ：Mel-Frequency Cepstrum）、デルタケプストラム、線形予測係数（ＬＰＣ：Linear Prediction Coefficients）、などのいずれかが用いられてもよい。また、零交差数の導出が省略されてもよい。

また、空間スペクトル分析部１２２がＭＵＳＩＣスペクトルを算出する場合を例にしたが、これには限られない。空間スペクトル分析部１２２は、その他の種類の空間スペクトル、例えば、個々の音源位置の方向へのビームフォーミングによる空間スペクトルを算出してもよい。ビームフォーミングは、チャネルごとに異なる利得と遅延の一方もしくは両方を付加、または、フィルタリングを行って加算された信号により、指向性を制御する手法である。

発話位置推定部１２４において用いられる数理モデルは、必ずしもランダムフォレストに限られず、別種類の機械学習モデルが用いられてもよい。別種類の機械学習モデルは、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）、回帰型ニューラルネットワーク（Recurrent Neural Network）、などのいずれであってもよい。
図１０に示す処理には、図１２の処理と同様に、発話区間における発話状態として同時発話の有無を判定するステップが含まれてもよい。即ち、発話位置処理部１２８は、発話位置Ｋごとの累積検出期間Ｐ（Ｋ）の発話区間に対する比率が、所定の比率以上となる発話位置Ｋが複数存在する場合、同時発話と判定する。発話位置処理部１２８は、発話位置Ｋごとの累積検出期間Ｐ（Ｋ）の発話区間に対する比率が、所定の比率以上となる発話位置Ｋが１個である場合、単独発話と判定し、ステップＳ２１０の処理を行うようにしてもよい。

音響処理装置２０は、マイクロホン３０－３から音響信号を取得し、音響特徴分析部２２２を備えていれば、必ずしも騒音除去を主目的とする機器でなくてもよい。
音響処理装置１０の空間フィルタリング部１３４と発話情報取得部１２６に相当する構成は、音響処理システムＳ１における別個の機器に備わり、音響処理装置１０において省略されてもよい。
空間フィルタリング部１３４が省略され、発話情報取得部１２６には、Ａ／Ｄ変換部１１２からいずれか１チャネルの音響信号が入力されてもよい。

音響処理装置１０の一部または全部は、音響機器４２の一部を構成してもよい。
音響処理装置１０、２０は、一体に構成されてもよい。その場合、制御部１２０、２２０の一方が、他方の機能を有し、他方が省略されてもよい。Ａ／Ｄ変換部１１２、２１２の一方が他方の機能を有し、他方が省略されてもよい。
空間スペクトルの算出に用いられる音響信号のチャネル数は、２チャネルに限られず、３チャネル以上であってもよい。その他、上記の処理に係るパラメータは、本実施形態による所期の効果を奏することができれば任意に設定可能である。

発話情報取得部１２６は、いずれかのチャネルの音響信号に対して公知の音声検出処理（ＶＡＤ：Voice Activity Detection）を行い、発話区間を検出してもよい。より具体的には、発話情報取得部１２６は、フレームごとに零交差数とパワーを算出し、算出したパワーが所定のパワーの閾値以上である状態、かつ、零交差数が所定頻度以上（例えば、１秒当たり２００～５００回）である状態が所定時間（例えば、０．２～０．５秒）以上継続する状態が開始される時点を始点とし、その状態が停止する時点を終点とする区間を発話区間とし、それ以外の区間を非発話区間と定めてもよい。また、発話情報取得部１２６は、数理モデルを用いて、数理モデルを用い、フレームごとに零交差数とパワーに基づいて発話区間の属否を判定してもよい。数理モデルとして、説明変数とする零交差数とパワーの組と、目的変数とする発話区間の属否との関連を予め学習しておく。音響処理装置１０、２０が一体に構成される場合には、音響特徴分析部２２２が算出した零交差数とパワースペクトル密度から導出されるパワーが音声検出処理に用いられてもよい。

また、発話情報取得部１２６は、検出した発話区間において公知の音声認識処理を行い、発話内容を定めてもよい。発話情報取得部１２６自体が、発話区間を検出し、発話内容を定める場合には、クラウド５０から発話内容情報と発話区間情報を受信することを要しない。発話情報取得部１２６は、取得した音響信号をクラウド５０に送信し、発話区間検出と音声認識処理を要求することを要しない。

以上に説明したように、本実施形態に係る音響処理システムＳ１は、複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析する空間スペクトル分析部１２２と、少なくとも音源の空間スペクトルと発話している話者の位置である発話位置との関連を示す数理モデルを用いて、分析された空間スペクトルに基づいて発話位置を推定する発話位置推定部１２４と、を備える。
この構成によれば、既知の空間スペクトルと発話位置との関連に基づいて、取得される音響信号からフレームごとに導出される空間スペクトルに対応する発話位置が推定される。そのため、空間スペクトルから発話位置を直接定める場合よりも安定した発話位置を推定することができる。例えば、発話区間内で発話位置が定まるフレームが間欠的に現れる事象が緩和される。

音響処理システムＳ１は、複数チャネルと別個のチャネルの音響信号に基づいてフレームごとに音響特徴量を分析する音響特徴分析部２２２を備えてもよい。上記の数理モデルは、音響特徴量ならびに空間スペクトルと発話位置との関連を示し、発話位置推定部１２４は、分析された音響特徴量ならびに空間スペクトルに基づいて発話位置を推定してもよい。
この構成によれば、空間スペクトルの推定に用いた複数チャネルとは別個のチャネルの音響信号から分析された音響特徴量をさらに用いて発話位置が推定される。発話された音声の音響特徴量に対する発話位置依存性を参照して発話位置が推定されるため、騒音下においても発話位置の推定精度を向上することができる。また、数理モデルを用いることで、複数チャネルの音響信号と別個のチャネルの音響信号と同期がとれていない場合でも推定精度を確保することができる。

音響特徴分析部２２２は、音響特徴量として、上記の別個のチャネルの音響特徴分析チャネルの音響信号の周波数特性と零交差点の頻度を分析してもよい。
この構成によれば、音響特徴量として音響信号の周波数特性と零交差点の頻度を用いることで、発話された音声の特徴をより確実に把握することができる。そのため、発話位置の推定精度をより向上することができる。

音響特徴分析部２２２は、音響特徴量として、上記の別個のチャネルの音響信号のパワースペクトル密度を分析してもよい。
この構成によれば、離散フーリエ変換に基づく簡素な演算により周波数ごとの強度が分析される。そのため、経済的に発話位置の推定精度を向上することができる。

空間スペクトル分析部１２２は、発話位置の候補である所定の発話位置候補（例えば、座席）ごとに空間スペクトルを算出し、発話位置推定部１２４は、発話位置候補ごとに発話している話者が所在する信頼度を算出してもよい。
この構成によれば、空間スペクトルと話者が所在する信頼度が所定の発話位置候補ごとに話者が所在する信頼度が算出される。そのため、あらゆる音源位置に対して空間スペクトルを算出する場合よりも演算量が低減する。また、空間スペクトルから発話位置を直接導出する場合とは異なり、その絶対値による発話位置の判定可能性に対する影響が低減する。そのため、発話位置の安定した推定が可能となる。

数理モデルは、ランダムフォレストであってもよい。
この構成によれば、ランダムフォレストを構成する個々の決定木による演算が並列なため、発話位置の推定を高速に行うことができる。説明変数とする特定の入力値に対する依存性が少ないため、安定的に発話位置を推定することができる。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

Ｓ１…音響処理システム、１０、２０…音響処理装置、３０（３０－１～３０－３）…マイクロホン、４０…制御対象機器、４２…音響機器、４４…空調機、４６…窓開閉機、４８…操舵加熱器、５０…クラウド、１１２…Ａ／Ｄ変換部、１１４…通信部、１２０…制御部、１２２…空間スペクトル分析部、１２４…発話位置推定部、１２６…発話情報取得部、１２８…発話位置処理部、１３０…コマンド処理部、１３４…空間フィルタリング部、２１２…Ａ／Ｄ変換部、２２２…音響特徴分析部、２２２ａ…周波数分析部、２２２ｂ…零交差点分析部、２２４…低域通過フィルタ、２２６…騒音除去部

Claims

複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析する空間スペクトル分析部と、
少なくとも音源の空間スペクトルと発話している話者の位置である発話位置との関連を示す数理モデルを用いて、分析された前記空間スペクトルに基づいて発話位置を推定する発話位置推定部と、を備える
音響処理システム。
前記複数チャネルと別個のチャネルの音響信号に基づいてフレームごとに音響特徴量を分析する音響特徴分析部を備え、
前記数理モデルは、音響特徴量ならびに空間スペクトルと発話位置との関連を示し、
前記発話位置推定部は、
分析された前記音響特徴量ならびに前記空間スペクトルに基づいて発話位置を推定する
請求項１に記載の音響処理システム。
前記音響特徴分析部は、
前記音響特徴量として、前記別個のチャネルの音響信号の周波数特性と零交差点の頻度を分析する
請求項２に記載の音響処理システム。
前記音響特徴分析部は、
前記別個のチャネルの音響信号の周波数特性として、パワースペクトル密度を分析する
請求項３に記載の音響処理システム。
前記空間スペクトル分析部は、
前記発話位置の候補である所定の発話位置候補ごとに前記空間スペクトルを算出し、
前記発話位置推定部は、
前記発話位置候補ごとに発話している話者が所在する信頼度を算出する
請求項１に記載の音響処理システム。
前記数理モデルは、ランダムフォレストである
請求項５に記載の音響処理システム。
複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析する空間スペクトル分析部と、
少なくとも音源の空間スペクトルと音源の空間分布との関連を示す数理モデルを用いて、分析された前記空間スペクトルに基づいて発話位置を推定する発話位置推定部と、を備える
音響処理装置。
コンピュータに請求項７に記載の音響処理装置として機能させるためのプログラム。
音響処理システムにおける音響処理方法であって、
空間スペクトル分析部が、複数チャネルの音響信号に基づいて所定期間のフレームごとに音源の空間スペクトルを分析する空間スペクトル分析ステップと、
発話位置推定部が、少なくとも音源の空間スペクトルと発話している話者の位置である発話位置との関連を示す数理モデルを用いて、分析された前記空間スペクトルに基づいて発話位置を推定する発話位置推定ステップと、を実行する
音響処理方法。