JP2020201370A

JP2020201370A - 話者方向判定プログラム、話者方向判定方法、及び話者方向判定装置

Info

Publication number: JP2020201370A
Application number: JP2019107707A
Authority: JP
Inventors: 晃釜野; Akira Kamano; 洋平岸; Yohei Kishi; 千里塩田; Chisato Shioda; 鈴木　政直; Masanao Suzuki; 政直鈴木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2020-12-17
Also published as: US20200389724A1

Abstract

【課題】高雑音環境下で、話者方向判定装置の筐体が基準姿勢に対して傾斜した場合でも、話者方向を適切に判定することを可能とすることを目的とする。【解決手段】基準モデルは、筐体が基準姿勢の状態での複数のマイクロフォンへの音の入射角と筐体が基準姿勢の状態で取得される物理量との対応関係を表す。基準モデルにおける対応関係の物理量が、取得された雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成する。補正モデルにおいて、取得された傾き情報によって示される傾きに応じた音の入射角に対応する物理量を、閾値として設定し、取得された物理量と設定された閾値とを比較する。当該比較により、複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する。【選択図】図９

Description

本発明は、話者方向判定プログラム、話者方向判定方法、及び話者方向判定装置に関する。

話者が存在する方向である話者方向に基づいて、翻訳元言語及び翻訳先言語を切り替えることで、ハンズフリーで音声翻訳を実現するウェアラブルな音声翻訳システムが存在する。当該音声翻訳システムでは、話者方向の判定精度が低いと適切な翻訳ができなくなるため、話者方向の判定精度のさらなる向上が望まれている。

特開２０１８―４０９８２号公報

本発明は、１つの側面として、話者方向を適切に判定することを可能とすることを目的とする。

１つの実施形態では、複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得する。複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する。基準モデルは、筐体が基準姿勢の状態での複数のマイクロフォンへの音の入射角と筐体が基準姿勢の状態で取得された物理量との対応関係を表す。基準モデルにおける対応関係の物理量が、取得された雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成する。補正モデルにおいて、取得された傾き情報によって示される傾きに応じた音の入射角に対応する物理量を、閾値として設定する。取得された物理量と設定された閾値とを比較することで、複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する。

１つの側面として、話者方向を適切に判定することを可能とする。

第１〜第４実施形態の話者方向判定装置を例示する機能ブロック図である。第１〜第４実施形態の話者方向判定装置のハードウェア構成図を例示する概念図である。第１実施形態の話者方向判定部を例示するブロック図である。話者方向判定装置の筐体の基準姿勢に対する傾斜を説明する概念図である。話者方向の判定境界を説明する概念図である。話者方向の判定境界を説明する概念図である。基準モデルを例示する概念図である。推定位相差と雑音レベルとの対応関係を例示する概念図である。推定位相差と音の入射角との対応関係を例示する概念図である。補正モデルを例示する概念図である。基準モデル及び補正モデルを例示する概念図である。話者方向判定部のハードウェア構成を例示するブロック図である。第１実施形態の話者方向判定処理の流れを例示するフローチャートである。第２実施形態の話者方向判定部を例示するブロック図である。第３実施形態の話者方向判定部を例示するブロック図である。第３実施形態の話者方向判定処理の流れを例示するフローチャートである。第４実施形態の話者方向判定部を例示するブロック図である。基準モデル及び補正モデルを例示する概念図である。第４実施形態の話者方向判定処理の流れを例示するフローチャートである。第４実施形態の話者方向判定処理の流れを例示するフローチャートである。話者方向判定処理の正解率を例示する概念図である。

[第１実施形態]
以下、図面を参照して第１実施形態の一例を詳細に説明する。

図１に、話者方向判定装置１０の機能ブロック図を例示する。話者方向判定装置１０は、話者方向判定部２０及び音声翻訳部４０を含む。話者方向判定部２０は、話者が存在する方向である話者方向を判定する。音声翻訳部４０は、話者方向判定部２０から話者方向の判定結果を受け取り、受け取った話者方向の判定結果に基づいて、翻訳元言語と翻訳先言語とを決定し、翻訳を行う。

例えば、音声翻訳部４０は、話者方向が話者方向判定装置１０の筐体の前方である場合、第１言語から第２言語への翻訳を行い、話者方向が話者方向判定装置１０の筐体の上方である場合、第２言語から第１言語への翻訳を行う。第１言語は、例えば、英語であってよく、第２言語は、例えば、日本語であってよい。

図２に、話者方向判定装置１０のハードウェア構成図を例示する。話者方向判定装置１０は、略直方体の筐体１１、筐体１１を装着者が装着した際に通常上面となる面に配置された第１マイクロフォンＭ０１（以下、マイクロフォンをマイクという。）、及び、筐体１１を装着者が装着した際に通常前面となる面に配置された第２マイクＭ０２を含む。矢印ＦＲは筐体１１を装着者が装着した際の前方を表し、矢印ＵＰは筐体１１を装着者が装着した際の上方を表す。

角度０°、９０°、及び−９０°は、音の入射角の角度を例示する。例えば、音の入射角が９０°及び−９０°である場合、音の入射方向は筐体の前面に平行であり、音の入射角が０°である場合、音の入射方向は筐体の前面と直交する。

図３に、話者方向判定部２０Ａを例示する。話者方向判定部２０Ａは、第１音取得部２１、第２音取得部２２、第１時間周波数変換部２３、第２時間周波数変換部２４、位相差推定部２５、傾斜取得部２６、及び雑音レベル推定部２７を含む。話者方向判定部２０Ａは、判定境界補正部２８、モデル補正部２９及び方向判定部３１を含む。第１音取得部２１は、第１マイクＭ０１で検出された音から変換された時間領域の音信号を取得し、第２音検出部２２は、第２マイクＭ０２で検出された音から変換された時間領域の音信号を取得する。

話者方向判定部２０Ａに含まれる各部は、例えば、ワイヤードロジックによるハードウェア回路として各々別個の回路として形成されてもよい。話者方向判定部２０Ａに含まれる各部は、その各部に対応する回路が集積された一つの集積回路として実装されてもよい。なお、集積回路は、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の集積回路であればよい。また、話者方向判定装置２０Ａの各部は、話者方向判定装置２０Ａのプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。

第１時間周波数変換部２３は、第１音取得部２１で取得された時間領域の音信号を周波数領域の音信号に変換する。時間領域の音信号から周波数領域の音信号への変換は、例えば、Fast Fourier Transformation（ＦＦＴ）であってよい。第２時間周波数変換部２４は、第２音取得部２２で取得された時間領域の音信号を周波数領域の音信号に変換する。

物理量取得部の一例である位相差推定部２５は、第１時間周波数変換部２３で変換された周波数領域の音信号と、第２時間周波数変換部２４で変換された周波数領域の音信号との位相差を推定する。物理量の一例である位相差とは、周波数領域における音源からマイクまでの音の到達時間差であり、音信号を複素数で表現した場合の偏角である。

位相差ｄｐ（ｋ）は、例えば、（１）式で推定される。ｄｐ（ｋ）は、第１時間周波数変換部２３で変換された、ｋ（ｋ＝０，１，…，Ｋ−１）番目の周波数帯域の周波数領域の音信号と、第２時間周波数変換部２４で変換された、ｋ番目の周波数帯域の周波数領域の音信号と、の位相差である。Ｋは、例えば、２５６であってよい。
ｄｐ（ｋ）＝θ_１（ｋ）−θ_２（ｋ）
＝ａｒｇ（ｚ_１（ｋ））−ａｒｇ（ｚ_２（ｋ））
＝ａｒｇ（ｚ_１（ｋ）／ｚ_２（ｋ）） …（１）

θ_１（ｋ）は、第１時間周波数変換部２３で変換された、ｋ番目の周波数帯域の音信号の位相スペクトルであり、θ_２（ｋ）は、第２時間周波数変換部２４で変換された、ｋ番目の周波数帯域の音信号の位相スペクトルであり、例えば、（２）式で算出される。
θ_１（ｋ）＝ａｒｇ（ｚ_１（ｋ））＝ａｔａｎ（Ｉｍ_１（ｋ）／Ｒｅ_１（ｋ））
θ_２（ｋ）＝ａｒｇ（ｚ_２（ｋ））＝ａｔａｎ（Ｉｍ_２（ｋ）／Ｒｅ_２（ｋ））
…（２）

（３）式に例示するように、ｚ_１（ｋ）は、第１時間周波数変換部２３で変換された、ｋ番目の周波数帯域の周波数領域の音信号を複素数で表現し、Ｒｅ_１（ｋ）は複素数の実部であり、Ｉｍ_１（ｋ）は複素数の虚部である。ｚ_２（ｋ）は、第２時間周波数変換部２４で変換された、ｋ番目の周波数帯域の周波数領域の音信号を複素数で表現し、Ｒｅ_２（ｋ）は複素数の実部であり、Ｉｍ_２（ｋ）は複素数の虚部である。
ｚ_１（ｋ）＝Ｒｅ_１（ｋ）＋ｉＩｍ_１（ｋ）
ｚ_２（ｋ）＝Ｒｅ_２（ｋ）＋ｉＩｍ_２（ｋ） …（３）

傾き情報取得部の一例である傾斜取得部２６は、話者方向判定装置１０の筐体１１に配置されている傾斜検知センサ、例えば、加速度センサなどから、話者方向判定装置１０の筐体１１の基準姿勢に対する傾斜を表す値を取得する。図４に例示するように、話者方向判定装置１０の前後方向の測定加速度がａ_１であり、話者方向判定装置１０の上下方向の測定加速度がａ_２である場合、話者方向判定装置１０の基準姿勢に対する傾斜は、θ＝ｔａｎ^−１（ａ_１／ａ_２）である。基準姿勢の方向は、重力加速度の方向であるとする。

加速度センサは、２軸以上で、直流成分がカットされていないタイプを使用する。加速度センサに代えて、ジャイロセンサまたは地磁気センサを使用してもよい。なお、話者方向判定装置１０を装着するユーザの体型によって異なる、当該ユーザに装着された際の話者方向判定装置１０の筐体１１の傾斜を測定し、予め記録しておいてもよい。

判定境界補正部２８は、傾斜取得部２６が取得した話者方向判定装置１０の筐体１１の基準姿勢に対する傾斜を表す値に基づいて、閾値の一例である話者方向の判定境界を補正する。図５Ａに例示するように、話者方向判定装置１０の筐体１１が基準姿勢に対して傾斜していない場合と、図５Ｂに例示するように、話者方向判定装置１０の筐体１１が基準姿勢に対して傾斜している場合と、では、話者方向の判定境界が異なるためである。

図６に、話者方向を判定する際に使用する基準モデルを例示する。基準モデルは、筐体１１が基準姿勢の状態での複数のマイクへの音の入射角と筐体が基準姿勢の状態で取得される推定位相差との対応関係を表す。推定位相差は物理量の一例である。図６において、縦軸は音の入射角［°］を表し、横軸は推定位相差［ｒａｄ］を表す。基準モデルは、音の入射角が推定位相差に正比例することを表す、正の傾きをもつ直線である。

筐体１１が基準姿勢に対して傾斜していない場合、判定境界は、例えば、音の入射角がＡ００である場合の基準モデルの推定位相差ＤＢ００であり、推定位相差がＤＢ００以下である場合、話者方向は上方であると判定される。一方、推定位相差がＤＢ００より大きい場合、話者方向は前方であると判定される。

筐体１１が基準姿勢に対して傾斜している場合、判定境界は、基準姿勢に対する傾斜に対応する音の入射角Ａ０１である場合の基準モデルの推定位相差ＤＢ０１に補正される。推定位相差がＤＢ０１以下である場合、話者方向は上方であると判定され、推定位相差がＤＢ０１より大きい場合、話者方向は前方であると判定される。筐体１１の基準姿勢に対する傾斜が大きくなるに従って、補正後の判定境界は、補正前の判定境界から離れた値となる。

雑音情報取得部の一例である雑音レベル推定部２７は、第１音取得部２１及び第２音取得部２２で取得された音に含まれる雑音のレベルである雑音レベルを推定する。雑音レベルは雑音情報の一例である。雑音レベルの推定は既存の手法で行うことができる。雑音レベルは、非発話区間の音圧の平均であってよい。雑音レベルは、時間領域の音信号で算出してもよいし、平均は、算術平均、幾何平均、調和平均または移動平均の何れかであってよい。

モデル生成部及び閾値設定部の一例であるモデル補正部２９は、推定された雑音レベルに基づいて、基準モデルを補正し、補正モデルを生成する。周囲の雑音レベルが大きくなると、図７に例示するように、音の推定位相差は０[ｒａｄ]に近付く。したがって、話者方向判定装置１０の筐体１１の基準姿勢に対する傾斜だけに基づいて判定境界を補正すると、話者方向の判定精度が低下する。

図８は、推定位相差と音の入射角との関係を表すグラフである。図８の縦軸は推定位相差［ｒａｄ］を表し、横軸は音の入射角［°］を表す。線Ｎ０は雑音レベルが０［ｄＢＡ］である場合、線Ｎ１は雑音レベルが５０［ｄＢＡ］である場合、線Ｎ２は雑音レベルが５５［ｄＢＡ］である場合、線Ｎ３は雑音レベルが６０［ｄＢＡ］である場合、線Ｎ４は雑音レベルが６５［ｄＢＡ］である場合を表す。

図８によれば、雑音レベルが０［ｄＢＡ］である場合位相差が−２［ｒａｄ］となる音の入射角と、雑音レベルが６５［ｄＢＡ］である場合位相差が−２［ｒａｄ］となる音の入射角と、では、略２０［°］の差異が存在する。

周囲に定常雑音が存在する場合、（４）式に示すように、位相スペクトルθ_ｔ１（ｋ）及びθ_ｔ２（ｋ）には雑音の成分ｚ_Ｎ（ｋ）が含まれる。
θ_ｔ１（ｋ）＝ａｒｇ（ｚ_１（ｋ）＋ｚ_Ｎ（ｋ））
θ_ｔ２（ｋ）＝ａｒｇ（ｚ_２（ｋ）＋ｚ_Ｎ（ｋ）） …（４）

（５）式に示す位相差において、（６）式に示すように、雑音の成分ｚ_Ｎ（ｋ）が∞に近付くと、位相差は０に近付く。
θ_ｔ１（ｋ）−θ_ｔ２（ｋ）
＝ａｒｇ（ｚ_１（ｋ）＋ｚ_Ｎ（ｋ））−ａｒｇ（ｚ_２（ｋ）＋ｚ_Ｎ（ｋ））
＝ａｒｇ（（ｚ_１（ｋ）＋ｚ_Ｎ（ｋ））／（ｚ_２（ｋ）＋ｚ_Ｎ（ｋ）） …（５）

即ち、周囲の定常雑音の雑音レベルが大きくなると対象音の位相差が埋もれてしまい、音の位相差が定常雑音の位相差に近付く。

モデル補正部２９は、雑音レベル推定部２７で推定された雑音レベルに基づいて、判定境界の補正量を調整する。詳細には、雑音レベルが大きくなるに従って、判定境界が補正前の判定境界により近付くように調整する。

図６で例示したように、話者方向判定装置１０の筐体１１の基準姿勢に対する傾斜に基づいて、判定境界がＤＢ００からＤＢ０１に補正される。図９に例示するように、雑音レベルが大きくなるに従って、不動点ＦＰを基準として、モデルの傾きが大きくなるように、矢印Ｃ０１で示すように基準モデルを回転することで、補正モデルを生成する。不動点ＦＰは、経験的に決定されてよい。モデルの傾きが大きくなるほど、モデルにおいて、筐体１１の基準姿勢に対する傾斜に対応する音の入射角に対応する推定位相差である判定境界ＤＢ０２は、補正後の判定境界ＤＢ０１から元の判定境界ＤＢ００により近付く。

（７）式は、補正モデルを例示する。
φ＝ｆ（α（ｎｐ）＊ａｐ＋（１−α（ｎｐ））＊ｐｚ）…（７）

φは音の入射角であり、α（）は、雑音レベルに依存する制御パラメータを算出する関数であり、ｎｐは雑音レベルであり、ａｐは推定位相差であり、ｐｚは不動点ＦＰの推定位相差である。

図１０に、基準モデルＯＭの一例を示す。点ＦＰは不動点を表す。不動点ＦＰの推定位相差ｐｚ、基準モデルＯＭを表す関数ｆ（ａｐ）及び雑音レベルに依存する制御パラメータα（ｎｐ）を（８）式に例示する。
ｐｚ＝０．０
ｆ（ａｐ）＝９．０＊ａｐ＋４０．０
α（ｎｐ）＝０．１５６＊ｎｐ−７．８ …（８）
ａｐは推定位相差であり、詳細には、上限周波数帯域から下限周波数帯域までの推定位相差の平均値であってよい。ｎｐは雑音レベルであり、不動点ＦＰの推定位相差値ｐｚは、事前に設定しておくことができる。関数ｆ（）及びα（）は、統計的に回帰して導出することで事前に定めておく。関数ｆ（）及びα（）は、線形関数、三角関数、または機械学習の何れかを使用して導出することができる。また、基準モデルのデータをテーブルなどに予め記憶しておいてもよい。

雑音レベルｎｐ＝６０［ｄＢＡ］である場合、α（６０）＝０．１５６＊６０−７．８＝１．５６であり、補正モデルＡＭを表す関数ｆｄ（ａｐ）は（９）式で表される。
ｆｄ（ａｐ）
＝９．０＊α（ｎｐ）＊ａｐ＋９．０＊（１−α（ｎｐ））＊ｐｚ＋４０．０
＝９．０＊１．５６＊ａｐ＋４０．０
＝１４．０４＊ａｐ＋４０．０ …（９）

即ち、補正モデルＡＭは、傾きが基準モデルＯＭより大きく（１４．０４＞９．０）、かつ、推定位相差ａｐが０である場合、音の入射角が基準モデルＯＭと同じ（４０．０［°］）モデルとなる。

話者方向判定装置１０の筐体１１の基準姿勢に対する傾斜がθ［°］である場合に、基準モデルＯＭの判定境界Ｔｈ（θ）は、（１０）式で表される。
Ｔｈ（θ）＝ｆ^−１（ｆ（Ｔｈ_０）−θ） …（１０）
Ｔｈ_０は話者方向判定装置１０の筐体１１が基準姿勢の状態である場合の判定境界である。Ｔｈ_０＝０．０である場合、Ｔｈ（θ）＝−０．１１θであり、話者方向判定装置１０の筐体１１の基準姿勢に対する傾斜が−１０［°］である場合、Ｔｈ（−１０）＝１．１［ｒａｄ］となる。

話者方向判定装置１０の筐体１１の基準姿勢に対する傾斜がθ［°］である場合に、補正モデルＡＭの判定境界Ｔｈｄ（θ）は、（１１）式で表される。
Ｔｈｄ（θ）＝ｆｄ^−１（ｆｄ（Ｔｈｄ_０）−θ） …（１０）
Ｔｈｄ_０は話者方向判定装置１０の筐体１１が基準姿勢の状態である場合の判定境界である。Ｔｈｄ_０＝０．０である場合、Ｔｈｄ（θ）＝−０．０７θであり、話者方向判定装置１０の筐体１１の基準姿勢に対する傾斜が−１０［°］である場合、Ｔｈｄ（−１０）＝０．７１［ｒａｄ］となる。したがって、補正モデルＡＭによれば、基準モデルＯＭで筐体１１の基準姿勢に対する傾斜に基づいて補正された判定境界１．１［ｒａｄ］から、筐体１１の傾斜に基づいて補正される前の判定境界０．０［ｒａｄ］に近付く。

判定部の一例である方向判定部３１は、モデル補正部２９で設定された判定境界、即ち、補正モデルにおいて筐体１１の基準姿勢に対する傾斜に対応する推定位相差と、位相差推定部２５で推定された位相差と、を比較することで、話者方向を判定する。なお、基準姿勢の方向は上述した重力加速度の方向に限定されず、所定の方向であってもよい。所定の方向は、例えば、ユーザが装着した際の筐体の通常の状態の姿勢での筐体の縦方向の中心線に沿った方向であってよく、事前計測によって定められてもよい。所定の方向は、例えば、重力加速度の方向との角度差によって規定されてもよい。

図１１に、話者方向判定部２０Ａのハードウェア構成を例示する。話者方向判定部２０Ａは、ハードウェアであるプロセッサの一例であるＣＰＵ（Central Processing Unit）５１、一次記憶部５２、二次記憶部５３、及び、外部インタフェース５４を含む。

ＣＰＵ５１、一次記憶部５２、二次記憶部５３、及び外部インタフェース５４は、バス５９を介して相互に接続されている。

一次記憶部５２は、例えば、ＲＡＭ（Random Access Memory）などの揮発性のメモリである。

二次記憶部５３は、プログラム格納領域５３Ａ及びデータ格納領域５３Ｂを含む。プログラム格納領域５３Ａは、一例として、話者方向判定処理をＣＰＵ５１に実行させるための話者方向判定プログラムなどのプログラムを記憶している。データ格納領域５３Ｂは、例えば、特定のユーザが筐体１１を装着した場合の筐体１１の基準姿勢に対する傾斜の値、基準モデルのデータ、話者方向判定処理において一時的に生成される中間データ、などを記憶する。

ＣＰＵ５１は、プログラム格納領域５３Ａから話者方向判定プログラムを読み出して一次記憶部５２に展開する。ＣＰＵ５１は、話者方向判定プログラムをロードして実行することで、図３の第１音取得部２１、第２音取得部２２、第１時間周波数変換部２３、第２時間周波数変換部２４、位相差推定部２５、傾斜取得部２６、及び、雑音レベル推定部２７として動作する。ＣＰＵ５１は、また、判定境界補正部２８、モデル補正部２９、方向判定部３１として動作する。

なお、話者方向判定プログラムなどのプログラムは、ＤＶＤ（Digital Versatile Disc）などの非一時的記録媒体に記憶され、記録媒体読込装置を介して読み込まれ、一次記憶部５２に展開されてもよい。

外部インタフェース５４には、外部装置が接続され、外部インタフェース５４は、外部装置とＣＰＵ５１との間の各種情報の送受信を司る。外部インタフェース５４には、例えば、第１マイクＭ０１及び第２マイクＭ０２が接続されている。

次に、話者方向判定装置１０の作用の概要について説明する。話者方向判定装置１０の作用の流れの概要を図１２に例示する。例えば、ユーザが話者方向判定装置１０の電源を投入すると、ＣＰＵ５１は、ステップ１０１で、１フレーム分の音信号を読み込む。詳細には、第１マイクＭ０１から取得された音に対応する１フレーム分の時間領域の音信号（以下、第１音信号という。）と、第２マイクＭ０２から取得された音に対応する１フレーム分の時間領域の音信号（以下、第２音信号という。）と、を読み込む。１フレームは、サンプリング周波数が１６［ｋＨｚ］である場合、例えば、３２［ｍ秒］であってよい。

ＣＰＵ５１は、ステップ１０２で、ステップ１０１で読み込んだ音信号の各々に時間周波数変換を施す。ＣＰＵ５１は、ステップ１０３で、周波数領域の音信号に変換された第１音信号と第２音信号との位相差を推定する。ＣＰＵ５１は、ステップ１０４で、第１音信号及び第２音信号の少なくとも一方の雑音レベルを使用して基準モデルを補正して、補正モデルを生成する。

ＣＰＵ５１は、ステップ１０５で、ステップ１０４で生成した補正モデルに、話者方向判定装置１０の筐体１１の基準姿勢に対応する傾斜を適用することで補正した値を、判定境界として設定する。ＣＰＵ５１は、ステップ１０６で、推定位相差が判定境界以下であるか否か判定する。ステップ１０６の判定が肯定された場合、即ち、推定位相差が判定境界以下である場合、話者が上方に存在すると判定し、ＣＰＵ５１は、ステップ１０８に進む。ＣＰＵ５１は、ステップ１０８で、音信号を第２言語から第１言語へ翻訳する処理に振り分け、ステップ１１０に進む。

ステップ１０６の判定が否定された場合、即ち、推定位相差が判定境界より大きい場合、話者が前方に存在すると判定し、ステップ１０９に進む。ＣＰＵ５１は、ステップ１０９で、音信号を第１言語から第２言語へ翻訳する処理に振り分け、ステップ１１０に進む。振り分けられた音信号は、既存の音声翻訳処理技術によって、第２言語から第１言語へ翻訳され、例えば、スピーカから音声として出力される。

ＣＰＵ５１は、ステップ１１０で、音源方向判定装置１０の話者方向判定機能が、例えば、ユーザの操作によりオフされたか否か判定する。ステップ１１０の判定が否定された場合、即ち、話者方向判定機能がオンである場合、ＣＰＵ５１は、ステップ１０１に戻り、次のフレームの音信号を読み込み、話者方向判定処理を継続する。ステップ１１０の判定が否定された場合、即ち、話者方向判定機能がオフである場合、ＣＰＵ５１は、話者方向判定処理を終了する。

本実施形態では、話者方向を適切に判定することを可能とすることを目的とする。複数のマイクで取得した音に対応する周波数領域の音信号の位相差と閾値とを比較することで話者方向を判定する場合、話者方向を適切に判定するために、話者方向判定装置の筐体の基準姿勢に対する傾きに基づいて、閾値を調整する技術が考えられる。しかしながら、発明者らは、高雑音環境下では、位相差が雑音に影響され小さくなるため、話者方向を適切に判定することができない場合がある、ことに想到した。

これに対し、本実施形態では、複数のマイクロフォンを含む筐体の基準姿勢に対する傾きを示す傾き情報を取得し、複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得する。複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する。基準モデルは、筐体が基準姿勢の状態での複数のマイクロフォンへの音の入射角と筐体が基準姿勢の状態で取得された物理量との対応関係を表す。基準モデルにおける対応関係の物理量が、取得された雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成する。補正モデルにおいて、取得された傾き情報によって示される傾きに応じた音の入射角に対応する物理量を、閾値として設定する。取得された物理量と設定された閾値とを比較することで、複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する。

本実施形態では、高雑音環境下で、話者方向判定装置の筐体が基準姿勢に対して傾斜した場合でも、話者方向を適切に判定することを可能とする。

［第２実施形態］
第２実施形態では、雑音レベルに代えて、信号対雑音比（以下、ＳＮＲという。）を使用して、モデルを補正する点で、第１実施形態と相違する。ＳＮＲは雑音情報の一例である。第１実施形態と同様の構成及び作用については、説明を省略する。

図１３に、第２実施形態の話者方向判定部２０Ｂを例示する。雑音レベル推定部２７に代えて、ＳＮＲ推定部２７Ｄが存在する点で、第１実施形態の話者方向判定部２０Ａと相違する。ＳＮＲは、例えば、（１１）式で算出される。
ＳＮＲ＝ｖｐ−ｎｐ …（１１）
ｖｐは、発話区間の音圧レベルであり、ｎｐは雑音レベルである。

（１２）式は、補正モデルを例示する。α２（）は、ＳＮＲに依存する制御パラメータであり、線形関数、三角関数、または機械学習などで統計的に回帰して、事前に導出される。α２（）は、予め、テーブルなどに記憶されていてもよい。
φ＝ｆ（α２（ＳＮＲ）＊ａｐ＋（１−α２（ＳＮＲ））＊ｐｚ）…（１２）

第２実施形態では、ＳＮＲが小さくなるに従って、判定境界が筐体１１の基準姿勢に対する傾斜に応じて補正された判定境界から、補正前の判定境界により近付くように、補正モデルを生成する。ＳＮＲが小さいということは、雑音レベルが大きいということだからである。

本実施形態では、複数のマイクロフォンを含む筐体の基準姿勢に対する傾きを示す傾き情報を取得し、複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得する。複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する。基準モデルは、筐体が基準姿勢の状態での複数のマイクロフォンへの音の入射角と筐体が基準姿勢の状態で取得された物理量との対応関係を表す。基準モデルにおける対応関係の物理量が、取得された雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成する。補正モデルにおいて、取得された傾き情報によって示される傾きに応じた音の入射角に対応する物理量を、閾値として設定する。取得された物理量と設定された閾値とを比較することで、複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する。

［第３実施形態］
第３実施形態では、補正モデルを生成することで補正した判定境界を設定する代わりに、推定位相差を補正する点で第１実施形態及び第２実施形態と異なる。第１実施形態及び第２実施形態と同様の構成及び作用については、説明を省略する。

図１４に第３実施形態の話者方向判定部２０Ｃを例示する。図１４の話者方向判定部２０Ｃは、モデル補正部２９及び判定境界補正部２８に代えて、位相差補正部３０を含む点で、第１実施形態及び第２実施形態の話者方向判定部と相違する。

位相差補正部３０は、モデル生成部、閾値設定部、及び物理量生成部の一例であり、補正位相差ａｐａを、（１３）式に例示するように、算出する。
ａｐａ＝α（ｎｐ）＊ａｐ＋（１−α（ｎｐ））＊ｐｚ−Ｔｈ（θ）＋Ｔｈ_０
…（１３）

本実施形態では、補正位相差ａｐａと、判定境界、即ち、基準モデルで、発話方向判定装置１０の筐体１１の基準姿勢に対する傾斜に対応する推定位相差、と、を比較することで、話者方向を判定する。

図１５に、第３実施形態の話者方向判定処理の流れを例示する。図１５では、図１２のステップ１０４のモデル補正及びステップ１０５の判定境界補正に代えて、ステップ１０４Ｄの位相差補正を含む点で、第１及び第２実施形態と相違する。ＣＰＵ５１は、ステップ１０４Ｄで、例えば、（１３）式を使用して、雑音レベルｎｐ及び話者方向判定装置１０の筐体１１の基準姿勢に対する傾斜に基づいて補正した推定位相差を算出する。なお、雑音レベルに代えて、信号対雑音比を使用して、推定位相差を補正してもよい。

本実施形態では、複数のマイクロフォンを含む筐体の基準姿勢に対する傾きを示す傾き情報を取得し、複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得する。複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する。基準モデルは、筐体が基準姿勢の状態での複数のマイクロフォンへの音の入射角と筐体が基準姿勢の状態で取得される物理量との対応関係を表す。基準モデルにおける対応関係の物理量が、取得された雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成する。補正モデルにおいて取得された傾き情報によって示される傾きに応じた音の入射角に対応する物理量を、閾値として設定する。基準モデルにおいて取得された傾き情報によって示される傾きに応じた音の入射角に対応する物理量である基準閾値との関係が、取得された物理量と設定された閾値との関係と同様になるように、取得された物理量を補正して補正物理量を生成する。生成された補正物理量と基準閾値とを比較することで、複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する。

［第４実施形態］
第４実施形態では、推定位相差を使用して話者方向を判定する代わりに、推定音圧差を使用して話者方向を判定する点で、第１実施形態と相違する。第１〜第３実施形態と同様の構成及び作用については、説明を省略する。

図１６に第４実施形態の話者方向判定装置２０Ｄを例示する。図１６の話者方向判定装置２０Ｄは、位相差推定部２５の代わりに音圧差推定部２５Ｄを有する点で、第１実施形態と相違する。なお、第２及び第３の実施形態において、位相差推定部を音圧差推定部と置き換えるようにしてもよい。第３実施形態に、第４実施形態を適用する場合、位相差補正部が音圧差補正部と置き換えられる。

物理量取得部の一例である音圧差推定部２５Ｄは、（１４）式に例示するように、ｋ（ｋ＝０，１，…，Ｋ−１）番目の周波数帯域の推定音圧差ｄｐｏ（ｋ）を算出する。Ｋは、例えば、２５６であってよい。推定音圧差は、物理量の一例である。推定音圧差ｄｐｏ（ｋ）は、例えば、第１マイクで取得した音に対応する周波数領域の音信号の音圧パワーＰ_１（ｋ）と第２マイクで取得した音に対応する周波数領域の音信号の音圧パワーＰ_２（ｋ）との差である。
ｄｐｏ（ｋ）＝Ｐ_１（ｋ）−Ｐ_２（ｋ）
＝１０ｌｏｇ_１０（｜ｚ_１（ｋ）｜^２）−１０ｌｏｇ_１０（｜ｚ_２（ｋ）｜^２）
＝１０ｌｏｇ_１０（｜ｚ_１（ｋ）｜^２／｜ｚ_２（ｋ）｜^２）…（１４）
Ｐ_１（ｋ）＝１０ｌｏｇ_１０（Ｒｅ_１（ｋ）^２＋Ｉｍ_１（ｋ）^２）
＝１０ｌｏｇ_１０（｜ｚ_１（ｋ）｜^２）
Ｐ_２（ｋ）＝１０ｌｏｇ_１０（Ｒｅ_２（ｋ）^２＋Ｉｍ_２（ｋ）^２）
＝１０ｌｏｇ_１０（｜ｚ_２（ｋ）｜^２）

（１５）式に例示するように、ｚ_１（ｋ）は、第１時間周波数変換部２３で変換された、ｋ番目の周波数帯域の音信号を複素数で表現し、Ｒｅ_１（ｋ）は複素数の実部であり、Ｉｍ_１（ｋ）は複素数の虚部である。ｚ_２（ｋ）は、第２時間周波数変換部２４で変換された、ｋ番目の周波数帯域の音信号を複素数で表現し、Ｒｅ_２（ｋ）は複素数の実部であり、Ｉｍ_２（ｋ）は複素数の虚部である。
ｚ_１（ｋ）＝Ｒｅ_１（ｋ）＋ｉＩｍ_１（ｋ）
ｚ_２（ｋ）＝Ｒｅ_２（ｋ）＋ｉＩｍ_２（ｋ）…（１５）

第４実施形態では、第１〜第３実施形態の推定位相差ｄｐ（ｋ）を推定音圧差ｄｐｏ（ｋ）で置き換える。なお、第１〜第３実施形態における音の入射角と推定位相差との関係を表すモデルは、図１７に例示する音の入射角と推定音圧差との関係を表すモデルに置き換えられる。

周囲に定常雑音が存在する場合、（１６）式で例示するように、パワースペクトルＰ_ｔ１（ｋ）及びＰ_ｔ２（ｋ）には雑音の成分ｚ_Ｎ（ｋ）が含まれる。
Ｐ_ｔ１（ｋ）＝１０ｌｏｇ_１０（｜ｚ_１（ｋ）＋ｚ_Ｎ（ｋ）｜^２）
Ｐ_ｔ２（ｋ）＝１０ｌｏｇ_１０（｜ｚ_２（ｋ）＋ｚ_Ｎ（ｋ）｜^２）…（１６）

したがって、（１７）式で例示するように、推定音圧差にも雑音の成分ｚ_Ｎ（ｋ）が含まれる。
Ｐ_ｔ１（ｋ）−Ｐ_ｔ２（ｋ）
＝１０ｌｏｇ_１０（｜ｚ_１（ｋ）＋ｚ_Ｎ（ｋ）｜^２）−
１０ｌｏｇ_１０（｜ｚ_２（ｋ）＋ｚ_Ｎ（ｋ）｜^２）
＝１０ｌｏｇ_１０（｜ｚ_１（ｋ）＋ｚ_Ｎ（ｋ）｜^２／｜ｚ_２（ｋ）＋ｚ_Ｎ（ｋ）｜^２）
…（１７）

（１７）式において、雑音の成分ｚ_Ｎ（ｋ）が∞に近付くと、（１８）式に示すように、音圧差は０に近付く。

即ち、周囲の定常雑音が大きいと対象音の音圧差が埋もれてしまい、音の推定音圧差が定常雑音の音圧差に近付く。

基準モデルがφ_Ｄ＝ｆ_Ｄ（ａｐｏ）である場合の、補正モデルφ_Ｄを（１９）式に例示する。
φ_Ｄ＝ｆ_Ｄ（α_Ｄ（ｎｐ）＊ａｐｏ＋（１−α_Ｄ（ｎｐ））＊ｐｏｚ）…（１９）
ａｐｏは推定音圧差であり、ｐｏｚは不動点の推定音圧差である。推定音圧差ａｐｏは、上限周波数帯域から下限周波数帯域までの音圧差の平均値であってよいし、不動点の音圧差ｐｏｚは、例えば、０であってよい。ｆ_Ｄ（）及びα_Ｄ（）は、統計的に回帰して導出することで事前に定めておく。ｆ_Ｄ（）及びα_Ｄ（）は、線形関数、三角関数、または機械学習の何れかを使用して導出することができる。

図１８に、第４実施形態の話者方向判定処理の流れの一例を示す。ステップ１０３Ｅで音圧差を推定し、ステップ１０６Ｅで音圧差を使用して話者方向を判定している点で、図１２に例示した第１実施形態の話者方向判定処理の流れと相違する。

ＣＰＵ５１は、ステップ１０３Ｅで、例えば、（１４）式を使用して音圧差を推定し、ステップ１０６Ｅで、音圧差が判定境界以下であるか否か判定する。ステップ１０６の判定が肯定された場合、ＣＰＵ５１は、ステップ１０８に進み、ステップ１０６の判定が否定された場合、ＣＰＵ５１は、ステップ１０９に進む。

また、第１及び第２実施形態において、位相差推定部に加えて、音圧差推定部を含むようにしてもよいし、さらに、第３実施形態において、位相差補正部に加えて、音圧差補正部を含むようにしてもよい。この場合、位相差及び音圧差の両方を使用して話者方向の判定を行う。

図１９に、第１及び第２実施形態において、発話方向判定部が位相差推定部に加えて、音圧差推定部を含む場合の話者方向判定処理の流れの一例を示す。図１９では、図１２のステップ１０３の位相差算出に加えて、ステップ１０３Ｅの音圧差算出を含み、ステップ１０６の位相差による話者方向判定に加えて、ステップ１０６Ｅの音圧差による話者方向判定を含む。

ＣＰＵ５１は、ステップ１０３Ｅで音圧差を推定し、ステップ１０３で位相差を推定する。ＣＰＵ５１は、ステップ１０６Ｅで、ステップ１０３Ｅで推定した音圧差がステップ１０４で生成した音の入射角と推定音圧差との関係を表す補正モデルに話者方向判定装置１０の筐体１１の傾斜を適用して求めた音圧差の判定境界以下であるか否か判定する。

ステップ１０６Ｅの判定が肯定された場合、ＣＰＵ５１は、ステップ１０６に進む。ＣＰＵ５１は、ステップ１０６で、ステップ１０３で推定した位相差がステップ１０４で生成した音の入射角と推定位相差との関係を表す補正モデルに話者方向判定装置１０の筐体１１の傾斜を適用して求めた位相差の判定境界以下であるか否か判定する。

ステップ１０６の判定が肯定された場合、即ち、話者方向が上方であると判定された場合、ＣＰＵ５１は、ステップ１１０に進む。ステップ１０６Ｅの判定が否定された場合、または、ステップ１０６の判定が否定された場合、即ち、話者方向が前方であると判定された場合、ＣＰＵ５１は、ステップ１０９に進む。

推定位相差及び推定音圧差を組み合わせることで、何れかが適切に推定できない場合であっても、話者方向を適切に判定することが可能となる。図１９の処理は一例であり、推定位相差及び推定音圧差の判定には様々な組み合わせがあり得る。例えば、ステップ１０６Ｅの前にステップ１０６の判定が行われてもよい。

なお、マイクが２つである場合について説明したが、本実施形態はこれに限定されず、マイクは３つ以上であってもよい。例えば、話者方向判定装置は球形であってよく、マイクは、球面上に相互に等間隔に配置されていてもよい。また、話者方向判定結果が翻訳に利用される例について説明したが、本実施形態はこれに限定されない。例えば、議事録生成において、話者方向判定結果に基づいて話者を判定することで議事録を生成してもよい。

なお、図１２、図１５、図１８、及び図１９のフローチャートは例示であり、処理の順序などは適宜変更することができる。
［比較例］

図２０に、判定境界を変更しない場合、及び、話者方向判定装置の筐体の基準姿勢に対する傾斜に基づいて判定境界を変更する場合の、話者方向判定処理の正解率を例示する。また、図２０に、話者方向判定装置の筐体の基準姿勢に対する傾斜及び雑音情報に基づいて判定境界を変更する場合の、話者方向判定処理の正解率を例示する。この例では、定常雑音が５０［ｄＢＡ］及び６０［ｄＢＡ］であり、話者方向判定装置の基準姿勢に対する傾斜は４０［°］である。

判定境界を変更しない場合、図２０の左端に例示するように、話者方向判定の正解率は６３．１［％］である。話者方向判定装置の筐体の基準姿勢に対する傾斜に基づいて判定境界を変更する場合の話者方向判定の正解率は、図２０の中央に例示するように、７６．６［％］である。一方、話者方向判定装置の筐体の基準姿勢に対する傾斜及び雑音情報に基づいて判定境界を変更する場合の話者方向判定の正解率は、図２０の右端に例示するように、８８．１［％］であり、判定境界を変更しない場合と比較して、正解率が２５％向上している。

以上の各実施形態に関し、更に以下の付記を開示する。

（付記１）
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
前記補正モデルにおいて、取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
取得された前記物理量と設定された閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
話者方向判定処理をコンピュータに実行させるプログラム。
（付記２）
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
前記補正モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
前記基準モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量である基準閾値との関係が、取得された前記物理量と設定された閾値との関係と同様になるように、取得された前記物理量を補正して補正物理量を生成し、
生成された補正物理量と前記基準閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
話者方向判定処理をコンピュータに実行させるプログラム。
（付記３）
前記基準モデルは、前記音の入射角が前記物理量に比例して増加する直線であり、
取得した前記雑音情報が表す雑音レベルが大きくなるに従って、前記直線上の所定点を不動点として、前記直線の傾きを大きくすることで、前記補正モデルを生成する、
付記１または付記２のプログラム。
（付記４）
前記雑音情報は、雑音レベルまたは信号対雑音比である、
付記１〜付記３の何れかのプログラム。
（付記５）
コンピュータが、
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
前記補正モデルにおいて、取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
取得された前記物理量と設定された閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
話者方向判定方法。
（付記６）
コンピュータが、
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
前記補正モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
前記基準モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量である基準閾値との関係が、取得された前記物理量と設定された閾値との関係と同様になるように、取得された前記物理量を補正して補正物理量を生成し、
生成された補正物理量と前記基準閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
話者方向判定方法。
（付記７）
前記基準モデルは、前記音の入射角が前記物理量に比例して増加する直線であり、
取得した前記雑音情報が表す雑音レベルが大きくなるに従って、前記直線上の所定点を不動点として、前記直線の傾きを大きくすることで、前記補正モデルを生成する、
付記５または付記６の話者方向判定方法。
（付記８）
前記雑音情報は、雑音レベルまたは信号対雑音比である、
付記５〜付記７の何れかの話者方向判定方法。
（付記９）
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得する傾き情報取得部と、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得する雑音情報取得部と、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する物理量取得部と、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で前記物理量取得部で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、前記雑音情報取得部で取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成するモデル生成部と、
前記補正モデルにおいて前記傾き情報取得部によって取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定する閾値設定部と、
前記物理量取得部で取得された前記物理量と前記閾値設定部で設定された閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する判定部と、
を含む話者方向判定装置。
（付記１０）
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得する傾き情報取得部と、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得する雑音情報取得部と、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する物理量取得部と、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で前記物理量取得部で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、前記雑音情報取得部で取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成するモデル生成部と、
前記補正モデルにおいて前記傾き情報取得部によって取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定する閾値設定部と、
前記基準モデルにおいて前記傾き情報取得部によって取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量である基準閾値との関係が、前記物理量取得部で取得された前記物理量と前記閾値設定部で設定された閾値との関係と同様になるように、前記物理量取得部で取得された前記物理量を補正して補正物理量を生成する物理量生成部と、
前記物理量生成部で生成された補正物理量と前記基準閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する判定部と、
を含む話者方向判定装置。
（付記１１）
前記基準モデルは、前記音の入射角が前記物理量に比例して増加する直線であり、
前記モデル生成部は、前記雑音情報取得部で取得した雑音情報が表す雑音レベルが大きくなるに従って、前記直線上の所定点を不動点として、前記直線の傾きを大きくすることで、前記補正モデルを生成する、
付記９または付記１０の話者方向判定装置。
（付記１２）
前記雑音情報は、雑音レベルまたは信号対雑音比である、
付記９〜付記１１の何れかの話者方向判定装置。

１０話者方向判定装置
２０話者方向判定部
２０子機
２５位相差推定部
２６傾斜取得部
２７雑音レベル推定部
２９モデル補正部
３１方向判定部
５１ＣＰＵ
５２一次記憶部
５３二次記憶部
Ｍ０１第１マイク
Ｍ０２第２マイク

Claims

複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
前記補正モデルにおいて、取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
取得された前記物理量と設定された閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
話者方向判定処理をコンピュータに実行させるプログラム。
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
前記補正モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
前記基準モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量である基準閾値との関係が、取得された前記物理量と設定された閾値との関係と同様になるように、取得された前記物理量を補正して補正物理量を生成し、
生成された補正物理量と前記基準閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
話者方向判定処理をコンピュータに実行させるプログラム。
前記基準モデルは、前記音の入射角が前記物理量に比例して増加する直線であり、
取得した前記雑音情報が表す雑音レベルが大きくなるに従って、前記直線上の所定点を不動点として、前記直線の傾きを大きくすることで、前記補正モデルを生成する、
請求項１または請求項２に記載のプログラム。
前記雑音情報は、雑音レベルまたは信号対雑音比である、
請求項１〜請求項３の何れか１項に記載のプログラム。
コンピュータが、
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
前記補正モデルにおいて、取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
取得された前記物理量と設定された閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
話者方向判定方法。
コンピュータが、
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得し、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成し、
前記補正モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定し、
前記基準モデルにおいて取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量である基準閾値との関係が、取得された前記物理量と設定された閾値との関係と同様になるように、取得された前記物理量を補正して補正物理量を生成し、
生成された補正物理量と前記基準閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する、
話者方向判定方法。
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得する傾き情報取得部と、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得する雑音情報取得部と、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する物理量取得部と、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で前記物理量取得部で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、前記雑音情報取得部で取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成するモデル生成部と、
前記補正モデルにおいて前記傾き情報取得部によって取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定する閾値設定部と、
前記物理量取得部で取得された前記物理量と前記閾値設定部で設定された閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する判定部と、
を含む話者方向判定装置。
複数のマイクロフォンを含む筐体の所定の方向である基準姿勢の方向に対する傾きを示す傾き情報を取得する傾き情報取得部と、
前記複数のマイクロフォンで取得された複数の音信号の各々の少なくとも１つに含まれる雑音に関する雑音情報を取得する雑音情報取得部と、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、位相差および音圧差の少なくとも一方を示す物理量を取得する物理量取得部と、
前記筐体が前記基準姿勢の状態での前記複数のマイクロフォンへの音の入射角と前記筐体が前記基準姿勢の状態で前記物理量取得部で取得される物理量との対応関係を表す基準モデルにおける前記対応関係の物理量が、前記雑音情報取得部で取得された前記雑音情報によって示される雑音レベルに対応する大きさとなるように補正した補正モデルを生成するモデル生成部と、
前記補正モデルにおいて前記傾き情報取得部によって取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量を、閾値として設定する閾値設定部と、
前記基準モデルにおいて前記傾き情報取得部によって取得された前記傾き情報によって示される傾きに応じた前記音の入射角に対応する物理量である基準閾値との関係が、前記物理量取得部で取得された前記物理量と前記閾値設定部で設定された閾値との関係と同様になるように、前記物理量取得部で取得された前記物理量を補正して補正物理量を生成する物理量生成部と、
前記物理量生成部で生成された補正物理量と前記基準閾値とを比較することで、前記複数のマイクロフォンで取得された複数の音信号に対応する発話を行っている話者が存在する方向である話者方向を判定する判定部と、
を含む話者方向判定装置。