JP2020197565A

JP2020197565A - 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置

Info

Publication number: JP2020197565A
Application number: JP2019102058A
Authority: JP
Inventors: 智佳子松本; Chikako Matsumoto
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2020-12-10
Anticipated expiration: 2039-05-31
Also published as: JP7226107B2; US11227625B2; US20200381008A1

Abstract

【課題】高雑音環境下において、話者が存在する方向の判定精度を向上させることを目的とする。【解決手段】複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定する。複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する。算出された位相差、及び設定された複数の話者領域に基づいて、複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する。算出された代表値の大きさを比較し、代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する。【選択図】図４

Description

本発明は、話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置に関する。

複数のマイクロフォンを含むマイクアレイを使用して、発声データから、発話者が存在する方向である話者方向を判定する技術が存在する。しかしながら、マイクアレイを使用して話者方向を判定しようとする際に、対象話者の発声ではない音である雑音が多く存在すると、話者方向を適切に判定することが困難となる。

話者方向が適切に判定されていないと、マイクアレイを備えたウェアラブル端末などで、話者方向によって実行する処理を切り替える場合に、適切な処理への切り替えが行われない。例えば、翻訳元の言語及び翻訳先の言語を話者方向によって話者を判定して切り替える場合、話者方向が適切に判定されていないと、適切な翻訳が実行されない。したがって、高雑音環境下においても話者方向判定精度を向上させる技術が求められている。

特開２０１７−１２５８９３号公報特許５３８７４５９号公報

話者方向を判定する際に、位相差、即ち、音の到達時間差を使用することが考えられる。例えば、端末の筐体の上面部及び前面部にマイクロフォン（以下、マイクという。）が存在する場合、筐体前方からの音は、上面部のマイクロフォンより先に前面部のマイクに到達する。一方、筐体上方からの音は、前面部のマイクロフォンより先に上面部のマイクに到達する。

筐体前方からの音であるか、筐体上方からの音であるかは、予め設定されている音の入射角及び位相差のモデルと、判定境界と、により判定する。しかしながら、高雑音環境下では、音に対応する周波数領域の音信号の位相差に雑音の位相差が混入するため、話者方向を適切に判定することが困難となる。

本開示は、高雑音環境下において、話者が存在する方向の判定精度を向上させることを目的とする。

１つの実施形態では、複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定する。複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する。算出された位相差、及び設定された複数の話者領域に基づいて、複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する。算出された代表値の大きさを比較し、代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する。

本開示は、高雑音環境下において、話者が存在する方向の判定精度を向上させることを可能とする。

話者方向判定装置を含む翻訳システムを例示するブロック図である。第１実施形態の話者方向判定装置を例示するブロック図である。第１実施形態の話者領域を例示する概念図である。位相差領域に含まれる位相差を例示する概念図である。位相差領域の位相差数を例示する概念図である。第１〜第４実施形態の話者方向判定装置のハードウェア構成を例示するブロック図である。第１実施形態の話者方向判定処理の流れを例示するフローチャートである。第２実施形態の話者方向判定装置を例示するブロック図である。話者方向判定装置を含む翻訳システムの外観を例示する概念図である。話者領域を例示する概念図である。位相差領域に含まれる位相差を例示する概念図である。位相差領域毎の位相差数の時間平均値を例示する概念図である。話者領域を例示する概念図である。第２実施形態の話者方向判定処理の流れを例示するフローチャートである。位相差領域毎の位相差数の時間平均値を例示する概念図である。第３実施形態の話者方向判定装置を例示するブロック図である。第３実施形態の補正係数を例示する概念図である。第３実施形態の話者方向判定処理の流れを例示するフローチャートである。第４実施形態の話者方向判定装置を例示するブロック図である。第４実施形態の補正係数を例示する概念図である。第４実施形態の位相差数取得処理の流れを例示するフローチャートである。話者方向判定結果を例示する概念図である。位相差領域に含まれる位相差を例示する概念図である。位相差領域に含まれる位相差を例示する概念図である。

［第１実施形態］
以下、図面を参照して第１実施形態の一例を詳細に説明する。第１実施形態では、話者の各々に対応する話者領域を設定し、話者領域の各々に対応する位相差領域の各々に含まれる位相差数の代表値を比較することで、話者が存在する方向である話者方向を判定する。

図１に、翻訳システム１を例示する。翻訳システム１は、話者方向判定装置１０Ａ、音声認識装置７０及び翻訳装置６０を含む。話者方向判定装置１０Ａは、話者方向判定結果を、音声認識装置７０に送信し、話者方向判定結果を受信した音声認識装置７０は、判定された話者方向に基づいて、音信号が話者Ｐ０１の発話であるか、話者Ｐ０２の発話であるかを判定する。話者Ｐ０１の発話である場合、音声認識装置６０は、音信号に対して第１言語の音声認識を行い、音声認識結果を翻訳装置６０に送信する。話者Ｐ０２の発話である場合、音声認識装置６０は、音信号に対して第２言語の音声認識を行い、音声認識結果を翻訳装置６０に送信する。

翻訳装置６０は、受信した音声認識結果を使用して、話者Ｐ０１の発話である場合、第１言語から第２言語に翻訳し、例えば、スピーカから音声として翻訳結果を出力する。翻訳装置６０は、受信した音声認識結果を使用して、話者Ｐ０２の発話である場合、第２言語から第１言語に翻訳し、例えば、スピーカから音声として翻訳結果を出力する。

図２に、話者方向判定装置１０Ａを例示する。話者方向判定装置１０Ａは、第１音受付部１１、第２音受付部１２、第１時間周波数変換部１３、第２時間周波数変換部１４、位相差算出部１５、位相差領域設定部１６、位相差数取得部１７、位相差数平均値算出部１８、及び、方向判定部２２を含む。

第１音受付部１１は、第１マイクロフォン（以下、マイクロフォンをマイクと呼ぶ。）で検出された音のアナログ信号から変換された時間領域の音のデジタル信号（以下、音のデジタル信号を音信号と呼ぶ。）を受け付け、第２音受付部１２は、第２マイクで検出された音のアナログ信号から変換された時間領域の音信号を受け付ける。第１時間周波数変換部１３は、例えば、ＦＦＴ（Fast Fourier Transformation）を使用して第１音受付部１１で受け付けた時間領域の音信号を周波数領域の音信号に変換し、第２時間周波数変換部１４は、第２音受付部１２で受け付けた時間領域の音信号を周波数領域の音信号に変換する。

位相差算出部１５は、第１時間周波数変換部１３で周波数領域に変換された音信号と、第２時間周波数変換部１４で周波数領域に変換された音信号と、の位相差を時間周波数変換の周波数帯域毎に算出する。

設定部の一例である位相差領域設定部１６は、話者の各々に対応する話者領域及び話者領域の各々に対応する位相差領域を設定する。話者領域は、対応する話者の位置、移動範囲などに応じて予め決定されている。本実施形態では、話者Ｐ０１に対応する話者領域Ｅ０１及び話者Ｐ０２に対応する話者領域Ｅ０２を設定し、話者Ｐ０１に対応する位相差領域Ａ０１及び話者Ｐ０２に対応する位相差領域Ａ０２を設定する。

図３に、話者Ｐ０１が存在する領域である話者領域Ｅ０１及び話者Ｐ０２が存在する領域である話者領域Ｅ０２を例示する。話者方向判定装置１０Ａを含む翻訳システム１の筐体１Ａの前面には、第１マイクＭ０１及び第２マイクＭ０２が近接して配置されている。図３は、筐体１Ａを上方から見た図である。

話者領域Ｅ０１及びＥ０２は、第１マイクＭ０１及び第２マイクＭ０２を含むマイクアレイを基点として各々異なる方向に設定される。本実施形態では、話者領域Ｅ０１の基点に接する頂点の角度と話者領域Ｅ０２の基点に接する頂点の角度とが略等しい例について説明する。なお、図３に例示する話者領域Ｅ０１及びＥ０２の面積は一例であり、面積は、図３の例示より大きくてもよいし、小さくてもよい。

図４は、話者領域Ｅ０１及びＥ０２が図３に例示するように設定された場合の位相差領域を例示する。図４の位相差領域Ａ０１は図３の話者領域Ｅ０１に対応し、図４の位相差領域Ａ０２は図３の話者領域Ｅ０２に対応する。

図２の位相差数取得部１７は、図４の位相差領域Ａ０１に含まれる位相差の数である位相差数を取得し、位相差領域Ａ０２に含まれる位相差の数である位相差数を取得する。図４に、所定の時刻において、位相差領域Ａ０１及び位相差領域Ａ０２の各々に含まれる位相差を例示する。図４の縦軸は位相差［ｒａｄ］を表し、横軸は周波数［Ｈｚ］を表す。図４において、位相差は丸で表される。図４の例では、位相差領域Ａ０２の位相差数が、位相差領域Ａ０１の位相差数より多い。

代表値算出部の一例である位相差数平均値算出部１８は、位相差領域Ａ０１の位相差数の時間平均値、及び、位相差領域Ａ０２の位相差数の時間平均値を算出する。位相差数の時間平均値は、位相差数の代表値の一例である。ＦＦＴの対象フレームｔの対象位相差領域の位相差数の時間平均値ＡｖｒＮ_ｔは、例えば、（４）式を使用して算出される。
ＡｖｒＮ_ｔ＝（１．０−γ）×ＡｖｒＮ_ｔ−１＋γ×Ｎ_ｔ …（４）

γは、忘却係数（γ＜１．０）であり、ＡｖｒＮ_ｔ−１は、対象フレームｔの１つ前のフレームｔ−１における位相差数の時間平均値であり、Ｎ_ｔは対象フレームｔにおいて対象位相差領域に含まれる位相差数である。なお、代表値は時間平均値に限定されず、対象フレームの前後の所定数フレームの位相差数の平均値であってもよいし、対象フレームの前後の所定数フレームの位相差数の中間値であってもよい。

判定部の一例である方向判定部２２は、位相差領域Ａ０１の位相差数の時間平均値と位相差領域Ａ０２の位相差数の時間平均値とを比較することで話者方向を判定する。即ち、位相差数の時間平均値が大きい方の位相差領域側に話者が存在することを判定する。

図５は、位相差領域Ａ０１の位相差数の時間平均値及び位相差領域Ａ０２の位相差数の時間平均値を例示する。図５の縦軸は位相差数の時間平均値を表し、横軸は時間［ｓ］を表す。図５において、実線は位相差領域Ａ０１の位相差数の時間平均値を表し、破線は位相差領域Ａ０２の位相差数の時間平均値を表す。

例えば、時間Ｔ０１では、位相差領域Ａ０２の位相差数の時間平均値が位相差領域Ａ０１の位相差数の時間平均値より大きい。したがって、方向判定部２２は、話者Ｐ０２が発話していると判定する。

話者方向判定装置１０Ａは、一例として、図６に示すように、ＣＰＵ（Central Processing Unit）５１、一次記憶部５２、二次記憶部５３、外部インタフェース５４、第１マイクＭ０１及び第２マイクＭ０２を含む。ＣＰＵ５１は、ハードウェアであるプロセッサの一例である。ＣＰＵ５１、一次記憶部５２、二次記憶部５３、外部インタフェース５４、第１マイクＭ０１及び第２マイクＭ０２は、バス５９を介して相互に接続されている。

一次記憶部５２は、例えば、ＲＡＭ（Random Access Memory）などの揮発性のメモリである。二次記憶部５３は、例えば、ＨＤＤ（Hard Disk Drive）、又はＳＳＤ（Solid State Drive）などの不揮発性のメモリである。

二次記憶部５３は、プログラム格納領域５３Ａ及びデータ格納領域５３Ｂを含む。プログラム格納領域５３Ａは、一例として、話者方向判定プログラムなどのプログラムを記憶している。データ格納領域５３Ｂは、一例として、位相差領域に関する情報、及び、話者方向判定プログラムを実行している間に生成される中間データなどを記憶する。

ＣＰＵ５１は、プログラム格納領域５３Ａから話者方向判定プログラムを読み出して一次記憶部５２に展開する。ＣＰＵ５１は、話者方向判定プログラムをロードして実行することで、図２の第１音受付部１１、第２音受付部１２、第１時間周波数変換部１３、及び、第２時間周波数変換部１４として動作する。ＣＰＵ５１は、また、位相差算出部１５、位相差領域設定部１６、位相差数取得部１７、位相差数平均値算出部１８、及び、方向判定部２２として動作する。

なお、話者方向判定プログラムなどのプログラムは、外部サーバに記憶され、ネットワークを介して、一次記憶部５２に展開されてもよい。また、話者方向判定プログラムなどのプログラムは、ＤＶＤ（Digital Versatile Disc）などの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部５２に展開されてもよい。

外部インタフェース５４には外部装置が接続され、外部インタフェース５４は、外部装置とＣＰＵ５１との間の各種情報の送受信を司る。第１マイクＭ０１及び第２マイクＭ０２は、外部インタフェース５４を介して、外部装置として、話者方向判定装置１０Ａと接続されている。第１マイクＭ０１及び第２マイクＭ０２は音を検出する。

話者方向判定装置１０Ａのみが筐体１Ａに含まれ、話者方向判定結果は、外部インタフェース５４を介して有線または無線の通信により、音声認識装置７０に送信されてもよい。話者方向判定装置１０Ａを含む翻訳システム１は、例えば、パーソナルコンピュータであってもよいし、スマートフォンであってもよいし、専用のデバイスであってもよい。

次に、話者方向判定処理の作用の概要について説明する。図７は、話者方向判定処理の流れを例示する。

ＣＰＵ５１は、ステップ１０１で、第１マイクＭ０１及び第２マイクＭ０２の各々で検出された音に対応する時間領域の音信号を取得する。ＣＰＵ５１は、ステップ１０２で、取得された時間領域の音信号の各々を周波数領域の音信号に変換する。変換は、例えば、Fourier Frequency Transformation（ＦＦＴ）で行われる。

ＣＰＵ５１は、ステップ１０３で、周波数領域の音信号の周波数帯域毎の位相差を算出する。ＣＰＵ５１は、ステップ１０４で、予め設定されている、話者毎の話者領域の各々に対応する位相差領域の各々に含まれる位相差数を取得する。ＣＰＵ５１は、例えば、話者Ｐ０１の位相差領域Ａ０１に含まれる位相差数及び話者Ｐ０２の位相差領域Ａ０２に含まれる位相差数を取得する。

ＣＰＵ５１は、ステップ１０５で、位相差領域の各々の位相差数の時間平均値を算出する。詳細には、ＣＰＵ５１は、例えば、位相差領域Ａ０１の位相差数の時間平均値及び位相差領域Ａ０２の位相差数の時間平均値を算出する。

ＣＰＵ５１は、ステップ１０７で、位相差領域の各々の位相差数の時間平均値を比較する。ＣＰＵ５１は、例えば、位相差領域Ａ０１の位相差数の時間平均値と位相差領域Ａ０２の位相差数の時間平均値とを比較する。

位相差領域Ａ０１の位相差数の時間平均値が位相差領域Ａ０２の位相差数の時間平均値以上である場合、ＣＰＵ５１は、ステップ１０８に進み、話者方向が位相差領域Ａ０１側であると判定する。位相差領域Ａ０１が話者Ｐ０１に対応付けられている場合、ＣＰＵ５１は、話者Ｐ０１が発話していることを判定し、話者方向判定処理を終了する。

ステップ１０７の判定が否定された場合、即ち、位相差領域Ａ０１の位相差数の時間平均値が位相差領域Ａ０２の位相差数時間平均値より小さい場合、ＣＰＵ５１は、ステップ１１０に進む。ＣＰＵ５１は、ステップ１１０で、話者方向が位相差領域Ａ０２側であると判定する。位相差領域Ａ０２が話者Ｐ０２に対応付けられている場合、ＣＰＵ５１は、話者Ｐ０２が発話していることを判定し、話者方向判定処理を終了する。

なお、本実施形態は、２つのマイクに限定されない。３つ以上のマイクを使用してもよい。また、本実施形態は、２つの位相差領域に限定されない。３つ以上の位相差領域を設定してもよい。

本実施形態では、複数の話者領域の各々を、複数のマイクを含むマイクアレイを基点として各々異なる方向に設定し、複数のマイクで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する。算出された位相差、及び、設定された複数の話者領域に基づいて、複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する。算出された代表値の大きさを比較し、代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する。

本実施形態では、複数の位相差領域の各々の位相差の個数の代表値に基づいて話者方向を判定しているため、高雑音環境下において、話者が存在する方向の判定精度を向上させることができる。

［第２実施形態］
以下、図面を参照して第２実施形態の一例を詳細に説明する。第１実施形態と同様の構成及び作用については、説明を省略する。

第２実施形態では、複数の位相差領域の大きさが相互に異なる点が、第１実施形態と異なる。図８に例示する話者方向判定装置１０Ｂは、補正係数算出部１９及び位相差数平均値補正部２１を含む点で、図２に例示した第１実施形態の話者方向判定装置１０Ａと異なる。

第２実施形態では、図９に例示するように、第１マイクＭ１１は、話者方向判定装置を含む翻訳システム１Ｄの筐体１１Ｄの上面に配置され、第２マイクＭ１２は、翻訳システム１Ｄの前面に配置されている。

図１０に例示するように、翻訳システム１Ｄを、筐体１１Ｄの背面が話者側を向くように胸元に装着した話者Ｐ１１が、話者Ｐ１１より身長が低い話者Ｐ１２Ａと対話する場合が想定される。また、話者Ｐ１１が、話者Ｐ１１より身長が高い話者Ｐ１２Ｂと対話する場合も想定される。

このような場合、図１０に例示するように、話者Ｐ１１が存在する第１話者領域Ｅ１１よりも、話者Ｐ１２Ａ及び話者Ｐ１２Ｂの両方に対応することができる第２話者領域Ｅ１２は、広く設定される。一方、第１話者領域Ｅ１１は、話者方向判定装置１０Ｂを含む翻訳システム１Ｄの装着位置と話者Ｐ１１の口の位置とに基づいて、比較的狭く設定することができる。

図１１は、図１０に例示するように話者領域が設定された場合の位相差領域を例示する。図１１の位相差領域Ａ１１は、図１０の話者領域Ｅ１１に対応し、図１１の位相差領域Ａ１２は図１０の話者領域Ｅ１２に対応する。図１０に例示するように、話者領域Ｅ１１が狭く話者領域Ｅ１２が広いため、話者領域Ｅ１１に対応する位相差領域Ａ１１が狭く、話者領域Ｅ１２に対応する位相差領域Ａ１２が広く設定される。

第２位相差領域Ａ１２が第１位相差領域Ａ１１よりも広いため、図１１に例示するように、位相差領域Ａ１２に含まれる位相差数が位相差領域Ａ１１に含まれる位相差数よりも多くなる傾向が生じる。位相差領域が広いと、雑音の位相差もより多く含まれるためである。図１１の縦軸は位相差[ｒａｄ]を表し、横軸は周波数［Ｈｚ］を表す。図１１において、位相差は丸で表されている。

図１２の下図に、第１位相差領域Ａ１１の位相差数の時間平均値を実線で例示し、第２位相差領域Ａ１２の位相差数の時間平均値を破線で例示する。図１２の下図の縦軸は位相差数の平均値を表し、横軸は時間［ｓ］を表す。

図１２の上図に例示する話者Ｐ１１の発話時間である時間Ｔ０２であっても、図１２の下図に例示するように、第１位相差領域Ａ１１の位相差数の時間平均値は、第２位相差領域Ａ１２の位相差数の時間平均値よりも小さい。この結果、単に、第１位相差領域Ａ１１の位相差数の時間平均値と第２位相差領域Ａ１２の位相差数の時間平均値とを比較した場合、話者方向が適切に判定されず、話者Ｐ１１の発話が話者Ｐ１２の発話であると誤認識される虞が生じる。

第２実施形態では、誤認識を防止するために、広い方の位相差領域である第２位相差領域Ａ１２を基準として、補正係数を算出し、算出した補正係数で狭い方の位相差領域である第２位相差領域の位相差数の時間平均値を補正する。補正係数算出部１９は、例えば、話者領域の中心角の角度に基づいて、補正係数を算出する。即ち、補正係数は、話者領域各々の面積比から算出される。

図１３に例示するように、第１話者領域Ｅ１１の基点に接する頂点の角度がθ_Ａ［°］であり、第２話者領域Ｅ１２の基点に接する頂点の角度がθ_Ｂ［°］である場合、補正係数α_１は、例えば、（５）式を使用して算出される。
α_１＝（πｒ^２×θ_Ｂ／３６０）／（πｒ^２×θ_Ａ／３６０）＝θ_Ｂ／θ_Ａ…（５）

ここでは、第１話者領域Ｅ１１及び第２話者領域Ｅ１２の各々が、半径ｒの円に含まれる扇形であると仮定する。位相差数平均値補正部２１は、狭い方の位相差領域である第１位相差領域Ａ１１の位相差数の時間平均値に補正係数α_１を乗算する。

次に、話者方向判定処理の作用の概要について説明する。図１４では、図７のステップ１０７、ステップ１０８、及びステップ１１０がステップ１０７Ｄ、ステップ１０８Ｄ、及びステップ１１０Ｄと置き替えられている。ＣＰＵ５１は、ステップ１０７Ｄで、第１位相差領域Ａ１１の位相差数の時間平均値に補正係数α_１を乗算した値が、第２位相差領域Ａ１２の位相差数の時間平均値以上であるか否か判定する。ステップ１０７Ｄの判定が肯定された場合、ＣＰＵ５１は、ステップ１０８Ｄに進み、話者方向が第１位相差領域Ａ１１側であると判定し、話者方向判定処理を終了する。

ステップ１０７Ｄの判定が否定された場合、即ち、第１位相差領域Ａ１１の位相差数の時間平均値に補正係数α_１を乗算した値が、第２位相差領域Ａ１２の位相差数の時間平均値より小さい場合、ＣＰＵ５１は、ステップ１１０Ｄに進む。ＣＰＵ５１は、ステップ１１０Ｄで、話者方向が第２位相差領域Ａ１２側であると判定し、話者方向判定処理を終了する。

補正係数α_１を適用することで、図１５の下図に例示するように、図１５の上図に例示する、話者Ｐ１１の発話時間である時間Ｔ０２において、第１位相差領域Ａ１１の位相差数の時間平均値が第２位相差領域Ａ１２の位相差数の時間平均値よりも大きくなる。これにより、時間Ｔ０２において、話者Ｐ１１が発話していることが適切に判定される。

なお、狭い方の位相差領域である第１位相差領域Ａ１１の位相差数の時間平均値に補正係数を乗算する例について説明したが、本実施形態はこれに限定されない。例えば、広い方の位相差領域である第２位相差領域Ａ１２の位相差数の時間平均値を補正係数で除算するようにしてもよい。また、補正係数α_１Ｄを（６）式で算出して、広い方の位相差領域である第２位相差領域Ａ１２の位相差数の時間平均値に乗算するようにしてもよい。
α_１Ｄ＝（πｒ^２×θ_Ａ／３６０）／（πｒ^２×θ_Ｂ／３６０）＝θ_Ａ／θ_Ｂ…（６）

本実施形態では、複数の話者領域の各々を、複数のマイクを含むマイクアレイを基点として各々異なる方向に設定し、複数のマイクで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する。算出された位相差、及び、設定された複数の話者領域の各々に対応する複数の位相差領域の各々に基づいて、複数の位相差領域の各々に属する位相差の個数の代表値を算出する。算出された代表値の大きさを比較し、代表値が大きい位相差領域に対する話者領域の方向を話者の存在方向であると判定する。

本実施形態では、複数の話者領域の大きさが相違する場合には、複数の話者領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用して、話者の存在方向を判定する。

本実施形態では、複数の位相差領域の各々の位相差の個数の代表値に基づいて話者方向を判定しているため、高雑音環境下において、話者が存在する方向の判定精度を向上させることができる。また、複数の話者領域の大きさが相違する場合であっても、複数の話者領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用するため、話者が存在する方向の判定精度を向上させることができる。

［第３実施形態］
以下、図面を参照して第３実施形態の一例を詳細に説明する。第１実施形態及び第２実施形態と同様の構成及び作用については、説明を省略する。

第３実施形態では、補正係数を位相差数の時間平均値に基づいて算出する点で、第２実施形態と異なる。図１６に例示する話者方向判定装置１０Ｃは、補正係数算出部１９に代えて、補正係数算出部１９Ｄを含み、位相差数平均値補正部２１に代えて、位相差数平均値補正部２１Ｄを含む点で、図８に例示した第２実施形態の話者方向判定装置１０Ｂと異なる。

補正係数算出部１９Ｄは、例えば、図１７に例示するように、（７）式で、補正係数α_２を算出する。ａｖｇは、広い方の位相差領域の位相差数の時間平均値であり、Ｃ_１、Ｃ_２、Ｈ_１、及びＨ_２は所定の定数である。
α_２＝Ｃ_１（≧１．０）（ａｖｇ≦Ｈ_１である場合）
α_２＝Ｃ_２（＞Ｃ_１）（ａｖｇ≧Ｈ_２（＞Ｈ_１）である場合）
α_２＝Ｃ_１＋（Ｃ_２−Ｃ_１）×（ａｖｇ−Ｈ_１）/（Ｈ_２−Ｈ_１）
（Ｈ_１＜ａｖｇ＜Ｈ_２である場合） …（７）

図１７の横軸は広い方の位相差領域の位相差数の時間平均値を表し、縦軸は補正係数α_２を表す。

次に、話者方向判定処理の作用の概要について説明する。図１８では、補正係数α_２を算出するステップ１０６がステップ１０５の後に追加され、ステップ１０７Ｄ、ステップ１０８Ｄ、及びステップ１１０Ｄがステップ１０７Ｅ、ステップ１０８Ｅ、及びステップ１１０Ｅと各々置き替えられている点で、図１４と異なる。ステップ１０６では、例えば、（７）式を使用して、補正係数α_２を算出する。

ステップ１０７Ｅでは、狭い方の話者領域に対応する位相差領域である第１位相差領域Ａ２１の位相差数の時間平均値に補正係数α_２を乗算した値が、第２位相差領域Ａ２２の位相差数の時間平均値以上であるか否か判定する。ステップ１０７Ｅの判定が肯定された場合、ＣＰＵ５１は、ステップ１０８Ｅで、話者方向が第１位相差領域Ａ２１側であると判定し、話者方向判定処理を終了する。

ステップ１０７Ｅの判定が否定された場合、即ち、第１位相差領域Ａ２１の位相差数の時間平均値に補正係数α_２を乗算した値が、第２位相差領域Ａ２２の位相差数の時間平均値より小さい場合、ＣＰＵ５１は、ステップ１１０Ｅに進む。ＣＰＵ５１は、ステップ１１０Ｅで、話者方向が第２位相差領域Ａ２２側であると判定し、話者方向判定処理を終了する。

なお、本実施形態では、広い方の話者領域に対応する位相差領域の位相差数の時間平均値に基づいて、話者領域の面積の差による位相差数の差を緩衝する補正係数を算出する。本実施形態では、算出した補正係数を狭い方の話者領域に対応する位相差領域の位相差数の時間平均値に適用する。しかしながら、本実施形態はこれに限定されない。狭い方の話者領域に対応する位相差領域の位相差数の時間平均値に基づいて、面積の差による位相差数の差を緩衝する補正係数を算出し、算出した補正係数を広い方の話者領域に対応する位相差領域の位相差数の時間平均値に適用するようにしてもよい。

本実施形態では、複数の話者領域の大きさが相違する場合には、複数の話者領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する。補正係数は、複数の位相差領域の何れか１つの位相差領域の代表値に基づいて決定される。補正係数は、補正係数の決定に使用した代表値が大きくなるに従って大きくなるように定められる、

また、本実施形態では、補正係数は、複数の位相差領域の何れか１つの位相差領域の代表値に基づいて決定される。補正係数が、位相差数の時間平均値の変動に基づいて変動するため、話者が存在する方向の判定精度を向上させることができる。

[第４実施形態]
以下、図面を参照して第４実施形態の一例を詳細に説明する。第１実施形態、第２実施形態、及び第３実施形態と同様の構成及び作用については、説明を省略する。

第４実施形態では、信号対雑音比（以下、ＳＮＲ（Signal to Noise Ratio）と呼ぶ。）が所定値より大きい周波数帯域の位相差を計数する点で、第１実施形態、第２実施形態、及び第３実施形態と異なる。また、補正係数を定常雑音モデル推定値に基づいて算出する点で、第２実施形態、及び第３実施形態と異なる。

第４実施形態の話者方向判定装置１０Ｄは、図１９に例示するように、ＳＮＲ算出部２０を含む。話者方向判定装置１０Ｄは、位相差数取得部１７及び位相差数平均値補正部２１Ｄに代えて、位相差数取得部１７Ｅ及び位相差数平均値補正部２１Ｅを有する点で、話者方向判定装置１０Ｃと異なる。

ＳＮＲ算出部２０は、複数のマイクの何れかで取得した音に対応する周波数領域の音信号の周波数帯域毎の定常雑音モデルを推定する。定常雑音モデルの推定には、例えば、特許文献２に記されているような既存の技術を適用することができる。位相差数取得部１７Ｅは、周波数領域の音信号の周波数帯域毎のＳＮＲを算出する。ＳＮＲは、例えば、周波数帯域毎の音圧の振幅を、対応する定常雑音モデルで除算することで算出することができる。

位相差数取得部１７Ｅは、算出したＳＮＲが所定値より大きい場合に、位相差領域の各々の当該周波数帯域に存在する位相差を計数する。例えば、第１位相差領域の当該周波数帯域に存在する位相差を計数し、第２位相差領域の当該周波数帯域に存在する位相差を計数する。即ち、ＳＮＲが所定値以下である場合には、当該周波数帯域の位相差を計数しない。

補正係数算出部１９Ｅは、図２０に例示するように、例えば、（８）式で、補正係数α_３を算出する。ｃｎｍは、広い方の話者領域に対応する位相差領域である第２位相差領域の定常雑音モデル推定値［ｄＢＡ］であり、Ｄ_１、Ｄ_２、Ｊ_１、及びＪ_２は所定の定数である。
α_３＝Ｄ_１（≧１．０）（ｃｎｍ≦Ｊ_１である場合）
α_３＝Ｄ_２（＞Ｄ_１）（ｃｎｍ≧Ｊ_２（＞Ｊ_１）である場合）
α_３＝Ｄ_１＋（Ｄ_２−Ｄ_１）×（ｃｎｍ−Ｊ_１）/（Ｊ_２−Ｊ_１）
（Ｊ_１＜ｃｎｍ＜Ｊ_２である場合） …（８）

図２０の横軸は、定常雑音モデル推定値［ｄＢＡ］を表し、縦軸は補正係数α_３を表す。補正係数α_３は、狭い方の話者領域に対応する位相差領域である第１位相差領域の位相差数の時間平均値を補正するために、当該時間平均値に乗算される。

次に、話者方向判定処理の作用の概要について説明する。ここでは、第１〜第３実施形態と異なる位相差数取得処理について説明する。図２１に、位相差数取得処理の流れを例示する。ＣＰＵ５１は、ステップ１２１で、変数ｉ、Ｎ１及びＮ２に０をセットする。変数ｉは、周波数帯域数をカウントし、Ｎ１は第１位相差領域の位相差数を計数し、Ｎ２は第２位相差領域の位相差数を計数するために使用される。

ＣＰＵ５１は、ステップ１２２で、変数ｉの値がＦＦＴフレーム数、即ち、周波数帯域数の最大値より小さいか否か判定する。ステップ１２２の判定が肯定された場合、ＣＰＵ５１は、ステップ１２３で、ｉ番目の周波数帯域の定常雑音モデルを推定し、ステップ１２４で、ｉ番目の周波数帯域のＳＮＲを算出する。

ＣＰＵ５１は、ステップ１２５で、ＳＮＲが所定値より大きいか否か判定する。ステップ１２５の判定が肯定された場合、ＣＰＵ５１は、ステップ１２６で、ｉ番目の周波数帯域の位相差が第１位相差領域内に存在するか否か判定する。ステップ１２６の判定が肯定された場合、ＣＰＵ５１は、ステップ１２７で、変数Ｎ１の値に１を加算して、ステップ１３０に進む。

ステップ１２６の判定が否定された場合、ＣＰＵ５１は、ステップ１２８で、ｉ番目の周波数帯域の位相差が第２位相差領域内に存在するか否か判定する。ステップ１２８の判定が肯定された場合、ＣＰＵ５１は、ステップ１２９で、変数Ｎ２の値に１を加算して、ステップ１３０に進む。ステップ１２８の判定が否定された場合も、ＣＰＵ５１は、ステップ１３０に進む。

ＣＰＵ５１は、ステップ１３０で、変数ｉに１を加算して、ステップ１２２に戻る。ステップ１２２の判定が否定された場合、即ち、変数ｉの値がＦＦＴフレーム数以上である場合、ＣＰＵ５１は位相差数取得処理を終了する。

なお、本実施形態では、（８）式を使用して補正係数を算出する例について説明した。しかしながら、例えば、本実施形態で、第２及び第３実施形態で説明した補正係数を使用してもよいし、（８）式を使用して算出した補正係数を第２または第３実施形態で説明した例に使用してもよい。また、第１実施形態で説明した例と同様に、本実施形態で、補正係数を使用しなくてもよい。

なお、本実施形態では、広い方の話者領域に対応する位相差領域の定常雑音モデル推定値に基づいて補正係数を算出し、狭い方の話者領域に対応する位相差領域の代表値に適用する例について説明しているが、本実施形態はこれに限定されない。例えば、広い方の話者領域に対応する位相差領域の定常雑音モデル推定値に基づいて、広い方の話者領域に対応する位相差領域の代表値を補正する補正係数を算出し、広い方の話者領域に対応する位相差領域に適用してもよい。または、狭い方の話者領域に対応する位相差領域の定常雑音モデル推定値に基づいて、広い方の話者領域に対応する位相差領域の代表値を補正する補正係数を算出し、広い方の話者領域に対応する位相差領域に適用してもよい。

本実施形態では、複数の位相差領域の大きさが相違する場合には、複数の位相差領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する。本実施形態では、補正係数は、複数の位相差領域の何れか１つの位相差領域の定常雑音モデル推定値が大きくなるに従って大きくなるように定められる。また、本実施形態では、複数のマイクロフォンの１つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する。

本実施形態では、複数の位相差領域の各々の位相差の個数の代表値に基づいて話者方向を判定しているため、高雑音環境下において、話者が存在する方向の判定精度を向上させることができる。また、複数の位相差領域の大きさが相違する場合であっても、複数の位相差領域の大きさの相違を補正する補正係数を用いて代表値を補正した補正代表値を使用するため、話者が存在する方向の判定精度を向上させることができる。

本実施形態では、補正係数は、複数の位相差領域の何れか１つの位相差領域の定常雑音モデル推定値の変動に基づいて変動するため、話者が存在する方向の判定精度を向上させることができる。本実施形態では、複数のマイクロフォンの１つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する。即ち、雑音レベルが高い周波数帯域の位相差を計数しないため、話者が存在する方向の判定精度を向上させることができる。

図７、図１４、図１８及び図２１のフローチャートは例示であり、処理の順序は適宜変更してもよい。

なお、話者方向判定結果を使用して翻訳を行う翻訳システムの例について説明したが、本実施形態はこれに限定されない。例えば、議事録生成システムにおいて、話者方向に基づいて、発話している話者を判定するために使用されてもよい。

［比較例］
図２２に、２つの話者領域の大きさが異なる場合、即ち、２つの位相差領域の大きさが異なる場合の話者方向判定の正解率を例示する。広い方の位相差領域の話者方向判定の正解率は、第１実施形態のように、補正係数を使用しない場合、９０．１［％］であり、第２及び第３実施形態のように、補正係数を使用する場合、１００．０［％］に向上する。

狭い方の位相差領域の話者方向判定の正解率は、補正係数を使用しない場合、５９．８［％］であり、第２実施形態のように、位相差領域の面積比などに基づいて算出される固定された補正係数を使用する場合、５９．８［％］に向上する。また、狭い方の位相差領域の話者方向判定の正解率は、第３実施形態のように、位相差領域の位相差数の時間平均値などに基づいて算出される変動する補正係数を使用する場合、８１．０［％］に向上する。

関連技術では、音の下限周波数帯域から上限周波数帯域までの位相差の平均値を使用している。したがって、図２３に例示するように、丸で表す雑音の位相差が、三角で表す発話の位相差と混在してしまい、位相差の平均値が影響を受け、話者方向を適切に判定することが困難となる場合がある。一方、本実施形態では、図２４に例示するように、例えば、第１位相差領域Ａ４１及び第２位相差領域Ａ４２のような複数の位相差領域の各々の位相差数の時間平均値を比較する。したがって、雑音の位相差が存在したとしても、両方の位相差領域に同様な影響を及ぼすため、話者方向を適切に判定することができ、話者方向の判定精度を向上させることができる。

以上の各実施形態に関し、更に以下の付記を開示する。

（付記１）
複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出し、
算出された前記位相差、及び設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出し、
算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する、
話者方向判定処理をコンピュータに実行させるプログラム。
（付記２）
前記複数の話者領域の大きさが相違する場合には、前記複数の話者領域の大きさの相違を補正する補正係数を用いて前記代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する、
付記１のプログラム。
（付記３）
前記補正係数は、前記複数の話者領域各々の面積比から算出される、
付記２のプログラム。
（付記４）
前記補正係数は、前記複数の位相差領域の何れか１つの位相差領域の前記代表値に基づいて決定される、
付記２のプログラム。
（付記５）
前記補正係数は、前記複数の位相差領域の何れか１つの位相差領域の定常雑音モデル推定値に基づいて決定される、
付記２のプログラム。
（付記６）
前記複数のマイクロフォンの１つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する、
付記１〜付記５の何れかのプログラム。
（付記７）
前記代表値は時間平均値である、
付記１〜付記６の何れかのプログラム。
（付記８）
コンピュータが、
複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出し、
算出された前記位相差、及び設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出し、
算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する、
話者方向判定方法。
（付記９）
前記複数の話者領域の大きさが相違する場合には、前記複数の話者領域の大きさの相違を補正する補正係数を用いて前記代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する、
付記８の話者方向判定方法。
（付記１０）
前記補正係数は、前記複数の話者領域各々の面積比から算出される、
付記９の話者方向判定方法。
（付記１１）
前記補正係数は、前記複数の位相差領域の何れか１つの位相差領域の前記代表値に基づいて決定される、
付記９の話者方向判定方法。
（付記１２）
前記補正係数は、前記複数の位相差領域の何れか１つの位相差領域の定常雑音モデル推定値に基づいて決定される、
付記９の話者方向判定方法。
（付記１３）
前記複数のマイクロフォンの１つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する、
付記８〜付記１２の何れかの話者方向判定方法。
（付記１４）
前記代表値は時間平均値である、
付記８〜付記１３の何れかの話者方向判定方法。
（付記１５）
複数のマイクロフォンを含むマイクアレイと、
複数の話者領域の各々を、前記マイクアレイを基点として各々異なる方向に設定する設定部と、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する位相差算出部と、
前記位相差算出部で算出された位相差、及び前記設定部で設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する代表値算出部と、
前記代表値算出部で算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する判定部と、
を含む、話者方向判定装置。
（付記１６）
前記判定部は、前記複数の話者領域の大きさが相違する場合には、前記複数の話者領域の大きさの相違を補正する補正係数を用いて前記代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する、
付記１５の話者方向判定装置。
（付記１７）
前記補正係数は、前記複数の話者領域各々の面積比から算出される、
付記１６の話者方向判定装置。
（付記１８）
前記補正係数は、前記複数の位相差領域の何れか１つの位相差領域の前記代表値に基づいて決定される、
付記１６の話者方向判定装置。
（付記１９）
前記補正係数は、前記複数の位相差領域の何れか１つの位相差領域の定常雑音モデル推定値に基づいて決定される、
付記１６の話者方向判定装置。
（付記２０）
前記複数のマイクロフォンの１つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する、
付記１５〜付記１９の何れかの話者方向判定装置。

１０Ａ話者方向判定装置
１５位相差算出部
１６位相差領域設定部
１７位相差数取得部
１８位相差数平均値算出部
２２方向判定部
５１ＣＰＵ
５２一次記憶部
５３二次記憶部
Ｍ０１第１マイク
Ｍ０２第２マイク

Claims

複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出し、
算出された前記位相差、及び設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出し、
算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する、
話者方向判定処理をコンピュータに実行させるプログラム。
前記複数の話者領域の大きさが相違する場合には、前記複数の話者領域の大きさの相違を補正する補正係数を用いて前記代表値を補正した補正代表値を使用して、前記話者の存在方向を判定する、
請求項１に記載のプログラム。
前記補正係数は、前記複数の話者領域各々の面積比から算出される、
請求項２に記載のプログラム。
前記補正係数は、前記複数の位相差領域の何れか１つの位相差領域の前記代表値に基づいて決定される、
請求項２に記載のプログラム。
前記補正係数は、前記複数の位相差領域の何れか１つの位相差領域の定常雑音モデル推定値に基づいて決定される、
請求項２に記載のプログラム。
前記複数のマイクロフォンの１つで取得された音に対応する音信号の信号対雑音比が所定値より大きい周波数帯域の位相差の個数の代表値を算出する、
請求項１〜請求項５の何れか１項に記載のプログラム。
前記代表値は時間平均値である、
請求項１〜請求項６の何れか１項に記載のプログラム。
コンピュータが、
複数の話者領域の各々を、複数のマイクロフォンを含むマイクアレイを基点として各々異なる方向に設定し、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出し、
算出された前記位相差、及び設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出し、
算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する、
話者方向判定方法。
複数のマイクロフォンを含むマイクアレイと、
複数の話者領域の各々を、前記マイクアレイを基点として各々異なる方向に設定する設定部と、
前記複数のマイクロフォンで取得された複数の音信号に基づいて、異なる複数の各周波数帯域各々における位相差を算出する位相差算出部と、
前記位相差算出部で算出された位相差、及び前記設定部で設定された前記複数の話者領域に基づいて、前記複数の話者領域の各々に対応する複数の位相差領域の各々に属する位相差の個数の代表値を算出する代表値算出部と、
前記代表値算出部で算出された前記代表値の大きさを比較し、前記代表値が大きい位相差領域に対応する話者領域の方向を話者の存在方向であると判定する判定部と、
を含む、話者方向判定装置。