JP2010141402A

JP2010141402A - 音声処理装置、及び、音声処理方法

Info

Publication number: JP2010141402A
Application number: JP2008313255A
Authority: JP
Inventors: Yohei Sakuraba; 洋平櫻庭; Yasuhiko Kato; 靖彦加藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-12-09
Filing date: 2008-12-09
Publication date: 2010-06-24
Anticipated expiration: 2028-12-09
Also published as: JP5251473B2

Abstract

【課題】演算量の増大を抑えつつ、スピーカ以外の放音位置を精度良く検出して、当該放音位置に撮像装置の画角を向けることが可能な音声処理装置を提供する。
【解決手段】スピーカ１１により放音されてエコー信号ｂ（ｔ）として音声信号ｍ（ｔ）に重畳されてマイクロフォン１２ａ、１２ｂにより検出される伝搬経路の伝達関数ｈ（ｔ）の振幅周波数関数を用いて、音声信号ｍ（ｔ）に対するエコー信号ｂ（ｔ）を除いた音声信号ｓ（ｔ）の割合を示す振幅周波数関数Ｇ（ω）を算出し、算出された振幅周波数関数Ｇ（ω）を用いて重み付けした方向スペクトルに基づいて音声信号ｓ（ｔ）の放音位置を検出して、検出した音声信号ｓ（ｔ）の放音位置にカメラ１３の画角を向けるように制御する。
【選択図】図２

Description

本発明は、スピーカにより放音された音を検出しうる環境に設置された多チャンネルのマイクロフォンから検出された音声信号に対して音声処理を行う音声処理装置、及び、音声処理方法に関するものである。

テレビ会議システムなどの拡声通話系では、遠端装置のマイクロフォンで収音された音声が、近端装置に送られ、近端装置のスピーカから放音される。近端装置もマイクロフォンが設置されており、近端話者の音声を遠端装置へ送るように構成されている。近端話者が発話した場合に、話者方向にカメラの画角を向けるという機能が従来からあるが、マイクロフォンに収音された音から、近端話者の方向検出を行うと、遠端話者の発話で、スピーカが設置された方向を向いてしまうという問題があった。

この問題の対策として、主に２種類の方法が従来から用いられてきた。

第１の手法は、マイクロフォンで検出した音声信号のＳＮ比などをもとに、遠端の音検出を行い、音を検出した場合には、方向検出をしないという手法である。しかしながら、遠端話者と近端話者が同時に発話している、所謂ダブルトーク時に、方向検出ができず、撮像装置の画角を精度良く近端話者に向けることができないという問題があった。

第２の手法は、適応処理によるエコーキャンセラを用いる手法である（特許文献１）。この手法は、上述した第１の手法における問題点であるダブルトーク時にも方向検出ができるという特徴がある。

特開２００６―３３７８９号公報

しかしながら、上述した第２の手法を適用した音声処理装置では、一般に、適応フィルタの演算量が、ファーストフーリエ変換（ＦＦＴ）やフィルタバンクに比べて大きいものとなってしまう。したがって、この音声処理装置では、方向検出のため、マイクロフォンの個数分だけ適応処理をする必要があり、演算量が非常に大きくなってしまう問題があった。

本発明は、上述した実情に鑑みて提案されたものであり、スピーカにより放音された音を検出しうる環境下に設置されたマイクロフォンからの音声信号を用いて、演算量の増大を抑えつつ、スピーカ以外の放音位置を精度良く検出することが可能な音声処理装置、及び、音声処理方法を提供することを目的とする。

上述した課題を解決するための手段として、本発明に係る音声処理装置は、スピーカに出力する出力信号ｘ（ｔ）を短時間スペクトルに変換する第１の短時間スペクトル変換部と、スピーカにより放音された音を検出しうる環境に設置された多チャンネルのマイクロフォンから検出された音声信号ｍ（ｔ）を短時間スペクトルに変換する第２の短時間スペクトル変換部と、第１の短時間スペクトル変換部により変換された出力信号ｘ（ｔ）の短時間スペクトルと、第２の短時間スペクトル変換部により変換された音声信号ｍ（ｔ）の短時間スペクトルとを用いて、出力信号ｘ（ｔ）がスピーカにより放音されてエコー信号ｂ（ｔ）として音声信号ｍ（ｔ）に重畳されてマイクロフォンにより検出される伝搬経路の伝達関数ｈ（ｔ）の振幅周波数関数を算出する第１の伝達関数算出部と、第１の伝達関数算出部により算出された伝達関数ｈ（ｔ）の振幅周波数関数と、第１の短時間スペクトル変換部により変換された出力信号ｘ（ｔ）の短時間スペクトルと、第２の短時間スペクトル変換部により変換された音声信号ｍ（ｔ）の短時間スペクトルとを用いて、音声信号ｍ（ｔ）に対するエコー信号ｂ（ｔ）を除いた音声信号ｓ（ｔ）の割合を示す伝達関数の振幅周波数関数を算出する第２の伝達関数算出部と、マイクロフォンにより検出された音声信号ｍ（ｔ）から、当該マイクロフォンが設置された環境において音声信号ｓ（ｔ）が放音された放音位置の方向を示す方向スペクトルを算出する方向スペクトル算出部と、方向スペクトル算出部により算出された方向スペクトルを、第２の伝達関数算出部により算出された振幅周波数関数で重み付けして、当該重み付けした方向スペクトルに応じて、放音位置の方向を推定する方向推定部とを備える。

また、本発明に係る音声処理方法は、スピーカに出力する出力信号ｘ（ｔ）を短時間スペクトルに変換する第１の短時間スペクトル変換ステップと、スピーカにより放音された音を検出しうる環境に設置された多チャンネルのマイクロフォンから検出された音声信号ｍ（ｔ）を短時間スペクトルに変換する第２の短時間スペクトルステップと、第１の短時間スペクトル変換ステップにより変換された出力信号ｘ（ｔ）の短時間スペクトルと、第２の短時間スペクトル変換ステップにより変換された音声信号ｍ（ｔ）の短時間スペクトルとを用いて、出力信号ｘ（ｔ）がスピーカにより放音されてエコー信号ｂ（ｔ）として音声信号ｍ（ｔ）に重畳されてマイクロフォンにより検出される伝搬経路の伝達関数ｈ（ｔ）の振幅周波数関数を算出する第１の伝達関数算出ステップと、第１の伝達関数算出ステップにより算出された伝達関数ｈ（ｔ）の振幅周波数関数と、第１の短時間スペクトル変換ステップにより変換された出力信号ｘ（ｔ）の短時間スペクトルと、第２の短時間スペクトル変換ステップにより変換された音声信号ｍ（ｔ）の短時間スペクトルとを用いて、音声信号ｍ（ｔ）に対するエコー信号ｂ（ｔ）を除いた音声信号ｓ（ｔ）の割合を示す振幅周波数関数を算出する第２の振幅周波数関数算出ステップと、マイクロフォンにより検出された音声信号ｍ（ｔ）から、当該マイクロフォンが設置された環境において音声信号ｓ（ｔ）が放音された放音位置の方向を示す方向スペクトルを算出する方向スペクトル算出ステップと、方向スペクトル算出ステップにより推定された方向スペクトルを、第２の振幅周波数関数算出ステップにより算出された振幅周波数関数で重み付けして、当該重み付けした方向スペクトルに応じて、放音位置を推定する方向推定ステップとを有する。

本発明は、スピーカにより放音されてエコー信号ｂ（ｔ）として音声信号ｍ（ｔ）に重畳されてマイクロフォンにより検出される伝搬経路の伝達関数ｈ（ｔ）の振幅周波数関数を用いて算出された振幅周波数関数Ｇ（ω）を用いて、演算量の増大を抑えつつ音声信号ｓ（ｔ）の放音位置を精度良く検出することができる。

以下、本発明を実施するための最良の形態について、図面を参照しながら詳細に説明する。なお、本発明は、以下の実施形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変更が可能であることは勿論である。

本発明が適用された音声処理装置は、スピーカにより放音された音を検出しうる環境に設置された多チャンネルのマイクロフォンから検出された音声信号に対して音声処理を行う装置である。このような音声処理装置は、例えば図１に示すようなテレビジョン会議システム１００の近端装置１に組み込まれて使用される。なお、説明は以下の順序で行う。
１．全体構成
２．方向推定処理

３．音声認識処理
＜１．全体構成＞
テレビジョン会議システム１００は、近端装置１と遠端装置２との間で、それぞれの装置側の会議出席者の画像及び発音音声に係る情報を双方向に送受信するものである。近端装置１と遠端装置２とは、画像信号及び音声信号を送受信するため、インターネットなどの電気通信回線３を介して接続されている。

近端装置１は、遠端装置２側の会議出席者の発音音声を放音するスピーカ１１と、スピーカ１１により放音された音を検出しうる環境に設置され、近端装置１側の会議出席者の発音音声を収音する２チャンネルのマイクロフォン１２ａ、１２ｂと接続されている。また、近端装置１は、近端装置１側の会議出席者の画像を撮像するため、画角を制御することが可能なカメラ１３と、遠端装置２側の会議出席者の画像を表示するディスプレイ１４と接続されている。

このような装置と接続された近端装置１は、遠端装置２から受信した音声信号をスピーカ１１により放音するとともに、マイクロフォン１２ａ、１２ｂにより収音された音声信号を遠端装置２に送信する。また、近端装置１は、遠端装置２から受信した画像信号をディスプレイ１４に表示するとともに、カメラ１３により撮像された画像信号を遠端装置２に送信する。

遠端装置２は、近端装置１側の会議出席者の発音音声を放音するスピーカ２１と、スピーカ２１により放音された音を検出しうる環境に設置され、遠端装置２側の会議出席者の発音音声を集音する２チャンネルのマイクロフォン２２ａ、２２ｂと接続されている。また、遠端装置２は、遠端装置２側の会議出席者の画像を撮像するため、画角を制御することが可能なカメラ２３と、近端装置１側の会議出席者の画像を表示するディスプレイ２４と接続されている。

このような装置と接続された遠端装置２は、近端装置１から受信した音声信号をスピーカ２１により放音するとともに、マイクロフォン２２ａ、２２ｂにより収音された音声信号を近端装置１に送信する。また、遠端装置２は、近端装置１から受信した画像信号をディスプレイ２４に表示するとともに、カメラ２３により撮像された画像信号を近端装置１に送信する。

＜２．方向推定処理＞
以上のような構成からなるテレビジョン会議システム１００において、近端装置１に接続されたマイクロフォン１２ａ、１２ｂは、上述したように近端装置１側の会議出席者の発音音声を収音するとともに、スピーカ１１から放音される音声も空間を介して収音してしまう。このようにして、マイクロフォン１２ａ、１２ｂにより収音される音声信号には、スピーカ１１から放音された音声信号が重畳されてしまうので、次のような問題が生じてしまう。マイクロフォン１２ａ、１２ｂによる収音結果に基づいて、近端装置１側で発話している会議出席者にカメラ１３の画角を向けるように制御する場合には、遠端装置２側の会議出席者の発話でスピーカ１１にカメラ１３の画角が向いてしまうという問題がある。

そこで、本発明が適用された音声処理装置が組み込まれた近端装置１は、マイクロフォン１２ａ、１２ｂにより収音された音声信号に対する会議出席者の発音信号の割合を精度良く算出して、この算出結果を利用して方向推定を行う。このような方向推定処理を行うため、近端装置１は、図２、図３に示すような構成を有している。

図２は、近端装置１に係る音声処理系の構成を示した図である。すなわち、近端装置１は、遠端装置２との間で音声信号の送受信を行う通信部１５と、音声信号に係る符号処理を行う音声符号処理部１６と、音声信号に対して信号処理を行う音声信号処理部１７とを備える。また、近端装置１は、音声信号をアナログ変換するＤ／Ａ変換器１８と、音声信号をデジタル変換するＡ／Ｄ変換器１９ａ、１９ｂと、カメラ１３の動作を制御するカメラ制御部２０とを備える。

通信部１５は、電気通信回線３を介して遠端装置２との間で符号化された音声信号の送受信を行う。通信部１５は、遠端装置２から受信した音声信号を音声符号処理部１６に供給し、音声符号処理部１６から供給された音声信号を遠端装置２に送信する。

音声符号処理部１６は、次のような、音声信号に係る符号処理を行う。すなわち、音声符号処理部１６は、通信部１５から供給された音声信号を復号して音声信号処理部１７に供給する。例えば、音声符号処理部１６は、４８ｋＨｚサンプリングで１６ビットのＰＣＭの音声信号に復号して音声信号処理部１７に供給する。また、音声符号処理部１６は、音声信号処理部１７から供給された音声信号を符号化して通信部１５に供給する。

音声信号処理部１７は、例えば、デジタルシグナルプロセッサにより構成され、音声信号に対して次のような信号処理を行う。すなわち、音声信号処理部１７は、音声符号処理部１６から供給された音声信号をＤ／Ａ変換器１８に供給する。また、音声信号処理部１７は、Ａ／Ｄ変換器１９ａ、１９ｂから供給される音声信号を、音声符号処理部１６に供給する処理を行う。さらに、音声信号処理部１７は、音声信号を解析して、解析結果をカメラ制御部２０に供給する。

Ｄ／Ａ変換器１８は、音声信号処理部１７から供給された音声信号をアナログ変換して、変換した音声信号をスピーカ１１に供給する。例えば、Ｄ／Ａ変換器１８は、４８ｋＨｚサンプリングで１６ビットのＰＣＭの音声信号をアナログ変換する。

Ａ／Ｄ変換器１９ａ、１９ｂは、それぞれマイクロフォン１２ａ、１２ｂにより収音した音声信号をデジタル変換して、変換した音声信号を音声信号処理部１７に供給する。Ａ／Ｄ変換器１９ａ、１９ｂは、音声符号処理部１６で処理される音声信号と同様に、４８ｋＨｚサンプリングで１６ビットのＰＣＭの音声信号にデジタル変換する。

カメラ制御部２０は、音声信号処理部１７から供給される解析結果に基づいて、カメラ１３の画角を制御する。

以上のような構成からなる近端装置１では、マイクロフォン１２ａ、１２ｂにより収音された音声信号に対する会議出席者の発音信号の割合を精度良く算出して、この算出結果を用いて方向推定を行うため、音声信号処理部１７が図３に示すように構成されている。

音声信号処理部１７は、音声信号を複数の帯域ごとに帯域分割する帯域分割部１７１−１７３と、収音された音声信号に対する会議出席者の発音信号（以下、目的話者という。）の割合を示す振幅周波数関数を帯域ごとに算出する重み算出部１７４とを備える。また、音声信号処理部１７は、収音された音声信号から目的話者の音声が放音される放音位置の方向を示す方向スペクトルを帯域ごとに算出する方向スペクトル算出部１７５と、放音位置の方向を推定する方向推定部１７６とを備える。

帯域分割部１７１は、音声符号処理部１６から供給された音声信号ｘ（ｔ）を複数の帯域に分割する。具体的に、帯域分割部１７１は、例えば音声信号ｘ（ｔ）に対してフーリエ変換処理を施して、帯域毎に短時間スペクトルＸ（ω）に変換する。

また、帯域分割部１７２、１７３は、それぞれマイクロフォン１２ａ、１２ｂにより収音した音声信号ｍ（ｔ）を複数の帯域に分割する。具体的に、帯域分割部１７２、１７３は、例えば音声信号ｍ（ｔ）に対してフーリエ変換処理を施して、帯域毎に短時間スペクトルＭ（ω）に変換する。

なお、帯域分割部１７１−１７３は、フーリエ変換処理に限らず、離散コサイン変換処理、ウェーブレット変換、又は各種フィルタバンクを用いて、上述した帯域分割処理を行うようにしてもよい。

重み算出部１７４は、帯域分割部１７１−１７３により変換された帯域毎の短時間スペクトルＸ（ω）、Ｍ（ω）を用いて、音声信号ｍ（ｔ）に対する目的話者の発音信号ｓ（ｔ）の割合を示す振幅周波数関数を帯域ごとに算出するため、例えば図４に示すように構成されている。

重み算出部１７４は、帯域分割部１７１−１７３により分割される帯域数が５１２の場合、この帯域分割数と同数の適応エコー信号処理部３１−１〜３１−５１２を備える。また、重み算出部１７４は、適応エコー信号処理部３１−１〜３１−５１２により得られた算出結果を合成する重み合成処理部３２を備える。重み算出部１７４は、短時間スペクトルＸ（ω）、Ｍ（ω）、各帯域に対応する適応エコー信号処理部３１−ｎに供給して、適応エコー信号処理部３１−ｎにより帯域毎に、音声信号ｍ（ｔ）に対する会議出席者の発音信号ｓ（ｔ）の割合を算出する。

次に、適応エコー信号処理部３１−ｎに係る具体的な構成と処理内容について図５を参照して説明する。

適応エコー信号処理部３１−ｎでは、例えば、下記のようなＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ法に基づいて、音声信号ｍ（ｔ）に対する会議出席者の発音信号ｓ（ｔ）の割合を示す伝達関数を算出する。

ここで、エコー信号ｂ（ｔ）は、出力信号ｘ（ｔ）がスピーカ１１により放音され、マイクロフォン１２ａ、１２ｂにより音声信号ｍ（ｔ）に重畳されて検出されるものとする。このようにしてエコー信号ｂ（ｔ）成分を定義して、各音声信号ｍ（ｔ）、ｓ（ｔ）、ｂ（ｔ）を単位時間スペクトルに変換した周波数ωの成分をそれぞれＭ（ω），Ｓ（ω），Ｂ（ω）とおくと、下記の（１）式の関係が成り立つ。

Ｍ（ω）＝Ｓ（ω）＋Ｂ（ω）・・・（１）
また、ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ法を用いると、マイクロフォン１２ａ、１２ｂにより検出される音声信号に対する目的話者の発音信号ｓ（ｔ）の割合を示す伝達関数Ｇ（ω）は、下記の（２）式で表される。なお、この例では、ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎにより定式式化したものを用いるが、ＷｉｅｎｅｒＦｉｌｔｅｒｉｎｇやＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄ法などを用いてもかまわない。

上記（２）式において、関数Ｅは入力値の平均を出力する関数である。

上記（２）式で表現されるＧ（ω）を推定するには、エコー信号成分の平均値であるＥ［｜Ｂ（ω）｜］を推定する必要がある。

［｜Ｂ（ω）｜］は、出力信号ｘ（ｔ）がスピーカ１１により放音されてエコー信号ｂ（ｔ）として音声信号ｍ（ｔ）に重畳されてマイクロフォン１２ａ、１２ｂにより検出される伝搬経路の伝達関数ｈ（ｔ）の振幅周波数関数Ｈ（ω）を用いて、下記の（３）式のように表される。

例えば、目的話者の発音信号ｓ（ｔ）が０のときは、Ｈ（ω）は下記の（４）式で求まる。

また、会議出席者の発音信号ｓ（ｔ）が０ではないとき、すなわち、ダブルトーク状態や、スピーカ１１から何も放音されていない状態で、上記の（４）式からＨ（ω）の値を推定すると、Ｈ（ω）の推定値が正しくない値となってしまう。そのため、このようなダブルトークの影響を受けても精度良くＨ（ω）を算出するため、次の処理を行う。

ここでは、異なる二つの時定数α、βを用いて、ダブルトークの影響を受けにくいＨ（ω）の値の推定処理について説明する。すなわち、時刻ｔのＨ（ω）をＨ_ｔ（ω）として、下記の（５）式によりＨ（ω）を逐次算出する。

上記（５）式においては、０≦β＜α≦１の条件を満たすものとする。ここで、上記（５）式における［｜Ｍ（ω）｜］／［｜Ｘ（ω）｜］は、ダブルトーク時には相対的に大きい値を取り、エコー信号ｂ（ｔ）のみ収音されるときは、相対的に小さい値を取る。

このような特性を利用して、［｜Ｍ（ω）｜］／［｜Ｘ（ω）｜］が更新前のＨ_ｔ（ω）に対して大きいか否かを判別して、それぞれ、α、βを係数により乗算処理をする重み付けしてＨ_ｔ＋１（ω）に更新する。ここで、β＜αとすることで、ダブルトーク時の値の時には更新前後で変化を抑え、エコー信号ｂ（ｔ）のみを収音する時には更新前後で変化を大きくして上記（４）式から得られる値へ早く追従するようにすることができる。

上述した更新処理以外にも、音声信号Ｘ（ω）と音声信号Ｍ(ω)との相互相関を算出して、この相互相関に係る算出結果からダブルトークかどうかを閾値を設定して判断し、ダブルトークではない時のみ平均を更新する手法を用いるようにしてもよい。

以上のようにして、音声信号ｍ（ｔ）に重畳されるエコー信号成分を除去して、音声信号ｍ（ｔ）に対する目的話者の発音信号ｓ（ｔ）の割合を示す伝達関数を算出するため、適応エコー信号処理部３１−ｎは、次のような構成を備える。

すなわち、適応エコー信号処理部３１−ｎは、エコー信号成分の伝搬経路の伝達関数を算出する第１の伝達関数算出部４１と、第１の伝達関数算出部４１による算出結果を用いて、音声信号ｍ（ｔ）に対する目的話者の発音信号ｓ（ｔ）の割合を示す伝達関数を算出する第２の伝達関数算出部４２とを備える。

第１の伝達関数算出部４１は、出力信号ｘ（ｔ）の短時間スペクトルＸ（ω）と、音声信号ｍ（ｔ）の短時間スペクトルＭ（ω）とを用いて、上記（４）式、（５）式にしたがって、伝達関数ｈ（ｔ）の振幅周波数関数Ｈ（ω）を算出する。そして、第１の伝達関数算出部４１は、算出した伝達関数ｈ（ｔ）の振幅周波数関数Ｈ（ω）を、第２の伝達関数算出部４２に通知する。

第２の伝達関数算出部４２は、第１の伝達関数算出部４１により算出された伝達関数ｈ（ｔ）の振幅周波数関数Ｈ（ω）と、出力信号ｘ（ｔ）の短時間スペクトルＸ（ω）と、音声信号ｍ（ｔ）の短時間スペクトルＭ（ω）とを用いて、上記（２）式、（３）式にしたがって、振幅周波数関数Ｇ（ω）を算出する。

上述した処理によって各適応エコー信号処理部３１−ｎにより得られた振幅周波数関数Ｇ（ω）は、重み合成処理部３２に通知される。

重み合成処理部３２は、各帯域毎の振幅周波数関数Ｇ（ω）を足し合わせることにより合成して、後段の方向推定部１７６により放音位置の方向を推定するための重み関数Ｗ（ω）を算出する。重み合成処理部３２では、単純に各帯域毎の振幅周波数関数Ｇ（ω）を足し合わせてもよいが、人間の聴覚特性に合わせて、帯域毎に異なる係数を掛けて合成処理することで、後段の方向推定部１７６で、より精度良く方向推定をすることができる。重み合成処理部３２は、算出した重み関数Ｗ（ω）を方向推定部１７６に通知する。

上述した重み算出部１７４に係る音声処理と並列して、音声信号処理部１７において、方向スペクトル算出部１７５は、収音された音声信号ｍ（ｔ）から変換された短時間スペクトルＭ（ω）を用いて放音位置の方向を示す方向スペクトルを帯域ごとに算出する。具体的に、方向スペクトル算出部１７５は、例えばＭＵＳＩＣ法を用いて、短時間スペクトルにおけるチャンネル間位相差及びチャンネル間レベル差に基づいて方向スペクトルを算出する。なお、方向スペクトル算出部１７５は、ＭＵＳＩＣ法の他にも、遅延和法や最小分散法など数多く提案されており、どの手法を用いて行ってもかまわない。方向スペクトル算出部１７５は、帯域毎に算出した方向スペクトルを、方向推定部１７６に通知する。

方向推定部１７６は、方向スペクトル算出部１７５により算出された方向スペクトルを、振幅周波数関数Ｇ（ω）に基づいて重み算出部１６４により算出された重み関数Ｗ（ω）で重み付けして、当該重み付けした方向スペクトルに応じて、放音位置の方向を推定する。具体的に、方向推定部１７６は、方向スペクトル算出部１７５により算出された方向スペクトルに重み関数Ｗ（ω）を乗算することにより重み付け処理を行う。

方向スペクトル算出部１７５から通知された方向スペクトルは、例えばダブルトーク時において、図６（Ａ）に示すように、推定対象となる目的話者の話者信号の方向スペクトルに対して、スピーカ１１の方向スペクトルが高くなってしまうような場合がある。このように単に方向スペクトルのみに基づいて方向推定処理を行った場合には、後段のカメラ制御部２０がスピーカ１１の方向にカメラ１３の画角を向けてしまうこととなる。

これに対して、方向推定部１７６は、図６（Ａ）に示した方向スペクトルに対して、上述した重み付け処理を行うことで、例えば図６（Ｂ）に示すように、スピーカ１１の方向スペクトルに対し、推定対象となる目的話者の話者信号の方向スペクトルが強調されるように、方向スペクトルを補正することができる。

方向推定部１７６は、補正された方向スペクトルから、例えばピーク値となる方向を話者の方向とすることで、精度良く推定対象となる目的話者の話者信号の方向を推定することができる。

特に、方向推定部１７６では、重み算出部１７４により算出された重み関数Ｗ（ω）が所定の値より大きいときのみ方向スペクトルに対する重み付け処理を行うことで、確実に目的話者が発話しているときのみ方向推定することができる。このようにして、方向推定部１７６では、目的話者が発話しているときのみ方向推定することで、推定精度をさらに向上させることができる。

なお、方向推定部１７６が方向推定を行うためには近端装置１に最低限２チャンネルのマイクロフォンと接続されていればよいが、より他チャンネルのマイクロフォンと接続することで、各マイクロフォンの収音結果を利用して、演算量の増大を抑えつつ方向スペクトルを精度良く算出することができる。

以上のような処理を行う方向推定部１７６は、推定結果をカメラ制御部２０に通知する。

方向推定部１７６から推定結果が通知されるカメラ制御部２０は、当該推定結果に基づいて、近端装置１側で発音している目的話者の方向にカメラ１３の画角を向ける。

以上のようにして、近端装置１では、音声信号処理部１７により、エコー信号ｂ（ｔ）の伝搬特性を示す伝達関数ｈ（ｔ）の振幅周波数関数Ｈ（ω）を利用して算出された振幅周波数関数Ｇ（ω）を用いて、演算量の増大を抑えつつ目的話者の音声信号ｓ（ｔ）の放音位置を精度良く検出することができる。この結果として、近端装置１では、カメラ制御部２０により、精度良く推定された放音位置、すなわち目的話者に、カメラ１３の画角を向けるように制御することができる。

＜３．音声認識処理＞
近端装置１では、上述した処理によりダブルトーク時においても演算量の増大を抑えつつ精度良く目的話者の画像をカメラ１３により撮像して遠端装置２側に送信することができるが、次のような機能を音声信号処理部１７が有することで、精度良く目的話者の音声認識をすることができる。

図７は、音声信号処理部１７における音声認識処理系の構成を示す図である。すなわち、音声信号処理部１７は、近端装置１側の会議出席者で発音している目的話者の音声認識を行うため、図７に示すように、さらに音声認識部１７７を備える。

音声認識部１７７は、帯域分割部１７２、１７３から供給される音声信号ｍ（ｔ）の帯域毎の短時間スペクトルＭ（ω）を、上述した重み算出部１７４により帯域毎の振幅周波数関数Ｇ（ω）に基づいて算出された重み関数Ｗ（ω）で重み付け処理を施す。具体的には、音声認識部１７７は、短時間スペクトルＭ（ω）に、重み関数Ｗ（ω）を乗算することによって重み付け処理を施す。そして、音声認識部１７７は、当該重み付けした短時間スペクトルＭ（ω）に応じて、方向推定部１７６により推定された放音位置により放音される音声に対して音声認識を行う。

具体的に、音声認識部１７７は、重み付け処理を施した短時間スペクトルＭ（ω）に基づいて、目的話者の音声信号の基本周波数を推定する。また、音声認識部１７７は、重み付け処理を施した短時間スペクトルＭ（ω）に基づいて、目的話者の音声検出を行う。そして、音声認識部１７７は、推定した基本周波数と、音声検出結果に基づいて、目的話者が発話した音声認識を行う。

このようにして、音声信号処理部１７では、目的話者の方向を精度良く推定できるとともに、この方向推定結果に対応付けて目的話者の音声認識を演算量の増大を抑えつつ行うことができる。

したがって、近端装置１は、会議出席者から目的話者の画像情報とともに、この目的話者の発話から得られる音声認識結果を合わせて、遠端装置２側に送信することができる。

なお、本実施形態に係るテレビジョン会議システム１００では、近端装置１の具体的な構成について説明したが、近端装置１が備える方向推定処理に係る機能を、遠端装置２が備えるようにしてもよい。

テレビジョン会議システムに係る構成を示す図である。近端装置に係る構成を示す図である。音声信号処理部に係る構成を示す図である。重み算出部に係る構成を示す図である。適応エコー信号処理部に係る構成を示す図である。方向推定部に係る処理を説明するための図である。音声信号処理部に係る音声認識処理系の構成について示す図である。

符号の説明

１近端装置、２遠端装置、３電気通信回線、１１、２１スピーカ、１２ａ、１２ｂ、２２ａ、２２ｂマイクロフォン、１３、２３カメラ、１４、２４ディスプレイ、１５通信部、１６音声符号処理部、１７音声信号処理部、１８Ｄ／Ａ変換器、１９ａ、１９ｂＡ／Ｄ変換器、２０カメラ制御部、３１−１〜３１−５１２適応エコー信号処理部、３２重み合成処理部、４１第１の伝達関数算出部、４２第２の伝達関数算出部、１００テレビジョン会議システム、１７１−１７３帯域分割部、１７４重み算出部、１７５方向スペクトル算出部、１７６方向推定部、１７７音声認識部

Claims

スピーカに出力する出力信号ｘ（ｔ）を短時間スペクトルに変換する第１の短時間スペクトル変換部と、
上記スピーカにより放音された音を検出しうる環境に設置された多チャンネルのマイクロフォンから検出された音声信号ｍ（ｔ）を短時間スペクトルに変換する第２の短時間スペクトル変換部と、
上記第１の短時間スペクトル変換部により変換された出力信号ｘ（ｔ）の短時間スペクトルと、上記第２の短時間スペクトル変換部により変換された音声信号ｍ（ｔ）の短時間スペクトルとを用いて、上記出力信号ｘ（ｔ）が上記スピーカにより放音されてエコー信号ｂ（ｔ）として上記音声信号ｍ（ｔ）に重畳されて上記マイクロフォンにより検出される伝搬経路の伝達関数ｈ（ｔ）の振幅周波数関数を算出する第１の伝達関数算出部と、
上記第１の伝達関数算出部により算出された伝達関数ｈ（ｔ）の振幅周波数関数と、上記第１の短時間スペクトル変換部により変換された出力信号ｘ（ｔ）の短時間スペクトルと、上記第２の短時間スペクトル変換部により変換された音声信号ｍ（ｔ）の短時間スペクトルとを用いて、上記音声信号ｍ（ｔ）に対する上記エコー信号ｂ（ｔ）を除いた音声信号ｓ（ｔ）の割合を示す伝達関数の振幅周波数関数を算出する第２の伝達関数算出部と、
上記マイクロフォンにより検出された音声信号ｍ（ｔ）から、当該マイクロフォンが設置された環境において上記音声信号ｓ（ｔ）が放音された放音位置の方向を示す方向スペクトルを算出する方向スペクトル算出部と、
上記方向スペクトル算出部により算出された方向スペクトルを、上記第２の伝達関数算出部により算出された振幅周波数関数で重み付けして、当該重み付けした方向スペクトルに応じて、上記放音位置の方向を推定する方向推定部とを備える音声処理装置。
上記第１の短時間スペクトル変換部は、上記出力信号ｘ（ｔ）を帯域分割して、帯域毎の短時間スペクトルに変換し、
上記第２の短時間スペクトル変換部は、上記音声信号ｍ（ｔ）を帯域分割して、帯域毎の短時間スペクトルに変換し、
上記第１の伝達関数算出部は、上記伝達関数ｈ（ｔ）の振幅周波数関数を帯域毎に算出し、
上記第２の伝達関数算出部は、上記音声信号ｍ（ｔ）に対する上記エコー信号ｂ（ｔ）を除いた音声信号ｓ（ｔ）の割合を示す伝達関数の振幅周波数関数を帯域毎に算出し、
上記第２の伝達関数算出部により算出された各帯域の振幅周波数関数を合成する合成処理部を更に備え、
上記方向推定部は、上記方向スペクトル算出部により算出された方向スペクトルを、上記第２の伝達関数算出部により算出され上記合成処理部により合成された振幅周波数関数で重み付けして、当該重み付けした方向スペクトルに応じて、上記放音位置の方向を推定する請求項１記載の音声処理装置。
上記方向推定部は、上記第２の伝達関数算出部により算出された振幅周波数関数が所定の値より大きいときのみ、上記方向スペクトル算出部により算出された方向スペクトルを、上記第２の伝達関数算出部により算出された振幅周波数関数で重み付けして、当該重み付けした方向スペクトルに応じて、上記放音位置を推定する請求項２記載の音声処理装置。
上記第２の短時間スペクトル変換部により変換された音声信号ｍ（ｔ）の短時間スペクトルを、上記第２の伝達関数算出部により算出された振幅周波数関数で重み付けして、当該重み付けした短時間スペクトルに応じて、上記方向推定部により推定された放音位置により放音される音声に対して音声認識を行う音声認識部を更に備える請求項１記載の音声処理装置。
上記音声認識部は、上記第２の短時間スペクトル変換部により変換された音声信号ｍ（ｔ）の短時間スペクトルを、上記第２の伝達関数算出部により算出された振幅周波数関数で重み付けして、当該重み付けした短時間スペクトルに応じて、上記方向推定部により推定された放音位置により放音される音声の基本周波数を得て、得られた基本周波数に基づいて音声認識を行う請求項４記載の音声処理装置。
上記音声認識部は、上記第２の短時間スペクトル変換部により変換された音声信号ｍ（ｔ）の短時間スペクトルを、上記第２の伝達関数算出部により算出された振幅周波数関数で重み付けして、当該重み付けした短時間スペクトルに応じて、上記方向推定部により推定された放音位置により放音される音声の音声検出を行い、当該検出結果に基づいて音声認識を行う請求項４記載の音声処理装置。
スピーカに出力する出力信号ｘ（ｔ）を短時間スペクトルに変換する第１の短時間スペクトル変換ステップと、
上記スピーカにより放音された音を検出しうる環境に設置された多チャンネルのマイクロフォンから検出された音声信号ｍ（ｔ）を短時間スペクトルに変換する第２の短時間スペクトルステップと、
上記第１の短時間スペクトル変換ステップにより変換された上記出力信号ｘ（ｔ）の短時間スペクトルと、上記第２の短時間スペクトル変換ステップにより変換された音声信号ｍ（ｔ）の短時間スペクトルとを用いて、上記出力信号ｘ（ｔ）が上記スピーカにより放音されてエコー信号ｂ（ｔ）として上記音声信号ｍ（ｔ）に重畳されて上記マイクロフォンにより検出される伝搬経路の伝達関数ｈ（ｔ）の振幅周波数関数を算出する第１の伝達関数算出ステップと、
上記第１の伝達関数算出ステップにより算出された伝達関数ｈ（ｔ）の振幅周波数関数と、上記第１の短時間スペクトル変換ステップにより変換された上記出力信号ｘ（ｔ）の短時間スペクトルと、上記第２の短時間スペクトル変換ステップにより変換された音声信号ｍ（ｔ）の短時間スペクトルとを用いて、上記音声信号ｍ（ｔ）に対する上記エコー信号ｂ（ｔ）を除いた音声信号ｓ（ｔ）の割合を示す振幅周波数関数を算出する第２の振幅周波数関数算出ステップと、
上記マイクロフォンにより検出された音声信号ｍ（ｔ）から、当該マイクロフォンが設置された環境において上記音声信号ｓ（ｔ）が放音された放音位置の方向を示す方向スペクトルを算出する方向スペクトル算出ステップと、
上記方向スペクトル算出ステップにより推定された方向スペクトルを、上記第２の振幅周波数関数算出ステップにより算出された振幅周波数関数で重み付けして、当該重み付けした方向スペクトルに応じて、上記放音位置を推定する方向推定ステップとを有する音声処理方法。