JP5251473B2 - 音声処理装置、及び、音声処理方法 - Google Patents

音声処理装置、及び、音声処理方法 Download PDF

Info

Publication number
JP5251473B2
JP5251473B2 JP2008313255A JP2008313255A JP5251473B2 JP 5251473 B2 JP5251473 B2 JP 5251473B2 JP 2008313255 A JP2008313255 A JP 2008313255A JP 2008313255 A JP2008313255 A JP 2008313255A JP 5251473 B2 JP5251473 B2 JP 5251473B2
Authority
JP
Japan
Prior art keywords
short
spectrum
time spectrum
unit
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008313255A
Other languages
English (en)
Other versions
JP2010141402A (ja
Inventor
洋平 櫻庭
靖彦 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008313255A priority Critical patent/JP5251473B2/ja
Publication of JP2010141402A publication Critical patent/JP2010141402A/ja
Application granted granted Critical
Publication of JP5251473B2 publication Critical patent/JP5251473B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、スピーカにより放音された音を検出しうる環境に設置された多チャンネルのマイクロフォンから検出された音声信号に対して音声処理を行う音声処理装置、及び、音声処理方法に関するものである。
テレビ会議システムなどの拡声通話系では、遠端装置のマイクロフォンで収音された音声が、近端装置に送られ、近端装置のスピーカから放音される。近端装置もマイクロフォンが設置されており、近端話者の音声を遠端装置へ送るように構成されている。近端話者が発話した場合に、話者方向にカメラの画角を向けるという機能が従来からあるが、マイクロフォンに収音された音から、近端話者の方向検出を行うと、遠端話者の発話で、スピーカが設置された方向を向いてしまうという問題があった。
この問題の対策として、主に2種類の方法が従来から用いられてきた。
第1の手法は、マイクロフォンで検出した音声信号のSN比などをもとに、遠端の音検出を行い、音を検出した場合には、方向検出をしないという手法である。しかしながら、遠端話者と近端話者が同時に発話している、所謂ダブルトーク時に、方向検出ができず、撮像装置の画角を精度良く近端話者に向けることができないという問題があった。
第2の手法は、適応処理によるエコーキャンセラを用いる手法である(特許文献1)。この手法は、上述した第1の手法における問題点であるダブルトーク時にも方向検出ができるという特徴がある。
特開2006―33789号公報
しかしながら、上述した第2の手法を適用した音声処理装置では、一般に、適応フィルタの演算量が、ファーストフーリエ変換(FFT)やフィルタバンクに比べて大きいものとなってしまう。したがって、この音声処理装置では、方向検出のため、マイクロフォンの個数分だけ適応処理をする必要があり、演算量が非常に大きくなってしまう問題があった。
本発明は、上述した実情に鑑みて提案されたものであり、スピーカにより放音された音を検出しうる環境下に設置されたマイクロフォンからの音声信号を用いて、演算量の増大を抑えつつ、スピーカ以外の放音位置を精度良く検出することが可能な音声処理装置、及び、音声処理方法を提供することを目的とする。
上述した課題を解決するための手段として、本発明に係る音声処理装置は、スピーカに出力する出力信号x(t)を短時間スペクトルに変換する第1の短時間スペクトル変換部と、スピーカにより放音された音を検出しうる環境に設置された多チャンネルのマイクロフォンから検出された音声信号m(t)を短時間スペクトルに変換する第2の短時間スペクトル変換部と、第1の短時間スペクトル変換部により変換された出力信号x(t)の短時間スペクトルと、第2の短時間スペクトル変換部により変換された音声信号m(t)の短時間スペクトルとを用いて、出力信号x(t)がスピーカにより放音されてエコー信号b(t)として音声信号m(t)に重畳されてマイクロフォンにより検出される伝搬経路の伝達関数h(t)の振幅周波数関数を算出する第1の伝達関数算出部と、第1の伝達関数算出部により算出された伝達関数h(t)の振幅周波数関数と、第1の短時間スペクトル変換部により変換された出力信号x(t)の短時間スペクトルと、第2の短時間スペクトル変換部により変換された音声信号m(t)の短時間スペクトルとを用いて、音声信号m(t)に対するエコー信号b(t)を除いた音声信号s(t)の割合を示す伝達関数の振幅周波数関数を算出する第2の伝達関数算出部と、マイクロフォンにより検出された音声信号m(t)から、当該マイクロフォンが設置された環境において音声信号s(t)が放音された放音位置の方向を示す方向スペクトルを算出する方向スペクトル算出部と、方向スペクトル算出部により算出された方向スペクトルを、第2の伝達関数算出部により算出された振幅周波数関数で重み付けして、当該重み付けした方向スペクトルに応じて、放音位置の方向を推定する方向推定部とを備える。
また、本発明に係る音声処理方法は、スピーカに出力する出力信号x(t)を短時間スペクトルに変換する第1の短時間スペクトル変換ステップと、スピーカにより放音された音を検出しうる環境に設置された多チャンネルのマイクロフォンから検出された音声信号m(t)を短時間スペクトルに変換する第2の短時間スペクトルステップと、第1の短時間スペクトル変換ステップにより変換された出力信号x(t)の短時間スペクトルと、第2の短時間スペクトル変換ステップにより変換された音声信号m(t)の短時間スペクトルとを用いて、出力信号x(t)がスピーカにより放音されてエコー信号b(t)として音声信号m(t)に重畳されてマイクロフォンにより検出される伝搬経路の伝達関数h(t)の振幅周波数関数を算出する第1の伝達関数算出ステップと、第1の伝達関数算出ステップにより算出された伝達関数h(t)の振幅周波数関数と、第1の短時間スペクトル変換ステップにより変換された出力信号x(t)の短時間スペクトルと、第2の短時間スペクトル変換ステップにより変換された音声信号m(t)の短時間スペクトルとを用いて、音声信号m(t)に対するエコー信号b(t)を除いた音声信号s(t)の割合を示す振幅周波数関数を算出する第2の振幅周波数関数算出ステップと、マイクロフォンにより検出された音声信号m(t)から、当該マイクロフォンが設置された環境において音声信号s(t)が放音された放音位置の方向を示す方向スペクトルを算出する方向スペクトル算出ステップと、方向スペクトル算出ステップにより推定された方向スペクトルを、第2の振幅周波数関数算出ステップにより算出された振幅周波数関数で重み付けして、当該重み付けした方向スペクトルに応じて、放音位置を推定する方向推定ステップとを有する。
本発明は、スピーカにより放音されてエコー信号b(t)として音声信号m(t)に重畳されてマイクロフォンにより検出される伝搬経路の伝達関数h(t)の振幅周波数関数を用いて算出された振幅周波数関数G(ω)を用いて、演算量の増大を抑えつつ音声信号s(t)の放音位置を精度良く検出することができる。
以下、本発明を実施するための最良の形態について、図面を参照しながら詳細に説明する。なお、本発明は、以下の実施形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変更が可能であることは勿論である。
本発明が適用された音声処理装置は、スピーカにより放音された音を検出しうる環境に設置された多チャンネルのマイクロフォンから検出された音声信号に対して音声処理を行う装置である。このような音声処理装置は、例えば図1に示すようなテレビジョン会議システム100の近端装置1に組み込まれて使用される。なお、説明は以下の順序で行う。
1.全体構成
2.方向推定処理
3.音声認識処理
<1.全体構成>
テレビジョン会議システム100は、近端装置1と遠端装置2との間で、それぞれの装置側の会議出席者の画像及び発音音声に係る情報を双方向に送受信するものである。近端装置1と遠端装置2とは、画像信号及び音声信号を送受信するため、インターネットなどの電気通信回線3を介して接続されている。
近端装置1は、遠端装置2側の会議出席者の発音音声を放音するスピーカ11と、スピーカ11により放音された音を検出しうる環境に設置され、近端装置1側の会議出席者の発音音声を収音する2チャンネルのマイクロフォン12a、12bと接続されている。また、近端装置1は、近端装置1側の会議出席者の画像を撮像するため、画角を制御することが可能なカメラ13と、遠端装置2側の会議出席者の画像を表示するディスプレイ14と接続されている。
このような装置と接続された近端装置1は、遠端装置2から受信した音声信号をスピーカ11により放音するとともに、マイクロフォン12a、12bにより収音された音声信号を遠端装置2に送信する。また、近端装置1は、遠端装置2から受信した画像信号をディスプレイ14に表示するとともに、カメラ13により撮像された画像信号を遠端装置2に送信する。
遠端装置2は、近端装置1側の会議出席者の発音音声を放音するスピーカ21と、スピーカ21により放音された音を検出しうる環境に設置され、遠端装置2側の会議出席者の発音音声を集音する2チャンネルのマイクロフォン22a、22bと接続されている。また、遠端装置2は、遠端装置2側の会議出席者の画像を撮像するため、画角を制御することが可能なカメラ23と、近端装置1側の会議出席者の画像を表示するディスプレイ24と接続されている。
このような装置と接続された遠端装置2は、近端装置1から受信した音声信号をスピーカ21により放音するとともに、マイクロフォン22a、22bにより収音された音声信号を近端装置1に送信する。また、遠端装置2は、近端装置1から受信した画像信号をディスプレイ24に表示するとともに、カメラ23により撮像された画像信号を近端装置1に送信する。
<2.方向推定処理>
以上のような構成からなるテレビジョン会議システム100において、近端装置1に接続されたマイクロフォン12a、12bは、上述したように近端装置1側の会議出席者の発音音声を収音するとともに、スピーカ11から放音される音声も空間を介して収音してしまう。このようにして、マイクロフォン12a、12bにより収音される音声信号には、スピーカ11から放音された音声信号が重畳されてしまうので、次のような問題が生じてしまう。マイクロフォン12a、12bによる収音結果に基づいて、近端装置1側で発話している会議出席者にカメラ13の画角を向けるように制御する場合には、遠端装置2側の会議出席者の発話でスピーカ11にカメラ13の画角が向いてしまうという問題がある。
そこで、本発明が適用された音声処理装置が組み込まれた近端装置1は、マイクロフォン12a、12bにより収音された音声信号に対する会議出席者の発音信号の割合を精度良く算出して、この算出結果を利用して方向推定を行う。このような方向推定処理を行うため、近端装置1は、図2、図3に示すような構成を有している。
図2は、近端装置1に係る音声処理系の構成を示した図である。すなわち、近端装置1は、遠端装置2との間で音声信号の送受信を行う通信部15と、音声信号に係る符号処理を行う音声符号処理部16と、音声信号に対して信号処理を行う音声信号処理部17とを備える。また、近端装置1は、音声信号をアナログ変換するD/A変換器18と、音声信号をデジタル変換するA/D変換器19a、19bと、カメラ13の動作を制御するカメラ制御部20とを備える。
通信部15は、電気通信回線3を介して遠端装置2との間で符号化された音声信号の送受信を行う。通信部15は、遠端装置2から受信した音声信号を音声符号処理部16に供給し、音声符号処理部16から供給された音声信号を遠端装置2に送信する。
音声符号処理部16は、次のような、音声信号に係る符号処理を行う。すなわち、音声符号処理部16は、通信部15から供給された音声信号を復号して音声信号処理部17に供給する。例えば、音声符号処理部16は、48kHzサンプリングで16ビットのPCMの音声信号に復号して音声信号処理部17に供給する。また、音声符号処理部16は、音声信号処理部17から供給された音声信号を符号化して通信部15に供給する。
音声信号処理部17は、例えば、デジタルシグナルプロセッサにより構成され、音声信号に対して次のような信号処理を行う。すなわち、音声信号処理部17は、音声符号処理部16から供給された音声信号をD/A変換器18に供給する。また、音声信号処理部17は、A/D変換器19a、19bから供給される音声信号を、音声符号処理部16に供給する処理を行う。さらに、音声信号処理部17は、音声信号を解析して、解析結果をカメラ制御部20に供給する。
D/A変換器18は、音声信号処理部17から供給された音声信号をアナログ変換して、変換した音声信号をスピーカ11に供給する。例えば、D/A変換器18は、48kHzサンプリングで16ビットのPCMの音声信号をアナログ変換する。
A/D変換器19a、19bは、それぞれマイクロフォン12a、12bにより収音した音声信号をデジタル変換して、変換した音声信号を音声信号処理部17に供給する。A/D変換器19a、19bは、音声符号処理部16で処理される音声信号と同様に、48kHzサンプリングで16ビットのPCMの音声信号にデジタル変換する。
カメラ制御部20は、音声信号処理部17から供給される解析結果に基づいて、カメラ13の画角を制御する。
以上のような構成からなる近端装置1では、マイクロフォン12a、12bにより収音された音声信号に対する会議出席者の発音信号の割合を精度良く算出して、この算出結果を用いて方向推定を行うため、音声信号処理部17が図3に示すように構成されている。
音声信号処理部17は、音声信号を複数の帯域ごとに帯域分割する帯域分割部171−173と、収音された音声信号に対する会議出席者の発音信号(以下、目的話者という。)の割合を示す振幅周波数関数を帯域ごとに算出する重み算出部174とを備える。また、音声信号処理部17は、収音された音声信号から目的話者の音声が放音される放音位置の方向を示す方向スペクトルを帯域ごとに算出する方向スペクトル算出部175と、放音位置の方向を推定する方向推定部176とを備える。
帯域分割部171は、音声符号処理部16から供給された音声信号x(t)を複数の帯域に分割する。具体的に、帯域分割部171は、例えば音声信号x(t)に対してフーリエ変換処理を施して、帯域毎に短時間スペクトルX(ω)に変換する。
また、帯域分割部172、173は、それぞれマイクロフォン12a、12bにより収音した音声信号m(t)を複数の帯域に分割する。具体的に、帯域分割部172、173は、例えば音声信号m(t)に対してフーリエ変換処理を施して、帯域毎に短時間スペクトルM(ω)に変換する。
なお、帯域分割部171−173は、フーリエ変換処理に限らず、離散コサイン変換処理、ウェーブレット変換、又は各種フィルタバンクを用いて、上述した帯域分割処理を行うようにしてもよい。
重み算出部174は、帯域分割部171−173により変換された帯域毎の短時間スペクトルX(ω)、M(ω)を用いて、音声信号m(t)に対する目的話者の発音信号s(t)の割合を示す振幅周波数関数を帯域ごとに算出するため、例えば図4に示すように構成されている。
重み算出部174は、帯域分割部171−173により分割される帯域数が512の場合、この帯域分割数と同数の適応エコー信号処理部31−1〜31−512を備える。また、重み算出部174は、適応エコー信号処理部31−1〜31−512により得られた算出結果を合成する重み合成処理部32を備える。重み算出部174は、短時間スペクトルX(ω)、M(ω)、各帯域に対応する適応エコー信号処理部31−nに供給して、適応エコー信号処理部31−nにより帯域毎に、音声信号m(t)に対する会議出席者の発音信号s(t)の割合を算出する。
次に、適応エコー信号処理部31−nに係る具体的な構成と処理内容について図5を参照して説明する。
適応エコー信号処理部31−nでは、例えば、下記のようなSpectral Subtraction法に基づいて、音声信号m(t)に対する会議出席者の発音信号s(t)の割合を示す伝達関数を算出する。
ここで、エコー信号b(t)は、出力信号x(t)がスピーカ11により放音され、マイクロフォン12a、12bにより音声信号m(t)に重畳されて検出されるものとする。このようにしてエコー信号b(t)成分を定義して、各音声信号m(t)、s(t)、b(t)を単位時間スペクトルに変換した周波数ωの成分をそれぞれM(ω),S(ω),B(ω)とおくと、下記の(1)式の関係が成り立つ。
M(ω)=S(ω)+B(ω) ・・・(1)
また、Spectral Subtraction法を用いると、マイクロフォン12a、12bにより検出される音声信号に対する目的話者の発音信号s(t)の割合を示す伝達関数G(ω)は、下記の(2)式で表される。なお、この例では、Spectral Subtractionにより定式式化したものを用いるが、Wiener FilteringやMaximum Likelihood法などを用いてもかまわない。
Figure 0005251473
上記(2)式において、関数Eは入力値の平均を出力する関数である。
上記(2)式で表現されるG(ω)を推定するには、エコー信号成分の平均値であるE[|B(ω)|]を推定する必要がある。
[|B(ω)|]は、出力信号x(t)がスピーカ11により放音されてエコー信号b(t)として音声信号m(t)に重畳されてマイクロフォン12a、12bにより検出される伝搬経路の伝達関数h(t)の振幅周波数関数H(ω)を用いて、下記の(3)式のように表される。
Figure 0005251473
例えば、目的話者の発音信号s(t)が0のときは、H(ω)は下記の(4)式で求まる。
Figure 0005251473
また、会議出席者の発音信号s(t)が0ではないとき、すなわち、ダブルトーク状態や、スピーカ11から何も放音されていない状態で、上記の(4)式からH(ω)の値を推定すると、H(ω)の推定値が正しくない値となってしまう。そのため、このようなダブルトークの影響を受けても精度良くH(ω)を算出するため、次の処理を行う。
ここでは、異なる二つの時定数α、βを用いて、ダブルトークの影響を受けにくいH(ω)の値の推定処理について説明する。すなわち、時刻tのH(ω)をH(ω)として、下記の(5)式によりH(ω)を逐次算出する。
Figure 0005251473
上記(5)式においては、0≦β<α≦1の条件を満たすものとする。ここで、上記(5)式における[|M(ω)|]/[|X(ω)|]は、ダブルトーク時には相対的に大きい値を取り、エコー信号b(t)のみ収音されるときは、相対的に小さい値を取る。
このような特性を利用して、[|M(ω)|]/[|X(ω)|]が更新前のH(ω)に対して大きいか否かを判別して、それぞれ、α、βを係数により乗算処理をする重み付けしてHt+1(ω)に更新する。ここで、β<αとすることで、ダブルトーク時の値の時には更新前後で変化を抑え、エコー信号b(t)のみを収音する時には更新前後で変化を大きくして上記(4)式から得られる値へ早く追従するようにすることができる。
上述した更新処理以外にも、音声信号X(ω)と音声信号M(ω)との相互相関を算出して、この相互相関に係る算出結果からダブルトークかどうかを閾値を設定して判断し、ダブルトークではない時のみ平均を更新する手法を用いるようにしてもよい。
以上のようにして、音声信号m(t)に重畳されるエコー信号成分を除去して、音声信号m(t)に対する目的話者の発音信号s(t)の割合を示す伝達関数を算出するため、適応エコー信号処理部31−nは、次のような構成を備える。
すなわち、適応エコー信号処理部31−nは、エコー信号成分の伝搬経路の伝達関数を算出する第1の伝達関数算出部41と、第1の伝達関数算出部41による算出結果を用いて、音声信号m(t)に対する目的話者の発音信号s(t)の割合を示す伝達関数を算出する第2の伝達関数算出部42とを備える。
第1の伝達関数算出部41は、出力信号x(t)の短時間スペクトルX(ω)と、音声信号m(t)の短時間スペクトルM(ω)とを用いて、上記(4)式、(5)式にしたがって、伝達関数h(t)の振幅周波数関数H(ω)を算出する。そして、第1の伝達関数算出部41は、算出した伝達関数h(t)の振幅周波数関数H(ω)を、第2の伝達関数算出部42に通知する。
第2の伝達関数算出部42は、第1の伝達関数算出部41により算出された伝達関数h(t)の振幅周波数関数H(ω)と、出力信号x(t)の短時間スペクトルX(ω)と、音声信号m(t)の短時間スペクトルM(ω)とを用いて、上記(2)式、(3)式にしたがって、振幅周波数関数G(ω)を算出する。
上述した処理によって各適応エコー信号処理部31−nにより得られた振幅周波数関数G(ω)は、重み合成処理部32に通知される。
重み合成処理部32は、各帯域毎の振幅周波数関数G(ω)を足し合わせることにより合成して、後段の方向推定部176により放音位置の方向を推定するための重み関数W(ω)を算出する。重み合成処理部32では、単純に各帯域毎の振幅周波数関数G(ω)を足し合わせてもよいが、人間の聴覚特性に合わせて、帯域毎に異なる係数を掛けて合成処理することで、後段の方向推定部176で、より精度良く方向推定をすることができる。重み合成処理部32は、算出した重み関数W(ω)を方向推定部176に通知する。
上述した重み算出部174に係る音声処理と並列して、音声信号処理部17において、方向スペクトル算出部175は、収音された音声信号m(t)から変換された短時間スペクトルM(ω)を用いて放音位置の方向を示す方向スペクトルを帯域ごとに算出する。具体的に、方向スペクトル算出部175は、例えばMUSIC法を用いて、短時間スペクトルにおけるチャンネル間位相差及びチャンネル間レベル差に基づいて方向スペクトルを算出する。なお、方向スペクトル算出部175は、MUSIC法の他にも、遅延和法や最小分散法など数多く提案されており、どの手法を用いて行ってもかまわない。方向スペクトル算出部175は、帯域毎に算出した方向スペクトルを、方向推定部176に通知する。
方向推定部176は、方向スペクトル算出部175により算出された方向スペクトルを、振幅周波数関数G(ω)に基づいて重み算出部164により算出された重み関数W(ω)で重み付けして、当該重み付けした方向スペクトルに応じて、放音位置の方向を推定する。具体的に、方向推定部176は、方向スペクトル算出部175により算出された方向スペクトルに重み関数W(ω)を乗算することにより重み付け処理を行う。
方向スペクトル算出部175から通知された方向スペクトルは、例えばダブルトーク時において、図6(A)に示すように、推定対象となる目的話者の話者信号の方向スペクトルに対して、スピーカ11の方向スペクトルが高くなってしまうような場合がある。このように単に方向スペクトルのみに基づいて方向推定処理を行った場合には、後段のカメラ制御部20がスピーカ11の方向にカメラ13の画角を向けてしまうこととなる。
これに対して、方向推定部176は、図6(A)に示した方向スペクトルに対して、上述した重み付け処理を行うことで、例えば図6(B)に示すように、スピーカ11の方向スペクトルに対し、推定対象となる目的話者の話者信号の方向スペクトルが強調されるように、方向スペクトルを補正することができる。
方向推定部176は、補正された方向スペクトルから、例えばピーク値となる方向を話者の方向とすることで、精度良く推定対象となる目的話者の話者信号の方向を推定することができる。
特に、方向推定部176では、重み算出部174により算出された重み関数W(ω)が所定の値より大きいときのみ方向スペクトルに対する重み付け処理を行うことで、確実に目的話者が発話しているときのみ方向推定することができる。このようにして、方向推定部176では、目的話者が発話しているときのみ方向推定することで、推定精度をさらに向上させることができる。
なお、方向推定部176が方向推定を行うためには近端装置1に最低限2チャンネルのマイクロフォンと接続されていればよいが、より他チャンネルのマイクロフォンと接続することで、各マイクロフォンの収音結果を利用して、演算量の増大を抑えつつ方向スペクトルを精度良く算出することができる。
以上のような処理を行う方向推定部176は、推定結果をカメラ制御部20に通知する。
方向推定部176から推定結果が通知されるカメラ制御部20は、当該推定結果に基づいて、近端装置1側で発音している目的話者の方向にカメラ13の画角を向ける。
以上のようにして、近端装置1では、音声信号処理部17により、エコー信号b(t)の伝搬特性を示す伝達関数h(t)の振幅周波数関数H(ω)を利用して算出された振幅周波数関数G(ω)を用いて、演算量の増大を抑えつつ目的話者の音声信号s(t)の放音位置を精度良く検出することができる。この結果として、近端装置1では、カメラ制御部20により、精度良く推定された放音位置、すなわち目的話者に、カメラ13の画角を向けるように制御することができる。
<3.音声認識処理>
近端装置1では、上述した処理によりダブルトーク時においても演算量の増大を抑えつつ精度良く目的話者の画像をカメラ13により撮像して遠端装置2側に送信することができるが、次のような機能を音声信号処理部17が有することで、精度良く目的話者の音声認識をすることができる。
図7は、音声信号処理部17における音声認識処理系の構成を示す図である。すなわち、音声信号処理部17は、近端装置1側の会議出席者で発音している目的話者の音声認識を行うため、図7に示すように、さらに音声認識部177を備える。
音声認識部177は、帯域分割部172、173から供給される音声信号m(t)の帯域毎の短時間スペクトルM(ω)を、上述した重み算出部174により帯域毎の振幅周波数関数G(ω)に基づいて算出された重み関数W(ω)で重み付け処理を施す。具体的には、音声認識部177は、短時間スペクトルM(ω)に、重み関数W(ω)を乗算することによって重み付け処理を施す。そして、音声認識部177は、当該重み付けした短時間スペクトルM(ω)に応じて、方向推定部176により推定された放音位置により放音される音声に対して音声認識を行う。
具体的に、音声認識部177は、重み付け処理を施した短時間スペクトルM(ω)に基づいて、目的話者の音声信号の基本周波数を推定する。また、音声認識部177は、重み付け処理を施した短時間スペクトルM(ω)に基づいて、目的話者の音声検出を行う。そして、音声認識部177は、推定した基本周波数と、音声検出結果に基づいて、目的話者が発話した音声認識を行う。
このようにして、音声信号処理部17では、目的話者の方向を精度良く推定できるとともに、この方向推定結果に対応付けて目的話者の音声認識を演算量の増大を抑えつつ行うことができる。
したがって、近端装置1は、会議出席者から目的話者の画像情報とともに、この目的話者の発話から得られる音声認識結果を合わせて、遠端装置2側に送信することができる。
なお、本実施形態に係るテレビジョン会議システム100では、近端装置1の具体的な構成について説明したが、近端装置1が備える方向推定処理に係る機能を、遠端装置2が備えるようにしてもよい。
テレビジョン会議システムに係る構成を示す図である。 近端装置に係る構成を示す図である。 音声信号処理部に係る構成を示す図である。 重み算出部に係る構成を示す図である。 適応エコー信号処理部に係る構成を示す図である。 方向推定部に係る処理を説明するための図である。 音声信号処理部に係る音声認識処理系の構成について示す図である。
符号の説明
1 近端装置、2 遠端装置、3 電気通信回線、11、21 スピーカ、12a、12b、22a、22b マイクロフォン、13、23 カメラ、14、24 ディスプレイ、15 通信部、16 音声符号処理部、17 音声信号処理部、18 D/A変換器、19a、19b A/D変換器、20 カメラ制御部、31−1〜31−512 適応エコー信号処理部、32 重み合成処理部、41 第1の伝達関数算出部、42 第2の伝達関数算出部、100 テレビジョン会議システム、171−173 帯域分割部、174 重み算出部、175 方向スペクトル算出部、176 方向推定部、177 音声認識部

Claims (7)

  1. スピーカに出力する出力信号x(t)を短時間スペクトルに変換する第1の短時間スペクトル変換部と、
    上記スピーカにより放音された音を検出しうる環境に設置された多チャンネルのマイクロフォンから検出された音声信号m(t)を短時間スペクトルに変換する第2の短時間スペクトル変換部と、
    上記第1の短時間スペクトル変換部により変換された出力信号x(t)の短時間スペクトルと、上記第2の短時間スペクトル変換部により変換された音声信号m(t)の短時間スペクトルとを用いて、上記出力信号x(t)が上記スピーカにより放音されてエコー信号b(t)として上記音声信号m(t)に重畳されて上記マイクロフォンにより検出される伝搬経路の伝達関数h(t)の振幅周波数関数を算出する第1の伝達関数算出部と、
    上記第1の伝達関数算出部により算出された伝達関数h(t)の振幅周波数関数と、上記第1の短時間スペクトル変換部により変換された出力信号x(t)の短時間スペクトルと、上記第2の短時間スペクトル変換部により変換された音声信号m(t)の短時間スペクトルとを用いて、上記音声信号m(t)に対する上記エコー信号b(t)を除いた音声信号s(t)の割合を示す伝達関数の振幅周波数関数を算出する第2の伝達関数算出部と、
    上記マイクロフォンにより検出された音声信号m(t)から、当該マイクロフォンが設置された環境において上記音声信号s(t)が放音された放音位置の方向を示す方向スペクトルを算出する方向スペクトル算出部と、
    上記方向スペクトル算出部により算出された方向スペクトルを、上記第2の伝達関数算出部により算出された振幅周波数関数で重み付けして、当該重み付けした方向スペクトルに応じて、上記放音位置の方向を推定する方向推定部とを備える音声処理装置。
  2. 上記第1の短時間スペクトル変換部は、上記出力信号x(t)を帯域分割して、帯域毎の短時間スペクトルに変換し、
    上記第2の短時間スペクトル変換部は、上記音声信号m(t)を帯域分割して、帯域毎の短時間スペクトルに変換し、
    上記第1の伝達関数算出部は、上記伝達関数h(t)の振幅周波数関数を帯域毎に算出し、
    上記第2の伝達関数算出部は、上記音声信号m(t)に対する上記エコー信号b(t)を除いた音声信号s(t)の割合を示す伝達関数の振幅周波数関数を帯域毎に算出し、
    上記第2の伝達関数算出部により算出された各帯域の振幅周波数関数を合成する合成処理部を更に備え、
    上記方向推定部は、上記方向スペクトル算出部により算出された方向スペクトルを、上記第2の伝達関数算出部により算出され上記合成処理部により合成された振幅周波数関数で重み付けして、当該重み付けした方向スペクトルに応じて、上記放音位置の方向を推定する請求項1記載の音声処理装置。
  3. 上記方向推定部は、上記第2の伝達関数算出部により算出された振幅周波数関数が所定の値より大きいときのみ、上記方向スペクトル算出部により算出された方向スペクトルを、上記第2の伝達関数算出部により算出された振幅周波数関数で重み付けして、当該重み付けした方向スペクトルに応じて、上記放音位置を推定する請求項2記載の音声処理装置。
  4. 上記第2の短時間スペクトル変換部により変換された音声信号m(t)の短時間スペクトルを、上記第2の伝達関数算出部により算出された振幅周波数関数で重み付けして、当該重み付けした短時間スペクトルに応じて、上記方向推定部により推定された放音位置により放音される音声に対して音声認識を行う音声認識部を更に備える請求項1記載の音声処理装置。
  5. 上記音声認識部は、上記第2の短時間スペクトル変換部により変換された音声信号m(t)の短時間スペクトルを、上記第2の伝達関数算出部により算出された振幅周波数関数で重み付けして、当該重み付けした短時間スペクトルに応じて、上記方向推定部により推定された放音位置により放音される音声の基本周波数を得て、得られた基本周波数に基づいて音声認識を行う請求項4記載の音声処理装置。
  6. 上記音声認識部は、上記第2の短時間スペクトル変換部により変換された音声信号m(t)の短時間スペクトルを、上記第2の伝達関数算出部により算出された振幅周波数関数で重み付けして、当該重み付けした短時間スペクトルに応じて、上記方向推定部により推定された放音位置により放音される音声の音声検出を行い、当該検出結果に基づいて音声認識を行う請求項4記載の音声処理装置。
  7. スピーカに出力する出力信号x(t)を短時間スペクトルに変換する第1の短時間スペクトル変換ステップと、
    上記スピーカにより放音された音を検出しうる環境に設置された多チャンネルのマイクロフォンから検出された音声信号m(t)を短時間スペクトルに変換する第2の短時間スペクトルステップと、
    上記第1の短時間スペクトル変換ステップにより変換された上記出力信号x(t)の短時間スペクトルと、上記第2の短時間スペクトル変換ステップにより変換された音声信号m(t)の短時間スペクトルとを用いて、上記出力信号x(t)が上記スピーカにより放音されてエコー信号b(t)として上記音声信号m(t)に重畳されて上記マイクロフォンにより検出される伝搬経路の伝達関数h(t)の振幅周波数関数を算出する第1の伝達関数算出ステップと、
    上記第1の伝達関数算出ステップにより算出された伝達関数h(t)の振幅周波数関数と、上記第1の短時間スペクトル変換ステップにより変換された上記出力信号x(t)の短時間スペクトルと、上記第2の短時間スペクトル変換ステップにより変換された音声信号m(t)の短時間スペクトルとを用いて、上記音声信号m(t)に対する上記エコー信号b(t)を除いた音声信号s(t)の割合を示す振幅周波数関数を算出する第2の振幅周波数関数算出ステップと、
    上記マイクロフォンにより検出された音声信号m(t)から、当該マイクロフォンが設置された環境において上記音声信号s(t)が放音された放音位置の方向を示す方向スペクトルを算出する方向スペクトル算出ステップと、
    上記方向スペクトル算出ステップにより推定された方向スペクトルを、上記第2の振幅周波数関数算出ステップにより算出された振幅周波数関数で重み付けして、当該重み付けした方向スペクトルに応じて、上記放音位置を推定する方向推定ステップとを有する音声処理方法。
JP2008313255A 2008-12-09 2008-12-09 音声処理装置、及び、音声処理方法 Expired - Fee Related JP5251473B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008313255A JP5251473B2 (ja) 2008-12-09 2008-12-09 音声処理装置、及び、音声処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008313255A JP5251473B2 (ja) 2008-12-09 2008-12-09 音声処理装置、及び、音声処理方法

Publications (2)

Publication Number Publication Date
JP2010141402A JP2010141402A (ja) 2010-06-24
JP5251473B2 true JP5251473B2 (ja) 2013-07-31

Family

ID=42351169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008313255A Expired - Fee Related JP5251473B2 (ja) 2008-12-09 2008-12-09 音声処理装置、及び、音声処理方法

Country Status (1)

Country Link
JP (1) JP5251473B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107251134A (zh) * 2014-12-28 2017-10-13 静公司 在噪声受控体积内控制噪声的装置、系统和方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012149906A (ja) * 2011-01-17 2012-08-09 Mitsubishi Electric Corp 音源位置推定装置、音源位置推定方法および音源位置推定プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3211398B2 (ja) * 1992-09-04 2001-09-25 松下電器産業株式会社 テレビ会議用発言音声検出装置
JP3341815B2 (ja) * 1997-06-23 2002-11-05 日本電信電話株式会社 受話状態検出方法およびその装置
JPH11341334A (ja) * 1998-05-27 1999-12-10 Canon Inc カメラ制御方法及び装置並びに記憶媒体
JP5028833B2 (ja) * 2006-03-17 2012-09-19 ヤマハ株式会社 放収音装置
JP4929685B2 (ja) * 2005-11-15 2012-05-09 ヤマハ株式会社 遠隔会議装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107251134A (zh) * 2014-12-28 2017-10-13 静公司 在噪声受控体积内控制噪声的装置、系统和方法

Also Published As

Publication number Publication date
JP2010141402A (ja) 2010-06-24

Similar Documents

Publication Publication Date Title
TWI398855B (zh) 多重麥克風聲音活動偵測器
EP3189521B1 (en) Method and apparatus for enhancing sound sources
JP5862349B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
US8644496B2 (en) Echo suppressor, echo suppressing method, and computer readable storage medium
JP6279181B2 (ja) 音響信号強調装置
US8392184B2 (en) Filtering of beamformed speech signals
US9418678B2 (en) Sound processing device, sound processing method, and program
CN103718241B (zh) 噪音抑制装置
JP4660578B2 (ja) 信号補正装置
US20120057722A1 (en) Noise removing apparatus and noise removing method
EP2751806B1 (en) A method and a system for noise suppressing an audio signal
JP4957810B2 (ja) 音処理装置、音処理方法及び音処理プログラム
JP2008236077A (ja) 目的音抽出装置,目的音抽出プログラム
US9082411B2 (en) Method to reduce artifacts in algorithms with fast-varying gain
TW201142829A (en) Adaptive noise reduction using level cues
US9343073B1 (en) Robust noise suppression system in adverse echo conditions
US20080019537A1 (en) Multi-channel periodic signal enhancement system
JPWO2018163328A1 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
KR101581885B1 (ko) 복소 스펙트럼 잡음 제거 장치 및 방법
JP5887535B2 (ja) エコー消去装置、エコー消去方法、及び、通話装置
WO2020110228A1 (ja) 情報処理装置、プログラム及び情報処理方法
CN112130801B (zh) 音响装置及音响处理方法
JP5251473B2 (ja) 音声処理装置、及び、音声処理方法
JP5228903B2 (ja) 信号処理装置および方法
JP4478045B2 (ja) エコー消去装置、エコー消去方法、エコー消去プログラムおよびその記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130401

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees