JP2004109779A - 音声処理装置 - Google Patents
音声処理装置 Download PDFInfo
- Publication number
- JP2004109779A JP2004109779A JP2002274872A JP2002274872A JP2004109779A JP 2004109779 A JP2004109779 A JP 2004109779A JP 2002274872 A JP2002274872 A JP 2002274872A JP 2002274872 A JP2002274872 A JP 2002274872A JP 2004109779 A JP2004109779 A JP 2004109779A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- input
- information
- sound
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】複数の音声処理装置が近隣でスピーカ出力或いはマイク入力を行っている場合であっても,適切な対処を行えること。
【解決手段】近隣で使用されている音声処理装置X相互間で,各装置におけるスピーカ13出力中の音声やマイク21入力中の音声に関する情報(その音声の特徴をあらわす情報)を相互に送受信することにより,マイク入力中の装置は,受信情報に基づいて,その情報の送信元の音声がマイク入力中の音声に混入しているかどうかを検出する。また,スピーカ出力中の装置は,受信情報に基づいて,その情報の送信元のマイク入力に自装置のスピーカ出力が外乱を与えているかどうかを検出する。これにより,外乱の発生元の装置に対して外乱となる音声を抑制させる通知を行ったり,情報を受信した装置が自発的にスピーカ出力レベルを下げる等の適切な対処を行う。
【選択図】図1
【解決手段】近隣で使用されている音声処理装置X相互間で,各装置におけるスピーカ13出力中の音声やマイク21入力中の音声に関する情報(その音声の特徴をあらわす情報)を相互に送受信することにより,マイク入力中の装置は,受信情報に基づいて,その情報の送信元の音声がマイク入力中の音声に混入しているかどうかを検出する。また,スピーカ出力中の装置は,受信情報に基づいて,その情報の送信元のマイク入力に自装置のスピーカ出力が外乱を与えているかどうかを検出する。これにより,外乱の発生元の装置に対して外乱となる音声を抑制させる通知を行ったり,情報を受信した装置が自発的にスピーカ出力レベルを下げる等の適切な対処を行う。
【選択図】図1
Description
【0001】
【発明の属する技術分野】
本発明は,音声を出力するスピーカや音声を入力するマイクを具備し所定の音声処理を行う音声処理装置に関し,特に,近隣で使用されている各装置がスピーカ出力中或いはマイク入力中である場合に,他装置の音声がマイク入力中の自装置の外乱音声となっていることや自装置の音声がマイク入力中の他装置の外乱となっていることを検出して適切な対処を行うことができる音声処理装置に関するものである。
【0002】
【従来の技術】
近年,インターネットの普及が著しいが,今後,IP電話などの音声通信アプリケーションの普及が予想される。このような音声通信アプリケーションとしては,例えば,単に音声電話の機能をネットワークで置き換えたものの他,より音質の高い電話サービスが可能になったり,音声だけでなく画像も同時に伝送するテレビ電話や同時に多地点通話を行うテレビ会議といった様々な新しいサービスが考えられる。また,音声は障害者や老人・子供までが容易にサービスに参加できるようにするデジタルディバイド是正の手段としても有効なメディアとなる可能性を秘めている。このように,誰にでも簡単に使える音声インターフェイスの実現は,一般の健常者へのユーザビリティ向上も含めて遍く多くの人達への情報サービスを普及させ,新たな成長市場を作っていくうえで極めて有効であるといえる。
このように将来の情報サービス普及において音声インターフェイスの重要性は明らかである反面,音声では画像など他のメディアでは起こらない困難な技術課題が発生する。それは,音という信号は空間的に拡散することに起因し,近隣で異なる機器やサービスを用いるユーザの発生する音声やスピーカからの出力は,他のユーザや機器にとっては使用環境や性能を劣化させる外乱信号となる。これは,音声サービスの普及が進むにつれて増加したユーザ同士が互いに干渉源となり,さらなる普及を阻害するというジレンマとなる。身近な事例を示せば,例えば,ハンズフリーでTV電話をしている近くで他の家族がテレビやオーディオを再生したり,それらの機器操作のために音声認識/合成を使用したりするような状況等が挙げられる。
従来,音声インターフェースを具備する音声処理装置の一例であるハンズフリー機能を有した従来の電話機には,例えば,特許文献1に示されるように,自らのスピーカが発した(出力した)音声がマイクに回り込む干渉を防ぐためのエコキャンセラや,定常的な背景騒音等を除去するノイズサプレッサ等が搭載されている。
一方,非特許文献1には,それぞれ異なる音源からの複数の音声が混在した混合音声が複数のマイクによって入力された場合に,その混合音声信号から音源ごとの音声信号を分離する技術が示されている。本技術は,複数のマイクから入力された音声信号が混合された混合音声信号から独立成分分析に基づいて,マイクの数だけの音源それぞれごとの音声信号を分離するものである。
【0003】
【特許文献1】
特開平10−190533号公報
【非特許文献1】
猿渡 洋「音声・音響信号を対象としたブラインド音源分離」 電子情報通信学会DSP研究会,DSP2001−194, pp.59−66, (2002)
【0004】
【発明が解決しようとする課題】
しかしながら,特許文献1等に示されるエコーキャンセラは,自装置がスピーカ出力する音声のエコーを除去するのみであり,他装置におけるスピーカ出力やマイク入力の音声(他装置が音源となる音声)が自装置のマイク入力に混入する場合には対応できないという問題点があった。
また,非特許文献1に示される技術では,分離した音源ごとの複数の音声信号のうち,自装置にとって有効な音声信号(自装置のユーザがマイク入力している(音源となっている)音声信号)がいずれであるか,或いは自装置にとって外乱となる音声信号(他装置からの音声)がいずれであるかを特定することができないという問題点があった。
さらに,自装置にとって外乱となる音声信号を特定できた場合であっても,外乱となる音声信号のレベルが高すぎる場合等には,適切な外乱除去が困難となるという問題点もあった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,複数の音声処理装置が近隣でスピーカ出力或いはマイク入力を行っている場合であっても,他装置の音声がマイク入力中の自装置の外乱音声となっていることを検出したり,自装置の音声がマイク入力中の他装置の外乱音声となっていることを検出したりすることにより,適切な対処を行うことができる音声処理装置を提供することにある。
【0005】
【課題を解決するための手段】
上記目的を達成するために本発明は,音声を出力するスピーカ及び/又は音声を入力するマイクを具備する音声処理装置において,前記スピーカにより出力中の音声に関する出力音声情報を検出する出力音声情報検出手段及び/又は前記マイクにより入力中の音声に関する入力音声情報を検出する入力音声情報検出手段と,前記出力音声情報及び/又は前記入力音声情報をマイクにより音声入力中及び/又はスピーカにより音声出力中の他の装置へ送信する音声情報送信手段と,を具備してなることを特徴とする音声処理装置である。
前記出力音声情報及び/又は前記入力音声情報としては,例えば,その音声が有音若しくは無音であることに関する情報や,その音声のレベルや周波数,声紋に関する情報等,その音声の特徴をあらわす各種情報が考えられる。
このように,自装置におけるスピーカ出力中の音声やマイク入力中の音声に関する情報を近隣の他装置に送信することにより,マイク入力中或いはスピーカ出力中の前記他の装置は,受信した情報(前記出力音声情報及び/又は前記入力音声情報)に基づいて,その情報の送信元の音声がマイク入力中の音声に混在(混入)しているかどうかや,スピーカ出力中の音声が前記情報の送信元の音声処理装置のマイク入力に外乱として影響を与えているかどうか等を検出するこが可能となるので,適切な対処を行うことが可能となる。
【0006】
また,前記マイクによる入力音声に含まれるそれぞれ異なる音源からの複数の入力音声を分離する音源分離手段を具備し,前記入力音声情報検出手段が,前記音源分離手段により分離後の複数の入力音声のうちの1又は複数の入力音声に関する情報を検出するものも考えられる。
ここで,前記音源分離手段としては,例えば,非特許文献1に示される技術を適用すればよい。即ち,前記マイクを複数具備し,前記音源分離手段が,複数の前記マイクから入力された音声信号が混合された混合音声信号から独立成分分析に基づいて前記音源ごとの複数の音声入力信号を分離するものとして構成したものである。
これにより,異なる音源からの音声が混在してマイク入力される場合であっても,音源ごとに区分したきめ細かな対処を行うことができる。
この場合,さらに,前記音源分離手段により分離後の複数の入力音声から,当該音声処理装置の処理対象とする有効音源信号を選択する音源選択手段を具備し,前記有効音源信号及び/又は前記音源選択手段により選択されなかった残りの音声信号に関する前記入力音声情報を前記音声情報送信手段により送信するものも考えられる。
【0007】
また,前記他の装置が,前記音声情報送信手段により前記他の装置へ送信した前記出力音声情報及び/又は前記入力音声情報を用いることにより,前記他の装置がマイク入力した音声信号と当該音声処理装置がスピーカ出力及び/又はマイク入力した音声信号との相関情報を求め,該相関情報に基づいて所定の通知を送信するものであり,前記他の装置からの前記所定の通知を受信する通知受信手段と,前記所定の通知に基づいて前記スピーカによる音声出力及び/又は前記マイクによる音声入力に関する所定の制御を行う制御手段と,を具備するものも考えられる。
ここで,前記他の装置により求められる前記相関情報が,「相関が高い」状態を表す場合は,前記他の装置でマイク入力中の音声に当該音声処理装置でスピーカ出力中の音声及び/若しくはマイク入力中の音声が外乱として混入されている状態を表すことになる。従って,当該音声処理装置は,前記相関情報に基づく前記所定の通知(前記相関情報(相関の高さ)そのものを通知してもよい)に応じて,様々な対処(制御)を行うことが可能となる。
例えば,前記制御手段が行う所定の制御としては,例えば,前記他の装置がマイク入力した音声信号と当該音声処理装置がスピーカ出力した音声信号との相関が高い場合に,前記スピーカによる出力レベルを低下させるもの等が考えられる。
このように,前記他の装置への外乱となっている音源(当該音声処理装置のスピーカ)の出力レベルを低下させることにより,前記他の装置において,外乱となる音声信号のレベルが高すぎて適切な外乱除去が困難となるという弊害を防止できる。この他にも,例えば,当該音声処理装置がマイク入力中であり,その入力音声が前記他の装置への外乱となっている場合には,当該音声処理装置においてマイク入力中のユーザに,声を小さくするよう要求するメッセージを所定の表示装置に表示させる等の制御を行うこと等も考えられる。
【0008】
また,以上に示した音声処理装置は,前記他の装置に対して前記入力音声情報及び/又は前記出力音声情報を送信する側の装置についてのものであったが,前記入力音声情報及び/又は前記出力音声情報を受信する側の音声処理装置も本発明の範囲である。
即ち,音声を入力するマイク及び/又は音声を出力するスピーカを具備する音声処理装置において,他の装置がマイク入力中の音声に関する入力音声情報及び/又は前記他の装置がスピーカ出力中の音声に関する出力音声情報を前記他の装置から受信する音声情報受信手段を具備してなることを特徴とする音声処理装置である。
これにより,前記他の装置から受信した前記入力音声情報及び/又は前記出力音声情報を用いて様々な対処を行うことが可能となる。
【0009】
また,前記マイクによる入力音声に含まれるそれぞれ異なる音源からの複数の入力音声信号を分離する音源分離手段を具備するものが考えられる。
ここで,前記音源分離手段としては,例えば,非特許文献1に示される技術を適用すればよい。即ち,前記マイクを複数具備し,前記音源分離手段が,複数の前記マイクから入力された音声信号が混合された混合音声信号から独立成分分析に基づいて前記音源ごとの複数の音声入力信号を分離するものである。
これにより,異なる音源からの音声が混在してマイク入力される場合であっても,音源ごとに区分したきめ細かな対処を行うことができる。
さらに,この場合において,前記音源分離手段により分離後の複数の入力音声から,当該音声処理装置の処理対象とする有効音源信号を選択する音源選択手段を具備し,前記有効音源信号及び/又は前記音源選択手段により選択されなかった残りの音声信号に関する前記入力音声情報を前記音声情報送信手段により送信するものも考えられる。
【0010】
また,前記音声情報受信手段により前記他の装置から受信した前記出力音声情報及び/又は前記入力音声情報を用いて,前記音源分離手段により分離された前記複数の音声入力信号それぞれと前記他の装置でスピーカ出力及び/又はマイク入力された音声信号との第1の相関情報を求める第1の相関情報検出手段を具備するものが考えられる。
前述したのと同様に,当該音声処理装置により求められる前記第1の相関情報が,「相関が高い」状態を表す場合は,当該音声処理装置でマイク入力中の音声に前記他の装置でスピーカ出力中の音声及び/若しくはマイク入力中の音声が外乱として混入されている状態を表すことになる。従って,当該音声処理装置は,前記第1の相関情報に基づいて,様々な対処を行うことが可能となる。
例えば,前記第1の相関情報に基づいて所定の通知を前記他の装置に送信する通知送信手段を具備するものが考えられる。
ここで,前記所定の通知としては,前記音源分離手段により分離された前記複数の音声入力信号のいずれかと前記他の装置でスピーカ出力及び/又はマイク入力された音声信号との相関が高い場合に,前記他の装置に対してスピーカ出力及び/又はマイク入力の音声レベルを低下させる旨の通知とすること等が考えられる。ここで,マイク入力の音声レベルを低下させる制御としては,例えば,前記他の装置において,マイク入力中の声を小さくするようメッセージ表示させる等の制御が考えられる。
【0011】
また,前記音声情報受信手段により前記他の装置から受信した前記入力音声情報を用いて,前記スピーカによる出力音声信号と前記他の装置でマイク入力された音声信号との第2の相関情報を求める第2の相関情報検出手段を具備するものも考えられる。
ここで,当該音声処理装置により求められる前記第2の相関情報が,「相関が高い」状態を表す場合は,当該音声処理装置でスピーカ出力中の音声が前記他の装置でマイク入力中の音声への外乱として混入している状態を表すことになる。従って,当該音声処理装置は,前記第2の相関情報に基づいて,様々な対処を行うことが可能となる。
例えば,前記第2の相関情報に基づいて前記スピーカによる音声出力及び/又は前記マイクによる音声入力に関する所定の制御を行う制御手段を具備するものであれば,前記第2の相関情報が高い相関を有することを表す場合に,当該音声処理装置のスピーカ出力の音声レベルを低下させたり,マイク入力中の声を小さくするようメッセージ表示する等の制御を行うことが可能となる。
【0012】
【発明の実施の形態】
以下添付図面を参照しながら,本発明の実施の形態及び実施例について説明し,本発明の理解に供する。尚,以下の実施の形態及び実施例は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施の形態に係る音声処理装置Xの概略構成を表すブロック図,図2は本発明の実施の形態に係る音声処理装置Xが出力及び入力する音声信号レベルの推移の一例を模式的に表すトレンドグラフ,図3は本発明の実施の形態に係る音声処理装置Xにおけるスピーカ出力音声に関するメッセージを他装置へ送信する処理の手順を表すフローチャート,図4は本発明の実施の形態に係る音声処理装置Xにおけるマイク入力音声に関するメッセージを他装置へ送信する処理の手順を表すフローチャート,図5は本発明の実施の形態に係る音声処理装置におけるマイク入力音声に他装置のスピーカ出力音声が外乱として入力されたときの入力音声レベルの推移の一例を模式的に表すトレンドグラフ,図6は本発明の実施例に係る音声処理装置におけるスピーカ出力レベルの制御手順を表すフローチャート,図7は独立成分分析に基づく音源分離において周波数領域で音源分離を行う場合の実施例を示すブロック図である。
【0013】
本発明の実施の形態に係る音声処理装置Xは,いわゆるハンズフリー機能を有する電話機であり,図1は,2台の本音声処理装置Xが近隣で同時使用されている状態を表すものである。ここで,図2に示す2台の音声処理装置Xは,相互間で通話しているのではなく,それぞれ異なる通話相手と通話中である場合を想定している。図1には,便宜上,2台の装置を示しているが,もちろん,3台以上存在してもかまわない。
図1に示すように,音声処理装置Xは,通話相手からの受話信号(受話音声データ)を入力する受話信号受信部11,該受話信号入力部11により入力した受話信号をスピーカ出力する際の音量(出力信号レベル)を調節する音量制御手段12,該音量制御手段12で音量調節後の受話信号を音声として出力するスピーカ13(拡声装置),当該音声処理装置のユーザの音声を入力する複数のマイク21,該複数のマイク21で入力された音声信号が混合された混合音声信号から前記受話信号に対応する音声信号(前記スピーカ13から前記マイク21に回り込んだエコー)を除去するエコーキャンセラ22,該エコーキャンセラ22によりエコー除去後の前記混合音声信号から定常的な背景雑音(ノイズ音声)を除去するノイズサプレッサ23,該ノイズサプレッサ23によりノイズ除去後の前記混合音声信号(前記スピーカ13からのエコー及びノイズ音声を除去後の前記混合音声信号)から,該混合音声信号に含まれるそれぞれ異なる音源からの複数の入力音声信号を分離する音源分離手段24,該音源分離手段24により分離された複数の入力音声信号(以下,分離信号という)から通話相手に送信する1又は複数の音声信号を通話相手への送話信号(送話音声データ)として選択する音源選択手段25,該音源選択手段25により選択された前記送話信号を通信相手となる音声処理装置(電話機等)に対して有線又は無線の電話回線を介して送信する送話信号送信部26,近隣に存在する他の音声処理装置Xと有線又は無線による通信を行う通信インターフェース31,前記分離信号と前記受話信号と前記通信インタフェース31を介して近隣の他装置から受信した情報とを入力して他装置との連携をとるための各種演算の実行及び前記音量制御手段12に対する音量調節信号の出力を行う連動動作制御手段32を具備している。
ここで,前記エコーキャンセラ22は,例えば,特許文献1に示されるエコーキャンセラその他周知のものを用いればよく,特に特定のものに限定するものではない。前記ノイズサプレッサについても同様である。
また,前記音源分離手段24は,非特許文献1に示される独立成分分析の理論に基づくブラインド音源分離を行うものである。非特許文献1には,音源分離を周波数領域並びに時間領域のいずれにおいても実施する例が示されている。本音源分離手段24によれば,前記混合音声信号から前記マイク21の数だけの独立した音源それぞれごとの音声信号を分離できる。
【0014】
図7は,非特許文献1に示される独立成分分析に基づく音源分離の計算方法のうち,周波数領域で音源分離を行う場合の実施例を示すブロック図である。前記マイク21からの各信号は周波数分析するための短時間分析フレームに切り出され,DFTなどで周波数領域に変換される。DFTの結果の周波数成分を,ベクトルX(f,k )で表わす。ここで,fはDFT後の周波数に相当し,kは各時刻kで切り出される分析フレーム番号であり,各マイク入力毎の信号に対する成分がベクトルとなっている。このベクトルに対して分離行列 Wfk(f)をかけることで,得られる Y(f,k)が分離信号となる。Wfk(f)は,適応アルゴリズムを用いてY( f, k )が独立成分となるようにk毎に分析を行いながら更新される。行列の更新計算を行う適応アルゴリズムの例としては非特許文献1に記載されているものも含め,種々のものが提案されている。同様に,周波数領域への変換は行わずに時間領域のままで同様な学習更新を行う手法や,それらを組み合わせてさらに性能を上げる方式なども,非特許文献1には示されている。時間領域のみで行う適応アルゴリズムでは,各サンプル時刻tにおける複数マイクからの入力サンプルベクトルをx(t) とし,それに対してz変換で表わされる成分をもち,次の(A)式で表される分離行列Wt(z)を用意し,周波数領域の時と同様にy(t) =Wt・x(t)で計算される信号y(t)が独立な成分となるように係数ベクトルwt(n)を学習更新していくものである。これも非特許文献1に,wt(n)の更新式の一例が示されている。
【数1】
【0015】
次に,図2を用いて,前記音源選択手段25における,前記分離信号から前記送話信号を選択する方法について説明する。
前記音源選択手段25は,前記分離信号それぞれと前記受話信号との比較に基づいて,前記分離信号から前記送話信号を選択するものである。
一般に,電話機や対話型の音声認識装置等の音声処理装置では,前記スピーカ13から出力される音声信号(前記受話信号,当該音声処理装置が音声認識装置等である場合は装置自体が発する操作案内用の合成音声信号等)と当該音声処理装置のユーザが前記マイク21に向かって発する音声信号とは時間的に重複しないことが多い。そこで,前記音源選択手段25では,前記受話信号及び前記分離信号それぞれについて,その音声信号が有音であるか無音であるかを判別(検出)し,その有音若しくは無音であることに関する情報(以下,有音/無音評価結果といい,有音状態を「1」,無音状態を「0」で表す)を前記受話信号と前記分離信号それぞれとについて相互関係を比較する。
【0016】
図2(a)は,前記受話信号(受話音源信号)の信号レベルの推移を模式的に表したトレンドグラフであり,図2(b),(c)は,2つの前記分離信号それぞれの信号レベルの推移を模式的に表したトレンドグラフである。各音声信号が有音状態であるか無音状態であるかは,各音声信号のベースとなる信号レベル(定常的に生じている信号レベル)よりも信号レベルが所定以上高い場合に有音状態(有音/無音評価結果=1)と判別し,その他の場合に無音状態(有音/無音評価結果=0)と判別する。
図2に示す例では,前記受話信号(図2(a))についての前記有音/無音評価結果と,図2(b)に示す前記分離信号についての前記有音/無音評価結果とでは,値が一致する時間帯,特に,有音状態が重複する時間帯がほとんどない。一方,前記受話信号(図2(a))についての前記有音/無音評価結果と,図2(c)に示す前記分離信号についての前記有音/無音評価結果とでは,値が一致する(有音状態が重複する)時間帯が多い。この図2に示す例では,前記音源選択手段25は,図2(b)に示す前記分離信号を当該音声処理装置Xのユーザが発した音声に対応する信号(以下,有効音源信号という)であると判別し,その他の前記分離信号(図2(c)に示す前記分離信号)を他の装置等から回り込んできた外乱信号(以下,外乱音源信号という)と判別する。前記有効音源信号が前記送話信号として前記送話信号送信部26によって通話相手に送信される。また,前記有効音源信号は,前記連動動作制御部32にも出力され,該連動動作制御部32において,前記分離信号について前記有効音源信号と前記外乱音声信号との識別が可能となるよう構成されている。
前記音源選択手段25によって行われる前記有効音源信号と前記外乱音源信号との判別の具体例としては,以下に示すように,当該音声処理装置Xで処理対象とする前記有効音源信号を判別するための評価指標C(i)を用いることが考えられる。
【0017】
まず,前記受話信号と前記分離信号とがともに有音である状態(いわゆるダブルトークの状態),即ち,前記受話信号の前記有音/無音評価結果U(i)と前記分離信号の前記有音/無音評価結果Y(i)とがともに「1」(有音)である状態の多さ(時間帯の長さ)を表す第1のサブ評価指標D(i)を次の(1)式を用いて求める。
D(i)=αD・D(i−1)+U(i)・Y(i) …(1)
ここで,iは時刻を表すカウンタであり,演算周期ごとに1ずつカウントアップされる整数である。また,αDは,遠い過去のデータを忘却させて最新の状況に適応させるための係数であり,0<αD<1の範囲で適当な値に設定されるものである。これにより,前記第1のサブ評価指標D(i)は,その値が大きいほどダブルトークの状態が多いことを表し,この値が大きい音声信号(前記分離信号)は,前記外乱音源信号である可能性が高い。
次に,前記受話信号が無音状態であるときに前記分離信号が有音状態である状態,即ち,前記受話信号の前記有音/無音評価結果U(i)が「0」かつ前記分離信号の前記有音/無音評価結果Y(i)が「1」である状態の多さ(時間帯の長さ)を表す第2のサブ評価指標R(i)を次の(2)式を用いて求める。
R(i)=αR・R(i−1)+(1−U(i))・Y(i) …(2)
ここで,αRは,前記係数αDと同じ目的で,0<αR<1の範囲で適当な値に設定される係数である。これにより,前記第2のサブ評価指標R(i)は,その値が大きいほど通常の対話状態(受話と送話のタイミングがずれている状態)が多いことを表し,この値が大きい音声信号(前記分離信号)は,前記有効音源信号である可能性が高い。
通常,前記有効音源信号(前記送話信号)は,前記受話信号に対する応答として前記マイク13から入力されることが多いため,前記受話信号が無音状態のまま所定時間(回数)以上継続している場合,この第2のサブ評価指標R(i)の有効性(信憑性)は下がると考えられる。そこで,前記受話信号が無音状態のまま所定時間(回数)以上継続している場合には,前記第2のサブ評価指標R(i)の演算(更新)を行わないようにすること等も考えられる。
最後に,前記評価指標C(i)を次の(3)式を用いて求める。
C(i)=HR・R(i)−HD・D(i) …(3)
ここで,HR,HDは,前記第1及び第2のサブ評価指標D(i),R(i)それぞれに重み付けをする係数である。前記評価指標C(i)を,前記分離信号それぞれについて求め,該評価指標C(i)が最大値となる前記分離信号を前記有効音源信号と判別し,その他の前記分離信号を前記外乱音源信号と判別する。ここで,前記受話信号(前記スピーカ13から出力する音声信号)についての前記有音/無音評価結果及び前記分離信号それぞれ(前記マイク21から入力する音声信号)についての前記有音/無音評価結果が,それぞれ前記出力音声情報及び前記入力音声情報の一例である。また,前記有音/無音評価結果の算出(検出)は,前記連携動作制御手段32によっても行われ,該連携動作制御手段32が前記出力音声情報検出手段及び前記入力音声情報検出手段の一例である。もちろん,前記有音/無音評価結果の算出(検出)は,前記音源選択手段25又は前記連携動作制御手段32のいずれか一方のみで行い,算出結果を他方に出力するよう構成してもよい。
【0018】
次に,図3を用いて,前記連携動作制御手段32による他装置へのメッセージ送信処理について説明する。
図3は,前記スピーカ13により出力する前記受話音声についての前記有音/無音評価結果(前記出力音声情報の一例)を他装置へのメッセージ送信する処理の手順を表すフローチャートである。以下,S101,S102…は,処理手順(ステップ)の番号を表す。図3の処理は,前記連携動作制御手段32により制御され,前記有音/無音評価結果は前記通信インターフェイス31を介して近隣の他装置に送信される。
まず,各種パラメータの初期値設定(時刻カウンタi=0,メッセージ送信時刻Tu=最小値)を行い(S101),前記時刻カウンタiをカウントアップ(+1)した(S102)後,現時点(最新時刻i)での前記受話信号(前記スピーカ13から出力される音声信号)についての前記有音/無音評価結果U(i)を求める(S103)。この有音/無音評価結果U(i)は,前述したように,その音声信号(前記受話信号)のレベルと,該音声信号のベースとなる信号レベル(定常的に生じている信号レベル)との比較等によって求めることができる。次に,最後に他装置へメッセージ送信した時刻Tuから一定時間T0を経過している(S104のYES側)若しくは前回(前時刻)の前記有音/無音評価結果U(i−1)から状態が変化している(S107のYES側)場合には,現時点の前記受話信号についての前記有音/無音評価結果U(i)を近隣の他装置(他の音声処理装置X)へ送信(メッセージを送信)する(S105,前記音声情報送信手段が行う処理の一例)。このメッセージは,前記有音/無音評価結果U(i)の他に,送信元(発信元)を特定する送信元IDを含み,近隣の他装置に対してブロードキャスト送信或いは所定のグループIDを宛先とするグループ送信がなされる。さらに,現時刻iを,最後にメッセージ送信した時刻Tuとして記録した後,S102へ戻って前述した処理が繰り返される。
一方,最後に他装置へメッセージ送信した前記時刻Tuから一定時間T0を経過しておらず(S104のNO側),かつ前回(前時刻)の前記有音/無音評価結果U(i−1)から状態が変化していない(S107のNO側)場合には,他装置との無用な通信負荷を抑えるため,そのままS102へ戻って前述した処理が繰り返される。
このような,メッセージの近隣装置への送信処理が,所定の演算周期ごとに音声処理装置Xそれぞれにおいて実行される。
これにより,近隣に存在する音声処理装置X相互が,各時点でスピーカ出力中(有音状態,前記有音/無音評価結果U(i)=1)であるか,そうでないか(無音状態,前記有音/無音評価結果U(i)=0)を知ることができる。
また,図3の処理と同様にして,前記有効音源信号及び前記外乱音源信号のうちの1又は複数(即ち,前記音源分離手段24により分離された前記分離信号のうちの1又は複数)についての前記有音/無音評価結果を近隣に存在する他装置に送信してもよい。ここでは,前記受話信号(スピーカ出力音声)についての前記有音/無音評価結果U(i)に加えて,前記有効音源信号についての前記有音/無音評価結果も近隣の他装置へ送信するものとする。
【0019】
次に,図4を用いて,他装置(他の音声処理装置X)からの前記有音/無音評価結果を受信した側の音声処理装置X(以下,受信側の音声処理装置Xという)の処理について説明する。
図4に示す前記受信側の音声処理装置Xの処理は,当該装置における前記外乱音源信号(前記分離信号のうち前記有効音源信号を除いた残り)それぞれと他装置でスピーカ出力及びマイク入力された音声信号(他装置における前記受話信号及び前記有効音源信号)との相関情報を求め,該相関情報に基づいて,必要に応じて所定の通知を他装置に送信する処理である。ここでは,他装置でのスピーカ出力によって当該受信側の音声処理装置Xのマイク入力が外乱を受けていると判断した場合に,その外乱の発生元(前記有音/無音評価結果の送信元の他装置)に対して,外乱を受けている或いは受けていた外乱が無くなった旨を表す外乱有無通知Clast(外乱を受けている場合に「1」,受けていない場合に「0」)を送信する。
また,以下の説明では,便宜上,当該装置における前記外乱音源信号それぞれと他装置でスピーカ出力された音声信号(他装置における前記受話信号)との前記相関情報に関する処理についてのみ示しているが,他装置でマイク入力された音声信号(他装置における前記有効音源信号)との前記相関情報についても同様の手順により並行して(或いは順次)処理されるものとする。
【0020】
まず,各種パラメータの初期設定(時刻カウンタi=0,メッセージ送信時刻TY=最小値,前記外乱有無通知Clast=0等)を行い(S201),前記時刻カウンタiをカウントアップ(+1)した(S202)後,現時点(最新時刻i)での当該受信側の音声処理装置Xにおける前記外乱音源信号それぞれについての前記有音/無音評価結果Ym(i)(1(有音)又は0(無音))(mは前記外乱音源信号それぞれの番号を表す,m=1〜マイクの数(M))を求める(S203)。
次に,他装置(1台又は複数台)から前記有音/無音評価結果のメッセージを受信している場合(メッセージ受信ありの場合)は(S204のYES側),受信した前記有音/無音評価結果(1(有音)又は0(無音))を変数Cu(i)に代入し(S206),そうでない場合は(S204のNO側),他装置の前記有音/無音評価結果に変化がないものとして,前回の変数値Cu(i−1)を変数Cu(i)に代入する(S205)。複数の前記有音/無音評価結果のメッセージを受信している場合には,そのメッセージごとにS205以降の処理を行う。
次に,このようにして変数Cu(i)(他装置の前記受話信号(スピーカ出力)についての前記有音/無音評価結果)の値が確定すると,次の(4)式を用いて,当該受信側の音声処理装置Xにおける前記外乱音源信号それぞれと他装置でスピーカ出力された音声信号(他装置における前記受話信号)との相関情報Qm(i,j)(前記第1の相関情報の一例)を求める(S207,本処理が前記第1の相関情報検出手段が行う処理の一例)。
Qm(i,j)=αQ・Q(i−1,j)
+(2・Cu(i)−1)・(2・Ym(i−j)−1) …(4)
ここで,iは時刻を表すカウンタであり,演算周期ごとに1ずつカウントアップされる整数である。αQは,遠い過去のデータを忘却させて最新の状況に適応させるための係数であり,0<αQ<1の範囲で適当な値に設定されるものである。また,jは他装置と当該受信側の音声処理装置Xとの通信時間による遅延時間(ディレイ)等を考慮した時刻差を表し,現時点で他装置から受信している前記有音/無音評価結果Cu(i)と時刻差jだけ前の時点での当該受信側の音声処理装置の信号との相関情報Qmを計算している。また,ここでは,前記遅延時間に多少の幅があることを考慮し,前記時刻差jを,想定される前記時刻差jの範囲(前記遅延時間の範囲)Jmin〜Jmaxで変化させ,該範囲Jmin〜Jmaxの全てについての前記相関情報Qmを計算している(j=Jmin〜Jmax)。
(4)式により求められる前記相関情報Qm(i,j)は,当該受信側の音声処理装置Xにおける前記外乱音源信号それぞれと他装置でスピーカ出力された音声信号(前記受話信号)とがともに有音又はともに無音の状態,即ち,他装置から受信している前記有音/無音評価結果Cu(i)と当該受信側の音声処理装置Xにおける前記外乱音源信号の前記有音/無音評価結果Ym(i)とがともに「1」又はともに「0」である状態の多さ(時間帯の長さ)を表すものとなる。
従って,前記相関情報Qm(i,j)の値が大きいほど,当該受信側の音声処理装置Xにおける前記外乱音源信号と他装置でスピーカ出力された音声信号(前記受話信号)との相関が高く,該相関が高い場合は,当該受信側の音声処理装置Xにおけるマイク入力において,他装置でのスピーカ出力から外乱を受けている可能性が高いといえる。
【0021】
次に,最後に他装置へ前記外乱有無通知を送信した時刻TY(メッセージ送信時刻)から一定時間T1を経過していない(S208のNO側)場合には,S202へ戻って前述した処理を繰り返し,一定時間T1を経過している(S208のYES側)場合にはS209へ移行する。
S209では,S207で求めた前記相関情報Qm(i,j)(j=Jmin〜Jmax)の最大値が,所定のしきい値TQよりも大きいか否か,即ち,相関が高いか否かを判別し,相関が高い(Qm(i,j)の最大値>TQ)場合(S209のYES側)には,前記外乱有無通知Clastを「1」にセットし(S212),該通知Clastを前記有音/無音評価結果の送信元の他装置に対してメッセージ送信(前記通知送信手段が行う処理の一例)及び前記メッセージ送信時刻TYの更新(S213)を行った後,S202へ戻って前述した処理が繰り返される。ここで,前記外乱有無通知Clastの送信先は,前記有音/無音評価結果の受信メッセージに含まれる前記送信元ID(他装置のID)により指定する。また,前記外乱有無通知Clastのメッセージにも,当該受信側の音声処理装置XのIDを含めて送信する。また,S202以降の処理は,所定の演算周期ごとに実行される。
これにより,前記外乱有無通知Clast(=1)を受信した他装置(前記有音/無音評価結果の送信側の音声処理装置X)は,自己のスピーカ出力が前記受信側の音声処理装置Xに対する外乱となっていることを知ることができるので,前記連携動作制御手段32及び前記音量制御手段12によって前記スピーカ13の出力レベルを下げる制御を行う(前記所定の制御の一例)。その結果,当該受信側の音声処理装置Xにおけるマイク入力において,前記他装置から受ける外乱が無くなる或いは小さくなり,良好な音声入力を行うことができることになる。ここで,前記他装置(他の音声処理装置X)は,前記通信インターフェイス31を介して前記連携動作制御手段32により,前記外乱有無通知Clastを受信することは言うまでもない(前記通知受信手段の一例)。
また,外乱の発生元の装置を特定し,その装置にのみ通知を送るので,ブロードキャスト送信を行う場合に比べて無駄な通信が減り,通信負荷を小さくすることができる。
【0022】
ここで,図5(a),(b)は,2つの前記外乱音源信号それぞれの信号レベルの推移及び該外乱音源信号の有音/無音評価結果を模式的に表したトレンドグラフであり,図5(c)は,他装置から受信した他装置のスピーカ出力についての前記有音/無音評価結果の推移を模式的に表したトレンドグラフである。
図5に示す例では,他装置のスピーカ出力における前記有音/無音評価結果(図5(c))と,図5(b)に示す前記外乱音源信号における前記有音/無音評価結果とでは,所定の遅延時間分だけずらして見れば,値の変化傾向が略一致しており,図5(b)に示す外乱の発生元は,図5(c)に示す前記有音/無音評価結果を送信した装置のスピーカであることがわかる。
一方,他装置のスピーカ出力における前記有音/無音評価結果(図5(c))と,図5(a)に示す前記外乱音源信号における前記有音/無音評価結果とでは,値の変化傾向が全く異なっており,図5(a)に示す外乱の発生元は,図5(c)に示す前記有音/無音評価結果を送信した装置以外であることがわかる。
このような場合,図5(a),(b)の前記外乱音源信号それぞれについて前記相関情報Qm(i,j)を求めれば,図5(b)については前記相関情報Qm(i,j)の値が大きくなり,図5(a)については前記相関情報Qm(i,j)の値が小さくなるので,前記外乱音源信号の発生元がいずれの近隣装置からのものであるかを特定することが可能となる。
【0023】
一方,S209において,S207で求めた前記相関情報Qm(i,j)(j=Jmin〜Jmax)の最大値が,所定のしきい値TQ以下,即ち,相関が低い場合(S209のNO側)には,最終の(前回送信した)前記外乱有無通知Clastの内容(値)が「0」であったか否かを判別(S210)し,「0」であった場合(前記外乱有無通知Clastの内容が「0」のまま変化していない)には,他装置との無用な通信負荷を抑えるため,そのままS202へ戻って前述した処理が繰り返される。
一方,最終の(前回送信した)前記外乱有無通知Clastの内容(値)が「1」であった(「0」でなかった)場合には,状況が変化している(外乱が無くなった)ということであるので,前記外乱有無通知Clastを「0」にセットし(S211),該通知Clastを前記有音/無音評価結果の送信元の他装置に対してメッセージ送信するとともに前記メッセージ送信時刻TYを現時刻iに更新(S213)した後,S202へ戻って前述した処理が繰り返される。
これにより,当該受信側の音声処理装置Xが,他装置から外乱を受けている場合及び受けていた外乱が無くなった場合に,前記外乱有無通知Clastがその外乱の発信元に送信されることになる。
一方,前記外乱有無通知Clast(=0)を受信した他装置(前記有音/無音評価結果の送信側の音声処理装置X)は,自己のスピーカ出力が前記受信側の音声処理装置Xに対する外乱で無くなったことを知ることができるので,前記連携動作制御手段32及び前記音量制御手段12によって前記スピーカ13の出力レベルを所定時間後に元のレベルまで上げる,或いは少しずつ元のレベルまで上げる等の制御を行う(前記所定の制御の一例)。その結果,当該受信側の音声処理装置Xにおけるマイク入力において,前記他装置から受ける外乱が無くなった或いは小さくなったときには,所定時間のうちに前記他装置における前記スピーカ13の出力レベルが元のレベルに戻される。
【0024】
【実施例】
前述した実施の形態では,他装置におけるスピーカ出力(前記受話信号)についての前記有音/無音評価結果を受信した側の音声処理装置X(前記受信側の音声処理装置X)において,前記相関情報を求め,該相関情報に基づく前記外乱有無通知を送信する形態について示した。しかし,これに限るものでなく,各音声処理装置から近隣の他装置に対して,図3に示した手順と同様の手順により,前記外乱音源信号(前記マイク21により入力された音声信号から分離された前記分離信号のうちの1又は複数)についての前記有音/無音評価結果をメッセージ送信(ブロードキャスト送信等)し,該有音/無音評価結果を受信した側の音声処理装置(受信側の音声処理装置)において,他装置における前記外乱音源信号それぞれと自装置でスピーカ出力している前記受話信号及びマイク入力している前記有効音源信号との前記相関情報を求め,該相関情報に基づいて,必要に応じて自装置のスピーカ出力レベルを下げる等の制御を行うよう構成した音声処理装置(以下,音声処理装置X1という)も考えられる。以下,前記音声処理装置Xの応用例である音声処理装置X1について説明する。
音声処理装置X1の構成は,前記音声処理装置Xと同じであり,前記外乱音源信号についての前記有音/無音評価結果をメッセージ送信する手順も,図3に示した手順と同様である。この場合における,図3のS103及びS105の処理に相当する処理が,それぞれ前記入力音声情報検出手段及び前記音声情報送信手段が行う処理の一例である。
以下,図6を用いて,前記外乱音源信号についての前記有音/無音評価結果を受信した側の音声処理装置X1(以下,受信側の音声処理装置X1という)の処理について説明する。
図6に示す前記受信側の音声処理装置X1の処理は,他装置における前記外乱音源信号(前記分離信号のうち前記有効音源信号を除いた残り)それぞれと当該装置でスピーカ出力及びマイク入力された音声信号(当該装置における前記受話信号及び前記有効音源信号)との相関情報を求め,該相関情報に基づいて,必要に応じて所定の制御を行う処理である。ここでは,当該受信側の音声処理装置X1でのスピーカ出力によって他装置(前記有音/無音評価結果を送信した側の音声処理装置X1)のマイク入力が外乱を受けていると判断した場合に,その外乱の発生元である自装置のスピーカ出力レベルを自主的に低下させる補正制御を行う。
また,以下の説明では,便宜上,他装置における前記外乱音源信号それぞれと自装置でスピーカ出力された音声信号(前記受話信号)との前記相関情報に関する処理についてのみ示しているが,自装置でマイク入力された音声信号(自装置における前記有効音源信号)との前記相関情報についても同様の手順により並行して(或いは順次)処理されるものとする。
【0025】
まず,各種パラメータの初期設定(時刻カウンタi=0,メッセージ送信時刻TC=最小値,スピーカ出力減衰ゲイン(レベル補正値)G=0等)を行い(S301),前記時刻カウンタiをカウントアップ(+1)した(S302)後,現時点(最新時刻i)での当該受信側の音声処理装置X1における前記受話信号(スピーカ出力)についての前記有音/無音評価結果U(i)(1(有音)又は0(無音))を求める(S303)。
次に,他装置(1台又は複数台)から前記有音/無音評価結果のメッセージを受信している場合(メッセージ受信ありの場合)は(S304のYES側),受信した前記有音/無音評価結果(1(有音)又は0(無音))を変数Cy(i)に代入し(S306),そうでない場合は(S304のNO側),他装置の前記有音/無音評価結果に変化がないものとして,前回の変数値Cy(i−1)を変数Cy(i)に代入する(S305)。複数の前記有音/無音評価結果のメッセージを受信している場合には,そのメッセージごとにS305以降の処理を行う。
次に,このようにして変数Cy(i)(他装置の前記外乱音源信号についての前記有音/無音評価結果)の値が確定すると,次の(5)式を用いて,当該受信側の音声処理装置X1におけるスピーカ出力信号(前記受話信号)と他装置の前記外乱音源信号との相関情報P(i,j)(前記第2の相関情報の一例)を求める(S307,本処理が前記第2の相関情報検出手段が行う処理の一例)。
P(i,j)=αP・P(i−1,j)
+(2・Cy(i)−1)・(2・U(i−j)−1) …(5)
この(5)式は,前述した(4)式と同様の式であり,αPは,遠い過去のデータを忘却させて最新の状況に適応させるための係数(0<αP<1),jは前記時刻差(j=Jmin〜Jmax)である。
(5)式により求められる前記相関情報P(i,j)は,前記相関情報Qm(i,j)と同様に,当該受信側の音声処理装置X1におけるスピーカ出力信号と他装置でマイク入力された前記外乱音源信号との相関の高さを表すものであり,前記相関情報P(i,j)の値が大きいほど,当該受信側の音声処理装置X1におけるスピーカ出力音声が,他装置におけるマイク入力に外乱を与えている可能性が高いといえる。
【0026】
次に,最後にスピーカ出力を補正した時刻TC(スピーカ補正時刻)から一定時間T2を経過していない(S308のNO側)場合には,S302へ戻って前述した処理を繰り返し,一定時間T2を経過している(S308のYES側)場合にはS309へ移行する。
S309では,S307で求めた前記相関情報P(i,j)(j=Jmin〜Jmax)の最大値が,所定のしきい値TPよりも大きいか否か,即ち,相関が高いか否かを判別し,相関が高い(P(i,j)の最大値>TP)場合(S309のYES側)には,所定の補正下限値Gminの以上(0以下)の範囲内で,スピーカ出力減衰ゲイン(補正値)Gを所定値G0(>0)だけ減算し(S310),該スピーカ出力減衰ゲインG(Gmin≦G≦0)が前記音量制御手段12に出力されて該減衰ゲインG分だけ自発的にスピーカ出力レベルを補正する(低下させる)とともに前記スピーカ補正時刻TCを現時刻iに更新した後,S302へ戻って前述した処理が繰り返される。ここで,S302以降の処理は,所定の演算周期ごとに実行される。
これにより,当該受信側の音声処理装置X1のスピーカ出力によって前記他装置のマイク入力に与える外乱が無くなる或いは小さくなり,前記他装置における良好な音声入力を行うことができることになる。
一方,S309において,S307で求めた前記相関情報P(i,j)(j=Jmin〜Jmax)の最大値が,所定のしきい値TP以下,即ち,相関が低い場合(S309のNO側)には,0以下の範囲内で,スピーカ出力減衰ゲイン(補正値)Gをわずかな値G1(>0)だけ加算し(S311),該スピーカ出力減衰ゲインG(Gmin≦G≦0)が前記音量制御手段12に出力されて該減衰ゲインG分だけスピーカ出力レベルを補正する(徐々に元のレベルに戻す)とともに前記スピーカ補正時刻TCを現時刻iに更新した後,S302へ戻って前述した処理が繰り返される。
これにより,当該受信側の音声処理装置X1が,他装置に外乱を与えていると判断されている間,所定周期T2でスピーカ出力レベルが低下するよう補正され,外乱を与えなくなったと判断された場合には,徐々にスピーカ出力レベルが元のレベルに戻されることになる。
また,1台の他装置から前記送話信号(スピーカ出力)についての前記有音/無音評価結果と前記有効音源信号についての前記有音/無音評価結果との両方を受信した場合には,その送信元は双方向通話を行っている装置であると判断し,そのような場合にのみ,外乱とならないように自発的にスピーカ出力レベルを補正するようにしてもよい。
【0027】
また,前記音声処理装置Xと前記音声処理装置X1の両機能を併せて実行するものも考えられる。この場合,各音声処理装置は,前記受話信号(スピーカ出力)及び前記分離信号(前記有効音源信号及び前記外乱音源信号)それぞれについての前記有音/無音評価結果をそれらを識別する情報とともに他装置へ送信すればよい。
これにより,例えば,他装置から前記外乱有無通知Clastの値が「1」である通知を受けた場合であっても,自装置における前記相関情報P(i,j)による評価によれば,自装置のスピーカ出力は,前記外乱有無通知Clast送信元に外乱を与えていないと判別すれば,前記外乱有無通知Clastを無視する等の制御を行うことができ,より確実な対処が可能となる。
【0028】
また,前記音声処理装置X,X1では,他装置へ送信する前記出力音声情報及び前記入力音声情報として,その音声が有音若しくは無音であることに関する情報(前記有音/無音評価結果)を用いたが,これに限るものでなく,例えばその音声のレベルや周波数,声紋に関する情報等,その音声の特徴をあらわす各種情報が考えられる。
【0029】
また,前記音声処理装置X,X1は,ハンズフリー機能を有する電話機の例であったが,これに限るものでなく,例えば,ステレオ装置,テレビ等のオーディオ装置や,音声入力機能を有するパーソナルコンピュータ,カーナビゲーション装置における音声認識装置等,様々な音声処理装置に適用可能であり,また,これら様々な種類の装置が混在する場合も考えられる。
例えば,ハンズフリー電話機が,自装置における前記外乱音源信号についての前記有音/無音評価結果を近隣のステレオ装置やテレビ等に送信し,前記有音/無音評価結果の受信機能を有する近隣のステレオ装置やテレビが,自装置のスピーカ出力が前記電話機に対して外乱を与えているか否かを判別し,外乱を与えていると判別した場合には,自発的にスピーカ出力のレベルを低下させる制御を行う等の適用例が考えられる。この場合,前記有音/無音評価結果を受信する側のステレオ装置やテレビが,自装置の発する音声に関する前記有音/無音評価結果を他装置に送信する機能を有することは必須ではない。
また,それとは逆に,ステレオ装置やテレビ等が,自装置におけるスピーカ出力信号についての前記有音/無音評価結果を近隣のハンズフリー電話機や音声認識装置に送信し,前記有音/無音評価結果を受信した近隣のハンズフリー電話機や音声認識装置が,他装置(ステレオ装置やテレビ等)のスピーカ出力から外乱を受けているか否かを判別し,外乱を受けていると判別した場合には,その外乱の発生元であるステレオ装置やテレビ等に対してスピーカ出力のレベルを低下させる通知を行う等の適用例も考えられる。この場合,前記有音/無音評価結果を受信する側のハンズフリー電話機や音声認識装置が,自装置の発する音声に関する前記有音/無音評価結果を他装置に送信する機能を有することは必須ではない。
また,他装置へ送信する前記有音/無音評価結果や前記通知とともに,各装置の種類や優先度を表す情報も送信し,該情報に基づいて,例えば,自装置よりも優先度の低い装置からの前記有音/無音評価結果に対しては自発的な制御を行わないようにしたり,自装置よりも優先度の低い装置に対してのみ必要な制御を行わせるための前記通知を送信したりするよう構成すること等も考えられる。
これにより,優先度の低い装置(或いは,予め定められた種類の装置)が優先度の高い装置に対して外乱を与えている場合のみスピーカ出力レベルの調節等の対処が行われ,各装置の使用実態に沿ったより適切な対処が行える。
また,装置相互間でマイク入力中の音声が外乱として影響している場合の対処(制御)としては,所定の表示装置を設け,マイク入力中の声を小さくするようユーザに対してメッセージ表示する等の制御も考えられる。
【0030】
また,前記音声処理装置X,X1では,前記分離信号から処理対象(通話相手への送信対象)とする前記有効音源信号を選択する手段は,自装置の前記受話信号と前記分離信号それぞれとの相互関係(有音/無音となるタイミングの相互関係)を用いるものであったが,例えば,他装置から送信されてくるスピーカ出力(他装置の前記受話信号)と前記分離信号それぞれとの相関情報に基づいて前記有効音源信号を選択するものも考えられる。例えば,前記分離信号(複数の音声入力信号)のうち,他装置から送信されてくるスピーカ出力(他装置の前記受話信号)との相関が最も低いものを前記有効音源信号として選択するもの等が考えられる。
【0031】
【発明の効果】
以上説明したように,本発明によれば,近隣で使用されている音声処理装置相互間で,各装置におけるスピーカ出力中の音声やマイク入力中の音声に関する情報(その音声の特徴をあらわす情報)が相互に送受信されるので,マイク入力中の装置は,受信した情報に基づいて,その情報の送信元の音声がマイク入力中の音声に混在(混入)しているかどうか等を検出するこが可能となり,また,スピーカ出力中の装置は,受信した情報に基づいて,その情報の送信元のマイク入力に自装置のスピーカ出力が外乱を与えているかどうか等を検出することが可能となる。これにより,外乱の発生元の装置に対して外乱となる音声を抑制させる通知を行ったり,情報を受信した装置が自発的にスピーカ出力レベルを下げるよう制御する等の適切な対処を行うことが可能となる。その結果,複数の音声処理装置が近隣で使用されている場合であっても,音声の相互干渉を除去する適切な制御を行うことができるので,マイク入力中の各装置において良好な音声入力を行うことが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声処理装置Xの概略構成を表すブロック図。
【図2】本発明の実施の形態に係る音声処理装置Xが出力及び入力する音声信号レベルの推移の一例を模式的に表すトレンドグラフ。
【図3】本発明の実施の形態に係る音声処理装置Xにおけるスピーカ出力音声に関するメッセージを他装置へ送信する処理の手順を表すフローチャート。
【図4】本発明の実施の形態に係る音声処理装置Xにおけるマイク入力音声に関するメッセージを他装置へ送信する処理の手順を表すフローチャート。
【図5】本発明の実施の形態に係る音声処理装置におけるマイク入力音声に他装置のスピーカ出力音声が外乱として入力されたときの入力音声レベルの推移の一例を模式的に表すトレンドグラフ。
【図6】本発明の実施例に係る音声処理装置におけるスピーカ出力レベルの制御手順を表すフローチャート。
【図7】独立成分分析に基づく音源分離において周波数領域で音源分離を行う場合の実施例を示すブロック図。
【符号の説明】
11…受話信号受信部
12…音量制御手段
13…スピーカ
21…マイク
22…エコーキャンセラ
23…ノイズサプレッサ
24…音源分離手段
25…音源選択手段
26…送話信号送信部
31…通信インターフェイス
32…連携動作制御手段
S101,S102,,…処理手順(ステップ)
【発明の属する技術分野】
本発明は,音声を出力するスピーカや音声を入力するマイクを具備し所定の音声処理を行う音声処理装置に関し,特に,近隣で使用されている各装置がスピーカ出力中或いはマイク入力中である場合に,他装置の音声がマイク入力中の自装置の外乱音声となっていることや自装置の音声がマイク入力中の他装置の外乱となっていることを検出して適切な対処を行うことができる音声処理装置に関するものである。
【0002】
【従来の技術】
近年,インターネットの普及が著しいが,今後,IP電話などの音声通信アプリケーションの普及が予想される。このような音声通信アプリケーションとしては,例えば,単に音声電話の機能をネットワークで置き換えたものの他,より音質の高い電話サービスが可能になったり,音声だけでなく画像も同時に伝送するテレビ電話や同時に多地点通話を行うテレビ会議といった様々な新しいサービスが考えられる。また,音声は障害者や老人・子供までが容易にサービスに参加できるようにするデジタルディバイド是正の手段としても有効なメディアとなる可能性を秘めている。このように,誰にでも簡単に使える音声インターフェイスの実現は,一般の健常者へのユーザビリティ向上も含めて遍く多くの人達への情報サービスを普及させ,新たな成長市場を作っていくうえで極めて有効であるといえる。
このように将来の情報サービス普及において音声インターフェイスの重要性は明らかである反面,音声では画像など他のメディアでは起こらない困難な技術課題が発生する。それは,音という信号は空間的に拡散することに起因し,近隣で異なる機器やサービスを用いるユーザの発生する音声やスピーカからの出力は,他のユーザや機器にとっては使用環境や性能を劣化させる外乱信号となる。これは,音声サービスの普及が進むにつれて増加したユーザ同士が互いに干渉源となり,さらなる普及を阻害するというジレンマとなる。身近な事例を示せば,例えば,ハンズフリーでTV電話をしている近くで他の家族がテレビやオーディオを再生したり,それらの機器操作のために音声認識/合成を使用したりするような状況等が挙げられる。
従来,音声インターフェースを具備する音声処理装置の一例であるハンズフリー機能を有した従来の電話機には,例えば,特許文献1に示されるように,自らのスピーカが発した(出力した)音声がマイクに回り込む干渉を防ぐためのエコキャンセラや,定常的な背景騒音等を除去するノイズサプレッサ等が搭載されている。
一方,非特許文献1には,それぞれ異なる音源からの複数の音声が混在した混合音声が複数のマイクによって入力された場合に,その混合音声信号から音源ごとの音声信号を分離する技術が示されている。本技術は,複数のマイクから入力された音声信号が混合された混合音声信号から独立成分分析に基づいて,マイクの数だけの音源それぞれごとの音声信号を分離するものである。
【0003】
【特許文献1】
特開平10−190533号公報
【非特許文献1】
猿渡 洋「音声・音響信号を対象としたブラインド音源分離」 電子情報通信学会DSP研究会,DSP2001−194, pp.59−66, (2002)
【0004】
【発明が解決しようとする課題】
しかしながら,特許文献1等に示されるエコーキャンセラは,自装置がスピーカ出力する音声のエコーを除去するのみであり,他装置におけるスピーカ出力やマイク入力の音声(他装置が音源となる音声)が自装置のマイク入力に混入する場合には対応できないという問題点があった。
また,非特許文献1に示される技術では,分離した音源ごとの複数の音声信号のうち,自装置にとって有効な音声信号(自装置のユーザがマイク入力している(音源となっている)音声信号)がいずれであるか,或いは自装置にとって外乱となる音声信号(他装置からの音声)がいずれであるかを特定することができないという問題点があった。
さらに,自装置にとって外乱となる音声信号を特定できた場合であっても,外乱となる音声信号のレベルが高すぎる場合等には,適切な外乱除去が困難となるという問題点もあった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,複数の音声処理装置が近隣でスピーカ出力或いはマイク入力を行っている場合であっても,他装置の音声がマイク入力中の自装置の外乱音声となっていることを検出したり,自装置の音声がマイク入力中の他装置の外乱音声となっていることを検出したりすることにより,適切な対処を行うことができる音声処理装置を提供することにある。
【0005】
【課題を解決するための手段】
上記目的を達成するために本発明は,音声を出力するスピーカ及び/又は音声を入力するマイクを具備する音声処理装置において,前記スピーカにより出力中の音声に関する出力音声情報を検出する出力音声情報検出手段及び/又は前記マイクにより入力中の音声に関する入力音声情報を検出する入力音声情報検出手段と,前記出力音声情報及び/又は前記入力音声情報をマイクにより音声入力中及び/又はスピーカにより音声出力中の他の装置へ送信する音声情報送信手段と,を具備してなることを特徴とする音声処理装置である。
前記出力音声情報及び/又は前記入力音声情報としては,例えば,その音声が有音若しくは無音であることに関する情報や,その音声のレベルや周波数,声紋に関する情報等,その音声の特徴をあらわす各種情報が考えられる。
このように,自装置におけるスピーカ出力中の音声やマイク入力中の音声に関する情報を近隣の他装置に送信することにより,マイク入力中或いはスピーカ出力中の前記他の装置は,受信した情報(前記出力音声情報及び/又は前記入力音声情報)に基づいて,その情報の送信元の音声がマイク入力中の音声に混在(混入)しているかどうかや,スピーカ出力中の音声が前記情報の送信元の音声処理装置のマイク入力に外乱として影響を与えているかどうか等を検出するこが可能となるので,適切な対処を行うことが可能となる。
【0006】
また,前記マイクによる入力音声に含まれるそれぞれ異なる音源からの複数の入力音声を分離する音源分離手段を具備し,前記入力音声情報検出手段が,前記音源分離手段により分離後の複数の入力音声のうちの1又は複数の入力音声に関する情報を検出するものも考えられる。
ここで,前記音源分離手段としては,例えば,非特許文献1に示される技術を適用すればよい。即ち,前記マイクを複数具備し,前記音源分離手段が,複数の前記マイクから入力された音声信号が混合された混合音声信号から独立成分分析に基づいて前記音源ごとの複数の音声入力信号を分離するものとして構成したものである。
これにより,異なる音源からの音声が混在してマイク入力される場合であっても,音源ごとに区分したきめ細かな対処を行うことができる。
この場合,さらに,前記音源分離手段により分離後の複数の入力音声から,当該音声処理装置の処理対象とする有効音源信号を選択する音源選択手段を具備し,前記有効音源信号及び/又は前記音源選択手段により選択されなかった残りの音声信号に関する前記入力音声情報を前記音声情報送信手段により送信するものも考えられる。
【0007】
また,前記他の装置が,前記音声情報送信手段により前記他の装置へ送信した前記出力音声情報及び/又は前記入力音声情報を用いることにより,前記他の装置がマイク入力した音声信号と当該音声処理装置がスピーカ出力及び/又はマイク入力した音声信号との相関情報を求め,該相関情報に基づいて所定の通知を送信するものであり,前記他の装置からの前記所定の通知を受信する通知受信手段と,前記所定の通知に基づいて前記スピーカによる音声出力及び/又は前記マイクによる音声入力に関する所定の制御を行う制御手段と,を具備するものも考えられる。
ここで,前記他の装置により求められる前記相関情報が,「相関が高い」状態を表す場合は,前記他の装置でマイク入力中の音声に当該音声処理装置でスピーカ出力中の音声及び/若しくはマイク入力中の音声が外乱として混入されている状態を表すことになる。従って,当該音声処理装置は,前記相関情報に基づく前記所定の通知(前記相関情報(相関の高さ)そのものを通知してもよい)に応じて,様々な対処(制御)を行うことが可能となる。
例えば,前記制御手段が行う所定の制御としては,例えば,前記他の装置がマイク入力した音声信号と当該音声処理装置がスピーカ出力した音声信号との相関が高い場合に,前記スピーカによる出力レベルを低下させるもの等が考えられる。
このように,前記他の装置への外乱となっている音源(当該音声処理装置のスピーカ)の出力レベルを低下させることにより,前記他の装置において,外乱となる音声信号のレベルが高すぎて適切な外乱除去が困難となるという弊害を防止できる。この他にも,例えば,当該音声処理装置がマイク入力中であり,その入力音声が前記他の装置への外乱となっている場合には,当該音声処理装置においてマイク入力中のユーザに,声を小さくするよう要求するメッセージを所定の表示装置に表示させる等の制御を行うこと等も考えられる。
【0008】
また,以上に示した音声処理装置は,前記他の装置に対して前記入力音声情報及び/又は前記出力音声情報を送信する側の装置についてのものであったが,前記入力音声情報及び/又は前記出力音声情報を受信する側の音声処理装置も本発明の範囲である。
即ち,音声を入力するマイク及び/又は音声を出力するスピーカを具備する音声処理装置において,他の装置がマイク入力中の音声に関する入力音声情報及び/又は前記他の装置がスピーカ出力中の音声に関する出力音声情報を前記他の装置から受信する音声情報受信手段を具備してなることを特徴とする音声処理装置である。
これにより,前記他の装置から受信した前記入力音声情報及び/又は前記出力音声情報を用いて様々な対処を行うことが可能となる。
【0009】
また,前記マイクによる入力音声に含まれるそれぞれ異なる音源からの複数の入力音声信号を分離する音源分離手段を具備するものが考えられる。
ここで,前記音源分離手段としては,例えば,非特許文献1に示される技術を適用すればよい。即ち,前記マイクを複数具備し,前記音源分離手段が,複数の前記マイクから入力された音声信号が混合された混合音声信号から独立成分分析に基づいて前記音源ごとの複数の音声入力信号を分離するものである。
これにより,異なる音源からの音声が混在してマイク入力される場合であっても,音源ごとに区分したきめ細かな対処を行うことができる。
さらに,この場合において,前記音源分離手段により分離後の複数の入力音声から,当該音声処理装置の処理対象とする有効音源信号を選択する音源選択手段を具備し,前記有効音源信号及び/又は前記音源選択手段により選択されなかった残りの音声信号に関する前記入力音声情報を前記音声情報送信手段により送信するものも考えられる。
【0010】
また,前記音声情報受信手段により前記他の装置から受信した前記出力音声情報及び/又は前記入力音声情報を用いて,前記音源分離手段により分離された前記複数の音声入力信号それぞれと前記他の装置でスピーカ出力及び/又はマイク入力された音声信号との第1の相関情報を求める第1の相関情報検出手段を具備するものが考えられる。
前述したのと同様に,当該音声処理装置により求められる前記第1の相関情報が,「相関が高い」状態を表す場合は,当該音声処理装置でマイク入力中の音声に前記他の装置でスピーカ出力中の音声及び/若しくはマイク入力中の音声が外乱として混入されている状態を表すことになる。従って,当該音声処理装置は,前記第1の相関情報に基づいて,様々な対処を行うことが可能となる。
例えば,前記第1の相関情報に基づいて所定の通知を前記他の装置に送信する通知送信手段を具備するものが考えられる。
ここで,前記所定の通知としては,前記音源分離手段により分離された前記複数の音声入力信号のいずれかと前記他の装置でスピーカ出力及び/又はマイク入力された音声信号との相関が高い場合に,前記他の装置に対してスピーカ出力及び/又はマイク入力の音声レベルを低下させる旨の通知とすること等が考えられる。ここで,マイク入力の音声レベルを低下させる制御としては,例えば,前記他の装置において,マイク入力中の声を小さくするようメッセージ表示させる等の制御が考えられる。
【0011】
また,前記音声情報受信手段により前記他の装置から受信した前記入力音声情報を用いて,前記スピーカによる出力音声信号と前記他の装置でマイク入力された音声信号との第2の相関情報を求める第2の相関情報検出手段を具備するものも考えられる。
ここで,当該音声処理装置により求められる前記第2の相関情報が,「相関が高い」状態を表す場合は,当該音声処理装置でスピーカ出力中の音声が前記他の装置でマイク入力中の音声への外乱として混入している状態を表すことになる。従って,当該音声処理装置は,前記第2の相関情報に基づいて,様々な対処を行うことが可能となる。
例えば,前記第2の相関情報に基づいて前記スピーカによる音声出力及び/又は前記マイクによる音声入力に関する所定の制御を行う制御手段を具備するものであれば,前記第2の相関情報が高い相関を有することを表す場合に,当該音声処理装置のスピーカ出力の音声レベルを低下させたり,マイク入力中の声を小さくするようメッセージ表示する等の制御を行うことが可能となる。
【0012】
【発明の実施の形態】
以下添付図面を参照しながら,本発明の実施の形態及び実施例について説明し,本発明の理解に供する。尚,以下の実施の形態及び実施例は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施の形態に係る音声処理装置Xの概略構成を表すブロック図,図2は本発明の実施の形態に係る音声処理装置Xが出力及び入力する音声信号レベルの推移の一例を模式的に表すトレンドグラフ,図3は本発明の実施の形態に係る音声処理装置Xにおけるスピーカ出力音声に関するメッセージを他装置へ送信する処理の手順を表すフローチャート,図4は本発明の実施の形態に係る音声処理装置Xにおけるマイク入力音声に関するメッセージを他装置へ送信する処理の手順を表すフローチャート,図5は本発明の実施の形態に係る音声処理装置におけるマイク入力音声に他装置のスピーカ出力音声が外乱として入力されたときの入力音声レベルの推移の一例を模式的に表すトレンドグラフ,図6は本発明の実施例に係る音声処理装置におけるスピーカ出力レベルの制御手順を表すフローチャート,図7は独立成分分析に基づく音源分離において周波数領域で音源分離を行う場合の実施例を示すブロック図である。
【0013】
本発明の実施の形態に係る音声処理装置Xは,いわゆるハンズフリー機能を有する電話機であり,図1は,2台の本音声処理装置Xが近隣で同時使用されている状態を表すものである。ここで,図2に示す2台の音声処理装置Xは,相互間で通話しているのではなく,それぞれ異なる通話相手と通話中である場合を想定している。図1には,便宜上,2台の装置を示しているが,もちろん,3台以上存在してもかまわない。
図1に示すように,音声処理装置Xは,通話相手からの受話信号(受話音声データ)を入力する受話信号受信部11,該受話信号入力部11により入力した受話信号をスピーカ出力する際の音量(出力信号レベル)を調節する音量制御手段12,該音量制御手段12で音量調節後の受話信号を音声として出力するスピーカ13(拡声装置),当該音声処理装置のユーザの音声を入力する複数のマイク21,該複数のマイク21で入力された音声信号が混合された混合音声信号から前記受話信号に対応する音声信号(前記スピーカ13から前記マイク21に回り込んだエコー)を除去するエコーキャンセラ22,該エコーキャンセラ22によりエコー除去後の前記混合音声信号から定常的な背景雑音(ノイズ音声)を除去するノイズサプレッサ23,該ノイズサプレッサ23によりノイズ除去後の前記混合音声信号(前記スピーカ13からのエコー及びノイズ音声を除去後の前記混合音声信号)から,該混合音声信号に含まれるそれぞれ異なる音源からの複数の入力音声信号を分離する音源分離手段24,該音源分離手段24により分離された複数の入力音声信号(以下,分離信号という)から通話相手に送信する1又は複数の音声信号を通話相手への送話信号(送話音声データ)として選択する音源選択手段25,該音源選択手段25により選択された前記送話信号を通信相手となる音声処理装置(電話機等)に対して有線又は無線の電話回線を介して送信する送話信号送信部26,近隣に存在する他の音声処理装置Xと有線又は無線による通信を行う通信インターフェース31,前記分離信号と前記受話信号と前記通信インタフェース31を介して近隣の他装置から受信した情報とを入力して他装置との連携をとるための各種演算の実行及び前記音量制御手段12に対する音量調節信号の出力を行う連動動作制御手段32を具備している。
ここで,前記エコーキャンセラ22は,例えば,特許文献1に示されるエコーキャンセラその他周知のものを用いればよく,特に特定のものに限定するものではない。前記ノイズサプレッサについても同様である。
また,前記音源分離手段24は,非特許文献1に示される独立成分分析の理論に基づくブラインド音源分離を行うものである。非特許文献1には,音源分離を周波数領域並びに時間領域のいずれにおいても実施する例が示されている。本音源分離手段24によれば,前記混合音声信号から前記マイク21の数だけの独立した音源それぞれごとの音声信号を分離できる。
【0014】
図7は,非特許文献1に示される独立成分分析に基づく音源分離の計算方法のうち,周波数領域で音源分離を行う場合の実施例を示すブロック図である。前記マイク21からの各信号は周波数分析するための短時間分析フレームに切り出され,DFTなどで周波数領域に変換される。DFTの結果の周波数成分を,ベクトルX(f,k )で表わす。ここで,fはDFT後の周波数に相当し,kは各時刻kで切り出される分析フレーム番号であり,各マイク入力毎の信号に対する成分がベクトルとなっている。このベクトルに対して分離行列 Wfk(f)をかけることで,得られる Y(f,k)が分離信号となる。Wfk(f)は,適応アルゴリズムを用いてY( f, k )が独立成分となるようにk毎に分析を行いながら更新される。行列の更新計算を行う適応アルゴリズムの例としては非特許文献1に記載されているものも含め,種々のものが提案されている。同様に,周波数領域への変換は行わずに時間領域のままで同様な学習更新を行う手法や,それらを組み合わせてさらに性能を上げる方式なども,非特許文献1には示されている。時間領域のみで行う適応アルゴリズムでは,各サンプル時刻tにおける複数マイクからの入力サンプルベクトルをx(t) とし,それに対してz変換で表わされる成分をもち,次の(A)式で表される分離行列Wt(z)を用意し,周波数領域の時と同様にy(t) =Wt・x(t)で計算される信号y(t)が独立な成分となるように係数ベクトルwt(n)を学習更新していくものである。これも非特許文献1に,wt(n)の更新式の一例が示されている。
【数1】
【0015】
次に,図2を用いて,前記音源選択手段25における,前記分離信号から前記送話信号を選択する方法について説明する。
前記音源選択手段25は,前記分離信号それぞれと前記受話信号との比較に基づいて,前記分離信号から前記送話信号を選択するものである。
一般に,電話機や対話型の音声認識装置等の音声処理装置では,前記スピーカ13から出力される音声信号(前記受話信号,当該音声処理装置が音声認識装置等である場合は装置自体が発する操作案内用の合成音声信号等)と当該音声処理装置のユーザが前記マイク21に向かって発する音声信号とは時間的に重複しないことが多い。そこで,前記音源選択手段25では,前記受話信号及び前記分離信号それぞれについて,その音声信号が有音であるか無音であるかを判別(検出)し,その有音若しくは無音であることに関する情報(以下,有音/無音評価結果といい,有音状態を「1」,無音状態を「0」で表す)を前記受話信号と前記分離信号それぞれとについて相互関係を比較する。
【0016】
図2(a)は,前記受話信号(受話音源信号)の信号レベルの推移を模式的に表したトレンドグラフであり,図2(b),(c)は,2つの前記分離信号それぞれの信号レベルの推移を模式的に表したトレンドグラフである。各音声信号が有音状態であるか無音状態であるかは,各音声信号のベースとなる信号レベル(定常的に生じている信号レベル)よりも信号レベルが所定以上高い場合に有音状態(有音/無音評価結果=1)と判別し,その他の場合に無音状態(有音/無音評価結果=0)と判別する。
図2に示す例では,前記受話信号(図2(a))についての前記有音/無音評価結果と,図2(b)に示す前記分離信号についての前記有音/無音評価結果とでは,値が一致する時間帯,特に,有音状態が重複する時間帯がほとんどない。一方,前記受話信号(図2(a))についての前記有音/無音評価結果と,図2(c)に示す前記分離信号についての前記有音/無音評価結果とでは,値が一致する(有音状態が重複する)時間帯が多い。この図2に示す例では,前記音源選択手段25は,図2(b)に示す前記分離信号を当該音声処理装置Xのユーザが発した音声に対応する信号(以下,有効音源信号という)であると判別し,その他の前記分離信号(図2(c)に示す前記分離信号)を他の装置等から回り込んできた外乱信号(以下,外乱音源信号という)と判別する。前記有効音源信号が前記送話信号として前記送話信号送信部26によって通話相手に送信される。また,前記有効音源信号は,前記連動動作制御部32にも出力され,該連動動作制御部32において,前記分離信号について前記有効音源信号と前記外乱音声信号との識別が可能となるよう構成されている。
前記音源選択手段25によって行われる前記有効音源信号と前記外乱音源信号との判別の具体例としては,以下に示すように,当該音声処理装置Xで処理対象とする前記有効音源信号を判別するための評価指標C(i)を用いることが考えられる。
【0017】
まず,前記受話信号と前記分離信号とがともに有音である状態(いわゆるダブルトークの状態),即ち,前記受話信号の前記有音/無音評価結果U(i)と前記分離信号の前記有音/無音評価結果Y(i)とがともに「1」(有音)である状態の多さ(時間帯の長さ)を表す第1のサブ評価指標D(i)を次の(1)式を用いて求める。
D(i)=αD・D(i−1)+U(i)・Y(i) …(1)
ここで,iは時刻を表すカウンタであり,演算周期ごとに1ずつカウントアップされる整数である。また,αDは,遠い過去のデータを忘却させて最新の状況に適応させるための係数であり,0<αD<1の範囲で適当な値に設定されるものである。これにより,前記第1のサブ評価指標D(i)は,その値が大きいほどダブルトークの状態が多いことを表し,この値が大きい音声信号(前記分離信号)は,前記外乱音源信号である可能性が高い。
次に,前記受話信号が無音状態であるときに前記分離信号が有音状態である状態,即ち,前記受話信号の前記有音/無音評価結果U(i)が「0」かつ前記分離信号の前記有音/無音評価結果Y(i)が「1」である状態の多さ(時間帯の長さ)を表す第2のサブ評価指標R(i)を次の(2)式を用いて求める。
R(i)=αR・R(i−1)+(1−U(i))・Y(i) …(2)
ここで,αRは,前記係数αDと同じ目的で,0<αR<1の範囲で適当な値に設定される係数である。これにより,前記第2のサブ評価指標R(i)は,その値が大きいほど通常の対話状態(受話と送話のタイミングがずれている状態)が多いことを表し,この値が大きい音声信号(前記分離信号)は,前記有効音源信号である可能性が高い。
通常,前記有効音源信号(前記送話信号)は,前記受話信号に対する応答として前記マイク13から入力されることが多いため,前記受話信号が無音状態のまま所定時間(回数)以上継続している場合,この第2のサブ評価指標R(i)の有効性(信憑性)は下がると考えられる。そこで,前記受話信号が無音状態のまま所定時間(回数)以上継続している場合には,前記第2のサブ評価指標R(i)の演算(更新)を行わないようにすること等も考えられる。
最後に,前記評価指標C(i)を次の(3)式を用いて求める。
C(i)=HR・R(i)−HD・D(i) …(3)
ここで,HR,HDは,前記第1及び第2のサブ評価指標D(i),R(i)それぞれに重み付けをする係数である。前記評価指標C(i)を,前記分離信号それぞれについて求め,該評価指標C(i)が最大値となる前記分離信号を前記有効音源信号と判別し,その他の前記分離信号を前記外乱音源信号と判別する。ここで,前記受話信号(前記スピーカ13から出力する音声信号)についての前記有音/無音評価結果及び前記分離信号それぞれ(前記マイク21から入力する音声信号)についての前記有音/無音評価結果が,それぞれ前記出力音声情報及び前記入力音声情報の一例である。また,前記有音/無音評価結果の算出(検出)は,前記連携動作制御手段32によっても行われ,該連携動作制御手段32が前記出力音声情報検出手段及び前記入力音声情報検出手段の一例である。もちろん,前記有音/無音評価結果の算出(検出)は,前記音源選択手段25又は前記連携動作制御手段32のいずれか一方のみで行い,算出結果を他方に出力するよう構成してもよい。
【0018】
次に,図3を用いて,前記連携動作制御手段32による他装置へのメッセージ送信処理について説明する。
図3は,前記スピーカ13により出力する前記受話音声についての前記有音/無音評価結果(前記出力音声情報の一例)を他装置へのメッセージ送信する処理の手順を表すフローチャートである。以下,S101,S102…は,処理手順(ステップ)の番号を表す。図3の処理は,前記連携動作制御手段32により制御され,前記有音/無音評価結果は前記通信インターフェイス31を介して近隣の他装置に送信される。
まず,各種パラメータの初期値設定(時刻カウンタi=0,メッセージ送信時刻Tu=最小値)を行い(S101),前記時刻カウンタiをカウントアップ(+1)した(S102)後,現時点(最新時刻i)での前記受話信号(前記スピーカ13から出力される音声信号)についての前記有音/無音評価結果U(i)を求める(S103)。この有音/無音評価結果U(i)は,前述したように,その音声信号(前記受話信号)のレベルと,該音声信号のベースとなる信号レベル(定常的に生じている信号レベル)との比較等によって求めることができる。次に,最後に他装置へメッセージ送信した時刻Tuから一定時間T0を経過している(S104のYES側)若しくは前回(前時刻)の前記有音/無音評価結果U(i−1)から状態が変化している(S107のYES側)場合には,現時点の前記受話信号についての前記有音/無音評価結果U(i)を近隣の他装置(他の音声処理装置X)へ送信(メッセージを送信)する(S105,前記音声情報送信手段が行う処理の一例)。このメッセージは,前記有音/無音評価結果U(i)の他に,送信元(発信元)を特定する送信元IDを含み,近隣の他装置に対してブロードキャスト送信或いは所定のグループIDを宛先とするグループ送信がなされる。さらに,現時刻iを,最後にメッセージ送信した時刻Tuとして記録した後,S102へ戻って前述した処理が繰り返される。
一方,最後に他装置へメッセージ送信した前記時刻Tuから一定時間T0を経過しておらず(S104のNO側),かつ前回(前時刻)の前記有音/無音評価結果U(i−1)から状態が変化していない(S107のNO側)場合には,他装置との無用な通信負荷を抑えるため,そのままS102へ戻って前述した処理が繰り返される。
このような,メッセージの近隣装置への送信処理が,所定の演算周期ごとに音声処理装置Xそれぞれにおいて実行される。
これにより,近隣に存在する音声処理装置X相互が,各時点でスピーカ出力中(有音状態,前記有音/無音評価結果U(i)=1)であるか,そうでないか(無音状態,前記有音/無音評価結果U(i)=0)を知ることができる。
また,図3の処理と同様にして,前記有効音源信号及び前記外乱音源信号のうちの1又は複数(即ち,前記音源分離手段24により分離された前記分離信号のうちの1又は複数)についての前記有音/無音評価結果を近隣に存在する他装置に送信してもよい。ここでは,前記受話信号(スピーカ出力音声)についての前記有音/無音評価結果U(i)に加えて,前記有効音源信号についての前記有音/無音評価結果も近隣の他装置へ送信するものとする。
【0019】
次に,図4を用いて,他装置(他の音声処理装置X)からの前記有音/無音評価結果を受信した側の音声処理装置X(以下,受信側の音声処理装置Xという)の処理について説明する。
図4に示す前記受信側の音声処理装置Xの処理は,当該装置における前記外乱音源信号(前記分離信号のうち前記有効音源信号を除いた残り)それぞれと他装置でスピーカ出力及びマイク入力された音声信号(他装置における前記受話信号及び前記有効音源信号)との相関情報を求め,該相関情報に基づいて,必要に応じて所定の通知を他装置に送信する処理である。ここでは,他装置でのスピーカ出力によって当該受信側の音声処理装置Xのマイク入力が外乱を受けていると判断した場合に,その外乱の発生元(前記有音/無音評価結果の送信元の他装置)に対して,外乱を受けている或いは受けていた外乱が無くなった旨を表す外乱有無通知Clast(外乱を受けている場合に「1」,受けていない場合に「0」)を送信する。
また,以下の説明では,便宜上,当該装置における前記外乱音源信号それぞれと他装置でスピーカ出力された音声信号(他装置における前記受話信号)との前記相関情報に関する処理についてのみ示しているが,他装置でマイク入力された音声信号(他装置における前記有効音源信号)との前記相関情報についても同様の手順により並行して(或いは順次)処理されるものとする。
【0020】
まず,各種パラメータの初期設定(時刻カウンタi=0,メッセージ送信時刻TY=最小値,前記外乱有無通知Clast=0等)を行い(S201),前記時刻カウンタiをカウントアップ(+1)した(S202)後,現時点(最新時刻i)での当該受信側の音声処理装置Xにおける前記外乱音源信号それぞれについての前記有音/無音評価結果Ym(i)(1(有音)又は0(無音))(mは前記外乱音源信号それぞれの番号を表す,m=1〜マイクの数(M))を求める(S203)。
次に,他装置(1台又は複数台)から前記有音/無音評価結果のメッセージを受信している場合(メッセージ受信ありの場合)は(S204のYES側),受信した前記有音/無音評価結果(1(有音)又は0(無音))を変数Cu(i)に代入し(S206),そうでない場合は(S204のNO側),他装置の前記有音/無音評価結果に変化がないものとして,前回の変数値Cu(i−1)を変数Cu(i)に代入する(S205)。複数の前記有音/無音評価結果のメッセージを受信している場合には,そのメッセージごとにS205以降の処理を行う。
次に,このようにして変数Cu(i)(他装置の前記受話信号(スピーカ出力)についての前記有音/無音評価結果)の値が確定すると,次の(4)式を用いて,当該受信側の音声処理装置Xにおける前記外乱音源信号それぞれと他装置でスピーカ出力された音声信号(他装置における前記受話信号)との相関情報Qm(i,j)(前記第1の相関情報の一例)を求める(S207,本処理が前記第1の相関情報検出手段が行う処理の一例)。
Qm(i,j)=αQ・Q(i−1,j)
+(2・Cu(i)−1)・(2・Ym(i−j)−1) …(4)
ここで,iは時刻を表すカウンタであり,演算周期ごとに1ずつカウントアップされる整数である。αQは,遠い過去のデータを忘却させて最新の状況に適応させるための係数であり,0<αQ<1の範囲で適当な値に設定されるものである。また,jは他装置と当該受信側の音声処理装置Xとの通信時間による遅延時間(ディレイ)等を考慮した時刻差を表し,現時点で他装置から受信している前記有音/無音評価結果Cu(i)と時刻差jだけ前の時点での当該受信側の音声処理装置の信号との相関情報Qmを計算している。また,ここでは,前記遅延時間に多少の幅があることを考慮し,前記時刻差jを,想定される前記時刻差jの範囲(前記遅延時間の範囲)Jmin〜Jmaxで変化させ,該範囲Jmin〜Jmaxの全てについての前記相関情報Qmを計算している(j=Jmin〜Jmax)。
(4)式により求められる前記相関情報Qm(i,j)は,当該受信側の音声処理装置Xにおける前記外乱音源信号それぞれと他装置でスピーカ出力された音声信号(前記受話信号)とがともに有音又はともに無音の状態,即ち,他装置から受信している前記有音/無音評価結果Cu(i)と当該受信側の音声処理装置Xにおける前記外乱音源信号の前記有音/無音評価結果Ym(i)とがともに「1」又はともに「0」である状態の多さ(時間帯の長さ)を表すものとなる。
従って,前記相関情報Qm(i,j)の値が大きいほど,当該受信側の音声処理装置Xにおける前記外乱音源信号と他装置でスピーカ出力された音声信号(前記受話信号)との相関が高く,該相関が高い場合は,当該受信側の音声処理装置Xにおけるマイク入力において,他装置でのスピーカ出力から外乱を受けている可能性が高いといえる。
【0021】
次に,最後に他装置へ前記外乱有無通知を送信した時刻TY(メッセージ送信時刻)から一定時間T1を経過していない(S208のNO側)場合には,S202へ戻って前述した処理を繰り返し,一定時間T1を経過している(S208のYES側)場合にはS209へ移行する。
S209では,S207で求めた前記相関情報Qm(i,j)(j=Jmin〜Jmax)の最大値が,所定のしきい値TQよりも大きいか否か,即ち,相関が高いか否かを判別し,相関が高い(Qm(i,j)の最大値>TQ)場合(S209のYES側)には,前記外乱有無通知Clastを「1」にセットし(S212),該通知Clastを前記有音/無音評価結果の送信元の他装置に対してメッセージ送信(前記通知送信手段が行う処理の一例)及び前記メッセージ送信時刻TYの更新(S213)を行った後,S202へ戻って前述した処理が繰り返される。ここで,前記外乱有無通知Clastの送信先は,前記有音/無音評価結果の受信メッセージに含まれる前記送信元ID(他装置のID)により指定する。また,前記外乱有無通知Clastのメッセージにも,当該受信側の音声処理装置XのIDを含めて送信する。また,S202以降の処理は,所定の演算周期ごとに実行される。
これにより,前記外乱有無通知Clast(=1)を受信した他装置(前記有音/無音評価結果の送信側の音声処理装置X)は,自己のスピーカ出力が前記受信側の音声処理装置Xに対する外乱となっていることを知ることができるので,前記連携動作制御手段32及び前記音量制御手段12によって前記スピーカ13の出力レベルを下げる制御を行う(前記所定の制御の一例)。その結果,当該受信側の音声処理装置Xにおけるマイク入力において,前記他装置から受ける外乱が無くなる或いは小さくなり,良好な音声入力を行うことができることになる。ここで,前記他装置(他の音声処理装置X)は,前記通信インターフェイス31を介して前記連携動作制御手段32により,前記外乱有無通知Clastを受信することは言うまでもない(前記通知受信手段の一例)。
また,外乱の発生元の装置を特定し,その装置にのみ通知を送るので,ブロードキャスト送信を行う場合に比べて無駄な通信が減り,通信負荷を小さくすることができる。
【0022】
ここで,図5(a),(b)は,2つの前記外乱音源信号それぞれの信号レベルの推移及び該外乱音源信号の有音/無音評価結果を模式的に表したトレンドグラフであり,図5(c)は,他装置から受信した他装置のスピーカ出力についての前記有音/無音評価結果の推移を模式的に表したトレンドグラフである。
図5に示す例では,他装置のスピーカ出力における前記有音/無音評価結果(図5(c))と,図5(b)に示す前記外乱音源信号における前記有音/無音評価結果とでは,所定の遅延時間分だけずらして見れば,値の変化傾向が略一致しており,図5(b)に示す外乱の発生元は,図5(c)に示す前記有音/無音評価結果を送信した装置のスピーカであることがわかる。
一方,他装置のスピーカ出力における前記有音/無音評価結果(図5(c))と,図5(a)に示す前記外乱音源信号における前記有音/無音評価結果とでは,値の変化傾向が全く異なっており,図5(a)に示す外乱の発生元は,図5(c)に示す前記有音/無音評価結果を送信した装置以外であることがわかる。
このような場合,図5(a),(b)の前記外乱音源信号それぞれについて前記相関情報Qm(i,j)を求めれば,図5(b)については前記相関情報Qm(i,j)の値が大きくなり,図5(a)については前記相関情報Qm(i,j)の値が小さくなるので,前記外乱音源信号の発生元がいずれの近隣装置からのものであるかを特定することが可能となる。
【0023】
一方,S209において,S207で求めた前記相関情報Qm(i,j)(j=Jmin〜Jmax)の最大値が,所定のしきい値TQ以下,即ち,相関が低い場合(S209のNO側)には,最終の(前回送信した)前記外乱有無通知Clastの内容(値)が「0」であったか否かを判別(S210)し,「0」であった場合(前記外乱有無通知Clastの内容が「0」のまま変化していない)には,他装置との無用な通信負荷を抑えるため,そのままS202へ戻って前述した処理が繰り返される。
一方,最終の(前回送信した)前記外乱有無通知Clastの内容(値)が「1」であった(「0」でなかった)場合には,状況が変化している(外乱が無くなった)ということであるので,前記外乱有無通知Clastを「0」にセットし(S211),該通知Clastを前記有音/無音評価結果の送信元の他装置に対してメッセージ送信するとともに前記メッセージ送信時刻TYを現時刻iに更新(S213)した後,S202へ戻って前述した処理が繰り返される。
これにより,当該受信側の音声処理装置Xが,他装置から外乱を受けている場合及び受けていた外乱が無くなった場合に,前記外乱有無通知Clastがその外乱の発信元に送信されることになる。
一方,前記外乱有無通知Clast(=0)を受信した他装置(前記有音/無音評価結果の送信側の音声処理装置X)は,自己のスピーカ出力が前記受信側の音声処理装置Xに対する外乱で無くなったことを知ることができるので,前記連携動作制御手段32及び前記音量制御手段12によって前記スピーカ13の出力レベルを所定時間後に元のレベルまで上げる,或いは少しずつ元のレベルまで上げる等の制御を行う(前記所定の制御の一例)。その結果,当該受信側の音声処理装置Xにおけるマイク入力において,前記他装置から受ける外乱が無くなった或いは小さくなったときには,所定時間のうちに前記他装置における前記スピーカ13の出力レベルが元のレベルに戻される。
【0024】
【実施例】
前述した実施の形態では,他装置におけるスピーカ出力(前記受話信号)についての前記有音/無音評価結果を受信した側の音声処理装置X(前記受信側の音声処理装置X)において,前記相関情報を求め,該相関情報に基づく前記外乱有無通知を送信する形態について示した。しかし,これに限るものでなく,各音声処理装置から近隣の他装置に対して,図3に示した手順と同様の手順により,前記外乱音源信号(前記マイク21により入力された音声信号から分離された前記分離信号のうちの1又は複数)についての前記有音/無音評価結果をメッセージ送信(ブロードキャスト送信等)し,該有音/無音評価結果を受信した側の音声処理装置(受信側の音声処理装置)において,他装置における前記外乱音源信号それぞれと自装置でスピーカ出力している前記受話信号及びマイク入力している前記有効音源信号との前記相関情報を求め,該相関情報に基づいて,必要に応じて自装置のスピーカ出力レベルを下げる等の制御を行うよう構成した音声処理装置(以下,音声処理装置X1という)も考えられる。以下,前記音声処理装置Xの応用例である音声処理装置X1について説明する。
音声処理装置X1の構成は,前記音声処理装置Xと同じであり,前記外乱音源信号についての前記有音/無音評価結果をメッセージ送信する手順も,図3に示した手順と同様である。この場合における,図3のS103及びS105の処理に相当する処理が,それぞれ前記入力音声情報検出手段及び前記音声情報送信手段が行う処理の一例である。
以下,図6を用いて,前記外乱音源信号についての前記有音/無音評価結果を受信した側の音声処理装置X1(以下,受信側の音声処理装置X1という)の処理について説明する。
図6に示す前記受信側の音声処理装置X1の処理は,他装置における前記外乱音源信号(前記分離信号のうち前記有効音源信号を除いた残り)それぞれと当該装置でスピーカ出力及びマイク入力された音声信号(当該装置における前記受話信号及び前記有効音源信号)との相関情報を求め,該相関情報に基づいて,必要に応じて所定の制御を行う処理である。ここでは,当該受信側の音声処理装置X1でのスピーカ出力によって他装置(前記有音/無音評価結果を送信した側の音声処理装置X1)のマイク入力が外乱を受けていると判断した場合に,その外乱の発生元である自装置のスピーカ出力レベルを自主的に低下させる補正制御を行う。
また,以下の説明では,便宜上,他装置における前記外乱音源信号それぞれと自装置でスピーカ出力された音声信号(前記受話信号)との前記相関情報に関する処理についてのみ示しているが,自装置でマイク入力された音声信号(自装置における前記有効音源信号)との前記相関情報についても同様の手順により並行して(或いは順次)処理されるものとする。
【0025】
まず,各種パラメータの初期設定(時刻カウンタi=0,メッセージ送信時刻TC=最小値,スピーカ出力減衰ゲイン(レベル補正値)G=0等)を行い(S301),前記時刻カウンタiをカウントアップ(+1)した(S302)後,現時点(最新時刻i)での当該受信側の音声処理装置X1における前記受話信号(スピーカ出力)についての前記有音/無音評価結果U(i)(1(有音)又は0(無音))を求める(S303)。
次に,他装置(1台又は複数台)から前記有音/無音評価結果のメッセージを受信している場合(メッセージ受信ありの場合)は(S304のYES側),受信した前記有音/無音評価結果(1(有音)又は0(無音))を変数Cy(i)に代入し(S306),そうでない場合は(S304のNO側),他装置の前記有音/無音評価結果に変化がないものとして,前回の変数値Cy(i−1)を変数Cy(i)に代入する(S305)。複数の前記有音/無音評価結果のメッセージを受信している場合には,そのメッセージごとにS305以降の処理を行う。
次に,このようにして変数Cy(i)(他装置の前記外乱音源信号についての前記有音/無音評価結果)の値が確定すると,次の(5)式を用いて,当該受信側の音声処理装置X1におけるスピーカ出力信号(前記受話信号)と他装置の前記外乱音源信号との相関情報P(i,j)(前記第2の相関情報の一例)を求める(S307,本処理が前記第2の相関情報検出手段が行う処理の一例)。
P(i,j)=αP・P(i−1,j)
+(2・Cy(i)−1)・(2・U(i−j)−1) …(5)
この(5)式は,前述した(4)式と同様の式であり,αPは,遠い過去のデータを忘却させて最新の状況に適応させるための係数(0<αP<1),jは前記時刻差(j=Jmin〜Jmax)である。
(5)式により求められる前記相関情報P(i,j)は,前記相関情報Qm(i,j)と同様に,当該受信側の音声処理装置X1におけるスピーカ出力信号と他装置でマイク入力された前記外乱音源信号との相関の高さを表すものであり,前記相関情報P(i,j)の値が大きいほど,当該受信側の音声処理装置X1におけるスピーカ出力音声が,他装置におけるマイク入力に外乱を与えている可能性が高いといえる。
【0026】
次に,最後にスピーカ出力を補正した時刻TC(スピーカ補正時刻)から一定時間T2を経過していない(S308のNO側)場合には,S302へ戻って前述した処理を繰り返し,一定時間T2を経過している(S308のYES側)場合にはS309へ移行する。
S309では,S307で求めた前記相関情報P(i,j)(j=Jmin〜Jmax)の最大値が,所定のしきい値TPよりも大きいか否か,即ち,相関が高いか否かを判別し,相関が高い(P(i,j)の最大値>TP)場合(S309のYES側)には,所定の補正下限値Gminの以上(0以下)の範囲内で,スピーカ出力減衰ゲイン(補正値)Gを所定値G0(>0)だけ減算し(S310),該スピーカ出力減衰ゲインG(Gmin≦G≦0)が前記音量制御手段12に出力されて該減衰ゲインG分だけ自発的にスピーカ出力レベルを補正する(低下させる)とともに前記スピーカ補正時刻TCを現時刻iに更新した後,S302へ戻って前述した処理が繰り返される。ここで,S302以降の処理は,所定の演算周期ごとに実行される。
これにより,当該受信側の音声処理装置X1のスピーカ出力によって前記他装置のマイク入力に与える外乱が無くなる或いは小さくなり,前記他装置における良好な音声入力を行うことができることになる。
一方,S309において,S307で求めた前記相関情報P(i,j)(j=Jmin〜Jmax)の最大値が,所定のしきい値TP以下,即ち,相関が低い場合(S309のNO側)には,0以下の範囲内で,スピーカ出力減衰ゲイン(補正値)Gをわずかな値G1(>0)だけ加算し(S311),該スピーカ出力減衰ゲインG(Gmin≦G≦0)が前記音量制御手段12に出力されて該減衰ゲインG分だけスピーカ出力レベルを補正する(徐々に元のレベルに戻す)とともに前記スピーカ補正時刻TCを現時刻iに更新した後,S302へ戻って前述した処理が繰り返される。
これにより,当該受信側の音声処理装置X1が,他装置に外乱を与えていると判断されている間,所定周期T2でスピーカ出力レベルが低下するよう補正され,外乱を与えなくなったと判断された場合には,徐々にスピーカ出力レベルが元のレベルに戻されることになる。
また,1台の他装置から前記送話信号(スピーカ出力)についての前記有音/無音評価結果と前記有効音源信号についての前記有音/無音評価結果との両方を受信した場合には,その送信元は双方向通話を行っている装置であると判断し,そのような場合にのみ,外乱とならないように自発的にスピーカ出力レベルを補正するようにしてもよい。
【0027】
また,前記音声処理装置Xと前記音声処理装置X1の両機能を併せて実行するものも考えられる。この場合,各音声処理装置は,前記受話信号(スピーカ出力)及び前記分離信号(前記有効音源信号及び前記外乱音源信号)それぞれについての前記有音/無音評価結果をそれらを識別する情報とともに他装置へ送信すればよい。
これにより,例えば,他装置から前記外乱有無通知Clastの値が「1」である通知を受けた場合であっても,自装置における前記相関情報P(i,j)による評価によれば,自装置のスピーカ出力は,前記外乱有無通知Clast送信元に外乱を与えていないと判別すれば,前記外乱有無通知Clastを無視する等の制御を行うことができ,より確実な対処が可能となる。
【0028】
また,前記音声処理装置X,X1では,他装置へ送信する前記出力音声情報及び前記入力音声情報として,その音声が有音若しくは無音であることに関する情報(前記有音/無音評価結果)を用いたが,これに限るものでなく,例えばその音声のレベルや周波数,声紋に関する情報等,その音声の特徴をあらわす各種情報が考えられる。
【0029】
また,前記音声処理装置X,X1は,ハンズフリー機能を有する電話機の例であったが,これに限るものでなく,例えば,ステレオ装置,テレビ等のオーディオ装置や,音声入力機能を有するパーソナルコンピュータ,カーナビゲーション装置における音声認識装置等,様々な音声処理装置に適用可能であり,また,これら様々な種類の装置が混在する場合も考えられる。
例えば,ハンズフリー電話機が,自装置における前記外乱音源信号についての前記有音/無音評価結果を近隣のステレオ装置やテレビ等に送信し,前記有音/無音評価結果の受信機能を有する近隣のステレオ装置やテレビが,自装置のスピーカ出力が前記電話機に対して外乱を与えているか否かを判別し,外乱を与えていると判別した場合には,自発的にスピーカ出力のレベルを低下させる制御を行う等の適用例が考えられる。この場合,前記有音/無音評価結果を受信する側のステレオ装置やテレビが,自装置の発する音声に関する前記有音/無音評価結果を他装置に送信する機能を有することは必須ではない。
また,それとは逆に,ステレオ装置やテレビ等が,自装置におけるスピーカ出力信号についての前記有音/無音評価結果を近隣のハンズフリー電話機や音声認識装置に送信し,前記有音/無音評価結果を受信した近隣のハンズフリー電話機や音声認識装置が,他装置(ステレオ装置やテレビ等)のスピーカ出力から外乱を受けているか否かを判別し,外乱を受けていると判別した場合には,その外乱の発生元であるステレオ装置やテレビ等に対してスピーカ出力のレベルを低下させる通知を行う等の適用例も考えられる。この場合,前記有音/無音評価結果を受信する側のハンズフリー電話機や音声認識装置が,自装置の発する音声に関する前記有音/無音評価結果を他装置に送信する機能を有することは必須ではない。
また,他装置へ送信する前記有音/無音評価結果や前記通知とともに,各装置の種類や優先度を表す情報も送信し,該情報に基づいて,例えば,自装置よりも優先度の低い装置からの前記有音/無音評価結果に対しては自発的な制御を行わないようにしたり,自装置よりも優先度の低い装置に対してのみ必要な制御を行わせるための前記通知を送信したりするよう構成すること等も考えられる。
これにより,優先度の低い装置(或いは,予め定められた種類の装置)が優先度の高い装置に対して外乱を与えている場合のみスピーカ出力レベルの調節等の対処が行われ,各装置の使用実態に沿ったより適切な対処が行える。
また,装置相互間でマイク入力中の音声が外乱として影響している場合の対処(制御)としては,所定の表示装置を設け,マイク入力中の声を小さくするようユーザに対してメッセージ表示する等の制御も考えられる。
【0030】
また,前記音声処理装置X,X1では,前記分離信号から処理対象(通話相手への送信対象)とする前記有効音源信号を選択する手段は,自装置の前記受話信号と前記分離信号それぞれとの相互関係(有音/無音となるタイミングの相互関係)を用いるものであったが,例えば,他装置から送信されてくるスピーカ出力(他装置の前記受話信号)と前記分離信号それぞれとの相関情報に基づいて前記有効音源信号を選択するものも考えられる。例えば,前記分離信号(複数の音声入力信号)のうち,他装置から送信されてくるスピーカ出力(他装置の前記受話信号)との相関が最も低いものを前記有効音源信号として選択するもの等が考えられる。
【0031】
【発明の効果】
以上説明したように,本発明によれば,近隣で使用されている音声処理装置相互間で,各装置におけるスピーカ出力中の音声やマイク入力中の音声に関する情報(その音声の特徴をあらわす情報)が相互に送受信されるので,マイク入力中の装置は,受信した情報に基づいて,その情報の送信元の音声がマイク入力中の音声に混在(混入)しているかどうか等を検出するこが可能となり,また,スピーカ出力中の装置は,受信した情報に基づいて,その情報の送信元のマイク入力に自装置のスピーカ出力が外乱を与えているかどうか等を検出することが可能となる。これにより,外乱の発生元の装置に対して外乱となる音声を抑制させる通知を行ったり,情報を受信した装置が自発的にスピーカ出力レベルを下げるよう制御する等の適切な対処を行うことが可能となる。その結果,複数の音声処理装置が近隣で使用されている場合であっても,音声の相互干渉を除去する適切な制御を行うことができるので,マイク入力中の各装置において良好な音声入力を行うことが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声処理装置Xの概略構成を表すブロック図。
【図2】本発明の実施の形態に係る音声処理装置Xが出力及び入力する音声信号レベルの推移の一例を模式的に表すトレンドグラフ。
【図3】本発明の実施の形態に係る音声処理装置Xにおけるスピーカ出力音声に関するメッセージを他装置へ送信する処理の手順を表すフローチャート。
【図4】本発明の実施の形態に係る音声処理装置Xにおけるマイク入力音声に関するメッセージを他装置へ送信する処理の手順を表すフローチャート。
【図5】本発明の実施の形態に係る音声処理装置におけるマイク入力音声に他装置のスピーカ出力音声が外乱として入力されたときの入力音声レベルの推移の一例を模式的に表すトレンドグラフ。
【図6】本発明の実施例に係る音声処理装置におけるスピーカ出力レベルの制御手順を表すフローチャート。
【図7】独立成分分析に基づく音源分離において周波数領域で音源分離を行う場合の実施例を示すブロック図。
【符号の説明】
11…受話信号受信部
12…音量制御手段
13…スピーカ
21…マイク
22…エコーキャンセラ
23…ノイズサプレッサ
24…音源分離手段
25…音源選択手段
26…送話信号送信部
31…通信インターフェイス
32…連携動作制御手段
S101,S102,,…処理手順(ステップ)
Claims (16)
- 音声を出力するスピーカ及び/又は音声を入力するマイクを具備する音声処理装置において,
前記スピーカにより出力中の音声に関する出力音声情報を検出する出力音声情報検出手段及び/又は前記マイクにより入力中の音声に関する入力音声情報を検出する入力音声情報検出手段と,
前記出力音声情報及び/又は前記入力音声情報をマイクにより音声入力中及び/又はスピーカにより音声出力中の他の装置へ送信する音声情報送信手段と,
を具備してなることを特徴とする音声処理装置。 - 前記出力音声情報及び/又は前記入力音声情報が,音声が有音若しくは無音であることに関する情報である請求項1に記載の音声処理装置。
- 前記マイクによる入力音声に含まれるそれぞれ異なる音源からの複数の入力音声を分離する音源分離手段を具備し,
前記入力音声情報検出手段が,前記音源分離手段により分離後の複数の入力音声のうちの1又は複数の入力音声に関する情報を検出するものである請求項1又は2のいずれかに記載の音声処理装置。 - 前記マイクを複数具備し,
前記音源分離手段が,複数の前記マイクから入力された音声信号が混合された混合音声信号から独立成分分析に基づいて前記音源ごとの複数の音声入力信号を分離するものである請求項3に記載の音声処理装置。 - 前記音源分離手段により分離後の複数の入力音声から,当該音声処理装置の処理対象とする有効音源信号を選択する音源選択手段を具備し,
前記有効音源信号及び/又は前記音源選択手段により選択されなかった残りの音声信号に関する前記入力音声情報を前記音声情報送信手段により送信するものである請求項3又は4のいずれかに記載の音声処理装置。 - 前記他の装置が,前記音声情報送信手段により前記他の装置へ送信した前記出力音声情報及び/又は前記入力音声情報を用いることにより,前記他の装置がマイク入力した音声信号と当該音声処理装置がスピーカ出力及び/又はマイク入力した音声信号との相関情報を求め,該相関情報に基づいて所定の通知を送信するものであり,
前記他の装置からの前記所定の通知を受信する通知受信手段と,
前記所定の通知に基づいて前記スピーカによる音声出力及び/又は前記マイクによる音声入力に関する所定の制御を行う制御手段と,
を具備してなる請求項1〜5のいずれかに記載の音声処理装置。 - 前記制御手段が行う所定の制御が,前記他の装置がマイク入力した音声信号と当該音声処理装置がスピーカ出力した音声信号との相関が高い場合に,前記スピーカによる出力レベルを低下させるものである請求項6に記載の音声処理装置。
- 音声を入力するマイク及び/又は音声を出力するスピーカを具備する音声処理装置において,
他の装置がマイク入力中の音声に関する入力音声情報及び/又は前記他の装置がスピーカ出力中の音声に関する出力音声情報を前記他の装置から受信する音声情報受信手段を具備してなることを特徴とする音声処理装置。 - 前記マイクによる入力音声に含まれるそれぞれ異なる音源からの複数の入力音声信号を分離する音源分離手段を具備してなる請求項8に記載の音声処理装置。
- 前記マイクを複数具備し,
前記音源分離手段が,複数の前記マイクから入力された音声信号が混合された混合音声信号から独立成分分析に基づいて前記音源ごとの複数の音声入力信号を分離するものである請求項9に記載の音声処理装置。 - 前記音源分離手段により分離後の複数の入力音声から,当該音声処理装置の処理対象とする有効音源信号を選択する音源選択手段を具備し,前記有効音源信号及び/又は前記音源選択手段により選択されなかった残りの音声信号に関する前記入力音声情報を前記音声情報送信手段により送信するものである請求項9又は10のいずれかに記載の音声処理装置。
- 前記音声情報受信手段により前記他の装置から受信した前記出力音声情報及び/又は前記入力音声情報を用いて,前記音源分離手段により分離された前記複数の音声入力信号それぞれと前記他の装置でスピーカ出力及び/又はマイク入力された音声信号との第1の相関情報を求める第1の相関情報検出手段を具備してなる請求項9〜11のいずれかに記載の音声処理装置。
- 前記第1の相関情報に基づいて所定の通知を前記他の装置に送信する通知送信手段を具備してなる請求項9〜12のいずれかに記載の音声処理装置。
- 前記所定の通知が,前記音源分離手段により分離された前記複数の音声入力信号のいずれかと前記他の装置でスピーカ出力及び/又はマイク入力された音声信号との相関が高い場合に,前記他の装置に対してスピーカ出力及び/又はマイク入力の音声レベルを低下させる旨の通知である請求項13に記載の音声処理装置。
- 前記音声情報受信手段により前記他の装置から受信した前記入力音声情報を用いて,前記スピーカによる出力音声信号と前記他の装置でマイク入力された音声信号との第2の相関情報を求める第2の相関情報検出手段を具備してなる請求項9〜14のいずれかに記載の音声処理装置。
- 前記第2の相関情報に基づいて前記スピーカによる音声出力及び/又は前記マイクによる音声入力に関する所定の制御を行う制御手段を具備してなる請求項9〜15のいずれかに記載の音声処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002274872A JP2004109779A (ja) | 2002-09-20 | 2002-09-20 | 音声処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002274872A JP2004109779A (ja) | 2002-09-20 | 2002-09-20 | 音声処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004109779A true JP2004109779A (ja) | 2004-04-08 |
Family
ID=32271227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002274872A Pending JP2004109779A (ja) | 2002-09-20 | 2002-09-20 | 音声処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004109779A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007034238A (ja) * | 2005-07-29 | 2007-02-08 | Kobe Steel Ltd | 現場作業支援システム |
JP2008035259A (ja) * | 2006-07-28 | 2008-02-14 | Kobe Steel Ltd | 音源分離装置、音源分離方法及び音源分離プログラム |
JP2008219240A (ja) * | 2007-03-01 | 2008-09-18 | Yamaha Corp | 放収音システム |
JP2009010996A (ja) * | 2008-09-11 | 2009-01-15 | Sony Corp | 音声信号処理装置および音声信号処理方法 |
JP2011002535A (ja) * | 2009-06-17 | 2011-01-06 | Toyota Motor Corp | 音声対話システム、音声対話方法、及びプログラム |
JP2011049959A (ja) * | 2009-08-28 | 2011-03-10 | Aiphone Co Ltd | インターホンシステム |
CN105788582A (zh) * | 2016-05-06 | 2016-07-20 | 深圳芯智汇科技有限公司 | 便携式卡拉ok音箱及其卡拉ok的方法 |
US10127910B2 (en) | 2013-12-19 | 2018-11-13 | Denso Corporation | Speech recognition apparatus and computer program product for speech recognition |
WO2022250387A1 (ko) * | 2021-05-27 | 2022-12-01 | 주식회사 아모센스 | 음성을 처리하기 위한 음성 처리 장치, 음성 처리 시스템 및 음성 처리 방법 |
-
2002
- 2002-09-20 JP JP2002274872A patent/JP2004109779A/ja active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007034238A (ja) * | 2005-07-29 | 2007-02-08 | Kobe Steel Ltd | 現場作業支援システム |
JP2008035259A (ja) * | 2006-07-28 | 2008-02-14 | Kobe Steel Ltd | 音源分離装置、音源分離方法及び音源分離プログラム |
JP4672611B2 (ja) * | 2006-07-28 | 2011-04-20 | 株式会社神戸製鋼所 | 音源分離装置、音源分離方法及び音源分離プログラム |
JP2008219240A (ja) * | 2007-03-01 | 2008-09-18 | Yamaha Corp | 放収音システム |
JP2009010996A (ja) * | 2008-09-11 | 2009-01-15 | Sony Corp | 音声信号処理装置および音声信号処理方法 |
JP2011002535A (ja) * | 2009-06-17 | 2011-01-06 | Toyota Motor Corp | 音声対話システム、音声対話方法、及びプログラム |
JP2011049959A (ja) * | 2009-08-28 | 2011-03-10 | Aiphone Co Ltd | インターホンシステム |
US10127910B2 (en) | 2013-12-19 | 2018-11-13 | Denso Corporation | Speech recognition apparatus and computer program product for speech recognition |
CN105788582A (zh) * | 2016-05-06 | 2016-07-20 | 深圳芯智汇科技有限公司 | 便携式卡拉ok音箱及其卡拉ok的方法 |
WO2022250387A1 (ko) * | 2021-05-27 | 2022-12-01 | 주식회사 아모센스 | 음성을 처리하기 위한 음성 처리 장치, 음성 처리 시스템 및 음성 처리 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4247002B2 (ja) | マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置 | |
US20190066710A1 (en) | Transparent near-end user control over far-end speech enhancement processing | |
EP2761617B1 (en) | Processing audio signals | |
US7680465B2 (en) | Sound enhancement for audio devices based on user-specific audio processing parameters | |
JP4968147B2 (ja) | 通信端末、通信端末の音声出力調整方法 | |
JP2004133403A (ja) | 音声信号処理装置 | |
US8694326B2 (en) | Communication terminal and communication method | |
EP2700161B1 (en) | Processing audio signals | |
TW201707498A (zh) | 用於使用個人通信裝置之虛擬會議系統的方法及系統 | |
JP2007312364A (ja) | 音響信号処理における均等化 | |
US7072310B2 (en) | Echo canceling system | |
US11653156B2 (en) | Source separation in hearing devices and related methods | |
JP2018046452A (ja) | 信号処理装置、プログラム及び方法、並びに、通話装置 | |
JP2010081004A (ja) | エコーキャンセル装置、通信装置、及びエコーキャンセル方法 | |
JP2004109779A (ja) | 音声処理装置 | |
CN103238312B (zh) | 控制音频信号 | |
EP2663979B1 (en) | Processing audio signals | |
JP2008211526A (ja) | 音声入出力装置及び音声入出力方法 | |
JP4413205B2 (ja) | エコー抑圧方法、装置、エコー抑圧プログラム、記録媒体 | |
EP3830823B1 (en) | Forced gap insertion for pervasive listening | |
JP2005107448A (ja) | 雑音低減処理方法、この方法を実施する装置、プログラム、記録媒体 | |
JP2019035915A (ja) | トーク状態判定装置、方法及びプログラム | |
JP2019036917A (ja) | パラメータ制御装置、方法及びプログラム | |
EP4207194A1 (en) | Audio device with audio quality detection and related methods | |
JP2008294599A (ja) | 放収音装置、および放収音システム |