JP2004109779A

JP2004109779A - 音声処理装置

Info

Publication number: JP2004109779A
Application number: JP2002274872A
Authority: JP
Inventors: Tetsuya Takahashi; 高橋　哲也; Toshiro Yamashita; 山下　俊郎; Shigeki Murakami; 村上　茂樹; Takayuki Hiekata; 稗方　孝之; Yohei Ikeda; 池田　陽平
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2002-09-20
Filing date: 2002-09-20
Publication date: 2004-04-08

Abstract

【課題】複数の音声処理装置が近隣でスピーカ出力或いはマイク入力を行っている場合であっても，適切な対処を行えること。
【解決手段】近隣で使用されている音声処理装置Ｘ相互間で，各装置におけるスピーカ１３出力中の音声やマイク２１入力中の音声に関する情報（その音声の特徴をあらわす情報）を相互に送受信することにより，マイク入力中の装置は，受信情報に基づいて，その情報の送信元の音声がマイク入力中の音声に混入しているかどうかを検出する。また，スピーカ出力中の装置は，受信情報に基づいて，その情報の送信元のマイク入力に自装置のスピーカ出力が外乱を与えているかどうかを検出する。これにより，外乱の発生元の装置に対して外乱となる音声を抑制させる通知を行ったり，情報を受信した装置が自発的にスピーカ出力レベルを下げる等の適切な対処を行う。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は，音声を出力するスピーカや音声を入力するマイクを具備し所定の音声処理を行う音声処理装置に関し，特に，近隣で使用されている各装置がスピーカ出力中或いはマイク入力中である場合に，他装置の音声がマイク入力中の自装置の外乱音声となっていることや自装置の音声がマイク入力中の他装置の外乱となっていることを検出して適切な対処を行うことができる音声処理装置に関するものである。
【０００２】
【従来の技術】
近年，インターネットの普及が著しいが，今後，ＩＰ電話などの音声通信アプリケーションの普及が予想される。このような音声通信アプリケーションとしては，例えば，単に音声電話の機能をネットワークで置き換えたものの他，より音質の高い電話サービスが可能になったり，音声だけでなく画像も同時に伝送するテレビ電話や同時に多地点通話を行うテレビ会議といった様々な新しいサービスが考えられる。また，音声は障害者や老人・子供までが容易にサービスに参加できるようにするデジタルディバイド是正の手段としても有効なメディアとなる可能性を秘めている。このように，誰にでも簡単に使える音声インターフェイスの実現は，一般の健常者へのユーザビリティ向上も含めて遍く多くの人達への情報サービスを普及させ，新たな成長市場を作っていくうえで極めて有効であるといえる。
このように将来の情報サービス普及において音声インターフェイスの重要性は明らかである反面，音声では画像など他のメディアでは起こらない困難な技術課題が発生する。それは，音という信号は空間的に拡散することに起因し，近隣で異なる機器やサービスを用いるユーザの発生する音声やスピーカからの出力は，他のユーザや機器にとっては使用環境や性能を劣化させる外乱信号となる。これは，音声サービスの普及が進むにつれて増加したユーザ同士が互いに干渉源となり，さらなる普及を阻害するというジレンマとなる。身近な事例を示せば，例えば，ハンズフリーでＴＶ電話をしている近くで他の家族がテレビやオーディオを再生したり，それらの機器操作のために音声認識／合成を使用したりするような状況等が挙げられる。
従来，音声インターフェースを具備する音声処理装置の一例であるハンズフリー機能を有した従来の電話機には，例えば，特許文献１に示されるように，自らのスピーカが発した（出力した）音声がマイクに回り込む干渉を防ぐためのエコキャンセラや，定常的な背景騒音等を除去するノイズサプレッサ等が搭載されている。
一方，非特許文献１には，それぞれ異なる音源からの複数の音声が混在した混合音声が複数のマイクによって入力された場合に，その混合音声信号から音源ごとの音声信号を分離する技術が示されている。本技術は，複数のマイクから入力された音声信号が混合された混合音声信号から独立成分分析に基づいて，マイクの数だけの音源それぞれごとの音声信号を分離するものである。
【０００３】
【特許文献１】
特開平１０−１９０５３３号公報
【非特許文献１】
猿渡　洋「音声・音響信号を対象としたブラインド音源分離」　電子情報通信学会ＤＳＰ研究会，ＤＳＰ２００１−１９４，　ｐｐ．５９−６６，　（２００２）
【０００４】
【発明が解決しようとする課題】
しかしながら，特許文献１等に示されるエコーキャンセラは，自装置がスピーカ出力する音声のエコーを除去するのみであり，他装置におけるスピーカ出力やマイク入力の音声（他装置が音源となる音声）が自装置のマイク入力に混入する場合には対応できないという問題点があった。
また，非特許文献１に示される技術では，分離した音源ごとの複数の音声信号のうち，自装置にとって有効な音声信号（自装置のユーザがマイク入力している（音源となっている）音声信号）がいずれであるか，或いは自装置にとって外乱となる音声信号（他装置からの音声）がいずれであるかを特定することができないという問題点があった。
さらに，自装置にとって外乱となる音声信号を特定できた場合であっても，外乱となる音声信号のレベルが高すぎる場合等には，適切な外乱除去が困難となるという問題点もあった。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，複数の音声処理装置が近隣でスピーカ出力或いはマイク入力を行っている場合であっても，他装置の音声がマイク入力中の自装置の外乱音声となっていることを検出したり，自装置の音声がマイク入力中の他装置の外乱音声となっていることを検出したりすることにより，適切な対処を行うことができる音声処理装置を提供することにある。
【０００５】
【課題を解決するための手段】
上記目的を達成するために本発明は，音声を出力するスピーカ及び／又は音声を入力するマイクを具備する音声処理装置において，前記スピーカにより出力中の音声に関する出力音声情報を検出する出力音声情報検出手段及び／又は前記マイクにより入力中の音声に関する入力音声情報を検出する入力音声情報検出手段と，前記出力音声情報及び／又は前記入力音声情報をマイクにより音声入力中及び／又はスピーカにより音声出力中の他の装置へ送信する音声情報送信手段と，を具備してなることを特徴とする音声処理装置である。
前記出力音声情報及び／又は前記入力音声情報としては，例えば，その音声が有音若しくは無音であることに関する情報や，その音声のレベルや周波数，声紋に関する情報等，その音声の特徴をあらわす各種情報が考えられる。
このように，自装置におけるスピーカ出力中の音声やマイク入力中の音声に関する情報を近隣の他装置に送信することにより，マイク入力中或いはスピーカ出力中の前記他の装置は，受信した情報（前記出力音声情報及び／又は前記入力音声情報）に基づいて，その情報の送信元の音声がマイク入力中の音声に混在（混入）しているかどうかや，スピーカ出力中の音声が前記情報の送信元の音声処理装置のマイク入力に外乱として影響を与えているかどうか等を検出するこが可能となるので，適切な対処を行うことが可能となる。
【０００６】
また，前記マイクによる入力音声に含まれるそれぞれ異なる音源からの複数の入力音声を分離する音源分離手段を具備し，前記入力音声情報検出手段が，前記音源分離手段により分離後の複数の入力音声のうちの１又は複数の入力音声に関する情報を検出するものも考えられる。
ここで，前記音源分離手段としては，例えば，非特許文献１に示される技術を適用すればよい。即ち，前記マイクを複数具備し，前記音源分離手段が，複数の前記マイクから入力された音声信号が混合された混合音声信号から独立成分分析に基づいて前記音源ごとの複数の音声入力信号を分離するものとして構成したものである。
これにより，異なる音源からの音声が混在してマイク入力される場合であっても，音源ごとに区分したきめ細かな対処を行うことができる。
この場合，さらに，前記音源分離手段により分離後の複数の入力音声から，当該音声処理装置の処理対象とする有効音源信号を選択する音源選択手段を具備し，前記有効音源信号及び／又は前記音源選択手段により選択されなかった残りの音声信号に関する前記入力音声情報を前記音声情報送信手段により送信するものも考えられる。
【０００７】
また，前記他の装置が，前記音声情報送信手段により前記他の装置へ送信した前記出力音声情報及び／又は前記入力音声情報を用いることにより，前記他の装置がマイク入力した音声信号と当該音声処理装置がスピーカ出力及び／又はマイク入力した音声信号との相関情報を求め，該相関情報に基づいて所定の通知を送信するものであり，前記他の装置からの前記所定の通知を受信する通知受信手段と，前記所定の通知に基づいて前記スピーカによる音声出力及び／又は前記マイクによる音声入力に関する所定の制御を行う制御手段と，を具備するものも考えられる。
ここで，前記他の装置により求められる前記相関情報が，「相関が高い」状態を表す場合は，前記他の装置でマイク入力中の音声に当該音声処理装置でスピーカ出力中の音声及び／若しくはマイク入力中の音声が外乱として混入されている状態を表すことになる。従って，当該音声処理装置は，前記相関情報に基づく前記所定の通知（前記相関情報（相関の高さ）そのものを通知してもよい）に応じて，様々な対処（制御）を行うことが可能となる。
例えば，前記制御手段が行う所定の制御としては，例えば，前記他の装置がマイク入力した音声信号と当該音声処理装置がスピーカ出力した音声信号との相関が高い場合に，前記スピーカによる出力レベルを低下させるもの等が考えられる。
このように，前記他の装置への外乱となっている音源（当該音声処理装置のスピーカ）の出力レベルを低下させることにより，前記他の装置において，外乱となる音声信号のレベルが高すぎて適切な外乱除去が困難となるという弊害を防止できる。この他にも，例えば，当該音声処理装置がマイク入力中であり，その入力音声が前記他の装置への外乱となっている場合には，当該音声処理装置においてマイク入力中のユーザに，声を小さくするよう要求するメッセージを所定の表示装置に表示させる等の制御を行うこと等も考えられる。
【０００８】
また，以上に示した音声処理装置は，前記他の装置に対して前記入力音声情報及び／又は前記出力音声情報を送信する側の装置についてのものであったが，前記入力音声情報及び／又は前記出力音声情報を受信する側の音声処理装置も本発明の範囲である。
即ち，音声を入力するマイク及び／又は音声を出力するスピーカを具備する音声処理装置において，他の装置がマイク入力中の音声に関する入力音声情報及び／又は前記他の装置がスピーカ出力中の音声に関する出力音声情報を前記他の装置から受信する音声情報受信手段を具備してなることを特徴とする音声処理装置である。
これにより，前記他の装置から受信した前記入力音声情報及び／又は前記出力音声情報を用いて様々な対処を行うことが可能となる。
【０００９】
また，前記マイクによる入力音声に含まれるそれぞれ異なる音源からの複数の入力音声信号を分離する音源分離手段を具備するものが考えられる。
ここで，前記音源分離手段としては，例えば，非特許文献１に示される技術を適用すればよい。即ち，前記マイクを複数具備し，前記音源分離手段が，複数の前記マイクから入力された音声信号が混合された混合音声信号から独立成分分析に基づいて前記音源ごとの複数の音声入力信号を分離するものである。
これにより，異なる音源からの音声が混在してマイク入力される場合であっても，音源ごとに区分したきめ細かな対処を行うことができる。
さらに，この場合において，前記音源分離手段により分離後の複数の入力音声から，当該音声処理装置の処理対象とする有効音源信号を選択する音源選択手段を具備し，前記有効音源信号及び／又は前記音源選択手段により選択されなかった残りの音声信号に関する前記入力音声情報を前記音声情報送信手段により送信するものも考えられる。
【００１０】
また，前記音声情報受信手段により前記他の装置から受信した前記出力音声情報及び／又は前記入力音声情報を用いて，前記音源分離手段により分離された前記複数の音声入力信号それぞれと前記他の装置でスピーカ出力及び／又はマイク入力された音声信号との第１の相関情報を求める第１の相関情報検出手段を具備するものが考えられる。
前述したのと同様に，当該音声処理装置により求められる前記第１の相関情報が，「相関が高い」状態を表す場合は，当該音声処理装置でマイク入力中の音声に前記他の装置でスピーカ出力中の音声及び／若しくはマイク入力中の音声が外乱として混入されている状態を表すことになる。従って，当該音声処理装置は，前記第１の相関情報に基づいて，様々な対処を行うことが可能となる。
例えば，前記第１の相関情報に基づいて所定の通知を前記他の装置に送信する通知送信手段を具備するものが考えられる。
ここで，前記所定の通知としては，前記音源分離手段により分離された前記複数の音声入力信号のいずれかと前記他の装置でスピーカ出力及び／又はマイク入力された音声信号との相関が高い場合に，前記他の装置に対してスピーカ出力及び／又はマイク入力の音声レベルを低下させる旨の通知とすること等が考えられる。ここで，マイク入力の音声レベルを低下させる制御としては，例えば，前記他の装置において，マイク入力中の声を小さくするようメッセージ表示させる等の制御が考えられる。
【００１１】
また，前記音声情報受信手段により前記他の装置から受信した前記入力音声情報を用いて，前記スピーカによる出力音声信号と前記他の装置でマイク入力された音声信号との第２の相関情報を求める第２の相関情報検出手段を具備するものも考えられる。
ここで，当該音声処理装置により求められる前記第２の相関情報が，「相関が高い」状態を表す場合は，当該音声処理装置でスピーカ出力中の音声が前記他の装置でマイク入力中の音声への外乱として混入している状態を表すことになる。従って，当該音声処理装置は，前記第２の相関情報に基づいて，様々な対処を行うことが可能となる。
例えば，前記第２の相関情報に基づいて前記スピーカによる音声出力及び／又は前記マイクによる音声入力に関する所定の制御を行う制御手段を具備するものであれば，前記第２の相関情報が高い相関を有することを表す場合に，当該音声処理装置のスピーカ出力の音声レベルを低下させたり，マイク入力中の声を小さくするようメッセージ表示する等の制御を行うことが可能となる。
【００１２】
【発明の実施の形態】
以下添付図面を参照しながら，本発明の実施の形態及び実施例について説明し，本発明の理解に供する。尚，以下の実施の形態及び実施例は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は本発明の実施の形態に係る音声処理装置Ｘの概略構成を表すブロック図，図２は本発明の実施の形態に係る音声処理装置Ｘが出力及び入力する音声信号レベルの推移の一例を模式的に表すトレンドグラフ，図３は本発明の実施の形態に係る音声処理装置Ｘにおけるスピーカ出力音声に関するメッセージを他装置へ送信する処理の手順を表すフローチャート，図４は本発明の実施の形態に係る音声処理装置Ｘにおけるマイク入力音声に関するメッセージを他装置へ送信する処理の手順を表すフローチャート，図５は本発明の実施の形態に係る音声処理装置におけるマイク入力音声に他装置のスピーカ出力音声が外乱として入力されたときの入力音声レベルの推移の一例を模式的に表すトレンドグラフ，図６は本発明の実施例に係る音声処理装置におけるスピーカ出力レベルの制御手順を表すフローチャート，図７は独立成分分析に基づく音源分離において周波数領域で音源分離を行う場合の実施例を示すブロック図である。
【００１３】
本発明の実施の形態に係る音声処理装置Ｘは，いわゆるハンズフリー機能を有する電話機であり，図１は，２台の本音声処理装置Ｘが近隣で同時使用されている状態を表すものである。ここで，図２に示す２台の音声処理装置Ｘは，相互間で通話しているのではなく，それぞれ異なる通話相手と通話中である場合を想定している。図１には，便宜上，２台の装置を示しているが，もちろん，３台以上存在してもかまわない。
図１に示すように，音声処理装置Ｘは，通話相手からの受話信号（受話音声データ）を入力する受話信号受信部１１，該受話信号入力部１１により入力した受話信号をスピーカ出力する際の音量（出力信号レベル）を調節する音量制御手段１２，該音量制御手段１２で音量調節後の受話信号を音声として出力するスピーカ１３（拡声装置），当該音声処理装置のユーザの音声を入力する複数のマイク２１，該複数のマイク２１で入力された音声信号が混合された混合音声信号から前記受話信号に対応する音声信号（前記スピーカ１３から前記マイク２１に回り込んだエコー）を除去するエコーキャンセラ２２，該エコーキャンセラ２２によりエコー除去後の前記混合音声信号から定常的な背景雑音（ノイズ音声）を除去するノイズサプレッサ２３，該ノイズサプレッサ２３によりノイズ除去後の前記混合音声信号（前記スピーカ１３からのエコー及びノイズ音声を除去後の前記混合音声信号）から，該混合音声信号に含まれるそれぞれ異なる音源からの複数の入力音声信号を分離する音源分離手段２４，該音源分離手段２４により分離された複数の入力音声信号（以下，分離信号という）から通話相手に送信する１又は複数の音声信号を通話相手への送話信号（送話音声データ）として選択する音源選択手段２５，該音源選択手段２５により選択された前記送話信号を通信相手となる音声処理装置（電話機等）に対して有線又は無線の電話回線を介して送信する送話信号送信部２６，近隣に存在する他の音声処理装置Ｘと有線又は無線による通信を行う通信インターフェース３１，前記分離信号と前記受話信号と前記通信インタフェース３１を介して近隣の他装置から受信した情報とを入力して他装置との連携をとるための各種演算の実行及び前記音量制御手段１２に対する音量調節信号の出力を行う連動動作制御手段３２を具備している。
ここで，前記エコーキャンセラ２２は，例えば，特許文献１に示されるエコーキャンセラその他周知のものを用いればよく，特に特定のものに限定するものではない。前記ノイズサプレッサについても同様である。
また，前記音源分離手段２４は，非特許文献１に示される独立成分分析の理論に基づくブラインド音源分離を行うものである。非特許文献１には，音源分離を周波数領域並びに時間領域のいずれにおいても実施する例が示されている。本音源分離手段２４によれば，前記混合音声信号から前記マイク２１の数だけの独立した音源それぞれごとの音声信号を分離できる。
【００１４】
図７は，非特許文献１に示される独立成分分析に基づく音源分離の計算方法のうち，周波数領域で音源分離を行う場合の実施例を示すブロック図である。前記マイク２１からの各信号は周波数分析するための短時間分析フレームに切り出され，ＤＦＴなどで周波数領域に変換される。ＤＦＴの結果の周波数成分を，ベクトルＸ（ｆ，ｋ　）で表わす。ここで，ｆはＤＦＴ後の周波数に相当し，ｋは各時刻ｋで切り出される分析フレーム番号であり，各マイク入力毎の信号に対する成分がベクトルとなっている。このベクトルに対して分離行列　Ｗ^ｆｋ（ｆ）をかけることで，得られる　Ｙ（ｆ，ｋ）が分離信号となる。Ｗ^ｆｋ（ｆ）は，適応アルゴリズムを用いてＹ（　ｆ，　ｋ　）が独立成分となるようにｋ毎に分析を行いながら更新される。行列の更新計算を行う適応アルゴリズムの例としては非特許文献１に記載されているものも含め，種々のものが提案されている。同様に，周波数領域への変換は行わずに時間領域のままで同様な学習更新を行う手法や，それらを組み合わせてさらに性能を上げる方式なども，非特許文献１には示されている。時間領域のみで行う適応アルゴリズムでは，各サンプル時刻ｔにおける複数マイクからの入力サンプルベクトルをｘ（ｔ）　とし，それに対してｚ変換で表わされる成分をもち，次の（Ａ）式で表される分離行列Ｗ^ｔ（ｚ）を用意し，周波数領域の時と同様にｙ（ｔ）　＝Ｗ^ｔ・ｘ（ｔ）で計算される信号ｙ（ｔ）が独立な成分となるように係数ベクトルｗ^ｔ（ｎ）を学習更新していくものである。これも非特許文献１に，ｗ^ｔ（ｎ）の更新式の一例が示されている。
【数１】

【００１５】
次に，図２を用いて，前記音源選択手段２５における，前記分離信号から前記送話信号を選択する方法について説明する。
前記音源選択手段２５は，前記分離信号それぞれと前記受話信号との比較に基づいて，前記分離信号から前記送話信号を選択するものである。
一般に，電話機や対話型の音声認識装置等の音声処理装置では，前記スピーカ１３から出力される音声信号（前記受話信号，当該音声処理装置が音声認識装置等である場合は装置自体が発する操作案内用の合成音声信号等）と当該音声処理装置のユーザが前記マイク２１に向かって発する音声信号とは時間的に重複しないことが多い。そこで，前記音源選択手段２５では，前記受話信号及び前記分離信号それぞれについて，その音声信号が有音であるか無音であるかを判別（検出）し，その有音若しくは無音であることに関する情報（以下，有音／無音評価結果といい，有音状態を「１」，無音状態を「０」で表す）を前記受話信号と前記分離信号それぞれとについて相互関係を比較する。
【００１６】
図２（ａ）は，前記受話信号（受話音源信号）の信号レベルの推移を模式的に表したトレンドグラフであり，図２（ｂ），（ｃ）は，２つの前記分離信号それぞれの信号レベルの推移を模式的に表したトレンドグラフである。各音声信号が有音状態であるか無音状態であるかは，各音声信号のベースとなる信号レベル（定常的に生じている信号レベル）よりも信号レベルが所定以上高い場合に有音状態（有音／無音評価結果＝１）と判別し，その他の場合に無音状態（有音／無音評価結果＝０）と判別する。
図２に示す例では，前記受話信号（図２（ａ））についての前記有音／無音評価結果と，図２（ｂ）に示す前記分離信号についての前記有音／無音評価結果とでは，値が一致する時間帯，特に，有音状態が重複する時間帯がほとんどない。一方，前記受話信号（図２（ａ））についての前記有音／無音評価結果と，図２（ｃ）に示す前記分離信号についての前記有音／無音評価結果とでは，値が一致する（有音状態が重複する）時間帯が多い。この図２に示す例では，前記音源選択手段２５は，図２（ｂ）に示す前記分離信号を当該音声処理装置Ｘのユーザが発した音声に対応する信号（以下，有効音源信号という）であると判別し，その他の前記分離信号（図２（ｃ）に示す前記分離信号）を他の装置等から回り込んできた外乱信号（以下，外乱音源信号という）と判別する。前記有効音源信号が前記送話信号として前記送話信号送信部２６によって通話相手に送信される。また，前記有効音源信号は，前記連動動作制御部３２にも出力され，該連動動作制御部３２において，前記分離信号について前記有効音源信号と前記外乱音声信号との識別が可能となるよう構成されている。
前記音源選択手段２５によって行われる前記有効音源信号と前記外乱音源信号との判別の具体例としては，以下に示すように，当該音声処理装置Ｘで処理対象とする前記有効音源信号を判別するための評価指標Ｃ（ｉ）を用いることが考えられる。
【００１７】
まず，前記受話信号と前記分離信号とがともに有音である状態（いわゆるダブルトークの状態），即ち，前記受話信号の前記有音／無音評価結果Ｕ（ｉ）と前記分離信号の前記有音／無音評価結果Ｙ（ｉ）とがともに「１」（有音）である状態の多さ（時間帯の長さ）を表す第１のサブ評価指標Ｄ（ｉ）を次の（１）式を用いて求める。
Ｄ（ｉ）＝α_Ｄ・Ｄ（ｉ−１）＋Ｕ（ｉ）・Ｙ（ｉ）　　…（１）
ここで，ｉは時刻を表すカウンタであり，演算周期ごとに１ずつカウントアップされる整数である。また，α_Ｄは，遠い過去のデータを忘却させて最新の状況に適応させるための係数であり，０＜α_Ｄ＜１の範囲で適当な値に設定されるものである。これにより，前記第１のサブ評価指標Ｄ（ｉ）は，その値が大きいほどダブルトークの状態が多いことを表し，この値が大きい音声信号（前記分離信号）は，前記外乱音源信号である可能性が高い。
次に，前記受話信号が無音状態であるときに前記分離信号が有音状態である状態，即ち，前記受話信号の前記有音／無音評価結果Ｕ（ｉ）が「０」かつ前記分離信号の前記有音／無音評価結果Ｙ（ｉ）が「１」である状態の多さ（時間帯の長さ）を表す第２のサブ評価指標Ｒ（ｉ）を次の（２）式を用いて求める。
Ｒ（ｉ）＝α_Ｒ・Ｒ（ｉ−１）＋（１−Ｕ（ｉ））・Ｙ（ｉ）　　…（２）
ここで，α_Ｒは，前記係数α_Ｄと同じ目的で，０＜α_Ｒ＜１の範囲で適当な値に設定される係数である。これにより，前記第２のサブ評価指標Ｒ（ｉ）は，その値が大きいほど通常の対話状態（受話と送話のタイミングがずれている状態）が多いことを表し，この値が大きい音声信号（前記分離信号）は，前記有効音源信号である可能性が高い。
通常，前記有効音源信号（前記送話信号）は，前記受話信号に対する応答として前記マイク１３から入力されることが多いため，前記受話信号が無音状態のまま所定時間（回数）以上継続している場合，この第２のサブ評価指標Ｒ（ｉ）の有効性（信憑性）は下がると考えられる。そこで，前記受話信号が無音状態のまま所定時間（回数）以上継続している場合には，前記第２のサブ評価指標Ｒ（ｉ）の演算（更新）を行わないようにすること等も考えられる。
最後に，前記評価指標Ｃ（ｉ）を次の（３）式を用いて求める。
Ｃ（ｉ）＝ＨＲ・Ｒ（ｉ）−ＨＤ・Ｄ（ｉ）　　…（３）
ここで，ＨＲ，ＨＤは，前記第１及び第２のサブ評価指標Ｄ（ｉ），Ｒ（ｉ）それぞれに重み付けをする係数である。前記評価指標Ｃ（ｉ）を，前記分離信号それぞれについて求め，該評価指標Ｃ（ｉ）が最大値となる前記分離信号を前記有効音源信号と判別し，その他の前記分離信号を前記外乱音源信号と判別する。ここで，前記受話信号（前記スピーカ１３から出力する音声信号）についての前記有音／無音評価結果及び前記分離信号それぞれ（前記マイク２１から入力する音声信号）についての前記有音／無音評価結果が，それぞれ前記出力音声情報及び前記入力音声情報の一例である。また，前記有音／無音評価結果の算出（検出）は，前記連携動作制御手段３２によっても行われ，該連携動作制御手段３２が前記出力音声情報検出手段及び前記入力音声情報検出手段の一例である。もちろん，前記有音／無音評価結果の算出（検出）は，前記音源選択手段２５又は前記連携動作制御手段３２のいずれか一方のみで行い，算出結果を他方に出力するよう構成してもよい。
【００１８】
次に，図３を用いて，前記連携動作制御手段３２による他装置へのメッセージ送信処理について説明する。
図３は，前記スピーカ１３により出力する前記受話音声についての前記有音／無音評価結果（前記出力音声情報の一例）を他装置へのメッセージ送信する処理の手順を表すフローチャートである。以下，Ｓ１０１，Ｓ１０２…は，処理手順（ステップ）の番号を表す。図３の処理は，前記連携動作制御手段３２により制御され，前記有音／無音評価結果は前記通信インターフェイス３１を介して近隣の他装置に送信される。
まず，各種パラメータの初期値設定（時刻カウンタｉ＝０，メッセージ送信時刻Ｔｕ＝最小値）を行い（Ｓ１０１），前記時刻カウンタｉをカウントアップ（＋１）した（Ｓ１０２）後，現時点（最新時刻ｉ）での前記受話信号（前記スピーカ１３から出力される音声信号）についての前記有音／無音評価結果Ｕ（ｉ）を求める（Ｓ１０３）。この有音／無音評価結果Ｕ（ｉ）は，前述したように，その音声信号（前記受話信号）のレベルと，該音声信号のベースとなる信号レベル（定常的に生じている信号レベル）との比較等によって求めることができる。次に，最後に他装置へメッセージ送信した時刻Ｔｕから一定時間Ｔ０を経過している（Ｓ１０４のＹＥＳ側）若しくは前回（前時刻）の前記有音／無音評価結果Ｕ（ｉ−１）から状態が変化している（Ｓ１０７のＹＥＳ側）場合には，現時点の前記受話信号についての前記有音／無音評価結果Ｕ（ｉ）を近隣の他装置（他の音声処理装置Ｘ）へ送信（メッセージを送信）する（Ｓ１０５，前記音声情報送信手段が行う処理の一例）。このメッセージは，前記有音／無音評価結果Ｕ（ｉ）の他に，送信元（発信元）を特定する送信元ＩＤを含み，近隣の他装置に対してブロードキャスト送信或いは所定のグループＩＤを宛先とするグループ送信がなされる。さらに，現時刻ｉを，最後にメッセージ送信した時刻Ｔｕとして記録した後，Ｓ１０２へ戻って前述した処理が繰り返される。
一方，最後に他装置へメッセージ送信した前記時刻Ｔｕから一定時間Ｔ０を経過しておらず（Ｓ１０４のＮＯ側），かつ前回（前時刻）の前記有音／無音評価結果Ｕ（ｉ−１）から状態が変化していない（Ｓ１０７のＮＯ側）場合には，他装置との無用な通信負荷を抑えるため，そのままＳ１０２へ戻って前述した処理が繰り返される。
このような，メッセージの近隣装置への送信処理が，所定の演算周期ごとに音声処理装置Ｘそれぞれにおいて実行される。
これにより，近隣に存在する音声処理装置Ｘ相互が，各時点でスピーカ出力中（有音状態，前記有音／無音評価結果Ｕ（ｉ）＝１）であるか，そうでないか（無音状態，前記有音／無音評価結果Ｕ（ｉ）＝０）を知ることができる。
また，図３の処理と同様にして，前記有効音源信号及び前記外乱音源信号のうちの１又は複数（即ち，前記音源分離手段２４により分離された前記分離信号のうちの１又は複数）についての前記有音／無音評価結果を近隣に存在する他装置に送信してもよい。ここでは，前記受話信号（スピーカ出力音声）についての前記有音／無音評価結果Ｕ（ｉ）に加えて，前記有効音源信号についての前記有音／無音評価結果も近隣の他装置へ送信するものとする。
【００１９】
次に，図４を用いて，他装置（他の音声処理装置Ｘ）からの前記有音／無音評価結果を受信した側の音声処理装置Ｘ（以下，受信側の音声処理装置Ｘという）の処理について説明する。
図４に示す前記受信側の音声処理装置Ｘの処理は，当該装置における前記外乱音源信号（前記分離信号のうち前記有効音源信号を除いた残り）それぞれと他装置でスピーカ出力及びマイク入力された音声信号（他装置における前記受話信号及び前記有効音源信号）との相関情報を求め，該相関情報に基づいて，必要に応じて所定の通知を他装置に送信する処理である。ここでは，他装置でのスピーカ出力によって当該受信側の音声処理装置Ｘのマイク入力が外乱を受けていると判断した場合に，その外乱の発生元（前記有音／無音評価結果の送信元の他装置）に対して，外乱を受けている或いは受けていた外乱が無くなった旨を表す外乱有無通知Ｃｌａｓｔ（外乱を受けている場合に「１」，受けていない場合に「０」）を送信する。
また，以下の説明では，便宜上，当該装置における前記外乱音源信号それぞれと他装置でスピーカ出力された音声信号（他装置における前記受話信号）との前記相関情報に関する処理についてのみ示しているが，他装置でマイク入力された音声信号（他装置における前記有効音源信号）との前記相関情報についても同様の手順により並行して（或いは順次）処理されるものとする。
【００２０】
まず，各種パラメータの初期設定（時刻カウンタｉ＝０，メッセージ送信時刻Ｔ_Ｙ＝最小値，前記外乱有無通知Ｃｌａｓｔ＝０等）を行い（Ｓ２０１），前記時刻カウンタｉをカウントアップ（＋１）した（Ｓ２０２）後，現時点（最新時刻ｉ）での当該受信側の音声処理装置Ｘにおける前記外乱音源信号それぞれについての前記有音／無音評価結果Ｙｍ（ｉ）（１（有音）又は０（無音））（ｍは前記外乱音源信号それぞれの番号を表す，ｍ＝１〜マイクの数（Ｍ））を求める（Ｓ２０３）。
次に，他装置（１台又は複数台）から前記有音／無音評価結果のメッセージを受信している場合（メッセージ受信ありの場合）は（Ｓ２０４のＹＥＳ側），受信した前記有音／無音評価結果（１（有音）又は０（無音））を変数Ｃｕ（ｉ）に代入し（Ｓ２０６），そうでない場合は（Ｓ２０４のＮＯ側），他装置の前記有音／無音評価結果に変化がないものとして，前回の変数値Ｃｕ（ｉ−１）を変数Ｃｕ（ｉ）に代入する（Ｓ２０５）。複数の前記有音／無音評価結果のメッセージを受信している場合には，そのメッセージごとにＳ２０５以降の処理を行う。
次に，このようにして変数Ｃｕ（ｉ）（他装置の前記受話信号（スピーカ出力）についての前記有音／無音評価結果）の値が確定すると，次の（４）式を用いて，当該受信側の音声処理装置Ｘにおける前記外乱音源信号それぞれと他装置でスピーカ出力された音声信号（他装置における前記受話信号）との相関情報Ｑｍ（ｉ，ｊ）（前記第１の相関情報の一例）を求める（Ｓ２０７，本処理が前記第１の相関情報検出手段が行う処理の一例）。
Ｑｍ（ｉ，ｊ）＝α_Ｑ・Ｑ（ｉ−１，ｊ）
＋（２・Ｃｕ（ｉ）−１）・（２・Ｙｍ（ｉ−ｊ）−１）　　…（４）
ここで，ｉは時刻を表すカウンタであり，演算周期ごとに１ずつカウントアップされる整数である。α_Ｑは，遠い過去のデータを忘却させて最新の状況に適応させるための係数であり，０＜α_Ｑ＜１の範囲で適当な値に設定されるものである。また，ｊは他装置と当該受信側の音声処理装置Ｘとの通信時間による遅延時間（ディレイ）等を考慮した時刻差を表し，現時点で他装置から受信している前記有音／無音評価結果Ｃｕ（ｉ）と時刻差ｊだけ前の時点での当該受信側の音声処理装置の信号との相関情報Ｑｍを計算している。また，ここでは，前記遅延時間に多少の幅があることを考慮し，前記時刻差ｊを，想定される前記時刻差ｊの範囲（前記遅延時間の範囲）Ｊｍｉｎ〜Ｊｍａｘで変化させ，該範囲Ｊｍｉｎ〜Ｊｍａｘの全てについての前記相関情報Ｑｍを計算している（ｊ＝Ｊｍｉｎ〜Ｊｍａｘ）。
（４）式により求められる前記相関情報Ｑｍ（ｉ，ｊ）は，当該受信側の音声処理装置Ｘにおける前記外乱音源信号それぞれと他装置でスピーカ出力された音声信号（前記受話信号）とがともに有音又はともに無音の状態，即ち，他装置から受信している前記有音／無音評価結果Ｃｕ（ｉ）と当該受信側の音声処理装置Ｘにおける前記外乱音源信号の前記有音／無音評価結果Ｙｍ（ｉ）とがともに「１」又はともに「０」である状態の多さ（時間帯の長さ）を表すものとなる。
従って，前記相関情報Ｑｍ（ｉ，ｊ）の値が大きいほど，当該受信側の音声処理装置Ｘにおける前記外乱音源信号と他装置でスピーカ出力された音声信号（前記受話信号）との相関が高く，該相関が高い場合は，当該受信側の音声処理装置Ｘにおけるマイク入力において，他装置でのスピーカ出力から外乱を受けている可能性が高いといえる。
【００２１】
次に，最後に他装置へ前記外乱有無通知を送信した時刻Ｔ_Ｙ（メッセージ送信時刻）から一定時間Ｔ１を経過していない（Ｓ２０８のＮＯ側）場合には，Ｓ２０２へ戻って前述した処理を繰り返し，一定時間Ｔ１を経過している（Ｓ２０８のＹＥＳ側）場合にはＳ２０９へ移行する。
Ｓ２０９では，Ｓ２０７で求めた前記相関情報Ｑｍ（ｉ，ｊ）（ｊ＝Ｊｍｉｎ〜Ｊｍａｘ）の最大値が，所定のしきい値Ｔ_Ｑよりも大きいか否か，即ち，相関が高いか否かを判別し，相関が高い（Ｑｍ（ｉ，ｊ）の最大値＞Ｔ_Ｑ）場合（Ｓ２０９のＹＥＳ側）には，前記外乱有無通知Ｃｌａｓｔを「１」にセットし（Ｓ２１２），該通知Ｃｌａｓｔを前記有音／無音評価結果の送信元の他装置に対してメッセージ送信（前記通知送信手段が行う処理の一例）及び前記メッセージ送信時刻Ｔ_Ｙの更新（Ｓ２１３）を行った後，Ｓ２０２へ戻って前述した処理が繰り返される。ここで，前記外乱有無通知Ｃｌａｓｔの送信先は，前記有音／無音評価結果の受信メッセージに含まれる前記送信元ＩＤ（他装置のＩＤ）により指定する。また，前記外乱有無通知Ｃｌａｓｔのメッセージにも，当該受信側の音声処理装置ＸのＩＤを含めて送信する。また，Ｓ２０２以降の処理は，所定の演算周期ごとに実行される。
これにより，前記外乱有無通知Ｃｌａｓｔ（＝１）を受信した他装置（前記有音／無音評価結果の送信側の音声処理装置Ｘ）は，自己のスピーカ出力が前記受信側の音声処理装置Ｘに対する外乱となっていることを知ることができるので，前記連携動作制御手段３２及び前記音量制御手段１２によって前記スピーカ１３の出力レベルを下げる制御を行う（前記所定の制御の一例）。その結果，当該受信側の音声処理装置Ｘにおけるマイク入力において，前記他装置から受ける外乱が無くなる或いは小さくなり，良好な音声入力を行うことができることになる。ここで，前記他装置（他の音声処理装置Ｘ）は，前記通信インターフェイス３１を介して前記連携動作制御手段３２により，前記外乱有無通知Ｃｌａｓｔを受信することは言うまでもない（前記通知受信手段の一例）。
また，外乱の発生元の装置を特定し，その装置にのみ通知を送るので，ブロードキャスト送信を行う場合に比べて無駄な通信が減り，通信負荷を小さくすることができる。
【００２２】
ここで，図５（ａ），（ｂ）は，２つの前記外乱音源信号それぞれの信号レベルの推移及び該外乱音源信号の有音／無音評価結果を模式的に表したトレンドグラフであり，図５（ｃ）は，他装置から受信した他装置のスピーカ出力についての前記有音／無音評価結果の推移を模式的に表したトレンドグラフである。
図５に示す例では，他装置のスピーカ出力における前記有音／無音評価結果（図５（ｃ））と，図５（ｂ）に示す前記外乱音源信号における前記有音／無音評価結果とでは，所定の遅延時間分だけずらして見れば，値の変化傾向が略一致しており，図５（ｂ）に示す外乱の発生元は，図５（ｃ）に示す前記有音／無音評価結果を送信した装置のスピーカであることがわかる。
一方，他装置のスピーカ出力における前記有音／無音評価結果（図５（ｃ））と，図５（ａ）に示す前記外乱音源信号における前記有音／無音評価結果とでは，値の変化傾向が全く異なっており，図５（ａ）に示す外乱の発生元は，図５（ｃ）に示す前記有音／無音評価結果を送信した装置以外であることがわかる。
このような場合，図５（ａ），（ｂ）の前記外乱音源信号それぞれについて前記相関情報Ｑｍ（ｉ，ｊ）を求めれば，図５（ｂ）については前記相関情報Ｑｍ（ｉ，ｊ）の値が大きくなり，図５（ａ）については前記相関情報Ｑｍ（ｉ，ｊ）の値が小さくなるので，前記外乱音源信号の発生元がいずれの近隣装置からのものであるかを特定することが可能となる。
【００２３】
一方，Ｓ２０９において，Ｓ２０７で求めた前記相関情報Ｑｍ（ｉ，ｊ）（ｊ＝Ｊｍｉｎ〜Ｊｍａｘ）の最大値が，所定のしきい値Ｔ_Ｑ以下，即ち，相関が低い場合（Ｓ２０９のＮＯ側）には，最終の（前回送信した）前記外乱有無通知Ｃｌａｓｔの内容（値）が「０」であったか否かを判別（Ｓ２１０）し，「０」であった場合（前記外乱有無通知Ｃｌａｓｔの内容が「０」のまま変化していない）には，他装置との無用な通信負荷を抑えるため，そのままＳ２０２へ戻って前述した処理が繰り返される。
一方，最終の（前回送信した）前記外乱有無通知Ｃｌａｓｔの内容（値）が「１」であった（「０」でなかった）場合には，状況が変化している（外乱が無くなった）ということであるので，前記外乱有無通知Ｃｌａｓｔを「０」にセットし（Ｓ２１１），該通知Ｃｌａｓｔを前記有音／無音評価結果の送信元の他装置に対してメッセージ送信するとともに前記メッセージ送信時刻Ｔ_Ｙを現時刻ｉに更新（Ｓ２１３）した後，Ｓ２０２へ戻って前述した処理が繰り返される。
これにより，当該受信側の音声処理装置Ｘが，他装置から外乱を受けている場合及び受けていた外乱が無くなった場合に，前記外乱有無通知Ｃｌａｓｔがその外乱の発信元に送信されることになる。
一方，前記外乱有無通知Ｃｌａｓｔ（＝０）を受信した他装置（前記有音／無音評価結果の送信側の音声処理装置Ｘ）は，自己のスピーカ出力が前記受信側の音声処理装置Ｘに対する外乱で無くなったことを知ることができるので，前記連携動作制御手段３２及び前記音量制御手段１２によって前記スピーカ１３の出力レベルを所定時間後に元のレベルまで上げる，或いは少しずつ元のレベルまで上げる等の制御を行う（前記所定の制御の一例）。その結果，当該受信側の音声処理装置Ｘにおけるマイク入力において，前記他装置から受ける外乱が無くなった或いは小さくなったときには，所定時間のうちに前記他装置における前記スピーカ１３の出力レベルが元のレベルに戻される。
【００２４】
【実施例】
前述した実施の形態では，他装置におけるスピーカ出力（前記受話信号）についての前記有音／無音評価結果を受信した側の音声処理装置Ｘ（前記受信側の音声処理装置Ｘ）において，前記相関情報を求め，該相関情報に基づく前記外乱有無通知を送信する形態について示した。しかし，これに限るものでなく，各音声処理装置から近隣の他装置に対して，図３に示した手順と同様の手順により，前記外乱音源信号（前記マイク２１により入力された音声信号から分離された前記分離信号のうちの１又は複数）についての前記有音／無音評価結果をメッセージ送信（ブロードキャスト送信等）し，該有音／無音評価結果を受信した側の音声処理装置（受信側の音声処理装置）において，他装置における前記外乱音源信号それぞれと自装置でスピーカ出力している前記受話信号及びマイク入力している前記有効音源信号との前記相関情報を求め，該相関情報に基づいて，必要に応じて自装置のスピーカ出力レベルを下げる等の制御を行うよう構成した音声処理装置（以下，音声処理装置Ｘ１という）も考えられる。以下，前記音声処理装置Ｘの応用例である音声処理装置Ｘ１について説明する。
音声処理装置Ｘ１の構成は，前記音声処理装置Ｘと同じであり，前記外乱音源信号についての前記有音／無音評価結果をメッセージ送信する手順も，図３に示した手順と同様である。この場合における，図３のＳ１０３及びＳ１０５の処理に相当する処理が，それぞれ前記入力音声情報検出手段及び前記音声情報送信手段が行う処理の一例である。
以下，図６を用いて，前記外乱音源信号についての前記有音／無音評価結果を受信した側の音声処理装置Ｘ１（以下，受信側の音声処理装置Ｘ１という）の処理について説明する。
図６に示す前記受信側の音声処理装置Ｘ１の処理は，他装置における前記外乱音源信号（前記分離信号のうち前記有効音源信号を除いた残り）それぞれと当該装置でスピーカ出力及びマイク入力された音声信号（当該装置における前記受話信号及び前記有効音源信号）との相関情報を求め，該相関情報に基づいて，必要に応じて所定の制御を行う処理である。ここでは，当該受信側の音声処理装置Ｘ１でのスピーカ出力によって他装置（前記有音／無音評価結果を送信した側の音声処理装置Ｘ１）のマイク入力が外乱を受けていると判断した場合に，その外乱の発生元である自装置のスピーカ出力レベルを自主的に低下させる補正制御を行う。
また，以下の説明では，便宜上，他装置における前記外乱音源信号それぞれと自装置でスピーカ出力された音声信号（前記受話信号）との前記相関情報に関する処理についてのみ示しているが，自装置でマイク入力された音声信号（自装置における前記有効音源信号）との前記相関情報についても同様の手順により並行して（或いは順次）処理されるものとする。
【００２５】
まず，各種パラメータの初期設定（時刻カウンタｉ＝０，メッセージ送信時刻Ｔ_Ｃ＝最小値，スピーカ出力減衰ゲイン（レベル補正値）Ｇ＝０等）を行い（Ｓ３０１），前記時刻カウンタｉをカウントアップ（＋１）した（Ｓ３０２）後，現時点（最新時刻ｉ）での当該受信側の音声処理装置Ｘ１における前記受話信号（スピーカ出力）についての前記有音／無音評価結果Ｕ（ｉ）（１（有音）又は０（無音））を求める（Ｓ３０３）。
次に，他装置（１台又は複数台）から前記有音／無音評価結果のメッセージを受信している場合（メッセージ受信ありの場合）は（Ｓ３０４のＹＥＳ側），受信した前記有音／無音評価結果（１（有音）又は０（無音））を変数Ｃｙ（ｉ）に代入し（Ｓ３０６），そうでない場合は（Ｓ３０４のＮＯ側），他装置の前記有音／無音評価結果に変化がないものとして，前回の変数値Ｃｙ（ｉ−１）を変数Ｃｙ（ｉ）に代入する（Ｓ３０５）。複数の前記有音／無音評価結果のメッセージを受信している場合には，そのメッセージごとにＳ３０５以降の処理を行う。
次に，このようにして変数Ｃｙ（ｉ）（他装置の前記外乱音源信号についての前記有音／無音評価結果）の値が確定すると，次の（５）式を用いて，当該受信側の音声処理装置Ｘ１におけるスピーカ出力信号（前記受話信号）と他装置の前記外乱音源信号との相関情報Ｐ（ｉ，ｊ）（前記第２の相関情報の一例）を求める（Ｓ３０７，本処理が前記第２の相関情報検出手段が行う処理の一例）。
Ｐ（ｉ，ｊ）＝α_Ｐ・Ｐ（ｉ−１，ｊ）
＋（２・Ｃｙ（ｉ）−１）・（２・Ｕ（ｉ−ｊ）−１）　　…（５）
この（５）式は，前述した（４）式と同様の式であり，α_Ｐは，遠い過去のデータを忘却させて最新の状況に適応させるための係数（０＜α_Ｐ＜１），ｊは前記時刻差（ｊ＝Ｊｍｉｎ〜Ｊｍａｘ）である。
（５）式により求められる前記相関情報Ｐ（ｉ，ｊ）は，前記相関情報Ｑｍ（ｉ，ｊ）と同様に，当該受信側の音声処理装置Ｘ１におけるスピーカ出力信号と他装置でマイク入力された前記外乱音源信号との相関の高さを表すものであり，前記相関情報Ｐ（ｉ，ｊ）の値が大きいほど，当該受信側の音声処理装置Ｘ１におけるスピーカ出力音声が，他装置におけるマイク入力に外乱を与えている可能性が高いといえる。
【００２６】
次に，最後にスピーカ出力を補正した時刻Ｔ_Ｃ（スピーカ補正時刻）から一定時間Ｔ２を経過していない（Ｓ３０８のＮＯ側）場合には，Ｓ３０２へ戻って前述した処理を繰り返し，一定時間Ｔ２を経過している（Ｓ３０８のＹＥＳ側）場合にはＳ３０９へ移行する。
Ｓ３０９では，Ｓ３０７で求めた前記相関情報Ｐ（ｉ，ｊ）（ｊ＝Ｊｍｉｎ〜Ｊｍａｘ）の最大値が，所定のしきい値Ｔ_Ｐよりも大きいか否か，即ち，相関が高いか否かを判別し，相関が高い（Ｐ（ｉ，ｊ）の最大値＞Ｔ_Ｐ）場合（Ｓ３０９のＹＥＳ側）には，所定の補正下限値Ｇｍｉｎの以上（０以下）の範囲内で，スピーカ出力減衰ゲイン（補正値）Ｇを所定値Ｇ０（＞０）だけ減算し（Ｓ３１０），該スピーカ出力減衰ゲインＧ（Ｇｍｉｎ≦Ｇ≦０）が前記音量制御手段１２に出力されて該減衰ゲインＧ分だけ自発的にスピーカ出力レベルを補正する（低下させる）とともに前記スピーカ補正時刻Ｔ_Ｃを現時刻ｉに更新した後，Ｓ３０２へ戻って前述した処理が繰り返される。ここで，Ｓ３０２以降の処理は，所定の演算周期ごとに実行される。
これにより，当該受信側の音声処理装置Ｘ１のスピーカ出力によって前記他装置のマイク入力に与える外乱が無くなる或いは小さくなり，前記他装置における良好な音声入力を行うことができることになる。
一方，Ｓ３０９において，Ｓ３０７で求めた前記相関情報Ｐ（ｉ，ｊ）（ｊ＝Ｊｍｉｎ〜Ｊｍａｘ）の最大値が，所定のしきい値Ｔ_Ｐ以下，即ち，相関が低い場合（Ｓ３０９のＮＯ側）には，０以下の範囲内で，スピーカ出力減衰ゲイン（補正値）Ｇをわずかな値Ｇ１（＞０）だけ加算し（Ｓ３１１），該スピーカ出力減衰ゲインＧ（Ｇｍｉｎ≦Ｇ≦０）が前記音量制御手段１２に出力されて該減衰ゲインＧ分だけスピーカ出力レベルを補正する（徐々に元のレベルに戻す）とともに前記スピーカ補正時刻Ｔ_Ｃを現時刻ｉに更新した後，Ｓ３０２へ戻って前述した処理が繰り返される。
これにより，当該受信側の音声処理装置Ｘ１が，他装置に外乱を与えていると判断されている間，所定周期Ｔ２でスピーカ出力レベルが低下するよう補正され，外乱を与えなくなったと判断された場合には，徐々にスピーカ出力レベルが元のレベルに戻されることになる。
また，１台の他装置から前記送話信号（スピーカ出力）についての前記有音／無音評価結果と前記有効音源信号についての前記有音／無音評価結果との両方を受信した場合には，その送信元は双方向通話を行っている装置であると判断し，そのような場合にのみ，外乱とならないように自発的にスピーカ出力レベルを補正するようにしてもよい。
【００２７】
また，前記音声処理装置Ｘと前記音声処理装置Ｘ１の両機能を併せて実行するものも考えられる。この場合，各音声処理装置は，前記受話信号（スピーカ出力）及び前記分離信号（前記有効音源信号及び前記外乱音源信号）それぞれについての前記有音／無音評価結果をそれらを識別する情報とともに他装置へ送信すればよい。
これにより，例えば，他装置から前記外乱有無通知Ｃｌａｓｔの値が「１」である通知を受けた場合であっても，自装置における前記相関情報Ｐ（ｉ，ｊ）による評価によれば，自装置のスピーカ出力は，前記外乱有無通知Ｃｌａｓｔ送信元に外乱を与えていないと判別すれば，前記外乱有無通知Ｃｌａｓｔを無視する等の制御を行うことができ，より確実な対処が可能となる。
【００２８】
また，前記音声処理装置Ｘ，Ｘ１では，他装置へ送信する前記出力音声情報及び前記入力音声情報として，その音声が有音若しくは無音であることに関する情報（前記有音／無音評価結果）を用いたが，これに限るものでなく，例えばその音声のレベルや周波数，声紋に関する情報等，その音声の特徴をあらわす各種情報が考えられる。
【００２９】
また，前記音声処理装置Ｘ，Ｘ１は，ハンズフリー機能を有する電話機の例であったが，これに限るものでなく，例えば，ステレオ装置，テレビ等のオーディオ装置や，音声入力機能を有するパーソナルコンピュータ，カーナビゲーション装置における音声認識装置等，様々な音声処理装置に適用可能であり，また，これら様々な種類の装置が混在する場合も考えられる。
例えば，ハンズフリー電話機が，自装置における前記外乱音源信号についての前記有音／無音評価結果を近隣のステレオ装置やテレビ等に送信し，前記有音／無音評価結果の受信機能を有する近隣のステレオ装置やテレビが，自装置のスピーカ出力が前記電話機に対して外乱を与えているか否かを判別し，外乱を与えていると判別した場合には，自発的にスピーカ出力のレベルを低下させる制御を行う等の適用例が考えられる。この場合，前記有音／無音評価結果を受信する側のステレオ装置やテレビが，自装置の発する音声に関する前記有音／無音評価結果を他装置に送信する機能を有することは必須ではない。
また，それとは逆に，ステレオ装置やテレビ等が，自装置におけるスピーカ出力信号についての前記有音／無音評価結果を近隣のハンズフリー電話機や音声認識装置に送信し，前記有音／無音評価結果を受信した近隣のハンズフリー電話機や音声認識装置が，他装置（ステレオ装置やテレビ等）のスピーカ出力から外乱を受けているか否かを判別し，外乱を受けていると判別した場合には，その外乱の発生元であるステレオ装置やテレビ等に対してスピーカ出力のレベルを低下させる通知を行う等の適用例も考えられる。この場合，前記有音／無音評価結果を受信する側のハンズフリー電話機や音声認識装置が，自装置の発する音声に関する前記有音／無音評価結果を他装置に送信する機能を有することは必須ではない。
また，他装置へ送信する前記有音／無音評価結果や前記通知とともに，各装置の種類や優先度を表す情報も送信し，該情報に基づいて，例えば，自装置よりも優先度の低い装置からの前記有音／無音評価結果に対しては自発的な制御を行わないようにしたり，自装置よりも優先度の低い装置に対してのみ必要な制御を行わせるための前記通知を送信したりするよう構成すること等も考えられる。
これにより，優先度の低い装置（或いは，予め定められた種類の装置）が優先度の高い装置に対して外乱を与えている場合のみスピーカ出力レベルの調節等の対処が行われ，各装置の使用実態に沿ったより適切な対処が行える。
また，装置相互間でマイク入力中の音声が外乱として影響している場合の対処（制御）としては，所定の表示装置を設け，マイク入力中の声を小さくするようユーザに対してメッセージ表示する等の制御も考えられる。
【００３０】
また，前記音声処理装置Ｘ，Ｘ１では，前記分離信号から処理対象（通話相手への送信対象）とする前記有効音源信号を選択する手段は，自装置の前記受話信号と前記分離信号それぞれとの相互関係（有音／無音となるタイミングの相互関係）を用いるものであったが，例えば，他装置から送信されてくるスピーカ出力（他装置の前記受話信号）と前記分離信号それぞれとの相関情報に基づいて前記有効音源信号を選択するものも考えられる。例えば，前記分離信号（複数の音声入力信号）のうち，他装置から送信されてくるスピーカ出力（他装置の前記受話信号）との相関が最も低いものを前記有効音源信号として選択するもの等が考えられる。
【００３１】
【発明の効果】
以上説明したように，本発明によれば，近隣で使用されている音声処理装置相互間で，各装置におけるスピーカ出力中の音声やマイク入力中の音声に関する情報（その音声の特徴をあらわす情報）が相互に送受信されるので，マイク入力中の装置は，受信した情報に基づいて，その情報の送信元の音声がマイク入力中の音声に混在（混入）しているかどうか等を検出するこが可能となり，また，スピーカ出力中の装置は，受信した情報に基づいて，その情報の送信元のマイク入力に自装置のスピーカ出力が外乱を与えているかどうか等を検出することが可能となる。これにより，外乱の発生元の装置に対して外乱となる音声を抑制させる通知を行ったり，情報を受信した装置が自発的にスピーカ出力レベルを下げるよう制御する等の適切な対処を行うことが可能となる。その結果，複数の音声処理装置が近隣で使用されている場合であっても，音声の相互干渉を除去する適切な制御を行うことができるので，マイク入力中の各装置において良好な音声入力を行うことが可能となる。
【図面の簡単な説明】
【図１】本発明の実施の形態に係る音声処理装置Ｘの概略構成を表すブロック図。
【図２】本発明の実施の形態に係る音声処理装置Ｘが出力及び入力する音声信号レベルの推移の一例を模式的に表すトレンドグラフ。
【図３】本発明の実施の形態に係る音声処理装置Ｘにおけるスピーカ出力音声に関するメッセージを他装置へ送信する処理の手順を表すフローチャート。
【図４】本発明の実施の形態に係る音声処理装置Ｘにおけるマイク入力音声に関するメッセージを他装置へ送信する処理の手順を表すフローチャート。
【図５】本発明の実施の形態に係る音声処理装置におけるマイク入力音声に他装置のスピーカ出力音声が外乱として入力されたときの入力音声レベルの推移の一例を模式的に表すトレンドグラフ。
【図６】本発明の実施例に係る音声処理装置におけるスピーカ出力レベルの制御手順を表すフローチャート。
【図７】独立成分分析に基づく音源分離において周波数領域で音源分離を行う場合の実施例を示すブロック図。
【符号の説明】
１１…受話信号受信部
１２…音量制御手段
１３…スピーカ
２１…マイク
２２…エコーキャンセラ
２３…ノイズサプレッサ
２４…音源分離手段
２５…音源選択手段
２６…送話信号送信部
３１…通信インターフェイス
３２…連携動作制御手段
Ｓ１０１，Ｓ１０２，，…処理手順（ステップ）

Claims

音声を出力するスピーカ及び／又は音声を入力するマイクを具備する音声処理装置において，
前記スピーカにより出力中の音声に関する出力音声情報を検出する出力音声情報検出手段及び／又は前記マイクにより入力中の音声に関する入力音声情報を検出する入力音声情報検出手段と，
前記出力音声情報及び／又は前記入力音声情報をマイクにより音声入力中及び／又はスピーカにより音声出力中の他の装置へ送信する音声情報送信手段と，
を具備してなることを特徴とする音声処理装置。
前記出力音声情報及び／又は前記入力音声情報が，音声が有音若しくは無音であることに関する情報である請求項１に記載の音声処理装置。
前記マイクによる入力音声に含まれるそれぞれ異なる音源からの複数の入力音声を分離する音源分離手段を具備し，
前記入力音声情報検出手段が，前記音源分離手段により分離後の複数の入力音声のうちの１又は複数の入力音声に関する情報を検出するものである請求項１又は２のいずれかに記載の音声処理装置。
前記マイクを複数具備し，
前記音源分離手段が，複数の前記マイクから入力された音声信号が混合された混合音声信号から独立成分分析に基づいて前記音源ごとの複数の音声入力信号を分離するものである請求項３に記載の音声処理装置。
前記音源分離手段により分離後の複数の入力音声から，当該音声処理装置の処理対象とする有効音源信号を選択する音源選択手段を具備し，
前記有効音源信号及び／又は前記音源選択手段により選択されなかった残りの音声信号に関する前記入力音声情報を前記音声情報送信手段により送信するものである請求項３又は４のいずれかに記載の音声処理装置。
前記他の装置が，前記音声情報送信手段により前記他の装置へ送信した前記出力音声情報及び／又は前記入力音声情報を用いることにより，前記他の装置がマイク入力した音声信号と当該音声処理装置がスピーカ出力及び／又はマイク入力した音声信号との相関情報を求め，該相関情報に基づいて所定の通知を送信するものであり，
前記他の装置からの前記所定の通知を受信する通知受信手段と，
前記所定の通知に基づいて前記スピーカによる音声出力及び／又は前記マイクによる音声入力に関する所定の制御を行う制御手段と，
を具備してなる請求項１〜５のいずれかに記載の音声処理装置。
前記制御手段が行う所定の制御が，前記他の装置がマイク入力した音声信号と当該音声処理装置がスピーカ出力した音声信号との相関が高い場合に，前記スピーカによる出力レベルを低下させるものである請求項６に記載の音声処理装置。
音声を入力するマイク及び／又は音声を出力するスピーカを具備する音声処理装置において，
他の装置がマイク入力中の音声に関する入力音声情報及び／又は前記他の装置がスピーカ出力中の音声に関する出力音声情報を前記他の装置から受信する音声情報受信手段を具備してなることを特徴とする音声処理装置。
前記マイクによる入力音声に含まれるそれぞれ異なる音源からの複数の入力音声信号を分離する音源分離手段を具備してなる請求項８に記載の音声処理装置。
前記マイクを複数具備し，
前記音源分離手段が，複数の前記マイクから入力された音声信号が混合された混合音声信号から独立成分分析に基づいて前記音源ごとの複数の音声入力信号を分離するものである請求項９に記載の音声処理装置。
前記音源分離手段により分離後の複数の入力音声から，当該音声処理装置の処理対象とする有効音源信号を選択する音源選択手段を具備し，前記有効音源信号及び／又は前記音源選択手段により選択されなかった残りの音声信号に関する前記入力音声情報を前記音声情報送信手段により送信するものである請求項９又は１０のいずれかに記載の音声処理装置。
前記音声情報受信手段により前記他の装置から受信した前記出力音声情報及び／又は前記入力音声情報を用いて，前記音源分離手段により分離された前記複数の音声入力信号それぞれと前記他の装置でスピーカ出力及び／又はマイク入力された音声信号との第１の相関情報を求める第１の相関情報検出手段を具備してなる請求項９〜１１のいずれかに記載の音声処理装置。
前記第１の相関情報に基づいて所定の通知を前記他の装置に送信する通知送信手段を具備してなる請求項９〜１２のいずれかに記載の音声処理装置。
前記所定の通知が，前記音源分離手段により分離された前記複数の音声入力信号のいずれかと前記他の装置でスピーカ出力及び／又はマイク入力された音声信号との相関が高い場合に，前記他の装置に対してスピーカ出力及び／又はマイク入力の音声レベルを低下させる旨の通知である請求項１３に記載の音声処理装置。
前記音声情報受信手段により前記他の装置から受信した前記入力音声情報を用いて，前記スピーカによる出力音声信号と前記他の装置でマイク入力された音声信号との第２の相関情報を求める第２の相関情報検出手段を具備してなる請求項９〜１４のいずれかに記載の音声処理装置。
前記第２の相関情報に基づいて前記スピーカによる音声出力及び／又は前記マイクによる音声入力に関する所定の制御を行う制御手段を具備してなる請求項９〜１５のいずれかに記載の音声処理装置。