JP2004133403A

JP2004133403A - 音声信号処理装置

Info

Publication number: JP2004133403A
Application number: JP2003275258A
Authority: JP
Inventors: Tetsuya Takahashi; 高橋　哲也; Toshiro Yamashita; 山下　俊郎; Shigeki Murakami; 村上　茂樹; Takayuki Hiekata; 稗方　孝之; Yohei Ikeda; 池田　陽平
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2002-09-20
Filing date: 2003-07-16
Publication date: 2004-04-30

Abstract

　【課題】　複数音源の環境下，例えば複数の音声やノイズ等が混在したり，音楽や歌が流れているといった会話情況の中から，会話が成立している音声を抽出することで，例えば会話が成立している音声の出力音量を上げたり，他の音声の音量を下げたり，それらの記録を制御したりと言った適切な対処を行うことができる音声処理装置を提供する。
　【解決手段】　複数音源からの音声信号を音源毎に分離し，例えば受話信号との会話成立度合いを演算し，その演算結果に基づいて会話が成立している有効音声を抽出する。ここで，会話成立度合いは，例えば２つの音声信号の時系列データの相関関係に基づいて演算される。
【選択図】図１

Description

　本発明は，複数音源の環境下で会話の成立している音声の組を抽出することのできる音声信号処理装置に関するものである。

　近年，インターネットの普及が著しいが，今後，ＩＰ電話などの音声通信アプリケーションの普及が予想される。このような音声通信アプリケーションとしては，例えば，単に音声電話の機能をネットワークで置き換えたものの他，より音質高い電話サービスが可能になったり，音声だけでなく画像も同時に伝送するテレビ電話や同時に多地点通話を行うテレビ会議を含む電話による他局通話システムといった様々な新しいサービスが出現したりしている。また，音声は障害者や老人・子供までが容易にサービスに参加できるようにするデジタルディバイド是正の手段としても有効なメディアとなる可能性を秘めている。誰にでも簡単に使える音声インターフェースの実現は，一般の健常者へのユーザビリティ向上も含めて遍く多くの人達への情報サービスを普及させ，新たな成長市場を作っていくうえで極めて有効であるといえる。

　このように将来の情報サービス普及において音声インターフェースの重要性は明らかである反面，音声では画像など他のメディアでは起こらない困難な技術課題が発生する。それは，音という信号は空間的に拡散することに起因し，近隣で異なる機器やサービスを用いるユーザの発生する音声やスピーカからの出力は，他のユーザや機器にとっては使用環境や性能を劣化させる外乱信号となる。これは，音声サービスの普及が進むにつれて増加したユーザ同士が互いに干渉源となり，さらなる普及を阻害するというジレンマとなる。身近な事例を示せば，例えば，ハンズフリーでＴＶ電話をしている近くで他の家族がテレビやオーディオを再生したり，それらの機器操作のために音声認識／合成を使用したりするような状況等が挙げられる。

　このような複数の音声やノイズが混在する情況は，図１に示すように上記のようなハンズフリー電話をかけている傍らで他の人の話し声やテレビの音，街の雑音が混じるような場合の他，複数の電話を通信手段で結合して行うテレビ会議を含む他局通話状況，更には，複数の話者が適宜発言する会議の状況などにおいても発生する。そしてこのような状況の中では，実際に会話している人の音声が，街のノイズなどばかりでなく上記傍らの他の人の声，会議中の私語などに埋もれてしまい勝ちになり，会話の能率が著しく落ちる結果となる。従って上記のような複数の音声やノイズが混在する会話情況の中から，会話が成立している音声を抽出することは極めて重要である。
　従来，音声インターフェースを具備する音声処理装置の一例であるハンズフリー機能を有した従来の電話機には，例えば，特許文献１に示されるように，自らのスピーカが発した(出力した)音声がマイクに回り込む干渉を防ぐためのエコーキャンセラや，定常的な背景騒音等を除去するノイズサプレッサ等が搭載されている。

　一方，非特許文献１には，それぞれ異なる音源からの複数の音声が混在した混合音声が複数のマイクによって入力された場合に，その混合音声信号から音源ごとの音声信号を分離する技術が示されている。本技術は，複数のマイクから入力された音声信号が混合された混合音声信号から独立成分分析に基づいて，最大，マイクの数だけの音源それぞれごとの音声信号を分離するものである。
　また，特許文献２には，マイク入力された信号からスペクトクル特徴量を抽出して，予め求められた音声の特徴量との類似性の有無よりその信号が音声か否かを判定する手法，並びにマイク入力された信号の隣接した信号同士の差異を検出し，話者の位置を推定する技術が示されている。

特開平１０−１９０５３３号公報特開平７−９２９８８号公報猿渡洋「音声・音響信号を対象としたブラインド音源分離」電子情報通信学会ＤＳＰ研究会，DSP2001-194, pp.59-66, (2002)

　しかしながら，特許文献１に示されるエコーキャンセラは，自装置がスピーカ出力する音声のエコーを除去するのみであり，複数の音声やノイズが混在する会話情況の中から，会話が成立している音声を抽出すると言う機能は持っておらず，会話の効率を上げる手段としては，完全なものではない。
　また，特許文献２に示される技術は，ＴＶ会議等を想定したものであり，各話者に対応して設けられるマイクロホンから入力される音声を検出することはできるが，マイクロホンからの入力信号に外乱となる音声信号が含まれている場合は，そのような外乱の中から本来の話者の音声，すなわち会話の成立している音声のみを抽出するなどの処理を行うことはできないといった問題がある。

　従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，複数音源の環境下，例えば複数の音声やノイズ等が混在したり，音楽や歌が流れているといった会話情況の中から，会話が成立している音声を抽出することで，例えば会話が成立している音声の出力音量を上げたり，他の音声の音量を下げたり，それらの記録を制御したりと言った適切な対処を行うことができる音声処理装置を提供することにある。

　上記目的を達成するために本発明は，複数音源からの複数の音声信号が混在して入力される環境下で会話が成立している有効音声を抽出する音声信号処理装置において，上記複数の音声信号の組み合わせについて，会話の成立している度合いを演算する会話成立度合い演算手段と，上記会話成立度合い演算手段による演算結果に基づいて会話の成立している有効音声を抽出する有効音声抽出手段とを備えてなることを特徴とする音声信号処理装置として構成される。
　この構成によって，近くで他の人が会話をしていたり，音楽や歌が流れていたりするような複数音源の環境下で，例えば通常の電話装置により通話を行っている話者，いわゆるハンズフリーの通話装置により通話を行っている話者，多局同時通話装置により通話を行っている話者等の音声信号を有効音声として抽出して，そのような有効音声信号の出力レベルを高くしたり，有効音声以外の音声信号の出力レベルを低くしたり，有効音声以外の音声信号の記録を抑制したりするといった適切な処置を行うことができる。

　この場合，前記会話成立度合い演算手段が，上記複数の音声信号の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものである構成とすることも考えられる。

　また，前記会話成立度合い演算手段が，上記複数の音声信号における有音／無音を評価する有音／無音評価手段を含み，上記有音／無音評価手段により評価された音声信号の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものである構成とすることが考えられる。

　更にこの場合には，前記会話成立度合い演算手段が，上記複数音源の音声信号の組合せについて，上記有音／無音評価手段により音声が共に有音であると評価された頻度，一方の音声が無音であり且つ他方の音声が有音であると評価された頻度及び音声が共に無音であると評価された頻度の内の少なくとも１つの頻度を上記時系列データ間の相関関係を表す指標として用いて上記会話の成立度合いを判断するものである構成とすることが考えられる。
　すなわち，会話は音声のキャッチボールにより成立するものであるため，一方の音声が有音であり且つ他方の音声が無音である状態が短時間の双方無音の状態を間に挟んで繰り返し現れるのが通常である。逆に，共に有音である状態になる頻度は低く，共に無音である状態も長時間は継続しない。したがって，上記会話の成立度合いは，上記有音／無音評価手段により音声が共に有音であると評価された頻度，一方の音声が無音であり且つ他方の音声が有音であると評価された頻度及び音声が共に無音であると評価された頻度の内の少なくとも１つの頻度を参照して判断することができる。

　より具体的には，上記会話成立度合い演算手段が，上記複数の音声信号の組合せについて，上記有音／無音評価手段により音声が共に有音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである構成が考えられる。

　また，上記会話成立度合い演算手段が，上記複数の音声信号の組合せについて，上記有音／無音評価手段により一方の音声が無音であり且つ他方の音声が有音であると評価された頻度が高いときに上記会話の成立度合いが高いと判断するものである構成とすることが考えられる。
　なお，上記有音／無音評価手段により一方の音声が無音であり且つ他方の音声が有音であると評価された度合いは，電話通話の場面においては，受話音声が無音であり且つ送話音声が有音であると評価された度合いと送話音声が無音であり且つ受話音声が有音であると評価された度合いとの２つの度合いに分けて考えることもできる。すなわち，この２つの度合いの一方のみを参照して会話の成立度合いを判断することもできるし，両方の度合いを参照して会話の成立度合いを判断することもできる。

　また，上記会話成立度合い演算手段が，上記複数の音声信号の組合せについて，上記有音／無音評価手段により音声が共に無音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである構成とすることが考えられる。

　また，本発明は，複数の話者の音声中に会話が成立している音声と成立していない音声あるいはノイズが混在する会話状況の中から，会話の成立している有効音声を抽出する音声信号処理装置において，
　上記複数の話者が発する音声の組合せについて，会話の成立している度合いを演算する会話成立度合い演算手段と，
　上記会話成立度合い演算手段による演算結果に基づいて会話の成立している有効音声を抽出する有効音声抽出手段とを備えてなることを特徴とする音声信号処理装置として構成される。

　上記会話状況としては種々のものが考えられるが，例えば１対１の会話の少なくともいずれか一方に該会話と無関係な音声あるいはノイズが混在するような情況が考えられる。例えば，複数の人が話している傍らで電話をしている場合，あるいは電話をしている傍でテレビ放送をしているようなケースが考えられる。少なくとも，というのは電話などでの会話の場合，両方とも同様な装置を使って同じような環境となることもあるからである。

　この場合，上記一方側に複数のマイクが設けられ，上記会話成立度合い演算手段が，これらのマイクからの音声の組合せについての会話の成立度合いを演算するものが考えられる。上記複数の人が話している傍らで電話をしているようなケースを考えている。
　また，上記会話状況として多局同時通話状況が考えられる。
　更に，上記会話状況としては複数のマイクを使った会議状況が考えられる。
　音声が混在する場合には，上記混在する会話の中から各音声を分離する音声分離手段が必要である。この場合，上記会話成立度合い演算手段は，上記音声分離手段により分離された音声の組合せについての会話の成立している度合いを演算するものである。

　上記音声分離手段による分離の方法としては，複数のマイクから入力された音声及び／又はノイズの中から独立した音声を抽出するものが考えられる。
　上記複数の話者の音声のうちの１あるいは複数が複数のマイクからの音声であり，その他の話者の音声が該話者からのスピーカを通じた音声であるようなケースが考えられる。上記会議の状況や，他局同時通話情況などがこれに該当しうる。
　スピーカとその近傍に設けられたマイクを使用する場合には，上記スピーカから上記マイクへの回り込み信号を除去するエコーキャンセラを更に備えることが望ましい。
　音源の検出精度を上げるためには，ノイズが少ないことが前提である，そのため，前記混在する会話中の音声，音声分離手段により分離された音声，あるいは上記エコーキャンセラから出力される音声から定常的な背景雑音を除去するノイズサプレッサを更に具備する事が望ましい。

　上記音声分離手段の手法として，独立成分分析により，独立の音声を分離するものが考えられる。
　前記会話成立度合い演算手段の演算手法の望ましい一例として，混在する会話に含まれる音声信号の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものが考えられる。
　更に，前記会話成立度合い演算手段の演算手法として，混在する会話に含まれる音声信号における有音／無音を評価する有音／無音評価手段を含み，上記有音／無音評価手段により評価された音声の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものを採用する事ができる。

　ここで，前記会話成立度合い演算手段が，上記複数の話者が発する音声の組合せについて，上記有音／無音評価手段により音声が共に有音であると評価された頻度，一方の音声が無音であり且つ他方の音声が有音であると評価された頻度及び上記音声が共に無音であると評価された度合いの内の少なくとも１つの頻度を上記音声の時系列データ間の相関関係を表す指標として用いて上記会話の成立度合いを判断するものである構成とすることが考えられる。
　より具体的には，上記会話成立度合い演算手段が，上記複数の話者が発する音声の組合せについて，上記有音／無音評価手段により音声が共に有音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである構成とすること，上記会話成立度合い演算手段が，上記複数の話者が発する音声の組合せについて，上記有音／無音評価手段により一方の音声が無音であり且つ他方の音声が有音であると評価された頻度が高いときに上記会話の成立度合いが高いと判断するものである構成とすること，並びに上記会話成立度合い演算手段が，上記複数の話者が発する音声の組合せについて，上記有音／無音評価手段により音声が共に無音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである構成とすることが考えられる。

　前記有効音声抽出手段は，１つの有効音声のみでなく，複数の有効音声を抽出することも考えられる。多数の話者が互いに会話する可能性のある他局同時通話状態や，会議の場ではこのような抽出が有用である。
　前記有効音声抽出手段により抽出された音声を何らかの方法で出力することが望ましい。スピーカへの出力，記録装置への出力，その他が考えられる。
　上記出力手段が，抽出された複数の有効音声の統合音声を出力するものであってもよい。

　本発明においては，前記複数の話者の音声中に会話が成立している音声と成立していない音声あるいはノイズが混在する会話の音声，前記エコーキャンセラにより回りこみ信号の除去された音声，前記ノイズサプレッサによりノイズが除去された音声，あるいは前記有効音声抽出手段により抽出された音声のいずれか１つを選択的に出力手段に出力する出力音声切替え手段を更に備えることができる。

　以上説明したように，本発明によれば，複数音源の環境下，例えば複数の話者の音声中に会話が成立している音声と成立していない音声あるいはノイズが混在したり，後ろで音楽や歌が流れたりしているといった会話状況の中から，会話の成立している有効音声を抽出する音声信号処理装置において，上記複数の話者が発する音声の組合せについて，会話の成立している度合いを演算する会話成立度合い演算手段と，上記会話成立度合い演算手段による演算結果に基づいて会話の成立している有効音声を抽出する有効音声抽出手段とを備えてなることを特徴とする音声信号処理装置が提供される。この装置では，人間同士の会話が成立している音声のみが抽出され，一見人の声であるから有効と思われたとしても実際には有効でないような他人の会話や音楽，歌が除かれるので，実質的なノイズの少ない音声を取得できる。

　以下添付図面を参照しながら，本発明の実施の形態及び実施例について説明し，本発明の理解に供する。尚，以下の実施の形態及び実施例は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
　ここに，図１は，本発明の背景となる問題点を指摘するための概念図，図２は，本発明の一実施形態に係るシステムの概要を示す概念図，図３は，周波数領域での音源分離の概念図，図４は，図２における音源選択手段の内容を示す信号系統図，図５は，受話音源信号(受話音声信号)，有効音源信号(有効音声信号)，及び外乱音源信号(外乱音声信号)の関係を示すグラフ，図６は，音声信号の時系列データ間の相関関係の一例を示す模式図，図７は，受話音声信号，有効音声信号及び外乱音声信号の時系列データの一例を示す図，図８は，音声信号毎の会話成立度合いを示したグラフ，図９は，音声信号毎の会話成立度合いを一覧可能に示すグラフ，図１０は，音源選択の手順を示すフローチャート，図１１は，外乱音声が有効音声に変化する例における音声信号の時系列データと会話成立度合いとを示す図，図１２は，音源選択の手順の他例を示すフローチャート，図１３は，会議あるいは他局間同時通話に本発明を適用した状態を示す概念図，図１４は，他の実施例を示す信号経路図である。

　本発明の実施の形態に係る音声信号処理装置１は，いわゆるハンズフリー機能を有する電話機のインターフェース装置であり，図２に概略が示される。図２の装置の場合，対象となるシステムは，複数のマイクとスピーカとを使ってハンズフリーで双方向の音声対話を行うための音声インターフェース装置である。相対する側の入出力は対話し相手との受話信号および送話信号となっており，例えば本音声インターフェースをハンズフリー電話に適用した場合には通信回線を通して遠端話者と送受信される音声信号である。また，別の例として，本インターフェンスを音声認識／合成を使ったマンマシン対話装置に適用する場合には，受話信号は装置側からユーザに出力される音声メッセージに相当し，送話側は音声認識手段に入力される音声信号となる。いずれの場合も，上記のような合成された音声を含む複数の話者の音声中に会話が成立している音声と成立していない音声あるいはノイズが混在する会話状況の中で用いられるインターフェース装置であり，この音声インターフェース装置の目的は，送話側の信号に有効な音声信号，即ち，会話が成立している音声信号のみを抽出するように，不要な外乱信号を除去することである。以下に，本実施例の構成に基づき，本装置の構成及び動作を説明する。

　図２に示すように，音声信号処理装置１は，会話の相手側(話者Ｂ)からの受話音声データを取り込み，スピーカＳから受話音を発生する。上記相手側の話者Ｂと会話を行っている話者をＡとする。また，話者Ａの近くには外乱としての２人の話者Ｘ及びＹがいる。
　話者Ａはマイクを通じて話者Ｂとの会話を行うが，このマイクは複数のマイクＭ１，Ｍ２，Ｍ３…からなっている。ここでは３個のマイクが用いられている。
　音声信号処理装置１には，周知のエコーキャンセラＥＣ，ノイズサプレッサＮＳ，音源分離手段ＳＤ及び本発明の重要な構成要素である音源選択手段ＳＳが設けられている。当然ながらこれらの手段は，それぞれ独立した構成でも，一連のプログラムの一部として構成されていてもよい。

　まず，各マイクＭ１，Ｍ２…から受信される信号には，スピーカＳからの出力音の回り込み信号も含まれるので，上記エコーキャンセラＥＣによって各マイク受信信号よりスピーカからの回り込み信号が除去される。
　エコーキャンセラの方式としては，一般的には適応フィルタと呼ばれる方式が用いられ，スピーカＳからの出力が各マイクＭに回り込むインパルス応答を実測信号から予測するように，音響環境の変化に適応してフィルタの係数を調整しながら，スピーカの出力信号にフィルタをかけた予測信号をマイクからの受信信号より減算する。その際に，適応のための係数調整はダブルトーク状態(対話の双方が同時に音声を発している状態)で行われることを避けるため，マイク・スピーカの信号より送話／受話状態を判断し，受話状態と判断される時にのみフィルタ係数更新を行うようにする仕組みや，エコーキャンセラの予測性能が良くないと判断される場合には送話／受話状態の判断に基づき，スピーカ出力やマイク受信信号を減衰させる方式などが存在する。その具体的な構成方法の例としては，特開平１０−１９０５３３号公報に記載された方式などがあるが，本発明の実施においてはこれに限定されるものではない。

　次にエコーを除去された各マイク入力から，ノイズサプレッサＮＳにより背景雑音が除去される。ノイズサプレッサの方式としては，時系列信号を周波数領域に変換し，定常的に含まれる背景雑音のスペクトル成分を推定して，その成分のスペクトルを周波数成分から減衰させた後に再び時間領域の信号に戻す，「スペクトルサブトラクション」という方法がよく知られている。本発明においてもこの方法が採用可能である。
　スペクトルサブトラクション法を応用した構成の例としては，電波産業会から発行されている携帯電話の標準規格ＡＲＩＢＳＴＤ-Ｔ５３「ＣＤＭＡ方式携帯自動車電話システム」に具体例が示されている。また，これ以外にも時間領域のままでカルマンフィルタなどにより背景雑音の成分を除去してＳＮ比を上げる方式の例が，同じく携帯電話の標準規格であるＡＲＩＢＳＴＤ−２７「デジタル方式自動車電話システム」に示されている。ただし，本発明では，これらの方式に限るものではなく，一般的に知られている任意のノイズフィルタリングの手法を用いることができる。

　このように前処理された複数マイクからの受信信号は，音源分離手段ＳＤによって複数の音源に分離される。音源分離の方法としては，独立成分分析の理論に基づくブラインド音源分離という方法が知られており，周波数領域ならびに時間領域のいずれにおいても実施する例が「"音声・音響信号を対象としたブラインド音源分離", 電子情報通信学会ＤＳＰ研究会, ＤＳＰ２００１−１９４，ｐｐ.５９−６６，「２００２」などに示されている。この方法は，基本的にマイクの数と同数の音源までを分離可能であり，音源分離手段からの出力信号の数はマイク数と等しくなる。図示の実施形態の場合，マイク数が３であるので，３個の音声まで分離可能である。

　具体的に上記文献に記載されている音源分離の計算手法の概要が図３に示される。複数のマイクＭ１，Ｍ２…からの各信号は周波数分析するための短時間分析フレームに切り出され，ＤＦＴなどで周波数領域に変換される。ＤＦＴの結果の周波数成分を，ベクトルＸ(ｆ，ｋ )で表わす。ここで，ｆはＤＦＴ後の周波数に相当し，ｋは各時刻kで切り出される分析フレーム番号であり，マイク入力毎の信号に対する成分がベクトルとなっている。このベクトルに対して分離行列Ｗ^f _k( f )をかけることで，得られるＹ( ｆ, k )が分離信号となる。Ｗ^f _k( f )は，適応アルゴリズムを用いてＹ( f, k )が独立成分となるように k 毎に分析を行いながら更新され，行列の更新計算を行う適応アルゴリズムの例としては上記文献に記載されているものも含め，種々のものが提案されているのでここで用いることができる。

　同様に，周波数領域への変換は行わずに時間領域のままで同様な学習更新を行う手法や，それらを組み合わせてさらに性能を上げる方式なども，同文献には示されている。これらも本発明に採用可能である。
　時間領域のみで行う適応アルゴリズムでは，各サンプル時刻tにおける複数マイクからの入力サンプルベクトルを x( t ) とし，それに対してｚ変換で表わされる成分をもつ分離行列Ｗ^t(z)
　を用意し，周波数領域の時と同様に y( t ) = Ｗ^t・x( t )で計算される信号y( t )が独立な成分となるように係数ベクトル w^t(n)を学習更新していくものである。ここでＤ(ｘ)は，マイクの入力信号のベクトル，ｙ(ｘ)は分離された信号のベクトルである。これも上記の文献に，w^t(n)の更新式の一例が示してある。

　以上のように分離された複数の音源信号は，音源選択手段ＳＳによって分析される。図４には，受話信号および複数の音源信号に対する有音／無音評価に基づいて音源選択を行う構成の例が示してある。
　まず，音源選択手段ＳＳに入力される話者Ｂからの受話信号および複数の音源信号(この場合上記音源分離手段で分離された信号)に対して，有音／無音評価が行われる。有音／無音評価の方法として非常に簡易なものとしては，信号のレベル変化に注目して，背景雑音として存在するボトムレベルからある程度音量レベルが大きくなる範囲を有音区間であると判断する方法がある。ここでは，有音／無音を１／０の２値で評価する例を示したが，これ以外にも有音である確からしさなどから，連続値など２値以外で評価値を表わす方法でもよい。
　このような有音／無音評価の結果に基づき，会話成立度合い演算手段２において，どの音源からの音声が音声対話において有効な信号か，即ち話者Ｂからの受話信号との会話が成立している信号かを評価する。
　特に受話信号と各音源信号の間の相関関係は，どの音源が有効な信号かを判断するのに役立つ。図５の最上段には受話信号，２段目には送話信号に対応する有効な音源からの信号，下段にはそれらの対話と関係なく周囲から入ってくる外乱音声に関する評価の様子が示してあるが，通常の音声会話では送話と受話は会話のキャッチボールが行われるため，相互に会話を行っている，即ち会話が成立している音声同士では，ダブルトーク状態(即ち，両話者が同時に発声する状態)になることは少なく，通常は相互に有音区間が出現して図の上段と２段目の信号のような関係になる。一方，会話と関係の無い(即ち会話が成立していない)周囲から混入する音声信号は，図の下段のように受話信号とも頻繁にダブルトークの状態となる。また，逆に，お互いが無音となる時間が長くなることも多い。

　そこで，受話音声と送話側の各音源からの音声との間の関係を図６に示すような４つの状態Ｄ，Ｒ，Ｔ，Ｓに分類することが考えられる。
　同図において，状態Ｄは受話音声及び着目している送話側の音声(着目音声という)が共に有音である場合，状態Ｒは受話音声が有音であり且つ着目音声信号が無音である場合，状態Ｔは受話音声が無音であり且つ着目音声が有音である場合，並びに状態Ｓは受話音声及び着目音声が共に無音である場合を示す。
　ここで，受話音声の有音／無音評価の各時刻ｉの時系列データをＹ( ｉ ) (Ｙ(ｉ)は，有音であるときに値「１」，無音であるときに値「０」)，音声信号ｍ(ｍ：ｍ＝１，２，…，Ｍ。ただし，Ｍはマイクの数である)の有音／無音評価の時系列データをＸ(ｍ) (Ｘ(ｍ)は，有音であるときに値「１」，無音であるときに値「０」)で表し，各音声信号ｍについて時刻ｉに受話信号との関係が状態Ｄ，Ｒ，Ｔ，Ｓである頻度をそれぞれ下記関数Ｄｍ(ｉ)，Ｒｍ(ｉ)，Ｔｍ(ｉ)，Ｓｍ(ｉ)により導かれる評価指標(以下，状態評価指標と称する)で表わすものとする。

　Ｄｍ(ｉ)＝α・Ｄｍ(ｉ−１)＋(１−α)Ｘｍ(ｉ)・Ｙ(ｉ)
　Ｒｍ(ｉ)＝β・Ｒｍ(ｉ−１)＋(１−β)(１−Ｘｍ(ｉ))Ｙ(ｉ)
　Ｔｍ(ｉ)＝γ・Ｔｍ(ｉ−１)＋(１−γ)Ｘｍ(ｉ)・(１−Ｙ(ｉ))
　Ｓｍ(ｉ)＝δ・Ｓｍ(ｉ−１)＋(１−δ)(１−Ｘｍ(ｉ))(１−Ｙ(ｉ))
　ここで，係数α，β，γ，δは，遠い過去のデータを忘却させて最新の状況に適応させるための係数であって，0< α，β，γ，δ < 1 の適当な値に設定される。

　有効音声の抽出は，これらの状態評価指標の内の少なくとも１つを用いた会話成立度合いを表す指標(会話成立評価指標という)を算出し，算出された会話成立評価指標を参照して各音声信号ｍの中から有効音声を抽出するといった手順で行われる。会話成立評価指標の例としては，前掲した４つの状態評価指標を用いた下記関数Ｃｍ(ｉ)により導かれるものが考えられる。
　Ｃｍ(ｉ)＝ε・Ｃｍ(ｉ−１)＋(１−ε)[Ｒｍ(ｉ)＋Ｔｍ(ｉ)＋(１−Ｄｍ(ｉ))＋(１−Ｓｍ(ｉ))]
　ここで，εは遠い過去のデータを忘却させて最新の状況に適応させるための係数であって，０＜ε＜１の適当な値に設定される。
　以下，上記会話成立評価指標Ｃｍ(ｉ)の意味を説明する。通常の音声対話では会話は送話音声と受話音声のキャッチボールとして行われる。つまり，会話が行われているときには一般に前掲した状態Ｄ，Ｒ，Ｔ，Ｓの内，状態Ｒ，Ｔが短時間の無音状態（状態Ｓ）を間に挟みながら交互に発生する。逆に，状態Ｄはあまり発生せず，また状態Ｓは長時間に亘って継続することは少ない。従って，状態Ｒ，Ｔが現れる頻度が高ければ会話成立度合いが高いものと評価されるように，逆に状態Ｄ，Ｓの現れる頻度が高ければ会話成立度合いが低いものと評価されるように，上記指標Ｃｍ(ｉ)は設定されている。

　時系列データが図７に示される音声信号(受話信号)Ｌ１及び送話側の各音声信号Ｌ２，Ｌ３，Ｌ４である場合について，上記会話成立評価指標Ｃｍ(ｉ)を算出した結果を図８に示す。ここでは，音声信号Ｌ２が有効音声信号（送話者の音声信号）であり，音声信号Ｌ３が外乱音声信号（音楽）であり，音声信号Ｌ４が他の外乱音声信号（別会話）である場合を示す。
　図８においては，単位時間（例えば１００ｍｓ）毎に各音声信号Ｌ２，Ｌ３，Ｌ４の上記状態評価指標Ｄｍ(ｉ)，Ｒｍ(ｉ)，Ｔｍ(ｉ)，Ｓｍ(ｉ)を算出し，それを用いて各音声信号Ｌ２，Ｌ３，Ｌ４の会話成立評価指標Ｃ_L2(ｉ)，Ｃ_L3(ｉ)，Ｃ_L4(ｉ)を算出した結果が示されている。なお，図中，２点鎖線は指標Ｄｍ(ｉ)を示し，破線は指標Ｒｍ(ｉ)を示し，点線は指標Ｔｍ(ｉ)を示し，１点鎖線は指標Ｓｍ(ｉ)を示す。
　また，上記係数α，β，γ，δ，εは，α＝β＝γ＝０．９９，δ＝０．９９９，ε＝０．８，に設定した。ここで，係数δを他の係数よりも大きな値に設定したのは，双方無音である場合の評価指標Ｓｍ(ｉ)の時間感度を鈍くするためである。すなわち，前掲したように，会話においては音声と音声との間に双方無音である状態が発生する場合が多い。従って，短時間の双方無音の状態により会話成立度合いの評価が大きく低下することがないように係数δの値は大きく設定されている。また，一方が無音であり且つ他の一方が有音である状態Ｒ，Ｔから別の状態（Ｓ及びＤ等）に変化した場合にはＣｍ値を一定時間維持して変化させないようにしてもよい。

　また，前掲したとおり，会話成立評価指標Ｃｍ(ｉ)は，状態評価指標Ｄｍ(ｉ)，Ｒｍ(ｉ)，Ｔｍ(ｉ)，Ｓｍ(ｉ)の総てを用いたものである必要はなく，適当な状態評価指標の組合せを選出すれば十分な精度で有効音声を抽出することが可能である。また，例えばファジー推論やルールベース推論による評価指標と組み合わせて会話成立評価指標Ｃｍ(ｉ)を算出することも考えられる。
　このような評価指標によって，各音声信号の有効性が評価され，その中から有効音声と認められる信号が有効音声抽出手段３により抽出される。有効音声を抽出する最も簡単な方法は，複数の音源信号の中から評価指標が最良の１個のみを抽出して出力する方法である。一方で，有効である可能性のある信号が１個に絞り切れない場合も有り得るので，評価指標に基づいて重みを付けて，複数の音源信号を統合した信号を出力してもよい。例えば，評価指標が高い音源信号には大きなゲインを与え，評価指標が低い信号には小さなゲインを与えて信号の重み付け加算によって出力信号を生成してもよい。さらに，送信出力が複数チャンネルを送信可能なインターフェースを有している場合には，音源を１個にせずとも音源信号を複数の信号のまま送ってもよい。

　図９に，各音源信号Ｌ２，Ｌ３，Ｌ４の会話成立評価指標Ｃ_L2(ｉ)，Ｃ_L3(ｉ)，Ｃ_L4(ｉ)を一覧可能に示す。同図から明らかなように，実際の有効音声である音声信号Ｌ２の会話成立評価指標Ｃ_L2(ｉ)が常に最高であり，したがって，上記会話成立評価指標Ｃｍ（ｉ）を用いればその値が最高の音声信号を選択することによって適切に有効音声を抽出し得ることが分かる。

　図１０に，上記会話成立評価指標Ｃｍ(ｉ)を用いて有効音声を抽出する手順のフローチャートを示す。
　ステップＳ１：所定の初期化処理を行う。ここでは，パラメータ，すなわち時刻ｉ，状態評価指標Ｄｍ(ｉ)，Ｒｍ(ｉ)，Ｔｍ(ｉ)，Ｓｍ(ｉ)，Ｃｍ(ｉ)の値を総て値「０」に設定する。
　ステップＳ２：時刻ｉを単位時間(例えば１００ｍｓ)インクリメントする。
　ステップＳ３：時刻ｉにおける受話信号Ｌ１の有音／無音評価Ｙ(ｉ)を取得する。
　ステップＳ４：時刻ｉにおける送話側の音声信号Ｌ２，Ｌ３，Ｌ４毎の有音／無音評価結果Ｘｍ(ｉ)を取得する。
　ステップＳ５：時刻ｉにおける各音声信号Ｌ２，Ｌ３，Ｌ４の状態評価指標Ｄｍ(ｉ)，Ｒｍ(ｉ)，Ｔｍ(ｉ)，Ｓｍ(ｉ)を求める。
　ステップＳ６：時刻ｉにおける各音声信号Ｌ２，Ｌ３，Ｌ４の会話成立評価指標Ｃｍ(ｉ)，すなわちＣ_L2(ｉ)，Ｃ_L3(ｉ)，Ｃ_L4(ｉ)を求める。
　ステップＳ７：時刻ｉにおいて会話成立評価指標Ｃｍ(ｉ)が最大となる音声信号を有効音声信号として抽出する。

　また，図１０のフローチャートに示すように，実施形態の音声処理装置１においては，会話成立評価指標Ｃｍ(ｉ)が単位時間（例えば，１００ｍｓ）毎に更新される。このため，送話者が途中で入れ替わったような場合でもそれに対応して適切な音声信号を有効音声として抽出することができる。

　図１１に，初めに外乱音声信号であった音源信号Ｌ５(同図(ｂ)参照)が受話音声信号Ｌ６(同図(ａ)参照)との関係で有効音声信号に変化した例を示す。
　この例では，時刻ｔ１に音声信号Ｌ５の話者が送話者と入れ替わっており，同図(ｃ)に示すように，この時点から指標Ｃｍ(ｉ)（Ｃ_L5(ｉ)）が上昇を始め，およそ０．２秒後の時刻ｔ２には有効音声信号として抽出されるのに十分なレベル(縦軸における目盛りの１．４のレベル)にまで達している。したがって，前掲した処理によれば，途中から送話者が入れ替わったような場合にも適切に有効音声を抽出し得るのが分かる。

　以下，実施形態の音声信号処理装置１により複数音源の環境下で有効音声を抽出する他の方法を説明する。
　まず，受話信号の有音／無音評価の各時刻ｉの時系列データをＹ( ｉ ) ，選択評価の対象となる音源信号の有音／無音評価の時系列データをＸ( ｉ ) とすると，以下のような信号間の相互関係を表わす評価指標が設けられる。
○ダブルトーク状態の多さを表わす評価指標　Ｄ( ｉ )
　　　D( ｉ ) = α_D・D( ｉ−1 ) + Ｙ( ｉ )・Ｘ( ｉ )
　これが大きい音源は外乱であり有効性が低いと評価される。
○受話が無音状態における音源信号からの応答の有無を表わす評価指標 R( ｉ )
　　　R( ｉ ) = α_R・R( ｉ−1 ) + ( 1 −Ｙ( ｉ ))・Ｘ( ｉ )
　これが大きい音源は，有効な信号である可能性が高いと評価される。
○受話からの信号に対する音源の応答タイミング
　　　Ｙ( ｉ )が 1 → 0 に変わった時刻と，それに最も近いＸ( ｉ )が 0 → 1 に変わった時刻の時間差の累積。
　これが小さいほうが，受話信号に対する応答である可能性が高く有効な音源である可能性も高いと評価される。
　この応答タイミングを参酌することが望ましいが，この実施形態では省略される。
　αは，遠い過去のデータを忘却させて最新の状況に適応させるための係数で 0< α_D, α_R < 1 の適当な値のパラメータである。ここに示した評価指標は，あくまでも一例であって，これ以外にも有音／無音評価の結果から得られる評価指標は数多く考えられ，これらに限るものではない。また，これらの指標を組み合わせて用いる手法でもよく，例えばファジー推論やルールベースの判定を行う方法なども，本発明の範囲に属する。

　このような評価指標によって，各音源信号の有効性が評価され，その中から有効な音源と認められる信号が有効音声抽出手段３により抽出される。有効音声を抽出する最も簡単な方法は，複数の音源信号の中から評価指標が最良の１個のみを抽出して出力する方法である。一方で，有効である可能性のある信号が１個に絞り切れない場合も有り得るので，評価指標に基づいて重みを付けて，複数の音源信号を統合した信号を出力してもよい。例えば，評価指標が高い音源信号には大きなゲインを与え，評価指標が低い信号には小さなゲインを与えて信号の重み付け加算によって出力信号を生成してもよい。さらに，送信出力が複数チャンネルを送信可能なインターフェースを有している場合には，音源を１個にせずとも音源信号を複数の信号のまま送ってもよい。

　図１２は，そのような抽出手順の一例をフローチャートで表わしたものである。この処理は，所定の初期化(Ｓ１１)を行った後，会話成立度合い演算手段において，時刻ｉ(Ｓ１２)の各信号の有音／無音評価結果を逐次受け取り(Ｓ１３，Ｓ１５)ながらループの処理を実行し，各時点で判断を行うフローとなっている。この例では，マイクはＭ個あるものとし，したがって分離された音源の数もＭ個であり，その有音／無音評価の時系列信号Ｘｍ( ｉ )もＭ個 ( ｍ = １, ２, … ,Ｍ ) ある例となっている。そのため，上述の評価指標Ｄ_m( ｉ ), Ｒ_m( ｉ )も各音源信号m毎にＭ個計算されている(Ｓ１６，Ｓ１８)。

　また，上記の評価指標以外に，近い過去に受話信号は有音であったかどうかを示す指標としてE( ｉ )というパラメータも用いている(Ｓ１４)。
　E( ｉ ) = α_E・E( ｉ-1 ) + Ｙ( ｉ )
　これは，過去の有音／無音評価値の減衰を伴った積算値であり，受話信号で無音状態がある程度長い期間続いた以降では既に対話自体が途切れている可能性が高いのに，無関係な外乱音源の有音状態が続いた場合には外乱信号に対するＲ( ｉ )の評価が無意味に高くなる可能性があるので，この場合Ｒ( ｉ )の指標自体が適当な評価ではなくなるため，不適当なＲ( ｉ )の評価が使われるのを避けるためにＥ( ｉ )によって受話信号が無音が続いた期間はＲ( ｉ )の更新を行わないようにしている。具体的には，Ｓ１７において，Ｅ(ｉ)を所定の閾値Ｈ_Eと比較し，閾値Ｈ_Eより小さい場合には，Ｒ_Mの演算を省略する様にしたものである。

　実際の有効音源の抽出の際には，２種類の評価指標を適当な係数で重み付け加算したものを用いている。係数 H_E, H_R, H_Dなどは，抽出ルールを調整するパラメータである。
　ここでの実施例では，受話信号との比較において有効音源を判断する方式のみを示したが，これ以外の方法も可能である。例えば，本入力装置が音声認識を行う応用システムの入力に用いられた場合には，応用システムの音声認識において有効な音声と認識され易い音源を有効音源として選択する方法なども可能である。

　また会議室における会話，あるいは他局通話を行うテレビ会議を含む他局同時通話についてもこの方式を適用することができる。
　図１３はテーブルＴを囲んで６人の話者が会議をしているケースあるいは，６人の話者が６局同時通話を行っている状態を示す概念図である。各話者はそれぞれ独自のマイクを介して発言する。各マイクＭ_m(ｍは１〜６)からの音声信号は音声信号処理装置１ａに入力される。この場合，音声以外のノイズは少ないため，ノイズサプレッサは必要でなく，全ての音声が独立のマイクから入力される場合には音源分離も必要でない。またエコーも低く押さえることが前提であるのでエコーキャンセラも不要であろう。もちろんユビキタスといわれる，どこでも通信ができる環境が整ってくれば，マイクがそれぞれ携帯電話あるいは携帯端末となり，話者がノイズの多い環境で通話する場合も考えられるので，その場合にはエコーキャンセラやノイズサプレッサを必要とする場合もありうる。
　但し前記実施形態の場合のような１対１の会話と異なり，１対１の会話が複数含まれていたり，多対多の会話ともなりうるので，どの話者を基準にしてこの話者との会話の成立の判定おこなうかを考える必要がある。しかし会話はある時点を捉えれば常に１対１の関係が成り立つ(１対１の関係が複数存在する場合ももちろんありうるが)ので，図１２におけるある話者の有音／無音評価結果Ｙ_m(ｉ)を，６人の話者の中で順に替えていき，該Ｙ_m(ｉ)と自分以外の話者の有音／無音評価結果Ｘ_n≠_m(ｉ)との相関評価値Ｄ_m,n(ｉ)，Ｒ_m,n(ｉ)を演算しこれを繰り返せばよい。こうして抽出された会話を抽出された話者の近くのスピーカのみに出力する場合や，抽出された会話のみを記録するようなことが考えられる。

　テレビ会議を含む他局同時通話の場合も同様である。テレビ会議の場合には，抽出された会話のみをスピーカSに出力することが考えられる。

　上の実施形態では，音声入出力装置からの送信出力は音源分離手段からの出力を用いる例を示してきたが，図１４には別の実施例としての音声信号処理装置１ｂを示す。これは，前述のように独立成分分析による音源分離は，理論的にはマイクの数以下の音源を分離するものであるため，想定した以上に外乱音源の数が増加したり，大きな騒音源が出現して広い範囲からの外乱信号が加わった場合には必ずしも充分な性能を発揮しない恐れがあるため，そのようなケースに対応するために，会話の成立度合いがある程度の度合いより低い場合には，間違った有効音声を抽出してしまう可能性が大きいので，かえって有効音声を抽出する前の原音声をそのまま出力して，ちぐはぐな会話にならないように図ったものである。

　即ち，図１４では，音源分離が行われる以前の信号として，ノイズキャンセラの出力を音声統合手段に入力し，複数マイクからの信号を送信側信号として送信可能な信号に統合する。統合の方法としては，例えば複数マイク信号のうちの適当なひとつを選択するという簡単な方法が考えられる。この場合，例えばエコーキャンセラでのエコー除去性能やノイズキャンセラでのノイズ量などを評価して，最もＳＮ比が良さそうな信号を選ぶという判断基準で選択してもよい。また，SN比向上の目的で複数マイク入力を適当なフィルタを通して混合させてもよい。さらに，送信出力が複数チャンネルを送信可能なインターフェースを有している場合には，元の複数マイクからの信号をそのまま出力することをはじめ，複数のチャンネルに統合してもよい。
　このようにして得られた統合信号と，前述の分離選択された音源信号との，いずれを送信信号として出力するかを，出力切替え判定手段４によって決定し，送信側に出力される信号が決定される。この時の判断には，前述の音源選択の際の評価指標を用い，高い評価指標を得た音源が存在する場合には分離音源側を出力し，高い評価指標が選られなかった場合にはマイク信号の統合信号を用いるなどが行える。また，図１４に破線矢印で示すように，エコーキャンセラでのエコー除去性能やノイズキャンセラでのノイズ量などを評価して，外乱などが多く音源分離が良好に動作しないと判断した場合には分離された音源信号は使わずにマイク入力の統合信号を送信するということも可能である。

　本発明は，複数音源の環境下で会話の成立している音声の組を抽出する必要がある場合に適用して，産業上利用することができる。

本発明の背景となる問題点を指摘するための概念図。本発明の一実施形態に係るシステムの概要を示す概念図。周波数領域での音源分離の概念図。図２における音源選択手段の内容を示す信号系統図。受音信号，有効音信号，及び外乱音源信号の関係を示すグラフ。図６は，音声信号の時系列データ間の相関関係の一例を示す模式図。受話音声信号，有効音声信号及び外乱音声信号の時系列データの一例を示す図。音声信号毎の会話成立度合いを示したグラフ。音声信号毎の会話成立度合いを一覧可能に示すグラフ。音源選択の手順を示すフローチャート。外乱音声が有効音声に変化する例における音声信号の時系列データと会話成立度合いとを示す図。音源選択の手順の他例を示すフローチャート。会議あるいは他局間同時通話に本発明を適用した状態を示す概念図。他の実施例を示す信号経路図。

符号の説明

１　音声信号処理装置
２　会話成立度合い演算手段
３　有効音声抽出手段
４　出力切替判定手段
ＳＳ　音源選択手段
ＳＤ　音源分離手段
ＮＳ　ノイズサプレッサ
ＥＣ　エコーキャンセラ
Ｍ　マイク
Ｓ　スピーカ

Claims

複数音源からの複数の音声信号が混在して入力される環境下で会話が成立している有効音声を抽出する音声信号処理装置において，
　上記複数の音声信号の組み合わせについて，会話の成立している度合いを演算する会話成立度合い演算手段と，
　上記会話成立度合い演算手段による演算結果に基づいて会話の成立している有効音声を抽出する有効音声抽出手段とを備えてなることを特徴とする音声信号処理装置。
前記会話成立度合い演算手段が，上記複数の音声信号の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものである請求項１記載の音声信号処理装置。
前記会話成立度合い演算手段が，上記複数の音声信号における有音／無音を評価する有音／無音評価手段を含み，上記有音／無音評価手段により評価された音声信号の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものである請求項１又は２記載の音声信号処理装置。
前記会話成立度合い演算手段が，上記複数の音声信号の組み合わせについて，上記有音／無音評価手段により音声が共に有音であると評価された頻度，一方の音声が無音であり且つ他方の音声が有音であると評価された頻度及び音声が共に無音であると評価された頻度の内の少なくとも１つの頻度を上記時系列データ間の相関関係を表す指標として用いて上記会話の成立度合いを判断するものである請求項３記載の音声信号処理装置。
上記会話成立度合い演算手段が，上記複数の音声信号の組み合わせについて，上記有音／無音評価手段により音声が共に有音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである請求項４記載の音声信号処理装置。
上記会話成立度合い演算手段が，上記複数の音声信号の組み合わせについて，上記有音／無音評価手段により一方の音声が無音であり且つ他方の音声が有音であると評価された頻度が高いときに上記会話の成立度合いが高いと判断するものである請求項４記載の音声信号処理装置。
上記会話成立度合い演算手段が，上記複数の音声信号の組み合わせについて，上記有音／無音評価手段により音声が共に無音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである請求項４記載の音声信号処理装置。
複数の話者の音声中に会話が成立している音声と成立していない音声あるいはノイズが混在する会話状況の中から，会話の成立している有効音声を抽出する音声信号処理装置において，
　上記複数の話者が発する音声の組み合わせについて，会話の成立している度合いを演算する会話成立度合い演算手段と，
　上記会話成立度合い演算手段による演算結果に基づいて会話の成立している有効音声を抽出する有効音声抽出手段とを備えてなることを特徴とする音声信号処理装置。
上記会話状況が１対１の会話の少なくともいずれか一方に該会話と無関係な音声あるいはノイズが混在する情況である請求項８記載の音声信号処理装置。
上記少なくともいずれか一方側に複数のマイクが設けられ，上記会話成立度合い演算手段が，これらのマイクからの音声の組み合わせについての会話の成立度合いを演算するものである請求項９記載の音声信号処理装置。
上記会話状況が多局通話状況である請求項８記載の音声信号処理装置。
上記会話状況が複数のマイクを使った会議状況である請求項８記載の音声信号処理装置。
上記混在する会話の中から各音声を分離する音声分離手段を更に備え，上記会話成立度合い演算手段が，上記音声分離手段により分離された音声の組み合わせについての会話の成立している度合いを演算するものである請求項８〜１２のいずれかに記載の音声信号処理装置。
上記音声分離手段が複数のマイクから入力された音声及び／又はノイズの中から独立した音声を抽出するものである請求項１３に記載の音声信号処理装置。
上記複数の話者の音声のうちの１あるいは複数が複数のマイクからの音声であり，その他の話者の音声が該話者からのスピーカを通じた音声である請求項１４に記載の音声信号処理装置。
上記スピーカから上記マイクへの回り込み信号を除去するエコーキャンセラを更に備えてなる請求項１５記載の音声信号処理装置。
前記混在する会話中の音声，音声分離手段により分離された音声，あるいは上記エコーキャンセラから出力される音声から定常的な背景雑音を除去するノイズサプレッサを更に具備してなる請求項８〜１６のいずれかに記載の音声信号処理装置。
上記音声分離手段が，独立成分分析により，独立の音声を分離するものである請求項１３〜１７のいずれかに記載の音声信号処理装置。
前記会話成立度合い演算手段が，混在する会話に含まれる音声信号の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものである請求項８〜１８のいずれかに記載の音声信号処理装置。
前記会話成立度合い演算手段が，混在する会話に含まれる音声信号における有音／無音を評価する有音／無音評価手段を含み，上記有音／無音評価手段により評価された音声の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものである請求項８〜１９のいずれかに記載の音声信号処理装置。
前記会話成立度合い演算手段が，上記複数の話者が発する音声の組み合わせについて，上記有音／無音評価手段により音声が共に有音であると評価された頻度，一方の音声が無音であり且つ他方の音声が有音であると評価された頻度及び上記音声が共に無音であると評価された頻度の内の少なくとも１つの頻度を上記音声の時系列データ間の相関関係を表す指標として用いて上記会話の成立度合いを判断するものである請求項２０記載の音声信号処理装置。
上記会話成立度合い演算手段が，上記複数の話者が発する音声の組み合わせについて，上記有音／無音評価手段により音声が共に有音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである請求項２１記載の音声信号処理装置。
上記会話成立度合い演算手段が，上記複数の話者が発する音声の組み合わせについて，上記有音／無音評価手段により一方の音声が無音であり且つ他方の音声が有音であると評価された頻度が高いときに上記会話の成立度合いが高いと判断するものである請求項２１記載の音声信号処理装置。
上記会話成立度合い演算手段が，上記複数の話者が発する音声の組み合わせについて，上記有音／無音評価手段により音声が共に無音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである請求項２１記載の音声信号処理装置。
前記有効音声抽出手段が，複数の有効音声を抽出するものである請求項８〜２４のいずれかに記載の音声信号処理装置。
前記有効音声抽出手段により抽出された音声を出力する出力手段を更に備えてなる請求項８〜２５のいずれかに記載の音声信号処理装置。
上記出力手段が，抽出された複数の有効音声の統合音声を出力する請求項８〜２６のいずれかに記載の音声信号処理装置。
前記複数の話者の音声中に会話が成立している音声と成立していない音声あるいはノイズが混在する会話の音声，前記エコーキャンセラにより回りこみ信号の除去された音声，前記ノイズサプレッサによりノイズが除去された音声，あるいは前記有効音声抽出手段により抽出された音声のいずれか１つを選択的に出力手段に出力する出力音声切り替え手段を更に備えてなる請求項８〜２７のいずれかに記載の音声信号処理装置。