JP2004133403A - 音声信号処理装置 - Google Patents

音声信号処理装置 Download PDF

Info

Publication number
JP2004133403A
JP2004133403A JP2003275258A JP2003275258A JP2004133403A JP 2004133403 A JP2004133403 A JP 2004133403A JP 2003275258 A JP2003275258 A JP 2003275258A JP 2003275258 A JP2003275258 A JP 2003275258A JP 2004133403 A JP2004133403 A JP 2004133403A
Authority
JP
Japan
Prior art keywords
conversation
voice
signal processing
establishment
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003275258A
Other languages
English (en)
Inventor
Tetsuya Takahashi
高橋 哲也
Toshiro Yamashita
山下 俊郎
Shigeki Murakami
村上 茂樹
Takayuki Hiekata
稗方 孝之
Yohei Ikeda
池田 陽平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kobe Steel Ltd
Original Assignee
Kobe Steel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kobe Steel Ltd filed Critical Kobe Steel Ltd
Priority to JP2003275258A priority Critical patent/JP2004133403A/ja
Publication of JP2004133403A publication Critical patent/JP2004133403A/ja
Pending legal-status Critical Current

Links

Abstract

 【課題】 複数音源の環境下,例えば複数の音声やノイズ等が混在したり,音楽や歌が流れているといった会話情況の中から,会話が成立している音声を抽出することで,例えば会話が成立している音声の出力音量を上げたり,他の音声の音量を下げたり,それらの記録を制御したりと言った適切な対処を行うことができる音声処理装置を提供する。
 【解決手段】 複数音源からの音声信号を音源毎に分離し,例えば受話信号との会話成立度合いを演算し,その演算結果に基づいて会話が成立している有効音声を抽出する。ここで,会話成立度合いは,例えば2つの音声信号の時系列データの相関関係に基づいて演算される。
【選択図】図1

Description

 本発明は,複数音源の環境下で会話の成立している音声の組を抽出することのできる音声信号処理装置に関するものである。
 近年,インターネットの普及が著しいが,今後,IP電話などの音声通信アプリケーションの普及が予想される。このような音声通信アプリケーションとしては,例えば,単に音声電話の機能をネットワークで置き換えたものの他,より音質高い電話サービスが可能になったり,音声だけでなく画像も同時に伝送するテレビ電話や同時に多地点通話を行うテレビ会議を含む電話による他局通話システムといった様々な新しいサービスが出現したりしている。また,音声は障害者や老人・子供までが容易にサービスに参加できるようにするデジタルディバイド是正の手段としても有効なメディアとなる可能性を秘めている。誰にでも簡単に使える音声インターフェースの実現は,一般の健常者へのユーザビリティ向上も含めて遍く多くの人達への情報サービスを普及させ,新たな成長市場を作っていくうえで極めて有効であるといえる。
 このように将来の情報サービス普及において音声インターフェースの重要性は明らかである反面,音声では画像など他のメディアでは起こらない困難な技術課題が発生する。それは,音という信号は空間的に拡散することに起因し,近隣で異なる機器やサービスを用いるユーザの発生する音声やスピーカからの出力は,他のユーザや機器にとっては使用環境や性能を劣化させる外乱信号となる。これは,音声サービスの普及が進むにつれて増加したユーザ同士が互いに干渉源となり,さらなる普及を阻害するというジレンマとなる。身近な事例を示せば,例えば,ハンズフリーでTV電話をしている近くで他の家族がテレビやオーディオを再生したり,それらの機器操作のために音声認識/合成を使用したりするような状況等が挙げられる。
 このような複数の音声やノイズが混在する情況は,図1に示すように上記のようなハンズフリー電話をかけている傍らで他の人の話し声やテレビの音,街の雑音が混じるような場合の他,複数の電話を通信手段で結合して行うテレビ会議を含む他局通話状況,更には,複数の話者が適宜発言する会議の状況などにおいても発生する。そしてこのような状況の中では,実際に会話している人の音声が,街のノイズなどばかりでなく上記傍らの他の人の声,会議中の私語などに埋もれてしまい勝ちになり,会話の能率が著しく落ちる結果となる。従って上記のような複数の音声やノイズが混在する会話情況の中から,会話が成立している音声を抽出することは極めて重要である。
 従来,音声インターフェースを具備する音声処理装置の一例であるハンズフリー機能を有した従来の電話機には,例えば,特許文献1に示されるように,自らのスピーカが発した(出力した)音声がマイクに回り込む干渉を防ぐためのエコーキャンセラや,定常的な背景騒音等を除去するノイズサプレッサ等が搭載されている。
 一方,非特許文献1には,それぞれ異なる音源からの複数の音声が混在した混合音声が複数のマイクによって入力された場合に,その混合音声信号から音源ごとの音声信号を分離する技術が示されている。本技術は,複数のマイクから入力された音声信号が混合された混合音声信号から独立成分分析に基づいて,最大,マイクの数だけの音源それぞれごとの音声信号を分離するものである。
 また,特許文献2には,マイク入力された信号からスペクトクル特徴量を抽出して,予め求められた音声の特徴量との類似性の有無よりその信号が音声か否かを判定する手法,並びにマイク入力された信号の隣接した信号同士の差異を検出し,話者の位置を推定する技術が示されている。
特開平10−190533号公報 特開平7−92988号公報 猿渡 洋「音声・音響信号を対象としたブラインド音源分離」 電子情報通信学会DSP研究会,DSP2001-194, pp.59-66, (2002)
 しかしながら,特許文献1に示されるエコーキャンセラは,自装置がスピーカ出力する音声のエコーを除去するのみであり,複数の音声やノイズが混在する会話情況の中から,会話が成立している音声を抽出すると言う機能は持っておらず,会話の効率を上げる手段としては,完全なものではない。
 また,特許文献2に示される技術は,TV会議等を想定したものであり,各話者に対応して設けられるマイクロホンから入力される音声を検出することはできるが,マイクロホンからの入力信号に外乱となる音声信号が含まれている場合は,そのような外乱の中から本来の話者の音声,すなわち会話の成立している音声のみを抽出するなどの処理を行うことはできないといった問題がある。
 従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,複数音源の環境下,例えば複数の音声やノイズ等が混在したり,音楽や歌が流れているといった会話情況の中から,会話が成立している音声を抽出することで,例えば会話が成立している音声の出力音量を上げたり,他の音声の音量を下げたり,それらの記録を制御したりと言った適切な対処を行うことができる音声処理装置を提供することにある。
 上記目的を達成するために本発明は,複数音源からの複数の音声信号が混在して入力される環境下で会話が成立している有効音声を抽出する音声信号処理装置において,上記複数の音声信号の組み合わせについて,会話の成立している度合いを演算する会話成立度合い演算手段と,上記会話成立度合い演算手段による演算結果に基づいて会話の成立している有効音声を抽出する有効音声抽出手段とを備えてなることを特徴とする音声信号処理装置として構成される。
 この構成によって,近くで他の人が会話をしていたり,音楽や歌が流れていたりするような複数音源の環境下で,例えば通常の電話装置により通話を行っている話者,いわゆるハンズフリーの通話装置により通話を行っている話者,多局同時通話装置により通話を行っている話者等の音声信号を有効音声として抽出して,そのような有効音声信号の出力レベルを高くしたり,有効音声以外の音声信号の出力レベルを低くしたり,有効音声以外の音声信号の記録を抑制したりするといった適切な処置を行うことができる。
 この場合,前記会話成立度合い演算手段が,上記複数の音声信号の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものである構成とすることも考えられる。
 また,前記会話成立度合い演算手段が,上記複数の音声信号における有音/無音を評価する有音/無音評価手段を含み,上記有音/無音評価手段により評価された音声信号の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものである構成とすることが考えられる。
 更にこの場合には,前記会話成立度合い演算手段が,上記複数音源の音声信号の組合せについて,上記有音/無音評価手段により音声が共に有音であると評価された頻度,一方の音声が無音であり且つ他方の音声が有音であると評価された頻度及び音声が共に無音であると評価された頻度の内の少なくとも1つの頻度を上記時系列データ間の相関関係を表す指標として用いて上記会話の成立度合いを判断するものである構成とすることが考えられる。
 すなわち,会話は音声のキャッチボールにより成立するものであるため,一方の音声が有音であり且つ他方の音声が無音である状態が短時間の双方無音の状態を間に挟んで繰り返し現れるのが通常である。逆に,共に有音である状態になる頻度は低く,共に無音である状態も長時間は継続しない。したがって,上記会話の成立度合いは,上記有音/無音評価手段により音声が共に有音であると評価された頻度,一方の音声が無音であり且つ他方の音声が有音であると評価された頻度及び音声が共に無音であると評価された頻度の内の少なくとも1つの頻度を参照して判断することができる。
 より具体的には,上記会話成立度合い演算手段が,上記複数の音声信号の組合せについて,上記有音/無音評価手段により音声が共に有音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである構成が考えられる。
 また,上記会話成立度合い演算手段が,上記複数の音声信号の組合せについて,上記有音/無音評価手段により一方の音声が無音であり且つ他方の音声が有音であると評価された頻度が高いときに上記会話の成立度合いが高いと判断するものである構成とすることが考えられる。
 なお,上記有音/無音評価手段により一方の音声が無音であり且つ他方の音声が有音であると評価された度合いは,電話通話の場面においては,受話音声が無音であり且つ送話音声が有音であると評価された度合いと送話音声が無音であり且つ受話音声が有音であると評価された度合いとの2つの度合いに分けて考えることもできる。すなわち,この2つの度合いの一方のみを参照して会話の成立度合いを判断することもできるし,両方の度合いを参照して会話の成立度合いを判断することもできる。
 また,上記会話成立度合い演算手段が,上記複数の音声信号の組合せについて,上記有音/無音評価手段により音声が共に無音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである構成とすることが考えられる。
 また,本発明は,複数の話者の音声中に会話が成立している音声と成立していない音声あるいはノイズが混在する会話状況の中から,会話の成立している有効音声を抽出する音声信号処理装置において,
 上記複数の話者が発する音声の組合せについて,会話の成立している度合いを演算する会話成立度合い演算手段と,
 上記会話成立度合い演算手段による演算結果に基づいて会話の成立している有効音声を抽出する有効音声抽出手段とを備えてなることを特徴とする音声信号処理装置として構成される。
 上記会話状況としては種々のものが考えられるが,例えば1対1の会話の少なくともいずれか一方に該会話と無関係な音声あるいはノイズが混在するような情況が考えられる。例えば,複数の人が話している傍らで電話をしている場合,あるいは電話をしている傍でテレビ放送をしているようなケースが考えられる。少なくとも,というのは電話などでの会話の場合,両方とも同様な装置を使って同じような環境となることもあるからである。
 この場合,上記一方側に複数のマイクが設けられ,上記会話成立度合い演算手段が,これらのマイクからの音声の組合せについての会話の成立度合いを演算するものが考えられる。上記複数の人が話している傍らで電話をしているようなケースを考えている。
 また,上記会話状況として多局同時通話状況が考えられる。
 更に,上記会話状況としては複数のマイクを使った会議状況が考えられる。
 音声が混在する場合には,上記混在する会話の中から各音声を分離する音声分離手段が必要である。この場合,上記会話成立度合い演算手段は,上記音声分離手段により分離された音声の組合せについての会話の成立している度合いを演算するものである。
 上記音声分離手段による分離の方法としては,複数のマイクから入力された音声及び/又はノイズの中から独立した音声を抽出するものが考えられる。
 上記複数の話者の音声のうちの1あるいは複数が複数のマイクからの音声であり,その他の話者の音声が該話者からのスピーカを通じた音声であるようなケースが考えられる。上記会議の状況や,他局同時通話情況などがこれに該当しうる。
 スピーカとその近傍に設けられたマイクを使用する場合には,上記スピーカから上記マイクへの回り込み信号を除去するエコーキャンセラを更に備えることが望ましい。
 音源の検出精度を上げるためには,ノイズが少ないことが前提である,そのため,前記混在する会話中の音声,音声分離手段により分離された音声,あるいは上記エコーキャンセラから出力される音声から定常的な背景雑音を除去するノイズサプレッサを更に具備する事が望ましい。
 上記音声分離手段の手法として,独立成分分析により,独立の音声を分離するものが考えられる。
 前記会話成立度合い演算手段の演算手法の望ましい一例として,混在する会話に含まれる音声信号の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものが考えられる。
 更に,前記会話成立度合い演算手段の演算手法として,混在する会話に含まれる音声信号における有音/無音を評価する有音/無音評価手段を含み,上記有音/無音評価手段により評価された音声の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものを採用する事ができる。
 ここで,前記会話成立度合い演算手段が,上記複数の話者が発する音声の組合せについて,上記有音/無音評価手段により音声が共に有音であると評価された頻度,一方の音声が無音であり且つ他方の音声が有音であると評価された頻度及び上記音声が共に無音であると評価された度合いの内の少なくとも1つの頻度を上記音声の時系列データ間の相関関係を表す指標として用いて上記会話の成立度合いを判断するものである構成とすることが考えられる。
 より具体的には,上記会話成立度合い演算手段が,上記複数の話者が発する音声の組合せについて,上記有音/無音評価手段により音声が共に有音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである構成とすること,上記会話成立度合い演算手段が,上記複数の話者が発する音声の組合せについて,上記有音/無音評価手段により一方の音声が無音であり且つ他方の音声が有音であると評価された頻度が高いときに上記会話の成立度合いが高いと判断するものである構成とすること,並びに上記会話成立度合い演算手段が,上記複数の話者が発する音声の組合せについて,上記有音/無音評価手段により音声が共に無音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである構成とすることが考えられる。
 前記有効音声抽出手段は,1つの有効音声のみでなく,複数の有効音声を抽出することも考えられる。多数の話者が互いに会話する可能性のある他局同時通話状態や,会議の場ではこのような抽出が有用である。
 前記有効音声抽出手段により抽出された音声を何らかの方法で出力することが望ましい。スピーカへの出力,記録装置への出力,その他が考えられる。
 上記出力手段が,抽出された複数の有効音声の統合音声を出力するものであってもよい。
 本発明においては,前記複数の話者の音声中に会話が成立している音声と成立していない音声あるいはノイズが混在する会話の音声,前記エコーキャンセラにより回りこみ信号の除去された音声,前記ノイズサプレッサによりノイズが除去された音声,あるいは前記有効音声抽出手段により抽出された音声のいずれか1つを選択的に出力手段に出力する出力音声切替え手段を更に備えることができる。
 以上説明したように,本発明によれば,複数音源の環境下,例えば複数の話者の音声中に会話が成立している音声と成立していない音声あるいはノイズが混在したり,後ろで音楽や歌が流れたりしているといった会話状況の中から,会話の成立している有効音声を抽出する音声信号処理装置において,上記複数の話者が発する音声の組合せについて,会話の成立している度合いを演算する会話成立度合い演算手段と,上記会話成立度合い演算手段による演算結果に基づいて会話の成立している有効音声を抽出する有効音声抽出手段とを備えてなることを特徴とする音声信号処理装置が提供される。この装置では,人間同士の会話が成立している音声のみが抽出され,一見人の声であるから有効と思われたとしても実際には有効でないような他人の会話や音楽,歌が除かれるので,実質的なノイズの少ない音声を取得できる。
 以下添付図面を参照しながら,本発明の実施の形態及び実施例について説明し,本発明の理解に供する。尚,以下の実施の形態及び実施例は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
 ここに,図1は,本発明の背景となる問題点を指摘するための概念図,図2は,本発明の一実施形態に係るシステムの概要を示す概念図,図3は,周波数領域での音源分離の概念図,図4は,図2における音源選択手段の内容を示す信号系統図,図5は,受話音源信号(受話音声信号),有効音源信号(有効音声信号),及び外乱音源信号(外乱音声信号)の関係を示すグラフ,図6は,音声信号の時系列データ間の相関関係の一例を示す模式図,図7は,受話音声信号,有効音声信号及び外乱音声信号の時系列データの一例を示す図,図8は,音声信号毎の会話成立度合いを示したグラフ,図9は,音声信号毎の会話成立度合いを一覧可能に示すグラフ,図10は,音源選択の手順を示すフローチャート,図11は,外乱音声が有効音声に変化する例における音声信号の時系列データと会話成立度合いとを示す図,図12は,音源選択の手順の他例を示すフローチャート,図13は,会議あるいは他局間同時通話に本発明を適用した状態を示す概念図,図14は,他の実施例を示す信号経路図である。
 本発明の実施の形態に係る音声信号処理装置1は,いわゆるハンズフリー機能を有する電話機のインターフェース装置であり,図2に概略が示される。図2の装置の場合,対象となるシステムは,複数のマイクとスピーカとを使ってハンズフリーで双方向の音声対話を行うための音声インターフェース装置である。相対する側の入出力は対話し相手との受話信号および送話信号となっており,例えば本音声インターフェースをハンズフリー電話に適用した場合には通信回線を通して遠端話者と送受信される音声信号である。また,別の例として,本インターフェンスを音声認識/合成を使ったマンマシン対話装置に適用する場合には,受話信号は装置側からユーザに出力される音声メッセージに相当し,送話側は音声認識手段に入力される音声信号となる。いずれの場合も,上記のような合成された音声を含む複数の話者の音声中に会話が成立している音声と成立していない音声あるいはノイズが混在する会話状況の中で用いられるインターフェース装置であり,この音声インターフェース装置の目的は,送話側の信号に有効な音声信号,即ち,会話が成立している音声信号のみを抽出するように,不要な外乱信号を除去することである。以下に,本実施例の構成に基づき,本装置の構成及び動作を説明する。
 図2に示すように,音声信号処理装置1は,会話の相手側(話者B)からの受話音声データを取り込み,スピーカSから受話音を発生する。上記相手側の話者Bと会話を行っている話者をAとする。また,話者Aの近くには外乱としての2人の話者X及びYがいる。
 話者Aはマイクを通じて話者Bとの会話を行うが,このマイクは複数のマイクM1,M2,M3…からなっている。ここでは3個のマイクが用いられている。
 音声信号処理装置1には,周知のエコーキャンセラEC,ノイズサプレッサNS,音源分離手段SD及び本発明の重要な構成要素である音源選択手段SSが設けられている。当然ながらこれらの手段は,それぞれ独立した構成でも,一連のプログラムの一部として構成されていてもよい。
 まず,各マイクM1,M2…から受信される信号には,スピーカSからの出力音の回り込み信号も含まれるので,上記エコーキャンセラECによって各マイク受信信号よりスピーカからの回り込み信号が除去される。
 エコーキャンセラの方式としては,一般的には適応フィルタと呼ばれる方式が用いられ,スピーカSからの出力が各マイクMに回り込むインパルス応答を実測信号から予測するように,音響環境の変化に適応してフィルタの係数を調整しながら,スピーカの出力信号にフィルタをかけた予測信号をマイクからの受信信号より減算する。その際に,適応のための係数調整はダブルトーク状態(対話の双方が同時に音声を発している状態)で行われることを避けるため,マイク・スピーカの信号より送話/受話状態を判断し,受話状態と判断される時にのみフィルタ係数更新を行うようにする仕組みや,エコーキャンセラの予測性能が良くないと判断される場合には送話/受話状態の判断に基づき,スピーカ出力やマイク受信信号を減衰させる方式などが存在する。その具体的な構成方法の例としては,特開平10−190533号公報に記載された方式などがあるが,本発明の実施においてはこれに限定されるものではない。
 次にエコーを除去された各マイク入力から,ノイズサプレッサNSにより背景雑音が除去される。ノイズサプレッサの方式としては,時系列信号を周波数領域に変換し,定常的に含まれる背景雑音のスペクトル成分を推定して,その成分のスペクトルを周波数成分から減衰させた後に再び時間領域の信号に戻す,「スペクトルサブトラクション」という方法がよく知られている。本発明においてもこの方法が採用可能である。
 スペクトルサブトラクション法を応用した構成の例としては,電波産業会から発行されている携帯電話の標準規格 ARIB STD-T53「CDMA方式携帯自動車電話システム」に具体例が示されている。また,これ以外にも時間領域のままでカルマンフィルタなどにより背景雑音の成分を除去してSN比を上げる方式の例が,同じく携帯電話の標準規格である ARIB STD−27「デジタル方式自動車電話システム」に示されている。ただし,本発明では,これらの方式に限るものではなく,一般的に知られている任意のノイズフィルタリングの手法を用いることができる。
 このように前処理された複数マイクからの受信信号は,音源分離手段SDによって複数の音源に分離される。音源分離の方法としては,独立成分分析の理論に基づくブラインド音源分離という方法が知られており,周波数領域ならびに時間領域のいずれにおいても実施する例が「"音声・音響信号を対象としたブラインド音源分離", 電子情報通信学会DSP研究会, DSP2001−194, pp.59−66, 「2002」などに示されている。この方法は,基本的にマイクの数と同数の音源までを分離可能であり,音源分離手段からの出力信号の数はマイク数と等しくなる。図示の実施形態の場合,マイク数が3であるので,3個の音声まで分離可能である。
 具体的に上記文献に記載されている音源分離の計算手法の概要が図3に示される。複数のマイクM1,M2…からの各信号は周波数分析するための短時間分析フレームに切り出され,DFTなどで周波数領域に変換される。DFTの結果の周波数成分を,ベクトルX(f, k )で表わす。ここで,fはDFT後の周波数に相当し,kは各時刻kで切り出される分析フレーム番号であり,マイク入力毎の信号に対する成分がベクトルとなっている。このベクトルに対して分離行列 Wf k( f )をかけることで,得られる Y( f, k )が分離信号となる。Wf k( f )は,適応アルゴリズムを用いてY( f, k )が独立成分となるように k 毎に分析を行いながら更新され,行列の更新計算を行う適応アルゴリズムの例としては上記文献に記載されているものも含め,種々のものが提案されているのでここで用いることができる。
 同様に,周波数領域への変換は行わずに時間領域のままで同様な学習更新を行う手法や,それらを組み合わせてさらに性能を上げる方式なども,同文献には示されている。これらも本発明に採用可能である。
 時間領域のみで行う適応アルゴリズムでは,各サンプル時刻tにおける複数マイクからの入力サンプルベクトルを x( t ) とし,それに対してz変換で表わされる成分をもつ分離行列 Wt(z)
 を用意し,周波数領域の時と同様に y( t ) = Wt・x( t )で計算される信号y( t )が独立な成分となるように係数ベクトル wt(n)を学習更新していくものである。ここでD(x)は,マイクの入力信号のベクトル,y(x)は分離された信号のベクトルである。これも上記の文献に,wt(n)の更新式の一例が示してある。
 以上のように分離された複数の音源信号は,音源選択手段SSによって分析される。図4には,受話信号および複数の音源信号に対する有音/無音評価に基づいて音源選択を行う構成の例が示してある。
 まず,音源選択手段SSに入力される話者Bからの受話信号および複数の音源信号(この場合上記音源分離手段で分離された信号)に対して,有音/無音評価が行われる。有音/無音評価の方法として非常に簡易なものとしては,信号のレベル変化に注目して,背景雑音として存在するボトムレベルからある程度音量レベルが大きくなる範囲を有音区間であると判断する方法がある。ここでは,有音/無音を1/0の2値で評価する例を示したが,これ以外にも有音である確からしさなどから,連続値など2値以外で評価値を表わす方法でもよい。
 このような有音/無音評価の結果に基づき,会話成立度合い演算手段2において,どの音源からの音声が音声対話において有効な信号か,即ち話者Bからの受話信号との会話が成立している信号かを評価する。
 特に受話信号と各音源信号の間の相関関係は,どの音源が有効な信号かを判断するのに役立つ。図5の最上段には受話信号,2段目には送話信号に対応する有効な音源からの信号,下段にはそれらの対話と関係なく周囲から入ってくる外乱音声に関する評価の様子が示してあるが,通常の音声会話では送話と受話は会話のキャッチボールが行われるため,相互に会話を行っている,即ち会話が成立している音声同士では,ダブルトーク状態(即ち,両話者が同時に発声する状態)になることは少なく,通常は相互に有音区間が出現して図の上段と2段目の信号のような関係になる。一方,会話と関係の無い(即ち会話が成立していない)周囲から混入する音声信号は,図の下段のように受話信号とも頻繁にダブルトークの状態となる。また,逆に,お互いが無音となる時間が長くなることも多い。
 そこで,受話音声と送話側の各音源からの音声との間の関係を図6に示すような4つの状態D,R,T,Sに分類することが考えられる。
 同図において,状態Dは受話音声及び着目している送話側の音声(着目音声という)が共に有音である場合,状態Rは受話音声が有音であり且つ着目音声信号が無音である場合,状態Tは受話音声が無音であり且つ着目音声が有音である場合,並びに状態Sは受話音声及び着目音声が共に無音である場合を示す。
 ここで,受話音声の有音/無音評価の各時刻iの時系列データをY( i ) (Y(i)は,有音であるときに値「1」,無音であるときに値「0」),音声信号m(m:m=1,2,…,M。ただし,Mはマイクの数である)の有音/無音評価の時系列データをX(m) (X(m)は,有音であるときに値「1」,無音であるときに値「0」)で表し,各音声信号mについて時刻iに受話信号との関係が状態D,R,T,Sである頻度をそれぞれ下記関数Dm(i),Rm(i),Tm(i),Sm(i)により導かれる評価指標(以下,状態評価指標と称する)で表わすものとする。
 Dm(i)=α・Dm(i−1)+(1−α)Xm(i)・Y(i)
 Rm(i)=β・Rm(i−1)+(1−β)(1−Xm(i))Y(i)
 Tm(i)=γ・Tm(i−1)+(1−γ)Xm(i)・(1−Y(i))
 Sm(i)=δ・Sm(i−1)+(1−δ)(1−Xm(i))(1−Y(i))
 ここで,係数α,β,γ,δは,遠い過去のデータを忘却させて最新の状況に適応させるための係数であって,0< α,β,γ,δ < 1 の適当な値に設定される。
 有効音声の抽出は,これらの状態評価指標の内の少なくとも1つを用いた会話成立度合いを表す指標(会話成立評価指標という)を算出し,算出された会話成立評価指標を参照して各音声信号mの中から有効音声を抽出するといった手順で行われる。会話成立評価指標の例としては,前掲した4つの状態評価指標を用いた下記関数Cm(i)により導かれるものが考えられる。
 Cm(i)=ε・Cm(i−1)+(1−ε)[Rm(i)+Tm(i)+(1−Dm(i))+(1−Sm(i))]
 ここで,εは遠い過去のデータを忘却させて最新の状況に適応させるための係数であって,0<ε<1の適当な値に設定される。
 以下,上記会話成立評価指標Cm(i)の意味を説明する。通常の音声対話では会話は送話音声と受話音声のキャッチボールとして行われる。つまり,会話が行われているときには一般に前掲した状態D,R,T,Sの内,状態R,Tが短時間の無音状態(状態S)を間に挟みながら交互に発生する。逆に,状態Dはあまり発生せず,また状態Sは長時間に亘って継続することは少ない。従って,状態R,Tが現れる頻度が高ければ会話成立度合いが高いものと評価されるように,逆に状態D,Sの現れる頻度が高ければ会話成立度合いが低いものと評価されるように,上記指標Cm(i)は設定されている。
 時系列データが図7に示される音声信号(受話信号)L1及び送話側の各音声信号L2,L3,L4である場合について,上記会話成立評価指標Cm(i)を算出した結果を図8に示す。ここでは,音声信号L2が有効音声信号(送話者の音声信号)であり,音声信号L3が外乱音声信号(音楽)であり,音声信号L4が他の外乱音声信号(別会話)である場合を示す。
 図8においては,単位時間(例えば100ms)毎に各音声信号L2,L3,L4の上記状態評価指標Dm(i),Rm(i),Tm(i),Sm(i)を算出し,それを用いて各音声信号L2,L3,L4の会話成立評価指標CL2(i),CL3(i),CL4(i)を算出した結果が示されている。なお,図中,2点鎖線は指標Dm(i)を示し,破線は指標Rm(i)を示し,点線は指標Tm(i)を示し,1点鎖線は指標Sm(i)を示す。
 また,上記係数α,β,γ,δ,εは,α=β=γ=0.99,δ=0.999,ε=0.8,に設定した。ここで,係数δを他の係数よりも大きな値に設定したのは,双方無音である場合の評価指標Sm(i)の時間感度を鈍くするためである。すなわち,前掲したように,会話においては音声と音声との間に双方無音である状態が発生する場合が多い。従って,短時間の双方無音の状態により会話成立度合いの評価が大きく低下することがないように係数δの値は大きく設定されている。また,一方が無音であり且つ他の一方が有音である状態R,Tから別の状態(S及びD等)に変化した場合にはCm値を一定時間維持して変化させないようにしてもよい。
 また,前掲したとおり,会話成立評価指標Cm(i)は,状態評価指標Dm(i),Rm(i),Tm(i),Sm(i)の総てを用いたものである必要はなく,適当な状態評価指標の組合せを選出すれば十分な精度で有効音声を抽出することが可能である。また,例えばファジー推論やルールベース推論による評価指標と組み合わせて会話成立評価指標Cm(i)を算出することも考えられる。
 このような評価指標によって,各音声信号の有効性が評価され,その中から有効音声と認められる信号が有効音声抽出手段3により抽出される。有効音声を抽出する最も簡単な方法は,複数の音源信号の中から評価指標が最良の1個のみを抽出して出力する方法である。一方で,有効である可能性のある信号が1個に絞り切れない場合も有り得るので,評価指標に基づいて重みを付けて,複数の音源信号を統合した信号を出力してもよい。例えば,評価指標が高い音源信号には大きなゲインを与え,評価指標が低い信号には小さなゲインを与えて信号の重み付け加算によって出力信号を生成してもよい。さらに,送信出力が複数チャンネルを送信可能なインターフェースを有している場合には,音源を1個にせずとも音源信号を複数の信号のまま送ってもよい。
 図9に,各音源信号L2,L3,L4の会話成立評価指標CL2(i),CL3(i),CL4(i)を一覧可能に示す。同図から明らかなように,実際の有効音声である音声信号L2の会話成立評価指標CL2(i)が常に最高であり,したがって,上記会話成立評価指標Cm(i)を用いればその値が最高の音声信号を選択することによって適切に有効音声を抽出し得ることが分かる。
 図10に,上記会話成立評価指標Cm(i)を用いて有効音声を抽出する手順のフローチャートを示す。
 ステップS1:所定の初期化処理を行う。ここでは,パラメータ,すなわち時刻i,状態評価指標Dm(i),Rm(i),Tm(i),Sm(i),Cm(i)の値を総て値「0」に設定する。
 ステップS2:時刻iを単位時間(例えば100ms)インクリメントする。
 ステップS3:時刻iにおける受話信号L1の有音/無音評価Y(i)を取得する。
 ステップS4:時刻iにおける送話側の音声信号L2,L3,L4毎の有音/無音評価結果Xm(i)を取得する。
 ステップS5:時刻iにおける各音声信号L2,L3,L4の状態評価指標Dm(i),Rm(i),Tm(i),Sm(i)を求める。
 ステップS6:時刻iにおける各音声信号L2,L3,L4の会話成立評価指標Cm(i),すなわちCL2(i),CL3(i),CL4(i)を求める。
 ステップS7:時刻iにおいて会話成立評価指標Cm(i)が最大となる音声信号を有効音声信号として抽出する。
 また,図10のフローチャートに示すように,実施形態の音声処理装置1においては,会話成立評価指標Cm(i)が単位時間(例えば,100ms)毎に更新される。このため,送話者が途中で入れ替わったような場合でもそれに対応して適切な音声信号を有効音声として抽出することができる。
 図11に,初めに外乱音声信号であった音源信号L5(同図(b)参照)が受話音声信号L6(同図(a)参照)との関係で有効音声信号に変化した例を示す。
 この例では,時刻t1に音声信号L5の話者が送話者と入れ替わっており,同図(c)に示すように,この時点から指標Cm(i)(CL5(i))が上昇を始め,およそ0.2秒後の時刻t2には有効音声信号として抽出されるのに十分なレベル(縦軸における目盛りの1.4のレベル)にまで達している。したがって,前掲した処理によれば,途中から送話者が入れ替わったような場合にも適切に有効音声を抽出し得るのが分かる。
 以下,実施形態の音声信号処理装置1により複数音源の環境下で有効音声を抽出する他の方法を説明する。
 まず,受話信号の有音/無音評価の各時刻iの時系列データを Y( i ) ,選択評価の対象となる音源信号の有音/無音評価の時系列データを X( i ) とすると,以下のような信号間の相互関係を表わす評価指標が設けられる。
○ダブルトーク状態の多さを表わす評価指標 D( i )
   D( i ) = αD・D( i−1 ) + Y( i )・X( i )
 これが大きい音源は外乱であり有効性が低いと評価される。
○受話が無音状態における音源信号からの応答の有無を表わす評価指標 R( i )
   R( i ) = αR・R( i−1 ) + ( 1 −Y( i ))・X( i )
 これが大きい音源は,有効な信号である可能性が高いと評価される。
○受話からの信号に対する音源の応答タイミング
   Y( i )が 1 → 0 に変わった時刻と,それに最も近いX( i )が 0 → 1 に変わった時刻の時間差の累積。
 これが小さいほうが,受話信号に対する応答である可能性が高く有効な音源である可能性も高いと評価される。
 この応答タイミングを参酌することが望ましいが,この実施形態では省略される。
 αは,遠い過去のデータを忘却させて最新の状況に適応させるための係数で 0< αD, αR < 1 の適当な値のパラメータである。ここに示した評価指標は,あくまでも一例であって,これ以外にも有音/無音評価の結果から得られる評価指標は数多く考えられ,これらに限るものではない。また,これらの指標を組み合わせて用いる手法でもよく,例えばファジー推論やルールベースの判定を行う方法なども,本発明の範囲に属する。
 このような評価指標によって,各音源信号の有効性が評価され,その中から有効な音源と認められる信号が有効音声抽出手段3により抽出される。有効音声を抽出する最も簡単な方法は,複数の音源信号の中から評価指標が最良の1個のみを抽出して出力する方法である。一方で,有効である可能性のある信号が1個に絞り切れない場合も有り得るので,評価指標に基づいて重みを付けて,複数の音源信号を統合した信号を出力してもよい。例えば,評価指標が高い音源信号には大きなゲインを与え,評価指標が低い信号には小さなゲインを与えて信号の重み付け加算によって出力信号を生成してもよい。さらに,送信出力が複数チャンネルを送信可能なインターフェースを有している場合には,音源を1個にせずとも音源信号を複数の信号のまま送ってもよい。
 図12は,そのような抽出手順の一例をフローチャートで表わしたものである。この処理は,所定の初期化(S11)を行った後,会話成立度合い演算手段において,時刻i(S12)の各信号の有音/無音評価結果を逐次受け取り(S13,S15)ながらループの処理を実行し,各時点で判断を行うフローとなっている。この例では,マイクはM個あるものとし,したがって分離された音源の数もM個であり,その有音/無音評価の時系列信号 Xm( i )もM個 ( m = 1, 2, … ,M ) ある例となっている。そのため,上述の評価指標Dm( i ), Rm( i )も各音源信号m毎にM個計算されている(S16,S18)。
 また,上記の評価指標以外に,近い過去に受話信号は有音であったかどうかを示す指標としてE( i )というパラメータも用いている(S14)。
 E( i ) = αE・E( i-1 ) + Y( i )
 これは,過去の有音/無音評価値の減衰を伴った積算値であり,受話信号で無音状態がある程度長い期間続いた以降では既に対話自体が途切れている可能性が高いのに,無関係な外乱音源の有音状態が続いた場合には外乱信号に対するR( i )の評価が無意味に高くなる可能性があるので,この場合R( i )の指標自体が適当な評価ではなくなるため,不適当なR( i )の評価が使われるのを避けるためにE( i )によって受話信号が無音が続いた期間はR( i )の更新を行わないようにしている。具体的には,S17において,E(i)を所定の閾値HEと比較し,閾値HEより小さい場合には,RMの演算を省略する様にしたものである。
 実際の有効音源の抽出の際には,2種類の評価指標を適当な係数で重み付け加算したものを用いている。係数 HE, HR, HDなどは,抽出ルールを調整するパラメータである。
 ここでの実施例では,受話信号との比較において有効音源を判断する方式のみを示したが,これ以外の方法も可能である。例えば,本入力装置が音声認識を行う応用システムの入力に用いられた場合には,応用システムの音声認識において有効な音声と認識され易い音源を有効音源として選択する方法なども可能である。
 また会議室における会話,あるいは他局通話を行うテレビ会議を含む他局同時通話についてもこの方式を適用することができる。
 図13はテーブルTを囲んで6人の話者が会議をしているケースあるいは,6人の話者が6局同時通話を行っている状態を示す概念図である。各話者はそれぞれ独自のマイクを介して発言する。各マイクMm(mは1〜6)からの音声信号は音声信号処理装置1aに入力される。この場合,音声以外のノイズは少ないため,ノイズサプレッサは必要でなく,全ての音声が独立のマイクから入力される場合には音源分離も必要でない。またエコーも低く押さえることが前提であるのでエコーキャンセラも不要であろう。もちろんユビキタスといわれる,どこでも通信ができる環境が整ってくれば,マイクがそれぞれ携帯電話あるいは携帯端末となり,話者がノイズの多い環境で通話する場合も考えられるので,その場合にはエコーキャンセラやノイズサプレッサを必要とする場合もありうる。
 但し前記実施形態の場合のような1対1の会話と異なり,1対1の会話が複数含まれていたり,多対多の会話ともなりうるので,どの話者を基準にしてこの話者との会話の成立の判定おこなうかを考える必要がある。しかし会話はある時点を捉えれば常に1対1の関係が成り立つ(1対1の関係が複数存在する場合ももちろんありうるが)ので,図12におけるある話者の有音/無音評価結果Ym(i)を,6人の話者の中で順に替えていき,該Ym(i)と自分以外の話者の有音/無音評価結果Xnm(i)との相関評価値Dm,n(i),Rm,n(i)を演算しこれを繰り返せばよい。こうして抽出された会話を抽出された話者の近くのスピーカのみに出力する場合や,抽出された会話のみを記録するようなことが考えられる。
 テレビ会議を含む他局同時通話の場合も同様である。テレビ会議の場合には,抽出された会話のみをスピーカSに出力することが考えられる。
 上の実施形態では,音声入出力装置からの送信出力は音源分離手段からの出力を用いる例を示してきたが,図14には別の実施例としての音声信号処理装置1bを示す。これは,前述のように独立成分分析による音源分離は,理論的にはマイクの数以下の音源を分離するものであるため,想定した以上に外乱音源の数が増加したり,大きな騒音源が出現して広い範囲からの外乱信号が加わった場合には必ずしも充分な性能を発揮しない恐れがあるため,そのようなケースに対応するために,会話の成立度合いがある程度の度合いより低い場合には,間違った有効音声を抽出してしまう可能性が大きいので,かえって有効音声を抽出する前の原音声をそのまま出力して,ちぐはぐな会話にならないように図ったものである。
 即ち,図14では,音源分離が行われる以前の信号として,ノイズキャンセラの出力を音声統合手段に入力し,複数マイクからの信号を送信側信号として送信可能な信号に統合する。統合の方法としては,例えば複数マイク信号のうちの適当なひとつを選択するという簡単な方法が考えられる。この場合,例えばエコーキャンセラでのエコー除去性能やノイズキャンセラでのノイズ量などを評価して,最もSN比が良さそうな信号を選ぶという判断基準で選択してもよい。また,SN比向上の目的で複数マイク入力を適当なフィルタを通して混合させてもよい。さらに,送信出力が複数チャンネルを送信可能なインターフェースを有している場合には,元の複数マイクからの信号をそのまま出力することをはじめ,複数のチャンネルに統合してもよい。
 このようにして得られた統合信号と,前述の分離選択された音源信号との,いずれを送信信号として出力するかを,出力切替え判定手段4によって決定し,送信側に出力される信号が決定される。この時の判断には,前述の音源選択の際の評価指標を用い,高い評価指標を得た音源が存在する場合には分離音源側を出力し,高い評価指標が選られなかった場合にはマイク信号の統合信号を用いるなどが行える。また,図14に破線矢印で示すように,エコーキャンセラでのエコー除去性能やノイズキャンセラでのノイズ量などを評価して,外乱などが多く音源分離が良好に動作しないと判断した場合には分離された音源信号は使わずにマイク入力の統合信号を送信するということも可能である。
 本発明は,複数音源の環境下で会話の成立している音声の組を抽出する必要がある場合に適用して,産業上利用することができる。
本発明の背景となる問題点を指摘するための概念図。 本発明の一実施形態に係るシステムの概要を示す概念図。 周波数領域での音源分離の概念図。 図2における音源選択手段の内容を示す信号系統図。 受音信号,有効音信号,及び外乱音源信号の関係を示すグラフ。 図6は,音声信号の時系列データ間の相関関係の一例を示す模式図。 受話音声信号,有効音声信号及び外乱音声信号の時系列データの一例を示す図。 音声信号毎の会話成立度合いを示したグラフ。 音声信号毎の会話成立度合いを一覧可能に示すグラフ。 音源選択の手順を示すフローチャート。 外乱音声が有効音声に変化する例における音声信号の時系列データと会話成立度合いとを示す図。 音源選択の手順の他例を示すフローチャート。 会議あるいは他局間同時通話に本発明を適用した状態を示す概念図。 他の実施例を示す信号経路図。
符号の説明
1 音声信号処理装置
2 会話成立度合い演算手段
3 有効音声抽出手段
4 出力切替判定手段
SS 音源選択手段
SD 音源分離手段
NS ノイズサプレッサ
EC エコーキャンセラ
M マイク
S スピーカ

Claims (28)

  1. 複数音源からの複数の音声信号が混在して入力される環境下で会話が成立している有効音声を抽出する音声信号処理装置において,
     上記複数の音声信号の組み合わせについて,会話の成立している度合いを演算する会話成立度合い演算手段と,
     上記会話成立度合い演算手段による演算結果に基づいて会話の成立している有効音声を抽出する有効音声抽出手段とを備えてなることを特徴とする音声信号処理装置。
  2. 前記会話成立度合い演算手段が,上記複数の音声信号の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものである請求項1記載の音声信号処理装置。
  3. 前記会話成立度合い演算手段が,上記複数の音声信号における有音/無音を評価する有音/無音評価手段を含み,上記有音/無音評価手段により評価された音声信号の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものである請求項1又は2記載の音声信号処理装置。
  4. 前記会話成立度合い演算手段が,上記複数の音声信号の組み合わせについて,上記有音/無音評価手段により音声が共に有音であると評価された頻度,一方の音声が無音であり且つ他方の音声が有音であると評価された頻度及び音声が共に無音であると評価された頻度の内の少なくとも1つの頻度を上記時系列データ間の相関関係を表す指標として用いて上記会話の成立度合いを判断するものである請求項3記載の音声信号処理装置。
  5. 上記会話成立度合い演算手段が,上記複数の音声信号の組み合わせについて,上記有音/無音評価手段により音声が共に有音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである請求項4記載の音声信号処理装置。
  6. 上記会話成立度合い演算手段が,上記複数の音声信号の組み合わせについて,上記有音/無音評価手段により一方の音声が無音であり且つ他方の音声が有音であると評価された頻度が高いときに上記会話の成立度合いが高いと判断するものである請求項4記載の音声信号処理装置。
  7. 上記会話成立度合い演算手段が,上記複数の音声信号の組み合わせについて,上記有音/無音評価手段により音声が共に無音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである請求項4記載の音声信号処理装置。
  8. 複数の話者の音声中に会話が成立している音声と成立していない音声あるいはノイズが混在する会話状況の中から,会話の成立している有効音声を抽出する音声信号処理装置において,
     上記複数の話者が発する音声の組み合わせについて,会話の成立している度合いを演算する会話成立度合い演算手段と,
     上記会話成立度合い演算手段による演算結果に基づいて会話の成立している有効音声を抽出する有効音声抽出手段とを備えてなることを特徴とする音声信号処理装置。
  9. 上記会話状況が1対1の会話の少なくともいずれか一方に該会話と無関係な音声あるいはノイズが混在する情況である請求項8記載の音声信号処理装置。
  10. 上記少なくともいずれか一方側に複数のマイクが設けられ,上記会話成立度合い演算手段が,これらのマイクからの音声の組み合わせについての会話の成立度合いを演算するものである請求項9記載の音声信号処理装置。
  11. 上記会話状況が多局通話状況である請求項8記載の音声信号処理装置。
  12. 上記会話状況が複数のマイクを使った会議状況である請求項8記載の音声信号処理装置。
  13. 上記混在する会話の中から各音声を分離する音声分離手段を更に備え,上記会話成立度合い演算手段が,上記音声分離手段により分離された音声の組み合わせについての会話の成立している度合いを演算するものである請求項8〜12のいずれかに記載の音声信号処理装置。
  14. 上記音声分離手段が複数のマイクから入力された音声及び/又はノイズの中から独立した音声を抽出するものである請求項13に記載の音声信号処理装置。
  15. 上記複数の話者の音声のうちの1あるいは複数が複数のマイクからの音声であり,その他の話者の音声が該話者からのスピーカを通じた音声である請求項14に記載の音声信号処理装置。
  16. 上記スピーカから上記マイクへの回り込み信号を除去するエコーキャンセラを更に備えてなる請求項15記載の音声信号処理装置。
  17. 前記混在する会話中の音声,音声分離手段により分離された音声,あるいは上記エコーキャンセラから出力される音声から定常的な背景雑音を除去するノイズサプレッサを更に具備してなる請求項8〜16のいずれかに記載の音声信号処理装置。
  18. 上記音声分離手段が,独立成分分析により,独立の音声を分離するものである請求項13〜17のいずれかに記載の音声信号処理装置。
  19. 前記会話成立度合い演算手段が,混在する会話に含まれる音声信号の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものである請求項8〜18のいずれかに記載の音声信号処理装置。
  20. 前記会話成立度合い演算手段が,混在する会話に含まれる音声信号における有音/無音を評価する有音/無音評価手段を含み,上記有音/無音評価手段により評価された音声の時系列データ間の相関関係に基づいて会話の成立度合いを判断するものである請求項8〜19のいずれかに記載の音声信号処理装置。
  21. 前記会話成立度合い演算手段が,上記複数の話者が発する音声の組み合わせについて,上記有音/無音評価手段により音声が共に有音であると評価された頻度,一方の音声が無音であり且つ他方の音声が有音であると評価された頻度及び上記音声が共に無音であると評価された頻度の内の少なくとも1つの頻度を上記音声の時系列データ間の相関関係を表す指標として用いて上記会話の成立度合いを判断するものである請求項20記載の音声信号処理装置。
  22. 上記会話成立度合い演算手段が,上記複数の話者が発する音声の組み合わせについて,上記有音/無音評価手段により音声が共に有音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである請求項21記載の音声信号処理装置。
  23. 上記会話成立度合い演算手段が,上記複数の話者が発する音声の組み合わせについて,上記有音/無音評価手段により一方の音声が無音であり且つ他方の音声が有音であると評価された頻度が高いときに上記会話の成立度合いが高いと判断するものである請求項21記載の音声信号処理装置。
  24. 上記会話成立度合い演算手段が,上記複数の話者が発する音声の組み合わせについて,上記有音/無音評価手段により音声が共に無音であると評価された頻度が高いときに上記会話の成立度合いが低いと判断するものである請求項21記載の音声信号処理装置。
  25. 前記有効音声抽出手段が,複数の有効音声を抽出するものである請求項8〜24のいずれかに記載の音声信号処理装置。
  26. 前記有効音声抽出手段により抽出された音声を出力する出力手段を更に備えてなる請求項8〜25のいずれかに記載の音声信号処理装置。
  27. 上記出力手段が,抽出された複数の有効音声の統合音声を出力する請求項8〜26のいずれかに記載の音声信号処理装置。
  28. 前記複数の話者の音声中に会話が成立している音声と成立していない音声あるいはノイズが混在する会話の音声,前記エコーキャンセラにより回りこみ信号の除去された音声,前記ノイズサプレッサによりノイズが除去された音声,あるいは前記有効音声抽出手段により抽出された音声のいずれか1つを選択的に出力手段に出力する出力音声切り替え手段を更に備えてなる請求項8〜27のいずれかに記載の音声信号処理装置。
JP2003275258A 2002-09-20 2003-07-16 音声信号処理装置 Pending JP2004133403A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003275258A JP2004133403A (ja) 2002-09-20 2003-07-16 音声信号処理装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002274880 2002-09-20
JP2003275258A JP2004133403A (ja) 2002-09-20 2003-07-16 音声信号処理装置

Publications (1)

Publication Number Publication Date
JP2004133403A true JP2004133403A (ja) 2004-04-30

Family

ID=32301752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003275258A Pending JP2004133403A (ja) 2002-09-20 2003-07-16 音声信号処理装置

Country Status (1)

Country Link
JP (1) JP2004133403A (ja)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007248534A (ja) * 2006-03-13 2007-09-27 Nara Institute Of Science & Technology 音声認識装置、周波数スペクトル取得装置および音声認識方法
JP2008083434A (ja) * 2006-09-28 2008-04-10 Casio Comput Co Ltd 音声学習支援装置及び音声学習支援プログラム
EP2034710A2 (en) 2007-06-11 2009-03-11 Fujitsu Ltd. Multipoint communication apparatus with sound level adjustment unit
JP2010156738A (ja) * 2008-12-26 2010-07-15 Pioneer Electronic Corp 音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体
JP2010191425A (ja) * 2009-02-13 2010-09-02 Honda Motor Co Ltd 残響抑圧装置及び残響抑圧方法
WO2010146857A1 (ja) 2009-06-17 2010-12-23 パナソニック株式会社 補聴装置
JP2011049959A (ja) * 2009-08-28 2011-03-10 Aiphone Co Ltd インターホンシステム
WO2011105003A1 (ja) 2010-02-25 2011-09-01 パナソニック株式会社 信号処理装置及び信号処理方法
WO2012001928A1 (ja) 2010-06-30 2012-01-05 パナソニック株式会社 会話検出装置、補聴器及び会話検出方法
US8099276B2 (en) 2010-01-21 2012-01-17 Kabushiki Kaisha Toshiba Sound quality control device and sound quality control method
WO2012042768A1 (ja) * 2010-09-28 2012-04-05 パナソニック株式会社 音声処理装置および音声処理方法
JP2012205147A (ja) * 2011-03-25 2012-10-22 Kyocera Corp 携帯電子機器および音声制御システム
JP2015056676A (ja) * 2013-09-10 2015-03-23 株式会社リコー 音響処理装置及びプログラム
CN104637495A (zh) * 2013-11-08 2015-05-20 宏达国际电子股份有限公司 电子装置以及音频信号处理方法
JP2015143805A (ja) * 2014-01-31 2015-08-06 ブラザー工業株式会社 雑音抑圧装置、雑音抑圧方法、及びプログラム
JP2015149543A (ja) * 2014-02-05 2015-08-20 Necプラットフォームズ株式会社 電話システム及び電話システムにおけるノイズ除去方法
US9251805B2 (en) 2012-12-18 2016-02-02 International Business Machines Corporation Method for processing speech of particular speaker, electronic system for the same, and program for electronic system
JP2016148774A (ja) * 2015-02-12 2016-08-18 沖電気工業株式会社 音信号処理装置及び音信号処理プログラム
JP2017062307A (ja) * 2015-09-24 2017-03-30 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP2017516196A (ja) * 2014-04-17 2017-06-15 マイクロソフト テクノロジー ライセンシング,エルエルシー 会話検出
JP2019194742A (ja) * 2013-03-26 2019-11-07 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ分類および処理のための装置および方法
US10679648B2 (en) 2014-04-17 2020-06-09 Microsoft Technology Licensing, Llc Conversation, presence and context detection for hologram suppression
CN113270099A (zh) * 2021-06-29 2021-08-17 深圳市欧瑞博科技股份有限公司 智能语音提取方法、装置、电子设备及存储介质
JP2021193807A (ja) * 2017-06-12 2021-12-23 ヤマハ株式会社 信号処理装置、遠隔会議装置、および信号処理方法

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007248534A (ja) * 2006-03-13 2007-09-27 Nara Institute Of Science & Technology 音声認識装置、周波数スペクトル取得装置および音声認識方法
JP2008083434A (ja) * 2006-09-28 2008-04-10 Casio Comput Co Ltd 音声学習支援装置及び音声学習支援プログラム
US8218777B2 (en) 2007-06-11 2012-07-10 Fujitsu Limited Multipoint communication apparatus
EP2034710A2 (en) 2007-06-11 2009-03-11 Fujitsu Ltd. Multipoint communication apparatus with sound level adjustment unit
JP2010156738A (ja) * 2008-12-26 2010-07-15 Pioneer Electronic Corp 音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体
JP2010191425A (ja) * 2009-02-13 2010-09-02 Honda Motor Co Ltd 残響抑圧装置及び残響抑圧方法
US8867754B2 (en) 2009-02-13 2014-10-21 Honda Motor Co., Ltd. Dereverberation apparatus and dereverberation method
WO2010146857A1 (ja) 2009-06-17 2010-12-23 パナソニック株式会社 補聴装置
JPWO2010146857A1 (ja) * 2009-06-17 2012-11-29 パナソニック株式会社 補聴装置
JP5409786B2 (ja) * 2009-06-17 2014-02-05 パナソニック株式会社 補聴装置
US8654998B2 (en) 2009-06-17 2014-02-18 Panasonic Corporation Hearing aid apparatus
CN102428716A (zh) * 2009-06-17 2012-04-25 松下电器产业株式会社 助听器装置
JP2011049959A (ja) * 2009-08-28 2011-03-10 Aiphone Co Ltd インターホンシステム
US8099276B2 (en) 2010-01-21 2012-01-17 Kabushiki Kaisha Toshiba Sound quality control device and sound quality control method
US8682012B2 (en) 2010-02-25 2014-03-25 Panasonic Corporation Signal processing method
US8498435B2 (en) 2010-02-25 2013-07-30 Panasonic Corporation Signal processing apparatus and signal processing method
US8644534B2 (en) 2010-02-25 2014-02-04 Panasonic Corporation Recording medium
WO2011105003A1 (ja) 2010-02-25 2011-09-01 パナソニック株式会社 信号処理装置及び信号処理方法
WO2012001928A1 (ja) 2010-06-30 2012-01-05 パナソニック株式会社 会話検出装置、補聴器及び会話検出方法
JPWO2012001928A1 (ja) * 2010-06-30 2013-08-22 パナソニック株式会社 会話検出装置、補聴器及び会話検出方法
US9084062B2 (en) 2010-06-30 2015-07-14 Panasonic Intellectual Property Management Co., Ltd. Conversation detection apparatus, hearing aid, and conversation detection method
JP5581329B2 (ja) * 2010-06-30 2014-08-27 パナソニック株式会社 会話検出装置、補聴器及び会話検出方法
JP5740575B2 (ja) * 2010-09-28 2015-06-24 パナソニックIpマネジメント株式会社 音声処理装置および音声処理方法
CN103155036A (zh) * 2010-09-28 2013-06-12 松下电器产业株式会社 语音处理装置及语音处理方法
CN103155036B (zh) * 2010-09-28 2015-01-14 松下电器产业株式会社 语音处理装置及语音处理方法
WO2012042768A1 (ja) * 2010-09-28 2012-04-05 パナソニック株式会社 音声処理装置および音声処理方法
JPWO2012042768A1 (ja) * 2010-09-28 2014-02-03 パナソニック株式会社 音声処理装置および音声処理方法
US9064501B2 (en) 2010-09-28 2015-06-23 Panasonic Intellectual Property Management Co., Ltd. Speech processing device and speech processing method
JP2012205147A (ja) * 2011-03-25 2012-10-22 Kyocera Corp 携帯電子機器および音声制御システム
US9251805B2 (en) 2012-12-18 2016-02-02 International Business Machines Corporation Method for processing speech of particular speaker, electronic system for the same, and program for electronic system
JP2019194742A (ja) * 2013-03-26 2019-11-07 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ分類および処理のための装置および方法
JP2015056676A (ja) * 2013-09-10 2015-03-23 株式会社リコー 音響処理装置及びプログラム
CN104637495A (zh) * 2013-11-08 2015-05-20 宏达国际电子股份有限公司 电子装置以及音频信号处理方法
CN104637495B (zh) * 2013-11-08 2019-03-26 宏达国际电子股份有限公司 电子装置以及音频信号处理方法
JP2015143805A (ja) * 2014-01-31 2015-08-06 ブラザー工業株式会社 雑音抑圧装置、雑音抑圧方法、及びプログラム
JP2015149543A (ja) * 2014-02-05 2015-08-20 Necプラットフォームズ株式会社 電話システム及び電話システムにおけるノイズ除去方法
JP2017516196A (ja) * 2014-04-17 2017-06-15 マイクロソフト テクノロジー ライセンシング,エルエルシー 会話検出
US10529359B2 (en) 2014-04-17 2020-01-07 Microsoft Technology Licensing, Llc Conversation detection
US10679648B2 (en) 2014-04-17 2020-06-09 Microsoft Technology Licensing, Llc Conversation, presence and context detection for hologram suppression
JP2016148774A (ja) * 2015-02-12 2016-08-18 沖電気工業株式会社 音信号処理装置及び音信号処理プログラム
JP2017062307A (ja) * 2015-09-24 2017-03-30 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP2021193807A (ja) * 2017-06-12 2021-12-23 ヤマハ株式会社 信号処理装置、遠隔会議装置、および信号処理方法
JP7215541B2 (ja) 2017-06-12 2023-01-31 ヤマハ株式会社 信号処理装置、遠隔会議装置、および信号処理方法
CN113270099A (zh) * 2021-06-29 2021-08-17 深圳市欧瑞博科技股份有限公司 智能语音提取方法、装置、电子设备及存储介质
CN113270099B (zh) * 2021-06-29 2023-08-29 深圳市欧瑞博科技股份有限公司 智能语音提取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
JP2004133403A (ja) 音声信号処理装置
US8606573B2 (en) Voice recognition improved accuracy in mobile environments
US8731940B2 (en) Method of controlling a system and signal processing system
JP5332733B2 (ja) エコーキャンセラ
US9100756B2 (en) Microphone occlusion detector
US20090248411A1 (en) Front-End Noise Reduction for Speech Recognition Engine
US5390244A (en) Method and apparatus for periodic signal detection
KR20090050372A (ko) 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
US9813808B1 (en) Adaptive directional audio enhancement and selection
US20140329511A1 (en) Audio conferencing
US9661139B2 (en) Conversation detection in an ambient telephony system
US20110228946A1 (en) Comfort noise generation method and system
US8194851B2 (en) Voice processing apparatus, voice processing system, and voice processing program
JP2018046452A (ja) 信号処理装置、プログラム及び方法、並びに、通話装置
JP2008141718A (ja) 音響エコーキャンセラシステム
KR20150053621A (ko) 영상 회의 시스템에서의 음향 반향 제거 장치 및 방법
JP3047300B2 (ja) ハンズフリー会話機能を有する通話装置
US7171004B2 (en) Room acoustics echo meter for voice terminals
JP2009094802A (ja) 通信装置
CN108540680B (zh) 讲话状态的切换方法及装置、通话系统
JP2004109779A (ja) 音声処理装置
JP4317222B2 (ja) ネットワークにおける通信リンクの送話品質の測定
JP2944310B2 (ja) エコーキャンセラ
Fukui et al. Acoustic echo canceller software for VoIP hands-free application on smartphone and tablet devices
JP2006121588A (ja) エコー抑圧方法、この方法を実施する装置、プログラムおよびその記録媒体