JP2005227512A - 音信号処理方法及びその装置、音声認識装置並びにプログラム - Google Patents
音信号処理方法及びその装置、音声認識装置並びにプログラム Download PDFInfo
- Publication number
- JP2005227512A JP2005227512A JP2004035619A JP2004035619A JP2005227512A JP 2005227512 A JP2005227512 A JP 2005227512A JP 2004035619 A JP2004035619 A JP 2004035619A JP 2004035619 A JP2004035619 A JP 2004035619A JP 2005227512 A JP2005227512 A JP 2005227512A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- source
- microphone
- separation
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】ブラインド音源分離をリアルタイムで行うことを可能にする。
【解決手段】音声信号処理装置10は、話者音源101からの音声と雑音源102からの音との混合音が入力される第1及び第2マイク1,2と、話者音源101から出力された発話区間を検出する発話区間判定部11と、発話区間判定部11が発話区間を検出した場合、第1及び第2マイク1,2に入力された音声信号x1(t),x2(t)を用いて、分離行列を最適化する分離処理オン/オフ制御部12、最適化計算オン/オフ制御部13及び分離行列最適化計算部26と、分離行列最適化計算部26が最適化した分離行列を用いて、混合音から話者音源101からの音と雑音源102からの音とを分離する分離処理部25とを備える。
【選択図】図2
【解決手段】音声信号処理装置10は、話者音源101からの音声と雑音源102からの音との混合音が入力される第1及び第2マイク1,2と、話者音源101から出力された発話区間を検出する発話区間判定部11と、発話区間判定部11が発話区間を検出した場合、第1及び第2マイク1,2に入力された音声信号x1(t),x2(t)を用いて、分離行列を最適化する分離処理オン/オフ制御部12、最適化計算オン/オフ制御部13及び分離行列最適化計算部26と、分離行列最適化計算部26が最適化した分離行列を用いて、混合音から話者音源101からの音と雑音源102からの音とを分離する分離処理部25とを備える。
【選択図】図2
Description
本発明は、音信号処理方法、音信号処理装置、音声認識装置及びプログラムに関し、特に混合音から検出対象音を分離して取り出すブラインド音源分離(BBS:BlindSource Separation)が適合される音信号処理方法、音信号処理装置、音声認識装置及びプログラムに関する。
ブラインド音源分離(BBS:Blind Source Separation)では、複数チャンネルに入力された混合音を用いて、独立成分分析(ICA:IndependentComponent Analysis)の技術により、分離行列を最適化(学習)する。これにより、分離行列が目的とする音を分離する最適解に近づく。そして、ブラインド音源分離では、そのように最適化した分離行列を用いて、混合音から目的の音を分離して取り出している。ここで、混合音として、話者音源(発話源)からの音(発話)と雑音源からの音が混ざり合った音が挙げられ、このような場合、分離目的の音は、話者音源からの音(発話)になる。
リアルタイムでブラインド音源分離をする場合、混合音で分離行列を最適化しつつ、混合音から目的の音を分離するような態様となる。このようにリアルタイムでブラインド音源分離を実現する場合には、混合音中に分離目的の音が断続的又は不規則に含まれるようになる。
しかし、従来のブラインド音源分離のシステムは、オフライン処理によりブラインド音源分離をすることを前提としている。すなわち、従来のブラインド音源分離のシステムは、分離目的の音が連続して入力される場合を前提とし、その前提の下、分離行列を最適化しつつ、その最適化した分離行列で目的の音を分離するように構成されている。このようなことから、従来のシステムでリアルタイムでブラインド音源分離を行うと、混合音に分離目的の音が断続的又は不規則に含まれる結果、分離目的の音の特定が困難になることから、分離行列を最適化できなくなる。この結果、目的の音を高精度で分離できなくなる。
しかし、従来のブラインド音源分離のシステムは、オフライン処理によりブラインド音源分離をすることを前提としている。すなわち、従来のブラインド音源分離のシステムは、分離目的の音が連続して入力される場合を前提とし、その前提の下、分離行列を最適化しつつ、その最適化した分離行列で目的の音を分離するように構成されている。このようなことから、従来のシステムでリアルタイムでブラインド音源分離を行うと、混合音に分離目的の音が断続的又は不規則に含まれる結果、分離目的の音の特定が困難になることから、分離行列を最適化できなくなる。この結果、目的の音を高精度で分離できなくなる。
このように、従来のシステムは、オフライン処理でブラインド音源分離を行う必要があった。このような結果、従来のシステムは、実用性に欠けたものとなっていた。
さらに、従来のシステムでは、分離行列の最適化処理中に分離目的としない他の音が長時間継続して入力されてしまうと、当該他の音で分離行列を最適化してしまう。この場合、分離行列が間違った局所最適解に落ち込んでしまう。このように分離行列が間違った局所最適解に落ち込んでしまうと、その後、分離目的の音を入力しても、分離行列が最適化しなくなってしまう。
本発明は、前記問題に鑑みてなされたものであり、ブラインド音源分離をリアルタイムで行うことを可能にする音信号処理方法、音信号処理装置、音声認識装置及びプログラムの提供を目的とする。
さらに、従来のシステムでは、分離行列の最適化処理中に分離目的としない他の音が長時間継続して入力されてしまうと、当該他の音で分離行列を最適化してしまう。この場合、分離行列が間違った局所最適解に落ち込んでしまう。このように分離行列が間違った局所最適解に落ち込んでしまうと、その後、分離目的の音を入力しても、分離行列が最適化しなくなってしまう。
本発明は、前記問題に鑑みてなされたものであり、ブラインド音源分離をリアルタイムで行うことを可能にする音信号処理方法、音信号処理装置、音声認識装置及びプログラムの提供を目的とする。
請求項1記載の音信号処理方法は、検出対象音源からの音と雑音源からの音との混合音により分離行列を最適化していき、当該最適化した分離行列を用いて、前記混合音から検出対象音源からの音と雑音源からの音とを分離するブラインド音源分離(BBS:BlindSource Separation)を行う音信号処理方法である。この音信号処理方法は、前記検出対象音源からの音の検出の有無により前記分離行列の最適化の実行を切換可能にするとともに、前記検出対象音源からの音を検出した場合、前記分離行列の最適化を行い、前記検出対象音源からの音を検出できない場合、前記分離行列の最適化を行わないことを特徴とする。なお、検出対象音源からの音には、人間が発する発話音の他、物体が発する音も含まれる。
また、請求項2記載の音信号処理方法は、請求項1記載の音信号処理方法において、前記検出対象音源からの音が所定長以上の音の場合、前記分離行列の最適化を行い、前記検出対象音源からの音が所定長未満の音の場合、前記分離行列の最適化を行わないことを特徴とする。
また、請求項3記載の音信号処理方法は、請求項1又は2記載の音信号処理方法において、前記ブラインド音源分離では、無指向性マイクに前記混合音が入力され、単一指向性マイクに前記検出対象音源からの音又は前記雑音源からの音のいずれか一方が入力され、前記無指向性マイク及び単一指向性マイクに入力された音の音信号を用いて前記分離行列の最適化を行い、かつ当該最適化した分離行列を用いて前記混合音から検出対象音源からの音と雑音源からの音とを分離しており、前記無指向性マイクに入力された混合音の音信号と前記単一指向性マイクに入力された音の音信号とを比較し、その比較結果に基づいて、前記検出対象音源からの音を検出することを特徴とする。
また、請求項3記載の音信号処理方法は、請求項1又は2記載の音信号処理方法において、前記ブラインド音源分離では、無指向性マイクに前記混合音が入力され、単一指向性マイクに前記検出対象音源からの音又は前記雑音源からの音のいずれか一方が入力され、前記無指向性マイク及び単一指向性マイクに入力された音の音信号を用いて前記分離行列の最適化を行い、かつ当該最適化した分離行列を用いて前記混合音から検出対象音源からの音と雑音源からの音とを分離しており、前記無指向性マイクに入力された混合音の音信号と前記単一指向性マイクに入力された音の音信号とを比較し、その比較結果に基づいて、前記検出対象音源からの音を検出することを特徴とする。
また、請求項4記載の音信号処理装置は、検出対象音源からの音と雑音源からの音との混合音により分離行列を最適化していき、当該最適化した分離行列を用いて、前記混合音から検出対象音源からの音と雑音源からの音とを分離するブラインド音源分離(BBS:BlindSource Separation)を行う音信号処理装置である。この音信号処理装置は、前記混合音が入力される第1マイクと、前記検出対象音源からの音と雑音源からの音とのうちの少なくとも一方が入力される第2マイクと、前記検出対象音源からの音を検出する対象音検出手段と、前記対象音検出手段が検出対象音を検出した場合、前記第1及び第2マイクに入力された音の音信号を用いて前記分離行列を最適化する分離行列最適化手段と、前記分離行列最適化手段が最適化した分離行列を用いて、前記第1マイクに入力された混合音から検出対象音源からの音と雑音源からの音とを分離する分離手段と、を備えることを特徴とする。
また、請求項5記載の音信号処理装置は、請求項4記載の音信号処理装置において、前記分離行列最適化手段が、前記検出対象音検出手段が検出した検出対象音が所定長以上の音の場合、前記分離行列の最適化を行うことを特徴とする。
また、請求項6記載の音信号処理装置は、請求項4又は5記載の音信号処理装置において、前記第1マイクが、前記混合音が入力されるように配置された無指向性マイクであり、第2のマイクが、前記検出対象音源からの音と雑音源からの音とのうちのいずれか一方が入力されるように配置された単一指向性マイクであり、前記対象音検出手段が、前記第1マイクに入力された混合音の音信号と前記第2マイクに入力された音の音信号とを比較して、その比較結果に基づいて、前記検出対象音を検出することを特徴とする。
また、請求項6記載の音信号処理装置は、請求項4又は5記載の音信号処理装置において、前記第1マイクが、前記混合音が入力されるように配置された無指向性マイクであり、第2のマイクが、前記検出対象音源からの音と雑音源からの音とのうちのいずれか一方が入力されるように配置された単一指向性マイクであり、前記対象音検出手段が、前記第1マイクに入力された混合音の音信号と前記第2マイクに入力された音の音信号とを比較して、その比較結果に基づいて、前記検出対象音を検出することを特徴とする。
また、請求項7記載の音信号処理装置は、請求項6記載の音信号処理装置において、前記第1マイクに入力された混合音の音信号及び第2マイクに入力された検出対象音源からの音と雑音源からの音とのうちのいずれか一方の音の音信号を時分割してフレーム化するフレーム化手段を備えており、前記対象音検出手段が、前記フレーム化手段から出力されるフレーム単位で、前記第1マイクに入力された混合音の音信号と、前記第2マイクに入力された音の音信号とを比較し、その比較結果に基づいて、前記フレーム化手段から出力されるフレーム単位で前記検出対象音を検出することを特徴とする。
また、請求項8記載の音声認識装置は、発話源からの音と雑音源からの音との混合音により分離行列を最適化していき、当該最適化した分離行列を用いて、前記混合音から発話源からの音と雑音源からの音とを、ブラインド音源分離(BBS:BlindSource Separation)により分離し、その分離した発話源からの音について音声認識処理を行う音声認識装置である。この音声認識装置は、前記混合音が入力される第1マイクと、前記発話源からの音と雑音源からの音とのうちの少なくとも一方が入力される第2マイクと、前記発話源からの音の発話区間を検出する発話区間検出手段と、前記発話区間検出手段が発話区間を検出した場合、前記第1及び第2マイクに入力された音信号を用いて前記分離行列を最適化する分離行列最適化手段と、前記分離行列最適化手段が最適化した分離行列を用いて、前記第1マイクに入力された混合音から発話源からの音と雑音源からの音とを分離する分離手段と、前記分離手段が分離した発話源からの音について、音声認識処理を行う音声認識処理手段と、を備える。
また、請求項9記載の音声認識装置は、請求項8記載の音声認識装置において、前記分離行列最適化手段が、前記発話区間検出手段が検出した発話区間が所定長以上の場合、前記分離行列の最適化を行うことを特徴とする。
また、請求項10記載の音声認識装置は、請求項8又は9記載の音声認識装置において、前記第1マイクが、前記混合音が入力されるように配置された無指向性マイクであり、第2のマイクが、前記発話源からの音と雑音源からの音とのうちのいずれか一方が入力されるように配置された単一指向性マイクであり、前記発話区間検出手段が、前記第1マイクに入力された混合音の音信号と前記第2マイクに入力された音の音信号とを比較して、その比較結果に基づいて、前記発話区間を検出することを特徴とする。
また、請求項10記載の音声認識装置は、請求項8又は9記載の音声認識装置において、前記第1マイクが、前記混合音が入力されるように配置された無指向性マイクであり、第2のマイクが、前記発話源からの音と雑音源からの音とのうちのいずれか一方が入力されるように配置された単一指向性マイクであり、前記発話区間検出手段が、前記第1マイクに入力された混合音の音信号と前記第2マイクに入力された音の音信号とを比較して、その比較結果に基づいて、前記発話区間を検出することを特徴とする。
また、請求項11記載の音声認識装置は、請求項10記載の音声認識装置において、前記第1に入力された混合音の音信号及び第2マイクに入力された発話源からの音と雑音源からの音とのうちのいずれか一方の音の音信号を時分割してフレーム化するフレーム化手段を備えており、前記発話区間検出手段が、前記フレーム化手段から出力されるフレーム単位で、前記第1マイクに入力された混合音の音信号と、前記第2マイクに入力された音の音信号とを比較し、その比較結果に基づいて、前記フレーム化手段から出力されるフレーム単位で前記発話区間を検出することを特徴とする。
また、請求項12記載のプログラムは、検出対象音源からの音と雑音源からの音との混合音により分離行列を最適化していき、当該分離行列を用いて、前記混合音から検出対象音源からの音と雑音源からの音とを分離するブラインド音源分離(BBS:BlindSource Separation)をコンピュータに実現させるプログラムである。このプログラムは、前記検出対象音源からの音の検出の有無により前記分離行列の最適化の実行を切換可能にするとともに、前記検出対象音源からの音を検出した場合、前記分離行列の最適化を行い、前記検出対象音源からの音を検出できない場合、前記分離行列の最適化を行わないようにコンピュータに実行させることを特徴とする。
本発明によれば、発話源からの音を検出した場合、分離行列の最適化を行い、前記発話源からの音を検出できない場合、分離行列の最適化を行わないので、断続的又は不規則にシステムに入力される発話源からの音に対してのみ分離行列の最適化を行うことができる。これにより、リアルタイムでブラインド音源分離を行うことができる。
また、請求項2、5及び9記載の発明によれば、検出対象音源からの音又は発話源からの音が所定長以上の場合、分離行列の最適化を行うようにすることで、検出対象音源からの音又は発話源からの音に対して最適解の分離行列を得ることができる。
また、請求項2、5及び9記載の発明によれば、検出対象音源からの音又は発話源からの音が所定長以上の場合、分離行列の最適化を行うようにすることで、検出対象音源からの音又は発話源からの音に対して最適解の分離行列を得ることができる。
また、請求項3、6及び10記載の発明によれば、無指向性マイクで検出対象音源からの音又は発話音及び雑音を受音し、単一指向性マイクで前記検出対象音源からの音(発話音)又は前記雑音のいずれか一方を受音するように、無指向性マイク及び単一指向性マイクを配置する限り、前記検出対象音源からの音(発話源からの音)を検出することができる。これにより、マイクの取り付け位置の変化等による環境の変化、話者の移動や姿勢の変化等による音源の移動に対してロバストな受音系の構築が可能になる。
本発明を実施するための最良の形態(以下、実施形態という。)を図面を参照しながら詳細に説明する。
第1の実施形態は、図1に示すように、第1及び第2マイク1,2に入力された音声信号を処理する音声信号処理装置10である。
図2は音声信号処理装置10の構成を示す。
図2に示すように、音声信号処理装置10は、第1及び第2フレーム化部21,22、第1及び第2周波数分析部23,24、分離処理部25、分離行列最適化計算部26、発話区間判定部11、分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13を備えている。
第1の実施形態は、図1に示すように、第1及び第2マイク1,2に入力された音声信号を処理する音声信号処理装置10である。
図2は音声信号処理装置10の構成を示す。
図2に示すように、音声信号処理装置10は、第1及び第2フレーム化部21,22、第1及び第2周波数分析部23,24、分離処理部25、分離行列最適化計算部26、発話区間判定部11、分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13を備えている。
なお、第1及び第2フレーム化部21,22、第1及び第2周波数分析部23,24、分離処理部25及び分離行列最適化計算部26は、ブラインド音源分離(BBS:BlindSource Separation)を実現するブラインド音源分離部20を構成している。すなわち、ブラインド音源分離部20は、このような構成を備えることで、複数チャンネルに入力された混合音により、独立成分分析(ICA:IndependentComponent Analysis)の技術を用いて分離行列を最適化する一方、当該最適化した分離行列を用いて、前記混合音から話者音源(発話源)からの音(発話音)と雑音源からの音(雑音)とを分離する音声信号処理を実現する。
このような音声信号処理装置10の構成において、第1及び第2マイク1,2から入力された2chの音声信号x1(t),x2(t)はそれぞれ、第1及び第2フレーム化部21,22に入力される。
ここで、音声信号x1(t),x2(t)は、話者音源(発話源)101が発した音s1(t)と雑音源102が発した音s2(t)とが混ざり合った混合音信号である。雑音s2(t)としては、話者音源の周囲の音、話者音源以外の他の者の音声等が挙げられる。
ここで、音声信号x1(t),x2(t)は、話者音源(発話源)101が発した音s1(t)と雑音源102が発した音s2(t)とが混ざり合った混合音信号である。雑音s2(t)としては、話者音源の周囲の音、話者音源以外の他の者の音声等が挙げられる。
第1フレーム化部21では、第1マイク1から入力された音声信号x1(t)を時分割でフレーム化(或いはフレーム分割)して、複数フレームにした音声信号x1(t)を第1周波数分析部23に出力する。第2フレーム化部22では、第2マイク2から入力される音声信号x2(t)を時分割でフレーム化(或いはフレーム分割)して、複数フレームにした音声信号x2(t)を第2周波数分析部24に出力する。ここでは、第1及び第2フレーム化部21,22は、入力されてくる音声信号x1(t),x2(t)を所定時間間隔でサンプリングしていき、所定のサンプル数を1フレームとして次々にフレーム化していく。
第1及び第2周波数分析部23,24はそれぞれ、フレーム単位で音声信号x1(t),x2(t)をFFT(Fast Fourier Transform)により周波数分析して、観測信号(Observedsignals)x1(f),x2(f)を生成し、その観測信号x1(f),x2(f)を分離処理オン/オフ制御部12に出力する。
なお、観測信号x1(f),x2とは、当該ブラインド音源分離(BBS:Blind Source Separation)の技術において、混合音の分離を行う分離行列に入力される信号のことをいう。
なお、観測信号x1(f),x2とは、当該ブラインド音源分離(BBS:Blind Source Separation)の技術において、混合音の分離を行う分離行列に入力される信号のことをいう。
分離処理オン/オフ制御部12は、発話区間判定部11からの発話区間判定結果(制御信号)に基づいて、第1及び第2周波数分析部23,24それぞれからの観測信号x1(f),x2(f)を後段の分離処理部25に出力する。
発話区間判定部11は、第1及び第2マイク1,2から入力された音声信号x1(t),x2(t)に基づいて、当該音声信号x1(t),x2(t)に含まれている発話音声の区間(発話区間)を判定するように構成されている。例えば、発話区間判定部11は、第1及び第2マイク1,2から入力された音声信号x1(t),x2(t)、具体的には第1及び第2フレーム化部11,12から出力されたフレーム単位の音声信号x1(t),x2(t)又は第1及び第2周波数分析部23,24から出力された信号x1(f),x2(f)に基づいて、当該フレーム単位で発話区間の判定を行う。具体的には、発話区間判定部11は、所定長(所定時間)以上の発話区間を検出したときに、発話区間を検出した旨の信号を判定結果(制御信号)として、分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。なお、発話区間判定部11の具体的な構造については、後述する第2乃至第4の実施形態として説明する。
発話区間判定部11は、第1及び第2マイク1,2から入力された音声信号x1(t),x2(t)に基づいて、当該音声信号x1(t),x2(t)に含まれている発話音声の区間(発話区間)を判定するように構成されている。例えば、発話区間判定部11は、第1及び第2マイク1,2から入力された音声信号x1(t),x2(t)、具体的には第1及び第2フレーム化部11,12から出力されたフレーム単位の音声信号x1(t),x2(t)又は第1及び第2周波数分析部23,24から出力された信号x1(f),x2(f)に基づいて、当該フレーム単位で発話区間の判定を行う。具体的には、発話区間判定部11は、所定長(所定時間)以上の発話区間を検出したときに、発話区間を検出した旨の信号を判定結果(制御信号)として、分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。なお、発話区間判定部11の具体的な構造については、後述する第2乃至第4の実施形態として説明する。
これにより、分離処理オン/オフ制御部12は、発話区間判定部11から発話区間を検出した結果が入力された場合、分離処理部25のオン制御として、第1及び第2周波数分析部23,24それぞれからの観測信号x1(f),x2(f)を分離処理部25に出力する。また、分離処理オン/オフ制御部12は、発話区間判定部11が発話区間を検出していない場合、分離処理部25のオフ制御として、第1及び第2周波数分析部23,24それぞれからの観測信号x1(f),x2(f)を分離処理部25に出力しない。このとき、分離処理オン/オフ制御部12から分離処理部25への観測信号x1(f),x2(f)の出力のオン及びオフは、発話区間判定部11が発話区間を検出したフレームに対応するフレームを単位として行う。
分離処理部25は、分離行列最適化計算部26により最適化された分離行列により、観測信号x1(f),x2(f)から分離信号y1(f),y2(f)を分離抽出する。そして、分離処理部25は、音声信号s1(t),s2(t)とされる分離信号y1(f),y2(f)を後段に出力する。
分離行列最適化計算部26は、分離処理部25が得た分離信号y1(f),y2(f)が入力されており、この分離信号y1(f),y2(f)に基づく分離行列の最適化処理として、最適解の分離行列を得る。そして、分離行列最適化計算部26は、その最適化した分離行列を分離処理部25に出力する。すなわち、分離処理部25は、当該分離処理部25が得る分離信号y1(f),y2(f)を用いて分離行列最適化計算部26で最適化された分離行列を用いて、それ以降に当該分離処理部25に入力される観測信号x1(f),x2(f)から分離信号y1(f),y2(f)を分離抽出しているのである。
分離行列最適化計算部26は、分離処理部25が得た分離信号y1(f),y2(f)が入力されており、この分離信号y1(f),y2(f)に基づく分離行列の最適化処理として、最適解の分離行列を得る。そして、分離行列最適化計算部26は、その最適化した分離行列を分離処理部25に出力する。すなわち、分離処理部25は、当該分離処理部25が得る分離信号y1(f),y2(f)を用いて分離行列最適化計算部26で最適化された分離行列を用いて、それ以降に当該分離処理部25に入力される観測信号x1(f),x2(f)から分離信号y1(f),y2(f)を分離抽出しているのである。
一方、分離行列最適化計算部26は、最適化計算オン/オフ制御部13によりオン及びオフ制御がなされる。具体的には、最適化計算オン/オフ制御部13は、発話区間判定部11から発話区間を検出した結果が入力された場合、分離行列最適化計算部26をオン制御しており、分離行列最適化計算部26はこのオン制御により、分離処理部25が出力した分離信号y1(f),y2(f)に基づいて、分離行列の最適化処理を実施する。また、最適化計算オン/オフ制御部13は、発話区間判定部11が発話区間を検出していない場合、分離行列最適化計算部26をオフ制御しており、分離行列最適化計算部26はこのオフ制御により、分離行列の最適化処理を停止(一時的に停止)する。
以上のように音声信号処理装置10が構成されている。
次に図3を用いて、第1及び第2マイク1,2から入力された2chの音声信号(混合音信号)x1(t),x2(t)に対する処理に沿って、音声信号処理装置10の一連の動作を説明する。なお、ここでの動作は、分離行列を最適化(学習)する際の動作になる。
第1及び第2マイク1,2からの音声信号x1(t),x2(t)は、第1及び第2フレーム化部21,22に入力される。
第1及び第2フレーム化部21,22は、各音声信号x1(t),x2(t)をフレーム化(或いはフレーム分割)して、複数フレームにした音声信号x1(t),x2(t)を第1及び第2周波数分析部23,24に出力する(ステップS1)。
次に図3を用いて、第1及び第2マイク1,2から入力された2chの音声信号(混合音信号)x1(t),x2(t)に対する処理に沿って、音声信号処理装置10の一連の動作を説明する。なお、ここでの動作は、分離行列を最適化(学習)する際の動作になる。
第1及び第2マイク1,2からの音声信号x1(t),x2(t)は、第1及び第2フレーム化部21,22に入力される。
第1及び第2フレーム化部21,22は、各音声信号x1(t),x2(t)をフレーム化(或いはフレーム分割)して、複数フレームにした音声信号x1(t),x2(t)を第1及び第2周波数分析部23,24に出力する(ステップS1)。
第1及び第2周波数分析部23,24では、フレーム単位で、音声信号x1(t),x2(t)から観測信号x1(f),x2(f)を生成し、その観測信号x1(f),x2(f)を分離処理オン/オフ制御部12に出力する(ステップS2)。
一方、発話区間判定部11は、第1及び第2マイク1,2から入力された音声信号x1(t),x2(t)中の発話区間の判定をフレーム単位で行い(ステップS3)、発話区間(発話フレーム)を検出する(ステップS4)。そして、発話区間判定部11は、発話区間を検出した場合、当該発話区間が最短発話長以上か否かを判定する(ステップS5)。ここで、発話区間判定部11は、発話区間が最短発話長以上の場合、発話区間を検出した旨の判定結果を分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。また、発話区間判定部11は、発話区間を検出できなかった場合、又は発話区間は検出できたが、その発話区間が最短発話長未満であった場合、発話区間を検出できなかったとして、その旨の判定結果を分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。
一方、発話区間判定部11は、第1及び第2マイク1,2から入力された音声信号x1(t),x2(t)中の発話区間の判定をフレーム単位で行い(ステップS3)、発話区間(発話フレーム)を検出する(ステップS4)。そして、発話区間判定部11は、発話区間を検出した場合、当該発話区間が最短発話長以上か否かを判定する(ステップS5)。ここで、発話区間判定部11は、発話区間が最短発話長以上の場合、発話区間を検出した旨の判定結果を分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。また、発話区間判定部11は、発話区間を検出できなかった場合、又は発話区間は検出できたが、その発話区間が最短発話長未満であった場合、発話区間を検出できなかったとして、その旨の判定結果を分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。
分離行列最適化計算部26は、分離処理部25から分離行列を読み出す(ステップS6)。そして、分離行列最適化計算部26は、その読み出した分離行列の最適化計算を行う(ステップS7)。具体的には次のような処理により分離行列の最適化計算を行う。
分離処理オン/オフ制御部12では、発話区間判定部11が発話区間を検出した場合、第1及び第2周波数分析部23,24それぞれからの観測信号x1(f),x2(f)を後段の分離処理部25に出力する。そして、分離処理部25は、最新の分離行列により観測信号x1(f),x2(f)から分離信号y1(f),y2(f)を得る。
分離処理オン/オフ制御部12では、発話区間判定部11が発話区間を検出した場合、第1及び第2周波数分析部23,24それぞれからの観測信号x1(f),x2(f)を後段の分離処理部25に出力する。そして、分離処理部25は、最新の分離行列により観測信号x1(f),x2(f)から分離信号y1(f),y2(f)を得る。
その一方で、最適化計算オン/オフ制御部13は、発話区間判定部11が発話区間を検出した場合、分離行列最適化計算部26をオン制御する。分離行列最適化計算部26は、オン制御により、分離処理部25が得た分離信号y1(f),y2(f)を取り込み、この分離信号y1(f),y2(f)に基づいて前記読み出した分離行列を最適化する。
このように分離行列最適化計算部26で分離行列の最適化計算を行う。そして、分離行列最適化計算部26は、その最適化した分離行列を分離処理部25に出力し、分離処理25は、その分離行列を保存する(ステップS8)。
このように分離行列最適化計算部26で分離行列の最適化計算を行う。そして、分離行列最適化計算部26は、その最適化した分離行列を分離処理部25に出力し、分離処理25は、その分離行列を保存する(ステップS8)。
そして、分離処理部25は、このように最適化された最新の分離行列を用いて、観測信号x1(f),x2(f)から分離信号y1(f),y2(f)を得る(ステップS9)。
このように音声信号処理装置10は、分離処理部25で得た分離信号y1(f),y2(f)を例えば音声アプリケーションに出力する。
音声アプリケーションは、例えば音声を認識して各種処理を行うアプリケーションである。例えば、音声アプリケーションとしては、音声認識システム、放送システム、携帯電話及びトランシーバが挙げられる。このような音声アプリケーションは、話者音源(発話源)101が発した音声信号s1(t)である分離信号y1(f)に基づいて、音声を認識して、所定の処理を行う。
このように音声信号処理装置10は、分離処理部25で得た分離信号y1(f),y2(f)を例えば音声アプリケーションに出力する。
音声アプリケーションは、例えば音声を認識して各種処理を行うアプリケーションである。例えば、音声アプリケーションとしては、音声認識システム、放送システム、携帯電話及びトランシーバが挙げられる。このような音声アプリケーションは、話者音源(発話源)101が発した音声信号s1(t)である分離信号y1(f)に基づいて、音声を認識して、所定の処理を行う。
次に第1の実施形態における効果を説明する。
前述したように、音声信号処理装置10は、発話区間を検出した場合にのみ、分離行列の最適化計算を行っている。これにより、分離目的の音である発話音源からの音が音声信号処理装置10に断続的又は不規則に入力されてくる場合でも、音声信号処理装置10は、分離行列を最適化することができる。これにより、分離目的の音である発話音源からの音が音声信号処理装置10に断続的又は不規則に入力されてくる場合でも、音声信号処理装置10は、目的の音である発話音源からの音を高精度で分離できるようになる。このように、音声信号処理装置10は、リアルタイムでブラインド音源分離を実現できるようになり、実用性に優れたものとなる。
前述したように、音声信号処理装置10は、発話区間を検出した場合にのみ、分離行列の最適化計算を行っている。これにより、分離目的の音である発話音源からの音が音声信号処理装置10に断続的又は不規則に入力されてくる場合でも、音声信号処理装置10は、分離行列を最適化することができる。これにより、分離目的の音である発話音源からの音が音声信号処理装置10に断続的又は不規則に入力されてくる場合でも、音声信号処理装置10は、目的の音である発話音源からの音を高精度で分離できるようになる。このように、音声信号処理装置10は、リアルタイムでブラインド音源分離を実現できるようになり、実用性に優れたものとなる。
また、このように発話区間を検出した場合にのみ分離行列の最適化計算を行うようにすることで、分離目的外の音が入力されても分離行列の最適化計算が行われないので、そのような分離目的外の音により分離行列が間違った局所最適解に落ち込んでしまうようなことを防止できる。
また、前述したように、音声信号処理装置10は、発話区間が最短発話長以上の場合に限って、分離行列の最適化計算を行っている。一般的には、ブラインド音源分離のシステムに入力される音(学習対象の音)がある一定以上の長さがあると、分離行列の最適化は良好となる。このようなことから、音声信号処理装置10は、発話区間が最短発話長以上の場合に限って分離行列の最適化計算を行うようにすることで、分離目的の音に最適解の分離行列を得ることができるようになる。なお、音声信号処理装置10が分離した音声を音声認識システム(音声アプリケーション)が利用するとした場合、前記一定以上の長さとは、例えばコマンド最短長さや、1発話最短長さとなる。
また、前述したように、音声信号処理装置10は、発話区間が最短発話長以上の場合に限って、分離行列の最適化計算を行っている。一般的には、ブラインド音源分離のシステムに入力される音(学習対象の音)がある一定以上の長さがあると、分離行列の最適化は良好となる。このようなことから、音声信号処理装置10は、発話区間が最短発話長以上の場合に限って分離行列の最適化計算を行うようにすることで、分離目的の音に最適解の分離行列を得ることができるようになる。なお、音声信号処理装置10が分離した音声を音声認識システム(音声アプリケーション)が利用するとした場合、前記一定以上の長さとは、例えばコマンド最短長さや、1発話最短長さとなる。
そして、このように音声信号処理装置10では、高精度で目的の音声を分離できるので、このように音声信号処理装置10が分離した音声を利用することにより、音声認識システムでは、高認識率、低誤認識率の音声認識が可能になり、また、携帯電話やトランシーバでは、信頼性の高いハンズフリー半二重通信が可能になり、放送システムでは、通信システムの送信電力低減が可能になる。
また、前述したように、発話区間判定部11が発話区間を検出した場合には、分離処理オン/オフ制御部12が第1及び第2周波数分析部23,24それぞれからの観測信号x1(f),x2(f)を後段の分離処理部25に出力する一方で、最適化計算オン/オフ制御部13が分離行列最適化計算部26をオン制御して、分離行列最適化計算部26に分離行列の最適化処理を実施させている。
よって、発話区間判定部11が発話区間を検出した場合にのみ、分離行列の最適化計算を行うのであれば、分離処理オン/オフ制御部12と最適化計算オン/オフ制御部13とのいずれか一方を備えるだけでよいといえる。しかし、分離処理オン/オフ制御部12や最適化計算オン/オフ制御部13の応答性を考慮して、これら両方をシステムに備えることで、それら構成要素の特性に対するロバスト性を上げて、分離行列の最適化処理を行うことができるようになる。
また、前述したように、音声信号x1(t),x2(t)を第1及びイ第2フレーム化部21,22でフレーム化したものを、分離処理オン/オフ制御部12及び分離処理部25に出力している。このようにすることで、結果的に、音声信号処理装置10から出力される分離信号y1(f)である音声信号s1(t)もフレーム化されているものとなり、これにより、音声信号処理装置10から出力される音声信号s1(t)を利用する音声アプリケーションでは、解りやすいフレーム化された音声信号s1(t)で処理をすることができるようになる。
ここで、図4を用いて効果を説明する。
図4中(A)は、オフラインによりブラインド音源分離を行う場合を示し(従来の手法)、図4中(B)及び(C)は、リアルタイムでブラインド音源分離を行う場合を示す。
従来の手法をそのまま適用して、リアルタイムでブラインド音源分離をしてしまうと、図4中(B)に従来法として示すように、システムに雑音のみが入力されている場合でも、その雑音により分離行列を最適化してしまう。この場合、分離行列が劣化してしまう。この結果、最適化された分離行列では、目的とする信号(音声信号)を分離することができなくなる(結果不明となる)。
図4中(A)は、オフラインによりブラインド音源分離を行う場合を示し(従来の手法)、図4中(B)及び(C)は、リアルタイムでブラインド音源分離を行う場合を示す。
従来の手法をそのまま適用して、リアルタイムでブラインド音源分離をしてしまうと、図4中(B)に従来法として示すように、システムに雑音のみが入力されている場合でも、その雑音により分離行列を最適化してしまう。この場合、分離行列が劣化してしまう。この結果、最適化された分離行列では、目的とする信号(音声信号)を分離することができなくなる(結果不明となる)。
一方、本発明を適用して、リアルタイムでブラインド音源分離をした場合、図4中(B)に本発明法として示すように、システムに雑音のみが入力されているときには、分離行列の最適化は実施されず、システムに雑音と目的とする信号(音声信号)とが入力されたときに、分離行列の最適化は実施される。この結果、最適化された分離行列により、雑音とともに入力されてきた目的とする信号(音声信号)を精度よく分離することができる。
また、従来の手法をそのまま適用して、リアルタイムでブラインド音源分離をした場合、システムに雑音のみ又は雑音と分離目的外の信号とが混じり合い、長時間入力されると、図4中(C)に従来法として示すように、分離行列が間違った局所最適解に落ち込んでしまう。この結果、目的とする信号(音声信号)を分離することができなくなる(結果不明となる)。
しかし、本発明を適用した場合には、図4中(C)に本発明法として示すように、システムに雑音と目的とする信号(音声信号)とが入力されたときに分離行列の最適化を実施するので、そのように分離行列が間違った局所最適解に落ち込んでしまうことを防止できる。
しかし、本発明を適用した場合には、図4中(C)に本発明法として示すように、システムに雑音と目的とする信号(音声信号)とが入力されたときに分離行列の最適化を実施するので、そのように分離行列が間違った局所最適解に落ち込んでしまうことを防止できる。
次に第2の実施形態を説明する。
この第2の実施形態は、発話区間判定部11を具体的な構成とした音声信号処理装置10であり、発話区間判定部11が、第1及び第2マイク1,2で受音した音声信号x1(t),x2(t)の相関度により発話区間を検出するように構成されている。
図5は、その第2の実施形態における発話区間判定部11の構成を示し、図6は、発話区間判定部11の構成に対応する第1及び第2マイクの配置を示す。
この第2の実施形態は、発話区間判定部11を具体的な構成とした音声信号処理装置10であり、発話区間判定部11が、第1及び第2マイク1,2で受音した音声信号x1(t),x2(t)の相関度により発話区間を検出するように構成されている。
図5は、その第2の実施形態における発話区間判定部11の構成を示し、図6は、発話区間判定部11の構成に対応する第1及び第2マイクの配置を示す。
この第2の実施形態では、第1マイク1として単一指向性マイクを使用し、第2マイク2として無指向性マイクを使用している。そして、第1及び第2マイク1,2は、図6に示すように、第1及び第2マイク1,2をできるだけ近づけて配置するとともに、単一指向性マイクである第1マイク1をその指向方向が発話音源(ユーザ)の位置に対して反対側となるように配置する。また、第1マイク1の指向方向に、雑音源が存在している。なお、図6に示す点線は、雑音源を基準にした第1マイク1の指向特性を示し、図6に示す一点鎖線は、第2マイク2の指向特性を示す。
このように第1及び第2マイク1,2を配置すると、雑音源からの音s2(t)は、第1及び第2マイク1,2で受音でき、発話音源(ユーザ)からの音s1(t)は第2マイク2だけが受音できるようになる。
このように配置した第1及び第2マイク1,2から入力された音声信号x1(t),x2(t)はそれぞれ、前述したように、第1及び第2フレーム化部21,22に入力される。そして、前述したように、第1フレーム化部21では、第1マイク1から入力された音声信号x1(t)をフレーム化(或いはフレーム分割)し、また、第2フレームか部22では、第2マイク2から入力される音声信号x2(t)をフレーム化(或いはフレーム分割)する。そして、このように各フレーム化部21,22で複数フレームにされた音声信号x1(t),x2(t)は発話区間判定部11に入力される。
このように配置した第1及び第2マイク1,2から入力された音声信号x1(t),x2(t)はそれぞれ、前述したように、第1及び第2フレーム化部21,22に入力される。そして、前述したように、第1フレーム化部21では、第1マイク1から入力された音声信号x1(t)をフレーム化(或いはフレーム分割)し、また、第2フレームか部22では、第2マイク2から入力される音声信号x2(t)をフレーム化(或いはフレーム分割)する。そして、このように各フレーム化部21,22で複数フレームにされた音声信号x1(t),x2(t)は発話区間判定部11に入力される。
発話区間判定部11は、図5に示すように、相互相関関数計算部31及び音声/非音声判定部41を備えている。このような発話区間判定部11において、各フレーム化部21,22で複数フレームにされた音声信号x1(t),x2(t)が相互相関関数計算部31に入力される。
相互相関関数計算部31は、第1フレーム化部21から出力されるフレームと、第2フレーム化部12から出力されるフレームとを比較する。すなわち、第1マイク1に入力された音声信号x1(t)と、第2マイク2に入力された音声信号x2(t)とをフレーム単位で比較する。その比較結果として、相互相関関数計算部31は、下記(1)式により、相互相関関数R(τ)を算出する。
相互相関関数計算部31は、第1フレーム化部21から出力されるフレームと、第2フレーム化部12から出力されるフレームとを比較する。すなわち、第1マイク1に入力された音声信号x1(t)と、第2マイク2に入力された音声信号x2(t)とをフレーム単位で比較する。その比較結果として、相互相関関数計算部31は、下記(1)式により、相互相関関数R(τ)を算出する。
ここで、τは第1マイク1と第2マイク2との間の距離によって決まる遅延時間である。また、Tはフレーム長である。
前述したように第1及び第2マイク1,2をできるだけ近づけて配置している場合には、遅延時間τを近似的に0とおくことができる。しかし、後述するような本発明の効果を満たす限り、第1マイク1と第2マイク2とを離して配置することは可能であり、この場合、遅延時間τを適切に与える必要がある。すなわち例えば、第1マイク1と第2マイク2との間の距離を10cmにしている場合には、その10cm相当分の遅延時間τを与えて、相互相関関数R(τ)を算出する。このようにすれば、第1マイク1と第2マイク2との間の距離を考慮して、相互相関関数R(τ)を得ることができ、精度よく相互相関関数R(τ)を得ることができる。
前述したように第1及び第2マイク1,2をできるだけ近づけて配置している場合には、遅延時間τを近似的に0とおくことができる。しかし、後述するような本発明の効果を満たす限り、第1マイク1と第2マイク2とを離して配置することは可能であり、この場合、遅延時間τを適切に与える必要がある。すなわち例えば、第1マイク1と第2マイク2との間の距離を10cmにしている場合には、その10cm相当分の遅延時間τを与えて、相互相関関数R(τ)を算出する。このようにすれば、第1マイク1と第2マイク2との間の距離を考慮して、相互相関関数R(τ)を得ることができ、精度よく相互相関関数R(τ)を得ることができる。
このように算出された相互相関関数R(τ)は、相関関係を求める2つの音声信号x1(t),x2(t)が似ているほど、大きい値となり、相関関係を求める2つの音声信号x1(t),x2(t)が異なっているほど、0に近くなる。相互相関関数計算部31は、このような相互相関関数R(τ)を音声/非音声判定部32に出力する。
音声/非音声判定部32は、相互相関関数R(τ)に基づいて音声区間(発話区間)と非音声区間(非発話区間)とを判定する。具体的には、次のように音声区間と非音声区間とを判定する。
音声/非音声判定部32は、相互相関関数R(τ)に基づいて音声区間(発話区間)と非音声区間(非発話区間)とを判定する。具体的には、次のように音声区間と非音声区間とを判定する。
前述したように、発話音源(ユーザ)と雑音源に対して図6のように第1及び第2マイク1,2を配置することで、雑音源からの音s2(t)を第1及び第2マイク1,2で受音し、発話音源(ユーザ)からの音s1(t)を第2マイク2だけで受音している。
一方、相互相関関数R(τ)は、前述したように、相関関係を求める2つの音声信号x1(t),x2(t)が似ているほど大きい値となり、相関関係を求める2つの音声信号x1(t),x2(t)が異なっているほど0に近くなる。
一方、相互相関関数R(τ)は、前述したように、相関関係を求める2つの音声信号x1(t),x2(t)が似ているほど大きい値となり、相関関係を求める2つの音声信号x1(t),x2(t)が異なっているほど0に近くなる。
このようなことから、雑音源からの音s2(t)だけを第1及び第2マイク1,2で受音している場合には、同じ音声信号が第1及び第2マイク1,2に入力されているので、すなわち、第1及び第2マイク1,2の入力音声信号のS/N比が同程度になるので、相互相関関数R(τ)は大きい値になる。一方、発話音源(ユーザ)から発話があった場合には、その発話を第2マイク2だけが受音するので、第1及び第2マイク1,2それぞれに異なる音声信号が入力されるようになり、すなわち第2マイク2の入力音声信号のS/N比の方が大きくなるので、相互相関関数R(τ)は0に向かって減少する。
このように、発話音源(ユーザ)から発話があった場合には相互相関関数R(τ)は0に向かって減少することから、音声/非音声判定部32は、相互相関関数R(τ)と判定用しきい値(類似度を示すしきい値)δr1とを比較して、音声区間を判定する。すなわち、音声/非音声判定部32は、相互相関関数R(τ)が判定用しきい値δr1未満の場合(R(τ)<δr1)、音声区間と判定し、それ以外の場合(R(τ)≧δr1)、非音声区間と判定する。ここで、判定用しきい値δr1は例えば実験により得る。そして、音声/非音声判定部32は、このような判定をフレーム単位で行う。発話区間判定部11は、このように音声/非音声判定部32で得た音声区間(発話区間)の判定結果を分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。
以上のように、発話区間判定部11では、相互相関関数計算部13が、第1及び第2フレーム化部21,22それぞれから出力されるフレーム単位で相互相関関数R(τ)を算出して、算出した相互相関関数R(τ)を音声/非音声判定部32に出力する。音声/非音声判定部32では、相互相関関数R(τ)と判定用しきい値δr1とを比較し、相互相関関数R(τ)に対応するフレームが音声区間のものか、非音声区間のものかを判定する。そして、音声/非音声判定部32は、その判定結果を分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。
そして、分離処理オン/オフ制御部12は、前述したように、発話区間判定部11からの発話区間の判定結果に基づいて、分離処理部25への観測信号x1(f),x2(f)の出力をオン及びオフ制御する。また、最適化計算オン/オフ制御部13は、前述したように、発話区間判定部11からの発話区間の判定結果に基づいて、分離行列最適化計算部26のオン及びオフを制御する。
なお、第1及び第2マイク1,2の配置については、前記図6に示した態様に限定されるものではない。例えば、発話音源(ユーザ)からの音を第1及び第2マイク1,2で受音し、雑音源からの音を第1マイク1だけで受音するように、第1及び第2マイク1,2を配置してもよい。具体的には、第1マイク1に無指向性マイクを用い、第2マイク2に単一指向性マイクを用いる。そして、図7に示すように、第1及び第2マイク1,2をできるだけ近づけて配置するとともに、単一指向性マイクである第2マイク2を、その指向方向が発話音源(ユーザ)に向かい、かつその指向方向外に雑音源が位置されるように、配置する。なお、図7に示す点線は、第1マイク1の指向特定を示し、図7に示す一点鎖線は、発話音源(ユーザ)を基準にした第2マイク2の指向特性を示す。
そして、このように第1及び第2マイク1,2を配置した場合には、相互相関関数計算部31及び音声/非音声判定部32は次のような計算を行う。
発話音源(ユーザ)からの音s1(t)を第1及び第2マイク1,2で受音し、雑音源からの音s2(t)を第1マイク1だけが受音しているので、雑音源からの音s2(t)だけを第1マイク1で受音している場合には、第1及び第2マイク1,2それぞれに異なる音声信号が入力されるようになり、相互相関関数R(τ)は0に近い値になる。一方、発話音源(ユーザ)から発話があった場合には、その発話を第1及び第2マイク1,2で受音するので、ほぼ同じ音声信号が第1及び第2マイク1,2に入力される。このとき、相互相関関数R(τ)は大きい値になる。そして、このとき第2マイク2の入力音声信号のS/N比は高くなり、第1マイク1の入力音声信号のS/N比は、第2マイク2ほどではないが、高くなる。
発話音源(ユーザ)からの音s1(t)を第1及び第2マイク1,2で受音し、雑音源からの音s2(t)を第1マイク1だけが受音しているので、雑音源からの音s2(t)だけを第1マイク1で受音している場合には、第1及び第2マイク1,2それぞれに異なる音声信号が入力されるようになり、相互相関関数R(τ)は0に近い値になる。一方、発話音源(ユーザ)から発話があった場合には、その発話を第1及び第2マイク1,2で受音するので、ほぼ同じ音声信号が第1及び第2マイク1,2に入力される。このとき、相互相関関数R(τ)は大きい値になる。そして、このとき第2マイク2の入力音声信号のS/N比は高くなり、第1マイク1の入力音声信号のS/N比は、第2マイク2ほどではないが、高くなる。
このように、相互相関関数計算部31は、発話音源(ユーザ)から発話があった場合には、大きい相互相関関数R(τ)を得る。
このようなことから、音声/非音声判定部32は、相互相関関数R(τ)と判定用しきい値(類似度を示すしきい値)δr2とを比較して、相互相関関数R(τ)が判定用しきい値δr2より大きい場合(R(τ)>δr2)、音声区間と判定し、それ以外の場合(R(τ)≦δr2)、非音声区間と判定する。ここで、判定用しきい値δr2は例えば実験により得る。そして、音声/非音声判定部32は、その判定結果を分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。
このようなことから、音声/非音声判定部32は、相互相関関数R(τ)と判定用しきい値(類似度を示すしきい値)δr2とを比較して、相互相関関数R(τ)が判定用しきい値δr2より大きい場合(R(τ)>δr2)、音声区間と判定し、それ以外の場合(R(τ)≦δr2)、非音声区間と判定する。ここで、判定用しきい値δr2は例えば実験により得る。そして、音声/非音声判定部32は、その判定結果を分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。
次に第2の実施形態における効果を説明する。
先ず、第2の実施形態では、前述した第1の実施形態と同様な効果を得ることができる。
さらに、第2の実施形態では、無指向性マイクに発話音源からの音及び雑音源からの音からなる混合音が入力され、単一指向性マイクに発話音源からの音又は雑音源からの音のいずれか一方が入力され、無指向性マイクに入力された混合音の音声信号と単一指向性マイクに入力された発話音源からの音又は雑音源からの音のいずれか一方の音の音声信号との比較により相関度を得て、その相関度に基づいて、発話区間を検出している。
先ず、第2の実施形態では、前述した第1の実施形態と同様な効果を得ることができる。
さらに、第2の実施形態では、無指向性マイクに発話音源からの音及び雑音源からの音からなる混合音が入力され、単一指向性マイクに発話音源からの音又は雑音源からの音のいずれか一方が入力され、無指向性マイクに入力された混合音の音声信号と単一指向性マイクに入力された発話音源からの音又は雑音源からの音のいずれか一方の音の音声信号との比較により相関度を得て、その相関度に基づいて、発話区間を検出している。
これにより、無指向性マイクに発話音源からの音及び雑音源からの音からなる混合音が入力され、単一指向性マイクに発話音源からの音又は雑音源からの音のいずれか一方が入力されるように、無指向性マイク及び単一指向性マイク(第1及び第2マイク1,2)を配置する限り、マイクの取り付け位置の変化等による環境の変化、話者の移動や姿勢の変化等による音源の移動に対してロバストな発話区間検出システムを構築することができる。
そして、このように精度よく発話区間を検出することができるので、分離行列を劣化させることなく、最適化することができるようになる。
そして、このように精度よく発話区間を検出することができるので、分離行列を劣化させることなく、最適化することができるようになる。
次に第3の実施形態を説明する。
この第3の実施形態は、発話区間判定部11を具体的な構成とした音声信号処理装置10であり、発話区間判定部11が、第1及び第2マイク1,2で受音した音声信号x1(t),x2(t)のパワースペクトルに基づいて発話区間を検出するように構成されている。
図8は、その第3の実施形態における発話区間判定部11の構成を示す。
また、前述の第2の実施形態と同様、第1マイク1として単一指向性マイクを使用し、第2マイク2として無指向性マイクを使用している。そして、第1及び第2マイク1,2の配置についても、前記図6に示したような配置にしている。これにより、雑音源からの音s2(t)を第1及び第2マイク1,2で受音し、発話音源(ユーザ)からの音s1(t)を第2マイク2だけで受音するようにしている。
この第3の実施形態は、発話区間判定部11を具体的な構成とした音声信号処理装置10であり、発話区間判定部11が、第1及び第2マイク1,2で受音した音声信号x1(t),x2(t)のパワースペクトルに基づいて発話区間を検出するように構成されている。
図8は、その第3の実施形態における発話区間判定部11の構成を示す。
また、前述の第2の実施形態と同様、第1マイク1として単一指向性マイクを使用し、第2マイク2として無指向性マイクを使用している。そして、第1及び第2マイク1,2の配置についても、前記図6に示したような配置にしている。これにより、雑音源からの音s2(t)を第1及び第2マイク1,2で受音し、発話音源(ユーザ)からの音s1(t)を第2マイク2だけで受音するようにしている。
このように配置した第1及び第2マイク1,2から入力された音声信号x1(t),x2(t)はそれぞれ、前述したように、第1及び第2フレーム化部21,22に入力される。そして、前述したように、第1フレーム化部21では、第1マイク1から入力された音声信号x1(t)をフレーム化(或いはフレーム分割)し、また、第2フレームか部22では、第2マイク2から入力される音声信号x2(t)をフレーム化(或いはフレーム分割)する。そして、このように各フレーム化部21,22で複数フレームにされた音声信号x1(t),x2(t)は発話区間判定部11に入力される。
発話区間判定部11は、図8に示すように、パワースペクトラム計算部41、パワー比計算部42及び音声/非音声判定部43を備えている。このような発話区間判定部11において、各フレーム化部21,22で複数フレームにされた音声信号x1(t),x2(t)がパワースペクトラム計算部41に入力される。
パワースペクトラム計算部41は、フレーム単位で音声信号x1(t),x2(t)の第1及び第2パワースペクトル値Px1(ω),Px2(ω)を算出し、その算出した第1及び第2パワースペクトル値Px1(ω),Px2(ω)をパワー比計算部42に出力する。
パワー比計算部42は、下記(2)式により、パワースペクトラム計算部41からの第1パワースペクトル値Px1(ω)と第2パワースペクトル値Px2(ω)との比(以下、パワー比という。)P(ω)を算出する。
パワースペクトラム計算部41は、フレーム単位で音声信号x1(t),x2(t)の第1及び第2パワースペクトル値Px1(ω),Px2(ω)を算出し、その算出した第1及び第2パワースペクトル値Px1(ω),Px2(ω)をパワー比計算部42に出力する。
パワー比計算部42は、下記(2)式により、パワースペクトラム計算部41からの第1パワースペクトル値Px1(ω)と第2パワースペクトル値Px2(ω)との比(以下、パワー比という。)P(ω)を算出する。
ここで、Gは、第1及び第2マイク1,2の感度によって決まる補正係数である。
パワー比計算部42は、このようなパワー比P(ω)を音声/非音声判定部43に出力する。
音声/非音声判定部43は、パワー比P(ω)に基づいて音声区間と非音声区間とを判定する。具体的には、次のように音声区間と非音声区間とを判定する。
前述したように、発話音源(ユーザ)と雑音源に対して前記図6のように第1及び第2マイク1,2を配置することで、雑音源からの音s2(t)を第1及び第2マイク1,2で受音し、話者音源(ユーザ)からの音s1(t)を第2マイク2だけで受音している。
パワー比計算部42は、このようなパワー比P(ω)を音声/非音声判定部43に出力する。
音声/非音声判定部43は、パワー比P(ω)に基づいて音声区間と非音声区間とを判定する。具体的には、次のように音声区間と非音声区間とを判定する。
前述したように、発話音源(ユーザ)と雑音源に対して前記図6のように第1及び第2マイク1,2を配置することで、雑音源からの音s2(t)を第1及び第2マイク1,2で受音し、話者音源(ユーザ)からの音s1(t)を第2マイク2だけで受音している。
これにより、雑音源からの音s2(t)だけを第1及び第2マイク1,2で受音している場合には、同じ音声信号が第1及び第2マイク1,2に入力されているので、すなわち第1及び第2マイク1,2の受音感度が同程度であるので、このときにパワースペクトラム計算部41で算出される第1及び第2パワースペクトル値Px1(ω),Px2(ω)は同程度になる。一方、発話音源(ユーザ)から発話があった場合には、その発話を第2マイク2だけが受音するので、すなわち第2マイク2の受音感度の方が大きくなるので、このときに第1パワースペクトル値Px1(ω)よりも第2パワースペクトル値Px2(ω)の方が大きくなる。このとき、パワー比計算部42が算出するパワー比P(ω)は小さくなる。
なお、このとき、雑音源や発話音源(ユーザ)の特性に応じて、所定の周波数域のパワースペクトル値Px1(ω),Px2(ω)が特に変化する。
このように、発話音源(ユーザ)から発話があった場合にはパワー比P(ω)は小さくなることから、音声/非音声判定部43は、パワー比P(ω)と判定用しきい値(類似度を示すしきい値)δp1とを比較して、音声区間を判定する。
このように、発話音源(ユーザ)から発話があった場合にはパワー比P(ω)は小さくなることから、音声/非音声判定部43は、パワー比P(ω)と判定用しきい値(類似度を示すしきい値)δp1とを比較して、音声区間を判定する。
ここで、パワースペクトラム計算部41では、パワースペクトル値Px1(ω),Px2(ω)を所定の周波数域を対象として得ている。よって、パワー比P(ω)は、各周波数帯について得ることができる。
このようなことから、パワースペクトル値Px1(ω),Px2(ω)について各周波数で得ているパワー比P(ω)の総和平均値を算出し、判定では、その総和平均値と判定用しきい値δp1とを比較する。ここで、判定用しきい値δp1は例えば実験により得る。
このようなことから、パワースペクトル値Px1(ω),Px2(ω)について各周波数で得ているパワー比P(ω)の総和平均値を算出し、判定では、その総和平均値と判定用しきい値δp1とを比較する。ここで、判定用しきい値δp1は例えば実験により得る。
なお、判定対象としてパワースペクトル値Px1(ω),Px2(ω)の全周波数域の総和平均値を用いることに限定されるものではない。例えば、発話音源(ユーザ)の特性を示す特定の周波数帯のパワー比P(ω)の総和平均値と判定用しきい値δp1とを比較したり、雑音源の特性を示す特定の周波数帯のパワー比P(ω)の平均値と判定用しきい値δp1とを比較したり、又は発話音源(ユーザ)の特性を示す特定の周波数帯のパワー比P(ω)と雑音源の特性を示す特定の周波数帯のパワー比P(ω)との平均値と判定用しきい値δp1とを比較したりしてもよい。この場合、それに応じて、判定用しきい値δp1を設定する。
そして、音声/非音声判定部43は、パワー比P(ω)が判定用しきい値δp1未満の場合(P(ω)<δp1)、音声区間と判定し、それ以外の場合(P(ω)≧δp1)、非音声区間と判定する。ここで、音声/非音声判定部43は、このような判定をフレーム単位で行う。そして、発話区間判定部11は、このように音声/非音声判定部43で得た音声区間(発話区間)の判定結果を分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。
以上のように、発話区間判定部11では、パワースペクトラム計算部41が第1及び第2フレーム化部21,22それぞれから出力されるフレーム単位で第1及び第2パワースペクトル値Px(ω),Py(ω)を算出して、算出した第1及び第2パワースペクトル値Px(ω),Py(ω)をパワー比計算部42に出力する。パワー比計算部42では、パワースペクトラム計算部41から出力される第1及び第2パワースペクトル値Px1(ω),Px2(ω)について、フレーム単位でパワー比P(ω)を算出して、算出したパワー比P(ω)を音声/非音声判定部43に出力する。
音声/非音声判定部43では、パワー比P(ω)と判定用しきい値δp1とを比較し、パワー比P(ω)に対応するフレームが音声区間のものか、非音声区間のものかを判定する。そして、音声/非音声判定部43は、その判定結果を分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。
そして、分離処理オン/オフ制御部12は、前述したように、発話区間判定部11からの発話区間の判定結果に基づいて、分離処理部25への観測信号x1(f),x2(f)の出力をオン及びオフ制御する。また、最適化計算オン/オフ制御部13は、前述したように、発話区間判定部11からの発話区間の判定結果に基づいて、分離行列最適化計算部26のオン及びオフを制御する。
そして、分離処理オン/オフ制御部12は、前述したように、発話区間判定部11からの発話区間の判定結果に基づいて、分離処理部25への観測信号x1(f),x2(f)の出力をオン及びオフ制御する。また、最適化計算オン/オフ制御部13は、前述したように、発話区間判定部11からの発話区間の判定結果に基づいて、分離行列最適化計算部26のオン及びオフを制御する。
このように、第3の実施形態として、発話区間判定部11を構成することにより、前述した第1の実施形態に加えて、第2の実施形態と同様な効果を得ることができる。すなわち、無指向性マイクに発話音源からの音及び雑音源からの音からなる混合音が入力され、単一指向性マイクに発話音源からの音又は雑音源からの音のいずれか一方が入力されるように、無指向性マイク及び単一指向性マイク(第1及び第2マイク1,2)を配置する限り、マイクの取り付け位置の変化等による環境の変化、話者の移動や姿勢の変化等による音源の移動に対してロバストな発話区間検出システムを構築することができる。そして、このように精度よく発話区間を検出することができるので、分離行列を劣化させることなく、最適化することができるようになる。
次に第4の実施形態を説明する。
この第4の実施形態は、発話区間判定部11を具体的な構成とした音声信号処理装置10であり、第1及び第2マイク1,2で受音した音声信号x1(t),x2(t)のクロススペクトルに基づいて発話区間を検出するように構成されている。
なお、第1及び第2マイク1,2で受音した音声信号x1(t),x2(t)のクロススペクトルに基づいて発話区間を検出する技術については、例えば、多々良潔による「複数マイクロホンを用いた音声認識用耐雑音受音系の研究」(名古屋大学大学院工学研究科,修士論文,2003年3月)で開示されている。
この第4の実施形態は、発話区間判定部11を具体的な構成とした音声信号処理装置10であり、第1及び第2マイク1,2で受音した音声信号x1(t),x2(t)のクロススペクトルに基づいて発話区間を検出するように構成されている。
なお、第1及び第2マイク1,2で受音した音声信号x1(t),x2(t)のクロススペクトルに基づいて発話区間を検出する技術については、例えば、多々良潔による「複数マイクロホンを用いた音声認識用耐雑音受音系の研究」(名古屋大学大学院工学研究科,修士論文,2003年3月)で開示されている。
以下、このような開示技術を適用して構成した第4の実施形態における発話区間判定部11の構成を説明する。図9は、その第4の実施形態における発話区間判定部11の構成を示す。
図9に示すように、発話区間判定部11は、クロススペクトル計算部51、位相抽出処理部52、位相unwrap処理部53及び主計算部60を備えている。また、主計算部60は、周波数帯域分割部61、第1乃至第N傾き計算部621〜62N、ヒストグラム等計算部63及び音声/非音声判定部64を備えている。なお、第1及び第2マイク1,2の配置については、当該第1及び第2マイク1,2に発話音源(ユーザ)からの音s1(t)が入力されるように配置されている。
図9に示すように、発話区間判定部11は、クロススペクトル計算部51、位相抽出処理部52、位相unwrap処理部53及び主計算部60を備えている。また、主計算部60は、周波数帯域分割部61、第1乃至第N傾き計算部621〜62N、ヒストグラム等計算部63及び音声/非音声判定部64を備えている。なお、第1及び第2マイク1,2の配置については、当該第1及び第2マイク1,2に発話音源(ユーザ)からの音s1(t)が入力されるように配置されている。
このような発話区間判定部11において、各周波数分析部23,24から出力された信号x1(f),x2(f)がクロススペクトル計算部51に入力される。
ここで、例えば、第1マイク1と第2マイク2といった複数のマイクで受音した音声信号を時間軸上でみた場合、受音した音声信号間に位相差が生じる。これは、音源から各マイク1,2までの距離の違いにより、音源から各マイク1,2までの音声信号の到達時間に差が生じた結果である。
ここで、例えば、第1マイク1と第2マイク2といった複数のマイクで受音した音声信号を時間軸上でみた場合、受音した音声信号間に位相差が生じる。これは、音源から各マイク1,2までの距離の違いにより、音源から各マイク1,2までの音声信号の到達時間に差が生じた結果である。
ここで、第1マイク1と第2マイク2とにより受音した音声信号間の遅延時間を計測し、その計測した遅延時間に基づいて位相を同相化し、その後、第1マイク1と第2マイクとでそれぞれ受音した音声信号を加算して同期加算音声を得る場合を考える。例えば、M.Omologo,P.Svaizerらの文献「“Acousticevent localization using a crosspower-spectruum phase based technique”,Proc.ICASSP94,pp.274-276,(1994)」に、そのように同期加算音声を得る技術が記載されている。
ここで、2つのマイク1,2で受音した音声信号x1(t),x2(t)をフーリエ変換して得られる周波数関数をX1(ω),X2(ω)とする。ここで、x2(t)は、下記(3)式のようにx1(t)の時間移動波形であると仮定する。
x2(t)=x1(t−t0) ・・・(3)
このように仮定した場合、周波数関数X1(ω)と周波数関数X2(ω)との関係は下記(4)式のようになる。
X2(ω)=e−jωt 0X1(ω) ・・・(4)
そして、この周波数関数X1(ω)と周波数関数X2(ω)とからクロススペクトルG12(ω)が下記(5)式として得られる。
G12(ω)=X1(ω)X2*(ω)=X1(ω)ejωt 0X1*(ω)=|X1|2ejωt 0 ・・・(5)
x2(t)=x1(t−t0) ・・・(3)
このように仮定した場合、周波数関数X1(ω)と周波数関数X2(ω)との関係は下記(4)式のようになる。
X2(ω)=e−jωt 0X1(ω) ・・・(4)
そして、この周波数関数X1(ω)と周波数関数X2(ω)とからクロススペクトルG12(ω)が下記(5)式として得られる。
G12(ω)=X1(ω)X2*(ω)=X1(ω)ejωt 0X1*(ω)=|X1|2ejωt 0 ・・・(5)
ここで、クロススペクトルG12(ω)の指数項はスペクトル領域のチャネル間の時間遅れに対応する。したがって、 周波数関数X2に遅延項ejωt 0をかけたX2(ω)ejωt 0は、周波数関数X1と同相化され、これにより、X1(ω)+X2(ω)ejωt 0の逆フーリエ変換をチャネル同期加算音声として扱うことができるようになる。
クロススペクトル計算部51では、このようなクロススペクトルG12(ω)を得る。そのため、第1周波数分析部23は、第1フレーム化部21からの音声信号をフーリエ変換して前記周波数関数X1(ω)を算出して、その周波数関数X1(ω)(x1(f))をクロススペクトル計算部51に出力する。また、第2周波数分析部24は、第2フレーム化部22からの音声信号をフーリエ変換して周波数関数X2(ω)を算出して、その周波数関数X2(ω)(x2(f))をクロススペクトル計算部51に出力する。ここで、第1及び第2周波数分析部23,24は、フレーム毎に音声信号をフーリエ変換する。
クロススペクトル計算部51は、第1及び第2周波数分析部23,24からの周波数関数X1(ω)、X2(ω)である前記信号x1(f),x2(f)に基づいて、前記(5)式によりクロススペクトルG12(ω)を算出する。
クロススペクトル計算部51は、第1及び第2周波数分析部23,24からの周波数関数X1(ω)、X2(ω)である前記信号x1(f),x2(f)に基づいて、前記(5)式によりクロススペクトルG12(ω)を算出する。
なお、図10は、1フレームについての音声信号のクロススペクトルの位相を示す。ここで、図10中(A)は自動車内で発した音声について得たクロススペクトルの位相であり、図10中(B)はオフィススペース内で発した音声について得たクロススペクトルの位相であり、図10中(C)は防音室内で発した音声について得たクロススペクトルの位相であり、図10中(D)は歩道(屋外)で発した音声について得たクロススペクトルの位相である。この図10に示すように、フレーム内で(すなわち局所的に)、音源と第1マイク1までの距離と音源と第2マイク2までの距離との差に対応して、クロススペクトルの位相が周波数に対してほぼ一定の傾きを示すことがわかる。すなわち、音源と第1マイク1までの距離と音源と第2マイク2までの距離との差に対応して、クロススペクトルの位相成分が一定の傾きを有している。
そして、第1及び第2マイク1,2で受音した音声信号のS/N比が高ければ、そのように傾きが一定となる傾向は顕著になる。よって、第1及び第2マイク1,2により音声(発話)を受音した場合のその音声信号はS/N比が高くなり、この場合、明らかに一定の傾きを示すものになる。
クロススペクトル計算部51は、このような特性を有するクロススペクトルG12(ω)を位相抽出部52に出力する。
クロススペクトル計算部51は、このような特性を有するクロススペクトルG12(ω)を位相抽出部52に出力する。
位相抽出部52では、クロススペクトル計算部51からのクロススペクトルG12(ω)から位相を抽出(検出)して、その抽出結果を位相unwrap処理部53に出力する。
位相unwrap処理部53では、位相抽出部52の位相抽出結果に基づいて、クロススペクトルG12(ω)をunwrap処理して、主計算部60の周波数帯域分割部61に出力する。
周波数帯域分割部61は、帯域分割(セグメント分割)した位相を第1乃至第N傾き計算部621〜62Nそれぞれに出力する。
位相unwrap処理部53では、位相抽出部52の位相抽出結果に基づいて、クロススペクトルG12(ω)をunwrap処理して、主計算部60の周波数帯域分割部61に出力する。
周波数帯域分割部61は、帯域分割(セグメント分割)した位相を第1乃至第N傾き計算部621〜62Nそれぞれに出力する。
ここで、音声の入力されていない非音声区間フレームと音声が入力されている音声区間フレームとで、クロススペクトルの位相成分に大きな違いがある。すなわち、音声区間フレームでは、前述したようにクロススペクトルの位相が周波数に対してほぼ一定の傾きを示すが、非音声区間フレームでは、そのようにはならない。ここで、図11を用いて説明する。
図11はクロススペクトルの位相を示しており、図11中(A)は、音声区間フレームのクロススペクトルの位相であり、図11中(B)は、非音声区間フレームのクロススペクトルの位相である。
この図11中(A)と図11中(B)との比較からもかわるように、非音声区間フレームでは、クロススペクトルの位相は、周波数に対して特定のトレンドをもたない。すなわち、周波数に対してクロススペクトルの位相が一定の傾きを持つ結果とはならない。これは、ノイズの位相がランダムだからである。
この図11中(A)と図11中(B)との比較からもかわるように、非音声区間フレームでは、クロススペクトルの位相は、周波数に対して特定のトレンドをもたない。すなわち、周波数に対してクロススペクトルの位相が一定の傾きを持つ結果とはならない。これは、ノイズの位相がランダムだからである。
これに対して、音声区間フレームでは、周波数に対してクロススペクトルの位相が一定の傾きをもつようになる。そして、この傾きは、音源から各マイク1,2までの距離の差に対応した大きさになる。
このように、音声の入力されていない非音声区間フレームと音声が入力されている音声区間フレームとでは、クロススペクトルの位相成分に大きな違いがある。
このように、音声の入力されていない非音声区間フレームと音声が入力されている音声区間フレームとでは、クロススペクトルの位相成分に大きな違いがある。
このようなことから、位相の回転が生じた場合にも正確にトレンドを追随するために、周波数帯域分割部61により、位相成分を小さな周波数セグメントに分割(或いは帯域分割)し、後段の第1乃至第N傾き計算部621〜62Nで、最小2乗法を適用することでセグメント毎に傾きを計算している。この第1乃至第N傾き計算部621〜62Nはそれぞれ、算出した傾きをヒストグラム等計算部63に出力する。
ここで、最小2乗法によりセグメント毎に傾きを求める手法は、公知の技術であり、例えば、『「信号処理」「画像処理」のための入門工学社』(高井信勝著,工学社,2000)にその技術が記載されている。
ヒストグラム等計算部63は、第1乃至第N傾き計算部621〜62Nが算出した前記傾きについて、ヒストグラムを得る。
ヒストグラム等計算部63は、第1乃至第N傾き計算部621〜62Nが算出した前記傾きについて、ヒストグラムを得る。
図12は、ヒストグラム等計算部63が得たヒストグラムであり、セグメント毎に得た傾きについてのヒストグラムを示す。すなわち、この図12は、位相の傾きの分布を示し、全セグメントに対する、各傾きのセグメント数の割合、すなわち頻度を縦軸にとっている。ここで、図12中(A)は、音声区間フレームについてのヒストグラムを示し、図12中(B)は、非音声区間フレームについてのヒストグラムを示す。
図12中(A)と図12中(B)との比較からもかわるように、音声区間フレームでは、ヒストグラムに明らかにピーク値があり、すなわち傾きがごく狭い範囲に局在しており、これにより、ある傾きについて頻度が高くなっている。すなわち、帯域毎のそれぞれの傾きが特定の傾きに集中する傾向が強くなっている。一方、非音声区間フレームでは、ヒストグラムが平滑となり、傾きが広い範囲にわたって分布している。
このヒストグラム等計算部63は、このようなヒストグラム化して得た頻度を音声/非音声判定部64に出力する。なお、このヒストグラム等計算部63の処理については後で具体例を説明する。
音声/非音声判定部64は、ヒストグラム等計算部63からの前記頻度に基づいて、音声区間と非音声区間とを判定する。例えば、前記頻度の平均値周辺の所定の範囲に含まれる傾きの出現頻度が所定のしきい値以上の場合、音声区間と判定し、頻度が所定のしきい値未満の場合、非音声区間と判定する。
なお、ここでは、前段の処理がフレーム単位の処理となっているので、当該フレームが、音声区間フレーム又は非音声区間フレームのいずれかであるかを判定する。音声/非音声判定部64は、その判定結果を分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。
音声/非音声判定部64は、ヒストグラム等計算部63からの前記頻度に基づいて、音声区間と非音声区間とを判定する。例えば、前記頻度の平均値周辺の所定の範囲に含まれる傾きの出現頻度が所定のしきい値以上の場合、音声区間と判定し、頻度が所定のしきい値未満の場合、非音声区間と判定する。
なお、ここでは、前段の処理がフレーム単位の処理となっているので、当該フレームが、音声区間フレーム又は非音声区間フレームのいずれかであるかを判定する。音声/非音声判定部64は、その判定結果を分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。
次にヒストグラム等計算部63の具体的な構成を説明する。図13は、その構成例を示す。
ヒストグラム等計算部63は、第1乃至第N傾き計算部621〜62Nが算出した前記傾きのうちから頻度が高い(最頻度の)傾きを算出する構成として、第1スイッチ63S1、第2スイッチ63S2及び最頻値計算部63Cを備えている。これにより、第1スイッチ63S1を一定時間オン(閉)にして、第1乃至第N傾き計算部621〜62Nが算出した一定時間の前記傾きのデータ(或いはデータベース)63D1を作成する。このとき、第2スイッチ63S2については、オフ(開)にしておく。そして、データ63D1を作成したら、第2スイッチ63S2をオン(閉)にして、そのデータ63D1を最頻値計算部63Cに出力する。
ヒストグラム等計算部63は、第1乃至第N傾き計算部621〜62Nが算出した前記傾きのうちから頻度が高い(最頻度の)傾きを算出する構成として、第1スイッチ63S1、第2スイッチ63S2及び最頻値計算部63Cを備えている。これにより、第1スイッチ63S1を一定時間オン(閉)にして、第1乃至第N傾き計算部621〜62Nが算出した一定時間の前記傾きのデータ(或いはデータベース)63D1を作成する。このとき、第2スイッチ63S2については、オフ(開)にしておく。そして、データ63D1を作成したら、第2スイッチ63S2をオン(閉)にして、そのデータ63D1を最頻値計算部63Cに出力する。
最頻値計算部63Cでは、データ63D1から前記図12に示すような前記傾きについてのヒストグラムを作成して、そのヒストグラム中の最頻度の傾き(以下、最頻傾きという。)τ0を算出する。
なお、最頻度の傾きを算出するようにしてもよいが、平均値の傾きτ0を算出したり、或いは最頻度の傾きと傾きの平均値とを組み合わせた傾きτ0を算出するようにしてもよい。これにより、各帯域の傾きが特定の傾きに集中する傾向が強くなったとき、当該特定の傾きの値そのもの或いはそれに近い傾きの値を得ることができる。なお、本実施の形態では、最頻値計算部63Cが最頻傾きτ0を算出しているものとする。
なお、最頻度の傾きを算出するようにしてもよいが、平均値の傾きτ0を算出したり、或いは最頻度の傾きと傾きの平均値とを組み合わせた傾きτ0を算出するようにしてもよい。これにより、各帯域の傾きが特定の傾きに集中する傾向が強くなったとき、当該特定の傾きの値そのもの或いはそれに近い傾きの値を得ることができる。なお、本実施の形態では、最頻値計算部63Cが最頻傾きτ0を算出しているものとする。
そして、最頻値計算部63Cは、算出した最頻傾きτ0を前記音声/非音声判定部64に出力する。ここで、最頻傾きτ0をデータ63D2として前記音声/非音声判定部64に出力する。
音声/非音声判定部34では、ヒストグラム等計算部63からの最頻傾きτ0に基づいて、音声区間と非音声区間とを判定する。
音声/非音声判定部34では、ヒストグラム等計算部63からの最頻傾きτ0に基づいて、音声区間と非音声区間とを判定する。
なお、先の説明では、音声/非音声判定部34がヒストグラム等計算部63からの前記頻度に基づいて音声区間と非音声区間とを判定する場合について説明した。ここでは、音声/非音声判定部64は、ヒストグラム等計算部63からの最頻傾きτ0と第1乃至第N傾き計算部621〜62Nが算出した前記傾きτiに基づいて、音声区間と非音声区間とを判定しており、これに対応して、音声/非音声判定部64に、第1乃至第N傾き計算部621〜62Nが算出した前記傾きが入力されるようになっている。
すなわち、音声/非音声判定部64は、第1乃至第N傾き計算部621〜62Nが算出した前記傾きτiと最頻傾きτ0とを下記(6)式により比較する。
|τi−τ0|<δτ ・・・(6)
ここで、δτは判定用のしきい値(傾きしきい値)である。
音声/非音声判定部34は、この(6)式の条件が満たされていることが所定の割合を超えた場合(YES)、音声区間と判定し、そうでない場合(NO)、非音声区間と判定する。そして、音声/非音声判定部64は、その判定結果を分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。
|τi−τ0|<δτ ・・・(6)
ここで、δτは判定用のしきい値(傾きしきい値)である。
音声/非音声判定部34は、この(6)式の条件が満たされていることが所定の割合を超えた場合(YES)、音声区間と判定し、そうでない場合(NO)、非音声区間と判定する。そして、音声/非音声判定部64は、その判定結果を分離処理オン/オフ制御部12及び最適化計算オン/オフ制御部13に出力する。
次に第4の実施形態における効果を説明する。
先ず、第4の実施形態では、前述した第1の実施形態と同様な効果を得ることができる。
さらに、第4の実施形態では、第1及び第2マイク1,2に入力された音声信号間のクロススペクトルの位相を検出し、その検出したクロススペクトルの位相の周波数に対する傾きに基づいて、当該複数のマイクロホンが受音した音声信号中の発話区間を検出している。すなわち、音声が入力(発話入力)されていない音声信号と音声が入力(発話入力)されている音声信号とをクロススペクトルでみた場合に、そのクロススペクトルの位相成分に大きな違いがあることを利用して、当該複数のマイクロホンが受音した音声信号中の発話区間を検出している。具体的には、クロススペクトルの位相を帯域分割(セグメント分割)し、帯域毎(セグメント毎)の位相の傾きからヒストグラムを生成し、そのヒストグラムから頻度(具体的には最頻値)を得て、その頻度に基づいて、発話区間を検出している。これにより、精度よく発話区間を検出することができる。そして、このように精度よく発話区間を検出することができるので、分離行列を劣化させることなく、最適化することができるようになる。
先ず、第4の実施形態では、前述した第1の実施形態と同様な効果を得ることができる。
さらに、第4の実施形態では、第1及び第2マイク1,2に入力された音声信号間のクロススペクトルの位相を検出し、その検出したクロススペクトルの位相の周波数に対する傾きに基づいて、当該複数のマイクロホンが受音した音声信号中の発話区間を検出している。すなわち、音声が入力(発話入力)されていない音声信号と音声が入力(発話入力)されている音声信号とをクロススペクトルでみた場合に、そのクロススペクトルの位相成分に大きな違いがあることを利用して、当該複数のマイクロホンが受音した音声信号中の発話区間を検出している。具体的には、クロススペクトルの位相を帯域分割(セグメント分割)し、帯域毎(セグメント毎)の位相の傾きからヒストグラムを生成し、そのヒストグラムから頻度(具体的には最頻値)を得て、その頻度に基づいて、発話区間を検出している。これにより、精度よく発話区間を検出することができる。そして、このように精度よく発話区間を検出することができるので、分離行列を劣化させることなく、最適化することができるようになる。
なお、前述の実施形態では、第1及び第2マイク1,2から入力された音声信号x1(t),x2(t)を、直接第1及び第2フレーム化部21,22にそれぞれ入力しているが、具体的には、第1及び第2マイク1,2から入力された音声信号x1(t),x2(t)を、AD(アナログ/デジタル)変換した後、第1及び第2フレーム化部21,22に入力するようにする。これを、図2に示した実施形態の音声信号処理装置10の構成に適用すると、図14に示すような構成になる。
この図14に示すように、第1及び第2マイク1,2から入力された音声信号x1(t),x2(t)をそれぞれ、第1及び第2AD変換部71,72でAD変換した後、第1及び第2フレーム化部21,22に入力する。
ここで、第1及び第2AD変換部71,72でAD変換されたデータ形式は、例えば11025Hz、16bit、リニアPCMである。また、第1及び第2フレーム化部21,22でフレーム化された信号のフレーム長は、例えば512サンプルフレーム長である。
ここで、第1及び第2AD変換部71,72でAD変換されたデータ形式は、例えば11025Hz、16bit、リニアPCMである。また、第1及び第2フレーム化部21,22でフレーム化された信号のフレーム長は、例えば512サンプルフレーム長である。
また、前述の実施形態では、検出対象音が人間が発する発話音である場合を説明したが、検出対象音は、人間以外の物体が発する音でもよい。
また、前述の実施形態の説明において、発話区間判定部11は、検出対象音源からの音を検出する対象音件手段又は発話源からの音の発話区間を検出する発話区間検出手段を実現しており、分離処理オン/オフ制御部12、最適化計算オン/オフ制御部13及び分離行列最適化計算部26は、前記対象音検出手段又は発話区間検出手段が検出対象音源からの音又は発話区間を検出した場合、第1及び第2マイクに入力された音信号を用いて分離行列を最適化する分離行列最適化手段を実現しており、分離処理部25は、前記分離行列最適化手段が最適化した分離行列を用いて、混合音から検出対象音源の音又は発話源からの音と雑音源からの音とを分離する分離手段を実現している。
また、前述の実施形態の説明において、発話区間判定部11は、検出対象音源からの音を検出する対象音件手段又は発話源からの音の発話区間を検出する発話区間検出手段を実現しており、分離処理オン/オフ制御部12、最適化計算オン/オフ制御部13及び分離行列最適化計算部26は、前記対象音検出手段又は発話区間検出手段が検出対象音源からの音又は発話区間を検出した場合、第1及び第2マイクに入力された音信号を用いて分離行列を最適化する分離行列最適化手段を実現しており、分離処理部25は、前記分離行列最適化手段が最適化した分離行列を用いて、混合音から検出対象音源の音又は発話源からの音と雑音源からの音とを分離する分離手段を実現している。
また、前述の実施形態の音声信号処理装置10を音声認識装置に適用することができる。この場合、音声認識装置は、前述したような音声信号処理装置10の構成に加えて、音声信号処理装置10が検出した発話区間の音声信号について音声認識処理をする音声認識処理手段を備える。
ここで、音声認識技術としては、例えば、旭化成株式会社が提供する音声認識技術「VORERO」(商標)(http://www.asahi-kasei.co.jp/vorero/jp/vorero/feature.html参照)等があり、このような音声認識技術の用いた音声認識装置に適用することもできる。
ここで、音声認識技術としては、例えば、旭化成株式会社が提供する音声認識技術「VORERO」(商標)(http://www.asahi-kasei.co.jp/vorero/jp/vorero/feature.html参照)等があり、このような音声認識技術の用いた音声認識装置に適用することもできる。
また、前述の実施形態の音声信号処理装置10をコンピュータで実現することができる。そして、前述したような音声信号処理装置10の処理内容をコンピュータが所定のプログラムにより実現する。この場合、プログラムは、検出対象音源からの音の検出の有無により分離行列の最適化の実行を切換可能にするとともに、検出対象音源からの音を検出した場合、分離行列の最適化を行い、検出対象音源からの音を検出できない場合、分離行列の最適化を行わないようにコンピュータに実行させるプログラムになる。
1,2 マイク
10 音声信号処理装置
11 発話区間判定部
12 分離処理オン/オフ制御部
13 最適化計算オン/オフ制御部
20 ブラインド音源分離部
21,22 フレーム化部
23,24 周波数分析部
25 分離処理部
26 分離行列最適化計算部
101 話者音源
102 雑音源
10 音声信号処理装置
11 発話区間判定部
12 分離処理オン/オフ制御部
13 最適化計算オン/オフ制御部
20 ブラインド音源分離部
21,22 フレーム化部
23,24 周波数分析部
25 分離処理部
26 分離行列最適化計算部
101 話者音源
102 雑音源
Claims (12)
- 検出対象音源からの音と雑音源からの音との混合音により分離行列を最適化していき、当該最適化した分離行列を用いて、前記混合音から検出対象音源からの音と雑音源からの音とを分離するブラインド音源分離(BBS:BlindSource Separation)を行う音信号処理方法において、
前記検出対象音源からの音の検出の有無により前記分離行列の最適化の実行を切換可能にするとともに、前記検出対象音源からの音を検出した場合、前記分離行列の最適化を行い、前記検出対象音源からの音を検出できない場合、前記分離行列の最適化を行わないことを特徴とする音信号処理方法。 - 前記検出対象音源からの音が所定長以上の音の場合、前記分離行列の最適化を行い、前記検出対象音源からの音が所定長未満の音の場合、前記分離行列の最適化を行わないことを特徴とする請求項1記載の音信号処理方法。
- 前記ブラインド音源分離では、無指向性マイクに前記混合音が入力され、単一指向性マイクに前記検出対象音源からの音又は前記雑音源からの音のいずれか一方が入力され、前記無指向性マイク及び単一指向性マイクに入力された音の音信号を用いて前記分離行列の最適化を行い、かつ当該最適化した分離行列を用いて前記混合音から検出対象音源からの音と雑音源からの音とを分離しており、
前記無指向性マイクに入力された混合音の音信号と前記単一指向性マイクに入力された音の音信号とを比較し、その比較結果に基づいて、前記検出対象音源からの音を検出することを特徴とする請求項1又は2記載の音信号処理方法。 - 検出対象音源からの音と雑音源からの音との混合音により分離行列を最適化していき、当該最適化した分離行列を用いて、前記混合音から検出対象音源からの音と雑音源からの音とを分離するブラインド音源分離(BBS:BlindSource Separation)を行う音信号処理装置において、
前記混合音が入力される第1マイクと、
前記検出対象音源からの音と雑音源からの音とのうちの少なくとも一方が入力される第2マイクと、
前記検出対象音源からの音を検出する対象音検出手段と、
前記対象音検出手段が検出対象音を検出した場合、前記第1及び第2マイクに入力された音の音信号を用いて前記分離行列を最適化する分離行列最適化手段と、
前記分離行列最適化手段が最適化した分離行列を用いて、前記第1マイクに入力された混合音から検出対象音源からの音と雑音源からの音とを分離する分離手段と、
を備えることを特徴とする音信号処理装置。 - 前記分離行列最適化手段は、前記検出対象音検出手段が検出した検出対象音が所定長以上の音の場合、前記分離行列の最適化を行うことを特徴とする請求項4記載の音信号処理装置。
- 前記第1マイクは、前記混合音が入力されるように配置された無指向性マイクであり、第2のマイクは、前記検出対象音源からの音と雑音源からの音とのうちのいずれか一方が入力されるように配置された単一指向性マイクであり、
前記対象音検出手段は、前記第1マイクに入力された混合音の音信号と前記第2マイクに入力された音の音信号とを比較して、その比較結果に基づいて、前記検出対象音を検出することを特徴とする請求項4又は5記載の音信号処理装置。 - 前記第1マイクに入力された混合音の音信号及び第2マイクに入力された検出対象音源からの音と雑音源からの音とのうちのいずれか一方の音の音信号を時分割してフレーム化するフレーム化手段を備えており、
前記対象音検出手段は、前記フレーム化手段から出力されるフレーム単位で、前記第1マイクに入力された混合音の音信号と、前記第2マイクに入力された音の音信号とを比較し、その比較結果に基づいて、前記フレーム化手段から出力されるフレーム単位で前記検出対象音を検出することを特徴とする請求項6記載の音信号処理装置。 - 発話源からの音と雑音源からの音との混合音により分離行列を最適化していき、当該最適化した分離行列を用いて、前記混合音から発話源からの音と雑音源からの音とを、ブラインド音源分離(BBS:BlindSource Separation)により分離し、その分離した発話源からの音について音声認識処理を行う音声認識装置において、
前記混合音が入力される第1マイクと、
前記発話源からの音と雑音源からの音とのうちの少なくとも一方が入力される第2マイクと、
前記発話源からの音の発話区間を検出する発話区間検出手段と、
前記発話区間検出手段が発話区間を検出した場合、前記第1及び第2マイクに入力された音信号を用いて前記分離行列を最適化する分離行列最適化手段と、
前記分離行列最適化手段が最適化した分離行列を用いて、前記第1マイクに入力された混合音から発話源からの音と雑音源からの音とを分離する分離手段と、
前記分離手段が分離した発話源からの音について、音声認識処理を行う音声認識処理手段と、
を備えることを特徴とする音声認識装置。 - 前記分離行列最適化手段は、前記発話区間検出手段が検出した発話区間が所定長以上の場合、前記分離行列の最適化を行うことを特徴とする請求項8記載の音声認識装置。
- 前記第1マイクは、前記混合音が入力されるように配置された無指向性マイクであり、第2のマイクは、前記発話源からの音と雑音源からの音とのうちのいずれか一方が入力されるように配置された単一指向性マイクであり、
前記発話区間検出手段は、前記第1マイクに入力された混合音の音信号と前記第2マイクに入力された音の音信号とを比較して、その比較結果に基づいて、前記発話区間を検出することを特徴とする請求項8又は9記載の音声認識装置。 - 前記第1に入力された混合音の音信号及び第2マイクに入力された発話源からの音と雑音源からの音とのうちのいずれか一方の音の音信号を時分割してフレーム化するフレーム化手段を備えており、
前記発話区間検出手段は、前記フレーム化手段から出力されるフレーム単位で、前記第1マイクに入力された混合音の音信号と、前記第2マイクに入力された音の音信号とを比較し、その比較結果に基づいて、前記フレーム化手段から出力されるフレーム単位で前記発話区間を検出することを特徴とする請求項10記載の音声認識装置。 - 検出対象音源からの音と雑音源からの音との混合音により分離行列を最適化していき、当該分離行列を用いて、前記混合音から検出対象音源からの音と雑音源からの音とを分離するブラインド音源分離(BBS:BlindSource Separation)をコンピュータに実現させるプログラムにおいて、
前記検出対象音源からの音の検出の有無により前記分離行列の最適化の実行を切換可能にするとともに、前記検出対象音源からの音を検出した場合、前記分離行列の最適化を行い、前記検出対象音源からの音を検出できない場合、前記分離行列の最適化を行わないようにコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004035619A JP2005227512A (ja) | 2004-02-12 | 2004-02-12 | 音信号処理方法及びその装置、音声認識装置並びにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004035619A JP2005227512A (ja) | 2004-02-12 | 2004-02-12 | 音信号処理方法及びその装置、音声認識装置並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005227512A true JP2005227512A (ja) | 2005-08-25 |
Family
ID=35002271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004035619A Pending JP2005227512A (ja) | 2004-02-12 | 2004-02-12 | 音信号処理方法及びその装置、音声認識装置並びにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005227512A (ja) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008035259A (ja) * | 2006-07-28 | 2008-02-14 | Kobe Steel Ltd | 音源分離装置、音源分離方法及び音源分離プログラム |
JP2008054071A (ja) * | 2006-08-25 | 2008-03-06 | Hitachi Communication Technologies Ltd | 紙擦れ音除去装置 |
JP2009535998A (ja) * | 2006-05-02 | 2009-10-01 | クゥアルコム・インコーポレイテッド | ブラインド信号源分離(bss)の向上技術 |
JP2010250152A (ja) * | 2009-04-17 | 2010-11-04 | Secom Co Ltd | 発声検出装置 |
JP2011033717A (ja) * | 2009-07-30 | 2011-02-17 | Secom Co Ltd | 雑音抑圧装置 |
JP2011512732A (ja) * | 2008-01-31 | 2011-04-21 | クゥアルコム・インコーポレイテッド | マイクの覆いをユーザに知らせること |
WO2011074702A1 (ja) * | 2009-12-18 | 2011-06-23 | 日本電気株式会社 | 信号分離装置、信号分離方法、及び信号分離プログラム |
US8175871B2 (en) | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
US8223988B2 (en) | 2008-01-29 | 2012-07-17 | Qualcomm Incorporated | Enhanced blind source separation algorithm for highly correlated mixtures |
JP2012238964A (ja) * | 2011-05-10 | 2012-12-06 | Funai Electric Co Ltd | 音分離装置、及び、それを備えたカメラユニット |
JP2013543712A (ja) * | 2010-10-07 | 2013-12-05 | コンサートソニックス・リミテッド・ライアビリティ・カンパニー | 音を増強させるための方法及びシステム |
US8954324B2 (en) | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
JP2015198411A (ja) * | 2014-04-03 | 2015-11-09 | 日本電信電話株式会社 | 変換装置 |
US20170040030A1 (en) * | 2015-08-04 | 2017-02-09 | Honda Motor Co., Ltd. | Audio processing apparatus and audio processing method |
US10002623B2 (en) | 2015-09-28 | 2018-06-19 | Honda Motor Co., Ltd. | Speech-processing apparatus and speech-processing method |
US10410641B2 (en) | 2016-04-08 | 2019-09-10 | Dolby Laboratories Licensing Corporation | Audio source separation |
-
2004
- 2004-02-12 JP JP2004035619A patent/JP2005227512A/ja active Pending
Non-Patent Citations (2)
Title |
---|
JPN7009004944, 新田 基樹ほか, "「ブラインドセパレーションの選択的学習法」", 電子情報通信学会技術研究報告, 19990520, Vol.99 No.58, JP, 社団法人電子情報通信学会 * |
JPN7009004947, 浅野 太ほか, "「音響と画像の情報統合を用いた話者追跡と音源分離」", 人工知能学会研究資料, 20031113, p.19〜26, JP, 社団法人人工知能学会 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009535998A (ja) * | 2006-05-02 | 2009-10-01 | クゥアルコム・インコーポレイテッド | ブラインド信号源分離(bss)の向上技術 |
JP2008035259A (ja) * | 2006-07-28 | 2008-02-14 | Kobe Steel Ltd | 音源分離装置、音源分離方法及び音源分離プログラム |
JP4672611B2 (ja) * | 2006-07-28 | 2011-04-20 | 株式会社神戸製鋼所 | 音源分離装置、音源分離方法及び音源分離プログラム |
JP2008054071A (ja) * | 2006-08-25 | 2008-03-06 | Hitachi Communication Technologies Ltd | 紙擦れ音除去装置 |
US8175871B2 (en) | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
US8954324B2 (en) | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
US8223988B2 (en) | 2008-01-29 | 2012-07-17 | Qualcomm Incorporated | Enhanced blind source separation algorithm for highly correlated mixtures |
JP2011512732A (ja) * | 2008-01-31 | 2011-04-21 | クゥアルコム・インコーポレイテッド | マイクの覆いをユーザに知らせること |
JP2010250152A (ja) * | 2009-04-17 | 2010-11-04 | Secom Co Ltd | 発声検出装置 |
JP2011033717A (ja) * | 2009-07-30 | 2011-02-17 | Secom Co Ltd | 雑音抑圧装置 |
WO2011074702A1 (ja) * | 2009-12-18 | 2011-06-23 | 日本電気株式会社 | 信号分離装置、信号分離方法、及び信号分離プログラム |
US8644346B2 (en) | 2009-12-18 | 2014-02-04 | Nec Corporation | Signal demultiplexing device, signal demultiplexing method and non-transitory computer readable medium storing a signal demultiplexing program |
JP2013543712A (ja) * | 2010-10-07 | 2013-12-05 | コンサートソニックス・リミテッド・ライアビリティ・カンパニー | 音を増強させるための方法及びシステム |
JP2012238964A (ja) * | 2011-05-10 | 2012-12-06 | Funai Electric Co Ltd | 音分離装置、及び、それを備えたカメラユニット |
JP2015198411A (ja) * | 2014-04-03 | 2015-11-09 | 日本電信電話株式会社 | 変換装置 |
US20170040030A1 (en) * | 2015-08-04 | 2017-02-09 | Honda Motor Co., Ltd. | Audio processing apparatus and audio processing method |
US10622008B2 (en) | 2015-08-04 | 2020-04-14 | Honda Motor Co., Ltd. | Audio processing apparatus and audio processing method |
US10002623B2 (en) | 2015-09-28 | 2018-06-19 | Honda Motor Co., Ltd. | Speech-processing apparatus and speech-processing method |
US10410641B2 (en) | 2016-04-08 | 2019-09-10 | Dolby Laboratories Licensing Corporation | Audio source separation |
US10818302B2 (en) | 2016-04-08 | 2020-10-27 | Dolby Laboratories Licensing Corporation | Audio source separation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111370014B (zh) | 多流目标-语音检测和信道融合的系统和方法 | |
EP1349419B1 (en) | Orthogonal circular microphone array system and method for detecting three-dimensional direction of sound source using the same | |
JP2005227512A (ja) | 音信号処理方法及びその装置、音声認識装置並びにプログラム | |
US8981994B2 (en) | Processing signals | |
EP2725819B1 (en) | Method and implementation apparatus for intelligently controlling volume of electronic device | |
JP4939935B2 (ja) | 整合された音響処理を備える両耳用補聴器システム | |
EP2492912B1 (en) | Sound processing apparatus, sound processing method and hearing aid | |
EP3002753B1 (en) | Speech enhancement method and apparatus for same | |
JP4910568B2 (ja) | 紙擦れ音除去装置 | |
CN106663445A (zh) | 声音处理装置、声音处理方法及程序 | |
CN102625946A (zh) | 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体 | |
AU2003296976A1 (en) | System and method for speech processing using independent component analysis under stability constraints | |
Nordqvist et al. | An efficient robust sound classification algorithm for hearing aids | |
US11264017B2 (en) | Robust speaker localization in presence of strong noise interference systems and methods | |
KR20090037692A (ko) | 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치 | |
US9532138B1 (en) | Systems and methods for suppressing audio noise in a communication system | |
EP1913591B1 (en) | Enhancement of speech intelligibility in a mobile communication device by controlling the operation of a vibrator in dependance of the background noise | |
US8200488B2 (en) | Method for processing speech using absolute loudness | |
JP3925734B2 (ja) | 対象音検出方法、信号入力遅延時間検出方法及び音信号処理装置 | |
JP5451562B2 (ja) | 音響処理システム及びこれを用いた機械 | |
WO2018173526A1 (ja) | 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法 | |
JP2005227511A (ja) | 対象音検出方法、音信号処理装置、音声認識装置及びプログラム | |
JP2022544065A (ja) | 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置 | |
Okuma et al. | Two-channel microphone system with variable arbitrary directional pattern | |
JP5134477B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091110 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100406 |