JP4875656B2 - 信号区間推定装置とその方法と、プログラムとその記録媒体 - Google Patents
信号区間推定装置とその方法と、プログラムとその記録媒体 Download PDFInfo
- Publication number
- JP4875656B2 JP4875656B2 JP2008119717A JP2008119717A JP4875656B2 JP 4875656 B2 JP4875656 B2 JP 4875656B2 JP 2008119717 A JP2008119717 A JP 2008119717A JP 2008119717 A JP2008119717 A JP 2008119717A JP 4875656 B2 JP4875656 B2 JP 4875656B2
- Authority
- JP
- Japan
- Prior art keywords
- probability
- sound source
- frame
- signal
- arrival
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
S.Araki,H.Sawada,and S.Makino,"Blind speech separation in a meeting situation with maximum SNR beamformers,"ICASSP2007,vol.1,pp.41-44,Apr.2007.
この発明は、このような点に鑑みてなされたものであり、音声区間を欠損させることのない複数信号区間推定装置と、その方法とプログラムと、その記録媒体を提供することを目的とする。
図3に音声存在確率推定部12の機能ブロックを示す。音声存在確率推定部12は、GMMパラメータ記録部120と、カルマンフィルタ121と、GMM尤度計算部122と、単一ガウス分布尤度計算部123と、推移確率記録部124と、前向き確率算出部125と、前向き確率保持部126を備える。音声存在確率推定部12は、入力の特徴ベクトルを混合ガウス分布で表現したGMM(Gaussian Mixture model)を用いて、式(1)と(2)に示すように音声存在確率pv(τ)を前向き確率αj(τ)として算出するものである。
GMM尤度計算部122は、各ガウス分布の尤度bjk(τ)と、重み係数ωjkを入力として音声GMMb1(τ)及び非音声GMMb0(τ)の尤度bj(τ)を式(4)で計算する。
なお、音声存在確率pv(τ)を式(5)に示す演算で求めても良い。
〔参考文献〕J.Sohn,N.S.Kim and W.Sung,“A Statistical Model-Based Voice Activity Detection,IEEE Signal Processing letters”,vol.6,no.1,pp.1-3,1999.
図4に到来方向推定部13と到来方向確率計算部14の機能構成例を示す。到来方向推定部13は、マイク間位相差計算部131と音源方向ベクトル計算部132を備える。マイク間位相差計算部131は、周波数領域に変換された観測信号x(f,τ)の各フレームτ、各周波数fにおけるマイク間位相差q´jj´を式(8)で計算する。
到来方向確率計算部14は、クラスタリング部140と、各クラスタの分布計算部160と、確率計算部170を備える。この実施例では、クラスタリング部140が、音源方向ベクトルq(f,τ)の各フレームの各周波数(f,τ)における水平角θ(f,τ)をオンラインクラスタリングする。到来方向確率計算部14の動作フローを図5に示す。到来方向確率計算過程(ステップS14、図2参照)は、クラスタリング部140が音源方向ベクトルとクラスタのセントロイドとの距離で音源方向ベクトルを分類する分類ステップ(ステップS140、図5参照)と、各クラスタの分布計算部が分類毎の音源方向ベクトルの分布を計算する分布計算ステップ(ステップS160)と、確率計算部170が分類毎の音源方向ベクトルの分布を、音源方向ベクトルの全体の分布で除して音声到来方向確率として計算する確率計算ステップ(ステップS170)とを含む。図6に分類ステップS140の詳細な動作フローを示して説明する。
まず、分類するグループの中心値であるセントロイドを更新する大きさである更新ステップサイズβと、グループ分けするための閾値zを設定する。更新ステップサイズβと閾値zは、この発明を実施する環境に応じて適宜実験的に定められる値である。
<ステップS142>
フレームτと周波数fを初期化(τ=1,f=1)する。
<ステップS143>
最初のフレームτ=1の最小周波数f=1の音源方向ベクトルq(f,τ)の水平角θ(f,τ)を、第1のセントロイドc1とする。
<ステップS144>
周波数fを次の周波数にインクリメントする。
水平角θ(f,τ)に最も近い既存セントロイドckを見つけ、その番号をkとする。つまり式(11)で、クラスタリングする周波数成分の水平角に最も近いクラスタkを選択する。
ステップS145で求めた最も近いセントロイドckとθ(f,τ)の距離と閾値zを比較する。距離が閾値zより小さければ(ステップS146のYes)、θ(f,τ)も同方向(音源)からの周波数成分と判定してステップS147の処理を行う。距離が閾値zよりも大きければ(ステップS146のNo)、他の方向の音源からの周波数成分と判定してステップS149の処理を行う。
<ステップS147>
セントロイドckを式(12)で更新する。
<ステップS148>
距離が閾値zより小さいので同方向(音源)からの周波数成分と判断し、その時間周波数(f,τ)にクラスタKのクラスタ番号を付与する。ここでは、ある時間周波数(f,τ)のクラスタ番号をC(f,τ)に保持する。
距離が閾値zよりも大きいので、この音源方向ベクトルq(f,τ)は、他の方向の音源からの周波数成分と判定する(ステップS146のNo)。他の方向からの周波数成分として分類するために、max(k)+1番目の新しいクラスタを生成し、そのセントロイドをcmax(k)+1=θ(f,τ)として与える。
<ステップS150>
その時間周波数(f,τ)に新しいクラスタ番号を付与する。
<ステップS151>
周波数fが、最後の周波数か否かを判定する。最後の周波数で無い場合(ステップS151のNo)、周波数をインクリメント(ステップS154)してステップS145の動作に戻る。
周波数fが、最後の周波数の場合(ステップS151のYes)、フレームτが最後であるか否かを判定する。フレームτが最後の場合、クラスタリング動作を終了する(ステップS152のYes)。フレームτが最後で無い場合(ステップS152のNo)、フレームτをインクリメントすると共に周波数を初期化(ステップS155)してステップS145の動作に戻る。なお、メンバ数が少ないクラスタは除外しても良い(破線で示すステップS153)。
クラスタリング部140で分類された音源方向ベクトルq(f,τ)の水平角θ(f,τ)の分布を、各クラスタの分布計算部160が計算する。各クラスタの分布計算部160は、式(13)を用いて各クラスタを平均値ck,分散σk 2の正規分布でモデル化する(ステップS160、図5参照)。
クラスタリング部140´は、ある時刻τまでに存在するクラスタのセントロイドckについて、式(19)に示す計算をして音源方向ベクトルq(f,τ)をクラスタリングする(ステップS140´)。
確率計算部170´は、式(20)で到来方向確率pk(τ)を計算する(ステップS170´)。
振幅計算部61は、音源方向ベクトルq(f,τ)の時間周波数(f,τ)における正規化された振幅値a(f,τ)を式(21)で計算する(ステップS61)。
確率計算部62は、振幅値a(f,τ)を用いて到来方向確率pk(τ)を式(22)で算出する(ステップS170´)。
なお、式(22)は実施例2に振幅計算部61を設けた場合の式である。音源方向ベクトルの分布を正規分布として求めた実施例1に振幅計算部61を設けても、雑音を抑圧する効果が期待できる。
実施例2の複数信号区間推定装置の性能を確認するシミュレーションを行った。シミュ
レーション条件を簡単に説明する。図7にシミュレーションに用いた部屋の平面図を示す。奥行きのある部屋の幅側の一辺を、305cmの幅のパーテーションで仕切り、幅が約4mで奥行き約9.3mの部屋を形成した。この部屋の残響時間は約350msである。パーテーションの一方の隅にはパーソナルコンピュータ(PC)があり、そのファンノイズが本システムに対する雑音となった。パーテーション側に近い位置に長円形のテーブルを配置した。テーブルを挟んでパーテーション側に話者AとBの二人、反対側に話者CとDの二人を座らせた。そして4人の話者のほぼ中央付近の位置に3個のマイクロホンを、4cmの正三角形の頂点に位置するように配置した。
法では、特に誤棄却(MST)が大きく改善され、その結果としてDERの値が改善した。これは、フレーム毎に、音声区間と音声到来方向が、確率値として処理されること、及び各フレームで複数の方向を推定することにより音声区間が欠損することが少ないことによる。
例えば、音声存在確率pv(τ)と到来方向確率pk(τ)の一方を、計算を軽くする目的で、決定論的に算出するようにしても良い。一方を決定論的に算出しても、音声が在ると判定されたフレームにおいては、複数音源があれば複数方向の方向確率が計算されるので、そのフレーム内の複数の音源を取りこぼすことが従来法に比べて少なくなる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (10)
- 複数のマイクロホンで収録された複数の音源からの音声信号から、各音源から信号が発せられている区間を推定する信号区間推定装置であって、
上記音声信号を、フレーム毎に周波数領域の信号に変換する周波数領域変換部と、
上記フレーム毎の周波数領域の信号からフレーム毎に音声の存在確率を推定する音声存在確率推定部と、
上記フレーム毎の周波数領域の信号からフレーム毎に各周波数成分についての音声到来方向を推定する到来方向推定部と、
上記各周波数成分についての音声到来方向からフレーム毎に上記各音源に関する音声到来方向確率を計算する到来方向確率計算部と、
上記音声存在確率と、上記音声到来方向確率との積を計算して上記各フレームにおける音源毎の存在確率を出力する乗算部と、
上記音源毎の存在確率が所定の閾値を越える場合に、当該フレームを当該音源の信号区間と判定する判定部と、
を具備する信号区間推定装置。 - 請求項1に記載の信号区間推定装置において、
上記到来方向確率計算部は、クラスタリング部と、各クラスタの分布計算部と、確率計算部を備え、
上記クラスタリング部は、上記フレーム毎に計算された各周波数での音源方向をクラスタリングすることにより、上記音源方向をクラスタに分けるものであり、
上記各クラスタの分布計算部は、上記クラスタリング部で得られた各クラスタの上記音源方向の分布を計算するものであり、
上記確率計算部は、上記クラスタ毎の上記音源方向の分布を、上記音源方向の全体の分布で正規化して音声到来方向確率として出力するものである、
ことを特徴とする信号区間推定装置。 - 請求項1に記載の信号区間推定装置において、
上記到来方向確率計算部は、クラスタリング部と、確率計算部を備え、
上記クラスタリング部は、上記フレーム毎に計算された各周波数での音源方向と閾値との距離で上記音源方向をクラスタリングするものであり、
上記確率計算部は、上記クラスタの各メンバ数を上記音源方向の全体のメンバ数で除した値を音声到来方向確率として出力するものであることを特徴とする信号区間推定装置。 - 請求項1乃至3の何れかに記載した信号区間推定装置において、
上記到来方向確率計算部は、上記各フレーム、各周波数における正規化された振幅値を計算する振幅計算部を備え、
上記音声到来方向確率を計算する際に、上記正規化された振幅値を重み係数として用いることを特徴とする信号区間推定装置。 - 複数のマイクロホンで収録された複数の音源からの音声信号から、各音源から信号が発せられている区間を推定する信号区間推定方法であって、
周波数領域変換部が、上記音声信号を、フレーム毎に周波数領域の信号に変換する周波数領域過程と、
音声存在確率推定部が、上記フレーム毎の周波数領域の信号からフレーム毎に音声存在確率を推定する音声存在確率推定過程と、
到来方向推定部が、上記フレーム毎の周波数領域の信号からフレーム毎に各周波数成分についての音声到来方向を推定する到来方向推定過程と、
到来方向確率計算部が、上記各周波数成分についての音声到来方向からフレーム毎に上記各音源に関する音声到来方向確率を計算する到来方向確率計算過程と、
乗算部が、上記音声存在確率と、上記音声到来方向確率との積を計算して上記各フレームにおける音源毎の存在確率を出力する乗算過程と、
判定部が、上記音源毎の存在確率が所定の閾値を越える場合に、当該フレームを当該音源の信号区間と判定する判定過程と、
を含む信号区間推定方法。 - 請求項5に記載の信号区間推定方法において、
上記到来方向確率計算過程は、クラスタリング部が、上記フレーム毎に計算された各周波数での音源方向をクラスタリングすることにより、上記音源方向をクラスタに分ける分類ステップと、
各クラスタの分布計算部が、上記クラスタの上記音源方向の分布を計算する分布計算ステップと、
確率計算部が、上記クラスタ毎の上記音源方向の分布を、上記音源方向の全体の分布で正規化して音声到来方向確率として計算する確率計算ステップと、
を含むことを特徴とする信号区間推定方法。 - 請求項5に記載した信号区間推定方法において、
上記到来方向確率計算過程は、クラスタリング部が、上記フレーム毎に計算された各周波数での音源方向をクラスタリングする分類ステップと、
確率計算部が、上記クラスタの各メンバ数を上記音源方向の全体のメンバ数で除した値を音声到来方向確率として計算する確率計算ステップと、
を含むことを特徴とする信号区間推定方法。 - 請求項5乃至7の何れかに記載した信号区間推定方法において、
上記到来方向確率計算過程は、振幅計算部が、上記各フレーム、各周波数における正規化された振幅値を計算する振幅計算ステップを含み、
上記正規化された振幅値を重み係数として用いて上記音声到来方向確率を計算することを特徴とする信号区間推定方法。 - 請求項1乃至4の何れかに記載した信号区間推定装置としてコンピュータを機能させるためのプログラム。
- 請求項9に記載したプログラムを記録したコンピュータで読み取り可能な記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008119717A JP4875656B2 (ja) | 2008-05-01 | 2008-05-01 | 信号区間推定装置とその方法と、プログラムとその記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008119717A JP4875656B2 (ja) | 2008-05-01 | 2008-05-01 | 信号区間推定装置とその方法と、プログラムとその記録媒体 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2009271183A JP2009271183A (ja) | 2009-11-19 |
| JP4875656B2 true JP4875656B2 (ja) | 2012-02-15 |
Family
ID=41437810
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008119717A Expired - Fee Related JP4875656B2 (ja) | 2008-05-01 | 2008-05-01 | 信号区間推定装置とその方法と、プログラムとその記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4875656B2 (ja) |
Families Citing this family (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9313599B2 (en) | 2010-11-19 | 2016-04-12 | Nokia Technologies Oy | Apparatus and method for multi-channel signal playback |
| US9055371B2 (en) | 2010-11-19 | 2015-06-09 | Nokia Technologies Oy | Controllable playback system offering hierarchical playback options |
| US9456289B2 (en) | 2010-11-19 | 2016-09-27 | Nokia Technologies Oy | Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof |
| JP2012149906A (ja) * | 2011-01-17 | 2012-08-09 | Mitsubishi Electric Corp | 音源位置推定装置、音源位置推定方法および音源位置推定プログラム |
| JP5668553B2 (ja) * | 2011-03-18 | 2015-02-12 | 富士通株式会社 | 音声誤検出判別装置、音声誤検出判別方法、およびプログラム |
| US9285452B2 (en) * | 2011-11-17 | 2016-03-15 | Nokia Technologies Oy | Spatial visual effect creation and display such as for a screensaver |
| WO2013150341A1 (en) | 2012-04-05 | 2013-10-10 | Nokia Corporation | Flexible spatial audio capture apparatus |
| JP6240995B2 (ja) * | 2013-01-15 | 2017-12-06 | 株式会社国際電気通信基礎技術研究所 | 移動体、音響源マップ作成システムおよび音響源マップ作成方法 |
| WO2014162171A1 (en) | 2013-04-04 | 2014-10-09 | Nokia Corporation | Visual audio processing apparatus |
| US9706324B2 (en) | 2013-05-17 | 2017-07-11 | Nokia Technologies Oy | Spatial object oriented audio apparatus |
| JP6158006B2 (ja) * | 2013-09-17 | 2017-07-05 | 株式会社東芝 | 音声処理装置、方法、及びプログラム |
| JP6740658B2 (ja) * | 2016-03-24 | 2020-08-19 | 日本電気株式会社 | パッシブソナーに関する装置、方法及びプログラム |
| JP2019008274A (ja) * | 2017-06-26 | 2019-01-17 | フェアリーデバイセズ株式会社 | 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007085734A (ja) * | 2005-09-16 | 2007-04-05 | Research Organization Of Information & Systems | 音源方向検出装置及び音源方向検出方法 |
-
2008
- 2008-05-01 JP JP2008119717A patent/JP4875656B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2009271183A (ja) | 2009-11-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4875656B2 (ja) | 信号区間推定装置とその方法と、プログラムとその記録媒体 | |
| JP4964204B2 (ja) | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 | |
| US8554562B2 (en) | Method and system for speaker diarization | |
| US9818428B2 (en) | Extraction of target speeches | |
| JP5842056B2 (ja) | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 | |
| JP5568530B2 (ja) | 音源分離装置とその方法とプログラム | |
| JP6594839B2 (ja) | 話者数推定装置、話者数推定方法、およびプログラム | |
| US11900949B2 (en) | Signal extraction system, signal extraction learning method, and signal extraction learning program | |
| JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
| JP2009210647A (ja) | 雑音除去装置、その方法、そのプログラム及び記録媒体 | |
| JP2010175431A (ja) | 音源方向推定装置とその方法と、プログラム | |
| JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
| JP4746533B2 (ja) | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 | |
| CN107545898B (zh) | 一种区分说话人语音的处理方法及装置 | |
| JP2012042664A (ja) | 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体 | |
| KR101658001B1 (ko) | 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법 | |
| WO2012105385A1 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
| Jeon et al. | Acoustic surveillance of hazardous situations using nonnegative matrix factorization and hidden Markov model | |
| JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
| JP2013186383A (ja) | 音源分離装置、音源分離方法、およびプログラム | |
| WO2019194300A1 (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
| JP2015155982A (ja) | 音声区間検出装置、音声認識装置、その方法、及びプログラム | |
| JP6059112B2 (ja) | 音源分離装置とその方法とプログラム | |
| JP5044581B2 (ja) | 複数信号強調装置とその方法と、プログラム | |
| JP5457999B2 (ja) | 雑音抑圧装置とその方法とプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100726 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110729 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110906 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111018 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111115 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111125 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141202 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4875656 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |
