JP4875656B2 - 信号区間推定装置とその方法と、プログラムとその記録媒体 - Google Patents

信号区間推定装置とその方法と、プログラムとその記録媒体 Download PDF

Info

Publication number
JP4875656B2
JP4875656B2 JP2008119717A JP2008119717A JP4875656B2 JP 4875656 B2 JP4875656 B2 JP 4875656B2 JP 2008119717 A JP2008119717 A JP 2008119717A JP 2008119717 A JP2008119717 A JP 2008119717A JP 4875656 B2 JP4875656 B2 JP 4875656B2
Authority
JP
Japan
Prior art keywords
probability
sound source
frame
signal
arrival
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008119717A
Other languages
English (en)
Other versions
JP2009271183A (ja
Inventor
章子 荒木
健太郎 石塚
雅清 藤本
昭二 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008119717A priority Critical patent/JP4875656B2/ja
Publication of JP2009271183A publication Critical patent/JP2009271183A/ja
Application granted granted Critical
Publication of JP4875656B2 publication Critical patent/JP4875656B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

この発明は、複数人による会話などを複数のマイクロホンで収録し、「いつ誰が話したか」を推定する技術に関連する。特に、複数の音源からの信号が混在しているデータについて、各音源から信号が発せられている区間を推定する複数信号区間推定装置とその方法と、プログラムと記録媒体に関する。
複数人の発話者の各話者の発言している音声区間を検出する技術は、例えば会議録自動作成において各発言に発話者を自動的に付与したり、会議収録データに話者情報を付与して録音データの検索や頭出しを容易にしたりする際に重要である。
従来の音源方向推定装置として、非特許文献1に開示された方法が知られている。図10に非特許文献1の音源方向推定装置200の機能構成を示して簡単に説明する。音源方向推定装置200は、周波数領域変換部201と、音声区間推定部202と、到来方向推定部203と、到来方向分類部204を備える。周波数領域変換部201は、離散値化された複数のマイクロホンで収録された観測信号を例えば32ms毎に窓関数で切り出したあと(切り出した1区間を以降、「フレーム」と称する。)、観測信号をフーリエ変換などで周波数領域の信号に変換する。音声区間推定部202は、周波数領域に変換された観測信号から音声区間を推定する。到来方向推定部203は、音声区間とされた各フレームの観測信号から音声到来方向を推定する。到来方向分類部204は、音声到来方向が類似した音声区間をその方向の話者が話した区間として出力する。
S.Araki,H.Sawada,and S.Makino,"Blind speech separation in a meeting situation with maximum SNR beamformers,"ICASSP2007,vol.1,pp.41-44,Apr.2007.
従来の方法では次の問題点があった。その1つは、音声区間推定部202が、音声区間か否かを決定論的に出力する点である。これは音声区間推定部202において、音声区間であるのにそうではないと判定する誤棄却や、音声が無い区間を音声区間と判定する誤受理の推定誤りが発生することを意味する。非音声区間と判定されたフレームは以後扱われないので、誤棄却は音声の取りこぼしの原因になる。一般に誤棄却と誤受理は、トレードオフの関係にある。誤棄却と誤受理との関係を複数話者の音声区間検出に適したものに設定することは大変難しく、従来の方法では音声区間の取りこぼしが発生していた。
また、問題点の2つ目としては、到来方向推定部203が、各フレームにおいて1つの到来方向しか出力しないため、フレーム内に複数人の発言が混在する場合でも1つの到来方向の情報しか得られない。このため、検出されなかった方向からの話者についての音声区間を取りこぼしてしまう。このように従来の方法では、音声区間推定部202と到来方向推定部203のそれぞれに、音声区間を欠損させてしまう問題点があった。
この発明は、このような点に鑑みてなされたものであり、音声区間を欠損させることのない複数信号区間推定装置と、その方法とプログラムと、その記録媒体を提供することを目的とする。
この発明の信号区間推定装置は、複数のマイクロホンで収録された複数の音源からの音声信号から、各音源から信号が発せられている区間を推定するものであって、周波数領域変換部と、音声存在確率推定部と、到来方向推定部と、到来方向確率計算部と、乗算部と、判定部とを具備する。周波数領域変換部は、音声信号をフレーム毎に周波数領域の信号に変換する。音声存在確率推定部は、フレーム毎の周波数領域の信号からフレーム毎に音声の存在確率を推定する。到来方向推定部は、フレーム毎の周波数領域の信号からフレーム毎に各周波数成分についての音声到来方向を推定する。到来方向確率計算部は、各周波数成分についての音声到来方向からフレーム毎に各音源に関する音声到来方向確率を計算する。乗算部は、音声存在確率と、音声到来方向確率との積を計算して各フレームにおける音源毎の存在確率を出力する。判定部は、音源毎の存在確率が所定の閾値を超える場合に、当該フレームを当該音源の信号区間と判定する。
この発明の複数信号区間推定装置は、各フレームにおける音声存在確率を計算すると共に、各フレームの全ての周波数における音声到来方向確率を推定する。そして、音声存在確率と音声到来方向確率を乗算した値を音源毎の発音確率として出力する。これにより、音声区間検出部の決定的な推定誤りによる性能低下を防げる。また、各フレームで複数の音源の到来方向を確率的に推定できる。よって、音声区間の取りこぼしの少ない複数信号区間推定装置を実現することができる。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1にこの発明の複数信号区間推定装置100の機能構成例を示す。図2に動作フローを示す。複数信号区間推定装置100は、周波数領域変換部11と、音声存在確率推定部12と、到来方向推定部13と、到来方向確率計算部14と、乗算部15とを具備する。周波数領域変換部11に入力される観測信号x(τ)は、複数のマイクロホンで収録された複数の音源からの音声信号であり、例えばサンプリング周波数16kHzで離散値化された信号である。図1では観測信号を離散値化するAD変換器については省略している。複数信号区間推定装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
周波数領域変換部11は、離散値化された観測信号を、例えば512点毎に窓関数で切り出し、フーリエ変換などで周波数領域の信号に変換する(ステップS11、図2参照)。この場合、フレーム長は512/16kHz=32msである。音声存在確率推定部12は、各フレーム(τ)における音声の存在確率p(τ)を推定する(ステップS12)。到来方向推定部13は、各フレームの各周波数成分についての音声到来方向q(f,τ)を推定する(ステップS13)。到来方向確率計算部14は、音声到来方向を分類して各音源に関する音声到来方向の分布を求め、各音源に関する音声到来方向確率p(τ)を計算する(ステップS14)。乗算部15は、音声存在確率p(τ)と、音声到来方向確率p(τ)との積を計算して音源毎の発音確率P(τ)を出力する(ステップS15)。
以上のように音声区間を音声存在確率として、また音声到来方向を各フレームで複数音源に関する音声到来方向確率として処理するのでフレームが欠損することが少ない。つまり音声信号の取りこぼしを少なくした複数信号区間推定装置が実現できる。以下、複数信号区間推定装置100の各部の動作を詳しく説明する。ただし、周波数領域変換部11と乗算部15については、従来技術で簡単に構成できるので、詳しい説明は省略する。
〔音声存在確率推定部〕
図3に音声存在確率推定部12の機能ブロックを示す。音声存在確率推定部12は、GMMパラメータ記録部120と、カルマンフィルタ121と、GMM尤度計算部122と、単一ガウス分布尤度計算部123と、推移確率記録部124と、前向き確率算出部125と、前向き確率保持部126を備える。音声存在確率推定部12は、入力の特徴ベクトルを混合ガウス分布で表現したGMM(Gaussian Mixture model)を用いて、式(1)と(2)に示すように音声存在確率p(τ)を前向き確率α(τ)として算出するものである。
Figure 0004875656
ここで、時刻τ−1における音声状態(音声+雑音の状態)をi=1とし、非音声状態(無音+雑音の状態)をi=0とする。また時刻τにおける音声状態をj=1とし、非音声状態をj=0とする。aijは時刻τでの状態iからjに推移する推移確率である。b(τ)は音声GMM又は非音声GMMの出力確率である。
カルマンフィルタ121は、観測信号x(f,τ)とGMMパラメータを入力として、時刻τ−1における音声/非音声GMMから、時刻τにおける各ガウス分布(k番目)の平均値μjmkτと分散値Σjmkτを推定する。単一ガウス分布尤度計算部123は、ガウス分布の平均値μjmkτと分散値Σjmkτを入力として各ガウス分布の尤度bjk(τ)を式(3)で計算する。
Figure 0004875656
ここでx(m,τ)はフレームτのm次のメルスペクトルである。
GMM尤度計算部122は、各ガウス分布の尤度bjk(τ)と、重み係数ωjkを入力として音声GMMb(τ)及び非音声GMMb(τ)の尤度b(τ)を式(4)で計算する。
Figure 0004875656
前向き確率算出部125は、音声GMMb(τ)と、非音声GMMb(τ)と、前向き確率保持部126に記録された1時刻前の前向き確率α(τ−1)と、推移確率記録部124に記録された推移確率aijを入力として、式(2)で得られた前向き確率α(τ)を音声存在確率p(τ)として出力する。
なお、音声存在確率p(τ)を式(5)に示す演算で求めても良い。
Figure 0004875656
ここでΛは、式(6)と(7)で表わせる。
Figure 0004875656
ここでλ(f)は周波数fにおけるノイズの平均パワー(音声が明らかに存在しない録音ファイルの冒頭区間などで求める。)、Lはフーリエ変換で用いる周波数の個数である。(例えば参考文献参照)
〔参考文献〕J.Sohn,N.S.Kim and W.Sung,“A Statistical Model-Based Voice Activity Detection,IEEE Signal Processing letters”,vol.6,no.1,pp.1-3,1999.
〔到来方向推定部〕
図4に到来方向推定部13と到来方向確率計算部14の機能構成例を示す。到来方向推定部13は、マイク間位相差計算部131と音源方向ベクトル計算部132を備える。マイク間位相差計算部131は、周波数領域に変換された観測信号x(f,τ)の各フレームτ、各周波数fにおけるマイク間位相差q´jj´を式(8)で計算する。
Figure 0004875656
ここでx(f,τ)はマイクjでのフレームτ、周波数fにおける観測信号である。*は複素共役を表わす。全てのマイクペアにおけるマイク間位相差q´jj´を並べたベクトルをq´(f,τ)と記載する。ベクトルq´(f,τ)は音源方向ベクトル計算部132に入力される。音源方向ベクトル計算部132は、ムーア・ペンローズ(Moore-Penrose)の擬似逆行列を用いて式(9)により音源方向ベクトルq(f,τ)を計算する。
Figure 0004875656
ここで+はMoore-Penroseの擬似逆行列を表わし、D=[d−dJ,…,d−dJ]であり、dはマイクjの座標を[x,y,z]と並べたベクトルである。マイクから見た音源の水平角をθ、仰角をφとすると音源方向ベクトルq(f,τ)は式(10)で表わせる。
Figure 0004875656
音源方向ベクトルq(f,τ)は到来方向確率計算部14に入力される。以降、記載の簡単化のために水平角θ(f,τ)のみを用いて説明をする。
〔到来方向確率計算部〕
到来方向確率計算部14は、クラスタリング部140と、各クラスタの分布計算部160と、確率計算部170を備える。この実施例では、クラスタリング部140が、音源方向ベクトルq(f,τ)の各フレームの各周波数(f,τ)における水平角θ(f,τ)をオンラインクラスタリングする。到来方向確率計算部14の動作フローを図5に示す。到来方向確率計算過程(ステップS14、図2参照)は、クラスタリング部140が音源方向ベクトルとクラスタのセントロイドとの距離で音源方向ベクトルを分類する分類ステップ(ステップS140、図5参照)と、各クラスタの分布計算部が分類毎の音源方向ベクトルの分布を計算する分布計算ステップ(ステップS160)と、確率計算部170が分類毎の音源方向ベクトルの分布を、音源方向ベクトルの全体の分布で除して音声到来方向確率として計算する確率計算ステップ(ステップS170)とを含む。図6に分類ステップS140の詳細な動作フローを示して説明する。
<ステップS141>
まず、分類するグループの中心値であるセントロイドを更新する大きさである更新ステップサイズβと、グループ分けするための閾値zを設定する。更新ステップサイズβと閾値zは、この発明を実施する環境に応じて適宜実験的に定められる値である。
<ステップS142>
フレームτと周波数fを初期化(τ=1,f=1)する。
<ステップS143>
最初のフレームτ=1の最小周波数f=1の音源方向ベクトルq(f,τ)の水平角θ(f,τ)を、第1のセントロイドcとする。
<ステップS144>
周波数fを次の周波数にインクリメントする。
<ステップS145>
水平角θ(f,τ)に最も近い既存セントロイドcを見つけ、その番号をkとする。つまり式(11)で、クラスタリングする周波数成分の水平角に最も近いクラスタkを選択する。
Figure 0004875656
<ステップS146>
ステップS145で求めた最も近いセントロイドcとθ(f,τ)の距離と閾値zを比較する。距離が閾値zより小さければ(ステップS146のYes)、θ(f,τ)も同方向(音源)からの周波数成分と判定してステップS147の処理を行う。距離が閾値zよりも大きければ(ステップS146のNo)、他の方向の音源からの周波数成分と判定してステップS149の処理を行う。
<ステップS147>
セントロイドcを式(12)で更新する。
Figure 0004875656
式(12)はセントロイドcを、水平角θ(f,τ)に近づけることを意味する。これは、セントロイドcの初期値にクラスタリングの性能が左右されないようにするクラスタリングの一般的な手法である。
<ステップS148>
距離が閾値zより小さいので同方向(音源)からの周波数成分と判断し、その時間周波数(f,τ)にクラスタKのクラスタ番号を付与する。ここでは、ある時間周波数(f,τ)のクラスタ番号をC(f,τ)に保持する。
<ステップS149>
距離が閾値zよりも大きいので、この音源方向ベクトルq(f,τ)は、他の方向の音源からの周波数成分と判定する(ステップS146のNo)。他の方向からの周波数成分として分類するために、max(k)+1番目の新しいクラスタを生成し、そのセントロイドをcmax(k)+1=θ(f,τ)として与える。
<ステップS150>
その時間周波数(f,τ)に新しいクラスタ番号を付与する。
<ステップS151>
周波数fが、最後の周波数か否かを判定する。最後の周波数で無い場合(ステップS151のNo)、周波数をインクリメント(ステップS154)してステップS145の動作に戻る。
<ステップS152>
周波数fが、最後の周波数の場合(ステップS151のYes)、フレームτが最後であるか否かを判定する。フレームτが最後の場合、クラスタリング動作を終了する(ステップS152のYes)。フレームτが最後で無い場合(ステップS152のNo)、フレームτをインクリメントすると共に周波数を初期化(ステップS155)してステップS145の動作に戻る。なお、メンバ数が少ないクラスタは除外しても良い(破線で示すステップS153)。
以上のように動作することで、音源方向ベクトルq(f,τ)の全てのフレーム、全ての周波数がクラスタリングされ、音源方向ベクトルq(f,τ)にクラスタ番号kが付与される。
クラスタリング部140で分類された音源方向ベクトルq(f,τ)の水平角θ(f,τ)の分布を、各クラスタの分布計算部160が計算する。各クラスタの分布計算部160は、式(13)を用いて各クラスタを平均値c,分散σ の正規分布でモデル化する(ステップS160、図5参照)。
Figure 0004875656
ここで、平均値cは、クラスタのセントロイド又は式(14)で計算した値を用いる。
分散σ は式(15)で計算する。
Figure 0004875656
ここで、|C|は、クラスタ番号C(f,τ)=kである成分の個数である。確率計算部170は、各フレームτでkの方向の音源が存在する確率を式(16)と(17)を用いて計算する。
Figure 0004875656
最後に乗算部15にて各フレームτにおける音声存在確率p(τ)と到来方向確率p(τ)との積を計算し、その確率値を音源kの発話確率P(τ)として出力する(ステップS170)。
Figure 0004875656
これを全てのクラスタkに対して計算することで、全ての音源の発話確率P(τ)を得ることができる。
次に到来方向確率p(τ)を、クラスタリングされた音源方向ベクトルq(f,τ)の水平角θ(f,τ)の度数から求めるようにした実施例2を説明する。実施例2の到来方向確率計算部14´は、クラスタリング部140´と、確率計算部170´を備える(図4参照)。他の構成は実施例1と同じである。動作フローを図7に示す。
クラスタリング部140´は、ある時刻τまでに存在するクラスタのセントロイドcについて、式(19)に示す計算をして音源方向ベクトルq(f,τ)をクラスタリングする(ステップS140´)。
Figure 0004875656
ここでthはある閾値であり、図6の閾値zと例えば同じ値で構わない。あるクラスタCに属する水平角θ(f,τ)については1を、そうでなければ0に分類する。この分類によって各クラスタの数が求められる。その動作フローについては、前述した図6から明らかであるので省略する。
確率計算部170´は、式(20)で到来方向確率p(τ)を計算する(ステップS170´)。
Figure 0004875656
以上のように到来方向確率p(τ)を求めることで、計算負荷を軽減することができる。計算負荷を軽減することで処理速度を向上させる効果が期待できる。
実施例3として雑音を抑圧するようにした到来方向確率計算部60の構成を図4に示して説明する。到来方向確率計算部60は、振幅計算部61を備える。他の構成は実施例1,2と同じである。動作フローを図8に示す。
振幅計算部61は、音源方向ベクトルq(f,τ)の時間周波数(f,τ)における正規化された振幅値a(f,τ)を式(21)で計算する(ステップS61)。
Figure 0004875656
1(f,τ)の1はマイクロホン番号である。定数bは1〜4の整数が望ましく、b=1ならば振幅、b=2ならばパワー、b=4ならば尖度の正規化された振幅値a(f,τ)となる。
確率計算部62は、振幅値a(f,τ)を用いて到来方向確率p(τ)を式(22)で算出する(ステップS170´)。
Figure 0004875656
ここで正規化された振幅値a(f,τ)は、重み係数である。音声が存在する音源方向ベクトルq(f,τ)の時間周波数(f,τ)の振幅は大きな値を持つ。それに対して音声が存在しない雑音だけの振幅は小さな値を持つ。したがって、音声区間における正規化された振幅値a(f,τ)は大きくなり、非音声区間におけるそれは小さな値になる。
この正規化された振幅値a(f,τ)を到来方向確率p(τ)の算出の際に、式(22)に示すように考慮することで、雑音を音声として誤検出してしまうことを抑制することができる。
なお、式(22)は実施例2に振幅計算部61を設けた場合の式である。音源方向ベクトルの分布を正規分布として求めた実施例1に振幅計算部61を設けても、雑音を抑圧する効果が期待できる。
〔シミュレーション結果〕
実施例2の複数信号区間推定装置の性能を確認するシミュレーションを行った。シミュ
レーション条件を簡単に説明する。図7にシミュレーションに用いた部屋の平面図を示す。奥行きのある部屋の幅側の一辺を、305cmの幅のパーテーションで仕切り、幅が約4mで奥行き約9.3mの部屋を形成した。この部屋の残響時間は約350msである。パーテーションの一方の隅にはパーソナルコンピュータ(PC)があり、そのファンノイズが本システムに対する雑音となった。パーテーション側に近い位置に長円形のテーブルを配置した。テーブルを挟んでパーテーション側に話者AとBの二人、反対側に話者CとDの二人を座らせた。そして4人の話者のほぼ中央付近の位置に3個のマイクロホンを、4cmの正三角形の頂点に位置するように配置した。
話者A〜Dの4名の会議を5分間、サンプリング周波数16kHz、フーリエ変換のフレーム長を64ms、フレームシフト長を32msとし、上記した式(16)の発話確率P(τ)が0.4以上となるクラスタkの方向の話者が話したと判定した。評価指標としては、DER=(誤受理・誤棄却・話者誤りの時間長)/全音声区間長×100[%(Diarization Error Rate)を利用した。
ここで、誤受理(FAT:false alarm speaker time)は、誰も話していないにもかかわらず誰かが話していると判定した時間長である。誤棄却(MST:missed speaker time)は、誰かが話しているにもかかわらず話していないと判定した時間長である。話者誤り(SET:speaker error time)は、話者を誤って判定した時間長である。DER値は、小さい方が話者区間推定の精度が高いことを意味する。全てを[%]で表わす。表1に結果を示す。
Figure 0004875656
従来法では、全てのエラーが多く、DERも大きかった。それに対して実施例2の方
法では、特に誤棄却(MST)が大きく改善され、その結果としてDERの値が改善した。これは、フレーム毎に、音声区間と音声到来方向が、確率値として処理されること、及び各フレームで複数の方向を推定することにより音声区間が欠損することが少ないことによる。
以上述べたように、この発明の複数信号区間推定装置によれば、音声信号の取りこぼしを少なくした複数信号の区間推定を行うことができる。この発明の技術思想に基づく複数信号区間推定装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
例えば、音声存在確率p(τ)と到来方向確率p(τ)の一方を、計算を軽くする目的で、決定論的に算出するようにしても良い。一方を決定論的に算出しても、音声が在ると判定されたフレームにおいては、複数音源があれば複数方向の方向確率が計算されるので、そのフレーム内の複数の音源を取りこぼすことが従来法に比べて少なくなる。
また、到来方向確率p(τ)は、式(17)を満たす水平角θ(f,τ)が各周波数でth個以上存在していればp(τ)=1、そうでなければp(τ)=0としても良い。また、クラスタリング部におけるセントロイドcは、予めそれぞれの音源の方向θが分かっていればその角度をc=θとして与えても良い。また、各フレーム、周波数(f,τ)における水平角θ(f,τ)ではなく、従来のGCC−PHAT法のように各フレームτ毎に1つだけ求めた水平角θ(τ)をオンラインクラスタリングし、そのセントロイドをcとして用いても良い。また、水平角θ(f,τ)を用いて音源の到来方向を分類する例で説明を行ったが、音源方向ベクトルq(f,τ)そのものを用いて分類するようにしても良い。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明の複数信号区間推定装置100の機能構成例を示す図。 複数信号区間推定装置100の動作フローを示す図。 音声存在確率推定部12の機能ブロックを示す図。 到来方向推定部13と到来方向確率計算部14の機能ブロックを示す図。 到来方向確率計算部14の動作フローを示す図。 クラスタリング部140の動作フローを示す図。 実施例2の到来方向確率計算部14´の動作フローを示す図。 実施例3の到来方向確率計算部60の動作フローを示す図。 シミュレーションを行った部屋の平面を示す図。 非特許文献1に開示された従来の音声区間推定装置200の機能構成を示す図。

Claims (10)

  1. 複数のマイクロホンで収録された複数の音源からの音声信号から、各音源から信号が発せられている区間を推定する信号区間推定装置であって
    上記音声信号を、フレーム毎に周波数領域の信号に変換する周波数領域変換部と、
    上記フレーム毎の周波数領域の信号からフレーム毎に音声の存在確率を推定する音声存在確率推定部と、
    上記フレーム毎の周波数領域の信号からフレーム毎に各周波数成分についての音声到来方向を推定する到来方向推定部と、
    上記各周波数成分についての音声到来方向からフレーム毎に上記各音源に関する音声到来方向確率を計算する到来方向確率計算部と、
    上記音声存在確率と、上記音声到来方向確率との積を計算して上記各フレームにおける音源毎の存在確率を出力する乗算部と、
    上記音源毎の存在確率が所定の閾値を越える場合に、当該フレームを当該音源の信号区間と判定する判定部と、
    を具備する信号区間推定装置。
  2. 請求項1に記載の信号区間推定装置において、
    上記到来方向確率計算部は、クラスタリング部と、各クラスタの分布計算部と、確率計算部を備え、
    上記クラスタリング部は、上記フレーム毎に計算された各周波数での音源方向をクラスタリングすることにより、上記音源方向をクラスタに分けるものであり、
    上記各クラスタの分布計算部は、上記クラスタリング部で得られた各クラスタの上記音源方向の分布を計算するものであり、
    上記確率計算部は、上記クラスタ毎の上記音源方向の分布を、上記音源方向の全体の分布で正規化して音声到来方向確率として出力するものである、
    ことを特徴とする信号区間推定装置。
  3. 請求項1に記載の信号区間推定装置において、
    上記到来方向確率計算部は、クラスタリング部と、確率計算部を備え、
    上記クラスタリング部は、上記フレーム毎に計算された各周波数での音源方向と閾値との距離で上記音源方向をクラスタリングするものであり、
    上記確率計算部は、上記クラスタの各メンバ数を上記音源方向の全体のメンバ数で除した値を音声到来方向確率として出力するものであることを特徴とする信号区間推定装置。
  4. 請求項1乃至3の何れかに記載した信号区間推定装置において、
    上記到来方向確率計算部は、上記各フレーム、各周波数における正規化された振幅値を計算する振幅計算部を備え、
    上記音声到来方向確率を計算する際に、上記正規化された振幅値を重み係数として用いることを特徴とする信号区間推定装置。
  5. 複数のマイクロホンで収録された複数の音源からの音声信号から、各音源から信号が発せられている区間を推定する信号区間推定方法であって、
    周波数領域変換部が、上記音声信号をフレーム毎に周波数領域の信号に変換する周波数領域過程と、
    音声存在確率推定部が、上記フレーム毎の周波数領域の信号からフレーム毎に音声存在確率を推定する音声存在確率推定過程と、
    到来方向推定部が、上記フレーム毎の周波数領域の信号からフレーム毎に各周波数成分についての音声到来方向を推定する到来方向推定過程と、
    到来方向確率計算部が、上記各周波数成分についての音声到来方向からフレーム毎に上記各音源に関する音声到来方向確率を計算する到来方向確率計算過程と、
    乗算部が、上記音声存在確率と、上記音声到来方向確率との積を計算して上記各フレームにおける音源毎の存在確率を出力する乗算過程と、
    判定部が、上記音源毎の存在確率が所定の閾値を越える場合に、当該フレームを当該音源の信号区間と判定する判定過程と、
    を含む信号区間推定方法。
  6. 請求項5に記載の信号区間推定方法において、
    上記到来方向確率計算過程は、クラスタリング部が、上記フレーム毎に計算された各周波数での音源方向をクラスタリングすることにより、上記音源方向をクラスタに分ける分類ステップと、
    各クラスタの分布計算部が、上記クラスタの上記音源方向の分布を計算する分布計算ステップと、
    確率計算部が、上記クラスタ毎の上記音源方向の分布を、上記音源方向の全体の分布で正規化して音声到来方向確率として計算する確率計算ステップと、
    を含むことを特徴とする信号区間推定方法。
  7. 請求項5に記載した信号区間推定方法において、
    上記到来方向確率計算過程は、クラスタリング部が、上記フレーム毎に計算された各周波数での音源方向をクラスタリングする分類ステップと、
    確率計算部が、上記クラスタの各メンバ数を上記音源方向の全体のメンバ数で除した値を音声到来方向確率として計算する確率計算ステップと、
    を含むことを特徴とする信号区間推定方法。
  8. 請求項5乃至7の何れかに記載した信号区間推定方法において、
    上記到来方向確率計算過程は、振幅計算部が、上記各フレーム、各周波数における正規化された振幅値を計算する振幅計算ステップを含み、
    上記正規化された振幅値を重み係数として用いて上記音声到来方向確率を計算することを特徴とする信号区間推定方法。
  9. 請求項1乃至4の何れかに記載した信号区間推定装置としてコンピュータを機能させるためのプログラム。
  10. 請求項9に記載したプログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2008119717A 2008-05-01 2008-05-01 信号区間推定装置とその方法と、プログラムとその記録媒体 Expired - Fee Related JP4875656B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008119717A JP4875656B2 (ja) 2008-05-01 2008-05-01 信号区間推定装置とその方法と、プログラムとその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008119717A JP4875656B2 (ja) 2008-05-01 2008-05-01 信号区間推定装置とその方法と、プログラムとその記録媒体

Publications (2)

Publication Number Publication Date
JP2009271183A JP2009271183A (ja) 2009-11-19
JP4875656B2 true JP4875656B2 (ja) 2012-02-15

Family

ID=41437810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008119717A Expired - Fee Related JP4875656B2 (ja) 2008-05-01 2008-05-01 信号区間推定装置とその方法と、プログラムとその記録媒体

Country Status (1)

Country Link
JP (1) JP4875656B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9055371B2 (en) 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
JP2012149906A (ja) * 2011-01-17 2012-08-09 Mitsubishi Electric Corp 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
JP5668553B2 (ja) * 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
US9285452B2 (en) * 2011-11-17 2016-03-15 Nokia Technologies Oy Spatial visual effect creation and display such as for a screensaver
WO2013150341A1 (en) 2012-04-05 2013-10-10 Nokia Corporation Flexible spatial audio capture apparatus
JP6240995B2 (ja) * 2013-01-15 2017-12-06 株式会社国際電気通信基礎技術研究所 移動体、音響源マップ作成システムおよび音響源マップ作成方法
WO2014162171A1 (en) 2013-04-04 2014-10-09 Nokia Corporation Visual audio processing apparatus
US9706324B2 (en) 2013-05-17 2017-07-11 Nokia Technologies Oy Spatial object oriented audio apparatus
JP6158006B2 (ja) * 2013-09-17 2017-07-05 株式会社東芝 音声処理装置、方法、及びプログラム
JP6740658B2 (ja) * 2016-03-24 2020-08-19 日本電気株式会社 パッシブソナーに関する装置、方法及びプログラム
JP2019008274A (ja) * 2017-06-26 2019-01-17 フェアリーデバイセズ株式会社 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007085734A (ja) * 2005-09-16 2007-04-05 Research Organization Of Information & Systems 音源方向検出装置及び音源方向検出方法

Also Published As

Publication number Publication date
JP2009271183A (ja) 2009-11-19

Similar Documents

Publication Publication Date Title
JP4875656B2 (ja) 信号区間推定装置とその方法と、プログラムとその記録媒体
JP4964204B2 (ja) 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
US8554562B2 (en) Method and system for speaker diarization
US9818428B2 (en) Extraction of target speeches
JP5842056B2 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
JP5568530B2 (ja) 音源分離装置とその方法とプログラム
JP6594839B2 (ja) 話者数推定装置、話者数推定方法、およびプログラム
US11900949B2 (en) Signal extraction system, signal extraction learning method, and signal extraction learning program
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
JP2009210647A (ja) 雑音除去装置、その方法、そのプログラム及び記録媒体
JP2010175431A (ja) 音源方向推定装置とその方法と、プログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP4746533B2 (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
CN107545898B (zh) 一种区分说话人语音的处理方法及装置
JP2012042664A (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体
KR101658001B1 (ko) 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
WO2012105385A1 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
Jeon et al. Acoustic surveillance of hazardous situations using nonnegative matrix factorization and hidden Markov model
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
JP2013186383A (ja) 音源分離装置、音源分離方法、およびプログラム
WO2019194300A1 (ja) 信号分析装置、信号分析方法および信号分析プログラム
JP2015155982A (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム
JP6059112B2 (ja) 音源分離装置とその方法とプログラム
JP5044581B2 (ja) 複数信号強調装置とその方法と、プログラム
JP5457999B2 (ja) 雑音抑圧装置とその方法とプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100726

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111125

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4875656

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees