JP4871191B2 - 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 - Google Patents
目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP4871191B2 JP4871191B2 JP2007101597A JP2007101597A JP4871191B2 JP 4871191 B2 JP4871191 B2 JP 4871191B2 JP 2007101597 A JP2007101597 A JP 2007101597A JP 2007101597 A JP2007101597 A JP 2007101597A JP 4871191 B2 JP4871191 B2 JP 4871191B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- signal
- target signal
- grid
- normalized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
ITU-T Recommendation G.729 Annex B., "A silence compression scheme for G. 729 optimized for terminals conforming to Recommendation V.70, "1996. ETSI standard document, "Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Advanced front-end feature extraction algorithm; Compression algorithms," ETSI ES 202 050 V1.1.5, 2007. Alvarez, A., Gomez, P., Nieto, V., Martinez, R., and Rodellar, V., "Application of a first-order differential microphone for efficient voice activity detection in a car platform", Proceedings of Interspeech, 2669-2672, 2005. 田中貴雅,傳田遊亀,中山雅人,西浦敬信,"Weighted CSP法と音声特徴量に基づくハンズフリー発話区間検出の検討",日本音響学会2006年度春期全国大会講演論文集,1-P-3, pp. 149-150, Mar. 2006. 山本潔,浅野太,吉村隆,本村陽一,麻生英樹,原功,市村直幸,緒方淳,北脇信彦,"音響情報と画像情報の統合による発話区間検出・分離システムの評価," 日本音響学会秋季研究発表会講演論文集,3−6−10,P121−122,2003. 藤本雅清,有木康雄,堂下修司,"マルチモーダルインタラクションによるニュース映像中の人物認識,"日本音響学会誌,Vol.62,No.3,P182−192,2006.
図1に例示するように、本形態の目的信号区間推定装置10は、信号切出部11と周波数領域変換部12と正規化部13と重み計算部14とグリッド分類部15と偏在性指標値算出部16と判定部17と制御部18と記憶部19とを具備し、S(S≧2)個のセンサ20−1〜Sで観測され、サンプリング部30でサンプリングされた信号が入力され、目的信号区間の分析結果を出力する装置である。また、図2(a)に例示するように、この例の偏在性指標値算出部16は、ヒストグラム生成部16aと確率密度関数計算部16bとエントロピー計算部16cとを具備する。また、図2(b)に例示するように、この例の判定部17は、第1値計算部17aと第2値計算部17bと相対値計算部17cと平均尤度比算出部17dと閾値判定部17eとを具備する。
次に、本形態の目的信号区間推定方法について説明する。
本形態では正規化信号値Z (i,k)の一例として、S=2とし、基準センサ20−1に対応する周波数領域信号X(1,i,k)と、他方のセンサ20−2に対応する周波数領域信号X(2,i,k)とから信号到来方向を推定し、その信号到来方向推定値を正規化信号値Z (i,k)とする(正規化信号値Z (i,k)の例1)。この例では、正規化部13は、以下の式(3)(4)によって正規化信号値Z (i,k)を算出する。なお、νは音速(約340m/秒)を示し、dはセンサ間距離(m)を示し、fは周波数インデックスkに対応する離散周波数f=fs・k/Mを示し、arg(・)は・の位相(偏角)を示す。また、τ(i,k)は信号源から各センサ20−1,2までの信号到達時間差を示し、θ(i,k)は信号到来方向推定値を示す。また、式(4)によって算出される信号到来方向θ(i,k)は、センサ20−1,2を結ぶ線分の中点を通り、その線分と直交する方向を0radianとした角度(radian)である。なお、このように算出された正規化信号値Z (i,k)は、周波数成分fが正規化され、周波数依存性が排除された値となる。
D=[d1-dJ, d2-dJ,...,dS-dJ]T ...(5)
ν・D-1・τ'(i,k)=[cosθ(i,k) cosφ(i,k),sinθ(i,k)sinφ(i,k),sinφ(i,k)] T
...(8)
重み係数W(i,k)の例として、例えば、以下の式(9)のように、全センサについての周波数領域信号X(1,i,k),...,X(S,i,k)のパワーを合算し、それを全センサ・全周波数についての周波数領域信号X(1,i,k),...,X(S,i,k)のパワー総和で正規化した値を例示できる(重み係数W(i,k)の例1)。
W(i,k)=|X(J,i,k)| ...(13)
W(i,k)=|X(J,i,k)|2 ...(14)
GRIDz(i,k)={Z(i+P,k+Q)} ...(15)
GRIDW(i,k)={W(i+P,k+Q)} ...(16)
信号が音声信号の場合、およそ音声信号の定常性が仮定できる50〜300 msの時間長に対応するAを決定すればよい。すなわち、フレームシフトの幅をSF msとすると、50/SF〜300/SFの間の整数値をAとすればよい。また、話者の発話速度SR syllables/sec(1秒あたりに発話される音節数)が事前に分かるならば、(1000/SR)/SF近傍の(例えば最も近い)整数値をAとしてもよい(例えば、SR=7 syllables/sec, SF=16msならば、(1000/SR)/SF=(1000/7)/16=8.93なので、A=9とする、など)。また、対象信号が音楽信号ならば、音楽のリズム(音声のSRに対応)から同様にAを求める値を用いることが望ましい。
好ましくは、基本的に、窓関数w(n)のメインローブ幅から得られる幅を用いるとよい。例えば、窓関数w(n)の離散フーリエ変換値をW(k)とし、1<k<M/2の範囲で20 log10(W(k)/W(0))> -60dBを満たす最大の周波数ビンkをcfとし、cf・2+1近傍の(例えば最も近い)整数値をBとする。この値はサンプリング周波数fs,分析フレーム長L,離散フーリエ変換の周波数ビンの総数Mに応じて変化する(例えば、サンプリング周波数 8kHz,窓関数の幅が256サンプル点,M=256ならば、cf=2となり、B=5となる)。
グリッド分類部15は、上述のように生成した集合GRIDz(i,k)とGRIDW(i,k)とを出力し、それらは偏在性指標値算出部16に入力される。
Z(1) (-π/2≦Z (i,k)<-7π/16)
Z(2) (-7π/16≦Z (i,k)<-3π/16)
・・・
Z(C) (7π/16<Z (i,k)<π/2)
bin(i,k,c)=ΣW(i,k) if Z (i,k)∈Z(c) ...(19)
確率密度関数計算部16bは、bin(i,k,c)を用い、以下の式(20)のようにヒストグラムを確率密度関数P(i,k,c)とみなし、確率密度関数P(i,k,c)を算出し、出力する。
例えば、図2(a)の偏在性指標値算出部16の代わりに、図4(a)の偏在性指標値算出部16を用いてもよい(偏在性指標値H(i,k)の変形例1)。この例では分散を偏在性指標値H(i,k)として用いる。この場合、まず、偏在性指標値算出部16の平均値算出部16dに、GRIDz(i,k)の要素である各正規化信号値Z (i,k)と、GRIDW(i,k)の要素である重み係数W(i,k)とが入力される。平均値算出部16dは、以下の式(22)のように、時間周波数ビン(i,k)毎に各正規化信号値Z (i,k)を重み係数W(i,k)で重み付けし、重み付け後の平均値E(i,k)を求めて出力する。なお、μはGRIDW(i,k)の要素数である。
H’(i,k)=(1- H(i,k))/log2(C) ...(25)
γ(i,k)=H’(i,k)/λ(k) ...(26)
例えば、図2(b)の判定部17の代わりに、図5の判定部17を用いてもよい(目的信号区間判定方法の変形例1)。この変形例の場合、第1値算出部17aに前述のエントロピーである偏在性指標値H(i,k)が入力され、上述の式(24)によって第1値H’(i,k)を算出して出力する。また、第2値算出部17bには、目的信号が存在しない(又は存在しないと予測される)グリッドに対応する、前述のエントロピーである偏在性指標値H(i,k)が入力され、式(24)によって第2値λ(k)を算出して出力する。次に、相対値算出部17cに第1値H’(i,k)と第2値λ(k)とが入力され、相対値算出部17cは、前述の式(25)によって第1値と第2値との比である除算値γ(i,k)を算出して出力する。次に、閾値判定部17gに除算値γ(i,k)が入力され、閾値判定部17gは、(i,k)毎に除算値γ(i,k)と閾値thとを比較し、除算値γ(i,k)が閾値thよりも大きい場合(「閾値th以上の場合」としてもよい)、除算値γ(i,k)に対応するグリッドが目的信号区間に対応し、そうでなければ除算値γ(i,k)に対応するグリッドが非目的信号区間に対応すると判定し、その判定結果(1 or 0)を出力する。
本形態の効果を示すための実験結果を示す。この実験では、センサとして2本のマイクロフォンを用い、音声信号と雑音信号が混在する音響信号を観測し、その音響信号を本形態の信号区間推定方法によって分析し、音声信号区間を検出する実施例を示す。なお、この実験では、正規化信号値Z (i,k)として信号到来方向推定値を用い、偏在性指標値H(i,k)として前述のエントロピーを用い、平均尤度比Λ(i)と閾値との比較により目的信号区間の推定を行った。また、この実験では、1フレームの時間長を32ms(256サンプル点)とし、16ms(128サンプル点)毎にフレームの始点を移動(シフト)させ、各フレームで平均尤度比Λ(i)を求めた。また、このように求めた平均尤度比Λ(i)を固定閾値th=1.08と比較し、目的信号区間の推定を行った。
Claims (14)
- 目的信号区間を推定する目的信号区間推定装置であって、
複数のセンサで観測された各信号を所定の時間区間であるフレーム毎に切り出す信号抽出部と、
上記信号切出部で切り出された各センサについての各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成する周波数領域変換部と、
基準センサに対応する上記周波数領域信号を基準として、少なくとも当該基準センサ以外の上記センサに対応する各周波数領域信号を正規化し、時間周波数ビン毎の正規化信号値を生成する正規化部と、
時間周波数ビン毎に、当該時間周波数ビンを中心とした複数の時間周波数ビンからなるグリッドに含まれる各時間周波数ビンの上記正規化信号値の集合を出力するグリット分類部と、
上記正規化信号値の偏在性を示す偏在性指標値を上記時間周波数ビンに対応するグリッド毎に算出する偏在性指標値算出部と、
上記偏在性指標値を指標とし、上記各グリッドが上記目的信号区間に対応するか否かを判定する判定部と、
を有することを特徴とする目的信号区間推定装置。 - 請求項1に記載の目的信号区間推定装置であって、
上記周波数領域信号の振幅の絶対値に対して単調増加の関係にある重み係数を時間周波数ビン毎に生成する重み計算部をさらに有し、
上記偏在性指標値算出部は、
上記重み係数によって当該重み係数に対応する時間周波数ビンの上記正規化信号値の頻度を重み付けし、当該重み付けされた頻度を用いて上記偏在性指標値を算出する、
ことを特徴とする目的信号区間推定装置。 - 請求項2に記載の目的信号区間推定装置であって、
上記重み係数は、
上記周波数領域信号の振幅の絶対値に対して単調増加の関係にある値を、上記周波数領域信号の振幅の絶対値に対してそれぞれ単調増加の関係にある値を全周波数ビン分合計した値によって、正規化した値である、
ことを特徴とする目的信号区間推定装置。 - 請求項1に記載の目的信号区間推定装置であって、
上記正規化部は、
上記基準センサに対応する周波数領域信号の位相及び/又は振幅を基準とし、少なくとも当該基準センサ以外の上記センサに対応する各周波数領域信号の位相及び/又は振幅を正規化し、当該正規化値又はその写像である上記正規化信号値を生成する、
ことを特徴とする目的信号区間推定装置。 - 請求項4に記載の目的信号区間推定装置であって、
上記正規化信号値は、
周波数成分が正規化され、周波数依存性が排除された値である、
ことを特徴とする目的信号区間推定装置。 - 請求項1,4,5の何れかに記載の目的信号区間推定装置であって、
上記正規化部は、
時間周波数ビン毎に2種類以上の上記正規化信号値を生成し、
上記偏在性指標値算出部は、
上記各グリッドに属する2種類以上の上記正規化信号値の偏在性をそれぞれ示す2以上の上記偏在性指標値を上記グリッド毎に算出し、
上記判定部は、
グリッド毎の2以上の上記偏在性指標値に重み付けを行い、当該重み付け後の上記偏在性指標値を指標とし、各グリッドが上記目的信号区間に対応するか否かを判定する、
ことを特徴とする目的信号区間推定装置。 - 請求項1,4,5の何れかに記載の目的信号区間推定装置であって、
上記正規化部は、
時間周波数ビン毎に2種類以上の上記正規化信号値を生成し、
上記偏在性指標値算出部は、
上記各グリッドに属する2種類以上の上記正規化信号値を要素とするベクトルの偏在性を示す上記偏在性指標値を上記グリッド毎に算出し、
上記判定部は、
上記ベクトルの偏在性を示す上記偏在性指標値を指標とし、各グリッドが上記目的信号区間に対応するか否かを判定する、
ことを特徴とする目的信号区間推定装置。 - 請求項1,6,7の何れかに記載の目的信号区間推定装置であって、
上記判定部は、
各グリッドの上記偏在性指標値又はそれらの写像と、所定の閾値と、の大小を比較し、各グリッドが上記目的信号区間に対応するか否かを判定する、
ことを特徴とする目的信号区間推定装置。 - 請求項1,6,7の何れかに記載の目的信号区間推定装置であって、
上記判定部は、
判定対象のグリッドの上記偏在性指標値を所定の関数に代入し、当該グリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある第1値を算出する第1値算出部と、
非目的信号区間のグリッドの上記偏在性指標値を上記所定の関数に代入し、当該グリッドの目的信号区間らしさを示す確率に対して単調増加の関係にある第2値を算出する第2値算出部と、
上記第1値と上記第2値との比である除算値又は当該除算値の写像が、所定の閾値以上であった場合に上記判定対象のグリッドが上記目的信号区間に対応すると判定するか、当該所定の閾値を超える場合に上記判定対象のグリッドが上記目的信号区間に対応すると判定する閾値判定部と、を有する、
ことを特徴とする目的信号区間推定装置。 - 請求項1,6,7の何れかに記載の目的信号区間推定装置であって、
上記判定部は、
事前学習されたグリッドの上記偏在性指標値と当該グリッドが上記目的信号区間であるか否かの判定結果との関係を用いたパターン認識により、上記偏在性指標値算出部で算出された上記偏在性指標値に対応するグリッドが上記目的信号区間に対応するか否かを判定する、
ことを特徴とする目的信号区間推定装置。 - 目的信号区間を推定する目的信号区間推定方法であって、
複数のセンサで観測された各信号を所定の時間区間であるフレーム毎に切り出す信号抽出過程と、
上記信号切出過程で切り出された各センサについての各フレームの信号を周波数領域に変換し、時間周波数ビン毎の周波数領域信号を各センサについて生成する周波数領域変換過程と、
基準センサに対応する上記周波数領域信号を基準として、少なくとも当該基準センサ以外の上記センサに対応する各周波数領域信号を正規化し、時間周波数ビン毎の正規化信号値を生成する正規化過程と、
時間周波数ビン毎に、当該時間周波数ビンを中心とした複数の時間周波数ビンからなるグリッドに含まれる各時間周波数ビンの上記正規化信号値の集合を出力するグリット分類過程と、
上記正規化信号値の偏在性を示す偏在性指標値を上記時間周波数ビンに対応するグリッド毎に算出する偏在性指標値算出過程と、
上記偏在性指標値を指標とし、上記各グリッドが上記目的信号区間に対応するか否かを判定する判定過程と、
を有することを特徴とする目的信号区間推定方法。 - 請求項11に記載の目的信号区間推定方法であって、
上記周波数領域信号の振幅の絶対値に対して単調増加の関係にある重み係数を時間周波数ビン毎に生成する重み計算過程をさらに有し、
上記偏在性指標値算出過程は、
上記重み係数によって当該重み係数に対応する時間周波数ビンの上記正規化信号値の頻度の重み付けし、当該重み付けされた頻度を用いて上記偏在性指標値を算出する過程である、
ことを特徴とする目的信号区間推定方法。 - 請求項1から10の何れかに記載の目的信号区間推定装置としてコンピュータを機能させるための目的信号区間推定プログラム。
- 請求項13に記載の目的信号区間推定プログラムを格納したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007101597A JP4871191B2 (ja) | 2007-04-09 | 2007-04-09 | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007101597A JP4871191B2 (ja) | 2007-04-09 | 2007-04-09 | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008257110A JP2008257110A (ja) | 2008-10-23 |
JP4871191B2 true JP4871191B2 (ja) | 2012-02-08 |
Family
ID=39980719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007101597A Expired - Fee Related JP4871191B2 (ja) | 2007-04-09 | 2007-04-09 | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4871191B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2561508A1 (en) | 2010-04-22 | 2013-02-27 | Qualcomm Incorporated | Voice activity detection |
US8898058B2 (en) | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
JP5732976B2 (ja) | 2011-03-31 | 2015-06-10 | 沖電気工業株式会社 | 音声区間判定装置、音声区間判定方法、及びプログラム |
JP6657965B2 (ja) * | 2015-03-10 | 2020-03-04 | 株式会社Jvcケンウッド | オーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラム |
CN115862656B (zh) * | 2023-02-03 | 2023-06-02 | 中国科学院自动化研究所 | 一种骨传麦克风语音增强方法及装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4729927B2 (ja) * | 2005-01-11 | 2011-07-20 | ソニー株式会社 | 音声検出装置、自動撮像装置、および音声検出方法 |
-
2007
- 2007-04-09 JP JP2007101597A patent/JP4871191B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008257110A (ja) | 2008-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10504539B2 (en) | Voice activity detection systems and methods | |
EP3479377B1 (en) | Speech recognition | |
Aneeja et al. | Single frequency filtering approach for discriminating speech and nonspeech | |
EP1536414B1 (en) | Method and apparatus for multi-sensory speech enhancement | |
KR101378696B1 (ko) | 협대역 신호로부터의 상위대역 신호의 결정 | |
KR100745976B1 (ko) | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 | |
Schädler et al. | Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition | |
CN110459241B (zh) | 一种用于语音特征的提取方法和系统 | |
KR20170060108A (ko) | 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출 | |
KR101305373B1 (ko) | 관심음원 제거방법 및 그에 따른 음성인식방법 | |
JP4871191B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 | |
EP1693826B1 (en) | Vocal tract resonance tracking using a nonlinear predictor | |
EP1465153A2 (en) | Method and apparatus for formant tracking using a residual model | |
CN115223584B (zh) | 音频数据处理方法、装置、设备及存储介质 | |
JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
JP5147012B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 | |
CN116913307A (zh) | 语音处理方法、装置、通信设备及可读存储介质 | |
Kanisha et al. | Speech recognition with advanced feature extraction methods using adaptive particle swarm optimization | |
Dov et al. | Voice activity detection in presence of transients using the scattering transform | |
JPH10133688A (ja) | 音声認識装置 | |
Arslan et al. | Noise robust voice activity detection based on multi-layer feed-forward neural network | |
JP5134477B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
Jayakumar et al. | Speech enhancement based on noise type and wavelet thresholding the multitaper spectrum | |
von Zeddelmann | A feature-based approach to noise robust speech detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090729 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111108 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111118 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141125 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |