JP2009063700A - 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体 - Google Patents
音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体 Download PDFInfo
- Publication number
- JP2009063700A JP2009063700A JP2007229884A JP2007229884A JP2009063700A JP 2009063700 A JP2009063700 A JP 2009063700A JP 2007229884 A JP2007229884 A JP 2007229884A JP 2007229884 A JP2007229884 A JP 2007229884A JP 2009063700 A JP2009063700 A JP 2009063700A
- Authority
- JP
- Japan
- Prior art keywords
- probability
- speech
- speech state
- frame
- acoustic signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】入力信号13の音響特徴量からその音声状態確率・非音声状態確率を求める第1音響信号分析部14と、入力信号13の基本周波数に含まれる周期性成分および非周期性成分からその音声状態確率・非音声状態確率を求める第2音響信号分析部15と、これらを用いてこれらに適用する重みを求める重み算出部16と、この重みを用いて両音声状態確率を合成した音声状態合成確率と両非音声状態確率を合成した非音声状態合成確率と、音声状態と非音声状態との間の状態遷移モデルとに基づき、音声状態に属する確率(音声状態尤度)と非音声状態に属する確率(非音声状態尤度)を求める音声状態確率/非音声状態確率算出部17と、音声状態尤度と非音声状態尤度から、音声信号区間であるか否かを判定する音声信号区間推定部18とを備える。
【選択図】図1
Description
Benyassine, A., Shlomot, E., and Su, H-Y. "ITU-T recommendation G.729 Annex B:A silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications,"IEEE Communications Magazine, pp.64-73, September 1997. ETSI ES 202 050 v.1.1.4,"Speech processing, Transmission and Quality aspects(STQ), Distributed Speech Recognition; Advanced Front-end feature extraction algorithm; Compression algorithms,"November 2005. 藤本 雅清,石塚健太郎,加藤 比呂子,"音声と雑音両方の状態遷移過程を有する雑音下音声区間検出,"電子情報通信学会,音声研究会,SP2006-87, pp.13-18, December 2006. Kentaro Ishizuka and Tomohiro Nakatani,"Study of noise robust voice activity detection based on periodic component to aperiodic component ratio,"Proceedings of ISCA Tutorial and Research Workshop on Statistical And Perceptual Audition(SAPA2006), pp.65-70, 2006.
音声信号区間推定装置は、キーボード、ポインティングデバイスなどが接続可能な入力部と、液晶ディスプレイ、CRT(Cathode Ray Tube)ディスプレイなどが接続可能な出力部と、音声信号区間推定装置外部に通信可能な通信装置(例えば通信ケーブル、LANカード、ルータ、モデムなど)が接続可能な通信部と、CPU(Central Processing Unit)〔DSP(Digital Signal Processor)でも良い。またキャッシュメモリやレジスタなどを備えていてもよい。〕と、メモリであるRAM、ROMや、ハードディスク、光ディスク、半導体メモリなどである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、音声信号区間推定装置に、フレキシブルディスク、CD−ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)などの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
この実施形態では、予め主記憶部に、離散信号である音響信号を記憶しておく。なお、データとしての音響信号は、予め主記憶部に記憶されているものに限らず、他の収音装置によって収音されたアナログ信号が離散信号に変換されたものでもよいし、音声信号区間推定装置のマイクロホンによって収音されたアナログ信号が離散信号に変換されたものでもよい。アナログ信号から離散信号への変換は公知のA/D変換、量子化等により実現されるから説明を略する。
また、この実施形態では、後述する閾値THも、予め主記憶部に記憶しておく。
本発明による音声信号区間推定の一実施形態を図1に示す。図中符号10は、この発明の一実施形態である音声信号区間推定装置の機能構成を示す。音声信号区間推定装置(10)は、入力の音響信号(13)に対して並列カルマンフィルタ/並列カルマンスムーザを用いて確率計算を行う第1音響信号分析部(14)と、音響信号(13)の周期性成分と非周期性成分の比を用いて確率計算を行う第2音響信号分析部(15)と、それぞれの確率の重みを計算する重み算出部(16)と、算出された重みを用いて、音響信号(13)が音声状態に属する合成確率と非音声状態に属する合成確率を算出し、それぞれの比を求める音声状態/非音声状態合成確率比算出部(17)と、音声状態/非音声状態合成確率比に基づき音声/非音声識別を行う音声信号区間推定部(18)とを含む。
第1音響信号分析部(14)は図2に示すように、入力信号(13)を受けて、音声信号区間推定に用いる音響特徴量を抽出するための音響特徴量抽出部(20)と、確率モデルパラメータを推定し、得られた確率モデルパラメータにより構成される確率モデルを用いた入力信号(13)の確率計算を行うための、確率推定部(21)とを含む。
なお、音響特徴量としては、対数メルスペクトルに限定するものではなく、ケプストラム係数などとすることができる。但し、後述する第2音響信号分析部(15)が用いる音響特徴量(基本周波数)以外の音響特徴量とするのがよい。
確率推定部(21)は図3に示すように、前向き推定部(302)と、後ろ向き推定部(303)と、GMM(Gaussian Mixture Model)記憶部(304)と、パラメータ記憶部(305)を含む。
前向き推定部(302)は図4に示す流れで処理を行う。この処理を並列非線形カルマンフィルタと呼ぶ。
後向き推定部(303)は図5に示す流れで処理を行う。この処理を並列カルマンスムーザと呼ぶ。
第2音響信号分析部(15)は、図6に示すように、音響信号切出手段(60)と、離散フーリエ変換手段(602)と、パワー算出手段(603)と、基本周波数推定手段(604)と、周期性成分パワー算出手段(605)と、減算手段(607)と、除算手段(609)と、確率算出手段(611)と、GMM記憶部(612)によって構成される。また、処理の手順を、図7に示す。
(参考文献1)Nakatani,T. and Irino,T.,“Robust and accurate fundamental frequency estimation based on dominant harmonic components,”Journal of the Acoustical Society of America, Vol.116,pp.3690-3700,2004.
(参考文献2)Quatieri,T.F.,“Discrete-time Speech Signal Processing principles and practice,”Prentice-Hall, 2002; 504乃至505頁.
重み算出部(16)は、第1音響信号分析部(14)の出力パラメータ(310)と第2音響信号分析部(15)の出力パラメータ(615)を入力として、これらの出力パラメータに係るフレームにおいて、どちらの出力パラメータを重視するかを表す、重みγを算出し、この重みγを出力する。重み算出部(16)は、図8に示す流れで処理を行う。
重み算出部(16)で得られた重みγと、第2音響信号分析部(14)の出力パラメータ(310)と、第2音響信号分析部(15)の出力パラメータ(615)を用いて、音声状態/非音声状態の合成確率bj(Gt ,Rt(a,p))を次式によって得ることができる。
音声信号区間推定部(18)にて、音声状態/非音状態確率比算出部(17)の出力である、音声状態/非音状態確率比L(s)(符号105)を受けて、フレーム時刻sのフレームが音声状態に属するか非音声状態に属するかを判定する。
なお、音声状態/非音状態確率比L(s)(符号105)の値と閾値THとの比較判定に限定されるものではなく、αs,1 ・βs,1 とαs,0 ・βs,0との大小関係を比較して判定するようにしてもよい。
上記実施の形態において、パラメータ予測処理(S406)にて、ランダムウォーク過程により1時刻前の推定結果より現在の時刻のパラメータを予測しているが、自己回帰法(線形予測法)などを用いて予測してもよい。この場合、自己回帰係数の次数に応じて最終的な雑音モデルパラメータ推定性能が向上することが期待される。
(参考文献3)北岡 教英,山田 武志,柘植 覚,宮島 千代美,西浦 敬信,中山 雅人,藤本 雅清,山本 一公,滝口 哲也,黒岩 眞吾,武田 一哉,中村 哲,“CENSREC-1-C:雑音下音声区間検出評価基盤の構築,”情報処理学会研究報告,SLP-63-1,pp.1-6,Oct.2006.
図12の結果から、本発明により従来技術に比べて極めて高い性能を得られることが明らかとなった。
14 第1音響信号分析部
15 第2音響信号分析部
16 重み算出部
17 音声状態/非音声状態合成確率比算出部
18 音声信号区間推定部
Claims (9)
- 音響信号において音声信号が存在する区間(以下、音声信号区間という。)を推定する音声信号区間推定装置であって、
上記音響信号をフレーム単位に分割し、フレームの音響特徴量から、前記フレームの音声状態確率および非音声状態確率を求める第1音響信号分析手段と、
上記音響信号をフレーム単位に分割し、フレームの基本周波数に含まれる周期性成分および非周期性成分から、前記フレームの音声状態確率および非音声状態確率を求める第2音響信号分析手段と、
上記第1音響信号分析手段によって得られた上記フレームの音声状態確率/非音声状態確率と、上記第2音響信号分析手段によって得られた上記フレームの音声状態確率/非音声状態確率とを用いて、それぞれに対して重み付けする重みを求める重み算出手段と、
上記第1音響信号分析手段によって得られた上記フレームの音声状態確率と、上記第2音響信号分析手段によって得られた上記フレームの音声状態確率とを、上記重み算出手段によって得られた重みによって重み付けして合成した音声状態合成確率と、上記第1音響信号分析手段によって得られた上記フレームの非音声状態確率と、上記第2音響信号分析手段によって得られた上記フレームの非音声状態確率とを、上記重み算出手段によって得られた重みによって重み付けして合成した非音声状態合成確率とを求め、上記音声状態合成確率と、上記非音声状態合成確率と、音声状態と非音声状態との間の状態遷移モデルとに基づき、上記フレームが音声状態に属する確率(以下、音声状態尤度という。)と上記フレームが非音声状態に属する確率(以下、非音声状態尤度という。)を求める音声状態確率/非音声状態確率算出手段と、
上記音声状態確率/非音声状態確率算出手段によって得られた上記音声状態尤度と上記非音声状態尤度から、上記フレームが音声信号区間であるか否かを判定する音声信号区間推定手段と
を備えた音声信号区間推定装置。 - 上記第1音響信号分析手段が、
上記音響信号をフレーム単位に分割し、フレームの音響特徴量を求める音響特徴量抽出手段と、
予め用意した無音信号とクリーン音声信号の各音響モデルである無音確率モデルおよびクリーン音声確率モデルと、上記音響特徴量抽出手段によって得られた音響特徴量とを用いて並列カルマンフィルタ処理および並列カルマンスムーザ処理を行うことで、音声信号の確率モデル(以下、音声確率モデルという。)と非音声信号の確率モデル(以下、非音声確率モデルという。)を生成し、上記音響特徴量に前記音声確率モデルを適用して上記フレームの音声状態確率を求め、上記音響特徴量に前記非音声確率モデルを適用して上記フレームの非音声状態確率を求める確率推定手段と
を備えたことを特徴とする請求項1に記載の音声信号区間推定装置。 - 上記第2音響信号分析手段が、
上記フレームの基本周波数に含まれる周期性成分を求める周期性成分算出手段と、
上記フレームの基本周波数に含まれる非周期性成分を求める非周期性成分算出手段と、
上記周期性成分算出手段によって得られた周期性成分と上記非周期性成分算出手段によって得られた非周期性成分との比(以下、周期性成分・非周期性成分比という。)を算出する周期性成分・非周期性成分比算出手段と、
上記周期性成分・非周期性成分比算出手段によって得られた上記周期性成分・非周期性成分比と、予め用意した無音信号とクリーン音声信号の各音響モデルである無音確率モデルおよびクリーン音声確率モデルとを用いて、前記フレームの音声状態確率および非音声状態確率を求める確率算出手段と
を備えたことを特徴とする請求項1または請求項2に記載の音声信号区間推定装置。 - 上記重み算出手段は、
上記第1音響信号分析手段によって得られた上記フレームの音声状態確率/非音声状態確率に重み付けする重みαと、上記第2音響信号分析手段によって得られた上記フレームの音声状態確率/非音声状態確率に重み付けする重みβとを、上記第1音響信号分析手段によって得られた上記フレームの音声状態確率とその非音声状態確率との差と、上記第2音響信号分析手段によって得られた上記フレームの音声状態確率とその非音声状態確率との差とに応じて按分して求める
ことを特徴とする請求項1から請求項3のいずれかに記載の音声信号区間推定装置。 - 上記重み算出手段は、
上記第1音響信号分析手段によって得られた上記フレームの音声状態確率がその非音声状態確率以上あるいはより大であり、かつ、上記第2音響信号分析手段によって得られた上記フレームの音声状態確率がその非音声状態確率以上あるいはより大である場合、あるいは、上記第1音響信号分析手段によって得られた上記フレームの音声状態確率がその非音声状態確率未満あるいは以下であり、かつ、上記第2音響信号分析手段によって得られた上記フレームの音声状態確率がその非音声状態確率未満あるいは以下である場合において、上記第1音響信号分析手段によって得られた上記フレームの音声状態確率とその非音声状態確率との差が、上記第2音響信号分析手段によって得られた上記フレームの音声状態確率とその非音声状態確率との差以上あるいはより大である場合には、上記重みβを0とし、上記第1音響信号分析手段によって得られた上記フレームの音声状態確率とその非音声状態確率との差が、上記第2音響信号分析手段によって得られた上記フレームの音声状態確率とその非音声状態確率との差未満あるいは以下である場合には、上記重みαを0とする
ことを特徴とする請求項4に記載の音声信号区間推定装置。 - 上記音声状態確率/非音声状態確率算出手段は、
上記音声状態尤度を、上記状態遷移モデル上の1次マルコフ過程の前向き確率と後向き確率との積として求め、
上記非音声状態尤度を、上記状態遷移モデル上の1次マルコフ過程の前向き確率と後向き確率との積として求める
ことを特徴とする請求項1から請求項5のいずれかに記載の音声信号区間推定装置。 - 音響信号において音声信号が存在する区間(以下、音声信号区間という。)を推定する音声信号区間推定方法であって、
第1音響信号分析手段が、上記音響信号をフレーム単位に分割し、フレームの音響特徴量から、前記フレームの音声状態確率および非音声状態確率を求める第1音響信号分析ステップと、
第2音響信号分析手段が、上記音響信号をフレーム単位に分割し、フレームの基本周波数に含まれる周期性成分および非周期性成分から、前記フレームの音声状態確率および非音声状態確率を求める第2音響信号分析ステップと、
重み算出手段が、上記第1音響信号分析ステップにおいて得られた上記フレームの音声状態確率/非音声状態確率と、上記第2音響信号分析ステップにおいて得られた上記フレームの音声状態確率/非音声状態確率のそれぞれに対して重み付けする重みを求める重み算出ステップと、
音声状態確率/非音声状態確率算出手段が、上記第1音響信号分析ステップにおいて得られた上記フレームの音声状態確率と、上記第2音響信号分析ステップにおいて得られた上記フレームの音声状態確率とを、上記重み算出ステップにおいて得られた重みによって重み付けして合成した音声状態合成確率と、上記第1音響信号分析ステップにおいて得られた上記フレームの非音声状態確率と、上記第2音響信号分析ステップにおいて得られた上記フレームの非音声状態確率とを、上記重み算出ステップにおいて得られた重みによって重み付けして合成した非音声状態合成確率とを求め、上記音声状態合成確率と、上記非音声状態合成確率と、音声状態と非音声状態との間の状態遷移モデルとに基づき、上記フレームが音声状態に属する確率(以下、音声状態尤度という。)と上記フレームが非音声状態に属する確率(以下、非音声状態尤度という。)を求める音声状態確率/非音声状態確率算出ステップと、
音声信号区間推定手段が、上記音声状態確率/非音声状態確率算出ステップにおいて得られた上記音声状態尤度と上記非音声状態尤度から、上記フレームが音声信号区間であるか否かを判定する音声信号区間推定ステップと
を有する音声信号区間推定方法。 - 請求項1から請求項6のいずれかに記載された音声信号区間推定装置としてコンピュータを機能させるための音声信号区間推定プログラム。
- 請求項8に記載の音声信号区間推定プログラムを記録した、コンピュータに読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007229884A JP4691079B2 (ja) | 2007-09-05 | 2007-09-05 | 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007229884A JP4691079B2 (ja) | 2007-09-05 | 2007-09-05 | 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009063700A true JP2009063700A (ja) | 2009-03-26 |
JP4691079B2 JP4691079B2 (ja) | 2011-06-01 |
Family
ID=40558342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007229884A Active JP4691079B2 (ja) | 2007-09-05 | 2007-09-05 | 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4691079B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011248025A (ja) * | 2010-05-25 | 2011-12-08 | Nippon Telegr & Teleph Corp <Ntt> | チャネル統合方法、チャネル統合装置、プログラム |
CN114093379A (zh) * | 2021-12-15 | 2022-02-25 | 荣耀终端有限公司 | 噪声消除方法及装置 |
CN114242116A (zh) * | 2022-01-05 | 2022-03-25 | 成都锦江电子系统工程有限公司 | 一种语音的话音与非话音的综合判决方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0944186A (ja) * | 1995-07-31 | 1997-02-14 | Matsushita Electric Ind Co Ltd | 雑音抑制装置 |
-
2007
- 2007-09-05 JP JP2007229884A patent/JP4691079B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0944186A (ja) * | 1995-07-31 | 1997-02-14 | Matsushita Electric Ind Co Ltd | 雑音抑制装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011248025A (ja) * | 2010-05-25 | 2011-12-08 | Nippon Telegr & Teleph Corp <Ntt> | チャネル統合方法、チャネル統合装置、プログラム |
CN114093379A (zh) * | 2021-12-15 | 2022-02-25 | 荣耀终端有限公司 | 噪声消除方法及装置 |
CN114093379B (zh) * | 2021-12-15 | 2022-06-21 | 北京荣耀终端有限公司 | 噪声消除方法及装置 |
CN114242116A (zh) * | 2022-01-05 | 2022-03-25 | 成都锦江电子系统工程有限公司 | 一种语音的话音与非话音的综合判决方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4691079B2 (ja) | 2011-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5411936B2 (ja) | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 | |
JP6752255B2 (ja) | オーディオ信号分類方法及び装置 | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
KR101266894B1 (ko) | 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법 | |
EP1918910B1 (en) | Model-based enhancement of speech signals | |
US7590526B2 (en) | Method for processing speech signal data and finding a filter coefficient | |
JP4856662B2 (ja) | 雑音除去装置、その方法、そのプログラム及び記録媒体 | |
JP6004792B2 (ja) | 音響処理装置、音響処理方法、及び音響処理プログラム | |
JP2004347761A (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
JP4127792B2 (ja) | 音声強化デバイス | |
JP4673828B2 (ja) | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 | |
JP4691079B2 (ja) | 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体 | |
JPWO2007094463A1 (ja) | 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
JP4755555B2 (ja) | 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体 | |
JP4413175B2 (ja) | 非定常雑音判別方法、その装置、そのプログラム及びその記録媒体 | |
Kumar | Performance measurement of a novel pitch detection scheme based on weighted autocorrelation for speech signals | |
Eyben et al. | Acoustic features and modelling | |
JP6969597B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP6599408B2 (ja) | 音響信号処理装置、方法及びプログラム | |
Sadeghi et al. | The effect of different acoustic noise on speech signal formant frequency location | |
JP6633579B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP6653687B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP4690973B2 (ja) | 信号区間推定装置、方法、プログラム及びその記録媒体 | |
JP4685735B2 (ja) | 音響信号区間検出方法、装置、プログラム及びその記録媒体 | |
JP3034279B2 (ja) | 有音検出装置および有音検出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4691079 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140225 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |