JP2000250568A - 音声区間検出装置 - Google Patents

音声区間検出装置

Info

Publication number
JP2000250568A
JP2000250568A JP11049817A JP4981799A JP2000250568A JP 2000250568 A JP2000250568 A JP 2000250568A JP 11049817 A JP11049817 A JP 11049817A JP 4981799 A JP4981799 A JP 4981799A JP 2000250568 A JP2000250568 A JP 2000250568A
Authority
JP
Japan
Prior art keywords
envelope
smoothing
threshold value
voice
voice section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11049817A
Other languages
English (en)
Inventor
Takayuki Hiekata
孝之 稗方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kobe Steel Ltd
Original Assignee
Kobe Steel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kobe Steel Ltd filed Critical Kobe Steel Ltd
Priority to JP11049817A priority Critical patent/JP2000250568A/ja
Publication of JP2000250568A publication Critical patent/JP2000250568A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【課題】 ノイズレベルが変動するような環境において
も音声/無声区間の判断が正確に可能で,必要時に即座
に音声区間検出を開始できる音声区間検出装置。 【解決手段】 パワー計算部1で得られたパワー包絡線
に対して,平滑部2,3により,異なる平滑化を行う。
続いて,変動量計算部5において,パワー包絡線の変動
度合いを表す値として2つの平滑化出力の差を求める。
閾値計算部6において,例えば上記2つの平滑化出力の
うちの平均振幅付近を辿る平滑化出力と上記変動度合い
とに基づいて音声判定のための閾値を算出し,音声判定
部7においてパワー包絡線の平滑化出力と閾値とに基づ
き音声区間であるか否かの判定を行う。このように,上
記パワー包絡線の変動度合いを考慮して閾値が決められ
るため,同じ平均パワー値を持つノイズでも,ノイズ変
動量に応じて閾値が変化し,ノイズレベルが急激に変化
時も正確な判定が可能である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は,入力信号のレベル
と所定の閾値とに基づいて音声区間であるか無声区間で
あるかを判定する音声区間検出装置に関するものであ
る。
【0002】
【従来の技術】例えば,音声認識装置,音声記憶装置,
雑音抑制装置などのような音声信号を取り扱う装置にお
いては,音声区間と無声区間とを適切に判別することが
重要となる。そこで,従来から様々な音声区間検出方法
が研究されてきた。その中で最も簡単な方法としては,
ある一定時間間隔で入力信号のパワーレベルを計算し,
これが予め設定された所定の閾値以下であれば無声区間
であると判断し,上記閾値を超えれば音声区間であると
判断する方法がある。しかしながら,音声区間検出の精
度は上記閾値の設定によって大きく左右されるため,上
記閾値をどのように設定するかが大きな課題であった。
そこで,上記閾値を適切な値に設定して音声区間の検出
を正確に行えるようにした音声区間検出方法として,例
えば特開平6−332491号公報,特開昭61−25
9197号公報に提案されているものが知られている。
上記特開平6−332491号公報に記載の音声区間検
出装置(第1の従来技術という)は,図8に符号510
で示すように,包絡線抽出手段530と,リリースタイ
ム5ms,アタックタイム30secの時定数回路54
0と,リリースタイム1sec,アタックタイム5ms
の時定数回路550と,レベル補正手段560と,比較
器570とで構成されている。信号入力端子520から
入力された入力信号は,上記包絡線抽出手段530にお
いてその包絡線が抽出され,上記時定数回路540,5
50にそれぞれ入力される。上記時定数回路540で
は,入力された包絡線に対して,極小値の近傍を滑らか
に辿るような平滑化が施され,上記時定数回路550で
は,短時間の平均振幅近傍の値を辿るような平滑化が施
される。上記時定数回路540からの平滑化出力は,上
記レベル補正手段560において5倍に補正されて上記
比較器570に入力される。上記比較器570では,上
記レベル補正手段560によってレベル補正された上記
時定数回路540の平滑化出力(x)を閾値として,上
記時定数回路550の平滑化出力(y)の大小が判定さ
れ,これに基づいて音声/無声区間が判断される。即
ち,yがx以下であれば無声区間,yがxよりも大きけ
れば音声区間であると判断される。また,上記特開昭6
1−259197号公報に記載の音声区間検出装置(第
2の従来技術という)は,音声区間検出処理に入る前に
音声信号未入力状態における所定時間内のノイズレベル
変動量を計算し,その変動量に所定の係数を乗じたもの
に入力信号の平均値を加算したものを閾値として音声/
無声区間を判断するように構成されている。
【0003】
【発明が解決しようとする課題】しかしながら,上記2
つの従来技術には次のような問題点があった。まず上記
第1の従来技術においては,時定数回路540による極
小値近傍を辿る平滑化出力を閾値として用いているた
め,ノイズのレベル変動に閾値が対応できず,他人の声
が混在する雑踏などのように特にノイズのレベル変動が
激しい場合にノイズを音声と誤認する可能性が高いとい
う問題点があった。また,上記第2の従来技術において
は,閾値を精度良く設定するためには音声未入力状態を
長く取る必要があるため,音声区間の検出を開始するま
でに時間が係るという問題点があった。また,一度決め
た閾値は変更されないため,途中でノイズレベルが変動
する場合には対応できないという問題点もあった。本発
明は上記事情に鑑みてなされたものであり,その目的と
するところは,ノイズレベルが変動するような環境にお
いても音声/無声区間の判断を正確に行うことができ,
必要な時に即座に音声区間検出を開始できる音声区間検
出装置を提供することである。
【0004】
【課題を解決するための手段】上記目的を達成するため
に,本発明は,入力信号のパワー包絡線を抽出する包絡
線抽出手段と,上記包絡線抽出手段で得られたパワー包
絡線に対して異なる平滑化を施す第1,及び第2の平滑
化手段と,上記第1,第2の平滑化手段によってそれぞ
れ得られた第1,第2の平滑化出力に基づいて,上記パ
ワー包絡線の変動度合いを算出する変動度合い算出手段
と,上記第1,第2の平滑化出力のうちのいずれか若し
くは両方に基づいて得られた第3の平滑化出力と,上記
変動度合い算出手段で得られた変動度合いとに基づい
て,音声判定のための閾値を算出する閾値算出手段と,
上記入力信号のパワー値に基づく所定の値と,上記閾値
算出手段で得られた閾値とに基づいて,音声区間である
か否かの判定を行う判定手段とを具備してなることを特
徴とする音声区間検出装置として構成されている。ここ
で,上記第2の平滑化手段を,上記第1の平滑化手段よ
りも大きなアタックタイムと,上記第1の平滑化手段よ
りも小さなリリースタイムをもつ時定数回路で構成すれ
ば,上記変動度合いを常に0以上とすることができる。
また,上記変動度合い算出手段で求められる上記変動度
合いとしては,例えば上記第1,第2の平滑化出力の差
分を用いることが考えられる。その他にも,上記第1,
第2の平滑化出力を内挿して得られた上記第3の平滑化
出力と,上記包絡線抽出手段で得られたパワー包絡線を
平滑化した第4の平滑化出力との差分を用いてもよい。
ここで,上記第4の平滑化出力として,上記第1,若し
くは第2の平滑化出力を用いれば,装置が簡略化でき,
コストの低減やコンパクト化が可能となる。また,上記
閾値算出手段で閾値を算出する際には,上記第3の平滑
化出力と上記変動度合いとをそのまま用いてもよいが,
それらの値のいずれか若しくは両方を平滑化したものを
用いてもよい。また,上記閾値算出手段で閾値を算出す
る際に用いられる各値は,全て同じ時刻(若しくはフレ
ーム)の値を用いてもよいし,前の時刻(若しくはフレ
ーム)の値を用いてもよい。これらについては,対象と
する入力音声などに応じて適切な方法を用いることが望
ましい。また,上記判定手段で用いられる上記所定の値
としては,入力信号をそのまま用いることももちろんで
きるが,上記包絡線抽出手段で得られたパワー包絡線若
しくはその平滑化出力を用いることが望ましい。パワー
包絡線の平滑化出力を用いた場合には,音声区間の途中
でパワー包絡が一時的に降下した状態と音声区間の終了
との区別がより明確になるという利点がある。尚,上記
パワー包絡線の平滑化出力として,上記第1,若しくは
第2の平滑化出力を用いれば,装置が簡略化でき,コス
トの低減やコンパクト化が可能となる。また,上記判定
手段において,上記包絡線抽出手段で得られたパワー包
絡線若しくはその平滑化出力が所定時間以上継続して上
記閾値を超えた場合に音声区間であると判定すれば,パ
ルス的なノイズの影響を排除でき,より正確な判定が可
能となる。同様の理由で,無声区間(音声区間の終了)
の判定においても,上記包絡線抽出手段で得られたパワ
ー包絡線若しくはその平滑化出力が所定時間以上継続し
て上記閾値以下となった場合に無声区間であると判定す
るようにすることが望ましい。更に,上記包絡線抽出手
段で得られたパワー包絡線若しくはその平滑化出力が上
記閾値を超えた時点,若しくは上記判定手段において音
声区間であると判定された時点で,上記閾値の変動を抑
制する処理を行えば,閾値の上昇による音声区間終了の
誤検出を防止できる。上記閾値の変動抑制処理として
は,閾値の値をホールドする,閾値にアタックタイムの
長い平滑化処理を施すなどが考えられる。
【0005】
【作用】本発明によれば,まずパワー包絡線の異なる平
滑化出力(例えば,最大値付近,及び平均振幅付近を辿
る平滑化出力)に基づいて上記パワー包絡線の変動度合
いが算出される。そして,第3の平滑化出力(例えば上
記2つの平滑化出力のうち,平均振幅付近を辿る平滑化
出力)と上記変動度合いとに基づいて音声判定のための
閾値が算出される。従って,同じ平均パワー値を持つノ
イズであっても,ノイズ変動量に応じて閾値が変化し,
ノイズレベルが急激に変化した場合にも正確な判定が可
能である。また,上記閾値は,時々刻々と変化する入力
レベルをリアルタイムにモニターしながら決定されるた
め,事前測定を行う必要もない。
【0006】
【発明の実施の形態】以下,添付図面を参照して本発明
の実施の形態及び実施例につき説明し,本発明の理解に
供する。尚,以下の実施の形態及び実施例は,本発明を
具体化した一例であって,本発明の技術的範囲を限定す
る性格のものではない。ここに,図1は本発明の実施の
形態に係る音声区間検出装置0を具備する音声処理装置
A1の概略構成を示すブロック図,図2は上記音声区間
検出装置0の変形例である音声区間検出装置10を具備
する音声処理装置A2の概略構成を示すブロック図,図
3は上記音声区間検出装置0の変形例である音声区間検
出装置20を具備する音声処理装置A3の概略構成を示
すブロック図,図4は上記音声区間検出装置0の変形例
である音声区間検出装置30を具備する音声処理装置A
4の概略構成を示すブロック図,図5は上記音声区間検
出装置0による音声区間検出処理の一例を説明するため
のパワー履歴図,図6は図5におけるノイズなし音声の
パワー履歴図,図7は上記音声区間検出装置20による
音声区間検出処理の一例を説明するためのパワー履歴図
である。本実施の形態に係る音声処理装置A1は,図1
に示すように,音声区間検出装置0(本発明に係る音声
区間検出装置の一例)と,音声処理部52とを具備して
構成されている。上記音声区間検出装置0は,更にパワ
ー計算部1,平滑部2,3,4,変動量計算部5,閾値
計算部6,及び音声判定部7を具備して構成されてい
る。
【0007】上記パワー計算部1(包絡線抽出手段の一
例)では,入力端子51から入力された入力信号に基づ
いて例えば振幅2乗が計算され,パワー包絡線が出力さ
れる。このパワー計算部1はハードウエア回路で実現し
てもよいし,ディジタルで処理できる場合にはDSPな
どを用いてもよい。更に,フレーム単位で処理する場合
にはフレーム毎のパワー平均を求めるようにしてもよ
い。上記平滑部2(第1の平滑化手段の一例)では,上
記パワー計算部1から出力されたパワー包絡線に対し
て,最大値付近を滑らかに辿るような平滑化処理が施さ
れる。上記平滑部2は,ハードウェアでは,例えばアタ
ックタイムを20ms程度以下,リリースタイムを10
0ms程度以上に設定した時定数回路により実現でき
る。ディジタル処理が可能な場合には,例えば次のよう
な式を用いて処理できる。
【数1】 ここで,Pmax():フレームnの平滑化出力, P() :入力であるパワー包絡, A1,A2 :範囲(0,1)の重み係数 上記A1がリリースタイムに,A2がアタックタイムに
相当する係数である。パワー包絡線の最大値近傍を辿る
ようにするためにはA1>A2に設定する。上記平滑部
3(第2の平滑化手段の一例)では,上記パワー計算部
1から出力されたパワー包絡線に対して,平均振幅付近
を辿るような平滑化処理が施される。上記平滑部2は,
ハードウェアでは,例えばアタックタイムを上記平滑部
2よりも小さく,リリースタイムを上記平滑部2よりも
大きく設定した時定数回路とすることが望ましい。この
ような時定数に設定することにより,平滑部3による平
滑化出力が,常に上記平滑部2による平滑化出力よりも
小さくなり,後述する変動量計算部5で得られる変動量
を0以上とすることができる。但し,上記変動量の値が
負となったとしても,後述する閾値計算部6などにおい
てそれに応じた処理(例えば絶対値をとるなど)を行う
ことで対応可能であるから,上記条件は必須ではない。
尚,ディジタル処理が可能な場合には,例えば次のよう
な式を用いて処理できる。
【数2】 ここで,Pave():フレームnの平滑化出力, B1,B2 :範囲(0,1)の重み係数 A1≧B1,A2≦B2(但し,A1=B1,A2=B
2を除く)とすれば,上記時定数回路の場合と同様,変
動量計算部5で得られる変動量を0以上とすることがで
きる。また,平均振幅付近を辿るようにするには,なる
べくB1=B2に近い値に設定すればよい。
【0008】上記変動量計算部5(変動度合い算出手段
の一例)では,上記平滑部2と上記平滑部3からそれぞ
れ出力された平滑化出力の差(以下,変動量という)が
求められる。ここで得られる値は,パワー包絡の最大値
付近と平均値付近の差,即ち背景ノイズの変動度合いを
表す。アナログの場合には簡単な差分回路で構成でき,
ディジタルの場合には例えば次のような式を用いて処理
できる。 Pvar(n) = Pmax(n) - Pave(n) …(3) 上式で用いられる各値は,全て同一フレームの値を用い
てもよいし,Pmax(n-1) ,Pave(n-1) やそれ以前の値を
用いてもよい。また,Pave(n) に代えて,平滑化処理を
施したP'ave(n)を用いてもよい。上記閾値計算部6(閾
値算出手段の一例)では,上記変動量計算部5で得られ
た変動量と,上記平滑部3による平滑化出力(第3の平
滑化出力の一例)とに基づいて,例えば次式を用いて閾
値が求められる。 Pth(n) = Pave(n) + K * Pvar(n) …(4) ここで,Pth() :閾値, K :定数 上式で用いられる各値は,全て同一フレームの値を用い
てもよいし,Pave(n-1) ,Pvar(n-1) やそれ以前の値を
用いてもよい。また,Pvar(n) に代えて,平滑化処理を
施したP'var(n)を用いてもよい。ここで求められる上記
閾値Pth は,パワー包絡の平滑化出力 Pave だけでな
く,背景ノイズの変動度合いを表す Pvar が考慮されて
いるため,同じ平均パワー値を持つノイズであっても,
ノイズ変動量に応じて閾値が変化し,ノイズレベルが急
激に変化した場合にも動的に対応できる。また,上記閾
値は,時々刻々と変化する入力レベルをリアルタイムに
モニターしながら決定されるため,事前測定を行う必要
もない。
【0009】上記音声判定部7(判定手段の一例)で
は,上記閾値計算部6で決定された閾値と,所定の判定
対象値との比較による音声/無声区間の判定が行われ
る。上記所定の判定対象値としては,平滑部4からの出
力が用いられる。上記平滑部4では,上記パワー計算部
1から出力されたパワー包絡に対して任意の平滑化処理
を施すようにしてもよいし,入力されたパワー包絡をそ
のまま出力するようにしてもよい。平滑部4で平滑化を
施した場合には,音声区間の途中でパワー包絡が一時的
に降下した状態と音声区間の終了との区別が明確になる
という利点がある。上記音声判定部7では,上記平滑部
4から出力された判定対象値が上記閾値計算部6で得ら
れた閾値を超えていれば音声区間,それ以外は無声区間
であると判定される。ここで,パルス的なノイズを排除
するため,ある一定時間(若しくはフレーム)継続して
判定対象値が閾値を超えた場合に,その最初の時点に遡
って音声区間であったと判定することが望ましい。同様
に,ある一定時間(若しくはフレーム)継続して判定対
象値が閾値以下となった場合に,その最初の時点に遡っ
て無声区間であったと判定することが望ましい。また,
音声区間であると判定されている間は,閾値の上昇によ
る音声区間終了の誤検出を防止するため,閾値の変動を
抑制することが望ましい。具体的には,上記判定対象値
が上記閾値を超えた時点,又は音声区間であると判定さ
れた時点から上記判定対象値が上記閾値以下となるま
で,又は無声区間であると判定されるまでの間,閾値の
値をホールドするか,或いは閾値にアタックタイムの長
い平滑化処理を施すなどが考えられる。
【0010】上記音声判定部7による音声/無声区間の
判定結果は,音声処理部52に送られる。また,上記音
声処理部52には,上記判定結果と共に上記入力端子5
1から入力された入力信号も入力される。上記音声処理
部52は,入力音声と上記音声/無声区間の判定結果の
情報とを用いるアプリケーションであり,例えば音声圧
縮装置,音声認識装置,ノイズ除去装置などが考えられ
る。音声圧縮装置であれば,上記判定結果に基づいて音
声区間の情報だけを圧縮保存(無声圧縮)することによ
りメモリの消費が抑制できる。音声認識装置であれば,
上記判定結果に基づいて認識処理の対象となる音声部分
のみが切り出される。また,ノイズ除去装置であれば,
上記判定結果に基づいて無声区間での音量を抑制するな
どの処理が行われる。尚,これらはあくまでも一例であ
り,音声区間検出結果を用いるものであればどのような
アプリケーションであってもよい。
【0011】図5に,上記音声区間検出装置0を用いた
ディジタル処理による音声区間検出結果を示す。実線が
パワー包絡線,点線が平滑部2による最大値付近を辿る
平滑化出力(Pmax),破線が平滑部3による平均振幅付近
を辿る平滑化出力(Pave),一点鎖線が閾値計算部6で得
られた閾値(Pth) である。尚,ここでは,上記(3),
(4)に代えて,平滑化処理を挟んだ次の(3)′,
(4)′式を用いている。 Pvar(n) = Pmax(n) - P'ave(n) …(3)′ Pth(n) = Pave(n) + K * P'var(n) …(4)′ ここで, P'ave(n) = 0.2*Pave(n) + 0.8*Pave(n-1) P'var(n) = 0.05*Pvar(n) + 0.95*Pvar(n-1) 各計算式の係数は,A1=0.85,A2=0.10,B1=0.85,B2=0.85,
K=4 とした。また,音声区間と判定されている間は閾値
をホールドしている。図5と,ノイズなし音声のパワー
包絡線を示した図6とを比較すると,音声区間が正確に
判定されていることがわかる。また,ノイズレベルに応
じて閾値が変動しており,40〜50フレーム付近にあ
るパルスノイズの誤認識がうまく回避されている様子が
よくわかる。
【0012】以上説明したように,本実施の形態に係る
音声区間検出装置0では,パワー包絡線に対して異なる
平滑化出力(最大値付近,及び平均振幅付近を辿る平滑
化出力 Pmax, Pave )に基づいて上記パワー包絡線の変
動度合い(Pvar)を算出し,上記平滑化出力(Pave)にこの
変動度合いを考慮して得られた閾値(Pth) とパワー包絡
線若しくはその平滑化出力との比較によって音声/無声
区間を判定しているため,同じ平均パワー値を持つノイ
ズであっても,ノイズ変動量に応じて閾値が変化し,ノ
イズレベルが急激に変化した場合にも正確な判定が可能
である。また,上記閾値は,時々刻々と変化する入力レ
ベルをリアルタイムにモニターしながら決定されるた
め,事前測定を行う必要もない。
【0013】
【実施例】上記実施の形態で示した音声区間検出装置0
は最も基本的な構成を有するものであり,次のように様
々な変形例が考えられる。上記音声区間検出装置0で用
いられている平滑部4の出力は,通常は最大値付近を辿
る平滑化出力とするため,図2に示すように,平滑部4
を省略して平滑部2の平滑化出力を音声判定部7に入力
するように構成することもできる。これによって装置が
簡略化でき,コストの低減やコンパクト化が可能とな
る。また,平滑部3において平均振幅付近を辿る平滑化
出力を直接出力するのではなく,図3に示すように,最
大値付近を辿る平滑部2の平滑化出力(第1の平滑化出
力の一例)と,最小値付近を辿る平滑部3′の平滑化出
力(第2の平滑化出力の一例)とに基づいて,内挿部8
で内挿処理を行うことによって平均振幅付近を辿る平滑
化出力を得るようにしてもよい。上記平滑部3′は,ハ
ードウェアでは,例えばアタックタイムを100ms程
度以上,リリースタイムを20ms程度以下に設定した
時定数回路により実現できる。ディジタル処理が可能な
場合には,例えば次のような式を用いて処理できる。
【数3】 ここで,Pmin():フレームnの平滑化出力, C1,C2 :範囲(0,1)の重み係数 B1≧C1,B2≦C2(但し,B1=C1,B2=C
2を除く)とすれば,変動量計算部5で得られる変動量
を0以上とすることができる。図7に,図3に示す音声
区間検出装置20を用いたディジタル処理による音声区
間検出結果を示す。実線がパワー包絡線,点線が平滑部
2による最大値付近を辿る平滑化出力(Pmax),二点鎖線
が平滑部3′による最小値付近を辿る平滑化出力(Pmi
n),破線が内挿部8で得られた内挿出力(Pave),一点鎖
線が閾値計算部6で得られた閾値(Pth) である。図5の
場合と同様,上記(3),(4)に代えて,(3)′,
(4)′式を用い,各計算式の係数は,A1=0.85,A2=0.1
0,C1=0.1,C2=0.99,K=4とした。また,音声区間と判定さ
れている間は閾値をホールドしている。図5の場合とほ
ぼ同様,音声区間が正確に判定されていることがわか
る。尚,図3に示す上記音声区間検出装置20では,変
動量計算部5,及び音声判定部7で用いる平滑化出力
を,それぞれ専用の平滑部9(請求項4に係る第4の平
滑化出力を生成),平滑部4で生成するように構成して
いるが,上記平滑部4,9のいずれか若しくは両方を平
滑部2で共用させることも可能である(図4)。
【0014】また,以上の例では,変動量計算部5には
パワー包絡線の最大値付近を辿る平滑化出力と,平均振
幅付近を辿る平滑化出力とを入力し,それらの差を変動
量としたが,上記変動量は必ずしも上記のような平滑化
出力の差とする必要はない。例えば,最大値付近と最小
値付近をそれぞれ辿るような2つの平滑化出力の差を変
動量としてもよいし,それら以外の2つの平滑化出力を
用いてもよい。要は,パワーレベルの変動度合いを示す
値が変動量として得られればよく,対象とする音声信号
などに応じて適当なものを用いることができる。
【0015】
【発明の効果】以上説明したように,本発明は,入力信
号のパワー包絡線を抽出する包絡線抽出手段と,上記包
絡線抽出手段で得られたパワー包絡線に対して異なる平
滑化を施す第1,及び第2の平滑化手段と,上記第1,
第2の平滑化手段によってそれぞれ得られた第1,第2
の平滑化出力に基づいて,上記パワー包絡線の変動度合
いを算出する変動度合い算出手段と,上記第1,第2の
平滑化出力のうちのいずれか若しくは両方に基づいて得
られた第3の平滑化出力と,上記変動度合い算出手段で
得られた変動度合いとに基づいて,音声判定のための閾
値を算出する閾値算出手段と,上記入力信号のパワー値
に基づく所定の値と,上記閾値算出手段で得られた閾値
とに基づいて,音声区間であるか否かの判定を行う判定
手段とを具備してなることを特徴とする音声区間検出装
置として構成されているため,同じ平均パワー値を持つ
ノイズであっても,ノイズ変動量に応じて閾値が変化
し,ノイズレベルが急激に変化した場合にも正確な音声
区間の判定が可能である。また,上記閾値は,時々刻々
と変化する入力レベルをリアルタイムにモニターしなが
ら決定されるため,事前測定を行う必要もない。ここ
で,上記第2の平滑化手段を,上記第1の平滑化手段よ
りも大きなアタックタイムと,上記第1の平滑化手段よ
りも小さなリリースタイムをもつ時定数回路で構成すれ
ば,上記変動度合いを常に0以上とすることができる。
また,上記変動度合い算出手段で求められる上記変動度
合いとしては,例えば上記第1,第2の平滑化出力の差
分を用いることが考えられる。その他にも,上記第1,
第2の平滑化出力を内挿して得られた上記第3の平滑化
出力と,上記包絡線抽出手段で得られたパワー包絡線を
平滑化した第4の平滑化出力との差分を用いてもよい。
ここで,上記第4の平滑化出力として,上記第1,若し
くは第2の平滑化出力を用いれば,装置が簡略化でき,
コストの低減やコンパクト化が可能となる。また,上記
判定手段で用いられる上記所定の値としては,入力信号
をそのまま用いることももちろんできるが,上記包絡線
抽出手段で得られたパワー包絡線若しくはその平滑化出
力を用いることが望ましい。パワー包絡線の平滑化出力
を用いた場合には,音声区間の途中でパワー包絡が一時
的に降下した状態と音声区間の終了との区別がより明確
になるという利点がある。尚,上記パワー包絡線の平滑
化出力として,上記第1,若しくは第2の平滑化出力を
用いれば,装置が簡略化でき,コストの低減やコンパク
ト化が可能となる。また,上記判定手段において,上記
包絡線抽出手段で得られたパワー包絡線若しくはその平
滑化出力が所定時間以上継続して上記閾値を超えた場合
に音声区間であると判定すれば,パルス的なノイズの影
響を排除でき,より正確な判定が可能となる。同様の理
由で,無声区間(音声区間の終了)の判定においても,
上記包絡線抽出手段で得られたパワー包絡線若しくはそ
の平滑化出力が所定時間以上継続して上記閾値以下とな
った場合に無声区間であると判定するようにすることが
望ましい。更に,上記包絡線抽出手段で得られたパワー
包絡線若しくはその平滑化出力が上記閾値を超えた時
点,若しくは上記判定手段において音声区間であると判
定された時点で,上記閾値の変動を抑制する処理を行え
ば,閾値の上昇による音声区間終了の誤検出を防止でき
る。
【図面の簡単な説明】
【図1】 本発明の実施の形態に係る音声区間検出装置
0を具備する音声処理装置A1の概略構成を示すブロッ
ク図。
【図2】 上記音声区間検出装置0の変形例である音声
区間検出装置10を具備する音声処理装置A2の概略構
成を示すブロック図。
【図3】 上記音声区間検出装置0の変形例である音声
区間検出装置20を具備する音声処理装置A3の概略構
成を示すブロック図。
【図4】 上記音声区間検出装置0の変形例である音声
区間検出装置30を具備する音声処理装置A4の概略構
成を示すブロック図。
【図5】 上記音声区間検出装置0による音声区間検出
処理の一例を説明するためのパワー履歴図。
【図6】 図5におけるノイズなし音声のパワー履歴
図。
【図7】 上記音声区間検出装置20による音声区間検
出処理の一例を説明するためのパワー履歴図。
【図8】 第1の従来技術に係る音声区間検出装置の概
略構成を示すブロック図。
【符号の説明】
0,10,20,30…音声区間検出装置 1…パワー計算部(包絡線抽出手段の一例) 2…平滑部(第1の平滑化手段の一例) 3…平滑部(第2の平滑化手段の一例) 3′…平滑部(第2の平滑化手段の一例) 4…平滑部 5…変動量計算部(変動度合い算出手段の一例) 6…閾値計算部(閾値算出手段の一例) 7…音声判定部(判定手段の一例) 8…内挿部 9…平滑部

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 入力信号のパワー包絡線を抽出する包絡
    線抽出手段と,上記包絡線抽出手段で得られたパワー包
    絡線に対して異なる平滑化を施す第1,及び第2の平滑
    化手段と,上記第1,第2の平滑化手段によってそれぞ
    れ得られた第1,第2の平滑化出力に基づいて,上記パ
    ワー包絡線の変動度合いを算出する変動度合い算出手段
    と,上記第1,第2の平滑化出力のうちのいずれか若し
    くは両方に基づいて得られた第3の平滑化出力と,上記
    変動度合い算出手段で得られた変動度合いとに基づい
    て,音声判定のための閾値を算出する閾値算出手段と,
    上記入力信号のパワー値に基づく所定の値と,上記閾値
    算出手段で得られた閾値とに基づいて,音声区間である
    か否かの判定を行う判定手段とを具備してなることを特
    徴とする音声区間検出装置。
  2. 【請求項2】 上記第2の平滑化手段が,上記第1の平
    滑化手段よりも大きなアタックタイムと,上記第1の平
    滑化手段よりも小さなリリースタイムをもつ時定数回路
    で構成される請求項1記載の音声区間検出装置。
  3. 【請求項3】 上記変動度合い算出手段が,上記変動度
    合いとして上記第1,第2の平滑化出力の差分を算出す
    る請求項1又は2記載の音声区間検出装置。
  4. 【請求項4】 上記変動度合い算出手段が,上記変動度
    合いとして,上記第1,第2の平滑化出力を内挿して得
    られた上記第3の平滑化出力と,上記包絡線抽出手段で
    得られたパワー包絡線を平滑化した第4の平滑化出力と
    の差分を算出する請求項1又は2記載の音声区間検出装
    置。
  5. 【請求項5】 上記第4の平滑化出力として,上記第
    1,若しくは第2の平滑化出力を用いる請求項4記載の
    音声区間検出装置。
  6. 【請求項6】 上記閾値算出手段において閾値算出に用
    いられる各値を平滑化する請求項1〜5のいずれかに記
    載の音声区間検出装置。
  7. 【請求項7】 上記判定手段で用いられる上記所定の値
    として,上記包絡線抽出手段で得られたパワー包絡線若
    しくはその平滑化出力が用いられる請求項1〜6のいず
    れかに記載の音声区間検出装置。
  8. 【請求項8】 上記パワー包絡線の平滑化出力として,
    上記第1,若しくは第2の平滑化出力を用いる請求項7
    記載の音声区間検出装置。
  9. 【請求項9】 上記判定手段において,上記包絡線抽出
    手段で得られたパワー包絡線若しくはその平滑化出力が
    所定時間以上継続して上記閾値を超えた場合に音声区間
    であると判定する請求項1〜8のいずれかに記載の音声
    区間検出装置。
  10. 【請求項10】 上記判定手段において,上記包絡線抽
    出手段で得られたパワー包絡線若しくはその平滑化出力
    が所定時間以上継続して上記閾値以下となった場合に無
    声区間であると判定する請求項1〜9のいずれかに記載
    の音声区間検出装置。
  11. 【請求項11】 上記包絡線抽出手段で得られたパワー
    包絡線若しくはその平滑化出力が上記閾値を超えた時
    点,若しくは上記判定手段において音声区間であると判
    定された時点で,上記閾値の変動を抑制する請求項1〜
    10のいずれかに記載の音声区間検出装置。
JP11049817A 1999-02-26 1999-02-26 音声区間検出装置 Pending JP2000250568A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11049817A JP2000250568A (ja) 1999-02-26 1999-02-26 音声区間検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11049817A JP2000250568A (ja) 1999-02-26 1999-02-26 音声区間検出装置

Publications (1)

Publication Number Publication Date
JP2000250568A true JP2000250568A (ja) 2000-09-14

Family

ID=12841679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11049817A Pending JP2000250568A (ja) 1999-02-26 1999-02-26 音声区間検出装置

Country Status (1)

Country Link
JP (1) JP2000250568A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018076A (ja) * 2003-06-25 2005-01-20 Lucent Technol Inc 客観的なスピーチ品質評価において時間/言語歪みを反映する方法
JP2005215204A (ja) * 2004-01-28 2005-08-11 Ntt Docomo Inc 有音無音判定装置および有音無音判定方法
JP2007010892A (ja) * 2005-06-29 2007-01-18 Toa Corp 音声信号判断装置
JP2007171267A (ja) * 2005-12-19 2007-07-05 Nippon Telegr & Teleph Corp <Ntt> 連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
WO2008114448A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 音声認識システム、音声認識プログラムおよび音声認識方法
JP2011133522A (ja) * 2009-12-22 2011-07-07 Oki Electric Industry Co Ltd 背景雑音レベル推定装置、方法及びプログラム
US8442817B2 (en) 2003-12-25 2013-05-14 Ntt Docomo, Inc. Apparatus and method for voice activity detection
WO2015114674A1 (ja) * 2014-01-28 2015-08-06 三菱電機株式会社 集音装置、集音装置の入力信号補正方法および移動機器情報システム
JP2018081277A (ja) * 2016-11-18 2018-05-24 富士通株式会社 音声区間検出方法、音声区間検出装置および音声区間検出プログラム
JP2019537751A (ja) * 2016-11-17 2019-12-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 可変閾値を使用してオーディオ信号を分解するための装置および方法
JP2020064248A (ja) * 2018-10-19 2020-04-23 日本放送協会 発話末タイミング予測装置およびプログラム
US11183199B2 (en) 2016-11-17 2021-11-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018076A (ja) * 2003-06-25 2005-01-20 Lucent Technol Inc 客観的なスピーチ品質評価において時間/言語歪みを反映する方法
US8442817B2 (en) 2003-12-25 2013-05-14 Ntt Docomo, Inc. Apparatus and method for voice activity detection
JP2005215204A (ja) * 2004-01-28 2005-08-11 Ntt Docomo Inc 有音無音判定装置および有音無音判定方法
JP4601970B2 (ja) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
JP2007010892A (ja) * 2005-06-29 2007-01-18 Toa Corp 音声信号判断装置
JP4493557B2 (ja) * 2005-06-29 2010-06-30 ティーオーエー株式会社 音声信号判断装置
JP4648183B2 (ja) * 2005-12-19 2011-03-09 日本電信電話株式会社 連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2007171267A (ja) * 2005-12-19 2007-07-05 Nippon Telegr & Teleph Corp <Ntt> 連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JPWO2008114448A1 (ja) * 2007-03-20 2010-07-01 富士通株式会社 音声認識システム、音声認識プログラムおよび音声認識方法
US7991614B2 (en) 2007-03-20 2011-08-02 Fujitsu Limited Correction of matching results for speech recognition
JP4836290B2 (ja) * 2007-03-20 2011-12-14 富士通株式会社 音声認識システム、音声認識プログラムおよび音声認識方法
WO2008114448A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 音声認識システム、音声認識プログラムおよび音声認識方法
JP2011133522A (ja) * 2009-12-22 2011-07-07 Oki Electric Industry Co Ltd 背景雑音レベル推定装置、方法及びプログラム
US9674607B2 (en) 2014-01-28 2017-06-06 Mitsubishi Electric Corporation Sound collecting apparatus, correction method of input signal of sound collecting apparatus, and mobile equipment information system
CN105830152A (zh) * 2014-01-28 2016-08-03 三菱电机株式会社 集音装置、集音装置的输入信号校正方法以及移动设备信息系统
JP6048596B2 (ja) * 2014-01-28 2016-12-21 三菱電機株式会社 集音装置、集音装置の入力信号補正方法および移動機器情報システム
JPWO2015114674A1 (ja) * 2014-01-28 2017-03-23 三菱電機株式会社 集音装置、集音装置の入力信号補正方法および移動機器情報システム
WO2015114674A1 (ja) * 2014-01-28 2015-08-06 三菱電機株式会社 集音装置、集音装置の入力信号補正方法および移動機器情報システム
JP2019537751A (ja) * 2016-11-17 2019-12-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 可変閾値を使用してオーディオ信号を分解するための装置および方法
US11158330B2 (en) 2016-11-17 2021-10-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an audio signal using a variable threshold
US11183199B2 (en) 2016-11-17 2021-11-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
US11869519B2 (en) 2016-11-17 2024-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an audio signal using a variable threshold
JP2018081277A (ja) * 2016-11-18 2018-05-24 富士通株式会社 音声区間検出方法、音声区間検出装置および音声区間検出プログラム
JP2020064248A (ja) * 2018-10-19 2020-04-23 日本放送協会 発話末タイミング予測装置およびプログラム
JP7113719B2 (ja) 2018-10-19 2022-08-05 日本放送協会 発話末タイミング予測装置およびプログラム

Similar Documents

Publication Publication Date Title
KR100330230B1 (ko) 잡음 억제 방법 및 장치
JP3604393B2 (ja) 音声検出装置
US9460731B2 (en) Noise estimation apparatus, noise estimation method, and noise estimation program
EP1008140B1 (en) Waveform-based periodicity detector
US6360199B1 (en) Speech coding rate selector and speech coding apparatus
JP2000250568A (ja) 音声区間検出装置
CN112927725A (zh) 用于估计背景噪声的方法和背景噪声估计器
GB2380644A (en) Speech detection
US9245537B2 (en) Speech enhancement apparatus and method for emphasizing consonant portion to improve articulation of audio signal
JPWO2003107326A1 (ja) 音声認識方法及びその装置
JP2000163099A (ja) 雑音除去装置、音声認識装置および記憶媒体
JP6750469B2 (ja) 音声区間検出方法、音声区間検出装置および音声区間検出プログラム
JP3279254B2 (ja) スペクトル雑音除去装置
JP3526911B2 (ja) 音声認識装置及び音声認識方法
JP3118023B2 (ja) 音声区間検出方式及び音声認識装置
JP2001166783A (ja) 音声区間検出方法
US9779762B2 (en) Object sound period detection apparatus, noise estimating apparatus and SNR estimation apparatus
JP3026855B2 (ja) 音声認識装置
US6385570B1 (en) Apparatus and method for detecting transitional part of speech and method of synthesizing transitional parts of speech
JPS6147437B2 (ja)
JP3160228B2 (ja) 音声区間検出方法およびその装置
CN116895281B (zh) 基于能量的语音激活检测方法、装置及芯片
JP2001067092A (ja) 音声検出装置
JPH10171487A (ja) 音声区間判別装置
JP2003216180A (ja) 音声認識装置およびその方法