JPH1195785A - 音声区間検出方式 - Google Patents

音声区間検出方式

Info

Publication number
JPH1195785A
JPH1195785A JP9254766A JP25476697A JPH1195785A JP H1195785 A JPH1195785 A JP H1195785A JP 9254766 A JP9254766 A JP 9254766A JP 25476697 A JP25476697 A JP 25476697A JP H1195785 A JPH1195785 A JP H1195785A
Authority
JP
Japan
Prior art keywords
time
power value
value
input power
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9254766A
Other languages
English (en)
Inventor
Nobukimi Kobayashi
宣公 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP9254766A priority Critical patent/JPH1195785A/ja
Publication of JPH1195785A publication Critical patent/JPH1195785A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声の途中で入力パワー値が小さくなってい
る入力音声や、残留音及び雑音の混入した入力音声に対
しても音声区間を安定かつ正確に検出することが可能な
音声区間検出方式を提供すること。 【解決手段】 入力信号はパワー計算部2で入力パワー
値に変換され、仮音声区間検出用閾値設定部4にて音声
入力時の雑音パワー値から仮音声区間検出用パワー閾値
を設定し、仮音声区間検出部6にて前記入力パワー値と
前記パワー閾値との大小比較により始端及び仮終端を検
出する。終端検出用閾値設定部8にて音声区間の入力パ
ワー値における重心以降の最大パワー値と音声区間直後
の雑音パワー値から終端検出用パワー閾値を設定し、終
端検出部8にて前記入力パワー値が前記終端検出用パワ
ー閾値より初めて小さくなる時刻を終端とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置にお
ける音声区間検出方式に関するものである。
【0002】
【従来の技術】音声認識の技術は、優れたマンマシン・
インターフェースを実現する上での重要な役割を担って
いる。この音声認識において、その認識精度を高める上
での重要な前処理として音声区間検出処理があり、従来
より種々の研究・開発が行われている。
【0003】例えば、従来、一般的に行われてきた音声
区間検出処理においては、図4に示すように、入力信号
の入力パワー値を時間tの関数P(t)とした時、音声
信号を入力した時の雑音パワー値Nからパワー閾値Lを
設定する。その閾値Lと比較して入力パワー値P(t)
が大である状態(P(t)>L)が一定時間、即ち、始
端決定最低継続時間TS以上継続した時、この継続時間
TSの開始時刻を音声区間の始端とする。その後、入力
パワー値P(t)がその閾値Lと比較して小である状態
(P(t)≦L)が一定時間すなわち終端決定継続時間
TE以上継続した時、この継続時間TEの開始時刻を音
声区間の終端とするという判定方法により音声区間の決
定を行なっていた。
【0004】ここで、雑音パワー値Nとしては音声信号
の入力中でないと想定される時刻t0から予め定められ
た長さの雑音測定時間間隔TNにおける入力パワー値P
(t)の平均値とする。また、パワー閾値Lとしては雑
音パワー値Nに予め定められた定数C0を加算した値と
するのが一般的な方法であった。
【0005】この方法によれば、図4においてパワー閾
値Lと入力パワー値P(t)とが一致する時刻をt1、
t2、t3、t4とすると、入力パワー値P(t)がこ
のパワー閾値Lを前述の継続時間TS以上超える区間の
開始点、例えば、時刻t3を音声区間の始端と決定して
いる。
【0006】次に、パワー閾値Lを前述の継続時間TE
以上の間下回る区間の開始点、例えば、時刻t4をその
音声区間の終端と決定している。
【0007】
【発明が解決しようとする課題】しかしながら、前記従
来例において終端決定最低継続時間TEを短く設定した
場合に、音声の途中で入力パワー値が小さくなっている
入力音声に対しては、音声区間の終端が音声の途中に来
てしまうという問題点がある。一方、終端決定最低継続
時間TEを長く設定した場合に、音声発生終了直後に発
生する呼吸音等の残留音及び雑音の影響による終端決定
時刻の遅延が起こる等の問題点もある。
【0008】本発明は、上述した問題点を解決するため
になされたものであり、音声の途中で入力パワー値が小
さくなっている入力音声や、残留音及び雑音の混入した
入力音声に対しても音声区間を安定かつ正確に検出する
ことが可能な音声区間検出方式を提供することを目的と
する。
【0009】
【課題を解決するための手段】この目的を達成するため
に本発明の音声区間検出方式は、音声等の入力信号に対
して入力パワー値を計算するパワー計算手段と、そのパ
ワー計算手段により計算された入力パワー値を経時的に
記憶する記憶手段と、音声信号の入力中でないと想定さ
れる時刻以前の所定の時間期間における前記入力信号の
入力パワー値の平均値を雑音平均パワー値として算出す
る雑音平均パワー値算出手段と、前記雑音平均パワー値
を基準として仮音声区間検出用閾値を算出する仮音声区
間検出用閾値算出手段と、前記入力パワー値が前記仮音
声区間検出用閾値よりも大きくなった時刻を音声区間の
始端とし、且つ前記入力パワー値が前記閾値よりも小さ
くなった時刻を音声区間の仮終端として仮音声区間を検
出する仮音声区間検出手段と、その仮音声区間検出手段
により検出された仮音声区間における入力パワー値の最
大値を示す時刻を基準として、その時刻の前後の所定の
時間期間における入力パワー値の重心の時刻を算出する
重心算出手段と、前記仮終端以降の所定の時間期間にお
ける入力パワー値の平均値を終端検出用雑音パワー値と
して算出する終端検出用雑音パワー値算出手段と、前記
重心の時刻以降における入力パワー値の最大値と、前記
終端検出用雑音パワー値とから、終端検出用パワー閾値
を設定する終端検出用閾値設定手段と、前記重心の時刻
以降において入力パワー値が最大となる時刻から前記仮
終端の時刻までの時間期間において、前記入力パワー値
が前記終端検出用閾値よりも小さくなった時刻を真の終
端として検出する終端検出手段とを備えている。
【0010】従って、パワー計算手段は、音声等の入力
信号に対して入力パワー値を計算し、記憶手段は、前記
パワー計算手段により計算された入力パワー値を経時的
に記憶し、雑音平均パワー値算出手段は、音声信号の入
力中でないと想定される時刻以前の所定の時間期間にお
ける前記入力信号の入力パワー値の平均値を雑音平均パ
ワー値として算出し、仮音声区間検出用閾値算出手段
は、前記雑音平均パワー値を基準として仮音声区間検出
用閾値を算出し、仮音声区間検出手段は、前記入力パワ
ー値が前記仮音声区間検出用閾値よりも大きくなった時
刻を音声区間の始端とし、且つ前記入力パワー値が前記
閾値よりも小さくなった時刻を音声区間の仮終端として
仮音声区間を検出し、重心算出手段は、その仮音声区間
検出手段により検出された仮音声区間における入力パワ
ー値の最大値を示す時刻を基準として、その時刻の前後
の所定の時間期間における入力パワー値の重心の時刻を
算出し、終端検出用雑音パワー値算出手段は、前記仮終
端以降の所定の時間期間における入力パワー値の平均値
を終端検出用雑音パワー値として算出し、終端検出用閾
値設定手段は、前記重心の時刻以降における入力パワー
値の最大値と、前記終端検出用雑音パワー値とから、終
端検出用パワー閾値を設定し、終端検出手段は、前記重
心の時刻以降において入力パワー値が最大となる時刻か
ら前記仮終端の時刻までの時間期間において、前記入力
パワー値が前記終端検出用閾値よりも小さくなった時刻
を真の終端として検出する。
【0011】よって、音声区間及びその後ろの一定期間
の入力パワー値を考慮して音声の終端を決定しているの
で、音声の途中で入力パワー値が小さくなっている入力
音声や、残留音及び雑音の混入した入力音声に対して音
声区間を安定、且つ正確に検出することができる。
【0012】
【発明の実施の形態】以下、本発明の音声区間検出方式
を具体化した実施の形態について図面を参照して説明す
る。
【0013】図1は、音声認識装置の一部を構成する音
声区間検出部の構成を示すブロック図である。
【0014】前記音声区間検出部は、パワー計算部2、
仮音声区間検出用閾値設定部4、仮音声区間検出部6、
パワー記憶部8、終端検出用閾値設定部10、終端検出
部12及び制御部14から構成されている。尚、パワー
計算部2が本発明のパワー計算手段を、仮音声区間検出
用閾値設定部4が雑音平均パワー値算出手段、及び仮音
声区間検出用閾値算出手段を、仮音声区間検出部6が仮
音声区間検出手段を、パワー記憶部8が記憶手段を、終
端検出用閾値設定部10が重心算出手段、終端検出用雑
音パワー値算出手段、及び終端検出用閾値設定手段を、
終端検出部12が終端検出手段を、それぞれ構成するも
のである。
【0015】次に、本実施の形態の動作について、図2
のフローチャートを参照して説明する。尚、以下の説明
において、フローチャートの処理ステップをSで表す。
【0016】まず、処理をスタートさせる(S2)。
【0017】次に、入力信号をパワー計算部2に入力
し、そのパワー値の計算を行なって入力パワー値に変換
する(S4)。この入力パワー信号の入力パワー値を時
間tの関数P(t)とし、図3に実線で示す。尚、入力
パワー値とは、入力信号の大きさを表す値であり、具体
的には、例えば、10msec毎にある時刻tから30
msecの範囲において、信号値にハミング窓をかけ合
わせそれぞれの2乗を算出し、各算出結果の総和の対数
を取ったものをパワー値とする等、公知の計算方法によ
り算出される。
【0018】次に、この入力パワー信号を仮音声区間検
出用閾値設定部4、仮音声区間検出部6及びパワー記憶
部8へ出力する。制御部14は、音声信号の入力中でな
いと想定される時刻において仮音声区間検出用閾値設定
部4へ仮音声区間検出用閾値設定司令信号を出力する。
仮音声区間検出用閾値設定部4は、仮音声区間検出用閾
値設定司令信号が入力された時刻t0より予め定められ
た時間期間TSNだけ入力パワー信号を受け取り、この
時間期間における入力パワー値P(t)の平均値を次式
により雑音パワー値NSと設定する。
【0019】
【数1】
【0020】そして、この雑音パワー値NSに対して予
め学習して定められた正の定数C0を加算した値を、次
式に示すように、仮音声区間検出用パワー閾値Lとして
設定する(S6)。
【0021】
【数2】
【0022】次に、このパワー閾値Lを仮音声区間検出
部6に送ると共に、仮音声区間検出用閾値設定終了信号
を制御部14へ送る。制御部14は、この仮音声区間検
出用閾値設定終了信号が供給されると、仮音声区間検出
部6へ仮音声検出司令信号を出力する。仮音声区間検出
部6は、仮音声区間検出司令信号の受信後、入力パワー
信号、仮音声区間検出用パワー閾値Lを入力として仮音
声区間の検出を開始し、始端と仮終端とを検出する(S
8)。
【0023】具体的には、この始端時刻t1の検出処理
においては、入力パワー値P(t)が時間の経過により
仮音声区間検出用パワー閾値Lと一致した時刻t1から
この入力パワー値P(t)が、学習により予め定められ
た始端決定最低継続時間TS以上、このパワー閾値Lよ
り大きな値となっている時、この継続時間TSの前述の
開始時刻t1を音声区間の始端と決定する。
【0024】また、仮終端の検出処理においては、入力
パワー値P(t)が始端検出後、パワー閾値Lと一致し
た時刻t3からこの入力パワー値P(t)が、学習によ
り予め定められた仮終端決定最低継続時間TKE以上、
このパワー閾値Lを下回る値となっている時、この継続
時間TKEの前述の開始時刻t2を仮音声区間の仮終端
と決定する。
【0025】このようにして検出された始端時刻t1の
信号をパワー記憶部8、終端検出部12及び制御部14
へ出力すると共に、検出された仮終端時刻t2の信号を
パワー記憶部8、終端検出用閾値設定部10、終端検出
部12及び制御部14へ出力する。
【0026】パワー記憶部8には始端時刻t1と仮終端
時刻t2のそれぞれの信号が入力する。始端時刻信号が
入力されると、始端時刻t1から入力パワー信号の入力
パワー値P(t)の記憶を開始し、この入力パワー値の
記憶を仮終端時刻t2から予め学習によって定められた
所定時間を経過する時刻まで継続して行なう。
【0027】制御部14は、仮音声区間検出部6からの
仮終端時刻t2の信号を受信した後、終端検出用閾値設
定司令信号を終端検出用閾値設定部10へ出力する。
【0028】終端検出用閾値設定部10は、制御部14
からの終端検出用閾値設定司令信号を受け取った後、仮
終端時刻t2から時間軸正の方向へ予め定められた終端
検出用雑音測定時間TEN分の入力パワー値P(t)を
終端検出用雑音パワー信号としてパワー記憶部8から受
け取る。そして、この雑音測定時間TENでの入力パワ
ー値P(t)の平均値を、次式に示すように、終端検出
用雑音パワー値NEと設定する。
【0029】
【数3】
【0030】次に、始端時刻t1から仮終端時刻t2ま
での入力パワー値P(t)をパワー記憶部8より受け取
り、この区間において最大入力パワー値P1となる時刻
t3を求める。そして、時刻t3の前後のある一定区間
TJ(例えば、TJ=200msec)において入力パ
ワー値P(t)の重心となる時刻t4を求める。尚、入
力パワー値P(t)の重心となる時刻t4とは、入力パ
ワー値P(t)の積分値が、対象となる全時間区間にお
ける積分値の2分の1に達する時刻を意味する。即ち、
時刻t4が入力パワー値P(t)の重心となる時刻であ
る場合、次式の関係が成り立つ。
【0031】
【数4】
【0032】時刻t4から時間軸正の方向へ入力パワー
値P(t)を調べていき、最大入力パワー値P2及びそ
の時刻t5を求める。最大入力パワー値P2及び終端検
出用雑音パワー値NEから終端検出用パワー閾値LEを
設定する。終端検出用パワー閾値LEは前記最大入力パ
ワー値P2から終端検出用雑音パワー値NEを減算した
値に予め定められた正定数C1を乗算し、その積に終端
検出用雑音パワー値NEを加算して設定する。このパワ
ー閾値LEは次式で表される(S10)。
【0033】
【数5】
【0034】次に、時刻t5から時間軸正の方向へ入力
パワー値P(t)と終端検出用パワー閾値LEとの大小
比較を行ない入力パワー値P(t)が終端検出パワー値
LEよりも初めて小となる時刻t6を真の終端時刻とし
て検出する(S12)。
【0035】このようにして決定された終端時刻t6の
信号を、制御部14へ出力してこの音声区間検出の処理
を終了する(S14)。
【0036】このように前記実施の形態によれば、従来
のものとは異なり、音声の途中で入力パワー値が小さく
なっている入力音声や、残留音及び雑音の混入した入力
音声に対して音声区間を安定かつ正確に検出することが
できる。
【0037】尚、本発明は以上詳述した実施の形態に限
定されるものではなく、その要旨を逸脱しない範囲にお
いて、種々の変更を加えることができる。
【0038】例えば、前記実施の形態においては、仮音
声区間検出処理において仮音声区間検出用の閾値をLと
設定しているが、始端と仮終端検出において別々に設定
してもよい。
【0039】
【発明の効果】以上説明したことから明らかなように、
本発明の音声区間検出方式は、音声等の入力信号に対し
て入力パワー値を計算するパワー計算手段と、そのパワ
ー計算手段により計算された入力パワー値を経時的に記
憶する記憶手段と、音声信号の入力中でないと想定され
る時刻以前の所定の時間期間における前記入力信号の入
力パワー値の平均値を雑音平均パワー値として算出する
雑音平均パワー値算出手段と、前記雑音平均パワー値を
基準として仮音声区間検出用閾値を算出する仮音声区間
検出用閾値算出手段と、前記入力パワー値が前記仮音声
区間検出用閾値よりも大きくなった時刻を音声区間の始
端とし、且つ前記入力パワー値が前記閾値よりも小さく
なった時刻を音声区間の仮終端として仮音声区間を検出
する仮音声区間検出手段と、その仮音声区間検出手段に
より検出された仮音声区間における入力パワー値の最大
値を示す時刻を基準として、その時刻の前後の所定の時
間期間における入力パワー値の重心の時刻を算出する重
心算出手段と、前記仮終端以降の所定の時間期間におけ
る入力パワー値の平均値を終端検出用雑音パワー値とし
て算出する終端検出用雑音パワー値算出手段と、前記重
心の時刻以降における入力パワー値の最大値と、前記終
端検出用雑音パワー値とから、終端検出用パワー閾値を
設定する終端検出用閾値設定手段と、前記重心の時刻以
降において入力パワー値が最大となる時刻から前記仮終
端の時刻までの時間期間において、前記入力パワー値が
前記終端検出用閾値よりも小さくなった時刻を真の終端
として検出する終端検出手段とを備えているので、音声
区間及びその後ろの一定期間の入力パワー値を考慮して
音声の終端を決定しているので、音声の途中で入力パワ
ー値が小さくなっている入力音声や、残留音及び雑音の
混入した入力音声に対しても音声区間を安定、且つ正確
に検出することができ、音声認識装置における認識性能
を向上させることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態の音声区間検出部の構成を
示すブロック図である。
【図2】本実施の形態の音声区間検出処理の処理手順を
示すフローチャートである。
【図3】本実施の形態の音声区間検出処理を説明する説
明図である。
【図4】従来の音声区間検出処理を説明する説明図であ
る。
【符号の説明】
2 パワー計算部 4 仮音声区間検出用閾値設定部 6 仮音声区間検出部 8 パワー記憶部 10 終端検出用閾値設定部 12 終端検出部 14 制御部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 音声等の入力信号に対して入力パワー値
    を計算するパワー計算手段と、 そのパワー計算手段により計算された入力パワー値を経
    時的に記憶する記憶手段と、 音声信号の入力中でないと想定される時刻以前の所定の
    時間期間における前記入力信号の入力パワー値の平均値
    を雑音平均パワー値として算出する雑音平均パワー値算
    出手段と、 前記雑音平均パワー値を基準として仮音声区間検出用閾
    値を算出する仮音声区間検出用閾値算出手段と、 前記入力パワー値が前記仮音声区間検出用閾値よりも大
    きくなった時刻を音声区間の始端とし、且つ前記入力パ
    ワー値が前記閾値よりも小さくなった時刻を音声区間の
    仮終端として仮音声区間を検出する仮音声区間検出手段
    と、 その仮音声区間検出手段により検出された仮音声区間に
    おける入力パワー値の最大値を示す時刻を基準として、
    その時刻の前後の所定の時間期間における入力パワー値
    の重心の時刻を算出する重心算出手段と、 前記仮終端以降の所定の時間期間における入力パワー値
    の平均値を終端検出用雑音パワー値として算出する終端
    検出用雑音パワー値算出手段と、 前記重心の時刻以降における入力パワー値の最大値と、
    前記終端検出用雑音パワー値とから、終端検出用パワー
    閾値を設定する終端検出用閾値設定手段と、 前記重心の時刻以降において入力パワー値が最大となる
    時刻から前記仮終端の時刻までの時間期間において、前
    記入力パワー値が前記終端検出用閾値よりも小さくなっ
    た時刻を真の終端として検出する終端検出手段とを備え
    たことを特徴とする音声区間検出方式。
JP9254766A 1997-09-19 1997-09-19 音声区間検出方式 Pending JPH1195785A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9254766A JPH1195785A (ja) 1997-09-19 1997-09-19 音声区間検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9254766A JPH1195785A (ja) 1997-09-19 1997-09-19 音声区間検出方式

Publications (1)

Publication Number Publication Date
JPH1195785A true JPH1195785A (ja) 1999-04-09

Family

ID=17269592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9254766A Pending JPH1195785A (ja) 1997-09-19 1997-09-19 音声区間検出方式

Country Status (1)

Country Link
JP (1) JPH1195785A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008158315A (ja) * 2006-12-25 2008-07-10 Yamaha Corp 音信号処理装置およびプログラム
JP2008158316A (ja) * 2006-12-25 2008-07-10 Yamaha Corp 音信号処理装置およびプログラム
JP2009157406A (ja) * 2009-04-15 2009-07-16 Yamaha Corp 音信号処理装置およびプログラム
JP4810044B2 (ja) * 2000-01-27 2011-11-09 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 2つのスイッチオフ規準を持つ音声検出装置
US8069039B2 (en) 2006-12-25 2011-11-29 Yamaha Corporation Sound signal processing apparatus and program
CN112614507A (zh) * 2020-12-09 2021-04-06 腾讯音乐娱乐科技(深圳)有限公司 检测噪声的方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4810044B2 (ja) * 2000-01-27 2011-11-09 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 2つのスイッチオフ規準を持つ音声検出装置
JP2008158315A (ja) * 2006-12-25 2008-07-10 Yamaha Corp 音信号処理装置およびプログラム
JP2008158316A (ja) * 2006-12-25 2008-07-10 Yamaha Corp 音信号処理装置およびプログラム
US8069039B2 (en) 2006-12-25 2011-11-29 Yamaha Corporation Sound signal processing apparatus and program
JP2009157406A (ja) * 2009-04-15 2009-07-16 Yamaha Corp 音信号処理装置およびプログラム
CN112614507A (zh) * 2020-12-09 2021-04-06 腾讯音乐娱乐科技(深圳)有限公司 检测噪声的方法和装置
CN112614507B (zh) * 2020-12-09 2024-06-11 腾讯音乐娱乐科技(深圳)有限公司 检测噪声的方法和装置

Similar Documents

Publication Publication Date Title
US11062696B2 (en) Speech endpointing
US10269341B2 (en) Speech endpointing
US6088670A (en) Voice detector
US20060122831A1 (en) Speech recognition system for automatically controlling input level and speech recognition method using the same
JP2780676B2 (ja) 音声認識装置及び音声認識方法
WO2001029821A1 (en) Method for utilizing validity constraints in a speech endpoint detector
JPH1195785A (ja) 音声区間検出方式
US20170110118A1 (en) Speech endpointing
CN108962286B (zh) 音频识别方法、装置及存储介质
US9245537B2 (en) Speech enhancement apparatus and method for emphasizing consonant portion to improve articulation of audio signal
JP2000250568A (ja) 音声区間検出装置
JP2000310993A (ja) 音声検出装置
RU2436173C1 (ru) Способ обнаружения пауз в речевых сигналах и устройство его реализующее
JPH0740200B2 (ja) 音声区間検出方法
JPH11126093A (ja) 音声入力調整方法および音声入力システム
JP3360978B2 (ja) 音声認識装置
JP7323936B2 (ja) 疲労推定装置
JPH09127982A (ja) 音声認識装置
JPH07225592A (ja) 有音区間検出装置
JPS5984300A (ja) 音声区間検出回路
JP3484559B2 (ja) 音声認識装置および音声認識方法
JPS62141595A (ja) 音声検出方式
JPH07140229A (ja) 信号検出処理回路
JPS61259296A (ja) 音声区間検出方式
JP2001067092A (ja) 音声検出装置