JPH0673079B2 - 音声区間検出回路 - Google Patents

音声区間検出回路

Info

Publication number
JPH0673079B2
JPH0673079B2 JP60063419A JP6341985A JPH0673079B2 JP H0673079 B2 JPH0673079 B2 JP H0673079B2 JP 60063419 A JP60063419 A JP 60063419A JP 6341985 A JP6341985 A JP 6341985A JP H0673079 B2 JPH0673079 B2 JP H0673079B2
Authority
JP
Japan
Prior art keywords
level
voice
voice section
input
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60063419A
Other languages
English (en)
Other versions
JPS61223796A (ja
Inventor
満次 松下
逸夫 林
隆憲 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP60063419A priority Critical patent/JPH0673079B2/ja
Publication of JPS61223796A publication Critical patent/JPS61223796A/ja
Publication of JPH0673079B2 publication Critical patent/JPH0673079B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は音声認識装置における音声区間の検出回路に関
するものである。
(従来の技術) 従来の音声区間検出回路として、音声入力時の雑音レベ
ル、入力音声レベル等よりレベル閾値を設定し、その閾
値と比較して入力レベル信号が大である状態が定められ
た一定時間以上継続した時それを始端と判定し、その後
入力レベル信号が前記設定された閾値と比較して小であ
る状態が定められた一定時間以上継続した時それを終端
と判定し、上記判定により決定された始端から終端まで
を音声区間として検出する方式がある。この方式で用い
るレベル閾値を設定する方法としては、音声入力時の雑
音レベル値にあらかじめ定められた定数を加算した値を
レベル閾値とする第1の方法と、入力音声信号レベル最
大値から雑音レベル値を減算した値、つまりS/N比に相
当する値が大である時には比較的大きい値に前記レベル
閾値を設定し、小である時には比較的小さい値に前記レ
ベル閾値を設定する第2の方法(例えば特開昭58−1303
95号公報に記載)が一般的な方法であった。
第8図は第1の方法により前記レベル閾値を設定し音声
区間検出を行なった一例、第9図は第2の方法により前
記レベル閾値を設定し音声区間検出を行なった一例を示
したものである。
先ず、第1の方法を用いた場合の音声区間検出動作を第
8図に基づいて説明する。
第8図において、入力レベル信号を時刻tの関数S
(t)、雑音レベルをNLEVEL、レベル閾値をLTH、始端
を決定する条件S(t)>LTHなる状態の最低継続時間
である始端決定高レベル入力最低継続時間をTS、終端を
決定する条件S(t)≦LTHなる状態の最低継続時間で
ある終端決定低レベル入力最低継続時間をTEとする。前
記レベル閾値LTHは例えば次式に示すように雑音レベルN
LEVELにあらかじめ定められた定数C1を加算した値とな
る。
LTH=NLEVEL+C1 入力レベル信号S(t)に対し前記レベル閾値LTHと交
差する時刻をそれぞれt1,…,t4とする。
先ず、入力レベル信号S(t)とレベル閾値LTHとが交
差する時刻から起算して、入力レベル信号S(t)のレ
ベルがレベル閾値LTHを始端決定高レベル入力最低継続
時間TS以上越える区間の開始点を音声区間の始端とする
ことにより、始端検出を行なう。その後、入力レベル信
号S(t)とレベル閾値LTHとが交差する時刻から起算
して、入力レベル信号S(t)のレベルがレベル閾値LT
Hを終端決定低レベル入力最低継続時間TE以上下回る区
間の開始点を音声区間の終端とすることにより、終端検
出を行なう。このようにして決定された始端と終端によ
り音声区間が決定される。第8図の例では始端はt3、終
端はt4となる。
次に第2の方法を用いた場合の音声区間検出動作につい
て第9図に基づいて説明する。
第9図において、入力レベル信号S(t)、雑音レベル
NLEVEL、レベル閾値LTH、始端決定高レベル入力最低継
続時間TS、終端決定低レベル入力最低継続時間TEは第1
の方法の場合と同様な定義とする。ただし前記レベル閾
値LTHは入力音声信号を雑音の中より大略的に検出すべ
く例えば雑音レベルNLEVELにあらかじめ定められた比較
的小さい定数C2を加算した値とし、比較的小さい値LTH
=NLEVEL+C2に設定する。
第2の方法を用いた場合、先ず、第1の方法で説明した
ものと同様な手順で、大まかな比較的小さく設定された
前記レベル閾値LTHを用いて音声区間検出を行ない、こ
れにより始端をt5、終端をt8と決定する。しかし、この
ままであると、レベル閾値LTHは比較的小さく設定され
ているので、一般的に音声波形の始端、終端付近の呼気
ノイズ等の影響によるなまりのため正確な音声区間検出
ができない。そこで、更に検出精度を上げるべく前記の
ようにして決定したt5を仮始端、t8を仮終端と定義す
る。そして新しいレベル閾値LTHNを、仮始端から仮終端
までの入力レベル信号S(t)の最大値SMAXから雑音レ
ベルNLEVELを減算した値にあらかじめ定められた正定数
C3を乗算し、その積に雑音レベルNLEVELを加算して設定
する。このレベル閾値LTHNは次式で表わされる。
LTHN=NLEVEL+(SMAX−NLEVEL)・C3 そして、仮始端から仮終端までの間を新しいレベル閾値
LTHNを用いて前述した方法と同様の手順で再度始端検出
及び終端検出を行ない、始端t6及び終端t7を求めてより
精度の高い最終的な音声区間の決定を行なう。ここでレ
ベル閾値LTHNを入力音声のレベル変動に対応した最適な
値にあらかじめ設定しておくと、入力音声のレベル変動
の影響を受けにくい安定かつ正確な音声区間検出を行な
うことができる。
(発明が解決しようとする問題点) しかしながら第8図についての説明で述べたように、レ
ベル閾値を入力音声レベルによらず雑音レベルにあらか
じめ定められた定数を加算した値に設定する第1の方法
では、前記レベル閾値は入力音声レベルが中程度である
場合に最適となるよう設定されるのが一般的である。従
って第1の方法を用いて音声区間検出をすると、入力音
声レベルが比較的大きめな場合には、前記レベル閾値は
入力音声のピーク値に対して相対的に小となり雑音等を
音声区間として誤検出する可能性が大となり、一方入力
音声レベルが比較的小さめな場合には前記レベル閾値は
入力音声ピーク値に対して相対的に大となり音声の一部
が欠落した状態で音声区間を定める可能性が大となり、
いずれにしても入力音声のレベル変動に対応できないと
いう欠点があった。
一方、第9図についての説明で述べたように、レベル閾
値を入力音声レベルに対応した値に設定する第2の方法
では、入力音声レベルの大小にかかわらず正確な音声区
間検出が行なわれ、その結果として高い認識性能を得る
ことができる反面、音声区間検出を2度にわたって行な
う必要が生じ、認識応答時間の遅延を招くという欠点が
あった。
本発明は以上に述べた従来技術の欠点を除去すべくなさ
れたものであって、入力音声レベル変動の影響を受ける
ことなく安定かつ正確な音声区間検出を行ない、さらに
認識応答を短時間で行なうことのできる音声区間検出回
路を提供することを目的とする。
(問題点を解決するための手段) 本発明は入力レベル信号のレベルをあらかじめ設定され
たレベル閾値と比較し、入力レベル信号のレベルがレベ
ル閾値より大である状態が第1の所定時間以上継続した
ときその状態の開始時点を始端とする始端設定手段と、
その後入力レベル信号のレベルがレベル閾値より小であ
る状態が第2の所定時間以上継続したときその状態の開
始時点を終端とする終端設定手段と、前記始端設定手段
により設定された始端と前記終端設定手段により設定さ
れた終端に基づいて音声区間を検出する音声区間検出手
段を具備する音声区間検出回路に係るものであり、前記
従来技術の問題点を解決するため次に示す第1の手段及
び第2の手段を具備して構成される。
第1の手段は、N通りに設定された音声区間検出用のレ
ベル閾値を用いてN通りの音声区間を並行して検出す
る。第2の手段は、N通りのレベル閾値のうち最も小さ
いレベル閾値を用いて得た最大遅延終端までの入力レベ
ル信号の最大値に基づいて、前記第1の手段により得た
N通りの音声区間のうちから最適な音声区間を選択す
る。
(作用) 第1の手段はN通りのレベル閾値を用いてそれぞれ独立
に音声区間の始端及び終端を検出し、N通りの音声区間
を定める。第2の手段は最小のレベル閾値を用いて得た
最大遅延終端までの入力レベル信号の最大値を求め、該
最大値に基づいてN通りの音声区間の中から最適なもの
を選択し、それを最終的な音声区間とする。従って、入
力レベル変動の影響を受けずに正確にしかも短時間で音
声区間検出ができるようになり、前記従来技術の問題点
が解決される。
(実施例) 第1図はこの発明の実施例を示すブロック図である。先
ず構成について述べると、入力レベル信号1は第1音声
区間検出部2−1〜第N音声区間検出部2−Nに接続さ
れ、各音声区間検出部2−1〜2−Nの出力は複数の音
声区間を保持できる第1〜第Nまでのレジスタ3−1〜
3−Nに各々接続されている。各レジスタ3−1〜3−
Nの出力は第1〜第Nまでの各出力ゲート4−1〜4−
Nに各各接続されている。第1〜第Nまでの出力ゲート
4−1〜4−Nの出力は音声始端と音声終端毎にそれぞ
れ1つにまとめられ、外部出力7,8となる。一方、第N
音声区間検出部2−Nの音声終端出力及び最大値検出部
5の出力は音声区間選択部6に接続され、音声区間選択
部6の出力は第1〜第Nまでの出力ゲート4−1〜4−
Nに接続されている。
以下、本実施例の動作について詳細に述べる。まず小さ
なレベルの音声から大きなレベルの音声まで全てカバー
する様に、あらかじめ音声区間検出用のレベル閾値をN
通り設定し、各音声区間検出部2−1〜2−Nにセット
しておく。この時、第N音声区間検出部2−Nにセット
する音声区間検出用のレベル閾値は、N個の内で最も小
さな値とする。第1〜第N音声区間検出部2−1〜2−
N及び最大値検出部5は全て同時に作動し、第N音声区
間検出部2−Nが、音声終端(以後、最大遅延終端と称
す)を検出するまでその作動は継続される。第2図はN
通りのレベル閾値及びN通りの音声区間検出結果の一部
を示したものである。第N番目のレベル閾値はN個のレ
ベル閾値の内で最も小さいものであるため、得られた音
声区間はN個の音声区間のうちで最も長い音声区間を有
し、その終端は他の音声区間検出部2−1〜2−(N−
1)で得られた終端と比べて最も遅れた終端となる。
次に第3図を用いて、第N番目のレベル閾値を用いた第
N音声区間検出の詳細を説明する。ここで入力レベル信
号をS(t)、雑音レベルをNLEVL、第N番目のレベル
閾値をLTH(N)、始端を決定する条件S(t)>LTH
(N)なる状態の最小継続時間である始端決定高レベル
入力最小継続時間をTS(N)、最大遅延終端を決定する
条件S(t)≦LTH(N)なる状態の最小継続時間であ
る終端決定低レベル入力最小継続時間をTE(N)とす
る。前記レベル閾値LTH(N)は雑音レベルNLEVLあらか
じめ定められた比較的小さな加算値Cを加算した値LTH
(N)=NLEVL+Cとし、比較的小さな値に設定する。
入力レベル信号S(t)に対し前記レベル閾値LTH
(N)と交差する時刻をそれぞれt1,t2とする。まず始
端の検出を行なう。該レベル閾値LTH(N)は前記継続
時間をTS(N)以上越える区間の開始点を始端と決定す
る。次に終端検出を行なう。前記レベル閾値LTH(N)
を前記継続時間TE(N)以上下回る区間の開始点を終端
と決定する。この第N音声区間検出部2−Nの終端を最
大遅延終端とする。
他の音声区間検出部2−1〜2−(N−1)は、それぞ
れのレベル閾値LTH(i)、始端検出決定高レベル入力
最小継続時間TS(i)、終端検出決定低レベル入力最小
継続時間をTE(i)を用いて(ただし1iN−
1)、前記第N音声区間検出部2−Nと同様の手順にて
各レベル閾値に対応した音声始端、音声終端をそれぞれ
決定する。このようにして決定された第1〜第N音声区
間検出部2−1〜2−Nの出力は自動的に第1〜第Nレ
ジスタ3−1〜3−Nにそれぞれ記憶保持される。
最大遅延終端が音声区間選択部6に出力されると、音声
区間選択部6は後述するように最大値検出部5の出力を
用いてN通りの音声区間候補の内から最も適当な音声区
間を一つ選択し、その出力を第1〜第N出力ゲート4−
1〜4−Nの内の対応したゲートに出力する。
第4図は最大値検出部5の動作を示したものであり、ピ
ークホールド回路(図示せず)により時刻tMAXにおける
入力レベル信号S(tMAX)の最大値MAXを検出し出力す
る。
音声区間選択部6は前記最大遅延終端検出後、第4図に
示すように、最大値検出部5の出力最大値MAXから雑音
レベルNLEVLを差し引いた値を音声信号分SGLVとして計
算し、更にあらかじめ音声区間選択部6内に作成されて
いる音声区間選択テーブル9の音声信号分区間と比較
し、音声信号分SGLVがどの区間にあてはまるか調べ、そ
の音声信号分区間に対応する音声区間番号Jを得る。第
5図に音声区間選択テーブル9の一例を示す。音声信号
分区間はN通りのレベル閾値に対応した入力レベル信号
S(t)のレベルを表わしあらかじめ適切に設定され
る。音声区間選択部6は音声区間選択テーブル9により
得られた音声区間番号Jに対応する第J出力ゲート4−
Jにゲート信号を出力する。ゲート信号を入力した第J
出力ゲート4−Jは第Jレジスタ3−Jに保持されてい
る第J番目の音声始端及び音声終端を最終決定された音
声区間として出力する。
以上述べてきたように、上記実施例では、音声区間検出
用のレベル閾値をN通り設定し、N通りのレベル閾値に
よるN通りの音声区間検出を同時並行処理し、この操作
を設定された最下位のレベル閾値を用いて検出された最
大遅延終端まで行ない、最大遅延終端が確定した後に、
最大遅延終端までの入力レベル信号の最大値を用いて音
声区間選択テーブルより最大値に対応した音声区間を選
択することによりN通りの音声区間のうちから最も適し
た音声区間を選択する。従って、従来の方式では第6図
のように比較的大きい入力レベル信号に対してレベル閾
値が相対的にかなり小さい固定値の場合には、検出され
る音声区間はP2のように長くなり過ぎてしまうが、上記
実施例によれば入力レベル信号の最大値を用いてN通り
の音声区間の中から選択を行なうので最適な音声区間P1
を決定することができる。また、従来の方式では第7図
のように比較的小さい入力レベル信号に対してレベル閾
値が相対的に大きい固定値の場合には検出される音声区
間はP3のように短くなり過ぎてしまうが、上記実施例に
よれば入力レベル信号の最大値を用いてN通りの音声区
間の中から選択を行なうので最適な音声区間P4を決定す
ることができる。
このように従来はレベル閾値を固定値としていたため、
第6図及び第7図に示す例のごとく入力信号レベルのレ
ベル変動に対して対応することができず、音声区間の切
り出しは不正確となっていたが、上記実施例によれば安
定かつ正確な音声区間切り出しが可能となる。更に上記
実施例では、音声区間切り出しに要する処理時間は、音
声区間選択テーブルを用いることによりN通りの音声区
間を検出するのに要する時間と、一つの音声区間を切り
出するのに要する時間とがほぼ同じであり、実時間切り
出しの実現が可能となる。
(発明の効果) 以上詳細に説明したように、本発明によれば、入力音声
レベル変動の影響を受けずに安定かつ正確にしかも短時
間で音声区間検出が行なえるという利点がある。
【図面の簡単な説明】
第1図は本発明の実施例のブロック図、第2図はN通り
のレベル閾値を用いた音声区間切り出しの結果を示す
図、第3図は第N音声区間検出部の動作を説明する図、
第4図は最大値検出部の動作を説明する図、第5図は音
声区間選択部内に設けられた音声区間選択テーブルの一
例を示す図、第6図及び第7図は本発明の実施例による
音声区間切り出しを従来方式のものと比較して示す図、
第8図及び第9図は従来の音声区間検出方式を説明する
図である。 1…入力レベル信号、2−1〜2−N…音声区間検出
部、3−1〜3−N…レジスタ、4−1〜4−N…出力
ゲート、5…最大値検出部、6…音声区間選択部、7…
音声始端出力、8…音声終端出力、9…音声区間選択テ
ーブル。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力レベル信号のレベルをあらかじめ設定
    されたレベル閾値と比較し、入力レベル信号のレベルが
    レベル閾値より大である状態が第1の所定時間以上継続
    したときその状態の開始時点を始端とする始端設定手段
    と、その後入力レベル信号のレベルがレベル閾値より小
    である状態が第2の所定時間以上継続したときその状態
    の開始時点を終端とする終端設定手段と、前記始端設定
    手段により設定された始端と前記終端設定手段により設
    定された終端に基づいて音声区間を検出する音声区間検
    出手段を具備する音声区間検出回路において、 N通りに設定された音声区間検出用のレベル閾値を用い
    てN通りの音声区間を並行して検出する第1の手段と、 N通りのレベル閾値のうち最も小さいレベル閾値を用い
    て得た最大遅延終端までの入力レベル信号の最大値に基
    づいて、前記第1の手段により得たN通りの音声区間の
    うちから最適な音声区間を選択する第2の手段とを設け
    たことを特徴とする音声区間検出回路。
JP60063419A 1985-03-29 1985-03-29 音声区間検出回路 Expired - Lifetime JPH0673079B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60063419A JPH0673079B2 (ja) 1985-03-29 1985-03-29 音声区間検出回路

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60063419A JPH0673079B2 (ja) 1985-03-29 1985-03-29 音声区間検出回路

Publications (2)

Publication Number Publication Date
JPS61223796A JPS61223796A (ja) 1986-10-04
JPH0673079B2 true JPH0673079B2 (ja) 1994-09-14

Family

ID=13228749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60063419A Expired - Lifetime JPH0673079B2 (ja) 1985-03-29 1985-03-29 音声区間検出回路

Country Status (1)

Country Link
JP (1) JPH0673079B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8613327D0 (en) * 1986-06-02 1986-07-09 British Telecomm Speech processor
JP2717217B2 (ja) * 1989-03-03 1998-02-18 日本電信電話株式会社 音声認識装置
JPH05304557A (ja) * 1992-04-24 1993-11-16 Sharp Corp 音声入出力装置
JP4552064B2 (ja) * 2003-10-15 2010-09-29 独立行政法人情報通信研究機構 音声レベル自動補正装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5852698A (ja) * 1981-09-24 1983-03-28 富士通株式会社 音声認識処理システム
JPS59105697A (ja) * 1982-12-09 1984-06-19 松下電器産業株式会社 音声認識装置
JPS6039691A (ja) * 1983-08-13 1985-03-01 電子計算機基本技術研究組合 音声認識方法

Also Published As

Publication number Publication date
JPS61223796A (ja) 1986-10-04

Similar Documents

Publication Publication Date Title
US4401849A (en) Speech detecting method
CA1246228A (en) Endpoint detector
EP0077574A1 (en) Speech recognition system for an automotive vehicle
US4718097A (en) Method and apparatus for determining the endpoints of a speech utterance
WO2023137861A1 (en) Divisive normalization method, device, audio feature extractor and a chip
CN111508457A (zh) 音乐节拍检测方法和系统
JPH0673079B2 (ja) 音声区間検出回路
EP0614170A1 (en) Voice signal processing device
US20090116665A1 (en) Compressing the Level of an Audio Signal
JP2001166783A (ja) 音声区間検出方法
JPS62141595A (ja) 音声検出方式
JPS6199200A (ja) 音声認識処理方式
JPS5834986B2 (ja) 適応形音声検出回路
JPS61259296A (ja) 音声区間検出方式
JPS61272796A (ja) 音声区間検出方式
JP3223225B2 (ja) サージ識別装置
JPS5984300A (ja) 音声区間検出回路
JP3474949B2 (ja) 音声認識装置
JPS63281199A (ja) 音声セグメンテ−ション装置
KR0128669B1 (ko) 음성 신호의 실시간 음성부 검출 방법
JPH0376471B2 (ja)
JP2574240B2 (ja) 基本波検出装置
JPS61273596A (ja) 音声区間検出方式
JPH01244497A (ja) 音声区間検出回路
JPS60117299A (ja) 零交差数計数制御方式