JPH0443277B2

JPH0443277B2 -

Info

Publication number: JPH0443277B2
Application number: JP58054252A
Authority: JP
Inventors: Akihiro Kimura
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-03-30
Filing date: 1983-03-30
Publication date: 1992-07-16
Also published as: JPS59178499A

Description

【発明の詳細な説明】 (A) 発明の技術分野本発明は、音声強度波形から、音声認識に供さ
れる音声認識区間を抽出する音声認識区間抽出方
式に関する。

(B) 技術の背景音声情報処理システムに対する要望が強まつて
おり、その前提として音声の認識率を高めること
が必要となる。

音声強度（パワー）波形は、認識に必要な音声
認識区間のみならず、背景音等の雑音波形を含ま
れており、認識率を高めるためには、この雑音領
域を分離する必要がある。

また音声領域の一部分のみを切出して認識を行
うと他の類似のパワー波形を有する単語との識別
が困難となり誤認を生じるためこの音声認識に供
される音声認識区間の切出しを適切に行うことが
望まれる。

(C) 従来技術と問題点第１図は音声パターンの一例を示すものであつ
て、横軸は時間を示し、縦軸は音声パワーを示
す。

T₁，T₂は閾値を示す。

これらの閾値T₁，T₂により、パターン曲線Ｃ
が区切られる区間B₁およびB₂は音声抽出領域
（切出し区間）と呼ばれる。

切出し区間B₁，B₂の切出し点B₁₁，B₁₂，B₂₁，
B₂₂の時間差D₁，D₂の大小によつて次の処理を行
う。

時間差D₁又はD₂が大きい場合は、切出し区間
は２つ存在するものとみなし、この２つの切出し
区間内にある音声パターンを用いて、認識処理を
行う。

又時間差D₁又はD₂が小さい場合は、切出し点
B₁₁，B₂₁又はB₁₂，B₂₁の中点を切出し点として
扱い、切出し点は１つとなる。

このような処理によつて定められた切出し区間
は音声認識区間と呼ばれこの切出し区間（音声認
識区間）内の音声パターンを用いて認識処理を行
う。

しかし従来はこのような閾値は固定されている
ため、外来騒音（背景騒音）の影響によつて音声
強度曲線にレベル変動が生じても、閾値は一定で
あるため、音声に正確に対応した音声認識区間が
得られず、誤認識を生じる結果となる。

(D) 発明の目的本発明はかかる点に鑑みなされたもので、音声
認識装置における音声入力環境における背景音を
も考慮に入れて自動的に閾値レベルを設定し得る
音声認識区間抽出方式を提供することを目的とす
る。

(E) 発明の構成そしてこの目的を達成するため本発明は少なく
とも１組の音声強度閾値を用いて音声登録辞書に
格納された音声強度データより音声領域を抽出
し、該抽出領域より音声認識に供する音声認識区
間を得る音声認識区間抽出方式において、第１の
閾値は、雑音領域を含まない範囲の最低の音声強
度値に設定され、第２の閾値は、抽出される音声
領域数が最大値となる近傍の値であつて、かつ前
記第１の閾値より大きい音声強度値に設定される
ことを特徴とする音声認識区間抽出方式を提供す
る。

(F) 発明の実施例以下図面を参照して本発明の実施例を詳述する
が、先ず本発明の基本的考え方を説明する。

第２図は切出し区間数の分布図であつて、閾値
レベルによつて切出し区間の数が変化することを
示すものであり、閾値レベルが低くなるに従つ
て、切出し区間の数が増加することが判る。

閾値が低下するに従つて切出し区間の数が増加
するのは、背景音（雑音）領域NB₁，NB₂をも
切出すためである。

第３図はこのような関係を示す図であつて、閾
値が高くなるに従つて、切出し区間数が減少し、
或る値以上になると全単語数となる。つまり１つ
の単語の音声に対して得られる切出し区間は唯１
つとなる。

従つて雑音レベル以上であつて、最も低レベル
の閾値T₁を設定すれば音声区間を確実に切り出
せることがわかる。

第１の閾値をこのT₁に選び、第２の閾値T₂′を
様々に変化させたときの切出し区間数と、認識率
の変化を第４図に示す。

同図において横軸はこれら２つの閾値T₁，
T₂′の差T₁−T₂を示し、縦軸のうち左軸は切出し
区間数を示し、右軸は認識率を示す。

曲線Q₁は、切出し区間数を示し、曲線Q₂は認
識率を示す。

同図において、第２の閾値T₂′が第１の閾値T₁
より小さい領域では、これら両者の差が大きくな
るに従い切出し区間数が増加するのは、第２の閾
値T₂′による切出し区間には雑音領域における切
出し区間と、音声領域における切出し区間とが併
存する割合が高くなるためである。

また第２図の閾値T₂′が第１の閾値より大きい
領域ではこれら両者の差が大きくなるに従い、切
出し区間数が増加するのは第２の閾値T₂′によつ
て音声領域のピーク値近辺のみが切り出されるた
め、第１の閾値T₁による切出し区間との切出し
点の間隔が広がる結果、これら２つの閾値による
切出し区間が併存する割合が高くなるためであ
る。

次に認識率と閾値との関係について述べる。

第４図から明らかなように、第２の閾値が小さ
くなるに従つて認識率が向上する。

第２の閾値T₂′が高い場合、音声領域の一部分
のみが切り出されてこの切出し区間に基づいて認
識が行われるため、類似の音声パターンを有する
他の単語との相異が明確にならず誤認識を生ずる
ためであり、例えば第２図で第２の閾値T₂′が
T₁₂′の場合、音声領域の一部である区間B₃にある
音声パワーの小さい波形は切出し区間に含まれ
ず、従つて音声領域の一部が欠落した切出し区間
B₄に基づいて、認識が行われる結果、正確な認
識がなされず切出し区間B₄内の波形と類似した
他の単語と誤認する恐れがある。

また第２の閾値T₂′が低くなると、全音声領域
が切出し区間に含まれるため、正確な認識が可能
となり、認識率が向上する。

このように第１の閾値T₁を雑音波形を切り出
さない限度において低く設定し、第２の閾値
T₂′を認識対象とする音声群に応じて、適宜設定
することにより高い認識率を得ることができるこ
とが判る。

第５図は本発明の実施例構成図であつて、M₁
は辞書作成用メモリ、S₁は第１の閾値決定部、S₂
は第２の閾値決定部、Ｋは切出し部、Ｔは特徴抽
出部、M₂は辞書メモリ、M₃はスペクトルパラメ
ータ用メモリ、Ｐは単語ポインタ、Ｅは制御部で
ある。

データメモリM₁には切出し操作を行う前の音
声のパワーデータおよびスペクトルパラメータが
格納されており、単語ポインタＰで指示された単
語に関するパワーデータは第１の閾値決定部S₁に
入力され第１の閾値が決定される。

以下この点について説明する。

パワーデータが音声区間検出部S₁₁へ入力され
ると閾値カウンタS₁₂により指示される閾値によ
り、第２図で示した如き、音声切出し区間が得ら
れる。

音声区間数累積部S₁₂では、検出部S₁₁で切り出
された切出し区間数を計数する。

このような操作をデータメモリM₁に格納され
ている、全ての単語について繰返して行い閾値カ
ウンタS₁₂により与えられる閾値に対応する切出
し区間の累積数を累積部S₁₃に格納し、その後、
その閾値とともに音声区間数メモリS₁₄に格納す
る。

次に閾値カウンタS₁₂の出力値を更新して前述
したと同様の操作によつて、この更新された閾値
に対応する切出し区間数の累積値をその閾値とと
もに、音声区間数メモリS₁₄に格納する。

従つて音声区間数メモリS₁₄には第３図に示す
ような分布が得られる。

この分布に基づいて、第１の閾値判定部S₁₅で
は、前述したように切出し区間数が急激に増加す
る寸前の値T₁を第１の閾値として選定する。

この第１の閾値T₁は第２の閾値決定部S₂へ送
られる。

第２の閾値決定部S₂の切出し部S₂₁では、デー
タメモリM₁からのパワーデータを用いて、第１
の閾値をT₁、閾値カウンタS₂₂の出力値を閾値と
した場合の切出し区間数を第１図に関連して述べ
た方法によつて求め、これを切出し数累積部S₂₃
に格納する。データメモリM₁に格納されている。
全ての単語について、切出し区間数を求め累積部
S₂₃に格納する。次に、閾値カウンタS₂₂の出力値
と、切出し数累積部S₂₃に格納されている切出し
区間数とを１組として、切出し数メモリS₂₄に格
納する。

次に閾値カウンタS₂₂の計数値を更新し、この
値を新しく閾値として同様に切出し区間数を求め
切出し数累積部S₂₃に格納した後、閾値カウンタ
S₂₂の出力値と、切出し数累積部S₂₃に格納されて
いる切出し区間数とを１組として切出数メモリ
S₂₄に格納する。

このように閾値カウンタS₂₂の出力値を第２の
閾値として、第４図に関連して述べたような切出
し区間数分布を切出し数メモリS₂₄に得ることが
できる。

第２の閾値判定部S₂₅では、切出し区間数分布
に基づいて、切出し区間数が最大値となる寸前と
閾値T₂′を第２の閾値として採用する。（但し
T₂′＞T₁とする。）切出し部Ｋでは、第１の閾値T₁および第２の
閾値T₂′を用いて、データメモリM₁から出力され
るパワーデータの切出しを第１図に関連して述べ
た方法で行う。

このようにして切出された音声認識区間が定ま
ると、この音声認識区間内に含まれるパワーデー
タが特徴抽出部Ｔへ送られる。

特徴抽出部Ｔでは、データメモリM₁からスペ
クトルパラメータ用メモリM₃を介して送られる
パラメータを用いて音声認識区間内のパワーデー
タの特徴抽出を行い抽出された特徴を単語ポイン
タＰで指示される辞書メモリーM₂内の領域に格
納される。

また、辞書メモリM₂には、第１の閾値決定部
S₁および第２の閾値決定部S₂′で得られた第１の
閾値T₁および第２の閾値T₂をも格納される。な
お以上の諸動作は全て制御部Ｅの制御によつて行
われる。

第６図は、前述のようにして求められた２つの
閾値T₁，T₂′の用いて音声認識を行う装置の構成
図である。マイクロホンＺから音声信号が入力部
Ｉに入力され、音声強度データを得て、このデー
タに基づいて前述の２つの閾値T₁，T₂′を用いて
音声認識区間切出し部Ｗで音声認識区間の切出し
を行う。この音声認識区間内の音声データに基づ
いて、特徴抽出部Ｖで特徴抽出を行い、辞書メモ
リM₂に格納されている登録された音声データか
ら得られる特徴との照合を照合部Ｕで行い、その
類似性を判定部Ａで判定して、その結果を出力す
る。

(G) 発明の効果以上説明したように本発明に係る音声認識区間
抽出方式は、音声パターン波形に基づいて、まず
第１の閾値を決定し、この第１の閾値を固定して
第２の閾値を種々に変化させて、最適値を選定す
るため、背景雑音の有無に拘らず、誤認識の生じ
ることの少ない音声区間を切出すことができる。

【図面の簡単な説明】

第１図は音声パターンを示す図、第２図は切出
し区間を示す図、第３図は切出し区間数の分布
図、第４図は第２図の閾値の変化による認識率と
切出し区間数の変化の様子を示す図、第５図は本
発明の一実施例構成図、第６図は音声認識装置の
構成図である。 M₁：データメモリ、Ｐ：単語ポインタ、M₂：
辞書メモリ、S₁₁：音声区間検出部、S₁₂：閾値カ
ウンタ、S₁₃：音声区間数累積部、S₁₄：音声区間
数メモリ、S₁₅：第１の閾値判定部、S₂₁：切出し
部、S₂₂：閾値カウンタ、S₂₃：切出し数累積部、
S₂₄：切出し数メモリ、S₂₅：第２の閾値判定部、
M₃：パラメータ用メモリ、Ｉ：入力部、Ｗ：音
声区間切出し部、Ｖ：特徴抽出部、Ｕ：照合部。

Claims

【特許請求の範囲】

１少なくとも２つの音声強度閾値を用いて音声
登録辞書に格納された音声強度データより音声領
域を抽出し、該抽出領域より音声認識に供する音
声認識区間を得る音声認識区間抽出方式におい
て、第１の閾値は、雑音領域を含まない範囲内の
最低の音声強度値に設定され、第２の閾値は、抽
出される音声領域数が最大値となる近傍の値であ
つて、かつ前記第１の閾値より大きい音声強度値
に設定されることを特徴とする音声認識区間抽出
方式。