JPH0443277B2 - - Google Patents
Info
- Publication number
- JPH0443277B2 JPH0443277B2 JP58054252A JP5425283A JPH0443277B2 JP H0443277 B2 JPH0443277 B2 JP H0443277B2 JP 58054252 A JP58054252 A JP 58054252A JP 5425283 A JP5425283 A JP 5425283A JP H0443277 B2 JPH0443277 B2 JP H0443277B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- section
- threshold
- cutout
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000605 extraction Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 description 10
- 238000009825 accumulation Methods 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Description
【発明の詳細な説明】
(A) 発明の技術分野
本発明は、音声強度波形から、音声認識に供さ
れる音声認識区間を抽出する音声認識区間抽出方
式に関する。
れる音声認識区間を抽出する音声認識区間抽出方
式に関する。
(B) 技術の背景
音声情報処理システムに対する要望が強まつて
おり、その前提として音声の認識率を高めること
が必要となる。
おり、その前提として音声の認識率を高めること
が必要となる。
音声強度(パワー)波形は、認識に必要な音声
認識区間のみならず、背景音等の雑音波形を含ま
れており、認識率を高めるためには、この雑音領
域を分離する必要がある。
認識区間のみならず、背景音等の雑音波形を含ま
れており、認識率を高めるためには、この雑音領
域を分離する必要がある。
また音声領域の一部分のみを切出して認識を行
うと他の類似のパワー波形を有する単語との識別
が困難となり誤認を生じるためこの音声認識に供
される音声認識区間の切出しを適切に行うことが
望まれる。
うと他の類似のパワー波形を有する単語との識別
が困難となり誤認を生じるためこの音声認識に供
される音声認識区間の切出しを適切に行うことが
望まれる。
(C) 従来技術と問題点
第1図は音声パターンの一例を示すものであつ
て、横軸は時間を示し、縦軸は音声パワーを示
す。
て、横軸は時間を示し、縦軸は音声パワーを示
す。
T1,T2は閾値を示す。
これらの閾値T1,T2により、パターン曲線C
が区切られる区間B1およびB2は音声抽出領域
(切出し区間)と呼ばれる。
が区切られる区間B1およびB2は音声抽出領域
(切出し区間)と呼ばれる。
切出し区間B1,B2の切出し点B11,B12,B21,
B22の時間差D1,D2の大小によつて次の処理を行
う。
B22の時間差D1,D2の大小によつて次の処理を行
う。
時間差D1又はD2が大きい場合は、切出し区間
は2つ存在するものとみなし、この2つの切出し
区間内にある音声パターンを用いて、認識処理を
行う。
は2つ存在するものとみなし、この2つの切出し
区間内にある音声パターンを用いて、認識処理を
行う。
又時間差D1又はD2が小さい場合は、切出し点
B11,B21又はB12,B21の中点を切出し点として
扱い、切出し点は1つとなる。
B11,B21又はB12,B21の中点を切出し点として
扱い、切出し点は1つとなる。
このような処理によつて定められた切出し区間
は音声認識区間と呼ばれこの切出し区間(音声認
識区間)内の音声パターンを用いて認識処理を行
う。
は音声認識区間と呼ばれこの切出し区間(音声認
識区間)内の音声パターンを用いて認識処理を行
う。
しかし従来はこのような閾値は固定されている
ため、外来騒音(背景騒音)の影響によつて音声
強度曲線にレベル変動が生じても、閾値は一定で
あるため、音声に正確に対応した音声認識区間が
得られず、誤認識を生じる結果となる。
ため、外来騒音(背景騒音)の影響によつて音声
強度曲線にレベル変動が生じても、閾値は一定で
あるため、音声に正確に対応した音声認識区間が
得られず、誤認識を生じる結果となる。
(D) 発明の目的
本発明はかかる点に鑑みなされたもので、音声
認識装置における音声入力環境における背景音を
も考慮に入れて自動的に閾値レベルを設定し得る
音声認識区間抽出方式を提供することを目的とす
る。
認識装置における音声入力環境における背景音を
も考慮に入れて自動的に閾値レベルを設定し得る
音声認識区間抽出方式を提供することを目的とす
る。
(E) 発明の構成
そしてこの目的を達成するため本発明は少なく
とも1組の音声強度閾値を用いて音声登録辞書に
格納された音声強度データより音声領域を抽出
し、該抽出領域より音声認識に供する音声認識区
間を得る音声認識区間抽出方式において、第1の
閾値は、雑音領域を含まない範囲の最低の音声強
度値に設定され、第2の閾値は、抽出される音声
領域数が最大値となる近傍の値であつて、かつ前
記第1の閾値より大きい音声強度値に設定される
ことを特徴とする音声認識区間抽出方式を提供す
る。
とも1組の音声強度閾値を用いて音声登録辞書に
格納された音声強度データより音声領域を抽出
し、該抽出領域より音声認識に供する音声認識区
間を得る音声認識区間抽出方式において、第1の
閾値は、雑音領域を含まない範囲の最低の音声強
度値に設定され、第2の閾値は、抽出される音声
領域数が最大値となる近傍の値であつて、かつ前
記第1の閾値より大きい音声強度値に設定される
ことを特徴とする音声認識区間抽出方式を提供す
る。
(F) 発明の実施例
以下図面を参照して本発明の実施例を詳述する
が、先ず本発明の基本的考え方を説明する。
が、先ず本発明の基本的考え方を説明する。
第2図は切出し区間数の分布図であつて、閾値
レベルによつて切出し区間の数が変化することを
示すものであり、閾値レベルが低くなるに従つ
て、切出し区間の数が増加することが判る。
レベルによつて切出し区間の数が変化することを
示すものであり、閾値レベルが低くなるに従つ
て、切出し区間の数が増加することが判る。
閾値が低下するに従つて切出し区間の数が増加
するのは、背景音(雑音)領域NB1,NB2をも
切出すためである。
するのは、背景音(雑音)領域NB1,NB2をも
切出すためである。
第3図はこのような関係を示す図であつて、閾
値が高くなるに従つて、切出し区間数が減少し、
或る値以上になると全単語数となる。つまり1つ
の単語の音声に対して得られる切出し区間は唯1
つとなる。
値が高くなるに従つて、切出し区間数が減少し、
或る値以上になると全単語数となる。つまり1つ
の単語の音声に対して得られる切出し区間は唯1
つとなる。
従つて雑音レベル以上であつて、最も低レベル
の閾値T1を設定すれば音声区間を確実に切り出
せることがわかる。
の閾値T1を設定すれば音声区間を確実に切り出
せることがわかる。
第1の閾値をこのT1に選び、第2の閾値T2′を
様々に変化させたときの切出し区間数と、認識率
の変化を第4図に示す。
様々に変化させたときの切出し区間数と、認識率
の変化を第4図に示す。
同図において横軸はこれら2つの閾値T1,
T2′の差T1−T2を示し、縦軸のうち左軸は切出し
区間数を示し、右軸は認識率を示す。
T2′の差T1−T2を示し、縦軸のうち左軸は切出し
区間数を示し、右軸は認識率を示す。
曲線Q1は、切出し区間数を示し、曲線Q2は認
識率を示す。
識率を示す。
同図において、第2の閾値T2′が第1の閾値T1
より小さい領域では、これら両者の差が大きくな
るに従い切出し区間数が増加するのは、第2の閾
値T2′による切出し区間には雑音領域における切
出し区間と、音声領域における切出し区間とが併
存する割合が高くなるためである。
より小さい領域では、これら両者の差が大きくな
るに従い切出し区間数が増加するのは、第2の閾
値T2′による切出し区間には雑音領域における切
出し区間と、音声領域における切出し区間とが併
存する割合が高くなるためである。
また第2図の閾値T2′が第1の閾値より大きい
領域ではこれら両者の差が大きくなるに従い、切
出し区間数が増加するのは第2の閾値T2′によつ
て音声領域のピーク値近辺のみが切り出されるた
め、第1の閾値T1による切出し区間との切出し
点の間隔が広がる結果、これら2つの閾値による
切出し区間が併存する割合が高くなるためであ
る。
領域ではこれら両者の差が大きくなるに従い、切
出し区間数が増加するのは第2の閾値T2′によつ
て音声領域のピーク値近辺のみが切り出されるた
め、第1の閾値T1による切出し区間との切出し
点の間隔が広がる結果、これら2つの閾値による
切出し区間が併存する割合が高くなるためであ
る。
次に認識率と閾値との関係について述べる。
第4図から明らかなように、第2の閾値が小さ
くなるに従つて認識率が向上する。
くなるに従つて認識率が向上する。
第2の閾値T2′が高い場合、音声領域の一部分
のみが切り出されてこの切出し区間に基づいて認
識が行われるため、類似の音声パターンを有する
他の単語との相異が明確にならず誤認識を生ずる
ためであり、例えば第2図で第2の閾値T2′が
T12′の場合、音声領域の一部である区間B3にある
音声パワーの小さい波形は切出し区間に含まれ
ず、従つて音声領域の一部が欠落した切出し区間
B4に基づいて、認識が行われる結果、正確な認
識がなされず切出し区間B4内の波形と類似した
他の単語と誤認する恐れがある。
のみが切り出されてこの切出し区間に基づいて認
識が行われるため、類似の音声パターンを有する
他の単語との相異が明確にならず誤認識を生ずる
ためであり、例えば第2図で第2の閾値T2′が
T12′の場合、音声領域の一部である区間B3にある
音声パワーの小さい波形は切出し区間に含まれ
ず、従つて音声領域の一部が欠落した切出し区間
B4に基づいて、認識が行われる結果、正確な認
識がなされず切出し区間B4内の波形と類似した
他の単語と誤認する恐れがある。
また第2の閾値T2′が低くなると、全音声領域
が切出し区間に含まれるため、正確な認識が可能
となり、認識率が向上する。
が切出し区間に含まれるため、正確な認識が可能
となり、認識率が向上する。
このように第1の閾値T1を雑音波形を切り出
さない限度において低く設定し、第2の閾値
T2′を認識対象とする音声群に応じて、適宜設定
することにより高い認識率を得ることができるこ
とが判る。
さない限度において低く設定し、第2の閾値
T2′を認識対象とする音声群に応じて、適宜設定
することにより高い認識率を得ることができるこ
とが判る。
第5図は本発明の実施例構成図であつて、M1
は辞書作成用メモリ、S1は第1の閾値決定部、S2
は第2の閾値決定部、Kは切出し部、Tは特徴抽
出部、M2は辞書メモリ、M3はスペクトルパラメ
ータ用メモリ、Pは単語ポインタ、Eは制御部で
ある。
は辞書作成用メモリ、S1は第1の閾値決定部、S2
は第2の閾値決定部、Kは切出し部、Tは特徴抽
出部、M2は辞書メモリ、M3はスペクトルパラメ
ータ用メモリ、Pは単語ポインタ、Eは制御部で
ある。
データメモリM1には切出し操作を行う前の音
声のパワーデータおよびスペクトルパラメータが
格納されており、単語ポインタPで指示された単
語に関するパワーデータは第1の閾値決定部S1に
入力され第1の閾値が決定される。
声のパワーデータおよびスペクトルパラメータが
格納されており、単語ポインタPで指示された単
語に関するパワーデータは第1の閾値決定部S1に
入力され第1の閾値が決定される。
以下この点について説明する。
パワーデータが音声区間検出部S11へ入力され
ると閾値カウンタS12により指示される閾値によ
り、第2図で示した如き、音声切出し区間が得ら
れる。
ると閾値カウンタS12により指示される閾値によ
り、第2図で示した如き、音声切出し区間が得ら
れる。
音声区間数累積部S12では、検出部S11で切り出
された切出し区間数を計数する。
された切出し区間数を計数する。
このような操作をデータメモリM1に格納され
ている、全ての単語について繰返して行い閾値カ
ウンタS12により与えられる閾値に対応する切出
し区間の累積数を累積部S13に格納し、その後、
その閾値とともに音声区間数メモリS14に格納す
る。
ている、全ての単語について繰返して行い閾値カ
ウンタS12により与えられる閾値に対応する切出
し区間の累積数を累積部S13に格納し、その後、
その閾値とともに音声区間数メモリS14に格納す
る。
次に閾値カウンタS12の出力値を更新して前述
したと同様の操作によつて、この更新された閾値
に対応する切出し区間数の累積値をその閾値とと
もに、音声区間数メモリS14に格納する。
したと同様の操作によつて、この更新された閾値
に対応する切出し区間数の累積値をその閾値とと
もに、音声区間数メモリS14に格納する。
従つて音声区間数メモリS14には第3図に示す
ような分布が得られる。
ような分布が得られる。
この分布に基づいて、第1の閾値判定部S15で
は、前述したように切出し区間数が急激に増加す
る寸前の値T1を第1の閾値として選定する。
は、前述したように切出し区間数が急激に増加す
る寸前の値T1を第1の閾値として選定する。
この第1の閾値T1は第2の閾値決定部S2へ送
られる。
られる。
第2の閾値決定部S2の切出し部S21では、デー
タメモリM1からのパワーデータを用いて、第1
の閾値をT1、閾値カウンタS22の出力値を閾値と
した場合の切出し区間数を第1図に関連して述べ
た方法によつて求め、これを切出し数累積部S23
に格納する。データメモリM1に格納されている。
全ての単語について、切出し区間数を求め累積部
S23に格納する。次に、閾値カウンタS22の出力値
と、切出し数累積部S23に格納されている切出し
区間数とを1組として、切出し数メモリS24に格
納する。
タメモリM1からのパワーデータを用いて、第1
の閾値をT1、閾値カウンタS22の出力値を閾値と
した場合の切出し区間数を第1図に関連して述べ
た方法によつて求め、これを切出し数累積部S23
に格納する。データメモリM1に格納されている。
全ての単語について、切出し区間数を求め累積部
S23に格納する。次に、閾値カウンタS22の出力値
と、切出し数累積部S23に格納されている切出し
区間数とを1組として、切出し数メモリS24に格
納する。
次に閾値カウンタS22の計数値を更新し、この
値を新しく閾値として同様に切出し区間数を求め
切出し数累積部S23に格納した後、閾値カウンタ
S22の出力値と、切出し数累積部S23に格納されて
いる切出し区間数とを1組として切出数メモリ
S24に格納する。
値を新しく閾値として同様に切出し区間数を求め
切出し数累積部S23に格納した後、閾値カウンタ
S22の出力値と、切出し数累積部S23に格納されて
いる切出し区間数とを1組として切出数メモリ
S24に格納する。
このように閾値カウンタS22の出力値を第2の
閾値として、第4図に関連して述べたような切出
し区間数分布を切出し数メモリS24に得ることが
できる。
閾値として、第4図に関連して述べたような切出
し区間数分布を切出し数メモリS24に得ることが
できる。
第2の閾値判定部S25では、切出し区間数分布
に基づいて、切出し区間数が最大値となる寸前と
閾値T2′を第2の閾値として採用する。(但し
T2′>T1とする。) 切出し部Kでは、第1の閾値T1および第2の
閾値T2′を用いて、データメモリM1から出力され
るパワーデータの切出しを第1図に関連して述べ
た方法で行う。
に基づいて、切出し区間数が最大値となる寸前と
閾値T2′を第2の閾値として採用する。(但し
T2′>T1とする。) 切出し部Kでは、第1の閾値T1および第2の
閾値T2′を用いて、データメモリM1から出力され
るパワーデータの切出しを第1図に関連して述べ
た方法で行う。
このようにして切出された音声認識区間が定ま
ると、この音声認識区間内に含まれるパワーデー
タが特徴抽出部Tへ送られる。
ると、この音声認識区間内に含まれるパワーデー
タが特徴抽出部Tへ送られる。
特徴抽出部Tでは、データメモリM1からスペ
クトルパラメータ用メモリM3を介して送られる
パラメータを用いて音声認識区間内のパワーデー
タの特徴抽出を行い抽出された特徴を単語ポイン
タPで指示される辞書メモリーM2内の領域に格
納される。
クトルパラメータ用メモリM3を介して送られる
パラメータを用いて音声認識区間内のパワーデー
タの特徴抽出を行い抽出された特徴を単語ポイン
タPで指示される辞書メモリーM2内の領域に格
納される。
また、辞書メモリM2には、第1の閾値決定部
S1および第2の閾値決定部S2′で得られた第1の
閾値T1および第2の閾値T2をも格納される。な
お以上の諸動作は全て制御部Eの制御によつて行
われる。
S1および第2の閾値決定部S2′で得られた第1の
閾値T1および第2の閾値T2をも格納される。な
お以上の諸動作は全て制御部Eの制御によつて行
われる。
第6図は、前述のようにして求められた2つの
閾値T1,T2′の用いて音声認識を行う装置の構成
図である。マイクロホンZから音声信号が入力部
Iに入力され、音声強度データを得て、このデー
タに基づいて前述の2つの閾値T1,T2′を用いて
音声認識区間切出し部Wで音声認識区間の切出し
を行う。この音声認識区間内の音声データに基づ
いて、特徴抽出部Vで特徴抽出を行い、辞書メモ
リM2に格納されている登録された音声データか
ら得られる特徴との照合を照合部Uで行い、その
類似性を判定部Aで判定して、その結果を出力す
る。
閾値T1,T2′の用いて音声認識を行う装置の構成
図である。マイクロホンZから音声信号が入力部
Iに入力され、音声強度データを得て、このデー
タに基づいて前述の2つの閾値T1,T2′を用いて
音声認識区間切出し部Wで音声認識区間の切出し
を行う。この音声認識区間内の音声データに基づ
いて、特徴抽出部Vで特徴抽出を行い、辞書メモ
リM2に格納されている登録された音声データか
ら得られる特徴との照合を照合部Uで行い、その
類似性を判定部Aで判定して、その結果を出力す
る。
(G) 発明の効果
以上説明したように本発明に係る音声認識区間
抽出方式は、音声パターン波形に基づいて、まず
第1の閾値を決定し、この第1の閾値を固定して
第2の閾値を種々に変化させて、最適値を選定す
るため、背景雑音の有無に拘らず、誤認識の生じ
ることの少ない音声区間を切出すことができる。
抽出方式は、音声パターン波形に基づいて、まず
第1の閾値を決定し、この第1の閾値を固定して
第2の閾値を種々に変化させて、最適値を選定す
るため、背景雑音の有無に拘らず、誤認識の生じ
ることの少ない音声区間を切出すことができる。
第1図は音声パターンを示す図、第2図は切出
し区間を示す図、第3図は切出し区間数の分布
図、第4図は第2図の閾値の変化による認識率と
切出し区間数の変化の様子を示す図、第5図は本
発明の一実施例構成図、第6図は音声認識装置の
構成図である。 M1:データメモリ、P:単語ポインタ、M2:
辞書メモリ、S11:音声区間検出部、S12:閾値カ
ウンタ、S13:音声区間数累積部、S14:音声区間
数メモリ、S15:第1の閾値判定部、S21:切出し
部、S22:閾値カウンタ、S23:切出し数累積部、
S24:切出し数メモリ、S25:第2の閾値判定部、
M3:パラメータ用メモリ、I:入力部、W:音
声区間切出し部、V:特徴抽出部、U:照合部。
し区間を示す図、第3図は切出し区間数の分布
図、第4図は第2図の閾値の変化による認識率と
切出し区間数の変化の様子を示す図、第5図は本
発明の一実施例構成図、第6図は音声認識装置の
構成図である。 M1:データメモリ、P:単語ポインタ、M2:
辞書メモリ、S11:音声区間検出部、S12:閾値カ
ウンタ、S13:音声区間数累積部、S14:音声区間
数メモリ、S15:第1の閾値判定部、S21:切出し
部、S22:閾値カウンタ、S23:切出し数累積部、
S24:切出し数メモリ、S25:第2の閾値判定部、
M3:パラメータ用メモリ、I:入力部、W:音
声区間切出し部、V:特徴抽出部、U:照合部。
Claims (1)
- 1 少なくとも2つの音声強度閾値を用いて音声
登録辞書に格納された音声強度データより音声領
域を抽出し、該抽出領域より音声認識に供する音
声認識区間を得る音声認識区間抽出方式におい
て、第1の閾値は、雑音領域を含まない範囲内の
最低の音声強度値に設定され、第2の閾値は、抽
出される音声領域数が最大値となる近傍の値であ
つて、かつ前記第1の閾値より大きい音声強度値
に設定されることを特徴とする音声認識区間抽出
方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58054252A JPS59178499A (ja) | 1983-03-30 | 1983-03-30 | 音声認識区間抽出方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58054252A JPS59178499A (ja) | 1983-03-30 | 1983-03-30 | 音声認識区間抽出方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS59178499A JPS59178499A (ja) | 1984-10-09 |
JPH0443277B2 true JPH0443277B2 (ja) | 1992-07-16 |
Family
ID=12965357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58054252A Granted JPS59178499A (ja) | 1983-03-30 | 1983-03-30 | 音声認識区間抽出方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59178499A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4656354B2 (ja) * | 2000-10-11 | 2011-03-23 | ソニー株式会社 | 音声処理装置および音声処理方法、並びに記録媒体 |
-
1983
- 1983-03-30 JP JP58054252A patent/JPS59178499A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS59178499A (ja) | 1984-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0352640B2 (ja) | ||
JPH0443277B2 (ja) | ||
JPH0651792A (ja) | 音声認識装置 | |
JP2557497B2 (ja) | 男女声の識別方法 | |
JP2844592B2 (ja) | 離散単語音声認識装置 | |
JP3031081B2 (ja) | 音声認識装置 | |
JPH0376471B2 (ja) | ||
JP2891259B2 (ja) | 音声区間検出装置 | |
JPS61260299A (ja) | 音声認識装置 | |
JPH0619492A (ja) | 音声認識装置 | |
JPH08146996A (ja) | 音声認識装置 | |
JPS58190999A (ja) | 音声認識装置 | |
JP2712586B2 (ja) | 単語音声認識装置用パターンマッチング方式 | |
JPS6136798A (ja) | 音声セグメンテ−シヨン法 | |
JP2602271B2 (ja) | 連続音声中の子音識別方式 | |
JPH0383100A (ja) | 音声区間の検出装置 | |
JPS5936299A (ja) | 音声認識装置 | |
JPS60260096A (ja) | 音声認識装置 | |
JPS58159598A (ja) | 単音節音声認識方式 | |
JPS59111697A (ja) | 音声認識方式 | |
JPH08254991A (ja) | パターン認識装置 | |
JPH03233600A (ja) | 音声切り出し方法及び音声認識装置 | |
JPS59124389A (ja) | 単語音声認識方式 | |
JPH02302799A (ja) | 音声認識方式 | |
JPS5926796A (ja) | 音声認識装置 |