JP3353334B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP3353334B2 JP3353334B2 JP16516392A JP16516392A JP3353334B2 JP 3353334 B2 JP3353334 B2 JP 3353334B2 JP 16516392 A JP16516392 A JP 16516392A JP 16516392 A JP16516392 A JP 16516392A JP 3353334 B2 JP3353334 B2 JP 3353334B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- distance
- phoneme
- unit
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Document Processing Apparatus (AREA)
Description
標準パターンと照合して単語を認識する音声認識装置に
関する。
成図である。図5はそこで使われる照合データを示す。
の時間(フレーム)毎に区分し、フレーム毎にFFT等
を用いてスペクトル分析を行い、分析結果を保持する。
分析単位としてはフレーム長は10ミリ秒程度、周波数区
分は200 〜5000Hz程度の帯域を20チャネル程度に分割
し、その分割範囲のパワー値を値とする。周波数帯域の
分割方法には等分割やメル尺度分割(人間の耳の感度に
応じた分割) 等を用いる。
を入力フレーム番号、jを周波数区分番号(チャネル番
号)として A={aij} で示される。
(B)に示すように各音素あるいは音素に準ずる音声単
位(以下、音素と記す)毎に、入力と同じ分割方法で処
理された標準音声のパターンをテンプレートとして保持
している。
(K,S,T,N,H,M・・・)等20種程度のカテ
ゴリに分け、語頭、語尾、前後の他の音素の影響による
変形等に対応してカテゴリ毎に10種程度の複数のテン
プレートを用意している。
に、kを音素のカテゴリ(種類) 番号、lを各カテゴリ
内のテンプレート番号、jを周波数区分番号として、 B={bklj } で示される。
テゴリ番号として、継続時間の最小長、最大長 {sk , tk } 平均時間長(標準継続時間) {vk } および、図5(C),(D)に示すように、kをカテゴ
リ番号、mを継続時間(フレーム数)として、継続時間
の重み分布 G={gkm} を記憶している。これらを標準継続時間分布と称する。
すように、wを単語番号、nを単語モデル内の音素番号
として、各単語モデルについて音素列 C={cwn} を記憶している。
の照合を行い、最も類似度の高いものを入力音声の識別
結果であるとする。問題は、同じ単語であっても発声の
度に時間長が異なることである。従って時間軸上での非
線形なパターンマッチングが必要になる。
軸上の対応づけは逐一行うためDP(Dynamic Programi
ng)法を用いる。図6はDP法による照合の概念図であ
る。入力パターンAと標準パターンCwの時系列の対応
を考えると、入力パターンAの時間軸を伸縮させなが
ら、各フレームが交差する所(格子点)を通り、全体を
最も短く結び付ける経路を見つければよい。そのために
は、入力フレームと音素テンプレート間の距離(局所距
離)を基本として全体の距離の累積値が最小になるよう
にする。これを各単語モデルについて行い、最も距離の
小さいものを結果とする。
ち入力フレームiと、単語モデルのノードn(n番目の
音素)の最も近い音素テンプレートとの距離dinは、そ
のノードの音素のカテゴリ番号がkで、その音素テンプ
レートの数がL個であるとして、 (k :単語モデルのn番目の音素のカテゴリ番号)とな
る。
より、図6に示すものとなる。各格子点の値は、そこに
達する最短の累積距離を示す。各格子点までの累積距離
Dinは、 ただし y:継続時間 (フレーム数) 累積距離の初期値 D00=0 Di0=∞ (i=1,I) D0n=∞ (n=1,N) となる。
る累積距離すなわちDinを基準に考えると、継続時間の
制約( sk 〜 tk ) から、ここに達する一つ前の格子点
は限定されることを示す。つまり、図6の格子点に達
する経路の一つ前の格子点はからのいずれかに限ら
れ、その外は対象外である。
のずれを重みとして距離に換算したものであり、第三項
は、一つ前の格子点までの累積距離である。単語モデル
wとの照合距離は、入力の最終フレームと単語モデルの
最終音素まで比較した累積距離であって、 Dw = DIN (W:単語番号,I:入力の最終フレーム,
N:単語モデルの最終音素) 照合結果は、 D ={Dw } となる。
語モデルが認識結果として出力される。
合する際に次のような問題が起こりうる。例えば『オオ
タ』という音声を入力した際に、「OOTA」でなく、
「OOITA」と誤認識することがある。この場合「O
OITA(以下単語番号1)」との照合距離 D1 (例
えば、50とする)の方が、「OOTA(以下単語番号
2)」との照合距離 D2 (例えば、60とする)より
も小さくなって「OOITA」が認識結果として得られ
る場合である。この場合の入力と各単語との照合結果の
例を図7(A),(B)に示す。「OOITA」、「O
OTA」の各音素について継続時間を見てみると、それ
ぞれ、「10,10,10, 7,23」、「15,15, 7,23 」である。
秒) ここで、各音素の標準継続時間が (O) (I) (T) (A) v5 = 12 , v2 = 12 , v8 = 4 , v1 = 20
(単位:フレーム) の場合、標準継続時間からのずれ Zwn = vk - dur n 式3 ( w:単語番号,n:単語モデル中のノード番号 k: 単語モデルのn番目の音素のカテゴリ番号 vk :カテゴリkの標準継続時間 durn :単語モデルのn番目の音素としたときの継続時
間 ) はそれぞれ (O) Z11 = 12 - 10 = 2 (O) Z21 = 12 - 15 = -3 (O) Z12 = 12 - 10 = 2 (O) Z22 = 12 - 15 = -3 (I) Z13 = 12 - 10 = 2 (T) Z23 = 4 - 7 = -3 (T) Z14 = 4 - 7 = -3 (A) Z24 = 20 - 23 = -3 (A) Z15 = 20 - 23 = -3 単位:フレーム となる。これを図に示したものが図7(C)である。
れたりした場合には各音素について標準継続時間からの
ずれは一方向へのずれであるが、別の単語と照合した場
合には、ずれの方向(および大きさ)がばらつくことを
示す。
続時間に関して平均からのばらつきが大きい場合には照
合結果が正しくない場合がある。本発明は、継続時間に
関して平均からのばらつきを考慮することにより、認識
率を高くした音声認識装置を実現することを目的として
いる。
ック図である。従来の音声認識装置に対して、入力音声
パターンを音素に分割する分割部6と、標準継続時間と
のずれの分散を計算する時間長ずれ計算部7と、照合距
離を補正する距離補正部8とを備える。
因として、各音素について標準継続時間とのずれのばら
つきを考慮せずに照合距離を用いていたことがあげられ
る。
標準継続時間とのずれの分散SDw を算出し、 ( ave Zw : 標準継続時間からのずれZwnの平均) 補正距離として従来の照合距離Dw に加える。
度をより正確に表す新たな照合距離NDw を求めたこと
になる。
(A)は入力を「OOITA」と対応させたときのDP
パスを示す。各格子点はそこまでの累積距離の最低値D
inを示し、全体で最も短い累積距離となる経路を枠と矢
印で示すものである。
離Dinが最低値になるときの継続時間yの値 Yinを示
す。分割部6はこのYinを照合部5から受け取り記憶す
る。これを照合後に、図3(B)に示すように終端(語
尾)から始端(語頭)に向かって経路を後戻りすること
で音素に分割する。こうして単語モデルの各ノードに対
応させたときの音素の継続時間{ durn }を得る。
された音素の継続時間 durn と継続時間記憶部3から得
た標準継続時間vk との差Zwnを計算し、さらに式4に
より、ずれの分散SDw を求める。
w を加えて補正した照合距離NDwを算出し、距離の近
さ一位の単語を認識結果とする。このように構成するこ
とにより、より正確な認識結果を得ることができる。
上は対象とする音素を限定したり対象単語を限定して処
理時間を短くできる。
に説明する。図2は本発明の実施例のブロック図であ
る。図1、図4と同一機能のものは、同一の符号を付し
て示す。
り、AD変換器、FFT演算回路等と分析結果を記憶す
る記憶部よりなる。2は音素テンプレート記憶部、3は
継続時間記憶部、4は単語モデル記憶部であり、前記の
分析結果の記憶部と共にEWS(エンジニアリングワー
クステーション)の記憶部に置く。5は照合部、6は分
割部、7は時間長ずれ計算部、8は距離補正部でEWS
のプロセサおよびソフトウェアで構成される。
{aij}を保持する。分析単位としてはフレーム長は10
ミリ秒程度、周波数区分は200 〜5000Hz程度の帯域を20
チャネル程度に分割し、その分割範囲のパワー値を値と
する。 音素テンプレート記憶部2、継続時間記憶部3、単語
モデル記憶部4に記憶した、音素テンプレートB={b
klj }、単語モデルC={cwn}、継続時間の最小長、
最大長{sk , tk }、重みG={gkm} を用いて、
照合部5でDP照合を行い、D ={Dw }を得る。カ
テゴリ数は20程度、テンプレート数は10程度、単語モデ
ル数は1000程度である。ここまでは従来技術と同じであ
る。 次に、分割部6で照合結果を用いて図3に示すように
入力音声を各音素に分割して音素の継続時間を決定し、 時間長ずれ計算部7で各音素について標準からのずれ
の分散を計算し、 距離補正部8で照合距離を時間長ずれ計算部7で計算
した結果を用いて補正する。
OITA」に関するずれはばらついているので距離を大
きくし、「OOTA」についてはずれのばらつきが全く
ないので距離はそのままとする。具体的には各照合距離
は, ND1 = D1 + k SD1 = 50 + 2×6 = 62 ND2 = D2 + k SD2 = 60 + 2×0 = 60 (aveZ : 標準継続時間からのずれZの平均) のように計算することができ、ND2 より小さいものが
ない(この場合他の単語モデルとの照合距離D3 〜はず
っと大きいとする)ので、照合結果は『オオタ』と正し
くすることができる。
10を加えてある。もちろん、どちらか一つだけでもよ
い。音素選択部9では標準とのずれを計算すべき音素を
限定する。これは継続時間の短い子音に比べて、母音等
の方が顕著にずれが見られるからである。例えば、母音
だけに限定すれば、処理時間が短くなる。
定する。これはすべての単語モデルについて距離補正を
行う必要はなく、照合距離Dw の上位のもの(正しい認
識結果となる可能性の高いもの)について行えば充分で
あるからである。上位の数単語についてのみ補正するな
ら処理時間は少なくてよい。
単語について 距離補正を行うなどでよい。
れば従来の照合方式の後処理として継続時間のずれを照
合距離に反映させることで、より精密な照合が可能とな
り、認識率の高い音声認識装置を実現することができ
る。
Claims (6)
- 【請求項1】 入力音声のスペクトル分析を行い、特徴
時系列データとして記憶するスペクトル分析部と、 音素あるいは音素に準ずる音声単位の特徴データを記憶
する音素テンプレート記憶部と、 音素あるいは音素に準ずる音声単位の標準継続時間分布
を記憶する継続時間記憶部と、 単語あるいは単語に準ずる音声単位のモデルを記憶する
単語モデル記憶部と、 入力音声のスペクトル分析結果と単語モデルの照合を音
素テンプレートと継続時間分布を用いて継続時間制御を
行い照合する照合部とを有する音声認識装置において、 照合結果を用いて入力音声を音素あるいは音素に準ずる
音声単位に分割する分割部と、 分割した音素あるいは音素に準ずる音声単位の継続時間
と標準継続時間とのずれを計算する時間長ずれ計算部
と、 この計算結果を用いて照合距離を補正し、補正後の照合
距離に基づいて最終的な認識結果を出力する距離補正部
とを有することを特徴とする音声認識装置。 - 【請求項2】 継続時間と標準継続時間とのずれを計算
するべき音素あるいは音素に準ずる音声単位を特定す
る、音素選択部を有することを特徴とする請求項1記載
の音声認識装置。 - 【請求項3】 距離補正を行うべき単語あるいは単語に
準ずる音声単位を、照合距離があらかじめ定めた域値以
下のものとする単語選択部を有することを特徴とする請
求項1記載の音声認識装置。 - 【請求項4】 距離補正を行うべき単語あるいは単語に
準ずる音声単位を、照合結果の順位があらかじめ定めた
順位以内のものとする単語選択部を有することを特徴と
する請求項1記載の音声認識装置。 - 【請求項5】 距離補正を行うべき単語あるいは単語に
準ずる音声単位を、照合結果の順位が1位の単語の照合
距離との照合距離の差が予め定めた域値以下の単語とす
る単語選択部を有することを特徴とする請求項1記載の
音声認識装置。 - 【請求項6】 距離補正を行う単語あるいは単語に準ず
る音声単位を、照合結果の順位が1つ上の単語の照合距
離との照合距離の差があらかじめ定めた域値以下である
ものまでとする単語選択部を有することを特徴とする請
求項1記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16516392A JP3353334B2 (ja) | 1992-06-24 | 1992-06-24 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16516392A JP3353334B2 (ja) | 1992-06-24 | 1992-06-24 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH064096A JPH064096A (ja) | 1994-01-14 |
JP3353334B2 true JP3353334B2 (ja) | 2002-12-03 |
Family
ID=15807067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16516392A Expired - Fee Related JP3353334B2 (ja) | 1992-06-24 | 1992-06-24 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3353334B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0659322B2 (ja) * | 1992-04-04 | 1994-08-10 | 久光製薬株式会社 | 皮膚貼着型低周波治療器 |
WO2005004110A1 (ja) * | 2002-04-24 | 2005-01-13 | Onso System Institute | 音相解析方法及び音相解析装置 |
JP4906776B2 (ja) * | 2008-04-16 | 2012-03-28 | 株式会社アルカディア | 音声制御装置 |
-
1992
- 1992-06-24 JP JP16516392A patent/JP3353334B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH064096A (ja) | 1994-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0387602B1 (en) | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system | |
EP0109190B1 (en) | Monosyllable recognition apparatus | |
US20030200086A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
US5987409A (en) | Method of and apparatus for deriving a plurality of sequences of words from a speech signal | |
CN110808049B (zh) | 语音标注文本修正方法、计算机设备和存储介质 | |
US7171362B2 (en) | Assignment of phonemes to the graphemes producing them | |
JP2841404B2 (ja) | 連続音声認識装置 | |
JP3353334B2 (ja) | 音声認識装置 | |
JP2002358097A (ja) | 音声認識装置 | |
JP3403838B2 (ja) | 句境界確率計算装置および句境界確率利用連続音声認識装置 | |
US6195638B1 (en) | Pattern recognition system | |
JP2004191705A (ja) | 音声認識装置 | |
JPH08328583A (ja) | 音声認識装置 | |
JP3400474B2 (ja) | 音声認識装置および音声認識方法 | |
JP2738403B2 (ja) | 音声認識装置 | |
JP3322536B2 (ja) | ニューラルネットワークの学習方法および音声認識装置 | |
JP2574242B2 (ja) | 音声入力装置 | |
JPH0638198B2 (ja) | 連続音声認識装置 | |
US6708151B1 (en) | Reference pattern generating apparatus and method, and computer readable medium having reference pattern generating program embodied thereon | |
JP2995941B2 (ja) | 不特定話者用音声認識装置 | |
JPH10143190A (ja) | 音声認識装置 | |
JPH05197397A (ja) | 音声認識方法及びその装置 | |
JPH0556515B2 (ja) | ||
JPH067349B2 (ja) | 音声認識方式 | |
Kroul | Automatic Speech Segmentation Based on HMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20020827 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080927 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080927 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090927 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090927 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100927 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |