JP3353334B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3353334B2
JP3353334B2 JP16516392A JP16516392A JP3353334B2 JP 3353334 B2 JP3353334 B2 JP 3353334B2 JP 16516392 A JP16516392 A JP 16516392A JP 16516392 A JP16516392 A JP 16516392A JP 3353334 B2 JP3353334 B2 JP 3353334B2
Authority
JP
Japan
Prior art keywords
word
distance
phoneme
unit
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP16516392A
Other languages
English (en)
Other versions
JPH064096A (ja
Inventor
泰 山崎
晋太 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP16516392A priority Critical patent/JP3353334B2/ja
Publication of JPH064096A publication Critical patent/JPH064096A/ja
Application granted granted Critical
Publication of JP3353334B2 publication Critical patent/JP3353334B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は入力音声パターンを単語
標準パターンと照合して単語を認識する音声認識装置に
関する。
【0002】
【従来の技術】図4は従来の音声認識装置のブロック構
成図である。図5はそこで使われる照合データを示す。
【0003】スペクトル分析部1では、入力音声を一定
の時間(フレーム)毎に区分し、フレーム毎にFFT等
を用いてスペクトル分析を行い、分析結果を保持する。
分析単位としてはフレーム長は10ミリ秒程度、周波数区
分は200 〜5000Hz程度の帯域を20チャネル程度に分割
し、その分割範囲のパワー値を値とする。周波数帯域の
分割方法には等分割やメル尺度分割(人間の耳の感度に
応じた分割) 等を用いる。
【0004】分析結果は、図5(A)に示すように、i
を入力フレーム番号、jを周波数区分番号(チャネル番
号)として A={aij} で示される。
【0005】音素テンプレート記憶部2では、図5
(B)に示すように各音素あるいは音素に準ずる音声単
位(以下、音素と記す)毎に、入力と同じ分割方法で処
理された標準音声のパターンをテンプレートとして保持
している。
【0006】音素は母音(A,I,U,E,O)、子音
(K,S,T,N,H,M・・・)等20種程度のカテ
ゴリに分け、語頭、語尾、前後の他の音素の影響による
変形等に対応してカテゴリ毎に10種程度の複数のテン
プレートを用意している。
【0007】テンプレートは、図5(B)に示すよう
に、kを音素のカテゴリ(種類) 番号、lを各カテゴリ
内のテンプレート番号、jを周波数区分番号として、 B={bklj } で示される。
【0008】継続時間記憶部3では各音素毎に、kをカ
テゴリ番号として、継続時間の最小長、最大長 {sk , tk } 平均時間長(標準継続時間) {vk } および、図5(C),(D)に示すように、kをカテゴ
リ番号、mを継続時間(フレーム数)として、継続時間
の重み分布 G={gkm} を記憶している。これらを標準継続時間分布と称する。
【0009】単語モデル記憶部4では、図5(E)に示
すように、wを単語番号、nを単語モデル内の音素番号
として、各単語モデルについて音素列 C={cwn} を記憶している。
【0010】照合部5では、入力音声と各単語モデルと
の照合を行い、最も類似度の高いものを入力音声の識別
結果であるとする。問題は、同じ単語であっても発声の
度に時間長が異なることである。従って時間軸上での非
線形なパターンマッチングが必要になる。
【0011】入力パターンAと標準パターンCw の時間
軸上の対応づけは逐一行うためDP(Dynamic Programi
ng)法を用いる。図6はDP法による照合の概念図であ
る。入力パターンAと標準パターンCwの時系列の対応
を考えると、入力パターンAの時間軸を伸縮させなが
ら、各フレームが交差する所(格子点)を通り、全体を
最も短く結び付ける経路を見つければよい。そのために
は、入力フレームと音素テンプレート間の距離(局所距
離)を基本として全体の距離の累積値が最小になるよう
にする。これを各単語モデルについて行い、最も距離の
小さいものを結果とする。
【0012】各単語モデルに関して、局所距離、すなわ
ち入力フレームiと、単語モデルのノードn(n番目の
音素)の最も近い音素テンプレートとの距離dinは、そ
のノードの音素のカテゴリ番号がkで、その音素テンプ
レートの数がL個であるとして、 (k :単語モデルのn番目の音素のカテゴリ番号)とな
る。
【0013】DPパスの形は継続時間を制御することに
より、図6に示すものとなる。各格子点の値は、そこに
達する最短の累積距離を示す。各格子点までの累積距離
inは、 ただし y:継続時間 (フレーム数) 累積距離の初期値 D00=0 Di0=∞ (i=1,I) D0n=∞ (n=1,N) となる。
【0014】式2の第一項は、格子点(i,n)におけ
る累積距離すなわちDinを基準に考えると、継続時間の
制約( sk 〜 tk ) から、ここに達する一つ前の格子点
は限定されることを示す。つまり、図6の格子点に達
する経路の一つ前の格子点はからのいずれかに限ら
れ、その外は対象外である。
【0015】第二項は、継続時間の平均(標準値)から
のずれを重みとして距離に換算したものであり、第三項
は、一つ前の格子点までの累積距離である。単語モデル
wとの照合距離は、入力の最終フレームと単語モデルの
最終音素まで比較した累積距離であって、 Dw = DIN (W:単語番号,I:入力の最終フレーム,
N:単語モデルの最終音素) 照合結果は、 D ={Dw } となる。
【0016】照合結果のうち、照合距離の最も小さい単
語モデルが認識結果として出力される。
【0017】
【発明が解決しようとする課題】上記従来技術で単語照
合する際に次のような問題が起こりうる。例えば『オオ
タ』という音声を入力した際に、「OOTA」でなく、
「OOITA」と誤認識することがある。この場合「O
OITA(以下単語番号1)」との照合距離 D1 (例
えば、50とする)の方が、「OOTA(以下単語番号
2)」との照合距離 D2 (例えば、60とする)より
も小さくなって「OOITA」が認識結果として得られ
る場合である。この場合の入力と各単語との照合結果の
例を図7(A),(B)に示す。「OOITA」、「O
OTA」の各音素について継続時間を見てみると、それ
ぞれ、「10,10,10, 7,23」、「15,15, 7,23 」である。
【0018】( 単位:フレーム 1 フレーム=10ミリ
秒) ここで、各音素の標準継続時間が (O) (I) (T) (A) v5 = 12 , v2 = 12 , v8 = 4 , v1 = 20
(単位:フレーム) の場合、標準継続時間からのずれ Zwn = vk - dur n 式3 ( w:単語番号,n:単語モデル中のノード番号 k: 単語モデルのn番目の音素のカテゴリ番号 vk :カテゴリkの標準継続時間 durn :単語モデルのn番目の音素としたときの継続時
間 ) はそれぞれ (O) Z11 = 12 - 10 = 2 (O) Z21 = 12 - 15 = -3 (O) Z12 = 12 - 10 = 2 (O) Z22 = 12 - 15 = -3 (I) Z13 = 12 - 10 = 2 (T) Z23 = 4 - 7 = -3 (T) Z14 = 4 - 7 = -3 (A) Z24 = 20 - 23 = -3 (A) Z15 = 20 - 23 = -3 単位:フレーム となる。これを図に示したものが図7(C)である。
【0019】入力の音声が速く発音されたり遅く発音さ
れたりした場合には各音素について標準継続時間からの
ずれは一方向へのずれであるが、別の単語と照合した場
合には、ずれの方向(および大きさ)がばらつくことを
示す。
【0020】以上のように、照合距離が小さくても、継
続時間に関して平均からのばらつきが大きい場合には照
合結果が正しくない場合がある。本発明は、継続時間に
関して平均からのばらつきを考慮することにより、認識
率を高くした音声認識装置を実現することを目的として
いる。
【0021】
【課題を解決するための手段】図1は本発明の原理ブロ
ック図である。従来の音声認識装置に対して、入力音声
パターンを音素に分割する分割部6と、標準継続時間と
のずれの分散を計算する時間長ずれ計算部7と、照合距
離を補正する距離補正部8とを備える。
【0022】
【作用】従来の音声認識装置で誤った認識結果を得る原
因として、各音素について標準継続時間とのずれのばら
つきを考慮せずに照合距離を用いていたことがあげられ
る。
【0023】上記問題を解決するため、各音素について
標準継続時間とのずれの分散SDw を算出し、 ( ave Zw : 標準継続時間からのずれZwnの平均) 補正距離として従来の照合距離Dw に加える。
【0024】 NDw = Dw +k SD w ( k:比例定数) 式5 これにより継続時間のずれのばらつきを考慮した、類似
度をより正確に表す新たな照合距離NDw を求めたこと
になる。
【0025】図3に分割部6の動作説明図を示す。図3
(A)は入力を「OOITA」と対応させたときのDP
パスを示す。各格子点はそこまでの累積距離の最低値D
inを示し、全体で最も短い累積距離となる経路を枠と矢
印で示すものである。
【0026】図3(B)は、各格子点で、式2の累積距
離Dinが最低値になるときの継続時間yの値 Yinを示
す。分割部6はこのYinを照合部5から受け取り記憶す
る。これを照合後に、図3(B)に示すように終端(語
尾)から始端(語頭)に向かって経路を後戻りすること
で音素に分割する。こうして単語モデルの各ノードに対
応させたときの音素の継続時間{ durn }を得る。
【0027】時間長ずれ計算部7は、式3により、分割
された音素の継続時間 durn と継続時間記憶部3から得
た標準継続時間vk との差Zwnを計算し、さらに式4に
より、ずれの分散SDw を求める。
【0028】距離補正部8は式5により、ずれの分散SD
w を加えて補正した照合距離NDwを算出し、距離の近
さ一位の単語を認識結果とする。このように構成するこ
とにより、より正確な認識結果を得ることができる。
【0029】なお、ずれの分散SDw を求める場合、実用
上は対象とする音素を限定したり対象単語を限定して処
理時間を短くできる。
【0030】
【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。図2は本発明の実施例のブロック図であ
る。図1、図4と同一機能のものは、同一の符号を付し
て示す。
【0031】図2において、1はスペクトル分析部であ
り、AD変換器、FFT演算回路等と分析結果を記憶す
る記憶部よりなる。2は音素テンプレート記憶部、3は
継続時間記憶部、4は単語モデル記憶部であり、前記の
分析結果の記憶部と共にEWS(エンジニアリングワー
クステーション)の記憶部に置く。5は照合部、6は分
割部、7は時間長ずれ計算部、8は距離補正部でEWS
のプロセサおよびソフトウェアで構成される。
【0032】動作手順を以下に示す。 スペクトル分析部1ではスペクトル分析し、結果A=
{aij}を保持する。分析単位としてはフレーム長は10
ミリ秒程度、周波数区分は200 〜5000Hz程度の帯域を20
チャネル程度に分割し、その分割範囲のパワー値を値と
する。 音素テンプレート記憶部2、継続時間記憶部3、単語
モデル記憶部4に記憶した、音素テンプレートB={b
klj }、単語モデルC={cwn}、継続時間の最小長、
最大長{sk , tk }、重みG={gkm} を用いて、
照合部5でDP照合を行い、D ={Dw }を得る。カ
テゴリ数は20程度、テンプレート数は10程度、単語モデ
ル数は1000程度である。ここまでは従来技術と同じであ
る。 次に、分割部6で照合結果を用いて図3に示すように
入力音声を各音素に分割して音素の継続時間を決定し、 時間長ずれ計算部7で各音素について標準からのずれ
の分散を計算し、 距離補正部8で照合距離を時間長ずれ計算部7で計算
した結果を用いて補正する。
【0033】例えば前記の『オオタ』の場合には、「O
OITA」に関するずれはばらついているので距離を大
きくし、「OOTA」についてはずれのばらつきが全く
ないので距離はそのままとする。具体的には各照合距離
は, ND1 = D1 + k SD1 = 50 + 2×6 = 62 ND2 = D2 + k SD2 = 60 + 2×0 = 60 (aveZ : 標準継続時間からのずれZの平均) のように計算することができ、ND2 より小さいものが
ない(この場合他の単語モデルとの照合距離D3 〜はず
っと大きいとする)ので、照合結果は『オオタ』と正し
くすることができる。
【0034】本実施例では、音素選択部9、単語選択部
10を加えてある。もちろん、どちらか一つだけでもよ
い。音素選択部9では標準とのずれを計算すべき音素を
限定する。これは継続時間の短い子音に比べて、母音等
の方が顕著にずれが見られるからである。例えば、母音
だけに限定すれば、処理時間が短くなる。
【0035】単語選択部10では距離補正を行う単語を限
定する。これはすべての単語モデルについて距離補正を
行う必要はなく、照合距離Dw の上位のもの(正しい認
識結果となる可能性の高いもの)について行えば充分で
あるからである。上位の数単語についてのみ補正するな
ら処理時間は少なくてよい。
【0036】例えば、 距離Dw が域値以下の単語について 距離Dw が小さい順に上位n位までの単語について 1位との距離Dw の差が域値以下の単語について 順位が1つ上の単語との距離Dw の差が域値以下の
単語について 距離補正を行うなどでよい。
【0037】
【発明の効果】以上詳細に説明したように、本発明によ
れば従来の照合方式の後処理として継続時間のずれを照
合距離に反映させることで、より精密な照合が可能とな
り、認識率の高い音声認識装置を実現することができ
る。
【図面の簡単な説明】
【図1】本発明の原理ブロック構成図である。
【図2】本発明の実施例のブロック構成図である。
【図3】分割部の動作説明図である。
【図4】従来の音声認識装置のブロック構成図である。
【図5】照合データを示す図である。
【図6】DP法による照合の概念図である。
【図7】照合結果の例を示す図である。
【符号の説明】
1 スペクトル分析部 2 音素テンプレート記憶部 3 継続時間記憶部 4 単語モデル記憶部 5 照合部 6 分割部 7 時間長ずれ計算部 8 距離補正部 9 音素選択部 10 単語選択部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭63−104098(JP,A) 特開 昭51−40805(JP,A) 特開 昭60−202493(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 15/10 G10L 15/12

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声のスペクトル分析を行い、特徴
    時系列データとして記憶するスペクトル分析部と、 音素あるいは音素に準ずる音声単位の特徴データを記憶
    する音素テンプレート記憶部と、 音素あるいは音素に準ずる音声単位の標準継続時間分布
    を記憶する継続時間記憶部と、 単語あるいは単語に準ずる音声単位のモデルを記憶する
    単語モデル記憶部と、 入力音声のスペクトル分析結果と単語モデルの照合を音
    素テンプレートと継続時間分布を用いて継続時間制御を
    行い照合する照合部とを有する音声認識装置において、 照合結果を用いて入力音声を音素あるいは音素に準ずる
    音声単位に分割する分割部と、 分割した音素あるいは音素に準ずる音声単位の継続時間
    と標準継続時間とのずれを計算する時間長ずれ計算部
    と、 この計算結果を用いて照合距離を補正し、補正後の照合
    距離に基づいて最終的な認識結果を出力する距離補正部
    とを有することを特徴とする音声認識装置。
  2. 【請求項2】 継続時間と標準継続時間とのずれを計算
    するべき音素あるいは音素に準ずる音声単位を特定す
    る、音素選択部を有することを特徴とする請求項1記載
    の音声認識装置。
  3. 【請求項3】 距離補正を行うべき単語あるいは単語に
    準ずる音声単位を、照合距離があらかじめ定めた域値以
    下のものとする単語選択部を有することを特徴とする請
    求項1記載の音声認識装置。
  4. 【請求項4】 距離補正を行うべき単語あるいは単語に
    準ずる音声単位を、照合結果の順位があらかじめ定めた
    順位以内のものとする単語選択部を有することを特徴と
    する請求項1記載の音声認識装置。
  5. 【請求項5】 距離補正を行うべき単語あるいは単語に
    準ずる音声単位を、照合結果の順位が1位の単語の照合
    距離との照合距離の差が予め定めた域値以下の単語とす
    る単語選択部を有することを特徴とする請求項1記載
    音声認識装置。
  6. 【請求項6】 距離補正を行う単語あるいは単語に準ず
    る音声単位を、照合結果の順位が1つ上の単語の照合距
    離との照合距離の差があらかじめ定めた域値以下である
    ものまでとする単語選択部を有することを特徴とする請
    求項1記載の音声認識装置。
JP16516392A 1992-06-24 1992-06-24 音声認識装置 Expired - Fee Related JP3353334B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16516392A JP3353334B2 (ja) 1992-06-24 1992-06-24 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16516392A JP3353334B2 (ja) 1992-06-24 1992-06-24 音声認識装置

Publications (2)

Publication Number Publication Date
JPH064096A JPH064096A (ja) 1994-01-14
JP3353334B2 true JP3353334B2 (ja) 2002-12-03

Family

ID=15807067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16516392A Expired - Fee Related JP3353334B2 (ja) 1992-06-24 1992-06-24 音声認識装置

Country Status (1)

Country Link
JP (1) JP3353334B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0659322B2 (ja) * 1992-04-04 1994-08-10 久光製薬株式会社 皮膚貼着型低周波治療器
WO2005004110A1 (ja) * 2002-04-24 2005-01-13 Onso System Institute 音相解析方法及び音相解析装置
JP4906776B2 (ja) * 2008-04-16 2012-03-28 株式会社アルカディア 音声制御装置

Also Published As

Publication number Publication date
JPH064096A (ja) 1994-01-14

Similar Documents

Publication Publication Date Title
EP0387602B1 (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
EP0109190B1 (en) Monosyllable recognition apparatus
US20030200086A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US5987409A (en) Method of and apparatus for deriving a plurality of sequences of words from a speech signal
CN110808049B (zh) 语音标注文本修正方法、计算机设备和存储介质
US7171362B2 (en) Assignment of phonemes to the graphemes producing them
JP2841404B2 (ja) 連続音声認識装置
JP3353334B2 (ja) 音声認識装置
JP2002358097A (ja) 音声認識装置
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
US6195638B1 (en) Pattern recognition system
JP2004191705A (ja) 音声認識装置
JPH08328583A (ja) 音声認識装置
JP3400474B2 (ja) 音声認識装置および音声認識方法
JP2738403B2 (ja) 音声認識装置
JP3322536B2 (ja) ニューラルネットワークの学習方法および音声認識装置
JP2574242B2 (ja) 音声入力装置
JPH0638198B2 (ja) 連続音声認識装置
US6708151B1 (en) Reference pattern generating apparatus and method, and computer readable medium having reference pattern generating program embodied thereon
JP2995941B2 (ja) 不特定話者用音声認識装置
JPH10143190A (ja) 音声認識装置
JPH05197397A (ja) 音声認識方法及びその装置
JPH0556515B2 (ja)
JPH067349B2 (ja) 音声認識方式
Kroul Automatic Speech Segmentation Based on HMM

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020827

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080927

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080927

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090927

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090927

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100927

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees