JPS5842098A

JPS5842098A - 音声認識装置

Info

Publication number: JPS5842098A
Application number: JP56140525A
Authority: JP
Inventors: 外川　文雄; 厚夫田中
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1981-09-04
Filing date: 1981-09-04
Publication date: 1983-03-11
Also published as: EP0074769B1; DE3273358D1; US4581756A; JPS6332397B2; EP0074769A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は音声認識方式の改良に関し、特に入力された単
語等の音声を認識する音声認識方式に関するものである
。

一般に入力された単語等音声を認識する場合、人力され
・たＱｔ語等の音声情報を例えば音響処理して単音節音
声毎の特徴ベクトル人カバターンを得ると共に、この入
カバターンと予め記憶されていル単音ｍ　Ｔｉｔ　声標
準パターンをパターンマツチング法等により照合し、入
力された音声情報を単音節列として認識し、この認識さ
れた単音節列と単語等辞書の内容とを照合して入力され
た音声に対する゛単語を認識している。

しかし、このような方法によれば、単音筋入カバターン
と単音節音声標準パターンとの照合に際し、ある程度の
あいまいさがあり、例えば「５月晴れ１に対する音声入
力が単音節列「／ＳＡ／ＴＵ／に工／ＰＡ／ＲＥ／Ｊ　
’（第１候補）と認識される場合が多々あり、単語等の
認識率が低くなっていた。また単音筋入カバターンと単
音節音声標準パターンとの照合に際し、ある程度候補を
多く、例えば第４の単音節の認識候補としてＰＡ、ＴＡ
。

Ａ、ＢＡ等が得られる場合、このそれぞれの単音節列と
単語等辞書との照合を行なって単語等の認識率をある程
度高めることが出来るが、照合時ｆｆ［が良くなり、ま
た誤認識が多くなる問題点がちった。

本発明は」二記諸（天に鑑みて成されたものであり、？
１語等の音声認識腎おいて、アソシアトロンの連想記憶
モデルに括く連想処理により辞書照合を行なうように成
してｔｌｌ、語等の認識率及び認識処理時間を改善した
音声Ｈｐ識方式を提供することを目的とし、この目的を
達成するため、本発明は、人力された音声を音響処理し
て第１の単音節列等の認識信号列を得る認識手段と、こ
の認識手段により得られた上記の第１の認識−信号列を
アソシアトロンの連想記憶モデルに基く連想処理を行な
い修正された第２の単音節列等の認識信号列を得る連想
１処理手段と、この連想処理手段により得られた上記の
第２の認識信号列と照合される単語等辞書を備え、この
照合結果により上記入力された音声に対応する単語等を
認識するように成されている。。

以下、本発明の実施例ＶＣ″）いて詳細に説明する。

まず本発明の詳細な説明に先ケち、本発明の音声認識方
式に用いられる連想記憶モデルとその処理原理について
説明する。

アソシアトロンの連想記憶モデルは自己想起型の分゛散
型多重連憇記憶であり、欠けた或いは変形したあいまい
な入カバターンに対し、最も相関の強い記憶パターンを
出力するのがこのアソシアトロンの連想記憶モデルの基
本的な特性である。

このアソシアトロンの連想記憶モデルにおけるパターン
の記憶及び想起の原理は下記の５つの式％式％（なお以下肉太の文字はベクトルを表わす）−パター”
　　Ｘｋ　＝（Ｘｋｌ＋　ｘｋｚ・””ｋｌ＋””Ｘｋ
Ｌ　）＋Ｔ：転置　　　　　−・・・・・・（１）成分
Ｘ　ｋｅは、１，０．−１（７）８値を′！″６・　　
　　、記　憶（Ｋ個）；Ｍ＝１ｍｉｊ）＝、Ｅ’　　Ｍｋ−・
川・・−・−・（２）ｋ＝１Ｍｋ＝Ｘｋ−Ｘｋ　・・・・山・・・旧・・・・−（３
）懇　起　；　　Ｚ−φ（Ｍ−Ｙ〕・・萌・・・・・・
・・・（４）但しＹは入力、Ｚは想起パターンである。

１−記憶（１）に示されたパターンＸｋは、成分Ｘｋ。

が１．０．−１の３値をとる語長りの列ベクｌ−／しで
ある。また記憶は式（２）及び（３）ニ従ってパターン
Ｘ　の相関行列Ｍｋの多重行列Ｍとして行なう。

一方入カバターンＹに対して式（４）原び（５）に従っ
て入カバターンＹと記憶行列Ｍとの行列演算によって想
起パターンＺを想起する。但し、この想起パターンＺの
各成分は式（５）に従って量子化される。

以Ｅがアソシアトロンの連想記憶モデルにおけるパター
ンの記憶及び想起の原理であるが、このアソシアトロン
の記憶及び想起の簡単な例を第１図乃至第３図に示す。

なお、この例では記憶行列Ｍは各成分ｍ１．１を式（５
）で量子化している。

第１図は標準パターンＸにおいてＬ＝９．に−３とした
場合の３つのパターンｘｌｅ’　）（２，ｘ３Ｉｔ示し
、また図中＠は“１９口は“−ビ、１］は“０′を表わ
している。

この第１図に示された３つのパターンＸ”　＋　、　Ｘ
　２＋ｘ３　　は式Ｉ２）及び（３）によって処理され
、第２図に示す相関行列Ｍとして記憶される。一方第３
図（５）。

（ｂ）、’（ｃ）に示す入カバターンＹ（ＹＹＹ）Ａ’
　　　　ＢＩ　　　　Ｃに対し式（４）及び（５）によって記憶マトリックスＭ
との間で演算処理し、その結果として第３図（ｄ）。

（ｅ）、　（ｆ’）に示すパターンＺ（ＺＡ、ＺＢ、Ｚ
ｃ）を想起することになる。

の処理が行なわれてパターンＺが入カバターンＹより想
起される。

以上のようにしてあいまいな入カバターンＹ（ＹＡ、Ｙ
Ｒは欠けたパターンでありＹｃは変形したパターンであ
る）に対し、この入カバターンＹに最も相関の強い記憶
パターンが想起される。

本発明は、このようなアソシアトロンの連想記憶モデ）
ｖにおけるパターン修正原理、特に変形したパターンを
修正する特性を音声認識の辞書照合に適用するものであ
り、音響的に類似度の高い音声に対１〜で強い相関を与
えるようにパターンを作成することにより、」−記の連
想処理を可能としたものである。

次に本発明の一実施例を説明する。

第４図はｌｉ音節音声標準パターンを用いた音７ｉ４認
識の辞書照合部に上記の連想記憶モデ／Ｉ／に枯く連想
処理を適用した装置の処理ブロック図である。

第４図において、入力端子ｌに加えられた（ｌｔ語音声
信号は単音節認識部２に入力され名。該中ｒ″１節認識
部２は従来公知のものであり、例えば入力端子１に加え
られた単語音声信号が音響処理部３により単音節毎に特
徴抽出処理が行なわれ、各１ｉ音節毎の特徴パターンが
バッファメモリ４に一時記憶される。一方記憶装置５に
は各単音節ｍの標準パターンＰｉ（ｉ＝１〜１０２）が
記憶されており、この標準パターンＰ１が順次記憶制御
装置６により読み出されてバッファメモリ７に一時記憶
される。次いで前記のバッファメモリ４に記憶された入
力音声の！！４音節入力特徴パターンとバッファメモリ
７に記憶された標準中音節の特徴バタ、−ンがマ′ンチ
ンクｄ１算手段に加えられ、マツチング計算が行なわれ
、同様の動作が繰返されて最も近似したものが、第１候
補として、また順次近似したものが次候補として選出さ
れその結果が記憶手段９に第１の単音節認識信号列とし
て記憶される。

上記単音節認識部２において認識された第１の単音節認
識信号列を記憶している記憶手段９の内容は候補選択手
段１０を介して連想記憶部１１Ａ及び想起処理部ＪＩＢ
より成る連想処理部１１に入力され、この連想処理部１
１により第１の単音節認識信号列が修正され、そお結果
が第２の単音節認識信号列として出力されて記憶手段１
２に一時記憶される。この記憶手段１２に記憶された第
２の９１音節認識信号列と単語辞書記憶手段１３の内容
が参照手段１４により参照され、一致すればその結果が
出力部１５に出力され、不一致の場合には候補選択手段
１０を動作させて記憶手段９に記憶されている次候補の
第１の単音節認識信号列を連想処理部１１に入力するよ
うに構成されている。

」二記連想処理部１１は記憶手段１６を有しており、該
記憶部“段１６には前記したアソシアトロンの連想記憶
モデルに従って以下に述べる方法により作成された単語
辞書記憶手段１３に対応した記憶行列Ｍが記憶されてお
り、この記憶行列Ｍに従って入力される第１の単音節信
号列から第２の単音節信号列を想起して出力する。

次に記憶行列Ｍの作成方法について説明する。

まず記憶装置５に記憶され、記憶制御装置６を介して読
出された単音節禰準パターンＰ１はこの単吾節標準パタ
ーンＰ−，の相対距離分布を基にした“１″、“−１”
　の２値を成分とする語長ＬＳ−３２の符号５ｉ（ｉ＝
ｌγ１０２）に変換されてメモリー７に記憶されている
。

この単音節符号Ｓ１は単音節音声標準パターンＰ・　の
相対距離行列Ｄ（（１，ｊｌ、（ｄｉｊはｉ弔■ 音節とｊ単音節の距離）に基いて、次の方法で中音節を
語長Ｌ　Ｓ　＝　３２の符号に符号化されていム即ち最
長７ｖ巨離法による階す的クラスタリングで１０２の単
音節（あ〜ん、及びが〜びょ）を３１クラスターに区分
し、各クラスターに“１゛、““−１“　の２値を成分
とする語長３２の直交符号を割当てる。また各直交符号
を中心にハミング距離半径２Ｑ円周上に在りかつ相互相
関距離が４になる符号を同じクラスター内の各単音節に
与えてｉ単音節の符号Ｓ１を得る。このように単音節の
符°号Ｓ１を作成することにより同一クラスター内に在
る符号の相互相関距離、即ちハミング距離は４であり、
一方クラスター間に在る符号の相互ハミング距離は少く
とも１２となる。

ことで上記階層的クラスタリング法とは、１階饗で、最
小距離を与えるカテゴリｘ、ｙ２同一クラスターに併合
するとき、他のカテゴリＺとの距離ｄ（（ｘ、、ｙｌＺ
）をｄ−（Ｃｘ、　Ｖ）、　Ｚ）＝ｒｒ＋ｔ〆（ｄ（ｘ、　
Ｚ）、　ｄ（Ｙ、　ｚ）　）−（７）で定義する方法で
あり、またハミング距離とは２つの符号ａ　：　（ａＩｎ　ａ２＋　”’＊　ａｎ）　ｒ　　ｂ
　；−（ｂＩｎ　６２ｍ　”’＊ｂ　）の距離ｄＨをで定義したときの距離である。

ト記連恕記憶部１１Ａにおいて１８は単語辞書記憶手段
１３の記憶内容を符号ｓｉ　による単語パターンに変換
する符号化処理手段であり、この符号化処理手段１８に
より符号Ｓ１による単語パターンＸｋが作成される。こ
の単語パターンＸｋは単語辞書記憶手段１３に記憶され
た単語の最大単音節数Ｎ＝５としてＸｋ−（Ａ＋　＋　Ａ２ｒ　”’＋　Ａｎｅ　”；ＡＮ
、Ａ１　、　Ａ２．　・＝、　Ａｎ。

・・−ＡＮＩ　　　・・・・・・・・・・・・・・・・
・・・・・・・曲・・・・・曲・叩・（６）の如く構成
される。

ここでＡｎは第ｎ音節の単音節符号を表わし、Ａｎｉｉ
：Ａｎの反転符号を表わしている。但し、空の音節部は
成分０で構成するように成されている。

従って単語パターンＸｋは成分１．−１の出現頻度が等
しい語長Ｌ＝ＬＳ　−Ｎ・２＝３２０の列ベクトルで表
現されることになる。

上記の′様にして符号化処理手段１８によって単語辞書
記憶手段１３に記憶された辞書の単語は単語パターンＸ
ｋに変換された後、相関演算・行列多重化処理手段１９
に入力され、該相関演算・行列多重化処理手段１９によ
り上記した式（３）に従って自己相関演算が施され、更
に上記した式（２）に従って各単語に対応した相関行列
を多重して記憶行列間が作成され、このようにして作成
された記憶行列Ｖが記憶手段１６に単語情報として記憶
されている。

一方連想処理部＋１の想起処理部１１Ｂは音響処理油３
を含む単音節認識部２により出力される単音節認識信号
列を符号化処理手段２０によって符号Ｓ１による入力単
語パターンＹに変換し７、行列演算部２１において上記
した式（４）及び（５）に従って記憶手段１６に記憶さ
れている記憶行列０Ｍとの。

間で行列演算が実行されて修正された単語パターン２が
想起される。このように想起された単語パターンＺは復
号化手段２２により、単語辞書記憶手段１３に記憶され
ている情報と同一のコード体系の単音節信号列に変換さ
れて想起単音節列（第２の単音節列）として出力され、
記憶手段１２に一時記憶される。この記憶手段１２に記
憶された想起単音節列は、Ｅ述した様に参照手段１４に
より単語辞書記憶手段１３の記憶内容との間で辞書参照
が打なわれ、一致したものが参照されればその結果が出
力部１５に出力される。

上記の如き装置により単語音声の認識実験を行なった結
果、本発明による連想処理によってリジェクト率が改善
されることが確認された。

即ち対象単語として読本難い漢字語句５０単語（最大単
音節数５．平均３．２）について男性話者３名が各１０
回、単音節の離散発声で、いづれも２秒以内に発声した
合計１５００個の単語音声を音声試料として用いると共
に、表１に示す単音節認識方式で認識された単音節候補
に対し、（１）、第１候補の単音節列を辞書照合した方
法（ＩＩ）、候補順に単音節列を辞書照合した方法（Ｉ
ｌｌ）、（−ＩＩ）に本発明の連想処理を施して辞書照
合した方法の３方法′で認識実験を行なった結果、表２に示すよう
な結果が得られた。

正答率形（エラー率％）本表記以外は、リジェクト表２．単語音声認識結果 −に記憶２に示す結果より上記３方法を比較すると（Ｉ
Ｉ）は（１）より平均３６．９形、（ＩＩ＋）は（ＩＩ
）より平均１３．５％！Ｊジエクト率が改善されている
。

即ち、本発明（■の方法）によれば、例えば「五月晴れ
」という音声入力に対する単音節認識結果の第１候補「
ＳＡ」　「ＴＵ」「Ｋ■」　「ＰＡｌ［ＲＥＪに対して
本連想処理により単語辞書記憶手段１３に記憶さＫてい
る「五月晴れ」に対応【−たｒＳＡＴＵＫよりＡＲＥＪ
　が想起され、従来の方法に比べてリジェクト率及び認
識速度が改善される結果が得られた。

なお２法において候補単音節列は、単音節認識の照合距
離ｑｍｎ　（第ｎ音節の第ｍ候補ｔｌｉ音節の照合距離
）の和が小さい組合せｎの順に選定されたものが用いられた。

以上述べた様に本発明の音声認識方式における連想処理
を施すことにより単語等の辞書内容に沿って認識情れた
単音節列が有効に修正されるため認識率及び認識処理時
間が改善される等の優れた効果が生じる。

なお本発明に用いた連想記憶モデルは記憶が多重である
ため、記憶する語い数が増加すれば記憶内容がぼやけ記
憶容量に限度があるが、少数の音声標準パターンを装置
に登録するだけで、話題毎に°記憶・連想処理を行うこ
とが出来るという優れた利点があり、また単音節の距離
分布に基く、より最適な符号化によって、その修正能力
をより向上させることも可能であり、大語いの単語音声
認識に用いてより有効である。

なお本発明の実施例において連想処理は単音節ｒ′ｆ声
標準標準パターンいた単語音声認識の辞書照合処理部に
適用した例を示したが、本発明はこれに限定されるもの
でなく、例えば音韻標準パターンを用いた単語音声認識
の辞書照合処理に用いても良く、また記憶行列Ｍを階１
的に構成し、文室弔位、更には話題単位で連想処理を行
っても良い。

【図面の簡単な説明】

第１図乃至第３図は本発明の音声認識方式に用いられる
アソシアトロンの連想記ｔｆｌモデルによる連想処理過
程を示す説明図、第４図は本発明を用いた一実施例装置
の構成を示すブロック図である。１・・・中語音戸■信号の入力される入力端子、２・・
・ｔｇ音節認識部、訃・・音Ｗ憔理部、５・・・単音節標準パターン記憶装置、９・・・第１の
単音節知識信号列記憶手段、１１・・・連想処理部、１２・・・第２の単音節認識信号列記憶ｉ段１３・・・
単語辞書記憶手段、１４・・・辞書参照手段ｘ’　　　ｘｉ’　　　ｒ’ 〕・　／Ｌ６１（（：）　　　　　　　（７）

Claims

【特許請求の範囲】

１、　人力された音声を音響処理し第１の認識信号列を
得る認識手段と、該認識手段により得られた上記第１の
認識、信号列をアソシアトロンの連想記憶モデルに基く
連ｇ処理を行ない修正された第２の認識信号列を得る連
想処理手段と、該連想処理手段により得られた上記第２
の認識信号列と照合される単語等辞書を備え、−Ｆ記照
合結果によりＬ記入力された音声に対応する単語等を認
識するように成したことを特徴とする音声認識方式。