JPH0634185B2

JPH0634185B2 - 入力語認識装置

Info

Publication number: JPH0634185B2
Application number: JP57048183A
Authority: JP
Inventors: フランク・クリストフア−・ピアツ; ロ−レンス・リチヤ−ド・ラビナ−; ジエイ・ゴ−ドン・ウイルポン
Original assignee: AT&T Technologies Inc
Current assignee: AT&T Corp
Priority date: 1981-03-27
Filing date: 1982-03-27
Publication date: 1994-05-02
Anticipated expiration: 2009-05-02
Also published as: US4400828A; JPS57176100A

Description

【発明の詳細な説明】本発明は、音声解析システムに関し、特に、語認識装置
に関する。

語認識装置は、通信システム、データ処理システム、制
御システム等に対する直接的入力を可能にする。このよ
うな装置は、通常、基準語彙をデジタルパターン又はテ
ンプレート（標準）として蓄えている。書かれた、ある
いは話された入力は、デジタル形式に変換され、基準語
と比較されて識別される。しかし、入力語を、類似した
基準の１つとして正確に判別することが困難であること
が多い。一例として、アルファベット文字を発音したも
のを基準語語彙とした場合、音声的類似のために識別が
妨げられる。すなわち、文字“Ｘ、Ｓ及びＦ”や、文字
“Ｂ、Ｃ及びＤ”は音声的に混同しやすく正確に区別す
ることが困難である。

ジイー・デイー・バルム氏（Ｇ．Ｄ．Balm）による米国
特許第４．０５８，７９５号で述べられている従来技術
の文字認識器では、入力文字の判別に疑問が生じると、
その前後の文字を考慮することにより解決を試みてい
る。この前後の文字は、その混同時の表に従ってグルー
プに類別されている。このグループを用いて文脈コード
が決定される。文脈コードにより、疑問のある入力文字
を正しく識別するものとして、グループの要素の１つが
選択される。このバルム（Balm）による構成方法では、
正確に認識された文字が、疑問のある文字をはさんでい
るものと仮定されている。しかし、隣の入力文字の識別
も疑しい場合もある。従ってバルム（Balm）による文脈
形解析にも限界がある。

星野等による米国特許第４．０２７．２８４号における
機械印字文字の認識システムでは、複数の基準パターン
が、共通のパターン要素を持つ文字のグループに分割さ
れている。その共通パターン要素が各グループの標準パ
ターンを定義している。入力文字との間の差が定められ
た値より小さい標準パターンが決定される。つぎに、決
定されたグループ内の文字の共通でないパターン要素と
入力文字との間が取られる。この差の値が最も小さい文
字が入力を識別するものとして選ばれる。この星野によ
るシステムは、機械印字文字のように共通でないパター
ン要素の数が固定されている場合には、認識の正確さを
改善することができる。しかし、共通でない要素が可変
であるような類似の文字を区別することはできない。

従って、本発明の目的は、類似していて混同しやすい基
準語彙内の１つの語として入力文字を識別できるような
改善された装置を提供することにある。

本発明は、一群の基準語の１つとして入力語を認識する
装置を目的としている。入力語と各基準語との対応性を
表わす語距離信号が作られる。荷重語距離信号も作られ
る。この語距離信号及び荷重語距離信号に応動して、入
力語に最も良く対応する基準語が選ばれる。

本発明の一実施例では、一群の基準語がその音声的類似
性に従って予め定めたクラスに分類されている。基準語
に対応する基準語特徴パターンが蓄えられている。この
特徴パターンは固定された数の時間フレームから成る。
話された入力語はデイジタル符号化される。符号化され
た語に応動し、一定数の時間フレームから成る入力語特
徴パターンが作られる。入力語特徴標準と各基準語特徴
パターンとの間の各フレームにおける対応の程度を表わ
す一群のフレーム距離信号が作られる。このフレーム距
離信号が結合されて、入力語と各基準語との対応の程度
を表わす語距離信号となる。この語距離信号に応動し
て、入力語に最も良く対応するクラスが選ばれる。予め
定められて蓄積されている一群の荷重パターンは、同じ
クラスに属する基準語の間のフレーム毎の期待される類
似性を表わしている。選択されたクラスに属する荷重パ
ターンとフレーム距離信号とが結合されて、荷重語距離
信号が得られる。入力語に最も良く対応する荷重語距離
信号が識別される。この識別された荷重語距離信号が、
入力語を認識する最良の候補となる基準語であるものと
指定される。

第１図は本発明の一実施例である語認識器１００の一般
的ブロック図を示している。第１図のシステムは、話さ
れた会話音を識別するのに用いることができる。あるい
は、語認識器が、たとえば汎用計算機と読出し専用メモ
リ（ＲＯＭ）とを含み、第１図に関して述べる信号処理
機能をこれらに行わせることも可能である。

音声は特徴信号発生器１０１の入力に印加され、当業者
には公知の線形予測分析に基づいて音声特徴信号Ｔに変
換される。これとは別に、スペクトル信号、フオルマン
ト信号、あるいは他の特徴信号を用いることもできる。
特徴信号Ｔは、線形時間ワープ１０２において、例えば
４０時間フレームの標準の長さに正規化される。信号処
理におけるこの正規化の方法は、アイ．イ．イ．イ．音
響上の処理、スピーチ及び信号処理誌（IEEE Transacti
ons on Acoustics,Speech,and Signal Processing）の
ＡＳＳＰ−２９巻、６２２−６３５頁、１９８０年１２
月号のシー．エス．メイヤ（Ｃ．Ｓ．Myers）、エル．
アール．ラビニア（Ｌ．Ｒ．Rabiner）及びエイ．イ．
ローゼンバーグ（Ａ．Ｅ．Rosenberg）著の論文“Pevfo
rmance Tradeoffe in Dynamic Time Warping Algorithm
for Isolated Word Recognition”に示されている。

正規化された入力特徴信号は入力特徴メモリ１０４に蓄えられる。

のカッコ内のｋは入力の特定のフレームを指す指標であ
る。ｋの範囲はｋ＝０、１、…Ｋで与えられる。本実施
例では、４０の時間フレームがあり、Ｋは３９に等し
い。基準語に対して予め得られている特徴標準が基準特徴メモリ１０３に蓄えられている。以下、特徴
標準とは特徴パターン又は特徴テンプレートと同義語と
理解されたい。

の添数ｉは特定の基準語を指す指標であり、カッコ内の
ｋは、前と同じように、フレームを指定する。ｉの範囲
はたとえばｉ＝０、１、…、Ｉで与えられる。この上限
Ｉは、例えば３８に等しく、この場合、基準語はアルフ
ァベット２６文字と、数字の０乃至９と、指令語“ＳＴ
ＯＰ”、“ＥＲＲＲ”及び“ＲＥＰＥＡＴ”とを含ん
でいる。しかし、実施例の説明においては、基準語の語
彙としては、Ａ、Ｂ、Ｃ、Ｄ、Ｆ、Ｊ、Ｋ、Ｓ、Ｘ、
６、８、及びＲＥＰＥＡＴの１２ケの語から成るものと
する。よって、ｉの範囲はｉ＝０、１、…、１１で与え
られる。

入力特徴信号を一群の基準特徴標準と比較することにより、フレーム距離発生器１０５にお
いて、一群のフレーム距離信号ｄ_ｉ(k)が得られる。こ
のフレーム距離信号ｄ_ｉ(k)を得るために、距離発生器
１０５において、当業者には公知の動的時間ワープ信号
処理方法を用いることができる。

フレーム距離信号ｄ_ｉ(k)は語距離発生器２００及び荷
重フレーム距離発生器５００に印加される。語距離発生
器２００において、フレーム距離信号ｄ_ｉ(k)が統合さ
れて、語距離信号Ｄ_ｉになる。ただし、指標ｉはｉ＝
０、１、…、１１をとる。語距離信号Ｄ_ｉに応動して、
最小語距離選択器３００において、最小語距離信号Ｄmi
nと、これに対応する語指標信号ｉ_minが得られる。この
最小語指標信号ｉminに応動して、音声等価クラス信号
φminがクラス比較論理４００で得られる。

荷重フレーム距離発生器５００において、距離信号ｄ_ｉ
(k)が荷重標準と結合され、荷重フレーム距離信号が得られる。音声等価クラスφminに属する語ｉの各々
に対する荷重フレーム距離信号が語距離発生器２００で結合されて荷重語距離信号が得られる。最小語距離選択器３００において、荷重語
距離信号から最小荷重語距離信号が選ばれる。これに対応する語指標信号が応用装置１０６に出力される。信号は入力を識別するのに最良の候補となる基準語を指定す
る。

制御器１６０は、例えばデータジエネラルコーポレ
ーシヨン（Data General Corporation）から１９７９に
発行されたマイクロプロダクトハードウエアシステ
ム（Microproducts Hardware Systms）に記されている
ようなマイクロプロセッサ、あるいは当業者には公知の
他のマイクロプロセッサシステムで実現できる。このマ
イクロプロセッサは付随する読出し専用メモリに蓄えら
れた命令コードに従って動作する。この命令コードの例
として、フオートラン言語で書かれたものを付録１に示
す。

語認識器１００の回路の動作が第６図の流れ図６００で
示されている。第６図の動作ブロック６０２で示したよ
うに、応用装置１０６からの信号ＳＴＡＲＴに応動し
て、制御器１６０は語認識器１００の動作を開始させ
る。

語認識器１００は、２つのモードＡ、Ｂのうちの１つで
動作するが、これは制御器１６０からの信号ＡＢＭＯＤ
Ｅによって決定される。信号ＡＢＭＯＤＥが、第６図の
動作ブロック６０４で示すように真であると、モードＡ
となり、偽であるとモードＢとなる。

モードＡの動作において、語カウンタ１４０及びフレー
ムカウンタ１５０は、制御器１６０からの信号ＳＥＴＷ
Ｃ及びＳＥＴＦＣによって初期値ゼロにセットされる。
語カウンタ１４０からの語指標信号ｉ及びフレームカウ
ンタ１５０からのフレーム指標信号ｋは、これによって
ともにゼロになる。制御器１６０からの信号ＳＥＴＬＰ
Ｎに応動して、第３図のラッチ３２０はその最大数にセ
ットされる。この初期化動作は第６図の動作ブロック６
０６及び６０８に示されている。

第１の基準語の第１のフレームに対応する指標信号ｉ及
びｋに応動して、基準特徴信号が基準特徴メモリ１０３から出力される。入力語の第１
のフレームに対応する指標信号ｋに応動して、入力特徴
信号が入力特徴メモリ１０４から出力される。第６図の動作
ブロック６１０に示したように、制御器１６０からのＤ
ＴＷＳＴＲＡＴ信号に応動して、フレーム距離発生器１
０５において、特徴信号及びから距離信号ｄ_０(0)が決定される。動作ブロック６１
２に示した、発生器１０５からの信号ＤＴＷＤＯＮＥ
は、フレーム距離信号ｄ_０(0)が作られた後で制御器１
６０に印加される。フレーム距離信号ｄ_ｉ(k)は動作ブ
ロック６１４で示したように累積されるが、これについ
ては、語距離発生器２００に関連して説明する。信号Ｄ
ＴＷＤＯＮＥに応動して、制御器１６０からの信号ＩＮ
ＣＦＣがフレームカウンタ１５０に印加され、フレーム
指標信号ｋをｋ＝１に増分する。これは動作ブロック６
１６に示されている。制御器１６０からのＤＴＷＳＴＡ
ＲＴ信号に応動して、フレーム距離信号ｄ_０(1)がフレ
ーム距離発生器１０５で作られる。信号ｄ_０(1)が作ら
れた後、信号ＤＴＷＤＯＮＥが発生器１０５から出力さ
れる。さらにフレーム指標信号ｋが増分され、判定ブロ
ック６１８で示すように、処理が繰返えされて、最終的
に４０ケのフレーム距離信号ｄ_０(k)、ｋ＝０、１、
…、３０が得られる。ｋ＝３９になると、フレームカウ
ンタ１５０は信号ＥＫを出力する。この信号ＥＫに応動
し、制御器１６０からの信号ＥＮＷＤＳが印加されて、
語距離信号の比較が付勢される。これは動作ブロック６
２０に示されているが、最小語距離選択器３００に関連
して後述する。動作ブロック６２２で示すように制御器
１６０からの信号ＩＮＣＷＣが印加されて語カウンタ１
４０の出力ｉが増分される。このｉが最終の語でない
と、４０ケの新しいフレーム距離信号が作られる。これ
は判定ブロック６２４に示されている。このようにし
て、語指標信号ｉの０乃至１１について、フレーム距離
信号ｄ_ｉ(k)が作られる。

カウンタ１４０及び１５０からの指標信号ｉ及びｋは第
５図のＲＡＭ５１０のアドレス端子にも印加される。Ｒ
ＡＭ５１０は、たとえばテキサスインストルメント（Te
xas Instruments）社で作られている７４Ｓ２０７型回
路で実現できる。発生器１０５からのフレーム距離信号
ｄ_ｉ(k)はＲＡＭ５１０のデータ端子に印加される。信
号ＬＤＷＤＧ及びＡＢＭＯＤＥが制御器１６０からナン
ドゲート５４０の入力に印加される。このナンドゲート
５４０の出力は偽であり、これがＲＡＭ５１０のＲ／
端子に印加される。これによって、ＲＡＭ５１０は、モ
ードＡにおいて、信号ｉ及びｋで指定される位置にフレ
ーム距離信号ｄ_ｉ(k)を蓄える。このフレーム距離信号
ｄ_ｉ(k)は、後でモードＢ動作中にＲＡＭ５１０から取
り出される。

モードＡ動作中、第２図の語距離発生器２００におい
て、制御器１６０からの信号ＡＢＭＯＤＥがマルチプレ
クサ２１０の選択端子Ｓに印加され、これによってマル
チプレクサ２１０のＡ入力が選択される。マルチプレク
サ２１０は、例えば、テキサス・インストルメント（Te
xas Instruments）社で作っている７４１５７型回路で
実現できる。マルチプレクサ２１０のＡ端子に印加され
るフレーム距離信号ｄ_ｉ(k)入力がこのマルチプレクサ
のＱ端子に出力され、加算器２２０のＡ入力に印加され
る。加算器２２０は、例えば、テキサスインストルメン
ト（Texas Instruments）社で作っている７４２８３型
回路で実現できる。加算器２２０のＢ入力は、ラッチ２
３０のＱ出力に接続されている。ラッチ２３０は、例え
ばテキサスインストルメント（Texas Instruments）社
で作っている７４２７３型回路で実現できる。ラッチ２
３０のＤ入力端子は加算器２２０のＱ出力に接続されて
いる。加算動作を行う時、ラッチ２３０は第６図の動作
ブロック６０８で示されているように、制御器１６０か
らの信号ＣＬＲＷＤＧによってクリアされる。距離信号
ｄ_ｉ(k)の各々が作られた後、制御器１６０からの信号
ＬＤＷＤＧがラッチ２３０の置数端子に印加される。こ
れは動作ブロック６１４に示されている。このようにし
て、４０ケのフレーム距離信号の和が加算器２２０及び
ラッチ２３０でとられてその合計が計算され、語距離信
号Ｄ_ｉとなる。次の語ｉに対しても、ラッチ２３０が再
び信号ＣＬＲＷＤＧにによってクリアされ、加算動作が
繰返えされる。このようにして全部で１２ケの語距離信
号Ｄ_ｉがｉ＝０、１、…、１１について作られる。

次に第３図の最小語距離選択器３００において、語距離
信号Ｄ_ｉの各々が作られた時に、これが比較３１０のＡ
入力と、ラッチ３２０のＤ入力とに印加される。比較器
３１０は、例えばテキサスインストルメント（Texas In
struments）社で作っている７４８５型回路で実現でき
る。ラッチ３２０のＱ出力は比較器３１０のＢ入力に印
加されている。動作ブロック６０６に関して前述したよ
うに、ラッチ３２０は、最初制御器１６０からの信号Ｓ
ＥＴＬＰＮによってその最大数にセットされている。次
に続くＤ_ｉ信号がラッチ３２０内の現在の値よりも小さ
いと、比較器３１０のＢ＞Ａ出力からの真の信号がアン
ドゲート３４０に印加される。アンドゲート３４０は、
モードＡ動作中において制御器１６０からの信号ＥＮＷ
ＤＳによって付勢されている。アンドゲート３４０の出
力により、ラッチ３２０は次に続くＤ_ｉ信号の値を取り
込む。アンドゲート３４０の出力はラッチ３３０も付勢
し、カウンタ１４０から送られ、ラッチ３２０に取り込
まれた語距離信号Ｄ_ｉに対応する指標信号ｉをラッチ３
３０に置数する。このように、比較器３１０、ラッチ３
２０及び３３０によって、ｉ＝０から１１に対するすべ
ての語距離信号Ｄ_ｉから、最小語距離信号Ｄ_min及び対
応する指標信号ｉ_minが得られる。

表１は、一例として、可能な語距離信号と対応する語指
標信号とを示している。語距離信号Ｄ_９は14.8に等し
く、表内のすべての中で最小の大きさを持っている。従
って、最小語距離信号Ｄ_minは14.8に等しく、また対応
する最小語指標ｉ_minは９に等しい。

第４図のクラス比較論理４００において、ラッチ３３０
からの指標信号ｉminがマルチプレクサ４１０のＡ入力
に印加される。モードＡ動作において、制御器１６０か
らの信号ＡＢＭＯＤＥは真であり、マルチプレクサ４１
０のＡ入力が選択される。これによって、指標信号ｉ
_minはマルチプレクサ４１０のＱ端子に出力され、ＲＯ
Ｍ４２０のアドレス端子Ａに印加される。

予め決定された音声等価クラス信号φ_ｎはＲＯＭ４２０
に蓄えられている。ＲＯＭ４２０は例えばテキサスイン
ストルメント（Texas Instruments）社で作っている７
４Ｓ２８７型回路で実現できる。音声等価クラス信号の
各各は、音声認識の妨げとなるような予め定めた類似性
を持つ基準語のグループを表わしている。本実施例の１
２ケの基準語は、一例として表２に示すように、混同す
る恐れのある３グループの語に分割されており、それぞ
れ音声等価クラス信号φ_０、φ_１及びφ_２によって指定
される。

指標信号ｉ_minがＲＯＭ４２０のアドレス入力Ａに印加
されると、表２にあるようなこれに対応する最小音声等
価クラス信号φ_minがＲＯＭ４２０のＱ端子に出力され
る。よって、信号ｉ_minが９である例においては、信号
φ_minはφ_２に等しい。次に制御器１６０から信号ＬＤ
ＣＣＬが印加され、ラッチ４４０はＲＯＭ４２０からの
信号φ_min＝φ_２を取り込む。このことは第６図の動作
ブロック６２６に示されている。

最小音声クラス信号φ_minがラッチ４４０に蓄えられて
しまうと、語認識器１００のモードＡ動作が終了する。
動作ブロック６２８に示されているように、制御器１６
０からの信号ＡＢＭＯＤＥが偽に変り、Ｂモードの動作
が選択される。モードＢでは、音声等価クラス信号φ
_minによって表わされる基準語に対する荷重距離信号が作られる。最小音声等価クラスの信号φ_minがφ_２に
等しい例では、ｉ＝８、９、１０及び１１に対する荷重
語距離信号が作られる。表２に示したように、信号ｉ＝８、９、１
０及び１１は音声的に似た語Ｆ、Ｓ、Ｘ及び６に対応し
ている。荷重語距離信号の最小値が決定される。信号に対応する指標信号は、入力語を識別する最良の基準語候補を指す指標とし
て、応用装置１０６へ出力される。

モードＢ動作において、語カウンタは制御器１６０から
の信号ＳＥＴＷＣによって初期値ゼロにセットされる。
制御器１６０からの信号ＳＥＴＬＰＮに応動して、第３
図のラッチ３２０はその最大数にセットされる。この初
期化動作は第６図の動作ブロック６３０に示されてい
る。次にカウンタ１４０からの信号ｉが第４図のマルチ
プレクサ４１０のＢ入力に印加される。制御器１６０か
らの信号ＡＢＭＯＤＥは、モードＢでは偽であるため、
マルチプレクサ４１０のＢ入力が選択される。よって信
号ｉはＲＯＭ４２０のアドレス入力Ａに印加される。Ｒ
ＯＭ４２０は信号ｉに応動して表２にあるような対応す
る音声等価クラス信号φ_ｎを出力する。この信号φ_ｎは
比較器４３０のＡ入力に印加される。ラッチ４４０から
の音声等価クラス信号φ_minは比較器４３０のＢ入力に
印加されている。このことは、判定ブロック６３２で示
されている。信号φ_ｎとφ_minが等しくないと、比較器
４３０からの信号ＥＱＵＡＬは偽となる。制御器１６０
からの信号ＩＮＣＷＣが語カウンタ１４０に印加されて
信号ｉが増分される。判定ブロック６３２及び６４８で
示したように、各信号ｉ＝０、１、…、１１に対して対
応する音声等価クラス信号φ_ｎが最小音声等価クラス信
号φ_minと比較される。ラッチ４４０内の最小音声等価
クラス信号φ_minがφ_２に等しい例では、信号ＥＱＵＡ
Ｌは、音声的に似た語Ｆ、Ｓ、Ｘ及び６に対応する信号
ｉ＝８、９、１０及び１１においてのみ真となる。

制御器１６０からの信号ＡＢＭＯＤＥが第５図のナンド
ゲート５４０の入力に印加されている。モードＢでは信
号ＡＢＭＯＤＥは偽であるため、ナンドゲート５４０は
真信号を出力する。ナンドゲート５４０からの真信号は
ＲＡＭ５１０のＲ／端子に印加される。これによって
ＲＡＭ５１０は、モードＢにおいては、フレーム距離信
号ｄ_ｉ(k)を出力する。

比較器４３０からの真の信号ＥＱＵＡＬに応動し、制御
器１６０からの信号ＳＥＴＦＣが印加されてフレームカ
ウンタ１５０をリセットする。制御器１６０からの信号
ＣＬＲＷＤＧに応動して語距離発生器２００内のラッチ
２３０もリセットされる。このリセット動作は第６図の
動作ブロック６３４に示されている。カウンタ１４０及
び１５０からの指標信号ｉ及びｋはＲＡＭ５１０のアド
レス端子Ａに印加される。この信号ｉ及びｋに応動し、
ＲＡＭ５１０内の対応するメモリ位置からのフレーム距
離信号ｄ_ｉ(k)が出力される。

カウンタ１４０及び１５０からの指標信号ｉ及びｋはＲ
ＯＭ５３０のアドレス端子にも印加されている。よっ
て、ｉ及びｋに応動して、予め定めた荷重標準がＲＯＭ５３０のメモリ位置から出力される。

荷重標準は、同じ音声等価クラスに属する語の間の、フレーム毎
の動的時間ワープ距離の期待値を表わしている。一例と
して、入力特徴標準が語Ｉを表わし、基準特徴標準が語
Ｙを表わしている場合について考える。語Ｙは、語Ｉの
先頭に音素／Ｗ／を付加したものであるため、ＩとＹと
の間の動的時間ワープ距離は、最初のフレームにおいて
のみ大きくなることが期待される。この例からわかるよ
うに、期待されるフレーム毎の動的時間ワープ距離は、
考えている語の対によって変化する。

荷重パターン信号は（語認識器１００のモードＡ又はＢ動作の前に）、基
準語の各々を繰返して発音することによって作られる。
繰返して発音された同じ基準語ｉに対する特徴パターン
が動的時間ワープ信号処理によって比較されて、フレー
ム距離信号ｄ_ｉ、_ｉ(k)が作られる。繰返しが結合され
て、平均フレーム距離信号〈ｄ_ｉ、_ｉ(k)〉が作られ
る。平均フレーム距離信号〈ｄ_ｉ、_ｉ(k)〉に対応し
て、分散信号▲σ² _i▼、_ｉ(k)が作られる。

基準語ｉとｊとが同じ音声クラスに属する時、基準語ｉ
と別の基準語ｊとの繰返しに対する特徴標準が動的時間
ワープ信号処理によって比較されて、フレーム距離信号
ｄ_ｊ、_ｉ(k)が作られる。この繰返しが結合されて、平
均フレーム距離信号〈ｄ_ｊ、_ｉ(k)〉が作られる。平均
フレーム距離信号〈ｄ_ｊ、_ｉ(k)〉に対応して分散信号
▲σ² _j▼、_ｉ(k)が作られる。

平均フレーム距離信号〈ｄ_ｉ、_ｉ(k)〉及び〈ｄ_ｊ、
_ｉ(k)〉、及び分散信号▲σ² _i▼、_ｉ(k)及び▲σ² _j▼、
_ｉ(k)が次の式(1)に従って結合されて、対荷重信号
Ｗ_ｊ、_ｉ(k)が作られる。

対荷重信号Ｗ_ｊ、_ｉ(k)は次の式(2)によって結合され
て、荷重パターン信号が作られ、これがＲＯＭ５３０に蓄えられる。

式(1)及び(2)に関して述べた信号の前処理は、荷重標準
信号を作るための１つの方法である。本発明の精神と範囲と
を逸脱することなく、期待距離を表わす荷重標準信号を
得るための他の信号処理方式も存在することはいうまで
もない。

第５図において、ＲＡＭ５１０からの距離信号ｄ_ｉ(k)
は乗算器５２０のＡ入力に印加される。ＲＯＭ５３０か
らの荷重標準信号は乗算器５２０のＢ入力に印加される。乗算器５２０
は、例えば、ＴＲＷ社で作られているＭＰＹ１６ＨＪ型
回路で実現できる。乗算器５２０は信号ｄ_ｉ(k)ととの積をとり、荷重フレーム距離信号を出力する。

第２図の語距離発生器２００において、制御器１６０か
らの信号ＡＢＭＯＤＥは、マルチプレクサ２１０の選択
入力Ｓに印加されている。モードＢでは信号ＡＢＭＯＤ
Ｅは偽であるため、マルチプレクサ２１０のＢ入力が選
ばれる。動作ブロック６３４に関連して述べたように、
ラッチ２３０は制御器１６０からの信号ＣＬＲＷＤＧに
よってゼロにリセットされている。次に制御器１６０か
らの信号ＬＤＷＤＧがラッチ２３０のＬ端子に印加され
る。マルチプレクサ２１０からの荷重フレーム距離信号はこれによって加算器２２０とラッチ２３０で加算され
（モードＡにおいて信号ｄ_ｉ(k)について述べたのと同
じ方法による）、荷重語距離信号が得られる。この動作は動作ブロック６３８及び６４０
及び判定ブロック６４２に示されている。

最小音声等価クラス信号φ_minがφ_２に等しい例におい
ては、比較器４３０からの信号ＥＱＵＡＬは語指標信号
ｉ＝８、９、１０及び１１においてのみ真となる。従っ
て、荷重フレーム距離信号が、それぞれフレーム指標信号ｋ＝０、１、…、３９に
ついて、加算器２２０及びラッチ２３０で加算され、荷
重語距離信号となる。

第３図の最小語距離発生器３００において、語距離発生
器２００からの荷重語距離信号は、比較器３１０のＡ入力及びラッチ３２０のＤ入力に
印加される。動作ブロック６３０に関して述べたよう
に、ラッチ３２０は最初制御器１６０からの信号ＳＥＴ
ＬＰＮに応動してその最大数にセットされている。制御
器１６０からの信号ＥＮＷＤＳに応動して、アンドゲー
ト３４０の出力が印加されて、ラッチ３２０及び３３０
が信号を取り込む。これによって最大荷重語距離信号がラッチ３２０のＱ出力に得られる（モードＡにおいて
信号Ｄ_ｉに関して述べたのと同じ方法による）。これは
動作ブロック６４４及び６４６に示されている。信号に対応する指標信号は、ラッチ３３０のＱ端子に出力される。指標信号ｉ
_minは応用装置１０６に印加され、入力を識別するのに
最も良い候補となる基準語を指定する。次に、動作ブロ
ック６５０に示されているように、制御器１６０からの
信号ＤＯＮＥが応用装置１０６に印加される。

最小音声等価クラス信号φ_minがφ_２に等しい例におい
て、表３は一例として、荷重語距離信号の可能な値を示している。

荷重語距離信号は11.6に等しく、表中で最小値をとっている。従って、
最小語距離発生器３００において、最小荷重語距離信号として信号が選ばれる。第３図のラッチ３３０内の対応する指標信
号ｉが最小指標信号として出力される。

表２から明らかなように、モードＢで得られた信号は、基準語“Ｘ”に対応している。ところが、モードＡ
で得られた信号ｉ_min＝９は基準語“Ｓ”に対応してい
る。モードＢで得られる信号は、入力を識別するための最も可能性の高い候補を示し
ているものとみなすことができる。なぜなら、この信号
は、音声的に類似した語の間のフレーム毎の距離を表わ
す荷重標準信号を用いて得られているためである。

本発明について望ましい実施例を用いて説明したが、当
業者にとっては、本発明の精神と範囲を逸脱することな
く多くの修正や変更が可能であることはいうまでもな
い。たとえば、ある応用では、入力の識別の候補とし
て、順位をつけた複数のものを提供するのが望ましいこ
とがある。モードＡ動作において、語距離信号Ｄ_ｉは、
その最小値から最大値へと順位をつけることができる。
同様にモードＢにおいても、すべての音声等価クラスφ
_ｎについて荷重語距離Ｄ_ｉに、その最小値から最大値へ
順位をつけることができる。このように両方のモードで
順位つげを行うことによって、基準語候補にも順位を与
えることができる。

以上を要約すると次のようになる。

1.入力語を一群の基準語の１つとして認識するための装
置において、該基準語を表わす複数個の基準語特徴標準を蓄える手段
と、該入力語に応動して入力語特徴標準を発生する手段と、該基準語特徴標準と該入力語特徴標準とに応動して該基
準語の１つとして該入力語を識別する手段とが含まれ、さらに該入力語を識別する該手段（１００）が、該基準語特徴標準と該入力語特徴標準とに応動して一群
の語距離信号を発生する手段（１０５、２００）と、該基準語特徴標準と該入力語特徴標準とに応動して一群
の荷重語距離信号を発生する手段（１０５、２００、５
００）と、該語距離信号と該荷重語距離信号とに応動して該入力語
に最も良く対応する基準語を選択する手段（３００、４
００）とを含んでいる。

2.上記第１項の装置において、該基準語特徴標準と該入力語特徴標準とが複数個のフレ
ームから成り、該一群の語距離信号を発生する該手段が、該基準語特徴
標準と該入力語特徴標準とに応動して該基準語特徴標準
と該入力語特徴標準とのフレーム間の類似性を表わす一
群のフレーム距離信号を発生する手段と、該フレーム距離信号を結合して該語距離信号を発生する
手段とを含んでいる。

3.上記第２項の装置において、特徴標準が蓄えられている該基準語が等価クラスの予め
定めた群に属し、該クラスの各各は予め定めた類似の程
度内にある基準語を表わしており、該一群の荷重語距離信号を発生する手段が、同一の等価クラスに属する基準語の基準語特徴標準のフ
レーム間の期待される類似性を表わす複数個の荷重標準
を蓄える手段と、該フレーム距離信号と該荷重標準とに応動して荷重フレ
ーム距離信号を発生する手段と、該荷重フレーム距離信号を結合して該荷重語距離信号を
発生する手段とを含んでいる。

4.上記第３項の装置において、該入力語に最も良く対応する基準語を選択する該手段
が、該語距離信号に応動して、該入力語に最も良く対応する
語距離信号を表わす基準語の等価クラスを選択する手段
と、該荷重語距離信号に応動して、該入力語に最も良く対応
する荷重語距離信号を表わす選択された等価クラス内の
基準語を識別する手段とを含んでおり、これによって該識別された基準語が該入力語を認識する
候補となる。

5.上記第１、２又は３項の装置において、該入力語特徴標準及び該基準語特徴標準は話された語の
音声特性を表わしている。

6.上記第３又は４項の装置において、該等価クラスは音
声的に類似した基準語の群を表わしており、該フレームは時間の離散的周期を表わしている。

7.上記第６項の装置において、該基準語特徴標準及び該
入力語特徴標準の各々は同数の時間フレームから成る。

8.１つの入力語を一群の基準語の１つとして認識する方
法において、該基準語を表わす基準語特徴標準を複数個蓄えるステッ
プと、該入力語に応動して入力語特徴標準を発生するステップ
と、該基準語特徴標準と該入力語特徴標準とに応動して該入
力語を該基準語の１つとして識別するステップとが含ま
れ、該入力語を識別するステップは、該基準語特徴標準と該入力語特徴標準とに応動して一群
の語距離信号を発生するステップと、該基準語特徴標準と該入力語特徴標準とに応動して一群
の荷重語距離信号を発生するステップと、該語距離信号と該荷重語距離信号とに応動して該入力語
に最も良く対応する基準語を選択するステップとを含ん
でいる。

9.上記第８項に従って一群の基準語の１つとして入力語
を認識する方法において、該基準語特徴標準及び該入力語特徴標準の各々が複数の
フレームを持ち、該一群の語距離信号を発生する該ステップが、該基準語特徴標準と該入力語特徴標準とに応動して該基
準語特徴標準と該入力語特徴標準とのフレーム間の類似
性を表わす一群のフレーム距離信号を発生するステップ
と、該フレーム距離信号を結合して該語距離信号を発生する
ステップとを含んでいる。

10.上記第９項に従って一群の基準語の１つとして入力
語を認識する方法において、特徴標準が蓄えられる該基準語が等価クラスの予め定め
た群に属し、該クラスの各々は予め定めた類似の程度内
にある基準語を表わしており、一群の荷重語距離信号を発生する該ステップが、同一の等価クラスに属する基準語の基準語特徴標準のフ
レーム間の期待される類似性を表わす複数個の画集標準
を蓄えるステップと、該フレーム距離信号と該荷重標準とに応動して荷重フレ
ーム距離信号を発生するステップと、該荷重フレーム距離信号を結合して該荷重距離信号を発
生するステップとを含んでいる。

11.上記第１０項に従い一群の基準語の１つとして入力
語を認識する方法において、該入力語に最も良く対応する基準語を選択する該ステッ
プが、該語距離信号に応動して、該入力語に最も良く対応する
語距離信号を表わす基準語の等価クラスを選択するステ
ップと、該荷重語距離信号に応動して、該入力語に最も良く対応
する荷重語距離信号を表わす選択された等価クラス内の
基準語を識別するステップとを含んでおり、これによって該識別された基準語が該入力語を認識する
候補となる。

12.上記第８、９又は１０項に従って一群の基準語の１
つとして入力語を認識する方法において、該入力語特徴標準及び該基準語特徴標準は話された語の
音声特性を表わしている。

13.上記第１０又は１１項に従って一群の基準語の１つ
として入力語を認識する方法において、該等価クラスは音声的に類似した基準語の群を表わして
おり、該フレームは時間の離散的周期を表わしている。

14.上記第１３項に従って一群の基準語の１つとして入
力語を認識する方法において、該基準語特徴標準及び該
入力語特徴標準の各々は同数の時間フレームから成る。

15.話された入力語を一群の基準語の１つとして認識す
る装置において、該基準語の音声的特性を表わす複数個の基準語特徴標準
を蓄える手段と、該入力語に応動し該入力語の音声的特
性を表わす入力語特性標準を発生する手段と、該基準語
特徴標準及び該入力語特徴標準に応動して該入力語を該
基準語の１つとして識別する手段とが含まれ、該入力語
識別手段が、該基準語特徴標準と該入力語特徴標準とに
応動して一群の語距離信号を発生する手段と、該基準語
特徴標準と該入力語特徴標準とに応動して一群の荷重語
距離信号を発生する手段と、該語距離信号と該荷重語距
離信号とに応動して該入力語に最も良く対応する基準語
を選択する手段とを含んでいる。

16.上記第１５項の装置において、該基準語特徴標準と
該入力語特徴標準とはともに複数個のフレームを持ち、
特徴標準を蓄えている該基準語が等価クラスの予め定め
た群に属し、該クラスの各々は予め定めた類似の程度内
にある基準語を表わしており、該一群の語距離信号を発
生する該手段が、該基準語特徴標準と該入力語特徴標準
とに応動して該基準語特徴標準と該入力語特徴標準との
フレーム間の類似性を表わす一群のフレーム距離信号を
発生する手段と、該フレーム距離信号を加算して該語距
離信号を発生する手段とを含んでおり、該一群の荷重語距離信号を発生する該手段が、同一の等
価クラスに属する基準語の基準語特徴標準のフレーム間
の期待される類似性を表わす複数個の荷重標準を蓄える
手段と、該フレーム距離信号と該荷重標準とに応動して
荷重フレーム距離信号を発生する手段と、該荷重フレー
ム距離信号を加算して該荷重語距離信号を発生する手段
とを含んでいる。

17.上記第１６項の装置において、該入力語に最も良く
対応する基準語を選択する手段が、該語距離信号に応動
して最小の語距離信号を表わす基準語の等価クラスを選
択する手段と、該荷重語距離信号に応動して最小の荷重
語距離信号を表わす選択された等価クラス内の基準語を
識別する手段とを含んでおり、これによって該識別され
た基準語が該入力語を識別する候補となる。

18.話された入力語を基準語の１つとして認識する方法
において、該基準語の音声的特性を表わす複数個の基準語特徴標準
を蓄えるステップと、該入力語に応動し該入力語の音声
的特性を表わす入力語特徴標準を発生するステップと、
該基準語特徴標準及び該入力語特徴標準に応動して該入
力語を該基準語の１つとして識別するステップとが含ま
れ、該入力語識別ステップが、該基準語特徴標準と該入
力語特徴標準とに応動して一群の語距離信号を発生する
ステップと、該基準語特徴標準と該入力語特徴標準とに
応動して一群の荷重語距離信号を発生するステップと、
該語距離信号と該荷重語距離信号とに応動して該入力語
に最も良く対応する基準語を選択するステップとを含ん
でいる。

19.上記第１８項に従い話された入力語を基準語の１つ
として認識する方法において、該基準語特徴標準と該入
力語特徴標準とはともに複数個のフレームを持ち、特徴
標準を蓄えている該基準語が等価クラスの予め定めた群
に属し、該クラスの各々は予め定めた類似の程度内にあ
る基準語を表わしており、該一群の語距離信号を発生する該ステップが、該基準語
特徴標準と該入力語特徴標準とに応動して該基準語特徴
標準と該入力語特徴標準とのフレーム間の類似性を表わ
す一群のフレーム距離信号を発生するステップと、該フ
レーム距離信号を加算して該語距離信号を発生するステ
ップとを含んでおり、該一群の荷重語距離信号を発生する該ステップが、同一
の等価クラスに属する基準語の基準特徴標準のフレーム
間の期待される類似性を表わす複数個の荷重標準を蓄え
るステップと、該フレーム距離信号と該荷重標準とに応
動して荷重フレーム距離信号を発生するステップと、該
荷重フレーム距離信号を加算して該荷重距離信号を発生
するステップとを含んでいる。

20.上記第１９項に従い、話された入力語を基準語の１
つとして認識する方法において、該入力語に最も良く対
応する基準語を選択するステップが、該語距離信号に応
動して最小の語距離信号を表わす基準語の等価クラスを
選択するステップと、該荷重語距離信号に応動して最小の荷重語距離信号を表
わす選択された等価クラス内の基準語を識別するステッ
プとを含んでおり、これによって該識別された基準語が
該入力語を識別する候補となる。

〔主要部分の符号の説明〕

入力語を識別する手段……第１図の語認識器１００語距離信号を発生する手段……第１図のフレーム距離発
生器１０５及び語距離発生器２００荷重語距離信号を発生する手段……第１図のフレーム距
離発生器１０５、語距離発生器２００、及び荷重フレー
ム距離発生器５００基準語を選択する手段……第１図の最小語距離発生器３
００及びクラス比較器４００フレーム距離信号を発生する手段……第１図のフレーム
距離発生器１０５フレーム距離信号を結合して語距離信号を発生する手段
……第１図、第２図の語距離発生器２００荷重標準を蓄える手段……第５図の荷重標準ＲＯＭ５３
０荷重フレーム距離信号を発生する手段……第１図、第５
図の荷重フレーム距離発生器５００荷重語距離信号を発生する手段……第１図、第２図の語
距離発生器２００等価クラスを選択する手段……第１図、第４図のクラス
比較論理４００基準語を識別する手段……第１図、第３図の最小語距離
選択器３００

───────────────────────────────────────────────────── フロントページの続き (72)発明者ロ−レンス・リチヤ−ド・ラビナ− アメリカ合衆国07922ニユ−ジヤ−シイ・バ−クレイ・ハイツ・シエアブルツク・ドライヴ58 (72)発明者ジエイ・ゴ−ドン・ウイルポンアメリカ合衆国07060ニユ−ジヤ−シイ・ウオ−レン・ラウンド・トツプ・ロ−ド75 (56)参考文献特開昭57−13494（ＪＰ，Ａ)

Claims

【特許請求の範囲】

【請求項１】入力語を一群の基準語の一つとして認識す
るための装置であって、該基準語を表す複数個の基準語特徴パターンを蓄える手
段と、該入力語に応動して入力語特徴パターンを発生する手段
と、該基準語特徴パターン及び該入力語特徴パターンに応動
して該基準語の一つとして該入力語を識別する手段とを
含む装置において、該一群の基準語は、予め定めた等価クラスであって、各
クラスが予め定められた音響的類似度を有する基準語か
らなるものであるような等価クラスに分類され、該基準語特徴パターン及び該入力語特徴パターンの各々
が複数のフレームを有しており、そして該入力語識別手
段（例えば、１００）が、該基準語特徴パターンと該入力語特徴パターンに応動し
て、一群の語距離信号であって、その各々が該基準語特
徴パターンのフレームと該入力語特徴パターンのフレー
ムの間における類似性を表すフレーム距離信号を結合し
たものであるような一群の語距離信号を発生する手段
（例えば、１０５、２００）と、該入力語特徴パターン、該入力語に最もよく対応するパ
ターンのクラスにおいて基準語特徴パターンを他の特徴
パターンから区別する基準語特徴パターンの１又は２以
上のフレームを強調する荷重パターン及び該クラスの基
準語特徴パターンに応動して一群の荷重された語距離信
号であって該クラスの該基準語特徴パターンと該入力語
特徴パターンとの間の類似性を表す複数のフレーム距離
信号と複数の該荷重パターンとを結合したものであるよ
うな一群の荷重された語距離信号を発生する手段（例え
ば、１０５、２００、５００）と、該語距離信号及び該荷重された語距離信号に応動して、
それらの最小値を検出し、検出された最小値に応動し
て、該入力語に最もよく対応する基準語を選択する手段
（例えば、３００、４００）とを含むことを特徴とする
入力語認識装置。
【請求項２】特許請求の範囲第１項記載の入力語認識装
置において、該入力語に最もよく対応する該基準語を選択する該手段
が、該語距離信号に応動し、該入力語に最もよく対応する該
語距離信号を表す該基準語の該等価クラスを選択する手
段と、該荷重された語距離信号に応動し、選択された該等価ク
ラス内において該入力語に最もよく対応する荷重された
語距離信号を表す該基準語を識別する手段とを含んでい
ることと、これによって該識別された基準語を該入力語の認識の候
補とすることとを特徴とする入力語認識装置。
【請求項３】特許請求の範囲第１項、又は第２項記載の
入力語認識装置において、該入力語特徴パターンと該基準語特徴パターンとが話さ
れた語の音響的特性を表していることを特徴とする入力
語認識装置。
【請求項４】特許請求の範囲第１項記載の入力語認識装
置において、該等価クラスが音響的に類似した基準語を表しているこ
とと、該フレームが時間の離散的な周期を表していることとを
特徴とする入力語認識装置。
【請求項５】特許請求の範囲第１項、第２項、第３項、
又は第４項記載の入力語認識装置において、該基準語特徴パターン及び該入力語特徴パターンの各々
が同じ数の時間フレームを持っていることを特徴とする
入力語認識装置。