JPH0420199B2 - - Google Patents

Info

Publication number
JPH0420199B2
JPH0420199B2 JP57074464A JP7446482A JPH0420199B2 JP H0420199 B2 JPH0420199 B2 JP H0420199B2 JP 57074464 A JP57074464 A JP 57074464A JP 7446482 A JP7446482 A JP 7446482A JP H0420199 B2 JPH0420199 B2 JP H0420199B2
Authority
JP
Japan
Prior art keywords
state
sequence
vowel
word
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP57074464A
Other languages
English (en)
Other versions
JPS57185500A (en
Inventor
Eichi Hitsuchikotsuku Mairon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Scott Technologies Inc
Original Assignee
Figgie International Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Figgie International Inc filed Critical Figgie International Inc
Publication of JPS57185500A publication Critical patent/JPS57185500A/ja
Publication of JPH0420199B2 publication Critical patent/JPH0420199B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Description

【発明の詳細な説明】
この発明は、音声認識コンピユータに関し、か
つより特定的には、話者独立型認識コンピユータ
に関する。特に、この発明は、特定された応用例
のために非常に安価で製造され得る注意深く選択
された語彙を有する話者独立型の音声認識のため
に用いられるマイクロコンピユータに関する。 人の声を認識するコンピユータの使用は、この
30年間にわたつて発達してきて、増加した語彙を
認識することができる非常に複雑なコンピユータ
化されたシステムが提供されるまでに至つた。さ
らに、実質的な努力が、話者独立型認識システム
の目標に向かつて注がれてきた。 音声認識システムにおける実質的にすべての重
大な働きは、各々が異なる周波数帯を選択する、
システムフロントエンドとしての重なり合つた帯
域フイルタを介して入来する音声信号のスペクト
ル分析に基づいてなされる。その帯域フイルタの
範囲の各々における信号のレベルまたは音声のパ
ワーは、典型的には、単語またはフレーズに対し
て周波数対時間の音声マトリツクスを与えるため
に周期的な時間期間でサンプリングされる。多種
の時間正規化技術が、単語の時間期間にかかわら
ず単語を認識するために用いられてきて、かつ周
波数正規化技術が、話者からの独立性を達成する
試みにおいて用いられてきた。 もちろん、このすべての発達により、非常に複
雑でかつ費用のかかる装置が出現し、それは、音
声認識の利益を、ほとんどの消費者製品のための
価格範囲を越えるものとする。本質において、音
声認識コンピユータは、複雑な装置のための入力
システムおよび研究所の道具に限定されてきて、
そのシステムは、入力媒体として複雑な音声認識
システムの費用を正当化するために非常に高い価
格である。 この発達とともに、多種な消費者製品のための
簡単な音声認識装置の利用が看過されてきた。さ
らに、より複雑なシステムのために用いられる技
術は、ほとんどの認識システムのための記憶条件
だけで、実質的にメモリの価格それ自体がそのシ
ステムを消費者市場の範囲を越えるので、比較的
簡単な音声認識システムに役立たない。 他のシステムが、音声認識のためにスペクトル
分析を用いて認識するが、これらのシステムは、
そのシステムの語彙を広げるために、母音Uおよ
びOならびに子音TおよびBのような比較的よく
似た音声のエレメントを識別するように試みられ
てきた。 この発明は、従来典型的にとられてきたものと
は異なる音声認識の方法を採用する。話者独立型
認識と認識可能な語彙の広い選択とを可能にする
ために認識コンピユータの複雑性を増すよりもむ
しろ、この発明は、話者独立型認識と認識可能な
語彙に厳密な限定を与えることによる低価格とを
もたらす。さらに、これらのことは、英語または
外国語における他の単語との差よりもむしろ高度
に選択的な語彙の単語との間の差に集中すること
により達成される。その結果、音声認識システム
が従来価格的に効果的でなかつた多種の消費者ま
たは工業の応用例において有用である安価な単語
認識システムが得られる。 このシステムは、典型的なシステムフロントエ
ンド、すなわち帯域フイルタ群を用いることなく
これらの効果を達成する。代わりに、このシステ
ムの入力は、オーデイオ信号が予め定められた期
間内にしきい値を横切る回数の単なるカウントで
ある。このカウントは、そのような予め定められ
た期間の間音声信号のための周波数平均を与え
る。この周波数平均に基づいて、普通の音声パタ
ーンのセグメントは、摩擦音型期間、すなわち比
較的高い平均周波数内容の期間と、中度の平均周
波数内容を有する母音型期間と、零交叉データの
見地から、周波数が非常に低い無音期間とに分け
られる。しかしながら、付加的な制約がなけれ
ば、このような平均にのみ基づく音声認識システ
ムは、比較的高い誤り率を有するであろう。 この発明は、実際、認識プロセスの間に音声パ
ターン内で1つの状態から別な状態に変わるため
に克服されなければならないヒステリシスを導入
することによつてその誤り率を有意義に減ずる。
このヒステリシスは、摩擦音型音声および母音型
音声ならびに無音の間の移り変わりにおいておい
てさもなくば生ずるであろう誤状態変化を避け、
かつしたがつて誤つたシーケンスの状態変化の発
振を回避する。特定的には、母音型音声から摩擦
音型音声への移り変わりに対して、10ミリ秒の期
間で24よりも大きな零交叉カウントを生ずるに
は、2400ヘルツ以上のエネルギの優位性が必要で
あると判断される。他方、無音状態から摩擦音型
状態への移り変わりは、音声エネルギの優位性が
1600ヘルツを越えることが必要だけである。摩擦
音型または無音のうちのいずれかから母音型音声
への状態変化与えるために、音声エネルギのほと
んどが、1600ヘルツ以下に下がらなければなら
ず、10ミリ秒期間で16よりも小さな零交叉カウン
トが必要とされる。音声領域における周波数成分
は、200ヘルツを越える有意義なエネルギがない
ときは生じなかつたということがわかつたので、
10ミリ秒期間における2つの零交叉カウントの無
音しきい値が用いられる。 さらに、この発明は、予め記憶された状態に基
づいて変更可能な付加的なヒステリシスレベルを
与えることによつて誤り率をさらに減ずる。たと
えば、60ミリ秒の最小の母音型セグメントが、状
態のシーケンスの中央において、単語“ttack”
における“uh”音のような最も短い予期される
母音セグメントまで、真の母音型音声を識別する
ために用いられる。他方、160ミリ秒の最小の期
間が、摩擦音型の終わりに関連して徐々にエネル
ギ減衰することにより生ずる人工物を除去するた
めに、特定の単語に対する母音型の終わりの識別
のために必要とされる。たとえば、単語“att
ck”における“a”音は、“attack”の最後の
“ck”がしばしば発音されないので、典型的な音
声パターンにおいては約300ミリ秒の長さである。 “attack”における“ac”音は、もしその単
語“attack”が、認識されるべきならば、実際の
終わり状態として認識されなければならない。他
方、“rest”のような単語の終わりにおけるエネ
ルギの徐々に生じる減衰が、“st”音からのエネ
ルギが減衰するときその最後の状態として母音型
音を有するものであると解釈されないことは重要
であるこのように、認識可能なシーケンス内の状
態の位置と、予め認識された状態との両方が、話
された単語内の各状態を判断するために用いられ
るしきい値テストを変えるために使用される。 このように、認識システム内の変更可能なヒス
テリシスレベルを導入することによつて、音声認
識システムが、非常に簡単な状態のベースで動作
しようとも、認識可能な語彙が、同一の状態のシ
ーケンスを有し得ない単語のグループに適当に限
定される限りは、誤り率を減ずることが可能であ
る。 認識されるべき単語に対する状態のシーケンス
は、リードオンリメモリにおけるように、システ
ムにおいて永久的に記憶された状態のシーケンス
のテンプレートと比較される。一定の単語の認識
を可能にするために、誤り率を低く保ちながら、
認識率を高く保つために、認識されるべき単語の
いくつかに対して複数の異なるテンプレートを含
むことが必要であるということがわかつた。これ
らの複数のテンプレートは、異なる人によつて異
なつて話された同じ単語を捕獲するために用いら
れる。しかしながら、認識されるべき任意の単語
のその複数のテンプレートは、認識されるべき他
の単語の複数テンプレートとは重複しなく、その
ため各認識可能な状態のシーケンスは唯一の出力
を与える。 初めに第1図を参照すると、もし入来する音声
信号が、10ミリ秒のペースでサンプリングされた
ならば、1キロヘルツの正弦波周波数が、10ミリ
秒について正に進む10の零交叉カウントを与える
であろうということが理解できる。同様に、5キ
ロヘルツの周波数は、零交叉しきい値が、検知さ
れた正弦波の頂点の間にあるならば、10ミリ秒に
ついて50の正に進む零交叉カウントを発生する。
もし、音声パターンの計測において、過度に限定
される増幅器が用いられるならば、実質的にすべ
ての音声パターンが、その増幅器を飽和し、かつ
零交叉カウントを発生する。このように、過度に
限定された増幅器からの電気信号をモニタするこ
とにより実現されるその最後のカウントは、平均
周波数測定を与える。第2図におけるブロツク図
に示されるように、この発明のシステムにおい
て、マイクロフオン11が、すべての音声信号が
零交叉データを発生するように飽和される高利得
のオーデイオ増幅器13へ、オーデイオ信号入力
を与える。この信号は、たとえばMotorola
Semiconductorsにより製造されるMC6805P2マ
イクロコンピユータチツプのようなマイクロコン
ピユータチツプ17のタイマ入力への線75に与
えられる。このタイマ入力75は、0.8ボルトの
しきい値電圧で負へ進む信号を検知し、そのた
め、もしオーデイオ増幅器13が、飽和において
5ボルトの出力を与えるならば、そのタイマへの
入力は、マイクロフオン11に与えられる音声信
号の平均スペクトル周波数に等しい周波数で生ず
るであろう。 マイクロコンピユータ17内で、リードオンリ
メモリ19が、認識されるべき単語に対するフア
ームワードの音声テンプレートと同様に、音声認
識システムのためのフアームウエアを含む。この
ように、音声認識システムが理解すべき予め定め
られた選択された語彙が、マイクロコンピユータ
17の製造のときに、または少なくともマイクロ
コンピユータ17を販売する前に、リードオンリ
メモリ19内に永久的に記憶される。このよう
に、この音声認識装置を使用する間語彙の訓練が
なされず、かつしたがつて、その語彙を認識可能
な単語のグループに予め設定しかつ音声認識シス
テムを安価で生産することを可能にするために、
初めの製造のときにその仕事がなされる。 リードオンリメモリ19内に記憶されたフアー
ムウエアに従つて、第2図の音声認識システム
は、第3図ないし第6図のフローチヤートにおい
て表わされるプロセスによつて、マイクロフオン
11からの入来する音声データを分析する。 最初に第3図を参照すると、そのシステムは、
最初マイクロコンピユータ17に電力が送られる
とステツプ111で初期設定される。この初期設定
は、その装置のための出力ポートとして、第2図
のポートA,BおよびC;それぞれ21,23、
および25を指定する。これらのポート21ない
し25の各々は、マイクロコンピユータ17のた
めの出力または入力として動作し得、かつこれら
のポートの指定は、音声認識から生ずる出力デー
タが、ポートA,BおよびCのいずれかで与えら
れることを可能にするということが理解できる。
この指定はステツプ113で生じ、その後マイクロ
コンピユータ17のランダムアクセスメモリ27
のレジスタに記憶された変数がステツプ115で初
期設定される。第3図のフローチヤートおよび第
4図ないし第6図の他のフローチヤートは、分岐
点からのようなシーケンスのリターンをそのフロ
ーチヤート内の多種なジヤンプポイント内に与え
るリターンポイントTT16,117のようなリ
ターンポイントを含む。 ステツプ115で初期設定される変数は、以下を
含む:FCNTは、摩擦音型カウントであり、か
つ非常に高い周波数または摩擦音型音声エネルギ
を有する10ミリ秒の間隔の数を規定する。
VCNTは、非常に低い周波数の音声パワーを有
する母音型10ミリ秒間隔をカウントするために用
いられる変数である。SCNTは、実質的に音声内
容を有さない10ミリ秒の無音の間隔をカウントす
るために用いられる変数である。Xは、音声パタ
ーンを認識するために用いられる状態シーケンス
内で連続する状態(摩擦音型、母音型、無音)を
数で識別するために用いられるポインタ変数であ
る。変数Nは、入来する単語に対する状態の総数
を規定する。 ステツプ119において、1対のアレイが初期設
定される。アレイSEG(X)は入来する単語に対
する実際の状態のシーケンス、すなわち摩擦音
型、母音型または無音のような各セグメントを識
別する各セグメントXに対するデータを含む。ア
レイVOWL(X)は、母音状態の長さ、すなわち
母音状態として識別されたセグメントX内の10ミ
リ秒の母音期間の数を規定する。 これらの変数およびアレイは、以下の表によ
り、よりよく理解でき得る。
【表】 上の表から、SEG(X)は、その状態が摩擦音
型、すなわち主に高い周波数の音響的エネルギで
あるならば、1つの単語内の特定の状態に対して
2として規定されることがわかる。同様に、もし
その単語の状態が、主に母音型ならば、SEG
(X)は、1として規定され、一方0が無音状態
を規定する。以上に示されるように、単語“six”
対して、典型的な発音において、Nが4に等しい
ような4つの連続的な状態がある。1から4のX
の値に対して、SEG(X)は、シーケンス2102、
すなわち摩擦音型、母音型、無音、摩擦音型であ
る。単語“six”の最初の“S”は、“X”が1に
等しいところで摩擦音型状態を与える。単語six
における母音は、Xが2に等しいところで母音型
状態を与える。単語sixにおけるX音の形成の前
に、摩擦音的なXを発生するためにエネルギが蓄
積されるときに、声道は閉じられてX=3で
SEG(X)=0により規定される瞬間的な無音を
生ずる。この短い無音の後に、X=4でSEG
(X)=2に示される摩擦音型X音が続く。 アレイVOWL(X)は、X=2で母音型音、す
なわち単語sixにおける文字“i”の持続期間を
規定する値Qを記憶する。 以下の説明からより理解できるように、たとえ
ば、X=2またはX=4で摩擦音型状態を規定す
るために、摩擦音型の音声エネルギは、予め定め
られた持続期間を有しなければならない。この持
続期間は、摩擦音型エネルギが生ずる間の10ミリ
秒時間の期間をカウントする変数FCNTにより
計測される。同様に、上記の例においてX=2の
母音型状態は、母音型の平均周波数が予め定めら
れた持続期間の間存在すること必要とし、それは
変数VCNTを用いて記憶される。変数SCNTは、
同様の態様で無音持続期間をカウントするために
用いられる。 第3図に示されるシーケンスを参照すると、ス
テツプ115および119における変数およびアレイの
初期設定に続いて、マイクロプロセサ17内の零
交叉カウンタ31が、ステツプ121で開始される。
これによつて、カウンタ31は、高利得のオーデ
イオ増幅器13がプリスケーラ33のしきい値、
この例では0.8ボルトを横切るごとに増分される。
リターンポイントTT2は、第3図において12
3で示され、かつ上述したようにこのシステム内
のルーピングを与えるために用いられる。ステツ
プ125において、10ミリ秒の遅延が、零交叉カウ
ンタがステツプ121で始動した後にすぐに開始さ
れる。この10ミリ秒の遅延は、第2図に示される
タイマ31およびタイマ制御器35により計測さ
れる。この10ミリ秒遅延の終わりに、第2図の
RAM27において記憶された変数ZCRAが、カ
ウンタ31内のカウント、すなわちこの10ミリ秒
期間の間の合計の零交叉カウントに等しくされ
る。ステツプ127で示されるようにこの値が記憶
されて、零交叉カウンタ31が、すぐにリセツト
され、かつ再びステツプ129で始動し、そのため
次の10ミリ秒期間のための零交叉データが、累算
され、それとともにRAM27において変数
ZCRAとして記憶された最初の10ミリ秒期間から
の零交叉データが分析される。このマイクロ処理
システムは、充分早く、それが最初の10ミリ秒の
時間データに関係しながら、ステツプ125におけ
る10ミリ秒遅延の終わる前に処理のすべての残り
の部分を完了することができる。このように、以
下に示される説明からわかるように、この最初の
10ミリ秒データが分析された後、プログラムは、
ポイントTT2,123に戻り、ステツプ125に
おける次の10ミリ秒期間の終わるのを待ち、その
ため次の零交叉カウントがステツプ127で記録さ
れ得る。 入来する零交叉カウントを分析する第1のステ
ツプは、このカウントと2とを比較することであ
る。もしこの零交叉カウントが2よりも小さいな
らば、第1図に示されるように、線75上でその
システムに入る主なエネルギは、200ヘルツより
も低く、また零交叉がない場合には存在しない。
これは、無音期間として解釈される。このよう
に、ステツプ131で行なわれる比較は、フローチ
ヤートの分岐ステツプを規定し、もし零交叉カウ
ントが2よりも小さいならばステツプ133への続
行した処理を指示し、かつもし零交叉カウントが
2を越えるならばそれをルービングポイントTT
9,135へ向ける。すなわち、もし、この10ミ
リ秒期間の間に、線75(第2図)上の入来信号
が、無音を示すならば、そのシーケンスはステツ
プ133で続行する。他方、もし認識可能な音声が
存在するならば、そのプログラムはTT9,13
5へジヤンプするであろう。 もし、この特定の10ミリ秒期間に対して、
ZCRAレジスタ位置に記憶される零交叉カウント
が2よりも小さいなら、すなわち無音を示すなら
ば、ステツプ133は、変数SCNT、無音カウンテ
イング変数を増分し、そのためこの変数は今1に
等しく、1つの無音10ミリ秒期間を示す。以下の
説明から明らかなように、変数SCNTは、10ミリ
秒の無音の増分の合計数をカウントして実際の無
音状態が存在するかどうかを決定するために用い
られる。もちろん、今説明されているシーケンス
のポイントで、もしこの全プロセスがちようど始
まつているところならば、この最初の無音の増分
は、認識されるべき音声が未だ始まつていないと
いうことを示す。このことは、ステツプ137にお
いて、現在のセグメント、すなわちモニタされた
最も最近の状態が、0すなわち無音に等しいかど
うかを判断するために、値SEG(X)と0を比較
する。プログラムオペレーシヨンの初期における
この例では、SEG(X)は、ステツプ119で0に
等しくされたので、分岐ステツプ137は、そのシ
ーケンスにポイントTT12,139において続
行するように指示する。このリターンポイント
TT12,139は、第3図のフローチヤートに
おいて後で示されるリターンポイント139への
そのシーケンスにおけるジヤンプを与える。上述
したように、今無音状態にあり、かつ他の無音増
分を計測したので、ステツプ133で無音カウント
が増分される。リターンポイント139は、
FCNT変数およびVCNT変数が、0にセツトさ
れるステツプ141でそのシーケンスを続行する。
その合計の無音カウントは、次にステツプ143で、
16の10進数に等しい16進数字10と比較される。要
するに、このステツプ143は、10ミリ秒の16倍す
なわち160ミリ秒の合計した無音期間を示す16に
その無音カウントが達したかどうかを判断する。
もし無音カウントが16よりも小さいならば、その
プログラムは、上述したリターンポイントTT
2,123に分岐してより大きな零交叉、10ミリ
秒データを得る。しかしながら、もし16の無音カ
ウントであれば、そのシーケンスはステツプ145
で続行される。 ステツプ145において、変数Xは、何らかの状
態がこの単語に対して記録されたかどうかを判断
するために0と比較される。本質的に、このステ
ツプ145は、そのシーケンスが単語の最初の部分
を今なお待つているかどうかを判断するためのテ
ストである。もしXが0に等しいならば、そのプ
ログラムはリターンポイントTT16,117に
戻され、そこで変数およびアレイがステツプ115
および119で再び初期設定されかつデータ収集が
ステツプ121で再び始まる。 しばらくすると或るポイントで、プログラムが
上述したシーケンスを介して連続してループして
いた後、それを各160ミリ秒の無音ごとに再び初
期設定し、単語が話されて、最初の有意義な零交
叉データを線75(第2図)に与えられる。10ミ
リ秒のサンプリング期間が、2以上にZCRA零交
叉カウントを与えるときのポイントにおいて、ス
テツプ131は、そのプログラムを分岐してポイン
トTT9,135に戻す。このリターンポイント
TT9,135は、第4図において最初のステツ
プとして示される。 第4図は、現在のサンプルが、線75(第2
図)で入来する音声が無音でないことを示したと
き、ポイントTT9,135において始まるのみ
である。今、その音が、この10ミリ秒間隔におい
て摩擦音型または母音型かどうかが判断されなけ
ればならない。このテストは、現在の状態SEG
(X)と0とを比較する分岐ステツプ147で始ま
る。もし、この例において、そのシーケンスが音
声の最初にあるならば、SEG(X)が、ステツプ
119において0にセツトされかつしたがつてその
シーケンスが分岐ステツプ149で続行することが
思い出される。このステツプにおいて、零交叉カ
ウント、ZCRAは、16進10または10進16と比較さ
れる。もしその零交叉カウントがステツプ131で
判断されたように2よりも大きくかつ16よりも小
さいならば、第1図において示されるように、検
査される10ミリ秒期間の間のその平均周波数は、
200ヘルツ以上でかつ1600ヘルツ以下であり、さ
らにそれは母音型音声として解釈される。このよ
うに、リターンポイント151を通つた後、ステ
ツプ153は、母音型10ミリ秒間隔をカウントする
ために用いられる変数VCNTを増分する。ステ
ツプ155において、変数VCNTの値、すなわち母
音型10ミリ秒間隔の合計数は、60ミリ秒の母音型
間隔があるかどうかを判断するため、6と比較さ
れる。この例において、分岐ステツプ155は、
我々がちようど単語を始めたので、値VCNTは、
ステツプ153において1に増分されたことを示し、
かつそのシーケンスは、リターンポイントTT
2,123に戻されて付加的な10ミリ秒入力デー
タを収集する。このように、1つの10ミリ秒サン
プリング期間が、母音型状態を規定するのに不充
分であるので、状態は未だ認識されない。しかし
ながら、変数VCNTは、200および1600ヘルツの
間の周波数でその主なエネルギを有している音声
でこの単語が現に始まるかどうかを判断するため
我々は母音型10ミリ秒期間をカウントし続けるよ
うに、その関数VCNTが増分された。 もし、リターンポイントTT2,123に戻る
ことによつて、今5つの付加的な時間について、
各時間が、ステツプ153が変数VCNTを値6に増
分するように上述したシーケンスに続くものと仮
定するならば、そのシーケンスは、ポインタ変数
Xが増分されるステツプ157で続行し、そのため
それは今1に等しく、認識されるべきその単語内
の第1の状態を識別する。ステツプ159において、
SEG(X)の第1の値は、1にセツトされ、SEG
(1)に対する母音型状態を示す。 ステツプ159における第1の状態を規定して、
もし、6の合計の母音型増分が生ずる時間期間の
間に介在する無音カウントおよび摩擦音型カウン
トがあるならば、そのプログラムは、リターンポ
イント161,TT4を介して、変数SCNTおよ
びFCNTが0にセツトされるステツプ163に続行
し、そのためSCNTおよびFCNT変数の新しい
カウンテイングが再び始まり、かつそのシーケン
スは第3図において示されるリターンポイント1
23で続行される。 もしこの単語の初めにおいて、母音型音よりも
むしろ摩擦音型音が、線75(第2図)上に現わ
れるならば、ステツプ149における分岐テストが、
16進10、または10進16を越えて零交叉カウントを
与え、1600ヘルツを越えて平均の音声周波数を示
したであろう。この場合、そのシーケンスは、リ
ターンポイントTT7,165を介して、摩擦音
型10ミリ秒サンプルをカウントするFCNT変数
が増分されるステツプ167へ続行する。変数
FCNTは、次にステツプ169で値Zと比較され
て、合計して20ミリ秒の摩擦音型音がモニタされ
たかどうかを判断する。もし最後の状態の規定か
ら20ミリ秒以下の摩擦音型音がモニタされたなら
ば、そのプログラムは、ポイントTT2,123
に戻るであろう。しかしながら、もし変数
FCNTが、値2に等しいかまたはそれよりも大
きいならば、分岐ステツプ171は、最も最近の規
定された単語の状態、すなわちSEG(X)と値1
とを比較して、最も最近に規定された単語の状態
が母音型音であるかを判断する。我々が説明して
きた例では、SEG(X)が0にセツトされ、かつ
したがつてプログラムが、変数VOWL(X)が0
にセツトされるステツプ173で続行し、かつプロ
グラムがポイントTT14,175で戻るという
ことが認められる。後者の例では、単語の最初に
おける以外、母音型音が摩擦音型音に先行すると
き合計の母音カウント変数VCNTを記憶するこ
とが有効であろう。このように、もし分岐ステツ
プ171におけるテストが、最も最近にモニタされ
た状態が母音であることを示すならば、そのプロ
グラムが、リターンポイントTT15,177を
介して続行され、変数VOWL(X)を増分ステツ
プ153において予め記憶された値VCNTと等しく
する。これは、ステツプ179において生ずる。こ
の手続は、それからリターンポイントTT14,
175を介して続行され、上述したステツプ175
と同様の態様でステツプ181においてXを増分し
て、上述したステツプ159と同様のステツプ183
で、SEG(X)アレイにおける次の状態を摩擦音
型音すなわち2と規定し、かつその手続は、リタ
ーンポイントTT17,185を介して続行され
る。上述したようにステツプ163と同様の態様で、
ステツプ187におけるシーケンスはそれから、変
数SCNTおよびVCNTをリセツトし、かつ付加
的なデータの収集のため、第3図のポイントTT
2、ステツプ123にそのプログラムを戻す。 以上の説明から、分岐ステツプ147で判断され
たように、もし前の状態が無音なら、認識される
べきこの単語の第1の状態として、60ミリ秒の合
計の母音型持続期間が、母音型状態を規定し、か
つ20ミリ秒の合計の摩擦音型持続期間が、摩擦音
型状態を規定する。 本質において、これまでに述べられてきたもの
は、予め定められた状態が、予め定められた時
間、この場合母音型音に対しては60ミリ秒かつ無
音に続く摩擦音型音に対しては20ミリ秒の間、こ
のシステムにとつて入来するデータを特定の状態
として受入れるために続くことを必要とするこの
システムにおけるヒステリシスの形式である。 以下の説明において明らかになるように、前の
状態の識別は、特定の音声が母音型かまたは摩擦
音型かどうかを判断するために用いられる周波数
に識別を変えるために用いられる。このように、
ステツプ149において、前の状態が、ステツプ147
において無音として規定されたので、1600ヘルツ
を越える周波数は、摩擦音型として規定された。
以下の説明から明らかなように、もし最も最近に
規定された状態が母音であるならば、特定の10ミ
リ秒間隔は、もしその間隔の平均の周波数内容が
2400ヘルツを越えないならば摩擦音型として規定
されない。これは、もし母音型音から摩擦音型音
へ進むしきい値が増加するならば誤り率が減少す
るということがわかるので、無音の摩擦音型音よ
りも母音の後の摩擦音型音を認識することをより
困難にするヒステリシスの付加的な形式である。
このように、それぞれステツプ169および155にお
ける摩擦音型および母音型持続期間の必要物によ
り生じたこのシステムの基本的なヒステリシスに
加えて、前の単語の状態に基づいて母音型および
摩擦音型10ミリ秒間隔の間の周波数の移り変わり
の個所を変えることにより、変更可能なヒステリ
シスがこのシステムに導入される。 以下のシーケンスは、このヒステリシスの原理
を述べる。もし、ステツプ147において、最も最
近に規定された単語の状態が無音でないことが判
断されると、プログラムシーケンスは、ポイント
TT8,189を介して分岐ステツプ191に続行
され、そこでSEG(X)と値1とを比較すること
により前の単語の状態が母音型音であるかどうか
を判断する。もし前の状態が母音型音であるなら
ば、そのシーケンスは、ステツプ193に分岐し、
そこで零交叉カウントが、2400ヘルツの周波数平
均を示す16進値18すなわち10進値24と比較され
る。もしその値が2400ヘルツを越えなかつたな
ら、そのプログラムは、ステツプ195に進み、変
数VCNTを増分し、この10ミリ秒期間を母音型
として識別しかつそのシーケンスを上述したリタ
ーンポイントTT4,161に戻す。他方、もし
分岐ポイント193において、周波数内容が2400
ヘルツを越えるならば、そのプログラムは、上述
したリターンポイントTT7,165に進み、か
つ変数FCNTをステツプ167で増分する。このよ
うに、摩擦音型10ミリ秒期間に対する周波数しき
い値が、予め記録された単語の状態が母音または
無音状態かどうかに依存する。 もし前の状態が母音型音ならば、すなわちステ
ツプ155においてなされたテストが、60ミリ秒の
母音型音が生じかつアレイSEG(X)がステツプ
159においてセツトされて母音型状態を示すとい
うことを既に表わしたならば、分岐ステツプ193
に達するということを注目すべきである。もちろ
ん、これが比較的長い母音の音声の表示であるの
みであるから、別の母音型状態が、ある母音型状
態に続くことは望ましくない。このように、ステ
ツプ195において生ずるVCNTの増分とリターン
ポイントTT4,161へのプログラムのリター
ンとが、母音型状態が、他の間隔、無音または摩
擦音型音が遭遇されるまで規定されたとすれば、
連続する母音型間隔の累算を単に与え、その付加
的な母音型間隔は、付加的な母音型状態を与えな
い。 同様に、分岐ポイント191において、SEG
(X)の1との比較が、前の状態が1でないこと
を示したならば、かつ分岐ステツプ147が、前の
状態が無音でないことを示したので、そのプログ
ラムは、もし前の状態が摩擦音型音であると識別
すればステツプ197に分岐するであろう。この場
合、最も最近の10ミリ秒間隔に対する零交叉デー
タが16を越えるならば、最も最近の摩擦音型状態
を与える摩擦音型音のコミユニケーシヨンがあ
り、かつそのプログラムは、上述したリターンポ
イントTT7,185に分岐して、そのプログラ
ムが、付加的な摩擦音型状態を与えることなく付
加的な摩擦音型10ミリ秒間隔を累算することを可
能にされ、なぜなら、2つの連続する摩擦音型状
態は、比較的長い摩擦音型音よりもむしろ連続す
る位置で1つの単語内で2つの摩擦音型の形状を
誤つて示すからである。他方、もし前の状態が、
摩擦音型音であるならば、かつ最も最近の10ミリ
秒間隔のサンプルが1600ヘルツ以下の周波数平均
を与えるならば、分岐ステツプ197は、上述した
リターンポイントTT6,151にプログラムを
戻して母音型音の初めを識別する。 ステツプ195、ステツプ155で規定されたカウン
ト6を越える母音型カウントの連続に続いて、そ
のプログラムは、リターンポイント161で戻
り、変数SCNTおよびFCNTを0にセツトして、
そのため母音型音の中央の随時の無音型間隔およ
び摩擦音型間隔が累算されずに、もしこれらの10
ミリ秒サンプルが連続して生じないならば無音状
態または摩擦音型状態を誤つて示す。このよう
に、1つの摩擦音型または無音のサンプル間隔が
母音型カウンテイングシーケンスの中央で生じる
限りは、変数SCNTおよびFCNTは、0にされ
てこれらの変数の非連続的なカウントの累算を禁
止する。 同様なシーケンスが、リターンポイントTT1
7,185で生じ、摩擦音型音が生じかつ離れた
無音間隔および母音型間隔が生ずる限り、ステツ
プ187において変数SCNTおよびVCNTをリセツ
トする。 第3図を再び参照すると、もし或る音が存在し
たならばそのシーケンスが分岐ステツプ131から
リターンポイントTT9,135に分岐して、非
無音間隔を示し、かつステツプ137において、も
し無音間隔が単語の初めにあつたならばそのシー
ケンスはリターンポイントTT12,139に分
岐するということが思い出される。もし、分岐ス
テツプ137において、最も最近に記録された単語
の状態が無音でないことが判断されるならば、か
つステツプ131において現在の10ミリ秒サンプル
間隔が無音状態であると判断したならば、そのシ
ーケンスは、ステツプ199に分岐し、そこで変数
SCNTの現在の値が、値3と比較されるであろ
う。すなわち、無音期間が30ミリ秒、つまり音声
エネルギが破裂音のために蓄えられる間声道の前
破裂音の閉鎖のような単語内の短な無音状態獲得
するのに充分な時間期間を越えたかどうかに関す
る判断がなされる。もし変数SCNTが、3を越え
ないならば、そのプログラムはリターンポイント
TT2,123に分岐してより多くの間隔データ
を集める。もし変数SCNTが値3を越えるなら
ば、そのプログラムは、分岐ステツプ201に続行
して、最も最近に記録された単語の状態が母音型
音であるかどうかをテストする。もし無音状態の
前の最後の状態が、母音型状態であるならば、そ
のプログラムはリターンポイントTT18,20
3を介してステツプ205に続行し、そこで変数
VOWL(X)が、ステツプ179(第4図)における
母音型音の合計の持続期間に等しく予めセツトさ
れた変数VCNTに等しくセツトされる。もし最
も最近の状態が摩擦音型音であるならば、分岐ス
テツプ201は、プログラムをステツプ207に続行
し、そこで変数VOWL(X)が0にリセツトされ
る。それからそのシーケンスが、リターンポイン
ト19,209を介してステツプ211に続行され、
そこで値Xが増分され、かつその無音のカウント
変数SCNTが3を越えたので、(ステツプ199)、
変数SEG(X)は、ステツプ213における無音状
態を規定するようにセツトされる。同時に、変数
VOWL(X)がリセツトされ、これは、ステツプ
211における増分によつて、ステツプ205において
セツトされた位置の後のVOWLアレイおける次
の連続する位置である。 上述したように、ステツプ141はそれから、変
数SCNTおよびFCNTをリセツトし、かつ無音
の合計の持続期間、すなわち変数SCNTの値が16
を越えるかどうかを判断するためにステツプ143
において比較がされる。無音カウントが160ミリ
秒を越えたとすると、上述したように、前の単語
の状態が記録されたかどうかの判断が分岐ステツ
プ145においてなされる。もし単語の状態が記録
されたならば、160ミリ秒の無音の持続期間が、
単語の終わりを示すのに充分長いとして規定さ
れ、かつしだかつてそのプログラムはステツプ
147に分岐し、そこでその単語内の状態の合計数
を示す変数Nが、変数Xに等しくセツトされ、記
録された単語の状態の合計数を今規定する。ステ
ツプ147の完了において、そのシーケンスは、リ
ターンポイントTT23、ステツプ215を介して、
第5図に表わされたステツプのシーケンスに続行
する。 以下の説明から明らかなように、第5図のステ
ツプのシーケンスは、最後に記録された単語の状
態をチエツクして、それが短い母音型音かどうか
を判断するために用いられる。単語の終わりにお
ける短い母音型セグメントが、しばしば間違つた
母音の表示であるということが判断されるので、
摩擦音型音の終わりにおけるエネルギの減衰に対
して、第5図に示されるステツプのシーケンス
は、そのような短い母音型の終わりの音を状態の
シーケンスから除去するために用いられる。 最初に、変数Xが、ステツプ217において変数
Nと等しくセツトされ、そのため、注目されるよ
うに、そのシーケシングが、すべての単語を、
160ミリ秒間隔を越える無音状態とともに終わる
ものとして規定したので、変数Xは今、無音であ
る最後の記録された状態を示す。ステツプ219に
おいて、変数Xが増分されて、終わりの無音の前
の次の前単語の状態を識別する。この次の前単語
の状態は、SEG(X)と値1とを比較することに
よりステツプ221において識別されて、この次の
前の単語の状態が母音型音であるかどうかを判断
する。もしそれが母音型音でないならば、そのプ
ログラムは、第6図に示されるリターンポイント
REC,223に分岐する。他方、もし終わりの
無音の前に記録された最後の単語の状態が、母音
型音であるならば、分岐ステツプ225が、ステツ
プ205(第3図)でセツトされた変数VOWL(X)
と値60進10または10進16とを比較することによ
り、母音型音の合計の持続期間と160ミリ秒とを
比較する。もし、母音型音が160ミリ秒を越えた
ならば、そのシーケンスは、リターンポイント
TT22,227で続行する。他方、もし終わり
の母音型音が、持続期間において160ミリ秒より
も短いならば、これは偽の終わりの母音であると
いうことが判断された。この理由で、ステツプ
229が、変数XおよびNの両方を減分してこの間
違つた状態を効果的に除去するために用いられ
る。ステツプ231はそれから、無音状態が、間違
つた終わりの母音型状態のすぐ前に生じたかどう
かを判断するために用いられる。もし無音型状態
が、この間違つた母音型状態に先行しなかつたな
らば、そのシーケンスは、リターンポイント
REC,223で続行する。しかしながら、もし
無音状態が、この間違つた母音型状態に先行した
ならば、その無音状態もまた間違つており、かつ
したがつてステツプ233において、値XおよびN
が、再び減分されて間違つた無音状態を除去す
る。 アレイSEG(X)がリセツトされなくて、記録
された間違つた状態を物理的に除去するにもかか
わらず、第6図の説明からわかるように、値Nを
減分することにより、これらの間違つた状態を単
語の認識シーケンスにおいて関係することから効
果的に除去する。 このように間違つた終わりの状態を除去する
と、そのプログラムは、リターンポイント227
から分岐ステツプ235へ続行し、そこで変数Nと
値2とを比較する。記録された最後の状態が、任
意の単語の終わりにおける無音状態であるから、
変数Nは、状態のシーケンス内の有意義な状態の
実際の数よりも1だけ大きい。このように、Nと
2との比較によつて、その状態のシーケンス内の
1よりも大きな有意義な状態があるかどうかを判
断する。もし変数Nが2を越えるならば、有意義
な状態のシーケンスが規定され、かつステツプの
シーケンスが第6図のステツプ223に分岐する。
もしNの値が、値2よりも小さいかまたはそれと
等しいならば、ステツプ237は、その値が1か2
かを判断するために再び値2と値Nとを比較す
る。もしその値が1ならば、我々は、その信号の
状態が単語の終わりにおいて無音でありかつ有意
義な状態のシーケンスがないので、その全体の状
態のシーケンスを本質的に除去する。このよう
に、プログラムが、リターンポイント117,
TT16で第3図に戻される。 もし分岐ステツプ273において、Nの値が2で
あり、そのためその単語の中に1つの有意義な単
語の状態があることが判断されると、変数
VOWL(X)の値が、ステツプ239において480ミ
リ秒の母音型持続期間を示す値16進30または10進
48とを比較される。その単語において1つの母音
型状態のみがあるならば、そのシーケンスは、母
音型状態が、それ自体で、有意義なこの状態ため
に、少なくとも480ミリ秒の持続期間を有するこ
とを必要とする。もし、この持続期間が、480ミ
リ秒よりも小さいならば、そのシーケンスは、再
初期設定のために第3図のTT16、ステツプ
117に戻る。他方、もし母音型状態の持続期間が
480ミリ秒を越えたならば、そのシーケンスは、
第6図のリターンポイントREC、ステツプ223に
続行する。もしその1つの状態シーケンスが、た
だ1つの摩擦音型音を含むならば、ステツプ187
(第7図)が、値VCNTを0にセツトするという
ことも認められるべきである。したがつて、分岐
ステツプ239は、1つの摩擦音状態のシーケンス
を効果的に除去し、プログラムをリターンポイン
トTT16,117に戻してそのシーケンスを再
初期設定する。 第6図を今参照すると、認識シーケンスが、リ
ターンポイントREC,223で始まつて示され
る。このシーケンスは、上述したアレイSEG
(X)において記憶された状態のシーケンスによ
り規定される新しい単語と、マイクロプロセサ
(第2図)のリードオンリメモリ19において永
久的に記憶された複数の単語テンプレートとを比
較するために用いられる。このテンプレートは、
以下のフオーマツトでREF(IX)として識別され
たアレイにおいて記憶される。
【表】 ポインタIXが、アレイREF(IX)において連
続するメモリバイトを規定するために用いられ
る。リードオンリメモリ19内の各単語のテンプ
レートは、その単語のテンプレートにおける状態
の数を指定することで始まる。表2に示された例
において、状態の数は、4であり、REF(0)で
記憶される。この最初の指定に続いて、その単語
のテンプレート内の状態のシーケンスが続く。こ
の場合、上述した表1と同様に、英語の単語six
に対する典型的なテンプレートが、以下のシーケ
ンスとして記憶される:摩擦音型、母音型、無
音、摩擦音型;すなわち、2102;が、IX=1な
いし4の位置に記憶される。もしそのテンプレー
トが、3つの状態のテンプレートであつたなら
ば、最初の位置REF(0)が、3であり、かつた
だ3つの状態の識別子が、IX=1ないし3にお
いて続く。この状態のシーケンスの後に、特定の
テンプレートに対してその単語を識別する単語の
番号が続く。表2の場合には、単語の識別数字
は、数字8であり、REF(5)における状態シーケ
ンスのすぐ後に位置する。この場合の数字8は、
英語の単語6を識別し、かつマイクロプロセサ1
7の出力目的のために用いられる選択的な識別子
である。 表2に示されるように、次の連続する単語のテ
ンプレートは、位置REF(6)における最初の単語
のテンプレートのすぐ後に続き、かつREF(6)に
おいて記憶されたこの次のテンプレートの状態の
数で続く。この状態のシーケンスのテンプレート
が、異なる長さを有し得るにもかかわらず、その
テンプレートの各々は、連続する位置IXでリー
ドオンリメモリにこのように連続して記憶され
る。 新しい単語を識別するために、その新しい単語
の状態のシーケンスが、正確に一致するまでリー
ドオンリメモリ19内の単語のテンプレートの
各々と比較される。正確に一致すると、その単語
の数字の識別子、たとえば表2におけるREF(5)
に記憶された数字8が、マイクロプロセサから出
力されて、認識された単語を規定しかつ特定の単
語の認識の結果としてさらに他のシステムの応答
を行なう。 第6図を参照すると、この認識シーケンスにお
ける最初のステツプが、ステツプ241で示され、
上述したように、そのステツプは、認識されるべ
き新しい単語における状態の合計の数が規定する
変数Nを減分する。値Nが、新しい状態のシーケ
ンスの最終の無音状態を含み、かつステツプ241
における減分が、この最終の無音状態なくして、
認識されるべき単語内の実際の有意義な状態に状
態の合計数を減ずるために用いられる。次に、ス
テツプ243において、変数IXが0にリセツトされ
て、リードオンリメモリ19(第2図)内のテン
プレートアレイの最初における比較シーケンスを
始める。このシーケンスは、リターンポイントR
1,245を介して、ステツプ247に続行し、そ
こでポインテイング変数Yが、初め値1にセツト
される。次に、ステツプ249において、分岐テス
トが、値REF(IX)を比較してこの値が負の数か
どうかを判断するために用いられる。リードオン
リメモリ19内に記憶されたテンプレートシーケ
ンスが、最後の位置REF(IX)において負の数で
終わり、そのためテンプレートアレイの終わり
が、識別され得る。分岐テスト249に達したと
き、もしREF(IX)の現在の値が負であるなら
ば、認識シーケンスが、その新しい単語の記憶シ
ーケンスとそのアレイ内の任意のテンプレートと
の完全な一致を達成せずにテンプレートアレイの
終わりに達し、かつしたがつてそのシーケンスが
リターンポイントTT16,117(第3図)に
分岐するであろう。このことは、最も最近に記憶
された新しい単語の記憶シーケンスが、リードオ
ンリメモリ19内の任意の認識可能なテンプレー
トと一致せず、かつ認識シーケンスが完全に再初
期設定されるべきであるということを示す。 分岐テスト249において、値IXは、常に、
値REF(IX)が、単語のテンプレートの状態の数
を識別するようなものであるということが理解さ
れるべきである。このように、たとえば、表2を
参照すると、ステツプ249における値IXが、単語
のテンプレートの0もしくは6または任意の他の
最初の数字のいずれかであり得る。 テストステツプ249でなされた比較が、値REF
(IX)が正の数であり、付加的な単語のテンプレ
ートが比較のために利用できることを示せば、そ
のシーケンスは、リターンポイントR2,251
を介して分岐ステツプ253に続行する。このステ
ツプにおいて、その単語のテンプレートにおける
状態の数を規定する値REF(IX)と、その新しい
単語における状態の数を規定するNの値との間で
比較がなされる。もし状態の数が、異なれば、こ
の次の単語のテンプレートは、新しい単語の状態
のシーケンスに正確な一致を与えることができな
い。この場合、分岐ステツプ253は、IXプラス
IEF(IX)プラス2に等しい値にその値IXをリセ
ツトするステツプ255においてそのシーケンスを
続行する。REF(IX)が、次の単語のテンプレー
トにおける状態の数に等しいので、かつ各単語の
テンプレートが、その状態のシーケンスの加えて
2つの数字を含むので、そのステツプ255は、そ
の次の隣接するテンプレートにおける状態の数を
特定化する次の隣接するテンプレートの数字を識
別するようにインデツクスIXの値を増加する。
このポイントにおいて、そのシーケンスは、リタ
ーンポイントR1,245に続行されて、リード
オンリメモリ19(第2図)内の次のテンプレー
トが、新しい単語と同じ状態の数を有するかどう
かを判断する。新しい単語の状態の数に等しいテ
ンプレートに到達すると、分岐テスト253が、
リターンポイントR3,259を介してステツプ
259にそのテストを続行し、そこのポイント
で、そのインデツクス値IXが増分される。認識
されるであろうが、IXは今、状態の適した数を
有するこのテンプレート内の第1の状態を識別す
る。 リターンポイントR6,261を通つた後、こ
の次のテンプレートの第1の状態、すなわちその
第1の状態の摩擦音型、母音型または無音識別
が、ステツプ263においてレジスタACに記憶され
る。次に、ステツプ265において、インデツクス
値IXが、レジスタXTMPに一時的に記憶され、
かつステツプ267において、そのインデツクスIX
がYに等しくセツトされる。 次に、ステツプ269において、ACレジスタに記
憶された値、すなわち検査されるテンプレートの
第1の状態と、SEG(IX)において位置する次の
単語の第1の状態との間の比較がされる。もしこ
れらの状態が同じでなく、このテンプレートが、
新しい単語に正確な一致を与えないであろうとい
うことを示すならば、リターンポイントR,27
1に続くステツプのシーケンスがリードオンリメ
モリ19(第2図)における次の状態のテンプレ
ートをアクセスするようにされる。このシーケン
スは、現在の値IXとNとを比較する分岐ステツ
プ273で開始されて、一致しない単語のテンプレ
ートにおける状態のシーケンスの終わりに到達し
たどうかを判断する。もしそうでないなら、ステ
ツプ273は、ステツプ275でそのシーケンスを続行
し、そこで変数IXとXTMPが増分され、かつそ
のシーケンスがリターンポイントR4,271を
介して戻り、再び値IXとNとを比較する、この
比較ステツプ273が、一致を与え、そのテンプ
レートの終わりに到達したことを示すと、変数
XTMPが、2だけ増分されて、次のテンプレー
トに対する状態の数を識別する数字にそのポイン
タを位置させる。この増分は、ステツプ277で生
ずる。次にステツプ279が、変数Yの値をIXに等
しくセツトし、かつ変数IXの値を変数XTMPに
セツトし、かつそのシーケンスが、次の連続する
テンプレートとの次の単語の比較のためにリター
ンポイントR1,245に戻される。 もし、ステツプ269において、検査されるその
テンプレートの最初の状態と新しい単語とが等し
いならば、そのシーケンスは、分岐ステツプ281
に続行し、そこで変数IXと値Nとの間の比較が
なされて、テンプレートの状態のシーケンスの終
わりに到達したかどうかを判断し、その比較が完
了し、かつ完全な一致が次の新しい単語だ対して
見うけられたということを示す。もしその状態の
シーケンスの終わりにまだ到達していないなら
ば、そのシーケンスは、変数IXを増分すること
によつてステツプ283において続行され、変数Y
をIXに等しくセツトしかつ変数IXをXTMPに等
しくセツトすることによつてステツプ285におい
て続行される。このポイントから、そのプログラ
ムは、検査されるテンプレートの次の状態と新し
い単語の次の状態とを比較するために、リターン
ポイント6,261に続行される。これがそのポ
イントR6,261に戻るにもかかわらず、その
単語の状態の各々が、そのテンプレートの状態と
連続して比較される。もしその状態のいずれか1
つが異なれば、ステツプ269でなされるこの比較
は、検査されるテンプレートの残りのものを無視
するようにかつ次の連続するテンプレートの検査
をすぐに開始するようにそのシーケンスにさせ
る。 分岐テスト281で規定されるように、正確な
一致がそのテンプレートのアレイに位置したなら
ば、そのシーケンスは、リターンポイントR5,
283を介して続行されて、ステツプ285におい
て変数YをIXに等しくセツトしかつ変数IXを
XTMPに等しくセツトし、さらにステツプ287に
おいてIXを増分する。ステツプ287におけるIXの
この増分により、そのインデツクスIXが、その
単語の識別子数字が、そのテンプレートアレイに
記憶される位置REF(IX)を指定する。このよう
に、上記の表2を再び参照すると、ステツプ287
において生ずる増分は、いつたん同じ状態のシー
ケンスが位置すると、もし第1のテンプレートが
正確な一致であるならば、インデツクスIXをた
とえば位置5に増分し、そのため値REF(5)が
その単語の識別子数字8を識別する。 レジスタAMSが、次にステツプ289において値
REF(IX)にセツトされ、そのためレジスタ
AMSが、一致する状態のテンプレートの単語の
識別数字を記憶する。マイクロプロセサはそれか
ら、ステツプ290においてこの識別子数字を出力
し、かつリターンポイントTT16,117(第
3図)に戻つて全認識シーケンスを繰返す。 この単語認識システムの効果は、以下の例によ
り説明される。第2図に示されるように、出力ポ
ートB23が、その最下位ビツト、ビツトB0が、
1対のスイツチコンタクト303を操作するリレ
ーコイル301に接続されるように接続され得
る。同様に次に最も下位のビツト、ビツトB1が、
スイツチ対307を操作するリレーコイル305
に接続され得る。 マイクロプロセサ17、高利得のオーデイオ増
幅器13、マイクロフオン11、およびこのシス
テムのためのバツテリ電源とを含む完全なシステ
ムが、小さなおもちやのロボツトの中に収納され
得る。この例では、そのおもちやのロボツトは、
たとえばロボツトの頭を回転させるように接続さ
れたモータ309と、ロボツトを歩かせるように
トラクタ機構を駆動するように接続された第2の
モータ311を備え得る。そのロボツトの頭のモ
ータ309は、スイツチ303により操作され、
一方ロボツトのトラクタ動作は、スイツチ307
で制御される。もしポートB23からの出力ワー
ドが2進数字01ならば、ビツトB0における2進
1出力が、リレー301を操作してスイツチ30
3を閉成するのでロボツトの頭が回転する。同様
に、ポートB23からの10進2に等しい2進数字
10の出力により、リレー305が操作されて、ス
イツチ307を閉成しかつロボツトを歩かせる。
同様に、ポートB23からの2進数字00の出力に
より、ロボツトのすべての動作が停止する。 以下の表、表3は、英語で話された単語
“search”、“stop”、および“go ahead”を認識
するためにマイクロプロセサ17のリードオンリ
メモリ19に蓄積される状態のシーケンスのテン
プレートの例である。
【表】 これらの状態のシーケンスのテンプレートは、
上記の表2の形式であり、最初の数字が、各シー
ケンス内の状態の数を識別し、かつ最後の数字が
ポートBのための出力識別子を識別し、この場合
以上で規定されたような2進数字0、1または2
である。 表3においてリストされたテンプレートから、
英語の単語“search”および“go ahead”が、
かなりよく規定された状態のシーケンスを与えな
がら、単語“stop”が、その単語を話す特定の個
人に依存して多種な状態のシーケンスを与え得る
ということが理解できる。この理由のため、多種
の状態のシーケンスが、単語“stop”のためテン
プレートストレージに記憶されて、この単語のた
めマイクロプロセサの認識能力を広げる。 表3および第2図ないし第6図の上述の説明か
ら、マイクロフオン11に単語“search”、
“stop”、および“go ahead”を話すことによつ
て、使用者は、そのロボツトに、頭を回し、停止
し、歩かすことが、その使用者が選択した命令で
することができる。もちろん、これは非常に簡単
な例であり、しかしこの発明の効果を示す。スイ
ツチ307および303ならびにポート21,2
3,25に接続された多種な他のスイツチが、話
された単語の識別にしたがつて多種な消費者また
は工業製品を制御するために用いられ得る。 以下のは、好ましい実施例において用いられる
Motorola Model MC6805P2HMOSマイクロコ
ンピユータに適用できるコンピユータプログラム
である。もちろん、第3図ないし第6図のフロー
チヤートの情報および上述した一般的な説明を用
いることによつて、この発明は、多種なコンピユ
ータプログラムまたは特定的な目的の計算装置を
用いても実現できる。
【表】
【表】
【表】
【表】
【表】 上述したロボツトの例から、この発明は、認識
可能な語彙の注意深い予めの選択により、話者の
独立性および比較的低い誤り率を与えることがわ
かる。このように、表3から、認識可能な単語
“search”、“stop”、および“go ahead”のどれ
もが、同じ状態のテンプレートを有さないという
ことがわかる。これによつて、これらの3つの話
された単語の間の正確な区別ができ、しかし同じ
言葉における他のよく似た単語からこれらの単語
のうちのどれかを区別することはではない。この
ように、この発明は、システムのハードウエアを
簡素化しかつしたがつて認識システムの価格およ
び複雑性を有意義に減ずるために、認識可能な単
語を認識可能なグループ以外の単語から区別する
ことはできない。 上述したシステムは、いくつかの重要な特徴を
含む。最初に、話された音声が、周期的にサンプ
ルされ、かつその個々のサンプルが、システムの
フロントエンドフイルタなしに、摩擦音型、母音
型および無音間隔への零交叉データのみを用いて
区別される。これらの間隔の連続するグループが
カウントされ、かつそのカウントは、そのシステ
ムが摩擦音型状態、母音型状態、または無音状態
を規定するために予め定められた数に達しなけれ
ばならない。特定の状態の存在を規定するために
用いられるサンプルの特定の数は、その単語内の
その状態の位置に依存してもよい。たとえば、1
つの単語の終わりの母音型音が、母音型状態とし
て認識されるために160ミリ秒の持続期間を有さ
なければならなく、それに対し1つの単語の中央
の母音が、母音型状態として認識されるためにた
だ60ミリ秒の持続期間を有するだけでよい。 状態の認識を達成するために、多種の、連続す
る、同一の間隔の条件は、実際、システムヒステ
リシスの第1の順序を与え、なぜなら、たとえば
摩擦音型から母音型への平均周波数内容の変化
が、母音型シーケンスの前の或る予め定められた
持続期間に対する母音型の平均の残りが、認識さ
れるであろうことを必要とする。 システムヒステリシスの第2の形状は、特定の
サンプル増分を摩擦音型または母音型として識別
するために用いられる零交叉の数の変更を可能に
することにより与えられる。たとえば、もし前の
状態が無音ならば、1600ヘルツ以上の平均の音声
周波数を示す10ミリ秒内の16の零交叉カウント
が、摩擦音型間隔を与えるであろう。しかしなが
ら、もし前の状態が母音型状態であつたならば、
零交叉カウントは、24を越えて、2400ヘルツ以上
の周波数平均で、前の無音状態の場合よりもより
高い周波数を示す。これにより、母音型音から摩
擦音型音への移り変わりを達成することがより困
難になり、なぜなら母音型音の終了はしばしば、
実際の摩擦音型音を示さない1600および2400ヘル
ツの間の範囲における周波数成分を形成するから
である。このように、この第2の順序のヒステリ
シスは、前の状態の基づいて変更可能である。 このシステムはまた、状態のシーケンスの終わ
りで短い母音型状態の除去を与え、なぜならそれ
らはしばしば、実際の母音の終わりよりもむしろ
摩擦音型音の終わりにおけるエネルギの消失から
生ずることが判断されたからである。
【図面の簡単な説明】
第1図は、正弦波周波数に対する10ミリ秒ベー
スの零交叉カウントのグラフである。第2図は、
この発明の回路のブロツク図である。第3図ない
し第6図は、この発明のシステムの動作を示すフ
ローチヤートである。 図において、11はマイクロフオン、13はオ
ーデイオ増幅器、19はメモリ、23はレジス
タ、31はタイマ/カウンタ、33はプリスケー
ラ、35はタイマ制御器を示す。

Claims (1)

  1. 【特許請求の範囲】 1 音声を認識するための装置であつて、前記音
    声の周波数に従う周波数を有する交流電気信号を
    発生するための手段13、 前記交流電気信号が閾値レベルを横切るごとに
    デジタル信号を発生するための検出手段33、 等しい時間間隔を規定するためのクロツク手段
    35、 前記検出手段および前記クロツク手段に接続さ
    れて、前記発生されたデジタル信号をカウントす
    るためのカウント手段31、 各時間間隔ごとの前記デジタルカウント信号に
    基いて複数の分類のうちの1つとして前記時間間
    隔の各々を分類し、前記複数の時間間隔の連続し
    たもののグループを、予め定められた数の近接し
    て配置される時間間隔が同一の分類を有している
    ときある入力状態として指定し、かつ該状態を形
    成する時間間隔の支配的な分類に従つて各状態を
    分類して前記音声の信号を表わす入力状態系列を
    形成するための手段、 該装置の語彙に対応してメモリ19内に格納さ
    れる、複数の状態系列テンプレート、 前記入力状態系列を前記格納された状態系列テ
    ンプレートの各々と比較し、一致があるか否かを
    判別するための手段、および 該一致したテンプレートに固有の出力信号を発
    生するための出力信号発生手段23を備える、音
    声認識装置。 2 前記分類するための手段は、前記時間間隔の
    各々を摩擦音的、母音的または無音的のいずれか
    として分類する、特許請求の範囲第1項に記載の
    音声認識装置。 3 前記分類するための手段は、各間隔における
    デジタルカウント信号を複数のカウント閾値と比
    較し、各時間間隔を、該時間間隔に対する閾値が
    どの閾値の間にあるかに基づいて分類し、かつ先
    の状態の分類に応答して複数のカウント閾値の少
    なくとも1個を変化させる、特許請求の範囲第1
    項または第2項に記載の音声認識装置。 4 少なくとも1個の分類に対して、ある状態が
    その分類を有していることが認識される前に必要
    とされる、同一分類を有する近接する時間間隔の
    予め定められた数は、入力状態系列における該状
    態の位置に従つて変化する、特許請求の範囲第1
    項または第2項に記載の音声認識装置。 5 前記交流電気信号発生手段は、前記音声によ
    り飽和状態に駆動される高利得増幅器13を備え
    る、特許請求の範囲第1項ないし第3項のいずれ
    かに記載の音声認識装置。 6 前記交流電気信号発生手段はさらに、前記増
    幅器へ音声入力を与えるためのマイクロホン11
    を備える、特許請求の範囲第5項に記載の音声認
    識装置。 7 前記分析するための手段は、前記複数の音声
    テンプレートデジタル信号を格納する読出専用メ
    モリ19を備える、特許請求の範囲第1項ないし
    第3項のいずれかに記載の音声認識装置。 8 前記交流電気信号発生手段は、前記音声によ
    り飽和状態にまで駆動される高利得増幅器13
    と、前記増幅器に音声入力を与えるためのマイク
    ロホン11とを備え、さらに前記分析するための
    手段は、前記複数の音声テンプレートデジタル信
    号を格納する読出専用メモリ19を備える、特許
    請求の範囲第4項記載の音声認識装置。
JP57074464A 1981-05-01 1982-04-30 Voice recognition apparatus Granted JPS57185500A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US06/259,695 US4388495A (en) 1981-05-01 1981-05-01 Speech recognition microcomputer

Publications (2)

Publication Number Publication Date
JPS57185500A JPS57185500A (en) 1982-11-15
JPH0420199B2 true JPH0420199B2 (ja) 1992-03-31

Family

ID=22985985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57074464A Granted JPS57185500A (en) 1981-05-01 1982-04-30 Voice recognition apparatus

Country Status (7)

Country Link
US (1) US4388495A (ja)
EP (1) EP0065829B1 (ja)
JP (1) JPS57185500A (ja)
KR (1) KR880000255B1 (ja)
AU (1) AU8308382A (ja)
CA (1) CA1181858A (ja)
DE (1) DE3272684D1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
US4627001A (en) * 1982-11-03 1986-12-02 Wang Laboratories, Inc. Editing voice data
EP0125422A1 (en) * 1983-04-13 1984-11-21 Texas Instruments Incorporated Speaker-independent word recognizer
US4712242A (en) * 1983-04-13 1987-12-08 Texas Instruments Incorporated Speaker-independent word recognizer
US4482032A (en) * 1983-04-25 1984-11-13 Westinghouse Electric Corp. Elevator emergency control system
US4980826A (en) * 1983-11-03 1990-12-25 World Energy Exchange Corporation Voice actuated automated futures trading exchange
US4780906A (en) * 1984-02-17 1988-10-25 Texas Instruments Incorporated Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal
JPS60181798A (ja) * 1984-02-28 1985-09-17 電子計算機基本技術研究組合 音声認識装置
AU4110485A (en) * 1984-03-13 1985-10-11 R. Dakin & Co. Sound responsive toy
DE3411485A1 (de) 1984-03-28 1985-10-03 Siemens AG, 1000 Berlin und 8000 München Verfahren zur erfassung der grenzen von signalen, die vor einem hintergrundsignalgemisch auftreten
US4706293A (en) * 1984-08-10 1987-11-10 Minnesota Mining And Manufacturing Company Circuitry for characterizing speech for tamper protected recording
US4817158A (en) * 1984-10-19 1989-03-28 International Business Machines Corporation Normalization of speech signals
US4852171A (en) * 1984-11-09 1989-07-25 Alcatel Usa Corp. Apparatus and method for speech recognition
US4991217A (en) * 1984-11-30 1991-02-05 Ibm Corporation Dual processor speech recognition system with dedicated data acquisition bus
US4912388A (en) * 1985-08-02 1990-03-27 Canon Kabushiki Kaisha Drive control device operating a drive mechanism
US4856067A (en) * 1986-08-21 1989-08-08 Oki Electric Industry Co., Ltd. Speech recognition system wherein the consonantal characteristics of input utterances are extracted
US5251151A (en) * 1988-05-27 1993-10-05 Research Foundation Of State Univ. Of N.Y. Method and apparatus for diagnosing the state of a machine
US4949382A (en) * 1988-10-05 1990-08-14 Griggs Talkwriter Corporation Speech-controlled phonetic typewriter or display device having circuitry for analyzing fast and slow speech
JP3026276B2 (ja) * 1992-05-22 2000-03-27 本田技研工業株式会社 脚式移動ロボットの非常停止制御装置
US5790754A (en) * 1994-10-21 1998-08-04 Sensory Circuits, Inc. Speech recognition apparatus for consumer electronic applications
US5832440A (en) * 1996-06-10 1998-11-03 Dace Technology Trolling motor with remote-control system having both voice--command and manual modes
US6665639B2 (en) 1996-12-06 2003-12-16 Sensory, Inc. Speech recognition in consumer electronic products
EP1286329B1 (en) * 2001-08-23 2006-03-29 Culturecom Technology (Macau) Ltd. Method and system for phonetic recognition
KR20100006492A (ko) 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
US9324319B2 (en) * 2013-05-21 2016-04-26 Speech Morphing Systems, Inc. Method and apparatus for exemplary segment classification
US9767791B2 (en) 2013-05-21 2017-09-19 Speech Morphing Systems, Inc. Method and apparatus for exemplary segment classification

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5627200A (en) * 1979-08-14 1981-03-16 Nippon Electric Co Circuit for discriminating presence os absence of voice

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3238303A (en) * 1962-09-11 1966-03-01 Ibm Wave analyzing system
US3278685A (en) * 1962-12-31 1966-10-11 Ibm Wave analyzing system
US3333248A (en) * 1963-12-20 1967-07-25 Ibm Self-adaptive systems
GB1055371A (en) * 1964-03-06 1967-01-18 Standard Telephones Cables Ltd Apparatus for the recognition of speech
GB1155422A (en) * 1965-08-24 1969-06-18 Nat Res Dev Speech Recognition
GB1180288A (en) * 1967-06-23 1970-02-04 Standard Telephones Cables Ltd Analysing Complex Signal Waveforms
US3501750A (en) * 1967-09-19 1970-03-17 Nasa Data compression processor
US3536837A (en) * 1968-03-15 1970-10-27 Ian Fenton System for uniform printing of intelligence spoken with different enunciations
US3582559A (en) * 1969-04-21 1971-06-01 Scope Inc Method and apparatus for interpretation of time-varying signals
US3623015A (en) * 1969-09-29 1971-11-23 Sanders Associates Inc Statistical pattern recognition system with continual update of acceptance zone limits
US3816722A (en) * 1970-09-29 1974-06-11 Nippon Electric Co Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer
US3739085A (en) * 1971-07-09 1973-06-12 Addressograph Multigraph Coding technique
US3870817A (en) * 1971-12-20 1975-03-11 Meguer V Kalfaian Phonetic sound recognizer for all voices
US3755627A (en) * 1971-12-22 1973-08-28 Us Navy Programmable feature extractor and speech recognizer
US3723667A (en) * 1972-01-03 1973-03-27 Pkm Corp Apparatus for speech compression
US3883850A (en) * 1972-06-19 1975-05-13 Threshold Tech Programmable word recognition apparatus
US3812291A (en) * 1972-06-19 1974-05-21 Scope Inc Signal pattern encoder and classifier
JPS571937B2 (ja) * 1972-09-06 1982-01-13
US4109310A (en) * 1973-08-06 1978-08-22 Xerox Corporation Variable field length addressing system having data byte interchange
US3969700A (en) * 1974-04-10 1976-07-13 International Business Machines Corporation Regional context maximum likelihood error correction for OCR, keyboard, and the like
JPS50155105A (ja) * 1974-06-04 1975-12-15
US3943295A (en) * 1974-07-17 1976-03-09 Threshold Technology, Inc. Apparatus and method for recognizing words from among continuous speech
US4032710A (en) * 1975-03-10 1977-06-28 Threshold Technology, Inc. Word boundary detector for speech recognition equipment
US4105864A (en) * 1975-07-17 1978-08-08 Teledyne Industries, Inc. Stereo and spaciousness reverberation system using random access memory and multiplex
GB1569450A (en) * 1976-05-27 1980-06-18 Nippon Electric Co Speech recognition system
US4087632A (en) * 1976-11-26 1978-05-02 Bell Telephone Laboratories, Incorporated Speech recognition system
US4107460A (en) * 1976-12-06 1978-08-15 Threshold Technology, Inc. Apparatus for recognizing words from among continuous speech
US4178472A (en) * 1977-02-21 1979-12-11 Hiroyasu Funakubo Voiced instruction identification system
US4227177A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
US4189779A (en) * 1978-04-28 1980-02-19 Texas Instruments Incorporated Parameter interpolator for speech synthesis circuit
US4181821A (en) * 1978-10-31 1980-01-01 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
JPS5569880A (en) * 1978-11-22 1980-05-26 Nec Corp Pattern recognition unit
US4254476A (en) * 1979-06-25 1981-03-03 Sanders Associates, Inc. Associative processor

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5627200A (en) * 1979-08-14 1981-03-16 Nippon Electric Co Circuit for discriminating presence os absence of voice

Also Published As

Publication number Publication date
CA1181858A (en) 1985-01-29
DE3272684D1 (en) 1986-09-25
KR880000255B1 (ko) 1988-03-15
KR840000014A (ko) 1984-01-30
EP0065829B1 (en) 1986-08-20
AU8308382A (en) 1982-11-04
JPS57185500A (en) 1982-11-15
US4388495A (en) 1983-06-14
EP0065829A1 (en) 1982-12-01

Similar Documents

Publication Publication Date Title
JPH0420199B2 (ja)
US4761815A (en) Speech recognition system based on word state duration and/or weight
US4284846A (en) System and method for sound recognition
US6594630B1 (en) Voice-activated control for electrical device
US4087632A (en) Speech recognition system
US4811399A (en) Apparatus and method for automatic speech recognition
US4910784A (en) Low cost speech recognition system and method
EP0077194B1 (en) Speech recognition system
US4107460A (en) Apparatus for recognizing words from among continuous speech
JPS58134699A (ja) 連続ワ−トストリング認識方法および装置
JPS6147440B2 (ja)
JPS58134700A (ja) 連続音声認識の改良
US4707857A (en) Voice command recognition system having compact significant feature data
JPS60200300A (ja) 音声の始端・終端検出装置
Herscher et al. An adaptive isolated-word speech recognition system
JPS63179398A (ja) 音声認識方法
JPH0774960B2 (ja) テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
JPS60129796A (ja) 音声入力装置
Smyth et al. Robust Representations for Keyword Spotting Systems
CA1127764A (en) Speech recognition system
WO1987003127A1 (en) System and method for sound recognition with feature selection synchronized to voice pitch
JPS59149400A (ja) 音声入力装置
JPS6335995B2 (ja)
Ambikairajah Efficient digital techniques for speech processing.