JPS58134700A - 連続音声認識の改良 - Google Patents

連続音声認識の改良

Info

Publication number
JPS58134700A
JPS58134700A JP57174095A JP17409582A JPS58134700A JP S58134700 A JPS58134700 A JP S58134700A JP 57174095 A JP57174095 A JP 57174095A JP 17409582 A JP17409582 A JP 17409582A JP S58134700 A JPS58134700 A JP S58134700A
Authority
JP
Japan
Prior art keywords
keyword
reference pattern
speech
audio signal
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57174095A
Other languages
English (en)
Inventor
ロレンス・ジヨ−ジ・バ−ラ−
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Exxon Mobil Corp
Original Assignee
Exxon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Exxon Corp filed Critical Exxon Corp
Publication of JPS58134700A publication Critical patent/JPS58134700A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、音声認識方法および装置に関し1特定すると
、連続音声信号中のキーワードを実時間で認識する方法
および装置に関するO 適当に処理された未知の隔絶された音声信号を1または
複数?□予め用意された既知のキーワード1゜ 表示と比較することにより隔絶された発声を認識するた
め、従来より種々の音声認識システムが提案されて来た
。本明細書において、「キーワード°」なる用語は〜結
合された1群の音素および音響を意味するのに使用され
、例えば、音節の一部、ワード、ワードストリング、句
等である。多くのシステムはその成功度が限定されたも
のであったが、特に1つの装置は、隔絶されたキーワー
ドを認識するのに商業上利用されて成功を納めた。この
システムは、1977年7月26日付で特許され、本出
願の譲受人に譲渡された米国特許第4,038,503
号に記載される方法にしたがってほぼ動作し、未知の音
声信号データの境界が認識システムにより測定されるバ
ックグラウンドノイズまたは無音状態のいずれかである
ことを条件として、限定された範囲のキーワードの1つ
を認識する方法を提供するもので、この方法は好結果を
もたらした。このシステムは、未知の音声信号を生じる
期間は、十分に限定されており、単一のキーワードの発
声しか含まないという推定に依存する。
余話音声のような連続音声信号においては、キーワード
の境界を演鐸的に認めることができないが、到来音声デ
ータを区分するために、すなわち音素、音節、ワード1
、文章等の言語単位の境界をキーワード認識プロセスの
開始に先立って決定する種々の方法が考案された。しか
しながら、これらの従来の連続音声システムは、満足で
きる分割方法が見出されないこともあって、その成功は
限定された。さらに、他の実質的な問題が存在する。
例えば、−貫的には、限定された語紮しか低誤報率で1
1mできないこと、認識の精度が、異なる話者の音声特
性の差に非常に敏感であること、システムが、例えば普
通の電話通信装置で伝送される可聴信号に普通化じるよ
うな分析されつつある可聴信号の歪に非常に敏感である
ことなどである。
米国特許第4,227,176号、第4,241,32
9号および第4,227,177号に記載される連続音
声認識方法は、連続音声中のキーワードを実時間におい
て認識する商業的に容認できる有効な手法についてそれ
ぞれ記述している。これら特許に記載される一般的方法
は、現在商用に供せられており、実験的にもまた実用試
験においても、話者不依存の状況で高忠実性と低膜率を
提供することが分った。しかしながら1現今の技術の最
先端にあるこれらの技術でさえも、誤報率および話者不
依存特性の両面において欠点を有する。
上述のU、8.特許に記載される連続音声認識法は、主
として「オープンボキャブラリー」の状況に向けられる
もので、連続音声の複数のキーボードの1つが認識また
は確認される。「オープンボキャブラリーj法は、到来
する課業のすべては装置に分らない方法である。特定の
応用においては、連続ワードストリングを認識できるが
、この場合、認識プロセスの結果として1連続ワードス
トリングの個々のワード要素の各々が識別される。本明
細書において連続ワードストリングとは、無音状態によ
り境を定められる複数の認識可能な要素(「り四−ズト
ポキャブ2リーコ)をいう。これは、例えば、境界が演
鐸的に介る隔絶されたワードの応用例に関して上述した
媛・:業装置に関係づけられる。しかしながら、ことで
は境界、すなわち無音状態は未知であり、認識装置それ
自体により決定されねばならない。加えて、試験されつ
つある要素は、もはや単一のワード要素でないが1複数
の要素が、ワード列を形成するように一列に並べられる
従来、連続音声を認識するために種々の方法および装置
が示唆されたが、正確な音声認識を可能にするために必
要なパラメータを生成するように装置を自動的にトレニ
ングすることについては余り注意が向けられなかった。
さらに、従来装置における無音状態を決定する方法およ
び装置、および従来装置における文法的シンタックスの
利用は、そのニーズに一般的は十分であるが、なお多く
の。
改良の余地を残している。
それゆえ、本発明の主たる目的は、新しい認識パターン
を発生するため装置をトレーニングするのに有効な音声
分析方法および装置を提供することである。i□′: 本発明の特定メ′:1□It−的は、未知の可聴入力信
号データにおいて無音躾態(サイレント)を有効に認識
し、認識プロセスにおいて文法的シンタックスを採用し
、異なる話者、したがって異なる音声特性に等しく十分
に応答し、信頼性があって低誤報率を有し、しかも実時
間で動作するこの種方法および装置を提供することであ
る。
本発明は1音声信号中の少なくとも1つのキーワードを
認識する音声分析方法および装置に関するものである。
特定の1側面として、本発明は、到来音声信号のサイレ
ントを認識する方法に関する。本方法は、サイレントの
交互の表示を表わす少なくとも第1および第2のターゲ
ットテンプレートを発生し、到来音声信号を第1および
第2ターゲツトテンプレートと比較し、比較の結果を表
わす値を発生し、少なくともこの値に基づいてサイレン
トが検出されたかどうかを決定することを特徴とする。
他の1側面として、本発明は、現在の到来音声信号部分
がサイレントを表わす基準パターンに対応する可能性を
表わす値を発生し、シンタックス依存の測定値にしたが
ってこの値を有効に変更し、そして有効に変更されたス
コアから本信号部分がサイレントに対応するかどうかを
決定することを特徴とする音声信号中のサイレントを認
識する方法に関する。しかして1シンタツクス依存の測
定値は1文法的シンタックスにしたがって音声信号の直
前の部分の認識を表示するのである。
さらに他の1側面として、本発明は、既知のキーワード
を表わしかつ話者に対して調整された基準パターンを形
成する方法に関する。この方法は、キーワードを表わす
話者に依存しない基準パターンを形成し、この話者に依
存しない基準パターンを使って話者により話される音声
信号のキーワードの境界を決定し、話者により話される
キーワ二ドに対して装置により決定された境界を使って
音声分析装置をその話者に対してトレーニングすること
を特徴とする。
本方法は、さらに、装置に既知のキーワードを表わす話
者に依存しない基準パターンを形成し、この話者に依存
しない基準パターンを使って未知のキーワードの境界を
決定し、予め未知のキーワードに対して装置により予め
決定された境界を使って音声分析装置をトレーニングし
て、予め未知のキーワードを表わす統計的データを生成
することを特徴とする予め未知のキーワードを表わす基
準パターン形成方法に関係する。
さらに他の側面として1本発明は、認識されつつある一
連のキーワードが、複数の結合された判断ノードにより
特徴づけられた文法的シンタックスにより記述される音
声認識方法に関する。この音声認識法は、音声信号中の
キーワードを認識するための一連の数値スコアを形成し
、動的プログラミングを採用し、文法的シンタックスを
使用して、どのスコアが認識プ四セスにおける容認し得
る進行を決定するかを決定し、シンタックス判断ノード
を折畳むことにより他の場合には容認し得る進行の数を
減じ、それにより折り畳まれたシンタックスにしたがっ
て他の場合には容認し得る進行を放棄することを特徴と
する。
本発明はさらに、上述の音声認識方法を実施する装置に
関する。“°□ 以下、図面を参照して本発明を好ましい具体例について
説明する。
本明細書に記載される特定の好ましい具体例においては
λ音声認識およびトレーニングは、到来可聴データ信号
、一般に音声の特定のアナログおよびディジタル処理を
行なう特別構成の電子装置と、特定の他のデータ変換段
階および数値評価を行なうため本発明にしたがってプロ
グラムされた汎用ディジタルコンピュータを含むシステ
ムにより遂行される。本システムのハードウェア部分と
ソフトウェア部分の間のタスクの分割は、音声認識を安
価な価格で実時間で遂行し得るシステムを得るためにな
されたものである。しかしながら、。
この特定のシステムの八−ドウエアで遂行されつつある
タスクのある部分はソフトウェアで十分遂行され得るで
あろうし、また本具体例のソフトウニアブミグラミング
で遂行されつつあるタスクのある部分は1他、、の具体
例においては特定目的の回路で遂行し得る。、で、あろ
う。この後者に関連しては、”(。
利用できる場合に゛、装置のハードウェアおよびソフト
ウェアの実施形態について説明する。
本発明の1側面に依れば、信号が例えば電話線により歪
を生じた場合でも連続音声信号中のキーワードを認識す
る装置が提供される。すなわち、特に第1図において、
10で指示される音声入力信号は、任意の距離および任
意数の交換機を包含する電話線を介して炭素送話機およ
び受話機により発生される音声信号と考えることができ
る。それゆえ、本発明の代表例は、未知のソース(話者
に依存しない系)から供給され、電話システムを介して
受信される音声データの連続ワードストリングを認識す
ることである。他方、入力信号は、例えば、無線通信リ
ンク例えば商業放送局、私設通信リンクから取り出され
る音声信号、または装置近傍に立つオペレータの音声入
力信号のようなどのような音声信号でもよい。
以上の説明から明らかなように、本発明の方法および装
置は、一連の音響、音素、またはその他の認識可能な符
号を含む音声信号の認識と関係する。本明細書において
は、「ワード」、「要素」「一連のターゲットパターン
」、「テンプレートパターン」または「エレメントテン
プレート」のいずれかについて言及されるが、この5つ
の用語は、一般的なものであり、等価なものであると考
えられる。これは、本方法および装置により検出され認
識され得るキーワードを構成するように結合する認識可
能な一連の音響またはその代替物を表両する便利な方法
である。これらの用語は一単一の音素、音節、または音
響から一連のワード(文法的意味における)ならびに単
一のワードに至るいずれをも包含するように広くかつ一
般的に解釈されるべきである。
アナμグーディジタル(A/D)コンバータ13G;、
M2O上の到来アナログ音声信号データを受信して、そ
のデータの信号振幅をディジタル形式に変換する。
例示のA/Dコンバータは、入力信号データを12ビツ
トの2進表示に変換するが、その変換は、8000回/
秒の割合で起こる。他の具体例においては、他のサンプ
リング速度が採用できる。例えば、高品質信号が利用で
きる場合は、16KIIZの速度を使用できるA/D変
換器13は、その出力を!115を介して自己相関器1
7に供給する。自己相関器17はデイジタル入力信号を
処理してS1秒間に100回短期間自己相関関数を発生
し、図示のように、線19を介してその出力を供給する
。各自己相関関数は、32の値またはチャンネルを有し
、各位は30ビツトの解に計算される。自己相関器は、
第2図と関連して追ってより詳細に説明する0 線工9上の自己相関関数は、フーリエ変換装置21によ
りフーリエ変換され\線23を介して対応する短期間窓
処理パワスペクトルを発生する。
スペクトルは、自己相関関数と同人じ繰返し数で、すな
わち100ル乍の割合で発生され、そして各短期間パワ
スペクトルは、各16ビツトの解を有する31の数値期
間を有する。理解されるように、スペクトルの31の期
間の各々は、ある周波数バンド内の単一のパーフを表わ
す。フーリエ変換装置はまた、不要なlI接バンドレ、
トスポンスを減するためハニングまたは類似の窓l5I
i数を含むのがよい。
例示の具体例において、フーリエ変換ならびに後続の処
理段階は、好ましくは、本方法にしたがって反復的に必
要とされる演算をスピード化するだめの周辺装置を利用
して一適当にプログラムされた汎用ディジタルコンピュ
ータの制御下で遂行されるのがよい。採用されるコンピ
ュータは1マサチユーセツツ所在のディジタル・エクイ
ツプメント・コーポレーションにより製造されたFDP
−11型である。採用される特定のプレイプロセッサは
、本出願の譲受人に譲渡された米国特許第4゜228.
498号に記載されている。第3図と関連して後述され
るプログラムは、これらの利用可能なデジタル処理ユニ
ットの能力および特性にほぼ基づいて設定される。
短期間窓処理ハワベクトルは、25で指示されるように
周波数レスポンスについて等化される。
しかして、この等化け、追って詳細に示されるように各
周波数バンドまたはチャンネル内に起こるピーク振幅の
関数:唐して遂行される。M26上の周波数レスポンス
:″・を等化されたスペクトルは、□。
100沙の割合で発生され、そして各スペクトルは、1
6ビツトの精度で評価される31の数値期間を有する。
到来音声データの最終的評価を容易にするため1線26
上の周波数レスポンスを等価された窓処理スペクトルは
〜35で指示されるように振幅変換を受ける。これは、
到来スペクトルに非直線的振幅変換を課する。この変換
については追って詳細に記述するが、この点においては
、未知のx来音声信号が基準画業のターゲットパターン
テンプレートと整合し得る精度を改善するものでことを
言及しておこう。例示の具体例において、この変換は、
スペクトルを基準画業の要素を表わすパターンと比較す
る前のある時点において周波数を等化された窓処理スペ
クトルのすべてについて遂行される。
縞38上の振幅変換され等化された短期間スペクトルは
、ついで、以下で説明されるように40でエレメントテ
ンプレートと比較される。42で指示される基準パター
ンは、変換・等価スペクトルを比較し得る統計態様の基
準画業の要素を表わす。「サイレント」が検出される度
に、いま受信されたワードストリングの同一性に関して
決定がなされる。これは44で指示される。このように
して、比較の厳密さにしたがって候補ワードが選択され
、例示の具体例においては、選択工程は、キーワードの
取逃しまたは置換の可能性を最小にするように設計され
る。
第1A図を参照すると、本発明の音声詔誠システムはコ
ントローラ45を採用しているが、これは、例えば、F
DP−11のような汎用ディジタルコンピュータとし得
る。例示の具体例において1コントローラ45は、プリ
プロセッサ46から予処理された音声データを受は取る
。プリプロセッサについては、第2図と関連して詳細に
説明する。。
プリプロセッサ46は、線47を介して音声入力アナロ
グ信号を受信し、インターフェース[i!48を介して
制御プロセッサすなわちコントローラに処理されたデー
タを供給する。
一般に、制御プロセッサの動作速度は、汎用プロセッサ
であると、到来データを実時間で処理するに十分速くな
い。この結果、要素45の処理速度を有効に増すために
、種々の特別目的のハードウェアを採用するのが有利で
ある。本発明の譲受人に譲渡された米国特許第4,22
8,498号に記載されるようなベクメル処理装置48
aは、パイプライン効果を利用することにより相当増大
されたアレイ処理能力を提供する。加えて、第4.5お
よび6図と関連して詳述するように一尤度関数プロセッ
サ48bは一装置の動作速度をさらに10倍増すためベ
クトルプロセッサと関連して使用できる0 本発明の好ましい具体例においては制御プロセッサ45
はデイジタルコンピュ」りであるが−第10図と関連し
て説明される他の特定の具体例においては、処理能力の
相当の部分が、連成解読プロセッサ49において制御プ
ロセッサの外部で実施される。このプロセッサの構造に
ついては、第10図と関連して追って詳細に説明する。
このように、ここに例示される音声認識を実施するため
の装置は、その速度、およびハードウェア、ソフ1□ トウエアまたはハードウェアおよびソフトエアの有利な
組合せで実施できる点において大なる変幻性を有するも
のである。
次にプロセッサについて説明する。
第2図に例示される装置において、固有の平均化の作用
をもつ自己相関機能は、線10を介して供給される到来
アナ鴛グ可聴データ、一般的には音声信号に作用するア
ナログ−ディジタルコンバーター3により発生されるデ
ィジタルデータ列に対して遂行される。コンバーター3
は、線15上にディジタル入力信号を発生する。ディジ
タル処理機能ならびにアナログ−ディジタル変換は、ク
ロック発振器510制御下で調時される0クマツク発振
器は、256,000パルス/秒の基本タイミ・ング信
号を発生し、そしてこの信号は、周波数分割器52に供
給されて、s、oooパルス/秒の第2のタイミング信
号を得る。低速タイミング信号は一アナログーディジタ
ル変換器13ならびにラッチレジスタ53を□(制御す
る。しかして、このラッチV、オ、、i、7.・:′め
、換tl’5E、アア、よ、やい。6換゛! の12ビツトの結゛果を保持するものである。
自己相関積は、レジスタ53に含まれる数に32ワード
シフトレジスタ58の出力を乗算するディジタルマルチ
プライヤ56により発生される0レジスタ58は、循環
モードで動作し、高速クロック周波数により駆動される
から、シフトレジスタデータの1循環は1各アナログ−
ディジタル変換ごとに遂行される。シフトレジスタ58
に対する入力は、1回の循環サイクル中に一度レジスタ
53から供給される。ディジタルマルチプレクサ56に
対する一方の入力は、ラッチレジスタ53から直接供給
され蔦他方の入力は一シフトレジスタの現在出力からマ
ルチプレクサ59を介して供給される。乗算は、高束ク
ロック周波数で遂行される。
このようにして、A/D変換から得られる各位は、先行
の31の変換値の各々と乗算される。技術に精通したも
のには明らかであるように、それにより発生される信号
は、入力信号を1それを32の異なる時間増分だけ遅延
した信号と乗算することと等洒である(1つは遅延Oで
ある)。O遅延相関を得るため、すなわち信号の積を生
ずるため、マルチプレクサ59は、シフトレジスタ60
に各折しい値が導入されつつある時点に、ラッチレジス
タ53の現在値をそれ自体と乗算する。このタイミング
機能は、60で指示される。
これも技術に精通したものには明らかなように、1回の
変換とその31の先行データから得られる積は、適当な
サンプリング間隔についてのエネルギ分布すなわちスペ
クトルを公正に表わさない。
したがって、第2図の装置は、これらの複数組の積の平
均化を行なう。
平均化を行なう累積工程は、加算器65と接続されて1
組の32の累積器を形成する32ワードシフトレジスタ
63により提供される。すなわ、ち、各ワードは、ディ
ジタルマルチプレクサからの対応する増分に加算された
後、再循環され得る。この循環ループは、低周波クロッ
ク信号により駆動されるN分割器69により制御される
ゲート67を通る。分割器69は、シフトレジスタ63
が読み出されるまでに累積されしたがって平均化される
瞬間的自己相関関数の数を決定するファクタにより、低
周波クロックを分割する。
例示の具体例においては、読み出されるまでに80のサ
ンプルが累積される。換言すると、N分割器69に対す
るNは80に等しいo80の変換サンプルが相関づけら
れ、累積された後、分割器69は、線72を介してフン
ピユータ割込み回路71をトリガする。この時点に、シ
フトレジスタ63の内容は一適当なインターフェース回
路73を介してコンピュータメモリに逐次読み込まれる
レジスタ内の32の逐次のワードは、インターフェース
73を介してコンピュータに順番に提示される。技術に
精通したものには明らかなように、周辺ユニット、すな
わち自己相関器プリプロセッサからコンピュータへのこ
のデータ転送は、普通、直接メモリアクセス法により遂
行されよう。8000の初サンプリング速度で80のサ
ンプルが平均化されることに基づき、毎秒100の平均
化相関関数が供給されることが分ろう。
シフトレジスタの内容がコン□“ピユータから読み出さ
れている間、ゲート67が閉成されるから、シフトレジ
スタの各ワードは、OVCリセットされ、累積プロセス
の再開を可能にする。
数式で表わすと、第2図に示される装置の動作は下記の
ごとく記述できる。
アナログ−ディジタル変換器が時間列S(t)を発生す
ると仮定すると(ここにt”OrTO+2TO+・・・
Toはサンプリング間隔(例示の具体例において1/8
000秒))、第2図の例示のディジタル相関回路は、
始動時のあいまいさを無視すると、次の相関関数を計算
するものと考えることができる。
ここにj=o、1、2、−、31、t=80To。
160To、・・・+son’r0.・・・である。こ
れらの相関関数は、第1図のl1119上の相関出力に
対応する。
第3図を参照して説明すると、ディジタル相関器は、各
10ミリ、1秒毎に1相関関数の割合で一連:: のデータブロックをコンピュータに連続的に伝送するよ
うに動作する。これは第3図に77で指示される。各デ
ータブロックは、対応する細分時間間隔に誘導される自
己相関関数を表わす。上述のように、例示の自己相関関
数は、単位秒当り100の32ワード関数の割合でコン
ピュータに提供される。この分析間隔は、以下において
「フレーム」と称される。
第1の例示の具体例において、自己相関関数の処理は、
適当にプログラムされた専眉ディジタルコンピュータで
遂行される。コンピュータプログラムにより提供される
機能を含むフローチャートが第3図に示されている。し
かしながら、段階の種々のものは、ソフトウェアでなく
てハードウェア(以下に説明する)によっても遂行でき
、また第2図の装置により遂行される機能のあるものは
、第3図のフローチャートの対応する修正によりソフト
ウェアでも遂行できることを指摘しておく。
第2図のディジタル相関器は、瞬間的に発生される自己
相関関数の時間平均動作を遂行するが、コンピュータに
読み出される平均相関関数は、サンプルの順次の処理お
よび評価と干渉し合うようなある種の変則的不連続性ま
たは不均一性を含む。
したがって、データの各ブロック、すなわち各自己相関
関数a(j、t)は、まず時間に関して平滑化される。
これは、第3図のフローチャートにおいて78で指示さ
れる。好ましい平滑法は、平滑化自己相関出力as(j
、t)が下式により与えられるものである。
as(j、t)”Coa(j、t)+O+a(j、t−
T)+02a(j、t−2T)(2) ここにa(j、t)は式(1)において定義された不平
滑入力自己相関関数であり、as(j、t)は平滑自己
相関出力であり、jは遅延時間を表わし、tは実時間を
表わし、Tは連続的に発生される自己相関関数間の時間
間隔(フレーム)を表わし、好ましい具体例においては
0,01秒に等しい。重み付は関数00+0、.0.は
、例示の具体例においては好ましくは1/4、1/2、
1/4K選ばれるのがよいが、他の値も選択されよう。
例えば、20■zのカットオフ周波数をもつガウスのイ
ンパルスレスポンスヲ近似する平滑化関数をコンピュー
タソフトウェアで実施できよう。しかしながら、実験に
よれば、式(2)K例示される実施容易な平滑化関数で
満足な結果が得られることが示された。上述のように、
平滑化関数は、遅延の6値Jについて別々に適用される
以下の分析は、音声信号の短期間フーリエパワスペクト
ルに関する種々の操作を含むが、ハードウェアを簡単に
しかつ処理スピードを上げるため、自己相関関数のWi
波数領域への変換は、例示の具体例においては8ビツト
の算術で実施される。3nz近傍のバンドパスの高域の
端では為スペクトルパワ密度が8ビツト量における解像
に不十分なレベルに減する。それゆえ、システムの周波
数レスポンスはS6db/オクターブの上昇率で傾斜さ
れる◇これは79で指示される。この高周波数の強調は
、その変数すなわち時間遅延に関する自己相関関数の二
次微分を取ることにより遂行される。
微分操作は、次式のごとくである。
b(j、O=”(j+1.t)+2a(、i+t)a(
jl、t)(3)j=0に対する微分値を求め鼠、ため
に1自己相関関数はOVc関して対称であるから、a(
s−t)=a(+j、t)であると仮定する。また、(
32)K対するデータはないから、j=31における微
分値は、j=300ときの微分値と同じであると仮定す
る。
第3図のフローチャートで示されるように、分析手続き
の高周波強調後の次の段階は、自己相関のピーク絶対値
を見出すことにより現在のフレーム間隔における信号パ
ワを算出することである。
パワの概算値pft)は次のごとくなる。
p(t)==ll1aXlb(i、jl(4)8ビツト
スペクトル分析のための自己相関関数を用意するため、
平滑化自己相関関数は、p(t)に関してブロック標準
化され(80にで)、各標準価値の上位8ビツトがスペ
クトル分析ハードウェアに入力される。それゆえ、標準
化されかつ平滑化された自己相関関数は次のごとくなる
e(j、t)=127b(j、t)/p(t)(5)つ
いで、81で指示されるように、時間に関して平滑化さ
れ、周波数強調され、標準化された各相関関数に余i′
7−リエ変換が適用され、31点のパワスペクトルを生
成する。余弦値のマトリックスは次式で与えられる。す
なわち、 s(i、j)=126g(i)(cos(2ri/80
00)f(j))。
j=o、1.2.・・・、31(6) ここに、s(i、j)は、時刻tにおける、f(j)H
zに中心を置くバンドのスペクトルエネルギ、g(i)
=”/2(1+cos2ri/63)ハ、サイトローフ
ヲ減するための(ハミング)窓関数エンベロープである
、および f(j)=30+1000(0,0552j+0.43
8)110.63Hz、(7)j=’o、1,2.・・
・、31 これは、主楽音ピッチいわゆる「メル」曲線上に等しく
離間された分析周波数である。明らかなように、これは
、約3000〜5000Hzの代表的通信チャンネルの
バンド幅の周波数に対する主ピッチ(メルスケール)周
波数軸線間隔に対応する。
スペクトル分析は、−31から+31までの遅を加算を
必要とするから、自己相関が0に関して対称であるとい
うことを仮定すれば、Jの正値しか必要としない。しか
しながら、遅れOの項を2度計算することを避けるため
に、余弦マトリックスは次のように調節される。
s(0,j)=126/2=63.余jに対して(8)
かくして、計算されたパワスペクトルは次式により与え
られる。
ここで第j番目の結果は周波数r(j)に対応する。
これも明らかなように、各スペクトル内の各点すなわち
値は、対応する周波数バンドを表わす。
このフーリエ変換は従来のコンピュータハードウェア内
で完全に遂行できるが、外部のハードウェアマルチプレ
ックサまたは高速フーリエ変換(FFT)周辺装置を利
用すれば、工程はかなりスピー・ド化し得よう。しかし
ながら、この種のモジュールの構造および動作は技術上
周知であるから、ここでは詳細に説明しない。ハードウ
ェア高速7−リエ変換周辺装置には、周波数平滑機能艇
組み込まれるのが有利であり、この場合、各スペクトル
は、上述の好ましい(ハミング)窓重み付は関数g(i
)K従って周波数が平滑される。これは、ハードウェア
によるフーリエ変換の実施に対応するブロック85の8
3で実施される。
バックグラウンドノイズが相当ある場合、バックグラウ
ンドのパワスペクトルの概算値が、この段階においてs
’(j、t)から減算されねばならない。
ノイズを表わすために選択したフレーム(1または複数
)には、音声信号を含ませてはならない。
雑音フレーム間隔を選択する最適のルールは、応用にし
たがって変わるであろう。話者が例えば言声認識装置に
より制御される機械で相互通信に掛わり合う場合、例え
ば、機械がその音声応答ユニットによる話しを終了した
直後の間隔に任意にフレームを選択するのが便利である
。拘束がより少ない場合には、過ぎ去った工ないし2秒
の間の音声入力の最小の振幅のフレームを選択すること
によりノイズフレームを見出すことができる。追って詳
細に説明されるように、最小振幅「サイレント」パター
ン、実際には2つのI′交互の「サイレンベ ト」パターンの使用は、有利なj・□装置動作をもたら
すことは明らかである。
逐次の平滑パワスペクトルが高速フーリエ変換周辺装置
85から受信されると、以下で説明されるように1周辺
装置85からのスペクトルに対するビークパワスベクト
ルエシベロープ(一般に異なる)を決定し、それに応じ
て高速フーリエ変換装置の出力を変更することにより通
信チャンネルの等化が行なわれる。到来する窓処理パワ
スペクトルs’(j、t、)(ここにjはスペクトルの
複数の周波数に割り当てられる)に対応しかつ該スペク
トルにより変更された新たに発生された各ピーク振幅は
1各スペクトルチヤンネルまたはバンドに対する高速ア
タック、低速デケイ、ピーク検出機能の結果である。ウ
ィントートパワスペクトルは、対応するピーク振幅スペ
クトルのそれぞれの期間に関して標準化される。これは
、87で指示される。
例示の具体例においては、新しいウィンドートスベクト
ルを受け)継る前に決定された「古い」ピーク振幅スペ
クト(IUp(j、t−T)が、新たに到来したスペク
トルS・(J、tll’5”’・:□i波数バンドと周
波数バンドとを比較するやり方で比較される。ついで、
新しいピークスペクトルp(j、t)が、下記の規則に
したがって発生される。「古い」ピーク振幅スペクトル
の各バンドのパワ振幅は、この具体例においては固定分
数、例えば1023/1024と乗算される。
これは、ピーク検出関数の低速デケイ部分に対応する。
到来スペクトル”(jlt)の周波数バンドJのパワ振
幅が、崩壊ピーク振幅スペクトルの対応する周波数バン
ドのパワ振幅より大きければ、その(またはそれらの)
周波数バンドに対する崩壊ピーク振幅スペクトル値は、
到来するウィンドートスベクトルの対応するバンドのス
ペクトル値と置き代えられる。これは、ピーク検出関数
の高速アタック部分に対応する。数学的には、ピーク検
出関数は、次のように表現できる。すなわちp(j、t
)”maXp(j、t−T)”(1−1)−p(t)−
5(j、t)?(In、j=0.1.・・・、31 ここに、jは周波数バンドの各々に割り当てられ、p(
j、t)は生じたピークスペクトルであり、p(j。
t−’I’)は「古い」すなわち先行のピークスペクト
ルであり、S’(Jlt)は新たに到来した部分的に処
理されたパワスペクトルであり、p(t)は時刻tにお
けるパワ概算値であり、刀はデケイパラメータである。
式(11にしたがうと、ピークスペクI・2)は、より
高値のスペクトル入力の不存在の場合、1−刀の率で通
常崩壊する。普通、Iは1/1024に等しい。しかし
ながら、サイレントの期間中、特に通信チャンネルまた
は音声特性の迅速な変化が予測されない場合、ピークス
ペクトルのデケイな許すことは望ましくなかろう。サイ
レントフレームを限定するためには、バックグラウンド
ノイズフレームを選択するのに採用されたのと同じ方法
が採用される。過ぎ去った128のフレームの振幅。
(p(t)の平方根)が検査され、最小値が見つけられ
る。現在フレームの振幅がこの最小値の4倍より小さけ
れば、現在フレームはサイレントであると決定され、I
に対して、値1/1024の代わりに値「O」が置き代
えられる。
ピークスペクトルが発生された後、生じたピーク振幅ス
ペクトルp(j、”t)は、各周波数バンドピーク値を
新たに発生されたピークスペクトルの隣接する周波数に
対応するピーク値と平均することにより、周波数が平滑
化される(89)。しかして、平均値に寄与する全周波
数バンド幅は、フォーマント周波数間の代表的周波数間
隔に概ね等しい。
音声認識の技術に精通したものには明らかなように1こ
の間隔は、約1000Hzである@この特定の方法によ
る平均化により、スペクトル内の有泪情報、すなわちフ
ォーマント共鳴を表わす局部的変動が維持され、他方、
周波数スペクトルの全体的な強調は抑制される。好まし
い具体例においては、ピークスペクトルは17つの防接
する周波数バンドをカバーする移動平均関数により周波
数に関して平滑化される。平均関数は次のごとくであバ
スバンドの終端において1.p(k、t)は、0より小
さいkおよび31より大きし、1.kに対して0となる
1□ 標準化−ryへo−7’h(j)は、1寒際に加算され
た有効データ要素の数を考慮に入れる。かくして、h(
0=7/4、h(1+=715、h(21=7/6、h
(3)=1、・・・。
h(4))=1.h(29)=7/6.h(30)=7
15.そしてh(31)=7/4となる。得られた平滑
化ピーク振幅スペクトルe(j、t)は、ついで、いま
受信されたパワスペクトルを標準化し、周波数等化する
のに使用されるが1これは到来平滑化スペクトル’(j
tt)の各周波数バンドの振幅値を、平滑化ピークスペ
クトルe(j、t)の対応する周波数バンド値で分割す
ることにより行なわれる。数学的にこれは、次のように
表わさせる。
5n(j、t)=S(j、t)/e(j、t)3276
7a2ここに、5n(f、t)は、ピーク標準化され平
滑化されたパワスペクトルであり、Jは各周波数バンド
に対して割り当てられる。このステップは、91で指示
されている。ここで、周波数等化されかつ標準化された
一連の短期間パワスペクトルが?lられるが、このスペ
クトルは、到来音声信号の周波数含分の変化が、強調さ
れ、一般的な長期間周波数−。
強調または歪ば抑制されたものである。この周波数補償
方法は、補償の基準が全信号または各周波数バンドのい
ずれにおいても平均パワレベルである通常の周波数補償
システムに比して、電話線のような周波数歪を生ずる通
信リンクを介して伝送される音声信号の認識において非
常に有利であることが分った。
逐次のスペクトルは種々処理され、等化されたが、到来
音声信号な衷わすデータはなお100/秒の割合で生ず
るスペクトルを含んでいることを指速しておく。
91で指示されるように標準化され、周波数等化された
スペクトルは、91で指示されるように振幅変換を受け
る。これは、スペクトル振幅値に非直線的なスケール操
作をなすことにより行なわれる。
5n(j、t)(式12から)のごとき個々の等化され
標準化されたスペクトルを選択すると(ここにjはスペ
クトルの異なる周波数バンドを指示し、tは実時間を表
わす)、非直線スケール化スペクトル4(j、t)は、
次の直線分数関数により定義されるここにAはj=0〜
31までのスペクトル5n(jtt)の平均値であり、
下記のように定義される。
ここでjはパワスペクトルの周波数バンドを指示する。
スペクトルの31の期間は、次式のように人の対数によ
り置き代えられる。すなわち、!(31,t)=16l
og、Aa!!このスケール関数(式13)は、短期間
平均値ムから大きく偏ったスペクトル強度に対して柔軟
なスレッショルドおよび漸進的な飽和の作用を及ぼす。
数学的に述べると、平均近傍の強度に対して概ね直線的
であり、平均から離れた強度に対して概ね対数的であり
、極端な強度値に対して実質的に一定である。対数スケ
ールの場合、関数X(j。
t)は0に関して対称であり、聴覚神経を刺激するよう
な割合の関数を示唆するようなスムツショルドおよび飽
和の振舞を示す。実際に1全認識システムは、この特定
の非直線スケール関数の場合、スペクトル振幅の直線ま
たは対数スケールのいずれかの場合よりも相当良好に機
能する。
このようにして、振幅変換され、周波数レスポンスを等
化され、標準化された一連の短期間パワスベトルX(j
、t)(ここIC,t=o、o1、0.02。
0.03、0.04秒、j=0.・・・、30(発生さ
れたパワスペクトルの周波数バンドに対応)が発生する
。各スペクトルに対して32ワドが用意され、A(式1
5)、すなわちスペクトル値の平均値の値は、32ワー
ドとして記憶される。以下において「フレーム」として
言及されるこの振幅変換された短期間パワスペクトルは
、例示の具体例においては、95で指示されるように、
256の32ワードスペクトルに対する記憶容量をもつ
ファーストイン・ファーストアウト循環メモリに記憶さ
れる。かくして、例示の具体例においては、2.56秒
の音声入力信号が分析のため、に利用可能となる。
この記憶容量は、もし必要ならゴ、・シ、分析および評
価のため異なる実時間でスペクトルを選択し、したがっ
て分析上必要に応じて時間的に前進、後進できるような
変幻性をもつ認識システムを提供する。
このように、最後の2.56秒に対するフレームは循環
メモリに記憶され、必要なときに利用できる。例示の具
体例においては1動作中1各フレームは2.56秒記憶
される。かくして、時刻tlにおいて循環メモリに入っ
たフレームは、2.56秒後、時刻t+2.56秒に対
応する新しいフレームが記憶されるとき1メモリから失
なわれる、すなわちシフトされる。
循環メモリ中を通るフレームは、好ましくは実時間にお
いて既知の範囲のワードと比較され、ワ。
−ドストリングと呼ばれるワード群において人力データ
を決定し識別させる。各画業ワードは、複数の非重複の
マルチフレーム(好ましくは3フレーム)デザインセッ
トバタンに形成され複数の11:。
処理パワスペクト1::りを統計的に表わすテンプレー
トパターンによりf、l’、m、わされる。これらのパ
ターン□。
は、語禽ワードの意□味のある音響事象をもつともよく
表わすように選択されるのがよく、そして94で記憶さ
れる。
デザインセットバタンジを形成するスペクトルは、第1
図に図示される線10上の連続する未知の音声入力を処
理するため、上述のシステノ、を使って種々の状況で話
されるワードに対して発生される。
このように1各語粟ワードは、それと関連する一般に複
数の一連のデザインセットバタンpQ)t+p(’)z
r・・・を有しており、各パターンは、短期間スペクト
ルの領域においてその1番目のキーワードについての1
つの指示を与える。各キーワードに対するデザインセッ
トパターンの集まりは、ターゲットパターンを発生する
Kついての統゛計的基準を形成する。
本発明の例示の具体例において、デザインセットパター
ンp(i)jは、各々、直列に配列された3つの選択さ
れたフレームを構成する96要素配列と考えることがで
きる。パターンを形成する7レームは、時間に関する平
滑に起因する不要相関を避けるため少なくとも30ミリ
秒離間されるべきである。本発明の他の具体例において
は、フレームを選択するため他のサンプリング法を実施
できる。
しかしながら、好ましい方法は、フレームを一定継続時
間、好ましくは30ミリ秒離間してフレームを選択し、
非重複デザインセットパターンをキーワードを限定する
時間間隔中離間させる方法である。すなわち、第1のデ
ザインセットパターンp、は1キーワードの開好点近傍
の部分に対応し、第2のパターンp、は時間の後の部分
に対応し、以下同様であり、そしてパターンpH+p2
1・・・は、一連のターゲットパターンに対する統計的
基準、すなわちワードテンプレートを形成し、到来音声
で−タはこれに整合されるのである。ターゲットパター
ンはtl”t+・・・は、各々、p(i)jが独立ラプ
ラシアン変数より成ることを仮定することKより対応す
るp(i)jから発生される統計データよりなる。この
仮定は、以下で説明される到来データとターゲットパタ
ーン間に尤度統計データが生成されることを可能にする
。かくして、ターゲットパターンは、エントリとして、
集められた対応するデザインセットパターン配列エント
リに対する平均値、標偏差およびエリヤ標準化率を含む
配列より成る。より精確な尤度統計データについては後
で説明する。
技術に精通したものには明らかなように、はとんどすべ
てのワードは、2以上の文脈上および/または地域的な
発音を有し、したがってデザインセットパターンの2以
上の「スペリング」を有している。かくして、上述のパ
ターン化スペリングpH+pt・・・を有する画業ワー
ドは、実際上、一般にp(’)1+p(i)2+・・・
、i=1.2.・・・2Mとして表両でる。ここにp(
i)jの各々は、第j番目のクラスのデザインセットパ
ターンについての可能な代替的記述方法であり、各ワー
ドに対して全部でMの異なるスペリングがある。
それゆえ、ターゲットパターンtI+t2L・・・、t
lは、もつとも一般的意味にお]′いて、各々、第1番
目のグループまたはクラスの・デザインサットパタ□ 一ンに対する複数の代替的統計的スペリングを表わす。
このように、例示の具体例において、「ターゲットパタ
ーン」なる用語は、もつとも一般的意味において使用さ
″れており、したがって、各ターゲットパターンは、2
以上の許容し得る代替的「統計的スペリング」を有し得
る。
到来する未知の音声信号および基準パターンを形成する
音声信号の予備処理は、これで完了する。
−次に、記憶されたスペクトルの処理について説明する
米国特許第4,241,329号、第4,227,17
6号および第4,227,177号に記載される、音声
パターンを検出ワードに結び付けるキーワード認識法の
より深い研究によれば、それがより一般的でおそらく優
れた方法の特別の場合であることが分った。
第4図を参照して説明すると、ワード認識の探索は、抽
象的な状態空間中に適当な路を見つける問題として表わ
すでとができる。この図において、各日は、ドウエ・々
(引延し)時間位置またはレジスタとも指称され、、、
る可能な状態を表わし、決定プロセスはこれを通゛′る
ことかできる。垂直鎖[120,122間の空間は、パ
ターンが現在の音素に整合するかしないかを決定する際
に決定プロセスが通過し得る仮定の状態を各々表わす。
この空間は、必須のドウエル時間部分124と、任意の
ドエル時間部分126に分けられる。必要なドウエル時
間部分は、「現在の」音素またはパターンの最小継続時
間を表わす。任意または必須ドウエル時間部分内の各日
は、形成されるフレームの連続体のフレーム時間を表わ
し、フレームからフレームまでの0.01秒の間隔に対
応する。かくして、各日は、1つのワードスペリングに
おける仮定の現在音素位置を表わし、そして(o、oi
秒の)フレームの数は、現在の音素が始まってから経過
した時間を仮定し、その音声またはターゲットパターン
におけるそれより前の円の数に対応しており、パターン
の現在の継続を表わす。1つのパターン(音素)が始ま
り、最小のドウエル時間間隔が経過した後、次のターゲ
ットパターン(音素)の第1の節点すなわち位置(円)
128に進むには数本の可能な路がある。これは、スペ
リングの次のパターン(音素)へ移動することの決定が
いつなされるかに依存する。これらの決定の可能性は、
この図においては、円128に向う数本の矢により表わ
される。
次のパターン(音素)の始点は円128により表わされ
ているが、次のパターンへのこの変換を才、現在のパタ
ーン(音素)の任意のドウエル時間中の任意の節点すな
わち位置から、または必須ドウエル時間間隔の最後の節
点からなされよう。
米国特許第4,241,329号、第4,227,17
6号および第4,227,177号に記載のキーワード
認識方法は、次のパターン(音素)に関する確度スコア
が現在のパターン(音素)K関する確度スコアより良好
であるような第1の節点で変換を行なう。すなわち、フ
レームが、現在の音素またはパターンより次の音素また
はパターンとよく整合する点でなされる。他方、全ワー
ドスコアは、フレーム当りの(すなわち路に含まれる節
点当りの)平均パターン(音素)スコアである。現在の
節点までのワードスコアに適用される「全スコア」の定
義と同じ定義が、変換をいつなすべきかを決定するのに
使用できる。すなわち、次のパターンへの変換を、例え
ば変換指示線130に対応する最初の機会でなすべきか
、あるいは例えば変換指示線132に対応するもつと後
の時点になすべきかの決定に使用できる。最適には、節
点当りの平均スコアが最良であるような路を次のパター
ン(音素)中に選ぶことになる。米国特許第4.241
,329号、第4,227.176号および第4,22
7,177号に記載される標準的キーワード法は、次の
パターン(音素)に移動すべきことの決定をなした後潜
在的な路について試験をしないから、平均スコア/節に
より測定されるところにしたがってほぼ最適の決定をな
すことになろう。
したがって本発明は、キーワード認識に平均スコア/節
法を採用する。問題は、追って詳細に説明されるワード
ストリング認識と関連して起こり、含まれる節点の数に
よりすべての部分的ワードスコアを標準化するか(これ
は計誓上不効率的である)、あるいは累積値をバイア哀
して明白な標準化を不必要としなければならない。クロ
ーズトポキャブラリ−タスクにおいて使用すべき自然バ
イアス値は、現在の分析時間で終了する最良のワードに
対する不標準化スコアである。したがって、全節点にお
ける累積スコアは、つねに、同じ数の基本的パターンス
コアの総和となろう。さらに、スコアは、このバイアス
値により現在の分析節点で終わる最良のワードストリン
グのスコアに変換される。
平均スコア/節点による決定法は、米国特許第4.22
8,498号に記載されるベクトルプロセッサで動的プ
ログラミング技術を使用することにより効率的に実施で
きる。この態様でプログラム設定されるとき、処理速度
は、より多くの仮定試験が必要とされるとしても、米国
特許第4,241,329号、第4,227,176号
および第4,227,177号に記載される標準的キー
ワード認識法よりもずっと速い。
−□〇よいつで□、・′1、ワー)’、、、)り/7ケ
や、オ。
、’Ill。
ためには、プログ′□□□::→、、ムに1各分析節点
で終わる仮定するのに最良の語゛禽ワードの名前を記憶
させる。
また、この最良のワードが始まった節点(時間)も記憶
する。ついで、発声の終りからバックトレーシングし一
記憶されたワードの名前に留意し一現在のワードの指示
された開始点に次の前述のワードを見つけることにより
、最良のワードストリングが発見される。
語紮ワードとしてサイレントを含ませると、ワードスト
リングに含まれるワードの数を特定することは不必要と
なる。ストリングを見つけるためのバックトラッキング
の動作は、サイレントワードが最良のスコアを有すると
きに実行され、そして先のサイレントが次に検出される
ときに終了する。かくして、話者が息を止める度にスト
リングが見出される。
ここに記述されるワードストリング誠別法は、個々のキ
ーワニドの検出よりも抽出しベルが高い方法である。ワ
ードストリングスコアにより、発声中のすべての音声を
あるワードストリングに強性的に含ませるから、単純な
ワードスポツティング法よりも有利である。後者の方法
は1長いワード中忙誤挿のワードを検出することが多い
有利なことは、ワードストリングスコアにタイミンクパ
ターンが必要でないことである。これは、ワード連結器
が各ワード終了の仮定ごとにワード開始時間を出力する
からである。もつとも簡単なストリング連結器は、これ
らのワード開始時間が正しいことを仮定する。サイレン
トの検出で、ワードストリングがいま終ったこと、およ
び最後のワードの開始点が先のワードの終了点で(これ
もサイレントの場合もある)あることを仮定する。
通常、ストリングの各ワード対間には文脈に依存する変
換はないから、装置で、先行のワードの最良の終了点を
見つけるように各ワードの開始点の近傍を探索すること
ができるようにするのが好ましかろう。
次に、ハードウェアおよびソフトウェアの具体例を含む
方法および装置について詳細に説明する。
第3図を参照して説明すると、まず、到来連続音声デー
タを表わす95で記憶されたスペクトルまたはフレーム
は、下記の方法にしたがって語禽のキーワードを表わす
記憶されたターゲットパターンテンプレート(96)と
比較される。
各10ミリ秒のフレームに対して、記憶された基準パタ
ーンと比較のためのパターンは、現在のスペクトルベク
トルs(j、t)s3フレーム前のスペクトルs(j+
t−0,03)、および6フレーム前のスペクトルs(
j、t−0,06)を隣接させて下記の96要素パター
ンを形成することKより97で形成される。
上述のように1記憶された基準パターンは一1認識され
るべき種々の音声パターンクラスに属する先に集められ
た96要素パターンの平均値、標準偏差およびエリヤ標
準化ファクタより成る。比較は、入力音声が特定のクラ
スVCRすることを予測する値x(j、t)の確率モデ
ルにより遂行される。
確率モデルについてはガウ゛スの分布を利用でき−す るが(例えば上述の米国特許−4,241,329号、
第4.227,176号および第4,227,177号
参照)、ラプラス分布、すなわち p(x)=(1/v’2s’)exp−(v/2lx−
m)/s’)(ここKmは統計平均、8は変数Xの標準
偏差である)は、計算が少なくてすみ、例えば米国特許
第4,038,503号に記載される話者に不依存性の
隔絶ワードWIt識法におけるガウスの分布とほとんど
同様に機能することが分った。未知の入カバターンIと
第に番目の記憶基準パターン間の類似の程度L(xlk
)は、確率の対数に比例し、次の式で100で算出され
る。
一連のパターンの尤度スコアLを結合して話されたワー
ドまたはフレーズの尤度スコアを形成するため、各フレ
ームに対するスコアL(XIX)は、そのフレームに、
、対する全基準パターンの最良の(最小の)スコアを減
寒ることにより調節される。すなわち、L’(xlk)
二L(xlk)−minL(xii)allしたがって
、各フレームに対する最良の適合パターンは、Oのスコ
アを有するであろう。仮定された一連のパターンに対す
る調節されたスコアは、フレームごとに累積され、指示
された一連のシーケンスを支持する決定が正しい決定と
なるよりなN確率に直接に関係づけられたシーケンスス
コアを得ることができる。
記憶された既知のパターンに対する未知の入カスベクト
ルパターンの比較は、k番目のパターン対する下記の関
数を計算することにより遂行される。すなわち1 ここKSL3.ikは1/s’1kに等しい。
通常のソフトウェアで実施される計算においては、代数
関数5lx−ul(式19)を計算するために下記の命
令が実行されよう。
1、X−uを計算せよ 2、x−uの符号を試験せよ Kx、−uが負ならば、絶対値を形成するように否定せ
よ 4、百と乗算せよ 5結果をアキュムレータに加えよ 20−ワード画集を有する代表的音声認識システムにお
いては、約222の異なる基準パターンが設けられよう
。これを求めるに必要とされるステップの数は、間接動
作を含まないと55X96X222=10560ステツ
プであり、これが、実時間スペクトルフレーム速度に遅
れないようにするため一10ミリ秒以内で実行されなけ
ればならない。それゆえ、プロセッサは、尤度関数をJ
度求めるためには、はぼ1100万/秒の命令を実行で
きなければならない。必須の速度を考慮に入れて、米国
特許第4,228,498号に開示されるベクトルプロ
セッサシステムと適合する専用の尤度関数ハードウェア
モジュール200(jI41m)が採用される。
この専用ハードウェアにおいては、上述の5つのステッ
プが、2組の変数S%X%uととも同時に遂行されるか
ら、実際には、1つの命令を実行するのに要する時間で
10の命令が遂行される。
基本的ベクトルプロセッサは800万(命令)/秒の速
度で動作するから、尤度関数に対する有効計算速度は、
専用ハードウェア200が採用されると約8000万(
命令)7秒となる。
第5図を参照すると、ハードウェアモジュール200は
、10のステップの同時の実行を可能にするため、ハー
ドウェアによるパイプ処理および並列処理の組合せを採
用している。2つの同一の部分202,204は、各々
、独立の入力データ変数について5つの算術演算ステッ
プを遂行しており、結果はその出力に接続された加算器
206により結合される。加算器206からの加算値の
累積は、式(19)の1〜96の加算であり、そしてこ
の値は、米国特許第4,288,498号に記載される
標準的ベクトルプロセッサの演算ユニットテ処理される
動作において、パイプライタ。結合レジスタは、以下の
処理段階における中間デニタを保持する。
1、入力変数(り四ツク作動レジスタ208.210.
212.214.216.218)2、x−uの絶対値
(り四ツク作動レジスタ220.222) 五乗算器の出力(クロック作動レジスタ224.226
) 入力データがクロック作動レジスタ208〜218に保
持されると、’z−uの大きさが、減算・絶対値回路に
より決定される。第6図を参照すると、減算・絶対値回
路228.230は1各々第1および第2の減算器(一
方はx−uを算出、他方はu−Xを算出)および正の結
果を選択するためのマルチプレクサ236を備えている
。レジスタ208.210から出る41238.240
上の入力変数IおよびUは、それぞれ−128〜+12
7の8ビツト数である。8ピツト減算器の差出力は9ビ
ツトにオーバーフp−することがあるから(例えば12
7−(−128)=255)、オーバーフロー状態を取
り扱うため余分の回路が採用される。状態はオーバミツ
ロー検出器235により決定される。しかして、その入
力は、「x」の符号(線235a上)、「u」の符号(
il!235b上)および「ニーU」の符号(線235
C上)である。
次KJI!7図を参照すると、オーバーフルー検出器は
、この例示の具体例においては、3人力避Jゲート26
8.27oおよびORゲート272を有する組合せ回路
である。第8図の真値表は、オニバーフロー条件を入力
の関数として表わしている。
オーバーフロー条件は、マルチプレックサ236、(こ
れは正の減算器出力を選択する回路である)で4つの選
択を行なうことにより処理される。選択は、線242お
よび244上の2進レベルで定められる。線242上の
レベルは、X−Hの符号を表わす。244上の符号は、
1ならばオーバーフローを表わす。
かくして、選択は次のごとくなる。
@224線224 00減算器232の出力を選択 10減算器234の出力を選択 マルチプレックサはこのように制御されて、8極4位置
スイッチのように作用する。シフト動作は、組合せによ
り減算出力を適当なマルチプレクサに接続することによ
り遂行される。シフトは、算術的に2で分m*る効果を
もつ。
減算中にオーバーフローが起こると、マルチプレクサの
出力は、減算器の出力を2で分割した出力となる。それ
ゆえ、最終結果を2で乗算して正しいスケールファクタ
を取り戻すことができるように1計算の後段でこの条件
を思い出させることが必要である。この復旧は、最後の
パイプ処理レジスタの後のマルチプレックサで行なわれ
る。それゆえ、パイプライン処理レジスタ220.22
2.224.226には余分のビットが設けられており
、第2のマルチプレクサ248.250を制御する。
後者のマルチプレクサは、オーバーフロービット(IK
等しい)の場合、それぞれ8×8ビツトの乗算器252
.254の乗算積を1ビツトだけシフトアップし、2を
乗算する。乗算演算は8ビツト数を受は入れその積を出
力する〒RWMPY−8−HJのごとき標準的集積回路
装置で実施できる。
かくして、乗算器252.254は、各クロックパルス
で百およびlx”ulの積を生ずる(百の値は余分のデ
ータレジスタ256.2’58により正しく調時される
)。乗算器252.254の出力は、レジスタ224s
226にバッファ記憶され、線260.262を介し、
加算器206を経て残りの回路に出力される。
同じ専用ハードウェアモジュールは、マトリックス乗算
において必要とされるような2ベクトルの内部積を計算
するのにも採用できる。これは、減算・絶対値回路22
8.230において側路を可能とするゲート回路264
.266で遂行される。この動作モードにおいては、デ
ータデおよび百人力バスは、乗算器入力として、パイプ
ライン処理レジスタ220,222に直接加えられる。
次に、ワードレベルパターン整列について説明する0、
・・1゜ 未知の入力音声と各画業ワードテンプレート間の対応を
最適化するためには、動的なプログラミング(101)
が採用されるのが好ましい。各ワードテンプレートは1
上述の一連の基準パターン統計データだけでなく、各基
準パターンと関連する最小および最大のドウエル時間を
含むのがよい。
動的プログラミング法にしたがえば、各画業ワードに対
して1つの記憶レジスタが提供される。レジスタの数は
、そのワードを構成する基準パターンの最大のドウエル
時間の和に等しい。すなわち、もつとも長い許容ワード
継続時間に比例する。これらのレジスタは、第4図の円
に対応し、各日に対して1つのレジスタがある。入力音
声の各フレームに対して、全レジスタが読み取られ、書
き込・まれる。各レジスタは、追って詳述されるように
、指示された画業ワードが話されつつあるということ、
およびその、ワードにおける現在位置が、そのレジスタ
の特定の基準パターンおよびドウエル時間に対応すると
いう仮定に対応する累積された尤1 :1゜ 度スコアを含む□0.全レジスタは、低い尤度スコアを
含むようにイニシャライズされ、上記の仮定が、最初い
ずれも容認できるほどに起こりそうでないことを指示す
る。
レジスタ更、新の規則は下記のごとくである。
各ワードテンプレートの最初のレジスタ(すなわち、そ
のワードがいま発声され始めたという仮定に対応するレ
ジスタ)は、(a)そのワードの第1の基準パターンに
関する現在のフレームの尤度スコアと、(b)全語禽ワ
ードの全レジスタの最良のスコア(すなわち、あるワー
ドが先行のフレーム上で完了されたという仮定に対する
累積尤度スコア)の和を含む。
ワードテンプレートの第2のレジスタは、(a)そのワ
ードの第1の基準パターンに関する現在のフレームの尤
度スコアと、(1:+)先行のフレームからの第1のレ
ジスタの内容を含む。かくして、第2のレジスタは、指
示されたワードが発声されつつあり、それが先行のフレ
ームで始まったという仮定のスコアを含む。
最小および最大の継続時間の間のドウエル時間(任意ド
ウエル期間)に対応するこれらレジスタの更新処理中、
各逐次の「現在フレーム」に対する任意的ドウエル期間
に対応するレジスタに、最良の累積された尤度スコア(
レジスタの内容)を記憶するため、別個のメモリレジス
タが採用される。先行のフレーム時間に見出されたこの
最良のスコアは、そのワードに対する次のターゲットパ
ターンまたシまテンプレートの必須ドウエル時間に対応
する第1のレジスタの次の内容を計算するのに使用され
る。このように、次の基準パターンの最初f)vシスタ
の現在の内容は−その最良のスコア(先行するターゲッ
トパターンの)を、前記の次の基準またはターゲットパ
ターンに関する現在の入力フレームの尤度スコアに加え
ることにより発生される。
#!4図において、基準パターンの必須ドウエル間隔の
第1のレジスタ128に至る多重の矢印は、任意ドウエ
ル時間レジスタまたは状態から必須ドウエル時間レジス
タまたは状態への変換が、任意ドウエル時間間隔中の任
意の時点に、または必須ドウエル時間間隔の最後のレジ
スタから生ずることを指示することを意味している。か
くして、現在の情報に基づくと、ワードテンプレートと
入力パターン間の最良の適応は、次のパターンが丁度始
まりつつあるとき、先行のパターンが、先行の任意ドウ
エル期間の最良のスコアを含むレジスタ+先行の必須時
間間隔の最後のレジスタ(例示の具体例においてレジス
タ300)に対応する継続時間をもったということを仮
定するものである。
動的プログラミングの理論によれば\全部の可能なドウ
エル時間に対応する先に累積されたスコアを保存してお
く必要はない。それは〜この理論によると、低スコアを
生じたドウエル時間変換点は、将来の全処理段階におい
て低スコアを発生し続けるからである。
分析は、全ワードテンプレートの全基準パターンの全レ
ジスタを使って上述の態様で進行する。
各ワードテンプレートの最後のパターンの最後のレジス
タ(単数または複数)&i、ワードがいま丁誦 度終了したという仮定のスコア、:、を含む。
尤度スコアの累積中、一連の継続時間計数値は、各フレ
ーム時間で終了する最良のワードの継続時間を決定する
ため維持される。計数は、ワードの第1テンプレートパ
ターンの第ルジスタで「1」で開始される。テンプレー
トパターンの各画2および後続のレジスタに対して、種
々のレジスタと関連される計数値は「1」だけインクリ
メントされる。しかしながら、基準パターン(1つのワ
ードの第1基準パターン以外の)の開始点に対応する各
レジスタ、すなわち例えば必須ドウエル時間間隔の第ル
ジスタ128については、先行のフレーム時間において
最良の尤度スコアを有する先行の基準パターンの任意ド
ウエル時間レジスタ(または最後の必須ドウエル時間レ
ジスタ)の計数値が、レジスタに対する継続時間計数値
を形成するようにインクリメントされる。
追つ詳細に記載されるバックトラッキング機構を提供す
るため1.各フレーム時間ごとに、そめ時間で終わる最
良★コアのワードおよびその継続時間についての情ti
”轟、循環バッファメモリに転送される。一連のワード
が終了すると、記憶されたワード継続時間は、最後の「
最良」ワードの終端から1その継続時間を逆上って、「
最後のワード」直前で終了する最良の先行ワードに至る
までなど、ワードストリングの全ワードが識別されてし
まうまでバックトレーシングすることを可能にする。
連続的に発声される画業ワードのストリングは、サイレ
ントにより境界を定められる。それゆえ、「サイレント
」は、シ7テムが応答・認識する■索ワード」の範匣の
限界を定める制御ワードとして働く。前述のように1装
置がある期間の間の最小振幅信号を検出し、「サイレン
ト」として示すことは珍しくなくない。
しかしながら、本発明によると・ワードテンプレートの
1つが、サイレントまたはバックグラウンドノイズに対
応している。サイレントワードが最良の尤度スコアを有
すれば、一連のワードが一丁度終了しそして新しい一連
のワードが始まることが推定される。認識のプロセスの
最後のイニシャライズ以後サイレント以外のワードが最
良のスコアを有したか否かを知るたゆ、フラグレジスタ
が試験される。「サイレント」以外の少なくとも1ワー
ドが最良のスコアを有すれば(103)循環バッツァ内
のワードストリングがバックトレースされ(105)、
生じた認識されたメツセージが、表示装置または他の制
御装置に伝達される。次いで1循環バツフアはクリヤさ
れてメツセージの反復伝達を阻止し、フラグレジスタは
クリヤされる。
このようにして、装置は次のワードストリングを認識す
るようにイニシャライズされる(107)。
有利なことKは、本発明の好ましい具体例においては、
他の「キーワード」スペリングと同じように11以上の
「サイレント」スペリングを採用できる。′すなわち、
装置は、単に、演鐸的な1組の規準に一致するときにす
なわち演鐸的ターゲットパターンに一致するときにサイ
レントを検出することに限定されるだけでなく、動的に
変化するターゲットパターンまたはテンプレートを採用
して、装置の「サイレント」検出能力をざらに改善でき
る。このようにして、上述のように、音声の先行の1ま
たは2秒の部分を周期的に試験し、例えば最後の数秒中
の最小振幅を有する代表的パターンを選択することによ
って動的に変化するrすイレント」モデルを決定し、先
行の動的サイレントモデルを更新し、あるいは後述のト
レーニング法にしたがって新しい「動的コなサイレント
モデルを形成できるにのようにして、「サイレント」は
、ターケラトパターンの2以上の「スペリング」により
限定することができ%サイレントの正確な検出を改善す
る可能性は向上される。
次に、基準ハターンのトレーニングについて説明する。
基準パターンの構成のためサンプル平均Uおよびパリア
ンスS′を得るためには、各閉業ワードの多数の発声が
音声識別システムに装入され一対応する予処理されたス
ペクトルフレームの全統計データが求められる。装置の
重要で好結果をもたらす動作は、どの人カスベクトルフ
レームがどのターゲットまたは基準パターンに対応すべ
きかの選択である。′。
入力ワードに対して人間により選ばれた重要な音響的音
素のような十分な情報が不存在の場合、話されたワード
の始点と終点間の時間間隔は、多数の一様に離間された
サブインターバルに分割される。これらのサブインター
バルの各々は、唯一の基準パターンと対応せしめられる
0各間隔において始まる1または複数の37レームノく
ターンが形成され−その間隔と関連する基準ノくターン
にしたがって分類される。同じ閉業ワードの後続の例は
、同様KS同数の一様に離間された間隔に分割される。
対応する順番の間隔から抽出された3フレームハターン
の要素の平均値およびパリアンスは九画業ワードの利用
可能な全列について累積され、そのワードに対する1組
の基準パターンを形成する。間隔の数(基準パターンの
数)は、閉業ワードに含まれる単位の言語学的音素当り
約2または3とすべきである。
最良の結果を得るためには、記録された音声波形および
スペクトルフレームの人間による試験を□ 含む手続きにより4、各閉業ワードの始点と終点がマー
クされる。この手続を自動的に実施するためには、装置
がワードの境界を正確に見つけるように1ワードを1時
に1つずつ話し、サイレントにより境界を定めることが
必要である。基準パターンは、隔絶して話された各ワー
ドの1つのこのようなサンプルからイニシャライズされ
ようoしかして、全パリアンスは、基準パターンにおい
て都合のよい定数に設定される。その後、トレーニング
資料は、認識されるべき発声を表わしかつ認識プロセス
により見出されるようなワードおよび分節境界をもつ発
声を含むことができる。
適当数のトレーニング発声を含む統計的データが累積し
た後、そのようにして見出された基準パターンが、初基
準パターンの代わりに利用される。
次いで、トレーニング資料による2@目のパスが行なわ
れる。このとき、ワードは、第3図におけるように認識
プルセッサによりなされた決定に基づいてインターバル
に分割される。各3フレーム入カバターン(または、各
基準パターンに対する1つの代表釣人カバターン)が、
前述のパターン整合法によりある基準パターンと関連づ
けられる。
平均値およびパリアンスは、それらが認識装置により使
用される方法と完全に適合した態様で誘導される最終の
1組の基準パターンを形成するように1秒間累積される
各トレーニングパス中、認識プロセッサにより正しく認
識されないトレーニングクレーズを無視するのが好まし
い。これは、誤認識された発声は、インターバル境界を
不完全に設定したかも知れないからである。そのトレー
ニングパスの完了の際、先に誤認識されたフレーズは、
新しい基準パターンで再度式みることができ、そのとき
Mg2が成功すれば、基準パターンはさらに更新できる
誤認識されたフレーズを無視することに対す、る代わり
の方法は、各トレーニング発声に対してマルチプルフー
ドテンプレートを形成することである。このテンプレー
トは、発声中の各ワードに対する°テンプレートを正し
い順番で結び付けたものである。話者は、指示されたワ
ード列を話すことを台本により促進され、認識プロセッ
サは、マルチプルテンプレートおよびサイレントテンプ
レートのみを参照する。そのとき、ワード境界および基
準パターンの分類は、所与の台本および利用可能な基準
パターンに対して最適となろう。この手続の不利な点は
、トレーニング台本による多数回の試験が必要とされる
ことがあることである。
最高に可能な確訳精度を得るためには、認識されるべき
閉業に対して先に決定された1組の話者不依存性の基準
パターンでトレーニング手続きを始めるのが好ましい。
話者不依存性のパターンは1少なくとも数人の異なる話
者により話される認識されるべきフレーズを表わすフレ
ーズから得られる。ワードの境界は、記録された音声波
形の人間による試験により決定されよう。ついで、斜上
の2段階手続きが、話者不依存性パタニンを発生するた
めに採用される。すなわち1回目のパスにおいては、各
ワード内にサブインターバルが均一に離間される。2回
目のパスにおいては、第1パスによる基準パターンを使
って認、識プロセスによりサブインターバルが決定され
る)16余話者について、′、′。
の全体的統計が各パスにおいて誘導される。
本システムは、有利なことには、先に発生された話者不
依存性のパターンを使って特定の話者に対してトレニン
グされ1サイレントテンプレートとの組合せで話者依存
性の音声人力の境界を決定できることである。好ましく
は、話者依存性の音声人力は、隔絶形態でなく連続ワー
ドストリングで提供されるのがよい。トレーニングプロ
セスにおいて連続音声を使用することにより、より正確
な結果を得ることができる0このようにして、装置に利
用可能な話者不依存性基準パターンを使って、話者依存
性音声の境界が決定され、そして装置をトレーニングす
るための上述のマルチ試験プロセスが使用され−すなわ
ち、1回目のパス中(各ワード中に一様に離間されたサ
ブインターバルが設定され、2回目のパスにおいて、第
1のパスにより発生されたパターンを使って認識プロセ
スによりサブインクニーパルが決定される。
驚くべきことに、、”l:は、都合のよいことに、予め
未知の語索ワードに′擁して類似の方法を採用できる。
すなわち、未知の語′業ワードの境界は、(1)未知の
キーワードを認識するための他の閉業ワードに対する話
者不依存性のパターンおよび(2)ワードの始点および
終点におけるサイレントの発生がワードの限界を定める
という演鐸的知識を使って決定される。そのとき、境界
は、話者不依存性基準パターンを「サイレント」に整合
させるのでなく未知閉業ワードに整合させるために形成
された比較的良好なスコアにより決定される。この結果
を使用すると、未知閉業ワードの境界が設定でき1その
後上述の2段階法が採用できる。すなわち、1回目のパ
ス中にワードを均一にサブインターバルに分割して全体
的統計データを得、ついで2回目のパス中、標準の認識
プロセスおよび第1のバス中発生された基準パターンを
使用するのである。この自動機械法は、未知のワードを
例えば人間により設定するのに比べ都合よく作用する。
明らかにしたいことは、少なくとも2つのサイレントス
ペリングを使用する゛「サイレント」認識法−その1つ
は好ましくは動的に決定されるーは、装置を新しい話者
に対してトレーニングすることと関連して著しい利点を
もたらすことである。また、これに関連して、サイレン
ト「ワード」は\装置からレスポンスをトリガするため
の制御ワードとして作゛用することも指摘したい。他の
制御ワードも、その認識が十分に確実であれば採用でき
ようし、また、ある状況においては、複数の制御ワード
な一、認識プロセス中「道標」とし°C働かせるように
使用できよう。しかしながら、好ましい具体例において
は、サイレント「閉傘ワード」が使用される唯一の制御
ワードである。
最小(必須)および最大(必須十任意)ドウエル時間は
、好ましくはトレーニングプロセス中に決定されるのが
よい。本発明の好ましい具体例においては、装置は、上
述のように数人の話者を使ってトレーニングされる。さ
らに、上述のように、本認識法では、トレーニング手続
き中、上述の方法にしたがってパターンの境界が自動的
に決定される。このようにして境界が記録され、装置に
より識別された各キーワードに対してドウエル時間が記
憶される。
トレーニング工程の終了時に1各パターンに対するドウ
エル時間が試験され、パターンに対する最小および最大
のドウエル時間が選ばれる。本発明の好ましい具体例に
おいては、ドウエル時間のヒストグラムが形成され、最
小および最大ドウエル時間は、第25および第75.1
00分位数に設定される。これは、低誤報率を維持しな
がら高認識精度を与える。代わりに、最小および最大ド
ウエル時間の他の選択も可能であるが、認識精度と誤報
率との間には交換条件がある。すなわち、もしも最小ド
ウエル時間および最大ドウエル時間が選択されると、一
般に、高誤報率の犠牲でより高い認識精度が得られる。
次にシンタックスプロセッサについて説明する。
2または3の特定のワードテンプレートの結合は、決定
プロセスにおけるシンタックス制御の平凡な例である。
第9図を参照すると、奇数(1゜3.5,7.・・・)
のワードを、含むワード列を検出するためのシンタック
ス回路′1308は、各語案ワードに対して維持される
独立の2組のパターン整列レジスタ31.0.312を
有している。第1テンプレートに入るスコアは、サイレ
ントに対するスコアまたは1組の第2テンプレートの最
良スコアのいずれか良い方のものである。第2のテンプ
レートに入るスコアは、第1組のテンプレートの最良の
スコアである。このスコアはまた、ノード313にある
第2のサイレント検出テンプレートに送られる0ノード
313にある検出テンプレートにより測定されて発声の
終端のサイレントが検出されると、発声されたワードの
ラベルおよび継続時間が、第1および第2組のテンプレ
ートのトレースバックバッファカラ交互にトレースバッ
クされ得る。重要なことは、サイレント検出テンプ・レ
ートの位置で、奇数のワードを有するワード列の後のサ
イレントのみが検出され得ることが保証されることであ
る。
若干複雑なシンタックス網は、第9図のノード313a
のような各シンタックスノードと、容認できるワードズ
:・jト、リング長のリストを関連づけることにより実
施で□きる。例えば、奇数のワードを含む任意のストリ
ングを容認する第9図のシンタックス網において、スト
リング長は、第2のサイレントレジスタ313aの入力
におけるストリング長を試験することにより、特定の奇
数、例えば5に固定できる。その点におけるストリング
の長さが5でなければ、レジスタは不活性となり(その
分析インターバルに対して)、そのレジスタからストリ
ングスコアは報告されないが、ストリング長が5である
と、ストリングの検出が報告され得る。同様に、第1閉
業レジスタ310は、到来ストリング長が0,2または
4のとき可能化され、第2レジスタは、到来ストリング
長が1または3のときのみ可能化され得る。5ワードス
トリングに対する最適の結果を得るためには、全部で5
組の動的プログラミングアキュムレータを必要としよう
が、本方法によれば、これよりも少ない数のアキュムレ
ータに、普通の認識精度に若干の低減をもたらすだけで
多重の役割を遂行させることができる。
本明細書に開示される特定の具体例においては、5数字
ストリングまたは数字でない既知の閉業ワードのいずれ
かを認識するように設計される。この文章的シンタック
スは1第9Alilに図示されている。第9A図におい
て、各ノード(節点)314a%344b%・・・31
4hはh認識プロセスにおける段階を表わしている。ノ
ード314aおよび314gはサイレントの認識を表わ
し、ノード314b、314C%314d、’314e
および314fは数字の認識を表わし、314hは、サ
イレントでない非数字閉業ワードの認識を表わしている
。かくして、装置のシンタックス制御にしたがえばNノ
ード314aに対応するサイレントがまずvgmされね
ばならない。この点では、数字の認識により制御はノー
ド314b′に移行し1非数字のwitsにより制御は
ノード314hに移行する(ここで「移行」とは、文法
シンタックス中の容認し得る、すなわち「適状な」進行
をいう)。
ノード314bでは、このノードから遠ざがる唯一の容
認できる進行は、数字ノードであるノード314cへの
進行である。他方、314hでは、このノードから遠ざ
かる唯一の容認し得る唯一の進行は、サイレントである
ノード314gへの進行である。これらは1第10図と
関連して説明される制御シンタックスプロセッサ308
により許される唯一の容認し得る、すなわち適法な進行
である。重要なことは、第9A図のシンタックスプロセ
ッサは、第9図におけると同様に、節構造体を折り返え
しく折りたたみ)、「オーグメント(添加部)」を使用
して、「折り返えされた」または「折りたたまれた」シ
ンタックス節構造体を介して進行を制御することにより
相当簡単化できることである。かくして第9A図は一接
続線部分に沿う1つのノードから他のノードへの移行に
ある限定が設定されることを条件として、第9図のよう
に再構成できる。
第9B図には、折りたたまれ□たシンタックス節構造体
が略示されている。こめ図においては、ノヤド314x
は唯一のサイレットノードとなり、/−)”3□4u、
314vお呈Ill、、:び、□4w、ユ、新しい数字
ノードであり(旧ノード314b、314C%314a
、314esおよび314fに対応)、そしてノード3
14hは、非数字ノードであり、サイレントノードでな
い。サイレントノードはここでに二重の役割」を果す。
すなわち翫ザイレントノード314xは一ワードストリ
ング認識の開始時におけるサイレントまたは、ワードス
トリング認識の紅了時のサイレントのいずれかを表わす
同様に1ノード314uおよび314vも二重の役割を
果し1ノード314uは、ワードストリングの第1また
は第4数字のいずれかを表わし、ノード314vは、第
2または第3数字を表わす。
動作において、各ノードに対する入力は、ディジットワ
ード計数値にしたがって受は入れられる。
第9B図のノードは、交互の仮定に対して並列に進行す
る計算を表わしている。弧線は、交互の仮定の相互の依
存性を表わしている。第9B図においては1第9A図い
において仮定される5つの数字に代わって仮定さ1ll
j□れる3つのみの数字が活動状態に維持される。−・
1::作において、仮定される活動数字の減少は1人力
弧線がデータと関連して適正なワード計数値を有する場
合のみ、すなわちその弧線に対する1組の択一的ワード
計数値から容認し7うるワード計数値の1を有するとき
のみ入力弧線データを受は入れることにより達成される
。かくして、ノード314uは、データと関連するワー
ド計数値が0のときのみノード314xから入力弧線デ
ータを受は入れるが、サイレントノードから出る全弧線
上のデータは0にセットされたワード計数値を有するか
ら、これはつねにそうなるであろう。ノード314uは
また、データと関連するワード計数値が3であるときノ
ード314wから入力弧線データを受は入れる。ノード
は、すべての容認し得る入力から最良のスコアデータを
受は入れる。かくして、ノード314uは、ノード31
4xからデータが選択されたかノード314Wからのデ
ータが選択されたかのみに依存して、数字が発声中の第
1の数字と整合しつつあるという仮定か、数字が発声中
の第4の数字と一致しているという仮定のいずれかを表
わす。同様に、サイレントノードは、ノード314vが
関連するワード計数値5を有するとき、ノード314v
から弧線データを受は入れる。また、サイレントノード
は、ノード314hから、およびそれ自体すなわちノー
ド314xから入力を受は取る。そのとき、サイレント
ノードは、これらの容認し得る入力から最良のスコアデ
ータを選ぶ。
「折返し」シンタックス構造を提供する効果は一装置に
対するメモリの必要および計算負荷を減することである
。他方、ある種のデータを捨て、決定を強制することに
より、悪い情報が捨てられ、正しくない決定がなされる
危険がある。しかしながら、以下に記載される装置のよ
うに認識の精度が高い場合、「良好」なデータを捨てる
可能性は非常に低い。例えば、ノード314uが、ノー
ド314Wからの入力に有利に働いてノード314Xか
らの入力を捨てると、サイレントノードからの確率の非
常に低いデータは捨てられることになる。装置は、いつ
の時点においても、ストリングがいま始まりつつあるか
、すでに3ワードを話し終えたかということだけを判断
すればよいから、これは好ましい動作方法である。この
判断において誤りをなす確率は極めて低い。折返しまた
は折畳みシンタックス系はS認識されたワード数の計数
値を維持するためにノードごとに1つの追加のレジスタ
を必要とする。(もう少し一般的な場合、計数値は、文
法的シンタックスストリングにおいて認識されるワード
数とし得よう。)しかしながら、折返しシンタックス系
の利点、すなわちメモリおよび計算の低減の利益は、上
述の欠点にまさるものである。キーワード認識において
シンタックスを利用することの他の利点は、サイレント
が起こるにせよ起こらないにせよ、決定が演鐸的知識(
文法的シンタックス)を使ってなされることである。こ
のシンタックスにより、装置は、「サイレント」をより
確実に検出でき、連続するワードストリングと「サイレ
ント」間の境界を正確に定めることができるのである。
本発明の方法の重要な要素は、ワードストリングとの組
合せにおけるサイレントの検出である。5.餐なわち、
サイレント「スペリング」に対応スコアが、文法的シン
タックスの必要条件に一致するワードストリングの認識
に対応するとき、さきに受信された音声信号の「良好な
尤度スコア」を含むから、ワードストリングの終端にて
サイレントが確実に検出される。
より正確で確実な認識がなされることを可能にするのは
、そのシンタックスによるサイレントの決定である。こ
れは、例えば音声シンタックスに拘りなくサイレントを
振幅最小として認識する方法に比して明らかに有利であ
る。
次に本音声認識方法を使用して実施された装置について
説明する。
本発明の好ましい具体例においては、第2図のプリプロ
セッサにより遂行された信号およびデータ操作以上の操
作が、ディジタルデータ・エクイツプメント・コーポレ
ーションFDP−11Nコンピュータと米国特許第4,
228,498号に記載されるごとき専用ベクトルコン
ピュータプロセッサとの組合せで実施される。
本発明の方法i1.、コンピュータのプログラミン11
:11 グの利用に加えて□、ハードウェアを利用して実施でき
る。
動作について説明すると、本発明の装置10は、動的プ
ログラミング技術にしたがって動作する。
各所しい尤度スコア列、すなわち既知の予定された順の
各基準パターン列に関する尤度スコア列は、コンピュー
タから線320を経て、メモリ322および324の1
つの既存のスコアに供給される。
メモリは、(a)各可能なワードの終了に対応するスコ
アを受信するシンタックスプロセッサ308、(b)メ
モリ選択および次の音素信号に依存してメモリ322お
よび324の出力に取って代わる最小スコアレジスタ3
26、および(C)他の制御およびクロック信号の制御
下で、以下のように交互に機能する。
動作において、回路は、第4図の各日に対応するレジス
タを更新し、各休止ないしサイレントの認識で最良の整
合を達成し得る決定機構を提供するための規則にしたが
って動作する。
メモリ322および324は、同じ形態を有しており、
10ミリ秒ごとに1すなわち新しいフレレームが分析さ
れるごとに交換される。メモリは各々複数の32ビツト
ワードを有しており、そして32ビツトワードの数は一
機械閉業のワードと関連されるレジスタ(すなわち第4
図の円)に対応している0最初、一方のメモリ、例えば
322が、「悪いJ尤度スコア、すなわち本例において
は大きい値を有するスコアを記憶している。その後、メ
モリ322は、線320を介してベクトルプロセッサか
ら供給される新しい尤度スコアの順序に対応する予定さ
れた順序で逐次読み出され、そしてスコアは以下に記載
されるように更新され、他方のメモリ324に再書込み
される。次の10ミリ秒フレームにおいては、メモリ3
24から、。
いまは古くなったスコアが読み出され、他のメモリ32
2に書き込まれる。この交番機能は、シンタックスプロ
セッサ、最小スコアレジスタ326および他の制御およ
びクロック信号の制御下で続く。前述のように、メモリ
322および324の各ワードは、32ビツト数である
。下位16ビツト、すなわちビットO〜15は、累積尤
度スコアを記憶するのに採用される。また、ビット16
〜23は、音素継続時間を記録するのに採用され、ビッ
ト24〜31は1そのレジスタにおけるワード継続時間
を記憶するのに採用される。
コンピュータから到来する尤度スコアは、パターンスコ
アメモリ328に各フレーム時間ごとに記憶される。こ
の情報は、非常に高速のデータ転送速度で、コンピュー
タからバーストとして供給され、そして第10図の回路
において採用される低速度でパターンスコアメモリから
読み出される。
シンタックスプロセッサまたは最小スコアレジスタから
の中介制御がない場合、選択されたメモリ322または
324の出力は、対応する選択されたゲート330また
は332を介して41334に供給される。線334は
、尤度スコア、音素またはターゲットパターン継続時間
計数値、およびワード継続時間計数値をそれぞれ更新す
る加算器、′: 336.338.340に接碑されている。かくして、
メモリ322.324゛δ′:i一方から来る先行フレ
ームのスコアに対応する尤度スコアは、線342を介し
てパターンスコアメモリから出力され1古い尤度スコア
に加えられ、そして書込みに使用されていないメモリに
記憶される。メモリの選択機能は、線344上の信号レ
ベルにより提供される。同時に、ワードおよび音素継続
時間計数値は1だけインクリメントされる。
同様に、ワード継続時間カウンタ、音素継続時間計数値
および尤度スコアが通常更新される。
上述の普通の更新ルールに対する2つの例外は、新しい
音素の開始および新しいワードの開始に対応して起こる
。新しい音声の開始時に(これは新しいワードの開始時
ではない)音素の第ルジスタは、普通の規則にしたがっ
て更新されないグ、代って、llA342上の尤度スコ
アが、先行基準フレームまたは音素任意ドウエル時間の
レジスタまたは先行音素必須ドウエル時間の最終レジス
タからの最小スコアは加えられる。これは、最小スコ:
:・ アレジスタ326..を採用することにより実施され6
゜最小ユ3ア、Ul’:l;・シュ、、)出方、ユ、前
。音素よ対する先行のフレーム時間における最小スコア
を表ワス。このスコアは、新しいスコアが提供されると
き最小スコアレジスタの内容を連続的に更新することに
より得られる。新しい最小スコアは、減算演算要素34
6の符号ビット出力を採用することにより最小スコアレ
ジスタ中に負荷される。要素346は、現在の最小スコ
アをいま更新されたレジスタからの新しい最小スコアと
比較する0最小スコアレジスタは、さらに、最小スコア
を有するレジスタに対応するワード継続時間計数値およ
び音素継続時間計数値を記憶する。この情報はすべて、
新しい音素の開始時に線334に出力される。この出力
プロセスは、新音素の開始時に可能化されるゲートと、
新しい音素の開始中ゲート332および330を万能化
する制御信号の組合せを使って制御される。
シンタックスプロセッサ308(第9B図に対応する)
は、新しいワードに対する第1音素の第ルジスタを、先
行のフレームで終わるワードのシンタックスを考慮に入
れたワードの最良のスコアで更新するのに採用される。
かくして、新しいワードの第1・音素の#!ルジスタに
対応するレジスタのスコアが、到来尤度スコアにより更
新されるとき、採用されるのはメモリ322.324の
一方ノ出力でない。代わって先行のフレームで終わるワ
ードの、好ましくはシンタックスを考慮に入れた最良の
尤度スコアが利用される。この機能は、ゲー)330お
よび332を不能化し、同時にゲート350を可能化し
て、レジスタ352に記憶された最良の利用可能なスコ
アをli[334上に供給し、線342上の到来パター
ン尤度スコアと加えることにより可能となる。
このようにして、基準フレームのドウエル時間に対応す
る各レジスタは、このハードウェアの具体例において連
続的に更新されるのである。尤度スコアでサイレントワ
ードを表わすと、シンタックスプロセッサは、ハードウ
ェアまたはコンピュータ装置が認識されたワードを決定
するためにバックトレースを行なうことを可能にするに
必要な制御システムを提供するように設計される。
以上の説明を考察すれば、本発明の種々の目的が達成さ
れ、利益ある効果が得られたことが分ろう。
ここに開示されるワードストリング連続音声認識方法お
よび装置は、特定の応用として隔絶された音声の認識を
含むことが理解されよう。技術に精通したものであれば
、ここに開示される具体例の追加、削除1変更が特許請
求の範囲内において明らかであろう。
【図面の簡単な説明】 第1図は本発明の方法にしたがって遂行される一連の動
作を一般的用語で例示するフローチャート−第1A図は
本発明の好ましい具体例の装置の電気的ブロック図、第
2図は第1図において例示される全プロセスにおける特
定の処理動作を遂行するための電子装置の概略ブロック
図、第3図は第1図のプロセスにお番プる特定のプロセ
スを遂行するディジタルコンピュータプログラムのフロ
ーチャート、第4図は本発明のパターン整列プロセスの
S図、第5図は本発明の好ましい具体例の尤度関数プロ
セッサの電気的ブロック図、第6図は本発明の好ましい
具体例の減算・絶対値回路の電9 気的概略ブロック図、第7図は本発明の好ましい具体例
のオーバーフロー検出論理回路の電気回路、第8図は第
7図の回路図の真値衣、第9図は本発明のブリプロセッ
サの1つの好ましい具体例のシンタックスプロセッサの
概略流れ線図、第9A図はサイレントにより境界を定め
られる5数字ワードストリングを認識するシンタックス
プロセッサの概略流れ線図、第9B図をまノードの数を
減するため第9A図の流れ線図を折り返えした概略流れ
線図、第10図は本発明の好ましい特定の具体例の達成
解読パターン整列回路の范気回路図である。 13:A/Dコンバータ 45:制御プロセッサ 46:プリプロセッサ 48a:ベクトルプロセッサ 48b:尤度関数プロセッサ 49:達成解読プロセッサ 51:クロック発振器 52:周波数分割器 53:ラッチ 00 56:ディジタル乗算器 58:32ワード循環シフトレジスタ 59:マルチプレックサ 60:B選択回路 63:32ワードシフトレジスタメモリ65:32ビツ
ト加算器 67:ゲート 71:コンピュータ割込み回路 73:インターフェース 01 −795− FIG? X−p−XP、C力 1110 FIGθ FIG、9A 手続補正書c方式) %式% 事件の表示昭和、7年特願第174095号発明の名称
連続音声認識の改良 補正をする者 事件との関係特許出願人 名称エクソン・コーポレイション 代理人 館 電話273−6436番 氏名(6781)弁理士倉内基仏 間 住所同−1− 氏名(7563)弁理士倉橋暎 補正命令通知の日付昭和58年2月22日デ−− 補正の対象 願書の発側)!=出願人の欄 −−”の群伽融都■按繍り一 委任状及びその訳文各1通 図面1通 明細書 訂正理由書1通 出願指図書及びその訳文各1通 宣誓供述書及びその訳文各1通 公証人証明書及びその訳文各2適 合併証明書及びその訳文各2通 補正の内容別紙の通り 明細書の浄書(内容に変更なし) 図面の浄書(内容に変更なし)

Claims (1)

  1. 【特許請求の範囲】 (1)音声信号中の少なくとも1つのキーワードを認識
    する音声分析装置において到来音声信号のサイレントを
    認識する方法において、前記到来音声信号の交互のサイ
    レント指示を表わす少なくとも第1および第2のターゲ
    ットテンプレートを発生し、前記到来音声信号を該第1
    および第2ターゲツトテンプレートと比較し、この比較
    結果を表わす数値を発生し、少なくともこの数値に基づ
    いてサイレントが検出されたか否かを決定することを特
    徴とするサイレント認識方法。 (2、特許請求の範囲第1項記載の方法において、前記
    のターゲットテンプレート発生段階が、前記111およ
    び第2のターゲットテンプレートに対して、動的に変化
    するサイレントターゲットテンプレートを前記到来音声
    信号に応答して発生することを含むサイレント認識方法
    。 (3)音声信号における少なくとも1つのキーワードを
    認識する音声分析装置において音声信号のサイレントを
    認識する方法において、現在の到来音声信号部分がサイ
    レントを表わす基準パターンに対応する可能性(尤度)
    を表わす数値を発生し、この数値を、音声信号の直前の
    部分の文法的シンタックスにしたがう認識を表わすシン
    タックス依存の測定値にしたがって有効に変更し、有効
    に変更された値から1現在信号部分がサイレン)K対応
    するか否かを決定することを特徴とするサイレント認識
    方法。 (4)少なくとも1つのターゲットパターンヲ有スるテ
    ンプレートにより各々特徴づけられる音声信号中の少な
    くとも1つのキーワードを認識する音声分析装置におい
    て前記キーワードを表わしかつ話者に対して調整された
    基準パターンを形成する方法において、前記キーワード
    を表わす話者不依存性の基準パターンを形成し、この話
    者不依存性の基準パターンを使って前記話者により話さ
    れる音声信号中の前記キーワードの境界を決定し\前記
    話者により話された前記キーワードに対して前記装置に
    より決定された境界を使って音声分析装置を話者に対し
    てトレーニングすることを特徴とするサイレント認識方
    法0 (5)特許請求の範囲第4項記載の方法において、前記
    トレーニング段階が、話者からのキーワードを表わす到
    来音声信号を、前記キーワード境界を使用して複数のサ
    ブインターバルに分割し、各サブインターバルを唯一の
    基準パターンに強制的に対応させ1前記分割、対応の段
    階を同じキーワードを表わす複数の音声入力信号につい
    て反復し、各サブインターバルと関連する基準パターン
    を記述する統計データを発生し1.この発生された統計
    データを使って、前記キーワードを表わす前記音声入力
    信号により2回目のパスをなし、前記キーワードに対す
    るサブインタ二バルを装置により生成することを含むサ
    イレント認識方法。 (6)少なくとも1つのターゲットパターンを有するテ
    ンプレートにより各々特徴づけられる音声信号中の少な
    くとも1つのキーワードを認識する音声分析装置におい
    て予め未知のキーワードを表わす基準パターンを形成す
    る方法において、装置に予め既知のキーワードを表わす
    話者不依存性の基準パターンを形成し、この話者不依存
    性の基準パターンを使って前記未知のキーワードの境界
    を決定し、前記予め未知のキーワードに対して装置によ
    り予め決定された境界を使用して音声分析装置をトレー
    ニングして、前記の予め未知のキーワードについて記述
    する統計的データを発生することを特徴とする基準パタ
    ーン形成方法。 (7)特許請求の範囲第6項記載の方法において、前記
    話者により話される前記の未知のキーワードを表わす音
    声信号を隔絶形態で供給する基準パターン形成方法。・ (8)特許゛請求の・、範囲第6項記載の方法において
    、□、。1、一旦シ、□ヵ1、□。1カやゆ。ヤ″・( −ワードに対応する到来音声信号を前記境界を使って複
    数のサブインターバルに分割し、各サブインターバルを
    唯一の基準パターンに強制的に対応させ〜この分割1強
    制対応の段階を同じキーワードを表わす複数の音声入力
    信号について反復し、各サブインターバルと関連する基
    準パターンについて記述する統計的データを発生し、発
    生された統計的データを使って、前記の予め未知のキー
    ワードを表わす音声入力信号により第2のパスをなし、
    前記キーワードに対するサブルーチンを装置により生成
    する基本パターンf成力法。 (9)各キーワードが少なくとも1つのターゲットパタ
    ーンを有するテンプレートにより特徴づけられ、音声信
    号中の各一連のキーワードが複数の接続された一連の判
    断ノードにより特徴づけられる文法的シンタックスによ
    り記述される音声信号中の複数のキーワードを認識する
    音声分析装置における音声認識方法において、動的プロ
    グラミングを採用して前記音声信号中のキーワードを認
    識する一連の数値スコアを生成し、前記文法的シンタッ
    クスを採用して、どのスコアが認識プロセスにおける容
    認可能な進行を形成するかを定し、前記シンタックスを
    折り畳むことにより判断ノードの数を減じ、それにより
    装置の計算負荷を減じたことを特徴とする音声認識方法
    。 輪音声信号中の少なくとも1つのキーワードを認識する
    音声分析装置における到来音声信号中のサイレントを認
    識する装置において、到来音声信号中の交互のサイレン
    ト指示を表わす少なくとも第1および第2のターゲット
    テンプレートを発生する手段と、前記到来音声信号を前
    記第1および第2ターゲツトテンプレートと比較する手
    段と、この比較の結果を表わす数値を発生する手段と、
    少なくとも前記数値に基づいて、サイレントが検出され
    たか否かを決定する手段とを含むことを特徴とするサイ
    レント認識装置。 I特許請求の範囲第10項記載の装置において、前記発
    生手段が、前記第1および第2のターゲットテンプレー
    トの一方に対して、前記到来人力音声信号に応答して動
    的に変化するターゲットテンプレートを発生する手段を
    含むサイレント認識装置。 aつ音声信号中の少なくとも1つのキーワードを認識す
    る音声分析装置における音声信号中のサイレントを認識
    する装置において一現在の到来音声信号部分がサイレン
    トを表わす基準パ鼾ンに対応する可能性(尤度)の数値
    を発生する手段と、該数値に1前記音声信号の直前部分
    の文法的シンタックスにしたがう認識を表わすシンタッ
    クス依存値を加えてスコアを形成する手段と、このスコ
    アから現在の信号部分がサイレントに対応するか否かを
    決定する手段とを含むことを特徴とするサイレント認識
    装置。 al少なくとも1つのターゲットパターンを有するテン
    プレートにより各々特徴づけられる音声信号中の少なく
    とも1つのキーワードを認識する音声分析装置において
    前記キーワードを代表しかつ話者に対して調整された基
    準パターンを形成する1、′ 装置において、前記キーワードを表わす話者不依存性の
    基準パターンを形成すQ’皐段と、この話者に不依存性
    の基準パターンを使って、前記話者により話される音声
    信号中の前記キーワードの境界を決定する手段と、前記
    話者により話された前記キーワードに対して前記装置に
    より決定される境界を使用して、音声分析装置を話者に
    対してトレーニングする手段とを含むことを特徴とする
    基準パターン形成装置。 a4特許請求の範囲第13項記載の装置において1前記
    トレ一ニング手段が、前記話者からのキーワードを表わ
    す到来音声信号を、前記キーワード境界を使って複数の
    サブインターバルに反復的に分割する手段と、各サブイ
    ンターバルを唯一の基準パターンに反復的に強制的に対
    応させる手段と、各サブインターバルと関連する基準パ
    ターンにつ。 いて記述する統計データを発生する手段と1この発生さ
    れた統計データを使って、前記キーワードを代表する前
    記音声入力信号により第2のバスを行ない、前記キ二ワ
    ードに対するサブインターバ:、:: ルを装置により垂1:成する手段を含む□基準パターン
    :)1 形成装置。“□″1″。 (ハ)少なくとも1つのターゲットパターンを有するテ
    ンプレートにより各々特徴づけられる音声信号中の少な
    くとも1つのキーワードを認識する音声分析装置におい
    て予め未・知のキーワードを表わす基準パターンを形成
    する装置において、装置にとって予め既知のキーワード
    を表わす話者不依存性の基準パターンを形成する手段と
    、この話者不依存性の基準パターンを使用して前記の未
    知のキーワードの境界を決定する手段と、前記の未知の
    キラワードに対して前記装置により予め決定された境界
    を使って音声分析装置をトレーニングし、前記の未知の
    キーワードについて記述する統計データを発生する手段
    とを含む基準パターン形成装置O aQ特許請求の範[第15項記載の装置において、前記
    話者により話される前記未知のキーワードを表わす音声
    信号を隔絶態様で供給する手段を含む基準パターン形成
    装置。 鰭特許請求の範囲第15項記載の□装置において、前記
    トレーニング手段が、前記の予め未知□のキーワードに
    対応する到来音声信号を、前記境界を使って複数のサブ
    インターバルに反復的に分割する手段と、各サブインタ
    ーバルを唯一の基準パターンに反復的に強性的に対応さ
    せる手段と、各サプルインターバルと関連する基準パタ
    ーンについて記述する統計データを発生する手段と、こ
    の発生された統計データを使って、前記の予め未知のキ
    ーワードを表わす前記音声入力信号により2回目のパス
    を行ない、前記キーワードに対するサブインターバルを
    装置により生成する手段を含む基準パターン形成装置。 (L瞠各キーワードが少なくとも1つのターゲットパタ
    ーンを有するテンプレートにより特徴づけられ、音声信
    号中の各一連のキーワードが複数の接続されまた判断ノ
    ードにより特徴づけられる音声信号中の複数のキーワー
    ドを認識する音声分析装置における音声認識装置におい
    寸、動的プログラミングを採用して前記音声信号中のキ
    ーワードを認識する一連の数値スコアを生成する手段と
    、前記文法的シンタックスを採用しソ、どのスコアが認
    識プロセスにおける容認し得る進行を決定するかを決定
    する手段と、判断ノード滴数を減じ、それにより装置の
    計算負荷を減する手段とを含むことを特徴とする音声認
    識装M。 (I嚇各キーワードが少なくとも1つのターゲットパタ
    ーンヲ有するテンプレートにより特徴づけられ、音声信
    号中の一連のキーワードが複数の接続された判断ノード
    により特徴づけられる文法的シンタックスで記述される
    音声信号中の複数のキーワードを認識する音声分析装置
    における認識装置において、動的プ四グラミングを利用
    して前記音声信号中のキーワードを認識するための一連
    の数値スコアを供給する手段と、前記文法的シンタック
    スを採用して、どのスコアが認識プロセスにおける容認
    し得る進行を形成するかを決定する手段と、増加部を利
    用して容認し得る進行を保留し、それにより通常容認し
    得る進行を前記シンタックスにしたがって放棄させる手
    段とを含むことを特徴とする音声認識装置。 翰各キーワードが少なくと・も1つのターゲットパター
    ンを有するテンプレートにより特徴づけられ、音声信号
    中の一連のキーワードが複数の接続された判断ノードに
    より特徴づけられる文法的シンタックスにより記述され
    る音声信号中の複数のキーワードを認識する音声分析装
    置における音声認識法において、動的プログラミングを
    採用して前記音声信号中におけるキーワードを認識する
    ための一連の数値スコアを生成し、前記文法的シンタッ
    クスを採用して、どのスコアが認識プロセスにおける容
    認し得る進行を形成するかを決定し、増加部を利用して
    容認し得る進行を保留し、通常容認し得る進行を前記シ
    ンタックスにしたがって放棄させることを特徴とする音
    声認識方法0
JP57174095A 1981-10-05 1982-10-05 連続音声認識の改良 Pending JPS58134700A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/309,209 US4481593A (en) 1981-10-05 1981-10-05 Continuous speech recognition
US309209 1981-10-05

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP3318728A Division JPH05232984A (ja) 1981-10-05 1991-09-26 音声分析における基準パターン形成方法
JP3318727A Division JPH0816187A (ja) 1981-10-05 1991-09-26 音声分析における音声認識方法

Publications (1)

Publication Number Publication Date
JPS58134700A true JPS58134700A (ja) 1983-08-10

Family

ID=23197172

Family Applications (3)

Application Number Title Priority Date Filing Date
JP57174095A Pending JPS58134700A (ja) 1981-10-05 1982-10-05 連続音声認識の改良
JP3318728A Pending JPH05232984A (ja) 1981-10-05 1991-09-26 音声分析における基準パターン形成方法
JP3318727A Pending JPH0816187A (ja) 1981-10-05 1991-09-26 音声分析における音声認識方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP3318728A Pending JPH05232984A (ja) 1981-10-05 1991-09-26 音声分析における基準パターン形成方法
JP3318727A Pending JPH0816187A (ja) 1981-10-05 1991-09-26 音声分析における音声認識方法

Country Status (6)

Country Link
US (1) US4481593A (ja)
JP (3) JPS58134700A (ja)
CA (1) CA1182223A (ja)
DE (1) DE3236834C2 (ja)
FR (1) FR2520913B1 (ja)
GB (1) GB2107100B (ja)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE33597E (en) * 1982-10-15 1991-05-28 Hidden Markov model speech recognition arrangement
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
JPS60501180A (ja) * 1983-03-28 1985-07-25 エクソン リサ−チ アンド エンジニアリング カンパニ− スピ−チ認識方法および装置
US4627091A (en) * 1983-04-01 1986-12-02 Rca Corporation Low-energy-content voice detection apparatus
US4723290A (en) * 1983-05-16 1988-02-02 Kabushiki Kaisha Toshiba Speech recognition apparatus
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4868879A (en) * 1984-03-27 1989-09-19 Oki Electric Industry Co., Ltd. Apparatus and method for recognizing speech
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4811399A (en) * 1984-12-31 1989-03-07 Itt Defense Communications, A Division Of Itt Corporation Apparatus and method for automatic speech recognition
JPH0632012B2 (ja) * 1985-03-25 1994-04-27 株式会社東芝 音声認識装置
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
GB8527913D0 (en) * 1985-11-12 1985-12-18 Pa Consulting Services Analysing transitions in finite state machines
US5023911A (en) * 1986-01-10 1991-06-11 Motorola, Inc. Word spotting in a speech recognition system without predetermined endpoint detection
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
JPS6350896A (ja) * 1986-08-21 1988-03-03 沖電気工業株式会社 音声認識装置
US4829578A (en) * 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels
US4896358A (en) * 1987-03-17 1990-01-23 Itt Corporation Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems
US4805218A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech analysis and speech recognition
FR2639737B1 (fr) * 1988-11-30 1991-01-11 Bull Sa Circuit integre de programmation dynamique
US5761639A (en) * 1989-03-13 1998-06-02 Kabushiki Kaisha Toshiba Method and apparatus for time series signal recognition with signal variation proof learning
JP3002204B2 (ja) * 1989-03-13 2000-01-24 株式会社東芝 時系列信号認識装置
US4994983A (en) * 1989-05-02 1991-02-19 Itt Corporation Automatic speech recognition system using seed templates
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US5509104A (en) * 1989-05-17 1996-04-16 At&T Corp. Speech recognition employing key word modeling and non-key word modeling
DE4111781A1 (de) * 1991-04-11 1992-10-22 Ibm Computersystem zur spracherkennung
JPH04362698A (ja) * 1991-06-11 1992-12-15 Canon Inc 音声認識方法及び装置
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
JP2524472B2 (ja) * 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
US5425129A (en) * 1992-10-29 1995-06-13 International Business Machines Corporation Method for word spotting in continuous speech
US5848388A (en) * 1993-03-25 1998-12-08 British Telecommunications Plc Speech recognition with sequence parsing, rejection and pause detection options
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
JPH07210190A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法及びシステム
US5642444A (en) * 1994-07-28 1997-06-24 Univ North Carolina Specialized image processing system architecture and method for image data arrays
DE4432632A1 (de) * 1994-09-14 1996-03-21 Philips Patentverwaltung System zum Ausgeben von Sprachinformation in Rekation auf eingegebene Sprachsignale
US5615301A (en) * 1994-09-28 1997-03-25 Rivers; W. L. Automated language translation system
US5594834A (en) * 1994-09-30 1997-01-14 Motorola, Inc. Method and system for recognizing a boundary between sounds in continuous speech
DE19508711A1 (de) * 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind
WO1996037881A2 (en) * 1995-05-26 1996-11-28 Applied Language Technologies Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US5806034A (en) * 1995-08-02 1998-09-08 Itt Corporation Speaker independent speech recognition method utilizing multiple training iterations
US5825977A (en) * 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
DE19624988A1 (de) * 1996-06-22 1998-01-02 Peter Dr Toma Verfahren zur automatischen Erkennung eines gesprochenen Textes
US5842161A (en) * 1996-06-25 1998-11-24 Lucent Technologies Inc. Telecommunications instrument employing variable criteria speech recognition
DE19633693C1 (de) * 1996-08-21 1997-11-20 Max Planck Gesellschaft Verfahren und Vorrichtung zur Erfassung von Targetmustern in einer Textur
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US5903675A (en) * 1996-12-20 1999-05-11 Apple Computer, Inc. System and method for compressing data using a dynamically changing compression window
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6092044A (en) * 1997-03-28 2000-07-18 Dragon Systems, Inc. Pronunciation generation in speech recognition
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
US6011854A (en) * 1997-09-18 2000-01-04 Sony Corporation Automatic recognition of audio information in a broadcast program
US6243678B1 (en) * 1998-04-07 2001-06-05 Lucent Technologies Inc. Method and system for dynamic speech recognition using free-phone scoring
US6393399B1 (en) 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
DE19854341A1 (de) 1998-11-25 2000-06-08 Alcatel Sa Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem
JP3252815B2 (ja) * 1998-12-04 2002-02-04 日本電気株式会社 連続音声認識装置及び方法
US20020069064A1 (en) * 1999-02-08 2002-06-06 Dejaco Andrew P. Method and apparatus for testing user interface integrity of speech-enabled devices
US6233557B1 (en) * 1999-02-23 2001-05-15 Motorola, Inc. Method of selectively assigning a penalty to a probability associated with a voice recognition system
US6327564B1 (en) * 1999-03-05 2001-12-04 Matsushita Electric Corporation Of America Speech detection using stochastic confidence measures on the frequency spectrum
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US7283964B1 (en) 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
US7120582B1 (en) 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
US7263484B1 (en) 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US7080011B2 (en) * 2000-08-04 2006-07-18 International Business Machines Corporation Speech label accelerators and techniques for using same
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
DE10120168A1 (de) * 2001-04-18 2002-10-24 Deutsche Telekom Ag Verfahren zur Bestimmung von Intensitätskennwerten von Hintergrundgeräuschen in Sprachpausen von Sprachsignalen
US7133827B1 (en) 2002-02-06 2006-11-07 Voice Signal Technologies, Inc. Training speech recognition word models from word samples synthesized by Monte Carlo techniques
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
EP1363271A1 (de) 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
US7788097B2 (en) * 2002-06-06 2010-08-31 Nuance Communications, Inc. Multiple sound fragments processing and load balancing
US7340392B2 (en) * 2002-06-06 2008-03-04 International Business Machines Corporation Multiple sound fragments processing and load balancing
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
KR100744288B1 (ko) * 2005-12-28 2007-07-30 삼성전자주식회사 음성 신호에서 음소를 분절하는 방법 및 그 시스템
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
EP2609587B1 (en) * 2010-08-24 2015-04-01 Veovox SA System and method for recognizing a user voice command in noisy environment
JP6645063B2 (ja) * 2014-07-29 2020-02-12 ヤマハ株式会社 ターゲット文字列の推定
US9462456B2 (en) * 2014-11-19 2016-10-04 Qualcomm Incorporated Method and apparatus for creating a time-sensitive grammar
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
JP2018170539A (ja) * 2017-03-29 2018-11-01 ソニー株式会社 スピーカ装置、オーディオデータ供給装置及びオーディオデータ再生システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5326505A (en) * 1976-08-24 1978-03-11 Nippon Telegr & Teleph Corp <Ntt> Voice rec ognizing device
JPS56823A (en) * 1979-04-26 1981-01-07 Gen Electric Manufacture of copolyester carbonate
JPS5629292A (en) * 1979-08-17 1981-03-24 Nippon Electric Co Continuous voice identifier
JPS56121100A (en) * 1980-02-29 1981-09-22 Nissan Motor Voice identification driving device

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3816722A (en) * 1970-09-29 1974-06-11 Nippon Electric Co Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer
GB1435779A (en) * 1972-09-21 1976-05-12 Threshold Tech Word recognition
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
GB1557286A (en) * 1975-10-31 1979-12-05 Nippon Electric Co Speech recognition
US4038503A (en) * 1975-12-29 1977-07-26 Dialog Systems, Inc. Speech recognition apparatus
GB1569450A (en) * 1976-05-27 1980-06-18 Nippon Electric Co Speech recognition system
US4228498A (en) * 1977-10-12 1980-10-14 Dialog Systems, Inc. Multibus processor for increasing execution speed using a pipeline effect
US4301329A (en) * 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
US4227176A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
US4227177A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
US4241329A (en) * 1978-04-27 1980-12-23 Dialog Systems, Inc. Continuous speech recognition method for improving false alarm rates
JPS5525150A (en) * 1978-08-10 1980-02-22 Nec Corp Pattern recognition unit
JPS597120B2 (ja) * 1978-11-24 1984-02-16 日本電気株式会社 音声分析装置
US4412098A (en) * 1979-09-10 1983-10-25 Interstate Electronics Corporation Audio signal recognition computer
US4336421A (en) * 1980-04-08 1982-06-22 Threshold Technology, Inc. Apparatus and method for recognizing spoken words
DE3236000A1 (de) * 1982-09-29 1984-03-29 Blaupunkt-Werke Gmbh, 3200 Hildesheim Verfahren zum klassifizieren von audiosignalen

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5326505A (en) * 1976-08-24 1978-03-11 Nippon Telegr & Teleph Corp <Ntt> Voice rec ognizing device
JPS56823A (en) * 1979-04-26 1981-01-07 Gen Electric Manufacture of copolyester carbonate
JPS5629292A (en) * 1979-08-17 1981-03-24 Nippon Electric Co Continuous voice identifier
JPS56121100A (en) * 1980-02-29 1981-09-22 Nissan Motor Voice identification driving device

Also Published As

Publication number Publication date
GB2107100A (en) 1983-04-20
DE3236834A1 (de) 1983-10-06
US4481593A (en) 1984-11-06
FR2520913B1 (fr) 1986-12-19
JPH0816187A (ja) 1996-01-19
GB2107100B (en) 1985-09-11
FR2520913A1 (fr) 1983-08-05
JPH05232984A (ja) 1993-09-10
DE3236834C2 (de) 1995-09-28
CA1182223A (en) 1985-02-05

Similar Documents

Publication Publication Date Title
JPS58134700A (ja) 連続音声認識の改良
US4489435A (en) Method and apparatus for continuous word string recognition
JPS58134698A (ja) 音声認識方法および装置
KR970001165B1 (ko) 대화자 훈련의 음성 인식기 및 그 사용방법
Itakura Minimum prediction residual principle applied to speech recognition
EP1301922B1 (en) System and method for voice recognition with a plurality of voice recognition engines
CA2202656C (en) Speech recognition
AU685788B2 (en) A method and apparatus for speaker recognition
US4284846A (en) System and method for sound recognition
EP0413361B1 (en) Speech-recognition circuitry employing nonlinear processing, speech element modelling and phoneme estimation
JPS6466698A (en) Voice recognition equipment
JPH0431600B2 (ja)
JPS6147440B2 (ja)
GB1569990A (en) Frequency compensation method for use in speech analysis apparatus
JPS58102299A (ja) 部分単位音声パタン発生装置
CN108831463B (zh) 唇语合成方法、装置、电子设备及存储介质
EP0118484B1 (en) Lpc word recognizer utilizing energy features
EP0042590B1 (en) Phoneme information extracting apparatus
EP0192898A1 (en) Speech recognition
Wolf Speech signal processing and feature extraction
JPS59127099A (ja) 連続音声認識の改良
JPS59126599A (ja) 連続ワ−ドストリング認識方法および装置
JPH02272498A (ja) 音声認識方法
JPS59126598A (ja) 音声認識方法および装置
Pitchers A comparative study of various speech recognition techniques.