JPH0816187A - 音声分析における音声認識方法 - Google Patents

音声分析における音声認識方法

Info

Publication number
JPH0816187A
JPH0816187A JP3318727A JP31872791A JPH0816187A JP H0816187 A JPH0816187 A JP H0816187A JP 3318727 A JP3318727 A JP 3318727A JP 31872791 A JP31872791 A JP 31872791A JP H0816187 A JPH0816187 A JP H0816187A
Authority
JP
Japan
Prior art keywords
word
score
pattern
register
syntax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3318727A
Other languages
English (en)
Inventor
Lawrence G Bahler
ロレンス・ジョージ・バーラー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Exxon Mobil Corp
Original Assignee
Exxon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Exxon Corp filed Critical Exxon Corp
Publication of JPH0816187A publication Critical patent/JPH0816187A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【目的】 音声分析における音声認識方法に関する。 【構成】 各キーワードが少なくとも1つのターゲット
パターンを有するテンプレートにより特徴づけられ、音
声信号中の各一連の前記キーワードが複数の接続された
一連の判断ノードにより特徴づけられる文法的シンタク
チックスにより記述される、音声信号中の複数のキーワ
ードを認識する音声分析における音声認識方法におい
て、動的プログラミングを採用して前記音声信号中のキ
ーワードを認識する一連の数値スコアを生成し、前記文
法的シンタックスを採用して、どのスコアが認識プロセ
スにおける容認可能な進行を形成するかを決定し、前記
シンタックスを折り畳むことにより判断ノードの数を減
じ、それにより装置の計算負荷を減ずる音声認識方法が
提供される。

Description

【発明の詳細な説明】 本発明は、音声認識方法および装置に関し、特定する
と、連続音声信号中のキーワードを実時間で認識する方
法および装置に関する。適当に処理された未知の隔絶さ
れた音声信号を1または複数の予め用意された既知のキ
ーワード表示と比較することにより隔絶された発声を認
識するため、従来より種々の音声認識システムが提案さ
れて来た。本明細書において、「キーワード」なる用語
は、結合された1群の音素および音響を意味するのに使
用され、例えば、音節、ワード、ワードストリング、句
等の一部である。多くのシステムはその成功度が限定さ
れたものであつたが、特に1つの装置は、隔絶されたキ
ーワードを認識するのに商業上利用されて成功を納め
た。このシステムは、1977年7月26日付で特許さ
れ、本出願の譲受人に譲渡された米国特許第4,03
8,503号に記載される方法にしたがつてほぼ動作
し、未知の音声信号データの境界が認識システムにより
測定されるバツクグラウンドノイズまたは無音状態のい
ずれかであることを条件として、限定された範囲のキー
ワードの1つを認識する方法を提供するもので、この方
法は好結果をもたらした。このシステムは、未知の音声
信号を生じる期間は、十分に限定されており、単一のキ
ーワードの発声しか含まないという推定に依存する。会
話音声のような連続音声信号においては、キーワードの
境界を演繹的に認めることができないが、到来音声デー
タを区分するために、すなわち音素、音節、ワード、文
章等の言語単位の境界をキーワード認識プロセスの開始
に先立つて決定する種々の方法が考案された。しかしな
がら、これらの従来の連続音声システムは、満足できる
分割方法が見出されないこともあつて、その成功は限定
された。さらに、他の実質的な問題が存在する。例え
ば、一貫的には、限定された語彙しか低誤報率で認識で
きないこと、認識の精度が、異なる話者の音声特性の差
に非常に敏感であること、システムが、例えば普通の電
話通信装置で伝送される可聴信号に普通生じるような分
析されつつある可聴信号の歪に非常に敏感であることな
どである。米国特許第4,227,176号、第4,2
41,329号および第4,227,177号に記載さ
れる連続音声認識方法は、連続音声中のキーワードを実
時間において認識する商業的に容認できる有効な手法に
ついてそれぞれ記述している。これら特許に記載される
一般的方法は、現在商用に供せられており、実験的にも
また実用試験においても、話者不依存の状況で高忠実性
と低誤率を提供することが分つた。しかしながら、現今
の技術の最先端にあるこれらの技術でさえも、誤報率お
よび話者不依存特性の両面において欠点を有する。上述
のU。S。特許に記載される連続音声認識法は、主とし
て「オープンボキヤブラリー」の状況に向けられるもの
で、連続音声の複数のキーボードの1つが認識または確
認される。「オープンボキヤブラリー」法は、到来する
語彙のすべては装置に分らない方法である。特定の応用
においては、連続ワードストリングを認識できるが、こ
の場合、認識プロセスの結果として、連続ワードストリ
ングの個々のワード要素の各々が識別される。本明細書
において連続ワードストリングとは、無音状態により境
を定められる複数の認識可能な要素(「クローズドボキ
ヤブラリー」)をいう。これは、例えば、境界が演繹的
に分る隔絶されたワードの応用例に関して上述した商業
装置に関係づけられる。しかしながら、ここでは境界、
すなわち無音状態は未知であり、認識装置それ自体によ
り決定されねばならない。加えて、試験されつつある要
素は、もはや単一のワード要素でないが、複数の要素
が、ワード列を形成するように一列に並べられる。従
来、連続音声を認識するために種々の方法および装置が
示唆されたが、正確な音声認識を可能にするために必要
なパラメータを生成するように装置を自動的にトレニン
グすることについては余り注意が向けられなかつた。さ
らに、従来装置における無音状態を決定する方法および
装置、および従来装置における文法的シンタツクスの利
用は、そのニーズに一般的は十分であるが、なお多くの
改良の余地を残している。それゆえ、本発明の主たる目
的は、新しい認識パターンを発生するため装置をトレー
ニングするのに有効な音声認識方法および装置を提供す
ることである。本発明の特定の目的は、未知の可聴入力
信号データにおいて無音状態(サイレント)を有効に認
識し、認識プロセスにおいて文法的シンタツクスを採用
し、異なる話者、したがつて異なる音声特性に等しく十
分に応答し、信頼性があつて低誤報率を有し、しかも実
時間で動作するこの種方法および装置を提供することで
ある。本発明は、音声信号中の少なくとも1つのキーワ
ードを認識する音声分析方法および装置に関するもので
ある。特定の1側面として、本発明は、到来音声信号の
サイレントを認識する方法に関する。本方法は、サイレ
ントの代替的記述を表わす少なくとも第1および第2の
ターゲツトテンプレートを発生し、到来音声信号を第1
および第2ターゲツトテンプレートと比較し、比較の結
果を表わす値を発生し、少なくともこの値に基づいてサ
イレントが検出されたかどうかを決定することを特徴と
する。他の1側面として、本発明は、現在の到来音声信
号部分がサイレントを表わす基準パターンに対応する可
能性を表わす値を発生し、シンタツクス依存の測定値に
したがつてこの値を有効に変更し、そして有効に変更さ
れたスコアから本信号部分がサイレントに対応するかど
うかを決定することを特徴とする音声信号中のサイレン
トを認識する方法に関する。しかして、シンタツクス依
存の測定値は、文法的シンタツクスにしたがつて音声信
号の直前の部分の認識を表示するのである。さらに他の
1側面として、本発明は、既知のキーワードを表わしか
つ話者に対して調整された基準パターンを形成する方法
に関する。この方法は、キーワードを表わす話者に依存
しない基準パターンを形成し、この話者に依存しない基
準パターンを使つて話者により話される音声信号のキー
ワードの境界を決定し、話者により話されるキーワード
に対して装置により決定された境界を使つて音声分析装
置をその話者に対してトレーニングすることを特微とす
る。本方法は、さらに、装置に既知のキーワードを表わ
す話者に依存しない基準パターンを形成し、この話者に
依存しない基準パターンを使つて未知のキーワードの境
界を決定し、予め未知のキーワードに対して装置により
予め決定された境界を使つて音声分析装置をトレーニン
グして、予め未知のキーワードを表わす統計的データを
生成することを特徴とする予め未知のキーワードを表わ
す基準パターン形成方法に関係する。さらに他の側面と
して、本発明は、認識されつつある一連のキーワード
が、複数の結合された判断ノードにより特徴づけられた
文法的シンタツクスにより記述される音声認識方法に関
する。この音声認識法は、音声信号中のキーワードを認
識するための一連の数値スコアを形成し、動的プログラ
ミングを採用し、文法的シンタツクスを使用して、どの
スコアが認識プロセスにおける容認し得る進行を決定す
るかを決定し、シンタツクス判断ノードを折畳むことに
より他の場合には容認し得る進行の数を減じ、それによ
り折り畳まれたシンタツクスにしたがつて他の場合には
容認し得る進行を放棄することを特徴とする。本発明は
さらに、上述の音声認識方法を実施する装置に関する。
以下、図面を参照して本発明を好ましい具体例について
説明する。本明細書に記載される特定の好ましい具体例
においては、音声認識およびトレーニングは、到来可聴
データ信号、一般に音声の特定のアナログおよびデイジ
タル処理を行なう特別構成の電子装置と、特定の他のデ
ータ変換段階および数値評価を行なうため本発明にした
がつてプログラムされた汎用デイジタルコンピュータを
含むシステムにより遂行される。本システムのハードウ
エア部分とソフトウエア部分の間のタスクの分割は、音
声認識を安価な価格で実時間で遂行し得るシステムを得
るためになされたものである。しかしながら、この特定
のシステムのハードウエアで遂行されつつあるタスクの
ある部分はソフトウエアで十分遂行され得るであろう
し、また本具体例のソフトウエアプログラミングで遂行
されつつあるタスクのある部分は、他の具体例において
は特定目的の回路で遂行し得るであろう。この後者に関
連しては、利用できる場合に、装置のハードウエアおよ
びソフトウエアの実施形態について説明する。本発明の
1側面に依れば、信号が例えば電話線により歪を生じた
場合でも連続音声信号中のキーワードを認識する装置が
提供される。すなわち、特に第1図において、10で指
示される音声入力信号は、任意の距離および任意数の交
換機を包含する電話線を介して炭素送話機および受話機
により発生される音声信号と考えることができる。それ
ゆえ、本発明の代表例は、未知のソース(話者に依存し
ない系)から供給され、電話システムを介して受信され
る音声データの連続ワードストリングを認識することで
ある。他方、入力信号は、例えば、無線通信リンク例え
ば商業放送局、私設通信リンクから取り出される音声信
号、または装置近傍に立つオペレータの音声入力信号の
ようなどのような音声信号でもよい。以上の説明から明
らかなように、本発明の方法および装置は、一連の音
響、音素、またはその他の認識可能な符号を含む音声信
号の認識と関係する。本明細書においては、「ワー
ド」、「要素」「一連のターゲツトパターン」、「テン
プレートパターン」または「エレメントテンプレート」
のいずれかについて言及されるが、この5つの用語は、
一般的なものであり、等価なものであると考えられる。
これは、本方法および装置により検出され認識され得る
キーワードを構成するように結合する認識可能な一連の
音響またはその代替物を表言する便利な方法である。こ
れらの用語は、単一の音素、音節、または音響から一連
のワード(文法的意昧における)ならびに単一のワード
に至るいずれをも包含するように広くかつ一般的に解釈
されるべきである。アナログ−デイジタル(A/D)コ
ンバータ13は、線10上の到来アナログ音声信号デー
タを受信して、そのデータの信号振幅をデイジタル形式
に変換する。例示のA/Dコンバータは、入力信号デー
タを12ビツトの2進表示に変換するが、その変換は、
8000回/秒の割合で起こる。他の具体例において
は、他のサンプリング速度が採用できる。例えば、高品
質信号が利用できる場合は、16KHzの速度を使用で
きるA/D変換器13は、その出力を線15を介して自
己相関器17に供給する。自己相関器17はデイジタル
入力信号を処理して、1秒間に100回短期間自己相関
関数を発生し、図示のように、線19を介してその出力
を供給する。各自己相関関数は、32の値またはチヤン
ネルを有し、各値は30ビツトの解に計算される。自己
相関器は、第2図と関連して追つてより詳細に説明す
る。線19上の自己相関関数は、フーリエ変換装置21
によりフーリエ変換され、線23を介して対応する短期
間窓処理パワスペクトルを発生する。スペクトルは、自
己相関関数と同じ繰返し数で、すなわち100回/秒の
割合で発生され、そして各短期間パワスペクトルは、各
16ビツトの解を有する31の数値期間を有する。理解
されるように、スペクトルの31の期間の各々は、ある
周波数バンド内の単一のパーワを表わす。フーリエ変換
装置はまた、不要な隣接バンドレスポンスを減ずるため
ハニングまたは類似の窓関数を含むのがよい。例示の具
体例において、フーリエ変換ならびに後続の処理段階
は、好ましくは、本方法にしたがつて反復的に必要とさ
れる演算をスピード化するための周辺装置を利用して、
適当にプログラムされた汎用デイジタルコンピュータの
制御下で遂行されるのがよい。採用されるコンピュータ
は、マサチューセツツ所在のデイジタル・エクイツプメ
ント・コーポレーシヨンにより製造されたPDP−11
型である。採用される特定のアレイプロセツサは、本出
願の譲受人に譲渡された米国特許第4,228,498
号に記載されている。第3図と関連して後述されるプロ
グラムは、これらの利用可能なデジタル処理ユニツトの
能力および特性にほぼ基づいて設定される。短期間窓処
理ハワペクトルは、25で指示されるように周波数レス
ポンスについて等化される。しかして、この等化は、追
つて詳細に示されるように各周波数バンドまたはチヤン
ネル内に起こるピーク振幅の関数として遂行される。線
26上の周波数レスポンスを等化されたスペクトルは、
100/秒の割合で発生され、そして各スペクトルは、
16ビツトの精度で評価される31の数値期間を有す
る。到来音声データの最終的評価を容易にするため、線
26上の周波数レスポンスを等価された窓処理スペクト
ルは、35で指示されるように振幅変換を受ける。これ
は、到来スペクトルに非直線的振幅変換を課する。この
変換については追つて詳細に記述するが、この点におい
ては、未知の到来音声信号が基準語彙のターゲツトパタ
ーンテンプレートと整合し得る精度を改善するものでこ
とを言及しておこう。例示の具体例において、この変換
は、スペクトルを基準語彙の要素を表わすパターンと比
較する前のある時点において周波数を等化された窓処理
スペクトルのすべてについて遂行される。線38上の振
幅変換され等化された短期間スペクトルは、ついで、以
下で説明されるように40でエレメントテンプレートと
比較される。42で指示される基準パターンは、変換・
等価スペクトルを比較し得る統計態様の基準語彙の要素
を表わす。「サイレント」が検出される度に、いま受信
されたワードストリングの同一性に関して決定がなされ
る。これは44で指示される。このようにして、比較の
近似性にしたがつて候補ワードが選択され、例示の具体
例においては、選択工程は、キーワードの取逃しまたは
置換の可能性を最少にするように設計される。第1A図
を参照すると、本発明の音声認識システムはコントロー
ラ45を採用しているが、これは、例えば、PDP−1
1のような汎用デイジタルコンピュータとし得る。例示
の具体例において、コントローラ45は、プリプロセツ
サ46から予処理された音声データを受け取る。プリプ
ロセツサについては、第2図と関連して詳細に説明す
る。プリプロセツサ46は、線47を介して音声入力ア
ナログ信号を受信し、インターフエース線48を介して
制御プロセツサすなわちコントローラに処理されたデー
タを供給する。一般に、制御プロセツサの動作速度は、
汎用プロセツサであると、到来データを実時間で処理す
るに十分速くない。この結果、要素45の処理速度を有
効に増すために、種々の特別目的のハードウエアを採用
するのが有利である。本発明の譲受人に譲渡された米国
特許第4,228,498号に記載されるようなベクメ
ル処理装置48aは、パイプライン効果を利用すること
により相当増大されたアレイ処理能力を提供する。加え
て、第4、5および6図と関連して詳述するように、尤
度関数プロセツサ48bが、装置の動作速度をさらに1
0倍増すためベクトルプロセツサと関連して使用でき
る。本発明の好ましい具体例においては制御プロセツサ
45はデイジタルコンピュータであるが、第10図と関
連して説明される他の特定の具体例においては、処理能
力の相当の部分が、逐次解読プロセツサ49において制
御プロセツサの外部で実施される。このプロセツサの構
造については、第10図と関連して追つて詳細に説明す
る。このように、ここに例示される音声認識を実施する
ための装置は、その速度、およびハードウエア、ソフト
ウエアまたはハードウエアおよびソフトエアの有利な組
合せで実施できる点において大なる変幻性を有するもの
である。次にプロセツサについて説明する。第2図に例
示される装置において、固有の平均化の作用をもつ自己
相関機能は、線10を介して供給される到来アナログ可
聴データ、一般的には音声信号に作用するアナログ−デ
イジタルコンバータ13により発生されるデイジタルデ
ータ列に対して遂行される。コンバータ13は、線15
上にデイジタル入力信号を発生する。デイジタル処理機
能ならびにアナログ−デイジタル変換は、クロツク発振
器51の制御下で調時される。クロツク発振器は、25
6,000パルス/秒の基本タイミング信号を発生し、
そしてこの信号は、周波数分割器52に供給されて、
8,000パルス/秒の第2のタイミング信号を得る。
低速タイミング信号は、アナログ−デイジタル変換器1
3ならびにラツチレジスタ53を制御する。しかして、
このラツチレジスタは、次の変換が完了するまで最後の
変換の12ビツトの結果を保持するものである。自己相
関積は、レジスタ53に含まれる数に32ワードシフト
レジスタ58の出力を乗算するデイジタルマルチプライ
ヤ56により発生される。レジスタ58は、循環モード
で動作し、高速クロツク周波数により駆動されるから、
シフトレジスタデータの1循環は、各アナログ−デイジ
タル変換ごとに遂行される。シフトレジスタ58に対す
る入力は、1回の循環サイクル中に一度レジスタ53か
ら供給される。デイジタルマルチプレクサ56に対する
一方の入力は、ラツチレジスタ53から直接供給され、
他方の入力は、シフトレジスタの現在出力からマルチプ
レクサ59を介して供給される。乗算は、高束クロツク
周波数で遂行される。このようにして、A/D変換から
得られる各値は、先行の31の変換値の各々と乗算され
る。技術に精通したものには明らかであるように、それ
により発生される信号は、入力信号を、それを32の異
なる時間増分だけ遅延した信号と乗算することと等価で
ある(1つは遅延0である)。0遅延相関を得るため、
すなわち信号のべきを生ずるため、マルチプレクサ59
は、シフトレジスタ60に各新しい値が導入されつつあ
る時点に、ラツチレジスタ53の現在値をそれ自体と乗
算する。このタイミング機能は、60で指示される。こ
れも技術に精通したものには明らかなように、1回の変
換とその31の先行データから得られる積は、適当なサ
ンプリング間隔についてのエネルギ分布すなわちスペク
トルを公正に表わさない。したがつて、第2図の装置
は、これらの複数組の積の平均化を行なう。平均化を行
なう累積工程は、加算器65と接続されて1組の32の
累積器を形成する32ワードシフトレジスタ63により
提供される。すなわち、各ワードは、デイジタルマルチ
プレクサからの対応する増分に加算された後、再循環さ
れ得る。この循環ループは、低周波クロツク信号により
駆動されるN分割器69により制御されるゲート67を
通る。分割器69は、シフトレジスタ63が読み出され
るまでに累積されしたがつて平均化される瞬間的自己相
関関数の数を決定するフアクタにより、低周波クロツク
を分割する。例示の具体例においては、読み出されるま
でに80のサンプルが累積される。換言すると、N分割
器69に対するNは80に等しい。80の変換サンプル
が相関づけられ、累積された後、分割器69は、線72
を介してコンピュータ割込み回路71をトリガする。こ
の時点に、シフトレジスタ63の内容は、適当なインタ
ーフエース回路73を介してコンピュータメモリに逐次
読み込まれる。レジスタ内の32の逐次のワードは、イ
ンターフエース73を介してコンピュータに順番に提示
される。技術に精通したものには明らかなように、周辺
ユニツト、すなわち自己相関器プリプロセツサからコン
ピュータへのこのデータ転送は、普通、直接メモリアク
セス法により遂行されよう。8000の初サンプリング
速度で80のサンプルが平均化されることに基づき、毎
秒100の平均化相関関数が供給されることが分ろう。
シフトレジスタの内容がコンピュータから読み出されて
いる間、ゲート67が閉成されるから、シフトレジスタ
の各ワードは、0にリセツトされ、累積プロセスの再開
を可能にする。数式で表わすと、第2図に示される装置
の動作は下記のごとく記述できる。アナログ−デイジタ
ル変換器が時間列S(t)を発生すると仮定すると(こ
こにt=0,T,2T,…,Tはサンプリング間
隔(例示の具体例において1/8000秒))、第2図
の例示のデイジタル相関回路は、始動時のあいまいさを
無視すると、次の相関関数を計算するものと考えること
ができる。
ここにj=0,1,2,…,31、t=80T,16
0T,…,80,…である。これらの相関関数
は、第1図の線19上の相関出力に対応する。第3図を
参照して説明すると、デイジタル相関器は、各10ミリ
秒毎に1相関関数の割合で一連のデータブロツクをコン
ピュータに連続的に伝送するように動作する。これは第
3図に77で指示される。各データブロツクは、対応す
る細分時間間隔に誘導される自己相関関数を表わす。上
述のように、例示の自己相関関数は、単位秒当り100
の32ワード関数の割合でコンピュータに提供される。
この分析間隔は、以下において「フレーム」と称され
る。第1の例示の具体例において、自己相関関数の処理
は、適当にプログラムされた専用デイジタルコンピュー
タで遂行される。コンピュータプログラムにより提供さ
れる機能を含むフローチヤートが第3図に示されてい
る。しかしながら、段階の種々のものは、ソフトウエア
でなくてハードウエア(以下に説明する)によつても遂
行でき、また第2図の装置により遂行される機能のある
ものは、第3図のフローチヤートの対応する修正により
ソフトウエアでも遂行できることを指摘しておく。第2
図のデイジタル相関器は、瞬間的に発生される自己相関
関数の時間平均動作を遂行するが、コンピュータに読み
出される平均相関関数は、サンプルの順次の処理および
評価と干渉し合うようなある種の変則的不連続性または
不均一性を含む。したがつて、データの各ブロツク、す
なわち各自己相関関数a(j,t)は、まず時間に関し
て平滑化される。これは、第3図のフローチヤートにお
いて78で指示される。好ましい平滑法は、平滑化自己
相関出力a(j,t)が下式により与えられるもので
ある。
(j,t)=Ca(j,t)+Ca(j,t−T)+Ca(j,t −2T) (2) ここにa(j,t)は式(1)において定義された不平
滑入力自己相関関数であり、a(j,t)は平滑自己
相関出力であり、jは遅延時間を表わし、tは実時間を
表わし、Tは連続的に発生される自己相関関数間の時間
間隔(フレーム)を表わし、好ましい具体例においては
0.01秒に等しい。重み付け関数C,C,C
は、例示の具体例においては好ましくは1/4,1/
2,1/4に選ばれるのがよいが、他の値も選択されよ
う。例えば、20Hzのカツトオフ周波数をもつガウス
のインパルスレスポンスを近似する平滑化関数をコンピ
ュータソフトウエアで実施できよう。しかしながら、実
験によれば、式(2)に例示される実施容易な平滑化関
数で満足な結果が得られることが示された。上述のよう
に、平滑化関数は、遅延の各値Jについて別々に適用さ
れる。以下の分析は、音声信号の短期間フーリエパワス
ペクトルに関する種々の操作を含むが、ハードウエアを
簡単にしかつ処理スピードを上げるため、自己相関関数
の周波数領域への変換は、例示の具体例においては8ビ
ツトの算術で実施される。3KHz近傍のバンドパスの
高域の端では、スペクトルパワ密度が8ビツト量におけ
る解像に不十分なレベルに減ずる。それゆえ、システム
の周波数レスポンスは、6d/オクターブの上昇率で
傾斜される。これは79で指示される。この高周波数の
強調は、その変数すなわち時間遅延に関する自己相関関
数の二次微分を取ることにより遂行される。微分操作
は、次式のごとくである。
b(j,t)=−a(j+1,t)+2a(j,t)−a(j−1,t)(3 ) j=0に対する微分値を求めるために、自己相関関数は
0に関して対称であるから、a(−j,t)=a(+
j,t)であると仮定する。また、(32)に対するデ
ータはないから、j=31における微分値は、j=30
のときの微分値と同じであると仮定する。第3図のフロ
ーチヤートで示されるように、分析手続きの高周波強調
後の次の段階は、自己相関のピーク絶対値を見出すこと
により現在のフレーム間隔における信号パワを算出する
ことである。パワの概算値p(t)は次のごとくなる。
8ビツトスペクトル分析のための自己相関関数を用意す
るため、平滑化自己相関関数は、p(t)に関してブロ
ツク標準化され(80にて)、各標準価値の上位8ビツ
トがスペクトル分析ハードウエアに入力される。それゆ
え、標準化されかつ平滑化された自己相関関数は次のご
とくなる。
c(j,t)=127b(j,t)/p(t) (5) ついで、81で指示されるように、時関に関して平滑化
され、周波数強調され、標準化された各相関関数に余弦
フーリエ変換が適用され、31点のパワスペクトルを生
成する。余弦値のマトリツクスは次式で与えられる。す
なわち、 s(i,j)=126g(i)(cos(2πi/8000)f(j)), j=0,1,2,….,31 (6) ここに、s(i,j)は、時刻tにおける、f(j)H
zに中心を置くバンドのスペクトルエネルギ、g(i)
=1/2(1+cos2πi/63)は、サイドローブ
を減ずるための(ハミング)窓関数エンベロープであ
る、および f(j)=30+1000(0.0552j+0.438)1/0.63Hz , (7) j=0,1,2,…,31 これは、主楽音ピツチいわゆる「メル」曲線上に等しく
離間された分析周波数である。明らかなように、これ
は、約3000〜5000Hzの代表的通信チヤンネル
のバンド幅の周波数に対する主ピツチ(メルスケール)
周波数軸線間隔に対応する。スペクトル分析は、−31
から+31までの遅を加算を必要とするから、自己相関
が0に関して対称であるということを仮定すれば、Jの
正値しか必要としない。しかしながら、遅れ0の項を2
度計算することを避けるために、余弦マトリツクスは次
のように調節される。
s(0,j)=126/2=63,余jに対して (8) かくして、計算されたパワスペクトルは次式により与え
られる。
ここで第j番目の結果は周波数f(j)に対応する。こ
れも明らかなように、各スペクトル内の各点すなわち値
は、対応する周波数バンドを表わす。このフーリエ変換
は従来のコンピュータハードウエア内で完全に遂行でき
るが、外部のハードウエアマルチプレツクサまたは高速
フーリエ変換(FFT)周辺装置を利用すれば、工程は
かなりスピード化し得よう。しかしながら、この種のモ
ジュールの構造および動作は技術上周知であるから、こ
こでは詳細に説明しない。ハードウエア高速フーリエ変
換周辺装置には、周波数平滑機能が組み込まれるのが有
利であり、この場合、各スペクトルは、上述の好ましい
(ハミング)窓重み付け関数g(i)に従つて周波数が
平滑される。これは、ハードウエアによるフーリエ変換
の実施に対応するブロツク85の83で実施される。バ
ツクグラウンドノイズが相当ある場合、バツクグラウン
ドのパワスペクトルの概算値が、この段階においてs′
(j,t)から減算されねばならない。ノイズを表わす
ために選択したフレーム(1または複数)には、音声信
号を含ませてはならない。雑音フレーム間隔を選択する
最適のルールは、応用にしたがつて変わるであろう。話
者が例えば音声認識装置により制御される機械で相互通
信に掛わり合う場合、例えば、機械がその音声応答ユニ
ツトによる話しを終了した直後の間隔に任意にフレーム
を選択するのが便利である。拘束がより少ない場合に
は、過ぎ去つた1ないし2秒の間の音声入力の最小の振
幅のフレームを選択することによりノイズフレームを見
出すことができる。追つて詳細に説明されるように、最
小振幅「サイレント」パターン、実際には2つの交互の
「サイレント」パターンの使用は、有利な装置動作をも
たらすことは明らかである。逐次の平滑パワスペクトル
が高速フーリエ変換周辺装置85から受信されると、以
下で説明されるように、周辺装置85からのスペクトル
に対するピークパワスペクトルエンベロープ(一般に異
なる)を決定し、それに応じて高速フーリエ変換装置の
出力を変更することにより通信チヤンネルの等化が行な
われる。到来する窓処理パワスペクトルs′(j,t)
(ここにjはスペクトルの複数の周波数に割り当てられ
る)に対応しかつ該スペクトルにより変更された新たに
発生された各ピーク振幅は、各スペクトルチヤンネルま
たはバンドに対する高速アタツク、低速デケイ、ピーク
検出機能の結果である。ウインドードパワスペクトル
は、対応するピーク振幅スペクトルのそれぞれの期間に
関して標準化される。これは、87で指示される。例示
の具体例においては、新しいウインドードスペクトルを
受け取る前に決定された「古い」ピーク振幅スペクトル
p(j,t−T)が、新たに到来したスペクトルs′
(j,t)と周波数バンドと周波数バンドとを比較する
やり方で比較される。ついで、新しいピークスペクトル
p(j,t)が、下記の規則にしたがつて発生される。
「古い」ピーク振輻スペクトルの各バンドのパワ振幅
は、この具体例においては固定分数、例えば1023/
1024と乗算される。これは、ピーク検出関数の低速
デケイ部分に対応する。到来スペクトルs′(j,t)
の周波数バンドJのパワ振幅が、崩壊ピーク振幅スペク
トルの対応する周波数バンドのパワ振幅より大きけれ
ば、その(またはそれらの)周波数バンドに対する崩壊
ピーク振幅スペクトル値は、到来するウインドードスペ
クトルの対応するバンドのスペクトル値と置き代えられ
る。これは、ピーク検出関数の高速アタツク部分に対応
する。数学的には、ピーク検出関数は、次のように表現
できる。すなわち p(j,t)=max p(j,t−T)・(1−E)・p(t)・s(j, t), (10) j=0,1,…,31 ここに、jは周波数バンドの各々に割り当てられ、p
(j,t)は生じたピークスペクトルであり、p(j,
t−T)は「古い」すなわち先行のピークスペクトルで
あり、s′(j,t)は新たに到来した部分的に処理さ
れたパワスペクトルであり、p(t)は時刻tにおける
パワ概算値であり、Eはデケイパラメータである。式
(10)にしたがうと、ピークスペクトルは、より高値
のスペクトル入力の不存在の場合、1−Eの率で通常崩
壊する。普通、Eは1/1024に等しい。しかしなが
ら、サイレントの期間中、特に通信チヤンネルまたは音
声特性の迅速な変化が予測されない場合、ピークスペク
トルのデケイを許すことは望ましくなかろう。サイレン
トフレームを限定するためには、バツクグラウンドノイ
ズフレームを選択するのに採用されたのと同じ方法が採
用される。過ぎ去つた128のフレームの振幅(p
(t)の平方根)が検査され、最小値が見つけられる。
現在フレームの振幅がこの最小値の4倍より小さけれ
ば、現在フレームはサイレントであると決定され、Eに
対して、値1/1024の代わりに値「0」が置き代え
られる。ピークスペクトルが発生された後、生じたピー
ク振幅スペクトルp(j,t)は、各周波数バンドピー
ク値を新たに発生されたピークスペクトルの隣接する周
波数に対応するピーク値と平均することにより、周波数
が平滑化される(89)。しかして、平均値に寄与する
全周波数バンド幅は、フオーマント周波数間の代表的周
波数間隔に概ね等しい。音声認識の技術に精通したもの
には明らかなように、この間隔は、約1000Hzであ
る。この特定の方法による平均化により、スペクトル内
の有用情報、すなわちフオーマント共鳴を表わす局部的
変動が維持され、他方、周波数スペクトルの全体的な強
調は抑制される。好ましい具体例においては、ピークス
ペクトルは、7つの隣接する周波数バンドをカバーする
移動平均関数により周波数に関して平滑化される。平均
関数は次のごとくである。
パスバンドの終端において、p(k,t)は、0より小
さいkおよび31より大きいkに対して0となる。標準
化エンベロープh(j)は、実際に加算された有効デー
タ要素の数を考慮に入れる。かくして、h(0)=7/
4、h(1)=7/5、h(2)=7/6、h(3)=
1,…,h(28)=1,h(29)=7/6,h(3
0)=7/5,そしてh(31)=7/4となる。得ら
れた平滑化ピーク振幅スペクトルe(j,t)は、つい
で、いま受信されたパワスペクトルを標準化し、周波数
等化するのに使用されるが、これは到来平滑化スペクト
ルs′(j,t)の各周波数バンドの振幅値を、平滑化
ピークスペクトルe(j,t)の対応する周波数バンド
値で分割することにより行なわれる。数学的にこれは、
次のように表わさせる。
sn(j,t)=s(j,t)/e(j,t)32767 (12) ここに、sn(f,t)は、ピーク標準化され平滑化さ
れたパワスペクトルであり、jは各周波数バンドに対し
て割り当てられる。このステツプは、91で指示されて
いる。ここで、周波数等化されかつ標準化された一連の
短期間パワスペクトルが得られるが、このスペクトル
は、到来音声信号の周波数含分の変化が強調され、一般
的な長期間周波数強調または歪は抑制されたものであ
る。この周波数補償方法は、補償の基準が全信号または
各周波数バンドのいずれにおいても平均パワレベルであ
る通常の周波数補償システムに比して、電話線のような
周波数歪を生ずる通信リンクを介して伝送される音声信
号の認識において非常に有利であることが分つた。逐次
のスペクトルは種々処理され、等化されたが、到来音声
信号を表わすデータはなお100/秒の割合で生ずるス
ペクトルを含んでいることを指適しておく。91で指示
されるように標準化され、周波数等化されたスペクトル
は、91で指示されるように振幅変換を受ける。これ
は、スペクトル振幅値に非直線的なスケール操作をなす
ことにより行なわれる。s(j,t)(式12から)
のごとき個々の等化され標準化されたスペクトルを選択
すると(ここにjはスペクトルの異なる周波数バンドを
指示し、tは実時間を表わす)、非直線スケール化スペ
クトルx(j,t)は、次の直線分数関数により定義さ
れる ここにAはj=0〜31までのスペクトルs(j,
t)の平均値であり、下記のように定義される。
ここでjはパワスペクトルの周波数バンドを指示する。
スペクトルの31の期間は、次式のようにAの対数によ
り置き代えられる。すなわち、 x(31,t)=16logA (15) このスケール関数(式13)は、短期間平均値Aから大
きく偏つたスペクトル強度に対して柔軟なスレツシヨル
ドおよび漸進的な飽和の作用を及ぼす。数学的に述べる
と、平均近傍の強度に対して概ね直線的であり、平均か
ら離れた強度に対して概ね対数的であり、極端な強度値
に対して実質的に一定である。対数スケールの場合、関
数x(j,t)は0に関して対称であり、聴覚神経を刺
激するような割合の関数を示唆するようなスムツシヨル
ドおよび飽和の振舞を示す。実際に、全認識システム
は、この特定の非直線スケール関数の場合、スペクトル
振幅の直線または対数スケールのいずれかの場合よりも
相当良好に機能する。このようにして、振幅変換され、
周波数レスポンスを等化され、標準化された一連の短期
間パワスペトルx(j,t)(ここに、t=0.01,
0.02,0.03,0.04秒、j=0,…,30
(発生されたパワスペクトルの周波数バンドに対応)が
発生する。各スペクトルに対して32ワドが用意され、
A(式15)、すなわちスペクトル値の平均値の値は、
32ワードとして記憶される。以下において「フレー
ム」として言及されるこの振幅変換された短期間パワス
ペクトルは、例示の具体例においては、95で指示され
るように、256の32ワードスペクトルに対する記憶
容量をもつフアーストイン・フアーストアウト循環メモ
リに記憶される。かくして、例示の具体例においては、
2.56秒の音声入力信号が分析のために利用可能とな
る。この記憶容量は、もし必要ならば、分析および評価
のため異なる実時間でスペクトルを選択し、したがつて
分析上必要に応じて時間的に前進、後進できるような変
幻性をもつ認識システムを提供する。このように、最後
の2.56秒に対するフレームは循環メモリに記憶さ
れ、必要なときに利用できる。例示の具体例において
は、動作中、各フレームは2.56秒記憶される。かく
して、時刻tにおいて循環メモリに入つたフレーム
は、2.56秒後、時刻t+2.56秒に対応する新し
いフレームが記憶されるとき、メモリから失なわれる、
すなわちシフトされる。循環メモリ中を通るフレーム
は、好ましくは実時間において既知の範囲のワードと比
較され、ワードストリングと呼ばれるワード群において
入力データを決定し識別させる。各語彙ワードは、複数
の非重複のマルチフレーム(好ましくは3フレーム)デ
サインセツトパターンに形成され複数の処理パワスペク
トルを統計的に表わすテンプレートパターンにより表わ
される。これらのパターンは、語彙ワードの意味のある
音響事象をもつともよく表わすように選択されるのがよ
く、そして94で記憶される。デザインセツトパターン
を形成するスペクトルは、第1図に図示される線10上
の連続する未知の音声入力を処理するため、上述のシス
テムを使つて種々の状況で話されるワードに対して発生
される。このように、各語彙ワードは、それと関連する
一般に複数の一連のデザインセツトパタンp(i)
p(i),…を有しており、各パターンは、短期間ス
ペクトルの領域においてそのi番目のキーワードについ
ての1つの指示を与える。各キーワードに対するデザイ
ンセツトパターンの集まりは、ターゲツトパターンを発
生するについての統計的基準を形成する。本発朋の例示
の具体例において、デザインセツトパターンp(i)j
は、各々、直列に配列された3つの選択されたフレーム
を構成する96要素配列と考えることができる。パター
ンを形成するフレームは、時間に関する平滑に起因する
不要相関を避けるため少なくとも30ミリ秒離間される
べきである。本発明の他の具体例においては、フレーム
を選択するため他のサンプリング法を実施できる。しか
しながら、好ましい方法は、フレームを一定継続時間、
好ましくは30ミリ秒離間してフレームを選択し、非重
複デザインセツトパターンをキーワードを限定する時間
間隔中離間させる方法である。すなわち、第1のデザイ
ンセツトパターンpは、キーワードの開好点近傍の部
分に対応し、第2のパターンpは時間の後の部分に対
応し、以下同様であり、そしてパターンp,p,…
は、一連のターゲツトパターンに対する統計的基準、す
なわちワードテンプレートを形成し、到来音声データは
これに整合されるのである。ターゲツトパターンは
,t,…は、各々、p(i)jが独立ラプラシア
ン変数より成ることを仮定することにより対応するp
(i)jから発生される統計データよりなる。この仮定
は、以下で説明される到来データとターゲツトパターン
間に尤度統計データが生成されることを可能にする。か
くして、ターゲツトパターンは、エントリとして、集め
られた対応するデザインセツトパターン配列エントリに
対する平均値、標偏差およびエリヤ標準化率を含む配列
より成る。より精確な尤度統計データについては後で説
明する。技術に精通したものには明らかなように、ほと
んどすべてのワードは、2以上の文脈上および/または
地域的な発音を有し、したがつてデザインセセツトパタ
ーンの2以上の「スペリング」を有してている。かくし
て、上述のパターン化スペリングp,p … を有
する語彙ワードは、実際上、一般にp(i),p
(i),…、i=1,2,…,Mとして表言でる。こ
こにp(i)jの各々は、第j番目のクラスのデザイン
セツトパターンについての可能な代替的記述方法であ
り、各ワードに対して全部でMの異なるスペリングがあ
る。それゆえ、ターゲツトパターンt,t,…,t
は、もつとも一般的意味において、各々、第i番目の
グループまたはクラスのデザインサツトパターンに対す
る複数の代替的統計的スペリングを表わす。このよう
に、例示の具体例において、「ターゲツトパターン」な
る用語は、もつとも一般的意昧において使用されてお
り、したがつて、各ターゲツトパターンは、2以上の許
容し得る代替的「統計的スペリング」を有し得る。到来
する未知の音声信号および基準パターンを形成する音声
信号の予備処理は、これで完了する。次に、記憶された
スペクトルの処理について説明する。米国特許第4,2
41,329号、第4,227,176号および第4,
227,177号に記載される、音声パターンを検出ワ
ードに結び付けるキーワード認識法のより深い研究によ
れば、それがより一般的でおそらく優れた方法の特別の
場合であることが分つた。第4図を参照して説明する
と、ワード認識の探索は、抽象的な状態空間中に適当な
路を見つける問題として表わすことができる。この図に
おいて、各円は、ドウエル(引延し)時間位置またはレ
ジスタとも指称される可能な状態を表わし、決定プロセ
スはこれを通ることができる。垂直鎖線120、122
間の空間は、パターンが現在の音素に整合するかしない
かを決定する際に決定プロセスが通過し得る仮定の状態
を各々表わす。この空間は、必須のドウエル時間部分1
24と、任意のドエル時間部分126に分けられる。必
要なドウエル時間部分は、「現在の」音素またはパター
ンの最小継続時間を表わす。任意または必須ドウエル時
間部分内の各円は、形成されるフレームの連続体のフレ
ーム時間を表わし、フレームからフレームまでの0.0
1秒の間隔に対応する。かくして、各円は、1つのワー
ドスペリングにおける仮定の現在音素位置を表わし、そ
して(0.01秒の)フレームの数は、現在の音素が始
まつてから経過した時間を仮定し、その音声またはター
ゲツトパターンにおけるそれより前の円の数に対応して
おり、パターンの現在の継続を表わす。1つのパターン
(音素)が始まり、最小のドウエル時間間隔が経過した
後、次のターゲツトパターン(音素)の第1の節点すな
わち位置(円)128に進むには数本の可能な路があ
る。これは、スペリングの次のパターン(音素)へ移動
することの決定がいつなされるかに依存する。これらの
決定の可能性は、この図においては、円128に向う数
本の矢により表わされる。次のパターン(音素)の始点
は円128により表わされているが、次のパターンへの
この変換は、現在のパターン(音素)の任意のドウエル
時間中の任意の節点すなわち位置から、または必須ドウ
エル時間間隔の最後の節点からなされよう。米国特許第
4,241,329号、第4,227,176号および
第4,227,177号に記載のキーワード認識方法
は、次のパターン(音素)に関する確度スコアが現在の
パターン(音素)に関する確度スコアより良好であるよ
うな第1の節点で変換を行なう。すなわち、フレーム
が、現在の音素またはパターンより次の音素またはパタ
ーンとよく整合する点でなされる。他方、全ワードスコ
アは、フレーム当りの(すなわち路に含まれる節点当り
の)平均パターン(音素)スコアである。現在の節点ま
でのワードスコアに適用される「全スコア」の定義と同
じ定義が、変換をいつなすべきかを決定するのに使用で
きる。すなわち、次のパターンへの変換を、例えば変換
指示線130に対応する最初の機会でなすべきか、ある
いは例えば変換指示線132に対応するもつと後の時点
になすべきかの決定に使用できる。最適には、節点当り
の平均スコアが最良であるような路を次のパターン(音
素)中に選ぶことになる。米国特許第4,241,32
9号、第4,227,176号および第4,227,1
77号に記載される標準的キーワード法は、次のパター
ン(音素)に移動すべきことの決定をなした後潜在的な
路について試験をしないから、平均スコア/節により測
定されるところにしたがつてほぼ最適の決定をなすこと
になろう。したがつて本発明は、キーワード認識に平均
スコア/節法を採用する。問題は、追つて詳細に説明さ
れるワードストリング認識と関連して起こり、含まれる
節点の数によりすべての部分的ワードスコアを標準化す
るか(これは計算上不効率的である)、あるいは累積値
をバイアスして明白な標準化を不必要としなければなら
ない。クローズドボキャブラリータスクにおいて使用す
べき自然バイアス値は、現在の分析時間で終了する最良
のワードに対する不標準化スコアである。したがつて、
全節点における累積スコアは、つねに、同じ数の基本的
パターンスコアの総和となろう。さらに、スコアは、こ
のバイアス値により現在の分析節点で終わる最良のワー
ドストリングのスコアに変換される。平均スコア/節点
による決定法は、米国特許第4,228,498号に記
載されるベクトルプロセツサで動的プログラミング技術
を使用することにより効率的に実施できる。この態様で
プログラム設定されるとき、処理速度は、より多くの仮
定試験が必要とされるとしても、米国特許第4,24
1,329号、第4,227,176号および第4,2
27,177号に記載される標準的キーワード認識方法
よりもずつと速い。一般的にいつて、ワードストリング
を認識するためには、プログラムに、各分析節点で終わ
る仮定するのに最良の語彙ワードの名前を記憶させる。
また、この最良のワードが始まつた節点(時間)も記憶
する。ついで、発声の終りからバツクトレーシングし、
記憶されたワードの名前に留意し、現在のワードの指示
された開始点に次の前述のワードを見つけることによ
り、最良のワードストリングが発見される。語彙ワード
としてサイレントを含ませると、ワードストリングに含
まれるワードの数を特定することは不必要となる。スト
リングを見つけるためのバツクトラツキングの動作は、
サイレントワードが最良のスコアを有するときに実行さ
れ、そして先のサイレントが次に検出されるときに終了
する。かくして、話者が息を止める度にストリングが見
出される。ここに記述されるワードストリング識別法
は、個々のキーワードの検出よりも抽出しベルが高い方
法である。ワードストリングスコアにより、発声中のす
べての音声をあるワードストリングに強性的に含ませる
から、単純なワードスポツテイング法よりも有利であ
る。後者の方法は、長いワード中に誤種のワードを検出
することが多い。有利なことは、ワードストリングケー
スにタイミングパターンが必要でないことである。これ
は、ワード連結器が各ワード終了の仮定ごとにワード開
始時間を出力するからである。もつとも簡単なストリン
グ連結器は、これらのワード開始時間が正しいことを仮
定する。サイレントの検出で、ワードストリングがいま
終つたこと、および最後のワードの開始点が先のワード
の終了点で(これもサイレントの場合もある)あること
を仮定する。通常、ストリングの各ワード対間には文脈
に依存する変換はないから、装置で、先行のワードの最
良の終了点を見つけるように各ワードの開始点の近傍を
探索することができるようにするのが好ましかろう。次
に、ハードウエアおよびソフトウエアの具体例を含む方
法および装置について詳細に説明する。第3図を参照し
て説明すると、まず、到来連続音声データを表わす95
で記憶されたスペクトルまたはフレームは、下記の方法
にしたがつて語彙のキーワードを表わす記憶されたター
ゲツトパターンテンプレート(96)と比較される。各
10ミリ秒のフレームに対して、記憶された基準パター
ンと比較のためのパターンは、現在のスペクトルベクト
ルs(j,t)、3フレーム前のスペクトルs(j,t
−0.03)、および6フレーム前のスペクトルs
(j,t−0.06)を隣接させて下記の96要素パタ
ーンを形成することにより97で形成される。
上述のように、記憶された基準パターンは、認識される
べき種々の音声パターンクラスに属する先に集められた
96要素パターンの平均値、標準偏差およびエリヤ標準
化フアクタより成る。比較は、入力音声が特定のクラス
に属することを予測する値x(j,t)の確率モデルに
より遂行される。確率モデルについてはガウスの分布を
利用できるが(例えば上述の米国特許第4,241,3
29号、第4,227,176号および第4,227,
177号参照)、ラプラス分布、すなわち (ここにmは統計平均、sは変数xの標準偏差である)
は、計算が少なくてすみ、例えば米国特許第4,03
8,503号に記載される話者に不依存性の隔絶ワード
認識法におけるガウスの分布とほとんど同様に機能する
ことが分つた。未知の入力パターンxと第k番目の記憶
基準パターン間の類似の程度L(x1k)は、確率の対
数に比例し、次の式で100で算出される。
一連のパターンの尤度スコアLを結合して話されたワー
ドまたはフレーズの尤度スコアを形成するため、各フレ
ームに対するスコアL(x1x)は、そのフレームに対
する全基準パターンの最良の(最小の)スコアを減ずる
ことにより調節される。すなわち、 したがつて、各フレームに対する最良の適合パターン
は、0のスコアを有するであろう。仮定された一連のパ
ターンに対する調節されたスコアは、フレームごとに累
積され、指示された一連のシーケンスを支持する決定が
正しい決定となるような、確率に直接に関係づけられた
シーケンススコアを得ることができる。記憶された既知
のパターンに対する未知の入力スペクトルパターンの比
較は、k番目のパターン対する下記の関数を計算するこ
とにより遂行される。すなわち、 ここに、sikは1/s′ikに等しい。通常のソフト
ウエアで実施される計算において に下記の命令が実行されよう。
1. x−uを計算せよ 2. x−uの符号を試験せよ 3. x−uが負ならば、絶対値を形成するように否定
せよ 5. 結果をアキユムレータに加えよ 20−ワード語彙を有する代表的音声認識システムにお
いては、約222の異なる基準パターンが設けられよ
う。これを求めるに必要とされるステツプの数は、間接
動作を含まないと、5×96×222=10560ステ
ツプであり、これが、実時間スペクトルフレーム速度に
遅れないようにするため、10ミリ秒以内で実行されな
ければならない。それゆえ、プロセツサは、尤度関数を
J度求めるためには、ほぼ1100万/秒の命令を実行
できなければならない。必須の速度を考慮に入れて、米
国特許第4,228,498号に開示されるベクトルプ
ロセツサシステムと適合する専用の尤度関数ハードウエ
アモジュール200(第4図)が採用される。この専用
ハードウエアにおいては、上述の5つ に遂行されるから、実際には、1つの命令を実行するの
に要する時間で10の命令が遂行される。基本的ベクト
ルプロセツサは800万(命令)/秒の速度で動作する
から、尤度関数に対する有効計算速度は、専用ハードウ
エア200が採用されると約8000万(命令)/秒と
なる。第5図を参照すると、ハードウエアモジュール2
00は、10のステツプの同時の実行を可能にするた
め、ハードウエアによるパイプ処理および並列処理の組
合せを採用している。2つの同一の部分202,204
は、各々、独立の入力データ変数について5つの算術演
算ステツプを遂行しており、結果はその出力に接続され
た加算器206により結合される。加算器206からの
加算値の累積は、式(19)の1〜96の加算であり、
そしてこの値は、米国特許第4,288,498号に記
載される標準的ベクトルプロセツサの演算ユニツトで処
理される。動作において、パイプライン結合レジスタ
は、以下の処理段階における中間データを保持する。
1.入力変数(クロツク作動レジスタ208、210、
212、214、216、218) 2.x−uの絶対値(クロツク作動レジスタ220、2
22) 3.乗算器の出力(クロツク作動レジスタ224、22
6) 入力データがクロツク作動レジスタ208〜218に保
持されると、x−uの大きさが、減算・絶対値回路によ
り決定される。第6図を参照すると、減算・絶対値回路
228、230は、各々第1および第2の減算器(一方
はx−uを算出、他方はu−xを算出)および正の結果
を選択するためのマルチプレクサ236を備えている。
レジスタ208、210から出る線238、240上の
入力変数xおよびuは、それぞれ−128〜+127の
8ビツト数である。8ビツト減算器の差出力は9ビツト
にオーバーフローすることがあるから(例えば127−
(−128)=255)、オーバーフロー状態を取り扱
うため余分の回路が採用される。状態はオーバーフロー
検出器235により決定される。しかして、その入力
は、「x」の符号(線235a上)、「u」の符号(線
235b上)および「x−u」の符号(線235c上)
である。次に第7図を参照すると、オーバーフロー検出
器は、この例示の具体例においては、3入力ANDゲー
ト268、270およびORゲート272を有する組合
せ回路である。第8図の真値表は、オーバーフロー条件
を入力の関数として表わしている。オーバーフロー条件
は、マルチプレツクサ236、(これは正の減算器出力
を選択する回路である)で4つの選択を行なうことによ
り処理される。選択は、線242および244上の2進
レベルで定められる。線242上のレベルは、x−uの
符号を表わす。244上の符号は、1ならばオーバーフ
ローを表わす。かくして、選択は次のごとくなる。
マルチプレツクサはこのように制御されて、8極4位置
スイツチのように作用する。シフト動作は、組合せによ
り減算出力を適当なマルチプレクサに接続することによ
り遂行される。シフトは、算術的に2で分割する効果を
もつ。減算中にオーバーフローが起こると、マルチプレ
クサの出力は、減算器の出力を2で分割した出力とな
る。それゆえ、最終結果を2で乗算して正しいスケール
フアクタを取り戻すことができるように、計算の後段で
この条件を思い出させることが必要である。この復旧
は、最後のパイプ処理レジスタの後のマルチプレツクサ
で行なわれる。それゆえ、パイプライン処理レジスタ2
20、222、224、226には余分のビツトが設け
られており、第2のマルチプレクサ248、250を制
御する。後者のマルチプレクサは、オーバーフロービツ
ト(1に等しい)の場合、それぞれ8×8ビツトの乗算
器252、254の乗算積を1ビツトだけシフトアツプ
し、2を乗算する。乗算演算は8ビツト数を受け入れそ
の積を出力するTRW MPY−8−HJのごとき標準
的集積回路装置で実施できる。かくして、乗算器25
2、254は、各クロツ 値は余分のデータレジスタ256、258により正しく
調時される)。乗算器252、254の出力は、レジス
タ224、226にバツフア記憶され、線260、26
2を介し、加算器206を経て残りの回路に出力され
る。同じ専用ハードウエアモジユールは、マトリツクス
乗算において必要とされるような2ベクトルの内部積を
計算するのにも採用できる。これは、減算。絶対値回路
228、230において側路を可能とするゲート回路2
64、266で遂行され 処理レジスタ220、222に直接加えられる。次に、
ワードレベルパターン整列について説明する。未知の入
力音声と各語彙ワードテンプレート間の対応を最適化す
るためには、動的なプログラミング(101)が採用さ
れるのが好ましい。各ワードテンプレートは、上述の一
連の基準パターン統計データだけでなく、各基準パター
ンと関連する最小および最大のドウエル時間を含むのが
よい。動的プログラミング法にしたがえば、各語彙ワー
ドに対して1組の記憶レジスタが提供される。レジスタ
の数は、そのワードを構成する基準パターンの最大のド
ウエル時間の和に等しい。すなわち、もつとも長い許容
ワード継続時間に比例する。これらのレジスタは、第4
図の円に対応し、各円に対して1つのレジスタがある。
入力音声の各フレームに対して、全レジスタが読み取ら
れ、書き込まれる。各レジスタは、追つて詳述されるよ
うに、指示された語彙ワードが話されつつあるというこ
と、およびそのワードにおける現在位置が、そのレジス
タの特定の基準パターンおよびドウエル時間に対応する
という仮定に対応する累積された尤度スコアを含む。全
レジスタは、低い尤度スコアを含むようにイニシヤライ
ズされ、上記の仮定が、最初いずれも容認できるほどに
起こりそうでないことを指示する。レジスタ更新の規則
は下記のごとくである。各ワードテンプレートの最初の
レジスタ(すなわち、そのワードがいま発声され始めた
という仮定に対応するレジスタ)は、(a)そのワード
の第1の基準パターンに関する現在のフレームの尤度ス
コアと、(b)全語彙ワードのすべての最後のレジスタ
の最良のスコア(すなわち、あるワードが先行のフレー
ム上で完了されたという仮定に対する累積尤度スコア)
の和を含む。ワードテンプレートの第2のレジスタは、
(a)そのワードの第1の基準パターンに関する現在の
フレームの尤度スコアと、(b)先行のフレームからの
第1のレジスタとの和の内容を含む。かくして、第2の
レジスタは、指示されたワードが発声されつつあり、そ
れが先行のフレームで始まつたという仮定のスコアを含
む。最小および最大の継続時間の間のドウエル時間(任
意ドウエル期間)に対応するこれらレジスタの更新処理
中、各逐次の「現在フレーム」に対する任意的ドウエル
期間に対応するレジスタに、最良の累積された尤度スコ
ア(レジスタの内容)を記憶するため、別個のメモリレ
ジスタが採用される。先行のフレーム時間に見出された
この最良のスコアは、そのワードに対する次のターゲツ
トパターンまたはテンプレートの必須ドウエル時間に対
応する第1のレジスタの次の内容を計算するのに使用さ
れる。このように、次の基準パターンの最初のレジスタ
の現在の内容は、その最良のスコア(先行するターゲツ
トパターンの)を、前記の次の基準またはターゲツトパ
ターンに関する現在の入力フレームの尤度スコアに加え
ることにより発生される。第4図において、基準パター
ンの必須ドウエル間隔の第1のレジスタ128に至る多
重の矢印は、任意ドウエル時間レジスタまたは状態から
必須ドウエル時間レジスタまたは状態への変換が、任意
ドウエル時間間隔中の任意の時点に、または必須ドウエ
ル時間間隔の最後のレジスタから生ずることを指示する
ことを意味している。かくして、現在の情報に基づく
と、ワードテンプレートと入力パターン間の最良の適応
は、次のパターンが丁度始まりつつあるとき、先行のパ
ターンが、先行の任意ドウエル期間の最良のスコアを含
むレジスタ+先行の必須時間間隔の最後のレジスタ(例
示の具体例においてレジスタ300)に対応する継続時
間をもつたということを仮定するものである。動的プロ
グラミングの理論によれば、全部の可能なドウエル時間
に対応する先に累積されたスコアを保存しておく必要は
ない。それは、この理論によると、低スコアを生じたド
ウエル時間変換点は、将来の全処理段階において低スコ
アを発生し続けるからである。分析は、全ワードテンプ
レートの全基準パターンの全レジスタを使つて上述の態
様で進行する。各ワードテンプレートの最後のパターン
の最後のレジスタ(単数または複数)は、ワードがいま
丁度終了したという仮定のスコアを含む。尤度スコアの
累積中、一連の継続時間計数値は、各フレーム時間で終
了する最良のワードの継続時間を決定するため維持され
る。計数は、ワードの第1テンプレートパターンの第1
レジスタで「1」で開始される。テンプレートパターン
の各第2および後続のレジスタに対して、種々のレジス
タと関連される計数値は「1」だけインクリメントされ
る。しかしなから、基準パターン(1つのワードの第1
基準パターン以外の)の開始点に対応する各レジスタ、
すなわち例えば必須ドウエル時間間隔の第1レジスタ1
28については、先行のフレーム時間において最良の尤
度スコアを有する先行の基準パターンの任意ドウエル時
間レジスタ(または最後の必須ドウエル時間レジスタ)
の計数値が、レジスタに対する継続時間計数値を形成す
るようにインクリメントされる。追つ詳細に記載される
バツクトラツキング機構を提供するため、各フレーム時
間ごとに、その時間で終わる最良スコアのワードおよび
その継続時間についての情報は、循環バツフアメモリに
転送される。一連のワードが終了すると、記憶されたワ
ード継続時間は、最後の「最良」ワードの終端から、そ
の継続時間を逆上つて、「最後のワード」直前で終了す
る最良の先行ワードに至るまでなど、ワードストリング
の全ワードが識別されてしまうまでバツクトレーシング
することを可能にする。連続的に発声される語彙ワード
のストリングは、サイレントにより境界を定められる。
それゆえ、「サイレント」は、シフテムが応答・認識す
る「語彙ワード」の範囲の限界を定める制御ワードとし
て働く。前述のように、装置がある期間の間の最小振幅
信号を検出し、「サイレント」として示すことは珍しく
なくない。しかしながら、本発明によると、ワードテン
プレートの1つが、サイレントまたはバツクグラウンド
ノイズに対応している。サイレントワードが最良の尤度
スコアを有すれば、一連のワードが丁度終了しそして新
しい一連のワードが始まることが推定される。認識のプ
ロセスの最後のイニシヤライズ以後サイレント以外のワ
ードが最良のスコアを有したか否かを知るため、フラグ
レジスタが試験される。「サイレント」以外の少なくと
も1ワードが最良のスコアを有すれば(103)循環バ
ツフア内のワードストリングがバツクトレースされ(1
05)、生じた認識されたメツセージが、表示装置また
は他の制御装置に伝達される。次いで、循環バツフアは
クリヤされてメツセージの反復伝達を阻止し、フラグレ
ジスタはクリヤされる。このようにして、装置は次のワ
ードストリングを認識するようにイニシヤライズされる
(107)。有利なことには、本発明の好ましい具体例
においては、他の「キーワード」スペリングと同じよう
に、1以上の「サイレント」スペリングを採用できる。
すなわち、装置は、単に、演繹的な1組の規準に一致す
るときにすなわち演繹的ターゲツトパターンに一致する
ときにサイレントを検出することに限定されるだけでな
く、動的に変化するターゲツトパターンまたはテンプレ
ートを採用して、装置の「サイレント」検出能力をさら
に改善できる。このようにして、上述のように、音声の
先行の1または2秒の部分を周期的に試験し、例えば最
後の数秒中の最小振幅を有する代表的パターンを選択す
ることによつて動的に変化する「サイレント」モデルを
決定し、先行の動的サイレントモデルを更新し、あるい
は後述のトレーニング法にしたがつて新しい「動的」な
サイレントモデルを形成できる。このようにして、「サ
イレント」は、ターケツトパターンの2以上の「スペリ
ング」により限定することができ、サイレントの正確な
検出を改善する可能性は向上される。次に、基準パター
ンのトレーニングについて説明する。基準パターンの構
成のためサンプル平均uおよびバリアンスs′を得るた
めには、各語彙ワードの多数の発声が音声識別システム
に装入され、対応する予処理されたスペクトルフレーム
の全統計データが求められる。装置の重要で好結果をも
たらす動作は、どの入力スペクトルフレームがどのター
ゲツトまたは基準パターンに対応すべきかの選択であ
る。入力ワードに対して人間により選ばれた重要な音響
的音素のような十分な情報が不存在の場合、話されたワ
ードの始点と終点間の時間間隔は、多数の一様に離間さ
れたサブインターバルに分割される。これらのサブイン
ターバルの各々は、唯一の基準パターンと対応せしめら
れる。各間隔において始まる1または複数の3フレーム
パターンが形成され、その間隔と関連する基準パターン
にしたがつて分類される。同じ語彙ワードの後続の例
が、同様に、同数の一様に離間された間隔に分割され
る。対応する順番の間隔から抽出された3フレームパタ
ーンの要素の平均値およびバリアンスは、語彙ワードの
利用可能な全列について累積され、そのワードに対する
1組の基準パターンを形成する。間隔の数(基準パター
ンの数)は、語彙ワードに含まれる単位の言語学的音素
当り約2または3とすべきである。最良の結果を得るた
めには、記録された音声波形およびスペクトルフレーム
の人間による試験を含む手続きにより、各語彙ワードの
始点と終点がマークされる。この手続を自動的に実施す
るためには、装置がワードの境界を正確に見つけるよう
に、ワードを1時に1つずつ話し、サイレントにより境
界を定めることが必要である。基準パターンは、隔絶し
て話された各ワードの1つのこのようなサンプルからイ
ニシヤライズされよう。しかして、全バリアンスは、基
準パターンにおいて都合のよい定数に設定される。その
後、トレーニング資料は、認識されるベき発声を表わし
かつ認識プロセスにより見出されるようなワードおよび
分節境界をもつ発声を含むことができる。適当数のトレ
ーニング発声を含む統計的データが累積した後、そのよ
うにして見出された基準パターンが、初基準パターンの
代わりに利用される。次いで、トレーニング資料による
2回目のパスが行なわれる。このとき、ワードは、第3
図におけるように認識プロセツサによりなされた決定に
基づいてインターバルに分割される。各3フレーム入力
パターン(または、各基準パターンに対する1つの代表
的入力パターン)が、前述のパターン整合法によりある
基準パターンと関連づけられる。平均値およびバリアン
スは、それらが認識装置により使用される方法と完全に
適合した態様で誘導される最終の1組の基準パターンを
形成するように1秒間累積される。各トレーニングパス
中、認識プロセツサにより正しく認識されないトレーニ
ングフレーズを無視するのが好ましい。これは、誤認識
された発声は、インターバル境界を不完全に設定したか
も知れないからである。そのトレーニングパスの完了の
際、先に誤認識されたフレーズは、新しい基準パターン
で再度試みることができ、そのとき認識が成功すれば、
基準パターンはさらに更新できる。誤認識されたフレー
ズを無視することに対する代わりの方法は、各トレーニ
ング発声に対してマルチプルフードテンプレートを形成
することである。このテンプレートは、発声中の各ワー
ドに対するテンプレートを正しい順番で結び付けたもの
である。話者は、指示されたワード列を話すことを台本
により促進され、認識プロセツサは、マルチプルテンプ
レートおよびサイレントテンプレートのみを参照する。
そのとき、ワード境界および基準パターンの分類は、所
与の台本および利用可能な基準パターンに対して最適と
なろう。この手続の不利な点は、トレーニング台本によ
る多数回の試験が必要とされることがあることである。
最高に可能な確訳精度を得るためには、認識されるべき
語彙に対して先に決定された1組の話者不依存性の基準
パターンでトレーニング手続きを始めるのが好ましい。
話者不依存性のパターンは、少なくとも数人の異なる話
者により話される認識されるべきフレーズを表わすフレ
ーズから得られる。ワードの境界は、記録された音声波
形の人間による試験により決定されよう。ついで、叙上
の2段階手続きが、話者不依存性パターンを発生するた
めに採用される。すなわち1回目のパスにおいては、各
ワード内にサブインターバルが均一に離間される。2回
目のパスにおいては、第1パスによる基準パターンを使
つて認識プロセスによりサブインターバルが決定され
る。全話者についての全体的統計が各パスにおいて誘導
される。本システムは、有利なことには、先に発生され
た話者不依存性のパターンを使つて特定の話者に対して
トレニングされ、サイレントテンプレートとの組合せで
話者依存性の音声入力の境界を決定できることである。
好ましくは、話者依存性の音声入力は、隔絶形態でなく
連続ワードストリングで提供されるのがよい。トレーニ
ングプロセスにおいて連続音声を使用することにより、
より正確な結果を得ることができる。このようにして、
装置に利用可能な話者不依存性基準パターンを使つて、
話者依存性音声の境界が決定され、そして装置をトレー
ニングするための上述のマルチ試験プロセスが使用さ
れ、すなわち、1回目のパス中に各ワード中に一様に離
間されたサブインターバルが設定され、2回目のパスに
おいて、第1のパスにより発生されたパターンを使つて
認識プロセスによりサブインターバルが決定される。驚
くベきことには、都合のよいことに、予め未知の語彙ワ
ードに対して類似の方法を採用できる。すなわち、未知
の語彙ワードの境界は、(1)未知のキーワードを認識
するための他の語彙ワードに対する話者不依存性のパタ
ーンおよび(2)ワードの始点および終点におけるサイ
レントの発生がワードの限界を定めるという演繹的知識
を使つて決定される。そのとき、境界は、話者不依存性
基準パターンを「サイレント」に整合させるのでなく未
知語彙ワードに整合させるために形成された比較的良好
なスコアにより決定される。この結果を使用すると、未
知語彙ワードの境界が設定でき、その後上述の2段階法
が採用できる。すなわち、1回目のパス中にワードを均
一にサブインターバルに分割して全体的統計データを
得、ついで2回目のパス中、標準の認識プロセスおよび
第1のパス中発生された基準パターンを使用するのであ
る。この自動機械法は、未知のワードを例えば人間によ
り設定するのに比べ都合よく作用する。明らかにしたい
ことは、少なくとも2つのサイレントスペリングを使用
する「サイレント」認識法−その1つは好ましくは動的
に決定される−は、装置を新しい話者に対してトレーニ
ングすることと関連して著しい利点をもたらすことであ
る。また、これに関連して、サイレント「ワード」は、
装置からレスポンスをトリガするための制御ワードとし
て作用することも指摘したい。他の制御ワードも、その
認識が十分に確実であれば採用できようし、また、ある
状況においては、複数の制御ワードを、認識プロセス中
「道標」として働かせるように使用できよう。しかしな
がら、好ましい具体例においては、サイレント「語彙ワ
ード」が使用される唯一の制御ワードである。最小(必
須)および最大(必須+任意)ドウエル時間は、好まし
くはトレーニングプロセス中に決定されるのがよい。本
発明の好ましい具体例においては、装置は、上述のよう
に数人の話者を使つてトレーニングされる。さらに、上
述のように、本認識法では、トレーニング手続き中、上
述の方法にしたがつてパターンの境界が自動的に決定さ
れる。このようにして境界が記録され、装置により識別
された各キーワードに対してドウエル時間が記憶され
る。トレーニング工程の終了時に、各パターンに対する
ドウエル時間が試験され、パターンに対する最小および
最大のドウエル時間が選ばれる。本発明の好ましい具体
例においては、ドウエル時間のヒストグラムが形成さ
れ、最小および最大ドウエル時間は、第25および第7
5、100分位数に設定される。これは、低誤報率を維
持しながら高認識精度を与える。代わりに、最小および
最大ドウエル時間の他の選択も可能であるが、認識精度
と誤報率との間には交換条件がある。すなわち、もしも
最小ドウエル時間および最大ドウエル時間が選択される
と、一般に、高誤報率の犠牲でより高い認識精度が得ら
れる。次にシンタツクスプロセツサについて説明する。
2または3の特定のワードテンプレートの結合は、決定
プロセスにおけるシンタツクス制御の平凡な例である。
第9図を参照すると、奇数(1,3,5,7,…)のワ
ードを含むワード列を検出するためのシンタツクス回路
308は、各語彙ワードに対して維持される独立の2組
のパターン整列レジスタ310、312を有している。
第1テンプレートに入るスコアは、サイレントに対する
スコアまたは1組の第2テンプレートの最良スコアのい
ずれか良い方のものである。第2のテンプレートに入る
スコアは、第1組のテンプレートの最良のスコアであ
る。このスコアはまた、ノード313にある第2のサイ
レント検出テンプレートに送られる。ノード313にあ
る検出テンプレートにより測定されて発声の終端のサイ
レントが検出されると、発声されたワードのラベルおよ
び継続時間が、第1および第2組のテンプレートのトレ
ースバツクバツフアから交互にトレースバツクされ得
る。重要なことは、サイレント検出テンプレートの位置
で、奇数のワードを有するワード列の後のサイレントの
みが検出され得ることが保証されることである。若干複
雑なシンタツクス網は、第9図のノード313aのよう
な各シンタツクスノードと、容認できるワードストリン
グ長のリストを関連づけることにより実施できる。例え
ば、奇数のワードを含む任意のストリングを容認する第
9図のシンタツクス網において、ストリング長は、第2
のサイレントレジスタ313aの入力におけるストリン
グ長を試験することにより、特定の奇数、例えば5に固
定できる。その点におけるストリングの長さが5でなけ
れば、レジスタは不活性となり(その分析インターバル
に対して)、そのレジスタからストリングスコアは報告
されないが、ストリング長が5であると、ストリングの
検出が報告され得る。同様に、第1語彙レジスタ310
は、到来ストリング長が0、2または4のとき可能化さ
れ、第2レジスタは、到来ストリング長が1または3の
ときのみ可能化され得る。5ワードストリングに対する
最適の結果を得るためには、全部で5組の動的プログラ
ミングアキユムレータを必要としようが、本方法によれ
ば、これよりも少ない数のアキユムレータに、普通の認
識精度に若干の低減をもたらすだけで多重の役割を遂行
させることができる。本明細書に開示される特定の具体
例においては、5数字ストリングまたは数字でない既知
の語彙ワードのいずれかを認識するように設計される。
この文法的シンタツクスは、第9A図に図示されてい
る。第9A図において、各ノード(節点)314a、3
14b、…314hは、認識プロセスにおける段階を表
わしている。ノード314aおよび314gはサイレン
トの認識を表わし、ノード314b、314c、314
d、314eおよび314fは数字の認識を表わし、3
14hは、サイレントでない非数字語彙ワードの認識を
表わしている。かくして、装置のシンタツクス制御にし
たがえば、ノード314aに対応するサイレントがまず
認識されねばならない。この点では、数字の認識により
制御はノード314bに移行し、非数字の認識により制
御はノード314hに移行する(ここで「移行」とは、
文法シンタツクス中の容認し得る、すなわち「適法な」
進行をいう)。ノード314bでは、このノードから遠
ざかる唯一の容認できる進行は、数字ノードであるノー
ド314cへの進行である。他方、314hでは、この
ノードから遠ざかる唯一の容認し得る唯一の進行は、サ
イレントであるノード314gへの進行である。これら
は、第10図と関連して説明される制御シンタツクスプ
ロセツサ308により許される唯一の容認し得る、すな
わち適法な進行である。重要なことは、第9A図のシン
タツクスプロセツサは、第9図におけると同様に、節構
造体を折り返えし(折りたたみ)、「オーグメント(添
加部)」を使用して、「折り返えされた」または「折り
たたまれた」シンタツクス節構造体を介して進行を制御
することにより相当簡単化できることである。かくして
第9A図は、接続線部分に沿う1つのノードから他のノ
ードヘの移行にある限定が設定されることを条件とし
て、第9図のように再構成できる。第9B図には、折り
たたまれたシンタツクス節構造体が略示されている。こ
の図においては、ノード314xは唯一のサイレントノ
ードとなり、ノード314u、314vおよび314w
は、新しい数字ノードであり(旧ノード314b、31
4c、314d、314e、および314fに対応)、
そしてノード314hは、非数字ノードであり、サイレ
ントノードでない。サイレントノードはここで「二重の
役割」を果す。すなわち、サイレントノード314x
は、ワードストリング認識の開始時におけるサイレント
または、ワードストリング認識の終了時のサイレントの
いずれかを表わす。同様に、ノード314uおよび31
4vも二重の役割を果し、ノード314uは、ワードス
トリングの第1または第4数字のいずれかを表わし、ノ
ード314vは、第2または第5数字を表わす。動作に
おいて、各ノードに対する入力は、デイジツトワード計
数値にしたがつて受け入れられる。第9B図のノード
は、代替の仮定に対して並列に進行する計算を表わして
いる。弧線は、交互の仮定の相互の依存性を表わしてい
る。第9B図においては、第9A図において仮定される
5つの数字に代わつて仮定される3つのみの数字が活動
状態に維持される。動作において、仮定される活動数字
の減少は、入力弧線がデータと関連して適正なワード計
数値を有する場合のみ、すなわちその弧線に対する1組
の択一的ワード計数値から容認しうるワード計数値の1
を有するときのみ入力弧線データを受け入れることによ
り達成される。かくして、ノード314uは、データと
関連するワード計数値が0のときのみノード314xか
ら入力弧線データを受け入れるが、サイレントノードか
ら出る全弧線上のデータは0にセツトされたワード計数
値を有するから、これはつねにそうなるであろう。ノー
ド314uはまた、データと関連するワード計数値が3
であるときノード314wから入力弧線データを受け入
れる。ノードは、すべての容認し得る入力から最良のス
コアデータを受け入れる。かくして、ノード314u
は、ノード314xからデータが選択されたかノード3
14wからのデータが選択されたかのみに依存して、数
字が発声中の第1の数字と整合しつつあるという仮定
か、数字が発声中の第4の数字と一致しているという仮
定のいずれかを表わす。同様に、サイレントノードは、
ノード314vが関連するワード計数値5を有すると
き、ノード314vから弧線データを受け入れる。ま
た、サイレントノードは、ノード314hから、および
それ自体すなわちノード314xから入力を受け取る。
そのとき、サイレントノードは、これらの容認し得る入
力から最良のスコアデータを選ぶ。「折返し」シンタツ
クス構造を提供する効果は、装置に対するメモリの必要
および計算負荷を減ずることである。他方、ある種のデ
ータを捨て、決定を強制することにより、悪い情報が捨
てられ、正しくない決定がなされる危険がある。しかし
ながら、以下に記載される装置のように認識の精度が高
い場合、「良好」なデータを捨てる可能性は非常に低
い。例えば、ノード314uが、ノード314wからの
入力に有利に働いてノード314xからの入力を捨てる
と、サイレントノードからの確率の非常に低いデータは
捨てられることになる。装置は、いつの時点において
も、ストリングがいま始まりつつあるか、すでに3ワー
ドを話し終えたかということだけを判断すればよいか
ら、これは好ましい動作方法である。この判断において
誤りをなす確率は極めて低い。折返しまたは折畳みシン
タツクス系は、認識されたワード数の計数値を維持する
ためにノードごとに1つの追加のレジスタを必要とす
る。(もう少し一般的な場合、計数値は、文法的シンタ
ツクスストリングにおいて認識されるワード数とし得よ
う。)しかしながら、折返しシンタツクス系の利点、す
なわちメモリおよび計算の低減の利益は、上述の欠点に
まさるものである。キーワード認識においてシンタツク
スを利用することの他の利点は、サイレントが起こるに
せよ起こらないにせよ、決定が演繹的知識(文法的シン
タツクス)を使つてなされることである。このシンタツ
クスにより、装置は、「サイレント」をより確実に検出
でき、連続するワードストリングと「サイレント」間の
境界を正確に定めることができるのである。本発明の方
法の重要な要素は、ワードストリングとの組合せにおけ
るサイレントの検出である。すなわち、サイレント「ス
ペリング」に対応スコアが、文法的シンタツクスの必要
条件に一致するワードストリングの認識に対応すると
き、さきに受信された音声信号の「良好な尤度スコア」
を含むから、ワードストリングの終端にてサイレントが
確実に検出される。より正確で確実な認識がなされるこ
とを可能にするのは、そのシンタツクスによるサイレン
トの決定である。これは、例えば音声シンタツクスに拘
りなくサイレントを振幅最小として認識する方決に比し
て明らかに有利である。次に本音声認識方法を使用して
実施された装置について説明する。本発明の好ましい具
体例においては、第2図のプリプロセツサにより遂行さ
れた信号およびデータ操作以上の操作が、デイジタルデ
ータ・エクイツプメント・コーポレーシヨンPDP−1
1型コンピュータと米国特許第4,228,498号に
記載されるごとき専用ベクトルコンピュータプロセツサ
との組合せで実施される。本発明の方法は、コンピュー
タのプログラミングの利用に加えて、ハードウエアを利
用して実施できる。動作について説明すると、本発明の
装置10は動的プログラミング技術にしたがつて動作す
る。各新しい尤度スコア列、すなわち既知の予定された
順の各基準パターン列に関する尤度スコア列は、コンピ
ュータから線320を経て、メモリ322および324
の1つの既存のスコアに供給される。メモリは、(a)
各可能なワードの終了に対応するスコアを受信するシン
タツクスプロセツサ308、(b)メモリ選択および次
の音素信号に依存してメモリ322および324の出力
に取つて代わる最小スコアレジスタ326、および
(c)他の制御およびクロツク信号の制御下で、以下の
ように交互に機能する。動作において、回路は、第4図
の各円に対応するレジスタを更新し、各休止ないしサイ
レントの認識で最良の整合を達成し得る決定機構を提供
するための規則にしたがつて動作する。メモリ322お
よび324は、同じ形態を有しており、10ミリ秒ごと
に、すなわち新しいフレレームが分析されるごとに交換
される。メモリは各々複数の32ビツトワードを有して
おり、そして32ビツトワードの数は、機械語彙のワー
ドと関連されるレジスタ(すなわち第4図の円)に対応
している。最初、一方のメモリ、例えば322が、「悪
い」尤度スコア、すなわち本例においては大きい値を有
するスコアを記憶している。その後、メモリ322は、
線320を介してベクトルプロセツサから供給される新
しい尤度スコアの順序に対応する予定された順序で逐次
読み出され、そしてスコアは以下に記載されるように更
新され、他方のメモリ324に再書込みされる。次の1
0ミリ秒フレームにおいては、メモリ324から、いま
は古くなつたスコアが読み出され、他のメモリ322に
書き込まれる。この交番機能は、シンタツクスプロセツ
サ、最小スコアレジスタ326および他の制御およびク
ロツク信号の制御下で続く。前述のように、メモリ32
2および324の各ワードは、32ビツト数である。下
位16ビツト、すなわちビツト0〜15は、累積尤度ス
コアを記憶するのに採用される。また、ビツト16〜2
3は、音素継続時間を記録するのに採用され、ビツト2
4〜31は、そのレジスタにおけるワード継続時間を記
憶するのに採用される。コンピュータから到来する尤度
スコアは、パターンスコアメモリ328に各フレーム時
間ごとに記憶される。この情報は、非常に高速のデータ
転送速度で、コンピュータからバーストとして供給さ
れ、そして第10図の回路において採用される低速度で
パターンスコアメモリから読み出される。シンタツクス
プロセツサまたは最小スコアレジスタからの中介制御が
ない場合、選択されたメモリ322または324の出力
は、対応する選択されたゲート330または332を介
して線334に供給される。線334は、尤度スコア、
音素またはターゲツトパターン継続時間計数値、および
ワード継続時間計数値をそれぞれ更新する加算器33
6、338、340に接続されている。かくして、メモ
リ322、324の一方から来る先行フレームのスコア
に対応する尤度スコアは、線342を介してパターンス
コアメモリから出力され、古い尤度スコアに加えられ、
そして書込みに使用されていないメモリに記憶される。
メモリの選択機能は、線344上の信号レベルにより提
供される。同時に、ワードおよび音素継続時間計数値は
1だけインクリメントされる。同様に、ワード継続時間
カウンタ、音素継続時間計数値および尤度スコアが通常
更新される。上述の普通の更新ルールに対する2つの例
外は、新しい音素の開始および新しいワードの開始に対
応して起こる。新しい音声の開始時に(これは新しいワ
ードの開始時ではない)音素の第1レジスタは、普通の
規則にしたがつて更新されないが、代つて、線342上
の尤度スコアが、先行基準フレームまたは音素任意ドウ
エル時間のレジスタまたは先行音素必須ドウエル時間の
最終レジスタからの最小スコアに加えられる。これは、
最小スコアレジスタ326を採用することにより実施さ
れる。最小スコアレジスタの出力は、前の音素に対する
先行のフレーム時間における最小スコアを表わす。この
スコアは、新しいスコアが提供されるとき最小スコアレ
ジスタの内容を連続的に更新することにより得られる。
新しい最小スコアは、減算演算要素346の符号ビツト
出力を採用することにより最小スコアレジスタ中に負荷
される。要素346は、現在の最小スコアをいま更新さ
れたレジスタからの新しい最小スコアと比較する。最小
スコアレジスタは、さらに、最小スコアを有するレジス
タに対応するワード継続時間計数値および音素継続時間
計数値を記憶する。この情報はすべて、新しい音素の開
始時に線334に出力される。この出力プロセスは、新
音素の開始時に可能化されるゲートと、新しい音素の開
始中ゲート332および330を万能化する制御信号の
組合せを使つて制御される。シンタツクスプロセツサ3
08(第9B図に対応する)は、新しいワードに対する
第1音素の第1レジスタを、先行のフレームで終わるワ
ードのシンタツクスを考慮に入れたワードの最良のスコ
アで更新するのに採用される。かくして、新しいワード
の第1・音素の第1レジスタに対応するレジスタのスコ
アが、到来尤度スコアにより更新されるとき、採用され
るのはメモリ322、324の一方の出力でない。代わ
つて先行のフレームで終わるワードの、好ましくはシン
タツクスを考慮に入れた最良の尤度スコアが利用され
る。この機能は、ゲート330および332を不能化
し、同時にゲート350を可能化して、レジスタ352
に記憶された最良の利用可能なスコアを線334上に供
給し、線342上の到来パターン尤度スコアと加えるこ
とにより可能となる。このようにして、基準フレームの
ドウエル時間に対応する各レジスタは、このハードウエ
アの具体例において連続的に更新されるのである。尤度
スコアでサイレントワードを表わすと、シンタツクスプ
ロセツサは、ハードウエアまたはコンピュータ装置が認
識されたワードを決定するためにバツクトレースを行な
うことを可能にするに必要な制御システムを提供するよ
うに設計される。以上の説明を考察すれば、本発明の種
々の目的が達成され、利益ある効果が得られたことが分
ろう。ここに開示されるワードストリング連続音声認識
方法および装置は、特定の応用として隔絶された音声の
認識を含むことが理解されよう。技術に精通したもので
あれば、ここに開示される具体例の追加、削除、変更が
特許請求の範囲内において明らかであろう。
【図面の簡単な説明】
【図1】本発明に従って遂行される一連の動作を一般的
用語で例示するフローチャートである。
【図1A】本発明の好ましい具体例の装置の電気的ブロ
ック図である。
【図2】第1図において例示される全ブロック図におけ
る特定の処理動作を遂行するための電子装置の概略ブロ
ック図である。
【図3】図1のプロセスにおける特定のプロセスを遂行
するディジタルコンピュータプログラムのフローチャー
トである。
【図4】本発明のパターン配列プロセスの線図である。
【図5】本発明の好ましい具体例の尤度関数プロセッサ
の電気的ブロック図である。
【図6】本発明の好ましい具体例の減算・絶対値回路の
電気的概略ブロック図である。
【図7】本発明の好ましい具体例のオーバーフロー検出
論理回路の電気回路を示す回路図である。
【図8】図7の回路図の真値表である。
【図9】本発明のプリプロセッサの1つの好ましい具体
例のシンタックスプロセッサの概略流れ図である。
【図9A】サイレントにより境界を定められる5数字ワ
ードストリングを認識するシンタックスプロセッサの概
略流れ線図である。
【図9B】ノードの数を減ずるため第9A図の流れ線図
を折り返した概略流れ線図である。
【図10】本発明の好ましい特定の具体例の逐次解読パ
ターン整列回路の電気回路図である。
【符号の説明】
45 制御プロセッサ 46 プリプロセッサ 48a ベクトルプロセッサ 48b 尤度関数プロセッサ 49 逐次解読プロセッサ 51 クロック発振器 52 周波数分割器 53 ラッチ 56 ディジタル乗算器 58 32ワード循環シフトレジスタ 59 マルチプレクサ 60 B選択回路 63 32ワードシフトレジスタメモリ 65 32ビット加算器 67 ゲート 71 コンピュータ割込み回路 73 インターフェース

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 各キーワードが少なくとも1つのターゲ
    ットパターンを有するテンプレートにより特徴づけら
    れ、音声信号中の各一連の前記キーワードが複数の接続
    された一連の判断ノードにより特徴づけられる文法的シ
    ンタクチックスにより記述される、音声信号中の複数の
    キーワードを認識する音声分析における音声認識方法に
    おいて、動的プログラミングを採用して前記音声信号中
    のキーワードを認識する一連の数値スコアを生成し、前
    記文法的シンタックスを採用して、どのスコアが認識プ
    ロセスにおける容認可能な進行を形成するかを決定し、
    前記シンタックスを折り畳むことにより判断ノードの数
    を減じ、それにより装置の計算負荷を減ずることを特徴
    とする音声認識方法。
  2. 【請求項2】 各キーワードが少なくとも1つのターゲ
    ットパターンを有するテンプレートにより特徴づけら
    れ、音声信号中の一連のキーワードが複数の接続された
    一連の判断ノードにより特徴づけられる文法的シンタク
    チックスにより記述される文法的シンタックスで記述さ
    れる音声信号中の複数のキーワードを認識する音声分析
    において、動的プログラミングを採用して前記音声信号
    中のキーワードを認識する一連の数値スコアを生成し、
    前記文法的シンタックスを採用して、どのスコアが認識
    プロセスにおける容認可能な進行を形成するかを決定
    し、増加部を利用して容認し得る進行を保留し、通常容
    認し得る進行を前記シンタクチックスに従って放棄させ
    ることを特徴とする音声認識方法。
JP3318727A 1981-10-05 1991-09-26 音声分析における音声認識方法 Pending JPH0816187A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US309209 1981-10-05
US06/309,209 US4481593A (en) 1981-10-05 1981-10-05 Continuous speech recognition

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP57174095A Division JPS58134700A (ja) 1981-10-05 1982-10-05 連続音声認識の改良

Publications (1)

Publication Number Publication Date
JPH0816187A true JPH0816187A (ja) 1996-01-19

Family

ID=23197172

Family Applications (3)

Application Number Title Priority Date Filing Date
JP57174095A Pending JPS58134700A (ja) 1981-10-05 1982-10-05 連続音声認識の改良
JP3318728A Pending JPH05232984A (ja) 1981-10-05 1991-09-26 音声分析における基準パターン形成方法
JP3318727A Pending JPH0816187A (ja) 1981-10-05 1991-09-26 音声分析における音声認識方法

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP57174095A Pending JPS58134700A (ja) 1981-10-05 1982-10-05 連続音声認識の改良
JP3318728A Pending JPH05232984A (ja) 1981-10-05 1991-09-26 音声分析における基準パターン形成方法

Country Status (6)

Country Link
US (1) US4481593A (ja)
JP (3) JPS58134700A (ja)
CA (1) CA1182223A (ja)
DE (1) DE3236834C2 (ja)
FR (1) FR2520913B1 (ja)
GB (1) GB2107100B (ja)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
USRE33597E (en) * 1982-10-15 1991-05-28 Hidden Markov model speech recognition arrangement
DE3380576D1 (en) * 1983-03-28 1989-10-19 Exxon Research Engineering Co Speech recognition methods and apparatus
US4627091A (en) * 1983-04-01 1986-12-02 Rca Corporation Low-energy-content voice detection apparatus
US4723290A (en) * 1983-05-16 1988-02-02 Kabushiki Kaisha Toshiba Speech recognition apparatus
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4868879A (en) * 1984-03-27 1989-09-19 Oki Electric Industry Co., Ltd. Apparatus and method for recognizing speech
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4811399A (en) * 1984-12-31 1989-03-07 Itt Defense Communications, A Division Of Itt Corporation Apparatus and method for automatic speech recognition
JPH0632012B2 (ja) * 1985-03-25 1994-04-27 株式会社東芝 音声認識装置
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
GB8527913D0 (en) * 1985-11-12 1985-12-18 Pa Consulting Services Analysing transitions in finite state machines
US5023911A (en) * 1986-01-10 1991-06-11 Motorola, Inc. Word spotting in a speech recognition system without predetermined endpoint detection
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
JPS6350896A (ja) * 1986-08-21 1988-03-03 沖電気工業株式会社 音声認識装置
US4829578A (en) * 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels
US4896358A (en) * 1987-03-17 1990-01-23 Itt Corporation Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems
US4805218A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech analysis and speech recognition
FR2639737B1 (fr) * 1988-11-30 1991-01-11 Bull Sa Circuit integre de programmation dynamique
US5761639A (en) * 1989-03-13 1998-06-02 Kabushiki Kaisha Toshiba Method and apparatus for time series signal recognition with signal variation proof learning
JP3002204B2 (ja) * 1989-03-13 2000-01-24 株式会社東芝 時系列信号認識装置
US4994983A (en) * 1989-05-02 1991-02-19 Itt Corporation Automatic speech recognition system using seed templates
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US5509104A (en) * 1989-05-17 1996-04-16 At&T Corp. Speech recognition employing key word modeling and non-key word modeling
DE4111781A1 (de) * 1991-04-11 1992-10-22 Ibm Computersystem zur spracherkennung
JPH04362698A (ja) * 1991-06-11 1992-12-15 Canon Inc 音声認識方法及び装置
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
JP2524472B2 (ja) * 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
US5425129A (en) * 1992-10-29 1995-06-13 International Business Machines Corporation Method for word spotting in continuous speech
JP3691511B2 (ja) * 1993-03-25 2005-09-07 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 休止検出を行う音声認識
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
JPH07210190A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法及びシステム
US5642444A (en) * 1994-07-28 1997-06-24 Univ North Carolina Specialized image processing system architecture and method for image data arrays
DE4432632A1 (de) * 1994-09-14 1996-03-21 Philips Patentverwaltung System zum Ausgeben von Sprachinformation in Rekation auf eingegebene Sprachsignale
US5615301A (en) * 1994-09-28 1997-03-25 Rivers; W. L. Automated language translation system
US5594834A (en) * 1994-09-30 1997-01-14 Motorola, Inc. Method and system for recognizing a boundary between sounds in continuous speech
DE19508711A1 (de) * 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind
EP1199707A3 (en) * 1995-05-26 2002-05-02 Speechworks International, Inc. Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US5806034A (en) * 1995-08-02 1998-09-08 Itt Corporation Speaker independent speech recognition method utilizing multiple training iterations
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5825977A (en) * 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
DE19624988A1 (de) * 1996-06-22 1998-01-02 Peter Dr Toma Verfahren zur automatischen Erkennung eines gesprochenen Textes
US5842161A (en) * 1996-06-25 1998-11-24 Lucent Technologies Inc. Telecommunications instrument employing variable criteria speech recognition
DE19633693C1 (de) * 1996-08-21 1997-11-20 Max Planck Gesellschaft Verfahren und Vorrichtung zur Erfassung von Targetmustern in einer Textur
WO1998014934A1 (en) 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US5903675A (en) * 1996-12-20 1999-05-11 Apple Computer, Inc. System and method for compressing data using a dynamically changing compression window
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6092044A (en) * 1997-03-28 2000-07-18 Dragon Systems, Inc. Pronunciation generation in speech recognition
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
US6011854A (en) * 1997-09-18 2000-01-04 Sony Corporation Automatic recognition of audio information in a broadcast program
US6243678B1 (en) * 1998-04-07 2001-06-05 Lucent Technologies Inc. Method and system for dynamic speech recognition using free-phone scoring
US6393399B1 (en) 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
DE19854341A1 (de) 1998-11-25 2000-06-08 Alcatel Sa Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem
JP3252815B2 (ja) * 1998-12-04 2002-02-04 日本電気株式会社 連続音声認識装置及び方法
US20020069064A1 (en) * 1999-02-08 2002-06-06 Dejaco Andrew P. Method and apparatus for testing user interface integrity of speech-enabled devices
US6233557B1 (en) 1999-02-23 2001-05-15 Motorola, Inc. Method of selectively assigning a penalty to a probability associated with a voice recognition system
US6327564B1 (en) * 1999-03-05 2001-12-04 Matsushita Electric Corporation Of America Speech detection using stochastic confidence measures on the frequency spectrum
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US7283964B1 (en) 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
US7120582B1 (en) 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
US7263484B1 (en) * 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US7080011B2 (en) * 2000-08-04 2006-07-18 International Business Machines Corporation Speech label accelerators and techniques for using same
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
DE10120168A1 (de) * 2001-04-18 2002-10-24 Deutsche Telekom Ag Verfahren zur Bestimmung von Intensitätskennwerten von Hintergrundgeräuschen in Sprachpausen von Sprachsignalen
US7133827B1 (en) 2002-02-06 2006-11-07 Voice Signal Technologies, Inc. Training speech recognition word models from word samples synthesized by Monte Carlo techniques
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1363271A1 (de) 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
US7788097B2 (en) * 2002-06-06 2010-08-31 Nuance Communications, Inc. Multiple sound fragments processing and load balancing
US7340392B2 (en) * 2002-06-06 2008-03-04 International Business Machines Corporation Multiple sound fragments processing and load balancing
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
KR100744288B1 (ko) * 2005-12-28 2007-07-30 삼성전자주식회사 음성 신호에서 음소를 분절하는 방법 및 그 시스템
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
WO2012025579A1 (en) * 2010-08-24 2012-03-01 Veovox Sa System and method for recognizing a user voice command in noisy environment
JP6645063B2 (ja) * 2014-07-29 2020-02-12 ヤマハ株式会社 ターゲット文字列の推定
US9462456B2 (en) 2014-11-19 2016-10-04 Qualcomm Incorporated Method and apparatus for creating a time-sensitive grammar
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
JP2018170539A (ja) * 2017-03-29 2018-11-01 ソニー株式会社 スピーカ装置、オーディオデータ供給装置及びオーディオデータ再生システム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5629292A (en) * 1979-08-17 1981-03-24 Nippon Electric Co Continuous voice identifier

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3816722A (en) * 1970-09-29 1974-06-11 Nippon Electric Co Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer
GB1435779A (en) * 1972-09-21 1976-05-12 Threshold Tech Word recognition
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
GB1557286A (en) * 1975-10-31 1979-12-05 Nippon Electric Co Speech recognition
US4038503A (en) * 1975-12-29 1977-07-26 Dialog Systems, Inc. Speech recognition apparatus
GB1569450A (en) * 1976-05-27 1980-06-18 Nippon Electric Co Speech recognition system
JPS592040B2 (ja) * 1976-08-24 1984-01-17 日本電信電話株式会社 音声認織装置
US4228498A (en) * 1977-10-12 1980-10-14 Dialog Systems, Inc. Multibus processor for increasing execution speed using a pipeline effect
US4301329A (en) * 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
US4227177A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
US4241329A (en) * 1978-04-27 1980-12-23 Dialog Systems, Inc. Continuous speech recognition method for improving false alarm rates
US4227176A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
JPS5525150A (en) * 1978-08-10 1980-02-22 Nec Corp Pattern recognition unit
JPS597120B2 (ja) * 1978-11-24 1984-02-16 日本電気株式会社 音声分析装置
US4238597A (en) * 1979-04-26 1980-12-09 General Electric Company Process for producing copolyester-carbonates
US4412098A (en) * 1979-09-10 1983-10-25 Interstate Electronics Corporation Audio signal recognition computer
JPS56121100A (en) * 1980-02-29 1981-09-22 Nissan Motor Voice identification driving device
US4336421A (en) * 1980-04-08 1982-06-22 Threshold Technology, Inc. Apparatus and method for recognizing spoken words
DE3236000A1 (de) * 1982-09-29 1984-03-29 Blaupunkt-Werke Gmbh, 3200 Hildesheim Verfahren zum klassifizieren von audiosignalen

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5629292A (en) * 1979-08-17 1981-03-24 Nippon Electric Co Continuous voice identifier

Also Published As

Publication number Publication date
US4481593A (en) 1984-11-06
CA1182223A (en) 1985-02-05
DE3236834C2 (de) 1995-09-28
GB2107100B (en) 1985-09-11
JPS58134700A (ja) 1983-08-10
FR2520913B1 (fr) 1986-12-19
FR2520913A1 (fr) 1983-08-05
JPH05232984A (ja) 1993-09-10
DE3236834A1 (de) 1983-10-06
GB2107100A (en) 1983-04-20

Similar Documents

Publication Publication Date Title
JPH0816187A (ja) 音声分析における音声認識方法
US4489435A (en) Method and apparatus for continuous word string recognition
EP1301922B1 (en) System and method for voice recognition with a plurality of voice recognition engines
US6950796B2 (en) Speech recognition by dynamical noise model adaptation
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
JPS58134698A (ja) 音声認識方法および装置
US6553342B1 (en) Tone based speech recognition
JPH0431600B2 (ja)
JPH0422276B2 (ja)
JPH02273795A (ja) 連続音声認識方法
EP0118484B1 (en) Lpc word recognizer utilizing energy features
CN113889090A (zh) 一种基于多任务学习的多语种识别模型的构建和训练方法
CN111402887A (zh) 一种语音转义文字的方法及装置
Li et al. Real-Time End-to-End Monaural Multi-Speaker Speech Recognition}}
JP2001109490A (ja) 音声認識装置を構成する方法、その認識装置及び音声認識方法
US11043212B2 (en) Speech signal processing and evaluation
JPS59127099A (ja) 連続音声認識の改良
CA1199730A (en) Method and apparatus for continuous word string recognition
JPS59126599A (ja) 連続ワ−ドストリング認識方法および装置
Mayora-Ibarra et al. Time-domain segmentation and labelling of speech with fuzzy-logic post-correction rules
JP2515609B2 (ja) 話者認識方法
CN117456996A (zh) 语音识别方法及装置、存储介质、电子设备
JPH02272498A (ja) 音声認識方法
CN114627896A (zh) 语音评测方法、装置、设备及存储介质
JPH06324696A (ja) 音声認識装置及び方法