JPH0394299A

JPH0394299A - 音声認識方法と音声認識装置訓練方法

Info

Publication number: JPH0394299A
Application number: JP2125636A
Authority: JP
Inventors: Chinh H Le; チン　エイチ．リー; Lawrence R Rabiner; ローレンス　アール．ラビナー; Jay G Wilpon; ジェイ　ジー．ウィルポン
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1989-05-17
Filing date: 1990-05-17
Publication date: 1991-04-19
Anticipated expiration: 2014-10-12
Also published as: US5649057A; DE69032777D1; AU1804492A; AU5463390A; CA2015410C; DE69032777T2; JP2963142B2; EP0398574B1; KR970011022B1; EP0398574A3; EP0398574A2; KR900018909A; AU643142B2; CA2015410A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、特定のキーワードを含む音声自動認識の技術
に関する。

（従来技術）電話回線での通話でよく機能する頑強な不特定話者音声
認識システムは、ここ１ｏ年以上関心の高い話題であっ
た。当初の音声認識システムは、単音として話された少
数の語句を認識しか認識できなかった。ごく最近、頻繁
に話される中程度の語量の組を認識できるシステムは、
公表され、これは、米国特許第４７８３８０４号明細書
（ビー・エイチ・ファン（Ｂ−Ｈ，Ｊｕａｎｇ）らに譲
渡、１９８８年１１月８日特許付与）に開示されている
。多くの音声認識システムの基本的な仮定は、認識され
るべき人力は、認識語量単語とバックグラウンド（背景
）の沈黙のみからなることである。しかし、“オペレー
タ補助コール”を作るための限定された離散コマンド句
（指令文句）の認識に関する最近の研究から、このサー
ビスに対して許可された人力語だけを話す加入者を現実
に求めることは、不可能ではないが、極端に困難である
ことがわかった。カリフォルニア州へイワードのＡＴ＆
Ｔ本社（サンフランシスコベイエリア内）で行われた、
不特定者離散単語音声認識技術の広範囲な試用において
、実際の電話利用者の通話が、新世代の電話交換機用に
開発された呼び処理手続きを評価するために、使用され
た。オペレータ補助コールを行う利用者は、利用したい
呼びのタイプ（すなわち、ｃｏｌｌｅｃｔ　（料金受信
人払い（コレクトコール））、ｃａｌｌｉｎｇ−ｃａｒ
ｄ（カード支払通話）　、ｐｅｒｓｏｎ−ｔｏ−ｐｅｒ
ｓｏｎ（指名通話）、ｂｉｌｌ−ｔｏ−ｔｈｉｒｄ　（
第三者支払）　、ｏｐｅｒａｔｏｒ（オペレータ））を
口頭で確認するよう要求された。各利用者は、口頭で指
示された五つのコマンドの一つを離散形式で話すよう要
求された。実際には、８２％の利用者がコマンド句の一
つを話したが、これら入力利用者の７９％のみが、単音
として話した（すなわち、全利用者の６５％が約束に従
った）。利用者が話した応答をモニターすると、全応答
の１７％が、無関係の音声入力と共に、正しいコマンド
用語を含んでいたことが、示されｔ二。

例を以下に挙げると；・く沈黙〉コレクトコールお願いしまずく沈黙〉・あれ
？おや、ああカード支払通話をしたい・トムからコレク
トコールですく沈黙〉・指名通話をしたい・く沈黙〉オペレータを出してください多くの従来の離
散語認識アルゴリズムは、文章中の語量の項目を認識す
るよう設計されていなかった。そのような場合、無関係
音声中で、決められた語量の用語を認識できる（すなわ
ち、キーワードに注目する（キーワードスポッティング
））ように、アルゴリズムは修正されなければならない
。

一般のワードスポッティング問題に関しては、多くの研
究がなされてきたが、その大部分は公表されなかった。

公表されたワードスポッティング技術は、初期にはテン
プレートに基づく動的計画マッチング（ＤＰマッチング
、ＤＴＷ　（ｄｙｎａＩｌｌｉｃｔ１ｍｅ　ｗａｒｐｉ
ｎｇ）　）法であった。例えば、論文「線形予測コード
化を使用する連続音声中のキーワードの検知と位置付け
（Ｄｅｔｅｃｔｉｎｇ　ａｎｄ　Ｌｏｃａｔｉｎｇ　Ｋ
ｅｙ　Ｗｏｒｄｓ　ｉｎ　Ｃｏｎｔｉｎｕｏｕｓ　Ｓｐ
ｅｅｃｈ　Ｌｌｓｉｎｇ　Ｌｔｎｅａｒ　Ｐｒｅｄｉｃ
ｔｉｖｅ　Ｃｏｄｉｎｇ）　Ｊ　　ｒ音響、音声、信号
処理に関するＩＥＥＥ論文集（！ＥＥＥ　Ｔｒａｎｓａ
ｃｔｉｏｎｓ　ｏｎ　Ａｃｏｕｓｔｌｃ　，　Ｓｐｅｅ
ｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　
）Ｊ　ＡＳＳＰ２５巻、第５号、３６２〜３６７頁（１
９７７年１１月）において、クリスチャンセン（Ｃｈｒ
ｉｓｔｌａｎｓｅｎ）とラッシュフォース（Ｒｕｓｈｆ
’ｏｒｔｈ　）が、タスクに関する構文や意味の情報を
全くなしで、音声信号のＬＰＣ表現を用いるキーワード
スポッティングシステムに熟達した話し手に関して記述
している。この方法を使用して、彼らは４種のキーワー
ドと１０種の数字という語紮の組に対して非常に正確に
キーワードスボッティングすることができた。

ヒギンス（Ｈｌｇｇｉｎｓ　）とウォルフォード（　Ｗ
ｏｈ　Ｉｆｏｒｄ）は、「テンプレート連結を用いるキ
ーワード認識（Ｋｅｙｗｏｒｄ　Ｒｅｃｏｇｎｉｔｉｏ
ｎ　Ｕｓｌｎｇ　Ｔｅｍｐｌａｔｅ　Ｃｏｎｃａｔｅｎ
ａｔ　ｔｏｎ）”　「音響、音声、信号処理に関するＩ
　ＥＥＥ国際会議議事録（Ｃｏｎｒ．Ｒｅｃ．ＩＥＥＥ
　Ｉｎｔ．Ｃｏｎｌ’．Ａｃｏｕｓ．Ｓｐｅｅｃｈ　．
．ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ）Ｊ１
２３３〜１２３６頁、タンバ、フロリダ（１９８５年）
において、キーワードスポッティングのために、動的計
画マッチングに基づくシステムを提案した。彼らのシス
テムでは、入力音声の語量と構文に関する知識が使われ
ていた。キーワードのテンプレートと非キーワードのテ
ンプレートの組が作られ、流暢な音声の中のキーワード
を検知するために、数種のプールされたフィラー（（’
ｉｌｌｅｒ）テンプレートと比較された。このフィラー
テンプレートは、（１）６個の“機能”語からのデータ
を用いるか、（２）語量にない単語を、手動有標の（ｈ
ａｎｄ−ｍａｒｋｅｄ）データを使用して、音節にほぼ
等しいセグメントに分解すること、により生戊された。

彼らの結果は、語當の系統だてられた知識は重要ではな
いが、フィラーテンプレートの使用は重要であることを
示していた。しかし、彼らは、このフィラーテンプレー
トは、キーワードスポッティングシステムの性能に大き
く影響することを発見した。加えて、フィラーテンプレ
ートの持続時間がシステムの正確さを制御すると、彼ら
は結論付けた。テンプレートの数が増加し、また平均的
なフィラーテンプレートの持続時間を短くなるにつれ、
システムの正確さは改善された。

持続時間の制約が、動的計画マッチングに基づく、どの
テンプレートマッチング認識システムにおいても最大の
問題である。というのは、各テンプレート１ま物理的な
持続時間を持ち、アルゴリズムはある局所的な持続時間
の制約に従うことを余儀なくされるからである。

同様に、米国特許第４７１３７７７号（発明者：チンー
フィ’り−（Ｃｈｉｎ−Ｈｕｔ　Ｌｅｅ）　、ジョン・
ダブリュー・クロフスタッド（Ｊｏｈｎ　Ｗ．ＫＩｏｖ
ｓｔａ）。

カルヤン・ガネサン（Ｋａｌｙａｎ　Ｇａｎｅｓａｎ）
　、１　９　８７年１２月１５日発行）において、隠れ
マルコフモデル（ＨＭＭ）が、沈黙をモデル化するため
に使われた。固定スコアしきい値は、誤り警告を除去す
るために使われた。

“自動音声終点検知への隠れマルコフモデルの利用（Ａ
ｐｐｌｉｃａｔｉｏｎ　ｏｒＨｉｄｄｅｎ　Ｍａｒｋｏ
ｖ　Ｍｏｄｅ’ｓ　ｔｏＡｕｔｍａｔｌｃ　Ｓｐｅｅｃ
ｈ　Ｅｎｄｐｏｉｎｔ　Ｄｅｔｅｃｔｉｏｎ　）　”　
　ｒコンピュータ音声と言語（Ｃｏｍｐｕｔｅｒ−Ｓｐ
ｅｅｃｈ　ａｎｄ　Ｌａｎｇｕａｇｅ）　Ｊ第２巻、３
／４、３２１〜３４１頁、（１９８７年１２月）の論文
では、発明者の二人、ウィルポン（Ｗｉｌｐｏｎ）とラ
ビナー（Ｒａｂｉｎｅｒ）が、静的方法に基づく認識ア
ルゴリズムを提出し、゜ここでは音声の明快な終点検知
は全く認識システムから除かれているものの、認識の高
い正確さを維持している。これを達或するために、認識
システムは入力信号をバックグラウンド信号と語量単語
との配列にモデル化した。しかし、この仕事は語堂単語
が単音として話される（すなわち、無関係音声言語人力
ではない）という状況に限定されていた。

（発明の概要）本発明は、認識されなければならないキーワードに近接
して起こる音声言語音（無関係音声）を含むバックグラ
ウンド音を首尾よくモデル化することが可能であるとい
う発見に基づく。

このモデルを訓練するため十分なデータを与えた状況で
、このようなバックグラウンドモデルを一つだけ使用す
ると、複数のバックグラウンドモデルもほぼ同様に実行
可能であることをさらに発見した。この発見は前記従来
技術からは予測不可能であった。

本発明の一つの特徴に沿って、統計的方法に基づくモデ
ル（通例、隠れマルコフモデル（以後ＨＭＭ）と呼ばれ
る）が、非制約音声の文脈内で、特定の語量単語（以後
キーワードと呼ぶ）を認識するために使われる。本発明
は、前記ウィルポンらの参考文献の文法ほ念に基づいて
いる。本発明が発展させた方法は、全バックグラウンド
環境（沈黙、部屋の環境、聞こえてくる騒音を含む）と
最も重要な無関係音声とをモデル化することである。本
発明では、与えられた音声入力を、無関係入力の非制約
配列＋キーワード＋無関係入力の別の非制約配列として
、表現するが、話されている文脈では必要となるこのよ
うなネクサス（ｎｅｘｕｓ）は一つだけである。本発明
では、無関係音声を表わす少なくとも一つのＨＭＭを生
戊することでこれを行う。文法誘導型連続単語認識シス
テムは、外部音声とキーワードとの最良の配列を決定す
るために使われる。

認識システムに対しこの構造が与えられると、外部音声
に対しいわゆるシンク（ｓｉｎｋ）　（一般）モデルを
使用し、音声認識装置が、無関係信号を認識でき、同時
にキーワードが認識される。

（全体説明）第１図の全体流れ図を参照すると、始点は音声信号から
の表現、ｓ　（ｎ）の獲得である。一般に、音声はｓ　
（ｎ）を作るために、従来技術と同様に、デジタル化、
フィルタリング、予強調、フレーム切り出し一がなされ
る。本発明では必要ないが、ｓ　（ｎ）がＬＰＧによる
セブストラル（ｃｅｐｓ　ｔ　ｒａ　Ｉ　）ベクトルを
与えるように分析されると便利である。

信号ｓ　（ｎ）の通常処理を用い得られた結果の特徴ベ
クトルーすなわち、ＬＰＧとセブストラム１１−はモデ
ル整合ステップ１３に送られるが、モデル整合ステップ
１３は正しい文法規則を含み、ｓ　（ｎ）の特徴ベクト
ルと、発明の概要で略述した二種の参照モデル単語との
比較がなされる。決定規則ボックス１４から最終的に最
良と評価されたものが最良キーワード（すなわち文法に
よりＳ（ｎ）の特徴ベクトルに最もよくマッチングして
いるキーワード）として転送される。

［実施例］第１図に示されているように、ｓ　（ｎ）を作るため゛
に、デジタル化が、６．６７ｋＨｚで行われ、フィルタ
リング音声帯域幅は、１００〜３２００Ｈｚである。他
の特別なサンプリング間隔やフィルタリング帯域幅もも
ちろん使用されうる。高城強調ファクターは、代表的な
実施例では、ａ−０．９５で、フレームは一般的な長さ
４５ｍｓｅｃ，フレーム周期が１５ｍｓｅｃである。

ＬＰＧ，セブストラル分析ブロック１１は以下に記述さ
れた技術に従い実行される。即ち、エル●アール・ラビ
ナー（Ｌ，Ｒ，Ｌａｂｉｎｅｒ）らによる或書「音声信
号のデジタル処理（ＤｉｇｉｔａＩ　Ｐｒｏｃｅｓｓｉ
ｎｇ　ｏｆ　Ｓｐｅｅｃｈ　Ｓｉｇｎａｌｓ）　Ｊ　、
３　５　６　〜３７２頁、３９８〜４０１頁、プレンテ
ィスホール、エングレウッド、ニュージャージ（１９７
８）、また（あるいは）ビー・ボゲート（Ｂ．Ｂｏｇｅ
ｒｔ）らによる文献゛反響に関する時系列ケーフレンシ
ー分析（Ｔｈｅ　Ｑｕｅｆｒｅｎｃｙ　Ａｎａｌｉｓｉ
ｓ　ｏｆ　ＴＩＩｌｅ　Ｓｅｒｉｅｓ　ｆｏｒ　Ｅｃｈ
ｏｅｓ）　’　　　ｒシンポジウム　ブロシーディング
ス　オン　タイムシリーズアナリシス（Ｐｒｏｃ．Ｓｙ
ｍｐ．ｏｎ　Ｔｉｍｅ　Ｓｅｒｉｅｓ　Ａｎａｌｙｓｉ
ｓ　）　Ｊ、第１５章、２０９〜２４３頁、エム・ロー
ゼンブラット編集、ジエイ・ウイリー、ニューヨーク（
１９６３年）に記載された技術である。音声の各フレー
ムは、エル・アール・ラビナーらによる前記の戊書の１
２１頁に記述されているようにハミング窓で重み付けさ
れる。ｐ次（この実施例では８次）のオーダーで線形予
測コード化（Ｌ　Ｐ　Ｇ）分析が各データに対して実行
される。各フレームに対して、８個のＬＰＧ係数の組が
生或される。

得られた信号は、当業者には既知のＬＰＣフレームベク
トルの組に還元される。データに対して実行される自動
的な終点検知はない。

ＬＰＧによるセブストラルベクトルは、ＬＰＧフレーム
ベクトルから、Ｑ次成分（ここで本明細書の方法ではＱ
−１２（実施例ではＱ＞ｐ））まで計算される。

時間フレームｌでのＱ係数セプストラルベクトルＣ　＋
　　（　ｍ　）は、以下の形の窓、Ｗｏ　（ｍ）により
重み付けされる； ε（（”）＝　Ｃ（（ｍ）”ｃ（ｍ）（２）詳細は以下の論文、ビー・ファン（Ｂ，Ｊｕａｎｇ）ら
による゜音声認識におけるバンドパス・リフタリングの
使用（Ｔｈｅ　Ｕｓｅ　ｏｆ　Ｂａｎｄｐａｓｓ　Ｌｌ
ｒｔｅｒ１ｎｇ　ｉｎ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉ
ｔｉｏｎ）　”　　ｒ音響、音声、信号処理に関するＩ
ＥＥＥ論文集（ＩＥＥＥ　Ｔｒａｎｓａｃｔｌｏｎｓ　
ｏｎ　Ａｃｏｕｓｔｉｃｓ．Ｓｐｅｅｃｈ　ａｎｄ　Ｓ
ｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ）Ｊ　ＡＳＳＰ３５
、第７号、９４７　〜９５４Ｗ（１９８７年７月）に開
示されている。

分析ベクトルがスペクトルの微分（時間による）情報を
含むように拡張することで、数種の標準音声認識装置の
性能が画期的に向上することが最近示された。本発明で
はこのスペクトル微分情報を次のように分析ベクトルに
含む。

重み付けされたセプトラルベクトル配列の時間微分は、
考慮するベクトルを中心にして（２Ｋ＋１）フレームの
有限長窓に対する１次直交多項式により近似される（本
実施例では微分が５７レーム（７５ｍｓｅｃ）窓から計
算されるので、Ｋ一２）。微分セプストラル（すなわち
デルタセプストラルベクトル）は次のように計算される
。

測ベクトル、Ｏｌは重み付けされたセブストラルベクト
ルの連結であり、相当する重み付けされたデルタセプス
トラルベクトルは、以下である。

ここでＧはゲイン定数であり、よってｃ　＋　　（　ｍ
　）とΔＣｔ　　（ｍ）の変化は、ほぼ同じである（本
実施例のシステムではＧの値は０．３７５）。一般計算
に対する詳細はエフ・ケイ・ソーン（Ｐ．Ｋ．Ｓｏｏｎ
ｇ　）らによる文献「話者認識における瞬間の、過渡的
なスペクトル情報の利用について（Ｏｎ　ｔｈｅＵｓｅ
　ｏｆ　Ｉｎｓｔａｎｔａｎｅｏｕｓ　ａｎｄ　Ｔｒａ
ｎｓｉｔｉｏｎａｌ　Ｓｐｅｃｔｒａｌ　Ｉｎｆ’ｏｒ
ｍａｔｉｏｎ　ｉｎ　Ｓｐｅａｋｅｒ　Ｒｅｃｏｇｎ１
ｔｉｏｎ）″′「音響、音声、信号処理に関するＩＥＥ
Ｅ紀要（ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　
Ａｃｏｕｓｔｌｃｓ．Ｓｐｅｅｃｈ　ａｎｄＳｉｇｎａ
ｌ　Ｐｒｏｃｅｓｓ１ｎｇ　）　Ｊ　Ａ　Ｓ　Ｓ　Ｐ　
３　６巻、第６号、８７１〜８７９頁（１９８８年６月
）に開示されている。

ＨＭＭのスコアづけするために使われる総合観ベクトル
あたり２４の係数からなる。

この技術は、エル●アール◆ラビナー（Ｌ．　Ｒ，Ｒａ
ｂｉｎｅｒ）らによる文献「隠れマルコフモデルを利用
する数字認識に関する高性能（Ｈｉｇｈ　Ｐｅｒｆｏｒ
ｍａｎｅｅ　Ｃｏｎｎｅｃｔｅｄ　Ｄｉｇｉｔ　Ｒｅｃ
ｏｇｎｉｔｉｏｎ　ＵｓｉｎｇＨｉｄｄｅｎ　Ｍａｒｋ
ｏｖ　Ｍｏｄｅｌｓ　）　　ｒ音響、音声、信号処理に
関するＩ　ＥＥＥ国際会議会議Ｈ　（Ｃｏｎｒｅｒｅｎ
ｃｅＲｅｃｏｒｄ　，　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉ
ｏｎａｌ　Ｃｏｎｆ’ｅｒｅｎｃｅ　ｏｎ　Ａｃｏｕｓ
ｔｉｃｓ，　Ｓｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐ
ｒｏｃｅｓｓｉｎｇ）　Ｊ第１巻、１１９〜１２２頁、
ニューヨーク、（１９５８年４月）にさらに詳細に開示
されている。

未知の音声発声のスペクトラルベクトルの配列は、フレ
ーム同期レベル形或（Ｆ　Ｓ　Ｌ　Ｂ）アルゴリズム１
３を用いて、一連の記憶単語に基く隠れマルコフモデル
１２に対してマッチングさる。

（このアルゴリズムは（シイ・エイチ・リー（Ｃ−Ｈ，
Ｌｅｅ）らによる論文「単語認識に関するネットワーク
に基くフレーム同期レベル形成ムアルゴリズム（Ａ　Ｎ
ｅｔｗｏｒｋ−Ｂａｓｅｄ　Ｆｒａｍｅ　Ｓｙｎｃｈｒ
ｏｎｏｕｓ　Ｌｅｖｅｌ　Ｂｕ１１ｄｌｎｇ　Ａｌｇｏ
ｒｉｔｈｍ　ｆｏｒ　Ｃｏｎｎｅｃｔｅｄ　Ｗｏｒｄ　
Ｒｅｃｏｇｎｉｔｌｏｎ　）”　「音響、音声、信号処
理に関するＩ　ＥＥＥ国際会議議事録（Ｃｏｎｌ’．Ｒ
ｅｃ．ＩＥＥＥ　Ｉｎｔ．Ｃｏｎｆ．Ａｃｏｕｓ．Ｓｐ
ｅｅｃｈ　ａｎｄ　Ｓｉｇ．ｐｒｏｃｅｓｓ１ｎｇ）　
Ｊ第ｌ巻、４１０〜４１３頁、ニューヨーク、ＮＹ（１
９８８年４月）に開示されている。）更に、レベル内で
ビテルビマッチングされる。第２図に記述されているよ
うに、単語と状態の持続確率は、ＨＭＭ計算とモデル整
合手順１３内のネットワークサーチに組込まれる。第３
図に参照として以後記述されている、正しい文章入力を
記述する有限状態文法は、認識処理を駆動するために使
われている。手順１３内のＦＳＬＢアルゴリズムは、フ
レームごとに最大可能文章（ｓｔｒｉｎｇ）デゴーディ
ングを実行する。この処環の出力は一連の正しい文字候
補となる。

ラベルづけされた音声の訓練データセットから単語モデ
ルを生戊するために、セグメンテーションｋ手段訓練ア
ルゴリズムは、エル．アール．ラビナー（Ｌ．Ｒ．Ｒａ
ｂｉｎｅｒ’）らによる記事”全体単語参照パターンに
基づく認識に関するセグメンテーションＫ手段訓練手順
（ＡＳｅｇ巾ｅｎｔａｌ　Ｋ−ｍｅａｎｓ　Ｔｒａｉｎ
ｉｎｇ　Ｐｒｏｃｅｄｕｒｅ　Ｉ’ｏｒ　Ｃｏｎｎｅｃ
ｔｅｄ　ｗｉｔｈＲｅｃｏｇｎｉｔｉｏｎ　Ｂａｓｅｄ
　ｏｎ　Ｗｈｏｌｅ　Ｗｏｒｄ　Ｒｅｒｅｒｅｎｃｅ　
Ｐａｔｔｅｒｎｓ）　”　　ｒＡＴ＆Ｔ技術雑誌（ＡＴ
＆Ｔ　ＴｅｃｈｎｉｃａｌＪｏｕｒｎａｌ）　Ｊ第６５
巻、第３号、２１〜３１頁（１９８６年５月）より開示
されている。この単語形成アルゴリズム（すなわち、Ｈ
ＭＭのパラメータを決定するための評価手順）は各モデ
ルに対して、収束するまで（すなわち、連続反復で可能
性スコアの差が十分に小さくなるまで）反復される。

単語に対して複数のモデルを生成するために、ＨＭＭに
基づくクラスタリング（分解）アルゴリズムが、既に定
義したクラスター（前記ソーンらの論文に開示されてい
る）を分割するために使われている。このアルゴリズム
あるいはその改良は、すべてＨＭＭから得られる可能性
スコアに基づいており、一連の訓練トークンから、固定
しきい値あるいは相対的しきい値より下にある可能性ス
コアを持つトークンを分離する。すなわち、可能性スコ
アの低い全トークンを分離し、このいわゆる部外トーク
ンから新しいモデルを生或する。トークンがクラスター
リング（分解）されると、セグメンテーションｋ手段訓
練アルゴリズムが、各モデルに対してパラメータの最適
な組を与えるよう再び使用される。

第２図は、バックグラウンド環境一無関係音声を含む一
と同様に各々の単語を特徴づけるために使用されるＨＭ
Ｍの構造を示している。モデルは、左から右にＮ個の状
態を持つ一次マルコフモデルである。各モデルは次のよ
うに完全に特徴づけられている：［１］状態遷移行列Ａ−ａ，は、以下の制約下にある。

（すなわち、ｊ状態からそれ自身への即ちｊ＋ｌ状態へ
の遷移のみ許す）［２］状態観ハｊ密度行列Ｂ−ｂｊ　（Ｘ）はガウス関
数密度、Ｍの混合（和）からなり、次の形を取る、ここで、Ｘは入力観測ベクトル、Ｃ　．は状ｇｊのｍコｍ番目の戊分に対する混合重み、μ。ｊは状態ｊでの混
合ｍに対する平均ベクトル、ＵＯｌｊは状態ｊでの混合
ｍに対する共変化でる（米国特許第４７８３８０４号を
参照のこと）。本明細書に記述されている全評価は、直
交共変化行列を使用した。本発明の評価では、モデルに
対する状態数は１０に設定され、状態に対する混合成分
の数Ｍは９に設定されている。

［３］一連の対数エネルギー密度、ｐｊ　　（ε）ここ
でεは動的正規化されたフレームエネルギーで、ｐ．は
状態ｊで経験的に測定されたエネルギＪ −値の離散密度。

［４］一連の状態持続確立、宣．（τ）、ここＪでτは状態ｊで使われるフレームの数、ク．は状Ｊ態ｊで経験的に測定された持続値ｊの離散密度。

本発明の認識処理で使用される文法は、前記リーらの文
献に記述されている同じ方法での認識処理に組み入れら
れている。この方法は、キーワードが無い場合もありう
るいくつかのキーワードーゼロモ含めていくつかのシン
ク（無関係音声）モデルとバックグラウンド沈黙モデル
との中に点在するキーワードーを含む配列のキーワード
を認識することが可能である。文法は認識可能単位の正
しい配列を定義し限定する一連のルールである。

決定規則手順１４では、異なる確立スコアの比較に基づ
き最終決定がなされうるかどうか、あるいは何か代わり
のシステム手順が呼び出されるかどうかが決定される。

この新しい手順を評価するために、一つのキーワードを
正確に発見するよう文法を限定しているので、どんな発
声音でもただ１つのキーワードのみが出現することが、
先験的にわかっている代表的な認識タスクを選んだ。こ
れは第３図に図示されているが、ここでノード０（３１
）は始端ノードで、ノード１　（３２）は終端ノードで
ある。

シンクモデルとバックグラウンドモデルは、前記の訓練
手順を用いて、無関係音声信号の大きなプールから自動
的に生成される。この信号はバックグラウンド信号と同
様に無関係音声を含む。このことは以下さらに議論する
。

ここに述べた認識アルゴリズムは、語當を含まないバッ
クグラウンド信号の頑強なモデルを作り出す能力に依存
している。本発明の目的は、利用者に全く関係なくシン
クモデルを自動的に生成可能にすることである。以下の
題材では、いくつかの（半自動的、自動的両方の）訓練
技術を説明する。シルクモデルは利用者と全く関係なく
生戊されることが可能で、かつ高い認識能力が維持され
ることを示す。

最も簡単な訓練手順は、無関係音声内に最頻出する特定
語からシンクモデルを生成することである。これは、ど
こにこの語量にない単語が出現するかを示唆するラベル
づけされたデータベースを持つことを必要とする。

例によると、先に述べたコールタイプ認識タスクに対し
て、三つの！＆頻出の、語党にない単語はｕｍ　　　’
Ｐｌｅａｓｅ　　　　ｃａｌｌ”であった。語量にない
単語に対して先のモデル形戊の技術を利用するために、
完全にラベルづけしてあり、セグメンテーションされた
データベースが必要である。この柾のセグメンテーショ
ンとラベルづけのいくつかの例が第４図から第６図に（
タイプ１分析とラベルされている）示されている。この
セグメンテーションとラベルづけに基づき、隠れマルコ
フモデルは、バックグラウンドの沈黙に対する単一ＨＭ
Ｍと、ｎの最頻出の語常にない話された単語それぞれに
対して生成される。経験により、コールタイプ認識タス
クに関して、単音節入力に対する認識の正確さはシンク
モデルの数に完全に関係なく、また無関係音声のキーワ
ードに対する認識の正確さも、上位３から４の最頻の語
量にない単語が含まれる限り、シンクモデルの数に比較
的関係しない。というのはこの半自動的訓練という形は
少なくともある種のタスクでは、ワードスポッティング
のために非常に有効だからである。　より自動的にシン
クモデルを訓練するために、バックグラウンド、無関係
音声、キーワードという分類に必要なセグメンテーショ
ンとラベル付けを変更した。この種のラベル付けとセグ
メンテーションの例が第４図から第６図に示され、タイ
プ２分析とラベルされている。この種の訓練のため、全
無関係音声音は結合され、単一隠れマルコフモデルはシ
ンクモデルとして作られる。與なる沈黙モデルはまた沈
黙セグメントから生或される。沈黙モデルに必要な状態
数は１だけであることが発見されている。単一シンクモ
デルと単一１状態の沈黙モデルにより、コールタイプ認
識タスクに対する認識結果はタイプ１分析を使い得られ
た結果に匹敵するーすなわち、手動分折がより少なくな
るにもかかわらず、タイブ２訓練は、タイブ１訓練と同
程度有効であるーことが発見された。

提案された第３の完全自動訓練手順は、シンクモデルを
訓練するために使われるデータベースに対するラベルづ
けとセグメンテーションの全ての制約を取り除くことで
ある。唯一の必要性は、無関係音声とバックグラウンド
ノイズと同様にキーワードを含むデータベースを持つこ
とである。

このラベルづけの例は第４図から第６図にタイプ３分析
と記され示されている。これらの例でたとえキーワード
が存在するとしても、全体の発生は最初にシンクモデル
を訓練するために使われる。

第７図は最終キーワードとシンクモデルを得る為に使わ
れた訓練処理のブロック図を示す。訓練処理を初期化す
るため、ＨＭＭセット７１は語堂の単音節単語と無関係
音声のプールから形成される。

このブートストラップモデルと語紮の単語を含む訓練デ
ータ７４が与えられると、セグメンテーションｋ手段訓
練アルゴリズムは訓練文字を語量単語７５〜７つ、沈黙
８０、無関係音声に最適にセグメンテーションするため
に使われる。よって新しいモデルが作り出され、処理は
収束するまで反復するる。

単一シンクモデル８１を生戊するこの完全自動訓練手順
を使うと、認識の正確さは先にタイプ１、２分析で得ら
れたコールタイプ認識タスクに対して同じままである。

要約すると、好ましい実施例である、単一シンクモデル
がここに述べた完全自動訓練手順を用い生戊される。標
準的な認識タスクに対する認識結果は、半自動的訓練手
順から得られる最良結果に匹敵した。これから、無関係
音声とバックグラウンド沈黙の両方の特徴を受け入れる
単一シンクモデルが生成され得ることが示唆される。

ここで示されたアルゴリズムは、流暢な非制約音声の文
脈で話された所定の語量の単語を認識可能であることが
示された隠れマルコフモデル技術に基いており、これに
より利用者がより自由な話し方ができ、また音声認識の
ヒューマン・ファクターの問題をより扱いやすくするこ
とだろう。

この基礎となる原理に基く技術のさまざまな変型は当業
者には明らかであろう。例えば文庄上の制約は隣接する
場合のみに限定されないが、その代わり、特定モデルや
一般モデルにマッチングされる音声言語事象間のわずか
な重なりのような特定の関係を必要とする。

【図面の簡単な説明】

第１図は、本発明が実施可能である認識システムを示す
一般的流れ図、第２図は、本発明で使用される状態過渡モデルと関連パ
ラメータを示す図である。第３図は、本発明の実施において発生する最も一般的な
文法配列を示す図、第４、５、６図は本発明を説明する際に有効な曲線を示
す図、第７図は本発明の実施のために示すより詳細な流れ図で
ある。ＦＩＧ．　１出力ＦＩＧ．ＦＩＧ．　７手続補正書（方式）平成２年　９月２６０

Claims

【特許請求の範囲】（１）認識されるべき音声言語単位の複数モデルを採用
するステップ、前記モデルと音声を含む音響事象の配列の部分との最良
のマッチングを決定するステップ、とを有し、決定ステ
ップは、所定の基準を満足するために、前記最良のマッチングの
オーダーを制約するステップを含む音声認識方法におい
て、前記採用ステップは、音響事象の次の２種の音のモデル
を採用するステップを含み、（１）音声言語単位に選ばれた音響事象に対する特定モデル、（２）沈黙を含む他の音響事象に対する少なくとも１つの一般モデル、制約ステップは、一般モデルと音響事象との間の最良の
マッチングに続き起こる、特定モデルと音響事象との間
の最良のマッチングを必要とすることを特徴とする音声
認識方法。（２）音声事象を含む音響事象の入力配列の部分と、認
識されるべき音声言語単位の第１セットのモデルとの間
でマッチングを使用する音声認識方法において、前記部分と前記認識されるべき音声言語単位以外の少な
くとも１つの音響事象を含む少なくとも第２セットの音
響事象のモデルとのマッチングを行うステップと、前記入力配列での特定の音響事象と認識されるべき音声
言語単位のモデルとの所定の関係での最良のマッチング
を検知するステップを有し、前記入力配列での音響事象は、前記特定の音響事象と前
記第２の音響事象でのモデルと選択された関係を持つこ
とを特徴とする音声認識方法。（３）音声事象を含む音響事象の入力配列の部分と、認
識されるべき音声言語単位の第１セットのモデルとの間
でマッチングを使用する音声認識方法において、前記部分と前記認識されるべき音声言語単位以外の少な
くとも１つの音響事象を含む少なくとも第２セットの音
響事象のモデルとのマッチングを行うステップと、前記入力配列での特定の音響事象と認識されるべき音声
言語単位のモデルとの、または、前記特定の音響事象に隣接する前記入力配列での音響事
象と前記第２セットの音響事象でのモデルとの、いずれ
かのオーダーで、最良のマッチングを検知するステップ
、を有することを特徴とする音声認識方法。（４）少なくとも１つの一般モデルは、各状態に対し、
過渡確率に関連する複数の行列信号、観測確立密度、少
なくともエネルギー密度信号、少なくとも一連の状態持
続確率信号を有する状態過渡タイプであることを特徴とする請求項１記載の方法。（５）選ばれた音声言語単位モデルは、各状態に対し、
過渡確率に関連する複数の行列信号、観測列確立密度、
少なくともエネルギー密度信号、少なくとも一連の状態
持続確率信号を有する状態過渡タイプであり、決定ステップは、いずれのオーダーでも、一般モデルと
特定モデルの最良全体配列の決定を含む決定ステップを
有することを特徴とする請求項１記載の方法。（６）決定ステップは、始端ステップと終端ステップと
を含み、制限ステップは、始端ステップと終端ステップとの間で
複数の特定モデルを含む最良マッチングモデルの配列か
ら、始端ステップと終端ステップとの間で少なくとも１
つのキーワード特定モデルを含む最良マッチングモデル
の配列を区別することを特徴とする請求項５の方法。（７）決定ステップは、始端ステップと終端ステップと
を含み、制限ステップは、始端ステップと終端ステップとの間で
複数の特定モデルを含む最良マッチングモデルの配列か
ら、始端ステップと終端ステップとの間で１つのキーワ
ード特定モデル以外を含まない最良マッチングモデルの
配列を区別することを特徴とする請求項５の方法。（８）２種の音響事象のモデル：（１）選ばれた音声言語単位である音声事象に対する特
定のモデル（２）他の音声事象に対する少なくとも１つの一般モデ
ルを使用するステップを含むことを特徴とする音声認識装
置訓練方法。（９）２種の音響事象のモデル：（１）選ばれた音声言語単位である音声事象に対する特
定のモデル（２）沈黙を含む他の音声事象に対する少なくとも１つ
の一般モデルを使用するステップ前記認識装置の環境の少なくとも部分的に予想できる、
音響事象の合成を形成するステップ、前記合成の最も共
通な特徴を抽出するステップ、前記抽出された特徴から
、状態過渡タイプの少なくとも１つの前記一般モデルを
作るステップ、を有することを特徴とする音声認識装置
訓練方法。（１０）他の音響事象に対する少なくとも１つの一般モ
デルを採用するステップが、一般の環境で一般の利用者
の会話から、そこから故意に連続して選ばずに、集めら
れたものを訓練の基本に採用するステップからなること
を特徴とする請求項８記載の方法。