JPH0394299A - 音声認識方法と音声認識装置訓練方法 - Google Patents
音声認識方法と音声認識装置訓練方法Info
- Publication number
- JPH0394299A JPH0394299A JP2125636A JP12563690A JPH0394299A JP H0394299 A JPH0394299 A JP H0394299A JP 2125636 A JP2125636 A JP 2125636A JP 12563690 A JP12563690 A JP 12563690A JP H0394299 A JPH0394299 A JP H0394299A
- Authority
- JP
- Japan
- Prior art keywords
- model
- acoustic
- models
- speech
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 45
- 238000012549 training Methods 0.000 title claims description 25
- 239000000203 mixture Substances 0.000 claims description 6
- 230000001052 transient effect Effects 0.000 claims description 6
- 230000002688 persistence Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000001755 vocal effect Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 abstract description 23
- 230000005236 sound signal Effects 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 239000000945 filler Substances 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012731 temporal analysis Methods 0.000 description 2
- 238000000700 time series analysis Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 206010062717 Increased upper airway secretion Diseases 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000002224 dissection Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 208000026435 phlegm Diseases 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
め要約のデータは記録されません。
Description
に関する。
認識システムは、ここ1o年以上関心の高い話題であっ
た。当初の音声認識システムは、単音として話された少
数の語句を認識しか認識できなかった。ごく最近、頻繁
に話される中程度の語量の組を認識できるシステムは、
公表され、これは、米国特許第4783804号明細書
(ビー・エイチ・ファン(B−H,Juang)らに譲
渡、1988年11月8日特許付与)に開示されている
。多くの音声認識システムの基本的な仮定は、認識され
るべき人力は、認識語量単語とバックグラウンド(背景
)の沈黙のみからなることである。しかし、“オペレー
タ補助コール”を作るための限定された離散コマンド句
(指令文句)の認識に関する最近の研究から、このサー
ビスに対して許可された人力語だけを話す加入者を現実
に求めることは、不可能ではないが、極端に困難である
ことがわかった。カリフォルニア州へイワードのAT&
T本社(サンフランシスコベイエリア内)で行われた、
不特定者離散単語音声認識技術の広範囲な試用において
、実際の電話利用者の通話が、新世代の電話交換機用に
開発された呼び処理手続きを評価するために、使用され
た。オペレータ補助コールを行う利用者は、利用したい
呼びのタイプ(すなわち、collect (料金受信
人払い(コレクトコール))、calling−car
d(カード支払通話) 、person−to−per
son(指名通話)、bill−to−third (
第三者支払) 、operator(オペレータ))を
口頭で確認するよう要求された。各利用者は、口頭で指
示された五つのコマンドの一つを離散形式で話すよう要
求された。実際には、82%の利用者がコマンド句の一
つを話したが、これら入力利用者の79%のみが、単音
として話した(すなわち、全利用者の65%が約束に従
った)。利用者が話した応答をモニターすると、全応答
の17%が、無関係の音声入力と共に、正しいコマンド
用語を含んでいたことが、示されt二。
?おや、ああカード支払通話をしたい・トムからコレク
トコールですく沈黙〉 ・指名通話をしたい ・く沈黙〉オペレータを出してください多くの従来の離
散語認識アルゴリズムは、文章中の語量の項目を認識す
るよう設計されていなかった。そのような場合、無関係
音声中で、決められた語量の用語を認識できる(すなわ
ち、キーワードに注目する(キーワードスポッティング
))ように、アルゴリズムは修正されなければならない
。
究がなされてきたが、その大部分は公表されなかった。
プレートに基づく動的計画マッチング(DPマッチング
、DTW (dynaIllict1me warpi
ng) )法であった。例えば、論文「線形予測コード
化を使用する連続音声中のキーワードの検知と位置付け
(Detecting and Locating K
ey Words in Continuous Sp
eech Llsing Ltnear Predic
tive Coding) J r音響、音声、信号
処理に関するIEEE論文集(!EEE Transa
ctions on Acoustlc , Spee
ch and Signal Processing
)J ASSP25巻、第5号、362〜367頁(1
977年11月)において、クリスチャンセン(Chr
istlansen)とラッシュフォース(Rushf
’orth )が、タスクに関する構文や意味の情報を
全くなしで、音声信号のLPC表現を用いるキーワード
スポッティングシステムに熟達した話し手に関して記述
している。この方法を使用して、彼らは4種のキーワー
ドと10種の数字という語紮の組に対して非常に正確に
キーワードスボッティングすることができた。
oh Iford)は、「テンプレート連結を用いるキ
ーワード認識(Keyword Recognitio
n Uslng Template Concaten
at ton)” 「音響、音声、信号処理に関するI
EEE国際会議議事録(Conr.Rec.IEEE
Int.Conl’.Acous.Speech .
.and Signal Processing)J1
233〜1236頁、タンバ、フロリダ(1985年)
において、キーワードスポッティングのために、動的計
画マッチングに基づくシステムを提案した。彼らのシス
テムでは、入力音声の語量と構文に関する知識が使われ
ていた。キーワードのテンプレートと非キーワードのテ
ンプレートの組が作られ、流暢な音声の中のキーワード
を検知するために、数種のプールされたフィラー((’
iller)テンプレートと比較された。このフィラー
テンプレートは、(1)6個の“機能”語からのデータ
を用いるか、(2)語量にない単語を、手動有標の(h
and−marked)データを使用して、音節にほぼ
等しいセグメントに分解すること、により生戊された。
いが、フィラーテンプレートの使用は重要であることを
示していた。しかし、彼らは、このフィラーテンプレー
トは、キーワードスポッティングシステムの性能に大き
く影響することを発見した。加えて、フィラーテンプレ
ートの持続時間がシステムの正確さを制御すると、彼ら
は結論付けた。テンプレートの数が増加し、また平均的
なフィラーテンプレートの持続時間を短くなるにつれ、
システムの正確さは改善された。
テンプレートマッチング認識システムにおいても最大の
問題である。というのは、各テンプレート1ま物理的な
持続時間を持ち、アルゴリズムはある局所的な持続時間
の制約に従うことを余儀なくされるからである。
フィ’り−(Chin−Hut Lee) 、ジョン・
ダブリュー・クロフスタッド(John W.KIov
sta)。
、1 9 87年12月15日発行)において、隠れ
マルコフモデル(HMM)が、沈黙をモデル化するため
に使われた。固定スコアしきい値は、誤り警告を除去す
るために使われた。
pplication orHidden Marko
v Mode’s toAutmatlc Speec
h Endpoint Detection ) ”
rコンピュータ音声と言語(Computer−Sp
eech and Language) J第2巻、3
/4、321〜341頁、(1987年12月)の論文
では、発明者の二人、ウィルポン(Wilpon)とラ
ビナー(Rabiner)が、静的方法に基づく認識ア
ルゴリズムを提出し、゜ここでは音声の明快な終点検知
は全く認識システムから除かれているものの、認識の高
い正確さを維持している。これを達或するために、認識
システムは入力信号をバックグラウンド信号と語量単語
との配列にモデル化した。しかし、この仕事は語堂単語
が単音として話される(すなわち、無関係音声言語人力
ではない)という状況に限定されていた。
して起こる音声言語音(無関係音声)を含むバックグラ
ウンド音を首尾よくモデル化することが可能であるとい
う発見に基づく。
、このようなバックグラウンドモデルを一つだけ使用す
ると、複数のバックグラウンドモデルもほぼ同様に実行
可能であることをさらに発見した。この発見は前記従来
技術からは予測不可能であった。
ル(通例、隠れマルコフモデル(以後HMM)と呼ばれ
る)が、非制約音声の文脈内で、特定の語量単語(以後
キーワードと呼ぶ)を認識するために使われる。本発明
は、前記ウィルポンらの参考文献の文法ほ念に基づいて
いる。本発明が発展させた方法は、全バックグラウンド
環境(沈黙、部屋の環境、聞こえてくる騒音を含む)と
最も重要な無関係音声とをモデル化することである。本
発明では、与えられた音声入力を、無関係入力の非制約
配列+キーワード+無関係入力の別の非制約配列として
、表現するが、話されている文脈では必要となるこのよ
うなネクサス(nexus)は一つだけである。本発明
では、無関係音声を表わす少なくとも一つのHMMを生
戊することでこれを行う。文法誘導型連続単語認識シス
テムは、外部音声とキーワードとの最良の配列を決定す
るために使われる。
に対しいわゆるシンク(sink) (一般)モデルを
使用し、音声認識装置が、無関係信号を認識でき、同時
にキーワードが認識される。
の表現、s (n)の獲得である。一般に、音声はs
(n)を作るために、従来技術と同様に、デジタル化、
フィルタリング、予強調、フレーム切り出し一がなされ
る。本発明では必要ないが、s (n)がLPGによる
セブストラル(ceps t ra I )ベクトルを
与えるように分析されると便利である。
クトルーすなわち、LPGとセブストラム11−はモデ
ル整合ステップ13に送られるが、モデル整合ステップ
13は正しい文法規則を含み、s (n)の特徴ベクト
ルと、発明の概要で略述した二種の参照モデル単語との
比較がなされる。決定規則ボックス14から最終的に最
良と評価されたものが最良キーワード(すなわち文法に
よりS(n)の特徴ベクトルに最もよくマッチングして
いるキーワード)として転送される。
に、デジタル化が、6.67kHzで行われ、フィルタ
リング音声帯域幅は、100〜3200Hzである。他
の特別なサンプリング間隔やフィルタリング帯域幅もも
ちろん使用されうる。高城強調ファクターは、代表的な
実施例では、a−0.95で、フレームは一般的な長さ
45msec,フレーム周期が15msecである。
れた技術に従い実行される。即ち、エル●アール・ラビ
ナー(L,R,Labiner)らによる或書「音声信
号のデジタル処理(DigitaI Processi
ng of Speech Signals) J 、
3 5 6 〜372頁、398〜401頁、プレンテ
ィスホール、エングレウッド、ニュージャージ(197
8)、また(あるいは)ビー・ボゲート(B.Boge
rt)らによる文献゛反響に関する時系列ケーフレンシ
ー分析(The Quefrency Analisi
s of TIIle Series for Ech
oes) ’ rシンポジウム ブロシーディング
ス オン タイムシリーズアナリシス(Proc.Sy
mp.on Time Series Analysi
s ) J、第15章、209〜243頁、エム・ロー
ゼンブラット編集、ジエイ・ウイリー、ニューヨーク(
1963年)に記載された技術である。音声の各フレー
ムは、エル・アール・ラビナーらによる前記の戊書の1
21頁に記述されているようにハミング窓で重み付けさ
れる。p次(この実施例では8次)のオーダーで線形予
測コード化(L P G)分析が各データに対して実行
される。各フレームに対して、8個のLPG係数の組が
生或される。
トルの組に還元される。データに対して実行される自動
的な終点検知はない。
ベクトルから、Q次成分(ここで本明細書の方法ではQ
−12(実施例ではQ>p))まで計算される。
( m )は、以下の形の窓、Wo (m)により
重み付けされる; ε((”)= C((m)”c(m) (2) 詳細は以下の論文、ビー・ファン(B,Juang)ら
による゜音声認識におけるバンドパス・リフタリングの
使用(The Use of Bandpass Ll
rter1ng in Speech Recogni
tion) ” r音響、音声、信号処理に関するI
EEE論文集(IEEE Transactlons
on Acoustics.Speech and S
ignal Processing)J ASSP35
、第7号、947 〜954W(1987年7月)に開
示されている。
含むように拡張することで、数種の標準音声認識装置の
性能が画期的に向上することが最近示された。本発明で
はこのスペクトル微分情報を次のように分析ベクトルに
含む。
考慮するベクトルを中心にして(2K+1)フレームの
有限長窓に対する1次直交多項式により近似される(本
実施例では微分が57レーム(75msec)窓から計
算されるので、K一2)。微分セプストラル(すなわち
デルタセプストラルベクトル)は次のように計算される
。
ルの連結であり、相当する重み付けされたデルタセプス
トラルベクトルは、以下である。
)とΔCt (m)の変化は、ほぼ同じである(本
実施例のシステムではGの値は0.375)。一般計算
に対する詳細はエフ・ケイ・ソーン(P.K.Soon
g )らによる文献「話者認識における瞬間の、過渡的
なスペクトル情報の利用について(On theUse
of Instantaneous and Tra
nsitional Spectral Inf’or
mation in Speaker Recogn1
tion)″′「音響、音声、信号処理に関するIEE
E紀要(IEEE Transactions on
Acoustlcs.Speech andSigna
l Process1ng ) J A S S P
3 6巻、第6号、871〜879頁(1988年6月
)に開示されている。
あたり24の係数からなる。
biner)らによる文献「隠れマルコフモデルを利用
する数字認識に関する高性能(High Perfor
manee Connected Digit Rec
ognition UsingHidden Mark
ov Models ) r音響、音声、信号処理に
関するI EEE国際会議会議H (Conreren
ceRecord , IEEE Internati
onal Conf’erence on Acous
tics, Speech and Signal P
rocessing) J第1巻、119〜122頁、
ニューヨーク、(1958年4月)にさらに詳細に開示
されている。
ーム同期レベル形或(F S L B)アルゴリズム1
3を用いて、一連の記憶単語に基く隠れマルコフモデル
12に対してマッチングさる。
Lee)らによる論文「単語認識に関するネットワーク
に基くフレーム同期レベル形成ムアルゴリズム(A N
etwork−Based Frame Synchr
onous Level Bu11dlng Algo
rithm for Connected Word
Recognitlon )” 「音響、音声、信号処
理に関するI EEE国際会議議事録(Conl’.R
ec.IEEE Int.Conf.Acous.Sp
eech and Sig.process1ng)
J第l巻、410〜413頁、ニューヨーク、NY(1
988年4月)に開示されている。)更に、レベル内で
ビテルビマッチングされる。第2図に記述されているよ
うに、単語と状態の持続確率は、HMM計算とモデル整
合手順13内のネットワークサーチに組込まれる。第3
図に参照として以後記述されている、正しい文章入力を
記述する有限状態文法は、認識処理を駆動するために使
われている。手順13内のFSLBアルゴリズムは、フ
レームごとに最大可能文章(string)デゴーディ
ングを実行する。この処環の出力は一連の正しい文字候
補となる。
ルを生戊するために、セグメンテーションk手段訓練ア
ルゴリズムは、エル.アール.ラビナー(L.R.Ra
biner’)らによる記事”全体単語参照パターンに
基づく認識に関するセグメンテーションK手段訓練手順
(ASeg巾ental K−means Train
ing Procedure I’or Connec
ted withRecognition Based
on Whole Word Rererence
Patterns) ” rAT&T技術雑誌(AT
&T TechnicalJournal) J第65
巻、第3号、21〜31頁(1986年5月)より開示
されている。この単語形成アルゴリズム(すなわち、H
MMのパラメータを決定するための評価手順)は各モデ
ルに対して、収束するまで(すなわち、連続反復で可能
性スコアの差が十分に小さくなるまで)反復される。
基づくクラスタリング(分解)アルゴリズムが、既に定
義したクラスター(前記ソーンらの論文に開示されてい
る)を分割するために使われている。このアルゴリズム
あるいはその改良は、すべてHMMから得られる可能性
スコアに基づいており、一連の訓練トークンから、固定
しきい値あるいは相対的しきい値より下にある可能性ス
コアを持つトークンを分離する。すなわち、可能性スコ
アの低い全トークンを分離し、このいわゆる部外トーク
ンから新しいモデルを生或する。トークンがクラスター
リング(分解)されると、セグメンテーションk手段訓
練アルゴリズムが、各モデルに対してパラメータの最適
な組を与えるよう再び使用される。
と同様に各々の単語を特徴づけるために使用されるHM
Mの構造を示している。モデルは、左から右にN個の状
態を持つ一次マルコフモデルである。各モデルは次のよ
うに完全に特徴づけられている: [1]状態遷移行列A−a,は、以下の制約下にある。
の遷移のみ許す) [2]状態観ハj密度行列B−bj (X)はガウス関
数密度、Mの混合(和)からなり、次の形を取る、 ここで、Xは入力観測ベクトル、C .は状gjのmコ m番目の戊分に対する混合重み、μ。jは状態jでの混
合mに対する平均ベクトル、UOljは状態jでの混合
mに対する共変化でる(米国特許第4783804号を
参照のこと)。本明細書に記述されている全評価は、直
交共変化行列を使用した。本発明の評価では、モデルに
対する状態数は10に設定され、状態に対する混合成分
の数Mは9に設定されている。
でεは動的正規化されたフレームエネルギーで、p.は
状態jで経験的に測定されたエネルギJ −値の離散密度。
献に記述されている同じ方法での認識処理に組み入れら
れている。この方法は、キーワードが無い場合もありう
るいくつかのキーワードーゼロモ含めていくつかのシン
ク(無関係音声)モデルとバックグラウンド沈黙モデル
との中に点在するキーワードーを含む配列のキーワード
を認識することが可能である。文法は認識可能単位の正
しい配列を定義し限定する一連のルールである。
き最終決定がなされうるかどうか、あるいは何か代わり
のシステム手順が呼び出されるかどうかが決定される。
正確に発見するよう文法を限定しているので、どんな発
声音でもただ1つのキーワードのみが出現することが、
先験的にわかっている代表的な認識タスクを選んだ。こ
れは第3図に図示されているが、ここでノード0(31
)は始端ノードで、ノード1 (32)は終端ノードで
ある。
手順を用いて、無関係音声信号の大きなプールから自動
的に生成される。この信号はバックグラウンド信号と同
様に無関係音声を含む。このことは以下さらに議論する
。
クグラウンド信号の頑強なモデルを作り出す能力に依存
している。本発明の目的は、利用者に全く関係なくシン
クモデルを自動的に生成可能にすることである。以下の
題材では、いくつかの(半自動的、自動的両方の)訓練
技術を説明する。シルクモデルは利用者と全く関係なく
生戊されることが可能で、かつ高い認識能力が維持され
ることを示す。
語からシンクモデルを生成することである。これは、ど
こにこの語量にない単語が出現するかを示唆するラベル
づけされたデータベースを持つことを必要とする。
て、三つの!&頻出の、語党にない単語はum ’
Please call”であった。語量にない
単語に対して先のモデル形戊の技術を利用するために、
完全にラベルづけしてあり、セグメンテーションされた
データベースが必要である。この柾のセグメンテーショ
ンとラベルづけのいくつかの例が第4図から第6図に(
タイプ1分析とラベルされている)示されている。この
セグメンテーションとラベルづけに基づき、隠れマルコ
フモデルは、バックグラウンドの沈黙に対する単一HM
Mと、nの最頻出の語常にない話された単語それぞれに
対して生成される。経験により、コールタイプ認識タス
クに関して、単音節入力に対する認識の正確さはシンク
モデルの数に完全に関係なく、また無関係音声のキーワ
ードに対する認識の正確さも、上位3から4の最頻の語
量にない単語が含まれる限り、シンクモデルの数に比較
的関係しない。というのはこの半自動的訓練という形は
少なくともある種のタスクでは、ワードスポッティング
のために非常に有効だからである。 より自動的にシン
クモデルを訓練するために、バックグラウンド、無関係
音声、キーワードという分類に必要なセグメンテーショ
ンとラベル付けを変更した。この種のラベル付けとセグ
メンテーションの例が第4図から第6図に示され、タイ
プ2分析とラベルされている。この種の訓練のため、全
無関係音声音は結合され、単一隠れマルコフモデルはシ
ンクモデルとして作られる。與なる沈黙モデルはまた沈
黙セグメントから生或される。沈黙モデルに必要な状態
数は1だけであることが発見されている。単一シンクモ
デルと単一1状態の沈黙モデルにより、コールタイプ認
識タスクに対する認識結果はタイプ1分析を使い得られ
た結果に匹敵するーすなわち、手動分折がより少なくな
るにもかかわらず、タイブ2訓練は、タイブ1訓練と同
程度有効であるーことが発見された。
訓練するために使われるデータベースに対するラベルづ
けとセグメンテーションの全ての制約を取り除くことで
ある。唯一の必要性は、無関係音声とバックグラウンド
ノイズと同様にキーワードを含むデータベースを持つこ
とである。
と記され示されている。これらの例でたとえキーワード
が存在するとしても、全体の発生は最初にシンクモデル
を訓練するために使われる。
れた訓練処理のブロック図を示す。訓練処理を初期化す
るため、HMMセット71は語堂の単音節単語と無関係
音声のプールから形成される。
ータ74が与えられると、セグメンテーションk手段訓
練アルゴリズムは訓練文字を語量単語75〜7つ、沈黙
80、無関係音声に最適にセグメンテーションするため
に使われる。よって新しいモデルが作り出され、処理は
収束するまで反復するる。
を使うと、認識の正確さは先にタイプ1、2分析で得ら
れたコールタイプ認識タスクに対して同じままである。
がここに述べた完全自動訓練手順を用い生戊される。標
準的な認識タスクに対する認識結果は、半自動的訓練手
順から得られる最良結果に匹敵した。これから、無関係
音声とバックグラウンド沈黙の両方の特徴を受け入れる
単一シンクモデルが生成され得ることが示唆される。
脈で話された所定の語量の単語を認識可能であることが
示された隠れマルコフモデル技術に基いており、これに
より利用者がより自由な話し方ができ、また音声認識の
ヒューマン・ファクターの問題をより扱いやすくするこ
とだろう。
者には明らかであろう。例えば文庄上の制約は隣接する
場合のみに限定されないが、その代わり、特定モデルや
一般モデルにマッチングされる音声言語事象間のわずか
な重なりのような特定の関係を必要とする。
一般的流れ図、 第2図は、本発明で使用される状態過渡モデルと関連パ
ラメータを示す図である。 第3図は、本発明の実施において発生する最も一般的な
文法配列を示す図、 第4、5、6図は本発明を説明する際に有効な曲線を示
す図、 第7図は本発明の実施のために示すより詳細な流れ図で
ある。 FIG. 1 出力 FIG. FIG. 7 手 続 補 正 書(方式) 平成2年 9月260
Claims (1)
- 【特許請求の範囲】 (1)認識されるべき音声言語単位の複数モデルを採用
するステップ、 前記モデルと音声を含む音響事象の配列の部分との最良
のマッチングを決定するステップ、とを有し、決定ステ
ップは、 所定の基準を満足するために、前記最良のマッチングの
オーダーを制約するステップを含む音声認識方法におい
て、 前記採用ステップは、音響事象の次の2種の音のモデル
を採用するステップを含み、 (1)音声言語単位に選ばれた音響事象に 対する特定モデル、 (2)沈黙を含む他の音響事象に対する少 なくとも1つの一般モデル、 制約ステップは、一般モデルと音響事象との間の最良の
マッチングに続き起こる、特定モデルと音響事象との間
の最良のマッチングを必要とすることを特徴とする音声
認識方法。 (2)音声事象を含む音響事象の入力配列の部分と、認
識されるべき音声言語単位の第1セットのモデルとの間
でマッチングを使用する音声認識方法において、 前記部分と前記認識されるべき音声言語単位以外の少な
くとも1つの音響事象を含む少なくとも第2セットの音
響事象のモデルとのマッチングを行うステップと、 前記入力配列での特定の音響事象と認識されるべき音声
言語単位のモデルとの所定の関係での最良のマッチング
を検知するステップ を有し、 前記入力配列での音響事象は、前記特定の音響事象と前
記第2の音響事象でのモデルと選択された関係を持つこ
とを特徴とする音声認識方法。 (3)音声事象を含む音響事象の入力配列の部分と、認
識されるべき音声言語単位の第1セットのモデルとの間
でマッチングを使用する音声認識方法において、 前記部分と前記認識されるべき音声言語単位以外の少な
くとも1つの音響事象を含む少なくとも第2セットの音
響事象のモデルとのマッチングを行うステップと、 前記入力配列での特定の音響事象と認識されるべき音声
言語単位のモデルとの、または、 前記特定の音響事象に隣接する前記入力配列での音響事
象と前記第2セットの音響事象でのモデルとの、いずれ
かのオーダーで、最良のマッチングを検知するステップ
、 を有することを特徴とする音声認識方法。 (4)少なくとも1つの一般モデルは、各状態に対し、
過渡確率に関連する複数の行列信号、観測確立密度、少
なくともエネルギー密度信号、少なくとも一連の状態持
続確率信号を有する状態過渡タイプである ことを特徴とする請求項1記載の方法。 (5)選ばれた音声言語単位モデルは、各状態に対し、
過渡確率に関連する複数の行列信号、観測列確立密度、
少なくともエネルギー密度信号、少なくとも一連の状態
持続確率信号を有する状態過渡タイプであり、 決定ステップは、いずれのオーダーでも、一般モデルと
特定モデルの最良全体配列の決定を含む決定ステップを
有する ことを特徴とする請求項1記載の方法。 (6)決定ステップは、始端ステップと終端ステップと
を含み、 制限ステップは、始端ステップと終端ステップとの間で
複数の特定モデルを含む最良マッチングモデルの配列か
ら、始端ステップと終端ステップとの間で少なくとも1
つのキーワード特定モデルを含む最良マッチングモデル
の配列を区別することを特徴とする請求項5の方法。 (7)決定ステップは、始端ステップと終端ステップと
を含み、 制限ステップは、始端ステップと終端ステップとの間で
複数の特定モデルを含む最良マッチングモデルの配列か
ら、始端ステップと終端ステップとの間で1つのキーワ
ード特定モデル以外を含まない最良マッチングモデルの
配列を区別することを特徴とする請求項5の方法。 (8)2種の音響事象のモデル: (1)選ばれた音声言語単位である音声事象に対する特
定のモデル (2)他の音声事象に対する少なくとも1つの一般モデ
ル を使用するステップを含むことを特徴とする音声認識装
置訓練方法。 (9)2種の音響事象のモデル: (1)選ばれた音声言語単位である音声事象に対する特
定のモデル (2)沈黙を含む他の音声事象に対する少なくとも1つ
の一般モデル を使用するステップ 前記認識装置の環境の少なくとも部分的に予想できる、
音響事象の合成を形成するステップ、前記合成の最も共
通な特徴を抽出するステップ、前記抽出された特徴から
、状態過渡タイプの少なくとも1つの前記一般モデルを
作るステップ、を有することを特徴とする音声認識装置
訓練方法。 (10)他の音響事象に対する少なくとも1つの一般モ
デルを採用するステップが、一般の環境で一般の利用者
の会話から、そこから故意に連続して選ばずに、集めら
れたものを訓練の基本に採用するステップからなること
を特徴とする請求項8記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US35328389A | 1989-05-17 | 1989-05-17 | |
US353283 | 1989-05-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0394299A true JPH0394299A (ja) | 1991-04-19 |
JP2963142B2 JP2963142B2 (ja) | 1999-10-12 |
Family
ID=23388462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2125636A Expired - Lifetime JP2963142B2 (ja) | 1989-05-17 | 1990-05-17 | 信号処理方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US5649057A (ja) |
EP (1) | EP0398574B1 (ja) |
JP (1) | JP2963142B2 (ja) |
KR (1) | KR970011022B1 (ja) |
AU (2) | AU5463390A (ja) |
CA (1) | CA2015410C (ja) |
DE (1) | DE69032777T2 (ja) |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
MY119374A (en) * | 1995-09-12 | 2005-05-31 | Texas Instruments Inc | Method and system for enrolling addresses in a speech recognition database |
EP1758351B1 (en) * | 1995-09-12 | 2016-12-21 | Texas Instruments Incorporated | Method and system for enrolling addresses in a speech recognition database |
JP3459712B2 (ja) * | 1995-11-01 | 2003-10-27 | キヤノン株式会社 | 音声認識方法及び装置及びコンピュータ制御装置 |
GB9602691D0 (en) * | 1996-02-09 | 1996-04-10 | Canon Kk | Word model generation |
US5842165A (en) * | 1996-02-29 | 1998-11-24 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes |
US6076054A (en) * | 1996-02-29 | 2000-06-13 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition |
US5895448A (en) * | 1996-02-29 | 1999-04-20 | Nynex Science And Technology, Inc. | Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose |
EP0800158B1 (en) * | 1996-04-01 | 2001-06-27 | Hewlett-Packard Company, A Delaware Corporation | Word spotting |
US5991720A (en) * | 1996-05-06 | 1999-11-23 | Matsushita Electric Industrial Co., Ltd. | Speech recognition system employing multiple grammar networks |
GB9619165D0 (en) * | 1996-09-13 | 1996-10-23 | British Telecomm | Training apparatus and method |
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US6023676A (en) * | 1996-12-12 | 2000-02-08 | Dspc Israel, Ltd. | Keyword recognition system and method |
US6076057A (en) * | 1997-05-21 | 2000-06-13 | At&T Corp | Unsupervised HMM adaptation based on speech-silence discrimination |
FI973093A (fi) * | 1997-07-23 | 1999-01-24 | Nokia Mobile Phones Ltd | Menetelmä telepalvelun ohjaamiseksi ja päätelaite |
US6006181A (en) * | 1997-09-12 | 1999-12-21 | Lucent Technologies Inc. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network |
DE69813597T2 (de) * | 1997-10-15 | 2004-02-12 | British Telecommunications P.L.C. | Mustererkennung, die mehrere referenzmodelle verwendet |
JPH11143485A (ja) * | 1997-11-14 | 1999-05-28 | Oki Electric Ind Co Ltd | 音声認識方法及び音声認識装置 |
US6243677B1 (en) * | 1997-11-19 | 2001-06-05 | Texas Instruments Incorporated | Method of out of vocabulary word rejection |
US5970446A (en) | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
US6195634B1 (en) | 1997-12-24 | 2001-02-27 | Nortel Networks Corporation | Selection of decoys for non-vocabulary utterances rejection |
US6571210B2 (en) | 1998-11-13 | 2003-05-27 | Microsoft Corporation | Confidence measure system using a near-miss pattern |
US6577999B1 (en) * | 1999-03-08 | 2003-06-10 | International Business Machines Corporation | Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary |
US7149690B2 (en) | 1999-09-09 | 2006-12-12 | Lucent Technologies Inc. | Method and apparatus for interactive language instruction |
US6442520B1 (en) | 1999-11-08 | 2002-08-27 | Agere Systems Guardian Corp. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network |
US7263484B1 (en) | 2000-03-04 | 2007-08-28 | Georgia Tech Research Corporation | Phonetic searching |
US6856956B2 (en) * | 2000-07-20 | 2005-02-15 | Microsoft Corporation | Method and apparatus for generating and displaying N-best alternatives in a speech recognition system |
AU2001286937A1 (en) * | 2000-09-01 | 2002-03-13 | Eliza Corporation | Sppech recognition method and system to determine the status of an outbound telephone call |
US20020059072A1 (en) * | 2000-10-16 | 2002-05-16 | Nasreen Quibria | Method of and system for providing adaptive respondent training in a speech recognition application |
DE10051794C2 (de) * | 2000-10-18 | 2003-04-17 | Saymore Speech Operated System | Verfahren zur eindeutigen Zuweisung eines Befehls und Verfahren zur Sprachsteuerung |
US7400712B2 (en) * | 2001-01-18 | 2008-07-15 | Lucent Technologies Inc. | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access |
US6950796B2 (en) * | 2001-11-05 | 2005-09-27 | Motorola, Inc. | Speech recognition by dynamical noise model adaptation |
US7295982B1 (en) | 2001-11-19 | 2007-11-13 | At&T Corp. | System and method for automatic verification of the understandability of speech |
US6885744B2 (en) | 2001-12-20 | 2005-04-26 | Rockwell Electronic Commerce Technologies, Llc | Method of providing background and video patterns |
JP4061094B2 (ja) * | 2002-03-15 | 2008-03-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、その音声認識方法及びプログラム |
US7698136B1 (en) * | 2003-01-28 | 2010-04-13 | Voxify, Inc. | Methods and apparatus for flexible speech recognition |
US7359860B1 (en) | 2003-02-27 | 2008-04-15 | Lumen Vox, Llc | Call flow object model in a speech recognition system |
US7324940B1 (en) | 2003-02-28 | 2008-01-29 | Lumen Vox, Llc | Speech recognition concept confidence measurement |
JP4357867B2 (ja) * | 2003-04-25 | 2009-11-04 | パイオニア株式会社 | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 |
EP1654727A4 (en) * | 2003-07-23 | 2007-12-26 | Nexidia Inc | INTERROGATIONS FOR THE DETECTION OF WORDS |
US7440895B1 (en) * | 2003-12-01 | 2008-10-21 | Lumenvox, Llc. | System and method for tuning and testing in a speech recognition system |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
CN101154379B (zh) * | 2006-09-27 | 2011-11-23 | 夏普株式会社 | 定位语音中的关键词的方法和设备以及语音识别系统 |
JP5200712B2 (ja) * | 2008-07-10 | 2013-06-05 | 富士通株式会社 | 音声認識装置、音声認識方法及びコンピュータプログラム |
WO2010019831A1 (en) * | 2008-08-14 | 2010-02-18 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8543395B2 (en) | 2010-05-18 | 2013-09-24 | Shazam Entertainment Ltd. | Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization |
US9118669B2 (en) | 2010-09-30 | 2015-08-25 | Alcatel Lucent | Method and apparatus for voice signature authentication |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
EP3281249A4 (en) | 2015-04-08 | 2018-12-26 | Fractal Antenna Systems Inc. | Fractal plasmonic surface reader antennas |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6312312A (ja) * | 1986-07-04 | 1988-01-19 | Yasuhiro Matsukuma | 電界イオン交換クロマトグラフイ |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USRE32012E (en) * | 1980-06-09 | 1985-10-22 | At&T Bell Laboratories | Spoken word controlled automatic dialer |
US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
US4713777A (en) * | 1984-05-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method having noise immunity |
EP0177854B1 (en) * | 1984-09-28 | 1989-12-06 | International Standard Electric Corporation | Keyword recognition system using template-concatenation model |
US5218668A (en) * | 1984-09-28 | 1993-06-08 | Itt Corporation | Keyword recognition system and method using template concantenation model |
US4811399A (en) * | 1984-12-31 | 1989-03-07 | Itt Defense Communications, A Division Of Itt Corporation | Apparatus and method for automatic speech recognition |
AU583871B2 (en) * | 1984-12-31 | 1989-05-11 | Itt Industries, Inc. | Apparatus and method for automatic speech recognition |
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
JPS62231993A (ja) * | 1986-03-25 | 1987-10-12 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声認識方法 |
US4827521A (en) * | 1986-03-27 | 1989-05-02 | International Business Machines Corporation | Training of markov models used in a speech recognition system |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
US4914703A (en) * | 1986-12-05 | 1990-04-03 | Dragon Systems, Inc. | Method for deriving acoustic models for use in speech recognition |
US4802231A (en) * | 1987-11-24 | 1989-01-31 | Elliot Davis | Pattern recognition error reduction system |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
US5440662A (en) * | 1992-12-11 | 1995-08-08 | At&T Corp. | Keyword/non-keyword classification in isolated word speech recognition |
US5452397A (en) * | 1992-12-11 | 1995-09-19 | Texas Instruments Incorporated | Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list |
-
1990
- 1990-04-25 CA CA002015410A patent/CA2015410C/en not_active Expired - Lifetime
- 1990-05-02 AU AU54633/90A patent/AU5463390A/en not_active Abandoned
- 1990-05-09 DE DE69032777T patent/DE69032777T2/de not_active Expired - Lifetime
- 1990-05-09 EP EP90304963A patent/EP0398574B1/en not_active Expired - Lifetime
- 1990-05-14 KR KR1019900006831A patent/KR970011022B1/ko not_active IP Right Cessation
- 1990-05-17 JP JP2125636A patent/JP2963142B2/ja not_active Expired - Lifetime
-
1992
- 1992-06-04 AU AU18044/92A patent/AU643142B2/en not_active Ceased
-
1996
- 1996-01-16 US US08/586,413 patent/US5649057A/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6312312A (ja) * | 1986-07-04 | 1988-01-19 | Yasuhiro Matsukuma | 電界イオン交換クロマトグラフイ |
Also Published As
Publication number | Publication date |
---|---|
US5649057A (en) | 1997-07-15 |
DE69032777D1 (de) | 1999-01-07 |
AU1804492A (en) | 1992-07-30 |
AU5463390A (en) | 1990-11-22 |
CA2015410C (en) | 1996-04-02 |
DE69032777T2 (de) | 1999-05-27 |
JP2963142B2 (ja) | 1999-10-12 |
EP0398574B1 (en) | 1998-11-25 |
KR970011022B1 (ko) | 1997-07-05 |
EP0398574A3 (en) | 1991-09-25 |
EP0398574A2 (en) | 1990-11-22 |
KR900018909A (ko) | 1990-12-22 |
AU643142B2 (en) | 1993-11-04 |
CA2015410A1 (en) | 1990-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0394299A (ja) | 音声認識方法と音声認識装置訓練方法 | |
US5509104A (en) | Speech recognition employing key word modeling and non-key word modeling | |
Juang et al. | Automatic recognition and understanding of spoken language-a first step toward natural human-machine communication | |
US5995928A (en) | Method and apparatus for continuous spelling speech recognition with early identification | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
KR101120716B1 (ko) | 음성 특성에 기초한 전화 호출자들의 자동 식별 | |
Wilpon et al. | Automatic recognition of keywords in unconstrained speech using hidden Markov models | |
US5033087A (en) | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system | |
US7630878B2 (en) | Speech recognition with language-dependent model vectors | |
Rabiner et al. | An overview of automatic speech recognition | |
Wilpon et al. | Application of hidden Markov models for recognition of a limited set of words in unconstrained speech | |
JPH11272291A (ja) | 音響判断ツリ―を用いたフォネティック・モデル化方法 | |
JPH0422276B2 (ja) | ||
JPH06214587A (ja) | 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法 | |
KR19980070329A (ko) | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 | |
KR20010086402A (ko) | 음성인식 장치 | |
Knill et al. | Hidden Markov models in speech and language processing | |
Boite et al. | A new approach towards keyword spotting. | |
JP2004094257A (ja) | 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 | |
JP3535292B2 (ja) | 音声認識システム | |
Kadambe et al. | Language identification with phonological and lexical models | |
EP1213706B1 (en) | Method for online adaptation of pronunciation dictionaries | |
JP2731133B2 (ja) | 連続音声認識装置 | |
Kuo et al. | Advances in natural language call routing | |
Baker et al. | Cost-effective speech processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080806 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080806 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090806 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090806 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100806 Year of fee payment: 11 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100806 Year of fee payment: 11 |