JPH0612093A - 音声認識装置およびそのトレーニング方法ならびに装置 - Google Patents
音声認識装置およびそのトレーニング方法ならびに装置Info
- Publication number
- JPH0612093A JPH0612093A JP5064823A JP6482393A JPH0612093A JP H0612093 A JPH0612093 A JP H0612093A JP 5064823 A JP5064823 A JP 5064823A JP 6482393 A JP6482393 A JP 6482393A JP H0612093 A JPH0612093 A JP H0612093A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- recognizer
- reference pattern
- current
- scoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims description 36
- 230000006870 function Effects 0.000 claims description 45
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000004048 modification Effects 0.000 claims description 2
- 238000012986 modification Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 239000013598 vector Substances 0.000 description 17
- 238000012360 testing method Methods 0.000 description 12
- 230000007704 transition Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
モデル(HMM)に基づく音声認識器のようなパターン
ベースの音声認識に対して、新しいトレーニング方法お
よび装置を実現する。 【構成】 既知音声信号を受信し、この信号およびこの
信号に対する現在の複数の参照パターンに基づいて複数
の認識器スコアリング信号を発生し、これらのスコアリ
ング信号に基づいて誤認識信号を発生する。誤認識信号
および受信した既知音声信号に基づいて、未知音声信号
を誤認識する尤度を減少させるために現在の参照パター
ンを修正し、修正した参照パターンをメモリに格納す
る。
Description
に関し、特に、音声認識器トレーニングの分野に関す
る。
ィジタルPCM信号の形式)が識別されるプロセスであ
る。一般に、音声認識は、未知発話の特徴を既知の語ま
たは句の特徴と比較することによって実行される。
られるプロセスで決定される。トレーニングによって、
既知語句のサンプル(トレーニング音声)が検査され、
その特徴(または特性)が、音声認識器のデータベース
内の参照パターンとして記録される。一般的に、各参照
パターンは単一の既知語を表す。
は、その発話を特徴づけるためにその発話から特徴を抽
出する。未知発話の特徴をテストパターンという。次
に、認識器は、データベース内の参照パターンの組合せ
を、未知発話のテストパターンと比較する。参照パター
ンの各組合わせがテストパターンと一致する度合いの相
対的な測度を与えるために、スコアリング技術が使用さ
れる。未知発話は、その未知発話と最も良く一致する参
照パターンの組合せに対応する語として認識される。
ば、テンプレートベース認識器および隠れマルコフモデ
ル(HMM)認識器がある。テンプレートベース認識器
は、参照パターンを構築するために既知語サンプルに基
づく1次統計量(例えば、サンプルのスペクトル平均)
を使用してトレーニングされる。一般的に、スコアリン
グは、時間登録技術(例えば動的時間ワーピング(DT
W))によって実現される。DTWは、参照パターンと
テストパターンの間の最適時間整合を与える。
ーンに最適に一致するまで、一方のパターンの時間軸を
局所的に伸縮することによってなされる。DTWスコア
リングは、2つの最適に整合された参照パターンおよび
テストパターンの間の全体の距離を反映する。最低スコ
アを有する参照パターン(すなわち、その参照パターン
とテストパターンの間の距離が最短)が、テストパター
ンと同定される。
よび2次統計量(すなわち、スペクトル平均および分
散)を使用してトレーニングされる。HMM認識器の各
参照パターンは、これらの統計量を反映するN状態統計
モデル(HMM)である。HMMの各状態はある意味で
既知語のサンプルの時間的事象に付随する統計量に対応
する。HMMは、状態遷移行列A(旧状態から新状態に
到達する方法の統計的記述を与える)および観測確率行
列B(与えられた状態において観測されやすいスペクト
ル特徴の記述を与える)によって特徴づけられる。テス
トパターンのスコアリングは、特定のモデルが与えられ
た場合のテストパターンの特徴の列の生起の確率を反映
する。すべてのモデルにわたるスコアリングは、効率的
な動的プログラミング技術(例えばビタビスコアリン
グ)によって与えられる。テストパターン中の特徴の列
の最大生起確率を示すHMMが、そのテストパターンと
同定される。
ングするために使用される技術の効率と密接に対応す
る。例えばHMM音声認識器の従来のトレーニングは、
特定のHMMが既知語サンプルの統計に一致する尤度を
増加させることに関する統計データ当てはめの原理に基
づく。従来のHMMトレーニングの成功は、大量のトレ
ーニング音声サンプルの利用可能性およびHMMの適切
な選択による。
量は制限され、選択されたHMMによる音声生成プロセ
スに対する仮定はしばしば不正確である。その結果、H
MMの尤度ベースのトレーニングはあまり効率的とはい
えない。従来のトレーニング方法の欠点は、トレーニン
グと認識誤り率の間の直接的な関係の欠如による。この
欠点を説明するため、HMMベースの音声認識器につい
てさらに詳細に説明することにする。
続音声波形はフレームへとブロック化され、特徴ベクト
ルの離散列X={x0,x1,...,xT(x)}が抽
出される。ただし、T(x)は、音声信号内のフレーム
の総数に対応する(入力音声発話をその特徴ベクトル列
X={x0,x1,...,xT(x)}と同一視しても
混同は生じない)。
ル列Xは、時刻t=1,...,T(x)のある離散時
間マルコフ連鎖からの結果のノイズのある観測としてモ
デル化される。時間t=1,...,T(x)中のあら
ゆる可能な状態遷移列が、このマルコフ連鎖によって決
定されるトレリスを通るパスを構成する。第i語HMM
の第j状態においてベクトルxを観測する観測確率密度
関数は次式で与えられる。
j,kは重畳ウェイトであり、次式を満たす。
度スコアとなるパスである。
Xの最適パスを表せば、第iモデルλiにおける最適パ
スに沿う入力発話Xの対数尤度スコアgi(X,λi)は
次式のように書くことができる。
は時刻tにおける対応する観測ベクトル、T(X)は入
力発話X内のフレーム数、a↓{θi t-1θi t}は状態θ
i t-1から状態θi tへの状態遷移確率である。(明細書本
文中で、添字が表記しにくい場合、下付き添字は↓{}
の括弧中に、上付き添字は↑{}の括弧中に表記するこ
とにする。)
スの孤立語認識器の認識部分では、入力発話が最初に処
理され、最適パスに沿う各語モデルで入力発話Xの対数
尤度が評価される。認識器は、i=arg maxjgj
(X,λj)である場合に限り、入力発話を第i語Wiに
分類する。第i語に対する認識誤り計数関数を次式のよ
うに定義する。
は、次式の期待誤り率を縮小することである。
レーニング結果はしばしば、与えられたトレーニング音
声サンプルのセット{Xn,n=1,2,...,N}
に対する経験的誤り率(次式)によって測定される。
関数(数7)の直接的最小化はいくつかの重大な欠点を
有する。これは、最適化するのは数値的に困難である。
その理由は、分類誤り計数関数が連続関数であるためで
ある。経験的誤り率関数は、ニアミスとかろうじて正確
な場合を区別しない。これは、独立のテストデータセッ
トに対する認識器性能を劣化させる。ビタビスコアリン
グもまた個々では困難を加える。その理由は、経験的誤
り率関数の形および値は、HMMパラメータによって決
定される分節化とともに変動するためである。現在の分
節化に基づく数値的に最適なHMMパラメータのセット
は、良好な収束結果が証明されない限り、異なる分節化
のもとではその最適性を維持しない。認識誤り率を直接
的に最小化し、ビタビスコアリングを使用するHMM構
成と整合するトレーニング方法を発見することが重要な
問題となっている。
最小化する音声認識のトレーニング方法および装置を実
現する。本発明は、さまざまな音声認識システム(例え
ば、テンプレートベースおよびHMMベースの音声認識
器)に適用可能である。HMM音声認識器に対する本発
明の実施例は、なめらかな損失関数に埋め込まれた誤認
識測度の使用によって認識誤り率を最小化する。
ーニングを有する認識器が発話を誤認識する(すなわ
ち、トレーニングの現在の状態に基づいて誤りを生じ
る)尤度を示す。本実施例では、誤認識測度は、(i)
既知のトレーニング発話に対する正確な参照パターンに
基づくその発話の認識器スコアと、(ii)他の認識器
参照パターンに基づくそのトレーニング発話のスコアの
和の平均、の差を反映する。
合参照パターンスコアリング差分の間の関係を確立す
る。従って、期待される誤りの最小化は、与えられたト
レーニング発話に対して、正確な参照パターンと、他の
競合参照パターンの間のスコアリング差分の最大化に直
接関係することになる。
質的に不連続な関数である)の良好な近似を与えるた
め、ビタビ復号を使用するHMMの順次トレーニング方
法によって、認識性能が向上する。さらに、本発明は、
判断規則をなめらかな関数形で特徴づけるため、数値検
索技術の使用によって、尤度スコアの最適分離を達成
し、「ニアミス」と「かろうじて正確」の場合を効率的
に区別することができる。
線形分節化のトレーニングソースから直接生成された
か、または他の基準に従ってトレーニングされたかにか
かわらず、与えられた認識器のパターンデータベースか
ら初期化される。本実施例は、競合語の間の最大可能分
離をもつ改善された配置を実現するために、HMMパラ
メータの適応調整(または更新)を提供する。これはオ
フラインでもオンラインでも使用可能であり、目的アプ
リケーションにモデルを適用するために新しいトレーニ
ングソースから新しい特徴を学習することもできる。
音声認識器である。本実施例は、トレーニングモードお
よび認識モードの両方で、実際の物理的音声信号(例え
ば、パルス符号変調(PCM)音声)に作用し、識別さ
れた音声を出力する。出力はディジタル形式でも行われ
る。
は、個別の機能ブロック(「プロセッサ」とラベルされ
た機能ブロックを含む)からなるものとして説明する。
これらのブロックが表す機能は、共有または専用ハード
ウェアを使用しても与えられる。ハードウェアには、ソ
フトウェアを実行可能なハードウェアも含まれるが、そ
れに制限されるものではない。(「プロセッサ」という
用語の使用は、ソフトウェアを実行可能なハードウェア
のみを指すものと解釈してはならない。)本実施例の機
能ブロックは、ディジタル信号プロセッサ(DSP)ハ
ードウェア(例えばAT&TのDSP16またはDSP
32C)および後述の動作を実行するソフトウェアから
なるのが望ましい。しかし、とりわけ、超大規模集積
(LSI)ハードウェア実施例、および、ハイブリッド
DSP/VLSI実施例も可能である。
テム1の実施例のブロック図である。このシステムは、
トレーニング音声データベース10、特徴抽出器20、
モードスイッチ15、30、スコアリング比較器40、
スコアプロセッサ50、従来型トレーナ60、HMMパ
ラメータ(パターン)データベース70および高度トレ
ーナ80を有する。
ス10は、ディジタル形式の既知音声信号のサンプルか
らなる。このサンプルは、従来型トレーナ60および高
度トレーナ80のために使用される。データベース10
からの既知音声のサンプルは、モードスイッチ15を介
してシステム1の他の要素に送られる。
の動作モード、すなわち、トレーニング(T)モードお
よび認識(R)モードを反映する。スイッチ15がT位
置(状態)にある場合、データベース10からのトレー
ニング音声がシステム1の他の部分に送られ、トレーニ
ングがトレーニングセクション90によって実行され
る。スイッチ15がR位置にある場合、ディジタル形式
の未知音声発話(信号)が、認識セクション95による
認識のためにシステム1の他の部分に送られる。
イッチ15に結合される。モードスイッチ15の状態に
応じて、抽出器20は、トレーニング音声信号または未
知音声信号のいずれかを受信する。これらの受信音声信
号に基づいて、抽出器20は、受信音声を特徴づける特
徴ベクトルXを発生する。特徴抽出器20は、従来の特
徴抽出器(例えば、フィルタバンク特徴抽出器、線形予
測符号化(LPC)特徴抽出器、または、離散フーリエ
変換(DFT)特徴抽出器)のうちのいずれでもよい。
2のモードスイッチ30に送られる。このモードスイッ
チ30は、モードスイッチ15とタンデムに動作する。
すなわち、両スイッチは、両スイッチ15、30に送ら
れるモード信号に基づいて同時に同一の状態(Tまたは
R)にセットされる。モードスイッチ30は、抽出器2
0の出力を、システム1の認識セクションまたはトレー
ニングセクションのいずれかに送る。
アリング比較器40およびスコアプロセッサ50からな
る。スコアリング比較器40は、トレーニングされたパ
ターン(本実施例の場合、HMMモデル)を未知音声発
話信号に関係づけ、比較の近接度を示すスコアを決定す
る。対数尤度ビタビスコアリングを使用する従来のHM
Mスコアリング比較器が、比較器40として使用可能で
ある。(米国特許第4,783,804号「隠れマルコ
フモデル音声認識装置」(譲受人:AT&T)参照。)
スコアプロセッサ50に送られる。スコアプロセッサ5
0は、送られたスコアのうち最大のものを決定し、その
スコアに対応するHMMを同定する。こうして、未知音
声信号は、同定されたHMMに対応する既知音声として
プロセッサ50によって認識される。プロセッサ50
は、HMMパラメータデータベース70からの出力とし
て、同定された音声の表現を取得する(後述)。
は、従来型HMMトレーナ60、HMMパラメータデー
タベース70および高度トレーナ80からなる。HMM
トレーナ60(例えば、米国特許第4,783,804
号に記載のもの)は、HMMの従来のトレーニングを行
う。トレーナ60の出力は、従来のトレーニングされた
HMM(ΛI)のセット、および、HMMのセットが基
準とするトレーニング音声の特徴ベクトルXからなる。
本発明の実施例の説明では、従来型トレーナ60によっ
てなされるトレーニングの程度は重要でない。実際、従
来型トレーナ60は、HMMパラメータΛIの初期セッ
トを提供するのみでよく、これは読み出し専用メモリか
ら取り出すことも可能である。
によって初期化パラメータとして使用するためにHMM
データベース70に記録される。高度トレーナ80はΛ
IおよびXを受信し、データベース70に高度(更新)
HMM(ΛU)のセットを返す。最終的に、高度モデル
ΛUが、認識モード中にスコアリング比較器40に送ら
れる。スコアリング比較器40が、従来のトレーニング
されたHMM(ΛI)ではなく高度HMM(ΛU)を使用
することによって、音声認識誤り率が縮小される。
を示す。高度トレーナ80は、HMMパラメータデータ
ベース70によって提供されるトレーニング音声のスケ
ジュールに作用する。このスケジュールは、更新された
ΛIであるΛUを生成する際に、トレーナ80によって使
用される個々のトレーニング音声サンプルの数Nを定義
する。Nサンプルのトレーニング音声を処理した結果と
して、高度トレーナ80は、HMMパラメータデータベ
ース70に、更新したHMMパラメータΛUのセットを
返す。続いて、ΛUは、認識モード中に、認識器1の参
照パターンのセットとして、または、同一もしくは追加
トレーニング音声を処理する結果としてさらに更新され
る新ΛIとして使用される。
MM更新プロセッサは、一時に1個のトレーニング音声
サンプルを処理する(すなわち、N=1)ものとして説
明する。後述のわずかな修正(「考察」の節を参照)に
よって、本実施例は、いくつかのトレーニング音声サン
プル(すなわち、N>1)に基づいてΛIを更新するこ
とも可能である。
誤認識測度プロセッサ82、語損失関数プロセッサ8
4、損失関数和プロセッサ86、およびHMM更新プロ
セッサ88からなる。
セッサ82は、HMMパラメータΛIおよびトレーニン
グ音声サンプルXをデータベース70から受信する。サ
ンプルXおよびΛI(λiはΛIの要素)に基づいて、プ
ロセッサ82は誤認識測度di(X,Λ)を次式のよう
に決定する。
話の対数尤度認識器スコア、ηは正数(例えば2)、W
は語の総数である。ηが無限大に近づく極限では、誤認
識測度は次式のようになる。
が考慮される。正確語と他の競合語の間の分離は、誤認
識測度によって測定される。誤認識測度di(X,Λ)
>>0であることは、誤認識が観測されたことを示し、
gi(X,λi)がmax↓{j≠i}gj(X,λj)よ
り非常に小さいことを意味する。さらに、誤認識測度d
i(X,Λ)の符号および絶対値は、ニアミスおよびか
ろうじて正確な場合を意味する。
のプロセッサによって使用されるスカラ値diを決定す
る。これは、与えられたXおよびΛIに対して数8を評
価することによってなされる。しかし、誤認識測度(数
8)の関数関係は、競合語を考慮に入れることによって
(後述の損失関数(数10)に埋め込んだ場合。「HM
M更新プロセッサ」の節を参照)、ΛIのパラメータの
語間調整トレーニングの基礎をも提供する。
セッサ82から出力され、語損失関数プロセッサ84に
入力される。
セッサ84は、スカラ値di(X,Λ)に基づいて、な
めらかな語損失関数liを次式のように評価する。
86への出力としてスカラliを生成する。
り計数関数のなめらかな近似を提供する。損失関数(数
10)の勾配は、HMMパラメータΛIを更新するため
にHMM更新プロセッサ88によって使用される。従っ
て、この特別に設計された損失関数の期待される損失の
最小化は、誤り確率の最小化に直接リンクする。
は、データベース70の音声サンプルを通る与えられた
パス(経路)に対して現在までに決定されたliのすべ
ての値(すなわち、これまでにΛを更新するために使用
されたデータベース70内のすべてのXに基づくすべて
のli)の和Lを次式のように与える。
新プロセッサ88に与えられる。データベース70によ
る完全経路に基づく値Lは、しきい値決定の一部として
HMM更新プロセッサ88によって使用される(後
述)。
タ更新の説明に入る前に、HMM更新プロセッサ88の
動作の背景について説明する。
タ最適化の目標は、期待誤り率の最小化である。誤り率
を損失の1つの形式とみる場合、期待損失を最小化する
一般的問題は次式のように書くことができる。
き語である。
再帰的に調整される。
明参照)、εnは正数列、▽l(Xn,Λn)は、第nト
レーニングサンプルXnにおける、パラメータΛnによる
損失関数l(X,Λ)(数8および数10参照)の勾配
ベクトルである(▽は、ナブラ(グラディエント演算
子)を表す)。
∞かつΣεn 2<∞であれば、期待損失の定常点に収束す
る。期待損失の定常点が稠密でなく、ステップサイズが
十分小さい場合、収束する定常点は期待損失の局所的最
小点である。数列εnは、例えば、(1.0−0.2
R)と選択される。ただし、Rは、R=0から始まる現
在のトレーニング経路の数に等しい整数であり、経路
は、データベース70内のトレーニング音声のすべての
サンプルに基づくトレーニングを表す。本実施例では、
トレーニング経路の最大数は50である。
分布について何の仮定もしていない。従って、不正確な
分布評価によって導入される誤りは除去される。さら
に、本実施例は、観測可能特徴の値(例えば対数尤度ス
コア)によるパラメータを適応的に調整する。対数尤度
スコアの関数に基づく適応化は、ビタビスコアリングを
使用するHMMベースの認識器では有利である。その理
由は、最適パス上の入力発話の厳密な分節化および対数
尤度スコアが正確に計算されるためである。この性質
は、HMMおよび音声信号処理には特に有用である。そ
の理由は、音声信号は、調音、摩擦音、および記録媒体
から導入されるノイズにおける差を含む、広範囲の多様
性を有するためである。
MM更新プロセッサ88によって数14に従い適応的に
調整される。HMMの構造によって、そのパラメータは
ある制約条件を満足しなければならない。HMM更新プ
ロセッサ88は、すべてのこうした制約条件を満足する
ために、パラメータ更新プロセスの一部として、変換さ
れたHMMパラメータを使用する。以下の変換がプロセ
ッサ88によって使用される。
分および特徴ベクトルの第d次元の分散である。
もとの重畳ウェイトci,j,kは、変換された重畳ウェイ
トc ̄i,j,kに次式のように関係づけられる。(本文中
で、 ̄は、バー付き文字を表す。)
ェイトの総数である。
の遷移確率ai,jは、変換された遷移確率と次式のよう
に関係づけられる。
に関する。過去に提案されたいくつかの訂正トレーニン
グアルゴリズムでは、分散調整は回避されている。その
理由は、それが不正確に処理される場合、悪影響がある
ためである。
異なり得る。こうした分散は、観測確率密度関数b
l i(x)の指数部分に生じ、HMMの尤度スコアに対し
て支配的な効果を有する。本実施例では、これはHMM
パラメータ調整(特に、HMMの観測確率密度関数にお
ける平均値パラメータの調整)への異なる感度を生じ
る。
め、本実施例は、正定値行列Unを使用する。正定値行
列Unは、各状態に対して、次式のような対角行列であ
る。
である。
れぞれ項▽lを含む。一般に、▽lは(δl/δb)×
(δb/δΛ)の形をとる(ただし、δは、偏微分の記
号の代用である)。項(δl/δb)=li(1−li)
は、更新間で共通であり、偏微分で表される。項(δb
/δΛ)は、更新される各モデルパラメータに対して個
別に表される。
ック図である。図示したように、HMM更新プロセッサ
88は、ΛI、Xおよびliに基づいて、パラメータμ、
σ2、c、およびaを更新し、更新したΛUをHMMパラ
メータデータベース70に返す。ΛIおよびΛUは、パラ
メータμ、σ2、cおよびaからなり、ΛIおよびΛUは
それぞれ更新されていない量および更新された量を表
す。
るパラメータ更新は以下の通りである。
分であり、θjは最適パスが最初に状態jに入るタイム
フレームに対応し、θj+1は最適パスが最初に状態j+
1に入るタイムフレームに対応し、l(X,Λ)は、数
10に従って構成される損失関数であり、εnはステッ
プサイズであり、
値更新は、図3のブロック88−1によってなされる。
新は、次式に従って実行される。
従って、時刻n+1における分散は次式によって与えら
れる。
>10-6という制約条件を満たす。分散更新は、図3の
ブロック88−2によってなされる。
された重畳ウェイトは次式に従って調整される。
て与えられる。
イトは制約条件Σkci,j ,k(n)=1およびc
i,j,k(n)>0を満たす。重畳ウェイト更新は、図3
のブロック88−3によってなされる。
HMMにおいて、第l語モデルのパラメータ化された遷
移確率は次式によって調整される。
あり、iは最終状態でなく、状態i内での自己遷移の総
数は次式によって表される。
って与えられる。
0およびai,i+1 l>0を満たす。状態遷移確率更新は、
図3のブロック88−5によってなされる。
れる更新の式(数21〜数24)は、第j状態における
第1語の更新された観測確率密度関数に、次式によって
関係づけられる。
i,j,k,Vi,j,k)は、対角共分散行列Vi,j,kを有する
第i語、第j状態および第k重畳のD次元正規ガウス分
布である。ブロック88−1〜88−3から出力される
μ(n+1)、σ2(n+1)、およびc(n+1)の
値は、ブロック88−5によって生成される状態遷移確
率a(n+1)の値とともに、データベース70に返さ
れる。図3に示すように、ΛUは、μ、σ2、cおよびa
の更新された値からなる。
Mパラメータを改善するために、データベース70から
の単一の音声トレーニングサンプルを使用している。し
かし、高度トレーナ80は、HMMパラメータを改善す
るために、複数回反復することも可能である。例えば、
高度トレーナ80は、データベース70内のすべてのト
レーニングサンプルに作用することも可能である。
全データベース70を通るいくつかのパス(経路)に作
用することも可能である。トレーナ80は、いくつかの
方法でサンプルの処理を停止することができる。例え
ば、トレーナ80は、サンプルのデータベース70を通
る一定数の経路を作成した場合に停止する。しかし、ト
レーナ80は、現在の経路のすべての音声トレーニング
サンプルを処理することによる損失における改善増分の
記録を維持することが所望される。本発明の実施例は、
プロセッサ86によって決定されるLの値の、現在の経
路と前経路の差ΔLを形成することによって、損失にお
ける改善増分をテストする。ΔLが所定しきい値(例え
ば0.005)以下である場合、高度トレーナ80によ
る処理は停止する(図3、88−6およびSTOP信号
参照)。
MMベースの認識器への最小量の変更が、本発明の実施
例を実現するために要求されるのみである。
るものであるが、本発明は他の認識器(例えば、スコア
リング方法として動的時間ワーピングを使用するテンプ
レートベースの認識器)にも適用可能である。本発明を
他の型の認識器に適合させるためには、その認識型を反
映するために、数8の関数gで表されるスコアリング方
法を変更しなければならない。この変更は、HMM更新
プロセスにおいて、∇lによっても反映される。
サンプルは逐次的に使用される。HMM更新プロセッサ
88は、現在のサンプルに関して認識器によって提供さ
れる情報を取得し、上記の更新公式に従ってHMMパラ
メータを更新する。プロセッサ88の計算の複雑さは、
各入力発話に対して調整される競合候補モデルの数を決
定する誤認識測度の形に主に依存する。
整可能である。このアプローチの利点は、利用可能なト
レーニング音声の効率的に利用することである。従来の
トレーニング方法では、各語HMMモデルは、特定の語
のみの発話によってトレーニングされる。正確モデルと
他の競合モデルの間の相互関係は利用されない。これ
は、認識器の性能を劣化させる主要因であり、特に、混
同クラスからの語を区別しようとする場合にそうであ
る。
正確なスコアに近いスコアを有する競合候補は少数しか
ない。誤認識測度(数8)は、選択された数の競合候補
のみを含むように構成することができる。ステップサイ
ズεnは一般に与えられたHMMおよび損失関数のパラ
メータに依存する。しかし、トレーニングサンプルにつ
いて期待される損失および誤り率はしばしば適切なステ
ップサイズの良い指示子となる。
は、単一の音声トレーニングサンプルに作用する(すな
わちN=1)。しかし、トレーナは、複数のサンプルに
基づいて、更新されたHMMパラメータΛUのセットを
生成することが可能である。このためには、誤認識測度
プロセッサ82は、音声サンプルのベクトルに作用し、
d値のベクトルを生成する。ただし、各値は与えられた
サンプルに対応する。
トルを受信し、l値のベクトルを生成する。各値は対応
するdの値に基づく。損失関数和86は、上記のしきい
値計算のために、Lを次式のように決定するように作用
する。
あり、lnはプロセッサ84によって生成されるl値の
ベクトルの成分を表す。
にパラメータを更新する。ただし、λ(n)からλ(n
+1)への更新は、(N個のサンプルのうちの)単一の
音声サンプルによって与えられる。しかし、あるサンプ
ルの処理から生じるλ(n+1)が次のサンプルを処理
するためのλ(n)として使用されるように、N個のサ
ンプルがすべて連続して使用される。N個のサンプルに
基づいてΛIを更新する際に、数19、数21、数23
および数25の右辺のΛIの値は一定である。N個のサ
ンプルすべてが処理された後にはじめてΛIがΛUとして
データベースに対して更新される。
関数の唯一の型ではない。他の型の関数(例えば、双曲
正接に基づくもの、すなわち、li(di(X,Λ))=
tanh(γdi(X,Λ)))も適用可能である。
19、数21、数23、ならびに数25によって記述さ
れる反復プロセスは、損失関数の局所的最小を同定す
る。しかし、損失関数の大域的最小を発見するための従
来の技術(例えば、擬似アニーリング)も適用可能であ
る。
プロセスは、オンラインで、ブートストラップで、適応
的に未知データに作用することができる。時刻nにおい
て、認識器パラメータΛnが未知発話Xnを同定するため
に使用され、Λnに基づく判断がXnを語Wkと同定する
と仮定する。この判断は、更新プロセス(数14)が後
で使用するために新しい認識器パラメータΛn+1を生成
することができるように、トレーニングサンプルとして
高度トレーナ80にフィードバックされる。通常モード
(既知データ)とブートストラップモード(未知デー
タ)の差は、語ラベルが生成される方法にある。通常の
場合、語ラベルは従来の方法でもとから既知である。ブ
ートストラップの場合、語ラベルは認識器自体によって
生成される。
句のモデルのトレーニングにも拡張され得る。複数語ト
レーニングの実施例は、各語に対してHMMを定義する
のではなく各句に対して1つのHMMを定義し、サンプ
ル句についてトレーニングすることによって実現され
る。
声認識において、期待される誤りの最小化は、与えられ
たトレーニング発話に対して、正確な参照パターンと、
他の競合参照パターンの間のスコアリング差分の最大化
に直接関係することになる。本実施例の損失関数は、認
識誤り計数(本質的に不連続な関数である)の良好な近
似を与えるため、ビタビ復号を使用するHMMの順次ト
レーニング方法によって、認識性能が向上する。さら
に、本発明は、判断規則をなめらかな関数形で特徴づけ
るため、数値検索技術の使用によって、尤度スコアの最
適分離を達成し、「ニアミス」と「かろうじて正確」の
場合を効率的に区別することができる。
の実施例のブロック図である。
る。
ク図である。
Claims (23)
- 【請求項1】 既知音声信号を受信するステップと、 前記既知音声信号およびその信号に対する現在の参照パ
ターンに基づいて第1認識器スコアリング信号を発生す
るステップと、 前記既知音声信号および他の現在の参照パターンに基づ
いて他の認識器スコアリング信号を発生するステップ
と、 第1および他の認識器スコアリング信号に基づいて誤認
識信号を発生するステップと、 前記誤認識信号および前記既知音声信号に基づいて、未
知音声信号を誤認識する尤度を減少させるために現在の
参照パターンを修正するステップと、 修正された参照パターンをメモリに格納するステップと
からなる、既知音声信号および現在の認識器参照パター
ンのセットに基づいて音声認識器パターンデータベース
を作成する方法。 - 【請求項2】 誤認識信号発生ステップが、 a.第1認識器スコアリング信号と、 b.他の認識器スコアリング信号の平均 の差を形成するステップからなることを特徴とする請求
項1の方法。 - 【請求項3】 第1認識器スコアリング信号が、既知音
声信号がその信号に対する現在の参照パターンに一致す
る程度を反映することを特徴とする請求項1の方法。 - 【請求項4】 他のスコアリング信号が、既知音声信号
がその信号に対する現在の他の参照パターンに一致する
程度を反映することを特徴とする請求項1の方法。 - 【請求項5】 現在の音声参照パターンを修正するステ
ップが、 a.i.既知音声の現在の参照パターンに基づく既知音
声の認識器スコアリングを、 ii.他の現在の参照パターンに基づく既知音声の認識
器スコアリングに関係づける関数の勾配を決定するステ
ップと、 b.その勾配に基づいて、現在の音声参照パターンのパ
ラメータを調整するステップとからなることを特徴とす
る請求項1の方法。 - 【請求項6】 パラメータ調整ステップがさらに現在の
参照パターンパラメータの行列に基づくことを特徴とす
る請求項5の方法。 - 【請求項7】 現在の参照パターンパラメータの行列が
パターンの分散からなることを特徴とする請求項6の方
法。 - 【請求項8】 パラメータ調整ステップが、参照パター
ン制約条件に従うために、参照パターンパラメータの変
換を調整するステップを有することを特徴とする請求項
5の方法。 - 【請求項9】 現在の認識器参照パターンのセットが隠
れマルコフモデルからなることを特徴とする請求項1の
方法。 - 【請求項10】 現在の認識器参照パターンのセットが
テンプレートからなることを特徴とする請求項1の方
法。 - 【請求項11】 現在の認識器参照パターンがパターン
トレーナの出力からなることを特徴とする請求項1の方
法。 - 【請求項12】 現在の認識器参照パターンが修正され
た参照パターンのセットからなることを特徴とする請求
項1の方法。 - 【請求項13】 現在の参照パターンを修正するステッ
プが、修正した参照パターンをメモリに格納する前に、
複数回参照パターンを修正するステップからなり、この
複数の修正はそれぞれ別個の既知音声信号に基づくこと
を特徴とする請求項1の方法。 - 【請求項14】 現在の認識器参照パターンに基づいて
未知音声信号を認識するステップと、 認識した音声信号を、既知音声信号として受信されるよ
うに準備するステップとをさらに有することを特徴とす
る請求項1の方法。 - 【請求項15】 既知音声信号およびその信号に対する
現在の参照パターンに基づいて第1認識器スコアリング
信号を発生する手段と、 第1認識器スコアリング信号発生手段に結合され、前記
既知信号および他の現在の参照パターンに基づいて他の
認識器スコアリング信号を発生する手段と、 前記2つの手段に結合され、第1および他の認識器スコ
アリング信号に基づいて誤認識信号を発生する手段と、 誤認識信号発生手段に結合され、前記既知音声信号を誤
認識する尤度を減少させるために、誤認識信号および前
記既知信号に基づいて、現在の参照パターンを修正する
手段と、 修正手段に結合され、修正された参照パターンを格納す
る手段とからなることを特徴とする、既知音声信号およ
び現在の認識器参照パターンに基づいて音声認識器デー
タベースを形成する音声認識器トレーニング装置。 - 【請求項16】 誤認識信号発生手段が、 a.第1認識器スコアリング信号と、 b.他の認識器スコアリング信号の平均 の差を形成する手段からなることを特徴とする請求項1
5の装置。 - 【請求項17】 現在の音声参照パターンを修正する手
段が、 a.i.既知音声の現在の参照パターンに基づく既知音
声の認識器スコアリングを、 ii.他の現在の参照パターンに基づく既知音声の認識
器スコアリングに関係づける関数の勾配を決定する手段
と、 b.その勾配に基づいて、現在の音声参照パターンのパ
ラメータを調整する手段とからなることを特徴とする請
求項15の装置。 - 【請求項18】 現在の認識器参照パターンのセットが
隠れマルコフモデルからなることを特徴とする請求項1
5の装置。 - 【請求項19】 現在の認識器参照パターンのセットが
テンプレートからなることを特徴とする請求項15の装
置。 - 【請求項20】 現在の認識器参照パターンがパターン
トレーナの出力からなることを特徴とする請求項15の
装置。 - 【請求項21】 現在の認識器参照パターンが修正され
た参照パターンのセットからなることを特徴とする請求
項15の装置。 - 【請求項22】 現在の認識器参照パターンに基づいて
未知音声信号を認識する手段と、 認識した音声信号を、既知音声信号として受信されるよ
うに準備する手段とをさらに有することを特徴とする請
求項15の装置。 - 【請求項23】 a.未知音声信号を受信し、その信号
を表す特徴を同定する特徴抽出器と、 b.現在の参照パターンを格納する第1メモリ手段と、 c.既知音声トレーニングサンプルを格納する第2メモ
リ手段と、 d.特徴抽出器および第1メモリ手段に結合され、現在
の複数の参照パターンのそれぞれに対する比較スコアを
決定するために、これらのパターンを未知音声信号の特
徴と比較するスコアリング比較器と、 e.スコアリング比較器に結合され、最高比較スコアを
選択し、最高スコアに基づいて音声を認識するスコアプ
ロセッサと、 f.第1および第2メモリ手段に結合されたトレーナ
と、からなり、このトレーナが、 i.既知音声信号およびその信号に対する現在の参照パ
ターンに基づいて第1認識器スコアリング信号を発生す
る手段と、 ii.第1認識器スコアリング信号発生手段に結合さ
れ、前記既知信号および他の現在の参照パターンに基づ
いて他の認識器スコアリング信号を発生する手段と、 iii.前記2つの手段に結合され、第1および他の認
識器スコアリング信号に基づいて誤認識信号を発生する
手段と、 iv.誤認識信号発生手段に結合され、前記既知音声信
号を誤認識する尤度を減少させるために、誤認識信号お
よび前記既知信号に基づいて、現在の参照パターンを修
正する手段と、 v.修正手段に結合され、修正された参照パターンを第
1メモリ手段に格納する手段とからなることを特徴とす
る音声認識装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US84648492A | 1992-03-02 | 1992-03-02 | |
US846484 | 1992-03-02 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0612093A true JPH0612093A (ja) | 1994-01-21 |
JP3053711B2 JP3053711B2 (ja) | 2000-06-19 |
Family
ID=25298082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5064823A Expired - Lifetime JP3053711B2 (ja) | 1992-03-02 | 1993-03-02 | 音声認識装置およびそのトレーニング方法ならびに装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5579436A (ja) |
EP (1) | EP0559349B1 (ja) |
JP (1) | JP3053711B2 (ja) |
CA (1) | CA2089903C (ja) |
DE (1) | DE69322894T2 (ja) |
ES (1) | ES2128390T3 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8269161B2 (en) | 2008-12-12 | 2012-09-18 | Baker Hughes Incorporated | Apparatus and method for evaluating downhole fluids |
CN108389576A (zh) * | 2018-01-10 | 2018-08-10 | 苏州思必驰信息科技有限公司 | 压缩后的语音识别模型的优化方法及系统 |
Families Citing this family (239)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU7802194A (en) * | 1993-09-30 | 1995-04-18 | Apple Computer, Inc. | Continuous reference adaptation in a pattern recognition system |
US5864809A (en) * | 1994-10-28 | 1999-01-26 | Mitsubishi Denki Kabushiki Kaisha | Modification of sub-phoneme speech spectral models for lombard speech recognition |
US5742928A (en) * | 1994-10-28 | 1998-04-21 | Mitsubishi Denki Kabushiki Kaisha | Apparatus and method for speech recognition in the presence of unnatural speech effects |
US5832430A (en) * | 1994-12-29 | 1998-11-03 | Lucent Technologies, Inc. | Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification |
US5710864A (en) * | 1994-12-29 | 1998-01-20 | Lucent Technologies Inc. | Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords |
JP2751856B2 (ja) * | 1995-02-03 | 1998-05-18 | 日本電気株式会社 | 木構造を用いたパターン適応化方式 |
IT1279171B1 (it) * | 1995-03-17 | 1997-12-04 | Ist Trentino Di Cultura | Sistema di riconoscimento di parlato continuo |
US5717826A (en) * | 1995-08-11 | 1998-02-10 | Lucent Technologies Inc. | Utterance verification using word based minimum verification error training for recognizing a keyboard string |
JP3092491B2 (ja) * | 1995-08-30 | 2000-09-25 | 日本電気株式会社 | 記述長最小基準を用いたパターン適応化方式 |
US5712957A (en) * | 1995-09-08 | 1998-01-27 | Carnegie Mellon University | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists |
US5855000A (en) * | 1995-09-08 | 1998-12-29 | Carnegie Mellon University | Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input |
JPH0981183A (ja) * | 1995-09-14 | 1997-03-28 | Pioneer Electron Corp | 音声モデルの作成方法およびこれを用いた音声認識装置 |
US5737489A (en) * | 1995-09-15 | 1998-04-07 | Lucent Technologies Inc. | Discriminative utterance verification for connected digits recognition |
US5806029A (en) * | 1995-09-15 | 1998-09-08 | At&T Corp | Signal conditioned minimum error rate training for continuous speech recognition |
US5778342A (en) * | 1996-02-01 | 1998-07-07 | Dspc Israel Ltd. | Pattern recognition system and method |
US6067517A (en) * | 1996-02-02 | 2000-05-23 | International Business Machines Corporation | Transcription of speech data with segments from acoustically dissimilar environments |
US5960395A (en) * | 1996-02-09 | 1999-09-28 | Canon Kabushiki Kaisha | Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming |
US5737487A (en) * | 1996-02-13 | 1998-04-07 | Apple Computer, Inc. | Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition |
KR100422263B1 (ko) * | 1996-02-27 | 2004-07-30 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 음성을자동으로분할하기위한방법및장치 |
US5842161A (en) * | 1996-06-25 | 1998-11-24 | Lucent Technologies Inc. | Telecommunications instrument employing variable criteria speech recognition |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
US6167374A (en) * | 1997-02-13 | 2000-12-26 | Siemens Information And Communication Networks, Inc. | Signal processing method and system utilizing logical speech boundaries |
US6490555B1 (en) | 1997-03-14 | 2002-12-03 | Scansoft, Inc. | Discriminatively trained mixture models in continuous speech recognition |
US6260013B1 (en) | 1997-03-14 | 2001-07-10 | Lernout & Hauspie Speech Products N.V. | Speech recognition system employing discriminatively trained models |
US5930753A (en) * | 1997-03-20 | 1999-07-27 | At&T Corp | Combining frequency warping and spectral shaping in HMM based speech recognition |
US6076057A (en) * | 1997-05-21 | 2000-06-13 | At&T Corp | Unsupervised HMM adaptation based on speech-silence discrimination |
US5960397A (en) * | 1997-05-27 | 1999-09-28 | At&T Corp | System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition |
US6076055A (en) * | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US5913192A (en) * | 1997-08-22 | 1999-06-15 | At&T Corp | Speaker identification with user-selected password phrases |
ATE256330T1 (de) * | 1997-09-12 | 2003-12-15 | Siemens Ag | Verfahren und einrichtung zur spracherkennung von verwirrenden wörtern |
US5924066A (en) * | 1997-09-26 | 1999-07-13 | U S West, Inc. | System and method for classifying a speech signal |
US5946656A (en) * | 1997-11-17 | 1999-08-31 | At & T Corp. | Speech and speaker recognition using factor analysis to model covariance structure of mixture components |
US6178398B1 (en) * | 1997-11-18 | 2001-01-23 | Motorola, Inc. | Method, device and system for noise-tolerant language understanding |
US5983177A (en) * | 1997-12-18 | 1999-11-09 | Nortel Networks Corporation | Method and apparatus for obtaining transcriptions from multiple training utterances |
EP1040442A4 (en) * | 1997-12-24 | 2006-04-12 | Randell L Mills | METHOD AND SYSTEM FOR PATTERN RECOGNITION AND PROCESSING |
US6076058A (en) * | 1998-03-02 | 2000-06-13 | Lucent Technologies Inc. | Linear trajectory models incorporating preprocessing parameters for speech recognition |
US6343267B1 (en) | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
US6263309B1 (en) | 1998-04-30 | 2001-07-17 | Matsushita Electric Industrial Co., Ltd. | Maximum likelihood method for finding an adapted speaker model in eigenvoice space |
EP0953971A1 (en) * | 1998-05-01 | 1999-11-03 | Entropic Cambridge Research Laboratory Ltd. | Speech recognition system and method |
US6076053A (en) * | 1998-05-21 | 2000-06-13 | Lucent Technologies Inc. | Methods and apparatus for discriminative training and adaptation of pronunciation networks |
US6775652B1 (en) * | 1998-06-30 | 2004-08-10 | At&T Corp. | Speech recognition over lossy transmission systems |
US6574596B2 (en) * | 1999-02-08 | 2003-06-03 | Qualcomm Incorporated | Voice recognition rejection scheme |
US6374221B1 (en) * | 1999-06-22 | 2002-04-16 | Lucent Technologies Inc. | Automatic retraining of a speech recognizer while using reliable transcripts |
DE19933323C2 (de) * | 1999-07-16 | 2003-05-22 | Bayerische Motoren Werke Ag | Spracherkennungssystem und Verfahren zur Spracherkennung vorgegebener Sprachmuster, insbesondere zur Sprachsteuerung von Kraftfahrzeugsystemen |
GB9920257D0 (en) * | 1999-08-26 | 1999-10-27 | Canon Kk | Signal processing system |
US6711541B1 (en) | 1999-09-07 | 2004-03-23 | Matsushita Electric Industrial Co., Ltd. | Technique for developing discriminative sound units for speech recognition and allophone modeling |
US6526379B1 (en) | 1999-11-29 | 2003-02-25 | Matsushita Electric Industrial Co., Ltd. | Discriminative clustering methods for automatic speech recognition |
US6571208B1 (en) | 1999-11-29 | 2003-05-27 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training |
DE10008188A1 (de) * | 2000-02-23 | 2000-12-28 | Bayerische Motoren Werke Ag | Verfahren und Vorrichtung zur Sprachsteuerung eines Kraftfahrzeugsystems |
US6895380B2 (en) * | 2000-03-02 | 2005-05-17 | Electro Standards Laboratories | Voice actuation with contextual learning for intelligent machine control |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6587824B1 (en) * | 2000-05-04 | 2003-07-01 | Visteon Global Technologies, Inc. | Selective speaker adaptation for an in-vehicle speech recognition system |
DE10022586A1 (de) * | 2000-05-09 | 2001-11-22 | Siemens Ag | Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems |
US7295979B2 (en) * | 2000-09-29 | 2007-11-13 | International Business Machines Corporation | Language context dependent data labeling |
US6850888B1 (en) * | 2000-10-06 | 2005-02-01 | International Business Machines Corporation | Methods and apparatus for training a pattern recognition system using maximal rank likelihood as an optimization function |
US7437289B2 (en) * | 2001-08-16 | 2008-10-14 | International Business Machines Corporation | Methods and apparatus for the systematic adaptation of classification systems from sparse adaptation data |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
GB2391679B (en) * | 2002-02-04 | 2004-03-24 | Zentian Ltd | Speech recognition circuit using parallel processors |
GB2385698B (en) * | 2002-02-26 | 2005-06-15 | Canon Kk | Speech processing apparatus and method |
US7266497B2 (en) * | 2002-03-29 | 2007-09-04 | At&T Corp. | Automatic segmentation in speech synthesis |
US20030225719A1 (en) * | 2002-05-31 | 2003-12-04 | Lucent Technologies, Inc. | Methods and apparatus for fast and robust model training for object classification |
US7117153B2 (en) * | 2003-02-13 | 2006-10-03 | Microsoft Corporation | Method and apparatus for predicting word error rates from text |
US20050021337A1 (en) * | 2003-07-23 | 2005-01-27 | Tae-Hee Kwon | HMM modification method |
US20050187767A1 (en) * | 2004-02-24 | 2005-08-25 | Godden Kurt S. | Dynamic N-best algorithm to reduce speech recognition errors |
US20060235698A1 (en) * | 2005-04-13 | 2006-10-19 | Cane David A | Apparatus for controlling a home theater system by speech commands |
US20060245641A1 (en) * | 2005-04-29 | 2006-11-02 | Microsoft Corporation | Extracting data from semi-structured information utilizing a discriminative context free grammar |
US7983914B2 (en) * | 2005-08-10 | 2011-07-19 | Nuance Communications, Inc. | Method and system for improved speech recognition by degrading utterance pronunciations |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US7454339B2 (en) * | 2005-12-20 | 2008-11-18 | Panasonic Corporation | Discriminative training for speaker and speech verification |
US8509563B2 (en) | 2006-02-02 | 2013-08-13 | Microsoft Corporation | Generation of documents from images |
US8290170B2 (en) * | 2006-05-01 | 2012-10-16 | Nippon Telegraph And Telephone Corporation | Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics |
US7680663B2 (en) * | 2006-08-21 | 2010-03-16 | Micrsoft Corporation | Using a discretized, higher order representation of hidden dynamic variables for speech recognition |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8301449B2 (en) * | 2006-10-16 | 2012-10-30 | Microsoft Corporation | Minimum classification error training with growth transformation optimization |
US8108205B2 (en) * | 2006-12-01 | 2012-01-31 | Microsoft Corporation | Leveraging back-off grammars for authoring context-free grammars |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8050929B2 (en) * | 2007-08-24 | 2011-11-01 | Robert Bosch Gmbh | Method and system of optimal selection strategy for statistical classifications in dialog systems |
US8024188B2 (en) * | 2007-08-24 | 2011-09-20 | Robert Bosch Gmbh | Method and system of optimal selection strategy for statistical classifications |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8239332B2 (en) | 2007-11-20 | 2012-08-07 | Microsoft Corporation | Constrained line search optimization for discriminative training of HMMS |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
TWI372384B (en) * | 2007-11-21 | 2012-09-11 | Ind Tech Res Inst | Modifying method for speech model and modifying module thereof |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
AU2009206227B2 (en) * | 2008-01-24 | 2013-08-01 | Sra International, Inc. | System and method for variant string matching |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
DE102008046703A1 (de) | 2008-09-11 | 2009-07-23 | Siemens Ag Österreich | Verfahren zum Trainieren und Testen eines Mustererkennungssystems |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
TWI420433B (zh) * | 2009-02-27 | 2013-12-21 | Ind Tech Res Inst | 語音互動系統與方法 |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9280969B2 (en) * | 2009-06-10 | 2016-03-08 | Microsoft Technology Licensing, Llc | Model training for automatic speech recognition from imperfect transcription data |
US9659559B2 (en) * | 2009-06-25 | 2017-05-23 | Adacel Systems, Inc. | Phonetic distance measurement system and related methods |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
KR20110006004A (ko) * | 2009-07-13 | 2011-01-20 | 삼성전자주식회사 | 결합인식단위 최적화 장치 및 그 방법 |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8560318B2 (en) * | 2010-05-14 | 2013-10-15 | Sony Computer Entertainment Inc. | Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
EP4138075A1 (en) | 2013-02-07 | 2023-02-22 | Apple Inc. | Voice trigger for a digital assistant |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10224030B1 (en) * | 2013-03-14 | 2019-03-05 | Amazon Technologies, Inc. | Dynamic gazetteers for personalized entity recognition |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
KR101857648B1 (ko) | 2013-03-15 | 2018-05-15 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
CN112230878A (zh) | 2013-03-15 | 2021-01-15 | 苹果公司 | 对中断进行上下文相关处理 |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
CN103680496B (zh) * | 2013-12-19 | 2016-08-10 | 百度在线网络技术(北京)有限公司 | 基于深层神经网络的声学模型训练方法、主机和系统 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US11475310B1 (en) * | 2016-11-29 | 2022-10-18 | Perceive Corporation | Training network to minimize worst-case error |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN106683680B (zh) * | 2017-03-10 | 2022-03-25 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN108109615A (zh) * | 2017-12-21 | 2018-06-01 | 内蒙古工业大学 | 一种基于dnn的蒙古语声学模型的构造和使用方法 |
US11250840B1 (en) | 2018-04-09 | 2022-02-15 | Perceive Corporation | Machine-trained network detecting context-sensitive wake expressions for a digital assistant |
CN111712874B (zh) * | 2019-10-31 | 2023-07-14 | 支付宝(杭州)信息技术有限公司 | 用于确定声音特性的方法、系统、装置和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63163582A (ja) * | 1986-12-25 | 1988-07-07 | Toshiba Corp | パタ−ン認識装置 |
JPH023600U (ja) * | 1988-06-17 | 1990-01-10 | ||
JPH03200999A (ja) * | 1989-12-28 | 1991-09-02 | Nec Corp | 標準パターン学習方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4618984A (en) * | 1983-06-08 | 1986-10-21 | International Business Machines Corporation | Adaptive automatic discrete utterance recognition |
US4852171A (en) * | 1984-11-09 | 1989-07-25 | Alcatel Usa Corp. | Apparatus and method for speech recognition |
CA1311059C (en) * | 1986-03-25 | 1992-12-01 | Bruce Allen Dautrich | Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words |
US4817156A (en) * | 1987-08-10 | 1989-03-28 | International Business Machines Corporation | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker |
US5315689A (en) * | 1988-05-27 | 1994-05-24 | Kabushiki Kaisha Toshiba | Speech recognition system having word-based and phoneme-based recognition means |
US5280563A (en) * | 1991-12-20 | 1994-01-18 | Kurzweil Applied Intelligence, Inc. | Method of optimizing a composite speech recognition expert |
-
1993
- 1993-02-17 EP EP93301126A patent/EP0559349B1/en not_active Expired - Lifetime
- 1993-02-17 ES ES93301126T patent/ES2128390T3/es not_active Expired - Lifetime
- 1993-02-17 DE DE69322894T patent/DE69322894T2/de not_active Expired - Fee Related
- 1993-02-19 CA CA002089903A patent/CA2089903C/en not_active Expired - Fee Related
- 1993-03-02 JP JP5064823A patent/JP3053711B2/ja not_active Expired - Lifetime
- 1993-03-15 US US08/030,895 patent/US5579436A/en not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63163582A (ja) * | 1986-12-25 | 1988-07-07 | Toshiba Corp | パタ−ン認識装置 |
JPH023600U (ja) * | 1988-06-17 | 1990-01-10 | ||
JPH03200999A (ja) * | 1989-12-28 | 1991-09-02 | Nec Corp | 標準パターン学習方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8269161B2 (en) | 2008-12-12 | 2012-09-18 | Baker Hughes Incorporated | Apparatus and method for evaluating downhole fluids |
CN108389576A (zh) * | 2018-01-10 | 2018-08-10 | 苏州思必驰信息科技有限公司 | 压缩后的语音识别模型的优化方法及系统 |
CN108389576B (zh) * | 2018-01-10 | 2020-09-01 | 苏州思必驰信息科技有限公司 | 压缩后的语音识别模型的优化方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
EP0559349A1 (en) | 1993-09-08 |
CA2089903C (en) | 1998-01-27 |
EP0559349B1 (en) | 1999-01-07 |
ES2128390T3 (es) | 1999-05-16 |
JP3053711B2 (ja) | 2000-06-19 |
DE69322894D1 (de) | 1999-02-18 |
DE69322894T2 (de) | 1999-07-29 |
CA2089903A1 (en) | 1993-09-03 |
US5579436A (en) | 1996-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3053711B2 (ja) | 音声認識装置およびそのトレーニング方法ならびに装置 | |
EP0635820B1 (en) | Minimum error rate training of combined string models | |
EP0763816B1 (en) | Discriminative utterance verification for connected digits recognition | |
US7672847B2 (en) | Discriminative training of hidden Markov models for continuous speech recognition | |
US6260013B1 (en) | Speech recognition system employing discriminatively trained models | |
US7590537B2 (en) | Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition | |
US5625749A (en) | Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation | |
US7617103B2 (en) | Incrementally regulated discriminative margins in MCE training for speech recognition | |
US6490555B1 (en) | Discriminatively trained mixture models in continuous speech recognition | |
US7324941B2 (en) | Method and apparatus for discriminative estimation of parameters in maximum a posteriori (MAP) speaker adaptation condition and voice recognition method and apparatus including these | |
Fissore et al. | Lexical access to large vocabularies for speech recognition | |
US20030023438A1 (en) | Method and system for the training of parameters of a pattern recognition system, each parameter being associated with exactly one realization variant of a pattern from an inventory | |
US5825977A (en) | Word hypothesizer based on reliably detected phoneme similarity regions | |
Solera-Ureña et al. | Svms for automatic speech recognition: a survey | |
US6076058A (en) | Linear trajectory models incorporating preprocessing parameters for speech recognition | |
McDermott et al. | Prototype-based discriminative training for various speech units | |
JP2000075886A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
Sanchis et al. | Improving utterance verification using a smoothed naive bayes model | |
JP2570448B2 (ja) | 標準パターン学習方法 | |
JP3216565B2 (ja) | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 | |
Hashimoto et al. | Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011 | |
Vaněk et al. | Discriminative training of gender-dependent acoustic models | |
Homma et al. | Iterative unsupervised speaker adaptation for batch dictation | |
JPH05134695A (ja) | 音声認識方法および装置 | |
Kwon | On Improving Acoustic Modeling in Speech Recognition based on Continuous Density HMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080407 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090407 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090407 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100407 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110407 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120407 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120407 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130407 Year of fee payment: 13 |
|
EXPY | Cancellation because of completion of term |