JPH0612093A - 音声認識装置およびそのトレーニング方法ならびに装置 - Google Patents

音声認識装置およびそのトレーニング方法ならびに装置

Info

Publication number
JPH0612093A
JPH0612093A JP5064823A JP6482393A JPH0612093A JP H0612093 A JPH0612093 A JP H0612093A JP 5064823 A JP5064823 A JP 5064823A JP 6482393 A JP6482393 A JP 6482393A JP H0612093 A JPH0612093 A JP H0612093A
Authority
JP
Japan
Prior art keywords
signal
recognizer
reference pattern
current
scoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5064823A
Other languages
English (en)
Other versions
JP3053711B2 (ja
Inventor
Wu Chou
チョウ ウー
Biing-Hwang Juang
ジュアン ビイン−ホワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc filed Critical American Telephone and Telegraph Co Inc
Publication of JPH0612093A publication Critical patent/JPH0612093A/ja
Application granted granted Critical
Publication of JP3053711B2 publication Critical patent/JP3053711B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 ビタビスコアリングを使用する隠れマルコフ
モデル(HMM)に基づく音声認識器のようなパターン
ベースの音声認識に対して、新しいトレーニング方法お
よび装置を実現する。 【構成】 既知音声信号を受信し、この信号およびこの
信号に対する現在の複数の参照パターンに基づいて複数
の認識器スコアリング信号を発生し、これらのスコアリ
ング信号に基づいて誤認識信号を発生する。誤認識信号
および受信した既知音声信号に基づいて、未知音声信号
を誤認識する尤度を減少させるために現在の参照パター
ンを修正し、修正した参照パターンをメモリに格納す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、一般に音声認識の分野
に関し、特に、音声認識器トレーニングの分野に関す
る。
【0002】
【従来の技術】音声認識は、未知の音声発話(通常、デ
ィジタルPCM信号の形式)が識別されるプロセスであ
る。一般に、音声認識は、未知発話の特徴を既知の語ま
たは句の特徴と比較することによって実行される。
【0003】既知語句の特徴は、トレーニングとして知
られるプロセスで決定される。トレーニングによって、
既知語句のサンプル(トレーニング音声)が検査され、
その特徴(または特性)が、音声認識器のデータベース
内の参照パターンとして記録される。一般的に、各参照
パターンは単一の既知語を表す。
【0004】未知発話を認識するために、音声認識器
は、その発話を特徴づけるためにその発話から特徴を抽
出する。未知発話の特徴をテストパターンという。次
に、認識器は、データベース内の参照パターンの組合せ
を、未知発話のテストパターンと比較する。参照パター
ンの各組合わせがテストパターンと一致する度合いの相
対的な測度を与えるために、スコアリング技術が使用さ
れる。未知発話は、その未知発話と最も良く一致する参
照パターンの組合せに対応する語として認識される。
【0005】多くの種類の音声認識器が存在する。例え
ば、テンプレートベース認識器および隠れマルコフモデ
ル(HMM)認識器がある。テンプレートベース認識器
は、参照パターンを構築するために既知語サンプルに基
づく1次統計量(例えば、サンプルのスペクトル平均)
を使用してトレーニングされる。一般的に、スコアリン
グは、時間登録技術(例えば動的時間ワーピング(DT
W))によって実現される。DTWは、参照パターンと
テストパターンの間の最適時間整合を与える。
【0006】この整合は、一方のパターンが他方のパタ
ーンに最適に一致するまで、一方のパターンの時間軸を
局所的に伸縮することによってなされる。DTWスコア
リングは、2つの最適に整合された参照パターンおよび
テストパターンの間の全体の距離を反映する。最低スコ
アを有する参照パターン(すなわち、その参照パターン
とテストパターンの間の距離が最短)が、テストパター
ンと同定される。
【0007】HMM認識器は、既知語サンプルの1次お
よび2次統計量(すなわち、スペクトル平均および分
散)を使用してトレーニングされる。HMM認識器の各
参照パターンは、これらの統計量を反映するN状態統計
モデル(HMM)である。HMMの各状態はある意味で
既知語のサンプルの時間的事象に付随する統計量に対応
する。HMMは、状態遷移行列A(旧状態から新状態に
到達する方法の統計的記述を与える)および観測確率行
列B(与えられた状態において観測されやすいスペクト
ル特徴の記述を与える)によって特徴づけられる。テス
トパターンのスコアリングは、特定のモデルが与えられ
た場合のテストパターンの特徴の列の生起の確率を反映
する。すべてのモデルにわたるスコアリングは、効率的
な動的プログラミング技術(例えばビタビスコアリン
グ)によって与えられる。テストパターン中の特徴の列
の最大生起確率を示すHMMが、そのテストパターンと
同定される。
【0008】音声認識器の性能は一般にそれをトレーニ
ングするために使用される技術の効率と密接に対応す
る。例えばHMM音声認識器の従来のトレーニングは、
特定のHMMが既知語サンプルの統計に一致する尤度を
増加させることに関する統計データ当てはめの原理に基
づく。従来のHMMトレーニングの成功は、大量のトレ
ーニング音声サンプルの利用可能性およびHMMの適切
な選択による。
【0009】しばしば、利用可能なトレーニング音声の
量は制限され、選択されたHMMによる音声生成プロセ
スに対する仮定はしばしば不正確である。その結果、H
MMの尤度ベースのトレーニングはあまり効率的とはい
えない。従来のトレーニング方法の欠点は、トレーニン
グと認識誤り率の間の直接的な関係の欠如による。この
欠点を説明するため、HMMベースの音声認識器につい
てさらに詳細に説明することにする。
【0010】従来のHMMベースの音声認識器では、連
続音声波形はフレームへとブロック化され、特徴ベクト
ルの離散列X={x0,x1,...,xT(x)}が抽
出される。ただし、T(x)は、音声信号内のフレーム
の総数に対応する(入力音声発話をその特徴ベクトル列
X={x0,x1,...,xT(x)}と同一視しても
混同は生じない)。
【0011】HMMの枠組みでは、入力音声特徴ベクト
ル列Xは、時刻t=1,...,T(x)のある離散時
間マルコフ連鎖からの結果のノイズのある観測としてモ
デル化される。時間t=1,...,T(x)中のあら
ゆる可能な状態遷移列が、このマルコフ連鎖によって決
定されるトレリスを通るパスを構成する。第i語HMM
の第j状態においてベクトルxを観測する観測確率密度
関数は次式で与えられる。
【0012】
【数1】 これは、ガウス分布の重ね合わせである。ただし、ci
j,kは重畳ウェイトであり、次式を満たす。
【数2】 ビタビスコアリングのもとでの最適パスは、最大対数尤
度スコアとなるパスである。
【0013】Θiで、第i語HMMλiにおける入力発話
Xの最適パスを表せば、第iモデルλiにおける最適パ
スに沿う入力発話Xの対数尤度スコアgi(X,λi)は
次式のように書くことができる。
【数3】 ただし、θi tは最適パスθiに沿う対応する状態列、xt
は時刻tにおける対応する観測ベクトル、T(X)は入
力発話X内のフレーム数、a↓{θi t-1θi t}は状態θ
i t-1から状態θi tへの状態遷移確率である。(明細書本
文中で、添字が表記しにくい場合、下付き添字は↓{}
の括弧中に、上付き添字は↑{}の括弧中に表記するこ
とにする。)
【0014】ビタビスコアリングを使用するHMMベー
スの孤立語認識器の認識部分では、入力発話が最初に処
理され、最適パスに沿う各語モデルで入力発話Xの対数
尤度が評価される。認識器は、i=arg maxjj
(X,λj)である場合に限り、入力発話を第i語Wi
分類する。第i語に対する認識誤り計数関数を次式のよ
うに定義する。
【数5】
【0015】この場合、HMMのトレーニングの目標
は、次式の期待誤り率を縮小することである。
【数6】 ただし、期待値はXに関するものである。実際には、ト
レーニング結果はしばしば、与えられたトレーニング音
声サンプルのセット{Xn,n=1,2,...,N}
に対する経験的誤り率(次式)によって測定される。
【数7】
【0016】
【発明が解決しようとする課題】しかし、経験的誤り率
関数(数7)の直接的最小化はいくつかの重大な欠点を
有する。これは、最適化するのは数値的に困難である。
その理由は、分類誤り計数関数が連続関数であるためで
ある。経験的誤り率関数は、ニアミスとかろうじて正確
な場合を区別しない。これは、独立のテストデータセッ
トに対する認識器性能を劣化させる。ビタビスコアリン
グもまた個々では困難を加える。その理由は、経験的誤
り率関数の形および値は、HMMパラメータによって決
定される分節化とともに変動するためである。現在の分
節化に基づく数値的に最適なHMMパラメータのセット
は、良好な収束結果が証明されない限り、異なる分節化
のもとではその最適性を維持しない。認識誤り率を直接
的に最小化し、ビタビスコアリングを使用するHMM構
成と整合するトレーニング方法を発見することが重要な
問題となっている。
【0017】
【課題を解決するための手段】本発明は、認識誤り率を
最小化する音声認識のトレーニング方法および装置を実
現する。本発明は、さまざまな音声認識システム(例え
ば、テンプレートベースおよびHMMベースの音声認識
器)に適用可能である。HMM音声認識器に対する本発
明の実施例は、なめらかな損失関数に埋め込まれた誤認
識測度の使用によって認識誤り率を最小化する。
【0018】本実施例の誤認識測度は、与えられたトレ
ーニングを有する認識器が発話を誤認識する(すなわ
ち、トレーニングの現在の状態に基づいて誤りを生じ
る)尤度を示す。本実施例では、誤認識測度は、(i)
既知のトレーニング発話に対する正確な参照パターンに
基づくその発話の認識器スコアと、(ii)他の認識器
参照パターンに基づくそのトレーニング発話のスコアの
和の平均、の差を反映する。
【0019】損失関数は、期待される認識器誤りと、競
合参照パターンスコアリング差分の間の関係を確立す
る。従って、期待される誤りの最小化は、与えられたト
レーニング発話に対して、正確な参照パターンと、他の
競合参照パターンの間のスコアリング差分の最大化に直
接関係することになる。
【0020】本実施例の損失関数は、認識誤り計数(本
質的に不連続な関数である)の良好な近似を与えるた
め、ビタビ復号を使用するHMMの順次トレーニング方
法によって、認識性能が向上する。さらに、本発明は、
判断規則をなめらかな関数形で特徴づけるため、数値検
索技術の使用によって、尤度スコアの最適分離を達成
し、「ニアミス」と「かろうじて正確」の場合を効率的
に区別することができる。
【0021】本発明の実施例は、認識器が、(非最適)
線形分節化のトレーニングソースから直接生成された
か、または他の基準に従ってトレーニングされたかにか
かわらず、与えられた認識器のパターンデータベースか
ら初期化される。本実施例は、競合語の間の最大可能分
離をもつ改善された配置を実現するために、HMMパラ
メータの適応調整(または更新)を提供する。これはオ
フラインでもオンラインでも使用可能であり、目的アプ
リケーションにモデルを適用するために新しいトレーニ
ングソースから新しい特徴を学習することもできる。
【0022】
【実施例】本発明の実施例は、高度トレーナを使用した
音声認識器である。本実施例は、トレーニングモードお
よび認識モードの両方で、実際の物理的音声信号(例え
ば、パルス符号変調(PCM)音声)に作用し、識別さ
れた音声を出力する。出力はディジタル形式でも行われ
る。
【0023】説明を明確にするため、本発明の実施例
は、個別の機能ブロック(「プロセッサ」とラベルされ
た機能ブロックを含む)からなるものとして説明する。
これらのブロックが表す機能は、共有または専用ハード
ウェアを使用しても与えられる。ハードウェアには、ソ
フトウェアを実行可能なハードウェアも含まれるが、そ
れに制限されるものではない。(「プロセッサ」という
用語の使用は、ソフトウェアを実行可能なハードウェア
のみを指すものと解釈してはならない。)本実施例の機
能ブロックは、ディジタル信号プロセッサ(DSP)ハ
ードウェア(例えばAT&TのDSP16またはDSP
32C)および後述の動作を実行するソフトウェアから
なるのが望ましい。しかし、とりわけ、超大規模集積
(LSI)ハードウェア実施例、および、ハイブリッド
DSP/VLSI実施例も可能である。
【0024】図1は、本発明によるHMM音声認識シス
テム1の実施例のブロック図である。このシステムは、
トレーニング音声データベース10、特徴抽出器20、
モードスイッチ15、30、スコアリング比較器40、
スコアプロセッサ50、従来型トレーナ60、HMMパ
ラメータ(パターン)データベース70および高度トレ
ーナ80を有する。
【0025】システム1のトレーニング音声データベー
ス10は、ディジタル形式の既知音声信号のサンプルか
らなる。このサンプルは、従来型トレーナ60および高
度トレーナ80のために使用される。データベース10
からの既知音声のサンプルは、モードスイッチ15を介
してシステム1の他の要素に送られる。
【0026】モードスイッチ15は、システム1の2つ
の動作モード、すなわち、トレーニング(T)モードお
よび認識(R)モードを反映する。スイッチ15がT位
置(状態)にある場合、データベース10からのトレー
ニング音声がシステム1の他の部分に送られ、トレーニ
ングがトレーニングセクション90によって実行され
る。スイッチ15がR位置にある場合、ディジタル形式
の未知音声発話(信号)が、認識セクション95による
認識のためにシステム1の他の部分に送られる。
【0027】システム1の特徴抽出器20は、モードス
イッチ15に結合される。モードスイッチ15の状態に
応じて、抽出器20は、トレーニング音声信号または未
知音声信号のいずれかを受信する。これらの受信音声信
号に基づいて、抽出器20は、受信音声を特徴づける特
徴ベクトルXを発生する。特徴抽出器20は、従来の特
徴抽出器(例えば、フィルタバンク特徴抽出器、線形予
測符号化(LPC)特徴抽出器、または、離散フーリエ
変換(DFT)特徴抽出器)のうちのいずれでもよい。
【0028】抽出器20からの特徴ベクトル出力は、第
2のモードスイッチ30に送られる。このモードスイッ
チ30は、モードスイッチ15とタンデムに動作する。
すなわち、両スイッチは、両スイッチ15、30に送ら
れるモード信号に基づいて同時に同一の状態(Tまたは
R)にセットされる。モードスイッチ30は、抽出器2
0の出力を、システム1の認識セクションまたはトレー
ニングセクションのいずれかに送る。
【0029】システム1の認識セクション95は、スコ
アリング比較器40およびスコアプロセッサ50からな
る。スコアリング比較器40は、トレーニングされたパ
ターン(本実施例の場合、HMMモデル)を未知音声発
話信号に関係づけ、比較の近接度を示すスコアを決定す
る。対数尤度ビタビスコアリングを使用する従来のHM
Mスコアリング比較器が、比較器40として使用可能で
ある。(米国特許第4,783,804号「隠れマルコ
フモデル音声認識装置」(譲受人:AT&T)参照。)
【0030】比較器40によって発生されたスコアは、
スコアプロセッサ50に送られる。スコアプロセッサ5
0は、送られたスコアのうち最大のものを決定し、その
スコアに対応するHMMを同定する。こうして、未知音
声信号は、同定されたHMMに対応する既知音声として
プロセッサ50によって認識される。プロセッサ50
は、HMMパラメータデータベース70からの出力とし
て、同定された音声の表現を取得する(後述)。
【0031】システム1のトレーニングセクション90
は、従来型HMMトレーナ60、HMMパラメータデー
タベース70および高度トレーナ80からなる。HMM
トレーナ60(例えば、米国特許第4,783,804
号に記載のもの)は、HMMの従来のトレーニングを行
う。トレーナ60の出力は、従来のトレーニングされた
HMM(ΛI)のセット、および、HMMのセットが基
準とするトレーニング音声の特徴ベクトルXからなる。
本発明の実施例の説明では、従来型トレーナ60によっ
てなされるトレーニングの程度は重要でない。実際、従
来型トレーナ60は、HMMパラメータΛIの初期セッ
トを提供するのみでよく、これは読み出し専用メモリか
ら取り出すことも可能である。
【0032】トレーナ60の出力は、高度トレーナ80
によって初期化パラメータとして使用するためにHMM
データベース70に記録される。高度トレーナ80はΛ
IおよびXを受信し、データベース70に高度(更新)
HMM(ΛU)のセットを返す。最終的に、高度モデル
ΛUが、認識モード中にスコアリング比較器40に送ら
れる。スコアリング比較器40が、従来のトレーニング
されたHMM(ΛI)ではなく高度HMM(ΛU)を使用
することによって、音声認識誤り率が縮小される。
【0033】図2に、図1の高度トレーナ80の実施例
を示す。高度トレーナ80は、HMMパラメータデータ
ベース70によって提供されるトレーニング音声のスケ
ジュールに作用する。このスケジュールは、更新された
ΛIであるΛUを生成する際に、トレーナ80によって使
用される個々のトレーニング音声サンプルの数Nを定義
する。Nサンプルのトレーニング音声を処理した結果と
して、高度トレーナ80は、HMMパラメータデータベ
ース70に、更新したHMMパラメータΛUのセットを
返す。続いて、ΛUは、認識モード中に、認識器1の参
照パターンのセットとして、または、同一もしくは追加
トレーニング音声を処理する結果としてさらに更新され
る新ΛIとして使用される。
【0034】説明を明確にし計算を簡単にするため、H
MM更新プロセッサは、一時に1個のトレーニング音声
サンプルを処理する(すなわち、N=1)ものとして説
明する。後述のわずかな修正(「考察」の節を参照)に
よって、本実施例は、いくつかのトレーニング音声サン
プル(すなわち、N>1)に基づいてΛIを更新するこ
とも可能である。
【0035】図2を参照すると、高度トレーナ80は、
誤認識測度プロセッサ82、語損失関数プロセッサ8
4、損失関数和プロセッサ86、およびHMM更新プロ
セッサ88からなる。
【0036】[誤認識測度プロセッサ]誤認識測度プロ
セッサ82は、HMMパラメータΛIおよびトレーニン
グ音声サンプルXをデータベース70から受信する。サ
ンプルXおよびΛI(λiはΛIの要素)に基づいて、プ
ロセッサ82は誤認識測度di(X,Λ)を次式のよう
に決定する。
【0037】
【数8】 ただし、gj(X,λj)は第j語モデルにおける入力発
話の対数尤度認識器スコア、ηは正数(例えば2)、W
は語の総数である。ηが無限大に近づく極限では、誤認
識測度は次式のようになる。
【数9】
【0038】この場合、正確で最も混同しやすい語のみ
が考慮される。正確語と他の競合語の間の分離は、誤認
識測度によって測定される。誤認識測度di(X,Λ)
>>0であることは、誤認識が観測されたことを示し、
i(X,λi)がmax↓{j≠i}gj(X,λj)よ
り非常に小さいことを意味する。さらに、誤認識測度d
i(X,Λ)の符号および絶対値は、ニアミスおよびか
ろうじて正確な場合を意味する。
【0039】誤認識測度プロセッサ82は、図2の後続
のプロセッサによって使用されるスカラ値diを決定す
る。これは、与えられたXおよびΛIに対して数8を評
価することによってなされる。しかし、誤認識測度(数
8)の関数関係は、競合語を考慮に入れることによって
(後述の損失関数(数10)に埋め込んだ場合。「HM
M更新プロセッサ」の節を参照)、ΛIのパラメータの
語間調整トレーニングの基礎をも提供する。
【0040】スカラdi(X,Λ)は、誤認識測度プロ
セッサ82から出力され、語損失関数プロセッサ84に
入力される。
【0041】[語損失関数プロセッサ]語損失関数プロ
セッサ84は、スカラ値di(X,Λ)に基づいて、な
めらかな語損失関数liを次式のように評価する。
【数10】 ただし、γは例えば1である。
【0042】プロセッサ84は、損失関数和プロセッサ
86への出力としてスカラliを生成する。
【0043】パラメータγおよびη(前述)は、分類誤
り計数関数のなめらかな近似を提供する。損失関数(数
10)の勾配は、HMMパラメータΛIを更新するため
にHMM更新プロセッサ88によって使用される。従っ
て、この特別に設計された損失関数の期待される損失の
最小化は、誤り確率の最小化に直接リンクする。
【0044】[損失関数和]損失関数和プロセッサ86
は、データベース70の音声サンプルを通る与えられた
パス(経路)に対して現在までに決定されたliのすべ
ての値(すなわち、これまでにΛを更新するために使用
されたデータベース70内のすべてのXに基づくすべて
のli)の和Lを次式のように与える。
【数11】 iおよびLの値は、プロセッサ86によってHMM更
新プロセッサ88に与えられる。データベース70によ
る完全経路に基づく値Lは、しきい値決定の一部として
HMM更新プロセッサ88によって使用される(後
述)。
【0045】[HMM更新プロセッサ]HMMパラメー
タ更新の説明に入る前に、HMM更新プロセッサ88の
動作の背景について説明する。
【0046】前述のように、音声認識におけるパラメー
タ最適化の目標は、期待誤り率の最小化である。誤り率
を損失の1つの形式とみる場合、期待損失を最小化する
一般的問題は次式のように書くことができる。
【数12】
【数13】 ただし、Wは異なる語の数であり、Wkは認識されるべ
き語である。
【0047】HMMモデルパラメータΛは次式のように
再帰的に調整される。
【数14】 ただし、Unは正定値行列(後述の数18およびその説
明参照)、εnは正数列、▽l(Xn,Λn)は、第nト
レーニングサンプルXnにおける、パラメータΛnによる
損失関数l(X,Λ)(数8および数10参照)の勾配
ベクトルである(▽は、ナブラ(グラディエント演算
子)を表す)。
【0048】数14によって表される数列は、Σεn
∞かつΣεn 2<∞であれば、期待損失の定常点に収束す
る。期待損失の定常点が稠密でなく、ステップサイズが
十分小さい場合、収束する定常点は期待損失の局所的最
小点である。数列εnは、例えば、(1.0−0.2
R)と選択される。ただし、Rは、R=0から始まる現
在のトレーニング経路の数に等しい整数であり、経路
は、データベース70内のトレーニング音声のすべての
サンプルに基づくトレーニングを表す。本実施例では、
トレーニング経路の最大数は50である。
【0049】本発明の実施例は、期待損失に関する確率
分布について何の仮定もしていない。従って、不正確な
分布評価によって導入される誤りは除去される。さら
に、本実施例は、観測可能特徴の値(例えば対数尤度ス
コア)によるパラメータを適応的に調整する。対数尤度
スコアの関数に基づく適応化は、ビタビスコアリングを
使用するHMMベースの認識器では有利である。その理
由は、最適パス上の入力発話の厳密な分節化および対数
尤度スコアが正確に計算されるためである。この性質
は、HMMおよび音声信号処理には特に有用である。そ
の理由は、音声信号は、調音、摩擦音、および記録媒体
から導入されるノイズにおける差を含む、広範囲の多様
性を有するためである。
【0050】図2の実施例では、HMMパラメータはH
MM更新プロセッサ88によって数14に従い適応的に
調整される。HMMの構造によって、そのパラメータは
ある制約条件を満足しなければならない。HMM更新プ
ロセッサ88は、すべてのこうした制約条件を満足する
ために、パラメータ更新プロセスの一部として、変換さ
れたHMMパラメータを使用する。以下の変換がプロセ
ッサ88によって使用される。
【0051】[(1)分散の対数]
【数15】 ただし、σi,j,k,d 2は、第i語、第j状態、第k重畳成
分および特徴ベクトルの第d次元の分散である。
【0052】[(2)重畳ウェイトの変換された対数]
もとの重畳ウェイトci,j,kは、変換された重畳ウェイ
トc ̄i,j,kに次式のように関係づけられる。(本文中
で、 ̄は、バー付き文字を表す。)
【数16】 ただし、Lは、第i語モデルにおける第j状態の重畳ウ
ェイトの総数である。
【0053】[(3)遷移確率の変換された対数]もと
の遷移確率ai,jは、変換された遷移確率と次式のよう
に関係づけられる。
【数17】 ただし、Mは、第1語モデル中の状態の総数である。
【0054】本実施例の重要な点は、小さい分散の処理
に関する。過去に提案されたいくつかの訂正トレーニン
グアルゴリズムでは、分散調整は回避されている。その
理由は、それが不正確に処理される場合、悪影響がある
ためである。
【0055】HMMにおける分散は、104〜106倍も
異なり得る。こうした分散は、観測確率密度関数b
l i(x)の指数部分に生じ、HMMの尤度スコアに対し
て支配的な効果を有する。本実施例では、これはHMM
パラメータ調整(特に、HMMの観測確率密度関数にお
ける平均値パラメータの調整)への異なる感度を生じ
る。
【0056】感度におけるこの大きな差を補償するた
め、本実施例は、正定値行列Unを使用する。正定値行
列Unは、各状態に対して、次式のような対角行列であ
る。
【数18】 ただし、σ2(n)は時刻nにおけるHMM ΛIの分散
である。
【0057】更新の式は、前記(数14)のように、そ
れぞれ項▽lを含む。一般に、▽lは(δl/δb)×
(δb/δΛ)の形をとる(ただし、δは、偏微分の記
号の代用である)。項(δl/δb)=li(1−li
は、更新間で共通であり、偏微分で表される。項(δb
/δΛ)は、更新される各モデルパラメータに対して個
別に表される。
【0058】図3は、HMM更新プロセッサ88のブロ
ック図である。図示したように、HMM更新プロセッサ
88は、ΛI、Xおよびliに基づいて、パラメータμ、
σ2、c、およびaを更新し、更新したΛUをHMMパラ
メータデータベース70に返す。ΛIおよびΛUは、パラ
メータμ、σ2、cおよびaからなり、ΛIおよびΛU
それぞれ更新されていない量および更新された量を表
す。
【0059】HMM更新プロセッサ88によってなされ
るパラメータ更新は以下の通りである。
【0060】[(1)平均値更新]
【数19】 ただし、xnn(d)は、特徴ベクトルxnnの第d次元成
分であり、θjは最適パスが最初に状態jに入るタイム
フレームに対応し、θj+1は最適パスが最初に状態j+
1に入るタイムフレームに対応し、l(X,Λ)は、数
10に従って構成される損失関数であり、εnはステッ
プサイズであり、
【数20】 である。ただし、Dは特徴ベクトルの次元である。平均
値更新は、図3のブロック88−1によってなされる。
【0061】[(2)分散更新]σ ̄2=logσ2の更
新は、次式に従って実行される。
【数21】 ただし、γi,j,k(xnn)は数20に定義されている。
従って、時刻n+1における分散は次式によって与えら
れる。
【数22】 分散は、10-6以下で切り捨てられ、σi,j,k,d 2(n)
>10-6という制約条件を満たす。分散更新は、図3の
ブロック88−2によってなされる。
【0062】[(3)重畳ウェイト更新]パラメータ化
された重畳ウェイトは次式に従って調整される。
【数23】 従って、時刻n+1における重畳ウェイトは次式によっ
て与えられる。
【数24】 従って、トレーニングプロセス中、調整された重畳ウェ
イトは制約条件Σki,j ,k(n)=1およびc
i,j,k(n)>0を満たす。重畳ウェイト更新は、図3
のブロック88−3によってなされる。
【0063】[(4)状態遷移確率更新]左から右への
HMMにおいて、第l語モデルのパラメータ化された遷
移確率は次式によって調整される。
【数25】 ただし、glは第l語モデルにおけるXの尤度スコアで
あり、iは最終状態でなく、状態i内での自己遷移の総
数は次式によって表される。
【0064】
【数26】 その結果、時刻(n+1)における遷移確率は次式によ
って与えられる。
【数27】 これもまた、制約条件Σji,j l(n)=1,ai,i l
0およびai,i+1 l>0を満たす。状態遷移確率更新は、
図3のブロック88−5によってなされる。
【0065】HMM更新プロセッサ88によって計算さ
れる更新の式(数21〜数24)は、第j状態における
第1語の更新された観測確率密度関数に、次式によって
関係づけられる。
【数28】 ただし、ci,j,kは重畳ウェイトであり、N(x,μ
i,j,k,Vi,j,k)は、対角共分散行列Vi,j,kを有する
第i語、第j状態および第k重畳のD次元正規ガウス分
布である。ブロック88−1〜88−3から出力される
μ(n+1)、σ2(n+1)、およびc(n+1)の
値は、ブロック88−5によって生成される状態遷移確
率a(n+1)の値とともに、データベース70に返さ
れる。図3に示すように、ΛUは、μ、σ2、cおよびa
の更新された値からなる。
【0066】上記のHMMパラメータ更新の式は、HM
Mパラメータを改善するために、データベース70から
の単一の音声トレーニングサンプルを使用している。し
かし、高度トレーナ80は、HMMパラメータを改善す
るために、複数回反復することも可能である。例えば、
高度トレーナ80は、データベース70内のすべてのト
レーニングサンプルに作用することも可能である。
【0067】しかし、必要であれば、トレーナ80は、
全データベース70を通るいくつかのパス(経路)に作
用することも可能である。トレーナ80は、いくつかの
方法でサンプルの処理を停止することができる。例え
ば、トレーナ80は、サンプルのデータベース70を通
る一定数の経路を作成した場合に停止する。しかし、ト
レーナ80は、現在の経路のすべての音声トレーニング
サンプルを処理することによる損失における改善増分の
記録を維持することが所望される。本発明の実施例は、
プロセッサ86によって決定されるLの値の、現在の経
路と前経路の差ΔLを形成することによって、損失にお
ける改善増分をテストする。ΔLが所定しきい値(例え
ば0.005)以下である場合、高度トレーナ80によ
る処理は停止する(図3、88−6およびSTOP信号
参照)。
【0068】[考察]図1から分かるように、従来のH
MMベースの認識器への最小量の変更が、本発明の実施
例を実現するために要求されるのみである。
【0069】本発明の実施例は特にHMM認識器に関す
るものであるが、本発明は他の認識器(例えば、スコア
リング方法として動的時間ワーピングを使用するテンプ
レートベースの認識器)にも適用可能である。本発明を
他の型の認識器に適合させるためには、その認識型を反
映するために、数8の関数gで表されるスコアリング方
法を変更しなければならない。この変更は、HMM更新
プロセスにおいて、∇lによっても反映される。
【0070】上記の実施例では、トレーニング音声の各
サンプルは逐次的に使用される。HMM更新プロセッサ
88は、現在のサンプルに関して認識器によって提供さ
れる情報を取得し、上記の更新公式に従ってHMMパラ
メータを更新する。プロセッサ88の計算の複雑さは、
各入力発話に対して調整される競合候補モデルの数を決
定する誤認識測度の形に主に依存する。
【0071】本実施例では、すべての競合語HMMが調
整可能である。このアプローチの利点は、利用可能なト
レーニング音声の効率的に利用することである。従来の
トレーニング方法では、各語HMMモデルは、特定の語
のみの発話によってトレーニングされる。正確モデルと
他の競合モデルの間の相互関係は利用されない。これ
は、認識器の性能を劣化させる主要因であり、特に、混
同クラスからの語を区別しようとする場合にそうであ
る。
【0072】いくつかのアプリケーションでは、通常、
正確なスコアに近いスコアを有する競合候補は少数しか
ない。誤認識測度(数8)は、選択された数の競合候補
のみを含むように構成することができる。ステップサイ
ズεnは一般に与えられたHMMおよび損失関数のパラ
メータに依存する。しかし、トレーニングサンプルにつ
いて期待される損失および誤り率はしばしば適切なステ
ップサイズの良い指示子となる。
【0073】上記のように、高度トレーナ80の各反復
は、単一の音声トレーニングサンプルに作用する(すな
わちN=1)。しかし、トレーナは、複数のサンプルに
基づいて、更新されたHMMパラメータΛUのセットを
生成することが可能である。このためには、誤認識測度
プロセッサ82は、音声サンプルのベクトルに作用し、
d値のベクトルを生成する。ただし、各値は与えられた
サンプルに対応する。
【0074】語損失関数プロセッサ84は、d値のベク
トルを受信し、l値のベクトルを生成する。各値は対応
するdの値に基づく。損失関数和86は、上記のしきい
値計算のために、Lを次式のように決定するように作用
する。
【数29】 ただし、Nは現在処理されている音声のサンプルの数で
あり、lnはプロセッサ84によって生成されるl値の
ベクトルの成分を表す。
【0075】HMM更新プロセッサ88は、上記のよう
にパラメータを更新する。ただし、λ(n)からλ(n
+1)への更新は、(N個のサンプルのうちの)単一の
音声サンプルによって与えられる。しかし、あるサンプ
ルの処理から生じるλ(n+1)が次のサンプルを処理
するためのλ(n)として使用されるように、N個のサ
ンプルがすべて連続して使用される。N個のサンプルに
基づいてΛIを更新する際に、数19、数21、数23
および数25の右辺のΛIの値は一定である。N個のサ
ンプルすべてが処理された後にはじめてΛIがΛUとして
データベースに対して更新される。
【0076】図10の損失関数は、本発明に適用可能な
関数の唯一の型ではない。他の型の関数(例えば、双曲
正接に基づくもの、すなわち、li(di(X,Λ))=
tanh(γdi(X,Λ)))も適用可能である。
【0077】一般的に数14によって、および、特に数
19、数21、数23、ならびに数25によって記述さ
れる反復プロセスは、損失関数の局所的最小を同定す
る。しかし、損失関数の大域的最小を発見するための従
来の技術(例えば、擬似アニーリング)も適用可能であ
る。
【0078】数14によって記述されるパラメータ更新
プロセスは、オンラインで、ブートストラップで、適応
的に未知データに作用することができる。時刻nにおい
て、認識器パラメータΛnが未知発話Xnを同定するため
に使用され、Λnに基づく判断がXnを語Wkと同定する
と仮定する。この判断は、更新プロセス(数14)が後
で使用するために新しい認識器パラメータΛn+1を生成
することができるように、トレーニングサンプルとして
高度トレーナ80にフィードバックされる。通常モード
(既知データ)とブートストラップモード(未知デー
タ)の差は、語ラベルが生成される方法にある。通常の
場合、語ラベルは従来の方法でもとから既知である。ブ
ートストラップの場合、語ラベルは認識器自体によって
生成される。
【0079】さらに、本発明による利点は、語からなる
句のモデルのトレーニングにも拡張され得る。複数語ト
レーニングの実施例は、各語に対してHMMを定義する
のではなく各句に対して1つのHMMを定義し、サンプ
ル句についてトレーニングすることによって実現され
る。
【0080】
【発明の効果】以上述べたごとく、本発明によれば、音
声認識において、期待される誤りの最小化は、与えられ
たトレーニング発話に対して、正確な参照パターンと、
他の競合参照パターンの間のスコアリング差分の最大化
に直接関係することになる。本実施例の損失関数は、認
識誤り計数(本質的に不連続な関数である)の良好な近
似を与えるため、ビタビ復号を使用するHMMの順次ト
レーニング方法によって、認識性能が向上する。さら
に、本発明は、判断規則をなめらかな関数形で特徴づけ
るため、数値検索技術の使用によって、尤度スコアの最
適分離を達成し、「ニアミス」と「かろうじて正確」の
場合を効率的に区別することができる。
【図面の簡単な説明】
【図1】本発明によるHMMベースの音声認識システム
の実施例のブロック図である。
【図2】図1の高度トレーナの実施例のブロック図であ
る。
【図3】図2のHMM更新プロセッサの実施例のブロッ
ク図である。
【符号の説明】
1 HMM音声認識システム 10 トレーニング音声データベース 15 モードスイッチ 20 特徴抽出器 30 モードスイッチ 40 スコアリング比較器 50 スコアプロセッサ 60 従来型トレーナ 70 HMMパラメータデータベース 80 高度トレーナ 82 誤認識測度プロセッサ 84 語損失関数プロセッサ 86 損失関数和プロセッサ 88 HMM更新プロセッサ 90 トレーニングセクション 95 認識セクション
【数4】
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ウー チョウ アメリカ合衆国 08854 ニュージャージ ー ピスカタウェー、プレズント ヴュー ドライヴ 112エー (72)発明者 ビイン−ホワン ジュアン アメリカ合衆国 07738 ニュージャージ ー リンクロフト、ウィスパリング パイ ンズ ディー 196

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 既知音声信号を受信するステップと、 前記既知音声信号およびその信号に対する現在の参照パ
    ターンに基づいて第1認識器スコアリング信号を発生す
    るステップと、 前記既知音声信号および他の現在の参照パターンに基づ
    いて他の認識器スコアリング信号を発生するステップ
    と、 第1および他の認識器スコアリング信号に基づいて誤認
    識信号を発生するステップと、 前記誤認識信号および前記既知音声信号に基づいて、未
    知音声信号を誤認識する尤度を減少させるために現在の
    参照パターンを修正するステップと、 修正された参照パターンをメモリに格納するステップと
    からなる、既知音声信号および現在の認識器参照パター
    ンのセットに基づいて音声認識器パターンデータベース
    を作成する方法。
  2. 【請求項2】 誤認識信号発生ステップが、 a.第1認識器スコアリング信号と、 b.他の認識器スコアリング信号の平均 の差を形成するステップからなることを特徴とする請求
    項1の方法。
  3. 【請求項3】 第1認識器スコアリング信号が、既知音
    声信号がその信号に対する現在の参照パターンに一致す
    る程度を反映することを特徴とする請求項1の方法。
  4. 【請求項4】 他のスコアリング信号が、既知音声信号
    がその信号に対する現在の他の参照パターンに一致する
    程度を反映することを特徴とする請求項1の方法。
  5. 【請求項5】 現在の音声参照パターンを修正するステ
    ップが、 a.i.既知音声の現在の参照パターンに基づく既知音
    声の認識器スコアリングを、 ii.他の現在の参照パターンに基づく既知音声の認識
    器スコアリングに関係づける関数の勾配を決定するステ
    ップと、 b.その勾配に基づいて、現在の音声参照パターンのパ
    ラメータを調整するステップとからなることを特徴とす
    る請求項1の方法。
  6. 【請求項6】 パラメータ調整ステップがさらに現在の
    参照パターンパラメータの行列に基づくことを特徴とす
    る請求項5の方法。
  7. 【請求項7】 現在の参照パターンパラメータの行列が
    パターンの分散からなることを特徴とする請求項6の方
    法。
  8. 【請求項8】 パラメータ調整ステップが、参照パター
    ン制約条件に従うために、参照パターンパラメータの変
    換を調整するステップを有することを特徴とする請求項
    5の方法。
  9. 【請求項9】 現在の認識器参照パターンのセットが隠
    れマルコフモデルからなることを特徴とする請求項1の
    方法。
  10. 【請求項10】 現在の認識器参照パターンのセットが
    テンプレートからなることを特徴とする請求項1の方
    法。
  11. 【請求項11】 現在の認識器参照パターンがパターン
    トレーナの出力からなることを特徴とする請求項1の方
    法。
  12. 【請求項12】 現在の認識器参照パターンが修正され
    た参照パターンのセットからなることを特徴とする請求
    項1の方法。
  13. 【請求項13】 現在の参照パターンを修正するステッ
    プが、修正した参照パターンをメモリに格納する前に、
    複数回参照パターンを修正するステップからなり、この
    複数の修正はそれぞれ別個の既知音声信号に基づくこと
    を特徴とする請求項1の方法。
  14. 【請求項14】 現在の認識器参照パターンに基づいて
    未知音声信号を認識するステップと、 認識した音声信号を、既知音声信号として受信されるよ
    うに準備するステップとをさらに有することを特徴とす
    る請求項1の方法。
  15. 【請求項15】 既知音声信号およびその信号に対する
    現在の参照パターンに基づいて第1認識器スコアリング
    信号を発生する手段と、 第1認識器スコアリング信号発生手段に結合され、前記
    既知信号および他の現在の参照パターンに基づいて他の
    認識器スコアリング信号を発生する手段と、 前記2つの手段に結合され、第1および他の認識器スコ
    アリング信号に基づいて誤認識信号を発生する手段と、 誤認識信号発生手段に結合され、前記既知音声信号を誤
    認識する尤度を減少させるために、誤認識信号および前
    記既知信号に基づいて、現在の参照パターンを修正する
    手段と、 修正手段に結合され、修正された参照パターンを格納す
    る手段とからなることを特徴とする、既知音声信号およ
    び現在の認識器参照パターンに基づいて音声認識器デー
    タベースを形成する音声認識器トレーニング装置。
  16. 【請求項16】 誤認識信号発生手段が、 a.第1認識器スコアリング信号と、 b.他の認識器スコアリング信号の平均 の差を形成する手段からなることを特徴とする請求項1
    5の装置。
  17. 【請求項17】 現在の音声参照パターンを修正する手
    段が、 a.i.既知音声の現在の参照パターンに基づく既知音
    声の認識器スコアリングを、 ii.他の現在の参照パターンに基づく既知音声の認識
    器スコアリングに関係づける関数の勾配を決定する手段
    と、 b.その勾配に基づいて、現在の音声参照パターンのパ
    ラメータを調整する手段とからなることを特徴とする請
    求項15の装置。
  18. 【請求項18】 現在の認識器参照パターンのセットが
    隠れマルコフモデルからなることを特徴とする請求項1
    5の装置。
  19. 【請求項19】 現在の認識器参照パターンのセットが
    テンプレートからなることを特徴とする請求項15の装
    置。
  20. 【請求項20】 現在の認識器参照パターンがパターン
    トレーナの出力からなることを特徴とする請求項15の
    装置。
  21. 【請求項21】 現在の認識器参照パターンが修正され
    た参照パターンのセットからなることを特徴とする請求
    項15の装置。
  22. 【請求項22】 現在の認識器参照パターンに基づいて
    未知音声信号を認識する手段と、 認識した音声信号を、既知音声信号として受信されるよ
    うに準備する手段とをさらに有することを特徴とする請
    求項15の装置。
  23. 【請求項23】 a.未知音声信号を受信し、その信号
    を表す特徴を同定する特徴抽出器と、 b.現在の参照パターンを格納する第1メモリ手段と、 c.既知音声トレーニングサンプルを格納する第2メモ
    リ手段と、 d.特徴抽出器および第1メモリ手段に結合され、現在
    の複数の参照パターンのそれぞれに対する比較スコアを
    決定するために、これらのパターンを未知音声信号の特
    徴と比較するスコアリング比較器と、 e.スコアリング比較器に結合され、最高比較スコアを
    選択し、最高スコアに基づいて音声を認識するスコアプ
    ロセッサと、 f.第1および第2メモリ手段に結合されたトレーナ
    と、からなり、このトレーナが、 i.既知音声信号およびその信号に対する現在の参照パ
    ターンに基づいて第1認識器スコアリング信号を発生す
    る手段と、 ii.第1認識器スコアリング信号発生手段に結合さ
    れ、前記既知信号および他の現在の参照パターンに基づ
    いて他の認識器スコアリング信号を発生する手段と、 iii.前記2つの手段に結合され、第1および他の認
    識器スコアリング信号に基づいて誤認識信号を発生する
    手段と、 iv.誤認識信号発生手段に結合され、前記既知音声信
    号を誤認識する尤度を減少させるために、誤認識信号お
    よび前記既知信号に基づいて、現在の参照パターンを修
    正する手段と、 v.修正手段に結合され、修正された参照パターンを第
    1メモリ手段に格納する手段とからなることを特徴とす
    る音声認識装置。
JP5064823A 1992-03-02 1993-03-02 音声認識装置およびそのトレーニング方法ならびに装置 Expired - Lifetime JP3053711B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US84648492A 1992-03-02 1992-03-02
US846484 1992-03-02

Publications (2)

Publication Number Publication Date
JPH0612093A true JPH0612093A (ja) 1994-01-21
JP3053711B2 JP3053711B2 (ja) 2000-06-19

Family

ID=25298082

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5064823A Expired - Lifetime JP3053711B2 (ja) 1992-03-02 1993-03-02 音声認識装置およびそのトレーニング方法ならびに装置

Country Status (6)

Country Link
US (1) US5579436A (ja)
EP (1) EP0559349B1 (ja)
JP (1) JP3053711B2 (ja)
CA (1) CA2089903C (ja)
DE (1) DE69322894T2 (ja)
ES (1) ES2128390T3 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8269161B2 (en) 2008-12-12 2012-09-18 Baker Hughes Incorporated Apparatus and method for evaluating downhole fluids
CN108389576A (zh) * 2018-01-10 2018-08-10 苏州思必驰信息科技有限公司 压缩后的语音识别模型的优化方法及系统

Families Citing this family (239)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU7802194A (en) * 1993-09-30 1995-04-18 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
US5864809A (en) * 1994-10-28 1999-01-26 Mitsubishi Denki Kabushiki Kaisha Modification of sub-phoneme speech spectral models for lombard speech recognition
US5742928A (en) * 1994-10-28 1998-04-21 Mitsubishi Denki Kabushiki Kaisha Apparatus and method for speech recognition in the presence of unnatural speech effects
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
JP2751856B2 (ja) * 1995-02-03 1998-05-18 日本電気株式会社 木構造を用いたパターン適応化方式
IT1279171B1 (it) * 1995-03-17 1997-12-04 Ist Trentino Di Cultura Sistema di riconoscimento di parlato continuo
US5717826A (en) * 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string
JP3092491B2 (ja) * 1995-08-30 2000-09-25 日本電気株式会社 記述長最小基準を用いたパターン適応化方式
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
JPH0981183A (ja) * 1995-09-14 1997-03-28 Pioneer Electron Corp 音声モデルの作成方法およびこれを用いた音声認識装置
US5737489A (en) * 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5778342A (en) * 1996-02-01 1998-07-07 Dspc Israel Ltd. Pattern recognition system and method
US6067517A (en) * 1996-02-02 2000-05-23 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US5737487A (en) * 1996-02-13 1998-04-07 Apple Computer, Inc. Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition
KR100422263B1 (ko) * 1996-02-27 2004-07-30 코닌클리케 필립스 일렉트로닉스 엔.브이. 음성을자동으로분할하기위한방법및장치
US5842161A (en) * 1996-06-25 1998-11-24 Lucent Technologies Inc. Telecommunications instrument employing variable criteria speech recognition
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US6167374A (en) * 1997-02-13 2000-12-26 Siemens Information And Communication Networks, Inc. Signal processing method and system utilizing logical speech boundaries
US6490555B1 (en) 1997-03-14 2002-12-03 Scansoft, Inc. Discriminatively trained mixture models in continuous speech recognition
US6260013B1 (en) 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
US5930753A (en) * 1997-03-20 1999-07-27 At&T Corp Combining frequency warping and spectral shaping in HMM based speech recognition
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases
ATE256330T1 (de) * 1997-09-12 2003-12-15 Siemens Ag Verfahren und einrichtung zur spracherkennung von verwirrenden wörtern
US5924066A (en) * 1997-09-26 1999-07-13 U S West, Inc. System and method for classifying a speech signal
US5946656A (en) * 1997-11-17 1999-08-31 At & T Corp. Speech and speaker recognition using factor analysis to model covariance structure of mixture components
US6178398B1 (en) * 1997-11-18 2001-01-23 Motorola, Inc. Method, device and system for noise-tolerant language understanding
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
EP1040442A4 (en) * 1997-12-24 2006-04-12 Randell L Mills METHOD AND SYSTEM FOR PATTERN RECOGNITION AND PROCESSING
US6076058A (en) * 1998-03-02 2000-06-13 Lucent Technologies Inc. Linear trajectory models incorporating preprocessing parameters for speech recognition
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6263309B1 (en) 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
EP0953971A1 (en) * 1998-05-01 1999-11-03 Entropic Cambridge Research Laboratory Ltd. Speech recognition system and method
US6076053A (en) * 1998-05-21 2000-06-13 Lucent Technologies Inc. Methods and apparatus for discriminative training and adaptation of pronunciation networks
US6775652B1 (en) * 1998-06-30 2004-08-10 At&T Corp. Speech recognition over lossy transmission systems
US6574596B2 (en) * 1999-02-08 2003-06-03 Qualcomm Incorporated Voice recognition rejection scheme
US6374221B1 (en) * 1999-06-22 2002-04-16 Lucent Technologies Inc. Automatic retraining of a speech recognizer while using reliable transcripts
DE19933323C2 (de) * 1999-07-16 2003-05-22 Bayerische Motoren Werke Ag Spracherkennungssystem und Verfahren zur Spracherkennung vorgegebener Sprachmuster, insbesondere zur Sprachsteuerung von Kraftfahrzeugsystemen
GB9920257D0 (en) * 1999-08-26 1999-10-27 Canon Kk Signal processing system
US6711541B1 (en) 1999-09-07 2004-03-23 Matsushita Electric Industrial Co., Ltd. Technique for developing discriminative sound units for speech recognition and allophone modeling
US6526379B1 (en) 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US6571208B1 (en) 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
DE10008188A1 (de) * 2000-02-23 2000-12-28 Bayerische Motoren Werke Ag Verfahren und Vorrichtung zur Sprachsteuerung eines Kraftfahrzeugsystems
US6895380B2 (en) * 2000-03-02 2005-05-17 Electro Standards Laboratories Voice actuation with contextual learning for intelligent machine control
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6587824B1 (en) * 2000-05-04 2003-07-01 Visteon Global Technologies, Inc. Selective speaker adaptation for an in-vehicle speech recognition system
DE10022586A1 (de) * 2000-05-09 2001-11-22 Siemens Ag Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems
US7295979B2 (en) * 2000-09-29 2007-11-13 International Business Machines Corporation Language context dependent data labeling
US6850888B1 (en) * 2000-10-06 2005-02-01 International Business Machines Corporation Methods and apparatus for training a pattern recognition system using maximal rank likelihood as an optimization function
US7437289B2 (en) * 2001-08-16 2008-10-14 International Business Machines Corporation Methods and apparatus for the systematic adaptation of classification systems from sparse adaptation data
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
GB2391679B (en) * 2002-02-04 2004-03-24 Zentian Ltd Speech recognition circuit using parallel processors
GB2385698B (en) * 2002-02-26 2005-06-15 Canon Kk Speech processing apparatus and method
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
US20030225719A1 (en) * 2002-05-31 2003-12-04 Lucent Technologies, Inc. Methods and apparatus for fast and robust model training for object classification
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
US20050021337A1 (en) * 2003-07-23 2005-01-27 Tae-Hee Kwon HMM modification method
US20050187767A1 (en) * 2004-02-24 2005-08-25 Godden Kurt S. Dynamic N-best algorithm to reduce speech recognition errors
US20060235698A1 (en) * 2005-04-13 2006-10-19 Cane David A Apparatus for controlling a home theater system by speech commands
US20060245641A1 (en) * 2005-04-29 2006-11-02 Microsoft Corporation Extracting data from semi-structured information utilizing a discriminative context free grammar
US7983914B2 (en) * 2005-08-10 2011-07-19 Nuance Communications, Inc. Method and system for improved speech recognition by degrading utterance pronunciations
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US7454339B2 (en) * 2005-12-20 2008-11-18 Panasonic Corporation Discriminative training for speaker and speech verification
US8509563B2 (en) 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
US8290170B2 (en) * 2006-05-01 2012-10-16 Nippon Telegraph And Telephone Corporation Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics
US7680663B2 (en) * 2006-08-21 2010-03-16 Micrsoft Corporation Using a discretized, higher order representation of hidden dynamic variables for speech recognition
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8301449B2 (en) * 2006-10-16 2012-10-30 Microsoft Corporation Minimum classification error training with growth transformation optimization
US8108205B2 (en) * 2006-12-01 2012-01-31 Microsoft Corporation Leveraging back-off grammars for authoring context-free grammars
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8050929B2 (en) * 2007-08-24 2011-11-01 Robert Bosch Gmbh Method and system of optimal selection strategy for statistical classifications in dialog systems
US8024188B2 (en) * 2007-08-24 2011-09-20 Robert Bosch Gmbh Method and system of optimal selection strategy for statistical classifications
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8239332B2 (en) 2007-11-20 2012-08-07 Microsoft Corporation Constrained line search optimization for discriminative training of HMMS
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
TWI372384B (en) * 2007-11-21 2012-09-11 Ind Tech Res Inst Modifying method for speech model and modifying module thereof
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
AU2009206227B2 (en) * 2008-01-24 2013-08-01 Sra International, Inc. System and method for variant string matching
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
DE102008046703A1 (de) 2008-09-11 2009-07-23 Siemens Ag Österreich Verfahren zum Trainieren und Testen eines Mustererkennungssystems
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
TWI420433B (zh) * 2009-02-27 2013-12-21 Ind Tech Res Inst 語音互動系統與方法
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9280969B2 (en) * 2009-06-10 2016-03-08 Microsoft Technology Licensing, Llc Model training for automatic speech recognition from imperfect transcription data
US9659559B2 (en) * 2009-06-25 2017-05-23 Adacel Systems, Inc. Phonetic distance measurement system and related methods
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8560318B2 (en) * 2010-05-14 2013-10-15 Sony Computer Entertainment Inc. Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
EP4138075A1 (en) 2013-02-07 2023-02-22 Apple Inc. Voice trigger for a digital assistant
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10224030B1 (en) * 2013-03-14 2019-03-05 Amazon Technologies, Inc. Dynamic gazetteers for personalized entity recognition
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
CN112230878A (zh) 2013-03-15 2021-01-15 苹果公司 对中断进行上下文相关处理
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN103680496B (zh) * 2013-12-19 2016-08-10 百度在线网络技术(北京)有限公司 基于深层神经网络的声学模型训练方法、主机和系统
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US11475310B1 (en) * 2016-11-29 2022-10-18 Perceive Corporation Training network to minimize worst-case error
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN106683680B (zh) * 2017-03-10 2022-03-25 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN108109615A (zh) * 2017-12-21 2018-06-01 内蒙古工业大学 一种基于dnn的蒙古语声学模型的构造和使用方法
US11250840B1 (en) 2018-04-09 2022-02-15 Perceive Corporation Machine-trained network detecting context-sensitive wake expressions for a digital assistant
CN111712874B (zh) * 2019-10-31 2023-07-14 支付宝(杭州)信息技术有限公司 用于确定声音特性的方法、系统、装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63163582A (ja) * 1986-12-25 1988-07-07 Toshiba Corp パタ−ン認識装置
JPH023600U (ja) * 1988-06-17 1990-01-10
JPH03200999A (ja) * 1989-12-28 1991-09-02 Nec Corp 標準パターン学習方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4618984A (en) * 1983-06-08 1986-10-21 International Business Machines Corporation Adaptive automatic discrete utterance recognition
US4852171A (en) * 1984-11-09 1989-07-25 Alcatel Usa Corp. Apparatus and method for speech recognition
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
US5280563A (en) * 1991-12-20 1994-01-18 Kurzweil Applied Intelligence, Inc. Method of optimizing a composite speech recognition expert

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63163582A (ja) * 1986-12-25 1988-07-07 Toshiba Corp パタ−ン認識装置
JPH023600U (ja) * 1988-06-17 1990-01-10
JPH03200999A (ja) * 1989-12-28 1991-09-02 Nec Corp 標準パターン学習方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8269161B2 (en) 2008-12-12 2012-09-18 Baker Hughes Incorporated Apparatus and method for evaluating downhole fluids
CN108389576A (zh) * 2018-01-10 2018-08-10 苏州思必驰信息科技有限公司 压缩后的语音识别模型的优化方法及系统
CN108389576B (zh) * 2018-01-10 2020-09-01 苏州思必驰信息科技有限公司 压缩后的语音识别模型的优化方法及系统

Also Published As

Publication number Publication date
EP0559349A1 (en) 1993-09-08
CA2089903C (en) 1998-01-27
EP0559349B1 (en) 1999-01-07
ES2128390T3 (es) 1999-05-16
JP3053711B2 (ja) 2000-06-19
DE69322894D1 (de) 1999-02-18
DE69322894T2 (de) 1999-07-29
CA2089903A1 (en) 1993-09-03
US5579436A (en) 1996-11-26

Similar Documents

Publication Publication Date Title
JP3053711B2 (ja) 音声認識装置およびそのトレーニング方法ならびに装置
EP0635820B1 (en) Minimum error rate training of combined string models
EP0763816B1 (en) Discriminative utterance verification for connected digits recognition
US7672847B2 (en) Discriminative training of hidden Markov models for continuous speech recognition
US6260013B1 (en) Speech recognition system employing discriminatively trained models
US7590537B2 (en) Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition
US5625749A (en) Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
US7617103B2 (en) Incrementally regulated discriminative margins in MCE training for speech recognition
US6490555B1 (en) Discriminatively trained mixture models in continuous speech recognition
US7324941B2 (en) Method and apparatus for discriminative estimation of parameters in maximum a posteriori (MAP) speaker adaptation condition and voice recognition method and apparatus including these
Fissore et al. Lexical access to large vocabularies for speech recognition
US20030023438A1 (en) Method and system for the training of parameters of a pattern recognition system, each parameter being associated with exactly one realization variant of a pattern from an inventory
US5825977A (en) Word hypothesizer based on reliably detected phoneme similarity regions
Solera-Ureña et al. Svms for automatic speech recognition: a survey
US6076058A (en) Linear trajectory models incorporating preprocessing parameters for speech recognition
McDermott et al. Prototype-based discriminative training for various speech units
JP2000075886A (ja) 統計的言語モデル生成装置及び音声認識装置
Sanchis et al. Improving utterance verification using a smoothed naive bayes model
JP2570448B2 (ja) 標準パターン学習方法
JP3216565B2 (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
Hashimoto et al. Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011
Vaněk et al. Discriminative training of gender-dependent acoustic models
Homma et al. Iterative unsupervised speaker adaptation for batch dictation
JPH05134695A (ja) 音声認識方法および装置
Kwon On Improving Acoustic Modeling in Speech Recognition based on Continuous Density HMM

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080407

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090407

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090407

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100407

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110407

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120407

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120407

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130407

Year of fee payment: 13

EXPY Cancellation because of completion of term