JPH08506430A - 2経路検索による音声認識方法 - Google Patents

2経路検索による音声認識方法

Info

Publication number
JPH08506430A
JPH08506430A JP7502266A JP50226694A JPH08506430A JP H08506430 A JPH08506430 A JP H08506430A JP 7502266 A JP7502266 A JP 7502266A JP 50226694 A JP50226694 A JP 50226694A JP H08506430 A JPH08506430 A JP H08506430A
Authority
JP
Japan
Prior art keywords
model
candidates
speech
allophone
trellis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7502266A
Other languages
English (en)
Other versions
JP3049259B2 (ja
Inventor
グプタ・ウィシュワ・ナス
レニグ・マシュー
Original Assignee
ノーザン・テレコム・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノーザン・テレコム・リミテッド filed Critical ノーザン・テレコム・リミテッド
Publication of JPH08506430A publication Critical patent/JPH08506430A/ja
Application granted granted Critical
Publication of JP3049259B2 publication Critical patent/JP3049259B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 本発明の音声認識方法は、2経路の検索を用い、未知の音声の語彙ワードを認識する。語彙中のワードは連鎖状の異音モデルによって表され、語彙はネットワークとして表される。第1経路の検索において、1状態区間に限定されたモデルを語彙ネットワークの検索に用いる。1状態モデルは、対応する異音モデルに対して、そのモデルの遷移確率として、未知の音声の最大観測遷移確率(モデル距離)を有する。上位の計算値を有するワードは、第1経路の検索により選択され、全ビタビトレリスを用いて、完全な異音モデルおよびモデル距離によって再計算が行われる。再計算結果は少数の上位選択を供給するためにストアされる。第2組の音声パラメータを用いて、これら少数の上位選択がさらに再計算される。各組の音声パラメータを用いて導かれた計算値を比較し、認識となる選択を決定する。また後処理を行い認識の正確さを高めることも可能である。実験結果によれば、2経路検索は全ビタビ法による語彙ネットワークの検索とほぼ同程度の認識の正確さが得られた。

Description

【発明の詳細な説明】 発明の名称 2経路検索による音声認識方法 背景技術 音声認識において認識語彙を相互接続されたノード間のネットワークとして表 すことはよく知られている。ノードの間の分岐は、ワード、音素または異音(同 じ音素に属する異なる音)の一部である。異音モデルは、コンテキスト依存音素 モデルである。異音および音素はしばしば隠れマルコフ・モデル(以下HMM) によって表される。したがっていかなる語彙ワードも連鎖状のHMMのチェーン として表すことができる。未知の音声を認識するには、HMM鎖の中の状態の最 尤シーケンスを計算しなくてはならないが、中型から大型の語彙音声認識システ ムにとって、これは非常に大きな計算負荷となる。 良く知られているビタビ法では、トレリス(棚構造)を確立することによって 、語彙ネットワークの蓋然性を計算する。あるトレリスは語彙ネットワーク中の 各分岐と関連する。トレリスは、横座標に軸フレーム番号、縦座標にモデル状態 を有する。トレリスは、対応する異音モデル中の状態数と同様に多くの関連する 状態を有する。例えば、10の状態を有する異音モデルでは、そのラベルを有す る語彙ネットワーク中のあらゆる分岐に関連する10の状態を有する。各トレリ スの1フレームあたりの処理総数は、対応モデル中の全遷移数に比例する。した がって30の遷移を有する10の状態の異音モデル中では、ビタビ法に含まれる 全処理数は、約50(30の遷移を見積もるための和30と、各状態で最適な遷 移を決定するための最大20との和)となる。 この良く知られたビタビ法を用い、所与の音声について語彙ネットワーク全体 で最尤経路を見つけることが可能である。しかしビタビ法には2つの問題がある 。ひとつは計算が複雑なことである。これは、全語彙ネットワークの全分岐にお いてあらゆる遷移が計算されるためであり、したがって、ハードウェアのコスト は非常に高価になる。計算の複雑さは音声認識のチャネル当たりのコストに影響 する。第2に、ビタビ法ではただ一つの選択しか行われず、他の選択を行うには さ らなる計算およびメモリが必要となる。また選択が一つであるため、後処理によ る修正も限られるために、認識の正確さを高めることも不可能である。 そこで1モデル当たり50もの処理を要する計算の負荷を減らすため、いくつ かの提言がなされている。Bahl他(出典:1989年、A Fast Approximate Aco ustic Match for Large Vocabulary Speech Recognition、Proceedings of Euro speech 89:European Conference on Speech Communication and Technology、P aris、156〜158頁)によれば、各HMMモデルにつき1つの遷移確率を用 いて(すなわち最尤遷移を選択して)、各遷移毎に計算を追加する。したがって 、3つのトレリス遷移における異なった対数観測確率を加えた後に最大をとるの ではなく、初めに3つのトレリス値全体の最大をとった後に対数観測確率が加ら れる。これにより各遷移につき5を要した計算が3へ、あるいは10の状態のモ デルにおいては50を要していた計算が30へ減少する。しかし計算は減少する が、許容された遅延の後の応答が不十分である。 Bahl他のもう一つの提案(出典:1992年、Constructing Candidate Word Lists Using Acoustically Similar Word Groups、IEEE Transactions on Signa l Processing、第40巻、11、2814〜2816頁)においても計算負荷を 減らす試みがなされている。この方法では、より複素トポロジを用いないで、3 状態モデルを用いて初めにビタビ法で計算を行い、その後複素トポロジで再計算 を行う。しかし、この方法では実際には計算負荷が増えることがある。例えば、 新たに編成された3状態が、複素トポロジと同様の内容を有すれば、同数の対数 観測確率の計算が2回行われることになる。すなわち3状態モデルに1回、複素 トポロジに1回である。同様に2セットのモデルをストアする全必要メモリも増 加する。 最尤経路を探索し、それにより未知の音声の語葉ワードを一致させるのに要す る時間は音声認識システムの認識の遅れとなる。許容遅延内で低コストのハード ウェア計算プラットホームを使用して応答するには、より簡素な認識方法が必要 となる。このような方法は計算負荷を減少させるはずであり、結果として時間の 遅れは、認識の正確さを損なうことなく先行技術にくらべて大幅に改善される。 発明の概要 本発明の目的は、音声認識方法の改善にある。本発明の一見地によれば本発明 の音声認識方法は、第1組の異音モデルを第1型の音声パラメータベクトルと共 に用いるために供給し;第2組の異音モデルを第2型の音声パラメータベクトル と共に用いるために供給し;認識語彙を表すネットワークを供給し、そこで、ネ ットワークの各分岐は異音モデルの1つであり、ネットワークを通じる各全経路 は認識語葉中のワードを表わすモデルのシーケンスであり;第1および第2型の 各音声パラメータベクトルに対して音声パラメータベクトルのフレームシーケン スを生成するために未知の音声を分析し;ネットワークの全経路で最尤経路を決 定するために減少トレリスを供給し;第1型の音声パラメータベクトルの各フレ ームのモデル距離を第1組の全ての異音モデルについて計算し;第1組の各モデ ルの最大モデル距離を算出し;各異音モデルは2フレームの最小区間を有する1 状態モデルであり、および遷移確率がその最大モデル距離に等しいと仮定して、 全てのフレームについて減少トレリスを更新し;語彙ネットワークを通じて各経 路のトレリスから最終値を検索し;最も高い最終値を有する第1の複数の認識候 補を選択し;語彙ネットワークに対応する完全なビタビ法のトレリス(棚)を用 いて第1組の異音モデルに対して算出されたモデル距離でこの第1の複数候補の 再計算を行い;計算値が大きい順に候補を検索し;第1の複数候補から第1の候 補よりも少ない数の第2の複数候補を選択して、さらに第2組の異音モデルおよ び第2型の音声パラメータベクトルを用いて再計算し;第2型の音声パラメータ ベクトルのモデル距離計算に対するフレームを認識するために第1型の音声パラ メータベクトルを用いて異音セグメンテーションを検索し;第2の複数候補中に 検索される第2組の異音モデルに対して認識される第2型の音声パラメータベク トルのフレームのモデル距離を計算し;ビタビ法を用いて第2組の異音モデルに 対し計算されたモデル距離で第2の複数候補を再計算し;第1および第2型の音 声パラメータベクトルに対する第2の複数候補の計算値を比較して認識候補を選 択するステップを含む。 本発明の他の見地によれば、本発明の音声認識方法は、第1組の異音モデルを ケプストラムパラメータベクトルと共に用いるために供給し;第2組の異音モデ ルをLSPパラメータベクトルと共に用いるために供給し;認識語彙を表すネッ トワークを供給し、そこで、ネットワークの各分岐は異音モデルの1つであり、 ネットワークを通じる各全経路は認識語彙中のワードを表わすモデルのシーケン スであり;ネットワークの全経路で最尤経路を決定するために減少トレリスを供 給し;ケプストラムおよびLSPパラメータベクトルのフレームシーケンスを生 成するために未知の音声を分析し;全てのケプストラム異音モデルに対してフレ ーム毎にケプストラムモデル距離を計算し;各モデルに対して最大モデル距離を 算出し;2フレームの最小区間を有する1状態モデルおよび遷移確率がその最大 モデル距離に等しいと仮定して、全てのフレームについて減少トレリスを更新し ;減少トレリスに対して各語彙ネットワーク経路の最終値を検索し;上位nの値 を選択しnの認識候補を供給し;完全なビタビ法のトレリスを用いて、算出され たモデル距離で上位nの候補を再計算し;計算値が大きい順に候補を検索し;L SPパラメータベクトルを用いて、さらに再計算を行うために上位m(m<n) を選択し;LSPパラメータに対しモデル距離の計算に必要なフレームを認識す るため、ケプストラムパラメータを用いて異音セグメンテーションを探索し;認 識されたフレームおよびm候補中で検索されたLSPモデルに対してLSPモデ ル距離を計算し;ビタビ法を用いて算出されたLSPモデル距離でmの候補を再 計算し;ケプストラムおよびLSPパラメータに対して上位mの候補の計算値を 比較して認識候補を選択するステッブを含む。 本発明によれば、2経路検索が用いられる。第1の経路は減少1状態モデルを 用い、その遷移確率は対応の異音モデルの観測確率に対して算出された最大値に 割り当てられる。この減少モデルとそれに対応する異音モデルの間には1対1の 関係がある。この減少された1状態モデルの最小区間は数フレームに限定される 。便宜的には、2あるいは3フレームの最小区間が用いられる。 本発明の利点は、低コスト処理ハードウェアを用いて認識の正確さを損なうこ となく認識方法の煩雑さを簡素化したことにある。 図面の簡単な説明 本発明を、図面を参照しながら以下に説明する。 図1aおよび1bは本発明の実施の形態の語彙ネットワーク部を示す図である 。 図2は本発明の実施の形態の異音を表わす4状態の隠れマルコフモデル(HM M)を示す図である。 図3は本発明の実施の形態の音声認識方法を示すチャート図である。 図4は図3の減少トレリスを視覚的に示す図である。 図5はケプストラムパラメータからの異音セグメンテーションおよび図3のL SPモデル距離の算出に使用されるフレームを視覚的に示す図である。 図6は本発明の実施の形態の音声認識方法による典型的な音声認識装置を示す ブロック図である。 実施の形態 図1aおよび1bは本発明の実施の形態の語彙ネットワーク部を示す図である 。図1aにおいて各経路10、12、および14は、エントリノード16より始 まる。経路10の分岐18はノード16からノード20で異音rを表し、分岐2 2はノード20からノード24で異音aを表し、分岐26はノード24からノー ド28で異音bを表し、分岐30はノード28からノード32で異音iを表し、 分岐34はノード32から終了ノード36で異音dを表す。 同様に経路12は、分岐38、ノード40、分岐42、ノード44、分岐46 、ノード48、分岐50および出口ノード52からなり、経路14は、分岐54 、ノード56、分岐58、ノード60、分岐62、ノード64、分岐66、およ び出口ノード68からなる。 語彙ネットワークは、図1aで示されるように、一般に木構造を有する。しか し「record」という語の2つの異音の転写を表す図1bが示すように2つ の枝が再び合流する経路を有してもよい。 「record」の転写は、エントリノード68、分岐70、ノードの72、 分岐74、ノード76、分岐78、ノード80、分岐82、ノード84、分岐8 6、ノード88、分岐90、出口ノード92、および分岐68、ノード70、分 岐96、ノード98、分岐100、ノード102、分岐104、ノード88、分 岐90、出口ノード92からなる。 語彙ネットワークの各分岐は、隠れマルコフモデルによって表される。図2は 本発明の実施の形態による異音を表す4状態の隠れマルコフモデル(HHM)を 示す。4状態のHMMは第1、第2、第3、第4状態を含み、それぞれ110、 112、114、116で示されている。ある状態からの遷移には大方3形式が ある。すなわち、それ自身への遷移、次状態への遷移、そして一つ飛び遷移であ る。第1状態110においては、それ自身への遷移は遷移118、次状態への遷 移は遷移120、一つ飛び遷移は遷移122で示される。同様に、第2状態11 2においては、それ自身への遷移は遷移124、次状態への遷移は遷移126、 一つ飛び遷移は遷移128で示される。第4状態116は出口状態であるので、 第3状態は一つ飛び状態を有さない。したがって、第3状態114は、それ自身 への遷移は遷移130、次状態への遷移は遷移132を有する。第4状態は出口 状態であるので、モデル間遷移136を有するのみである。同様に第1状態は開 始状態であるのでモデル間遷移138を有する。これらモデル間遷移136、1 38により複数のモデルが語彙ワードを表わす一つのチェーンへ収斂する。 図3は本発明の実施の形態の音声認識方法を示すチャート図である。このチャ ートは2つのタイムフレーム中に行われるステップおよび動作を示す。すなわち 第1のタイムフレームは入力音声に関してリアルタイムであり、「A)フレーム 同期」と表される。第2のタイムフレームは音声受信に続く処理時間であって「 B)認識遅延」と表される。 A)部には7ステップが含まれる。ステップ1)エンドポインタを用いてワー ドおよびフレーズの始めを認識し、減少トレリスを初期化することによりフレー ム同期検索方法を開始する。ステップ2)ケプストラムモデル距離を全ての異音 モデルについてフレーム毎に計算する。ステップ3)各モデルの最大モデル距離 を検索する(例えば、130のモデルにおいて130の最大値が検索される)。 ステップ4)2フレームの最小区間を有する1状態モデルを仮定し、各フレーム について減少トレリスを更新する。このモデルの遷移確率は、ステップ3で計算 された最大モデル距離に一致する。ステップ5)エンドポインタを用いて音声の 終了を認識し減少トレリスの更新を終える。ステップ6)各語彙ネットワーク経 路の最終値を減少トレリスに対して検索卜する。ステッブ7)上位n値を選択し 認識のためnの候補を供給する。例えば、このnの典型的な値は30である。こ のようにして本発明の音声認識のフレーム同期検索部が完了する。 B)部には7つのステップ(ステップ8〜14)が含まれ、さらに認識の正確 さを高めるために、あるいはそれ以上の追加ステップ(ステップ15によって表 される)が含まれることもある。ステップ8)ビタビ法を用いてステップ2)で 計算されたモデル距離で上位n候補を再計算する。フレーム同期処理であらゆる 語彙ワードの認識候補数がnの候補へ減らされたので、計算的な複素ビタビ法が 能率的に使用され、これら各々のn候補をステップ2)で算出されたモデル距離 の完全なセットを用いて再計算することが可能となる。ステップ9)計算値の大 きい順に候補を検索する。ステップ10)例えば、LSPパラメータなどの交互 のパラメータを使用してさらに再計算を行うため上位mの候補を選択する。この ようなmの典型的な値は3である。ステップ11)ケプストラムパラメータを使 用して異音セグメンテーションを探索する。これらのセグメント境界は、ステッ プ12のモデル距離計算に必要なフレームを限定するために使用される。モデル 距離の計算による負荷のため、ステップ11で認識されたフレームおよびステッ プ10で認識された候補を限定しない限り、代替パラメータの使用によって許容 できない遅延がおこる。ステップ12)m候補についてLSPモデル距離を計算 する。例えば、図5において上部の括弧はケプストラムを用いて生成されたセグ メンテーションを示し、下部の括弧はLSPモデル距離の計算に必要なフレーム を示す。ステップ13)ステップ12で計算されたLSPモデル距離を用いてビ タビ法によってm候補を再計算する。セグメント境界は、ステップ11)で得ら れたセグメント境界のうち230ミリセカンド(18フレーム)以内に制限され る。ステップ14)ケプストラムおよびLSPパラメータに対して上位m候補の 計算値を比較する。またステップ14)好ましくは、各々の候補についてケプス トラムおよびLSPパラメータより結果として得られる確率を乗算してもよい。 例えば、m=3のとき: (P1Cep)×(P1LSP)=P1Combined} (P2Cep)×(P2LSP)=P2Combined} (P3Cep)×(P3LSP)=P3Combined} のうち、もっとも大きな確率組み合わせを有するワードを選択をする。ステップ 15)追加オプションの後処理であり、選択の正確さを高めるものである。ここ で唯一2、3の候補が残っているだけなので、計算負荷の実質的な追加をするこ となく、さらにオプション後処理が認識方法に含まれてもよい。したがって認識 の遅れの実質的増加となることもない。例えば、オプション後処理として異音の 区間を制限し認識の正確さを高めることが挙げられる。 以上の実施の形態では、2フレーム最小区間の1状態モデルをフレーム同期検 索に用いた。 表Aは、最小区間を2〜3とし、4321語のテストを行った場合の正しい選 択の包含率を示す。表Bは、4321語のテストで上位n候補をビタビ法を用い て再計算した後の認識の正確さを示す。 表Aから明らかなように、正しい選択の包含率は2フレームよりも3フレーム の最小区間において高くなる。しかし表Bから明らかなように、ビタビ法を使用 して上位nの候補を再計算した後では、双方の認識の正確さはほとんど同一であ る。よって、2フレーム認識装置の方が少ない計算ですむために好ましい。もし 再計算法のパフォーマンスがビタビ法よりも優れるならば、3フレーム区間の高 包含率のメリットによって、3フレー区間に高い計算負荷を課すことが望ましい 。 図4は図3のステップ3に示された減少トレリスを視覚的に示す図である。減 少トレリスを生成するには、2フレームの区間を有する1状態モデルを用いる。 一例として、「for」という語の異音の転写が垂直にプロットされている。各 々の異音は軸上の2点に割り当てられる。各々の異音モデルに用いられる遷移確 率は、実際のモデル距離計算の間に得られた最大値である。したがって、減少ト レリスのための1状態モデルではモデル距離の追加計算が不要となり、各モデル について計算されたこれら距離の最大値を決定するだけである。これらモデル距 離は第2経路で使用するためにストアされる。 トレリスの初期条件がセットされ、各フレーム毎に、最大遷移確率を語彙ネッ トワークの各分岐中の各遷移に対して加えることによって、トレリスが更新され る。 簡単な例として「for」という語彙ワードの異音の転写を考える。初期状態 を設定するために、語彙ネットワークにおいて、確率「月を無音モデル({)の 初期状態150およびモデル(f)の初期状態154に割り当て、確率「0」を 他の全てのトレリス縦軸156〜168に割り当てる。語彙ネットワーク中の各 分岐(異音モデル)について3動作、すなわち乗算2回、比較1回を実行し、ト レリスを更新する。したがってトレリス更新のステップは、転写の各異音につい て初期確率と最大遷移確率を乗算することからなる。例では、遷移170、17 2で乗算一つとして最大遷移確率(p{)が初期値「1」にかけられる。遷移17 4で確率(p{)は初期値「0」にかけられる。これら遷移の170、172、1 74によってそれぞれ3つの新状態176、178、180が生ずる。比較は次 の異音の初期状態を表わす状態で行われ、本例では状態180である。遷移17 4から得られた状態180での確率値は、異音(f)の初期状態154から得ら れた遷移182得られる値と比較される。これらのうちどちらか大きい確率値を 有する方が状態180に保持され、次回のトレリス更新の反復に用いられる。無 音モデル({)の場合のように(f)モデルの遷移が計算される。遷移182、 184のそれぞれにおいて、状態154の初期値「1」と異音(f)の最大遷移 確率(pf)の乗算が行われる。遷移186で状態156の初期値「0」と異音 (f)の最大遷移確率(pf)の乗算が行われる。これら遷移182、184、 186によってそれぞれ3つの新状態180、188、190が生ずる。同様に 新状態192〜202についても計算が行われる。各トレリス更新のサイクルは 、状態176〜202の値を状態150〜169に複写して完結する。その後に 次フレームの処理が開始される。 初期状態150および154の初期確率1はワード「for」が最初の無音あ るいは息継ぎを含むことを示している。同様に、状態164から202への遷移 204は、最後の無音あるいは息継ぎが選択的に存在することを示している。状 態202において、現在フレームの最尤値が保持される。 これら記述によれば、遷移確率は「0」と「1」の間に位置し、トレリス更新 の新しい値は現在値と次への遷移確率を乗算することにより得られる。しかし音 声認識技術の通例では、典型的には遷移確率は対数演算によって表されるので、 確率の乗算は計算が簡単な加算によって行われる。 モデル距離の計算は複雑な作業であり、それゆえに計算機に大きな負荷がかか る。LSPモデル距離を音声認識方法の「認識遅延」の部分で許容を越えて遅延 を増加させないで計算するには、計算に必要なフレーム数を制限しなくてはなら ない。 ケプストラムパラメータを用いて異音セグメンテーションを検索するステップ およびLSPモデル距離を計算するステップを図5を参照して説明する。一例と して、語彙ワード「for」の異音転写が図5に視覚的に示されている。横軸は 音声のフレームを表す。ケプストラムパラメータの異音セグメントは、縦線21 0、212、214および216によって示され、異音のセグメンテーションf 、o、rは括弧218、220、222によってそれぞれ表される。これは図3 のステップ11に対応する。図5の例においては、モデル距離が計算されること と なる異音のフレームは、ケプストラムパラメータを用いて決定されたセグメント 境界の18フレーム(230ミリセカンド)以内に制限される。したがって、L SPモデル距離の計算を異音f、o、rについて行うとき、それらの計算はそれ ぞれ括弧224、226、228によって示されるフレームで実行される。 図6は本発明の音声認識方法を用いるために構成された典型的な音声認識装置 を示すブロック図である。音声認識装置は音声入力290、ケプストラムおよび LSPパラメータ各解析器292、294を有し、各パラメータの出力296、 298を入力データバッファ302入力する。入力データバッファは、データバ ス304に接続される。また、このデータバスに接続されるのは、処理装置30 6、認識データテーブル記憶装置308、中間結果記憶装置310、および出力 314を有する認識結果出力ブロック312である。 動作を説明すると、入力290に印加された音声はケプストラム分析器292 およびLSP分析器294で分析され、ケプストラムおよびLSPパラメータベ クトル出力を、それぞれ296、298を介して12.75ミリセカンド毎に入 力データバッファ302に対して生成する。フレーム同期計算のため、処理装置 306は、音声データのフレーム毎に認識データテーブル記憶装置308にスト アされたすべてのケプストラム異音モデルについてモデル距離を計算する。計算 されたモデル距離は中間結果記憶装置310にストアされ、後にビタビ法におい て上位nの選択を再計算する際に使用される。トレリスは中間結果記憶装置31 0で形成され、フレーム毎に更新される。第1回目のバスで上位nが決定される と、音声認識方法の「認識遅延」部分が始まる。ストアされたケプストラムモデ ル距離は、ビタビ法によって使用され、中間結果記憶装置310にストアされた 命令リストによって、上位nの選択を再計算する。上位nの選択はさらにビタビ 法を用いて再計算される。その後、上位mの選択は入力データバッファ302か らのLSPパラメータを使用して再計算される。LSPモデル距離は、処理装置 306によって上位mの選択で検索されたLSP異音モデルに対して計算され、 その際に認識データテーブル記憶装置308にストアされたモデル距離が使用さ れる。各異音モデルに対しては、ケプストラムセグメンテーションにより供給さ れるフレームのみが使用される。算出されたモデル距離は中間結果記憶装置31 0にストアされ、上位mの選択を再計算するためにビタビ法で使用される。ケプ ストラムおよびLSPの上位mの選択の比較を行い、認識結果出力ブロック31 2にその認識結果をストアする。その結果は出力314を介し、「認識」として アプリケーションに送られる。上に述べたように、さらに後処理を行い認識の正 確さを高める。 図6の音声認識装置のハードウェアは、テキサスインスツルメンツ社のマイク ロプロセッサTMS320C31を6つ用いて処理装置306を構成し、入力デ ータバッファ302、認識データテーブル記憶装置308および中間結果記憶装 置310を構成するために約16メガバイトのメモリが使用されている。 上に述べた本発明の実施の形態について、請求項において定義された本発明の 主旨から逸れることなく様々な変更、バリエーション、適用を加えることが可能 である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 レニグ・マシュー カナダ国,エイチ3ゼット 1ジェイ1, ケベック,ウェストマウント,ウィンチェ スター アベニュー 2

Claims (1)

  1. 【特許請求の範囲】 1. 第1組の異音モデルを第1型の音声パラメータベクトルと共に用いる ために供給し; 第2組の異音モデルを第2型の音声パラメータベクトルと共に用いるために供 給し; 認識語彙を表すネットワークを供給し、そこで、ネットワークの各分岐は異音 モデルの1つであり、ネットワークを通じる各全経路は認識語葉中のワードを表 わすモデルのシーケンスであり; 第1および第2型の各音声パラメータベクトルに対して音声パラメータベクト ルのフレームシーケンスを生成するために未知の音声を分析し; ネットワークの全経路で最尤経路を決定するために減少トレリスを供給し; 第1型の音声パラメータベクトルの各フレームのモデル距離を第1組の全ての 異音モデルについて計算し; 第1組の各モデルの最大モデル距離を算出し; 各異音モデルは2フレームの最小区間を有する1状態モデルであり、および遷 移確率がその最大モデル距離に等しいと仮定して、全てのフレームについて減少 トレリスを更新し; 語彙ネットワークを通じて各経路のトレリスから最終値を検索し; 最も高い最終値を有する第1の複数の認識候補を選択し; 語彙ネットワークに対応する完全なビタビ法のトレリス(棚)を用いて第1組 の異音モデルに対して算出されたモデル距離でこの第1の複数候補の再計算を行 い; 計算値が大きい順に候補を検索し; 第1の複数候補から第1の候補よりも少ない数の第2の複数候補を選択して、 さらに第2組の異音モデルおよび第2型の音声パラメータベクトルを用いて再計 算し; 第2型の音声パラメータベクトルのモデル距離計算に対するフレームを認識す るために第1型の音声パラメータベクトルを用いて異音セグメンテーションを検 索し; 第2の複数候補中に検索される第2組の異音モデルに対して認識される第2型 の音声パラメータベクトルのフレームのモデル距離を計算し; ビタビ法を用いて第2組の異音モデルに対し計算されたモデル距離で第2の複 数候補を再計算し; 第1および第2型の音声パラメータベクトルに対する第2の複数候補の計算値 を比較して認識候補を選択するステップを含むことを特徴とする音声認識方法。 2. 請求項1の音声認識方法において; 第1型の音声パラメータベクトルは、ケプストラムパラメータベクトルを含む ことを特徴とする音声認識方法。 3. 請求項2の音声認識方法において: 第2型の音声パラメータベクトルは、LSPパラメータベクトルを含むことを 特徴とする音声認識方法。 4. 請求項1の音声認識方法において:さらに エンドポインタを用いて減少トレリスを供給するステッブの前に、ワードおよ びフレーズの始めを認識し; エンドポインタを用いて音声の終了を認識し、減少トレリスの更新を止めるこ とを特徴とする音声認識方法。 5. 第1組の異音モデルをケプストラムパラメータベクトルと共に用いる ために供給し; 第2組の異音モデルをLSPパラメータベクトルと共に用いるために供給し; 認識語彙を表すネットワークを供給し、そこで、ネットワークの各分岐は異音 モデルの1つであり、ネットワークを通じる各全経路は認識語彙中のワードを表 わすモデルのシーケンスであり; ネットワークの全経路で最尤経路を決定するために減少トレリスを供給し; ケプストラムおよびLSPパラメータベクトルのフレームシーケンスを生成す るために未知の音声を分析し; 全てのケプストラム異音モデルに対してフレーム毎にケプストラムモデル距離 を計算し; 各モデルに対して最大モデル距離を算出し; 2フレームの最小区間を有する1状態モデルおよび遷移確率がその最大モデル 距離に等しいと仮定して、全てのフレームについて減少トレリスを更新し; 減少トレリスに対して各語彙ネットワーク経路の最終値を検索し; 上位nの値を選択しnの認識候補を供給し; 完全なビタビ法のトレリスを用いて、算出されたモデル距離で上位nの候補を 再計算し; 計算値が大きい順に候補を検索し; LSPパラメータベクトルを用いて、さらに再計算を行うために上位m(m< n)を選択し; LSPパラメータに対しモデル距離の計算に必要なフレームを認識するため、 ケプストラムパラメータを用いて異音セグメンテーションを探索し; 認識されたフレームおよびm候補中で検索されたLSPモデルに対してLSP モデル距離を計算し; ビタビ法を用いて算出されたLSPモデル距離でmの候補を再計算し; ケプストラムおよびLSPパラメータに対して上位mの候補の計算値を比較し て認識候補を選択するステップを含むことを特徴とする音声認識方法。 6. 請求項5の音声認識方法において:さらに エンドポインタを用いて減少トレリスを供給するステップの前に、ワードおよ びフレーズの始めを認識し; エンドポインタを用いて音声の終了を認識し、減少トレリスの更新を止めるこ とを特徴とする音声認識方法。 7. 請求項6の音声認識方法において: 上位mの候補を比較するステップは、各々の候補に対してケプストラムおよび LSPパラメータから得られる確率を共に乗算し、最も高い組み合わせ確率を有 する候補を認識候補として選択するステップを含むことを特徴とする音声認識方 法。 8. 請求項7の音声認識方法において: ケプストラムパラメータを用いて検索されるセグメント境界の18フレーム以 内にフレームが制限されることを特徴とする音声認識方法。
JP7502266A 1993-06-24 1994-05-18 音声認識方法 Expired - Lifetime JP3049259B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US08/080,543 US5515475A (en) 1993-06-24 1993-06-24 Speech recognition method using a two-pass search
US08/080,543 1993-06-24
US080,543 1993-06-24
PCT/CA1994/000284 WO1995000949A1 (en) 1993-06-24 1994-05-18 Speech recognition method using a two-pass search

Publications (2)

Publication Number Publication Date
JPH08506430A true JPH08506430A (ja) 1996-07-09
JP3049259B2 JP3049259B2 (ja) 2000-06-05

Family

ID=22158066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7502266A Expired - Lifetime JP3049259B2 (ja) 1993-06-24 1994-05-18 音声認識方法

Country Status (6)

Country Link
US (1) US5515475A (ja)
EP (1) EP0705473B1 (ja)
JP (1) JP3049259B2 (ja)
CA (1) CA2163017C (ja)
DE (1) DE69420842T2 (ja)
WO (1) WO1995000949A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250585A (ja) * 1999-02-25 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体
WO2008108232A1 (ja) * 2007-02-28 2008-09-12 Nec Corporation 音声認識装置、音声認識方法及び音声認識プログラム

Families Citing this family (205)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3453456B2 (ja) * 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
US5706397A (en) * 1995-10-05 1998-01-06 Apple Computer, Inc. Speech recognition system with multi-level pruning for acoustic matching
US5987414A (en) * 1996-10-31 1999-11-16 Nortel Networks Corporation Method and apparatus for selecting a vocabulary sub-set from a speech recognition dictionary for use in real time automated directory assistance
US5839107A (en) * 1996-11-29 1998-11-17 Northern Telecom Limited Method and apparatus for automatically generating a speech recognition vocabulary from a white pages listing
US5987408A (en) * 1996-12-16 1999-11-16 Nortel Networks Corporation Automated directory assistance system utilizing a heuristics model for predicting the most likely requested number
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US5884259A (en) * 1997-02-12 1999-03-16 International Business Machines Corporation Method and apparatus for a time-synchronous tree-based search strategy
JP3962445B2 (ja) * 1997-03-13 2007-08-22 キヤノン株式会社 音声処理方法及び装置
US6236715B1 (en) 1997-04-15 2001-05-22 Nortel Networks Corporation Method and apparatus for using the control channel in telecommunications systems for voice dialing
US5956675A (en) * 1997-07-31 1999-09-21 Lucent Technologies Inc. Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection
US6018708A (en) * 1997-08-26 2000-01-25 Nortel Networks Corporation Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
US6122361A (en) * 1997-09-12 2000-09-19 Nortel Networks Corporation Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality
US5995929A (en) * 1997-09-12 1999-11-30 Nortel Networks Corporation Method and apparatus for generating an a priori advisor for a speech recognition dictionary
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
US6253178B1 (en) 1997-09-22 2001-06-26 Nortel Networks Limited Search and rescoring method for a speech recognition system
FR2769118B1 (fr) * 1997-09-29 1999-12-03 Matra Communication Procede de reconnaissance de parole
US6253173B1 (en) 1997-10-20 2001-06-26 Nortel Networks Corporation Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
US6631349B1 (en) * 1997-11-27 2003-10-07 Hitachi, Ltd. Speech recognition method and system
US6182038B1 (en) * 1997-12-01 2001-01-30 Motorola, Inc. Context dependent phoneme networks for encoding speech information
US8855998B2 (en) 1998-03-25 2014-10-07 International Business Machines Corporation Parsing culturally diverse names
US8812300B2 (en) 1998-03-25 2014-08-19 International Business Machines Corporation Identifying related names
US6963871B1 (en) * 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US6052443A (en) * 1998-05-14 2000-04-18 Motorola Alphanumeric message composing method using telephone keypad
US6137867A (en) * 1998-05-14 2000-10-24 Motorola, Inc. Alphanumeric message composing method using telephone keypad
US5974121A (en) * 1998-05-14 1999-10-26 Motorola, Inc. Alphanumeric message composing method using telephone keypad
US6208964B1 (en) 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions
SE9802990L (sv) * 1998-09-04 2000-03-05 Ericsson Telefon Ab L M Förfarande och system för taligenkänning
US6493705B1 (en) * 1998-09-30 2002-12-10 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
EP1039446B1 (en) * 1998-10-09 2010-12-08 Sony Corporation Learning device and method, recognizing device and method, and recording medium
US6148285A (en) * 1998-10-30 2000-11-14 Nortel Networks Corporation Allophonic text-to-speech generator
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US6542866B1 (en) 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
US6480827B1 (en) * 2000-03-07 2002-11-12 Motorola, Inc. Method and apparatus for voice communication
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
KR100446289B1 (ko) * 2000-10-13 2004-09-01 삼성전자주식회사 역 히든 마르코브 모델(ihmm)을 이용한 정보 탐색방법및 장치
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
CN1295674C (zh) * 2002-03-27 2007-01-17 诺基亚有限公司 模式识别
EP1372139A1 (en) * 2002-05-15 2003-12-17 Pioneer Corporation Speech recognition apparatus and program with error correction
US7191130B1 (en) * 2002-09-27 2007-03-13 Nuance Communications Method and system for automatically optimizing recognition configuration parameters for speech recognition systems
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
US20040186714A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Speech recognition improvement through post-processsing
US20040254790A1 (en) * 2003-06-13 2004-12-16 International Business Machines Corporation Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars
DE102004001212A1 (de) * 2004-01-06 2005-07-28 Deutsche Thomson-Brandt Gmbh Verfahren und Vorrichtung zum Durchsuchen einer Datenbank in zwei Suchschritten
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US20070005586A1 (en) * 2004-03-30 2007-01-04 Shaefer Leonard A Jr Parsing culturally diverse names
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US20070132834A1 (en) * 2005-12-08 2007-06-14 International Business Machines Corporation Speech disambiguation in a composite services enablement environment
US7877256B2 (en) * 2006-02-17 2011-01-25 Microsoft Corporation Time synchronous decoding for long-span hidden trajectory model
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
KR101415534B1 (ko) * 2007-02-23 2014-07-07 삼성전자주식회사 다단계 음성인식장치 및 방법
JP4322934B2 (ja) * 2007-03-28 2009-09-02 株式会社東芝 音声認識装置、方法およびプログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US20160265332A1 (en) 2013-09-13 2016-09-15 Production Plus Energy Services Inc. Systems and apparatuses for separating wellbore fluids and solids during production
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9135911B2 (en) * 2014-02-07 2015-09-15 NexGen Flight LLC Automated generation of phonemic lexicon for voice activated cockpit management systems
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US9484022B2 (en) 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10839793B2 (en) 2018-04-16 2020-11-17 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
WO2019203795A1 (en) * 2018-04-16 2019-10-24 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
CN112786035A (zh) * 2019-11-08 2021-05-11 珠海市一微半导体有限公司 清洁机器人的语音识别方法、系统和芯片
CN111754987A (zh) * 2020-06-23 2020-10-09 国投(宁夏)大数据产业发展有限公司 一种大数据分析语音识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
EP0438662A2 (en) * 1990-01-23 1991-07-31 International Business Machines Corporation Apparatus and method of grouping utterances of a phoneme into context-de-pendent categories based on sound-similarity for automatic speech recognition
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
US5386492A (en) * 1992-06-29 1995-01-31 Kurzweil Applied Intelligence, Inc. Speech recognition system utilizing vocabulary model preselection

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250585A (ja) * 1999-02-25 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体
WO2008108232A1 (ja) * 2007-02-28 2008-09-12 Nec Corporation 音声認識装置、音声認識方法及び音声認識プログラム
US8612225B2 (en) 2007-02-28 2013-12-17 Nec Corporation Voice recognition device, voice recognition method, and voice recognition program

Also Published As

Publication number Publication date
JP3049259B2 (ja) 2000-06-05
US5515475A (en) 1996-05-07
DE69420842T2 (de) 2000-02-24
CA2163017A1 (en) 1995-01-05
EP0705473A1 (en) 1996-04-10
WO1995000949A1 (en) 1995-01-05
EP0705473B1 (en) 1999-09-22
CA2163017C (en) 2000-01-25
DE69420842D1 (de) 1999-10-28

Similar Documents

Publication Publication Date Title
JPH08506430A (ja) 2経路検索による音声認識方法
JP6686154B2 (ja) 発話認識方法及び装置
EP0303022B1 (en) Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
US5787396A (en) Speech recognition method
US7240002B2 (en) Speech recognition apparatus
US5072452A (en) Automatic determination of labels and Markov word models in a speech recognition system
EP0314908B1 (en) Automatic determination of labels and markov word models in a speech recognition system
US5268990A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
US6374212B2 (en) System and apparatus for recognizing speech
US6178401B1 (en) Method for reducing search complexity in a speech recognition system
EP0590925A1 (en) Method of speech modelling and a speech recognizer
JP2000029495A (ja) ニュ―ラルネットワ―クとマルコフモデル認識技術を用いた音声認識の方法及び装置
JPH0372998B2 (ja)
WO2001065541A1 (fr) Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d&#39;enregistrement
US6253178B1 (en) Search and rescoring method for a speech recognition system
US20040186819A1 (en) Telephone directory information retrieval system and method
JP2002358097A (ja) 音声認識装置
El Hannani et al. Automatic optimization of speech decoder parameters
JP3104900B2 (ja) 音声認識方法
JP3873418B2 (ja) 音声スポッティング装置
Konig et al. Supervised and unsupervised clustering of the speaker space for connectionist speech recognition
JP2005091504A (ja) 音声認識装置
JP3368989B2 (ja) 音声認識方法
JPH10198392A (ja) 音声認識方法
JPH08202384A (ja) 音声認識方法及び装置