JP2004272251A - ブロック同期復号 - Google Patents
ブロック同期復号 Download PDFInfo
- Publication number
- JP2004272251A JP2004272251A JP2004059838A JP2004059838A JP2004272251A JP 2004272251 A JP2004272251 A JP 2004272251A JP 2004059838 A JP2004059838 A JP 2004059838A JP 2004059838 A JP2004059838 A JP 2004059838A JP 2004272251 A JP2004272251 A JP 2004272251A
- Authority
- JP
- Japan
- Prior art keywords
- state
- point
- processing
- hidden markov
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001360 synchronised effect Effects 0.000 title 1
- 230000015654 memory Effects 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 23
- 229910003460 diamond Inorganic materials 0.000 claims description 3
- 239000010432 diamond Substances 0.000 claims description 3
- 238000012567 pattern recognition method Methods 0.000 claims 2
- 238000003909 pattern recognition Methods 0.000 abstract description 11
- 230000008569 process Effects 0.000 abstract description 6
- 230000007704 transition Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A41—WEARING APPAREL
- A41D—OUTERWEAR; PROTECTIVE GARMENTS; ACCESSORIES
- A41D19/00—Gloves
- A41D19/0055—Plastic or rubber gloves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- A—HUMAN NECESSITIES
- A41—WEARING APPAREL
- A41D—OUTERWEAR; PROTECTIVE GARMENTS; ACCESSORIES
- A41D19/00—Gloves
- A41D19/0055—Plastic or rubber gloves
- A41D19/0068—Two-dimensional gloves, i.e. obtained by superposition of two sheets of material
-
- A—HUMAN NECESSITIES
- A41—WEARING APPAREL
- A41D—OUTERWEAR; PROTECTIVE GARMENTS; ACCESSORIES
- A41D19/00—Gloves
- A41D19/0055—Plastic or rubber gloves
- A41D19/0082—Details
-
- A—HUMAN NECESSITIES
- A47—FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
- A47L—DOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
- A47L17/00—Apparatus or implements used in manual washing or cleaning of crockery, table-ware, cooking-ware or the like
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Textile Engineering (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Memory System Of A Hierarchy Structure (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 パターン認識のシステムおよび方法を提供する。
【解決手段】 本発明の態様は、複数状態の隠れマルコフモデルとの組合せで特に有用である。パターン認識は、隠れマルコフモデルブロックによって行われることが可能である。このブロック処理により、プロセッサが、データがキャッシュメモリ内にある間に、データに対してより多くの処理を行うことが可能になる。このようにキャッシュ局所性を高めることにより、本発明の態様は、大幅に向上したパターン認識速度を提供する。
【選択図】 図4
【解決手段】 本発明の態様は、複数状態の隠れマルコフモデルとの組合せで特に有用である。パターン認識は、隠れマルコフモデルブロックによって行われることが可能である。このブロック処理により、プロセッサが、データがキャッシュメモリ内にある間に、データに対してより多くの処理を行うことが可能になる。このようにキャッシュ局所性を高めることにより、本発明の態様は、大幅に向上したパターン認識速度を提供する。
【選択図】 図4
Description
本発明は、パターン認識に関する。詳細には、本発明は、パターン認識において使用される信号処理に関する。
音声認識システムなどのパターン認識システムにおいては、入力信号を取り込み、その信号を復号してその信号によって表わされるパターンを見出そうとの試みが行われている。例えば、音声認識システムでは、一定の音声信号(しばしば、試験信号と呼ばれる)が認識システムによって受け取られ、復号されて音声信号によって表わされる一連の語が識別される。
ほとんどの認識システムにおいては、試験信号のある部分が特定のパターンを表わす尤度を記述する1つまたは複数のモデルを利用して、入ってくる試験信号が復号される。そのようなモデルの例には、ニューラルネット(Neural Net)、動的時間伸縮法(Dynamic Time Warping)、セグメントモデル、および隠れマルコフモデル(HMM)が含まれる。
ほとんどの市販の音声認識システムはHMMを用いて、発話における音声パターンがマッチングされ、しばしば、互いにおよそ10ミリ秒間だけ隔てられた重なり合う「フレーム」に分割される。発話をこれらの10ミリ秒間のフレームに分解することは、入力が、一続きの時系列化されたフレームに変換されることの一例に過ぎない。従来、これらのフレームの評価は、1回に1つのフレームずつ行われる。すなわち、すべてのHMMが、ラウンドロビン式に単一のフレームに関して更新されてから次のフレームに進む。
図3はHMMの基本的な表現を示しているが、これは多くの文献で詳細に説明されている(例えば、非特許文献1参照)。任意の所与の時点で、このモデルは、所与の確率で様々な状態のいずれかにある。各状態は、出力確率分布、および他の状態に対する遷移確率分布を有する。発話の場合、出力分布は10ミリ秒間のフレームに分割された生の音声波形から導出された音響特徴セットをモデル化する。これらの遷移確率および出力確率は、周知の技術に従って訓練(training)ステップによって生成される。
HMMに関する復号の問題は、HMMおよび一連の観察(observation)が与えられたとすると、その一連の観察をもたらす可能性が最も高い状態シーケンスはどのようなものであるかということである。この問題を解決する標準的な方法は、動的プログラミングと呼ばれ、図4に示される。図3に関連して描いた6状態HMMが横向きにされており、時間は、水平軸に沿って進む。このグリッドの各「ポイント」(状態と時間の組合せ)は、観察が与えられたとすると、その時点でHMMがその状態にある確率を表わす。DPマトリックスを通る1つの可能な経路が、太線で強調され(1−8−14−21−27−33−40−47−53−59−66)、特定の配列、すなわち状態シーケンスを表わしている。ポイントに関する確率は、前のポイントの確率、遷移確率、およびその時間ステップに関する出力確率に依存する。各ポイントは、いくつかの前のポイントに依存するので、そのポイントに関する確率を計算するには、前のポイントをまず計算していることが必要であり計算の順序が制限されることとなる。「時間同期」評価順序を図4にポイント内の番号で示している。すなわち、システムは、所与の時間ステップに関するすべての状態を評価してから、次の時間ステップにおいて再開する。これは、唯一の可能な評価順序ではないことに留意されたい。というのは、先行するポイントの計算が済んで初めてポイントを計算するどの順序も、許容できるからである。グレーのポイントは、到達不可能であるか、または可能な終了状態につながらず、したがって、評価する必要のない状態を示している。ただし、多くの実施形態においては、いずれにしてもそれらのポイントが評価される。
リアルタイムシステムでは、同時に実行されている数万のそのようなHMMが存在する可能性がある。それらのモデルは、たくさんのコンピュータメモリを消費し、モデルセット全体を通る各経路により、しばしばCPUキャッシュ容量が使い果たされる。これにより、音声処理が相当に遅くなる。というのは、CPUキャッシュだけが関与するメモリ動作は、より高いレベルのメモリが関与するメモリ動作よりも数倍速く行われるからである。
問題を解決する別の方法も提案されている(例えば、非特許文献2参照)。この方法は、基本的に、所与の時間枠に関して複数のモデルを評価することから、所与のモデルに関して複数の時間枠を評価することにHMM評価の順序を切り替える。この方法は、いくつかの動作が同じ物理メモリ内で行われるため、標準のCPUメモリキャッシュ動作と協力しながら処理メモリの要件を軽減することを意図している。
Huang, Acero and Hon共著, Spoken Language Processing, Chapter 8
Tony Robinson and James Christie共著 "Time-First Search For Large Vocabulary Speech Recognition"
大きな語彙のアプリケーションに対しリアルタイムの連続的な音声認識を提供するため、CPUキャッシュ使用の効率だけでなく、処理ルーチン自体の効率も向上させるさらなる開発が必要とされている。したがって、処理速度だけでなく、処理精度も同様に決定的な重要性を有する。
パターン認識のシステムおよび方法を提供する。本発明の諸所の態様においては、複数状態の隠れマルコフモデルとの組合せが特に有用である。パターン認識は、隠れマルコフモデルブロックによって行われることができる。このブロック処理により、プロセッサは、データがキャッシュメモリ内にある間に、データに対してより多くの処理(operation)を行うことが可能になる。このようにキャッシュ局所性(locality)を高めることにより、本発明の態様において大幅に向上したパターン認識速度が提供されることとなる。
図1は、本発明を実施することができる適切なコンピューティングシステム環境100の例を示している。コンピューティングシステム環境100は、適切なコンピューティング環境の一例に過ぎず、本発明の使用または機能の範囲に関して何ら限定を示唆することを意図するものではない。また、コンピューティング環境100が、例示的な動作環境100に例示した構成要素のいずれか1つ、またはいずれかの組合せに関連する依存性、または要件を有するものと解釈すべきでもない。
本発明は、多数の他の汎用または専用コンピューティングシステム環境またはコンピューティングシステム環境で機能する。本発明で使用するのに適していると考えられる周知のコンピューティングシステム、コンピューティング環境、および/またはコンピューティング構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システム、以上のシステムまたはデバイスのいずれかを含む分散コンピューティング環境等が含まれるが、以上には限定されない。
本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で説明することができる。一般に、プログラムモジュールには、特定のタスクを行う、または特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、構成要素、データ構造等が含まれる。また、本発明は、通信網を介してリンクされたリモートの処理デバイスによってタスクが行われる分散コンピューティング環境において実施することもできる。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルのコンピュータ記憶媒体とリモートのコンピュータ記憶媒体の両方の中に配置することが可能である。
図1を参照すると、本発明を実施するための例示的なシステムが、コンピュータ110の形態で汎用コンピューティングデバイスを含んでいる。コンピュータ110の構成要素には、キャッシュメモリ122(レベル1キャッシュ)およびキャッシュメモリ123(レベル2キャッシュ)を含む中央処理ユニット120、システムメモリ130、ならびにシステムメモリから処理ユニット120までを含む様々なシステム構成要素を結合するシステムバス121が含まれることが可能であるが、以上には限定されない。キャッシュメモリは、データのブロックが、比較的遅いシステムメモリから比較的高速のキャッシュメモリに転送されるのを可能にすることによって処理速度を高める。現在、2つの主なタイプのキャッシュメモリが存在する。レベル1キャッシュメモリは、マイクロプロセッサ自体の上のメモリの一部分である。このメモリは、一般に、システム内のすべての他のメモリよりも高速であるが、マイクロプロセッサのシリコン実装面積(footprint)を直接に増やすため、比較的高価でもある。レベル2キャッシュは、一般に、マイクロプロセッサに近いがマイクロプロセッサ上以外の場所に配置される。このメモリも、通常、システムメモリより高速であるが、レベル1キャッシュメモリよりも遅い。非常におおまかなガイドラインとして、レベル1キャッシュは、レベル2キャッシュよりもおよそ1桁速く動作するものと考えることができ、それでもレベル2キャッシュは、システムRAM全体よりも1桁速く動作する。したがって、システム処理速度は、キャッシュメモリが最も効率的に使用されている場合に最大化される。
システムバス121は、様々なバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺機器バス、およびローカルバスを含むいくつかのタイプのバス構造のいずれかとすることが可能である。例として、これに限られないが、そのようなアーキテクチャには、インダストリスタンダードアーキテクチャ(Industry Standard Architecture)(ISA)バス、マイクロチャネルアーキテクチャ(Micro Channel Architecture)(MCA)バス、エンハンストISA(Enhanced ISA)(EISA)バス、ビデオエレクトロニクススタンダーズアソシエーション(Video Electronics Standards Association)(VESA)ローカルバス、およびメザニン(Mezzanine)バスとしても知られるペリフェラルコンポーネントインターコネクト(Peripheral Component Interconnects)(PCI)バスが含まれる。
コンピュータ110は、通常、様々なコンピュータ読取可能な媒体を含む。コンピュータ読取可能な媒体は、コンピュータ110がアクセスすることができる任意の可能な媒体とすることができ、揮発性の媒体と不揮発性の媒体、取外し可能な媒体と固定の媒体とが含まれる。例として、これに限られないが、コンピュータ読取可能な媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体には、コンピュータ読取可能命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するために任意の方法または技術で実装された揮発性の媒体と不揮発性の媒体、取外し可能な媒体と固定の媒体がともに含まれる。コンピュータ記憶媒体には、RAM、ROM、EEPROM、書き出しメモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気記憶装置、あるいは所望の情報を記憶するのに使用することができ、コンピュータ110がアクセスすることができる任意の他の媒体が含まれるが、以上には限定されない。通信媒体は、通常、搬送波などの変調されたデータ信号、または他のトランスポート機構でコンピュータ読取可能命令、データ構造、プログラムモジュール、またはその他のデータを実体化し、あらゆる情報配信媒体が含まれる。「変調されたデータ信号」という用語は、信号内に情報を符号化するような仕方で特性の1つまたは複数が設定または変更されている信号を意味する。例として、これに限られないが、通信媒体には有線ネットワークまたは直接配線接続などの有線媒体、音響媒体、RF媒体、赤外線媒体、およびその他の無線媒体などの無線媒体が含まれる。また、前述した媒体のいずれかの組合せも、コンピュータ読取可能な媒体の範囲に含まれるべきものである。
システムメモリ130は、読取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132などの揮発性メモリおよび/または不揮発性メモリの形態でコンピュータ読取可能な媒体を含む。始動中などにコンピュータ110内部の要素間で情報を転送するのを助ける基本ルーチンを含む基本入力/出力システム133(BIOS)が、通常、ROM131の中に記憶されている。RAM132は、通常、処理ユニット120が即時にアクセスすることができ、かつ/または処理ユニット120によって現在、処理されているデータおよび/またはプログラムモジュールを含む。例として、これに限られないが、図1は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を示している。
コンピュータ110は、その他の取外し可能な/固定の、揮発性/不揮発性のコンピュータ記憶媒体も含むことが可能である。単に例として、図1は、固定の不揮発性の磁気媒体に対して読取りまたは書込みを行うハードディスクドライブ141、取外し可能な、不揮発性の磁気ディスク152に対して読取りまたは書込みを行う磁気ディスクドライブ151、およびCD−ROMまたは他の光媒体などの取外し可能な不揮発性の光ディスク156に対して読取りまたは書込みを行う光ディスクドライブ155を示している。例示的な動作環境において使用することができるその他の取外し可能な/固定の、揮発性/不揮発性のコンピュータ記憶媒体には、磁気テープカセット、書き出しメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROM等が含まれるが、以上には限定されない。ハードディスクドライブ141は、通常、インターフェース140のような固定のメモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、通常、インターフェース150のような取外し可能なメモリインターフェースでシステムバス121に接続される。
前述し、図1に示したドライブ、および関連するコンピュータ記憶媒体により、コンピュータ読取可能命令、データ構造、プログラムモジュール、および他のデータのストレージがコンピュータ110に提供される。図1で、例えばハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を記憶しているのが示されている。以上の構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じであることも、異なることも可能であることに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147に、ここでは、少なくともそれらが異なるコピーであることを示すために異なる符号を付けている。
ユーザは、キーボード162、マイクロホン163、ならびにマウス、トラックボール、またはタッチパッドなどのポインティングデバイス161などの入力デバイスを介して、コマンドおよび情報をコンピュータ110に入力することができる。その他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナ等が含まれることが可能である。以上の入力デバイス、およびその他の入力デバイスは、しばしば、システムバスに結合されたユーザ入力インターフェース160を介して処理ユニット120に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)などの他のインターフェースおよびバス構造で接続してもよい。また、モニタ191、または他のタイプの表示デバイスも、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータは、出力周辺インターフェース190を介して接続することができるスピーカ197やプリンタ196などの他の周辺出力デバイスも含むことが可能である。
コンピュータ110は、リモートコンピュータ180のような1つまたは複数のリモートコンピュータに対する論理接続を使用するネットワーク化された環境において動作することが可能である。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の一般的なネットワークノードとすることが可能であり、通常、コンピュータ110に関連して前述した要素の多く、またはすべてを含む。図1に描いた論理接続は、ローカルエリアネットワーク(LAN)171および広域ネットワーク(WAN)173を含むが、その他のネットワークを含むことも可能である。そのようなネットワーキング環境は、オフィス、企業全体のコンピュータ網、イントラネット、およびインターネットで一般的である。
LANネットワーキング環境で使用される場合、コンピュータ110は、ネットワークインターフェースまたはネットワークアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用される場合、コンピュータ110は、通常、インターネットなどのWAN173を介して通信を確立するためのモデム172、またはその他の手段を含む。内部にあることも、外部にあることも可能なモデム172は、ユーザ入力インターフェース160、またはその他の適切な機構を介してシステムバス121に接続することが可能である。ネットワーク化された環境では、コンピュータ110に関連して描いたプログラムモジュール、またはプログラムモジュールの部分は、リモートのメモリ記憶装置の中に記憶することが可能である。例として、これに限られないが、図1は、リモートのアプリケーションプログラム185が、リモートコンピュータ180上に常駐しているのを示している。図示したネットワーク接続は、例示的であり、コンピュータ間で通信リンクを確立する他の手段も使用できることが認められよう。
図2は、例示的なコンピューティング環境である携帯情報機器200のブロック図である。携帯情報機器200は、キャッシュメモリ203を含むマイクロプロセッサ202、メモリ204、入力/出力(I/O)構成要素206、およびリモートコンピュータまたは他の携帯情報機器と通信するための通信インターフェース208を含む。一実施形態では、前述した構成要素は、適切なバス210を介して互いに通信するために結合される。
メモリ204は、携帯情報機器200に対する全体的な電力が遮断された場合にメモリ204の中に記憶された情報が失われないように、バッテリバックアップモジュール(図示せず)を有するランダムアクセスメモリ(RAM)などの不揮発性電子メモリとして実装される。メモリ204の一部分は、プログラム実行のためのアドレス指定可能なメモリとして割り振られるのが望ましく、メモリ204の別の部分は記憶用に、例えばディスクドライブ上の記憶をシミュレートして使用されるのが望ましい。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、およびオブジェクト記憶216を含む。動作中、オペレーティングシステム212は、好ましくは、メモリ204からプロセッサ202によって実行される。オペレーティングシステム212は、好ましい一実施形態においては、マイクロソフトコーポレーションから市販されるWINDOWS(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム212は、携帯情報機器に合わせて設計され、1組の公開されたアプリケーションプログラミングインターフェースおよびメソッドを介してアプリケーション214が利用することができるデータベース機能を実装するのが望ましい。オブジェクト記憶216の中のオブジェクトは、少なくとも部分的に、公開されたアプリケーションプログラミングインターフェースおよびメソッドに対する呼出しに応答して、アプリケーション214およびオペレーティングシステム212によって保持される。
通信インターフェース208は、携帯情報機器200が、情報を送受信することを可能にする多数のデバイスおよび技術を表わしている。デバイスには、いくつかを挙げれば、有線モデムおよび無線モデム、サテライト受信機、およびブロードキャストチューナが含まれる。携帯情報機器200は、コンピュータとデータを交換するように、コンピュータに直接に接続することも可能である。そのようなケースでは、通信インターフェース208は、赤外線トランシーバ、あるいはシリアル通信接続またはパラレル通信接続とすることが可能であり、これらすべては、ストリーミング情報を伝送することができる。
入力/出力構成要素206には、タッチパネル(touch−sensitive screen)、キー、ローラ(roller)、およびマイクロホンなどの様々な入力デバイス、ならびに音声ジェネレータ、振動デバイス、およびディスプレイを含む様々な出力デバイスが含まれる。以上に列挙したデバイスは、例であり、携帯情報機器200上にすべてが存在する必要はない。さらに、本発明の範囲内で、その他の入力/出力デバイスを携帯情報機器200に接続し、あるいは備えることができる。
本発明の一態様においては、システムキャッシュ局所性を大幅に高めるようにHMM処理を適合させるシステムおよび方法が提供される。したがって、システムキャッシュの書き出し(flush)が行われるまでに、より多くのHMM演算を行うことができる。したがって、一般的なシステムメモリに対しては以前に必要とされたよりも少ない回数しか呼出しが行われない。よって、処理速度が大幅に向上する。以上の改善を音声処理に関して説明するが、本発明の実施形態は、HMMを使用するあらゆる形態のパターン認識に関する処理を向上させるために実施することができる。
音声をモデル化するのに役立つモデルには、「飛越しを行わない3状態の左から右へ(three−state left−to−right without skipping)」として知られる特定のHMMトポロジを使用するものがある。このトポロジを図5および6に示している。本発明の実施形態においては、基本的に単一のHMMに関して3つのフレームが評価されてから別のHMMを評価するようにHMM評価の順序が変更される。これにより、キャッシュ局所性が大幅に向上し、したがって、処理速度が高められる。
図6は、隠れマルコフモデルブロック(HMMB)にグループ化された図5のモデルを示す図である。それぞれの太線の菱形400により、音声ユニット(すなわち、音素)に対応するHMMBが示されている。各HMMB内で、各状態のフレームの識別番号が与えられている。したがって、HMMB#1内に、状態0の3つのフレーム、状態1の3つのフレーム、および状態2の3つのフレームが存在している。HMMにおける状態の数とは異なるフレーム数を使用しても本発明の実施形態の利点は実現できると思われるが、フレーム数は、HMM状態の数と等しいことが好ましい。さらに、菱形の形状が現れているのは、前述したとおり、前のポイントが評価されてからでないと、任意の所与のポイントを評価することができないからである。図6に示したHMMBのサイズは、使用される状態の数(3状態の左から右へのHMM)にマッチするように選択されている。異なるHMMトポロジにより、異なる形状のHMMBが生じる可能性のあることを意図しており、これは、本発明の趣旨および範囲に含まれる。例えば、10状態の左か右へのHMM(手書き認識などの何らかの他の形態のパターン認識に役立つ可能性がある)には、10フレームのHMMBが適する。さらに、5つの状態を有するときとして使用されるトポロジは、各フレーム上で自らに遷移すること、次の状態に遷移すること、または次の状態の後の状態に遷移することが可能である。その場合、3フレームのHMMBが依然として使用可能であるが(HMMに対するどの入力も、出力に到達するのに少なくとも3つのフレームを要するので)、HMMBの形状は、「幅」3フレーム、「高さ」5状態であることになる。
本発明の実施形態によれば、各HMMBは、ユニットとして評価される。本明細書で使用するHMMBは、HMM処理システム内のすべてのポイントのサブセットである。ブロックは、時間と状態の両方で互いに異なる少なくとも2つのポイントを含む。各HMMBの評価は、前のHMMBの出力だけに依存する。
各HMMBは、インターブロック入力(entry)ポイント、イントラブロック入力ポイント、インターブロック出力(exit)ポイント、およびイントラブロック出力ポイントを含む。図6を参照すると、ポイント402、408、および414は、他のHMMBからスコアまたは値を受け取ることができることから、インターブロック入力ポイントである。ポイント402、404、および406は、同一のHMM内の前のブロックからスコアを受け取ることができることから、イントラブロック入力ポイントである。ブロック4に対して、ブロック1は、同一のHMM内の前のブロックと考えられる。ポイント402は、ブロック内入力ポイントであるだけでなく、ブロック内入口ポイントでもあることに留意されたい。ポイント406、412、および418は、インターブロック出力ポイントである。というのは、これらのポイントは、ブロック5のような他のブロックのインターブロック入力ポイントに自らの値を与えることができるからである。最後に、ポイント414、416、および418は、イントラブロック出力ポイントと考えることができる。
ブロックの処理が開始する前に、インターブロック入力ポイントおよびイントラブロック入力ポイントで終わる最良経路(path)に関するスコアが、前もって算出される。さらに、その最良経路に沿った先行する状態に対するポインタが、入力ポイントの中に記憶されている。
ブロックの処理は、時間的に一番先のポイントで始まる。図6で、そのポイントには、402の符号が付けられている。ポイント402は、ポイント404のスコアに、ポイント402からの遷移先となることが可能なそれぞれのポイント(404、406)に関する遷移確率を掛けることによって処理される。次に、このスコアが、遷移先のポイント(transitioned point)の既存の値と比較され、ポイント402を通るスコアが、遷移先のポイントの既存のスコアより高いかどうかが判定される。遷移先のポイントの既存のスコアより高い場合、その遷移先のポイントが、新しい最大値を反映するように更新され、ポイント402に関連するポインタが設定される。
ポイント402が処理されると、ポイント404を処理することができる。ポイント404の処理は、ポイント404が、同一のHMM内の直前のブロックからの対応するイントラブロック出力ポイントと、ブロック402からのスコアの大きい方に最初に設定されていることで、比較的単純明快である。ポイント406は、ポイント404と同様に処理される。ただし、ポイント406はブロック間出力ポイントであるため、ポイント406のスコアは、他のブロックのいくつかのブロック内入力ポイントを更新するのにも使用することができる。
ポイント408も、402が処理されると、処理することができる。ポイント404とポイント408の間の処理の相対順序は、設計上の選択の問題である。ポイント408は、処理に先立ち、ポイント402の遷移確率と合わせたポイント402と、ポイント404に結合する可能性があると想定されるすべての出力ポイントのなかで、最高スコアをとることで、ポイント402と多少、似通った仕方で処理される。この場合も、ポインタ、または他の適切なレコードが、最高スコアを生成したポイントを示すように設定される。ポイント408を処理することは、ポイント408のスコアに、ポイント408が遷移する際に可能な遷移確率を掛けて、可能性として、ポイント410および414の値を更新することを含む。
ポイント410、412、416、および418は、ポイント404および406と同様に処理される。さらに、ポイント414の処理は、ポイント408に関して前述したのと同様である。
ブロック1内のすべての処理が完了すると、出力(exit)スコア処理が行われる。具体的には、各インターブロック出力ポイントに関して、言語モデルが調べられる。言語モデルは、どの遷移が許容できるかを示し、音声ユニット間で遷移することに関する遷移確率も示す。したがって、例えば、言語モデルは、ブロック1の音声ユニットから他の音声ユニットに遷移する許容可能性(allowability)および確率を示す。次に、この確率が、ポイント406のようなインターブロック出力ポイントのスコアと合併されて、その合併が、次の時間フレーム内のいずれかの許容可能な(言語モデルにより)痛―ブロック入力ポイントにおいて存在するスコアより高いかどうかが判定される。その合併が実際により高い場合、インターブロック入力ポイントが、新しい最大値を反映するように更新され、関連するポインタ、または他の適切なレコードが設定される。このプロセスが、インターブロック出力ポイント412および418に関して繰り返される。図6の破線で示すとおり、インターブロック出力ポイントは、同じ音声ユニットに関する時間的に次のブロックのインターブロック入力ポイントにも結合することが可能である(すなわち、406が420に結合する)ことに留意されたい。
ポイント416および418は、自らのスコアを同じ音声ユニットに関する時間的に次のブロックのイントラブロック入口ポイントに与える。最後に、ポイント420が、ポイント402に関して前述したとおりに処理され、プロセスは、次のブロックに進む。
ブロック1の処理が完了すると、好ましくは、別の音声ユニットに対応するブロックの処理が開始する。例示的なブロック処理順序をブロック1−2−3−4−5−6−7−8−9として図6に示している。ただし、本発明の範囲を逸脱することなく、他の順序も実施することができる。ポイントのいくつかは、グレーにされ、それらのポイントが、到達不可能であるか、または可能な終了状態につながらないことが示されていることに留意されたい。そのようなポイントを実際に処理しなければ、さらなる処理効率を実現することができる。
本発明を特定の実施形態に関連して説明してきたが、本発明の趣旨および範囲を逸脱することなく、形態および詳細の変更を行うことができることが、当分野の技術者には認識されよう。
200 携帯情報機器
202 マイクロプロセッサ
203 キャッシュメモリ
204 メモリ
206 入力/出力構成要素
208 通信インターフェース
210 バス
212 オペレーティングシステム
214 アプリケーションプログラム
216 オブジェクト記憶
402、404、406、408、410、412、414、416、418、420 隠れマルコフモデルブロックのポイント
202 マイクロプロセッサ
203 キャッシュメモリ
204 メモリ
206 入力/出力構成要素
208 通信インターフェース
210 バス
212 オペレーティングシステム
214 アプリケーションプログラム
216 オブジェクト記憶
402、404、406、408、410、412、414、416、418、420 隠れマルコフモデルブロックのポイント
Claims (17)
- デジタル表現で入力を行うよう適合された入力デバイスと、
前記入力デバイスに結合されて動作可能な、前記デジタル表現、および前記デジタル表現に関連する複数の複数状態モデルを記憶するメモリと、
前記入力デバイスおよび前記メモリに結合され、キャッシュメモリを含み、前記デジタル表現を複数の時系列化されたフレームに変換するよう適合されたプロセッサと
を備えた連続パターン認識システムであって、
前記プロセッサは、前記キャッシュメモリの中に記憶された前記時系列化されたフレーム、および前記複数状態モデルのブロックの処理に基づいて、認識されたパターンの出力を生成するよう適合されていることを特徴とするシステム。 - 前記複数状態モデルは、3状態隠れマルコフモデルであることを特徴とする請求項1に記載のシステム。
- 前記入力デバイスは、マイクロホンであることを特徴とする請求項1に記載のシステム。
- 前記認識されたパターンの出力は、語を含むことを特徴とする請求項1に記載のシステム。
- コンピュータ内部で実現されることを特徴とする請求項1に記載のシステム。
- 携帯情報機器内部で実現されることを特徴とする請求項1に記載のシステム。
- 時系列化されたフレームにより形成される入力におけるパターンを認識する方法であって、
パターンを複数の複数状態隠れマルコフモデルを使用してモデル化するステップと、
隠れマルコフモデルブロック(HMMB)を処理して前記時系列化されたフレームのなかで前記モデル化済みパターンを認識し、当該認識されたモデル化済みパターンのシーケンスを生成するステップと
を含むことを特徴とする方法。 - 前記時系列化されたフレームは、音声に対応することを特徴とする請求項7に記載の方法。
- 前記複数状態隠れマルコフモデルは、3状態隠れマルコフモデルであることを特徴とする請求項7に記載の方法。
- 各HMMBは、状態対時間グラフ上に描かれる場合、縦3横3の菱形であることを特徴とする請求項9に記載の方法。
- 各ブロックを処理するステップは、システムキャッシュメモリとだけ対話するステップを含むことを特徴とする請求項9に記載の方法。
- 前記HMMBを処理するステップは、言語モデルにアクセスするステップを含むことを特徴とする請求項7に記載の方法。
- 入力を時系列化されたフレームの系列として表わすステップと、
HMMBおよび前記系列を処理して前記入力に対応する認識されたパターンの出力シーケンスを生成するステップと
を備えたことを特徴とするパターン認識方法。 - 前記入力は、音声に対応することを特徴とする請求項13に記載のパターン認識方法。
- 各HMMBは、3つの状態を含むことを特徴とする請求項13に記載のパターン認識方法。
- 時系列化されたフレームにより形成される入力におけるパターンを認識する方法であって、
a)パターンを複数の複数状態隠れマルコフモデルを使用してモデル化するステップと、
b)第1の複数状態隠れマルコフモデルの第1のポイントを処理するステップと、
c)状態および時間の双方で前記第1のポイントと異なる前記第1の複数状態隠れマルコフモデルの第2のポイントを処理するステップと、
d)前記第1の隠れマルコフモデルの残りのポイント、および前記複数の複数状態隠れマルコフモデルのその他のモデルのポイントを処理して、前記時系列化されたフレームのなかで前記モデル化済みパターンを認識し、認識されたモデル化済みパターンのシーケンスを生成するステップと
を備えたことを特徴とする方法。 - 前記第1のポイントおよび前記第2のポイントは、HMMBを含むことを特徴とする請求項16に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/379,244 US7529671B2 (en) | 2003-03-04 | 2003-03-04 | Block synchronous decoding |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004272251A true JP2004272251A (ja) | 2004-09-30 |
Family
ID=32824766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004059838A Pending JP2004272251A (ja) | 2003-03-04 | 2004-03-03 | ブロック同期復号 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7529671B2 (ja) |
EP (1) | EP1455341A3 (ja) |
JP (1) | JP2004272251A (ja) |
KR (1) | KR20040078595A (ja) |
CN (1) | CN1532807A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009210975A (ja) * | 2008-03-06 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、方法、プログラム及びその記録媒体 |
JP2009210976A (ja) * | 2008-03-06 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、方法、プログラム及びその記録媒体 |
Families Citing this family (213)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU6630800A (en) | 1999-08-13 | 2001-03-13 | Pixo, Inc. | Methods and apparatuses for display and traversing of links in page character array |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) * | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
KR101057191B1 (ko) * | 2008-12-30 | 2011-08-16 | 주식회사 하이닉스반도체 | 반도체 소자의 미세 패턴 형성방법 |
US8862252B2 (en) * | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US20110110534A1 (en) * | 2009-11-12 | 2011-05-12 | Apple Inc. | Adjustable voice output based on device status |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
WO2013033119A1 (en) | 2011-08-29 | 2013-03-07 | Accumente, Llc | Utilizing multiple processing units for rapid training of hidden markov models |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN105144133B (zh) | 2013-03-15 | 2020-11-20 | 苹果公司 | 对中断进行上下文相关处理 |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN110096712B (zh) | 2013-03-15 | 2023-06-20 | 苹果公司 | 通过智能数字助理的用户培训 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11978436B2 (en) | 2022-06-03 | 2024-05-07 | Apple Inc. | Application vocabulary integration with a digital assistant |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06266384A (ja) * | 1993-03-16 | 1994-09-22 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 音響モデル適応方式 |
JPH06282292A (ja) * | 1993-03-26 | 1994-10-07 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 音声認識方式 |
JPH07230294A (ja) * | 1994-02-18 | 1995-08-29 | Matsushita Electric Ind Co Ltd | 言語識別装置 |
JPH10274995A (ja) * | 1997-03-31 | 1998-10-13 | Nec Corp | 大語彙音声認識方法及び装置 |
JPH117292A (ja) * | 1997-06-16 | 1999-01-12 | Nec Corp | 音声認識装置 |
JP2002533771A (ja) * | 1998-12-21 | 2002-10-08 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声認識履歴にもとづく言語モデル |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5621859A (en) * | 1994-01-19 | 1997-04-15 | Bbn Corporation | Single tree method for grammar directed, very large vocabulary speech recognizer |
CA2216224A1 (en) * | 1997-09-19 | 1999-03-19 | Peter R. Stubley | Block algorithm for pattern recognition |
US6141641A (en) | 1998-04-15 | 2000-10-31 | Microsoft Corporation | Dynamically configurable acoustic model for speech recognition system |
US7269558B2 (en) | 2000-07-31 | 2007-09-11 | Texas Instruments Incorporated | Decoding multiple HMM sets using a single sentence grammar |
WO2002029612A1 (en) | 2000-09-30 | 2002-04-11 | Intel Corporation | Method and system for generating and searching an optimal maximum likelihood decision tree for hidden markov model (hmm) based speech recognition |
-
2003
- 2003-03-04 US US10/379,244 patent/US7529671B2/en not_active Expired - Fee Related
-
2004
- 2004-02-06 EP EP04002695A patent/EP1455341A3/en not_active Withdrawn
- 2004-03-03 JP JP2004059838A patent/JP2004272251A/ja active Pending
- 2004-03-03 CN CNA2004100286448A patent/CN1532807A/zh active Pending
- 2004-03-04 KR KR1020040014528A patent/KR20040078595A/ko not_active Application Discontinuation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06266384A (ja) * | 1993-03-16 | 1994-09-22 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 音響モデル適応方式 |
JPH06282292A (ja) * | 1993-03-26 | 1994-10-07 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 音声認識方式 |
JPH07230294A (ja) * | 1994-02-18 | 1995-08-29 | Matsushita Electric Ind Co Ltd | 言語識別装置 |
JPH10274995A (ja) * | 1997-03-31 | 1998-10-13 | Nec Corp | 大語彙音声認識方法及び装置 |
JPH117292A (ja) * | 1997-06-16 | 1999-01-12 | Nec Corp | 音声認識装置 |
JP2002533771A (ja) * | 1998-12-21 | 2002-10-08 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声認識履歴にもとづく言語モデル |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009210975A (ja) * | 2008-03-06 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、方法、プログラム及びその記録媒体 |
JP2009210976A (ja) * | 2008-03-06 | 2009-09-17 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、方法、プログラム及びその記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
EP1455341A3 (en) | 2007-06-20 |
EP1455341A2 (en) | 2004-09-08 |
KR20040078595A (ko) | 2004-09-10 |
US7529671B2 (en) | 2009-05-05 |
US20040176956A1 (en) | 2004-09-09 |
CN1532807A (zh) | 2004-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004272251A (ja) | ブロック同期復号 | |
US10127902B2 (en) | Optimizations to decoding of WFST models for automatic speech recognition | |
US11727917B1 (en) | Silent phonemes for tracking end of speech | |
JP6058807B2 (ja) | 検索クエリ情報を使用する音声認識処理のための方法およびシステム | |
JP2020112787A (ja) | 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
WO2017076222A1 (zh) | 语音识别方法及装置 | |
EP2438533B1 (en) | Recognition using re-recognition and statistical classification | |
JP2004246368A (ja) | テキストから単語誤り率を予測するための方法および装置 | |
US11532301B1 (en) | Natural language processing | |
JP7351018B2 (ja) | エンド・ツー・エンド音声認識における固有名詞認識 | |
JP2001282283A (ja) | 音声認識方法及び装置と記憶媒体 | |
CN110287303B (zh) | 人机对话处理方法、装置、电子设备及存储介质 | |
US11626107B1 (en) | Natural language processing | |
EP4295357A1 (en) | Mixture model attention for flexible streaming and non-streaming automatic speech recognition | |
JP7375211B2 (ja) | アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデル | |
US20240046921A1 (en) | Method, apparatus, electronic device, and medium for speech processing | |
US20230352006A1 (en) | Tied and reduced rnn-t | |
US9224384B2 (en) | Histogram based pre-pruning scheme for active HMMS | |
US20230107493A1 (en) | Predicting Word Boundaries for On-Device Batching of End-To-End Speech Recognition Models | |
US11627185B1 (en) | Wireless data protocol | |
US20220310061A1 (en) | Regularizing Word Segmentation | |
WO2024008215A2 (zh) | 语音情绪识别方法及装置 | |
US20240169981A1 (en) | End-To-End Segmentation in a Two-Pass Cascaded Encoder Automatic Speech Recognition Model | |
CN114882880A (zh) | 基于解码器的语音唤醒方法及其相关设备 | |
CN116110376A (zh) | 关键词检测模型训练方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070305 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100302 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100806 |