JP2005509905A - 辞書データの圧縮方法 - Google Patents
辞書データの圧縮方法 Download PDFInfo
- Publication number
- JP2005509905A JP2005509905A JP2003544726A JP2003544726A JP2005509905A JP 2005509905 A JP2005509905 A JP 2005509905A JP 2003544726 A JP2003544726 A JP 2003544726A JP 2003544726 A JP2003544726 A JP 2003544726A JP 2005509905 A JP2005509905 A JP 2005509905A
- Authority
- JP
- Japan
- Prior art keywords
- units
- phoneme
- sequence
- unit
- entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 54
- 238000013144 data compression Methods 0.000 title 1
- 230000006835 compression Effects 0.000 claims abstract description 34
- 238000007906 compression Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 24
- 238000012896 Statistical algorithm Methods 0.000 claims abstract description 5
- 230000015654 memory Effects 0.000 claims description 43
- 238000013507 mapping Methods 0.000 claims description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 4
- 238000010295 mobile communication Methods 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005309 stochastic process Methods 0.000 description 3
- 230000003936 working memory Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For Music (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本発明は、データ処理装置において圧縮のための発音辞書のプレ処理に関係し、発音辞書は少なくとも1つのエントリィを備え、エントリィはキャラクタユニットのシーケンスと音素ユニットのシーケンスを備える。本発明の第1の態様によれば、キャラクタユニットのシーケンスと音素ユニットのシーケンスは、統計的なアルゴリズムを使用して整列される。整列されたキャラクタユニットのシーケンスと整列された音素ユニットのシーケンスは、対応するキャラクタユニットに対する所定の位置に各音素ユニットを挿入することにより、挟み込まれる。
Description
本発明は、話者独立な話(スピーチ)認識に関し、より正確には発音辞書の圧縮に関する。
近年、例えば自動車ユーザインターフェース、及び移動電話、PDA装置及び携帯コンピュータのような移動端末として異なるスピーチ認識の応用が開発されている。既知の移動端末の方法は、移動端末のマイクロフォンに彼/彼女の名前を大声で言うことにより及びユーザによって言われた名前に従って番号を呼び出す設定を行なうことにより特定の人物に電話をかけるための方法を含む。しかしながら、現在の話者独立の方法は、スピーチ認識システムが各名前の発音を認識するように訓練されることを通常は必要とする。話者独立のスピーチ認識は、スピーチ制御のユーザインターフェースの利便性を改善するが、これは訓練段階が除かれるためである。話者独立の名前選択においては、名前の発音はあらかじめ記憶でき、ユーザにより言われた名前は、音素(フォニーム)シーケンスのようなあらかじめ定義された発音と特定できる。多くの言語では、多くの語の発音は規則又はモデルによっても表せるが、いくつかの語の発音はいまだにこれらの規則又はモデルによっては正確に発生できない。しかし、多くの言語では、発音は一般の発音規則(ルール)によって提供できないが、各語は特定の発音を有する。これらの言語において、スピーチ認識はいわゆる発音辞書の使用に依存しており、そこでは言語の各語の書かれた形とその発音の音標表現がリスト状の構造に記憶されている。
近年、例えば自動車ユーザインターフェース、及び移動電話、PDA装置及び携帯コンピュータのような移動端末として異なるスピーチ認識の応用が開発されている。既知の移動端末の方法は、移動端末のマイクロフォンに彼/彼女の名前を大声で言うことにより及びユーザによって言われた名前に従って番号を呼び出す設定を行なうことにより特定の人物に電話をかけるための方法を含む。しかしながら、現在の話者独立の方法は、スピーチ認識システムが各名前の発音を認識するように訓練されることを通常は必要とする。話者独立のスピーチ認識は、スピーチ制御のユーザインターフェースの利便性を改善するが、これは訓練段階が除かれるためである。話者独立の名前選択においては、名前の発音はあらかじめ記憶でき、ユーザにより言われた名前は、音素(フォニーム)シーケンスのようなあらかじめ定義された発音と特定できる。多くの言語では、多くの語の発音は規則又はモデルによっても表せるが、いくつかの語の発音はいまだにこれらの規則又はモデルによっては正確に発生できない。しかし、多くの言語では、発音は一般の発音規則(ルール)によって提供できないが、各語は特定の発音を有する。これらの言語において、スピーチ認識はいわゆる発音辞書の使用に依存しており、そこでは言語の各語の書かれた形とその発音の音標表現がリスト状の構造に記憶されている。
移動電話では、コスト及びハードウエアの大きさが理由でメモリサイズがしばしば制限される。これは、スピーチ認識応用での制限にもなる。多重ユーザインターフェース言語有することが可能な装置では、話者独立のスピーチ認識ソルーション(解法)は、発音辞書をしばしば使用する。発音辞書は二千の名前に対して例えば37KBというように大きいため、記憶するには圧縮する必要がある。概略的にいえば、ほとんどのテキスト圧縮方法は、辞書ベースと統計ベースの2つのクラスに入る。辞書ベースの圧縮では、例えばLZ77/78及びLZW(Lempel-Ziv-Welch)などのいつくかの異なる導入がある。演算コード化などの統計的な方法をパワーフルモデル化技術と組み合わせることにより、辞書ベース方法だけより一層良好なパフォーマンスが実現できる。しかしながら、統計ベースの方法には、逆圧縮処理の間大きなワーキングメモリ(バッファ)を必要とするという問題がある。従って、このソルーション移動端末のような小型の携帯電子装置で使用するには適さない。
現在ある圧縮方法は、一般に良いが、発音辞書の圧縮は携帯装置については十分に効率がよいとはいえない。
本発明の目的は、発音辞書を圧縮するためのより効率的な圧縮方法を提供することである。本発明の目的は、独立項に開示されたことを特徴とする方法、電子装置、システム及びコンピュータプログラム製品で実現される。本発明の好適な実施例は、独立項に記載される。
本発明の第1の態様によれば、発音辞書は圧縮の前にプレ(予備)処理される。プレ処理は、辞書を圧縮するためのどのような方法とも一緒に使用できる。プレ処理では、発音辞書における各エントリィ(入力)は、統計的なアルゴリズムを使用して整列される。整列(整列)の間、キャラクタ(文字)ユニットのシーケンス及び音素ユニットのシーケンスは、シーケンスにおいて同一数のユニットを有するように変形される。キャラクタユニット及び音素ユニットの整列されたシーケンスは、各音素ユニットが対応するキャラクタユニットに対して所定の位置に挿入されるように、挟み込まれる。
キャラクタユニットのシーケンスは、典型的にはレター(文字)を含むテキストシーケンスである。言語によっては、アルファベット的な組みが、従来の英語のアルファベットより多いレター又はシンボルを有するように拡張できる。
音素ユニットのシーケンスは語の発音を表し、それは、例えばSAMPA(Speech Assessment Methods Phonetic Alphabet)(音声アセスメント方法音標アルファベット)表示法における”@”、”A:”、”{”のようなレター及びシンボルを通常含む。1つの音素は1つより多いレター又はシンボルで表せるから、音素は白スペースキャラクタで分離される。
本発明の第2の態様によれば、電子装置は、テキスト列入力(インプット)を音素ユニットのシーケンスに変換するように構成される。キャラクタユニットを備える第1のユニットの組みと、音素ユニットを備える第2のユニットの組みとを備えるエントリィを備えるプレ処理された発音辞書が、装置のメモリに記憶される。第1の組のユニットと第2の組みのユニットは整列されて、対応するキャラクタユニットに対して所定の位置に各音素ユニットを挿入することにより挟み込まれる。テキスト列入力のためのマッチングエントリィは、プレ処理された発音辞書から、エントリィの第1の組のユニットを所定の位置から使用して見つけられる。マッチングエントリィから第2の組みのユニットが選択され、音素ユニットのシーケンスに結び付けられる。更に、空のスペースが音素ユニットのシーケンスから除かれる。
本発明の第3の態様によれば、電子装置は、スピーチ情報入力をキャラクタユニットのシーケンスに変換するように構成される。プレ処理発音辞書はエントリィを備え、エントリィは、キャラクタユニットを備えるセットの第1の組みと、音素ユニットを備えるユニットの第2の組みとを備え、第1の組みのユニットと第2の組みのユニットは、整列されて、対応するキャラクタユニットに対して所定の位置に各音素ユニットを挿入することにより挟み込まれる。このようなプレ処理発音辞書が装置のメモリに記憶される。各エントリィの音素の表現のための発音モデルは、発音辞書と一緒にメモリに記憶されるか、処理の間に生成されるかのいずれかである。スピーチ情報に対するマッチングエントリィは、スピーチ情報を発音モデルと比較して、最も対応するエントリィを選択することにより見つけられる。マッチングエントリィから、第1の組のユニットが選択されて、キャラクタユニットに結びつけられる。最後に、空のスペースがキャラクタユニットのシーケンスから除かれる。
本発明の1つの利点は、上記のプレ処理で辞書のエントロピィ(H)が低くなることである。情報理論によれば、エントロピィが圧縮の下限(損失無しに可能な最高の圧縮に対する圧縮の比)を決定するから、低エントロピィレートは、より効果的な圧縮が実行できることを示す。これは、よりよい圧縮を可能にし、メモリの必要量を小さくする。更に、発音辞書は相対的に簡単になり、スピーチ認識のための応用を高速にする。
本発明の1つの実施例では、HMMビタビィアルゴリズムが整列に使用されるように適合される。HMMビタビィアルゴリズムは、整列が統計的な意味で最適な方法で実行され、従って辞書エントリィの残ったエントロピィを最小にすることを保証する。更に、整列におけるHMMビタビィアルゴリズムの使用の利点は、統計的な意味でより最適な整列に到達できるということである。
本発明の他の実施例では、マッピングステップがプレ処理に付加される。マッピングは、整列の前又は後に行なえる。このステップでは、各音素ユニットは1つのシンボルにマップされ、多重キャラクタにより表される音素ユニットの代わりになり、単一のシンボルが音素ユニットを示すのに使用される。マッピング技術を使用することにより、白スペースのキャラクタはエントリィから除くことができ、挟み込んだシーケンスのデコードがまだ可能である。白スペースキャラクタの除去は圧縮比を更に改善する。更に、マッピングの利点は、この方法が多重言語にも適用でき、すなわち装置におけるすべての言語に対する大きなマッピングテーブルさえ使用できる点である。
以下、本発明を、付属の図面を参照して、好適な実施例によって詳細に説明する。
図1は、本発明の好適な実施例に関係する部分のみを示したデータ処理装置(TE)を示す。データ処理装置(TE)は、例えば、パーソナルコンピュータ(PC)又は移動装置である。データ処理装置(TE)は、I/O手段(I/O)、中央処理ユニット(CPU)及びメモリ(MEM)を備える。メモリ(MEM)は、リードオンリィメモリROM部分、及びランダムアクセスメモリRAM及びフラッシュメモリのような書き換え可能な部分を備える。例えば、CD−rom、他の装置及びユーザなどの異なる外部部分との通信に使用される情報は、中央処理ユニット(CPU)へ/又はそれからI/O手段(I/O)を通して送られる。中央処理ユニット(CPU)は、処理ブロック(PRE)及び圧縮ブロック(COM)を備える。これらのブロックの機能は、典型的にはプロセッサにおけるソフトウエアコードの実行により実現されるが、ハードウエアソルーション(例えばASIC)又はこれら2つの組合せで実現することもできる。プレ処理ブロック(PRE)は、図2に詳細を示した好適な実施例のプレ処理ステップを提供する。圧縮ブロック(COM)は、発音辞書の圧縮を提供し、そのためにLZ77、LZW又は演算コーディングなどのいくつかの異なる圧縮方法が使用できる。処理は、圧縮効率を改善するため他のどのような圧縮方法と組み合わせることも可能である。
図1は、本発明の好適な実施例に関係する部分のみを示したデータ処理装置(TE)を示す。データ処理装置(TE)は、例えば、パーソナルコンピュータ(PC)又は移動装置である。データ処理装置(TE)は、I/O手段(I/O)、中央処理ユニット(CPU)及びメモリ(MEM)を備える。メモリ(MEM)は、リードオンリィメモリROM部分、及びランダムアクセスメモリRAM及びフラッシュメモリのような書き換え可能な部分を備える。例えば、CD−rom、他の装置及びユーザなどの異なる外部部分との通信に使用される情報は、中央処理ユニット(CPU)へ/又はそれからI/O手段(I/O)を通して送られる。中央処理ユニット(CPU)は、処理ブロック(PRE)及び圧縮ブロック(COM)を備える。これらのブロックの機能は、典型的にはプロセッサにおけるソフトウエアコードの実行により実現されるが、ハードウエアソルーション(例えばASIC)又はこれら2つの組合せで実現することもできる。プレ処理ブロック(PRE)は、図2に詳細を示した好適な実施例のプレ処理ステップを提供する。圧縮ブロック(COM)は、発音辞書の圧縮を提供し、そのためにLZ77、LZW又は演算コーディングなどのいくつかの異なる圧縮方法が使用できる。処理は、圧縮効率を改善するため他のどのような圧縮方法と組み合わせることも可能である。
プレ処理され圧縮される必要のある発音辞書はメモリ(MEM)に記憶される。辞書は、例えば、CD−ROM又はネットワークなどの外部メモリ装置から、I/O手段(I/O)を使用して、ダウンロードされることも可能である。発音辞書はエントリィを備え、そのそれぞれは交互にキャラクタユニットのシーケンス(テキストシーケンス)と音素ユニットのシーケンス(音素シーケンス)の語を含む。音素ユニットのシーケンスは、キャラクタユニットのシーケンスの発音を表す。音素ユニットの表現は、使用した音素表示システムに依存する。SAMPA及びIPAなどのいくつかの異なる音素表示システムが使用できる。SAMPA(Speech Assessment Methods Phonetic Alphabet)は、機械読み取り可能な音標アルファベットである。国際音声協会は、多数の言語の音声表現のための、米国規格、国際音標アルファベット(IPA)を提供している。SAMPA音素表示システムを使用する辞書エントリィの例を、表1に挙げる。
Hにより示されるエントロピィは、基本的な属性であり、信号のデータ量を特徴付ける。データを失うこと無しに信号を提供する(それを圧縮)最短の方法を見つけることが可能である。最短の表現の長さは、信号のエントロピィにより示される。各信号に対して個別に正確なエントロピィの値を計数する替わりに、それを評価する方法が、Shannon(例えば、C.E.Shannon,通信の数学的理論,ベル研究所技術ジャーナル,Vol.27, pp. 379-423, 623-656, July, October, 1948を参照のこと)により確立されている。これについて、以下に簡単に説明する。
ここで、P(Ij|Ii)が、現在のレター(文字)がアルファベットのj番目であり、前のキャラクタがi番目であると仮定した場合の条件的な確率であり、P(Ii)が前のキャラクタがアルファベットのi番目である確率であるとする。2次の統計的なエントロピィレートH2は、式(1)である。
一般的な場合のエントロピィレートHは、式(2)で与えられる。
ここで、Bnは第1のキャラクタを表す。上記の式(2)に従ってエントロピィレートを演算することは仮想的には不可能である。式(1)のこの予測方法を使用すれば、27キャラクタの英語テキストのエントロピィレートがほぼ2.3ビット/キャラクタであることが評価可能である。
発音辞書の圧縮率を改善するため、テキストのプレ処理がそのエントロピィを下げるように使用される。
図2は、本発明の好適な実施例による方法を示す。この方法は、エントロピィレート(H)を下げるための発音辞書のプレ処理に集中する。
各エントリィは整列される(200)。すなわち、テキスト及び音素シーケンスは、音素シーケンス内で、テキストシーケンス内にあるキャラクタユニットと同じだけの数の音素ユニットを有するように変形される。例えば、英語では、レターは、ゼロ、1つ、又は2つの音素に対応する。整列は、書記素又は音素イプシロン(ヌル)を、テキスト列内のレターの間、又は音素シーケンス内の音素の間に挿入することにより得られる。書記素イプシロンの使用は、例えば”x−>ks”のような、単一のレターに対応することが知られている2つの音素を結び付けることにより得られる擬似音素の短いリストを導入することにより避けることができる。エントリィを整列するために、許された音素の組みが各レター毎に定義されなければならない。音素リストは、レターのための擬似音素及び可能な音素イプシロンを含む。一般的な原理は、必要な時には、(イプシロンとして定義される)書記素ヌルをテキストシーケンスに、及び/又は(やはりイプシロンで呼ばれる)音素ヌルを音素シーケンスに挿入することである。表2は、上記で使用した語を整列後の例として示したものである。
各エントリィは整列される(200)。すなわち、テキスト及び音素シーケンスは、音素シーケンス内で、テキストシーケンス内にあるキャラクタユニットと同じだけの数の音素ユニットを有するように変形される。例えば、英語では、レターは、ゼロ、1つ、又は2つの音素に対応する。整列は、書記素又は音素イプシロン(ヌル)を、テキスト列内のレターの間、又は音素シーケンス内の音素の間に挿入することにより得られる。書記素イプシロンの使用は、例えば”x−>ks”のような、単一のレターに対応することが知られている2つの音素を結び付けることにより得られる擬似音素の短いリストを導入することにより避けることができる。エントリィを整列するために、許された音素の組みが各レター毎に定義されなければならない。音素リストは、レターのための擬似音素及び可能な音素イプシロンを含む。一般的な原理は、必要な時には、(イプシロンとして定義される)書記素ヌルをテキストシーケンスに、及び/又は(やはりイプシロンで呼ばれる)音素ヌルを音素シーケンスに挿入することである。表2は、上記で使用した語を整列後の例として示したものである。
ここで、語’father’は6ユニットを有し、整列後には音素シーケンス’fA:Dεε@’内に6音素がある。整列はいくつかの異なる方法でも行なえる。本発明の1つの実施例によれば、整列は、HMMビダビィアルゴリズムで行なわれる。整列の原理を図3に示し、詳細を説明する。
整列(200)の後、音素表示システムで使用された各音素は、単一シンボル、例えば1バイトASCIIコードにマップされる(202)ことが望ましい。しかしながら、マッピングは本発明の特徴を実行するには必要ないが、それらを更に改善することができる。例えば、マッピングはマッピング表で表される。以下に示す表3は、例として使用される語の音素がどのようにマッピングできるかの例である。
音素を1つのシンボルで表した後、ユニット間のスペースは除くことができる。更に、テキストシーケンスとマッピングされて整列された音素シーケンスの間のスペースも除くことができるが、これは両方のシーケンスに同一の数のユニットがあり、どのキャラクタがテキストに属し、どれが音素表現に属するか明確であるためである。
音素ユニットの単一シンボルへのマッピング(202)は、白スペースキャラクタが除けるので、挟み込みにとって重要なステップである。マッピングは更にそれ自体の最終結果を向上させるが、それは単一のキャラクタは例えば2キャラクタに比べて取るスペースが少なく、対応するテキストキャラクタとの相関が向上するためである。整列(200)とマッピング(202)の順番は最終結果に影響せず、マッピング(202)を整列の前に同様に行なうことができる。
マッピング表は、発音辞書で使用する音素表示方法にのみ依存する。異なる方言又は言語のために異なるシステム又は移植が必要ないように言語独立にすることも可能である。もし異なる音素表示方法での複数の発音辞書が使用されるならば、各音素表示方法のための分離したマッピング表が必要である。
整列(200)及びマッピング(202)の後、エントリィは挟み込まれる(204)。キャラクタ−>音素パターンは連続したレターパターンより高い可能性(低いエントロピィ)を有するから、特に整列が最適に実行されたなら、冗長性は増加する。これは発音の音素を語のレターの間に挿入して単一後を形成することにより行なえる。言い換えれば、音素ユニットは、対応キャラクタユニットの次に挿入される。整列(200)の後、テキストシーケンスと音素シーケンスは同数のシンボルを有し、キャラクタ−音素の組みが容易に見つかる。例えば、表6である。
ここで、イタリック体でボールド体のシンボルは発音音素を表す。元(オリジナル)と新しいフォーマットの間でのエントリィの組立と分解は、一意に定義できることが、例から明らかであるが、これは挟み込まれたテキスト及び音素シーケンスが同数のユニットを有するからである。
プリ処理の後、プレ処理された音素辞書の圧縮(206)が実行できる。
図3は、エントリィの原文及び音素表現を整列するための書記素HMMを示す。
図3は、エントリィの原文及び音素表現を整列するための書記素HMMを示す。
隠しマルコフモデル(Hidden Markov Model (HMM))は、よく知られており、スピーチ認識の例に適用されてきた広く使用された統計的な方法である。これらのモデルは、マルコフ連鎖のマルコフソース又はマルコフ確率関数とも呼ばれる。HMMの基礎となる仮定は、信号はパラメータのランダムなプロセスとしてよく特徴付けできること、及び確率論的なプロセスのパラメータは正確に良好に定義された方法で決定/評価できることである。HMMは、コード語のように各状態に割り当てられる観測可能な事件が個別であるか、又はそれらが連続しているかに応じて個別モデル及び連続モデルに分類できる。いずれの場合も、観察は確率的である。確率的なプロセスの基礎となるモデルは、直接観測的ではないが(それは隠れている)、観測のシーケンスを生成する確率的なプロセスの他の組みを通してのみ見ることができる。HMMは、状態間の遷移を有する隠れた状態で構成される。数学的な表現は、状態間の状態遷移の確率、各状態の観測の確率及び書記状態の分布の3つの項を含む。HMMと観測があると、ビタビィアルゴリズムは、それに続く最良の経路を通して観測状態整列を与えるのに使用される。
この発明では、HMMは隠しマルコフモデルの状態への観測したシーケンスの指定な整列の問題を解くのに使用できることが分かる。更に、ビタビィアルゴリズムはHMMと関連させて、最適な整列を見つけるのに使用することができる。隠しマルコフモデルに関するより多くの情報及びその応用は、例えば、書籍"Speech Recognition System Design and Implementation Issues", pp. 322-342から分かる。
まず、与えられたレター音素の組みについて、ペナルティp(f・l)が、音素fがレターlの許された音素のリスト内に見つけることができるならゼロに初期化され、そうでなければ、それらは大きな正の値に初期化される。初期のペナルティ値で、辞書は2つのステップで並べられる。第1のステップでは、すべての可能な整列が辞書内の各エントリィに対して発生される。すべての整列されたエントリィに基づいて、ペナルティ値が再計算される。第2のステップでは、単一の最良の整列だけが各エントリィ毎に見つけられる。
各エントリィについて、最適な整列が書記素HMMにおけるビダビィアルゴリズムで見つけられる。書記素HMMは、エントリィ(ES)、出口(EXS)及びレター状態(S1,S2及びS3)を有する。擬似音素にマッピングするレターは、期間状態(EPS)を有することにより扱われる。状態1から3(S1,S2,S3)は、語におけるレターに対応する状態である。状態2(S2)は、擬似音素を生成するレターに対応する。前のすべての状態から現在の状態へのスキップは、音素のイプシロンをサポートするために許される。
各状態及び期間状態は、書記素HMMに対しての音素シーケンスの整列の累積するペナルティ(対数確率の和)を含むトークンと、累積値に対応する状態シーケンスとを保持する。音素シーケンスは、1つの音素を一度に音素シーケンスを通して初めから終わりまで行かせることによりレターに対して整列される。レターと音素の間のビダビィ整列を見つけるために、トークン通過が実行される。トークンが1つの状態から他の状態へ通過するに従って、それらは各状態からペナルティを集める。トークンの通過は、次の状態に入るトークンの分離、結合又は選択も含む。最後に最小の累積ペナルティを有するトークンが、HMMの全状態にわたって見つかる。トークンの状態シーケンスに基づいて、語のレターと音素の間の整列が決定できる。
整列は、大部分のエントリィに適切に作用するが、整列できないいくつかの特別なエントリィがある。このような場合、他の簡単な整列が適用される。書記素又は音素のイプシロンがレター又は音素シーケンスの終わりに付加される。
図4は、本発明の好適な実施例による例として使用されるエントリィのプレ処理の詳細を示す。
元のエントリィ(400)は、2つの部分、テキストシーケンス’father’と音素シーケンス’fA:D@’とを有する。これら2つのシーケンスは、白スペースキャラクタで分けられ、更に音素ユニットは白スペースキャラクタで分けられる。
元のエントリィ(400)は、2つの部分、テキストシーケンス’father’と音素シーケンス’fA:D@’とを有する。これら2つのシーケンスは、白スペースキャラクタで分けられ、更に音素ユニットは白スペースキャラクタで分けられる。
整列(402)において、音素及び書記素エプシロンが両方のシーケンスにおいて同数のユニットを有するように付加される。例示の語では、2つの音素イプシロンが使用され、音素シーケンスの結果は’fA:Dεε@’である。
音素ユニットの1つのシンボル表現へのマッピング(404)は、音素シーケンスだけを変化させる。マッピングの後、例示の語の音素シーケンスは’fAD__@’である。
音素ユニットの1つのシンボル表現へのマッピング(404)は、音素シーケンスだけを変化させる。マッピングの後、例示の語の音素シーケンスは’fAD__@’である。
エントリィがマッピングされる時(404)、白スペースキャラクタを除くことができる(406)。その結果、1つの列’fatherfAD__@’になる。
最後のステップは挟み込みであり、例示のエントリィは’ffaAtDh_e_r@’である。ここで、エンtリィは更に処理でき、例えば圧縮できる。
これらのすべてのステップは図2に詳細が記載されている。
最後のステップは挟み込みであり、例示のエントリィは’ffaAtDh_e_r@’である。ここで、エンtリィは更に処理でき、例えば圧縮できる。
これらのすべてのステップは図2に詳細が記載されている。
上記のマッピング(202)も含むプレ処理方法は、実験的にテストされた。実験は、100,000以上の語とそれらの書き換えを含む北米英語のための発音辞書であるカネギーメロン大学発音辞書を使用して行なわれた。実験では、典型的な辞書ベース圧縮方法LZ77及びLZW、及び統計学ベースの圧縮方法2次演算圧縮を使用してまずパフォーマンスが評価された。次に、圧縮方法(LZ77、LZW及び演算的)と一緒にプレ処理方法でパフォーマンスが評価された。表7においては、キロバイトで示される結果は、プレ処理方法がすべての場合においてより良好であることを示している。一般に、どのような圧縮アルゴリズムとも一緒に使用できる。
表7から分かるように、プレ処理はすべての圧縮方法による圧縮率を改善できる。LZ77の圧縮方法と組み合わせることで、プレ処理は圧縮率を20%以上改善した。改善率は、プレ処理をLZW方法又は演算方法と組み合わせた時に一層大きくなり、約40%より良い圧縮率になった。
本発明は、発音辞書が効率的なメモリの使用方法で記憶する必要のある時に、スピーチ認識及びスピーチ合成又はすべての応用に使用されるいかなる一般用途の辞書にも適用可能であることが理解される。更に、本発明は、例えば語の全ての形態及びスペルチェッカプラグラムを示す共通辞書のような、キャラクタレベルで高い相関を有する本文のエントリィのグループを備えるどのような他のリストの圧縮にも適用可能である。
図5は、本発明の好適な実施例に関係する部分だけの電子装置(ED)を示す。電子装置(ED)は、例えば、PDA装置、移動端末、パーソナルコンピュータ(PC)、又はインテリジェントヘッドセット又は遠隔制御装置のようなこれらと一緒に使用することが意図されたどのようなアクセサリィ装置であってもよい。電子装置(ED)は、I/O手段(IO)、中央処理ユニット(PRO)及びメモリ(ME)を備える。メモリ(MEM)は、リードオンリィメモリROM部分、及びランダムアクセスメモリRAM及びフラッシュメモリのような書き換え可能な部分を備える。例えば、ネットワーク、他の装置又はユーザなどの異なる外部部分との通信に使用される情報は、I/O手段(IO)を通して中央処理ユニット(PRO)へ/又はそれから送られる。マイクロフォン又はキーパッドのようなキャラクタシーケンスを装置に送れるようにするユーザインターフェースは、このようにI/O手段(IO)の一部である。プレ処理された発音辞書は、例えば、ネットワークからのダウンロードとして、I/O手段(IO)を通して、データ処理装置(TE)から電子装置(ED)にダウンロードされることが可能である。次いで、辞書は更なる使用方法のためにメモリ(ME)に記憶される。
図6及び図7に示したステップは、電子装置(ED)の中央処理ユニット(PRO)で実行されるコンピュータプログラムコードが設定される。コンピュータプログラムはI/O手段(IO)を通して中央処理ユニット(PRO)にロードされる。設定は、ハードウエアソルーション(例えば、ASIC)又はこれら2つの組合せでも行なえる。1つの好適な実施例によれば、装置(ED)のメモリ(ME)に記憶された音素辞書は、図2に示したようにプレ処理される。
図6において、電子装置(ED)の中央処理ユニット(PRO)は、発音モデルに変換される必要のあるテキスト列を受ける。入力テキスト列は、例えば、I/O手段(IO)を使用して、電子装置(ED)のコンタクトデータベースに加えられるユーザ名である。まず、マッチングエントリィが、メモリ(ME)に記憶されたプレ処理された発音辞書から見つけられる(600)。マッチングエントリィを見つけることは、入力テキスト列をエントリィのキャラクタユニットと比較することに基づいている。エントリィは挟み込まれているので、エントリィ列はキャラクタと音素ユニットの組合せである。もし挟み込みが図で説明した好適な実施例に従って行なわれていたなら、入力列をエントリィと比較した時に、それぞれの2番目のユニットだけが使用される。エントリィのキャラクタユニットは、第1から始めて、奇数ユニットを選択することにより見つけられる。比較はエントリィの元のキャラクタ列となされ、従って書記素イプシロンなどの空スペースは無視される。当業者に知られているマッチ(一致)エントリィを見つけるためのいくつかの方法及びアルゴリズムがあり、それらは本発明の部分ではないので、ここではそれらの説明は行なわない。キャラクタユニットが入力テキスト列のユニットと正確に一致する時、マッチングエントリィが見つかる。しかしながら、いくつかの応用では、替わりに正確に一致しないアルゴリズム、例えばいわゆるワイルドカードを利用するアルゴリズムを使用すると有利である。
マッチングエントリィが見つかった時、エントリィの音素ユニットが選択される(602)。(図2の好適な実施例により行なわれた)挟み込みのため、エントリィ列の各第2のユニットが使用される。音素ユニットを決定するため、選択は2番目のユニットから開始される。選択されたユニットは、音素ユニットのシーケンスを生成するのに結び付けられる。
エントリィが整列されているので、音素ユニットのシーケンスは、例えば音素イプシロンのような空スペースを含む。空スペースは音素だけで構成されるシーケンスを生成するために除かれる(604)。
音素辞書のプレ処理がマッピングも含むならば、逆マッピングが必要である(606)。逆マッピングは、プレ処理の間使用されたのと同様のマッピング表を使用して実行できるが、逆順に行なう。このステップは、例えば1つのキャラクタ表現のような音素ユニットの第1の表現方法を、例えばSAMPAのようなシステムで使用される第2の表現方法に変換する。
音素辞書のプレ処理がマッピングも含むならば、逆マッピングが必要である(606)。逆マッピングは、プレ処理の間使用されたのと同様のマッピング表を使用して実行できるが、逆順に行なう。このステップは、例えば1つのキャラクタ表現のような音素ユニットの第1の表現方法を、例えばSAMPAのようなシステムで使用される第2の表現方法に変換する。
音素ユニットのシーケンスが生成される時、典型的には更に処理され、例えばシーケンスの発音モデルが生成される。1つの実施例によれば、発音モデルは、例えばHMMアルゴリズムを使用する各音素を生成する。音素発音モデルは、メモリ(ME)に記憶される。エントリィの発音モデルを生成するため、音素シーケンスの各音素の発音モデルは、メモリから取り出される(608)。これらの音素モデルは結び付けられ(610)、音素シーケンスの発音モデルが生成される。
上記のテキスト列入力の発音モデルへの変換は、2つの電子装置の間で分配することもできる。例えば、プレ処理された辞書は、ネットワークなどにおいて、第1の電子装置に記憶され、そこで、マッチングエントリィの見つけ出し(600)が実行される。マッチングエントリィは、例えば移動端末のような第2の電子装置に分配され、そこで処理の残り(ステップ602−610)が実行される。
図7は、プレ処理された発音辞書を利用する電子装置(ED)における、スピーチ情報のキャラクタユニットのシーケンスへの変換を示す。電子装置(ED)の中央処理ユニット(PRO)は、I/O手段(IO)を通してスピーチ情報入力を受ける。このスピーチ情報はキャラクタユニットのシーケンスに変換される必要があるが、これは例えばそれをディスプレイ上にテキストとして示したり、それをスピーチ制御装置の所定のスピーチコマンドのテキスト列と比較するなどの更なる使用のためである。
マッチングエントリィの見つけ出し(702)は、入力スピーチ情報の発音辞書における各エントリィの発音モデルとの比較に基づいている。従って、比較の前に、各エントリィの発音がモデル化される(700)。1つの好適な実施例によれば、モデルは電子装置(ED)内で生成される。音素辞書は既に挟み込まれて整列されており、従ってモデル化は、図6で説明したのと同様に、その後のステップ602−610で行なえる。モデル化が電子装置(ED)でなされた時、処理容量及びワーキング(作業)メモリの必要性が増加する。替わりに、発音辞書を記憶するメモリ消費を低く維持できる。
第2の好適な実施例によれば、データ処理装置(TE)における発音辞書のプレ処理の前にモデルが生成される。モデル化は、図6で説明したのと同様に、その後のステップ608と610で行なえる。モデル化がプレ処理の前になされ、辞書はまだ挟み込み、整列又はマッピングがなされていないので、ステップ602−606は不要である。発音モデルは、次にエントリィと一緒にメモリ(MEM)に記憶される。辞書が電子装置(ED)に送られる時、モデルも送られる。このソルーションでは、処理容量及びワーキングメモリを少なくしたために、スピーチ情報をテキストシーケンスに変換する必要がある。替わりに、記憶メモリ(ME)のメモリ消費が減少される。
マッチエントリィの見つけ出し(702)は、入力スピーチ情報及びメモリ(ME)に記憶されたエントリィの発音モデルを使用して行なわれる。スピーチ情報は各エントリィと比較され、入力スピーチ情報が各エントリィ発音モデルとどのくらいよく一致するかの確率が演算される。確率を演算した後、マッチエントリィは最高の確率のエントリィを選択することにより見つけられる。
キャラクタユニットは、次にマッチングエントリィから選択される(704)。図2で説明したように挟み込まれているために、エントリィ列の第2のユニットのそれぞれが使用される。選択は、キャラクタユニットを得るように第1のユニットから始めなければならない。これらの選択されたユニットは、書記素ユニットのシーケンスを形成するように結び付けることができる。
整列のために、書記素ユニットのシーケンスは、例えば書記素イプシロンのような空スペースを含む。書記素だけを有するシーケンスを生成するため、空スペースは除かれる(706)。その結果、システムで更に使用できるテキスト列が得られる。
例えば自動車ユーザインターフェースを有する移動電話のような電子装置は。音声コマンドの話者独立な音声認識を有する。各音声コマンドは、発音辞書におけるエントリィである。ユーザは、運転中に電話の呼び出しをすることを望んでいる。音声認識が動作状態の時、ユーザは「電話(CALL)」と言う。電話は、マイクロフォンで音声コマンドを受けて、スピーチ情報をI/O手段を通して中央処理ユニットに送る。中央処理ユニットは、図7で説明したように、スピーチ入力をテキストシーケンスに変換する。テキストシーケンスは、ユーザに装置がしたことをフィードバックするために、I/O手段を通してディスプレイに送られる。スクリーン上のテキストだけでなく、装置は音でフィードバックすることも可能である。スピーチからテキストへの変換処理の一部として生成されたマッチエントリィの発音モデルは、I/O手段を通してスピーカに送られる。電話は、次にユーザが選択した番号に電話をかける。
付属の図面及びそれに関係する記載は、本発明を説明するためだけのものである。請求項に記載された発明の範囲及び趣旨から逸脱しないで、本発明の異なる変形及び変形例があり得ることは、当業者には明らかである。
Claims (15)
- データ処理装置の圧縮のための発音辞書をプレ処理する方法であって、
前記発音辞書は、少なくとも1つのエントリィを備え、該エントリィはキャラクタユニットのシーケンスと音素ユニットのシーケンスとを備える方法において、
当該方法は、
統計的なアルゴリズムを使用して前記キャラクタユニットと前記音素ユニットの間の整列を決定するように、前記キャラクタユニットのシーケンスと前記音素ユニットのシーケンスとを整列するステップと、
対応するキャラクタユニットに対する所定の位置に、各音素ユニットを挿入することにより、前記整列されたキャラクタユニットのシーケンスと前記整列された音素ユニットのシーケンスを挟み込むステップとを備えることを特徴とする方法。 - 前記整列は、統計的なアルゴリズムであるHMMビダビィアルゴリズムを使用して決定されることを特徴とする請求項1に記載の方法。
- 前記音素ユニットは、対応するキャラクタユニットの次に配置されることを特徴とする請求項1に記載の方法。
- 書記素イプシロンを前記キャラクタユニットのシーケンスに及び/又は音素イプシロンを前記音素ユニットのシーケンスに挿入することにより、前記整列されたキャラクタユニットのシーケンス及び前記整列された音素ユニットのシーケンスの前記音素ユニットが同数のユニットを有するようにされることを特徴とする請求項1から3のいずれか1項に記載の方法。
- 前記キャラクタユニットは、レター又は白スペースキャラクタであることを特徴とする請求項1から4のいずれか1項に記載の方法。
- 前記音素ユニットは、単一音素又は音素イプシロンを表すレター又は白スペースキャラクタであり、1つの前記ユニットは少なくとも1つのキャラクタにより示されることを特徴とする請求項1から5のいずれか1項に記載の方法。
- 当該方法は、
各音素ユニットを1つのシンボルにマッピングするステップを備えることを特徴とする請求項1に記載の方法。 - テキスト列入力を音素ユニットのシーケンスに変換するように構成された電子装置であって、
エントリィを備えるプレ処理された発音辞書を記憶する手段であって、前記エントリィはキャラクタユニットを備える第1の組みのユニットと音素ユニットを備える第2の組みのユニットとを備え、前記第1の組みのユニットと前記第2の組みのユニットは整列されて、各音素ユニットを対応するキャラクタユニットに対する所定の位置に挿入することにより挟み込まれる手段と、
前記プレ処理された発音辞書から、前記テキスト列入力のマッチングエントリィを、前記エントリィの前記第1の組のユニットを所定の位置から使用して見つけ出す手段と、
前記マッチングエントリィから、所定の位置からの前記第2の組のユニットを選択し、それらを音素ユニットのシーケンスに組み合わせる手段と、
前記音素ユニットのシーケンスから空のスペースを除く手段とを備えることを特徴とする電子装置。 - 当該電子装置は、移動通信システムのける移動端末であることを特徴とする請求項8に記載の電子装置。
- 各音素を、第1の音素表現方法から第2の音素表現方法にマッピングする手段を更に備えることを特徴とする請求項8に記載の電子装置。
- スピーチ情報入力をキャラクタユニットのシーケンスに変換するように構成された電子装置であって、
エントリィを備えるプレ処理された発音辞書を記憶する手段であって、前記エントリィはキャラクタユニットを備える第1の組みのユニットと音素ユニットを備える第2の組みのユニットとを備え、前記第1の組みのユニットと前記第2の組みのユニットは整列されて、各音素ユニットを対応するキャラクタユニットに対する所定の位置に挿入することにより挟み込まれる手段と、
各エントリィの音素表現の発音モデルを記憶又は生成する手段と、
前記スピーチ情報を前記発音モデルと比較し、もっとも対応するエントリィを選択することにより、前記スピーチ情報に対するマッチングエントリィを見つけ出す手段と、
前記マッチングエントリィにおいて、前記第1の組のユニットを所定の位置から選択し、それらをキャラクタユニットのシーケンスに組み合わせる手段と、
前記キャラクタユニットのシーケンスから空のスペースを除く手段とを備えることを特徴とする電子装置。 - 互いに通信接続であるように配置された第1の電子装置と第2の電子装置とを備え、テキスト列入力を音素ユニットのシーケンスに変換するように構成されたシステムであって、
前記第1の電子装置は、エントリィを備えるプレ処理された発音辞書を記憶する手段を備え、前記エントリィは各音素ユニットを対応するキャラクタユニットに対する所定の位置に挿入することにより整列及び挟み込まれ、前記エントリィは、キャラクタユニットを備える第1の組みのユニットと、音素ユニットを備える第2の組みのユニットとを備え、
前記第1の電子装置は、前記エントリィの前記第1の組のユニットを使用して、前記プレ処理された発音辞書から前記テキスト列入力のマッチングエントリィを見つけ出す手段を備え、
前記第1の電子装置は、前記マッチングエントリィを前記第2の電子装置に送る手段を備え、
前記第2の電子装置は、前記マッチングエントリィを前記第1の電子装置から受ける手段を備え、
前記第2の電子装置は、前記マッチングエントリィから前記第2の組のユニットを選択し、それを音素ユニットのシーケンスに組み合わせる手段を備え、
前記第2の電子装置は、前記音素ユニットのシーケンスから空のスペースを除く手段を備えることを特徴とするシステム。 - データ処理装置のメモリにロード可能なコンピュータプログラムであって、前記データ処理装置が、
少なくとも1つのエントリィを備え、前記エントリィはキャラクタユニットのシーケンスと音素ユニットのシーケンスとを備える発音辞書を、前記メモリから取り出し、
統計的なアルゴリズムを使用して、前記キャラクタユニットのシーケンスと前記音素ユニットのシーケンスを整列させ、
対応するキャラクタユニットに対する所定の位置に各音素ユニットを挿入することにより、前記整列されたキャラクタユニットのシーケンスと前記整列された音素ユニットのシーケンスを挟み込むようにさせる、前記データ処理装置で実行可能なコードを備えることを特徴とするコンピュータプログラム。 - 電子装置のメモリにロード可能なコンピュータプログラムであって、前記電子装置が、
エントリィを備えるプレ処理された発音辞書であって、前記エントリィはキャラクタユニットを備える第1の組のユニットと音素ユニットを備える第2の組みのユニットとを備え、前記第1の組のユニットと前記第2の組のユニットは整列されて、対応するキャラクタユニットに対する所定の位置に各音素ユニットを挿入することにより挟み込まれているようにプレ処理された発音辞書を、メモリから取り出し、
前記プレ処理された発音辞書から、テキスト列入力のマッチングエントリィを、前記エントリィの第1の組のユニットを所定の位置から使用して見つけ出し、そして空のスペースを無視し、
前記マッチングエントリィから、前記第2の組みのユニットを所定の位置から選択して、音素ユニットのシーケンスに組合せ、
前記音素ユニットのシーケンスから空のスペースを除くようにさせる、前記電子装置で実行可能なコードを備えることを特徴とするコンピュータプログラム。 - 電子装置のメモリにロード可能なコンピュータプログラムであって、前記電子装置が、
エントリィを備えるプレ処理された発音辞書であって、前記エントリィはキャラクタユニットを備える第1の組のユニットと音素ユニットを備える第2の組みのユニットとを備え、前記第1の組のユニットと前記第2の組のユニットは整列されて、対応するキャラクタユニットに対する所定の位置に各音素ユニットを挿入することにより挟み込まれているプレ処理された発音辞書を、メモリから取り出し、
各エントリィの音素表現の発音モデルを記憶又は生成し、
前記スピーチ情報を前記発音モデルと比較し、もっとも対応するエントリィを選択することにより、前記スピーチ情報に対するマッチングエントリィを見つけ出し、
前記マッチングエントリィから、所定の位置からの前記第1の組のユニットを選択し、それらをキャラクタユニットのシーケンスに組み合わせ、
前記キャラクタユニットのシーケンスから空のスペースを除くようにさせる、前記電子装置で実行可能なコードを備えることを特徴とするコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI20012193A FI114051B (fi) | 2001-11-12 | 2001-11-12 | Menetelmä sanakirjatiedon kompressoimiseksi |
PCT/FI2002/000875 WO2003042973A1 (en) | 2001-11-12 | 2002-11-08 | Method for compressing dictionary data |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005509905A true JP2005509905A (ja) | 2005-04-14 |
Family
ID=8562237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003544726A Pending JP2005509905A (ja) | 2001-11-12 | 2002-11-08 | 辞書データの圧縮方法 |
Country Status (12)
Country | Link |
---|---|
US (2) | US7181388B2 (ja) |
EP (1) | EP1444685B1 (ja) |
JP (1) | JP2005509905A (ja) |
KR (1) | KR100597110B1 (ja) |
CN (1) | CN1269102C (ja) |
AT (1) | ATE361523T1 (ja) |
BR (1) | BR0214042A (ja) |
CA (1) | CA2466652C (ja) |
DE (1) | DE60219943T2 (ja) |
ES (1) | ES2284932T3 (ja) |
FI (1) | FI114051B (ja) |
WO (1) | WO2003042973A1 (ja) |
Families Citing this family (145)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US20050120300A1 (en) * | 2003-09-25 | 2005-06-02 | Dictaphone Corporation | Method, system, and apparatus for assembly, transport and display of clinical data |
US8543378B1 (en) * | 2003-11-05 | 2013-09-24 | W.W. Grainger, Inc. | System and method for discerning a term for an entry having a spelling error |
US7783474B2 (en) * | 2004-02-27 | 2010-08-24 | Nuance Communications, Inc. | System and method for generating a phrase pronunciation |
US20050190895A1 (en) * | 2004-03-01 | 2005-09-01 | Lloyd Ploof | Remotely programmable messaging apparatus and method thereof |
JP2006047866A (ja) * | 2004-08-06 | 2006-02-16 | Canon Inc | 電子辞書装置およびその制御方法 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
KR20080107376A (ko) * | 2006-02-14 | 2008-12-10 | 인텔렉츄얼 벤처스 펀드 21 엘엘씨 | 화자 독립 음성 인식을 구비한 통신 장치 |
US7480641B2 (en) * | 2006-04-07 | 2009-01-20 | Nokia Corporation | Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
GB0704772D0 (en) * | 2007-03-12 | 2007-04-18 | Mongoose Ventures Ltd | Aural similarity measuring system for text |
US20090299731A1 (en) * | 2007-03-12 | 2009-12-03 | Mongoose Ventures Limited | Aural similarity measuring system for text |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8078454B2 (en) * | 2007-09-28 | 2011-12-13 | Microsoft Corporation | Two-pass hash extraction of text strings |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US20100082327A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for mapping phonemes for text to speech synthesis |
US8352268B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8712776B2 (en) * | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US7872596B2 (en) * | 2009-02-26 | 2011-01-18 | Red Hat, Inc. | Dictionary-based compression |
US8380507B2 (en) * | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
DE102012202407B4 (de) * | 2012-02-16 | 2018-10-11 | Continental Automotive Gmbh | Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9135912B1 (en) * | 2012-08-15 | 2015-09-15 | Google Inc. | Updating phonetic dictionaries |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
WO2014203370A1 (ja) * | 2013-06-20 | 2014-12-24 | 株式会社東芝 | 音声合成辞書作成装置及び音声合成辞書作成方法 |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10127904B2 (en) * | 2015-05-26 | 2018-11-13 | Google Llc | Learning pronunciations from acoustic sequences |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
KR102443087B1 (ko) | 2015-09-23 | 2022-09-14 | 삼성전자주식회사 | 전자 기기 및 그의 음성 인식 방법 |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10387543B2 (en) * | 2015-10-15 | 2019-08-20 | Vkidz, Inc. | Phoneme-to-grapheme mapping systems and methods |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
CN105893414A (zh) * | 2015-11-26 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 筛选发音词典有效词条的方法及装置 |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
CN109982111B (zh) * | 2017-12-28 | 2020-05-22 | 贵州白山云科技股份有限公司 | 基于直播网络系统的文本内容传输优化方法、装置 |
US10943580B2 (en) * | 2018-05-11 | 2021-03-09 | International Business Machines Corporation | Phonological clustering |
US11210465B2 (en) * | 2019-08-30 | 2021-12-28 | Microsoft Technology Licensing, Llc | Efficient storage and retrieval of localized software resource data |
CN113707137B (zh) * | 2021-08-30 | 2024-02-20 | 普强时代(珠海横琴)信息技术有限公司 | 解码实现方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4759068A (en) | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
US5845238A (en) | 1996-06-18 | 1998-12-01 | Apple Computer, Inc. | System and method for using a correspondence table to compress a pronunciation guide |
US5861827A (en) * | 1996-07-24 | 1999-01-19 | Unisys Corporation | Data compression and decompression system with immediate dictionary updating interleaved with string search |
US5930754A (en) * | 1997-06-13 | 1999-07-27 | Motorola, Inc. | Method, device and article of manufacture for neural-network based orthography-phonetics transformation |
US6233553B1 (en) * | 1998-09-04 | 2001-05-15 | Matsushita Electric Industrial Co., Ltd. | Method and system for automatically determining phonetic transcriptions associated with spelled words |
US6208968B1 (en) * | 1998-12-16 | 2001-03-27 | Compaq Computer Corporation | Computer method and apparatus for text-to-speech synthesizer dictionary reduction |
US6363342B2 (en) * | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
US7080005B1 (en) * | 1999-07-19 | 2006-07-18 | Texas Instruments Incorporated | Compact text-to-phone pronunciation dictionary |
DE19942178C1 (de) * | 1999-09-03 | 2001-01-25 | Siemens Ag | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung |
US6789066B2 (en) * | 2001-09-25 | 2004-09-07 | Intel Corporation | Phoneme-delta based speech compression |
-
2001
- 2001-11-12 FI FI20012193A patent/FI114051B/fi not_active IP Right Cessation
-
2002
- 2002-11-08 BR BR0214042-0A patent/BR0214042A/pt not_active IP Right Cessation
- 2002-11-08 ES ES02774815T patent/ES2284932T3/es not_active Expired - Lifetime
- 2002-11-08 CA CA002466652A patent/CA2466652C/en not_active Expired - Fee Related
- 2002-11-08 AT AT02774815T patent/ATE361523T1/de not_active IP Right Cessation
- 2002-11-08 JP JP2003544726A patent/JP2005509905A/ja active Pending
- 2002-11-08 EP EP02774815A patent/EP1444685B1/en not_active Expired - Lifetime
- 2002-11-08 KR KR1020047007121A patent/KR100597110B1/ko not_active IP Right Cessation
- 2002-11-08 WO PCT/FI2002/000875 patent/WO2003042973A1/en active IP Right Grant
- 2002-11-08 DE DE60219943T patent/DE60219943T2/de not_active Expired - Lifetime
- 2002-11-08 CN CNB028223683A patent/CN1269102C/zh not_active Expired - Fee Related
- 2002-11-11 US US10/292,122 patent/US7181388B2/en not_active Expired - Fee Related
-
2006
- 2006-11-29 US US11/605,655 patent/US20070073541A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
CN1585968A (zh) | 2005-02-23 |
BR0214042A (pt) | 2004-10-13 |
US20030120482A1 (en) | 2003-06-26 |
FI20012193A (fi) | 2003-05-13 |
FI114051B (fi) | 2004-07-30 |
DE60219943T2 (de) | 2008-01-17 |
US7181388B2 (en) | 2007-02-20 |
FI20012193A0 (fi) | 2001-11-12 |
US20070073541A1 (en) | 2007-03-29 |
DE60219943D1 (de) | 2007-06-14 |
CA2466652C (en) | 2008-07-22 |
CA2466652A1 (en) | 2003-05-22 |
CN1269102C (zh) | 2006-08-09 |
EP1444685A1 (en) | 2004-08-11 |
EP1444685B1 (en) | 2007-05-02 |
KR100597110B1 (ko) | 2006-07-04 |
ES2284932T3 (es) | 2007-11-16 |
KR20050044399A (ko) | 2005-05-12 |
WO2003042973A1 (en) | 2003-05-22 |
ATE361523T1 (de) | 2007-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100597110B1 (ko) | 사전 데이터 압축 방법 | |
EP0984430B1 (en) | Speech recognizer with lexicon updateable by spelled word input | |
US6343270B1 (en) | Method for increasing dialect precision and usability in speech recognition and text-to-speech systems | |
JP3542026B2 (ja) | 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体 | |
US7299179B2 (en) | Three-stage individual word recognition | |
US20070078653A1 (en) | Language model compression | |
US20080126093A1 (en) | Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System | |
US7574411B2 (en) | Low memory decision tree | |
US8532990B2 (en) | Speech recognition of a list entry | |
WO2004036939A1 (fr) | Appareil de communication mobile numerique portable, procede de commande vocale et systeme | |
WO2005034082A1 (en) | Method for synthesizing speech | |
KR20050071334A (ko) | 텍스트 입력 방법 | |
US7676364B2 (en) | System and method for speech-to-text conversion using constrained dictation in a speak-and-spell mode | |
CN108417222B (zh) | 加权有限状态变换器解码系统以及语音识别系统 | |
JP2010164918A (ja) | 音声翻訳装置、および方法 | |
US20070129945A1 (en) | Voice quality control for high quality speech reconstruction | |
EP0423800B1 (en) | Speech recognition system | |
Kao et al. | A low cost dynamic vocabulary speech recognizer on a GPP-DSP system | |
Tian | Efficient compression method for pronunciation dictionaries. | |
JP4445371B2 (ja) | 認識語彙の登録装置と音声認識装置および方法 | |
JPH07219588A (ja) | 音声処理装置及び方法 | |
KR20030080155A (ko) | 발음 제약 사전을 이용한 음성 인식기 | |
Georgila et al. | Large Vocabulary Search Space Reduction Employing Directed Acyclic Word Graphs and Phonological Rules | |
Cao et al. | Linguistic and Acoustic Analysis of Chinese Person Names | |
KR20000020635A (ko) | 메모리 저감을 위한 단어 인식기 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070703 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080909 |