JP2005509905A - 辞書データの圧縮方法 - Google Patents

辞書データの圧縮方法 Download PDF

Info

Publication number
JP2005509905A
JP2005509905A JP2003544726A JP2003544726A JP2005509905A JP 2005509905 A JP2005509905 A JP 2005509905A JP 2003544726 A JP2003544726 A JP 2003544726A JP 2003544726 A JP2003544726 A JP 2003544726A JP 2005509905 A JP2005509905 A JP 2005509905A
Authority
JP
Japan
Prior art keywords
units
phoneme
sequence
unit
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003544726A
Other languages
English (en)
Inventor
ティアン,イレイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of JP2005509905A publication Critical patent/JP2005509905A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Abstract

本発明は、データ処理装置において圧縮のための発音辞書のプレ処理に関係し、発音辞書は少なくとも1つのエントリィを備え、エントリィはキャラクタユニットのシーケンスと音素ユニットのシーケンスを備える。本発明の第1の態様によれば、キャラクタユニットのシーケンスと音素ユニットのシーケンスは、統計的なアルゴリズムを使用して整列される。整列されたキャラクタユニットのシーケンスと整列された音素ユニットのシーケンスは、対応するキャラクタユニットに対する所定の位置に各音素ユニットを挿入することにより、挟み込まれる。

Description

本発明は、話者独立な話(スピーチ)認識に関し、より正確には発音辞書の圧縮に関する。
近年、例えば自動車ユーザインターフェース、及び移動電話、PDA装置及び携帯コンピュータのような移動端末として異なるスピーチ認識の応用が開発されている。既知の移動端末の方法は、移動端末のマイクロフォンに彼/彼女の名前を大声で言うことにより及びユーザによって言われた名前に従って番号を呼び出す設定を行なうことにより特定の人物に電話をかけるための方法を含む。しかしながら、現在の話者独立の方法は、スピーチ認識システムが各名前の発音を認識するように訓練されることを通常は必要とする。話者独立のスピーチ認識は、スピーチ制御のユーザインターフェースの利便性を改善するが、これは訓練段階が除かれるためである。話者独立の名前選択においては、名前の発音はあらかじめ記憶でき、ユーザにより言われた名前は、音素(フォニーム)シーケンスのようなあらかじめ定義された発音と特定できる。多くの言語では、多くの語の発音は規則又はモデルによっても表せるが、いくつかの語の発音はいまだにこれらの規則又はモデルによっては正確に発生できない。しかし、多くの言語では、発音は一般の発音規則(ルール)によって提供できないが、各語は特定の発音を有する。これらの言語において、スピーチ認識はいわゆる発音辞書の使用に依存しており、そこでは言語の各語の書かれた形とその発音の音標表現がリスト状の構造に記憶されている。
移動電話では、コスト及びハードウエアの大きさが理由でメモリサイズがしばしば制限される。これは、スピーチ認識応用での制限にもなる。多重ユーザインターフェース言語有することが可能な装置では、話者独立のスピーチ認識ソルーション(解法)は、発音辞書をしばしば使用する。発音辞書は二千の名前に対して例えば37KBというように大きいため、記憶するには圧縮する必要がある。概略的にいえば、ほとんどのテキスト圧縮方法は、辞書ベースと統計ベースの2つのクラスに入る。辞書ベースの圧縮では、例えばLZ77/78及びLZW(Lempel-Ziv-Welch)などのいつくかの異なる導入がある。演算コード化などの統計的な方法をパワーフルモデル化技術と組み合わせることにより、辞書ベース方法だけより一層良好なパフォーマンスが実現できる。しかしながら、統計ベースの方法には、逆圧縮処理の間大きなワーキングメモリ(バッファ)を必要とするという問題がある。従って、このソルーション移動端末のような小型の携帯電子装置で使用するには適さない。
現在ある圧縮方法は、一般に良いが、発音辞書の圧縮は携帯装置については十分に効率がよいとはいえない。
本発明の目的は、発音辞書を圧縮するためのより効率的な圧縮方法を提供することである。本発明の目的は、独立項に開示されたことを特徴とする方法、電子装置、システム及びコンピュータプログラム製品で実現される。本発明の好適な実施例は、独立項に記載される。
本発明の第1の態様によれば、発音辞書は圧縮の前にプレ(予備)処理される。プレ処理は、辞書を圧縮するためのどのような方法とも一緒に使用できる。プレ処理では、発音辞書における各エントリィ(入力)は、統計的なアルゴリズムを使用して整列される。整列(整列)の間、キャラクタ(文字)ユニットのシーケンス及び音素ユニットのシーケンスは、シーケンスにおいて同一数のユニットを有するように変形される。キャラクタユニット及び音素ユニットの整列されたシーケンスは、各音素ユニットが対応するキャラクタユニットに対して所定の位置に挿入されるように、挟み込まれる。
キャラクタユニットのシーケンスは、典型的にはレター(文字)を含むテキストシーケンスである。言語によっては、アルファベット的な組みが、従来の英語のアルファベットより多いレター又はシンボルを有するように拡張できる。
音素ユニットのシーケンスは語の発音を表し、それは、例えばSAMPA(Speech Assessment Methods Phonetic Alphabet)(音声アセスメント方法音標アルファベット)表示法における”@”、”A:”、”{”のようなレター及びシンボルを通常含む。1つの音素は1つより多いレター又はシンボルで表せるから、音素は白スペースキャラクタで分離される。
本発明の第2の態様によれば、電子装置は、テキスト列入力(インプット)を音素ユニットのシーケンスに変換するように構成される。キャラクタユニットを備える第1のユニットの組みと、音素ユニットを備える第2のユニットの組みとを備えるエントリィを備えるプレ処理された発音辞書が、装置のメモリに記憶される。第1の組のユニットと第2の組みのユニットは整列されて、対応するキャラクタユニットに対して所定の位置に各音素ユニットを挿入することにより挟み込まれる。テキスト列入力のためのマッチングエントリィは、プレ処理された発音辞書から、エントリィの第1の組のユニットを所定の位置から使用して見つけられる。マッチングエントリィから第2の組みのユニットが選択され、音素ユニットのシーケンスに結び付けられる。更に、空のスペースが音素ユニットのシーケンスから除かれる。
本発明の第3の態様によれば、電子装置は、スピーチ情報入力をキャラクタユニットのシーケンスに変換するように構成される。プレ処理発音辞書はエントリィを備え、エントリィは、キャラクタユニットを備えるセットの第1の組みと、音素ユニットを備えるユニットの第2の組みとを備え、第1の組みのユニットと第2の組みのユニットは、整列されて、対応するキャラクタユニットに対して所定の位置に各音素ユニットを挿入することにより挟み込まれる。このようなプレ処理発音辞書が装置のメモリに記憶される。各エントリィの音素の表現のための発音モデルは、発音辞書と一緒にメモリに記憶されるか、処理の間に生成されるかのいずれかである。スピーチ情報に対するマッチングエントリィは、スピーチ情報を発音モデルと比較して、最も対応するエントリィを選択することにより見つけられる。マッチングエントリィから、第1の組のユニットが選択されて、キャラクタユニットに結びつけられる。最後に、空のスペースがキャラクタユニットのシーケンスから除かれる。
本発明の1つの利点は、上記のプレ処理で辞書のエントロピィ(H)が低くなることである。情報理論によれば、エントロピィが圧縮の下限(損失無しに可能な最高の圧縮に対する圧縮の比)を決定するから、低エントロピィレートは、より効果的な圧縮が実行できることを示す。これは、よりよい圧縮を可能にし、メモリの必要量を小さくする。更に、発音辞書は相対的に簡単になり、スピーチ認識のための応用を高速にする。
本発明の1つの実施例では、HMMビタビィアルゴリズムが整列に使用されるように適合される。HMMビタビィアルゴリズムは、整列が統計的な意味で最適な方法で実行され、従って辞書エントリィの残ったエントロピィを最小にすることを保証する。更に、整列におけるHMMビタビィアルゴリズムの使用の利点は、統計的な意味でより最適な整列に到達できるということである。
本発明の他の実施例では、マッピングステップがプレ処理に付加される。マッピングは、整列の前又は後に行なえる。このステップでは、各音素ユニットは1つのシンボルにマップされ、多重キャラクタにより表される音素ユニットの代わりになり、単一のシンボルが音素ユニットを示すのに使用される。マッピング技術を使用することにより、白スペースのキャラクタはエントリィから除くことができ、挟み込んだシーケンスのデコードがまだ可能である。白スペースキャラクタの除去は圧縮比を更に改善する。更に、マッピングの利点は、この方法が多重言語にも適用でき、すなわち装置におけるすべての言語に対する大きなマッピングテーブルさえ使用できる点である。
以下、本発明を、付属の図面を参照して、好適な実施例によって詳細に説明する。
図1は、本発明の好適な実施例に関係する部分のみを示したデータ処理装置(TE)を示す。データ処理装置(TE)は、例えば、パーソナルコンピュータ(PC)又は移動装置である。データ処理装置(TE)は、I/O手段(I/O)、中央処理ユニット(CPU)及びメモリ(MEM)を備える。メモリ(MEM)は、リードオンリィメモリROM部分、及びランダムアクセスメモリRAM及びフラッシュメモリのような書き換え可能な部分を備える。例えば、CD−rom、他の装置及びユーザなどの異なる外部部分との通信に使用される情報は、中央処理ユニット(CPU)へ/又はそれからI/O手段(I/O)を通して送られる。中央処理ユニット(CPU)は、処理ブロック(PRE)及び圧縮ブロック(COM)を備える。これらのブロックの機能は、典型的にはプロセッサにおけるソフトウエアコードの実行により実現されるが、ハードウエアソルーション(例えばASIC)又はこれら2つの組合せで実現することもできる。プレ処理ブロック(PRE)は、図2に詳細を示した好適な実施例のプレ処理ステップを提供する。圧縮ブロック(COM)は、発音辞書の圧縮を提供し、そのためにLZ77、LZW又は演算コーディングなどのいくつかの異なる圧縮方法が使用できる。処理は、圧縮効率を改善するため他のどのような圧縮方法と組み合わせることも可能である。
プレ処理され圧縮される必要のある発音辞書はメモリ(MEM)に記憶される。辞書は、例えば、CD−ROM又はネットワークなどの外部メモリ装置から、I/O手段(I/O)を使用して、ダウンロードされることも可能である。発音辞書はエントリィを備え、そのそれぞれは交互にキャラクタユニットのシーケンス(テキストシーケンス)と音素ユニットのシーケンス(音素シーケンス)の語を含む。音素ユニットのシーケンスは、キャラクタユニットのシーケンスの発音を表す。音素ユニットの表現は、使用した音素表示システムに依存する。SAMPA及びIPAなどのいくつかの異なる音素表示システムが使用できる。SAMPA(Speech Assessment Methods Phonetic Alphabet)は、機械読み取り可能な音標アルファベットである。国際音声協会は、多数の言語の音声表現のための、米国規格、国際音標アルファベット(IPA)を提供している。SAMPA音素表示システムを使用する辞書エントリィの例を、表1に挙げる。
Figure 2005509905
Hにより示されるエントロピィは、基本的な属性であり、信号のデータ量を特徴付ける。データを失うこと無しに信号を提供する(それを圧縮)最短の方法を見つけることが可能である。最短の表現の長さは、信号のエントロピィにより示される。各信号に対して個別に正確なエントロピィの値を計数する替わりに、それを評価する方法が、Shannon(例えば、C.E.Shannon,通信の数学的理論,ベル研究所技術ジャーナル,Vol.27, pp. 379-423, 623-656, July, October, 1948を参照のこと)により確立されている。これについて、以下に簡単に説明する。
ここで、P(Ij|Ii)が、現在のレター(文字)がアルファベットのj番目であり、前のキャラクタがi番目であると仮定した場合の条件的な確率であり、P(Ii)が前のキャラクタがアルファベットのi番目である確率であるとする。2次の統計的なエントロピィレートH2は、式(1)である。
Figure 2005509905
一般的な場合のエントロピィレートHは、式(2)で与えられる。
Figure 2005509905
ここで、Bnは第1のキャラクタを表す。上記の式(2)に従ってエントロピィレートを演算することは仮想的には不可能である。式(1)のこの予測方法を使用すれば、27キャラクタの英語テキストのエントロピィレートがほぼ2.3ビット/キャラクタであることが評価可能である。
発音辞書の圧縮率を改善するため、テキストのプレ処理がそのエントロピィを下げるように使用される。
図2は、本発明の好適な実施例による方法を示す。この方法は、エントロピィレート(H)を下げるための発音辞書のプレ処理に集中する。
各エントリィは整列される(200)。すなわち、テキスト及び音素シーケンスは、音素シーケンス内で、テキストシーケンス内にあるキャラクタユニットと同じだけの数の音素ユニットを有するように変形される。例えば、英語では、レターは、ゼロ、1つ、又は2つの音素に対応する。整列は、書記素又は音素イプシロン(ヌル)を、テキスト列内のレターの間、又は音素シーケンス内の音素の間に挿入することにより得られる。書記素イプシロンの使用は、例えば”x−>ks”のような、単一のレターに対応することが知られている2つの音素を結び付けることにより得られる擬似音素の短いリストを導入することにより避けることができる。エントリィを整列するために、許された音素の組みが各レター毎に定義されなければならない。音素リストは、レターのための擬似音素及び可能な音素イプシロンを含む。一般的な原理は、必要な時には、(イプシロンとして定義される)書記素ヌルをテキストシーケンスに、及び/又は(やはりイプシロンで呼ばれる)音素ヌルを音素シーケンスに挿入することである。表2は、上記で使用した語を整列後の例として示したものである。
Figure 2005509905
ここで、語’father’は6ユニットを有し、整列後には音素シーケンス’fA:Dεε@’内に6音素がある。整列はいくつかの異なる方法でも行なえる。本発明の1つの実施例によれば、整列は、HMMビダビィアルゴリズムで行なわれる。整列の原理を図3に示し、詳細を説明する。
整列(200)の後、音素表示システムで使用された各音素は、単一シンボル、例えば1バイトASCIIコードにマップされる(202)ことが望ましい。しかしながら、マッピングは本発明の特徴を実行するには必要ないが、それらを更に改善することができる。例えば、マッピングはマッピング表で表される。以下に示す表3は、例として使用される語の音素がどのようにマッピングできるかの例である。
Figure 2005509905
各音素を1つのシンボルで表すことにより、1つの音素ユニットを表す2つのキャラクタは、ちょうど1つの8ビットASCIIシンボルで置き換えることができる。その結果、例は表4のようになる。
Figure 2005509905
音素を1つのシンボルで表した後、ユニット間のスペースは除くことができる。更に、テキストシーケンスとマッピングされて整列された音素シーケンスの間のスペースも除くことができるが、これは両方のシーケンスに同一の数のユニットがあり、どのキャラクタがテキストに属し、どれが音素表現に属するか明確であるためである。
Figure 2005509905
音素ユニットの単一シンボルへのマッピング(202)は、白スペースキャラクタが除けるので、挟み込みにとって重要なステップである。マッピングは更にそれ自体の最終結果を向上させるが、それは単一のキャラクタは例えば2キャラクタに比べて取るスペースが少なく、対応するテキストキャラクタとの相関が向上するためである。整列(200)とマッピング(202)の順番は最終結果に影響せず、マッピング(202)を整列の前に同様に行なうことができる。
マッピング表は、発音辞書で使用する音素表示方法にのみ依存する。異なる方言又は言語のために異なるシステム又は移植が必要ないように言語独立にすることも可能である。もし異なる音素表示方法での複数の発音辞書が使用されるならば、各音素表示方法のための分離したマッピング表が必要である。
整列(200)及びマッピング(202)の後、エントリィは挟み込まれる(204)。キャラクタ−>音素パターンは連続したレターパターンより高い可能性(低いエントロピィ)を有するから、特に整列が最適に実行されたなら、冗長性は増加する。これは発音の音素を語のレターの間に挿入して単一後を形成することにより行なえる。言い換えれば、音素ユニットは、対応キャラクタユニットの次に挿入される。整列(200)の後、テキストシーケンスと音素シーケンスは同数のシンボルを有し、キャラクタ−音素の組みが容易に見つかる。例えば、表6である。
Figure 2005509905
ここで、イタリック体でボールド体のシンボルは発音音素を表す。元(オリジナル)と新しいフォーマットの間でのエントリィの組立と分解は、一意に定義できることが、例から明らかであるが、これは挟み込まれたテキスト及び音素シーケンスが同数のユニットを有するからである。
プリ処理の後、プレ処理された音素辞書の圧縮(206)が実行できる。
図3は、エントリィの原文及び音素表現を整列するための書記素HMMを示す。
隠しマルコフモデル(Hidden Markov Model (HMM))は、よく知られており、スピーチ認識の例に適用されてきた広く使用された統計的な方法である。これらのモデルは、マルコフ連鎖のマルコフソース又はマルコフ確率関数とも呼ばれる。HMMの基礎となる仮定は、信号はパラメータのランダムなプロセスとしてよく特徴付けできること、及び確率論的なプロセスのパラメータは正確に良好に定義された方法で決定/評価できることである。HMMは、コード語のように各状態に割り当てられる観測可能な事件が個別であるか、又はそれらが連続しているかに応じて個別モデル及び連続モデルに分類できる。いずれの場合も、観察は確率的である。確率的なプロセスの基礎となるモデルは、直接観測的ではないが(それは隠れている)、観測のシーケンスを生成する確率的なプロセスの他の組みを通してのみ見ることができる。HMMは、状態間の遷移を有する隠れた状態で構成される。数学的な表現は、状態間の状態遷移の確率、各状態の観測の確率及び書記状態の分布の3つの項を含む。HMMと観測があると、ビタビィアルゴリズムは、それに続く最良の経路を通して観測状態整列を与えるのに使用される。
この発明では、HMMは隠しマルコフモデルの状態への観測したシーケンスの指定な整列の問題を解くのに使用できることが分かる。更に、ビタビィアルゴリズムはHMMと関連させて、最適な整列を見つけるのに使用することができる。隠しマルコフモデルに関するより多くの情報及びその応用は、例えば、書籍"Speech Recognition System Design and Implementation Issues", pp. 322-342から分かる。
まず、与えられたレター音素の組みについて、ペナルティp(f・l)が、音素fがレターlの許された音素のリスト内に見つけることができるならゼロに初期化され、そうでなければ、それらは大きな正の値に初期化される。初期のペナルティ値で、辞書は2つのステップで並べられる。第1のステップでは、すべての可能な整列が辞書内の各エントリィに対して発生される。すべての整列されたエントリィに基づいて、ペナルティ値が再計算される。第2のステップでは、単一の最良の整列だけが各エントリィ毎に見つけられる。
各エントリィについて、最適な整列が書記素HMMにおけるビダビィアルゴリズムで見つけられる。書記素HMMは、エントリィ(ES)、出口(EXS)及びレター状態(S1,S2及びS3)を有する。擬似音素にマッピングするレターは、期間状態(EPS)を有することにより扱われる。状態1から3(S1,S2,S3)は、語におけるレターに対応する状態である。状態2(S2)は、擬似音素を生成するレターに対応する。前のすべての状態から現在の状態へのスキップは、音素のイプシロンをサポートするために許される。
各状態及び期間状態は、書記素HMMに対しての音素シーケンスの整列の累積するペナルティ(対数確率の和)を含むトークンと、累積値に対応する状態シーケンスとを保持する。音素シーケンスは、1つの音素を一度に音素シーケンスを通して初めから終わりまで行かせることによりレターに対して整列される。レターと音素の間のビダビィ整列を見つけるために、トークン通過が実行される。トークンが1つの状態から他の状態へ通過するに従って、それらは各状態からペナルティを集める。トークンの通過は、次の状態に入るトークンの分離、結合又は選択も含む。最後に最小の累積ペナルティを有するトークンが、HMMの全状態にわたって見つかる。トークンの状態シーケンスに基づいて、語のレターと音素の間の整列が決定できる。
整列は、大部分のエントリィに適切に作用するが、整列できないいくつかの特別なエントリィがある。このような場合、他の簡単な整列が適用される。書記素又は音素のイプシロンがレター又は音素シーケンスの終わりに付加される。
図4は、本発明の好適な実施例による例として使用されるエントリィのプレ処理の詳細を示す。
元のエントリィ(400)は、2つの部分、テキストシーケンス’father’と音素シーケンス’fA:D@’とを有する。これら2つのシーケンスは、白スペースキャラクタで分けられ、更に音素ユニットは白スペースキャラクタで分けられる。
整列(402)において、音素及び書記素エプシロンが両方のシーケンスにおいて同数のユニットを有するように付加される。例示の語では、2つの音素イプシロンが使用され、音素シーケンスの結果は’fA:Dεε@’である。
音素ユニットの1つのシンボル表現へのマッピング(404)は、音素シーケンスだけを変化させる。マッピングの後、例示の語の音素シーケンスは’fAD__@’である。
エントリィがマッピングされる時(404)、白スペースキャラクタを除くことができる(406)。その結果、1つの列’fatherfAD__@’になる。
最後のステップは挟み込みであり、例示のエントリィは’ffaAtDh_e_r@’である。ここで、エンtリィは更に処理でき、例えば圧縮できる。
これらのすべてのステップは図2に詳細が記載されている。
上記のマッピング(202)も含むプレ処理方法は、実験的にテストされた。実験は、100,000以上の語とそれらの書き換えを含む北米英語のための発音辞書であるカネギーメロン大学発音辞書を使用して行なわれた。実験では、典型的な辞書ベース圧縮方法LZ77及びLZW、及び統計学ベースの圧縮方法2次演算圧縮を使用してまずパフォーマンスが評価された。次に、圧縮方法(LZ77、LZW及び演算的)と一緒にプレ処理方法でパフォーマンスが評価された。表7においては、キロバイトで示される結果は、プレ処理方法がすべての場合においてより良好であることを示している。一般に、どのような圧縮アルゴリズムとも一緒に使用できる。
Figure 2005509905
表7から分かるように、プレ処理はすべての圧縮方法による圧縮率を改善できる。LZ77の圧縮方法と組み合わせることで、プレ処理は圧縮率を20%以上改善した。改善率は、プレ処理をLZW方法又は演算方法と組み合わせた時に一層大きくなり、約40%より良い圧縮率になった。
本発明は、発音辞書が効率的なメモリの使用方法で記憶する必要のある時に、スピーチ認識及びスピーチ合成又はすべての応用に使用されるいかなる一般用途の辞書にも適用可能であることが理解される。更に、本発明は、例えば語の全ての形態及びスペルチェッカプラグラムを示す共通辞書のような、キャラクタレベルで高い相関を有する本文のエントリィのグループを備えるどのような他のリストの圧縮にも適用可能である。
図5は、本発明の好適な実施例に関係する部分だけの電子装置(ED)を示す。電子装置(ED)は、例えば、PDA装置、移動端末、パーソナルコンピュータ(PC)、又はインテリジェントヘッドセット又は遠隔制御装置のようなこれらと一緒に使用することが意図されたどのようなアクセサリィ装置であってもよい。電子装置(ED)は、I/O手段(IO)、中央処理ユニット(PRO)及びメモリ(ME)を備える。メモリ(MEM)は、リードオンリィメモリROM部分、及びランダムアクセスメモリRAM及びフラッシュメモリのような書き換え可能な部分を備える。例えば、ネットワーク、他の装置又はユーザなどの異なる外部部分との通信に使用される情報は、I/O手段(IO)を通して中央処理ユニット(PRO)へ/又はそれから送られる。マイクロフォン又はキーパッドのようなキャラクタシーケンスを装置に送れるようにするユーザインターフェースは、このようにI/O手段(IO)の一部である。プレ処理された発音辞書は、例えば、ネットワークからのダウンロードとして、I/O手段(IO)を通して、データ処理装置(TE)から電子装置(ED)にダウンロードされることが可能である。次いで、辞書は更なる使用方法のためにメモリ(ME)に記憶される。
図6及び図7に示したステップは、電子装置(ED)の中央処理ユニット(PRO)で実行されるコンピュータプログラムコードが設定される。コンピュータプログラムはI/O手段(IO)を通して中央処理ユニット(PRO)にロードされる。設定は、ハードウエアソルーション(例えば、ASIC)又はこれら2つの組合せでも行なえる。1つの好適な実施例によれば、装置(ED)のメモリ(ME)に記憶された音素辞書は、図2に示したようにプレ処理される。
図6において、電子装置(ED)の中央処理ユニット(PRO)は、発音モデルに変換される必要のあるテキスト列を受ける。入力テキスト列は、例えば、I/O手段(IO)を使用して、電子装置(ED)のコンタクトデータベースに加えられるユーザ名である。まず、マッチングエントリィが、メモリ(ME)に記憶されたプレ処理された発音辞書から見つけられる(600)。マッチングエントリィを見つけることは、入力テキスト列をエントリィのキャラクタユニットと比較することに基づいている。エントリィは挟み込まれているので、エントリィ列はキャラクタと音素ユニットの組合せである。もし挟み込みが図で説明した好適な実施例に従って行なわれていたなら、入力列をエントリィと比較した時に、それぞれの2番目のユニットだけが使用される。エントリィのキャラクタユニットは、第1から始めて、奇数ユニットを選択することにより見つけられる。比較はエントリィの元のキャラクタ列となされ、従って書記素イプシロンなどの空スペースは無視される。当業者に知られているマッチ(一致)エントリィを見つけるためのいくつかの方法及びアルゴリズムがあり、それらは本発明の部分ではないので、ここではそれらの説明は行なわない。キャラクタユニットが入力テキスト列のユニットと正確に一致する時、マッチングエントリィが見つかる。しかしながら、いくつかの応用では、替わりに正確に一致しないアルゴリズム、例えばいわゆるワイルドカードを利用するアルゴリズムを使用すると有利である。
マッチングエントリィが見つかった時、エントリィの音素ユニットが選択される(602)。(図2の好適な実施例により行なわれた)挟み込みのため、エントリィ列の各第2のユニットが使用される。音素ユニットを決定するため、選択は2番目のユニットから開始される。選択されたユニットは、音素ユニットのシーケンスを生成するのに結び付けられる。
エントリィが整列されているので、音素ユニットのシーケンスは、例えば音素イプシロンのような空スペースを含む。空スペースは音素だけで構成されるシーケンスを生成するために除かれる(604)。
音素辞書のプレ処理がマッピングも含むならば、逆マッピングが必要である(606)。逆マッピングは、プレ処理の間使用されたのと同様のマッピング表を使用して実行できるが、逆順に行なう。このステップは、例えば1つのキャラクタ表現のような音素ユニットの第1の表現方法を、例えばSAMPAのようなシステムで使用される第2の表現方法に変換する。
音素ユニットのシーケンスが生成される時、典型的には更に処理され、例えばシーケンスの発音モデルが生成される。1つの実施例によれば、発音モデルは、例えばHMMアルゴリズムを使用する各音素を生成する。音素発音モデルは、メモリ(ME)に記憶される。エントリィの発音モデルを生成するため、音素シーケンスの各音素の発音モデルは、メモリから取り出される(608)。これらの音素モデルは結び付けられ(610)、音素シーケンスの発音モデルが生成される。
上記のテキスト列入力の発音モデルへの変換は、2つの電子装置の間で分配することもできる。例えば、プレ処理された辞書は、ネットワークなどにおいて、第1の電子装置に記憶され、そこで、マッチングエントリィの見つけ出し(600)が実行される。マッチングエントリィは、例えば移動端末のような第2の電子装置に分配され、そこで処理の残り(ステップ602−610)が実行される。
図7は、プレ処理された発音辞書を利用する電子装置(ED)における、スピーチ情報のキャラクタユニットのシーケンスへの変換を示す。電子装置(ED)の中央処理ユニット(PRO)は、I/O手段(IO)を通してスピーチ情報入力を受ける。このスピーチ情報はキャラクタユニットのシーケンスに変換される必要があるが、これは例えばそれをディスプレイ上にテキストとして示したり、それをスピーチ制御装置の所定のスピーチコマンドのテキスト列と比較するなどの更なる使用のためである。
マッチングエントリィの見つけ出し(702)は、入力スピーチ情報の発音辞書における各エントリィの発音モデルとの比較に基づいている。従って、比較の前に、各エントリィの発音がモデル化される(700)。1つの好適な実施例によれば、モデルは電子装置(ED)内で生成される。音素辞書は既に挟み込まれて整列されており、従ってモデル化は、図6で説明したのと同様に、その後のステップ602−610で行なえる。モデル化が電子装置(ED)でなされた時、処理容量及びワーキング(作業)メモリの必要性が増加する。替わりに、発音辞書を記憶するメモリ消費を低く維持できる。
第2の好適な実施例によれば、データ処理装置(TE)における発音辞書のプレ処理の前にモデルが生成される。モデル化は、図6で説明したのと同様に、その後のステップ608と610で行なえる。モデル化がプレ処理の前になされ、辞書はまだ挟み込み、整列又はマッピングがなされていないので、ステップ602−606は不要である。発音モデルは、次にエントリィと一緒にメモリ(MEM)に記憶される。辞書が電子装置(ED)に送られる時、モデルも送られる。このソルーションでは、処理容量及びワーキングメモリを少なくしたために、スピーチ情報をテキストシーケンスに変換する必要がある。替わりに、記憶メモリ(ME)のメモリ消費が減少される。
マッチエントリィの見つけ出し(702)は、入力スピーチ情報及びメモリ(ME)に記憶されたエントリィの発音モデルを使用して行なわれる。スピーチ情報は各エントリィと比較され、入力スピーチ情報が各エントリィ発音モデルとどのくらいよく一致するかの確率が演算される。確率を演算した後、マッチエントリィは最高の確率のエントリィを選択することにより見つけられる。
キャラクタユニットは、次にマッチングエントリィから選択される(704)。図2で説明したように挟み込まれているために、エントリィ列の第2のユニットのそれぞれが使用される。選択は、キャラクタユニットを得るように第1のユニットから始めなければならない。これらの選択されたユニットは、書記素ユニットのシーケンスを形成するように結び付けることができる。
整列のために、書記素ユニットのシーケンスは、例えば書記素イプシロンのような空スペースを含む。書記素だけを有するシーケンスを生成するため、空スペースは除かれる(706)。その結果、システムで更に使用できるテキスト列が得られる。
例えば自動車ユーザインターフェースを有する移動電話のような電子装置は。音声コマンドの話者独立な音声認識を有する。各音声コマンドは、発音辞書におけるエントリィである。ユーザは、運転中に電話の呼び出しをすることを望んでいる。音声認識が動作状態の時、ユーザは「電話(CALL)」と言う。電話は、マイクロフォンで音声コマンドを受けて、スピーチ情報をI/O手段を通して中央処理ユニットに送る。中央処理ユニットは、図7で説明したように、スピーチ入力をテキストシーケンスに変換する。テキストシーケンスは、ユーザに装置がしたことをフィードバックするために、I/O手段を通してディスプレイに送られる。スクリーン上のテキストだけでなく、装置は音でフィードバックすることも可能である。スピーチからテキストへの変換処理の一部として生成されたマッチエントリィの発音モデルは、I/O手段を通してスピーカに送られる。電話は、次にユーザが選択した番号に電話をかける。
付属の図面及びそれに関係する記載は、本発明を説明するためだけのものである。請求項に記載された発明の範囲及び趣旨から逸脱しないで、本発明の異なる変形及び変形例があり得ることは、当業者には明らかである。
図1は、本発明の1つの好適な実施例による発音辞書のプレ処理と圧縮をサポートするデータ処理装置を示すブロック図である。 図2は、本発明の1つの好適な実施例による方法のフローチャートである。 図3は、発音辞書の整列のためのHMMアルゴリズムの使用を示す。 図4は、1つの辞書エントリィのためのプレ処理を示す。 図5は、プレ処理された発音辞書を使用する電子装置を示すブロック図である。 図6は、本発明の好適な実施例に従って、テキスト列が発音モデルに変換される時のプレ処理された発音辞書の使用を示すフローチャートである。 図7は、本発明の好適な実施例に従って、スピーチ情報がテイストユニットのシーケンスに変換される時のプレ処理された発音辞書の使用を示すフローチャートである。

Claims (15)

  1. データ処理装置の圧縮のための発音辞書をプレ処理する方法であって、
    前記発音辞書は、少なくとも1つのエントリィを備え、該エントリィはキャラクタユニットのシーケンスと音素ユニットのシーケンスとを備える方法において、
    当該方法は、
    統計的なアルゴリズムを使用して前記キャラクタユニットと前記音素ユニットの間の整列を決定するように、前記キャラクタユニットのシーケンスと前記音素ユニットのシーケンスとを整列するステップと、
    対応するキャラクタユニットに対する所定の位置に、各音素ユニットを挿入することにより、前記整列されたキャラクタユニットのシーケンスと前記整列された音素ユニットのシーケンスを挟み込むステップとを備えることを特徴とする方法。
  2. 前記整列は、統計的なアルゴリズムであるHMMビダビィアルゴリズムを使用して決定されることを特徴とする請求項1に記載の方法。
  3. 前記音素ユニットは、対応するキャラクタユニットの次に配置されることを特徴とする請求項1に記載の方法。
  4. 書記素イプシロンを前記キャラクタユニットのシーケンスに及び/又は音素イプシロンを前記音素ユニットのシーケンスに挿入することにより、前記整列されたキャラクタユニットのシーケンス及び前記整列された音素ユニットのシーケンスの前記音素ユニットが同数のユニットを有するようにされることを特徴とする請求項1から3のいずれか1項に記載の方法。
  5. 前記キャラクタユニットは、レター又は白スペースキャラクタであることを特徴とする請求項1から4のいずれか1項に記載の方法。
  6. 前記音素ユニットは、単一音素又は音素イプシロンを表すレター又は白スペースキャラクタであり、1つの前記ユニットは少なくとも1つのキャラクタにより示されることを特徴とする請求項1から5のいずれか1項に記載の方法。
  7. 当該方法は、
    各音素ユニットを1つのシンボルにマッピングするステップを備えることを特徴とする請求項1に記載の方法。
  8. テキスト列入力を音素ユニットのシーケンスに変換するように構成された電子装置であって、
    エントリィを備えるプレ処理された発音辞書を記憶する手段であって、前記エントリィはキャラクタユニットを備える第1の組みのユニットと音素ユニットを備える第2の組みのユニットとを備え、前記第1の組みのユニットと前記第2の組みのユニットは整列されて、各音素ユニットを対応するキャラクタユニットに対する所定の位置に挿入することにより挟み込まれる手段と、
    前記プレ処理された発音辞書から、前記テキスト列入力のマッチングエントリィを、前記エントリィの前記第1の組のユニットを所定の位置から使用して見つけ出す手段と、
    前記マッチングエントリィから、所定の位置からの前記第2の組のユニットを選択し、それらを音素ユニットのシーケンスに組み合わせる手段と、
    前記音素ユニットのシーケンスから空のスペースを除く手段とを備えることを特徴とする電子装置。
  9. 当該電子装置は、移動通信システムのける移動端末であることを特徴とする請求項8に記載の電子装置。
  10. 各音素を、第1の音素表現方法から第2の音素表現方法にマッピングする手段を更に備えることを特徴とする請求項8に記載の電子装置。
  11. スピーチ情報入力をキャラクタユニットのシーケンスに変換するように構成された電子装置であって、
    エントリィを備えるプレ処理された発音辞書を記憶する手段であって、前記エントリィはキャラクタユニットを備える第1の組みのユニットと音素ユニットを備える第2の組みのユニットとを備え、前記第1の組みのユニットと前記第2の組みのユニットは整列されて、各音素ユニットを対応するキャラクタユニットに対する所定の位置に挿入することにより挟み込まれる手段と、
    各エントリィの音素表現の発音モデルを記憶又は生成する手段と、
    前記スピーチ情報を前記発音モデルと比較し、もっとも対応するエントリィを選択することにより、前記スピーチ情報に対するマッチングエントリィを見つけ出す手段と、
    前記マッチングエントリィにおいて、前記第1の組のユニットを所定の位置から選択し、それらをキャラクタユニットのシーケンスに組み合わせる手段と、
    前記キャラクタユニットのシーケンスから空のスペースを除く手段とを備えることを特徴とする電子装置。
  12. 互いに通信接続であるように配置された第1の電子装置と第2の電子装置とを備え、テキスト列入力を音素ユニットのシーケンスに変換するように構成されたシステムであって、
    前記第1の電子装置は、エントリィを備えるプレ処理された発音辞書を記憶する手段を備え、前記エントリィは各音素ユニットを対応するキャラクタユニットに対する所定の位置に挿入することにより整列及び挟み込まれ、前記エントリィは、キャラクタユニットを備える第1の組みのユニットと、音素ユニットを備える第2の組みのユニットとを備え、
    前記第1の電子装置は、前記エントリィの前記第1の組のユニットを使用して、前記プレ処理された発音辞書から前記テキスト列入力のマッチングエントリィを見つけ出す手段を備え、
    前記第1の電子装置は、前記マッチングエントリィを前記第2の電子装置に送る手段を備え、
    前記第2の電子装置は、前記マッチングエントリィを前記第1の電子装置から受ける手段を備え、
    前記第2の電子装置は、前記マッチングエントリィから前記第2の組のユニットを選択し、それを音素ユニットのシーケンスに組み合わせる手段を備え、
    前記第2の電子装置は、前記音素ユニットのシーケンスから空のスペースを除く手段を備えることを特徴とするシステム。
  13. データ処理装置のメモリにロード可能なコンピュータプログラムであって、前記データ処理装置が、
    少なくとも1つのエントリィを備え、前記エントリィはキャラクタユニットのシーケンスと音素ユニットのシーケンスとを備える発音辞書を、前記メモリから取り出し、
    統計的なアルゴリズムを使用して、前記キャラクタユニットのシーケンスと前記音素ユニットのシーケンスを整列させ、
    対応するキャラクタユニットに対する所定の位置に各音素ユニットを挿入することにより、前記整列されたキャラクタユニットのシーケンスと前記整列された音素ユニットのシーケンスを挟み込むようにさせる、前記データ処理装置で実行可能なコードを備えることを特徴とするコンピュータプログラム。
  14. 電子装置のメモリにロード可能なコンピュータプログラムであって、前記電子装置が、
    エントリィを備えるプレ処理された発音辞書であって、前記エントリィはキャラクタユニットを備える第1の組のユニットと音素ユニットを備える第2の組みのユニットとを備え、前記第1の組のユニットと前記第2の組のユニットは整列されて、対応するキャラクタユニットに対する所定の位置に各音素ユニットを挿入することにより挟み込まれているようにプレ処理された発音辞書を、メモリから取り出し、
    前記プレ処理された発音辞書から、テキスト列入力のマッチングエントリィを、前記エントリィの第1の組のユニットを所定の位置から使用して見つけ出し、そして空のスペースを無視し、
    前記マッチングエントリィから、前記第2の組みのユニットを所定の位置から選択して、音素ユニットのシーケンスに組合せ、
    前記音素ユニットのシーケンスから空のスペースを除くようにさせる、前記電子装置で実行可能なコードを備えることを特徴とするコンピュータプログラム。
  15. 電子装置のメモリにロード可能なコンピュータプログラムであって、前記電子装置が、
    エントリィを備えるプレ処理された発音辞書であって、前記エントリィはキャラクタユニットを備える第1の組のユニットと音素ユニットを備える第2の組みのユニットとを備え、前記第1の組のユニットと前記第2の組のユニットは整列されて、対応するキャラクタユニットに対する所定の位置に各音素ユニットを挿入することにより挟み込まれているプレ処理された発音辞書を、メモリから取り出し、
    各エントリィの音素表現の発音モデルを記憶又は生成し、
    前記スピーチ情報を前記発音モデルと比較し、もっとも対応するエントリィを選択することにより、前記スピーチ情報に対するマッチングエントリィを見つけ出し、
    前記マッチングエントリィから、所定の位置からの前記第1の組のユニットを選択し、それらをキャラクタユニットのシーケンスに組み合わせ、
    前記キャラクタユニットのシーケンスから空のスペースを除くようにさせる、前記電子装置で実行可能なコードを備えることを特徴とするコンピュータプログラム。
JP2003544726A 2001-11-12 2002-11-08 辞書データの圧縮方法 Pending JP2005509905A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20012193A FI114051B (fi) 2001-11-12 2001-11-12 Menetelmä sanakirjatiedon kompressoimiseksi
PCT/FI2002/000875 WO2003042973A1 (en) 2001-11-12 2002-11-08 Method for compressing dictionary data

Publications (1)

Publication Number Publication Date
JP2005509905A true JP2005509905A (ja) 2005-04-14

Family

ID=8562237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003544726A Pending JP2005509905A (ja) 2001-11-12 2002-11-08 辞書データの圧縮方法

Country Status (12)

Country Link
US (2) US7181388B2 (ja)
EP (1) EP1444685B1 (ja)
JP (1) JP2005509905A (ja)
KR (1) KR100597110B1 (ja)
CN (1) CN1269102C (ja)
AT (1) ATE361523T1 (ja)
BR (1) BR0214042A (ja)
CA (1) CA2466652C (ja)
DE (1) DE60219943T2 (ja)
ES (1) ES2284932T3 (ja)
FI (1) FI114051B (ja)
WO (1) WO2003042973A1 (ja)

Families Citing this family (144)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20050120300A1 (en) * 2003-09-25 2005-06-02 Dictaphone Corporation Method, system, and apparatus for assembly, transport and display of clinical data
US8543378B1 (en) * 2003-11-05 2013-09-24 W.W. Grainger, Inc. System and method for discerning a term for an entry having a spelling error
US7783474B2 (en) * 2004-02-27 2010-08-24 Nuance Communications, Inc. System and method for generating a phrase pronunciation
US20050190895A1 (en) * 2004-03-01 2005-09-01 Lloyd Ploof Remotely programmable messaging apparatus and method thereof
JP2006047866A (ja) * 2004-08-06 2006-02-16 Canon Inc 電子辞書装置およびその制御方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
EP1994529B1 (en) * 2006-02-14 2011-12-07 Intellectual Ventures Fund 21 LLC Communication device having speaker independent speech recognition
US7480641B2 (en) * 2006-04-07 2009-01-20 Nokia Corporation Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20090299731A1 (en) * 2007-03-12 2009-12-03 Mongoose Ventures Limited Aural similarity measuring system for text
GB0704772D0 (en) * 2007-03-12 2007-04-18 Mongoose Ventures Ltd Aural similarity measuring system for text
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8078454B2 (en) * 2007-09-28 2011-12-13 Microsoft Corporation Two-pass hash extraction of text strings
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100082327A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for mapping phonemes for text to speech synthesis
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8352268B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US7872596B2 (en) * 2009-02-26 2011-01-18 Red Hat, Inc. Dictionary-based compression
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
DE102012202407B4 (de) * 2012-02-16 2018-10-11 Continental Automotive Gmbh Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9135912B1 (en) * 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
CN105340003B (zh) * 2013-06-20 2019-04-05 株式会社东芝 语音合成字典创建装置以及语音合成字典创建方法
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10127904B2 (en) * 2015-05-26 2018-11-13 Google Llc Learning pronunciations from acoustic sequences
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
KR102443087B1 (ko) 2015-09-23 2022-09-14 삼성전자주식회사 전자 기기 및 그의 음성 인식 방법
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10387543B2 (en) * 2015-10-15 2019-08-20 Vkidz, Inc. Phoneme-to-grapheme mapping systems and methods
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN105893414A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 筛选发音词典有效词条的方法及装置
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
CN111614977A (zh) * 2017-12-28 2020-09-01 贵州白山云科技股份有限公司 网络系统中文本内容传输优化方法和系统
US10943580B2 (en) * 2018-05-11 2021-03-09 International Business Machines Corporation Phonological clustering
CN113707137B (zh) * 2021-08-30 2024-02-20 普强时代(珠海横琴)信息技术有限公司 解码实现方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4759068A (en) 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US5845238A (en) * 1996-06-18 1998-12-01 Apple Computer, Inc. System and method for using a correspondence table to compress a pronunciation guide
US5861827A (en) * 1996-07-24 1999-01-19 Unisys Corporation Data compression and decompression system with immediate dictionary updating interleaved with string search
US5930754A (en) * 1997-06-13 1999-07-27 Motorola, Inc. Method, device and article of manufacture for neural-network based orthography-phonetics transformation
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
US6208968B1 (en) * 1998-12-16 2001-03-27 Compaq Computer Corporation Computer method and apparatus for text-to-speech synthesizer dictionary reduction
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US7080005B1 (en) * 1999-07-19 2006-07-18 Texas Instruments Incorporated Compact text-to-phone pronunciation dictionary
DE19942178C1 (de) * 1999-09-03 2001-01-25 Siemens Ag Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
US6789066B2 (en) * 2001-09-25 2004-09-07 Intel Corporation Phoneme-delta based speech compression

Also Published As

Publication number Publication date
BR0214042A (pt) 2004-10-13
US20030120482A1 (en) 2003-06-26
FI20012193A0 (fi) 2001-11-12
DE60219943T2 (de) 2008-01-17
US7181388B2 (en) 2007-02-20
CN1585968A (zh) 2005-02-23
KR20050044399A (ko) 2005-05-12
FI114051B (fi) 2004-07-30
US20070073541A1 (en) 2007-03-29
CN1269102C (zh) 2006-08-09
ES2284932T3 (es) 2007-11-16
CA2466652A1 (en) 2003-05-22
FI20012193A (fi) 2003-05-13
KR100597110B1 (ko) 2006-07-04
ATE361523T1 (de) 2007-05-15
DE60219943D1 (de) 2007-06-14
EP1444685A1 (en) 2004-08-11
EP1444685B1 (en) 2007-05-02
CA2466652C (en) 2008-07-22
WO2003042973A1 (en) 2003-05-22

Similar Documents

Publication Publication Date Title
KR100597110B1 (ko) 사전 데이터 압축 방법
US6684185B1 (en) Small footprint language and vocabulary independent word recognizer using registration by word spelling
US6343270B1 (en) Method for increasing dialect precision and usability in speech recognition and text-to-speech systems
US7299179B2 (en) Three-stage individual word recognition
US20070078653A1 (en) Language model compression
US20080126093A1 (en) Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System
US7574411B2 (en) Low memory decision tree
US8532990B2 (en) Speech recognition of a list entry
WO2004036939A1 (fr) Appareil de communication mobile numerique portable, procede de commande vocale et systeme
EP1668628A1 (en) Method for synthesizing speech
US7676364B2 (en) System and method for speech-to-text conversion using constrained dictation in a speak-and-spell mode
CN108417222B (zh) 加权有限状态变换器解码系统以及语音识别系统
JP2002221989A (ja) テキスト入力方法及びその装置
JP2010164918A (ja) 音声翻訳装置、および方法
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
EP0423800B1 (en) Speech recognition system
Kao et al. A low cost dynamic vocabulary speech recognizer on a GPP-DSP system
Tian Efficient compression method for pronunciation dictionaries.
JP4445371B2 (ja) 認識語彙の登録装置と音声認識装置および方法
Georgila et al. Fast very large vocabulary recognition based on compact DAWG-structured language models.
JPH07219588A (ja) 音声処理装置及び方法
KR20030080155A (ko) 발음 제약 사전을 이용한 음성 인식기
Georgila et al. Large Vocabulary Search Space Reduction Employing Directed Acyclic Word Graphs and Phonological Rules
Cao et al. Linguistic and Acoustic Analysis of Chinese Person Names
KR20000020635A (ko) 메모리 저감을 위한 단어 인식기

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070703

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080909