JP2005509905A

JP2005509905A - 辞書データの圧縮方法

Info

Publication number: JP2005509905A
Application number: JP2003544726A
Authority: JP
Inventors: ティアン，イレイ
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2001-11-12
Filing date: 2002-11-08
Publication date: 2005-04-14
Also published as: CN1585968A; BR0214042A; US20030120482A1; FI20012193A; FI114051B; DE60219943T2; US7181388B2; FI20012193A0; US20070073541A1; DE60219943D1; CA2466652C; CA2466652A1; CN1269102C; EP1444685A1; EP1444685B1; KR100597110B1; ES2284932T3; KR20050044399A; WO2003042973A1; ATE361523T1

Abstract

本発明は、データ処理装置において圧縮のための発音辞書のプレ処理に関係し、発音辞書は少なくとも１つのエントリィを備え、エントリィはキャラクタユニットのシーケンスと音素ユニットのシーケンスを備える。本発明の第１の態様によれば、キャラクタユニットのシーケンスと音素ユニットのシーケンスは、統計的なアルゴリズムを使用して整列される。整列されたキャラクタユニットのシーケンスと整列された音素ユニットのシーケンスは、対応するキャラクタユニットに対する所定の位置に各音素ユニットを挿入することにより、挟み込まれる。

Description

本発明は、話者独立な話（スピーチ）認識に関し、より正確には発音辞書の圧縮に関する。
近年、例えば自動車ユーザインターフェース、及び移動電話、ＰＤＡ装置及び携帯コンピュータのような移動端末として異なるスピーチ認識の応用が開発されている。既知の移動端末の方法は、移動端末のマイクロフォンに彼／彼女の名前を大声で言うことにより及びユーザによって言われた名前に従って番号を呼び出す設定を行なうことにより特定の人物に電話をかけるための方法を含む。しかしながら、現在の話者独立の方法は、スピーチ認識システムが各名前の発音を認識するように訓練されることを通常は必要とする。話者独立のスピーチ認識は、スピーチ制御のユーザインターフェースの利便性を改善するが、これは訓練段階が除かれるためである。話者独立の名前選択においては、名前の発音はあらかじめ記憶でき、ユーザにより言われた名前は、音素（フォニーム）シーケンスのようなあらかじめ定義された発音と特定できる。多くの言語では、多くの語の発音は規則又はモデルによっても表せるが、いくつかの語の発音はいまだにこれらの規則又はモデルによっては正確に発生できない。しかし、多くの言語では、発音は一般の発音規則（ルール）によって提供できないが、各語は特定の発音を有する。これらの言語において、スピーチ認識はいわゆる発音辞書の使用に依存しており、そこでは言語の各語の書かれた形とその発音の音標表現がリスト状の構造に記憶されている。

移動電話では、コスト及びハードウエアの大きさが理由でメモリサイズがしばしば制限される。これは、スピーチ認識応用での制限にもなる。多重ユーザインターフェース言語有することが可能な装置では、話者独立のスピーチ認識ソルーション（解法）は、発音辞書をしばしば使用する。発音辞書は二千の名前に対して例えば３７ＫＢというように大きいため、記憶するには圧縮する必要がある。概略的にいえば、ほとんどのテキスト圧縮方法は、辞書ベースと統計ベースの２つのクラスに入る。辞書ベースの圧縮では、例えばＬＺ７７／７８及びＬＺＷ(Lempel-Ziv-Welch)などのいつくかの異なる導入がある。演算コード化などの統計的な方法をパワーフルモデル化技術と組み合わせることにより、辞書ベース方法だけより一層良好なパフォーマンスが実現できる。しかしながら、統計ベースの方法には、逆圧縮処理の間大きなワーキングメモリ（バッファ）を必要とするという問題がある。従って、このソルーション移動端末のような小型の携帯電子装置で使用するには適さない。

現在ある圧縮方法は、一般に良いが、発音辞書の圧縮は携帯装置については十分に効率がよいとはいえない。

本発明の目的は、発音辞書を圧縮するためのより効率的な圧縮方法を提供することである。本発明の目的は、独立項に開示されたことを特徴とする方法、電子装置、システム及びコンピュータプログラム製品で実現される。本発明の好適な実施例は、独立項に記載される。

本発明の第１の態様によれば、発音辞書は圧縮の前にプレ（予備）処理される。プレ処理は、辞書を圧縮するためのどのような方法とも一緒に使用できる。プレ処理では、発音辞書における各エントリィ（入力）は、統計的なアルゴリズムを使用して整列される。整列（整列）の間、キャラクタ（文字）ユニットのシーケンス及び音素ユニットのシーケンスは、シーケンスにおいて同一数のユニットを有するように変形される。キャラクタユニット及び音素ユニットの整列されたシーケンスは、各音素ユニットが対応するキャラクタユニットに対して所定の位置に挿入されるように、挟み込まれる。

キャラクタユニットのシーケンスは、典型的にはレター（文字）を含むテキストシーケンスである。言語によっては、アルファベット的な組みが、従来の英語のアルファベットより多いレター又はシンボルを有するように拡張できる。

音素ユニットのシーケンスは語の発音を表し、それは、例えばＳＡＭＰＡ(Speech Assessment Methods Phonetic Alphabet)（音声アセスメント方法音標アルファベット）表示法における”＠”、”Ａ：”、”｛”のようなレター及びシンボルを通常含む。１つの音素は１つより多いレター又はシンボルで表せるから、音素は白スペースキャラクタで分離される。

本発明の第２の態様によれば、電子装置は、テキスト列入力（インプット）を音素ユニットのシーケンスに変換するように構成される。キャラクタユニットを備える第１のユニットの組みと、音素ユニットを備える第２のユニットの組みとを備えるエントリィを備えるプレ処理された発音辞書が、装置のメモリに記憶される。第１の組のユニットと第２の組みのユニットは整列されて、対応するキャラクタユニットに対して所定の位置に各音素ユニットを挿入することにより挟み込まれる。テキスト列入力のためのマッチングエントリィは、プレ処理された発音辞書から、エントリィの第１の組のユニットを所定の位置から使用して見つけられる。マッチングエントリィから第２の組みのユニットが選択され、音素ユニットのシーケンスに結び付けられる。更に、空のスペースが音素ユニットのシーケンスから除かれる。

本発明の第３の態様によれば、電子装置は、スピーチ情報入力をキャラクタユニットのシーケンスに変換するように構成される。プレ処理発音辞書はエントリィを備え、エントリィは、キャラクタユニットを備えるセットの第１の組みと、音素ユニットを備えるユニットの第２の組みとを備え、第１の組みのユニットと第２の組みのユニットは、整列されて、対応するキャラクタユニットに対して所定の位置に各音素ユニットを挿入することにより挟み込まれる。このようなプレ処理発音辞書が装置のメモリに記憶される。各エントリィの音素の表現のための発音モデルは、発音辞書と一緒にメモリに記憶されるか、処理の間に生成されるかのいずれかである。スピーチ情報に対するマッチングエントリィは、スピーチ情報を発音モデルと比較して、最も対応するエントリィを選択することにより見つけられる。マッチングエントリィから、第１の組のユニットが選択されて、キャラクタユニットに結びつけられる。最後に、空のスペースがキャラクタユニットのシーケンスから除かれる。

本発明の１つの利点は、上記のプレ処理で辞書のエントロピィ（Ｈ）が低くなることである。情報理論によれば、エントロピィが圧縮の下限（損失無しに可能な最高の圧縮に対する圧縮の比）を決定するから、低エントロピィレートは、より効果的な圧縮が実行できることを示す。これは、よりよい圧縮を可能にし、メモリの必要量を小さくする。更に、発音辞書は相対的に簡単になり、スピーチ認識のための応用を高速にする。

本発明の１つの実施例では、ＨＭＭビタビィアルゴリズムが整列に使用されるように適合される。ＨＭＭビタビィアルゴリズムは、整列が統計的な意味で最適な方法で実行され、従って辞書エントリィの残ったエントロピィを最小にすることを保証する。更に、整列におけるＨＭＭビタビィアルゴリズムの使用の利点は、統計的な意味でより最適な整列に到達できるということである。

本発明の他の実施例では、マッピングステップがプレ処理に付加される。マッピングは、整列の前又は後に行なえる。このステップでは、各音素ユニットは１つのシンボルにマップされ、多重キャラクタにより表される音素ユニットの代わりになり、単一のシンボルが音素ユニットを示すのに使用される。マッピング技術を使用することにより、白スペースのキャラクタはエントリィから除くことができ、挟み込んだシーケンスのデコードがまだ可能である。白スペースキャラクタの除去は圧縮比を更に改善する。更に、マッピングの利点は、この方法が多重言語にも適用でき、すなわち装置におけるすべての言語に対する大きなマッピングテーブルさえ使用できる点である。

以下、本発明を、付属の図面を参照して、好適な実施例によって詳細に説明する。
図１は、本発明の好適な実施例に関係する部分のみを示したデータ処理装置（ＴＥ）を示す。データ処理装置（ＴＥ）は、例えば、パーソナルコンピュータ（ＰＣ）又は移動装置である。データ処理装置（ＴＥ）は、Ｉ／Ｏ手段（Ｉ／Ｏ）、中央処理ユニット（ＣＰＵ）及びメモリ（ＭＥＭ）を備える。メモリ（ＭＥＭ）は、リードオンリィメモリＲＯＭ部分、及びランダムアクセスメモリＲＡＭ及びフラッシュメモリのような書き換え可能な部分を備える。例えば、ＣＤ−ｒｏｍ、他の装置及びユーザなどの異なる外部部分との通信に使用される情報は、中央処理ユニット（ＣＰＵ）へ／又はそれからＩ／Ｏ手段（Ｉ／Ｏ）を通して送られる。中央処理ユニット（ＣＰＵ）は、処理ブロック（ＰＲＥ）及び圧縮ブロック（ＣＯＭ）を備える。これらのブロックの機能は、典型的にはプロセッサにおけるソフトウエアコードの実行により実現されるが、ハードウエアソルーション（例えばＡＳＩＣ）又はこれら２つの組合せで実現することもできる。プレ処理ブロック（ＰＲＥ）は、図２に詳細を示した好適な実施例のプレ処理ステップを提供する。圧縮ブロック（ＣＯＭ）は、発音辞書の圧縮を提供し、そのためにＬＺ７７、ＬＺＷ又は演算コーディングなどのいくつかの異なる圧縮方法が使用できる。処理は、圧縮効率を改善するため他のどのような圧縮方法と組み合わせることも可能である。

プレ処理され圧縮される必要のある発音辞書はメモリ（ＭＥＭ）に記憶される。辞書は、例えば、ＣＤ−ＲＯＭ又はネットワークなどの外部メモリ装置から、Ｉ／Ｏ手段（Ｉ／Ｏ）を使用して、ダウンロードされることも可能である。発音辞書はエントリィを備え、そのそれぞれは交互にキャラクタユニットのシーケンス（テキストシーケンス）と音素ユニットのシーケンス（音素シーケンス）の語を含む。音素ユニットのシーケンスは、キャラクタユニットのシーケンスの発音を表す。音素ユニットの表現は、使用した音素表示システムに依存する。ＳＡＭＰＡ及びＩＰＡなどのいくつかの異なる音素表示システムが使用できる。ＳＡＭＰＡ(Speech Assessment Methods Phonetic Alphabet)は、機械読み取り可能な音標アルファベットである。国際音声協会は、多数の言語の音声表現のための、米国規格、国際音標アルファベット（ＩＰＡ）を提供している。ＳＡＭＰＡ音素表示システムを使用する辞書エントリィの例を、表１に挙げる。

Ｈにより示されるエントロピィは、基本的な属性であり、信号のデータ量を特徴付ける。データを失うこと無しに信号を提供する（それを圧縮）最短の方法を見つけることが可能である。最短の表現の長さは、信号のエントロピィにより示される。各信号に対して個別に正確なエントロピィの値を計数する替わりに、それを評価する方法が、Shannon（例えば、C.E.Shannon，通信の数学的理論，ベル研究所技術ジャーナル，Vol.27, pp. 379-423, 623-656, July, October, 1948を参照のこと）により確立されている。これについて、以下に簡単に説明する。

ここで、Ｐ(I_j｜I_i)が、現在のレター（文字）がアルファベットのｊ番目であり、前のキャラクタがｉ番目であると仮定した場合の条件的な確率であり、Ｐ(I_i)が前のキャラクタがアルファベットのｉ番目である確率であるとする。２次の統計的なエントロピィレートＨ₂は、式（１）である。

一般的な場合のエントロピィレートＨは、式（２）で与えられる。

ここで、Ｂ_nは第１のキャラクタを表す。上記の式（２）に従ってエントロピィレートを演算することは仮想的には不可能である。式（１）のこの予測方法を使用すれば、２７キャラクタの英語テキストのエントロピィレートがほぼ２．３ビット／キャラクタであることが評価可能である。

発音辞書の圧縮率を改善するため、テキストのプレ処理がそのエントロピィを下げるように使用される。

図２は、本発明の好適な実施例による方法を示す。この方法は、エントロピィレート（Ｈ）を下げるための発音辞書のプレ処理に集中する。
各エントリィは整列される（２００）。すなわち、テキスト及び音素シーケンスは、音素シーケンス内で、テキストシーケンス内にあるキャラクタユニットと同じだけの数の音素ユニットを有するように変形される。例えば、英語では、レターは、ゼロ、１つ、又は２つの音素に対応する。整列は、書記素又は音素イプシロン（ヌル）を、テキスト列内のレターの間、又は音素シーケンス内の音素の間に挿入することにより得られる。書記素イプシロンの使用は、例えば”ｘ−＞ｋｓ”のような、単一のレターに対応することが知られている２つの音素を結び付けることにより得られる擬似音素の短いリストを導入することにより避けることができる。エントリィを整列するために、許された音素の組みが各レター毎に定義されなければならない。音素リストは、レターのための擬似音素及び可能な音素イプシロンを含む。一般的な原理は、必要な時には、（イプシロンとして定義される）書記素ヌルをテキストシーケンスに、及び／又は（やはりイプシロンで呼ばれる）音素ヌルを音素シーケンスに挿入することである。表２は、上記で使用した語を整列後の例として示したものである。

ここで、語’ｆａｔｈｅｒ’は６ユニットを有し、整列後には音素シーケンス’ｆＡ：Ｄεε＠’内に６音素がある。整列はいくつかの異なる方法でも行なえる。本発明の１つの実施例によれば、整列は、ＨＭＭビダビィアルゴリズムで行なわれる。整列の原理を図３に示し、詳細を説明する。

整列（２００）の後、音素表示システムで使用された各音素は、単一シンボル、例えば１バイトＡＳＣＩＩコードにマップされる（２０２）ことが望ましい。しかしながら、マッピングは本発明の特徴を実行するには必要ないが、それらを更に改善することができる。例えば、マッピングはマッピング表で表される。以下に示す表３は、例として使用される語の音素がどのようにマッピングできるかの例である。

各音素を１つのシンボルで表すことにより、１つの音素ユニットを表す２つのキャラクタは、ちょうど１つの８ビットＡＳＣＩＩシンボルで置き換えることができる。その結果、例は表４のようになる。

音素を１つのシンボルで表した後、ユニット間のスペースは除くことができる。更に、テキストシーケンスとマッピングされて整列された音素シーケンスの間のスペースも除くことができるが、これは両方のシーケンスに同一の数のユニットがあり、どのキャラクタがテキストに属し、どれが音素表現に属するか明確であるためである。

音素ユニットの単一シンボルへのマッピング（２０２）は、白スペースキャラクタが除けるので、挟み込みにとって重要なステップである。マッピングは更にそれ自体の最終結果を向上させるが、それは単一のキャラクタは例えば２キャラクタに比べて取るスペースが少なく、対応するテキストキャラクタとの相関が向上するためである。整列（２００）とマッピング（２０２）の順番は最終結果に影響せず、マッピング（２０２）を整列の前に同様に行なうことができる。

マッピング表は、発音辞書で使用する音素表示方法にのみ依存する。異なる方言又は言語のために異なるシステム又は移植が必要ないように言語独立にすることも可能である。もし異なる音素表示方法での複数の発音辞書が使用されるならば、各音素表示方法のための分離したマッピング表が必要である。

整列（２００）及びマッピング（２０２）の後、エントリィは挟み込まれる（２０４）。キャラクタ−＞音素パターンは連続したレターパターンより高い可能性（低いエントロピィ）を有するから、特に整列が最適に実行されたなら、冗長性は増加する。これは発音の音素を語のレターの間に挿入して単一後を形成することにより行なえる。言い換えれば、音素ユニットは、対応キャラクタユニットの次に挿入される。整列（２００）の後、テキストシーケンスと音素シーケンスは同数のシンボルを有し、キャラクタ−音素の組みが容易に見つかる。例えば、表６である。

ここで、イタリック体でボールド体のシンボルは発音音素を表す。元（オリジナル）と新しいフォーマットの間でのエントリィの組立と分解は、一意に定義できることが、例から明らかであるが、これは挟み込まれたテキスト及び音素シーケンスが同数のユニットを有するからである。

プリ処理の後、プレ処理された音素辞書の圧縮（２０６）が実行できる。
図３は、エントリィの原文及び音素表現を整列するための書記素ＨＭＭを示す。

隠しマルコフモデル(Hidden Markov Model (HMM))は、よく知られており、スピーチ認識の例に適用されてきた広く使用された統計的な方法である。これらのモデルは、マルコフ連鎖のマルコフソース又はマルコフ確率関数とも呼ばれる。ＨＭＭの基礎となる仮定は、信号はパラメータのランダムなプロセスとしてよく特徴付けできること、及び確率論的なプロセスのパラメータは正確に良好に定義された方法で決定／評価できることである。ＨＭＭは、コード語のように各状態に割り当てられる観測可能な事件が個別であるか、又はそれらが連続しているかに応じて個別モデル及び連続モデルに分類できる。いずれの場合も、観察は確率的である。確率的なプロセスの基礎となるモデルは、直接観測的ではないが（それは隠れている）、観測のシーケンスを生成する確率的なプロセスの他の組みを通してのみ見ることができる。ＨＭＭは、状態間の遷移を有する隠れた状態で構成される。数学的な表現は、状態間の状態遷移の確率、各状態の観測の確率及び書記状態の分布の３つの項を含む。ＨＭＭと観測があると、ビタビィアルゴリズムは、それに続く最良の経路を通して観測状態整列を与えるのに使用される。

この発明では、ＨＭＭは隠しマルコフモデルの状態への観測したシーケンスの指定な整列の問題を解くのに使用できることが分かる。更に、ビタビィアルゴリズムはＨＭＭと関連させて、最適な整列を見つけるのに使用することができる。隠しマルコフモデルに関するより多くの情報及びその応用は、例えば、書籍"Speech Recognition System Design and Implementation Issues", pp. 322-342から分かる。

まず、与えられたレター音素の組みについて、ペナルティｐ（ｆ・ｌ）が、音素ｆがレターｌの許された音素のリスト内に見つけることができるならゼロに初期化され、そうでなければ、それらは大きな正の値に初期化される。初期のペナルティ値で、辞書は２つのステップで並べられる。第１のステップでは、すべての可能な整列が辞書内の各エントリィに対して発生される。すべての整列されたエントリィに基づいて、ペナルティ値が再計算される。第２のステップでは、単一の最良の整列だけが各エントリィ毎に見つけられる。

各エントリィについて、最適な整列が書記素ＨＭＭにおけるビダビィアルゴリズムで見つけられる。書記素ＨＭＭは、エントリィ（ＥＳ）、出口（ＥＸＳ）及びレター状態（Ｓ１，Ｓ２及びＳ３）を有する。擬似音素にマッピングするレターは、期間状態（ＥＰＳ）を有することにより扱われる。状態１から３（Ｓ１，Ｓ２，Ｓ３）は、語におけるレターに対応する状態である。状態２（Ｓ２）は、擬似音素を生成するレターに対応する。前のすべての状態から現在の状態へのスキップは、音素のイプシロンをサポートするために許される。

各状態及び期間状態は、書記素ＨＭＭに対しての音素シーケンスの整列の累積するペナルティ（対数確率の和）を含むトークンと、累積値に対応する状態シーケンスとを保持する。音素シーケンスは、１つの音素を一度に音素シーケンスを通して初めから終わりまで行かせることによりレターに対して整列される。レターと音素の間のビダビィ整列を見つけるために、トークン通過が実行される。トークンが１つの状態から他の状態へ通過するに従って、それらは各状態からペナルティを集める。トークンの通過は、次の状態に入るトークンの分離、結合又は選択も含む。最後に最小の累積ペナルティを有するトークンが、ＨＭＭの全状態にわたって見つかる。トークンの状態シーケンスに基づいて、語のレターと音素の間の整列が決定できる。

整列は、大部分のエントリィに適切に作用するが、整列できないいくつかの特別なエントリィがある。このような場合、他の簡単な整列が適用される。書記素又は音素のイプシロンがレター又は音素シーケンスの終わりに付加される。

図４は、本発明の好適な実施例による例として使用されるエントリィのプレ処理の詳細を示す。
元のエントリィ（４００）は、２つの部分、テキストシーケンス’ｆａｔｈｅｒ’と音素シーケンス’ｆＡ：Ｄ＠’とを有する。これら２つのシーケンスは、白スペースキャラクタで分けられ、更に音素ユニットは白スペースキャラクタで分けられる。

整列（４０２）において、音素及び書記素エプシロンが両方のシーケンスにおいて同数のユニットを有するように付加される。例示の語では、２つの音素イプシロンが使用され、音素シーケンスの結果は’ｆＡ：Ｄεε＠’である。
音素ユニットの１つのシンボル表現へのマッピング（４０４）は、音素シーケンスだけを変化させる。マッピングの後、例示の語の音素シーケンスは’ｆＡＤ＿＿＠’である。

エントリィがマッピングされる時（４０４）、白スペースキャラクタを除くことができる（４０６）。その結果、１つの列’ｆａｔｈｅｒｆＡＤ＿＿＠’になる。
最後のステップは挟み込みであり、例示のエントリィは’ｆｆａＡｔＤｈ＿ｅ＿ｒ＠’である。ここで、エンｔリィは更に処理でき、例えば圧縮できる。
これらのすべてのステップは図２に詳細が記載されている。

上記のマッピング（２０２）も含むプレ処理方法は、実験的にテストされた。実験は、100,000以上の語とそれらの書き換えを含む北米英語のための発音辞書であるカネギーメロン大学発音辞書を使用して行なわれた。実験では、典型的な辞書ベース圧縮方法ＬＺ７７及びＬＺＷ、及び統計学ベースの圧縮方法２次演算圧縮を使用してまずパフォーマンスが評価された。次に、圧縮方法（ＬＺ７７、ＬＺＷ及び演算的）と一緒にプレ処理方法でパフォーマンスが評価された。表７においては、キロバイトで示される結果は、プレ処理方法がすべての場合においてより良好であることを示している。一般に、どのような圧縮アルゴリズムとも一緒に使用できる。

表７から分かるように、プレ処理はすべての圧縮方法による圧縮率を改善できる。ＬＺ７７の圧縮方法と組み合わせることで、プレ処理は圧縮率を２０％以上改善した。改善率は、プレ処理をＬＺＷ方法又は演算方法と組み合わせた時に一層大きくなり、約４０％より良い圧縮率になった。

本発明は、発音辞書が効率的なメモリの使用方法で記憶する必要のある時に、スピーチ認識及びスピーチ合成又はすべての応用に使用されるいかなる一般用途の辞書にも適用可能であることが理解される。更に、本発明は、例えば語の全ての形態及びスペルチェッカプラグラムを示す共通辞書のような、キャラクタレベルで高い相関を有する本文のエントリィのグループを備えるどのような他のリストの圧縮にも適用可能である。

図５は、本発明の好適な実施例に関係する部分だけの電子装置（ＥＤ）を示す。電子装置（ＥＤ）は、例えば、ＰＤＡ装置、移動端末、パーソナルコンピュータ（ＰＣ）、又はインテリジェントヘッドセット又は遠隔制御装置のようなこれらと一緒に使用することが意図されたどのようなアクセサリィ装置であってもよい。電子装置（ＥＤ）は、Ｉ／Ｏ手段（ＩＯ）、中央処理ユニット（ＰＲＯ）及びメモリ（ＭＥ）を備える。メモリ（ＭＥＭ）は、リードオンリィメモリＲＯＭ部分、及びランダムアクセスメモリＲＡＭ及びフラッシュメモリのような書き換え可能な部分を備える。例えば、ネットワーク、他の装置又はユーザなどの異なる外部部分との通信に使用される情報は、Ｉ／Ｏ手段（ＩＯ）を通して中央処理ユニット（ＰＲＯ）へ／又はそれから送られる。マイクロフォン又はキーパッドのようなキャラクタシーケンスを装置に送れるようにするユーザインターフェースは、このようにＩ／Ｏ手段（ＩＯ）の一部である。プレ処理された発音辞書は、例えば、ネットワークからのダウンロードとして、Ｉ／Ｏ手段（ＩＯ）を通して、データ処理装置（ＴＥ）から電子装置（ＥＤ）にダウンロードされることが可能である。次いで、辞書は更なる使用方法のためにメモリ（ＭＥ）に記憶される。

図６及び図７に示したステップは、電子装置（ＥＤ）の中央処理ユニット（ＰＲＯ）で実行されるコンピュータプログラムコードが設定される。コンピュータプログラムはＩ／Ｏ手段（ＩＯ）を通して中央処理ユニット（ＰＲＯ）にロードされる。設定は、ハードウエアソルーション（例えば、ＡＳＩＣ）又はこれら２つの組合せでも行なえる。１つの好適な実施例によれば、装置（ＥＤ）のメモリ（ＭＥ）に記憶された音素辞書は、図２に示したようにプレ処理される。

図６において、電子装置（ＥＤ）の中央処理ユニット（ＰＲＯ）は、発音モデルに変換される必要のあるテキスト列を受ける。入力テキスト列は、例えば、Ｉ／Ｏ手段（ＩＯ）を使用して、電子装置（ＥＤ）のコンタクトデータベースに加えられるユーザ名である。まず、マッチングエントリィが、メモリ（ＭＥ）に記憶されたプレ処理された発音辞書から見つけられる（６００）。マッチングエントリィを見つけることは、入力テキスト列をエントリィのキャラクタユニットと比較することに基づいている。エントリィは挟み込まれているので、エントリィ列はキャラクタと音素ユニットの組合せである。もし挟み込みが図で説明した好適な実施例に従って行なわれていたなら、入力列をエントリィと比較した時に、それぞれの２番目のユニットだけが使用される。エントリィのキャラクタユニットは、第１から始めて、奇数ユニットを選択することにより見つけられる。比較はエントリィの元のキャラクタ列となされ、従って書記素イプシロンなどの空スペースは無視される。当業者に知られているマッチ（一致）エントリィを見つけるためのいくつかの方法及びアルゴリズムがあり、それらは本発明の部分ではないので、ここではそれらの説明は行なわない。キャラクタユニットが入力テキスト列のユニットと正確に一致する時、マッチングエントリィが見つかる。しかしながら、いくつかの応用では、替わりに正確に一致しないアルゴリズム、例えばいわゆるワイルドカードを利用するアルゴリズムを使用すると有利である。

マッチングエントリィが見つかった時、エントリィの音素ユニットが選択される（６０２）。（図２の好適な実施例により行なわれた）挟み込みのため、エントリィ列の各第２のユニットが使用される。音素ユニットを決定するため、選択は２番目のユニットから開始される。選択されたユニットは、音素ユニットのシーケンスを生成するのに結び付けられる。

エントリィが整列されているので、音素ユニットのシーケンスは、例えば音素イプシロンのような空スペースを含む。空スペースは音素だけで構成されるシーケンスを生成するために除かれる（６０４）。
音素辞書のプレ処理がマッピングも含むならば、逆マッピングが必要である（６０６）。逆マッピングは、プレ処理の間使用されたのと同様のマッピング表を使用して実行できるが、逆順に行なう。このステップは、例えば１つのキャラクタ表現のような音素ユニットの第１の表現方法を、例えばＳＡＭＰＡのようなシステムで使用される第２の表現方法に変換する。

音素ユニットのシーケンスが生成される時、典型的には更に処理され、例えばシーケンスの発音モデルが生成される。１つの実施例によれば、発音モデルは、例えばＨＭＭアルゴリズムを使用する各音素を生成する。音素発音モデルは、メモリ（ＭＥ）に記憶される。エントリィの発音モデルを生成するため、音素シーケンスの各音素の発音モデルは、メモリから取り出される（６０８）。これらの音素モデルは結び付けられ（６１０）、音素シーケンスの発音モデルが生成される。

上記のテキスト列入力の発音モデルへの変換は、２つの電子装置の間で分配することもできる。例えば、プレ処理された辞書は、ネットワークなどにおいて、第１の電子装置に記憶され、そこで、マッチングエントリィの見つけ出し（６００）が実行される。マッチングエントリィは、例えば移動端末のような第２の電子装置に分配され、そこで処理の残り（ステップ６０２−６１０）が実行される。

図７は、プレ処理された発音辞書を利用する電子装置（ＥＤ）における、スピーチ情報のキャラクタユニットのシーケンスへの変換を示す。電子装置（ＥＤ）の中央処理ユニット（ＰＲＯ）は、Ｉ／Ｏ手段（ＩＯ）を通してスピーチ情報入力を受ける。このスピーチ情報はキャラクタユニットのシーケンスに変換される必要があるが、これは例えばそれをディスプレイ上にテキストとして示したり、それをスピーチ制御装置の所定のスピーチコマンドのテキスト列と比較するなどの更なる使用のためである。

マッチングエントリィの見つけ出し（７０２）は、入力スピーチ情報の発音辞書における各エントリィの発音モデルとの比較に基づいている。従って、比較の前に、各エントリィの発音がモデル化される（７００）。１つの好適な実施例によれば、モデルは電子装置（ＥＤ）内で生成される。音素辞書は既に挟み込まれて整列されており、従ってモデル化は、図６で説明したのと同様に、その後のステップ６０２−６１０で行なえる。モデル化が電子装置（ＥＤ）でなされた時、処理容量及びワーキング（作業）メモリの必要性が増加する。替わりに、発音辞書を記憶するメモリ消費を低く維持できる。

第２の好適な実施例によれば、データ処理装置（ＴＥ）における発音辞書のプレ処理の前にモデルが生成される。モデル化は、図６で説明したのと同様に、その後のステップ６０８と６１０で行なえる。モデル化がプレ処理の前になされ、辞書はまだ挟み込み、整列又はマッピングがなされていないので、ステップ６０２−６０６は不要である。発音モデルは、次にエントリィと一緒にメモリ（ＭＥＭ）に記憶される。辞書が電子装置（ＥＤ）に送られる時、モデルも送られる。このソルーションでは、処理容量及びワーキングメモリを少なくしたために、スピーチ情報をテキストシーケンスに変換する必要がある。替わりに、記憶メモリ（ＭＥ）のメモリ消費が減少される。

マッチエントリィの見つけ出し（７０２）は、入力スピーチ情報及びメモリ（ＭＥ）に記憶されたエントリィの発音モデルを使用して行なわれる。スピーチ情報は各エントリィと比較され、入力スピーチ情報が各エントリィ発音モデルとどのくらいよく一致するかの確率が演算される。確率を演算した後、マッチエントリィは最高の確率のエントリィを選択することにより見つけられる。

キャラクタユニットは、次にマッチングエントリィから選択される（７０４）。図２で説明したように挟み込まれているために、エントリィ列の第２のユニットのそれぞれが使用される。選択は、キャラクタユニットを得るように第１のユニットから始めなければならない。これらの選択されたユニットは、書記素ユニットのシーケンスを形成するように結び付けることができる。

整列のために、書記素ユニットのシーケンスは、例えば書記素イプシロンのような空スペースを含む。書記素だけを有するシーケンスを生成するため、空スペースは除かれる（７０６）。その結果、システムで更に使用できるテキスト列が得られる。

例えば自動車ユーザインターフェースを有する移動電話のような電子装置は。音声コマンドの話者独立な音声認識を有する。各音声コマンドは、発音辞書におけるエントリィである。ユーザは、運転中に電話の呼び出しをすることを望んでいる。音声認識が動作状態の時、ユーザは「電話(CALL)」と言う。電話は、マイクロフォンで音声コマンドを受けて、スピーチ情報をＩ／Ｏ手段を通して中央処理ユニットに送る。中央処理ユニットは、図７で説明したように、スピーチ入力をテキストシーケンスに変換する。テキストシーケンスは、ユーザに装置がしたことをフィードバックするために、Ｉ／Ｏ手段を通してディスプレイに送られる。スクリーン上のテキストだけでなく、装置は音でフィードバックすることも可能である。スピーチからテキストへの変換処理の一部として生成されたマッチエントリィの発音モデルは、Ｉ／Ｏ手段を通してスピーカに送られる。電話は、次にユーザが選択した番号に電話をかける。

付属の図面及びそれに関係する記載は、本発明を説明するためだけのものである。請求項に記載された発明の範囲及び趣旨から逸脱しないで、本発明の異なる変形及び変形例があり得ることは、当業者には明らかである。

図１は、本発明の１つの好適な実施例による発音辞書のプレ処理と圧縮をサポートするデータ処理装置を示すブロック図である。図２は、本発明の１つの好適な実施例による方法のフローチャートである。図３は、発音辞書の整列のためのＨＭＭアルゴリズムの使用を示す。図４は、１つの辞書エントリィのためのプレ処理を示す。図５は、プレ処理された発音辞書を使用する電子装置を示すブロック図である。図６は、本発明の好適な実施例に従って、テキスト列が発音モデルに変換される時のプレ処理された発音辞書の使用を示すフローチャートである。図７は、本発明の好適な実施例に従って、スピーチ情報がテイストユニットのシーケンスに変換される時のプレ処理された発音辞書の使用を示すフローチャートである。

Claims

データ処理装置の圧縮のための発音辞書をプレ処理する方法であって、
前記発音辞書は、少なくとも１つのエントリィを備え、該エントリィはキャラクタユニットのシーケンスと音素ユニットのシーケンスとを備える方法において、
当該方法は、
統計的なアルゴリズムを使用して前記キャラクタユニットと前記音素ユニットの間の整列を決定するように、前記キャラクタユニットのシーケンスと前記音素ユニットのシーケンスとを整列するステップと、
対応するキャラクタユニットに対する所定の位置に、各音素ユニットを挿入することにより、前記整列されたキャラクタユニットのシーケンスと前記整列された音素ユニットのシーケンスを挟み込むステップとを備えることを特徴とする方法。
前記整列は、統計的なアルゴリズムであるＨＭＭビダビィアルゴリズムを使用して決定されることを特徴とする請求項１に記載の方法。
前記音素ユニットは、対応するキャラクタユニットの次に配置されることを特徴とする請求項１に記載の方法。
書記素イプシロンを前記キャラクタユニットのシーケンスに及び／又は音素イプシロンを前記音素ユニットのシーケンスに挿入することにより、前記整列されたキャラクタユニットのシーケンス及び前記整列された音素ユニットのシーケンスの前記音素ユニットが同数のユニットを有するようにされることを特徴とする請求項１から３のいずれか１項に記載の方法。
前記キャラクタユニットは、レター又は白スペースキャラクタであることを特徴とする請求項１から４のいずれか１項に記載の方法。
前記音素ユニットは、単一音素又は音素イプシロンを表すレター又は白スペースキャラクタであり、１つの前記ユニットは少なくとも１つのキャラクタにより示されることを特徴とする請求項１から５のいずれか１項に記載の方法。
当該方法は、
各音素ユニットを１つのシンボルにマッピングするステップを備えることを特徴とする請求項１に記載の方法。
テキスト列入力を音素ユニットのシーケンスに変換するように構成された電子装置であって、
エントリィを備えるプレ処理された発音辞書を記憶する手段であって、前記エントリィはキャラクタユニットを備える第１の組みのユニットと音素ユニットを備える第２の組みのユニットとを備え、前記第１の組みのユニットと前記第２の組みのユニットは整列されて、各音素ユニットを対応するキャラクタユニットに対する所定の位置に挿入することにより挟み込まれる手段と、
前記プレ処理された発音辞書から、前記テキスト列入力のマッチングエントリィを、前記エントリィの前記第１の組のユニットを所定の位置から使用して見つけ出す手段と、
前記マッチングエントリィから、所定の位置からの前記第２の組のユニットを選択し、それらを音素ユニットのシーケンスに組み合わせる手段と、
前記音素ユニットのシーケンスから空のスペースを除く手段とを備えることを特徴とする電子装置。
当該電子装置は、移動通信システムのける移動端末であることを特徴とする請求項８に記載の電子装置。
各音素を、第１の音素表現方法から第２の音素表現方法にマッピングする手段を更に備えることを特徴とする請求項８に記載の電子装置。
スピーチ情報入力をキャラクタユニットのシーケンスに変換するように構成された電子装置であって、
エントリィを備えるプレ処理された発音辞書を記憶する手段であって、前記エントリィはキャラクタユニットを備える第１の組みのユニットと音素ユニットを備える第２の組みのユニットとを備え、前記第１の組みのユニットと前記第２の組みのユニットは整列されて、各音素ユニットを対応するキャラクタユニットに対する所定の位置に挿入することにより挟み込まれる手段と、
各エントリィの音素表現の発音モデルを記憶又は生成する手段と、
前記スピーチ情報を前記発音モデルと比較し、もっとも対応するエントリィを選択することにより、前記スピーチ情報に対するマッチングエントリィを見つけ出す手段と、
前記マッチングエントリィにおいて、前記第１の組のユニットを所定の位置から選択し、それらをキャラクタユニットのシーケンスに組み合わせる手段と、
前記キャラクタユニットのシーケンスから空のスペースを除く手段とを備えることを特徴とする電子装置。
互いに通信接続であるように配置された第１の電子装置と第２の電子装置とを備え、テキスト列入力を音素ユニットのシーケンスに変換するように構成されたシステムであって、
前記第１の電子装置は、エントリィを備えるプレ処理された発音辞書を記憶する手段を備え、前記エントリィは各音素ユニットを対応するキャラクタユニットに対する所定の位置に挿入することにより整列及び挟み込まれ、前記エントリィは、キャラクタユニットを備える第１の組みのユニットと、音素ユニットを備える第２の組みのユニットとを備え、
前記第１の電子装置は、前記エントリィの前記第１の組のユニットを使用して、前記プレ処理された発音辞書から前記テキスト列入力のマッチングエントリィを見つけ出す手段を備え、
前記第１の電子装置は、前記マッチングエントリィを前記第２の電子装置に送る手段を備え、
前記第２の電子装置は、前記マッチングエントリィを前記第１の電子装置から受ける手段を備え、
前記第２の電子装置は、前記マッチングエントリィから前記第２の組のユニットを選択し、それを音素ユニットのシーケンスに組み合わせる手段を備え、
前記第２の電子装置は、前記音素ユニットのシーケンスから空のスペースを除く手段を備えることを特徴とするシステム。
データ処理装置のメモリにロード可能なコンピュータプログラムであって、前記データ処理装置が、
少なくとも１つのエントリィを備え、前記エントリィはキャラクタユニットのシーケンスと音素ユニットのシーケンスとを備える発音辞書を、前記メモリから取り出し、
統計的なアルゴリズムを使用して、前記キャラクタユニットのシーケンスと前記音素ユニットのシーケンスを整列させ、
対応するキャラクタユニットに対する所定の位置に各音素ユニットを挿入することにより、前記整列されたキャラクタユニットのシーケンスと前記整列された音素ユニットのシーケンスを挟み込むようにさせる、前記データ処理装置で実行可能なコードを備えることを特徴とするコンピュータプログラム。
電子装置のメモリにロード可能なコンピュータプログラムであって、前記電子装置が、
エントリィを備えるプレ処理された発音辞書であって、前記エントリィはキャラクタユニットを備える第１の組のユニットと音素ユニットを備える第２の組みのユニットとを備え、前記第１の組のユニットと前記第２の組のユニットは整列されて、対応するキャラクタユニットに対する所定の位置に各音素ユニットを挿入することにより挟み込まれているようにプレ処理された発音辞書を、メモリから取り出し、
前記プレ処理された発音辞書から、テキスト列入力のマッチングエントリィを、前記エントリィの第１の組のユニットを所定の位置から使用して見つけ出し、そして空のスペースを無視し、
前記マッチングエントリィから、前記第２の組みのユニットを所定の位置から選択して、音素ユニットのシーケンスに組合せ、
前記音素ユニットのシーケンスから空のスペースを除くようにさせる、前記電子装置で実行可能なコードを備えることを特徴とするコンピュータプログラム。
電子装置のメモリにロード可能なコンピュータプログラムであって、前記電子装置が、
エントリィを備えるプレ処理された発音辞書であって、前記エントリィはキャラクタユニットを備える第１の組のユニットと音素ユニットを備える第２の組みのユニットとを備え、前記第１の組のユニットと前記第２の組のユニットは整列されて、対応するキャラクタユニットに対する所定の位置に各音素ユニットを挿入することにより挟み込まれているプレ処理された発音辞書を、メモリから取り出し、
各エントリィの音素表現の発音モデルを記憶又は生成し、
前記スピーチ情報を前記発音モデルと比較し、もっとも対応するエントリィを選択することにより、前記スピーチ情報に対するマッチングエントリィを見つけ出し、
前記マッチングエントリィから、所定の位置からの前記第１の組のユニットを選択し、それらをキャラクタユニットのシーケンスに組み合わせ、
前記キャラクタユニットのシーケンスから空のスペースを除くようにさせる、前記電子装置で実行可能なコードを備えることを特徴とするコンピュータプログラム。