JP2009037633A

JP2009037633A - 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定

Info

Publication number: JP2009037633A
Application number: JP2008239389A
Authority: JP
Inventors: Jilei Tian; チアン，ジレイ; Janne Suontausta; スオンタウスタ，ヤンネ
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2002-10-22
Filing date: 2008-09-18
Publication date: 2009-02-19
Also published as: BR0314865A; JP2006504173A; CN1688999B; CA2500467A1; KR100714769B1; EP1554670A1; WO2004038606A1; KR20050070073A; EP1554670A4; US20040078191A1; AU2003253112A1; CN1688999A

Abstract

【課題】文書テキストから言語を同定する方法を提供する。
【解決手段】その同定方法は、ニューラル・ネットワーク（２０）に基づく言語同定システムを利用して、アルファベット文字からなる文字列の言語を複数の言語間で同定する。ＮＮ−ＬＩＤ（２０）システムが、アルファベット文字からなる標準アルファベットセット（２２）を用いて、アルファベット文字からなるマップ済み文字列（１０）に上記文字列をマップして、上記標準アルファベットセット（２２）に基づいて、上記マップ済み文字列が言語のうちの１つとなる尤度を決定できるようにする。標準アルファベットセットの文字は言語依存型のアルファベット文字セットから選択される。スコアリングシステム（３０）も利用して、上記言語依存型セットに基づいて、上記文字列が各言語の文字列となる尤度を決定する。
【選択図】図４

Description

本発明は、一般に、移動通信装置の電話帳内の名前などの１または２以上の語が与えられた言語を同定する方法およびシステムに関し、さらに、音声駆動型名前ダイアル用アプリケーションやコマンド制御用アプリケーションのための多言語音声認識システムに関する。

移動電話内の電話帳や連絡用リストには様々な言語で書かれた連絡先が含まれている場合がある。例えば、“Ｓｍｉｔｈ”、“Ｐｏｕｌｅｎｃ”、“Ｓｚａｂｏｌｃｓ”、“Ｍｉｓｈｉｍａ”、“Ｍａａｌｉｓｍａａ”などの名前はそれぞれ英語、フランス語、ハンガリー語、日本語、フィンランド語起源の名前である可能性が大きい。電話帳内の連絡名がどういう言語グループや言語に属するかを認識できれば好都合であり、必要でもある。

現在、携帯電話およびその他のハンドヘルド型通信装置には自動音声認識（ＡＳＲ）技術が採用されている。話者によるトレーニングが行われたネームダイアラはおそらく最も広く普及しているＡＳＲ用アプリケーションのうちの１つである。この話者によるトレーニングが施されたネームダイアラでは、ユーザは認識を行わせるためにモデルの訓練を行う必要があり、これは特定話者ネームダイアリング（ＳＤＮＤ）として知られている。さらに進歩した技術に依拠するアプリケーションでは、ユーザは認識を行わせるためにモデルの認識訓練をまったく行う必要がない。代わりに、多言語の単語正字法に基づいて自動的に認識モデルが生成される。多言語の単語正字法に基づく発音のモデル化は、例えば、Ｖｉｉｋｋｉら（音響、音声および信号処理に関する国際会議会報の“移動通信システムにおける話者および言語独立型音声認識”、米国、ユタ州ソルトレイク市、２００２年）に開示されているような、多言語の不特定話者ネームダイアリング（ＭＬ−ＳＩＮＤ）システムで用いられる。マーケットのグローバリゼーション並びに国際化および移動電話における将来の応用に起因して、多言語音声認識システムに対する要望が急速に増大している。言語の自動同定は、動的語彙を用いる多言語システムの必須部分である。一般に、多言語音声認識エンジンは、図１に図示のような、言語の自動同定（ＬＩＤ）用モジュール、オンラインによる言語固有のテキストから音素へのモデル化（ＴＴＰ）用モジュールおよび多言語の音響モデル化用モジュールの３つの基本モジュールから構成される。本発明は第１のモジュールに関するものである。

ユーザが、新たな単語や１組の単語をアクティブな語彙に追加すると、ＬＩＤ用モジュールによって言語タグが個々の語にまず割り当てられる。これらの言語タグに基づいて、適切な言語固有のＴＴＰモデルが適用され、語彙項目に書かれた形と関連づけられた多言語の音素列の生成が図られる。最後に、音声転記に基づいて多言語の音響モデルを連接することにより個々の語彙エントリ用の認識モデルが構築される。

自動ＬＩＤは、音声ベースのＬＩＤとテキストベースのＬＩＤの２つのクラス、すなわち音声テキストの言語の同定と、文字テキストの言語の同定とに分けることができる。ほとんどの音声ベースのＬＩＤ法では、音声信号から標準的音声認識方法を用いて発声と関連づけられた音素列をまず認識する、音素配列的（phonotactic）アプローチが用いられる。次いで、ｎ−ｇｒａｍなどの言語固有の統計モデルによってこれらの音素列の再スコアリングが行われる。言語の自動同定に基づくｎ−ｇｒａｍと話し言葉の情報については、例えばＳｃｈｕｌｚｅ（ＥＰ２０１４２７６Ａ２）に開示がある。

言語の独自性が音素列パターンの特徴によって識別できると仮定すると、再スコアリングは正しい言語に対して最高のスコアを与えることになる。テキストから得られる言語の同定は、別の文字の文脈における文字についての言語固有のｎ−ｇｒａｍ統計の収集により一般に解決される。このようなアプローチはＳｃｈｍｉｔｔ（米国特許第５，０６２，１４３号）に開示されている。

ｎ−ｇｒａｍベースのアプローチは（１０ワードまたはそれ以上などの）かなり多量の入力テキストに対してきわめて良好に機能する一方、非常に短いテキストの文節に対してはうまく働かない傾向がある。この傾向は、普通のありふれた語からｎ−ｇｒａｍを収集し、次いで、ｎ−ｇｒａｍを固有名詞の言語タグの同定に適用する場合に特に言えることである。固有名詞は、様々な言語を起源とするものである場合が多いため、普通のありふれた語と比べると非常に異型の書記素（grapheme）統計を有する。

短いテキストの文節の場合、別のＬＩＤ法の方が好適である場合もある。例えば、Ｋｕｈｎら（米国特許番号第６，０１６，４７１号）には、綴られた語に対する複数の発音の生成とスコアリングを行うために決定木を利用する方法および装置が開示されている。決定木はテキストから音素へのマッピングと、言語の同定とに適用されて成功を収めている。ニューラル・ネットワークアプローチの場合と同様、決定木を用いて、単語内の文字の各々に対して言語タグを決定することができる。ニューラル・ネットワークアプローチとは異なり、アルファベット内の異なる文字の各々に対して１つの決定木が存在する。決定木ベースのＬＩＤは訓練を施したセットについては非常に良好なパフォーマンスを示すが、検証用セットについては同じようには機能しない。決定木ベースのＬＩＤはより多くのメモリも必要とする。

テキストから音素へのマッピングタスクに適用されて成功を収めた単純なニューラルネットワークアーキテクチャとして多層パーセプトロン（ＭＬＰ）がある。ＴＴＰとＬＩＤとは類似のタスクであるため、上記アーキテクチャはＬＩＤにとっても好適である。ＭＬＰは、ネットワークの入力層から出力層へ情報が流れるように配設されたユニット（ニューロン）の層から構成される。基本のニューラルネットワーク・ベースのＬＩＤモデルは、図２に図示のような標準的な２層からなるＭＬＰである。ＭＬＰネットワークでは、文字は１回に１文字ずつシーケンシャルに提示され、ネットワークは提示された個々の文字に対する言語の事後確率推定値を示す。書記素コンテキストを考慮に入れるために、設問における当該文字の両側の文字もネットワークへの入力として利用することができる。したがって、ニューラル・ネットワークに対して文字のウィンドウが入力として示されることになる。図２は、現在の文字ｌ₀の両側に４つの文字ｌ_-4…ｌ₄のコンテキストサイズを持つ代表的なＭＬＰを示す。中心の文字ｌ₀はネットワークの出力に対応する文字である。したがって、ＭＬＰの出力は、所定のコンテキストｌ_-4…ｌ₄内の中心の文字ｌ₀に対して推定される言語となる確率である。書記素のヌルが文字セット内に定義され、単語の最初の文字の左側と語の最後の文字の右側にある文字を表わすために利用される。

ニューラル・ネットワークの入力ユニットには連続的な値が与えられるため、入力ウィンドウ内の文字を何か数的な量または表示に変換する必要がある。言語の同定に使用する、アルファベットを表わす直交コードブックの１例を表１に示す。表１の最後の行は書記素のヌルに対応するコードである。直交コードは、アルファベットセット内の文字数に等しいサイズを有する。直交コード化方式の重要な属性として、異なる文字間での何如なる相関も導入しないという点が挙げられる。

表１にリストされているような直交型文字コード化方式に加えて、別の方法も利用することができる。例えば、ＪｅｎｓｅｎおよびＲｉｉｓ（“テキストから音素へのニューラル・ネットワークモデル用自己組織化文字コードブック”音声言語処理に関する国際会議会報、中国、北京、２０００年）に記載のような自己組織化コードブックを利用することができる。自己組織化コードブックを利用する場合、文字コード化方式用のコード化法はＭＬＰのトレーニング用データに基づいて構成される。自己組織化コードブックを利用することにより、ＭＬＰの入力ユニットの数を減らすことが可能となり、したがって、ネットワークのパラメータを保存するために必要なメモリも減少することになる。

一般に、ＮＮ−ＬＩＤモデルが必要とするバイトでのメモリサイズは以下の量に直接比例する：

但し、ＭｅｍＳ、ＣｏｎｔＳ、ＡｌｐｈａＳ、ＨｉｄｄｅｎＵおよびＬａｎｇＳはそれぞれ、ＬＩＤのメモリサイズ、コンテキストサイズ、アルファベットセットのサイズ、ニューラル・ネットワークにおける隠れユニットの数、および、ＬＩＤがサポートしている言語の数を表す。入力用ウィンドウの文字はコード化され、コード化済みの入力はニューラル・ネットワークの中へ入力される。ニューラル・ネットワークの出力ユニットは言語に対応する。ソフトマックス正規化が出力層に適用され、出力ユニットの値は対応する言語の事後確率となる。ソフトマックス正規化によってネットワーク出力が［０，１］の範囲にあり、すべてのネットワーク出力の和は次式に基づいて１に等しくなることが保証される。

上記数式で、ｙ_iとｐ_iとは、ソフトマックス正規化の前と後でのｉ番目の出力値を示す。Ｃは、クラス、すなわちターゲット言語の数を表わす出力層内のユニットの数である。Ｎ個の分類から１つの出力となるようにトレーニングされている場合、且つネットワークが十分に複雑でかつ大域的最小点に合わせてトレーニングされている場合、ソフトマックス正規化を用いるニューラル・ネットワークの出力はクラスの事後確率に近似する。

言語の確率は個々の文字について計算される。これらの確率計算後、言語のスコアが単語内の文字の確率の組み合わせにより得られる。要するに、ＮＮベースのＬＩＤの言語は、主として下式により決定される：

ここで０＜ｉ≦ＬａｎｇＳである。図３にベースラインＮＮ−ＬＩＤ方式を示す。図３で、アルファベットセットは、ＮＮ−ＬＩＤ方式がサポートしているすべての言語に対する少なくとも言語依存型セットの和集合である。

したがって、言語の数が増加すると、アルファベットセット（ＡｌｐｈａＳ）全体のサイズもそれに応じて大きくなり、ＬＩＤモデルのサイズ（ＭｅｍＳ）も比例して増加する。アルファベットサイズの増大は言語の特殊文字記号の追加に起因して生じる。例えば、標準的ラテン文字アルファベットａ〜ｚの他に、フランス語には特殊文字記号

があり、ポルトガル語には特殊文字記号

があり、スペイン語には特殊文字記号

がある等々。さらに、キリル語にはラテン文字のアルファベットとは異なるキリルアルファベットがある。

通常のＰＣ環境と比べて、組込みシステムにおける実装リソースは処理パワーとメモリの双方の点から見て粗末なものである。したがって、ＡＳＲエンジンのコンパクトな実装が携帯電話のような組込みシステムでは非常に重要となる。従来技術による方法のほとんどでは音声入力から言語の同定が行われる。テキスト入力のみを処理するシステムに対してはこれらの方法を適用することはできない。現在、ターゲットのハードウェアによって課されるメモリ要件を満たすことができる利用可能なＮＮ−ＬＩＤシステムは存在しない。

したがって、ターゲットのハードウェアにより課されるメモリ要件を満たすことが可能なＮＮ−ＬＩＤによる方法および装置を提供することが望ましく、好都合であり、その結果、この方法およびシステムを組込みシステムで利用できる。

携帯電話によって課されるメモリ要件を満たすことができる多言語音声認識システムで言語の同定を行う方法および装置を提供することが本発明の主たる目的である。特に、上記言語の同定は、文書テキストから、ニューラルネットワーク・ベースのシステムによって行われる。ニューラルネットワーク・ベースの言語の同定の目的に対して、縮小されたアルファベット文字セットを用いることによりこの目的の達成は可能となり、その場合、縮小されたアルファベットセット内の文字数は、同定しようとする全ての言語についてのアルファベット文字の言語依存型セットの和集合内の文字数に比べて大幅に少なくなる。さらに、個々の言語依存型セットのすべてに依拠するスコアリングシステムを利用して、その言語と仮定した場合の単語のアルファベットセットの確率計算が行われる。最後に、ニューラル・ネットワークにより提供される言語のスコアをスコアリングシステムの確率と組み合わせることにより言語の同定が行われる。

したがって、本発明の第１の態様によれば、言語自動同定システムに基づいて、個々の言語がアルファベット文字の個別セットを有する複数の言語の中で、アルファベット文字からなる文字列の言語を同定する方法が提供される。上記方法は、アルファベット文字からなる参照セットから選択したマップ済みアルファベット文字の文字列にアルファベット文字からなる文字列をマップするステップと、アルファベット文字からなる上記マップ済み文字列が上記複数の言語のうちの各言語の文字列となる確率を示す第１の値を取得するステップと、各個別セットにおいて上記文字列内の上記アルファベット文字の一致を示す第２の値を取得するステップと、上記第１の値と上記第２の値とに基づいて上記文字列の言語を決定するステップと、を具備することを特徴とする。

上記とは別に、上記複数の言語は、各グループがアルファベット文字の個別セットを含む１以上のメンバーを有する複数のグループに分類され、各グループの各個別セットにおいて文字列内のアルファベット文字の一致を示す第２の値を取得するように図る。

上記方法は、上記参照セット内のアルファベット文字数が、上記アルファベット文字の個別セットのすべての和集合よりも少ないことをさらに特徴とする。

好適には、上記参照セットに基づいて第１の値を取得し、上記複数の言語の各々についての個別セット内のすべてのアルファベット文字が、標準アルファベット文字のうちの１つに対して一意にマップ可能となるように、上記参照セットが標準アルファベット文字の最小セットを含む。

好適には、上記参照セットは、標準アルファベット文字とは異なる少なくとも１つのシンボルをさらに含み、その結果少なくとも１つの個別セット内の各アルファベット文字が、上記少なくとも１つのシンボルと上記標準アルファベット文字のうちの１つとの組み合わせに対して一意にマップ可能となる。

好適には、言語自動同定システムは、ニューラルネットワーク・ベースのシステムである。

好適には、上記複数の言語のうちの１つであるとした文字列の確率に割り当てられたスケーリングファクタから第２の値を取得し、上記第１の値と第２の値の積の最大値に基づいて上記複数の言語間で言語を決定する。

本発明の第２の態様によれば、各言語がアルファベット文字の個別セットを有し、複数のその言語の中でアルファベット文字からなる文字列の言語を同定する言語同定システムが提供される。上記システムは、アルファベット文字の参照セットと、上記参照セットから選択したアルファベット文字からなるマップ済み文字列を示す信号を出力するために、アルファベット文字からなる上記文字列を上記マップ済み文字列にマップするマッピングモジュールと、上記信号に応答し、上記マップ済み文字列が上記複数の言語のうちの各言語の文字列となる尤度を示す第１の情報を提供するために、上記参照セットに基づいて上記尤度を決定する第１の言語識別モジュールと、上記文字列が上記複数の言語のうちの各言語の文字列となる尤度を示す第２の情報を提供するために、アルファベット文字の上記個別セットに基づいて上記尤度を決定する第２の言語識別モジュールと、上記第１の情報と上記第２の情報とに応答し、上記文字列が上記複数の言語のうちの１つとなる結合尤度を上記第１の情報と上記第２の情報とに基づいて決定する決定モジュールと、を具備することを特徴とする。

あるいは、尤度を示す第２の情報を提供する上記グループのアルファベット文字の個別セットに基づいて、文字列が上記複数の言語のうちの個々の言語の１つとなる尤度を第２の言語識別モジュールによって決定可能なように、上記複数の言語は、アルファベット文字の各グループが個別セットを含む１以上のメンバーを有する複数のグループに分類される。

また、第１の言語識別用モジュールが複数の隠れユニットを具備するニューラルネットワーク・ベースのシステムであり、言語同定システムが前記複数の隠れユニットに部分的に基づいて、多重化された形で参照セットを格納するメモリユニットを具備し、さらに、上記メモリの要件に応じて上記隠れユニットの数を調整できることが好ましい。さらに、言語同定システムのパフォーマンスを改善するために、隠れユニットの数を増やせるようにすることが好ましい。

本発明の第３の態様によれば、電子デバイスが提供され、該電子デバイスは、アルファベット文字からなる文字列を示す信号を上記電子デバイスで出力するモジュールと、上記信号に応答し、複数の言語の個々の言語がアルファベット文字の個別セットを有し、その複数の言語の中で上記文字列の言語を同定する言語同定システムと、を具備し、そのシステムが、アルファベット文字の参照セットと、上記参照セットから選択したアルファベット文字からなるマップ済み文字列を示すさらなる信号を出力するために、アルファベット文字からなる上記文字列を上記マップ済み文字列にマップするマッピングモジュールと、上記信号に応答し、上記マップ済み文字列が上記複数の言語のうちの各言語の文字列となる尤度を示す第１の情報を提供するために、上記参照セットに基づいて上記尤度を決定する第１の言語識別モジュールと、上記文字列に応答し、上記マップ済み文字列が上記複数の言語のうちの各言語の文字列となる尤度を示す第２の情報を提供するために、アルファベット文字の個別セットに基づいて上記尤度を決定する第２の言語識別モジュールと、上記第１の情報と上記第２の情報とを受けて、上記文字列が上記複数の言語のうちの１つとなる結合尤度を上記第１の情報と上記第２の情報とに基づいて決定する決定モジュールと、を具備することを特徴とする。

上記電子デバイスは携帯電話のようなハンドヘルド型装置であってもよい。

図４〜図６と関連してなされる説明を読むにつれて、本発明は明らかになるであろう。

数式（１）で解るように、ニューラルネットワーク・ベースの言語同定（ＮＮ−ＬＩＤ）システムのメモリサイズは、２つの項で決定される。すなわち、１）（２＊ＣｏｎｔＳ＋１）×ＡｌｐｈａＳ×ＨｉｄｄｅｎＵ、および、２）ＨｉｄｄｅｎＵ×ＬａｎｇＳであり、但し、ＣｏｎｔＳ、ＡｌｐｈａＳ、ＨｉｄｄｅｎＵおよびＬａｎｇＳは、コンテキストサイズ、アルファベットセットのサイズ、ニューラル・ネットワーク内の隠れユニットの数、および、ＬＩＤがサポートしている言語の数を表す。一般に、ＬＩＤサポートしている言語の数、すなわちＬａｎｇＳは、アルファベットセットのサイズよりも速く増えることはなく、また、項（２＊ＣｏｎｔＳ＋１）は１よりもずっと大きい。したがって、数式（１）の第１項が支配的になることは明らかである。さらに、ＬａｎｇＳとＣｏｎｔＳとは予め定義されていて、ＨｉｄｄｅｎＵがＬＩＤシステムの識別能力をコントロールしているため、メモリサイズはＡｌｐｈａＳにより主として決定される。ＡｌｐｈａＳは、ＮＮ−ＬＩＤシステムで用いる言語独立型セットのサイズである。

本発明は、ＮＮ−ＬＩＤで使用する標準的言語独立型セットＳＳとして、アルファベット文字またはシンボルの縮小セットを定義することによりメモリサイズを小さくするものである。ＳＳは、複数の言語固有のアルファベットセットすなわち言語依存型アルファベットセット（ＬＳ_i）から導き出される。但し、０＜ｉ＜ＬａｎｇＳであり、ＬａｎｇＳはＬＩＤがサポートしている言語の数である。ＬＳ_iをｉ番目の言語依存型アルファベットセット、ＳＳを標準アルファベットセットとすると、下式が得られる：

但し、ｃ_i,kとｓ_kとは、ｉ番目の言語依存型アルファベットセットのｋ番目の文字と、標準アルファベットセットのｋ番目の文字である。ｎｉとＭは、ｉ番目の言語依存型アルファベットセットと標準アルファベットセットのサイズである。言語依存型アルファベットセットのすべての和集合は、サポートされている各言語におけるすべての特殊文字記号を保持しているものと理解されたい。例えば、ポルトガル語が、ＬＩＤがサポートしている言語のうちの１つであれば、上記和集合は少なくとも以下の特殊文字記号

を保持することになる。しかし、標準アルファベットセットでは、サイズＭを小さくするために特殊文字記号のうちのいくつかまたはすべてが除去される。このサイズＭは数式（１）のＡｌｐｈａＳでもある。

本発明によれば、ＮＮ−ＬＩＤシステムでは、標準アルファベットセットＳＳが使用されているため、すべての言語依存型セットの集合体の代わりに、マッピング処理手順を実行する必要がある。言語依存型セットから標準アルファベットセットへのマッピングは以下のように定義することができる。

アルファベットサイズは

のサイズからＭ（ＳＳのサイズ）へ縮小される。マッピングを行う目的のために、例えば、すべての言語から標準アルファベットセットへのマッピングを行うためのアルファベット文字のマッピングテーブルを用いることができる。上記とは別に、すべての言語から標準アルファベットセットへ特殊文字記号のみを対応づけるマッピングテーブルを使用してもよい。標準アルファベットセットＳＳは、（ａ、ｂ、ｃ、．．．、ｚ）のような標準文字またはカスタムメイドのアルファベット記号、あるいはこれら双方の組み合わせなどから構成することができる。

言語依存型アルファベットセットを用いて書かれたいずれの語も、標準アルファベットセットを用いて書かれた対応する語にマップ（分解）できることが数式（６）から理解される。例えば、言語依存型アルファベットセットを用いて書かれた

という単語は、標準アルファベットセットを用いて書かれた‘ｈａｋｋｉｎｅｎ’という単語にマップされる。以下、言語依存型アルファベットセットを用いて書かれた

のような単語をｗｏｒｄと呼び、標準アルファベットセットを用いて書かれた対応する単語‘ｈａｋｋｉｎｅｎ’をｗｏｒｄ_sと呼ぶことにする。

言語依存型セットと、標準アルファベットセットを用いて書かれたｗｏｒｄ_sとが与えられた場合、言語依存型セットを用いて書かれたｗｏｒｄは近似的に決定されることになる。したがって、本願では合理的に下式を仮定することが可能となる。

上式で、ａｌｐｈａｂｅｔはｗｏｒｄ内の個々のアルファベット文字である。ｗｏｒｄ_sとａｌｐｈａｂｅｔとは独立した事象であるため、数式（２）は以下のように書き換えることができる。

数式（８）の右辺の第１項はＮＮ−ＬＩＤを用いて推定される。ＬＩＤは、ｗｏｒｄではなく、ｗｏｒｄ_sに対して行われるため、すべての言語依存型セットの和集合であるＵＬＳ_iの代わりに、標準アルファベットセットを使用すれば十分である。標準アルファベットセットは“最小”数の文字から構成されているため、そのサイズＭは、ＵＬＳ_iのサイズに比べるとずっと小さくなる。ＡｌｐｈａＳが小さくなっているため、数式（１）から、ＮＮ−ＬＩＤモデルのサイズが小さくなっていることがわかる。例えば、ブルガリア語、チェコ語、デンマーク語、オランダ語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、アイスランド語、イタリア語、ラトビア語、ノルウェー語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語、トルコ語、英語、ウクライナ語を含む２５ヶ国語がＮＮ−ＬＩＤ方式に含まれる場合、和集合のサイズは１３３となる。これとは対照的に、標準アルファベットセットのサイズはＡＳＣＩＩのアルファベットセットの２７まで減らすことができる。

数式（８）の右辺の第２項は、ｉ番目の言語の場合のｗｏｒｄのアルファベット文字列の確率である。アルファベット文字列の確率を知るために、本願では、以下のように頻度Ｆｒｅｑ（ｘ）をまず計算することができる。

次いで、確率Ｐ（ａｌｐｈａｂｅｔ｜ｌａｎｇ_i）を計算することができる。このアルファベットの確率は、硬判定あるいは軟判定のいずれかにより推定することが可能である。

硬判定の場合、下式が適用される。

軟判定の場合、下式が適用される。

多言語の発音によるアプローチでは、多言語の発音を知るためにｎ個の最良のＬＩＤ決定を必要とし、硬判定ではこの要件を満たすことができないことが時として生じる場合があるため、軟判定を行う方が好ましい。係数αを利用して、一致言語と不一致言語とはさらに２つのグループに分離される。

係数αは任意に選択することができる。基本的に、０.０５のような任意の小さな値を用いることができる。数式（１）からわかるように、ＮＮ−ＬＩＤモデルサイズは大幅に小さくなる。その結果、さらに多くの隠れユニットを追加して、識別能力を高めるようにすることさえ可能となる。

というフィンランド語の名前を例としてとると、

となり、α＝０.０５で、Ｆｒｅｑ（ａｌｐｈａｂｅｔ｜ｌａｎｇ_i）＜１の場合、以下のアルファベットスコアを得る。

確率Ｐ（ｗｏｒｄ_s｜ｌａｎｇ_i）が確率Ｐ（ａｌｐｈａｂｅｔ｜ｌａｎｇ_i）とは別様に決定されることに留意されたい。前者の確率が標準アルファベットセットＳＳに基づいて計算されるのに対して、後者はすべての個別言語依存型セットＬＳ_iに基づいて計算される。したがって、この決定プロセスには、同時にあるいは逐次的に実行することができる２つの独立したステップが含まれることになる。これらの独立した決定処理プロセスのステップについては、本発明による言語同定システム１００の概略表示である図４で理解することができる。図示のように、入力されたｗｏｒｄに応じて、マッピング用モジュール１０は、マッピングテーブル１２に基づいて情報すなわちマップされたｗｏｒｄ_sを示す信号１１０をＮＮ−ＬＩＤ用モジュール２０へ出力する。信号１１０に応じて、ＮＮ−ＬＩＤ用モジュール２０は、標準アルファベットセット２２に基づいて確率Ｐ（ｗｏｒｄ_s｜ｌａｎｇ_i）を計算し、情報すなわち確率を示す信号１２０を決定用モジュール４０へ出力する。独立に、アルファベット・スコアリング用モジュール３０は、個別言語依存型セット３２を使用して確率Ｐ（ａｌｐｈａｂｅｔ｜ｌａｎｇ_i）を計算し、情報すなわち確率を示す信号１３０を決定用モジュール４０へ出力する。入力ワードの言語は、決定用モジュール４０により同定されて、情報すなわち信号１４０として示される。

本発明によれば、ニューラルネットワーク・ベースに基づく言語の同定はセットサイズＭを有する縮小セットに基づいて行われる。メモリ要件に従ってＭの調整を行うことができる。さらに、メモリ量を上回ることなしにＮＮ−ＬＩＤのパフォーマンスを高めるように隠れユニットの数ＨｉｄｄｅｎＵを増やすことができる。

上述のように、言語依存型アルファベットセットのすべてが標準アルファベットセットにマップされると、ＮＮ−ＬＩＤモデルのサイズは小さくなる。アルファベットスコアを利用して、サポートされている言語は、ｗｏｒｄ内のアルファベットの定義に基づいて、一致グループと不一致グループとにさらに分離される。例えば、文字

が与えられたｗｏｒｄ内に出現した場合、このｗｏｒｄはフィンランド語／スウェーデン語グループのみに属することになる。次いで、ＮＮ−ＬＩＤは一致グループとしてフィンランド語／スウェーデン語間でのみの言語の同定を行う。一致グループにおいてＬＩＤを行った後、ＬＩＤは不一致グループにおいて言語の同定を行う。したがって、探索空間を最少化することが可能となる。しかし、標準アルファベットセットにより多くの言語をマップするという事実のために、或る言語用のアルファベットセットが標準アルファベットセットと同じであったり、標準アルファベットセットに近いものであったりした場合、混同が生じることになる。例えば、本願では、当初、標準アルファベットセットＳＳ＝｛ａ，ｂ，ｃ，．．．，ｚ，＃｝が定義され（但し“＃”は空白文字を表す）、したがって、標準アルファベットセットのサイズは２７となる。

これは、標準アルファベットセットに基づくＮＮ−ＬＩＤのパフォーマンスを損なう可能性がある。というのは、“ｂｏｒｉｓ”という名前はドイツ語または英語であるようにさえ思われるからである。

この欠点を解決するために、ニューラル・ネットワークの識別力を高めるよう隠れユニットの数を増やすことができる。さらに、言語依存型セット内の１つの非標準文字を標準アルファベットセット内の文字の文字列にマップすることが可能である。これによって、ニューラル・ネットワークにおける混同は減少する。その結果、標準アルファベットセットへのマッピングによって、アルファベットサイズは小さくなるが（弱い識別）、単一文字から文字列への（single-to-string）マッピングに起因してワード長は長くなる（向上した識別）。このような単一文字から文字列への変換を行った後でも、識別情報はほとんど同じに保たれる。こうすることによって、さらに多くの文字の導入により元の最初の表現から識別情報を変換して以下のように語長の拡大が図られる。

この変換によって、混同を大幅に生じることなく標準文字の文字列により非標準文字を表わすことができる。さらに、識別文字として定義された限られた数のカスタムメイドの文字を追加することにより、標準アルファベットセットの拡張を行うことができる。本願発明者の実験では３つの識別文字が定義された。これらの識別文字は予め定義した標準アルファベットセットＳＳ＝｛ａ，ｂ，ｃ，．．．，ｚ，＃｝内の２７文字と識別可能である。例えば、拡張された標準アルファベットセットには、３つの識別文字Ｓ₁、Ｓ₂、Ｓ₃が追加して含まれ、今度はＳＳ＝｛ａ，ｂ，ｃ，．．．，ｚ，＃，ｓ₁，ｓ₂，ｓ₃｝となる。したがって、１つの非標準文字を拡張された標準アルファベットセットの文字列にマップすることが可能となる。

このアプローチによって、ロシア語テキストを同定する際のパフォーマンスの向上が可能となるだけでなく、混同が少なくなることに起因して、英語テキストを同定する際のパフォーマンスの向上も可能となる。

本願出願者は、ブルガリア語、チェコ語、デンマーク語、オランダ語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、アイスランド語、イタリア語、ラトビア語、ノルウェー語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語、トルコ語、英語、ウクライナ語を含む２５ヶ国語に対して実験を行った。各言語に対して、一般的な１０，０００語のセットを選択し、これらの組を組み合わせることによりＬＩＤ用のトレーニング用データを得た。標準アルファベットセットを、［ａ−ｚ］のセットと、（表３でＡＳＣＩＩとして印を付けた）空白文字と、（表３でＥＸＴＲＡとしてマークした）３つの識別文字とで構成した。標準アルファベット文字またはシンボルの数は３０個である。表２は、３０個及び４０個の隠れユニットと共に言語依存型アルファベット全体（合計１３３）を使用したときのベースラインの結果を示す表である。表２に図示のように、ベースラインＮＮ−ＬＩＤシステムで３０個の隠れユニットが用いられる場合において、ベースラインＮＮ−ＬＩＤモデル用のメモリサイズはすでに大きい。

表３は本発明によるＮＮ−ＬＩＤ方式の結果を示す。本発明によれば、２７文字からなる標準セットを４０個の隠れユニットと共に使用した場合、ＮＮ−ＬＩＤの結果がベースラインの結果よりも劣ったものになるということがわかる。標準アルファベットセットを拡張して３０文字を含むようにするために３つの識別文字を追加することにより、ＬＩＤレートはベースラインレートよりもわずかに低い程度（合計８８.７８対合計８９.９３）にすぎなくなる。しかし、メモリサイズは４７.７ＫＢから１１．５ＫＢへ減少する。このことは、隠れユニットの数を大量に増やして、ＬＩＤのレートの上昇を図ることが可能であることを示唆するものである。隠れユニットの数を８０個まで増した場合、本発明のＬＩＤレートの方がベースラインのレートよりも明らかに良好となる。２７個のＡＳＣＩＩ文字からなる標準アルファベットセットを用いる場合、８０個の隠れユニット用のＬＩＤレートがベースライン方式のレートをすでに上回ることになる（９０.４４対８９.９３）。拡張された３０文字のセットを用いる場合、４０個の隠れユニットを用いるベースライン方式の場合と比べて、メモリの５０％以上を節減しながらＬＩＤがさらに改善されている。

本発明による規模調整可能なＮＮ−ＬＩＤ方式を多くの異なる方法で実行することが可能である。しかし、最も重要な特徴の１つは、言語依存型文字をカスタマイズが可能な標準アルファベットセットへマッピングするということである。ＮＮ−ＬＩＤのパフォーマンスのさらなる向上のために、複数の技術を利用することが可能である。これらの技術には、１）さらに多くの隠れユニットの追加、２）一致グループと不一致グループに言語をグループ分けするために言語依存型文字により提供される情報の利用、３）文字の文字列へのマッピングおよび４）識別文字の定義が含まれる。

標準アルファベットセットへマッピングする言語依存型文字の定義、及び、ベースラインシステムに近づくようにＬＩＤのパフォーマンスを保持するためにニューラル・ネットワークの隠れユニットの数を適切に選択することにより、ターゲットのハードウェア要件を満たすように、ＮＮ−ＬＩＤのメモリ要件を調整することができる。

本発明による、規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定方法を図５に図示のようなフローチャート２００で要約することができる。文書テキスト内のｗｏｒｄを取得した後、このｗｏｒｄは、ステップ２１０でｗｏｒｄ_sすなわち標準アルファベットセットＳＳのアルファベット文字からなる文字列にマップされる。ステップ２２０で、確率Ｐ（ｗｏｒｄ_s｜ｌａｎｇ_i）がｉ番目の言語に対して計算される。ステップ２３０で、確率Ｐ（ａｌｐｈａｂｅｔ｜ｌａｎｇ_i）がｉ番目の言語に対して計算される。ステップ２４０で、結合確率Ｐ（ｗｏｒｄ_s｜ｌａｎｇ_i）∀Ｐ（ａｌｐｈａｂｅｔ｜ｌａｎｇ_i）がｉ番目の言語に対して計算される。ステップ２４２で規定されているように、サポートされている各言語に対して結合確率を計算した後、ステップ２５０で数式８を用いて入力ｗｏｒｄの言語が決定される。

本発明による、規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定方法は、多言語の自動音声認識（ＭＬ−ＡＳＲ）システムに対して適用可能である。この方法は多言語の不特定話者ネームダイアリング（ＭＬ−ＳＩＮＤ）システムの必須部分である。本発明は、携帯電話、携帯情報端末（ＰＤＡ）、通信装置などのようなハンドヘルド型の電子デバイス上で実装することが可能である。本発明は、上記デバイスの特定のオペレーションシステムに依拠するものではない。特に、本発明の方法および装置はハンドヘルド型電子デバイス内の連絡用リストまたは電話帳に対して適用可能である。氏名、住所、電話番号、電子メールアドレスおよびインターネットのＵＲＬなどの人名簿情報の編成を行うために、（ｖＣａｒｄなどの）電子書式の名刺の形でこの連絡用リストを実装することも可能である。さらに、本発明による言語の自動同定方法は、人名、会社名、団体名の認識に限定されるものではなく、文字列が或る言語で或る一定の意味を有するものである限り、通り名、都市名、ウェブページのアドレス、ジョブタイトル、電子メールアドレスの或る部分等の名称の認識をも含むものである。図６に、本発明のＮＮ−ＬＩＤ方式を用いたＭＬ−ＳＩＮＤまたはＭＬ−ＡＳＲを利用するハンドヘルド型電子デバイスの概略構成図を示す。

図６に図示のように、デバイス３００内の基本要素は、ディスプレイ３０２、テキスト入力用モジュール３０４およびＬＩＤシステム３０６である。ＬＩＤシステム３０６は、テキスト入力用モジュール３０４によって与えられるｗｏｒｄを標準アルファベットセット３２２の文字を用いるｗｏｒｄ_sにマップするマッピング用モジュール３１０を具備している。ＬＩＤシステム３０６は、ＮＮ−ＬＩＤ用モジュール３２０、アルファベット・スコアリング用モジュール３３０、複数の言語依存型アルファベットセット３３２および図４に図示のような言語同定システム１００と同様の決定用モジュール３４０をさらに具備する。

表１に図示のように、直交型文字コード化方式が好ましいものの、別のコード化法の利用も可能であることに留意されたい。例えば、自己組織化コードブックを利用することが可能である。さらに、本願の実験では２つの文字からなる文字列を使用して、数式（１２）に従って非標準文字のマッピングを行った。さらに、３またはそれ以上の文字あるいはシンボルからなる文字列の利用も可能である。

本発明のニューラルネットワーク・ベースの言語同定システムで用いる言語の中で、２以上の言語が同じアルファベット文字セットを共用することも可能であることに留意されたい。例えば、実験で用いた上記２５ヶ国語では、スウェーデン語とフィンランド語とが同じアルファベット文字セットを共用している。デンマーク語とノルウェー語の場合も同じアルファベット文字セットを共用している。したがって、言語依存型の異なるセットの数は同定する対象言語の数よりも少なくなる。したがって、言語依存型セットの同一性に基づいて言語を言語グループに類別することが可能となる。これらのグループでは、２以上のメンバーを持つものもあれば、ただ１つのメンバーしかを持たないものもある。使用言語に依っては、２つの言語で同じアルファベット文字セットを共用しているものがないこともあり得る。その場合、グループの数は言語の数に等しくなり、個々の言語グループはただ１つのメンバーを持つことになる。

本発明の好ましい実施形態と関連して、本発明について説明したが、本発明の範囲から逸脱することなく、本発明の形成と細部における上記およびその他の種々の変更、省略並びに逸脱を行うことも可能であることは当業者の理解するところであろう。

従来技術による多言語ＡＳＲシステムのアーキテクチャを例示する概略構成図である。従来技術による２層ニューラル・ネットワークのアーキテクチャを例示する概略構成図である。従来技術におけるベースラインＮＮ−ＬＩＤ方式を示すブロック構成図である。本発明による言語の同定方式を示すブロック構成図である。本発明による言語の同定方法を例示するフローチャートである。本発明による言語の同定方法およびシステムを用いる電子デバイスを例示する概略構成図である。

符号の説明

１０マッピング用モジュール
１２マッピングテーブル
２０ＮＮ−ＬＩＤ用モジュール
２２標準アルファベットセット
３０アルファベット・スコアリング用モジュール
３２個別言語依存型セット
４０決定用モジュール
１００言語同定システム

Claims

ニューラルネットワーク・ベースのシステムに基づいてアルファベット文字からなる第１の文字列の言語を複数の言語の中で同定する方法であって、前記複数の言語の個々の言語が当該言語で使用されるアルファベット文字の個別セットを有し、前記システムは、マッピングモジュールと、第１の言語識別モジュールと、第２の言語識別モジュールと、決定モジュールと、前記複数の言語間で選択されたアルファベット文字を有する言語に依存しない参照セットが格納されたメモリとを有し、前記方法は、
前記マッピングモジュールによって、所定の置換規則に従って前記アルファベット文字からなる第１の文字列に含まれた所定数のアルファベット文字を前記参照セットに含まれるアルファベット文字で置換することにより、アルファベット文字からなる第２の文字列に、前記第１の文字列をマッピングし、該所定数はゼロを含むステップと、
前記第１の言語識別モジュールによって、アルファベット文字からなる前記第２の文字列が前記複数の言語のうちの各言語の文字列となる確率を示す第１の確率を取得するステップと、
前記第２の言語識別モジュールによって、各個別セット内のアルファベット文字と一致する前記第１の文字列内の前記アルファベット文字の数を示す第２の確率を取得するステップと、
前記決定モジュールによって、前記第１の確率と前記第２の確率との結合確率に基づいて前記第１の文字列の言語を決定するステップと、を具備することを特徴とする方法。
前記参照セット内のアルファベット文字数の方がアルファベット文字の前記個別セットのすべての和集合よりも少ないことをさらに特徴とする請求項１に記載の方法。
前記参照セットが、該選択されたアルファベット文字の最小セットを具備し、前記複数の言語の各々に対する前記個別セット内の各アルファベット文字が、前記参照セット内の前記選択されたアルファベット文字のうちの１つに対して一意にマッピング可能であることを特徴とする請求項１に記載の方法。
前記参照セットが、前記選択されたアルファベット文字の最小セットとヌル記号とから成り、前記複数の言語の各々に対する前記個別セット内の各アルファベット文字が、前記参照セット内の前記選択されたアルファベット文字のうちの１つに一意的にマップ可能であることを特徴とする請求項１に記載の方法。
前記第２の文字列内のアルファベット文字数が、前記第１の文字列内のアルファベット文字数に等しいことを特徴とする請求項４に記載の方法。
前記参照セットが前記選択されたアルファベット文字の前記最小セット及び該選択されたアルファベット文字と異なる少なくとも１つのシンボルを具備し、少なくとも１つの個別セット内の各アルファベット文字が、前記選択されたアルファベット文字のうちの１つと、前記少なくとも１つのシンボルとの組み合わせに対して一意にマップ可能であることを特徴とする請求項３に記載の方法。
前記参照セットが、前記選択されたアルファベット文字の前記最小セット及び該選択されたアルファベット文字と異なる複数のシンボルを具備し、少なくとも１つの個別セット内の各アルファベット文字が、前記選択されたアルファベット文字と前記複数のシンボルのうちの少なくとも１つとの組み合わせに対して一意にマップ可能であることを特徴とする請求項３に記載の方法。
前記シンボルの数が調整可能であることを特徴とする請求項７に記載の方法。
前記ニューラルネットワーク・ベースのシステムが、該システムの入力レイヤと出力レイヤに接続される複数の隠れユニットを具備し、該隠れユニットの数が調整可能であることを特徴とする請求項１に記載の方法。
前記複数の言語のうちの１つとなる前記第１の文字列の確率に、スケーリングファクタを乗じることによって、前記第２の確率を取得することを特徴とする請求項１に記載の方法。
前記第１の確率と前記第２の確率との積の最大値に基づいて、前記複数の言語間で言語を決定することを特徴とする請求項１０に記載の方法。
ニューラルネットワーク・ベースのシステムに基づいてアルファベット文字からなる第１の文字列の言語を複数の言語の中で同定する方法であって、複数の言語グループに分類された前記複数の言語の個々のグループが当該言語グループで使用されるアルファベット文字の個別セットを有し、前記システムは、マッピングモジュールと、第１の言語識別モジュールと、第２の言語識別モジュールと、決定モジュールと、前記複数の言語間で選択されたアルファベット文字を有する言語に依存しない参照セットが格納されたメモリとを有し、前記方法は、
前記マッピングモジュールによって、所定の置換規則に従って前記アルファベット文字からなる第１の文字列に含まれた所定数のアルファベット文字を前記参照セットに含まれるアルファベット文字で置換することにより、アルファベット文字からなる第２の文字列に、前記第１の文字列をマッピングし、該所定数はゼロを含むステップと、
前記第１の言語識別モジュールによって、アルファベット文字からなる前記第２の文字列が前記複数の言語のうちの各言語の文字列となる確率を示す第１の確率を取得するステップと、
前記第２の言語識別モジュールによって、各個別セット内のアルファベット文字と一致する前記第１の文字列内の前記アルファベット文字の数を示す第２の値を取得するステップと、
前記決定モジュールによって、前記第１の確率と前記第２の確率との結合確率に基づいて前記文字列の言語を決定するステップと、を具備することを特徴とする方法。
前記参照セット内のアルファベット文字数がアルファベット文字の前記個別セットのすべての和集合よりも少ないことをさらに特徴とする請求項１２に記載の方法。
アルファベット文字からなる第１の文字列の言語を複数の言語の中で同定する言語同定システムであって、前記複数の言語の個々の言語が当該言語で使用されるアルファベット文字の個別セットを有し、
前記複数の言語間で選択されたアルファベット文字を有する言語に依存しない参照セットが格納されたメモリユニットと、
所定の置換規則に従って前記アルファベット文字からなる第１の文字列に含まれた所定数のアルファベット文字を前記参照セットに含まれるアルファベット文字で置換することにより、アルファベット文字からなる第２の文字列に、前記第１の文字列をマッピングして、該第２の文字列を示す信号を出力し、該所定数はゼロを含むマッピングモジュールと、
前記信号に応答し、前記第２の文字列が前記複数の言語のうちの各言語の文字列である第１の尤度を、前記参照セットに基づいて決定し、該第１の尤度を示す第１の情報を提供する第１の言語識別モジュールと、
前記第１の文字列が前記複数の言語のうちの各言語の文字列である第２の尤度を、アルファベット文字の前記個別セットに基づいて決定し、該第２の尤度を示す第２の情報を提供する第２の言語識別モジュールと、
前記第１の情報と前記第２の情報とに応答し、前記文字列が前記複数の言語のうちの１つとなる結合尤度を前記第１の情報と前記第２の情報とに基づいて決定する決定モジュールと、
を具備することを特徴とするシステム。
前記参照セット内のアルファベット文字数の方が、アルファベット文字の前記個別セットのすべての和集合よりも少ないことをさらに特徴とする請求項１４に記載のシステム。
前記第１の言語識別モジュールが複数の隠れユニットを具備するニューラルネットワーク・ベースのシステムであり、前記メモリユニットは多重化された形で前記参照セットを格納するように構成され、
前記メモリユニットのサイズに応じて前記隠れユニットの数を調整できることを特徴とする請求項１４に記載のシステム。
前記第１の言語識別モジュールが、複数の隠れユニットを具備するニューラルネットワーク・ベースのシステムであり、
前記言語同定システムのパフォーマンスを改善するために前記隠れユニットの数を増やすことができることを特徴とする請求項１４に記載のシステム。
請求項１４に記載の言語同定システムを具備することを特徴とする電子デバイス。
請求項１４に記載の言語同定システムを具備することを特徴とするハンドヘルド装置。
請求項１４に記載の言語同定システムを具備することを特徴とする携帯電話。