JP2009037633A - 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定 - Google Patents
規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定 Download PDFInfo
- Publication number
- JP2009037633A JP2009037633A JP2008239389A JP2008239389A JP2009037633A JP 2009037633 A JP2009037633 A JP 2009037633A JP 2008239389 A JP2008239389 A JP 2008239389A JP 2008239389 A JP2008239389 A JP 2008239389A JP 2009037633 A JP2009037633 A JP 2009037633A
- Authority
- JP
- Japan
- Prior art keywords
- language
- alphabetic characters
- alphabetic
- character string
- languages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
Abstract
【課題】文書テキストから言語を同定する方法を提供する。
【解決手段】その同定方法は、ニューラル・ネットワーク(20)に基づく言語同定システムを利用して、アルファベット文字からなる文字列の言語を複数の言語間で同定する。NN−LID(20)システムが、アルファベット文字からなる標準アルファベットセット(22)を用いて、アルファベット文字からなるマップ済み文字列(10)に上記文字列をマップして、上記標準アルファベットセット(22)に基づいて、上記マップ済み文字列が言語のうちの1つとなる尤度を決定できるようにする。標準アルファベットセットの文字は言語依存型のアルファベット文字セットから選択される。スコアリングシステム(30)も利用して、上記言語依存型セットに基づいて、上記文字列が各言語の文字列となる尤度を決定する。
【選択図】図4
【解決手段】その同定方法は、ニューラル・ネットワーク(20)に基づく言語同定システムを利用して、アルファベット文字からなる文字列の言語を複数の言語間で同定する。NN−LID(20)システムが、アルファベット文字からなる標準アルファベットセット(22)を用いて、アルファベット文字からなるマップ済み文字列(10)に上記文字列をマップして、上記標準アルファベットセット(22)に基づいて、上記マップ済み文字列が言語のうちの1つとなる尤度を決定できるようにする。標準アルファベットセットの文字は言語依存型のアルファベット文字セットから選択される。スコアリングシステム(30)も利用して、上記言語依存型セットに基づいて、上記文字列が各言語の文字列となる尤度を決定する。
【選択図】図4
Description
本発明は、一般に、移動通信装置の電話帳内の名前などの1または2以上の語が与えられた言語を同定する方法およびシステムに関し、さらに、音声駆動型名前ダイアル用アプリケーションやコマンド制御用アプリケーションのための多言語音声認識システムに関する。
移動電話内の電話帳や連絡用リストには様々な言語で書かれた連絡先が含まれている場合がある。例えば、“Smith”、“Poulenc”、“Szabolcs”、“Mishima”、“Maalismaa”などの名前はそれぞれ英語、フランス語、ハンガリー語、日本語、フィンランド語起源の名前である可能性が大きい。電話帳内の連絡名がどういう言語グループや言語に属するかを認識できれば好都合であり、必要でもある。
現在、携帯電話およびその他のハンドヘルド型通信装置には自動音声認識(ASR)技術が採用されている。話者によるトレーニングが行われたネームダイアラはおそらく最も広く普及しているASR用アプリケーションのうちの1つである。この話者によるトレーニングが施されたネームダイアラでは、ユーザは認識を行わせるためにモデルの訓練を行う必要があり、これは特定話者ネームダイアリング(SDND)として知られている。さらに進歩した技術に依拠するアプリケーションでは、ユーザは認識を行わせるためにモデルの認識訓練をまったく行う必要がない。代わりに、多言語の単語正字法に基づいて自動的に認識モデルが生成される。多言語の単語正字法に基づく発音のモデル化は、例えば、Viikkiら(音響、音声および信号処理に関する国際会議会報の“移動通信システムにおける話者および言語独立型音声認識”、米国、ユタ州ソルトレイク市、2002年)に開示されているような、多言語の不特定話者ネームダイアリング(ML−SIND)システムで用いられる。マーケットのグローバリゼーション並びに国際化および移動電話における将来の応用に起因して、多言語音声認識システムに対する要望が急速に増大している。言語の自動同定は、動的語彙を用いる多言語システムの必須部分である。一般に、多言語音声認識エンジンは、図1に図示のような、言語の自動同定(LID)用モジュール、オンラインによる言語固有のテキストから音素へのモデル化(TTP)用モジュールおよび多言語の音響モデル化用モジュールの3つの基本モジュールから構成される。本発明は第1のモジュールに関するものである。
ユーザが、新たな単語や1組の単語をアクティブな語彙に追加すると、LID用モジュールによって言語タグが個々の語にまず割り当てられる。これらの言語タグに基づいて、適切な言語固有のTTPモデルが適用され、語彙項目に書かれた形と関連づけられた多言語の音素列の生成が図られる。最後に、音声転記に基づいて多言語の音響モデルを連接することにより個々の語彙エントリ用の認識モデルが構築される。
自動LIDは、音声ベースのLIDとテキストベースのLIDの2つのクラス、すなわち音声テキストの言語の同定と、文字テキストの言語の同定とに分けることができる。ほとんどの音声ベースのLID法では、音声信号から標準的音声認識方法を用いて発声と関連づけられた音素列をまず認識する、音素配列的(phonotactic)アプローチが用いられる。次いで、n−gramなどの言語固有の統計モデルによってこれらの音素列の再スコアリングが行われる。言語の自動同定に基づくn−gramと話し言葉の情報については、例えばSchulze(EP2014276A2)に開示がある。
言語の独自性が音素列パターンの特徴によって識別できると仮定すると、再スコアリングは正しい言語に対して最高のスコアを与えることになる。テキストから得られる言語の同定は、別の文字の文脈における文字についての言語固有のn−gram統計の収集により一般に解決される。このようなアプローチはSchmitt(米国特許第5,062,143号)に開示されている。
n−gramベースのアプローチは(10ワードまたはそれ以上などの)かなり多量の入力テキストに対してきわめて良好に機能する一方、非常に短いテキストの文節に対してはうまく働かない傾向がある。この傾向は、普通のありふれた語からn−gramを収集し、次いで、n−gramを固有名詞の言語タグの同定に適用する場合に特に言えることである。固有名詞は、様々な言語を起源とするものである場合が多いため、普通のありふれた語と比べると非常に異型の書記素(grapheme)統計を有する。
短いテキストの文節の場合、別のLID法の方が好適である場合もある。例えば、Kuhnら(米国特許番号第6,016,471号)には、綴られた語に対する複数の発音の生成とスコアリングを行うために決定木を利用する方法および装置が開示されている。決定木はテキストから音素へのマッピングと、言語の同定とに適用されて成功を収めている。ニューラル・ネットワークアプローチの場合と同様、決定木を用いて、単語内の文字の各々に対して言語タグを決定することができる。ニューラル・ネットワークアプローチとは異なり、アルファベット内の異なる文字の各々に対して1つの決定木が存在する。決定木ベースのLIDは訓練を施したセットについては非常に良好なパフォーマンスを示すが、検証用セットについては同じようには機能しない。決定木ベースのLIDはより多くのメモリも必要とする。
テキストから音素へのマッピングタスクに適用されて成功を収めた単純なニューラルネットワークアーキテクチャとして多層パーセプトロン(MLP)がある。TTPとLIDとは類似のタスクであるため、上記アーキテクチャはLIDにとっても好適である。MLPは、ネットワークの入力層から出力層へ情報が流れるように配設されたユニット(ニューロン)の層から構成される。基本のニューラルネットワーク・ベースのLIDモデルは、図2に図示のような標準的な2層からなるMLPである。MLPネットワークでは、文字は1回に1文字ずつシーケンシャルに提示され、ネットワークは提示された個々の文字に対する言語の事後確率推定値を示す。書記素コンテキストを考慮に入れるために、設問における当該文字の両側の文字もネットワークへの入力として利用することができる。したがって、ニューラル・ネットワークに対して文字のウィンドウが入力として示されることになる。図2は、現在の文字l0の両側に4つの文字l-4…l4のコンテキストサイズを持つ代表的なMLPを示す。中心の文字l0はネットワークの出力に対応する文字である。したがって、MLPの出力は、所定のコンテキストl-4…l4内の中心の文字l0に対して推定される言語となる確率である。書記素のヌルが文字セット内に定義され、単語の最初の文字の左側と語の最後の文字の右側にある文字を表わすために利用される。
ニューラル・ネットワークの入力ユニットには連続的な値が与えられるため、入力ウィンドウ内の文字を何か数的な量または表示に変換する必要がある。言語の同定に使用する、アルファベットを表わす直交コードブックの1例を表1に示す。表1の最後の行は書記素のヌルに対応するコードである。直交コードは、アルファベットセット内の文字数に等しいサイズを有する。直交コード化方式の重要な属性として、異なる文字間での何如なる相関も導入しないという点が挙げられる。
表1にリストされているような直交型文字コード化方式に加えて、別の方法も利用することができる。例えば、JensenおよびRiis(“テキストから音素へのニューラル・ネットワークモデル用自己組織化文字コードブック”音声言語処理に関する国際会議会報、中国、北京、2000年)に記載のような自己組織化コードブックを利用することができる。自己組織化コードブックを利用する場合、文字コード化方式用のコード化法はMLPのトレーニング用データに基づいて構成される。自己組織化コードブックを利用することにより、MLPの入力ユニットの数を減らすことが可能となり、したがって、ネットワークのパラメータを保存するために必要なメモリも減少することになる。
一般に、NN−LIDモデルが必要とするバイトでのメモリサイズは以下の量に直接比例する:
但し、MemS、ContS、AlphaS、HiddenUおよびLangSはそれぞれ、LIDのメモリサイズ、コンテキストサイズ、アルファベットセットのサイズ、ニューラル・ネットワークにおける隠れユニットの数、および、LIDがサポートしている言語の数を表す。入力用ウィンドウの文字はコード化され、コード化済みの入力はニューラル・ネットワークの中へ入力される。ニューラル・ネットワークの出力ユニットは言語に対応する。ソフトマックス正規化が出力層に適用され、出力ユニットの値は対応する言語の事後確率となる。ソフトマックス正規化によってネットワーク出力が[0,1]の範囲にあり、すべてのネットワーク出力の和は次式に基づいて1に等しくなることが保証される。
上記数式で、yiとpiとは、ソフトマックス正規化の前と後でのi番目の出力値を示す。Cは、クラス、すなわちターゲット言語の数を表わす出力層内のユニットの数である。N個の分類から1つの出力となるようにトレーニングされている場合、且つネットワークが十分に複雑でかつ大域的最小点に合わせてトレーニングされている場合、ソフトマックス正規化を用いるニューラル・ネットワークの出力はクラスの事後確率に近似する。
言語の確率は個々の文字について計算される。これらの確率計算後、言語のスコアが単語内の文字の確率の組み合わせにより得られる。要するに、NNベースのLIDの言語は、主として下式により決定される:
ここで0<i≦LangSである。図3にベースラインNN−LID方式を示す。図3で、アルファベットセットは、NN−LID方式がサポートしているすべての言語に対する少なくとも言語依存型セットの和集合である。
したがって、言語の数が増加すると、アルファベットセット(AlphaS)全体のサイズもそれに応じて大きくなり、LIDモデルのサイズ(MemS)も比例して増加する。アルファベットサイズの増大は言語の特殊文字記号の追加に起因して生じる。例えば、標準的ラテン文字アルファベットa〜zの他に、フランス語には特殊文字記号
があり、ポルトガル語には特殊文字記号
があり、スペイン語には特殊文字記号
がある等々。さらに、キリル語にはラテン文字のアルファベットとは異なるキリルアルファベットがある。
通常のPC環境と比べて、組込みシステムにおける実装リソースは処理パワーとメモリの双方の点から見て粗末なものである。したがって、ASRエンジンのコンパクトな実装が携帯電話のような組込みシステムでは非常に重要となる。従来技術による方法のほとんどでは音声入力から言語の同定が行われる。テキスト入力のみを処理するシステムに対してはこれらの方法を適用することはできない。現在、ターゲットのハードウェアによって課されるメモリ要件を満たすことができる利用可能なNN−LIDシステムは存在しない。
したがって、ターゲットのハードウェアにより課されるメモリ要件を満たすことが可能なNN−LIDによる方法および装置を提供することが望ましく、好都合であり、その結果、この方法およびシステムを組込みシステムで利用できる。
携帯電話によって課されるメモリ要件を満たすことができる多言語音声認識システムで言語の同定を行う方法および装置を提供することが本発明の主たる目的である。特に、上記言語の同定は、文書テキストから、ニューラルネットワーク・ベースのシステムによって行われる。ニューラルネットワーク・ベースの言語の同定の目的に対して、縮小されたアルファベット文字セットを用いることによりこの目的の達成は可能となり、その場合、縮小されたアルファベットセット内の文字数は、同定しようとする全ての言語についてのアルファベット文字の言語依存型セットの和集合内の文字数に比べて大幅に少なくなる。さらに、個々の言語依存型セットのすべてに依拠するスコアリングシステムを利用して、その言語と仮定した場合の単語のアルファベットセットの確率計算が行われる。最後に、ニューラル・ネットワークにより提供される言語のスコアをスコアリングシステムの確率と組み合わせることにより言語の同定が行われる。
したがって、本発明の第1の態様によれば、言語自動同定システムに基づいて、個々の言語がアルファベット文字の個別セットを有する複数の言語の中で、アルファベット文字からなる文字列の言語を同定する方法が提供される。上記方法は、アルファベット文字からなる参照セットから選択したマップ済みアルファベット文字の文字列にアルファベット文字からなる文字列をマップするステップと、アルファベット文字からなる上記マップ済み文字列が上記複数の言語のうちの各言語の文字列となる確率を示す第1の値を取得するステップと、各個別セットにおいて上記文字列内の上記アルファベット文字の一致を示す第2の値を取得するステップと、上記第1の値と上記第2の値とに基づいて上記文字列の言語を決定するステップと、を具備することを特徴とする。
上記とは別に、上記複数の言語は、各グループがアルファベット文字の個別セットを含む1以上のメンバーを有する複数のグループに分類され、各グループの各個別セットにおいて文字列内のアルファベット文字の一致を示す第2の値を取得するように図る。
上記方法は、上記参照セット内のアルファベット文字数が、上記アルファベット文字の個別セットのすべての和集合よりも少ないことをさらに特徴とする。
好適には、上記参照セットに基づいて第1の値を取得し、上記複数の言語の各々についての個別セット内のすべてのアルファベット文字が、標準アルファベット文字のうちの1つに対して一意にマップ可能となるように、上記参照セットが標準アルファベット文字の最小セットを含む。
好適には、上記参照セットは、標準アルファベット文字とは異なる少なくとも1つのシンボルをさらに含み、その結果少なくとも1つの個別セット内の各アルファベット文字が、上記少なくとも1つのシンボルと上記標準アルファベット文字のうちの1つとの組み合わせに対して一意にマップ可能となる。
好適には、言語自動同定システムは、ニューラルネットワーク・ベースのシステムである。
好適には、上記複数の言語のうちの1つであるとした文字列の確率に割り当てられたスケーリングファクタから第2の値を取得し、上記第1の値と第2の値の積の最大値に基づいて上記複数の言語間で言語を決定する。
本発明の第2の態様によれば、各言語がアルファベット文字の個別セットを有し、複数のその言語の中でアルファベット文字からなる文字列の言語を同定する言語同定システムが提供される。上記システムは、アルファベット文字の参照セットと、上記参照セットから選択したアルファベット文字からなるマップ済み文字列を示す信号を出力するために、アルファベット文字からなる上記文字列を上記マップ済み文字列にマップするマッピングモジュールと、上記信号に応答し、上記マップ済み文字列が上記複数の言語のうちの各言語の文字列となる尤度を示す第1の情報を提供するために、上記参照セットに基づいて上記尤度を決定する第1の言語識別モジュールと、上記文字列が上記複数の言語のうちの各言語の文字列となる尤度を示す第2の情報を提供するために、アルファベット文字の上記個別セットに基づいて上記尤度を決定する第2の言語識別モジュールと、上記第1の情報と上記第2の情報とに応答し、上記文字列が上記複数の言語のうちの1つとなる結合尤度を上記第1の情報と上記第2の情報とに基づいて決定する決定モジュールと、を具備することを特徴とする。
あるいは、尤度を示す第2の情報を提供する上記グループのアルファベット文字の個別セットに基づいて、文字列が上記複数の言語のうちの個々の言語の1つとなる尤度を第2の言語識別モジュールによって決定可能なように、上記複数の言語は、アルファベット文字の各グループが個別セットを含む1以上のメンバーを有する複数のグループに分類される。
また、第1の言語識別用モジュールが複数の隠れユニットを具備するニューラルネットワーク・ベースのシステムであり、言語同定システムが前記複数の隠れユニットに部分的に基づいて、多重化された形で参照セットを格納するメモリユニットを具備し、さらに、上記メモリの要件に応じて上記隠れユニットの数を調整できることが好ましい。さらに、言語同定システムのパフォーマンスを改善するために、隠れユニットの数を増やせるようにすることが好ましい。
本発明の第3の態様によれば、電子デバイスが提供され、該電子デバイスは、アルファベット文字からなる文字列を示す信号を上記電子デバイスで出力するモジュールと、上記信号に応答し、複数の言語の個々の言語がアルファベット文字の個別セットを有し、その複数の言語の中で上記文字列の言語を同定する言語同定システムと、を具備し、そのシステムが、アルファベット文字の参照セットと、上記参照セットから選択したアルファベット文字からなるマップ済み文字列を示すさらなる信号を出力するために、アルファベット文字からなる上記文字列を上記マップ済み文字列にマップするマッピングモジュールと、上記信号に応答し、上記マップ済み文字列が上記複数の言語のうちの各言語の文字列となる尤度を示す第1の情報を提供するために、上記参照セットに基づいて上記尤度を決定する第1の言語識別モジュールと、上記文字列に応答し、上記マップ済み文字列が上記複数の言語のうちの各言語の文字列となる尤度を示す第2の情報を提供するために、アルファベット文字の個別セットに基づいて上記尤度を決定する第2の言語識別モジュールと、上記第1の情報と上記第2の情報とを受けて、上記文字列が上記複数の言語のうちの1つとなる結合尤度を上記第1の情報と上記第2の情報とに基づいて決定する決定モジュールと、を具備することを特徴とする。
上記電子デバイスは携帯電話のようなハンドヘルド型装置であってもよい。
図4〜図6と関連してなされる説明を読むにつれて、本発明は明らかになるであろう。
数式(1)で解るように、ニューラルネットワーク・ベースの言語同定(NN−LID)システムのメモリサイズは、2つの項で決定される。すなわち、1)(2*ContS+1)×AlphaS×HiddenU、および、2)HiddenU×LangSであり、但し、ContS、AlphaS、HiddenUおよびLangSは、コンテキストサイズ、アルファベットセットのサイズ、ニューラル・ネットワーク内の隠れユニットの数、および、LIDがサポートしている言語の数を表す。一般に、LIDサポートしている言語の数、すなわちLangSは、アルファベットセットのサイズよりも速く増えることはなく、また、項(2*ContS+1)は1よりもずっと大きい。したがって、数式(1)の第1項が支配的になることは明らかである。さらに、LangSとContSとは予め定義されていて、HiddenUがLIDシステムの識別能力をコントロールしているため、メモリサイズはAlphaSにより主として決定される。AlphaSは、NN−LIDシステムで用いる言語独立型セットのサイズである。
本発明は、NN−LIDで使用する標準的言語独立型セットSSとして、アルファベット文字またはシンボルの縮小セットを定義することによりメモリサイズを小さくするものである。SSは、複数の言語固有のアルファベットセットすなわち言語依存型アルファベットセット(LSi)から導き出される。但し、0<i<LangSであり、LangSはLIDがサポートしている言語の数である。LSiをi番目の言語依存型アルファベットセット、SSを標準アルファベットセットとすると、下式が得られる:
但し、ci,kとskとは、i番目の言語依存型アルファベットセットのk番目の文字と、標準アルファベットセットのk番目の文字である。niとMは、i番目の言語依存型アルファベットセットと標準アルファベットセットのサイズである。言語依存型アルファベットセットのすべての和集合は、サポートされている各言語におけるすべての特殊文字記号を保持しているものと理解されたい。例えば、ポルトガル語が、LIDがサポートしている言語のうちの1つであれば、上記和集合は少なくとも以下の特殊文字記号
を保持することになる。しかし、標準アルファベットセットでは、サイズMを小さくするために特殊文字記号のうちのいくつかまたはすべてが除去される。このサイズMは数式(1)のAlphaSでもある。
本発明によれば、NN−LIDシステムでは、標準アルファベットセットSSが使用されているため、すべての言語依存型セットの集合体の代わりに、マッピング処理手順を実行する必要がある。言語依存型セットから標準アルファベットセットへのマッピングは以下のように定義することができる。
アルファベットサイズは
のサイズからM(SSのサイズ)へ縮小される。マッピングを行う目的のために、例えば、すべての言語から標準アルファベットセットへのマッピングを行うためのアルファベット文字のマッピングテーブルを用いることができる。上記とは別に、すべての言語から標準アルファベットセットへ特殊文字記号のみを対応づけるマッピングテーブルを使用してもよい。標準アルファベットセットSSは、(a、b、c、...、z)のような標準文字またはカスタムメイドのアルファベット記号、あるいはこれら双方の組み合わせなどから構成することができる。
言語依存型アルファベットセットを用いて書かれたいずれの語も、標準アルファベットセットを用いて書かれた対応する語にマップ(分解)できることが数式(6)から理解される。例えば、言語依存型アルファベットセットを用いて書かれた
という単語は、標準アルファベットセットを用いて書かれた‘hakkinen’という単語にマップされる。以下、言語依存型アルファベットセットを用いて書かれた
のような単語をwordと呼び、標準アルファベットセットを用いて書かれた対応する単語‘hakkinen’をwordsと呼ぶことにする。
言語依存型セットと、標準アルファベットセットを用いて書かれたwordsとが与えられた場合、言語依存型セットを用いて書かれたwordは近似的に決定されることになる。したがって、本願では合理的に下式を仮定することが可能となる。
上式で、alphabetはword内の個々のアルファベット文字である。wordsとalphabetとは独立した事象であるため、数式(2)は以下のように書き換えることができる。
数式(8)の右辺の第1項はNN−LIDを用いて推定される。LIDは、wordではなく、wordsに対して行われるため、すべての言語依存型セットの和集合であるULSiの代わりに、標準アルファベットセットを使用すれば十分である。標準アルファベットセットは“最小”数の文字から構成されているため、そのサイズMは、ULSiのサイズに比べるとずっと小さくなる。AlphaSが小さくなっているため、数式(1)から、NN−LIDモデルのサイズが小さくなっていることがわかる。例えば、ブルガリア語、チェコ語、デンマーク語、オランダ語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、アイスランド語、イタリア語、ラトビア語、ノルウェー語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語、トルコ語、英語、ウクライナ語を含む25ヶ国語がNN−LID方式に含まれる場合、和集合のサイズは133となる。これとは対照的に、標準アルファベットセットのサイズはASCIIのアルファベットセットの27まで減らすことができる。
数式(8)の右辺の第2項は、i番目の言語の場合のwordのアルファベット文字列の確率である。アルファベット文字列の確率を知るために、本願では、以下のように頻度Freq(x)をまず計算することができる。
次いで、確率P(alphabet|langi)を計算することができる。このアルファベットの確率は、硬判定あるいは軟判定のいずれかにより推定することが可能である。
軟判定の場合、下式が適用される。
多言語の発音によるアプローチでは、多言語の発音を知るためにn個の最良のLID決定を必要とし、硬判定ではこの要件を満たすことができないことが時として生じる場合があるため、軟判定を行う方が好ましい。係数αを利用して、一致言語と不一致言語とはさらに2つのグループに分離される。
係数αは任意に選択することができる。基本的に、0.05のような任意の小さな値を用いることができる。数式(1)からわかるように、NN−LIDモデルサイズは大幅に小さくなる。その結果、さらに多くの隠れユニットを追加して、識別能力を高めるようにすることさえ可能となる。
というフィンランド語の名前を例としてとると、
となり、α=0.05で、Freq(alphabet|langi)<1の場合、以下のアルファベットスコアを得る。
確率P(words|langi)が確率P(alphabet|langi)とは別様に決定されることに留意されたい。前者の確率が標準アルファベットセットSSに基づいて計算されるのに対して、後者はすべての個別言語依存型セットLSiに基づいて計算される。したがって、この決定プロセスには、同時にあるいは逐次的に実行することができる2つの独立したステップが含まれることになる。これらの独立した決定処理プロセスのステップについては、本発明による言語同定システム100の概略表示である図4で理解することができる。図示のように、入力されたwordに応じて、マッピング用モジュール10は、マッピングテーブル12に基づいて情報すなわちマップされたwordsを示す信号110をNN−LID用モジュール20へ出力する。信号110に応じて、NN−LID用モジュール20は、標準アルファベットセット22に基づいて確率P(words|langi)を計算し、情報すなわち確率を示す信号120を決定用モジュール40へ出力する。独立に、アルファベット・スコアリング用モジュール30は、個別言語依存型セット32を使用して確率P(alphabet|langi)を計算し、情報すなわち確率を示す信号130を決定用モジュール40へ出力する。入力ワードの言語は、決定用モジュール40により同定されて、情報すなわち信号140として示される。
本発明によれば、ニューラルネットワーク・ベースに基づく言語の同定はセットサイズMを有する縮小セットに基づいて行われる。メモリ要件に従ってMの調整を行うことができる。さらに、メモリ量を上回ることなしにNN−LIDのパフォーマンスを高めるように隠れユニットの数HiddenUを増やすことができる。
上述のように、言語依存型アルファベットセットのすべてが標準アルファベットセットにマップされると、NN−LIDモデルのサイズは小さくなる。アルファベットスコアを利用して、サポートされている言語は、word内のアルファベットの定義に基づいて、一致グループと不一致グループとにさらに分離される。例えば、文字
が与えられたword内に出現した場合、このwordはフィンランド語/スウェーデン語グループのみに属することになる。次いで、NN−LIDは一致グループとしてフィンランド語/スウェーデン語間でのみの言語の同定を行う。一致グループにおいてLIDを行った後、LIDは不一致グループにおいて言語の同定を行う。したがって、探索空間を最少化することが可能となる。しかし、標準アルファベットセットにより多くの言語をマップするという事実のために、或る言語用のアルファベットセットが標準アルファベットセットと同じであったり、標準アルファベットセットに近いものであったりした場合、混同が生じることになる。例えば、本願では、当初、標準アルファベットセットSS={a,b,c,...,z,#}が定義され(但し“#”は空白文字を表す)、したがって、標準アルファベットセットのサイズは27となる。
これは、標準アルファベットセットに基づくNN−LIDのパフォーマンスを損なう可能性がある。というのは、“boris”という名前はドイツ語または英語であるようにさえ思われるからである。
この欠点を解決するために、ニューラル・ネットワークの識別力を高めるよう隠れユニットの数を増やすことができる。さらに、言語依存型セット内の1つの非標準文字を標準アルファベットセット内の文字の文字列にマップすることが可能である。これによって、ニューラル・ネットワークにおける混同は減少する。その結果、標準アルファベットセットへのマッピングによって、アルファベットサイズは小さくなるが(弱い識別)、単一文字から文字列への(single-to-string)マッピングに起因してワード長は長くなる(向上した識別)。このような単一文字から文字列への変換を行った後でも、識別情報はほとんど同じに保たれる。こうすることによって、さらに多くの文字の導入により元の最初の表現から識別情報を変換して以下のように語長の拡大が図られる。
この変換によって、混同を大幅に生じることなく標準文字の文字列により非標準文字を表わすことができる。さらに、識別文字として定義された限られた数のカスタムメイドの文字を追加することにより、標準アルファベットセットの拡張を行うことができる。本願発明者の実験では3つの識別文字が定義された。これらの識別文字は予め定義した標準アルファベットセットSS={a,b,c,...,z,#}内の27文字と識別可能である。例えば、拡張された標準アルファベットセットには、3つの識別文字S1、S2、S3が追加して含まれ、今度はSS={a,b,c,...,z,#,s1,s2,s3}となる。したがって、1つの非標準文字を拡張された標準アルファベットセットの文字列にマップすることが可能となる。
このアプローチによって、ロシア語テキストを同定する際のパフォーマンスの向上が可能となるだけでなく、混同が少なくなることに起因して、英語テキストを同定する際のパフォーマンスの向上も可能となる。
本願出願者は、ブルガリア語、チェコ語、デンマーク語、オランダ語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、アイスランド語、イタリア語、ラトビア語、ノルウェー語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語、トルコ語、英語、ウクライナ語を含む25ヶ国語に対して実験を行った。各言語に対して、一般的な10,000語のセットを選択し、これらの組を組み合わせることによりLID用のトレーニング用データを得た。標準アルファベットセットを、[a−z]のセットと、(表3でASCIIとして印を付けた)空白文字と、(表3でEXTRAとしてマークした)3つの識別文字とで構成した。標準アルファベット文字またはシンボルの数は30個である。表2は、30個及び40個の隠れユニットと共に言語依存型アルファベット全体(合計133)を使用したときのベースラインの結果を示す表である。表2に図示のように、ベースラインNN−LIDシステムで30個の隠れユニットが用いられる場合において、ベースラインNN−LIDモデル用のメモリサイズはすでに大きい。
表3は本発明によるNN−LID方式の結果を示す。本発明によれば、27文字からなる標準セットを40個の隠れユニットと共に使用した場合、NN−LIDの結果がベースラインの結果よりも劣ったものになるということがわかる。標準アルファベットセットを拡張して30文字を含むようにするために3つの識別文字を追加することにより、LIDレートはベースラインレートよりもわずかに低い程度(合計88.78対合計89.93)にすぎなくなる。しかし、メモリサイズは47.7KBから11.5KBへ減少する。このことは、隠れユニットの数を大量に増やして、LIDのレートの上昇を図ることが可能であることを示唆するものである。隠れユニットの数を80個まで増した場合、本発明のLIDレートの方がベースラインのレートよりも明らかに良好となる。27個のASCII文字からなる標準アルファベットセットを用いる場合、80個の隠れユニット用のLIDレートがベースライン方式のレートをすでに上回ることになる(90.44対89.93)。拡張された30文字のセットを用いる場合、40個の隠れユニットを用いるベースライン方式の場合と比べて、メモリの50%以上を節減しながらLIDがさらに改善されている。
本発明による規模調整可能なNN−LID方式を多くの異なる方法で実行することが可能である。しかし、最も重要な特徴の1つは、言語依存型文字をカスタマイズが可能な標準アルファベットセットへマッピングするということである。NN−LIDのパフォーマンスのさらなる向上のために、複数の技術を利用することが可能である。これらの技術には、1)さらに多くの隠れユニットの追加、2)一致グループと不一致グループに言語をグループ分けするために言語依存型文字により提供される情報の利用、3)文字の文字列へのマッピングおよび4)識別文字の定義が含まれる。
標準アルファベットセットへマッピングする言語依存型文字の定義、及び、ベースラインシステムに近づくようにLIDのパフォーマンスを保持するためにニューラル・ネットワークの隠れユニットの数を適切に選択することにより、ターゲットのハードウェア要件を満たすように、NN−LIDのメモリ要件を調整することができる。
本発明による、規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定方法を図5に図示のようなフローチャート200で要約することができる。文書テキスト内のwordを取得した後、このwordは、ステップ210でwordsすなわち標準アルファベットセットSSのアルファベット文字からなる文字列にマップされる。ステップ220で、確率P(words|langi)がi番目の言語に対して計算される。ステップ230で、確率P(alphabet|langi)がi番目の言語に対して計算される。ステップ240で、結合確率P(words|langi)∀P (alphabet|langi)がi番目の言語に対して計算される。ステップ242で規定されているように、サポートされている各言語に対して結合確率を計算した後、ステップ250で数式8を用いて入力wordの言語が決定される。
本発明による、規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定方法は、多言語の自動音声認識(ML−ASR)システムに対して適用可能である。この方法は多言語の不特定話者ネームダイアリング(ML−SIND)システムの必須部分である。本発明は、携帯電話、携帯情報端末(PDA)、通信装置などのようなハンドヘルド型の電子デバイス上で実装することが可能である。本発明は、上記デバイスの特定のオペレーションシステムに依拠するものではない。特に、本発明の方法および装置はハンドヘルド型電子デバイス内の連絡用リストまたは電話帳に対して適用可能である。氏名、住所、電話番号、電子メールアドレスおよびインターネットのURLなどの人名簿情報の編成を行うために、(vCardなどの)電子書式の名刺の形でこの連絡用リストを実装することも可能である。さらに、本発明による言語の自動同定方法は、人名、会社名、団体名の認識に限定されるものではなく、文字列が或る言語で或る一定の意味を有するものである限り、通り名、都市名、ウェブページのアドレス、ジョブタイトル、電子メールアドレスの或る部分等の名称の認識をも含むものである。図6に、本発明のNN−LID方式を用いたML−SINDまたはML−ASRを利用するハンドヘルド型電子デバイスの概略構成図を示す。
図6に図示のように、デバイス300内の基本要素は、ディスプレイ302、テキスト入力用モジュール304およびLIDシステム306である。LIDシステム306は、テキスト入力用モジュール304によって与えられるwordを標準アルファベットセット322の文字を用いるwordsにマップするマッピング用モジュール310を具備している。LIDシステム306は、NN−LID用モジュール320、アルファベット・スコアリング用モジュール330、複数の言語依存型アルファベットセット332および図4に図示のような言語同定システム100と同様の決定用モジュール340をさらに具備する。
表1に図示のように、直交型文字コード化方式が好ましいものの、別のコード化法の利用も可能であることに留意されたい。例えば、自己組織化コードブックを利用することが可能である。さらに、本願の実験では2つの文字からなる文字列を使用して、数式(12)に従って非標準文字のマッピングを行った。さらに、3またはそれ以上の文字あるいはシンボルからなる文字列の利用も可能である。
本発明のニューラルネットワーク・ベースの言語同定システムで用いる言語の中で、2以上の言語が同じアルファベット文字セットを共用することも可能であることに留意されたい。例えば、実験で用いた上記25ヶ国語では、スウェーデン語とフィンランド語とが同じアルファベット文字セットを共用している。デンマーク語とノルウェー語の場合も同じアルファベット文字セットを共用している。したがって、言語依存型の異なるセットの数は同定する対象言語の数よりも少なくなる。したがって、言語依存型セットの同一性に基づいて言語を言語グループに類別することが可能となる。これらのグループでは、2以上のメンバーを持つものもあれば、ただ1つのメンバーしかを持たないものもある。使用言語に依っては、2つの言語で同じアルファベット文字セットを共用しているものがないこともあり得る。その場合、グループの数は言語の数に等しくなり、個々の言語グループはただ1つのメンバーを持つことになる。
本発明の好ましい実施形態と関連して、本発明について説明したが、本発明の範囲から逸脱することなく、本発明の形成と細部における上記およびその他の種々の変更、省略並びに逸脱を行うことも可能であることは当業者の理解するところであろう。
10 マッピング用モジュール
12 マッピングテーブル
20 NN−LID用モジュール
22 標準アルファベットセット
30 アルファベット・スコアリング用モジュール
32 個別言語依存型セット
40 決定用モジュール
100 言語同定システム
12 マッピングテーブル
20 NN−LID用モジュール
22 標準アルファベットセット
30 アルファベット・スコアリング用モジュール
32 個別言語依存型セット
40 決定用モジュール
100 言語同定システム
Claims (20)
- ニューラルネットワーク・ベースのシステムに基づいてアルファベット文字からなる第1の文字列の言語を複数の言語の中で同定する方法であって、前記複数の言語の個々の言語が当該言語で使用されるアルファベット文字の個別セットを有し、前記システムは、マッピングモジュールと、第1の言語識別モジュールと、第2の言語識別モジュールと、決定モジュールと、前記複数の言語間で選択されたアルファベット文字を有する言語に依存しない参照セットが格納されたメモリとを有し、前記方法は、
前記マッピングモジュールによって、所定の置換規則に従って前記アルファベット文字からなる第1の文字列に含まれた所定数のアルファベット文字を前記参照セットに含まれるアルファベット文字で置換することにより、アルファベット文字からなる第2の文字列に、前記第1の文字列をマッピングし、該所定数はゼロを含むステップと、
前記第1の言語識別モジュールによって、アルファベット文字からなる前記第2の文字列が前記複数の言語のうちの各言語の文字列となる確率を示す第1の確率を取得するステップと、
前記第2の言語識別モジュールによって、各個別セット内のアルファベット文字と一致する前記第1の文字列内の前記アルファベット文字の数を示す第2の確率を取得するステップと、
前記決定モジュールによって、前記第1の確率と前記第2の確率との結合確率に基づいて前記第1の文字列の言語を決定するステップと、を具備することを特徴とする方法。 - 前記参照セット内のアルファベット文字数の方がアルファベット文字の前記個別セットのすべての和集合よりも少ないことをさらに特徴とする請求項1に記載の方法。
- 前記参照セットが、該選択されたアルファベット文字の最小セットを具備し、前記複数の言語の各々に対する前記個別セット内の各アルファベット文字が、前記参照セット内の前記選択されたアルファベット文字のうちの1つに対して一意にマッピング可能であることを特徴とする請求項1に記載の方法。
- 前記参照セットが、前記選択されたアルファベット文字の最小セットとヌル記号とから成り、前記複数の言語の各々に対する前記個別セット内の各アルファベット文字が、前記参照セット内の前記選択されたアルファベット文字のうちの1つに一意的にマップ可能であることを特徴とする請求項1に記載の方法。
- 前記第2の文字列内のアルファベット文字数が、前記第1の文字列内のアルファベット文字数に等しいことを特徴とする請求項4に記載の方法。
- 前記参照セットが前記選択されたアルファベット文字の前記最小セット及び該選択されたアルファベット文字と異なる少なくとも1つのシンボルを具備し、少なくとも1つの個別セット内の各アルファベット文字が、前記選択されたアルファベット文字のうちの1つと、前記少なくとも1つのシンボルとの組み合わせに対して一意にマップ可能であることを特徴とする請求項3に記載の方法。
- 前記参照セットが、前記選択されたアルファベット文字の前記最小セット及び該選択されたアルファベット文字と異なる複数のシンボルを具備し、少なくとも1つの個別セット内の各アルファベット文字が、前記選択されたアルファベット文字と前記複数のシンボルのうちの少なくとも1つとの組み合わせに対して一意にマップ可能であることを特徴とする請求項3に記載の方法。
- 前記シンボルの数が調整可能であることを特徴とする請求項7に記載の方法。
- 前記ニューラルネットワーク・ベースのシステムが、該システムの入力レイヤと出力レイヤに接続される複数の隠れユニットを具備し、該隠れユニットの数が調整可能であることを特徴とする請求項1に記載の方法。
- 前記複数の言語のうちの1つとなる前記第1の文字列の確率に、スケーリングファクタを乗じることによって、前記第2の確率を取得することを特徴とする請求項1に記載の方法。
- 前記第1の確率と前記第2の確率との積の最大値に基づいて、前記複数の言語間で言語を決定することを特徴とする請求項10に記載の方法。
- ニューラルネットワーク・ベースのシステムに基づいてアルファベット文字からなる第1の文字列の言語を複数の言語の中で同定する方法であって、複数の言語グループに分類された前記複数の言語の個々のグループが当該言語グループで使用されるアルファベット文字の個別セットを有し、前記システムは、マッピングモジュールと、第1の言語識別モジュールと、第2の言語識別モジュールと、決定モジュールと、前記複数の言語間で選択されたアルファベット文字を有する言語に依存しない参照セットが格納されたメモリとを有し、前記方法は、
前記マッピングモジュールによって、所定の置換規則に従って前記アルファベット文字からなる第1の文字列に含まれた所定数のアルファベット文字を前記参照セットに含まれるアルファベット文字で置換することにより、アルファベット文字からなる第2の文字列に、前記第1の文字列をマッピングし、該所定数はゼロを含むステップと、
前記第1の言語識別モジュールによって、アルファベット文字からなる前記第2の文字列が前記複数の言語のうちの各言語の文字列となる確率を示す第1の確率を取得するステップと、
前記第2の言語識別モジュールによって、各個別セット内のアルファベット文字と一致する前記第1の文字列内の前記アルファベット文字の数を示す第2の値を取得するステップと、
前記決定モジュールによって、前記第1の確率と前記第2の確率との結合確率に基づいて前記文字列の言語を決定するステップと、を具備することを特徴とする方法。 - 前記参照セット内のアルファベット文字数がアルファベット文字の前記個別セットのすべての和集合よりも少ないことをさらに特徴とする請求項12に記載の方法。
- アルファベット文字からなる第1の文字列の言語を複数の言語の中で同定する言語同定システムであって、前記複数の言語の個々の言語が当該言語で使用されるアルファベット文字の個別セットを有し、
前記複数の言語間で選択されたアルファベット文字を有する言語に依存しない参照セットが格納されたメモリユニットと、
所定の置換規則に従って前記アルファベット文字からなる第1の文字列に含まれた所定数のアルファベット文字を前記参照セットに含まれるアルファベット文字で置換することにより、アルファベット文字からなる第2の文字列に、前記第1の文字列をマッピングして、該第2の文字列を示す信号を出力し、該所定数はゼロを含むマッピングモジュールと、
前記信号に応答し、前記第2の文字列が前記複数の言語のうちの各言語の文字列である第1の尤度を、前記参照セットに基づいて決定し、該第1の尤度を示す第1の情報を提供する第1の言語識別モジュールと、
前記第1の文字列が前記複数の言語のうちの各言語の文字列である第2の尤度を、アルファベット文字の前記個別セットに基づいて決定し、該第2の尤度を示す第2の情報を提供する第2の言語識別モジュールと、
前記第1の情報と前記第2の情報とに応答し、前記文字列が前記複数の言語のうちの1つとなる結合尤度を前記第1の情報と前記第2の情報とに基づいて決定する決定モジュールと、
を具備することを特徴とするシステム。 - 前記参照セット内のアルファベット文字数の方が、アルファベット文字の前記個別セットのすべての和集合よりも少ないことをさらに特徴とする請求項14に記載のシステム。
- 前記第1の言語識別モジュールが複数の隠れユニットを具備するニューラルネットワーク・ベースのシステムであり、前記メモリユニットは多重化された形で前記参照セットを格納するように構成され、
前記メモリユニットのサイズに応じて前記隠れユニットの数を調整できることを特徴とする請求項14に記載のシステム。 - 前記第1の言語識別モジュールが、複数の隠れユニットを具備するニューラルネットワーク・ベースのシステムであり、
前記言語同定システムのパフォーマンスを改善するために前記隠れユニットの数を増やすことができることを特徴とする請求項14に記載のシステム。 - 請求項14に記載の言語同定システムを具備することを特徴とする電子デバイス。
- 請求項14に記載の言語同定システムを具備することを特徴とするハンドヘルド装置。
- 請求項14に記載の言語同定システムを具備することを特徴とする携帯電話。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/279,747 US20040078191A1 (en) | 2002-10-22 | 2002-10-22 | Scalable neural network-based language identification from written text |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004546223A Division JP2006504173A (ja) | 2002-10-22 | 2003-07-21 | 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009037633A true JP2009037633A (ja) | 2009-02-19 |
Family
ID=32093450
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004546223A Withdrawn JP2006504173A (ja) | 2002-10-22 | 2003-07-21 | 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定 |
JP2008239389A Pending JP2009037633A (ja) | 2002-10-22 | 2008-09-18 | 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004546223A Withdrawn JP2006504173A (ja) | 2002-10-22 | 2003-07-21 | 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20040078191A1 (ja) |
EP (1) | EP1554670A4 (ja) |
JP (2) | JP2006504173A (ja) |
KR (1) | KR100714769B1 (ja) |
CN (1) | CN1688999B (ja) |
AU (1) | AU2003253112A1 (ja) |
BR (1) | BR0314865A (ja) |
CA (1) | CA2500467A1 (ja) |
WO (1) | WO2004038606A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011096015A1 (ja) * | 2010-02-05 | 2011-08-11 | 三菱電機株式会社 | 認識辞書作成装置及び音声認識装置 |
WO2012042578A1 (ja) * | 2010-10-01 | 2012-04-05 | 三菱電機株式会社 | 音声認識装置 |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10334400A1 (de) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
US7395319B2 (en) * | 2003-12-31 | 2008-07-01 | Checkfree Corporation | System using contact list to identify network address for accessing electronic commerce application |
US7640159B2 (en) * | 2004-07-22 | 2009-12-29 | Nuance Communications, Inc. | System and method of speech recognition for non-native speakers of a language |
DE102004042907A1 (de) * | 2004-09-01 | 2006-03-02 | Deutsche Telekom Ag | Online Multimedia Kreuzworträtsel |
US7840399B2 (en) * | 2005-04-07 | 2010-11-23 | Nokia Corporation | Method, device, and computer program product for multi-lingual speech recognition |
US7548849B2 (en) * | 2005-04-29 | 2009-06-16 | Research In Motion Limited | Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same |
US7552045B2 (en) * | 2006-12-18 | 2009-06-23 | Nokia Corporation | Method, apparatus and computer program product for providing flexible text based language identification |
US20090030687A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
US20110054899A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Command and control utilizing content information in a mobile voice-to-speech application |
US20090030691A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using an unstructured language model associated with an application of a mobile communication facility |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US20090030685A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using speech recognition results based on an unstructured language model with a navigation system |
US20080221880A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile music environment speech processing facility |
US20110054898A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Multiple web-based content search user interface in mobile search application |
US8886540B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US8949130B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US10056077B2 (en) * | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US20090030697A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model |
US20110054896A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US20110054895A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Utilizing user transmitted text to improve language model in mobile dictation application |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US20110054897A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Transmitting signal quality information in mobile dictation application |
US8838457B2 (en) * | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US20090030688A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application |
US8880405B2 (en) * | 2007-03-07 | 2014-11-04 | Vlingo Corporation | Application text entry in a mobile environment using a speech processing facility |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
JP5246751B2 (ja) * | 2008-03-31 | 2013-07-24 | 独立行政法人理化学研究所 | 情報処理装置、情報処理方法、およびプログラム |
US8073680B2 (en) | 2008-06-26 | 2011-12-06 | Microsoft Corporation | Language detection service |
US8266514B2 (en) * | 2008-06-26 | 2012-09-11 | Microsoft Corporation | Map service |
US8107671B2 (en) * | 2008-06-26 | 2012-01-31 | Microsoft Corporation | Script detection service |
US8019596B2 (en) * | 2008-06-26 | 2011-09-13 | Microsoft Corporation | Linguistic service platform |
US8311824B2 (en) * | 2008-10-27 | 2012-11-13 | Nice-Systems Ltd | Methods and apparatus for language identification |
US8224641B2 (en) | 2008-11-19 | 2012-07-17 | Stratify, Inc. | Language identification for documents containing multiple languages |
US8224642B2 (en) * | 2008-11-20 | 2012-07-17 | Stratify, Inc. | Automated identification of documents as not belonging to any language |
JP2014517428A (ja) * | 2011-06-24 | 2014-07-17 | グーグル・インコーポレーテッド | 検索クエリのソース言語を検出すること |
GB201216640D0 (en) * | 2012-09-18 | 2012-10-31 | Touchtype Ltd | Formatting module, system and method for formatting an electronic character sequence |
CN103578471B (zh) * | 2013-10-18 | 2017-03-01 | 威盛电子股份有限公司 | 语音辨识方法及其电子装置 |
US9195656B2 (en) * | 2013-12-30 | 2015-11-24 | Google Inc. | Multilingual prosody generation |
US20160035344A1 (en) * | 2014-08-04 | 2016-02-04 | Google Inc. | Identifying the language of a spoken utterance |
US9812128B2 (en) * | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US9858484B2 (en) * | 2014-12-30 | 2018-01-02 | Facebook, Inc. | Systems and methods for determining video feature descriptors based on convolutional neural networks |
US10417555B2 (en) | 2015-05-29 | 2019-09-17 | Samsung Electronics Co., Ltd. | Data-optimized neural network traversal |
US10474753B2 (en) * | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10282415B2 (en) * | 2016-11-29 | 2019-05-07 | Ebay Inc. | Language identification for text strings |
CN108288078B (zh) * | 2017-12-07 | 2020-09-29 | 腾讯科技(深圳)有限公司 | 一种图像中字符识别方法、装置和介质 |
CN108197087B (zh) * | 2018-01-18 | 2021-11-16 | 奇安信科技集团股份有限公司 | 字符编码识别方法及装置 |
KR102123910B1 (ko) * | 2018-04-12 | 2020-06-18 | 주식회사 푸른기술 | 머신 러닝을 이용한 지폐 일련번호 인식 장치 및 방법 |
EP3561806B1 (en) * | 2018-04-23 | 2020-04-22 | Spotify AB | Activation trigger processing |
JP2020056972A (ja) * | 2018-10-04 | 2020-04-09 | 富士通株式会社 | 言語識別プログラム、言語識別方法及び言語識別装置 |
KR20220038514A (ko) * | 2019-05-03 | 2022-03-28 | 구글 엘엘씨 | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 |
US11720752B2 (en) * | 2020-07-07 | 2023-08-08 | Sap Se | Machine learning enabled text analysis with multi-language support |
US20220198155A1 (en) * | 2020-12-18 | 2022-06-23 | Capital One Services, Llc | Systems and methods for translating transaction descriptions |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07262188A (ja) * | 1994-03-14 | 1995-10-13 | Internatl Business Mach Corp <Ibm> | 言語識別処理方法 |
JPH10124513A (ja) * | 1996-09-30 | 1998-05-15 | Internatl Business Mach Corp <Ibm> | 言語を特定する方法およびシステム |
JPH1139306A (ja) * | 1997-07-16 | 1999-02-12 | Sony Corp | 多言語情報の処理システムおよび処理方法 |
JPH11344990A (ja) * | 1998-04-29 | 1999-12-14 | Matsushita Electric Ind Co Ltd | 綴り言葉に対する複数発音を生成し評価する判断ツリ―を利用する方法及び装置 |
US6047251A (en) * | 1997-09-15 | 2000-04-04 | Caere Corporation | Automatic language identification system for multilingual optical character recognition |
JP2000148754A (ja) * | 1998-11-13 | 2000-05-30 | Omron Corp | マルチリンガル・システム,マルチリンガル処理方法およびマルチリンガル処理のプログラムを記憶した媒体 |
JP2000194696A (ja) * | 1998-12-23 | 2000-07-14 | Xerox Corp | サンプルテキスト基調言語自動識別方法 |
JP2000250905A (ja) * | 1999-02-25 | 2000-09-14 | Fujitsu Ltd | 言語処理装置及びそのプログラム記憶媒体 |
EP1113420A2 (de) * | 1999-12-30 | 2001-07-04 | Nokia Mobile Phones Ltd. | Verfahren zur Spracherkennung und Kontrolle einer Sprachsyntheseneinheit oder Kommunikationssystem |
JP2001526425A (ja) * | 1997-12-11 | 2001-12-18 | マイクロソフト コーポレイション | データ表示テキストの言語および文字セットの特定 |
US20020069062A1 (en) * | 1997-07-03 | 2002-06-06 | Hyde-Thomson Henry C. A. | Unified messaging system with voice messaging and text messaging using text-to-speech conversion |
US6415250B1 (en) * | 1997-06-18 | 2002-07-02 | Novell, Inc. | System and method for identifying language using morphologically-based techniques |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5062143A (en) * | 1990-02-23 | 1991-10-29 | Harris Corporation | Trigram-based method of language identification |
IL109268A (en) * | 1994-04-10 | 1999-01-26 | Advanced Recognition Tech | Method and system for image recognition |
US6615168B1 (en) * | 1996-07-26 | 2003-09-02 | Sun Microsystems, Inc. | Multilingual agent for use in computer systems |
US6216102B1 (en) * | 1996-08-19 | 2001-04-10 | International Business Machines Corporation | Natural language determination using partial words |
ES2158702T3 (es) * | 1997-09-17 | 2001-09-01 | Siemens Ag | Procedimiento para determinar la probabilidad de la aparicion de una secuencia de al menos dos palabras durante un reconocimiento de voz. |
US6016471A (en) * | 1998-04-29 | 2000-01-18 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word |
US6182148B1 (en) * | 1999-03-18 | 2001-01-30 | Walid, Inc. | Method and system for internationalizing domain names |
CN1144173C (zh) * | 2000-08-16 | 2004-03-31 | 财团法人工业技术研究院 | 概率导向的容错式自然语言理解方法 |
US7277732B2 (en) * | 2000-10-13 | 2007-10-02 | Microsoft Corporation | Language input system for mobile devices |
FI20010644A (fi) * | 2001-03-28 | 2002-09-29 | Nokia Corp | Merkkisekvenssin kielen määrittäminen |
US7191116B2 (en) * | 2001-06-19 | 2007-03-13 | Oracle International Corporation | Methods and systems for determining a language of a document |
-
2002
- 2002-10-22 US US10/279,747 patent/US20040078191A1/en not_active Abandoned
-
2003
- 2003-07-21 JP JP2004546223A patent/JP2006504173A/ja not_active Withdrawn
- 2003-07-21 CN CN038244195A patent/CN1688999B/zh not_active Expired - Fee Related
- 2003-07-21 KR KR1020057006862A patent/KR100714769B1/ko not_active IP Right Cessation
- 2003-07-21 EP EP03809382A patent/EP1554670A4/en not_active Withdrawn
- 2003-07-21 BR BR0314865-3A patent/BR0314865A/pt not_active IP Right Cessation
- 2003-07-21 WO PCT/IB2003/002894 patent/WO2004038606A1/en active Application Filing
- 2003-07-21 CA CA002500467A patent/CA2500467A1/en not_active Abandoned
- 2003-07-21 AU AU2003253112A patent/AU2003253112A1/en not_active Abandoned
-
2008
- 2008-09-18 JP JP2008239389A patent/JP2009037633A/ja active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07262188A (ja) * | 1994-03-14 | 1995-10-13 | Internatl Business Mach Corp <Ibm> | 言語識別処理方法 |
JPH10124513A (ja) * | 1996-09-30 | 1998-05-15 | Internatl Business Mach Corp <Ibm> | 言語を特定する方法およびシステム |
US6415250B1 (en) * | 1997-06-18 | 2002-07-02 | Novell, Inc. | System and method for identifying language using morphologically-based techniques |
US20020069062A1 (en) * | 1997-07-03 | 2002-06-06 | Hyde-Thomson Henry C. A. | Unified messaging system with voice messaging and text messaging using text-to-speech conversion |
JPH1139306A (ja) * | 1997-07-16 | 1999-02-12 | Sony Corp | 多言語情報の処理システムおよび処理方法 |
US6047251A (en) * | 1997-09-15 | 2000-04-04 | Caere Corporation | Automatic language identification system for multilingual optical character recognition |
JP2001526425A (ja) * | 1997-12-11 | 2001-12-18 | マイクロソフト コーポレイション | データ表示テキストの言語および文字セットの特定 |
JPH11344990A (ja) * | 1998-04-29 | 1999-12-14 | Matsushita Electric Ind Co Ltd | 綴り言葉に対する複数発音を生成し評価する判断ツリ―を利用する方法及び装置 |
JP2000148754A (ja) * | 1998-11-13 | 2000-05-30 | Omron Corp | マルチリンガル・システム,マルチリンガル処理方法およびマルチリンガル処理のプログラムを記憶した媒体 |
JP2000194696A (ja) * | 1998-12-23 | 2000-07-14 | Xerox Corp | サンプルテキスト基調言語自動識別方法 |
JP2000250905A (ja) * | 1999-02-25 | 2000-09-14 | Fujitsu Ltd | 言語処理装置及びそのプログラム記憶媒体 |
EP1113420A2 (de) * | 1999-12-30 | 2001-07-04 | Nokia Mobile Phones Ltd. | Verfahren zur Spracherkennung und Kontrolle einer Sprachsyntheseneinheit oder Kommunikationssystem |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011096015A1 (ja) * | 2010-02-05 | 2011-08-11 | 三菱電機株式会社 | 認識辞書作成装置及び音声認識装置 |
JP5318230B2 (ja) * | 2010-02-05 | 2013-10-16 | 三菱電機株式会社 | 認識辞書作成装置及び音声認識装置 |
US8868431B2 (en) | 2010-02-05 | 2014-10-21 | Mitsubishi Electric Corporation | Recognition dictionary creation device and voice recognition device |
WO2012042578A1 (ja) * | 2010-10-01 | 2012-04-05 | 三菱電機株式会社 | 音声認識装置 |
CN103038816A (zh) * | 2010-10-01 | 2013-04-10 | 三菱电机株式会社 | 声音识别装置 |
JP5259020B2 (ja) * | 2010-10-01 | 2013-08-07 | 三菱電機株式会社 | 音声認識装置 |
US9239829B2 (en) | 2010-10-01 | 2016-01-19 | Mitsubishi Electric Corporation | Speech recognition device |
Also Published As
Publication number | Publication date |
---|---|
BR0314865A (pt) | 2005-08-02 |
JP2006504173A (ja) | 2006-02-02 |
CN1688999B (zh) | 2010-04-28 |
CA2500467A1 (en) | 2004-05-06 |
KR100714769B1 (ko) | 2007-05-04 |
EP1554670A1 (en) | 2005-07-20 |
WO2004038606A1 (en) | 2004-05-06 |
KR20050070073A (ko) | 2005-07-05 |
EP1554670A4 (en) | 2008-09-10 |
US20040078191A1 (en) | 2004-04-22 |
AU2003253112A1 (en) | 2004-05-13 |
CN1688999A (zh) | 2005-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100714769B1 (ko) | 서면 텍스트로부터의 조정가능 신경망 기반 언어 식별 | |
US10176804B2 (en) | Analyzing textual data | |
US10796105B2 (en) | Device and method for converting dialect into standard language | |
TWI539441B (zh) | 語音辨識方法及電子裝置 | |
Le et al. | Automatic speech recognition for under-resourced languages: application to Vietnamese language | |
Vitale | An algorithm for high accuracy name pronunciation by parametric speech synthesizer | |
CN105404621B (zh) | 一种用于盲人读取汉字的方法及系统 | |
JP2001296880A (ja) | 固有名の複数のもっともらしい発音を生成する方法および装置 | |
CN1742273A (zh) | 多模态语音-语音语言翻译和显示 | |
Alghamdi et al. | Automatic restoration of arabic diacritics: a simple, purely statistical approach | |
Asahiah et al. | Restoring tone-marks in standard Yorùbá electronic text: improved model | |
Carvalho et al. | A critical survey on the use of fuzzy sets in speech and natural language processing | |
Dien et al. | A maximum entropy approach for Vietnamese word segmentation | |
JP2006243673A (ja) | データ検索装置および方法 | |
Tian et al. | Scalable neural network based language identification from written text | |
JP2018066800A (ja) | 日本語音声認識モデル学習装置及びプログラム | |
CN111429886B (zh) | 一种语音识别方法及系统 | |
CN113157852A (zh) | 语音处理的方法、系统、电子设备及存储介质 | |
Gutkin et al. | Extensions to Brahmic script processing within the Nisaba library: new scripts, languages and utilities | |
Praveen et al. | Phoneme based Kannada Speech Corpus for Automatic Speech Recognition System | |
KR101777141B1 (ko) | 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법 | |
Xydas et al. | Text normalization for the pronunciation of non-standard words in an inflected language | |
Benajiba et al. | Arabic Word Segmentation for Better Unit of Analysis. | |
Celikkaya et al. | A mobile assistant for Turkish | |
Sunitha et al. | VMAIL voice enabled mail reader |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110906 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120214 |