JP4413349B2 - サンプルテキスト基調言語識別方法及びコンピュータシステム - Google Patents
サンプルテキスト基調言語識別方法及びコンピュータシステム Download PDFInfo
- Publication number
- JP4413349B2 JP4413349B2 JP35091699A JP35091699A JP4413349B2 JP 4413349 B2 JP4413349 B2 JP 4413349B2 JP 35091699 A JP35091699 A JP 35091699A JP 35091699 A JP35091699 A JP 35091699A JP 4413349 B2 JP4413349 B2 JP 4413349B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- probability
- data
- probability data
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Description
【発明の属する技術分野】
本発明は、テキストの言語の自動識別に関する。
【0002】
【従来の技術】
テキストの言語を自動的に識別するために、多数の技法が提案されている。グレフェンステッテ(Grefenstette, G.)による「2つの言語識別方式の比較(Comparing Two Language Identification Schemes)」(JADT 1995年、『第3回文字データの統計分析に関する国際会議(3rd International Conference on Statistical Analysis of Textual Data)』(ローマ、1995年12月11から13日)263〜268頁)は、文字トライグラム(3文字列)を使用する技法と、一般的なショートワード(短い単語)に基づく技法の2つを比較している。
【0003】
グレフェンステッテにより説明されているトライグラム技法は、多数の異なる言語のそれぞれからの大きいテキストサンプルを、唯一のセパレータとして間隔文字(スペース)を使用し、語頭及び末尾のバイグラム(2文字列)に印をつけるように各トークンの前後に下線を加えることによりトークン化する。その後、各言語の3文字のシーケンスの発生回数が数えられる。最小回数を超えるトライグラムは保存され、保存されたトライグラムの確率は、その言語のために保存された全てのトライグラムの発生回数を加算し、発生回数の和でそのトライグラムの発生回数を割ることにより概算される。その後、文をトライグラムに分割し、各言語ごとにトライグラムのシーケンスの確率を計算し、確率が割り当てられていないトライグラムに最小の確率を割り当てることによってその文の言語を推測するために、この確率が用いられる。
【0004】
グレフェンステッテにより説明されているショートワード技法は、多数の異なる言語のそれぞれからの大きいテキストサンプルを同様にトークン化し、一般に5文字以下の単語であるトークン全ての発生回数を計算する。最小回数を超えるトークンは保存され、保存されたトークンの確率がトライグラム技法と同様に概算される。その後、文をトークン化し、各言語ごとにトークンのシーケンスの確率を計算し、確率が割り当てられていないトークンに最小の確率を割り当てることによってその文の言語を推測するために、この確率が用いられる。文が所定の言語に属する確率は、これらのトークンの確率の積として取得される。
【0005】
グレフェンステッテは、2つの言語推測を得るために各技法に各文を送り込むことにより、これらの技法を比較した。いずれの技法も、長い文では上手く機能するが、より短い文ではトライグラムの方が強力である。所定の文中にはトライグラムよりも少量の単語が存在し、各単語又はトライグラムは掛け算を確率計算に寄与させるので、ショートワードの使用は実行の際に僅かに高速である。
【0006】
【発明が解決しようとする課題】
本発明は、ショートワード又は常用語技法、及びN−グラム(N文字列)技法を使用する自動言語識別において発生する基本的な問題を扱う。1つの問題はサンプルサイズに関し、別の問題は各技法がよりよく機能する異なる文脈に関する。
【0007】
グレフェンステッテにより示されたように、ショートワード技法及びN−グラム技法はいずれも長い文等の大きいサンプルで上手く機能する一方で、N−グラム技法は短い文等のより小さいサンプルではより頑強(ロバスト)である。しかしながら、N−グラム技法でさえ、サンプルのサイズが小さくなるにつれて、大きいサンプルほどには上手く機能しなくなる。その結果、N−グラム技法でさえも、インターネットサーチエンジンへのユーザ入力照会等のある種のアプリケーションで一般的に生じる非常に小さいサンプルに対しては不十分となる。
【0008】
常用語技法は、単語へのトークン化が難しい言語(中国語等)又は常用語のセットを定義することが難しい言語に適用することが困難であるか、又は不可能である。トライグラム、N−グラム、及びコンピュータ化されたテキストにおける他の人工的な分割は、信頼性が高いとみなされておらず、正確な言語の識別という点で限られた効果を有することが議論されている。この問題のより一般的な言明は、ある文脈においてはN−グラム技法が単語技法よりも優れた結果をもたらし、他の文脈においては単語技法がより優れた結果をもたらすというものである。
【0009】
【課題を解決するための手段】
本発明は、これらの問題を緩和する自動言語識別のための新技法の発見に基づく。新技法は、サンプルテキストの基調言語である可能性の高い自然言語を自動的に識別する。そのために、新技法は、サンプルテキストを定義しているテキストデータと、複数言語から成る集合(セット)の各言語のための確率データとを、この集合の各言語ごとに、サンプルテキストがその言語で発生する確率を示しているサンプル確率データを自動的に取得するために使用する。新技法は次に、言語識別データを自動的に取得するためにサンプル確率データを使用する。言語識別データは、そのサンプル確率データが最も高い確率を示す集合内の言語を識別する。
【0010】
新技法において、少なくとも1つの言語のための確率データはN−グラム確率データを含み、少なくとも1つの言語のための確率データは単語確率データを含む。1言語のためのN−グラム確率データは、複数のN−グラムから成る集合の各N−グラムごとに、その言語がテキストの基調言語である場合に、そのN−グラムがそのテキストで発生する確率を示す。1言語のための単語確率データは、複数の単語から成る集合の各単語ごとに、その言語がテキストの基調言語である場合に、その単語がそのテキストで発生する確率を示す。
【0011】
新技法は、N−グラム確率データを有する少なくとも1つの言語及び単語確率データを有する少なくとも1つの言語を含む複数の言語から成る部分集合(サブセット)の各言語ごとのサンプル確率データを自動的に取得する。N−グラム確率データを有する言語のサンプル確率データは、その言語のN−グラム確率データからの情報を含み、単語確率データを有する言語のサンプル確率データは、その言語の単語確率データからの情報を含む。
【0012】
新技法は、トライグラムのための確率データ、及び5文字以下の単語のための確率データと共に実施されることが可能である。サンプル確率データは、N−グラム又は単語確率データを有する全ての言語で取得されることが可能である。少なくとも1つの言語は、N−グラム及び単語確率データの両方を有することができ、このような各言語のためのサンプル確率データはN−グラム確率データ及びその単語確率データの両方からの情報を含むことができる。少なくとも1つの言語は、N−グラム確率データのみを有することができる。
【0013】
言語がN−グラム及び単語確率データの両方を有する場合には、N−グラム確率データ及び単語確率データは、各N−グラム又は単語のための確率値を含むことができ、この確率値はその言語のサンプル確率データを取得するために使用されることが可能である。テキストサンプルで発生する各N−グラムのための確率値が、N−グラムの総確率値を取得するために加算され、テキストサンプルで発生する各単語のための確率値が、単語の総確率値を取得するために加算されることが可能なように、確率値は対数であり得る。確率値が含まれない各N−グラム又は単語のために、低い確率を示す定数である確率値を使用することができる。総確率値はその後、その言語のためのサンプル確率値を取得するために、例えば加算して2で割ることにより組み合わせられる。
【0014】
新技法は更に、サンプルテキストを定義しているテキストデータと、上述された確率データと、上述のようにサンプル確率データを自動的に取得するためにテキストデータ及び確率データを使用するプロセッサと、を含むシステムで実施されることができる。このプロセッサはその後、サンプル確率データを使用し、サンプル確率データが最も高い確率を示す言語を識別する言語識別データを自動的に取得する。
【0015】
また、新技法は、サンプルテキストを定義しているテキストデータと、記憶媒体アクセス装置とを含むシステムで用いられる1つの製品で実施されることができる。この製品は、記憶媒体と、この記憶媒体により記憶された確率データ及び命令データとを含むことができる。システムのプロセッサは、命令データにより示される命令を実行する際に、上述のようにサンプル確率データを自動的に取得するためにテキストデータ及び確率データを使用する。プロセッサは次に、サンプル確率データを使用し、言語識別データを自動的に取得する。
【0016】
また、新技法は、第1のマシンを動作させてネットワークを介して第2のマシンにデータを転送する方法でも実施されることができ、この転送されたデータは、上述のような確率データ及び命令データを含む。
【0017】
N−グラムのみ又は単語のみを使用して言語を自動的に識別するための従来の技法と比較して、新技法は大きいサンプルに対してそれぞれの手法により個々に得られる正確さを犠牲にすることなく、全体的な認識の正確さを向上させる方法で両手法を組み合わせるので、この新技法は有利である。特に新技法は、小さいサンプルに対して著しく向上した正確さを有し、インターネットサーチエンジンへのユーザ入力照会等の非常に小さいサンプルで上手く使用されることが可能である。また、新技法は、各言語のより小さい(短い)テキストがN−グラム及び単語確率を取得するために使用される場合でさえ、向上された正確さを達成する。
【0018】
また、新技法は、識別されている複数言語から成る集合が、トライグラムの大部分を共有するが異なる機能語を有する、スペイン語及びポルトガル語等の一対の密接に関連した言語を含む場合に有利である。このコンテキストにおいて、新技法は、N−グラム技法の利点を備えるうえ更に、密接に関連した言語を単語確率情報に基づいて識別することが可能である。
【0019】
また、新技法は、追加言語に容易に拡張されることが可能であるので有利である。特に、トライグラム又は他のN−グラムのみを使用する従来の言語識別技法と比較すると、新技法は従来の技法が作り出すような、大きな混乱をもたらすマトリックスを作り出さないので、この新技法はより容易に追加言語に拡張されることが可能である。
【0020】
新技法は、30言語を超える言語から成る集合で適切に機能することが証明されており、この集合に更に言語を加えることは、既にこの集合に存在する言語のための認識の正確さを低下させない。この結果、新技法は、ワールドワイドウェブから検索された英語以外のテキスト等の新たに利用可能な言語データに、容易に適用されることが可能である。また、新技法は、中国語及び韓国語等の区別可能な単語境界のない、又はマルチバイトの文字集合を有する言語を含む集合にも上手く適用されている。
【0021】
本発明により提供されるサンプルテキストの基調言語である可能性の高い自然言語を自動的に識別する方法は、(A)サンプルテキストを定義しているテキストデータと、複数の自然言語から成る集合の各言語のための確率データとを、その集合の少なくとも2つの言語の各言語ごとに、そのサンプルテキストがその言語で発生する確率を示しているサンプル確率データを自動的に取得するために使用するステップと、(B)言語に属するサンプル確率データが最も高い確率を示す言語を識別する言語識別データを自動的に取得するためにサンプル確率データを使用するステップとを含む。上記言語の1つ又は複数を含む第1の部分集合の各言語の確率データはN−グラム確率データを含み、上記言語の1つ又は複数を含む第2の部分集合の各言語の確率データは単語確率データを含み、この第1の部分集合の各言語のためのN−グラム確率データは、その言語がテキストの基調言語である場合に、複数のN−グラムから成る集合の各N−グラムごとに、このN−グラムがそのテキスト内で発生する確率を示し、第2の部分集合の各言語のための単語確率データは、その言語がテキストの基調言語である場合に、複数の単語から成る集合の各単語ごとに、この単語がそのテキスト内で発生する確率を示す。(A)は、言語の第3の部分集合の各言語のためのサンプル確率データを自動的に取得するステップを含み、この第3の部分集合及び第1の部分集合に属する少なくとも1つの言語のために、サンプル確率データはその言語のN−グラム確率データからの情報を含み、第3の部分集合及び第2の部分集合に属する少なくとも1つの言語のために、サンプル確率データはその言語の単語確率データからの情報を含むことを特徴とする。
【0022】
【発明の実施の形態】
「自然言語」は、国、地方、又は地域、或いは民族又は職業上のグループ等のコミュニティ内で人間的な表現及びコミュニケーション(情報交換/会話)のために、ある一定期間使用される複数の記号から成る識別されたシステム(系統)である。ある自然言語は、正しいと考えられる標準システムを有するが、本明細書で使用される用語「自然言語」は、発音、文法、又は語彙等の相違点のために異なると識別される場合、方言、地方語、ジャーゴン(特殊用語)、通り言葉(cant)、俗語(argot)又は国なまり(patois)にも用いることができる。自然言語は、ラテン語、古代ギリシア語、古代ヘブライ語等々の古代言語を含み、更にエスペラント語及び統一自然言語(UNL)等の合成言語を含む。
【0023】
「文字」は、自然言語の書かれたか、プリントされたか、又は音声学的に表記された(音標表記された)形式に現れる離散的要素を意味する。従って、今日の英語における文字は、アルファベット及び数の要素のみでなく、句読点、分音符号、数学及び論理記号、並びに書かれたか、プリントされたか、又は音声学的に表記された英語で用いられる他の要素をも含むことができる。より一般に、文字は英数字要素に加えて、音標要素、表意要素、又は絵文字要素を含むことができる。
【0024】
通常「N−グラム」は、一連のN個の文字を意味するが、文字が未知の長さの文字コードにより示される場合、N−グラムは一連の文字コードからの一連のNバイトを意味することもできる。「トライグラム」は、N=3であるN−グラムである。
【0025】
テキストの文字により形成される単語が、1つの言語が優位性の基準を満たすように複数言語から成る集合で発生する場合、このテキストは「基調言語/主言語」を有する。例えば、基準は、単語の過半数が基調言語で発生し、単語の半分未満が他の言語のそれぞれで発生するというものであり得る。或いは、基準は単に、他のあらゆる言語においてよりも多くの単語が基調言語で発生するというものであってもよい。或いは、基準は、各言語の特徴である特殊文字の密度を比較する特殊文字手法に基づいていてもよく、この手法では基調言語がその特殊文字の最高の密度を有する。或いは、基準はより主観的に、そのテキストの単語が発生する言語に精通している人間の読者により到達されるであろう結論に基づくものであってもよい。
【0026】
図1から3は、本発明の一般的な特徴を示す。図1は、サンプルテキストの基調言語である可能性の高い自然言語を識別する方法を概略的に示すフローチャートである。
【0027】
テキストデータ10は、基調言語を有するサンプルテキストを定義する。確率データ12は、複数の自然言語から成る集合の各自然言語ごとの確率を示す。例示的に破線によって確率データ12に接続される集合図14は、幾つかの言語のための確率データの性質を示す。集合図14の外側の円は、確率データ12が確率を示す自然言語の全体集合を表す。この外側の円の中には、言語の第1及び第2の部分集合をそれぞれ表す内側の円16及び18が存在する。
【0028】
第1の部分集合は、確率データ12がそのためのN−グラム確率データを含む複数の言語を含む。第1の部分集合内の各言語のためのN−グラム確率データは、N−グラムから成る集合の各N−グラムごとに、その言語がテキストの基調言語である場合にN−グラムがそのテキストで発生する確率を示す。第1の部分集合は、Pと示され内側の円16内の小さい円で示される言語を例示的に含む。
【0029】
第2の部分集合は、確率データ12がそのための単語確率を示す複数の言語を含む。第2の部分集合内の各言語のための単語確率データは、単語から成る集合の各単語ごとに、その言語がテキストの基調言語である場合に単語がそのテキストで発生する確率を示す。第2の部分集合は、Qと示され内側の円18内の小さい円で示される言語を例示的に含む。
【0030】
集合図14で示唆されるように、第1及び第2の部分集合は、N−グラム確率及び単語確率の両方を有する幾つかの言語が存在することから重なり得、また第1及び第2の部分集合のどちらにも属さないが、別のタイプの確率データを有する幾つかの言語も存在し得る。
【0031】
テキストデータ10及び確率データ12は、言語の第3の部分集合の各言語ごとのサンプル確率を示すサンプル確率データ20を自動的に取得するために使用される。第3の部分集合は、例示的に言語P及びQで示される第1及び第2の部分集合のそれぞれからの少なくとも1つの言語を含む。言語Pのサンプル確率データ22は、言語PのためのN−グラム確率データからの情報を含む。言語Qのサンプル確率データ24は、言語Qのための単語確率データからの情報を含む。
【0032】
図1はまた、サンプル確率データ20が自動的に言語識別データ26を取得するために使用されることを示す。言語識別データ26は、そのサンプル確率データが最も高い確率を示す第3の部分集合内の言語を識別する。
【0033】
図2の処理ボックス40において、技法は、複数の自然言語から成る集合の各自然言語ごとにサンプルテキストを定義しているテキストデータと確率データとを使用し、その集合内の少なくとも2つの言語の各言語ごとに、サンプルテキストがその言語で発生する確率を示すサンプル確率データを自動的に取得する。複数の言語から成る第1の部分集合の各言語ごとの確率データは、その言語がテキストの基調言語である場合に、複数のN−グラムから成る集合の各N−グラムごとに、そのN−グラムがそのテキストで発生する確率を示すN−グラム確率データを含む。第2の部分集合の各言語ごとの確率データは、その言語がテキストの基調言語である場合に、複数の単語から成る集合の各単語ごとに、その単語がそのテキストで発生する確率を示す単語確率データを含む。この技法は、複数の言語から成る第3の部分集合の各言語ごとのサンプル確率データを自動的に取得する。第3の部分集合の少なくとも1つの言語は、第1の部分集合にも属し、それのサンプル確率データはこの言語のN−グラム確率データからの情報を含む。第3の部分集合の少なくとも1つの言語は、第2の部分集合にも属し、それのサンプル確率データはこの言語の単語確率データからの情報を含む。
【0034】
処理ボックス42において、この技法は、サンプル確率データを使用し、サンプル確率データが最も高い確率を示す言語を識別しているデータを自動的に取得する。
【0035】
図3のマシン60は、サンプルテキストを定義しているテキストデータ64を取得するため、及びメモリ66内のデータにアクセスするために接続されたプロセッサ62を含む。また、プロセッサ62は、データ入力回路68を介してデータを受信するためにも接続され、このデータ入力回路68は例示的に、メモリ70、記憶媒体アクセス装置72、又はネットワーク74との接続から受信されたデータを提供することができる。また、プロセッサ62は、データ出力回路76を介してデータを提供するためにも接続され、このデータ出力回路76は、データ入力回路68がそこからデータを受信することが可能な構成要素と同様の構成要素への接続を介してデータを提供することが可能である。従って、プロセッサ62は、パーソナルコンピュータ、ワークステーション又はサーバの中央処理装置(CPU)、或いは以下で説明されるように動作することが可能な他の任意の処理装置であってよい。
【0036】
テキストデータ64は、ユーザ入力回路(図示せず)、メモリ66、又はデータ入力回路68を含む任意の適切なソースから取得され得る。例えばプロセッサ62がサーバである場合、テキストデータ64はネットワーク74及びデータ入力回路68を介してクライアントマシンから受信され得、この結果は同様に、データ出力回路76及びネットワーク74を介してクライアントマシンに提供され得る。
【0037】
データ入力回路68によって例示的に提供されたデータの本体80は、確率データ82及び命令データ84を含む。確率データ82は、複数の自然言語から成る集合のための確率を示す。複数の言語から成る第1の部分集合の各言語ごとの確率データ82は、その言語がテキストの基調言語である場合に、複数のN−グラムから成る集合の各N−グラムごとに、そのN−グラムがそのテキストで発生する確率を示すN−グラム確率データを含む。複数の言語から成る第2の部分集合の各言語ごとの確率データ82はまた、その言語がテキストの基調言語である場合に、複数の単語から成る集合の各単語ごとに、その単語がそのテキストで発生する確率を示す単語確率データを含む。
【0038】
おそらく確率データ82をメモリ66にロードした後に、命令データ84によって示された命令を実行する際に、プロセッサ62はサンプル確率データ90及び言語識別データ92を自動的に取得する。より明確には、プロセッサ62はテキストデータ64及び確率データ82を使用し、サンプル確率データ90を自動的に取得することができる。サンプル確率データ90は、複数の言語から成る第3の部分集合の各言語のために、サンプルテキストがその言語で発生する確率を示すことができる。第1の部分集合にも属する、第3の部分集合内の少なくとも1つの言語のために、サンプル確率データ90は、その言語のN−グラム確率データからの情報を含む。第2の部分集合にも属する、第3の部分集合内の少なくとも1つの言語のために、サンプル確率データは、その言語の単語確率データからの情報を含む。次にプロセッサ62はサンプル確率データ90を使用し、自動的に言語識別データ92を取得する。この言語識別データ92は、それのサンプル確率データが最も高い確率を示す言語を識別する。
【0039】
上述のように図3は、メモリ70、記憶媒体アクセス装置72、及びネットワーク74の3つの可能なソースを示し、データ入力回路68はこれらのソースからプロセッサ62へデータを供給することが可能である。
【0040】
メモリ70は、ランダムアクセスメモリ(RAM)又は読出し専用メモリ(ROM)を含むマシン60内の任意の従来メモリか、又は任意の種類の周辺又はリモートメモリ装置であってよい。
【0041】
記憶媒体アクセス装置72は、記憶媒体94にアクセスするためのドライブ又は他の適切な装置又は回路であり得、例えば、1つ又は複数のテープ、ディスケット又はフロッピーディスクのセット等の磁気媒体、1つ又は複数のCD−ROMのセット等の光学媒体、或いはデータを記憶するための他の任意の適切な媒体であってよい。記憶媒体94は、マシン60の一部、サーバ又は他の周辺又はリモートメモリ装置の一部、或いはソフトウェア製品であってよい。これらの例のそれぞれにおいて、記憶媒体94は、マシンで使用されることが可能な1つの製品である。
【0042】
ネットワーク74は、マシン100からデータの本体を提供することができる。マシン100内のプロセッサ102は、ネットワーク接続回路104及びデータ入力回路68を介してネットワーク74上でプロセッサ62との接続を確立することができる。いずれのプロセッサも接続を開始することができ、この接続は任意の適切なプロトコルによって確立されてよい。次にプロセッサ102は、メモリ106に記憶されたデータの本体にアクセスすることができ、このデータの本体をネットワーク74を介してプロセッサ62に転送することができる。プロセッサ62は、データの本体をメモリ66又は他の場所に記憶することができ、その後自動言語識別を実行するための命令を実行することができる。
【0043】
また図3は、プロセッサ62がデータ出力回路76を介する出力として、言語識別データ92をユーザ等へ提供できることを示す。
【0044】
以下で説明される実施の形態は、Solaris 2.4.xをOSとして使用し、ANSI Cのソースコードからコンパイルされたコードを実行するSun(サン・マイクロシステムズ)のワークステーションであるSPARCstation Ultra2上で実施されている。
【0045】
図4において、システム120はSunのSPARCstation Ultra2ワークステーションの中央処理装置(CPU)122を含み、これは、画像を表示するためのディスプレイ124と、ユーザからの信号を供給するためのキーボード126及びマウス128とに接続される。また、CPU122は、例示的にプログラムメモリ132及びデータメモリ134を含むことが可能なメモリ130にアクセスできるように、メモリ130に接続される。
【0046】
プログラムメモリ132に記憶されるルーチンは、確率取得ルーチン140、言語識別ルーチン142、及び言語特有ルーチン144等の幾つかの機能にグループ化されることが可能であり、言語識別子と共に呼出されるか又は他の方法で言語に特有な任意のルーチンであり得る。図4はまた、データメモリ134に記憶され、且つプログラムメモリ132内のルーチンを実行中にCPU122によりアクセスされるデータの幾つかの項目を示す。これらには、言語コーパス150、言語確率データ152、入力テキスト154、トライグラム及びショートワードの組合せ確率データ156、言語識別子(ID)158、及び雑データ項目160が含まれ、その幾つかは後述される。
【0047】
確率取得ルーチン140を実行する際に、プロセッサ122は言語コーパス150を使用して言語確率データ152を取得することができ、言語コーパス150は複数の自然言語から成る集合の各言語ごとの確率データを含む。言語確率データ152は、幾つかの言語のためのトライグラム確率データと、幾つかの言語のためのショートワード確率データと、幾つかの言語のための両タイプの確率データとを含むことができる。従って、言語確率データ152は、図3の確率データ82の具体化である。ショートワード確率データは、例えば5文字以下の単語に関するものであり得る。また、言語確率データ152は、それらに関しては確率が他の方法で示されないトライグラム及びショートワードのために使用される最小の確率定数を含むことができる。或いは、最小の確率定数は、言語識別ルーチン142内のパラメータとして提供されてもよい。
【0048】
言語識別ルーチン142を実行する際に、プロセッサ122は入力テキスト154及び言語確率データ152を使用し、トライグラム及びショートワードの組合せ確率データ156を自動的に取得することができる。組合せ確率データ156は、各言語ごとに、トライグラム及び単語の確率に関する情報を組み合わせて、入力テキスト154がその言語で発生する確率を示すことができる。従って、組合せ確率データ156は、図3のサンプル確率データ90の具体化である。
【0049】
更に、言語識別ルーチン142を実行する際に、プロセッサ122は組合せ確率データ156を使用して、言語ID158を自動的に取得することができる。言語ID158は、組合せ確率データ156が最も高い確率を示す言語を示すことができる。従って、言語ID158は、図3の言語識別データ92の具体化である。
【0050】
言語特有ルーチン144を実行する際に、プロセッサ122は、呼出しの一部として言語ID158をルーチンに供給できるか、又は言語ID158によって識別された言語に適したルーチンを呼出すことが可能である。
【0051】
確率取得ルーチン140及び言語識別ルーチン142は、以下で説明されるように実施されることが可能である。言語特有ルーチン144は、特定の言語に対して最も優れて実行される多種多様なルーチンを含むことができる。幾つかの例は、本発明のアプリケーション(適用)に関連して以下で説明される。
【0052】
図5は、図4の実施における確率取得ルーチン140を実行する際にプロセッサ122によって実行される一般的な処理を示す。
【0053】
図5の処理は、1つの自然言語に関する確率データを取得する。図5の処理ボックス180の処理は、その言語のためのテキストの代表的なコーパスを取得することから始まる。ある実施の形態においては、約1メガバイト(MB)のコーパスが、各言語ごとに取得された。処理ボックス180の処理は、様々なソースから代表的なテキストを取得することができる。そのようなテキストの幾つかは汚染される。つまりこれは、主として1つの言語に属するあるテキストが、他の言語からの部分も含むことを意味する。従って、処理ボックス180の処理はまた、見直し及び他の言語からの部分を手作業で削除することを含むことが可能である。
【0054】
処理ボックス182の処理は、処理ボックス180で取得したコーパスを正規化する。このコンテキストにおいて、正規化することは、他のタイプの汚染又はノイズを除去することと、コーパスがより少ない異なるトライグラム及びショートワードを含むように、そのコーパス内の要素を変更することとを意味する。例えば、処理ボックス182での正規化には、コードのストリームを単一単語のトークンに変換するための単純なトークン化と、HTMLタグ等のテキストマークアップ(マーク付け)コードの削除と、アポストロフィ及びハイフン等の言語の特徴を表す文字のみ残し、特殊文字及び数字等の非英字のためのコードを削除することと、全ての文字をISO 8859−1等のデフォルトの文字集合内の小文字にマッピングすることとが含まれ得る。また、正規化は、ウェブページ上の著作権表示等のメタ言語(超言語)の削除を含むことができる。正規化の後、この正規化されたコーパスは、一連のトークン、即ち1つの間隔文字によって区切られた複数の単語を含むはずである。
【0055】
全ての文字を小文字にマッピングすることは、各言語におけるトライグラム及びショートワードの数を減少させ、ウェブページ及びUsenetのニュース等の幾つかのテキストソースはしばしば大文字で表された単語を含むので、より強力な言語識別へと導く。言語及び文字集合は未知であるので、上述のように、このマッピングはデフォルトの文字集合に対して実行されることが可能である。
【0056】
他の様々な演算の組合せが、処理ボックス182での正規化を実施するために使用されてよい。
【0057】
一般に、言語独立の正規化は、使用主言語のために開発されているが他の言語に適用することが可能な従来の言語ツールを用いて、自動的に実行されることが可能である。正規化は言語識別の最中、並びに基調言語が識別される前に自動的に実行されるであろうことを念頭に置くと、ある例において、中国語、韓国語、及びヘブライ語のため等には、自動的に正規化されたテキストを見直すこと及び手動で変更することが適切であり得る。例えば、英語、フランス語、及びドイツ語の単語は、別の言語のためのコーパスから手作業で削除されることが可能である。
【0058】
処理ボックス184の処理は、処理ボックス182で正規化されたコーパスを使用し、トライグラム確率及びショートワード確率を取得する。1つの実施の形態においては、トライグラム確率が先ず取得され、次にショートワード確率が取得される。
【0059】
トライグラム確率は、処理ボックス182で正規化されたコーパス内の各トライグラムの発生数を数えることによって取得されることが可能である。トライグラム発生を数えるために、ルーチンは、正規化された単語であるはずのトークンの最後に達するまで、正規化されたコーパス全体を調べることが可能である。このルーチンは次に、トークンの前後に境界マーカー「_」を加え、そのトークンの各文字に対する1つのトライグラムを含む文字列を取得することができる。ルーチンは次に、トライグラム識別子を取得するために、各トライグラムを既に検出されているトライグラムと比較することができる。このトライグラムが既に検出されているトライグラムのいずれとも一致しない場合、このルーチンは新たな識別子をこのトライグラムに割り当てることができる。このルーチンは、トライグラムカウント(合計)のアレイ(配列)にアクセスするためにトライグラムの識別子を使用することができ、またアレイ内のこのトライグラムの識別子のためのカウントを増分することができる。
【0060】
発生回数カウントが取得されている場合、そのトライグラムを捨てるか否かを決定するために、そのアレイからの各トライグラムの発生回数カウントは最小カウントと比較されることが可能であり、それによりトライグラムの分布をしきい値処理、即ち平準化する。発生回数カウントが最小カウントを上回る場合、0と1との間の確率を取得するために、この発生回数カウントは、カウントされたトライグラムの合計数により除算されることが可能である。この又は他の最尤推定(MLE)技法等が、1トライグラムのための近似確率を取得するために使用されることが可能である。いずれの例でも、その後、確率の対数が取得され、そのトライグラムのための確率値として保存されることが可能である。
【0061】
ショートワード確率は、処理ボックス182で正規化されたコーパス内の各ショートワードの発生回数を数えることによって、同様に取得することができる。ショートワードの発生を数えるために、ルーチンは、正規化された単語であるはずのトークンの最後に達するまで、正規化されたコーパス全体を調べることが可能である。ルーチンは次に、この単語がその長さに基づき、ショートワードであるか否かを決定することができる。最長が5文字であるショートワードが、上手く実施されている。ルーチンは次に、ショートワード識別子を取得するために、各ショートワードを既に検出されているショートワードと比較することができる。このショートワードが既に検出されているショートワードのいずれとも一致しない場合、このルーチンは新たな識別子をこのショートワードに割り当てることができる。このルーチンは、ショートワードカウントのアレイにアクセスするためにショートワードの識別子を使用することができ、またアレイ内のこのショートワードの識別子のためのカウントを増分することができる。
【0062】
発生回数カウントが取得されている場合、このアレイは、アレイ内の発生回数カウントに基づいて、限られた個数(例えば100)の最も頻繁に発生するショートワードを取得するために走査されることが可能である。あるショートワードが最も頻繁に発生するショートワードの1つである場合、0と1との間の確率を取得するために、そのショートワードの発生回数カウントは、カウントされたショートワードの合計数により除算されることが可能である。或いは、最尤推定(MLE)技法が、1ショートワードのための近似確率を取得するために使用されることが可能である。いずれの例でも、その後、確率の対数が取得され、そのショートワードのための確率値として保存されることが可能である。
【0063】
確率を対数の大きさ(logarithmic magnitudes)に変換することは、確率データを記憶するために必要とされるメモリを大幅に削減する。更なる削減は、対数の大きさを整数に変換することによって達成されるであろう。
【0064】
図5の技法は、言語分類のために統計モデルをトレーニングしているように見られ得る。一旦統計モデルがトレーニングされると、それは言語分類、より明確には言語識別を実行するために使用されることが可能である。
【0065】
図6は、言語識別ルーチン142を実行する際にプロセッサ122によって実行されることが可能な処理を詳細に示す。
【0066】
処理ボックス200の処理は、入力テキスト154を取得することから開始される。処理ボックス202の処理は次に、正規化が図5の処理ボックス182で自動的に実行されたのと同じ方法で、入力テキストを正規化する。
【0067】
次に判断ボックス210の処理は外側反復ループを開始し、このループのそれぞれは、処理ボックス202で正規化された入力テキストからのトークンを処理する。外側反復ループは先ずトライグラム確率を取得し、次にショートワード確率を取得する。
【0068】
トライグラム確率を取得するために、処理ボックス212の処理は、次のトークンの前後に文字「_」を加えることから開始される。判断ボックス214及び220の処理は次に、検討されている各言語のための各トライグラムを処理する第1の内側反復ループを開始する。判断ボックス222の処理は、次のトライグラムが次の言語でトライグラム確率を有するか否かを判断することから第1の内側反復ループを開始する。もし有する場合、処理ボックス224の処理は、その言語のトライグラム確率にそのトライグラムの確率を加えるが、有さない場合は、処理ボックス226の処理がその言語のトライグラム確率に最小の確率定数を加える。
【0069】
判断ボックス230の処理は、トークン(処理ボックス212で加えられた「_」文字は除く)が5文字以下であるか否かを検査する。判断ボックス232の処理は次に、検討されている各言語を処理する第2の内側反復ループを開始する。判断ボックス234の処理は、そのトークンが次の言語でショートワード確率を有するか否かを判断することから第2の内側反復ループを開始する。もし有する場合、処理ボックス236の処理は、その言語のショートワード確率にそのショートワードの確率を加えるが、有さない場合は、処理ボックス238の処理がその言語のショートワード確率に最小の確率定数を加える。
【0070】
処理ボックス226及び238に関すると、確率の対数の大きさが使用されているので、わずかにゼロより大きい確率を示すために、最小の確率定数は比較的大きい値でなければならない。また、各トライグラムの発生及び各ショートワードの発生は、それぞれ他のトライグラム及びショートワードに関して独立した確率イベントであると考えられ、このことが、確率を乗じる(確率の対数を加算することによる)ことが有効な理由である。複数の実験は、単語を開始させる及び終了させるトライグラムを他のトライグラムよりも大きい値で重み付けすることによる改善が見られなかったことを示している。
【0071】
外側反復ループが入力テキスト内の全てのトークンに関して完了していると、処理ボックス240の処理は、両方を有する言語のためのトライグラム及びショートワード確率の和又は一次結合を取得することにより、各言語のためのトライグラム及びショートワードの組合せ確率を取得する。言語がショートワード確率を有さない場合、組合せ確率は単にその言語のトライグラム確率であり得る。従って、処理ボックス240の処理は、図4のトライグラム及びショートワードの組合せ確率データ156を作り出す。処理ボックス240で目的を果たすための極点に達する図6の処理はまた、図2の処理ボックス40の具体化を示し、図3のボックス84に示されるようなサンプル確率データを自動的に取得する命令を実行することによって実施されることが可能である。
【0072】
確率値は確率の対数の大きさから導き出されるので、より大きい確率値はより小さい確率を示すことから、処理ボックス242の処理は次に、処理ボックス240から組合せ確率値が最小である言語の言語IDを取得する。処理ボックス242の処理は、その言語を検出するために最小の組合せ確率値と比較することにより実施されることが可能である。従って、処理ボックス242の処理は、図4の言語ID158を作り出し、そして図3のボックス84に示されるような言語識別データを自動的に取得する命令を実行することによって実施され得る図2の処理ボックス42の処理の具体化として示されることが可能である。
【0073】
最後に、処理ボックス244の処理は、処理ボックス242からの言語IDを戻し、これにより言語識別を完了する。
【0074】
図6に明示的に示された機能に加えて、実施は、言語識別をトライグラム確率のみに基づくトライグラムモード及びショートワード確率のみに基づくショートワードモードで実行するように設定されることが可能である。他の点に関しては、トライグラム及びショートワードモードは、図6に示されるトライグラム及びショートワードの組合せ技法と同様である。
【0075】
上述の実施は、言語識別のための試験台として先ず各言語ごとに約1MBのテキストを用いたトレーニングによって、次に各言語ごとに別の(ばらばらの)1MBのテキストを用いることによって検査されている。それぞれの例において試験台のテキストは、図5の処理ボックス180に関して上述されたように、汚染を除去するために手作業で浄化された。
【0076】
1つの結果は、トライグラム確率情報及びショートワード確率情報の両方に基づく言語識別は概して、トライグラムのみ又はショートワードのみに基づく言語識別よりも正確であるということ、並びにトライグラムのみに基づく識別は概して、ショートワードのみに基づく言語識別よりも正確であるということである。この結果は、図6に示されるトライグラム及びショートワードの組合せモードを、上述のトライグラムモード及びショートワードモードと比較することによって得られた。
【0077】
この実験において、言語識別は、オランダ語(略語:DUT)、英語(ENG)、フィンランド語(FIN)、フランス語(FRE)、ドイツ語(GER)、イタリア語(ITA)、ポルトガル語(POR)、スペイン語(SPA)、及びスウェーデン語(SWE)の9言語のテキストごとに3つのモード全てで実行された。各テストテキストを少なくとも5単語から成る複数の文に分割するために単純なヒューリスティック(発見的方法)が使用され、言語識別は各言語ごとに各文で実行され、正確に識別された文とその言語のテストテキスト内の文の総数との比率が取得された。次にこれらの比率は、各言語識別モードごとに全ての言語の平均をとられ、以下の平均正確度が取得された。
トライグラムモード 98.8%
ショートワードモード 96.4%
組合せモード 99.8%
【0078】
トライグラム確率情報及びショートワード確率情報の両方を使用することは、いずれかのタイプの情報を単独で使用する際に起こり得るエラーを回避するので、組合せモードは、正確さの向上を得ると思われる。換言すると、トライグラム情報のみを用いた場合に生じるかもしれない不明確さはショートワード情報により解決され、逆もまた然りである。これは、トライグラム確率により提供される情報とショートワード確率により提供される情報との間での予期せぬ相違点、即ち向上した正確さ及び他の利点をもたらすために、本発明により開拓される相違点を示唆する。
【0079】
別のより意外な結果は、トライグラム及びショートワードの組合せモードが、少数の単語から成る集合のためのトライグラムモードよりもかなり優れていることである。上述の実験は、言語識別を単一の単語、対の単語等の最大20単語から成るシーケンスまでのランダムサンプルで実行することにより変更され、各サンプルは1000要素(構成単語)を含んだ。図7は、例示的な単語シーケンスサイズごとのトライグラムモードでの結果を示す表である。図8は、トライグラム及びショートワードの組合せモードでの結果を示す表であり、最後の行には、各単語シーケンスサイズで2つのモードの平均結果の差をトライグラムモードの平均結果により除算することにより算出された改善率が示される。見て解かるように、20単語のシーケンスに対しては測定可能な改善はなかったが、注目すべきことに、単一の単語に対しては、組合せモードはトライグラムモードから25%を超える改善をもたらした。
【0080】
比較的短い単語のシーケンスのための誤り率の改善は特に印象的である。例えば、図7及び8の5単語のシーケンスのための列から解かるように、トライグラムモードが2.9%(即ち、97.1%の正確度を100%から引いた値)の誤り率を有する一方で、トライグラム及びショートワードの組合せモードは、約2/3少ない1.0%(即ち、99.0%の正確度を100%から引いた値)という非常に低い誤り率を有する。3、4、6、及び10単語のシーケンスのための列は誤り率に関して比較的大きな比例減少を示す一方で、1、2、及び15単語のシーケンスのための列はより小さい比例減少を示し、そして20単語のシーケンスのための列は例示された程度の精度では減少を示さない。
【0081】
より緻密な結果は、比較的小さいサンプルでトレーニングされる場合、組合せモードがトライグラムモードよりも高い正確度を達成するということである。この結果は、この2つのモードを、前文で使用されたのと同じ9言語からの1,000から800,000バイトの範囲のサンプルを用いてトレーニングすることにより取得された。図9は、平均正確度をバイトで示されるトレーニングサンプルサイズの関数として示すグラフである。正確度はサンプルサイズが増大するにつれて収束する傾向があるものの、示されるように、組合せモードのための平均正確度は、トライグラムモードのための平均正確度よりも一貫して高い。
【0082】
また、組合せモードは、追加言語に拡張されることが可能である。言語の数は、9から31まで拡張された。増加された言語数及び文字集合におけるばらつきにもかかわらず、98.9%の全体的な正確度が得られた。
【0083】
また、組合せモードは、1文字当り1バイトを超える文字集合及び単語の境界を検出する方法がない文字集合を使用する中国語及び韓国語等の言語にも拡張されることが可能である。これらの言語においては、ショートワードを孤立させることはできないので、トライグラム確率情報のみを取得することが可能であり、各文字コードが2バイトを有する場合には、各トライグラムは例えば1.5文字を含み得る。しかしながら、組合せモードは、中国語又は韓国語のためのトライグラム確率情報に基づく確率値をトライグラム及びショートワード確率情報の両方に基づいた他の言語のための確率値と比較することを可能にする。中国語のテキストのために取得された言語識別正確度は99.8%であり、韓国語のテキストのために取得された言語識別正確度は99.1%であったと同時に、他の言語の識別のための正確度は不利な影響を及ぼされなかった。
【0084】
上述の実施の形態は特定の言語から成るグループを識別するが、入手可能な証拠は、本発明が自然言語から成る他の任意のグループの文字コードにも上手く適用され得ることを示している。更に、本発明は、例えば中国語等の言語のための複数バイトの文字コードを含む任意の文字コードの集合にも適用され得る。例えば、2バイトの文字コードを有する言語において、各トライグラムは実際には、1文字全体と次の文字の半分とを含むか、又は反対に1文字の半分と次の文字全体とを含み得る。
【0085】
上述の実施の形態は、トライグラム確率情報及び5文字以下の単語のための情報を使用するが、本発明は、他の長さから成るN−グラムに関して、及び他の長さから成る単語に関して、又はテキストから容易に抽出され、言語を識別するのに有効な単語から成る他の集合に対しても容易に実施され得る。単語の長さは、上述の実施の形態では、頻度の高い単語と低い単語との間の差を概算し、また言語の特徴である機能語とより特徴の少ない他の単語との差を概算する簡単な基準として使用される。機能語は、文法的な意味、並びに限定詞、代名詞、前置詞、接続詞及び小詞等の構文上及び構造上の機能を有する単語である。従って、本発明は代わりに、サンプルテキスト内の各単語を各言語の最も頻度の高いn個の単語から成るリストと、又は各言語の機能語から成るリストと比較することにより実施されてもよい。更に、追加的な確率測定がテキストサンプルの言語を識別する際に有益であると確認された場合、トライグラム及びショートワード確率と適切に組み合わせることによって、その測定が上述の実施の形態に組み入れられてもよい。
【0086】
上述の実施の形態は、重複トライグラムを使用するが、本発明は非重複トライグラムを用いて実施されてもよい。
【0087】
更に、本発明は、サンプルテキスト内の全てのトークン、単語、及びN−グラムを徹底的に検討するよりも寧ろ、トークン、単語、及びN−グラムのランダムサンプリング(無作為抽出)を用いて実施されてもよい。
【0088】
上述の実施の形態は、トライグラム及びショートワード確率を特定の方法で算出し、その後組み合わせられる合計確率を得るために各タイプの確率の対数を加算するが、他のあらゆる適切な確率計算が使用されてもよい。例えば、確率の対数を加算するよりも寧ろ、確率値自体が乗じられるてもよい。但し、対数の加算の方がかなり速く、また数値の桁あふれ及び打切り誤差を回避するので、確率値を乗じるよりも算術的に安定している。或いは、対数が整数にマッピングされてもよく、これは更に効率的であり、より少ないメモリ空間を必要とする。また、上述の実施の形態は、1つの最小確率定数を使用するが、複数のこのような定数が使用されてもよく、又は例えば値がアルゴリズムにより取得されてもよい。例えば、トレーニングデータ又はテストデータ上での演算から自動的に定数を導き出すこと等によって、異なる定数が各言語ごとに取得されてもよい。また、確率値を有さないトライグラム及びショートワードに対して、最小確率定数を加える必要なく、対数の和のそれぞれをその和を得るために加算された値の個数で除算する等の方法で、確率値を組み合わせてもよい。
【0089】
上述の実施の形態は、文字集合を考慮していないが、本発明は文字集合を考慮するように容易に実施されることが可能である。
【0090】
上述の実施の形態において、処理は、多くの事例において変更され得る順序で実行されている。例えば、図5において、正規化されたコーパスが幾つかの言語のために取得されて、その後処理ボックス184の処理が各言語ごとに実行されてもよい。また、先ずトライグラム確率を取得して、次にショートワード確率を取得するよりも寧ろ、この順序が逆にされてよい。同様に、次のトークンを処理する前に各トークンのトライグラム及びショートワードを取得するよりも寧ろ、あるタイプの確率がテキスト内の全ての単語に対して取得され、次に他のタイプの確率が取得されてもよく、又はこの2つのタイプが何らかの方法で並行して取得されてもよい。
【0091】
より一般には、N−グラム確率及びショートワード確率は互いに対して独立しており、相互に作用しないので、これらは情報の損失なく、あらゆる任意の方法で計算されることが可能である。例えば、これらは、並列プロセッサを用いて、又は直列プロセッサ上でマルチタスク又はマルチスレッド技法によって得られる並列計算を用いて、並行して計算されてもよい。このような実施において、N−グラム及びショートワード確率を組み合わせることは、並列計算の同期として機能し得る。
【0092】
本発明は、テキスト上で言語特有の言語サービスを実行するまで、基調言語が未知であるテキストの言語を識別するために、言語システムに適用されることが可能である。例えば、言語サービスのための要求がネットワークを介してサーバに送信され、このサーバは、入力テキストの言語が特定されていない場合、本発明に従って言語識別を実行することができる。より一般に、本発明は、ステミング(stemming:語幹分解)、用語の拡張、翻訳、要約(gisting)、情報検索によって得られたドキュメントの言語に基づくフィルタリング、又は他の言語特有の多種多様なサービスのいずれかの実行方法を決定する前に適用されることが可能である。
【0093】
特に、本発明は、ステミング、翻訳、及び照会に対する語句認識等の言語特有の言語演算を採用するサーチエンジンを支持するために適用されてもよい。このタイプのプロトタイプのサーチエンジンのURLは、次のとおりである。
http://www.rxrc.xerox.com/research/mltt/Tools/CLIR.html
本発明は、上述されたように、単語の短いシーケンスのための優れた言語識別を取得するために実施されることが可能であるので、また大部分の照会が短いので、サーチエンジンでの照会の言語を識別するのに特によく適している。サーチエンジンは、例えば自動的に照会の言語を識別し、その照会を1つ又は複数の他の言語に翻訳し、そのサーチ/検索演算を翻訳された言語で実行することが可能である。
【0094】
本発明は、言語特有の光学的文字認職(OCR)の実行を可能にすることにより、OCRを改良するために適用されることが可能である。先ず、単語分割が、従来の技法を使用してテキストの走査された画像上で実行され得る。次に、文字集合識別、文字分割、及び文字識別が、再度従来の技法を使用して、又は将来利用可能になるより洗練された技法を使用して実行され得る。本発明は次に、文字認識の結果に適用され得、識別された言語はその後、文字認識の未加工の結果を後処理する際に使用される、単語認識を実行するのに適した語彙を選択するために使用されることが可能である。
【0095】
また、本発明は、ユーザがその言語を判断するためにテキストを渡すことができる言語推測装置として適用されることが可能である。この適用はまた、ユーザがそれにテキストを渡し、その後ユーザがその応答としてそこから言語識別を受信することができるウェブサイトを介して実施されている。ウェブサイトのURLは、次のとおりである。
http://www.xrce.xerox.com/research/mltt/tools/guesser.html
【図面の簡単な説明】
【図1】サンプルテキストの基調言語である可能性の高い自然言語を識別する方法を示す概略的なフローチャートである。
【図2】サンプルテキストの基調言語である可能性の高い言語を識別する際の一般的な処理を示すフローチャートである。
【図3】図2の一般的な処理を実行できるシステムの構成要素を示す概略図である。
【図4】図2の一般的な処理が実施されているシステムの概略図である。
【図5】図4のシステムが自然言語確率データを取得することができる方法を示すフローチャートである。
【図6】図4のシステムが図2のような処理を実施する方法を示すフローチャートである。
【図7】異なるサンプルサイズでトライグラム確率情報のみを使用した際の言語識別結果を示す表である。
【図8】異なるサンプルサイズでトライグラム及びショートワード確率情報の両方を使用した際の言語識別結果を示す表である。
【図9】トレーニングしているサンプルサイズの範囲全体にわたって、トライグラムのみのモードのための言語識別結果と、トライグラム及びショートワードの組合せモードのための言語識別結果とを比較するグラフである。
【符号の説明】
10 テキストデータ
12 確率データ
14 確率データを有する自然言語の集合
16 N−グラム確率を有する言語の部分集合
18 単語確率を有する言語の部分集合
20 サンプル確率データ
26 言語識別データ
Claims (2)
- メモリと、プロセッサとを有するコンピュータシステムにおいて、サンプルテキストの基調言語である可能性の高い自然言語を識別する方法であって、
(A)前記プロセッサが、データ入力回路からサンプルテキストを定義するテキストデータを入力し、前記メモリに記憶された複数の自然言語から成る集合の各言語についての確率データを用いて、前記サンプルテキストが前記各言語で発生する確率を示すサンプル確率データを取得するステップと、
(B)前記プロセッサが、前記サンプル確率データを使用して、前記サンプル確率データが最も高い確率を示す言語を識別する言語識別データを取得して、データ出力回路から出力するステップと、
を含み、
前記集合内の言語の1つ以上を含む第1の部分集合の各言語の前記確率データはN文字列確率データを含み、前記集合内の言語の1つ以上を含む第2の部分集合の各言語の前記確率データは単語確率データを含み、前記第1の部分集合の各言語の前記N文字列確率データは、前記言語がテキストの基調言語である場合に、複数のN文字列から成る集合の各N文字列ごとに、該N文字列が前記テキスト内で発生するN文字列確率を示し、前記第2の部分集合の各言語の前記単語確率データは、前記言語がテキストの基調言語である場合に、複数の単語から成る集合の各単語ごとに、該単語が前記テキスト内で発生する単語確率を示し、
前記ステップ(A)は、プロセッサが、
前記サンプルテキストを正規化して1以上のトークンに分解し、
前記1以上のトークン毎に、前記集合の各言語が、当該トークンについてN文字列確率データ及び単語確率データの少なくとも1つを有するかどうか判断し、有すると判断された場合、該N文字列確率データ及び単語確率データを取得し、
前記取得したN文字列確率データ及び単語確率データを言語毎に加算又は一次結合することにより、前記サンプル確率データとして、言語毎の組合せ確率データを取得すること、を含む
サンプルテキスト基調言語識別方法。 - サンプルテキストの基調言語である可能性の高い自然言語を識別するコンピュータシステムであって、
複数の自然言語から成る集合の各言語についての確率データを記憶するメモリと、
プロセッサと、を備え、
前記集合内において第1の部分集合の各言語の前記確率データはN文字列確率データを含み、前記集合内の第2の部分集合の各言語の前記確率データは単語確率データを含み、
前記第1の部分集合の各言語の前記N文字列確率データは、前記言語がテキストの基調言語である場合に、複数のN文字列から成る集合の各N文字列ごとに、該N文字列が前記テキスト内で発生するN文字列確率を示し、前記第2の部分集合の各言語の前記単語確率データは、前記言語がテキストの基調言語である場合に、複数の単語から成る集合の各単語ごとに、該単語が前記テキスト内で発生する単語確率を示し、
前記プロセッサが、データ入力回路からサンプルテキストを定義するテキストデータを入力し、
前記プロセッサが、前記サンプルテキストを正規化して1以上のトークンに分解し、
前記プロセッサが、前記メモリに記憶された確率データを用いて、前記1以上のトークン毎に、前記集合の各言語が、当該トークンについてN文字列確率データ及び単語確率データの少なくとも1つを有するかどうか判断し、有すると判断された場合、該N文字列確率データ及び単語確率データを取得し、
前記プロセッサが、前記取得したN文字列確率データ及び単語確率データを言語毎に加算又は一次結合することにより、言語毎の組合せ確率データを取得し、
前記プロセッサが、前記組合せ確率データが最も高い確率を示す言語を識別する言語識別データを取得してデータ出力回路から出力すること、
を実行する、コンピュータシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/219,615 US6167369A (en) | 1998-12-23 | 1998-12-23 | Automatic language identification using both N-gram and word information |
US219615 | 1998-12-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000194696A JP2000194696A (ja) | 2000-07-14 |
JP4413349B2 true JP4413349B2 (ja) | 2010-02-10 |
Family
ID=22820004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP35091699A Expired - Fee Related JP4413349B2 (ja) | 1998-12-23 | 1999-12-10 | サンプルテキスト基調言語識別方法及びコンピュータシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US6167369A (ja) |
EP (1) | EP1014276A3 (ja) |
JP (1) | JP4413349B2 (ja) |
BR (1) | BR9905978A (ja) |
Families Citing this family (308)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US5836771A (en) * | 1996-12-02 | 1998-11-17 | Ho; Chi Fai | Learning method and system based on questioning |
US6498921B1 (en) * | 1999-09-01 | 2002-12-24 | Chi Fai Ho | Method and system to answer a natural-language question |
US6651218B1 (en) * | 1998-12-22 | 2003-11-18 | Xerox Corporation | Dynamic content database for multiple document genres |
US6321372B1 (en) * | 1998-12-23 | 2001-11-20 | Xerox Corporation | Executable for requesting a linguistic service |
US7039637B2 (en) | 1998-12-31 | 2006-05-02 | International Business Machines Corporation | System and method for evaluating characters in an inputted search string against a character table bank comprising a predetermined number of columns that correspond to a plurality of pre-determined candidate character sets in order to provide enhanced full text search |
US7031002B1 (en) | 1998-12-31 | 2006-04-18 | International Business Machines Corporation | System and method for using character set matching to enhance print quality |
US6400809B1 (en) * | 1999-01-29 | 2002-06-04 | Ameritech Corporation | Method and system for text-to-speech conversion of caller information |
US7904187B2 (en) | 1999-02-01 | 2011-03-08 | Hoffberg Steven M | Internet appliance system and method |
US6658151B2 (en) | 1999-04-08 | 2003-12-02 | Ricoh Co., Ltd. | Extracting information from symbolically compressed document images |
US6609087B1 (en) * | 1999-04-28 | 2003-08-19 | Genuity Inc. | Fact recognition system |
CN1176432C (zh) * | 1999-07-28 | 2004-11-17 | 国际商业机器公司 | 提供本国语言查询服务的方法和系统 |
US7191114B1 (en) | 1999-08-27 | 2007-03-13 | International Business Machines Corporation | System and method for evaluating character sets to determine a best match encoding a message |
US6772149B1 (en) * | 1999-09-23 | 2004-08-03 | Lexis-Nexis Group | System and method for identifying facts and legal discussion in court case law documents |
US7016977B1 (en) * | 1999-11-05 | 2006-03-21 | International Business Machines Corporation | Method and system for multilingual web server |
KR100530475B1 (ko) | 1999-11-10 | 2006-01-09 | 론치 미디어, 인크. | 인터넷 라디오와 방송 방법 |
US6389467B1 (en) | 2000-01-24 | 2002-05-14 | Friskit, Inc. | Streaming media search and continuous playback system of media resources located by multiple network addresses |
US6883135B1 (en) | 2000-01-28 | 2005-04-19 | Microsoft Corporation | Proxy server using a statistical model |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6604101B1 (en) * | 2000-06-28 | 2003-08-05 | Qnaturally Systems, Inc. | Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network |
US7251665B1 (en) * | 2000-05-03 | 2007-07-31 | Yahoo! Inc. | Determining a known character string equivalent to a query string |
US7024485B2 (en) * | 2000-05-03 | 2006-04-04 | Yahoo! Inc. | System for controlling and enforcing playback restrictions for a media file by splitting the media file into usable and unusable portions for playback |
US7162482B1 (en) * | 2000-05-03 | 2007-01-09 | Musicmatch, Inc. | Information retrieval engine |
US8352331B2 (en) | 2000-05-03 | 2013-01-08 | Yahoo! Inc. | Relationship discovery engine |
GB2380581A (en) | 2000-07-11 | 2003-04-09 | Launch Media Inc | Online playback system with community bias |
GB2366940B (en) | 2000-09-06 | 2004-08-11 | Ericsson Telefon Ab L M | Text language detection |
CA2406446A1 (en) * | 2000-09-18 | 2002-03-21 | Gregory Paul Handreck | Diphosphonate solutions |
US8271333B1 (en) | 2000-11-02 | 2012-09-18 | Yahoo! Inc. | Content-related wallpaper |
US6640228B1 (en) | 2000-11-10 | 2003-10-28 | Verizon Laboratories Inc. | Method for detecting incorrectly categorized data |
US6973427B2 (en) * | 2000-12-26 | 2005-12-06 | Microsoft Corporation | Method for adding phonetic descriptions to a speech recognition lexicon |
US20020091509A1 (en) * | 2001-01-02 | 2002-07-11 | Yacov Zoarez | Method and system for translating text |
US7406529B2 (en) | 2001-02-09 | 2008-07-29 | Yahoo! Inc. | System and method for detecting and verifying digitized content over a computer network |
AU2002237495A1 (en) * | 2001-03-13 | 2002-09-24 | Intelligate Ltd. | Dynamic natural language understanding |
FI20010644A (fi) | 2001-03-28 | 2002-09-29 | Nokia Corp | Merkkisekvenssin kielen määrittäminen |
US7574513B2 (en) * | 2001-04-30 | 2009-08-11 | Yahoo! Inc. | Controllable track-skipping |
WO2002095614A1 (fr) * | 2001-05-24 | 2002-11-28 | Izumi Suzuki | Procede d'identification d'un systeme de code de type langage ou par caracteres |
US7191116B2 (en) * | 2001-06-19 | 2007-03-13 | Oracle International Corporation | Methods and systems for determining a language of a document |
US7024624B2 (en) * | 2002-01-07 | 2006-04-04 | Kenneth James Hintz | Lexicon-based new idea detector |
US20040205675A1 (en) * | 2002-01-11 | 2004-10-14 | Thangaraj Veerappan | System and method for determining a document language and refining the character set encoding based on the document language |
US20030144912A1 (en) * | 2002-01-29 | 2003-07-31 | Mcgee Todd | Multilingual messaging system and method for e-commerce |
US20030154071A1 (en) * | 2002-02-11 | 2003-08-14 | Shreve Gregory M. | Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents |
US7707221B1 (en) | 2002-04-03 | 2010-04-27 | Yahoo! Inc. | Associating and linking compact disc metadata |
US7305483B2 (en) | 2002-04-25 | 2007-12-04 | Yahoo! Inc. | Method for the real-time distribution of streaming data on a network |
US7680649B2 (en) * | 2002-06-17 | 2010-03-16 | International Business Machines Corporation | System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages |
RU2251737C2 (ru) * | 2002-10-18 | 2005-05-10 | Аби Софтвер Лтд. | Способ автоматического определения языка распознаваемого текста при многоязычном распознавании |
US7542908B2 (en) * | 2002-10-18 | 2009-06-02 | Xerox Corporation | System for learning a language |
US20040078191A1 (en) * | 2002-10-22 | 2004-04-22 | Nokia Corporation | Scalable neural network-based language identification from written text |
US6944612B2 (en) | 2002-11-13 | 2005-09-13 | Xerox Corporation | Structured contextual clustering method and system in a federated search engine |
FR2848688A1 (fr) * | 2002-12-17 | 2004-06-18 | France Telecom | Identification de langue d'un texte |
US7805299B2 (en) * | 2004-03-01 | 2010-09-28 | Coifman Robert E | Method and apparatus for improving the transcription accuracy of speech recognition software |
US7451129B2 (en) * | 2003-03-31 | 2008-11-11 | Google Inc. | System and method for providing preferred language ordering of search results |
US8306972B2 (en) | 2003-03-31 | 2012-11-06 | Google Inc. | Ordering of search results based on language and/or country of the search results |
US7451130B2 (en) * | 2003-06-16 | 2008-11-11 | Google Inc. | System and method for providing preferred country biasing of search results |
US20040243531A1 (en) * | 2003-04-28 | 2004-12-02 | Dean Michael Anthony | Methods and systems for representing, using and displaying time-varying information on the Semantic Web |
JP3768205B2 (ja) * | 2003-05-30 | 2006-04-19 | 沖電気工業株式会社 | 形態素解析装置、形態素解析方法及び形態素解析プログラム |
GB0315154D0 (en) * | 2003-06-28 | 2003-08-06 | Ibm | Improvements to hypertext integrity |
US7672873B2 (en) | 2003-09-10 | 2010-03-02 | Yahoo! Inc. | Music purchasing and playing system and method |
US20050125218A1 (en) * | 2003-12-04 | 2005-06-09 | Nitendra Rajput | Language modelling for mixed language expressions |
FR2864856B1 (fr) * | 2004-01-06 | 2006-03-03 | Sylvain Durif | Systeme automatique de traitement des informations portees par des textes courts |
US7359851B2 (en) * | 2004-01-14 | 2008-04-15 | Clairvoyance Corporation | Method of identifying the language of a textual passage using short word and/or n-gram comparisons |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US7584221B2 (en) | 2004-03-18 | 2009-09-01 | Microsoft Corporation | Field weighting in text searching |
US20060098900A1 (en) | 2004-09-27 | 2006-05-11 | King Martin T | Secure data gathering from rendered documents |
US8081849B2 (en) | 2004-12-03 | 2011-12-20 | Google Inc. | Portable scanning and memory device |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
WO2008028674A2 (en) | 2006-09-08 | 2008-03-13 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US8874504B2 (en) | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
EP1612695A1 (en) * | 2004-07-01 | 2006-01-04 | Alcatel | Method of language identification and language identifying module using short word lists and n-grams |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US7860314B2 (en) * | 2004-07-21 | 2010-12-28 | Microsoft Corporation | Adaptation of exponential models |
US20060020448A1 (en) * | 2004-07-21 | 2006-01-26 | Microsoft Corporation | Method and apparatus for capitalizing text using maximum entropy |
US7865355B2 (en) * | 2004-07-30 | 2011-01-04 | Sap Aktiengesellschaft | Fast text character set recognition |
US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
US7996208B2 (en) * | 2004-09-30 | 2011-08-09 | Google Inc. | Methods and systems for selecting a language for text segmentation |
US8051096B1 (en) | 2004-09-30 | 2011-11-01 | Google Inc. | Methods and systems for augmenting a token lexicon |
US7739277B2 (en) | 2004-09-30 | 2010-06-15 | Microsoft Corporation | System and method for incorporating anchor text into ranking search results |
US7680648B2 (en) | 2004-09-30 | 2010-03-16 | Google Inc. | Methods and systems for improving text segmentation |
US7761448B2 (en) | 2004-09-30 | 2010-07-20 | Microsoft Corporation | System and method for ranking search results using click distance |
US7827181B2 (en) | 2004-09-30 | 2010-11-02 | Microsoft Corporation | Click distance determination |
GB0424479D0 (en) * | 2004-11-05 | 2004-12-08 | Ibm | Generating a fingerprint for a document |
US7716198B2 (en) | 2004-12-21 | 2010-05-11 | Microsoft Corporation | Ranking search results using feature extraction |
US8843536B1 (en) | 2004-12-31 | 2014-09-23 | Google Inc. | Methods and systems for providing relevant advertisements or other content for inactive uniform resource locators using search queries |
US7792833B2 (en) * | 2005-03-03 | 2010-09-07 | Microsoft Corporation | Ranking search results using language types |
JP2006276903A (ja) * | 2005-03-25 | 2006-10-12 | Fuji Xerox Co Ltd | 文書処理装置 |
US8280719B2 (en) * | 2005-05-05 | 2012-10-02 | Ramp, Inc. | Methods and systems relating to information extraction |
US7599917B2 (en) | 2005-08-15 | 2009-10-06 | Microsoft Corporation | Ranking search results using biased click distance |
US8700404B1 (en) * | 2005-08-27 | 2014-04-15 | At&T Intellectual Property Ii, L.P. | System and method for using semantic and syntactic graphs for utterance classification |
US7827484B2 (en) * | 2005-09-02 | 2010-11-02 | Xerox Corporation | Text correction for PDF converters |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
EP1934843A2 (en) * | 2005-10-04 | 2008-06-25 | Thomson Global Resources | Systems, methods, and software for assessing ambiguity of medical terms |
BRPI0706404B1 (pt) * | 2006-02-17 | 2019-08-27 | Google Inc | acesso escalável, de codificação e adaptável de modelos distribuídos |
US8185376B2 (en) * | 2006-03-20 | 2012-05-22 | Microsoft Corporation | Identifying language origin of words |
US8255376B2 (en) | 2006-04-19 | 2012-08-28 | Google Inc. | Augmenting queries with synonyms from synonyms map |
US8380488B1 (en) | 2006-04-19 | 2013-02-19 | Google Inc. | Identifying a property of a document |
US7835903B2 (en) * | 2006-04-19 | 2010-11-16 | Google Inc. | Simplifying query terms with transliteration |
US7475063B2 (en) * | 2006-04-19 | 2009-01-06 | Google Inc. | Augmenting queries with synonyms selected using language statistics |
US8442965B2 (en) | 2006-04-19 | 2013-05-14 | Google Inc. | Query language identification |
US8762358B2 (en) * | 2006-04-19 | 2014-06-24 | Google Inc. | Query language determination using query terms and interface language |
US8924194B2 (en) * | 2006-06-20 | 2014-12-30 | At&T Intellectual Property Ii, L.P. | Automatic translation of advertisements |
US20080077393A1 (en) * | 2006-09-01 | 2008-03-27 | Yuqing Gao | Virtual keyboard adaptation for multilingual input |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7552045B2 (en) * | 2006-12-18 | 2009-06-23 | Nokia Corporation | Method, apparatus and computer program product for providing flexible text based language identification |
US8131536B2 (en) * | 2007-01-12 | 2012-03-06 | Raytheon Bbn Technologies Corp. | Extraction-empowered machine translation |
US7729899B2 (en) * | 2007-02-06 | 2010-06-01 | Basis Technology Corporation | Data cleansing system and method |
US8332207B2 (en) * | 2007-03-26 | 2012-12-11 | Google Inc. | Large language models in machine translation |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8019760B2 (en) * | 2007-07-09 | 2011-09-13 | Vivisimo, Inc. | Clustering system and method |
US8340430B2 (en) * | 2007-07-10 | 2012-12-25 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying digital image characteristics |
US8260619B1 (en) | 2008-08-22 | 2012-09-04 | Convergys Cmg Utah, Inc. | Method and system for creating natural language understanding grammars |
US8738353B2 (en) * | 2007-09-05 | 2014-05-27 | Modibo Soumare | Relational database method and systems for alphabet based language representation |
US8638363B2 (en) | 2009-02-18 | 2014-01-28 | Google Inc. | Automatically capturing information, such as capturing information using a document-aware device |
US7890539B2 (en) * | 2007-10-10 | 2011-02-15 | Raytheon Bbn Technologies Corp. | Semantic matching using predicate-argument structure |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US7840569B2 (en) | 2007-10-18 | 2010-11-23 | Microsoft Corporation | Enterprise relevancy ranking using a neural network |
US7925652B2 (en) * | 2007-12-31 | 2011-04-12 | Mastercard International Incorporated | Methods and systems for implementing approximate string matching within a database |
US8666976B2 (en) | 2007-12-31 | 2014-03-04 | Mastercard International Incorporated | Methods and systems for implementing approximate string matching within a database |
US8738486B2 (en) * | 2007-12-31 | 2014-05-27 | Mastercard International Incorporated | Methods and apparatus for implementing an ensemble merchant prediction system |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8849665B2 (en) * | 2008-01-30 | 2014-09-30 | At&T Intellectual Property I, L.P. | System and method of providing machine translation from a source language to a target language |
JP5224851B2 (ja) * | 2008-02-27 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索エンジン、検索システム、検索方法およびプログラム |
EP2107473A1 (en) * | 2008-03-31 | 2009-10-07 | Sony Corporation | System and method for determining the laguage of teletext |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8364462B2 (en) * | 2008-06-25 | 2013-01-29 | Microsoft Corporation | Cross lingual location search |
US8457441B2 (en) * | 2008-06-25 | 2013-06-04 | Microsoft Corporation | Fast approximate spatial representations for informal retrieval |
US8107671B2 (en) * | 2008-06-26 | 2012-01-31 | Microsoft Corporation | Script detection service |
US8073680B2 (en) * | 2008-06-26 | 2011-12-06 | Microsoft Corporation | Language detection service |
US8266514B2 (en) | 2008-06-26 | 2012-09-11 | Microsoft Corporation | Map service |
US8019596B2 (en) * | 2008-06-26 | 2011-09-13 | Microsoft Corporation | Linguistic service platform |
US8160365B2 (en) * | 2008-06-30 | 2012-04-17 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying digital image characteristics |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010013140A1 (en) | 2008-08-01 | 2010-02-04 | Eamon Mason | System and method for building multiple online legal research applications |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) * | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8224641B2 (en) * | 2008-11-19 | 2012-07-17 | Stratify, Inc. | Language identification for documents containing multiple languages |
US8224642B2 (en) * | 2008-11-20 | 2012-07-17 | Stratify, Inc. | Automated identification of documents as not belonging to any language |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8510097B2 (en) * | 2008-12-18 | 2013-08-13 | Palo Alto Research Center Incorporated | Region-matching transducers for text-characterization |
US8447588B2 (en) * | 2008-12-18 | 2013-05-21 | Palo Alto Research Center Incorporated | Region-matching transducers for natural language processing |
US8266169B2 (en) * | 2008-12-18 | 2012-09-11 | Palo Alto Reseach Center Incorporated | Complex queries for corpus indexing and search |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
WO2010105245A2 (en) | 2009-03-12 | 2010-09-16 | Exbiblio B.V. | Automatically providing content associated with captured information, such as information captured in real-time |
US8447066B2 (en) | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US8468011B1 (en) * | 2009-06-05 | 2013-06-18 | Google Inc. | Detecting writing systems and languages |
US8326602B2 (en) * | 2009-06-05 | 2012-12-04 | Google Inc. | Detecting writing systems and languages |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
US8868431B2 (en) * | 2010-02-05 | 2014-10-21 | Mitsubishi Electric Corporation | Recognition dictionary creation device and voice recognition device |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US20110251837A1 (en) * | 2010-04-07 | 2011-10-13 | eBook Technologies, Inc. | Electronic reference integration with an electronic reader |
US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
US8635061B2 (en) * | 2010-10-14 | 2014-01-21 | Microsoft Corporation | Language identification in multilingual text |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9535895B2 (en) * | 2011-03-17 | 2017-01-03 | Amazon Technologies, Inc. | n-Gram-based language prediction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8812302B2 (en) * | 2012-01-17 | 2014-08-19 | Google Inc. | Techniques for inserting diacritical marks to text input via a user device |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US20130311362A1 (en) | 2012-04-26 | 2013-11-21 | Mastercard International Incorporated | Systems and methods for verifying payee information in electronic payments |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9251180B2 (en) | 2012-05-29 | 2016-02-02 | International Business Machines Corporation | Supplementing structured information about entities with information from unstructured data sources |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9336197B2 (en) * | 2013-01-22 | 2016-05-10 | Tencent Technology (Shenzhen) Company Limited | Language recognition based on vocabulary lists |
CN104969289B (zh) | 2013-02-07 | 2021-05-28 | 苹果公司 | 数字助理的语音触发器 |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US8996352B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
US10521866B2 (en) | 2013-10-15 | 2019-12-31 | Mastercard International Incorporated | Systems and methods for associating related merchants |
US20150177847A1 (en) * | 2013-12-23 | 2015-06-25 | Google Inc. | Techniques for resolving keyboard and input method ambiguity on computing devices |
US9984127B2 (en) * | 2014-01-09 | 2018-05-29 | International Business Machines Corporation | Using typestyles to prioritize and rank search results |
CN103778109A (zh) * | 2014-02-13 | 2014-05-07 | 北京奇艺世纪科技有限公司 | 一种识别用户评论的方法及装置 |
JP2015210683A (ja) * | 2014-04-25 | 2015-11-24 | 株式会社リコー | 情報処理システム、情報処理装置、情報処理方法およびプログラム |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9372848B2 (en) * | 2014-10-17 | 2016-06-21 | Machine Zone, Inc. | Systems and methods for language detection |
JP6553180B2 (ja) * | 2014-10-17 | 2019-07-31 | エム・ゼット・アイ・ピィ・ホールディングス・リミテッド・ライアビリティ・カンパニーMz Ip Holdings, Llc | 言語検出を行うためのシステムおよび方法 |
US10162811B2 (en) * | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US10331782B2 (en) | 2014-11-19 | 2019-06-25 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for automatic identification of potential material facts in documents |
US9288039B1 (en) | 2014-12-01 | 2016-03-15 | Xerox Corporation | Privacy-preserving text language identification using homomorphic encryption |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
GB201421674D0 (en) | 2014-12-05 | 2015-01-21 | Business Partners Ltd | Real time document indexing |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9767091B2 (en) | 2015-01-23 | 2017-09-19 | Microsoft Technology Licensing, Llc | Methods for understanding incomplete natural language query |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9645995B2 (en) | 2015-03-24 | 2017-05-09 | Conduent Business Services, Llc | Language identification on social media |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10089977B2 (en) * | 2015-07-07 | 2018-10-02 | International Business Machines Corporation | Method for system combination in an audio analytics application |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9973521B2 (en) | 2015-12-28 | 2018-05-15 | International Business Machines Corporation | System and method for field extraction of data contained within a log stream |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
CN106959943B (zh) * | 2016-01-11 | 2020-10-30 | 阿里巴巴集团控股有限公司 | 语种识别更新方法及装置 |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US11010687B2 (en) * | 2016-07-29 | 2021-05-18 | Verizon Media Inc. | Detecting abusive language using character N-gram features |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10789410B1 (en) * | 2017-06-26 | 2020-09-29 | Amazon Technologies, Inc. | Identification of source languages for terms |
WO2019060353A1 (en) | 2017-09-21 | 2019-03-28 | Mz Ip Holdings, Llc | SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES |
CN110134935B (zh) * | 2018-02-08 | 2023-08-11 | 株式会社理光 | 一种提取字形特征的方法、装置及设备 |
US11120224B2 (en) * | 2018-09-14 | 2021-09-14 | International Business Machines Corporation | Efficient translating of social media posts |
CN109657251B (zh) * | 2018-12-17 | 2022-08-09 | 北京百度网讯科技有限公司 | 用于翻译语句的方法和装置 |
JP2019215876A (ja) * | 2019-07-03 | 2019-12-19 | エム・ゼット・アイ・ピィ・ホールディングス・リミテッド・ライアビリティ・カンパニーMz Ip Holdings, Llc | 言語検出を行うためのシステムおよび方法 |
US11562593B2 (en) * | 2020-05-29 | 2023-01-24 | Microsoft Technology Licensing, Llc | Constructing a computer-implemented semantic document |
US20230186020A1 (en) * | 2021-12-13 | 2023-06-15 | Nbcuniversal Media, Llc | Systems and methods for language identification in binary file formats |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4610025A (en) * | 1984-06-22 | 1986-09-02 | Champollion Incorporated | Cryptographic analysis system |
US4829580A (en) * | 1986-03-26 | 1989-05-09 | Telephone And Telegraph Company, At&T Bell Laboratories | Text analysis system with letter sequence recognition and speech stress assignment arrangement |
US4773009A (en) * | 1986-06-06 | 1988-09-20 | Houghton Mifflin Company | Method and apparatus for text analysis |
US4930077A (en) * | 1987-04-06 | 1990-05-29 | Fan David P | Information processing expert system for text analysis and predicting public opinion based information available to the public |
US5062143A (en) * | 1990-02-23 | 1991-10-29 | Harris Corporation | Trigram-based method of language identification |
US5182708A (en) * | 1990-12-11 | 1993-01-26 | Ricoh Corporation | Method and apparatus for classifying text |
US5251131A (en) * | 1991-07-31 | 1993-10-05 | Thinking Machines Corporation | Classification of data records by comparison of records to a training database using probability weights |
US5392419A (en) * | 1992-01-24 | 1995-02-21 | Hewlett-Packard Company | Language identification system and method for a peripheral unit |
US5371807A (en) * | 1992-03-20 | 1994-12-06 | Digital Equipment Corporation | Method and apparatus for text classification |
GB9220404D0 (en) * | 1992-08-20 | 1992-11-11 | Nat Security Agency | Method of identifying,retrieving and sorting documents |
US5377280A (en) * | 1993-04-19 | 1994-12-27 | Xerox Corporation | Method and apparatus for automatic language determination of European script documents |
US5548507A (en) * | 1994-03-14 | 1996-08-20 | International Business Machines Corporation | Language identification process using coded language words |
US5913185A (en) * | 1996-08-19 | 1999-06-15 | International Business Machines Corporation | Determining a natural language shift in a computer document |
-
1998
- 1998-12-23 US US09/219,615 patent/US6167369A/en not_active Expired - Lifetime
-
1999
- 1999-12-10 JP JP35091699A patent/JP4413349B2/ja not_active Expired - Fee Related
- 1999-12-17 EP EP99125213A patent/EP1014276A3/en not_active Withdrawn
- 1999-12-23 BR BR9905978-9A patent/BR9905978A/pt not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
US6167369A (en) | 2000-12-26 |
BR9905978A (pt) | 2000-09-05 |
EP1014276A3 (en) | 2006-08-16 |
JP2000194696A (ja) | 2000-07-14 |
EP1014276A2 (en) | 2000-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4413349B2 (ja) | サンプルテキスト基調言語識別方法及びコンピュータシステム | |
US6415250B1 (en) | System and method for identifying language using morphologically-based techniques | |
US8055498B2 (en) | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary | |
US6654717B2 (en) | Multi-language document search and retrieval system | |
US7092871B2 (en) | Tokenizer for a natural language processing system | |
Goldsmith | An algorithm for the unsupervised learning of morphology | |
US8027832B2 (en) | Efficient language identification | |
US6704698B1 (en) | Word counting natural language determination | |
Peng et al. | Self-supervised Chinese word segmentation | |
US20050209844A1 (en) | Systems and methods for translating chinese pinyin to chinese characters | |
JP2002215619A (ja) | 翻訳文書からの翻訳文抽出方法 | |
JPH05242138A (ja) | 単語ディスアンビギュエーション装置及び方法 | |
WO1999062001A1 (en) | Word segmentation in chinese text | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
Jin et al. | A chinese dictionary construction algorithm for information retrieval | |
US7684975B2 (en) | Morphological analyzer, natural language processor, morphological analysis method and program | |
JP5107556B2 (ja) | 改善された中国語−英語翻訳ツール | |
KR100559472B1 (ko) | 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법 | |
CN115983233A (zh) | 一种基于数据流匹配的电子病历查重率估计方法 | |
WO1999041680A2 (en) | Segmentation of chinese text into words | |
JP3369127B2 (ja) | 形態素解析装置 | |
WO2003003241A1 (en) | Predictive cascading algorithm for multi-parser architecture | |
JP2005326952A (ja) | 概念辞書への単語登録方法、装置、およびプログラム | |
JP4088171B2 (ja) | テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
KR100283100B1 (ko) | 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070326 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070410 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070806 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070828 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20070914 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090916 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091118 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121127 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4413349 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121127 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131127 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |