JP4413349B2 - サンプルテキスト基調言語識別方法及びコンピュータシステム - Google Patents

サンプルテキスト基調言語識別方法及びコンピュータシステム Download PDF

Info

Publication number
JP4413349B2
JP4413349B2 JP35091699A JP35091699A JP4413349B2 JP 4413349 B2 JP4413349 B2 JP 4413349B2 JP 35091699 A JP35091699 A JP 35091699A JP 35091699 A JP35091699 A JP 35091699A JP 4413349 B2 JP4413349 B2 JP 4413349B2
Authority
JP
Japan
Prior art keywords
language
probability
data
probability data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP35091699A
Other languages
English (en)
Other versions
JP2000194696A (ja
Inventor
エム.シュルツェ ブルーノ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2000194696A publication Critical patent/JP2000194696A/ja
Application granted granted Critical
Publication of JP4413349B2 publication Critical patent/JP4413349B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Description

【0001】
【発明の属する技術分野】
本発明は、テキストの言語の自動識別に関する。
【0002】
【従来の技術】
テキストの言語を自動的に識別するために、多数の技法が提案されている。グレフェンステッテ(Grefenstette, G.)による「2つの言語識別方式の比較(Comparing Two Language Identification Schemes)」(JADT 1995年、『第3回文字データの統計分析に関する国際会議(3rd International Conference on Statistical Analysis of Textual Data)』(ローマ、1995年12月11から13日)263〜268頁)は、文字トライグラム(3文字列)を使用する技法と、一般的なショートワード(短い単語)に基づく技法の2つを比較している。
【0003】
グレフェンステッテにより説明されているトライグラム技法は、多数の異なる言語のそれぞれからの大きいテキストサンプルを、唯一のセパレータとして間隔文字(スペース)を使用し、語頭及び末尾のバイグラム(2文字列)に印をつけるように各トークンの前後に下線を加えることによりトークン化する。その後、各言語の3文字のシーケンスの発生回数が数えられる。最小回数を超えるトライグラムは保存され、保存されたトライグラムの確率は、その言語のために保存された全てのトライグラムの発生回数を加算し、発生回数の和でそのトライグラムの発生回数を割ることにより概算される。その後、文をトライグラムに分割し、各言語ごとにトライグラムのシーケンスの確率を計算し、確率が割り当てられていないトライグラムに最小の確率を割り当てることによってその文の言語を推測するために、この確率が用いられる。
【0004】
グレフェンステッテにより説明されているショートワード技法は、多数の異なる言語のそれぞれからの大きいテキストサンプルを同様にトークン化し、一般に5文字以下の単語であるトークン全ての発生回数を計算する。最小回数を超えるトークンは保存され、保存されたトークンの確率がトライグラム技法と同様に概算される。その後、文をトークン化し、各言語ごとにトークンのシーケンスの確率を計算し、確率が割り当てられていないトークンに最小の確率を割り当てることによってその文の言語を推測するために、この確率が用いられる。文が所定の言語に属する確率は、これらのトークンの確率の積として取得される。
【0005】
グレフェンステッテは、2つの言語推測を得るために各技法に各文を送り込むことにより、これらの技法を比較した。いずれの技法も、長い文では上手く機能するが、より短い文ではトライグラムの方が強力である。所定の文中にはトライグラムよりも少量の単語が存在し、各単語又はトライグラムは掛け算を確率計算に寄与させるので、ショートワードの使用は実行の際に僅かに高速である。
【0006】
【発明が解決しようとする課題】
本発明は、ショートワード又は常用語技法、及びN−グラム(N文字列)技法を使用する自動言語識別において発生する基本的な問題を扱う。1つの問題はサンプルサイズに関し、別の問題は各技法がよりよく機能する異なる文脈に関する。
【0007】
グレフェンステッテにより示されたように、ショートワード技法及びN−グラム技法はいずれも長い文等の大きいサンプルで上手く機能する一方で、N−グラム技法は短い文等のより小さいサンプルではより頑強(ロバスト)である。しかしながら、N−グラム技法でさえ、サンプルのサイズが小さくなるにつれて、大きいサンプルほどには上手く機能しなくなる。その結果、N−グラム技法でさえも、インターネットサーチエンジンへのユーザ入力照会等のある種のアプリケーションで一般的に生じる非常に小さいサンプルに対しては不十分となる。
【0008】
常用語技法は、単語へのトークン化が難しい言語(中国語等)又は常用語のセットを定義することが難しい言語に適用することが困難であるか、又は不可能である。トライグラム、N−グラム、及びコンピュータ化されたテキストにおける他の人工的な分割は、信頼性が高いとみなされておらず、正確な言語の識別という点で限られた効果を有することが議論されている。この問題のより一般的な言明は、ある文脈においてはN−グラム技法が単語技法よりも優れた結果をもたらし、他の文脈においては単語技法がより優れた結果をもたらすというものである。
【0009】
【課題を解決するための手段】
本発明は、これらの問題を緩和する自動言語識別のための新技法の発見に基づく。新技法は、サンプルテキストの基調言語である可能性の高い自然言語を自動的に識別する。そのために、新技法は、サンプルテキストを定義しているテキストデータと、複数言語から成る集合(セット)の各言語のための確率データとを、この集合の各言語ごとに、サンプルテキストがその言語で発生する確率を示しているサンプル確率データを自動的に取得するために使用する。新技法は次に、言語識別データを自動的に取得するためにサンプル確率データを使用する。言語識別データは、そのサンプル確率データが最も高い確率を示す集合内の言語を識別する。
【0010】
新技法において、少なくとも1つの言語のための確率データはN−グラム確率データを含み、少なくとも1つの言語のための確率データは単語確率データを含む。1言語のためのN−グラム確率データは、複数のN−グラムから成る集合の各N−グラムごとに、その言語がテキストの基調言語である場合に、そのN−グラムがそのテキストで発生する確率を示す。1言語のための単語確率データは、複数の単語から成る集合の各単語ごとに、その言語がテキストの基調言語である場合に、その単語がそのテキストで発生する確率を示す。
【0011】
新技法は、N−グラム確率データを有する少なくとも1つの言語及び単語確率データを有する少なくとも1つの言語を含む複数の言語から成る部分集合(サブセット)の各言語ごとのサンプル確率データを自動的に取得する。N−グラム確率データを有する言語のサンプル確率データは、その言語のN−グラム確率データからの情報を含み、単語確率データを有する言語のサンプル確率データは、その言語の単語確率データからの情報を含む。
【0012】
新技法は、トライグラムのための確率データ、及び5文字以下の単語のための確率データと共に実施されることが可能である。サンプル確率データは、N−グラム又は単語確率データを有する全ての言語で取得されることが可能である。少なくとも1つの言語は、N−グラム及び単語確率データの両方を有することができ、このような各言語のためのサンプル確率データはN−グラム確率データ及びその単語確率データの両方からの情報を含むことができる。少なくとも1つの言語は、N−グラム確率データのみを有することができる。
【0013】
言語がN−グラム及び単語確率データの両方を有する場合には、N−グラム確率データ及び単語確率データは、各N−グラム又は単語のための確率値を含むことができ、この確率値はその言語のサンプル確率データを取得するために使用されることが可能である。テキストサンプルで発生する各N−グラムのための確率値が、N−グラムの総確率値を取得するために加算され、テキストサンプルで発生する各単語のための確率値が、単語の総確率値を取得するために加算されることが可能なように、確率値は対数であり得る。確率値が含まれない各N−グラム又は単語のために、低い確率を示す定数である確率値を使用することができる。総確率値はその後、その言語のためのサンプル確率値を取得するために、例えば加算して2で割ることにより組み合わせられる。
【0014】
新技法は更に、サンプルテキストを定義しているテキストデータと、上述された確率データと、上述のようにサンプル確率データを自動的に取得するためにテキストデータ及び確率データを使用するプロセッサと、を含むシステムで実施されることができる。このプロセッサはその後、サンプル確率データを使用し、サンプル確率データが最も高い確率を示す言語を識別する言語識別データを自動的に取得する。
【0015】
また、新技法は、サンプルテキストを定義しているテキストデータと、記憶媒体アクセス装置とを含むシステムで用いられる1つの製品で実施されることができる。この製品は、記憶媒体と、この記憶媒体により記憶された確率データ及び命令データとを含むことができる。システムのプロセッサは、命令データにより示される命令を実行する際に、上述のようにサンプル確率データを自動的に取得するためにテキストデータ及び確率データを使用する。プロセッサは次に、サンプル確率データを使用し、言語識別データを自動的に取得する。
【0016】
また、新技法は、第1のマシンを動作させてネットワークを介して第2のマシンにデータを転送する方法でも実施されることができ、この転送されたデータは、上述のような確率データ及び命令データを含む。
【0017】
N−グラムのみ又は単語のみを使用して言語を自動的に識別するための従来の技法と比較して、新技法は大きいサンプルに対してそれぞれの手法により個々に得られる正確さを犠牲にすることなく、全体的な認識の正確さを向上させる方法で両手法を組み合わせるので、この新技法は有利である。特に新技法は、小さいサンプルに対して著しく向上した正確さを有し、インターネットサーチエンジンへのユーザ入力照会等の非常に小さいサンプルで上手く使用されることが可能である。また、新技法は、各言語のより小さい(短い)テキストがN−グラム及び単語確率を取得するために使用される場合でさえ、向上された正確さを達成する。
【0018】
また、新技法は、識別されている複数言語から成る集合が、トライグラムの大部分を共有するが異なる機能語を有する、スペイン語及びポルトガル語等の一対の密接に関連した言語を含む場合に有利である。このコンテキストにおいて、新技法は、N−グラム技法の利点を備えるうえ更に、密接に関連した言語を単語確率情報に基づいて識別することが可能である。
【0019】
また、新技法は、追加言語に容易に拡張されることが可能であるので有利である。特に、トライグラム又は他のN−グラムのみを使用する従来の言語識別技法と比較すると、新技法は従来の技法が作り出すような、大きな混乱をもたらすマトリックスを作り出さないので、この新技法はより容易に追加言語に拡張されることが可能である。
【0020】
新技法は、30言語を超える言語から成る集合で適切に機能することが証明されており、この集合に更に言語を加えることは、既にこの集合に存在する言語のための認識の正確さを低下させない。この結果、新技法は、ワールドワイドウェブから検索された英語以外のテキスト等の新たに利用可能な言語データに、容易に適用されることが可能である。また、新技法は、中国語及び韓国語等の区別可能な単語境界のない、又はマルチバイトの文字集合を有する言語を含む集合にも上手く適用されている。
【0021】
本発明により提供されるサンプルテキストの基調言語である可能性の高い自然言語を自動的に識別する方法は、(A)サンプルテキストを定義しているテキストデータと、複数の自然言語から成る集合の各言語のための確率データとを、その集合の少なくとも2つの言語の各言語ごとに、そのサンプルテキストがその言語で発生する確率を示しているサンプル確率データを自動的に取得するために使用するステップと、(B)言語に属するサンプル確率データが最も高い確率を示す言語を識別する言語識別データを自動的に取得するためにサンプル確率データを使用するステップとを含む。上記言語の1つ又は複数を含む第1の部分集合の各言語の確率データはN−グラム確率データを含み、上記言語の1つ又は複数を含む第2の部分集合の各言語の確率データは単語確率データを含み、この第1の部分集合の各言語のためのN−グラム確率データは、その言語がテキストの基調言語である場合に、複数のN−グラムから成る集合の各N−グラムごとに、このN−グラムがそのテキスト内で発生する確率を示し、第2の部分集合の各言語のための単語確率データは、その言語がテキストの基調言語である場合に、複数の単語から成る集合の各単語ごとに、この単語がそのテキスト内で発生する確率を示す。(A)は、言語の第3の部分集合の各言語のためのサンプル確率データを自動的に取得するステップを含み、この第3の部分集合及び第1の部分集合に属する少なくとも1つの言語のために、サンプル確率データはその言語のN−グラム確率データからの情報を含み、第3の部分集合及び第2の部分集合に属する少なくとも1つの言語のために、サンプル確率データはその言語の単語確率データからの情報を含むことを特徴とする。
【0022】
【発明の実施の形態】
「自然言語」は、国、地方、又は地域、或いは民族又は職業上のグループ等のコミュニティ内で人間的な表現及びコミュニケーション(情報交換/会話)のために、ある一定期間使用される複数の記号から成る識別されたシステム(系統)である。ある自然言語は、正しいと考えられる標準システムを有するが、本明細書で使用される用語「自然言語」は、発音、文法、又は語彙等の相違点のために異なると識別される場合、方言、地方語、ジャーゴン(特殊用語)、通り言葉(cant)、俗語(argot)又は国なまり(patois)にも用いることができる。自然言語は、ラテン語、古代ギリシア語、古代ヘブライ語等々の古代言語を含み、更にエスペラント語及び統一自然言語(UNL)等の合成言語を含む。
【0023】
「文字」は、自然言語の書かれたか、プリントされたか、又は音声学的に表記された(音標表記された)形式に現れる離散的要素を意味する。従って、今日の英語における文字は、アルファベット及び数の要素のみでなく、句読点、分音符号、数学及び論理記号、並びに書かれたか、プリントされたか、又は音声学的に表記された英語で用いられる他の要素をも含むことができる。より一般に、文字は英数字要素に加えて、音標要素、表意要素、又は絵文字要素を含むことができる。
【0024】
通常「N−グラム」は、一連のN個の文字を意味するが、文字が未知の長さの文字コードにより示される場合、N−グラムは一連の文字コードからの一連のNバイトを意味することもできる。「トライグラム」は、N=3であるN−グラムである。
【0025】
テキストの文字により形成される単語が、1つの言語が優位性の基準を満たすように複数言語から成る集合で発生する場合、このテキストは「基調言語/主言語」を有する。例えば、基準は、単語の過半数が基調言語で発生し、単語の半分未満が他の言語のそれぞれで発生するというものであり得る。或いは、基準は単に、他のあらゆる言語においてよりも多くの単語が基調言語で発生するというものであってもよい。或いは、基準は、各言語の特徴である特殊文字の密度を比較する特殊文字手法に基づいていてもよく、この手法では基調言語がその特殊文字の最高の密度を有する。或いは、基準はより主観的に、そのテキストの単語が発生する言語に精通している人間の読者により到達されるであろう結論に基づくものであってもよい。
【0026】
図1から3は、本発明の一般的な特徴を示す。図1は、サンプルテキストの基調言語である可能性の高い自然言語を識別する方法を概略的に示すフローチャートである。
【0027】
テキストデータ10は、基調言語を有するサンプルテキストを定義する。確率データ12は、複数の自然言語から成る集合の各自然言語ごとの確率を示す。例示的に破線によって確率データ12に接続される集合図14は、幾つかの言語のための確率データの性質を示す。集合図14の外側の円は、確率データ12が確率を示す自然言語の全体集合を表す。この外側の円の中には、言語の第1及び第2の部分集合をそれぞれ表す内側の円16及び18が存在する。
【0028】
第1の部分集合は、確率データ12がそのためのN−グラム確率データを含む複数の言語を含む。第1の部分集合内の各言語のためのN−グラム確率データは、N−グラムから成る集合の各N−グラムごとに、その言語がテキストの基調言語である場合にN−グラムがそのテキストで発生する確率を示す。第1の部分集合は、Pと示され内側の円16内の小さい円で示される言語を例示的に含む。
【0029】
第2の部分集合は、確率データ12がそのための単語確率を示す複数の言語を含む。第2の部分集合内の各言語のための単語確率データは、単語から成る集合の各単語ごとに、その言語がテキストの基調言語である場合に単語がそのテキストで発生する確率を示す。第2の部分集合は、Qと示され内側の円18内の小さい円で示される言語を例示的に含む。
【0030】
集合図14で示唆されるように、第1及び第2の部分集合は、N−グラム確率及び単語確率の両方を有する幾つかの言語が存在することから重なり得、また第1及び第2の部分集合のどちらにも属さないが、別のタイプの確率データを有する幾つかの言語も存在し得る。
【0031】
テキストデータ10及び確率データ12は、言語の第3の部分集合の各言語ごとのサンプル確率を示すサンプル確率データ20を自動的に取得するために使用される。第3の部分集合は、例示的に言語P及びQで示される第1及び第2の部分集合のそれぞれからの少なくとも1つの言語を含む。言語Pのサンプル確率データ22は、言語PのためのN−グラム確率データからの情報を含む。言語Qのサンプル確率データ24は、言語Qのための単語確率データからの情報を含む。
【0032】
図1はまた、サンプル確率データ20が自動的に言語識別データ26を取得するために使用されることを示す。言語識別データ26は、そのサンプル確率データが最も高い確率を示す第3の部分集合内の言語を識別する。
【0033】
図2の処理ボックス40において、技法は、複数の自然言語から成る集合の各自然言語ごとにサンプルテキストを定義しているテキストデータと確率データとを使用し、その集合内の少なくとも2つの言語の各言語ごとに、サンプルテキストがその言語で発生する確率を示すサンプル確率データを自動的に取得する。複数の言語から成る第1の部分集合の各言語ごとの確率データは、その言語がテキストの基調言語である場合に、複数のN−グラムから成る集合の各N−グラムごとに、そのN−グラムがそのテキストで発生する確率を示すN−グラム確率データを含む。第2の部分集合の各言語ごとの確率データは、その言語がテキストの基調言語である場合に、複数の単語から成る集合の各単語ごとに、その単語がそのテキストで発生する確率を示す単語確率データを含む。この技法は、複数の言語から成る第3の部分集合の各言語ごとのサンプル確率データを自動的に取得する。第3の部分集合の少なくとも1つの言語は、第1の部分集合にも属し、それのサンプル確率データはこの言語のN−グラム確率データからの情報を含む。第3の部分集合の少なくとも1つの言語は、第2の部分集合にも属し、それのサンプル確率データはこの言語の単語確率データからの情報を含む。
【0034】
処理ボックス42において、この技法は、サンプル確率データを使用し、サンプル確率データが最も高い確率を示す言語を識別しているデータを自動的に取得する。
【0035】
図3のマシン60は、サンプルテキストを定義しているテキストデータ64を取得するため、及びメモリ66内のデータにアクセスするために接続されたプロセッサ62を含む。また、プロセッサ62は、データ入力回路68を介してデータを受信するためにも接続され、このデータ入力回路68は例示的に、メモリ70、記憶媒体アクセス装置72、又はネットワーク74との接続から受信されたデータを提供することができる。また、プロセッサ62は、データ出力回路76を介してデータを提供するためにも接続され、このデータ出力回路76は、データ入力回路68がそこからデータを受信することが可能な構成要素と同様の構成要素への接続を介してデータを提供することが可能である。従って、プロセッサ62は、パーソナルコンピュータ、ワークステーション又はサーバの中央処理装置(CPU)、或いは以下で説明されるように動作することが可能な他の任意の処理装置であってよい。
【0036】
テキストデータ64は、ユーザ入力回路(図示せず)、メモリ66、又はデータ入力回路68を含む任意の適切なソースから取得され得る。例えばプロセッサ62がサーバである場合、テキストデータ64はネットワーク74及びデータ入力回路68を介してクライアントマシンから受信され得、この結果は同様に、データ出力回路76及びネットワーク74を介してクライアントマシンに提供され得る。
【0037】
データ入力回路68によって例示的に提供されたデータの本体80は、確率データ82及び命令データ84を含む。確率データ82は、複数の自然言語から成る集合のための確率を示す。複数の言語から成る第1の部分集合の各言語ごとの確率データ82は、その言語がテキストの基調言語である場合に、複数のN−グラムから成る集合の各N−グラムごとに、そのN−グラムがそのテキストで発生する確率を示すN−グラム確率データを含む。複数の言語から成る第2の部分集合の各言語ごとの確率データ82はまた、その言語がテキストの基調言語である場合に、複数の単語から成る集合の各単語ごとに、その単語がそのテキストで発生する確率を示す単語確率データを含む。
【0038】
おそらく確率データ82をメモリ66にロードした後に、命令データ84によって示された命令を実行する際に、プロセッサ62はサンプル確率データ90及び言語識別データ92を自動的に取得する。より明確には、プロセッサ62はテキストデータ64及び確率データ82を使用し、サンプル確率データ90を自動的に取得することができる。サンプル確率データ90は、複数の言語から成る第3の部分集合の各言語のために、サンプルテキストがその言語で発生する確率を示すことができる。第1の部分集合にも属する、第3の部分集合内の少なくとも1つの言語のために、サンプル確率データ90は、その言語のN−グラム確率データからの情報を含む。第2の部分集合にも属する、第3の部分集合内の少なくとも1つの言語のために、サンプル確率データは、その言語の単語確率データからの情報を含む。次にプロセッサ62はサンプル確率データ90を使用し、自動的に言語識別データ92を取得する。この言語識別データ92は、それのサンプル確率データが最も高い確率を示す言語を識別する。
【0039】
上述のように図3は、メモリ70、記憶媒体アクセス装置72、及びネットワーク74の3つの可能なソースを示し、データ入力回路68はこれらのソースからプロセッサ62へデータを供給することが可能である。
【0040】
メモリ70は、ランダムアクセスメモリ(RAM)又は読出し専用メモリ(ROM)を含むマシン60内の任意の従来メモリか、又は任意の種類の周辺又はリモートメモリ装置であってよい。
【0041】
記憶媒体アクセス装置72は、記憶媒体94にアクセスするためのドライブ又は他の適切な装置又は回路であり得、例えば、1つ又は複数のテープ、ディスケット又はフロッピーディスクのセット等の磁気媒体、1つ又は複数のCD−ROMのセット等の光学媒体、或いはデータを記憶するための他の任意の適切な媒体であってよい。記憶媒体94は、マシン60の一部、サーバ又は他の周辺又はリモートメモリ装置の一部、或いはソフトウェア製品であってよい。これらの例のそれぞれにおいて、記憶媒体94は、マシンで使用されることが可能な1つの製品である。
【0042】
ネットワーク74は、マシン100からデータの本体を提供することができる。マシン100内のプロセッサ102は、ネットワーク接続回路104及びデータ入力回路68を介してネットワーク74上でプロセッサ62との接続を確立することができる。いずれのプロセッサも接続を開始することができ、この接続は任意の適切なプロトコルによって確立されてよい。次にプロセッサ102は、メモリ106に記憶されたデータの本体にアクセスすることができ、このデータの本体をネットワーク74を介してプロセッサ62に転送することができる。プロセッサ62は、データの本体をメモリ66又は他の場所に記憶することができ、その後自動言語識別を実行するための命令を実行することができる。
【0043】
また図3は、プロセッサ62がデータ出力回路76を介する出力として、言語識別データ92をユーザ等へ提供できることを示す。
【0044】
以下で説明される実施の形態は、Solaris 2.4.xをOSとして使用し、ANSI Cのソースコードからコンパイルされたコードを実行するSun(サン・マイクロシステムズ)のワークステーションであるSPARCstation Ultra2上で実施されている。
【0045】
図4において、システム120はSunのSPARCstation Ultra2ワークステーションの中央処理装置(CPU)122を含み、これは、画像を表示するためのディスプレイ124と、ユーザからの信号を供給するためのキーボード126及びマウス128とに接続される。また、CPU122は、例示的にプログラムメモリ132及びデータメモリ134を含むことが可能なメモリ130にアクセスできるように、メモリ130に接続される。
【0046】
プログラムメモリ132に記憶されるルーチンは、確率取得ルーチン140、言語識別ルーチン142、及び言語特有ルーチン144等の幾つかの機能にグループ化されることが可能であり、言語識別子と共に呼出されるか又は他の方法で言語に特有な任意のルーチンであり得る。図4はまた、データメモリ134に記憶され、且つプログラムメモリ132内のルーチンを実行中にCPU122によりアクセスされるデータの幾つかの項目を示す。これらには、言語コーパス150、言語確率データ152、入力テキスト154、トライグラム及びショートワードの組合せ確率データ156、言語識別子(ID)158、及び雑データ項目160が含まれ、その幾つかは後述される。
【0047】
確率取得ルーチン140を実行する際に、プロセッサ122は言語コーパス150を使用して言語確率データ152を取得することができ、言語コーパス150は複数の自然言語から成る集合の各言語ごとの確率データを含む。言語確率データ152は、幾つかの言語のためのトライグラム確率データと、幾つかの言語のためのショートワード確率データと、幾つかの言語のための両タイプの確率データとを含むことができる。従って、言語確率データ152は、図3の確率データ82の具体化である。ショートワード確率データは、例えば5文字以下の単語に関するものであり得る。また、言語確率データ152は、それらに関しては確率が他の方法で示されないトライグラム及びショートワードのために使用される最小の確率定数を含むことができる。或いは、最小の確率定数は、言語識別ルーチン142内のパラメータとして提供されてもよい。
【0048】
言語識別ルーチン142を実行する際に、プロセッサ122は入力テキスト154及び言語確率データ152を使用し、トライグラム及びショートワードの組合せ確率データ156を自動的に取得することができる。組合せ確率データ156は、各言語ごとに、トライグラム及び単語の確率に関する情報を組み合わせて、入力テキスト154がその言語で発生する確率を示すことができる。従って、組合せ確率データ156は、図3のサンプル確率データ90の具体化である。
【0049】
更に、言語識別ルーチン142を実行する際に、プロセッサ122は組合せ確率データ156を使用して、言語ID158を自動的に取得することができる。言語ID158は、組合せ確率データ156が最も高い確率を示す言語を示すことができる。従って、言語ID158は、図3の言語識別データ92の具体化である。
【0050】
言語特有ルーチン144を実行する際に、プロセッサ122は、呼出しの一部として言語ID158をルーチンに供給できるか、又は言語ID158によって識別された言語に適したルーチンを呼出すことが可能である。
【0051】
確率取得ルーチン140及び言語識別ルーチン142は、以下で説明されるように実施されることが可能である。言語特有ルーチン144は、特定の言語に対して最も優れて実行される多種多様なルーチンを含むことができる。幾つかの例は、本発明のアプリケーション(適用)に関連して以下で説明される。
【0052】
図5は、図4の実施における確率取得ルーチン140を実行する際にプロセッサ122によって実行される一般的な処理を示す。
【0053】
図5の処理は、1つの自然言語に関する確率データを取得する。図5の処理ボックス180の処理は、その言語のためのテキストの代表的なコーパスを取得することから始まる。ある実施の形態においては、約1メガバイト(MB)のコーパスが、各言語ごとに取得された。処理ボックス180の処理は、様々なソースから代表的なテキストを取得することができる。そのようなテキストの幾つかは汚染される。つまりこれは、主として1つの言語に属するあるテキストが、他の言語からの部分も含むことを意味する。従って、処理ボックス180の処理はまた、見直し及び他の言語からの部分を手作業で削除することを含むことが可能である。
【0054】
処理ボックス182の処理は、処理ボックス180で取得したコーパスを正規化する。このコンテキストにおいて、正規化することは、他のタイプの汚染又はノイズを除去することと、コーパスがより少ない異なるトライグラム及びショートワードを含むように、そのコーパス内の要素を変更することとを意味する。例えば、処理ボックス182での正規化には、コードのストリームを単一単語のトークンに変換するための単純なトークン化と、HTMLタグ等のテキストマークアップ(マーク付け)コードの削除と、アポストロフィ及びハイフン等の言語の特徴を表す文字のみ残し、特殊文字及び数字等の非英字のためのコードを削除することと、全ての文字をISO 8859−1等のデフォルトの文字集合内の小文字にマッピングすることとが含まれ得る。また、正規化は、ウェブページ上の著作権表示等のメタ言語(超言語)の削除を含むことができる。正規化の後、この正規化されたコーパスは、一連のトークン、即ち1つの間隔文字によって区切られた複数の単語を含むはずである。
【0055】
全ての文字を小文字にマッピングすることは、各言語におけるトライグラム及びショートワードの数を減少させ、ウェブページ及びUsenetのニュース等の幾つかのテキストソースはしばしば大文字で表された単語を含むので、より強力な言語識別へと導く。言語及び文字集合は未知であるので、上述のように、このマッピングはデフォルトの文字集合に対して実行されることが可能である。
【0056】
他の様々な演算の組合せが、処理ボックス182での正規化を実施するために使用されてよい。
【0057】
一般に、言語独立の正規化は、使用主言語のために開発されているが他の言語に適用することが可能な従来の言語ツールを用いて、自動的に実行されることが可能である。正規化は言語識別の最中、並びに基調言語が識別される前に自動的に実行されるであろうことを念頭に置くと、ある例において、中国語、韓国語、及びヘブライ語のため等には、自動的に正規化されたテキストを見直すこと及び手動で変更することが適切であり得る。例えば、英語、フランス語、及びドイツ語の単語は、別の言語のためのコーパスから手作業で削除されることが可能である。
【0058】
処理ボックス184の処理は、処理ボックス182で正規化されたコーパスを使用し、トライグラム確率及びショートワード確率を取得する。1つの実施の形態においては、トライグラム確率が先ず取得され、次にショートワード確率が取得される。
【0059】
トライグラム確率は、処理ボックス182で正規化されたコーパス内の各トライグラムの発生数を数えることによって取得されることが可能である。トライグラム発生を数えるために、ルーチンは、正規化された単語であるはずのトークンの最後に達するまで、正規化されたコーパス全体を調べることが可能である。このルーチンは次に、トークンの前後に境界マーカー「_」を加え、そのトークンの各文字に対する1つのトライグラムを含む文字列を取得することができる。ルーチンは次に、トライグラム識別子を取得するために、各トライグラムを既に検出されているトライグラムと比較することができる。このトライグラムが既に検出されているトライグラムのいずれとも一致しない場合、このルーチンは新たな識別子をこのトライグラムに割り当てることができる。このルーチンは、トライグラムカウント(合計)のアレイ(配列)にアクセスするためにトライグラムの識別子を使用することができ、またアレイ内のこのトライグラムの識別子のためのカウントを増分することができる。
【0060】
発生回数カウントが取得されている場合、そのトライグラムを捨てるか否かを決定するために、そのアレイからの各トライグラムの発生回数カウントは最小カウントと比較されることが可能であり、それによりトライグラムの分布をしきい値処理、即ち平準化する。発生回数カウントが最小カウントを上回る場合、0と1との間の確率を取得するために、この発生回数カウントは、カウントされたトライグラムの合計数により除算されることが可能である。この又は他の最尤推定(MLE)技法等が、1トライグラムのための近似確率を取得するために使用されることが可能である。いずれの例でも、その後、確率の対数が取得され、そのトライグラムのための確率値として保存されることが可能である。
【0061】
ショートワード確率は、処理ボックス182で正規化されたコーパス内の各ショートワードの発生回数を数えることによって、同様に取得することができる。ショートワードの発生を数えるために、ルーチンは、正規化された単語であるはずのトークンの最後に達するまで、正規化されたコーパス全体を調べることが可能である。ルーチンは次に、この単語がその長さに基づき、ショートワードであるか否かを決定することができる。最長が5文字であるショートワードが、上手く実施されている。ルーチンは次に、ショートワード識別子を取得するために、各ショートワードを既に検出されているショートワードと比較することができる。このショートワードが既に検出されているショートワードのいずれとも一致しない場合、このルーチンは新たな識別子をこのショートワードに割り当てることができる。このルーチンは、ショートワードカウントのアレイにアクセスするためにショートワードの識別子を使用することができ、またアレイ内のこのショートワードの識別子のためのカウントを増分することができる。
【0062】
発生回数カウントが取得されている場合、このアレイは、アレイ内の発生回数カウントに基づいて、限られた個数(例えば100)の最も頻繁に発生するショートワードを取得するために走査されることが可能である。あるショートワードが最も頻繁に発生するショートワードの1つである場合、0と1との間の確率を取得するために、そのショートワードの発生回数カウントは、カウントされたショートワードの合計数により除算されることが可能である。或いは、最尤推定(MLE)技法が、1ショートワードのための近似確率を取得するために使用されることが可能である。いずれの例でも、その後、確率の対数が取得され、そのショートワードのための確率値として保存されることが可能である。
【0063】
確率を対数の大きさ(logarithmic magnitudes)に変換することは、確率データを記憶するために必要とされるメモリを大幅に削減する。更なる削減は、対数の大きさを整数に変換することによって達成されるであろう。
【0064】
図5の技法は、言語分類のために統計モデルをトレーニングしているように見られ得る。一旦統計モデルがトレーニングされると、それは言語分類、より明確には言語識別を実行するために使用されることが可能である。
【0065】
図6は、言語識別ルーチン142を実行する際にプロセッサ122によって実行されることが可能な処理を詳細に示す。
【0066】
処理ボックス200の処理は、入力テキスト154を取得することから開始される。処理ボックス202の処理は次に、正規化が図5の処理ボックス182で自動的に実行されたのと同じ方法で、入力テキストを正規化する。
【0067】
次に判断ボックス210の処理は外側反復ループを開始し、このループのそれぞれは、処理ボックス202で正規化された入力テキストからのトークンを処理する。外側反復ループは先ずトライグラム確率を取得し、次にショートワード確率を取得する。
【0068】
トライグラム確率を取得するために、処理ボックス212の処理は、次のトークンの前後に文字「_」を加えることから開始される。判断ボックス214及び220の処理は次に、検討されている各言語のための各トライグラムを処理する第1の内側反復ループを開始する。判断ボックス222の処理は、次のトライグラムが次の言語でトライグラム確率を有するか否かを判断することから第1の内側反復ループを開始する。もし有する場合、処理ボックス224の処理は、その言語のトライグラム確率にそのトライグラムの確率を加えるが、有さない場合は、処理ボックス226の処理がその言語のトライグラム確率に最小の確率定数を加える。
【0069】
判断ボックス230の処理は、トークン(処理ボックス212で加えられた「_」文字は除く)が5文字以下であるか否かを検査する。判断ボックス232の処理は次に、検討されている各言語を処理する第2の内側反復ループを開始する。判断ボックス234の処理は、そのトークンが次の言語でショートワード確率を有するか否かを判断することから第2の内側反復ループを開始する。もし有する場合、処理ボックス236の処理は、その言語のショートワード確率にそのショートワードの確率を加えるが、有さない場合は、処理ボックス238の処理がその言語のショートワード確率に最小の確率定数を加える。
【0070】
処理ボックス226及び238に関すると、確率の対数の大きさが使用されているので、わずかにゼロより大きい確率を示すために、最小の確率定数は比較的大きい値でなければならない。また、各トライグラムの発生及び各ショートワードの発生は、それぞれ他のトライグラム及びショートワードに関して独立した確率イベントであると考えられ、このことが、確率を乗じる(確率の対数を加算することによる)ことが有効な理由である。複数の実験は、単語を開始させる及び終了させるトライグラムを他のトライグラムよりも大きい値で重み付けすることによる改善が見られなかったことを示している。
【0071】
外側反復ループが入力テキスト内の全てのトークンに関して完了していると、処理ボックス240の処理は、両方を有する言語のためのトライグラム及びショートワード確率の和又は一次結合を取得することにより、各言語のためのトライグラム及びショートワードの組合せ確率を取得する。言語がショートワード確率を有さない場合、組合せ確率は単にその言語のトライグラム確率であり得る。従って、処理ボックス240の処理は、図4のトライグラム及びショートワードの組合せ確率データ156を作り出す。処理ボックス240で目的を果たすための極点に達する図6の処理はまた、図2の処理ボックス40の具体化を示し、図3のボックス84に示されるようなサンプル確率データを自動的に取得する命令を実行することによって実施されることが可能である。
【0072】
確率値は確率の対数の大きさから導き出されるので、より大きい確率値はより小さい確率を示すことから、処理ボックス242の処理は次に、処理ボックス240から組合せ確率値が最小である言語の言語IDを取得する。処理ボックス242の処理は、その言語を検出するために最小の組合せ確率値と比較することにより実施されることが可能である。従って、処理ボックス242の処理は、図4の言語ID158を作り出し、そして図3のボックス84に示されるような言語識別データを自動的に取得する命令を実行することによって実施され得る図2の処理ボックス42の処理の具体化として示されることが可能である。
【0073】
最後に、処理ボックス244の処理は、処理ボックス242からの言語IDを戻し、これにより言語識別を完了する。
【0074】
図6に明示的に示された機能に加えて、実施は、言語識別をトライグラム確率のみに基づくトライグラムモード及びショートワード確率のみに基づくショートワードモードで実行するように設定されることが可能である。他の点に関しては、トライグラム及びショートワードモードは、図6に示されるトライグラム及びショートワードの組合せ技法と同様である。
【0075】
上述の実施は、言語識別のための試験台として先ず各言語ごとに約1MBのテキストを用いたトレーニングによって、次に各言語ごとに別の(ばらばらの)1MBのテキストを用いることによって検査されている。それぞれの例において試験台のテキストは、図5の処理ボックス180に関して上述されたように、汚染を除去するために手作業で浄化された。
【0076】
1つの結果は、トライグラム確率情報及びショートワード確率情報の両方に基づく言語識別は概して、トライグラムのみ又はショートワードのみに基づく言語識別よりも正確であるということ、並びにトライグラムのみに基づく識別は概して、ショートワードのみに基づく言語識別よりも正確であるということである。この結果は、図6に示されるトライグラム及びショートワードの組合せモードを、上述のトライグラムモード及びショートワードモードと比較することによって得られた。
【0077】
この実験において、言語識別は、オランダ語(略語:DUT)、英語(ENG)、フィンランド語(FIN)、フランス語(FRE)、ドイツ語(GER)、イタリア語(ITA)、ポルトガル語(POR)、スペイン語(SPA)、及びスウェーデン語(SWE)の9言語のテキストごとに3つのモード全てで実行された。各テストテキストを少なくとも5単語から成る複数の文に分割するために単純なヒューリスティック(発見的方法)が使用され、言語識別は各言語ごとに各文で実行され、正確に識別された文とその言語のテストテキスト内の文の総数との比率が取得された。次にこれらの比率は、各言語識別モードごとに全ての言語の平均をとられ、以下の平均正確度が取得された。
トライグラムモード 98.8%
ショートワードモード 96.4%
組合せモード 99.8%
【0078】
トライグラム確率情報及びショートワード確率情報の両方を使用することは、いずれかのタイプの情報を単独で使用する際に起こり得るエラーを回避するので、組合せモードは、正確さの向上を得ると思われる。換言すると、トライグラム情報のみを用いた場合に生じるかもしれない不明確さはショートワード情報により解決され、逆もまた然りである。これは、トライグラム確率により提供される情報とショートワード確率により提供される情報との間での予期せぬ相違点、即ち向上した正確さ及び他の利点をもたらすために、本発明により開拓される相違点を示唆する。
【0079】
別のより意外な結果は、トライグラム及びショートワードの組合せモードが、少数の単語から成る集合のためのトライグラムモードよりもかなり優れていることである。上述の実験は、言語識別を単一の単語、対の単語等の最大20単語から成るシーケンスまでのランダムサンプルで実行することにより変更され、各サンプルは1000要素(構成単語)を含んだ。図7は、例示的な単語シーケンスサイズごとのトライグラムモードでの結果を示す表である。図8は、トライグラム及びショートワードの組合せモードでの結果を示す表であり、最後の行には、各単語シーケンスサイズで2つのモードの平均結果の差をトライグラムモードの平均結果により除算することにより算出された改善率が示される。見て解かるように、20単語のシーケンスに対しては測定可能な改善はなかったが、注目すべきことに、単一の単語に対しては、組合せモードはトライグラムモードから25%を超える改善をもたらした。
【0080】
比較的短い単語のシーケンスのための誤り率の改善は特に印象的である。例えば、図7及び8の5単語のシーケンスのための列から解かるように、トライグラムモードが2.9%(即ち、97.1%の正確度を100%から引いた値)の誤り率を有する一方で、トライグラム及びショートワードの組合せモードは、約2/3少ない1.0%(即ち、99.0%の正確度を100%から引いた値)という非常に低い誤り率を有する。3、4、6、及び10単語のシーケンスのための列は誤り率に関して比較的大きな比例減少を示す一方で、1、2、及び15単語のシーケンスのための列はより小さい比例減少を示し、そして20単語のシーケンスのための列は例示された程度の精度では減少を示さない。
【0081】
より緻密な結果は、比較的小さいサンプルでトレーニングされる場合、組合せモードがトライグラムモードよりも高い正確度を達成するということである。この結果は、この2つのモードを、前文で使用されたのと同じ9言語からの1,000から800,000バイトの範囲のサンプルを用いてトレーニングすることにより取得された。図9は、平均正確度をバイトで示されるトレーニングサンプルサイズの関数として示すグラフである。正確度はサンプルサイズが増大するにつれて収束する傾向があるものの、示されるように、組合せモードのための平均正確度は、トライグラムモードのための平均正確度よりも一貫して高い。
【0082】
また、組合せモードは、追加言語に拡張されることが可能である。言語の数は、9から31まで拡張された。増加された言語数及び文字集合におけるばらつきにもかかわらず、98.9%の全体的な正確度が得られた。
【0083】
また、組合せモードは、1文字当り1バイトを超える文字集合及び単語の境界を検出する方法がない文字集合を使用する中国語及び韓国語等の言語にも拡張されることが可能である。これらの言語においては、ショートワードを孤立させることはできないので、トライグラム確率情報のみを取得することが可能であり、各文字コードが2バイトを有する場合には、各トライグラムは例えば1.5文字を含み得る。しかしながら、組合せモードは、中国語又は韓国語のためのトライグラム確率情報に基づく確率値をトライグラム及びショートワード確率情報の両方に基づいた他の言語のための確率値と比較することを可能にする。中国語のテキストのために取得された言語識別正確度は99.8%であり、韓国語のテキストのために取得された言語識別正確度は99.1%であったと同時に、他の言語の識別のための正確度は不利な影響を及ぼされなかった。
【0084】
上述の実施の形態は特定の言語から成るグループを識別するが、入手可能な証拠は、本発明が自然言語から成る他の任意のグループの文字コードにも上手く適用され得ることを示している。更に、本発明は、例えば中国語等の言語のための複数バイトの文字コードを含む任意の文字コードの集合にも適用され得る。例えば、2バイトの文字コードを有する言語において、各トライグラムは実際には、1文字全体と次の文字の半分とを含むか、又は反対に1文字の半分と次の文字全体とを含み得る。
【0085】
上述の実施の形態は、トライグラム確率情報及び5文字以下の単語のための情報を使用するが、本発明は、他の長さから成るN−グラムに関して、及び他の長さから成る単語に関して、又はテキストから容易に抽出され、言語を識別するのに有効な単語から成る他の集合に対しても容易に実施され得る。単語の長さは、上述の実施の形態では、頻度の高い単語と低い単語との間の差を概算し、また言語の特徴である機能語とより特徴の少ない他の単語との差を概算する簡単な基準として使用される。機能語は、文法的な意味、並びに限定詞、代名詞、前置詞、接続詞及び小詞等の構文上及び構造上の機能を有する単語である。従って、本発明は代わりに、サンプルテキスト内の各単語を各言語の最も頻度の高いn個の単語から成るリストと、又は各言語の機能語から成るリストと比較することにより実施されてもよい。更に、追加的な確率測定がテキストサンプルの言語を識別する際に有益であると確認された場合、トライグラム及びショートワード確率と適切に組み合わせることによって、その測定が上述の実施の形態に組み入れられてもよい。
【0086】
上述の実施の形態は、重複トライグラムを使用するが、本発明は非重複トライグラムを用いて実施されてもよい。
【0087】
更に、本発明は、サンプルテキスト内の全てのトークン、単語、及びN−グラムを徹底的に検討するよりも寧ろ、トークン、単語、及びN−グラムのランダムサンプリング(無作為抽出)を用いて実施されてもよい。
【0088】
上述の実施の形態は、トライグラム及びショートワード確率を特定の方法で算出し、その後組み合わせられる合計確率を得るために各タイプの確率の対数を加算するが、他のあらゆる適切な確率計算が使用されてもよい。例えば、確率の対数を加算するよりも寧ろ、確率値自体が乗じられるてもよい。但し、対数の加算の方がかなり速く、また数値の桁あふれ及び打切り誤差を回避するので、確率値を乗じるよりも算術的に安定している。或いは、対数が整数にマッピングされてもよく、これは更に効率的であり、より少ないメモリ空間を必要とする。また、上述の実施の形態は、1つの最小確率定数を使用するが、複数のこのような定数が使用されてもよく、又は例えば値がアルゴリズムにより取得されてもよい。例えば、トレーニングデータ又はテストデータ上での演算から自動的に定数を導き出すこと等によって、異なる定数が各言語ごとに取得されてもよい。また、確率値を有さないトライグラム及びショートワードに対して、最小確率定数を加える必要なく、対数の和のそれぞれをその和を得るために加算された値の個数で除算する等の方法で、確率値を組み合わせてもよい。
【0089】
上述の実施の形態は、文字集合を考慮していないが、本発明は文字集合を考慮するように容易に実施されることが可能である。
【0090】
上述の実施の形態において、処理は、多くの事例において変更され得る順序で実行されている。例えば、図5において、正規化されたコーパスが幾つかの言語のために取得されて、その後処理ボックス184の処理が各言語ごとに実行されてもよい。また、先ずトライグラム確率を取得して、次にショートワード確率を取得するよりも寧ろ、この順序が逆にされてよい。同様に、次のトークンを処理する前に各トークンのトライグラム及びショートワードを取得するよりも寧ろ、あるタイプの確率がテキスト内の全ての単語に対して取得され、次に他のタイプの確率が取得されてもよく、又はこの2つのタイプが何らかの方法で並行して取得されてもよい。
【0091】
より一般には、N−グラム確率及びショートワード確率は互いに対して独立しており、相互に作用しないので、これらは情報の損失なく、あらゆる任意の方法で計算されることが可能である。例えば、これらは、並列プロセッサを用いて、又は直列プロセッサ上でマルチタスク又はマルチスレッド技法によって得られる並列計算を用いて、並行して計算されてもよい。このような実施において、N−グラム及びショートワード確率を組み合わせることは、並列計算の同期として機能し得る。
【0092】
本発明は、テキスト上で言語特有の言語サービスを実行するまで、基調言語が未知であるテキストの言語を識別するために、言語システムに適用されることが可能である。例えば、言語サービスのための要求がネットワークを介してサーバに送信され、このサーバは、入力テキストの言語が特定されていない場合、本発明に従って言語識別を実行することができる。より一般に、本発明は、ステミング(stemming:語幹分解)、用語の拡張、翻訳、要約(gisting)、情報検索によって得られたドキュメントの言語に基づくフィルタリング、又は他の言語特有の多種多様なサービスのいずれかの実行方法を決定する前に適用されることが可能である。
【0093】
特に、本発明は、ステミング、翻訳、及び照会に対する語句認識等の言語特有の言語演算を採用するサーチエンジンを支持するために適用されてもよい。このタイプのプロトタイプのサーチエンジンのURLは、次のとおりである。
http://www.rxrc.xerox.com/research/mltt/Tools/CLIR.html
本発明は、上述されたように、単語の短いシーケンスのための優れた言語識別を取得するために実施されることが可能であるので、また大部分の照会が短いので、サーチエンジンでの照会の言語を識別するのに特によく適している。サーチエンジンは、例えば自動的に照会の言語を識別し、その照会を1つ又は複数の他の言語に翻訳し、そのサーチ/検索演算を翻訳された言語で実行することが可能である。
【0094】
本発明は、言語特有の光学的文字認職(OCR)の実行を可能にすることにより、OCRを改良するために適用されることが可能である。先ず、単語分割が、従来の技法を使用してテキストの走査された画像上で実行され得る。次に、文字集合識別、文字分割、及び文字識別が、再度従来の技法を使用して、又は将来利用可能になるより洗練された技法を使用して実行され得る。本発明は次に、文字認識の結果に適用され得、識別された言語はその後、文字認識の未加工の結果を後処理する際に使用される、単語認識を実行するのに適した語彙を選択するために使用されることが可能である。
【0095】
また、本発明は、ユーザがその言語を判断するためにテキストを渡すことができる言語推測装置として適用されることが可能である。この適用はまた、ユーザがそれにテキストを渡し、その後ユーザがその応答としてそこから言語識別を受信することができるウェブサイトを介して実施されている。ウェブサイトのURLは、次のとおりである。
http://www.xrce.xerox.com/research/mltt/tools/guesser.html
【図面の簡単な説明】
【図1】サンプルテキストの基調言語である可能性の高い自然言語を識別する方法を示す概略的なフローチャートである。
【図2】サンプルテキストの基調言語である可能性の高い言語を識別する際の一般的な処理を示すフローチャートである。
【図3】図2の一般的な処理を実行できるシステムの構成要素を示す概略図である。
【図4】図2の一般的な処理が実施されているシステムの概略図である。
【図5】図4のシステムが自然言語確率データを取得することができる方法を示すフローチャートである。
【図6】図4のシステムが図2のような処理を実施する方法を示すフローチャートである。
【図7】異なるサンプルサイズでトライグラム確率情報のみを使用した際の言語識別結果を示す表である。
【図8】異なるサンプルサイズでトライグラム及びショートワード確率情報の両方を使用した際の言語識別結果を示す表である。
【図9】トレーニングしているサンプルサイズの範囲全体にわたって、トライグラムのみのモードのための言語識別結果と、トライグラム及びショートワードの組合せモードのための言語識別結果とを比較するグラフである。
【符号の説明】
10 テキストデータ
12 確率データ
14 確率データを有する自然言語の集合
16 N−グラム確率を有する言語の部分集合
18 単語確率を有する言語の部分集合
20 サンプル確率データ
26 言語識別データ

Claims (2)

  1. メモリと、プロセッサを有するコンピュータシステムにおいて、サンプルテキストの基調言語である可能性の高い自然言語を識別する方法であって
    (A)前記プロセッサが、データ入力回路からサンプルテキストを定義するテキストデータを入力し、前記メモリに記憶された複数の自然言語から成る集合の各言語についての確率データを用いて、前記サンプルテキストが前記各言語で発生する確率を示すサンプル確率データを取得するステップと、
    (B)前記プロセッサが、前記サンプル確率データを使用して、前記サンプル確率データが最も高い確率を示す言語を識別する言語識別データを取得して、データ出力回路から出力するステップと、
    含み、
    前記集合内の言語の1つ以上を含む第1の部分集合の各言語の前記確率データはN文字列確率データを含み、前記集合内の言語の1つ以上を含む第2の部分集合の各言語の前記確率データは単語確率データを含み、前記第1の部分集合の各言語の前記N文字列確率データは、前記言語がテキストの基調言語である場合に、複数のN文字列から成る集合の各N文字列ごとに、該N文字列が前記テキスト内で発生するN文字列確率を示し、前記第2の部分集合の各言語の前記単語確率データは、前記言語がテキストの基調言語である場合に、複数の単語から成る集合の各単語ごとに、該単語が前記テキスト内で発生する単語確率を示し、
    前記ステップ(A)は、プロセッサが、
    前記サンプルテキストを正規化して1以上のトークンに分解し、
    前記1以上のトークン毎に、前記集合の各言語が、当該トークンについてN文字列確率データ及び単語確率データの少なくとも1つを有するかどうか判断し、有すると判断された場合、該N文字列確率データ及び単語確率データを取得し、
    前記取得したN文字列確率データ及び単語確率データを言語毎に加算又は一次結合することにより、前記サンプル確率データとして、言語毎の組合せ確率データを取得すること、含む
    サンプルテキスト基調言語識別方法。
  2. サンプルテキストの基調言語である可能性の高い自然言語を識別するコンピュータシステムであって
    複数の自然言語から成る集合の各言語についての確率データを記憶するメモリと、
    プロセッサと、を備え、
    前記集合内において第1の部分集合の各言語の前記確率データはN文字列確率データを含み、前記集合内の第2の部分集合の各言語の前記確率データは単語確率データを含み、
    前記第1の部分集合の各言語の前記N文字列確率データは、前記言語がテキストの基調言語である場合に、複数のN文字列から成る集合の各N文字列ごとに、該N文字列が前記テキスト内で発生するN文字列確率を示し、前記第2の部分集合の各言語の前記単語確率データは、前記言語がテキストの基調言語である場合に、複数の単語から成る集合の各単語ごとに、該単語が前記テキスト内で発生する単語確率を示し

    前記プロセッサが、データ入力回路からサンプルテキストを定義するテキストデータを入力し、
    前記プロセッサが、前記サンプルテキストを正規化して1以上のトークンに分解し、
    前記プロセッサが、前記メモリに記憶された確率データを用いて、前記1以上のトークン毎に、前記集合の各言語が、当該トークンについてN文字列確率データ及び単語確率データの少なくとも1つを有するかどうか判断し、有すると判断された場合、該N文字列確率データ及び単語確率データを取得し、
    前記プロセッサが、前記取得したN文字列確率データ及び単語確率データを言語毎に加算又は一次結合することにより、言語毎の組合せ確率データを取得し、
    前記プロセッサが、前記組合せ確率データが最も高い確率を示す言語を識別する言語識別データを取得してデータ出力回路から出力すること、
    を実行する、コンピュータシステム。
JP35091699A 1998-12-23 1999-12-10 サンプルテキスト基調言語識別方法及びコンピュータシステム Expired - Fee Related JP4413349B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/219,615 US6167369A (en) 1998-12-23 1998-12-23 Automatic language identification using both N-gram and word information
US219615 1998-12-23

Publications (2)

Publication Number Publication Date
JP2000194696A JP2000194696A (ja) 2000-07-14
JP4413349B2 true JP4413349B2 (ja) 2010-02-10

Family

ID=22820004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35091699A Expired - Fee Related JP4413349B2 (ja) 1998-12-23 1999-12-10 サンプルテキスト基調言語識別方法及びコンピュータシステム

Country Status (4)

Country Link
US (1) US6167369A (ja)
EP (1) EP1014276A3 (ja)
JP (1) JP4413349B2 (ja)
BR (1) BR9905978A (ja)

Families Citing this family (308)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US6651218B1 (en) * 1998-12-22 2003-11-18 Xerox Corporation Dynamic content database for multiple document genres
US6321372B1 (en) * 1998-12-23 2001-11-20 Xerox Corporation Executable for requesting a linguistic service
US7039637B2 (en) 1998-12-31 2006-05-02 International Business Machines Corporation System and method for evaluating characters in an inputted search string against a character table bank comprising a predetermined number of columns that correspond to a plurality of pre-determined candidate character sets in order to provide enhanced full text search
US7031002B1 (en) 1998-12-31 2006-04-18 International Business Machines Corporation System and method for using character set matching to enhance print quality
US6400809B1 (en) * 1999-01-29 2002-06-04 Ameritech Corporation Method and system for text-to-speech conversion of caller information
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US6658151B2 (en) 1999-04-08 2003-12-02 Ricoh Co., Ltd. Extracting information from symbolically compressed document images
US6609087B1 (en) * 1999-04-28 2003-08-19 Genuity Inc. Fact recognition system
CN1176432C (zh) * 1999-07-28 2004-11-17 国际商业机器公司 提供本国语言查询服务的方法和系统
US7191114B1 (en) 1999-08-27 2007-03-13 International Business Machines Corporation System and method for evaluating character sets to determine a best match encoding a message
US6772149B1 (en) * 1999-09-23 2004-08-03 Lexis-Nexis Group System and method for identifying facts and legal discussion in court case law documents
US7016977B1 (en) * 1999-11-05 2006-03-21 International Business Machines Corporation Method and system for multilingual web server
KR100530475B1 (ko) 1999-11-10 2006-01-09 론치 미디어, 인크. 인터넷 라디오와 방송 방법
US6389467B1 (en) 2000-01-24 2002-05-14 Friskit, Inc. Streaming media search and continuous playback system of media resources located by multiple network addresses
US6883135B1 (en) 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6604101B1 (en) * 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US7251665B1 (en) * 2000-05-03 2007-07-31 Yahoo! Inc. Determining a known character string equivalent to a query string
US7024485B2 (en) * 2000-05-03 2006-04-04 Yahoo! Inc. System for controlling and enforcing playback restrictions for a media file by splitting the media file into usable and unusable portions for playback
US7162482B1 (en) * 2000-05-03 2007-01-09 Musicmatch, Inc. Information retrieval engine
US8352331B2 (en) 2000-05-03 2013-01-08 Yahoo! Inc. Relationship discovery engine
GB2380581A (en) 2000-07-11 2003-04-09 Launch Media Inc Online playback system with community bias
GB2366940B (en) 2000-09-06 2004-08-11 Ericsson Telefon Ab L M Text language detection
CA2406446A1 (en) * 2000-09-18 2002-03-21 Gregory Paul Handreck Diphosphonate solutions
US8271333B1 (en) 2000-11-02 2012-09-18 Yahoo! Inc. Content-related wallpaper
US6640228B1 (en) 2000-11-10 2003-10-28 Verizon Laboratories Inc. Method for detecting incorrectly categorized data
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
US20020091509A1 (en) * 2001-01-02 2002-07-11 Yacov Zoarez Method and system for translating text
US7406529B2 (en) 2001-02-09 2008-07-29 Yahoo! Inc. System and method for detecting and verifying digitized content over a computer network
AU2002237495A1 (en) * 2001-03-13 2002-09-24 Intelligate Ltd. Dynamic natural language understanding
FI20010644A (fi) 2001-03-28 2002-09-29 Nokia Corp Merkkisekvenssin kielen määrittäminen
US7574513B2 (en) * 2001-04-30 2009-08-11 Yahoo! Inc. Controllable track-skipping
WO2002095614A1 (fr) * 2001-05-24 2002-11-28 Izumi Suzuki Procede d'identification d'un systeme de code de type langage ou par caracteres
US7191116B2 (en) * 2001-06-19 2007-03-13 Oracle International Corporation Methods and systems for determining a language of a document
US7024624B2 (en) * 2002-01-07 2006-04-04 Kenneth James Hintz Lexicon-based new idea detector
US20040205675A1 (en) * 2002-01-11 2004-10-14 Thangaraj Veerappan System and method for determining a document language and refining the character set encoding based on the document language
US20030144912A1 (en) * 2002-01-29 2003-07-31 Mcgee Todd Multilingual messaging system and method for e-commerce
US20030154071A1 (en) * 2002-02-11 2003-08-14 Shreve Gregory M. Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents
US7707221B1 (en) 2002-04-03 2010-04-27 Yahoo! Inc. Associating and linking compact disc metadata
US7305483B2 (en) 2002-04-25 2007-12-04 Yahoo! Inc. Method for the real-time distribution of streaming data on a network
US7680649B2 (en) * 2002-06-17 2010-03-16 International Business Machines Corporation System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
RU2251737C2 (ru) * 2002-10-18 2005-05-10 Аби Софтвер Лтд. Способ автоматического определения языка распознаваемого текста при многоязычном распознавании
US7542908B2 (en) * 2002-10-18 2009-06-02 Xerox Corporation System for learning a language
US20040078191A1 (en) * 2002-10-22 2004-04-22 Nokia Corporation Scalable neural network-based language identification from written text
US6944612B2 (en) 2002-11-13 2005-09-13 Xerox Corporation Structured contextual clustering method and system in a federated search engine
FR2848688A1 (fr) * 2002-12-17 2004-06-18 France Telecom Identification de langue d'un texte
US7805299B2 (en) * 2004-03-01 2010-09-28 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
US7451129B2 (en) * 2003-03-31 2008-11-11 Google Inc. System and method for providing preferred language ordering of search results
US8306972B2 (en) 2003-03-31 2012-11-06 Google Inc. Ordering of search results based on language and/or country of the search results
US7451130B2 (en) * 2003-06-16 2008-11-11 Google Inc. System and method for providing preferred country biasing of search results
US20040243531A1 (en) * 2003-04-28 2004-12-02 Dean Michael Anthony Methods and systems for representing, using and displaying time-varying information on the Semantic Web
JP3768205B2 (ja) * 2003-05-30 2006-04-19 沖電気工業株式会社 形態素解析装置、形態素解析方法及び形態素解析プログラム
GB0315154D0 (en) * 2003-06-28 2003-08-06 Ibm Improvements to hypertext integrity
US7672873B2 (en) 2003-09-10 2010-03-02 Yahoo! Inc. Music purchasing and playing system and method
US20050125218A1 (en) * 2003-12-04 2005-06-09 Nitendra Rajput Language modelling for mixed language expressions
FR2864856B1 (fr) * 2004-01-06 2006-03-03 Sylvain Durif Systeme automatique de traitement des informations portees par des textes courts
US7359851B2 (en) * 2004-01-14 2008-04-15 Clairvoyance Corporation Method of identifying the language of a textual passage using short word and/or n-gram comparisons
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US7584221B2 (en) 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
EP1612695A1 (en) * 2004-07-01 2006-01-04 Alcatel Method of language identification and language identifying module using short word lists and n-grams
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US7860314B2 (en) * 2004-07-21 2010-12-28 Microsoft Corporation Adaptation of exponential models
US20060020448A1 (en) * 2004-07-21 2006-01-26 Microsoft Corporation Method and apparatus for capitalizing text using maximum entropy
US7865355B2 (en) * 2004-07-30 2011-01-04 Sap Aktiengesellschaft Fast text character set recognition
US7606793B2 (en) 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7996208B2 (en) * 2004-09-30 2011-08-09 Google Inc. Methods and systems for selecting a language for text segmentation
US8051096B1 (en) 2004-09-30 2011-11-01 Google Inc. Methods and systems for augmenting a token lexicon
US7739277B2 (en) 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7680648B2 (en) 2004-09-30 2010-03-16 Google Inc. Methods and systems for improving text segmentation
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7827181B2 (en) 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
GB0424479D0 (en) * 2004-11-05 2004-12-08 Ibm Generating a fingerprint for a document
US7716198B2 (en) 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US8843536B1 (en) 2004-12-31 2014-09-23 Google Inc. Methods and systems for providing relevant advertisements or other content for inactive uniform resource locators using search queries
US7792833B2 (en) * 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
JP2006276903A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 文書処理装置
US8280719B2 (en) * 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction
US7599917B2 (en) 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
US8700404B1 (en) * 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US7827484B2 (en) * 2005-09-02 2010-11-02 Xerox Corporation Text correction for PDF converters
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
EP1934843A2 (en) * 2005-10-04 2008-06-25 Thomson Global Resources Systems, methods, and software for assessing ambiguity of medical terms
BRPI0706404B1 (pt) * 2006-02-17 2019-08-27 Google Inc acesso escalável, de codificação e adaptável de modelos distribuídos
US8185376B2 (en) * 2006-03-20 2012-05-22 Microsoft Corporation Identifying language origin of words
US8255376B2 (en) 2006-04-19 2012-08-28 Google Inc. Augmenting queries with synonyms from synonyms map
US8380488B1 (en) 2006-04-19 2013-02-19 Google Inc. Identifying a property of a document
US7835903B2 (en) * 2006-04-19 2010-11-16 Google Inc. Simplifying query terms with transliteration
US7475063B2 (en) * 2006-04-19 2009-01-06 Google Inc. Augmenting queries with synonyms selected using language statistics
US8442965B2 (en) 2006-04-19 2013-05-14 Google Inc. Query language identification
US8762358B2 (en) * 2006-04-19 2014-06-24 Google Inc. Query language determination using query terms and interface language
US8924194B2 (en) * 2006-06-20 2014-12-30 At&T Intellectual Property Ii, L.P. Automatic translation of advertisements
US20080077393A1 (en) * 2006-09-01 2008-03-27 Yuqing Gao Virtual keyboard adaptation for multilingual input
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7552045B2 (en) * 2006-12-18 2009-06-23 Nokia Corporation Method, apparatus and computer program product for providing flexible text based language identification
US8131536B2 (en) * 2007-01-12 2012-03-06 Raytheon Bbn Technologies Corp. Extraction-empowered machine translation
US7729899B2 (en) * 2007-02-06 2010-06-01 Basis Technology Corporation Data cleansing system and method
US8332207B2 (en) * 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8019760B2 (en) * 2007-07-09 2011-09-13 Vivisimo, Inc. Clustering system and method
US8340430B2 (en) * 2007-07-10 2012-12-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US8260619B1 (en) 2008-08-22 2012-09-04 Convergys Cmg Utah, Inc. Method and system for creating natural language understanding grammars
US8738353B2 (en) * 2007-09-05 2014-05-27 Modibo Soumare Relational database method and systems for alphabet based language representation
US8638363B2 (en) 2009-02-18 2014-01-28 Google Inc. Automatically capturing information, such as capturing information using a document-aware device
US7890539B2 (en) * 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US7840569B2 (en) 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US7925652B2 (en) * 2007-12-31 2011-04-12 Mastercard International Incorporated Methods and systems for implementing approximate string matching within a database
US8666976B2 (en) 2007-12-31 2014-03-04 Mastercard International Incorporated Methods and systems for implementing approximate string matching within a database
US8738486B2 (en) * 2007-12-31 2014-05-27 Mastercard International Incorporated Methods and apparatus for implementing an ensemble merchant prediction system
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8849665B2 (en) * 2008-01-30 2014-09-30 At&T Intellectual Property I, L.P. System and method of providing machine translation from a source language to a target language
JP5224851B2 (ja) * 2008-02-27 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索エンジン、検索システム、検索方法およびプログラム
EP2107473A1 (en) * 2008-03-31 2009-10-07 Sony Corporation System and method for determining the laguage of teletext
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8364462B2 (en) * 2008-06-25 2013-01-29 Microsoft Corporation Cross lingual location search
US8457441B2 (en) * 2008-06-25 2013-06-04 Microsoft Corporation Fast approximate spatial representations for informal retrieval
US8107671B2 (en) * 2008-06-26 2012-01-31 Microsoft Corporation Script detection service
US8073680B2 (en) * 2008-06-26 2011-12-06 Microsoft Corporation Language detection service
US8266514B2 (en) 2008-06-26 2012-09-11 Microsoft Corporation Map service
US8019596B2 (en) * 2008-06-26 2011-09-13 Microsoft Corporation Linguistic service platform
US8160365B2 (en) * 2008-06-30 2012-04-17 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010013140A1 (en) 2008-08-01 2010-02-04 Eamon Mason System and method for building multiple online legal research applications
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) * 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8224641B2 (en) * 2008-11-19 2012-07-17 Stratify, Inc. Language identification for documents containing multiple languages
US8224642B2 (en) * 2008-11-20 2012-07-17 Stratify, Inc. Automated identification of documents as not belonging to any language
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8510097B2 (en) * 2008-12-18 2013-08-13 Palo Alto Research Center Incorporated Region-matching transducers for text-characterization
US8447588B2 (en) * 2008-12-18 2013-05-21 Palo Alto Research Center Incorporated Region-matching transducers for natural language processing
US8266169B2 (en) * 2008-12-18 2012-09-11 Palo Alto Reseach Center Incorporated Complex queries for corpus indexing and search
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
WO2010105245A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Automatically providing content associated with captured information, such as information captured in real-time
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8468011B1 (en) * 2009-06-05 2013-06-18 Google Inc. Detecting writing systems and languages
US8326602B2 (en) * 2009-06-05 2012-12-04 Google Inc. Detecting writing systems and languages
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8868431B2 (en) * 2010-02-05 2014-10-21 Mitsubishi Electric Corporation Recognition dictionary creation device and voice recognition device
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110251837A1 (en) * 2010-04-07 2011-10-13 eBook Technologies, Inc. Electronic reference integration with an electronic reader
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8635061B2 (en) * 2010-10-14 2014-01-21 Microsoft Corporation Language identification in multilingual text
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9535895B2 (en) * 2011-03-17 2017-01-03 Amazon Technologies, Inc. n-Gram-based language prediction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8812302B2 (en) * 2012-01-17 2014-08-19 Google Inc. Techniques for inserting diacritical marks to text input via a user device
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US20130311362A1 (en) 2012-04-26 2013-11-21 Mastercard International Incorporated Systems and methods for verifying payee information in electronic payments
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9251180B2 (en) 2012-05-29 2016-02-02 International Business Machines Corporation Supplementing structured information about entities with information from unstructured data sources
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9336197B2 (en) * 2013-01-22 2016-05-10 Tencent Technology (Shenzhen) Company Limited Language recognition based on vocabulary lists
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US10521866B2 (en) 2013-10-15 2019-12-31 Mastercard International Incorporated Systems and methods for associating related merchants
US20150177847A1 (en) * 2013-12-23 2015-06-25 Google Inc. Techniques for resolving keyboard and input method ambiguity on computing devices
US9984127B2 (en) * 2014-01-09 2018-05-29 International Business Machines Corporation Using typestyles to prioritize and rank search results
CN103778109A (zh) * 2014-02-13 2014-05-07 北京奇艺世纪科技有限公司 一种识别用户评论的方法及装置
JP2015210683A (ja) * 2014-04-25 2015-11-24 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9372848B2 (en) * 2014-10-17 2016-06-21 Machine Zone, Inc. Systems and methods for language detection
JP6553180B2 (ja) * 2014-10-17 2019-07-31 エム・ゼット・アイ・ピィ・ホールディングス・リミテッド・ライアビリティ・カンパニーMz Ip Holdings, Llc 言語検出を行うためのシステムおよび方法
US10162811B2 (en) * 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US10331782B2 (en) 2014-11-19 2019-06-25 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for automatic identification of potential material facts in documents
US9288039B1 (en) 2014-12-01 2016-03-15 Xerox Corporation Privacy-preserving text language identification using homomorphic encryption
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
GB201421674D0 (en) 2014-12-05 2015-01-21 Business Partners Ltd Real time document indexing
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9767091B2 (en) 2015-01-23 2017-09-19 Microsoft Technology Licensing, Llc Methods for understanding incomplete natural language query
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9645995B2 (en) 2015-03-24 2017-05-09 Conduent Business Services, Llc Language identification on social media
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10089977B2 (en) * 2015-07-07 2018-10-02 International Business Machines Corporation Method for system combination in an audio analytics application
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9973521B2 (en) 2015-12-28 2018-05-15 International Business Machines Corporation System and method for field extraction of data contained within a log stream
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
CN106959943B (zh) * 2016-01-11 2020-10-30 阿里巴巴集团控股有限公司 语种识别更新方法及装置
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US11010687B2 (en) * 2016-07-29 2021-05-18 Verizon Media Inc. Detecting abusive language using character N-gram features
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10789410B1 (en) * 2017-06-26 2020-09-29 Amazon Technologies, Inc. Identification of source languages for terms
WO2019060353A1 (en) 2017-09-21 2019-03-28 Mz Ip Holdings, Llc SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES
CN110134935B (zh) * 2018-02-08 2023-08-11 株式会社理光 一种提取字形特征的方法、装置及设备
US11120224B2 (en) * 2018-09-14 2021-09-14 International Business Machines Corporation Efficient translating of social media posts
CN109657251B (zh) * 2018-12-17 2022-08-09 北京百度网讯科技有限公司 用于翻译语句的方法和装置
JP2019215876A (ja) * 2019-07-03 2019-12-19 エム・ゼット・アイ・ピィ・ホールディングス・リミテッド・ライアビリティ・カンパニーMz Ip Holdings, Llc 言語検出を行うためのシステムおよび方法
US11562593B2 (en) * 2020-05-29 2023-01-24 Microsoft Technology Licensing, Llc Constructing a computer-implemented semantic document
US20230186020A1 (en) * 2021-12-13 2023-06-15 Nbcuniversal Media, Llc Systems and methods for language identification in binary file formats

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
US4829580A (en) * 1986-03-26 1989-05-09 Telephone And Telegraph Company, At&T Bell Laboratories Text analysis system with letter sequence recognition and speech stress assignment arrangement
US4773009A (en) * 1986-06-06 1988-09-20 Houghton Mifflin Company Method and apparatus for text analysis
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
US5062143A (en) * 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification
US5182708A (en) * 1990-12-11 1993-01-26 Ricoh Corporation Method and apparatus for classifying text
US5251131A (en) * 1991-07-31 1993-10-05 Thinking Machines Corporation Classification of data records by comparison of records to a training database using probability weights
US5392419A (en) * 1992-01-24 1995-02-21 Hewlett-Packard Company Language identification system and method for a peripheral unit
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
US5377280A (en) * 1993-04-19 1994-12-27 Xerox Corporation Method and apparatus for automatic language determination of European script documents
US5548507A (en) * 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words
US5913185A (en) * 1996-08-19 1999-06-15 International Business Machines Corporation Determining a natural language shift in a computer document

Also Published As

Publication number Publication date
US6167369A (en) 2000-12-26
BR9905978A (pt) 2000-09-05
EP1014276A3 (en) 2006-08-16
JP2000194696A (ja) 2000-07-14
EP1014276A2 (en) 2000-06-28

Similar Documents

Publication Publication Date Title
JP4413349B2 (ja) サンプルテキスト基調言語識別方法及びコンピュータシステム
US6415250B1 (en) System and method for identifying language using morphologically-based techniques
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
US6654717B2 (en) Multi-language document search and retrieval system
US7092871B2 (en) Tokenizer for a natural language processing system
Goldsmith An algorithm for the unsupervised learning of morphology
US8027832B2 (en) Efficient language identification
US6704698B1 (en) Word counting natural language determination
Peng et al. Self-supervised Chinese word segmentation
US20050209844A1 (en) Systems and methods for translating chinese pinyin to chinese characters
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
JPH05242138A (ja) 単語ディスアンビギュエーション装置及び方法
WO1999062001A1 (en) Word segmentation in chinese text
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
Jin et al. A chinese dictionary construction algorithm for information retrieval
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
JP5107556B2 (ja) 改善された中国語−英語翻訳ツール
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
CN115983233A (zh) 一种基于数据流匹配的电子病历查重率估计方法
WO1999041680A2 (en) Segmentation of chinese text into words
JP3369127B2 (ja) 形態素解析装置
WO2003003241A1 (en) Predictive cascading algorithm for multi-parser architecture
JP2005326952A (ja) 概念辞書への単語登録方法、装置、およびプログラム
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
KR100283100B1 (ko) 대용량 말뭉치를 위한 통계학적 용례 추출 수단 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070326

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070410

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070806

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070828

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070914

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090916

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091118

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121127

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4413349

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121127

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131127

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees