JP2000194696A

JP2000194696A - サンプルテキスト基調言語自動識別方法

Info

Publication number: JP2000194696A
Application number: JP11350916A
Authority: JP
Inventors: Bruno M Schulze; エム．シュルツェブルーノ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1998-12-23
Filing date: 1999-12-10
Publication date: 2000-07-14
Anticipated expiration: 2019-12-10
Also published as: EP1014276A3; EP1014276A2; BR9905978A; US6167369A; JP4413349B2

Abstract

(57)【要約】【課題】ショートワード及びＮ−グラム技法を用いる
新たな自動言語識別方法を提供する。【解決手段】テキストデータ１０は基調言語を有する
サンプルテキストを定義する。集合１４は確率データ１
２により確率を示される自然言語の全体集合を表し、デ
ータ１２がＮ−グラム確率データを含む言語の第１部分
集合と、単語確率データを含む言語の第２部分集合を含
む。各言語のＮ−グラム確率データは、該言語が基調言
語である場合にテキストでのＮ−グラムの発生率を示
し、単語確率データは同様に単語の発生率を示す。デー
タ１０及び１２は、第１と第２の部分集合の重複部分で
ある第３部分集合の言語のサンプル確率を示すサンプル
確率データ２０の自動取得に使用される。データ２０は
言語識別データ２６の自動取得に使用され、データ２６
はデータ２０が最高確率を示す第３部分集合内の言語を
識別する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキストの言語の
自動識別に関する。

【０００２】

【従来の技術】テキストの言語を自動的に識別するため
に、多数の技法が提案されている。グレフェンステッテ
（Grefenstette, G.）による「２つの言語識別方式の比
較（Comparing Two Language Identification Scheme
s）」（ＪＡＤＴ１９９５年、『第３回文字データの
統計分析に関する国際会議（3rd International Confer
ence on Statistical Analysis of Textual Data)』
（ローマ、１９９５年１２月１１から１３日）２６３〜
２６８頁）は、文字トライグラム（３文字列）を使用す
る技法と、一般的なショートワード（短い単語）に基づ
く技法の２つを比較している。

【０００３】グレフェンステッテにより説明されている
トライグラム技法は、多数の異なる言語のそれぞれから
の大きいテキストサンプルを、唯一のセパレータとして
間隔文字（スペース）を使用し、語頭及び末尾のバイグ
ラム（２文字列）に印をつけるように各トークンの前後
に下線を加えることによりトークン化する。その後、各
言語の３文字のシーケンスの発生回数が数えられる。最
小回数を超えるトライグラムは保存され、保存されたト
ライグラムの確率は、その言語のために保存された全て
のトライグラムの発生回数を加算し、発生回数の和でそ
のトライグラムの発生回数を割ることにより概算され
る。その後、文をトライグラムに分割し、各言語ごとに
トライグラムのシーケンスの確率を計算し、確率が割り
当てられていないトライグラムに最小の確率を割り当て
ることによってその文の言語を推測するために、この確
率が用いられる。

【０００４】グレフェンステッテにより説明されている
ショートワード技法は、多数の異なる言語のそれぞれか
らの大きいテキストサンプルを同様にトークン化し、一
般に５文字以下の単語であるトークン全ての発生回数を
計算する。最小回数を超えるトークンは保存され、保存
されたトークンの確率がトライグラム技法と同様に概算
される。その後、文をトークン化し、各言語ごとにトー
クンのシーケンスの確率を計算し、確率が割り当てられ
ていないトークンに最小の確率を割り当てることによっ
てその文の言語を推測するために、この確率が用いられ
る。文が所定の言語に属する確率は、これらのトークン
の確率の積として取得される。

【０００５】グレフェンステッテは、２つの言語推測を
得るために各技法に各文を送り込むことにより、これら
の技法を比較した。いずれの技法も、長い文では上手く
機能するが、より短い文ではトライグラムの方が強力で
ある。所定の文中にはトライグラムよりも少量の単語が
存在し、各単語又はトライグラムは掛け算を確率計算に
寄与させるので、ショートワードの使用は実行の際に僅
かに高速である。

【０００６】

【発明が解決しようとする課題】本発明は、ショートワ
ード又は常用語技法、及びＮ−グラム（Ｎ文字列）技法
を使用する自動言語識別において発生する基本的な問題
を扱う。１つの問題はサンプルサイズに関し、別の問題
は各技法がよりよく機能する異なる文脈に関する。

【０００７】グレフェンステッテにより示されたよう
に、ショートワード技法及びＮ−グラム技法はいずれも
長い文等の大きいサンプルで上手く機能する一方で、Ｎ
−グラム技法は短い文等のより小さいサンプルではより
頑強（ロバスト）である。しかしながら、Ｎ−グラム技
法でさえ、サンプルのサイズが小さくなるにつれて、大
きいサンプルほどには上手く機能しなくなる。その結
果、Ｎ−グラム技法でさえも、インターネットサーチエ
ンジンへのユーザ入力照会等のある種のアプリケーショ
ンで一般的に生じる非常に小さいサンプルに対しては不
十分となる。

【０００８】常用語技法は、単語へのトークン化が難し
い言語（中国語等）又は常用語のセットを定義すること
が難しい言語に適用することが困難であるか、又は不可
能である。トライグラム、Ｎ−グラム、及びコンピュー
タ化されたテキストにおける他の人工的な分割は、信頼
性が高いとみなされておらず、正確な言語の識別という
点で限られた効果を有することが議論されている。この
問題のより一般的な言明は、ある文脈においてはＮ−グ
ラム技法が単語技法よりも優れた結果をもたらし、他の
文脈においては単語技法がより優れた結果をもたらすと
いうものである。

【０００９】

【課題を解決するための手段】本発明は、これらの問題
を緩和する自動言語識別のための新技法の発見に基づ
く。新技法は、サンプルテキストの基調言語である可能
性の高い自然言語を自動的に識別する。そのために、新
技法は、サンプルテキストを定義しているテキストデー
タと、複数言語から成る集合（セット）の各言語のため
の確率データとを、この集合の各言語ごとに、サンプル
テキストがその言語で発生する確率を示しているサンプ
ル確率データを自動的に取得するために使用する。新技
法は次に、言語識別データを自動的に取得するためにサ
ンプル確率データを使用する。言語識別データは、その
サンプル確率データが最も高い確率を示す集合内の言語
を識別する。

【００１０】新技法において、少なくとも１つの言語の
ための確率データはＮ−グラム確率データを含み、少な
くとも１つの言語のための確率データは単語確率データ
を含む。１言語のためのＮ−グラム確率データは、複数
のＮ−グラムから成る集合の各Ｎ−グラムごとに、その
言語がテキストの基調言語である場合に、そのＮ−グラ
ムがそのテキストで発生する確率を示す。１言語のため
の単語確率データは、複数の単語から成る集合の各単語
ごとに、その言語がテキストの基調言語である場合に、
その単語がそのテキストで発生する確率を示す。

【００１１】新技法は、Ｎ−グラム確率データを有する
少なくとも１つの言語及び単語確率データを有する少な
くとも１つの言語を含む複数の言語から成る部分集合
（サブセット）の各言語ごとのサンプル確率データを自
動的に取得する。Ｎ−グラム確率データを有する言語の
サンプル確率データは、その言語のＮ−グラム確率デー
タからの情報を含み、単語確率データを有する言語のサ
ンプル確率データは、その言語の単語確率データからの
情報を含む。

【００１２】新技法は、トライグラムのための確率デー
タ、及び５文字以下の単語のための確率データと共に実
施されることが可能である。サンプル確率データは、Ｎ
−グラム又は単語確率データを有する全ての言語で取得
されることが可能である。少なくとも１つの言語は、Ｎ
−グラム及び単語確率データの両方を有することがで
き、このような各言語のためのサンプル確率データはＮ
−グラム確率データ及びその単語確率データの両方から
の情報を含むことができる。少なくとも１つの言語は、
Ｎ−グラム確率データのみを有することができる。

【００１３】言語がＮ−グラム及び単語確率データの両
方を有する場合には、Ｎ−グラム確率データ及び単語確
率データは、各Ｎ−グラム又は単語のための確率値を含
むことができ、この確率値はその言語のサンプル確率デ
ータを取得するために使用されることが可能である。テ
キストサンプルで発生する各Ｎ−グラムのための確率値
が、Ｎ−グラムの総確率値を取得するために加算され、
テキストサンプルで発生する各単語のための確率値が、
単語の総確率値を取得するために加算されることが可能
なように、確率値は対数であり得る。確率値が含まれな
い各Ｎ−グラム又は単語のために、低い確率を示す定数
である確率値を使用することができる。総確率値はその
後、その言語のためのサンプル確率値を取得するため
に、例えば加算して２で割ることにより組み合わせられ
る。

【００１４】新技法は更に、サンプルテキストを定義し
ているテキストデータと、上述された確率データと、上
述のようにサンプル確率データを自動的に取得するため
にテキストデータ及び確率データを使用するプロセッサ
と、を含むシステムで実施されることができる。このプ
ロセッサはその後、サンプル確率データを使用し、サン
プル確率データが最も高い確率を示す言語を識別する言
語識別データを自動的に取得する。

【００１５】また、新技法は、サンプルテキストを定義
しているテキストデータと、記憶媒体アクセス装置とを
含むシステムで用いられる１つの製品で実施されること
ができる。この製品は、記憶媒体と、この記憶媒体によ
り記憶された確率データ及び命令データとを含むことが
できる。システムのプロセッサは、命令データにより示
される命令を実行する際に、上述のようにサンプル確率
データを自動的に取得するためにテキストデータ及び確
率データを使用する。プロセッサは次に、サンプル確率
データを使用し、言語識別データを自動的に取得する。

【００１６】また、新技法は、第１のマシンを動作させ
てネットワークを介して第２のマシンにデータを転送す
る方法でも実施されることができ、この転送されたデー
タは、上述のような確率データ及び命令データを含む。

【００１７】Ｎ−グラムのみ又は単語のみを使用して言
語を自動的に識別するための従来の技法と比較して、新
技法は大きいサンプルに対してそれぞれの手法により個
々に得られる正確さを犠牲にすることなく、全体的な認
識の正確さを向上させる方法で両手法を組み合わせるの
で、この新技法は有利である。特に新技法は、小さいサ
ンプルに対して著しく向上した正確さを有し、インター
ネットサーチエンジンへのユーザ入力照会等の非常に小
さいサンプルで上手く使用されることが可能である。ま
た、新技法は、各言語のより小さい（短い）テキストが
Ｎ−グラム及び単語確率を取得するために使用される場
合でさえ、向上された正確さを達成する。

【００１８】また、新技法は、識別されている複数言語
から成る集合が、トライグラムの大部分を共有するが異
なる機能語を有する、スペイン語及びポルトガル語等の
一対の密接に関連した言語を含む場合に有利である。こ
のコンテキストにおいて、新技法は、Ｎ−グラム技法の
利点を備えるうえ更に、密接に関連した言語を単語確率
情報に基づいて識別することが可能である。

【００１９】また、新技法は、追加言語に容易に拡張さ
れることが可能であるので有利である。特に、トライグ
ラム又は他のＮ−グラムのみを使用する従来の言語識別
技法と比較すると、新技法は従来の技法が作り出すよう
な、大きな混乱をもたらすマトリックスを作り出さない
ので、この新技法はより容易に追加言語に拡張されるこ
とが可能である。

【００２０】新技法は、３０言語を超える言語から成る
集合で適切に機能することが証明されており、この集合
に更に言語を加えることは、既にこの集合に存在する言
語のための認識の正確さを低下させない。この結果、新
技法は、ワールドワイドウェブから検索された英語以外
のテキスト等の新たに利用可能な言語データに、容易に
適用されることが可能である。また、新技法は、中国語
及び韓国語等の区別可能な単語境界のない、又はマルチ
バイトの文字集合を有する言語を含む集合にも上手く適
用されている。

【００２１】本発明により提供されるサンプルテキスト
の基調言語である可能性の高い自然言語を自動的に識別
する方法は、（Ａ）サンプルテキストを定義しているテ
キストデータと、複数の自然言語から成る集合の各言語
のための確率データとを、その集合の少なくとも２つの
言語の各言語ごとに、そのサンプルテキストがその言語
で発生する確率を示しているサンプル確率データを自動
的に取得するために使用するステップと、（Ｂ）言語に
属するサンプル確率データが最も高い確率を示す言語を
識別する言語識別データを自動的に取得するためにサン
プル確率データを使用するステップとを含む。上記言語
の１つ又は複数を含む第１の部分集合の各言語の確率デ
ータはＮ−グラム確率データを含み、上記言語の１つ又
は複数を含む第２の部分集合の各言語の確率データは単
語確率データを含み、この第１の部分集合の各言語のた
めのＮ−グラム確率データは、その言語がテキストの基
調言語である場合に、複数のＮ−グラムから成る集合の
各Ｎ−グラムごとに、このＮ−グラムがそのテキスト内
で発生する確率を示し、第２の部分集合の各言語のため
の単語確率データは、その言語がテキストの基調言語で
ある場合に、複数の単語から成る集合の各単語ごとに、
この単語がそのテキスト内で発生する確率を示す。
（Ａ）は、言語の第３の部分集合の各言語のためのサン
プル確率データを自動的に取得するステップを含み、こ
の第３の部分集合及び第１の部分集合に属する少なくと
も１つの言語のために、サンプル確率データはその言語
のＮ−グラム確率データからの情報を含み、第３の部分
集合及び第２の部分集合に属する少なくとも１つの言語
のために、サンプル確率データはその言語の単語確率デ
ータからの情報を含むことを特徴とする。

【００２２】

【発明の実施の形態】「自然言語」は、国、地方、又は
地域、或いは民族又は職業上のグループ等のコミュニテ
ィ内で人間的な表現及びコミュニケーション（情報交換
／会話）のために、ある一定期間使用される複数の記号
から成る識別されたシステム（系統）である。ある自然
言語は、正しいと考えられる標準システムを有するが、
本明細書で使用される用語「自然言語」は、発音、文
法、又は語彙等の相違点のために異なると識別される場
合、方言、地方語、ジャーゴン（特殊用語）、通り言葉
（cant）、俗語（argot）又は国なまり（patois）にも
用いることができる。自然言語は、ラテン語、古代ギリ
シア語、古代ヘブライ語等々の古代言語を含み、更にエ
スペラント語及び統一自然言語（ＵＮＬ）等の合成言語
を含む。

【００２３】「文字」は、自然言語の書かれたか、プリ
ントされたか、又は音声学的に表記された（音標表記さ
れた）形式に現れる離散的要素を意味する。従って、今
日の英語における文字は、アルファベット及び数の要素
のみでなく、句読点、分音符号、数学及び論理記号、並
びに書かれたか、プリントされたか、又は音声学的に表
記された英語で用いられる他の要素をも含むことができ
る。より一般に、文字は英数字要素に加えて、音標要
素、表意要素、又は絵文字要素を含むことができる。

【００２４】通常「Ｎ−グラム」は、一連のＮ個の文字
を意味するが、文字が未知の長さの文字コードにより示
される場合、Ｎ−グラムは一連の文字コードからの一連
のＮバイトを意味することもできる。「トライグラム」
は、Ｎ＝３であるＮ−グラムである。

【００２５】テキストの文字により形成される単語が、
１つの言語が優位性の基準を満たすように複数言語から
成る集合で発生する場合、このテキストは「基調言語／
主言語」を有する。例えば、基準は、単語の過半数が基
調言語で発生し、単語の半分未満が他の言語のそれぞれ
で発生するというものであり得る。或いは、基準は単
に、他のあらゆる言語においてよりも多くの単語が基調
言語で発生するというものであってもよい。或いは、基
準は、各言語の特徴である特殊文字の密度を比較する特
殊文字手法に基づいていてもよく、この手法では基調言
語がその特殊文字の最高の密度を有する。或いは、基準
はより主観的に、そのテキストの単語が発生する言語に
精通している人間の読者により到達されるであろう結論
に基づくものであってもよい。

【００２６】図１から３は、本発明の一般的な特徴を示
す。図１は、サンプルテキストの基調言語である可能性
の高い自然言語を識別する方法を概略的に示すフローチ
ャートである。

【００２７】テキストデータ１０は、基調言語を有する
サンプルテキストを定義する。確率データ１２は、複数
の自然言語から成る集合の各自然言語ごとの確率を示
す。例示的に破線によって確率データ１２に接続される
集合図１４は、幾つかの言語のための確率データの性質
を示す。集合図１４の外側の円は、確率データ１２が確
率を示す自然言語の全体集合を表す。この外側の円の中
には、言語の第１及び第２の部分集合をそれぞれ表す内
側の円１６及び１８が存在する。

【００２８】第１の部分集合は、確率データ１２がその
ためのＮ−グラム確率データを含む複数の言語を含む。
第１の部分集合内の各言語のためのＮ−グラム確率デー
タは、Ｎ−グラムから成る集合の各Ｎ−グラムごとに、
その言語がテキストの基調言語である場合にＮ−グラム
がそのテキストで発生する確率を示す。第１の部分集合
は、Ｐと示され内側の円１６内の小さい円で示される言
語を例示的に含む。

【００２９】第２の部分集合は、確率データ１２がその
ための単語確率を示す複数の言語を含む。第２の部分集
合内の各言語のための単語確率データは、単語から成る
集合の各単語ごとに、その言語がテキストの基調言語で
ある場合に単語がそのテキストで発生する確率を示す。
第２の部分集合は、Ｑと示され内側の円１８内の小さい
円で示される言語を例示的に含む。

【００３０】集合図１４で示唆されるように、第１及び
第２の部分集合は、Ｎ−グラム確率及び単語確率の両方
を有する幾つかの言語が存在することから重なり得、ま
た第１及び第２の部分集合のどちらにも属さないが、別
のタイプの確率データを有する幾つかの言語も存在し得
る。

【００３１】テキストデータ１０及び確率データ１２
は、言語の第３の部分集合の各言語ごとのサンプル確率
を示すサンプル確率データ２０を自動的に取得するため
に使用される。第３の部分集合は、例示的に言語Ｐ及び
Ｑで示される第１及び第２の部分集合のそれぞれからの
少なくとも１つの言語を含む。言語Ｐのサンプル確率デ
ータ２２は、言語ＰのためのＮ−グラム確率データから
の情報を含む。言語Ｑのサンプル確率データ２４は、言
語Ｑのための単語確率データからの情報を含む。

【００３２】図１はまた、サンプル確率データ２０が自
動的に言語識別データ２６を取得するために使用される
ことを示す。言語識別データ２６は、そのサンプル確率
データが最も高い確率を示す第３の部分集合内の言語を
識別する。

【００３３】図２の処理ボックス４０において、技法
は、複数の自然言語から成る集合の各自然言語ごとにサ
ンプルテキストを定義しているテキストデータと確率デ
ータとを使用し、その集合内の少なくとも２つの言語の
各言語ごとに、サンプルテキストがその言語で発生する
確率を示すサンプル確率データを自動的に取得する。複
数の言語から成る第１の部分集合の各言語ごとの確率デ
ータは、その言語がテキストの基調言語である場合に、
複数のＮ−グラムから成る集合の各Ｎ−グラムごとに、
そのＮ−グラムがそのテキストで発生する確率を示すＮ
−グラム確率データを含む。第２の部分集合の各言語ご
との確率データは、その言語がテキストの基調言語であ
る場合に、複数の単語から成る集合の各単語ごとに、そ
の単語がそのテキストで発生する確率を示す単語確率デ
ータを含む。この技法は、複数の言語から成る第３の部
分集合の各言語ごとのサンプル確率データを自動的に取
得する。第３の部分集合の少なくとも１つの言語は、第
１の部分集合にも属し、それのサンプル確率データはこ
の言語のＮ−グラム確率データからの情報を含む。第３
の部分集合の少なくとも１つの言語は、第２の部分集合
にも属し、それのサンプル確率データはこの言語の単語
確率データからの情報を含む。

【００３４】処理ボックス４２において、この技法は、
サンプル確率データを使用し、サンプル確率データが最
も高い確率を示す言語を識別しているデータを自動的に
取得する。

【００３５】図３のマシン６０は、サンプルテキストを
定義しているテキストデータ６４を取得するため、及び
メモリ６６内のデータにアクセスするために接続された
プロセッサ６２を含む。また、プロセッサ６２は、デー
タ入力回路６８を介してデータを受信するためにも接続
され、このデータ入力回路６８は例示的に、メモリ７
０、記憶媒体アクセス装置７２、又はネットワーク７４
との接続から受信されたデータを提供することができ
る。また、プロセッサ６２は、データ出力回路７６を介
してデータを提供するためにも接続され、このデータ出
力回路７６は、データ入力回路６８がそこからデータを
受信することが可能な構成要素と同様の構成要素への接
続を介してデータを提供することが可能である。従っ
て、プロセッサ６２は、パーソナルコンピュータ、ワー
クステーション又はサーバの中央処理装置（ＣＰＵ）、
或いは以下で説明されるように動作することが可能な他
の任意の処理装置であってよい。

【００３６】テキストデータ６４は、ユーザ入力回路
（図示せず）、メモリ６６、又はデータ入力回路６８を
含む任意の適切なソースから取得され得る。例えばプロ
セッサ６２がサーバである場合、テキストデータ６４は
ネットワーク７４及びデータ入力回路６８を介してクラ
イアントマシンから受信され得、この結果は同様に、デ
ータ出力回路７６及びネットワーク７４を介してクライ
アントマシンに提供され得る。

【００３７】データ入力回路６８によって例示的に提供
されたデータの本体８０は、確率データ８２及び命令デ
ータ８４を含む。確率データ８２は、複数の自然言語か
ら成る集合のための確率を示す。複数の言語から成る第
１の部分集合の各言語ごとの確率データ８２は、その言
語がテキストの基調言語である場合に、複数のＮ−グラ
ムから成る集合の各Ｎ−グラムごとに、そのＮ−グラム
がそのテキストで発生する確率を示すＮ−グラム確率デ
ータを含む。複数の言語から成る第２の部分集合の各言
語ごとの確率データ８２はまた、その言語がテキストの
基調言語である場合に、複数の単語から成る集合の各単
語ごとに、その単語がそのテキストで発生する確率を示
す単語確率データを含む。

【００３８】おそらく確率データ８２をメモリ６６にロ
ードした後に、命令データ８４によって示された命令を
実行する際に、プロセッサ６２はサンプル確率データ９
０及び言語識別データ９２を自動的に取得する。より明
確には、プロセッサ６２はテキストデータ６４及び確率
データ８２を使用し、サンプル確率データ９０を自動的
に取得することができる。サンプル確率データ９０は、
複数の言語から成る第３の部分集合の各言語のために、
サンプルテキストがその言語で発生する確率を示すこと
ができる。第１の部分集合にも属する、第３の部分集合
内の少なくとも１つの言語のために、サンプル確率デー
タ９０は、その言語のＮ−グラム確率データからの情報
を含む。第２の部分集合にも属する、第３の部分集合内
の少なくとも１つの言語のために、サンプル確率データ
は、その言語の単語確率データからの情報を含む。次に
プロセッサ６２はサンプル確率データ９０を使用し、自
動的に言語識別データ９２を取得する。この言語識別デ
ータ９２は、それのサンプル確率データが最も高い確率
を示す言語を識別する。

【００３９】上述のように図３は、メモリ７０、記憶媒
体アクセス装置７２、及びネットワーク７４の３つの可
能なソースを示し、データ入力回路６８はこれらのソー
スからプロセッサ６２へデータを供給することが可能で
ある。

【００４０】メモリ７０は、ランダムアクセスメモリ
（ＲＡＭ）又は読出し専用メモリ（ＲＯＭ）を含むマシ
ン６０内の任意の従来メモリか、又は任意の種類の周辺
又はリモートメモリ装置であってよい。

【００４１】記憶媒体アクセス装置７２は、記憶媒体９
４にアクセスするためのドライブ又は他の適切な装置又
は回路であり得、例えば、１つ又は複数のテープ、ディ
スケット又はフロッピーディスクのセット等の磁気媒
体、１つ又は複数のＣＤ−ＲＯＭのセット等の光学媒
体、或いはデータを記憶するための他の任意の適切な媒
体であってよい。記憶媒体９４は、マシン６０の一部、
サーバ又は他の周辺又はリモートメモリ装置の一部、或
いはソフトウェア製品であってよい。これらの例のそれ
ぞれにおいて、記憶媒体９４は、マシンで使用されるこ
とが可能な１つの製品である。

【００４２】ネットワーク７４は、マシン１００からデ
ータの本体を提供することができる。マシン１００内の
プロセッサ１０２は、ネットワーク接続回路１０４及び
データ入力回路６８を介してネットワーク７４上でプロ
セッサ６２との接続を確立することができる。いずれの
プロセッサも接続を開始することができ、この接続は任
意の適切なプロトコルによって確立されてよい。次にプ
ロセッサ１０２は、メモリ１０６に記憶されたデータの
本体にアクセスすることができ、このデータの本体をネ
ットワーク７４を介してプロセッサ６２に転送すること
ができる。プロセッサ６２は、データの本体をメモリ６
６又は他の場所に記憶することができ、その後自動言語
識別を実行するための命令を実行することができる。

【００４３】また図３は、プロセッサ６２がデータ出力
回路７６を介する出力として、言語識別データ９２をユ
ーザ等へ提供できることを示す。

【００４４】以下で説明される実施の形態は、Solaris
2.4.xをＯＳとして使用し、ＡＮＳＩＣのソースコー
ドからコンパイルされたコードを実行するＳｕｎ（サン
・マイクロシステムズ）のワークステーションであるSP
ARCstation Ultra2上で実施されている。

【００４５】図４において、システム１２０はＳｕｎの
SPARCstation Ultra2ワークステーションの中央処理装
置（ＣＰＵ）１２２を含み、これは、画像を表示するた
めのディスプレイ１２４と、ユーザからの信号を供給す
るためのキーボード１２６及びマウス１２８とに接続さ
れる。また、ＣＰＵ１２２は、例示的にプログラムメモ
リ１３２及びデータメモリ１３４を含むことが可能なメ
モリ１３０にアクセスできるように、メモリ１３０に接
続される。

【００４６】プログラムメモリ１３２に記憶されるルー
チンは、確率取得ルーチン１４０、言語識別ルーチン１
４２、及び言語特有ルーチン１４４等の幾つかの機能に
グループ化されることが可能であり、言語識別子と共に
呼出されるか又は他の方法で言語に特有な任意のルーチ
ンであり得る。図４はまた、データメモリ１３４に記憶
され、且つプログラムメモリ１３２内のルーチンを実行
中にＣＰＵ１２２によりアクセスされるデータの幾つか
の項目を示す。これらには、言語コーパス１５０、言語
確率データ１５２、入力テキスト１５４、トライグラム
及びショートワードの組合せ確率データ１５６、言語識
別子（ＩＤ）１５８、及び雑データ項目１６０が含ま
れ、その幾つかは後述される。

【００４７】確率取得ルーチン１４０を実行する際に、
プロセッサ１２２は言語コーパス１５０を使用して言語
確率データ１５２を取得することができ、言語コーパス
１５０は複数の自然言語から成る集合の各言語ごとの確
率データを含む。言語確率データ１５２は、幾つかの言
語のためのトライグラム確率データと、幾つかの言語の
ためのショートワード確率データと、幾つかの言語のた
めの両タイプの確率データとを含むことができる。従っ
て、言語確率データ１５２は、図３の確率データ８２の
具体化である。ショートワード確率データは、例えば５
文字以下の単語に関するものであり得る。また、言語確
率データ１５２は、それらに関しては確率が他の方法で
示されないトライグラム及びショートワードのために使
用される最小の確率定数を含むことができる。或いは、
最小の確率定数は、言語識別ルーチン１４２内のパラメ
ータとして提供されてもよい。

【００４８】言語識別ルーチン１４２を実行する際に、
プロセッサ１２２は入力テキスト１５４及び言語確率デ
ータ１５２を使用し、トライグラム及びショートワード
の組合せ確率データ１５６を自動的に取得することがで
きる。組合せ確率データ１５６は、各言語ごとに、トラ
イグラム及び単語の確率に関する情報を組み合わせて、
入力テキスト１５４がその言語で発生する確率を示すこ
とができる。従って、組合せ確率データ１５６は、図３
のサンプル確率データ９０の具体化である。

【００４９】更に、言語識別ルーチン１４２を実行する
際に、プロセッサ１２２は組合せ確率データ１５６を使
用して、言語ＩＤ１５８を自動的に取得することができ
る。言語ＩＤ１５８は、組合せ確率データ１５６が最も
高い確率を示す言語を示すことができる。従って、言語
ＩＤ１５８は、図３の言語識別データ９２の具体化であ
る。

【００５０】言語特有ルーチン１４４を実行する際に、
プロセッサ１２２は、呼出しの一部として言語ＩＤ１５
８をルーチンに供給できるか、又は言語ＩＤ１５８によ
って識別された言語に適したルーチンを呼出すことが可
能である。

【００５１】確率取得ルーチン１４０及び言語識別ルー
チン１４２は、以下で説明されるように実施されること
が可能である。言語特有ルーチン１４４は、特定の言語
に対して最も優れて実行される多種多様なルーチンを含
むことができる。幾つかの例は、本発明のアプリケーシ
ョン（適用）に関連して以下で説明される。

【００５２】図５は、図４の実施における確率取得ルー
チン１４０を実行する際にプロセッサ１２２によって実
行される一般的な処理を示す。

【００５３】図５の処理は、１つの自然言語に関する確
率データを取得する。図５の処理ボックス１８０の処理
は、その言語のためのテキストの代表的なコーパスを取
得することから始まる。ある実施の形態においては、約
１メガバイト（ＭＢ）のコーパスが、各言語ごとに取得
された。処理ボックス１８０の処理は、様々なソースか
ら代表的なテキストを取得することができる。そのよう
なテキストの幾つかは汚染される。つまりこれは、主と
して１つの言語に属するあるテキストが、他の言語から
の部分も含むことを意味する。従って、処理ボックス１
８０の処理はまた、見直し及び他の言語からの部分を手
作業で削除することを含むことが可能である。

【００５４】処理ボックス１８２の処理は、処理ボック
ス１８０で取得したコーパスを正規化する。このコンテ
キストにおいて、正規化することは、他のタイプの汚染
又はノイズを除去することと、コーパスがより少ない異
なるトライグラム及びショートワードを含むように、そ
のコーパス内の要素を変更することとを意味する。例え
ば、処理ボックス１８２での正規化には、コードのスト
リームを単一単語のトークンに変換するための単純なト
ークン化と、ＨＴＭＬタグ等のテキストマークアップ
（マーク付け）コードの削除と、アポストロフィ及びハ
イフン等の言語の特徴を表す文字のみ残し、特殊文字及
び数字等の非英字のためのコードを削除することと、全
ての文字をＩＳＯ８８５９−１等のデフォルトの文字
集合内の小文字にマッピングすることとが含まれ得る。
また、正規化は、ウェブページ上の著作権表示等のメタ
言語（超言語）の削除を含むことができる。正規化の
後、この正規化されたコーパスは、一連のトークン、即
ち１つの間隔文字によって区切られた複数の単語を含む
はずである。

【００５５】全ての文字を小文字にマッピングすること
は、各言語におけるトライグラム及びショートワードの
数を減少させ、ウェブページ及びUsenetのニュース等の
幾つかのテキストソースはしばしば大文字で表された単
語を含むので、より強力な言語識別へと導く。言語及び
文字集合は未知であるので、上述のように、このマッピ
ングはデフォルトの文字集合に対して実行されることが
可能である。

【００５６】他の様々な演算の組合せが、処理ボックス
１８２での正規化を実施するために使用されてよい。

【００５７】一般に、言語独立の正規化は、使用主言語
のために開発されているが他の言語に適用することが可
能な従来の言語ツールを用いて、自動的に実行されるこ
とが可能である。正規化は言語識別の最中、並びに基調
言語が識別される前に自動的に実行されるであろうこと
を念頭に置くと、ある例において、中国語、韓国語、及
びヘブライ語のため等には、自動的に正規化されたテキ
ストを見直すこと及び手動で変更することが適切であり
得る。例えば、英語、フランス語、及びドイツ語の単語
は、別の言語のためのコーパスから手作業で削除される
ことが可能である。

【００５８】処理ボックス１８４の処理は、処理ボック
ス１８２で正規化されたコーパスを使用し、トライグラ
ム確率及びショートワード確率を取得する。１つの実施
の形態においては、トライグラム確率が先ず取得され、
次にショートワード確率が取得される。

【００５９】トライグラム確率は、処理ボックス１８２
で正規化されたコーパス内の各トライグラムの発生数を
数えることによって取得されることが可能である。トラ
イグラム発生を数えるために、ルーチンは、正規化され
た単語であるはずのトークンの最後に達するまで、正規
化されたコーパス全体を調べることが可能である。この
ルーチンは次に、トークンの前後に境界マーカー「＿」
を加え、そのトークンの各文字に対する１つのトライグ
ラムを含む文字列を取得することができる。ルーチンは
次に、トライグラム識別子を取得するために、各トライ
グラムを既に検出されているトライグラムと比較するこ
とができる。このトライグラムが既に検出されているト
ライグラムのいずれとも一致しない場合、このルーチン
は新たな識別子をこのトライグラムに割り当てることが
できる。このルーチンは、トライグラムカウント（合
計）のアレイ（配列）にアクセスするためにトライグラ
ムの識別子を使用することができ、またアレイ内のこの
トライグラムの識別子のためのカウントを増分すること
ができる。

【００６０】発生回数カウントが取得されている場合、
そのトライグラムを捨てるか否かを決定するために、そ
のアレイからの各トライグラムの発生回数カウントは最
小カウントと比較されることが可能であり、それにより
トライグラムの分布をしきい値処理、即ち平準化する。
発生回数カウントが最小カウントを上回る場合、０と１
との間の確率を取得するために、この発生回数カウント
は、カウントされたトライグラムの合計数により除算さ
れることが可能である。この又は他の最尤推定（ＭＬ
Ｅ）技法等が、１トライグラムのための近似確率を取得
するために使用されることが可能である。いずれの例で
も、その後、確率の対数が取得され、そのトライグラム
のための確率値として保存されることが可能である。

【００６１】ショートワード確率は、処理ボックス１８
２で正規化されたコーパス内の各ショートワードの発生
回数を数えることによって、同様に取得することができ
る。ショートワードの発生を数えるために、ルーチン
は、正規化された単語であるはずのトークンの最後に達
するまで、正規化されたコーパス全体を調べることが可
能である。ルーチンは次に、この単語がその長さに基づ
き、ショートワードであるか否かを決定することができ
る。最長が５文字であるショートワードが、上手く実施
されている。ルーチンは次に、ショートワード識別子を
取得するために、各ショートワードを既に検出されてい
るショートワードと比較することができる。このショー
トワードが既に検出されているショートワードのいずれ
とも一致しない場合、このルーチンは新たな識別子をこ
のショートワードに割り当てることができる。このルー
チンは、ショートワードカウントのアレイにアクセスす
るためにショートワードの識別子を使用することがで
き、またアレイ内のこのショートワードの識別子のため
のカウントを増分することができる。

【００６２】発生回数カウントが取得されている場合、
このアレイは、アレイ内の発生回数カウントに基づい
て、限られた個数（例えば１００）の最も頻繁に発生す
るショートワードを取得するために走査されることが可
能である。あるショートワードが最も頻繁に発生するシ
ョートワードの１つである場合、０と１との間の確率を
取得するために、そのショートワードの発生回数カウン
トは、カウントされたショートワードの合計数により除
算されることが可能である。或いは、最尤推定（ＭＬ
Ｅ）技法が、１ショートワードのための近似確率を取得
するために使用されることが可能である。いずれの例で
も、その後、確率の対数が取得され、そのショートワー
ドのための確率値として保存されることが可能である。

【００６３】確率を対数の大きさ（logarithmic magnit
udes）に変換することは、確率データを記憶するために
必要とされるメモリを大幅に削減する。更なる削減は、
対数の大きさを整数に変換することによって達成される
であろう。

【００６４】図５の技法は、言語分類のために統計モデ
ルをトレーニングしているように見られ得る。一旦統計
モデルがトレーニングされると、それは言語分類、より
明確には言語識別を実行するために使用されることが可
能である。

【００６５】図６は、言語識別ルーチン１４２を実行す
る際にプロセッサ１２２によって実行されることが可能
な処理を詳細に示す。

【００６６】処理ボックス２００の処理は、入力テキス
ト１５４を取得することから開始される。処理ボックス
２０２の処理は次に、正規化が図５の処理ボックス１８
２で自動的に実行されたのと同じ方法で、入力テキスト
を正規化する。

【００６７】次に判断ボックス２１０の処理は外側反復
ループを開始し、このループのそれぞれは、処理ボック
ス２０２で正規化された入力テキストからのトークンを
処理する。外側反復ループは先ずトライグラム確率を取
得し、次にショートワード確率を取得する。

【００６８】トライグラム確率を取得するために、処理
ボックス２１２の処理は、次のトークンの前後に文字
「＿」を加えることから開始される。判断ボックス２１
４及び２２０の処理は次に、検討されている各言語のた
めの各トライグラムを処理する第１の内側反復ループを
開始する。判断ボックス２２２の処理は、次のトライグ
ラムが次の言語でトライグラム確率を有するか否かを判
断することから第１の内側反復ループを開始する。もし
有する場合、処理ボックス２２４の処理は、その言語の
トライグラム確率にそのトライグラムの確率を加える
が、有さない場合は、処理ボックス２２６の処理がその
言語のトライグラム確率に最小の確率定数を加える。

【００６９】判断ボックス２３０の処理は、トークン
（処理ボックス２１２で加えられた「＿」文字は除く）
が５文字以下であるか否かを検査する。判断ボックス２
３２の処理は次に、検討されている各言語を処理する第
２の内側反復ループを開始する。判断ボックス２３４の
処理は、そのトークンが次の言語でショートワード確率
を有するか否かを判断することから第２の内側反復ルー
プを開始する。もし有する場合、処理ボックス２３６の
処理は、その言語のショートワード確率にそのショート
ワードの確率を加えるが、有さない場合は、処理ボック
ス２３８の処理がその言語のショートワード確率に最小
の確率定数を加える。

【００７０】処理ボックス２２６及び２３８に関する
と、確率の対数の大きさが使用されているので、わずか
にゼロより大きい確率を示すために、最小の確率定数は
比較的大きい値でなければならない。また、各トライグ
ラムの発生及び各ショートワードの発生は、それぞれ他
のトライグラム及びショートワードに関して独立した確
率イベントであると考えられ、このことが、確率を乗じ
る（確率の対数を加算することによる）ことが有効な理
由である。複数の実験は、単語を開始させる及び終了さ
せるトライグラムを他のトライグラムよりも大きい値で
重み付けすることによる改善が見られなかったことを示
している。

【００７１】外側反復ループが入力テキスト内の全ての
トークンに関して完了していると、処理ボックス２４０
の処理は、両方を有する言語のためのトライグラム及び
ショートワード確率の和又は一次結合を取得することに
より、各言語のためのトライグラム及びショートワード
の組合せ確率を取得する。言語がショートワード確率を
有さない場合、組合せ確率は単にその言語のトライグラ
ム確率であり得る。従って、処理ボックス２４０の処理
は、図４のトライグラム及びショートワードの組合せ確
率データ１５６を作り出す。処理ボックス２４０で目的
を果たすための極点に達する図６の処理はまた、図２の
処理ボックス４０の具体化を示し、図３のボックス８４
に示されるようなサンプル確率データを自動的に取得す
る命令を実行することによって実施されることが可能で
ある。

【００７２】確率値は確率の対数の大きさから導き出さ
れるので、より大きい確率値はより小さい確率を示すこ
とから、処理ボックス２４２の処理は次に、処理ボック
ス２４０から組合せ確率値が最小である言語の言語ＩＤ
を取得する。処理ボックス２４２の処理は、その言語を
検出するために最小の組合せ確率値と比較することによ
り実施されることが可能である。従って、処理ボックス
２４２の処理は、図４の言語ＩＤ１５８を作り出し、そ
して図３のボックス８４に示されるような言語識別デー
タを自動的に取得する命令を実行することによって実施
され得る図２の処理ボックス４２の処理の具体化として
示されることが可能である。

【００７３】最後に、処理ボックス２４４の処理は、処
理ボックス２４２からの言語ＩＤを戻し、これにより言
語識別を完了する。

【００７４】図６に明示的に示された機能に加えて、実
施は、言語識別をトライグラム確率のみに基づくトライ
グラムモード及びショートワード確率のみに基づくショ
ートワードモードで実行するように設定されることが可
能である。他の点に関しては、トライグラム及びショー
トワードモードは、図６に示されるトライグラム及びシ
ョートワードの組合せ技法と同様である。

【００７５】上述の実施は、言語識別のための試験台と
して先ず各言語ごとに約１ＭＢのテキストを用いたトレ
ーニングによって、次に各言語ごとに別の（ばらばら
の）１ＭＢのテキストを用いることによって検査されて
いる。それぞれの例において試験台のテキストは、図５
の処理ボックス１８０に関して上述されたように、汚染
を除去するために手作業で浄化された。

【００７６】１つの結果は、トライグラム確率情報及び
ショートワード確率情報の両方に基づく言語識別は概し
て、トライグラムのみ又はショートワードのみに基づく
言語識別よりも正確であるということ、並びにトライグ
ラムのみに基づく識別は概して、ショートワードのみに
基づく言語識別よりも正確であるということである。こ
の結果は、図６に示されるトライグラム及びショートワ
ードの組合せモードを、上述のトライグラムモード及び
ショートワードモードと比較することによって得られ
た。

【００７７】この実験において、言語識別は、オランダ
語（略語：ＤＵＴ）、英語（ＥＮＧ）、フィンランド語
（ＦＩＮ）、フランス語（ＦＲＥ）、ドイツ語（ＧＥ
Ｒ）、イタリア語（ＩＴＡ）、ポルトガル語（ＰＯ
Ｒ）、スペイン語（ＳＰＡ）、及びスウェーデン語（Ｓ
ＷＥ）の９言語のテキストごとに３つのモード全てで実
行された。各テストテキストを少なくとも５単語から成
る複数の文に分割するために単純なヒューリスティック
（発見的方法）が使用され、言語識別は各言語ごとに各
文で実行され、正確に識別された文とその言語のテスト
テキスト内の文の総数との比率が取得された。次にこれ
らの比率は、各言語識別モードごとに全ての言語の平均
をとられ、以下の平均正確度が取得された。トライグラムモード 98.8％ショートワードモード 96.4％組合せモード 99.8％

【００７８】トライグラム確率情報及びショートワード
確率情報の両方を使用することは、いずれかのタイプの
情報を単独で使用する際に起こり得るエラーを回避する
ので、組合せモードは、正確さの向上を得ると思われ
る。換言すると、トライグラム情報のみを用いた場合に
生じるかもしれない不明確さはショートワード情報によ
り解決され、逆もまた然りである。これは、トライグラ
ム確率により提供される情報とショートワード確率によ
り提供される情報との間での予期せぬ相違点、即ち向上
した正確さ及び他の利点をもたらすために、本発明によ
り開拓される相違点を示唆する。

【００７９】別のより意外な結果は、トライグラム及び
ショートワードの組合せモードが、少数の単語から成る
集合のためのトライグラムモードよりもかなり優れてい
ることである。上述の実験は、言語識別を単一の単語、
対の単語等の最大２０単語から成るシーケンスまでのラ
ンダムサンプルで実行することにより変更され、各サン
プルは１０００要素（構成単語）を含んだ。図７は、例
示的な単語シーケンスサイズごとのトライグラムモード
での結果を示す表である。図８は、トライグラム及びシ
ョートワードの組合せモードでの結果を示す表であり、
最後の行には、各単語シーケンスサイズで２つのモード
の平均結果の差をトライグラムモードの平均結果により
除算することにより算出された改善率が示される。見て
解かるように、２０単語のシーケンスに対しては測定可
能な改善はなかったが、注目すべきことに、単一の単語
に対しては、組合せモードはトライグラムモードから25
％を超える改善をもたらした。

【００８０】比較的短い単語のシーケンスのための誤り
率の改善は特に印象的である。例えば、図７及び８の５
単語のシーケンスのための列から解かるように、トライ
グラムモードが2.9％（即ち、97.1％の正確度を100％か
ら引いた値）の誤り率を有する一方で、トライグラム及
びショートワードの組合せモードは、約２／３少ない1.
0％（即ち、99.0％の正確度を100％から引いた値）とい
う非常に低い誤り率を有する。３、４、６、及び１０単
語のシーケンスのための列は誤り率に関して比較的大き
な比例減少を示す一方で、１、２、及び１５単語のシー
ケンスのための列はより小さい比例減少を示し、そして
２０単語のシーケンスのための列は例示された程度の精
度では減少を示さない。

【００８１】より緻密な結果は、比較的小さいサンプル
でトレーニングされる場合、組合せモードがトライグラ
ムモードよりも高い正確度を達成するということであ
る。この結果は、この２つのモードを、前文で使用され
たのと同じ９言語からの1,000から800,000バイトの範囲
のサンプルを用いてトレーニングすることにより取得さ
れた。図９は、平均正確度をバイトで示されるトレーニ
ングサンプルサイズの関数として示すグラフである。正
確度はサンプルサイズが増大するにつれて収束する傾向
があるものの、示されるように、組合せモードのための
平均正確度は、トライグラムモードのための平均正確度
よりも一貫して高い。

【００８２】また、組合せモードは、追加言語に拡張さ
れることが可能である。言語の数は、９から３１まで拡
張された。増加された言語数及び文字集合におけるばら
つきにもかかわらず、98.9％の全体的な正確度が得られ
た。

【００８３】また、組合せモードは、１文字当り１バイ
トを超える文字集合及び単語の境界を検出する方法がな
い文字集合を使用する中国語及び韓国語等の言語にも拡
張されることが可能である。これらの言語においては、
ショートワードを孤立させることはできないので、トラ
イグラム確率情報のみを取得することが可能であり、各
文字コードが２バイトを有する場合には、各トライグラ
ムは例えば１．５文字を含み得る。しかしながら、組合
せモードは、中国語又は韓国語のためのトライグラム確
率情報に基づく確率値をトライグラム及びショートワー
ド確率情報の両方に基づいた他の言語のための確率値と
比較することを可能にする。中国語のテキストのために
取得された言語識別正確度は99.8％であり、韓国語のテ
キストのために取得された言語識別正確度は99.1％であ
ったと同時に、他の言語の識別のための正確度は不利な
影響を及ぼされなかった。

【００８４】上述の実施の形態は特定の言語から成るグ
ループを識別するが、入手可能な証拠は、本発明が自然
言語から成る他の任意のグループの文字コードにも上手
く適用され得ることを示している。更に、本発明は、例
えば中国語等の言語のための複数バイトの文字コードを
含む任意の文字コードの集合にも適用され得る。例え
ば、２バイトの文字コードを有する言語において、各ト
ライグラムは実際には、１文字全体と次の文字の半分と
を含むか、又は反対に１文字の半分と次の文字全体とを
含み得る。

【００８５】上述の実施の形態は、トライグラム確率情
報及び５文字以下の単語のための情報を使用するが、本
発明は、他の長さから成るＮ−グラムに関して、及び他
の長さから成る単語に関して、又はテキストから容易に
抽出され、言語を識別するのに有効な単語から成る他の
集合に対しても容易に実施され得る。単語の長さは、上
述の実施の形態では、頻度の高い単語と低い単語との間
の差を概算し、また言語の特徴である機能語とより特徴
の少ない他の単語との差を概算する簡単な基準として使
用される。機能語は、文法的な意味、並びに限定詞、代
名詞、前置詞、接続詞及び小詞等の構文上及び構造上の
機能を有する単語である。従って、本発明は代わりに、
サンプルテキスト内の各単語を各言語の最も頻度の高い
ｎ個の単語から成るリストと、又は各言語の機能語から
成るリストと比較することにより実施されてもよい。更
に、追加的な確率測定がテキストサンプルの言語を識別
する際に有益であると確認された場合、トライグラム及
びショートワード確率と適切に組み合わせることによっ
て、その測定が上述の実施の形態に組み入れられてもよ
い。

【００８６】上述の実施の形態は、重複トライグラムを
使用するが、本発明は非重複トライグラムを用いて実施
されてもよい。

【００８７】更に、本発明は、サンプルテキスト内の全
てのトークン、単語、及びＮ−グラムを徹底的に検討す
るよりも寧ろ、トークン、単語、及びＮ−グラムのラン
ダムサンプリング（無作為抽出）を用いて実施されても
よい。

【００８８】上述の実施の形態は、トライグラム及びシ
ョートワード確率を特定の方法で算出し、その後組み合
わせられる合計確率を得るために各タイプの確率の対数
を加算するが、他のあらゆる適切な確率計算が使用され
てもよい。例えば、確率の対数を加算するよりも寧ろ、
確率値自体が乗じられるてもよい。但し、対数の加算の
方がかなり速く、また数値の桁あふれ及び打切り誤差を
回避するので、確率値を乗じるよりも算術的に安定して
いる。或いは、対数が整数にマッピングされてもよく、
これは更に効率的であり、より少ないメモリ空間を必要
とする。また、上述の実施の形態は、１つの最小確率定
数を使用するが、複数のこのような定数が使用されても
よく、又は例えば値がアルゴリズムにより取得されても
よい。例えば、トレーニングデータ又はテストデータ上
での演算から自動的に定数を導き出すこと等によって、
異なる定数が各言語ごとに取得されてもよい。また、確
率値を有さないトライグラム及びショートワードに対し
て、最小確率定数を加える必要なく、対数の和のそれぞ
れをその和を得るために加算された値の個数で除算する
等の方法で、確率値を組み合わせてもよい。

【００８９】上述の実施の形態は、文字集合を考慮して
いないが、本発明は文字集合を考慮するように容易に実
施されることが可能である。

【００９０】上述の実施の形態において、処理は、多く
の事例において変更され得る順序で実行されている。例
えば、図５において、正規化されたコーパスが幾つかの
言語のために取得されて、その後処理ボックス１８４の
処理が各言語ごとに実行されてもよい。また、先ずトラ
イグラム確率を取得して、次にショートワード確率を取
得するよりも寧ろ、この順序が逆にされてよい。同様
に、次のトークンを処理する前に各トークンのトライグ
ラム及びショートワードを取得するよりも寧ろ、あるタ
イプの確率がテキスト内の全ての単語に対して取得さ
れ、次に他のタイプの確率が取得されてもよく、又はこ
の２つのタイプが何らかの方法で並行して取得されても
よい。

【００９１】より一般には、Ｎ−グラム確率及びショー
トワード確率は互いに対して独立しており、相互に作用
しないので、これらは情報の損失なく、あらゆる任意の
方法で計算されることが可能である。例えば、これら
は、並列プロセッサを用いて、又は直列プロセッサ上で
マルチタスク又はマルチスレッド技法によって得られる
並列計算を用いて、並行して計算されてもよい。このよ
うな実施において、Ｎ−グラム及びショートワード確率
を組み合わせることは、並列計算の同期として機能し得
る。

【００９２】本発明は、テキスト上で言語特有の言語サ
ービスを実行するまで、基調言語が未知であるテキスト
の言語を識別するために、言語システムに適用されるこ
とが可能である。例えば、言語サービスのための要求が
ネットワークを介してサーバに送信され、このサーバ
は、入力テキストの言語が特定されていない場合、本発
明に従って言語識別を実行することができる。より一般
に、本発明は、ステミング（stemming:語幹分解）、用
語の拡張、翻訳、要約（gisting）、情報検索によって
得られたドキュメントの言語に基づくフィルタリング、
又は他の言語特有の多種多様なサービスのいずれかの実
行方法を決定する前に適用されることが可能である。

【００９３】特に、本発明は、ステミング、翻訳、及び
照会に対する語句認識等の言語特有の言語演算を採用す
るサーチエンジンを支持するために適用されてもよい。
このタイプのプロトタイプのサーチエンジンのＵＲＬ
は、次のとおりである。 http://www.rxrc.xerox.com/research/mltt/Tools/CLI
R.html 本発明は、上述されたように、単語の短いシーケンスの
ための優れた言語識別を取得するために実施されること
が可能であるので、また大部分の照会が短いので、サー
チエンジンでの照会の言語を識別するのに特によく適し
ている。サーチエンジンは、例えば自動的に照会の言語
を識別し、その照会を１つ又は複数の他の言語に翻訳
し、そのサーチ／検索演算を翻訳された言語で実行する
ことが可能である。

【００９４】本発明は、言語特有の光学的文字認職（Ｏ
ＣＲ）の実行を可能にすることにより、ＯＣＲを改良す
るために適用されることが可能である。先ず、単語分割
が、従来の技法を使用してテキストの走査された画像上
で実行され得る。次に、文字集合識別、文字分割、及び
文字識別が、再度従来の技法を使用して、又は将来利用
可能になるより洗練された技法を使用して実行され得
る。本発明は次に、文字認識の結果に適用され得、識別
された言語はその後、文字認識の未加工の結果を後処理
する際に使用される、単語認識を実行するのに適した語
彙を選択するために使用されることが可能である。

【００９５】また、本発明は、ユーザがその言語を判断
するためにテキストを渡すことができる言語推測装置と
して適用されることが可能である。この適用はまた、ユ
ーザがそれにテキストを渡し、その後ユーザがその応答
としてそこから言語識別を受信することができるウェブ
サイトを介して実施されている。ウェブサイトのＵＲＬ
は、次のとおりである。 http://www.xrce.xerox.com/research/mltt/tools/gues
ser.html

【図面の簡単な説明】

【図１】サンプルテキストの基調言語である可能性の高
い自然言語を識別する方法を示す概略的なフローチャー
トである。

【図２】サンプルテキストの基調言語である可能性の高
い言語を識別する際の一般的な処理を示すフローチャー
トである。

【図３】図２の一般的な処理を実行できるシステムの構
成要素を示す概略図である。

【図４】図２の一般的な処理が実施されているシステム
の概略図である。

【図５】図４のシステムが自然言語確率データを取得す
ることができる方法を示すフローチャートである。

【図６】図４のシステムが図２のような処理を実施する
方法を示すフローチャートである。

【図７】異なるサンプルサイズでトライグラム確率情報
のみを使用した際の言語識別結果を示す表である。

【図８】異なるサンプルサイズでトライグラム及びショ
ートワード確率情報の両方を使用した際の言語識別結果
を示す表である。

【図９】トレーニングしているサンプルサイズの範囲全
体にわたって、トライグラムのみのモードのための言語
識別結果と、トライグラム及びショートワードの組合せ
モードのための言語識別結果とを比較するグラフであ
る。

【符号の説明】

１０テキストデータ１２確率データ１４確率データを有する自然言語の集合１６Ｎ−グラム確率を有する言語の部分集合１８単語確率を有する言語の部分集合２０サンプル確率データ２６言語識別データ

Claims

【特許請求の範囲】

【請求項１】サンプルテキストの基調言語である可能
性の高い自然言語を自動的に識別する方法であって、（Ａ）サンプルテキストを定義しているテキストデータ
と、複数の自然言語から成る集合の各言語のための確率
データとを、前記集合の少なくとも２つの言語の各言語
ごとに、前記サンプルテキストが前記言語で発生する確
率を示しているサンプル確率データを自動的に取得する
ために使用するステップと、（Ｂ）言語に属するサンプル確率データが最も高い確率
を示す言語を識別する言語識別データを自動的に取得す
るために前記サンプル確率データを使用するステップ
と、を含み、前記言語の１つ又は複数を含む第１の部分集合
の各言語の前記確率データはＮ−グラム確率データを含
み、前記言語の１つ又は複数を含む第２の部分集合の各
言語の前記確率データは単語確率データを含み、前記第
１の部分集合の各言語のための前記Ｎ−グラム確率デー
タは、前記言語がテキストの基調言語である場合に、複
数のＮ−グラムから成る集合の各Ｎ−グラムごとに、該
Ｎ−グラムが前記テキスト内で発生する確率を示し、前
記第２の部分集合の各言語のための前記単語確率データ
は、前記言語がテキストの基調言語である場合に、複数
の単語から成る集合の各単語ごとに、該単語が前記テキ
スト内で発生する確率を示し、ここにおいて（Ａ）は、（Ａ１）前記言語の第３の部分集合の各言語のためのサ
ンプル確率データを自動的に取得するステップ、を含み、前記第３の部分集合及び前記第１の部分集合に
属する少なくとも１つの言語のために、前記サンプル確
率データは前記言語のＮ−グラム確率データからの情報
を含み、前記第３の部分集合及び前記第２の部分集合に
属する少なくとも１つの言語のために、前記サンプル確
率データは前記言語の単語確率データからの情報を含
む、サンプルテキスト基調言語自動識別方法。