JP2006221658A - 効率のよい言語識別 - Google Patents

効率のよい言語識別 Download PDF

Info

Publication number
JP2006221658A
JP2006221658A JP2006035607A JP2006035607A JP2006221658A JP 2006221658 A JP2006221658 A JP 2006221658A JP 2006035607 A JP2006035607 A JP 2006035607A JP 2006035607 A JP2006035607 A JP 2006035607A JP 2006221658 A JP2006221658 A JP 2006221658A
Authority
JP
Japan
Prior art keywords
language
feature
text
probability
count
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006035607A
Other languages
English (en)
Other versions
JP5173141B2 (ja
Inventor
Kevin R Powell
アール.パウエル ケヴィン
Patricia M Schmid
エム.シュミット パトリシア
William D Ramsey
ディ.ラムジー ウィリアム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006221658A publication Critical patent/JP2006221658A/ja
Application granted granted Critical
Publication of JP5173141B2 publication Critical patent/JP5173141B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • EFIXED CONSTRUCTIONS
    • E03WATER SUPPLY; SEWERAGE
    • E03CDOMESTIC PLUMBING INSTALLATIONS FOR FRESH WATER OR WASTE WATER; SINKS
    • E03C1/00Domestic plumbing installations for fresh water or waste water; Sinks
    • E03C1/12Plumbing installations for waste water; Basins or fountains connected thereto; Sinks
    • E03C1/28Odour seals
    • E03C1/282Odour seals combined with additional object-catching devices
    • B08B1/12
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10TTECHNICAL SUBJECTS COVERED BY FORMER US CLASSIFICATION
    • Y10T70/00Locks
    • Y10T70/30Hasp
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10TTECHNICAL SUBJECTS COVERED BY FORMER US CLASSIFICATION
    • Y10T70/00Locks
    • Y10T70/30Hasp
    • Y10T70/333Key lock
    • Y10T70/342Hasp-carried
    • Y10T70/35Keeper-encasing
    • Y10T70/358Dead bolt
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10TTECHNICAL SUBJECTS COVERED BY FORMER US CLASSIFICATION
    • Y10T70/00Locks
    • Y10T70/50Special application
    • Y10T70/5611For control and machine elements
    • Y10T70/569Lever
    • Y10T70/5717Multiple
    • Y10T70/5721Externally mounted locking device
    • Y10T70/5726With padlock
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10TTECHNICAL SUBJECTS COVERED BY FORMER US CLASSIFICATION
    • Y10T70/00Locks
    • Y10T70/50Special application
    • Y10T70/5889For automotive vehicles
    • Y10T70/5973Remote control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10TTECHNICAL SUBJECTS COVERED BY FORMER US CLASSIFICATION
    • Y10T70/00Locks
    • Y10T70/70Operating mechanism
    • Y10T70/7051Using a powered device [e.g., motor]
    • Y10T70/7057Permanent magnet

Abstract

【課題】効率のよい言語識別を提供すること。
【解決手段】自然言語テキストの言語識別のシステムおよび方法が提示される。このシステムは、自然言語に見られる文字のリストについての格納された期待される文字カウントおよび分散を含む。期待される文字カウントおよび分散は、言語識別時に考察される複数の言語について格納される。実行時に、実際の文字カウントと期待される文字カウントとの比較に基づいて、テキストサンプルの1つまたは複数の言語が識別される。本発明の方法は、考察される言語の数を制限するために、テキストサンプル中の文字のUnicode範囲の上流分析と組み合わされ得る。さらに、本発明のシステムおよび方法によって識別された言語の中から蓋然性の最も高い言語を選択するために、下流処理において、Nグラム法も使用され得る。
【選択図】図3A

Description

本発明は、言語識別技術に関する。
大規模データネットワークは、世界全体に及び、オンライン世界を真の多国籍社会にするが、依然として、通信するための単一の人間言語はない。電子メッセージおよび文書は、相変わらず、ドイツ語、スペイン語、ポルトガル語、ギリシャ語、英語、中国語、日本語、アラビア語、ヘブライ語、ヒンディ語など、特定の人間言語で書かれている。
多くの状況において、さらなる自然言語処理のために、特定の文書の人間言語を迅速に識別する必要がある。例えば、文書の人間言語または自然言語の識別は、その文書に索引付けし、またはそれを分類するのに役立つ。別の状況において、ワードプロセッサは、スペルチェック、文法チェックを行うため、言語変換ツールまたはライブラリを使用するため、あるいは適切な印刷フォントを使用可能にするために文書の言語識別を必要とし得る。
従来の言語識別の方法には、Nグラム法、特に、トライグラム法が含まれる。いくつかのトライグラム法では、言語特有の訓練データまたは文書を使用して、トライグラム言語プロファイルと呼ばれる、それぞれの言語ごとの表またはプロファイルが作成されている。いくつかの実装形態では、特定の言語の訓練テキスト上を3文字ウィンドウがスライドされる。3文字ウィンドウがテキスト上をスライドされる際に、この方法は、ウィンドウに現れる3文字シーケンスの出現回数を数えて、特定の言語のトライグラム言語プロファイルを生成する。このプロセスが様々な言語のテキストで繰り返されて、それぞれの言語用のトライグラム言語プロファイルのセットが提供され、それらが後で未知の言語の文書の言語識別に使用される。
言語識別時には、類似の3文字ウィンドウが未知の文書上をスライドされる。未知の文書内の各3文字シーケンスごとに、この方法は、トライグラムプロファイルのそれぞれにおけるマッチする3文字シーケンスを見つけようとする。特定の言語についてマッチが見つかった場合、マッチした3文字シーケンスについてのその言語のプロファイル内の頻度情報を、その特定の言語の累積スコアに加算することができる。このようにして、ウィンドウがその未知の文書全体をスライドされるにつれて各言語ごとの累積スコアが増分される。また、確率値としてNグラム頻度情報を格納するなど、他のスコアリング方式も使用される。マッチングの間、これらの確率値がかけ合わせ、累積言語スコアを生成することができる。最高の累積スコアを持つ言語が、未知の文書の言語であるとみなされる。残念ながら、トライグラム法は、通常、計算上高くつく。
言語識別の別の方法は、Nグラムシーケンスの長さを変えることを含む。そのような言語識別システムにおいて、Nグラムプロファイルは、より一般的には「言語プロファイル」と呼ばれ、様々な長さのNグラム(例えば、バイグラム、トライグラム、4グラムなど)の頻度情報を含む。しかしながら、トライグラム法の場合と同様に、他のNグラム法も計算上高くつき、ゆえに、比較的低速である。速度の不足は、一般に、考察される言語の数が増えるに従ってより大きな問題となる。さらに、速度の不足は、言語識別が、文書索引付けなど、他の用途と結合されるときに特に問題となり得る。しかしながら、有利には、トライグラムおよびその他のNグラム言語識別法は、文書またはテキストサンプルが、個々の文などのように、どちらかと言えば短いときに比較的正確であると考えられる。
米国特許出願第10/813652号明細書 米国特許第6272456号明細書
従来技術の言語識別方法およびシステムに関連付けられる問題を考慮した、より高速で、かつ/または改善された言語識別の方法があれば大いに役立つはずである。
本発明は、様々な自然言語の文字の期待される確率の言語モデルを構築することを含む。テキストサンプルの言語識別時、様々な言語にスコアをつけ、かつ/またはそれらを識別するためにこの言語モデルがアクセスされる。テキストサンプルの(1つまたは複数の)言語は、スコアに基づいて識別される。この言語モデルを含む、本発明の言語識別は、より大規模な言語サービスプラットフォーム内で、特に、言語自動検出(LAD)機能と統合することができる。特に、考察され、またはスコアがつけられる候補言語の数を制限するために、本発明の方法またはシステムと入力テキストUnicode値の分析を組み合わせることができる。本発明は、性能最適化のために、Nグラム法など、他の識別方法と組み合わせることができる。
本発明は、自然言語テキスト処理、特に、入力テキストまたはサンプルテキストの自然言語を識別することに関するものである。一態様では、様々な自然言語で見つかる文字確率の言語モデルが構築される。別の態様では、これらの言語モデルにアクセスして自然言語テキストの言語識別が行われる。別の態様では、本発明は、文字Unicode範囲の分析や、Nグラム言語識別の使用による、言語を識別する他のシステムまたは方法と組み合わされ得る。
例示的環境
図1に、本発明が実施され得る適切なコンピューティングシステム環境の一例100を示す。コンピューティングシステム環境100は、適切なコンピューティング環境の一例にすぎず、本発明の用途または機能の範囲に関するどんな限定も示唆するものではない。また、コンピューティング環境100は、例示的動作環境100に示す構成要素のいずれか1つまたはそれらの組み合わせに関連するどんな依存関係または要件を有するものであるとも解釈すべきではない。
本発明は、他の多数の汎用または専用コンピューティングシステム環境または構成と共に動作する。本発明と共に使用するのに適し得るよく知られているコンピューティングシステム、環境、および/または構成の例には、それだけに限らないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ機器、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記のシステムまたは機器のいずれかを含む分散コンピューティング環境などが含まれる。
本発明は、コンピュータにより実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的なコンテキストで説明することができる。一般に、プログラムモジュールには、個々のタスクを実行し、または個々の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造体などが含まれる。本明細書で提供する説明および図を、任意の形のコンピュータ可読媒体上に書き込まれ得るプロセッサ実行可能命令として、当業者は実施することができる。
また、本発明は、タスクが通信ネットワークを介してリンクされたリモート処理装置によって実行される分散コンピューティング環境でも実施され得る。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルとリモート両方のコンピュータ記憶媒体に置くことができる。
図1を参照すると、本発明を実施する例示的システムは、コンピュータ110の形で汎用コンピューティングデバイスを含む。コンピュータ110の構成要素には、それだけに限らないが、処理装置120、システムメモリ130、およびシステムメモリを含む様々なシステム構成要素を処理装置120に結合するシステムバス121が含まれる。システムバス121は、様々なバスアーキテクチャのいずれかを使用する、メモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含む数種類のバス構造のいずれでもよい。例としてあげるにすぎないが、そのようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびメザニンバスとも呼ばれるPCI(Peripheral Component Interconnect)バスが含まれる。
コンピュータ110は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセスされ得る任意の使用可能な媒体とすることができ、それには揮発性と不揮発性両方の媒体、取り外し可能と取り外し不能両方の媒体が含まれる。例としてあげるにすぎないが、コンピュータ可読媒体には、コンピュータ記憶媒体および通信媒体が含まれ得る。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、その他のデータなどの情報を記憶するための任意の方法または技術で実施された、揮発性と不揮発性両方、取り外し可能と取り外し不能両方の媒体が含まれる。コンピュータ記憶媒体には、それだけに限らないが、RAM、ROM、EEPROM、フラッシュメモリなどのメモリ技術、CD‐ROM、ディジタル多用途ディスク(DVD)などの光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶などの磁気記憶装置、あるいは所望の情報を格納するのに使用でき、コンピュータ110によってアクセスされ得る他の任意の媒体が含まれる。通信媒体は、通常、コンピュータ可読命令、データ構造、プログラムモジュールまたはその他のデータを、搬送波や他の搬送機構などの変調されたデータ信号中に具現化するものであり、それには任意の情報伝達媒体が含まれる。「変調されたデータ信号」という用語は、その特性の1つまたは複数が、その信号に情報を符号化するような形で設定または変更されている信号を意味する。例としてあげるにすぎないが、通信媒体には、有線ネットワークや直接配線接続などの有線媒体、および音響、RF、赤外線、その他の無線媒体などの無線媒体が含まれる。また、上記のいずれかの組み合わせも、コンピュータ可読媒体の範囲内に含めるべきである。
システムメモリ130は、読出し専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132などの揮発性および/または不揮発性メモリの形でコンピュータ記憶媒体を含む。基本入出力システム(BIOS)133は、始動時などに、コンピュータ110内の諸要素間での情報転送を支援する基本ルーチンを含み、通常、ROM131に格納される。RAM132は、通常、処理装置120から直ちにアクセス可能であり、かつ/または処理装置120によって現在操作されているデータおよび/またはプログラムモジュールを含む。例としてあげるにすぎないが、図1に、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラム データ137を示す。
また、コンピュータ110は、他の取り外し可能/取り外し不能、揮発性/不揮発性コンピュータ記憶媒体も含み得る。例にすぎないが、図1に、取り外し不能、不揮発性磁気媒体との間で読取りまたは書込みを行うハードディスクドライブ141、取り外し可能、不揮発性磁気ディスク152との間で読取りまたは書込みを行う磁気ディスクドライブ151、およびCD‐ROMや他の光媒体などの取り外し可能、不揮発性光ディスク156との間で読取りまたは書込みを行う光ディスクドライブ155を示す。例示的動作環境で使用され得る他の取り外し可能/取り外し不能、揮発性/不揮発性のコンピュータ記憶媒体には、それだけに限らないが、磁気テープカセット、フラッシュメモリカード、ディジタル多用途ディスク、ディジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが含まれる。ハードディスクドライブ141は、通常、インターフェース140などの取り外し不能メモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、通常、インターフェース150などの取り外し可能メモリインターフェースによってシステムバス121に接続される。
前述の、図1に示す各ドライブおよびそれらに関連したコンピュータ記憶媒体は、コンピュータ110のためのコンピュータ可読命令、データ構造、プログラムモジュールおよびその他のデータの記憶を提供する。図1では、例えば、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラム データ147を格納するものとして示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラム データ137と同じでも、異なっていてもよいことに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラム データ147には、少なくともそれらが異なるコピーであることを示すために、図では異なる番号が付与されている。
ユーザは、キーボード162や、マイクロホン163や、マウス、トラックボール、タッチパッドといったポインティングデバイス161などの入力装置を介してコンピュータ110にコマンドおよび情報を入力することができる。他の入力装置(図示せず)には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどが含まれ得る。上記その他の入力装置は、しばしば、システムバスに結合されたユーザ入力インターフェース160を介して処理装置120に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)といった他のインターフェースおよびバス構造によっても接続することができる。また、モニタ191または他の種類の表示装置も、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。また、モニタ以外に、コンピュータは、スピーカ197やプリンタ196など他の周辺出力装置を含むこともでき、それらは、出力周辺装置インターフェース195を介して接続することができる。
コンピュータ110は、リモートコンピュータ180など、1つまたは複数のリモートコンピュータへの論理接続を使用するネットワークで接続された環境で動作し得る。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルド機器、サーバ、ルータ、ネットワークPC、ピアデバイスまたはその他一般のネットワークノードとすることができ、通常は、コンピュータ110に関連して前述した要素の多くまたは全部を含む。図1に示す論理接続には、ローカルエリアネットワーク(LAN)171および広域ネットワーク(WAN)173が含まれるが、他のネットワークも含まれ得る。そのようなネットワーク環境は、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットではよく見られるものである。
LANネットワーク環境で使用されるとき、コンピュータ110は、ネットワークインターフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーク環境で使用されるとき、コンピュータ110は、通常、モデム172またはインターネットなどのWAN173を介して通信を確立する他の手段を含む。モデム172は、内蔵でも外付けでもよく、ユーザ入力インターフェース160または他の適切な機構を介してシステムバス121に接続することができる。ネットワークで接続された環境では、コンピュータ110に関連して示すプログラムモジュール、またはその一部は、リモートのメモリ記憶装置にも格納することができる。例にすぎないが、図1に、リモートアプリケーションプログラム185を、リモートコンピュータ180上にあるものとして示す。図示のネットワーク接続は例であり、コンピュータ間で通信リンクを確立する他の手段も使用され得ることが理解されるであろう。
図2は、本発明が実施され得る別の環境を示すブロック図である。具体的には、図2には、自然言語識別機能を備える自然言語処理システムが示されている。図2に類似の一般的な環境については、参照により本明細書にその全体が組み込まれる、2004年3月30日に出願された米国特許出願第10/813652号明細書(特許文献1)に詳細に記載されている。
自然言語処理システム200は、自然言語プログラミングインターフェース202、自然言語処理(NLP)エンジン204、および関連付けられた辞書206を含む。また、図2には、システム200が、アプリケーションプログラムを含むアプリケーション層208と対話することも示されている。そのようなアプリケーションプログラムは、言語サービスプラットフォームまたは「LSP」と呼ばれ得る自然言語処理サービスへのアクセスを必要とする、語句探索(word search)、データマイニング、文書索引付け(document indexing)などの自然言語処理アプリケーションとすることができる。
プログラミングインターフェース202は、アプリケーション層208によって呼び出され得る要素(メソッド、プロパティおよびインターフェース)を公開する。プログラミングインターフェース202の要素は、アプリケーション層208のアプリケーションが、自然言語処理サービスを獲得するために公開された要素を呼び出すことができるように、基礎をなすオブジェクトモデル(詳細については上記の組み込まれた特許出願によって記載されている)によってサポートされる。そのために、層208のアプリケーションは、まず、インターフェース202を公開するオブジェクトモデルにアクセスしてインターフェース202を構成することができる。「構成する」という用語は、所望の自然言語処理機構または機能を選択することを含むよう意図されている。例えば、アプリケーションは、203に示すように言語自動検出(LAD)を選択しようとすることができる。
インターフェース202が構成された後、アプリケーション層208は、処理されるべき自然言語テキスト、サンプル、文書といったテキストをインターフェース202に提供することができる。次に、インターフェース202は、例えば、本発明による言語識別を含む言語自動検出(LAD)205、単語区切り、または他の自然言語処理などを実行するNLPエンジン204にアクセスすることができる。実行された自然言語処理の結果は、例えば、プログラミングインターフェース202を介してアプリケーション層208中のアプリケーションに戻すこともでき、以下で論じるように辞書206を更新するのに使用することもできる。
また、インターフェース202またはNLPエンジン204は、辞書206を利用することもできる。辞書206は、更新可能とすることも、固定とすることもできる。システム200は、追加の辞書が必要とされないように、コア辞書206を提供することができる。しかしながら、インターフェース202は、アプリケーションがカスタマイズされた辞書206を追加することを可能にする要素も公開する。例えば、アプリケーションが文書索引付けまたはサーチを対象とする場合、名前付きエンティティ(例えば人名や企業名など)を有するカスタマイズされた辞書が追加され、またはそれにアクセスされ得る。当然ながら、他の辞書も追加され、またはそれにもアクセスされ得る。
また、インターフェース202は、辞書から結果が返されるときに、例えば、結果のプロパティなどとして注釈も提供されるように、アプリケーションが辞書に注釈を追加することを可能にする要素も公開することができる。
二項分布
二項分布は公知の離散確率分布である。例えば、硬貨を指ではじくとき、その結果は表か裏のどちらかである。手品師が1組のトランプから選択されたカードを言い当てるとき、手品師は正しいか間違っているかである。赤ん坊が生まれるとき、赤ん坊は4月中に生まれるか生まれないかのどちらかである。これらの例のそれぞれにおいて、1つの事象は2つの相互に排他的な可能な結果を有する。結果の一方を「成功」と呼び、他方の結果を「失敗」と呼ぶことができる。ある事象がT回発生する(例えば、硬貨がT回またはT「試行」指ではじかれる)場合、二項分布を使用して、正確にT試行でC成功を獲得する確率を求めることができる。T試行でc成功を獲得する二項確率は以下の式によって与えられる。
Figure 2006221658
式中、c=CにおけるP(c)は正確にC成功を得る確率であり、Tは事象の数であり、πは任意の1試行時の成功の確率または期待される確率である。この式は、以下の仮定をする。
1.Tがあらかじめ定められている、T回の同一の試行がある。
2.各試行は2つの可能な結果、すなわち成功または失敗を有する。
3.各試行は独立であり、1つの試行の結果は、別の試行の結果にどんな影響も及ぼさない。
4.成功の確率は、各試行を通じて一定である。
二項分布では、xの平均値および分散は、それぞれ、以下の式によって与えられる。
E(c)=Tπ 式2
Var(c)=Tπ(1−π) 式3
したがって、例えば、鉢の中に10個のボールがあり、3個のボールは赤であり、7個は青であると仮定する。成功は赤いボールを抜き取ることであると定義される。ボールがランダムに抜き取られ、次いで元に戻される場合、成功の確率は、各試行ごとに、
Figure 2006221658
またはπ=0.3である。10個のボールが抜き取られる場合、T=10である。ゆえに、10試行で5個の赤いボールを抜き取る(すなわちc=5である)確率は、式1にT、c、およびπの値を代入することによって与えられ、それは以下の通りである。
Figure 2006221658
ゆえに、5成功の(または5個の赤いボールを抜き取る)確率は約18%である。二項分布は、0から10まで(試行の回数)のcの異なる値について計算され、および/またはグラフ化することができる。
さらに、上記の例において、二項分布の平均値E(c)および分散Var(c)は、上記の式2および式3を使用して以下のように求めることができる。
E(c)=Tπ=(10)(0.3)=3
Var(c)=Tπ(1−π)
=(10)(0.3)(1−0.3)=2.1
さらに、試行回数が増大するにつれて、総試行回数のパーセンテージである分散は減少する傾向があることもわかる。ゆえに、予測の正確さは、試行回数が増大するにつれて向上する。
しばしば、二項分布の累積形が使用され、そのため、5個以上の赤いボールを抜き取る確率、P(≧5)は以下の式によって与えられる。
Figure 2006221658
本発明の主要な態様
本発明では、二項分布(またはガウス分布などの他の確率分布)の概念が言語識別に使用され得る。言語LのT個の総特徴(total features)における1特徴のカウントを見る確率が、言語Lにおけるその特徴fの期待される確率が与えられたものとして計算することができる。特徴カウントは、「成功」とみなされ、特徴の総数は「試行」の回数とみなすることができる。
さらに、カウントfからfを有する特徴1からNが見られる同時確率は、期待される確率πからπ、および特徴総数Tが与えられたものとして、以下のように概算され、または表され得る。
Figure 2006221658
式中、各P(f|T,π)値は、二項分布または類似の(離散または非離散)確率関数を使用して獲得することができる。大部分の実施形態において、各特徴は、その言語で見つかる1つまたは複数の文字を含む。例えば、特徴は、「a」のような個々の文字とすることも、「tr」や「and」のような文字の組み合わせとすることもできる。また、特徴を構成する1つまたは複数の文字は連続するものとすることもできるが、そうであることには限定されない。例えば、特徴は、第3の未確定の文字によって隔てられる2つの文字とすることができる。また、特徴は、「@」や「#」といった1つまたは複数の記号を含むこともできる。しかしながら、一実施形態では、各特徴は、「a」や「b」といった単一の文字(characterまたはletter)を表す。単一の文字を特徴として使用すれば、計算速度を増大させるのに有利になり得る。
また、本発明の別の実施形態では、P(c|T,π)の値が、数学的にも(式1の二項分布式を使用して離散確率を計算するなどによって)獲得され得る。別の実施形態では、P(f|T,π)の値が、物理的または経験的に(様々な言語の訓練コーパス中の特徴または文字を数え、選択されたウィンドウまたはサンプルサイズごとに正規化するなどによって)獲得される。また、数学的計算と物理的計数の何らかの組み合わせを使用してP(f|T,π)値を求めることもできる。
さらに、期待される文字確率が物理的に求められる実施形態では、結果として整数計算(integer math)を生じる選択サンプルサイズ(例えば、1000文字当たりの文字カウントなど)を用いて正規化すれば有利となり得ることもわかる。整数計算は、有利には、性能または速度を増大させる。しかしながら、整数計算は任意選択であり、より高い精度のためのより正確な小数値を優先して除外することもできる。また、1000文字のサンプルサイズは、個々の文字だけが考察されるときに比較的少数の特徴を持つ、英語などのヨーロッパ言語に適し得ることもわかる。これに対して、中国語や日本語といったアジア言語の期待される特徴確率は、それらの表記システムで使用される特徴または表意文字の数が(英字と比べて)はるかに大きいために、100,000特徴当たりの期待される特徴カウントウィンドウなど、はるかに大きいサンプルサイズを用いて正規化される可能性が高いはずである。
図3は、単一の方法300として実施される本発明の2つの主要な態様またはステップ302、306を示す概略的流れ図である。図4および図6は、これらの態様のそれぞれを実行するモジュールを示すブロック図である。ステップ302は、後で言語識別に使用される、複数の言語についての期待される文字カウントまたは確率情報または値の言語モデルまたは表を含む情報を用いて(図4に示す)語彙知識ベース418を拡張することを含む。
言語識別フェーズは、未知の、または未確認の自然言語で書かれた入力テキストを受け取るステップ304を含む。ステップ306で、受け取られた自然言語テキストの(1つまたは複数の)言語を識別するために言語モデルがアクセスされる。スコアリングシステムを使用して、テキストの蓋然性の最も高い(most probable)(1つまたは複数の)言語または非蓋然性の最も低い(least improbable)(1つまたは複数の)言語が識別され得る。代替として、言語スコアリングシステムは、例えば、可能な言語の候補リストを作成する際のフィルタとして働くように、非蓋然性の最も高い(1つまたは複数の)言語を識別して低確率の言語を除外することもできる。前述のように、ステップ306は、言語識別性能の最適化(例えば、速度および/または正確さの向上など)のためにUnicode値または範囲、および/またはNグラム法を利用するなどのサブステップを含み得る。特に、本発明は、参照により本明細書にその全体が組み込まれる、2001年8月7日発行の、de Camposらによる米国特許第6272456号明細書(特許文献2)に記載されているNグラム言語識別システムと組み合わせることができる。矢印308で示すように、方法300は、任意の数の入力テキストサンプルが受け取られ、本発明に従って処理され得るという点で、反復的とすることができる。
図3A〜3Bに、併せて、図3のステップ302および306を実行する主要な方法およびシステム310、320を示し、これらについて並行して論じる。システム310はステップ302を実行することができ、システム320はステップ306を実行することができる。
ステップ352で、(英語や中国語など知られている自然言語で書かれた)テキスト文書312がシステム310によって受け取られる。システム310はカウンタ314を備える。ステップ354で、カウンタ314は、316に示すように、自然言語のテキスト文書312中の一意の特徴1からNの出現回数316を数え、これらの特徴カウント316を期待される確率または頻度値π(i=1,...,N)に変換する。
ステップ356で、ステップ352および354が他の自然言語について繰り返され、期待される特徴確率(feature probability)または頻度値(frequency values)318が生成される。ステップ358で、後の言語識別時のアクセスのために、すべての候補言語についての期待される特徴確率値316、318が格納される。
ステップ360で、システム320は、未確認の自然言語で書かれたテキストサンプル322を受け取る。システム320は、カウンタ324、二項確率計算器328、およびスコアリングシステム332を備える。ステップ362で、カウンタ324は、326に示すように、テキストサンプル322中の特徴または文字の総数T、およびテキストサンプル中322の一意の特徴1からMの出現回数を数える。ステップ364で、326に示すように、観測される、実際の、または現在の特徴頻度f,...,fが計算される。ステップ366で、二項確率計算器328は、T個の総特徴326、格納された期待される確率値π319、およびテキストサンプル322中の実際の特徴頻度f326が与えられたものとして、確率値330を計算する。ステップ368で、スコアリングシステム332は、例えば、上記の式5などを使用して、様々な候補言語の言語スコアを計算する。ステップ370で、システム320は、言語スコアに基づき、テキストサンプル322の言語リスト334を生成し、または識別する。テキストサンプル322および/または言語リスト334は、321に示すようにアプリケーション層に、またはさらなる処理のために返され得る。
図4に、本発明による語彙知識ベースを拡大する(図3に示す)ステップ302を実行することのできるシステムの別の実施形態を示す。図5は、一般に、図4の各モジュールに対応する語彙知識ベースを拡大するステップの流れ図である。以下でより詳細に論じるように、本発明による語彙知識ベースは、言語特有の特徴、および、各特徴の期待されるカウントや分散などの関連付けられる情報を備える。図4および図5に示すモジュールおよびステップは例示にすぎず、望むとおりに省略され、組み合わされ、分割され得ることに留意することは重要である。また、図4および図5のモジュールおよびステップは単一の言語について示されており、それらは、言語識別フェーズで考察される各自然言語ごとに繰り返されるはずである。語彙知識ベース構築モジュール404は、コンピュータ110上で実行され、またはLAN171またはWAN173接続中のリモートコンピュータのいずれかで格納され、実行されるアプリケーションプログラム135とすることができる。同様に、語彙知識ベース418も、ハードディスクドライブ141など、ローカル記憶装置のいずれかに、または光CDに、またはリモートでLAN171またはWAN173メモリ装置に存在し得る。
(図5に示す)ステップ502で、語彙知識ベース構築モジュール404は、前述の入力装置のいずれか、および図1との関連で説明した記憶装置のいずれかから未処理の自然言語テキスト402を受け取る。また、未処理のテキスト402は、図2との関連で説明したアプリケーション層208を介しても受け取ることができる。未処理のテキスト402は、書籍、出版物、雑誌、Webソース、音声/テキスト変換エンジンなどからの自然言語テキストとすることができる。自然言語テキスト402は、一般に、1つの自然言語で入力されることがわかる。しかしながら、前述のように、語彙知識ベース418を拡張するために言語モデル420を構築するプロセスは、言語識別のために複数の言語モデル420が構築されるという点で反復的である。
ステップ504で、前処理モジュール406は、前処理のために未処理のテキスト402を受け取って、例えば、コンマやピリオドなどの文法上の特徴を除去し、あるいは個々の英字などの文字を大文字から小文字に変換することができる。また、たいていの場合、数字は言語に特有ではないため、数字も除去され得る。しかしながら、いくつかの実施形態において、英語の医学やドイツ語の工学といった技術分野のようなある言語の一部が考察されるときなどには、「1」や「2」のような数字は言語特有であり得る。別の実施形態において、考察される自然言語が、異なるまたは二重の記数法を使用するときなどには、数字は言語特有であり得る。例えば、中国語は、数を表すのに「1」や「2」のような数字と表意文字の両方を使用する。
前処理モジュール406は、好ましくは、特定の言語に見られる文字(すなわち、英字、記号など)およびその他の特徴を、理想的にはその自然言語を代表する割合で含む訓練コーパス408を生成する。代替として、代表的訓練コーパスが、語彙知識ベース構築モジュール404に提供され、または語彙知識ベース構築モジュール404によってアクセスされることもあり得る。
ステップ506で、文字リスト412が識別され、または受け取られる。いくつかの実施形態では、訓練コーパス408は、訓練コーパス408中の一意の文字を識別して文字および/または特徴リスト412を生成する文字または特徴識別子410によって受け取られる。代替として、特定の自然言語の文字および/または特徴リストが、語彙知識ベース構築モジュール404によってアクセスされ、または語彙知識ベース構築モジュール404に提供されることもあり得る。例えば、英語の文字リスト412は、「a」から「z」までのアルファベットの文字すべて、および「$」や「#」といったその他の文字、記号、または特徴を含み得る。しかしながら、前述のように、中国語や日本語といった漢字に基づく文字または表意文字を使用するアジア言語の文字リスト412は、相当に大きくなるはずである。
ステップ508で、確率計算モジュール414は、文字リスト412中の文字の一部または全部について、詳細に前述した文字カウント確率値P(c)を生成する。生成された確率値の結果を使用して、選択されたサンプルサイズ(例えば1000文字など)当たりで正規化される成功数または出現回数に及ぶ、サンプリングされた文字の確率分布が生成され得る。別の実施形態において、確率計算モジュール414は、特に、選択されたサイズの複数の等サイズサンプルウィンドウについて各文字の平均出現回数を数えるカウンタ415を含む。
ステップ510で、確率計算モジュール414は、ステップ508でサンプリングされた文字の「分散」416を生成する。いくつかの実施形態では、「分散」は、特に、少なくとも一部は式3に基づいて計算することができる。例えば、「分散」は、式3で与えられる二項分散値の平方根または分数値(例えば1/10)を取ることによって求められ得る。別の実施形態では、「分散」は、分布曲線の勾配の分析や類似の手段などによって、数値的に近似され得る。また、分散は、1組の等サイズのサンプルにおける実際の文字カウントと期待される文字カウントを比較することによって経験的に計算することもできる。別の実施形態では、「分散」は、カウントがその周囲に集まっている(clustered)範囲を人間が選択することによって物理的に生成される。
ステップ512で、語彙知識ベース418が、確率計算モジュール414で生成された期待されるカウントまたは確率情報および分散を有する言語モデルまたは表420を用いて拡張される。ステップ514で、前述のようにカウントまたは確率情報および分散を生成して語彙知識ベース418をさらに拡張するために、文字リスト412からの別の文字が処理される。言語モデル420を構築するプロセスは、文字リスト412中のすべての文字が処理されるまで続く。別の実施形態では、言語モデル420への追加のために期待されるカウントおよび分散が計算される前に、リスト412中のすべての文字がすべてのサンプルウィンドウについて数えられる。言語モデル420は、以下で説明する言語識別フェーズにおいて実行時に考察される各言語ごとに構築される。
図6に、図3に示すステップ306を実施する言語識別システムまたはモジュールを示す。言語識別モジュール604は、前述のように言語サービスプラットフォームに組み込まれている、図2の言語識別モジュール205と類似のものとすることができる。さらに、図7には、図6の言語識別システムに関連付けられ、またはこれに対応する方法が含まれる。ゆえに、以下で図6および図7を併せて説明する。また、図6および図7に示すモジュールおよびステップは、例示にすぎず、望むとおりに省略され、組み合わされ、分割され得る。例えば、図6のUnicodeフィルタ606およびNグラム言語識別モジュール619は、破線で示すように任意選択の機能である。
ステップ702で、テキストサンプル言語識別620を生成するために本発明に従ってテキストサンプル602の言語識別を実行する言語モジュール604によって、テキストサンプル602が受け取られる。ステップ704で、Unicodeフィルタ606は、テキストサンプル602中の文字のUnicode範囲を分析して、文字Unicode範囲に基づく候補言語リスト608を生成する。このようにして、Unicodeフィルタ606は、テキストサンプル602について考察される言語の数を制限し、または「フィルタにかける」ことができる。
Unicode標準は、ASCIIのように、記号を含むあらゆる知られている文字ごとに一意の数または値を提供する国際文字符号化システムである。ゆえに、Unicode値は、プラットフォーム、プログラム、あるいは言語を問わずに認識されるように意図されている。さらに、各人間言語の文字は、特定のUnicode範囲内に含まれる傾向がある。また、人間言語は、一般に、特定のUnicode範囲の周囲の群としてグループ化される。ゆえに、英語、フランス語、ドイツ語といったヨーロッパ言語の文字は、一般に、特定のUnicod範囲内に含まれる。中国語、日本語、朝鮮語といったアジア言語は、ヨーロッパ言語のUnicode範囲とは異なる別のUnicode範囲内に含まれる。Unicode標準に関する詳細はWebサイト http://www.unicode.org/に記載されている。
ステップ705で、カウンタ611は、テキストサンプル602中の一意の特徴または文字j=1からMの実際の出現回数を数える。カウンタ611は、より短いテキストサンプルについて可能な適切なスケーリングを用い、1000文字などの、選択されたサンプルサイズに基づいてこれらのカウントを求めることができる。ステップ706で、スコアリングモジュール612は、テキストサンプル602の蓋然性の最も高い、または非蓋然的の最も低い(1つまたは複数の)言語を識別し、または選択するために、テキストサンプル602で数えられた実際の特徴出現回数fおよび候補言語リスト608の期待される確率またはカウント値614を受け取る。
スコアリングシステム612は、期待される確率pからp、および文字の総数Tが与えられたものとして、テキストサンプル602において、観測される、または現在のカウントfからfを有する特徴または文字1からNが見られる同時確率を計算することによって、候補リスト608からの言語のスコアを生成することができる。これらの実施形態において、言語スコアは、以下に繰り返す、上記の式5に従うことができる。
Figure 2006221658
式中、各P(f|T,π)値は、図3Aの319に示すような候補言語の格納された特徴確率情報にアクセスすることによって獲得され得る。これらの実施形態では、よりよい言語スコアはより高い。というのは、より高いスコアは、そのテキスト言語が候補言語であるより高い確率を示すからである。スコアリングモジュール610は、(1つまたは複数の)最善のスコアを有する(1つまたは複数の)言語618を生成する。しかしながら、別の実施形態では、スコアリングシステム612は、低いスコアを持つ言語を考察から除外する。
いくつかの実施形態では、スコアリングシステム612は、観測される、または現在の文字カウントを、考察される様々な候補言語の言語モデル614の期待されるカウントまたは確率および分散に対して比較する。例えば、図8bを参照すると、テキストサンプル602が、文字「i」について現在の、または観測されるカウント75を持つ場合、このカウントは、英語の分散内に含まれ、したがって、英語に有利にスコアがつけられるはずである。現在のカウントが100または0である場合、それはこの分散のずっと外側にあたり、英語には不利にスコアがつけられるはずである。スコアリングシステム612は、期待される分散または範囲の外側にあるカウントを不利にするアルゴリズムを含み得る。このようにして、マイナスのスコアリングが可能である。これらの実施形態では、よりよいスコアはより低い。というのは、より低いスコアは、テキストの言語が候補言語に近いことを示すからである。言い換えると、観測される文字カウントは、期待されるカウントに「近い」。ゆえに、最低のスコアを持つ(1つまたは複数の)言語が(1つまたは複数の)テキスト言語618として識別され得る。代替として、「最も近い」1つまたは複数の候補言語が留まるように、より高いスコアを持つ言語を十分に「近く」ないものとして除去することもできる。
一実施形態では、スコアリングシステム612は、スコアリングアルゴリズムを以下のように実施する。
Figure 2006221658
式中、FinalScoreはある言語の最終スコアであり、StoredCountは文字nの1000文字当たりの期待されるカウントであり、CurrentCountはテキストサンプル中の文字nのカウントであり、Nは文字数であり、Penalty(ペナルティ)は、CurrentCountが分散内にある場合には1、およびCurrentCountが分散の外側にある場合には2などの倍数である。ゆえに、スコアは、候補リスト608中の各言語ごとに計算される。蓋然性の最も高い、または非蓋然性の最も低い言語618が、式6を使用して生成される最低のスコアに基づいて選択され得る。しかしながら、式7のスコアリング関数が例示であることに留意することは重要である。言語識別の二項分布または他の確率分布の意図(spirit)を保持する他のスコアリング関数システムも言語識別のために使用され得る。
ステップ710で、スコアリングモジュール610は、統計的信頼度を求める任意の知られている手段に基づいて、蓋然性の最も高い、または非蓋然性の最も低い言語618の信頼度スコアを計算する。以下の表に、本発明による、信頼度にスコアをつけ、これを計算する1つの手段を示す。
Figure 2006221658
Figure 2006221658
ステップ720で、任意選択のNグラム言語識別モジュール619は、上記特許文献1に記載されているようなNグラム法に基づくその後の言語識別のために、テキストサンプル602および識別された言語618を受け取ることができる。さらに、ステップ720は、特にテキストサンプル602が比較的短いときに、正確さを向上させ得ることが分かる。ステップ722で、Nグラム言語識別モジュール610は、信頼度に基づいて返される1つの言語または言語のリストとすることのできる言語識別620を生成する。言語識別は、前述のように、その後のテキストサンプル602の自然言語処理で使用され得る。
図8a〜8bには、本発明による確率計算モジュール414によって生成される確率分布が示されている。図8aには、一実施形態における、1000文字のサンプルサイズが与えられた場合の英語の英字「i」などの文字の確率曲線800が示されている。図8aには、最大確率808が、±7の分散で、おおよそカウント=72で出現することが示されている。言い換えると、1回または複数回の1000文字セットのランダムなサンプリング時に、英語の文字「I」については、別のカウントではなく72文字になる可能性がより高い。しかしながら、ランダムサンプリングは、一般に、英語が考察され、またはそのスコアがつけられているときに、期待される範囲806内の文字カウントを生み出すはずであることに留意することは重要である。範囲806は、図示のような分散802、804を含む。
本発明では、言語にマイナスのスコアがつけられ、かつ/またはプラスのスコアがつけられ得る。プラスのスコアリングは、ある言語に有利または不利な実際の出現(occurrence)を使用することを含む。マイナスのスコアリングは、ある言語に有利または不利な非出現(non−occurrence)を使用することを含む。言語にマイナスのスコアをつけ、かつ/または言語にプラスのスコアをつけることができることは、しばしば、プラスの証拠スコアリングシステムだけに限定される他の言語識別システムよりも有利であると考えられることがわかる。例えば、Nグラムスコアリング法は、通常、プラスの証拠だけにスコアをつける。
本明細書で使用する際、「マイナスの証拠」とはある事象の非出現である。例えば、非出現は、テキストサンプル中の任意の場所における文字の非出現とすることができる。代替として、非出現は、期待される範囲内における文字カウントの非出現とすることもできる。すなわち、その文字カウントは、その文字の期待される範囲の外側にあることがわかる。同様に、「プラスの証拠」とは、ある事象の出現である。この出現は、サンプルテキスト中での文字の出現、または期待される範囲内での文字カウントの出現とすることができる。さらに、多くの実施形態では、スコアリング方式は、特定の言語に有利と不利なプラスとマイナス両方の証拠を考察することができることがわかる。
また例えば、ポルトガル語とスペイン語はきわめて類似している。しかしながら、ポルトガル語は、「
Figure 2006221658
」という文字を含むが、スペイン語は含まない。したがって、あるテキストサンプルが「
Figure 2006221658
」という文字を含む場合、これは、ポルトガル語に有利なプラスの証拠であり、スペイン語に不利なプラスの証拠である。テキストサンプルが「
Figure 2006221658
」という文字を含まない場合、これは、ポルトガル語に不利なマイナスの証拠であると同時に、スペイン語に有利なマイナスの証拠でもある。
図8bは、図8aに似ているが、可能なデータポイント812、814、816も示すものである。ゆえに、(データポイント812および814に示される)文字カウント0および100は、両方とも、期待される範囲806の外側に当たる。ゆえに、データポイント814における英語の期待される範囲内での文字「i」の非出現は、英語に不利なマイナスの証拠である。言い換えると、英語は、「i」の期待される文字カウントの非出現では、不利なようにマイナスのスコアがつけられる。同様に、(814に示すような)文字「i」の非出現を有するテキストサンプルは、英語に不利なスコアがつけられるマイナスの証拠を生じるはずである。
これに対して、(816に示すような)75の「i」カウントを有するテキストサンプルは、英語に有利なプラスのスコアリングを生じることになる。言い換えると、文字「i」での75という観測される文字カウントは、期待される範囲内での文字カウントの出現であるため、英語に有利なプラスの証拠である。
訓練プロセス
図9に、図4に示すカウンタ415に関して説明したような物理的な、またはコンピュータを使用した訓練プロセスのアルゴリズムまたは実施形態を示す。図示の訓練プロセスは、様々な自然言語の(図4の文字リスト412に示す)文字の(図4の416に示す)確率またはカウント情報および関連付けられる分散を生成するのに使用され得る。以下で論じる変数名は例示のためのものであり、必ずしも、訓練コードで使用される実際の変数名であるとは限らないことがわかる。訓練プロセスは、各言語ごとに実行される。訓練プロセスの出力は、各言語ごとの文字カウントおよび分散の配列である。
まず、テキスト中の各文字の確率が事前計算される。訓練時には、一連の等サイズのスライディングウィンドウが考察される。訓練は、1000文字のウィンドウ上で行われ得るが、理想的には、それらのウィンドウが等サイズのものである限り、他のウィンドウサイズも使用され得る。ウィンドウは、重なり合っても重なり合わなくてもよい。全く重ならない場合を含めて、ウィンドウが重なり合う量を調整するように内部で値が設定され得る。
各ウィンドウごとに、各文字の出現回数が、個々の合計としてカウントされ、格納される。訓練プロセスは各文字カウントをループし、文字カウントは、カウントおよびウィンドウの現在の合計を更新するのに使用される。各カウントは、以前に計算されたその文字の確率に基づいて、そのカウントが期待される1000文字当たりのカウントを上回るか、それとも下回るか判定するためにチェックされる。上側の(すなわちプラスの)または下側の(すなわちマイナスの)分散合計がしかるべく増分される。
ウィンドウすべてを処理した後、様々なTotal値を使用して、各文字のAverageCountPerWindow(prob.)ただしprob.は確率、およびAverageVarianceが計算される。文字、そのAverageCountPerWindow、およびAverageVarianceは、これらの格納される値の実行時リソースになるファイルに出力され得る。
各文字ごとに、以下の値が追跡されることがわかる。
各ウィンドウごとに再計算される、現在のウィンドウのカウント(CharacterCount)、
全体のTotalCharacterCount、
期待される確率/カウントを上回るTotalCountAbove、
この文字のカウントが期待される確率/カウントを上回ったウィンドウの総数である、TotalWindowsAbove、
期待される確率/カウントを下回るTotalCountBelow、
TotalWindowsBelow:現在の文字のカウントが期待される確率またはカウントを下回ったウィンドウの総数。
さらに、全体的なTotalWindowsSeenの数も追跡される。AverageCountPerWindow値は、期待される事前計算の文字確率とほぼ同じであることがわかる。
図10に、本発明による言語識別のアルゴリズムまたは実施形態を示す。各入力テキストごとに、考察されるサンプルの数が決定される。テキストサンプルが十分に長い場合、サンプルはテキスト中のいくつかのポイントから取られ得る。テキストが短い場合、ただ1つのサンプルだけが選択され得る。各サンプルごとに、まず、テキストが前処理されて、スペースおよび、URLや数字など、言語特有でない文字が削除される。次に、各文字が、ラテン、キリル、アラビアなど、その文字範囲についてチェックされる。各範囲に見られる文字の数が追跡される。一意のUnicode文字範囲からの文字は、(本明細書では説明しない)別個のモジュールで処理される。他のすべての範囲について、各一意の文字の出現回数が数えられる。その文字範囲がサンプル中で表されない(または最小限にしか表されない)どんな言語も除外される。
一意でない範囲、すなわち、複数の言語によって共用される範囲中の文字については、文字カウント、格納されたデータ、および式6のスコアリングアルゴリズムを使用してスコアが計算される。最善のスコアを持つ言語が決定される。これらの勝利言語が、一意の範囲のモジュールからの任意の勝利言語と組み合わされる。最後に、1つまたは複数の勝利言語の信頼度を、特に勝利言語をランク付けするために、計算することができ、次いで、それらの勝利言語が返される。
図11は、テキストの各候補言語ごとのスコアを計算する1つの具体的な実施形態またはアルゴリズムを示す流れ図である。このアルゴリズムは、まだ除外されていない言語をループする。各言語ごとに、アルゴリズムは、期待される文字カウントおよび分散の配列にアクセスする。次いで、テキストでカウントされたすべての文字および言語によって期待されるすべての文字を含む最小限の文字範囲を隔離する。アルゴリズムは、これらの文字をループする。テキストからのカウント(CurrentCount)または言語の期待されるカウント(StoredCount)のどちらかが0より大きい場合、または両方が0より大きい場合、以下の式を使用して文字のスコアが計算される。
CharacterScore=(|StoredCount−CurrentCount|×Penalty) 式8
Penaltyは、CurrentCountがその文字の格納された分散内にないときに1より大きい。このスコアがその言語の総スコアに加算される。すべての文字がすべての言語について処理されると、アルゴリズムは総スコアのセットをループし、各言語の総スコアの平方根を取る。次いで、各言語ごとの最終スコアが以下の式によって与えられる。
Figure 2006221658
式中、各項は、上記で定義されているものである。
以上、本発明を特定の実施形態を参照して説明したが、本発明の精神および範囲を逸脱することなく、形式および内容の変更が加えられ得ることを当業者は理解されよう。
本発明が使用され得る1つの例示的環境を示す図である。 本発明が使用され得る自然言語処理システムの環境を示す図である。 本発明の主要な態様を示す流れ図である。 図3Bと併せて、テキストサンプルの言語識別を含む、図3に示す態様を実行する方法およびシステムを示す図である。 図3Aと併せて、テキストサンプルの言語識別を含む、図3に示す態様を実行する方法およびシステムを示す図である。 本発明による語彙知識ベースを拡大するシステムを示すブロック図である。 一般に、図4のシステムと一致する方法のステップを示す図である。 本発明による言語識別を実行するシステムを示す図である。 一般に、図6のシステムと一致する方法のステップを示す図である。 格納された確率情報を示す図である。 言語識別時の格納された確率情報の使用を示す図である。 本発明によるコンピュータ援用訓練プロセスの一実施形態を示す流れ図である。 本発明による言語識別の一実施形態を示す流れ図である。 本発明によるテキストの最も可能性の高い言語を決定する一実施形態を示す流れ図である。
符号の説明
100 コンピューティングシステム環境
110 コンピュータ
120 処理装置
130 システムメモリ
134 オペレーティングシステム
135 アプリケーションプログラム
136 その他のプログラムモジュール
137 プログラム データ
140 取り外し不能不揮発性メモリインターフェース
141 ハードディスクドライブ
144 オペレーティングシステム
145 アプリケーションプログラム
146 その他のプログラムモジュール
147 プログラム データ
150 取り外し可能不揮発性メモリインターフェース
152 取り外し可能、不揮発性磁気ディスク
155 光ディスクドライブ
156 不揮発性光ディスク
160 ユーザ入力インターフェース
161 ポインティングデバイス
162 キーボード
163 マイクロホン
170 ネットワークインターフェース
171 ローカルエリアネットワーク
172 モデム
173 広域ネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインターフェース
191 モニタ
195 出力周辺装置インターフェース
196 プリンタ
197 スピーカ


Claims (20)

  1. テキストの自然言語を識別する方法であって、
    知られている自然言語で書かれたテキスト文書を受け取るステップと、
    前記テキスト文書中の一意の特徴の出現回数を数えて期待される特徴カウントを生成するステップと、
    確率分布および前記期待される特徴カウントを使用して、確率値を実際の特徴出現回数の関数として生成するステップと
    を備えることを特徴とする方法。
  2. 確率分布を使用するステップは、離散確率分布または連続確率分布を使用するステップを含むことを特徴とする請求項1に記載の方法。
  3. 確率分布を使用するステップは、二項分布またはガウス分布を使用するステップを含むことを特徴とする請求項2に記載の方法。
  4. 複数の候補言語のそれぞれについて確率値の表を構築するステップをさらに備えることを特徴とする請求項1に記載の方法。
  5. 未確認の自然言語で書かれたテキストサンプルを受け取るステップと、
    前記テキストサンプル中の前記特徴のいくつかについて実際の特徴カウントを求めるステップと、
    前記確率値の表にアクセスし、前記実際の特徴カウントに基づいて前記テキストサンプルのために前記候補言語の少なくとも1つを識別するステップと
    をさらに備えることを特徴とする請求項4に記載の方法。
  6. 前記実際の特徴カウントに関連付けられる確率値をかけ合わせることによって各候補言語のスコアをつけるステップをさらに備えることを特徴とする請求項4に記載の方法。
  7. テキストの自然言語を識別する方法であって、
    未確認の自然言語で書かれたテキストサンプルを受け取るステップと、
    前記テキストサンプル中の文字の少なくとも1つのウィンドウにおける少なくとも1つの特徴の現在のカウントを求めるステップと、
    複数の候補言語について前記少なくとも1つの特徴の期待される確率情報を獲得するステップと、
    前記現在のカウントおよび前記獲得された期待される確率情報に基づいて、前記複数の候補言語の中から、前記テキストサンプルの少なくとも1つの言語を識別するステップと
    を備えることを特徴とする方法。
  8. 期待される確率情報を獲得するステップは、前記少なくとも1つの特徴の二項分布またはガウス分布に基づく確率値を受け取るステップを含むことを特徴とする請求項7に記載の方法。
  9. 選択されたサイズのサンプル当たりの前記少なくとも1つの特徴の平均カウントを含む前記期待される確率情報を推定するために訓練コーパスをサンプリングするステップをさらに備えることを特徴とする請求項7に記載の方法。
  10. 前記少なくとも1つの識別された言語のNグラム言語プロファイルを使用して、前記テキストサンプルでの蓋然性の最も高い言語を識別するステップをさらに備えることを特徴とする請求項7に記載の方法。
  11. Unicode値を使用して前記複数の候補言語を識別するステップをさらに備えることを特徴とする請求項7に記載の方法。
  12. 前記少なくとも1つの言語を識別するステップは、前記少なくとも1つの特徴の前記現在のカウントの、前記獲得された期待される確率情報との比較に基づいて、前記複数の候補言語それぞれの言語スコアを生成するステップを含むことを特徴とする請求項7に記載の方法。
  13. 言語スコアを生成するステップは、前記テキストサンプル中の前記求められた現在のカウントを有する複数の前記特徴の同時確率を推定するステップを含むことを特徴とする請求項12に記載の方法。
  14. 言語スコアを生成するステップは、前記少なくとも1つの特徴の前記現在のカウントが、前記獲得された期待される確率情報の分散内に含まれるときに候補言語にプラスのスコアをつけるステップを含むことを特徴とする請求項7に記載の方法。
  15. 言語スコアを生成するステップは、前記少なくとも1つの特徴の前記現在のカウントが、前記獲得された期待される確率値の分散の外側にあたるときに候補言語にマイナスのスコアをつけるステップを含み、前記少なくとも1つの特徴は1つの文字を含むことを特徴とする請求項7に記載の方法。
  16. スコアを生成するステップは、前記サンプルテキストにおける期待される特徴の非出現に対して候補言語にマイナスのスコアを付けるステップを含むことを特徴とする請求項7に記載の方法。
  17. 前記識別された少なくとも1つの言語のそれぞれの信頼度スコアを推定するステップをさらに備えることを特徴とする請求項7に記載の方法。
  18. 実装時に、コンピュータに言語識別を実行させる命令を含むコンピュータ可読媒体であって、前記命令は、
    複数の自然言語のそれぞれについて、特徴リスト、および前記リストされた特徴のそれぞれに関連付けられる期待される確率値を構築し、格納するように適合されたモジュールと、
    テキストサンプル中の実際の特徴をカウントし、前記実際の特徴に関連付けられる前記格納された期待される確率値にアクセスして前記テキストサンプルの少なくとも1つの自然言語を識別するように適合されたモジュールと
    を備えることを特徴とするコンピュータ可読媒体。
  19. 前記識別された自然言語の信頼度スコアを求め、前記信頼度スコアに基づいて自然言語をランク付けするように適合されたモジュールをさらに備えることを特徴とする請求項18に記載のコンピュータ可読媒体。
  20. 前記少なくとも1つの識別された自然言語それぞれについてNグラム言語プロファイルにアクセスして前記テキストサンプルに関する言語識別を実行するように適合されたモジュールをさらに備えることを特徴とする請求項18に記載のコンピュータ可読媒体。
JP2006035607A 2005-02-11 2006-02-13 効率のよい言語識別 Expired - Fee Related JP5173141B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/056,707 2005-02-11
US11/056,707 US8027832B2 (en) 2005-02-11 2005-02-11 Efficient language identification

Publications (2)

Publication Number Publication Date
JP2006221658A true JP2006221658A (ja) 2006-08-24
JP5173141B2 JP5173141B2 (ja) 2013-03-27

Family

ID=36616973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006035607A Expired - Fee Related JP5173141B2 (ja) 2005-02-11 2006-02-13 効率のよい言語識別

Country Status (5)

Country Link
US (1) US8027832B2 (ja)
EP (1) EP1691299A3 (ja)
JP (1) JP5173141B2 (ja)
KR (1) KR101265803B1 (ja)
CN (1) CN1819018B (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014517428A (ja) * 2011-06-24 2014-07-17 グーグル・インコーポレーテッド 検索クエリのソース言語を検出すること
JP2015534171A (ja) * 2012-09-18 2015-11-26 タッチタイプ リミテッド 電子文字列をフォーマットするためのフォーマットモジュール、システム及び方法
JP2017532684A (ja) * 2014-10-17 2017-11-02 マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. 言語検出を行うためのシステムおよび方法
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US10346543B2 (en) 2013-02-08 2019-07-09 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US10366170B2 (en) 2013-02-08 2019-07-30 Mz Ip Holdings, Llc Systems and methods for multi-user multi-lingual communications
US10417351B2 (en) 2013-02-08 2019-09-17 Mz Ip Holdings, Llc Systems and methods for multi-user mutli-lingual communications
JP2019215876A (ja) * 2019-07-03 2019-12-19 エム・ゼット・アイ・ピィ・ホールディングス・リミテッド・ライアビリティ・カンパニーMz Ip Holdings, Llc 言語検出を行うためのシステムおよび方法
US10614171B2 (en) 2013-02-08 2020-04-07 Mz Ip Holdings, Llc Systems and methods for multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0507036D0 (en) * 2005-04-07 2005-05-11 Ibm Method and system for language identification
US8185376B2 (en) * 2006-03-20 2012-05-22 Microsoft Corporation Identifying language origin of words
US7372851B2 (en) * 2006-06-28 2008-05-13 International Business Machines Corporation Method and system for automatic language negotiation on voice (over IP) calls
US7552045B2 (en) * 2006-12-18 2009-06-23 Nokia Corporation Method, apparatus and computer program product for providing flexible text based language identification
US8326598B1 (en) * 2007-03-26 2012-12-04 Google Inc. Consensus translations from multiple machine translation systems
US8301623B2 (en) * 2007-05-22 2012-10-30 Amazon Technologies, Inc. Probabilistic recommendation system
US8219447B1 (en) 2007-06-06 2012-07-10 Amazon Technologies, Inc. Real-time adaptive probabilistic selection of messages
GB0717067D0 (en) * 2007-09-03 2007-10-10 Ibm An Apparatus for preparing a display document for analysis
EP2107473A1 (en) * 2008-03-31 2009-10-07 Sony Corporation System and method for determining the laguage of teletext
US8869015B2 (en) * 2008-05-08 2014-10-21 Dialogic (Us) Inc. System and method to permit language independence for web interfaces
US8676001B2 (en) 2008-05-12 2014-03-18 Google Inc. Automatic discovery of popular landmarks
US8019596B2 (en) * 2008-06-26 2011-09-13 Microsoft Corporation Linguistic service platform
US8107671B2 (en) * 2008-06-26 2012-01-31 Microsoft Corporation Script detection service
US8073680B2 (en) * 2008-06-26 2011-12-06 Microsoft Corporation Language detection service
US8266514B2 (en) * 2008-06-26 2012-09-11 Microsoft Corporation Map service
US8239287B1 (en) 2008-10-31 2012-08-07 Amazon Technologies, Inc. System for detecting probabilistic associations between items
US8224641B2 (en) * 2008-11-19 2012-07-17 Stratify, Inc. Language identification for documents containing multiple languages
US8224642B2 (en) * 2008-11-20 2012-07-17 Stratify, Inc. Automated identification of documents as not belonging to any language
US8396287B2 (en) * 2009-05-15 2013-03-12 Google Inc. Landmarks from digital photo collections
US8468011B1 (en) * 2009-06-05 2013-06-18 Google Inc. Detecting writing systems and languages
US20110087962A1 (en) * 2009-10-14 2011-04-14 Qualcomm Incorporated Method and apparatus for the automatic predictive selection of input methods for web browsers
US20120035905A1 (en) * 2010-08-09 2012-02-09 Xerox Corporation System and method for handling multiple languages in text
US8635061B2 (en) 2010-10-14 2014-01-21 Microsoft Corporation Language identification in multilingual text
US9063931B2 (en) * 2011-02-16 2015-06-23 Ming-Yuan Wu Multiple language translation system
US9535895B2 (en) * 2011-03-17 2017-01-03 Amazon Technologies, Inc. n-Gram-based language prediction
US8938670B2 (en) * 2011-03-27 2015-01-20 Brian Andrew Kolo Methods and systems for automated language identification
US8872852B2 (en) * 2011-06-30 2014-10-28 International Business Machines Corporation Positional context determination with multi marker confidence ranking
US10650063B1 (en) * 2012-11-27 2020-05-12 Robert D. Fish Systems and methods for making correlations
US8837835B1 (en) * 2014-01-20 2014-09-16 Array Technology, LLC Document grouping system
CN106326205B (zh) * 2015-06-19 2019-05-31 珠海金山办公软件有限公司 一种拼写检查方法及装置
US9778914B2 (en) * 2015-06-25 2017-10-03 Ca, Inc. Automatic discovery of comparable features based on N-gram analysis
US9606990B2 (en) 2015-08-04 2017-03-28 International Business Machines Corporation Cognitive system with ingestion of natural language documents with embedded code
KR101693627B1 (ko) 2015-10-08 2017-01-17 숭실대학교산학협력단 문자 인코딩 변환 장치 및 방법
US20170116194A1 (en) 2015-10-23 2017-04-27 International Business Machines Corporation Ingestion planning for complex tables
US10402392B2 (en) 2016-03-03 2019-09-03 International Business Machines Corporation Identifying corrupted text segments
US10430835B2 (en) * 2016-04-14 2019-10-01 Google Llc Methods, systems, and media for language identification of a media content item based on comments
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
CN107526742B (zh) * 2016-06-21 2021-10-08 伊姆西Ip控股有限责任公司 用于处理多语言文本的方法和设备
US9898457B1 (en) * 2016-10-03 2018-02-20 Microsoft Technology Licensing, Llc Identifying non-natural language for content analysis
CN106910501B (zh) * 2017-02-27 2019-03-01 腾讯科技(深圳)有限公司 文本实体提取方法及装置
KR101946836B1 (ko) * 2017-03-28 2019-04-29 주식회사 와이즈넛 언어 판별 장치 및 방법
US10789410B1 (en) * 2017-06-26 2020-09-29 Amazon Technologies, Inc. Identification of source languages for terms
US10984788B2 (en) * 2017-08-18 2021-04-20 Blackberry Limited User-guided arbitration of speech processing results
US10964318B2 (en) 2017-08-18 2021-03-30 Blackberry Limited Dialogue management
US10497370B2 (en) 2017-08-18 2019-12-03 2236008 Ontario Inc. Recognition module affinity
CN112334974A (zh) * 2018-10-11 2021-02-05 谷歌有限责任公司 使用跨语言音素映射的语音生成
US11410641B2 (en) * 2018-11-28 2022-08-09 Google Llc Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance
CN109934251B (zh) * 2018-12-27 2021-08-06 国家计算机网络与信息安全管理中心广东分中心 一种用于小语种文本识别的方法、识别系统及存储介质
CN110491375B (zh) * 2019-08-22 2022-02-01 新疆科大讯飞信息科技有限责任公司 一种目标语种检测的方法和装置
CN111368918B (zh) * 2020-03-04 2024-01-05 拉扎斯网络科技(上海)有限公司 文本纠错方法、装置、电子设备及存储介质
US11620547B2 (en) 2020-05-19 2023-04-04 Oracle International Corporation Estimating number of distinct values in a data set using machine learning
US20210374778A1 (en) * 2020-06-02 2021-12-02 Express Scripts Strategic Development, Inc. User experience management system
US11537594B2 (en) * 2021-02-05 2022-12-27 Oracle International Corporation Approximate estimation of number of distinct keys in a multiset using a sample
US11520834B1 (en) 2021-07-28 2022-12-06 Oracle International Corporation Chaining bloom filters to estimate the number of keys with low frequencies in a dataset
US20230162520A1 (en) * 2021-11-23 2023-05-25 Abbyy Development Inc. Identifying writing systems utilized in documents

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10232866A (ja) * 1996-12-04 1998-09-02 Canon Inc データ処理方法及び装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5392419A (en) 1992-01-24 1995-02-21 Hewlett-Packard Company Language identification system and method for a peripheral unit
US6029124A (en) * 1997-02-21 2000-02-22 Dragon Systems, Inc. Sequential, nonparametric speech recognition and speaker identification
TW421750B (en) * 1997-03-14 2001-02-11 Omron Tateisi Electronics Co Language identification device, language identification method and storage media recorded with program of language identification
US6415250B1 (en) * 1997-06-18 2002-07-02 Novell, Inc. System and method for identifying language using morphologically-based techniques
US6047251A (en) * 1997-09-15 2000-04-04 Caere Corporation Automatic language identification system for multilingual optical character recognition
US6157905A (en) * 1997-12-11 2000-12-05 Microsoft Corporation Identifying language and character set of data representing text
US6272456B1 (en) * 1998-03-19 2001-08-07 Microsoft Corporation System and method for identifying the language of written text having a plurality of different length n-gram profiles
JP2001249922A (ja) * 1999-12-28 2001-09-14 Matsushita Electric Ind Co Ltd 単語分割方式及び装置
DE60044423D1 (de) * 2000-02-03 2010-07-01 Hitachi Ltd Verfahren und Gerät zum Wiederauffinden und Ausgeben von Dokumenten und Speichermedium mit entspechendem Program
GB2391967A (en) * 2002-08-16 2004-02-18 Canon Kk Information analysing apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10232866A (ja) * 1996-12-04 1998-09-02 Canon Inc データ処理方法及び装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014517428A (ja) * 2011-06-24 2014-07-17 グーグル・インコーポレーテッド 検索クエリのソース言語を検出すること
JP2015534171A (ja) * 2012-09-18 2015-11-26 タッチタイプ リミテッド 電子文字列をフォーマットするためのフォーマットモジュール、システム及び方法
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US10346543B2 (en) 2013-02-08 2019-07-09 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US10366170B2 (en) 2013-02-08 2019-07-30 Mz Ip Holdings, Llc Systems and methods for multi-user multi-lingual communications
US10417351B2 (en) 2013-02-08 2019-09-17 Mz Ip Holdings, Llc Systems and methods for multi-user mutli-lingual communications
US10614171B2 (en) 2013-02-08 2020-04-07 Mz Ip Holdings, Llc Systems and methods for multi-user multi-lingual communications
US10657333B2 (en) 2013-02-08 2020-05-19 Mz Ip Holdings, Llc Systems and methods for multi-user multi-lingual communications
US10685190B2 (en) 2013-02-08 2020-06-16 Mz Ip Holdings, Llc Systems and methods for multi-user multi-lingual communications
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
JP2017532684A (ja) * 2014-10-17 2017-11-02 マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. 言語検出を行うためのシステムおよび方法
US10699073B2 (en) 2014-10-17 2020-06-30 Mz Ip Holdings, Llc Systems and methods for language detection
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
JP2019215876A (ja) * 2019-07-03 2019-12-19 エム・ゼット・アイ・ピィ・ホールディングス・リミテッド・ライアビリティ・カンパニーMz Ip Holdings, Llc 言語検出を行うためのシステムおよび方法

Also Published As

Publication number Publication date
KR101265803B1 (ko) 2013-05-20
EP1691299A3 (en) 2007-01-24
JP5173141B2 (ja) 2013-03-27
US20060184357A1 (en) 2006-08-17
KR20060091051A (ko) 2006-08-17
US8027832B2 (en) 2011-09-27
CN1819018B (zh) 2012-04-18
EP1691299A2 (en) 2006-08-16
CN1819018A (zh) 2006-08-16

Similar Documents

Publication Publication Date Title
JP5173141B2 (ja) 効率のよい言語識別
JP4701292B2 (ja) テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
Snyder et al. A statistical model for lost language decipherment
WO2019214149A1 (zh) 文本关键信息的识别方法、电子装置及可读存储介质
US9348809B1 (en) Modifying a tokenizer based on pseudo data for natural language processing
Zouaghi et al. Combination of information retrieval methods with LESK algorithm for Arabic word sense disambiguation
JP5379138B2 (ja) 領域辞書の作成
Samanta et al. A simple real-word error detection and correction using local word bigram and trigram
JP2006216044A (ja) 辞書学習方法、その利用する装置、及び入力方法とその方法を利用するユーザ端末装置
Darwish et al. Using Stem-Templates to Improve Arabic POS and Gender/Number Tagging.
Khan et al. A light weight stemmer for Urdu language: a scarce resourced language
Dahab et al. A comparative study on Arabic stemmers
Ahmed et al. Revised n-gram based automatic spelling correction tool to improve retrieval effectiveness
US7136803B2 (en) Japanese virtual dictionary
EP3598321A1 (en) Method for parsing natural language text with constituent construction links
Jain et al. “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning
Saharia et al. Analysis and evaluation of stemming algorithms: a case study with Assamese
Chinnakotla et al. Transliteration for resource-scarce languages
CN113743090B (zh) 一种关键词提取方法及装置
US8224642B2 (en) Automated identification of documents as not belonging to any language
JP2014146312A (ja) 強化言語モデル表現を使用するフレーズベース機械翻訳におけるサンプリングおよび最適化
JPWO2007010836A1 (ja) コミュニティ特有表現検出装置及び方法
Piskorski et al. Lemmatization of Polish person names
JP3369127B2 (ja) 形態素解析装置
Shah et al. A unique word prediction system for text entry in Hindi

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121120

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20121121

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20121127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20121121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121227

R150 Certificate of patent or registration of utility model

Ref document number: 5173141

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees