JP4986919B2 - タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法 - Google Patents

タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法 Download PDF

Info

Publication number
JP4986919B2
JP4986919B2 JP2008117038A JP2008117038A JP4986919B2 JP 4986919 B2 JP4986919 B2 JP 4986919B2 JP 2008117038 A JP2008117038 A JP 2008117038A JP 2008117038 A JP2008117038 A JP 2008117038A JP 4986919 B2 JP4986919 B2 JP 4986919B2
Authority
JP
Japan
Prior art keywords
word
information
lexicon
storing
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008117038A
Other languages
English (en)
Other versions
JP2008234680A (ja
Inventor
エム.ジェシー アンドレア
ダブリュ.ポター ダグラス
アール.パウエル ケビン
アール.エッカート ミリアム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2008234680A publication Critical patent/JP2008234680A/ja
Application granted granted Critical
Publication of JP4986919B2 publication Critical patent/JP4986919B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Calculators And Similar Devices (AREA)

Description

本発明は、自然言語処理またはテキスト処理に関する。より詳細には、本発明は、レキシコン(lexicon)を格納する改良データ構造、および改良データ構造を構成し使用する方法に関する。
自然言語処理またはテキスト処理は、多くの種類のシステムまたはアプリケーションを包含する。すなわち、サーチエンジンなどのための単語の分割、文法チェックおよびスペルチェック、手書き文字認識および音声認識、機械翻訳、テキストマイニングなどである。多くの自然言語処理システムおよびアプリケーションの、共通かつ重要なコンポーネントは、1つまたは複数のレキシコンである。
概して、レキシコンは、異なる種別に分類される単語についての情報を含むデータ構造である。単語種別は、基本形または「見出し語」、変化形、および派生形を含む。見出し語は概して、単語の最も単純な形、たとえば「jump」を含み、この形に対して、他の種別の単語が語尾変化され、または派生される。見出し語は完全な単語であるが、語幹は必ずしも完全な単語ではない点で、見出し語は語幹とは異なる。
変化形は、単語、一般に見出し語の代替形または語尾が変化した形であり、(接頭辞または接尾辞などの)接辞を追加し、または数、人称、法、もしくは時制など文法的な特徴を反映する。したがって、「jumps」、「jumping」、および「jumped」などは、見出し語「jump」の変化形である。派生形は、派生によって別の単語から形成される単語である。したがって、「electricity」は、「electric」の派生形である。
レキシコンは、構文情報および意味情報を含むこともできる。構文情報は、単語がそれによって文法的に正しい句または文に組み合わされる構文規則に関する。したがって、単語に関する構文情報は、単語が名詞、動詞、形容詞などであるかを含むことができ、その単語と、同じ文中の1つまたは複数の他の単語との関係、たとえば主語−動詞や動詞−目的語の関係を含むことができる。対照的に、意味情報は意味を伝える。単語の意味は、定義、性、数、および、単語が名前付きエンティティ、たとえば名前、姓、都市名などであるかを含むことができる。構文情報と意味情報の間には、ある程度の重なりがある。たとえば、単数や複数などの数、および性は、意味も伝え、特定の構文規則に従っても使われる。
さらに、レキシコンは、特定の種類の言語処理に有用な情報を含むことができる。たとえば単語およびその単語のセグメンテーションを含む情報は、たとえば単語の分割アプリケーションを補助するために格納されることができる。他の構文情報および/または意味情報は、クエリ、文法チェック、またはスペルチェックなど、他の言語処理システムを補助するために格納されることができる。
概して、演算速度と、レキシコンに格納される情報の量および詳細さとの間には妥協点が存在する。したがって、たとえば、単語の分割アプリケーションでは、レキシコンが、遭遇した各見出し語の様々な変化形および派生形についての詳細な情報を既に格納している場合、演算速度が向上する。ワードブレーカが、体系的にクエリ中の単語を分割して、たとえば、照会された単語から見出し語および変化形を生成しなければならない場合、演算速度は低下する。
動作中、自然言語処理システムは、入力単語または単語列を受け取り、レキシコンに格納された情報にアクセスして、システムパラメータに従って1つの単語または複数の単語を処理することができる。たとえば、拡張ワードステミング(stemming)システムを使用するサーチエンジンまたはデータ取出しエンジンは、「dogs」などのクエリを受け取り、格納されているレキシコンから、(たとえば複合語、見出し語、変化形、派生形、類義語、名前付きエンティティなどの)関連する用語、たとえば「hounddog」、「dog」、「dogged」、「Collie」、または「Lassie」を取り出すことができる。あるいは、受け取られたクエリは、「dogs」、「dogged」などとして入力されることもでき、システムは、レキシコンにアクセスして、見出し語「dog」を取り出す。このような単語生成または単語縮小(collapse)は、システムパラメータに応じて、単語探索を広げるまたは狭めるのに使われることができる。
文法チェックシステムやスペルチェックシステムなど別のシステムは、「He eat a hptdg」などの単語列を受け取り、レキシコンに格納された情報にアクセスして、文を「He eats a hot dog」に修正することができる。同様に、手書き文字認識および音声認識、機械翻訳、テキストマイニングなどのシステム、および類似のシステムは、システムパラメータに従ってさらに処理を行うために、レキシコンに格納された情報にアクセスすることができる。
2003年10月30日に出願した、米国特許出願公開第2003/0204392A1号明細書「Lexicon with Sectionalized Data and Method of Using the Same」
複数の自然言語処理システムまたはテキスト処理システムに使用されることも適合されることもできるレキシコン、特に、効率的に格納され、容易にアクセス可能であり、更新されることができるレキシコンが、非常に有益であろう。
レキシコンは、コンピュータ可読媒体に格納され、様々な言語処理システムによってアクセスされることができる。レキシコンは一般に、単語情報を、各単語エントリに関連づけられた複数のデータフィールドに格納する。データフィールドは、スペルおよび動的セグメンテーションについての情報と、品詞と、単語が別の単語に変形されることができるステップと、単語の記述と、複合語に関するセグメンテーションとを含むことができる。レキシコンに格納されることができない情報は、中間索引テーブルに格納されることができる。
一態様では、レキシコンは、様々なアプリケーションとともに使われることも、単一のアプリケーションに組み込まれることもできる。別の態様では、レキシコンを構成する方法が提示される。任意選択で、この方法は、レキシコンを新しい単語で更新することを含むことができる。さらに別の態様では、レキシコンは、ある特定の言語、たとえば英語用に構成される。ただし、ある特定の分野、たとえば工学に関する部分集合(a subset)レキシコンが構成されることもできる。
図1は、本発明が実施されることができる、適切な計算機システム環境の例100を示す。計算機システム環境100は、適切な計算機環境の一例に過ぎず、本発明の使用または機能の範囲に対するどのような限定を示唆することも意図していない。計算機環境100は、例示的な動作環境100に示されるどのコンポーネントにもその組合せにも関するどのような依存も要件も有していると解釈されるべきではない。
本発明は、他の数多くの汎用または専用の通信環境または構成とも動作する。本発明とともに使用するのに適切であり得る他の公知の計算システム、環境、および/または構成の例は、パーソナルコンピュータ、サーバコンピュータ、携帯型装置またはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記のシステムまたは装置のいずれをも含む分散型計算機環境などを含むが、それに限定されるものではない。
本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令という一般的な状況において説明されることができる。概して、プログラムモジュールは、特定のタスクを実施しまたは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は、通信ネットワークを介してリンクされるリモート処理装置によってタスクが実施される分散型計算機環境でも実施されることができる。分散型計算機環境では、プログラムモジュールは、メモリ記憶装置を含むローカルおよびリモートコンピュータ記憶媒体両方に置かれることができる。
図1を参照すると、本発明を実施する例示的なシステムは、汎用計算装置を、コンピュータ110の形で含む。コンピュータ110のコンポーネントは、処理装置120と、システムメモリ130と、システムメモリなど様々なシステムコンポーネントを処理装置120に結合するシステムバス121とを含むことができるが、それに限定されない。システムバス121は、様々なバスアーキテクチャのどれをも使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスなどいくつかの種類のバス構造のいずれでもよい。限定ではなく例として、このようなアーキテクチャは、ISA(業界標準アーキテクチャ)バス、MCA(マイクロチャネルアーキテクチャ)バス、EISA(拡張ISA)バス、VESA(米国ビデオ電子装置規格化協会)ローカルバス、およびメザニン(Mezzanine)バスとしても知られるPCI(周辺装置相互接続)バスを含む。
コンピュータ110は通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセスされることができるとともに揮発性媒体および不揮発性媒体両方、取外し可能媒体および固定型媒体を含む、利用可能などの媒体でもよい。限定ではなく例として、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報の格納のためのどの方法でも技術でも実施される揮発性媒体および不揮発性媒体両方、取外し可能媒体および固定型媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光学ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、あるいは、所望の情報を格納するのに使われることができるとともにコンピュータ110によってアクセスされることができる他のどの媒体も含むが、それに限定されない。通信媒体は一般に、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを、変調データ信号、たとえば搬送波や他の移送機構として具体化し、どの情報配信媒体も含む。「変調データ信号」という用語は、信号中の情報を符号化するようなやり方で設定されまたは変更される信号特性の1つまたは複数を有する信号を意味する。限定ではなく例として、通信媒体は、有線ネットワークや直接有線接続などの有線媒体、ならびに音響、RF、赤外線、および他の無線媒体などの無線媒体を含む。上記のどの組合せも、やはりコンピュータ可読媒体の範囲に含まれるべきである。
システムメモリ130は、コンピュータ記憶媒体を、読出し専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132など、揮発性および/または不揮発性メモリの形で含む。基本入出力システム(BIOS)133は、たとえば起動中にコンピュータ110内部の要素間の情報の転送を助ける基本ルーチンを含み、通常はROM131に格納される。RAM132は一般に、処理装置120に対してただちにアクセス可能な、かつ/または処理装置120によって現在操作されているデータおよび/またはプログラムモジュールを含む。限定ではなく例として、図1では、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を示す。
コンピュータ110は、他の取外し可能/固定型、揮発性/不揮発性コンピュータ記憶媒体を含むこともできる。単なる例として、図1では、固定型の不揮発性磁気媒体からの読出しまたはそこへの書込みを行うハードディスクドライブ141、取外し可能な不揮発性磁気ディスク152からの読出しまたはそこへの書込みを行う磁気ディスクドライブ151、および、CD ROMや他の光学媒体など取外し可能な不揮発性光ディスク156からの読出しまたはそこへの書込みを行う光ディスクドライブ155を示す。例示的な動作環境で使われることができる、他の取外し可能/固定型、揮発性/不揮発性コンピュータ記憶媒体は、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、固体RAM、固体ROMなどを含むが、それに限定されない。ハードディスクドライブ141は通常、インタフェース140などの固定型メモリインタフェースによって、システムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は通常、インタフェース150などの取外し可能メモリインタフェースによって、システムバス121に接続される。
上述し、かつ図1に示されているディスクドライブおよびそれに関連するコンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピュータ110のための他のデータの格納を可能にする。図1では、たとえば、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を格納するものとして示される。こうしたコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じでも、異なってもよいことに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147は、少なくとも異なるものであることを示すために、ここでは異なる番号が与えられている。
ユーザは、キーボード162、マイクロホン163、および指示装置161、たとえばマウス、トラックボール、またはタッチパッドなどの入力装置を介して、コマンドおよび情報をコンピュータ110に入力することができる。図示しない他の入力装置は、ジョイスティック、ゲーム用パッド、衛星パラボラアンテナ、スキャナなどを含むことができる。こうしたおよび他の入力装置はしばしば、システムバスに結合されるユーザ入力インタフェース160を介して処理装置120に接続されるが、他のインタフェースおよびバス構造、たとえば並列ポート、ゲームポート、USB(ユニバーサルシリアルバス)によって接続されることもできる。モニタ191または他の種類の表示装置も、映像インタフェース190などのインタフェースを介してシステムバス121に接続される。モニタに加え、コンピュータは、出力周辺インタフェース195を介して接続されることができるスピーカ197およびプリンタ196など、他の周辺出力装置も含むことができる。
コンピュータ110は、リモートコンピュータ180など、1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク接続された環境において動作することができる。リモートコンピュータ180は、パーソナルコンピュータ、携帯型装置、サーバ、ルータ、ネットワークPC、ピア装置、または他の共通ネットワークノードでよく、通常、コンピュータ110に関連して上述された要素の多くまたはすべてを含む。図1に示される論理接続は、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173を含むが、他のネットワークを含むこともできる。このようなネットワーク環境は、会社、企業規模のコンピュータネットワーク、イントラネットおよびインターネットにおいてよく見られる。
LANネットワーク環境において使われる場合、コンピュータ110は、ネットワークインタフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーク環境において使われる場合、コンピュータ110は通常、モデム172、または、たとえばインターネットなどのWAN173を介して通信を確立する他の手段を含む。モデム172は、内部にあっても外部にあってもよく、ユーザ入力インタフェース160または他の適切な機構を介してシステムバス121に接続されることができる。ネットワーク接続された環境では、コンピュータ110に関連して図示したプログラムモジュールまたはその一部は、リモートメモリ記憶装置に格納されることができる。限定ではなく例として、図1は、リモートアプリケーションプログラム185を、リモートコンピュータ180に常駐するものとして示す。図示したネットワーク接続は例示的なものであり、コンピュータ間の通信リンクを確立する他の手段も使われることができることが理解されよう。
図2は、例示的な代替計算機環境であるモバイル装置200のブロック図である。モバイル装置200は、マイクロプロセッサ202、メモリ204、入出力(I/O)コンポーネント206、およびリモートコンピュータまたは他のモバイル装置と通信するための通信インタフェース208を含む。一実施形態では、上述したコンポーネントは、適切なバス210を介して互いに通信するために結合される。
メモリ204は、不揮発性電子メモリ、たとえば(図示しない)バッテリバックアップモジュールを有するランダムアクセスメモリ(RAM)として実装され、そうすることによって、モバイル装置200全体の電源がシャットダウンされたときに、メモリ204に格納された情報が失われないようになる。メモリ204の一部分は、好ましくはプログラム実行用にアドレス指定可能なメモリとして割り振られ、メモリ204の別の部分は、好ましくは記憶用に、たとえばディスクドライブ上で記憶をシミュレートするために用いられる。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、ならびにオブジェクトストア216を含む。動作中、オペレーティングシステム212は、好ましくは、メモリ204から、プロセッサ202によって実行される。オペレーティングシステム212は、好ましい一実施形態では、マイクロソフトコーポレーションから販売されているWINDOWS(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム212は、好ましくは、モバイル装置用に設計され、公表されている1組のアプリケーションプログラミングインタフェースおよび方法を介してアプリケーション214によって利用されることができるデータベースの特徴を実装する。オブジェクトストア216内のオブジェクトは、公表されているアプリケーションプログラミングインタフェースおよび方法に対する呼出しに少なくとも部分的に応答して、アプリケーション214およびオペレーティングシステム212によって維持される。
通信インタフェース208は、モバイル装置200が情報を送受信することを可能にする多数の装置および技術を表す。このような装置は、いくつか例を挙げると、有線モデムおよび無線モデム、衛星受信機、ならびに放送チューナを含む。モバイル装置200は、データ交換を行うコンピュータに直接接続されることもできる。このような場合、通信インタフェース208は、赤外線送受信機でも、直列または並列通信接続でもよく、これらはすべて、ストリーム情報を伝送することができる。
入出力コンポーネント206は、接触式画面、ボタン、ローラ、およびマイクロホンなどの様々な入力装置、ならびに音声ジェネレータ、振動装置、およびディスプレイを含む様々な出力装置を含む。上に列挙した装置は例であり、すべてがモバイル装置200上になくてもよい。さらに、他の入力/出力装置が、本発明の範囲内において、モバイル装置200に取り付けられてもよく、モバイル装置200とともにあってもよい。
図3は、言語処理システムまたはテキスト処理システム300を全体的に示す。システム300は、通常1つまたは複数の単語からなるテキスト列の形で言語入力302を受け取り、言語入力302を処理して、やはり通常1つまたは複数の単語からなるテキスト列の形で言語出力304をもたらす。言語入力302および出力304は、ストリーミングレキシコンデータでもよく、この場合、処理システム300は、たとえば音声認識システムでは、レキシコン308の情報に高速にアクセスして、出力304を生成する。
概して、言語処理システム300は、(たとえばクエリシステム用の)ワードブレーカ、スペルチェッカ、文法チェッカ、音声認識システム、手書き文字認識システム、機械翻訳システム、テキストマイニングシステム、または他の言語処理システムとして実施されることができる。言語処理システム300は、別のシステムによってアクセス可能な、またはそれに含まれる、独立型(stand−alone)アプリケーション、モジュール、またはコンポーネントでよいことが、当業者には理解されよう。
言語処理システムまたはアプリケーション300は、テキストアナライザ306およびレキシコン308を含む。テキストアナライザ306は、入力302を受け取り、レキシコン308に格納された単語情報にアクセスするとともにその情報を受け取り、受け取った単語情報を処理して、出力304を生成しまたは提供するコンポーネントおよび/またはモジュールを概略的に表す。本発明の一態様は、ある特定のアプリケーションによる要求に応じて、テキストアナライザ306に情報を効率的に提供するような、レキシコン308用の改良データ構造である。レキシコン308は、拡張ワードステミングシステム、クエリシステムおよび/またはワードブレーカ、スペルチェッカ、文法チェッカ、音声認識システム、手書き文字認識システム、ならびに機械翻訳システムなど、多数のアプリケーションを実装し、あるいはその実装を助けるのに適合され、使用され、または必要とされる基本的な側面またはデータを含むことができる。
レキシコン308は、様々な言語処理システムにおいて使われることができ、かつ/または様々なテキストアナライザとともに使われることができる個別のコンポーネントでよいことに留意されたい。様々なテキストアナライザ306がどのようにしてレキシコン308に適合されることができるか、当業者は容易に理解できよう。レキシコン308は、ある特定のアプリケーションにとって不可欠とされることも、あるアプリケーションに対して単にアクセス可能とされることもできる。テキストアナライザ306は、図1のコンピュータ110にも、リモートコンピュータ180など、コンピュータ110と通信するどのコンピュータにも常駐できることも理解されよう。同様に、レキシコン308は、コンピュータ110上で、上述した記憶装置のいずれに常駐することもでき、適切な通信リンクを介してアクセス可能となることもできる。
図4は、本発明のレキシコン、たとえばレキシコン308に入力される単語の配置またはデータ構造を概略的に示す。レキシコン308に格納される各エントリまたは単語401、403、405は、関連づけられたデータフィールドを有する。たとえば、単語401は、それにデータフィールド402、404、406、408、410を関連づける。単語403は、それにデータフィールド412、414、416、418、420を関連づける。単語405は、それにデータフィールド432、434、436、438、440を関連づける。好ましくは、各入力単語ごとに、1つのフィールド402、412、432が、スペルおよび動的セグメンテーション情報を含む。第2のフィールド404、414、434は、品詞(POS)情報を含む。第3のフィールド406、416、436は、見出し語デルタ情報を含む。第4のフィールド408、418、438は、記述情報、すなわち入力単語の記述を含むが、これは、辞書種別の定義を通常通り含むわけではない。第5のフィールド410、420、440は、静的セグメンテーション情報、すなわち静的セグメンテーションマスクを含む。静的セグメンテーションマスクは、本明細書において詳細に説明される、「bluehounddog」などの複合語に特に適している。いくつかの実施形態では、データフィールドは、図4に示すように可変サイズでよい。他の実施形態では、データフィールドのサイズは固定される。
図4Aは、どのようにして単語がレキシコン308に格納されることができるかを詳細に示す。データフィールド450、460、470、480、490は、それぞれ、図4に示した、スペルおよび動的セグメンテーションデータフィールド、POSデータフィールド、見出し語デルタデータフィールド、記述データフィールド、および静的セグメンテーションデータフィールドに対応する。各フィールド450、460、470、480、490は、複数の情報データバイトに分割される。スペルおよび動的セグメンテーションフィールド450は、バイト452、454、456、458を含むことができる。POSフィールド460は、バイト462、464、466、468を含むことができる。見出し語デルタフィールド470は、バイト472、474、476、478を含むことができる。記述フィールド480は、バイト482、484、486、488を含むことができる。静的セグメンテーションフィールド490は、バイト492、494、496、498を含むことができる。いくつかの実施形態では、図示したデータバイトはそれぞれ、8ビットのデータを含むことができ、したがって、各データフィールドは、32ビットの情報、すなわち232通りの可能な組合せまたはデータの値を含むことができる。ただし、公知であるように、「ハフマン符号化」が、様々なデータフィールドを符号化するのに使われることができ、その結果、より少ない量の空間が、(たとえば5つの4バイトフィールドのような)各エントリに割り当てられる最大量の記憶空間まで、単語情報またはデータを符号化するのに使われることができるようになる。
図5は、本発明によるレキシコン308、540を構成するレキシコン構成および更新モジュール500を示す。レキシコンデータ502は、上述した入力装置または記憶装置のいずれからも、レキシコン構成および更新モジュール500によって受け取られる。レキシコンデータ502は、新聞、または、たとえば機関誌、雑誌、本などの出版物から受け取られる未処理データを含むことができる。レキシコンデータ502は、ウェブソースまたは様々な音声認識エンジンから受け取られるテキストでもよい。代替実施形態では、レキシコンデータ502は、単語リストまたは用語集510を構築するのに必要な前処理の量を制限する、単語からなる辞書、特にある言語に特有の辞書を含むことができる。
いくつかの実施形態では、レキシコン構成および更新モジュール500は、前処理モジュール504を備え、前処理モジュール504は、ある特定の言語に関してレキシコン308、540に入力される単語からなる用語集または単語リスト510を生成する。単語リスト510は、レキシコン308、540に最初に入力されるすべての単語からなる完全なリストでもよい。あるいは、単語リスト510は、レキシコン308、540を増大しまたは更新するためにレキシコン308、540に追加される新しい単語を含むこともできる。
本発明は、入力される各単語ごとの情報の量または豊富さと、レキシコン中のすべてのエントリにわたる、データの可能な組合せの量とを対比して調整することに留意されたい。ほとんどの実施形態では、特定のテーブルまたは列を有する公知の「ハフマン符号化」が、上述したような本発明を実施するのに使われることができる。概して、あるエントリに対する情報の量は、その情報を符号化するのに必要な最低限の記憶サイズまたは空間を占有する。より多くのデータパターンが複数のエントリの間で共有されると、レキシコン全体の大きさはより小さくなることに留意されたい。しかし、各エントリごとの情報がより豊富になると、レキシコン全体に対して符号化されるパターンの総数はより多くなる。こうした、符号化されるパターンの増加は、「エントロピー」と類推され、圧縮技術の主要な挑戦課題である。したがって、「エントロピー」がより高くなると、損失なくデータを符号化するのに必要とされる情報ビットがより多くなる。したがって、レキシコンに格納されるデータのエントロピーを、実行可能な程度までできるだけ抑えることが有利である。
再度図5を参照すると、従来、前処理モジュール504は、レキシコンデータ502を、単語、ならびにピリオドおよびコンマなどの文法素性に解析しまたはセグメント化する構文解析系(parser)506を備えることができる。図6は、レキシコン308、540を構成するための方法のステップを示す。前処理モジュール504は、図6に示されるステップ602でレキシコンデータを受け取り、レキシコンデータ502において、単語リストまたは用語集510に追加される単語をステップ604で選択しまたは識別する単語抽出装置508を備えることができる。前処理モジュール504は、特に、レキシコンデータ502が本発明に従って更新される辞書またはレキシコンを含む実施形態では、任意選択でよい。
単語リストまたは用語集510は、タグ付けモジュール512によって受け取られ、タグ付けモジュール512は、本発明に従って単語を処理し、または単語にタグ付けして、レキシコン308、540を構成する。概して、タグは、アプリケーションまたはシステムによってアクセスされるときに有用な、単語に関する特定の構文情報および/または意味情報を示す。タグ付けモジュール512は、スペルおよび動的セグメンテーションモジュール514、品詞モジュール516、見出し語デルタモジュール518、記述モジュール520、ならびに静的セグメンテーションマスクモジュール522のいくつかまたは全部を含むことができる下位モジュールを備える。各タグ付け下位モジュールは、レキシコン308、540中の各エントリごとに、情報からなるビット、またはタグを追加する。
ステップ606で、スペルおよび動的セグメンテーションモジュール514は、スペルおよび動的セグメンテーション情報を含む1つまたは複数のタグを構成する。ほとんどの実施形態では、各入力単語のテキストスペルは、一意の識別番号に関連づけられる。スペル情報は、レキシコン308、540中の各単語がどのようにしてスペル修正アプリケーションを補助するかを示すように符号化されることができる。たとえば、いくつかの実施形態では、スペル情報は、頻度指示を含むことができ、頻度指示は、スペルチェッカによって、起こり得るミススペルが遭遇されるときに、提案セットにおける単語の順位づけを生成しまたは調整するのに使われることができる。スペル情報は、単語が正しいかチェックされるべきであっても、提案セット中に生成されるべきではないかどうかを含むことができる。この情報は、不適当または通俗的とみなされる単語には特に有用である。符号化されたこのような情報は、通俗的な単語が、スペルに関してチェックされるが、ミススペルに関する代替単語からなる提案セットの一部とはならないことを可能にする。スペル情報は、同じ言語の異なる方言において単語をスペルチェックするための情報も含むことができる。たとえば、アメリカ英語は、「color」という用語を使用するが、イギリス英語は、別のスペル「colour」をもつ。したがって、スペルタグは、たとえば、「colour」が、イギリス英語では正しいスペルであるが、アメリカ英語ではミススペルであることを示すことができる。
さらに、スペルおよび動的セグメンテーションモジュール514は、動的セグメンテーション情報を含む。動的セグメンテーション情報は、構成単語が、複合語において正当に組み合わされるかどうかを判定する検証処理によってアクセスされることができる情報からなるビットを含む。いくつかの実施形態では、検証処理は、選択された言語における有効な複合語を認識するために、単語を、2つ以上の別個のレキシコンエントリにマッピングさせる。
たとえば、複合語「bluehounddog」は、セグメンテーションビットまたは値でマーク付けされることができる構成単語「blue」、「hound」、および「dog」を有する。アプリケーションの実行時中、こうしたビットは、構成単語が正しく組み合わされるかどうか、したがって有効な複合語であるかどうかを判定するためにアクセスされることができる。動的セグメンテーションビットは、ある構成単語の、別の構成単語に対する相対的な位置を示すこともできる。構成単語とは、たとえば接頭辞、接尾辞などであり、構成単語の位置は、ドイツ語など、長い複合語を形成する言語では特に重要である。他の実施形態では、構成単語は、スペイン語において一般に出現するように、複数の符号を含むことができる。
レキシコン308、540は、単語の複合を「認めすぎる」(over−accept)べきでないことに留意されたい。言い換えると、複合語がある特定の言語において有効でない場合、構成単語は、組み合わされることができると示すべきでない。したがって、本発明において、ある特定の言語をレキシコンに適合させることは、言語固有である。たとえば、複合語に関するドイツ語の言語規則は、スペイン語とは非常に異なる。しかし、モジュール514は、スペルおよび動的セグメンテーションフィールド450に格納されたビットを用いて、いずれの言語においても、構成単語に適した動的セグメンテーション情報を符号化することができる。
いくつかの実施形態では、モジュール514は、ある特定のコードまたは値を用いて、複合語の先頭になり得る単語に関する動的セグメンテーション情報を符号化する。先頭の単語に付加し得るものは、付加物として符号化され、それが先頭の単語に付加されることができることを示す別のコードを用いて、さらに符号化される。要するに、概して、ある特定の言語用のレキシコンにおいて複合語を構築するための可能な組合せ規則、すなわち音声規則、構文規則、および/または形態規則からなる行列が存在する。ただし、アプリケーションが、レキシコンに格納された情報に高速にアクセスできることが有利である。ステップ608で、品詞モジュール516は、品詞(POS)に関する情報、たとえば単語が、名詞、動詞、または形容詞であるかという情報を追加する。ただし、より詳細なPOS情報が含まれることができる。たとえば、複数の名詞が、同じ名詞の単数形に関連する一義的なコードをもつことができる。POSタグ用の重要な1つのアプリケーションは、所与の文または文字列における単語の役割を識別することである。たとえば、単語「dog」は、異なる2つのPOSタグをもつことができる。すなわち、一方のタグは、その役割を名詞として示し、他方は動詞として示す。文字列「I pet the dog」において、用語「dog」は名詞である。しかし、文「I dogged after my big brother」では、基本語「dog」は、動詞として働く。単語の具体的な役割は、単語の間の関係を規定する、個々の単語ごとに符号化される周囲の用語およびPOSタグに関連して決定されることができる。POSタグは、一般に「チャンク」(chunk)または「アイランド」(island)解析として知られる単純な構文解析を実施するための規則の組とともに使われることもできることに留意されたい。構文解析において、POSタグおよび他の情報、たとえば時制は、隣接する用語からなる小さい「チャンク」を、1つの構文単位としてリンクされる文として認識するのに使われることができる。
ステップ610で、見出し語デルタモジュール518は、(たとえば変化形および見出し語などの)2つの単語が互いにどれだけ異なるかということに関する情報を符号化する。いくつかの実施形態では、最大4バイトの情報が、見出し語デルタフィールド470に符号化され、この符号化は、本質的に、(たとえば変化形または派生形などの)ある単語を(たとえば基本形または見出し語などの)別の単語に変形するステップである。単語「runs」が、レキシコン308,540に入力されると仮定する。本発明において、単語「runs」は、たとえば、完全な変形を作るのに必要な最大4つの状態またはステップを用いて、その見出し語「run」に変形されることができる。概して、本発明は、所与の言語に関して、変化形または派生形を、対応する見出し語に変形するのに必要な、(たとえば可能な15個のステップなどの)最も一般的なステップを符号化することを試みる。
ほとんどの実施形態において、4つの状態をもつステートマシンが、「オペレーションコード」とそれに続く「引数値」を用いて、単語を他の単語に変形しまたはマッピングする。「runs」が「run」に変形される例において、オペレーションコードは、「接尾辞をカットする」こと、すなわち「CutSuffix」であり、引数値は、「1」、(すなわち、「runs」の末尾からカットされる文字数)となり得る。いくつかの実施形態では、15個の異なるオペレーションコードが、変形を記録するのに使われることができる。たとえば、「接頭辞をカットする」、すなわち「CutPrefix」は、単語の先頭をカットすることを示す別のオペレーションコードとそれに続く引数値、すなわちカットされる文字数でよい。いくつかのオペレーションコードは、滅多に使われない。例示的な一実施形態では、4ビットの情報が、オペレーションコードとそれに続く4ビットの引数値を示すように符号化される。したがって、8ビットの情報、すなわち各ステップごとに1バイト、すなわち最大4バイトが、見出し語デルタモジュール518によって見出し語デルタフィールド470に符号化されることができる。
他の変形ステップは、ある特定の識別子に対応する引数値を有する、接尾辞が追加されるためのオペレーションコード「AddSuffix」を含むことができる。各識別子は、「s」や「er」など、ある特定の接尾辞に関連づけられる。このような識別子は、定義リスト中にある。
別のオペレーションコード「AddSuffixChar」は、追加される接尾辞が定義リストにないが、実際の接尾辞文字を有する引数を含む場合に使われることができる。この形のオペレーションコードは、(たとえば2バイトといった)2倍の量の記憶空間をとり得ることに留意されたい。
オペレーションコード「AddPrefix」は、「AddSuffix」と類似しているが、定義リストにある接頭辞に関する、ある特定の識別子に対応する引数値を含む。
オペレーションコード「AddPrefixChar」は、「AddSuffixChar」と類似しているが、接頭辞に関する、実際の文字に対応する引数値を含む。
オペレーションコード「ToUpper」は、文字を大文字に変えるのに使われることができ、引数値は、文字の位置を提供する。同様に、オペレーションコード「ToLower」は、文字を小文字に変え、引数値が文字の位置を提供する。
オペレーションコード「RemoveAccent」は、文字からアクセントを取り除くのに使われることができ、引数値が文字の位置を提供する。
オペレーションコード「AddAcuteAccent」は、文字に鋭アクセントを追加するのに使われることができ、引数値が文字の位置を提供する。同様に、オペレーションコード「AddGraveAccent」は、引数値によって規定されるある特定の文字の位置に、抑音アクセントを追加するのに使われることができる。オペレーションコード「AddDiaeresis」は、引数値によって規定される文字の位置に、分音記号を追加するのに使われることができる。オペレーションコード「AddCircumflexAccent」は、引き数値によって規定される文字の位置に、曲折アクセントを追加するのに使われることができる。同様に、オペレーションコード「AddTilde」は、引数値によって規定される文字の位置に、波形記号を追加するのに使われることができる。
最後に、オペレーションコード「SubstituteChar」は、ある特定の位置にある特定の文字を置換するのに使われることができる。この場合、2つの引数値があり得る。すなわち、1つは文字に関連づけられ、1つは選択される位置に関連づけられる。
ステップ612で、記述モジュール520は、基本的な意味、たとえば人称、性、時制、数、または、用語が名前付きエンティティの一部であり得るかどうかを伝える情報を記述フィールド480に符号化する。たとえば、「John Smith」などの単語列は、「John」が名前として符号化され、「Smith」が姓として符号化されるように符号化されることができる。単語「he」は、三人称、単数、および男性として符号化されることができる。単語「ran」は、一人称、二人称、および三人称、ならびに過去時制として符号化されることができる。たとえば、名前付きエンティティ検出を有するシステムまたはアプリケーションでは、本発明のレキシコンは、単語列が名前付きエンティティである場合を判定するためにアクセスされることができ、単語列は、個別に処理されるのではなく、まとめて処理されるべきである。他の記述ビット、たとえば人称、性、時制、および数は、スペルおよび文法訂正などのアプリケーションにおいて有用である。いくつかの実施形態では、記述フィールド480中の記述情報は、先行するデータフィールド450、460、470のように、最大4バイトのデータフィールドを占有することができる。
ステップ614で、静的セグメンテーションマスクモジュール522は、情報を静的セグメンテーションマスクフィールド490に符号化する。符号化される情報は、セグメンテーション、すなわち、単語、特に複合語を、異なるセグメントおよび長さに分割する一連のカットポイントを含む。たとえば、複合語「bluehounddog」では、カットポイントまたはセグメントの長さは、4、5、および3、(すなわちblueに対して4文字、houndに対して5文字、およびdogに対して3文字)となり得る。セグメントの長さは、たとえばサーチエンジンにおいて、実行時に複合語の構成単語を復元するのに使われることができる。いくつかの実施形態では、最後の数字3は、4および5のような最初の2つのカットポイントから暗示されるので、取り去られることができる。(たとえば、「hounddog」の例では3のような)最後のセグメンテーションの長さを取り去ることは、コードの組合せの数を削減するのに必要とされる、記憶空間の量の削減に有利である。他の実施形態では、ある特定の複合語に対して複数のセグメンテーションをもつことが可能である。したがって、「bluehounddog」は、4、5、3および/または4、5のようにセグメント化されることができる。他のセグメンテーションは、4、8および/または4(すなわち「blue」に対して4、「hounddog」に対して8を)含むことができ、この場合、「hounddog」は、単一の構成単語としてセグメント化される。したがって、静的セグメンテーションマスクモジュール522は、ある特定の複合語に対して、レキシコン308、540に格納されるセグメンテーションの複数の組を生成することができる。
上記の実施形態では、静的セグメンテーションマスク情報は、構成単語の長さを示す値を含む。しかし、代替実施形態では、値は、構成単語の最初または最後の文字を示す文字を示すことができる。したがって、「bluehounddog」の例では、可能なセグメンテーションは、5、10または4、9を含むことができる。というのは、値5、10および4、9は、それぞれ、構成単語の最初および最後の文字を示すからである。
いくつかの実施形態では、レキシコン中の各エントリまたは単語に関連づけられた、符号化される情報または「タグ」は、最大5個の4バイト量として格納されることができ、スペルおよび動的セグメンテーションモジュール514、品詞モジュール516、見出し語デルタモジュール518、記述モジュール520、および静的セグメンテーションマスクモジュール522がそれぞれ、4バイト量の情報を格納し、またはその情報を格納させる。しかし、他の実施形態では、他のデータ量または追加フィールドが、要望に応じて、レキシコン308、540中のエントリ用に使われることができる。
いくつかの状況では、データは、上述したような5つのタグの1つに符号化されることができないことに留意されたい。このような状況では、ステップ616で、データは、このようなデータが格納される公知の中間索引テーブル(IIT)554をポイントするポインタ552を使う第2の機構を用いて、符号化されることができる。このような中間索引テーブルは、その内容の全体が参照によって本明細書に組み込まれている特許文献1で説明されている。
概して、このようなやり方でサポートされるいくつかの種類の拡張データがある。第1の種類は、複数の見出し語をもつエントリ用である。第1のまたは主要な見出し語のみが、見出し語デルタモジュール518によってタグに格納されることができるので、後続の見出し語は、実行時に利用可能なIIT554に格納されなければならない。IIT554に格納される後続の見出し語は、各単語に関連づけられた所与のデータの値または単語識別番号とともに格納されることができる。実行時に、この一義的なデータの値は、所与のエントリに必要とされる見出し語列を復元するのに使われることができる。
いくつかの実施形態では、IIT554の記憶配置は、4バイトの値のアレイを含み、1バイトの値は、エントリの「種類」を示し、3バイトの値は、見出し語の識別コードを符号化する。変化形などは、同じやり方で格納されるが、エントリがある特定の変化形種類であることを示すために、異なる識別コードでマーク付けされる。IIT554に格納される別の種類のデータは、テキスト文中に出現する所与の品詞タグに関する確率情報を含む。たとえば、「dog」が名詞でも動詞でもよい例では、「dog」が名詞である確率は、どの文においても、「dog」が動詞として使われる確率より確実に高い。この確率情報は、見出し語および変化形と同様のやり方で格納されることができる。たとえば、合計で4バイトの情報が格納されることができるが、この場合、1バイトの値が「種類」を示し、3バイトの値が、用語集510中の特定の単語に関連づけられる。
ステップ618で、レキシコン構成および更新モジュール500は、データフィールド450、460、470、480、490を生成しまたは提供して、ある特定の言語用のレキシコン308、540を構成する。レキシコン構成および更新モジュール500は、たとえば英語、ドイツ語、スペイン語、中国語、韓国語など、どの言語においても、レキシコンを生成することができる。他の実施形態では、モジュール500は、単語リスト510にある新しい単語を用いて、レキシコン308、540を更新する。このようなレキシコン更新機能は、レキシコン構成および更新モジュール500が、たとえば、新しい単語が使用可能になると、レキシコン308、540に追加される、そうした新しい単語に関する(たとえば出版物やウェブサイトなどの)レキシコンデータを絶えず監視することを可能にする。さらに他の実施形態では、レキシコン構成および更新モジュール500は、特定の目的のための部分集合レキシコンを生成することができる。たとえば、特定の科学、工学、スポーツ、文化、または芸術活動において使われる単語を含む、そうした活動を対象とする異なるレキシコンを有することが有利な場合がある。特定の活動に限定されたレキシコンは、有利には、レキシコン全体の大きさを制限する傾向にある。というのは、いくつかの単語は、一部の活動において共通であるが、それ以外の活動においては共通でないからである。また、いくつかの単語は、活動に応じて、違うように用いられる場合も、違うつづりをされる場合もあり得る。
本発明は、特定の実施形態を参照して説明されたが、本発明の精神および範囲から逸脱することなく、形体および細部において変更が行われることができることを当業者は理解するであろう。
本発明が実施されることができる一般的な計算機環境を示すブロック図である。 本発明が実施されることができる一般的なモバイル計算機環境を示すブロック図である。 本発明による、レキシコンにアクセスする言語処理システムを示すブロック図である。 本発明によるデータフィールドを示す図である。 図4に示したデータフィールドを拡大したものを示す図である。 本発明のレキシコンを構成する一実施形態を示すブロック図である。 本発明のレキシコンを構成する方法を示すフロー図である。
符号の説明
120 処理装置
130 システムメモリ
134 オペレーティングシステム
135 アプリケーションプログラム
136 他のプログラムモジュール
137 プログラムデータ
140 固定型不揮発性メモリインタフェース
144 オペレーティングシステム
145 アプリケーションプログラム
146 他のプログラムモジュール
147 プログラムデータ
150 取外し可能不揮発性メモリインタフェース
160 ユーザ入力インタフェース
161 指示装置
162 キーボード
163 マイクロホン
170 ネットワークインタフェース
171 ローカルエリアネットワーク
172 モデム
173 ワイドエリアネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 映像インタフェース
191 モニタ
195 出力周辺インタフェース
196 プリンタ
197 スピーカ
202 プロセッサ
204 メモリ
208 通信インタフェース
214 アプリケーション(群)
216 オブジェクトストア
302 入力
304 出力
306 テキストアナライザ
308 レキシコン

Claims (3)

  1. 言語処理に使用するためのレキシコンをコンピュータによって構築する方法であって、
    前記コンピュータが受け取った入力テキストから抽出した単語毎に、
    記入力テキストに含まれる前記単語のスペル情報を生成し、前記レキシコンに格納するステップと、
    前記単語が少なくとも2つの別個の構成単語で構成される複合語であるとき、選択された言語における有効な複合語を認識する際に使用される動的セグメンテーション情報であって前記複合語における前記少なくとも2つの別個の構成単語の相対的な位置を示す動的セグメンテーション情報を生成し、前記レキシコンに格納するステップと、
    前記単語の品詞を表す品詞情報を生成し、記レキシコンに格納するステップであって、前記単語が複数の品詞を有するとき、前記品詞情報は前記複数の品詞を表すステップと、
    記単語を第2の単語に変形するための見出し語デルタ情報を生成し、前記レキシコンに格納するステップであって、前記見出し語デルタ情報は、前記単語を前記第2の単語に変形するために前記単語に対して実行するオペレーションを示すオペレーションコードと、前記オペレーションを実行すべき前記単語内の文字を指示する引数値とを含むステップと、
    前記入力テキストに含まれる前記単語に関する記述情報であって前記単語の文法的特徴、または前記単語が名前を表す用語の一部であるかどうかを記述する記述情報を生成し前記レキシコンに格納するステップと、
    前記入力テキストに含まれる前記単語が前記複合語である場合に、前記複合語を構成する各構成単語の長さを示す値を含む静的セグメンテーションマスク情報を生成し、前記静的セグメンテーションマスク情報を前記レキシコンに格納するステップと
    を実行することによって前記レキシコンを構築し、該構築されたレキシコンは、前記コンピュータからアクセス可能、前記コンピュータの記憶装置に格納され、前記コンピュータが1つまたは複数の単語を含む新たな入力から出力を生成するための言語処理を実行するのに使用可能であることを特徴とする方法。
  2. 前記入力テキスト内の複数の品詞を有する単語について、各単語が個々の品詞として用いられる相対的な確率を示す確率情報を格納する中間索引テーブルを生成するステップをさらに含むことを特徴とする請求項1に記載の方法。
  3. 前記コンピュータが新たな入力テキストを受け取ったとき、該新たな入力テキストに含まれる単語から、現時点で前記レキシコンにない新しい単語を選択するステップと、
    前記選択した単語の各々に対して、前記スペル情報生成し、格納するステップと、前記動的セグメンテーションを生成し、格納するステップと、前記品詞情報を生成し、格納するステップと、前記見出し語デルタ情報を生成し、格納するステップと、前記記述情報を生成し、格納するステップと、前記静的セグメンテーションマスク情報を生成し、格納するステップとを実行して、前記レキシコンを更新するステップと
    をさらに含むことを特徴とする請求項1に記載の方法。
JP2008117038A 2003-10-23 2008-04-28 タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法 Expired - Fee Related JP4986919B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US51392103P 2003-10-23 2003-10-23
US60/513,921 2003-10-23
US10/804,998 2004-03-19
US10/804,998 US7421386B2 (en) 2003-10-23 2004-03-19 Full-form lexicon with tagged data and methods of constructing and using the same

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004275875A Division JP4676181B2 (ja) 2003-10-23 2004-09-22 タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法

Publications (2)

Publication Number Publication Date
JP2008234680A JP2008234680A (ja) 2008-10-02
JP4986919B2 true JP4986919B2 (ja) 2012-07-25

Family

ID=34396615

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2004275875A Expired - Fee Related JP4676181B2 (ja) 2003-10-23 2004-09-22 タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法
JP2008117038A Expired - Fee Related JP4986919B2 (ja) 2003-10-23 2008-04-28 タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2004275875A Expired - Fee Related JP4676181B2 (ja) 2003-10-23 2004-09-22 タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法

Country Status (7)

Country Link
US (1) US7421386B2 (ja)
EP (1) EP1526464B1 (ja)
JP (2) JP4676181B2 (ja)
KR (1) KR101130384B1 (ja)
CN (1) CN1670728A (ja)
AT (1) ATE401609T1 (ja)
DE (1) DE602004015039D1 (ja)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7447627B2 (en) * 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
US7421386B2 (en) 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same
US7398210B2 (en) * 2003-10-23 2008-07-08 Microsoft Corporation System and method for performing analysis on word variants
JP4754247B2 (ja) * 2004-03-31 2011-08-24 オセ−テクノロジーズ ビーブイ 複合語を構成する単語を割り出す装置及びコンピュータ化された方法
US7409334B1 (en) * 2004-07-22 2008-08-05 The United States Of America As Represented By The Director, National Security Agency Method of text processing
KR100682897B1 (ko) * 2004-11-09 2007-02-15 삼성전자주식회사 사전 업데이트 방법 및 그 장치
US7869989B1 (en) * 2005-01-28 2011-01-11 Artificial Cognition Inc. Methods and apparatus for understanding machine vocabulary
US20070078644A1 (en) * 2005-09-30 2007-04-05 Microsoft Corporation Detecting segmentation errors in an annotated corpus
US7624099B2 (en) * 2005-10-13 2009-11-24 Microsoft Corporation Client-server word-breaking framework
JP4671898B2 (ja) * 2006-03-30 2011-04-20 富士通株式会社 音声認識装置、音声認識方法、音声認識プログラム
US8024173B1 (en) 2006-09-11 2011-09-20 WordRake Holdings, LLC Computer processes for detecting and correcting writing problems associated with nominalizations
JP4446313B2 (ja) * 2006-12-15 2010-04-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理用の辞書に登録するべき新規語句を検索する技術
JP2008287406A (ja) * 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
US20080294982A1 (en) * 2007-05-21 2008-11-27 Microsoft Corporation Providing relevant text auto-completions
CN100483416C (zh) * 2007-05-22 2009-04-29 北京搜狗科技发展有限公司 一种字符输入的方法、输入法系统及词库更新的方法
JP5241828B2 (ja) * 2007-06-14 2013-07-17 グーグル・インコーポレーテッド 辞書の単語及び熟語の判定
US8527262B2 (en) * 2007-06-22 2013-09-03 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
US8630841B2 (en) 2007-06-29 2014-01-14 Microsoft Corporation Regular expression word verification
US7912703B2 (en) * 2007-12-10 2011-03-22 International Business Machines Corporation Unsupervised stemming schema learning and lexicon acquisition from corpora
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
US8706477B1 (en) 2008-04-25 2014-04-22 Softwin Srl Romania Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code
US20100169768A1 (en) * 2008-12-31 2010-07-01 International Business Machines Corporation Spell Checker That Teaches Rules of Spelling
US20100228538A1 (en) * 2009-03-03 2010-09-09 Yamada John A Computational linguistic systems and methods
US8762130B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking
US8762131B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions
EP2534585A4 (en) * 2010-02-12 2018-01-24 Google LLC Compound splitting
US9378202B2 (en) * 2010-03-26 2016-06-28 Virtuoz Sa Semantic clustering
KR20120089502A (ko) * 2010-12-09 2012-08-13 한국전자통신연구원 번역지식 서버 생성 방법 및 그 장치
US8533724B1 (en) 2010-12-20 2013-09-10 Amazon Technologies, Inc. Virtual resource provisioning by assigning colors to virtual resources in multi-tenant resource pool
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
US8868766B1 (en) 2011-03-29 2014-10-21 Amazon Technologies, Inc. Optimizing communication among collections of computing resources
US8775438B1 (en) * 2011-09-22 2014-07-08 Amazon Technologies, Inc. Inferring resource allocation decisions from descriptive information
EP2788894A4 (en) * 2011-12-05 2015-11-11 Nexalogy Environics Inc SYSTEM AND METHOD FOR PERFORMING AN ANALYSIS ON INFORMATION SUCH AS SOCIAL MEDIA
US20130166282A1 (en) * 2011-12-21 2013-06-27 Federated Media Publishing, Llc Method and apparatus for rating documents and authors
US9208134B2 (en) * 2012-01-10 2015-12-08 King Abdulaziz City For Science And Technology Methods and systems for tokenizing multilingual textual documents
CN103678301B (zh) * 2012-08-30 2017-02-08 英业达科技有限公司 高级查询并新增翻译内容的翻译查询系统及其方法
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10409909B2 (en) * 2014-12-12 2019-09-10 Omni Ai, Inc. Lexical analyzer for a neuro-linguistic behavior recognition system
US10409910B2 (en) 2014-12-12 2019-09-10 Omni Ai, Inc. Perceptual associative memory for a neuro-linguistic behavior recognition system
US9678941B2 (en) 2014-12-23 2017-06-13 International Business Machines Corporation Domain-specific computational lexicon formation
DE102015017039A1 (de) * 2015-02-17 2016-08-11 Nikolaus Castell Automatische Analyse von geschriebenen und gesprochenen Texten einer Ausgangssprache (hier dargestellt am Beispiel der deutschen Sprache) bezueglich ihrer sprach-grammatischen Stimmigkeit, was eine verbesserte Ausgangssituation fuer Uebersetzungen in andere Sprachen darstellt
CN105161095B (zh) * 2015-07-29 2017-03-22 百度在线网络技术(北京)有限公司 语音识别语法树的构图方法及装置
US10733224B2 (en) * 2017-02-07 2020-08-04 International Business Machines Corporation Automatic corpus selection and halting condition detection for semantic asset expansion
US10445423B2 (en) 2017-08-17 2019-10-15 International Business Machines Corporation Domain-specific lexically-driven pre-parser
US10769375B2 (en) 2017-08-17 2020-09-08 International Business Machines Corporation Domain-specific lexical analysis
US11010553B2 (en) * 2018-04-18 2021-05-18 International Business Machines Corporation Recommending authors to expand personal lexicon
US11580301B2 (en) * 2019-01-08 2023-02-14 Genpact Luxembourg S.à r.l. II Method and system for hybrid entity recognition
CN109670188A (zh) * 2019-01-23 2019-04-23 北京超试科技有限公司 数据处理方法及装置
CN112447168A (zh) * 2019-09-05 2021-03-05 阿里巴巴集团控股有限公司 语音识别系统、方法、音箱、显示设备和交互平台
CN112037770B (zh) * 2020-08-03 2023-12-29 北京捷通华声科技股份有限公司 发音词典的生成方法、单词语音识别的方法和装置
CN111894582B (zh) * 2020-08-04 2021-09-24 中国矿业大学 一种采煤机控制方法
CN112417900B (zh) * 2020-11-25 2024-08-09 北京乐我无限科技有限责任公司 一种翻译方法、装置、电子设备及计算机可读存储介质
US11791838B2 (en) * 2021-01-15 2023-10-17 Samsung Electronics Co., Ltd. Near-storage acceleration of dictionary decoding
CN115358189B (zh) * 2022-08-18 2024-10-08 中国电信股份有限公司 文本编码方法、装置、介质及设备

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4384329A (en) * 1980-12-19 1983-05-17 International Business Machines Corporation Retrieval of related linked linguistic expressions including synonyms and antonyms
US4724523A (en) * 1985-07-01 1988-02-09 Houghton Mifflin Company Method and apparatus for the electronic storage and retrieval of expressions and linguistic information
JPS608980A (ja) * 1983-06-28 1985-01-17 Brother Ind Ltd 電子辞書
US4736296A (en) * 1983-12-26 1988-04-05 Hitachi, Ltd. Method and apparatus of intelligent guidance in natural language
JPS60245083A (ja) * 1984-05-18 1985-12-04 Brother Ind Ltd 電子辞書
JPS6126176A (ja) * 1984-07-17 1986-02-05 Nec Corp 言語処理用辞書
JPS6165361A (ja) * 1984-09-05 1986-04-03 Sharp Corp 電子式仏単語辞書
US4701851A (en) * 1984-10-24 1987-10-20 International Business Machines Corporation Compound word spelling verification
US4672571A (en) * 1984-10-24 1987-06-09 International Business Machines Corporation Compound word suitability for spelling verification
US4771385A (en) * 1984-11-21 1988-09-13 Nec Corporation Word recognition processing time reduction system using word length and hash technique involving head letters
US4969097A (en) * 1985-09-18 1990-11-06 Levin Leonid D Method of rapid entering of text into computer equipment
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5056021A (en) * 1989-06-08 1991-10-08 Carolyn Ausborn Method and apparatus for abstracting concepts from natural language
JPH03161727A (ja) * 1989-11-20 1991-07-11 Fuji Photo Film Co Ltd カメラの主要被写体検出装置
US5708829A (en) * 1991-02-01 1998-01-13 Wang Laboratories, Inc. Text indexing system
JPH0581313A (ja) * 1991-09-20 1993-04-02 Kobe Nippon Denki Software Kk 辞書作成装置
JP2875075B2 (ja) 1991-10-30 1999-03-24 シャープ株式会社 電子辞書
JP2897191B2 (ja) * 1992-05-20 1999-05-31 株式会社シーエスケイ 日本語形態素解析システム及び形態素解析方式
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
US6760695B1 (en) * 1992-08-31 2004-07-06 Logovista Corporation Automated natural language processing
US6278967B1 (en) * 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
JPH0756957A (ja) * 1993-08-03 1995-03-03 Xerox Corp ユーザへの情報提供方法
US5611076A (en) * 1994-09-21 1997-03-11 Micro Data Base Systems, Inc. Multi-model database management system engine for databases having complex data models
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
JP3003915B2 (ja) * 1994-12-26 2000-01-31 シャープ株式会社 単語辞書検索装置
JPH08323842A (ja) * 1995-06-02 1996-12-10 Tsutsunaka Plast Ind Co Ltd シートブロー成形品と成形方法
US5995922A (en) * 1996-05-02 1999-11-30 Microsoft Corporation Identifying information related to an input word in an electronic dictionary
US5864863A (en) * 1996-08-09 1999-01-26 Digital Equipment Corporation Method for parsing, indexing and searching world-wide-web pages
JP2001505330A (ja) * 1996-08-22 2001-04-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ テキストストリーム中の単語の切れ目を与える方法及び装置
US6081774A (en) * 1997-08-22 2000-06-27 Novell, Inc. Natural language information retrieval system and method
US5995992A (en) * 1997-11-17 1999-11-30 Bull Hn Information Systems Inc. Conditional truncation indicator control for a decimal numeric processor employing result truncation
AU2953499A (en) 1998-03-27 1999-10-18 Lernout & Hauspie Speech Products N.V. Speech recognition dictionary enlargement using derived words
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
US6298321B1 (en) * 1998-11-23 2001-10-02 Microsoft Corporation Trie compression using substates and utilizing pointers to replace or merge identical, reordered states
US6278968B1 (en) * 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6675169B1 (en) * 1999-09-07 2004-01-06 Microsoft Corporation Method and system for attaching information to words of a trie
US6393389B1 (en) * 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
JP3717730B2 (ja) * 1999-11-02 2005-11-16 セイコーインスツル株式会社 電子辞書
US6792418B1 (en) * 2000-03-29 2004-09-14 International Business Machines Corporation File or database manager systems based on a fractal hierarchical index structure
US6965858B2 (en) * 2000-04-03 2005-11-15 Xerox Corporation Method and apparatus for reducing the intermediate alphabet occurring between cascaded finite state transducers
JP2002132763A (ja) * 2000-10-26 2002-05-10 Sharp Corp 原文書き換え装置及び原文書き換え方法
GB0120862D0 (en) * 2001-08-29 2001-10-17 United Wire Ltd Method and device for joining screens
US7089188B2 (en) * 2002-03-27 2006-08-08 Hewlett-Packard Development Company, L.P. Method to expand inputs for word or document searching
US7490034B2 (en) * 2002-04-30 2009-02-10 Microsoft Corporation Lexicon with sectionalized data and method of using the same
US7680649B2 (en) * 2002-06-17 2010-03-16 International Business Machines Corporation System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
US7447627B2 (en) * 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
US7398210B2 (en) * 2003-10-23 2008-07-08 Microsoft Corporation System and method for performing analysis on word variants
US7421386B2 (en) 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same

Also Published As

Publication number Publication date
KR20050039540A (ko) 2005-04-29
US7421386B2 (en) 2008-09-02
US20050091031A1 (en) 2005-04-28
JP2008234680A (ja) 2008-10-02
JP2005129030A (ja) 2005-05-19
EP1526464B1 (en) 2008-07-16
JP4676181B2 (ja) 2011-04-27
EP1526464A1 (en) 2005-04-27
DE602004015039D1 (de) 2008-08-28
CN1670728A (zh) 2005-09-21
ATE401609T1 (de) 2008-08-15
KR101130384B1 (ko) 2012-06-27

Similar Documents

Publication Publication Date Title
JP4986919B2 (ja) タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法
Palmer Tokenisation and sentence segmentation
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US6539348B1 (en) Systems and methods for parsing a natural language sentence
US7739104B2 (en) System and method for natural language processing and using ontological searches
US20070011132A1 (en) Named entity translation
Freeman et al. Cross linguistic name matching in English and Arabic
JP2012248210A (ja) 日本語などの複雑言語のコンテンツを検索するシステム及び方法
CN102439590A (zh) 用于自然语言文本的自动语义标注的系统和方法
JP2008547093A (ja) モノリンガルコーポラおよび使用可能なバイリンガルコーポラからのコロケーション翻訳
KR20050007547A (ko) 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스
WO2008145055A1 (fr) Procédé pour obtenir une information de mot de restriction et pour optimiser le système du procédé d'entrée et de sortie
US7398210B2 (en) System and method for performing analysis on word variants
US6968308B1 (en) Method for segmenting non-segmented text using syntactic parse
KR20040101678A (ko) 복합 형태소 분석 장치 및 방법
EP0316743B1 (en) Method for removing enclitic endings from verbs in romance languages
Lehmann et al. BNCweb
Wu et al. Parsing-based Chinese word segmentation integrating morphological and syntactic information
Mohri et al. Probabilistic context-free grammar induction based on structural zeros
KR100487716B1 (ko) 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치
JP2005063030A (ja) 概念表現方法、概念表現生成方法及び概念表現生成装置並びに該方法を実現するプログラム及び該プログラムが記録された記録媒体
Chaware et al. Rule-based phonetic matching approach for Hindi and Marathi
KR100474359B1 (ko) 키워드 기반 N-gram 언어모델 구축 방법
Daoud Morphological analysis and diacritical Arabic text compression
JP2009009583A (ja) 構文パースを用いてセグメント化されていないテキストをセグメント化する方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110302

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110922

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120123

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20120124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120124

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120417

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120424

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4986919

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees