JP2007323671A - 中国語テキストにおける単語分割 - Google Patents

中国語テキストにおける単語分割 Download PDF

Info

Publication number
JP2007323671A
JP2007323671A JP2007211100A JP2007211100A JP2007323671A JP 2007323671 A JP2007323671 A JP 2007323671A JP 2007211100 A JP2007211100 A JP 2007211100A JP 2007211100 A JP2007211100 A JP 2007211100A JP 2007323671 A JP2007323671 A JP 2007323671A
Authority
JP
Japan
Prior art keywords
word
characters
words
character
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007211100A
Other languages
English (en)
Inventor
Andi Wu
アンディー ウ
Stephen D Richardson
スティーブン ディー. リチャードソン
Zixin Jiang
ジシン ジアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2007323671A publication Critical patent/JP2007323671A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Abstract

【課題】中国語分割を自動的に実行する正確で効率的な手法を提供すること。
【解決手段】本発明は、単語であることがある文字の自然言語文字組合せのシーケンスから選択するための機能を提供する。この機能は複数の単語の各々についての隣接する文字に応じた確率の指示を使用する。
【選択図】図1

Description

本発明は、一般に自然言語処理の分野に関し、より詳細には、単語分割(word segmentation)の分野に関する。
単語分割とは、テキストなどの言語表現を構成する個々の単語を識別するプロセスのことである。単語分割は、すべて個々の単語の識別の恩恵を受ける、綴りおよび文法の検査、テキストからの話法の合成、および自然言語の解剖および理解の実行に有用である。
英語テキストの単語分割の実行は、空白および句読点が一般にテキスト中の個々の単語を区切るのでかなり簡単である。下記の表1の英語センテンスについて考えてみる。
Figure 2007323671
表1の英語センテンスは、空白および/または句読点の連続した各シーケンスをそのシーケンスの前にある単語の末尾として識別することによって、下記の表2に示すように簡単に分割することができる。
Figure 2007323671
中国語テキストでは、単語の境界は明示的ではなく暗示的である。「委員会は昨日の午後ブエノスアイレスでこの問題について議論した。」を意味する、下記の表3のセンテンスについて考えてみる。
Figure 2007323671
センテンスに句読点および空白がないにもかかわらず、中国語の読者は、表3のセンテンスを、下記の表4で別々に下線を付けられた単語から構成されるものとして認識するであろう。
Figure 2007323671
上記の例から、中国語の単語分割は英語の単語分割と同じ形では実行できないことが分かる。とは言え、中国語分割を自動的に実行する正確で効率的な手法には、かなりの効用があろう。
本発明は、単語であることがある文字の自然言語文字組合せのシーケンスから選択するための機能(facility)を提供する。この機能は複数の単語の各々についての隣接する文字に応じた確率の指示を使用する。
本発明の一態様は、テキストセンテンス中に現れる個々の単語を識別するためのコンピュータシステムにおける方法である。この方法は、複数の単語の各々について、その単語が自然言語テキスト中に現れるかどうかの、隣接する文字に応じた確率の指示を格納するステップと、センテンス中に現れる連続した複数の文字グループの各々について、重なる可能性のある単語を判定するステップと、格納された指示および隣接する文字に基づいて確率を確認するステップと、可能性のある単語であると判定された文字グループを確率の指示とともにパーサ(parser)に提出するステップとを含む。この方法を実現する命令を格納するためのコンピュータ可読媒体も提供される。
本発明の第2の態様は、自然言語テキスト中に現れる個々の単語を識別するのに使用する単語分割データ構造を含有するコンピュータメモリを含む。このデータ構造は、複数の単語の各々について、その単語が自然言語テキスト中に現れるかどうかの、隣接する文字に応じた確率の指示を含む。
本発明は、中国語テキストにおける単語分割を提供する。好ましい実施形態では、単語分割ソフトウェア機能(「機能」)は、(1)入力センテンス中の文字の可能性のある組合せを評価し、入力センテンス中の単語を表す可能性のない組合せを廃棄すること、(2)辞書中の文字の残りの組合せを調べて、それらが単語を構成することができるかどうかを判定すること、(3)単語であると判定された文字の組合せを、入力センテンスを表す代替単語彙記録(lexical record)として自然言語パーサに提出することによって、中国語などの非分割言語におけるテキストのための単語分割を提供する。パーサは入力センテンスの構文構造(syntactic structure)を表す構文パースツリー(syntactic parse tree)を生成し、パースツリーは、入力センテンス中の単語であることが証明された文字の組合せを表す語彙記録のみを含有する。語彙記録をパーサに提出するとき、文字のより短い組合せよりもセンテンスの正確な分割をより一般的に表す文字のより長い組合せが、文字のより短い組合せの前にパーサによって考慮されるように、機能は語彙記録を重み付けする。
入力センテンス中の単語を表す可能性のない文字の組合せを廃棄することを容易にするために、機能は、辞書中に現れる各文字について、(1)単語が現れる単語長および文字位置のすべての異なる組合せの指示、および(2)この文字が単語を開始するときにこの文字の後にくることができるすべての文字の指示を、辞書に追加する。機能はさらに、(3)複数文字語内の下位単語が独立可能であり、考慮すべきかどうかの指示を複数文字語に追加する。センテンスを処理する場合、機能は、(1)辞書中に現れない単語長/位置組合せ中に使用されている文字の組合せ、および(2)第2の文字が第1の文字の第2の可能性のある文字として掲載されていない文字の組合せを廃棄する。機能はさらに、(3)下位単語を考慮すべきでない単語中に現れる文字の組合せを廃棄する。
このようにして、機能は、辞書中で調べられた文字組合せの数を最小にするだけでなく、センテンスの構文文脈を利用して、それぞれ有効な単語から構成される代替分割結果どうしを区別する。
図1は、機能が実行することが好ましい汎用コンピュータシステムの高レベルブロック図である。コンピュータシステム100は中央処理ユニット(CPU)110、入出力デバイス120、およびコンピュータメモリ(メモリ)130を含有する。入出力デバイスとしては、ハードディスクドライブなどの記憶デバイス121、コンピュータ可読媒体上に設けられる機能を含む、ソフトウェア製品をインストールするために使用することができるコンピュータ可読媒体ドライブ122、コンピュータシステム100が他の接続されたコンピュータシステム(図示せず)と通信することができるネットワーク接続123がある。メモリ130は、中国語テキスト中に現れる個々の単語を識別するための単語分割機能131、自然言語テキスト中に現れる単語を表す語彙記録から自然言語テキストセンテンスの構文構造を表すパースツリーを生成するための構文パーサ133、およびパースツリー用の語彙記録を構成する際にパーサによって使用され、また自然言語テキスト中に現れる単語を識別するために機能によって使用される語彙知識ベース132を含有することが好ましい。機能は上述のように構成されるコンピュータシステム上で実現することが好ましいが、当業者であれば異なる構成を有するコンピュータシステム上で実現することもできることを理解できよう。
図2は、機能が動作することが好ましい2つの段階を示す概略流れ図である。ステップ201で、初期化段階の一部として、機能は、単語分割を実行するために機能によって使用される情報を含むように語彙知識ベースを増大させる。ステップ201については図3に関して以下でより詳細に議論する。手短に言えば、ステップ201で、機能は、語彙知識ベース中の任意の単語中に現れる文字の項目を語彙知識ベースに追加する。各文字の追加された項目は、文字が単語中に現れる異なる位置を指示するCharPos属性を含む。各文字の項目はさらに、現在の文字で始まる単語の第2の位置に現れる文字の集合を指示するNextChars属性を含有する。最後に、機能はまた、現在の単語を一緒に構成するより小さい単語を含むように、単語を含んでいる文字のシーケンスをさらに考慮すべきかどうかを指示する語彙知識ベース中に現れるIgnoreParts属性を各単語に追加する。
ステップ201の後、機能はステップ202に進み、初期化段階を終了し、単語分割段階を開始する。単語分割段階では、機能は、語彙知識ベースに追加された情報を使用して、中国語テキストセンテンスの単語分割を実行する。ステップ202で、機能は単語分割のための中国語テキストセンテンスを受け付ける。ステップ203で、機能は受け付けたセンテンスをその成分語に分割する。ステップ203については図5に関して以下でより詳細に議論する。手短に言えば、機能は、センテンス中の文字の可能性のあるすべての連続した組合せの小部分を語彙知識ベース中で調べる。次いで機能は、語彙知識ベースによって単語であることが指示された調べた文字の組合せを構文パーサに提出する。パーサは、センテンスの構文構造を判定する場合、その著者によってセンテンス中の単語を含むように意図された文字の組合せを識別する。ステップ203の後、機能はステップ202に進み、単語分割のための次のセンテンスを受け付ける。
図3は、単語分割を実行するために使用される情報を含むように初期化段階において語彙知識ベースを増大させるために機能によって実行されることが好ましいステップを示す流れ図である。これらのステップは、(a)語彙知識ベース中の単語中に現れる文字の項目を語彙知識ベースに追加し、(b)語彙知識ベース中の文字項目にCharPosおよびNextChars属性を追加し、(c)語彙知識ベース中の単語の項目にIgnoreParts属性を追加する。
ステップ301〜312で、機能は語彙知識ベース中の各単語項目をループする。ステップ302で、機能は単語中の各文字位置をループする。すなわち、3つの文字を含有する単語の場合、機能は単語の第1、第2、および第3の文字をループする。ステップ303で、現在の文字位置にある文字が語彙知識ベース中に項目を有する場合、機能はステップ305に進み、そうでない場合、機能はステップ304に進む。ステップ304で、機能は現在の文字の項目を語彙知識ベースに追加する。ステップ304の後、機能は305に進む。ステップ305で、機能は、その文字が現在の単語中に現れている位置にその文字が現れることができることを指示する順序付けされた対を、語彙知識ベース中の文字の項目中に格納されたCharPos属性に追加する。追加された順序付けされた対は、形式(位置、長さ)を有する。ここで、位置は文字が単語中で占有している位置であり、長さは単語中の文字の数である。例えば、単語
Figure 2007323671
中の文字「委」について、機能は、文字「委」の語彙知識ベース項目中のCharPos属性中に格納された順序付けされた対のリストに、順序付けされた対(1、3)を追加することになる。順序付けされた対がすでに現在の単語のCharPos属性中に含有されている場合、機能は、ステップ305で説明したように順序付けされた対を追加しないことが好ましい。ステップ306で、処理すべき追加の文字が現在の単語中に残っている場合、機能はステップ302に進み、次の文字を処理し、そうでない場合、機能はステップ307に進む。
ステップ307で、単語が単数文字語である場合、機能はステップ309に進み、そうでない場合、機能はステップ308に進む。ステップ308で、機能は、現在の単語の位置にある文字を、現在の単語の第1の位置にある文字の語彙知識ベース記録中のNextChars属性中の文字のリストに追加する。例えば、単語
Figure 2007323671
の場合、機能は文字
Figure 2007323671
のNextChars属性の格納された文字のリストに文字「委」を追加する。ステップ308の後、機能は309に進む。
ステップ309で、現在の単語が他のより小さい単語を含有することができる場合、機能はステップ311に進み、そうでない場合、機能はステップ310に進む。ステップ309については図4に関して以下でより詳細に議論する。手短に言えば、機能は、いくつかのヒューリスティックス(heuristics)を使用して、現在の単語を構成する文字のシーケンスの発生がある文脈では2つ文字それ以上のより小さい単語を構成することができるかどうかを判定する。
ステップ310で、機能は単語の語彙知識ベース項目中に単語のIgnoreParts属性をセットする。IgnoreParts属性をセットすることは、機能が入力テキストセンテンス中でこの単語に遭遇したときに、この単語がより小さい単語を含有するかどうかを判定するためにさらなるステップを実行すべきであることを指示する。ステップ310の後、機能は312に進む。ステップ311で、現在の単語は他の単語を含有することができるので、機能は単語のIgnoreParts属性をクリアし、それにより機能は、入力テキストセンテンス中でこの単語に遭遇したときに、単語がより小さい単語を含有するかどうかの調査に取りかかる。ステップ311の後、機能は312に進む。ステップ312で、処理すべき追加の文字が語彙知識ベース中に残っている場合、機能はステップ301に進み、次の単語を処理し、そうでない場合、これらのステップは終了する。
機能は、各文字にCharPosおよびNextChar属性を割り振ることによって語彙知識ベースを増大させるために図3に示されるステップを実行するとき、以下の表5に示すように、表3に示されるサンプルセンテンス中に現れる文字にこれらの属性を割り振る。
Figure 2007323671
表5から、例えば、文字「昨」のCharPos属性から、この文字は、長さが2文字、3文字、または4文字の単語の第1の文字のように見えることが分かる。さらに、文字「昨」のNextChar属性から、この文字から始まる単語において、第2の文字は「儿」、「天」または「晩」のいずれかであることが分かる。
図4は、特定の単語が他のより小さい単語を含有することができるかどうかを判定するために実行されることが好ましいステップを示す流れ図である。英語との類推として、空白および句読点文字を英語センテンスから取り除いた場合、文字のシーケンス「beat」は単語「beat」かまたは2つの単語「be」および「at」と解釈することができよう。ステップ401で、単語が4つまたはそれ以上の文字を含有する場合、機能はステップ402に進み、単語が他の単語を含有することができないという結果を戻し、そうでない場合、機能はステップ403に進む。ステップ403で、単語中のすべての文字が単数文字語を構成することができる場合、機能はステップ405に進み、そうでない場合、機能はステップ404に進み、単語が他の単語を含有することができないという結果を戻す。ステップ405で、単語が派生接辞、すなわち接頭辞または接尾辞として頻繁に使用される単語を含有する場合、機能はステップ406に進み、単語が他の単語を含有することができないという結果を戻し、そうでない場合、機能はステップ407に進む。ステップ407で、単語中の隣接する文字対が、言語のテキスト中に隣接して現れたときにしばしば分割される場合、機能はステップ409に進み、単語が他の単語を含有することができるという結果を戻し、そうでない場合、機能はステップ408に進み、単語が他の単語を含有することができないという結果を戻す。
特定の単語が他のより小さい単語を含有することができるかどうかを判定した結果を以下の表6に示す。
Figure 2007323671
例えば、表6から、機能は、単語「昨天」が他の単語を含有することができないが、単語「天下」が他の単語を含有することができると判定したことが分かる。
図5は、センテンスをその成分語に分割するために機能によって実行されることが好ましいステップの流れ図である。これらのステップは、センテンス中に現れる言語の異なる単語を識別する単語リストを生成する。次いで単語リストは、その著者によってセンテンス中の単語を含むように意図された単語リスト中の部分集合を識別するためにパーサに提出される。
ステップ501で、機能は、センテンス中に現れる複数文字語を単語リストに追加する。ステップ501については図6に関して以下でより詳細に議論する。ステップ502で、機能は、センテンス中に現れる単数文字語を単語リストに追加する。ステップ502については図9に関して以下でより詳細に議論する。ステップ503で、機能は、ステップ501および502で単語リストに追加された単語の語彙パーサによって使用される語彙記録を生成する。ステップ504で、機能は語彙記録に確率を割り振る。語彙記録の確率は、語彙記録がセンテンスの正確なパースツリーの一部となる可能性を反映し、またパースプロセスにおける語彙記録の適用を順序付けするためにパーサによって使用される。パーサは、パースプロセス中に語彙記録をその確率の減少順に適用する。ステップ504については図10に関して以下でより詳細に議論する。ステップ505で、機能は構文パーサを使用して、語彙記録を解剖して、センテンスの構文構造を反映するパースツリーをつくり出す。このパースツリーは、そのリーフとしてステップ503で生成された語彙記録の部分集合を有する。ステップ506で、機能は、パースツリーのリーフである語彙記録によって表される単語をセンテンスの単語として識別する。ステップ506の後、これらのステップは終了する。
図6は、単語リストに複数文字語を追加するために機能によって実行されることが好ましいステップの流れ図である。これらのステップは、複数文字語を識別するためにセンテンスを分析する際にセンテンス内の現在位置を使用する。これらのステップはさらに、図4に示される機能によって語彙知識ベースに追加されたCharPos、NextChar、およびIgnoreParts属性を利用する。第1の好ましい実施形態によれば、図6に示されるステップの実行中に必要に応じて語彙知識ベースからこれらの属性を取り出す。第2の好ましい実施形態では、センテンス中の文字のNextChar属性および/またはCharPos属性の値が第2のステップの実行の前に事前ロードされる。第2の好ましい実施形態に関して、センテンス中に現れる各文字のCharPos属性の値を含有する3次元アレイがメモリ中に格納されることが好ましい。このアレイは、センテンス中の所与の位置にある文字について、その文字が所与の長さの単語中の所与の位置にあることができるかどうかを指示する。これらの属性の値を捕らえることにより、図6に示されるステップを実行するときにそれらの値に公式にアクセスすることが可能となる。
ステップ601で、機能は、この位置を文章の最初の文字にセットする。ステップ602〜614で、位置が文章の末尾に進むまでステップ603〜613を継続して繰り返す。
ステップ603〜609で、機能は、現行位置から始まる各単語候補を通ってループする。好ましくは、現行位置からスタートする7文字長の単語候補から始まり、各反復において、単語候補が2文字長になるまで単語候補の末尾から1文字を除去する。現行位置から始まる文章に残っている文字が7文字よりも少ない場合は、文章に残っている文字が不十分である単語候補に関する反復を機能が省略することが好ましい。ステップ604で、機能は、単語候補を構成している文字のNextCharおよびCharPosに関係する現行単語候補条件に関してテストする。ステップ604は、図7に関連して以下により詳細に論ずる。単語候補に関してNextChar条件とCharPos条件がどちらも満足されている場合は、機能はステップ605に続き、そうでない場合はステップ609に続く。ステップ605で、機能は、字句知識ベース中で単語候補を検索して、単語候補が単語であるかどうか判定する。ステップ606で、単語候補が単語である場合は、機能はステップ607に続き、そうでない場合はステップ609に続く。ステップ607で、機能は、単語候補を文章中に現れる単語のリストに追加する。ステップ608で、単語候補が他の単語を含む可能性がある場合、すなわち単語に関するIgnoreParts属性がクリア状態である場合は、機能はステップ609に続き、そうでない場合はステップ611に続く。ステップ609で、処理すべきさらなる単語候補が残っている場合は、機能はステップ603に続き、次の単語候補を処理し、そうでない場合はステップ610に続く。ステップ610で、現行位置を文章の末尾に向けて一文字進める。ステップ610の後、機能はステップ614に続く。
ステップ611で、単語候補の最後の文字が、これも単語である可能性がある別の単語候補と重複している場合は、機能はステップ613に続き、そうでない場合はステップ612に続く。ステップ611は、図8に関連して以下により詳細に論ずる。ステップ612で、機能は、単語候補の最後の文字の後にある文章中の文字に位置を進める。ステップ612の後、機能はステップ614に続く。ステップ613では、現行単語候補の最後の文字に位置を進める。ステップ613の後、機能はステップ614に続く。ステップ614で、位置が文章の末尾にない場合は、機能はステップ602に続いて、単語候補の新たなグループを考察し、そうでない場合はこれらのステップが終了する。
図7は、ある単語候補に関するNextChar条件およびCharPos条件をテストするために機能によって実施されることが好ましいステップを示す流れ図である。ステップ701で、単語候補の2番目の文字が、単語候補の最初の文字のNextCharリスト中にある場合は、機能はステップ703に続き、そうでない場合はステップ702に続き、条件がどちらも満足されているという結果を返す。ステップ703〜706で、機能は、単語候補中の各文字位置を通ってループする。ステップ704で、現行位置と単語候補の長さとから構成された順序対が、現行文字位置にある文字に関するCharPosリスト中の順序対の中にある場合は、機能はステップ706に続き、そうでない場合はステップ705に続いて、条件が両方とも満足されているわけではないという結果を返す。ステップ706で、処理すべきさらなる文字位置が単語候補中に残っている場合は、機能はステップ703に続き、単語候補中の次の文字位置を処理し、そうでない場合はステップ707に続き、単語候補によって条件がどちらも満足されているという結果を返す。
図8は、現行単語候補の最後の文字が、単語である可能性がある別の単語候補と重複しているかどうかを判定するために機能によって実施されることが好ましいステップを示す流れ図である。ステップ801で、単語候補の後の文字が、単語候補の最後の文字に関するNextChar属性をもつ文字のリスト中にある場合は、機能はステップ803に続き、そうでない場合はステップ802に続き、重複がないという結果を返す。ステップ803で、機能は、最後の文字がない状態での単語候補を字句知識ベース中で検索して、最後の文字がない状態での単語候補が単語であるかどうか判定する。ステップ804で、最後の文字がない状態での単語候補が単語である場合は、機能はステップ806に続き、重複があるという結果を返し、そうでない場合はステップ805に続き、重複がないという結果を返す。
図6に示されたステップの動作の例示を下記の表7に示す。
Figure 2007323671
Figure 2007323671
表7は、機能によって考察されるサンプル文章からの文字の53通りの組合せそれぞれに関して、CharPosテストの結果、NextCharsテストの結果、機能が字句知識ベース中で単語を検索したかどうか、および文字の組合せが単語であることを字句知識ベースが示したかどうかを示す。
文字「昨」のCharPos属性が順序対(1,7)、(1,6)、(1,5)、または(1,4)を含まないため、組合せ1〜4がCharPosテストに失敗したことがわかる。一方、組合せ5および6では、CharPosテストとNextCharsテストがどちらも合格されている。したがって、機能が字句知識ベース中で組合せ5および6を検索し、組合せ5は単語でなく、組合せ6は単語であると判定する。組合せ6を処理し、現行位置をどのくらい遠くに進めるかを決定した後、機能は、IgnoreParts属性がセット状態である、しかし単語「昨天」が、文字「天」から始まる単語候補と重複していると判定する。したがって、機能は、ステップ613に従って組合せ6の末尾にある文字「天」に進む。組合せ7〜12では、組合せ12のみがCharPosテストとNextCharsテストに合格する。したがって、組合せ12が検索され、単語であると判定される。組合せ12を処理し、現行位置をどのくらい遠くに進めるかを決定した後、機能は、組合せ12によって構成される単語のIgnoreParts属性がクリア状態であると判定し、したがって現行位置を、組合せ12に後続する文字にではなく文字「下」に1文字進める。
さらに、組合せ18、24、37、43は、それらのIgnoreParts属性がセット状態であり、それらの最終文字において、単語である可能性がある任意の単語候補と重複していない単語であることがわかる。したがって、それぞれを処理した後、機能は、ステップ612に従ってその文字組合せに後続する文字に現行位置を進め、それによりこれら4つの組合せそれぞれに関する最大41通りのさらなる組み合わせを不必要に処理することを省略する。
さらに、組合せ23および50によって構成された単語のIgnoreParts属性は、クリア状態であることがわかる。そのため機能は、これらの組合せを処理した後、ステップ610に従って1文字だけ現行位置を進める。
さらに、2文字組合せ30、36、47、および52は、機能によって単語を構成すると判定されないことがわかる。したがって、機能は、ステップ610に従ってこれらの組合せを処理した後、1文字だけ現行位置を進める。全体として、機能は、サンプル文章における112通りの可能な組合せのうち14通りのみを検索する。機能によって検索された14通りの組合せうち、9通りが実際に真の単語である。
以下表8に示されるように、表7に関連して記述された処理の後、単語リストは、組合せ6、12、18、23、24、37、43、50、および53によって構成される単語を含む。
Figure 2007323671
図9は、単一文字単語を単語リストに追加するために機能によって実施されることが好ましいステップを示す流れ図である。ステップ901〜906で、機能は、最初の文字から最後の文字まで文章中の各文字を通ってループする。ステップ902で、機能は、字句知識ベース中のそのエントリに基づいて、文字が単一文字単語を構成するかどうか判定し、そうでない場合は、文字を単語リストに追加することなくステップ906に続く。文字が単一文字単語を構成する場合は、機能がステップ903に続き、そうでない場合は、文字を単語リストに追加することなくステップ906に続く。ステップ903で、他の単語を含まない可能性がある単語中に文字が含まれている場合、すなわち単語リストにすでにある単語がそのIgnoreParts属性をセット状態で有している場合、機能はステップ904に続き、そうでない場合はステップ905に続いて、文字を単語リストに追加する。ステップ904で、単語リストにある他の単語と重なる単語リストにある単語中に文字が含まれている場合は、機能は、文字を単語リストに追加することなくステップ906に続き、そうでない場合はステップ905に続く。ステップ905で、機能は、現行文字を備える単一文字単語を単語リストに追加する。ステップ906で、処理すべきさらなる文字が文章中に残っている場合は、機能はステップ901に続き、文章中の次の文字を処理し、そうでない場合はこれらのステップが終了する。
以下の表9は、図9に示されるステップを実施したときに、機能が単一文字単語54〜61を単語リストに追加することを示す。
Figure 2007323671
複数文字単語を単語リストに追加し、次いで単一文字単語を単語リストに追加することは、単語リストを作成する1つの例示的な方法にすぎないことを理解されたい。代替手法では、最初に単一文字単語を突き止め、次いで単語リストに複数文字単語を追加することによって単語リストを得ることができる。最初に単一文字単語を突き止めることに関しては、この手法も上述した図9に示される手法と同様である。ただし、ステップ903および904は省略される。具体的には、ステップ902で、機能は、字句知識ベース中のそのエントリに基づいて、文字が単一文字単語を構成するかどうか判定する。文字が単一文字単語を構成する場合は、機能はステップ905に続き、文字を単語リストに追加し、そうでない場合は文字を単語リストに追加することなくステップ906に続く。機能は、文章中の各文字を処理して、ステップ901、902、905、および906を通ってループすることによって文字が単語であるかどうか判定する。
代替手法では、次いで、機能が文章を処理して複数文字単語を突き止め、そのような単語を単語リストに追加する。機能は、図6に関して上述した方法を使用することができる。しかし、文章が、他の単語を含むことができない複数文字単語を含む可能性があるため、すなわち、複数文字単語に関するIgnoreParts属性がセット状態である場合、複数文字単語を構成する単一文字単語を単語リストから削除または除去することが有益である。単語リストからこれらの単一文字単語を除去することが、パーサ133に要求される分析を最小限に抑える。
しかし、IgnoreParts属性がセット状態である2つの複数文字単語が重複している場合、単語リストからの単一文字単語の除去は複雑である。一般的な例が参考になる。文字シーケンスABCが考察下の文章中に存在し、IgnoreParts属性がセット状態である複数文字単語ABおよびBCを文章が備えることができると仮定する。また、A、B、およびCが単一文字単語であると仮定する。単語ABおよびBCによってカバーされる単一文字単語全てが単に単語リストから除去される場合、問題がある。具体的には、BCが文章中の正しい単語である場合、単語Aが外されてしまう。同様に、ABが文章中の正しい単語である場合、単語Cが外されてしまう。どちらの場合にも、文章を介する「パス」に壊れていないものがなくなるため、文章が構文解析されない。これが起こるのを防止するため、複数文字単語中の全ての単一文字単語が、重複している部分によってカバーされる(1つまたは複数の)単語を除いて、IgnoreParts属性の値に関わらず保持される。上述した一般例では、単語AとCはどちらも単語リスト中に保持される。しかし、Bは、シーケンスの重複部分であるため、単語リストから除去される。図8を参照すると、代替手法において機能がステップ802に達した場合、単語候補を構成する全ての単一文字単語がリストから除去されることになる。そうではなく、機能がステップ806に達した場合、重複していない単一文字単語が保持され、重複している(1つまたは複数の)部分が除去される。
上述の方法では、単語候補中の最後の文字に関するNextCharリストを検査し(ステップ801)、その最後の文字がない状態での単語候補が単語であるかどうか確かめる(ステップ804)ことによって、起こり得る重複する単語が突き止められる。代替手法では、重複する単語を、単語リストと共にパーサ133に提供される他の情報を検査することによって見つけることができる。具体的には、単語リストに加えて、パーサ133が単語リスト中の各単語の位置情報を受信する。表3の例からは、各文字が、1〜22まで順に番号付けされる。この位置情報を使用して、単語リスト中の各単語ごとに、単語の開始位置および単語の終了位置が求められる。例として表9において識別される単語を参照すると、番号「6」によって示される単語は、開始文字位置1および終了文字位置2を有し、番号「12」によって示される単語は、開始文字位置2および終了文字位置3を有する。単一文字単語は、開始文字位置が終了文字位置と等しい。このとき、終了文字位置と、文章中であり得る近傍の単語の開始文字位置とを検査することによって、重複する単語を簡単に確かめることができる。具体的には、文章中であり得る単語の終了文字位置が、文章中で次にあり得る文字の開始文字位置よりも大きいまたはそれと等しい場合、重複状態が存在する。
複数文字単語および単一文字単語を単語リストに追加し、それらの単語に関する字句記録を生成した後、機能は、字句記録に確率を割り当て、これは構文解析プロセスにおいて字句記録を介してアプリケーションを順序付けるためにパーサによって使用される。以下で論ずる図10および11は、字句記録に確率を割り当てるために機能によって使用される2つの代替手法を示す。
図10は、第1の手法による、単語リスト中の単語から生成された字句記録に確率を割り当てるために機能によって行われることが好ましいステップを示す流れ図である。機能は最終的に、構文解析プロセス中の早いうちにパーサに字句記録を考察させる高い確率値、または構文解析プロセス中の後の方でパーサに字句記録を考察させる低い確率値に、各字句記録に関する確率を設定することが好ましい。ステップ1001〜1005で、機能は、単語リスト中の各単語を通ってループする。ステップ1002で、現行単語が単語リスト中のより大きな単語に含まれている場合は、機能はステップ1004に続き、そうでない場合はステップ1003に続く。ステップ1003で、機能は、単語を表す字句記録に関する確率を高い確率値に設定する。ステップ1003の後、機能はステップ1005に続く。ステップ1004では、単語を表す字句記録に関する確率を低い確率値に設定する。ステップ1004の後、機能はステップ1005に続く。ステップ1005で、処理すべきさらなる単語が単語リスト中に残っている場合は、機能はステップ1001に続き、単語リスト中の次の単語を処理し、そうでない場合はこれらのステップが終了する。
以下の表10は、図10に示されるステップに従って単語リスト中の各単語に割り当てられた確率値を示す。この確率を検討することによって、機能が、各文字を含む少なくとも1つの単語に高い確率値を割り当て、それにより各文字を含む少なくとも1つの字句記録が構文解析プロセス中の早いうちに考察されることがわかる。
Figure 2007323671
図11は、第2の手法による、単語リスト中の単語から生成された字句記録に確率を割り当てるために機能によって行われることが好ましいステップを示す流れ図である。ステップ1101で、機能は、単語リストを使用して、全体が単語リスト中の単語から構成された文章の全てのあり得る区分化を識別する。ステップ1102で、機能は、ステップ1101で識別された、最も少ない単語を含む1つまたは複数のあり得る区分化を選択する。あり得る区分化の2つ以上が最少数の単語を有する場合、機能は、そのようなあり得る区分化をそれぞれ選択する。以下の表11は、表9に示される単語リストから生成された、最少数の単語(9)を有するあり得る区分化を示す。
Figure 2007323671
ステップ1103で、機能は、(1つまたは複数の)選択された区分化での単語の字句記録に関する確率を高い確率値に設定する。ステップ1104で、機能は、(1つまたは複数の)選択された区分化にはない単語の字句記録に関する確率を低い確率値に設定する。ステップ1104の後、これらのステップが終了する。
以下の表12は、図11に示されるステップに従って単語リスト中の各単語に割り当てられた確率値を示す。この確率を検討することによって、機能が、各文字を含む少なくとも1つの単語に高い確率値を割り当て、それにより各文字を含む少なくとも1つの字句記録が構文解析プロセス中の早いうちに考察されることがわかる。
Figure 2007323671
本発明の1つの広範な態様では、確率を、重複する単語の対に割り当てることもできる。一般的な文字シーケンスABCでは、統計データが、単語ABとCの組合せの確率がAとBCの組合せよりも高いことを示す場合がある。このとき、パーサ133は、まず組合せABとCを考察すべきであり、AとBCの組合せは、ABとCを使用して正常な分析を見つけることができないことがわかるまで考察されるべきでない。統計データはまた、あり得る組合せABとC、またはAとBCの1つが不可能であることを示すこともできる。
重複する単語の対にある単語に相対確率を割り当てるため、または不可能な組合せを除去するために、字句知識ベース132に情報が格納される。特に、字句知識ベース132中の多くの複数文字単語に追加のリストを関連付けることができる。リストは以下のものを含む。
(1)第1の左条件リスト−このエントリにある単語は、文章中でこのリストにある文字の1つによってすぐ前に先行された場合に低い確率を割り当てられる。
(2)第1の右条件リスト−このエントリにある単語は、文章中でこのリスト中にある文字の1つによってすぐ後に後続された場合に低い確率を割り当てられる。
(3)第2の左条件リスト−このエントリにある単語は、文章中でこのリスト中にある文字の1つによってすぐ前に先行された場合に無視される。すなわち、単語リスト中の複数文字単語がこの条件を満たしている場合、単語リストから除去される。
(4)第2の右条件リスト−このエントリにある単語は、文章中でこのリスト中にある文字の1つによってすぐ後に後続された場合に無視される。すなわち、単語リスト中の複数文字単語がこの条件を満たしている場合、単語リストから除去される。
前述の各リストが字句知識ベース132中のあらゆる複数文字単語に関しては存在しない場合があることに留意されたい。すなわち、字句知識ベース132中のある複数文字単語が、前述のリストのどれも有さない場合があり、その一方である複数文字単語は、リストの1つ、いくつか、または全てを有する。希望するなら、他のリストを、直前のまたは直後の文字に基づいて生成することができる。例えば、高い確率を割り当てるようにリストを生成することができる。リストは、字句知識ベース132に手動で入力される。
上述したように明確さを解決するために字句知識ベースを使用する分析に加え、構文解析を始める前に字句分析と共に規則ベースの明確さ分析を使用することもできる。例えば、文章中に文字列ABCDが存在し、AB、BC、およびCDが全てあり得る単語である場合、ABが先行する単語と重ならず、CDが後続の単語と重ならず、AまたはDが単語でなく、ABCもBCDも単語でない場合には、単語BCを無視する(単語リストから除去する)ことができる。
しかし、区分化のあいまいさを解決するパーサの能力と、上述した字句明確さとの間に論理的な依存関係がないことを強調したい。字句レベルでの単語の排除は、構文解析の複雑さを低減するが、必ずしも文章の正常な分析に必要な条件であるとは限らない。文章中の全ての正しい単語が機能131によって提供される単語リスト中にあり、単語リスト中の単語の数がパーサ133に過剰な負担になるほど大きくない限り、構文解析は正常である。したがって、字句明確さの完全な成功は、正しい単語区分化を含めた文章分析の成功を大幅に容易にするが、後者は前者に依存しない。これは、構成要素間に対話があるにもかかわらず、機能131とパーサ133を独立して開発することを可能にする。
図12は、サンプル文章の構文構造を表すパーサによって生成された構文木を示す構文木図である。構文木は、そのヘッドに単一文章記録1231を有し、そのリーフにいくつかの字句記録1201〜1211を有する階層構造であることがわかる。構文木はさらに、それぞれ単語を表す字句記録を1つまたは複数の単語を表すより大きな構文構造に組み合わせる中間構文記録1221〜1227を有する。例えば、前置詞句記録1223は、前置詞を表す字句記録1204と、名詞を表す字句記録1206とを組み合わせる。図5のステップ506に従って、機能は、サンプル文章が区分化されるべき単語として構文木で字句記録1201〜1211によって表される単語を識別する。この構文木は、文章に対するさらなる自然言語処理を実施するために、機能によって保持することもできる。
本発明を好ましい実施形態を参照しながら示し、記述してきたが、本発明の範囲を逸脱することなく、形式および詳細に様々な変更または修正を行うことができることを当業者は理解されよう。例えば、機能の態様を、中国語以外の言語での単語区分化を行うために適用することができる。さらに、本明細書に記述した技法の適切なサブセットまたはスーパーセットを単語区分化を行うために適用することができる。
機能が実行することが好ましい汎用コンピュータシステムの高レベルブロック図である。 機能が動作することが好ましい2つの段階を示す概略流れ図である。 単語分割を実行するために使用される情報を含むように初期化段階において語彙知識ベースを増大させるために機能によって実行されることが好ましいステップを示す流れ図である。 特定の単語が他のより小さい単語を含有することができるかどうかを判定するために実行されることが好ましいステップを示す流れ図である。 センテンスをその成分語に分割するために機能によって実行されることが好ましいステップの流れ図である。 単語リストに複数文字語を追加するために機能によって実行されることが好ましいステップの流れ図である。 単語候補のNextChar状態とCharPos状態をテストするために機能によって実行されることが好ましいステップの流れ図である。 現在の単語候補の最後の文字が、単語であることがある別の単語候補と重なるかどうかを判定するために機能によって実行されることが好ましいステップの流れ図である。 単語リストに単数文字語を追加するために機能によって実行されることが好ましいステップの流れ図である。 第1の手法に従って単語リスト中の単語から生成された語彙記録に確率を割り振るために機能によって実行されることが好ましいステップの流れ図である。 第2の手法に従って単語リスト中の単語から生成された語彙記録に確率を割り振るために機能によって実行されることが好ましいステップの流れ図である。 サンプルセンテンスの構文構造を表すパーサによって生成されたパースツリーを示すパースツリー図である。

Claims (23)

  1. コンピュータシステムにおいてテキストセンテンス中に現れる個々の単語を識別するための方法であって、前記コンピュータシステムは、単語分割ソフトウエア機能を実現するためのプログラムを記憶したメモリを有し、前記コンピュータシステムのCPUが前記メモリに記憶されたプログラムに基づいて実行する方法であって、
    該方法は、
    複数の単語の各々について、
    前記CPUが、隣接する文字に関して、前記単語が自然言語テキスト中に現れるか否かの確率の指示を記憶手段に格納するステップと、
    前記センテンス中に現れる連続した複数の文字グループの各々について、
    前記CPUが、重複する可能性のある単語を判定するステップと、
    前記CPUが、前記記憶手段に格納された指示と隣接する文字とに基づいて確率を確認するステップと
    を含むことを特徴とする単語識別方法。
  2. 請求項1に記載の単語識別方法において、確率の指示を有する複数の単語の各々について、前記記憶手段は、関連する文字のリストをさらに含むことを特徴とする単語識別方法。
  3. 請求項1に記載の単語識別方法において、前記単語の前にリスト中の文字の1つがある場合、確率の指示は低であることを特徴とする単語識別方法。
  4. 請求項1に記載の単語識別方法において、前記単語の後にリスト中の文字の1つが続く場合、確率の指示は低であることを特徴とする単語識別方法。
  5. 請求項1に記載の単語識別方法において、前記単語がリスト中の文字の1つで始まる場合、確率の指示は0であることを特徴とする単語識別方法。
  6. 請求項1に記載の単語識別方法において、前記単語の後にリスト中の文字の1つが続く場合、確率の指示は0であることを特徴とする単語識別方法。
  7. 請求項1に記載の単語識別方法において、前記自然言語は、中国語であることを特徴とする単語識別方法。
  8. コンピュータシステムに対し、テキストセンテンス中に現れる個々の単語を識別するための命令を格納するコンピュータ可読媒体において、前記命令は、コンピュータに、
    複数の単語の各々について、
    隣接する文字に関して、前記単語が自然言語テキスト中に現れるか否かの確率の指示を記憶手段に格納するステップと、
    前記センテンス中に現れる連続した複数の文字グループの各々について、
    重複する可能性のある単語を判定するステップと、
    前記記憶手段に格納された指示と隣接する文字とに基づいて確率を確認するステップとを実行させるためのプログラムを含むことを特徴とするコンピュータ可読媒体。
  9. 請求項8に記載のコンピュータ可読媒体において、確率の指示を有する複数の単語の各々について、前記記憶手段は、関連する文字のリストをさらに含むことを特徴とするコンピュータ可読媒体。
  10. 請求項8に記載のコンピュータ可読媒体において、前記単語の前にリスト中の文字の1つがある場合、確率の指示は低であることを特徴とするコンピュータ可読媒体。
  11. 請求項8に記載のコンピュータ可読媒体において、前記単語の後にリスト中の文字の1つが続く場合、確率の指示は低であることを特徴とするコンピュータ可読媒体。
  12. 請求項8に記載のコンピュータ可読媒体において、前記単語の前にリスト中の文字の1つがある場合、確率の指示は0であることを特徴とするコンピュータ可読媒体。
  13. 請求項8に記載のコンピュータ可読媒体において、前記単語の後にリスト中の文字の1つが続く場合、確率の指示は0であることを特徴とするコンピュータ可読媒体。
  14. 請求項8に記載のコンピュータ可読媒体において、前記自然言語は、中国語であることを特徴とするコンピュータ可読媒体。
  15. 自然言語テキスト中に現れる個々の単語を識別するのに使用する単語分割データ構造を格納するコンピュータメモリにおいて、前記データ構造は、コンピュータに、
    複数の単語の各々について、
    前記単語が自然言語テキスト中に現れるか否かの確率の指示を記憶手段に格納するステップを実行させるためのデータ構造であることを特徴とするコンピュータメモリ。
  16. 請求項15に記載のコンピュータメモリにおいて、確率の指示を有する複数の単語の各々について、前記データ構造は、関連する文字のリストをさらに含むことを特徴とするコンピュータメモリ。
  17. 請求項15に記載のコンピュータメモリにおいて、前記単語の前にリスト中の文字の1つがある場合、確率の指示は低であることを特徴とするコンピュータメモリ。
  18. 請求項15に記載のコンピュータメモリにおいて、前記単語の後にリスト中の文字の1つが続く場合、確率の指示は低であることを特徴とするコンピュータメモリ。
  19. 請求項15に記載のコンピュータメモリにおいて、前記単語の前にリスト中の文字の1つがある場合、確率の指示は0であることを特徴とするコンピュータメモリ。
  20. 請求項15に記載のコンピュータメモリにおいて、前記単語の後にリスト中の文字の1つが続く場合、確率の指示は0であることを特徴とするコンピュータメモリ。
  21. 自然言語テキスト中に現れる個々の単語を識別するのに使用する単語分割データ構造を格納するコンピュータメモリにおいて、前記データ構造は、コンピュータに、
    複数の文字の各々について、
    前記文字で始まる単語の第2の位置に現れる文字を識別するステップと、
    前記文字を含む単語について、
    前記単語の長さおよび前記文字に占める前記単語内での前記文字の位置を識別するステップと、
    複数の単語の各々について、
    隣接する文字に関して、前記単語が自然言語テキスト中に現れるか否かの確率の指示を前記記憶手段に格納するステップとを実行させるデータ構造であることを特徴とするコンピュータメモリ。
  22. 請求項21に記載のコンピュータメモリにおいて、確率の指示を有する複数の単語の各々について、前記データ構造は、関連する文字のリストをさらに含むことを特徴とする記載のコンピュータメモリ。
  23. コンピュータシステムにおいてテキストセンテンス中に現れる個々の単語を識別するための方法であって、前記コンピュータシステムは、単語分割ソフトウエア機能を実現するためのプログラムを記憶したメモリを有し、前記コンピュータシステムのCPUが前記メモリに記憶されたプログラムに基づいて実行する方法であって、
    前記センテンス中に現れる連続した複数の文字グループの各々について、
    前記CPUが、重複する可能性のある単語を判定するステップと、
    前記CPUが、隣接する文字に関して、前記単語が自然言語テキスト中に現れるか否かの重み付けされた指示をアクセスすることによって、可能性のある単語の各々の対する値を確認するステップと
    を含むことを特徴とする方法。
JP2007211100A 1998-05-29 2007-08-13 中国語テキストにおける単語分割 Pending JP2007323671A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/087,468 US6640006B2 (en) 1998-02-13 1998-05-29 Word segmentation in chinese text

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2000551333A Division JP4459443B2 (ja) 1998-05-29 1999-05-28 中国語テキストにおける単語分割

Publications (1)

Publication Number Publication Date
JP2007323671A true JP2007323671A (ja) 2007-12-13

Family

ID=22205361

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2000551333A Expired - Fee Related JP4459443B2 (ja) 1998-05-29 1999-05-28 中国語テキストにおける単語分割
JP2007211100A Pending JP2007323671A (ja) 1998-05-29 2007-08-13 中国語テキストにおける単語分割

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2000551333A Expired - Fee Related JP4459443B2 (ja) 1998-05-29 1999-05-28 中国語テキストにおける単語分割

Country Status (5)

Country Link
US (1) US6640006B2 (ja)
EP (1) EP1090361A1 (ja)
JP (2) JP4459443B2 (ja)
CN (1) CN1201254C (ja)
WO (1) WO1999062001A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100318573B1 (ko) * 1996-10-16 2001-12-28 마찌다 가쯔히꼬 문자 입력 장치 및 문자 입력 프로그램을 기억한 기록 매체
US6640006B2 (en) 1998-02-13 2003-10-28 Microsoft Corporation Word segmentation in chinese text
US6731802B1 (en) 2000-01-14 2004-05-04 Microsoft Corporation Lattice and method for identifying and normalizing orthographic variations in Japanese text
WO2001037127A2 (en) * 1999-11-17 2001-05-25 Microsoft Corporation Method for segmenting non-segmented text using syntactic parse
US6968308B1 (en) 1999-11-17 2005-11-22 Microsoft Corporation Method for segmenting non-segmented text using syntactic parse
US7181451B2 (en) * 2002-07-03 2007-02-20 Word Data Corp. Processing input text to generate the selectivity value of a word or word group in a library of texts in a field is related to the frequency of occurrence of that word or word group in library
US7493253B1 (en) 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
EP1588277A4 (en) * 2002-12-06 2007-04-25 Attensity Corp SYSTEMS AND METHOD FOR PROVIDING A MIXING DATA INTEGRATION SERVICE
US20050060150A1 (en) * 2003-09-15 2005-03-17 Microsoft Corporation Unsupervised training for overlapping ambiguity resolution in word segmentation
JP4476609B2 (ja) * 2003-12-10 2010-06-09 株式会社東芝 中国語解析装置、中国語解析方法および中国語解析プログラム
WO2005116863A1 (en) * 2004-05-24 2005-12-08 Swinburne University Of Technology A character display system
US8051096B1 (en) 2004-09-30 2011-11-01 Google Inc. Methods and systems for augmenting a token lexicon
US7680648B2 (en) * 2004-09-30 2010-03-16 Google Inc. Methods and systems for improving text segmentation
US7996208B2 (en) 2004-09-30 2011-08-09 Google Inc. Methods and systems for selecting a language for text segmentation
US7417086B2 (en) * 2004-11-29 2008-08-26 Rohm And Haas Company Coating compositions
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
JP2007058509A (ja) * 2005-08-24 2007-03-08 Toshiba Corp 言語処理システム
US20070078644A1 (en) * 2005-09-30 2007-04-05 Microsoft Corporation Detecting segmentation errors in an annotated corpus
US8539349B1 (en) 2006-10-31 2013-09-17 Hewlett-Packard Development Company, L.P. Methods and systems for splitting a chinese character sequence into word segments
CN101271450B (zh) * 2007-03-19 2010-09-29 株式会社东芝 裁剪语言模型的方法及装置
CN101815996A (zh) * 2007-06-01 2010-08-25 谷歌股份有限公司 检测名称实体和新词
WO2009000103A1 (en) * 2007-06-25 2008-12-31 Google Inc. Word probability determination
US8165869B2 (en) * 2007-12-10 2012-04-24 International Business Machines Corporation Learning word segmentation from non-white space languages corpora
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
CN101430680B (zh) 2008-12-31 2011-01-19 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统
US8977538B2 (en) * 2010-09-13 2015-03-10 Richard Salisbury Constructing and analyzing a word graph
KR102306899B1 (ko) * 2013-01-21 2021-09-30 키포인트 테크놀로지스 인디아 프라이비트 리미티드 텍스트 입력 시스템 및 방법
IN2013CH00469A (ja) 2013-01-21 2015-07-31 Keypoint Technologies India Pvt Ltd
CN107357784B (zh) * 2017-07-05 2021-01-26 东南大学 一种继电保护装置设备数据模型智能分析方法
US10607604B2 (en) * 2017-10-27 2020-03-31 International Business Machines Corporation Method for re-aligning corpus and improving the consistency
CN108304377B (zh) * 2017-12-28 2021-08-06 东软集团股份有限公司 一种长尾词的提取方法及相关装置
TWI665567B (zh) * 2018-09-26 2019-07-11 華碩電腦股份有限公司 語意處理方法、電子裝置以及非暫態電腦可讀取記錄媒體
CN109858011B (zh) * 2018-11-30 2022-08-19 平安科技(深圳)有限公司 标准词库分词方法、装置、设备及计算机可读存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3969700A (en) 1974-04-10 1976-07-13 International Business Machines Corporation Regional context maximum likelihood error correction for OCR, keyboard, and the like
JPH0724055B2 (ja) 1984-07-31 1995-03-15 株式会社日立製作所 単語分割処理方法
JPH083815B2 (ja) * 1985-10-25 1996-01-17 株式会社日立製作所 自然言語の共起関係辞書保守方法
US4850026A (en) 1987-10-13 1989-07-18 Telecommunications Laboratories Dir. Gen'l Of Telecom. Ministry Of Communications Chinese multifont recognition system based on accumulable stroke features
EP0545988B1 (en) 1990-08-09 1999-12-01 Semantic Compaction System Communication system with text message retrieval based on concepts inputted via keyboard icons
US5077804A (en) 1990-12-11 1991-12-31 Richard Dnaiel D Telecommunications device and related method
JPH0684006A (ja) 1992-04-09 1994-03-25 Internatl Business Mach Corp <Ibm> オンライン手書き文字認識方法
US5448474A (en) 1993-03-03 1995-09-05 International Business Machines Corporation Method for isolation of Chinese words from connected Chinese text
US5454046A (en) 1993-09-17 1995-09-26 Penkey Corporation Universal symbolic handwriting recognition system
US6014615A (en) 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US5694523A (en) 1995-05-31 1997-12-02 Oracle Corporation Content processing system for discourse
JPH096922A (ja) 1995-06-20 1997-01-10 Sony Corp 手書き文字認識装置
US5917941A (en) * 1995-08-08 1999-06-29 Apple Computer, Inc. Character segmentation technique with integrated word search for handwriting recognition
US5806021A (en) 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US5933525A (en) 1996-04-10 1999-08-03 Bbn Corporation Language-independent and segmentation-free optical character recognition system and method
US5850480A (en) 1996-05-30 1998-12-15 Scan-Optics, Inc. OCR error correction methods and apparatus utilizing contextual comparison
US5923778A (en) 1996-06-12 1999-07-13 Industrial Technology Research Institute Hierarchical representation of reference database for an on-line Chinese character recognition system
WO1998008169A1 (en) 1996-08-22 1998-02-26 Lernout & Hauspie Speech Products N.V. Method and apparatus for breaking words in a stream of text
US6640006B2 (en) 1998-02-13 2003-10-28 Microsoft Corporation Word segmentation in chinese text

Also Published As

Publication number Publication date
US20020102025A1 (en) 2002-08-01
CN1312924A (zh) 2001-09-12
JP2002517039A (ja) 2002-06-11
CN1201254C (zh) 2005-05-11
EP1090361A1 (en) 2001-04-11
WO1999062001A1 (en) 1999-12-02
JP4459443B2 (ja) 2010-04-28
US6640006B2 (en) 2003-10-28

Similar Documents

Publication Publication Date Title
JP4459443B2 (ja) 中国語テキストにおける単語分割
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US6539348B1 (en) Systems and methods for parsing a natural language sentence
US5680628A (en) Method and apparatus for automated search and retrieval process
JP5100770B2 (ja) 漢字文における単語区分方法
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
KR20050007547A (ko) 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스
KR20160138077A (ko) 기계 번역 시스템 및 방법
EP3598321A1 (en) Method for parsing natural language text with constituent construction links
JPH0567144A (ja) 前編集支援方法およびその装置
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
US5283737A (en) Mechanism for generating linguistic expressions based on synonyms and rules derived from examples
EP0316743B1 (en) Method for removing enclitic endings from verbs in romance languages
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP3309174B2 (ja) 文字認識方法及び装置
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
CN115244539B (zh) 单词或词段词元化的推断方法
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
EP1429257B1 (en) Method and apparatus for recognizing multiword expressions
Lin et al. A Simple and Practical Approach to Improve Misspellings in OCR Text
JP2009009583A (ja) 構文パースを用いてセグメント化されていないテキストをセグメント化する方法
JP2004206473A (ja) 全文検索装置、文書データの処理方法、全文検索方法、文書データの処理プログラム、全文検索プログラム及び記録媒体
WO2012127805A1 (ja) 訳語選択条件抽出システム、訳語選択条件抽出方法および訳語選択条件抽出プログラム
JPH09146955A (ja) 単語間概念関係の抽出方法及びシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071109

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080404