JP3041268B2 - 中国語誤り検査(cec)システム - Google Patents

中国語誤り検査(cec)システム

Info

Publication number
JP3041268B2
JP3041268B2 JP10053547A JP5354798A JP3041268B2 JP 3041268 B2 JP3041268 B2 JP 3041268B2 JP 10053547 A JP10053547 A JP 10053547A JP 5354798 A JP5354798 A JP 5354798A JP 3041268 B2 JP3041268 B2 JP 3041268B2
Authority
JP
Japan
Prior art keywords
segmentation
character
storage means
isolated
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10053547A
Other languages
English (en)
Other versions
JPH10260968A (ja
Inventor
チウ・チャオミン
ヤン・リーピン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH10260968A publication Critical patent/JPH10260968A/ja
Application granted granted Critical
Publication of JP3041268B2 publication Critical patent/JP3041268B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、中国文の分節化
(segmentation)の方法、より詳細には最
適重みを伴う統合分節化の使用による方法、ならびに中
国語誤り検査(CEC)システムへのその適用に関す
る。
【0002】
【従来の技術】コンピュータは、より強力になり普及す
るにつれてますます多くの仕事をすることが求められて
いる。中国語テキスト・ファイル中で犯される誤りの認
識もその一つである。
【0003】中国語テキスト・ファイル中で犯される誤
りは、基本的に下記の理由によるものである。
【0004】キーボード入力誤り。その大部分は同一ま
たは類似の入力コード(たとえば、発音情報またはスト
ローク情報によってコード化されたもの)が原因であ
る。
【0005】知識が不十分なことによるよく犯される誤
り。「按歩就班」を正しい言葉と思っている人は多い
(正しい言語は「按部就班」である)。
【0006】
【外1】 などの文法誤り(
【外2】 であり、これはこの種の誤りで最も簡単なものであ
る)。
【0007】中国語誤り検出のための一般的な手法とし
ては以下のものがある。
【0008】テーブルに基づく誤り調べ。テーブルがど
んなに大きくとも、誤りの一部分しか含めることができ
ず、その上多くの誤りは文脈に依存するものであり、単
に比較によってそれを識別しようとすると偽警報を生じ
る。
【0009】文法規則に基づく手法。中国語文法は複雑
でかつ不規則であるため、この手法は他の方法の補助と
してしか働くことができない。
【0010】統計的方法。これは、コーパスから誘導し
た文字/単語の連語または文字/単語自体の統計情報に
基づいて潜在的誤りを見分ける。これは今回広く使用さ
れている実用的な方法である。
【0011】統計的調査では、文字/単語またはその連
語の様々な確率を調べることによって誤りを識別する。
中国語テキストでは自然の単語境界はないので文の分節
化を行う必要がある。文を分節化するには辞書が不可欠
である。従来、分節化は文中の文字列を辞書中の最長語
と付き合わせることにより非統計的に行われている。こ
の方法ではあいまいさは処理されない(また事実処理で
きない)。コンピュータ能力の急速な発展により、単語
の統計的情報を使用する分節化がますます普及してきて
いる。これを実施するには、辞書の各項目ごとに頻度情
報がなければならない。この情報は、コーパス中にある
単語が出現する確率を表す数字(以後、重みと称する)
である。動的プログラミングとして知られる方法を使用
して、頻度情報を含む辞書を用いて最も確率の高い分節
化を見つける。最も確率の高い分節化とは、そのすべて
の分節化単位の重みの積が可能なすべての区分化方法の
うちで最大となる区分である。動的プログラミング法は
通常、分節化または品詞タグ付けに使用されることを強
調しておきたい。したがって、その結果得られる分節化
単位はすべて使用する辞書の項目である。
【0012】従来の技術では、中国語誤り検査の方法と
して異なる2種類の方法がある。
【0013】一つの手法では、検査すべき文を分節化し
ない。文の任意の連続する2個の文字の連語に、漢字の
バイグラム(bigram)統計的情報(重み)が直接
適用される。バイグラム統計的重みが所定の閾値より小
さい連続する2個の文字があれば潜在的誤りと見なされ
る。そうでない場合は、それは正当な連語と見なされ
る。
【0014】もう一つの手法では、誤り検査は以下のス
テップを経る。
【0015】a)所与の辞書に基づいて分節化を実施す
る。通常は前方走査または後方走査による従来の最長一
致法が採用される。
【0016】b)あらかじめ定義した誤りライブラリが
存在する場合、隣接する分節化単位が結合し直される。
次いで探索プロセスが開始し、結合し直された単位中に
予め定義された誤りライブラリの項目と一致するものが
あるかどうか調べる。一致したものがあれば潜在的誤り
と見なされる。
【0017】c)上記の分析後に残された孤立文字(孤
立文字とは、分析の結果得られる分節化単位中で孤立し
ている文字のことである)に対して、閾値が予め定義さ
れる。コーパスから誘導された孤立文字の独立の重みが
閾値より小さい場合、その孤立文字は潜在的誤りと見な
される。
【0018】
【発明が解決しようとする課題】いくつかの研究論文で
は、各項目の統計的情報を含む正規辞書によって中国文
の分節化を実施するために動的プログラミング法が使用
されている。しかし、中国語誤り検査システムに適用す
ることに関する限りでは、その方法は十分ではない。
【0019】その理由は、動的プログラミング法が辞書
の正規語に対してしか使用されないことである。予め定
義された誤り(普通の人がよく犯す誤り)、名前、数、
量詞などは別途処理される。これらの異なる単位を処理
する順序によっては、はっきりした分節化単位が得られ
ないことがある。これらのクラスが混乱し、処理されて
いないあるクラスの先頭文字または末尾文字が他の文字
と統合されて、処理中の別のクラスの単位を形成する可
能性があり、その結果誤った分節化を生じ、検出率を下
げ、特に偽警報率を高めるからである。たとえば、下記
の文が与えられたとすると、 李大明天天上班(李大明は毎日出勤する) 正しい分節化は次のようになるべきである。 李大明|天天|上班 従来技術では次のように分節化される。 李|大|明天|天|上班 「李大」は有名な名前ではないので、可能な誤りとして
見分けられる可能性がある。特に、予め定義された誤り
に対してこの状況が生じた場合(すなわち、予め定義さ
れた誤りが分節化単位として分節化されない場合)、そ
れは誤り検出からも漏れる可能性がある。
【0020】
【課題を解決するための手段】統計的方法の観点から見
ると、すべての分節化単位を、コーパスから誘導された
その統計的情報によって均一に決定するのが理想であ
る。この意味で、すべてのクラス、すなわち正規語、予
め定義された誤り、名前、数、量詞がすべて対等の資格
で処理される。この点が本発明の重要点である。よく犯
される誤り文字列、人名、地名、団体名、数字、数字と
量詞の組合せを、正規辞書中の字と共に通常の分節化単
位であると見なし、それに適当な重みを割り当てること
によって、中国語誤り検索システムで統合動的プログラ
ミング法を用いて、最も尤度の高い文の分節化を選択す
る。この方法により、CECシステムは偽警報率を同様
の目的のシステムのうちで最低に保ちながら、最高の誤
り検出率を達成することが可能になる。
【0021】予め定義された誤り、名前、数字、量詞な
どのクラスも分節化単位と見なされるので、そのそれぞ
れの重みが統計的に正しい場合、その分節化は統計的な
意味で正しいことになる。これは、正しくない連語を見
つけ出すという目的に有効である。しかし、正規辞書中
の単語とは違って、これらのクラスのすべての単位の統
計的情報をコーパスから得るのは実際的ではない(無限
のサイズを有する均衡のとれたコーパスが必要であ
る)。したがって、本発明の実施例では粗い近似を採用
する。すなわち前述の各クラスに適切な重みを与える。
この重みは、そのクラスのある単位中の文字の類縁性を
表す。この重みが大きすぎる場合、隣の文字が誤って引
き寄せられて、そのクラスの単位を形成する恐れがあ
る。それが小さすぎる場合(従来技術は、後で考察する
クラスの重みが前に考察されたクラスに関して0である
という極端なケースである)、このクラスのある単位に
属する文字が誤って隣りの文字に引き寄せられて別のク
ラスの単位または正規語を形成する恐れがある。したが
って、結果が最適になるようにこの重みを選択しなけれ
ばならない。これは、大量のテスト・ファイルを実行
し、分節化の誤りを追跡し、様々なクラスの重みを調節
し、再度テスト・ファイルを実行するという試行錯誤の
プロセスを繰り返すことによって達成される。
【0022】
【発明の実施の形態】図1に示した実施形態において
は、正規辞書の項目とともに下記のクラスを可能な分節
化単位として、考慮に入れた。
【0023】a)予め定義された誤り、すなわちよく犯
される誤り この誤りの中には、それは正しくないと言われても正し
い形を見つけることが出来ない微妙なものがある。した
がって、その候補が示される。予め定義された誤りが大
部分の文脈状況で正しく識別されるように適切な重み
(表1参照)がこのクラスに割り当てられる。
【0024】b)ユーザ定義ライブラリ ユーザが「正しい文字列」(すなわちCECシステムに
誤りと誤識別してほしくないある種の文字列、たとえば
専門用語など)または「誤った文字列」(ユーザの要件
に従って検出されなければならないある種の文字列)を
定義することができる。
【0025】c)中国人名 中国人名は下記の手順で識別される。
【0026】著名な姓のグループを選ぶ。これを著名度
に応じて3つのサブグループに分け、昇順に1、2、3
のランクを付ける。通常語の分節化を妨害しないように
しながらできるだけ多くの姓を含めるために、それほど
著名ではないある種の姓も、それが他の文字とともに語
を形成する能力が非常に弱い場合は含める。
【0027】中国人名の著名な第2文字のグループと中
国人名の著名な最終文字のグループを別々に選択する
(所与の名前が1文字だけの場合、それは第2文字では
なく最終文字と見なす)。この2グループの文字もその
著名度に従って3つのサブグループに分け、昇順に1、
2、3のランクを付ける。この3つのグループにはそれ
ぞれ220、351、606個の文字が含まれる。2文
字の姓は別にリストする。これらの文字の選択は中国人
名の膨大なリストに対する統計による。
【0028】3文字の列は、最初の文字が姓のグループ
にあり、第2文字と第3文字がそれぞれのグループにあ
り、最後に3つの文字すべてのランクの和が所定の値よ
り大きい場合に人名と見なされる。2文字の列は、最初
の文字が姓のグループにあり、第2文字が最終文字のグ
ループにあり、かつ2つの文字のランクの和が別の所定
の値より大きい場合に人名と見なされる。
【0029】3文字名のグループと2文字名のグループ
に、中国人の名前が大部分の文脈状況で正しく識別され
るように適切な重み(表1参照)を割り当てる。
【0030】d)翻訳人名 翻訳人名は下記の手順で識別される。
【0031】先頭文字のグループを選ぶ。ある文字列が
翻訳人名と見なされる場合、その第1文字がこのグルー
プになければならない。
【0032】中間文字のグループを選択する。ある文字
列が翻訳人名と見なされる場合、その中間文字がいくら
あろうとこのグループになければならない。
【0033】末尾文字のグループを選択する。ある文字
列が翻訳人名と見なされる場合、その最終文字がこのグ
ループになければならない。
【0034】翻訳人名が大部分の文脈状況で正しく識別
されるように適切な重み(表1)を割り当てる。
【0035】e)姓の前の称号 著名な姓のグループと称号のグループを選ぶ。ある文字
列の最初の文字が姓グループのある文字と一致し、それ
に続く文字が称号グループのある文字と一致する場合、
それはこのクラスの単位と識別される。このクラスのす
べての単位に、それが大部分の文脈状況で正しく識別さ
れるように適切な重み(表1参照)が割り当てられる。
【0036】f)数字 アラビア数字および漢数字の正当な組合せに、それらの
組合せが大部分の文脈状況で正しく識別されるように適
切な重み(表1参照)が与えられる。
【0037】g)数字とその後に続く量詞 著名な量詞のグループを選ぶ。ある文字列がアラビア数
字または漢数字とそれに続く量詞グループの文字の正当
な組合せである場合、このクラスの単位として識別され
る。ある種の量詞、たとえば年−月−日に対してシステ
ムは正当性検査を実施する。これは時−分−秒にも適用
できる。このクラスのすべての単位に、それが大部分の
文脈状況で正しく識別されるように適切な重み(表1参
照)を割り当てる。
【0038】地名、団体名にも同じ原理が適用される。
その上、実施形態の詳細は異なることがある。たとえ
ば、ランクの高い人名に高い重みを与えることなどもで
きる。これらすべての選択肢の選択基準は、テスト・フ
ァイルを実行する際に正しい分節化率をできるだけ高く
することである。
【0039】これら特別クラスの分節化単位の重みが決
定されると、図1に示したすべてのステップを完遂する
ことによって文の分節化を行うことができる。動的プロ
グラミングがどう働くかの例を以下に示す。
【0040】
【外3】 (中国の家兔飼育業の発展は、楊克家教授が一身を捧げ
た3つの課題の1つである。)
【0041】我々のプログラムは、以下のものをRAM
に記憶する(括弧内の数字はその先行する文字/語の重
み、コーパスから誘導された対応する確率の対数であ
る。)。
【外4】 展(−9.252900);中(−5.67041
5)、中国(−5.018170);国(−7.712
590)、国家(−6.258107);家(−6.6
88566)、家兔(−13.914123);兔(−
12.145970);
【外5】
【外6】
【外7】 是(−4.688606);
【外8】 克(−8.754861);家(−6.68856
6)、家教(−12.899220);教(−9.39
3462)、教授(−8.597861);授(−1
1.255703);
【外9】 生(−8.073256);
【外10】 斗(−10.529599);的(−2.99237
6);
【外11】
【外12】
【外13】
【外14】 之(−6.617377)、之一(−8.20591
7);一(−4.711594)
【0042】この動的プログラミング・アルゴリズムは
異なる分節化の和を評価し、重みが最高の分節化を最も
確率の高い分節化としてピックアップした。上記の例で
は、
【外15】 が得られ、重みの和は−126.234788である。
【0043】この分節化の結果、誤りの一部、すなわち
予め定義された誤りおよびユーザ定義ライブラリ(「誤
った文字列」)の項目と一致する単位が得られる。他の
可能な誤りは、孤立文字バイグラム検査によって見つけ
ることができる。孤立文字バイグラム検査とは、分節化
後の連続する2つの孤立文字の連語を検査することであ
る。
【0044】一般漢字バイグラムは、2つの漢字がコー
パス中で所与の順序で連続して出現する確率をこの順序
付きの対に付加した表である。このバイグラムは、すべ
ての漢字対が上記の隣接する順序でコーパス中に出現す
る確率を含んでいる。中国文誤り検査において、この確
率は単に順序が隣接する文字対がコーパス中で出現する
回数を示す数字である。大部分の中国文誤り検査システ
ムは、漢字バイグラム表を利用して、2つの漢字がテキ
スト中で順序が隣接する文字対となり得るかどうか検査
している。バイグラム表でこの対に対応する数字が小さ
すぎる場合、一方または両方の文字が誤って入力された
可能性がある。
【0045】多字語では、1つの文字の誤りがあるとそ
の語が孤立文字に分節化される可能性がある。これは中
国語テキストで最もよく犯される誤りの1つである。本
発明の孤立文字バイグラムは、誤って使用された漢字を
効果的に見つけることのできる特別のバイグラムであ
る。
【0046】孤立文字バイグラムでは、順序が隣接する
文字対についてしかカウントが行われず、その対のどち
らの文字も多字語の一部ではない。孤立文字バイグラム
の一般漢字バイグラムとの違いは、分節化したコーパス
についてそのカウントが行われることである。あるコー
パス中のすべての文の分節化の後、順序が隣接する孤立
文字対がカウントされることになる。
【0047】孤立文字バイグラム表を用いた誤り検査は
次のように進めることができる。まず検査すべき文を分
節化する。次いで隣接する孤立文字対があるかどうか検
査して調べる。そうである場合、孤立文字バイグラム表
で対応する数字を引く。その数字が所定の閾値より小さ
い場合、この対は可能な誤りとマークされる。これは統
計的方法である。その背後にある基本概念は、順序が隣
接するある孤立文字がコーパス中で出現するのが非常に
稀である場合、漢字入力に誤りがあった可能性が最も高
い。
【0048】孤立文字バイグラム表を使って誤りを検査
する諸ステップを図3に示す。
【0049】本発明の統合動的プログラミング方法を使
って文を分節化する。得られる分節化単位は多字単位も
孤立文字単位も含む可能性がある。
【0050】分節化された文中の隣接する孤立文字を認
識する。
【0051】上述のように孤立文字バイグラム表を引い
て可能な隣接する孤立文字対誤りを見つける。
【0052】一般文字バイグラム法と比較すると、孤立
文字バイグラム法は隣接する孤立文字対を考慮に入れる
だけである。こうすると、文字バイグラム表のサイズが
大幅に減少し、実際の誤りを認識するパワーが大幅に増
大する。たとえば、「近代」が正しい文中で順序が隣接
する孤立文字対として出現することはまず考えられな
い。しかし、
【外16】 という高頻度の組合せがあるので、一般の順序が隣接す
る文字対としては新聞中で非常に頻繁に出現する。
【0053】孤立文字バイグラム表の確定の仕方を図2
に示す。孤立文字バイグラム表を確定するには(これ
は、分節化された文中で順序が隣接する孤立文字対をカ
ウントするだけである)、以下のステップを完遂しなけ
ればならない。 a:2次元表を初期設定する。 b:コーパスを選択する。 c:選択されたコーパス中の最初の文に対して分節化を
実施する。 d:順序が隣接する孤立文字対をカウントする。 e:バイグラム表中のこれら順序が隣接する孤立文字対
の対応する数字を更新する。 f:コーパスのすべての文を処理するまで、ステップb
〜eを繰り返す。
【0054】こうして確定された孤立文字バイグラム表
は、サイズが一般文字バイグラム表の約1/4である。
【0055】図4は、分節化のための統合動的プログラ
ミング方法および本発明の孤立文字バイグラム表に基づ
く中国語誤り検査システムの一実施形態である。
【0056】図4に示すように、中国語誤り検査システ
ムは、検査すべき文を入力する手段と、正規語およびそ
の重みを記憶するための正規辞書記憶手段と、よく犯さ
れる誤りや人名、地名、団体名、数字、数字と量詞の組
合せ、ユーザ定義ライブラリなど、特別の分節化クラス
を記憶するための特別分節化クラス記憶手段と、すべて
の漢字対が隣接する孤立文字対となる確率を保管した孤
立文字バイグラム表を記憶するための孤立文字バイグラ
ム表記憶手段と、正規辞書記憶手段および特別分節化ク
ラス記憶手段を検索し、次いで動的プログラミング法を
用いて入力された文の最も確率の高い分節化を選択する
ことにより入力された文を分節化する分節化手段と、分
節化の結果を処理し、よく犯される誤りとユーザ定義誤
りならびに孤立文字バイグラム法で検出された誤りを含
めて入力された文中の提示される可能な誤りを表示する
ための分節化結果処理手段とを含む。
【0057】CECシステムが起動すると、RAMが初
期設定され、このプログラムが必要とするすべてのデー
タがメモリにロードされる。こうしたデータとしては、
主辞書(システム辞書)、事前定義誤りリスト、ユーザ
定義ライブラリ、文字バイグラム表とそのインデック
ス、語−文字−語表(この場合の「語」は多字語を意味
し、この表は所与の文字が2つの多字語の間に現れ得る
かどうかの統計的情報を格納している)、先頭文字表お
よび末尾文字表(これらの表は、それぞれ所与の文字が
文の最初または最後の文字となり得るかどうかの統計的
情報を格納している)が含まれる。その他のデータ(量
詞、人名、団体名、地名用文字グループ、称号リストと
それぞれの重み)はプログラム自体に組み込まれ、した
がって自動的にロードされる。上記のデータは(ユーザ
定義ライブラリを除いて)すべて圧縮バージョンで1.
5MBが必要である。すべてのデータをRAMにアップ
ロードできるので、システムは非常に高速で実行でき
る。
【0058】表1 CECシステムで採用される適切な重み 項目 重みの対数 中国人名(2文字) −15 中国人名(3文字以上) −19 翻訳人名(2文字) −15 翻訳人名(3文字以上) −19 姓の後にくる称号 −16 数字 −9 量詞を従えた数字 −11 よく犯される誤り −12.5 「工作」(辞書中の比較のための基準語) −6
【0059】 表2 2つの主な市販の製品で名前を識別する能力の比較 テスト・ファイル中の名前の合計数 偽警報 本発明 60 8 製品1 60 14 製品2 60 18
【0060】 表3 性能の比較(サンプル・ファイルは31,000文字を含む) 誤り数 検出された誤り 偽警報 本発明 369 291 467 製品1 369 259 638 製品2 369 262 1017
【0061】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0062】(1)正規辞書中の単語と共に分節化のた
めの複数のクラスを定義するステップと、正規辞書中の
単語の重みに関して、前記クラスに適切な重みを割り当
てるステップと、動的プログラミングを用いてある条件
に適合する分節化出力を選択するステップとを特徴とす
る、中国文を分節化する方法。 (2)前記複数のクラスに、よく犯される誤り、人名、
数字、数字と量詞の組合せ、ユーザ定義ライブラリなど
が含まれる、上記(1)に記載の方法。 (3)選択ステップが、そのすべての分節化単位の重み
の積が可能なすべての分節化のうちで最大となる分節化
を選択するステップをさらに含む、上記(1)に記載の
方法。 (4)正規辞書中の単語と共に分節化のための複数のク
ラスを定義するステップと、正規辞書中の単語の重みに
関して、前記クラスに適切な重みを割り当てるステップ
と、動的プログラミングを用いてある条件に適合する分
節化出力を選択するステップと孤立文字バイグラム表を
用いて誤りを検出するステップとを特徴とする、中国語
誤り検査文法。 (5)前記複数のクラスに、よく犯される誤り、人名、
数字、数字と量詞の組合せ、ユーザ定義ライブラリなど
が含まれる、上記(4)に記載の方法。 (6)よく犯される誤りならびに孤立文字バイグラム表
を用いて検出された誤りのクラスに属する分節化単位を
文中の潜在的誤りと見なすステップをさらに特徴とする
上記(5)に記載の方法。 (7)選択ステップが、そのすべての分節化単位の重み
の積が可能なすべての分節化のうちで最大となる分節化
を選択するステップをさらに含む、上記(4)に記載の
方法。 (8)孤立文字バイグラム表が2次元表であり、バイグ
ラム値が2つの孤立文字がコーパス中で隣接する確率で
あると見なされ、前記孤立文字バイグラムが、 a:2次元表を初期設定するステップと、 b:コーパスを選択するステップと、 c:コーパス中の文を分節化するステップと、 d:隣接する孤立文字を識別するステップと、 e:バイグラム表中の対応する値を更新するステップ
と、 f:コーパス中のすべての文を処理し終えるまでステッ
プc〜eを繰り返すステップとによって得ることができ
る、上記(4)に記載の方法。 (9)検査すべき文を入力するための入力手段と、正規
語およびその重みを記憶するための正規辞書記憶手段
と、正規辞書記憶手段に記憶されている正規語とその重
みを検索し、次いで所定のアルゴリズムを使用すること
によって入力された文を分節化する分節化手段と、前記
分節化手段によって生成された分節化結果を処理し、誤
りを表示するための分節化結果処理手段とを備える中国
語誤り検査システムにおいて、正規辞書記憶手段に加え
て、よく犯される誤り、名前、数字、数字と量詞の組合
せ、ユーザ定義ライブラリなどの特別分節化クラスを記
憶するための特別分節化クラス記憶手段と、2つの孤立
文字がコーパス中で隣接する確率を表す孤立文字バイグ
ラム表を記憶するための孤立文字バイグラム表記憶手段
をさらに備え、前記分節化手段が、正規辞書記憶手段お
よび特別分節化クラス記憶手段を検索し、次いで動的プ
ログラミングを使用することによって、所定条件に適合
する分節化出力を選択するためのものであり、前記分節
化結果処理手段が、よく犯される誤りならびに孤立文字
バイグラム表を用いて検出された誤りのクラスに属する
分節化単位を文中の潜在的誤りと見なし、それを表示す
るためのものであるシステム。
【図面の簡単な説明】
【図1】本発明の最適の実施形態による中国文分節化プ
ロセスの流れ図である。
【図2】本発明の最適の実施形態による孤立文字バイグ
ラム表を確定するための流れ図である。
【図3】本発明の最適の実施形態による誤った孤立文字
連語を見つけるための流れ図である。
【図4】本発明の最適の実施形態による中国語誤り検査
システムのブロック図である。
───────────────────────────────────────────────────── フロントページの続き (73)特許権者 390009531 インターナショナル・ビジネス・マシー ンズ・コーポレイション INTERNATIONAL BUSI NESS MASCHINES COR PORATION アメリカ合衆国10504、ニューヨーク州 アーモンク (番地なし) (74)上記1名の代理人 100091568 弁理士 市位 嘉宏 (72)発明者 チウ・チャオミン 中華人民共和国100086 北京市海淀区チ ョンクアンチュン ビルディング905 アパートメント205 (72)発明者 ヤン・リーピン 中華人民共和国100085 北京市海淀区シ ャンティシャンティトンリ第4セクショ ン、ビルディング ナンバー3 1ー 501 審査官 宮司 卓佳 (56)参考文献 特開 平1−292569(JP,A) 特開 昭62−78680(JP,A) 特開 平1−315866(JP,A) 特開 昭62−205464(JP,A) 特開 平7−182349(JP,A) 特開 平7−271792(JP,A) 西野文人、「未登録語テンプレートを 用いた日本語形態素解析」、情報処理学 会第39回(平成元年後期)全国大会講演 論文集(▲I▼)、p.594−p.595 (1989) (58)調査した分野(Int.Cl.7,DB名) G06F 17/20 - 17/28 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】検査すべき文を入力するための入力手段
    と、 正規語およびその重みを記憶するための正規辞書記憶手
    段と、 正規辞書記憶手段に記憶されている正規語とその重みを
    検索し、次いで所定のアルゴリズムを使用することによ
    って入力された文を分節化する分節化手段と、 前記分節化手段によって生成された分節化結果を処理
    し、誤りを表示するための分節化結果処理手段とを備え
    る中国語誤り検査システムにおいて、 正規辞書記憶手段に加えて、よく犯される誤り、名前、
    数字、数字と量詞の組合せ、ユーザ定義ライブラリなど
    の分節化単位の複数のクラスおよびそれらの重みを記憶
    するための特別分節化クラス記憶手段と、2つの孤立文
    字がコーパス中で隣接する確率を表す孤立文字バイグラ
    ム表を記憶するための孤立文字バイグラム表記憶手段を
    さらに備え、 前記分節化手段が、正規辞書記憶手段および特別分節化
    クラス記憶手段を検索し、次いで動的プログラミングを
    使用することによって、分節化単位の重みの積が所定条
    件に適合する分節化出力を選択するためのものであり、 前記分節化結果処理手段が、よく犯される誤りならびに
    孤立文字バイグラム表を用いて検出された誤りのクラス
    に属する分節化単位を文中の潜在的誤りと見なし、それ
    を表示するためのものであるシステム。
JP10053547A 1997-03-13 1998-03-05 中国語誤り検査(cec)システム Expired - Fee Related JP3041268B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN97103125A CN1193779A (zh) 1997-03-13 1997-03-13 中文语句分词方法及其在中文查错系统中的应用
CN97103125.8 1997-03-13

Publications (2)

Publication Number Publication Date
JPH10260968A JPH10260968A (ja) 1998-09-29
JP3041268B2 true JP3041268B2 (ja) 2000-05-15

Family

ID=5166551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10053547A Expired - Fee Related JP3041268B2 (ja) 1997-03-13 1998-03-05 中国語誤り検査(cec)システム

Country Status (4)

Country Link
US (1) US6173252B1 (ja)
JP (1) JP3041268B2 (ja)
KR (1) KR19980079586A (ja)
CN (1) CN1193779A (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6360197B1 (en) * 1996-06-25 2002-03-19 Microsoft Corporation Method and apparatus for identifying erroneous characters in text
US7165019B1 (en) 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US7047493B1 (en) * 2000-03-31 2006-05-16 Brill Eric D Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction
KR100351584B1 (ko) * 2000-07-05 2002-09-05 주식회사 팔만시스템 한자의 일자대조에 의한 교정 시스템
US7136805B2 (en) * 2002-06-11 2006-11-14 Fuji Xerox Co., Ltd. System for distinguishing names of organizations in Asian writing systems
US20040107189A1 (en) * 2002-12-03 2004-06-03 Lockheed Martin Corporation System for identifying similarities in record fields
CN100429648C (zh) * 2003-05-28 2008-10-29 洛昆多股份公司 一种文本自动分块的方法、分块器和文本到语言合成系统
US20070005345A1 (en) * 2005-07-01 2007-01-04 Microsoft Corporation Generating Chinese language couplets
US7574348B2 (en) * 2005-07-08 2009-08-11 Microsoft Corporation Processing collocation mistakes in documents
US8700383B2 (en) * 2005-08-25 2014-04-15 Multiling Corporation Translation quality quantifying apparatus and method
US20070078644A1 (en) * 2005-09-30 2007-04-05 Microsoft Corporation Detecting segmentation errors in an annotated corpus
US8041556B2 (en) * 2005-12-01 2011-10-18 International Business Machines Corporation Chinese to english translation tool
US8539349B1 (en) * 2006-10-31 2013-09-17 Hewlett-Packard Development Company, L.P. Methods and systems for splitting a chinese character sequence into word segments
US7774193B2 (en) * 2006-12-05 2010-08-10 Microsoft Corporation Proofing of word collocation errors based on a comparison with collocations in a corpus
JP4446313B2 (ja) * 2006-12-15 2010-04-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理用の辞書に登録するべき新規語句を検索する技術
US20080177656A1 (en) * 2007-01-22 2008-07-24 Microsoft Corporation Client applications with third party payment integration
US8249249B2 (en) * 2007-03-23 2012-08-21 Siemens Product Lifecycle Management Software Inc. System and method for text-based encryption
US7917353B2 (en) * 2007-03-29 2011-03-29 International Business Machines Corporation Hybrid text segmentation using N-grams and lexical information
US7962507B2 (en) * 2007-11-19 2011-06-14 Microsoft Corporation Web content mining of pair-based data
TWI391832B (zh) 2008-09-09 2013-04-01 Inst Information Industry 中文文章偵錯裝置、中文文章偵錯方法以及儲存媒體
US9009591B2 (en) * 2008-12-11 2015-04-14 Microsoft Corporation User-specified phrase input learning
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system
CN102063423B (zh) * 2009-11-16 2015-03-25 高德软件有限公司 一种消歧的方法和装置
US9262397B2 (en) 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US8855997B2 (en) 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
US9002702B2 (en) 2012-05-03 2015-04-07 International Business Machines Corporation Confidence level assignment to information from audio transcriptions
KR101431339B1 (ko) * 2012-11-26 2014-08-18 서울대학교산학협력단 확률적 구문 오류 검출 방법 및 장치
CN104252542A (zh) * 2014-09-29 2014-12-31 南京航空航天大学 一种基于词库的动态规划中文分词方法
CN105159871B (zh) * 2015-08-21 2018-10-12 小米科技有限责任公司 文本信息检测方法及装置
CN107463605B (zh) * 2017-06-21 2021-06-11 北京百度网讯科技有限公司 低质新闻资源的识别方法及装置、计算机设备及可读介质
CN109885828A (zh) * 2019-01-14 2019-06-14 平安科技(深圳)有限公司 基于语言模型的词语纠错方法、装置、计算机设备及介质
US11676034B2 (en) * 2019-06-27 2023-06-13 The Nielsen Company (Us), Llc Initialization of classification layers in neural networks
CN110610000A (zh) * 2019-08-12 2019-12-24 央视国际网络无锡有限公司 一种关键人名语境错误检测方法及系统
CN111191440B (zh) * 2019-12-13 2024-02-20 语联网(武汉)信息技术有限公司 翻译中针对译文的量词纠错方法及系统
CN111401059A (zh) * 2020-03-16 2020-07-10 深圳市子瑜杰恩科技有限公司 小说朗读的方法
CN111737982A (zh) * 2020-06-29 2020-10-02 武汉虹信技术服务有限责任公司 一种基于深度学习的汉语文本错别字检测方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02288960A (ja) * 1989-02-27 1990-11-28 Hitachi Ltd 文書作成支援方法及びそのシステム
US5270927A (en) * 1990-09-10 1993-12-14 At&T Bell Laboratories Method for conversion of phonetic Chinese to character Chinese
US5224040A (en) * 1991-03-12 1993-06-29 Tou Julius T Method for translating chinese sentences
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
DE4323241A1 (de) * 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US5828991A (en) * 1995-06-30 1998-10-27 The Research Foundation Of The State University Of New York Sentence reconstruction using word ambiguity resolution
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US5761687A (en) * 1995-10-04 1998-06-02 Apple Computer, Inc. Character-based correction arrangement with correction propagation
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
JP3743678B2 (ja) * 1996-04-23 2006-02-08 ロゴヴィスタ株式会社 自動自然言語翻訳

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
西野文人、「未登録語テンプレートを用いた日本語形態素解析」、情報処理学会第39回(平成元年後期)全国大会講演論文集(▲I▼)、p.594−p.595(1989)

Also Published As

Publication number Publication date
KR19980079586A (ko) 1998-11-25
CN1193779A (zh) 1998-09-23
JPH10260968A (ja) 1998-09-29
US6173252B1 (en) 2001-01-09

Similar Documents

Publication Publication Date Title
JP3041268B2 (ja) 中国語誤り検査(cec)システム
US9672205B2 (en) Methods and systems related to information extraction
US7461056B2 (en) Text mining apparatus and associated methods
US8855998B2 (en) Parsing culturally diverse names
US8744839B2 (en) Recognition of target words using designated characteristic values
US8190538B2 (en) Methods and systems for matching records and normalizing names
JP2742115B2 (ja) 類似文書検索装置
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
CN110851559B (zh) 数据元自动识别方法和识别系统
KR20080066965A (ko) 단어들의 배열의 자연스러움을 결정하기 위한 장치, 방법,및 프로그램을 저장하는 저장 매체
CN107526721B (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN110866102A (zh) 检索处理方法
US11468346B2 (en) Identifying sequence headings in a document
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
JP3361563B2 (ja) 形態素解析装置及びキーワード抽出装置
US7072827B1 (en) Morphological disambiguation
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法
JP3151730B2 (ja) データベース検索システム
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体
JPH05257982A (ja) 文字列認識方法
EP1076305A1 (en) A phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element
Theeramunkong et al. Pattern-based features vs. statistical-based features in decision trees for word segmentation
CN111414459A (zh) 人物关系获取方法、装置、电子设备及存储介质
JP3241854B2 (ja) 単語スペル自動補正装置
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees