JP3041268B2

JP3041268B2 - 中国語誤り検査（ｃｅｃ）システム

Info

Publication number: JP3041268B2
Application number: JP10053547A
Authority: JP
Inventors: チウ・チャオミン; ヤン・リーピン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-03-13
Filing date: 1998-03-05
Publication date: 2000-05-15
Anticipated expiration: 2018-03-05
Also published as: JPH10260968A; CN1193779A; KR19980079586A; US6173252B1

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、中国文の分節化
（ｓｅｇｍｅｎｔａｔｉｏｎ）の方法、より詳細には最
適重みを伴う統合分節化の使用による方法、ならびに中
国語誤り検査（ＣＥＣ）システムへのその適用に関す
る。

【０００２】

【従来の技術】コンピュータは、より強力になり普及す
るにつれてますます多くの仕事をすることが求められて
いる。中国語テキスト・ファイル中で犯される誤りの認
識もその一つである。

【０００３】中国語テキスト・ファイル中で犯される誤
りは、基本的に下記の理由によるものである。

【０００４】キーボード入力誤り。その大部分は同一ま
たは類似の入力コード（たとえば、発音情報またはスト
ローク情報によってコード化されたもの）が原因であ
る。

【０００５】知識が不十分なことによるよく犯される誤
り。「按歩就班」を正しい言葉と思っている人は多い
（正しい言語は「按部就班」である）。

【０００６】

【外１】などの文法誤り（

【外２】であり、これはこの種の誤りで最も簡単なものであ
る）。

【０００７】中国語誤り検出のための一般的な手法とし
ては以下のものがある。

【０００８】テーブルに基づく誤り調べ。テーブルがど
んなに大きくとも、誤りの一部分しか含めることができ
ず、その上多くの誤りは文脈に依存するものであり、単
に比較によってそれを識別しようとすると偽警報を生じ
る。

【０００９】文法規則に基づく手法。中国語文法は複雑
でかつ不規則であるため、この手法は他の方法の補助と
してしか働くことができない。

【００１０】統計的方法。これは、コーパスから誘導し
た文字／単語の連語または文字／単語自体の統計情報に
基づいて潜在的誤りを見分ける。これは今回広く使用さ
れている実用的な方法である。

【００１１】統計的調査では、文字／単語またはその連
語の様々な確率を調べることによって誤りを識別する。
中国語テキストでは自然の単語境界はないので文の分節
化を行う必要がある。文を分節化するには辞書が不可欠
である。従来、分節化は文中の文字列を辞書中の最長語
と付き合わせることにより非統計的に行われている。こ
の方法ではあいまいさは処理されない（また事実処理で
きない）。コンピュータ能力の急速な発展により、単語
の統計的情報を使用する分節化がますます普及してきて
いる。これを実施するには、辞書の各項目ごとに頻度情
報がなければならない。この情報は、コーパス中にある
単語が出現する確率を表す数字（以後、重みと称する）
である。動的プログラミングとして知られる方法を使用
して、頻度情報を含む辞書を用いて最も確率の高い分節
化を見つける。最も確率の高い分節化とは、そのすべて
の分節化単位の重みの積が可能なすべての区分化方法の
うちで最大となる区分である。動的プログラミング法は
通常、分節化または品詞タグ付けに使用されることを強
調しておきたい。したがって、その結果得られる分節化
単位はすべて使用する辞書の項目である。

【００１２】従来の技術では、中国語誤り検査の方法と
して異なる２種類の方法がある。

【００１３】一つの手法では、検査すべき文を分節化し
ない。文の任意の連続する２個の文字の連語に、漢字の
バイグラム（ｂｉｇｒａｍ）統計的情報（重み）が直接
適用される。バイグラム統計的重みが所定の閾値より小
さい連続する２個の文字があれば潜在的誤りと見なされ
る。そうでない場合は、それは正当な連語と見なされ
る。

【００１４】もう一つの手法では、誤り検査は以下のス
テップを経る。

【００１５】ａ）所与の辞書に基づいて分節化を実施す
る。通常は前方走査または後方走査による従来の最長一
致法が採用される。

【００１６】ｂ）あらかじめ定義した誤りライブラリが
存在する場合、隣接する分節化単位が結合し直される。
次いで探索プロセスが開始し、結合し直された単位中に
予め定義された誤りライブラリの項目と一致するものが
あるかどうか調べる。一致したものがあれば潜在的誤り
と見なされる。

【００１７】ｃ）上記の分析後に残された孤立文字（孤
立文字とは、分析の結果得られる分節化単位中で孤立し
ている文字のことである）に対して、閾値が予め定義さ
れる。コーパスから誘導された孤立文字の独立の重みが
閾値より小さい場合、その孤立文字は潜在的誤りと見な
される。

【００１８】

【発明が解決しようとする課題】いくつかの研究論文で
は、各項目の統計的情報を含む正規辞書によって中国文
の分節化を実施するために動的プログラミング法が使用
されている。しかし、中国語誤り検査システムに適用す
ることに関する限りでは、その方法は十分ではない。

【００１９】その理由は、動的プログラミング法が辞書
の正規語に対してしか使用されないことである。予め定
義された誤り（普通の人がよく犯す誤り）、名前、数、
量詞などは別途処理される。これらの異なる単位を処理
する順序によっては、はっきりした分節化単位が得られ
ないことがある。これらのクラスが混乱し、処理されて
いないあるクラスの先頭文字または末尾文字が他の文字
と統合されて、処理中の別のクラスの単位を形成する可
能性があり、その結果誤った分節化を生じ、検出率を下
げ、特に偽警報率を高めるからである。たとえば、下記
の文が与えられたとすると、李大明天天上班（李大明は毎日出勤する）正しい分節化は次のようになるべきである。李大明｜天天｜上班従来技術では次のように分節化される。李｜大｜明天｜天｜上班「李大」は有名な名前ではないので、可能な誤りとして
見分けられる可能性がある。特に、予め定義された誤り
に対してこの状況が生じた場合（すなわち、予め定義さ
れた誤りが分節化単位として分節化されない場合）、そ
れは誤り検出からも漏れる可能性がある。

【００２０】

【課題を解決するための手段】統計的方法の観点から見
ると、すべての分節化単位を、コーパスから誘導された
その統計的情報によって均一に決定するのが理想であ
る。この意味で、すべてのクラス、すなわち正規語、予
め定義された誤り、名前、数、量詞がすべて対等の資格
で処理される。この点が本発明の重要点である。よく犯
される誤り文字列、人名、地名、団体名、数字、数字と
量詞の組合せを、正規辞書中の字と共に通常の分節化単
位であると見なし、それに適当な重みを割り当てること
によって、中国語誤り検索システムで統合動的プログラ
ミング法を用いて、最も尤度の高い文の分節化を選択す
る。この方法により、ＣＥＣシステムは偽警報率を同様
の目的のシステムのうちで最低に保ちながら、最高の誤
り検出率を達成することが可能になる。

【００２１】予め定義された誤り、名前、数字、量詞な
どのクラスも分節化単位と見なされるので、そのそれぞ
れの重みが統計的に正しい場合、その分節化は統計的な
意味で正しいことになる。これは、正しくない連語を見
つけ出すという目的に有効である。しかし、正規辞書中
の単語とは違って、これらのクラスのすべての単位の統
計的情報をコーパスから得るのは実際的ではない（無限
のサイズを有する均衡のとれたコーパスが必要であ
る）。したがって、本発明の実施例では粗い近似を採用
する。すなわち前述の各クラスに適切な重みを与える。
この重みは、そのクラスのある単位中の文字の類縁性を
表す。この重みが大きすぎる場合、隣の文字が誤って引
き寄せられて、そのクラスの単位を形成する恐れがあ
る。それが小さすぎる場合（従来技術は、後で考察する
クラスの重みが前に考察されたクラスに関して０である
という極端なケースである）、このクラスのある単位に
属する文字が誤って隣りの文字に引き寄せられて別のク
ラスの単位または正規語を形成する恐れがある。したが
って、結果が最適になるようにこの重みを選択しなけれ
ばならない。これは、大量のテスト・ファイルを実行
し、分節化の誤りを追跡し、様々なクラスの重みを調節
し、再度テスト・ファイルを実行するという試行錯誤の
プロセスを繰り返すことによって達成される。

【００２２】

【発明の実施の形態】図１に示した実施形態において
は、正規辞書の項目とともに下記のクラスを可能な分節
化単位として、考慮に入れた。

【００２３】ａ）予め定義された誤り、すなわちよく犯
される誤りこの誤りの中には、それは正しくないと言われても正し
い形を見つけることが出来ない微妙なものがある。した
がって、その候補が示される。予め定義された誤りが大
部分の文脈状況で正しく識別されるように適切な重み
（表１参照）がこのクラスに割り当てられる。

【００２４】ｂ）ユーザ定義ライブラリユーザが「正しい文字列」（すなわちＣＥＣシステムに
誤りと誤識別してほしくないある種の文字列、たとえば
専門用語など）または「誤った文字列」（ユーザの要件
に従って検出されなければならないある種の文字列）を
定義することができる。

【００２５】ｃ）中国人名中国人名は下記の手順で識別される。

【００２６】著名な姓のグループを選ぶ。これを著名度
に応じて３つのサブグループに分け、昇順に１、２、３
のランクを付ける。通常語の分節化を妨害しないように
しながらできるだけ多くの姓を含めるために、それほど
著名ではないある種の姓も、それが他の文字とともに語
を形成する能力が非常に弱い場合は含める。

【００２７】中国人名の著名な第２文字のグループと中
国人名の著名な最終文字のグループを別々に選択する
（所与の名前が１文字だけの場合、それは第２文字では
なく最終文字と見なす）。この２グループの文字もその
著名度に従って３つのサブグループに分け、昇順に１、
２、３のランクを付ける。この３つのグループにはそれ
ぞれ２２０、３５１、６０６個の文字が含まれる。２文
字の姓は別にリストする。これらの文字の選択は中国人
名の膨大なリストに対する統計による。

【００２８】３文字の列は、最初の文字が姓のグループ
にあり、第２文字と第３文字がそれぞれのグループにあ
り、最後に３つの文字すべてのランクの和が所定の値よ
り大きい場合に人名と見なされる。２文字の列は、最初
の文字が姓のグループにあり、第２文字が最終文字のグ
ループにあり、かつ２つの文字のランクの和が別の所定
の値より大きい場合に人名と見なされる。

【００２９】３文字名のグループと２文字名のグループ
に、中国人の名前が大部分の文脈状況で正しく識別され
るように適切な重み（表１参照）を割り当てる。

【００３０】ｄ）翻訳人名翻訳人名は下記の手順で識別される。

【００３１】先頭文字のグループを選ぶ。ある文字列が
翻訳人名と見なされる場合、その第１文字がこのグルー
プになければならない。

【００３２】中間文字のグループを選択する。ある文字
列が翻訳人名と見なされる場合、その中間文字がいくら
あろうとこのグループになければならない。

【００３３】末尾文字のグループを選択する。ある文字
列が翻訳人名と見なされる場合、その最終文字がこのグ
ループになければならない。

【００３４】翻訳人名が大部分の文脈状況で正しく識別
されるように適切な重み（表１）を割り当てる。

【００３５】ｅ）姓の前の称号著名な姓のグループと称号のグループを選ぶ。ある文字
列の最初の文字が姓グループのある文字と一致し、それ
に続く文字が称号グループのある文字と一致する場合、
それはこのクラスの単位と識別される。このクラスのす
べての単位に、それが大部分の文脈状況で正しく識別さ
れるように適切な重み（表１参照）が割り当てられる。

【００３６】ｆ）数字アラビア数字および漢数字の正当な組合せに、それらの
組合せが大部分の文脈状況で正しく識別されるように適
切な重み（表１参照）が与えられる。

【００３７】ｇ）数字とその後に続く量詞著名な量詞のグループを選ぶ。ある文字列がアラビア数
字または漢数字とそれに続く量詞グループの文字の正当
な組合せである場合、このクラスの単位として識別され
る。ある種の量詞、たとえば年−月−日に対してシステ
ムは正当性検査を実施する。これは時−分−秒にも適用
できる。このクラスのすべての単位に、それが大部分の
文脈状況で正しく識別されるように適切な重み（表１参
照）を割り当てる。

【００３８】地名、団体名にも同じ原理が適用される。
その上、実施形態の詳細は異なることがある。たとえ
ば、ランクの高い人名に高い重みを与えることなどもで
きる。これらすべての選択肢の選択基準は、テスト・フ
ァイルを実行する際に正しい分節化率をできるだけ高く
することである。

【００３９】これら特別クラスの分節化単位の重みが決
定されると、図１に示したすべてのステップを完遂する
ことによって文の分節化を行うことができる。動的プロ
グラミングがどう働くかの例を以下に示す。

【００４０】

【外３】 (中国の家兔飼育業の発展は、楊克家教授が一身を捧げ
た３つの課題の１つである。）

【００４１】我々のプログラムは、以下のものをＲＡＭ
に記憶する（括弧内の数字はその先行する文字／語の重
み、コーパスから誘導された対応する確率の対数であ
る。）。

【外４】展（−９．２５２９００）；中（−５．６７０４１
５）、中国（−５．０１８１７０）；国（−７．７１２
５９０）、国家（−６．２５８１０７）；家（−６．６
８８５６６）、家兔（−１３．９１４１２３）；兔（−
１２．１４５９７０）；

【外５】

【外６】

【外７】是（−４．６８８６０６）；

【外８】克（−８．７５４８６１）；家（−６．６８８５６
６）、家教（−１２．８９９２２０）；教（−９．３９
３４６２）、教授（−８．５９７８６１）；授（−１
１．２５５７０３）；

【外９】生（−８．０７３２５６）；

【外１０】斗（−１０．５２９５９９）；的（−２．９９２３７
６）；

【外１１】

【外１２】

【外１３】

【外１４】之（−６．６１７３７７）、之一（−８．２０５９１
７）；一（−４．７１１５９４）

【００４２】この動的プログラミング・アルゴリズムは
異なる分節化の和を評価し、重みが最高の分節化を最も
確率の高い分節化としてピックアップした。上記の例で
は、

【外１５】が得られ、重みの和は−１２６．２３４７８８である。

【００４３】この分節化の結果、誤りの一部、すなわち
予め定義された誤りおよびユーザ定義ライブラリ（「誤
った文字列」）の項目と一致する単位が得られる。他の
可能な誤りは、孤立文字バイグラム検査によって見つけ
ることができる。孤立文字バイグラム検査とは、分節化
後の連続する２つの孤立文字の連語を検査することであ
る。

【００４４】一般漢字バイグラムは、２つの漢字がコー
パス中で所与の順序で連続して出現する確率をこの順序
付きの対に付加した表である。このバイグラムは、すべ
ての漢字対が上記の隣接する順序でコーパス中に出現す
る確率を含んでいる。中国文誤り検査において、この確
率は単に順序が隣接する文字対がコーパス中で出現する
回数を示す数字である。大部分の中国文誤り検査システ
ムは、漢字バイグラム表を利用して、２つの漢字がテキ
スト中で順序が隣接する文字対となり得るかどうか検査
している。バイグラム表でこの対に対応する数字が小さ
すぎる場合、一方または両方の文字が誤って入力された
可能性がある。

【００４５】多字語では、１つの文字の誤りがあるとそ
の語が孤立文字に分節化される可能性がある。これは中
国語テキストで最もよく犯される誤りの１つである。本
発明の孤立文字バイグラムは、誤って使用された漢字を
効果的に見つけることのできる特別のバイグラムであ
る。

【００４６】孤立文字バイグラムでは、順序が隣接する
文字対についてしかカウントが行われず、その対のどち
らの文字も多字語の一部ではない。孤立文字バイグラム
の一般漢字バイグラムとの違いは、分節化したコーパス
についてそのカウントが行われることである。あるコー
パス中のすべての文の分節化の後、順序が隣接する孤立
文字対がカウントされることになる。

【００４７】孤立文字バイグラム表を用いた誤り検査は
次のように進めることができる。まず検査すべき文を分
節化する。次いで隣接する孤立文字対があるかどうか検
査して調べる。そうである場合、孤立文字バイグラム表
で対応する数字を引く。その数字が所定の閾値より小さ
い場合、この対は可能な誤りとマークされる。これは統
計的方法である。その背後にある基本概念は、順序が隣
接するある孤立文字がコーパス中で出現するのが非常に
稀である場合、漢字入力に誤りがあった可能性が最も高
い。

【００４８】孤立文字バイグラム表を使って誤りを検査
する諸ステップを図３に示す。

【００４９】本発明の統合動的プログラミング方法を使
って文を分節化する。得られる分節化単位は多字単位も
孤立文字単位も含む可能性がある。

【００５０】分節化された文中の隣接する孤立文字を認
識する。

【００５１】上述のように孤立文字バイグラム表を引い
て可能な隣接する孤立文字対誤りを見つける。

【００５２】一般文字バイグラム法と比較すると、孤立
文字バイグラム法は隣接する孤立文字対を考慮に入れる
だけである。こうすると、文字バイグラム表のサイズが
大幅に減少し、実際の誤りを認識するパワーが大幅に増
大する。たとえば、「近代」が正しい文中で順序が隣接
する孤立文字対として出現することはまず考えられな
い。しかし、

【外１６】という高頻度の組合せがあるので、一般の順序が隣接す
る文字対としては新聞中で非常に頻繁に出現する。

【００５３】孤立文字バイグラム表の確定の仕方を図２
に示す。孤立文字バイグラム表を確定するには（これ
は、分節化された文中で順序が隣接する孤立文字対をカ
ウントするだけである）、以下のステップを完遂しなけ
ればならない。ａ：２次元表を初期設定する。ｂ：コーパスを選択する。ｃ：選択されたコーパス中の最初の文に対して分節化を
実施する。ｄ：順序が隣接する孤立文字対をカウントする。ｅ：バイグラム表中のこれら順序が隣接する孤立文字対
の対応する数字を更新する。ｆ：コーパスのすべての文を処理するまで、ステップｂ
〜ｅを繰り返す。

【００５４】こうして確定された孤立文字バイグラム表
は、サイズが一般文字バイグラム表の約１／４である。

【００５５】図４は、分節化のための統合動的プログラ
ミング方法および本発明の孤立文字バイグラム表に基づ
く中国語誤り検査システムの一実施形態である。

【００５６】図４に示すように、中国語誤り検査システ
ムは、検査すべき文を入力する手段と、正規語およびそ
の重みを記憶するための正規辞書記憶手段と、よく犯さ
れる誤りや人名、地名、団体名、数字、数字と量詞の組
合せ、ユーザ定義ライブラリなど、特別の分節化クラス
を記憶するための特別分節化クラス記憶手段と、すべて
の漢字対が隣接する孤立文字対となる確率を保管した孤
立文字バイグラム表を記憶するための孤立文字バイグラ
ム表記憶手段と、正規辞書記憶手段および特別分節化ク
ラス記憶手段を検索し、次いで動的プログラミング法を
用いて入力された文の最も確率の高い分節化を選択する
ことにより入力された文を分節化する分節化手段と、分
節化の結果を処理し、よく犯される誤りとユーザ定義誤
りならびに孤立文字バイグラム法で検出された誤りを含
めて入力された文中の提示される可能な誤りを表示する
ための分節化結果処理手段とを含む。

【００５７】ＣＥＣシステムが起動すると、ＲＡＭが初
期設定され、このプログラムが必要とするすべてのデー
タがメモリにロードされる。こうしたデータとしては、
主辞書（システム辞書）、事前定義誤りリスト、ユーザ
定義ライブラリ、文字バイグラム表とそのインデック
ス、語−文字−語表（この場合の「語」は多字語を意味
し、この表は所与の文字が２つの多字語の間に現れ得る
かどうかの統計的情報を格納している）、先頭文字表お
よび末尾文字表（これらの表は、それぞれ所与の文字が
文の最初または最後の文字となり得るかどうかの統計的
情報を格納している）が含まれる。その他のデータ（量
詞、人名、団体名、地名用文字グループ、称号リストと
それぞれの重み）はプログラム自体に組み込まれ、した
がって自動的にロードされる。上記のデータは（ユーザ
定義ライブラリを除いて）すべて圧縮バージョンで１．
５ＭＢが必要である。すべてのデータをＲＡＭにアップ
ロードできるので、システムは非常に高速で実行でき
る。

【００５８】表１ＣＥＣシステムで採用される適切な重み項目重みの対数中国人名（２文字） −１５中国人名（３文字以上） −１９翻訳人名（２文字） −１５翻訳人名（３文字以上） −１９姓の後にくる称号 −１６数字 −９量詞を従えた数字 −１１よく犯される誤り −１２．５「工作」（辞書中の比較のための基準語） −６

【００５９】表２２つの主な市販の製品で名前を識別する能力の比較テスト・ファイル中の名前の合計数偽警報本発明６０８製品１６０１４製品２６０１８

【００６０】表３性能の比較（サンプル・ファイルは３１，０００文字を含む）誤り数検出された誤り偽警報本発明３６９２９１４６７製品１３６９２５９６３８製品２３６９２６２１０１７

【００６１】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００６２】（１）正規辞書中の単語と共に分節化のた
めの複数のクラスを定義するステップと、正規辞書中の
単語の重みに関して、前記クラスに適切な重みを割り当
てるステップと、動的プログラミングを用いてある条件
に適合する分節化出力を選択するステップとを特徴とす
る、中国文を分節化する方法。（２）前記複数のクラスに、よく犯される誤り、人名、
数字、数字と量詞の組合せ、ユーザ定義ライブラリなど
が含まれる、上記（１）に記載の方法。（３）選択ステップが、そのすべての分節化単位の重み
の積が可能なすべての分節化のうちで最大となる分節化
を選択するステップをさらに含む、上記（１）に記載の
方法。（４）正規辞書中の単語と共に分節化のための複数のク
ラスを定義するステップと、正規辞書中の単語の重みに
関して、前記クラスに適切な重みを割り当てるステップ
と、動的プログラミングを用いてある条件に適合する分
節化出力を選択するステップと孤立文字バイグラム表を
用いて誤りを検出するステップとを特徴とする、中国語
誤り検査文法。（５）前記複数のクラスに、よく犯される誤り、人名、
数字、数字と量詞の組合せ、ユーザ定義ライブラリなど
が含まれる、上記（４）に記載の方法。（６）よく犯される誤りならびに孤立文字バイグラム表
を用いて検出された誤りのクラスに属する分節化単位を
文中の潜在的誤りと見なすステップをさらに特徴とする
上記（５）に記載の方法。（７）選択ステップが、そのすべての分節化単位の重み
の積が可能なすべての分節化のうちで最大となる分節化
を選択するステップをさらに含む、上記（４）に記載の
方法。（８）孤立文字バイグラム表が２次元表であり、バイグ
ラム値が２つの孤立文字がコーパス中で隣接する確率で
あると見なされ、前記孤立文字バイグラムが、ａ：２次元表を初期設定するステップと、ｂ：コーパスを選択するステップと、ｃ：コーパス中の文を分節化するステップと、ｄ：隣接する孤立文字を識別するステップと、ｅ：バイグラム表中の対応する値を更新するステップ
と、ｆ：コーパス中のすべての文を処理し終えるまでステッ
プｃ〜ｅを繰り返すステップとによって得ることができ
る、上記（４）に記載の方法。（９）検査すべき文を入力するための入力手段と、正規
語およびその重みを記憶するための正規辞書記憶手段
と、正規辞書記憶手段に記憶されている正規語とその重
みを検索し、次いで所定のアルゴリズムを使用すること
によって入力された文を分節化する分節化手段と、前記
分節化手段によって生成された分節化結果を処理し、誤
りを表示するための分節化結果処理手段とを備える中国
語誤り検査システムにおいて、正規辞書記憶手段に加え
て、よく犯される誤り、名前、数字、数字と量詞の組合
せ、ユーザ定義ライブラリなどの特別分節化クラスを記
憶するための特別分節化クラス記憶手段と、２つの孤立
文字がコーパス中で隣接する確率を表す孤立文字バイグ
ラム表を記憶するための孤立文字バイグラム表記憶手段
をさらに備え、前記分節化手段が、正規辞書記憶手段お
よび特別分節化クラス記憶手段を検索し、次いで動的プ
ログラミングを使用することによって、所定条件に適合
する分節化出力を選択するためのものであり、前記分節
化結果処理手段が、よく犯される誤りならびに孤立文字
バイグラム表を用いて検出された誤りのクラスに属する
分節化単位を文中の潜在的誤りと見なし、それを表示す
るためのものであるシステム。

【図面の簡単な説明】

【図１】本発明の最適の実施形態による中国文分節化プ
ロセスの流れ図である。

【図２】本発明の最適の実施形態による孤立文字バイグ
ラム表を確定するための流れ図である。

【図３】本発明の最適の実施形態による誤った孤立文字
連語を見つけるための流れ図である。

【図４】本発明の最適の実施形態による中国語誤り検査
システムのブロック図である。

───────────────────────────────────────────────────── フロントページの続き (73)特許権者 390009531 インターナショナル・ビジネス・マシーンズ・コーポレイションＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＳＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮアメリカ合衆国10504、ニューヨーク州アーモンク（番地なし) (74)上記１名の代理人 100091568 弁理士市位嘉宏 (72)発明者チウ・チャオミン中華人民共和国100086 北京市海淀区チョンクアンチュンビルディング905 アパートメント205 (72)発明者ヤン・リーピン中華人民共和国100085 北京市海淀区シャンティシャンティトンリ第４セクション、ビルディングナンバー３１ー 501 審査官宮司卓佳 (56)参考文献特開平１−292569（ＪＰ，Ａ) 特開昭62−78680（ＪＰ，Ａ) 特開平１−315866（ＪＰ，Ａ) 特開昭62−205464（ＪＰ，Ａ) 特開平７−182349（ＪＰ，Ａ) 特開平７−271792（ＪＰ，Ａ) 西野文人、「未登録語テンプレートを用いた日本語形態素解析」、情報処理学会第39回（平成元年後期）全国大会講演論文集（▲Ｉ▼）、ｐ．594−ｐ．595 （1989) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/20 - 17/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】検査すべき文を入力するための入力手段
と、正規語およびその重みを記憶するための正規辞書記憶手
段と、正規辞書記憶手段に記憶されている正規語とその重みを
検索し、次いで所定のアルゴリズムを使用することによ
って入力された文を分節化する分節化手段と、前記分節化手段によって生成された分節化結果を処理
し、誤りを表示するための分節化結果処理手段とを備え
る中国語誤り検査システムにおいて、正規辞書記憶手段に加えて、よく犯される誤り、名前、
数字、数字と量詞の組合せ、ユーザ定義ライブラリなど
の分節化単位の複数のクラスおよびそれらの重みを記憶
するための特別分節化クラス記憶手段と、２つの孤立文
字がコーパス中で隣接する確率を表す孤立文字バイグラ
ム表を記憶するための孤立文字バイグラム表記憶手段を
さらに備え、前記分節化手段が、正規辞書記憶手段および特別分節化
クラス記憶手段を検索し、次いで動的プログラミングを
使用することによって、分節化単位の重みの積が所定条
件に適合する分節化出力を選択するためのものであり、前記分節化結果処理手段が、よく犯される誤りならびに
孤立文字バイグラム表を用いて検出された誤りのクラス
に属する分節化単位を文中の潜在的誤りと見なし、それ
を表示するためのものであるシステム。