JP3919968B2 - 文書校正装置 - Google Patents

文書校正装置 Download PDF

Info

Publication number
JP3919968B2
JP3919968B2 JP06365799A JP6365799A JP3919968B2 JP 3919968 B2 JP3919968 B2 JP 3919968B2 JP 06365799 A JP06365799 A JP 06365799A JP 6365799 A JP6365799 A JP 6365799A JP 3919968 B2 JP3919968 B2 JP 3919968B2
Authority
JP
Japan
Prior art keywords
error
unit
error candidate
information
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06365799A
Other languages
English (en)
Other versions
JP2000259625A (ja
Inventor
潤 伊吹
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP06365799A priority Critical patent/JP3919968B2/ja
Publication of JP2000259625A publication Critical patent/JP2000259625A/ja
Application granted granted Critical
Publication of JP3919968B2 publication Critical patent/JP3919968B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書処理装置において、ユーザが入力、もしくは電子的な媒体として獲得した文書データに対して誤った部分を自動的に指摘することにより、ユーザが文書を校正する作業を軽減し、文書校正の効率を大幅に向上させることができる文書校正技術に関する。
【0002】
【従来の技術】
一般に同音異義語誤りのように単語自体を見ても正誤の判断がつかないような誤り(文脈依存誤り)の場合は単語の存在する文脈を見て正誤の判断をする必要があり、一般的には単語間の共起に関する知識を利用して誤りを検出する方法が用いられている。
最も基本的なシステムとしては、予め登録された共起データの誤りパターンに合致した場合に、誤りとして検出するようなシステムが知られている。
【0003】
例えば、同音異議語である「保障」と「保証」という単語について考えると、「安全保障」という用語は通常使われる正しい表現であるが、「安全保証」という用語はあまり使用されない。そこで、予め「保証←→安全」という共起データの誤りパターンを登録しておき、この誤りパターンを検出することにより文書中の誤りを検出する方法である。
また、同様に、同音異義語の正しい共起データを予め蓄積しておき、テキスト中から抽出した共起データとデータベース中の共起データとの比較によって誤りかどうかを判断するシステムも存在する。
【0004】
【発明が解決しようとする課題】
上記のように文脈依存誤りをチェックするためには誤りと正解との対象データ、あるいは正しいデータの蓄積が必要であり、実際に起こり得る誤りの膨大なバリエーションをカバーするためには、大量の共起データが必要となる。
人手ではこれらのデータを整備することは難しく、コーパス(同一種類のテキストを集めたデータベース)から自動抽出する試みもあるが、一般のコーパスはある程度の誤りを含んでおり、抽出したデータをそのまま利用することはできない。それを避けるためには手間のかかる人手でのチェックが欠かせないものとなっていた。
【0005】
本発明は上記した事情に鑑みなされたものであって、本発明の目的は、予め共起データを蓄積しておかなくても、誤りの発生傾向の決まったテキストを利用して、自動的に誤り部分の推定を行うことができ、また、従来の誤り検出システムで利用できる共起データを自動的に整備できるようにすることである。
【0006】
【課題を解決するための手段】
図1は本発明の原理構成図である。同図において、1は相互に混同しやすい単語群である誤り候補単語群の知識1aをもち、入力されたテキストからそれらの単語を検出する誤り候補検出部、2は誤り候補単語に対してテキスト中で共起情報を抽出する共起情報抽出部、3は制御部であり、制御部3は、誤り候補検出部1、共起情報抽出部2に対してテキストのどの部分に対して適用するかを制御し、対象とする誤り候補に対してテキスト全域にわたる共起情報を抽出させる。
4は上記共起情報抽出部2において抽出された共起情報を集積・集計する統計情報集計部であり、抽出された共起データを集積して統計データを計算し、対象単語について文書全体での出現のパターンの集計を行なう。
【0007】
5は共起情報を元にして抽出された誤り候補の正誤を判断する誤り判定部であり、語群中の特定の単語ペアの混同誤りの発生確率等の統計情報に対する期待値の情報を持ち、統計情報集計部において集積・集計された実際に観測された共起データから計算される同じ種類の統計情報と上記期待値と比較して類似性を判断し、類似性が高い場合に、これらの共起データを誤りと判定する。
6は出力された誤りに関する頻度等の統計情報を集積する誤り統計集積部、7はこれらの情報を参照して誤り候補単語群の知識を修正する誤り候補修正部である。
また、8は抽出された共起統計情報を利用して、誤り語群中の全てのペアについてペア中の2語の類似度を評価する類似度評価部、9は共起統計情報を利用して誤り語群中の全ての組み合わせの意味的類似度を評価し、それを元に誤り候補単語群の知識を修正する誤り候補修正部である。
【0008】
本発明においては上記のように、共起データを抽出し、抽出された共起データを集積して、対象単語について文書全体での出現のパターンの集計を行ない、これを基に、誤り判定部において誤り判定を行っているので、予め共起データを蓄積しておかなくても、自動的にテキスト中の誤り部分の推定を行うことができ、また、共起データを自動的に整備することが可能となる。
また、誤り統計集積部6、誤り候補修正部7を設けることにより、実際に起こった誤りの評価を高くする方向での誤り候補単語群の知識1aの修正を行なうことができ、誤り候補の抽出処理の精度を高めることができる。
また、類似度評価部8、誤り候補修正部9を設けることにより、誤り候補単語群の知識1aの誤りやすさの情報を修正することができ、同様に誤り候補の抽出処理の精度を高めることができる。
【0009】
【発明の実施の形態】
図2は本発明の文書校正処理を行うためのシステムの構成例を示す図である。同図において、101はCRT、液晶ディスプレイ等の表示装置、キーボード、マウス等の、文字、記号、命令等を入力するための入力装置から構成される入力出力装置、102はCPU、103はROM、RAM等から構成されるメモリ、104はプログラム、データ等を記憶する外部記憶装置、105はフロッピィディスクやCD−ROMなど可搬型記憶媒体にアクセスしてデータの読み出し/書き込みを行う媒体読取装置、106は電話回線を使用してデータ通信をするためのモデム、LANなどのネットワークを使用してデータ通信をするためのネットワークカードなどを含む通信インタフェースである。
外部記憶装置104には本発明の文書校正処理を行うプログラム、誤り候補単語群知識等が格納されており、また、本発明の文書校正処理において得られる共起データ、統計情報等が格納される。
また、本発明が対象とする各種テキストは、CD−ROM等から上記媒体読取装置105を介して読み取られ、また、上記通信インタフェース106を介してネットワーク上から収集される。
【0010】
以下、図3〜図12により本発明の第1〜第3の実施例について説明する。
図3は、本発明の第1の実施例のシステムの機能構成を示す図である。
同図において、11は誤り候補検出部、12は前記した「保障」と「保証」等の同音異議語からなる誤り候補単語を格納した誤り単語群知識であり、誤り候補検出部11は、予め誤り候補単語群知識12に格納された誤り候補単語に基づき、入力された部分テキストから誤り候補を検出する。
13は共起データ抽出部であり、部分テキストから上記誤り候補と共起関係にある単語(例えば、前記した「保証」に対する「安全」等)を検出することにより、共起データを抽出する。なお、上記共起データ抽出部13は既存の枠組で一般的に用いられるものと同じである。
【0011】
14は制御部であり、制御部14はテキスト全体に対して誤り候補の検出部11、共起データの抽出部13を適用するための制御を行なう。すなわち、テキスト全体から部分テキスト(例えば、文、段落、等)を切り出し、これに対して誤り候補の検出部11、共起データの抽出部13を適用して、誤り候補の検出、共起データの抽出を行わせ、次いで、次の部分テキストに対して誤り候補の検出、共起データの抽出を行わせ、以下同様に、誤り候補の検出、共起データの抽出をテキスト全体に対して繰り返す。これによってテキスト全体から誤り候補に対する共起データが抽出されることとなる。
15は統計情報集計部であり、共起データ抽出部13により抽出された共起データを蓄積し、共起データの種別毎に統計的な処理を行なう。
16は誤り判定部であり、共起データに対する統計情報を入力として受け、共起データ毎に正誤の判断を行ないそれを最終的に単語の正誤として出力する。
【0012】
図4は上記制御部14による制御処理例を示すフローチャートであり、この例では、対象とするテキストから文を順に切り出し、文毎に共起データを抽出する処理をテキストが尽きるまで続ける場合を示している。
同図のステップS1において、テキストから文を切り出し、ステップS2において誤り候補検出部11により誤り候補を検出する。誤り候補が検出されると、ステップS3において、文を共起データ抽出部13に入力し、誤り候補に対する共起データを抽出する。
ついで、ステップS4において、抽出された共起データを統計情報集計部15に入力し、共起データの生起回数を集計する。ステップS5においてテキスト全体についての処理が終わったかを判定し、テキスト全体の処理が終わった場合には終了する。また、テキスト全体についての処理が終わっていない場合には、ステップS1に戻り、上記処理を繰り返す。
【0013】
図5は、上記のようにして抽出、集計された共起統計例を示す図である。この実現例では、誤り候補として「運航」と「運行」、「指示」と「支持」という2つの群を仮定し、それらの語群についての共起データの生起回数を共起データの種類毎に集計している。同図に示すように、「運行」、「運航」という誤り候補対する共起単語として「を再開」という単語が抽出され、また、「指示」と「支持」という誤り候補に対する共起単語として「を表明」という単語が抽出される。そして、それぞれの共起データの頻度の集計結果は「60」,「17」,「519」,「1」となった。
【0014】
図6は、図3に示した誤り判定部16における処理を示すフローチャートであり、誤り判定部16においては、次のようにして誤り判定を行う。
同図のステップS1において、統計情報集計部15において集計した集計結果を読み込む。ステップS2において、誤り候補単語群知識12を使って、誤り易い単語を群にまとめる。図5の例の場合は、「運行」と「運航」、「指示」と「支持」がそれぞれ群にまとめられる。
ステップS3において上記群の内の一つを選び、ステップS4において、群の中から単語を一つ選ぶ。例えば「運行」と「運航」という群が選択され、その内の「運行」という単語が選択される。
ステップS5において、選択された単語について、発生頻度、誤り語群全体に対する比率(相対比率)を計算する。なお、統計処理としては、その外、誤り語群内でのt検定の値を計算する等も考えられる。
【0015】
ステップS6において、上記頻度、相対比率を予め定められた期待値と比較し、誤り判定を行う。例えは、図3の例では、「指示」←→「表明」の頻度が少なく、また相対比率も小さいので、これを誤りと判定する。
ステップS7において、群中の単語を選択しつくしたかを調べ、選択しつくしていない場合には、ステップS4に戻り上記処理を繰り返す。また、群中の単語を選択しつくした場合には、ステップS8にいき、全ての群を選択しつくしたかを調べ、選択しつくした場合には処理を終了する。また、選択しつくしていない場合には、ステップS3に戻り、次の群を選択して上記処理を繰り返す。
本発明の第1の実施例においては、上記のように、共起データを抽出し誤り判定を行っているので、予め共起データを蓄積しておかなくても、自動的にテキスト中の誤り部分の推定を行うことができる。また、共起データを自動的に整備することが可能となる。
【0016】
図7は本発明の第2の実施例のシステムの機能構成を示す図である。
11〜16の構成は、前記図3に示したものと同じであり、本実施例においては、誤り統計集計部21、誤り候補修正部22が追加されている。
誤り統計集計部21は、テキストの校正処理が終る毎に誤り判定部16において検出された誤りを集め対象単語毎に誤り頻度が集計する。これらの情報は誤り候補修正部22に送られ、誤り候補修正部22は、実際に起こった誤りの評価を高くする方向での修正を行ない、誤り候補の抽出処理の精度を高める。例えば、誤りの誤り語群中で他の単語へ誤ることが実際にはなかった単語を誤り候補単語知識12から削除することにより、誤り候補の抽出処理の精度を高める。
【0017】
以下に誤り候補修正部22での処理アルゴリズム例を示す。ここではある程度データが集まっている誤り語群中で他の単語へ誤ることが実際にはなかった単語を削除することとしている。
<誤り候補修正部での処理アルゴリズム例>
特定の誤り群を選択し以下の処理を繰り返す。
1.誤り群全体での誤り件数が閾値以上存在しなければ終了
2.誤り群中の特定の単語を選択して以下の処理を繰り返す。
i.同じ群内の他の単語との混同誤りが全くなければ単語を誤り語群から削除する
【0018】
図8は上記アルゴリズムをフローチャートで示したものである。
同図のステップS1において、誤り統計集計部21の誤り統計データから特定の誤り群を選択する。ステップS2において、誤り群全体での共起データ件数が閾値以上であるかを調べる。閾値以下の場合にはステップS1に戻る。閾値以上の場合には、ステップS3に行き、誤り群中の特定の単語を選択し、ステップS4において、同じ群内他の単語との混同誤りが全くないかを調べる。混同誤りがある場合には、ステップS3に戻り上記処理を繰り返す。また、混同誤りが全くない場合には、ステップS5において、選択した単語を、誤り候補単語知識12の誤り候補から削除する。
ステップS6において、誤り群内の単語を選択しつくしたかを調べ、選択しつくしていない場合にはステップS3に戻り上記処理を繰り返す。また、選択しつくした場合には、ステップS7に行き、誤り候補群を選択しつくしたかを調べ、選択しつくしていない場合にはステップS1に戻り上記処理を繰り返し、また選択しつくした場合には、処理を終了する。
【0019】
図9(a)に誤り統計集計部21において、集計された誤り候補情報の例を示す。この例では誤り候補情報として「話す」「放す」「離す」を仮定している。これらの語に対してテキスト中の誤り検出を行なった後での誤り統計集計部の集計結果は、同図に示すように「5」,「0」,「0」となった。なお、誤り統計集計部21では、単純に件数の集計を行なっているだけである。
図9(b)に図9に示した誤り統計データ例に対する、誤り候補修正部22における処理例を示す。
この例では、誤り候補単語である「話す」については混同誤りが全くなかったので、図9(b)に示すように、誤り語群から「話す」が削除されることになる。その結果、誤り候補単語知識12の誤り語群情報は、図9(c)から図9(d)のように修正される。
【0020】
本発明の第2の実施例においては、前記第1の実施例と同様、予め共起データを蓄積しておかなくてもテキスト中の誤り部分の推定を行うことができるとともに、上記のように誤り候補単語知識12から混同誤りが全くない単語を自動的に削除しているので、誤り候補の抽出処理の精度を高めることができる。また、誤りやすい単語についての共起データを整備することが可能となる。
【0021】
図10は本発明の第3の実施例のシステムの機能構成を示す図である。
11〜16の構成は、前記図3に示したものと同じであり、本実施例においては、類似度評価部31、誤り候補修正部32が追加されている。
類似度評価部31では統計情報集計部15から共起統計情報と共に、各単語毎の生成回数の集計値を受けとる。誤り候補修正部32では任意の混同しやすい単語群中の任意の2つの単語について共起統計情報の重なりの度合いを評価し、それによって誤り候補単語知識12の誤りやすさの情報を修正する。
【0022】
以下に類似度評価部31、誤り候補修正部32での処理アルゴリズム例を示す。ここではある程度データが集まっている誤り語群中で他の単語へ誤ることが実際にはなかった単語を削除することとしている。
<類似度評価部、誤り候補修正部での処理アルゴリズム例>
特定の誤り群を選択し以下の処理を繰り返す。
1.誤り群全体での共起データ件数が閾値以上存在しなければ終了
i.誤り群中の特定の単語を選択して以下の処理を繰り返す。
i).同じ群内の全ての他の単語と以下の方法で類似度の評価を行なう
・共起データを比較して2つの単語中に共通して存在する共起データの種別の自分のもつ全共起データの種類に占める割合を計算
ii).全ての他の単語に対しての類似度が一定の閾値未満である場合には対象単語を誤り語群から削除する
【0023】
図11は上記アルゴリズムをフローチャートで示したものである。
ステップS1において、統計情報集計部15から特定の誤り群を選択する。ステップS2において、誤り群全体での共起データ件数が閾値以上かを調べ、閾値以下の場合には、ステップS1に戻る。また閾値以上の場合には、ステップS3に行き、誤り群中の特定の単語を選択する。
ステップS4において、同じ群内の全ての他の単語と共起データを比較し、2つの単語中に共通して存在する共起データの種別の自分が持つ全共起データの種類に占める割合を計算し、類似度を求める。
【0024】
ステップS5において、全ての他の単語に対して類似度が閾値未満であるかを調べ、閾値未満の場合には、ステップS6にいき、対象単語を誤り候補単語知識12の誤り候補から削除する。また、閾値以上の場合にはステップS3に戻り、上記処理を繰り返す。
ついで、ステップS7において、誤り群中の単語を選択しつくしたかを調べ、選択しつくしていない場合には、ステップS3に戻り上記処理を繰り返す。また、誤り群中の単語を選択しつくした場合には、ステップS8に行き、誤り候補群を選択しつくしたかを調べ、選択しつくしていない場合にはステップS1にもどり、上記処理を繰り返す。また、選択しつくした場合には、処理を終了する。
【0025】
図12は本実施例における誤り候補情報の修正例を示す図である。
この例では、誤り候補情報として同図(a)に示すように、「映す」、「写す」、「移す」が規定されているとする。ここで、校正処理が行なわれ、統計情報集計部15で同図(b)に示すような共起統計情報が抽出されたとする。
類似度評価部31では、前記したアルゴリズムに基づき、まず、共起データを比較して2つの単語中に共通して存在する共起データの種別の数を求める。この例の場合、「写す」に対して共起関係にある単語は「光」、「姿」、「写真」であり、また、「映す」に対して共起関係にある単語は「光」、「姿」、「映画」である。したがって、「写す」と「映す」については「光」、「姿」が共通しているから、共通する共起データ数は図12(c)に示すように「2」である。一方、「写す」と「移す」、「映す」と「移す」は共通する共起データ数が「0」である。
【0026】
ついで、前記したように共通して存在する共起データの種別の自分が持つ全共起データの種類に占める割合を計算し、類似度を求める。
この例の場合、「写す」の全共起データの種類は上記したように「光」、「姿」、「写真」の3種類であるから、図12(d)に示すように、「写す」の「映す」に対する類似度は、「2/3」となる。同様に「映す」の「写す」に対する類似度も「2/3」となる。また、「写す」の「移す」に対する類似度、「映す」の「移す」に対する類似度は「0/3」と計算され、「移す」の「写す」、「映す」の類似度は「0/2」と計算される。
【0027】
図12(d)から明らかなように、「移す」については、他の「写す」「映す」との類似度が共に0であり、他の単語へ誤ることが実際にはなかったので、削除対象となる。したがってこの例の場合、誤り候補修正部32は「移す」を誤り候補単語知識12から削除する。
本実施例においても、前記第2の実施例と同様、予め共起データを蓄積しておかなくてもテキスト中の誤り部分の推定を行うことができるとともに、誤り候補単語知識12を自動的に修正することができ、誤り候補の抽出処理の精度を高めることができる。また、誤りやすい単語についての共起データを整備することが可能となる。
【0028】
【発明の効果】
以上説明したように、本発明によれば共起データを予め蓄積しておかなくとも誤りの発生傾向の決まったテキストを大量に用意することによって自動的に誤り部分の推定を行なうことが可能となる。
又、テキストから共起データを抽出し、誤りやすい共起データを推定し集積できるので、従来の誤り検出システムで利用する共起データの整備を行なうためにもこのシステムを利用することができる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の文書構成処理を行うためのシステムの構成例を示す図である。
【図3】本発明の第1の実施例のシステムの構成を示すブロック図である。
【図4】制御部による制御処理例を示すフローチャートである。
【図5】第1の実施例において抽出、集計された共起統計例を示す図である。
【図6】誤り判定部における処理を示すフローチャートである。
【図7】本発明の第2の実施例のシステムの構成を示すブロック図である。
【図8】誤り候補修正部における処理を示すフローチャートである。
【図9】本発明の第2の実施例における処理結果例を示す図である。
【図10】本発明の第3の実施例のシステムの構成を示すブロック図である。
【図11】類似度評価部、誤り候補修正部での処理を示すフローチャートである。
【図12】第3の実施例における誤り候補情報の修正例を示す図である。
【符号の説明】
1 誤り候補検出部
1a 誤り候補単語群の知識
2 共起情報抽出部
3 制御部
4 統計情報集計部
5 誤り判定部
6 誤り統計集積部
7 誤り候補修正部
8 類似度評価部
9 誤り候補修正部
11 誤り候補検出部
12 誤り単語群知識
13 共起データ抽出部
14 制御部
15 統計情報集計部
16 誤り判定部
21 誤り統計集計部
22 誤り候補修正部
31 類似度評価部
32 誤り候補修正部

Claims (5)

  1. 相互に混同しやすい単語群である誤り候補単語群を格納した誤り候補単語群格納部をもち、格納された誤り候補単語に基づき、入力されたテキストから誤り候補を検出する誤り候補検出部と、
    テキスト中で、上記誤り候補単語に対する共起情報を抽出する共起情報抽出部と、
    共起情報を集積・集計する統計情報集計部と、
    出力された誤りに関する頻度等の統計情報を集積する誤り統計集積部と、
    共起情報の統計情報に基づき、共起情報単位での正誤を判断する誤り判定部と、
    テキストに対する校正処理を行なった後で、これらの情報を参照して誤り候補単語群格納部の誤り候補単語群を修正する誤り候補修正部とを備えた
    ことを特徴とする文書校正装置。
  2. 相互に混同しやすい単語群である誤り候補単語群を格納した誤り候補単語群格納部をもち、格納された誤り候補単語に基づき、入力されたテキストから誤り候補を検出する誤り候補検出部と、
    テキスト中で、上記誤り候補単語に対する共起情報を抽出する共起情報抽出部と、
    誤り候補検出部、共起情報抽出部に対してテキストのどの部分に対して適用するかを制御する制御部と、
    共起情報を集積・集計する統計情報集計部と、
    出力された誤りに関する頻度等の統計情報を集積する誤り統計集積部と、
    共起情報を元にして抽出された誤り候補の正誤を判断する誤り判定部と、
    テキストに対する校正処理を行なった後で、これらの情報を参照して誤り候補単語群格納部の候補単語群を修正する誤り候補修正部とを備え、
    上記制御部により上記誤り候補検出部、共起情報抽出部を制御して、対象とする誤り候補に対してテキスト全域にわたる共起情報を抽出し、
    上記統計情報集計部において、抽出された共起情報を集積して統計データを計算し、対象単語について文書全体での出現のパターンの集計を行ない、該統計情報を元に上記誤り判定部において共起情報単位での正誤を判断する
    ことを特徴とする文書校正装置。
  3. 誤り判定部は、語群中の特定の単語ペアの混同誤りの発生確率等の統計情報に対する期待値の情報を持ち、
    統計情報集計部において集積・集計された実際に観測された共起データから計算される同じ種類の統計情報と上記期待値と比較して、誤りを判定する
    ことを特徴とする請求項2の文書校正装置。
  4. 相互に混同しやすい単語群である誤り候補単語群を格納した誤り候補単語群格納部をもち、格納された誤り候補単語に基づき、入力されたテキストから誤り候補を検出する誤り候補検出部と、
    テキスト中で、上記誤り候補単語に対する共起情報を抽出する共起情報抽出部と、
    共起情報を集積・集計する統計情報集計部と、
    共起情報の統計情報に基づき、共起情報単位での正誤を判断する誤り判定部と、
    抽出された共起統計情報を利用して、誤り語群中の全てのペアについてペア中の2語の類似度を評価する類似度評価部と、
    テキストに対する校正処理を行なった後で、共起統計情報を利用して誤り語群中の全ての組み合わせの意味的類似度を評価し、それを元に誤り候補単語群格納部の誤り候補単語群を修正する誤り候補修正部とを備えた
    ことを特徴とする文書校正装置。
  5. コンピュータによって文書校正処理を実行するための文書校正プログラムを記録した記録媒体であって、
    上記文書校正処理プログラムは、誤り候補単語群格納部に格納された相互に混同しやすい単語群である誤り候補単語に基づき、入力されたテキストから誤り候補を検出し、
    誤り候補単語に対してテキスト中で共起情報を抽出して、共起情報を集積・集計し、
    共起情報の統計情報に基づき、共起情報単位での正誤を判断し、
    テキストに対する校正処理を行なった後で、これらの情報を参照して誤り候補単語群格納部の誤り候補単語群を修正する処理をコンピュータに実行させる文書校正処理プログラムを記録した記録媒体。
JP06365799A 1999-03-10 1999-03-10 文書校正装置 Expired - Fee Related JP3919968B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06365799A JP3919968B2 (ja) 1999-03-10 1999-03-10 文書校正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06365799A JP3919968B2 (ja) 1999-03-10 1999-03-10 文書校正装置

Publications (2)

Publication Number Publication Date
JP2000259625A JP2000259625A (ja) 2000-09-22
JP3919968B2 true JP3919968B2 (ja) 2007-05-30

Family

ID=13235651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06365799A Expired - Fee Related JP3919968B2 (ja) 1999-03-10 1999-03-10 文書校正装置

Country Status (1)

Country Link
JP (1) JP3919968B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4490989B2 (ja) * 2007-04-06 2010-06-30 株式会社きざしカンパニー 語句の属性を決定する方法および同方法を利用した広告方法
JP2009059323A (ja) * 2007-09-04 2009-03-19 Omron Corp 知識生成システム
JP6303508B2 (ja) * 2014-01-08 2018-04-04 日本電気株式会社 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP2016194822A (ja) * 2015-03-31 2016-11-17 株式会社エクシング サーバシステム及びそのプログラム、並びにエラーチェック方法
JP7095264B2 (ja) 2017-11-13 2022-07-05 富士通株式会社 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法

Also Published As

Publication number Publication date
JP2000259625A (ja) 2000-09-22

Similar Documents

Publication Publication Date Title
US9552349B2 (en) Methods and apparatus for performing spelling corrections using one or more variant hash tables
US8938384B2 (en) Language identification for documents containing multiple languages
US8843493B1 (en) Document fingerprint
US20110144992A1 (en) Unsupervised learning using global features, including for log-linear model word segmentation
JP2005174336A (ja) 情報抽出のための一般化文字列パターンの学習および使用
CN111144100B (zh) 一种问题文本识别方法、装置、电子设备及存储介质
JP7149721B2 (ja) 情報処理装置、文字認識エンジン最適化方法及びプログラム
US8335757B2 (en) Extracting patterns from sequential data
WO2022143608A1 (zh) 语言标注方法、装置、计算机设备和存储介质
JP3919968B2 (ja) 文書校正装置
US8977949B2 (en) Electronic document equivalence determination system and equivalence determination method
EP2138959B1 (en) Word recognizing method and word recognizing program
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
JP2000089786A (ja) 音声認識結果の修正方法および装置
CN113642739B (zh) 敏感词屏蔽质量评估模型的训练方法及相应的评估方法
JP3692399B2 (ja) 教師あり機械学習法を用いた表記誤り検出処理装置、その処理方法、およびその処理プログラム
US20110172991A1 (en) Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program
JP5594134B2 (ja) 文字列検索装置,文字列検索方法および文字列検索プログラム
JP3347477B2 (ja) 単語辞書登録装置及び文書認識装置
Soni et al. Correcting whitespace errors in digitized historical texts
JP3396734B2 (ja) コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体
JP2007058415A (ja) テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム
JP4442208B2 (ja) 文字列表記解析手法及び装置
JP2005107793A (ja) キーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラム
JP5888222B2 (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060322

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070214

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110223

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110223

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120223

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130223

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130223

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140223

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees