JP3919968B2

JP3919968B2 - 文書校正装置

Info

Publication number: JP3919968B2
Application number: JP06365799A
Authority: JP
Inventors: 潤伊吹; 文人西野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-03-10
Filing date: 1999-03-10
Publication date: 2007-05-30
Anticipated expiration: 2019-03-10
Also published as: JP2000259625A

Description

【０００１】
【発明の属する技術分野】
本発明は、文書処理装置において、ユーザが入力、もしくは電子的な媒体として獲得した文書データに対して誤った部分を自動的に指摘することにより、ユーザが文書を校正する作業を軽減し、文書校正の効率を大幅に向上させることができる文書校正技術に関する。
【０００２】
【従来の技術】
一般に同音異義語誤りのように単語自体を見ても正誤の判断がつかないような誤り（文脈依存誤り）の場合は単語の存在する文脈を見て正誤の判断をする必要があり、一般的には単語間の共起に関する知識を利用して誤りを検出する方法が用いられている。
最も基本的なシステムとしては、予め登録された共起データの誤りパターンに合致した場合に、誤りとして検出するようなシステムが知られている。
【０００３】
例えば、同音異議語である「保障」と「保証」という単語について考えると、「安全保障」という用語は通常使われる正しい表現であるが、「安全保証」という用語はあまり使用されない。そこで、予め「保証←→安全」という共起データの誤りパターンを登録しておき、この誤りパターンを検出することにより文書中の誤りを検出する方法である。
また、同様に、同音異義語の正しい共起データを予め蓄積しておき、テキスト中から抽出した共起データとデータベース中の共起データとの比較によって誤りかどうかを判断するシステムも存在する。
【０００４】
【発明が解決しようとする課題】
上記のように文脈依存誤りをチェックするためには誤りと正解との対象データ、あるいは正しいデータの蓄積が必要であり、実際に起こり得る誤りの膨大なバリエーションをカバーするためには、大量の共起データが必要となる。
人手ではこれらのデータを整備することは難しく、コーパス（同一種類のテキストを集めたデータベース）から自動抽出する試みもあるが、一般のコーパスはある程度の誤りを含んでおり、抽出したデータをそのまま利用することはできない。それを避けるためには手間のかかる人手でのチェックが欠かせないものとなっていた。
【０００５】
本発明は上記した事情に鑑みなされたものであって、本発明の目的は、予め共起データを蓄積しておかなくても、誤りの発生傾向の決まったテキストを利用して、自動的に誤り部分の推定を行うことができ、また、従来の誤り検出システムで利用できる共起データを自動的に整備できるようにすることである。
【０００６】
【課題を解決するための手段】
図１は本発明の原理構成図である。同図において、１は相互に混同しやすい単語群である誤り候補単語群の知識１ａをもち、入力されたテキストからそれらの単語を検出する誤り候補検出部、２は誤り候補単語に対してテキスト中で共起情報を抽出する共起情報抽出部、３は制御部であり、制御部３は、誤り候補検出部１、共起情報抽出部２に対してテキストのどの部分に対して適用するかを制御し、対象とする誤り候補に対してテキスト全域にわたる共起情報を抽出させる。
４は上記共起情報抽出部２において抽出された共起情報を集積・集計する統計情報集計部であり、抽出された共起データを集積して統計データを計算し、対象単語について文書全体での出現のパターンの集計を行なう。
【０００７】
５は共起情報を元にして抽出された誤り候補の正誤を判断する誤り判定部であり、語群中の特定の単語ペアの混同誤りの発生確率等の統計情報に対する期待値の情報を持ち、統計情報集計部において集積・集計された実際に観測された共起データから計算される同じ種類の統計情報と上記期待値と比較して類似性を判断し、類似性が高い場合に、これらの共起データを誤りと判定する。
６は出力された誤りに関する頻度等の統計情報を集積する誤り統計集積部、７はこれらの情報を参照して誤り候補単語群の知識を修正する誤り候補修正部である。
また、８は抽出された共起統計情報を利用して、誤り語群中の全てのペアについてペア中の２語の類似度を評価する類似度評価部、９は共起統計情報を利用して誤り語群中の全ての組み合わせの意味的類似度を評価し、それを元に誤り候補単語群の知識を修正する誤り候補修正部である。
【０００８】
本発明においては上記のように、共起データを抽出し、抽出された共起データを集積して、対象単語について文書全体での出現のパターンの集計を行ない、これを基に、誤り判定部において誤り判定を行っているので、予め共起データを蓄積しておかなくても、自動的にテキスト中の誤り部分の推定を行うことができ、また、共起データを自動的に整備することが可能となる。
また、誤り統計集積部６、誤り候補修正部７を設けることにより、実際に起こった誤りの評価を高くする方向での誤り候補単語群の知識１ａの修正を行なうことができ、誤り候補の抽出処理の精度を高めることができる。
また、類似度評価部８、誤り候補修正部９を設けることにより、誤り候補単語群の知識１ａの誤りやすさの情報を修正することができ、同様に誤り候補の抽出処理の精度を高めることができる。
【０００９】
【発明の実施の形態】
図２は本発明の文書校正処理を行うためのシステムの構成例を示す図である。同図において、１０１はＣＲＴ、液晶ディスプレイ等の表示装置、キーボード、マウス等の、文字、記号、命令等を入力するための入力装置から構成される入力出力装置、１０２はＣＰＵ、１０３はＲＯＭ、ＲＡＭ等から構成されるメモリ、１０４はプログラム、データ等を記憶する外部記憶装置、１０５はフロッピィディスクやＣＤ−ＲＯＭなど可搬型記憶媒体にアクセスしてデータの読み出し／書き込みを行う媒体読取装置、１０６は電話回線を使用してデータ通信をするためのモデム、ＬＡＮなどのネットワークを使用してデータ通信をするためのネットワークカードなどを含む通信インタフェースである。
外部記憶装置１０４には本発明の文書校正処理を行うプログラム、誤り候補単語群知識等が格納されており、また、本発明の文書校正処理において得られる共起データ、統計情報等が格納される。
また、本発明が対象とする各種テキストは、ＣＤ−ＲＯＭ等から上記媒体読取装置１０５を介して読み取られ、また、上記通信インタフェース１０６を介してネットワーク上から収集される。
【００１０】
以下、図３〜図１２により本発明の第１〜第３の実施例について説明する。
図３は、本発明の第１の実施例のシステムの機能構成を示す図である。
同図において、１１は誤り候補検出部、１２は前記した「保障」と「保証」等の同音異議語からなる誤り候補単語を格納した誤り単語群知識であり、誤り候補検出部１１は、予め誤り候補単語群知識１２に格納された誤り候補単語に基づき、入力された部分テキストから誤り候補を検出する。
１３は共起データ抽出部であり、部分テキストから上記誤り候補と共起関係にある単語（例えば、前記した「保証」に対する「安全」等）を検出することにより、共起データを抽出する。なお、上記共起データ抽出部１３は既存の枠組で一般的に用いられるものと同じである。
【００１１】
１４は制御部であり、制御部１４はテキスト全体に対して誤り候補の検出部１１、共起データの抽出部１３を適用するための制御を行なう。すなわち、テキスト全体から部分テキスト（例えば、文、段落、等）を切り出し、これに対して誤り候補の検出部１１、共起データの抽出部１３を適用して、誤り候補の検出、共起データの抽出を行わせ、次いで、次の部分テキストに対して誤り候補の検出、共起データの抽出を行わせ、以下同様に、誤り候補の検出、共起データの抽出をテキスト全体に対して繰り返す。これによってテキスト全体から誤り候補に対する共起データが抽出されることとなる。
１５は統計情報集計部であり、共起データ抽出部１３により抽出された共起データを蓄積し、共起データの種別毎に統計的な処理を行なう。
１６は誤り判定部であり、共起データに対する統計情報を入力として受け、共起データ毎に正誤の判断を行ないそれを最終的に単語の正誤として出力する。
【００１２】
図４は上記制御部１４による制御処理例を示すフローチャートであり、この例では、対象とするテキストから文を順に切り出し、文毎に共起データを抽出する処理をテキストが尽きるまで続ける場合を示している。
同図のステップＳ１において、テキストから文を切り出し、ステップＳ２において誤り候補検出部１１により誤り候補を検出する。誤り候補が検出されると、ステップＳ３において、文を共起データ抽出部１３に入力し、誤り候補に対する共起データを抽出する。
ついで、ステップＳ４において、抽出された共起データを統計情報集計部１５に入力し、共起データの生起回数を集計する。ステップＳ５においてテキスト全体についての処理が終わったかを判定し、テキスト全体の処理が終わった場合には終了する。また、テキスト全体についての処理が終わっていない場合には、ステップＳ１に戻り、上記処理を繰り返す。
【００１３】
図５は、上記のようにして抽出、集計された共起統計例を示す図である。この実現例では、誤り候補として「運航」と「運行」、「指示」と「支持」という２つの群を仮定し、それらの語群についての共起データの生起回数を共起データの種類毎に集計している。同図に示すように、「運行」、「運航」という誤り候補対する共起単語として「を再開」という単語が抽出され、また、「指示」と「支持」という誤り候補に対する共起単語として「を表明」という単語が抽出される。そして、それぞれの共起データの頻度の集計結果は「６０」，「１７」，「５１９」，「１」となった。
【００１４】
図６は、図３に示した誤り判定部１６における処理を示すフローチャートであり、誤り判定部１６においては、次のようにして誤り判定を行う。
同図のステップＳ１において、統計情報集計部１５において集計した集計結果を読み込む。ステップＳ２において、誤り候補単語群知識１２を使って、誤り易い単語を群にまとめる。図５の例の場合は、「運行」と「運航」、「指示」と「支持」がそれぞれ群にまとめられる。
ステップＳ３において上記群の内の一つを選び、ステップＳ４において、群の中から単語を一つ選ぶ。例えば「運行」と「運航」という群が選択され、その内の「運行」という単語が選択される。
ステップＳ５において、選択された単語について、発生頻度、誤り語群全体に対する比率（相対比率）を計算する。なお、統計処理としては、その外、誤り語群内でのｔ検定の値を計算する等も考えられる。
【００１５】
ステップＳ６において、上記頻度、相対比率を予め定められた期待値と比較し、誤り判定を行う。例えは、図３の例では、「指示」←→「表明」の頻度が少なく、また相対比率も小さいので、これを誤りと判定する。
ステップＳ７において、群中の単語を選択しつくしたかを調べ、選択しつくしていない場合には、ステップＳ４に戻り上記処理を繰り返す。また、群中の単語を選択しつくした場合には、ステップＳ８にいき、全ての群を選択しつくしたかを調べ、選択しつくした場合には処理を終了する。また、選択しつくしていない場合には、ステップＳ３に戻り、次の群を選択して上記処理を繰り返す。
本発明の第１の実施例においては、上記のように、共起データを抽出し誤り判定を行っているので、予め共起データを蓄積しておかなくても、自動的にテキスト中の誤り部分の推定を行うことができる。また、共起データを自動的に整備することが可能となる。
【００１６】
図７は本発明の第２の実施例のシステムの機能構成を示す図である。
１１〜１６の構成は、前記図３に示したものと同じであり、本実施例においては、誤り統計集計部２１、誤り候補修正部２２が追加されている。
誤り統計集計部２１は、テキストの校正処理が終る毎に誤り判定部１６において検出された誤りを集め対象単語毎に誤り頻度が集計する。これらの情報は誤り候補修正部２２に送られ、誤り候補修正部２２は、実際に起こった誤りの評価を高くする方向での修正を行ない、誤り候補の抽出処理の精度を高める。例えば、誤りの誤り語群中で他の単語へ誤ることが実際にはなかった単語を誤り候補単語知識１２から削除することにより、誤り候補の抽出処理の精度を高める。
【００１７】
以下に誤り候補修正部２２での処理アルゴリズム例を示す。ここではある程度データが集まっている誤り語群中で他の単語へ誤ることが実際にはなかった単語を削除することとしている。
＜誤り候補修正部での処理アルゴリズム例＞
特定の誤り群を選択し以下の処理を繰り返す。
１．誤り群全体での誤り件数が閾値以上存在しなければ終了
２．誤り群中の特定の単語を選択して以下の処理を繰り返す。
ｉ．同じ群内の他の単語との混同誤りが全くなければ単語を誤り語群から削除する
【００１８】
図８は上記アルゴリズムをフローチャートで示したものである。
同図のステップＳ１において、誤り統計集計部２１の誤り統計データから特定の誤り群を選択する。ステップＳ２において、誤り群全体での共起データ件数が閾値以上であるかを調べる。閾値以下の場合にはステップＳ１に戻る。閾値以上の場合には、ステップＳ３に行き、誤り群中の特定の単語を選択し、ステップＳ４において、同じ群内他の単語との混同誤りが全くないかを調べる。混同誤りがある場合には、ステップＳ３に戻り上記処理を繰り返す。また、混同誤りが全くない場合には、ステップＳ５において、選択した単語を、誤り候補単語知識１２の誤り候補から削除する。
ステップＳ６において、誤り群内の単語を選択しつくしたかを調べ、選択しつくしていない場合にはステップＳ３に戻り上記処理を繰り返す。また、選択しつくした場合には、ステップＳ７に行き、誤り候補群を選択しつくしたかを調べ、選択しつくしていない場合にはステップＳ１に戻り上記処理を繰り返し、また選択しつくした場合には、処理を終了する。
【００１９】
図９（ａ）に誤り統計集計部２１において、集計された誤り候補情報の例を示す。この例では誤り候補情報として「話す」「放す」「離す」を仮定している。これらの語に対してテキスト中の誤り検出を行なった後での誤り統計集計部の集計結果は、同図に示すように「５」，「０」，「０」となった。なお、誤り統計集計部２１では、単純に件数の集計を行なっているだけである。
図９（ｂ）に図９に示した誤り統計データ例に対する、誤り候補修正部２２における処理例を示す。
この例では、誤り候補単語である「話す」については混同誤りが全くなかったので、図９（ｂ）に示すように、誤り語群から「話す」が削除されることになる。その結果、誤り候補単語知識１２の誤り語群情報は、図９（ｃ）から図９（ｄ）のように修正される。
【００２０】
本発明の第２の実施例においては、前記第１の実施例と同様、予め共起データを蓄積しておかなくてもテキスト中の誤り部分の推定を行うことができるとともに、上記のように誤り候補単語知識１２から混同誤りが全くない単語を自動的に削除しているので、誤り候補の抽出処理の精度を高めることができる。また、誤りやすい単語についての共起データを整備することが可能となる。
【００２１】
図１０は本発明の第３の実施例のシステムの機能構成を示す図である。
１１〜１６の構成は、前記図３に示したものと同じであり、本実施例においては、類似度評価部３１、誤り候補修正部３２が追加されている。
類似度評価部３１では統計情報集計部１５から共起統計情報と共に、各単語毎の生成回数の集計値を受けとる。誤り候補修正部３２では任意の混同しやすい単語群中の任意の２つの単語について共起統計情報の重なりの度合いを評価し、それによって誤り候補単語知識１２の誤りやすさの情報を修正する。
【００２２】
以下に類似度評価部３１、誤り候補修正部３２での処理アルゴリズム例を示す。ここではある程度データが集まっている誤り語群中で他の単語へ誤ることが実際にはなかった単語を削除することとしている。
＜類似度評価部、誤り候補修正部での処理アルゴリズム例＞
特定の誤り群を選択し以下の処理を繰り返す。
１．誤り群全体での共起データ件数が閾値以上存在しなければ終了
ｉ．誤り群中の特定の単語を選択して以下の処理を繰り返す。
i)．同じ群内の全ての他の単語と以下の方法で類似度の評価を行なう
・共起データを比較して２つの単語中に共通して存在する共起データの種別の自分のもつ全共起データの種類に占める割合を計算
ii).全ての他の単語に対しての類似度が一定の閾値未満である場合には対象単語を誤り語群から削除する
【００２３】
図１１は上記アルゴリズムをフローチャートで示したものである。
ステップＳ１において、統計情報集計部１５から特定の誤り群を選択する。ステップＳ２において、誤り群全体での共起データ件数が閾値以上かを調べ、閾値以下の場合には、ステップＳ１に戻る。また閾値以上の場合には、ステップＳ３に行き、誤り群中の特定の単語を選択する。
ステップＳ４において、同じ群内の全ての他の単語と共起データを比較し、２つの単語中に共通して存在する共起データの種別の自分が持つ全共起データの種類に占める割合を計算し、類似度を求める。
【００２４】
ステップＳ５において、全ての他の単語に対して類似度が閾値未満であるかを調べ、閾値未満の場合には、ステップＳ６にいき、対象単語を誤り候補単語知識１２の誤り候補から削除する。また、閾値以上の場合にはステップＳ３に戻り、上記処理を繰り返す。
ついで、ステップＳ７において、誤り群中の単語を選択しつくしたかを調べ、選択しつくしていない場合には、ステップＳ３に戻り上記処理を繰り返す。また、誤り群中の単語を選択しつくした場合には、ステップＳ８に行き、誤り候補群を選択しつくしたかを調べ、選択しつくしていない場合にはステップＳ１にもどり、上記処理を繰り返す。また、選択しつくした場合には、処理を終了する。
【００２５】
図１２は本実施例における誤り候補情報の修正例を示す図である。
この例では、誤り候補情報として同図（ａ）に示すように、「映す」、「写す」、「移す」が規定されているとする。ここで、校正処理が行なわれ、統計情報集計部１５で同図（ｂ）に示すような共起統計情報が抽出されたとする。
類似度評価部３１では、前記したアルゴリズムに基づき、まず、共起データを比較して２つの単語中に共通して存在する共起データの種別の数を求める。この例の場合、「写す」に対して共起関係にある単語は「光」、「姿」、「写真」であり、また、「映す」に対して共起関係にある単語は「光」、「姿」、「映画」である。したがって、「写す」と「映す」については「光」、「姿」が共通しているから、共通する共起データ数は図１２（ｃ）に示すように「２」である。一方、「写す」と「移す」、「映す」と「移す」は共通する共起データ数が「０」である。
【００２６】
ついで、前記したように共通して存在する共起データの種別の自分が持つ全共起データの種類に占める割合を計算し、類似度を求める。
この例の場合、「写す」の全共起データの種類は上記したように「光」、「姿」、「写真」の３種類であるから、図１２（ｄ）に示すように、「写す」の「映す」に対する類似度は、「２／３」となる。同様に「映す」の「写す」に対する類似度も「２／３」となる。また、「写す」の「移す」に対する類似度、「映す」の「移す」に対する類似度は「０／３」と計算され、「移す」の「写す」、「映す」の類似度は「０／２」と計算される。
【００２７】
図１２（ｄ）から明らかなように、「移す」については、他の「写す」「映す」との類似度が共に０であり、他の単語へ誤ることが実際にはなかったので、削除対象となる。したがってこの例の場合、誤り候補修正部３２は「移す」を誤り候補単語知識１２から削除する。
本実施例においても、前記第２の実施例と同様、予め共起データを蓄積しておかなくてもテキスト中の誤り部分の推定を行うことができるとともに、誤り候補単語知識１２を自動的に修正することができ、誤り候補の抽出処理の精度を高めることができる。また、誤りやすい単語についての共起データを整備することが可能となる。
【００２８】
【発明の効果】
以上説明したように、本発明によれば共起データを予め蓄積しておかなくとも誤りの発生傾向の決まったテキストを大量に用意することによって自動的に誤り部分の推定を行なうことが可能となる。
又、テキストから共起データを抽出し、誤りやすい共起データを推定し集積できるので、従来の誤り検出システムで利用する共起データの整備を行なうためにもこのシステムを利用することができる。
【図面の簡単な説明】
【図１】本発明の原理構成図である。
【図２】本発明の文書構成処理を行うためのシステムの構成例を示す図である。
【図３】本発明の第１の実施例のシステムの構成を示すブロック図である。
【図４】制御部による制御処理例を示すフローチャートである。
【図５】第１の実施例において抽出、集計された共起統計例を示す図である。
【図６】誤り判定部における処理を示すフローチャートである。
【図７】本発明の第２の実施例のシステムの構成を示すブロック図である。
【図８】誤り候補修正部における処理を示すフローチャートである。
【図９】本発明の第２の実施例における処理結果例を示す図である。
【図１０】本発明の第３の実施例のシステムの構成を示すブロック図である。
【図１１】類似度評価部、誤り候補修正部での処理を示すフローチャートである。
【図１２】第３の実施例における誤り候補情報の修正例を示す図である。
【符号の説明】
１誤り候補検出部
１ａ誤り候補単語群の知識
２共起情報抽出部
３制御部
４統計情報集計部
５誤り判定部
６誤り統計集積部
７誤り候補修正部
８類似度評価部
９誤り候補修正部
１１誤り候補検出部
１２誤り単語群知識
１３共起データ抽出部
１４制御部
１５統計情報集計部
１６誤り判定部
２１誤り統計集計部
２２誤り候補修正部
３１類似度評価部
３２誤り候補修正部

Claims

相互に混同しやすい単語群である誤り候補単語群を格納した誤り候補単語群格納部をもち、格納された誤り候補単語に基づき、入力されたテキストから誤り候補を検出する誤り候補検出部と、
テキスト中で、上記誤り候補単語に対する共起情報を抽出する共起情報抽出部と、
共起情報を集積・集計する統計情報集計部と、
出力された誤りに関する頻度等の統計情報を集積する誤り統計集積部と、
共起情報の統計情報に基づき、共起情報単位での正誤を判断する誤り判定部と、
テキストに対する校正処理を行なった後で、これらの情報を参照して誤り候補単語群格納部の誤り候補単語群を修正する誤り候補修正部とを備えた
ことを特徴とする文書校正装置。
相互に混同しやすい単語群である誤り候補単語群を格納した誤り候補単語群格納部をもち、格納された誤り候補単語に基づき、入力されたテキストから誤り候補を検出する誤り候補検出部と、
テキスト中で、上記誤り候補単語に対する共起情報を抽出する共起情報抽出部と、
誤り候補検出部、共起情報抽出部に対してテキストのどの部分に対して適用するかを制御する制御部と、
共起情報を集積・集計する統計情報集計部と、
出力された誤りに関する頻度等の統計情報を集積する誤り統計集積部と、
共起情報を元にして抽出された誤り候補の正誤を判断する誤り判定部と、
テキストに対する校正処理を行なった後で、これらの情報を参照して誤り候補単語群格納部の候補単語群を修正する誤り候補修正部とを備え、
上記制御部により上記誤り候補検出部、共起情報抽出部を制御して、対象とする誤り候補に対してテキスト全域にわたる共起情報を抽出し、
上記統計情報集計部において、抽出された共起情報を集積して統計データを計算し、対象単語について文書全体での出現のパターンの集計を行ない、該統計情報を元に上記誤り判定部において共起情報単位での正誤を判断する
ことを特徴とする文書校正装置。
誤り判定部は、語群中の特定の単語ペアの混同誤りの発生確率等の統計情報に対する期待値の情報を持ち、
統計情報集計部において集積・集計された実際に観測された共起データから計算される同じ種類の統計情報と上記期待値と比較して、誤りを判定する
ことを特徴とする請求項２の文書校正装置。
相互に混同しやすい単語群である誤り候補単語群を格納した誤り候補単語群格納部をもち、格納された誤り候補単語に基づき、入力されたテキストから誤り候補を検出する誤り候補検出部と、
テキスト中で、上記誤り候補単語に対する共起情報を抽出する共起情報抽出部と、
共起情報を集積・集計する統計情報集計部と、
共起情報の統計情報に基づき、共起情報単位での正誤を判断する誤り判定部と、
抽出された共起統計情報を利用して、誤り語群中の全てのペアについてペア中の２語の類似度を評価する類似度評価部と、
テキストに対する校正処理を行なった後で、共起統計情報を利用して誤り語群中の全ての組み合わせの意味的類似度を評価し、それを元に誤り候補単語群格納部の誤り候補単語群を修正する誤り候補修正部とを備えた
ことを特徴とする文書校正装置。
コンピュータによって文書校正処理を実行するための文書校正プログラムを記録した記録媒体であって、
上記文書校正処理プログラムは、誤り候補単語群格納部に格納された相互に混同しやすい単語群である誤り候補単語に基づき、入力されたテキストから誤り候補を検出し、
誤り候補単語に対してテキスト中で共起情報を抽出して、共起情報を集積・集計し、
共起情報の統計情報に基づき、共起情報単位での正誤を判断し、
テキストに対する校正処理を行なった後で、これらの情報を参照して誤り候補単語群格納部の誤り候補単語群を修正する処理をコンピュータに実行させる文書校正処理プログラムを記録した記録媒体。