JP4278011B2

JP4278011B2 - 文書校正装置およびプログラム記憶媒体

Info

Publication number: JP4278011B2
Application number: JP08495197A
Authority: JP
Inventors: 潤伊吹; 顕足立
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1996-04-05
Filing date: 1997-04-03
Publication date: 2009-06-10
Anticipated expiration: 2017-04-03
Also published as: JPH09325962A

Description

【０００１】
【発明の属する技術分野】
本発明は，文書処理装置においてユーザが入力もしくは電子的な媒体として獲得した文書データに対して，誤った部分を自動的に指摘することにより，ユーザが文書を校正する作業を軽減し，文書校正に係る作業効率を大幅に向上させることができるようにした文書校正装置およびその文書校正装置を実現するためのプログラム記憶媒体に関する。
【０００２】
【従来の技術】
従来の文書処理装置において，誤り候補を指摘する方法として，形態素解析を行い，▲１▼その結果から未登録語部分を指摘するもの，▲２▼同音異義語のある単語を指摘するものがある。また，▲３▼特定の単語列が検出された場合に誤りと認定して指摘するものがある。これは，例えば現在では使用されない仮名遣いや表記等を予め登録した誤り検出用辞書を用いて，一致するものを誤りとするとか，名詞＋動詞という普通にはあり得ない品詞列を検出するとか，あるいは，一文字の漢字単語があった場合に誤りとするなどの方法である。他の方法として，▲４▼テキスト中の片仮名または漢字文字列を辞書順に並べ，同じ単語であって僅かな表記の揺れのある単語が連続して並ぶようにして，表記の揺れを検出しやすくしたものがある。例えば，「ウィンドウ」と「ウインドゥ」と「ウインドウ」などの場合に，表記を統一するために用いる方法である。
【０００３】
【発明が解決しようとする課題】
上記▲１▼の未登録語部分を指摘する方法は，未登録語部分の周辺に誤った綴りの単語がある可能性が高いため，その部分を指摘する方法である。しかし，未登録語の生まれる原因としては，綴りの誤り以外にも，例えば固有名詞などのように，間違いではないが辞書に登録されていないというような本来の未登録語の存在も挙げられる。したがって，指摘された部分が誤りと断定できるわけではなく，ユーザが一つ一つ正誤を判断しなければならない。
【０００４】
上記▲２▼の同音異義語の存在する単語箇所を指摘する方法は，仮名漢字変換のときに操作を誤りやすい箇所であるために確認を目的として指摘する方法である。この場合，一つでも同音異義語が存在すれば，本来は誤りでない単語であっても指摘されるため，ユーザが自ら正誤の判断を下す必要がある部分が非常に多くなってしまうという問題がある。
【０００５】
一方，上記▲３▼の特定の単語列が検出された場合に誤りとして指摘する方法では，予め誤りとして検出しておくべき品詞列などを登録する必要があり，誤りの対象が非常に限定されたものとなるため，実際には，文章中の誤りの多くは検出することができないという問題がある。
【０００６】
また，上記▲４▼の片仮名語句や漢字語句をソートしてユーザに示す方法では，校正時にユーザ自身でするべき作業量が多い割りには作業能率があまり改善されないという問題がある。
【０００７】
以上のように，従来の方法を用いると，誤り候補の指摘箇所が本来の誤りではないことが多くあり，過剰指摘の傾向になるという問題点があった。結果としてユーザが再チェックしなければならない量が多くなるため，校正作業の効率を低下させることがあった。また，誤り箇所の適切な選択が不十分なことが多いという問題点があった。
【０００８】
【課題を解決するための手段】
上記問題点を解決するため，本発明は，例えば図１ないし図５に示す各手段を備える。
【０００９】
図１は，本発明のブロック構成例を示す。図１において，１は誤り候補検出部，２ａ，２ｂ，…は誤り確率計算部，３は誤り確率保存部，４は誤り確率閾値，５は誤り候補抽出部，６は誤り表示処理部を表す。
【００１０】
誤り確率計算部２ａ，２ｂ，…は，それぞれ異なる方法によりテキストの各構成文字または文字列に対して誤り確率値を計算し付与する手段である。各誤り確率計算部２ａ，２ｂ，…は，後述する図２〜図４に示すような手段を単独でまたは組み合わせて用いてもよく，また従来技術として説明したような誤り候補を検出する手段を組み合わせて用いることにより，それぞれ所定の誤り確率を付与するようにしてもよい。
【００１１】
誤り確率保存部３は，誤り確率計算部２ａ，２ｂ，…から得た誤り確率値を集計し，各構成文字等に対する最終的な誤り確率値を定める手段である。
誤り候補抽出部５は，所定の誤り確率閾値４をもとに，これより高い誤り確率値を持つ文字または文字列を誤り候補として抽出する手段である。誤り確率閾値４は，外部入力としてまたは予め記憶された電子的データとして与えられる。
【００１２】
誤り表示処理部６は，誤り候補抽出部５により抽出された誤り箇所を表示する手段である。
以上のような構成によって，誤り確率保存部３は，各誤り確率計算部２ａ，２ｂ，…から得た複数の誤り確率値を集計し，各文字または文字列ごとに，それぞれの誤り確率値を定めるため，誤っている確率の大きい候補を従来より正確に抽出することができる。
【００１３】
また，誤り表示処理部６は，誤り候補抽出部５によって所定の誤り確率閾値４を超えたものだけを抽出して表示するため，過剰な誤り指摘を防止することができる。
【００１４】
さらに，誤り確率閾値４を変化させることにより，誤り候補として抽出し表示する単語等の量を調節できるため，校正作業の目的等により，また原テキストの種類や内容により，誤り指摘の精度を保持するか，または作業効率を向上させるかを選択することができる。
【００１５】
図２は，誤り確率計算部の一構成例を示す。
誤り確率計算部２０は，形態素解析部２１，未登録語検出部２２，固有名詞パターン検出部２３を備える。
【００１６】
形態素解析部２１は，テキストを形態素解析し単語列に分割し，単語群を未登録語検出部２２および固有名詞パターン検出部２３へ渡す手段である。形態素解析についての具体的方法については，従来からよく知られているので，ここでの詳細な説明は省略する。
【００１７】
未登録語検出部２２は，単語群から未登録語とされた単語領域を検出してその単語領域に所定の誤り確率値を付与し，図１の誤り確率保存部３へ渡す。
また，固有名詞パターン検出部２３は，形態素解析結果の単語列を受けて，統語的な特徴を利用することにより固有名詞が出現しやすい領域を認識し，その固有名詞が出現しやすい領域に対して負の誤り確率値を付与し，図１の誤り確率保存部３へ渡す。統語的な特徴とは，前後の既知の単語の意味や品詞などから類推できる特徴であり，「社長」や「部長」というような肩書の前は人名であることが多いとか，「市」や「州」という字の前にくる漢字列または片仮名は地名であることが多いという単語が並ぶパターンの特徴である。固有名詞に対して負の誤り確率値を与えるのは，固有名詞は未登録語であっても誤りではないことが多いからである。したがって，未登録語でない固有名詞には，負の誤り確率値を付与する必要はない。
【００１８】
このような固有名詞の検出では，例えば「未登録語＋肩書」のように，予め固有名詞と特定の品詞または単語の組み合わせを解析用データとして登録しておき，固有名詞パターン検出部２３で，形態素解析の結果をこれらの固有名詞パターンと照合すればよい。
【００１９】
これにより，従来の方法では必ず誤り候補として指摘されるような固有名詞に関する単語領域を，誤り指摘箇所から除くことが可能となる。
図３は，誤り確率計算部の他の一構成例を示す。
【００２０】
誤り確率計算部３０は，語彙抽出部３１，カテゴリ化部３２，確率付与部３３を備える。語彙抽出部３１は，対象テキストから単語を抽出し，カテゴリ化部３２へ送る手段である。カテゴリ化部３２は，語彙抽出部３１から得た単語群について，単語間の文字構成の類似度を計算し，計算した類似度に基づきカテゴリ化を行う手段である。確率付与部３３は，カテゴリ化部３２によりカテゴリ化された単語相互の類似度および単語の出現頻度等に基づいて誤り確率値を付与する手段である。
【００２１】
図３に示す誤り確率計算部３０によれば，例えば表記の揺れを生じている単語のように，単語相互の類似度の高い単語を同一カテゴリに分類し，その単語の類似度および出現頻度により，どの表記の単語を正当または誤りとするかを誤り確率値として付与することができるため，最終的に表示する誤り候補に表記の揺れによる誤りの傾向を反映することができる。
【００２２】
図４は，誤り確率計算部の他の一構成例を示す。
誤り確率計算部４０は，形態素解析部４１，領域分割処理部４２，確率付与部４３を備える。形態素解析部４１は，対象テキストを形態素解析し単語列に分割する手段である。領域分割処理部４２は，対象テキストを，例えば漢字，平仮名，片仮名，英字，…というような同種の文字で構成される領域に分割する手段である。
【００２３】
確率付与部４３は，記憶している各文字種ごとの平均単語長を用いて，同一文字種からなる単語領域ごとに算出したその領域内での予測単語数と，形態素解析による単語群から求めた実際の単語数とを比べ，その差に基づいた誤り確率値を各文字または文字列ごとに付与する手段である。すなわち，確率付与部４３は，予測単語数と実際の単語数との差が大きい領域には，綴り誤り等により１単語として認識されなかった単語が含まれている確率が高いとみなし，この領域に相対的に高い誤り確率値を付与する。
【００２４】
以上の図１〜図４に示す各手段は，計算機を動作させるプログラムを用いて実現される。そのプログラムは適当な記憶媒体に格納することができる。
図５は，本発明に関連する技術のブロック構成例を示す図である。図５において，５１は誤り候補検出部，５２は拡張形態素解析部，５３は単語比較部，５４は単語辞書，５５は誤り表示処理部を表す。
【００２５】
誤り候補検出部５１は，例えば図１に示す誤り候補検出部１と同様な手段によって，入力テキストから誤り確率の大きい文字列を検出する手段である。誤り確率の計算では，例えば図４などに示すような手段を用いる。単語比較部５３は，誤り候補検出部５１から得た誤り候補とされた文字列と，単語辞書５４に登録されている単語との類似度を比較して，所定値以上の類似度を持つ場合に一致と判断する手段である。拡張形態素解析部５２は，誤り候補検出部５１から得た誤り候補とされた文字列に対して拡張形態素解析を行い，拡張形態素解析の結果，その単語領域の評価値が誤り候補検出部５１から得た評価値よりよい場合，すなわち全体としての誤り確率が小さくなるような場合には，拡張形態素解析により得た単語（単語群）を正解単語（正解単語群）と認定する。
【００２６】
ここで拡張形態素解析とは，厳密に単語辞書５４に登録されている単語と一致する場合の情報だけを用いて形態素解析を行うのではなく，厳密には一致しないがかなり似ている単語の情報も用いて形態素解析を行うことを意味する。
【００２７】
誤り表示処理部５５は，元の対象テキストとともに拡張形態素解析部５２から得た正解単語群を表示する。
以上の図５に示す各手段は，計算機を動作させるプログラムを用いて実現される。そのプログラムは適当な記憶媒体に格納することができる。
【００２８】
【発明の実施の形態】
以下，本発明の実施の形態を図を用いて説明する。
図６は，図２に示す誤り確率計算部２０による誤り確率計算の例を説明する図である。
【００２９】
校正対象の原テキストが「ジュペ外相はその意見にうなづいた」であるとき，図２に示す形態素解析部２１は，形態素解析を行い，その結果として「／ジュペ／外相／は／その／意見／に／うなづ／いた／」の単語列を，未登録語検出部２２へ渡すとともに，固有名詞パターン検出部２３へ品詞等の属性情報を含めて渡す。
【００３０】
未登録語検出部２２では，「ジュペ」，「うなづ」が未登録語として検出される。検出された未登録語の文字列に対して，それぞれ誤り確率▲１▼として０．５を付与する。この０．５という値は，予め統計的なデータによって決められた値である。
【００３１】
また，固有名詞パターン検出部２３では，予め登録されている固有名詞パターンの一つである「未登録語＋肩書」に一致するものとして，「／ジュペ／外相／」が検出される。ここで，「肩書」の前は固有名詞であることが一般的であり，通常，固有名詞は未登録語であるから，「／ジュペ／外相／」の単語列は，誤りである確率は低くなる。しがたって，「／ジュペ／外相／」の「ジュペ」に，負の誤り確率▲２▼として−０．４を付与する。
【００３２】
誤り確率計算部２０からの誤り確率値により，誤り確率保存部３は，文字列「ジュペ」の誤り確率値を０．１（＝０．５−０．４）とし，文字列「うなづ」の誤り確率値を０．５とする。
【００３３】
以上の結果から，図１に示す誤り候補抽出部５と同様な誤り候補の抽出を行う。ここで，誤り確率閾値４が例えば０．２に設定されているとすると，「ジュペ」の部分は，『０．１≦誤り確率閾値（０．２）』であるため誤り候補から外され，「うなづ」の部分が，『０．５＞誤り確率閾値（０．２）』であるため誤り候補として抽出される。抽出された誤り候補は，誤り表示処理部５５へ送られる。誤り表示処理部５５は，誤り指摘箇所として「うなづ」の部分を，下線付き表示または色違い表示等により他の部分と区別して，校正用のテキストとして表示装置等に出力する。
【００３４】
このように，本来は誤りではない固有名詞である未登録語の誤り確率値を低く抑えることで，誤り候補として「ジュペ」が表示されることを防止している。なお，図５の拡張形態素解析部５２の結果を，図１に示す誤り確率保存部３に渡すような構成にしてもよい。
【００３５】
図７は，図３に示す誤り確率計算部３０による誤り確率計算の例を説明する図である。
校正対象の原テキスト中に，同一の意味を示す単語が「インバーテッド」，「インヴァーテッド」，「インバーテット」の３種の異なる表記で表されているとする。語彙抽出部３１は，原テキストの単語ごとの出現頻度を計算し，単語と出現頻度の情報をカテゴリ化部３２へ渡す。
【００３６】
カテゴリ化部３２は，単語群の中で文字構成の類似度の高いもの同士を同一のカテゴリに分類する。このカテゴリ化の処理では，例えば「バ」と「ヴァ」は類似度が非常に大きい，「ズ」と「ヅ」も類似度が非常に大きい，長音記号「ー」がある場合とない場合の類似度は大きい，濁点付きと濁点なしの同字は類似度がやや大きい，というような情報に基づいて，特定の文字の関係に対して予め定められた類似度の値を用いて，単語の類似度が算出される。これにより，「インバーテッド」，「インヴァーテッド」，「インバーテット」の３つの単語は同一カテゴリに分類される。
【００３７】
次に，同一カテゴリ内の単語間で，最高頻度の単語を基準に，文字構成の類似度により誤り確率を計算する。この例では，最高頻度の「インバーテッド」を正解単語と認定し，「バ」と「ヴァ」の表記の類似度が高いことから「インバーテッド」に対する「インヴァーテッド」の類似度が１０，また，語尾の「ド」と「ト」の表記の類似度はそれほど高くはなく，「インバーテッド」に対する「インバーテット」の類似度が２となっている。続いて，この類似度に基づき誤り確率値を定める。「インバーテッド」は，正解単語と認定しているので誤り確率を０とし，正解単語に対する類似度の高い「インヴァーテッド」は誤り確率が０．２，類似度の低い「インバーテット」は，誤り確率が０．８となっている。
【００３８】
ここで，図１に示す誤り確率閾値４を０．７と高く設定すると，誤り候補抽出部５は，文字列「インバーテット」のみを誤り候補として抽出する。一方，誤り確率閾値４を０．１と低くすれば，誤り候補抽出部５は，文字列「インヴァーテッド」，「インバーテット」の両方を抽出し，元の単語と別表記と認められる多くの単語が，誤り候補として校正テキストに表示される。なお，この誤り確率値は一例であり，テキストの種類によっては，同一カテゴリ内で類似度の低い単語の誤り確率を小さくしたほうがよい場合もある。
【００３９】
図８は，図４に示す誤り確率計算部４０による誤り確率計算と図５に示す拡張形態素解析部５２等の処理の例を説明する図である。
原テキストが「キイワードファイルの指定」であるとき，図４に示す形態素解析部４１は，形態素解析の結果として「／キイ／ワード／ファイル／の／指定／」を出力する。ここでは，単語辞書中に「キイ」，「ワード」，「ファイル」という単語があったため，未登録語は検出されていない。
【００４０】
また，領域分割処理部４２は，同一文字種ごとに領域分割処理を行い，片仮名部分の「キイワードファイル」，平仮名部分の「の」，漢字部分の「指定」の３つの部分に分割する。
【００４１】
確率付与部４３は，「／キイ／ワード／ファイル／」について，形態素解析で求めた実際の単語数と，領域分割処理による予測単語数とを比較する。予測単語数は，文字種によって統計的に定められた平均単語長から計算される。例えば片仮名文字列の平均単語長が４であるとすると，「キイワードファイル」の予測単語数は，２（≒９÷２）となる。
【００４２】
この部分の形態素解析から得られた単語数は３であり，「キイワードファイル」について，実際の単語数と予測した単語数に不一致が生じることになる。確率付与部４３は，この不一致の生じた単語領域「キイワードファイル」に誤りが存在する可能性があると判断して，各文字に不一致の度合に応じた誤り確率（例えば０．１）を付与する。
【００４３】
例えば，本発明の実施の形態では，誤り確率計算部４０からの誤り確率値と，他の誤り確率計算部からの誤り確率値とを，図１に示す誤り確率保存部３で集計し，誤り候補抽出部５で誤り候補を抽出し，誤り表示処理部６で誤り候補を指摘した校正テキストを表示する。
【００４４】
本発明に関連する技術では，さらに次のように拡張形態素解析の利用により正解単語列を求める処理を行う。
拡張形態素解析部５２は，誤り候補検出部５１が検出した，ある一定値以上の誤り確率値を持つ文字列「キイワードファイル」を拡張形態素解析の対象とする。単語比較部５３は，「キイワードファイル」と類似度が大きい単語列として，単語辞書５４に登録された単語から「キーワード」，「ファイル」を検出し，拡張形態素解析部５２では，拡張形態素解析の結果として，「／キーワード／ファイル／」が抽出される。
【００４５】
拡張形態素解析の結果として得られた「／キーワード／ファイル／」を正解単語列とみなしてよいかどうかを評価するために，ある評価値を計算する。ここでは，例えば誤り候補とされた領域内の平均単語長を評価値とする。形態素解析の結果による「／キイ／ワード／ファイル／」の平均単語長は３である。一方，拡張形態素解析の結果による「／キーワード／ファイル／」の平均単語長は４．５である。
【００４６】
これらの結果を比較すると，拡張形態素解析の結果の単語列「／キーワード／ファイル／（平均単語長＝４．５）」の方が，通常の形態素解析の結果の単語列「／キイ／ワード／ファイル／（平均単語長＝３）」よりも，片仮名文字列の平均単語長＝４に近いため，評価値（平均単語長）が改善されることが分かる。このため，原テキストの文字列と相違する部分を持つ「キーワード」を，元のテキストの「キイワード」の正解単語と認定して，誤り表示処理部５５により，校正テキスト中に誤り候補と正解単語部分とを対比させて表示する。
【００４７】
この拡張形態素解析を用いた方式によれば，例えば原テキストの「キイワードファイル」の部分について，「キイ」，「ワード」，「ファイル」のそれぞれの単語が未登録語ではないため，誤りを指摘できないような場合や，「キイワードファイル」の部分に付与される誤り確率値が所定の誤り確率閾値よりも小さいため，実際の誤り候補として抽出されないような場合にも，誤り候補とその正解単語の選出が可能になるという効果がある。
【００４８】
【発明の効果】
以上説明したように，本発明によれば，ユーザに対し誤りであるかどうかの手掛かりを一つ一つ直接提示するのではなく，複数の手掛かりをもとに総合的に判断した結果により誤りの可能性が高い部分のみを提示することが可能となる。
【００４９】
また，それぞれの手掛かりの確からしさを誤り確率値によって定量化するので，ユーザは，個々の手掛かりごとの調整に煩わされることなく，誤り確率閾値の調整のみによって，誤り候補を広く抽出して誤り指摘箇所の洩れをなくすか，明白な誤り箇所のみを抽出して校正作業の能率を向上させるかについてのバランスの調整を任意にできるようになる。
【図面の簡単な説明】
【図１】本発明のブロック構成例を示す図である。
【図２】誤り確率計算部の一構成例を示す図である。
【図３】誤り確率計算部の他の一構成例を示す図である。
【図４】誤り確率計算部の他の一構成例を示す図である。
【図５】本発明に関連する技術のブロック構成例を示す図である。
【図６】誤り確率計算の例を説明する図である。
【図７】誤り確率計算の例を説明する図である。
【図８】誤り確率計算と拡張形態素解析の例を説明する図である。
【符号の説明】
１誤り候補検出部
２ａ，２ｂ，… 誤り確率計算部
３誤り確率保存部
４誤り確率閾値
５誤り候補抽出部
６誤り表示処理部
２０誤り確率計算部
２１形態素解析部
２２未登録語検出部
２３固有名詞パターン検出部
３０誤り確率計算部
３１語彙抽出部
３２カテゴリ化部
３３確率付与部
４０誤り確率計算部
４１形態素解析部
４２領域分割処理部
４３確率付与部
５１誤り候補検出部
５２拡張形態素解析部
５３単語比較部
５４単語辞書
５５誤り表示処理部

Claims

テキスト文書における誤りを指摘する文書校正装置において，
テキストの各構成文字または文字列に対して所定の異なる誤り確率計算手法により誤り確率値を計算し，それぞれ計算された誤り確率値を付与する複数の誤り確率計算手段と，
前記複数の誤り確率計算手段から各々得た誤り確率値を集計し，各構成文字または文字列に対する最終的な誤り確率値を定める誤り確率保存手段と，
前記テキストの各構成文字または文字列に対して付与された誤り確率値と，外部から設定された誤り確率閾値または予め定められた誤り確率閾値との大小の比較により，誤り候補を抽出する誤り候補抽出手段と，
抽出された誤り候補を出力する誤り表示処理手段とを備え，
かつ，前記複数の誤り確率計算手段の中に，
テキストから構成単語を抽出する語彙抽出手段と，
抽出された単語群について単語間の類似度に基づき，単語相互の類似度の高い単語を同一カテゴリに分類することによりカテゴリ化を行うカテゴリ化手段と，
同一カテゴリ内の各単語間の類似度および単語の出現回数に基づいて誤り確率値を付与する確率付与手段とを持つ誤り確率計算手段を有する
ことを特徴とする文書校正装置。
テキスト文書における誤りを指摘する文書校正装置を計算機によって実現するためのプログラムが記憶される計算機読み取り可能なプログラム記憶媒体であって，
テキストの各構成文字または文字列に対して所定の異なる誤り確率計算手法により誤り確率値を計算し，それぞれ計算された誤り確率値を付与する複数の誤り確率計算手段と，
前記複数の誤り確率計算手段から各々得た誤り確率値を集計し，各構成文字または文字列に対する最終的な誤り確率値を定める誤り確率保存手段と，
前記テキストの各構成文字または文字列に対して付与された誤り確率値と，外部から設定された誤り確率閾値または予め定められた誤り確率閾値との大小の比較により，誤り候補を抽出する誤り候補抽出手段と，
抽出された誤り候補を出力する誤り表示処理手段として，
前記計算機を機能させ，
かつ，前記複数の誤り確率計算手段の中に，
テキストから構成単語を抽出する語彙抽出手段と，
抽出された単語群について単語間の類似度に基づき，単語相互の類似度の高い単語を同一カテゴリに分類することによりカテゴリ化を行うカテゴリ化手段と，
同一カテゴリ内の各単語間の類似度および単語の出現回数に基づいて誤り確率値を付与する確率付与手段とを持つ誤り確率計算手段を有するものとして，
前記計算機を機能させるための文書校正プログラムを格納したプログラム記憶媒体。