JPH0546612A

JPH0546612A - 文章誤り検出装置

Info

Publication number: JPH0546612A
Application number: JP3208244A
Authority: JP
Inventors: Akio Yamashita; 明男山下; Juhei Nakagaki; 寿平中垣; Hiroshi Yamaguchi; 浩山口
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1991-08-20
Filing date: 1991-08-20
Publication date: 1993-02-26

Abstract

(57)【要約】【目的】日本語文章における誤字、脱字などの誤りを検
出する文章誤り検出装置において、誤り箇所を認定する
ための処理時間を短縮すると共に、１文中に２個以上誤
りがある場合でも、誤りを含む部分を細かく検出するこ
とができるようにする。【構成】解析過程において、入力文を構成する互いに接
続可能な単語列がない時には、解析結果記憶手段の内容
を参照して、直前の文節位置まで解析位置を戻し、未知
語を切り出す処理を行い、未知語が終わる位置に解析位
置を戻して解析を再開するという構成にした。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、日本語文章における
誤字、脱字などの誤りを検出する文章誤り検出装置に関
する。

【０００２】

【従来の技術】近年、ワードプロセッサなどの普及によ
り日本語文章を作成することが多くなってきたが、日本
語文章から誤字、脱字などの誤りを発見し訂正する作業
は、依然として人手で行っているのが現状である。これ
に対して、最近このような校正作業を支援する校正支援
システムが開発されてきている。

【０００３】例えば、特開平１−３１５８６６号公報に
は、単語の表記と品詞情報、及び品詞同士の接続可否情
報を用いて、互いに接続可能な単語列が作成不可のとき
に誤りを認定する２つの方式が開示されている。第１の
方式は、入力日本語文の各々の文字を、１字の誤り語と
して検索された単語に付加し、再度単語列を総て求めた
後、その単語列中で最も誤り語数が少なくて誤り語同士
が接近している単語列が誤り箇所であると認定するもの
である。第２の方式は、文頭からの最長単語列と文末か
らの最長単語列とを求め、これらの２つの最長単語列間
にはさまれる文字列、もしくはこれらの２つの最長単語
列に共通する文字列、又はこれらの２つの最長単語列の
端の文字が誤り箇所であると認定するものである。

【０００４】

【発明が解決しようとする課題】しかしながら、特開平
１−３１５８６６号公報に開示された方式では、誤り箇
所を認定するために再度単語列を総て求めるようにして
いるため、処理に時間がかかるという問題点があった。
また、１文中に２個以上誤りがある場合には、誤りを含
む部分を細かく検出することができないという問題点が
あった。

【０００５】この発明は、処理時間を短縮すると共に、
複数の誤り部分を特定することができる文章誤り検出装
置を提供することを目的とする。

【０００６】

【課題を解決するための手段】上記課題を解決するた
め、この発明に係わる文章誤り検出装置では、入力され
た文字列を記憶する記憶手段と、前記文字列からなる文
章を単語単位又は文節単位に解析する文章解析手段と、
解析の途中経過ならびに解析結果を記憶する解析結果記
憶手段と、前記文章を構成する互いに接続可能な単語列
が無い場合に、前記解析結果記憶手段の内容を参照して
直前の文節末位置まで解析の状態を戻し、例えば次の１
文字ないしは漢字１文字あるいは戻した解析位置の前後
の連続するカタカナ文字列を自立語とみなして解析を続
行する未知語処理手段とを具えている。

【０００７】

【作用】文章解析手段は、入力文の先頭より文末に向か
って解析位置をひとつずつ移動しながら、単語辞書や単
語間の接続情報などを用いて、単語単位及び文節単位に
解析する。その過程で入力文を構成する互いに接続可能
な単語列がないときには、解析結果記憶手段の内容を参
照して文節末位置まで解析位置を戻し、未知語を切り出
す処理を行う。ここで、未知語の切り出しとは、戻した
解析位置より始まる平仮名１文字ないしは漢字１文字あ
るいは戻した解析位置の前後の連続するカタカナ文字列
を未知語の候補とし、これを自立語とみなして解析結果
記憶手段に結果を記憶することをいう。未知語を切り出
した後、未知語が終わる位置に解析位置を戻して解析を
再開する。文末まで解析位置を移動する過程で再び未知
語が検出されたならば、同様に文節末位置まで解析位置
を戻し、同様して未知語を切り出して解析を続行する。

【０００８】したがって、未知語の位置を求めるために
文章全体を再度解析する必要がなく、１文中に複数の未
知語が存在していても、その未知語の位置を容易に特定
することができる。

【０００９】

【実施例】以下、この発明に係わる文章誤り検出装置の
一実施例を添付図面を参照して説明する。

【００１０】図１は、この発明に係わる文章誤り検出装
置の概略構成を示す機能ブロック図である。この文章誤
り検出装置は、文章記憶手段１、文章解析手段２、解析
結果記憶手段３、未知語処理手段４、表示手段５、日本
語辞書６、接続関係記憶手段７から構成されている。

【００１１】文章記憶手段１は、予め入力された日本語
文章が記憶されている記憶装置である。この文章記憶手
段１は、磁気ディスクやフロッピーディスクなどの日本
語文章を記憶できるものであればどのような構成でもよ
い。また、日本語文章はキーボードなどから入力された
ものや、音声認識や文字認識の結果入力されたものでも
よいし、ネットワークやフロッピ−ディスクなどによっ
て他の装置から転送されたものでもよい。

【００１２】文章解析手段２は、入力された日本語文章
を単語単位及び文節単位に分割し、解析結果記憶手段３
に格納する。そして、未知語処理手段４の起動を含む解
析や誤り検出処理全般の制御を行う。例えば、入力文の
先頭より文末に向かって解析位置をひとつずつ移動しな
がら、単語の表記とその品詞情報などの属性情報を登録
した日本語辞書６と、単語間の接続可否の情報を登録し
た接続関係記憶手段７を用いて日本語文章を互いに接続
可能な単語列に分割する。

【００１３】ここで、日本語辞書６の内容の一例を図２
に、接続関係記憶手段７の内容の一部を図３にそれぞれ
示す。図２の日本語辞書では、名詞や動詞などの自立語
が上半分に、助詞や語尾などの付属語が下半分に示され
ている。句読点も自立語とみなして辞書に登録してもよ
い。日本語辞書はこのような構成以外でも、自立語と付
属語を一緒にして文字コード順に並べたり、別々の辞書
として構成したりというように、単語の検索ができる構
成であればよい。また、図３において、接続が可能であ
る組み合わせは「１」で示され、接続が不可能である組
み合わせは「０」で示されている。なお、組み合わせが
定義されていない場合も、接続は不可能である。図３で
は、単語間の接続の可能性だけでなく、文節末の可能性
の判定も可能にするために仮想的な文節の先頭を設けて
いる。

【００１４】文章解析手段２は、文の文頭から文末まで
単語を検索し、単語間の接続関係や文節末条件をチェッ
クする。そして、単語間の接続関係が正しい組み合わせ
のうち、文節の数が最も少ないものを結果として出力す
る文節数最小法により文章解析を行う。なお、互いに接
続可能な単語の列の組み合わせの中から、最も適切なも
のを選ぶ方法は、最長一致法や文節数最小法などどのよ
うなものでもよい。

【００１５】解析結果記憶手段３は、前記文章解析手段
２によって解析された解析結果を記憶する記憶装置であ
る。解析結果記憶手段３は、文章記憶手段１と同様に磁
気ディスクやフロッピーディスクなどの解析結果を記憶
できるものであればどのような構成でもよい。

【００１６】未知語処理手段４は、入力文を単語単位及
び文節単位に解析する過程で入力文を構成する互いに接
続可能な単語列がないときに、文章解析手段２により起
動され、解析結果記憶手段３の内容を参照して直前の文
節末位置まで解析位置を戻し、未知語を切り出す処理を
行う。未知語の切り出しとは、戻した解析位置より始ま
る平仮名１文字ないしは漢字１文字あるいは戻した解析
位置の前後の連続するカタカナ文字列を未知語の候補と
し、これを自立語とみなして解析結果記憶手段に結果を
記憶することをいう。その後、未知語が終わる位置に解
析位置を戻して解析を再開する。

【００１７】表示手段５は、文章記憶手段１に記憶され
ている内容を表示するとともに、前記解析結果記憶手段
３に記憶されている解析結果の中で、未知語として切り
出された文字列を検出し、他の部分と区別して表示す
る。他の部分と区別して表示する方法としては、例え
ば、反転する、アンダ−ラインを付ける、色を変える、
文字の大きさを変える、文字の字体を変えるなどの手段
があるが、この実施例ではアンダ−ラインを付けて表示
している。

【００１８】次に、上述した文章誤り検出装置につい
て、日本語文章から未知語を検出し、未知語を誤りとし
て検出する場合の処理手順を図４のフローチャートに基
づいて説明する。

【００１９】まず、文章解析手段２は文章記憶手段１内
に取り出すべき日本語文があるかどうかを判断し（ステ
ップ１０１）、日本語文があるときは、その１文を取り
出す（ステップ１０２）。以下の処理では、この文が処
理の対象となる。ここでは、具体例として「文書顔ずの
データベスを作成する。」という文が取り出されたとす
る。この文は、正しくは「文書画像のデータベースを作
成する。」であるが、ローマ字仮名変換時のミスタイプ
（ｇａｚｏｕ→ｋａｏｚｕ）と仮名漢字変換により誤り
を犯したものである。

【００２０】次に、解析の制御に用いる変数Ｎ、Ｐ、Ｅ
の初期値を設定する（ステップ１０３）。ここでは、文
長を示すＮには文の文字数１６を設定し、解析位置を示
すＰを０、解析結果記憶手段３に格納された単語の終端
の内、最も文末側の位置を示すＥも０に設定する。

【００２１】続いて、ステップ１０４で解析位置を示す
ＰがＮと等しいかどうかを判断する。Ｐ＝Ｎであれば、
１文の解析を終了したので、次の文を解析するためにス
テップ１０１に戻る。ここでは、Ｐ＝０、Ｎ＝１６なの
で、ステップ１０５に移る。

【００２２】ステップ１０５では、解析位置を示すＰが
Ｅを越えたかどうかを判断する。ＰがＥを越えていれ
ば、未知語処理手段４を起動するためにステップ１１４
に移る。、ここでは、Ｐ＝０、Ｅ＝０なのでステップ１
０６に移る。ステップ１０６では、位置Ｐより始まる単
語を日本語辞書６より検索する。以下、検索された単語
を検索単語と呼ぶ。その結果、検索単語は「文（名
詞）」「文書（名詞）」となり、ステップ１０７に移
る。

【００２３】ステップ１０７では、検索単語の個数を調
べ、０であればステップ１１３に移り、１個以上であれ
ばステップ１０８に移る。今、検索単語の個数は２であ
るのでステップ１０８に移る。

【００２４】ステップ１０８では、Ｐ＝０かどうかを判
断する。ここでは、Ｐ＝０なのでステップ１０９に移
る。Ｐ＝０とは、解析位置が文頭にあることを意味す
る。文は文節の連なりであり、文節は自立語で始まる。
ステップ１０９では、自立語のみを残して付属語の検索
単語は除き、ステップ１１１に移る。

【００２５】ステップ１１１では、残された検索単語の
文節末の条件を、図３の接続関係記憶手段７を用いて判
定する。「文（名詞）」「文書（名詞）」は仮想的な文
節の先頭と接続可能であるので、文節末の可能性があ
る。この判定結果を含む単語情報を解析結果記憶手段３
に格納する。その結果は、図６のＮｏ．１、２のように
なる。

【００２６】次に、ステップ１１２では、格納された単
語候補の終端の内、最も文末側の位置側の位置とＥを比
較して大きい方をＥに設定する。ここでは、最も文末側
の位置側の位置は「文書」の２であり、Ｅは０なので、
Ｅは２に更新される。

【００２７】ステップ１１３では、位置Ｐを一つ増やし
てステップ１０４に戻る。今、Ｐ＝０なので、Ｐを１と
する。

【００２８】ステップ１０４では、Ｐ＝１、Ｎ＝１６で
あるので、ステップ１０５に移り、ステップ１０５で
は、Ｐ＝１、Ｅ＝２であり、Ｐ＞Ｅではないので、ステ
ップ１０６に移る。ステップ１０６で、Ｐ＝１、すなわ
ち「書顔ず…」と照合する単語を日本語辞書６より検索
する。その結果、検索単語は「書（名詞）」、「書（カ
行５段動詞語幹）」となり、ステップ１０７に移る。こ
こで、検索単語の個数は２であるので、ステップ１０８
に移る。ステップ１０８では、Ｐ＝１であるので、ステ
ップ１１０に移る。ステップ１１０では、位置Ｐで終わ
る単語候補を解析結果記憶手段３よりもとめ、これらと
検索単語どうしの接続可能性を接続関係記憶手段７を参
照して判断し、接続可能な検索単語を残してステップ１
１１に移る。今、Ｐ＝１であるので、１で終わる単語候
補は「文」である。「文」と「書（名詞）」、「書（カ
行５段動詞語幹）」は接続可能であるので、「書（名
詞）」、「書（カ行５段動詞語幹）」が残される。ステ
ップ１１１で、残された検索単語の文節末の条件をチェ
ックすると、「書（名詞）」は文節末になりえるが、
「書（カ行５段動詞語幹）」は文節末になりえない。こ
の判定結果を含む単語情報を解析結果記憶手段３に格納
する。その結果は、図６のＮｏ．３、４のようになる。
ステップ１１２では、格納された単語候補の終端の内、
最も文末側の位置は２であるので、Ｅの値は変わらず２
のままである。ステップ１１３では、Ｐを一つ増やして
２とし、ステップ１０４に戻る。

【００２９】Ｐ＝２の場合について、同様にステップ１
０４、１０５、１０６、１０７、１０８、１１０、１１
１、１１２を実行すると、解析結果記憶手段３の内容
は、図６のＮｏ．５のようになる。解析結果記憶手段３
に格納されるのは、「顔（名詞）」であり、Ｅの値は３
に更新される。ステップ１１３では、Ｐを一つ増やして
３とし、ステップ１０４に戻る。

【００３０】Ｐ＝３の場合について、同様にステップ１
０４、１０５、１０６を実行すると、「ずのデータ…」
に照合する単語が日本語辞書６に登録されていないの
で、ステップ１０７からステップ１１３に移り、解析結
果記憶手段３には何も格納されず、Ｅも更新されない。
ステップ１１３では、Ｐを一つ増やして４とし、ステッ
プ１０４に戻る。

【００３１】Ｐ＝４の場合にステップ１０４、１０５を
実行すると、Ｅ＝３であるので、ステップ１０５からス
テップ１１４に移る。ステップ１１４から１１７が未知
語処理手段４の処理手順に相当する。ステップ１１４で
は、解析結果記憶手段３を参照して位置Ｐを直前の文節
末位置にする。Ｐ＝４であるので、ここより文頭に向か
って解析結果記憶手段３の内容を捜し、最初に文節末の
可能性が１である単語の終了位置３まで解析位置を戻
し、ステップ１１５に移る。ステップ１１５の処理を図
５のフローチャートに示す。図５に示すように、解析位
置を戻したら、Ｐで始まる文字が平仮名かどうかを調べ
る（ステップ２０１）。例文「文書顔ず…」の場合、解
析位置３で始まる文字は平仮名の「ず」であるので、ス
テップ２０２で「ず」を未知語として図４のステップ１
１６に戻る。ステップ１１６では、切り出した「ず」と
いう未知語に未知語（平仮名）を表す文法情報を付け
て、検索単語としてステップ１１７に移る。ステップ１
１７では、位置Ｐを未知語「ず」の終端位置マイナス
１、すなわちＰ＝３に変更する。続いて、ステップ１１
１、１１２を実行すると、「ず」という未知語が解析結
果記憶手段３に格納される。その結果は、図６のＮｏ．
６のようになる。ステップ１１２で、Ｅは４に更新さ
れ、ステップ１１３でＰを一つ増やして４とし、ステッ
プ１０４に戻る。

【００３２】Ｐ＝４の場合について、同様にステップ１
０４、１０５、１０６、１０７、１０８、１１０、１１
１、１１２を実行すると、解析結果記憶手段３の内容は
図６のＮｏ．７のようになる。解析結果記憶手段３に格
納されるのは「の（格助詞）」であり、Ｅは５に更新さ
れる。ステップ１１３でＰを一つ増やして５とし、ステ
ップ１０４に戻る。

【００３３】Ｐ＝５の場合について、同様にステップ１
０４、１０５、１０６、１０７、１０８、１１０、１１
１、１１２を実行すると、解析結果記憶手段３の内容は
図６のＮｏ．８のようになる。解析結果記憶手段３に格
納されるのは「データ（名詞）」であり、Ｅは８に更新
される。ステップ１１３でＰを一つ増やして６とし、ス
テップ１０４に戻る。

【００３４】Ｐ＝６の場合について、同様にステップ１
０４、１０５、１０６を実行すると、「ータベスを…」
に照合する単語が日本語辞書６に登録されていないの
で、ステップ１０７からステップ１１３に移る。この場
合、解析結果記憶手段３には何も格納されず、Ｅも更新
されない。ステップ１１３では、Ｐを一つ増やして７と
し、ステップ１０４に戻る。Ｐ＝７の場合について、同
様にステップ１０４、１０５、１０６を実行すると、
「タベスを…」に照合する単語が日本語辞書６に登録さ
れていないので、ステップ１０７からステップ１１３に
移る。この場合、解析結果記憶手段３には何も格納され
ず、Ｅも更新されない。ステップ１１３では、Ｐを一つ
増やして８とし、ステップ１０４に戻る。Ｐ＝８の場合
について、同様にステップ１０４、１０５、１０６を実
行すると、「ベスを…」に照合する単語が日本語辞書６
に登録されていないのでステップ１０７からステップ１
１３に移る。この場合、解析結果記憶手段３には何も格
納されず、Ｅも更新されない。ステップ１１３では、Ｐ
を一つ増やして９とし、ステップ１０４に戻る。

【００３５】Ｐ＝９の場合にステップ１０４、１０５を
実行すると、Ｅ＝８であるので、ステップ１０５からス
テップ１１４に移る。ステップ１１４では、解析結果記
憶手段３を参照して解析位置Ｐを直前の文節末位置にす
る。Ｐ＝９であるので、ここより文頭に向かって解析結
果記憶手段３の内容を捜し、最初に文節末可能性が１で
ある単語の終了位置８まで解析位置を戻し、ステップ１
１５に移る。図５のフローチャートに示すように、解析
位置を戻したら、Ｐで始まる文字が平仮名かどうかを調
べる（ステップ２０１）。例文「文書顔ずのデータベス
を…」の場合、解析位置８で始まる文字はカタカナの
「ベ」であるので、ステップ２０３に移る。Ｐで始まる
文字が平仮名であるときは、その１文字の平仮名を未知
語とし（ステップ２０２）、図４のステップ１１６に戻
る。ステップ２０３では、Ｐで始まる文字が漢字かどう
かを調べる。Ｐで始まる文字は漢字ではないので、ステ
ップ２０５に移る。Ｐで始まる文字が漢字であるとき
は、その１文字の漢字を未知語とし（ステップ２０
４）、図４のステップ１１６に戻る。ステップ２０５で
は、Ｐで始まる文字がカタカナかどうかを調べる。Ｐで
始まる文字はカタカナであるのでステップ２０６に移
り、解析位置８の前後の連続するカタカナ文字列「デー
タベス」を未知語とし、図４のステップ１１６に戻る。
Ｐで始まる文字がカタカナでないときは、次の一文字を
未知語とし（ステップ２０７）、図４のステップ１１６
に戻る。

【００３６】ステップ１１６では、「データベス」とい
う未知語に未知語（カタカナ）を表す文法情報をつけ
て、検索単語としてステップ１１７に移る。ステップ１
１７では、位置Ｐを未知語「データベス」の終端位置マ
イナス１、すなわち９に変更してステップ１１１に移
る。ステップ１１１、１１２を実行すると、「データベ
ス」という未知語が解析結果記憶手段３に格納される。
その結果は、図６のＮｏ．９のようになる。Ｅは１０に
更新される。ステップ１１３では、Ｐを一つ増やして１
０とし、ステップ１０４に戻る。

【００３７】Ｐ＝１０の場合について、同様にステップ
１０４、１０５、１０６、１０７、１０８、１１０、１
１１、１１２を実行すると、解析結果記憶手段３の内容
は、図６のＮｏ．１０のようになる。解析結果記憶手段
３に格納されるのは「を（格助詞）」であり、Ｅの値は
１１に更新される。ステップ１１３でＰを一つ増やして
１１とし、ステップ１０４に戻る。

【００３８】その後Ｐは、１２、１３、１４、１５と変
化し、同様にステップ１０４、１０５、１０６、１０
７、１０８、１１０、１１１、１１２、１１３を実行す
ると、解析結果記憶手段３の内容は図６のＮｏ．１１〜
Ｎｏ．１４のようになる。Ｐが１５でステップ１１３で
Ｐを一つ増やして１６にしてステップ１０４に戻ると、
ステップ１０４でＰ＝Ｎとなるので、「文書顔ずのデー
タベスを作成する。」という文の処理が終わり、ステッ
プ１０４からステップ１０１に戻る。誤りを検出しよう
とする文を１つとすれば、ステップ１０１からステップ
１１８に移る。ステップ１１８では、未知語として記憶
された文字列を解析結果記憶手段３より求め、その文字
列にアンダーラインを付けて表示する。未知語として記
憶された文字列にアンダーラインを付けて表示した例を
図７に示す。この実施例では、「ず」と「データベス」
を未知語として検出することができた。

【００３９】

【発明の効果】以上説明したように、この発明に係わる
文章誤り検出装置においては、入力文を構成する互いに
接続可能な単語列がない時には、解析結果記憶手段の内
容を参照して、直前の文節位置まで解析位置を戻し、未
知語を切り出す処理を行い、未知語が終わる位置に解析
位置を戻して解析を再開するという構成にしたため、未
知語の位置を求めるために文章全体を再度解析する必要
がないので、処理時間を短縮することができる。また、
１文中に複数の未知語が存在していても、その未知語の
位置を正確に特定することができる。

【図面の簡単な説明】

【図１】この発明に係わる文章誤り検出装置の概略構成
を示す機能ブロック図。

【図２】日本語辞書の内容の一例を示す図。

【図３】接続関係記憶手段の内容の一部を示す図。

【図４】日本語文章から未知語を検出し未知語を誤りと
して検出する場合の処理手順を示すフローチャート。

【図５】未知語処理手段の処理手順を示すフローチャー
ト。

【図６】解析結果記憶手段に格納された内容の一例を示
す図。

【図７】表示手段の表示例を示す図。

【符号の説明】

１…文章記憶手段、２…文章解析手段、３…解析結果記
憶手段、４…未知語処理手段、５…表示手段、６…日本
語辞書、７…接続関係記憶手段

───────────────────────────────────────────────────── フロントページの続き (72)発明者山口浩神奈川県横浜市保土ケ谷区神戸町134番地横浜ビジネスパークイーストタワー富士ゼロツクス株式会社内

Claims

【特許請求の範囲】

【請求項１】文字列を記憶する記憶手段と、前記文字列
からなる文章を単語単位又は文節単位に解析する文章解
析手段と、解析の途中経過ならびに解析結果を記憶する
解析結果記憶手段と、前記文章を構成する互いに接続可
能な単語列が無い場合に、前記解析結果記憶手段の内容
を参照して、直前の文節末位置まで解析の状態を戻すと
共に、文字の種類に応じて所定の解析を継続して行う未
知語処理手段とを具えたことを特徴とする文章誤り検出
装置。