JP2693489B2

JP2693489B2 - 日本語文誤り検出方法

Info

Publication number: JP2693489B2
Application number: JP63148511A
Authority: JP
Inventors: 詔今郷
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1988-06-16
Filing date: 1988-06-16
Publication date: 1997-12-24
Anticipated expiration: 2012-12-24
Also published as: JPH01315866A

Description

【発明の詳細な説明】産業上の利用分野本発明は、日本語ワードプロセツサ等を用いて入力さ
れた機械処理可能な形の日本語文章中から誤り部分を検
出する日本語文誤り検出方法に関する。

従来の技術近年、OA機器の発展・普及に伴い、会社や事務所など
では日本語ワードプロセツサ等の機器により文章入力す
るような機械も増えている。ここに、英文を対象とした
ものでは、単語に綴り誤りがあるか否かを調べるスペル
・チエツカが一般に使用されて校正作業に供されてい
る。しかし、日本語文を対象としたものは殆どない。こ
れは、日本語文の場合には、英文の場合と異なり、単語
単位で分けて表記記載しないので、単純には辞書とのマ
ツチングが行えないためである。このため、日本語ワー
ドプロセツサ等で作成した文章に誤りがあるか否かは、
一般には、人間が全てチエツクしなければないないもの
である。

特に、日本語ワードプロセツサで入力された文章に
は、入力ミス、かな漢字変換の誤り、編集時の不注意な
どの原因により、ワードプロセツサ特有の誤りが含まれ
得る。このような文章を人間が後で読み直してチエツク
することは、その負担が大きく、かつ、ワードプロセツ
サ作成文章はもつともらくし見える盲点があり、誤りが
あつてもこれを見過ごしやすい。

この点、日本語文についてもその誤りをある程度機械
で検出し、ミスと思われる個所についてオペレータに警
告し得るようにすれば、校正作業の負担が軽減される。
このようなことから、日本語文を対象としたスペル・チ
エツカの例が例えば特開昭62−205464号公報により提案
されている。

発明が解決しようとする問題点しかし、同公報記載の誤りチエツク方式によると、予
め辞書に登録されている誤りしか検出できない。よつ
て、実際の文章に表れる多種の誤りには対応できず、実
際的ではない。

問題点を解決するための手段第１に、単語の表記と品詞情報との対を記憶した単語
辞書と、品詞同士の接続可否情報を記憶した接続行列表
と、入力日本語文を構成する文字列と整合する全ての単
語を前記単語辞書から検索する単語検索手段と、入力文
を構成する互いに接続可能な単語列を前記接続行列表か
ら求める単語列作成手段を備え、処理単位全体をカバー
する互いに接続可能な単語列が作成不可のときに当該処
理単位の入力日本語文に誤りが含まれていると認定する
日本語文誤り検出方法において、単語列の作成不可時に
入力日本語文の各々の文字を１字の誤り語として前記単
語検索手段による検索単語に付加して再度単語列を全て
求めた後、この求めた単語列中で最も誤り語数が少なく
て誤り語同士が近接している単語列を抽出し、この単語
列中の誤り語部分を当該処理単位中の入力日本語文に含
まれている誤りと認定する。

第２に、単語の表記と品詞情報との対を記憶した単語
辞書と、品詞同士の接続可否情報を記憶した接続行列表
と、入力日本語文を構成する文字列と整合する全ての単
語を前記単語辞書から検索する単語検索手段と、前記単
語辞書と前記接続行列表とを用いて単語同士の接続可否
を判定する接続判定手段とを備え、処理単位全体をカバ
ーする互いに接続可能な単語列が作成不可のときに当該
処理単位の入力日本語文に誤りが含まれていると認定す
る日本語文誤り検出方法において、文頭から始まる互い
に接続可能な最長単語列と文末で終了する互いに接続可
能な最長単語列とを求め、これらの２つの最長単語列間
に挾まれる文字列若しくはこれらの２つの最長単語列に
共通する文字列又はこれらの２つの最長単語列の端の文
字を当該処理単位中の日本語文に含まれている誤りと認
定する。

作用処理単位なる入力日本語文が誤りを含むか否かは、処
理全体をカバーする互いに接続可能な単語列が作成でき
るか否かにより判定できる。ここに、単語列が作成でき
ずに誤りを含む場合には、第１の方法では、日本語の特
性に着目し、入力日本語文の各々の文字を１字の誤り語
として検索単語に付加し、再度単語列を全て求めた語、
その単語列中で最も誤り語数が少なくて誤り語同士が近
接している単語列を抽出することにより、誤り個所がこ
の単語列中の誤り語部分であると認定される。第２の方
法でも、日本語の特性に着目し、文頭からの最長単語列
と文末で終了する最長単語列とを求め、これらの２つの
最長単語列間に挾まれる文字列若しくはこれらの２つの
最長単語列に共通する文字列又はこれらの２つの最長単
語列の端の文字が誤り個所であると認定される。

実施例特許請求の範囲の請求項１記載の発明の実施例を第１
図ないし第４図に基づいて説明する。まず、本実施例の
システム構成を第２図に示す。全体を制御する誤り検出
制御部１には単語辞書２が単語検索手段３を介して接続
され、接続状列表４が単語列作成手段５を介して接続さ
れている。この他、日本語ワードプロセツサ等により入
力作成された日本語文を格納した文章フアイル６や、CR
T等の表示手段７や、単語列選択手段８も接続されてい
る。

ここに、単語辞書２は例えば第３図に示すように各単
語の表記とその品詞とを対として格納したもので、表記
をキーとしてその品詞情報を検索できるように構成され
ている。単語検索手段３はこのような単語辞書２から、
入力文を構成する文字列とマツチ（整合）する全ての単
語を検索するものである。また、接続行列表４は第４図
に示すように相前後する品詞同士が接続可能さ否かの情
報を記憶させたものであり、図中、「○」印が接続可を
示し、「×」印が接続不可を示す。即ち、この表によつ
て、前の単語と後の単語とが文法的に接続可能な否かが
判る。単語列作成手段５はこの接続行列表４から入力文
を構成する互いに接続可能な単語列を求めるものであ
る。そして、誤り検出制御部１の制御のもとに、文章フ
アイル６から１文ずつ取り出し、誤りがあるか否かを下
記のようにチエツクし、誤りがあれば表示手段７にてそ
の誤り個所を表示し（警告表示）、オペレータの注意を
促す。

ここで、本実施例による特徴的な誤り検出方法を第１
図のフローチヤートを参照して説明する。まず、文章フ
アイル６から日本語文を１つ読込む。以下の処理では、
この１文全体が処理の単位となる。もつとも、文全体で
はなく、ひらがなからその他の字種への変化点を区切り
とする文字列を処理の単位としてもよい。例えば、「明
日学校へ行く。」という文全体ではなく、「明日学校
へ」「行く。」というような処理単位に分けてもよい。

しかして、ここでは、具体例として「それは製造コス
トがかかる。」と入力したつもりで、実際には「せいぞ
う」中の「い」をキー入力し忘れてかな漢字変換してし
まい、「それはせ増コストがかかる。」という過つた日
本語文が読込まれた場合を考える。

このような１文を読込んだ後、その入力文にマツチす
る全ての単語を単語検索手段３により単語辞書２中から
検索する。本例では、それ：名詞は：副助詞せ：サ変動詞未然形、サ変助動詞未然形増：接辞コスト：名詞が：接続詞、接続助詞、格助詞かかる：ラ行５段動詞、終止形となる。

次いで、このように検索された単語と、接続行列表４
とを用い、単語列作成手段５により、入力文を構成する
文法的に接続可能な単語列を作成する。

この後、単語列が作成できたか否かをチエツクする。
単語列が作成できていれば、当該入力日本語文には誤り
がないと認定され、次の処理に移行する。しかし、本例
では、誤りを含む文例であり、単語列は作成できない。
そこで、今度は文を構成する全ての文字１文字を誤り語
として上記単語辞書検索結果の単語に付加する。この
後、前回と同じく単語列作成手段５により単語列を再度
作成する。この単語列作成の結果、複数の単語列が作成
された場合には、誤り語の数が最も少ないこと、誤り語動詞の距離が最も小さいこと、という２つの条件を満たす単語列を１つだけ選択する。
本例では、それ：名詞は：副助詞せ：誤り語増：接辞コスト：名詞が：格助詞かかる：ラ行５段動詞、終止形という単語列が選択される。この結果に基づき、誤り語
の部分をその文に含まれる誤りと認定する。本例では、
「せ」を誤りと認定する。

なお、この段階で誤り語に隣接する単語がある条件を
満たせばその部分も誤りと認定することもできる。即
ち、誤り語に隣接する単語の品詞、字種、長さが予め決
められている条件に該当すれば、その単語をも誤りと認
定するものである。例えば、「誤り語に隣接する接辞、
隣接する１文字の名詞、隣接する誤り語と同字種の名
詞」を条件とすれば、本例の場合には「せ増」を誤り語
部分として認定することができる。

次に、特許請求の範囲の請求項２記載の発明の実施例
を第５図及び第６図に基づいて説明する。本実施例で
は、構成的には単語列作成手段５に代えて、接続判定手
段８を接続行列表４に接続して設けてなる。この接続判
定手段８は単語辞書２と接続行列表４とを用いて単語同
士が接続可能か否かを判定するものである。

しかして、本実施例による誤り検出方法を第６図のフ
ローチヤートを参照して説明する。ここでは、前記実施
例で例示した場合と同じく、「それはせ増コストがかか
る。」という誤つた日本語文が読込まれた場合を考え
る。本実施例にあつても、１文読込み→単語検索→単語
列作成の一連の処理は前記実施例と同様になされ、単語
列が作成できれば誤りはないものと認定され、その後の
処理に移行する。しかるに、本例の場合のように誤りを
含み単語列が作成できなかつた場合には、最長の部分単
語列を求める処理を行う。このために、文の先頭から始
まる互いに接続可能な最長単語列と文末で終わる最長単
語列とを求める。本例では、前者が「それ・は」なる単
語列であり、後者が「増・コスト・が・かかる」なる単
語列である。

この後、処理単位の文章中から誤り部分を認定する処
理を行う。この認定処理は３通りに分れる。

（１）文頭からの最長単語列と文末からの最長単語列
と間にどちらも含まれない文字列がある場合。

本例は、この例に当る。即ち、「それ・は」なる単語
列と「増・コスト・が・かかる」なる単語列との間にど
ちらにも含まれない「せ」という文字があるので、この
「せ」を誤り部分と認定する。

（２）最長単語列同士に共通する文字列がある場合。

この場合には、その共通する文字列部分を誤りと認定
する。

（３）最長単語列同士に共通する文字列がなく、か
つ、どちらにも含まれないような文字列もない場合。即
ち、最長単語列の各々の端の単語が接続不可の場合であ
る。

この場合、各々の端の文字を誤り部分と認定する。

このようにして、誤り語部分が特定認定され、警告表
示等に供される。

なお、本実施例にあつても、この段階で誤り語に隣接
する単語がある条件を満たせばその部分も誤りと認定す
ることもできる。即ち、誤り語に隣接する単語の品詞、
字種、長さが予め決められている条件に該当すれば、そ
の単語をも誤りと認定する。例えば、「誤り語に隣接す
る接辞、隣接する１文字の名詞、隣接する誤り語と同字
種の名詞」を条件とすれば、本例の場合には「せ増」を
誤り語部分として認定することができる。

発明の効果本発明は、上述したように処理単位の入力日本語文中
に誤りが含まれていることが単語列作成不可により認定
されたときには、入力日本語文の各々の文字を１字の誤
り語として検索単語に付加し、再度単語列を全て求めた
後、その単語列中で最も誤り語数が少なくて誤り語同士
が近接している単語列を抽出することで、誤り個所がこ
の単語列中の誤り語部分であると認定し、又は、文頭か
らの最長単語列と文末で終了する最長単語列とを求め、
これらの２つの最長単語列間に挾まれる文字列若しくは
これらの２つの最長単語列に共通する文字列又はこれら
の２つの最長単語列の端の文字が誤り個所であると認定
するようにしたので、日本語文中に含まれる誤り個所を
自動的に認定して警告に供することができ、校正作業の
負担の軽減を図ることができ、このために誤り例を辞書
に登録しておく方式に比し、辞書能力を増やすことな
く、各種誤り例に対処でき、誤り検出能力の大きいもの
である。

【図面の簡単な説明】

第１図ないし第４図は特許請求の範囲の請求項１記載の
発明の実施例を示すもので、第１図はフローチヤート、
第２図はブロツク図、第３図は単語辞書の構成図、第４
図は接続行列表の構成図、第５図及び第６図は特許請求
の範囲の請求項２記載の発明の実施例を示すもので、第
５図はブロツク図、第６図はフローチヤートである。２……単語辞書、３……辞書検索手段、４……接続行列
表、５……単語列作成手段、８……接続判定手段

Claims

(57)【特許請求の範囲】

【請求項１】単語の表記と品詞情報との対を記憶した単
語辞書と、品詞同士の接続可否情報を記憶した接続行列
表と、入力日本語文を構成する文字列と整合する全ての
単語を前記単語辞書から検索する単語検索手段と、入力
文を構成する互いに接続可能な単語列を前記接続行列表
から求める単語列作成手段とを備え、処理単位全体をカ
バーする互いに接続可能な単語列が作成不可のときに当
該処理単位の入力日本語文に誤りが含まれていると認定
する日本語文誤り検出方法において、単語列の作成不可
時に入力日本語文の各々の文字を１字の誤り語として前
記単語検索手段による検索単語に付加して再度単語列を
全て求めた後、この求めた単語列中で最も誤り語数が少
なくて誤り語同士が近接している単語列を抽出し、この
単語列中の誤り語部分を当該処理単位中の入力日本語文
に含まれている誤りと認定することを特徴とする日本語
文誤り検出方法。
【請求項２】単語の表記と品詞情報との対を記憶した単
語辞書と、品詞同士の接続可否情報を記憶した接続行列
表と、入力日本語文を構成する文字列と整合する全ての
単語を前記単語辞書から検索する単語検索手段と、前記
単語辞書と前記接続行列表とを用いて単語同士の接続可
否を判定する接続判定手段とを備え、処理単位全体をカ
バーする互いに接続可能な単語列が作成不可のときに当
該処理単位の入力日本語文に誤りが含まれていると認定
する日本語文誤り検出方法において、文頭から始まる互
いに接続可能な最長単語列と文末で終了する互いに接続
可能な最長単語列とを求め、これらの２つの最長単語列
間に挾まれる文字列若しくはこれらの２つの最長単語列
に共通する文字列又はこれらの２つの最長単語列の端の
文字を当該処理単位中の入力日本語文に含まれている誤
りと認定することを特徴とする日本語文誤り検出方法。