JP2693489B2 - 日本語文誤り検出方法 - Google Patents

日本語文誤り検出方法

Info

Publication number
JP2693489B2
JP2693489B2 JP63148511A JP14851188A JP2693489B2 JP 2693489 B2 JP2693489 B2 JP 2693489B2 JP 63148511 A JP63148511 A JP 63148511A JP 14851188 A JP14851188 A JP 14851188A JP 2693489 B2 JP2693489 B2 JP 2693489B2
Authority
JP
Japan
Prior art keywords
word
error
string
sentence
japanese sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63148511A
Other languages
English (en)
Other versions
JPH01315866A (ja
Inventor
詔 今郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP63148511A priority Critical patent/JP2693489B2/ja
Publication of JPH01315866A publication Critical patent/JPH01315866A/ja
Application granted granted Critical
Publication of JP2693489B2 publication Critical patent/JP2693489B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、日本語ワードプロセツサ等を用いて入力さ
れた機械処理可能な形の日本語文章中から誤り部分を検
出する日本語文誤り検出方法に関する。
従来の技術 近年、OA機器の発展・普及に伴い、会社や事務所など
では日本語ワードプロセツサ等の機器により文章入力す
るような機械も増えている。ここに、英文を対象とした
ものでは、単語に綴り誤りがあるか否かを調べるスペル
・チエツカが一般に使用されて校正作業に供されてい
る。しかし、日本語文を対象としたものは殆どない。こ
れは、日本語文の場合には、英文の場合と異なり、単語
単位で分けて表記記載しないので、単純には辞書とのマ
ツチングが行えないためである。このため、日本語ワー
ドプロセツサ等で作成した文章に誤りがあるか否かは、
一般には、人間が全てチエツクしなければないないもの
である。
特に、日本語ワードプロセツサで入力された文章に
は、入力ミス、かな漢字変換の誤り、編集時の不注意な
どの原因により、ワードプロセツサ特有の誤りが含まれ
得る。このような文章を人間が後で読み直してチエツク
することは、その負担が大きく、かつ、ワードプロセツ
サ作成文章はもつともらくし見える盲点があり、誤りが
あつてもこれを見過ごしやすい。
この点、日本語文についてもその誤りをある程度機械
で検出し、ミスと思われる個所についてオペレータに警
告し得るようにすれば、校正作業の負担が軽減される。
このようなことから、日本語文を対象としたスペル・チ
エツカの例が例えば特開昭62−205464号公報により提案
されている。
発明が解決しようとする問題点 しかし、同公報記載の誤りチエツク方式によると、予
め辞書に登録されている誤りしか検出できない。よつ
て、実際の文章に表れる多種の誤りには対応できず、実
際的ではない。
問題点を解決するための手段 第1に、単語の表記と品詞情報との対を記憶した単語
辞書と、品詞同士の接続可否情報を記憶した接続行列表
と、入力日本語文を構成する文字列と整合する全ての単
語を前記単語辞書から検索する単語検索手段と、入力文
を構成する互いに接続可能な単語列を前記接続行列表か
ら求める単語列作成手段を備え、処理単位全体をカバー
する互いに接続可能な単語列が作成不可のときに当該処
理単位の入力日本語文に誤りが含まれていると認定する
日本語文誤り検出方法において、単語列の作成不可時に
入力日本語文の各々の文字を1字の誤り語として前記単
語検索手段による検索単語に付加して再度単語列を全て
求めた後、この求めた単語列中で最も誤り語数が少なく
て誤り語同士が近接している単語列を抽出し、この単語
列中の誤り語部分を当該処理単位中の入力日本語文に含
まれている誤りと認定する。
第2に、単語の表記と品詞情報との対を記憶した単語
辞書と、品詞同士の接続可否情報を記憶した接続行列表
と、入力日本語文を構成する文字列と整合する全ての単
語を前記単語辞書から検索する単語検索手段と、前記単
語辞書と前記接続行列表とを用いて単語同士の接続可否
を判定する接続判定手段とを備え、処理単位全体をカバ
ーする互いに接続可能な単語列が作成不可のときに当該
処理単位の入力日本語文に誤りが含まれていると認定す
る日本語文誤り検出方法において、文頭から始まる互い
に接続可能な最長単語列と文末で終了する互いに接続可
能な最長単語列とを求め、これらの2つの最長単語列間
に挾まれる文字列若しくはこれらの2つの最長単語列に
共通する文字列又はこれらの2つの最長単語列の端の文
字を当該処理単位中の日本語文に含まれている誤りと認
定する。
作用 処理単位なる入力日本語文が誤りを含むか否かは、処
理全体をカバーする互いに接続可能な単語列が作成でき
るか否かにより判定できる。ここに、単語列が作成でき
ずに誤りを含む場合には、第1の方法では、日本語の特
性に着目し、入力日本語文の各々の文字を1字の誤り語
として検索単語に付加し、再度単語列を全て求めた語、
その単語列中で最も誤り語数が少なくて誤り語同士が近
接している単語列を抽出することにより、誤り個所がこ
の単語列中の誤り語部分であると認定される。第2の方
法でも、日本語の特性に着目し、文頭からの最長単語列
と文末で終了する最長単語列とを求め、これらの2つの
最長単語列間に挾まれる文字列若しくはこれらの2つの
最長単語列に共通する文字列又はこれらの2つの最長単
語列の端の文字が誤り個所であると認定される。
実施例 特許請求の範囲の請求項1記載の発明の実施例を第1
図ないし第4図に基づいて説明する。まず、本実施例の
システム構成を第2図に示す。全体を制御する誤り検出
制御部1には単語辞書2が単語検索手段3を介して接続
され、接続状列表4が単語列作成手段5を介して接続さ
れている。この他、日本語ワードプロセツサ等により入
力作成された日本語文を格納した文章フアイル6や、CR
T等の表示手段7や、単語列選択手段8も接続されてい
る。
ここに、単語辞書2は例えば第3図に示すように各単
語の表記とその品詞とを対として格納したもので、表記
をキーとしてその品詞情報を検索できるように構成され
ている。単語検索手段3はこのような単語辞書2から、
入力文を構成する文字列とマツチ(整合)する全ての単
語を検索するものである。また、接続行列表4は第4図
に示すように相前後する品詞同士が接続可能さ否かの情
報を記憶させたものであり、図中、「○」印が接続可を
示し、「×」印が接続不可を示す。即ち、この表によつ
て、前の単語と後の単語とが文法的に接続可能な否かが
判る。単語列作成手段5はこの接続行列表4から入力文
を構成する互いに接続可能な単語列を求めるものであ
る。そして、誤り検出制御部1の制御のもとに、文章フ
アイル6から1文ずつ取り出し、誤りがあるか否かを下
記のようにチエツクし、誤りがあれば表示手段7にてそ
の誤り個所を表示し(警告表示)、オペレータの注意を
促す。
ここで、本実施例による特徴的な誤り検出方法を第1
図のフローチヤートを参照して説明する。まず、文章フ
アイル6から日本語文を1つ読込む。以下の処理では、
この1文全体が処理の単位となる。もつとも、文全体で
はなく、ひらがなからその他の字種への変化点を区切り
とする文字列を処理の単位としてもよい。例えば、「明
日学校へ行く。」という文全体ではなく、「明日学校
へ」「行く。」というような処理単位に分けてもよい。
しかして、ここでは、具体例として「それは製造コス
トがかかる。」と入力したつもりで、実際には「せいぞ
う」中の「い」をキー入力し忘れてかな漢字変換してし
まい、「それはせ増コストがかかる。」という過つた日
本語文が読込まれた場合を考える。
このような1文を読込んだ後、その入力文にマツチす
る全ての単語を単語検索手段3により単語辞書2中から
検索する。本例では、 それ :名詞 は :副助詞 せ :サ変動詞未然形、サ変助動詞未然形 増 :接辞 コスト:名詞 が :接続詞、接続助詞、格助詞 かかる:ラ行5段動詞、終止形 となる。
次いで、このように検索された単語と、接続行列表4
とを用い、単語列作成手段5により、入力文を構成する
文法的に接続可能な単語列を作成する。
この後、単語列が作成できたか否かをチエツクする。
単語列が作成できていれば、当該入力日本語文には誤り
がないと認定され、次の処理に移行する。しかし、本例
では、誤りを含む文例であり、単語列は作成できない。
そこで、今度は文を構成する全ての文字1文字を誤り語
として上記単語辞書検索結果の単語に付加する。この
後、前回と同じく単語列作成手段5により単語列を再度
作成する。この単語列作成の結果、複数の単語列が作成
された場合には、 誤り語の数が最も少ないこと、 誤り語動詞の距離が最も小さいこと、 という2つの条件を満たす単語列を1つだけ選択する。
本例では、 それ :名詞 は :副助詞 せ :誤り語 増 :接辞 コスト:名詞 が :格助詞 かかる:ラ行5段動詞、終止形 という単語列が選択される。この結果に基づき、誤り語
の部分をその文に含まれる誤りと認定する。本例では、
「せ」を誤りと認定する。
なお、この段階で誤り語に隣接する単語がある条件を
満たせばその部分も誤りと認定することもできる。即
ち、誤り語に隣接する単語の品詞、字種、長さが予め決
められている条件に該当すれば、その単語をも誤りと認
定するものである。例えば、「誤り語に隣接する接辞、
隣接する1文字の名詞、隣接する誤り語と同字種の名
詞」を条件とすれば、本例の場合には「せ増」を誤り語
部分として認定することができる。
次に、特許請求の範囲の請求項2記載の発明の実施例
を第5図及び第6図に基づいて説明する。本実施例で
は、構成的には単語列作成手段5に代えて、接続判定手
段8を接続行列表4に接続して設けてなる。この接続判
定手段8は単語辞書2と接続行列表4とを用いて単語同
士が接続可能か否かを判定するものである。
しかして、本実施例による誤り検出方法を第6図のフ
ローチヤートを参照して説明する。ここでは、前記実施
例で例示した場合と同じく、「それはせ増コストがかか
る。」という誤つた日本語文が読込まれた場合を考え
る。本実施例にあつても、1文読込み→単語検索→単語
列作成の一連の処理は前記実施例と同様になされ、単語
列が作成できれば誤りはないものと認定され、その後の
処理に移行する。しかるに、本例の場合のように誤りを
含み単語列が作成できなかつた場合には、最長の部分単
語列を求める処理を行う。このために、文の先頭から始
まる互いに接続可能な最長単語列と文末で終わる最長単
語列とを求める。本例では、前者が「それ・は」なる単
語列であり、後者が「増・コスト・が・かかる」なる単
語列である。
この後、処理単位の文章中から誤り部分を認定する処
理を行う。この認定処理は3通りに分れる。
(1) 文頭からの最長単語列と文末からの最長単語列
と間にどちらも含まれない文字列がある場合。
本例は、この例に当る。即ち、「それ・は」なる単語
列と「増・コスト・が・かかる」なる単語列との間にど
ちらにも含まれない「せ」という文字があるので、この
「せ」を誤り部分と認定する。
(2) 最長単語列同士に共通する文字列がある場合。
この場合には、その共通する文字列部分を誤りと認定
する。
(3) 最長単語列同士に共通する文字列がなく、か
つ、どちらにも含まれないような文字列もない場合。即
ち、最長単語列の各々の端の単語が接続不可の場合であ
る。
この場合、各々の端の文字を誤り部分と認定する。
このようにして、誤り語部分が特定認定され、警告表
示等に供される。
なお、本実施例にあつても、この段階で誤り語に隣接
する単語がある条件を満たせばその部分も誤りと認定す
ることもできる。即ち、誤り語に隣接する単語の品詞、
字種、長さが予め決められている条件に該当すれば、そ
の単語をも誤りと認定する。例えば、「誤り語に隣接す
る接辞、隣接する1文字の名詞、隣接する誤り語と同字
種の名詞」を条件とすれば、本例の場合には「せ増」を
誤り語部分として認定することができる。
発明の効果 本発明は、上述したように処理単位の入力日本語文中
に誤りが含まれていることが単語列作成不可により認定
されたときには、入力日本語文の各々の文字を1字の誤
り語として検索単語に付加し、再度単語列を全て求めた
後、その単語列中で最も誤り語数が少なくて誤り語同士
が近接している単語列を抽出することで、誤り個所がこ
の単語列中の誤り語部分であると認定し、又は、文頭か
らの最長単語列と文末で終了する最長単語列とを求め、
これらの2つの最長単語列間に挾まれる文字列若しくは
これらの2つの最長単語列に共通する文字列又はこれら
の2つの最長単語列の端の文字が誤り個所であると認定
するようにしたので、日本語文中に含まれる誤り個所を
自動的に認定して警告に供することができ、校正作業の
負担の軽減を図ることができ、このために誤り例を辞書
に登録しておく方式に比し、辞書能力を増やすことな
く、各種誤り例に対処でき、誤り検出能力の大きいもの
である。
【図面の簡単な説明】
第1図ないし第4図は特許請求の範囲の請求項1記載の
発明の実施例を示すもので、第1図はフローチヤート、
第2図はブロツク図、第3図は単語辞書の構成図、第4
図は接続行列表の構成図、第5図及び第6図は特許請求
の範囲の請求項2記載の発明の実施例を示すもので、第
5図はブロツク図、第6図はフローチヤートである。 2……単語辞書、3……辞書検索手段、4……接続行列
表、5……単語列作成手段、8……接続判定手段

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】単語の表記と品詞情報との対を記憶した単
    語辞書と、品詞同士の接続可否情報を記憶した接続行列
    表と、入力日本語文を構成する文字列と整合する全ての
    単語を前記単語辞書から検索する単語検索手段と、入力
    文を構成する互いに接続可能な単語列を前記接続行列表
    から求める単語列作成手段とを備え、処理単位全体をカ
    バーする互いに接続可能な単語列が作成不可のときに当
    該処理単位の入力日本語文に誤りが含まれていると認定
    する日本語文誤り検出方法において、単語列の作成不可
    時に入力日本語文の各々の文字を1字の誤り語として前
    記単語検索手段による検索単語に付加して再度単語列を
    全て求めた後、この求めた単語列中で最も誤り語数が少
    なくて誤り語同士が近接している単語列を抽出し、この
    単語列中の誤り語部分を当該処理単位中の入力日本語文
    に含まれている誤りと認定することを特徴とする日本語
    文誤り検出方法。
  2. 【請求項2】単語の表記と品詞情報との対を記憶した単
    語辞書と、品詞同士の接続可否情報を記憶した接続行列
    表と、入力日本語文を構成する文字列と整合する全ての
    単語を前記単語辞書から検索する単語検索手段と、前記
    単語辞書と前記接続行列表とを用いて単語同士の接続可
    否を判定する接続判定手段とを備え、処理単位全体をカ
    バーする互いに接続可能な単語列が作成不可のときに当
    該処理単位の入力日本語文に誤りが含まれていると認定
    する日本語文誤り検出方法において、文頭から始まる互
    いに接続可能な最長単語列と文末で終了する互いに接続
    可能な最長単語列とを求め、これらの2つの最長単語列
    間に挾まれる文字列若しくはこれらの2つの最長単語列
    に共通する文字列又はこれらの2つの最長単語列の端の
    文字を当該処理単位中の入力日本語文に含まれている誤
    りと認定することを特徴とする日本語文誤り検出方法。
JP63148511A 1988-06-16 1988-06-16 日本語文誤り検出方法 Expired - Fee Related JP2693489B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63148511A JP2693489B2 (ja) 1988-06-16 1988-06-16 日本語文誤り検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63148511A JP2693489B2 (ja) 1988-06-16 1988-06-16 日本語文誤り検出方法

Publications (2)

Publication Number Publication Date
JPH01315866A JPH01315866A (ja) 1989-12-20
JP2693489B2 true JP2693489B2 (ja) 1997-12-24

Family

ID=15454403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63148511A Expired - Fee Related JP2693489B2 (ja) 1988-06-16 1988-06-16 日本語文誤り検出方法

Country Status (1)

Country Link
JP (1) JP2693489B2 (ja)

Also Published As

Publication number Publication date
JPH01315866A (ja) 1989-12-20

Similar Documents

Publication Publication Date Title
US7584093B2 (en) Method and system for generating spelling suggestions
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
Palmer Tokenisation and sentence segmentation
JPH07325828A (ja) 文法チェックシステム
JPH07325824A (ja) 文法チェックシステム
Murata et al. Universal model for paraphrasing--using transformation based on a defined criteria--
JP2693489B2 (ja) 日本語文誤り検出方法
Cissé et al. Automatic Spell Checker and Correction for Under-represented Spoken Languages: Case Study on Wolof
JPH0736686A (ja) 影響検索装置
JPH0748217B2 (ja) 文書要約装置
JP3433827B2 (ja) 句構造抽出装置
JPH0531186B2 (ja)
KR102604758B1 (ko) 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법
Hein A chart-based framework for grammar checking. initial studies
Sedlácek et al. Automatic Processing of Czech Inflectional and Derivative Morphology
JP3856515B2 (ja) 文書校正装置
JP2570681B2 (ja) ワード・プロセッサ
JP2818185B2 (ja) 文書作成支援装置
JP3135221B2 (ja) 用例主導型言語構造解析装置
JPS61208164A (ja) 日本語文章校正装置の表示方式
JP2003132059A (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP2895137B2 (ja) 日本文誤り自動検出および訂正装置
JP2002297589A (ja) 未知語収集方法
JPS63163957A (ja) 文書作成・校正支援装置
JPH07200592A (ja) 文章処理装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees