JPH01315866A - 日本語文誤り検出方法 - Google Patents

日本語文誤り検出方法

Info

Publication number
JPH01315866A
JPH01315866A JP63148511A JP14851188A JPH01315866A JP H01315866 A JPH01315866 A JP H01315866A JP 63148511 A JP63148511 A JP 63148511A JP 14851188 A JP14851188 A JP 14851188A JP H01315866 A JPH01315866 A JP H01315866A
Authority
JP
Japan
Prior art keywords
word
error
string
sentence
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63148511A
Other languages
English (en)
Other versions
JP2693489B2 (ja
Inventor
Shiyou Kongou
詔 今郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP63148511A priority Critical patent/JP2693489B2/ja
Publication of JPH01315866A publication Critical patent/JPH01315866A/ja
Application granted granted Critical
Publication of JP2693489B2 publication Critical patent/JP2693489B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、日本語ワードプロセッサ等を用いて入力され
た機械処理可能な形の日本語文章中から誤り部分を検出
する日本語文誤り検出方法に関する。
従来の技術 近年、OA機器の発展・普及に伴い、会社や事務所など
では日本語ワードプロセッサ等の機器により文章入力す
るような機会も増えている。ここに、英文を対象とした
ものでは、単語に綴り誤りがあるか否かを調べるスペル
・チエッカが一般に使用されて校正作業に供されている
。しかし、日本語文を対象としたものは殆どない。これ
は、日本語文の場合には、英文の場合と異なり、単語単
位で分けて表記記載しないので、単純には辞書とのマツ
チングが行えないためである。このため、日本語ワード
プロセッサ等で作成した文章に誤りがあるか否かは、一
般には、人間が全てチエツクしなければないないもので
ある。
特に、日本語ワードプロセッサで入力された文章には、
入力ミス、かな漢字変換の誤り、編集時の不注意などの
原因により、ワードプロセッサ特有の誤りが含まれ得る
。このような文章を人間が後で読み直してチエツクする
ことは、その負担が大きく、かつ、ワードプロセッサ作
成文章はもっともらくし見える盲点があり、誤りがあっ
てもこれを見過ごしやすい。
この点、日本語文についてもその誤りをある程度機械で
検出し、ミスと思われる個所についてオペレータに警告
し得るようにすれば、校正作業の負担が軽減される。こ
のようなことから、日本語文を対象としたスペル・チエ
ッカの例が例えば特開昭62−205464号公報によ
り提案されている。
発明が解決しようとする問題点 しかし、同公報記載の誤りチエツク方式によると、予め
辞書に登録されている誤りしか検出できない。よって、
実際の文章に表れる多種の誤りには対応できず、実際的
ではない。
問題点を解決するための手段 第1に、単語の表記と品詞情報との対を記憶した単語辞
書と、品詞同士の接続可否情報を記憶した接続行列表と
、入力日本語文を構成する文字列と整合する全ての単語
を前記単語辞書から検索する単語検索手段と、入力文を
構成する互いに接続可能な単語列を前記接続行列表から
求める単語列作成手段とを備え、処理単位全体をカバー
する互いに接続可能な単語列が作成不可のときに当該処
理単位の入力日本語文に誤りが含まれていると認定する
日本語文誤り検出方法において、単語列の作成不可時に
入力日本語文の各々の文字を1字の誤り語として前記単
語検索手段による検索単語に付加して再度単語列を全て
求めた後、この求めた単語列中で最も誤り語数が少なく
て誤り語同士が近接している単語列を抽出し、この単語
列中の誤り諸部分を当該処理単位中の入力日本語文に含
まれている誤りと認定する。
第2に、単語の表記と品詞情報との対を記憶した単語辞
書と、品詞同士の接続可否情報を記憶した接続行列表と
、入力日本語文を構成する文字列と整合する全ての単語
を前記単語辞書から検索する単語検索手段と、前記単語
辞書と前記接続行列表とを用いて単語同士の接続可否を
判定する接続判定手段とを備え、処理単位全体をカバー
する互いに接続可能な単語列が作成不可のときに当該処
理単位の入力日本語文に誤りが含まれていると認定する
日本語文誤り検出方法において、文頭から始まる互いに
接続可能な最長単語列と文末で終了する互いに接続可能
な最長単語列とを求め、これらの2つの最長単語列間に
挾まれる文字列若しくはこれらの2つの最長単語列に共
通する文字列又はこれらの2つの最長単語列の端の文字
を当該処理単位中の入力日本語文に含まれている誤りと
認定する。
作用 処理単位なる入力日本語文が誤りを含むか否かは、処理
全体をカバーする互いに接続可能な単語列が作成できる
か否かにより判定できる。ここに、単語列が作成できず
に誤りを含む場合には、第1の方法では、日本語の特性
に着目し、入力日本語文の各々の文字を1字の誤り語と
して検索単語に付加し、再度単語列を全て求めた後、そ
の単語列中で最も誤り語数が少なくて誤り語同士が近接
している単語列を抽出することにより、誤り個所がこの
単語列中の誤り諸部分であると認定される。
第2の方法でも、日本語の特性に着目し、文頭からの最
長単語列と文末で終了する最長単語列とを求め、これら
の2つの最長単語列間に挾まれる文字列若しくはこれら
の2つの最長単語列に共通する文字列又はこれらの2つ
の最長単語列の端の文字が誤り個所であると認定される
実施例 特許請求の範囲の請求項1記載の発明の実施例を第1図
ないし第4図に基づいて説明する。まず、本実施例のシ
ステム構成を第2図に示す。全体を制御する誤り検出制
御部1には単語辞書2が単語検索手段3を介して接続さ
れ、接続行列表4が単語列作成手段5を介して接続され
ている。この他、日本語ワードプロセッサ等により入力
作成された日本語文を格納した文章ファイル6や、CR
T等の表示手段7や、単語列選択手段8も接続されてい
る。
ここに、単語辞書2は例えば第3図に示すように各単語
の表記とその品詞とを対として格納したもので、表記を
キーとしてその品詞情報を検索できるように構成されて
いる。単語検索手段3はこのような単語辞書2から、入
力文を構成する文字列とマツチ(整合)する全ての単語
を検索するものである。また、接続行列表4は第4図に
示すように相前後する品詞同士が接続可能か否かの情報
を記憶させたものであり、図中、「OJ印が接続可を示
し、「×」印が接続不可を示す。即ち、この表によって
、前の単語と後の単語とが文法的に接続可能か否かが判
る。単語列作成手段5はこの接続行列表4から入力文を
構成する互いに接続可能な単語列を求めるものである。
そして、誤り検出制御部1の制御のちとに、文章ファイ
ル6から1文ずつ取り出し、誤りがあるか否かを下記の
ようにチエツクし、誤りがあれば表示手段7にてその誤
り個所を表示しく警告表示)、オペレータの注意を促す
二二で、本実施例による特徴的な誤り検出方法を第1図
のフローチャートを参照して説明する。
まず、文章ファイル6から日本語文を1つ読込む。
以下の処理では、この1文全体が処理の単位となる。も
っとも、文全体ではなく、ひらがなからその他の字種へ
の変化点を区切りとする文字列を処理の単位としてもよ
い。例えば、[明日学校へ行く。」という文全体ではな
く、「明日学校へ]「行く。」というような処理単位に
分けてもよい。
しかして、ここでは、具体例として「それは製造コスト
がかかる。」と入力したつもりで、実際には「せいぞう
」中の「い」をキー入力し忘れてかな漢字変換してしま
い、「それはせ増コストがかかる。Jという誤った日本
語文が読込まれた場合を考える。
このような1文を読込んだ後、′その入力文にマツチす
る全ての単語を単語検索手段3により単語辞書2中から
検索する。本例では、 それ 二名詞 は  :副助詞 せ  :す変動側未然形、す変助動詞未然形増  :接
辞 コスト二名詞 が  :接続詞、接続助詞、格助詞 かかる:う行5段動詞、終止形 となる。
次いで、このように検索された単語と、接続行列表4と
を用い、単語列作成手段5により、入力文を構成する文
法的に接続可能な単語列を作成する。
この後、単語列が作成できたか否かをチエツクする。単
語列が作成できていれば、当該入力日本語文には誤りが
ないと認定され、次の処理に移行する。しかし、本例で
は、誤りを含む文例であり、単語列は作成できない。そ
こで、今度は文を構成する全ての文字1文字を誤り語と
して上記単語辞書検索結果の単語に付加する。この後、
前回と同じく単語列作成手段5により単語列を再度作成
する。この単語列作成の結果、複数の単語列が作成され
た場合には。
■誤り語の数が最も少ないこと、 ■誤り語動詞の距離が最も小さいこと、という2つの条
件を満たす単語列を1つだけ選択する。本例では、 それ 二名詞 は  :副助詞 せ   :誤り語 増  :接辞 コスト:名詞 が  :格助詞 かかる:う行5段動詞、終止形 という単語列が選択される。この結果に基づき、誤り語
の部分をその文に含まれる誤りと認定する。
本例では、「せ」を誤りと認定する。
なお、この段階で誤り語に隣接する単語がある条件を満
たせばその部分も誤りと認定することもできる。即ち、
誤り語に隣接する単語の品詞、字種、長さが予め決めら
れている条件に該当すれば、その単語をも誤りと認定す
るものである。例えば、「誤り語に隣接する接辞、隣接
する1文字の名詞、隣接する誤り語と同字種の名詞」を
条件とすれば、本例の場合には「せ増」を誤り諸部分と
して認定することができる。
次に、特許請求の範囲の請求項2記載の発明の実施例を
第5図及び第6図に基づいて説明する。
本実施例では、構成的には単語列作成手段5に代えて、
接続判定手段8を接続行列表4に接続して設けてなる。
この接続判定手段8は単語辞書2と接続行列表4とを用
いて単語同士が接続可能か否かを判定するものである。
しかして、本実施例による誤り検出方法を第6図のフロ
ーチャートを参照して説明する。ここでは、前記実施例
で例示した場合と同じく、「それはせ増コストがかかる
。」という誤った日本語文が読込まれた場合を考える。
本実施例にあっても、1文読込み→単語検索−単語列作
成の一連の処理は前記実施例と同様になされ、単語列が
作成できれば誤りはないものと認定され、その後の処理
に移行する。しかるに、本例の場合のように誤りを含み
単語列が作成できなかった場合には、最長の部分単語列
を求める処理を行う。このために、文の先頭から始まる
互いに接続可能な最長単語列と文末で終わる最長単語列
とを求める。本例では、前者が「それ・は」なる単語列
であり、後者が「増・コスト・が・かかる」なる単語列
である。
この後、処理単位の文章中から誤り部分を認定する処理
を行う。この認定処理は3通りに分れる。
(1)  文頭からの最長単語列と文末からの最長単語
列と間にどちらにも含まれない文字列がある場合。
本例は、この例に当る。即ち、 「それ・は」なる単語
列と「増・コスト・が・かかる」なる単語列との間にど
ちらにも含まれない「せ」という文字があるので、この
「せ」を誤り部分と認定する。
(2)最長単語列同士に共通する文字列がある場合。
この場合には、その共通する文字列部分を誤りと認定す
る。
(3)最長単語列同士に共通する文字列がなく、かつ、
どちらにも含まれないような文字列もない場合。即ち、
最長単語列の各々の端のm語が接続不可の場合である。
この場合、各々の端の文字を誤り部分と認定する。
このようにして、誤り語部分が特定認定され、警告表示
等に供される。
なお、本実施例にあっても、この段階で誤り語に隣接す
る単語がある条件を満たせばその部分も誤りと認定する
こともできる。即ち、誤り語に隣接する単語の品詞、字
種、長さが予め決められている条件に該当すれば、その
単語をも誤りと認定する。例えば、[誤り語に隣接する
接辞、隣接する1文字の名詞、隣接する誤り語と同字種
の名詞」を条件とすれば、本例の場合には「せ増」を誤
り語部分として認定することができる。
発明の効果 本発明は、上述したように処理単位の入力日本語文中に
誤りが含まれていることが単語列作成不可により認定さ
れたときには、入力日本語文の各々の文字を1字の誤り
語として検索単語に付加し、再度単語列を全て求めた後
、その単語列中で最も誤り語数が少なくて誤り語同士が
近接している単語列を抽出することで、誤り個所がこの
単語列中の誤り語部分であると認定し、又は、文頭から
の最長単語列と文末で終了する最長単語列とを求め、こ
れらの2つの最長単語列間に挾まれる文字列若しくはこ
れらの2つの最長単語列に共通する文字列又はこれらの
2つの最長単語列の端の文字が誤り個所であると認定す
るようにしたので、日本語文中に含まれる誤り個所を自
動的に認定して警告に供することができ、校正作業の負
担の軽減を図ることができ、このために誤り例を辞書に
登録しておく方式に比し、辞書能力を増やすことなく、
各種誤り例に対処でき、誤り検出能力の大きいものであ
る。
【図面の簡単な説明】
第1図ないし第4図は特許請求の範囲の請求項1記載の
発明の実施例を示すもので、第1図はフローチャート、
第2図はブロック図、第3図は単語辞書の構成図、第4
図は接続行列表の構成図、第5図及び第6図は特許請求
の範囲の請求項2記載の発明の実施例を示すもので、第
5図はブロック図、第6図はフローチャートである。

Claims (1)

  1. 【特許請求の範囲】 1、単語の表記と品詞情報との対を記憶した単語辞書と
    、品詞同士の接続可否情報を記憶した接続行列表と、入
    力日本語文を構成する文字列と整合する全ての単語を前
    記単語辞書から検索する単語検索手段と、入力文を構成
    する互いに接続可能な単語列を前記接続行列表から求め
    る単語列作成手段とを備え、処理単位全体をカバーする
    互いに接続可能な単語列が作成不可のときに当該処理単
    位の入力日本語文に誤りが含まれていると認定する日本
    語文誤り検出方法において、単語列の作成不可時に入力
    日本語文の各々の文字を1字の誤り語として前記単語検
    索手段による検索単語に付加して再度単語列を全て求め
    た後、この求めた単語列中で最も誤り語数が少なくて誤
    り語同士が近接している単語列を抽出し、この単語列中
    の誤り語部分を当該処理単位中の入力日本語文に含まれ
    ている誤りと認定することを特徴とする日本語文誤り検
    出方法。 2、単語の表記と品詞情報との対を記憶した単語辞書と
    、品詞同士の接続可否情報を記憶した接続行列表と、入
    力日本語文を構成する文字列と整合する全ての単語を前
    記単語辞書から検索する単語検索手段と、前記単語辞書
    と前記接続行列表とを用いて単語同士の接続可否を判定
    する接続判定手段とを備え、処理単位全体をカバーする
    互いに接続可能な単語列が作成不可のときに当該処理単
    位の入力日本語文に誤りが含まれていると認定する日本
    語文誤り検出方法において、文頭から始まる互いに接続
    可能な最長単語列と文末で終了する互いに接続可能な最
    長単語列とを求め、これらの2つの最長単語列間に挾ま
    れる文字列若しくはこれらの2つの最長単語列に共通す
    る文字列又はこれらの2つの最長単語列の端の文字を当
    該処理単位中の入力日本語文に含まれている誤りと認定
    することを特徴とする日本語文誤り検出方法。
JP63148511A 1988-06-16 1988-06-16 日本語文誤り検出方法 Expired - Fee Related JP2693489B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63148511A JP2693489B2 (ja) 1988-06-16 1988-06-16 日本語文誤り検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63148511A JP2693489B2 (ja) 1988-06-16 1988-06-16 日本語文誤り検出方法

Publications (2)

Publication Number Publication Date
JPH01315866A true JPH01315866A (ja) 1989-12-20
JP2693489B2 JP2693489B2 (ja) 1997-12-24

Family

ID=15454403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63148511A Expired - Fee Related JP2693489B2 (ja) 1988-06-16 1988-06-16 日本語文誤り検出方法

Country Status (1)

Country Link
JP (1) JP2693489B2 (ja)

Also Published As

Publication number Publication date
JP2693489B2 (ja) 1997-12-24

Similar Documents

Publication Publication Date Title
JP4301515B2 (ja) 文章表示方法、情報処理装置、情報処理システム、プログラム
JPH0361220B2 (ja)
JPWO2006090732A1 (ja) 単語翻訳装置、翻訳方法および翻訳プログラム
JPH07325828A (ja) 文法チェックシステム
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
Glass et al. A naive salience-based method for speaker identification in fiction books
JP2008112363A (ja) 文書処理装置および文書処理プログラム
JP2007122660A (ja) 文書データ処理装置および文書データ処理プログラム
JPH01315866A (ja) 日本語文誤り検出方法
JPH0736686A (ja) 影響検索装置
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JPH0748217B2 (ja) 文書要約装置
JPH07244669A (ja) 文書検索方式
JP2570681B2 (ja) ワード・プロセッサ
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
JP4103311B2 (ja) 自然言語処理装置及び方法
JPS62249269A (ja) 文書処理装置
JPH0696117A (ja) 文書変更支援システム
JP3387421B2 (ja) 単語入力支援装置及び単語入力支援方法
JP2895137B2 (ja) 日本文誤り自動検出および訂正装置
JPH0531186B2 (ja)
JPH09223143A (ja) 文書情報処理装置
JP2003132059A (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JPH03161865A (ja) 文章の検索方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees