JPH0362260A - 片仮名単語誤り検出訂正装置 - Google Patents

片仮名単語誤り検出訂正装置

Info

Publication number
JPH0362260A
JPH0362260A JP1198692A JP19869289A JPH0362260A JP H0362260 A JPH0362260 A JP H0362260A JP 1198692 A JP1198692 A JP 1198692A JP 19869289 A JP19869289 A JP 19869289A JP H0362260 A JPH0362260 A JP H0362260A
Authority
JP
Japan
Prior art keywords
katakana
word
strings
character
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1198692A
Other languages
English (en)
Other versions
JPH079654B2 (ja
Inventor
Shinichiro Takagi
伸一郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1198692A priority Critical patent/JPH079654B2/ja
Publication of JPH0362260A publication Critical patent/JPH0362260A/ja
Publication of JPH079654B2 publication Critical patent/JPH079654B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、日本文の文書データベース等を作成するにあ
たり、入力された日本文文字列に含まれる片仮名の誤字
や表記の不統一を自動的に検出し、さらに誤字の場合に
は、訂正のための候補文字列を自動的に抽出する片仮名
単語誤り検出訂正装置に関する。
〔従来の技術〕
各種技術や情報の国際化、さらには日本語の変遷などに
伴って、日本語の文書内に片仮名表記の単語が多用され
るようになった。このため、各種マニュアルや科学技術
論文、出版用原稿、事務文書などの日本文の文書を電子
ファイル化する場合に、専門用語や固有名詞あるいは一
部の一般語について片仮名語が頻出し、これに伴って1
作成者の思い違い(誤:インターフェイス/正:インタ
フェース)や日本語ワードプロセッサに代表される文書
入力装置の入力誤り(誤:コンピュター/正:コンピュ
ーター)や漢字OCRに代表される文字認識誤り(誤:
ピツチ/正:ピッチ)など種々の誤りが発生する。また
、誤字ばかりではなく、片仮名単語には文書作成者に応
じた表記のゆらぎも頻発する。たとえば、ファックス/
ファクス/ファクシミリなどはどれも個々の用語として
は必ずしも誤りといえないが、同一の意味を示す用語な
ので、表記は統一すべきである。
従来、こうした状況に対して、人手で行う校正において
、片仮名用語の誤りや表記のゆらぎを検出する作業は、
片仮名用語が外来語に由来するものの数が多く、また発
音をそのまま片仮名表記する傾向もあるために、漢字用
語や平仮名用語に比べて、 (1)用語の正しい表記をすべて覚えきれない例:正シ
ミュレート/シュミレート(擬似すること)(2)文字
の類似性により誤りが見過ごされやすい例:正デバグ/
デバッグ(プログラムの誤りを検出すること)(3)文
書中に点在した表記のゆらぎがある用語の抽出が難しい (4)表記のゆらぎのある用語についてそのゆらぎ表記
と統一表記とをすべて覚えきれないなどの要因により、
片仮名文字の誤りや不統一表記の検出処理や、検出され
た場合での正解の候補単語の抽出処理が困難であり、校
正の精度の低下や処理時間の増大という問題があった。
一方、単語認識の精度向上のために、認識装置の読み取
り結果と正しい用語で構成される認識用辞書とを高速に
照合し、その照合値の度合によって認識誤りを排除する
方式が考案されている(例えば、特願昭61−2484
15号)、この方式の文字照合法による訂正手段の処理
の流れを第6図に示す、ここで、101は検出された片
仮名の誤り文字列、102は誤字、103は正字、10
4は予め作成された片仮名単語候補列(認識用辞書の一
部)、105は照合値1.0が与えられる文字とその位
置、106は照合値0.8が与えられる文字とその位置
で、106を1文字後方に移動したもの、107は照合
値0.8が与えられる文字とその位置で、105を1文
字前方に移動したもの、108は各単語候補との照合結
果、1゜9は評価値、110は評価値が最も高い単語候
補である。
この例では、認識結果が101で示す片仮名の誤り文字
列「デジタル」 (正解は「デジタル」)であった場合
において、該片仮名文字列を認識結果から抽出して、各
文字の位置に応じた照合値105.106,107をそ
れぞれ設定する。ここで、106,107のように1前
後に1文字移動した文字に対して照合値を付与するのは
、誤字のほかに脱字や誤挿を想定しているからである。
この際には、脱字や誤挿の発生頻度が一般に誤字より低
いため、照合値も0.8と下げである。こうして照合値
を設定した後、認識用辞書の一部である片仮名単語候補
列104のそれぞれの候補に対して、105,106,
107で設定した照合値を一致した文字位置に応じて付
与する。ここで、該当する文字がない場合には0を付与
する。この後で各候補に対して評価値(照合値の合計値
)109を算出し、評価値が最も高い単語候補110と
して「デジタル」を抽出する。
このように、片仮名文字とその位置に応じた照合値を設
定し、単語候補との照合によって、誤った片仮名単語「
デコタル」に対する訂正候補「デジタル」を抽出するこ
とができる。しかし、この方式では、実際の文書に出現
する片仮名単語を対象とする場合には、単語候補、が膨
大となり、したがって、照合対象が多数となり、単語候
補の検索時間や照合時間が増大する問題がある。また、
片仮名単語での拗音などに誤りが発生した場合には、文
字の形が異なるため、誤った単語候補を抽出することが
あるという問題がある。
拗音の誤り発生による誤った訂正候補抽出の事例を第7
図に示す、ここで、「×」印の1・11は誤って抽出さ
れた単語候補である。この例は、日本語ワードプロセッ
サのローマ字入力の片仮名漢字変換で頻繁に発生する拗
音への誤りの場合である。すなわチ、rソ(So)J 
トrシx (SYO)Jは入力時の1つのキー操作の誤
りで発生し、かつ文字の形が全く異なるために、「ショ
」を含む片仮名単語候補の方が「ソ」を含む片仮名単語
候補より高い評価値が与えられ、正解語の「ソリッド」
が上位で抽出されず誤った単語候補を抽出することとな
る。
さらに、文書中には、同一の片仮名単語を何度も使用す
る場合が多いが、この際には同一の意味の片仮名単語で
も、その表記にゆらぎがあるものを適当に使用してしま
うことがある。たとえば。
ファックス/ファクス/ファクシミリなどは同一の意味
を示す用語なので、表記は統一するべきである。しかし
、どの片仮名単語表記も個々には正しい表記であり、誤
りとしては検出されないことから、従来は表記のゆらぎ
による片仮名単語の誤りの検出ができず、これに伴って
訂正候補を抽出することができなかった。
〔発明が解決しようとする課題〕
以上のように、従来は片仮名単語の候補の増大に伴い、
人手での誤りの検出精度や訂正候補の抽出精度の低下や
処理時間の増大、という校正作業の負荷となる問題があ
った。また1片仮名文字列を正しい片仮名単語の候補辞
書と高速に照合することにより訂正候補を抽出する方式
では、実際の文書に出現する片仮名単語を対象とする場
合に単語候補が膨大となり単語候補の検索時間や照合時
間などの処理時間が増大するという問題、あるいは拗音
などに誤りが発生した場合の訂正候補の抽出精度が低下
するという問題があった。さらに。
表記にゆらぎがある片仮名単語に対する訂正候補の抽出
ができないという問題があった。
本発明の目的は、上記従来の問題点を解決し、処理速度
の向上および訂正精度の向上を図った片仮名単語誤り検
出訂正装置を提供することにある。
〔課題を解決するための手段〕
上記の目的を実現するために1本発明の片仮名単語誤り
検出訂正装置においては、入力された日本文文字列に対
して日本語単語辞書および文法辞書を用いて単語分割お
よび品詞認定を行う形態素解析手段と、上記単語分割お
よび品詞認定により認識された片仮名文字列からなる片
仮名単語を、その分割情報と認定情報とともに抽出する
片仮名単語抽出手段と、日本語単語辞書に該当の片仮名
単語がない場合や文法的な接続関係がない場合を認識し
て、片仮名単語の誤りを検出する片仮名単語誤り検出手
段と、訂正候補となる片仮名単語について、文字列を構
成する連続の2文字とその位置をキーとする片仮名単語
候補辞書を予め作成する手段と、誤り検出された片仮名
文字列とこの文字列を前後に1文字ずらした文字列とで
隣合う全ての組み合せの片仮名2文字とその位置をキー
として、片仮名単語候補辞書を検索して、正解の片仮名
単語を含む第1次の訂正候補群を抽出する片仮名単語訂
正候補群抽出手段と、誤り検出された片仮名文字列と前
記抽出した片仮名単語訂正候補群について、それぞれ片
仮名の文字列をローマ字に変換し、さらに子音列と母音
列の記号列に分離する片仮名単語子音母音分離手段と、
誤り検出された片仮名文字列と前記抽出した片仮名単語
訂正候補群について、子音列と母音列とに分離された記
号列を別々に前方および後方から照合し照合値を求める
片仮名単語照合手段と、照合値が予め設定した値より高
い場合に、抽出した片仮名単語訂正候補を正解候補とし
て選択する片仮名単語候補選択手段とを備えることを特
徴とする。
さらに、文書中で表記のゆらぎがある片仮名単語にして
、文書入力装置により入力された日本文文字列から、片
仮名文字列を抽出する片仮名文字列抽出手段と、抽出さ
れた片仮名文字列をローマ字に変換し、さらに子音列と
母音列の記号列に分離する片仮名文字列子音母音分離手
段と、抽出された相互の片仮名文字列について、それぞ
れ片仮名文字列の子音列と母音列とに分離された記号列
を別々に前方および後方から照合し照合値を求める手段
と、照合する相互の文字列が同一ではない場合で、かつ
照合値が予め設定した値より高い場合に、抽出した片仮
名文字列の間に片仮名単語の表記の不統一があると検出
する手段とを備えることを特徴とする。
〔作 用〕
本発明においては、片仮名単語に混入する入力誤りや文
字認識誤りを訂正するために、訂正候補となる片仮名単
語について文字列を構成する連続の2文字とその位置を
キーとする片仮名単語候補辞書を予め作成し、認定結果
が未知語であることにより検出された片仮名文字列とこ
の文字列を前後に1文字ずらした文字列とで隣合う全て
の組み合わせの片仮名2文字とその位置をキーとして、
片仮名単語候補辞書を検索して、該当の正解の片仮名単
語を含む第1次の訂正候補群を抽出し、さらに検出され
た片仮名文字列と前記抽出した片仮名単語候補群につい
て、それぞれ片仮名の文字列をローマ字に変換し、さら
に子音列と母音列の記号列に分離して1分離された記号
列を別々に前方および後方から照合し照合値を算出して
、照合値が予め設定した値より高い場合に、抽出した片
仮名単語訂正候補が正解候補として選択する。
さらに、文書中で表記のゆらぎがある片仮名単語に対し
て、文書中の片仮名文字列を抽出し、抽出されたそれぞ
れの片仮名文字列をローマ字に変換し、さらに子音列と
母音列の記号列に分離し、それぞれの子音列と母音列と
に分離された記号列を別々に前方および後方から照合し
照合値を算出して、照合する相互の文字列が同一ではな
い場合で、かつ照合値が予め設定した値より高い場合に
、抽出した片仮名文字列の間に片仮名単語の表記の不統
一があることを検出する。
これにより、日本語ワードプロセッサなどの文書入力装
置の入力誤りや文字認識誤りや作成者の思い違いなどに
よって混入する誤りのうち、人手では校正が困難である
片仮名単語の誤りを検出し、拗音などを含む場合でも訂
正精度が高い訂正候補の抽出が可能となり、しかも少な
くともl箇所以上の2文字部分が一致する訂正候補を照
合すべき第1次の訂正候補群として絞り込むので、処理
速度を大幅に向上させることができる。さらに、入力さ
れた文書に含まれる片仮名単語の表記の不統一を検出し
、訂正候補の抽出を行うので、人手による表記の不統一
の校正作業の負荷の軽減と訂正精度の向上を図ることが
できる。
〔実施例〕
以下、本発明の一実施例について図面により説明する。
第1図は、本発明の一実施例を示す片仮名単語誤り検出
訂正装置のブロック図である。第1図において、10は
文書入力装置、20はCPUおよびメモリからなる処理
装置、30は日本語単語辞書、40は文法辞書、50は
片仮名2文字とその位置をキーとする片仮名単語候補辞
書、60は誤り訂正済み文書である。CPU/メモリか
らなる処理装置20は、処理機能上、入力処理部21と
、辞書30および40を用いて単語分割および品詞認定
を行う形態素解析処理部22と、該形態素解析処理部2
2の単語分割および品詞認定を用いた片仮名単語抽出処
理部23と1片仮名単語の誤りを検出する片仮名単語誤
り検出処理部24と1片仮名単語候補辞書50を検索し
て第1次の訂正候補群を抽出する片仮名単語訂正候補群
抽出処理部25と1片仮名の文字列をローマ字に変換し
、さらに子音列と母音列の記号列に分離する片仮名単語
子音母音分離処理部26と、子音列と母音列とに分離さ
れた記号列を照合して照合値を抽出する片仮名単語照合
処理部27と、正解候補として選択する片仮名単語候補
選択処理部28とに分けられる。
処理装置20では、入力処理部21において、文書入力
装置10より、入力された文字コードを処理可能な日本
文文字列に変換した後、日本語単語辞書30および文法
辞書40を用いて形態素解析部22により単語分割およ
び品詞認定を行う。
この単語分割および品詞認定結果について1片仮名単語
抽出処理部23において、片仮名文字列からなる片仮名
単語を該分割情報と認定情報とともに抽出し、片仮名単
語誤り検出処理部24で、日本語単語辞書30に該当の
片仮名単語がない場合や文法的な接続関係がない場合に
発生する未知語認定結果を用いて片仮名単語の誤りを検
出する。
一方、訂正候補となる片仮名単語について文字列を構成
する連続の2文字とその位置をキーとする片仮名単語候
補辞書50を予め作成しておく。
片仮名単語訂正候補群抽出処理部25において、片仮名
単語誤り検出処理部24で誤りの検出された片仮名文字
列とこの文字列を前後に1文字ずらした文字列とで隣合
う全ての組み合わせの片仮名2文字とその位置をキーと
して、片仮名単語候補辞書50を検索して正解の片仮名
単語を含む第1次の訂正候補群を抽出する0次に1片仮
名単語誤す検出処理部24で検出された片仮名文字列と
片仮名単語訂正候補群抽出処理部25で抽出した第1次
の片仮名単語の訂正候補群について、片仮名単語子音母
音分離処理部26において、それぞれ片仮名の文字列を
ローマ字に変換し、さらに子音列と母音列の記号列に分
離し、さらに片仮名単語照合処理部27において、分離
された子音および母音の各記号列を別々に前方および後
方から照合し照合値を算出する。そして、片仮名単筒候
補選択処理部28において、照合値が予め設定した値よ
り高い場合に、抽出した片仮名単語訂正候補を正解候補
として選択して、誤り訂正済み文書60を作成する。
第2図は、第1図における第1次の片仮名単語訂正候補
群を抽出する片仮名単語候補群抽出処理部25の処理の
具体例を示す説明図である。
第2図において、101は検出された片仮名の誤り文字
列、102は誤字、103は正字である。
121は第1次の訂正候補群の抽出用文字列、121−
1は誤り文字列101からそのまま抽出した文字列、1
21−2は121−1を前方に1文字移動した文字列、
121−3は121−1を後方に1文字移動した文字列
である。122は121−1と121−2と121−3
の各文字について隣合う全ての2文字の組み合せから抽
出した片仮名2文字とその位置とからなり、片仮名単語
候補辞書50を検索するキーとなる訂正候補検索用デー
タである。123は122の片仮名2文字部分、124
は123の先頭の文字の文字位置、123−1〜123
−3と124−1〜124−3はそれぞれの訂正候補検
索用データの一部である。
130は片仮名単語候補辞書50のキ一部、131は片
仮名単語の見出し部、131−1は本例で抽出された第
1次の訂正候補群、131−2は抽出されなかった片仮
名単語候補、132は片仮名単語候補辞書のキ一部13
0の片仮名2文字部分。
133はキ一部130の文字位置、134はキー部13
0で示す片仮名単語の見出し部131へのポインタであ
る。135は抽出された第1次の片仮名単語訂正候補群
である。
ここでは、検出された片仮名文字列について照合処理の
対象となる少数の第1次の片仮名単語訂正候補群を片仮
名単語候補辞書50より抽出する処理を説明する。
まず、検出された片仮名文字列101の「モダニブヌJ
から片仮名単語候補辞書50を検出するためのキーとし
て訂正候補検索用データ122を作成する。このために
、片仮名文字列121−1の「モダニブヌ」と該文字列
121−1を前方に1文字移動した文字列121−2の
「ダニブヌ」と文字列121−1を後方に1文字移動し
た文字列121−3の「ΔモダニブヌJ(Δは空白文字
)を訂正候補抽出用データ121として作成し、隣合う
全ての組み合せの片仮名2文字とその先頭の文字位置か
らなる訂正候補検索用データ122を抽出する。
たとえば、121−2の第I文字目「ダ」はその2文字
の組み合せとして「ダニ」、「ダダ」、「ダモ」があり
、この中の123−1の「ダニ」はその先頭の文字の文
字位置が第1文字なので。
124−1は「1」となる。同様に、121−1の第1
文字目「モ」はその2文字の組み合わせとして「モニ」
、「モダ」、「モモ」があり、この中の123−2の「
モダ」はその先頭の文字の文字位置が第1文字なので、
124−2は「1」となる、また同様に、12ニー2の
第2文字目「二」はその2文字の組み合せとして「ニブ
」、「ニニ」、「ニブ」があり、この中の123−3の
「ニブ」はその先頭の文字の文字位置は第2文字なので
、124−3は「2」となる。
第2図では、訂正候補検索用データ122において1文
字位置の違いに応じて123,124をずらして表示し
ている。ここで、訂正候補抽出用文字列121を作成す
るために、検出された文字列101を前後に1文字ずら
しているのは、検出された文字列が誤字ばかりではなく
、脱字や誤挿や文字置換を含んでいる可能性があり、こ
れを考慮して訂正候補群を網羅的に検索する必要がある
からである。
次に、抽出された訂正候補検索用データ122を使用し
て片仮名単語候補辞書50を検索する。
たとえば、123−2(71rモダJ ト124−20
)rlJの場合、1文字目からの2文字「モダ」をキー
として片仮名単語候補辞書50を検索するので、本例で
は、「モダニスト」、「モダニズム」、rモダニティー
J、「モダンマダム」の4個の訂正候補131−1を抽
出できる。同様に、訂正候補検索用データ122の全て
の2文字およびその文字位置情報をキーとして片仮名単
語候補辞書50を検索することにより、第1次の訂正候
補群135を抽出できる。ここで、131−2の「モー
メント」は訂正候補検索用データと全く関連しないので
抽出されない。
このように、照合処理の対象となる片仮名単語候補を少
なくともl箇所以上の2文字部分が一致することに限定
して検索し、絞り込むことができるので、従来の人手に
よる処理や計算機による全ての片仮名単語候補の検索を
前提とした照合に比べて、検索時間を大幅に削減するこ
とができ、また、処理精度を向上させることができる。
第3図は、第1図における片仮名単語訂正候補を照合し
正解候補を選択するための片仮名単語子音母音分離処理
部261片仮名車語照合処理部27及び片仮名候補選択
処理部28の処理の具体例を示す説明図である。
第3@において、101は検出された片仮名の誤り文字
列、102は誤字、103は正字である。
141は片仮名文字から子音と母音の記号列を分離する
ための変換テーブルである。142は検出された片仮名
文字列01の分離対象文字、143は子音記号列、14
4は母音記号列である。145は片仮名単語候補である
。146は各候補との前方からの照合、147は各候補
との後方からの照合、148は子音記号列の照合、14
9は母音記号列の照合を示している。150は記号列の
一致の結果であり、150−1は一致した箇所、150
−2は先頭から全く一致しない箇所、151は子音記号
列の一致した文字列による照合値、152は前方からの
照合における照合値の合計、153は照合対象の記号列
数、154は総合照合値である。155は総合照合値に
より選択された訂正候補である。
ここで、検出された片仮名文字列101の「ショリッド
」と抽出した第1の片仮名単語候補群(本例では、「シ
ョッピング」と「ソリッド」)について、それぞれ片仮
名の文字列をローマ字に変換し、さらに子音列と母音列
の記号列に分離して1分離された子音記号列と母音記号
列について前方および後方から別々に照合し、照合値を
算出して、候補ごとの総合照合値154を求める。たと
えば、子音列と母音列として、それぞれ「ソリッド」か
らrsYRDj  rOIOj 、訂正候補の「ショッ
ピング」からrsYPNGJ  rOIUJ 。
「ソリッド」からrsYDJ  rOIOJが変換分離
される。さらに、146で前方からの照合、147で後
方からの照合を行い、一致した数を照合値として算出す
る。全く一致しない場合にはOoOとなる0次に、照合
の度合を示す総合評価値154を次式で求める。
この結果、総合照合値が予め設定した値より高い場合(
本例では、1.0)に1片板名単語訂正候補として選択
する1本例では、「ソリッド」が総合照合値1.5であ
るので、155として選択される。
このように、従来の文字の形による単語照合の方法で対
処できなかった拗音を含む片仮名単語の誤りについても
、訂正候補ときめ細かく照合することによって正解の訂
正候補を選択することができ、訂正精度を向上させるこ
とができる。
第4図は本発明の他の実施例を示すブロック図で、片仮
名単語の表記の不統一検出の機能を有する片仮名単語誤
り検出訂正装置を示したものである。第4図において、
10は文書入力装置、20はCPUおよびメモリからな
る処理装置である。
ここで、処理装置20は、処理機能上、入力処理部21
と、入力された文書の文字列の中から片仮名文字列を抽
出する片仮名文字列抽出処理部23′と、片仮名の文字
列をローマ字に変換しさらに子音列と母音列の記号列に
分離する片仮名単語子音母音分離処理部26と、子音列
と母音列とに分離された記号列を照合して照合値を算出
する片仮名単語照合処理部27と1片仮名単語の表記の
不統一を検出する片仮名単語表記不統一検出処理部29
とに分けられる。
処理装置20では、入力処理部21において、文書入力
装置10より入力された文字コードを処理可能な日本文
文字列に変換した後、片仮名文字列を片仮名文字列抽出
処理部23′において抽出する。この抽出された片仮名
文字列のすべてについて、まず、片仮名単語子音母音分
離処理部26において、それぞれ片仮名の文字列をロー
マ字に変換し、さらに子音列と母音列の記号列に分離し
、次に1片仮名単語照合処理部27において、この分離
された子音および母音の各記号列を前方および後方から
照合して照合値を算出する。そして。
片仮名単語表記不統一検出処理部29において、照合す
る相互の文字列が同一でない場合で、かつ照合値が予め
設定した値より高い場合に、抽出した片仮名文字列の間
Jこ表記の不統一の可能性があることを検出する。
第5図は、第4図における片仮名単語の表記の不統一を
検出する処理の具体例を示す説明図である。
第5図において、161は入力された日本文文字列から
抽出された片仮名文字列、162は表記の不統一に対す
る正字、163は各片仮名文字列から置換分離された子
音の記号列、164は変換分離された母音の記号列、1
65は処理例である。
この例は、入力された文書中に片仮名文字列として「ホ
トグラフ」や「カットグラス」などの正しい表記の片仮
名単語と「フォトグラフ」のように表記のゆらぎ「フォ
ト」「ホト」 (正解:ホト)や誤字「グラフ」 (正
解ニゲラフ)を含む単語が存在している場合である。こ
の場合でも、入力された片仮名単語を子音と母音の記号
列に分離して照合することによって、「フォトグラフ」
は「ホトグラフ」とは、総合照合値が1.0(実施例で
は、表記のゆらぎとみなす照合値の設定値をl。
Oとする)なので、片仮名単語の表記のゆらぎによる表
記不統一であることがわかる。しかし。
「カットグラス」と「フォトグラフ」あるいは「ホトグ
ラフ」とは総合照合値がそれぞれ0.4なので、類似の
度合は低く全く異なる単語であることがわかる。このよ
うに、入力された文書に含まれる点在する片仮名単語の
表記の不統一を、たとえそれが誤りでなくても片仮名単
語候補辞書を検索する処理を行わず、その文書中から抽
出された片仮名文字列同士の照合によって検出すること
ができるので、片仮名単語の不統一表記の検出精度、処
理効率を向上させることができる。
このように1本発明の片仮名単語誤り検出訂正装置では
、訂正候補となる片仮名単語について文字列を構成する
連続の2文字とその文字位置をキーとする片仮名単語候
補辞書を予め作成しておき、文書入力装置から入力され
た文字コードを処理可能な日本文文字列に変換して、変
換された日本文文字列に対する形態素解析の認定結果が
未知語であることにより片仮名単語の誤りを検出された
場合に、検出された片仮名文字列の片仮名2文字とその
文字位置をキーとして、予め作成した該当の片仮名単語
候補辞書を検索して第1次の訂正候補群を抽出し、検出
された片仮名単語と抽出した第1次の訂正候補群につい
て、それぞれ片仮名の文字列をローマ字に変換し、さら
に子音列と母音列の記号列に分離し、分離された記号列
を別々に前方および後方から照合して照合値を抽出し、
照合値が予め設定した値より高い場合に、抽出した片仮
名単語訂正候補を正解候補として選択する。
さらに5文書中で表記のゆらぎがある片仮名単語に対し
て、文書中の片仮名文字列を抽出し、抽出されたそれぞ
れの片仮名文字列をローマ字に変換し、さらに子音列と
母音列の記号列に分離し、それぞれの子音列と母音列と
に分離された記号列を別々に前方および後方から照合し
て照合値を算出し、照合する相互の文字列が同一ではな
い場合で、かつ照合値が予め設定した値より高い場合に
、抽出した片仮名文字列の間に片仮名単語の表記の不統
一があることを検出する。
これにより、人手では校正が困難である片仮名単語の誤
りを検出し、拗音などを含む場合でも訂正精度が高い訂
正候補の抽出が可能となり、しかも少なくとも1箇所以
上の2文字部分が一致する訂正候補を照合すべき第1次
の訂正候補群として絞り込むので、処理速度を大幅に向
上させることができる。さらに、入力された文書に含ま
れる片仮名単語の表記の不統一を検出し、訂正候補の抽
出を行うので、人手による表記の不統一の校正作業の負
荷の軽減と訂正精度の向上を図ることができる。
〔発明の効果〕
請求項(1)の発明によれば、日本語ワードプロセッサ
などの文書入力装置の入力誤りや文字認識誤りや作成者
の思い違いなどによって混入する人手では校正が困難で
ある片仮名単語の誤りを検出し、拗音などを含む場合で
も訂正精度が高い訂正候補の抽出が可能となり、しかも
少なくともl箇所以上の2文字部分が一致する訂正候補
を照合すべき第1次の訂正候補群として絞り込むので、
処理速度を大幅に向上させることができる。
さらに、請求項(2)の発明によれば、入力された文書
に含まれる片仮名単語の表記の不統一を検出し、訂正候
補の抽出を行うので、人手による表記の不統一の校正作
業の負荷と訂正精度の向上を図ることができる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す片仮名単語誤り検出訂
正装置ブロック図、第2図は本発明において第1次の片
仮名単語訂正候補群を抽出する処理の具体例を示す説明
図、第3図は本発明において片仮名単語訂正候補を照合
し正解候補を選択する処理の具体例を示す説明図、第4
図は本発明の他の実施例を示す片仮名単語の表記の不統
一検出の機能を有する片仮名単語誤り検出訂正装置のブ
ロック図、第5図は本発明における片仮名単語の表記の
不統一を検出する処理の具体例を示す説明図、第6図は
従来の方法における訂正候補抽出の処理の流れを示す説
明図、第7図は従来の方法における誤った訂正候補抽出
の事例を示す説明図である。 10・・・文書入力装置、 20・・・処理装置、21
・・・入力処理部、 22・・・形態素解析処理部。 23・・・片仮名単語抽出処理部、 23′・・・片仮名文字列抽出処理部 24・・・片仮名単語誤り検出処理部、25・・・片仮
名単語訂正候補群抽出処理部、26・・・片仮名単語子
音母音分離処理部。 27・・・片仮名単語照合処理部、 28・・・片仮名単語候補選択処理部、29・・・片仮
名単語表記不統一検出処理部、30・・・日本語単語辞
書、 40・・・文法辞書、50・・・片仮名単語候補
辞書、 60・・・誤り訂正済み文書。 第1図 第5図

Claims (2)

    【特許請求の範囲】
  1. (1)片仮名単語に混入する入力誤りや文字認識誤りを
    検出し、その訂正候補を抽出する片仮名単語誤り検出訂
    正装置において、 入力された日本文文字列に対して日本語単語辞書および
    文法辞書を用いて単語分割および品詞認定を行う形態素
    解析手段と、 上記単語分割および品詞認定により認識された片仮名文
    字列からなる片仮名単語を、その分割情報と認定情報と
    ともに抽出する片仮名単語抽出手段と、 日本語単語辞書に該当の片仮名単語がない場合や文法的
    な接続関係がない場合を認識して、片仮名単語の誤りを
    検出する片仮名単語誤り検出手段と、 訂正候補となる片仮名単語について文字列を構成する連
    続の2文字とその位置をキーとする片仮名単語候補辞書
    を予め作成する手段と、上記誤り検出された片仮名文字
    列とこの文字列を前後に1文字ずらした文字列とで隣合
    う全ての組み合せの片仮名2文字とその位置をキーとし
    て、片仮名単語候補辞書を検索して、正解の片仮名単語
    を含む第1次の訂正候補群を抽出する片仮名単語訂正候
    補群抽出手段と、 上記誤り検出された片仮名文字列と前記抽出した片仮名
    単語訂正候補群について、それぞれ片仮名の文字列をロ
    ーマ字に変換し、さらに子音列と母音列の記号列に分離
    する片仮名単語子音母音分離手段と、 上記誤り検出された片仮名文字列と前記抽出した片仮名
    単語訂正候補群について、子音列と母音列とに分離され
    た記号列を別々に前方および後方から照合し照合値を求
    める片仮名単語照合手段と、 上記照合値が予め設定した値より高い場合に、抽出した
    片仮名単語訂正候補を正解候補として選択する片仮名単
    語候補選択手段とを備えることを特徴とする片仮名単語
    誤り検出訂正装置。
  2. (2)入力された日本文文字列から、片仮名文字列を抽
    出する片仮名文字列抽出手段と、上記抽出された片仮名
    文字列をローマ字に変換し、さらに子音列と母音列の記
    号列に分離する片仮名文字列子音母音分離手段と、 上記抽出された相互の片仮名文字列について、それぞれ
    片仮名文字列の子音列と、母音列とに分離された記号列
    を別々に前方および後方から照合し照合値を求める手段
    と、 上記照合する相互の文字列が同一ではない場合で、かつ
    照合値が予め設定した値より高い場合に、抽出した片仮
    名文字列の間に片仮名単語の表記の不統一があると検出
    する手段とを備えることを特徴とする請求項(1)記載
    の片仮名単語誤り検出訂正装置。
JP1198692A 1989-07-31 1989-07-31 片仮名単語誤り検出訂正装置 Expired - Lifetime JPH079654B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1198692A JPH079654B2 (ja) 1989-07-31 1989-07-31 片仮名単語誤り検出訂正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1198692A JPH079654B2 (ja) 1989-07-31 1989-07-31 片仮名単語誤り検出訂正装置

Publications (2)

Publication Number Publication Date
JPH0362260A true JPH0362260A (ja) 1991-03-18
JPH079654B2 JPH079654B2 (ja) 1995-02-01

Family

ID=16395449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1198692A Expired - Lifetime JPH079654B2 (ja) 1989-07-31 1989-07-31 片仮名単語誤り検出訂正装置

Country Status (1)

Country Link
JP (1) JPH079654B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008059389A (ja) * 2006-08-31 2008-03-13 Mizuho Information & Research Institute Inc 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
JP2011065384A (ja) * 2009-09-16 2011-03-31 Nippon Telegr & Teleph Corp <Ntt> 誤字脱字対応テキスト解析装置及び方法及びプログラム
JP2015072630A (ja) * 2013-10-03 2015-04-16 富士通株式会社 文字列検索プログラム、文字列検索方法及び文字列検索装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008059389A (ja) * 2006-08-31 2008-03-13 Mizuho Information & Research Institute Inc 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
JP2011065384A (ja) * 2009-09-16 2011-03-31 Nippon Telegr & Teleph Corp <Ntt> 誤字脱字対応テキスト解析装置及び方法及びプログラム
JP2015072630A (ja) * 2013-10-03 2015-04-16 富士通株式会社 文字列検索プログラム、文字列検索方法及び文字列検索装置

Also Published As

Publication number Publication date
JPH079654B2 (ja) 1995-02-01

Similar Documents

Publication Publication Date Title
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
JP2001505330A (ja) テキストストリーム中の単語の切れ目を与える方法及び装置
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
EP0271664B1 (en) A morphological/phonetic method for ranking word similarities
Kashefi et al. A novel string distance metric for ranking Persian respelling suggestions
JPH0362260A (ja) 片仮名単語誤り検出訂正装置
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JP2681663B2 (ja) 日本文訂正候補文字抽出方法
Saharia et al. LuitPad: a fully unicode compatible Assamese writing software
JP3274014B2 (ja) 文字認識装置および文字認識方法
Rani et al. Post-processing methodology for word level Telugu character recognition systems using Unicode Approximation Models
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
JP2575947B2 (ja) 文節切出し装置
JP2939945B2 (ja) ローマ字住所認識装置
JPH077414B2 (ja) 日本文誤字自動修正装置
JP2592993B2 (ja) 文節切り出し装置
KR101663521B1 (ko) 띄어쓰기 교정 방법 및 프로그램
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPS62249269A (ja) 文書処理装置
JPH077412B2 (ja) 日本文訂正候補文字抽出装置
JPH09185674A (ja) 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法
KR101629726B1 (ko) 띄어쓰기 교정 방법 및 프로그램
JPH03156589A (ja) 誤読文字の検出,修正方法
JP2592995B2 (ja) 文節切出し装置
JPH05225183A (ja) 日本文単語誤り自動検出装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090201

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090201

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100201

Year of fee payment: 15

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100201

Year of fee payment: 15