JPH03242755A - カタカナ単語誤り検出訂正装置 - Google Patents

カタカナ単語誤り検出訂正装置

Info

Publication number
JPH03242755A
JPH03242755A JP2040504A JP4050490A JPH03242755A JP H03242755 A JPH03242755 A JP H03242755A JP 2040504 A JP2040504 A JP 2040504A JP 4050490 A JP4050490 A JP 4050490A JP H03242755 A JPH03242755 A JP H03242755A
Authority
JP
Japan
Prior art keywords
katakana
word
words
error
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2040504A
Other languages
English (en)
Inventor
Shinichiro Takagi
伸一郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2040504A priority Critical patent/JPH03242755A/ja
Publication of JPH03242755A publication Critical patent/JPH03242755A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この本発明は例えば日本文の文書データヘースを作成す
るため、入力された日本文文字列に含まれるカタカナ語
の誤りを自動的に検出し、さらに訂正のための候補文字
列を抽出するカタカナ単語誤り検出訂正装置に関するも
のである。
〔従来の技術) 電子機器の高度化、各種技術や情報の国際化、さらには
日本語の変遷にともなって、日本語の文書内にカタカナ
表記の単語が多用されるようになった。
従って、各種マニュアルや科学技術論文、出版用原稿、
事務文書などの日本文の文書を電子ファイル化する場合
には、専門用語や固有名詞あるは一部の一般語について
、作成者の思い違い(誤:インターフェイス/正:イン
タフェース)、日本語ワードプロセンサに代表される文
書入力装置の入力誤り(誤:コンピュタ/正/:コンピ
ューター)、fi字0cR(光学文字読取装置)に代表
される文字認識誤り(誤:ヒツチ/正:ピッチ)、表記
のゆらぎ(テレフォン/テレホン)など種々の誤りがカ
タカナ単語に対して発生する。
こうした状況に対して、現状は、これらカタカナ表記単
語の誤りの訂正は校正者などの人間の作業にたよること
が多い。しかし目視の校正では、(11校正者の校正知
識は充足性、(2)字面の類似性による誤りの見過ごし
、(3)表記のゆらぎにおける統一表記の不徹底さ、な
どの要因により、前述の誤りが、漢字やひらがななどの
誤りに比べて検出されない傾向がある。さらに、検出さ
れた場合でも、正解の訂正候補単語を抽出することが困
難な場合が多い。
これに対して人間の校正作業の支援の立場から計算機に
よる日本語解析処理を用いて誤り検出を行う手法が実施
されている。たとえば「文章用語検定装置」 (特願昭
61−228268号)では、日本語辞書に予め誤り表
記の単語を誤り識別のための属性制御コードを正規表記
とともに登録しておき、形態素解析の単語認定結果の段
階でこの属性制御コードが付与された単語が認定されて
いる場合に誤りを検出することができ、さらに付随して
いる正規表記を抽出することによって訂正候補を提示す
ることができる。すなわち、正規表記として「コンピュ
ーター」をもつ誤り表記の単語「コンピュタ」を登録し
ておき、もしも「コンピュタJが単語認定されれば、誤
り検出の表示を行い、さらに付随する正規表記「コンピ
ューター」を訂正候補として提示する。
〔発明が解決しようとする課題〕
しかし、この場合は、 (1)正規表記は文書の分野の標準表記などに依存する
ため、文書分野ごとに正規表記の異なる誤り表記を登録
した日本語辞書が必要となる。
(2)カタカナ単語の誤り表記は、校正者の記憶、文章
入力装置に依存し相当数存在するため、日本語辞書に全
てを事前に登録することができない。また、誤り表記を
日本語辞書に登録するのであるから、日本語辞書量が増
大し処理速度が低下する。
という問題点がある。
C課題を解決するための手段〕 請求項■の発明によれば入力された日本文文字列に対す
る形態素解析処理の結果、抽出されたカタカナ単語が日
本語辞書にない場合や前後の単語との文法的な接続関係
がない場合に生威される未知語認定情報によりカタカナ
単語誤りを検出する誤り検出処理部と、検出されたカタ
カナ単語誤りとこれに対して校正者がカタカナ単語の訂
正候補を選択あるいは正規表記のカタカナ単語を入力す
る修正処理部と、その修正処理部で入力(修正)した正
規表記のカタカナ単語とこれに対するカタカナ単語誤り
とを比較してその表記の差異を誤り特性として抽出する
誤り特性抽出処理部と、その抽出した誤り特性を保持す
る誤り特性情報テーブルと、検出されたカタカナ単語誤
りについて、誤り特性情報テーブルの内容を用いて訂正
してカタカナ単語の訂正候補として抽出する訂正候補生
成処理部とを備えることを特徴とする請求項2の発明に
よれば入力された日本文文字列に対して日本語辞書、文
法辞書、誤り表記辞書テーブルを用いて単語分割、品詞
認定を行う形態素解析処理部と、正規表記のカタカナ単
語とその誤り表記のカタカナ単語との表記の差異を誤り
特性として保持する誤り特性情報テーブルと、形態素解
析処理部で正規表記として認定されたカタカナ単語に対
して誤り特性情報テーブルの内容を用いて、誤り表記の
カタカナ単語を生威する誤り表記生成部と、その生威さ
れた誤り表記カタカナ単語とその正規表記カタカナ単語
とを保持する誤り表記辞書テーブルと、形態素解析処理
の単語候補抽出の際に、誤り表記辞書テーブルに保持し
た誤り表記カタカナ単語を単語候補として抽出すると、
その誤り表記カタカナ単語に対する正規表記カタカナ単
語を誤り表記辞書テーブルから得て、これを訂正候補と
して抽出する訂正候補抽出部と、抽出された誤り表記カ
タカナ単語の候補に対して校正者が訂正候補を選択ある
いは正規表記のカタカナ単語を入力する修正処理部とを
備えることを特徴とする。
〔作 用〕
請求項1の発明では検出されたカタカナ単語誤りと校正
者が入力した正規表記のカタカナ単語との表記の差異が
誤り特性として誤り特性情報テーブルに保持され、この
誤り特性を用いて、検出されたカタカナ単語誤りが正規
表記のカタカナ単語の訂正候補に訂正される。
請求項2の発明では正規表記として認定されたカタカナ
単語から、誤り特性情報テーブルの内容を用いて、誤り
表記のカタカナ単語を生威し、これとその正規表記とと
もに誤り表記辞書テーブルに保持して、形態素解析処理
の単語候補抽出の際に、その誤り表記辞書テーブルを用
いて単語候補として抽出し、このテーブルにより誤りカ
タカナ単語と認定されるとその正規表記カタカナ単語を
誤り表記辞書チーフルから抽出して、訂正候補とする。
これにより、 ■文書分野ごとに正規表記が異なる場合でも、検出した
誤り表記に対して適性な正規表記の訂正候補を抽出でき
る。
■カタカナ単語の誤りの検出のために、校正者の記憶、
文書入力装置に依存し相当数存在するカタカナ単語の誤
り表記を、日本語辞書に事前に登録する必要がない。従
って、日本語辞書量が減少し処理速度が向上する。
〔実施例〕
第1図は、請求項1の発明の一実施例を示す。処理装置
lOはCPUおよびメモリからなり、次の機能部を有す
る。つまり原文文書ファイル20から入力された日本文
文字列を日本語辞書30、文法辞書40を用いて単語分
割および品詞認定を行う形態素解析処理部11、誤り検
定対象となるカタカナ単語を抽出するカタカナ単語抽出
処理部12、カタカナ単語の誤りを検出する誤り検出処
理部13、訂正候補を抽出する訂正候補生成処理部14
、校正者50が訂正候補を選択あるいは正規表記を入力
する修正処理部15、カタカナ単語誤りと修正したカタ
カナ単語との表記の差異を抽出する誤り特性抽出処理部
16、表記の差異を保持する誤り特性情報テーブル17
からなる。
この装置では、原文文書ファイル20の日本文文字例を
、日本語辞書30および文法辞書40を用いて形態素解
析処理部11により単語分割および品詞認定を行い、こ
の単語分割および品詞認定結果についてカタカナ文字列
からなるカタカナ単語を認定情報とともにカタカナ単語
抽出処理部12で抽出し、その抽出したカタカナ単語か
ら誤り検出処理部13で日本語辞書30に該当のカタカ
ナ単語がない場合や前後の単語との文法的な接続関係が
ない場合に発生する未知語認定情報を用いてカタカナ単
語の誤りを検出する。訂正候補生成処理部14でその検
出されたカタカナ単語誤りを誤り特性情報テーブル17
の内容を用いて訂正してカタカナ単語の訂正補助を抽出
してこれを誤りカタカナ単語と共に校正者50に表示す
る。
検出されたカタカナ単語誤りに対して校正者50が訂正
候補を選択あるいは正規表記カタカナ単語を入力し、こ
の正規表記を修正処理部15で収集し、その収集された
正規表記カタカナ単語とこれに対する検出されたカタカ
ナ単語誤りとの表記を比較してその表記の差異を誤り特
性として誤り特性抽出処理部16で抽出し、その抽出し
た誤り特性を誤り特性情報テーブル17に保持する。修
正処理部15で修正されたカタカナ単語は正規表記と最
初から認定されたものと文書として組合されて修正済み
文書ファイル60に格納される。
第1図に示した実施例における処理を具体例を上げて第
2図を参照して説明する。
入力された原文文字列70に対する形態素解析処理の結
果、日本語辞書30に該当の単語がないために、カタカ
ナ単語文字列71の「コンピュタ−」、「スイッチ」、
「テレフォン」が未知語(誤りカタカナ単語)として検
出された。これらカタカナ単語文字列71の「コンピュ
タ−」、「スイッチ」、1テレフオン」について、校正
者が修正のために正規表記のカタカナ単語72の「コン
ピューター」、「スイッチ」、「テレホン」をそれぞれ
入力する。これら正規表記と対応する誤りカタカナ単語
との表記の比較をそれぞれ行い、差異を抽出してそれを
誤り特性として誤り特性情報テーブル17に保持する。
この例では、それぞれ「ピュ」 (ビュー:長音脱落)
、「ツ」 (ツ:大文字化)、「フオJ (ホ:拗音化
)を誤り特性として保持する。初期の段階の処理では、
このように誤り特性を収集して保持する処理が行われる
。誤り特性情報テーブル17に誤り特性が得られて来る
と、この誤り特性を用いてカタカナ単語誤りの訂正候補
抽出処理を行う。つまりその後入力された原文文字列7
0に対し、カタカナ単語誤り71の「キーバッド」、「
イヤフオン」が未知語として検出された場合に、これら
誤りタカカナ単語71に対して誤り特性情報テーブル1
7の誤り特性を用いて訂正して訂正候補73を生威し、
校正者はこの訂正候補73を選択して修正を行う。実施
例では誤りカタカナ単語71の「キーバッドJと「イヤ
フォン」に対して誤り特性(大文字化あるいは拗音化)
から訂正候補73の「キーバッド」と「イヤホン」をそ
れぞれ生威している。訂正候補73の選択の結果、修正
された原文文字列74が得られる。
このように、誤り特性を、誤り検出訂正処理の実行中に
収集するのであるから、文書分野ごとに正規表記が異な
る場合でも、検出した誤り表記に対して適正な正規表記
の訂正候補を抽出できる。
第3図に請求項2の発明の実施例を示し、第1図と対応
する部分に同一符号を付けである。原文文書ファイル2
0の日本文文字列を、日本語辞書30、文法辞書40お
よび誤り表記辞書テーブル18を用いて形態素解析処理
部11により単語分割および品詞認定を行い、かつ正規
表記カタカナ単語が日本語辞書30から検出されると、
つまり正規表記カタカナ単語と認定されると、誤り表記
生成部19でその正規表記カタカナ単語に対する誤り表
記カタカナ単語を、誤り特性情報テーブル17の内容を
用いて生威し、その生成した誤り表記カタカナ単語とそ
の正規表記カタカナ単語とを誤り表記辞書テーブル18
に保持する。一方形態素解析処理で誤り表記辞書テーブ
ル18の誤り表記カタカナ単語と一致するものが検出さ
れると、つまりカタカナ単語誤りが検出されると、訂正
候補抽出部14′でこれと対応する正規表記カタカナ単
語を誤り表記辞書テーブル18から読み出してそのカタ
カナ単語誤りに対する訂正候補とする。校正者50はそ
のカタカナ単語誤りと訂正候補とを見て、修正処理部1
5で訂正候補を選択あるいは正規表記のカタカナ単語を
入力する。このようにして修正された原文文書は修正済
み文書ファイル60に格納される。なお、誤り特性情報
テープル17はその誤り特性を人手により予め作って格
納してもよく、あるいは第1図について説明したように
、誤り検出訂正を実行しながら、誤り特性を作って格納
してもよい。
この実施例は、誤り特性情報テーブル17を用いて誤り
表記の単語候補を自動的に作成保持して、カタカナ単語
誤りの検出と訂正候補の抽出とを行うものである。次に
具体例を上げてその処理を更に説明する。すなわち第4
図に示すように、原文文字列70を形態素解析処理した
結果、未知語ではない正規表記のカタカナ単語75が認
定された場合に、誤り特性情報テーブル17を用いてそ
の正規表記カタカナ単語35に対する誤り表記の単語候
補を作成する。
実施例では、正規表記として認定されたカタカナ単語7
5の「ステップ」、「ホトグラフ」に対し、それぞれ誤
り特性(それぞれ大文字化、拗音化)を用いて誤り表記
の単語候補「ステップ」、「フォトグラフ」を作成しこ
れら誤り表記単語候補とその正規表記単語とを組として
誤り表記辞書テーブル18に保持する。このようにして
誤り表記辞書テーブル18が作られて来ると、その後に
入力される文字列については形態素解析処理の単語候補
抽出の際に、誤り表記辞書テーブル18に保持した誤り
表記のカタカナ単語を単語候補として抽出し、これが認
定されることによりカタカナ単語誤りを検出する0例え
ば後に入力された原文文字列70′中に誤り表記のカタ
カナ単語76の「ステップ」や「フォトグラフ」が存在
する場合、これらは誤り表記辞書テーブル18より抽出
した誤り表記単語候補と同一のものと認定されるので、
これによってカタカナ単語誤りを検出する。さらに、誤
り表記辞書テーブル18より抽出し認定された単語候補
に付随する正規表記を訂正候補73「ステップ」、「ホ
トグラフ」として抽出する。
このように、検出された正規表記からその誤り表記候補
を的確に機械的に作成し、その誤り表記候補と一致する
入力文字列中のカタカナ単語候補を誤り単語として検出
し、その訂正候補の抽出を行うのであるから、カタカナ
単語の誤り表記を日本語辞書に事前に登録する必要がな
く、日本語辞書量が減少し処理速度が向上する。
なお第1図の実施例と第3図の実施例とを組合せ使用し
てもよい、この場合は訂正候補は誤り特性情報テーブル
17を利用して作ると共に、誤り表記辞書テーブル18
から読出して作る。
〔発明の効果〕
以上説明したように、日本語ワードプロセッサなどの文
書入力装置の入力誤りや文字認識誤りや作成者の思い違
いなどによって混入するカタカナ単語の誤りを検出し、
訂正候補を抽出する処理において、請求項1の発明によ
れば誤り特性を検出訂正処理の実行中に収集するのであ
るから、文書分野ごとに正規表記が異なる場合でも、検
出した誤り表記に対して適正な正規表記の訂正候補を抽
出できる。
請求項2の発明によれば、認定(検出)された正規表記
から誤り表記単語候補を的確に機械的に作成した誤りの
検出および訂正候補の抽出を行うのであるから、カタカ
ナ単語の誤りの検出のために、校正者の記憶、文章入力
装置に依存し相当数存在するカタカナ単語の誤り表記を
日本語辞書に事前に登録する必要がなく、日本語辞書量
を減少させ処理速度を向上させることができる。
【図面の簡単な説明】
第1図は請求項1の発明の実施例を示すブロック図、第
2図は第1図の装置の具体的処理例を示す説明図、第3
図は請求項2の発明の実施例を示すブロック図、第4図
は第3図の装置の具体的処理例を示す説明図である。 10・・・処理装置、11・・・形態素解析処理部、1
2・・・カタカナ単語抽出処理部、13・・・誤り検出
処理部、14・・・訂正候補生成処理部、15・・・修
正処理部、16・・・誤り特性抽出処理部、17・・・
誤り特性情報テーブル、18・・・誤り表記辞書テーブ
ル、20・・・原文文書ファイル、30・・・日本語辞
書、40・・・文法辞書、60・・・修正済み文書ファ
イル。

Claims (2)

    【特許請求の範囲】
  1. (1)日本語文書入力装置を用いて、カタカナ単語を含
    む日本語文章を作成する場合に、カタカナ単語に混入す
    る入力誤りや文字認識誤りを検出し、その訂正候補を抽
    出するカタカナ単語誤り検出訂正装置において、 入力された日本文文字列に対して日本語辞書および文法
    辞書を用いて単語分割および品詞認定を行う形態素解析
    処理部と、 その形態素解析処理の結果からカタカナ文字列からなる
    カタカナ単語をその認定情報とともに抽出するカタカナ
    単語抽出処理部と、 その抽出したカタカナ単語が上記日本語辞書にない場合
    や前後の単語との文法的接続関係がない場合に生成され
    る未知語認定情報によりカタカナ単語誤りを検出する誤
    り検出処理部と、 その検出したカタカナ単語誤りに対して校正者がカタカ
    ナ単語の訂正候補を選択あるいは正規表記のカタカナ単
    語を入力する修正処理部と、 その修正処理部でカタカナ単語誤りが修正された場合、
    そのカタカナ単語誤りと修正した正規表記のカタカナ単
    語との表記の差異を抽出する誤り特性抽出処理部と、 その抽出した表記の差異と保持する誤り特性情報テーブ
    ルと、 上記検出したカタカナ単語誤りを上記誤り特性情報テー
    ブルの内容を用いて訂正して上記カタカナ単語の訂正候
    補を抽出する訂正候補生成処理部と、を具備するカタカ
    ナ単語誤り検出訂正装置。
  2. (2)日本語文書入力装置を用いて、カタカナ単語を含
    む日本語文章を作成する場合に、カタカナ単語に混入す
    る入力誤りや文字認識誤りを検出し、その訂正候補を抽
    出するカタカナ単語誤り検出訂正装置において、 入力された日本文文字列に対して日本語辞書、文法辞書
    および誤り表記辞書テーブルを用いて単語分割および品
    詞認定を行う形態素解析処理部と、正規表記のカタカナ
    単語とその誤り表記のカタカナ単語との表記の差異を誤
    り特性として保持する誤り特性情報テーブルと、 上記形態素解析処理部で正規表記として認定されたカタ
    カナ単語に対して上記誤り特性情報テーブルの内容を用
    いて誤り表記のカタカナ単語を生成する誤り表記生成部
    と、 その生成された誤り表記カタカナ単語とその正規表記カ
    タカナ単語とを保持する上記誤り表記辞書テーブルと、 上記形態素解析処理部での形態素解析処理の単語候補抽
    出の際に、上記誤り表記辞書テーブルに保持した誤り表
    記カタカナ単語が単語候補として抽出されると、その誤
    り表記カタカナ単語に対する正規表記カタカナ単語を上
    記誤り表記辞書テーブルから得て、これを訂正候補とし
    て抽出する訂正候補抽出部と、 上記抽出された誤り表記カタカナ単語の候補に対して校
    正者が上記訂正候補を選択あるいは正規表記のカタカナ
    単語を入力する修正処理部と、 を具備するカタカナ単語誤り検出訂正装置。
JP2040504A 1990-02-21 1990-02-21 カタカナ単語誤り検出訂正装置 Pending JPH03242755A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2040504A JPH03242755A (ja) 1990-02-21 1990-02-21 カタカナ単語誤り検出訂正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2040504A JPH03242755A (ja) 1990-02-21 1990-02-21 カタカナ単語誤り検出訂正装置

Publications (1)

Publication Number Publication Date
JPH03242755A true JPH03242755A (ja) 1991-10-29

Family

ID=12582384

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2040504A Pending JPH03242755A (ja) 1990-02-21 1990-02-21 カタカナ単語誤り検出訂正装置

Country Status (1)

Country Link
JP (1) JPH03242755A (ja)

Similar Documents

Publication Publication Date Title
JPH07325828A (ja) 文法チェックシステム
JPH07325824A (ja) 文法チェックシステム
US8725497B2 (en) System and method for detecting and correcting mismatched Chinese character
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Tufiş et al. DIAC+: A professional diacritics recovering system
Ganfure et al. Design and implementation of morphology based spell checker
Yang et al. Spell Checking for Chinese.
Mon et al. SymSpell4Burmese: symmetric delete Spelling correction algorithm (SymSpell) for burmese spelling checking
Kumar et al. Design and implementation of nlp-based spell checker for the tamil language
Kaur et al. Spell Checking and Error Correcting System for text paragraphs written in Punjabi Language using Hybrid approach
Kaur et al. Hybrid approach for spell checker and grammar checker for Punjabi
Krstev et al. Old or new, we repair, adjust and alter (texts)
Mijlad et al. Arabic text diacritization: Overview and solution
Selvaraj et al. Survey on Spell Checker for Tamil Language Using Natural Language Processing
JPH03242755A (ja) カタカナ単語誤り検出訂正装置
Hládek et al. Diacritics restoration in the slovak texts using hidden markov model
JP3935374B2 (ja) 辞書構築支援方法、装置及びプログラム
JPS63118868A (ja) 日本語文章校正装置
JPH0362260A (ja) 片仮名単語誤り検出訂正装置
JP2023052750A (ja) 自動翻訳装置及び自動翻訳プログラム
Singh et al. Advancing Spelling Correction through Natural Language Processing and TextBlob: A Context-Aware Approach
JPH03156589A (ja) 誤読文字の検出,修正方法
JPH087046A (ja) 文書認識装置
JP2575947B2 (ja) 文節切出し装置