JP3390567B2 - 誤字訂正装置 - Google Patents
誤字訂正装置Info
- Publication number
- JP3390567B2 JP3390567B2 JP14145295A JP14145295A JP3390567B2 JP 3390567 B2 JP3390567 B2 JP 3390567B2 JP 14145295 A JP14145295 A JP 14145295A JP 14145295 A JP14145295 A JP 14145295A JP 3390567 B2 JP3390567 B2 JP 3390567B2
- Authority
- JP
- Japan
- Prior art keywords
- idiom
- key
- phrase
- extracted
- correct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Discrimination (AREA)
Description
誤字訂正装置に関し、特に、ペン入力によって、あるい
はスキャナによって漢字の混じった文章が直接入力され
る電子手帳やパソコンなどの情報処理装置に有効使用で
きる誤字訂正装置に関する。
の誤字訂正は、例えば「解雇、回顧、懐古」などの同音
異義語を対象としている。すなわち、かな入力に対し
て、そのかなに対応する熟語が複数あったときに、その
熟語の前後の文脈から適正な熟語を選択して漢字変換を
行うようになっている。このシステムでは一般に、例え
ば「解顧」というような誤った漢字変換がされることは
なかった。
た文章が、ペン入力によって、あるいはスキャナによっ
て操作者から直接入力される情報処理装置においては、
熟語中に類似の誤った漢字が使用された文章が入力され
る可能性がある。例えば、正しくは「解雇」とすべきと
ころを「解顧」と入力されたり、正しくは「祖国」とす
べきところを「租国」と入力されたりする可能性があ
る。
の日本語推敲システムを応用した場合、誤っている熟語
と正しい熟語との組合せというデータを持たねばなら
ず、データ量が膨大となる。更に、誤字チェック用のデ
ータを追加する場合にも、誤っている語の数の分を必要
とするという問題点があった。
のであり、類似の誤った漢字が使用された熟語を小規模
なデータ量に基づいて訂正することを可能とした誤字訂
正装置を提供することを目的とする。
成するために、図1に示すように、類似しているために
書き誤り易い漢字を類字キーとしてグループ化し、その
グループ内の各類字キー毎に当該類字キーを使用した正
しい熟語を割り当てるようにした熟語テーブル1と、入
力された、漢字を含む文章から漢字の熟語を抽出する熟
語抽出手段2と、抽出された熟語が熟語テーブル1内の
類字キーのいずれかを含むことを検出する類字キー検出
手段3と、類字キー検出手段3により、抽出された熟語
が熟語テーブル1内の特定の類字キーを含むことが検出
されたとき、特定の類字キーに割り当てられた正しい熟
語の中に、抽出された熟語が存在するか否かを判別する
第1の熟語判別手段4と、第1の熟語判別手段4によ
り、特定の類字キーに割り当てられた正しい熟語の中
に、抽出された熟語が存在しないと判別されたとき、特
定の類字キーが含まれるグループ内の他の類字キーに割
り当てられた正しい熟語の中に、抽出された熟語のうち
の特定の類字キーの漢字を上記他の類字キーの漢字で置
き換えた熟語が存在するか否かを判別する第2の熟語判
別手段5と、第2の熟語判別手段5により、上記他の類
字キーに割り当てられた正しい熟語の中に、上記置き換
えられた熟語が存在すると判別されたとき、抽出された
熟語のうちの特定の類字キーの漢字を上記他の類字キー
の漢字に入れ替えて訂正する訂正手段6とを有すること
を特徴とする誤字訂正装置が提供される。
予め、同一グループ内の類字キーとして、例えば
「祖」、「租」等が設定されたとする。そして熟語抽出
手段2に「彼は租国に帰った」という文章が入力された
とする。
熟語を探し、この場合、「租国」という熟語を抽出す
る。類字キー検出手段3は、熟語テーブル1を参照し、
「租国」という熟語が類字キー「租」を含むことを検出
する。そこで第1の熟語判別手段4が、検出された特定
の類字キー「租」に割り当てられた正しい熟語(「租
税」、「租界」・・)の中に、抽出熟語「租国」が存在
するか否かを判別する。この場合、存在しない。
字キー「租」が含まれるグループ内の他の類字キー
「祖」に割り当てられた正しい熟語(「祖国」、「祖
先」・・)の中に、抽出熟語「租国」のうちの特定の類
字キー「租」を上記他の類字キー「祖」で置き換えた熟
語「祖国」が存在するか否かを判別する。この場合、存
在する。すなわち、熟語「租国」は誤った漢字使いであ
り、「祖国」が正しい漢字使いであると判明する。
国」のうちの特定の類字キー「租」の漢字を上記他の類
字キー「祖」の漢字に入れ替えて熟語「祖国」に訂正す
る。以上のように、類字キーの漢字を集め、正しい熟語
だけで構成されたデータ量の小規模な熟語テーブル1を
用意するだけで、類似の誤った漢字が使用された熟語を
容易に訂正することが可能となる。
照して説明する。本発明は、類似しているために書き誤
り易い漢字を類字キーとしてグループ化し、そのグルー
プ内の各類字キー毎に当該類字キーを使用した正しい熟
語を割り当てるようにした熟語テーブル1と、入力され
た、漢字を含む文章から漢字の熟語を抽出する熟語抽出
手段2と、抽出された熟語が熟語テーブル1内の類字キ
ーのいずれかを含むことを検出する類字キー検出手段3
と、類字キー検出手段3により、抽出された熟語が熟語
テーブル1内の特定の類字キーを含むことが検出された
とき、特定の類字キーに割り当てられた正しい熟語の中
に、抽出された熟語が存在するか否かを判別する第1の
熟語判別手段4と、第1の熟語判別手段4により、特定
の類字キーに割り当てられた正しい熟語の中に、抽出さ
れた熟語が存在しないと判別されたとき、特定の類字キ
ーが含まれるグループ内の他の類字キーに割り当てられ
た正しい熟語の中に、抽出された熟語のうちの特定の類
字キーの漢字を上記他の類字キーの漢字で置き換えた熟
語が存在するか否かを判別する第2の熟語判別手段5
と、第2の熟語判別手段5により、上記他の類字キーに
割り当てられた正しい熟語の中に、上記置き換えられた
熟語が存在すると判別されたとき、抽出された熟語のう
ちの特定の類字キーの漢字を上記他の類字キーの漢字に
入れ替えて訂正する訂正手段6とから構成される。
セッサによって実現される。すなわち、プロセッサは、
上記の熟語テーブル1を格納する記憶装置、熟語訂正処
理プログラムを格納するROM、この熟語訂正処理プロ
グラムを演算実行するCPU、このCPUの演算実行過
程において一時的に記憶保持を行うRAM、外部から処
理対象の文章を入力させる入力装置、処理結果を外部へ
出力表示する出力装置等から構成される。
を示すものである。熟語テーブル1の作成方法を説明す
ると、まず、類似しているために書き誤り易い漢字を類
字キーとしてグループ化する。すなわち、部首などの、
漢字の一部が共通し、かつ発音が同じで書き誤り易い漢
字を集め、グループ化する。例えば、旁が共通し、発音
が皆「そ」である漢字「祖・租・阻・組」を集め、グル
ープ1とする。ここで、漢字「祖・租・阻・組」の各1
つを類字キーと呼ぶ。また、偏が共通し、発音が皆「か
ん」である漢字「観・勧・歓」を集め、グループ2とす
る。同様に、漢字「栽・裁」をグループ3とし、漢字
「講・構・購」をグループ4とする。
一部に含む正しい熟語を、その類字キーの熟語候補とす
る。熟語候補の記載方法は、類字キーを除いた残りの部
分だけを取り出し、熟語の文字数および類字キーの位置
を基にグルーピングする。候補mnは、m文字熟語のn
文字目に類字キーが存在することを意味する。例えば、
類字キー「祖」において候補21にグルーピングされた
「国・先・・」は、2文字熟語の1文字目に類字キーが
存在する熟語「祖国・祖先・・」に対応し、類字キー
「祖」において候補22にグルーピングされた「開・教
・・」は、2文字熟語の2文字目に類字キーが存在する
熟語「開祖・教祖・・」に対応する。なお、図2には2
文字熟語だけを示すが、3文字以上の熟語もこの熟語テ
ーブル1には当然存在し得る。
て実行される熟語訂正処理プログラムによる処理手順を
示すフローチャートである。以下、図に示すステップに
沿って説明する。
漢字2字以上の熟語を順番に抽出する。例えば、「彼は
租国に帰った」という文章が入力されたとすると、「租
国」という熟語が抽出される。以下、この例文を利用し
て説明する。
プS1で抽出された熟語を構成する各漢字の中に、熟語
テーブル1に設定された類字キーが存在するか否かを調
べる。存在すればステップS3へ進み、存在しなければ
本処理を終了する。
「租国」の中に、類字キー「租」が存在するので、ステ
ップS3へ進む。 〔S3〕ステップS2においてm文字熟語のn文字目
で、ある類字キーXとマッチした場合、ステップS3で
は、熟語テーブル1の類字キーXの候補mnの中に、ス
テップS1で抽出された熟語から類字キーXを除いた残
りの漢字(列)が存在するか否かを判別する。存在すれ
ば、ステップS1で抽出された熟語は正しい漢字が使用
された熟語であると判定して本処理を終了する。存在し
なければステップS4へ進む。
「租国」の1文字目で、類字キー「租」とマッチした場
合、熟語テーブル1の類字キー「租」の候補21の中
に、ステップS1で抽出された熟語「租国」から類字キ
ー「租」を除いた残りの漢字(列)「国」が存在するか
否かを判別する。この場合には存在しないのでステップ
S4へ進む。
熟語を構成する複数の漢字が熟語テーブル1に設定され
た類字キーとマッチした場合には、それらの複数の漢字
に対してステップS3を実行し、そのうちの少なくとも
1つに対して実行結果が肯定(存在する)になれば本処
理を終了し、全てに対して実行結果が否定(存在しな
い)になればステップS4へ進む。これは、例えば「観
迎租織」(正しくは「歓迎組織」)というような熟語を
訂正するケースを想定している。
一のグループに含まれる他の類字キーYの候補mnの中
に、ステップS1で抽出された熟語から類字キーXを除
いた残りの漢字(列)が存在するか否かを判別する。存
在すればステップS5へ進み、存在しなければ本処理を
終了する。
と同一のグループ1に含まれる他の類字キー「祖」、
「阻」、「組」の各候補21の中に、ステップS1で抽
出された熟語「租国」から類字キー「租」を除いた残り
の漢字(列)「国」が存在するか否かを判別する。この
場合、「祖」の候補21の中に、残りの漢字(列)
「国」が存在するので、ステップS5へ進む。
熟語を構成する複数の漢字が熟語テーブル1に設定され
た類字キーとマッチし、かつステップS3において、そ
れらの複数の漢字に対して実行結果が否定(存在しな
い)になった場合には、それらの複数の漢字に対してス
テップS4を実行する。 〔S5〕ステップS2において、抽出された熟語を構成
する複数の漢字が、熟語テーブル1に設定された類字キ
ーとマッチしたことに付随してステップS4が実行され
た結果、1つの漢字に対してだけステップS4の判定結
果が肯定になった場合にはステップS6へ進み、複数の
漢字に対してステップS4の判定結果が肯定になった場
合にはステップS7へ進む。 〔S6〕ステップS1で抽出された熟語を構成するXは
Yの誤りであったと判定して訂正する。
「租国」を構成する漢字「租」を「祖」に訂正して熟語
「祖国」を出力する。 〔S7〕複数の正解候補を出力表示して、操作者の判断
に委ねるようにする。
熟語を、熟語テーブル1を使用して簡単に訂正すること
ができる。熟語テーブル1には、正しい漢字使いの熟語
だけを設定すればよく、誤った漢字使いの熟語を設定す
る必要がないので、規模が小さくて済む。しかも、正し
い熟語候補を単に追加するだけで、その同一グループ内
の他の類字キーを使用してしまった(書き誤った)熟語
に対する訂正が簡単にできる。
る文章等を訂正する装置に一般的に適用できるが、特
に、ペン入力によって、あるいはスキャナによって漢字
の混じった文章が直接入力される電子手帳やパソコンな
どの情報処理装置に対して適用すると非常に有効であ
る。
ているために書き誤り易い漢字を類字キーとしてグルー
プ化し、そのグループ内の各類字キー毎に当該類字キー
を使用した正しい熟語を割り当てるようにした熟語テー
ブルを利用して、熟語の誤字訂正を行うようにした。こ
れにより、類似の誤った漢字が使用された熟語を小規模
なデータ量に基づいて訂正することが可能となった。ま
た、この熟語テーブルはデータの追加も容易であり、僅
か1件のデータを追加しただけでも誤字訂正効果が大き
い。
る。
Claims (5)
- 【請求項1】 熟語の誤字を訂正する誤字訂正装置にお
いて、 類似しているために書き誤り易い漢字を類字キーとして
グループ化し、そのグループ内の各類字キー毎に当該類
字キーを使用した正しい熟語を割り当てるようにした熟
語テーブルと、 入力された、漢字を含む文章から漢字の熟語を抽出する
熟語抽出手段と、 前記抽出された熟語が前記熟語テーブル内の類字キーの
いずれかを含むことを検出する類字キー検出手段と、 前記類字キー検出手段により、前記抽出された熟語が前
記熟語テーブル内の特定の類字キーを含むことが検出さ
れたとき、前記特定の類字キーに割り当てられた正しい
熟語の中に前記抽出された熟語が存在するか否かを判別
する第1の熟語判別手段と、 前記第1の熟語判別手段により、前記特定の類字キーに
割り当てられた正しい熟語の中に前記抽出された熟語が
存在しないと判別されたとき、前記特定の類字キーが含
まれるグループ内の他の類字キーに割り当てられた正し
い熟語の中に、前記抽出された熟語のうちの前記特定の
類字キーの漢字を前記他の類字キーの漢字で置き換えた
熟語が存在するか否かを判別する第2の熟語判別手段
と、 前記第2の熟語判別手段により、前記他の類字キーに割
り当てられた正しい熟語の中に前記置き換えられた熟語
が存在すると判別されたとき、前記抽出された熟語のう
ちの前記特定の類字キーの漢字を前記他の類字キーの漢
字に入れ替えて訂正する訂正手段と、 を有することを特徴とする誤字訂正装置。 - 【請求項2】 前記第1の熟語判別手段により、前記特
定の類字キーに割り当てられた正しい熟語の中に前記抽
出された熟語が存在すると判別されたとき、 前記抽出された熟語は正しい漢字が使用された熟語であ
ると判定する判定手段を更に有することを特徴とする請
求項1記載の誤字訂正装置。 - 【請求項3】 前記第1の熟語判別手段は、前記類字キ
ー検出手段により、前記抽出された熟語が前記熟語テー
ブル内の複数の特定の類字キーを含むことが検出された
とき、前記各特定の類字キーにそれぞれ割り当てられた
正しい熟語の中に前記抽出された熟語が存在するか否か
を判別し、 前記第2の熟語判別手段は、前記第1の熟語判別手段に
より、前記各特定の類字キーにそれぞれ割り当てられた
正しい熟語の中に前記抽出された熟語が存在しないと判
別されたとき、前記各特定の類字キーがそれぞれ含まれ
る各グループ内の他の類字キーに割り当てられた正しい
熟語の中に、前記抽出された熟語のうちの前記各特定の
類字キーの漢字を対応の前記他の類字キーの漢字でそれ
ぞれ置き換えた熟語が存在するか否かを判別し、 前記訂正手段は、前記第2の熟語判別手段により、前記
他の類字キーに割り当てられた正しい熟語の中に前記置
き換えられた熟語が存在すると判別されたとき、前記抽
出された熟語を前記他の類字キーの漢字に基づき訂正す
る、 ことを特徴とする請求項1記載の誤字訂正装置。 - 【請求項4】 前記第2の熟語判別手段により、前記各
置き換えられた熟語が前記各他の類字キーにそれぞれ割
り当てられた正しい熟語の中にそれぞれ存在すると判別
されたとき、前記抽出された熟語を前記複数の正しい熟
語に基づきそれぞれ訂正し、訂正された複数の熟語候補
を表示する表示手段を、更に有することを特徴とする請
求項3記載の誤字訂正装置。 - 【請求項5】 前記熟語テーブルは、前記正しい熟語
を、対応の類字キーが熟語の中で位置する位置毎に分類
して保持することを特徴とする請求項1記載の誤字訂正
装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14145295A JP3390567B2 (ja) | 1995-06-08 | 1995-06-08 | 誤字訂正装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14145295A JP3390567B2 (ja) | 1995-06-08 | 1995-06-08 | 誤字訂正装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08335250A JPH08335250A (ja) | 1996-12-17 |
JP3390567B2 true JP3390567B2 (ja) | 2003-03-24 |
Family
ID=15292246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP14145295A Expired - Fee Related JP3390567B2 (ja) | 1995-06-08 | 1995-06-08 | 誤字訂正装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3390567B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9934217B2 (en) | 2013-07-26 | 2018-04-03 | Facebook, Inc. | Index for electronic string of symbols |
-
1995
- 1995-06-08 JP JP14145295A patent/JP3390567B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH08335250A (ja) | 1996-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5159552A (en) | Method for checking the correct and consistent use of units or chemical formulae in a text processing system | |
US5734749A (en) | Character string input system for completing an input character string with an incomplete input indicative sign | |
EP0250677A1 (en) | Document processing apparatus | |
Kumar et al. | Design and implementation of nlp-based spell checker for the tamil language | |
JP3390567B2 (ja) | 誤字訂正装置 | |
JP3398729B2 (ja) | キーワード自動抽出装置およびキーワード自動抽出方法 | |
JP4283898B2 (ja) | 文章校正装置 | |
JP4047895B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
JP3176588B2 (ja) | 手書き文字入力変換装置及び文書作成装置とコンピュータ読み取り可能な記録媒体 | |
KR20050026732A (ko) | 사용자별로 최적화된 오타 교정 단어 제공 방법 | |
JP3856515B2 (ja) | 文書校正装置 | |
Samsuri et al. | A comparison of distributed, pam, and trie data structure dictionaries in automatic spelling correction for indonesian formal text | |
JP4318223B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
JPH0477857A (ja) | 不適切表現検出装置 | |
JP3045886B2 (ja) | 手書き入力機能付き文字処理装置 | |
JP4047894B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
JP3935374B2 (ja) | 辞書構築支援方法、装置及びプログラム | |
JPH0724054B2 (ja) | デ−タ処理装置 | |
JP2776069B2 (ja) | 文章検査装置 | |
JPS62249269A (ja) | 文書処理装置 | |
JP3109187B2 (ja) | 形態素解析方式 | |
Grobbelaar et al. | A spell checker and corrector for the native South African language, South Sotho | |
JPH10187724A (ja) | 文書作成支援方法及び装置 | |
Bandyopadhyay | Detection and correction of phonetic errors with a new orthographic dictionary | |
JPH07200592A (ja) | 文章処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20021224 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080117 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090117 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100117 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110117 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110117 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120117 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |