JP3390567B2 - 誤字訂正装置 - Google Patents

誤字訂正装置

Info

Publication number
JP3390567B2
JP3390567B2 JP14145295A JP14145295A JP3390567B2 JP 3390567 B2 JP3390567 B2 JP 3390567B2 JP 14145295 A JP14145295 A JP 14145295A JP 14145295 A JP14145295 A JP 14145295A JP 3390567 B2 JP3390567 B2 JP 3390567B2
Authority
JP
Japan
Prior art keywords
idiom
key
phrase
extracted
correct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP14145295A
Other languages
English (en)
Other versions
JPH08335250A (ja
Inventor
賢一 川久保
真理 山本
泉子 小西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP14145295A priority Critical patent/JP3390567B2/ja
Publication of JPH08335250A publication Critical patent/JPH08335250A/ja
Application granted granted Critical
Publication of JP3390567B2 publication Critical patent/JP3390567B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、熟語の誤字を訂正する
誤字訂正装置に関し、特に、ペン入力によって、あるい
はスキャナによって漢字の混じった文章が直接入力され
る電子手帳やパソコンなどの情報処理装置に有効使用で
きる誤字訂正装置に関する。
【0002】
【従来の技術】従来の日本語推敲システムにおける熟語
の誤字訂正は、例えば「解雇、回顧、懐古」などの同音
異義語を対象としている。すなわち、かな入力に対し
て、そのかなに対応する熟語が複数あったときに、その
熟語の前後の文脈から適正な熟語を選択して漢字変換を
行うようになっている。このシステムでは一般に、例え
ば「解顧」というような誤った漢字変換がされることは
なかった。
【0003】
【発明が解決しようとする課題】しかし、漢字の混じっ
た文章が、ペン入力によって、あるいはスキャナによっ
て操作者から直接入力される情報処理装置においては、
熟語中に類似の誤った漢字が使用された文章が入力され
る可能性がある。例えば、正しくは「解雇」とすべきと
ころを「解顧」と入力されたり、正しくは「祖国」とす
べきところを「租国」と入力されたりする可能性があ
る。
【0004】こうした熟語の誤字を訂正するために従来
の日本語推敲システムを応用した場合、誤っている熟語
と正しい熟語との組合せというデータを持たねばなら
ず、データ量が膨大となる。更に、誤字チェック用のデ
ータを追加する場合にも、誤っている語の数の分を必要
とするという問題点があった。
【0005】本発明はこのような点に鑑みてなされたも
のであり、類似の誤った漢字が使用された熟語を小規模
なデータ量に基づいて訂正することを可能とした誤字訂
正装置を提供することを目的とする。
【0006】
【課題を解決するための手段】本発明では上記目的を達
成するために、図1に示すように、類似しているために
書き誤り易い漢字を類字キーとしてグループ化し、その
グループ内の各類字キー毎に当該類字キーを使用した正
しい熟語を割り当てるようにした熟語テーブル1と、入
力された、漢字を含む文章から漢字の熟語を抽出する熟
語抽出手段2と、抽出された熟語が熟語テーブル1内の
類字キーのいずれかを含むことを検出する類字キー検出
手段3と、類字キー検出手段3により、抽出された熟語
が熟語テーブル1内の特定の類字キーを含むことが検出
されたとき、特定の類字キーに割り当てられた正しい熟
語の中に、抽出された熟語が存在するか否かを判別する
第1の熟語判別手段4と、第1の熟語判別手段4によ
り、特定の類字キーに割り当てられた正しい熟語の中
に、抽出された熟語が存在しないと判別されたとき、特
定の類字キーが含まれるグループ内の他の類字キーに割
り当てられた正しい熟語の中に、抽出された熟語のうち
の特定の類字キーの漢字を上記他の類字キーの漢字で置
き換えた熟語が存在するか否かを判別する第2の熟語判
別手段5と、第2の熟語判別手段5により、上記他の類
字キーに割り当てられた正しい熟語の中に、上記置き換
えられた熟語が存在すると判別されたとき、抽出された
熟語のうちの特定の類字キーの漢字を上記他の類字キー
の漢字に入れ替えて訂正する訂正手段6とを有すること
を特徴とする誤字訂正装置が提供される。
【0007】
【作用】以上のような構成において、熟語テーブル1に
予め、同一グループ内の類字キーとして、例えば
「祖」、「租」等が設定されたとする。そして熟語抽出
手段2に「彼は租国に帰った」という文章が入力された
とする。
【0008】熟語抽出手段2は、その文章の中で漢字の
熟語を探し、この場合、「租国」という熟語を抽出す
る。類字キー検出手段3は、熟語テーブル1を参照し、
「租国」という熟語が類字キー「租」を含むことを検出
する。そこで第1の熟語判別手段4が、検出された特定
の類字キー「租」に割り当てられた正しい熟語(「租
税」、「租界」・・)の中に、抽出熟語「租国」が存在
するか否かを判別する。この場合、存在しない。
【0009】そこで第2の熟語判別手段5が、特定の類
字キー「租」が含まれるグループ内の他の類字キー
「祖」に割り当てられた正しい熟語(「祖国」、「祖
先」・・)の中に、抽出熟語「租国」のうちの特定の類
字キー「租」を上記他の類字キー「祖」で置き換えた熟
語「祖国」が存在するか否かを判別する。この場合、存
在する。すなわち、熟語「租国」は誤った漢字使いであ
り、「祖国」が正しい漢字使いであると判明する。
【0010】そのため、訂正手段6は、抽出熟語「租
国」のうちの特定の類字キー「租」の漢字を上記他の類
字キー「祖」の漢字に入れ替えて熟語「祖国」に訂正す
る。以上のように、類字キーの漢字を集め、正しい熟語
だけで構成されたデータ量の小規模な熟語テーブル1を
用意するだけで、類似の誤った漢字が使用された熟語を
容易に訂正することが可能となる。
【0011】
【実施例】まず、本発明の機能的な原理構成を図1を参
照して説明する。本発明は、類似しているために書き誤
り易い漢字を類字キーとしてグループ化し、そのグルー
プ内の各類字キー毎に当該類字キーを使用した正しい熟
語を割り当てるようにした熟語テーブル1と、入力され
た、漢字を含む文章から漢字の熟語を抽出する熟語抽出
手段2と、抽出された熟語が熟語テーブル1内の類字キ
ーのいずれかを含むことを検出する類字キー検出手段3
と、類字キー検出手段3により、抽出された熟語が熟語
テーブル1内の特定の類字キーを含むことが検出された
とき、特定の類字キーに割り当てられた正しい熟語の中
に、抽出された熟語が存在するか否かを判別する第1の
熟語判別手段4と、第1の熟語判別手段4により、特定
の類字キーに割り当てられた正しい熟語の中に、抽出さ
れた熟語が存在しないと判別されたとき、特定の類字キ
ーが含まれるグループ内の他の類字キーに割り当てられ
た正しい熟語の中に、抽出された熟語のうちの特定の類
字キーの漢字を上記他の類字キーの漢字で置き換えた熟
語が存在するか否かを判別する第2の熟語判別手段5
と、第2の熟語判別手段5により、上記他の類字キーに
割り当てられた正しい熟語の中に、上記置き換えられた
熟語が存在すると判別されたとき、抽出された熟語のう
ちの特定の類字キーの漢字を上記他の類字キーの漢字に
入れ替えて訂正する訂正手段6とから構成される。
【0012】こうした構成は、ハードウェア的にはプロ
セッサによって実現される。すなわち、プロセッサは、
上記の熟語テーブル1を格納する記憶装置、熟語訂正処
理プログラムを格納するROM、この熟語訂正処理プロ
グラムを演算実行するCPU、このCPUの演算実行過
程において一時的に記憶保持を行うRAM、外部から処
理対象の文章を入力させる入力装置、処理結果を外部へ
出力表示する出力装置等から構成される。
【0013】図2は熟語テーブル1の具体的な内容の例
を示すものである。熟語テーブル1の作成方法を説明す
ると、まず、類似しているために書き誤り易い漢字を類
字キーとしてグループ化する。すなわち、部首などの、
漢字の一部が共通し、かつ発音が同じで書き誤り易い漢
字を集め、グループ化する。例えば、旁が共通し、発音
が皆「そ」である漢字「祖・租・阻・組」を集め、グル
ープ1とする。ここで、漢字「祖・租・阻・組」の各1
つを類字キーと呼ぶ。また、偏が共通し、発音が皆「か
ん」である漢字「観・勧・歓」を集め、グループ2とす
る。同様に、漢字「栽・裁」をグループ3とし、漢字
「講・構・購」をグループ4とする。
【0014】つぎに、各類字キーについて、類字キーを
一部に含む正しい熟語を、その類字キーの熟語候補とす
る。熟語候補の記載方法は、類字キーを除いた残りの部
分だけを取り出し、熟語の文字数および類字キーの位置
を基にグルーピングする。候補mnは、m文字熟語のn
文字目に類字キーが存在することを意味する。例えば、
類字キー「祖」において候補21にグルーピングされた
「国・先・・」は、2文字熟語の1文字目に類字キーが
存在する熟語「祖国・祖先・・」に対応し、類字キー
「祖」において候補22にグルーピングされた「開・教
・・」は、2文字熟語の2文字目に類字キーが存在する
熟語「開祖・教祖・・」に対応する。なお、図2には2
文字熟語だけを示すが、3文字以上の熟語もこの熟語テ
ーブル1には当然存在し得る。
【0015】図3は、こうした熟語テーブル1を参照し
て実行される熟語訂正処理プログラムによる処理手順を
示すフローチャートである。以下、図に示すステップに
沿って説明する。
【0016】〔S1〕入力された、漢字を含む文章から
漢字2字以上の熟語を順番に抽出する。例えば、「彼は
租国に帰った」という文章が入力されたとすると、「租
国」という熟語が抽出される。以下、この例文を利用し
て説明する。
【0017】〔S2〕熟語テーブル1を参照し、ステッ
プS1で抽出された熟語を構成する各漢字の中に、熟語
テーブル1に設定された類字キーが存在するか否かを調
べる。存在すればステップS3へ進み、存在しなければ
本処理を終了する。
【0018】例えば、ステップS1で抽出された熟語
「租国」の中に、類字キー「租」が存在するので、ステ
ップS3へ進む。 〔S3〕ステップS2においてm文字熟語のn文字目
で、ある類字キーXとマッチした場合、ステップS3で
は、熟語テーブル1の類字キーXの候補mnの中に、ス
テップS1で抽出された熟語から類字キーXを除いた残
りの漢字(列)が存在するか否かを判別する。存在すれ
ば、ステップS1で抽出された熟語は正しい漢字が使用
された熟語であると判定して本処理を終了する。存在し
なければステップS4へ進む。
【0019】例えば、ステップS2において2文字熟語
「租国」の1文字目で、類字キー「租」とマッチした場
合、熟語テーブル1の類字キー「租」の候補21の中
に、ステップS1で抽出された熟語「租国」から類字キ
ー「租」を除いた残りの漢字(列)「国」が存在するか
否かを判別する。この場合には存在しないのでステップ
S4へ進む。
【0020】なお、ステップS2において、抽出された
熟語を構成する複数の漢字が熟語テーブル1に設定され
た類字キーとマッチした場合には、それらの複数の漢字
に対してステップS3を実行し、そのうちの少なくとも
1つに対して実行結果が肯定(存在する)になれば本処
理を終了し、全てに対して実行結果が否定(存在しな
い)になればステップS4へ進む。これは、例えば「観
迎租織」(正しくは「歓迎組織」)というような熟語を
訂正するケースを想定している。
【0021】〔S4〕熟語テーブル1の類字キーXと同
一のグループに含まれる他の類字キーYの候補mnの中
に、ステップS1で抽出された熟語から類字キーXを除
いた残りの漢字(列)が存在するか否かを判別する。存
在すればステップS5へ進み、存在しなければ本処理を
終了する。
【0022】例えば、熟語テーブル1の類字キー「租」
と同一のグループ1に含まれる他の類字キー「祖」、
「阻」、「組」の各候補21の中に、ステップS1で抽
出された熟語「租国」から類字キー「租」を除いた残り
の漢字(列)「国」が存在するか否かを判別する。この
場合、「祖」の候補21の中に、残りの漢字(列)
「国」が存在するので、ステップS5へ進む。
【0023】なお、ステップS2において、抽出された
熟語を構成する複数の漢字が熟語テーブル1に設定され
た類字キーとマッチし、かつステップS3において、そ
れらの複数の漢字に対して実行結果が否定(存在しな
い)になった場合には、それらの複数の漢字に対してス
テップS4を実行する。 〔S5〕ステップS2において、抽出された熟語を構成
する複数の漢字が、熟語テーブル1に設定された類字キ
ーとマッチしたことに付随してステップS4が実行され
た結果、1つの漢字に対してだけステップS4の判定結
果が肯定になった場合にはステップS6へ進み、複数の
漢字に対してステップS4の判定結果が肯定になった場
合にはステップS7へ進む。 〔S6〕ステップS1で抽出された熟語を構成するXは
Yの誤りであったと判定して訂正する。
【0024】例えば、ステップS1で抽出された熟語
「租国」を構成する漢字「租」を「祖」に訂正して熟語
「祖国」を出力する。 〔S7〕複数の正解候補を出力表示して、操作者の判断
に委ねるようにする。
【0025】以上のようにして、誤った漢字を使用した
熟語を、熟語テーブル1を使用して簡単に訂正すること
ができる。熟語テーブル1には、正しい漢字使いの熟語
だけを設定すればよく、誤った漢字使いの熟語を設定す
る必要がないので、規模が小さくて済む。しかも、正し
い熟語候補を単に追加するだけで、その同一グループ内
の他の類字キーを使用してしまった(書き誤った)熟語
に対する訂正が簡単にできる。
【0026】本発明は、熟語を構成する漢字に誤りがあ
る文章等を訂正する装置に一般的に適用できるが、特
に、ペン入力によって、あるいはスキャナによって漢字
の混じった文章が直接入力される電子手帳やパソコンな
どの情報処理装置に対して適用すると非常に有効であ
る。
【0027】
【発明の効果】以上説明したように本発明では、類似し
ているために書き誤り易い漢字を類字キーとしてグルー
プ化し、そのグループ内の各類字キー毎に当該類字キー
を使用した正しい熟語を割り当てるようにした熟語テー
ブルを利用して、熟語の誤字訂正を行うようにした。こ
れにより、類似の誤った漢字が使用された熟語を小規模
なデータ量に基づいて訂正することが可能となった。ま
た、この熟語テーブルはデータの追加も容易であり、僅
か1件のデータを追加しただけでも誤字訂正効果が大き
い。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】熟語テーブルの例を示す図である。
【図3】熟語訂正処理手順を示すフローチャートであ
る。
【符号の説明】
1 熟語テーブル 2 熟語抽出手段 3 類字キー検出手段 4 第1の熟語判別手段 5 第2の熟語判別手段 6 訂正手段
フロントページの続き (56)参考文献 特開 平2−277187(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 熟語の誤字を訂正する誤字訂正装置にお
    いて、 類似しているために書き誤り易い漢字を類字キーとして
    グループ化し、そのグループ内の各類字キー毎に当該類
    字キーを使用した正しい熟語を割り当てるようにした熟
    語テーブルと、 入力された、漢字を含む文章から漢字の熟語を抽出する
    熟語抽出手段と、 前記抽出された熟語が前記熟語テーブル内の類字キーの
    いずれかを含むことを検出する類字キー検出手段と、 前記類字キー検出手段により、前記抽出された熟語が前
    記熟語テーブル内の特定の類字キーを含むことが検出さ
    れたとき、前記特定の類字キーに割り当てられた正しい
    熟語の中に前記抽出された熟語が存在するか否かを判別
    する第1の熟語判別手段と、 前記第1の熟語判別手段により、前記特定の類字キーに
    割り当てられた正しい熟語の中に前記抽出された熟語が
    存在しないと判別されたとき、前記特定の類字キーが含
    まれるグループ内の他の類字キーに割り当てられた正し
    い熟語の中に、前記抽出された熟語のうちの前記特定の
    類字キーの漢字を前記他の類字キーの漢字で置き換えた
    熟語が存在するか否かを判別する第2の熟語判別手段
    と、 前記第2の熟語判別手段により、前記他の類字キーに割
    り当てられた正しい熟語の中に前記置き換えられた熟語
    が存在すると判別されたとき、前記抽出された熟語のう
    ちの前記特定の類字キーの漢字を前記他の類字キーの漢
    字に入れ替えて訂正する訂正手段と、 を有することを特徴とする誤字訂正装置。
  2. 【請求項2】 前記第1の熟語判別手段により、前記特
    定の類字キーに割り当てられた正しい熟語の中に前記抽
    出された熟語が存在すると判別されたとき、 前記抽出された熟語は正しい漢字が使用された熟語であ
    ると判定する判定手段を更に有することを特徴とする請
    求項1記載の誤字訂正装置。
  3. 【請求項3】 前記第1の熟語判別手段は、前記類字キ
    ー検出手段により、前記抽出された熟語が前記熟語テー
    ブル内の複数の特定の類字キーを含むことが検出された
    とき、前記各特定の類字キーにそれぞれ割り当てられた
    正しい熟語の中に前記抽出された熟語が存在するか否か
    を判別し、 前記第2の熟語判別手段は、前記第1の熟語判別手段に
    より、前記各特定の類字キーにそれぞれ割り当てられた
    正しい熟語の中に前記抽出された熟語が存在しないと判
    別されたとき、前記各特定の類字キーがそれぞれ含まれ
    る各グループ内の他の類字キーに割り当てられた正しい
    熟語の中に、前記抽出された熟語のうちの前記各特定の
    類字キーの漢字を対応の前記他の類字キーの漢字でそれ
    ぞれ置き換えた熟語が存在するか否かを判別し、 前記訂正手段は、前記第2の熟語判別手段により、前記
    他の類字キーに割り当てられた正しい熟語の中に前記置
    き換えられた熟語が存在すると判別されたとき、前記抽
    出された熟語を前記他の類字キーの漢字に基づき訂正す
    る、 ことを特徴とする請求項1記載の誤字訂正装置。
  4. 【請求項4】 前記第2の熟語判別手段により、前記各
    置き換えられた熟語が前記各他の類字キーにそれぞれ割
    り当てられた正しい熟語の中にそれぞれ存在すると判別
    されたとき、前記抽出された熟語を前記複数の正しい熟
    語に基づきそれぞれ訂正し、訂正された複数の熟語候補
    を表示する表示手段を、更に有することを特徴とする請
    求項3記載の誤字訂正装置。
  5. 【請求項5】 前記熟語テーブルは、前記正しい熟語
    を、対応の類字キーが熟語の中で位置する位置毎に分類
    して保持することを特徴とする請求項1記載の誤字訂正
    装置。
JP14145295A 1995-06-08 1995-06-08 誤字訂正装置 Expired - Fee Related JP3390567B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14145295A JP3390567B2 (ja) 1995-06-08 1995-06-08 誤字訂正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14145295A JP3390567B2 (ja) 1995-06-08 1995-06-08 誤字訂正装置

Publications (2)

Publication Number Publication Date
JPH08335250A JPH08335250A (ja) 1996-12-17
JP3390567B2 true JP3390567B2 (ja) 2003-03-24

Family

ID=15292246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14145295A Expired - Fee Related JP3390567B2 (ja) 1995-06-08 1995-06-08 誤字訂正装置

Country Status (1)

Country Link
JP (1) JP3390567B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9934217B2 (en) 2013-07-26 2018-04-03 Facebook, Inc. Index for electronic string of symbols

Also Published As

Publication number Publication date
JPH08335250A (ja) 1996-12-17

Similar Documents

Publication Publication Date Title
US5159552A (en) Method for checking the correct and consistent use of units or chemical formulae in a text processing system
US5734749A (en) Character string input system for completing an input character string with an incomplete input indicative sign
EP0250677A1 (en) Document processing apparatus
Kumar et al. Design and implementation of nlp-based spell checker for the tamil language
JP3390567B2 (ja) 誤字訂正装置
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP4283898B2 (ja) 文章校正装置
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3176588B2 (ja) 手書き文字入力変換装置及び文書作成装置とコンピュータ読み取り可能な記録媒体
KR20050026732A (ko) 사용자별로 최적화된 오타 교정 단어 제공 방법
JP3856515B2 (ja) 文書校正装置
Samsuri et al. A comparison of distributed, pam, and trie data structure dictionaries in automatic spelling correction for indonesian formal text
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH0477857A (ja) 不適切表現検出装置
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3935374B2 (ja) 辞書構築支援方法、装置及びプログラム
JPH0724054B2 (ja) デ−タ処理装置
JP2776069B2 (ja) 文章検査装置
JPS62249269A (ja) 文書処理装置
JP3109187B2 (ja) 形態素解析方式
Grobbelaar et al. A spell checker and corrector for the native South African language, South Sotho
JPH10187724A (ja) 文書作成支援方法及び装置
Bandyopadhyay Detection and correction of phonetic errors with a new orthographic dictionary
JPH07200592A (ja) 文章処理装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20021224

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080117

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100117

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110117

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110117

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120117

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees