JP3390567B2

JP3390567B2 - 誤字訂正装置

Info

Publication number: JP3390567B2
Application number: JP14145295A
Authority: JP
Inventors: 賢一川久保; 真理山本; 泉子小西
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1995-06-08
Filing date: 1995-06-08
Publication date: 2003-03-24
Anticipated expiration: 2018-03-24
Also published as: JPH08335250A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、熟語の誤字を訂正する
誤字訂正装置に関し、特に、ペン入力によって、あるい
はスキャナによって漢字の混じった文章が直接入力され
る電子手帳やパソコンなどの情報処理装置に有効使用で
きる誤字訂正装置に関する。

【０００２】

【従来の技術】従来の日本語推敲システムにおける熟語
の誤字訂正は、例えば「解雇、回顧、懐古」などの同音
異義語を対象としている。すなわち、かな入力に対し
て、そのかなに対応する熟語が複数あったときに、その
熟語の前後の文脈から適正な熟語を選択して漢字変換を
行うようになっている。このシステムでは一般に、例え
ば「解顧」というような誤った漢字変換がされることは
なかった。

【０００３】

【発明が解決しようとする課題】しかし、漢字の混じっ
た文章が、ペン入力によって、あるいはスキャナによっ
て操作者から直接入力される情報処理装置においては、
熟語中に類似の誤った漢字が使用された文章が入力され
る可能性がある。例えば、正しくは「解雇」とすべきと
ころを「解顧」と入力されたり、正しくは「祖国」とす
べきところを「租国」と入力されたりする可能性があ
る。

【０００４】こうした熟語の誤字を訂正するために従来
の日本語推敲システムを応用した場合、誤っている熟語
と正しい熟語との組合せというデータを持たねばなら
ず、データ量が膨大となる。更に、誤字チェック用のデ
ータを追加する場合にも、誤っている語の数の分を必要
とするという問題点があった。

【０００５】本発明はこのような点に鑑みてなされたも
のであり、類似の誤った漢字が使用された熟語を小規模
なデータ量に基づいて訂正することを可能とした誤字訂
正装置を提供することを目的とする。

【０００６】

【課題を解決するための手段】本発明では上記目的を達
成するために、図１に示すように、類似しているために
書き誤り易い漢字を類字キーとしてグループ化し、その
グループ内の各類字キー毎に当該類字キーを使用した正
しい熟語を割り当てるようにした熟語テーブル１と、入
力された、漢字を含む文章から漢字の熟語を抽出する熟
語抽出手段２と、抽出された熟語が熟語テーブル１内の
類字キーのいずれかを含むことを検出する類字キー検出
手段３と、類字キー検出手段３により、抽出された熟語
が熟語テーブル１内の特定の類字キーを含むことが検出
されたとき、特定の類字キーに割り当てられた正しい熟
語の中に、抽出された熟語が存在するか否かを判別する
第１の熟語判別手段４と、第１の熟語判別手段４によ
り、特定の類字キーに割り当てられた正しい熟語の中
に、抽出された熟語が存在しないと判別されたとき、特
定の類字キーが含まれるグループ内の他の類字キーに割
り当てられた正しい熟語の中に、抽出された熟語のうち
の特定の類字キーの漢字を上記他の類字キーの漢字で置
き換えた熟語が存在するか否かを判別する第２の熟語判
別手段５と、第２の熟語判別手段５により、上記他の類
字キーに割り当てられた正しい熟語の中に、上記置き換
えられた熟語が存在すると判別されたとき、抽出された
熟語のうちの特定の類字キーの漢字を上記他の類字キー
の漢字に入れ替えて訂正する訂正手段６とを有すること
を特徴とする誤字訂正装置が提供される。

【０００７】

【作用】以上のような構成において、熟語テーブル１に
予め、同一グループ内の類字キーとして、例えば
「祖」、「租」等が設定されたとする。そして熟語抽出
手段２に「彼は租国に帰った」という文章が入力された
とする。

【０００８】熟語抽出手段２は、その文章の中で漢字の
熟語を探し、この場合、「租国」という熟語を抽出す
る。類字キー検出手段３は、熟語テーブル１を参照し、
「租国」という熟語が類字キー「租」を含むことを検出
する。そこで第１の熟語判別手段４が、検出された特定
の類字キー「租」に割り当てられた正しい熟語（「租
税」、「租界」・・）の中に、抽出熟語「租国」が存在
するか否かを判別する。この場合、存在しない。

【０００９】そこで第２の熟語判別手段５が、特定の類
字キー「租」が含まれるグループ内の他の類字キー
「祖」に割り当てられた正しい熟語（「祖国」、「祖
先」・・）の中に、抽出熟語「租国」のうちの特定の類
字キー「租」を上記他の類字キー「祖」で置き換えた熟
語「祖国」が存在するか否かを判別する。この場合、存
在する。すなわち、熟語「租国」は誤った漢字使いであ
り、「祖国」が正しい漢字使いであると判明する。

【００１０】そのため、訂正手段６は、抽出熟語「租
国」のうちの特定の類字キー「租」の漢字を上記他の類
字キー「祖」の漢字に入れ替えて熟語「祖国」に訂正す
る。以上のように、類字キーの漢字を集め、正しい熟語
だけで構成されたデータ量の小規模な熟語テーブル１を
用意するだけで、類似の誤った漢字が使用された熟語を
容易に訂正することが可能となる。

【００１１】

【実施例】まず、本発明の機能的な原理構成を図１を参
照して説明する。本発明は、類似しているために書き誤
り易い漢字を類字キーとしてグループ化し、そのグルー
プ内の各類字キー毎に当該類字キーを使用した正しい熟
語を割り当てるようにした熟語テーブル１と、入力され
た、漢字を含む文章から漢字の熟語を抽出する熟語抽出
手段２と、抽出された熟語が熟語テーブル１内の類字キ
ーのいずれかを含むことを検出する類字キー検出手段３
と、類字キー検出手段３により、抽出された熟語が熟語
テーブル１内の特定の類字キーを含むことが検出された
とき、特定の類字キーに割り当てられた正しい熟語の中
に、抽出された熟語が存在するか否かを判別する第１の
熟語判別手段４と、第１の熟語判別手段４により、特定
の類字キーに割り当てられた正しい熟語の中に、抽出さ
れた熟語が存在しないと判別されたとき、特定の類字キ
ーが含まれるグループ内の他の類字キーに割り当てられ
た正しい熟語の中に、抽出された熟語のうちの特定の類
字キーの漢字を上記他の類字キーの漢字で置き換えた熟
語が存在するか否かを判別する第２の熟語判別手段５
と、第２の熟語判別手段５により、上記他の類字キーに
割り当てられた正しい熟語の中に、上記置き換えられた
熟語が存在すると判別されたとき、抽出された熟語のう
ちの特定の類字キーの漢字を上記他の類字キーの漢字に
入れ替えて訂正する訂正手段６とから構成される。

【００１２】こうした構成は、ハードウェア的にはプロ
セッサによって実現される。すなわち、プロセッサは、
上記の熟語テーブル１を格納する記憶装置、熟語訂正処
理プログラムを格納するＲＯＭ、この熟語訂正処理プロ
グラムを演算実行するＣＰＵ、このＣＰＵの演算実行過
程において一時的に記憶保持を行うＲＡＭ、外部から処
理対象の文章を入力させる入力装置、処理結果を外部へ
出力表示する出力装置等から構成される。

【００１３】図２は熟語テーブル１の具体的な内容の例
を示すものである。熟語テーブル１の作成方法を説明す
ると、まず、類似しているために書き誤り易い漢字を類
字キーとしてグループ化する。すなわち、部首などの、
漢字の一部が共通し、かつ発音が同じで書き誤り易い漢
字を集め、グループ化する。例えば、旁が共通し、発音
が皆「そ」である漢字「祖・租・阻・組」を集め、グル
ープ１とする。ここで、漢字「祖・租・阻・組」の各１
つを類字キーと呼ぶ。また、偏が共通し、発音が皆「か
ん」である漢字「観・勧・歓」を集め、グループ２とす
る。同様に、漢字「栽・裁」をグループ３とし、漢字
「講・構・購」をグループ４とする。

【００１４】つぎに、各類字キーについて、類字キーを
一部に含む正しい熟語を、その類字キーの熟語候補とす
る。熟語候補の記載方法は、類字キーを除いた残りの部
分だけを取り出し、熟語の文字数および類字キーの位置
を基にグルーピングする。候補ｍｎは、ｍ文字熟語のｎ
文字目に類字キーが存在することを意味する。例えば、
類字キー「祖」において候補２１にグルーピングされた
「国・先・・」は、２文字熟語の１文字目に類字キーが
存在する熟語「祖国・祖先・・」に対応し、類字キー
「祖」において候補２２にグルーピングされた「開・教
・・」は、２文字熟語の２文字目に類字キーが存在する
熟語「開祖・教祖・・」に対応する。なお、図２には２
文字熟語だけを示すが、３文字以上の熟語もこの熟語テ
ーブル１には当然存在し得る。

【００１５】図３は、こうした熟語テーブル１を参照し
て実行される熟語訂正処理プログラムによる処理手順を
示すフローチャートである。以下、図に示すステップに
沿って説明する。

【００１６】〔Ｓ１〕入力された、漢字を含む文章から
漢字２字以上の熟語を順番に抽出する。例えば、「彼は
租国に帰った」という文章が入力されたとすると、「租
国」という熟語が抽出される。以下、この例文を利用し
て説明する。

【００１７】〔Ｓ２〕熟語テーブル１を参照し、ステッ
プＳ１で抽出された熟語を構成する各漢字の中に、熟語
テーブル１に設定された類字キーが存在するか否かを調
べる。存在すればステップＳ３へ進み、存在しなければ
本処理を終了する。

【００１８】例えば、ステップＳ１で抽出された熟語
「租国」の中に、類字キー「租」が存在するので、ステ
ップＳ３へ進む。〔Ｓ３〕ステップＳ２においてｍ文字熟語のｎ文字目
で、ある類字キーＸとマッチした場合、ステップＳ３で
は、熟語テーブル１の類字キーＸの候補ｍｎの中に、ス
テップＳ１で抽出された熟語から類字キーＸを除いた残
りの漢字（列）が存在するか否かを判別する。存在すれ
ば、ステップＳ１で抽出された熟語は正しい漢字が使用
された熟語であると判定して本処理を終了する。存在し
なければステップＳ４へ進む。

【００１９】例えば、ステップＳ２において２文字熟語
「租国」の１文字目で、類字キー「租」とマッチした場
合、熟語テーブル１の類字キー「租」の候補２１の中
に、ステップＳ１で抽出された熟語「租国」から類字キ
ー「租」を除いた残りの漢字（列）「国」が存在するか
否かを判別する。この場合には存在しないのでステップ
Ｓ４へ進む。

【００２０】なお、ステップＳ２において、抽出された
熟語を構成する複数の漢字が熟語テーブル１に設定され
た類字キーとマッチした場合には、それらの複数の漢字
に対してステップＳ３を実行し、そのうちの少なくとも
１つに対して実行結果が肯定（存在する）になれば本処
理を終了し、全てに対して実行結果が否定（存在しな
い）になればステップＳ４へ進む。これは、例えば「観
迎租織」（正しくは「歓迎組織」）というような熟語を
訂正するケースを想定している。

【００２１】〔Ｓ４〕熟語テーブル１の類字キーＸと同
一のグループに含まれる他の類字キーＹの候補ｍｎの中
に、ステップＳ１で抽出された熟語から類字キーＸを除
いた残りの漢字（列）が存在するか否かを判別する。存
在すればステップＳ５へ進み、存在しなければ本処理を
終了する。

【００２２】例えば、熟語テーブル１の類字キー「租」
と同一のグループ１に含まれる他の類字キー「祖」、
「阻」、「組」の各候補２１の中に、ステップＳ１で抽
出された熟語「租国」から類字キー「租」を除いた残り
の漢字（列）「国」が存在するか否かを判別する。この
場合、「祖」の候補２１の中に、残りの漢字（列）
「国」が存在するので、ステップＳ５へ進む。

【００２３】なお、ステップＳ２において、抽出された
熟語を構成する複数の漢字が熟語テーブル１に設定され
た類字キーとマッチし、かつステップＳ３において、そ
れらの複数の漢字に対して実行結果が否定（存在しな
い）になった場合には、それらの複数の漢字に対してス
テップＳ４を実行する。〔Ｓ５〕ステップＳ２において、抽出された熟語を構成
する複数の漢字が、熟語テーブル１に設定された類字キ
ーとマッチしたことに付随してステップＳ４が実行され
た結果、１つの漢字に対してだけステップＳ４の判定結
果が肯定になった場合にはステップＳ６へ進み、複数の
漢字に対してステップＳ４の判定結果が肯定になった場
合にはステップＳ７へ進む。〔Ｓ６〕ステップＳ１で抽出された熟語を構成するＸは
Ｙの誤りであったと判定して訂正する。

【００２４】例えば、ステップＳ１で抽出された熟語
「租国」を構成する漢字「租」を「祖」に訂正して熟語
「祖国」を出力する。〔Ｓ７〕複数の正解候補を出力表示して、操作者の判断
に委ねるようにする。

【００２５】以上のようにして、誤った漢字を使用した
熟語を、熟語テーブル１を使用して簡単に訂正すること
ができる。熟語テーブル１には、正しい漢字使いの熟語
だけを設定すればよく、誤った漢字使いの熟語を設定す
る必要がないので、規模が小さくて済む。しかも、正し
い熟語候補を単に追加するだけで、その同一グループ内
の他の類字キーを使用してしまった（書き誤った）熟語
に対する訂正が簡単にできる。

【００２６】本発明は、熟語を構成する漢字に誤りがあ
る文章等を訂正する装置に一般的に適用できるが、特
に、ペン入力によって、あるいはスキャナによって漢字
の混じった文章が直接入力される電子手帳やパソコンな
どの情報処理装置に対して適用すると非常に有効であ
る。

【００２７】

【発明の効果】以上説明したように本発明では、類似し
ているために書き誤り易い漢字を類字キーとしてグルー
プ化し、そのグループ内の各類字キー毎に当該類字キー
を使用した正しい熟語を割り当てるようにした熟語テー
ブルを利用して、熟語の誤字訂正を行うようにした。こ
れにより、類似の誤った漢字が使用された熟語を小規模
なデータ量に基づいて訂正することが可能となった。ま
た、この熟語テーブルはデータの追加も容易であり、僅
か１件のデータを追加しただけでも誤字訂正効果が大き
い。

【図面の簡単な説明】

【図１】本発明の原理説明図である。

【図２】熟語テーブルの例を示す図である。

【図３】熟語訂正処理手順を示すフローチャートであ
る。

【符号の説明】

１熟語テーブル２熟語抽出手段３類字キー検出手段４第１の熟語判別手段５第２の熟語判別手段６訂正手段

フロントページの続き (56)参考文献特開平２−277187（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06K 9/00 - 9/82

Claims

(57)【特許請求の範囲】

【請求項１】熟語の誤字を訂正する誤字訂正装置にお
いて、類似しているために書き誤り易い漢字を類字キーとして
グループ化し、そのグループ内の各類字キー毎に当該類
字キーを使用した正しい熟語を割り当てるようにした熟
語テーブルと、入力された、漢字を含む文章から漢字の熟語を抽出する
熟語抽出手段と、前記抽出された熟語が前記熟語テーブル内の類字キーの
いずれかを含むことを検出する類字キー検出手段と、前記類字キー検出手段により、前記抽出された熟語が前
記熟語テーブル内の特定の類字キーを含むことが検出さ
れたとき、前記特定の類字キーに割り当てられた正しい
熟語の中に前記抽出された熟語が存在するか否かを判別
する第１の熟語判別手段と、前記第１の熟語判別手段により、前記特定の類字キーに
割り当てられた正しい熟語の中に前記抽出された熟語が
存在しないと判別されたとき、前記特定の類字キーが含
まれるグループ内の他の類字キーに割り当てられた正し
い熟語の中に、前記抽出された熟語のうちの前記特定の
類字キーの漢字を前記他の類字キーの漢字で置き換えた
熟語が存在するか否かを判別する第２の熟語判別手段
と、前記第２の熟語判別手段により、前記他の類字キーに割
り当てられた正しい熟語の中に前記置き換えられた熟語
が存在すると判別されたとき、前記抽出された熟語のう
ちの前記特定の類字キーの漢字を前記他の類字キーの漢
字に入れ替えて訂正する訂正手段と、を有することを特徴とする誤字訂正装置。
【請求項２】前記第１の熟語判別手段により、前記特
定の類字キーに割り当てられた正しい熟語の中に前記抽
出された熟語が存在すると判別されたとき、前記抽出された熟語は正しい漢字が使用された熟語であ
ると判定する判定手段を更に有することを特徴とする請
求項１記載の誤字訂正装置。
【請求項３】前記第１の熟語判別手段は、前記類字キ
ー検出手段により、前記抽出された熟語が前記熟語テー
ブル内の複数の特定の類字キーを含むことが検出された
とき、前記各特定の類字キーにそれぞれ割り当てられた
正しい熟語の中に前記抽出された熟語が存在するか否か
を判別し、前記第２の熟語判別手段は、前記第１の熟語判別手段に
より、前記各特定の類字キーにそれぞれ割り当てられた
正しい熟語の中に前記抽出された熟語が存在しないと判
別されたとき、前記各特定の類字キーがそれぞれ含まれ
る各グループ内の他の類字キーに割り当てられた正しい
熟語の中に、前記抽出された熟語のうちの前記各特定の
類字キーの漢字を対応の前記他の類字キーの漢字でそれ
ぞれ置き換えた熟語が存在するか否かを判別し、前記訂正手段は、前記第２の熟語判別手段により、前記
他の類字キーに割り当てられた正しい熟語の中に前記置
き換えられた熟語が存在すると判別されたとき、前記抽
出された熟語を前記他の類字キーの漢字に基づき訂正す
る、ことを特徴とする請求項１記載の誤字訂正装置。
【請求項４】前記第２の熟語判別手段により、前記各
置き換えられた熟語が前記各他の類字キーにそれぞれ割
り当てられた正しい熟語の中にそれぞれ存在すると判別
されたとき、前記抽出された熟語を前記複数の正しい熟
語に基づきそれぞれ訂正し、訂正された複数の熟語候補
を表示する表示手段を、更に有することを特徴とする請
求項３記載の誤字訂正装置。
【請求項５】前記熟語テーブルは、前記正しい熟語
を、対応の類字キーが熟語の中で位置する位置毎に分類
して保持することを特徴とする請求項１記載の誤字訂正
装置。