JPH0785040A

JPH0785040A - 表記不統一検出方法およびかな漢字変換方法

Info

Publication number: JPH0785040A
Application number: JP5227146A
Authority: JP
Inventors: Yasutsugu Morimoto; 康嗣森本
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-09-13
Filing date: 1993-09-13
Publication date: 1995-03-31

Abstract

(57)【要約】【目的】テキスト中の異表記を検出する方法を提供す
ること。【構成】複数の表記を持つ単語の異表記を格納した異
表記辞書２と、表記のタイプ分けを格納した表記タイプ
分け辞書１と、テキストに出現した多表記語の全ての表
記を格納する異表記バッファ３１、テキストを単語分割
した結果を格納する単語分割テーブル３２、禁止タイプ
を格納する禁止タイプテーブルおよび表記不統一のグル
ープの名称を格納する表記不統一テーブルを有するメモ
リ３と、入出力装置４と、必要な処理を行うＣＰＵ５を
有し、テキストを単語に分割して単語分割テーブルに格
納し、該単語分割テーブルに格納されている単語が異表
記辞書に存在する場合に該単語の表記および異表記情報
を異表記バッファに複写し、異表記バッファ、禁止タイ
プテーブル、表記不統一テーブルを用いてテキスト中の
表記の不統一を検出する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、テキストの編集中ある
いはテキストの編集後において、複数の異なる多表記語
間での表記の不統一を検出する方法、および入力された
かな漢字を統一したタイプの表記の単語に変換するかな
漢字変換方法に関する。

【０００２】

【従来の技術】日本語のテキスト中の単語の中には、同
じ意味でありながら複数の異なる表記を持つ単語が多数
存在する。例えば、「書き込み」という単語には「書込
み」という異なる表記が存在する。以下、このような場
合、一方は他方の異表記であるという。また、このよう
な複数の表記を持つ単語を多表記語と呼ぶ。このような
多表記語は、読み易さなどの点から考えて、同一テキス
ト中ではいずれか一つの表記に統一されていることが望
ましい。しかし、複数の人間が作成したテキストを一つ
のテキストに合成する場合や１人で作成したときでもテ
キストが膨大になる場合には表記が統一しないことが多
い。同一テキスト中の表記を統一する従来方法として、
例えば、特開平３−１２９４６３号公報に記載されてい
るように、各多表記語毎に表記の不統一を検出し、ま
た、それに基づいて表記を統一する方法がある。

【０００３】

【発明が解決しようとする問題点】しかし、上記従来方
法には次のような問題点があった。すなわち、上記従来
方法は、各多表記語毎に表記の不統一を検出し、表記を
統一することに主眼をおいたものであった。例えば、
「書き込み」と「書込み」という複数の表記を持つ多表
記語が処理対象テキスト中に存在した場合、「書き込
み」と「書込み」のいずれか一方の表記に統一すること
だけを目的としていた。しかし、類似した異表記を持つ
異なる複数の多表記語が存在する場合、そのテキストを
読むときの読み易さ、そのテキストを検索の対象にする
ときのキーワード選択などを考えると、異なる複数の多
表記語間においても表記を統一した方がよいことは明ら
かである。

【０００４】例えば、同一テキスト中に「書き込み」と
「書込み」という表記を持つ多表記語と、「読み込み」
と「読込み」という表記を持つ多表記語が存在したとす
る。このとき、「書き込み」と「書込み」という表記を
持つ多表記語を「書き込み」という表記に統一した場合
には、同一テキスト中においては「読み込み」と「読込
み」という表記を持つ多表記語においても「書き込み」
と同種の「読み込み」という表記に統一することが望ま
しい。しかし、上記従来方法では、各多表記語毎に独立
に表記の不統一を検出し、それに基づいて表記を統一す
る処理を行っていたため、一方の多表記語を「書き込
み」という表記に統一したときに、他方の多表記語とし
て「読み込み」という表記に統一した方がよいという判
断をすることができなかった。そのため、一方の多表記
語を「書き込み」に統一した場合に、他方の多表記語を
同種の「読み込み」に統一するのではなく、異種の「読
込み」に統一してしまうことを防ぐことができなかっ
た。このように、従来の方法は、個々の多表記語の表記
は統一することはできるが、異なる多表記語間にわたっ
て表記の不統一を検出し、それに基づいてテキスト全体
にわたって複数の多表記語間の表記を統一することがで
きないという問題点を有していた。また、入力装置から
かな文字を入力しかな漢字変換によってかな漢字混じり
文を作成する場合にも操作者が特別な注意を払わなくて
は表記を統一することができなかった。本発明の目的
は、上記問題点を解消し、異なる複数の多表記語間にわ
たって表記の不統一を検出する方法、および、かな漢字
変換を利用してかな漢字混じり文を作成する場合にも表
記を簡単に統一できるようにする方法を提供することに
ある。

【０００５】

【課題を解決するための手段】本発明は、上記の問題点
を解決するために、テキスト中に出現する単語の表記が
不統一であることを検出する表記不統一検出方法におい
て、少なくとも、テキスト中に出現する単語が異表記を
持つか否かを判定するステップと、各単語の異表記をタ
イプ分けするステップと、同じタイプの表記を持つ単語
がテキスト中で同じタイプで表記されていないことを検
出するステップとを有していることを特徴としている。
また、表記が不統一であることが検出された場合に、予
め決められたタイプの表記または出現頻度の最も高いタ
イプの表記に表記を統一するステップを有することを特
徴としている。さらに、かな文字列を漢字かな混じり列
に変換するかな漢字変換方法において、少なくとも、入
力されたかな文字列のかな漢字変換結果の単語が異表記
を持つか否かを判定するステップと、各単語の異表記を
タイプ分けするステップと、変換結果の単語が複数の表
記を持つと判定された場合に、それ以前に選択されたタ
イプと同じタイプの表記をかな漢字変換結果として選択
するステップを有することを特徴としている。

【０００６】

【作用】本発明は、上記表記不統一検出方法によって、
複数の表記を持つ単語について、同じタイプの表記を持
つ単語が異なるタイプの表記で記述されている場合に、
表記が不統一であると判定でき、それによって異なる単
語間の表記の不統一を検出することができる。また、上
記表記統一方法を用いることによって予め決められたタ
イプや出現頻度の高いタイプに表記を統一することが可
能となる。さらに、上記かな漢字変換方法を用いると、
表記が統一されたかな漢字混じり文を作成することがで
きる。

【０００７】

【実施例】本発明の第１の実施例を詳細に説明する。第
１の実施例は、バッチ型の表記不統一検出システムに適
用した場合の例である。図１は、本発明の第１の実施例
を適用した表記不統一検出システムのハードウェア構成
図を示すものである。図１において、１は表記タイプ分
け辞書、２は異表記辞書、３はメモリ、４は入出力装
置、５はＣＰＵ（中央処理装置）である。以下、各構成
について説明する。

【０００８】表記タイプ分け辞書１は、様々な表記のタ
イプ分けを格納したものである。表記のタイプ分けと
は、異表記の発生の仕方の共通点に着目し、異表記を分
類したものである。例えば、「動詞の連用形＋動詞」の
タイプの複合動詞は多くの場合に共通した異表記を持っ
ている。例えば、「書き込む」という単語は、「書込
む」という異表記を持っているが、同様に「読み込
む」、「受け取る」および「受け渡す」といった複合動
詞は、それぞれ「読込む」、「受取る」および「受渡
す」といった異表記を持っている。これらは、最初の動
詞の送り仮名を省略するかどうかが異なるという点で共
通している。そこで、例えば、送り仮名を省略しない表
記をタイプＡ１、送り仮名を省略する表記をタイプＡ２
とし、このようなタイプの表記をグループＡとする。

【０００９】また、他の異表記として、送り仮名に揺れ
があるタイプの異表記がある。例えば、「分かる」およ
び「起こす」といった単語は、「分る」および「起す」
と表記することが可能である。前者のタイプの表記をタ
イプＢ１、後者のタイプの表記をタイプＢ２とし、この
ようなタイプの表記をグループＢとする。他にも、「レ
ーザー」と「レーザ」、「レーダー」と「レーダ」のよ
うに最後の長音がある表記とない表記、「或は」と「あ
るいは」、「又は」と「または」のような漢字で書く表
記と平仮名で書く表記のような異表記が存在する。この
ように、共通する表記をタイプ分けし、互いに異表記と
なるタイプの表記を１つのグループと考える。

【００１０】次に、表記タイプ分け辞書１の概念図の例
を図２に示す。図２に示されているように、表記タイプ
分け辞書１はグループ（イ）とそのグループに存在する
タイプ（ロ）を記述したものである。例えば、図２の例
では、グループＡの単語が、「読み込み」、「書き込
み」のようなタイプＡ１の異表記と、「読込み」、「書
込み」のようなタイプＡ２の異表記からなることを示
し、また、グループＢの単語が、「分かる」、「起こ
す」のようなタイプＢ１の異表記と、「分る」、「起
す」のようなタイプＢ２の異表記からなることを示して
いる。

【００１１】図１中の異表記辞書２は、複数の表記を持
つ単語の異表記を記述したものである。異表記辞書２の
例を図３に示す。異表記辞書２は異表記を持つ単語の複
数の表記を単語毎に関連付けて格納するもので、異表記
辞書中の番号（ハ）、表記の文字列である見出し語
（ニ）、各見出し語の表記のタイプ（ホ）、関連する異
表記の番号（ヘ）からなっている。例えば、図３に示し
た例では、１番目の表記の見出し語文字列は「書き込
み」で、タイプがＡ１であり、この表記の異表記が２番
の表記すなわち「書込み」であることを示している。２
番目の表記の見出し語文字列が「書込み」で、タイプが
Ａ２であり、この表記の異表記が１番目の表記すなわち
「書き込み」であることを示している。また、１０番目
の表記の見出し語文字列は「書き下ろし」で、タイプが
Ａ１かつＢ１であり、この表記の異表記が１０番目の表
記「書き下し」、１１番目の表記「書下ろし」および１
２番目の表記「書下し」であることを示している。

【００１２】図１中のメモリ３には、異表記バッファ３
１、単語分割テーブル３２、禁止タイプテーブル３３、
表記不統一テーブル３４などが格納されている。異表記
バッファ３１は、処理対象テキストに出現した多表記語
の全ての表記を格納するものである。異表記バッファ３
１の例を図４に示す。異表記バッファ３１は、異表記バ
ッファ中の番号（ト）、見出し語（チ）、異表記辞書中
の番号（リ）、各表記が処理対象テキスト中に出現した
かどうかを示す出現フラグ（ヌ）、各表記のタイプ
（ル）からなっている。例えば、図４の例では、１番目
の表記は「読み込み」で、これが異表記辞書中では３番
目に存在していることを示している。また、出現フラグ
が１なので、この表記が処理対象テキスト中に出現して
おり、そのタイプがＡ１であることを示している。ま
た、３番目の表記は「分かる」で、異表記辞書中の５番
目に存在しており、出現フラグが１なのでこの表記は処
理対象テキスト中に出現しているが、４番目の表記「分
る」は、異表記辞書中の６番目に存在しているが、出現
フラグは０なので処理対象テキスト中に存在しないこと
を示している（テキスト中には「分かる」という表記し
か存在しない）。

【００１３】単語分割テーブル３２は、処理対象テキス
トを単語分割した結果を格納するものであり、見出し語
（ヲ）と出現位置（ワ）から構成されている。単語分割
テーブル３２の例を図５に示す。図５の例は、「読み込
み」という単語が処理対象テキスト中の４６バイト、７
７バイトおよび９９バイトの位置に出現していることを
表している。

【００１４】禁止タイプテーブル３３は、出現すると表
記が不統一となる表記のタイプを禁止タイプとして格納
するものである。禁止タイプは、多表記語が出現したと
きに、その表記を含むグループの別の表記のタイプであ
る。禁止タイプテーブル３３は、禁止タイプテーブル中
の番号（カ）とタイプ名（ヨ）からなる。禁止タイプテ
ーブル３３の例を図６に示す。図６の例は、タイプＡ１
の表記が見つかった直後の禁止タイプテーブルを示して
いる。すなわち、タイプＡ１の表記はグループＡに含ま
れることが表記タイプ分け辞書１から分かる。そして、
グループＡ中で、出現したタイプＡ１以外のタイプとし
て、タイプＡ２が禁止タイプテーブル３３に格納され
る。この後、もしタイプＡ２の表記が見つかればこれら
は禁止タイプであるので、表記に不統一があることが分
かる。

【００１５】表記不統一テーブル３４は、表記が不統一
なグループの名称を格納するテーブルであり、表記不統
一テーブル中の番号（タ）とグループ名（レ）からな
る。表記不統一テーブル３４の例を図７に示す。図７の
例では、グループＡの表記が不統一であること、すなわ
ち、処理対象テキスト中にタイプＡ１、Ａ２の表記が混
在していることが分かる。４は入出力装置であり、処理
対象テキストの入力、処理結果の出力などを行う装置で
ある。５はＣＰＵであり、各種テーブルへの書き込み、
読み出し、検索など必要な全ての処理を行う。

【００１６】次に、図８に示す処理フローに従って、全
体の処理を説明する。先ず、ステップ１１において、処
理対象テキストを単語分割し、その単語とその単語が現
れているテキスト中のバイト位置を、単語分割テーブル
３２の見出し語（ヲ）と出現位置（ワ）の欄に格納す
る。単語分割の方法としては、例えば、「日本語情報処
理」（長尾真監修、電子情報通信学会、pp.86-113、１
９８８）、特開昭５８−４０６８４号公報、特開昭５９
−１２１５７４号公報に記載されている方法がある。日
本語のような単語間にスペースを設けないでべた書きさ
れる言語の場合、文を単語単位に分割する方法として形
態素解析（morphological analysis）が知られている。
形態素解析については、例えば、上述した「日本語情報
処理」（長尾真監修、電子情報通信学会、pp.86-113、
１９８８）に述べられている方法を用いることができ
る。以下に、日本語の形態素解析の方法について簡単に
説明しておく。日本語のような分かち書きされない言語
においては、文字列から単語を切り出す処理を行い、さ
らに接辞や屈折形を同定する処理を行う。ここでは、日
本語の形態素解析の方法として最長一致法を例として簡
単に述べる。

【００１７】例えば、「試験のために勉強する」という
文字列があったとする。また、辞書には「試験」、
「の」、「た」、「め」、「に」、「ため」、「勉強す
る」という単語が格納されていたとする。日本語形態素
解析は、このとき、与えられた文字列の部分文字列を単
語と対応付けることによって、与えられた文字列を「試
験｜の｜ため｜に｜勉強する（終止形）」のような単語
列に分割することを基本としている。しかし、一般に、
与えられた文字列を単に辞書中に存在する単語に置き換
えるだけでは、得られる分割の仕方に曖昧性が発生す
る。例えば、「ため」という文字列は「た」（他、
田）、「め」（目、芽）という辞書中の単語を使って複
数の方法で分割することもできる。そこで、この曖昧性
を解消するために、様々な方法が取られる。例えば、隣
接する単語間の文法的制約や字種に関する経験則（例え
ば、同じ種類の単語が続いていると１つの単語の可能性
が高いなど）などが用いられる。最長一致法というの
は、一つの部分文字列が他の部分文字列の一部であると
きは、より長い方の部分文字列を一つの語と考える方が
正しい可能性が高いという経験則に基づくものである。

【００１８】上記の文字列の場合の処理は次のようにし
て実行される。先ず、文字列の先頭から取った部分文字
列をキーとして辞書を検索する。そして、辞書中に存在
した部分文字列の中で最も長いものを単語の候補とす
る。上記の例の場合には、最初に「試験」が単語の候補
として得られる。次に、「試験」を取り除いた「のため
に勉強する」の先頭から同様の処理を行う。これによ
り、「の」が候補として得られる。次に、「ために勉強
する」の先頭から同様の処理を行うと、辞書中に存在す
る部分文字列としては「た」と「ため」の２つがある
が、より長い方を優先するため、「ため」が候補として
得られる。このように複数の部分文字列が可能な場合に
は、単語候補として選ばれた候補以外のものも記憶して
おき処理が失敗した時点でバックトラックするようにし
て、最終的に正しい解を得るようにしている。

【００１９】テキスト中の全ての単語について上記ステ
ップ１１の処理を終了した後、ステップ１２において、
単語分割テーブル３２中の全ての見出し語（ヲ）につい
てステップ１３以下の処理を実行したか否かを判定し、
単語分割テーブル３２中の全ての見出し語（ヲ）につい
て処理を終了していればステップ１８に進み、処理して
いない単語が残っていた場合にはステップ１３に進む。

【００２０】ステップ１３において単語分割テーブル３
２から未処理単語を１つ取り出し、ステップ１４で異表
記バッファ３１を検索してステップ１３で取り出した単
語と同じ単語を見出し語に持つレコード（一連のデータ
の組。ここでは、図４に示されている異表記バッファ３
１の一行分のデータの組に相当）が存在するかどうかを
判定する。ステップ１４の判定の結果、存在すればステ
ップ１５に進み、存在しなければステップ１６に進む。
ただし、異表記バッファ３１には最初は何も格納されて
いないものとする。ここで、「読み込み」という単語ま
で、異表記を持つ単語が存在しなかったとする。このと
き「読み込み」という単語がステップ１３で取り出され
ると、異表記バッファ３１が空であるため、ステップ１
６に進む。なお、その後、ステップ１３において「読込
み」という単語が取り出された場合には、異表記バッフ
ァ３１の見出し語（チ）中にこの表記が既に存在するの
でステップ１５に進む。ステップ１５では、上記のステ
ップ１４で見つけた異表記バッファ３１中のレコードの
出現フラグ（ヌ）を１にした後、ステップ１２に戻る。

【００２１】ステップ１６では、異表記辞書２を検索
し、異表記辞書２中にステップ１３で取り出した単語と
同じ単語を見出し語に持つレコードが存在するかどうか
を判定する。ステップ１６の判定の結果、対応するレコ
ードが異表記辞書２中に存在すればステップ１７に進
み、存在しなければステップ１２に戻る。今の場合、ス
テップ１３で「読み込み」が取り出されたとき、異表記
辞書２中にこの表記が存在するので、ステップ１７に進
み、異表記辞書２からステップ１３で取り出された単語
およびその全ての異表記に関する情報を異表記バッファ
３１に複写する。また、ステップ１３で取り出された単
語については出現フラグを１にし、その異表記について
は出現フラグを０にする。例えば、ステップ１３で「読
み込み」が取り出された場合には、この単語の異表記
「読み込み」、「読込み」に関する情報が複写される。
また、「読み込み」の出現フラグは１に、「読込み」の
出現フラグは０になる。本ステップ１７は、図９のフロ
ーチャートを用いて後で詳細に説明する。ステップ１７
の処理後に、ステップ１２に戻る。

【００２２】その後、ステップ１３において新たに「読
込み」という単語が取り出された場合には、異表記バッ
ファ３１の見出し語（チ）中にこの表記が既に存在する
のでステップ１５に進む。ステップ１５では、上記のス
テップ１４で見つけた異表記バッファ３１中のレコード
の出現フラグ（ヌ）を１にした後、ステップ１２に戻
る。

【００２３】ステップ１２で全ての単語を処理したとい
う判定の場合は、ステップ１８に進み、異表記バッファ
３１中で、表記が不統一となっている単語を検出する。
本ステップ１８は、後に図１０のフローチャートを用い
て詳細に説明する。

【００２４】次に、図９に示すフローチャートを用い
て、ステップ１７における異表記辞書情報の異表記バッ
ファへの複写処理を詳細に説明する。先ず、ステップ１
７１では、図８のステップ１６で検索された見出し語と
その異表記辞書２中におけるレコードの番号、タイプを
異表記バッファに複写し、出現フラグの欄（ヌ）を１に
する。次に、ステップ１７２において、検索されたレコ
ードの異表記番号欄（ヘ）を参照し、その単語の異表記
であるレコードを全て得る。

【００２５】ステップ１７３では、全ての異表記レコー
ドに対して後述するステップ１７４の処理が終了したか
否かを判定し、処理が終了していれば終了し、残りのレ
コードがあればステップ１７４に進む。ステップ１７４
では、未処理のレコードを１つ取り出し、そのレコード
の見出し語、異表記辞書中の番号、タイプを異表記バッ
ファの対応する欄（チ）、（リ）、（ル）に複写し、出
現フラグの欄（ヌ）を０にする。

【００２６】次に、図１０に示すフローチャートを用い
て、ステップ１８における表記不統一検出処理を詳細に
説明する。先ず、ステップ１８１において、異表記バッ
ファ中の全てのレコードについて下記ステップ１８２以
下の処理を終了したか否かを判定し、処理が終了してい
ればステップ１８９に進み、処理が終了していなければ
ステップ１８２に進む。ステップ１８２では、異表記バ
ッファ３１から、未処理のデータを１レコード取り出
し、その表記のタイプを得る。例えば、処理対象テキス
ト中に「読み込み」および「読込み」という表記が両方
存在した場合には、最初に「読み込み」を含むレコード
が取り出され、次に「読込み」を含むレコードが取り出
される。

【００２７】次のステップ１８３で、取り出されたレコ
ードの出現フラグの欄（ヌ）が１であるかどうか調べ
る。出現フラグが１であればステップ１８４に進み、０
であればステップ１８１に戻る。ステップ１８４では、
表記タイプ分け辞書１を検索して、得られたタイプが属
しているグループを見つける。例えば、最初に「読み込
み」を含むレコードが取り出されたときには、表記のタ
イプがＡ１なので、属しているグループはＡだと分か
る。次に「読込み」が取り出されたときには、表記のタ
イプがＡ２なので、属しているグループがＡだと分か
る。また、「書き下ろし」のような単語が出現している
場合は、ＡおよびＢというように複数のグループが得ら
れる場合もある。次のステップ１８５では、得られたグ
ループが既に不統一かどうかを調べる。これは、表記不
統一テーブル３４を参照することによって実現できる。
表記が不統一なグループならばステップ１８１に戻る。
まだ表記が統一されていればステップ１８６に進む。

【００２８】ステップ１８６では、禁止タイプテーブル
３３を検索し、ステップ１８３で得られたタイプが存在
するかどうかを調べ、存在すればステップ１８７に進
み、存在しなければステップ１８８に進む。例えば、最
初に「読み込み」を含むレコードが取り出されたときに
は、まだ禁止タイプテーブル３３が空なのでステップ１
８８に進む。このとき、後述するようにステップ１８８
で禁止タイプテーブル３３にタイプＡ２が格納される。
従って、次に「読込み」が取り出されたときには、禁止
タイプテーブル３３には既にＡ２が設定されており、か
つ新たに取り出された「読込み」の表記のタイプがＡ２
なのでステップ１８７に進む。

【００２９】ステップ１８７では、見つかったグループ
の表記が不統一だと判断し、グループ名を表記不統一テ
ーブル３４に格納する。例えば、テキスト中に「読み込
み」と「読込み」という表記が両方存在する場合には、
グループＡが不統一であると判定され、表記不統一テー
ブ３４にグループ名Ａが格納される。

【００３０】ステップ１８８では、見つかったグループ
に属するタイプの内、ステップ１８２で得られたタイプ
以外のタイプを禁止タイプテーブル３３に格納する。例
えば、最初、「読み込み」が取り出された場合、「読み
込み」がタイプＡ１であるので、禁止タイプテーブルに
は、グループＡのタイプＡ１以外、すなわちタイプＡ２
を格納する。

【００３１】ステップ１８９では、表記不統一単語のテ
キスト中の単語のバイト位置を得る。そして、例えば、
得られた位置の単語を色調を反転して表示するなど強調
して表示することができる。

【００３２】次に、図１１に示すフローチャートを用い
て、ステップ１８９の処理を詳細に説明する。先ず、ス
テップ１８９１において、表記不統一テーブル３４中の
全てのグループがステップ１８９２以降の処理を終了し
たか否かを判定する。全てのグループが処理を終了した
場合は処理を終了し、未処理のグループが存在している
場合はステップ１８９２に進む。

【００３３】ステップ１８９２では、表記不統一テーブ
ル３４から、不統一なグループ（例えば、グループＡ）
を１つ取り出す。次のステップ１８９３では、表記タイ
プ分け辞書１を参照し、上記ステップ１８９２で取り出
したグループに属するタイプ（例えば、タイプＡ１、タ
イプＡ２）を全て取り出す。次のステップ１８９４で
は、上記ステップ１８９３で取り出したタイプ（例え
ば、タイプＡ１、タイプＡ２）について、ステップ１８
９５以降の処理を終了したか否かを判定し、終了してい
ないタイプがあればステップ１８９５に進み、全てのタ
イプについて終了していればステップ１８９１に戻る。
ステップ１８９５で未処理のタイプを１つ取り出し、次
のステップ１８９６において、異表記バッファ３１中の
全てのレコードについてステップ１８９７以降の処理を
終了したか否かを判定する。判定の結果、全てのレコー
ドについて処理が終了していればステップ１８９４に戻
り、未処理のレコードが残っていればステップ１８９７
に進む。

【００３４】ステップ１８９７で異表記バッファ３１か
ら未処理データを１レコード取りだし、次のステップ１
８９８において、ステップ１８９５で取り出したタイプ
とステップ１８９７で取り出したレコードのタイプが同
じかどうかを調べる。同じタイプならばステップ１８９
９に進む。違うタイプならばステップ１８９６に戻る。
ステップ１８９９において、該レコードから見出し語デ
ータを取りだし、単語分割テーブル３２を検索して、取
り出した見出し語と同じ単語の出現位置を得ることがで
きる。このようにして得た単語の出現位置をディスプレ
イ画面上に強調表示することによって、操作者に知らせ
るようにしてもよい。

【００３５】なお、上記第１の実施例では、特に説明し
なかったが、表記が不統一な単語を検出した後、自動的
に表記を統一することなども容易に実現できる。そのた
めの方法としては、表記タイプ分け辞書１中に各グルー
プ毎に最も推奨されるタイプを予め定めて格納してお
き、不統一なタイプの表記が検出されたとき該予め定め
られたタイプの表記に統一するようにしてもよいし、各
グループ毎に属するタイプの出現頻度をカウントし、最
も出現頻度の高いタイプに表記を統一するようにしても
よい。

【００３６】以上説明したように、本発明の第１の実施
例によると、単語毎の表記不統一を検出するだけではな
く、異なる単語間にわたる表記の不統一をも検出するこ
とが可能となり、また、必要に応じて強調表示すること
や、自動的に表記を統一するようなことも可能になる。

【００３７】次に、本発明の第２の実施例として、日本
語のワードプロセッサに本発明を適用した例を詳細に説
明する。図１２は、本発明の第２の実施例におけるハー
ドウェア構成図を示す。図１２において、１は表記タイ
プ分け辞書、２は異表記辞書、３はメモリ、４は入出力
装置、５はＣＰＵで図１に示した第１の実施例のものと
同様の構成である。第１の実施例と異なる点は、メモリ
３内に変換候補テーブル３５、出現タイプテーブル３６
を設けた点とかな漢字変換辞書６を設けた点である。

【００３８】かな漢字変換辞書６は、平仮名の列を見出
し語とし、見出し語のように読む単語を変換候補として
対応付けたものである。かな漢字変換辞書６の一例を図
１３に示す。図１３において、（ソ）は見出し語となる
かな文字列であり、（ツ）は見出し語のように読む単語
を変換候補として対応付けた表記であり、（ネ）はその
品詞であり、（ナ）は異表記フラグである。通常、見出
し語となる１つの平仮名列に対し、複数の単語が対応す
ることが多々ある。例えば、図１３に示した例で説明す
ると、「の」という平仮名の見出し語に対しては、「私
の本」の「の」および「山や野に」の「野」の２つが対
応している。このような曖昧性を解消するため、従来の
ワードプロセッサでは、見出し語に対応する単語毎に品
詞などの文法的情報を持たせたり、あるいは、意味的情
報や統計的情報を利用することが行われている。

【００３９】かな漢字変換処理については、例えば、
「日本語情報処理」（長尾真監修、電子情報通信学会、
PP.62-75 １９８８）などに述べられている方法を用い
ることができる。ここでは、従来のかな漢字変換処理の
方法を簡単に説明する。かな漢字変換処理は、かなによ
る入力を単語単位に分割する処理および各単語を該当す
る漢字に変換する処理からなる。かなによる入力を単語
に分割する処理は、先に説明した単語分割・形態素解析
処理と同様である。ただし、入力文がかなで書かれてい
るので、字種の違う部分が単語分割の候補となるという
経験則が利用できないため処理が若干困難になる。各単
語を該当する漢字に変換する処理においては、特に同音
異義語が存在する場合が問題となる。同音異義語の中か
ら正しい漢字を選択する方法には、形態情報、構文情
報、意味情報を利用する方法などがある。これらの情報
を用いても曖昧性が残る場合には、複数の候補を表示し
てユーザに選択させる方法が取られる。

【００４０】また、本発明で用いるかな漢字変換辞書で
は、異表記を持つ単語を区別するために、異表記フラグ
を持っている。異表記フラグが１である単語は、異表記
を持ち、その異表記は異表記辞書２から得られる。図１
３に示したかな漢字変換辞書の例では、「かきこみ」と
いうかな文字列に対して、「書き込み」というかな漢字
の列が変換候補として対応付けられている。また、この
単語は「書込み」という異表記を持っているため、異表
記フラグが１になっている。また、この例では「か
ら」、「と」および「の」という文字列は、複数の変換
候補と対応付けられている。

【００４１】変換候補テーブル３５は、かな文字を単語
に分割した結果の各単語毎に、辞書引き・文法的接続チ
ェックなどを行った結果得られる変換漢字の候補を格納
するものである。変換候補テーブル３５の例を図１４に
示す。図１４において、（ラ）は単語番号、（ム）は見
出し語となるかな文字列であり、（ウ）は表記であり、
（ノ）は優先度であり、（オ）は異表記フラグである。
例えば、「ふぁいる」に対しては、「ファイル」が変換
候補テーブル３５に格納される。また、「の」に対して
は「の」および「野」が格納される。また、複数の候補
が存在する場合には、意味的な制約などにより優先度が
与えられ、優先度の最も高いものを変換結果として選択
するようにしている。

【００４２】また、異表記を持つ単語については、異表
記辞書２を検索して、異表記を候補として格納する。図
１４の例では、「かきこみ」は異表記を持っているの
で、異表記辞書２が検索され「書き込み」および「書込
み」の両方が変換候補テーブル３５に格納される。出現
タイプテーブル３６は、ある時点までに出現した異表記
を持つ語に対して、どのタイプの表記が選択されたかを
グループ毎に示したものである。出現タイプテーブルの
例を図１５に示す。図１５において、（ク）はグループ
名であり、（ヤ）はそのグループにおける出現タイプで
ある。例えば、図１５の例では、グループＡの表記に対
して、タイプＡ１の表記が選択され、グループＢの表記
に対して、タイプＢ２の表記が選択されていることを示
している。

【００４３】次に、「ふぁいるへのかきこみとふぁいる
からのよみこみ」という平仮名列を「ファイルへの書き
込みとファイルからの読み込み」というかな漢字混じり
文に変換する場合の例を説明する。図１６に示すフロー
チャートを用いて、全体の処理を以下に説明する。先
ず、ステップ２１において、入力文をかな漢字変換辞書
・品詞接続行列などを用いて、単語分割し、品詞接続チ
ェックなどを行う。単語分割結果は、変換候補テーブル
３５に格納される。ここでは、入力文が「ふぁいる｜へ
｜の｜かきこみ｜と｜ふぁいる｜から｜の｜よみこみ」
というように単語分割されている。また、文法的情報に
よって、可能性の低い変換候補の優先度が低くなってい
る。以上の処理は、上述した方法を用いて実現すること
ができるので説明は省略する。

【００４４】次に、ステップ２２において、分割して得
られた全ての単語について、ステップ２３以降の処理を
終了したか否かを調べ、終了していなければステップ２
３に進み、終了していれば処理を終了する。ステップ２
３では、未処理の単語を１つ取りだす。次のステップ２
４では、取りだした単語に異表記があるかどうかを調べ
る。異表記があるかどうかは、異表記フラグを参照する
ことで分かる。異表記フラグが１ならばステップ２５に
進み、異表記フラグが０ならばステップ２６に進む。上
の例では、「よみこみ」および「かきこみ」が異表記フ
ラグが１の単語である。ステップ２５で異表記を持つ単
語について表記統一処理を行い、ステップ２６に進む。
ステップ２５での処理の詳細は図１７のフローチャート
を用いて後述する。ステップ２６で変換候補テーブル中
で優先度の最も高い単語を正しい変換結果として表示
し、その後、ステップ２２に戻る。ステップ２６での処
理の詳細は図１８のフローチャートを用いて後述する。

【００４５】次に、ステップ２５における表記統一処理
を図１７のフローチャートを用いて説明する。先ず、ス
テップ２５１において、異表記辞書２を参照して、この
単語の異表記を全て得る。得られた異表記を変換候補テ
ーブル３５に格納する。この例では、最初は、「かきこ
み」を変換する際に、「書き込み」および「書込み」と
いう異表記を得てこれを変換候補テーブル３５に格納す
る。この際、各異表記の優先度は全て０を設定する。続
いて、「よみこみ」を変換する際に、「読み込み」およ
び「読込み」という表記を得て、変換候補テーブル３５
に格納する。次のステップ２５２で、全ての異表記につ
いてステップ２５３以降の処理を終了したか否かを調
べ、終了していなければステップ２５３に進み、終了し
ていれば処理を終了する。ステップ２５３では、表記を
１つ取り出す。最初、「かきこみ」を処理する際には、
「書き込み」および「書込み」が、次に「よみこみ」を
処理する際には、「読み込み」および「読込み」が順に
取り出される。

【００４６】次のステップ２５４で、取り出した表記が
表記を統一すべきグループの表記であるか否かかを調べ
る。これは、出現タイプテーブル３６中にこの表記のグ
ループと同じグループがあるかどうかを調べることで分
かる（図１５参照）。調べた結果、統一すべきグループ
の表記ならばステップ２５５に進む。そうでなければス
テップ２５２に戻る。今の例では、最初、「かきこみ」
を処理する際には、出現タイプテーブルが空なのでステ
ップ２５２に戻る。次に、「よみこみ」を処理する際に
は、出現タイプテーブルにグループＡ、タイプＡ１が格
納されているのでステップ２５５に進む。

【００４７】ステップ２５５では、既に出現したタイプ
の表記であるかどうかを調べる。出現済みのタイプの表
記であれば、ステップ２５２に戻り、まだ出現していな
い表記であればステップ２５６に進む。今の例では、
「よみこみ」を処理する際に、表記が「読み込み」の場
合には、タイプＡ１で既に出現済みのタイプの表記であ
るのでステップ２５２に戻る。一方、表記が「読込み」
の場合には、まだ出現していない表記なのでステップ２
５６に進む。ステップ２５６において、変換候補テーブ
ル中の優先度を１下げる。この後、ステップ２５２に戻
る。今の例では、表記「読込み」の優先度を１下げる。

【００４８】次に、ステップ２６の変換結果表示・候補
選択処理を図１８に示すフローチャートを用いて詳細に
説明する。先ず、ステップ２６１において、変換候補テ
ーブル中の変換候補を優先度が高い順にかな漢字変換結
果として表示する。表示する方法としては、複数の候補
を一度に表示するような方法でもよいし、最も優先度の
高い候補を表示し、特定のキーを押すと次の候補を順次
表示するような方法でもよい。次のステップ２６２で
は、検索された全ての候補の中から、いずれか１つの表
記をユーザに選択させる。例えば、最初の多表記語「か
きこみ」に対し、ユーザが「書き込み」という表記を選
択したとする。

【００４９】次のステップ２６３では、ユーザによって
選択された候補が多表記語かどうかを調べる。これは、
変換候補テーブル３５中の異表記フラグ（オ）を参照す
ることによって実現できる。多表記語ならばステップ２
６４に進み、多表記語でなければ処理を終了する。ステ
ップ２６４では、ユーザが選択した単語の表記のグルー
プとタイプを得る。例えば、「かきこみ」に対し、ユー
ザが「書き込み」を選択した場合には、グループＡ、タ
イプＡ１が得られる。

【００５０】次のステップ２６５では、得られたグルー
プが出現タイプテーブル３６中に存在するかどうかを調
べ、存在すればステップ２６６に進み、存在しなければ
ステップ２６８に進む。例えば、「かきこみ」に対し、
ユーザが「書き込み」を選択した場合には、出現タイプ
テーブル３６は空であるので、ステップ２６８に進む。
ステップ２６６では、ユーザが選択した表記のタイプが
出現タイプテーブル３６中に存在するかどうかを調べ、
存在しなければステップ２６７に進み、存在すれば処理
を終了する。

【００５１】ステップ２６７では、ステップ２６５で得
られたグループの出現タイプをユーザが選択した表記の
タイプで置き換える。ステップ２６８では、ステップ２
６４で得られたグループとタイプを出現タイプテーブル
３６に設定する。例えば、「かきこみ」に対し、ユーザ
が「書き込み」を選択した場合には、グループＡ、タイ
プＡ１が出現タイプテーブルに設定される。

【００５２】以上説明した第２の実施例では、かな漢字
変換処理において、既に入力した異なる単語の情報を利
用して、別の単語の表記を適切に選択するようにするこ
とが可能になる。なお、第２の実施例では、最も最近に
選択されたタイプの表記を優先するように実施例を記述
してあるが、他の方法、例えば、それまでに最も多く選
択された表記を優先するように処理を変更することもで
きる。そのためには、出現タイプテーブル３６上に、さ
らに、各タイプの出現頻度を格納するエリアを設けて出
現頻度を格納しておき、ステップ２５５および２５６に
おいて、最も頻度の高いタイプの表記以外であれば、優
先度を１下げるように処理を変更すればよい。

【００５３】

【発明の効果】本発明によれば、複数の表記を持つ単語
について、全ての表記を参照できるだけではなく、単語
の表記をタイプ分けすることにより、異なる単語が同じ
タイプの表記を共通して持つ場合に、異なるタイプの表
記が採用されていたときには、表記が不統一であると判
定することにより、各単語毎ではなく、異なる単語間に
おける表記の不統一を検出し、表記を統一することがで
きる。

【図面の簡単な説明】

【図１】本発明の第１の実施例のハードウェア構成図で
ある。

【図２】表記タイプ分け辞書の概念図である。

【図３】異表記辞書の概念図である。

【図４】異表記バッファの概念図である。

【図５】単語分割テーブルの概念図である。

【図６】禁止タイプテーブルの概念図である。

【図７】表記不統一テーブルの概念図である。

【図８】本発明の第１の実施例の全体のフローチャート
である。

【図９】異表記辞書情報の複写処理のフローチャートで
ある。

【図１０】表記不統一検出処理のフローチャートであ
る。

【図１１】表記不統一単語位置決定処理のフローチャー
トである。

【図１２】本発明の第２の実施例のハードウェア構成図
である。

【図１３】かな漢字変換辞書の概念図である。

【図１４】変換候補テーブルの概念図である。

【図１５】出現タイプテーブルの概念図である。

【図１６】本発明の第１の実施例の全体のフローチャー
トである。

【図１７】表記不統一処理のフローチャートである。

【図１８】変換結果表示・候補選択処理のフローチャー
トである。

【符号の説明】

１表記タイプ分け辞書２異表記辞書３メモリ４入出力装置５ＣＰＵ６かな漢字変換辞書３１異表記バッファ３２単語分割テーブル３３禁止タイプテーブル３４表記不統一テーブル３５変換候補テーブル３６出現タイプテーブル

Claims

【特許請求の範囲】

【請求項１】テキスト中に出現する単語の表記が不統
一であることを検出する表記不統一検出方法において、
該表記不統一検出方法は、少なくとも、テキスト中に出
現する単語が異表記を持つか否かを判定するステップ
と、各単語の異表記をタイプ分けするステップと、同じ
タイプの表記を持つ単語がテキスト中で同じタイプで表
記されていないことを検出するステップを有することを
特徴とする表記不統一検出方法。
【請求項２】テキスト中に出現する単語の表記が不統
一であることを検出する表記不統一検出方法において、
該表記不統一検出方法は、複数の表記を持つ単語の異表
記を格納した異表記辞書と、様々な表記のタイプ分けを
格納した表記タイプ分け辞書と、処理対象テキストに出
現した多表記語の全ての表記とそれがテキスト中に出現
したか否かをしめす出現フラグを格納する異表記バッフ
ァ、処理対象テキストを単語分割した結果を格納する単
語分割テーブル、出現すると表記が不統一となる表記の
タイプを禁止タイプとして格納する禁止タイプテーブル
および表記が不統一なグループの名称を格納する表記不
統一テーブルとを有するメモリと、処理対象テキストの
入力および処理結果の出力などを行う入出力装置と、各
種テーブルへの書き込み、読み出し、検索など必要な処
理を行うＣＰＵ（中央処理装置）とを備え、少なくと
も、上記入出力装置から入力された処理対象のテキスト
を単語に分割して上記単語分割テーブルに格納するステ
ップと、該単語分割テーブルに格納されている表記の単
語が上記異表記辞書に存在する場合に該単語の表記およ
び異表記情報を上記異表記バッファに複写するステップ
と、上記異表記バッファの内容、上記禁止タイプテーブ
ル、および上記表記不統一テーブルを用いることによっ
てテキスト中の表記の不統一を検出するステップを有す
ることを特徴とする表記不統一検出方法。
【請求項３】請求項１または２記載の表記不統一検出
方法によってテキスト中の表記が不統一であることが検
出された場合、予め決められたタイプの表記または出現
頻度の最も高いタイプの表記に表記を統一するようにし
たことを特徴とする表記統一方法。
【請求項４】かな文字列を漢字かな混じり列に変換す
るかな漢字変換方法において、該かな漢字変換方法は、
少なくとも、入力されたかな文字列のかな漢字変換結果
の単語が異表記を持つか否かを判定するステップと、各
単語の異表記をタイプ分けするステップと、変換結果の
単語が複数の表記を持つと判定された場合に、それ以前
に選択されたタイプと同じタイプの表記をかな漢字変換
結果として選択するステップを有することを特徴とする
かな漢字変換方法。
【請求項５】かな文字列を漢字かな混じり列に変換す
るかな漢字変換方法において、該かな漢字変換方法は、
複数の表記を持つ単語の異表記を格納した異表記辞書
と、様々な表記のタイプ分けを格納した表記タイプ分け
辞書と、かな漢字変換辞書と、変換候補および変換優先
度を格納した変換候補テーブルおよびそれ以前に選択さ
れたタイプを格納した出現タイプテーブルとを有するメ
モリと、処理対象テキストの入力および処理結果の出力
などを行う入出力装置と、各種テーブルへの書き込み、
読み出し、検索など必要な処理を行うＣＰＵ（中央処理
装置）とを備え、少なくとも、上記入出力装置から入力
されたかな文字列のかな漢字変換結果の単語が異表記を
持つか否かを上記異表記辞書を参照にして判定するステ
ップと、上記表記タイプ分け辞書を用いて各単語の異表
記をタイプ分けするステップと、変換結果の単語が複数
の表記を持つと判定された場合に、上記変換候補テーブ
ルと上記出現タイプテーブルを用いて、それ以前に選択
されたタイプと同じタイプの表記をかな漢字変換結果と
して選択するステップを有することを特徴とするかな漢
字変換方法。