JPH0785040A - 表記不統一検出方法およびかな漢字変換方法 - Google Patents

表記不統一検出方法およびかな漢字変換方法

Info

Publication number
JPH0785040A
JPH0785040A JP5227146A JP22714693A JPH0785040A JP H0785040 A JPH0785040 A JP H0785040A JP 5227146 A JP5227146 A JP 5227146A JP 22714693 A JP22714693 A JP 22714693A JP H0785040 A JPH0785040 A JP H0785040A
Authority
JP
Japan
Prior art keywords
notation
word
type
different
kana
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5227146A
Other languages
English (en)
Inventor
Yasutsugu Morimoto
康嗣 森本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5227146A priority Critical patent/JPH0785040A/ja
Publication of JPH0785040A publication Critical patent/JPH0785040A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 テキスト中の異表記を検出する方法を提供す
ること。 【構成】 複数の表記を持つ単語の異表記を格納した異
表記辞書2と、表記のタイプ分けを格納した表記タイプ
分け辞書1と、テキストに出現した多表記語の全ての表
記を格納する異表記バッファ31、テキストを単語分割
した結果を格納する単語分割テーブル32、禁止タイプ
を格納する禁止タイプテーブルおよび表記不統一のグル
ープの名称を格納する表記不統一テーブルを有するメモ
リ3と、入出力装置4と、必要な処理を行うCPU5を
有し、テキストを単語に分割して単語分割テーブルに格
納し、該単語分割テーブルに格納されている単語が異表
記辞書に存在する場合に該単語の表記および異表記情報
を異表記バッファに複写し、異表記バッファ、禁止タイ
プテーブル、表記不統一テーブルを用いてテキスト中の
表記の不統一を検出する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、テキストの編集中ある
いはテキストの編集後において、複数の異なる多表記語
間での表記の不統一を検出する方法、および入力された
かな漢字を統一したタイプの表記の単語に変換するかな
漢字変換方法に関する。
【0002】
【従来の技術】日本語のテキスト中の単語の中には、同
じ意味でありながら複数の異なる表記を持つ単語が多数
存在する。例えば、「書き込み」という単語には「書込
み」という異なる表記が存在する。以下、このような場
合、一方は他方の異表記であるという。また、このよう
な複数の表記を持つ単語を多表記語と呼ぶ。このような
多表記語は、読み易さなどの点から考えて、同一テキス
ト中ではいずれか一つの表記に統一されていることが望
ましい。しかし、複数の人間が作成したテキストを一つ
のテキストに合成する場合や1人で作成したときでもテ
キストが膨大になる場合には表記が統一しないことが多
い。同一テキスト中の表記を統一する従来方法として、
例えば、特開平3−129463号公報に記載されてい
るように、各多表記語毎に表記の不統一を検出し、ま
た、それに基づいて表記を統一する方法がある。
【0003】
【発明が解決しようとする問題点】しかし、上記従来方
法には次のような問題点があった。すなわち、上記従来
方法は、各多表記語毎に表記の不統一を検出し、表記を
統一することに主眼をおいたものであった。例えば、
「書き込み」と「書込み」という複数の表記を持つ多表
記語が処理対象テキスト中に存在した場合、「書き込
み」と「書込み」のいずれか一方の表記に統一すること
だけを目的としていた。しかし、類似した異表記を持つ
異なる複数の多表記語が存在する場合、そのテキストを
読むときの読み易さ、そのテキストを検索の対象にする
ときのキーワード選択などを考えると、異なる複数の多
表記語間においても表記を統一した方がよいことは明ら
かである。
【0004】例えば、同一テキスト中に「書き込み」と
「書込み」という表記を持つ多表記語と、「読み込み」
と「読込み」という表記を持つ多表記語が存在したとす
る。このとき、「書き込み」と「書込み」という表記を
持つ多表記語を「書き込み」という表記に統一した場合
には、同一テキスト中においては「読み込み」と「読込
み」という表記を持つ多表記語においても「書き込み」
と同種の「読み込み」という表記に統一することが望ま
しい。しかし、上記従来方法では、各多表記語毎に独立
に表記の不統一を検出し、それに基づいて表記を統一す
る処理を行っていたため、一方の多表記語を「書き込
み」という表記に統一したときに、他方の多表記語とし
て「読み込み」という表記に統一した方がよいという判
断をすることができなかった。そのため、一方の多表記
語を「書き込み」に統一した場合に、他方の多表記語を
同種の「読み込み」に統一するのではなく、異種の「読
込み」に統一してしまうことを防ぐことができなかっ
た。このように、従来の方法は、個々の多表記語の表記
は統一することはできるが、異なる多表記語間にわたっ
て表記の不統一を検出し、それに基づいてテキスト全体
にわたって複数の多表記語間の表記を統一することがで
きないという問題点を有していた。また、入力装置から
かな文字を入力しかな漢字変換によってかな漢字混じり
文を作成する場合にも操作者が特別な注意を払わなくて
は表記を統一することができなかった。本発明の目的
は、上記問題点を解消し、異なる複数の多表記語間にわ
たって表記の不統一を検出する方法、および、かな漢字
変換を利用してかな漢字混じり文を作成する場合にも表
記を簡単に統一できるようにする方法を提供することに
ある。
【0005】
【課題を解決するための手段】本発明は、上記の問題点
を解決するために、テキスト中に出現する単語の表記が
不統一であることを検出する表記不統一検出方法におい
て、少なくとも、テキスト中に出現する単語が異表記を
持つか否かを判定するステップと、各単語の異表記をタ
イプ分けするステップと、同じタイプの表記を持つ単語
がテキスト中で同じタイプで表記されていないことを検
出するステップとを有していることを特徴としている。
また、表記が不統一であることが検出された場合に、予
め決められたタイプの表記または出現頻度の最も高いタ
イプの表記に表記を統一するステップを有することを特
徴としている。さらに、かな文字列を漢字かな混じり列
に変換するかな漢字変換方法において、少なくとも、入
力されたかな文字列のかな漢字変換結果の単語が異表記
を持つか否かを判定するステップと、各単語の異表記を
タイプ分けするステップと、変換結果の単語が複数の表
記を持つと判定された場合に、それ以前に選択されたタ
イプと同じタイプの表記をかな漢字変換結果として選択
するステップを有することを特徴としている。
【0006】
【作用】本発明は、上記表記不統一検出方法によって、
複数の表記を持つ単語について、同じタイプの表記を持
つ単語が異なるタイプの表記で記述されている場合に、
表記が不統一であると判定でき、それによって異なる単
語間の表記の不統一を検出することができる。また、上
記表記統一方法を用いることによって予め決められたタ
イプや出現頻度の高いタイプに表記を統一することが可
能となる。さらに、上記かな漢字変換方法を用いると、
表記が統一されたかな漢字混じり文を作成することがで
きる。
【0007】
【実施例】本発明の第1の実施例を詳細に説明する。第
1の実施例は、バッチ型の表記不統一検出システムに適
用した場合の例である。図1は、本発明の第1の実施例
を適用した表記不統一検出システムのハードウェア構成
図を示すものである。図1において、1は表記タイプ分
け辞書、2は異表記辞書、3はメモリ、4は入出力装
置、5はCPU(中央処理装置)である。以下、各構成
について説明する。
【0008】表記タイプ分け辞書1は、様々な表記のタ
イプ分けを格納したものである。表記のタイプ分けと
は、異表記の発生の仕方の共通点に着目し、異表記を分
類したものである。例えば、「動詞の連用形+動詞」の
タイプの複合動詞は多くの場合に共通した異表記を持っ
ている。例えば、「書き込む」という単語は、「書込
む」という異表記を持っているが、同様に「読み込
む」、「受け取る」および「受け渡す」といった複合動
詞は、それぞれ「読込む」、「受取る」および「受渡
す」といった異表記を持っている。これらは、最初の動
詞の送り仮名を省略するかどうかが異なるという点で共
通している。そこで、例えば、送り仮名を省略しない表
記をタイプA1、送り仮名を省略する表記をタイプA2
とし、このようなタイプの表記をグループAとする。
【0009】また、他の異表記として、送り仮名に揺れ
があるタイプの異表記がある。例えば、「分かる」およ
び「起こす」といった単語は、「分る」および「起す」
と表記することが可能である。前者のタイプの表記をタ
イプB1、後者のタイプの表記をタイプB2とし、この
ようなタイプの表記をグループBとする。他にも、「レ
ーザー」と「レーザ」、「レーダー」と「レーダ」のよ
うに最後の長音がある表記とない表記、「或は」と「あ
るいは」、「又は」と「または」のような漢字で書く表
記と平仮名で書く表記のような異表記が存在する。この
ように、共通する表記をタイプ分けし、互いに異表記と
なるタイプの表記を1つのグループと考える。
【0010】次に、表記タイプ分け辞書1の概念図の例
を図2に示す。図2に示されているように、表記タイプ
分け辞書1はグループ(イ)とそのグループに存在する
タイプ(ロ)を記述したものである。例えば、図2の例
では、グループAの単語が、「読み込み」、「書き込
み」のようなタイプA1の異表記と、「読込み」、「書
込み」のようなタイプA2の異表記からなることを示
し、また、グループBの単語が、「分かる」、「起こ
す」のようなタイプB1の異表記と、「分る」、「起
す」のようなタイプB2の異表記からなることを示して
いる。
【0011】図1中の異表記辞書2は、複数の表記を持
つ単語の異表記を記述したものである。異表記辞書2の
例を図3に示す。異表記辞書2は異表記を持つ単語の複
数の表記を単語毎に関連付けて格納するもので、異表記
辞書中の番号(ハ)、表記の文字列である見出し語
(ニ)、各見出し語の表記のタイプ(ホ)、関連する異
表記の番号(ヘ)からなっている。例えば、図3に示し
た例では、1番目の表記の見出し語文字列は「書き込
み」で、タイプがA1であり、この表記の異表記が2番
の表記すなわち「書込み」であることを示している。2
番目の表記の見出し語文字列が「書込み」で、タイプが
A2であり、この表記の異表記が1番目の表記すなわち
「書き込み」であることを示している。また、10番目
の表記の見出し語文字列は「書き下ろし」で、タイプが
A1かつB1であり、この表記の異表記が10番目の表
記「書き下し」、11番目の表記「書下ろし」および1
2番目の表記「書下し」であることを示している。
【0012】図1中のメモリ3には、異表記バッファ3
1、単語分割テーブル32、禁止タイプテーブル33、
表記不統一テーブル34などが格納されている。異表記
バッファ31は、処理対象テキストに出現した多表記語
の全ての表記を格納するものである。異表記バッファ3
1の例を図4に示す。異表記バッファ31は、異表記バ
ッファ中の番号(ト)、見出し語(チ)、異表記辞書中
の番号(リ)、各表記が処理対象テキスト中に出現した
かどうかを示す出現フラグ(ヌ)、各表記のタイプ
(ル)からなっている。例えば、図4の例では、1番目
の表記は「読み込み」で、これが異表記辞書中では3番
目に存在していることを示している。また、出現フラグ
が1なので、この表記が処理対象テキスト中に出現して
おり、そのタイプがA1であることを示している。ま
た、3番目の表記は「分かる」で、異表記辞書中の5番
目に存在しており、出現フラグが1なのでこの表記は処
理対象テキスト中に出現しているが、4番目の表記「分
る」は、異表記辞書中の6番目に存在しているが、出現
フラグは0なので処理対象テキスト中に存在しないこと
を示している(テキスト中には「分かる」という表記し
か存在しない)。
【0013】単語分割テーブル32は、処理対象テキス
トを単語分割した結果を格納するものであり、見出し語
(ヲ)と出現位置(ワ)から構成されている。単語分割
テーブル32の例を図5に示す。図5の例は、「読み込
み」という単語が処理対象テキスト中の46バイト、7
7バイトおよび99バイトの位置に出現していることを
表している。
【0014】禁止タイプテーブル33は、出現すると表
記が不統一となる表記のタイプを禁止タイプとして格納
するものである。禁止タイプは、多表記語が出現したと
きに、その表記を含むグループの別の表記のタイプであ
る。禁止タイプテーブル33は、禁止タイプテーブル中
の番号(カ)とタイプ名(ヨ)からなる。禁止タイプテ
ーブル33の例を図6に示す。図6の例は、タイプA1
の表記が見つかった直後の禁止タイプテーブルを示して
いる。すなわち、タイプA1の表記はグループAに含ま
れることが表記タイプ分け辞書1から分かる。そして、
グループA中で、出現したタイプA1以外のタイプとし
て、タイプA2が禁止タイプテーブル33に格納され
る。この後、もしタイプA2の表記が見つかればこれら
は禁止タイプであるので、表記に不統一があることが分
かる。
【0015】表記不統一テーブル34は、表記が不統一
なグループの名称を格納するテーブルであり、表記不統
一テーブル中の番号(タ)とグループ名(レ)からな
る。表記不統一テーブル34の例を図7に示す。図7の
例では、グループAの表記が不統一であること、すなわ
ち、処理対象テキスト中にタイプA1、A2の表記が混
在していることが分かる。4は入出力装置であり、処理
対象テキストの入力、処理結果の出力などを行う装置で
ある。5はCPUであり、各種テーブルへの書き込み、
読み出し、検索など必要な全ての処理を行う。
【0016】次に、図8に示す処理フローに従って、全
体の処理を説明する。先ず、ステップ11において、処
理対象テキストを単語分割し、その単語とその単語が現
れているテキスト中のバイト位置を、単語分割テーブル
32の見出し語(ヲ)と出現位置(ワ)の欄に格納す
る。単語分割の方法としては、例えば、「日本語情報処
理」(長尾真監修、電子情報通信学会、pp.86-113、1
988)、特開昭58−40684号公報、特開昭59
−121574号公報に記載されている方法がある。日
本語のような単語間にスペースを設けないでべた書きさ
れる言語の場合、文を単語単位に分割する方法として形
態素解析(morphological analysis)が知られている。
形態素解析については、例えば、上述した「日本語情報
処理」(長尾真監修、電子情報通信学会、pp.86-113、
1988)に述べられている方法を用いることができ
る。以下に、日本語の形態素解析の方法について簡単に
説明しておく。日本語のような分かち書きされない言語
においては、文字列から単語を切り出す処理を行い、さ
らに接辞や屈折形を同定する処理を行う。ここでは、日
本語の形態素解析の方法として最長一致法を例として簡
単に述べる。
【0017】例えば、「試験のために勉強する」という
文字列があったとする。また、辞書には「試験」、
「の」、「た」、「め」、「に」、「ため」、「勉強す
る」という単語が格納されていたとする。日本語形態素
解析は、このとき、与えられた文字列の部分文字列を単
語と対応付けることによって、与えられた文字列を「試
験|の|ため|に|勉強する(終止形)」のような単語
列に分割することを基本としている。しかし、一般に、
与えられた文字列を単に辞書中に存在する単語に置き換
えるだけでは、得られる分割の仕方に曖昧性が発生す
る。例えば、「ため」という文字列は「た」(他、
田)、「め」(目、芽)という辞書中の単語を使って複
数の方法で分割することもできる。そこで、この曖昧性
を解消するために、様々な方法が取られる。例えば、隣
接する単語間の文法的制約や字種に関する経験則(例え
ば、同じ種類の単語が続いていると1つの単語の可能性
が高いなど)などが用いられる。最長一致法というの
は、一つの部分文字列が他の部分文字列の一部であると
きは、より長い方の部分文字列を一つの語と考える方が
正しい可能性が高いという経験則に基づくものである。
【0018】上記の文字列の場合の処理は次のようにし
て実行される。先ず、文字列の先頭から取った部分文字
列をキーとして辞書を検索する。そして、辞書中に存在
した部分文字列の中で最も長いものを単語の候補とす
る。上記の例の場合には、最初に「試験」が単語の候補
として得られる。次に、「試験」を取り除いた「のため
に勉強する」の先頭から同様の処理を行う。これによ
り、「の」が候補として得られる。次に、「ために勉強
する」の先頭から同様の処理を行うと、辞書中に存在す
る部分文字列としては「た」と「ため」の2つがある
が、より長い方を優先するため、「ため」が候補として
得られる。このように複数の部分文字列が可能な場合に
は、単語候補として選ばれた候補以外のものも記憶して
おき処理が失敗した時点でバックトラックするようにし
て、最終的に正しい解を得るようにしている。
【0019】テキスト中の全ての単語について上記ステ
ップ11の処理を終了した後、ステップ12において、
単語分割テーブル32中の全ての見出し語(ヲ)につい
てステップ13以下の処理を実行したか否かを判定し、
単語分割テーブル32中の全ての見出し語(ヲ)につい
て処理を終了していればステップ18に進み、処理して
いない単語が残っていた場合にはステップ13に進む。
【0020】ステップ13において単語分割テーブル3
2から未処理単語を1つ取り出し、ステップ14で異表
記バッファ31を検索してステップ13で取り出した単
語と同じ単語を見出し語に持つレコード(一連のデータ
の組。ここでは、図4に示されている異表記バッファ3
1の一行分のデータの組に相当)が存在するかどうかを
判定する。ステップ14の判定の結果、存在すればステ
ップ15に進み、存在しなければステップ16に進む。
ただし、異表記バッファ31には最初は何も格納されて
いないものとする。ここで、「読み込み」という単語ま
で、異表記を持つ単語が存在しなかったとする。このと
き「読み込み」という単語がステップ13で取り出され
ると、異表記バッファ31が空であるため、ステップ1
6に進む。なお、その後、ステップ13において「読込
み」という単語が取り出された場合には、異表記バッフ
ァ31の見出し語(チ)中にこの表記が既に存在するの
でステップ15に進む。ステップ15では、上記のステ
ップ14で見つけた異表記バッファ31中のレコードの
出現フラグ(ヌ)を1にした後、ステップ12に戻る。
【0021】ステップ16では、異表記辞書2を検索
し、異表記辞書2中にステップ13で取り出した単語と
同じ単語を見出し語に持つレコードが存在するかどうか
を判定する。ステップ16の判定の結果、対応するレコ
ードが異表記辞書2中に存在すればステップ17に進
み、存在しなければステップ12に戻る。今の場合、ス
テップ13で「読み込み」が取り出されたとき、異表記
辞書2中にこの表記が存在するので、ステップ17に進
み、異表記辞書2からステップ13で取り出された単語
およびその全ての異表記に関する情報を異表記バッファ
31に複写する。また、ステップ13で取り出された単
語については出現フラグを1にし、その異表記について
は出現フラグを0にする。例えば、ステップ13で「読
み込み」が取り出された場合には、この単語の異表記
「読み込み」、「読込み」に関する情報が複写される。
また、「読み込み」の出現フラグは1に、「読込み」の
出現フラグは0になる。本ステップ17は、図9のフロ
ーチャートを用いて後で詳細に説明する。ステップ17
の処理後に、ステップ12に戻る。
【0022】その後、ステップ13において新たに「読
込み」という単語が取り出された場合には、異表記バッ
ファ31の見出し語(チ)中にこの表記が既に存在する
のでステップ15に進む。ステップ15では、上記のス
テップ14で見つけた異表記バッファ31中のレコード
の出現フラグ(ヌ)を1にした後、ステップ12に戻
る。
【0023】ステップ12で全ての単語を処理したとい
う判定の場合は、ステップ18に進み、異表記バッファ
31中で、表記が不統一となっている単語を検出する。
本ステップ18は、後に図10のフローチャートを用い
て詳細に説明する。
【0024】次に、図9に示すフローチャートを用い
て、ステップ17における異表記辞書情報の異表記バッ
ファへの複写処理を詳細に説明する。先ず、ステップ1
71では、図8のステップ16で検索された見出し語と
その異表記辞書2中におけるレコードの番号、タイプを
異表記バッファに複写し、出現フラグの欄(ヌ)を1に
する。次に、ステップ172において、検索されたレコ
ードの異表記番号欄(ヘ)を参照し、その単語の異表記
であるレコードを全て得る。
【0025】ステップ173では、全ての異表記レコー
ドに対して後述するステップ174の処理が終了したか
否かを判定し、処理が終了していれば終了し、残りのレ
コードがあればステップ174に進む。ステップ174
では、未処理のレコードを1つ取り出し、そのレコード
の見出し語、異表記辞書中の番号、タイプを異表記バッ
ファの対応する欄(チ)、(リ)、(ル)に複写し、出
現フラグの欄(ヌ)を0にする。
【0026】次に、図10に示すフローチャートを用い
て、ステップ18における表記不統一検出処理を詳細に
説明する。先ず、ステップ181において、異表記バッ
ファ中の全てのレコードについて下記ステップ182以
下の処理を終了したか否かを判定し、処理が終了してい
ればステップ189に進み、処理が終了していなければ
ステップ182に進む。ステップ182では、異表記バ
ッファ31から、未処理のデータを1レコード取り出
し、その表記のタイプを得る。例えば、処理対象テキス
ト中に「読み込み」および「読込み」という表記が両方
存在した場合には、最初に「読み込み」を含むレコード
が取り出され、次に「読込み」を含むレコードが取り出
される。
【0027】次のステップ183で、取り出されたレコ
ードの出現フラグの欄(ヌ)が1であるかどうか調べ
る。出現フラグが1であればステップ184に進み、0
であればステップ181に戻る。ステップ184では、
表記タイプ分け辞書1を検索して、得られたタイプが属
しているグループを見つける。例えば、最初に「読み込
み」を含むレコードが取り出されたときには、表記のタ
イプがA1なので、属しているグループはAだと分か
る。次に「読込み」が取り出されたときには、表記のタ
イプがA2なので、属しているグループがAだと分か
る。また、「書き下ろし」のような単語が出現している
場合は、AおよびBというように複数のグループが得ら
れる場合もある。次のステップ185では、得られたグ
ループが既に不統一かどうかを調べる。これは、表記不
統一テーブル34を参照することによって実現できる。
表記が不統一なグループならばステップ181に戻る。
まだ表記が統一されていればステップ186に進む。
【0028】ステップ186では、禁止タイプテーブル
33を検索し、ステップ183で得られたタイプが存在
するかどうかを調べ、存在すればステップ187に進
み、存在しなければステップ188に進む。例えば、最
初に「読み込み」を含むレコードが取り出されたときに
は、まだ禁止タイプテーブル33が空なのでステップ1
88に進む。このとき、後述するようにステップ188
で禁止タイプテーブル33にタイプA2が格納される。
従って、次に「読込み」が取り出されたときには、禁止
タイプテーブル33には既にA2が設定されており、か
つ新たに取り出された「読込み」の表記のタイプがA2
なのでステップ187に進む。
【0029】ステップ187では、見つかったグループ
の表記が不統一だと判断し、グループ名を表記不統一テ
ーブル34に格納する。例えば、テキスト中に「読み込
み」と「読込み」という表記が両方存在する場合には、
グループAが不統一であると判定され、表記不統一テー
ブ34にグループ名Aが格納される。
【0030】ステップ188では、見つかったグループ
に属するタイプの内、ステップ182で得られたタイプ
以外のタイプを禁止タイプテーブル33に格納する。例
えば、最初、「読み込み」が取り出された場合、「読み
込み」がタイプA1であるので、禁止タイプテーブルに
は、グループAのタイプA1以外、すなわちタイプA2
を格納する。
【0031】ステップ189では、表記不統一単語のテ
キスト中の単語のバイト位置を得る。そして、例えば、
得られた位置の単語を色調を反転して表示するなど強調
して表示することができる。
【0032】次に、図11に示すフローチャートを用い
て、ステップ189の処理を詳細に説明する。先ず、ス
テップ1891において、表記不統一テーブル34中の
全てのグループがステップ1892以降の処理を終了し
たか否かを判定する。全てのグループが処理を終了した
場合は処理を終了し、未処理のグループが存在している
場合はステップ1892に進む。
【0033】ステップ1892では、表記不統一テーブ
ル34から、不統一なグループ(例えば、グループA)
を1つ取り出す。次のステップ1893では、表記タイ
プ分け辞書1を参照し、上記ステップ1892で取り出
したグループに属するタイプ(例えば、タイプA1、タ
イプA2)を全て取り出す。次のステップ1894で
は、上記ステップ1893で取り出したタイプ(例え
ば、タイプA1、タイプA2)について、ステップ18
95以降の処理を終了したか否かを判定し、終了してい
ないタイプがあればステップ1895に進み、全てのタ
イプについて終了していればステップ1891に戻る。
ステップ1895で未処理のタイプを1つ取り出し、次
のステップ1896において、異表記バッファ31中の
全てのレコードについてステップ1897以降の処理を
終了したか否かを判定する。判定の結果、全てのレコー
ドについて処理が終了していればステップ1894に戻
り、未処理のレコードが残っていればステップ1897
に進む。
【0034】ステップ1897で異表記バッファ31か
ら未処理データを1レコード取りだし、次のステップ1
898において、ステップ1895で取り出したタイプ
とステップ1897で取り出したレコードのタイプが同
じかどうかを調べる。同じタイプならばステップ189
9に進む。違うタイプならばステップ1896に戻る。
ステップ1899において、該レコードから見出し語デ
ータを取りだし、単語分割テーブル32を検索して、取
り出した見出し語と同じ単語の出現位置を得ることがで
きる。このようにして得た単語の出現位置をディスプレ
イ画面上に強調表示することによって、操作者に知らせ
るようにしてもよい。
【0035】なお、上記第1の実施例では、特に説明し
なかったが、表記が不統一な単語を検出した後、自動的
に表記を統一することなども容易に実現できる。そのた
めの方法としては、表記タイプ分け辞書1中に各グルー
プ毎に最も推奨されるタイプを予め定めて格納してお
き、不統一なタイプの表記が検出されたとき該予め定め
られたタイプの表記に統一するようにしてもよいし、各
グループ毎に属するタイプの出現頻度をカウントし、最
も出現頻度の高いタイプに表記を統一するようにしても
よい。
【0036】以上説明したように、本発明の第1の実施
例によると、単語毎の表記不統一を検出するだけではな
く、異なる単語間にわたる表記の不統一をも検出するこ
とが可能となり、また、必要に応じて強調表示すること
や、自動的に表記を統一するようなことも可能になる。
【0037】次に、本発明の第2の実施例として、日本
語のワードプロセッサに本発明を適用した例を詳細に説
明する。図12は、本発明の第2の実施例におけるハー
ドウェア構成図を示す。図12において、1は表記タイ
プ分け辞書、2は異表記辞書、3はメモリ、4は入出力
装置、5はCPUで図1に示した第1の実施例のものと
同様の構成である。第1の実施例と異なる点は、メモリ
3内に変換候補テーブル35、出現タイプテーブル36
を設けた点とかな漢字変換辞書6を設けた点である。
【0038】かな漢字変換辞書6は、平仮名の列を見出
し語とし、見出し語のように読む単語を変換候補として
対応付けたものである。かな漢字変換辞書6の一例を図
13に示す。図13において、(ソ)は見出し語となる
かな文字列であり、(ツ)は見出し語のように読む単語
を変換候補として対応付けた表記であり、(ネ)はその
品詞であり、(ナ)は異表記フラグである。通常、見出
し語となる1つの平仮名列に対し、複数の単語が対応す
ることが多々ある。例えば、図13に示した例で説明す
ると、「の」という平仮名の見出し語に対しては、「私
の本」の「の」および「山や野に」の「野」の2つが対
応している。このような曖昧性を解消するため、従来の
ワードプロセッサでは、見出し語に対応する単語毎に品
詞などの文法的情報を持たせたり、あるいは、意味的情
報や統計的情報を利用することが行われている。
【0039】かな漢字変換処理については、例えば、
「日本語情報処理」(長尾真監修、電子情報通信学会、
PP.62-75 1988)などに述べられている方法を用い
ることができる。ここでは、従来のかな漢字変換処理の
方法を簡単に説明する。かな漢字変換処理は、かなによ
る入力を単語単位に分割する処理および各単語を該当す
る漢字に変換する処理からなる。かなによる入力を単語
に分割する処理は、先に説明した単語分割・形態素解析
処理と同様である。ただし、入力文がかなで書かれてい
るので、字種の違う部分が単語分割の候補となるという
経験則が利用できないため処理が若干困難になる。各単
語を該当する漢字に変換する処理においては、特に同音
異義語が存在する場合が問題となる。同音異義語の中か
ら正しい漢字を選択する方法には、形態情報、構文情
報、意味情報を利用する方法などがある。これらの情報
を用いても曖昧性が残る場合には、複数の候補を表示し
てユーザに選択させる方法が取られる。
【0040】また、本発明で用いるかな漢字変換辞書で
は、異表記を持つ単語を区別するために、異表記フラグ
を持っている。異表記フラグが1である単語は、異表記
を持ち、その異表記は異表記辞書2から得られる。図1
3に示したかな漢字変換辞書の例では、「かきこみ」と
いうかな文字列に対して、「書き込み」というかな漢字
の列が変換候補として対応付けられている。また、この
単語は「書込み」という異表記を持っているため、異表
記フラグが1になっている。また、この例では「か
ら」、「と」および「の」という文字列は、複数の変換
候補と対応付けられている。
【0041】変換候補テーブル35は、かな文字を単語
に分割した結果の各単語毎に、辞書引き・文法的接続チ
ェックなどを行った結果得られる変換漢字の候補を格納
するものである。変換候補テーブル35の例を図14に
示す。図14において、(ラ)は単語番号、(ム)は見
出し語となるかな文字列であり、(ウ)は表記であり、
(ノ)は優先度であり、(オ)は異表記フラグである。
例えば、「ふぁいる」に対しては、「ファイル」が変換
候補テーブル35に格納される。また、「の」に対して
は「の」および「野」が格納される。また、複数の候補
が存在する場合には、意味的な制約などにより優先度が
与えられ、優先度の最も高いものを変換結果として選択
するようにしている。
【0042】また、異表記を持つ単語については、異表
記辞書2を検索して、異表記を候補として格納する。図
14の例では、「かきこみ」は異表記を持っているの
で、異表記辞書2が検索され「書き込み」および「書込
み」の両方が変換候補テーブル35に格納される。出現
タイプテーブル36は、ある時点までに出現した異表記
を持つ語に対して、どのタイプの表記が選択されたかを
グループ毎に示したものである。出現タイプテーブルの
例を図15に示す。図15において、(ク)はグループ
名であり、(ヤ)はそのグループにおける出現タイプで
ある。例えば、図15の例では、グループAの表記に対
して、タイプA1の表記が選択され、グループBの表記
に対して、タイプB2の表記が選択されていることを示
している。
【0043】次に、「ふぁいるへのかきこみとふぁいる
からのよみこみ」という平仮名列を「ファイルへの書き
込みとファイルからの読み込み」というかな漢字混じり
文に変換する場合の例を説明する。図16に示すフロー
チャートを用いて、全体の処理を以下に説明する。先
ず、ステップ21において、入力文をかな漢字変換辞書
・品詞接続行列などを用いて、単語分割し、品詞接続チ
ェックなどを行う。単語分割結果は、変換候補テーブル
35に格納される。ここでは、入力文が「ふぁいる|へ
|の|かきこみ|と|ふぁいる|から|の|よみこみ」
というように単語分割されている。また、文法的情報に
よって、可能性の低い変換候補の優先度が低くなってい
る。以上の処理は、上述した方法を用いて実現すること
ができるので説明は省略する。
【0044】次に、ステップ22において、分割して得
られた全ての単語について、ステップ23以降の処理を
終了したか否かを調べ、終了していなければステップ2
3に進み、終了していれば処理を終了する。ステップ2
3では、未処理の単語を1つ取りだす。次のステップ2
4では、取りだした単語に異表記があるかどうかを調べ
る。異表記があるかどうかは、異表記フラグを参照する
ことで分かる。異表記フラグが1ならばステップ25に
進み、異表記フラグが0ならばステップ26に進む。上
の例では、「よみこみ」および「かきこみ」が異表記フ
ラグが1の単語である。ステップ25で異表記を持つ単
語について表記統一処理を行い、ステップ26に進む。
ステップ25での処理の詳細は図17のフローチャート
を用いて後述する。ステップ26で変換候補テーブル中
で優先度の最も高い単語を正しい変換結果として表示
し、その後、ステップ22に戻る。ステップ26での処
理の詳細は図18のフローチャートを用いて後述する。
【0045】次に、ステップ25における表記統一処理
を図17のフローチャートを用いて説明する。先ず、ス
テップ251において、異表記辞書2を参照して、この
単語の異表記を全て得る。得られた異表記を変換候補テ
ーブル35に格納する。この例では、最初は、「かきこ
み」を変換する際に、「書き込み」および「書込み」と
いう異表記を得てこれを変換候補テーブル35に格納す
る。この際、各異表記の優先度は全て0を設定する。続
いて、「よみこみ」を変換する際に、「読み込み」およ
び「読込み」という表記を得て、変換候補テーブル35
に格納する。次のステップ252で、全ての異表記につ
いてステップ253以降の処理を終了したか否かを調
べ、終了していなければステップ253に進み、終了し
ていれば処理を終了する。ステップ253では、表記を
1つ取り出す。最初、「かきこみ」を処理する際には、
「書き込み」および「書込み」が、次に「よみこみ」を
処理する際には、「読み込み」および「読込み」が順に
取り出される。
【0046】次のステップ254で、取り出した表記が
表記を統一すべきグループの表記であるか否かかを調べ
る。これは、出現タイプテーブル36中にこの表記のグ
ループと同じグループがあるかどうかを調べることで分
かる(図15参照)。調べた結果、統一すべきグループ
の表記ならばステップ255に進む。そうでなければス
テップ252に戻る。今の例では、最初、「かきこみ」
を処理する際には、出現タイプテーブルが空なのでステ
ップ252に戻る。次に、「よみこみ」を処理する際に
は、出現タイプテーブルにグループA、タイプA1が格
納されているのでステップ255に進む。
【0047】ステップ255では、既に出現したタイプ
の表記であるかどうかを調べる。出現済みのタイプの表
記であれば、ステップ252に戻り、まだ出現していな
い表記であればステップ256に進む。今の例では、
「よみこみ」を処理する際に、表記が「読み込み」の場
合には、タイプA1で既に出現済みのタイプの表記であ
るのでステップ252に戻る。一方、表記が「読込み」
の場合には、まだ出現していない表記なのでステップ2
56に進む。ステップ256において、変換候補テーブ
ル中の優先度を1下げる。この後、ステップ252に戻
る。今の例では、表記「読込み」の優先度を1下げる。
【0048】次に、ステップ26の変換結果表示・候補
選択処理を図18に示すフローチャートを用いて詳細に
説明する。先ず、ステップ261において、変換候補テ
ーブル中の変換候補を優先度が高い順にかな漢字変換結
果として表示する。表示する方法としては、複数の候補
を一度に表示するような方法でもよいし、最も優先度の
高い候補を表示し、特定のキーを押すと次の候補を順次
表示するような方法でもよい。次のステップ262で
は、検索された全ての候補の中から、いずれか1つの表
記をユーザに選択させる。例えば、最初の多表記語「か
きこみ」に対し、ユーザが「書き込み」という表記を選
択したとする。
【0049】次のステップ263では、ユーザによって
選択された候補が多表記語かどうかを調べる。これは、
変換候補テーブル35中の異表記フラグ(オ)を参照す
ることによって実現できる。多表記語ならばステップ2
64に進み、多表記語でなければ処理を終了する。ステ
ップ264では、ユーザが選択した単語の表記のグルー
プとタイプを得る。例えば、「かきこみ」に対し、ユー
ザが「書き込み」を選択した場合には、グループA、タ
イプA1が得られる。
【0050】次のステップ265では、得られたグルー
プが出現タイプテーブル36中に存在するかどうかを調
べ、存在すればステップ266に進み、存在しなければ
ステップ268に進む。例えば、「かきこみ」に対し、
ユーザが「書き込み」を選択した場合には、出現タイプ
テーブル36は空であるので、ステップ268に進む。
ステップ266では、ユーザが選択した表記のタイプが
出現タイプテーブル36中に存在するかどうかを調べ、
存在しなければステップ267に進み、存在すれば処理
を終了する。
【0051】ステップ267では、ステップ265で得
られたグループの出現タイプをユーザが選択した表記の
タイプで置き換える。ステップ268では、ステップ2
64で得られたグループとタイプを出現タイプテーブル
36に設定する。例えば、「かきこみ」に対し、ユーザ
が「書き込み」を選択した場合には、グループA、タイ
プA1が出現タイプテーブルに設定される。
【0052】以上説明した第2の実施例では、かな漢字
変換処理において、既に入力した異なる単語の情報を利
用して、別の単語の表記を適切に選択するようにするこ
とが可能になる。なお、第2の実施例では、最も最近に
選択されたタイプの表記を優先するように実施例を記述
してあるが、他の方法、例えば、それまでに最も多く選
択された表記を優先するように処理を変更することもで
きる。そのためには、出現タイプテーブル36上に、さ
らに、各タイプの出現頻度を格納するエリアを設けて出
現頻度を格納しておき、ステップ255および256に
おいて、最も頻度の高いタイプの表記以外であれば、優
先度を1下げるように処理を変更すればよい。
【0053】
【発明の効果】本発明によれば、複数の表記を持つ単語
について、全ての表記を参照できるだけではなく、単語
の表記をタイプ分けすることにより、異なる単語が同じ
タイプの表記を共通して持つ場合に、異なるタイプの表
記が採用されていたときには、表記が不統一であると判
定することにより、各単語毎ではなく、異なる単語間に
おける表記の不統一を検出し、表記を統一することがで
きる。
【図面の簡単な説明】
【図1】本発明の第1の実施例のハードウェア構成図で
ある。
【図2】表記タイプ分け辞書の概念図である。
【図3】異表記辞書の概念図である。
【図4】異表記バッファの概念図である。
【図5】単語分割テーブルの概念図である。
【図6】禁止タイプテーブルの概念図である。
【図7】表記不統一テーブルの概念図である。
【図8】本発明の第1の実施例の全体のフローチャート
である。
【図9】異表記辞書情報の複写処理のフローチャートで
ある。
【図10】表記不統一検出処理のフローチャートであ
る。
【図11】表記不統一単語位置決定処理のフローチャー
トである。
【図12】本発明の第2の実施例のハードウェア構成図
である。
【図13】かな漢字変換辞書の概念図である。
【図14】変換候補テーブルの概念図である。
【図15】出現タイプテーブルの概念図である。
【図16】本発明の第1の実施例の全体のフローチャー
トである。
【図17】表記不統一処理のフローチャートである。
【図18】変換結果表示・候補選択処理のフローチャー
トである。
【符号の説明】
1 表記タイプ分け辞書 2 異表記辞書 3 メモリ 4 入出力装置 5 CPU 6 かな漢字変換辞書 31 異表記バッファ 32 単語分割テーブル 33 禁止タイプテーブル 34 表記不統一テーブル 35 変換候補テーブル 36 出現タイプテーブル

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 テキスト中に出現する単語の表記が不統
    一であることを検出する表記不統一検出方法において、
    該表記不統一検出方法は、少なくとも、テキスト中に出
    現する単語が異表記を持つか否かを判定するステップ
    と、各単語の異表記をタイプ分けするステップと、同じ
    タイプの表記を持つ単語がテキスト中で同じタイプで表
    記されていないことを検出するステップを有することを
    特徴とする表記不統一検出方法。
  2. 【請求項2】 テキスト中に出現する単語の表記が不統
    一であることを検出する表記不統一検出方法において、
    該表記不統一検出方法は、複数の表記を持つ単語の異表
    記を格納した異表記辞書と、様々な表記のタイプ分けを
    格納した表記タイプ分け辞書と、処理対象テキストに出
    現した多表記語の全ての表記とそれがテキスト中に出現
    したか否かをしめす出現フラグを格納する異表記バッフ
    ァ、処理対象テキストを単語分割した結果を格納する単
    語分割テーブル、出現すると表記が不統一となる表記の
    タイプを禁止タイプとして格納する禁止タイプテーブル
    および表記が不統一なグループの名称を格納する表記不
    統一テーブルとを有するメモリと、処理対象テキストの
    入力および処理結果の出力などを行う入出力装置と、各
    種テーブルへの書き込み、読み出し、検索など必要な処
    理を行うCPU(中央処理装置)とを備え、少なくと
    も、上記入出力装置から入力された処理対象のテキスト
    を単語に分割して上記単語分割テーブルに格納するステ
    ップと、該単語分割テーブルに格納されている表記の単
    語が上記異表記辞書に存在する場合に該単語の表記およ
    び異表記情報を上記異表記バッファに複写するステップ
    と、上記異表記バッファの内容、上記禁止タイプテーブ
    ル、および上記表記不統一テーブルを用いることによっ
    てテキスト中の表記の不統一を検出するステップを有す
    ることを特徴とする表記不統一検出方法。
  3. 【請求項3】 請求項1または2記載の表記不統一検出
    方法によってテキスト中の表記が不統一であることが検
    出された場合、予め決められたタイプの表記または出現
    頻度の最も高いタイプの表記に表記を統一するようにし
    たことを特徴とする表記統一方法。
  4. 【請求項4】 かな文字列を漢字かな混じり列に変換す
    るかな漢字変換方法において、該かな漢字変換方法は、
    少なくとも、入力されたかな文字列のかな漢字変換結果
    の単語が異表記を持つか否かを判定するステップと、各
    単語の異表記をタイプ分けするステップと、変換結果の
    単語が複数の表記を持つと判定された場合に、それ以前
    に選択されたタイプと同じタイプの表記をかな漢字変換
    結果として選択するステップを有することを特徴とする
    かな漢字変換方法。
  5. 【請求項5】 かな文字列を漢字かな混じり列に変換す
    るかな漢字変換方法において、該かな漢字変換方法は、
    複数の表記を持つ単語の異表記を格納した異表記辞書
    と、様々な表記のタイプ分けを格納した表記タイプ分け
    辞書と、かな漢字変換辞書と、変換候補および変換優先
    度を格納した変換候補テーブルおよびそれ以前に選択さ
    れたタイプを格納した出現タイプテーブルとを有するメ
    モリと、処理対象テキストの入力および処理結果の出力
    などを行う入出力装置と、各種テーブルへの書き込み、
    読み出し、検索など必要な処理を行うCPU(中央処理
    装置)とを備え、少なくとも、上記入出力装置から入力
    されたかな文字列のかな漢字変換結果の単語が異表記を
    持つか否かを上記異表記辞書を参照にして判定するステ
    ップと、上記表記タイプ分け辞書を用いて各単語の異表
    記をタイプ分けするステップと、変換結果の単語が複数
    の表記を持つと判定された場合に、上記変換候補テーブ
    ルと上記出現タイプテーブルを用いて、それ以前に選択
    されたタイプと同じタイプの表記をかな漢字変換結果と
    して選択するステップを有することを特徴とするかな漢
    字変換方法。
JP5227146A 1993-09-13 1993-09-13 表記不統一検出方法およびかな漢字変換方法 Pending JPH0785040A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5227146A JPH0785040A (ja) 1993-09-13 1993-09-13 表記不統一検出方法およびかな漢字変換方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5227146A JPH0785040A (ja) 1993-09-13 1993-09-13 表記不統一検出方法およびかな漢字変換方法

Publications (1)

Publication Number Publication Date
JPH0785040A true JPH0785040A (ja) 1995-03-31

Family

ID=16856216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5227146A Pending JPH0785040A (ja) 1993-09-13 1993-09-13 表記不統一検出方法およびかな漢字変換方法

Country Status (1)

Country Link
JP (1) JPH0785040A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6047299A (en) * 1996-03-27 2000-04-04 Hitachi Business International, Ltd. Document composition supporting method and system, and electronic dictionary for terminology
JP5696280B1 (ja) * 2014-04-08 2015-04-08 幸治 松村 用語統一システム及び用語統一プログラム、並びに用語統一方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6047299A (en) * 1996-03-27 2000-04-04 Hitachi Business International, Ltd. Document composition supporting method and system, and electronic dictionary for terminology
JP5696280B1 (ja) * 2014-04-08 2015-04-08 幸治 松村 用語統一システム及び用語統一プログラム、並びに用語統一方法

Similar Documents

Publication Publication Date Title
JPH09259125A (ja) 文書作成支援システム及び用語辞書
US5384702A (en) Method for self-correction of grammar in machine translation
JPH0944523A (ja) 関連語提示装置
JP2828692B2 (ja) 情報検索装置
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPS60176169A (ja) 文章処理装置
JP2010067021A (ja) 機械翻訳装置及び機械翻訳プログラム
JPH0612548B2 (ja) 文書処理装置
JPH07325826A (ja) 日本語処理システム
KR20020059555A (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
JPS59103136A (ja) カナ漢字変換処理装置
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
Buccellati The Old Babylonian linguistic analysis project: goals, procédures and first results
JPS63136264A (ja) 機械翻訳装置
JPH10307823A (ja) 翻訳方法、翻訳装置及び翻訳プログラムを格納した 記録媒体
JPH05120325A (ja) 電子化辞書
JPH0221623B2 (ja)
JPS60189573A (ja) 文字変換装置
JPH0290364A (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JP2004152323A (ja) 仮名漢字変換装置及び方法
JPH1185751A (ja) 翻訳装置及び翻訳装置制御プログラムを記憶した媒体
JPH0468466A (ja) かな漢字変換装置
JPH01128157A (ja) 日本語文書作成装置
JPH09282316A (ja) 漢字仮名変換装置
JPH0721212A (ja) 文書処理装置