JPS59109939A

JPS59109939A - 用例辞書

Info

Publication number: JPS59109939A
Application number: JP57220531A
Authority: JP
Inventors: Shinobu Shiotani; 塩谷　忍; Yasuji Kofuchi; 保司小渕; Akira Hamada; 明濱田; Shigeaki Harada; 原田　茂明
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1982-12-15
Filing date: 1982-12-15
Publication date: 1984-06-25
Also published as: JPH0326420B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技術分野この発明はかな漢字変換を利用した日本語ワードプロセ
ッサなどの日本語情報処理装置に係り、特に、変換率の
向上を図るため処理過程において参照される用例辞書に
関する。

… 用例辞書とは、一般社会で実際に通用している文章、た
とえば企業内で作成された通達文９手紙文などの業務文
書あるいは出版物等を大量に収集し、それらのデータか
ら単語間の結ひつきに関する情報を抽出して、それらの
情報を目的とする言語処理に適する形式にまとめあげ記
憶手段に記憶させたデータファイルのことである。たと
えば、ある文章に「化学繊維」という言葉があったとす
る。これは「化学」と「繊維」の２個の単語が連続して
用いられた場合であり、このことから「化学」という単
語のあとに「繊維」という単語が連続する可能性が大き
いという情報が得られる。これを上記用例辞書に蓄えて
おけば、かな漢字変換などの処理で「（化学、科学１価
額）＋（繊維。

戦意、船医）」のような同音異義語の組み合わせが発生
した場合、「（化学）＋（繊維）」を最も妥当性のある
解析結果とする判断が下せるわけである。

」二記の例は、国文法的に言う「自立語」の連続に関す
るものであるが、「自立語］＋「接尾語」。

「接頭語」＋「自立語」に関するものも同様に考えられ
る。たとえば、「新年度」という用例から、接頭語「新
」と自立語「年度」の結びつきを用例辞書に収容し、こ
れを利用することにより「（新。

真）＋（年度、粘度、粘土）」の同音異義語群から「（
新）＋（年度）」を迅速に選び出すことができる。また
この場合、「シンネンド」の読みに対して「（信念）＋
（度）」という「自立語」＋「接尾語」の解析も成立す
るが、用例辞書を使うことにより、これを解析結果とし
ては妥当性の低いものとする判断も合わせて可能となる
。

この発明は、文章から得られた単語間の結びつきの情報
を基にして用例辞書を作成する際のデータ構成手法に関
するものである。

従来技術用例データの抽出には、抽出対象である大量文書と、目
的とする日本語情報処理装置が有する辞書（自立語、接
頭語、接尾語などを含む）とのマツチングを取るので非
常に多くの用例が得られる。

第１図はその用例のご入く一部としての１接頭語」＋「
自立語」の例を示したものである。自立語「検問」に関
し「御」、「未」、「再」の接頭語があがっている。こ
れは、文章中の用例「御検討」、「未検討」、「再検Ｈ
・１」から得られたものである。第１図の用例データか
ら「接頭語」＋１自立語」の関係に対する用例辞書を一
般的な手法で作成すると第２図のようになる。

第２図の用例辞書１において、ファイル２は自立語に関
するデータ、ファイル３は接頭語に関するデータを収容
している。ファイル２中の４は、ファイル２からファイ
ル３を参照するためのポインタである。使用法によって
は、このポインタをファイル３に設け、ファイル３から
ファイル２を参照するようにもできる。この第２図では
、自立語及び接頭語のデータを漢字表記で代表させてい
るが、実際には、各自立語に割当てられた固有番号や同
様に接頭語の番号などのデータで収容される。いずれに
してもファイル２中のデータ要素５はそれぞれ同一の大
きさ即ち固定長である。ファイル３のデータ要素６も同
様、固定長である。

ところで、この従来の用例辞書１では、固定長のデータ
要素でそれぞれの語を収容（記憶）するようにしていた
ので、いきおい辞書容量が膨大なものとなっていた。

発明の目的そこで、この発明は、用例辞書の本来の内容を保持した
まま辞書容量の膨大化を回避できるデータ圧縮手法を提
案し、この手法によって作成した用例辞書を提供するこ
とを目的としている。

発明の要旨本発明は、自立語に結合されて用いられる単語を集めて
編成してなる第２図の如き用例辞書において、複数の自
立語間にわたって用例を共通にする少なくとも２つ以上
の共通の単語群を当該単語群を索引できるコードで置換
したことを特徴としている。

以下、本発明を着想とともに、図示の実施例によって説
明する。

実施例まず、第１図の内容を詳細に解析してみると、接頭語用
例の各欄に対して共通の集合が存在することが判る。つ
まり、「各、新、前２元」の集合が、「議員」、「役員
」、「理１１」、「監督」の各自立語が有する接頭３ハ
川例集合の中に含まれている。なお、本例では完全に一
致しているが、大きな集合を想定する場合も考慮し、含
まれている事実に着目する。そして、この性質を利用し
、「各、新、前２元」の４つのデータ要素からなる用例
を、たとえば「Ｃ１」という１つのデータ要素によって
表わし用例辞書を作成する。

この手法によって作成した実施例の用例辞書７を第３図
に示す。第２図の従来の辞書１の「各」。

「新」、「前」、「元」の共通の単語群が、共通のコー
ド「Ｃ１」で置きかえられている。

今、新たなファイル３は接頭語番号の形式で収容するも
のとし、１個のデータ要素で０〜２５５の番号を表現で
きるとする（１データ要素を１バイト−８ビツトとする
）。各接頭語番号の範囲が０〜１００と仮定すると、１
０１以上の番号に対し第３図のコード「Ｃ１」を割り当
てることができる。即ち、０〜１００の区間に対しては
個々の接頭語が対応し、１０１〜２５５の区間に対して
は「Ｃ１」のように集合化された接頭語群が対応すると
考えれば、データ要素の容量が増加することはない。本
例では、集合化されたのは「Ｃ１」のみであるが、第１
内で示したよりも大容量の用例に対しては別の集合化を
試み、Ｉ　Ｃ２Ｊ、ｒｃ３Ｊ。

ｒｃ４Ｊ、・・・・・のように複数存在することは明ら
かである。また、必要に応じ、ｒ　Ｃ５Ｊ　−ｒＣ８Ｊ
十ｒｃ１０Ｊ　＋ｒ新」のように、集合相互の関係を含
む集合化も規定できる。

検索時には、コードｒｃＩ　Ｊ　、「Ｃ２Ｊ、　・・・
・・・から個々の用例を得るための解読テーブルが索引
される。たとえば第４図、第５図に示す解読テーブル８
，９である。コード「Ｃ１」を解読テーブル８のアドレ
スデータとすれば、第４図のｒＭＪが参照されると、ポ
インタ４を介しコード「Ｃ１」が出力され、この「Ｃ１
」のアドレス指定で「各。

新、前２元」の集合が索引される。第５図のテーブル９
では、各コード「ＣＩ　Ｊ　、ｒｃ２　ＪＪＣ３Ｊから
ポインタ１０を介してテーブル９を索引することとなる
。

テーブル８，９を構成する新たなメモリが必要となるが
、大量の用例に対してはファイル３の容量の減小の方が
はるかに大きい。また、この手法によって用例辞書の本
来の機能を損うことはない。

第６図に他の実施例を示す。第１図の用例データから接
頭語の集合を抽出するとき、「各、新。

前」の集合に着目し、「各、新、前２元」をコード「Ｃ
１」で置き換えるかわりに、「各、新、前」をコード「
Ｃ１」でｆｆ’？き換えるようにしたものである。こう
すると、ファイル３にコードと本来の単語番号が混在す
ることとなる。第７図にはこのコード「Ｃ１」の解読テ
ーブル１１を示す。この実施例の場合、第３図と第５図
の比較から明らかなように、容量圧縮の点でコード「Ｃ
１」の集合化の方がコード「Ｃ１」のものより小さいの
で不利であると解せられるかも知れない。しかしながら
、大容量の用例に対しては、接頭語用例相互間の関係が
、第１図の例とは異なる場合が多いので、むしろ第６図
のような圧縮手法が有利となる場合がある。したがって
、集合化に関し、得られた用例群に対し最適な集合を選
ぶようにする。

第８図、第９図の用例辞書７１．７２は変形例である。

用例辞書７１では、自立語ファイル２のポインタ４を共
通化し、共通の用例に対応するコード「Ｃ１」を参照す
るようにしたものである。

第９図の用例辞書７２は、その共通のポインタ自身をコ
ード「Ｃ１」で置き換えたものである。これら変形例に
よって、接頭語のファイル３１．３２をさらにデータ圧
縮することができる。

上記実施例、変形例は、「接頭語」＋「自立語」の用例
辞書に関するものであったが、ここに開示の手法が「自
立語」＋「接尾語」又は「自立語」＋「自立語」の用例
辞書にも有効なことは当業者にとって明らかである。

効果以上のように、本発明の用例辞書は、複数の自立語間に
わたって用例を共通にする少なくとも２つ以上の共通の
単語群をこの単語群を索引できるコードで置換してなる
ものであるから、本来の辞−書の機能を損うことなく容
量を小さくすることができる。すなわち、一定の容量で
あればより多くの用例データを収容できるとともに、多
量の用例データに対してはより少ない容量のメモリで足
りる。

【図面の簡単な説明】

第１図は抽出した用例データを表形式でまとめあげた図
、第２図は従来の用例辞書（一部）の模式図、第３図は
本発明の実施例の模式図、第４図はコード「Ｃ１」によ
って索引できる解読テーブルの説明図、第５図は他の解
読テーブルの説明図、第６図は他の実施例の模式図、：
ｆ１７図はその解読テーブルの説明図、第８図、第９図
は変形例の模式図である。１．７．７・・・用例辞書、２・・・自立語のファイル
、３．３．３・・・接頭語のファイル、８，９．１１・
・・解読テーブル、Ｃ１，Ｃ２，Ｃ３，Ｃ１・・・コー
ド。特　許　出　にｊ〔（人　電子計算機基本技術研究組合
へ　理　人　弁理士　青　山　葆　ほか２名：；：１１１　１　　　　１第６図第７図岡悼囚罰司第８図第９図

Claims

【特許請求の範囲】

（１）　　自立語に結合されて用いられる単語を集めて
編成してなる日本語情報処理装置の用例辞書において、
複数の自立語間にわたって用例を共通にする少なくとも
２つ以上の共通の単語群を当該単語群を索引できるコー
ドで置換してなる用例辞書。
（２）前記単語は、自立語、接頭語又は接尾語のいずれ
かである特許請求の範囲第（１）項記載の用例辞書。