JPH047786A

JPH047786A - 辞書データ圧縮方法

Info

Publication number: JPH047786A
Application number: JP2110850A
Authority: JP
Inventors: Kichiya Toyosawa; 豊澤　吉弥
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1990-04-26
Filing date: 1990-04-26
Publication date: 1992-01-13

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、小型情報機器に搭載する辞書データを圧縮す
ることを目的とする、辞書データ圧縮方法に関する。

［従来技術］最近は、カードサイズや、電子手帳サイズで英和辞書や
、国語辞書の機能を有する小型の情報機器が製品化され
てきた。これらの情報機器では、価格的にＣＰＵの性能
やメモリ容量に制限があり、２バイトコードの文字は使
用しないで、カタカナ、及び英数字だけで辞書を表現し
たり、辞書の見出し語数を制限するとか、メモリの容量
を増やして辞書を充実させる方向で進められていた。

［発明が解決しようとする課題　　　　］しかし、前述
の従来技術では、全てカタカナ、英数字表示にした場合
、普段ひらがな、漢字を見慣れている人に取っては、非
常に読みにくい印象を与える、また、見出し語の数に制限があると、辞書機能としては
中途半端になり使い物にならない。

メモリを増やして辞書を充実させると、製品としての価
格がアップしてしまう。

等の問題点を有する。

そこで、本発明はこれらの問題点を解決するもので、そ
の目的とするところは、ひらがな、漢字などを含んでい
る辞書を、小型情報機器に組み込むことを可能に出来る
ほど効率よく圧縮し、提供することにある。

［課題を解決するための手段］本発明の辞書データ圧縮システムは、単語見出し語、単語意味、関連熟語を分離する分離手段
、分離された見出し語をツリー構造化する構造化手段、
見出し語に関連する熟語が存在する場合に、その意味部
に関連熟語へのポインタを付加し、熟語内の見出し語部
分を１バイトコード化する熟語処理手段、非漢字コード
を全て１バイトコードに対応させるコード変換テーブル
、及びコード変換手段を有し、原辞書データを入力すると、ツリー構造化された単語見
出し語部、漢字コード以外は１バイトコード化され、関
連する熟語が存在する場合はそのポインタが付加された
単語意味部、見出し語を１バイト化された関連熟語部を
出力することを特徴とする。

［実施例］第１図は本発明の実施例を示すシステムブロック図であ
る。

外部に登録しであるアルファベット昇順に並べられてい
る原辞書データ１を単語見出し部・単語意味部・熟語部
分離処理部２（以下分離処理部とする）に入力する。分
離処理部２では原辞書データを分析し、単語見出しデー
タ３、単語意味データ４、意味を含んだ熟語データ５を
出力する。単語見出し処理部６では単語見出しデータ３
を入力としてキャラクタ単位のツリー構造化によるデー
タの圧縮を行い、その結果を中間出力データ１０に格納
する。単語意味処理部７では単語意味データ４を入力と
して、予め登録しであるコード変換テーブル８を参照し
ながら単語意味データの圧縮を行い、その結果を中間出
力データ１０に格納する。熟語処理部９では対象となる
熟語中のキーとなる単語の共通化、及びコード変換テー
ブル８を参照しながら意味データの圧縮を行い、中間出
力データ１０に格納する。中間出力データ１０に各デー
タが揃ったところで、対応付は処理部１１で、単語とそ
れに関連する熟語との対応付けを行い、最終圧縮データ
１２を出力する。

以下、各処理部の具体的な処理について図に基づいて説
明する。

第２図は原辞書データの構成を示す図である。

原辞書データは、単語、熟語を識別する識別記号１３、
単語見出し詔、あるいは熟語見出し語で構成される見出
し部１４、見出し部と意味部を区切る区切り記号１５、
意味部１６、及びレコード終了記号１７によりルコード
が構成されている。

またある単語に関連する熟語が存在する場合は、単語レ
コードの直後に熟語レコードが続いている。

第３図は本実施例に使用する辞書の一部である。

図中の記号゛′＃”　°゛＠”は単語、熟語の区別を示
す識別記号であり、′＃′°は単語レコード、”＠”は
熟語レコードであることを示している。

”％゛は見出し部と意味部の句切りを示す記号である。

′／”はレコードの終了を示すレコード季冬了記号であ
る。意味部はその単語の品詞を示す、”名−”形−”等
、及び単語の意味が記述されている。

第４図は分離処理部の処理手順を示すフローチャートで
ある。以下ステップをおって処理を説明する。

（ステップ１８）原辞書データからルコードを読み込む
。各レコードはレコード終了記号で区切られているため
それをもとに読み込む。

（ステップ１９）読み込んたレコードが単語レコードな
のか、熟語レコードなのかを識別記号１３をもとに判断
する。単語の場合はステップ２０、熟語の場合はステッ
プ２４にいく。

（ステップ２０）句切り記号１５を頼りに単語見出し部
と単語意味部を分離する。

（ステップ２１）分離した単語見出し部を単語登録工１
７アに記録する。これは、熟語レコードが読み込まれた
場合、その熟語がどの単語に関連するかを調べるときに
使用される。

（ステップ２２）分離した単語見出し語データ３を出力
する。

（ステップ２３）分離した単語意味データ４を出力する
。

（ステップ２４）熟語レコードの場合は、まず単語登録
エリアがクリアされているかどうかを調べる。

（ステップ２５）単語登録エリアがクリアされている場
合はステップ２９、クリアされていない場合はステップ
２６゜（ステップ２６）クリアされていない場合はその熟語レ
コードは単語に関連した最初の熟語ということになる。

従ってその単語登録エリアの単語をまず出力する。

（ステップ２７）出力した単語登録エリアの内容をクリ
アする。これは、ある単語に関連する熟語が複数存在す
る場合、一番最初だけ単語を出力し、以降は熟語だけを
出力するためである。

（ステップ２８）熟語のもとになる単語に関連する熟語
が存在することを明確化するために、既に出力されてい
る単語意味データ部の最後の部分ニダミーのポインタを
付加する。

（ステップ２９）熟語データ５を出力する。

（ステップ３０）原辞書データが終了がどうかを調べ、
終了でない場合はステップ１８以降を繰り返す。

第５図は第３図のデータを入力した場合の出力データで
ある。単語見出しデータ３１、単語意味データ３２、熟
語データ３３より構成されている。

また、単語”ａｂ＋ｅｙａｎｃｅ”には関連する熟語が
存在するため、それに対応する意味データの最後にダミ
ーのポインタ゛１＊００”が付加されている。

第６図は単語見出しデータ３１をツリー構造化した図で
ある。ツリーとしてはバイナリツリーを採用した。バイ
ナリツリーの生成方法については周知のことであり、説
明は省略する。

次に、意味データの圧縮について説明する。

意味の圧縮については以下の考えを基に処理を行う。

１、品詞等の出現パターンが決まっていてデータ量の多
いものは１バイトコード化する。例えば原辞書データに
おいて”名−“が１００回出現する場合データとしては
４００バイト必要となる。

これを１バイトコード化すると１００バイトになり、デ
ータ量が２５％になる。

２、ひらがな、カタカナ、記号等の非漢字コードは１バ
イトコードを割り当てて、コード変換を行う。この時ひ
らがなとカタカナを区別するためカタカナで表現される
範囲をカタカナ開始記号、及びカタカナ終了記号で囲む
。第７図は予め原辞書データを調べて作成したコード変
換テーブルである。

０１〜１９　品詞の変換用コード２０〜７Ｆ　アルファベット、記号用変換コード８１〜９８　漢字コードの第１バイト１　Ｄ〜Ｉ　Ｆ９９〜ＥＦＣＤひらがな、カタカナ変換用コードカタカナ開始記号カタカナ終了記号第８図は熟語処理について説明する図である。

熟語データはキーになる単語及びそれに関連する熟語レ
コードが１つあるいはそれ以上連続する形で出力される
。熟語見出し部内でキーになる単語を検出し、その部分
を”＊″で置き換える。この例では”ａ　ｂ　ｅ　ｙ　
ａ　ｎ　ｃ　ｅ　”の単語が＊′”で置き換えられてい
る。同一単語から派生する熟語レコード間はレコード区
切り記号１つで区別され、キーになる単語が異なる熟語
との区切りは区切り記号を２つ連続することにより区別
して出力する。

熟語意味部の圧縮は単語意味部と同様の変換テーブルに
基づいて行う。

以上の処理により中間出力データ１０には単語見出し部
のツリー構造化されたデータ、単語意味部の圧縮清みデ
ータ、及び熟語データの圧縮されたデータが格納される
。

第９図は中間データを基に単語意味部に付加したダミー
ポインタと実際にそれに対応する熟語データとの対応付
けを説明する図である。ポインタの値は中間出力データ
１０に格納されている熟語ブロック３５に於ける該当熟
語の先頭オフセットアドレスを割り当てる。この例では
単語”ａｂｅｙａｎｃｅ”に関連する熟語が存在してい
るので、”ａｂｅｙａｎｃｅ”の意味データ３４の最後
に、目的とする熟語のオフセットアドレス１００番地を
書き込んでいる。

以上により、原辞書データ１の圧縮処理が終了する。

［発明の効果］以上述べたように、本発明の辞書圧縮方式によれば、日
本語漢字混じりの辞書データの情報量を損なうことなく
大幅に圧縮が可能となる。実施例においては、約３０％
の圧縮が可能となった。

これにより、小型情報機器のメモリ容量の削減が可能に
なり、製品の低価格化、小型化が可能になる。

また、同一メモリ容量においては辞書内容の充実、機能
の充実等が図れるという利点がある。

また、本圧縮方式によれば、圧縮データの復元は容易で
あり、高性能のＣＰＵや、専用のハードウェアを必要と
しなくても、憬れた機器が実現可能である。

【図面の簡単な説明】

実施例のシステム構成図。原辞書データのレコード構成図。辞書の一部を示す図。分離処理のフローチャート・分離処理語のデータ図。単語見出し語のツリー構成図。コード変換図。熟語処理語のデータ図。ポインタ処理説明図。原辞書データ分離処理部分離処理後の単語見出しデータ分離処理後の単語意味データ分離処理後の熟語データ単語見出し処理部単語意味処理部コード変換データ熟語処理部中間出力データ対応相は処理部最終出力データ以上

Claims

【特許請求の範囲】辞書データを搭載する情報機器に組み込む辞書データを
作成する辞書作成システムにおいて、単語見出し語、単
語意味、関連熟語を分離する分離手段、分離された見出
し語をツリー構造化する構造化手段、見出し語に関連す
る熟語が存在する場合に、その意味部に関連熟語へのポ
インタを付加し、熟語内の見出し語部分を１バイトコー
ド化する熟語処理手段、非漢字コードを全て１バイトコ
ードに対応させるコード変換テーブル、及びコード変換
手段を有し、原辞書データを入力すると、ツリー構造化された単語見
出し語部、漢字コード以外は１バイトコード化され、関
連する熟語が存在する場合はそのポインタが付加された
単語意味部、見出し語を１バイト化された関連熟語部を
出力することを特徴とする辞書データ圧縮方法。