JPH047786A - 辞書データ圧縮方法 - Google Patents

辞書データ圧縮方法

Info

Publication number
JPH047786A
JPH047786A JP2110850A JP11085090A JPH047786A JP H047786 A JPH047786 A JP H047786A JP 2110850 A JP2110850 A JP 2110850A JP 11085090 A JP11085090 A JP 11085090A JP H047786 A JPH047786 A JP H047786A
Authority
JP
Japan
Prior art keywords
word
data
byte
dictionary data
idiom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2110850A
Other languages
English (en)
Inventor
Kichiya Toyosawa
豊澤 吉弥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2110850A priority Critical patent/JPH047786A/ja
Publication of JPH047786A publication Critical patent/JPH047786A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、小型情報機器に搭載する辞書データを圧縮す
ることを目的とする、辞書データ圧縮方法に関する。
[従来技術] 最近は、カードサイズや、電子手帳サイズで英和辞書や
、国語辞書の機能を有する小型の情報機器が製品化され
てきた。これらの情報機器では、価格的にCPUの性能
やメモリ容量に制限があり、2バイトコードの文字は使
用しないで、カタカナ、及び英数字だけで辞書を表現し
たり、辞書の見出し語数を制限するとか、メモリの容量
を増やして辞書を充実させる方向で進められていた。
[発明が解決しようとする課題    ]しかし、前述
の従来技術では、全てカタカナ、英数字表示にした場合
、普段ひらがな、漢字を見慣れている人に取っては、非
常に読みにくい印象を与える、 また、見出し語の数に制限があると、辞書機能としては
中途半端になり使い物にならない。
メモリを増やして辞書を充実させると、製品としての価
格がアップしてしまう。
等の問題点を有する。
そこで、本発明はこれらの問題点を解決するもので、そ
の目的とするところは、ひらがな、漢字などを含んでい
る辞書を、小型情報機器に組み込むことを可能に出来る
ほど効率よく圧縮し、提供することにある。
[課題を解決するための手段] 本発明の辞書データ圧縮システムは、 単語見出し語、単語意味、関連熟語を分離する分離手段
、分離された見出し語をツリー構造化する構造化手段、
見出し語に関連する熟語が存在する場合に、その意味部
に関連熟語へのポインタを付加し、熟語内の見出し語部
分を1バイトコード化する熟語処理手段、非漢字コード
を全て1バイトコードに対応させるコード変換テーブル
、及びコード変換手段を有し、 原辞書データを入力すると、ツリー構造化された単語見
出し語部、漢字コード以外は1バイトコード化され、関
連する熟語が存在する場合はそのポインタが付加された
単語意味部、見出し語を1バイト化された関連熟語部を
出力する ことを特徴とする。
[実施例] 第1図は本発明の実施例を示すシステムブロック図であ
る。
外部に登録しであるアルファベット昇順に並べられてい
る原辞書データ1を単語見出し部・単語意味部・熟語部
分離処理部2(以下分離処理部とする)に入力する。分
離処理部2では原辞書データを分析し、単語見出しデー
タ3、単語意味データ4、意味を含んだ熟語データ5を
出力する。単語見出し処理部6では単語見出しデータ3
を入力としてキャラクタ単位のツリー構造化によるデー
タの圧縮を行い、その結果を中間出力データ10に格納
する。単語意味処理部7では単語意味データ4を入力と
して、予め登録しであるコード変換テーブル8を参照し
ながら単語意味データの圧縮を行い、その結果を中間出
力データ10に格納する。熟語処理部9では対象となる
熟語中のキーとなる単語の共通化、及びコード変換テー
ブル8を参照しながら意味データの圧縮を行い、中間出
力データ10に格納する。中間出力データ10に各デー
タが揃ったところで、対応付は処理部11で、単語とそ
れに関連する熟語との対応付けを行い、最終圧縮データ
12を出力する。
以下、各処理部の具体的な処理について図に基づいて説
明する。
第2図は原辞書データの構成を示す図である。
原辞書データは、単語、熟語を識別する識別記号13、
単語見出し詔、あるいは熟語見出し語で構成される見出
し部14、見出し部と意味部を区切る区切り記号15、
意味部16、及びレコード終了記号17によりルコード
が構成されている。
またある単語に関連する熟語が存在する場合は、単語レ
コードの直後に熟語レコードが続いている。
第3図は本実施例に使用する辞書の一部である。
図中の記号゛′#” °゛@”は単語、熟語の区別を示
す識別記号であり、′#′°は単語レコード、”@”は
熟語レコードであることを示している。
”%゛は見出し部と意味部の句切りを示す記号である。
′/”はレコードの終了を示すレコード季冬了記号であ
る。意味部はその単語の品詞を示す、”名−”形−”等
、及び単語の意味が記述されている。
第4図は分離処理部の処理手順を示すフローチャートで
ある。以下ステップをおって処理を説明する。
(ステップ18)原辞書データからルコードを読み込む
。各レコードはレコード終了記号で区切られているため
それをもとに読み込む。
(ステップ19)読み込んたレコードが単語レコードな
のか、熟語レコードなのかを識別記号13をもとに判断
する。単語の場合はステップ20、熟語の場合はステッ
プ24にいく。
(ステップ20)句切り記号15を頼りに単語見出し部
と単語意味部を分離する。
(ステップ21)分離した単語見出し部を単語登録工1
7アに記録する。これは、熟語レコードが読み込まれた
場合、その熟語がどの単語に関連するかを調べるときに
使用される。
(ステップ22)分離した単語見出し語データ3を出力
する。
(ステップ23)分離した単語意味データ4を出力する
(ステップ24)熟語レコードの場合は、まず単語登録
エリアがクリアされているかどうかを調べる。
(ステップ25)単語登録エリアがクリアされている場
合はステップ29、クリアされていない場合はステップ
26゜ (ステップ26)クリアされていない場合はその熟語レ
コードは単語に関連した最初の熟語ということになる。
従ってその単語登録エリアの単語をまず出力する。
(ステップ27)出力した単語登録エリアの内容をクリ
アする。これは、ある単語に関連する熟語が複数存在す
る場合、一番最初だけ単語を出力し、以降は熟語だけを
出力するためである。
(ステップ28)熟語のもとになる単語に関連する熟語
が存在することを明確化するために、既に出力されてい
る単語意味データ部の最後の部分ニダミーのポインタを
付加する。
(ステップ29)熟語データ5を出力する。
(ステップ30)原辞書データが終了がどうかを調べ、
終了でない場合はステップ18以降を繰り返す。
第5図は第3図のデータを入力した場合の出力データで
ある。単語見出しデータ31、単語意味データ32、熟
語データ33より構成されている。
また、単語”ab+eyance”には関連する熟語が
存在するため、それに対応する意味データの最後にダミ
ーのポインタ゛1*00”が付加されている。
第6図は単語見出しデータ31をツリー構造化した図で
ある。ツリーとしてはバイナリツリーを採用した。バイ
ナリツリーの生成方法については周知のことであり、説
明は省略する。
次に、意味データの圧縮について説明する。
意味の圧縮については以下の考えを基に処理を行う。
1、品詞等の出現パターンが決まっていてデータ量の多
いものは1バイトコード化する。例えば原辞書データに
おいて”名−“が100回出現する場合データとしては
400バイト必要となる。
これを1バイトコード化すると100バイトになり、デ
ータ量が25%になる。
2、ひらがな、カタカナ、記号等の非漢字コードは1バ
イトコードを割り当てて、コード変換を行う。この時ひ
らがなとカタカナを区別するためカタカナで表現される
範囲をカタカナ開始記号、及びカタカナ終了記号で囲む
。第7図は予め原辞書データを調べて作成したコード変
換テーブルである。
01〜19 品詞の変換用コード 20〜7F アルファベット、記号用変換コード 81〜98 漢字コードの第1バイト 1 D〜I F 99〜EF C D ひらがな、カタカナ変換用コ ード カタカナ開始記号 カタカナ終了記号 第8図は熟語処理について説明する図である。
熟語データはキーになる単語及びそれに関連する熟語レ
コードが1つあるいはそれ以上連続する形で出力される
。熟語見出し部内でキーになる単語を検出し、その部分
を”*″で置き換える。この例では”a b e y 
a n c e ”の単語が*′”で置き換えられてい
る。同一単語から派生する熟語レコード間はレコード区
切り記号1つで区別され、キーになる単語が異なる熟語
との区切りは区切り記号を2つ連続することにより区別
して出力する。
熟語意味部の圧縮は単語意味部と同様の変換テーブルに
基づいて行う。
以上の処理により中間出力データ10には単語見出し部
のツリー構造化されたデータ、単語意味部の圧縮清みデ
ータ、及び熟語データの圧縮されたデータが格納される
第9図は中間データを基に単語意味部に付加したダミー
ポインタと実際にそれに対応する熟語データとの対応付
けを説明する図である。ポインタの値は中間出力データ
10に格納されている熟語ブロック35に於ける該当熟
語の先頭オフセットアドレスを割り当てる。この例では
単語”abeyance”に関連する熟語が存在してい
るので、”abeyance”の意味データ34の最後
に、目的とする熟語のオフセットアドレス100番地を
書き込んでいる。
以上により、原辞書データ1の圧縮処理が終了する。
[発明の効果] 以上述べたように、本発明の辞書圧縮方式によれば、日
本語漢字混じりの辞書データの情報量を損なうことなく
大幅に圧縮が可能となる。実施例においては、約30%
の圧縮が可能となった。
これにより、小型情報機器のメモリ容量の削減が可能に
なり、製品の低価格化、小型化が可能になる。
また、同一メモリ容量においては辞書内容の充実、機能
の充実等が図れるという利点がある。
また、本圧縮方式によれば、圧縮データの復元は容易で
あり、高性能のCPUや、専用のハードウェアを必要と
しなくても、憬れた機器が実現可能である。
【図面の簡単な説明】
実施例のシステム構成図。 原辞書データのレコード構成図。 辞書の一部を示す図。 分離処理のフローチャート・ 分離処理語のデータ図。 単語見出し語のツリー構成図。 コード変換図。 熟語処理語のデータ図。 ポインタ処理説明図。 原辞書データ 分離処理部 分離処理後の単語見出しデータ 分離処理後の単語意味データ 分離処理後の熟語データ 単語見出し処理部 単語意味処理部 コード変換データ 熟語処理部 中間出力データ 対応相は処理部 最終出力データ 以上

Claims (1)

  1. 【特許請求の範囲】 辞書データを搭載する情報機器に組み込む辞書データを
    作成する辞書作成システムにおいて、単語見出し語、単
    語意味、関連熟語を分離する分離手段、分離された見出
    し語をツリー構造化する構造化手段、見出し語に関連す
    る熟語が存在する場合に、その意味部に関連熟語へのポ
    インタを付加し、熟語内の見出し語部分を1バイトコー
    ド化する熟語処理手段、非漢字コードを全て1バイトコ
    ードに対応させるコード変換テーブル、及びコード変換
    手段を有し、 原辞書データを入力すると、ツリー構造化された単語見
    出し語部、漢字コード以外は1バイトコード化され、関
    連する熟語が存在する場合はそのポインタが付加された
    単語意味部、見出し語を1バイト化された関連熟語部を
    出力する ことを特徴とする辞書データ圧縮方法。
JP2110850A 1990-04-26 1990-04-26 辞書データ圧縮方法 Pending JPH047786A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2110850A JPH047786A (ja) 1990-04-26 1990-04-26 辞書データ圧縮方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2110850A JPH047786A (ja) 1990-04-26 1990-04-26 辞書データ圧縮方法

Publications (1)

Publication Number Publication Date
JPH047786A true JPH047786A (ja) 1992-01-13

Family

ID=14546246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2110850A Pending JPH047786A (ja) 1990-04-26 1990-04-26 辞書データ圧縮方法

Country Status (1)

Country Link
JP (1) JPH047786A (ja)

Similar Documents

Publication Publication Date Title
KR100235223B1 (ko) 텍스트 검색에 사용하기 위하여 다중-바이트 문자를 아스키문자의 단일문자 열로 맵핑하는 방법 및 장치
US4593356A (en) Electronic translator for specifying a sentence with at least one key word
JPH0225214B2 (ja)
JPS62251876A (ja) 言語処理システム
JPS59864B2 (ja) 電子辞書
JPH047786A (ja) 辞書データ圧縮方法
JPS5892063A (ja) イデイオム処理方式
JP7247460B2 (ja) 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
JPS5822767B2 (ja) 和文タイプライタ
JPH0140372B2 (ja)
JPS6336031B2 (ja)
JPH0414178A (ja) 辞書データ圧縮方法
JPH0140370B2 (ja)
JPS61232724A (ja) 文字コ−ドデ−タの圧縮方式
JPS6057421A (ja) 文書作成装置
JPS6154559A (ja) 日本語処理装置
Ducretet Quantitative stylistics: An essay in methodology
JPH0338772A (ja) 文字コードデータの圧縮方式
JPS5931099B2 (ja) 電子辞書
JPS5931103B2 (ja) 電子辞書
JPH06187371A (ja) 圧縮地名データの格納方法及び読み出し方法
JPS5931102B2 (ja) 電子辞書
JPH01166186A (ja) 文字認識方法
JPH0346865B2 (ja)
JPS5931100B2 (ja) 電子辞書