JPS60241157A - 電子辞書を利用した文章デ−タ圧縮方法 - Google Patents

電子辞書を利用した文章デ−タ圧縮方法

Info

Publication number
JPS60241157A
JPS60241157A JP59097915A JP9791584A JPS60241157A JP S60241157 A JPS60241157 A JP S60241157A JP 59097915 A JP59097915 A JP 59097915A JP 9791584 A JP9791584 A JP 9791584A JP S60241157 A JPS60241157 A JP S60241157A
Authority
JP
Japan
Prior art keywords
code
word
information
electronic dictionary
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59097915A
Other languages
English (en)
Inventor
Yoshizo Saito
齋藤 佳三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP59097915A priority Critical patent/JPS60241157A/ja
Publication of JPS60241157A publication Critical patent/JPS60241157A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 く技術分野〉 本発明は電子辞書を利用した文鳥データ圧縮方法に関す
る。
〈従来技術〉 文章情報を取り扱う計算機システムあるいはワードプロ
セッサ等においては、限られた容量の記憶装置の中にで
きるだけ多くの文章データを収納できるようにする必要
がある。このため、従来では、1文字単位の情報を第1
表に示す8ビット単位のコード表から第2表に示す5ビ
ット単位の情報に変換してデータ圧縮を行なうことによ
り、より多くの文章データを記憶装置に記憶させるとい
う方法が用いられる。
従来、電子式の欧文ワードプロセッサでは、入力された
文字情報がそのまま1文字毎にコード変換される。例え
ば、第1図に示す文章を第2図に示すように1文字毎に
コード変換を行なう。そして、1文字を8ビツト又は英
文字の場合には26種類+特殊記号を5ビツトのように
1文字毎のデータ圧縮を行なった後のデータが記憶装置
に格納される。しかるに、この場合にもデータ圧縮の程
度に限界があり、記憶装置がフロンピーディスクメディ
アのときには、格納できるデータ量は限られているので
、大量の文意データを作成する場合には1枚のフロンピ
ーディスクメディアに入り切れないという事態が発生し
ていた。
〈発明の目的〉 本発明は上記事情に鑑みてなされたものであり、その目
的は、電子式辞書を用いて、従来の文字単位のデータ蓄
積という観点を離れて、語単位にデータ圧縮を行なうこ
とにより、従来より多くの文章データを記憶装置に格納
することができるようにした文章データ圧縮方法を提供
することである。
〈発明の構成〉 本発明においては、文字数が所定数以上である単語に対
して、特定の制御コードを割り付けるとともに、電子辞
書に登録された所定のコードを割り付けることを特徴と
する。
〈実施例〉 以下、本発明の一実施例を説明する。
第3図は本発明の構成を示している。
入力装置1は、文字情報または単語情報を表わすデータ
を記憶装置2へ入力する。この入力装置1は、例えは、
鍵盤装置、タブレット装置、OCR磁気テープ装置、磁
気ディスク装置などにより構成される。
記憶装置2は、入力装置1から入力された文字情報を記
憶する。ただし、入力装置1から入力された情報が語圧
縮されている場合は、後述する標準電子辞書4を用いて
元の文字単位の情報に変換して記憶する。この記憶装置
2は、例えば、コアメモリ、ICメモリ、磁気ディスク
などにより構成される。
出力装置3は1.記憶装置2において保存及び編集され
た結果の情報を出力する。この出力装置3は、例えば、
プリンタ2、ディスプレイ装置、磁気テープ、磁気ディ
スクなどにより構成される。尚、磁気ディスクや磁気テ
ープなどに記憶装置2からのデータを格納する場合、指
定を受けると、標準電子辞書4を用いて文章データを語
単位に変換して格納する。
標準電子辞書4は、記憶装置2に格納された文字・単語
データの綴り情報の間合わせに対して、後述するユーザ
電子辞書5とともに適時に有効な情報を提供する。また
、この標準電子辞書4は、出力装置3に文字情報を出力
する場合、指示により、文字単位の情報を語単位の情報
に変換したり、入力装置1から入力され語単位に圧縮さ
れたデータを元の文字単位の情報に再生したりする場合
に参照できるように構成される。この標準電子辞書4は
、例えば、コアメモリ、ICメモリ、ROM。
磁気ディスクなどにより構成される。
ユーザ電子辞書5は、標準電子辞書4に語登録されてお
らず、ユーザ自身が専用的に使用する語、例えば、商標
名や社名などが登録されており、標準電子辞書4ととも
に記憶装置2に記憶されている文字・単語データの綴り
情報の間合せに対して適時有効な情報を提供する。この
ユーザ電子辞書5は、例えば、コアメモリ、ICメモリ
、ROM。
磁気ディスクなどにより構成される。
制御装置6は、上述の装置1〜5のそれぞれの間の信号
の送受を制御する。この制御装置6は、例えば、コンピ
ュータを含む。
電子辞書では、全ての見出し語に対して番号を割当る。
例えば、aという単語が第1番目に登録されている場合
、第3表に示すように、platyという単語が300
08番目に登録され、playという単語が30014
番目に登録される。この場合、単語を検索する方法とし
て、1文字目がa〜2で始まるインデックスの中に上述
の登録番号を入力しておいてもよいし、単語の発生頻度
別の情報を元にしたインデックスを用いることもできる
第3表に示す電子辞書の場合、単語の並び順は、綴り文
字数に関係な(a、b、C順に並んでいる。
電子辞書の中の単語データは固定長でも可変長でもよく
、可変長の場合は、セパレート情報や制御情報(例えば
1データの長さ値)が単語データに付加される。また、
単語の並び順としてa、b。
C順の他に、第4図に示すように、綴り文字数別の情報
を加味した辞書形式もある。同図において、■はインデ
ックス部であり、そのインデックス1は最初全単語を綴
り文字数即ち1文字、2文字。
3文字、−,8文字、−別に分類して、続いて頭文字の
文字種即ちA、B、C,D、−、V、W。
x、y、z別に分類して該分類後の単語数を登録したも
のである。同図では上段より1文字単語。
2文字単語、3文字単語、−、8文字単語となっており
、文字rAJ、rBl rcJ、rDJ。
−、rVJ、 rWJ、 rXJ、 rYJ、 rZJ
は単語の頭文字を表現している。個々のインデックスに
は該当単語の登録数が格納しである。
以上のように、電子辞書では、全ての見出し語に登録番
号を割り付ける。ただし、これは上述の標準電子辞書4
だけであり、ユーザ電子辞書5では、ユーザがよく使用
する商標や社名などを任意に登録及び削除できるので、
登録番号の割付けは行わない。
文章データのコード変換に際して、内部処理されるコー
ドの中に特定の制御コードを1つ設ける。
例えば、第1表のコード表を使用する場合であれば、l
B11を制御コードとする。あるいは、第2表のコード
表の場合であれば、ll100Bを制御コードとして使
用できる。そして、文字数が5以上である単語には、こ
の制御コードを割り付け、さらに、この制御コードの直
後にその単語に対して予め定められた固定長の見出し語
登録情報を割り付ける。
この見出し語登録情報は標準電子辞書4に格納されてい
る。
第5図は、第1図に示す文章とこの文章を上述の方法で
コード変換した情報を示している。この場合、comp
u torsという単語を文字数が5以上であるので、
制御コードIB■を割り付け、さらに、computo
rという単語にあらかじめ対応付けされたコード100
OHに変換し、文字Sについては従来と同様にコード7
3Hに変換する。従って、compu torsという
単語は、lB1000731(というコードに変換され
る。ブランクはコード20Hに変換される。そして、c
onnectedという単語は文字数が5以上であるの
で、制御コードIBHを割り付け、さらに、conne
ctにあらかじめ対応付けされたコードl0IOHに変
換し、文字eとdについては、従来と同様に、コード6
5Hと64Hにそれぞれ変換する。したがって、con
nectedという単語はlB10106564Hにコ
ード変換される。以下同様に、ブランクがコード20H
に、単語toは5文字以下であるのでコード746F)
lに、ブランクがコード201(に、単語teleph
oneはコード1flCOOOHにというようにコード
変換が行なわれる。
一方、圧縮した単語データを元に戻すためには、制御コ
ードを検出する毎に、第6図に示すように、制御コード
に続く見出し語登録情報から標準電子辞書4を検索する
ことにより、原単語を簡単に再生することができる。
上述の方法で第1図の文章をコード変換する場合には、
文字情報の容量が35バイトで足りるのに対して、同し
文章を第2図に示す従来のコード変換を行なうと、文字
情報の容量が65バイト必要である。
上述の実施例で、例えば、connectという単語の
他にconnectedという単語も電子辞書に登録す
るようにすると、データの圧縮率はより高められること
になる。また、上述の実施例で、見出し語登録情報を文
字数が5以上の単語とした理由は、3文字の単語では容
量が変らないことと、4文字の単語ではデータ圧縮率は
高(なるが、辞書検索に時間がかかるので効果が期待で
きないことによる。
尚、本発明の方法は、比較的長文の文章データに対して
有効である。したがって、本発明を全ての文章ファイル
に適用するのではな(、短文の文章データの場合には、
第2図に示すように、データ圧縮を行なわない単なるコ
ードデータに変換して記憶装置に格納した方がよい。
〈発明の効果〉 以上説明したように、本発明においては、文字数が所定
数以上である単語に対して、特定の制御コードを割り付
けるとともに、電子辞書に登録された所定のコードを割
り付けるようにしたから、文章データの圧縮の程度を高
めることができ、多くの文章データを記憶装置に格納す
ることができる。
第2表 第3表
【図面の簡単な説明】
第1図は文章データの一例を示す図、第2図は文章デー
タのコード変換の従来例を示す図、第3園は本発明の構
成を示すブロック図、第4図は電子辞書の形式の一例を
示す図、第5図と第6図は本発明の一実施例を示す図で
ある。 特許出願人 シャープ株式会社 代理人 弁理士西田新 第3図 第4図 ]000H□ 1010H− 1F○OH− C000H□ EQ○○H□ 第6図 卑語 computer connect especially tQIQphone vulnerable

Claims (1)

    【特許請求の範囲】
  1. (11文字数が所定数以上であるR語に対して、特定の
    制御コードを割り付けるとともに、電子辞書に登録され
    た所定のコードを割り付けることを特徴とする電子辞書
    を利用した文章データ圧縮方法。
JP59097915A 1984-05-15 1984-05-15 電子辞書を利用した文章デ−タ圧縮方法 Pending JPS60241157A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59097915A JPS60241157A (ja) 1984-05-15 1984-05-15 電子辞書を利用した文章デ−タ圧縮方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59097915A JPS60241157A (ja) 1984-05-15 1984-05-15 電子辞書を利用した文章デ−タ圧縮方法

Publications (1)

Publication Number Publication Date
JPS60241157A true JPS60241157A (ja) 1985-11-30

Family

ID=14204998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59097915A Pending JPS60241157A (ja) 1984-05-15 1984-05-15 電子辞書を利用した文章デ−タ圧縮方法

Country Status (1)

Country Link
JP (1) JPS60241157A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62256070A (ja) * 1986-04-30 1987-11-07 Canon Inc 文書処理装置
JPS63292265A (ja) * 1987-05-25 1988-11-29 Nec Corp 日本語テキストデ−タの編集方式
US6834283B1 (en) 1999-01-07 2004-12-21 Fujitsu Limited Data compression/decompression apparatus using additional code and method thereof

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57187768A (en) * 1981-05-14 1982-11-18 Mitsubishi Electric Corp Kana (japanese syllabary)-kanji (chinese character) conversion method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57187768A (en) * 1981-05-14 1982-11-18 Mitsubishi Electric Corp Kana (japanese syllabary)-kanji (chinese character) conversion method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62256070A (ja) * 1986-04-30 1987-11-07 Canon Inc 文書処理装置
JPS63292265A (ja) * 1987-05-25 1988-11-29 Nec Corp 日本語テキストデ−タの編集方式
US6834283B1 (en) 1999-01-07 2004-12-21 Fujitsu Limited Data compression/decompression apparatus using additional code and method thereof

Similar Documents

Publication Publication Date Title
EP0168814B1 (en) Language processing dictionary for bidirectionally retrieving morphemic and semantic expressions
US6502064B1 (en) Compression method, method for compressing entry word index data for a dictionary, and machine translation system
US6877003B2 (en) Efficient collation element structure for handling large numbers of characters
JPH026252B2 (ja)
JP2007265458A (ja) 複数の圧縮オプションを生成する方法およびコンピュータ
JPH07160684A (ja) 文書圧縮装置および文書圧縮方法
WO1995017783A1 (en) Data compression system
US20040225497A1 (en) Compressed yet quickly searchable digital textual data format
JPS60241157A (ja) 電子辞書を利用した文章デ−タ圧縮方法
US7568156B1 (en) Language rendering
US7386450B1 (en) Generating multimedia information from text information using customized dictionaries
JPH0546358A (ja) テキストデータの圧縮方法
JPS5916039A (ja) カナ漢字変換方法
JPH0554077A (ja) 単語辞書検索装置
JPH0140372B2 (ja)
JPH0140370B2 (ja)
US6373409B1 (en) Method and computer program product for implementing text conversion table compression
JPH0320781B2 (ja)
JP3253753B2 (ja) 文書読み上げ対象テキストの整形方法および装置
JPS6389976A (ja) 言語解析装置
JPS5862762A (ja) 文章デ−タ統合装置
JPS6457369A (en) Translation output device
JPH05189196A (ja) 単語圧縮装置
JPH06332666A (ja) データの圧縮方法
JPH0140371B2 (ja)