JPH07160684A - 文書圧縮装置および文書圧縮方法 - Google Patents

文書圧縮装置および文書圧縮方法

Info

Publication number
JPH07160684A
JPH07160684A JP5304137A JP30413793A JPH07160684A JP H07160684 A JPH07160684 A JP H07160684A JP 5304137 A JP5304137 A JP 5304137A JP 30413793 A JP30413793 A JP 30413793A JP H07160684 A JPH07160684 A JP H07160684A
Authority
JP
Japan
Prior art keywords
word
document
sentence
compression
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5304137A
Other languages
English (en)
Inventor
Katsumi Tokuda
克己 徳田
Ryoichi Sugimura
領一 杉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP5304137A priority Critical patent/JPH07160684A/ja
Priority to US08/348,721 priority patent/US5614899A/en
Publication of JPH07160684A publication Critical patent/JPH07160684A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/42Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code using table look-up for the coding or decoding process, e.g. using read-only memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 意味内容が損なわれないように文書を書き換
え、書き換え後に圧縮テーブルを参照しながら、文書を
ビット列に置き換えて文書圧縮を行う。 【構成】 形態素解析部14が、外部記憶装置の文書か
ら読み込まれた文章から、形態素となる単語を取り出
す。辞書検索部15が、取り出した単語を語彙見出しと
して用いて、解析辞書12を検索し、その単語が、どの
単語の活用形であるかを示す活用記号に書き換える。ま
た、辞書検索部15の検索結果によって、構文解析部1
6が、読み込んだ文章に対応する式木を生成する。生成
後、表現変換部18が、これらの式木においてノードと
なる単語を代表表現に置き換える。更に代表表現に置き
換えられた式木を、式木変換部19が単語に置き換え
る。ハフマン圧縮部21は、圧縮テーブル20を参照し
て、式木変換部19が置き換えた単語をビット列に置き
換える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書データを圧縮する
ことのできる文書圧縮装置に関するものである。
【0002】
【従来の技術】近年、計算機による文書処理が一般に普
及するとともに、計算機可読形式の文書(以下電子文書
という)が激増している。電子文書は、フロッピーディ
スクなどの小型の磁気記録媒体にも記録可能なので、複
写、配布が容易であり、また、かざばらないために保存
のためのスペースが小スペースで済む。これらの電子文
書は、計算機を用いて様々な処理を施すことも容易であ
るから、新聞、辞書などの大容量文書は、電子文書とし
て利用、保存される。但し、このような電子文書を記録
媒体に記録する場合、記録媒体の容量を有効に利用する
ため、一旦電子文書に対して圧縮処理を施し、圧縮処理
後、記録媒体に記録する場合がある。
【0003】電子文書の圧縮法は、一般的にハフマン圧
縮法に基づいている。ハフマン圧縮法を行う文書圧縮装
置について説明する。この文書圧縮装置は、単語と、そ
れぞれの単語に対応するビット列とが記述してある圧縮
テーブルを備えている。また、この圧縮テーブルには、
高い出現頻度を有する単語ほど、ビット長が短いビット
列が対応しており、出現頻度が低い単語ほど、ビット長
が長いビット列が対応している。従来の文書圧縮装置
は、このような圧縮テーブルを参照して、電子文書中の
単語をビット列に置き換える。電子文書を構成する文字
コードのビット長が16ビットであり、上記のビット列
のビット長が、最も短いもので3ビットである場合、文
書圧縮装置の置き換えによって、文字コードと、上記の
ビット列のビット長の差だけ、電子文書の容量は圧縮さ
れる。
【0004】この圧縮法は、圧縮テーブルに、より高い
出現頻度を有する単語を記述できれば、より高い圧縮率
の圧縮文書を得ることができる。上述の圧縮法は、可逆
(lossless)圧縮法に属するものである。これ
に対して圧縮時に情報量の欠落がある圧縮法つまり非可
逆(lossy)圧縮法が存在する。この非可逆(lo
ssy)圧縮を用いれば、元のデータと、元のデータを
圧縮し、更に伸長したデータとは若干異なったものにな
る。このような圧縮法の一例に、日本国特許公開番号
平4−156663がある。この発明の概要を簡単に説
明すると、先ず電子文書を構成する各文章に対して、所
定の辞書を用いて形態素解析を行い、文章を単語に分割
する。次に分割した単語の意味情報を辞書から取り出
し、その意味情報に基づいて、その単語の重要度を求め
る。その重要度が所定値以下ならば、その単語は重要で
ないとみなし、文書中から削除する。その結果、電子文
書は削除分だけ、容量が減少する。非可逆圧縮法を用い
た場合の圧縮率は上述の削除分に留まるので、高い圧縮
率は望めない。
【0005】
【発明が解決しようとする課題】しかしながら、上記従
来技術におけるハフマン圧縮法を用いた文書圧縮装置に
よれば、ごく一般的な文書を処理対象とする場合、これ
らの文書には様々な単語がまんべんなく存在するため、
圧縮テーブルに、高い出現頻度を有するような単語を記
述できず、高圧縮率の文書圧縮は望めないという問題点
があった。
【0006】具体的には、文書を作成する際、作成者
は、同じ表現を繰り返し使うことを意図的に避けている
ことが多い。例えば、「弁明」という単語の繰り返しを
避けるため、ある箇所では「言い訳」という単語を用い
ることがある。そのため個々の単語の出現頻度は低くな
り、ハフマン圧縮を行っても高圧縮率の文書圧縮は望め
ない。
【0007】また、動詞、助動詞には、活用形が存在
し、文書中にこれらがまんべんなく存在することが多
い。例えば、「発表する」という単語は、動詞が活用す
ることと、その動詞に接続される助動詞が活用すること
によって、「発表する」「発表した」「発表されてな
い」という単語がそれぞれ文書中にまんべんなく存在す
る。更に主語となる名詞には助詞が接続するため、文書
中には「○×○×電器は」、「○×○×電器を」、「○
×○×電器が」という単語がまんべんなく存在する。
【0008】このように処理対象となる文書において個
々の単語の出現頻度が低ければ、ハフマン圧縮を行って
も高圧縮率の文書圧縮は望めない。ハフマン圧縮法で高
圧縮率を得るための別の方法として、ハフマン圧縮法に
上記の非可逆圧縮法を組み合わせることも考えられる。
つまり、非可逆圧縮法によって重要でない単語を削除し
て、文書中に存在する単語の種類を減らして、ハフマン
圧縮法による圧縮を行うのである。この場合、非可逆圧
縮法によって、文章の一部が自動的に削除されるので、
復元後の文書の一部が意味不明になることがある。
【0009】本発明は、このような問題点に鑑み、元の
文書の意味内容が損なわれないように一旦非可逆圧縮を
施し、非可逆圧縮後、ハフマン圧縮を効率良く行うこと
により、高圧縮率の圧縮文書を得る文書圧縮装置および
文書圧縮方法を提供することを目的とする。
【0010】
【課題を解決するための手段】上記課題を解決するため
に本発明の文書圧縮装置は、外部記憶装置などの文書保
持手段に記憶されている文書ファイルを圧縮する文書圧
縮装置であって、文書保持手段から文章を一文ずつ取り
出し、当該文章から形態素となる単語を取り出す形態素
解析手段と、単語と、当該単語と同一の意味内容を持つ
単語のうち、最も一般的に使われる単語である代表表現
とを記憶する代表表現記憶手段と、形態素解析手段が解
析したそれぞれの単語を用いて代表表現記憶手段を検索
して、その単語に対応する代表表現を取り出し、文章中
の単語を、当該代表表現に置き換える代表表現置換手段
と、代表表現置換手段が置き換えた文章中の単語の何れ
かを、当該単語よりビット長が短いビット列に書き換え
る圧縮手段とを備えることを特徴とする文書圧縮装置 また、前記圧縮手段は代表表現の出現頻度の高さの順
に、短いビット長が割り当てられたビット列を記憶する
ビット列記憶手段と、ビット列記憶手段を参照して、代
表表現置換手段が置き換えられた文章中の単語の何れか
を、ビット列に書き換える圧縮手段とからなっていても
よい。
【0011】また、前記圧縮手段は前記文書ファイル中
の単語が出現頻度が小さいものの順に並べられた辞書を
作成する辞書作成手段と、代表表現置換手段が置き換え
た文章中のそれぞれの単語を、辞書作成手段が作成した
辞書におけるそれぞれの単語の位置を示すビット列に書
き換える圧縮手段ととからなっていてもよい。
【0012】また、本発明の文書圧縮装置は外部記憶装
置などの文書保持手段に記憶されている文書ファイルを
圧縮する文書圧縮装置であって、単語である語彙見出し
と、それぞれの語彙見出しの品詞と、当該語彙見出し
が、どの単語の活用形であるかを示す活用記号とを記憶
する記憶手段と、文書保持手段から、文章を一文ずつ取
り出し、当該文章から、形態素となる単語を取り出す形
態素解析手段と、形態素解析手段によって取り出された
単語を語彙見出しとして用いて、記憶手段を検索し、そ
の単語に対応する品詞、活用記号を取り出し、文章中の
単語を、活用記号に置き換える検索手段と、検索手段が
検索した品詞に基づいて、形態素解析手段が取り出した
単語が、構文中の、主語、述語、目的語等のどの構文要
素に対応するかを判定する構文解析手段と、構文解析手
段の判定結果に基づいて、それぞれの単語がどの単語を
修飾しているかを示す修飾記号を、それぞれの単語の前
あるいは後に書き加える書き換え手段と、書き換え手段
が書き換えた文章中の単語の何れかを、当該単語よりビ
ット長が短いビット列に書き換える圧縮手段とを備えて
いる。
【0013】また、前記圧縮手段は単語、活用記号、お
よび修飾記号の出現頻度の高さの順に、短いビット長が
割り当てられたビット列を記憶するビット列記憶手段
と、ビット列記憶手段を参照して、書き換え手段が書き
換えた文章中の単語、活用記号、および修飾記号を、ビ
ット列に書き換える圧縮手段とからなっていてもよい。
【0014】また、前記圧縮手段は前記文書ファイル中
の単語、活用記号、および修飾記号が出現頻度が小さい
ものの順に並べられた辞書を作成する辞書作成手段と、
書き換え手段が書き換えた文章中のそれぞれの単語を、
辞書作成手段が作成した辞書におけるそれぞれの単語の
位置、活用記号、および修飾記号を示すビット列に書き
換える圧縮手段とからなる。
【0015】また前記文書圧縮装置は、外部記憶装置な
どの文書保持手段に記憶されている文書ファイルを圧縮
する文書圧縮装置であって、単語である語彙見出しと、
それぞれの語彙見出しの品詞と、当該語彙見出しが、ど
の単語の活用形であるかを示す活用記号とを記憶する記
憶手段と、文書保持手段から、文章を一文ずつ取り出
し、当該文章から、形態素となる単語を取り出す形態素
解析手段と、形態素解析手段によって取り出された単語
を語彙見出しとして用いて、記憶手段を検索し、その単
語に対応する品詞、活用記号を取り出し、文章中の単語
を、活用記号に置き換える検索手段と、単語と、当該単
語と同一の意味内容を持つ単語のうち、最も一般的に使
われる単語である代表表現とを記憶する代表表現記憶手
段と、検索手段が検索した品詞に基づいて、形態素解析
手段が取り出した単語が、構文中の、主語、述語、目的
語等のどの構文要素に対応するかを判定する構文解析手
段と、構文解析手段の判定結果に基づいて、単語の前あ
るいは後ろに、それぞれの単語がどの単語を修飾してい
るかを示す修飾記号を書き加える書き換え手段と、形態
素解析手段が解析したそれぞれの単語を用いて代表表現
記憶手段を検索し、その単語に対応する代表表現を取り
出し、書き換え手段が書き換えた文章中の単語を、当該
代表表現に書き換える代表表現置換手段と、代表表現置
換手段が書き換えた文章中の単語の何れかを、当該単語
よりビット長が短いビット列に書き換える圧縮手段とを
備えていてもよい。
【0016】前記圧縮手段は単語、活用記号、修飾記
号、および代表表現の出現頻度の高さの順に、短いビッ
ト長が割り当てられたビット列を記憶するビット列記憶
手段と、ビット列記憶手段を参照して、代表表現置換手
段が書き換えた文章中の単語、活用記号、修飾記号、お
よび代表表現を、ビット列に書き換える圧縮手段とから
なっていてもよい。
【0017】前記圧縮手段は前記文書ファイル中の単
語、活用記号、修飾記号、および代表表現が出現頻度が
小さいものの順に並べられた辞書を作成する辞書作成手
段と、代表表現置換手段が書き換えた文章中のそれぞれ
の単語を、辞書作成手段が作成した辞書におけるそれぞ
れの単語の位置、活用記号、修飾記号、および代表表現
を示すビット列に書き換える圧縮手段とからなっていて
もよい。
【0018】また、本発明の文書圧縮方法は、外部記憶
装置などの文書保持部に記憶されている文書ファイルを
圧縮する文書圧縮方法であって、文書保持部から文章を
一文ずつ取り出し、当該文章から形態素となる単語を取
り出す形態素解析ステップと、形態素解析ステップが解
析したそれぞれの単語を用いて、単語と、当該単語と同
一の意味内容を持つ単語のうち、最も一般的に使われる
単語である代表表現とを記憶する代表表現記憶部を検索
し、その単語に対応する代表表現を取り出して、文章中
の単語を、当該代表表現に置き換える代表表現置換ステ
ップと、代表表現置換ステップが置き換えた文章中の単
語の何れかを、当該単語よりビット長が短いビット列に
書き換える圧縮ステップとからなる。
【0019】また、前記圧縮ステップは代表表現の出現
頻度の高さの順に、短いビット長が割り当てられたビッ
ト列を記憶するビット列記憶部を参照して、代表表現置
換ステップが置き換えられた文章中の単語の何れかを、
ビット列に書き換える圧縮ステップとからなっていても
よい。
【0020】また、前記圧縮ステップは前記文書ファイ
ル中の単語が出現頻度が小さいものの順に並べられた辞
書を作成する辞書作成ステップと、代表表現置換ステッ
プが置き換えた文章中のそれぞれの単語を、辞書作成ス
テップが作成した辞書におけるそれぞれの単語の位置を
示すビット列に書き換える圧縮ステップとからなってい
てもよい。
【0021】また、前記文書圧縮方法は、外部記憶装置
などの文書保持部に記憶されている文書ファイルを圧縮
する文書圧縮方法であって、文書保持部から、文章を一
文ずつ取り出し、当該文章から、形態素となる単語を取
り出す形態素解析ステップと、形態素解析ステップによ
って取り出された単語を語彙見出しとして用いて、単語
である語彙見出しと、それぞれの語彙見出しの品詞と、
当該語彙見出しが、どの単語の活用形であるかを示す活
用記号とを記憶する記憶部を検索し、その単語に対応す
る品詞、活用記号を取り出し、文章中の単語を、活用記
号に置き換える検索ステップと、検索ステップが検索し
た品詞に基づいて、形態素解析ステップが取り出した単
語が、構文中の、主語、述語、目的語等のどの構文要素
に対応するかを判定する構文解析ステップと、構文解析
ステップの判定結果に基づいて、それぞれの単語がどの
単語を修飾しているかを示す修飾記号を、それぞれの単
語の前あるいは後に書き加える書き換えステップと、書
き換えステップが書き換えた文章中の単語の何れかを、
当該単語よりビット長が短いビット列に書き換える圧縮
ステップとからなる。
【0022】また、前記圧縮ステップは単語、活用記
号、および修飾記号の出現頻度の高さの順に、短いビッ
ト長が割り当てられたビット列を記憶するビット列記憶
部を参照して、書き換えステップが書き換えた文章中の
単語、活用記号、および修飾記号を、ビット列に書き換
える圧縮ステップとからなっていてもよい。
【0023】また、前記圧縮ステップは前記文書ファイ
ル中の単語、活用記号、および修飾記号が出現頻度が小
さいものの順に並べられた辞書を作成する辞書作成ステ
ップと、書き換えステップが書き換えた文章中のそれぞ
れの単語を、辞書作成ステップが作成した辞書における
それぞれの単語の位置、活用記号、および修飾記号を示
すビット列に書き換える圧縮ステップとからなっていて
もよい。
【0024】また、前記文書圧縮方法は外部記憶装置な
どの文書保持部に記憶されている文書ファイルを圧縮す
る文書圧縮方法であって、文書保持部から、文章を一文
ずつ取り出し、当該文章から、形態素となる単語を取り
出す形態素解析ステップと、形態素解析ステップによっ
て取り出された単語を語彙見出しとして用いて、単語で
ある語彙見出しと、それぞれの語彙見出しの品詞と、当
該語彙見出しが、どの単語の活用形であるかを示す活用
記号とを記憶する記憶部を検索し、その単語に対応する
品詞、活用記号を取り出し、文章中の単語を、活用記号
に置き換える検索ステップと、検索ステップが検索した
品詞に基づいて、形態素解析ステップが取り出した単語
が、構文中の、主語、述語、目的語等のどの構文要素に
対応するかを判定する構文解析ステップと、構文解析ス
テップの判定結果に基づいて、単語の前あるいは後ろ
に、それぞれの単語がどの単語を修飾しているかを示す
修飾記号を書き加える書き換えステップと、形態素解析
ステップが解析したそれぞれの単語を用いて、単語と、
当該単語と同一の意味内容を持つ単語のうち、最も一般
的に使われる単語である代表表現とを記憶する代表表現
記憶部を検索し、その単語に対応する代表表現を取り出
し、書き換えステップが書き換えた文章中の単語を、当
該代表表現に書き換える代表表現置換ステップと、代表
表現置換ステップが書き換えた文章中の単語の何れか
を、当該単語よりビット長が短いビット列に書き換える
圧縮ステップとからなっていてもよい。
【0025】また、前記圧縮ステップは単語、活用記
号、修飾記号、および代表表現の出現頻度の高さの順
に、短いビット長が割り当てられたビット列を記憶する
ビット列記憶部を参照して、代表表現置換ステップが書
き換えた文章中の単語、活用記号、修飾記号、および代
表表現を、ビット列に書き換える圧縮ステップとからな
っていてもよい。
【0026】また、前記圧縮ステップは前記文書ファイ
ル中の単語、活用記号、修飾記号、および代表表現が出
現頻度が小さいものの順に並べられた辞書を作成する辞
書作成ステップと、代表表現置換手段が書き換えた文章
中のそれぞれの単語を、辞書作成ステップが作成した辞
書におけるそれぞれの単語の位置、活用記号、修飾記
号、および代表表現を示すビット列に書き換える圧縮ス
テップとからなっていてもよい。
【0027】
【作用】上記の手段により本発明の文書圧縮装置(方
法)において、文書保持手段に対して、形態素解析手段
(ステップ)が作動し、文書保持手段(部)に保持され
ている文書から文章を一文ずつ取り出され、当該文章か
ら形態素となる単語を取り出される。代表表現記憶手段
(部)には、単語と、当該単語と同一の意味内容を持つ
単語のうち、最も一般的に使われる単語である代表表現
とが記憶されている。代表表現記憶手段(部)に対し
て、代表表現置換手段(ステップ)が作動し、形態素解
析手段(ステップ)が解析したそれぞれの単語を用いて
検索が行われ、その単語に対応する代表表現を取り出さ
れ、文章中の単語が、当該代表表現に置き換えられる。
ビット列記憶手段(部)には、代表表現の出現頻度の高
さの順に、短いビット長が割り当てられたビット列が記
憶されている。代表表現置換手段(ステップ)が置き換
えられた文章中の単語に対して、圧縮手段(ステップ)
が作動し、ビット列記憶手段(部)が参照され、文章中
の単語がビット列に書き換えられる。
【0028】また、上記の手段により本発明の文書圧縮
装置において、記憶手段(部)には、単語である語彙見
出しと、それぞれの語彙見出しの品詞と、当該語彙見出
しが、どの単語の活用形であるかを示す活用記号とが記
憶されている。文書保持手段に対して、形態素解析手段
(ステップ)が作動し、文書保持手段に保持されている
文章が一文ずつ取り出され、当該文章から、形態素とな
る単語を取り出される。記憶手段(部)に対して、検索
手段(ステップ)が作動し、形態素解析手段(ステッ
プ)によって取り出された単語を語彙見出しとして用い
て、その単語に対応する品詞、活用記号が検索されて取
り出され、文章中の単語が活用記号に置き換えられる。
形態素解析手段(ステップ)が取り出した単語に対し
て、構文解析手段(ステップ)が作動し、検索手段が検
索した品詞に基づいて、構文中の単語が、主語、述語、
目的語等のどの構文要素に対応するかが判定される。文
章中の単語に対して、書き換え手段(ステップ)が作動
し、構文解析手段(ステップ)の判定結果に基づいて、
それぞれの単語がどの単語を修飾しているかを示す修飾
記号が、それぞれの単語の間に挿入される。ビット列記
憶手段(部)には、単語、活用記号、および修飾記号の
出現頻度の高さの順に、短いビット長が割り当てられた
ビット列を記憶される。文章中の単語、活用記号、およ
び修飾記号に対して、圧縮手段(ステップ)が作動し、
ビット列記憶手段(部)が参照され、文章がビット列に
書き換えられる。
【0029】
【実施例】図1は、本発明の一実施例の文書圧縮装置の
構成図である。この文書圧縮装置は、文書作成装置に備
えられ、ハードディスクなどの外部記憶装置に記憶され
ている文書の容量を圧縮するものである。文書圧縮装置
は、制御部11と、解析辞書12と、形態素解析部14
と、辞書検索部15と、構文解析部16と、表現変換辞
書17と、表現変換部18と、式木変換部19と、圧縮
テーブル20と、ハフマン圧縮部21とで構成される。
【0030】制御部11は、文書作成装置の図示しない
外部記憶装置に記憶されている処理対象の電子文書をオ
ープンし、オープンした電子文書から文章を、一文ずつ
取り出し、取り出した文章を形態素解析部14に引き渡
す。その後、制御部11は、形態素解析部14、辞書検
索部15、構文解析部16、表現変換部18、式木変換
部19、ハフマン圧縮部21を順に起動する。
【0031】解析辞書12は、単語、複合語、熟語など
の単語である語彙見出しと、それぞれの語彙見出しの品
詞と、当該語彙見出しがどの単語の活用形であるかを示
す活用の情報と、当該語彙見出しの前に存在する語(こ
の語の情報を文法情報と呼ぶ)とを記憶する。解析辞書
12の一例を図3に示す。具体的には、解析辞書12
は、「発表する」という語彙見出しの活用型が、サ行変
格活用であり、この単語の前には、主語、目的語が存在
することを記憶する。「れる」という語彙見出しに対し
て、解析辞書12は、その語彙見出しの品詞が助動詞で
あり、また、その当該語彙見出しの活用形が、それぞれ
ラ行下一段活用、タ活用であることを記憶する。また、
「発表する」が終止形であることは、「発表する.終」
という記号(活用記号と呼ぶ)で示され、同様に、「発
表する」の未然形、連用形、連体形、仮定形、命令形で
あることは、「発表する.未」、「発表する.用」「発
表する.体」「発表する.仮」「発表する.命」という
記号で示される。解析辞書12は、このように記号化さ
れた活用記号を上記の活用情報として保持している。
【0032】形態素解析部14は、制御部11から文章
を受け取り、受け取った文章に対して形態素解析を行
う。具体的には、形態素解析部14は、制御部11から
受け取った文章から、活用語尾、接頭語、接尾語を検出
し、これらで分割される単語を取り出して、辞書検索部
15に渡す。例えば、形態素解析部14が、「○×○×
電器は新製品を発表した」「その名称が今日公表され
た」「昨日彼はそのフルネームを言い触らした」という
文章に対して形態素解析を行い、検出した単語をセパレ
ータ記号「_」で区切ると、これらの文章は図2(a)
に示すようになる。
【0033】辞書検索部15は、形態素解析部14によ
って解析された単語を受け取り、これらを語彙見出しと
して用いて解析辞書12を検索し、前記活用の情報であ
る活用記号とを取り出して、形態素解析部14によって
検出された単語を活用記号に書き換える。活用記号が存
在しない場合は、辞書検索部15は上記の書き換えを行
わない。次に辞書検索部15は単語および活用記号の品
詞と、文法の情報とを解析辞書12から取り出して、単
語および活用記号と、それらに対応する品詞、文法の情
報とを構文解析部16に出力する。辞書検索部15が、
図3に示した解析辞書12を用いて書き換えを行うと、
図2(a)に示した文章は、図2(b)のように書き換
えられる。
【0034】構文解析部16は、辞書検索部15が検索
した品詞および文法の情報に基づいて、形態素解析部1
4が取り出した単語が、主語、述語、目的語、連体修飾
語、連用修飾語のどれに該当するか否かを判定し、判定
結果に基づいて、制御部11が取り出した文章に対応す
る式木を生成する。具体的には、構文解析部16は、辞
書検索部15が検索したそれぞれの単語の品詞が何であ
るかを参照して、形態素解析部14が取り出した単語
が、主語、述語、目的語、連体修飾語、連用修飾語等、
文章の構文中のどの要素(これらの要素を構文要素と呼
ぶ。)に該当するかを判定し、更に主語、述語である単
語には、構文解析部16は、それらが主語、目的語であ
るという情報を付加する。本実施例において、その語が
主語であるという情報は、「.主」という記号である。
その語が目的語であるという情報は、「.目」という記
号である。上記判定を行った後、構文解析部16は、そ
れぞれの単語をノードにし、更に辞書検索部15が検索
した文法情報を参照して、それぞれのノードと、そのノ
ードの前に存在する語のノードとを辺で結び式木を生成
する。例えば、述語として判定された「発表する」とい
う単語の文法情報は、その単語の前に、主語、目的語が
存在するという情報であるから、構文解析部16は、
「発表する」という述語に該当するノード(述語ノード
という。)と、主語、目的語に該当するノード(主語ノ
ード、目的語ノードという。)とを辺で結ぶ。「まだ」
という連用修飾語の文法情報は、その単語の後に、述語
となる単語が関連するという情報であるから、構文解析
部16は、その連用修飾語に該当するノード(連用修飾
語ノード)と、述語ノードとを辺で結ぶ。このような手
順を全てのノードに対して行い、構文解析部16は、1
つの文を式木に置き換える。図2(b)に示した文章に
対して構文解析部16が作動すると、これらの文章は図
2(c)に示す式木に置き換えられる。
【0035】表現変換辞書17は、解析辞書12で語彙
見出しとして使用されている単語と、それぞれの単語と
同一の意味内容を持つ単語のうち、その意味内容で最も
一般的に使われる単語である代表表現とを対応させて記
憶する。例えば、「公表する」「言い触らす」という単
語について、同一の意味内容を持つ単語のうち、かつ意
味内容が最も一般的に使われる単語は、「発表する」と
いう単語であるから、表現変換辞書17は、「公表す
る」「言い触らす」という単語と、「発表する」と単語
とを対応させて保持する。表現変換辞書17の一例を図
4に示す。
【0036】表現変換部18は、辞書検索部15が取り
出した単語を用いて、前記表現変換辞書17を検索し、
代表表現を取り出して、構文解析部16が作成した式木
のノードを、当該代表表現のノードに置き換える。表現
変換部18が、図3に示した表現変換辞書17を用いて
置き換えを行った結果、図2(c)に示した式木は、図
5(a)に示すように書き換えられる。
【0037】式木変換部19は、構文解析部16が作成
した式木を文字列に置き換える。具体的には、式木変換
部19は、それぞれの構文要素がどの構文要素を修飾し
ているかを示す記号(この記号を修飾記号と呼ぶ。)
を、式木において、ノードとなっているそれぞれの単語
の間に挿入し、所定の順序に、これらの単語を並べかえ
ることで、式木を文字列に置き換える。この置き換えの
動作は、以下の{規則1}〜{規則3}の規則に基づい
て行われる。
【0038】{規則1}式木変換部19は、述語ノード
に該当する単語の後ろに、主語ノード、目的語ノード、
連用修飾語ノードに該当する単語を修飾記
号「(」、「)」で区切って並べる。例えば、述語ノー
ドに該当する単語が「発表する」であり、主語ノードに
該当する単語が「新製品」である場合、式木変換部19
は、このような式木を「発表する(新製品)」という単
語に置き換える。
【0039】{規則2}式木変換部19は、主語ノー
ド、目的語ノード該当する単語の後ろに、連体修飾語ノ
ードに該当する単語を修飾記号「(」、「)」で区切っ
て並べる。例えば、連体修飾語ノードに該当する単語が
「その」であり、主語ノード、目的語に該当する単語が
「新製品」である場合、式木変換部19は、このような
式木を「新製品(その)」という単語に置き換える。
【0040】{規則3}式木変換部19は、述語ノード
に該当する単語の後ろに存在する、主語ノード、目的語
ノード、連用修飾語ノードに該当する単語は、修飾記号
「_」で区切って並べる。例えば、述語ノードに該当す
る単語が「発表する」であり、主語ノードに該当する単
語が「○×○×電器」であり、目的語ノードに該当する
単語が「新製品」である場合、式木変換部19は、この
ような式木を「発表する(○×○×電器_新製品)」と
いう単語に置き換える。
【0041】図5(a)に示した式木に対して、式木変
換部19がこのような規則に基づいて処理を行うと、こ
れらの式木は、図5(b)に示す文字列に置き換えられ
る。圧縮テーブル20には、単語、記号と、それらに対
応するビット列とが記述してある。また、圧縮テーブル
20には、出現頻度が高い単語、記号ほど、ビット長が
短いビット列が対応しており、出現頻度が低い単語、記
号ほど、ビット長が長いビット列が対応している。圧縮
テーブル20の一例を図6に示す。
【0042】ハフマン圧縮部21は、圧縮テーブル20
を参照して、式木変換部19が生成した単語をビット列
に置き換える。図7は、図1に示す文書圧縮装置のフロ
ーチャートである。ステップs11では、制御部11
が、外部記録装置に記録されている電子文書から、文章
を1文ずつ読み込む。
【0043】ステップs12では、形態素解析部14
が、制御部11が読み込んだ文章から形態素によって分
割される単語を取り出す。ステップs13では、辞書検
索部15が、形態素解析部14によって取り出された単
語を語彙見出しとして用いて、解析辞書12を検索し、
その語彙見出しに該当する文法情報と、活用記号とを取
り出す。更に文章中の、語彙見出しとして用いた単語
を、取り出した活用記号に書き換える。
【0044】ステップs14では、構文解析部16が、
辞書検索部15が取り出した単語が、主語、述語、目的
語、連体修飾語等、連用修飾語の何れの語に該当するか
を判定し、制御部11が取り出した文章に対応する式木
を生成する。ステップs15では、表現変換部18が、
表現変換辞書17から語彙見出しを取り出す。
【0045】ステップs16では、表現変換部18が、
取り出した語彙見出しと、構文解析部16が生成したノ
ードの単語とが一致するか否かを判定する。もし、一致
すればステップs17に移行する。一致しなければステ
ップs18に移行する。ステップs17では、表現変換
部18が代表表現を取り出し、ノードに対応する単語
を、取り出した代表表現に書き換える。
【0046】ステップs18では、表現変換部18が、
次の語彙見出しが、表現変換辞書17中に存在するか否
かを判定する。存在すればその語彙見出しを取り出すた
めにステップs15に移行する。存在しなければステッ
プs19に移行する。ステップs19では、式木変換部
19は、構文解析部16が作成した式木を文字列に置き
換える。
【0047】ステップs20では、ハフマン圧縮部21
が、圧縮テーブル20を参照して、式木変換部19が生
成した文字列をビット列に置き換える。以上のように構
成された文書圧縮装置の動作について説明する。 (1)制御部11が、外部記録装置に記録されている
「○×○×電器は新製品を発表した。その名称が今日公
表された。昨日彼はそのフルネームを言い触らした」と
いう内容の電子文書をオープンし、文章を1文ずつ読み
込む(ステップs11)。
【0048】(2)形態素解析部14が、制御部11が
読み込んだ文章から形態素によって分割される単語を取
り出す(ステップs12)。形態素解析の結果、これら
の文章は図2(a)に示すようになる。 (3)辞書検索部15が、形態素解析部14によって取
り出された単語を語彙見出しとして用いて解析辞書12
を検索し、前記活用の情報である活用記号を取り出す。
更に辞書検索部15は、文章中の単語を、取り出した活
用記号に書き換える(ステップs13)。辞書検索部1
5が、図3に示した解析辞書12を用いて書き換えを行
うと、図2(a)に示した文章は、図2(b)のように
書き換えられる。
【0049】(4)構文解析部16が、辞書検索部15
が取り出した単語が、主語、述語、目的語、連体修飾
語、連用修飾語等、構文中の、どの構文要素に該当する
かを判定し、制御部11が取り出した文章に対応する式
木を生成する(ステップs14)。 (5)表現変換部18が、表現変換辞書17から語彙見
出しを取り出す(ステップs15)。
【0050】(6)表現変換部18が、取り出した語彙
見出しと、形態素解析部14が取り出した単語とが一致
するか否かを判定し(ステップs16)、もし一致を判
定すれば、制御部11が取り出した文章中の単語を、語
彙見出しに該当する代表表現に書き換える(ステップs
17)。文章中に、他にも語彙見出しとして使用できる
単語が存在すれば(5)に移行する。存在しなければ
(7)に移行する(ステップs18)。表現変換部18
が、図3に示した表現変換辞書17を用いて置き換えを
行った結果、図2(c)に示した式木は、図5(a)に
示すように書き換えられる。
【0051】(7)式木変換部19は、構文解析部16
が作成した式木を文字列に置き換える(ステップs1
9)。図5(a)に示した式木に対して式木変換部19
が処理を行うと、これらの式木は、図5(b)に示す文
字列に置き換えられる。 (8)ハフマン圧縮部21は、圧縮テーブル20を参照
して、式木変換部19が生成した文字列をビット列に置
き換える。(ステップs20)。
【0052】このように本発明の文書圧縮装置および文
書圧縮方法によれば、元の文書の意味内容を留めながら
も高圧縮率の圧縮文書を得ることができる。尚、本文書
圧縮装置の構成は上記の構成に限定されるものではな
く、例えば、圧縮テーブル20およびハフマン圧縮部2
1からなるハフマン圧縮法を行う構成に代えて、他の頻
度情報を用いた公知の圧縮法を用いて文書ファイルの圧
縮を行う圧縮部を適用してもよい。
【0053】上述の文書圧縮装置の一例を以下に述べ
る。上記の圧縮部は、辞書作成部と、書き換え圧縮部と
からなり、辞書作成部は、処理対象の文書ファイル中の
単語が出現頻度が小さいものの順に並べられた辞書を作
成する。書き換え圧縮部は、式木生成部19が生成した
それぞれの式木を、辞書作成手段が作成した辞書におけ
るそれぞれの単語の位置を示すビット列に書き換える。
このような圧縮部を備えれば、それぞれの文書ファイル
の頻度情報を用いて文書ファイルを圧縮することができ
る。
【0054】
【発明の効果】以上説明してきたように、本発明の文書
圧縮装置および文書圧縮方法によれば、文書中に様々な
単語がまんべんなく存在する一般的な文書を処理対象と
する場合において、言い回しだけが異なるだけの単語
を、意味内容が通じるような代表表現に書き換え、更に
動詞、助動詞となる単語を活用記号に書き換え、構文要
素となる単語を所定の順序に並べかえ、並べかえによっ
て助詞となる単語を文章中から削除して、これらの処理
の後にハフマン圧縮法による文書圧縮を行うので、元の
文書の意味内容を留めながらも高圧縮率の圧縮文書を得
ることができる。
【図面の簡単な説明】
【図1】本発明の実施例における文書圧縮装置の構成を
示す図である。
【図2】本発明の文書圧縮装置によって、文章が式木に
書き換えられる経過を表す図である。
【図3】解析辞書12の内容を示す図である。
【図4】表現変換辞書17の内容を示す図である。
【図5】本発明の文書圧縮装置によって、式木が単語に
書き換えられる経過を表す図である。
【図6】圧縮テーブル20の内容を示す図である
【図7】本発明の文書圧縮装置の動作を示すフロ−チャ
−トである。
【符号の説明】
11 制御部 12 解析辞書 14 形態素解析部 15 辞書検索部 16 構文解析部 17 表現変換辞書 18 表現変換部 19 式木変換部 20 圧縮テーブル 21 ハフマン圧縮部

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】外部記憶装置などの文書保持手段に記憶さ
    れている文書ファイルを圧縮する文書圧縮装置であっ
    て、 文書保持手段から文章を一文ずつ取り出し、当該文章か
    ら形態素となる単語を取り出す形態素解析手段と、 単語と、当該単語と同一の意味内容を持つ単語のうち、
    最も一般的に使われる単語である代表表現とを記憶する
    代表表現記憶手段と、 形態素解析手段が解析したそれぞれの単語を用いて代表
    表現記憶手段を検索して、その単語に対応する代表表現
    を取り出し、文章中の単語を、当該代表表現に置き換え
    る代表表現置換手段と、 代表表現置換手段が置き換えた文章中の単語の何れか
    を、当該単語よりビット長が短いビット列に書き換える
    圧縮手段とを備えることを特徴とする文書圧縮装置
  2. 【請求項2】前記圧縮手段は代表表現の出現頻度の高さ
    の順に、短いビット長が割り当てられたビット列を記憶
    するビット列記憶手段と、 ビット列記憶手段を参照して、代表表現置換手段が置き
    換えられた文章中の単語の何れかを、ビット列に書き換
    える圧縮手段とからなることを特徴とする請求項1記載
    の文書圧縮装置
  3. 【請求項3】前記圧縮手段は前記文書ファイル中の単語
    が出現頻度が小さいものの順に並べられた辞書を作成す
    る辞書作成手段と、 代表表現置換手段が置き換えた文章中のそれぞれの単語
    を、辞書作成手段が作成した辞書におけるそれぞれの単
    語の位置を示すビット列に書き換える圧縮手段とからな
    ることを特徴とする請求項1記載の文書圧縮装置
  4. 【請求項4】外部記憶装置などの文書保持手段に記憶さ
    れている文書ファイルを圧縮する文書圧縮装置であっ
    て、 単語である語彙見出しと、それぞれの語彙見出しの品詞
    と、当該語彙見出しが、どの単語の活用形であるかを示
    す活用記号とを記憶する記憶手段と、 文書保持手段から、文章を一文ずつ取り出し、当該文章
    から、形態素となる単語を取り出す形態素解析手段と、 形態素解析手段によって取り出された単語を語彙見出し
    として用いて、記憶手段を検索し、その単語に対応する
    品詞、活用記号を取り出し、文章中の単語を、活用記号
    に置き換える検索手段と、 検索手段が検索した品詞に基づいて、形態素解析手段が
    取り出した単語が、構文中の、主語、述語、目的語等の
    どの構文要素に対応するかを判定する構文解析手段と、 構文解析手段の判定結果に基づいて、それぞれの単語が
    どの単語を修飾しているかを示す修飾記号を、それぞれ
    の単語の前あるいは後に書き加える書き換え手段と、 書き換え手段が書き換えた文章中の単語の何れかを、当
    該単語よりビット長が短いビット列に書き換える圧縮手
    段とを備えることを特徴とする文書圧縮装置
  5. 【請求項5】前記圧縮手段は単語、活用記号、および修
    飾記号の出現頻度の高さの順に、短いビット長が割り当
    てられたビット列を記憶するビット列記憶手段と、 ビット列記憶手段を参照して、書き換え手段が書き換え
    た文章中の単語、活用記号、および修飾記号を、ビット
    列に書き換える圧縮手段とからなることを特徴とする請
    求項4記載の文書圧縮装置
  6. 【請求項6】前記圧縮手段は前記文書ファイル中の単
    語、活用記号、および修飾記号が出現頻度が小さいもの
    の順に並べられた辞書を作成する辞書作成手段と、 書き換え手段が書き換えた文章中のそれぞれの単語を、
    辞書作成手段が作成した辞書におけるそれぞれの単語の
    位置、活用記号、および修飾記号を示すビット列に書き
    換える圧縮手段とからなることを特徴とする請求項4記
    載の文書圧縮装置
  7. 【請求項7】外部記憶装置などの文書保持手段に記憶さ
    れている文書ファイルを圧縮する文書圧縮装置であっ
    て、 単語である語彙見出しと、それぞれの語彙見出しの品詞
    と、当該語彙見出しが、どの単語の活用形であるかを示
    す活用記号とを記憶する記憶手段と、 文書保持手段から、文章を一文ずつ取り出し、当該文章
    から、形態素となる単語を取り出す形態素解析手段と、 形態素解析手段によって取り出された単語を語彙見出し
    として用いて、記憶手段を検索し、その単語に対応する
    品詞、活用記号を取り出し、文章中の単語を、活用記号
    に置き換える検索手段と、 単語と、当該単語と同一の意味内容を持つ単語のうち、
    最も一般的に使われる単語である代表表現とを記憶する
    代表表現記憶手段と、 検索手段が検索した品詞に基づいて、形態素解析手段が
    取り出した単語が、構文中の、主語、述語、目的語等の
    どの構文要素に対応するかを判定する構文解析手段と、 構文解析手段の判定結果に基づいて、単語の前あるいは
    後ろに、それぞれの単語がどの単語を修飾しているかを
    示す修飾記号を書き加える書き換え手段と、 形態素解析手段が解析したそれぞれの単語を用いて代表
    表現記憶手段を検索し、その単語に対応する代表表現を
    取り出し、書き換え手段が書き換えた文章中の単語を、
    当該代表表現に書き換える代表表現置換手段と、 代表表現置換手段が書き換えた文章中の単語の何れか
    を、当該単語よりビット長が短いビット列に書き換える
    圧縮手段とを備えることを特徴とする文書圧縮装置
  8. 【請求項8】前記圧縮手段は単語、活用記号、修飾記
    号、および代表表現の出現頻度の高さの順に、短いビッ
    ト長が割り当てられたビット列を記憶するビット列記憶
    手段と、 ビット列記憶手段を参照して、代表表現置換手段が書き
    換えた文章中の単語、活用記号、修飾記号、および代表
    表現を、ビット列に書き換える圧縮手段とからなること
    を特徴とする請求項7記載の文書圧縮装置
  9. 【請求項9】前記圧縮手段は前記文書ファイル中の単
    語、活用記号、修飾記号、および代表表現が出現頻度が
    小さいものの順に並べられた辞書を作成する辞書作成手
    段と、 代表表現置換手段が書き換えた文章中のそれぞれの単語
    を、辞書作成手段が作成した辞書におけるそれぞれの単
    語の位置、活用記号、修飾記号、および代表表現を示す
    ビット列に書き換える圧縮手段とからなることを特徴と
    する請求項7記載の文書圧縮装置
  10. 【請求項10】外部記憶装置などの文書保持部に記憶さ
    れている文書ファイルを圧縮する文書圧縮方法であっ
    て、 文書保持部から文章を一文ずつ取り出し、当該文章から
    形態素となる単語を取り出す形態素解析ステップと、 形態素解析ステップが解析したそれぞれの単語を用い
    て、単語と、当該単語と同一の意味内容を持つ単語のう
    ち、最も一般的に使われる単語である代表表現とを記憶
    する代表表現記憶部を検索し、その単語に対応する代表
    表現を取り出して、文章中の単語を、当該代表表現に置
    き換える代表表現置換ステップと、 代表表現置換ステップが置き換えた文章中の単語の何れ
    かを、当該単語よりビット長が短いビット列に書き換え
    る圧縮ステップとからなることを特徴とする文書圧縮方
  11. 【請求項11】前記圧縮ステップは代表表現の出現頻度
    の高さの順に、短いビット長が割り当てられたビット列
    を記憶するビット列記憶部を参照して、代表表現置換ス
    テップが置き換えられた文章中の単語の何れかを、ビッ
    ト列に書き換える圧縮ステップとからなることを特徴と
    する請求項10記載の文書圧縮方法
  12. 【請求項12】前記圧縮ステップは前記文書ファイル中
    の単語が出現頻度が小さいものの順に並べられた辞書を
    作成する辞書作成ステップと、 代表表現置換ステップが置き換えた文章中のそれぞれの
    単語を、辞書作成ステップが作成した辞書におけるそれ
    ぞれの単語の位置を示すビット列に書き換える圧縮ステ
    ップとからなることを特徴とする請求項10記載の文書
    圧縮方法
  13. 【請求項13】外部記憶装置などの文書保持部に記憶さ
    れている文書ファイルを圧縮する文書圧縮方法であっ
    て、 文書保持部から、文章を一文ずつ取り出し、当該文章か
    ら、形態素となる単語を取り出す形態素解析ステップ
    と、 形態素解析ステップによって取り出された単語を語彙見
    出しとして用いて、単語である語彙見出しと、それぞれ
    の語彙見出しの品詞と、当該語彙見出しが、どの単語の
    活用形であるかを示す活用記号とを記憶する記憶部を検
    索し、その単語に対応する品詞、活用記号を取り出し、
    文章中の単語を、活用記号に置き換える検索ステップ
    と、 検索ステップが検索した品詞に基づいて、形態素解析ス
    テップが取り出した単語が、構文中の、主語、述語、目
    的語等のどの構文要素に対応するかを判定する構文解析
    ステップと、 構文解析ステップの判定結果に基づいて、それぞれの単
    語がどの単語を修飾しているかを示す修飾記号を、それ
    ぞれの単語の前あるいは後に書き加える書き換えステッ
    プと、 書き換えステップが書き換えた文章中の単語の何れか
    を、当該単語よりビット長が短いビット列に書き換える
    圧縮ステップとからなることを特徴とする文書圧縮方法
  14. 【請求項14】前記圧縮ステップは単語、活用記号、お
    よび修飾記号の出現頻度の高さの順に、短いビット長が
    割り当てられたビット列を記憶するビット列記憶部を参
    照して、書き換えステップが書き換えた文章中の単語、
    活用記号、および修飾記号を、ビット列に書き換える圧
    縮ステップとからなることを特徴とする請求項13記載
    の文書圧縮方法
  15. 【請求項15】前記圧縮ステップは前記文書ファイル中
    の単語、活用記号、および修飾記号が出現頻度が小さい
    ものの順に並べられた辞書を作成する辞書作成ステップ
    と、 書き換えステップが書き換えた文章中のそれぞれの単語
    を、辞書作成ステップが作成した辞書におけるそれぞれ
    の単語の位置、活用記号、および修飾記号を示すビット
    列に書き換える圧縮ステップとからなることを特徴とす
    る請求項13記載の文書圧縮方法
  16. 【請求項16】外部記憶装置などの文書保持部に記憶さ
    れている文書ファイルを圧縮する文書圧縮方法であっ
    て、 文書保持部から、文章を一文ずつ取り出し、当該文章か
    ら、形態素となる単語を取り出す形態素解析ステップ
    と、 形態素解析ステップによって取り出された単語を語彙見
    出しとして用いて、単語である語彙見出しと、それぞれ
    の語彙見出しの品詞と、当該語彙見出しが、どの単語の
    活用形であるかを示す活用記号とを記憶する記憶部を検
    索し、その単語に対応する品詞、活用記号を取り出し、
    文章中の単語を、活用記号に置き換える検索ステップ
    と、 検索ステップが検索した品詞に基づいて、形態素解析ス
    テップが取り出した単語が、構文中の、主語、述語、目
    的語等のどの構文要素に対応するかを判定する構文解析
    ステップと、 構文解析ステップの判定結果に基づいて、単語の前ある
    いは後ろに、それぞれの単語がどの単語を修飾している
    かを示す修飾記号を書き加える書き換えステップと、 形態素解析ステップが解析したそれぞれの単語を用い
    て、単語と、当該単語と同一の意味内容を持つ単語のう
    ち、最も一般的に使われる単語である代表表現とを記憶
    する代表表現記憶部を検索し、その単語に対応する代表
    表現を取り出し、書き換えステップが書き換えた文章中
    の単語を、当該代表表現に書き換える代表表現置換ステ
    ップと、 代表表現置換ステップが書き換えた文章中の単語の何れ
    かを、当該単語よりビット長が短いビット列に書き換え
    る圧縮ステップとからなることを特徴とする文書圧縮方
  17. 【請求項17】前記圧縮ステップは単語、活用記号、修
    飾記号、および代表表現の出現頻度の高さの順に、短い
    ビット長が割り当てられたビット列を記憶するビット列
    記憶部を参照して、代表表現置換ステップが書き換えた
    文章中の単語、活用記号、修飾記号、および代表表現
    を、ビット列に書き換える圧縮ステップとからなること
    を特徴とする請求項16記載の文書圧縮方法
  18. 【請求項18】前記圧縮ステップは前記文書ファイル中
    の単語、活用記号、修飾記号、および代表表現が出現頻
    度が小さいものの順に並べられた辞書を作成する辞書作
    成ステップと、 代表表現置換手段が書き換えた文章中のそれぞれの単語
    を、辞書作成ステップが作成した辞書におけるそれぞれ
    の単語の位置、活用記号、修飾記号、および代表表現を
    示すビット列に書き換える圧縮ステップとからなること
    を特徴とする請求項16記載の文書圧縮方法
JP5304137A 1993-12-03 1993-12-03 文書圧縮装置および文書圧縮方法 Pending JPH07160684A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP5304137A JPH07160684A (ja) 1993-12-03 1993-12-03 文書圧縮装置および文書圧縮方法
US08/348,721 US5614899A (en) 1993-12-03 1994-12-02 Apparatus and method for compressing texts

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5304137A JPH07160684A (ja) 1993-12-03 1993-12-03 文書圧縮装置および文書圧縮方法

Publications (1)

Publication Number Publication Date
JPH07160684A true JPH07160684A (ja) 1995-06-23

Family

ID=17929494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5304137A Pending JPH07160684A (ja) 1993-12-03 1993-12-03 文書圧縮装置および文書圧縮方法

Country Status (2)

Country Link
US (1) US5614899A (ja)
JP (1) JPH07160684A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014147672A1 (ja) * 2013-03-22 2014-09-25 富士通株式会社 圧縮装置、圧縮方法、辞書生成装置、辞書生成方法、伸長装置、伸長方法、伸長プログラムおよび情報処理システム
EP3276507A1 (en) 2016-07-25 2018-01-31 Fujitsu Limited Encoding device, encoding method and search method
CN112417875A (zh) * 2020-11-17 2021-02-26 深圳平安智汇企业信息管理有限公司 配置信息的更新方法、装置、计算机设备及介质

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6021433A (en) * 1996-01-26 2000-02-01 Wireless Internet, Inc. System and method for transmission of data
US7035914B1 (en) 1996-01-26 2006-04-25 Simpleair Holdings, Inc. System and method for transmission of data
DE69712835T2 (de) * 1996-07-18 2002-09-19 Matsushita Electric Ind Co Ltd Gerät zur Unterstützung des Wiederauffindens von Daten
US6167426A (en) * 1996-11-15 2000-12-26 Wireless Internet, Inc. Contact alerts for unconnected users
US6886130B1 (en) * 1997-11-26 2005-04-26 International Business Machines Corporation Compiled structure for efficient operation of distributed hypertext
US5991713A (en) * 1997-11-26 1999-11-23 International Business Machines Corp. Efficient method for compressing, storing, searching and transmitting natural language text
US6167370A (en) * 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US6470347B1 (en) 1999-09-01 2002-10-22 International Business Machines Corporation Method, system, program, and data structure for a dense array storing character strings
US7120574B2 (en) * 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US7962326B2 (en) * 2000-04-20 2011-06-14 Invention Machine Corporation Semantic answering system and method
JP3662519B2 (ja) * 2000-07-13 2005-06-22 シャープ株式会社 光ピックアップ
US7171349B1 (en) 2000-08-11 2007-01-30 Attensity Corporation Relational text index creation and searching
US6732097B1 (en) 2000-08-11 2004-05-04 Attensity Corporation Relational text index creation and searching
US6732098B1 (en) 2000-08-11 2004-05-04 Attensity Corporation Relational text index creation and searching
US6738765B1 (en) 2000-08-11 2004-05-18 Attensity Corporation Relational text index creation and searching
US6741988B1 (en) 2000-08-11 2004-05-25 Attensity Corporation Relational text index creation and searching
US6728707B1 (en) 2000-08-11 2004-04-27 Attensity Corporation Relational text index creation and searching
US6892206B2 (en) * 2000-08-31 2005-05-10 Yahoo! Inc. Reduction of meta data in a network
GB0107772D0 (en) * 2001-03-28 2001-05-16 Hewlett Packard Co Improvements relating to data delivery
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US20040167883A1 (en) * 2002-12-06 2004-08-26 Attensity Corporation Methods and systems for providing a service for producing structured data elements from free text sources
CN1567174A (zh) * 2003-06-09 2005-01-19 吴胜远 对象表示和处理的方法及其装置
US7813916B2 (en) 2003-11-18 2010-10-12 University Of Utah Acquisition and application of contextual role knowledge for coreference resolution
US7607918B2 (en) * 2005-05-27 2009-10-27 Dybuster Ag Method and system for spatial, appearance and acoustic coding of words and sentences
US7698269B2 (en) * 2005-11-29 2010-04-13 Yahoo! Inc. URL shortening and authentication with reverse hash lookup
US20070260450A1 (en) * 2006-05-05 2007-11-08 Yudong Sun Indexing parsed natural language texts for advanced search
JP4398988B2 (ja) * 2007-03-26 2010-01-13 株式会社東芝 構造化文書を管理する装置、方法およびプログラム
EP2406731A4 (en) * 2009-03-13 2012-08-22 Invention Machine Corp SYSTEM AND METHOD FOR THE AUTOMATIC SEMANTIC MARKING OF NATURAL LANGUAGE TEXTS
US9317595B2 (en) 2010-12-06 2016-04-19 Yahoo! Inc. Fast title/summary extraction from long descriptions
CN109982111B (zh) * 2017-12-28 2020-05-22 贵州白山云科技股份有限公司 基于直播网络系统的文本内容传输优化方法、装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6268325A (ja) * 1985-09-20 1987-03-28 Oki Electric Ind Co Ltd 文章圧縮・伸展方式
JPS63209228A (ja) * 1987-02-25 1988-08-30 Oki Electric Ind Co Ltd デ−タ圧縮方法
US4906991A (en) * 1988-04-29 1990-03-06 Xerox Corporation Textual substitution data compression with finite length search windows
US5058144A (en) * 1988-04-29 1991-10-15 Xerox Corporation Search tree data structure encoding for textual substitution data compression systems
JPH0278323A (ja) * 1988-09-14 1990-03-19 Hitachi Ltd データ圧縮復元方式
US5099426A (en) * 1989-01-19 1992-03-24 International Business Machines Corporation Method for use of morphological information to cross reference keywords used for information retrieval
US4988998A (en) * 1989-09-05 1991-01-29 Storage Technology Corporation Data compression system for successively applying at least two data compression methods to an input data stream
US5109433A (en) * 1989-10-13 1992-04-28 Microsoft Corporation Compressing and decompressing text files
US5023610A (en) * 1990-06-13 1991-06-11 Cordell Manufacturing, Inc. Data compression method using textual substitution
JP3038233B2 (ja) * 1990-09-14 2000-05-08 富士通株式会社 データ圧縮及び復元装置
JPH04167821A (ja) * 1990-10-31 1992-06-15 Fujitsu Ltd データ符号化及び復号化方法
US5384568A (en) * 1993-12-02 1995-01-24 Bell Communications Research, Inc. Data compression

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014147672A1 (ja) * 2013-03-22 2014-09-25 富士通株式会社 圧縮装置、圧縮方法、辞書生成装置、辞書生成方法、伸長装置、伸長方法、伸長プログラムおよび情報処理システム
JPWO2014147672A1 (ja) * 2013-03-22 2017-02-16 富士通株式会社 圧縮装置、圧縮方法、辞書生成装置、辞書生成方法、伸長装置、伸長方法、伸長プログラムおよび情報処理システム
EP3276507A1 (en) 2016-07-25 2018-01-31 Fujitsu Limited Encoding device, encoding method and search method
US9906238B2 (en) 2016-07-25 2018-02-27 Fujitsu Limited Encoding device, encoding method and search method
CN112417875A (zh) * 2020-11-17 2021-02-26 深圳平安智汇企业信息管理有限公司 配置信息的更新方法、装置、计算机设备及介质
CN112417875B (zh) * 2020-11-17 2023-08-15 深圳平安智汇企业信息管理有限公司 配置信息的更新方法、装置、计算机设备及介质

Also Published As

Publication number Publication date
US5614899A (en) 1997-03-25

Similar Documents

Publication Publication Date Title
JPH07160684A (ja) 文書圧縮装置および文書圧縮方法
US8090571B2 (en) Method and system for building and contracting a linguistic dictionary
US7072889B2 (en) Document retrieval using index of reduced size
US7069207B2 (en) Linguistically intelligent text compression
US7809553B2 (en) System and method of creating and using compact linguistic data
JP4672418B2 (ja) ユーザモデリングによる効率のよい大文字化
US20040225497A1 (en) Compressed yet quickly searchable digital textual data format
EP3276507B1 (en) Encoding device, encoding method and search method
Germann et al. Tightly packed tries: How to fit large models into memory, and make them load fast, too
JP4493397B2 (ja) テキスト圧縮装置
Tufiş et al. Automatic diacritics insertion in Romanian texts
JPS6170660A (ja) 機械翻訳システムにおける多義表示・選択方法
TW548600B (en) Method and system for identifying attributes of new words in non-segmented text
JP4856573B2 (ja) 要約文生成装置及び要約文生成プログラム
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
Awajan et al. Hybrid technique for Arabic text compression
JP7247460B2 (ja) 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
JPH10214268A (ja) 文書検索方法および装置
JP2005063030A (ja) 概念表現方法、概念表現生成方法及び概念表現生成装置並びに該方法を実現するプログラム及び該プログラムが記録された記録媒体
JPH0140372B2 (ja)
JPH07182354A (ja) 電子文書の作成方法
JP3419748B2 (ja) 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体
JPS6389976A (ja) 言語解析装置
JP3609252B2 (ja) 文字列自動分類装置およびその方法
JP3923829B2 (ja) メッセージ要約装置、メッセージ要約方法及びコンピュータにメッセージの要約を実行させるためのプログラム