JPH09246987A - データ圧縮装置及び同圧縮装置で圧縮されたデータを対象とするデータ検索装置 - Google Patents

データ圧縮装置及び同圧縮装置で圧縮されたデータを対象とするデータ検索装置

Info

Publication number
JPH09246987A
JPH09246987A JP8046115A JP4611596A JPH09246987A JP H09246987 A JPH09246987 A JP H09246987A JP 8046115 A JP8046115 A JP 8046115A JP 4611596 A JP4611596 A JP 4611596A JP H09246987 A JPH09246987 A JP H09246987A
Authority
JP
Japan
Prior art keywords
data
message
message element
elements
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8046115A
Other languages
English (en)
Inventor
Kiyonori Moriya
精徳 森谷
Masaki Uchiumi
正樹 内海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Advanced System Co Ltd
Original Assignee
Toshiba Corp
Toshiba Advanced System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Advanced System Co Ltd filed Critical Toshiba Corp
Priority to JP8046115A priority Critical patent/JPH09246987A/ja
Publication of JPH09246987A publication Critical patent/JPH09246987A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】出現頻度の高いメッセージほど短い符号語に割
り当てることが実現でき、更に圧縮データを対象とした
検索処理が高速で行えるようにする。 【解決手段】文章入力部11により入力される文章をメ
ッセージ要素分解部12にて分析してメッセージ要素に
分解する。メッセージ要素位置検出部13は、この分解
された各メッセージ要素の入力文章上の位置をもとに、
同一メッセージ要素間の距離を文字数で検出し、そのメ
ッセージ要素と対応させて記憶部14に格納する。メッ
セージ要素接続関係解析部40は、指定の検索キーワー
ドを検索キーワード分析部30にて分解することで得ら
れる各メッセージ要素が、全てメッセージ要素位置記憶
部14に格納されているならば、その各メッセージ要素
の該当する文章上の位置を当該記憶部14の情報をもと
に算出し、その算出結果をもとに、各メッセージ要素が
接続している箇所の有無を調べる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データ管理システ
ムなど、大容量データを扱うシステムに用いて好適な、
データ圧縮装置及び同圧縮装置で圧縮されたデータを対
象とするデータ検索装置に関する。
【0002】
【従来の技術】一般に、データ管理システムなど、大容
量データを扱うシステムにおいて、データ圧縮(データ
符号化)機能は重要である。このようなデータ圧縮機能
を実現する技術として、圧縮データを伸張した際に元の
データに完全に復元できる、即ちひずみの伴わないな無
雑音圧縮法(無ひずみ符号化法)が知られている。この
無雑音圧縮法を適用したシステムにおいては、通常高圧
縮率を実現するために伸張(復号)処理に多大な時間が
かかっているのが一般的である。
【0003】一方、大容量データを対象とするデータ検
索装置においては、高速な検索処理を実現することが要
求されている。ところが、ハフマン符号に代表される周
知のデータ圧縮技術では、データ伸張に時間がかかるた
め、圧縮データを検索対象にすることは難しかった。
【0004】
【発明が解決しようとする課題】上記したように、大容
量データを対象とするデータ検索装置においては、従来
より高速な検索処理を実現することが要求されている
が、ハフマン符号に代表される周知のデータ圧縮技術で
は、伸張処理に多大な時間がかかることから、圧縮デー
タを検索対象にすることが難しいという問題があった。
【0005】一方、「D.A.Huffman,"A Method for the
Construction of Minimun Redundancy Codes",Proc.IR
E,vol.40 」以降の情報理論の研究により、効率的なデ
ータ圧縮は、出現頻度の高いメッセージほど短い符号語
に割り当てることによって実現されていることが示され
ている。
【0006】本発明は上記事情を考慮してなされたもの
でその目的は、出現頻度の高いメッセージほど短い符号
語に割り当てることが実現でき、もってデータ圧縮の効
率化が図れるデータ圧縮装置を提供することにある。
【0007】本発明の他の目的は、高圧縮率を実現しな
がら、圧縮データを対象とした検索処理を実行した場合
にも、検索処理時間を大幅に削減し、高速で検索処理を
行うことができるデータ検索装置を提供することにあ
る。
【0008】
【課題を解決するための手段】本発明のデータ圧縮装置
は、圧縮対象となるデータを入力するためのデータ入力
手段と、このデータ入力手段により入力されるデータを
分析してメッセージ要素に分解するメッセージ要素分解
手段と、このメッセージ要素分解手段により分解された
各メッセージ要素の入力データ上における出現位置をも
とに、同一メッセージ要素間の距離差分を検出して同一
メッセージ要素間の距離データを取得するメッセージ要
素位置検出手段とを備え、上記メッセージ要素分解手段
により分解された、それぞれ異なるメッセージ要素と、
そのメッセージ要素毎に上記メッセージ要素位置検出手
段により取得された同一メッセージ要素間の距離データ
とを含むデータを、入力データに対する圧縮データとす
るようにしたことを特徴とするものである。
【0009】このデータ圧縮装置においては、同一メッ
セージ要素間の距離差分のデータが符号語として割り当
てられることから、出現頻度の高いメッセージ要素ほど
短い符号語に割り当てることができ、データ圧縮の効率
向上が図れる。
【0010】また、本発明のデータ検索装置は、検索キ
ーワードを入力するための検索キーワード入力手段と、
この検索キーワード入力手段により入力された検索キー
ワードを分析してメッセージ要素に分解する検索キーワ
ード分析手段と、上記データ圧縮装置により圧縮された
圧縮データ中に、検索キーワード分析手段により分解さ
れた各メッセージ要素が全て存在する場合に、上記圧縮
データに含まれている当該各メッセージ要素についての
同一メッセージ要素間の距離データをもとに当該各メッ
セージ要素の出現位置を復元し、その位置関係から、当
該各メッセージ要素を接続した検索キーワードが上記圧
縮データの元データ中に存在するか否かを解析するメッ
セージ要素接続関係解析手段とを備えたことを特徴とす
る。
【0011】このデータ検索装置においては、圧縮デー
タに対する一種の伸張(メッセージ要素の出現位置の復
元)と照合(メッセージ要素接続関係の解析を含む)
は、検索キーワードを構成するメッセージ要素のみにつ
いて行えばよいことから、圧縮データを対象とする検索
処理の高速化が図れる。
【0012】
【発明の実施の形態】以下、本発明の一実施形態につき
図面を参照して説明する。図1は本発明の一実施形態に
係るデータ圧縮機能を有するデータ検索装置の構成を示
すブロック図である。なお、本実施形態では、符号化対
象データを慣用に従ってメッセージと称する。
【0013】図1に示すデータ圧縮機能を有するデータ
検索装置は、データ圧縮部10、検索キーワード入力部
20、検索キーワード分析部30、メッセージ要素接続
関係解析部40、及び出力部50を有している。
【0014】データ圧縮部10は検索の対象となる文章
(文章データ)のデータ圧縮を司るもので、文章入力部
11、メッセージ要素分解部12、メッセージ要素位置
検出部13及びメッセージ要素位置記憶部14から構成
される。
【0015】文章入力部11は、検索の対象となる文章
(文章データ)を、ディスク装置、或いは通信回線等か
ら入力する。メッセージ要素分解部12は、文章入力部
11により入力される文章を分析して、文章先頭から順
にメッセージ要素に分解する。
【0016】メッセージ要素位置検出部13は、メッセ
ージ要素分解部12により分解された各メッセージ要素
の入力文章上における位置(出現位置)から、同一メッ
セージ要素間の距離(距離差分)を文字数で検出する。
ここで、同一メッセージ要素間の距離を文字数で検出す
るとは、入力文章上のあるメッセージ要素と、当該メッ
セージ要素と同一のメッセージ要素のうち当該メッセー
ジ要素の次に出現するメッセージ要素との間に存在する
文字の数を検出することをいう。
【0017】メッセージ要素位置記憶部15は、文章入
力部11により入力された文章に対する圧縮データを記
憶しておくためのもので、メッセージ要素位置検出部1
3により検出されたメッセージ要素間の距離を示すデー
タ等の記憶に用いられる。
【0018】図2は、このメッセージ要素位置記憶部1
4のデータ格納構造を模式的に示す。図から明らかなよ
うに、メッセージ要素位置記憶部14は、各メッセージ
要素を格納するためのメッセージ要素格納領域141、
当該領域141に格納されている各メッセージ要素(の
先頭文字)が(入力文章上で)それぞれ最初に出現する
位置(メッセージ要素先頭位置)を格納するためのメッ
セージ要素先頭位置格納領域142、及びメッセージ要
素間距離データ格納領域143の各格納領域を有する。
このメッセージ要素間距離データ格納領域143は、領
域141に格納されている各メッセージ要素毎に、同一
メッセージ要素間の距離を文字数で表すデータ(メッセ
ージ要素間距離データ)を格納するのに用いられる。
【0019】再び図1を参照すると、検索キーワード入
力部20は、ユーザ指定の検索キーワードを入力する。
検索キーワード分析部30は、検索キーワード入力部2
0により入力されたキーワードを分析し、メッセージ要
素に分解する。
【0020】メッセージ要素接続関係解析部40は、検
索キーワード分析部30により分解された各メッセージ
要素(検索キーワードを構成する各メッセージ要素)に
よりメッセージ要素位置記憶部14(に記憶されている
圧縮データ)を参照し、そのメッセージ要素が当該記憶
部14に格納されているか否かを解析する。メッセージ
要素接続関係解析部40はまた、メッセージ要素位置記
憶部14に格納されているメッセージ要素の位置関係か
ら、検索キーワード分析部30により分解された各メッ
セージ要素を接続した検索キーワードがメッセージ要素
位置記憶部14に記憶されている圧縮データの元データ
(元の文章)中に存在するか否かを解析する。
【0021】出力部50は、メッセージ要素接続関係解
析部40による解析結果であるキーワード検索結果の出
力を司る。次に、図1の構成のデータ圧縮機能を有する
データ検索装置の動作を説明する。
【0022】まずデータ圧縮部10において、文章入力
部11により、図3に示したような日本語文章が、デー
タ圧縮並びにデータ検索の対象として、ディスク装置、
或いは通信回線等から入力されたものとする。なお、図
3の文章中の各文字の下部に付してある数値は、文章先
頭からの文字位置を示す。例えば、数値「1」が付され
ている文字「○」は、入力文章中の先頭文字であり、数
値「89」が付されている文字「府」は、入力文章中の
89番目の文字であることを示す。
【0023】メッセージ要素分解部12は、文章入力部
11による文章入力と並行して、その入力文章に対する
日本語解析処理を文章先頭から行い、当該文章を文字、
単語或いは語句単位のメッセージ要素に順に分解する。
ここで、メッセージ要素の単位を、文字、単語或いは語
句のいずれとするかは、システムで予め定められていて
も、ユーザにより任意に指定されるものであっても構わ
ない。
【0024】本実施形態では、単語単位のメッセージ要
素に分解されるものとし、助詞等は対象外とされるもの
とする。この場合、例えば図3の文章の先頭部分の「○
△は、○△府中工場にて、」は、「○△」、「○△」、
「府中」、「工場」の各メッセージ要素に順次分解され
ることになる。なお、図3中で「(中略)」と示されて
いる部分には、「○△」、「府中」、「工場」の各メッ
セージ要素は存在しないものとする。
【0025】メッセージ要素位置検出部13は、メッセ
ージ要素分解部12によりメッセージ要素に分解される
毎に、そのメッセージ要素(中の例えば先頭文字)の入
力文章上での出現位置を検出する。
【0026】そしてメッセージ要素位置検出部13は、
メッセージ要素分解部12により分解されたメッセージ
要素の入力文章上での出現位置を検出すると、そのメッ
セージ要素についての最初の出現位置検出時であれば、
即ちそのメッセージ要素がメッセージ要素位置記憶部1
4内のメッセージ要素格納領域141に格納されていな
い状態における出現位置検出時であれば、そのメッセー
ジ要素を検出順に当該メッセージ要素格納領域141に
格納すると共に、そのメッセージ要素の出現位置を、そ
のメッセージ要素のメッセージ要素格納領域141内格
納位置に対応させて、メッセージ要素位置記憶部14内
のメッセージ要素先頭位置格納領域142に格納する。
【0027】これにより、図3に示した入力文章の場合
には、例えばメッセージ要素「○△」,「府中」,「工
場」の最初の出現位置が検出された際には、図4に示す
ように、メッセージ要素「○△」,「府中」,「工場」
がメッセージ要素位置記憶部14のメッセージ要素格納
領域141に格納されると共に、その検出された出現位
置「1」,「7」,「9」が(メッセージ要素先頭位置
として)、そのメッセージ要素「○△」,「府中」,
「工場」のメッセージ要素格納領域141内格納位置に
対応させて、メッセージ要素先頭位置格納領域142に
格納される。
【0028】またメッセージ要素位置検出部13は、メ
ッセージ要素分解部12により分解されたメッセージ要
素の入力文章上での出現位置を検出し、且つそのメッセ
ージ要素についての2番目以降の出現位置検出時であれ
ば、即ちそのメッセージ要素がメッセージ要素位置記憶
部14内のメッセージ要素格納領域141に既に格納さ
れている状態における出現位置検出時であれば、その出
現位置と先行する同一メッセージ要素の出現位置とか
ら、先行する同一メッセージ要素との間の距離を文字数
で検出し、その文字数を表すデータをメッセージ要素間
の距離データ(距離差分のデータ)として、そのメッセ
ージ要素のメッセージ要素格納領域141内格納位置に
対応させて、メッセージ要素位置記憶部14内のメッセ
ージ要素間距離データ格納領域143に検出順に格納す
る。
【0029】このメッセージ要素間の距離(を表す文字
数)は、メッセージ要素の構成文字数がmであって、そ
のメッセージ要素のn番目の出現位置Pn を検出した場
合であれば、先行する同一メッセージ要素のn−1番目
の出現位置がPn-1 であるとすると、“Pn −Pn-1 −
m”となる。
【0030】したがって、図3に示した入力文章の場合
には、例えばメッセージ要素「○△」,「府中」,「工
場」の2番目の出現位置「5」,「89」,「91」を
検出した際には、当該メッセージ要素「○△」,「府
中」,「工場」の最初(1番目)の出現位置が「1」,
「7」,「9」であることから、メッセージ要素「○
△」,「府中」,「工場」についての同一メッセージ要
素間の距離の文字数として、それぞれ「2」,「8
0」,「80」が検出されることになる。この文字数
「2」,「80」,「80」を表すデータは、メッセー
ジ要素「○△」,「府中」,「工場」についての同一メ
ッセージ要素間距離データとして、図4に示すように、
そのメッセージ要素「○△」,「府中」,「工場」のメ
ッセージ要素格納領域141内格納位置に対応させて、
メッセージ要素間距離データ格納領域143に格納され
る。
【0031】さて、図3の入力文章の例では、メッセー
ジ要素分解部12により分解されるメッセージ要素のう
ちの例えば「○△」は出現頻度が高く、「府中」及び
「工場」は出現頻度が低い。この場合、(同一メッセー
ジ要素についての)メッセージ要素間の距離(を表す文
字数)は、出現頻度の高い「○△」が短く(少なく)、
出現頻度の低い「府中」及び「工場」は長い(多い)。
【0032】したがって、出現頻度の高いメッセージ要
素ほど、少ないビット数で表現可能な小さな値(即ち短
い符号)が、メッセージ要素位置記憶部14のメッセー
ジ要素間距離データ格納領域143に格納されることに
なるため、効率的なデータ圧縮(文章データ圧縮)が実
現される。
【0033】このメッセージ要素位置記憶部14の内部
データ構造においては、メッセージ要素格納領域141
により、メッセージ要素としての登録内容は、検索処理
を実行する前に明確になっている。また、メッセージ要
素先頭位置格納領域142に格納されている各メッセー
ジ要素の最初の出現位置と、メッセージ要素間距離デー
タ格納領域143に格納されている、同一メッセージ要
素間の距離データとから、入力文章上の出現位置も容易
に計算可能であり、例えば検索キーワードを構成する異
なるメッセージ要素同士の入力文章上での接続の有無も
簡単に解析可能である。したがって、このような内部構
造を持つ圧縮データは、高速検索が可能である。
【0034】そこで、上記のようにしてデータ圧縮部1
0により圧縮された図4に示す内部構造を持つメッセー
ジ要素位置記憶部14上のデータ、即ち図3に示した文
章の圧縮データを対象とするデータ検索について、図5
のフローチャートを適宜参照して説明する。
【0035】まず検索キーワード入力部20により、ユ
ーザ指定の検索キーワードデータの入力が受け付けら
れ、その受け付けたキーワードが検索キーワード分析部
30に入力される。ここでは、検索キーワードとして
「○△府中工場」が入力されたものとする。
【0036】検索キーワード分析部30は、検索キーワ
ード入力部20から入力されたキーワード「○△府中工
場」を分析し、文字、単語、或いは語句単位のメッセー
ジ要素に分解する。ここでは、前記したデータ圧縮部1
0内のメッセージ要素分解部12によるメッセージ要素
への分解と同様の条件で、単語単位のメッセージ要素、
即ち「○△」と「府中」と「工場」に分解されるものと
する。
【0037】検索キーワード分析部30により分解され
た、入力検索キーワードの各メッセージ要素「○△」,
「府中」,「工場」は、その並び順でメッセージ要素接
続関係解析部40に渡される。
【0038】メッセージ要素接続関係解析部40は、検
索キーワード分析部30から渡された入力検索キーワー
ドの各メッセージ要素「○△」,「府中」,「工場」に
よりメッセージ要素位置記憶部14のメッセージ要素格
納領域141内を参照して、当該メッセージ要素「○
△」,「府中」,「工場」が全て格納されているか否か
をチェックする(ステップS1)。
【0039】もし、入力検索キーワードのメッセージ要
素「○△」,「府中」,「工場」のうちの1つでもメッ
セージ要素格納領域141内に格納されていないなら
ば、メッセージ要素接続関係解析部40は、各メッセー
ジ要素「○△」,「府中」,「工場」が接続された検索
キーワード「○△府中工場」の圧縮データは、メッセー
ジ要素位置記憶部14内に存在しないものとして、検索
キーワード無しを示す解析結果(検索結果)を出力部5
0に通知する(ステップS2)。
【0040】これに対し、入力検索キーワードのメッセ
ージ要素「○△」,「府中」,「工場」が全てメッセー
ジ要素格納領域141内に格納されており、且つ本実施
形態のように入力検索キーワードのメッセージ要素が複
数の場合には(ステップS3)、メッセージ要素接続関
係解析部40は、そのメッセージ要素「○△」,「府
中」,「工場」に対応してメッセージ要素位置記憶部1
4のメッセージ要素先頭位置格納領域142に格納され
ている、そのメッセージ要素「○△」,「府中」,「工
場」が該当文章上でそれぞれ最初に出現する位置(メッ
セージ要素先頭位置)と、同じくメッセージ要素位置記
憶部14のメッセージ要素間距離データ格納領域143
に格納されている、そのメッセージ要素「○△」,「府
中」,「工場」間の各距離データ(メッセージ要素「○
△」,「府中」,「工場」間の文字数を表すデータ)と
から、そのメッセージ要素「○△」,「府中」,「工
場」の該当する文章上での出現位置を算出する(ステッ
プS4)。メッセージ要素位置記憶部14(内のメッセ
ージ要素先頭位置格納領域142及びメッセージ要素間
距離データ格納領域143)の内容が図4のようになっ
ている場合の、上記算出結果を図6に示す。
【0041】メッセージ要素接続関係解析部40は、図
5に示したような、入力検索キーワードの各メッセージ
要素「○△」,「府中」,「工場」の該当文章上での出
現位置を算出すると、その算出結果から、メッセージ要
素「○△」,「府中」,「工場」が接続している箇所の
有無、即ち入力検索キーワード「○△府中工場」に一致
する箇所の有無をチェックする(ステップS5)。
【0042】具体的には、メッセージ要素「○△」の出
現位置をP1 とすると、メッセージ要素「府中」の出現
位置算出結果の中に、P2 =P1 +2(2はメッセージ
要素「○△」の文字数)が有り、且つメッセージ要素
「工場」の出現位置算出結果の中に、P3 =P2 +2
(2はメッセージ要素「工場」の文字数)が有るか否か
により、メッセージ要素「○△」,「府中」,「工場」
が接続している箇所の有無をチェックする。
【0043】図6の例では、メッセージ要素「○△」,
「府中」,「工場」の出現位置「5」,「7」,「9」
(図6中で一点鎖線61で囲まれた部分)及び「8
7」,「89」,「91」(図6中で一点鎖線62で囲
まれた部分)が、上記の条件に合致するため、メッセー
ジ要素「○△」,「府中」,「工場」が接続している箇
所が有ること、即ちメッセージ要素位置記憶部14に格
納された圧縮データの示す文章中には、検索キーワード
「○△府中工場」が存在することが検出される。このよ
うな場合、メッセージ要素接続関係解析部40は、検索
キーワード有りを示す解析結果を出力部50に通知する
(ステップS6)。なお、このステップS6は、目的の
箇所が1箇所でも検出されたなら実行される。
【0044】このように本実施形態においては、メッセ
ージ要素位置記憶部14の記憶データ、即ち圧縮データ
から、検索キーワードを構成する各メッセージ要素につ
いてのみ、そのメッセージ要素が全て存在することを確
認した後、そのメッセージ要素の該当する文章上の出現
位置を算出して(復元して)、その算出結果をもとに、
各メッセージ要素が接続している箇所の有無を調べるこ
とで、当該記憶データ(圧縮データ)の元の文章中に検
索キーワードが存在するか否かがチェックできることか
ら、圧縮データを対象としたデータ検索処理が高速に行
える。
【0045】なお、入力検索キーワードのメッセージ要
素が1つだけの場合には、当該メッセージ要素がメッセ
ージ要素位置記憶部14内のメッセージ要素格納領域1
41に格納されているならば(ステップS1,S2)、
検索キーワード有りを示す解析結果が出力部50に通知
される(ステップS6)。
【0046】出力部50は、メッセージ要素接続関係解
析部40から通知される解析結果をディスプレイ出力或
いはプリンタ出力することでユーザに提示する。以上
は、メッセージ要素位置記憶部14の記憶データ(圧縮
データ)から、検索キーワードを構成する各メッセージ
要素についてのみ、そのメッセージ要素が全て存在する
ことを確認した後、そのメッセージ要素の該当する文章
上の出現位置を算出し、その算出結果をもとに、各メッ
セージ要素が接続している箇所の有無を調べることで、
当該記憶データ(圧縮データ)の元の文章中に検索キー
ワードが存在するか否かをチェックする場合について説
明したが、これに限るものではない。例えば、上記の算
出結果をもとに、元の文章に伸張(復元)し(但し、検
索キーワードを構成するメッセージ要素以外の部分の各
文字は、例えば予め定められた共通のダミー文字に置き
換える)、伸張した文章を対象に検索キーワードと照合
することでキーワード検索を行うことも可能である。こ
の場合でも、検索キーワードを構成するメッセージ要素
のみについて、伸張(復元)処理と照合処理を行うだけ
でよいため、圧縮データを対象としたデータ検索処理を
実行した場合に、伸張を含めた検索処理時間を削減し、
高速検索処理が実現できる。
【0047】なお、前記実施形態では、データ検索装置
がデータ圧縮部10を備えている場合について説明した
が、これに限るものではない。例えば、データ圧縮部1
0がデータ検索装置から切り離されており、データ検索
時には、データ圧縮部10での圧縮データであるメッセ
ージ要素位置記憶部14の記憶データが、データ検索装
置のメッセージ要素接続関係解析部40に直接に或いは
通信回線等を通して転送される構成であっても構わな
い。
【0048】また、前記実施形態では、入力文章中の各
メッセージ要素の出現位置が復元できるように、各メッ
セージ要素のそれぞれ最初の出現位置をメッセージ要素
位置記憶部14内のメッセージ要素先頭位置格納領域1
42に格納するものとして説明したが、これに限るもの
ではない。例えば、各メッセージ要素のそれぞれ最初の
出現位置に代えて、入力文章中の先頭位置のメッセージ
要素との間の距離(に相当する文字数)を表すデータを
用いることも可能である。この場合、図3の文章中にお
ける例えばメッセージ要素「○△」,「府中」,「工
場」のそれぞれ最初の出現位置は「1」,「7」,
「9」であることから、メッセージ要素「○△」,「府
中」間の距離は「4」、メッセージ要素「○△」,「工
場」間の距離は「6」となる。明らかなように、このメ
ッセージ要素「○△」,「府中」間の距離「4」をもと
にメッセージ要素「府中」の最初の出現位置「7」を、
メッセージ要素「○△」,「工場」間の距離「6」をも
とにメッセージ要素「工場」の最初の出現位置「9」
を、それぞれ算出することが可能である。
【0049】また、前記実施形態では、日本語文章をデ
ータ圧縮及びデータ検索の対象とした場合について説明
したが、本発明は、英文など日本語以外の文章を対象と
するデータ圧縮及びデータ検索にも同様に適用可能であ
る。ここで文章とは、文字コード列から構成されるデー
タ全般をいう。
【0050】
【発明の効果】以上詳述したように本発明によれば、圧
縮対象となるデータを分析してメッセージ要素に分解
し、その各メッセージ要素の入力データ上における出現
位置をもとに同一メッセージ要素間の距離差分を検出し
て、その距離差分のデータを符号語として割り当てるよ
うにしたので、出現頻度の高いメッセージ要素ほど短い
符号語に割り当てることができ、データ圧縮の効率を向
上することができる。
【0051】また、本発明によれば、上記のように圧縮
されたデータを検索対象とし、その圧縮データ中に検索
キーワードを構成するメッセージ要素が全て存在するな
らば、上記圧縮データに含まれている当該各メッセージ
要素についての同一メッセージ要素間の距離データをも
とに当該各メッセージ要素の出現位置を算出(復元)
し、その位置関係から、当該各メッセージ要素を接続し
た検索キーワードが圧縮データの元データ中に存在する
か否かを解析するようにしたので、圧縮データに対する
一種の伸張と照合は、検索キーワードを構成するメッセ
ージ要素のみについて行えばよく、したがって圧縮デー
タを対象とする検索処理の高速化を図ることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るデータ圧縮機能を有
するデータ検索装置の構成を示すブロック図。
【図2】図1中のメッセージ要素位置記憶部14のデー
タ格納構造を模式的に示す図。
【図3】同実施形態においてデータ圧縮並びにデータ検
索の対象となる文章の一例を、当該文章を構成する各文
字の文字位置と共に示す図。
【図4】図3の文章をデータ圧縮部10で圧縮した場合
のメッセージ要素位置記憶部14の記憶データ例を示す
図。
【図5】同実施形態におけるメッセージ要素接続関係解
析部40の動作を説明するためのフローチャート。
【図6】入力検索キーワードを構成する各メッセージ要
素が「○△」,「府中」,「工場」の場合に、図4に示
した内容のメッセージ要素位置記憶部14の情報をもと
に算出される各メッセージ要素の出現位置を示す図。
【符号の説明】
10…データ圧縮部、 11…文章入力部、 12…メッセージ要素分解部、 13…メッセージ要素位置検出部、 14…メッセージ要素位置記憶部、 20…検索キーワード入力部、 30…検索キーワード分析部、 40…メッセージ要素接続関係解析部、 50…出力部。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 圧縮対象となるデータを入力するための
    データ入力手段と、 前記データ入力手段により入力されるデータを分析して
    メッセージ要素に分解するメッセージ要素分解手段と、 前記メッセージ要素分解手段により分解された各メッセ
    ージ要素の前記入力データ上における出現位置をもと
    に、同一メッセージ要素間の距離差分を検出して同一メ
    ッセージ要素間の距離データを取得するメッセージ要素
    位置検出手段とを具備し、前記メッセージ要素分解手段
    により分解された、それぞれ異なるメッセージ要素と、
    そのメッセージ要素毎に前記メッセージ要素位置検出手
    段により取得された同一メッセージ要素間の距離データ
    とを含むデータを、前記入力データに対する圧縮データ
    とするようにしたことを特徴とするデータ圧縮装置。
  2. 【請求項2】 前記メッセージ要素分解手段により分解
    された、それぞれ異なるメッセージ要素と、そのメッセ
    ージ要素毎に前記メッセージ要素位置検出手段により取
    得された同一メッセージ要素間の距離データとを対応付
    けて記憶しておくためのメッセージ要素位置記憶手段を
    更に具備することを特徴とする請求項1記載のデータ圧
    縮装置。
  3. 【請求項3】 圧縮対象となるデータを入力するための
    データ入力手段と、前記データ入力手段により入力され
    るデータを分析してメッセージ要素に分解するメッセー
    ジ要素分解手段と、前記メッセージ要素分解手段により
    分解された各メッセージ要素の前記入力データ上におけ
    る出現位置をもとに、同一メッセージ要素間の距離差分
    を検出して同一メッセージ要素間の距離データを取得す
    るメッセージ要素位置検出手段とを備え、前記メッセー
    ジ要素分解手段により分解された、それぞれ異なるメッ
    セージ要素と、そのメッセージ要素毎に前記メッセージ
    要素位置検出手段により取得された同一メッセージ要素
    間の距離データとを含むデータを、前記入力データに対
    する圧縮データとするデータ圧縮装置に対応して設けら
    れるデータ検索装置であって、 検索キーワードを入力するための検索キーワード入力手
    段と、 前記検索キーワード入力手段により入力された検索キー
    ワードを分析してメッセージ要素に分解する検索キーワ
    ード分析手段と、 前記データ圧縮装置により圧縮された圧縮データ中に、
    前記検索キーワード分析手段により分解された各メッセ
    ージ要素が全て存在する場合に、前記圧縮データに含ま
    れている当該各メッセージ要素についての同一メッセー
    ジ要素間の距離データをもとに当該各メッセージ要素の
    出現位置を復元し、その位置関係から、当該各メッセー
    ジ要素を接続した検索キーワードが前記圧縮データの元
    データ中に存在するか否かを解析するメッセージ要素接
    続関係解析手段とを具備することを特徴とするデータ検
    索装置。
  4. 【請求項4】 圧縮対象となるデータを入力すると共
    に、当該入力データを分析してメッセージ要素に分解
    し、 この分解した各メッセージ要素の前記入力データ上にお
    ける出現位置をもとに、同一メッセージ要素間の距離差
    分を検出して同一メッセージ要素間の距離データを取得
    し、 前記分解した、それぞれ異なるメッセージ要素と、その
    メッセージ要素毎に取得した同一メッセージ要素間の距
    離データとを含むデータを、前記入力データに対する圧
    縮データとするようにしたことを特徴とするデータ圧縮
    方法。
  5. 【請求項5】 圧縮対象となるデータを入力すると共
    に、当該入力データを分析して、メッセージ要素に分解
    し、この分解した各メッセージ要素の前記入力データ上
    における出現位置をもとに、同一メッセージ要素間の距
    離差分を検出して同一メッセージ要素間の距離データを
    取得し、前記分解した、それぞれ異なるメッセージ要素
    と、そのメッセージ要素毎に取得した同一メッセージ要
    素間の距離データとを含むデータを、前記入力データに
    対する圧縮データとして入力して、当該圧縮データを対
    象とするデータ検索を行うデータ検索方法であって、 指定の検索キーワードを分析してメッセージ要素に分解
    し、 前記圧縮データ中に、前記検索キーワードから分解され
    た各メッセージ要素が全て存在する場合に、前記圧縮デ
    ータに含まれている当該各メッセージ要素についての同
    一メッセージ要素間の距離データをもとに当該各メッセ
    ージ要素の出現位置を復元し、その位置関係から、当該
    各メッセージ要素を接続した検索キーワードが前記圧縮
    データの元データ中に存在するか否かを解析することに
    よりデータ検索を行うことを特徴とするデータ検索方
    法。
JP8046115A 1996-03-04 1996-03-04 データ圧縮装置及び同圧縮装置で圧縮されたデータを対象とするデータ検索装置 Pending JPH09246987A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8046115A JPH09246987A (ja) 1996-03-04 1996-03-04 データ圧縮装置及び同圧縮装置で圧縮されたデータを対象とするデータ検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8046115A JPH09246987A (ja) 1996-03-04 1996-03-04 データ圧縮装置及び同圧縮装置で圧縮されたデータを対象とするデータ検索装置

Publications (1)

Publication Number Publication Date
JPH09246987A true JPH09246987A (ja) 1997-09-19

Family

ID=12738011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8046115A Pending JPH09246987A (ja) 1996-03-04 1996-03-04 データ圧縮装置及び同圧縮装置で圧縮されたデータを対象とするデータ検索装置

Country Status (1)

Country Link
JP (1) JPH09246987A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001028585A (ja) * 1999-07-13 2001-01-30 Sony Corp 配信コンテンツ生成方法、コンテンツ配信方法および装置、並びに、コード変換方法
WO2021140639A1 (ja) * 2020-01-10 2021-07-15 日本電気株式会社 情報処理装置、文法圧縮後の文字列の予測方法、及び、そのプログラムが格納されたコンピュータ可読媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001028585A (ja) * 1999-07-13 2001-01-30 Sony Corp 配信コンテンツ生成方法、コンテンツ配信方法および装置、並びに、コード変換方法
WO2021140639A1 (ja) * 2020-01-10 2021-07-15 日本電気株式会社 情報処理装置、文法圧縮後の文字列の予測方法、及び、そのプログラムが格納されたコンピュータ可読媒体

Similar Documents

Publication Publication Date Title
US6185524B1 (en) Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores
US6477488B1 (en) Method for dynamic context scope selection in hybrid n-gram+LSA language modeling
US5890103A (en) Method and apparatus for improved tokenization of natural language text
JP4986919B2 (ja) タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法
US20020077816A1 (en) Method and system for automatically extracting new word
US20060241944A1 (en) Method and system for generating spelling suggestions
US20050149888A1 (en) Method and apparatus for minimizing weighted networks with link and node labels
US20120096028A1 (en) Information retrieving apparatus, information retrieving method, information retrieving program, and recording medium on which information retrieving program is recorded
JP2007219620A (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
EP0316743A2 (en) Method for removing enclitic endings from verbs in romance languages
JPH09246987A (ja) データ圧縮装置及び同圧縮装置で圧縮されたデータを対象とするデータ検索装置
CN110929085B (zh) 基于元语义分解的电力客服留言生成模型样本处理系统及方法
JPH1185766A (ja) キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体
JPH07182333A (ja) 日本語処理装置
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP2914988B2 (ja) 日本語自動翻訳システムにおける日本語名詞複合語翻訳方式
JP2917786B2 (ja) 自然言語インタフェース方式
JP2002269136A (ja) 文書検索システム及びプログラム
JPH04330565A (ja) 自然言語処理システム
JPS6389976A (ja) 言語解析装置
JPH11224255A (ja) キーワード抽出装置及び方法
JPH10240736A (ja) 形態素解析装置
JP2008123037A (ja) 構造化文書の構文解析方法及び装置
JPH0821034B2 (ja) 言語解析装置
JPH0410161A (ja) 省略補完処理装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040518

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040720

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040810