JP3928677B2 - Information search method and information search apparatus - Google Patents
Information search method and information search apparatus Download PDFInfo
- Publication number
- JP3928677B2 JP3928677B2 JP31957797A JP31957797A JP3928677B2 JP 3928677 B2 JP3928677 B2 JP 3928677B2 JP 31957797 A JP31957797 A JP 31957797A JP 31957797 A JP31957797 A JP 31957797A JP 3928677 B2 JP3928677 B2 JP 3928677B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- compressed
- information
- compression
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
この発明は、例えば、CD−ROM(コンパクトディスクROM)などの記録媒体に情報を圧縮して記録する方法、装置、これらの方法、装置により圧縮された情報が記録された記録媒体、および、圧縮されて記録媒体に記録された情報の検索方法、検索装置に関する。
【0002】
【従来の技術】
CD−ROMに記録された国語辞典や英和辞典など各種文献の内容情報を、例えば、専用の情報検索装置を用いて検索することができるようにされた、いわゆる電子ブックシステムが提供されている。
【0003】
この電子ブックシステムは、例えば、意味や内容を知りたい言葉や単語などの検索キー情報(インデックス情報)を情報検索装置に入力することにより、当該装置に装填されたCD−ROMに記録されている情報を検索する。そして、入力された検索キー情報に対応する情報を、当該CD−ROMから読み出し、これを情報検索装置の表示画面に表示するなどして、利用者に提供する。
【0004】
したがって、電子ブックシステムの利用者は、国語辞典や英和辞典などの文献のページをめくって、調べたい言葉や単語についての記述を見付け出すなど、手間や時間をかけることなく、迅速に目的とする言葉や単語の意味内容を検索して、得ることができる。
【0005】
ところで、電子ブックシステムにおいては、情報の迅速な検索を実現するため、情報検索用の階層構造のインデックス情報が作成され、このインデックス情報が文献の内容情報(以下、本文データという)と共に、CD−ROMに記録されている。
【0006】
この検索用の階層構造のインデックス情報のうち、最下層以外の各階層のインデックス情報は、入力された検索キー情報と比較される比較キー情報と、その比較キー情報に対応する次層のインデックス情報の先頭記録位置を示すアドレス情報を有する構成とされている。また、最下層のインデックス情報は、入力された検索キー情報と比較されるキー情報であって、入力された検索キー情報に一致する比較キー情報と、入力された検索キー情報に対応する情報のCD−ROM上の先頭記録位置を示すアドレス情報(本文アドレス情報)を有している。
【0007】
そして、入力された検索キー情報とインデックス情報の比較キー情報との比較処理を順次に行うことによって、入力された検索キー情報に対応する情報のCD−ROM上の先頭記録開始位置を探し出すようにされている。この場合、インデックス情報の全ての比較キー情報を対象に検索を行うことなく、入力された検索キー情報の検索範囲を徐々に絞り込んで行くことができるようにされており、迅速に入力された検索キー情報に対応する情報をCD−ROMに記録されている本文データから探し出して利用することができるようにされている。
【0008】
【発明が解決しようとする課題】
ところで、近年、電子ブックシステムのCD−ROMに、より多くの情報を記憶させることにより、その内容を充実させたいとたいとする要求が大きくなってきている。このように、CD−ROMに記憶する情報量を多くすることにより、電子ブックシステムにおいて、CD−ROMの交換回数を少なくすることができるなど、電子ブックシステムの利便性を向上させることが期待できる。
【0009】
しかし、電子ブックシステムのCD−ROMに記録される各種文献の本文データは、従来から非圧縮状態で記憶するようにされており、CD−ROMの容量不足が問題となっている。
【0010】
そこで、本文データを圧縮してCD−ROMに記憶することが考えられる。しかし、以下のような問題があり、単純に本文データを圧縮してCD−ROMに記録することはできない。
【0011】
まず、圧縮する本文データの処理単位が問題になる。例えば、1つの文献の本文データの全部を1固まりのデータ(処理単位)として、圧縮するようにした場合には、圧縮されたこの1固まりの本文データの全部を情報検索装置に取り込んで、圧縮解凍処理(伸長処理)しなければならないために、情報検索装置に大きなメモリを搭載しなければならなくなる。また、この場合、処理単位当たりの本文データのデータ量が多いので、CD−ROMからの圧縮された本文データの取り込みや、圧縮された本文データの伸長処理に時間が掛り、迅速な検索処理が実現できなくなる。
【0012】
このため、本文データを、例えば検索の対象となる1まとまりの情報(検索対象項目)毎に区切り、この区切った情報毎に本文データを圧縮することが考えられる。本文データが、例えば国語辞典のデータである場合には、単語とその単語の意味内容を示す情報を検索の対象となる1まとまりの検索対象項目として、この検索対象項目毎に本文データを圧縮するようにする。
【0013】
しかし、このようにした場合には、検索対象データが小さすぎたり、あるいは、検索対象項目のデータの大きさがまちまちとなるために、効率のよいデータ圧縮ができない可能性がある。
【0014】
また、電子ブックシステムの場合、前述したように、迅速な検索を可能にするため、各検索対象項目のCD−ROM上の先頭記録位置を示すアドレスを有するインデックス情報が、本文データと共にCD−ROMに書き込まれるようにされている。このため、検索対象データ毎に、本文データを圧縮してCD−ROMに記録するようにした場合には、従来からある電子ブックシステムのソフトウエアについても、そのインデックス情報を、圧縮した本文データに対応して作り直さなければならない。
【0015】
電子ブック規格のインデックス情報は、前述のように階層構造の複雑な構成とされており、本文データの圧縮に伴いインデックス情報を作り直すには、インデックス情報を新規に作成する場合と同じ位の時間とコストがかかる。このことが、本文データを圧縮することにより、より多くの本文データをCD−ROMに記録するようにした電子ブックシステムのCD−ROMの提供を阻害する原因になっている。
【0016】
以上のことにかんがみ、この発明は、上記問題点を一掃し、記録媒体の記憶容量を有効に活用できるようにする情報記録方法、情報記録装置、および、記録媒体に記録された情報から目的の情報を合理的かつ迅速に検索することができる情報検索方法、情報検索装置および目的の情報を合理的かつ迅速に検索することができるように情報が記録された情報記録媒体を提供することを目的とする。
【0017】
【課題を解決するための手段】
上記課題を解決するため、請求項1に記載の発明の情報検索方法は、
記録媒体からデータを読み出す読み出し手段と、読み出されたデータを圧縮解凍する圧縮解凍手段と、圧縮解凍されたデータを出力するデータ出力手段とを備える情報検索装置において用いられ、複数個の検索対象項目を含む本文データが、前記検索対象項目毎の区切りなく、順次に記録媒体に記録されたときの前記検索対象項目毎の先頭記録位置を検出するためのインデックス情報を、検索のためのキー情報として、圧縮されて記録されている前記複数個の検索対象項目を含む本文データから、目的とする前記検索対象項目を検出するようにする情報検索方法であって、
前記記録媒体には、前記本文データが、所定の等しい大きさのデータ量毎に分割されて、その分割データ単位で圧縮されたものが、記録位置が連続するように順次に記録されていると共に、前記分割データ単位毎の圧縮後のデータサイズの累算値が、各分割データ毎に対応付けられて記述された圧縮サイズテーブルが、前記インデックス情報に加えて記録されており、
前記読み出し手段により、前記インデックス情報に基づいて、指定された前記検索対象項目の先頭位置を示すアドレスまでのデータ量を特定し、前記先頭位置を示すアドレスまでのデータ量を前記所定の大きさのデータ量で割り算することで、前記先頭位置を含む前記分割データ単位を特定すると共に、前記分割データの圧縮後のデータサイズの累算値に基づいて、当該特定した分割データ単位に対応する圧縮後の本文データの記録開始位置と、そのデータ量とを特定して、当該特定した分割データ単位に対応する本文データを、前記記録媒体から読み出す読み出し工程と、
前記圧縮解凍手段により、前記読み出し工程において前記読み出し手段により読み出された前記分割データ単位の圧縮された本文データの圧縮を解凍する圧縮解凍工程と、
前記データ出力手段により、前記圧縮解凍工程において前記圧縮解凍手段により圧縮解凍されたデータの中の、前記インデックス情報に基づいて検出される前記指定された検索対象項目の先頭位置から、当該検索対象項目のデータを出力する対象データ出力工程と
を備えることを特徴とする。
【0027】
この請求項1に記載の発明の情報検索方法によれば、記録媒体には、複数個の検索対象項目を含む本文データが、予め決められた等しい大きさのデータ量毎に分割され、この分割データ単位に圧縮されて記録されていると共に、分割データ単位毎の圧縮後のデータサイズに関する情報と、圧縮前の本文データの検索対象項目毎の先頭位置を検出するためのインデックス情報とが記録されている。
【0028】
読み出し工程において、読み出し手段により、前記インデックス情報と、前記データサイズに関する情報とに基づいて、指定された検索対象項目の先頭位置を含む分割データ単位が特定され、特定された分割データ単位に対応する圧縮後の本文データが、前記記録媒体から読み出される。
【0029】
読み出された圧縮されている本文データは、圧縮解凍工程において、圧縮解凍手段により、圧縮解凍すなわち伸長されて、元の本文データに復元される。対象データ出力工程により、この復元された本文データの中から、指定された検索対象項目のデータが検出され、これが、データ出力工程において、データ出力手段により例えば表示されるなどして出力される。
【0030】
このように、圧縮されて記録媒体に記録されている本文データの読み出しや、読み出した本文データの圧縮解凍処理は、分割データ単位に行われる。したがって、例えば、1つの文献の本文データの全体を1つの処理単位とする場合のように、処理単位当たりのデータ量が大きすぎることがなく、記録媒体から目的の検索対象項目のデータを迅速に読み出して、迅速に圧縮解凍して利用することができる。
【0032】
また、各分割データの圧縮後のデータサイズが累算されて得られる累算値が、各分割データに対応して記述されたもの(圧縮サイズテーブル)が、データサイズに関する情報として記録媒体に記録されている。
【0033】
この場合、各分割データに対する圧縮後のデータサイズの累算値は、次の分割データの圧縮後の先頭記録位置を示し、また、目的とする分割データまでの圧縮後のデータサイズの累算値から、その1つ前の分割データまでの圧縮後のデータサイズの累算値を減算することにより、目的とする分割データの圧縮後のデータ量を得ることができる。
【0034】
これにより、読み出し工程においては、インデックス情報を参照して指定された検索対象項目の先頭を含む分割データを特定すると共に、この特定した分割データに対応する圧縮後の本文データの先頭記録位置と、データ量とを簡単な演算処理により合理的に検出することができるようにされる。つまり、圧縮されて記録媒体の記録されている本文データの中から、指定された検索対象項目のデータを迅速に検索して利用できるようにすることができる。
【0035】
【発明の実施の形態】
以下、図を参照しながら、この発明の方法、装置の一実施の形態について説明する。
【0036】
この実施の形態においては、いわゆる電子ブックシステムにこの発明を適用したものとして説明する。電子ブックシステムは、前述にもしたように、各種の文献の本文データを、例えばCD−ROMに記録しておき、情報検索装置を用いて、CD−ROMに記録されている本文データの中から目的とする検索対象項目を検索するようにしたものである。
【0037】
例えば、国語辞典は、単語とその単語の意味内容を示す情報とからなる検索対象データが多数集まることにより、1冊の国語辞典の本文データを形成するが、この本文データをデジタルデータとして、例えばCD−ROMに記録することにより電子ブックシステムのCD−ROMを作成する。
【0038】
そして、例えば電子ブックシステム用の情報検索装置に当該CD−ROMを装填し、調べたい単語を検索キー情報として入力すると、この検索キー情報に対応する検索対象項目のデータ(この場合には、単語とその意味内容を示す情報)がCD−ROMに記録されている本文データの中から検索されて、これが情報検索装置の表示画面に表示されるなどしてユーザに提供される。
【0039】
電子ブックシステムは、このように、CD−ROMなどの記録媒体に記録された文献情報を、簡単な操作で、迅速に検索して利用することができるようにされたものである。
【0040】
[電子ブックシステム用のCD−ROMの作成]
まず、電子ブックシステムで用いられる、いわゆる電子ブック規格のCD−ROMの作成について説明する。図1は、CD−ROMに情報を書き込むことにより、電子ブック規格のCD−ROMを作成するこの実施の形態の情報記録装置を説明するためのブロック図である。この実施の形態の情報記録装置は、この発明による情報記録方法が適用されたものであり、従来、非圧縮で記録していた各種の文献の本文データを圧縮してCD−ROMに記録することができるようにされたものである。
【0041】
図1に示すように、この実施の形態の情報記録装置は、インデックス情報発生部1、本文データ発生部2、データ分割部3、データ圧縮部4、圧縮サイズテーブル生成部5、書き込み制御部6を備えている。また、CD−ROM200は、この実施の形態の情報記録装置に装填され、本文データ、インデックス情報、圧縮サイズテーブルが書き込まれるものである。
【0042】
図1に示すこの実施の形態の情報記録装置に具体的な説明に入る前に、この実施の形態のインデックス情報発生部1において発生されて、CD−ROM200に記録するようにされるインデックス情報について説明する。このインデックス情報は、電子ブックシステムにおいて、迅速な検索処理を実現するために作成されて用いられるものである。
【0043】
図2は、インデックス情報生成部1から出力される電子ブック規格のインデックス情報の一例を説明するための図である。電子ブック規格のインデックス情報は、CD−ROMに記録する文献の本文データに応じて、n次の階層構造で作成される。図2に示した電子ブック規格のインデックス情報は、3次の階層構造の例であり、例えば、国語辞典用のインデックス情報の例である。
【0044】
図2に示すように、この例のインデックス情報は、第1次インデックスブロック1B、第2次インデックスブロック2B、第3次インデックスブロック3Bからなっている。第2インデックスブロック2B、および、この例の最下層のインデックスブロックである第3次インデックスブロックは、その内容がさらに細分化され、複数の細分化ブロック2B1、2B2、…、複数の細分化ブロック3B1、3B2、…、を備えている。
【0045】
そして、第1次インデックスブロック1B、および、第2次インデックスブロック2Bの各細分化ブロック2B1、2B2、…は、入力された検索キー情報と比較される「あま」、「かき」といった比較キー情報と、その比較キー情報に対応する次層の細分化ブロックの先頭記録位置を示すアドレス情報を有している。
【0046】
また、第3次インデックスブロック3Bの各細分化ブロック3B1、3B2、…は、この例の最下層のインデックスブロックであり、入力された検索キー情報と比較されるキー情報であって、入力された検索キー情報に一致する比較キー情報と、CD−ROMなどの記録媒体に記録されている本文データのうちの、比較キー情報に対応する検索対象項目の先頭記録位置を示すアドレス情報(本文アドレス情報)を有している。
【0047】
このように構成されたインデックス情報を用いて、入力された検索キー情報に基づく情報検索は、以下のようにして行なわれる。
【0048】
この例においては、まず、第1次インデックスブロック1Bを参照し、入力された検索キー情報の先頭から2文字の情報と、第1次インデックスブロック1Bの比較キー情報とを比較する。この比較処理により、入力された検索キー情報の先頭から2文字の情報は、五十音順で、第1次インデックスブロック1Bの比較の対象となった比較キー情報より、前に位置する情報か、後ろに位置する情報か、あるいは、第1次インデックスブロック1Bの当該比較キー情報と同じ情報かを判断する。
【0049】
入力された検索キー情報の先頭から2文字の情報が、五十音順で、第1次インデックスブロック1Bの比較の対象となった比較キー情報より後ろに位置する情報であると判断したときには、第1次インデックスブロック1Bの次の比較キー情報について、同じように比較処理を行う。
【0050】
また、入力された検索キー情報の先頭から2文字の情報が、五十音順で、第1次インデックスブロック1Bの比較の対象となった比較キー情報より前に位置する情報である、あるいは、第1次インデックスブロック1Bの当該比較キー情報と同じ情報であると判断したときには、第1次インデックスブロックの当該比較キー情報に対応する次層のアドレス情報に基づいて、第2次インデックスブロック2Bの該当する細分化ブロックを参照する。
【0051】
そして、入力された検索キー情報の先頭から2文字の情報と、第2次インデックスブロック2Bの指定された細分化ブロックの比較キー情報との間で、上述の第1次インデックスブロックの場合と同様に比較処理を行う。
【0052】
この第2次インデックスブロック2Bの指定された細分化ブロックの比較キー情報との間で行なわれる比較処理において、入力された検索キー情報の先頭から2文字の情報が、五十音順で、第2次インデックスブロック2Bの細分化ブロックの比較の対象となった比較キー情報より前に位置する情報である、あるいは、比較の対象となった比較キー情報と同じ情報であると判断したときには、その比較キー情報に対応する次層のアドレス情報により指定される、第3次インデックスブロック3Bの該当する細分化ブロックを参照する。
【0053】
そして、入力された検索キー情報と、第3次インデックスブロック3Bの指定された細分化ブロックの比較キー情報との間で比較処理を行い、入力された検索キー情報と一致する比較キー情報を検出する。この検出された第3次インデックスブロック3Bの細分化ブロックの比較キー情報に対応して記憶されている本文アドレスが、入力された検索キー情報に対する検索対象データのCD−ROM上の記録開始位置を示している。したがって、この本文アドレスにより示されるCD−ROMの記録位置から本文データを読み出すことにより、入力された検索キー情報に対応する検索対象データを取得することができるようにされる。
【0054】
例えば、「あいさつ」が検索キー情報として入力された場合には、この検索キー情報の先頭から2文字の「あい」が、第1次インデックスブロックの比較キー情報と比較される。まず、検索キー情報の先頭から2文字「あい」と、第1次インデックスブロックの比較キー情報「あま」とが比較される。検索キー情報の先頭から2文字「あい」は、比較キー情報「あま」よりも五十音順で前に位置する情報であるので、比較キー情報「あま」に対応して記録されているアドレス情報に基づいて、第2次インデックスブロックの細分化ブロック2B1を参照する。
【0055】
そして、検索キー情報の先頭から2文字「あい」と、第2次インデックスブロック2Bの細分化ブロック2B1の比較キー情報とが比較される。最初に、検索キー情報の先頭から2文字「あい」と、第2次インデックスブロック2Bの細分化ブロック2B1の比較キー情報「あう」とが比較される。検索キー情報の先頭から2文字「あい」は、比較キー情報「あう」よりも五十音順で前に位置する情報であるので、比較キー情報「あう」に対応して記録されているアドレス情報に基づいて、第3次インデックスブロックの細分化ブロック3B1を参照する。
【0056】
そして、細分化ブロック3B1の比較キー情報の中ら、検索キー情報「あいさつ」に一致する比較キー情報を検出し、この検出された比較キー情報「あいさつ」に対応して記録されている本文アドレスに基づいて、入力された検索キー情報に対応する検索対象項目のデータを読み出して提供される。つまり、この場合には、検索キー情報「あいさつ」の意味内容を示すテキストデータが検索対象項目のデータとして本文データから読み出されてユーザに提供される。
【0057】
そして、この実施の形態においては、図2を用いて説明したように階層構造で作成される電子ブック規格のインデックス情報は、図3に示すように、本文データが記録されるCD−ROMに設けられるインデックス領域IDXに記録される。
【0058】
この場合、インデックス領域IDXには、インデックス領域IDXの物理アドレスが低い方から高い方へ、第1次インデックスブロック1B、第2次インデックスブロック群2B、…、第n次インデックスブロック群というように順に記録される。これにより、物理アドレスの低い方から高い方へ、順にインデックス情報の階層をたどることができるようにされている。
【0059】
また、この実施の形態においては、文字管理ブロックMKが設けられ、入力された検索キー情報に応じて、第1次インデックスブロックのどこから検索を開始するかを決めることができるようにされている。例えば、検索キー情報の先頭文字が、五十音の「あ行」から「な行」までなら、第1次ブロック1Bの先頭から検索を開始し、検索キー情報の先頭文字が、「は行」以降であれは、第1次ブロックの中間位置付近の予め定められた位置から、すなわち、第1次インデックスブロックの「は行」の開始位置から検索を開始することができるようにされている。
【0060】
このように、電子ブック規格のインデックス情報は、インデックス情報の全ての比較キー情報を対象に検索処理を行うことなく、インデックス情報を階層構造にすることで、検索範囲を効率よく絞り込んで行き、入力された検索キー情報に対応する検索対象項目を本文データから迅速に探し出して利用することができるようにされている。
【0061】
ところで、前述もしたように、電子ブック規格の本文データは、非圧縮状態でCD−ROMに記憶されているため、より多くの文献の本文データなどを記録することができないなど、CD−ROMの限られた記憶容量を有効に活用していない場合も多い。そこで、本文データの圧縮が考えられるが、前述したように単順に圧縮することができない。
【0062】
また、本文データを圧縮してCD−ROMに記録する場合、インデックス情報の作り直しが必要になるが、電子ブック規格のインデックス情報は、図2を用いて前述したように、階層構造の複雑な構成とされており、インデックス情報を作り直すには、時間とコストがかかる。このことが、より多くの本文データをCD−ROMに記録することにより、より充実した内容の電子ブックシステムのCD−ROMの提供を阻害する原因になっている。
【0063】
そこで、図1に示すこの実施の形態の情報記録装置は、本文データを、予め決められた所定のデータ量毎に分割する。以下、この明細書においては、本文データが所定のデータ量毎に分割されて形成されるデータの集まり(本文データの一部分)を単位ブロックという。そして、この単位ブロック毎に本文データを圧縮し、この圧縮した本文データを連続するアドレスに順次につめてCD−ROMに記録する。
【0064】
また、この実施の形態の情報記録装置は、圧縮前の当該本文データに対応して既に作成されているインデックス情報をそのままCD−ROMに記録する。この圧縮前の本文データに対して作成されたインデックス情報を用いて、圧縮された本文データの中から入力された検索キー情報に対応する検索対象項目のデータを取得することができるようにするため、当該本文データを分割することにより形成した各単位ブロック毎の圧縮後のデータ量の累算値を、各単位ブロックに対応して記憶した圧縮サイズテーブルを形成し、これを単位ブロック毎に圧縮した本文データやインデックス情報と共に、CD−ROMに記憶することにより、電子ブック規格のCD−ROMを作成する。
【0065】
この場合、CD−ROMの記録領域は、本文データの記録領域である本文データ領域、インデックス情報の記録領域であるインデックス領域、および、圧縮サイズテーブルの記録領域である圧縮サイズテーブル領域に分離され、圧縮された本文データ、インデックス情報、圧縮サイズテーブルは、それぞれ対応する記録領域に記録される。以下、図1に示すこの実施の形態の情報記録装置について詳述する。
【0066】
インデックス情報発生部1は、CD−ROM200に圧縮して記録しようとする圧縮前の本文データに対応して、予め作成されたインデックス情報に基づいて、CD−ROM200に記録するインデックス情報を発生し、これを書き込み制御部6に供給する。
【0067】
本文データ発生部2は、CD−ROM200に圧縮して記録する本文データを発生し、これをデータ分割部3に供給する。データ分割部3は、供給された本文データを予め決められたデータ量の単位ブロックに分割し、単位ブロック毎に本文データをデータ圧縮部4に供給する。
【0068】
図4は、データ分割部3、データ圧縮部4において行われる本文データの分割処理および圧縮処理を説明するための図であり、説明を簡単にするため、圧縮前の本文データ(以下、圧縮前本文データという)の一部を抜き出して示したものである。
【0069】
この実施の形態において、データ分割部3は、図4Aに示すように、圧縮前本文データDTを、予め決められた大きさの単位ブロックDT1、DT2、DT3、DT4、…に分割する。
【0070】
図4Aにおいて、圧縮前本文データDTの左側に付された、0000H、1000H、2000H、3000Hは、圧縮前本文データの先頭からの各単位ブロックDT1、DT2、DT3、DT4の開始アドレスを示し、3FFFHは、単位ブロックDT4の終了アドレスを示している。各アドレスの末尾に付されたアルファベットの「H」は、当該アドレスが16進法で表現されていることを示している。以下、この明細書において、アドレス情報、圧縮サイズ、バイト数などの末尾に付されたアルファベットの「H」は、それらの情報が16進数で表現されていることを示すものとする。
【0071】
したがって、この実施の形態においては、圧縮前本文データDTは、図4Aに示すように、4096バイト毎に圧縮の処理単位となる単位ブロックDT1、DT2、DT3、DT4、…に分割され、この単位ブロック毎の圧縮前本文データがデータ圧縮部4に供給される。
【0072】
データ圧縮部4は、各単位ブロック毎に本文データを圧縮する。このデータ圧縮部4において単位ブロック毎に圧縮された本文データが、順次にCD−ROM200に記録されて、図4Aに示すように、圧縮後の本文データDTAを形成するようにされる。ここで、圧縮後の本文データDTAを構成する圧縮後単位ブロックDTA1、DTA2、DTA3、DTA4は、圧縮前本文データの各単位ブロックDT1、DT2、DT3、DT4のデータを圧縮することにより形成されたものである。
【0073】
そして、図4Bに示すように、例えば、アドレス0000H〜アドレス0FFFHまでの約4キロバイト(4096バイト)の単位ブロックDT1は、これに対応する圧縮後単位ブロックDTA1に示すように、2066バイト(16進数で表すと0812Hバイト)に圧縮される。
【0074】
同様に、図4Aに示すように、アドレス1000H〜1FFFHまでの約4キロバイトの単位ブロックDT2は、圧縮後単位ブロックDTA2に示すように、2294バイト(16進数で表すと08F6Hバイト)に圧縮され、アドレス2000H〜2FFFHまでの単位ブロックDT3は、圧縮後単位ブロックDTA3が示すように、1767バイト(16進数で表すと06E7Hバイト)に圧縮される。また、アドレス3000H〜3FFFHまでの単位ブロックDT3は、圧縮後単位ブロックDTA4が示すように、2578バイト(16進数で表すと0A12Hバイト)に圧縮される。
【0075】
そして、データ圧縮部4は、単位ブロック毎に圧縮した本文データを書き込み制御部6に供給する。また、データ圧縮部4は、各単位ブロック毎の圧縮後の本文データのデータ量を検出し、これを圧縮サイズテーブル生成部5に供給する。
【0076】
この実施の形態において、圧縮サイズテーブル生成部5は、データ圧縮部4からの各単位ブロック毎の圧縮後のデータ量の累算値を求め、この累算値を圧縮サイズとして、各単位ブロックに対応付けた圧縮サイズテーブルを作成し、これを書き込み制御部6に供給する。
【0077】
つまり、データ圧縮部4は、各単位ブロックDT1〜DT4を圧縮することにより形成した圧縮後単位ブロックDTA1〜DTA4のデータ量を順次に圧縮サイズテーブル生成部5に供給する。この実施の形態において、圧縮サイズテーブル生成部5は、各単位ブロック毎の圧縮後のデータ量を、その先頭の単位ブロックから順に累算して累算値を得て、この累算値と各単位ブロックとを対応付けた圧縮サイズテーブルTBを形成する。
【0078】
図4Aにおいて、圧縮後本文データDTAの右側に付された、0812H、1108H、17EFH、2201Hは、各圧縮後単位ブロックDTA1〜DTA4のデータ量の累算値を示している。
【0079】
つまり、単位ブロックDT1、DT2、DT3、DT4を圧縮することに形成された圧縮後単位ブロックDTA1、DTA2、DTA3、DTA4のデータ量は、前述したように、0812H、08F6H、06E7H、0A12Hとなる。圧縮サイズテーブル生成部5は、これを順次累算していくことにより、各単位ブロックに対応して、圧縮対象となった単位ブロックまでの圧縮後のデータ量の累算値を得る。
【0080】
したがって、圧縮後単位ブロックDTA1を先頭の圧縮後単位ブロックとすると、圧縮後単位ブロックDTA1までの累算値は、0812Hとなる。また、圧縮後単位ブロックDTA2までの累算値は、0812Hと08F6Hが加算され、1108Hとなる。同様に、圧縮後単位ブロックDTA3までの累算値は、1108Hと06E7Hとが加算され、17EFHとなり、圧縮後単位ブロックDTA4までの累算値は、17EFHと0A12Hとが加算されて、2201Hとなる。
【0081】
このようにして、圧縮サイズテーブル生成部5は、各単位ブロック毎のデータ量を累算して累算値を得て、この圧縮後のデータ量の累算値を圧縮サイズとして、各単位ブロックと対応付けた圧縮サイズテーブルTBを形成する。
【0082】
図5は、この実施の形態の圧縮サイズテーブルTBを説明するための図である。図5Aに示すように、各単位ブロック毎に求められる圧縮後の単位ブロックの大きさの累算値が、圧縮サイズとして圧縮サイズテーブルTBに記録される。この場合、各圧縮サイズ(圧縮後単位ブロックのデータ量の累算値)は、16進数、4バイトで表現されたものである。また、圧縮サイズテーブルTBのアドレスは、圧縮サイズテーブルTBの先頭からの各圧縮サイズの先頭アドレスである。圧縮サイズテーブル生成部5においいて作成された圧縮サイズテーブルTBは、書き込み制御部6に供給される。
【0083】
書き込み制御部6は、各部から供給される情報を、CD−ROM200に書き込む。つまり、書き込み制御部6は、インデックス情報発生部1からのインデックス情報を、CD−ROM200上に形成されるインデックス領域に書き込む。また、データ圧縮部4からの単位ブロック毎の圧縮後の本文データを順次につめて、CD−ROM200の本文データ領域に書き込む。同様に、圧縮サイズテーブル生成部5からの圧縮サイズテーブルの情報を圧縮サイズテーブル領域に書き込む。
【0084】
このようにして、この実施の形態の情報記録装置により、圧縮前の本文データに対応して作成されたインデックス情報と、単位ブロック毎に圧縮した本文データと、圧縮サイズテーブルとがCD−ROMに書き込まれ、電子ブック規格のCD−ROMが作成される。
【0085】
そして、詳しくは後述するように、CD−ROMに記録されたインデックス情報と、圧縮サイズテーブルとに基づいて、指定された検索対象項目を含む、圧縮された本文データが読み出され、これを伸長することにより、指定された検索対象データを利用することができるようにされる。
【0086】
次に、前述した電子ブック規格のCD−ROMの作成処理について、図6のフローチャートを用いて説明する。
【0087】
本文データ発生部2からの記録しようとする圧縮前本文データは、データ圧縮部4により、予め決められた一定の大きさのデータ量の単位ブロックに分割される(ステップS1)。つまり、図4を用いて前述したように、圧縮前本文データを、例えば、4096バイトのデータ量の単位ブロックに分割するのが、このステップS1の処理である。
【0088】
次に、データ圧縮部4により、一定の大きさの単位ブロックを処理単位として、単位ブロック毎に本文データの圧縮処理が行われ(ステップS2)、圧縮後の単位ブロックのデータ量が取得される(ステップS3)。
【0089】
単位ブロック毎に圧縮された本文データは、書き込み制御部6の制御により、順次につめて、CD−ROM200の本文領域に記録される(ステップS4)。また、データ圧縮部4により取得された圧縮後の単位ブロックのデータ量が、圧縮サイズテーブル作成部5に供給され、圧縮後の単位ブロックのデータ量の累算値が算出される(ステップS5)。このステップS5の処理では、例えば、前回までの圧縮後の単位ブロックのデータ量の累算値を保持しておき、この前回までの累算値と、今回圧縮の対象となった単位ブロックの圧縮後のデータ量を加算することにより今回の累算値を求めることができる。
【0090】
そして、圧縮サイズテーブル作成部5は、例えば、自己が備えるメモリに、今回の累算値を圧縮サイズとして、今回圧縮の対象となった単位ブロックと対応がとれるようにして、圧縮サイズテーブルを作成していく(ステップS6)。
【0091】
つまり、このステップS6においては、1番目の単位ブロックまでの圧縮後の大きさの累算値は、圧縮サイズテーブルの1番目に記録し、2番目の単位ブロックまでの圧縮後の大きさの累算値は、圧縮サイズテーブルの2番目に記録するというように、どの単位ブロックまでの累算値かが分かるように、圧縮して記録する当該本文データに対する圧縮サイズテーブルを作成する。
【0092】
そして、圧縮する当該本文データの全ての単位ブロックについて、圧縮処理が終了したか否かを判断し(ステップS7)、終了していないと判断したときには、次の単位ブロックが処理の対象とするように位置付けて(ステップS8)、ステップS2からの処理を繰り返す。
【0093】
また、ステップS7の判断処理において、圧縮する当該本文データの全ての単位ブロックについて、圧縮処理が終了したと判断したときには、圧縮サイズテーブル作成部5において作成された圧縮サイズテーブルと、インデックス情報発生部1からの圧縮前の当該本文データに対するインデックス情報とが、書き込み制御部6に供給され、これらの情報がCD−ROMのインデックス領域、圧縮サイズテーブル領域に記録された後(ステップS9)、図6に示した本文データの圧縮処理および圧縮サイズテーブルの作成処理を終了する。
【0094】
このようにして、本文データは、単位ブロックに分割され、単位ブロック毎に圧縮されて電子ブックシステムのCD−ROMに記録されると共に、圧縮後の単位ブロックのデータ量の累算値を圧縮サイズとする図5Bに示したような圧縮サイズテーブルと、圧縮前の本文データに応じて作成されたインデックス情報とが、CD−ROM200に記録される。
【0095】
このように、本文データは圧縮されてCD−ROMに記録されるので、従来よりもさらに多くの文献の本文データを同じCD−ROMに記録することができる。そして、複数の文献の本文データを圧縮して1枚のCD−ROMに記録するようにした場合には、各文献の単位ブロック毎に圧縮した本文データに対応する圧縮サイズテーブルと、その文献の圧縮前の本文データに対応して作成されたインデックス情報が同じCD−ROMに記録しておくことにより、1枚のCD−ROMに記録された各種の本文データを同じように利用することができる。
【0096】
また、本文データは、所定の大きさの単位ブロック毎に圧縮することにより、圧縮された単位で伸長処理を行えばよいので、大きなメモリを情報検索装置に搭載しなくてもすむようにすることができる。また、圧縮処理が所定の単位ブロック毎に行われれば、その単位ブロック毎にデータを処理すればよいので、圧縮された本文データの読み出しや伸長処理に長い時間がかかることもない。
【0097】
さらに、インデックス情報が既に作成されている場合、その既存のインデックス情報をそのまま用いることができるので、圧縮後の本文データに対応した新たなインデックス情報を作成する必要もない。
【0098】
なお、前述の説明においては、すべての単位ブロックの本文データについて、圧縮してCD−ROM200に記録した後に、当該本文データに対するインデックス情報と圧縮サイズテーブルとをCD−ROM200に記録するようにした。しかし、インデックス情報は、圧縮前の本文データに対応して予め作成されているので、先にインデックス情報を記録したCD−ROMを作成しておいて、このCD−ROMに単位ブロック毎に圧縮した本文データと、圧縮サイズテーブルとを記録するようにしてもよい。
【0099】
また、圧縮サイズテーブル生成部5において、すべての単位ブロックに対応する圧縮サイズからなる圧縮サイズテーブルを完成させた後に、この完成された圧縮サイズテーブルをCD−ROM200に記録するようにしてもよいし、単位ブロック毎の圧縮後のデータ量の累算値を順次にCD−ROM200に記録するようにすることもできる。
【0100】
[情報検索装置について]
次に、前述のようにして、圧縮前の本文データに応じて作成されたインデックス情報と、単位ブロック毎に圧縮された本文データと、圧縮サイズテーブルとが記録されて作成された電子ブックシステム用のCD−ROMを用いた情報の検索について説明する。この場合、圧縮前の本文データおよび圧縮後の本文データの先頭は、図4に示したように、CD−ROM200の本文データ領域の先頭(0000H)に一致するようにされているものとして説明する。
【0101】
図7は、図1を用いて前述した情報記録装置により作成された電子ブックシステム用のCD−ROM200が装填され、CD−ROM200に記録された情報を検索することができるこの実施の形態の電子ブックシステムの情報検索装置を説明するためのブロック図である。この情報検索装置は、この発明による情報検索方法が適用されたものである。
【0102】
図7に示すように、この実施の形態の電子ブックシステムの情報検索装置は、光ピックアップ11、2軸デバイス12、スピンドルモータ13、ドライバ14、RFアンプ15、信号処理部16、表示制御部17、表示パネル18を備えると共に、ROM101、RAM102、キー操作部103が接続されたCPU100を備えている。
【0103】
CPU100は、この検索再生装置の各部の動作を制御するシステムコントローラとしての機能を有するものである。ROM101は、動作プログラムや表示文字のフォントデータなど、この情報検索装置において用いられるプログラムやデータが記録されたものである。
【0104】
RAM102は、CD−ROM200から読み出した再生データを一時記憶するなど、この情報検索装置において行われる処理の作業領域として用いられる。また、キー操作部103は、数字キーやアルファベットキーなどの複数の操作キーを備え、検索キー情報などのユーザからの情報入力を受け付ける。
【0105】
そして、キー操作部103の操作キーがユーザにより操作され、検索キー情報が入力されると、CPU100はこれを受け付けて、CD−ROM200に記録されている本文データの検索処理を開始する。
【0106】
まず、CPU100は、ドライバ14に対して、検索処理の開始を指示する制御信号を供給する。ドライバ14は、この制御信号に応じて、光ピックアップ11、2軸デバイス12、スピンドルモータ13を駆動させ、光ピックアップ11によりCD−ROM200に記録されているデータを読み出す。
【0107】
光ピックアップ11は、図示しないが、例えば、レーザダイオード、対物レンズ、ハーフミラー、フォトディテクタなどを備え、CD−ROM200のトラックにレーザビームを照射し、その反射光をフォトディテクタで受光して、反射光の光量の変化に基づいて、CD−ROM200に記録されているデータを読み出す。
【0108】
この実施の形態において、光ピックアップ11のフォトディテクタは、フォーカスエラー、および、トラッキングエラーを検出するために、複数個の受光領域に分割されたものである。
【0109】
光ピックアップ11のフォトディテクタの各受光領域で受光されたCD−ROM200からの反射光は、電気信号に変換されてRFアンプ15に供給される。RFアンプ15は、光ピックアップ11のフォトディテクタの各受光領域からの電気信号から、再生高周波信号、および、フォーカスエラー信号FE、トラッキングエラー信号TEを形成する。
【0110】
RFアンプ15において形成されたフォーカスエラー信号FE、トラッキングエラー信号TEは、CPU100に供給される。CPU100は、これらの信号FE、TEに基づいて、ドライバ14を通じて、2軸デバイス12を制御し、フォーカスエラー制御、トラッキングエラー制御を行うことができるようにされている。
【0111】
また、RFアンプ15で形成された再生高周波信号は、信号処理部16に供給され、ここで、アナログ/デジタル変換処理や、CD−ROM200への記録時の変調方式に応じた復調処理がなされ、復調されたデータが取り出される。
【0112】
この場合、後述もするように、CPU100は、まず始めに、入力された検索キー情報に基づいて、CD−ROM200に記録されているインデックス情報を参照し、このインデックス情報に基づいて、入力された検索キー情報に対応する検索対象項目の先頭を含む単位ブロックを特定する。
【0113】
つまり、CPU100は、CD−ROM200に記録されている圧縮前の本文データに対応して作成されたインデックス情報を参照し、入力された検索キー情報に対応する検索対象項目の先頭位置を示す本文アドレスを取得する。そして、当該本文データの圧縮前の先頭から、当該検索対象項目の先頭位置までの圧縮前の本文データのデータ量を求める。この求めたデータ量を、圧縮処理時の処理単位である単位ブロック当たりのデータ量で割り算することにより、当該検索対象項目の先頭位置を含む単位ブロックは、先頭単位ブロックから何番目の単位ブロックかを特定する。
【0114】
次に、CPU100は、圧縮サイズテーブルを参照し、この圧縮サイズテーブルの情報に基づいて、特定した単位ブロックに対応する圧縮された本文データをCD−ROM200から読み出す。
【0115】
つまり、圧縮サイズテーブルの各圧縮サイズは、図5を用いて前述したように、圧縮後単位ブロックのデータ量の累算値であり、次の圧縮後単位ブロックの開始位置に対応している。また、目的とする圧縮後単位ブロックまでのデータ量の累算値(圧縮サイズ)から、その1つ前の圧縮後単位ブロックまでのデータ量の累算値(圧縮サイズ)を減算することにとり、目的とする圧縮後単位ブロックのデータ量を得ることができる。
【0116】
これにより、例えば、図4Aに示した例において、圧縮前単位ブロックDT3に対応する圧縮後単位ブロックDTA3の圧縮されたデータを読み出して、利用しようとする場合には、図5Bに示した圧縮サイズテーブルTBから、圧縮後単位ブロックDT3までの圧縮サイズ17EFHと、その1つ前の圧縮後単位ブロックDT2までの圧縮サイズ1108Hとを読み出し、圧縮後単位ブロックDT3までの圧縮サイズ17EFHから圧縮後単位ブロックDT2までの圧縮サイズ1108Hを減算することにより、圧縮後単位ブロックDTA3のデータ量を得る。この場合、圧縮後単位ブロックDT3の大きさは、図4にも示したように、1767Hバイトであることが分かる。
【0117】
そして、圧縮後本文データの先頭から、圧縮前単位ブロックDT3の1つ前の圧縮後単位テーブルDTA2までの圧縮サイズである1108Hバイト目から、圧縮後単位ブロックDT3のデータ量分、つまり、1767Hバイト分、圧縮後の本文データを読み出せば、単位ブロックDT3に対応する圧縮された本文データ、この場合には、圧縮後単位ブロックDTA3の全部を読み出すことができる。このようにして、読み出された,特定された単位ブロックに対応する圧縮された本文データは、RAM102に一時記憶される。
【0118】
そして、CPU100は、RAM102に一時記憶した圧縮されている本文データを圧縮解凍し、特定された単位ブロックの圧縮前の元の本文データを得る。そして、この圧縮解凍された単位ブロックの本文データから、前述したように、インデックス情報から取得される入力された検索キー情報に対応する検索対象項目の先頭位置を示す本文アドレスに基づいて、入力された検索キー情報に対応する検索対象項目のデータを取得する。
【0119】
つまり、特定された単位ブロックは、前述したようにCD−ROM200に記録されている当該本文データ全体の何番目の単位ブロックかは既に分かっており、また、各単位ブロックは、予め決められた大きさのデータ量毎に分割されたものであるので、当該本文データ全体の先頭からの当該特定された単位ブロックの先頭位置は容易に分かる。すなわち、当該本文データの先頭単位ブロックから当該特定された単位ブロックまでの単位ブロック数に、予め定められている単位ブロック当たりのデータ量を掛け合わせれば、特定された単位ブロックの先頭位置が分かる。
【0120】
したがって、インデックス情報から取得される検索キー情報に対応する検索対象項目の先頭位置を示す本文アドレスから、当該特定された単位ブロックの先頭位置を示すアドレスを引き算すれば、当該特定された単位ブロックの先頭からの、目的とする検索対象項目の先頭位置を特定することができる。そして、圧縮解凍された単位ブロックの特定された検索対象項目の先頭位置に対応する位置から本文データを読み出せば、入力された検索キー情報に対応する目的とする検索対象項目のデータを取得することができる。
【0121】
このようにして、検索キー情報に対応する検索対象項目のデータを取得し、この検索対象項目のデータに基づいて、ROM101に記憶されているフォントデータなどを用い、表示させようとする文字などの表示情報の形状データ形成し、これを表示制御部17に供給する。
【0122】
表示制御部17は、表示用メモリ71を備えており、CPU100からの表示情報の形状データに応じて、表示用メモリ71に表示用の画像データを形成する。そして、表示制御部17は、液晶表示パネルなどで構成される表示パネル18を制御して、表示用メモリ71に形成した画像データに応じた画像を表示パネル18に表示させる。
【0123】
これにより、表示パネル18には、ユーザからの検索キー情報に基づいて、CD−ROM200から読み出された検索対象項目のデータが表示するようにされる。
【0124】
[情報検索装置においての情報検索時の動作について]
次に、この実施の形態の電子ブックシステムの情報検索装置の検索時の動作について、図8のフローチャートを参照しながら説明する。
【0125】
この実施の形態の情報検索装置の電子ブックシステムのCD−ROM200が装填され、キー操作部103を通じて、ユーザにより検索キー情報が入力されると(ステップS11)、情報検索装置のCPU100は、ドライバ14を通じて、光ピックアップ11、2軸デバイス12、スピンドルモータ13を駆動させて、圧縮前の本文データに応じて作成されたインデックス情報を参照し、前述したように、入力された検索キー情報に対応する検索対象データの先頭を含む単位ブロック(圧縮前)を特定する(ステップS12)。
【0126】
そして、前述した圧縮サイズテーブルから、特定した単位ブロックまでの圧縮後の単位ブロックの大きさの累算値(圧縮サイズ)RAと、その1つ前の単位ブロックまでの圧縮後の単位ブロックの大きさの累算値(圧縮サイズ)RBとを読み出し(ステップS13)、圧縮サイズRAから圧縮サイズRBを減算することにより、特定した単位ブロックの大きさSAを算出する(ステップS14)。
【0127】
このステップS14の減算処理を具体的に説明すると、例えば、特定した単位ブロックまでの圧縮サイズRAが、014C10CFHであり、その1つ前の単位ブロックまでの圧縮サイズRBが、014C09F6Hであった場合、014C10CFHから014C09F6Hが減算されて、特定された単位ブロックの大きさSAは、1753バイトであることが分かる。
【0128】
そして、前述したように、圧縮サイズは、圧縮後の単位ブロックの大きさの累算値であるので、圧縮サイズ自体が、次の単位ブロックの先頭位置を示すことになる。そこで、CPU100は、圧縮サイズRBが示すCD−ROM200上の特定した単位ブロックの先頭位置に読み出し位置を位置付け(ステップS15)、そこから、特定した単位ブロックの大きさSA分、圧縮された本文データを読み出す(ステップS16)。
【0129】
つまり、上述の例によれば、特定された単位領域の1つ前の単位ブロックまでの圧縮サイズRB=014C09F6H=21762550バイトであるので、圧縮された本文データの先頭を基準にして21762550バイト目から1753バイト分、圧縮された本文データを読み出すことになる。
【0130】
読み出した圧縮された本文データは、RAM102に一時記憶される。このRAM102に一時記憶された本文データは、特定された単位ブロックの本文データが圧縮されたものであるので、これを圧縮解凍することにより、特定した単位ブロックの圧縮前の元の本文データを得る(ステップS17)。
【0131】
そして、この圧縮解凍した本文データから、前述したように、入力された検索キー情報に対応する検索対象項目のデータの先頭位置を特定し、目的とする検索対象項目のデータを圧縮解凍された単位ブロックの本文データから読み出して再生する(ステップS18)。
【0132】
このステップS18においては、RAM102に一時記憶されて、圧縮解凍された本文データから、検索キー情報に対応する検索対象項目を読み出し、RAM101に記憶されているフォントデータを用いて、検索キー情報に対応する検索対象項目の表示画像を、表示制御部17のRAM71に形成する。このRAM71の表示画像が、表示パネル18に表示されて、入力された検索キー情報に対応する本文データがユーザに提供される。
【0133】
なお、入力された検索キー情報に対応する検索対象データが、複数のブロックにまたがることを考慮して、各文献の本文データを構成する各検索対象データの終りには、その検索対象データの終りを示すいわゆるエンドマークを付加するようにしておく。そして、このエンドマークが検出されない場合には、特定した単位ブロックの次の単位ブロックを新たに特定した単位ブロックとしてステップS13からの処理を行うようにする。これにより、入力された検索キー情報に対応する検索対象データが、複数のブロックにまたがった場合にも対応することができる。
【0134】
このように、この実施の形態の情報検索装置を用いることにより、圧縮前の本文データに応じて作成されたインデックス情報と、単位ブロック毎に圧縮された本文データと、圧縮サイズテーブルとが記録されて作成された電子ブックシステムのCD−ROM200から、ユーザにより入力された検索キー情報に対応する検索対象項目のデータを迅速かつ正確に読み出して圧縮解凍し、利用することができるようにされる。
【0135】
また、本文データは、予め決められた大きさの単位ブロック毎に圧縮されてCD−ROMに記録されているので、本文データの読み出しや、圧縮解凍処理の処理単位を小さくすることができる。このため、CD−ROMからの本文データの読み出しや、圧縮解凍処理に時間がかかることもなく、CD−ROMに記録された本文データの中から、検索キー情報に対応する検索対象項目のデータを迅速に得ることができる。
【0136】
また、既に作成されているインデックス情報は、そのまま用いることができるので、本文データを圧縮してCD−ROMに記録することにより、より多くの本文データを記録した内容の充実した電子ブックシステムに問題なく移行することが可能となる。
【0137】
なお、前述した実施の形態においては、圧縮前の本文データおよび圧縮後の本文データの先頭は、CD−ROM200の本文データ領域の先頭に一致するものとして説明した。しかし、CD−ROMに複数の文献の本文データを記録するようにした場合には、各文献の本文データのCD−ROM上の位置は異なる。
【0138】
そこで、各文献の圧縮前の本文データが記録された場合の当該本文データの先頭位置情報や圧縮後の本文データの先頭位置情報、あるいは、分割ブロックのデータ量などの情報を、CD−ROMのTOC(テーブル・オブ・コンテンツ)や、当該CD−ROMの他の領域に記憶させておき、圧縮前の単位ブロックは当該本文データの何番目の単位ブロックであるか、あるいは、圧縮前の単位ブロックの先頭から検索キー情報に対応する検索対象項目のデータの先頭位置までのデータ量などを算出する場合などに用いることができるようにしておくことにより、1枚のCD−ROMに複数の文献の本文データを記録した場合にも問題なく対応することができる。
【0139】
また、インデックス情報や、圧縮サイズテーブルが、これらの情報の本文データの先頭を、例えば0000Hとして作成しても、上述のように、各文献の圧縮前の本文データが記録された場合の当該本文データの先頭位置情報や圧縮後の本文データの先頭位置情報、あるいは、分割ブロックのデータ量などの情報をCD−ROMに記録させておくことにより、前述のようにして、検索きー情報に対応する検索対象項目のデータを取得することができる。
【0140】
また、前述した実施の形態においては、単位ブロックの大きさは、4096バイト(約4キロバイト)であるものとして説明したが、これに限るものではない。情報検索装置のメモリの記憶容量や、CD−ROMからのデータの読み出し速度、圧縮解凍処理にかかる時間などを考慮して、大きくしたり、小さくしたりすることができる。
【0141】
また、前述した実施の形態においては、圧縮サイズテーブルには、圧縮後の各単位ブロック毎のデータ量の累算値を圧縮サイズとして、各単位ブロックと対応付けて記録するようにしたが、これに限るものではない。
【0142】
例えば、圧縮後の各単位ブロック毎のデータ量自体を、各単位ブロックに対応付けた圧縮サイズテーブルを作成するようにしてもよい。つまり、第1の単位ブロックの圧縮後のデータ量は何バイト、第2の単位ブロックのデータ量は何バイトというように、各単位ブロックの圧縮後のデータ量が分かるように圧縮サイズテーブルを作成する。
【0143】
このようにしておくことにより、目的とする単位ブロックの圧縮後の本文データの先頭位置は、先頭の単位ブロックから当該目的とする単位ブロックまでの圧縮後のデータ量を加算することにより得られる。また、当該目的とする単位ブロックの圧縮後のデータ量は、先頭の単位ブロックから当該目的とする単位ブロックまでの圧縮後のデータ量の合計値から、先頭の単位ブロックから当該目的とする単位ブロックの1つ前の単位ブロックまでの圧縮後のデータ量の合計値を減算することにより得られる。このように、各単位ブロックの圧縮後のデータ量が分かるように圧縮サイズテーブルを作成した場合にも、目的とする単位ブロックの圧縮後のデータ量と、その先頭記録位置を求め、CD−ROMから読み出して利用することができる。
【0144】
また、前述した実施の形態においては、CD−ROMを電子ブックシステムの記録媒体として用いるようにしたが、これに限るものではない。いわゆるフロッピィディスクやミニディスク(MD)と呼ばれる小型光磁気ディスク、DVD(デジタルビデオディスク)など各種の記録媒体を用いることができる。
【0145】
また、文献の本文データとしては、テキストデータだけでなく、グラフィックスデータについても同様に処理することができる。
【0146】
また、前述した情報検索装置は、電子ブックシステム専用のものとして説明したが、これに限るものではない。例えば、パーソナルコンピュータなどの情報処理装置にこの発明を適用することができる。
【0147】
【発明の効果】
以上説明したように、この発明によれば、データを圧縮して記録媒体に記録できるので、より多くのデータを記録媒体に記録することができる。また、圧縮して記録するデータについて、圧縮前の当該データに対するインデックス情報がある場合には、当該データを圧縮して記録媒体に記録した場合であっても、その既存のインデックス情報を用いて、検索処理を行うようにすることができる。
【0148】
また、記録媒体に記録するデータの圧縮は、当該データを予め決められた大きさの単位ブロックに分割し、この単位ブロック毎に圧縮処理するようにされるので、処理単位を特定するために必要とされる付加情報が少なく、かつ、特定にかかる演算も単純なので、合理的で高速な検索処理を行うことができる。
【図面の簡単な説明】
【図1】この発明による情報記録装置の一実施の形態を説明するためのブロック図である。
【図2】電子ブック規格のインデックス情報の一例を説明するための図である。
【図3】電子ブック規格のインデックス情報の一例を説明するための図である。
【図4】この発明による情報記録装置の一実施の形態において行われる情報の圧縮処理を説明するための図である。
【図5】この発明による情報記録装置の一実施の形態において作成される圧縮サイズテーブルを説明するための図である。
【図6】この発明による情報記録装置の一実施の形態において行われる情報の圧縮処理および圧縮サイズテーブルの作成処理を説明するためのフローチャートである。
【図7】この発明による情報検索装置の一実施の形態を説明するためのブロック図である。
【図8】この発明による情報検索装置の一実施の形態の情報の検索処理時の動作を説明するためのフローチャートである。
【符号の説明】
1…インデックス情報発生部、2…本文データ発生部、3…データ分割部、4…データ圧縮部、5…圧縮データ生成部、6…書き込み制御部、11…光ピックアップ、12…2軸デバイス、13…スピンドルモータ、14…ドライバ、15…RFアンプ、16…信号処理部、17…表示制御部、71…表示用RAM、18…表示パネル、100…CPU、101…ROM、102…RAM、103…キー操作部、DT…圧縮前本文データ、DTA…圧縮後本文データ、TB…圧縮サイズテーブル[0001]
BACKGROUND OF THE INVENTION
The present invention relates to, for example, a method and apparatus for compressing and recording information on a recording medium such as a CD-ROM (compact disk ROM), a recording medium on which information compressed by these methods and apparatuses is recorded, and compression. The present invention relates to a search method and a search device for information recorded on a recording medium.
[0002]
[Prior art]
There is provided a so-called electronic book system in which contents information of various documents such as Japanese language dictionaries and English-Japanese dictionaries recorded on a CD-ROM can be searched using, for example, a dedicated information search device.
[0003]
In this electronic book system, for example, search key information (index information) such as a word or a word whose meaning and contents are to be known is input to an information search device, and is recorded on a CD-ROM loaded in the device. Search for information. Then, information corresponding to the input search key information is read from the CD-ROM and displayed on the display screen of the information search device, etc., and provided to the user.
[0004]
Therefore, users of e-book systems can quickly turn to the target without taking time and effort, such as turning over pages of documents such as Japanese dictionaries and English-Japanese dictionaries and finding descriptions of words and words that they want to look up. You can search and obtain words and meanings of words.
[0005]
By the way, in the electronic book system, in order to realize a quick search of information, index information having a hierarchical structure for information search is created, and this index information together with document content information (hereinafter referred to as body data) is a CD- It is recorded in ROM.
[0006]
Among the index information of the hierarchical structure for search, the index information of each layer other than the lowest layer includes comparison key information to be compared with the input search key information and index information of the next layer corresponding to the comparison key information. The address information indicating the head recording position is included. The index information in the lowest layer is key information to be compared with the input search key information, and is comparison key information that matches the input search key information and information corresponding to the input search key information. It has address information (text address information) indicating the head recording position on the CD-ROM.
[0007]
Then, by sequentially performing a comparison process between the input search key information and the comparison key information of the index information, the start recording start position on the CD-ROM of information corresponding to the input search key information is searched. Has been. In this case, the search range of the input search key information can be gradually narrowed down without performing a search on all comparison key information of the index information, so that the search input can be quickly performed. Information corresponding to the key information can be searched from the text data recorded on the CD-ROM and used.
[0008]
[Problems to be solved by the invention]
By the way, in recent years, there is an increasing demand for enhancing the contents of a CD-ROM of an electronic book system by storing more information. Thus, by increasing the amount of information stored in the CD-ROM, the convenience of the electronic book system can be expected to be improved, for example, the number of CD-ROM replacements can be reduced in the electronic book system. .
[0009]
However, the text data of various documents recorded on the CD-ROM of the electronic book system has been conventionally stored in an uncompressed state, and there is a problem of insufficient capacity of the CD-ROM.
[0010]
Therefore, it is conceivable to compress the text data and store it in a CD-ROM. However, there are the following problems, and it is not possible to simply compress the body data and record it on a CD-ROM.
[0011]
First, the processing unit of the text data to be compressed becomes a problem. For example, when the whole body data of one document is compressed as a set of data (processing unit), the compressed whole body data is taken into the information search device and compressed. Since the decompression process (decompression process) must be performed, a large memory must be installed in the information retrieval apparatus. Also, in this case, since the amount of text data per processing unit is large, it takes time to import compressed text data from the CD-ROM and decompression processing of the compressed text data, so that a quick search process can be performed. It cannot be realized.
[0012]
For this reason, it is conceivable to divide the text data for each piece of information (search target item) to be searched, for example, and compress the text data for each divided information. When the text data is, for example, data of a Japanese dictionary, the text data is compressed for each search target item, using a word and information indicating the meaning content of the word as a set of search target items to be searched. Like that.
[0013]
However, in this case, there is a possibility that efficient data compression cannot be performed because the search target data is too small or the data size of the search target item varies.
[0014]
In the case of an electronic book system, as described above, in order to enable a quick search, index information having an address indicating the head recording position on the CD-ROM of each search target item is stored together with the text data in the CD-ROM. Has been written to. For this reason, when the text data is compressed and recorded on the CD-ROM for each search target data, the index information of the software of the conventional electronic book system is also converted into the compressed text data. It must be recreated accordingly.
[0015]
As described above, the electronic book standard index information has a complicated hierarchical structure. To recreate the index information as the main text data is compressed, it takes about the same amount of time as when index information is newly created. costly. This is a cause of obstructing provision of the CD-ROM of the electronic book system in which more text data is recorded on the CD-ROM by compressing the text data.
[0016]
In view of the above, the present invention eliminates the above-mentioned problems and makes it possible to effectively use the storage capacity of the recording medium, the information recording method, the information recording apparatus, and the information recorded on the recording medium. An object of the present invention is to provide an information search method, an information search device, and an information recording medium on which information is recorded so that the target information can be searched reasonably and quickly. And
[0017]
[Means for Solving the Problems]
In order to solve the above problem, the invention according to
Used in an information retrieval apparatus comprising a reading means for reading data from a recording medium, a compression / decompression means for compressing and decompressing the read data, and a data output means for outputting the compressed and decompressed data,Search for index information for detecting a head recording position for each search target item when body data including a plurality of search target items is sequentially recorded on a recording medium without a break for each search target item An information search method for detecting a target search target item from text data including the plurality of search target items that are compressed and recorded as key information for
In the recording medium, the body data is stored in a predetermined manner.equalThe data divided by the amount of data and compressed in the divided data units are sequentially recorded so that the recording positions are continuous, and the compressed data size for each divided data unit is accumulated. In addition to the index information, a compressed size table in which an arithmetic value is described in association with each divided data is recorded,
By the reading means,Based on the index information, the head of the specified search target itemBy specifying the data amount up to the address indicating the position and dividing the data amount up to the address indicating the head position by the data amount of the predetermined size,,Including the head positionWhile specifying the divided data unit, based on the accumulated value of the compressed data size of the divided data, the recording start position of the compressed body data corresponding to the specified divided data unit, the data amount, And reading the body data corresponding to the specified divided data unit from the recording medium,
By the compression / decompression means,The reading stepIn said reading meansA decompression step of decompressing the compressed body data compressed in units of the divided data read by
By the data output means,The compression / decompression processIn the compression and decompression meansA target data output step for outputting data of the search target item from the head position of the specified search target item detected based on the index information in the compressed and decompressed data;
It is characterized by providing.
[0027]
thisClaim 1According to the information search method of the invention described in the above, text data including a plurality of search target items is predetermined on the recording medium.equalThe data is divided for each size data amount, compressed and recorded in this divided data unit, information on the data size after compression for each divided data unit, and the head of each search target item of the body data before compression Index information for detecting the position is recorded.
[0028]
For reading processIn the reading meansThus, based on the index information and the information on the data size, a divided data unit including the head position of the specified search target item is specified, and the compressed body data corresponding to the specified divided data unit is , Read from the recording medium.
[0029]
The compressed body data that has been read out is subjected to the compression / decompression process.In the compression and decompression meansThus, it is decompressed, ie decompressed, and restored to the original body data. In the target data output process, the data of the specified search target item is detected from the restored body data,In the data output process, by the data output meansFor example, it is displayed and output.
[0030]
As described above, the reading of the body data compressed and recorded on the recording medium and the compression / decompression processing of the read body data are performed in units of divided data. Therefore, for example, the amount of data per processing unit is not too large as in the case where the entire body data of one document is used as one processing unit, and the data of the target search target item can be quickly retrieved from the recording medium. It can be read out and quickly compressed and decompressed for use.
[0032]
Also,Accumulated value obtained by accumulating the compressed data size of each divided data is described corresponding to each divided data(Compressed size table)Are recorded on the recording medium as information on the data size.
[0033]
In this case, the accumulated value of the compressed data size for each divided data indicates the first recording position after the compression of the next divided data, and the accumulated value of the compressed data size up to the target divided data From this, by subtracting the accumulated value of the data size after compression up to the previous divided data, the data amount after compression of the target divided data can be obtained.
[0034]
Thereby, in the reading step, the divided data including the head of the search target item designated with reference to the index information is specified, and the head recording position of the compressed body data corresponding to the specified divided data, The amount of data can be reasonably detected by simple arithmetic processing. That is, it is possible to quickly search and use the data of the designated search target item from the body data compressed and recorded on the recording medium.
[0035]
DETAILED DESCRIPTION OF THE INVENTION
The present invention will be described below with reference to the drawings.One of the method and apparatusEmbodiments will be described.
[0036]
In this embodiment, the present invention is applied to a so-called electronic book system. As described above, the electronic book system records the text data of various documents on, for example, a CD-ROM, and uses the information retrieval device to search from the text data recorded on the CD-ROM. The target search target item is searched.
[0037]
For example, a national language dictionary forms a body data of a single Japanese language dictionary by collecting a large number of search target data consisting of a word and information indicating the meaning content of the word. A CD-ROM of the electronic book system is created by recording on the CD-ROM.
[0038]
Then, for example, when the CD-ROM is loaded into an information search device for an electronic book system and a word to be checked is input as search key information, search target item data corresponding to the search key information (in this case, a word And information indicating its meaning) are retrieved from the text data recorded on the CD-ROM, and displayed on the display screen of the information retrieval device, and provided to the user.
[0039]
As described above, the electronic book system can quickly search and use the literature information recorded on the recording medium such as the CD-ROM with a simple operation.
[0040]
[Creation of CD-ROM for electronic book system]
First, creation of a so-called electronic book standard CD-ROM used in the electronic book system will be described. FIG. 1 is a block diagram for explaining an information recording apparatus according to this embodiment that creates an electronic book standard CD-ROM by writing information on a CD-ROM. The information recording apparatus of this embodiment is an application of the information recording method according to the present invention, and compresses and records on the CD-ROM the text data of various documents that have been recorded uncompressed conventionally. It was made to be able to.
[0041]
As shown in FIG. 1, the information recording apparatus of this embodiment includes an index
[0042]
Before the detailed description of the information recording apparatus of this embodiment shown in FIG. 1, the index information generated in the
[0043]
FIG. 2 is a diagram for explaining an example of the electronic book standard index information output from the index
[0044]
As shown in FIG. 2, the index information in this example includes a
[0045]
The
[0046]
Further, each of the subdivided blocks 3B1, 3B2,... Of the
[0047]
Using the thus configured index information, information retrieval based on the inputted retrieval key information is performed as follows.
[0048]
In this example, first, the
[0049]
When it is determined that the information of the two characters from the beginning of the input search key information is information that is located after the comparison key information that is the comparison target of the
[0050]
Also, the information of the two characters from the beginning of the input search key information is information located in alphabetical order before the comparison key information to be compared in the
[0051]
Then, between the two-character information from the beginning of the input search key information and the comparison key information of the specified segmented block of the
[0052]
In the comparison process performed with the comparison key information of the designated subdivision block of the
[0053]
Then, a comparison process is performed between the input search key information and the comparison key information of the designated subdivision block of the
[0054]
For example, when “greeting” is input as the search key information, the two characters “ai” from the head of the search key information are compared with the comparison key information of the primary index block. First, the two characters “Ai” from the beginning of the search key information are compared with the comparison key information “Ama” of the primary index block. Since the two characters “Ai” from the beginning of the search key information are information located in front of the comparison key information “Ama” in Japanese alphabetical order, the address recorded corresponding to the comparison key information “Ama” Based on the information, the subdivision block 2B1 of the secondary index block is referred to.
[0055]
Then, the two characters “Ai” from the beginning of the search key information are compared with the comparison key information of the subdivision block 2B1 of the
[0056]
Then, the comparison key information matching the search key information “greeting” is detected from the comparison key information of the subdivided block 3B1, and the body address recorded in correspondence with the detected comparison key information “greeting”. The data of the search target item corresponding to the input search key information is read out and provided. That is, in this case, the text data indicating the meaning content of the search key information “greeting” is read from the body data as the data of the search target item and provided to the user.
[0057]
In this embodiment, as described with reference to FIG. 2, the index information of the electronic book standard created in a hierarchical structure is provided in a CD-ROM in which text data is recorded, as shown in FIG. Recorded in the index area IDX.
[0058]
In this case, the index area IDX includes the
[0059]
In this embodiment, a character management block MK is provided so that it can be determined from where in the primary index block the search is started according to the input search key information. For example, if the first character of the search key information is from “a line” to “na line” of the Japanese syllabary, the search starts from the top of the
[0060]
In this way, the index information of the electronic book standard can narrow down the search range efficiently by making the index information into a hierarchical structure without performing a search process on all comparison key information of the index information. The search target item corresponding to the searched search key information can be quickly searched from the body data and used.
[0061]
By the way, as described above, since the text data of the electronic book standard is stored in the CD-ROM in an uncompressed state, the text data of more documents cannot be recorded. In many cases, the limited storage capacity is not effectively utilized. Therefore, although compression of text data is conceivable, it cannot be compressed in a single order as described above.
[0062]
Further, when the main text data is compressed and recorded on the CD-ROM, it is necessary to recreate the index information. However, as described above with reference to FIG. 2, the electronic book standard index information has a complicated hierarchical structure. Therefore, it takes time and cost to recreate the index information. This is a cause of obstructing provision of a CD-ROM of an electronic book system having a more substantial content by recording more text data on the CD-ROM.
[0063]
Therefore, the information recording apparatus of this embodiment shown in FIG. 1 divides the text data into predetermined data amounts. Hereinafter, in this specification, a collection of data (part of the text data) formed by dividing the text data into predetermined data amounts is referred to as a unit block. Then, the body data is compressed for each unit block, and the compressed body data is sequentially packed into consecutive addresses and recorded on the CD-ROM.
[0064]
Also, the information recording apparatus of this embodiment records the index information already created corresponding to the text data before compression on the CD-ROM as it is. In order to be able to acquire the data of the search target item corresponding to the input search key information from the compressed body data using the index information created for the body data before compression. , Forming a compressed size table that stores the accumulated value of the compressed data amount for each unit block formed by dividing the body data corresponding to each unit block, and compresses this for each unit block The CD-ROM of the electronic book standard is created by storing it in the CD-ROM together with the text data and the index information.
[0065]
In this case, the recording area of the CD-ROM is separated into a body data area which is a body data recording area, an index area which is an index information recording area, and a compression size table area which is a compression area table recording area. The compressed body data, index information, and compressed size table are recorded in the corresponding recording areas. Hereinafter, the information recording apparatus of this embodiment shown in FIG. 1 will be described in detail.
[0066]
The index
[0067]
The body
[0068]
FIG. 4 is a diagram for explaining text data division processing and compression processing performed in the
[0069]
In this embodiment, the
[0070]
In FIG. 4A, 0000H, 1000H, 2000H, and 3000H attached to the left side of the uncompressed body data DT indicate the start addresses of the unit blocks DT1, DT2, DT3, and DT4 from the beginning of the uncompressed body data. Indicates the end address of the unit block DT4. The alphabet “H” appended to the end of each address indicates that the address is expressed in hexadecimal. Hereinafter, in this specification, “H” of the alphabet attached to the end of the address information, the compressed size, the number of bytes, and the like indicates that the information is expressed in hexadecimal.
[0071]
Therefore, in this embodiment, as shown in FIG. 4A, the uncompressed text data DT is divided into unit blocks DT1, DT2, DT3, DT4,... Which are units of compression every 4096 bytes. The uncompressed text data for each block is supplied to the
[0072]
The
[0073]
As shown in FIG. 4B, for example, a unit block DT1 of about 4 kilobytes (4096 bytes) from
[0074]
Similarly, as shown in FIG. 4A, the unit block DT2 of about 4 kilobytes from the
[0075]
Then, the
[0076]
In this embodiment, the compression size
[0077]
That is, the
[0078]
In FIG. 4A, 0812H, 1108H, 17EFH, and 2201H attached to the right side of the compressed text data DTA indicate the accumulated values of the data amounts of the compressed unit blocks DTA1 to DTA4.
[0079]
That is, as described above, the data amounts of the compressed unit blocks DTA1, DTA2, DTA3, and DTA4 formed by compressing the unit blocks DT1, DT2, DT3, and DT4 are 0812H, 08F6H, 06E7H, and 0A12H. The compression size
[0080]
Therefore, if the unit block after compression DTA1 is the first unit block after compression, the accumulated value up to the unit block after compression DTA1 is 0812H. The accumulated value up to the compressed unit block DTA2 is 0108H and 08F6H added to become 1108H. Similarly, 1108H and 06E7H are added to the accumulated value up to the compressed unit block DTA3 to become 17EFH, and the accumulated value up to the compressed unit block DTA4 is added to 17EFH and 0A12H to become 2201H. .
[0081]
In this way, the compression size
[0082]
FIG. 5 is a diagram for explaining the compression size table TB of this embodiment. As shown in FIG. 5A, the accumulated value of the size of the compressed unit block obtained for each unit block is recorded in the compressed size table TB as a compressed size. In this case, each compression size (accumulated value of the data amount of the unit block after compression) is expressed in hexadecimal and 4 bytes. The address of the compressed size table TB is the head address of each compressed size from the head of the compressed size table TB. The compressed size table TB created in the compressed size
[0083]
The
[0084]
As described above, the information recording apparatus according to this embodiment stores the index information created corresponding to the uncompressed body data, the body data compressed for each unit block, and the compression size table on the CD-ROM. The data is written, and an electronic book standard CD-ROM is created.
[0085]
Then, as will be described in detail later, based on the index information recorded on the CD-ROM and the compressed size table, the compressed body data including the designated search target item is read and decompressed. By doing so, the designated search target data can be used.
[0086]
Next, the above-described creation process of the electronic book standard CD-ROM will be described with reference to the flowchart of FIG.
[0087]
The uncompressed body data to be recorded from the body
[0088]
Next, the
[0089]
The text data compressed for each unit block is sequentially packed under the control of the writing
[0090]
Then, the compression size
[0091]
That is, in this step S6, the accumulated value of the size after compression up to the first unit block is recorded in the first in the compression size table, and the accumulated size after compression up to the second unit block. As the calculated value is recorded second in the compressed size table, a compressed size table for the body data to be compressed and recorded is created so that the accumulated value up to which unit block can be known.
[0092]
Then, it is determined whether or not the compression process has been completed for all the unit blocks of the body data to be compressed (step S7). If it is determined that the compression has not been completed, the next unit block is set as the processing target. (Step S8) and repeat the process from Step S2.
[0093]
If it is determined in step S7 that the compression processing has been completed for all unit blocks of the body data to be compressed, the compression size table created in the compression size
[0094]
In this way, the body data is divided into unit blocks, compressed for each unit block, recorded on the CD-ROM of the electronic book system, and the accumulated value of the data amount of the unit block after compression is compressed size. The compressed size table as shown in FIG. 5B and the index information created according to the body data before compression are recorded on the CD-
[0095]
As described above, since the body data is compressed and recorded on the CD-ROM, the body data of more documents can be recorded on the same CD-ROM than before. When the text data of a plurality of documents is compressed and recorded on one CD-ROM, a compressed size table corresponding to the text data compressed for each unit block of each document, By recording the index information created corresponding to the text data before compression on the same CD-ROM, various text data recorded on one CD-ROM can be used in the same way. .
[0096]
In addition, since the body data is compressed for each unit block of a predetermined size, it is only necessary to perform decompression processing in a compressed unit, so that it is not necessary to install a large memory in the information retrieval apparatus. it can. In addition, if the compression process is performed for each predetermined unit block, it is only necessary to process the data for each unit block, so that it does not take a long time to read and decompress the compressed body data.
[0097]
Further, when the index information has already been created, the existing index information can be used as it is, so that it is not necessary to create new index information corresponding to the compressed body data.
[0098]
In the above description, the text data of all unit blocks is compressed and recorded on the CD-
[0099]
Further, after the compressed size
[0100]
[Information retrieval device]
Next, for the electronic book system created by recording the index information created according to the text data before compression, the text data compressed for each unit block, and the compressed size table as described above Information retrieval using the CD-ROM will be described. In this case, it is assumed that the body data before compression and the head of the body data after compression are made to coincide with the head (0000H) of the body data area of the CD-
[0101]
FIG. 7 shows an electronic device according to this embodiment in which a CD-
[0102]
As shown in FIG. 7, the information retrieval apparatus of the electronic book system of this embodiment includes an
[0103]
The
[0104]
The
[0105]
When the operation key of the
[0106]
First, the
[0107]
Although not shown, the
[0108]
In this embodiment, the photodetector of the
[0109]
The reflected light from the CD-
[0110]
The focus error signal FE and tracking error signal TE formed in the
[0111]
The reproduced high-frequency signal formed by the
[0112]
In this case, as will be described later, the
[0113]
That is, the
[0114]
Next, the
[0115]
That is, as described above with reference to FIG. 5, each compression size in the compression size table is an accumulated value of the data amount of the unit block after compression, and corresponds to the start position of the next unit block after compression. Also, subtracting the accumulated value (compressed size) of the data amount up to the previous compressed unit block from the accumulated value (compressed size) of the data amount up to the target compressed unit block, The target data amount of the unit block after compression can be obtained.
[0116]
Accordingly, for example, in the example shown in FIG. 4A, when the compressed data of the post-compression unit block DTA3 corresponding to the pre-compression unit block DT3 is read and used, the compression size shown in FIG. 5B is used. The compressed size 17EFH up to the compressed unit block DT3 and the
[0117]
Then, from the 1108Hth byte, which is the compression size from the beginning of the compressed body data to the post-compression unit table DTA2 immediately before the pre-compression unit block DT3, the data amount of the post-compression unit block DT3, that is, 1767H bytes If the compressed body data is read, the compressed body data corresponding to the unit block DT3, in this case, the entire compressed unit block DTA3 can be read out. The compressed body data corresponding to the specified unit block read out in this way is temporarily stored in the
[0118]
Then, the
[0119]
That is, it is already known which unit block of the whole body data recorded in the CD-
[0120]
Therefore, if the address indicating the start position of the specified unit block is subtracted from the body address indicating the start position of the search target item corresponding to the search key information acquired from the index information, The head position of the target search target item from the head can be specified. Then, if the body data is read from the position corresponding to the head position of the specified search target item in the compressed and decompressed unit block, the data of the target search target item corresponding to the input search key information is acquired. be able to.
[0121]
In this way, the data of the search target item corresponding to the search key information is acquired, and based on the data of the search target item, the font data stored in the
[0122]
The
[0123]
Thereby, the
[0124]
[Operations during information retrieval in the information retrieval device]
Next, the operation at the time of search of the information search apparatus of the electronic book system of this embodiment will be described with reference to the flowchart of FIG.
[0125]
When the CD-
[0126]
Then, an accumulated value (compression size) RA of the size of the unit block after compression up to the specified unit block from the compression size table described above, and the size of the unit block after compression up to the previous unit block The accumulated value (compressed size) RB is read (step S13), and the size SA of the specified unit block is calculated by subtracting the compressed size RB from the compressed size RA (step S14).
[0127]
The subtraction process in step S14 will be specifically described. For example, when the compression size RA up to the specified unit block is 014C10CFH and the compression size RB up to the previous unit block is 014C09F6H, It can be seen that 014C09F6H is subtracted from 014C10CFH, and the size SA of the specified unit block is 1753 bytes.
[0128]
As described above, since the compression size is an accumulated value of the size of the unit block after compression, the compression size itself indicates the head position of the next unit block. Therefore, the
[0129]
That is, according to the above-described example, since the compression size RB = 014C09F6H = 221762550 bytes up to the unit block immediately before the specified unit area, from the 2762550th byte based on the head of the compressed body data The compressed text data corresponding to 1753 bytes is read out.
[0130]
The compressed compressed body data is temporarily stored in the
[0131]
Then, as described above, the head position of the data of the search target item corresponding to the input search key information is specified from the compressed and decompressed body data, and the target search target item data is compressed and decompressed. It reads out from the body data of the block and reproduces it (step S18).
[0132]
In this step S18, the search target item corresponding to the search key information is read from the body data temporarily stored in the
[0133]
In consideration of the fact that the search target data corresponding to the input search key information extends over a plurality of blocks, the end of each search target data constituting the text data of each document is the end of the search target data. A so-called end mark is added. If this end mark is not detected, the processing from step S13 is performed with the unit block next to the specified unit block as the newly specified unit block. Thereby, it is possible to cope with the case where the search target data corresponding to the input search key information extends over a plurality of blocks.
[0134]
As described above, by using the information search device of this embodiment, index information created according to the text data before compression, text data compressed for each unit block, and a compression size table are recorded. The data of the search target item corresponding to the search key information input by the user can be quickly and accurately read out from the CD-
[0135]
Further, since the body data is compressed for each unit block of a predetermined size and recorded on the CD-ROM, the processing unit for reading the body data and the compression / decompression process can be reduced. For this reason, without reading the text data from the CD-ROM and the compression / decompression process, it is possible to retrieve the data of the search target item corresponding to the search key information from the text data recorded on the CD-ROM. Can be obtained quickly.
[0136]
In addition, since the index information that has already been created can be used as it is, there is a problem in an electronic book system with a large amount of content in which more text data is recorded by compressing the text data and recording it on a CD-ROM. It is possible to migrate without any problems.
[0137]
In the above-described embodiment, it has been described that the body data before compression and the head of the body data after compression coincide with the head of the body data area of the CD-
[0138]
Therefore, when the body data before compression of each document is recorded, information such as the head position information of the body data, the head position information of the body data after compression, or the data amount of the divided block is stored in the CD-ROM. It is stored in the TOC (table of contents) or other area of the CD-ROM, and the unit block before compression is the unit block of the body data, or the unit block before compression In this case, it can be used when calculating the amount of data from the head of the search target item data corresponding to the search key information to the head position of the search target information. Even when body data is recorded, it can be handled without any problem.
[0139]
Further, even if the index information or the compression size table creates the head of the text data of these information as, for example, 0000H, the text when the text data before compression of each document is recorded as described above. As described above, it corresponds to the search key information by recording information such as the head position information of the data, the head position information of the compressed body data, or the data amount of the divided blocks on the CD-ROM. The data of the search target item to be acquired can be acquired.
[0140]
In the above-described embodiment, the unit block has been described as having a size of 4096 bytes (about 4 kilobytes), but is not limited thereto. It can be increased or decreased in consideration of the storage capacity of the memory of the information retrieval apparatus, the data reading speed from the CD-ROM, the time required for compression / decompression processing, and the like.
[0141]
In the above-described embodiment, the accumulated value of the data amount for each unit block after compression is recorded in the compressed size table in association with each unit block as the compressed size. It is not limited to.
[0142]
For example, a compressed size table in which the data amount itself for each unit block after compression is associated with each unit block may be created. In other words, create a compression size table so that the amount of data after compression of each unit block can be known, such as how many bytes of data after compression of the first unit block and how many bytes of data of the second unit block. To do.
[0143]
Thus, the head position of the text data after compression of the target unit block can be obtained by adding the amount of data after compression from the head unit block to the target unit block. In addition, the data amount after compression of the target unit block is calculated from the total value of the data amount after compression from the head unit block to the target unit block, from the head unit block to the target unit block. It is obtained by subtracting the total value of the data amount after compression up to the previous unit block. Thus, even when the compression size table is created so that the data amount after compression of each unit block can be known, the data amount after compression of the target unit block and its head recording position are obtained, and the CD-ROM is obtained. It can be read from and used.
[0144]
In the above-described embodiment, the CD-ROM is used as a recording medium for the electronic book system, but the present invention is not limited to this. Various recording media such as a so-called floppy disk and a miniature magneto-optical disk called a mini disk (MD) and a DVD (digital video disk) can be used.
[0145]
Further, as text data of documents, not only text data but also graphics data can be processed in the same manner.
[0146]
Moreover, although the above-described information retrieval apparatus has been described as dedicated to an electronic book system, the present invention is not limited to this. For example, the present invention can be applied to an information processing apparatus such as a personal computer.
[0147]
【The invention's effect】
As described above, according to the present invention, since data can be compressed and recorded on a recording medium, more data can be recorded on the recording medium. In addition, for data to be compressed and recorded, if there is index information for the data before compression, even if the data is compressed and recorded on a recording medium, the existing index information is used, Search processing can be performed.
[0148]
In addition, compression of data to be recorded on a recording medium is necessary to specify a processing unit because the data is divided into unit blocks of a predetermined size and compressed for each unit block. Since the additional information is small and the calculation for the identification is simple, a reasonable and high-speed search process can be performed.
[Brief description of the drawings]
FIG. 1 is a block diagram for explaining an embodiment of an information recording apparatus according to the present invention.
FIG. 2 is a diagram for explaining an example of electronic book standard index information;
FIG. 3 is a diagram for explaining an example of electronic book standard index information;
FIG. 4 is a diagram for explaining information compression processing performed in an embodiment of an information recording apparatus according to the present invention;
FIG. 5 is a diagram for explaining a compressed size table created in an embodiment of an information recording apparatus according to the present invention;
FIG. 6 is a flowchart for explaining information compression processing and compression size table creation processing performed in an embodiment of the information recording apparatus according to the present invention;
FIG. 7 is a block diagram for explaining an embodiment of an information retrieval apparatus according to the present invention;
FIG. 8 is a flow chart for explaining an operation at the time of information search processing of the embodiment of the information search device according to the present invention;
[Explanation of symbols]
DESCRIPTION OF
Claims (2)
前記記録媒体には、前記本文データが、所定の等しい大きさのデータ量毎に分割されて、その分割データ単位で圧縮されたものが、記録位置が連続するように順次に記録されていると共に、前記分割データ単位毎の圧縮後のデータサイズの累算値が、各分割データ毎に対応付けられて記述された圧縮サイズテーブルが、前記インデックス情報に加えて記録されており、
前記読み出し手段により、前記インデックス情報に基づいて、指定された前記検索対象項目の先頭位置を示すアドレスまでのデータ量を特定し、前記先頭位置を示すアドレスまでのデータ量を前記所定の大きさのデータ量で割り算することで、前記先頭位置を含む前記分割データ単位を特定すると共に、前記分割データの圧縮後のデータサイズの累算値に基づいて、当該特定した分割データ単位に対応する圧縮後の本文データの記録開始位置と、そのデータ量とを特定して、当該特定した分割データ単位に対応する本文データを、前記記録媒体から読み出す読み出し工程と、
前記圧縮解凍手段により、前記読み出し工程において前記読み出し手段により読み出された前記分割データ単位の圧縮された本文データの圧縮を解凍する圧縮解凍工程と、
前記データ出力手段により、前記圧縮解凍工程において前記圧縮解凍手段により圧縮解凍されたデータの中の、前記インデックス情報に基づいて検出される前記指定された検索対象項目の先頭位置から、当該検索対象項目のデータを出力する対象データ出力工程と
を備える情報検索方法。 A plurality of search objects used in an information search apparatus comprising a reading means for reading data from a recording medium, a compression / decompression means for compressing / decompressing the read data, and a data output means for outputting the compressed / decompressed data Index information for detecting the first recording position for each of the search target items when the body data including the items are sequentially recorded on a recording medium without a break for each of the search target items, key information for search As an information search method for detecting the target search target item from body data including the plurality of search target items that are compressed and recorded,
On the recording medium, the body data is divided into predetermined equal amounts of data, and compressed in units of the divided data are sequentially recorded so that the recording positions are continuous. In addition to the index information, a compressed size table in which an accumulated value of the compressed data size for each divided data unit is described in association with each divided data is recorded,
Based on the index information , the reading means specifies the data amount up to the address indicating the start position of the specified search target item, and the data amount up to the address indicating the start position is set to the predetermined size. By dividing by the data amount, the divided data unit including the head position is specified, and after the compression corresponding to the specified divided data unit based on the accumulated value of the compressed data size of the divided data A step of reading out the body data corresponding to the specified divided data unit from the recording medium, specifying the recording start position of the body data and the data amount thereof,
A compression / decompression step of decompressing the compressed body data of the divided data unit read by the readout unit in the readout step by the compression / decompression unit ;
The search target item from the head position of the designated search target item detected based on the index information in the data compressed and decompressed by the compression and decompression unit in the compression and decompression step by the data output unit. An information retrieval method comprising: a target data output step for outputting the data of
前記記録媒体には、前記本文データが、所定の等しい大きさのデータ量毎に分割されて、その分割データ単位で圧縮されたものが、記録位置が連続するように順次に記録されていると共に、前記分割データ単位毎の圧縮後のデータサイズの累算値が、各分割データ毎に対応付けられて記述された圧縮サイズテーブルが、前記インデックス情報に加えて記録されており、
前記記録媒体の装填部と、
目的とする検索対象項目を検索するための検索キー情報の入力を受け付ける検索キー情報入力手段と、
前記検索キー情報入力手段を通じて入力された検索キー情報に対応する検索対象項目に対応した前記インデックス情報に基づいて、指定された前記検索対象項目の先頭位置を示すアドレスまでのデータ量を特定し、前記先頭位置を示すアドレスまでのデータ量を前記所定の大きさのデータ量で割り算することで、前記先頭位置を含む前記分割データ単位を特定すると共に、前記分割データの圧縮後のデータサイズの累算値に基づいて、当該特定した分割データ単位に対応する圧縮後の本文データの記録開始位置と、そのデータ量とを特定して、当該特定した分割データ単位に対応する本文データを、前記記録媒体から読み出す読み出し手段と、
前記読み出し手段により読み出された前記分割データ単位の圧縮された本文データの圧縮を解凍する圧縮解凍手段と、
前記圧縮解凍手段で圧縮解凍されたデータの中の、前記インデックス情報に基づいて検出される前記指定された検索対象項目の先頭位置から、当該検索対象項目のデータを出力する対象データ出力手段と
を備える情報検索装置。Search for index information for detecting a head recording position for each search target item when body data including a plurality of search target items is sequentially recorded on a recording medium without a break for each search target item An information search device for detecting the target search target item from text data including the plurality of search target items that are compressed and recorded as key information for
Wherein the recording medium, the text data is divided into each data of a predetermined equal size, which has been compressed by the divided data units, with are sequentially recorded as recording position successively , the accumulated value of the data size after compression divided per data unit is compressed size table that is described in association with each divided data are recorded in addition to the index information,
A loading unit for the recording medium;
Search key information input means for receiving input of search key information for searching for a target search target item;
Based on the index information corresponding to the search target item corresponding to the search key information input through the search key information input means, specify the data amount up to the address indicating the start position of the specified search target item , By dividing the data amount up to the address indicating the head position by the data amount of the predetermined size, the divided data unit including the head position is specified, and the accumulated data size of the divided data is compressed. Based on the arithmetic value, the recording start position of the compressed body data corresponding to the specified divided data unit and the data amount thereof are specified, and the body data corresponding to the specified divided data unit is recorded in the recording Reading means for reading from the medium;
Compression and decompression means for decompressing the compressed body data compressed in units of the divided data read by the readout means;
Target data output means for outputting data of the search target item from the head position of the specified search target item detected based on the index information in the data compressed and decompressed by the compression / decompression means; An information retrieval device provided.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31957797A JP3928677B2 (en) | 1997-11-20 | 1997-11-20 | Information search method and information search apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31957797A JP3928677B2 (en) | 1997-11-20 | 1997-11-20 | Information search method and information search apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11154156A JPH11154156A (en) | 1999-06-08 |
JP3928677B2 true JP3928677B2 (en) | 2007-06-13 |
Family
ID=18111827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP31957797A Expired - Fee Related JP3928677B2 (en) | 1997-11-20 | 1997-11-20 | Information search method and information search apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3928677B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7251719B2 (en) | 2003-08-11 | 2007-07-31 | Fujitsu Ten Limited | Recording medium playback apparatus |
-
1997
- 1997-11-20 JP JP31957797A patent/JP3928677B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11154156A (en) | 1999-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20060008258A1 (en) | Device and method for reproducing compressed information | |
KR100465355B1 (en) | Information data recording and reproducing apparatus and method | |
WO2005033944A1 (en) | File management device, file management method, file management method program, and recording medium containing the file management method program | |
JP2003330777A (en) | Data file reproduction device, recording medium, data file recording device, data file recording program | |
US6041025A (en) | Data disk including supplementary information enabling retrieval of related information from another storage medium | |
JP4230963B2 (en) | Playback device | |
EP1570484A1 (en) | Recording and reproducing system, recording apparatus, reproducing apparatus, record medium, recording and reproducing method, recording method, reproducing method, program and record medium | |
JP3928677B2 (en) | Information search method and information search apparatus | |
JP3781912B2 (en) | Image recording / playback device | |
JPS6310514B2 (en) | ||
JP3509941B2 (en) | Data search method and device | |
JPS6064387A (en) | Information display | |
JP3173734B2 (en) | Filing system | |
KR100724208B1 (en) | Method for reploducing text data recorded on optical disc | |
KR100735199B1 (en) | Method for reploducing text data recorded on optical disc | |
US20070002698A1 (en) | Recorder, recording method, player, and playback method | |
JPS58123159A (en) | Registering method of picture information | |
JPH0695337B2 (en) | Information file device | |
JPS60170085A (en) | Picture filing system | |
JPS63255889A (en) | Data file device | |
JP2007012124A (en) | Reproducing device | |
JPH0677389B2 (en) | Copy method in image information storage / retrieval device | |
JP2001143378A (en) | Disk recording device | |
JPH07121200A (en) | Device for recording/reproducing information | |
JPH09282841A (en) | Data recording apparatus and data reproducing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060628 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061122 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070227 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100316 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110316 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |