JP2888188B2 - 情報検索装置 - Google Patents

情報検索装置

Info

Publication number
JP2888188B2
JP2888188B2 JP8054588A JP5458896A JP2888188B2 JP 2888188 B2 JP2888188 B2 JP 2888188B2 JP 8054588 A JP8054588 A JP 8054588A JP 5458896 A JP5458896 A JP 5458896A JP 2888188 B2 JP2888188 B2 JP 2888188B2
Authority
JP
Japan
Prior art keywords
record
search
index file
group
record number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP8054588A
Other languages
English (en)
Other versions
JPH09245043A (ja
Inventor
哲也 木下
隆正 小山
忠一 菊池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP8054588A priority Critical patent/JP2888188B2/ja
Priority to US08/797,085 priority patent/US5915248A/en
Priority to KR1019970004166A priority patent/KR100240243B1/ko
Priority to DE69712568T priority patent/DE69712568T2/de
Priority to CN971026181A priority patent/CN1094218C/zh
Priority to EP97102211A priority patent/EP0806732B1/en
Publication of JPH09245043A publication Critical patent/JPH09245043A/ja
Application granted granted Critical
Publication of JP2888188B2 publication Critical patent/JP2888188B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】本発明は電子計算機を利用し
て、データベースに登録されたデータの中から指定され
た文字列等によりデータを検索する情報検索装置に関
し、特に限られたレコード管理領域で大量なデータを扱
えるようにしたものである。 【0002】 【従来の技術】近年、さまざまな文書が電子化されてき
ているのにともない、大量の文書を管理し検索したいと
いう要求が高まっている。 【0003】この種の要求に対して、従来の情報検索装
置は、登録する文書をデータベースに登録する単位であ
り、検索の単位であるレコードに分割し、それぞれのレ
コードに対してレコード番号を付与し、管理している。 【0004】従来では、図17のようにレコード番号と
そのレコードのインデックスとなる文字出現情報を同じ
一つ限られた領域で管理していた。 【0005】また、登録される文書に付与されている識
別情報である文書番号やページ番号とレコード番号との
対応を保持するために、対応表を作成する必要があり、
文書更新によってページが増えた時には、対応表の追加
が必要であった。 【0006】 【発明が解決しようとする課題】しかしながら上記の従
来の構成では、2つの課題を有していた。第1は、レコ
ード番号を管理する領域は自ずと制限され、例えばレコ
ード番号とインデックス情報である文字出現情報を32
ビットの領域で管理し、そのうち12ビットを文字出現
情報で必要であるとすると、残りの20ビットがレコー
ド番号に割り当てられる領域となり、1048576レ
コード(2の20乗)しか扱えないことになる。 【0007】また、扱うレコード数を増やそうとする
と、レコード番号を管理する領域を増やさなければなら
ず、文字出現情報の領域を減少させることができない場
合は、管理領域全体を増やす必要があり、インデックス
ファイルのサイズが増加してしまうという課題を有して
いた。 【0008】第2は、検索対象の増加によってレコード
番号が追加された対応表を利用して、容易にレコード番
号から文書番号やページ番号等の識別情報を捜し出すに
は、対応表の再構築やソートが必要であるという課題を
有していた。 【0009】本発明は、上記の従来技術の2つの課題を
解決するもので、レコード番号をグループ化することに
よって、管理するグループ番号を相対番号化し、限られ
た範囲のレコード番号管理領域で、その領域が通常管理
できる数値以上のレコード番号を管理することができる
情報検索装置を提供することを目的とする。 【0010】また、検索対象に付与された識別情報から
一意に決まる規則によってレコード番号を割り振ること
により、対応表を作成せずにレコード番号と識別情報の
変換が容易に行なえ、検索対象の増加にも柔軟に対応で
きる情報検索装置を提供することを目的とする。 【0011】 【課題を解決するための手段】第1の目的を達成するた
めに本発明は、処理要求を受け付ける要求受付手段と、
検索対象に検索の単位であるレコード番号を付与するレ
コード番号付与手段と、前記レコード番号付与手段によ
って付与されたレコード番号をグループ化し、レコード
番号をグループ番号とグループ内の相対番号に変換する
相対番号化手段と、前記相対番号化手段により変換され
た相対番号を用いて対応する検索対象からインデックス
ファイルを作成するインデックスファイル作成手段と、
前記インデックスファイル作成手段が作成するインデッ
クスファイルを格納するインデックスファイル記憶部
と、前記要求受付手段から入力された検索要求に対し、
前記インデックスファイル記憶部に格納されたインデッ
クスファイルを用いて検索を実行するインデックスファ
イル検索手段と、前記インデックスファイル検索手段に
よって検索されたレコードの相対番号を、前記レコード
番号付与手段により付与されたレコード番号に変換する
絶対番号化手段と、前記絶対番号化手段により変換され
たレコード番号に基づき検索結果を出力する検索結果出
力手段の構成を有している。 【0012】これにより、検索対象を登録する際に、検
索の単位毎にレコード番号を付与し、付与されたレコー
ド番号をグループ化し、相対番号化して管理することに
よって、同じ範囲のレコード番号をグループ毎に再利用
できるので、同じ範囲のレコード管理領域で通常管理で
きる数以上のレコード番号を管理することができる。 【0013】また、第2の目的を達成するために本発明
は、各種処理要求を受け付ける要求受付手段と、検索対
象に付与された識別情報に基づき、検索の単位であるレ
コード番号を一意に決まる規則によって生成し、当該検
索対処に割り振るレコード番号付与手段と、前記レコー
ド番号付与手段によって付与されたレコード番号をグル
ープ化し、検索対象に割り振られていないレコード番号
を含め、レコード番号をグループ番号とグループ内の相
対番号に変換する相対番号化手段と、前記相対番号化手
段により変換された相対番号を用いて対応する検索対象
からインデックスファイルを作成するインデックスファ
イル作成手段と、前記インデックスファイル作成手段が
作成するインデックスファイルを格納するインデックス
ファイル記憶部と、前記要求受付手段から入力された検
索要求に対し前記インデックスファイル記憶部に格納さ
れたインデックスファイルを用いて検索を実行するイン
デックスファイル検索手段と、前記インデックスファイ
ル検索手段によって検索されたレコードの相対番号を、
前記レコード番号付与手段により付与されたレコード番
号に変換する絶対番号化手段と、前記絶対番号化手段に
より変換されたレコード番号を前記レコード番号付与手
段における一意に決まる規則の逆変換によって検索対象
に付与された識別情報に変換する逆変換手段と、前記逆
変換手段により変換された検索対象に付与された識別情
報に基づき検索結果を出力する検索結果出力手段の構成
を有している。 【0014】これにより、検索対象に付与された識別情
報から一意に決まる規則によってレコード番号を割り振
ることにより、対応表を作成せずにレコード番号と識別
情報との変換が容易に行なえ、検索対象の増加にも柔軟
に対応できる。 【0015】 【0016】【発明の実施の形態】 本発明 の請求項に記載の発明
は、処理要求を受け付ける要求受付手段と、検索対象に
検索の単位であるレコード番号を付与するレコード番号
付与手段と、前記レコード番号付与手段によって付与さ
れたレコード番号をグループ化し、レコード番号をグル
ープ番号とグループ内の相対番号に変換する相対番号化
手段と、前記相対番号化手段により変換された相対番号
を用いて対応する検索対象からインデックスファイルを
作成するインデックスファイル作成手段と、前記インデ
ックスファイル作成手段が作成するインデックスファイ
ルを格納するインデックスファイル記憶部と、前記要求
受付手段から入力された検索要求に対し、前記インデッ
クスファイル記憶部に格納されたインデックスファイル
を用いて検索を実行するインデックスファイル検索手段
と、前記インデックスファイル検索手段によって検索さ
れたレコードの相対番号を、前記レコード番号付与手段
により付与されたレコード番号に変換する絶対番号化手
段と、前記絶対番号化手段により変換されたレコード番
号に基づき検索結果を出力する検索結果出力手段を備え
たものであり、検索対象を登録する際に、検索の単位毎
にレコード番号を付与し、付与されたレコード番号をグ
ループ化し、相対番号化して管理することによって、同
じ範囲のレコード番号をグループ毎に再利用できるの
で、同じ範囲のレコード管理領域で通常管理できる数以
上のレコード番号を管理し、検索することができるとい
う作用を有する。 【0017】請求項に記載の発明は、請求項の構成
において、レコード番号付与手段が、検索対象に付与さ
れた識別情報とレコード番号との対応を表すレコード番
号対応表を作成し、検索結果出力手段が、絶対番号化手
段により変換されたレコード番号から前記レコード番号
対応表に基づき検索結果を出力するものであり、検索結
果を検索対象に付与された識別情報で特定できるという
作用を有する。 【0018】請求項に記載の発明は、請求項の構成
おいてインデックスファイル作成手段が、グループ番号
をヘッダ部とし、グループ内の相対番号と、当該グルー
プ番号と相対番号に対応する検索対象のインデックス情
報からなる前記ヘッダ部と同一サイズの要素からなるイ
ンデックスファイルを作成するものであり、インデック
スファイルの要素のサイズを変えるることなく、大量の
検索対象を管理できるという作用を有する。 【0019】請求項に記載の発明は、各種処理要求を
受け付ける要求受付手段と、検索対象に付与された識別
情報に基づき、検索の単位であるレコード番号を一意に
決まる規則によって生成し、当該検索対処に割り振るレ
コード番号付与手段と、前記レコード番号付与手段によ
って付与されたレコード番号をグループ化し、検索対象
に割り振られていないレコード番号を含め、レコード番
号をグループ番号とグループ内の相対番号に変換する相
対番号化手段と、前記相対番号化手段により変換された
相対番号を用いて対応する検索対象からインデックスフ
ァイルを作成するインデックスファイル作成手段と、前
記インデックスファイル作成手段が作成するインデック
スファイルを格納するインデックスファイル記憶部と、
前記要求受付手段から入力された検索要求に対し前記イ
ンデックスファイル記憶部に格納されたインデックスフ
ァイルを用いて検索を実行するインデックスファイル検
索手段と、前記インデックスファイル検索手段によって
検索されたレコードの相対番号を、前記レコード番号付
与手段により付与されたレコード番号に変換する絶対番
号化手段と、前記絶対番号化手段により変換されたレコ
ード番号を前記レコード番号付与手段における一意に決
まる規則の逆変換によって検索対象に付与された識別情
報に変換する逆変換手段と、前記逆変換手段により変換
された検索対象に付与された識別情報に基づき検索結果
を出力する検索結果出力手段を備えたものであり、検索
の単位であるレコード番号を一意に決まる規則によって
生成し、検索対象に割り振られていないレコード番号を
含め、レコード番号をグループ番号とグループ内の相対
番号に変換することにより、対応表を作成せずにレコー
ド番号と識別情報との変換が容易に行なえ、検索対象の
増加にも柔軟に対応できるという作用を有する。 【0020】請求項に記載の発明は、請求項2から
のいずれかに記載の構成において、インデックスファイ
ル作成手段が、インデックスファイル記憶部にインデッ
クスファイルを格納する際に、データを追加する領域を
あらかじめ用意する挿入領域作成手段を備えたものであ
り、検索対象の更新や追加によって、検索のインデック
スが増えた場合でも挿入領域に増加したインデックスを
追加すればよく、インデックスファイルの再構築による
検索速度の劣化を減らすことができるという作用を有す
る。 【0021】以下、本発明の実施の形態について、図1
から図16を用いて説明する。 (実施の形態1)まず、第1の実施の形態として、イン
デックスを利用する情報検索装置において、検索対象と
して、文書番号とページ番号の識別情報が付与された文
書を対象に、文書の登録を行ない、検索を実行する場合
の動作を説明する。 【0022】図1は本発明の一実施形態における情報検
索装置の構成図である。図1において、1は各種処理の
要求を受け付ける要求受付手段、2は登録する文書の文
書番号、ページ番号とレコード番号の対応表を作成し、
文書にレコード番号を割り振るレコード番号付与手段、
3はレコード番号付与手段2により作成されるレコード
番号対応表を格納するレコード番号対応表記憶部、4は
レコード番号付与手段2によって付与されたレコード番
号をグループ化し、グループ内の相対番号に変換する相
対番号化手段。 【0023】5は相対番号化手段4によって変換された
相対レコード番号と登録データからインデックスファイ
ルを作成するインデックスファイル作成手段、6はイン
デックスファイル作成手段5が作成するインデックスフ
ァイルを格納するインデックスファイル記憶部、7はイ
ンデックスファイル記憶部6のインデックスファイルを
利用して検索を実行するインデックスファイル検索手
段、8はインデックスファイル検索手段7によって検索
されたレコードの相対レコード番号を、絶対レコード番
号に変換する絶対番号化手段。 【0024】9は絶対番号化手段によって変換されたレ
コード番号を、レコード番号対応表記憶部3のレコード
番号対応表を利用して文書番号とページ番号に変換する
文書番号変換手段、10は検索結果としてヒットした文
書番号を表示する検索結果出力手段、11はインデック
スファイル作成手段5が、インデックスファイル記憶部
6にインデックスファイルを格納する際に、データを追
加する領域をあらかじめ用意する挿入領域作成手段であ
る。第1の実施の形態では、挿入領域作成手段11は使
用しない。 【0025】まず、文書の登録は図2の処理フローよっ
て実行される。ユーザが文書の登録を行なうと、要求受
付手段1が文書登録の要求を受け付け、レコード番号付
与手段2が登録レコード毎に、レコード番号を付与する
(ステップ1)。登録データは文書とページから構成さ
れ、ページ単位で登録レコードとし、各文書のページ毎
にレコード番号が付与される。 【0026】例えば、図3のような文書が登録されたと
すると文書1のページ1はレコード番号1、文書2のペ
ージ2はレコード番号2、文書2のページ1はレコード
番号3というようにレコード番号を付与する。 【0027】そして、付与したレコード番号と文書番
号、ページ番号の対応表を作成し、レコード番号対応表
記憶部3に格納する(ステップ2)。図3のような文書
を登録した場合は、図4のようなレコード番号対応表が
作成される。 【0028】次に付与したレコード番号をグループ化す
る。ここでレコード数を65536単位でグループ化す
るとすると、グループ番号を次の式より算出する(ステ
ップ3)。 【0029】グループ番号=<レコード番号/6553
6> ここで<>は小数点以下を切り捨てた整数を表す。 【0030】そして、グループ化したグループ内での相
対レコード番号を次の式より算出する(ステップ4)。 【0031】グループ内レコード番号=レコード番号%
65536 ここで、演算子%はある数を割ったあまりを示す。 【0032】これにより図5に示すように、レコード番
号65537はグループ2のグループ内レコード番号1
に、レコード番号131072はグループ2のグループ
内レコード番号65536に変換される。 【0033】次にインデックスファイルを作成する(ス
テップ5)。インデックスファイルの構造は図6に示
す。インデックスファイルは2文字の文字連鎖のそれぞ
れの文字の出現度数を保持する。 【0034】ここで、登録データが”あいああいうあ
う”とすると、それぞれの文字の出現度数が図7のよう
になる。このデータを先頭から2文字連鎖で分割すると
最初の文字連鎖は(あ、い)となり、その文字連鎖の出
現度数情報は(1、1)となる。次の文字連鎖は(い、
あ)となり、出現度数情報は(1、2)となる。同様に
すべての文字連鎖に対する出現度数情報を得る。 【0035】ここで、グループ1のグループ内レコード
番号1の文章が”あいあいういうあいあいう”、グルー
プ1のグループ内レコード番号2の文章が”いいああい
いうあいう”、グループ2のグループ内レコード番号1
の文章が”いうあいあいういう”、グループ2のグルー
プ内レコード番号2の文章が”あういうあいいああい
う”であった場合を考え、出現度数情報を算出すると、
文字連鎖(あ、い)と(い、う)のインデックスファイ
ルは図8のようになる。 【0036】次にインデックスを作成したレコードが最
後のレコードでなければ(ステップ6)、次のレコード
を取得し(ステップ7)、ステップ1〜ステップ6を繰
り返し、最後のレコードまで処理する。 【0037】次に検索は図9、図10の処理フローによ
って実行される。まず、ユーザが検索を要求すると、要
求受付手段1が検索要求を受け付け、検索文字列をイン
デックスファイル検索手段7に渡す。インデックスファ
イル検索手段7は検索文字列を文字連鎖毎に分割する
(ステップ1)。 【0038】ここで、検索文字列が”あいう”だったと
すると、2文字連鎖(あ、い)と(い、う)に分割す
る。 次にインデックスファイル記憶部6から2文字連
鎖(あ、い)と(い、う)の先頭の出現度数情報を取得
する(ステップ2)。 【0039】図8の場合を考えると、文字連鎖(あ、
い)がグループ1のレコード番号1の(1、1)、文字
連鎖(い、う)がグループ1のレコード番号1の(2、
1)となる。 【0040】この出現度数情報のグループ番号を比較し
(ステップ3)、同じでなければグループ番号の小さい
ほうを、グループの出現度数情報数だけポインタをずら
すことによって次のグループの先頭の出現度数情報を取
得し、ステップ3から繰り返し処理する(ステップ
4)。同じならばグループ内レコード番号の比較を行な
う(ステップ5)。 【0041】図8の場合は、グループ番号はどちらも1
なのでグループ内レコード番号の比較を行なう。 【0042】グループ内相対番号が同じでなければ、そ
のデータがグループ内の最後のデータでなければ(ステ
ップ6)、グループ内レコード番号の小さいほうの次の
出現度数情報を取得し(ステップ7)、ステップ5から
繰り返し処理する。最後のデータならば、次のグループ
の先頭の出現度数情報を取得し(ステップ8)、ステッ
プ3からの処理を繰り返す。グループ内レコード番号が
同じならば、出現度数情報の比較を行なう(ステップ
9)。 【0043】図8の場合は、グループ内レコード番号が
どちらも1なので、出現度数情報の比較を行なう。 【0044】出現度数情報の比較は最初の文字連鎖
(あ、い)の2番目の文字”い”の出現度数と、次の文
字連鎖(い、う)の先頭文字”い”の出現度数を比較す
る。出現度数が一致するということは、つまり文字連鎖
(あ、い)の”い”と、文字連鎖(い、う)の”い”は
同一文字ということになり、この二つの文字連鎖は連続
した文字列であることになる。よって、文字列”あい
う”が存在するということになる。 【0045】出現度数が一致しなければ、出現度数の小
さいほうの文字連鎖の次の出現度数情報を取得し(ステ
ップ10)、ステップ5から繰り返し処理する。 【0046】図8の場合、(あ、い)の出現度数情報は
(1、1)、(い、う)の出現度数情報は(2、1)な
ので、(あ、い)の2文字目の出現度数1と、(い、
う)の最初の文字の出現度数2は一致しないため、出現
度数の小さい文字連鎖(あ、い)の次の出現度数情報で
あるグループ内レコード番号番号1の(2、2)を得
る。 【0047】グループ内レコード番号が同じ1なので、
出現度数情報を比較すると、どちらも2で同じため、グ
ループ1のグループ内レコード番号1には検索文字列”
あいう”が存在することになる。 【0048】出現度数が一致し、検索文字列が存在すれ
ば、グループ番号とグループ内レコード番号から以下の
式でレコード番号を算出する(ステップ11)。 【0049】レコード番号=65536*グループ番号
+グループ内レコード番号次にレコード番号対応表記憶
部3の対応表(図4)を利用して、レコード番号から文
書番号とページ番号を取得する(ステップ12)。 【0050】最後にステップ12で得た文書番号とペー
ジ番号を、該当文書番号とページ番号として出力する
(ステップ13)。これらの処理を最後のデータに達す
るまで実行する。 【0051】このように本実施の形態の情報検索装置で
は、文書を登録する際に、ページ単位にレコード番号を
付与し、付与されたレコード番号をグループ化し、相対
番号化して管理することによって、同じ範囲のレコード
番号をグループ毎に再利用でき、また、インデックスフ
ァイルの構成でグループ情報を相対レコード番号や文字
出現度数情報と同じ領域ではなくヘッダ部分に持つこと
により、グループ情報と文字出現度数情報を同じ領域で
管理するより、それぞれの管理領域のサイズを最大限利
用でき、同じサイズ、同じ範囲のレコード管理領域で通
常管理できる数以上のレコード番号を管理が可能で、管
理領域のサイズを拡大することなく、大量文書に対して
検索することができる。 【0052】なお、インデックスファイルは2文字の文
字連鎖の文字の出現度数を管理したもので実現したが、
文字連鎖の絶対位置などの文字連鎖の出現情報を管理す
るものであれば適用できる。また、登録の1レコードを
文書内のページ単位で実現したが、文書単位または1文
(読点)単位または段落単位など、任意の区切り単位を
1レコードとすることも可能である。 【0053】(実施の形態2)第2の実施の形態とし
て、登録要求されたデータに対して、レコード番号を付
与する際に、検索対象に付与された識別情報である文書
番号とページ番号から一意に決まる規則を用いてレコー
ド番号を付与し、文書の登録と検索を実行する場合の動
作を説明する。 【0054】図11は本発明の一実施例における情報検
索装置の構成図である。図11において、12は各種処
理の要求を受け付ける要求受付手段、13は文書番号と
ページ番号から一意に決まる規則によってレコード番号
を割り振るレコード番号付与手段、14はレコード番号
付与手段によって付与されたレコード番号をグループ化
し、グループ内の相対番号に変換する相対番号化手段。 【0055】15は相対番号化手段14によって変換さ
れた相対レコード番号と登録データからインデックスフ
ァイルを作成するインデックスファイル作成手段、16
はインデックスファイル作成手段15が作成するインデ
ックスファイルを格納するインデックスファイル記憶
部、17はインデックスファイル記憶部16のインデッ
クスファイルを利用して検索を実行するインデックスフ
ァイル検索手段。 【0056】18はインデックスファイル検索手段17
によって検索されたレコードの相対レコード番号を、絶
対レコード番号に変換する絶対番号化手段、19は絶対
番号化手段18によって変換されたレコード番号を、レ
コード番号付与手段13が文書番号とページ番号から一
意に決まる規則によって変換した逆変換によってレコー
ド番号から文書番号とページ番号にする逆変換手段とし
ての文書番号変換手段、20は検索結果としてヒットし
た文書番号を表示する検索結果出力手段である。 【0057】まず、文書の登録の動作を説明する。文書
の登録は、まず図12の処理フローによって実行され
る。 【0058】ユーザが文書の登録を行なうと、要求受付
手段1が文書登録の要求を受け付け、レコード番号付与
手段13が文書番号とページ番号から一意に決まる規則
によってレコード番号を付与する。レコード番号は以下
の式で算出する。 【0059】レコード番号=(文書番号-1)*1文書
の最大ページ数+ページ番号 ここで、1文書のページ番号を任意の値に設定すること
によって、レコード番号を一意に決めることができる
(図13)。 【0060】この後の処理は、第1の実施の形態の処理
フローである図2のステップ3からステップ8までと同
様に処理を行ない、文書の登録を行なう。 【0061】次に、検索は第1の実施の形態の処理フロ
ーである図9、図10の処理と同様に行なわれる。ただ
し、ステップ12のレコード番号から文書番号とページ
番号を算出する処理は、以下の式により算出する。 【0062】文書番号=レコード番号/1文書の最大ペ
ージ数+1 ページ番号=レコード番号%1文書の最大ページ番号 このように本実施の形態の情報検索装置では、レコード
番号をグループ化し、相対レコード番号で管理すること
により、大量なレコード番号を管理できるので、あらか
じめ一文書の最大ページ数を決めて、文書番号とページ
番号レコード番号から一意に決まる規則でページ番号を
付与することが可能になり、対応表を作成することな
く、かつ、文書の更新によってページ数が増減した場合
にも、あらかじめ決められた最大ページ数内であれば、
レコード番号の付与が規則的に実現でき、文書番号とペ
ージ番号からのレコード番号への変換と、その逆変換を
容易に行なうことができる。 【0063】なお、レコード番号への変換式は、 レコード番号=最大文書数*(ページ数-1)+文書番
号 など、文書番号とページ番号から一意に算出できるもの
であれば適用できる。 【0064】(実施の形態3)第3の実施の形態とし
て、登録要求されたデータに対して、インデックスファ
イルを作成する時に、あらかじめデータを追加する挿入
領域を作成しておき、追加される出現度数情報を挿入領
域に追加する場合の動作を説明する。 【0065】この動作は、図1の情報検索装置の構成図
において、インデックスファイル作成手段5がインデッ
クスファイル記憶部6にインデックスファイルを格納す
る時に、挿入領域作成手段11があらかじめ挿入領域を
作成し、作成された挿入領域に追加される出現同数情報
を格納することによって実行される。 【0066】まず、文書の登録の動作を説明する。文書
の登録は、第1の実施の形態の処理フローである図2の
ステップ1からステップ4まで同様に行なわれる。 【0067】次に、インデックスファイルの作成は図1
4の処理フローによって実行される。まず、第1の実施
の形態と同様に2文字連鎖の出現度数情報を作成する
(ステップ1)。出現度数情報を格納する領域がしなけ
れば(ステップ2)、追加領域としてあるサイズの領域
を作成する(ステップ3)。出現度数情報を格納する領
域が存在すれば、その領域に出現度数情報を格納する
(ステップ4)。 【0068】インデックスファイルの構造は図15に示
す。ここで、グループ1のグループ内レコード番号1の
文章が”あいあいういうあいあいう”、グループ1のグ
ループ内レコード番号2の文章が”いいああいいうあい
う”、グループ2のグループ内レコード番号1の文章
が”いうあいあいういう”、グループ2のグループ内レ
コード番号2の文章が”あういうあいいああいう”のデ
ータを登録したとすると、第1の実施の形態と同様に出
現度数情報を作成し、文字連鎖(あ、い)のインデック
スファイルは、出現度数情報とグループ毎にあるサイズ
の挿入領域が作成され図16のようになる。 【0069】ここでは、インデックスファイルに出現度
数情報が追加される場合とは、文書が追加登録された場
合や、すでに登録されている文書が更新されることに文
字出現情報数が増加した場合などである。 【0070】この後の処理は第1の実施の形態の処理フ
ローである図2のステップ6からステップ7までと同様
に処理され、データの登録が完了する。 【0071】また、検索は第1の実施の形態の処理フロ
ーである図9、図10の処理と同様に行なわれる。 【0072】このように本実施の形態の情報検索装置で
は、文書の更新や追加によって、インデックスファイル
の出現度数情報が増えた場合でもあるサイズの挿入領域
を作成しておくことにより、挿入領域に出現度数情報を
追加すればよく、インデックスファイルの再構築を、デ
ータを追加する度ではなく、挿入領域を一括して作成す
る時にだけ行なえばよくなり、インデックスファイルの
再構築による登録速度の劣化を軽減することができる。 【0073】なお、レコード番号は相対レコード番号を
利用して実現したが、相対化しない通常のレコード番号
を利用して管理する方法でも実現できる。 【0074】 【発明の効果】以上のように本発明によれば、検索の単
位を特定するレコード番号をグループ化し、グループの
番号とグループ内の番号でレコード番号を管理すること
により、レコード管理領域を拡大することなしに、より
大量のデータを管理することができる。 【0075】また、インデックスファイルを、グループ
番号をヘッダ部とし、グループ内の相対番号と、当該グ
ループ番号と相対番号に対応する検索対象のインデック
ス情報からなるヘッダ部と同一サイズの要素から構成す
ることにより、インデックスファイルの要素のサイズを
変えるることなく、大量の検索対象を管理できる。 【0076】また、検索の単位であるレコード番号を一
意に決まる規則によって生成し、検索対象に割り振られ
ていないレコード番号を含め、レコード番号をグループ
番号とグループ内の相対番号に変換することにより、対
応表を作成せずにレコード番号と識別情報との変換が容
易に行なえ、検索対象の増加にも柔軟に対応できる。 【0077】また、挿入領域作成手段を設けることによ
り、検索対象の更新や追加によって、検索のインデック
スが増えた場合でも挿入領域に増加したインデックスを
追加すればよく、インデックスファイルの再構築による
検索速度の劣化を減らすことができる。
【図面の簡単な説明】 【図1】本発明の第1の実施の形態における情報検索装
置の構成を示すブロック図 【図2】第1の実施の形態における文書の登録の処理フ
ローチャート 【図3】第1の実施の形態におけるレコード番号付与方
法の説明図 【図4】第1の実施の形態におけるレコード番号対応表
の一例図 【図5】第1の実施の形態におけるレコード番号の相対
化と相対レコード番号の絶対化の説明図 【図6】第1の実施の形態におけるインデックスファイ
ルの構造図 【図7】第1の実施の形態における出現度数情報抽出の
説明図 【図8】第1の実施の形態におけるインデックスファイ
ルの一例図 【図9】第1の実施の形態における検索処理のフローチ
ャート 【図10】第1の実施の形態における検索処理のフロー
チャート 【図11】第2の実施の形態における情報検索装置の構
成を示すブロック図 【図12】第2の実施の形態におけるレコード番号付与
処理のフローチャート 【図13】第2の実施の形態におけるレコード番号付与
方法の説明図 【図14】第3の実施の形態における挿入領域作成処理
のフローチャート 【図15】第3の実施の形態におけるインデックスファ
イルの構造図 【図16】第3の実施の形態におけるインデックスファ
イルの一例図 【図17】従来のインデックスファイルの構造図 【符号の説明】 1 要求受付手段 2 レコード番号付与手段 3 レコード番号対応表記憶部 4 相対番号化手段 5 インデックスファイル作成手段 6 インデックスファイル記憶部 7 インデックスファイル検索手段 8 絶対番号化手段 9 文書番号変換手段 10 検索結果出力手段 11 挿入領域作成手段 12 要求受付手段 13 レコード番号付与手段 14 相対番号化手段 15 インデックスファイル作成手段 16 インデックスファイル記憶部 17 インデックスファイル検索手段 18 絶対番号化手段 19 文書番号変換手段 20 検索結果出力手段
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−106641(JP,A) 特開 平6−324932(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06F 17/30 G06F 12/00 520 JICSTファイル(JOIS)

Claims (1)

  1. (57)【特許請求の範囲】 【請求項】 処理要求を受け付ける要求受付手段と、
    検索対象に検索の単位であるレコード番号を付与するレ
    コード番号付与手段と、前記レコード番号付与手段によ
    って付与されたレコード番号をグループ化し、レコード
    番号をグループ番号とグループ内の相対番号に変換する
    相対番号化手段と、前記相対番号化手段により変換され
    た相対番号を用いて対応する検索対象からインデックス
    ファイルを作成するインデックスファイル作成手段と、
    前記インデックスファイル作成手段が作成するインデッ
    クスファイルを格納するインデックスファイル記憶部
    と、前記要求受付手段から入力された検索要求に対し、
    前記インデックスファイル記憶部に格納されたインデッ
    クスファイルを用いて検索を実行するインデックスファ
    イル検索手段と、前記インデックスファイル検索手段に
    よって検索されたレコードの相対番号を、前記レコード
    番号付与手段により付与されたレコード番号に変換する
    絶対番号化手段と、前記絶対番号化手段により変換され
    たレコード番号に基づき検索結果を出力する検索結果出
    力手段を備えたことを特徴とする情報検索装置。 【請求項】 レコード番号付与手段が、検索対象に付
    与された識別情報とレコード番号との対応を表すレコー
    ド番号対応表を作成し、検索結果出力手段が、絶対番号
    化手段により変換されたレコード番号から前記レコード
    番号対応表に基づき検索結果を出力することを特徴とす
    る請求項記載の情報検索装置。 【請求項】 インデックスファイル作成手段が、グル
    ープ番号をヘッダ部とし、グループ内の相対番号と、当
    該グループ番号と相対番号に対応する検索対象のインデ
    ックス情報からなる前記ヘッダ部と同一サイズの要素か
    らなるインデックスファイルを作成することを特徴とす
    る請求項に記載の情報検索装置。 【請求項】 各種処理要求を受け付ける要求受付手段
    と、検索対象に付与された識別情報に基づき、検索の単
    位であるレコード番号を一意に決まる規則によって生成
    し、当該検索対処に割り振るレコード番号付与手段と、
    前記レコード番号付与手段によって付与されたレコード
    番号をグループ化し、検索対象に割り振られていないレ
    コード番号を含め、レコード番号をグループ番号とグル
    ープ内の相対番号に変換する相対番号化手段と、前記相
    対番号化手段により変換された相対番号を用いて対応す
    る検索対象からインデックスファイルを作成するインデ
    ックスファイル作成手段と、前記インデックスファイル
    作成手段が作成するインデックスファイルを格納するイ
    ンデックスファイル記憶部と、前記要求受付手段から入
    力された検索要求に対し前記インデックスファイル記憶
    部に格納されたインデックスファイルを用いて検索を実
    行するインデックスファイル検索手段と、前記インデッ
    クスファイル検索手段によって検索されたレコードの相
    対番号を、前記レコード番号付与手段により付与された
    レコード番号に変換する絶対番号化手段と、前記絶対番
    号化手段により変換されたレコード番号を前記レコード
    番号付与手段における一意に決まる規則の逆変換によっ
    て検索対象に付与された識別情報に変換する逆変換手段
    と、前記逆変換手段により変換された検索対象に付与さ
    れた識別情報に基づき検索結果を出力する検索結果出力
    手段を備えたことを特徴とする情報検索装置。 【請求項】 インデックスファイル作成手段が、イン
    デックスファイル記憶部にインデックスファイルを格納
    する際に、データを追加する領域をあらかじめ用意する
    挿入領域作成手段を備えたことを特徴とする請求項2か
    のいずれかに記載の情報検索装置。
JP8054588A 1996-03-12 1996-03-12 情報検索装置 Expired - Fee Related JP2888188B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP8054588A JP2888188B2 (ja) 1996-03-12 1996-03-12 情報検索装置
US08/797,085 US5915248A (en) 1996-03-12 1997-02-10 Data searching apparatus
KR1019970004166A KR100240243B1 (ko) 1996-03-12 1997-02-12 데이터 검색장치
DE69712568T DE69712568T2 (de) 1996-03-12 1997-02-12 Datensuchvorrichtung
CN971026181A CN1094218C (zh) 1996-03-12 1997-02-12 数据搜索装置
EP97102211A EP0806732B1 (en) 1996-03-12 1997-02-12 Data searching apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8054588A JP2888188B2 (ja) 1996-03-12 1996-03-12 情報検索装置

Publications (2)

Publication Number Publication Date
JPH09245043A JPH09245043A (ja) 1997-09-19
JP2888188B2 true JP2888188B2 (ja) 1999-05-10

Family

ID=12974892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8054588A Expired - Fee Related JP2888188B2 (ja) 1996-03-12 1996-03-12 情報検索装置

Country Status (6)

Country Link
US (1) US5915248A (ja)
EP (1) EP0806732B1 (ja)
JP (1) JP2888188B2 (ja)
KR (1) KR100240243B1 (ja)
CN (1) CN1094218C (ja)
DE (1) DE69712568T2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3571201B2 (ja) * 1997-12-12 2004-09-29 富士通株式会社 データベース検索装置及びデータベース検索プログラムを記録したコンピュータ読み取り可能な記録媒体
NO992269D0 (no) * 1999-05-10 1999-05-10 Fast Search & Transfer Asa S°kemotor med todimensjonalt skalerbart, parallell arkitektur
US6745196B1 (en) * 1999-10-08 2004-06-01 Intuit, Inc. Method and apparatus for mapping a community through user interactions on a computer network
US6480857B1 (en) 2001-06-07 2002-11-12 David Chandler Method of organizing hierarchical data in a relational database
US7222160B2 (en) * 2001-07-20 2007-05-22 Sharp Laboratories Of America, Inc. Object search and retrieval service for an ad hoc data communication system
AUPR894801A0 (en) * 2001-11-20 2001-12-13 Unisearch Limited A system and method for searching data sources
CN100346347C (zh) * 2002-04-12 2007-10-31 科学 通过多个面部原型合成的健壮面部注册
CN100411336C (zh) * 2003-12-10 2008-08-13 联想(北京)有限公司 无线网格下共享文件的搜索方法
US7636710B2 (en) * 2004-03-04 2009-12-22 Symantec Operating Corporation System and method for efficient file content searching within a file system
JP4802672B2 (ja) * 2005-11-14 2011-10-26 株式会社日立製作所 電子文書管理装置、電子文書管理プログラム、電子文書管理システム
US20110060718A1 (en) * 2009-09-04 2011-03-10 Song You Method and Apparatus for Organizing Hierarchical Data in a Relational Database
CN103136242B (zh) * 2011-11-28 2016-09-21 上海可鲁系统软件有限公司 一种多源数据索引存储、读取方法及装置
JP5942634B2 (ja) 2012-06-27 2016-06-29 富士通株式会社 秘匿化装置、秘匿化プログラムおよび秘匿化方法
US9729327B2 (en) 2013-10-29 2017-08-08 International Business Machines Corporation Computer-based optimization of digital signature generation for records based on eventual selection criteria for products and services
CN105097785A (zh) * 2014-05-09 2015-11-25 群创光电股份有限公司 显示面板的多重静电放电环装置
CN106947722B (zh) * 2017-04-28 2020-10-30 连云港中新污水处理有限公司 微生物菌剂及其制备方法和在污水处理中的应用

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5164897A (en) * 1989-06-21 1992-11-17 Techpower, Inc. Automated method for selecting personnel matched to job criteria
US5257365A (en) * 1990-03-16 1993-10-26 Powers Frederick A Database system with multi-dimensional summary search tree nodes for reducing the necessity to access records
US5530855A (en) * 1992-10-13 1996-06-25 International Business Machines Corporation Replicating a database by the sequential application of hierarchically sorted log records
JP3170095B2 (ja) * 1993-04-14 2001-05-28 富士通株式会社 情報検索システム
GB9311580D0 (en) * 1993-06-04 1993-07-21 Phonelink Data Limited Data retrieval system
US5734886A (en) * 1994-11-16 1998-03-31 Lucent Technologies Inc. Database dependency resolution method and system for identifying related data files
US5717919A (en) * 1995-10-02 1998-02-10 Sybase, Inc. Database system with methods for appending data records by partitioning an object into multiple page chains

Also Published As

Publication number Publication date
EP0806732A2 (en) 1997-11-12
KR970066948A (ko) 1997-10-13
CN1162154A (zh) 1997-10-15
DE69712568T2 (de) 2002-10-31
EP0806732A3 (en) 1998-12-23
JPH09245043A (ja) 1997-09-19
US5915248A (en) 1999-06-22
DE69712568D1 (de) 2002-06-20
CN1094218C (zh) 2002-11-13
EP0806732B1 (en) 2002-05-15
KR100240243B1 (ko) 2000-01-15

Similar Documents

Publication Publication Date Title
JP2888188B2 (ja) 情報検索装置
US6678687B2 (en) Method for creating an index and method for searching an index
US5799299A (en) Data processing system, data retrieval system, data processing method and data retrieval method
JP4848317B2 (ja) データベースのインデックス作成システム、方法及びプログラム
JP2718881B2 (ja) トークン識別システム
EP1845453A1 (en) Database management device, method and program
JP3318834B2 (ja) データファイルシステム及びデータ検索方法
JPH09179872A (ja) 有限状態トランスデューサを用いてデータベースのインデックス付けを行う方法及び装置
JP2001331509A (ja) リレーショナルデータベース処理装置、リレーショナルデータベースの処理方法及びリレーショナルデータベースの処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3518933B2 (ja) 構造化文書検索方法
JP3859044B2 (ja) インデクス作成方法および検索方法
CN115114297A (zh) 数据轻量存储及查找方法、装置、电子设备及存储介质
JP2007048318A (ja) リレーショナルデータベースの処理方法およびリレーショナルデータベース処理装置
JP2000003366A (ja) 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体
JPH07210569A (ja) 情報検索方法および情報検索装置
JP3288063B2 (ja) 可変長データの格納および参照システム
JP2020135530A (ja) データ管理装置、データ検索方法及びプログラム
JP2004178614A (ja) 文書管理方法および文書管理装置
JPH1185787A (ja) リンク構造を有する情報の検索方法及び登録方法
CN113535710B (zh) 一种搜索方法、装置、终端设备及存储介质
WO2002059779A1 (en) Method and apparatus for optimised indexing records of static data with different lenghts
JPH0748218B2 (ja) 情報処理装置
JPH05165619A (ja) 標準名付与システム
JPH02190971A (ja) 索引更新方式
JPH03180942A (ja) 文書データベース用マスタファイル作成装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees