JPH0991305A - 情報処理方法及び装置 - Google Patents

情報処理方法及び装置

Info

Publication number
JPH0991305A
JPH0991305A JP7249499A JP24949995A JPH0991305A JP H0991305 A JPH0991305 A JP H0991305A JP 7249499 A JP7249499 A JP 7249499A JP 24949995 A JP24949995 A JP 24949995A JP H0991305 A JPH0991305 A JP H0991305A
Authority
JP
Japan
Prior art keywords
area
page
key
search
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7249499A
Other languages
English (en)
Inventor
Hirotaka Shiiyama
弘隆 椎山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP7249499A priority Critical patent/JPH0991305A/ja
Publication of JPH0991305A publication Critical patent/JPH0991305A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】単語キーや文字キーの位置を示す情報をより少
ない情報量でキーインデックスに記憶し、効果的な絞り
込みを行う。 【解決手段】文書データは複数のページ領域に分割して
文書ページDBによって管理される。複数のページ領域
の各々は更に複数の小領域に分割され、文書データ中の
各キーについて、各々のキーが存在するページ領域と小
領域とを示す情報を登録したキーインデックスが生成さ
れて外部記憶装置4に格納される。検索時においては、
入力部5より指定された検索語を分解して得られたキー
により前記キーインデックスを検索し、同じページ領域
中の同じ小領域に該検索語の全てのキーが存在するペー
ジ領域を抽出する。そして、抽出されたページ領域に該
当する文書データの部分を獲得して前記検索語の最終的
な検索を行い、検索結果を得る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書データ(テキス
トデータを含む)から所望のテキストデータを検索する
情報処理方法及び装置に関する。
【0002】
【従来の技術】従来より、文書データの全体について検
索を行う全文検索システムがある。この全文検索システ
ムにおいては、単純にテキストデータ全体をなめるよう
な処理では検索速度が遅くなるため、これを解決するた
めの手段としてキーインデックスを作成している。キー
とは、例えばテキストデータから抽出した単語、簡単な
ものでは1文字・2文字を単純に切り出したものであ
り、キーインデックスとはその切り出したキーがどのテ
キストファイルに存在するかを記憶したデータベースの
一種である。
【0003】
【発明が解決しようとする課題】しかしながら、検索語
が存在する文章を検索する際、単語や1文字・2文字キ
ーがテキストデータのどの位置に存在するか不明な場
合、検索語と一致したものを絞り込むことは非常に困難
である。
【0004】例えば、「新聞紙」という言葉を検索する
場合、1文字インデックスで、「新」、「聞」、「紙」
の3文字が存在するテキストデータを検出しても実際
は、「新たに…聞いたこと…紙に書いておきましょう」
という風に個々のキーがばらばらに離れていることがあ
り得る。このため、実際にはテキストデータを全部なめ
るまでは検索結果として確定できない。もちろん解決策
として、1文字キーの位置を示すアドレス情報をインデ
ックスに持たせる方法も存在するが、インデックスファ
イルの容量が巨大になるため実用上、採用は不可能であ
る。
【0005】この例に見られる様に、如何に位置情報の
欠如を克服し、絞り込み最終確定のための全文なめ処理
を少なくするかが、技術的に重要なポイントである。
【0006】同じことが単語キーの場合にも言え、検索
語が文章で入力された場合にも同様の問題が発生する。
【0007】本発明は上記の問題に鑑みてなされたもの
であり、単語キーや文字キーの位置を示す情報をより少
ない情報量でキーインデックスに記憶し、効果的な絞り
込みを行うことが可能な情報処理方法及び装置を提供す
ることを目的とする。
【0008】
【課題を解決するための手段】上記の目的を達成するた
めの本発明の情報処理装置は、文書データを複数の領域
に分割する分割手段と、前記文書データより得られる各
キーに対して、各々が存在する領域を示す情報を登録し
たキーインデックスを生成する生成手段と、指定された
検索語を分解して得られたキーによって前記キーインデ
ックスを検索し、該検索語の全てのキーが同じ領域に存
在する領域を抽出する抽出手段と、前記抽出手段で抽出
された領域に対して前記検索語の検索を行い、検索結果
を得る検索手段とを備える。
【0009】また、上記の目的を達成する本発明の他の
構成による情報処理装置は、文書データを第1の領域単
位で複数のページ領域に分割して管理する管理手段と、
前記複数のページ領域の各々について第2の領域単位で
更に複数の小領域に分割する分割手段と、前記文書デー
タ中の各キーについて、各々のキーが存在するページ領
域と小領域とを示す情報を登録したキーインデックスを
生成する生成手段と、指定された検索語を分解して得ら
れたキーにより前記キーインデックスを検索し、同じペ
ージ領域中の同じ小領域に該検索語の全てのキーが存在
するページ領域を抽出する抽出手段と、前記文書データ
の前記抽出手段で抽出されたページ領域に該当する部分
を獲得して前記検索語の検索を行い、検索結果を得る検
索手段とを備える。
【0010】また、好ましくは、前記生成手段におい
て、前記ページ領域を示す情報はページ番号であり、前
記小領域を示す情報は対応するビットのオン・オフで示
され、前記抽出手段において各キーが同じ小領域に存在
するか否かは前記小領域を示す情報同士の論理積をとる
ことで判断する。小領域中に検索語の各キーが存在する
か否かを、小領域を示す情報同士の論理積で判断できる
ので、キーの存在位置のより細かい分析を容易かつ高速
に行えるからである。
【0011】また、好ましくは、前記分割手段によって
得られる小領域は、少なくとも同一ページ内で互いに重
複する部分を有する。文書データを小領域に分割するこ
とによって連続して出現しているキーが分離されてしま
う可能性が有るが、これを防止することができるからで
ある。
【0012】また、好ましくは、前記ページ領域におい
て、当該領域中の文字数が所定量に満たない場合は、当
該ページ中の複数の小領域を1つの小領域とみなす。例
えばイメージやグラフなどの挿入により文字数が少ない
ページ領域では、これを小領域に分離すると連続したキ
ーを分離してしまうなど、却って弊害を生じやすいが、
これを防止できる。
【0013】また、好ましくは、前記検索語の指定とと
もに、各ページ領域に共通の検索位置として所望の小領
域を指定する指定手段を更に備え、前記抽出手段は、前
記検索語の全てのキーが存在する小領域として前記指定
手段で指定された小領域を含むページ領域を抽出する。
各ページに共通の検索位置を指定して検索を実行するこ
とが容易に実現できる。
【0014】上記の構成によれば、文書データが複数の
領域に分割され、文書データより得られる各キーに対し
て、各々が存在する領域を示す情報を登録したキーイン
デックスが生成される。そして、指定された検索語を分
解して得られたキーによってこのキーインデックスを検
索し、該検索語の全てのキーが同じ領域に存在する領域
を抽出する。抽出された領域に対して前記検索語の検索
を行い、検索結果を得る。このように、検索語による最
終的な検索に先立って、検索位置の絞り込みが行われる
ので、検索処理の速度が向上する。
【0015】また、上記の他の構成によれば、文書デー
タは第1の領域単位で複数のページ領域に分割して管理
される。そして、複数のページ領域の各々を第2の領域
単位で更に複数の小領域に分割し、文書データ中の各キ
ーについて、各々のキーが存在するページ領域と小領域
とを示す情報を登録したキーインデックスを生成する。
検索時においては、指定された検索語を分解して得られ
たキーにより前記キーインデックスを検索し、同じペー
ジ領域中の同じ小領域に該検索語の全てのキーが存在す
るページ領域を抽出する。そして、抽出されたページ領
域に該当する文書データの部分を獲得して前記検索語の
最終的な検索を行い、検索結果を得る。このように検索
語による最終的な検索に先立って検索位置の絞り込みが
行われる。特に、小領域中における検索語キーの存在を
調べるので、効果的な絞り込みができる。更に、文書デ
ータをページ領域と小領域の2段階の領域で分割するの
で、段階的な絞り込みが可能となり、絞り込みの処理効
率が向上する。
【0016】
【発明の実施の形態】以下に添付の図面を参照して本発
明の好適な実施形態を説明する。
【0017】図1は本実施形態の情報処理装置のテキス
ト検索に係る制御構成を表すブロック図である。同図に
おいて、1はスキャナであり、文書を光学的にスキャン
してイメージ情報を得る。2はOCR処理ソフトウエア
であり、イメージスキャナ1もしくは外部記憶装置4よ
り得られたイメージデータについて文字認識処理を行
い、テキスト情報を得る。3は全文検索ソフトウエアで
あり、件テキスト情報からキーインデックスを作成し、
検索処理を行う。4は外部記憶装置であり、イメージ情
報とテキスト情報および検索用ファイル等を記憶する。
5は入力部であり、検索語、検索条件を入力するための
キーボードやマウス等から構成される。6は表示装置で
あり、検索語・検索条件を入力するための表示およびイ
メージデータを表示したりする。
【0018】本実施形態の情報処理装置は、蓄積・登録
処理と検索処理を実行する。
【0019】蓄積・登録処理は、(1)文書ページDB
に新規登録文章の登録およびページ情報の設定、(2)
イメージスキャナ1から得られたイメージ情報を外部記
憶装置4に記憶する作業、(3)イメージ情報をOCR
処理ソフトウェア2でテキスト情報化した後に外部記憶
装置4に記憶する作業、および(4)テキスト情報から
本件アルゴリズム(図3に示す)に従ってキーインデッ
クス作成処理を行う全文検索ソフトウェア3で作成した
キーインデックスを外部記憶装置4に記憶する作業等か
らなっている。
【0020】又、検索処理は、(1)キーボード5から
入力された検索語を全文検索ソフトウェア3が受け取
り、登録時と同じアルゴリズムでキー分解した後、各キ
ーに対応するページ情報をキーインデックスから読み込
み、本件アルゴリズム(図4に示す)でページIDによ
る第一次絞り込み、領域情報のAND処理による第二次
絞り込みを経た後、最終的にテキストデータをなめて検
索結果を確定する作業、(2)文書ページDBから文書
アドレス情報を取り出す作業、および(3)表示装置6
に該当イメージデータを表示する作業からなる。
【0021】では、次に本件アルゴリズムによる登録・
検索処理の具体的な例を挙げて説明を行う。
【0022】まず、蓄積・登録時において、本実施形態
においては、テキスト・文書データは複数のページから
なるものとし、複数のページファイルに分割して各々に
ユニークなページIDを付けてテキスト・文書データを
格納する。そして、各ページともとのテキスト・文書デ
ータとの対応を文書ページDBによって管理する。な
お、ページという概念が存在しないテキストデータで
は、文字数や行数によって仮想的にページ分けする。こ
の文書ページDBはページIDによるもとのテキスト・
文書データと個々のページとの対応だけではなく、テキ
スト・文書データの属性情報、例えば文書名や日付け、
所有者等を記憶し、文書属性による検索にも用いること
が可能である。
【0023】上記登録時において、単語キーや文字キー
がページのどの位置に存在するかを表す1バイト〜数バ
イトの領域情報を採用する。これは、1ページを複数領
域に分割し、そのキーが存在する領域に対応するビット
を立てたものであり、ページIDに領域情報を付加した
もの(以降ページ情報と呼ぶ)をキーインデックスのそ
のキーに対応するレコードに記憶する。
【0024】図2は本実施形態におけるページ情報を説
明する図である。元のテキストページ201は第1領域
から第8領域の8つの領域に分割される。ここで、図示
のように各領域は互いにある程度重なりあうものとし、
領域境界による不都合を解消する。202はページ情報
であり、領域情報203とページID204とを含む。
領域情報203は1ページ内の領域分割数に対応したビ
ットを有し、後述の検索処理で検索文字が見つかった領
域のビットが1にセットされる。図の例では、第3領域
と第7領域に検索文字が存在することを示す。このよう
なページ情報が各キーに付与される。
【0025】また、各領域の大きさは各々ページの文字
数または行数と領域数により決定する。もし1ページの
文字数または行数が少ない場合には、領域情報は全ての
ビットが立ったもの(本例では0xff(16進数のf
f)がセットされる)とする。以下に登録処理を図3の
フローチャートを参照して更に説明する。
【0026】図3は本実施形態の登録処理の手順を表す
フローチャートである。なお本処理はテキスト・文書デ
ータにおいてページ単位の分割が終了した後に、1ペー
ジごとに起動されるものとする。従って、図3のフロー
チャートでは1ページ分の登録処理が示されている。
【0027】まず、ステップS11において1ページ中
の文字数を取得する。そして、1ページ中の文字数と分
割数(本例では8こ)等に基づいて分割領域の大きさを
設定する。ステップS13で未読み込みの領域が存在す
ればステップS14へ進み、設定された分割領域の大き
さ分だけデータの読み込みを行う。そして、ステップS
15においてキー分解処理を行う。キー分解処理とは、
読み込んだデータを1文字もしくは2文字、或は単語等
のキーに分解し、各キーに対してページ情報を付与する
ものである。なお、1つの領域中に複数のキーが存在す
る場合は、2つ目以降のキーについてはページ情報の付
与を行わない。即ち、1つの領域においては、1つのキ
ーに対して1つのページ情報が割り当てられるようにす
る。
【0028】以上の処理を当該ページの全ての領域につ
いて実行すると未読み込みの領域が存在しなくなるので
処理はステップS13からステップS16へ進む。
【0029】ステップS16では、当該ページにおいて
複数の領域に存在するキーを一つのページ情報にまとめ
る。例えば、図2に示したように、第3領域と第7領域
にキーが存在した場合は、領域情報203の対応するビ
ットをセットする。続いて、ステップS17において領
域情報を上位、ページIDを下位に格納した各キーのペ
ージ情報をキーインデックスに登録する。
【0030】以上のような処理を全ページについて実行
することにより、当該文書データに対するキーインデッ
クスが形成される。
【0031】次に、上記のキーインデックスを用いた本
実施形態の検索処理について説明する。
【0032】図4は本実施形態のキーインデックスの構
成例と検索手順の概要を説明する図である。同図では、
上位の1バイトを領域情報とし、下位の3バイトをペー
ジを指定するためのページID番号とする、計4バイト
のページ情報を要素に持つキーインデックス中の登録内
容が示されている。なお、ページIDとして3バイトを
割り当てているが、これは、中規模ファイリングシステ
ムではページにユニークな番号を振っても3バイトあれ
ば足りるからである。ページ情報のバイト数構成は上記
に限らないことは言うまでもない。
【0033】領域情報が1バイトの場合、領域は8領域
となり、そのキーが存在する領域に対応したビットが1
にセットされる。もし1ページの行数または文字数があ
る値より少なければ領域情報を0xffとして処理する
ことにより、領域分割の弊害を防ぐ。
【0034】次に、キーインデックスを用いて検索処理
が実行される。検索処理では、まずインデックスレコー
ドの情報中のページIDを見て、全てのキーに対するイ
ンデックスレコードで同じページIDを持つ、即ち1つ
のページ中に検索後を分解したキー全てが揃っているペ
ージ情報を個々のキーに対して取り出す。これを第一次
絞り込みと呼ぶ。
【0035】次に、取り出されたページ情報の領域情報
の部分を見て同じビットが立っている、即ち同じ領域に
検索語を分解したキー全てが揃っているページ情報を取
り出し、有効なページ情報として保存する。これを第二
次絞り込みと呼ぶ。
【0036】分解したキーが存在するだけ、上記の第一
次・第二次絞り込み処理およびこの結果と前回の有効な
ページ情報と共通なものを新たなページ情報として保存
する。このような処理を繰り返した最終結果が最終的な
第二次絞り込み結果となり、このページIDから文書ペ
ージDBに照会し、対応するテキストデータを取り出
し、全文をなめて確認した結果が最終検索確定結果とな
る。
【0037】さて、図4の例を見ると、「製」「品」と
いう1文字キー2個に対するインデックスが示されてい
る。また、このキーインデックスは上記の登録処理によ
って生成されたものである。例えば、ページID番号0
x123456のページをキー分解した結果、これら
「製」「品」の2文字が含まれていたことがわかり、更
に、上位1バイトにはその文字が当該ページ中の8領域
のどこに存在しているかを示す領域情報が格納される。
【0038】上記の如きキーインデックスを用いて、例
えば「製品」という言葉で検索処理を実行した場合、ま
ず「製」「品」各々のキーに対して、これらのキーを持
つページ情報の配列(インデックスレコード)をキーイ
ンデックスから得る。
【0039】そして、この2つのキーのページ情報(4
バイト)配列の中身を見て、両方に存在するページID
を抽出することで、第一次絞り込みを行う。これは互い
のページ情報配列のページID部分(下位3バイト)の
みを総当たりで論理積演算した結果に相当する。
【0040】次に、上記第一次絞り込みで得た各々の文
字キーに対するページ情報で、同じページIDを持つも
のの領域情報(上位1バイト)同士でビット毎の論理積
演算を行う。この結果、1個でも同じ位置のビットが立
っていたもの、即ち同じ領域に文字キーが存在している
ものを得ることで第二次絞り込みを行う。
【0041】これらの第一次・第二次絞り込みで、
「製」「品」の2キーが同じページの同じ領域に存在す
るページのみに絞り込むことが出来、最終確定のための
全文なめの対象が大幅に絞り込める。
【0042】この様に、少ない情報量ではあるが、キー
の存在する領域情報をキーインデックスに持たせること
により、非常に効率的に最終確定のための全文なめの作
業量を少なくすることが可能となる。
【0043】図5は本実施形態の検索処理の手順を表す
フローチャートである。まず、ステップS21において
入力部5を用いて検索語を指定する。ステップS22で
は指定された検索語をキーに分解する。そして、ステッ
プS23において、1個目のキーに対応するインデック
スレコードを有効なページ情報としてキーインデックス
から読み込む。
【0044】ステップS24において未処理のキーが存
在するならば処理はステップS25へ進み、その未処理
のキーの一つに対応するインデックスレコードをキーイ
ンデックスから読み込む。ステップS26では、ステッ
プS23で得た有効なページ情報とステップS25で読
み込んだインデックスレコードの各ページ情報とを比較
し、同じページIDを有するページ情報を保存する。即
ち、ステップS26では第一次絞り込みが行われる。
【0045】次にステップS27では、ステップS27
で保存されたページ情報の領域情報部分同士のビット毎
の論理積をとり、結果が0でないページ情報を有効なペ
ージ情報として保存する。即ちステップS27では第二
次絞り込みが行われる。以上のような処理を指定された
検索語を分解して得られた全てのキーについて行うと、
処理はステップS24からステップS28へ進む。
【0046】ステップS28では最終的に残ったページ
情報のページIDのテキストデータを文書ページDBを
参照して外部記憶装置4からロードし、全文をなめて確
認し、検索語の存在したページ情報のみを保存する。そ
して、ステップS29において、最終検索結果として最
終的に残ったページ情報を出力する。
【0047】なお、領域情報を生かしたものとして、検
索時に検索語がページのどの位置にあるかを指定して検
索する単語位置曖昧指定検索を行うこともできる。この
場合、例えばステップS21において検索語とともに検
索位置を指定する。そして、ステップS27において第
二次絞り込みを行う際に、指定領域に対応したビットを
立てた指定領域データと、ステップS26の第一次絞り
込みで得たページ情報中の領域情報との論理積を取るこ
とで実現できる。
【0048】また、上記図5のフローチャートでは、1
キー毎に第一次絞り込み、第二次絞り込みを行うがこれ
に限られるものではない。例えば、全てのキーに対応す
るページ情報をロードした後にまとめて第一次絞り込
み、第二次絞り込みを行うようにしてもよいことは言う
までもない。
【0049】以上のように、本実施形態では、インデッ
クスレコードの情報中のページIDを見て、全てのキー
に対するインデックスレコードで同じページIDを持
つ、即ち1つのページ中に検索後を分解したキー全てが
揃っているページ情報を個々のキーに対して取り出す第
一次絞り込みと、取り出されたページ情報の領域情報の
部分を見て同じビットが立っている、即ち同じ領域に検
索語を分解したキー全てが揃っているページ情報を取り
出し、有効なページ情報として保存する第二次絞り込み
とが実行される。そして、検索語を分解して得られたキ
ーの全てについて上記の第一次・第二次絞り込み処理を
くり返し、このくり返しの過程で有効なページ情報を絞
り込み、得られたページ情報のページIDから文書ペー
ジDBに照会し、対応するテキストデータを取り出し、
全文をなめて確認した結果を最終検索確定結果とする。
【0050】従って本実施形態によれば、テキストデー
タを得る手段により得られた大量のテキストデータを蓄
積している記録媒体から効率的且つ高速にテキストデー
タを検索することが可能となる。
【0051】なお、上記実施形態では文書・テキストデ
ータを管理するシステムへの適用を説明したが、これ以
外にも、文書画像からOCRにより得たテキストデータ
に対する全文検索システムによる画像検索、更には文字
データを含まない画像データに対しても付加した説明テ
キストデータを対応付けておくことにより検索可能な画
像ファイリングシステムにも応用可能である。
【0052】もちろん複数検索語とその論理演算指定、
シソーラス(類義語)展開した検索語の処理も、本発明
のアルゴリズムによる各々の検索結果を演算すれば可能
である。
【0053】以上のように本実施形態によれば、単語キ
ーや文字キーの位置情報をそのまま記憶するのではな
く、単語キーや文字キーがページのどの位置に存在する
かを表す数バイトの領域情報を採用することにより、検
索語を分解した全てのキーが同じページの同じ領域に存
在するページのみに絞り込むことが出来、非常に効果的
に最終確定のための全文なめの対象を絞り込むことが可
能となり、結果として大幅に検索速度を向上できる。
【0054】更に領域情報を生かしたものとして、検索
時に検索語がページのどの位置にあるかを指定して検索
する単語位置曖昧指定検索も可能となる。
【0055】尚、本発明は、複数の機器から構成される
システムに適用しても、1つの機器から成る装置に適用
しても良い。また、本発明はシステム或は装置にプログ
ラムを供給することによって達成される場合にも適用で
きることはいうまでもない。
【0056】
【発明の効果】以上のように本発明によれば、単語キー
や文字キーの位置を示す情報をより少ない情報量でキー
インデックスに記憶し、効果的な絞り込みを行うことが
可能となり、検索処理速度を向上できる。
【0057】
【図面の簡単な説明】
【図1】本実施形態の情報処理装置のテキスト検索に係
る制御構成を表すブロック図である。
【図2】本実施形態におけるページ情報を説明する図で
ある。
【図3】本実施形態の登録処理の手順を表すフローチャ
ートである。
【図4】本実施形態のキーインデックスの構成例と検索
手順の概要を説明する図である。
【図5】本実施形態の検索処理の手順を表すフローチャ
ートである。
【符号の説明】
1 イメージスキャナ 2 OCR処理ソフトウェア 3 全文検索ソフトウェア 4 外部記憶装置 5 キーボード 6 表示装置

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 文書データを複数の領域に分割する分割
    手段と、 前記文書データより得られる各キーに対して、各々が存
    在する領域を示す情報を登録したキーインデックスを生
    成する生成手段と、 指定された検索語を分解して得られたキーによって前記
    キーインデックスを検索し、該検索語の全てのキーが同
    じ領域に存在する領域を抽出する抽出手段と、前記抽出
    手段で抽出された領域に対して前記検索語の検索を行
    い、検索結果を得る検索手段とを備えることを特徴とす
    る情報処理装置。
  2. 【請求項2】 文書データを第1の領域単位で複数のペ
    ージ領域に分割して管理する管理手段と、 前記複数のページ領域の各々について第2の領域単位で
    更に複数の小領域に分割する分割手段と、 前記文書データ中の各キーについて、各々のキーが存在
    するページ領域と小領域とを示す情報を登録したキーイ
    ンデックスを生成する生成手段と、 指定された検索語を分解して得られたキーにより前記キ
    ーインデックスを検索し、同じページ領域中の同じ小領
    域に該検索語の全てのキーが存在するページ領域を抽出
    する抽出手段と、 前記文書データの前記抽出手段で抽出されたページ領域
    に該当する部分を獲得して前記検索語の検索を行い、検
    索結果を得る検索手段とを備えることを特徴とする情報
    処理装置。
  3. 【請求項3】 前記生成手段において、前記ページ領域
    を示す情報はページ番号であり、前記小領域を示す情報
    は対応するビットのオン・オフで示され、 前記抽出手段において各キーが同じ小領域に存在するか
    否かは前記小領域を示す情報同士の論理積をとることで
    判断することを特徴とする請求項2に記載の情報処理装
    置。
  4. 【請求項4】 前記分割手段によって得られる小領域
    は、少なくとも同一ページ内で互いに重複する部分を有
    することを特徴とする請求項2に記載の情報処理装置。
  5. 【請求項5】 前記ページ領域において、当該領域中の
    文字数が所定量に満たない場合は、当該ページ中の複数
    の小領域を1つの小領域とみなすことを特徴とする請求
    項2に記載の情報処理装置。
  6. 【請求項6】 前記検索語の指定とともに、各ページ領
    域に共通の検索位置として所望の小領域を指定する指定
    手段を更に備え、 前記抽出手段は、前記検索語の全てのキーが存在する小
    領域として前記指定手段で指定された小領域を含むペー
    ジ領域を抽出することを特徴とする請求項2に記載の情
    報処理装置。
  7. 【請求項7】 文書データを複数の領域に分割する分割
    工程と、 前記文書データより得られる各キーに対して、各々が存
    在する領域を示す情報を登録したキーインデックスを生
    成する生成工程と、 指定された検索語を分解して得られたキーによって前記
    キーインデックスを検索し、該検索語の全てのキーが同
    じ領域に存在する領域を抽出する抽出工程と、 前記抽出工程で抽出された領域に対して前記検索語の検
    索を行い、検索結果を得る検索工程とを備えることを特
    徴とする情報処理方法。
  8. 【請求項8】 文書データを第1の領域単位で複数のペ
    ージ領域に分割して管理する管理工程と、 前記複数のページ領域の各々について第2の領域単位で
    更に複数の小領域に分割する分割工程と、 前記文書データ中の各キーについて、各々のキーが存在
    するページ領域と小領域とを示す情報を登録したキーイ
    ンデックスを生成する生成工程と、 指定された検索語を分解して得られたキーにより前記キ
    ーインデックスを検索し、同じページ領域中の同じ小領
    域に該検索語の全てのキーが存在するページ領域を抽出
    する抽出工程と、 前記文書データの前記抽出工程で抽出されたページ領域
    に該当する部分を獲得して前記検索語の検索を行い、検
    索結果を得る検索工程とを備えることを特徴とする情報
    処理方法。
JP7249499A 1995-09-27 1995-09-27 情報処理方法及び装置 Pending JPH0991305A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7249499A JPH0991305A (ja) 1995-09-27 1995-09-27 情報処理方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7249499A JPH0991305A (ja) 1995-09-27 1995-09-27 情報処理方法及び装置

Publications (1)

Publication Number Publication Date
JPH0991305A true JPH0991305A (ja) 1997-04-04

Family

ID=17193885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7249499A Pending JPH0991305A (ja) 1995-09-27 1995-09-27 情報処理方法及び装置

Country Status (1)

Country Link
JP (1) JPH0991305A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7246107B2 (en) 2003-01-10 2007-07-17 International Business Machines Corporation System and method for creating a data file for use in searching a database
JP2007226769A (ja) * 2006-01-24 2007-09-06 Ricoh Co Ltd 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム
JP2011054148A (ja) * 2009-08-04 2011-03-17 Nippon Telegr & Teleph Corp <Ntt> 検索装置及び方法及びプログラム
CN106445927A (zh) * 2015-08-04 2017-02-22 北京京东金融科技控股有限公司 数据分页查询方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208582A (ja) * 1992-09-18 1994-07-26 Hitachi Ltd 適応サロゲート式情報検索方法および装置
JPH06290217A (ja) * 1993-03-31 1994-10-18 Ricoh Co Ltd 文書検索方式
JPH06332947A (ja) * 1993-05-21 1994-12-02 Matsushita Electric Ind Co Ltd データ記憶再生方法及びその装置
JPH07105224A (ja) * 1993-08-10 1995-04-21 Hitachi Ltd 文字配列検索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208582A (ja) * 1992-09-18 1994-07-26 Hitachi Ltd 適応サロゲート式情報検索方法および装置
JPH06290217A (ja) * 1993-03-31 1994-10-18 Ricoh Co Ltd 文書検索方式
JPH06332947A (ja) * 1993-05-21 1994-12-02 Matsushita Electric Ind Co Ltd データ記憶再生方法及びその装置
JPH07105224A (ja) * 1993-08-10 1995-04-21 Hitachi Ltd 文字配列検索方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7246107B2 (en) 2003-01-10 2007-07-17 International Business Machines Corporation System and method for creating a data file for use in searching a database
JP2007226769A (ja) * 2006-01-24 2007-09-06 Ricoh Co Ltd 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム
JP2011054148A (ja) * 2009-08-04 2011-03-17 Nippon Telegr & Teleph Corp <Ntt> 検索装置及び方法及びプログラム
CN106445927A (zh) * 2015-08-04 2017-02-22 北京京东金融科技控股有限公司 数据分页查询方法及装置

Similar Documents

Publication Publication Date Title
US6493709B1 (en) Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
USRE42167E1 (en) Information management, retrieval and display systems and associated methods
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
JPH11120203A (ja) データベースを合併する方法およびデータベースからドキュメントを検索する装置
JPH09245043A (ja) 情報検索装置
JPH0628403A (ja) 文書検索装置
JPH0991305A (ja) 情報処理方法及び装置
CN115146030A (zh) 一种基于知识图谱的公务文书写作方法及系统
JP3825829B2 (ja) 登録情報検索装置及びその方法
JP3531344B2 (ja) 情報検索装置
JP3859044B2 (ja) インデクス作成方法および検索方法
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
JPH0561910A (ja) 全文インデツクス検索方法
JPH09212523A (ja) 全文検索方法
JPH08314950A (ja) テキストの検索方法及び装置
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JPH09146968A (ja) 文書検索方法
JP3085508B2 (ja) 電子帳票検索システム
JP2001092831A (ja) 文書検索装置及び文書検索方法
KR101142062B1 (ko) 멀티미디어 데이터의 문자 기반 메타데이터 검색을수행하는 데이터 베이스 장치 및 방법
JP2001337969A (ja) 知識獲得方法、文書情報構造化方法および装置と前記方法を実施するプログラムを記録した記録媒体
JPH06309368A (ja) 文書検索装置
JPH05158984A (ja) 文字列抽出装置
JPH07141396A (ja) 情報ウォッチングシステム
JPH09212524A (ja) 全文検索方法および電子化辞書装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041119

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050311