JPH10312394A - 情報処理装置及びその方法 - Google Patents

情報処理装置及びその方法

Info

Publication number
JPH10312394A
JPH10312394A JP9135968A JP13596897A JPH10312394A JP H10312394 A JPH10312394 A JP H10312394A JP 9135968 A JP9135968 A JP 9135968A JP 13596897 A JP13596897 A JP 13596897A JP H10312394 A JPH10312394 A JP H10312394A
Authority
JP
Japan
Prior art keywords
position information
text data
search
sentence
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9135968A
Other languages
English (en)
Inventor
Takanari Ueda
隆也 上田
Shiro Ito
史朗 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP9135968A priority Critical patent/JPH10312394A/ja
Publication of JPH10312394A publication Critical patent/JPH10312394A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 複数の検索キーの満たす検索条件を効率良く
判定でき、高速にかつ精度良く検索することができる情
報処理装置及びその方法を提供する。 【解決手段】 テキストデータを被検索テキスト保持部
101に記憶し、テキストデータ中の各文を区切る区切
り文字を含む各文字の位置に関する位置情報をインデッ
クス作成部102で作成する。作成された位置情報をイ
ンデックス保持部103及び句点インデックス保持部1
04で管理する。入力された複数の検索条件の各検索条
件に該当する位置情報を、インデックス保持部103を
参照して獲得し、獲得された位置情報と句点インデック
ス保持部104に管理されている位置情報に基づいて、
テキストデータ中の各文において、同一文内に前記複数
の検索条件をすべて含む文を検索する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストデータを
検索する情報処理装置及びその方法に関するものであ
る。
【0002】
【従来の技術】文書データ中の全てのテキストデータを
対象として与えられた検索キーを含む文書データを検索
する全文検索装置等の情報処理装置では、大量のテキス
トデータを高速に検索するために、検索対象文書のイン
デックスを予め作成して、インデックスを用いて検索を
行なうインデックス技術が利用されている。インデック
ス技術の一例として、特開平4−205560公報で
は、文字位置インデックス技術について述べられてい
る。
【0003】文字位置インデックス技術の基本的な考え
方は、被検索テキストデータ中に出現する文字および文
字列の位置を文字ごとに1ずつ増加する整数で表わすこ
とにある。その上で、各文字および文字列ごとに、当該
文字および文字列をキーとして、当該文字および文字列
が現れる全ての位置を列挙する。このインデックスにお
いて、ある検索文字列を被検索テキストデータから検索
する場合には、当該検索文字列をインデックスのキーと
なっている文字および文字列に分解する。そして、分解
した文字および文字列の位置関係が、当該検索文字列に
おける位置関係に一致する組み合わせを探すことで検索
を行なう。
【0004】ここで、従来の情報処理装置の機能構成に
ついて、図4を用いて説明する。図4は従来の情報処理
装置の機能構成を示すブロック図である。図4におい
て、401は被検索テキストデータを保持する被検索テ
キスト保持部である。402は被検索テキスト保持部4
01に保持されている被検索テキストデータに対して、
被検索テキストデータ中の文字及び文字列ごとに、被検
索テキストデータ中での当該文字の位置を保持したイン
デックスを作成するインデックス作成部である。403
はインデックス作成部402で作成したインデックスを
保持するインデックス保持部である。404は検索を行
う文字列を保持する検索文字列保持部である。405は
インデックス保持部403に保持されているインデック
スを用いて、検索文字列保持部404に保持されている
検索文字列に一致する被検索テキストデータ中の文字列
を検索する検索部である。406は検索部による検索結
果を保持する検索結果保持部である。
【0005】次に、従来の情報処理装置で実行されるイ
ンデックスを作成するインデックス作成処理について、
図5を用いて説明する。図5は従来の情報処理装置で実
行されるインデックス作成処理を示すフローチャートで
ある。まず、ステップS501では、カウンタcの初期
化を行う。カウンタcは、処理の対象となっている文字
の位置を示すもので、これを0に初期化する。ステップ
S502では、ポインタpの初期化を行う。ポインタp
は、処理の対象となっている文字を指し示すもので、こ
れを被検索テキストデータの先頭文字を指し示すように
初期化する。
【0006】ステップS503では、ポインタpが被検
索テキストデータの最後の文字に達したか否かを判定す
る。最後に達している場合(ステップS503でYE
S)、インデックス作成処理を終了する。一方、最後に
達していない場合(ステップS503でNO)、ステッ
プS504に進む。ステップS504では、ポインタp
が指し示す位置にある文字について、インデックスの当
該文字の位置リストにカウンタcの値を追加する。ステ
ップS505では、カウンタcの値を1増やす。ステッ
プS506では、ポインタpが次の文字を指し示すよう
にポインタpを進め、ステップS503に戻る。
【0007】以上のインデックス作成処理により、例え
ば、図7に示す文書に対して、図8に示すようなインデ
ックスが作成される。尚、図7及び図8では、幾つかの
文字以外については表示を省略している。また、図8の
各行が、各文字が現れる位置のリストとなっている。例
えば、文字「プ」は、位置1、15、36、…に出現し
ていることがわかる。
【0008】次に従来の情報処理装置で実行される文字
列を検索する検索処理について、図6を用いて説明す
る。図6は従来の情報処理装置で実行される検索処理を
示すフローチャートである。まず、ステップS601で
は、検索文字列保持部404に保持されている検索文字
列の長さをレジスタlに代入する。また、カウンタnに
1を代入する。例えば、検索文字列が「Cプログラム」
である場合は、l=6、n=1となる。ステップS60
2では、検索文字列保持部404に保持されている検索
文字列の1番目の文字について、インデックスの読み込
みを行う。当該文字の文字位置全てを配列1に読み込
む。
【0009】ステップS603では、レジスタlの内容
とカウンタnの内容を比較する。カウンタnの内容<レ
ジスタlの内容である場合(ステップS603でYE
S)、ステップS604に進む。一方、カウンタnの内
容≧レジスタlの内容である場合(ステップS603で
NO)、ステップS607に進む。ステップS604で
は、カウンタnの値を1増やす。ステップS605で
は、検索文字列保持部404に保持されている検索文字
列のカウンタnの内容が示すn番目の文字について、イ
ンデックスの読み込みを行う。当該文字の全ての文字位
置から(n−1)を減じた値を配列2に読み込む。
【0010】ステップS606では、配列1と配列2か
ら、配列1と配列2の両方に存在している値を全て取り
出し、これらの値だけを新たに配列1の値とする。そし
て、ステップS603に戻る。ステップS607では、
配列1が空でない場合は、検索文字列が検索されたこと
を示す値として1を検索結果保持部406に保持する。
配列1が空の場合は、検索文字列が検索されなかったこ
とを示す値として0を検索結果保持部406に保持す
る。そして、検索処理を終了する。
【0011】以上の検索処理を複数回繰り返すことで、
一つの検索キーの検索だけでなく、複数の検索キーによ
るテキストデータの検索も可能である。
【0012】
【発明が解決しようとする課題】しかしながら、上記従
来の情報処理装置では、例えば、「テキストデータ中の
各文の内、複数の検索キーが同一文内に存在する」とい
う検索条件(以下、同一文内存在条件と称す)で検索を
行なう場合、テキストデータ中の各文を取り出して、与
えられた検索条件である複数の検索キーが同一文内に存
在しているか否かを、別途調べなければならず、手間が
かかるという問題があった。この場合、各検索キーにお
ける検索自体は文字位置インデックス技術を用いるので
高速に行なえるが、同一文内存在条件については、更に
テキストデータ中の各文に対し同一文内存在条件を満た
すか否かを調べる必要があるため、特に、検索結果が多
い場合に多大な時間を要しまうという問題もあった。
【0013】本発明は上記の問題点に鑑みてなされたも
のであり、複数の検索キーの満たす検索条件を効率良く
判定でき、高速にかつ精度良く検索することができる情
報処理装置及びその方法を提供することを目的とする。
【0014】
【課題を解決するための手段】上記の目的を達成するた
めの本発明による情報処理装置は以下の構成を備える。
即ち、テキストデータを検索する情報処理装置であっ
て、テキストデータを記憶する記憶手段と、前記テキス
トデータ中の各文を区切る区切り文字を含む各文字の位
置に関する位置情報を作成する作成手段と、前記作成手
段で作成された位置情報を管理する管理テーブルを保持
する保持手段と、入力された複数の検索条件の各検索条
件に該当する位置情報を、前記管理テーブルを参照して
獲得する獲得手段と、前記獲得手段で獲得された位置情
報と前記管理テーブルに管理されている位置情報に基づ
いて、前記テキストデータ中の各文において、同一文内
に前記複数の検索条件をすべて含む文を検索する検索手
段とを備える。
【0015】また、好ましくは、前記区切り文字は、少
なくとも句点、読点、改行を示す記号あるいは文字列を
含む。また、好ましくは、前記検索手段は、前記獲得手
段で獲得された位置情報と前記管理テーブルに管理され
ている前記区切り文字に基づく位置情報を比較する比較
手段を備え、前記比較手段の比較結果に基づいて、前記
テキストデータ中の各文において、同一文内に前記複数
の検索条件をすべて含む文を検索する。
【0016】また、好ましくは、前記比較手段は、前記
獲得手段で獲得された位置情報が示す位置の直前の前記
区切り文字の次の文字の位置を示す位置情報と、直後の
前記区切り文字の位置を示す位置情報を取得し、取得し
た位置情報と、該獲得手段で獲得された位置情報を比較
する。また、好ましくは、前記検索手段による検索対象
が複数のテキストデータの場合、前記作成手段は、該複
数のテキストデータを連結して得られるテキストデータ
の前記位置情報及び連結箇所を示す情報を作成する。
【0017】上記の目的を達成するための本発明による
情報処理方法は以下の構成を備える。即ち、テキストデ
ータを検索する情報処理方法であって、テキストデータ
を記憶媒体に記憶する記憶工程と、前記テキストデータ
中の各文を区切る区切り文字を含む各文字の位置に関す
る位置情報を作成する作成工程と、前記作成工程で作成
された位置情報を管理テーブルに保持する保持工程と、
入力された複数の検索条件の各検索条件に該当する位置
情報を、前記管理テーブルを参照して獲得する獲得工程
と、前記獲得工程で獲得された位置情報と前記管理テー
ブルに管理されている位置情報に基づいて、前記テキス
トデータ中の各文において、同一文内に前記複数の検索
条件をすべて含む文を検索する検索工程とを備える。
【0018】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
テキストデータを検索する情報処理のプログラムコード
が格納されたコンピュータ可読メモリであって、テキス
トデータを記憶媒体に記憶する記憶工程のプログラムコ
ードと、前記テキストデータ中の各文を区切る区切り文
字を含む各文字の位置に関する位置情報を作成する作成
工程のプログラムコードと、前記作成工程で作成された
位置情報を管理テーブルに保持する保持工程のプログラ
ムコードと、入力された複数の検索条件の各検索条件に
該当する位置情報を、前記管理テーブルを参照して獲得
する獲得工程のプログラムコードと、前記獲得工程で獲
得された位置情報と前記管理テーブルに管理されている
位置情報に基づいて、前記テキストデータ中の各文にお
いて、同一文内に前記複数の検索条件をすべて含む文を
検索する検索工程のプログラムコードとを備える。
【0019】
【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。図1は本発明の実施形
態に係る情報処理装置の機能構成を示すブロック図であ
る。図1において、101は被検索テキストデータを保
持する被検索テキスト保持部である。102は被検索テ
キスト保持部101に保持されているテキストデータに
対して、テキストデータ中の文字ごとに、テキストデー
タ中での当該文字の位置を列挙したインデックスを保持
するインデックス作成部である。103はインデックス
作成部102で作成したインデックスを保持するインデ
ックス保持部である。104はインデックス作成部10
2で作成したインデックスのうち句点に対するインデッ
クスを保持する句点インデックス保持部である。105
は検索のキーとなる文字列あるいは単語とそれらの関係
を保持する検索条件保持部である。
【0020】106はインデックス保持部103に保持
されているインデックスを用いて、検索条件保持部10
5に保持されている検索キーに一致する文字列を検索す
る検索部である。107は検索部106による検索キー
の位置を保持する検索キー位置保持部である。108は
検索キー位置保持部107に保持されている複数の検索
キーの位置と、句点インデックス保持部104に保持さ
れている句点の位置を比較する句点位置比較部である。
109は検索結果を保持する検索結果保持部である。
【0021】次に本発明の実施形態の情報処理装置の構
成について、図2を用いて説明する。図2は本発明の実
施形態の情報処理装置の構成を示すブロック図である。
図2において、201はCPUであり、後述する手順を
実現するプログラムに従って動作する。202はRAM
であり、被検索テキスト保持部101、検索キー位置保
持部107、検索結果保持部109と上記プログラムの
動作に必要な記憶領域とを提供する。203はROMで
あり、後述する手順を実現するプログラムを保持する。
204はディスク装置であり、インデックス保持部10
3、句点インデックス保持部104を実現する。205
は情報処理装置の各種構成要素を相互に接続するバスで
ある。206はキーボード及びマウスからなる入力装置
であり、検索キーを入力する。207は例えば、CR
T、LCD等の出力装置であり、検索結果を表示する。
【0022】次に本発明で実行され同一文内存在条件で
検索する検索処理について、図3のフローチャートを用
いて説明する。図3は本発明の実施形態で実行される検
索処理を示すフローチャートである。尚、本実施形態に
おける検索条件は、複数の検索キーが同一文内に存在す
るという形で与えられる。ここでは、m個の検索キーが
存在するものとする。
【0023】まず、ステップS301では、検索条件保
持部105に保持されているm個の検索キーの検索処理
を行なう。ここでの検索処理は、図6に示した従来例と
同様なので、その詳細については省略する。ステップS
302では、カウンタnの値を1とし、ステップS30
1で得られた1番目の検索キーの位置を配列1に読み込
む。ステップS303では、句点位置比較部108にお
いて、配列1に読み込まれている検索キーの各位置に対
して、句点位置を句点インデックス保持部104から読
み込み配列0に保持する。尚、検索キーの位置に対し
て、直前の句点の次の文字の位置と、直後の句点の位置
のペアを句点位置と呼ぶ。
【0024】例えば、インデックス保持部103および
句点インデックス保持部104の内容が図9に示すよう
な場合、配列0および配列1は図10のようになる。こ
の図10において、左側の列が配列0で、右側の列が配
列1である。1番目の検索キーが位置0、35、49、
…に存在することを表す。これらに対して、句点位置が
(0,12)、(31,47)、(49,60)である
ことを、配列0は表している。
【0025】ステップS304では、カウンタnの値が
mより小さいか否かを調べる。カウンタnの値がmより
小さい場合(ステップS304でYES)、ステップS
305に進む。一方、カウンタnの値がm以上の場合
(ステップS304でNO)、ステップS308に進
む。ステップS305では、カウンタnの値を1増や
す。ステップS306では、カウンタnの値が示すn番
目の検索キーの位置を配列nに読み込む。ステップS3
07では、n番目の検索キーを配列0の句点位置と比較
する。検索キーの位置のうち、句点位置に該当するもの
がないものは削除する。また、句点位置のうち、その範
囲内にn番目の検索キーが存在しないものについては、
配列1〜配列n−1の対応する要素を削除する。そし
て、ステップS304に戻る。
【0026】ステップS308では、配列0が空でない
場合は、検索キーが検索されたことを示す値として1を
検索結果保持部110に保持する。配列0が空の場合
は、検索キーが検索されなかったことを示す値として0
を検索結果保持部110に保持する。そして、検索処理
を終了する。次に、本実施形態の具体例について、図7
〜図12を用いて説明する。
【0027】図7に示す被検索テキストデータに対し、
文字位置を示すインデックスおよび句点インデックスを
作成すると、図9に示すようなインデックスおよび句点
インデックスが作成される。そして、このテキストデー
タに対する同一文内存在条件を満たす検索処理の検索キ
ーとして、検索キー1が「C」、検索キー2が「プログ
ラム」、検索キー3が「作成」であるとする。
【0028】まず、検索キー1「C」の位置を配列1に
読み込むと、句点の位置が読み込まれた配列0と、配列
1の関係は、上述したように図10のようになる。次
に、検索キー2「プログラム」の位置を配列2に読み込
む。そして、図9に示すように、検索キー2「プログラ
ム」は、1、36、…に存在するので、句点位置(4
9,60)には検索キー2「プログラム」が存在しない
ことがわかる。そのため、図10に示す句点位置の内、
句点位置(49,60)は削除する。その結果、配列
0、配列1、配列2の関係は図11のようになる。続い
て、検索キー3「作成」の位置を配列3に読み込む。そ
して、図9に示すように、検索キー3「作成」は、7、
…に存在するので、句点位置(39,47)には検索キ
ー3「作成」が存在しないことがわかる。そのため、図
11に示す句点位置の内、句点位置(31,47)は削
除する。その結果、配列0、配列1、配列2、配列3の
関係は図12のようになる。
【0029】そして、図12に示すように、句点位置が
読み込まれる配列0が空でないので、検索キー1
「C」、検索キー2「プログラム」、検索キー3「作
成」である同一文内存在条件を満たす文が図7に示すテ
キストデータに存在することがわかる。以上説明したよ
うに、本実施形態によれば、インデックスおよび句点イ
ンデックスを用いることで、テキストデータ中の各文が
与えられた同一文内存在条件を満たすか否かを容易に調
べることができる。その結果、テキストデータより同一
文内存在条件を満たす文だけを高速に検索することがで
きる。
【0030】尚、上記実施形態においては、句点インデ
ックスを用いて、テキストデータ中に存在する各文が同
一文内存在条件を満たすか否かを調べる構成について説
明したが、これに限定されるものではない。例えば、読
点で区切られる範囲内に存在するか否かを調べる場合
は、句点インデックスの代わりに読点の位置を示す読点
インデックスを作成し、それを用いてテキストデータ中
に存在する各文が同一段落内存在条件を満たすか否かを
調べればよい。また、段落の区切りを表す記号もしくは
文字列が文書中に存在する場合は、その段落区切りの記
号もしくは文字列の位置を示す段落区切りインデクスを
作成し、それを用いてテキストデータ中に存在する各文
が同一段落内存在条件を満たすか否かを調べることがで
きる。また、これらの構成は単独ではなく、用途に応じ
て組み合わせて用いてもかまわない。
【0031】また、上記実施形態においては、一つのテ
キストデータに対して同一文内存在条件を満たす文の検
索を行なう場合について説明したが、これに限定される
ものではない。これを、複数のテキストデータに対して
行なってもよい。この場合、例えば、複数のテキストデ
ータの全テキストデータに渡って連続する文字位置を割
り振り、かつ各テキストデータが切り替わる位置を保持
しておくことで、複数のテキストデータの検索が可能に
なる。
【0032】また、上記実施形態においては、被検索テ
キスト保持部101、検索条件保持部105、検索キー
位置保持部107、検索結果保持部109をRAM20
2で、インデックス保持部103、句点インデックス保
持部104をディスク装置204で実現する場合につい
て説明したが、これに限定されるものではなく、任意の
記憶媒体を用いて実現してもよい。
【0033】また、上記実施形態においては、各構成要
素を同一の情報処理装置上で構成する場合について説明
したが、これに限定されるものではなく、ネットワーク
上に分散した情報処理装置に分けて構成しても良い。ま
た、上記実施形態においては、プログラムをROM20
3に保持する場合について説明したが、これに限定され
るものではなく、任意の記憶媒体を用いて実現してもよ
い。また、同様の動作をする回路で実現してもよい。
【0034】尚、本発明は、複数の機器(例えば、ホス
トコンピュータ、インタフェース機器、リーダ、プリン
タ等)から構成されるシステムに適用しても、一つの機
器からなる装置(例えば、複写機、ファクシミリ装置
等)に適用してもよい。また、本発明の目的は、前述し
た実施形態の機能を実現するソフトウェアのプログラム
コードを記録した記憶媒体を、システムあるいは装置に
供給し、そのシステムあるいは装置のコンピュータ(ま
たはCPUやMPU)が記憶媒体に格納されたプログラ
ムコードを読出し実行することによっても、達成される
ことは言うまでもない。
【0035】この場合、記憶媒体から読出されたプログ
ラムコード自体が上述した実施の形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。プログラムコードを供
給するための記憶媒体としては、例えば、フロッピディ
スク、ハードディスク、光ディスク、光磁気ディスク、
CD−ROM、CD−R、磁気テープ、不揮発性のメモ
リカード、ROMなどを用いることができる。
【0036】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施の形態の機能
が実現される場合も含まれることは言うまでもない。
【0037】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書き込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0038】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明したフローチャートに対応す
るプログラムコードを格納することになるが、簡単に説
明すると、図13のメモリマップ例に示す各モジュール
を記憶媒体に格納することになる。すなわち、少なくと
も「記憶モジュール」、「作成モジュール」、「保持モ
ジュール」、「獲得モジュール」、および「検索モジュ
ール」の各モジュールのプログラムコードを記憶媒体に
格納すればよい。
【0039】尚、「記憶モジュール」は、テキストデー
タを記憶する。「作成モジュール」は、テキストデータ
中の各文を区切る区切り文字を含む各文字の位置に関す
る位置情報を作成する。「保持モジュール」は、作成さ
れた位置情報を管理する管理テーブルを保持する。「獲
得モジュール」は、入力された複数の検索条件の各検索
条件に該当する位置情報を、管理テーブルを参照して獲
得する。「検索モジュール」は、獲得された位置情報と
管理テーブルに管理されている位置情報に基づいて、テ
キストデータ中の各文において、同一文内に前記複数の
検索条件をすべて含む文を検索する。
【0040】
【発明の効果】以上説明したように、本発明によれば、
複数の検索キーの満たす検索条件を効率良く判定でき、
高速にかつ精度良く検索することができる情報処理装置
及びその方法を提供できる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る情報処理装置の機能構
成を示すブロック図である。
【図2】本発明の実施形態の情報処理装置の構成を示す
ブロック図である。
【図3】本発明の実施形態で実行される検索処理を示す
フローチャートである。
【図4】従来の情報処理装置の機能構成を示すブロック
図である。
【図5】従来の情報処理装置で実行されるインデックス
作成処理を示すフローチャートである。
【図6】従来の情報処理装置で実行される検索処理を示
すフローチャートである。
【図7】被検索テキストデータの一例を示す図である。
【図8】従来のインデックスの一例を示す図である。
【図9】本発明の実施形態のインデックスおよび句点イ
ンデックスの一例を示す図である。
【図10】本発明の実施形態の配列0及び配列1の一例
を示す図である。
【図11】本発明の実施形態の配列0及び配列1及び配
列2の一例を示す図である。
【図12】本発明の実施形態の配列0及び配列1及び配
列2及び配列3の一例を示す図である。
【図13】本発明の実施形態を実現するプログラムコー
ドを格納した記憶媒体のメモリマップの構造を示す図で
ある。
【符号の説明】
101 被検索テキスト保持部 102 インデックス作成部 103 インデックス保持部 104 句点インデックス保持部 105 検索条件保持部 106 検索部 107 検索キー位置保持部 108 句点位置比較部 109 検索結果保持部

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 テキストデータを検索する情報処理装置
    であって、 テキストデータを記憶する記憶手段と、 前記テキストデータ中の各文を区切る区切り文字を含む
    各文字の位置に関する位置情報を作成する作成手段と、 前記作成手段で作成された位置情報を管理する管理テー
    ブルを保持する保持手段と、 入力された複数の検索条件の各検索条件に該当する位置
    情報を、前記管理テーブルを参照して獲得する獲得手段
    と、 前記獲得手段で獲得された位置情報と前記管理テーブル
    に管理されている位置情報に基づいて、前記テキストデ
    ータ中の各文において、同一文内に前記複数の検索条件
    をすべて含む文を検索する検索手段とを備えることを特
    徴とする情報処理装置。
  2. 【請求項2】 前記区切り文字は、少なくとも句点、読
    点、改行を示す記号あるいは文字列を含むことを特徴と
    する請求項1に記載の情報処理装置。
  3. 【請求項3】 前記検索手段は、前記獲得手段で獲得さ
    れた位置情報と前記管理テーブルに管理されている前記
    区切り文字に基づく位置情報を比較する比較手段を備
    え、 前記比較手段の比較結果に基づいて、前記テキストデー
    タ中の各文において、同一文内に前記複数の検索条件を
    すべて含む文を検索することを特徴とする請求項1に記
    載の情報処理装置。
  4. 【請求項4】 前記比較手段は、前記獲得手段で獲得さ
    れた位置情報が示す位置の直前の前記区切り文字の次の
    文字の位置を示す位置情報と、直後の前記区切り文字の
    位置を示す位置情報を取得し、取得した位置情報と、該
    獲得手段で獲得された位置情報を比較することを特徴と
    する請求項3に記載の情報処理装置。
  5. 【請求項5】 前記検索手段による検索対象が複数のテ
    キストデータの場合、前記作成手段は、該複数のテキス
    トデータを連結して得られるテキストデータの前記位置
    情報及び連結箇所を示す情報を作成することを特徴とす
    る請求項1に記載の情報処理装置。
  6. 【請求項6】 テキストデータを検索する情報処理方法
    であって、 テキストデータを記憶媒体に記憶する記憶工程と、 前記テキストデータ中の各文を区切る区切り文字を含む
    各文字の位置に関する位置情報を作成する作成工程と、 前記作成工程で作成された位置情報を管理テーブルに保
    持する保持工程と、 入力された複数の検索条件の各検索条件に該当する位置
    情報を、前記管理テーブルを参照して獲得する獲得工程
    と、 前記獲得工程で獲得された位置情報と前記管理テーブル
    に管理されている位置情報に基づいて、前記テキストデ
    ータ中の各文において、同一文内に前記複数の検索条件
    をすべて含む文を検索する検索工程とを備えることを特
    徴とする情報処理方法。
  7. 【請求項7】 前記区切り文字は、少なくとも句点、読
    点、改行を示す記号あるいは文字列を含むことを特徴と
    する請求項6に記載の情報処理方法。
  8. 【請求項8】 前記検索工程は、前記獲得工程で獲得さ
    れた位置情報と前記管理テーブルに管理されている前記
    区切り文字に基づく位置情報を比較する比較工程を備
    え、 前記比較工程の比較結果に基づいて、前記テキストデー
    タ中の各文において、同一文内に前記複数の検索条件を
    すべて含む文を検索することを特徴とする請求項6に記
    載の情報処理方法。
  9. 【請求項9】 前記比較工程は、前記獲得工程で獲得さ
    れた位置情報が示す位置の直前の前記区切り文字の次の
    文字の位置を示す位置情報と、直後の前記区切り文字の
    位置を示す位置情報を取得し、取得した位置情報と、該
    獲得工程で獲得された位置情報を比較することを特徴と
    する請求項8に記載の情報処理方法。
  10. 【請求項10】 前記検索工程による検索対象が複数の
    テキストデータの場合、前記作成工程は、該複数のテキ
    ストデータを連結して得られるテキストデータの前記位
    置情報及び連結箇所を示す情報を作成することを特徴と
    する請求項6に記載の情報処理方法。
  11. 【請求項11】 テキストデータを検索する情報処理の
    プログラムコードが格納されたコンピュータ可読メモリ
    であって、 テキストデータを記憶媒体に記憶する記憶工程のプログ
    ラムコードと、 前記テキストデータ中の各文を区切る区切り文字を含む
    各文字の位置に関する位置情報を作成する作成工程のプ
    ログラムコードと、 前記作成工程で作成された位置情報を管理テーブルに保
    持する保持工程のプログラムコードと、 入力された複数の検索条件の各検索条件に該当する位置
    情報を、前記管理テーブルを参照して獲得する獲得工程
    のプログラムコードと、 前記獲得工程で獲得された位置情報と前記管理テーブル
    に管理されている位置情報に基づいて、前記テキストデ
    ータ中の各文において、同一文内に前記複数の検索条件
    をすべて含む文を検索する検索工程のプログラムコード
    とを備えることを特徴とするコンピュータ可読メモリ。
JP9135968A 1997-05-10 1997-05-10 情報処理装置及びその方法 Withdrawn JPH10312394A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9135968A JPH10312394A (ja) 1997-05-10 1997-05-10 情報処理装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9135968A JPH10312394A (ja) 1997-05-10 1997-05-10 情報処理装置及びその方法

Publications (1)

Publication Number Publication Date
JPH10312394A true JPH10312394A (ja) 1998-11-24

Family

ID=15164077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9135968A Withdrawn JPH10312394A (ja) 1997-05-10 1997-05-10 情報処理装置及びその方法

Country Status (1)

Country Link
JP (1) JPH10312394A (ja)

Similar Documents

Publication Publication Date Title
US20240070177A1 (en) Systems and methods for generating and using aggregated search indices and non-aggregated value storage
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JP2008102765A (ja) 検索処理方法及び検索システム
JP2005107597A (ja) 類似文検索装置、類似文検索方法、およびプログラム
JPWO2004111876A1 (ja) 検索条件を再利用する検索システムおよび方法
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
US20100010973A1 (en) Vector Space Lightweight Directory Access Protocol Data Search
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
JPH10307835A (ja) 情報処理装置及びその方法
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JPH10312394A (ja) 情報処理装置及びその方法
JP2962287B2 (ja) 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体
JPH10283368A (ja) 情報処理装置及びその方法
JP2002132789A (ja) 文書検索方法
JP3854684B2 (ja) 情報処理装置及びその方法
JP3825873B2 (ja) 情報処理装置及び方法
JP2013196478A (ja) 言語処理装置、プログラムおよび方法
JP7022789B2 (ja) 文書検索装置、文書検索方法およびコンピュータプログラム
JPH10301940A (ja) 情報処理装置及びその方法
US7840583B2 (en) Search device and recording medium
JP2001325293A (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体
JPH09212523A (ja) 全文検索方法
JP2004013764A (ja) 全文検索装置、プログラム、及び記録媒体
JPH06309368A (ja) 文書検索装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040803