JPH0816617A - 文書検索方法及び装置 - Google Patents

文書検索方法及び装置

Info

Publication number
JPH0816617A
JPH0816617A JP6168722A JP16872294A JPH0816617A JP H0816617 A JPH0816617 A JP H0816617A JP 6168722 A JP6168722 A JP 6168722A JP 16872294 A JP16872294 A JP 16872294A JP H0816617 A JPH0816617 A JP H0816617A
Authority
JP
Japan
Prior art keywords
word
keyword
document
character string
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6168722A
Other languages
English (en)
Inventor
Hisamitsu Kawaguchi
川口  久光
Natsuko Mizutani
奈津子 水谷
Atsushi Hatakeyama
敦 畠山
Katsumi Tada
勝己 多田
Kanji Kato
寛次 加藤
Satoshi Asakawa
悟志 浅川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6168722A priority Critical patent/JPH0816617A/ja
Publication of JPH0816617A publication Critical patent/JPH0816617A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 キーワードに関する記憶が不確かな場合に用
いる前方一致検索、後方一致検索、中間一致検索等をイ
ンデックス容量の爆発的増大無しに実現する。 【構成】 図に示す文書から抽出されたキーワードから
なる単語テーブルはキーワードを順次並べ、キーワード
の前後にデリミタ“|”を付加している。前方一致検索
のときは質問語は、例えば、“ART*”と入力され、
単語テーブルのキーワードと比較するときには、“|A
RT”と変換され、比較が行なわれる。比較結果として
“ART”、“ARTIST”が抽出され、この抽出さ
れたキーワードによりインデックスを参照して検索を行
なう。後方一致検索、中間一致検索、完全一致検索のと
きは夫々質問語は、“*ART”、“*ART*”、
“ART”と入力され、比較時には、“ART|”、
“ART”、“|ART|”と変換され、以後、前方一
致検索と同様に処理される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、インデックスを使用し
た文書検索のための文書検索方法及び装置に係り、デー
タベース、文書ファイリングシステムおよびDTP(D
esk Top Publishing)システムなど
に適用されるものである。
【0002】
【従来の技術】情報処理システムの分野では、文字列デ
ータの集まりからなる文書の中から、検索者の探したい
ある特定の言葉、すなわち質問語を含む全ての文書を探
し出すことが一つの重要な処理となっている。このよう
な文書を検索するための方法として、インデックスを使
用したインデックス検索方式が良く知られている。この
方式は、“情報検索”(中原著、電子通信情報学会出
版、1974)pp.203−207(以後、従来例1
と呼ぶ)や、“DOCUMENT DATABASE”
(G.James著、Van Nostrand Re
inhold Co.、1985)pp.87−94に
具体的に記載されている。インデックスとしては、キー
ワードが出現する文書の文書番号だけで構成されるもの
や、文書番号とそのキーワードが出現した文書中の位置
情報で構成されるものがある。インデックス検索方式で
は、質問語と一致するキーワードのインデックスを参照
するだけで、そのキーワードを含む文書が分かるため高
速な検索が可能である。
【0003】さらに、従来例1には、文書データベース
システムに必要とされる検索機能として、完全一致検索
の他に、前方一致検索、後方一致検索および中間一致検
索などの部分一致検索機能が挙げられている。この部分
一致検索は、ユーザがキーワードの一文字一文字を正確
に記憶していないときに用いられる検索機能で、キーワ
ードの記憶の確かな文字列部分だけを質問語として検索
する機能である。この部分一致検索機能における前方一
致検索機能は、キーワードの末尾文字列が不確かなとき
に用いられ、記憶が確かな先頭文字列のみを質問語とし
て検索する機能である。例えば、前方一致検索を指示す
る質問語“COMP*”で検索すると、キーワード“C
OMPANY”、“COMPACT”および“COMP
UTER”などが検索される。ここで“*”は不確かな
可変長の文字列を表わす記号で、ワイルドカードと呼ば
れる。後方一致検索機能は、キーワードの先頭文字列が
不確かなときに用いられ、記憶が確かな末尾文字列のみ
を質問語として検索する機能である。例えば、後方一致
検索を指示する質問語“*BOX”で検索すると、キー
ワード“BLACKBOX”、“FIREBOX”およ
び“GEARBOX”などが検索される。中間一致検索
機能は、先頭文字列と末尾文字列が不確かなときに用い
られ、記憶が確かな中間文字列だけを質問語として検索
する機能である。例えば、中間一致検索を指示する質問
語“*ACT*”で検索すると、キーワード“REAC
TION”および“REACTOR”などが検索され
る。
【0004】
【発明が解決しようとする課題】このような部分一致検
索機能をインデックス検索方式において実現しようとす
ると、キーワード中の部分文字列を全て別個のキーワー
ドとしてインデックスに登録する必要があるため、イン
デックスに登録するキーワード数が莫大となり、インデ
ックスファイルも巨大なものになってしまう。例えば、
キーワード“COMPUTER”について中間一致検索
をしようとすると、キーワード“COMPUTER”に
含まれる部分文字列“C”,“O”,“M”,“P”,
“U”,“T”,“E”,“R”,“CO”,“O
M”,“MP”,“PU”,“UT”,“TE”,“E
R”,“COM”,“OMP”,“MPU”,“PU
T”,“UTE”,“TER”,“COMP”,“OM
PU”,“MPUT”,“PUTE”,“UTER”,
“COMPU”,“OMPUT”,“MPUTE”,
“PUTER”,“COMPUT”,“OMPUT
E”,“MPUTER”,“COMPUTE”および
“OMPUTER”など多数の部分文字列を全てキーワ
ードとしてインデックスに登録しなければならない。文
書データベースの全てのキーワードについてその部分文
字列を、このように全て登録しようとするとインデック
スファイルが莫大な容量となってしまう。すなわち、イ
ンデックス検索方式には、部分一致検索機能を実現しよ
うとするとインデックスファイルサイズが莫大になって
しまうという問題がある。本発明の目的は、インデック
ス検索方式における検索機能として、キーワードに関す
るユーザの記憶が不確かな場合に用いる前方一致検索、
後方一致検索および中間一致検索などを、インデックス
容量の爆発的増大を起こさずに実現することにある。
【0005】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、文書から抽出されたキーワードに基づい
て作成されたインデックスのインデックスファイルを備
え、検索時に質問語と一致したキーワードに対応するイ
ンデックスを参照して検索を行う文書検索システムにお
いて、インデックスを作成した全てのキーワードを並べ
て単語テーブルを作成し、与えられた質問語と前記単語
テーブル内のキーワードを文字列照合し、照合の結果抽
出された該質問語を含むキーワードを新たな質問語とし
てインデックスを参照し、前記与えられた質問語と部分
的または完全に一致するキーワードを含む文書を検索す
るようにしている。また、前記単語テーブルの作成に際
して、該単語テーブルに登録するキーワードの先頭と末
尾に所定の区切りコードを付加するようにしている。ま
た、前記与えられた質問語と前記単語テーブル内のキー
ワードとの文字列照合に際して、キーワードの先頭文字
列と該質問語とが一致するキーワードを含む文書を検索
する場合には、該質問語の先頭に前記所定の区切りコー
ドを付加し、該区切りコードを付加した質問語と前記単
語テーブル内のキーワードとを文字列照合するようにし
ている。また、前記与えられた質問語と前記単語テーブ
ル内のキーワードとの文字列照合に際して、キーワード
の末尾文字列と該質問語とが一致するキーワードを含む
文書を検索する場合には、該質問語の末尾に前記所定の
区切りコードを付加し、該区切りコードを付加した質問
語と前記単語テーブル内のキーワードとを文字列照合す
るようにしている。また、前記与えられた質問語と前記
単語テーブル内のキーワードとの文字列照合に際して、
キーワードの中間文字列と該質問語とが一致するキーワ
ードを含む文書を検索する場合には、該質問語に前記所
定の区切りコードを付加することなく、該質問語と前記
単語テーブル内のキーワードとを文字列照合するように
している。また、前記与えられた質問語と前記単語テー
ブル内のキーワードとの文字列照合に際して、該質問語
と完全一致するキーワードを含む文書を検索する場合に
は、該質問語の先頭と末尾に前記所定の区切りコードを
付加し、該区切りコードを付加した質問語と前記単語テ
ーブル内のキーワードとを文字列照合するようにしてい
る。
【0006】
【作用】上記手段により、キーワードに関するユーザの
記憶が不確かで、ユーザの質問語が完全なキーワードと
ならず、キーワードの先頭文字列、末尾文字列あるいは
中間文字列である場合にも、インデックスの容量を増や
すことなく小容量のインデックスにより、ユーザの質問
語を含むキーワードにより文書検索ができるようにな
り、また、ユーザの質問語が完全なキーワードである場
合にも文書検索ができるようになる。
【0007】
【実施例】まず、本発明の原理について説明する。
【0008】文書の登録時には、インデックスとともに
単語テーブルを作成する。単語テーブルは、登録対象の
文書から抽出した全てのキーワードについて相互に、文
字列としての重複を削除して作成する。また、この単語
テーブルでは、その先頭と末尾および各キーワードの間
に、キーワードの区切れを示すデリミタを挿入する。こ
のデリミタとしてはキーワードに使われない文字コード
を使用する。検索時には、まず、ユーザが指定した質問
語と上記単語テーブルとを文字列照合し、その結果、照
合された質問語を含むキーワードに対応するインデック
スを参照することにより検索を行う。また、ユーザが指
定した質問語に前方一致検索の指示がある場合には、そ
の指示を表わす文字を質問語から削除するとともに、質
問語の先頭に前記デリミタを付加し、これを新たな質問
語として上記単語テーブルとの文字列照合を行う。ユー
ザの質問語に後方一致検索が指示された場合には、同様
にその指示を表わす文字を質問語から削除するととも
に、質問語の末尾に前記デリミタを付加し、これと上記
単語テーブルとの文字列照合を行う。中間一致検索が指
示された場合には、同様にその指示を表わす文字を質問
語から削除するとともに、そのまま上記単語テーブルと
文字列照合する。完全一致検索が指示された場合にも同
様に、その指示を表わす文字を質問語から削除するとと
もに、質問語の先頭と末尾に前記デリミタを付加し、こ
れと上記単語テーブルとの文字列照合を行う。このよう
にして単語テーブルとユーザの質問語を文字列照合する
ことにより、単語の先頭と末尾を意識した検索が行える
ようになるため、質問語とキーワードの完全一致検索の
みならず部分一致検索をも処理することができるように
なる。すなわち、質問語と単語テーブルとを文字列照合
し、その結果、照合された質問語を含むキーワードを新
たな質問語として、インデックスからこれに一致するキ
ーワードを検索することにより、完全一致のみならず、
前方一致検索、後方一致検索および中間一致検索などの
部分一致検索機能もインデックスの容量を増やすことな
く実現することが可能となる。
【0009】以上説明した原理を、さらに具体例を用い
て説明する。本例で用いるインデックスファイルの例を
図2に示す。このインデックスには、キーワードが出現
する文書の文書番号が格納されている。本例では、キー
ワード“ART”、“SMARTEN”、“ARTIS
T”および“CHART”のインデックスが作成されて
いることを想定する。すなわち、このインデックスは、
質問語として“ART”、“SMARTEN”、“AR
TIST”および“CHART”が指定されたときの
み、それぞれキーワードが出現する文書の文書番号がイ
ンデックスファイルから読み出される。すなわち、質問
語“ART”の場合には文書番号1、3、質問語“SM
ARTEN”の場合には文書番号1、2、4、質問語
“ARTIST”の場合には文書番号4、質問語“CH
ART”の場合には文書番号3のように検索結果として
文書番号が出力される。まず、単語テーブルにはこれら
のキーワードがデリミタ(デリミタとしては“|”を用
いる)を挾んで並べるとともに、テーブルの両端にもデ
リミタを付加する。すなわち、本例の単語テーブルは図
3に示すように“|ART|SMARTEN|ARTI
ST|CHART|”のように作成する。
【0010】次に、この単語テーブルを用いた部分一致
検索について説明する。一般に、キーワードの中の不確
定な部分の文字列を表わすのにワイルドカード“*”が
使用され、前方一致検索では質問語“ART*”のよう
に用いられる。この質問語は、キーワードの先頭文字列
が“ART”であることを表わす。さらに、後方一致検
索では質問語“*ART”のように、中間一致検索で
は、質問語“*ART*”のように、完全一致検索で
は、質問語“ART”のように用いられる。例えば、前
方一致検索を表わす質問語“ART*”が与えられる
と、末尾のワイルドカード“*”を削除し、その代りに
デリミタ“|”を文字列“ART”の先頭に付加し、文
字列“|ART”のように変換する。次に、この文字列
|ART”と単語テーブル“|ART|SMARTE
|ARTIST|CHART|”とを照合する。この
照合の結果、キーワード“ART”および“ARTIS
T”が質問語“ART”と前方が一致するキーワードと
して抽出される。そして、この二つのキーワードを新た
な質問語として、図2のインデックスを参照し、検索を
行う。その結果、文書番号1、3、4が得られることに
なる後方一致検索を表わす質問語“*ART”の場合
は、文字列“ART|”に置き換え、単語テーブル“|
ART|SMARTEN|ARTIST|CHART
”と照合し、その結果、キーワード“ART”と“C
HART”が抽出される。そして、この二つのキーワー
ドを新たな質問語として、インデックスを参照し、検索
を行う。その結果、文書番号1、3が得られることにな
る。中間一致検索を表わす質問語“*ART*”の場合
は、文字列“ART”に置き換え、単語テーブル“|
RT|SMARTEN|ARTIST|CHART|”
と照合する。その結果抽出されたキーワード“AR
T”、“SMARTEN”、“ARTIST”および
“CHART”を新たな質問語として、インデックスを
参照し、検索を行う。その結果、文書番号1、2、3、
4が得られることになる。完全一致検索を表わす質問語
“ART”の場合は、文字列“|ART|”に置き換え
るとともに単語テーブル“|ART|SMARTEN|
ARTIST|CHART|”と照合する。その結果抽
出されたキーワード“ART”を新たな質問語としてイ
ンデックスを参照し、検索を行う。その結果、文書番号
1、3が得られることになる。以上のように、インデッ
クスとして登録されるキーワードから単語テーブルを予
め作成しておき、与えられた質問語をその単語テーブル
と照合しこれを含むキーワードを抽出することにより、
インデックス容量を増やすことなく部分一致検索機能を
実現することが可能となる。
【0011】以下、本発明の実施例を説明する。本実施
例の文書検索システムの構成について図4を用いて説明
する。本システムは、ディスプレイ101、キーボード
102、CPU103、主メモリ104、磁気ディスク
105およびフロッピーディスクドライブ(FDD)1
06から構成される。ディスプレイ101、キーボード
102、メモリ104、磁気ディスク105およびFD
D106は、CPU103よりバスを介してアクセスさ
れる。磁気ディスク105には、インデックスファイル
8000が格納される。主メモリ104には、文書検索
プログラム2000、文書登録プログラム3000、検
索インタフェースプログラム4000、システム制御プ
ログラム5000および単語テーブル7000がロード
され、ワークエリア6000が確保される。本システム
では、電源投入時CPU103によりシステム制御プロ
グラム5000が起動され、システム制御プログラム5
000の制御のもとに文書検索プログラム2000、文
書登録プログラム3000および検索インタフェースプ
ログラム4000が起動される。
【0012】まず、このような構成の本システムにおけ
る文書の登録処理の概略について説明する。ユーザがキ
ーボード102から入力した指示で、システム制御プロ
グラム5000が文書登録プログラム3000を起動す
る。文書登録プログラム3000により、フロッピーデ
ィスクに格納された登録対象の文書が、FDD106を
介して主メモリ104のワークエリアに読み込まれる。
次に、この登録文書から検索に必要な言葉がキーワード
として抽出され、単語テーブル7000とインデックス
ファイル8000に登録される。
【0013】次に、本システムにおける文書の検索動作
の概略について説明する。ユーザがキーボード103か
ら入力した指示に従い、システム制御プログラム500
0は文書検索プログラム2000と検索インタフェース
プログラム4000を起動する。その後、ユーザがキー
ボード103から入力した質問語が、検索インタフェー
スプログラム4000に入力され、文書検索プログラム
2000に送られる。文書検索プログラム2000で
は、受け取った質問語と単語テーブル7000との文字
列照合を行い、質問語を含むキーワードを抽出する。次
に、抽出したキーワードに対応するインデックスから文
書番号を読み出し、検索結果として検索インタフェース
プログラム4000へ送出する。検索インタフェースプ
ログラム4000では、受け取った文書番号を検索結果
としてディスプレイ101に表示する。
【0014】次に、文書登録処理について図5を用いて
説明する。文書登録処理は、登録文書数読み込みステッ
プ3100、文書数分繰返しステップ3200、キーワ
ード抽出ステップ3300、単語テーブル登録ステップ
3400およびインデックス登録ステップ3500から
なる。登録文書数読み込みステップ3100では、ユー
ザがキーボード102から入力した登録文書数を読み込
む。その後、キーワード抽出ステップ3300では、F
DD106に格納されている登録対象の文書を1文書分
読み込みワークエリア6000に格納する。さらに、読
み込まれた文書からキーワードとなる言葉を抽出する。
この抽出されたキーワードをワークエリア6000に格
納する。このように文書からキーワードを抽出する技術
は前掲の、“DOCUMENT DATABASE”
(G.James、Van Nostrand Rei
nhold Co.、1985)pp.87−94に記
載されている。本実施例では、これらのキーワード抽出
技術をそのまま利用する。さらに、単語テーブル登録ス
テップ3400では、抽出されたキーワードが単語テー
ブル7000に登録済みかどうかを調べ、単語テーブル
7000に登録されてないもののみ、単語テーブル70
00に追加登録する。その後、インデックス登録ステッ
プ3500では、文書データベースに登録されている文
書数に1を加えた値を登録文書の文書番号として登録す
るとともにインデックスファイル8000を作成する。
以上の一連の処理を文書数分繰返しステップ3200に
おいて、指定文書数分繰り返す。
【0015】本実施例における単語テーブル7000の
具体例は図3に示した通りである。本例では、キーワー
ド“ART”、“SMARTEN”、“ARTIST”
および“CHART”が単語テーブル7000に登録さ
れていることを想定している。本図に示すように単語テ
ーブル7000は、キーワードを並べた構成としてい
る。この単語テーブル7000に格納されているキーワ
ードとキーワードの間および単語テーブルの先頭と末尾
には、キーワード間の区切りを示すためデリミタを挿入
している。このデリミタとしては、通常キーワードには
使われない文字コードを使用する。本例では“|”を使
用している。
【0016】また、インデックスファイル8000は前
述したように図2に示す構成を取る。本例では、キーワ
ード“ART”、“SMARTEN”、“ARTIS
T”および“CHART”のインデックスが作成されて
いることを示している。すなわち、このインデックス
は、質問語として“ART”、“SMARTEN”、
“ARTIST”および“CHART”が指定されたと
きのみ、それぞれのキーワードが出現する文書の文書番
号がインデックスファイル8000から読み出される。
すなわち、質問語“ART”の場合には文書番号1、
3、質問語“SMARTEN”の場合には文書番号1、
2、4、質問語“ARTIST”の場合には文書番号
4、質問語“CHART”の場合には文書番号3のよう
に文書番号が出力される。
【0017】次に、この単語テーブル7000を作成す
る単語テーブル登録ステップ3400の構成と詳細な処
理を図6を用いて説明する。単語テーブル登録ステップ
3400は、キーワード数回繰返しステップ3410、
デリミタ付加ステップ3420、キーワード照合ステッ
プ3430、照合結果判定ステップ3440およびキー
ワード格納ステップ3450からなる。まず、デリミタ
付加ステップ3420では、キーワード抽出ステップ3
300においてワークエリア6000に格納されたキー
ワードを読み込む。さらに、読み込んだキーワードの先
頭と末尾にデリミタ“|”を付加する。次に、キーワー
ド照合ステップ3430では、デリミタが付加されたキ
ーワードと単語テーブルとの文字列照合を行う。この文
字列照合の技術は、 V.Aho:“Efficient String M
atching”、Communications o
f the ACM、Vol.18、No.6、1975
に記載されている。本実施例では、この文字列照合技術
をそのまま利用する。ここでは、文字列照合の結果とし
て、質問語を含むキーワードが単語テーブルに存在した
場合には質問語の識別番号(0以外の値)が出力され、
存在しない場合には0(ゼロ)が出力される。その後、
照合結果判定ステップ3440では、キーワード照合ス
テップ3430の照合結果に基づき、デリミタが付加さ
れたキーワードが存在したか否かを判定する。判定の結
果、キーワードが存在せず、文字列照合処理の照合結果
出力値が0(ゼロ)の場合のみ、キーワード格納ステッ
プ3450を実行する。キーワード格納ステップ345
0では、当該質問語を新規追加キーワードとして、その
末尾にデリミタを付加し、単語テーブル7000の末尾
に追加格納する。以上の一連の処理がキーワード数回繰
返しステップ3410において、ワークエリア6000
に格納されたキーワードの個数分繰り返すことにより、
ワークエリア6000に格納された全てのキーワードに
ついて単語テーブル登録処理を行う。
【0018】次に、文書検索処理ついて図1を用いて説
明する。
【0019】文書検索処理は、単語テーブル照合ステッ
プ2100、インデックス読み出しステップ2200か
らなる。単語テーブル照合ステップ2100では、ユー
ザから与えられた質問語と単語テーブル7000とを文
字列照合し、質問語を含むキーワードを抽出する。この
抽出されたキーワードは、後述するキーワードの番号の
形式でインデックス読み出しステップ2200に引き渡
す。その後、インデックス読み出しステップ2200で
は、上記キーワード番号に対応するインデックスに格納
された文書番号を読み出し、検索結果として検索インタ
フェースプログラム4000に送出する。
【0020】上記単語テーブル照合ステップ2100の
動作手順を、図7を用いてさらに詳細に説明する。単語
テーブル照合ステップ2100は、ワイルドカード判定
ステップ2110、前方一致検索対応質問語変換ステッ
プ2120、後方一致検索対応質問語変換ステップ21
30、中間一致検索対応質問語変換ステップ2140、
完全一致検索対応質問語変換ステップ2150、質問語
照合ステップ2160、照合結果判定ステップ2170
およびキーワード番号設定ステップ2180からなる。
【0021】まず、ワイルドカード判定ステップ211
0では、ユーザから与えられた質問語の先頭または末尾
にワイルドカード“*”が付いているか否かを判定す
る。ここで、質問語の末尾のみにワイルドカード“*”
が付いている場合は、キーワードの先頭文字に続く文字
列、すなわち先頭文字列と、質問語とが一致するキーワ
ードを含む文書を検索する前方一致検索を指示してお
り、前方一致検索対応質問語変換ステップ2120を実
行する。質問語の先頭のみにワイルドカード“*”が付
いている場合は、キーワードの末尾文字で終わる文字
列、すなわち末尾文字列と、質問語とが一致するキーワ
ードを含む文書を検索する後方一致検索を指示してお
り、後方一致検索対応質問語変換ステップ2130を実
行する。質問語の先頭と末尾の両方にもワイルドカード
“*”が付いている場合は、キーワードの先頭文字と末
尾文字を含まない文字列、すなわち中間文字列と、質問
語とが一致するキーワードを含む文書を検索する中間一
致検索を指示しており、中間一致検索対応質問語変換ス
テップ2140を実行する。質問語の先頭と末尾の両方
にワイルドカード“*”が付いていない場合は、質問語
とキーワードとが一致する完全一致検索を指示してお
り、完全一致検索対応質問語変換ステップ2150を実
行する。
【0022】前方一致検索対応質問語変換ステップ21
20では、前方一致検索を表わす質問語の末尾に付けら
れたワイルドカード“*”を削除し、さらに単語テーブ
ル7000に格納されたキーワードと前方一致検索を行
うために、先頭に単語の区切りを示すデリミタ“|”を
付加する。そして、これを新たな質問語とする。例え
ば、前方一致検索を表わす質問語“ART*”が与えら
れると、末尾に付けられたワイルドカード“*”を削除
し、その代りにデリミタ“|”を文字列“ART”の先
頭に付加し、文字列“|ART”のように変換し、これ
を新たな質問語とする。後方一致検索対応質問語変換ス
テップ2130では、後方一致検索を表わす質問語の先
頭に付けられたワイルドカード“*”を削除し、単語テ
ーブル7000に格納されたキーワードと後方一致検索
を行うために、末尾にデリミタ“|”を付加する。そし
て、これを新たな質問語とする。例えば、後方一致検索
を表わす質問語“*ART”の場合は、先頭に付いてい
るワイルドカード“*”を削除し、その代りにデリミタ
“|”を末尾に付加し、文字列“ART|”に変換し、
新たな質問語とする。中間一致検索対応質問語変換ステ
ップ2140では、中間一致検索を表わす質問語の先頭
と末尾に付けられたワイルドカード“*”を削除する。
ここでは中間一致検索を行うため質問語にデリミタ
“|”を付加しない。すなわち、ワイルドカード“*”
を削除した質問語をそのまま新たな質問語とする。例え
ば、中間一致検索を表わす質問語“*ART*”の場合
は、文字列“ART”に変換し、新たな質問語とする。
完全一致検索対応質問語変換ステップ2150では、完
全一致検索の質問語にはワイルドカード“*”が付加さ
れていないため、ワイルドカード“*”の削除は行わ
ず、先頭と末尾にデリミタ“|”を付加し、これを新た
な質問語とする。例えば、完全一致検索を表わす質問語
“ART”の場合は、文字列“|ART|”に変換し、
新たな質問語とする。このように質問語を変換すること
により、質問語の中間部分にワイルドカードが存在する
質問語“C*ART”の場合も同様に変換し、文字列
“|C*ART|”を新たな質問語することも可能であ
る。さらに、中間部分に存在するワイルドカードが固定
長のワイルドカードの場合についても同様に実現でき
る。
【0023】その後、質問語照合ステップ2160で
は、各質問語変換ステップで変換された新たな質問語と
単語テーブル7000との文字列照合を行いながら、単
語テーブル7000に格納されているデリミタをカウン
トする。ここでは、文字列照合の結果として、質問語を
含むキーワードが単語テーブルに存在した場合は質問語
の識別番号(0以外の値)と、単語テーブル7000の
先頭から質問語と照合したキーワードまでの間に存在す
るデリミタの数が出力され、存在しない場合は0(ゼ
ロ)が出力される。例えば、前方一致検索を表わす質問
語“|ART”と前記単語テーブル“|ART|SMA
RTEN|ARTIST|CHART|”とを照合する
ことを想定し、質問語“|ART”の識別番号としては
1を仮定する。この照合の結果、キーワード“ART”
および“ARTIST”の先頭文字列が質問語“AR
T”と一致するため、上記質問語の識別番号の1および
デリミタの数である1と3が出力されることになる。そ
の後、照合結果判定ステップ2170では、質問語照合
ステップ2160の照合結果に基づき、デリミタが付加
された質問語が存在したか否かを判定する。すなわち文
字列照合処理の照合結果である質問語の識別番号が0
(ゼロ)以外の場合、すなわち質問語と照合するキーワ
ードが単語テーブル中に存在するときのみ、キーワード
番号出力ステップ2180を実行する。さらに、キーワ
ード番号出力ステップ2180では、文字列照合処理で
出力されたデリミタの数をキーワード番号としてインデ
ックス読み出しステップ2200へ出力する。その後、
インデックス読み出しステップ2200では、上記キー
ワード番号に対応するインデックスに格納された文書番
号を読み出し、検索結果として検索インタフェースプロ
グラム4000に送出する。
【0024】以上、英語の文書を対象に実施例の説明を
行ってきた。日本語の文書の場合には、キーワード抽出
ステップ3300で利用している文書からキーワードを
抽出する技術については、 諸橋:“自動索引付け研究の動向”、情報処理学会誌、
Vol.25、No.9、1984に記載されている技術
を用い、キーワード照合ステップ3430と質問語照合
ステップ2160で利用している単語テーブルとの文字
列照合を行う文字列照合技術については、 篠原:“日本語テキスト用のAho−Corasick
型パターン照合アルゴリズム”、情報処理学会、研究会
報告、Vol.86、No.48、1985に記載されて
いる技術を用いることにより、英語の文書と同様に部分
一致検索機能を実現することが可能である。
【0025】以上のように、本発明の文書検索方法によ
れば、インデックスに登録されたキーワードから単語テ
ーブルを予め作成しておき、質問語を単語テーブルと照
合し該質問語を含むキーワードを抽出することにより部
分一致検索機能をインデックス容量を増やすことなく実
現することが可能となる。
【0026】
【発明の効果】本発明によれば、キーワードに関するユ
ーザの記憶が不確かな場合に用いられる前方一致検索、
後方一致検索および中間一致検索などの検索を小容量の
インデックスで実現することができる。
【図面の簡単な説明】
【図1】文書検索処理のフローを示すPAD図である。
【図2】インデックスファイルの構成例を示す図であ
る。
【図3】単語テーブルの構成を示す図である。
【図4】文書検索システムの構成を示す図である。
【図5】文書登録処理のフローを示すPAD図である。
【図6】単語テーブル登録ステップの詳細フローを示す
PAD図である。
【図7】単語テーブル照合ステップの詳細フローを示す
PAD図である。
【符号の説明】
101 ディスプレイ 102 キーボード 103 CPU 104 主メモリ 105 磁気ディスク 106 FDD 2000 文書検索プログラム 3000 文書登録プログラム 4000 検索インタフェースプログラム 5000 システム制御プログラム 6000 ワークエリア 7000 単語テーブル
───────────────────────────────────────────────────── フロントページの続き (72)発明者 多田 勝己 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 加藤 寛次 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 浅川 悟志 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】文書から抽出されたキーワードに基づいて
    作成されたインデックスのインデックスファイルを備
    え、検索時に質問語と一致したキーワードに対応するイ
    ンデックスを参照して検索を行う文書検索システムにお
    ける文書検索方法において、 前記インデックスを作成した全てのキーワードを並べて
    単語テーブルを作成し、 与えられた質問語と前記単語テーブル内のキーワードを
    文字列照合し、照合の結果抽出された該質問語を含むキ
    ーワードを新たな質問語としてインデックスを参照し、 前記与えられた質問語と部分的または完全に一致するキ
    ーワードを含む文書を検索することを特徴とする文書検
    索方法。
  2. 【請求項2】請求項1記載の文書検索方法において、 前記単語テーブルの作成に際して、該単語テーブルに登
    録するキーワードの先頭と末尾に所定の区切りコードを
    付加することを特徴とする文書検索方法。
  3. 【請求項3】請求項2記載の文書検索方法において、 前記与えられた質問語と前記単語テーブル内のキーワー
    ドとの文字列照合に際して、キーワードの先頭文字列と
    該質問語とが一致するキーワードを含む文書を検索する
    場合には、該質問語の先頭に前記所定の区切りコードを
    付加し、該区切りコードを付加した質問語と前記単語テ
    ーブル内のキーワードとを文字列照合することを特徴と
    する文書検索方法。
  4. 【請求項4】請求項2記載の文書検索方法において、 前記与えられた質問語と前記単語テーブル内のキーワー
    ドとの文字列照合に際して、キーワードの末尾文字列と
    該質問語とが一致するキーワードを含む文書を検索する
    場合には、該質問語の末尾に前記所定の区切りコードを
    付加し、該区切りコードを付加した質問語と前記単語テ
    ーブル内のキーワードとを文字列照合することを特徴と
    する文書検索方法。
  5. 【請求項5】請求項2記載の文書検索方法において、 前記与えられた質問語と前記単語テーブル内のキーワー
    ドとの文字列照合に際して、キーワードの中間文字列と
    該質問語とが一致するキーワードを含む文書を検索する
    場合には、該質問語に前記所定の区切りコードを付加す
    ることなく、該質問語と前記単語テーブル内のキーワー
    ドとを文字列照合することを特徴とする文書検索方法。
  6. 【請求項6】請求項2記載の文書検索方法において、 前記与えられた質問語と前記単語テーブル内のキーワー
    ドとの文字列照合に際して、該質問語と完全一致するキ
    ーワードを含む文書を検索する場合には、該質問語の先
    頭と末尾に前記所定の区切りコードを付加し、該区切り
    コードを付加した質問語と前記単語テーブル内のキーワ
    ードとを文字列照合することを特徴とする文書検索方
    法。
  7. 【請求項7】文書から抽出されたキーワードに基づいて
    作成されたインデックスのインデックスファイルを格納
    した記憶装置と、処理装置を備え、検索時に質問語と一
    致したキーワードに対応するインデックスを参照して検
    索を行う文書検索装置において、 前記処理装置は、前記インデックスを作成した全てのキ
    ーワードを並べて単語テーブルを作成する手段と、前記
    単語テーブルを格納する手段と、与えられた質問語と前
    記単語テーブル内のキーワードを文字列照合する手段
    と、該手段による照合の結果抽出された該質問語を含む
    キーワードを新たな質問語としてインデックスを参照す
    る手段を備え、 前記与えられた質問語と部分的または完全に一致するキ
    ーワードを含む文書を検索することを特徴とする文書検
    索装置。
  8. 【請求項8】請求項7記載の文書検索装置において、 前記単語テーブルを作成する手段は、該単語テーブルに
    登録するキーワードの先頭と末尾に所定の区切りコード
    を付加するよう構成したことを特徴とする文書検索装
    置。
  9. 【請求項9】請求項8記載の文書検索装置において、 前記文字列照合する手段は、キーワードの先頭文字列と
    前記与えられた質問語とが一致するキーワードを含む文
    書を検索するときには、該質問語の先頭に前記所定の区
    切りコードを付加し、該区切りコードを付加した質問語
    と前記単語テーブル内のキーワードとを文字列照合する
    よう構成したことを特徴とする文書検索装置。
  10. 【請求項10】請求項8記載の文書検索装置において、 前記文字列照合する手段は、キーワードの末尾文字列と
    前記与えられた質問語とが一致するキーワードを含む文
    書を検索するときには、該質問語の末尾に前記所定の区
    切りコードを付加し、該区切りコードを付加した質問語
    と前記単語テーブル内のキーワードとを文字列照合する
    よう構成したことを特徴とする文書検索装置。
  11. 【請求項11】請求項8記載の文書検索装置において、 前記文字列照合する手段は、キーワードの中間文字列と
    前記与えられた質問語とが一致するキーワードを含む文
    書を検索するときには、該質問語に前記所定の区切りコ
    ードを付加することなく、該質問語と前記単語テーブル
    内のキーワードとを文字列照合するよう構成したことを
    特徴とする文書検索装置。
  12. 【請求項12】請求項8記載の文書検索装置において、 前記文字列照合する手段は、前記与えられた質問語と完
    全一致するキーワードを含む文書を検索するときには、
    該質問語の先頭と末尾に前記所定の区切りコードを付加
    し、該区切りコードを付加した質問語と前記単語テーブ
    ル内のキーワードとを文字列照合するよう構成したこと
    を特徴とする文書検索装置。
JP6168722A 1994-06-28 1994-06-28 文書検索方法及び装置 Pending JPH0816617A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6168722A JPH0816617A (ja) 1994-06-28 1994-06-28 文書検索方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6168722A JPH0816617A (ja) 1994-06-28 1994-06-28 文書検索方法及び装置

Publications (1)

Publication Number Publication Date
JPH0816617A true JPH0816617A (ja) 1996-01-19

Family

ID=15873228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6168722A Pending JPH0816617A (ja) 1994-06-28 1994-06-28 文書検索方法及び装置

Country Status (1)

Country Link
JP (1) JPH0816617A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11184893A (ja) * 1997-12-24 1999-07-09 Oki Electric Ind Co Ltd パターン照合装置及び文書処理装置
JP2001043228A (ja) * 1999-07-28 2001-02-16 Ricoh Co Ltd 文書検索システム、文書検索方法及び記憶媒体
CN105630916A (zh) * 2015-12-21 2016-06-01 浙江工业大学 一种大数据环境下非结构化表格文档数据抽取与组织方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11184893A (ja) * 1997-12-24 1999-07-09 Oki Electric Ind Co Ltd パターン照合装置及び文書処理装置
JP2001043228A (ja) * 1999-07-28 2001-02-16 Ricoh Co Ltd 文書検索システム、文書検索方法及び記憶媒体
CN105630916A (zh) * 2015-12-21 2016-06-01 浙江工业大学 一种大数据环境下非结构化表格文档数据抽取与组织方法
CN105630916B (zh) * 2015-12-21 2018-11-06 浙江工业大学 一种大数据环境下非结构化表格文档数据抽取与组织方法

Similar Documents

Publication Publication Date Title
US5590317A (en) Document information compression and retrieval system and document information registration and retrieval method
US6249784B1 (en) System and method for searching and processing databases comprising named annotated text strings
JP3220865B2 (ja) フルテキストサーチ方法
JP3303881B2 (ja) 文書検索方法および装置
JPH0816617A (ja) 文書検索方法及び装置
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JP2519129B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JP2002366576A (ja) データ検索の方法、システム、およびプログラム製品
JPH07287716A (ja) 辞書検索装置
JP2519130B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JP3253657B2 (ja) 文書検索方法
CA1276728C (en) Information retrieval system and method
JP2000231560A (ja) 文書自動分類方式
JP2002132789A (ja) 文書検索方法
JP2880192B2 (ja) 文字列検索方法及び装置
JPS61248160A (ja) 文書情報登録方式
JP3376996B2 (ja) フルテキストサーチ方法
JP3166629B2 (ja) 辞書作成装置と語切り出し装置
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
JP2001092831A (ja) 文書検索装置及び文書検索方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2550022B2 (ja) 文書情報検索方式
JP2967995B2 (ja) 文書処理装置および文書処理方法
WO1992009960A1 (en) Data retrieving device
JPH08263508A (ja) 文書検索方法