JP3445800B2 - テキスト検索方法 - Google Patents

テキスト検索方法

Info

Publication number
JP3445800B2
JP3445800B2 JP54902198A JP54902198A JP3445800B2 JP 3445800 B2 JP3445800 B2 JP 3445800B2 JP 54902198 A JP54902198 A JP 54902198A JP 54902198 A JP54902198 A JP 54902198A JP 3445800 B2 JP3445800 B2 JP 3445800B2
Authority
JP
Japan
Prior art keywords
search
feature
text
character string
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP54902198A
Other languages
English (en)
Inventor
泰 金田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of JP3445800B2 publication Critical patent/JP3445800B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は、インターネット上のWWWページ、あるいはC
D−ROMに格納された百科事典のように、複数の電子化さ
れた文書からの情報の抽出、検索、組織化・構造化ない
し整理に関する。
背景技術 日経バイト1996年10月号の「高速全文検索の威力 第
2部 カギを握るインデクス処理」(第158頁〜第167
頁)(文献1)にあるように、全文検索技術によって、
文書のタイトル、著者、目次、キーワードなどの書誌情
報だけでなく、ユーザによって指定された文字列が文書
本体にあらわれる文書を高速に検索することが可能にに
なってきている。このような全文検索技術はキーワード
検索では不可能であった詳細な検索が可能にする一方
で、ユーザの検索意図と合致しない文書も大量に検索さ
れるという問題点を含んでいる。そのため、例えば特開
平7−28835号「文書検索装置及びその方法」(文献
2)にあるように、全文検索の結果を検索語に隣接する
文字列によって分類し、その件数によりソーティングし
て表示する技術が提案されている。
本発明の第一の課題は、文書ではなく、文書にふくま
れる情報そのものを直接に検索可能とすることである。
従来の検索技術では、「文書」という単位でのテキスト
を検索し、検索条件に適合する文書のリストを出力す
る。しかし、ユーザは文書そのものよりも、文書に記述
されている情報を必要としているのが通常である。従来
の検索法では、検索条件に適合する文書のリストから各
文書内に必要な情報が記述されているかどうかを調べな
ければならず、また必要な情報を集めて一覧にすること
はユーザが手作業で行わなければならなかった。
第二の課題は、ユーザの視野を狭めることなく、また
ユーザに過大な負担をかけずに必要な情報を抽出するこ
とができる検索を実現することである。膨大な検索結果
が雑然と出力されると、ユーザが必要な情報を検索・抽
出するのには非常に時間がかかる。そのため、最近の検
索エンジンにおいては、検索結果を検索語の出現頻度に
よりランクづけしたり、文書中に出現する用語によりク
ラスタリングしたりすることによって検索結果を整理す
るものもある。しかし、これらの方法は必ずしもユーザ
の意図に沿った検索結果を組織化・構造化するものでは
ない。
一方、検索条件を絞り込むと、ユーザの興味をひくは
ずの情報の一部までが捨てられる、あるいはいわゆる再
現率が低下することにより、ユーザの視野が狭められ
る。また、検索条件を適切に絞り込むことは一般のエン
ド・ユーザにとっては極めて困難なことである。
そのため、検索条件を強く絞り込まなくても検索結果
全体をサーベイできる検索結果の整理法が望まれる。
第三の課題は、文書集合内に分散・潜在している関係
情報を収集することにより、ユーザが知識を発見するこ
とを支援する検索を実現することである。
発明の開示 電子化された文書集合から任意のテキストを検索する
テキスト検索方法において、検索語および検索結果を配
列する特徴の入力を受け、検索語に近接して存在する特
徴を表す文字列が存在する場合には、特徴を表す文字列
を含むテキストを表示するようにする。とくに、電子化
された文書集合についての全文インデクス及び検索結果
を配列するための所定の特徴について、特徴を表す文字
列と特徴を表す文字列の出現する文書の文書名とその文
書における出現位置とを対応づけて登録した特徴インデ
クスとをあらかじめ記憶しておき、検索語および検索結
果を配列する特徴の入力を受け、検索語について、全文
インデクスを検索し、検索語の出現する文書の文書名お
よびその文書における出現位置を抽出し、入力された特
徴について、特徴インデクスを検索し、入力された特徴
を表す文字列の出現する文書の文書名およびその文書に
おける出現位置を抽出し、全文インデクスの検索結果と
特徴インデクスの検索結果を照合することにより、検索
語に近接して存在する特徴を表す文字列を含むテキスト
を得る。
図面の簡単な説明 第1図は、本発明のテキスト検索方法の論理構成を示
す図である。
第2図は、本発明をネットワークを介して構成した実
施例である。
第3図は、本発明をスタンド・アロン・システムとし
て構成した実施例である。
第4図は、検索対象となる文書例である。
第5図は、全文インデクスのデータ構造の例である。
第6図は、地名特徴インデクスおよび文書−地名特徴
インデクスのデータ構造の例である。
第7図は、数量特徴インデクスおよび文書−数量特徴
インデクスのデータ構造の例である。
第8図は、地名特徴インデクスおよび文書−地名特徴
インデクスを生成するフローチャートである。
第9図は、数量特徴インデクスおよび文書−数量特徴
インデクスに年代情報を登録するフローチャートであ
る。
第10図は、数量特徴インデクスおよび文書−数量特徴
インデクスに数量情報を登録するフローチャートであ
る。
第11図は、単位換算表の構造と内容の例である。
第12図は、ユーザの検索要求を入力するためのフォー
ム、及びその表示例である。
第13図は、地名を軸として検索する場合のフローチャ
ートである。
第14図は、地名事典の構造と内容の例である。
第15図は、地理空間を軸とする検索をおこなったとき
の出力結果を示す図である。
第16図は、年代または数量を軸として検索する場合の
フローチャートである。
第17図は、年代または数量を軸とする検索をおこなっ
たときの出力結果を示す図である。
第18図は、地名を軸として検索した検索結果の表示例
である。
第19図は、地図を表示させるためのHTML文書の例であ
る。
第20図は、地図を保存するHTML文書の例である。
第21図は、スクロール量変換テーブルの例である。
第22図は、検索結果ウインドウと地図ウインドウを同
期させてスクロールさせるフローチャートである。
第23図は、年代を軸として検索した検索結果の表示例
である。
第24図は、数量を軸として検索した検索結果の表示例
である。
発明を実施するための最良の形態 第1図は本発明のシステム構成である。電子化された
文書の集合101に対して全文インデクス生成処理106及び
特徴インデクス生成処理102を行い、全文インデクス106
及び特徴インデクス103を生成する。本実施例では、特
徴インデクス103として、「地名特徴インデクス」121、
「文書−地名特徴インデクス」122「数量特徴インデク
ス」123、「文書−数量特徴インデクス」124の4種類を
生成する。これらのインデクス生成処理は、ユーザ検索
要求108の入力以前に行われる。
ユーザ要求108が入力されると、検索・組織化処理109
をおこなって検索結果110をユーザに対して出力する。
例えば、検索・組織化処理109はWorld Wide Webにおけ
るCommon Gateway Interface(CGI)スクリプトで実現
され、検索結果110はHyper Text Markup Language(HTM
L)で出力することができる。
第2図及び第3図は、本実施例のシステムのハードウ
エア構成である。第2図はインターネット、イントラネ
ットなどのネットワークを介する構成例である。
文書集合およびその特徴インデクス及び全文インデク
スは検索エンジンを提供するプロバイダの保有するサー
バ220の大容量記憶装置(例えば、ハードディスク)223
に記憶されている。クライアント250はネットワーク241
を介してサーバ220にアクセスする。
インデクス生成用コンピュータ210は、WWWページ等の
文書の収集及びサーバ220に格納するインデクスを生成
する。その大容量記憶装置には、特徴インデクス生成プ
ログラム102aおよび全文インデクス生成処理プログラム
106aはインデクス生成用コンピュータ210、処理対象と
なる文書101が格納される。プログラム102a、106aは、S
CSIインタフェース212を介してCPU211にロードされて、
文書それぞれ特徴インデクス生成処理及び全文インデク
ス生成処理を行う。生成されたインデクス103、107は大
容量記憶装置213に記憶される。
サーバ220の大容量記憶装置223には、文書集合101の
コピーである文書集合101aと、インデクス103、107のコ
ピーである特徴インデクス103a、全文インデクス107aに
加えて、検索・組織化処理をおこなう検索プログラム10
9aが格納されている。検索プログラム109aはSCSIインタ
フェース222を介してCPU221にロードされて、検索・組
織化処理を行う。サーバ220はネットワーク・インタフ
ェース224を介してネットワーク241に接続される。ネッ
トワーク241はLAN、インターネット、ISDNネットワーク
など任意のネットワークでよく、例えば、WWWのCGIスク
リプトでプログラムする場合には、HTTPプロトコルを媒
介することができるネットワークであればよい。なお、
サーバ220に、インデクス生成プログラム102a、106aを
搭載して、サーバ220にインデクス生成処理を行わせる
こともできる。
クライアント・コンピュータ250はネットワーク・イ
ンタフェース234を介してネットワーク241に接続されて
いる。大容量記憶装置237に記憶されたWWWクライアント
・プログラムは、CPU231上で動作する。プログラムはサ
ーバ220への検索要求の送信、サーバ220から送信された
検索結果をグラフィックス・インタフェース235を介し
ディスプレイ236に表示することを行う。
第3図はスタンドアロンとして構成した例である。生
成されたインデクス103、107は、文書101、検索プログ
ラム109aとともに大容量記憶媒体255に格納され、ユー
ザに提供される、例えば、大容量記憶媒体としては、C
D、DVD等の光記録媒体や磁気記録媒体等であってランダ
ムアクセス可能な記録媒体が望ましい。なお、高速な検
索処理を実行するためにはインデクス103、107はコンピ
ュータ250の記憶装置に記憶させておいた方がよい。そ
れ以外の動作はクライアント・コンピュータ250とほぼ
同様である。
第4図に文書集合内の文書301を示す。文書301には識
別のため、「doc001」という固有の文書名が付与されて
いる。なお、文書301は百科事典の1つの項目を想定し
たものであるが、文書とする単位はこれに限定されな
い。テキスト・ファイルを一文書とみなしても、テキス
ト・ファイル中の章、節のような単位を一文書とみなし
ても、複数のテキスト・ファイルをまとめたファイル・
ディレクトリを一文書とみなしてもよい。まず、このよ
うな文書からインデクスを生成する処理を説明する。
文書301(第4図)に対して作成した全文インデクス1
07を第5図に示す。全文インデクス107には文書集合101
の全ての文書における全ての文字の出現位置が登録され
ているため、その文書名「doc001」と当該文字の出現位
置(先頭からのバイト数)との組が登録される。例え
ば、文字「1」に関する出現位置のリスト4011において
は、doc001において0、33、151の位置に文字「1」が
出現していることが登録されている。このような全文イ
ンデクスの生成法およびそのデータ構造は文献1に記述
されている。
文書301(第4図)に対して作成した地名特徴インデ
クス121および文書−地名特徴インデクス122を第6図
に、数量特徴インデクス123および文書−数量特徴イン
デクス124を第7図に、示す。これらのインデクスにつ
いても文書集合101の全ての文書において出現する地
名、数量が登録される。
文書301より、「三鷹市」、「岡山県」という地名が
抽出される。地名辞典により「三鷹市」が「東京都」に
属することが検索され、「東京都三鷹市」をキーとして
文書301中の出現位置が地名特徴インデクス121に登録さ
れる。出現位置601は、文書名「doc001」と文書内での
その位置(本実施例では、文書先頭からのバイト数「4
4」)とで表現されている。文書−地名特徴インデクス1
22では、文書名を第1キー、標準地名を第2キーとし
て、その出現位置が登録される。なお、地名特徴インデ
クス121、文書−地名特徴インデクス122には、文書集合
101に属する文書に出現するすべての地名が登録され
る。
また、文書301には、数値として「1888年」等の年
代、「188cm」等の数量を含んでいる。数量特徴インデ
クス123には、正規化単位701(「年」、「m」)を第1
キーとし、正規化数値を第2キーとして、出現位置704
が登録される。長さ、面積、体積等の数量は文書中では
様々な単位で表記される。そのため、数量値について
は、ある単位(「正規化単位」と称する)を基準とし
て、その単位に換算した値(「正規化数値」と称する)
により登録する。例えば、「188cm」という表記は、正
規化単位は「m」、正規化数値「1.88」として登録され
る。また、下2桁で表記された年代「69年」という表記
は、上2桁が補われ、正規化数値「1969」として登録さ
れる。さらに、文書中の表記(「cm」)は「出現単位」
703として登録される。また、出現位置704は、地名特徴
インデクスの場合と同様に文書名と文書中の位置とで表
現されている。
また、文書−数量特徴インデクス124は、文書名を第
1キー、「正規化単位」を第2キー、「正規化数値」を
第3キーとして、その出現位置が登録される。数量特徴
インデクス121、文書−数量特徴インデクス122にも、文
書集合101に属する文書に出現するすべての数量が登録
される。
特徴インデクスの生成処理について説明する。
第8図は、特徴インデクス生成処理102のうち、地名
特徴インデクスの生成の例である。第8図(a)のフロ
ーチャートは、日本や中国のように地名に行政単位
(「都」、「市」、「町」など)が付されている場合に
適用できる。本方法は、「3文字程度の漢字列」+「行
政単位」の並びとなっている文字列パターンを抽出す
る。
まず、処理するべき行政単位のレベルとして最上位の
レベルを選択する(ステップ801)。行政単位は例え
ば、上位レベルとして「都」、「道」、「府」、
「県」、中位レベルとして「郡」、下位レベルとして
「市」、「町」、「村」、「区」というようにレベル分
けしておく。まず、3文字程度の漢字列の後に選択され
たレベルの行政単位の文字が現れる文字列パターンを検
出する(ステップ802)。検出されなければステップ805
に進む。
検出されればその文字列パターンを一時記憶し(ステ
ップ803)、文字列パターンを登録する(ステップ80
4)。なお、登録処理において、より上位の行政レベル
が存在すればその文字列パターンを連接して登録する。
上位の行政レベルの文字列パターンは、処理800におい
て既に抽出されたものがあればそれを使用し、それがな
ければ地名辞典を使用することによって得ることができ
る。
検出した行政単位が最下位レベルであるかどうかを判
定する(ステップ805)。最下位レベルでなければ、ス
テップ807に進み、現在処理対象としているレベルのよ
り下位レベルの行政単位を選択してステップ802に戻
る。最下位レベルであれば、最上位の行政レベルを選択
し、次の地名を抽出するための初期化を行ったのち、ス
テップ802に戻る。
処理800においては、ステップ802においていずれかの
行政レベルの漢字列パターンが抽出されるかぎり802か
ら807までのステップを繰り返し実行する。
一般に行政単位が地名に現れない場合、あるいは外国
の地名については、第8図(b)のフローチャートに従
う。単語を抽出し(810)、検索対象となる地名の登録
された地名辞典により、抽出された単語が地名辞典に登
録されているかどうかを調べる(ステップ811)。地名
辞典に登録されている単語については第8図(a)と同
様にインデクスへの登録を行う(ステップ812)。ただ
し、この場合、単語が地名辞典に登録されていても必ず
しも地名とは限らない(例えば人名)。一方法として
は、その単語の現れる文脈を調べることが、地名である
か否か判断するための一助となる。処理809において
も、ステップ810において単語が抽出される限り、810か
ら812までのステップを繰り返し実行する。
第9図は、特徴インデクス生成処理102のうち年代の
関する数量特徴インデクスの生成の例である。本実施例
では年代表記の文字列パターンを抽出することによって
行う。年代は例えば、「1998年」、「(1998)」という
ように表記され、これを「年代表記パターン」と呼ぶこ
とにする。この年代表記パターンを適切に選ぶことによ
り多言語に対応可能である。例えば、英語の場合、月名
や前置詞“in"の後に3〜4桁の数字列が後続するパタ
ーンを年代表記パターンとすることができる。
まず、3〜4桁の数字列を含む年代表記パターンを検
出する(ステップ901)。検出されれば、上位1桁(数
字列が3桁のとき)または上位2桁(数字列が4桁のと
き)を記憶し(ステップ902)、記憶された数字列を数
量特徴インデクス123(文書−数量特徴インデクス124)
の正規化数値(キー)として、検出した数字列の出現位
置を登録する(ステップ903)。
ここで、年代に特有の表記として、下2桁だけによる
表記(例えば「98年」)がある。2桁の数字列を含む年
代表記パターンが検出された場合には(ステップ90
4)、ステップ902に記憶された上位桁の値を利用して3
もしくは4桁の年代に変換する(ステップ905)。この
場合、変換された年代を正規化数値として登録する(ス
テップ903)。2桁の数字列を含む年代表記パターンが
検出されなかった場合には、次の年代表記パターンを処
理するため、ステップ901に戻る。
処理900において、ステップ901においていずれかの年
代表記パターンが抽出される限り、901から905までのス
テップを繰り返し実行する。
第10図は、特徴インデクス生成処理102のうち、単位
付き数量に関する数量特徴インデクスの生成の例であ
る。一定の単位により正規化するために、第11図に示す
単位換算表を利用する。換算表1201は、各単位に対し
て、その単位と換算可能な基準とする単位(正規化単
位)が定義され、各単位で表記された値を正規化するた
め倍率が登録されている。例えば、単位「mm」に対して
は、正規化単位「m」が定義され、この場合の倍率は1/
1000である。文書中に現れる異表記についても登録して
おくことが望ましい。なお、単位付き数量としては、第
11図に示したような長さ、面積、体積の他にも、時間、
重量、速度、貨幣、個数、温度、倍率等がある。
まず、任意桁の数字列に換算表1201に登録された単位
が続くパターンを検出する(ステップ1001)。そのよう
なパターンが現れた場合は、検出された数字列から数値
計算可能な数値データに変換する(ステップ1002)。こ
の検出された数字列の値に対して、換算表1201から得ら
れた倍率をかけたものを正規化数値として求める(ステ
ップ1003)。求めた値を数量特徴インデクス123(文書
−数量特徴インデクス124)の正規化数値(キー)とし
て、検出した数字列の出現位置を登録する(ステップ10
04)。なお、ステップ1002において、検出された数字列
を数値データに換算するためには、位取りを単位換算と
同様の考え方により(例えば、「千の桁」に対して倍率
「1000」を定義する)、検出した数字列から対応する数
値データを求めることができる。数字列が算用数字で表
記された場合であっても、漢数字で表記された場合であ
っても同様の考え方で数値データに変換できるのは明ら
かである。処理1000においては、ステップ1001において
いずれかの文字列パターンが抽出される限り、1001から
1004までのステップを繰り返し実行する。
つぎに、ユーザが検索要求を出す方法について説明す
る。第12図は、HTMLのフォームにより検索要求を記述す
る実施例である。
(a)は、検索要求を入力するためのフォーム1101を示
している。URL1102は検索プログラム109a(b)のURLで
ある。(b)はフォーム1101によりWebブラウザにより
ディスプレイ上に表示された検索要求画面1111の例を示
している。表示フォーム1111内には4個のテキスト入力
フィールド1112〜1115が含まれている。ユーザはこれら
に、それぞれ検索語、検索すべき特徴の種類、その範囲
下限および範囲上限を入力した後、サブミット・ボタン
1116をマウスでクリックすることにより、プログラム
(“cgi−bin/search")が起動されて、検索・組織化処
理が行われる。
「検索語」としては全文検索インデクスにより検索し
たい文字列を指定する。「検索特徴の種類」としては、
地名、年代、単位つき数量を指定する。単位つき数量の
指定においては、個別の単位(例えば「m」)を指定す
るようにしてもよく、「長さ(距離)」として換算可能
な複数単位をあわせて指定するようにしてもよい。「範
囲」としては各検索特徴についての範囲を指定する。例
えば、「年代」について「1920年〜1940年」という範
囲、「地名」について「東京都」という範囲、「数量
(m)」について「0m〜100m」という範囲が指定でき
る。
第13図は、検索特徴として「地名」が入力された場合
の処理である。本フローチャートでは、第14図に示す地
名辞典1301を使用する。地名辞典1301は、あらかじめコ
ンピュータがもつハードディスク上に作成しておく。第
一欄はキーとなる第一の地名であり、第二欄は第一の地
名があらわす地域に存在する地名リストであり、第三欄
は第一の地名が存在する経緯度である。なお、経緯度と
しては、第一の地域のうち、地図上への表示に適した経
緯度であってもよい。第四欄は、地名の全域を表示した
地図データの識別子またはポインタが格納されている。
例えば、第一欄が「東京都」であれば、東京都全域の地
図をGIF形式などの形式に電子化したデータのファイル
名を格納される。
ユーザが指定した検索語の出現位置を保持するリスト
Lf、ユーザが指定した地名に属する地名の出現位置を保
持するリストLqを初期化する(ステップ1201)。地名辞
典1301をユーザの指定した地名pをキーとして引き、地
名pの下位の地名p1を抽出する(ステップ1202)。各地
名p1について、地名特徴インデクス121(第6図)に登
録されているかどうかを判定し(ステップ1203)、登録
されている場合は、地名p1と出現位置との対をリストLq
に保持する(ステップ1204)。この処理を地名辞典に登
録された全ての下位の地名について実施する。
続いて、ユーザが検索語を指定したかどうかを判定す
る(ステップ1205)。指定された場合、ユーザ指定の検
索語の文字列をSと全文インデクス107を照合し、文書
集合101に出現する出現位置のリストLfを得る(ステッ
プ1206)。リストLqの各要素(地名p1と出現位置の対)
q[i]とリストLfの各要素(検索語と出現位置の対)
f[i]を照合し、各q[i]に出現位置が最も近いf
[i]を求め、その間の距離をd[i]とする(ステッ
プ1207)。d[i]は、出現位置の文字数により定義す
ることができ、またq[i]とf[i]の間に句読点な
どが存在する場合は、それをそれを考慮して距離を定義
することもできる。さらに、d[i]の値が一定値以上
であるようなすべての要素q[i]をリストLqから除去
する(ステップ1208)。
なお、ユーザが検索語を指定していない場合は、d
[i]の値を1にする(ステップ1210)。
検索結果はテキストだけで表示することも可能であ
り、地図上に表示することも可能である。ステップ1215
において検索結果を地図上に表示するか、あるいはテキ
ストとして表示するかを判定する。この判定は、ユーザ
によるメニュー指定を参照することにより行える。
地図上に表示しない場合、リストLqにより、地名と、
それが出現する文書のタイトルおよび出現位置周辺のテ
キストをHTML形式で出力する(ステップ1221)。ただ
し、文書タイトルにはその文書の先頭を表示するための
URLへのハイパーリンクをつける。また、出現位置周辺
のテキストにあらわれる地名p1には、該当部分のテキス
トを表示するためのURLへのハイパーリンクをつける。
地図上に表示する場合、地名pに対応する地図を、地
名辞典により求める(ステップ1251)。リストLqの各要
素の経緯度を求め(ステップ1252)、各要素について、
地名の出現する文書のタイトルおよび出現位置周辺のテ
キストを求め、経緯度を使って地図上の該当位置に合成
し、表示する(ステップ1253)。
なお、文書−地名特徴インデクス122を使用して、同
一の機能を実現することもできる。この場合、先に全文
インデクス107により、ユーザが指定した検索語の検索
を行い、検索語の現れる文書を抽出する。そこで抽出さ
れた文書に対して、地名の出現位置のリストを得る。こ
の方法は、文書集合全体にあらわれる検索語の出現頻度
が少ない場合に、文書を絞り込むことで処理時間を減少
させることができる。
第15図は、文書301(第4図)についてのステップ122
1における出力例を示す図である。第15図(a)に示す
出力結果1401はHTML文書の一部である。地名についての
2項目1411、1412が出力されている。項目1411には、出
力された「地名」が「岡山県」であり、文書「東京天文
台」に現れていることが指示され、さらに「岡山県」が
あらわれる周辺から抽出されたテキスト(「岡山県の18
8cm反射望遠鏡」)が含まれている。文書名(「東京天
文台」)には、文書301(“doc001.html")へのリンク1
421が付加されている。同様に、「岡山県」の部分に
は、その出現位置(“doc001&44")を引数とするCGIス
クリプトへのリンク1422が付加されている。
第15図(b)は、(a)にHTMLテキストをWebブラウ
ザによって表示したときの表示結果1501である。インク
1421は下線1521として表示され、リンク1422は下線1522
として表示される。下線1521をクリックすると文書301
の全体がWebブラウザによって表示される。また、下線1
522をクリックすると“/cgi−bin/insert"というCGIス
クリプトが起動され、文書301において「岡山県」が出
現する部分の周辺を強調表示する。例えば、文書301の
うち、「岡山県」が出現する部分の周辺のテキストをつ
ぎのようなタグ(“<A NAME="here“><FONT COLOR
="red“>”、“</FONT></A>”)を付して出力す
る。この場合、タグで囲まれたテキストはWebブラウザ
において赤色で表示され、文書が長い場合には、当該テ
キストはウィンドウの先頭付近に表示される。
第15図の例において、地名(特徴)の出現位置周辺の
テキストを表示するかわりに、検索語の出現位置周辺の
テキストを表示するようにしてもよい。または、両者あ
るいは地名、検索語の双方を含むテキストを表示するよ
うにしてもよい。この場合には、検索語の出現位置にも
原文における検索語の出現位置へのハイパーリンクをつ
けるようにする。さらに、地名または検索語へのハイパ
ーリンク、文書タイトルへのハイパーリンクはテキスト
外に表示する(例えば、テキストまたはタイトルの先頭
にハイパーリンクを埋め込んだアイコンをつける)こと
も可能である。加えて、検索結果はリスト形式による表
示、表形式による表示と変更可能であることはいうまで
もない。
第16図は検索特徴として「年代」または単位つき数量
が入力された場合の処理である。単位(年、m等)を示
す変数uにユーザの指定した単位の正規化単位、検索対
象とする数量yをy0≦y≦y1とする(ステップ1601)。
但し、y0及びy1はユーザが「範囲」として入力した値を
正規化単位により正規化した値である。次にuを第1キ
ー(数量特徴インデクス第1欄701と照合)、y0からy1
までの範囲の値を第2キー(数量特徴インデクス第2欄
702と照合)として数量特徴インデクス123を検索し、y0
からy1までの範囲の数値であるものを検索する。そし
て、数値yと出現位置との対であるリストLqを得る(ス
テップ1602)。ただし、特定の単位だけを検索すること
をユーザが指定した場合には、ユーザが指定した単位を
数量特徴第3欄703の単位と比較し、ユーザが指定した
単位と一致する項目のみをリストLqの要素とする。な
お、指定範囲の要素の全てを高速に求めるためには、数
量特徴インデクス123、文書−数量特徴インデクス124の
正規化数値欄の木構造を形式で作成しておけばよい。た
とえば、B−treeを使用すればよい。
ユーザが検索文字列を指定したかどうかを判定するス
テップ1205a〜1210a及び1622は、第13図のフローチャー
トのステップ1205〜1210及び1221と同様であり、説明を
省略する。但し、指定された数量を降順、または昇順に
出力した方が便宜である。そこで、ステップ1621では、
指定された数量の数値を第1キーとして降順に、距離d
[i]を第2キーとして昇順にソートしてリストLqの各
要素を表示するようにする。
地名の場合と同様に数量特徴インデクス123の代わり
に文書−数量特徴インデクス124を使用してもよい。ま
た、文書301に対する出力結果を第17図に示す。この出
力方法は第14図の場合と同様である。
なお、各特徴インデクスに、地名や数量の出現位置周
辺のテキストをあらかじめ登録しておいてもよい。これ
により、ステップ1221において、出現位置周辺のテキス
トを出力する際の待ち時間が短縮される。
また、以上で数量(年代を含む)および地名の検索に
ついて説明したが、これに限られることなく、適切なイ
ンデクスを作成することで検索・組織化することが可能
である。例えば、概念カテゴリーを表した木構造空間に
より組織化することも可能である。各カテゴリーに属す
る事項をまとめたインデクスにより、検索項目をカテゴ
リーに分類し、表示することもできる。また、ユーザの
選択した軸を上記実施例のような順序空間、多次元ユー
クリッド空間ではなく、道路ネットワークやコンピュー
タ・ネットワークのようなネットワークを組織化のため
の空間として使用し、そのネットワークの頂点に関する
特徴をあらわす文字列パターンを抽出し、検索項目をこ
れらのネットワーク構造上組織化して表示することもで
きる。
以下、第18図〜第24図を用いて、電子百科事典に対し
て本発明のテキスト検索方法を実施、検索結果を表示し
た例を示す。
第18図は、「検索語」を「一揆」、検索特徴の種類を
「地名」、範囲を「日本」として検索した出力結果であ
る。項目2521が検索された地名(「茨城県真壁郡」)で
あり、これに対して電子百科事典の見出し2523(「真壁
騒動」)、2525(「地租」)が挙げられ、各見出しに対
して周辺テキスト2523、2525が表示されている。ハイパ
ーリンク2532をクリックすると、ウィンドウ2591が開
き、日本地図が表示され、茨城県の部分が先頭付近に表
示される。このような地図の頭出しを実現するため、第
13図のステップ1253において、第19図に示すHTML形式の
テキスト2601を生成する。ハイパーリンク2532に対応す
るテキスト2611が含まれている点が特徴である。テキス
ト2611は第20図に示すHTML形式のファイル「japan−ma
p.html」のアンカー2721を参照している。
日本地図はGIF形式で表現され、適当な大きさのファ
イルで保存されている。例えば、ファイル「Ibaraki.gi
f」には茨城県全域を含む地図部分が保存されている。
アンカー2721がIbaraki.gifを参照することにより、上
記の地図の頭出しが可能になる。
さらに、地図表示の別の例を説明する。本実施例で
は、グラフィカル・ユーザ・インタフェース・ツールを
使用することにより検索結果2502が表示されたウインド
ウをスクロールに合わせて、対応する地域の地図をスク
ロール表示する。第21図は、このような表示を実現する
ためのスクロール量変換テーブル2801である。スクロー
ル量変換テーブル2801は、検索結果ウインドウ2502のス
クロール量と地図ウインドウ2591のスクロール量とを対
応づけるテーブルである。例えば、スクロール量はスク
ロールバーが最上位置にあるときが0、最下位置にある
ときを1としてその間の実数で表される。スクロール量
変換テーブル2801は次のように生成できる。あらかじめ
標準地名に対応する地図ウインドウ2591におけるスクロ
ール量を算出しておく。一方、検索が実行されると、検
索された各項目2521、2511について検索結果ウインドウ
2502におけるスクロール量を求め、求められた各項目の
スクロール量とあらかじめ算出されている地図ウインド
ウのスクロール量とを対応づける。
ユーザが検索結果ウインドウ2502をスクロールさせる
と、スクロールバーを制御しているプログラムからイベ
ントが発生し、このとき第22図に示す処理を実行する。
ユーザによる検索結果ウィンドウ2502のスクロール量を
0から1の間の値に正規化し、その値をsとする(ステ
ップ2901)。次に、スクロール量変換テーブル2801によ
り、検索結果ウィンドウのスクロール量がsであるとき
の、対応する地図ウィンドウ・スクロール量tを求め
る。ただし、sと一致する値がテーブル2801に登録され
ていないときは、補間によって対応する値tを求める
(ステップ2902)。求められたtに基づき、地図ウィン
ドウのスクロールバーに設定することにより、地図ウィ
ンドウが当該の点までスクロールされる。
また、ユーザが地図をスクロールしたときは、テーブ
ル2801を逆引きすることによって、検索結果ウィンドウ
2502を当該場所までスクロールさせる。
第23図は、「検索語」を「東京天文台」、検索特徴の
種類を「年代」、範囲を「1924〜1935」として検索した
出力結果である。抽出された数値の昇順に表示してい
る。ユーザの選択により、降順に表示することも可能で
ある。項目2311が検索された年代(「1924」)であり、
これに対して電子百科事典の見出し2312(「三鷹」)、
2314(「天文台」)等が挙げられ、各見出しに対して周
辺テキスト2313、2315が表示されている。このように、
「東京天文台」に関して調査するユーザは上記の検索を
行うことによって、見出し「天文台」に記載された内容
の他に、見出し「塔望遠鏡」から情報を得ることができ
る。また、年代順に並んでいることから、ユーザは三鷹
という地域と東京天文台との歴史的な関係といった異な
った観点を得ることができる。ハイパーリンクにより、
見出しの内容にアクセスすることにより、より詳細な情
報を入手できるのはもちろんである。
第24図は、「検索語」を「流域」、検索特徴の種類を
「m2」、範囲を指定することなく検索した出力結果であ
る。抽出された数値の降順に表示している。ユーザの選
択により、昇順に表示することも可能である。項目2011
が検索された数量(「650万km2」)であり、これに対し
て電子百科事典の見出し2012(「アマゾン」)、2014
(「アマゾニア」)が挙げられ、各見出しに対して周辺
テキスト2013、2015が表示されている。
また、第12図に示した「検索語」と「検索特徴の種
類」とを同時に指定するユーザ・インタフェースの他
に、これらを逐次的に指定するユーザ・インタフェース
を使用することもできる。この場合、ユーザは第一の検
索要求入力画面において検索語を入力し、その検索語に
より全文インデクス検索を行う。その後、ユーザは第二
の検索要求入力画面において検索特徴の種類を指定し、
指定された検索特徴に関して特徴インデクス検索処理を
行う。このとき、第二の検索要求入力画面には、全文イ
ンデクス検索により抽出された文書に出現する検索特徴
の種類だけを、ユーザが選択できるメニューとして提示
する。このように構成することで、ユーザは効率的に検
索特徴を選択することが可能になる。
さらに、検索された文書について、各検索特徴の種類
の出現回数を調べて、出現回数の多いものをより重要と
みなし、第二の検索要求入力画面のメニューにおいて重
要なものから順に表示することにより、ユーザはより容
易に効果的な検索特徴を選択することができるようにな
る。
さらに、複数個の検索特徴を同時に指定することも可
能である。検索要求入力画面として、第12図(b)に示
したものに第2の検索特徴の種類及び範囲の入力フィー
ルドを追加する。第2の検索特徴についても、地名であ
れば第13図のステップ1200〜1204、数量であれば第16図
のステップ1601〜1602の処理を行い、リストLq2を得
る。
第1の検索特徴について得たリストLq1の各要素q1
[i]について、出現場所が最も近いリストLfの要素f
[i]との距離d1[i]、出現場所が最も近い第2の検
索特徴について得たリストLq2の要素q2[i]との距離d
2[i]を求める。各要素q1[i]について、d1[i]
またはd2[i]の値が一定値以上であるような各リスト
の要素をリストより削除する。こうして得られたLq1に
ついて、第1の検索特徴を第1キーとして降順に、第2
の検索特徴を第2キーとして降順に、d1[i]+d2
[i]の値を第3キーとして昇順に、マルチ・キー・ソ
ートする。
以上のようにして求めた検索結果は、各検索結果項目
について、2個の検索特徴の種類に対応する2個の検索
特徴を表示する。第2の検索特徴の種類が「地名」であ
る場合は、第13図のステップ1251〜1253の処理により、
地図を第18図と同様に表示する。
複数個の検索特徴を指定する場合、検索結果を複数の
検索特徴によって分散させることにより、より概観しや
すいものにすることができる。
産業の利用可能性 本発明のテキスト検索法により、第一に、情報は文書
単位ではなく、ユーザ指定の軸ないし空間に関連するテ
キストを単位として検索されるため、ユーザが求めてい
る情報を直接的に求めることができる。従って、一つの
文書であっても関連部分を複数個含んでいれば、それぞ
れが抽出され、整列される。
第二に、検索結果はユーザ指定の軸により、整理され
た形で得られるため、大量の検索結果であっても容易に
サーベイすることができる。それにより、過剰な絞り込
みによる視野狭窄を避けるとともに、複雑な検索条件を
指定する必要がなく、ユーザの負担を軽減できる。
第三に、軸にもとづいて情報が収集整理されることに
より、分散していた関連情報があつめられ、潜在してい
た関係の発見に役立つ。一例としては複数の文書の記述
をあわせてみることにより、より完全な情報把握が可能
になる。
フロントページの続き (56)参考文献 伊藤,木下,小山,菊池,インターネ ット高速全文検索登録ソフトウェア”P anaSearch/Wed”,Nat ional TECHNICAL RE PORT,日本,松下電器産業株式会 社,1996年10月18日,第42巻,第5号, p.104−110 野口,佐藤,上野,星田,石川,検索 型ナビゲーションを実現したホームペー ジ知的検索システムの開発,情報処理学 会シンポジウム論文集,日本,社団法人 情報処理学会,1996年12月 5日,Vo l.96,No.11,p.91−98 田中,InfoBee検索エンジンを 用いたディレクトリ検索サービス,NT T技術ジャーナル,日本,1996年 8月 1日,社団法人電気通信協会,p.24 −27 若尾,英語新聞記事からの固有名詞自 動抽出技術,情報処理学会研究報告,日 本,社団法人情報処理学会,1996年 9 月12日,Vol.96,No.88,p.1 −8(96−FI−43−1) 増田,梅村,固有名詞に着目し記事群 を整理分類し提供するシステム,電子情 報通信学会技術研究報告,日本,社団法 人電子情報通信学会,1996年 7月18 日,Vol.96,No.157,p.7− 12(NLC96−10) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】電子化された文書から任意のテキストを検
    索するテキスト検索方法において、 検索語および検索結果を配列する特徴の入力を受け、 上記検索語に近接して存在する上記特徴を表す文字列が
    存在する場合には、上記特徴を表す文字列もしくは検索
    語を含むテキストを表示することを特徴とするテキスト
    検索方法。
  2. 【請求項2】特許請求の範囲第1項記載のテキスト検索
    方法において、 上記検索結果を配列する特徴として、年代または単位付
    き数量が入力された場合には、 上記特徴を表す文字列を含むテキストを、上記特徴を表
    す文字列である数値の大きさの順に配列して表示するこ
    とを特徴とするテキスト検索方法。
  3. 【請求項3】特許請求の範囲第2項記載のテキスト検索
    方法において、 上記検索結果を配列する特徴の範囲の入力を受け、 上記検索語に近接して存在する上記特徴を表す文字列で
    あって、上記特徴の範囲に含まれるものについて、上記
    特徴を表す文字列を含むテキストを表示することを特徴
    とするテキスト検索方法。
  4. 【請求項4】電子化された文書から任意のテキストを検
    索するテキスト検索方法において、 上記電子化された文書についての全文インデクス及び検
    索結果を配列するための所定の特徴について、上記特徴
    を表す文字列と上記特徴を表す文字列の出現する出現位
    置を対応づけて登録した特徴インデクスをあらかじめ記
    憶しておき、 検索語及び検索結果を配列する特徴の入力を受け、 上記検索語について、上記全文インデクスを検索し、上
    記検索語の出現する出現位置を抽出し、 上記入力された特徴について、上記特徴インデクスを検
    索し、上記入力された特徴を表す文字列の出現する出現
    位置を抽出し、 上記全文インデクスの検索結果と上記特徴インデクスの
    検索結果を照合し、上記検索語に近接して出現する上記
    入力された特徴を表す文字列が存在する場合には、上記
    特徴を表す文字列もしくは検索語を含むテキストを表示
    することを特徴とするテキスト検索方法。
  5. 【請求項5】ネットワークを通じて受け付けられる検索
    要求に従って、電子化された文書から任意のテキストを
    検索するテキスト検索において、 検索語および検索結果を配列する特徴を含む検索要求を
    受けつけ、 上記検索語に近接して存在する上記特徴を表す文字列が
    存在する場合には、上記特徴を表す文字列を含むテキス
    トを上記検索要求を発信した発信者に向けて出力するこ
    とを特徴とするテキスト検索方法。
  6. 【請求項6】特許請求の範囲第4項又は第5項におい
    て、 上記特徴表す文字列を含むテキストについて、上記テキ
    ストを含む文書へのハイパーリンクを付与して出力する
    ことを特徴とするテキスト検索方法。
  7. 【請求項7】ネットワークを通して受け付けられる検索
    要求に従って、電子化された文書から所定の特徴を含む
    テキストを検索するテキスト検索システムにおいて、 上記ネットワークに接続するためのネットワーク・イン
    タフェースと、 上記電子化された文書と検索結果を配列するための所定
    の特徴について、上記特徴を表す文字列の出現する出現
    位置とを対応づけて登録した特徴インデクス、及び、上
    記電子化された文書の全文インデクスとを記憶する記憶
    装置と、 上記ネットワークを通じて受け付けた検索語及び検索結
    果を配列する特徴からなる検索要求に従って、上記処理
    装置は、上記検索語について、上記全文インデクスを検
    索し、上記入力された特徴を表す文字列の出現する出現
    位置を抽出し、上記全文インデクスの検索結果と上記特
    徴インデクスの検索結果とを照合し、上記検索語に近接
    して出現する上記入力された特徴を表す文字列が存在す
    る場合には、上記特徴を表す文字列もしくは検索語を含
    むテキストを上記ネットワークを通じて出力することを
    特徴とするテキスト検索システム。
  8. 【請求項8】電子化された文書をあらわす情報と、上記
    電子化された文書に出現する所定の特徴を表す文字列と
    上記特徴を表す文字列の出現する出現位置とを対応づけ
    て登録した特徴インデクス情報と、 コンピュータにより読み取られて実行されるプログラム
    であって、検索語および検索結果を配列する特徴の入力
    を受けつける処理、及び、上記検索語に近接して存在す
    る上記特徴を表す文字列が存在する場合には、上記特徴
    を表す文字列もしくは検索語を含むテキストを表示する
    処理を有するプログラムと、 が記録されていることを特徴とするコンピュータ読み取
    り可能な記録媒体。
JP54902198A 1997-05-16 1998-04-17 テキスト検索方法 Expired - Fee Related JP3445800B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9-126706 1997-05-16
JP12670697 1997-05-16
PCT/JP1998/001773 WO1998052130A1 (en) 1997-05-16 1998-04-17 Text retrieval method

Publications (1)

Publication Number Publication Date
JP3445800B2 true JP3445800B2 (ja) 2003-09-08

Family

ID=14941850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP54902198A Expired - Fee Related JP3445800B2 (ja) 1997-05-16 1998-04-17 テキスト検索方法

Country Status (2)

Country Link
JP (1) JP3445800B2 (ja)
WO (1) WO1998052130A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008009918A (ja) * 2006-06-30 2008-01-17 Fujitsu Ltd 索引作成プログラム、索引作成装置および索引作成方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711558B1 (en) 2000-04-07 2004-03-23 Washington University Associative database scanning and information retrieval
JP4646289B2 (ja) * 2004-07-14 2011-03-09 株式会社リコー データベースマネジメントシステム
US7660793B2 (en) 2006-11-13 2010-02-09 Exegy Incorporated Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
US8326819B2 (en) 2006-11-13 2012-12-04 Exegy Incorporated Method and system for high performance data metatagging and data indexing using coprocessors
EP2092440B1 (en) * 2006-11-13 2019-01-09 IP Reservoir, LLC Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
伊藤,木下,小山,菊池,インターネット高速全文検索登録ソフトウェア"PanaSearch/Wed",National TECHNICAL REPORT,日本,松下電器産業株式会社,1996年10月18日,第42巻,第5号,p.104−110
増田,梅村,固有名詞に着目し記事群を整理分類し提供するシステム,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1996年 7月18日,Vol.96,No.157,p.7−12(NLC96−10)
田中,InfoBee検索エンジンを用いたディレクトリ検索サービス,NTT技術ジャーナル,日本,1996年 8月 1日,社団法人電気通信協会,p.24−27
若尾,英語新聞記事からの固有名詞自動抽出技術,情報処理学会研究報告,日本,社団法人情報処理学会,1996年 9月12日,Vol.96,No.88,p.1−8(96−FI−43−1)
野口,佐藤,上野,星田,石川,検索型ナビゲーションを実現したホームページ知的検索システムの開発,情報処理学会シンポジウム論文集,日本,社団法人情報処理学会,1996年12月 5日,Vol.96,No.11,p.91−98

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008009918A (ja) * 2006-06-30 2008-01-17 Fujitsu Ltd 索引作成プログラム、索引作成装置および索引作成方法

Also Published As

Publication number Publication date
WO1998052130A1 (en) 1998-11-19

Similar Documents

Publication Publication Date Title
US7596581B2 (en) Relevance ranking of spatially coded documents
US9384245B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
JP3717808B2 (ja) 情報検索システム
WO2002039320A1 (en) Method for structuring and searching information
WO2009054731A1 (en) Menu search
CA2411184A1 (en) Method and apparatus for data collection and knowledge management
JP2005535039A (ja) 地理的なテキスト検索システムを備えたデスクトップクライアントとの対話
KR100434902B1 (ko) 지식 기반 맞춤 정보 제공 시스템 및 그 서비스 방법
US20030074350A1 (en) Document sorting method based on link relation
JP2003524823A (ja) デジタルソースからの情報の捕獲及び管理のためのシステム及び方法
JP4084647B2 (ja) 情報検索システム、情報検索方法及び情報検索プログラム
JP3445800B2 (ja) テキスト検索方法
US7509303B1 (en) Information retrieval system using attribute normalization
US8612431B2 (en) Multi-part record searches
KR19990078876A (ko) 일괄된 자원 위치기 입력을 통한 정보 검색 방법
JPH10162011A (ja) 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置
JP2022162685A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2746198B2 (ja) 全文対象データベース検索方法
KR20060002102A (ko) 도서 본문 검색 시스템 및 방법
US20020087517A1 (en) Enhanced method and system for storing and managing search criteria

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080627

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080627

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090627

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100627

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100627

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110627

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110627

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120627

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees