JPH11259500A - 情報蓄積・検索方法および情報蓄積・検索システム - Google Patents

情報蓄積・検索方法および情報蓄積・検索システム

Info

Publication number
JPH11259500A
JPH11259500A JP10059634A JP5963498A JPH11259500A JP H11259500 A JPH11259500 A JP H11259500A JP 10059634 A JP10059634 A JP 10059634A JP 5963498 A JP5963498 A JP 5963498A JP H11259500 A JPH11259500 A JP H11259500A
Authority
JP
Japan
Prior art keywords
information
company
search
company information
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10059634A
Other languages
English (en)
Inventor
Yuichi Tezuka
祐一 手塚
Ichiro Tomita
一郎 冨田
Mitsuo Nagaoka
満夫 長岡
Shuichiro Yamamoto
修一郎 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10059634A priority Critical patent/JPH11259500A/ja
Publication of JPH11259500A publication Critical patent/JPH11259500A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索要求に従って複数企業のWWWサーバか
ら企業情報を検索することが可能な情報蓄積・検索方法
およびシステムを提供すること、特に、正規表現を利用
して検索結果から企業情報のみを抽出することが可能な
情報蓄積・検索方法およびシステムを提供すること。 【解決手段】 利用者が入力した企業情報を検索するた
めの検索条件を解析し(ステップS21)、検索対象と
なる企業を取得する(ステップS22)。次に、検索対
象企業の企業情報提供サーバに対する検索要求を作成し
検索を実行して検索結果を取得する(ステップ23〜2
5)。対象企業に対応する正規表現を取得し検索結果か
ら情報を抽出し、抽出した情報と企業属性との対応をと
り、該企業情報をデータベースに格納し利用者に通知す
る(ステップ26〜32)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、WWW(World
Wide Web)上の企業情報を検索するための情報蓄積・
検索方法および情報蓄積・検索システムに関する。
【0002】
【従来の技術】従来、WWW上での情報検索は検索ロボ
ットによる収集型の検索サービスと利用者による登録型
のディレクトリサービスに代表される。前者の検索サー
ビスは、インターネット上のテキスト検索と見倣せる。
サービスを利用する人が所望の情報だけを検索すること
は困難であり、利用者の入力に応じてデータべースの情
報を動的に埋め込むHTML文書の検索はできない。後
者のディレクトリサービスは、特定の分類方法に基づい
て階層的に情報へのアクセス先を示すに留まっている。
また、企業情報を流通するために、企業情報の標準的な
記述形式が検討されており、特別なHTMLタグを用い
た記述形式に従って企業情報が表現されている。しか
し、この記述形式を用いた企業情報の情報検索は情報提
供者側に多大な作業を強いる。
【0003】
【発明が解決しようとする課題】データべースに格納さ
れた企業情報がWWWサーバ上のCGIプログラムを用
いてHTML文書に埋め込まれる場合、検索ロボットを
用いた情報収集・蓄積方法ではCGIプログラムに対す
る適当な入力を与えて動的なHTML文書を取得するこ
とはできない。このような情報元から企業情報を取得す
るためには利用者の検索要求に応じてリアルタイムにC
GIプログラムに入力を与える必要がある。
【0004】また、現在の企業情報は企業毎に異なる記
述形式に従っているため、情報検索システムがWWWか
ら複数企業を横断的に検索する際に企業情報を的確に取
得することは困難を極める。本発明は、上記問題点を解
決し、検索要求に従って複数企業のWWWサーバから企
業情報を検索することが可能な情報蓄積・検索方法およ
び情報蓄積・検索システムを提供すること、特に、正規
表現を利用して検索結果から企業情報のみを抽出するこ
とが可能な情報蓄積・検索方法および情報蓄積・検索シ
ステムを提供することを目的とする。
【0005】
【課題を解決するための手段】本発明は、上記目的を達
成するために、情報蓄積時に、検索・収集の対象となる
企業情報を抽出するために、企業検索テーブルにおいて
企業に関する情報および正規表現されたHTMLタグを
サーバに蓄積しておき、情報検索時に、検索条件を解析
して企業情報を取得し、取得した企業情報に対応するH
TMLタグの正規表現に基づいて、企業から必要な企業
情報を検索し、それぞれの企業から記述形式の異なる企
業情報を抽出するようにしている。
【0006】すなわち、検索要求側では、企業情報を提
供するWWWサーバに対して所望の企業情報を得るため
の検索条件を設定し、検索要求を行なう。検索応答側で
は、企業情報の検索要求によって検索条件を満たす企業
情報をデー夕べースから取り出す。そして、企業情報を
構成する属性に対してHTML夕グを付与することで企
業情報が識別できるように加工する。この加工した企業
情報を検索要求側に返却する。検索要求側では、WWW
サーバから検索結果が返却されると、検索結果から企業
情報を取り出すための正規表現を用いてHTMLタグを
解析し、企業情報を取得する。これにより、要求元と要
求先で企業情報のやりとりが可能となる。
【0007】
【発明の実施の形態】図1は、本発明に係る企業情報検
索装置のシステム構成図である。本システムは利用者端
末1、企業情報検索サーバ3、企業情報提供サーバ6か
ら構成される。この図ではそれぞれがネットワークWW
W(WWW2,5)上に配置されている場合を示してい
るが、一つの計算機上で実現されていてもよい。企業情
報検索サーバ3は、検索条件解析部31、検索実行部3
2、企業情報抽出部33、企業情報データベース4から
構成される。一方、企業情報提供サーバ6は、要求解析
部61、DB検索部62、HTML生成部63、データ
ベースサーバ7から構成される。ここで、企業情報提供
サーバ6は企業によって異なるHTML文書のスタイル
形式で企業情報を提供することが可能であるとする。つ
まり、本システムではWWW上で提供している既存の情
報提供サービスを利用することができる。
【0008】図3は、企業情報データベース4に登録さ
れている企業情報テーブル300の一例である。本例で
は、企業情報テーブル300は、企業テーブル301,
企業検索テーブル302,検索属性情報テーブル30
3,表示属性情報テーブル304,属性情報テーブル3
05,抽出結果テーブル306からなる。
【0009】企業テーブル301は検索対象となる企業
の情報を格納している。企業テーブル301中の項目
は、企業毎に一意に付与された番号をあらわす企業ID
3011,企業の名称を格納する企業名3012,企業
のホームぺージの情報を記録するURL3013から構
成される。本システムでは、企業情報提供サーバ6に対
して企業情報を検索するために、企業検索テーブル30
2および検索属性情報テーブル303を用いる。企業検
索テーブル302中の項目は、前述の企業ID3021
(=3011),企業情報提供サーバ6上の検索プログ
ラム3022,検索プログラムの呼び出し方法をあらわ
すタイプ3023、検索結果から企業情報を抽出するた
めの正規表現3024(=307)から構成される。
【0010】ここで正規表現とは、文字列の照合におけ
るパターンの指定形式を示すもので、記号処理で一般的
に使用される用語であり、この正規表現を用いることに
より、文字列中からある任意の文字列を照合することが
容易にできる。例えば、正規表現(s|S)earch
により、ある文字列の中から、searchあるいはS
earchのパターンを検索することが可能になる。こ
のように、合致すべき文字列の表現形式を定義すること
で、柔軟に文字列中から任意の文字列を照合することが
できる。本システムはこれら正規表現を用いた文字列照
合をHIML文書に適用するものである。
【0011】検索属性情報テーブル303の項目は、前
述の企業ID3031(=3011),企業ID毎に検
索バラメータに対して一意に付与された番号をあらわす
検索属性ID3032,実際の企業情報提供サーバの検
索プログラムに引数を渡すためのパラメータ名を格納す
る検索パラメータ3033から構成される。検索結果か
ら企業情報を抽出するためには、属性情報テーブル30
5,企業検索テーブル302の正規表現3024および
表示属性情報テーブル304を用いる。表示属性情報テ
ーブル304は正規表現を用いて検索された企業情報と
企業属性の対応関係を示す。属性情報テーブル305中
の項目は、表示属性名に対して一意に付与された番号を
あらわす表示属性ID3051,抽出した企業情報の情
報属性をあらわす表示属性名3052から構成される。
【0012】表示属性情報テーブル304の項目は、企
業ID3041(=3011)、前述の表示属性ID3
042(=3051)、正規表現によって照合された企
業情報の位置をあらわす表示順序3043から構成され
る。最終的な検索結果は抽出結果テーブル306に格納
される。抽出結果テーブル306の項目は、前述の企業
ID3061(=3011)、企業属性(本例では、著
者3062,書名3063,出版社3064,詳細情報
URL3065)から構成される。
【0013】図2は、企業情報検索サーバの処理手順を
説明するためのフローチャート、図4および図5は、検
索条件1aとして「著者:斎藤」,「書名:HTML」
を入力した場合の具体的な検索例を示す図である。以
下、企業情報検索サーバ3の処理手順を、図2のフロー
チヤート,図3の企業情報テーブル例,および図4およ
び図5の検索例を用いて詳細に説明する。なお、図4お
よび図5には、図2のフローチャート中の対応するステ
ップも示してある。
【0014】まず、利用者が利用者端末1から企業情報
を検索するための検索条件1aとして「著者:斎藤」,
「書名:HTML」を入力すると、企業情報検索サーバ
3は、検索条件解析部31において、利用者の入力した
検索条件1a「著者:斎藤」,「書名:HTML」を解
析し(ステップS21)、検索対象となる企業を企業情
報データベース4の企業テーブル301から取得する
(ステップS22)。
【0015】本例ではK書店とM書店が企業テーブル3
01に登録されているため、この2つの企業から企業情
報を検索することになる。このように、検索対象となる
企業はひとつでも複数でもかまわない。「K書店」に対
応する企業ID:1,「M書店」に対応する企業ID:
2は企業情報テーブル300から検索のためのデータを
取得するためのキーとなる。
【0016】次に、検索対象企業の企業情報提供サーバ
6に対する検索要求を作成する(ステップS23)。検
索要求は企業IDをキーとして企業検索テーブル302
から検索プログラム3022とタイプ3023の項目を
取得、企業IDをキーとして検索属性情報テーブル30
3から検索プログラムに渡す検索パラメータ3033を
取得する。図4の例では、K書店(企業ID:1)の検
索プログラム(/cgi-bin/getbook.cgi)と、利用者の検
索条件を埋め込んだ検索パラメータ(AUTH0R,TITLE)か
ら検索要求(/cgi-bin/getbook.cgi? AUTHOR=斎藤&T
ITLE=HTML)が作成される。M書店(企業ID:2)に
ついても同様であるが、図では煩雑さを避けるために省
略する。このように、検索対象企業向けのすべての検索
要求は企業情報データべース4の企業検索テーブル30
2および検索属性情報テーブル303の情報を利用して
自動的に生成する。本例ではK書店とM書店の検索要求
が組み立てられることになる。
【0017】この組み立てられた検索要求は、企業情報
提供サーバ6に対して同時並行に実行される(ステップ
S24)。企業情報提供サーバ6では検索要求を受ける
と検索要求を解析し(要求解析部61)、データベース
サーバ7上の企業情報を検索する(DB検索部62)。
検索された企業情報(検索結果)は図4に示すようにH
TML文書中に埋め込み(HTML生成部63)、企業
情報検索サーバ3に返却される。このHTML文書は企
業情報が埋め込まれた部分のスタイル構造は一定の形式
で提供する。図4の例ではテーブルタグ中に企業情報が
構造化されて埋め込まれている。
【0018】企業情報検索サーバ3は、企業情報提供サ
ーバ6からHTML文書による検索結果を取得すると
(ステップS25,ステップS26:Y)、企業情報デ
ータベース4の企業検索テーブル302から企業情報を
抽出するための正規表現を取得する(ステップS2
7)。図4の例では、書店Kの企業ID:1をもとに正
規表現を企業検索テーブル302から取り出している。
この正規表現はそれぞれの企業が提供する企業情報の定
型スタイルを表現している。そして、取り出した正規表
現と企業情報提供サーバ6から返却されたHTML文書
による検索結果の照合を行ない、正規表現に適合する情
報を抽出する(企業情報抽出部33:ステップS2
8)。
【0019】図5の例では、正規表現のパターンにマッ
チしたHTML文書は3行あり、それぞれの行から4つ
の情報が抽出される。この時点では抽出した情報がどの
ような企業情報であるかは分からない。そこで抽出した
情報と企業情報属性との対応関係を定義した属性情報テ
ーブル305および表示属性情報テーブル304を利用
して抽出した情報に対する企業情報属性を特定する。
【0020】図5の例では、K書店(企業ID:1)の
情報の提示順序は表示属性情報テーブル304から、属
性情報ID3042の4,1,2,3の順番になってい
る。属性情報は表示属性ID3051と表示属性名30
52を管理する属性情報テーブル305から,詳細情報
URL(表示属性ID:4),著者(表示属性ID:
1),書名(表示属性ID:2),出版社(表示属性I
D:3)であることがわかる。ここで、抽出された情報
と属性情報の対応関係が明らかとなる(ステップS2
9)。企業情報検索サーバ3はこの時点で企業情報を企
業情報データベース4上の抽出結果テーブル306に格
納する(ステップS30)。同様に、検索対象となるす
べての企業に対し企業情報の取得を行い、検索結果を抽
出結果テーブルに格納することを繰り返す(ステップS
31:Nの場合)。すべての企業情報の取得が終了した
後(ステップS31:Y)、企業情報提供サーバ6は、
企業情報が統合された抽出結果テーブル306の内容を
利用者端末1に返却・表示させる(ステップ32)。
【0021】
【発明の効果】本発明によれば、WWWネットワーク上
に分散した企業情報を効率的に検索でき、収集した情報
を比較することが容易になる。正規表現を用いたパター
ンマッチングの機構を利用することによりHTML文書
から容易に情報を抽出できる。企業情報提供サーバにつ
いては既存サ一ビスを利用できるため、企業情報検索サ
ーバの企業情報データベースに対する情報追加でサービ
スが提供できる。
【図面の簡単な説明】
【図1】本発明の一実施例における装置構成図である。
【図2】本発明の一実施例における企業情報の検索フロ
ーチャートである。
【図3】本発明の一実施例における企業情報データべー
ス上のテーブル例を示す図である。
【図4】本発明の一実施例における企業情報の検索例を
示す図である(その1)。
【図5】本発明の一実施例における企業情報の検索例を
示す図である(その2)。
【符号の説明】
1:利用者端末、 1a:検索条件、 2,5:WWW(World Wide Web)、 3:企業情報検索サーバ、 31:検索条件解析部、 32:検索実行部、 33:企業情報抽出部、 300:企業情報テーブル、 301:企業テーブル、 302:企業検索テーブル、 303:検索属性情報テーブル、 304:表示属性情報テーブル、 305:属性情報テーブル、 306:抽出結果テーブル、 307:情報抽出のための正規表現例、 4:企業情報データベース、 6:企業情報提供サーバ、 7:データベースサーバ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山本 修一郎 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】WWW上で企業情報を蓄積・検索する情報
    蓄積・検索方法であって、 情報蓄積時に、検索・収集の対象となる企業情報を抽出
    するために、企業検索テーブルにおいて企業に関する情
    報および正規表現されたHTMLタグをサーバに蓄積し
    ておき、 情報検索時に、検索条件を解析して企業情報を取得し、
    取得した企業情報に対応するHTMLタグの正規表現に
    基づいて、企業から必要な企業情報を検索し、それぞれ
    の企業から記述形式の異なる企業情報を抽出することを
    特徴とする情報蓄積・検索方法。
  2. 【請求項2】WWW上で企業情報を蓄積・検索する情報
    蓄積・検索システムであって、 情報蓄積時に、検索・収集の対象となる企業情報を抽出
    するために、企業検索テーブルにおいて企業に関する情
    報および正規表現されたHTMLタグをサーバに蓄積す
    る手段と、 情報検索時に、検索条件を解析して企業情報を取得し、
    取得した企業情報に対応するHTMLタグの正規表現に
    基づいて、企業から必要な企業情報を検索し、それぞれ
    の企業から記述形式の異なる企業情報を抽出する手段を
    有することを特徴とする情報蓄積・検索システム。
JP10059634A 1998-03-11 1998-03-11 情報蓄積・検索方法および情報蓄積・検索システム Pending JPH11259500A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10059634A JPH11259500A (ja) 1998-03-11 1998-03-11 情報蓄積・検索方法および情報蓄積・検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10059634A JPH11259500A (ja) 1998-03-11 1998-03-11 情報蓄積・検索方法および情報蓄積・検索システム

Publications (1)

Publication Number Publication Date
JPH11259500A true JPH11259500A (ja) 1999-09-24

Family

ID=13118869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10059634A Pending JPH11259500A (ja) 1998-03-11 1998-03-11 情報蓄積・検索方法および情報蓄積・検索システム

Country Status (1)

Country Link
JP (1) JPH11259500A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331511A (ja) * 2000-04-07 2001-11-30 Xerox Corp 情報取得システム及び方法並びにメタ文書
JP2002063214A (ja) * 2000-08-16 2002-02-28 Nippon Telegr & Teleph Corp <Ntt> 地図情報提供方法および装置と地図情報提供プログラムを記録した記録媒体
KR100389116B1 (ko) * 2000-05-20 2003-06-25 장준석 객체의 목적지를 일관되게 참조할 수 있는 표현 방법 및그 시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331511A (ja) * 2000-04-07 2001-11-30 Xerox Corp 情報取得システム及び方法並びにメタ文書
KR100389116B1 (ko) * 2000-05-20 2003-06-25 장준석 객체의 목적지를 일관되게 참조할 수 있는 표현 방법 및그 시스템
JP2002063214A (ja) * 2000-08-16 2002-02-28 Nippon Telegr & Teleph Corp <Ntt> 地図情報提供方法および装置と地図情報提供プログラムを記録した記録媒体

Similar Documents

Publication Publication Date Title
KR100808399B1 (ko) 인터넷 브라우저
US7765236B2 (en) Extracting data content items using template matching
US7340450B2 (en) Data search system and data search method using a global unique identifier
US7415469B2 (en) Method and apparatus for searching network resources
CA2365705C (en) A system for collecting specific information from several sources of unstructured digitized data
US7085736B2 (en) Rules-based identification of items represented on web pages
US6314423B1 (en) Searching and serving bookmark sets based on client specific information
JP4445509B2 (ja) 構造化文書検索システム及びプログラム
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
US7797350B2 (en) System and method for processing downloaded data
US8103652B2 (en) Indexing explicitly-specified quick-link data for web pages
EP0981097A1 (en) Search system and method for providing a fulltext search over web pages of world wide web servers
JPH11232218A (ja) オンラインドキュメンテーションおよびヘルプシステム
US9069771B2 (en) Music recognition method and system based on socialized music server
EP0926606A2 (en) Document data linking apparatus
EP1869583A1 (en) Content adaptation
JPH10143532A (ja) 情報フィルタリング装置および情報フィルタリング方法
JP2000348041A (ja) 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
US11379670B1 (en) Automatically populating responses using artificial intelligence
US20170109442A1 (en) Customizing a website string content specific to an industry
JP2011034399A (ja) Webページの関連性抽出方法、装置、及びプログラム
US7752217B2 (en) Search device
JP2003271584A (ja) 文書管理装置、クライアント装置、文書管理システム、プログラム及び記憶媒体
US20040243575A1 (en) Information searching system
JP4649036B2 (ja) 検索サーバーによるカテゴリの報告方法、レコードの報告方法、検索サービス装置