JP2009258923A - Information space search apparatus and program - Google Patents

Information space search apparatus and program Download PDF

Info

Publication number
JP2009258923A
JP2009258923A JP2008106160A JP2008106160A JP2009258923A JP 2009258923 A JP2009258923 A JP 2009258923A JP 2008106160 A JP2008106160 A JP 2008106160A JP 2008106160 A JP2008106160 A JP 2008106160A JP 2009258923 A JP2009258923 A JP 2009258923A
Authority
JP
Japan
Prior art keywords
page
rule
collection
information space
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008106160A
Other languages
Japanese (ja)
Inventor
Minako Izawa
味奈子 井沢
Shuichi Nakawatase
秀一 中渡瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008106160A priority Critical patent/JP2009258923A/en
Publication of JP2009258923A publication Critical patent/JP2009258923A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To specify a collection condition and collect webpages matching the condition from an information space in a short time. <P>SOLUTION: An information space search apparatus has a collection page discrimination rule creation means for creating a collection page discrimination rule determinative of whether or not to collect reached pages, and a termination condition setting means for setting a termination condition of collection. The process of collecting and storing in a webpage storage means webpages according to a source URL list, the termination condition and the collection page discrimination rule is repeated until satisfying the termination condition. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、情報空間探索装置及びプログラムに係り、特に、ネットワーク構造の情報空間において、目的に応じて効率良くWebページを収集するための情報空間探索装置及びプログラムに関する。   The present invention relates to an information space search apparatus and program, and more particularly to an information space search apparatus and program for efficiently collecting Web pages according to the purpose in an information space having a network structure.

ネットワーク構造型情報空間の探索方法に関しては、指定された地点を全て収集する方法の他に、予め指定された起点からリンクされている情報資源群を順次アクセスしていくという過程を繰り返すことにより、網羅的にネットワーク構造型の情報空間の探索を行う方法がある(例えば、特許文献1参照)。
特許第3282089号公報
Regarding the network structure type information space search method, in addition to the method of collecting all designated points, by repeating the process of sequentially accessing the information resource group linked from the designated starting point, There is a method for exhaustively searching a network structure type information space (see, for example, Patent Document 1).
Japanese Patent No. 322889

しかしながら、WWWに代表される情報空間は莫大な資源を内包している。上記の特許文献1の方式を用い、WWW内の情報収集を行うと、リンクされた全ページを収集するので、必要とする情報が掲載されているページ以外のものも多数収集してしまう。   However, information spaces represented by the WWW contain enormous resources. When the information in the WWW is collected using the method of the above-mentioned Patent Document 1, all linked pages are collected, so that many items other than the page on which necessary information is posted are also collected.

結果的に、収集に多大な時間がかかるようになり、必要とする情報が掲載されているページの情報更新が遅くなるという問題がある。   As a result, it takes a lot of time to collect, and there is a problem that information update of a page on which necessary information is posted is delayed.

本発明は、上記の点に鑑みなされたもので、短時間で情報空間のWebページを収集することが可能な情報空間探索装置及びプログラムを提供することを目的とする。   The present invention has been made in view of the above points, and an object of the present invention is to provide an information space search apparatus and program capable of collecting Web pages in an information space in a short time.

図1は、本発明の原理構成図である。   FIG. 1 is a principle configuration diagram of the present invention.

本発明(請求項1)は、ネットワーク構造の情報空間からWebページを収集する情報空間探索装置であって、
収集開始地点を表す起点(起点URLリスト)を格納する起点リスト記憶手段101と、
到達したページを収集するか否かを判断する基準である収集ページ判別ルールを格納するルール記憶手段102と、
収集されたWebページを格納するWebページ記憶手段103と、
収集ページ判別ルールを作成し、ルール記憶手段102に格納する収集ページ判別ルール作成手段104と、
収集する際の終了条件を設定する終了条件設定手段105と、
起点リスト記憶手段101の起点URLリスト、終了条件、ルール記憶手段102の収集ページ判別ルールに基づいてWebページを収集し、Webページ記憶手段103に格納する処理を該終了条件に達するまで繰り返すWebページ収集手段106と、を有する。
The present invention (Claim 1) is an information space search apparatus for collecting Web pages from an information space having a network structure,
Starting point list storage means 101 for storing a starting point (starting point URL list) representing a collection start point;
A rule storage means 102 for storing a collection page discrimination rule that is a criterion for determining whether or not to collect the reached page;
Web page storage means 103 for storing the collected Web pages;
A collection page discrimination rule creating unit 104 that creates a collection page discrimination rule and stores it in the rule storage unit 102;
An end condition setting means 105 for setting an end condition at the time of collection;
A web page that collects web pages based on the origin URL list in the origin list storage unit 101, the end condition, and the collection page discrimination rule in the rule storage unit 102 and repeats the process of storing in the web page storage unit 103 until the end condition is reached. Collecting means 106.

また、本発明(請求項2)は、Webページ収集手段106において、
起点リスト記憶手段101から起点URLリストを取得し、該起点URLリストのURLのWebページを取得し、該Webページがルール記憶手段104の収集ページ判別ルールに該当する場合には、当該Webページ及び該Webページのリンク先のURLを取得する手段と、
リンク先のURLの先頭のウェブページを取得し、収集ページ判別ルールに該当する場合には、当該Webページを収集する手段と、を含む。
Further, the present invention (Claim 2) is the Web page collecting means 106,
When the origin URL list is acquired from the origin list storage unit 101, the Web page of the URL of the origin URL list is acquired, and the Web page corresponds to the collection page determination rule of the rule storage unit 104, the Web page and Means for acquiring the URL of the link destination of the Web page;
Means for acquiring the first web page of the link destination URL and collecting the web page if the web page corresponds to the collection page discrimination rule.

また、本発明(請求項3)は、収集ページ判別ルール作成手段104において、収集ページ判別ルールとして、
・URLに対しては、類似表記URL、同一ドメイン、
・Web文書中に使用されている単語に対しては、特定のキーワードの有無、使用単語の偏り、
・タグに対しては、alt記載内容、imgタグの数
のいずれかまたは全てを設定する。
Further, according to the present invention (claim 3), the collected page discrimination rule creating means 104 uses the collected page discrimination rule as
-For URL, similar notation URL, same domain,
・ For words used in Web documents, the presence or absence of specific keywords, bias of used words,
・ Set any or all of the contents of alt and the number of img tags for tags.

また、本発明(請求項4)は、終了条件設定手段105において、前記終了条件として、
・起点に基づくもの;
・時間に基づくもの;
・データ量に基づくもの;
のいずれかを設定する
本発明(請求項5)は、請求項1乃至4のいずれか1項に記載の情報空間探索装置を構成する各手段としてコンピュータを機能させるための情報空間探索プログラムである。
Further, according to the present invention (Claim 4), in the end condition setting means 105, as the end condition,
・ Based on the starting point;
・ Based on time;
・ Based on data volume;
The present invention (Claim 5) is an information space search program for causing a computer to function as each means constituting the information space search apparatus according to any one of Claims 1 to 4. .

上記のように、本発明は、作成されたルールに基づいて特定のページのみを収集することにより、従来方式より短時間で収集を完了できるため、巡回サイクルを短くすることができ、特定のWebページに関しては最新の情報を保持し易くなる。   As described above, the present invention collects only a specific page based on a created rule, so that the collection can be completed in a shorter time than the conventional method. It becomes easy to hold the latest information about the page.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図2は、本発明の一実施の形態における情報空間探索装置の構成を示す。   FIG. 2 shows a configuration of an information space search apparatus according to an embodiment of the present invention.

同図に示す情報空間探索装置は、収集開始地点を表す起点(起点URLリスト)を格納する起点リスト記憶部101、到達したページを収集するか否かを判断する基準であるルールを格納するルール記憶部102、収集されたWebページを格納するWebページ記憶部103、収集ページ判別ルールを作成する収集ページ判別ルール作成部104、収集する際の終了条件を設定する終了条件設定部105、起点リスト、終了条件、判別ルールに基づいてWebページを収集するWebページ収集部106、収集したページに対して検索の手がかりとなるインデックスを付与するインデックス付与部107から構成される。   The information space search apparatus shown in the figure includes a starting point list storage unit 101 that stores a starting point (starting point URL list) that represents a collection start point, and a rule that stores a rule that is a criterion for determining whether or not to collect a reached page. Storage unit 102, Web page storage unit 103 that stores collected Web pages, collection page discrimination rule creation unit 104 that creates a collection page discrimination rule, end condition setting unit 105 that sets an end condition for collection, and origin list The web page collection unit 106 collects Web pages based on the end condition and the discrimination rule, and the index assignment unit 107 assigns an index serving as a clue to the collected pages.

以下に、上記の構成における動作を説明する。   The operation in the above configuration will be described below.

図3は、本発明の一実施の形態における概要動作のフローチャートである。   FIG. 3 is a flowchart of an outline operation in one embodiment of the present invention.

ステップ100) 最初に、収集の起点となる起点URLリストを起点リスト記憶部101に設定する。当該動作は外部から指定する。起点は単独でもよいし、図4に示すようにリスト状の複数になっても構わない。起点の作成方法の具体例としては、「検索エンジンにクエリを入力し、出力された検索結果のURLリスト」や「書籍に掲載されたURL」があげられる。   Step 100) First, a starting URL list that is a starting point of collection is set in the starting list storage unit 101. The operation is specified from the outside. The starting point may be a single point or a plurality of lists as shown in FIG. Specific examples of the method of creating the starting point include “URL list of search results output by inputting a query to a search engine” and “URLs published in books”.

ステップ200) 終了条件設定部105において、情報を収集する際の終了条件を設定する。終了条件は、
・起点に基づくもの;
・時間に基づくもの;
・データ量に基づくもの;
等があげられる。具体的には、起点に基づく場合は、「起点URLリスト及び各ページからnホップしたリンクページを収集する」、時間に基づくものは「開始から30分収集する」、データ量に基づくものは「収集データが1GBになるまで収集する」といった設定条件が挙げられる。
Step 200) The end condition setting unit 105 sets an end condition for collecting information. The end condition is
・ Based on the starting point;
・ Based on time;
・ Based on data volume;
Etc. Specifically, when based on the starting point, “collect the starting URL list and n-hop linked pages from each page”, those based on time “collect 30 minutes from the start”, and those based on the data amount “ Setting conditions such as “collect until collected data reaches 1 GB” can be mentioned.

ステップ300) 収集ページ判別ルール作成部104において、到達したページが収集対象に該当するかどうかを判別するためのルールを作成する。ルール適用対象としては、
・URL;
・Web文書中に使用されている単語;
・タグ;
等があげられる。
Step 300) The collection page discrimination rule creation unit 104 creates a rule for discriminating whether or not the reached page corresponds to the collection target. As a rule application target,
・ URL;
-Words used in web documents;
·tag;
Etc.

ルールの具体例としては、「URL」に対しては、類似表記URLや同一ドメイン、「Web文書中に使用されている単語」に対しては、特定のキーワードの有無や使用単語の偏り、「タグ」に対しては、Aタグのalt記載内容やimgタグの数、といったものが考えられる。   Specific examples of rules include a similar notation URL and the same domain for “URL”, the presence / absence of a specific keyword and the bias of used words for “words used in a Web document”, “ For “tag”, the alt description content of the A tag and the number of img tags can be considered.

ステップ400) Webページ収集部106は、上記の起点(起点リスト)、終了条件、収集ページ判別ルールに基づき、Webページを収集する。収集したページはインデックス作成部107に渡す。   Step 400) The web page collection unit 106 collects web pages based on the above starting point (starting point list), end condition, and collected page discrimination rule. The collected pages are transferred to the index creation unit 107.

ステップ500) インデックス付与部107において、Webページ収集部106から伝達されたデータに対して、検索するための手かがりとなるインデックスを付与し、Webページ記憶部103に格納する。   Step 500) The index assigning unit 107 assigns an index serving as a clue to search the data transmitted from the Web page collecting unit 106 and stores the index in the Web page storage unit 103.

次に、上記のステップ400のWebページ収集部106の具体的な動作を説明する。   Next, a specific operation of the web page collection unit 106 in step 400 will be described.

図5は、本発明の一実施の形態におけるWebページ収集部の詳細な動作のシーケンスチャートである。また、図6は、本発明の一実施の形態における起点リスト・終了条件・収集判別ルールの例を示す。   FIG. 5 is a sequence chart of detailed operations of the Web page collection unit according to the embodiment of the present invention. FIG. 6 shows an example of a start point list, end condition, and collection determination rule in one embodiment of the present invention.

まず、Webページ収集部106は、起点リスト記憶部101に格納されている起点URLリスト(図6(a))を読込み(ステップ401)、先頭(123.com/)のページを取得し(ステップ402)、ルール記憶部102を参照し、当該ページが収集ページ判別ルール(「○○○」という単語が記載されているページ)に該当するかをチェックする(ステップ403)。該当した場合は(ステップ403、Yes)、そのページを収集し(ステップ404)、ページ内のリンク先のURLを全て取得する(ステップ405)。なお、該当しない場合には、目的によって当該ページを収集しても、または、しなくてもよい。   First, the web page collection unit 106 reads the origin URL list (FIG. 6A) stored in the origin list storage unit 101 (step 401), and acquires the first page (123.com/) (steps). 402), by referring to the rule storage unit 102, it is checked whether or not the page corresponds to a collected page discrimination rule (a page on which the word “XXX” is described) (step 403). If applicable (step 403, Yes), the page is collected (step 404), and all link destination URLs in the page are acquired (step 405). If not applicable, the page may or may not be collected depending on the purpose.

取得したリンク先ページ対して(ステップ406)、同様に収集ページ判別ルール記憶部102を参照し、収集ページ判別ルールに該当するか否かをチェックする(ステップ407)。該当した場合は(ステップ407、Yes)、ページを収集し、ステップ411に移行する(ステップ408)。   For the acquired link destination page (step 406), the collected page discrimination rule storage unit 102 is similarly referenced to check whether or not the collected page discrimination rule is met (step 407). When it corresponds (step 407, Yes), a page is collected and it transfers to step 411 (step 408).

一方、上記のステップ403において、収集判別ルールに該当しない場合は、図6(c)の収集ページ判別ルール(「○○○」という単語が記載されていないページのリンク先は収集対象としない)に従い、起点(起点リスト)の次のURLがあるかを判断し(ステップ409)、ある場合は(ステップ409、Yes)、起点URLリストの次のURLリストへ移動し、ステップ403に移行する(ステップ410)。次のURLがない場合は(ステップ409、No)、収集処理を終了する。   On the other hand, in the above-described step 403, if the collection determination rule is not met, the collection page determination rule in FIG. 6C (link destinations of pages not including the word “xxx” are not collected) Accordingly, it is determined whether or not there is a next URL of the starting point (starting point list) (step 409). If there is (step 409, Yes), the process moves to the next URL list of the starting point URL list and proceeds to step 403 ( Step 410). If there is no next URL (step 409, No), the collection process is terminated.

また、上位のステップ407において収集判別ルールに該当しない場合、または、ステップ408でページ収集後に、他にリンクページがあるかを判定し(ステップ411)、ある場合はリンク先の次のURLへ移動する(ステップ413)。ない場合はステップ409に移行し、URLリストの次のURLがあるかを判定する。   In addition, if it does not correspond to the collection determination rule in the upper step 407, or after collecting the page in step 408, it is determined whether there is another linked page (step 411), and if there is, move to the next URL of the link destination (Step 413). If not, the process proceeds to step 409 to determine whether there is a next URL in the URL list.

同様の処理を全てのリンク先ページに行い、全てのリンク先ページに対してチェックが終了した場合は、起点(起点リスト)に戻り、次のURLに対して収集判別ルールの適用を行う。   The same processing is performed for all the linked pages, and when the check is completed for all the linked pages, the process returns to the starting point (starting list) and the collection determination rule is applied to the next URL.

上記の情報空間探索装置の構成要素の動作をプログラムとして構築し、情報空間探索装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。   The operations of the components of the information space search device described above can be constructed as a program, installed in a computer used as the information space search device, executed, or distributed via a network.

また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。   Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.

本発明は、Webページを収集する技術に適用可能である。   The present invention is applicable to a technique for collecting Web pages.

本発明の原理構成図である。It is a principle block diagram of this invention. 本発明の一実施の形態における情報空間探索装置の構成図である。It is a block diagram of the information space search apparatus in one embodiment of this invention. 本発明の一実施の形態における概要動作のフローチャートである。It is a flowchart of the outline | summary operation | movement in one embodiment of this invention. 本発明の一実施の形態における起点リストの例である。It is an example of the starting point list in one embodiment of the present invention. 本発明の一実施の形態におけるWebページ収集部の詳細な動作のフローチャートである。It is a flowchart of detailed operation | movement of the web page collection part in one embodiment of this invention. 本発明の一実施の形態における起点リスト・終了条件・収集判別ルールの例である。It is an example of a starting point list, an end condition, and a collection determination rule in an embodiment of the present invention.

符号の説明Explanation of symbols

101 起点リスト記憶手段、起点リスト記憶部
102 ルール記憶手段、ルール記憶部
103 Webページ記憶手段、Webページ記憶部
104 収集ページ判別ルール作成手段、収集ページ判別ルール作成部
105 終了条件設定手段、終了条件設定部
106 Webページ収集手段、Webページ収集部
107 インデックス付与部
101 starting point list storage unit, starting point list storage unit 102 rule storage unit, rule storage unit 103 Web page storage unit, Web page storage unit 104 collection page discrimination rule creation unit, collection page discrimination rule creation unit 105 end condition setting unit, end condition Setting unit 106 Web page collection means, Web page collection unit 107 Indexing unit

Claims (5)

ネットワーク構造の情報空間からWebページを収集する情報空間探索装置であって、
収集開始地点を表す起点(起点URLリスト)を格納する起点リスト記憶手段と、
到達したページを収集するか否かを判断する基準である収集ページ判別ルールを格納するルール記憶手段と、
収集されたWebページを格納するWebページ記憶手段と、
前記収集ページ判別ルールを作成し、前記ルール記憶手段に格納する収集ページ判別ルール作成手段と、
収集する際の終了条件を設定する終了条件設定手段と、
前記起点リスト記憶手段の前記起点URLリスト、前記終了条件、前記ルール記憶手段の前記収集ページ判別ルールに基づいてWebページを収集し、前記Webページ記憶手段に格納する処理を該終了条件に達するまで繰り返すWebページ収集手段と、
を有することを特徴とする情報空間探索装置。
An information space search device that collects web pages from an information space having a network structure,
Starting point list storage means for storing a starting point (starting point URL list) representing a collection start point;
Rule storage means for storing a collection page discrimination rule that is a criterion for determining whether or not to collect the reached page;
Web page storage means for storing the collected Web pages;
A collection page discrimination rule creating means for creating the collected page discrimination rule and storing it in the rule storage means;
An end condition setting means for setting an end condition when collecting,
A process of collecting Web pages based on the starting URL list of the starting list storage unit, the end condition, and the collected page determination rule of the rule storage unit and storing the Web page in the Web page storage unit until the end condition is reached. Repeating web page collection means;
An information space search device characterized by comprising:
前記Webページ収集手段は、
前記起点リスト記憶手段から前記起点URLリストを取得し、該起点URLリストのURLのWebページを取得し、該Webページが前記ルール記憶手段の前記収集ページ判別ルールに該当する場合には、当該Webページ及び該Webページのリンク先のURLを取得する手段と、
前記リンク先のURLの先頭のウェブページを取得し、前記収集ページ判別ルールに該当する場合には、当該Webページを収集する手段と、
を含む請求項1記載の情報空間探索装置。
The web page collection means includes:
When the origin URL list is acquired from the origin list storage unit, the Web page of the URL of the origin URL list is acquired, and the Web page corresponds to the collected page determination rule of the rule storage unit, the Web Means for obtaining the URL of the page and the link destination of the web page;
Means for acquiring the first web page of the link destination URL and collecting the web page when the collected page discrimination rule is satisfied;
The information space search device according to claim 1, comprising:
前記前記判別ルール作成手段は、収集ページ判別ルールとして、
・URLに対しては、類似表記URL、同一ドメイン、
・Web文書中に使用されている単語に対しては、特定のキーワードの有無、使用単語の偏り、
・タグに対しては、alt記載内容、imgタグの数
のいずれか、または、全てを設定する請求項1または2記載の情報空間探索装置。
The discrimination rule creating means is a collection page discrimination rule,
-For URL, similar notation URL, same domain,
・ For words used in Web documents, the presence or absence of specific keywords, bias of used words,
The information space search device according to claim 1 or 2, wherein any one or all of the contents described in alt and the number of img tags are set for the tag.
前記終了条件設定手段は、前記終了条件として、
・起点に基づくもの;
・時間に基づくもの;
・データ量に基づくもの;
のいずれかを設定する請求項1記載の情報空間探索装置。
The end condition setting means includes the end condition as
・ Based on the starting point;
・ Based on time;
・ Based on data volume;
The information space search device according to claim 1, wherein any one of the above is set.
請求項1乃至4のいずれか1項に記載の情報空間探索装置を構成する各手段としてコンピュータを機能させるための情報空間探索プログラム。   The information space search program for functioning a computer as each means which comprises the information space search apparatus of any one of Claims 1 thru | or 4.
JP2008106160A 2008-04-15 2008-04-15 Information space search apparatus and program Pending JP2009258923A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008106160A JP2009258923A (en) 2008-04-15 2008-04-15 Information space search apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008106160A JP2009258923A (en) 2008-04-15 2008-04-15 Information space search apparatus and program

Publications (1)

Publication Number Publication Date
JP2009258923A true JP2009258923A (en) 2009-11-05

Family

ID=41386271

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008106160A Pending JP2009258923A (en) 2008-04-15 2008-04-15 Information space search apparatus and program

Country Status (1)

Country Link
JP (1) JP2009258923A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014074992A (en) * 2012-10-03 2014-04-24 Fujitsu Ltd Information extraction device and method and program
WO2021117876A1 (en) * 2019-12-13 2021-06-17 翼 加藤 Search device, search application, and search method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014074992A (en) * 2012-10-03 2014-04-24 Fujitsu Ltd Information extraction device and method and program
WO2021117876A1 (en) * 2019-12-13 2021-06-17 翼 加藤 Search device, search application, and search method
JP2021096802A (en) * 2019-12-13 2021-06-24 翼 加藤 Search device, search application, and search method
JP7002804B2 (en) 2019-12-13 2022-01-20 翼 加藤 Search device, search application and search method
US11556602B2 (en) 2019-12-13 2023-01-17 Tsubasa KATO Search device, search application, and search method

Similar Documents

Publication Publication Date Title
JP5727512B2 (en) Cluster and present search suggestions
US8799262B2 (en) Configurable web crawler
JP4936401B2 (en) Method and system for filtering subject-related web pages based on navigation path information
US8903800B2 (en) System and method for indexing food providers and use of the index in search engines
JP5437557B2 (en) Search processing method and search system
CN1839386A (en) Internet searching using semantic disambiguation and expansion
JP2006011739A (en) Device, computer system and data processing method using ontology
JP5185402B2 (en) Document search apparatus, document search method, and document search program
WO2011116082A2 (en) Indexing and searching employing virtual documents
US10810181B2 (en) Refining structured data indexes
JP2010097461A (en) Document search apparatus, document search method, and document search program
US7836108B1 (en) Clustering by previous representative
JP2010262638A (en) Device and method for ranking retrieval result using reliability of representative
JP5098605B2 (en) Annotation program, annotation device
JP4750628B2 (en) Information ranking method and apparatus, program, and computer-readable recording medium
JP2008191982A (en) Retrieval result output device
JP2009258923A (en) Information space search apparatus and program
JP2007072596A (en) Information sharing system and information sharing method
US20080033953A1 (en) Method to search transactional web pages
JP6749865B2 (en) INFORMATION COLLECTION DEVICE AND INFORMATION COLLECTION METHOD
JP6727097B2 (en) Information processing apparatus, information processing method, and program
JP5162215B2 (en) Data processing apparatus, data processing method, and program
JP2010272006A (en) Relation extraction apparatus, relation extraction method and program
US9420052B2 (en) Web navigation using web navigation pattern histories
WO2017175247A1 (en) Method and system for generating content from search results rendered by a search engine