JP2009258923A - Information space search apparatus and program - Google Patents
Information space search apparatus and program Download PDFInfo
- Publication number
- JP2009258923A JP2009258923A JP2008106160A JP2008106160A JP2009258923A JP 2009258923 A JP2009258923 A JP 2009258923A JP 2008106160 A JP2008106160 A JP 2008106160A JP 2008106160 A JP2008106160 A JP 2008106160A JP 2009258923 A JP2009258923 A JP 2009258923A
- Authority
- JP
- Japan
- Prior art keywords
- page
- rule
- collection
- information space
- url
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、情報空間探索装置及びプログラムに係り、特に、ネットワーク構造の情報空間において、目的に応じて効率良くWebページを収集するための情報空間探索装置及びプログラムに関する。 The present invention relates to an information space search apparatus and program, and more particularly to an information space search apparatus and program for efficiently collecting Web pages according to the purpose in an information space having a network structure.
ネットワーク構造型情報空間の探索方法に関しては、指定された地点を全て収集する方法の他に、予め指定された起点からリンクされている情報資源群を順次アクセスしていくという過程を繰り返すことにより、網羅的にネットワーク構造型の情報空間の探索を行う方法がある(例えば、特許文献1参照)。
しかしながら、WWWに代表される情報空間は莫大な資源を内包している。上記の特許文献1の方式を用い、WWW内の情報収集を行うと、リンクされた全ページを収集するので、必要とする情報が掲載されているページ以外のものも多数収集してしまう。 However, information spaces represented by the WWW contain enormous resources. When the information in the WWW is collected using the method of the above-mentioned Patent Document 1, all linked pages are collected, so that many items other than the page on which necessary information is posted are also collected.
結果的に、収集に多大な時間がかかるようになり、必要とする情報が掲載されているページの情報更新が遅くなるという問題がある。 As a result, it takes a lot of time to collect, and there is a problem that information update of a page on which necessary information is posted is delayed.
本発明は、上記の点に鑑みなされたもので、短時間で情報空間のWebページを収集することが可能な情報空間探索装置及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, and an object of the present invention is to provide an information space search apparatus and program capable of collecting Web pages in an information space in a short time.
図1は、本発明の原理構成図である。 FIG. 1 is a principle configuration diagram of the present invention.
本発明(請求項1)は、ネットワーク構造の情報空間からWebページを収集する情報空間探索装置であって、
収集開始地点を表す起点(起点URLリスト)を格納する起点リスト記憶手段101と、
到達したページを収集するか否かを判断する基準である収集ページ判別ルールを格納するルール記憶手段102と、
収集されたWebページを格納するWebページ記憶手段103と、
収集ページ判別ルールを作成し、ルール記憶手段102に格納する収集ページ判別ルール作成手段104と、
収集する際の終了条件を設定する終了条件設定手段105と、
起点リスト記憶手段101の起点URLリスト、終了条件、ルール記憶手段102の収集ページ判別ルールに基づいてWebページを収集し、Webページ記憶手段103に格納する処理を該終了条件に達するまで繰り返すWebページ収集手段106と、を有する。
The present invention (Claim 1) is an information space search apparatus for collecting Web pages from an information space having a network structure,
Starting point list storage means 101 for storing a starting point (starting point URL list) representing a collection start point;
A rule storage means 102 for storing a collection page discrimination rule that is a criterion for determining whether or not to collect the reached page;
Web page storage means 103 for storing the collected Web pages;
A collection page discrimination
An end condition setting means 105 for setting an end condition at the time of collection;
A web page that collects web pages based on the origin URL list in the origin
また、本発明(請求項2)は、Webページ収集手段106において、
起点リスト記憶手段101から起点URLリストを取得し、該起点URLリストのURLのWebページを取得し、該Webページがルール記憶手段104の収集ページ判別ルールに該当する場合には、当該Webページ及び該Webページのリンク先のURLを取得する手段と、
リンク先のURLの先頭のウェブページを取得し、収集ページ判別ルールに該当する場合には、当該Webページを収集する手段と、を含む。
Further, the present invention (Claim 2) is the Web page collecting means 106,
When the origin URL list is acquired from the origin
Means for acquiring the first web page of the link destination URL and collecting the web page if the web page corresponds to the collection page discrimination rule.
また、本発明(請求項3)は、収集ページ判別ルール作成手段104において、収集ページ判別ルールとして、
・URLに対しては、類似表記URL、同一ドメイン、
・Web文書中に使用されている単語に対しては、特定のキーワードの有無、使用単語の偏り、
・タグに対しては、alt記載内容、imgタグの数
のいずれかまたは全てを設定する。
Further, according to the present invention (claim 3), the collected page discrimination
-For URL, similar notation URL, same domain,
・ For words used in Web documents, the presence or absence of specific keywords, bias of used words,
・ Set any or all of the contents of alt and the number of img tags for tags.
また、本発明(請求項4)は、終了条件設定手段105において、前記終了条件として、
・起点に基づくもの;
・時間に基づくもの;
・データ量に基づくもの;
のいずれかを設定する
本発明(請求項5)は、請求項1乃至4のいずれか1項に記載の情報空間探索装置を構成する各手段としてコンピュータを機能させるための情報空間探索プログラムである。
Further, according to the present invention (Claim 4), in the end condition setting means 105, as the end condition,
・ Based on the starting point;
・ Based on time;
・ Based on data volume;
The present invention (Claim 5) is an information space search program for causing a computer to function as each means constituting the information space search apparatus according to any one of Claims 1 to 4. .
上記のように、本発明は、作成されたルールに基づいて特定のページのみを収集することにより、従来方式より短時間で収集を完了できるため、巡回サイクルを短くすることができ、特定のWebページに関しては最新の情報を保持し易くなる。 As described above, the present invention collects only a specific page based on a created rule, so that the collection can be completed in a shorter time than the conventional method. It becomes easy to hold the latest information about the page.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図2は、本発明の一実施の形態における情報空間探索装置の構成を示す。 FIG. 2 shows a configuration of an information space search apparatus according to an embodiment of the present invention.
同図に示す情報空間探索装置は、収集開始地点を表す起点(起点URLリスト)を格納する起点リスト記憶部101、到達したページを収集するか否かを判断する基準であるルールを格納するルール記憶部102、収集されたWebページを格納するWebページ記憶部103、収集ページ判別ルールを作成する収集ページ判別ルール作成部104、収集する際の終了条件を設定する終了条件設定部105、起点リスト、終了条件、判別ルールに基づいてWebページを収集するWebページ収集部106、収集したページに対して検索の手がかりとなるインデックスを付与するインデックス付与部107から構成される。
The information space search apparatus shown in the figure includes a starting point
以下に、上記の構成における動作を説明する。 The operation in the above configuration will be described below.
図3は、本発明の一実施の形態における概要動作のフローチャートである。 FIG. 3 is a flowchart of an outline operation in one embodiment of the present invention.
ステップ100) 最初に、収集の起点となる起点URLリストを起点リスト記憶部101に設定する。当該動作は外部から指定する。起点は単独でもよいし、図4に示すようにリスト状の複数になっても構わない。起点の作成方法の具体例としては、「検索エンジンにクエリを入力し、出力された検索結果のURLリスト」や「書籍に掲載されたURL」があげられる。
Step 100) First, a starting URL list that is a starting point of collection is set in the starting
ステップ200) 終了条件設定部105において、情報を収集する際の終了条件を設定する。終了条件は、
・起点に基づくもの;
・時間に基づくもの;
・データ量に基づくもの;
等があげられる。具体的には、起点に基づく場合は、「起点URLリスト及び各ページからnホップしたリンクページを収集する」、時間に基づくものは「開始から30分収集する」、データ量に基づくものは「収集データが1GBになるまで収集する」といった設定条件が挙げられる。
Step 200) The end
・ Based on the starting point;
・ Based on time;
・ Based on data volume;
Etc. Specifically, when based on the starting point, “collect the starting URL list and n-hop linked pages from each page”, those based on time “collect 30 minutes from the start”, and those based on the data amount “ Setting conditions such as “collect until collected data reaches 1 GB” can be mentioned.
ステップ300) 収集ページ判別ルール作成部104において、到達したページが収集対象に該当するかどうかを判別するためのルールを作成する。ルール適用対象としては、
・URL;
・Web文書中に使用されている単語;
・タグ;
等があげられる。
Step 300) The collection page discrimination
・ URL;
-Words used in web documents;
·tag;
Etc.
ルールの具体例としては、「URL」に対しては、類似表記URLや同一ドメイン、「Web文書中に使用されている単語」に対しては、特定のキーワードの有無や使用単語の偏り、「タグ」に対しては、Aタグのalt記載内容やimgタグの数、といったものが考えられる。 Specific examples of rules include a similar notation URL and the same domain for “URL”, the presence / absence of a specific keyword and the bias of used words for “words used in a Web document”, “ For “tag”, the alt description content of the A tag and the number of img tags can be considered.
ステップ400) Webページ収集部106は、上記の起点(起点リスト)、終了条件、収集ページ判別ルールに基づき、Webページを収集する。収集したページはインデックス作成部107に渡す。
Step 400) The web
ステップ500) インデックス付与部107において、Webページ収集部106から伝達されたデータに対して、検索するための手かがりとなるインデックスを付与し、Webページ記憶部103に格納する。
Step 500) The
次に、上記のステップ400のWebページ収集部106の具体的な動作を説明する。
Next, a specific operation of the web
図5は、本発明の一実施の形態におけるWebページ収集部の詳細な動作のシーケンスチャートである。また、図6は、本発明の一実施の形態における起点リスト・終了条件・収集判別ルールの例を示す。 FIG. 5 is a sequence chart of detailed operations of the Web page collection unit according to the embodiment of the present invention. FIG. 6 shows an example of a start point list, end condition, and collection determination rule in one embodiment of the present invention.
まず、Webページ収集部106は、起点リスト記憶部101に格納されている起点URLリスト(図6(a))を読込み(ステップ401)、先頭(123.com/)のページを取得し(ステップ402)、ルール記憶部102を参照し、当該ページが収集ページ判別ルール(「○○○」という単語が記載されているページ)に該当するかをチェックする(ステップ403)。該当した場合は(ステップ403、Yes)、そのページを収集し(ステップ404)、ページ内のリンク先のURLを全て取得する(ステップ405)。なお、該当しない場合には、目的によって当該ページを収集しても、または、しなくてもよい。
First, the web
取得したリンク先ページ対して(ステップ406)、同様に収集ページ判別ルール記憶部102を参照し、収集ページ判別ルールに該当するか否かをチェックする(ステップ407)。該当した場合は(ステップ407、Yes)、ページを収集し、ステップ411に移行する(ステップ408)。
For the acquired link destination page (step 406), the collected page discrimination
一方、上記のステップ403において、収集判別ルールに該当しない場合は、図6(c)の収集ページ判別ルール(「○○○」という単語が記載されていないページのリンク先は収集対象としない)に従い、起点(起点リスト)の次のURLがあるかを判断し(ステップ409)、ある場合は(ステップ409、Yes)、起点URLリストの次のURLリストへ移動し、ステップ403に移行する(ステップ410)。次のURLがない場合は(ステップ409、No)、収集処理を終了する。
On the other hand, in the above-described step 403, if the collection determination rule is not met, the collection page determination rule in FIG. 6C (link destinations of pages not including the word “xxx” are not collected) Accordingly, it is determined whether or not there is a next URL of the starting point (starting point list) (step 409). If there is (
また、上位のステップ407において収集判別ルールに該当しない場合、または、ステップ408でページ収集後に、他にリンクページがあるかを判定し(ステップ411)、ある場合はリンク先の次のURLへ移動する(ステップ413)。ない場合はステップ409に移行し、URLリストの次のURLがあるかを判定する。
In addition, if it does not correspond to the collection determination rule in the upper step 407, or after collecting the page in
同様の処理を全てのリンク先ページに行い、全てのリンク先ページに対してチェックが終了した場合は、起点(起点リスト)に戻り、次のURLに対して収集判別ルールの適用を行う。 The same processing is performed for all the linked pages, and when the check is completed for all the linked pages, the process returns to the starting point (starting list) and the collection determination rule is applied to the next URL.
上記の情報空間探索装置の構成要素の動作をプログラムとして構築し、情報空間探索装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。 The operations of the components of the information space search device described above can be constructed as a program, installed in a computer used as the information space search device, executed, or distributed via a network.
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。 Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
本発明は、Webページを収集する技術に適用可能である。 The present invention is applicable to a technique for collecting Web pages.
101 起点リスト記憶手段、起点リスト記憶部
102 ルール記憶手段、ルール記憶部
103 Webページ記憶手段、Webページ記憶部
104 収集ページ判別ルール作成手段、収集ページ判別ルール作成部
105 終了条件設定手段、終了条件設定部
106 Webページ収集手段、Webページ収集部
107 インデックス付与部
101 starting point list storage unit, starting point
Claims (5)
収集開始地点を表す起点(起点URLリスト)を格納する起点リスト記憶手段と、
到達したページを収集するか否かを判断する基準である収集ページ判別ルールを格納するルール記憶手段と、
収集されたWebページを格納するWebページ記憶手段と、
前記収集ページ判別ルールを作成し、前記ルール記憶手段に格納する収集ページ判別ルール作成手段と、
収集する際の終了条件を設定する終了条件設定手段と、
前記起点リスト記憶手段の前記起点URLリスト、前記終了条件、前記ルール記憶手段の前記収集ページ判別ルールに基づいてWebページを収集し、前記Webページ記憶手段に格納する処理を該終了条件に達するまで繰り返すWebページ収集手段と、
を有することを特徴とする情報空間探索装置。 An information space search device that collects web pages from an information space having a network structure,
Starting point list storage means for storing a starting point (starting point URL list) representing a collection start point;
Rule storage means for storing a collection page discrimination rule that is a criterion for determining whether or not to collect the reached page;
Web page storage means for storing the collected Web pages;
A collection page discrimination rule creating means for creating the collected page discrimination rule and storing it in the rule storage means;
An end condition setting means for setting an end condition when collecting,
A process of collecting Web pages based on the starting URL list of the starting list storage unit, the end condition, and the collected page determination rule of the rule storage unit and storing the Web page in the Web page storage unit until the end condition is reached. Repeating web page collection means;
An information space search device characterized by comprising:
前記起点リスト記憶手段から前記起点URLリストを取得し、該起点URLリストのURLのWebページを取得し、該Webページが前記ルール記憶手段の前記収集ページ判別ルールに該当する場合には、当該Webページ及び該Webページのリンク先のURLを取得する手段と、
前記リンク先のURLの先頭のウェブページを取得し、前記収集ページ判別ルールに該当する場合には、当該Webページを収集する手段と、
を含む請求項1記載の情報空間探索装置。 The web page collection means includes:
When the origin URL list is acquired from the origin list storage unit, the Web page of the URL of the origin URL list is acquired, and the Web page corresponds to the collected page determination rule of the rule storage unit, the Web Means for obtaining the URL of the page and the link destination of the web page;
Means for acquiring the first web page of the link destination URL and collecting the web page when the collected page discrimination rule is satisfied;
The information space search device according to claim 1, comprising:
・URLに対しては、類似表記URL、同一ドメイン、
・Web文書中に使用されている単語に対しては、特定のキーワードの有無、使用単語の偏り、
・タグに対しては、alt記載内容、imgタグの数
のいずれか、または、全てを設定する請求項1または2記載の情報空間探索装置。 The discrimination rule creating means is a collection page discrimination rule,
-For URL, similar notation URL, same domain,
・ For words used in Web documents, the presence or absence of specific keywords, bias of used words,
The information space search device according to claim 1 or 2, wherein any one or all of the contents described in alt and the number of img tags are set for the tag.
・起点に基づくもの;
・時間に基づくもの;
・データ量に基づくもの;
のいずれかを設定する請求項1記載の情報空間探索装置。 The end condition setting means includes the end condition as
・ Based on the starting point;
・ Based on time;
・ Based on data volume;
The information space search device according to claim 1, wherein any one of the above is set.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008106160A JP2009258923A (en) | 2008-04-15 | 2008-04-15 | Information space search apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008106160A JP2009258923A (en) | 2008-04-15 | 2008-04-15 | Information space search apparatus and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009258923A true JP2009258923A (en) | 2009-11-05 |
Family
ID=41386271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008106160A Pending JP2009258923A (en) | 2008-04-15 | 2008-04-15 | Information space search apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009258923A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014074992A (en) * | 2012-10-03 | 2014-04-24 | Fujitsu Ltd | Information extraction device and method and program |
WO2021117876A1 (en) * | 2019-12-13 | 2021-06-17 | 翼 加藤 | Search device, search application, and search method |
-
2008
- 2008-04-15 JP JP2008106160A patent/JP2009258923A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014074992A (en) * | 2012-10-03 | 2014-04-24 | Fujitsu Ltd | Information extraction device and method and program |
WO2021117876A1 (en) * | 2019-12-13 | 2021-06-17 | 翼 加藤 | Search device, search application, and search method |
JP2021096802A (en) * | 2019-12-13 | 2021-06-24 | 翼 加藤 | Search device, search application, and search method |
JP7002804B2 (en) | 2019-12-13 | 2022-01-20 | 翼 加藤 | Search device, search application and search method |
US11556602B2 (en) | 2019-12-13 | 2023-01-17 | Tsubasa KATO | Search device, search application, and search method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5727512B2 (en) | Cluster and present search suggestions | |
US8799262B2 (en) | Configurable web crawler | |
JP4936401B2 (en) | Method and system for filtering subject-related web pages based on navigation path information | |
US8903800B2 (en) | System and method for indexing food providers and use of the index in search engines | |
JP5437557B2 (en) | Search processing method and search system | |
CN1839386A (en) | Internet searching using semantic disambiguation and expansion | |
JP2006011739A (en) | Device, computer system and data processing method using ontology | |
JP5185402B2 (en) | Document search apparatus, document search method, and document search program | |
WO2011116082A2 (en) | Indexing and searching employing virtual documents | |
US10810181B2 (en) | Refining structured data indexes | |
JP2010097461A (en) | Document search apparatus, document search method, and document search program | |
US7836108B1 (en) | Clustering by previous representative | |
JP2010262638A (en) | Device and method for ranking retrieval result using reliability of representative | |
JP5098605B2 (en) | Annotation program, annotation device | |
JP4750628B2 (en) | Information ranking method and apparatus, program, and computer-readable recording medium | |
JP2008191982A (en) | Retrieval result output device | |
JP2009258923A (en) | Information space search apparatus and program | |
JP2007072596A (en) | Information sharing system and information sharing method | |
US20080033953A1 (en) | Method to search transactional web pages | |
JP6749865B2 (en) | INFORMATION COLLECTION DEVICE AND INFORMATION COLLECTION METHOD | |
JP6727097B2 (en) | Information processing apparatus, information processing method, and program | |
JP5162215B2 (en) | Data processing apparatus, data processing method, and program | |
JP2010272006A (en) | Relation extraction apparatus, relation extraction method and program | |
US9420052B2 (en) | Web navigation using web navigation pattern histories | |
WO2017175247A1 (en) | Method and system for generating content from search results rendered by a search engine |