JP6960274B2 - データ収集装置、データ収集方法、およびプログラム - Google Patents
データ収集装置、データ収集方法、およびプログラム Download PDFInfo
- Publication number
- JP6960274B2 JP6960274B2 JP2017160210A JP2017160210A JP6960274B2 JP 6960274 B2 JP6960274 B2 JP 6960274B2 JP 2017160210 A JP2017160210 A JP 2017160210A JP 2017160210 A JP2017160210 A JP 2017160210A JP 6960274 B2 JP6960274 B2 JP 6960274B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- host
- information
- unit
- reference information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013480 data collection Methods 0.000 title claims description 64
- 238000000034 method Methods 0.000 title claims description 27
- 238000012546 transfer Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 37
- 238000001514 detection method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 9
- 230000003442 weekly effect Effects 0.000 description 6
- 230000001629 suppression Effects 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000009193 crawling Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下、図面を参照して、データ収集装置、データ収集方法、およびプログラムの実施形態について説明する。本実施形態では、データ収集装置がクロールサーバであるものとして説明する。クロールサーバとは、インターネット等のネットワークを介してアクセス可能な複数の装置からデータを自動的に収集するサーバである。本実施形態のクロールサーバは、価値の高いデータを提供する有益なホストに集中してクロールを行う。クロールサーバは、1つのプロセッサによって実現されてもよく、複数のプロセッサが分散処理することで実現されてもよい。本実施形態において、ホストとは、ネットワークを介してアクセス可能な装置に格納されたデータを参照するための参照情報(例えば、URL(Uniform Resource Locator))の一部を構成して複数の参照情報の群を特定する所属情報をいう。以下、実施形態について説明する。
図1は、本実施形態のクロールサーバ10(データ収集装置)の使用環境を示す図である。クロールサーバ10は、画像データおよびHTML(HyperText Markup Language)データの少なくとも一方を含むページデータ(コンテンツ)を、ネットワークNWを介してアクセス可能な複数の外部サーバS1(装置)から収集する。コンテンツは、外部サーバS1に格納されており、ブラウザによって閲覧可能なページ単位のデータである。ただし、コンテンツは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータでもよい。ネットワークNWは、インターネットやWAN(Wide Area Network)、LAN(Local Area Network)等を含む。
以下、クロールサーバ10の構成について説明する。図2は、クロールサーバ10の構成を示す機能ブロック図である。クロールサーバ10は、例えば、データ収集部12(収集部)と、解析部14(判定部)と、バッチ処理部16と、記憶部18とを備える。バッチ処理部16は、例えば、ホストランク決定部20(抑制部、決定部)と、注目ホストリスト生成部22(生成部)と、ホスト選択部24とを備える。記憶部18には、例えば、ホストランク情報D1、コンテンツ第1情報D2、コンテンツ第2情報D3、および注目ホストリストD4が記憶されている。
以下、クロールサーバ10のクロール処理について説明する。図8は、本実施形態のクロール処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、クロールサーバ10によって一定時間以上に亘って継続的に繰り返し実行される。尚、本フローチャートは、1つのURLを起点として実施するクロール処理の流れを示す。
以下、クロールサーバ10のホスト選択処理について説明する。図9は、本実施形態のホスト選択処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、日次、週次等、所定の時間間隔のバッチ処理として実行される。
以下、クロールサーバ10のホストランク決定処理について説明する。図10は、本実施形態のホストランク決定処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、日次、週次等、所定の時間間隔のバッチ処理として実行される。尚、本フローチャートは、1つのホストに対するホストランク決定処理の流れを示す。
以下、クロールサーバ10の注目ホストリスト生成処理について説明する。図11は、本実施形態の注目ホストリスト生成処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、日次、週次等、所定の時間間隔のバッチ処理として実行される。
12…データ収集部(収集部)
14…解析部
16…バッチ処理部
18…記憶部
20…ホストランク決定部
22…注目ホストリスト生成部
24…ホスト選択部
Claims (9)
- ネットワークを介してアクセス可能な装置からデータを収集する収集部と、
前記収集部によって収集されたデータに含まれる、前記ネットワークを介してアクセス可能な装置に格納されたデータを参照するための参照情報が、所定の条件を満たす場合に、前記参照情報の一部を構成して複数の参照情報の群を特定する所属情報に対する前記収集部による収集を抑制する抑制部と
を備え、
前記所定の条件は、前記参照情報が、他の参照情報への転送を指示する情報であることである、
データ収集装置。 - 前記所定の条件は、前記参照情報と対応するデータが、画像データまたは動画データであることである、
請求項1に記載のデータ収集装置。 - 前記収集部により収集されたデータに基づき、前記所属情報に関するデータ収集の優先順位を決定する決定部をさらに備える、
請求項1または2に記載のデータ収集装置。 - 前記決定部は、前記参照情報が、他の参照情報への転送を指示する情報である場合、前記他の参照情報と対応するデータに基づき、前記優先順位を決定する、
請求項3に記載のデータ収集装置。 - 前記決定部により決定された前記所属情報に対するデータ収集の優先順位に基づき、データ収集が優先される所属情報のリストを生成する生成部をさらに備える、
請求項3に記載のデータ収集装置。 - 前記決定部は、前記参照情報が、所定の条件を満たす場合に、前記所属情報に対するデータ収集の優先順位を下げる、
請求項3に記載のデータ収集装置。 - 前記所属情報が、予め定義されたデータ収集が優先される所属情報のリストに含まれているか否かを判定し、前記所属情報が前記リストに含まれていると判定した場合、前記参照情報と対応するデータを前記収集部に収集させる判定部
をさらに備える、
請求項1から6のうちいずれか一項に記載のデータ収集装置。 - コンピュータが、
ネットワークを介してアクセス可能な装置からデータを収集し、
前記収集されたデータに含まれる、前記ネットワークを介してアクセス可能な装置に格納されたデータを参照するための参照情報が、所定の条件を満たす場合に、前記参照情報の一部を構成して複数の参照情報の群を特定する所属情報に対する収集を抑制する
データ収集方法であって、
前記所定の条件は、前記参照情報が、他の参照情報への転送を指示する情報であることである、
データ収集方法。 - コンピュータに、
ネットワークを介してアクセス可能な装置からデータを収集させ、
前記収集されたデータに含まれる、前記ネットワークを介してアクセス可能な装置に格納されたデータを参照するための参照情報が、所定の条件を満たす場合に、前記参照情報の一部を構成して複数の参照情報の群を特定する所属情報に対する収集を抑制させる
プログラムであって、
前記所定の条件は、前記参照情報が、他の参照情報への転送を指示する情報であることである、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017160210A JP6960274B2 (ja) | 2017-08-23 | 2017-08-23 | データ収集装置、データ収集方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017160210A JP6960274B2 (ja) | 2017-08-23 | 2017-08-23 | データ収集装置、データ収集方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019040297A JP2019040297A (ja) | 2019-03-14 |
JP6960274B2 true JP6960274B2 (ja) | 2021-11-05 |
Family
ID=65726464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017160210A Active JP6960274B2 (ja) | 2017-08-23 | 2017-08-23 | データ収集装置、データ収集方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6960274B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7197531B2 (ja) * | 2020-03-19 | 2022-12-27 | ヤフー株式会社 | 情報処理装置、情報処理システム、情報処理方法、およびプログラム |
-
2017
- 2017-08-23 JP JP2017160210A patent/JP6960274B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019040297A (ja) | 2019-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8799262B2 (en) | Configurable web crawler | |
AU2004240188B8 (en) | Building and using subwebs for focused search | |
KR101063364B1 (ko) | 웹 크롤링 프로세스 동안 웹 사이트에 우선순위를 부여하기위한 시스템 및 방법 | |
US7908234B2 (en) | Systems and methods of predicting resource usefulness using universal resource locators including counting the number of times URL features occur in training data | |
US9081861B2 (en) | Uniform resource locator canonicalization | |
US7496581B2 (en) | Information search system, information search method, HTML document structure analyzing method, and program product | |
US20110302148A1 (en) | System and Method for Indexing Food Providers and Use of the Index in Search Engines | |
Agre et al. | Keyword focused web crawler | |
US8676782B2 (en) | Information collection apparatus, search engine, information collection method, and program | |
Pal et al. | Effective focused crawling based on content and link structure analysis | |
US20120066195A1 (en) | Search assist powered by session analysis | |
KR100485321B1 (ko) | 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템 | |
JP6960274B2 (ja) | データ収集装置、データ収集方法、およびプログラム | |
JP4824070B2 (ja) | クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム | |
Soulemane et al. | Crawling the hidden web: An approach to dynamic web indexing | |
JP5462713B2 (ja) | Webページ収集装置、方法及びプログラム | |
JP6745744B2 (ja) | データ収集システム、データ収集方法、およびプログラム | |
KR101508190B1 (ko) | 유해 사이트 수집 장치 및 방법 | |
JP6739379B2 (ja) | 情報処理装置、情報処理方法、プログラム、および広告情報処理システム | |
JP2010286888A (ja) | 情報収集システムおよび情報収集方法ならびにそのプログラム | |
RU2660593C2 (ru) | Способ и сервер определения исходной ссылки на исходный объект | |
Liu et al. | Constructing a reliable Web graph with information on browsing behavior | |
JP2010072909A (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP6982520B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6985189B2 (ja) | データ収集装置、データ収集方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200305 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210408 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210914 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211011 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6960274 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |