JP6254355B2 - リファレンスウェブクロールの支援によるウェブコーパスの構築 - Google Patents
リファレンスウェブクロールの支援によるウェブコーパスの構築 Download PDFInfo
- Publication number
- JP6254355B2 JP6254355B2 JP2013083171A JP2013083171A JP6254355B2 JP 6254355 B2 JP6254355 B2 JP 6254355B2 JP 2013083171 A JP2013083171 A JP 2013083171A JP 2013083171 A JP2013083171 A JP 2013083171A JP 6254355 B2 JP6254355 B2 JP 6254355B2
- Authority
- JP
- Japan
- Prior art keywords
- web
- resource
- computer
- crawler
- crawl
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title 1
- 230000004044 response Effects 0.000 claims description 62
- 238000000034 method Methods 0.000 claims description 25
- 230000009193 crawling Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000001934 delay Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000035045 associative learning Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 241000257303 Hymenoptera Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Description
<a href=”resource1”>link</a>
のようにすることができる。
Claims (12)
- ウェブコーパス(WCD)を構築するための、コンピュータにより実行される方法であって、
それぞれのリソースの各々のシーズ識別子の第1のリストに基づいて、リファレンスウェブクローラ(RWC)によるリファレンスウェブクロール(RWCD)を作成するステップと、
それぞれのリソースの各々のシーズ識別子の第2のリストを提供するステップと、
前記シーズ識別子の第2のリストに基づいて、ウェブクローラ(WC)によるウェブクロール(WCD)を作成するステップと
を備え、
前記ウェブクロール(WCD)を作成するステップは、
コンピュータ上で稼動する前記ウェブクローラ(WC)が、リファレンスウェブクロールエージェント(RWCA)にクエリを送信するステップであって、前記クエリは少なくとも1つのリソースの識別子を含む、ステップと、
前記ウェブクローラ(WC)が、前記リファレンスウェブクロールエージェント(RWCA)からレスポンスを受信するステップと、
前記レスポンスが前記識別子により識別されたリソースを含まない場合、前記ウェブクローラ(WC)が、前記識別子に対応するウェブサイト(WS)から前記リソースをダウンロードし、前記リソースを前記ウェブコーパス(WCD)に追加するステップと、
前記レスポンスが前記識別子により識別されたリソースを含む場合、前記リソースを前記ウェブコーパス(WCD)に追加するステップと
を含み、
前記リファレンスウェブクロールエージェント(RWCA)は、前記リファレンスウェブクロール(RWCD)のコンテンツに準じてレスポンスを作成する
ことを特徴とするコンピュータにより実行される方法。 - 前記コンピュータ上で稼動する前記リファレンスウェブクロールエージェント(RWCA)が、前記リソースが前記リファレンスウェブクロール(RWCD)に含まれないと判定する場合は、前記リファレンスウェブクロールエージェント(RWCA)が、前記リソースのダウンロードならびに前記リファレンスウェブクロール(RWCD)への追加を開始することを特徴とする請求項1に記載のコンピュータにより実行される方法。
- 前記リファレンスウェブクロール(RWCD)からリファレンスインデックス(RID)を作成するステップと、
前記ウェブクローラ(WC)が、前記リファレンスインデックス(RID)にインデックスクエリを送信するステップと、
前記ウェブクローラ(WC)が、前記リファレンスインデックスからレスポンスを受信するステップと、
前記レスポンスの内容に応じて、前記リファレンスウェブクロールエージェント(RWCA)への前記クエリの送信を行うステップと
をさらに備えることを特徴とする請求項1または2に記載のコンピュータにより実行される方法。 - 前記インデックスクエリは、リソースの識別子を含み、前記レスポンスが前記リソースに関連するインデックス付けされた情報を含む場合は、前記インデックス付けされた情報に準じて前記リファレンスウェブクロールエージェント(RWCA)にクエリを送信するかを決定することを特徴とする請求項3に記載のコンピュータにより実行される方法。
- 前記インデックスクエリはクエリ基準を含み、前記リファレンスインデックスの前記レスポンスは識別子のリストを含むことを特徴とする請求項3に記載のコンピュータにより実行される方法。
- 前記リファレンスインデックスの前記レスポンスは、前記識別子に対応するインデックス付けされた情報をさらに含むことを特徴とする請求項5に記載のコンピュータにより実行される方法。
- 前記インデックスクエリは識別子を含み、前記リファレンスインデックスは、前記識別子により識別されたリソースに含まれる識別子の組を含むレスポンスを送信することを特徴とする請求項3に記載のコンピュータにより実行される方法。
- 前記識別子はURLであることを特徴とする請求項1乃至7のいずれか一つに記載のコンピュータにより実行される方法。
- ウェブコーパス(WCD)を構築するように適合されたウェブクローラ(WC)であって、リファレンスウェブクロールエージェント(RWCA)と通信することによって、請求項1乃至8のいずれか一つに記載の方法をコンピュータに実行させるコンピュータ実行可能命令を有することを特徴とするウェブクローラ。
- ウェブクローラ(WC)と通信することによって、請求項1乃至8のいずれか一つに記載の方法をコンピュータに実行させるコンピュータ実行可能命令を有することを特徴とするリファレンスウェブクローラエージェント(RWCA)。
- 請求項9に記載のウェブクローラ、請求項10に記載のリファレンスウェブクロールエージェント、リファレンスウェブクロール、および/またはリファレンスレブクローラを備えたことを特徴とするシステム。
- 請求項9に記載のウェブクローラをコンピュータに実行させ、および/または請求項10に記載のリファレンスウェブクロールエージェントを前記コンピュータに実行させるコンピュータ実行可能命令を含むコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP12305432.2A EP2650802B1 (en) | 2012-04-12 | 2012-04-12 | Building of a web corpus with the help of a reference web crawl |
EP12305432.2 | 2012-04-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013222463A JP2013222463A (ja) | 2013-10-28 |
JP6254355B2 true JP6254355B2 (ja) | 2017-12-27 |
Family
ID=46022143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013083171A Active JP6254355B2 (ja) | 2012-04-12 | 2013-04-11 | リファレンスウェブクロールの支援によるウェブコーパスの構築 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9529911B2 (ja) |
EP (1) | EP2650802B1 (ja) |
JP (1) | JP6254355B2 (ja) |
KR (1) | KR102054020B1 (ja) |
CN (1) | CN103377291B (ja) |
CA (1) | CA2812439C (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8560604B2 (en) | 2009-10-08 | 2013-10-15 | Hola Networks Ltd. | System and method for providing faster and more efficient data communication |
CN106919696B (zh) * | 2017-03-07 | 2020-08-14 | 上海携程商务有限公司 | Seo站点构建方法及seo请求的响应方法 |
LT3780547T (lt) | 2019-02-25 | 2023-03-10 | Bright Data Ltd. | Turinio parsisiuntimo, naudojant url bandymų mechanizmą, sistema ir būdas |
US11394799B2 (en) | 2020-05-07 | 2022-07-19 | Freeman Augustus Jackson | Methods, systems, apparatuses, and devices for facilitating for generation of an interactive story based on non-interactive data |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185789A (ja) * | 1997-09-10 | 1999-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 分散検索装置 |
JP2002351873A (ja) * | 2001-05-23 | 2002-12-06 | Hitachi Ltd | メタデータ管理システムおよび検索方法 |
CA2588219C (en) * | 2004-11-22 | 2014-05-20 | Truveo, Inc. | Method and apparatus for an application crawler |
US7653617B2 (en) * | 2005-08-29 | 2010-01-26 | Google Inc. | Mobile sitemaps |
US20080071830A1 (en) * | 2006-09-14 | 2008-03-20 | Bray Pike | Method of indexing and streaming media files on a distributed network |
US20090287684A1 (en) * | 2008-05-14 | 2009-11-19 | Bennett James D | Historical internet |
US8346755B1 (en) * | 2010-05-04 | 2013-01-01 | Google Inc. | Iterative off-line rendering process |
CN102402627B (zh) * | 2011-12-31 | 2013-08-14 | 凤凰在线(北京)信息技术有限公司 | 一种文章实时智能抓取系统和方法 |
-
2012
- 2012-04-12 EP EP12305432.2A patent/EP2650802B1/en active Active
-
2013
- 2013-04-11 US US13/860,923 patent/US9529911B2/en active Active
- 2013-04-11 JP JP2013083171A patent/JP6254355B2/ja active Active
- 2013-04-11 KR KR1020130040143A patent/KR102054020B1/ko active IP Right Grant
- 2013-04-12 CA CA2812439A patent/CA2812439C/en active Active
- 2013-04-12 CN CN201310209210.7A patent/CN103377291B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN103377291B (zh) | 2019-09-17 |
CA2812439C (en) | 2020-09-15 |
KR20130116032A (ko) | 2013-10-22 |
JP2013222463A (ja) | 2013-10-28 |
US20130275406A1 (en) | 2013-10-17 |
EP2650802B1 (en) | 2018-10-24 |
CA2812439A1 (en) | 2013-10-12 |
KR102054020B1 (ko) | 2019-12-09 |
CN103377291A (zh) | 2013-10-30 |
EP2650802A1 (en) | 2013-10-16 |
US9529911B2 (en) | 2016-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8799262B2 (en) | Configurable web crawler | |
US9836544B2 (en) | Methods and systems for prioritizing a crawl | |
AU2009277143B2 (en) | Federated community search | |
US20050149500A1 (en) | Systems and methods for unification of search results | |
US20090100015A1 (en) | Web-based workspace for enhancing internet search experience | |
JP2011530118A (ja) | 検索クエリーに応答したディスカッションスレッドへの投稿の提供 | |
US8930437B2 (en) | Systems and methods for deterring traversal of domains containing network resources | |
JP2007233856A (ja) | 情報処理装置、情報処理システム、および方法、並びにコンピュータ・プログラム | |
US20100125781A1 (en) | Page generation by keyword | |
US20110238653A1 (en) | Parsing and indexing dynamic reports | |
JP6254355B2 (ja) | リファレンスウェブクロールの支援によるウェブコーパスの構築 | |
JP2010257453A (ja) | サーチクエリデータを用いて文書にタグ付けするシステム | |
JP2008287458A (ja) | ブックマークサービス方法およびブックマークサービスサーバ | |
JP4653805B2 (ja) | 意味検索プログラム | |
Khare et al. | Smart crawler for harvesting deep web with multi-classification | |
UTKALUNIVERSITY | Integration of web mining and web crawler: Relevance and state of art | |
US7502773B1 (en) | System and method facilitating page indexing employing reference information | |
JP2003271647A (ja) | 閲覧ファイルデータ提供方法、閲覧頻度データ提供方法、そのための中継装置、プログラム及び記録媒体 | |
Ganibardi et al. | Web Usage Data Cleaning: A Rule-Based Approach for Weblog Data Cleaning | |
Chumbe et al. | Overcoming the obstacles of harvesting and searching digital repositories from federated searching toolkits, and embedding them in VLEs | |
Angioni et al. | User Oriented Information Retrieval in a Collaborative and Context Aware Search Engine | |
WO2008030568A2 (en) | Feed crawling system and method and spam feed filter | |
JP2007026457A (ja) | 閲覧頻度データ提供方法、そのための中継装置、プログラム及び記録媒体 | |
O'Riordan et al. | Engineering an Open Web Syndication Interchange with Discovery and Recommender Capabilities | |
Builders' Guide | TAPIR-TDWG Access Protocol for Information Retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20141222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150202 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160411 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170221 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20170519 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170721 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6254355 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |