JP5165717B2 - デッドリンク判定装置及び方法 - Google Patents
デッドリンク判定装置及び方法 Download PDFInfo
- Publication number
- JP5165717B2 JP5165717B2 JP2010073420A JP2010073420A JP5165717B2 JP 5165717 B2 JP5165717 B2 JP 5165717B2 JP 2010073420 A JP2010073420 A JP 2010073420A JP 2010073420 A JP2010073420 A JP 2010073420A JP 5165717 B2 JP5165717 B2 JP 5165717B2
- Authority
- JP
- Japan
- Prior art keywords
- url
- unit
- content
- dead link
- storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 19
- 238000003860 storage Methods 0.000 claims description 128
- 238000004458 analytical method Methods 0.000 claims description 55
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
一方、Webサイトによっては、URLで指定されたアドレスからコンテンツが削除又は移動されるものもある。このため、検索エンジンに蓄積されたURLが、コンテンツが削除又は移動される前の古いURLとなり、デッドリンク(リンク切れ)となることもある。そして、このデッドリンクとなったURLが検索結果に含まれる場合、ユーザに不要な情報を提供することになり、検索サービスの低下につながるおそれもある。
これにより、デッドリンク判定装置は、使用頻度の高いクエリに基づく検索結果として取得されるURLのコンテンツに対してデッドリンクの判定を行うことができる。使用頻度の高いクエリの検索結果として取得されるコンテンツは、ユーザによりアクセスされる可能性が高いコンテンツである場合が多い。したがって、デッドリンク判定装置は、参照されやすいコンテンツに対して選択的にデッドリンクの判定を行うことができ、またデッドリンクの発生を効率的に検出することができる。
ここで、図2を参照してURL記憶部112の内部構成について説明する。図2は、URL記憶部112の内部構成を示す概念図である。
第3キュー112cは、後述の巡回取得部143が検索サーバ20にアクセスするためのキューであり、後述のURL生成部141が生成したURLが格納される。
第4キュー112dは、後述の巡回取得部143が収集したURLのうち、第1キュー112a、第2キュー112b又は第3キュー112cに格納されないURLが格納される。
したがって、このURLのコンテンツは、検索サーバ20において使用頻度の高いクエリの検索結果を含むため、結果として検索サーバ20のユーザにアクセスされやすいURLをリンク先として含むことになる。
解析部144は、当該コンテンツが検索サーバ20から取得した検索結果であると判定した場合、当該コンテンツを解析して、当該コンテンツに含まれるURLを第2URL記憶制御部145に出力する。
また、解析部144は、当該コンテンツが検索サーバ20から取得した検索結果ではないと判定した場合、当該コンテンツについて、デッドリンクであるか否かを判定する。
解析部144は、当該コンテンツがデッドリンクであると判定した場合には、当該URLを出力部146に出力する。また、解析部144は、コンテンツのURLがデッドリンクでないと判定した場合、解析に係る処理を終了する。
例えば、第2URL記憶制御部145は、解析部144から受け取ったURLをWebサイト「a」に属するコンテンツのURLであると判定した場合、本実施形態では、当該URLを第1キュー112aに記憶させる。
14 制御部
20 検索サーバ
30 Webサーバ
111 クエリ記憶部
112 URL記憶部
112a 第1キュー
112b 第2キュー
112c 第3キュー
112d 第4キュー
141 URL生成部
142 第1URL記憶制御部
143 巡回取得部
144 解析部
145 第2URL記憶制御部
146 出力部
N 通信ネットワーク
Claims (5)
- 互いに異なるURLを記憶する複数の記憶領域を有する記憶手段と、
前記複数の記憶領域のそれぞれと、巡回対象サイトと、解析内容とが対応付けられて設定されているテーブルと、
前記複数の領域の各々からURLを読み出し、読み出したURLに基づいて前記巡回対象サイトを巡回してコンテンツを取得する取得手段と、
前記テーブルを参照し、取得されたコンテンツの取得元の前記巡回対象サイトに対応する前記解析内容に基づいて前記取得されたコンテンツを解析して、前記取得されたコンテンツがデッドリンクであるか否か判定する判定手段と、
を具備するデッドリンク判定装置。 - 前記テーブルにおいて、検索サーバ以外の巡回対象サイトに対しては、前記解析内容として、デッドリンクの判定が設定される、
請求項1に記載のデッドリンク判定装置。 - 前記テーブルにおいて、さらに、前記複数の記憶領域のそれぞれと、巡回間隔とが対応付けられて設定されている、
請求項1又は2に記載のデッドリンク判定装置。 - 前記テーブルにおいて、検索サーバに対する巡回間隔は、検索サーバ以外の巡回対象サイトに対する巡回間隔よりも短く設定される、
請求項3に記載のデッドリンク判定装置。 - コンピュータが、
互いに異なるURLを記憶する複数の記憶領域の各々からURLを読み出し、
読み出されたURLに基づいて巡回対象サイトを巡回してコンテンツを取得し、
前記複数の記憶領域のそれぞれと、巡回対象サイトと、解析内容とが対応付けられて設定されているテーブルを参照し、取得されたコンテンツの取得元の前記巡回対象サイトに対応する前記解析内容に基づいて前記取得されたコンテンツを解析して、前記取得されたコンテンツがデッドリンクであるか否か判定する、
デッドリンク判定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010073420A JP5165717B2 (ja) | 2010-03-26 | 2010-03-26 | デッドリンク判定装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010073420A JP5165717B2 (ja) | 2010-03-26 | 2010-03-26 | デッドリンク判定装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011204184A JP2011204184A (ja) | 2011-10-13 |
JP5165717B2 true JP5165717B2 (ja) | 2013-03-21 |
Family
ID=44880733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010073420A Expired - Fee Related JP5165717B2 (ja) | 2010-03-26 | 2010-03-26 | デッドリンク判定装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5165717B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220140403A (ko) * | 2021-04-09 | 2022-10-18 | 쿠팡 주식회사 | 키워드 광고와 관련된 링크를 관리하는 방법 및 장치 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331335B (zh) * | 2014-11-20 | 2018-03-23 | 国家电网公司 | 门户网站的死链检查方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3987690B2 (ja) * | 1996-02-28 | 2007-10-10 | Gmoインターネット株式会社 | 通信システム及びホストコンピュータ |
JP2001265695A (ja) * | 2000-03-16 | 2001-09-28 | Makiko Ishikawa | 共有url管理方法 |
JP4606548B2 (ja) * | 2000-05-25 | 2011-01-05 | 富士通株式会社 | 検索システムのメンテナンス方法及び検索システム |
JP2004102470A (ja) * | 2002-09-06 | 2004-04-02 | Global Vision:Kk | 掲示板情報表示方法、掲示板情報表示システム |
-
2010
- 2010-03-26 JP JP2010073420A patent/JP5165717B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220140403A (ko) * | 2021-04-09 | 2022-10-18 | 쿠팡 주식회사 | 키워드 광고와 관련된 링크를 관리하는 방법 및 장치 |
KR102569862B1 (ko) * | 2021-04-09 | 2023-08-24 | 쿠팡 주식회사 | 키워드 광고와 관련된 링크를 관리하는 방법 및 장치 |
KR20230124874A (ko) * | 2021-04-09 | 2023-08-28 | 쿠팡 주식회사 | 키워드 광고와 관련된 링크를 관리하는 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP2011204184A (ja) | 2011-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8903800B2 (en) | System and method for indexing food providers and use of the index in search engines | |
US9940391B2 (en) | System, method and computer readable medium for web crawling | |
US20080071766A1 (en) | Centralized web-based software solutions for search engine optimization | |
US20120016857A1 (en) | System and method for providing search engine optimization analysis | |
CN106776983B (zh) | 搜索引擎优化装置和方法 | |
CN109033403B (zh) | 用于搜索区块链数据的方法、装置及存储介质 | |
US9323861B2 (en) | Method and apparatus for enhanced web browsing | |
CN111814024B (zh) | 分布式数据采集方法、系统及存储介质 | |
CN106250454A (zh) | 一种页面脚本的加载方法及装置 | |
Dividino et al. | Strategies for efficiently keeping local linked open data caches up-to-date | |
CN110555146A (zh) | 一种网络爬虫伪装数据的生成方法及系统 | |
CN103902667A (zh) | 一种基于元搜索的网络信息采集器简单实现方法 | |
US10491606B2 (en) | Method and apparatus for providing website authentication data for search engine | |
Singh et al. | Enhancing the performance of web proxy server through cluster based prefetching techniques | |
JP5364012B2 (ja) | データ抽出装置、データ抽出方法、および、データ抽出プログラム | |
Deka | NoSQL web crawler application | |
JP5165717B2 (ja) | デッドリンク判定装置及び方法 | |
Sethi | An optimized crawling technique for maintaining fresh repositories | |
KR20120071827A (ko) | 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치 및 수집 방법 | |
Chen et al. | Optimization research and application of enterprise website based on web service | |
CN110677270B (zh) | 一种域名的可缓存性分析方法及系统 | |
US8117148B2 (en) | Automatic updating apparatus, automatic updating method, and programmable storage medium embodying program to perform method for automatic updating | |
KR20120090131A (ko) | 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
JP5286007B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
Liu et al. | WRT: Constructing Users' Web Request Trees from HTTP Header Logs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120612 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120711 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121219 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151228 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5165717 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |