JP6960274B2 - データ収集装置、データ収集方法、およびプログラム - Google Patents

データ収集装置、データ収集方法、およびプログラム Download PDF

Info

Publication number
JP6960274B2
JP6960274B2 JP2017160210A JP2017160210A JP6960274B2 JP 6960274 B2 JP6960274 B2 JP 6960274B2 JP 2017160210 A JP2017160210 A JP 2017160210A JP 2017160210 A JP2017160210 A JP 2017160210A JP 6960274 B2 JP6960274 B2 JP 6960274B2
Authority
JP
Japan
Prior art keywords
data
host
information
unit
reference information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017160210A
Other languages
English (en)
Other versions
JP2019040297A (ja
Inventor
将平 川崎
友大 和良品
雄貴 俵
タウフィックラチマン
康之 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017160210A priority Critical patent/JP6960274B2/ja
Publication of JP2019040297A publication Critical patent/JP2019040297A/ja
Application granted granted Critical
Publication of JP6960274B2 publication Critical patent/JP6960274B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ収集装置、データ収集方法、およびプログラムに関する。
従来、ウェブから文章や画像等のデータを収集し、収集したデータを自動的にデータベース化するクローラが知られている(例えば、特許文献1および2参照)。クローラは、ウェブページ中のリンクを辿って、様々なドメインのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。ウェブ情報データベースに蓄積されたデータは、ウェブページの検索サービス等に利用される。
特開2012−69171号公報 特開平9−325968号公報
検索サイト等の利便性向上のため、より多くのデータを効率的に収集することが期待されている。例えば、検索クエリに対して、単に検索クエリに対応するウェブページを提供するだけでなく、検索クエリに応じた回答を提供するシステムにおいては、より多くの有益なデータ(知識)を収集する必要がある。
しかしながら、クロールの対象となる膨大なウェブページの中から有益なデータを効率的に収集することは容易ではない。例えば、従来の幅優先探索(BFS:Breadth First Search)を用いたクロールを行う場合、不要なデータを多く含む価値の低いホストについてもクロールの対象となってしまい、リソースが無駄に消費されている場合があった。一方で、有効なデータを多く含む有益なホストに対するクロールが進まず、データ収集に時間を要してしまう場合があった。
本発明は、このような事情を考慮してなされたものであり、データ収集の効率を向上させることができるデータ収集装置、データ収集方法、およびプログラムを提供することを目的の一つとする。
本発明の一態様は、ネットワークを介してアクセス可能な装置からデータを収集する収集部と、前記収集部によって収集されたデータに含まれる、前記ネットワークを介してアクセス可能な装置に格納されたデータを参照するための参照情報が、所定の条件を満たす場合に、前記参照情報の一部を構成して複数の参照情報の群を特定する所属情報に対する前記収集部による収集を抑制する抑制部とを備えるデータ収集装置である。
本発明の一態様によれば、データ収集の効率を向上させることができる。
実施形態のクロールサーバ10の使用環境を示す図である。 実施形態のクロールサーバ10の構成を示す機能ブロック図である。 実施形態のホストランク情報D1の一例を示す図である。 実施形態のコンテンツ第1情報D2の一例を示す図である。 実施形態のコンテンツ第2情報D3の一例を示す図である。 実施形態の注目ホストリストD4の一例を示す図である。 実施形態のホストランク決定部20の構成を示す機能ブロック図である。 実施形態のクロール処理の流れの一例を示すフローチャートである。 実施形態のホスト選択処理の流れの一例を示すフローチャートである。 実施形態のホストランク決定処理の流れの一例を示すフローチャートである。 実施形態の注目ホストリスト生成処理の流れの一例を示すフローチャートである。
[概要]
以下、図面を参照して、データ収集装置、データ収集方法、およびプログラムの実施形態について説明する。本実施形態では、データ収集装置がクロールサーバであるものとして説明する。クロールサーバとは、インターネット等のネットワークを介してアクセス可能な複数の装置からデータを自動的に収集するサーバである。本実施形態のクロールサーバは、価値の高いデータを提供する有益なホストに集中してクロールを行う。クロールサーバは、1つのプロセッサによって実現されてもよく、複数のプロセッサが分散処理することで実現されてもよい。本実施形態において、ホストとは、ネットワークを介してアクセス可能な装置に格納されたデータを参照するための参照情報(例えば、URL(Uniform Resource Locator))の一部を構成して複数の参照情報の群を特定する所属情報をいう。以下、実施形態について説明する。
[全体構成]
図1は、本実施形態のクロールサーバ10(データ収集装置)の使用環境を示す図である。クロールサーバ10は、画像データおよびHTML(HyperText Markup Language)データの少なくとも一方を含むページデータ(コンテンツ)を、ネットワークNWを介してアクセス可能な複数の外部サーバS1(装置)から収集する。コンテンツは、外部サーバS1に格納されており、ブラウザによって閲覧可能なページ単位のデータである。ただし、コンテンツは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータでもよい。ネットワークNWは、インターネットやWAN(Wide Area Network)、LAN(Local Area Network)等を含む。
[クロールサーバの構成]
以下、クロールサーバ10の構成について説明する。図2は、クロールサーバ10の構成を示す機能ブロック図である。クロールサーバ10は、例えば、データ収集部12(収集部)と、解析部14(判定部)と、バッチ処理部16と、記憶部18とを備える。バッチ処理部16は、例えば、ホストランク決定部20(抑制部、決定部)と、注目ホストリスト生成部22(生成部)と、ホスト選択部24とを備える。記憶部18には、例えば、ホストランク情報D1、コンテンツ第1情報D2、コンテンツ第2情報D3、および注目ホストリストD4が記憶されている。
ホストランク情報D1には、データ収集の対象となるホストと、データ収集の優先順位を示す指標であるホストランクとが関連付けされたデータが含まれる。図3は、本実施形態のホストランク情報D1の一例を示す図である。このホストランク情報D1には、例えば、ホスト“AAA”であり、ホストランク“30”であるデータが含まれている。
コンテンツ第1情報D2には、URLと、このURLの関連情報とが関連付けされたデータが含まれる。URLの関連情報には、例えば、URLに対応するコンテンツが取得済みであるか未取得であるかを示すステータス1、コンテンツの取得の成否(例えば、HTTPステータスコード)を示すステータス2、およびデータ収集の優先度を示す指標であるスコアが含まれる。図4は、本実施形態のコンテンツ第1情報D2の一例を示す図である。このコンテンツ第1情報D2には、例えば、URLが“ddd.ddd”であり、ステータス1が“取得済”であり、ステータス2が“301”であり、スコアが“5”であるデータが含まれている。尚、初期状態のコンテンツ第1情報D2には、クロールを開始するための基礎となる複数のURLが格納されている。また、初期状態のコンテンツ第1情報D2では、全てのURLに関して、ステータス1および2は「未取得」、スコアは「未付与」となっている。
コンテンツ第2情報D3には、URLと、このURLと対応するコンテンツとが関連付けされたデータが含まれる。コンテンツには、HTMLデータおよび画像データが含まれる。図5は、本実施形態のコンテンツ第2情報D3の一例を示す図である。このコンテンツ第2情報D3には、例えば、URLが“aaa.aaa”であり、コンテンツが“HTMLデータ1”であるデータが含まれている。
注目ホストリストD4には、データ収集の優先度が高いホストの一覧データが含まれる。図6は、本実施形態の注目ホストリストD4の一例を示す図である。この注目ホストリストD4には、例えば、データ収集の優先度が高いホストとして、“BBB”、“EEE”等が含まれている。
データ収集部12(フェッチャー)は、複数の外部サーバS1からコンテンツを収集(フェッチ)する。収集されるコンテンツには、HTMLデータおよび画像データが含まれる。データ収集部12は、収集したコンテンツを記憶部18のコンテンツ第1情報D2に記憶させる。
解析部14(パーサー)は、データ収集部12により収集されて記憶部18に記憶されたHTMLデータを解析する。例えば、解析部14は、HTMLデータから、ヘッダ部分を除くテキストデータを抽出し、抽出したテキストデータのなかに、新しいURLが含まれているか否かを判定する。ここで、「新しいURL」とは、記憶部18に未登録のURLである。解析部14は、抽出したテキストデータに新しいURLが含まれていると判定した場合、そのURLを新しいURLとして記憶部18のコンテンツ第1情報D2(ステータス1および2は「未取得」、スコアは「未付与」)に記憶させる。
また、解析部14は、注目ホストリストD4を参照し、上述の新しいURLに含まれるホストが注目ホストリストD4に含まれているか否かを判定する。解析部14は、新しいURLに含まれるホストが注目ホストリストD4に含まれていると判定した場合、このホストが優先度の高い有益なホストであると判定する。そして、解析部14は、この新しいURLを、データ収集部12の収集対象のURLのリスト(キュー)に追加する。これにより、この新しいURLに対するデータ収集が行われる。
ホストランク決定部20は、記憶部18に記憶されたコンテンツを解析し、そのコンテンツに対応するURLが属するホストに対して、データ収集の優先順位を示す指標であるホストランクを決定する。ホストランク決定部20は、日次、週次等、所定の時間間隔のバッチ処理によりホストランクを決定する。
ホストランク決定部20は、コンテンツに予め定義された特定の情報が含まれる場合に、付与する優先度を高くする。例えば、ホストランク決定部20は、コンテンツに、コンテンツの内容を示す特定の情報が含まれる場合に、付与する優先度を高くする。
図7は、本実施形態のホストランク決定部20の構成を示す機能ブロック図である。図7に示すように、ホストランク決定部20は、例えば、タグ情報検出部30、語句検出部32、スコア付与部34、およびホストランク決定部36を備える。
タグ情報検出部30は、コンテンツのなかに、特定の情報として設定された特定のタグが含まれるか否かを検出する。「特定のタグ」は、例えば、OGP(Open Graph Protocol)タグのようなコンテンツの内容を示すテキストを含むタグである。OGPタグは、リンク先を示すURL、リンク先のコンテンツの言語、リンク先のウェブサイトの名前、リンク先のコンテンツのタイトル、リンク先のコンテンツに関する画像データのURL、リンク先のコンテンツの概要を示すテキストデータ等がひと纏まりになった情報である。
タグ情報検出部30は、コンテンツのなかに、OGPタグが含まれるか否かを検出する。例えば、タグ情報検出部30は、コンテンツのなかにOGPタグが含まれることを検出した場合、OGPタグのなかから、リンク先を示すURL、リンク先のコンテンツのタイトル、リンク先のコンテンツに関する画像データのURL、リンク先のコンテンツの概要を示すテキストデータ等の情報を抽出する。また、タグ情報検出部30は、コンテンツのなかにOGPタグが含まれることを検出した場合、OGPタグが含まれることを示す情報と、OGPタグを含むデータに対応するURLとを対応付けてスコア付与部34に入力する。
語句検出部32は、コンテンツのなかに、特定の情報として設定された「特定の語句」が含まれるか否かを検出する。「特定の語句」は、ウェブページのメタタグに含まれる語句であって、コンテンツの内容を示すものとして予め登録された語句でもよい。例えば、語句検出部32は、コンテンツに含まれるテキストデータに対して形態素解析を行い、予め登録された語句を検索することで、特定の語句が含まれるか否かを検出する。語句検出部32は、検出対象の特定の語句を検出した場合、特定の語句が含まれることを示す情報と、その特定の語句を含むデータに対応するURLとを対応付けてスコア付与部34に入力する。
スコア付与部34は、タグ情報検出部30による検出結果と、語句検出部32による検出結果とに基づき、コンテンツに対応するURLに、データ収集の優先度を示すスコアを付与する。
本実施形態では、スコア付与部34は、タグ情報検出部30の検出結果に基づき、URLに対して優先度として第1スコアを付与する。スコア付与部34は、タグ情報検出部30によってデータのなかに特定のタグが含まれることを検出した場合、データ収集の優先度が高くなるように第1スコアを高くする。また、本実施形態では、スコア付与部34は、語句検出部32の検出結果に基づき、コンテンツに対応するURLに対して優先度として第2スコアを付与する。スコア付与部34は、語句検出部32によってデータのなかに特定の語句が含まれることを検出した場合、データ収集の優先度が高くなるように第2スコアを高くする。
ホストランク決定部36は、スコア付与部34によって付与された第1スコアおよび第2スコアの少なくとも一方に基づいて、ホストに対して、データ収集の優先順位を設定する。例えば、ホストランク決定部36は、URLごとに第1スコアと第2スコアとの合計スコアを算出する。そして、ホストランク決定部36は、ホストごとに、このホストに属する複数のURLにおける合計スコアの平均値を算出する。そして、ホストランク決定部36は、この合計スコアの平均値が高い順に、ホストランクを決定する。
また、ホストランク決定部36は、処理対象のホストに属するURLのなかで、所定のURLへの転送(リダイレクト)を指示するURLの割合が所定の閾値以上であると判定した場合、すなわち、処理対象のホストに属するURLの多くがリダイレクトを示すものであると判定した場合、ホストランクを所定の順位だけ下げる。これにより、ホストランク決定部36は、コンテンツに対応するURLが所定の条件(URLの多くがリダイレクトを示すものである)を満たす場合に、このURLが属するホストに対する収集を抑制する。リダイレクト用のURLであるか否かは、データ収集部12によるデータ収集の際に取得したHTTPステータスコードが、リダイレクトを示す300系であるか否かに基づいて判断される。
また、ホストランク決定部36は、処理対象のホストに属するURLのなかで、コンテンツデリバリネットワーク(CDN:Content Delivery Network)を用いて取得される画像データ、動画データ等を示すURLの割合が所定の閾値以上であると判定した場合、すなわち、処理対象のホストに属するURLの多くが画像データ等を示すものであると判定した場合、ホストランクを所定の順位だけ下げる。これにより、ホストランク決定部36は、コンテンツに対応するURLが所定の条件(処理対象のホストに属するURLの多くが画像データ等を示すものである)を満たす場合に、このURLが属するホストに対する収集を抑制する。画像用のURLであるか否かは、URLの拡張子に基づいて判断される。画像用の拡張子には、例えば、“jpg”,“png”の拡張子が含まれる。
また、ホストランク決定部36は、処理対象のホストに属するURLのなかで、データ収集部12によるデータ収集の際に取得したHTTPステータスコードが、サーバエラーを示す500系であると判定した場合や、認証エラーを示す400系であると判定した場合に、ホストランクを所定の順位だけ下げるようにしてもよい。また、ホストランク決定部36は、外部サーバS1からクロールを拒否する旨の情報を受け取っている場合(例えば、robot.txtに拒否URLが指定されている場合)、この拒否URLが属するホストを所定の順位だけ下げるようにしてもよい。
また、ホストランク決定部20は、処理対象のコンテンツのテキストデータに含まれるURLのリンク先のコンテンツに基づいて、ホストランクを決定してもよい。例えば、ホストランク決定部20は、処理対象のコンテンツのテキストデータに含まれるURLのリンク先のコンテンツを取得し、取得したコンテンツに対して上述の第1スコアに相当するスコア(以下、「第3スコア」という)および上述の第2スコアに相当するスコアを算出し(以下、「第4スコア」という)、第1から第4スコアに基づいて、ホストランクを決定する。
例えば、ホストランク決定部36は、処理対象のコンテンツに対応するURLごとに、第1および第2スコアの合計スコアを算出する。さらに、ホストランク決定部36は、処理対象のコンテンツに対応するURLごとに、この処理対象のコンテンツに含まれるURLのリンク先の第3および第4スコアの合計スコアの平均値を算出する。さらに、ホストランク決定部36は、処理対象のコンテンツに対応するURLごとに、第1および第2スコアの合計スコアと、第3および第4スコアの合計スコアの平均値との2次合計スコアを算出する。そして、ホストランク決定部36は、ホストごとに、このホストに属するURLの2次合計スコアの平均値を算出し、この2次合計スコアの平均値が高い順に、ホストランキングを決定する。
また、ホストランク決定部20は、処理対象のコンテンツのテキストデータに含まれるURLがリダイレクトを示すURLである場合、リダイレクト先のURLが示すコンテンツに対して、上述の第3スコアおよび第4スコアを算出し、データ収集の優先順位を設定する。
注目ホストリスト生成部22は、記憶部18に記憶されたホストランク情報D1を参照し、複数のホストのなかから優先してデータを収集するホストを選出した注目ホストリストD4を生成する。例えば、注目ホストリスト生成部22は、ホストランクが所定の順位以上のホスト(例えば、上位100位)を注目ホストとして決定し、注目ホストリストD4に登録する。注目ホストリスト生成部22は、日次、週次等、所定の時間間隔のバッチ処理により注目ホストを決定する。
ホスト選択部24は、記憶部18に記憶されたコンテンツ第1情報D2を参照し、未だコンテンツが取得されていないURLを含むホスト(ステータス1が“未取得”であるURLが属するホスト)を選択する。さらに、ホスト選択部24は、選択したホストに属するURLのうち、コンテンツが未取得である少なくとも1つのURLをデータ収集部12の収集対象のURLのリストに追加する。これにより、キューに追加されたURLを用いたデータ収集がデータ収集部12により行われる。ホスト選択部24は、日次、週次等、所定の時間間隔のバッチ処理によりホスト選択処理を行う。
クロールサーバ10の構成要素は、例えば、コンピュータにおいて、CPU(Central Processing Unit)等のハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
クロールサーバ10の記憶部18は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置等により実現される。また、記憶部18の一部または全部は、NASや外部のストレージサーバ等、クロールサーバ10がアクセス可能な外部装置であってもよい。
[クロール処理]
以下、クロールサーバ10のクロール処理について説明する。図8は、本実施形態のクロール処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、クロールサーバ10によって一定時間以上に亘って継続的に繰り返し実行される。尚、本フローチャートは、1つのURLを起点として実施するクロール処理の流れを示す。
まず、データ収集部12は、記憶部18に記憶されたコンテンツ第1情報D2に含まれる複数のURLのなかから、データ収集に用いるURLを選出し、選出したURLを用いてコンテンツの格納先である外部サーバS1にアクセスし、コンテンツを収集する(S101)。例えば、データ収集部12は、コンテンツ第1情報D2に含まれる複数のURLのなかから、クロールを開始するための基礎となるURLとして格納されたURL(ステータス1および2が「未取得」、スコアが「未付与」)を選出する。データ収集部12は、収集に用いたURLと、収集したコンテンツとを関連付けたデータを、記憶部18に記憶されたコンテンツ第2情報D3に追加する。
次に、解析部14は、記憶部18に記憶されたコンテンツ第1情報D2から、データ収集部12により新たに追加されたURLとコンテンツとの組を読み出し、読み出したコンテンツを解析する(S103)。ここで、解析部14により読み出されるコンテンツは、HTMLデータである。例えば、解析部14は、読み出したHTMLデータから、ヘッダ部分を除くテキストデータを抽出し、抽出したテキストデータのなかに含まれるURLが、新しいURLであるか否かを判定する。解析部14は、抽出したテキストデータに新しいURLが含まれる場合、そのURLを新しいURL(ステータス1および2が「未取得」、スコアが「未付与」)としてコンテンツ第1情報D2に追加する(S105)。
次に、解析部14は、注目ホストリストD4を参照し、上記の新しいURLが属するホストが注目ホストリストD4に含まれているか否かを判定する(S107)。解析部14は、新しいURLが属するホストが注目ホストリストD4に含まれていると判定した場合、このホストが優先度の高い有益なホストであると判定する。そして、解析部14は、この新しいURLを、データ収集部12の収集対象のURLのリスト(キュー)に追加する(S109)。これにより、データ収集部12は、キューに追加された新しいURLを用いて、再度データ収集を行い(S101)、解析部14は、再度上述の解析処理を行う(S103〜S109)。これにより、優先度の高い有益なホストに属するURLが新しく発見された場合、そのURLを用いてデータを迅速に収集することができる。
一方、解析部14は、新しいURLに属するホストが注目ホストリストD4に含まれていないと判定した場合、このホストが優先度の低いホストであると判定する。この場合、新たなURLを用いたデータ収集は行われず、本フローチャートの処理が終了する。
[ホスト選択処理]
以下、クロールサーバ10のホスト選択処理について説明する。図9は、本実施形態のホスト選択処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、日次、週次等、所定の時間間隔のバッチ処理として実行される。
まず、ホスト選択部24は、記憶部18に記憶されたコンテンツ第1情報D2を参照し、未だコンテンツが取得されていないURLを含むホスト(ステータス1が“未取得”であるURLが属するホスト)を選択する(S201)。ここで選択されるホストは、上述のクロール処理において、解析部14により注目ホストリストD4に含まれていないと判定され、データ収集の対象とならなかったURLが属するホストを含む。
次に、ホスト選択部24は、選択したホストに属するURLのうち、コンテンツ取得済みであるURL(ステータス1が“取得済”であるURL)の数が、所定の閾値以下であるか否かを判定する(S203)。例えば、ホストごとにフェッチしたURLの数(コンテンツ取得済みURLの数)を記憶部18で管理しておき、ホスト選択部24は、このコンテンツ取得済みURLの数を参照することで、上述の判定処理を行う。ホスト選択部24は、コンテンツ取得済みであるURLの数が、閾値以下ではないと判定した場合、このホストに属するURLをデータ収集部12の収集対象に設定しない。尚、ホスト選択部24が、選択したホストに属するURLのうち、コンテンツ取得済みであるURLの割合と、所定の閾値とを比較するようにしてもよい。
一方、ホスト選択部24は、コンテンツ取得済みであるURLの数が、閾値以下であると判定した場合、記憶部18に記憶されたコンテンツ第1情報D2から、選択したホストに属するURLのうち、コンテンツが未取得である(ステータス1が“未取得”である)少なくとも1つのURLを取得する(S205)。次に、ホスト選択部24は、取得したURLをデータ収集部12の収集対象のURLのリスト(キュー)に追加する(S207)。これにより、キューに追加されたURLを用いたデータ収集がデータ収集部12により行われる。
ホスト選択部24は、取得したURLをデータ収集部12の収集対象のURLのリストに追加した後、または上述の判定処理においてコンテンツ取得済みであるURLの数が閾値以下ではないと判定した場合、コンテンツ第1情報D2に含まれる全てのホストに対する処理が完了したか否かを判定する(S209)。ホスト選択部24は、全てのホストに対する処理が完了していないと判定した場合、未処理のホストに対して上述のホスト選択処理(S201)以降の処理を繰り返す。一方、ホスト選択部24は、全てのホストに対する処理が完了したと判定した場合、本フローチャートの処理を終了する。
尚、上記の実施形態においては、ホスト選択部24が、未だコンテンツが取得されていないURLに関して、コンテンツの取得処理を行わせる例を説明した。しかしながら、ホスト選択部24は、コンテンツが取得済みのURLに関して、再度、コンテンツの取得処理を行わせるようにしてもよい。これにより、コンテンツが更新された場合等に、コンテンツの最新のデータを取得することが可能である。
[ホストランク決定処理]
以下、クロールサーバ10のホストランク決定処理について説明する。図10は、本実施形態のホストランク決定処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、日次、週次等、所定の時間間隔のバッチ処理として実行される。尚、本フローチャートは、1つのホストに対するホストランク決定処理の流れを示す。
まず、ホストランク決定部20は、記憶部18に記憶されたコンテンツ第1情報D2から、処理対象とするホストを選択し、選択したホストに属するURLを取得する(S301)。次に、ホストランク決定部20は、取得したURLに対して上述したスコア付与を行う(S303)。次に、ホストランク決定部20は、そのURLが属するホストのホストランクを決定する(S305)。
次に、ホストランク決定部20は、記憶部18に記憶されたコンテンツ第1情報D2から、取得したURLのHTTPステータスコード(「ステータス2」)を取得する(S307)。次に、ホストランク決定部20は、取得したURLのHTTPステータスコードのうち、リダイレクトを示すHTTPステータスコードの割合(リダイレクトを示すURLの割合)を算出し、この割合が所定の閾値以上であるか否かを判定する(S309)。リダイレクトを示すHTTPステータスコードは、例えば、300系のコードである。
ホストランク決定部20は、リダイレクトを示すURLの割合が所定の閾値以上であると判定した場合、すなわち、処理対象のホストに属するURLの多くがリダイレクトを示すものであると判定した場合、ホストランクを所定の順位だけ下げる(S311)。一方、ホストランク決定部20は、リダイレクトを示すURLの割合が所定の閾値以上ではないと判定した場合、すなわち、処理対象のホストに属するURLにリダイレクトを示すもの数が少ないと判定した場合、上述のホストランクを下げる処理を行わない。
次に、ホストランク決定部20は、処理対象とするホストに属するURLのうち、画像データ、動画データ等を示すURLの割合を算出し、この割合が所定の閾値以上であるか否かを判定する(S313)。ホストランク決定部20は、例えば、URLの拡張子に基づいて、URLが、画像等を示すものであるか否かを判定する。尚、ホストランク決定部20は、URLに対応するコンテンツのヘッダ情報に基づいて、URLが、画像等を示すものであるか否かを判定してもよい。
ホストランク決定部20は、画像等を示すURLの割合が所定の閾値以上であると判定した場合、すなわち、処理対象のホストに属するURLの多くが画像等を示すものであると判定した場合、ホストランクを所定の順位だけ下げる(S315)。一方、ホストランク決定部20は、画像等を示すURLの割合が所定の閾値以上ではないと判定した場合、すなわち、処理対象のホストに属するURLに画像等を示すものの数が少ないと判定した場合、上述のホストランクを下げる処理を行わない。ホストランク決定部20は、上述の処理により決定したホストランクを記憶部18のホストランク情報D1に追加または更新する。以上により、本フローチャートの処理を終了する。
尚、上記の実施形態においては、ホストランク決定部20が、リダイレクトを示すURLの割合が所定の閾値以上であると判定した場合や、画像等を示すURLの割合が所定の閾値以上であると判定した場合に、ホストランクを所定の順位だけ下げる例を説明した。しかしながら、ホストランク決定部20は、上述の場合に、処理対象のホストを、ホストランクから除外するようにしてもよい。
尚、上記の実施形態においては、リダイレクトを示すURLに対する処理と、画像等を示すURLに対する処理との両方を実施する例を説明した。しかしながら、ホストランク決定部20は、リダイレクトを示すURLに対する処理と、画像等を示すURLに対する処理とのいずれか一方を行うようにしてもよい。
[注目ホストリスト生成処理]
以下、クロールサーバ10の注目ホストリスト生成処理について説明する。図11は、本実施形態の注目ホストリスト生成処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、日次、週次等、所定の時間間隔のバッチ処理として実行される。
まず、注目ホストリスト生成部22は、記憶部18に記憶されたホストランク情報D1を取得する(S401)。次に、注目ホストリスト生成部22は、ホストランク情報D1に含まれる複数のホストのなかから、優先してデータを収集するホストを選出した注目ホストリストD4を生成する(S403)。例えば、注目ホストリスト生成部22は、ホストランクが所定の順位以上のホスト(例えば、上位100位)を注目ホストとして決定し、注目ホストリストD4を生成する。以上により、本フローチャートの処理が終了する。
以上において説明した実施形態によれば、ネットワークを介してアクセス可能な装置からデータを収集する収集部と、前記収集部によって収集されたデータに含まれる、前記ネットワークを介してアクセス可能な装置に格納されたデータを参照するための参照情報が、所定の条件を満たす場合に、前記参照情報の一部を構成して複数の参照情報の群を特定する所属情報に対する前記収集部による収集を抑制する抑制部とを備えることで、データ収集の効率を向上させることができる。すなわち、不要なデータを多く含む価値の低いホストに対するクロールを抑制し、有効なデータを多く含む有益なホストに集中してクロールを行うことができる。これにより、データ収集に要する時間を短縮し、リソースを有効に活用することができる。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
10…クロールサーバ(データ収集装置)
12…データ収集部(収集部)
14…解析部
16…バッチ処理部
18…記憶部
20…ホストランク決定部
22…注目ホストリスト生成部
24…ホスト選択部

Claims (9)

  1. ネットワークを介してアクセス可能な装置からデータを収集する収集部と、
    前記収集部によって収集されたデータに含まれる、前記ネットワークを介してアクセス可能な装置に格納されたデータを参照するための参照情報が、所定の条件を満たす場合に、前記参照情報の一部を構成して複数の参照情報の群を特定する所属情報に対する前記収集部による収集を抑制する抑制部と
    を備え、
    前記所定の条件は、前記参照情報が、他の参照情報への転送を指示する情報であることである、
    データ収集装置。
  2. 前記所定の条件は、前記参照情報と対応するデータが、画像データまたは動画データであることである、
    請求項1に記載のデータ収集装置。
  3. 前記収集部により収集されたデータに基づき、前記所属情報に関するデータ収集の優先順位を決定する決定部をさらに備える、
    請求項1または2に記載のデータ収集装置。
  4. 前記決定部は、前記参照情報が、他の参照情報への転送を指示する情報である場合、前記他の参照情報と対応するデータに基づき、前記優先順位を決定する、
    請求項3に記載のデータ収集装置。
  5. 前記決定部により決定された前記所属情報に対するデータ収集の優先順位に基づき、データ収集が優先される所属情報のリストを生成する生成部をさらに備える、
    請求項3に記載のデータ収集装置。
  6. 前記決定部は、前記参照情報が、所定の条件を満たす場合に、前記所属情報に対するデータ収集の優先順位を下げる、
    請求項3に記載のデータ収集装置。
  7. 前記所属情報が、予め定義されたデータ収集が優先される所属情報のリストに含まれているか否かを判定し、前記所属情報が前記リストに含まれていると判定した場合、前記参照情報と対応するデータを前記収集部に収集させる判定部
    をさらに備える、
    請求項1から6のうちいずれか一項に記載のデータ収集装置。
  8. コンピュータが、
    ネットワークを介してアクセス可能な装置からデータを収集し、
    前記収集されたデータに含まれる、前記ネットワークを介してアクセス可能な装置に格納されたデータを参照するための参照情報が、所定の条件を満たす場合に、前記参照情報の一部を構成して複数の参照情報の群を特定する所属情報に対する収集を抑制する
    データ収集方法であって、
    前記所定の条件は、前記参照情報が、他の参照情報への転送を指示する情報であることである、
    データ収集方法
  9. コンピュータに、
    ネットワークを介してアクセス可能な装置からデータを収集させ、
    前記収集されたデータに含まれる、前記ネットワークを介してアクセス可能な装置に格納されたデータを参照するための参照情報が、所定の条件を満たす場合に、前記参照情報の一部を構成して複数の参照情報の群を特定する所属情報に対する収集を抑制させる
    プログラムであって、
    前記所定の条件は、前記参照情報が、他の参照情報への転送を指示する情報であることである、
    プログラム
JP2017160210A 2017-08-23 2017-08-23 データ収集装置、データ収集方法、およびプログラム Active JP6960274B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017160210A JP6960274B2 (ja) 2017-08-23 2017-08-23 データ収集装置、データ収集方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017160210A JP6960274B2 (ja) 2017-08-23 2017-08-23 データ収集装置、データ収集方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2019040297A JP2019040297A (ja) 2019-03-14
JP6960274B2 true JP6960274B2 (ja) 2021-11-05

Family

ID=65726464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017160210A Active JP6960274B2 (ja) 2017-08-23 2017-08-23 データ収集装置、データ収集方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6960274B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7197531B2 (ja) * 2020-03-19 2022-12-27 ヤフー株式会社 情報処理装置、情報処理システム、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2019040297A (ja) 2019-03-14

Similar Documents

Publication Publication Date Title
US8799262B2 (en) Configurable web crawler
AU2004240188B8 (en) Building and using subwebs for focused search
KR101063364B1 (ko) 웹 크롤링 프로세스 동안 웹 사이트에 우선순위를 부여하기위한 시스템 및 방법
US7908234B2 (en) Systems and methods of predicting resource usefulness using universal resource locators including counting the number of times URL features occur in training data
US9081861B2 (en) Uniform resource locator canonicalization
US7496581B2 (en) Information search system, information search method, HTML document structure analyzing method, and program product
US20110302148A1 (en) System and Method for Indexing Food Providers and Use of the Index in Search Engines
Agre et al. Keyword focused web crawler
US8676782B2 (en) Information collection apparatus, search engine, information collection method, and program
Pal et al. Effective focused crawling based on content and link structure analysis
US20120066195A1 (en) Search assist powered by session analysis
KR100485321B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
JP6960274B2 (ja) データ収集装置、データ収集方法、およびプログラム
JP4824070B2 (ja) クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム
Soulemane et al. Crawling the hidden web: An approach to dynamic web indexing
JP5462713B2 (ja) Webページ収集装置、方法及びプログラム
JP6745744B2 (ja) データ収集システム、データ収集方法、およびプログラム
KR101508190B1 (ko) 유해 사이트 수집 장치 및 방법
JP6739379B2 (ja) 情報処理装置、情報処理方法、プログラム、および広告情報処理システム
JP2010286888A (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
RU2660593C2 (ru) Способ и сервер определения исходной ссылки на исходный объект
Liu et al. Constructing a reliable Web graph with information on browsing behavior
JP2010072909A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP6982520B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6985189B2 (ja) データ収集装置、データ収集方法、およびプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211011

R150 Certificate of patent or registration of utility model

Ref document number: 6960274

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350