JP5405190B2 - コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法 - Google Patents

コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法 Download PDF

Info

Publication number
JP5405190B2
JP5405190B2 JP2009114642A JP2009114642A JP5405190B2 JP 5405190 B2 JP5405190 B2 JP 5405190B2 JP 2009114642 A JP2009114642 A JP 2009114642A JP 2009114642 A JP2009114642 A JP 2009114642A JP 5405190 B2 JP5405190 B2 JP 5405190B2
Authority
JP
Japan
Prior art keywords
content
information
management information
collection
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009114642A
Other languages
English (en)
Other versions
JP2010186459A (ja
Inventor
和計 秋永
稔 栄藤
大祐 鳥居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2009114642A priority Critical patent/JP5405190B2/ja
Publication of JP2010186459A publication Critical patent/JP2010186459A/ja
Application granted granted Critical
Publication of JP5405190B2 publication Critical patent/JP5405190B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法に関するものである。
従来から、コンピュータ端末や携帯電話機からインターネットやイントラネット等の通信網内から情報を閲覧することが広く行われている。このような情報閲覧においては、HTML(HyperText Markup Language)とHTTP(Hyper Text Transfer Protocol)と呼ばれるプロトコルを用いて情報を送受信している。ここでは、URI(Uniform Resource Identifier)やURL(Uniform Resource Locator)と呼ばれるコンテンツの格納場所を一意に識別する識別子を利用して、Webサイトと呼ばれるインターネットやイントラネット上のサーバにアクセスを行い、コンテンツを取得している。また、HTMLで記述された文書コンテンツ内にはハイパーリンク(単に、「リンク」とも言う)と呼ばれる他のコンテンツの格納先を示す情報が埋め込まれており、これによって端末のユーザは次々と関連性の高いコンテンツを参照することが可能になっている。
一方で、インターネット上のコンテンツは非常に膨大な数が存在し、リンクをたどるだけでは目的のコンテンツにたどり着くのは容易ではない。この問題に対処するために、検索システムや検索エンジンと呼ばれるインターネット上のコンテンツの検索機能を実現するシステムが存在する。これらの検索システムは主に3つの機能要素から構成されており、第1の機能要素は、コンテンツを収集するためのクローラと呼ばれる資源収集機能、第2の機能要素は、インデクサと呼ばれる収集された情報資源を解析し、検索可能な状態の情報に変換する機能、第3の機能要素は、クエリーサーバと呼ばれるキーワードやそれに準ずる関連情報を元に、収集された情報資源から適切な情報を返答する機能である(非特許文献1参照。)。
このような検索システムを実現するにあたって、クローラによる情報資源の収集を効率化するために種々の工夫が検討されている。例えば、ブラウザと呼ばれる情報閲覧手段に履歴保存機能を設けることで、情報資源の収集作業を補助させることが実現されている(下記特許文献1参照。)。また、情報資源を自動的に収集するための資源収集エージェントの数を増やし、並列的に情報資源を収集することで情報資源の網羅性や収集効率を上げることが検討されている(下記特許文献2参照。)。さらには、検索結果のWebページについてリンク切れの有無をチェックして、リンク切れを生じていれば該当リンクのURLを検索用データベースから削除することによって、検索用データベースの効率的な更新を実現している(下記特許文献3参照。)。
特開2005−190065号公報 特開2000−122912号公報 特開2001−337973号公報
Kevin Hemenway, Tara Calishain, "Spidering Hacks", O’REILLY, Oct. 2003
しかしながら、上述した検索システムに関する従来技術においては、コンテンツの更新やコンテンツの削除についての情報は、クローラ等の収集機能によってコンテンツを収集して初めて取得することができるものである。そのために、例えば、コンテンツが仮に削除されていたとしても、検索タイミングによっては検索結果においてそのコンテンツがあたかも存在しているように表示されてしまう。このような問題に対処するためには、コンテンツの収集周期を短くすることが考えられるが、コンテンツを保存しているサーバ装置の負荷を増大させてしまうことになるため、むやみに収集周期を短くすることは望ましくない。さらには、この収集周期の短縮化による負荷の増大は、ユーザの閲覧処理にも影響を与えてしまう結果となる。
そこで、本発明は、かかる課題に鑑みて為されたものであり、コンテンツの更新や削除のタイミングに対応した管理情報を効率的に取得することが可能なコンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法を提供することを目的とする。
上記課題を解決するため、本発明のコンテンツ管理情報収集システムは、通信網内からコンテンツを受信する情報通信端末からコンテンツの受信を要求するコンテンツ要求を受信するとともに、通信網内のコンテンツを配信するサーバ及び情報通信端末からコンテンツに関するメタ情報を受信する要求受信手段と、要求受信手段によって受信されたコンテンツ要求及びメタ情報に基づいて、コンテンツの格納先情報と情報通信端末の種別を示す端末種別とを含む管理情報を、コンテンツを識別するコンテンツ識別情報に関連づけて格納するとともに、管理情報をコンテンツ要求に基づいて逐次更新する管理情報格納手段と、管理情報格納手段によって格納された管理情報を参照することにより、収集対象のコンテンツに対応する格納先情報を特定し、当該特定された格納先情報に基づいて格納先情報に対応するコンテンツを通信網から収集するコンテンツ収集手段と、コンテンツ収集手段によって収集されたコンテンツからリンク情報を抽出し、リンク情報によって特定されるリンク先コンテンツの格納先情報を含む管理情報を、リンク先コンテンツを識別するコンテンツ識別情報に関連づけて、管理情報格納手段に格納するリンク先抽出手段とを備え、管理情報格納手段は、要求受信手段によって受信されたメタ情報に含まれる端末種別に該当する端末種別を有するものが管理情報の中に存在しない場合には、当該メタ情報からコンテンツのデータ内容を識別するための内容識別情報を抽出し、内容識別情報が同一である管理情報が格納されていない場合は、内容識別情報及び端末種別を含む管理情報を、コンテンツ識別情報に関連づけて格納する一方で、内容識別情報が同一である管理情報が既に格納されている場合は、当該管理情報をメタ情報に含まれる端末種別を追加するように更新し、さらに、コンテンツ収集手段によって収集されたコンテンツに基づいて、管理情報格納手段によって格納されているコンテンツに対応する管理情報を更新する、ことを特徴とする。
或いは、本発明のコンテンツ管理情報収集方法は、要求受信手段が、通信網内からコンテンツを受信する情報通信端末からコンテンツの受信を要求するコンテンツ要求を受信するとともに、通信網内のコンテンツを配信するサーバ及び情報通信端末からコンテンツに関するメタ情報を受信する要求受信ステップと、管理情報格納手段が、要求受信手段によって受信されたコンテンツ要求及びメタ情報に基づいて、コンテンツの格納先情報と情報通信端末の種別を示す端末種別とを含む管理情報を、コンテンツを識別するコンテンツ識別情報に関連づけて格納するとともに、管理情報をコンテンツ要求に基づいて逐次更新する管理情報格納ステップと、コンテンツ収集手段が、管理情報格納手段によって格納された管理情報を参照することにより、収集対象のコンテンツに対応する格納先情報を特定し、当該特定された格納先情報に基づいて格納先情報に対応するコンテンツを通信網から収集するコンテンツ収集ステップと、リンク先抽出手段が、コンテンツ収集手段によって収集されたコンテンツからリンク情報を抽出し、リンク情報によって特定されるリンク先コンテンツの格納先情報を含む管理情報を、リンク先コンテンツを識別するコンテンツ識別情報に関連づけて、管理情報格納手段に格納するリンク先抽出ステップとを備え、管理情報格納ステップでは、要求受信手段によって受信されたメタ情報に含まれる端末種別に該当する端末種別を有するものが管理情報の中に存在しない場合には、当該メタ情報からコンテンツのデータ内容を識別するための内容識別情報を抽出し、内容識別情報が同一である管理情報が格納されていない場合は、内容識別情報及び端末種別を含む管理情報を、コンテンツ識別情報に関連づけて格納する一方で、内容識別情報が同一である管理情報が既に格納されている場合は、当該管理情報をメタ情報に含まれる端末種別を追加するように更新し、さらに、コンテンツ収集手段によって収集されたコンテンツに基づいて、管理情報格納手段によって格納されているコンテンツに対応する管理情報を更新する、ことを特徴とする。
このようなコンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法によれば、情報通信端末と通信網との間で中継されたコンテンツ要求を基に、コンテンツの格納先情報を含むコンテンツ管理情報が、該当コンテンツに関するコンテンツ識別情報に関連づけて格納されるとともに、その管理情報はコンテンツの要求の際に逐次更新される。さらに、格納された管理情報が参照されることにより、収集対象のコンテンツが特定されて収集されるとともに、収集されたコンテンツに基づいて管理情報が更新される。さらに、収集されたコンテンツからリンク情報が抽出され、そのリンク情報が示すコンテンツの格納先情報を含む管理情報もコンテンツ識別情報に関連付けて格納されることにより、リンク先のコンテンツも収集対象に加えられる。これにより、情報通信端末と通信網との間で送受信されるコンテンツ要求によって効率的にコンテンツに関する管理情報が取得及び更新され、その管理情報を基に収集対象を特定することで、コンテンツの更新や削除のタイミングに対応して、必要な管理情報をタイムリーに取得することができる。
要求受信手段は、情報通信端末からコンテンツ検索要求を受信し、当該コンテンツ検索要求に応じてコンテンツ検索結果を返信した後に、情報通信端末からコンテンツ検索結果に対応するコンテンツ要求を受信し、管理情報格納手段は、要求受信手段によって受信されたコンテンツ要求に基づいて、管理情報を格納するとともに、管理情報をコンテンツ要求に基づいて逐次更新することとしてもよい。
また、要求受信手段は、情報通信端末との間で、情報通信端末から通信網に送信されるコンテンツ要求、及び当該コンテンツ要求に応じて通信網から返信されるコンテンツを中継し、管理情報格納手段は、情報中継手段によって中継されたコンテンツ要求及びコンテンツに基づいて、管理情報を格納するとともに、管理情報をコンテンツに基づいて逐次更新することとしてもよい。
管理情報格納手段は、コンテンツに含まれるメタ情報からコンテンツの格納状態を示す状態情報を抽出し、状態情報を管理情報に含めて格納し、コンテンツ収集手段は、管理情報に含まれる状態情報に基づいてコンテンツが収集可能か否かを判定することにより、収集対象のコンテンツを特定する、ことが好ましい。こうすれば、中継されたコンテンツからコンテンツに関する状態情報が抽出されて、それに基づいてコンテンツ収集可能な否かが判定されるので、無駄なコンテンツ収集に関する通信トラフィックが削減されて、効率的なコンテンツ収集が可能にされる。
また、管理情報格納手段は、コンテンツに含まれるメタ情報からコンテンツの更新有無を識別するための更新情報を抽出し、更新情報を管理情報に含めて格納し、コンテンツ収集手段は、管理情報に含まれる更新情報に基づいてコンテンツの更新有無を判定することにより、収集対象のコンテンツを特定する、ことも好ましい。かかる構成を採れば、中継されたコンテンツからコンテンツに関する更新情報が抽出されて、それに基づいて収集が必要なコンテンツのみが特定されるので、全体のコンテンツの管理情報を最新の状態に保つことが容易となる。
さらに、管理情報格納手段は、コンテンツに含まれるメタ情報からコンテンツの種別を示す種別情報を抽出し、コンテンツ収集手段は、種別情報に基づいてコンテンツが分析可能か否かを判定することにより、収集対象のコンテンツを特定する、ことも好ましい。この場合、中継されたコンテンツからコンテンツに関する種別情報が抽出されて、それに基づいて分析が可能なコンテンツのみが収集されるので、無駄なコンテンツ収集に関する通信トラフィックが削減されて、効率的なコンテンツ収集が可能にされる。
またさらに、コンテンツ収集手段は、要求受信手段によって受信されたコンテンツ要求に基づいて、コンテンツの収集頻度を集計し、収集頻度に基づいてコンテンツの重要度を判別することにより、収集対象のコンテンツを特定する、ことも好ましい。こうすれば、中継されたコンテンツからコンテンツに関する収集頻度が集計されて、それに基づいてコンテンツの重要度が判別されて収集されるので、より重要度の高いコンテンツの管理情報を最新の状態に保つことが容易となる。
さらにまた、コンテンツ収集手段は、要求受信手段によって受信されたコンテンツ要求に基づいて、コンテンツの収集頻度を集計し、集計頻度に基づいてコンテンツの優先度を決定することにより、収集対象のコンテンツを優先度に応じて収集する、ことも好ましい。かかる構成を採れば、中継されたコンテンツからコンテンツに関する収集頻度が集計されて、それに基づいてコンテンツの優先度が判別されて収集されるので、より優先度の高いコンテンツの管理情報を最新の状態に保つことが容易となる。
また、管理情報格納手段は、コンテンツに含まれるメタ情報からコンテンツのデータ内容を識別するための内容識別情報を抽出し、内容識別情報を含む管理情報を、コンテンツを識別するコンテンツ識別情報に関連づけて格納するとともに、内容識別情報が同一である管理情報が既に格納されている場合は、当該管理情報をメタ情報に基づいて更新する、ことも好ましい。通信網内のコンテンツは格納場所が異なっていても情報資源が異なっているとは限らないため、コンテンツのデータ内容が同一であるものは同一の管理情報としてコンテンツを管理することにより、無駄なコンテンツ収集に関する通信トラフィックが削減されて、効率的なコンテンツ収集が可能にされる。
また、コンテンツ収集手段は、収集対象のコンテンツ毎にコンテンツ収集手段による収集回数を一定時間カウントし、収集回数が閾値を超えていないコンテンツを収集する、ことも好ましい。
本発明によれば、コンテンツの更新や削除のタイミングに対応した管理情報を効率的に取得することができる。
本発明の第1実施形態にかかるコンテンツ管理情報収集システムの概略構成図である。 図1のコンテンツ管理情報収集システムの構成をより詳細に示すブロック図である。 図1のコンテンツ管理情報収集システムを構成するサーバ装置のハードウェア構成を示す図である。 図2の管理情報格納部に格納された管理情報のデータ構成を示す図である。 (a)は、図2の管理情報格納部に格納されたレスポンスコードテーブルのデータ構成を示す図、(b)は、図2の管理情報格納部に格納されたUUPVテーブルのデータ構成を示す図、(c)は、図2の管理情報格納部に格納された認証コンテンツリストのデータ構成を示す図である。 (a)は、図2の管理情報格納部に格納された収集可能コンテンツリストのデータ構成を示す図、(b)は、図2の管理情報格納部に格納されたサーバ負荷耐性テーブルのデータ構成を示す図、(c)は、図2の管理情報格納部に格納された人気コンテンツリストのデータ構成を示す図である。 図2の管理情報格納部に格納されたリンクテーブルのデータ構成を示す図である。 図1のコンテンツ管理情報収集システムにおけるコンテンツ収集動作を示すシーケンス図である。 図1のコンテンツ管理情報収集システムにおけるコンテンツ中継時の動作を示すシーケンス図である。 図1のコンテンツ管理情報収集システムにおけるコンテンツ中継時の動作を示すシーケンス図である。 図1のコンテンツ管理情報収集システムにおける管理情報の更新時の動作を示すシーケンス図である。 図1のコンテンツ管理情報収集システムにおけるコンテンツの優先収集時の動作を示すシーケンス図である。 本発明の第2実施形態にかかるコンテンツ管理情報収集システムの概略構成図である。 図13のコンテンツ管理情報収集システムの構成をより詳細に示すブロック図である。 図14の管理情報格納部に格納された管理情報のデータ構成を示す図である。 (a)は、図14の管理情報格納部に格納されたレスポンスコードテーブルのデータ構成を示す図、(b)は、図14の管理情報格納部に格納されたUUPVテーブルのデータ構成を示す図である。 図13のコンテンツ管理情報収集システムにおけるコンテンツ検索処理時の動作を示すシーケンス図である。 図13のコンテンツ管理情報収集システムにおけるコンテンツ検索処理時の動作を示すシーケンス図である。
以下、図面とともに本発明によるコンテンツ管理情報収集システム及びコンテンツ管理情報収集方法の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
[第1実施形態]
図1は、本発明の第1実施形態にかかるコンテンツ管理情報収集システム1の概略構成図、図2は、図1のコンテンツ管理情報収集システム1の構成をより詳細に示すブロック図である。図1に示すように、本実施形態にかかるコンテンツ管理情報収集システム1は、情報中継用サーバ11、管理情報補正用サーバ12、情報収集用サーバ13、及びデータベースサーバ14とを備えており、移動体通信網、インターネット、及びイントラネット等によって構成される通信ネットワークNWを介して、複数の携帯通信端末(情報通信端末)2と相互にデータ通信が可能な状態で接続されている。このコンテンツ管理情報収集システム1は、携帯通信端末2からの検索要求を受けて、通信ネットワークNW内のコンテンツに関する検索情報を返信するいわゆる検索エンジンである。
この携帯通信端末2は、HTTPを用いて通信を行う機能を有し、通信ネットワークNW内の情報資源の格納位置を示すURLを指定することで、通信ネットワークNW内のサーバ装置(図示せず)からHTTPを用いてコンテンツをダウンロード(受信)して情報表示する機能を有する。このコンテンツには、HTTPヘッダと呼ばれるデータ領域内にそのコンテンツに関するヘッダ情報が記載されている。なお、携帯通信端末2としては、携帯電話機のほか、通信ネットワークNWとの間でデータ通信が可能なパーソナルコンピュータ、PDA(Personal Digital Assistants)等の各種の情報通信端末を使用することができる。
コンテンツ管理情報収集システム1は、情報中継用サーバ11、管理情報補正用サーバ12、情報収集用サーバ13、及びデータベースサーバ14からなるコンピュータシステムを構成している。ここで、図3は、コンテンツ管理情報収集システム1を構成するサーバ装置のハードウェア構成図である。このように、サーバ装置は、物理的には、同図に示すように、CPU22、主記憶装置であるRAM23及びROM24、ハードディスク装置、メモリカード等の補助記憶装置26、入力デバイスである入力キー、マイク等の入力装置27、スピーカ、ディスプレイ等の出力装置28、通信ネットワークNWとの間でのデータの送受信を司る通信モジュール25などを含む情報処理装置として構成されている。各サーバ装置によって実現される機能は、図3に示すCPU22、RAM23等のハードウェア上に所定のプログラムを読み込ませることにより、CPU22の制御のもとで通信モジュール25、入力装置27、出力装置28を動作させるとともに、RAM23や補助記憶装置26におけるデータの読み出し及び書き込みを行うことで実現される。
なお、情報中継用サーバ11、管理情報補正用サーバ12、情報収集用サーバ13、及びデータベースサーバ14は、それぞれが物理的に独立したサーバ装置であってもよいし、複数が統合されて1つのサーバ装置として構成されていてもよいし、それぞれが複数のサーバ装置にさらに分割されてもよい。
以下、コンテンツ管理情報収集システム1を構成する各サーバ装置の機能について詳細に説明する。
まず、情報中継用サーバ11は、携帯通信端末2との間で、携帯通信端末2から通信ネットワークNWに送信される情報要求信号であるHTTPリクエスト(コンテンツ要求)、及びこのHTTPリクエストに応じて通信ネットワークNWから携帯通信端末2に向けて返信されるコンテンツを中継するサーバ装置であり、要求受信手段として動作する。詳細には、情報中継用サーバ11は、HTTPリクエストの中継の際に、そのHTTPリクエストを送信した携帯通信端末2の識別情報(端末ID)と、HTTPリクエストに含まれるURLとを対応付けて一次保存する機能と、そのHTTPリクエストに対する通信ネットワークNWからの応答を、携帯通信端末2に中継する機能を有する。さらに、情報中継用サーバ11は、その応答からヘッダ情報を抽出する機能と、そのヘッダ情報と一次保存しておいたURL及び端末IDとを突合する機能と、応答に含まれるコンテンツの本文からメッセージダイジェストと呼ばれるコンテンツの特徴を示す文字列をハッシュ関数を用いて計算する機能と、突合されたヘッダ情報とメッセージダイジェストとを、コンテンツメタ情報としてURL及びコンテンツとともに管理情報補正用サーバ12に送出する機能とを有している。
情報中継用サーバ11が出力するコンテンツメタ情報には、例えば、コンテンツを配信したサーバのアドレスであるサーバIPアドレス、携帯通信端末2の端末種別を示すUA(ユーザエージェント)、コンテンツの更新日時を示す最終更新日時(Last Modified)、コンテンツの容量を示すサイズ(Content-Length)、コンテンツ作成日(Date)、コンテンツのデータに関する種別を示すコンテンツ種別(Content-type)、コンテンツ転送先(Location)、コンテンツ参照元(Referer)、コンテンツ言語(Content-Language)、コンテンツ有効期限(Age)などが含まれている。
管理情報補正用サーバ12は、情報中継用サーバ11から送られたURLとそれに対応するコンテンツメタ情報を分析し、コンテンツの更新有無やコンテンツの格納状態、コンテンツの種別、コンテンツの同一性、コンテンツの重要度、及びサーバの処理能力等を判断し、それらの判断結果を基にデータベースサーバ14内の該当するコンテンツの管理情報を格納及び更新する。この管理情報補正用サーバ12は、図2に示すように、機能的な構成要素として、情報受信部121、情報抽出部122、及び管理情報格納・更新部(管理情報格納手段)123を備えている。
情報受信部121は、情報中継用サーバ11が中継したコンテンツメタ情報とそれに対応するURLとを受け取る。また、情報受信部121は、受け取ったコンテンツメタ情報及びURLを情報抽出部122に出力する。
情報抽出部122は、コンテンツメタ情報の中からUA、最終更新日時や、サイズ等の全ての情報要素を抽出し、それらの情報要素をURLとともに管理情報格納・更新部123に出力する。
管理情報格納・更新部123は、URLに基づいてデータベースサーバ14の管理情報格納部(管理情報格納手段)142を参照し、該当URLに対応するコンテンツの管理情報が存在するか否かを判定し、存在する場合にはその管理情報を読み出す。図4は、管理情報格納部142に格納された管理情報のデータ構成を示す図である。同図に示すように、管理情報には、URL“http://www.aaa.com/index.htm”と、コンテンツの格納状態を示す状態“OK”と、次回のコンテンツの収集時刻を示す次収集日時“2008/09/25 10:00”と、前回のコンテンツの収集時刻を示す前収集日時“2008/09/20 10:00”と、コンテンツの更新時を示す更新日時“2008/09/15 13:00”と、コンテンツの容量を示すサイズ“3510”と、UA“A,B,C”と、メッセージダイジェスト“89f…”とが、コンテンツを識別するコンテンツID“0001”に関連づけて格納されている。
そして、管理情報格納・更新部123は、情報中継用サーバ11から受け取ったヘッダ情報に含まれるHTTPリクエストに対する応答状態を示すレスポンスコードを抽出および確認する。その結果、そのレスポンスコードがコンテンツの格納状態が異常であることを示している場合(例えば、コード“404:Not Found”のようにコンテンツが削除された状態を示す場合)には、該当する管理情報格納部142の管理情報に含まれる状態を“NG”に更新する。
また、管理情報格納・更新部123は、情報抽出部122によって抽出された情報要素と管理情報とを比較することによって、コンテンツが更新されているか否かの判断も行う。具体的には、最新更新日時、メッセージダイジェスト、サイズ等のコンテンツの更新有無を識別するための更新情報に基づいて、最新更新日時が更新されている場合には、管理情報格納部142の管理情報に含まれる次収集日時を、次回のコンテンツの収集タイミングに変更する。さらに、管理情報格納・更新部123は、最新更新日時が記載されていない場合には、メッセージダイジェストやサイズが変化しているか否かを判断し、変化している場合はコンテンツが更新されたと見なして、次収集日時を次回の収集タイミングに設定する。
また、管理情報格納・更新部123は、情報抽出部122によって抽出された情報要素にUAが含まれる場合、管理情報に含まれるUAに該当するUAが存在するか否かを判定する。その結果、該当するUAが存在しない場合には、コンテンツのデータ内容の同一性を識別するための内容識別情報として、最新更新日時、サイズ、メッセージダイジェストを用いて、これらと管理情報格納部142から読み出された管理情報に含まれるデータとを比較する。そして、管理情報格納・更新部123は、これらのデータが一致しない場合にはコンテンツが同一でないと判断し、情報抽出部122によって抽出された情報要素及びURLに基づいて、管理情報のレコードを追加する。一方、これらのデータが一致した場合にはコンテンツが同一であると判断し、情報抽出部122によって抽出されたUAを、該当する管理情報のUAに追加して更新する。
さらに、管理情報格納・更新部123は、情報抽出部122によって抽出された情報要素に基づいて、管理情報格納部142内のレスポンスコードテーブルに新規レコードを格納するとともに、そのレスポンスコードテーブルを基に管理情報格納部142内のUUPVテーブル及び認証コンテンツリストを定期的に更新する。図5(a)は、管理情報格納部142に格納されたレスポンスコードテーブルのデータ構成を示す図であり、図5(b)は、UUPVテーブルのデータ構成を示す図である、図5(c)は、認証コンテンツリストのデータ構成を示す図である。
図5(a)に示すように、レスポンスコードテーブルには、情報中継用サーバ11によってHTTPリクエストが中継される毎にレコードが追加され、そのレスポンスコードテーブルには、アクセス日時“2008/09/25 10:01:05”、URL“http://www.aaa.com/index.htm”、サーバIPアドレス“1.1.1.1”、端末ID“0001”、コンテンツ種別“html”、レスポンスコード“200”が含まれている。
また、図5(b)に示すように、UUPVテーブルには、該当URL“http://www.aaa.com/index.htm”に対してコンテンツを収集した頻度の集計値を示すUU(Unique user)数“10335”、及びPV(Page View)数“165155”が記録される。このUU数は、URLにアクセスした端末IDの数をカウントとすることにより計算され、PV数は、URL毎のアクセス数をカウントすることにより計算される。
さらに、図5(c)に示すように、コンテンツの取得の際に認証処理を必要とするURLであることを示す認証コンテンツリストが作成及び更新される。すなわち、レスポンスコードテーブルに基づいて、同一URLに複数の端末IDからアクセスをしており、かつ、レスポンスコードが異なっているようなURLが特定され、そのURLが認証コンテンツリストに逐次追加される。
併せて、管理情報格納・更新部123は、情報抽出部122によって抽出されたコンテンツ種別に基づいて、コンテンツが分析可能なものであるか否かを判定し、その判定結果に基づいて管理情報格納部142内の収集可能コンテンツリストにレコードを格納する。図6(a)は、管理情報格納部142に格納された収集可能コンテンツリストのデータ構成を示す図である。同図に示すように、収集可能コンテンツリストには、コンテンツ種別がテキストやHTML等の分析可能なコンテンツである場合のURL“http://www.aaa.com/index.htm”が追加される。
情報収集用サーバ13は、図2に示すように、機能的な構成要素として、コンテンツ収集部(コンテンツ収集手段)131、及びリンク先抽出部(リンク先抽出手段)132を含んでいる。
コンテンツ収集部131は、データベースサーバ14に格納された管理情報を参照することにより、管理情報の更新が必要なコンテンツを特定する。具体的には、管理情報に含まれる次収集日時と現在時刻とを比較し、次収集日時が現在時刻を経過している管理情報であって、状態が“NG”でないものを抽出し、この管理情報に含まれるURLを、収集対象のコンテンツの格納先情報として特定する。すなわち、コンテンツ収集部131は、コンテンツの状態によってそのコンテンツが収集可能か否かを判定する。この場合、URLが抽出できなかった場合には、コンテンツ収集部131は、管理情報格納部142内のUUPVテーブルを参照してURLを抽出してもよい。具体的には、UU数又はPV数が一定値以上であるURLを抽出してもよい。
そして、コンテンツ収集部131は、抽出されたURLを基に、以下の手順で処理する。すなわち、コンテンツ収集部131は、URLを基にしたコンテンツの格納先のIPアドレスを要求するDNSリクエストを、通信ネットワークNWに向けて送信し、格納先のサーバ装置のIPアドレスを取得する。そして、コンテンツ収集部131は、そのIPアドレスに対するアクセス数を予め一定時間カウントしておき、そのカウント数がデータベースサーバ14内に格納されたIPアドレス毎のアクセス数に関する閾値を超えていないか否かを判定する。その結果、カウント数が閾値を超えていない場合には、そのIPアドレスを用いて通信ネットワークNWに対してHTTPリクエストを送信することによって、該当URLに対応するコンテンツを収集すると同時に、そのIPアドレスに対するアクセス数をカウントアップ(増分)する。このアクセス数に関する閾値は、管理情報格納部142に格納されたUUPVテーブルに基づいて、IPアドレス毎にPV数やUU数が集計され、その集計結果を基準にして予め設定されている。
なお、コンテンツ収集部131は、HTTPリクエストの送信の際に、管理情報に含まれるUAを付加して送信してもよい。このUAは、その文字列が異なる場合はコンテンツが異なることが知られており、そのため、UAをHTTPリクエストに含めることで、同一条件でのコンテンツの管理情報の更新が可能になる。この場合、管理情報に含まれる複数のUAのうち、代表的なものを選択すればよい。
リンク先抽出部132は、コンテンツ収集部131によって収集されたコンテンツの本文からリンク情報を抽出する。例えば、リンク先抽出部132は、HTMLで記述されたコンテンツ本文から、ハイパーリンク“<a href="http//www.aaa.com/a.htm">リンク</a>”という記述を抽出し、その中に含まれているリンク先のURLを示すリンク情報“http//www.aaa.com/a.htm”をさらに抽出する。そして、リンク先抽出部132は、抽出した全てのリンク情報“http//www.aaa.com/a.htm”を、リンク元のURL“http//www.aaa.com/index.htm”に対応付けたリンクテーブルとして、管理情報格納部142に格納する。このリンク情報は、リンク先のコンテンツを識別するための識別情報としても使用されている。図7には、リンクテーブルのデータ構成の一例を示している。
さらに、リンク先抽出部132は、抽出したリンク先のURLが管理情報に存在しない場合には、管理情報格納部142内のUUPVテーブル、収集可能コンテンツリスト、認証コンテンツリスト、及びレスポンスコードテーブルを参照して管理情報に追加する。UUPVテーブルは、コンテンツの収集頻度によってコンテンツの重要度を判別して、その判別結果によって収集対象コンテンツを特定するために参照される。具体的には、UU数又はPV数が一定値以上であるURLであって、収集可能コンテンツリストに存在するとともに、認証コンテンツリストに存在しないで、かつ、レスポンスコードテーブル内に存在する場合であってレスポンスコードが正常値(例えば、コード“2XX”のようにHTTPリクエストが正常に処理された状態を示す場合)であるURLを、管理情報に追加する。
また、コンテンツ収集部131は、収集されたコンテンツのHTTPヘッダを解析し、コンテンツ状態を示すレスポンスコード、最終更新日時や、サイズ情報などを抽出する。さらに、コンテンツ収集部131は、コンテンツの本文を対象にして、データサイズ、メッセージダイジェストを計算する。このメッセージダイジェストの計算に用いるハッシュ関数にはMD5等が用いられるが、コンテンツのデータを圧縮できる関数で有れば様々な関数で代用できる。そして、コンテンツ収集部131は、収集したコンテンツをデータベースサーバ14のコンテンツ格納部141に格納するとともに、このコンテンツに対応する管理情報を解析結果に基づいて更新する。また、コンテンツ収集部131は、収集したコンテンツと同一のものがコンテンツ格納部141に存在しない場合には、コンテンツIDを新たに付与し、URL、サイズ、メッセージダイジェストを、コンテンツIDに関連づけるとともに、更新日時を現在日時に設定して管理情報を作成し、その管理情報を管理情報格納部142内に格納する。
以下、図8〜11を参照して、コンテンツ管理情報収集システム1の動作について説明するとともに、併せてコンテンツ管理情報収集システム1におけるコンテンツ管理情報収集方法について詳述する。図8は、コンテンツ管理情報収集システム1におけるコンテンツ収集動作を示すシーケンス図、図9及び図10は、コンテンツ管理情報収集システム1におけるコンテンツ中継時の動作を示すシーケンス図、図11は、コンテンツ管理情報収集システム1における管理情報の更新時の動作を示すシーケンス図である。
まず、図8を参照して、情報収集用サーバ13によってコンテンツ収集処理が定期的に起動される(ステップS01)。そうすると、情報収集用サーバ13からデータベースサーバ14に対して収集対象のコンテンツに関するURLリストが要求される(ステップS02)。これに対して、データベースサーバ14から、管理情報に格納されたURLから収集対象のURLリストが作成されて返答される(ステップS03,S04)。
次に、情報収集用サーバ13から情報中継用サーバ11を経由して、URLリストに含まれるURLを基にしたDNSリクエストが送信される(ステップS05)。これに応答して、通信ネットワークNWからURLに対応するIPアドレスが返される(ステップS06)。これに対して、情報収集用サーバ13にて、該当IPアドレスに対するアクセス数が予め決定された閾値を超えていないかが判定されることにより、URLに対応するサーバ装置の負荷が確認される(ステップS07)。
その後、サーバの負荷が閾値以下であれば、情報収集用サーバ13から通信ネットワークNWに向けてそのIPアドレスを用いてHTTPリクエストが送信される(ステップS08)。その結果、通信ネットワークNWからコンテンツが返信され(ステップS09)、情報収集用サーバ13によってコンテンツのヘッダ情報及び本文が解析される(ステップS10)。そして、解析結果に応じて、データベースサーバ14内のコンテンツ及びそれに対応する管理情報が更新される(ステップS11,S12)。ステップS05〜S12までの処理は、URLリストの分だけ繰り返され、コンテンツの収集を完了する(ステップS13)。
次に、図9〜10を参照して、コンテンツ管理情報収集システム1におけるコンテンツ中継時の動作について説明する。
まず、携帯通信端末2のユーザから特定のURLを指定したコンテンツの要求入力が受け付けられる(ステップS21)。そうすると、情報中継用サーバ11によって、携帯通信端末2からのHTTPリクエストが通信ネットワークNWに中継され(ステップS22)、携帯通信端末2の端末IDとHTTPリクエストに含まれるURLとが対応付けて保持される(ステップS23)。その後、情報中継用サーバ11によって、それに対する通信ネットワークNWからの応答としてコンテンツが受信され、携帯通信端末2に中継される(ステップS24)。そのとき、中継するコンテンツの中からHTTPヘッダが抽出される(ステップS25)。次に、情報中継用サーバ11により、コンテンツの本文からメッセージダイジェストが計算される(ステップS26)。さらに、情報中継用サーバ11により、HTTPヘッダと一次保持しておいたURL及び端末IDとが突合される(ステップS27)。
情報中継用サーバ11によって中継されたコンテンツは、携帯通信端末2によって受信されてディスプレイ等の情報出力手段に出力される(ステップS29)。一方、情報中継用サーバ11によって取得されたURL、及びヘッダ情報とメッセージダイジェストを含むコンテンツメタ情報は、管理情報補正用サーバ12に送出される(ステップS30)。
これに対して、管理情報補正用サーバ12では、受け取ったURLに基づいて、当該URLを含むコンテンツに関する管理情報の参照要求をデータベースサーバ14に送る(ステップS31)。この参照要求に応じて、データベースサーバ14から管理情報補正用サーバ12に対して、当該URLに対応するコンテンツメタ情報を含む管理情報が返される(ステップS32)。それに伴って、管理情報補正用サーバ12は、コンテンツメタ情報及び管理情報の分析を開始する(ステップS33)。
最初に、管理情報補正用サーバ12は、コンテンツメタ情報の情報要素と管理情報とを比較して、コンテンツが更新されているかを判定して、それによって該当するコンテンツの管理情報の更新が必要か否かを判断する(ステップS34)。コンテンツが更新されていると判定された場合には、データベースサーバ14の管理情報における次更新日時を次回の収集タイミングに更新する(ステップS35)。
また、管理情報補正用サーバ12は、HTTPヘッダに含まれるレスポンスコードが“404”であるか否かによりコンテンツが削除されていないかを判定する(ステップS36)。その結果、コンテンツが削除されたと判定された場合には、データベースサーバ14の管理情報の状態を“NG”に変更する(ステップS37)。
次に、管理情報補正用サーバ12は、HTTPヘッダに端末種別を示すUAが記載されているか否かを判定する(ステップS38)。UAが含まれている場合には、管理情報に含まれるUAのリストの中に該当するUAが含まれているかを確認した後に、最新更新日時、サイズ、メッセージダイジェスト等の内容識別情報を用いて、管理情報に対応するコンテンツと情報中継用サーバ11によって中継されたコンテンツとの同一性を判断する。その結果、コンテンツが同一であると判断された場合は、管理情報のUAにHTTPヘッダに記載されていたUAを追加し、コンテンツが異なると判断された場合は、今回中継されたコンテンツに関する管理情報のレコードを新規に作成する(ステップS39)。
さらに、管理情報補正用サーバ12は、HTTPヘッダに含まれるコンテンツ種別に基づいて、コンテンツが分析可能であることを判断することによって、コンテンツの収集可否を決定する(ステップS40)。そして、コンテンツが分析可能であると判断されたURLを、データベースサーバ14の収集可能コンテンツリストに追加する(ステップS41)。この収集可能コンテンツリストは、情報収集用サーバ13においてリンク先のコンテンツを収集するか否かを判断する際に用いられる。
次に、図11を参照して、管理情報補正用サーバ12によるデータベースサーバ14内の情報の更新動作について説明する。
管理情報補正用サーバ12の管理情報等の更新動作は、定時起動等により定期的に起動される(ステップS51)。まず、管理情報補正用サーバ12は、データベースサーバ14に格納したレスポンスコードテーブルをもとにして、URL毎のUUPVテーブルを更新する(ステップS52)。次に、管理情報補正用サーバ12は、サーバ負荷耐性テーブルを更新する(ステップS53、図6(b))。このサーバ負荷耐性テーブルは、URLによって特定されるコンテンツ配信元のサーバのIPアドレス毎のアクセスに対する耐性を示すものであり、情報収集用サーバ13のコンテンツ収集部131によってコンテンツの収集の有無を判断する際のする際の閾値として参照される。
さらに、管理情報補正用サーバ12は、データベースサーバ14内のレスポンスコードテーブルに基づいて認証コンテンツリストを更新する(ステップS54)。この認証コンテンツリストは、コンテンツ取得の際に認証処理を必要とするURLを示すものであり、コンテンツ収集部131がコンテンツの収集可否を判断するために参照される。また、管理情報補正用サーバ12は、レスポンスコードテーブルに基づいてURL毎のコンテンツの収集頻度を集計し、その結果に基づいて、URL毎のコンテンツの人気度を示す人気コンテンツリストを作成及び更新する(ステップS55、図6(c))。この人気コンテンツリストは、URL毎の収集頻度の微分値が人気度として更新されており、コンテンツ収集部131がコンテンツの重要度を判断して、その重要度に従って収集対象のコンテンツを特定するために参照される。例えば、微分値が所定の閾値を超えた場合に収集対象のコンテンツとして特定される。これにより、管理情報補正用サーバ12による管理情報等の更新動作が完了される(ステップS56)。
以上説明したコンテンツ管理情報収集システム1及びコンテンツ管理情報収集システム方法によれば、携帯通信端末2と通信ネットワークNWとの間で中継されたHTTPリクエスト及びコンテンツを基に、URLを含む管理情報が格納されるとともに、その管理情報はコンテンツの中継の際に逐次更新される。さらに、格納された管理情報が参照されることにより、収集対象のコンテンツが特定されて収集されるとともに、収集されたコンテンツに基づいて管理情報が更新される。さらに、収集されたコンテンツからリンクが抽出され、そのリンクが示すURLを含む管理情報も管理情報として格納されることにより、リンク先のコンテンツも収集対象に加えられる。これにより、携帯通信端末2と通信ネットワークNWとの間で送受信されるHTTPリクエストリクエスト及びコンテンツによって効率的にコンテンツに関する管理情報が取得及び更新され、その管理情報を基に収集対象を特定することで、コンテンツの更新や削除のタイミングに対応して、必要な管理情報をタイムリーに取得することができる。
また、中継されたコンテンツからコンテンツに関する格納状態が抽出されて、それに基づいてコンテンツ収集可能な否かが判定される。さらに、コンテンツを取得する際に認証処理が必要なサイトか否かも判定される。これにより、無駄なコンテンツ収集に関する通信トラフィックが削減されて、効率的なコンテンツ収集が可能にされる。また、検索エンジンとして使用された際に、ユーザが検索結果からコンテンツを取得する際のエラーを低減することができる。
また、中継されたコンテンツからコンテンツに関する更新情報が抽出されて、それに基づいて収集が必要なコンテンツのみが特定されるので、全体のコンテンツの管理情報を最新の状態に保つことが容易となる。つまり、更新が予測されるコンテンツの収集タイミングを直近のタイミングに設定することで、サーバ装置やネットワークの負荷を上げることなく、常に最新のコンテンツを保持することができる。
さらに、中継されたコンテンツからコンテンツに関する種別情報が抽出されて、それに基づいて分析が可能なコンテンツのみが収集されるので、無駄なコンテンツ収集に関する通信トラフィックが削減されて、効率的なコンテンツ収集が可能にされる。
また、中継されたコンテンツからコンテンツに関する収集頻度が集計されて、それに基づいてコンテンツの重要度が判別されて収集されるので、より重要度の高いコンテンツの管理情報を最新の状態に保つことが容易となる。
また、コンテンツに含まれるメタ情報からコンテンツのデータ内容を識別するための内容識別情報が抽出されて、コンテンツの同一性が判断された上で管理情報が更新される。これは、通信網内のコンテンツは格納場所が異なっていても情報資源が異なっているとは限らないためである。これにより、コンテンツのデータ内容が同一であるものは同一の管理情報としてコンテンツを管理することにより、無駄なコンテンツ収集に関する通信トラフィックが削減されて、効率的なコンテンツ収集が可能にされる。さらに、検索エンジンとして使用した場合に、同一のコンテンツを検索結果として生成する際に効率的に生成することができる。
さらに、URLに対応するサーバ毎の負荷耐性を考慮してコンテンツを収集することで、サーバの処理に対する影響を抑えることができる。
また、携帯通信端末2の端末種別(機種)を判断した後にコンテンツの同一性を判断するので、機種別に個別にコンテンツを管理する必要が無くなり、機種別に管理すべきか、機種間で同じコンテンツとして管理すべきかを決定することで効率的にコンテンツの管理が可能になる。また、コンテンツの検索結果を返す際にもユーザが検索結果を閲覧した際にコンテンツを表示できないといった事態を回避することができる。
ここで、コンテンツ管理情報収集システム1では、情報収集用サーバ13で収集したコンテンツのURLについてのみ、管理情報補正用サーバ12によって情報を補正させている。このような構成により、通常ではリンクの張られていないプライベートなサイトや、認証領域等の到達不可能なURLについての情報収集を極力排除することが可能になる。その結果、情報収集の網羅性とプライバシー保護とを両立できるという利点を有する。
[第2実施形態]
次に、本発明の第2実施形態について説明する。図13は、本発明の第2実施形態にかかるコンテンツ管理情報収集システム201の概略構成図、図14は、図13のコンテンツ管理情報収集システム201の構成をより詳細に示すブロック図である。コンテンツ管理情報収集システム201の第1実施形態との相違点は、携帯通信端末2からの情報要求信号及びコンテンツを中継する情報中継用サーバ11の代わりに、携帯通信端末2からの通信ネットワークNW内のコンテンツの検索要求を処理する要求受信手段としての検索エンジン用サーバ211を備えている点である。
検索エンジン用サーバ211は、通信ネットワークNW内のコンテンツの検索機能を実現するシステムであり、データベースサーバ14のコンテンツ格納部141に格納されたコンテンツを基に、インデクサ機能によってコンテンツを解析して検索可能な情報に変換し、クエリーサーバ機能により携帯通信端末2から送られたキーワード等の検索キーを基にして複数のコンテンツの中から適切なコンテンツ関連情報を返信する。
具体的には、検索エンジン用サーバ211は、携帯通信端末2から検索キーワードを含む検索クエリー(コンテンツ検索要求)を受信すると、インデクサ機能によって解析された情報の中から、検索キーワードに合致したコンテンツタイトル、コンテンツ抜粋データ等からなるリストを含む検索結果ページ(コンテンツ検索結果)を返信する。その際、検索エンジン用サーバ211は、携帯通信端末2からの検索ログ(以下、「クリックログ」と言う。)として、携帯通信端末2の端末ID、検索日時、検索結果のコンテンツタイトルに対応するURLのリスト、携帯通信端末2の端末機種を示すUA、検索結果ページ送信時刻等の情報を一時保持する。ここで、コンテンツタイトルに対応するURLのリストは、管理情報格納部142を参照することにより特定することができる。
また、検索エンジン用サーバ211は、検索結果ページのコンテンツタイトルの中から、特定コンテンツの受信を要求するコンテンツ要求を携帯通信端末2から受信する機能も有する。詳細には、携帯通信端末2から検索結果ページの中の特定コンテンツタイトルを選択する選択情報(クリック位置に関する情報等)を受信し、その選択情報を基に該当コンテンツを特定する。さらに、検索エンジン用サーバ211は、該当コンテンツに対応するURLを管理情報格納部142を参照することにより判別し、携帯通信端末2からのコンテンツ要求を、該当するURLを含むHTTPリクエストに変換(「リダイレクト」とも言う)して携帯通信端末2に返信する。これによって、携帯通信端末2がHTTPリクエストを通信ネットワークNWに中継することで、検索結果ページを基に所望のコンテンツを受信することができる。その際、検索エンジン用サーバ211は、クリックログとして、携帯通信端末2の端末ID、クリック日時、携帯通信端末2のUA、クリック位置情報、閲覧対象コンテンツのURL、及びリダイレクト(コンテンツ閲覧)時刻等の情報を一時保持する。
ここで、検索エンジン用サーバ211は、携帯通信端末2からのコンテンツ検索要求時及びコンテンツ要求時に保持したクリックログを、その都度管理情報補正用サーバ12に送信する。これに対して、管理情報補正用サーバ12によって第1実施形態と同様にして、管理情報格納部142内のコンテンツの管理情報が追加又は更新される。
すなわち、管理情報補正用サーバ12の情報受信部121は、検索エンジン用サーバ211から閲覧対象のコンテンツのURLを含むクリックログを受信すると、管理情報格納・更新部123に転送し、管理情報格納・更新部123は、そのクロックログに基づいて管理情報格納部142のコンテンツ管理情報を格納又は更新する。図15は、管理情報格納部142に格納された管理情報のデータ構成を示し、この管理情報には、URL“http://www.aaa.com/index.htm”と、次回のコンテンツの収集タイミングを示す次収集日時“2008/09/25 10:00”と、前収集日時“2008/09/20 10:00”と、UA“A,B,C”とが、コンテンツを識別するコンテンツID“0001”に関連づけて格納される。なお、クリックログからは特定できないような「状態」、「更新日時」、「サイズ」や「コンテンツダイジェスト」等の項目は、NULLに設定しても良いし、予め定められたデフォルトの情報に記録されても良い。
また、管理情報格納・更新部123は、クリックログを参照して、管理情報格納部142内のレスポンスコードテーブルに新規レコードを格納するとともに、そのレスポンスコードテーブルを基に管理情報格納部142内のUUPVテーブルを定期的に更新する。図16(a)は、管理情報格納部142に格納されたレスポンスコードテーブルのデータ構成を示す図であり、図16(b)は、UUPVテーブルのデータ構成を示す図である。図16(a)に示すように、レスポンスコードテーブルには、検索エンジン用サーバ211によってコンテンツタイトルの選択情報が受信される毎にレコードが追加され、そのレスポンスコードテーブルには、選択要求が受信された日時を示すアクセス日時“2008/09/25 10:01:05”、該当コンテンツタイトルに対応するURL“http://www.aaa.com/index.htm”、及び携帯通信端末2に関する端末ID“0001”が含まれている。また、図16(b)に示すように、UUPVテーブルには、該当URL“http://www.aaa.com/index.htm”に対してコンテンツを要求した頻度の集計値を示すUU(Unique user)数“10335”、及びPV(Page View)数“165155”が記録される。
上述のようにして格納および更新されたコンテンツに関する管理情報を参照することにより、情報収集用サーバ13のコンテンツ収集部131は、収集対象のコンテンツの格納先情報を特定する。その際、コンテンツ収集部131は、管理情報に含まれるURL及びUUPVテーブルを参照し、UU数又はPV数が一定値以上であるURLを、重要度の高いコンテンツであると判別し、そのURLを収集対象に加えるように管理情報の「次収集日時」を更新する。
なお、コンテンツ収集部131は、第1実施形態と同様にして、URLに対応するIPアドレス毎のアクセス数をカウントしておいて、そのアクセス数が所定の閾値を超えないようにコンテンツの収集タイミングを調整することもできる。この場合は、UUPVテーブルを参照することにより該当URLへのUU数、又はPV数を特定し、その数が多いものほどサーバ装置の処理能力が高いと判定して、UU数、PV数に応じて上記閾値を設定してもよい。
また、情報収集用サーバ13のリンク先抽出部132は、コンテンツ収集部131によって収集されたコンテンツからリンク情報を抽出し、抽出したリンク情報に含まれるURLが管理情報に存在しない場合には、UUPVテーブルを参照して該当URLを管理情報に追加する。具体的には、リンク先抽出部132は、UU数又はPV数が一定値以上であるURLを、重要度の高いコンテンツに関するものとして管理情報に追加する。
以下、図17を参照して、コンテンツ管理情報収集システム201におけるコンテンツ検索処理時の動作について説明する。
まず、携帯通信端末2のユーザから検索キーワードを含むコンテンツ検索要求入力が受け付けられる(ステップS221)。そうすると、検索エンジン用サーバ211によって、検索クエリーが通信ネットワークNWを介して携帯通信端末2から受信され(ステップS222)、それを契機にデータベースサーバ14を利用したコンテンツの検索処理が開始される(ステップS223)。これにより、検索エンジン用サーバ211により検索キーワードに合致するコンテンツタイトルリストを含む検索結果ページが取得されて(ステップS224)、検索処理が終了する(ステップS225)。その後、検索エンジン用サーバ211から携帯通信端末2に対して、検索結果ページが返信されるとともに(ステップS226)、検索要求に関するクリックログが記録される。
これに対して、携帯通信端末2において検索結果ページが閲覧されるとともに、その検索結果ページの中から受信対象のコンテンツが選択される(ステップS227)。その結果、携帯通信端末2から検索エンジン用サーバ211に向けて、コンテンツタイトルの選択情報が送信され(ステップS228)、検索エンジン用サーバ211において、そのコンテンツタイトルの選択情報を基にクリックログが記録される(ステップS229)。その後、検索エンジン用サーバ211から携帯通信端末2に対して、該当コンテンツに対応するURLを含むリダイレクト指示が送られ、このリダイレクト指示を基にして、携帯通信端末2から通信ネットワークNWにHTTPリクエストが送信されることにより、所望のコンテンツが受信される(ステップS231)。
検索エンジン用サーバ211によって記録されたクリックログは、その都度管理情報補正用サーバ12に送信される(ステップS229)。これに対して、管理情報補正用サーバ12では、受け取ったクリックログに含まれるURLに基づいて、当該URLを含むコンテンツに関する管理情報の参照要求をデータベースサーバ14に送る(ステップS232)。この参照要求に応じて、データベースサーバ14から管理情報補正用サーバ12に対して、当該URLに対応するコンテンツメタ情報を含む管理情報が返される(ステップS233)。それに伴って、管理情報補正用サーバ12は、コンテンツメタ情報及び管理情報の分析を開始する(ステップS234)。その後、図10を参照して説明したステップS34〜S41の処理と同様にして、データベースサーバ14内の情報を追加、更新する。
ここで、コンテンツ管理情報収集システム1におけるコンテンツ収集時の動作、管理情報更新時の動作は、図8、図11を参照して説明した動作と同様である。
以上説明したコンテンツ管理情報収集システム201によっても、携帯通信端末2から検索エンジンに送信されたコンテンツ要求を基に、URLを含む管理情報が格納されるとともに、その管理情報はコンテンツ要求の際に逐次更新される。さらに、格納された管理情報が参照されることにより、収集対象のコンテンツが特定されて収集されるとともに、収集されたコンテンツに基づいて管理情報が更新される。さらに、収集されたコンテンツからリンクが抽出され、そのリンクが示すURLを含む管理情報も管理情報として格納されることにより、リンク先のコンテンツも収集対象に加えられる。これにより、携帯通信端末2と検索エンジンとの間で送受信される検索クエリー及びコンテンツ選択情報によって効率的にコンテンツに関する管理情報が取得及び更新され、その管理情報を基に収集対象を特定することで、コンテンツの更新や削除のタイミングに対応して、重要性の高いコンテンツの管理情報をタイムリーに取得することができる。
なお、本発明は、前述した実施形態に限定されるものではない。例えば、情報収集用サーバ13は、データベースサーバ14内の人気コンテンツリストを参照して、コンテンツの優先度を決定して、その優先度に応じて優先的にコンテンツを収集するように動作してもよい。
図12は、この場合の情報収集用サーバ13によるコンテンツの優先収集動作を示すシーケンス図である。まず、情報収集用サーバ13は、定期的に優先収集を開始し(ステップS61)、データベースサーバ14から人気コンテンツリストを参照要求して読み出す(ステップS62,S63)。そして、その人気コンテンツリストに含まれる人気度に基づいて、優先的に処理するURLを決定し、そのURLを対象にして、図8のステップS05〜S12の動作と同様にして、コンテンツの収集及び管理情報の更新を繰り返す(ステップS64〜S72)。
このような優先収集動作によれば、コンテンツの優先度が判別されて収集されるので、より優先度の高いコンテンツの管理情報を最新の状態に保つことが容易となる。
また、検索エンジン用サーバ211は、携帯通信端末2からのコンテンツ要求に対するリダイレクト指示を送信する際には、それに併せて該当コンテンツに関するメタ情報(管理情報)を通信ネットワークNWから収集してもよい。このようにすることで、クリックログのみから取得できないコンテンツの管理情報(例えば、コンテンツの状態や更新日時等)も第1実施形態と同様に取得することができる。図18は、このような場合のコンテンツ管理情報収集システム201におけるコンテンツ検索処理時の動作を示すシーケンス図である。図18におけるステップS321〜S330,S333〜S335の動作は、図17のステップS221〜S228,S230〜234の動作と同一である。検索エンジン用サーバ211は、携帯通信端末2にリダイレクト指示を送信(ステップS329)した直後に、該当URLを送信先にしてHTTP HEADメソッドを利用したHTTPリクエストを送信し、該当URLによって特定されるサーバ装置からコンテンツ本体(メッセージボディ)を除くHTTPヘッダ情報を取得する(ステップS331)。このHTTP HEADメソッドで得られるヘッダ情報は、通常のHTTPリクエストによって得られる情報と同一である。そして、検索エンジン用サーバ211は、そのヘッダ情報とクリックログとを突合した後に、クリックログとヘッダ情報を権利情報補正用サーバ12に送信する(ステップS332)。このように、HTTP HEADメソッドを利用することで、ネットワークやサーバ装置に負荷をかけることなくコンテンツの管理情報を収集することができる。
また、情報収集用サーバ13のコンテンツ収集部131は、携帯通信端末2からのコンテンツ要求時に作成されるクロックログに基づいて、収集対象のコンテンツのURLを判別しているが、携帯通信端末2からの検索クエリー受信時に作成されるクリックログに基づいて、URLを判別してもよい。具体的には、コンテンツ収集部131は、検索クエリー受信時に作成されるクロックログに含まれるURLのリストをデータベースサーバ14内に保持しておいて、そのリストに含まれるURLを、出現回数等で順位付けすることにより、収集対象として加えるように動作してもよい。このようにしても、携帯通信端末2のユーザにとって重要度の高いコンテンツを特定することができる。
また、検索エンジン用サーバ211は、携帯通信端末2からの検索クエリー受信時と、携帯通信端末2からのコンテンツ要求時とで、別々のタイミングでクリックログを作成し管理情報補正用サーバ12に送信しているが、コンテンツ要求時の同一のタイミングで1つのクリックログを作成し送信してもよい。この場合のクリックログは、検索クエリー受信時に作成される検索結果ページの各コンテンツタイトルに対するリンク情報を基にして、携帯通信端末2からのコンテンツ要求の受信時にまとめて作成される。このリンク情報には、携帯通信端末2の端末ID、検索キーワード、検索結果ページ上の位置を示す位置情報、リダイレクト先URL等を含めることができ、例えば、検索キーワードとして“コーヒー”が指定された場合には、“<a href =“http://search.com/search.cgi?searchword=コーヒー&position=1&user_id=001&redirect=http://aaa.com/index.htm&.....”>http://aaa.com/index.htm</a>”のように作成される。このようなリンク情報を利用すれば、携帯通信端末2のユーザによる検索結果ページ上のコンテンツタイトルの選択(クリック)時に、選択されたコンテンツタイトルに結びつけられたリンク情報から、クリックログをまとめて作成することができる。
1,201…コンテンツ管理情報収集システム、2…携帯通信端末、11…情報中継用サーバ(要求受信手段)、211…検索エンジン用サーバ(要求受信手段)、12…管理情報補正用サーバ、13…情報収集用サーバ、123…管理情報格納・更新部(管理情報格納手段)、131…コンテンツ収集部(コンテンツ収集手段)、132…リンク先抽出部(リンク先抽出手段)、142…管理情報格納部(管理情報格納手段)、NW…通信ネットワーク。

Claims (10)

  1. 通信網内からコンテンツを受信する情報通信端末からコンテンツの受信を要求するコンテンツ要求を受信するとともに、前記通信網内のコンテンツを配信するサーバ及び前記情報通信端末から前記コンテンツに関するメタ情報を受信する要求受信手段と、
    前記要求受信手段によって受信されたコンテンツ要求及び前記メタ情報に基づいて、前記コンテンツの格納先情報と前記情報通信端末の種別を示す端末種別とを含む管理情報を、前記コンテンツを識別するコンテンツ識別情報に関連づけて格納するとともに、前記管理情報を前記コンテンツ要求に基づいて逐次更新する管理情報格納手段と、
    前記管理情報格納手段によって格納された前記管理情報を参照することにより、収集対象のコンテンツに対応する格納先情報を特定し、当該特定された格納先情報に基づいて前記格納先情報に対応するコンテンツを前記通信網から収集するコンテンツ収集手段と、
    前記コンテンツ収集手段によって収集されたコンテンツからリンク情報を抽出し、前記リンク情報によって特定されるリンク先コンテンツの格納先情報を含む管理情報を、前記リンク先コンテンツを識別するコンテンツ識別情報に関連づけて、前記管理情報格納手段に格納するリンク先抽出手段とを備え、
    前記管理情報格納手段は、
    前記要求受信手段によって受信された前記メタ情報に含まれる端末種別に該当する端末種別を有するものが前記管理情報の中に存在しない場合には、当該メタ情報から前記コンテンツのデータ内容を識別するための内容識別情報を抽出し、
    前記内容識別情報が同一である管理情報が格納されていない場合は、前記内容識別情報及び前記端末種別を含む管理情報を、前記コンテンツ識別情報に関連づけて格納する一方で、前記内容識別情報が同一である管理情報が既に格納されている場合は、当該管理情報を前記メタ情報に含まれる前記端末種別を追加するように更新し、
    さらに、前記コンテンツ収集手段によって収集されたコンテンツに基づいて、前記管理情報格納手段によって格納されている前記コンテンツに対応する管理情報を更新する、
    ことを特徴とするコンテンツ管理情報収集システム。
  2. 前記要求受信手段は、前記情報通信端末からコンテンツ検索要求を受信し、当該コンテンツ検索要求に応じてコンテンツ検索結果を返信した後に、前記情報通信端末から前記コンテンツ検索結果に対応する前記コンテンツ要求を受信し、
    前記管理情報格納手段は、前記要求受信手段によって受信されたコンテンツ要求に基づいて、前記管理情報を格納するとともに、前記管理情報を前記コンテンツ要求に基づいて逐次更新する、
    ことを特徴とする請求項1記載のコンテンツ管理情報収集システム。
  3. 前記要求受信手段は、前記情報通信端末との間で、前記情報通信端末から前記通信網に送信されるコンテンツ要求、及び当該コンテンツ要求に応じて前記通信網から返信されるコンテンツを中継し、
    前記管理情報格納手段は、前記情報中継手段によって中継されたコンテンツ要求及びコンテンツに基づいて、前記管理情報を格納するとともに、前記管理情報を前記コンテンツに基づいて逐次更新する、
    ことを特徴とする請求項1記載のコンテンツ管理情報収集システム。
  4. 前記管理情報格納手段は、前記コンテンツに含まれるメタ情報から前記コンテンツの格納状態を示す状態情報を抽出し、前記状態情報を前記管理情報に含めて格納し、
    前記コンテンツ収集手段は、前記管理情報に含まれる前記状態情報に基づいて前記コンテンツが収集可能か否かを判定することにより、収集対象のコンテンツを特定する、
    ことを特徴とする請求項3記載のコンテンツ管理情報収集システム。
  5. 前記管理情報格納手段は、前記コンテンツに含まれるメタ情報から前記コンテンツの更新有無を識別するための更新情報を抽出し、前記更新情報を前記管理情報に含めて格納し、
    前記コンテンツ収集手段は、前記管理情報に含まれる前記更新情報に基づいて前記コンテンツの更新有無を判定することにより、収集対象のコンテンツを特定する、
    ことを特徴とする請求項3又は4記載のコンテンツ管理情報収集システム。
  6. 前記管理情報格納手段は、前記コンテンツに含まれるメタ情報から前記コンテンツの種別を示す種別情報を抽出し、
    前記コンテンツ収集手段は、前記種別情報に基づいて前記コンテンツが分析可能か否かを判定することにより、収集対象のコンテンツを特定する、
    ことを特徴とする請求項3〜5のいずれか一項に記載のコンテンツ管理情報収集システム。
  7. 前記コンテンツ収集手段は、前記要求受信手段によって受信された前記コンテンツ要求に基づいて、前記コンテンツの収集頻度を集計し、前記収集頻度に基づいて前記コンテンツの重要度を判別することにより、収集対象のコンテンツを特定する、
    ことを特徴とする請求項1〜6のいずれか一項に記載のコンテンツ管理情報収集システム。
  8. 前記コンテンツ収集手段は、前記要求受信手段によって受信された前記コンテンツ要求に基づいて、前記コンテンツの収集頻度を集計し、前記収集頻度に基づいて前記コンテンツの優先度を決定することにより、前記収集対象のコンテンツを前記優先度に応じて収集する、
    ことを特徴とする請求項1〜6のいずれか一項に記載のコンテンツ管理情報収集システム。
  9. 前記コンテンツ収集手段は、前記収集対象のコンテンツ毎に前記コンテンツ収集手段による収集回数を一定時間カウントし、前記収集回数が閾値を超えていないコンテンツを収集する、
    ことを特徴とする請求項1〜8のいずれか一項に記載のコンテンツ管理情報収集システム。
  10. 要求受信手段が、通信網内からコンテンツを受信する情報通信端末からコンテンツの受信を要求するコンテンツ要求を受信するとともに、前記通信網内のコンテンツを配信するサーバ及び前記情報通信端末から前記コンテンツに関するメタ情報を受信する要求受信ステップと、
    管理情報格納手段が、前記要求受信手段によって受信されたコンテンツ要求及び前記メタ情報に基づいて、前記コンテンツの格納先情報と前記情報通信端末の種別を示す端末種別とを含む管理情報を、前記コンテンツを識別するコンテンツ識別情報に関連づけて格納するとともに、前記管理情報を前記コンテンツ要求に基づいて逐次更新する管理情報格納ステップと、
    コンテンツ収集手段が、前記管理情報格納手段によって格納された前記管理情報を参照することにより、収集対象のコンテンツに対応する格納先情報を特定し、当該特定された格納先情報に基づいて前記格納先情報に対応するコンテンツを前記通信網から収集するコンテンツ収集ステップと、
    リンク先抽出手段が、前記コンテンツ収集手段によって収集されたコンテンツからリンク情報を抽出し、前記リンク情報によって特定されるリンク先コンテンツの格納先情報を含む管理情報を、前記リンク先コンテンツを識別するコンテンツ識別情報に関連づけて、前記管理情報格納手段に格納するリンク先抽出ステップとを備え、
    前記管理情報格納ステップでは、
    前記要求受信手段によって受信された前記メタ情報に含まれる端末種別に該当する端末種別を有するものが前記管理情報の中に存在しない場合には、当該メタ情報から前記コンテンツのデータ内容を識別するための内容識別情報を抽出し、
    前記内容識別情報が同一である管理情報が格納されていない場合は、前記内容識別情報及び前記端末種別を含む管理情報を、前記コンテンツ識別情報に関連づけて格納する一方で、前記内容識別情報が同一である管理情報が既に格納されている場合は、当該管理情報を前記メタ情報に含まれる前記端末種別を追加するように更新し、
    さらに、前記コンテンツ収集手段によって収集されたコンテンツに基づいて、前記管理情報格納手段によって格納されている前記コンテンツに対応する管理情報を更新する、
    ことを特徴とするコンテンツ管理情報収集方法。
JP2009114642A 2009-01-15 2009-05-11 コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法 Active JP5405190B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009114642A JP5405190B2 (ja) 2009-01-15 2009-05-11 コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009006688 2009-01-15
JP2009006688 2009-01-15
JP2009114642A JP5405190B2 (ja) 2009-01-15 2009-05-11 コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法

Publications (2)

Publication Number Publication Date
JP2010186459A JP2010186459A (ja) 2010-08-26
JP5405190B2 true JP5405190B2 (ja) 2014-02-05

Family

ID=42767057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009114642A Active JP5405190B2 (ja) 2009-01-15 2009-05-11 コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法

Country Status (1)

Country Link
JP (1) JP5405190B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5356343B2 (ja) * 2010-09-21 2013-12-04 ヤフー株式会社 クロール装置及びその方法
JP5364117B2 (ja) * 2011-03-02 2013-12-11 株式会社エヌ・ティ・ティ・ドコモ アプリケーション検索サーバ、及び方法
US9282158B2 (en) * 2011-06-06 2016-03-08 Google Inc. Reducing redirects
CN102752289A (zh) * 2012-06-12 2012-10-24 上海市电力公司 一种用于用电信息采集系统的主站
CN103678384A (zh) * 2012-09-18 2014-03-26 鸿富锦精密工业(深圳)有限公司 顺序索引生成系统及方法
CN104994350B (zh) * 2015-07-07 2019-01-04 小米科技有限责任公司 信息查询方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3551833B2 (ja) * 1999-05-13 2004-08-11 日本電気株式会社 情報検索サービスにおける動的更新処理方式
JP2003303198A (ja) * 2002-04-10 2003-10-24 Toshiba Corp 知識情報収集方法および知識情報収集システム
US7685296B2 (en) * 2003-09-25 2010-03-23 Microsoft Corporation Systems and methods for client-based web crawling
JP4718205B2 (ja) * 2005-02-22 2011-07-06 三菱電機株式会社 選択的Web情報収集装置

Also Published As

Publication number Publication date
JP2010186459A (ja) 2010-08-26

Similar Documents

Publication Publication Date Title
KR102133951B1 (ko) 짧은 링크 처리 방법, 디바이스, 및 서버
JP5405190B2 (ja) コンテンツ管理情報収集システム、及びコンテンツ管理情報収集方法
US20010047363A1 (en) Apparatus and methods for providing personalized application search results for wireless devices based on user profiles
CN102521251A (zh) 个性化搜索直达的方法、实现该方法的装置和搜索服务器
US20180287960A1 (en) A method for optimizing resource loading at mobile browsers based on cloud-client cooperation
CN101233510A (zh) 处理并基于无线网络将搜索结果发送到移动设备
CN105069011A (zh) 用于管理网页收藏夹的方法、装置及系统
CN103810176A (zh) 一种网页信息的预取访问方法和装置
CN111046041B (zh) 数据处理方法和装置、存储介质及处理器
WO2016173185A1 (zh) 信息推送方法和装置
CN105721578A (zh) 一种用户行为数据采集方法和系统
US7069292B2 (en) Automatic display method and apparatus for update information, and medium storing program for the method
JP2006099341A (ja) 更新履歴生成装置及びプログラム
JPH11175442A (ja) データ中継装置、情報端末装置、データ中継プログラムを記録したコンピュータ読み取り可能な記録媒体及び情報閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体
US9400547B2 (en) Processing device and method thereof
CN105282238B (zh) 一种资源管理方法
JP5167179B2 (ja) 動的コンテンツ保存復元装置、動的コンテンツ保存復元システム、動的コンテンツの保存および復元方法、ならびにプログラム
WO2007034585A1 (ja) アクセスログ記録システム及びアクセスログ記録方法
JP5211180B2 (ja) データベース管理装置、データベース管理プログラム、データベース管理方法、データベース管理システム
US20080082318A1 (en) Semantic retrieval method and computer product
JP4259858B2 (ja) Wwwサイト履歴検索装置及び方法並びにプログラム
JP2005339454A (ja) クッキー情報管理方法およびクッキー情報管理プログラム
JP2006235820A (ja) ブックマーク情報の配信技術
JP5430128B2 (ja) URL変換装置、URL変換方法、URL変換プログラム及びWeb情報収集システム
JP2003271647A (ja) 閲覧ファイルデータ提供方法、閲覧頻度データ提供方法、そのための中継装置、プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131030

R150 Certificate of patent or registration of utility model

Ref document number: 5405190

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250