JP5133953B2 - 情報伝播を検知するウェブページ関係評価装置 - Google Patents

情報伝播を検知するウェブページ関係評価装置 Download PDF

Info

Publication number
JP5133953B2
JP5133953B2 JP2009212380A JP2009212380A JP5133953B2 JP 5133953 B2 JP5133953 B2 JP 5133953B2 JP 2009212380 A JP2009212380 A JP 2009212380A JP 2009212380 A JP2009212380 A JP 2009212380A JP 5133953 B2 JP5133953 B2 JP 5133953B2
Authority
JP
Japan
Prior art keywords
similarity
web pages
web page
unit
similarities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009212380A
Other languages
English (en)
Other versions
JP2011060228A (ja
Inventor
春平 李
松 高
益▲びん▼ 王
明 ▲顧▼
和年 古川
昌平 阿部
裕介 犬塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Nomura Research Institute Ltd
Original Assignee
Tsinghua University
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Nomura Research Institute Ltd filed Critical Tsinghua University
Publication of JP2011060228A publication Critical patent/JP2011060228A/ja
Application granted granted Critical
Publication of JP5133953B2 publication Critical patent/JP5133953B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、複数のウェブページ相互の関係を評価することで、情報伝播を検知する技術に関する。
近年、企業は、ウェブページを用いて情報を発信しており、個人も、ウェブページ、ブログ、及びSNS(Social Network Service)を用いて情報を発信している。各情報は、他の情報の影響を受けて発信されることがある。例えば、ある企業が新製品を発売することをウェブページにおいて発表すると、そのウェブページを見たある個人がその情報とともにその新製品についての意見をブログにより公表することがある。このように、ある情報がウェブページを伝播して広がることがある。
特開2008−130044号公報
ところで、ウェブページにおいて公表された情報の伝播を不快に感じることがある。例えば、不祥事が発生していないのにもかかわらず、企業を中傷する情報が多数のウェブページに広がると、多数の人がその情報を知ってしまい、その企業の経済活動を阻害する可能性があるからである。そのような場合、その企業に属する人は、その情報の伝播経路を知りたいと考える。例えば、伝搬経路を構成している中核的なウェブサイトや大元の情報発信源がどこかを知ることができれば、定期的にそのサイトを読み、不利益な情報が流れていることをいち早く察知して早期に対策をとることができる。
また、広告効果を狙ってウェブページ等で情報公開をすることがある。例えば企業が新製品を発売した事実を、自社ウェブサイトにプレスリリースを掲載して発表した場合、ニュースサイトや著名なブログサイト等を経由して、一般の人々がその事実を目にする。このような場合、どのような経路を経て情報が伝播したかを、その企業に属する人は知りたいと考える。例えば、より多くの人に直接的に情報を伝播させたり、他の著名ブログに影響を与えて間接的に情報を伝播させたりするニュースサイトや著名ブログを特定することができれば、それらのサイトにフォーカスをあててより効果的な広告を行うことが出来る。
しかしながら、現在、ウェブページにより広がった情報の伝播経路を精度よく特定する技術は存在しない。つまり、関連するウェブページ相互の関係を精度よく特定する技術は存在しない。
本発明は、関連するウェブページ相互の関係を精度よく特定するウェブページ関係評価装置を提供することを目的とする。
上記課題を解決し上記目的を達成するために、本発明のウェブページ関係評価装置は、複数の判断対象のウェブページそれぞれを構成する情報を取得する取得部と、前記取得部によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、前記取得部によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれについて、他の判断対象のウェブページそれぞれとの間の類似度を算出する類似度算出部と、前記類似度算出部によって得られた複数の類似度のうちの、2個のウェブページ相互が関連していると判断するための基準値以上である類似度それぞれについて、その類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する関連ウェブページ特定部とを備える。
また、本発明のウェブページ関係評価装置の各構成要件の機能をコンピュータに実現させるためのプログラムも、本発明の一態様である。
本発明は、関連するウェブページ相互を精度よく特定するウェブページ関係評価装置を提供することができる。
本実施の形態のウェブページ分析システムの構成図である。 本実施の形態のウェブページ分析装置の構成図である。 本実施の形態のウェブページ分析システムの動作の概要を説明するための図である。 図2の検索キーワード作成装置が行う検索キーワードを作成する動作の各ステップを示すフローチャートである。 図2のウェブページ関係評価装置が行う複数のウェブページ相互の関係を評価する動作の各ステップを示すフローチャートである。 作成時刻の順に並べられた4個の判断対象のウェブページと、各判断対象のウェブページ間の類似度とを示す図である。 図6(A)の4個の判断対象のウェブページの関連しているウェブページ相互を線で結ぶことにより作成されたネットワーク図である。 図2のサイト評価装置が行うウェブサイトを評価する動作の各ステップを示すフローチャートである。 ウェブサイトを説明するための図である。
以下に、本発明を実施するための形態を図面を参照して説明する。
先ず、本実施の形態のウェブページ分析システムの構成を図1を用いて説明する。図1は、本実施の形態のウェブページ分析システムの構成図である。本実施の形態のウェブページ分析システムは、ウェブページを分析するシステムであって、図1に示すように、ウェブページ分析装置100と、クライアント端末装置200と、検索装置300と、通信ネットワーク400と、サイトアクセス数推定装置500 とを有する。
ウェブページ分析装置100は、通信ネットワーク400において開示されているウェブページを分析する装置である。ウェブページ分析装置100の構成の詳細は図2を用いて後述する。クライアント端末装置200は、ユーザによって使用される装置であって、検索キーワードや、検索キーワードに関連するウェブページを検索させる指示(以下、「検索指示」という。)等をユーザから受け付ける。クライアント端末装置200は、受け付けた指示等をウェブページ分析装置100又は検索装置300に送信し、ウェブページ分析装置100及び検索装置300からそれらによって得られた結果を受信する。図1に示すように、クライアント端末装置200には、表示装置250が接続されており、クライアント端末装置200が受信する情報は、表示装置250によって表示される。
検索装置300は、通信ネットワーク400において開示されているウェブページのなかから、検索キーワードに関連するウェブページを検索する装置である。通信ネットワーク400は、インターネット等のデータを通信するためのネットワークである。サイトアクセス数推定装置500は、ウェブサイトのアクセス数を推定する装置である。ウェブページ分析装置100、クライアント端末装置200、検索装置300、及びサイトアクセス数推定装置500は、通信ネットワーク400に接続されており、相互に通信可能である。
次に、ウェブページ分析装置100の構成を図2を用いて説明する。図2は、ウェブページ分析装置100の構成図である。ウェブページ分析装置100は、上述したように、通信ネットワーク400において開示されているウェブページを分析する装置であって、図2に示すように、通信装置10と、検索キーワード作成装置20と、ウェブページ関係評価装置30と、サイト評価装置40とを有する。
通信装置10は、データを通信する。検索キーワード作成装置20は、ユーザによって選択されたキーワードに基づいて、適宜の変換処理を施したより適切な検索キーワードを作成する。
ウェブページ関係評価装置30は、検索キーワード作成装置20が作成した検索キーワードに基づいて検索装置300によって検索された複数のウェブページ相互の関係を評価する装置である。ウェブページ関係評価装置30は、図2に示すように、取得部1と、作成時刻検出部2と、類似度算出部3と、類似度補正部4と、関連ウェブページ特定部5と、ネットワーク図作成部6と、出力部7とを有する。
取得部1は、検索装置300によって検索された複数のウェブページそれぞれを構成する情報を取得する。検索装置300によって検索されたウェブページは、ウェブページ関係評価装置30によって評価されるウェブページであるので、以下では、検索装置300によって検索されたウェブページを「判断対象のウェブページ」という。作成時刻検出部2は、取得部1によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれの作成時刻を検出する。
類似度算出部3は、取得部1によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれについて、他の判断対象のウェブページそれぞれとの間の類似度を算出する。具体的には、類似度算出部3は、ある2個の判断対象のウェブページの類似度を算出する際、それら2個の判断対象のウェブページそれぞれを構成する情報の形態素を分析し、TF−IDF(Term Frequency−Inverse Document Frequency)法及びベクトル空間法を用いて、それら2個の判断対象のウェブページの類似度を算出する。なお本方法以外にも、ウェブページ類似度の算出には一般に広く用いられている文書類似度算出法のいずれを使ってもよく、たとえばTF−IDF法のかわりにN−Gram法を用いても良い。
類似度補正部4は、類似度算出部3によって算出された類似度を補正する。以下では、類似度補正部4によって得られた値を「補正類似度」という。なお、類似度補正部4は、複数の方法により類似度を補正するので、各方法については後に類似度補正部4の動作を説明する際に説明する。
関連ウェブページ特定部5は、類似度補正部4によって得られた複数の補正類似度のうちの、2個のウェブページ相互が関連していると判断するための基準値以上である補正類似度を検出する。そして、関連ウェブページ特定部5は、検出した各補正類似度について、その補正類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する。
ネットワーク図作成部6は、関連ウェブページ特定部5によって特定された2個のウェブページの組それぞれについて、その組を構成する2個のウェブページを、作成時刻検出部2によって検出された作成時刻の順に仮想的に並べて仮想的に線で結び、関連しているウェブページのネットワーク図を作成する。つまり、ネットワーク図作成部6は、関連しているウェブページを作成時刻の順にツリー状につなげてネットワーク図を作成する。
出力部7は、ネットワーク図作成部6によって作成されたネットワーク図を通信装置10に出力する。
サイト評価装置40は、通信ネットワーク400において開示されているウェブサイトを評価する装置である。
次に、本実施の形態のウェブページ分析システムの動作を説明する。図3は、本実施の形態のウェブページ分析システムの動作の概要を説明するための図である。本実施の形態のウェブページ分析システムの動作は、図3に示すように、絞り込み検索を行わせるための検索キーワードを作成する動作(フェーズF1)と、複数のウェブページ相互の関係を評価する動作(フェーズF2)と、ウェブサイトを評価する動作(フェーズF3)とに大別される。そのため以下では、本実施の形態のウェブページ分析システムの動作をフェーズ毎に説明する。
(検索キーワードを作成する動作)
先ず、絞り込み検索を行わせるための検索キーワードを作成する動作(フェーズF1)を説明する。
ユーザは、検索キーワードと、その検索キーワードに関連するウェブページを検索させる指示(検索指示)をクライアント端末装置200に入力する。クライアント端末装置200は、入力された検索キーワード及び検索指示を受け付け、それらを通信ネットワーク400を介して検索装置300に送信する。検索装置300は、クライアント端末装置200からの検索キーワード及び検索指示を受信し、通信ネットワーク400において開示されているウェブページのなかから、受信した検索キーワードに関連するウェブページを検索する。説明の便宜上、検索装置300は、複数のウェブページを検索したと仮定する。検索装置300は、検索した複数のウェブページのタイトルを通信ネットワーク400を介してクライアント端末装置200に送信する。
クライアント端末装置200は、検索装置300からの複数のウェブページのタイトル及び本文内容概要を受信し、それらを検索装置300によって決められた順にしたがって表示装置250に表示させる。ユーザは、表示装置250によって表示された各ウェブページのタイトルを見て、いずれかのウェブページを選択し、選択したウェブページを取得させる指示をクライアント端末装置200に行う。
クライアント端末装置200は、ユーザによって選択されたウェブページを取得して表示装置250に表示させる。ユーザは、表示装置250によって表示されたウェブページがより適切な検索キーワードを作成させる題材として妥当なウェブページであると判断した場合、その判断結果をクライアント端末装置200に入力する。
クライアント端末装置200は、そのようなウェブページを特定する情報を、通信ネットワーク400を介してウェブページ分析装置100に送信する。ウェブページを特定する情報は、例えばそのウェブページのURL(Uniform Resource Locator)である。上述したようにして、ユーザは、より適切な検索キーワードを作成させるためのウェブページを複数個選択し、クライアント端末装置200は、ユーザによって選択された複数のウェブページを特定する情報を受け付けてウェブページ分析装置100に送信する。また、クライアント端末装置200は、ユーザによって入力された検索キーワードもウェブページ分析装置100に送信する。
ウェブページ分析装置100では、通信装置10が、クライアント端末装置200からの、より適切な検索キーワードを作成させるための複数のウェブページを特定する情報と、ユーザによって入力された検索キーワードとを受信する。
以下の動作は、図4を用いて説明する。図4は、検索キーワード作成装置20が行う検索キーワードを作成する動作の各ステップを示すフローチャートである。
検索キーワード作成装置20は、通信装置10によって受信された、より適切な検索キーワードを作成させるための複数のウェブページを特定する情報と、ユーザによって入力された検索キーワードとを取得する(S1)。次に、検索キーワード作成装置20は、より適切な検索キーワードを作成させるための複数のウェブページそれぞれを構成する情報を、通信ネットワーク400を介して取得する(S2)。
検索キーワード作成装置20は、取得した情報に基づいて、複数のウェブページに関連するキーワードを特定する。具体的には、検索キーワード作成装置20は、取得した情報に基づいて、複数のウェブページそれぞれを構成する形態素を分析し、TF−IDF法を用いることによって得られる値が大きい方から所定の数のキーワードを、複数のウェブページに関連するキーワードとして特定する(S3)。そして、検索キーワード作成装置20は、特定したキーワードを、ユーザによって入力された検索キーワードに加えて、絞り込み検索を行わせるための新たな検索キーワードを作成する(S4)。本手法は実現方法の一例であり、たとえばこの代わりにKey−Graph法を用いて検索キーワードを作成しても良い。
そうすると、通信装置10は、検索キーワード作成装置20によって作成された新たな検索キーワードを、通信ネットワーク400を介して検索装置300に送信する。検索装置300は、ウェブページ分析装置100の通信装置10からの新たな検索キーワードを受信し、通信ネットワーク400において開示されているウェブページのなかから、新たな検索キーワードに関連するウェブページを検索する。ここでも、説明の便宜上、検索装置300は、複数のウェブページを検索したと仮定する。検索装置300は、検索した複数のウェブページそれぞれを構成する情報を、通信ネットワーク400を介してウェブページ分析装置100に送信する。
(複数のウェブページ相互の関係を評価する動作)
次に、複数のウェブページ相互の関係を評価する動作(フェーズF2)を図5を用いて説明する。図5は、ウェブページ関係評価装置30が行う複数のウェブページ相互の関係を評価する動作の各ステップを示すフローチャートである。
ウェブページ分析装置100の通信装置10は、フェーズF1の最後のステップにおいて検索装置300によって検索された複数のウェブページ(判断対象のウェブページ)を構成する情報を受信する。ウェブページ関係評価装置30では、取得部1が、通信装置10によって受信された複数の判断対象のウェブページそれぞれを構成する情報を取得する(S11)。作成時刻検出部2は、取得部1によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれの作成時刻を検出する(S12)。
類似度算出部3は、取得部1によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれについて、他の判断対象のウェブページそれぞれとの間の類似度を算出する(S13)。
類似度補正部4は、類似度算出部3によって算出された類似度を補正する(S14)。類似度補正部4の動作を、複数の判断対象のウェブページのうちの2個の判断対象のウェブページを取り上げて具体的に説明する。説明の便宜上、2個の判断対象のウェブページをウェブページX及びウェブページYと呼び、ウェブページXがウェブページYより先に作成されたと仮定する。また、類似度算出部3によって算出されたウェブページXとウェブページYとの類似度を「類似度S」という。
このとき、類似度補正部4は、取得部1によって取得された情報に基づいて、ウェブページYがウェブページXにリンクしているか否かを判断する。ウェブページYがウェブページXにリンクしていると判断した場合、類似度補正部4は、類似度Sに第1の補正係数C1を付与する。ウェブページYがウェブページXにリンクしていないと判断した場合、類似度補正部4は、類似度Sには第1の補正係数C1を付与しない。
また、類似度補正部4は、取得部1によって取得された情報に基づいて、ウェブページX及びウェブページYがともに他のウェブページαにリンクしているか否かを判断する。2個のウェブページがともに他のウェブページαにリンクしていると判断した場合、類似度補正部4は、類似度Sに第2の補正係数C2を付与する。2個のウェブページの少なくとも一方が他のウェブページαにリンクしていないと判断した場合、類似度補正部4は、類似度Sには第2の補正係数C2を付与しない。
また、類似度補正部4は、作成時刻検出部2によって検出された作成時刻に基づいて、ウェブページXの作成時刻とウェブページYの作成時刻との差を判断し、その差に応じた第3の補正係数C3を類似度Sに付与する。例えば、類似度補正部4は、以下に示す式(1)により特定される第3の補正係数C3を類似度Sに対して付与する。
C3=exp(−α×(sp/tp) …(1)
αは、実験により決定される定数であり、spは、ウェブページXの作成時刻とウェブページYの作成時刻との差であり、tpは、全ての判断対象のウェブページのうちの最初に作成されたウェブページの作成時刻と最後に作成されたウェブページの作成時刻との差である。
また、類似度補正部4は、作成時刻検出部2によって検出された作成時刻に基づいて、ウェブページXの作成時刻とウェブページYの作成時刻との間に作成された他の判断対象のウェブページの数を検出する。類似度補正部4は、検出した数に応じた第4の補正係数C4を類似度Sに付与する。例えば、類似度補正部4は、以下に示す式(2)により特定される第4の補正係数C4を類似度Sに対して付与する。
C4=exp(−β×(sn/tn) …(2)
βは、実験により決定される定数であり、snは、全ての判断対象のウェブページのうちの、ウェブページXの作成時刻とウェブページYの作成時刻との間に作成されたウェブページの数であり、tnは、全ての判断対象のウェブページの数である。
また、類似度補正部4は、ウェブページXの単位期間あたりのアクセス数に応じた第5の補正係数C5を類似度算出部3によって算出された類似度Sに対して付与する。この場合、類似度補正部4は、先ず、ウェブページX及びウェブページYを含む全ての判断対象のウェブページそれぞれの単位期間あたりのアクセス数を取得部1に取得させる。そして、類似度補正部4は、以下に示す式(3)により特定される第5の補正係数C5を類似度Sに対して付与する。
C5=exp(−γ×(n/N) …(3)
γは、実験により決定される定数であり、nは、ウェブページXの単位期間あたりのアクセス数であり、Nは、ウェブページX及びウェブページYを含む複数の判断対象のウェブページそれぞれの単位期間あたりのアクセス数の最大値である。
そして、類似度補正部4は、上述した全部の補正係数(第1の補正係数C1〜第5の補正係数C5)を加算し、加算することによって得た加算補正係数を類似度Sに乗算して類似度Sを補正する。
ここまでは、類似度補正部4が類似度算出部3によって算出されたウェブページXとウェブページYとの類似度Sを補正する動作を説明した。類似度補正部4は、その動作と同じ動作を類似度算出部3によって算出された全ての類似度に対して行い、それにより類似度算出部3によって算出された全ての類似度を補正し、全ての類似度について補正類似度を算出する(S14)。
関連ウェブページ特定部5は、類似度補正部4によって得られた複数の補正類似度のうちの、2個のウェブページ相互が関連していると判断するための基準値以上である補正類似度を検出する。そして、関連ウェブページ特定部5は、検出した各補正類似度について、その補正類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する(S15)。
ネットワーク図作成部6は、関連ウェブページ特定部5によって特定された2個のウェブページの組それぞれについて、その組を構成する2個のウェブページを、作成時刻検出部2によって検出された作成時刻の順に仮想的に並べて仮想的に線で結び、関連しているウェブページのネットワーク図を作成する(S16)。
ここで、関連ウェブページ特定部5及びネットワーク図作成部6の動作の具体例を図6(A)及び図6(B)を用いて説明する。図6(A)は、作成時刻の順に並べられた4個の判断対象のウェブページと、各判断対象のウェブページ間の類似度とを示す図である。図6(B)は、図6(A)の4個の判断対象のウェブページの関連しているウェブページ相互を線で結ぶことにより作成されたネットワーク図である。図6(A)及び図6(B)における横軸tは時間軸である。
説明の便宜上、図6(A)及び図6(B)に示される4個の判断対象のウェブページは、ウェブページA、ウェブページB、ウェブページC、及びウェブページDであると仮定する。図6(A)及び図6(B)における丸はウェブページである。また、図6(A)及び図6(B)における4個のウェブページのうちで、ウェブページAが最先に作成され、その次にウェブページBが作成され、その次にウェブページCが作成され、最後にウェブページDが作成されたと仮定する。
また、図6(A)に示すように、ウェブページAとウェブページBとの補正類似度が0.8であり、ウェブページAとウェブページCとの補正類似度が0.8であり、ウェブページAとウェブページDとの補正類似度が0.3であり、ウェブページBとウェブページCとの補正類似度が0.2であり、ウェブページBとウェブページDとの補正類似度が0.3であり、ウェブページCとウェブページDとの補正類似度が0.6であると仮定する。更に、2個のウェブページ相互が関連していると判断するための基準値が0.5であると仮定する。
このとき、関連ウェブページ特定部5は、ウェブページAとウェブページB、ウェブページAとウェブページC、ウェブページCとウェブページDそれぞれを、相互に関連しているウェブページであると特定する。ネットワーク図作成部6は、ウェブページAとウェブページB、ウェブページAとウェブページC、ウェブページCとウェブページDそれぞれを線で結び、図6(B)に示すネットワーク図を作成する。
出力部7は、ネットワーク図作成部6によって作成されたウェブページのネットワーク図を通信装置10に出力する。
通信装置10は、ウェブページ関係評価装置30からのウェブページのネットワーク図を、通信ネットワーク400を介してクライアント端末装置200に出力する。クライアント端末装置200は、ウェブページ関係評価装置30によって得られたウェブページのネットワーク図を受信して表示装置250に表示させる。
これにより、ユーザは、自らが決定した検索キーワードと、その検索キーワードに関連するウェブページのうちの自らが選択したウェブページとに関連するウェブページについて、作成時刻の順に関連付けられたネットワークを知ることができる。つまり、ユーザは、自ら決定した検索キーワードに関連する複数のウェブページ相互の関連性を知ることができる。
なお、上記の説明では、類似度補正部4は、第1の補正係数C1〜第5の補正係数C5の全部の補正係数を加算し、加算することによって得た加算補正係数を類似度Sに乗算して類似度Sを補正する。しかしながら、類似度補正部4は、第1の補正係数C1〜第5の補正係数C5の一部の補正係数を加算して加算補正係数を得て、その加算補正係数を類似度Sに乗算して類似度Sを補正してもよい。また、類似度補正部4は、第1の補正係数C1〜第5の補正係数C5の1個の補正係数を類似度Sに乗算して類似度Sを補正してもよい。
また、上記の説明では、関連ウェブページ特定部5は、類似度補正部4によって得られた複数の補正類似度のうちの2個のウェブページ相互が関連していると判断するための基準値以上である補正類似度を検出する。しかしながら、関連ウェブページ特定部5は、類似度算出部3によって得られた(補正前の)複数の類似度のうちの上記基準値以上である類似度を検出してもよい。その場合、関連ウェブページ特定部5は、検出した各類似度について、その類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する。
(ウェブサイトを評価する動作)
次に、ウェブサイトを評価する動作(フェーズF3)を図7を用いて説明する。図7は、サイト評価装置40が行うウェブサイトを評価する動作の各ステップを示すフローチャートである。
サイト評価装置40は、通信装置10によって受信された全ての判断対象のウェブページをドメイン毎に分類し、それによって各ウェブサイトを特定する(S21)。ウェブサイトは、判断対象のウェブページのうちの共通するドメインを有するページの集合である。図8を用いてウェブサイトを説明する。図8は、ウェブサイトを説明するための図である。図8では、ウェブページH、ウェブページJ、ウェブページK、及びウェブページMは、同じドメインを有するウェブページであって、これらの集合がウェブサイトである。
したがって、図8では、ウェブページH、ウェブページJ、ウェブページK、及びウェブページMは、ウェブサイトGの下位のウェブページである。また、ウェブページH、ウェブページJ、ウェブページK、及びウェブページMのランクは、それぞれh、j、k、及びmである。ランクは、検索装置300によって決定される値である。例えば、一般的な検索エンジンを検索装置として用いた場合、ランクは検索結果の表示順位である。
次に、サイト評価装置40は、通信装置10を介してサイトアクセス数推定装置500を用い、各ウェブサイトへのアクセス数を取得する(図7のS22)。図8の例ではウェブサイトGのアクセス数gを取得する。
次に、サイト評価装置40は、通信装置10を介して、ウェブサイト毎に、そのウェブサイトのドメインと同じドメインを有するウェブページのランクを取得する(図7のS23)。図8の例では、サイト評価装置40は、ウェブページH、ウェブページJ、ウェブページK、及びウェブページMそれぞれのランクを取得する。
次に、サイト評価装置40は、ウェブサイト毎に、そのウェブサイトへのアクセス数とウェブサイトに所属するウェブページのランクを用い、任意の方法を用いて、そのウェブサイトの重要度を算出する(図7のS24)。
最後に、サイト評価装置40は、重要度が大きい順に全てのウェブサイトに順位を付与する(図7のS25)。
通信装置10は、サイト評価装置40によって得られた各ウェブサイトのタイトルをその順位及びその重要度とともに、通信ネットワーク400を介してクライアント端末装置200に送信する。クライアント端末装置200は、サイト評価装置40によって得られた各ウェブサイトのタイトル、順位、及び重要度を受信し、各ウェブサイトのタイトルを順位にしたがって表示装置250に表示させる。その際、クライアント端末装置200は、各ウェブサイトの重要度もタイトルと組にして表示装置250に表示させる。
上述したように、本実施の形態では、ウェブページ関係評価装置30は、複数の判断対象のウェブページを、作成時刻の順に仮想的に並べ、それらの内で関連しているウェブページを仮想的に線で結び、それによりツリー状のウェブページのネットワーク図を作成する。作成されたネットワーク図において、時系列順の上位にあるサイトは情報に敏感であることを意味し、関連するサイトを時系列順の下位に多く持つサイトは情報を他のウェブサイトへ伝播する能力が高いことを意味する。また、サイト評価装置40は、各ウェブサイトの重要度を算出する。重要度にもとづき順位付けされたウェブサイトの一覧の上位にあるサイトは、アクセス数や検索装置でのランクからの観点から情報の伝播に高い影響力があることを意味する。
本発明装置に対し、例えば企業を中傷する事実無根の情報が伝播した事例に関連したキーワードを入力して上述の分析結果を得ることで、当該事例で情報伝播に大きな役割をはたしたウェブサイトをみつけることができる。当該サイトへの自粛要請を行うことで再発防止策の検討につなげることができる。また例えば、メーカーが自社製品発売の発表における広告効果分析を行いたい場合、複数の自社製品名を本発明装置に入力して上述の分析結果を得る。得られた分析結果のうち、多くの自社製品分析事例において高い情報伝播能力をもつとの結果が得られる傾向のあるサイトは、今後も自社製品発売の発表における情報伝播に大きな役割を持つと考えられる。このサイトに働きかけを行うことでより効果的な広告効果を得ることができる。
なお、ウェブページ分析装置100を構成する各装置の機能は、例えばコンピュータのCPU及びメモリ等のハードウェアと、コンピュータプログラムとが協働することによって実現される。しかしながら、上記各機能は、専用の回路により実現される等、どのような形態により実現されてもよい。
また、ウェブページ関係評価装置30は、作成時刻検出部2、類似度算出部3、類似度補正部4、関連ウェブページ特定部5、及びネットワーク図作成部6それぞれに対応する専用のメモリを有していてもよいし、それら各構成部に共通のメモリを有していてもよい。それら各構成部は、処理するためのデータ及び処理結果を専用のメモリ又は共通のメモリに格納してもよい。
100 ウェブページ分析装置、 200 クライアント端末装置、 300 検索装置、 400 通信ネットワーク、 500 サイトアクセス数推定装置、 250 表示装置、 10 通信装置、 20 検索キーワード作成装置、 30 ウェブページ関係評価装置、 40 サイト評価装置、 1 取得部、 2 作成時刻検出部、 3 類似度算出部、 4 類似度補正部、 5 関連ウェブページ特定部、 6 ネットワーク図作成部、 7 出力部。

Claims (4)

  1. 複数の判断対象のウェブページそれぞれを構成する情報を取得する取得部と、
    前記取得部によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、
    前記取得部によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれについて、他の判断対象のウェブページそれぞれとの間の類似度を算出する類似度算出部と、
    前記類似度算出部によって得られた複数の類似度のうちの、2個のウェブページ相互が関連していると判断するための基準値以上である類似度それぞれについて、その類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する関連ウェブページ特定部と
    前記作成時刻検出部によって検出された作成時刻に基づいて、前記類似度算出部によって得られた各類似度について、その類似度を算出する際に用いられた2個の判断対象のウェブページの作成時刻の間に作成された他の判断対象のウェブページの数に応じた補正係数をその類似度に乗算して補正類似度を算出する類似度補正部を備え、
    前記関連ウェブページ特定部は、前記類似度補正部によって得られた複数の補正類似度のうちの前記基準値以上である補正類似度それぞれについて、その補正類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定するウェブページ関係評価装置。
  2. 複数の判断対象のウェブページそれぞれを構成する情報を取得する取得部と、
    前記取得部によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、
    前記取得部によって取得された情報に基づいて、複数の判断対象のウェブページそれぞれについて、他の判断対象のウェブページそれぞれとの間の類似度を算出する類似度算出部と、
    前記類似度算出部によって得られた複数の類似度のうちの、2個のウェブページ相互が関連していると判断するための基準値以上である類似度それぞれについて、その類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する関連ウェブページ特定部と
    前記類似度算出部によって得られた各類似度を補正する類似度補正部を備え、
    前記取得部は、複数の判断対象のウェブページそれぞれの単位期間あたりのアクセス数を取得し、
    前記類似度補正部は、前記取得部によって取得された複数の判断対象のウェブページそれぞれの単位期間あたりのアクセス数に基づいて、前記類似度算出部によって得られた各類似度について、その類似度を算出する際に用いられた2個の判断対象のウェブページのうちの先に作成されたウェブページの単位期間あたりのアクセス数に応じた補正係数をその類似度に乗算して補正類似度を算出し、
    前記関連ウェブページ特定部は、前記類似度補正部によって得られた複数の補正類似度のうちの前記基準値以上である補正類似度それぞれについて、その補正類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定するウェブページ関係評価装置。
  3. 複数の判断対象のウェブページそれぞれを構成する情報を取得する機能と、
    取得した情報に基づいて、複数の判断対象のウェブページそれぞれの作成時刻を検出する機能と、
    取得した情報に基づいて、複数の判断対象のウェブページそれぞれについて、他の判断対象のウェブページそれぞれとの間の類似度を算出する機能と、
    算出した複数の類似度のうちの、2個のウェブページ相互が関連していると判断するための基準値以上である類似度それぞれについて、その類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する機能と
    検出された作成時刻に基づいて、得られた各類似度について、その類似度を算出する際に用いられた2個の判断対象のウェブページの作成時刻の間に作成された他の判断対象のウェブページの数に応じた補正係数をその類似度に乗算して補正類似度を算出する機能を備え、
    前記相互に関連しているウェブページであると特定する機能は、得られた複数の補正類似度のうちの前記基準値以上である補正類似度それぞれについて、その補正類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定することをコンピュータに実現させるためのプログラム。
  4. 複数の判断対象のウェブページそれぞれを構成する情報を取得する機能と、
    取得した情報に基づいて、複数の判断対象のウェブページそれぞれの作成時刻を検出する機能と、
    取得した情報に基づいて、複数の判断対象のウェブページそれぞれについて、他の判断対象のウェブページそれぞれとの間の類似度を算出する機能と、
    算出した複数の類似度のうちの、2個のウェブページ相互が関連していると判断するための基準値以上である類似度それぞれについて、その類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定する機能と
    得られた各類似度を補正する機能を備え、
    前記取得する機能は、複数の判断対象のウェブページそれぞれの単位期間あたりのアクセス数を取得し、
    前記各類似度を補正する機能は、取得された複数の判断対象のウェブページそれぞれの単位期間あたりのアクセス数に基づいて、得られた各類似度について、その類似度を算出する際に用いられた2個の判断対象のウェブページのうちの先に作成されたウェブページの単位期間あたりのアクセス数に応じた補正係数をその類似度に乗算して補正類似度を算出し、
    前記相互に関連しているウェブページであると特定する機能は、得られた複数の補正類似度のうちの前記基準値以上である補正類似度それぞれについて、その補正類似度を算出する際に用いられた2個の判断対象のウェブページを、相互に関連しているウェブページであると特定することをコンピュータに実現させるためのプログラム。
JP2009212380A 2009-09-11 2009-09-14 情報伝播を検知するウェブページ関係評価装置 Expired - Fee Related JP5133953B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN 200910092356 CN101639856B (zh) 2009-09-11 2009-09-11 检测互联网信息传播的网页关联评价装置
CN200910092356.1 2009-09-11

Publications (2)

Publication Number Publication Date
JP2011060228A JP2011060228A (ja) 2011-03-24
JP5133953B2 true JP5133953B2 (ja) 2013-01-30

Family

ID=41614840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009212380A Expired - Fee Related JP5133953B2 (ja) 2009-09-11 2009-09-14 情報伝播を検知するウェブページ関係評価装置

Country Status (2)

Country Link
JP (1) JP5133953B2 (ja)
CN (1) CN101639856B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541863B (zh) * 2010-12-14 2015-08-05 联芯科技有限公司 一种应用于移动终端的网页压缩方法
CN102254038B (zh) * 2011-08-11 2013-01-23 武汉安问科技发展有限责任公司 一种分析网络评论相关度的系统及其分析方法
CN115150297B (zh) * 2022-08-15 2023-05-19 雁展科技(深圳)有限公司 一种基于移动互联网的数据过滤及内容评价方法和系统
CN116049893B (zh) * 2023-02-17 2023-12-22 飞渡航天科技有限公司 一种应对云服务的敏感软件大数据处理方法及服务器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153387A (ja) * 1997-08-06 1999-02-26 Ibm Japan Ltd 文書の関連付け方法及びそのシステム
JP2001147936A (ja) * 1999-11-22 2001-05-29 Ntt Data Corp 文書検索システム、方法及び記録媒体
JP2004021665A (ja) * 2002-06-18 2004-01-22 Hitachi Ltd 情報閲覧方法および装置
KR100461019B1 (ko) * 2002-11-01 2004-12-09 한국전자통신연구원 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법
JP2005122295A (ja) * 2003-10-14 2005-05-12 Fujitsu Ltd 関係図作成プログラム、関係図作成方法、および関係図作成装置
CN100442283C (zh) * 2005-10-20 2008-12-10 关涛 面向领域基于样本的互联网结构化数据抽取方法及其系统
CN1920815A (zh) * 2006-05-09 2007-02-28 上海态格文化传播有限公司 基于网页内容的网页清洗方法
JP2009151373A (ja) * 2007-12-18 2009-07-09 Nec Corp 引用関係抽出システム、引用関係抽出方法、及び引用関係抽出用プログラム

Also Published As

Publication number Publication date
JP2011060228A (ja) 2011-03-24
CN101639856B (zh) 2011-05-11
CN101639856A (zh) 2010-02-03

Similar Documents

Publication Publication Date Title
US8504583B1 (en) Multi-domain recommendations
JP4764864B2 (ja) 情報伝播抽出装置および情報伝播抽出方法
US11797626B2 (en) Search result filters from resource content
US8478735B1 (en) Method and system for ranking results and providing lists of experts from social networks
US8819006B1 (en) Rich content for query answers
US9135307B1 (en) Selectively generating alternative queries
US9230023B2 (en) Search suggestion and display environment
US9875313B1 (en) Ranking authors and their content in the same framework
JP2009252177A (ja) レコメンド情報生成装置およびレコメンド情報生成方法
KR20110050478A (ko) 검색 질의에 응답하여 디스커션 스레드에 대한 포스트를 제공하는 방법 및 시스템
JP2011204260A (ja) 母集団情報を用いて探索ランク付けを改善する方法とシステム
US20140108376A1 (en) Enhanced detection of like resources
US20150220641A1 (en) Search engine optimization at scale
JP2015079395A (ja) 情報処理装置、方法及びプログラム
US20090187516A1 (en) Search summary result evaluation model methods and systems
CN103942257A (zh) 一种视频搜索的方法与装置
US8407207B1 (en) Measuring video content of web domains
JP5133953B2 (ja) 情報伝播を検知するウェブページ関係評価装置
Kwangsawad et al. The performance evaluation of a website using automated evaluation tools
JP6203304B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2008117267A (ja) 閲覧履歴提供システム、閲覧履歴提供装置、閲覧履歴提供方法、および閲覧履歴提供プログラム
JP2017068547A (ja) 情報提供装置、プログラム及び情報提供方法
US20130179429A1 (en) System and method for semantic analysis of social network user activities
JP2009015589A (ja) 関連文書提示システム及びプログラム
KR20150045236A (ko) 스크랩 정보 관리 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5133953

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees