JP2011086278A - 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム - Google Patents
情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム Download PDFInfo
- Publication number
- JP2011086278A JP2011086278A JP2010103670A JP2010103670A JP2011086278A JP 2011086278 A JP2011086278 A JP 2011086278A JP 2010103670 A JP2010103670 A JP 2010103670A JP 2010103670 A JP2010103670 A JP 2010103670A JP 2011086278 A JP2011086278 A JP 2011086278A
- Authority
- JP
- Japan
- Prior art keywords
- web page
- information
- web
- propagation path
- web pages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 104
- 238000011156 evaluation Methods 0.000 claims abstract description 118
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims description 44
- 238000004891 communication Methods 0.000 claims description 32
- 238000010586 diagram Methods 0.000 claims description 28
- 238000005516 engineering process Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 description 14
- 238000012986 modification Methods 0.000 description 13
- 230000004048 modification Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 230000000644 propagated effect Effects 0.000 description 8
- 241000167854 Bourreria succulenta Species 0.000 description 6
- 235000019693 cherries Nutrition 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】従来、ウェブにおける情報の伝播経路を精度よく特定する技術は存在しない。
【解決手段】情報伝播経路特定装置100は、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する共通文字列数特定部2と、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する情報伝播経路特定部5とを有する。
【選択図】図2
【解決手段】情報伝播経路特定装置100は、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する共通文字列数特定部2と、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する情報伝播経路特定部5とを有する。
【選択図】図2
Description
本発明は、ウェブにおける情報の伝播経路を特定する技術に関する。
近年、企業は、ウェブページを用いて情報を発信しており、個人も、ウェブページ、ブログ、及びSNS(Social Network Service)を用いて情報を発信している。各情報は、他の情報の影響を受けて発信されることがある。例えば、ある企業が新製品を発売することをウェブページにおいて発表すると、そのウェブページを見たある個人がその情報とともにその新製品についての意見をブログにより公表することがある。このように、ある情報がウェブにおいて伝播することがある。
ところで、ウェブページにおいて公表された情報の伝播を不快に感じることがある。例えば、不祥事が発生していないのにもかかわらず、企業を中傷する情報が多数のウェブページに広がると、多数の人がその情報を知ってしまい、その企業の経済活動が阻害される可能性があるからである。そのような場合、その企業に属する人は、経済活動が阻害されることを防止するために、その情報の伝播経路を知りたいと考える。
また、企業は、上述したように、新製品を発売することをウェブページにおいて発表することがあり、広告の効果を調べる目的で又はマーケティングの一環として、ウェブにおけるその情報の広がり、つまりその情報の伝播経路を知りたいと考える。
しかしながら、現在、ウェブにおける情報の伝播経路を精度よく特定する技術は存在しない。
本発明は、ウェブにおける情報の伝播経路を精度よく特定する技術を提供することを目的とする。
上記課題を解決し上記目的を達成するために、本発明の情報伝播経路特定装置は、ウェブにおける情報の伝播経路を特定する装置であって、複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する共通文字列数特定部と、前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、前記共通文字列数特定部によって特定された各評価ラベルに対応する各ウェブページ対について、前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する情報伝播経路特定部と、を備える。
また、本発明の情報伝播経路特定装置は、ウェブにおける情報の伝播経路を特定する装置であって、複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定する共通文字列数特定部と、前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、前記取得部によって取得された情報からリンクタグを検出するリンクタグ検出部と、(1)前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ相互の作成時刻の前後関係を検出し、所定の閾値以上の関連度ラベルを有するウェブページ対を特定してそれを互いに関連しているウェブページ対であると特定する第1の処理と、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を特定してそれらを互いに関連しているウェブページ対であると特定する第2の処理との少なくとも一方を行うとともに、(2)前記リンクタグ検出部によって検出された全てのリンクタグについて、リンク元ページとリンク先ページとを特定して互いに関連しているウェブページ対を特定する処理をも行い、(3)更に、前記関連度ラベルを用いて特定した互いに関連しているウェブページ対と、前記リンクタグを用いて特定した互いに関連しているウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定する情報伝播経路特定部と、を備える。
また、本発明の情報伝播経路特定方法は、ウェブにおける情報の伝播経路を特定する方法であって、複数の評価対象のウェブページそれぞれを構成する情報を取得するステップと、取得した情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定するステップと、取得した情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出するステップと、特定した各評価ラベルに対応する各ウェブページ対について、検出した作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定するステップと、を含む。
また、本発明の情報伝播経路特定方法は、ウェブにおける情報の伝播経路を特定する方法であって、複数の評価対象のウェブページそれぞれを構成する情報を取得するステップと、取得した情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定するステップと、取得した情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出するステップと、取得した情報からリンクタグを検出するステップと、(1)検出した作成時刻に基づいて、各ウェブページ対を構成するウェブページ相互の作成時刻の前後関係を検出し、所定の閾値以上の関連度ラベルを有するウェブページ対を特定してそれを互いに関連しているウェブページ対であると特定する第1の処理と、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を特定してそれらを互いに関連しているウェブページ対であると特定する第2の処理との少なくとも一方を行うとともに、(2)検出した全てのリンクタグについて、リンク元ページとリンク先ページとを特定して互いに関連しているウェブページ対を特定する処理をも行い、(3)更に、前記関連度ラベルを用いて特定した互いに関連しているウェブページ対と、前記リンクタグを用いて特定した互いに関連しているウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定するステップと、を含む。
更に、本発明の情報伝播経路特定装置の各構成要件の機能をコンピュータに実現させるためのプログラムも、本発明の一態様である。
本発明は、ウェブにおける情報の伝播経路を精度よく特定する技術を提供することができる。
以下に、本発明を実施するための形態を図面を参照して説明する。
先ず、本実施の形態のウェブページ評価システムの構成を図1を用いて説明する。図1は、本実施の形態のウェブページ評価システムの構成図である。本実施の形態のウェブページ評価システムは、複数のウェブページ相互の関係を評価するためのシステムであって、図1に示すように、情報伝播経路特定装置100と、クライアント端末装置200と、検索装置300と、通信ネットワーク400とを有する。
情報伝播経路特定装置100は、通信ネットワーク400において開示されている複数のウェブページのうちの相互に関連するウェブページを特定し、それによりウェブにおける情報の伝播経路を特定する装置である。情報伝播経路特定装置100は、複数の構成部によって構成されている。情報伝播経路特定装置100の構成の詳細は図2を用いて後述する。
クライアント端末装置200は、ユーザによって使用される装置であって、検索キーワードと、検索キーワードに関連するウェブページを検索させる指示(以下、「検索指示」と記載する。)とをユーザから受け付ける。クライアント端末装置200は、受け付けた検索キーワード及び検索指示を検索装置300に送信する。また、クライアント端末装置200は、情報伝播経路特定装置100からそれによって得られた結果を受信する。図1に示すように、クライアント端末装置200には、検索キーワード及び検索指示をクライアント端末装置200に入力するための入力装置210と、情報伝播経路特定装置100によって得られた結果を表示するための表示装置220とが接続されている。入力装置210は、例えばキーボード及びマウスである。
検索装置300は、通信ネットワーク400において開示されているウェブページのなかから、クライアント端末装置200から受信した検索キーワードに関連するウェブページを検索する装置である。検索装置300によって検索されたウェブページは、情報伝播経路特定装置100によって評価されるウェブページであるので、以下では、検索装置300によって検索されたウェブページを「評価対象のウェブページ」と記載する。通信ネットワーク400は、データを通信するためのネットワークであって、具体的にはインターネットである。情報伝播経路特定装置100、クライアント端末装置200、及び検索装置300は、通信ネットワーク400に接続されており、相互に通信可能である。
次に、情報伝播経路特定装置100の構成を図2を用いて説明する。図2は、情報伝播経路特定装置100の構成図である。情報伝播経路特定装置100は、上述したように、通信ネットワーク400において開示されている複数のウェブページに含まれる情報の伝播経路を特定する装置であって、通信部1と、共通文字列数特定部2と、作成時刻検出部3と、リンクタグ検出部4と、情報伝播経路特定部5と、情報伝播経路図作成部6とを有する。
通信部1は、検索装置300から、検索装置300によって検索された複数の評価対象のウェブページそれぞれを構成する情報を受信する。通信部1は、複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部として機能する。評価対象のウェブページを構成する情報は、例えばマークアップラングエッジにより記載された情報である。また、通信部1は、情報伝播経路図作成部6によって作成される情報伝播経路図を、通信ネットワーク400を介してクライアント端末装置200に出力する。
共通文字列数特定部2は、通信部1によって受信された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出した上で、検出した文字列を構成する文字の数が所定の閾値以上である場合にその数を関連度ラベルとして特定する。また、共通文字列数特定部2は、各ウェブページ対について、最大の関連度ラベルを評価ラベルとして特定する。
具体的には、共通文字列数特定部2は、LCS(Longest common subsequence problem)における解法を用い、2個の評価対象のウェブページの組それぞれについて、共通する文字列を検出した上で、検出した文字列を構成する文字の数が所定の閾値以上である場合にその数を関連度ラベルとして特定する。そして、共通文字列数特定部2は、各ウェブページ対について、最大の関連度ラベルを評価ラベルとして特定する。関連度ラベルを特定する際の閾値は、例えば実験により決定される。LCSにおける代表的な解法は、Dynamic Programming(動的計画法)や、Suffix Treeである。
作成時刻検出部3は、通信部1によって受信された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する。「作成」には、特定の記事が記載された新規のウェブページが公開された場合のみならず、既に公開されているウェブページの中で上記特定の記事が追加された場合、つまりページ更新が行われた場合も含まれる。後者の場合の「作成時刻」は、ページ更新が行われた時刻ではなく、ウェブページが最初に公開された時刻である。
リンクタグ検出部4は、通信部1によって受信された情報の中からリンクタグを検出し、検出した各リンクタグについて、リンク元ページ情報とリンク先ページ情報とを特定する。なお、リンク元ページは作成時刻が相対的に後のウェブページ、リンク先ページは作成時刻が相対的に前のウェブページとみなす(図5参照)。
情報伝播経路特定部5は、通信ネットワーク400において開示されている複数のウェブページのうち、相互に関連するウェブページの組を特定し、それによりウェブにおける情報の伝播経路を特定する。情報伝播経路特定部5の具体的な処理(機能)は次の通りである。
情報伝播経路特定部5の処理は二通り存在する。
第一に、情報伝播経路特定部5は、共通文字列数特定部2及び作成時刻検出部3での処理結果に基づいてウェブページ同士の引用関係を検出し、どのウェブページからどのウェブページへ情報が伝播したか(内容の類似性と時間の前後関係)を特定する。具体的には、情報伝播経路特定部5は、共通文字列数特定部2によって特定された各評価ラベルに対応する各ウェブページ対について、作成時刻検出部3によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出する。
次に、情報伝播経路特定部5は、同一のウェブページに対して、それと共通する文字列を有し(つまり、評価ラベルを有し)、かつそれよりも作成時刻が相対的に前のウェブページが複数存在する場合(例えば、複数のニュースページを引用して一つのブログページが書かれたようにみえる場合)、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つだけ抽出し、当該ウェブページ対のうちの作成時刻が相対的に前のウェブページを「引用元ページ」、作成時刻が相対的に後のウェブページを「引用先ページ」として抽出する(図5参照)。情報伝播経路特定部5は、この処理を全てのウェブページ対について行うことにより、一つの引用先ページに対して一つの引用元ページを特定する。
なお、情報伝播経路特定部5は、抽出した各ウェブページ対について、その評価ラベルが基準値以上であることをチェックし、基準値未満であれば当該ウェブページ対の抽出をキャンセルすることが望ましい。基準値が小さすぎると、定型的な文字列(例えば「野村総合研究所」など)だけが共通していて、実質的な内容は類似していないようなウェブページ対を構成する2個のウェブページを相互に関連しているものと判断してしまう一方、基準値が大きすぎると、長い共通文字列を含む2個のウェブページですら相互に類似していないものと判断してしまうため、基準値は実験などを通じて求められる最適値が設定される。
第二に、情報伝播経路特定部5は、リンクタグ検出部4での処理結果に基づいて、どのウェブページからどのウェブページへ情報が伝播したか(内容の類似性と時間の前後関係)を特定する。具体的には、情報伝播経路特定部5は、リンクタグ検出部4によって検出された全てのリンクタグについて、リンク元ページとリンク先ページとを特定する。なお、ここで「リンク元ページ」はリンクタグが検出されたページであるため、引用関係でいえば「引用先ページ」に該当し、「リンク先ページ」は「引用元ページ」に該当する(図5参照)。
なお、上記の情報伝播経路特定部5の二通りの処理は、いずれか一方を省略することが可能であり、情報伝播経路特定部5が二通りの処理を行った場合はそれぞれの処理結果の和集合を情報伝播経路特定部5の処理結果とする。
情報伝播経路図作成部6は、情報伝播経路特定部5によって関連すると特定された各ウェブページ対を構成するウェブページを、作成された順に仮想的に並べて仮想的に線で結び、ウェブにおける情報の伝播を表現する情報伝播経路図を作成する。
次に、本実施の形態のウェブページ評価システムの動作を説明する。そのうちの情報伝播経路特定装置100の動作は、図3を用いて説明する。図3は、情報伝播経路特定装置100の動作の各ステップを示すフローチャートである。
先ず、ユーザは、検索キーワードと、その検索キーワードに関連するウェブページを検索させる指示(検索指示)とを、入力装置210を用いてクライアント端末装置200に入力する。クライアント端末装置200は、入力された検索キーワード及び検索指示を受け付け、それらを通信ネットワーク400を介して検索装置300に送信する。
検索装置300は、クライアント端末装置200からの検索キーワード及び検索指示を受信し、通信ネットワーク400において開示されているウェブページのなかから、受信した検索キーワードに関連するウェブページ(評価対象のウェブページ)を検索する。説明の便宜上、検索装置300は複数の評価対象のウェブページを検索したと仮定する。検索装置300は、検索した複数の評価対象のウェブページそれぞれを構成する情報を、通信ネットワーク400を介して情報伝播経路特定装置100に送信する。
情報伝播経路特定装置100では、通信部1が、検索装置300によって検索された複数の評価対象のウェブページそれぞれを構成する情報を受信する(S1)。共通文字列数特定部2は、通信部1によって受信された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数が所定の閾値以上である場合にその数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する(S2)。
共通文字列数特定部2の動作を図4を用いて具体的に説明する。図4は、共通文字列数特定部2の動作を説明するための図である。図4(A)は、評価対象のウェブページAを示しており、図4(B)は、評価対象のウェブページBを示している。図4(A)に示すように、評価対象のウェブページAには、文字列「mnlopabcdefxyz」が記載されており、図4(B)に示すように、評価対象のウェブページBには、文字列「ttxabxabcdexxx」が記載されている。
図4(A)と図4(B)とを比較すると明らかなように、評価対象のウェブページAと評価対象のウェブページBとにおいて、共通する文字列は、文字列「x」と、文字列「ab」と、文字列「abcde」とである。文字列「x」を構成する文字の数は「1」であり、文字列「ab」を構成する文字の数は「2」であって、文字列「abcde」を構成する文字の数は「5」である。この場合、共通文字列数特定部2は、それらの3個の文字列それぞれの関連度ラベルを「1」、「2」、「5」と特定し、最大の関連度ラベル「5」を評価ラベルとして特定する(S2)。
このようにして、共通文字列数特定部2は、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数が所定の閾値以上である場合にその数を関連度ラベルとして特定し、各ウェブページ対について、最大の関連度ラベルを評価ラベルとして特定する(S2)。
次に、作成時刻検出部3は、通信部1によって受信された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する(S3)。
次に、リンクタグ検出部4は、通信部1によって受信された情報の中からリンクタグを検出し、検出した各リンクタグについて、リンク元ページ情報とリンク先ページ情報とを特定する(S4)。
そして、情報伝播経路特定部5は、どのウェブページからどのウェブページへ情報が伝播したか(内容の類似性と時間の前後関係)を特定する(S5)。つまり、情報伝播経路特定部5は、ステップS4までの処理結果に基づいて、ウェブにおける情報の伝播経路を特定する(S5)。情報伝播経路特定部5の具体的な処理内容は前述したように二通り存在する。
一つは、共通文字列数特定部2によって特定された各評価ラベルに対応する各ウェブページ対について、作成時刻検出部3によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出する。次に、同一のウェブページに対して、それと共通する文字列を有し(つまり、評価ラベルを有し)、かつそれよりも作成時刻が相対的に前のウェブページが複数存在する場合(例えば、複数のニュースページを引用して一つのブログページが書かれたようにみえる場合)、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つだけ抽出し、当該ウェブページ対のうちの作成時刻が相対的に前のウェブページを「引用元ページ」、作成時刻が相対的に後のウェブページを「引用先ページ」として抽出する(図5参照)。この処理を全てのウェブページ対について行うことにより、一つの引用先ページに対して一つの引用元ページを特定する。また、抽出した各ウェブページ対について、その評価ラベルが基準値以上であることをチェックし、基準値未満であれば当該ウェブページ対の抽出をキャンセルする。
もう一つは、リンクタグ検出部4によって特定されたリンク元ページ情報とリンク先ページ情報とに基づいて、各リンクタグに係る各ウェブページ対について、それを構成する2個のウェブページのいずれが先に作成されたウェブページであるのかを特定する。そして、情報伝播経路特定部5は、これら二通りの処理を経て抽出されたウェブページ対の和集合により、ウェブにおける情報の伝播経路を特定する。
情報伝播経路特定部5の処理内容を図5を用いて具体的に説明する。図5は、情報伝播経路特定部5の処理内容を説明するための図である。図5の例では、ウェブページD,E,F,G(例えばニュースページ)の作成時刻は、ウェブページC(例えばブログページ)の作成時刻よりも先である。また、ウェブページCは、ウェブページGへのリンクタグを有している。この場合、ウェブページCがリンク元のウェブページであり、ウェブページGがリンク先のウェブページである。
また図5の例では、ウェブページDC,EC,FC,GCの間における評価ラベルは、それぞれ30,25,83,82である。
そこで、情報伝播経路特定部5は、第一の関連ウェブページ特定処理により、評価ラベルが最大となる「83」のウェブページ対FCを抽出するとともに、当該ウェブページ対FCの評価ラベル「83」が基準値(例えば「50」)以上であることを確認する。なお、もし当該ウェブページ対FCの評価ラベルが基準値未満であったなら、当該ウェブページ対FCの抽出をキャンセルする。
また、ウェブページGは、リンクタグによりウェブページCに関連付けられている。そのため、情報伝播経路特定部5は、第二の関連ウェブページ特定処理により、ウェブページ対GCを抽出する。
そして、情報伝播経路特定部5は、第一及び第二の関連ウェブページ特定処理の結果の和集合をとり、情報がウェブページF,GからウェブページCへ伝播したものと判断する。
次に、情報伝播経路図作成部6は、情報伝播経路特定部5によって特定された関連するウェブページを、作成された順に仮想的に並べて仮想的に線で結び、ウェブにおける情報の伝播を表現する情報伝播経路図を作成する(S6)。
情報伝播経路図作成部6によって作成される情報伝播経路図の具体例を図6を用いて説明する。図6は、情報伝播経路図作成部6によって作成される情報伝播経路図の具体例を説明するための図である。
ここで、情報伝播経路特定部5によって、ウェブページαβ,βγ,βδ,γεがそれぞれ相互に関連している、と特定されたと仮定する。そして、ウェブページの作成時刻はα,β,γ,δ,εの順であると仮定する。
この場合、情報伝播経路図作成部6は、ウェブページαとβとを線で結び、同様にβγ,βδ,γεをそれぞれ線で結び、更に各ウェブページ対を結ぶ線に、作成時刻が先のウェブページから作成時刻が後のウェブページの向きに矢印を付加して、図6に示す情報伝播経路図を作成する。図6における横軸tは時間軸である。
このようにして情報伝播経路図が作成されると、通信部1は、作成された情報伝播経路図を、通信ネットワーク400を介してクライアント端末装置200に出力する。クライアント端末装置200は、情報伝播経路図を受信して表示装置220に表示させる。
これにより、ユーザは、入力した検索キーワードに関連するウェブページに含まれる情報のウェブにおける伝播経路を知ることができる。
本実施の形態の情報伝播経路特定装置100の構成及び動作は、上述した通りである。次に、情報伝播経路特定装置100の効果を説明する。
(第1の効果)
情報伝播経路特定部5は、図5を用いて説明したように、第1の処理において、共通文字列数特定部2によって特定された各評価ラベルに対応する各ウェブページ対について、作成時刻検出部3によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する。
情報伝播経路特定部5は、図5を用いて説明したように、第1の処理において、共通文字列数特定部2によって特定された各評価ラベルに対応する各ウェブページ対について、作成時刻検出部3によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する。
図5を用いて具体的に説明し直すと、ウェブページD,E,F,Gそれぞれは、ウェブページCよりも作成時刻が前であって、ウェブページCと共通する文字列を有しており、ウェブページDC,EC,FC,GCの間における評価ラベルは、それぞれ30,25,83,82である。この場合、情報伝播経路特定部5は、複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対FCのみを抽出する。
情報伝播経路特定部5が、複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つだけ抽出するのは、次のような理由による。情報伝播経路特定部5は、「1」以上の評価ラベルを有するウェブページ対の全てを抽出しても情報の伝播経路を特定することができる。しかしながら、情報伝播経路特定部5は、最大の評価ラベルを有するウェブページ対を一つだけ抽出することにより、ウェブにおける情報の伝播経路を精度良く特定することができるからである。
例えば、情報伝播経路特定部5は、所定の閾値以上の評価ラベルを有するウェブページ対を抽出する場合、閾値が小さすぎると、多数のウェブページ対が抽出されて、情報の伝播経路が多数存在することになり、ウェブにおける情報の伝播経路を精度良く特定することができない。すなわち、閾値が小さすぎると、多数の伝播関係が検出され、情報伝播経路特定部5は、ウェブにおける情報の伝播経路を精度良く特定することができない。「伝播関係」とは、2個のウェブページ相互の伝播・引用関係を意味する。
その内容を図7を用いて視覚的に説明する。図7は、情報伝播経路特定部5が第一の処理(評価ラベルを用いる処理)の結果のみに基づいて特定した情報の伝播経路を示す図である。図7において、各楕円はウェブページを示しており、矢印付きの実線は、その始点及び終点のウェブページそれぞれが評価ラベルにより相互に関連していることを示している。その矢印は、情報の伝播の向きを示している。情報伝播経路特定部5が第一の処理の結果のみを用い、所定の閾値以上の評価ラベルを有するウェブページ対を抽出する場合、閾値が小さいと、図7に示すように、情報の伝播経路は多数存在して錯綜し、どの伝播経路が真の経路であるのかが不明になる。
他方、閾値が大きすぎると、大きな評価ラベルを有するウェブページ対であっても、その評価ラベルが閾値未満であれば、情報伝播経路特定部5は、そのウェブページ対を抽出しない。このように、閾値が小さすぎても大きすぎても問題が出てくるので、閾値を設定することは容易ではない。
したがって、あるウェブページが、それよりも作成時刻が前の複数のウェブページそれぞれと共通する文字列を有している場合、情報伝播経路特定部5は、上記あるウェブページを含む複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つだけ抽出する。これにより、情報伝播経路特定部5は、作成時刻が相対的に後のウェブページに記載されている情報の発信元となるウェブページを精度良く特定することができる。
(第2の効果)
情報伝播経路特定部5は、第一の処理(評価ラベルを用いる処理)の結果と、第二の処理(リンクタグを用いる処理)の結果との和集合をとり、それによりウェブにおける情報の伝播経路を特定する。情報伝播経路特定部5は、第一の処理の結果と、第二の処理の結果との一方のみを用いて伝播経路を特定することができる。情報伝播経路特定部5は、第一の処理の結果と、第二の処理の結果との和集合を用いると、伝播経路を精度良く特定することができる。したがって、情報伝播経路特定部5は、第一の処理の結果と、第二の処理の結果との和集合をとることが好ましい。以下にその理由を具体的に説明する。
情報伝播経路特定部5は、第一の処理(評価ラベルを用いる処理)の結果と、第二の処理(リンクタグを用いる処理)の結果との和集合をとり、それによりウェブにおける情報の伝播経路を特定する。情報伝播経路特定部5は、第一の処理の結果と、第二の処理の結果との一方のみを用いて伝播経路を特定することができる。情報伝播経路特定部5は、第一の処理の結果と、第二の処理の結果との和集合を用いると、伝播経路を精度良く特定することができる。したがって、情報伝播経路特定部5は、第一の処理の結果と、第二の処理の結果との和集合をとることが好ましい。以下にその理由を具体的に説明する。
情報伝播経路特定部5が第一の処理(関連度ラベルを用いる処理)の結果のみを用い、所定の閾値以上の評価ラベルを有する全てのウェブページ対を抽出する場合、上述したように、閾値が大きすぎると、大きな評価ラベルを有するウェブページ対であっても、その評価ラベルが閾値未満であれば、情報伝播経路特定部5は、そのウェブページ対を抽出しない。
しかしながら、抽出されなかったウェブページ対を構成する2個のウェブページ相互も関連していて情報伝播経路特定部5によって抽出されるべき場合がある。その場合、それら2個のウェブページのうちの後で作成されたウェブページに、先に作成されたウェブページへのリンクタグが含まれていれば、そのウェブページ対は、情報伝播経路特定部5によって抽出される。
このように、第一の処理(評価ラベルを用いる処理)の結果のみを用いた場合に検出される伝播関係の引用数を、第二の処理(リンクタグを用いる処理)の結果をも用いることにより、精度を落とすことなく増加させることができる。
他方、仮に、情報伝播経路特定部5が第二の処理(リンクタグを用いる処理)の結果のみを用いて相互に関連するウェブページを特定すると仮定する。その場合、作成時刻が前後する2個のウェブページが共通する文字列を有していても、後で作成されたウェブページに、先に作成されたウェブページへのリンクタグが含まれていなければ、それら2個のウェブページは、関連しているウェブページ対であると特定されない。
以下に、上記の内容を図8を用いて視覚的に説明する。図8は、情報伝播経路特定部5が第二の処理(リンクタグを用いる処理)の結果のみに基づいて特定した情報の伝播経路を示す図である。図8において、各楕円はウェブページを示しており、矢印付きの実線は、その始点及び終点のウェブページそれぞれがリンクタグにより相互に関連していることを示している。実線の矢印は、情報の伝播の向きを示している。矢印付きの破線は、その始点及び終点のウェブページそれぞれが共通する文字列を有しているのにもかかわらず、リンクタグが用いられていないことにより相互に関連していないことを示している。
図8の例では、「まとめブログD」は、共通する文字列を有しているのにもかかわらず、「一般ブログF」とは相互に関連していると判断されない。これは、「一般ブログF」に「まとめブログD」へのリンクタグが含まれていないことによる。このように情報伝播経路特定部5が第二の処理の結果のみを用いると、情報の伝播経路が実際には継続しているのにもかかわらず、断絶していると判断される場合がでてくる。換言すれば、情報伝播経路特定部5が第二の処理の結果のみを用いると、特定できる伝播経路が限られることになる。つまり、情報伝播経路特定部5が第二の処理の結果のみを用いて相互に関連するウェブページの対を特定し、それにより情報の伝播経路を特定するのは十分ではない。
そのため、情報伝播経路特定部5は、第一の処理(関連度ラベルを用いる処理)の結果と、第二の処理(リンクタグを用いる処理)の結果との和集合をとり、それによりウェブにおける情報の伝播経路を特定する。和集合をとることにより、第一の処理の結果と第二の処理の結果とを互いに補完することができ、相互に関連するウェブページの対をより精度良く特定することができる。すなわち、情報の真の伝播経路を精度良く特定することができる。
以下に、上記の内容を図9を用いて視覚的に説明する。図9は、情報伝播経路特定部5が第一の処理(評価ラベルを用いる処理)の結果と、第二の処理(リンクタグを用いる処理)の結果との和集合に基づいて特定した情報の伝播経路を示す図である。図9において、各楕円はウェブページを示しており、矢印付きの細い実線は、その始点及び終点のウェブページそれぞれが評価ラベル(最長共通文字列)により相互に関連していることを示している。矢印付きの太い実線は、その始点及び終点のウェブページそれぞれがリンクタグにより相互に関連していることを示している。矢印は、情報の伝播の向きを示している。
「まとめブログD」に着目すると、「まとめブログD」は、細い実線により「大手新聞サイトB」、「一般ブログF」、及び「一般ブログI」それぞれと接続されている。それは、「まとめブログD」が、評価ラベルにより「大手新聞サイトB」、「一般ブログF」、及び「一般ブログI」それぞれと相互に関連していることを示している。また、「まとめブログD」は、太い実線により「ネットニュースA」、「一般ブログG」、及び「一般ブログH」それぞれと接続されている。それは、「まとめブログD」が、リンクタグにより「ネットニュースA」、「一般ブログG」、及び「一般ブログH」それぞれと相互に関連していることを示している。
図9に示すように、「まとめブログD」は、第一の処理(評価ラベルを用いる処理)の結果のみが用いられると、「大手新聞サイトB」、「一般ブログF」、及び「一般ブログI」それぞれと相互に関連していると特定される。同様に、「まとめブログD」は、第二の処理(リンクタグを用いる処理)の結果のみが用いられると、「ネットニュースA」、「一般ブログG」、及び「一般ブログH」それぞれと相互に関連していると特定される。
それに対して、第一の処理の結果と、第二の処理の結果との和集合が用いられると、「まとめブログD」は、「大手新聞サイトB」、「一般ブログF」、「一般ブログI」、「ネットニュースA」、「一般ブログG」、及び「一般ブログH」それぞれと相互に関連していると特定される。
このように、情報伝播経路特定部5が第一の処理の結果と第二の処理の結果との和集合をとることにより、相互に関連しているウェブページの対を精度良く特定することができる。すなわち、情報の伝播経路を精度良く特定することができる。また、図9の「まとめブログD」のような、伝播される情報を中継するハブ機能を持つウェブページを特定することができる。また、情報の発信元のウェブページと、その情報が最後に伝播したウェブページとを特定することができるので、情報が伝播したウェブページの個数を把握することできる。更に、伝播経路をさかのぼることにより、情報が最後に伝播したウェブページがどのウェブページから影響を受けたのかを推定することができる。そのため、情報伝播経路特定部5は、第一の処理の結果と第二の処理の結果との和集合をとることにより、相互に関連しているウェブページ対を特定し、それにより情報の伝播経路を特定することが好ましい。
(変形例1)
なお、上述した実施の形態では、情報伝播経路特定部5は、同一のウェブページに対して、それと共通する文字列を有し(つまり、評価ラベルを有し)、かつそれよりも作成時刻が相対的に前のウェブページが複数存在する場合、複数のウェブページ対の中から、最大の評価ラベルを有するウェブページ対を一つだけ抽出する。しかしながら、情報伝播経路特定部5は、上記の場合、複数のウェブページ対の中から、所定の閾値以上の評価ラベルを有するウェブページ対を抽出してもよい。また、情報伝播経路特定部5は、それら複数のウェブページ対の中から、値が大きい方から上位所定の個数の評価ラベルそれぞれを有するウェブページ対を抽出してもよい。この場合も、情報伝播経路特定部5は、情報の伝播経路を特定することができる。
なお、上述した実施の形態では、情報伝播経路特定部5は、同一のウェブページに対して、それと共通する文字列を有し(つまり、評価ラベルを有し)、かつそれよりも作成時刻が相対的に前のウェブページが複数存在する場合、複数のウェブページ対の中から、最大の評価ラベルを有するウェブページ対を一つだけ抽出する。しかしながら、情報伝播経路特定部5は、上記の場合、複数のウェブページ対の中から、所定の閾値以上の評価ラベルを有するウェブページ対を抽出してもよい。また、情報伝播経路特定部5は、それら複数のウェブページ対の中から、値が大きい方から上位所定の個数の評価ラベルそれぞれを有するウェブページ対を抽出してもよい。この場合も、情報伝播経路特定部5は、情報の伝播経路を特定することができる。
また、情報伝播経路特定部5は、評価ラベルに着目するのではなく、共通文字列数特定部2によって特定された関連度ラベルに着目し、同一のウェブページに対して、それと共通する文字列を有し(つまり、関連度ラベルを有し)、かつそれよりも作成時刻が相対的に前のウェブページが複数存在する場合、複数のウェブページ対の中から、所定の閾値以上の関連度ラベルを有するウェブページ対を抽出してもよい。更に、情報伝播経路特定部5は、複数のウェブページ対の中から、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を抽出してもよい。この場合も、情報伝播経路特定部5は、情報の伝播経路を特定することができる。
(変形例2)
作成時刻検出部3による各評価対象のウェブページの作成時刻を検出する精度はあまり高くない。本願発明者の検証によれば、作成時刻の検出精度は80〜90%である。作成時刻を検出する精度があまり高くないことを例を挙げて以下に説明する。
作成時刻検出部3による各評価対象のウェブページの作成時刻を検出する精度はあまり高くない。本願発明者の検証によれば、作成時刻の検出精度は80〜90%である。作成時刻を検出する精度があまり高くないことを例を挙げて以下に説明する。
ウェブページPが存在し、ウェブページPの作成時刻より前に実施されたイベントの情報がそのイベントの実施時刻とともにウェブページPに含まれていると仮定する。ウェブページを構成する情報(ウェブページ本文)はHTMLで記述されているのであるが、HTMLでは時刻を検出することは容易ではない。そのため、作成時刻検出部3は、イベントの実施時刻をウェブページPの作成時刻と誤って検出してしまう場合がある。したがって、作成時刻を検出する精度はあまり高くない。
更に次のことを仮定する。すなわち、ウェブページPよりも前に作成されたウェブページQが存在し、上記イベントの実施時刻がウェブページQの作成時刻より前であると仮定する。この状況において、作成時刻検出部3がウェブページQの作成時刻を正確に検出すれば、実際にはウェブページPよりも前にウェブページQが作成されているのにもかかわらず、情報伝播経路特定部5は、ウェブページQの方がウェブページPよりも後に作成されたと判断してしまう。
それに対して、リンクタグを用いれば、2個のウェブページのいずれが先に作成されたのかを正確に特定することができる。つまり、ウェブページPにウェブページQへのリンクタグが含まれている場合、情報伝播経路特定部5は、ウェブページQの方がウェブページPよりも先に作成されたと正確に特定することができる。そのため、2個のウェブページの一方に他方へのリンクタグが含まれている場合、情報伝播経路特定部5は、作成時刻を検出する方法よりリンクタグを用いる方法を優先して、いずれが先に作成されたのかを判断する。
その内容を図10を用いて説明する。図10は、ウェブページPとウェブページQとのうちで先に作成されたウェブページを特定する方法を説明するための図である。図10において、矢印付きの実線は、ウェブページPとウェブページQとがリンクタグにより相互に関連していることを示している。矢印付きの破線は、ウェブページPとウェブページQとが関連度ラベルにより相互に関連していることを示している。また、図10は、実線の矢印の向きが示す通り、リンクタグにより、ウェブページQがウェブページPより先に作成されたことを示している。更に、図10は、破線の矢印の向きが示す通り、作成時刻の検出により、ウェブページPがウェブページQより先に作成されたことを示している。
図10に示すように、リンクタグを用いる方法と作成時刻を検出する方法とで、先に作成されたウェブページが異なると判断される場合、リンクタグを用いて、先に作成されたウェブページを特定する。なぜなら、作成時刻を精度良く特定することができないのに対し、リンクタグを用いると、いずれが先に作成されたのかを精度良く特定することができるからである。
なお、トラックバックにより先に作成されたウェブページに、後で作成されたウェブページへのリンクタグが含まれる場合があるが、そのリンクタグがトラックバックにより設定されたことを判断することは容易である。そのため、トラックバックにより設定されたリンクタグを除外すれば、リンクタグを用いる方法により、2個のウェブページのいずれが先に作成されたのかを精度良く特定することができる。
(変形例3)
上述したように、作成時刻検出部3によるウェブページの作成時刻を検出する精度はあまり高くない。したがって、変形例2では、リンクタグを用いる方法を作成時刻を検出する方法より優先することにより、2個のウェブページのうちの先に作成された方を判断する。しかしながら、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、変形例2の方法を用いることはできない。
上述したように、作成時刻検出部3によるウェブページの作成時刻を検出する精度はあまり高くない。したがって、変形例2では、リンクタグを用いる方法を作成時刻を検出する方法より優先することにより、2個のウェブページのうちの先に作成された方を判断する。しかしながら、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、変形例2の方法を用いることはできない。
変形例3では、情報伝播経路特定部5は、予め決められた優先順位にしたがって、2個のウェブページのいずれが先に作成されたのかを決定する。その優先順位は以下の通りである。
(1)企業の公式ウェブページ
(2)情報発信元のニュースメディアのウェブページ
(3)転載系のニュースメディアのウェブページ
(4)著名ブログ
(5)(1)〜(4)以外のウェブページ(個人ブログ)
情報伝播経路特定部5は、上記の優先順位にしたがって、比較対象の2個のウェブページのいずれが先に作成されたのかを決定する。例えば、比較対象の2個のウェブページの一方が(1)企業の公式ウェブページであって、他方が(2)情報発信元のニュースメディアのウェブページである場合、情報伝播経路特定部5は、上記の優先順位にしたがって(1)企業の公式ウェブページの方が先に作成されたと判断する。また例えば、比較対象の2個のウェブページの一方が(2)情報発信元のニュースメディアのウェブページであって、他方が(4)著名ブログである場合、情報伝播経路特定部5は、上記の優先順位にしたがって(2)情報発信元のニュースメディアのウェブページの方が先に作成されたと判断する。
(2)情報発信元のニュースメディアのウェブページ
(3)転載系のニュースメディアのウェブページ
(4)著名ブログ
(5)(1)〜(4)以外のウェブページ(個人ブログ)
情報伝播経路特定部5は、上記の優先順位にしたがって、比較対象の2個のウェブページのいずれが先に作成されたのかを決定する。例えば、比較対象の2個のウェブページの一方が(1)企業の公式ウェブページであって、他方が(2)情報発信元のニュースメディアのウェブページである場合、情報伝播経路特定部5は、上記の優先順位にしたがって(1)企業の公式ウェブページの方が先に作成されたと判断する。また例えば、比較対象の2個のウェブページの一方が(2)情報発信元のニュースメディアのウェブページであって、他方が(4)著名ブログである場合、情報伝播経路特定部5は、上記の優先順位にしたがって(2)情報発信元のニュースメディアのウェブページの方が先に作成されたと判断する。
比較対象の2個のウェブページが同じ優先順位のウェブページである場合、つまり、比較対象の2個のウェブページが同じ種類のウェブページである場合、情報伝播経路特定部5は、作成時刻検出部3によって検出された作成時刻に基づいて、いずれが先に作成されたのかを判断する。
このように、比較対象の2個のウェブページのいずれが先に作成されたのかを決定する際、情報伝播経路特定部5は、作成時刻検出部3によって検出された作成時刻を用いるよりも、変形例3の優先順位を用いる。これにより、いずれが先に作成されたのかを精度良く決定することができる。上述したように、作成時刻検出部3によるウェブページの作成時刻を検出する精度はあまり高くないからである。
なお、ウェブページの優先順位は、上記のような静的なものでなく、動的に決まってもよい。例えば、フラッシュを所定の数以上用いているウェブページや所定の数以上のリンクが張られている個人ブログを最上位の優先順位にする。
上述したように、比較対象の2個のウェブページのいずれが先に作成されたのかを決定する方法として、上述したように変形例2及び変形例3の方法を用いることができる。また、作成時刻検出部3によって検出された作成時刻を用いる方法を用いることもできる。どの方法を優先して用いるかは、以下の方法に関する優先順位に従うことが好ましい。
[1]変形例2のリンクタグを用いる方法
[2]変形例3の優先順位を用いる方法
[3]作成時刻検出部3によって検出された作成時刻を用いる方法
[1]変形例2のリンクタグを用いる方法を最優先にすることで、ニュースメディアが小さな個人ブログの情報を取り上げているケースを検出することができる。
[2]変形例3の優先順位を用いる方法
[3]作成時刻検出部3によって検出された作成時刻を用いる方法
[1]変形例2のリンクタグを用いる方法を最優先にすることで、ニュースメディアが小さな個人ブログの情報を取り上げているケースを検出することができる。
(変形例4)
更に、上述した実施の形態では、共通文字列数特定部2は、先ず、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において共通する文字列を検出する。しかしながら、共通文字列数特定部2は、比較対象の2個の評価対象のウェブページそれぞれについて形態素解析を実行し、名詞等の特定の品詞にのみ着目して比較対象の文字列を少なくし、その後に共通する文字列を検出してもよい。
更に、上述した実施の形態では、共通文字列数特定部2は、先ず、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において共通する文字列を検出する。しかしながら、共通文字列数特定部2は、比較対象の2個の評価対象のウェブページそれぞれについて形態素解析を実行し、名詞等の特定の品詞にのみ着目して比較対象の文字列を少なくし、その後に共通する文字列を検出してもよい。
例えば、評価対象のウェブページαに「私は桜を見に行った。」という第1の文字列が記載されており、評価対象のウェブページβに「私は桜を見たことがありますよ」という第2の文字列が記載されていた場合を想定する。この場合、共通文字列数特定部2は、第1の文字列を単語に分解して第3の文字列「私 は 桜 を 見 に 行っ た 。」を生成し、更に、複数の品詞のうち名詞と動詞とのみに着目するとともに動詞を原型に変更し、第1の文字列を「私 桜 見る 行く」という第4の文字列に変更する。同様にして第2の文字列についても「私 桜 見る こと ある」という第5の文字列に変更する。第4文字列と第5の文字列を比較することにより、ウェブページαとウェブページβは「私 桜 見る」という共通する文字列の並びを有すると判断される。
この方法によると、照合データ数が大幅に削減されるため、処理の高速化が実現する。また、文字列の表記揺れ(ですます、だである)を吸収することができる。なお、共通文字列数特定部2は、各文字列をコード化して処理データ量を少なくし、処理を行ってもよい。これによっても、処理の高速化が実現する。上記の例では、例えば、共通文字列数特定部2は、単語「私」にID「124」を割り当て、単語「桜」にID「398」を割り当て、単語「見る」にID「363」を割り当て、単語「行く」にID「297」を割り当て、IDの並びでLCSを行う。
なお、情報伝播経路特定装置100の各構成部の機能は、例えばコンピュータのCPU(プロセッサ)及びメモリ等のハードウェアと、その機能を実現するためのコンピュータプログラムとが協働することによって実現される。しかしながら、上記各機能は、専用の回路により実現される等、どのような形態により実現されてもよい。また、情報伝播経路特定装置100の各構成部の機能を実現するためのコンピュータプログラムは、記録媒体に格納されてもよい。
100 情報伝播経路特定装置、 200 クライアント端末装置、 300 検索装置、 400 通信ネットワーク、 1 通信部、 2 共通文字列数特定部、 3 作成時刻検出部、 4 リンクタグ検出部、 5 情報伝播経路特定部、 6 情報伝播経路図作成部。
Claims (10)
- ウェブにおける情報の伝播経路を特定する装置であって、
検索キーワードに関連するウェブページを検索する検索装置から、通信ネットワークを介して、検索結果として、複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する共通文字列数特定部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、
前記共通文字列数特定部によって特定された各評価ラベルに対応する各ウェブページ対について、前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する情報伝播経路特定部と、
を備える情報伝播経路特定装置。 - 更に、前記取得部によって取得された情報からリンクタグを検出するリンクタグ検出部を備え、
前記情報伝播経路特定部は、前記リンクタグ検出部によって検出された全てのリンクタグについて、リンク元ページ情報及びリンク先ページ情報を特定して関連しているウェブページ対を特定する処理をも行い、前記評価ラベルを用いて特定した関連するウェブページ対と、前記リンクタグを用いて特定した関連するウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定する
請求項1に記載の情報伝播経路特定装置。 - ウェブにおける情報の伝播経路を特定する装置であって、
検索キーワードに関連するウェブページを検索する検索装置から、通信ネットワークを介して、検索結果として、複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定する共通文字列数特定部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、
前記取得部によって取得された情報からリンクタグを検出するリンクタグ検出部と、
前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ相互の作成時刻の前後関係を検出し、所定の閾値以上の関連度ラベルを有するウェブページ対を特定してそれを互いに関連しているウェブページ対であると特定する第1の処理と、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を特定してそれらを互いに関連しているウェブページ対であると特定する第2の処理との少なくとも一方を行うとともに、前記リンクタグ検出部によって検出された全てのリンクタグについて、リンク元ページとリンク先ページとを特定して互いに関連しているウェブページ対を特定する処理をも行い、更に、前記関連度ラベルを用いて特定した互いに関連しているウェブページ対と、前記リンクタグを用いて特定した互いに関連しているウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定する情報伝播経路特定部と、
を備える情報伝播経路特定装置。 - 前記情報伝播経路特定部は、2個のウェブページのいずれが先に作成されたのかを判断する際、前記リンクタグ検出部によって検出したリンクタグをもとに特定したリンク先ページを最優先して特定し、2個のウェブページのいずれにも相手方へのリンクタグが含まれていない場合、各ウェブページに対して予め決められた優先順位をもとに、2個のウェブページのうちの優先順位が高い方のウェブページを特定し、2個のウェブページの優先順位が同じである場合、前記作成時刻検出部によって検出された作成時刻が前の方のウェブページを特定する
請求項2又は3に記載の情報伝播経路特定装置。 - 更に、前記情報伝播経路特定部によって特定された互いに関連しているウェブページ対それぞれについて、それを構成する各ウェブページを作成された順に仮想的に並べて仮想的に線で結び、ウェブにおける情報の伝播経路図を作成する情報伝播経路図作成部を備える
請求項1から4のいずれかに記載の情報伝播経路特定装置。 - 前記共通文字列数特定部は、評価対象のウェブページに記載されている文字列を、予め決められた品詞の単語により構成される文字列に変更した後に、各ウェブページ対において共通する文字列を検出する
請求項1から5のいずれかに記載の情報伝播経路特定装置。 - ウェブにおける情報の伝播経路を特定する方法であって、
検索キーワードに関連するウェブページを検索する検索装置から、通信ネットワークを介して、検索結果として、コンピュータが、複数の評価対象のウェブページそれぞれを構成する情報を取得するステップと、
コンピュータが、取得した情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定するステップと、
コンピュータが、取得した情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出するステップと、
コンピュータが、特定した各評価ラベルに対応する各ウェブページ対について、検出した作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定するステップと、
を含む情報伝播経路特定方法。 - ウェブにおける情報の伝播経路を特定する方法であって、
検索キーワードに関連するウェブページを検索する検索装置から、通信ネットワークを介して、検索結果として、コンピュータが、複数の評価対象のウェブページそれぞれを構成する情報を取得するステップと、
コンピュータが、取得した情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定するステップと、
コンピュータが、取得した情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出するステップと、
コンピュータが、取得した情報からリンクタグを検出するステップと、
コンピュータが、検出した作成時刻に基づいて、各ウェブページ対を構成するウェブページ相互の作成時刻の前後関係を検出し、所定の閾値以上の関連度ラベルを有するウェブページ対を特定してそれを互いに関連しているウェブページ対であると特定する第1の処理と、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を特定してそれらを互いに関連しているウェブページ対であると特定する第2の処理との少なくとも一方を行うとともに、検出した全てのリンクタグについて、リンク元ページとリンク先ページとを特定して互いに関連しているウェブページの対を特定する処理をも行い、更に、前記関連度ラベルを用いて特定した互いに関連しているウェブページ対と、前記リンクタグを用いて特定した互いに関連しているウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定するステップと、
を含む情報伝播経路特定方法。 - ウェブにおける情報の伝播経路を特定するためのプログラムであって、
コンピュータを、
検索キーワードに関連するウェブページを検索する検索装置から、通信ネットワークを介して、検索結果として、複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定し、最大の関連度ラベルを評価ラベルとして特定する共通文字列数特定部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、
前記共通文字列数特定部によって特定された各評価ラベルに対応する各ウェブページ対について、前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ同士の作成時刻の前後関係を検出した上で、各ウェブページについて、それと共通する文字列を有し、かつ、それよりも作成時刻が相対的に前のウェブページが複数存在する場合、それら複数のウェブページ対の中から最大の評価ラベルを有するウェブページ対を一つ特定してそれを関連しているウェブページ対であると特定するという処理を、全てのウェブページ対について行い、それによりウェブにおける情報の伝播経路を特定する情報伝播経路特定部、
として機能させるための情報伝播経路特定プログラム。 - ウェブにおける情報の伝播経路を特定するためのプログラムであって、
コンピュータを、
検索キーワードに関連するウェブページを検索する検索装置から、通信ネットワークを介して、検索結果として、複数の評価対象のウェブページそれぞれを構成する情報を取得する取得部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれについて、他の評価対象のウェブページそれぞれとの間において、共通する文字列を検出し、検出した文字列を構成する文字の数を関連度ラベルとして特定する共通文字列数特定部と、
前記取得部によって取得された情報に基づいて、複数の評価対象のウェブページそれぞれの作成時刻を検出する作成時刻検出部と、
前記取得部によって取得された情報からリンクタグを検出するリンクタグ検出部と、
前記作成時刻検出部によって検出された作成時刻に基づいて、各ウェブページ対を構成するウェブページ相互の作成時刻の前後関係を検出し、所定の閾値以上の関連度ラベルを有するウェブページ対を特定してそれを互いに関連しているウェブページ対であると特定する第1の処理と、値が大きい方から上位所定の個数の関連度ラベルそれぞれを有するウェブページ対を特定してそれらを互いに関連しているウェブページ対であると特定する第2の処理との少なくとも一方を行うとともに、前記リンクタグ検出部によって検出された全てのリンクタグについて、リンク元ページとリンク先ページとを特定して互いに関連しているウェブページ対を特定する処理をも行い、更に、前記関連度ラベルを用いて特定した互いに関連しているウェブページ対と、前記リンクタグを用いて特定した互いに関連しているウェブページ対とに基づいて、ウェブにおける情報の伝播経路を特定する情報伝播経路特定部、
として機能させるための情報伝播経路特定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010103670A JP2011086278A (ja) | 2009-09-17 | 2010-04-28 | 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009215203 | 2009-09-17 | ||
JP2010103670A JP2011086278A (ja) | 2009-09-17 | 2010-04-28 | 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010015400A Division JP4550939B1 (ja) | 2009-09-17 | 2010-01-27 | 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011086278A true JP2011086278A (ja) | 2011-04-28 |
Family
ID=42978720
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010015400A Expired - Fee Related JP4550939B1 (ja) | 2009-09-17 | 2010-01-27 | 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム |
JP2010103670A Pending JP2011086278A (ja) | 2009-09-17 | 2010-04-28 | 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010015400A Expired - Fee Related JP4550939B1 (ja) | 2009-09-17 | 2010-01-27 | 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP4550939B1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125588B (zh) * | 2018-10-30 | 2023-04-07 | 北京国双科技有限公司 | 传播效果图的绘制及评估方法、装置、存储介质及处理器 |
CN111666428B (zh) * | 2020-06-04 | 2023-08-08 | 杭州凡闻科技有限公司 | 网络媒体传播力评估方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004034282A1 (ja) * | 2002-10-10 | 2004-04-22 | Fujitsu Limited | コンテンツ再利用管理装置およびコンテンツ再利用支援装置 |
JP2005122295A (ja) * | 2003-10-14 | 2005-05-12 | Fujitsu Ltd | 関係図作成プログラム、関係図作成方法、および関係図作成装置 |
JP2005202766A (ja) * | 2004-01-16 | 2005-07-28 | National Institute Of Information & Communication Technology | 類似コンテンツの同時提示システム |
JP2007267173A (ja) * | 2006-03-29 | 2007-10-11 | Toshiba Corp | コンテンツ再生装置および方法 |
JP2009199325A (ja) * | 2008-02-21 | 2009-09-03 | Toshiba Corp | 表示データ生成装置及び方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008129692A (ja) * | 2006-11-17 | 2008-06-05 | Nec Corp | 回答支援装置、回答支援システム、回答支援方法および回答支援プログラム |
JP2008293351A (ja) * | 2007-05-25 | 2008-12-04 | Nec Corp | 情報伝播状況調査システム、情報の伝播状況調査方法、情報の伝播状況調査に用いる装置及びプログラム |
JP5078674B2 (ja) * | 2008-02-29 | 2012-11-21 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム |
JP5022946B2 (ja) * | 2008-03-03 | 2012-09-12 | 日本電信電話株式会社 | 伝播構造抽出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 |
-
2010
- 2010-01-27 JP JP2010015400A patent/JP4550939B1/ja not_active Expired - Fee Related
- 2010-04-28 JP JP2010103670A patent/JP2011086278A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004034282A1 (ja) * | 2002-10-10 | 2004-04-22 | Fujitsu Limited | コンテンツ再利用管理装置およびコンテンツ再利用支援装置 |
JP2005122295A (ja) * | 2003-10-14 | 2005-05-12 | Fujitsu Ltd | 関係図作成プログラム、関係図作成方法、および関係図作成装置 |
JP2005202766A (ja) * | 2004-01-16 | 2005-07-28 | National Institute Of Information & Communication Technology | 類似コンテンツの同時提示システム |
JP2007267173A (ja) * | 2006-03-29 | 2007-10-11 | Toshiba Corp | コンテンツ再生装置および方法 |
JP2009199325A (ja) * | 2008-02-21 | 2009-09-03 | Toshiba Corp | 表示データ生成装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4550939B1 (ja) | 2010-09-22 |
JP2011086273A (ja) | 2011-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6906419B2 (ja) | 情報提供装置、情報提供方法、およびプログラム | |
Tessem et al. | Word cloud visualisation of locative information | |
US20150067476A1 (en) | Title and body extraction from web page | |
US9361317B2 (en) | Method for entity enrichment of digital content to enable advanced search functionality in content management systems | |
JP6662119B2 (ja) | ソーシャルメディア投稿のキャプションを生成する方法、プログラム及びサーバ装置 | |
US10216831B2 (en) | Search results summarized with tokens | |
US20160055845A1 (en) | Generating training data for disambiguation | |
US10733247B2 (en) | Methods and systems for tag expansion by handling website object variations and automatic tag suggestions in dynamic tag management | |
US20120030239A1 (en) | Computer method and apparatus of information management and navigation | |
JP5989170B2 (ja) | 代表者の信頼度を用いた検索結果順位化装置および方法 | |
KR101541306B1 (ko) | 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체 | |
CN107408125B (zh) | 用于查询答案的图像 | |
CN107526718A (zh) | 用于生成文本的方法和装置 | |
CN103942211B (zh) | 一种正文页的识别方法及装置 | |
JP5435249B2 (ja) | イベント分析装置、イベント分析方法、およびプログラム | |
JP2007193697A (ja) | 情報収集装置,情報収集方法およびプログラム | |
JP2010072727A (ja) | 履歴処理装置、履歴処理方法および履歴処理プログラム | |
JP5040718B2 (ja) | スパム・イベント検出装置及び方法並びにプログラム | |
JP4550939B1 (ja) | 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム | |
US20130230248A1 (en) | Ensuring validity of the bookmark reference in a collaborative bookmarking system | |
Cao et al. | Extraction of informative blocks from web pages | |
Alam et al. | A data-driven score model to assess online news articles in event-based surveillance system | |
KR20160032599A (ko) | 사회 이슈에 대한 은폐를 탐지하는 방법 및 판단 장치 | |
Yin et al. | Research of integrated algorithm establishment of a spam detection system | |
Li et al. | Extraction of informative blocks from Web pages based on VIPS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120910 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140107 |