JP2013011999A - トピック変化検出装置及び方法 - Google Patents

トピック変化検出装置及び方法 Download PDF

Info

Publication number
JP2013011999A
JP2013011999A JP2011143579A JP2011143579A JP2013011999A JP 2013011999 A JP2013011999 A JP 2013011999A JP 2011143579 A JP2011143579 A JP 2011143579A JP 2011143579 A JP2011143579 A JP 2011143579A JP 2013011999 A JP2013011999 A JP 2013011999A
Authority
JP
Japan
Prior art keywords
content
difference
url
existing
change detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011143579A
Other languages
English (en)
Inventor
Yosuke Hayakawa
洋輔 早川
Yusaku Taniguchi
雄作 谷口
Lamers Bernard
ベルナルド ラーメルス
Tatsuhiro Niwa
達洋 丹羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2011143579A priority Critical patent/JP2013011999A/ja
Publication of JP2013011999A publication Critical patent/JP2013011999A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】Webページにおいて掲載される記事のトピックの変化を検知することができるトピック変化検出装置及び方法を提供すること。
【解決手段】インターネット(30)上のWebサイトを所定の周期で巡回し、新規のコンテンツを取得した当該新規のコンテンツのURLに関連付けてこれを記憶すると共に、これまでに取得していた同じURLの既存のコンテンツとを比較して、新規のコンテンツにおいて新たに追加された既存コンテンツとの差分である差分コンテンツを抽出し、記憶する。さらに、トピック変化検出装置(10)は、差分コンテンツに含まれるワードの種類毎に、当該ワードのいずれかが当該ワードが含まれる差分コンテンツと同じURLの既存のコンテンツに含まれない場合に、当該URLを記憶する。
【選択図】図1

Description

本発明は、インターネット上で公開されたWebページのトピックが変化したことを検出するトピック変化検出装置及び方法に関する。
インターネット上では、様々な情報が提供されている。情報の提供は企業だけでなく個人でもブログやホームページによって行われ、リアルタイム性を重視したものとして簡易ブログ等も登場している。
特に、ブログを始めとするWebページでは、更新頻度は高いものの、特定の話題に限定された情報が、ある程度継続して提供されることが多い。いわゆる読者として、あるWebページを継続的に閲覧しているユーザにとっては、閲覧しているWebページがいつ更新されたのかを知りたいという要望がある。そこで、登録したWebページが更新されたときにアラートを通知するシステムが開示されている(例えば、特許文献1)。
特開2002−342151号公報
特許文献1に開示されているシステムでは、登録したWebページが更新された場合にアラートを通知するが、これは、単純に予め取得していたWebページの情報と、新たに取得したWebページの情報との差分がある場合に、更新があったとして通知するにすぎない。
一方で、特定のWebページで扱っている情報のトピックが変化した場合に通知して欲しいという要望がある。例えば、ある特定のスポーツチームの順位が変動しないうちは新たな情報は不要であり、チームの順位が変動したという情報がWebページに掲載されたときに通知が欲しいといった場合や、新たな話題(トピック)が掲載されたときにだけ通知が欲しいといった場合である。このような場合に、単純に新規のWebページの情報と既存のWebページの情報との差分を取るだけでは対応することができない。
本発明は、Webページにおいて掲載されている記事のトピックの変化を検知することができるトピック変化検出装置及び方法を提供することを目的とする。
(1)インターネットのWebサイトのトピックが変化したことを検出するトピック変化検出装置であって、前記Webサイトを所定の周期で巡回して前記Webサイトの新規のコンテンツを取得するWebクロール手段と、前記Webクロール手段が取得した前記新規のコンテンツを当該新規のコンテンツのURLに関連付けて記憶する新規コンテンツ記憶手段と、前記Webクロール手段が前回の巡回までに取得した既存のコンテンツを当該既存のコンテンツのURLに関連付けて記憶している既存コンテンツ記憶手段と、前記新規コンテンツ記憶手段が記憶した新規のコンテンツを、前記既存コンテンツ記憶手段が記憶している既存のコンテンツであって当該新規のコンテンツと同じURLのコンテンツとを比較して、当該新規のコンテンツにおいて新たに追加された差分コンテンツを抽出する差分コンテンツ抽出手段と、前記差分コンテンツ抽出手段が抽出した前記差分コンテンツを、当該差分コンテンツのURLと共に記憶する差分コンテンツ記憶手段と、前記差分コンテンツ記憶手段が記憶した差分コンテンツに含まれるワードの種類毎に、前記ワードのいずれかが、当該差分コンテンツと同じURLの前記既存のコンテンツに含まれない場合に、当該差分コンテンツのURLをトピック変化URL記憶手段に記憶させるトピック変化検出手段と、を備えるトピック変化検出装置。
(1)に記載のトピック変化検出装置によれば、インターネット上のWebサイトを所定の周期で巡回し、新規のコンテンツを取得した当該新規のコンテンツのURLに関連付けてこれを記憶すると共に、これまでに取得していた同じURLの既存のコンテンツとを比較して、新規のコンテンツにおいて新たに追加された既存コンテンツとの差分である差分コンテンツを抽出し、記憶する。さらに、トピック変化検出装置は、差分コンテンツに含まれるワードの種類毎に、当該ワードのいずれかが当該ワードが含まれる差分コンテンツと同じURLの既存のコンテンツに含まれない場合に、当該URLをトピック変化URL記憶手段に記憶する。
差分コンテンツから抽出したワードが既存のコンテンツに含まれるか否かを判別し、既存コンテンツにそのワードが含まれていなければ、新たに登場したワードであることが分かる。このため、差分コンテンツのURLのWebサイトにおいて、新たなワードを使用した話題(トピック)が扱われていることが分かる。このため、トピック変化検出装置は、既存のコンテンツから新たなトピックが登場したか否か、すなわち扱うトピックが変化したか否かを判別し、そのトピックが変化したWebサイトのURLを記憶することができる。
(2)前記トピック変化検出手段が、前記差分コンテンツに含まれるワードの種類毎に、前記ワードのいずれかが、当該差分コンテンツと同じアドレスの前記既存のコンテンツに含まれないと判断した場合に、当該差分コンテンツと同じURLの前記新規のコンテンツが変更されたことを通知するアラート手段をさらに備える、(1)に記載のトピック変化検出装置。
(2)に記載のトピック変化検出装置によれば、(1)に記載のトピック変化検出装置に加えて、トピック変化検出装置は、差分コンテンツのワードが既存のコンテンツのワードに含まれていない場合に、差分コンテンツのURLのWebサイトに含まれるコンテンツに変更があったことを通知するアラート手段をさらに備える。このため、あるWebサイトにおいて新たな話題が扱われたり、そのコンテンツのトピックが変化したことを通知することができる。
(3)インターネット上のWebサイトのトピックが変化したことを検出するトピック変化検出方法であって、コンピュータは、記憶手段を備え、前記コンピュータに、前記Webサイトを所定の周期で巡回して前記Webサイトの新規のコンテンツを取得するWebクロールステップと、前記Webクロールステップで取得した新規のコンテンツを当該新規のコンテンツのURLに関連付けて前記記憶手段に記憶させる新規コンテンツ記憶ステップと、前記新規コンテンツ記憶ステップで記憶させた新規のコンテンツを、前記Webクロールステップで前回の巡回までに取得した既存のコンテンツを当該既存のコンテンツのURLに関連付けて記憶する既存コンテンツ記憶手段が記憶している既存のコンテンツであって、当該新規のコンテンツと同じURLのコンテンツとを比較して、当該新規のコンテンツにおいて新たに追加された差分コンテンツを抽出する差分コンテンツ抽出ステップと、前記差分コンテンツ抽出ステップで抽出した差分コンテンツを、当該差分コンテンツのURLと共に前記記憶手段に記憶させる差分コンテンツ記憶ステップと、前記差分コンテンツ記憶ステップで前記記憶手段に記憶させた差分コンテンツに含まれるワードの種類毎に、それぞれの前記ワードのいずれかが、当該差分コンテンツと同じURLの前記既存のコンテンツに含まれない場合に、当該差分コンテンツのURLを前記記憶手段に記憶させるトピック変化検出ステップと、実行させるトピック変化検出方法。
(3)のトピック変化検出方法によれば、(1)に係るトピック変化検出装置と同様の効果を奏することができる。
本発明によれば、Webページにおいて掲載される記事の内容の変化を検知することができるトピック変化検出装置及び方法を提供することができる。
本発明の一実施形態に係るトピック変化検出装置の機能ブロックを示す図である。 本発明の一実施形態に係るトピック変化検出装置の既存WebコンテンツDBに格納されているテーブルの一例である。 本発明の一実施形態に係るトピック変化検出装置が行う所定のWebページにおけるトピックの変化を検出する動作を説明するための概念図である。 本発明の一実施形態に係るトピック変化検出装置が行う処理のフローチャートである。 本発明の一実施形態に係るトピック変化検出装置が行う処理のフローチャートである。
以下、本発明の実施形態について図面を参照して説明する。なお、以下に説明する実施形態は、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
図1から図3を参照して、本発明の一実施形態に係るトピック変化検出装置10について説明する。
図1を参照して、本発明の一実施形態に係るトピック変化検出装置10について説明する。図1は、トピック変化検出装置10の機能ブロック及びその周辺機器の機能概要を示す図である。
本実施形態は、コンピュータ(トピック変化検出装置10)及びその周辺装置に適用される。本実施形態における各部は、コンピュータ及びその周辺装置が備えるハードウェア並びにこのハードウェアを制御するソフトウェアによって構成される。また、トピック変化検出装置10は、通信ネットワークとしてのインターネット30に接続している各種サーバ(図示せず)に接続し、互いに通信を行う。
上記ハードウェアには、制御部としてのCPUの他、記憶部、通信部、表示部及び入力部が含まれる。記憶部としては、例えば、メモリ(RAM、ROM等)、ハードディスクドライブ(HDD)及び光ディスク(CD、DVD等)ドライブが挙げられる。通信部としては、例えば、各種有線及び無線インターフェース装置が挙げられる。表示部としては、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイが挙げられる。入力部としては、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)が挙げられる。
上記ソフトウェアには、上記ハードウェアを制御するコンピュータ・プログラムやデータが含まれる。コンピュータ・プログラムやデータは、記憶部により記憶され、制御部により適宜実行、参照される。また、コンピュータ・プログラムやデータは、通信ネットワークを介して配布することも可能であり、CD−ROM等のコンピュータ可読媒体に記憶して配布することも可能である。
以下、トピック変化検出装置10の機能構成について説明する。
トピック変化検出装置10は、トピック変化検出装置10に係る各機能を統括的に制御する制御部11と、本発明の機能を実行するプログラム(図示省略)等を記憶する記憶部12と、を少なくとも有する。
制御部11は、CPU等により構成されており、トピック変化検出装置10の各処理動作の制御や情報の通信制御を行う。この制御部11は、Webクロール手段111と、差分コンテンツ抽出手段112と、トピック変化検出手段113と、アラート手段114と、を備える。詳細は後述する。
記憶部12は、上述の各種プログラムの他に、新規コンテンツ記憶手段としての新規Webコンテンツ・アーカイブ121と、既存コンテンツ記憶手段としての既存Webコンテンツ・データベース(以下、データベースをDBと表記する。)122と、差分コンテンツ記憶手段としての差分Webコンテンツ・アーカイブ123と、トピック変化URL記憶手段としてのトピック変化URLDB124と、を備える。詳細は後述する。
制御部11のWebクロール手段111は、インターネット30上に公開されているWebサイトの各Webページ31を巡回し、Webページ31のURL(Uniform Resorce Locater)と、当該Webページ31のデータ(コンテンツ)とを取得する。そして、Webクロール手段111は、インターネット30から取得したWebページ31のデータ(コンテンツ)を記憶部12の新規Webコンテンツ・アーカイブ121に記憶させる。
ここで、Webクロール手段111が取得するWebページ31は、所定の内容により構成されるWebページであり、いわゆるニュース等の何らかの情報を提供するサイトのページだけでなく、掲示板、ブログやショートブログメッセージを表示するWebページも含む。
ここで、新規Webコンテンツ・アーカイブ121には、Webクロール手段111が取得したWebページのデータ(コンテンツ)が当該WebページのURLと共に記憶されている。
差分コンテンツ抽出手段112は、新規Webコンテンツ・アーカイブ121と既存WebコンテンツDB122とを参照して、新規Webコンテンツ・アーカイブ121に格納されたWebページのデータ(以下、新規コンテンツという)と、当該Webページと同じURLの既存WebコンテンツDB122に格納されているWebページのデータ(以下、既存コンテンツという)とを対比し、その差分(以下、抽出された差分のデータを差分コンテンツという)を抽出する。そして、差分コンテンツ抽出手段112は、抽出した差分コンテンツを差分Webコンテンツ・アーカイブ123にURLと共に記憶させる。
ここで、既存WebコンテンツDB122について説明する。既存WebコンテンツDB122は、既存コンテンツがURLと共に格納されている。例えば、図2に示すテーブル1221のように、URLと既存コンテンツとがそれぞれ互いに関連付けられて記憶される。
この既存コンテンツは、Webクロール手段111が取得したWebページのデータが順次格納され、差分があった場合には、その差分データ(差分コンテンツ)が順次既存WebコンテンツDB122に追加して記憶されることが好ましく、Webクロール手段111がクロールした日時の情報と共に、URL毎及び日時毎に記憶されることが好ましい。既存WebコンテンツDB122には、Webクロール手段111とは別に異なるクロール手段により取得したデータが格納されていてもよい。
また、差分Webコンテンツ・アーカイブ123は、差分コンテンツ抽出手段112により抽出された差分コンテンツをURLと共に記憶する。このURLは、差分コンテンツが抽出された元のWebページのURLである。また、これらの差分コンテンツ及びURLには、日付の情報が関連付けられていることが好ましい。この日付の情報は、例えば、Webクロール手段111が当該URLのWebページのデータを取得した日時である。
トピック変化検出手段113は、Webページ31におけるトピックの変化を検出する。詳細には、トピック変化検出手段113は、差分Webコンテンツ・アーカイブ123に記憶された差分コンテンツから追加差分ワードを検出する。追加差分ワードは、差分コンテンツに含まれるワードの種類単位で抽出したワードをいう。このワードは、本実施形態においては、コンテンツに含まれるひとまとまりの単語をいい、1つのコンテンツにおいて同じワードが重複しないものであり、ワードの種類毎に抽出される。例えば、1つのコンテンツ内で複数回同じワードが登場したとしても、複数回登場したワードの個数を数えるのではなく、一度、1つのコンテンツ内で登場したワードは、そのコンテンツにおいて何回登場しようともそのワードは1つとして数える。この、個々の単語毎に抽出したワードを追加差分ワードという。
次に、トピック変化検出手段113は、既存WebコンテンツDB122を参照して、追加差分ワードを抽出した差分コンテンツのURLと同一のURLを有する既存コンテンツを読み出し、抽出した追加差分ワードが当該既存コンテンツに含まれる否かを判別する。追加差分ワードが既存コンテンツに含まれる場合は、その追加差分ワードが既存コンテンツにすでに登場していたことを示し、追加差分ワードに関する話題(トピック)が当該Webページにおいて既に扱われていることを示す。したがって、当該Webページにおいて、トピックの変化が無いとわかる。
逆に、追加差分ワードが既存コンテンツに含まれていない場合、当該追加差分ワードが既存コンテンツに初めて登場したことを示し、追加差分ワードに関する話題(トピック)が当該Webページにおいて初めて取り上げられたことを示す。したがって、当該Webページにおいてトピックの変化があったといえる。
なお、トピック変化検出手段113が読み出す既存コンテンツは、過去の全ての既存コンテンツでもよく、また、既存WebコンテンツDB122に記憶されている既存コンテンツにおいて最新の日時の既存コンテンツ(すなわち、Webクロール手段111が前回取得したコンテンツ)であってもよい。また、指定された所定の日時又は時間範囲における既存コンテンツであってもよい。この時間範囲は、分単位、日単位、年単位等所定の期間を指定することができる。以下、本実施形態では、トピック変化検出手段113は、過去の全ての既存コンテンツに追加差分ワードと同じワードが含まれているか否かを判別するものとする。
そしてトピック変化検出手段113は、追加差分ワードが既存コンテンツに含まれていないと判別した場合、当該追加差分ワードを抽出した差分コンテンツに関連付けられたURLをトピック変化URLDB124に記憶させる。
トピック変化URLDB124は、トピック変化検出手段113がトピックの変化があったと判断した追加差分ワードを抽出した差分コンテンツに関連付けられたURLを記憶する。
アラート手段114は、所定の端末20にアラート情報を送信する(図3参照)。このアラート情報は、ある追加差分ワードを抽出した差分コンテンツのURLのWebページにおいて、トピックの変化があったことを示すものである。例えば、アラートの態様としては、アラート手段114は、予め登録された所定の端末20のブラウザ21上にアラート22を表示させたり、予め登録されたユーザのメールアドレスに送信したりすることができる。
図3を参照して、トピック変化の検出について詳細に説明する。図3は、トピック変化検出装置10が行うトピック変化の検出を説明するための概念図である。
まず、所定のWebページ32において、コンテンツ321とコンテンツ322とが存在し、既存WebコンテンツDB122に記憶されているものとする(図3のWebページ(1)参照)。このコンテンツ321及びコンテンツ322が既存コンテンツとなる。
次に、Webクロール手段111がWebページ32のURLに再度接続して、Webページ32のデータを新たに取得したとする(図3のWebページ(2)参照)。このWebクロール手段111が新たに取得したWebページ32のデータが新規コンテンツとして当該Webページ32のURLと共に新規Webコンテンツ・アーカイブ121に格納される。
次に差分コンテンツ抽出手段112は、同じURLの新規Webコンテンツ・アーカイブ121に格納された新規コンテンツと、既存WebコンテンツDB122に格納された既存コンテンツとをそれぞれ読み出して対比し、その差分を抽出する。図3によると、既存コンテンツ321が削除され、もう一つの既存コンテンツ322がそのまま残されている。また、新たにコンテンツ323が追加されている。
差分コンテンツ抽出手段112は、この新たに追加されたコンテンツ323を差分コンテンツとして差分Webコンテンツ・アーカイブ123に記憶させる。
次に、トピック変化検出手段113は、差分Webコンテンツ・アーカイブ123を参照して、追加差分ワードを抽出する。図3の例でいうと、既存のコンテンツ321,322と新規のコンテンツ321とを対比したとき、新たに登場したワードは、「まみむ」(図3のワード41)、「めも」(図3のワード42)及び「やゆよ」(図3のワード43)である。したがって、差分コンテンツ抽出手段112はこの3つのワードを追加差分ワードとして抽出する。なお、新規のコンテンツ323をみると、「まみむ」が2回登場しているが、これを2つのワードとしてワード数を2として抽出するのではなく、1種類のワードとして抽出する。
次に、トピック変化検出手段113は、既存WebコンテンツDB122を参照して、追加差分ワードを抽出した差分コンテンツのURLと同じURLの既存コンテンツを読み出して、追加差分ワードと同じワードが既存コンテンツに含まれるか否かを判別する。図3の例では、追加差分ワードと同じワードが既存コンテンツに含まれていないため、トピック変化検出手段113が当該追加差分ワードを抽出したURLをトピック変化URLDB124に記憶させると共に、アラート手段が所定の端末20にアラート情報を送信する。アラート情報は、例えば、端末20に表示されたブラウザ21に表示される。図3の例では、「○○○のページのトピックの変更を検知しました」といったアラート22が表示されている。
その後、さらにWebクロール手段111がWebページ32のURLに再度接続して、Webページ32のデータを新たに取得したとする(図3のWebページ(3)参照)。このWebクロール手段111が新たに取得したWebページ32のデータも新規コンテンツとして当該Webページ32のURLと共に新規Webコンテンツ・アーカイブ121に記憶される。
次に差分コンテンツ抽出手段112が差分コンテンツを抽出するが、対比する対象は、前回新規コンテンツとして対比したときのWebページ32のコンテンツと、今回新たに取得した新規コンテンツとなる。図3によると、コンテンツ322の一部が削除されており、コンテンツ323がそのまま残され、新たにコンテンツ324が追加されている。
差分コンテンツ抽出手段112は、この新たに追加されたコンテンツ324を差分コンテンツとして差分Webコンテンツ・アーカイブ123に記憶させる。
次に、トピック変化検出手段113は、上記と同様に、差分Webコンテンツ・アーカイブ123を参照して、追加差分ワードを抽出する。図3の例でいうと、既存のコンテンツ321,322,323と新規のコンテンツ324とを対比したとき、新たに登場したワードは無い(すなわち、全ての追加差分ワードと同じワードが既存コンテンツに含まれる)。したがって、トピック変化検出手段113は、その後特に処理を行わず、また、アラート手段114もアラートを送信することなく、トピック変化検出装置10は、当該URLについてのトピック変化検出処理を終了する。
図4及び図5を参照してトピック変化検出装置10が行う処理の流れについて説明する。図4及び図5は、トピック変化検出装置10が行う処理のフローチャートである。
図4のステップS11では、トピック変化検出装置10のWebクロール手段111は、インターネット30からWebページのデータ(コンテンツ)を取得する。
ステップS12では、トピック変化検出装置10のWebクロール手段111は、ステップS11で取得したデータを新規コンテンツとして新規Webコンテンツ・アーカイブ121に記憶させる。
ステップS13では、トピック変化検出装置10の差分コンテンツ抽出手段112は、同じURLの新規Webコンテンツ・アーカイブ121の新規コンテンツと既存WebコンテンツDB122の既存コンテンツとを対比して、差分コンテンツを抽出する。
ステップS14では、トピック変化検出装置10の差分コンテンツ抽出手段112は、ステップS13で抽出した差分コンテンツを差分Webコンテンツ・アーカイブ123に記憶させる。そして、トピック変化検出装置10のWebクロール手段111及び差分コンテンツ抽出手段112は、これらの処理を繰り返し行う。
図5のステップS21では、トピック変化検出装置10のトピック変化検出手段113は、差分Webコンテンツ・アーカイブ123から差分コンテンツを読み出し、また、既存WebコンテンツDB122から追加差分ワードを抽出する。
ステップS22では、トピック変化検出手段113は、既存WebコンテンツDB122を参照して、追加差分ワードが、過去の全ての既存コンテンツに含まれるか否かを判別する。この判別でNOの場合は、ステップS23に処理を移し、YESの場合は、本フローチャートの処理を終了する。
ステップS23では、トピック変化検出手段113は、ステップS22で追加差分ワードが既存コンテンツに含まれないと判別された差分コンテンツのURLをトピックが変化したものとして、トピック変化URLDB124に記憶させる。
ステップS24では、トピック変化検出装置10のアラート手段114は、所定の端末に対して、アラート情報を送信し、本フローチャートの処理を終了する。
上述の実施形態によれば、差分コンテンツから抽出したワードが既存コンテンツに含まれるか否かを判別するため、既存コンテンツにワードが含まれていなければ、新たに登場したワードであることが分かる。このため、差分コンテンツのアドレスのWebページにおいて、新たなワードを使用した話題(トピック)が扱われていることを知ることができる。このため、トピック変化検出装置10は、既存のコンテンツから新たなトピックが登場したか、すなわち扱うトピックが変化したか否かを判別することができる。
上述の実施形態によれば、トピック変化検出装置10は、差分コンテンツのワードが既存コンテンツのワードに含まれていない場合に、差分コンテンツのアドレスのWebページにおいて変更があったことを通知するアラート手段を備える。このため、あるWebページにおいて新たな話題が扱われたり、トピックが変化したことを通知することができる。
上述の実施形態によれば、トピック変化検出装置10は、差分コンテンツから追加差分ワードを抽出して、当該URLのWebページにおいてトピックの変化があるか否かを判別するので、従来のように、個々にWebページを既存のものと対比してキーワードを抽出するよりもハードウェアに与える負担を軽くすることができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
10 トピック変化検出装置
11 制御部
12 記憶部
30 インターネット
111 Webクロール手段
112 差分コンテンツ抽出手段
113 トピック変化検出手段
114 アラート手段
121 新規Webコンテンツ・アーカイブ
122 既存WebコンテンツDB
123 差分Webコンテンツ・アーカイブ
124 トピック変化URLDB

Claims (3)

  1. インターネットのWebサイトのトピックが変化したことを検出するトピック変化検出装置であって、
    前記Webサイトを所定の周期で巡回して前記Webサイトの新規のコンテンツを取得するWebクロール手段と、
    前記Webクロール手段が取得した前記新規のコンテンツを当該新規のコンテンツのURLに関連付けて記憶する新規コンテンツ記憶手段と、
    前記Webクロール手段が前回の巡回までに取得した既存のコンテンツを当該既存のコンテンツのURLに関連付けて記憶している既存コンテンツ記憶手段と、
    前記新規コンテンツ記憶手段が記憶した新規のコンテンツを、前記既存コンテンツ記憶手段が記憶している既存のコンテンツであって当該新規のコンテンツと同じURLのコンテンツとを比較して、当該新規のコンテンツにおいて新たに追加された差分コンテンツを抽出する差分コンテンツ抽出手段と、
    前記差分コンテンツ抽出手段が抽出した前記差分コンテンツを、当該差分コンテンツのURLと共に記憶する差分コンテンツ記憶手段と、
    前記差分コンテンツ記憶手段が記憶した差分コンテンツに含まれるワードの種類毎に、前記ワードのいずれかが、当該差分コンテンツと同じURLの前記既存のコンテンツに含まれない場合に、当該差分コンテンツのURLをトピック変化URL記憶手段に記憶させるトピック変化検出手段と、を備えるトピック変化検出装置。
  2. 前記トピック変化検出手段が、前記差分コンテンツに含まれるワードの種類毎に、前記ワードのいずれかが、当該差分コンテンツと同じアドレスの前記既存のコンテンツに含まれないと判断した場合に、当該差分コンテンツと同じURLの前記新規のコンテンツが変更されたことを通知するアラート手段をさらに備える、請求項1に記載のトピック変化検出装置。
  3. インターネット上のWebサイトのトピックが変化したことを検出するトピック変化検出方法であって、
    コンピュータは、記憶手段を備え、
    前記コンピュータに、
    前記Webサイトを所定の周期で巡回して前記Webサイトの新規のコンテンツを取得するWebクロールステップと、
    前記Webクロールステップで取得した新規のコンテンツを当該新規のコンテンツのURLに関連付けて前記記憶手段に記憶させる新規コンテンツ記憶ステップと、
    前記新規コンテンツ記憶ステップで記憶させた新規のコンテンツを、前記Webクロールステップで前回の巡回までに取得した既存のコンテンツを当該既存のコンテンツのURLに関連付けて記憶する既存コンテンツ記憶手段が記憶している既存のコンテンツであって、当該新規のコンテンツと同じURLのコンテンツとを比較して、当該新規のコンテンツにおいて新たに追加された差分コンテンツを抽出する差分コンテンツ抽出ステップと、
    前記差分コンテンツ抽出ステップで抽出した差分コンテンツを、当該差分コンテンツのURLと共に前記記憶手段に記憶させる差分コンテンツ記憶ステップと、
    前記差分コンテンツ記憶ステップで前記記憶手段に記憶させた差分コンテンツに含まれるワードの種類毎に、それぞれの前記ワードのいずれかが、当該差分コンテンツと同じURLの前記既存のコンテンツに含まれない場合に、当該差分コンテンツのURLを前記記憶手段に記憶させるトピック変化検出ステップと、実行させるトピック変化検出方法。
JP2011143579A 2011-06-28 2011-06-28 トピック変化検出装置及び方法 Pending JP2013011999A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011143579A JP2013011999A (ja) 2011-06-28 2011-06-28 トピック変化検出装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011143579A JP2013011999A (ja) 2011-06-28 2011-06-28 トピック変化検出装置及び方法

Publications (1)

Publication Number Publication Date
JP2013011999A true JP2013011999A (ja) 2013-01-17

Family

ID=47685843

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011143579A Pending JP2013011999A (ja) 2011-06-28 2011-06-28 トピック変化検出装置及び方法

Country Status (1)

Country Link
JP (1) JP2013011999A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015161645A1 (zh) * 2014-04-22 2015-10-29 深圳市志友企业发展促进中心 一种多媒体内容更改检测方法、装置及资源传播系统
JP2016525754A (ja) * 2014-07-04 2016-08-25 シャオミ・インコーポレイテッド ウェブページアクセス方法、装置、サーバ、端末、プログラム、及び記録媒体
CN107256263A (zh) * 2017-06-13 2017-10-17 成都布林特信息技术有限公司 互联网热点信息自动监测方法
JP2018513426A (ja) * 2015-02-11 2018-05-24 ベスト コレクト, エス.エー. ディーイー シー.ブイ. 自動インテリジェントデータスクレイピング及び検証
JP2020101945A (ja) * 2018-12-20 2020-07-02 ヤフー株式会社 特定装置、特定方法及び特定プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352613A (ja) * 2004-06-09 2005-12-22 Nec Corp トピック分析方法及びその装置並びにプログラム
JP2009187395A (ja) * 2008-02-07 2009-08-20 Nec Corp トピック分析装置、方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352613A (ja) * 2004-06-09 2005-12-22 Nec Corp トピック分析方法及びその装置並びにプログラム
JP2009187395A (ja) * 2008-02-07 2009-08-20 Nec Corp トピック分析装置、方法及びプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200500207015; 角谷和俊ほか1名: 'Webアーカイブのための時間情報管理とその応用' 電子情報通信学会技術研究報告 第103巻 第192号, 20030711, pp.85〜90, 社団法人電子情報通信学会 *
CSNG200900269088; 松永拓ほか2名: 'キーワードの出現に基づくブログコミュニティ抽出とオピニオンリーダーの発見' 電子情報通信学会 第18回データ工学ワークショップ論文集 DEWS2007 C3-7, 20070601, 電子情報通信学会データ工学研究専門委員会 *
JPN6013043353; 松永拓ほか2名: 'キーワードの出現に基づくブログコミュニティ抽出とオピニオンリーダーの発見' 電子情報通信学会 第18回データ工学ワークショップ論文集 DEWS2007 C3-7, 20070601, 電子情報通信学会データ工学研究専門委員会 *
JPN6013043355; 角谷和俊ほか1名: 'Webアーカイブのための時間情報管理とその応用' 電子情報通信学会技術研究報告 第103巻 第192号, 20030711, pp.85〜90, 社団法人電子情報通信学会 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015161645A1 (zh) * 2014-04-22 2015-10-29 深圳市志友企业发展促进中心 一种多媒体内容更改检测方法、装置及资源传播系统
CN105099796A (zh) * 2014-04-22 2015-11-25 深圳市志友企业发展促进中心 一种多媒体内容更改检测方法、装置及资源传播系统
CN105099796B (zh) * 2014-04-22 2018-07-20 深圳市志友企业发展促进中心 一种多媒体内容更改检测方法、装置及资源传播系统
JP2016525754A (ja) * 2014-07-04 2016-08-25 シャオミ・インコーポレイテッド ウェブページアクセス方法、装置、サーバ、端末、プログラム、及び記録媒体
JP2018513426A (ja) * 2015-02-11 2018-05-24 ベスト コレクト, エス.エー. ディーイー シー.ブイ. 自動インテリジェントデータスクレイピング及び検証
CN107256263A (zh) * 2017-06-13 2017-10-17 成都布林特信息技术有限公司 互联网热点信息自动监测方法
JP2020101945A (ja) * 2018-12-20 2020-07-02 ヤフー株式会社 特定装置、特定方法及び特定プログラム

Similar Documents

Publication Publication Date Title
JP6122199B2 (ja) 検索結果へのアクセスを改良するシステム、方法及び記憶媒体
JP6173546B2 (ja) リダイレクトの低減
JP5346374B2 (ja) ウェブページプライバシーリスク保護方法及びシステム
KR102128691B1 (ko) 스크롤 맵을 제공하는 방법 및 시스템
EP2904509B1 (en) Improving access to network content
KR102454954B1 (ko) 검색 동작 출력 엘리먼트에 대한 액션 표시자
US20150324271A1 (en) Method and system for measuring user engagement with content items
CN103348346A (zh) 用于检测新浏览器窗口的技术
US20160027061A1 (en) Repositioning Previously Presented Content Items For Presentation To A User Via An Updated News Feed
US9760557B2 (en) Tagging autofill field entries
JP2013011999A (ja) トピック変化検出装置及び方法
US9195944B1 (en) Scoring site quality
US20110197133A1 (en) Methods and apparatuses for identifying and monitoring information in electronic documents over a network
JP2017068547A (ja) 情報提供装置、プログラム及び情報提供方法
JP6683681B2 (ja) コンバージョンに対する様々なユーザ・インタラクションの貢献度の決定
JP5421309B2 (ja) 行動ログメッセージを生成して投稿する投稿装置及びその方法
US9135345B1 (en) Generating and updating online content using standardized tagged data
US10109020B2 (en) User interface for bookmarks in a social networking system
JP5216654B2 (ja) 重要度判定装置、重要度判定方法、およびプログラム
US10827026B1 (en) Eviction of data in a session service cache
US9146906B1 (en) Modifying a webpage display based on a referrer web address
JP5231604B2 (ja) クロールサーバ及び方法
US10163118B2 (en) Method and apparatus for associating user engagement data received from a user with portions of a webpage visited by the user
US10044827B1 (en) Trigger-based session service cache population
JP5183762B2 (ja) 更新部分再掲載装置及び更新部分再掲載方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110916

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131018

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131029

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140304

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101