JP2013011999A - トピック変化検出装置及び方法 - Google Patents
トピック変化検出装置及び方法 Download PDFInfo
- Publication number
- JP2013011999A JP2013011999A JP2011143579A JP2011143579A JP2013011999A JP 2013011999 A JP2013011999 A JP 2013011999A JP 2011143579 A JP2011143579 A JP 2011143579A JP 2011143579 A JP2011143579 A JP 2011143579A JP 2013011999 A JP2013011999 A JP 2013011999A
- Authority
- JP
- Japan
- Prior art keywords
- content
- difference
- url
- existing
- change detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】インターネット(30)上のWebサイトを所定の周期で巡回し、新規のコンテンツを取得した当該新規のコンテンツのURLに関連付けてこれを記憶すると共に、これまでに取得していた同じURLの既存のコンテンツとを比較して、新規のコンテンツにおいて新たに追加された既存コンテンツとの差分である差分コンテンツを抽出し、記憶する。さらに、トピック変化検出装置(10)は、差分コンテンツに含まれるワードの種類毎に、当該ワードのいずれかが当該ワードが含まれる差分コンテンツと同じURLの既存のコンテンツに含まれない場合に、当該URLを記憶する。
【選択図】図1
Description
差分コンテンツから抽出したワードが既存のコンテンツに含まれるか否かを判別し、既存コンテンツにそのワードが含まれていなければ、新たに登場したワードであることが分かる。このため、差分コンテンツのURLのWebサイトにおいて、新たなワードを使用した話題(トピック)が扱われていることが分かる。このため、トピック変化検出装置は、既存のコンテンツから新たなトピックが登場したか否か、すなわち扱うトピックが変化したか否かを判別し、そのトピックが変化したWebサイトのURLを記憶することができる。
トピック変化検出装置10は、トピック変化検出装置10に係る各機能を統括的に制御する制御部11と、本発明の機能を実行するプログラム(図示省略)等を記憶する記憶部12と、を少なくとも有する。
ここで、Webクロール手段111が取得するWebページ31は、所定の内容により構成されるWebページであり、いわゆるニュース等の何らかの情報を提供するサイトのページだけでなく、掲示板、ブログやショートブログメッセージを表示するWebページも含む。
逆に、追加差分ワードが既存コンテンツに含まれていない場合、当該追加差分ワードが既存コンテンツに初めて登場したことを示し、追加差分ワードに関する話題(トピック)が当該Webページにおいて初めて取り上げられたことを示す。したがって、当該Webページにおいてトピックの変化があったといえる。
差分コンテンツ抽出手段112は、この新たに追加されたコンテンツ323を差分コンテンツとして差分Webコンテンツ・アーカイブ123に記憶させる。
差分コンテンツ抽出手段112は、この新たに追加されたコンテンツ324を差分コンテンツとして差分Webコンテンツ・アーカイブ123に記憶させる。
11 制御部
12 記憶部
30 インターネット
111 Webクロール手段
112 差分コンテンツ抽出手段
113 トピック変化検出手段
114 アラート手段
121 新規Webコンテンツ・アーカイブ
122 既存WebコンテンツDB
123 差分Webコンテンツ・アーカイブ
124 トピック変化URLDB
Claims (3)
- インターネットのWebサイトのトピックが変化したことを検出するトピック変化検出装置であって、
前記Webサイトを所定の周期で巡回して前記Webサイトの新規のコンテンツを取得するWebクロール手段と、
前記Webクロール手段が取得した前記新規のコンテンツを当該新規のコンテンツのURLに関連付けて記憶する新規コンテンツ記憶手段と、
前記Webクロール手段が前回の巡回までに取得した既存のコンテンツを当該既存のコンテンツのURLに関連付けて記憶している既存コンテンツ記憶手段と、
前記新規コンテンツ記憶手段が記憶した新規のコンテンツを、前記既存コンテンツ記憶手段が記憶している既存のコンテンツであって当該新規のコンテンツと同じURLのコンテンツとを比較して、当該新規のコンテンツにおいて新たに追加された差分コンテンツを抽出する差分コンテンツ抽出手段と、
前記差分コンテンツ抽出手段が抽出した前記差分コンテンツを、当該差分コンテンツのURLと共に記憶する差分コンテンツ記憶手段と、
前記差分コンテンツ記憶手段が記憶した差分コンテンツに含まれるワードの種類毎に、前記ワードのいずれかが、当該差分コンテンツと同じURLの前記既存のコンテンツに含まれない場合に、当該差分コンテンツのURLをトピック変化URL記憶手段に記憶させるトピック変化検出手段と、を備えるトピック変化検出装置。 - 前記トピック変化検出手段が、前記差分コンテンツに含まれるワードの種類毎に、前記ワードのいずれかが、当該差分コンテンツと同じアドレスの前記既存のコンテンツに含まれないと判断した場合に、当該差分コンテンツと同じURLの前記新規のコンテンツが変更されたことを通知するアラート手段をさらに備える、請求項1に記載のトピック変化検出装置。
- インターネット上のWebサイトのトピックが変化したことを検出するトピック変化検出方法であって、
コンピュータは、記憶手段を備え、
前記コンピュータに、
前記Webサイトを所定の周期で巡回して前記Webサイトの新規のコンテンツを取得するWebクロールステップと、
前記Webクロールステップで取得した新規のコンテンツを当該新規のコンテンツのURLに関連付けて前記記憶手段に記憶させる新規コンテンツ記憶ステップと、
前記新規コンテンツ記憶ステップで記憶させた新規のコンテンツを、前記Webクロールステップで前回の巡回までに取得した既存のコンテンツを当該既存のコンテンツのURLに関連付けて記憶する既存コンテンツ記憶手段が記憶している既存のコンテンツであって、当該新規のコンテンツと同じURLのコンテンツとを比較して、当該新規のコンテンツにおいて新たに追加された差分コンテンツを抽出する差分コンテンツ抽出ステップと、
前記差分コンテンツ抽出ステップで抽出した差分コンテンツを、当該差分コンテンツのURLと共に前記記憶手段に記憶させる差分コンテンツ記憶ステップと、
前記差分コンテンツ記憶ステップで前記記憶手段に記憶させた差分コンテンツに含まれるワードの種類毎に、それぞれの前記ワードのいずれかが、当該差分コンテンツと同じURLの前記既存のコンテンツに含まれない場合に、当該差分コンテンツのURLを前記記憶手段に記憶させるトピック変化検出ステップと、実行させるトピック変化検出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011143579A JP2013011999A (ja) | 2011-06-28 | 2011-06-28 | トピック変化検出装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011143579A JP2013011999A (ja) | 2011-06-28 | 2011-06-28 | トピック変化検出装置及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013011999A true JP2013011999A (ja) | 2013-01-17 |
Family
ID=47685843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011143579A Pending JP2013011999A (ja) | 2011-06-28 | 2011-06-28 | トピック変化検出装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013011999A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015161645A1 (zh) * | 2014-04-22 | 2015-10-29 | 深圳市志友企业发展促进中心 | 一种多媒体内容更改检测方法、装置及资源传播系统 |
JP2016525754A (ja) * | 2014-07-04 | 2016-08-25 | シャオミ・インコーポレイテッド | ウェブページアクセス方法、装置、サーバ、端末、プログラム、及び記録媒体 |
CN107256263A (zh) * | 2017-06-13 | 2017-10-17 | 成都布林特信息技术有限公司 | 互联网热点信息自动监测方法 |
JP2018513426A (ja) * | 2015-02-11 | 2018-05-24 | ベスト コレクト, エス.エー. ディーイー シー.ブイ. | 自動インテリジェントデータスクレイピング及び検証 |
JP2020101945A (ja) * | 2018-12-20 | 2020-07-02 | ヤフー株式会社 | 特定装置、特定方法及び特定プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005352613A (ja) * | 2004-06-09 | 2005-12-22 | Nec Corp | トピック分析方法及びその装置並びにプログラム |
JP2009187395A (ja) * | 2008-02-07 | 2009-08-20 | Nec Corp | トピック分析装置、方法及びプログラム |
-
2011
- 2011-06-28 JP JP2011143579A patent/JP2013011999A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005352613A (ja) * | 2004-06-09 | 2005-12-22 | Nec Corp | トピック分析方法及びその装置並びにプログラム |
JP2009187395A (ja) * | 2008-02-07 | 2009-08-20 | Nec Corp | トピック分析装置、方法及びプログラム |
Non-Patent Citations (4)
Title |
---|
CSNG200500207015; 角谷和俊ほか1名: 'Webアーカイブのための時間情報管理とその応用' 電子情報通信学会技術研究報告 第103巻 第192号, 20030711, pp.85〜90, 社団法人電子情報通信学会 * |
CSNG200900269088; 松永拓ほか2名: 'キーワードの出現に基づくブログコミュニティ抽出とオピニオンリーダーの発見' 電子情報通信学会 第18回データ工学ワークショップ論文集 DEWS2007 C3-7, 20070601, 電子情報通信学会データ工学研究専門委員会 * |
JPN6013043353; 松永拓ほか2名: 'キーワードの出現に基づくブログコミュニティ抽出とオピニオンリーダーの発見' 電子情報通信学会 第18回データ工学ワークショップ論文集 DEWS2007 C3-7, 20070601, 電子情報通信学会データ工学研究専門委員会 * |
JPN6013043355; 角谷和俊ほか1名: 'Webアーカイブのための時間情報管理とその応用' 電子情報通信学会技術研究報告 第103巻 第192号, 20030711, pp.85〜90, 社団法人電子情報通信学会 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015161645A1 (zh) * | 2014-04-22 | 2015-10-29 | 深圳市志友企业发展促进中心 | 一种多媒体内容更改检测方法、装置及资源传播系统 |
CN105099796A (zh) * | 2014-04-22 | 2015-11-25 | 深圳市志友企业发展促进中心 | 一种多媒体内容更改检测方法、装置及资源传播系统 |
CN105099796B (zh) * | 2014-04-22 | 2018-07-20 | 深圳市志友企业发展促进中心 | 一种多媒体内容更改检测方法、装置及资源传播系统 |
JP2016525754A (ja) * | 2014-07-04 | 2016-08-25 | シャオミ・インコーポレイテッド | ウェブページアクセス方法、装置、サーバ、端末、プログラム、及び記録媒体 |
JP2018513426A (ja) * | 2015-02-11 | 2018-05-24 | ベスト コレクト, エス.エー. ディーイー シー.ブイ. | 自動インテリジェントデータスクレイピング及び検証 |
CN107256263A (zh) * | 2017-06-13 | 2017-10-17 | 成都布林特信息技术有限公司 | 互联网热点信息自动监测方法 |
JP2020101945A (ja) * | 2018-12-20 | 2020-07-02 | ヤフー株式会社 | 特定装置、特定方法及び特定プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6122199B2 (ja) | 検索結果へのアクセスを改良するシステム、方法及び記憶媒体 | |
JP6173546B2 (ja) | リダイレクトの低減 | |
JP5346374B2 (ja) | ウェブページプライバシーリスク保護方法及びシステム | |
KR102128691B1 (ko) | 스크롤 맵을 제공하는 방법 및 시스템 | |
EP2904509B1 (en) | Improving access to network content | |
KR102454954B1 (ko) | 검색 동작 출력 엘리먼트에 대한 액션 표시자 | |
US20150324271A1 (en) | Method and system for measuring user engagement with content items | |
CN103348346A (zh) | 用于检测新浏览器窗口的技术 | |
US20160027061A1 (en) | Repositioning Previously Presented Content Items For Presentation To A User Via An Updated News Feed | |
US9760557B2 (en) | Tagging autofill field entries | |
JP2013011999A (ja) | トピック変化検出装置及び方法 | |
US9195944B1 (en) | Scoring site quality | |
US20110197133A1 (en) | Methods and apparatuses for identifying and monitoring information in electronic documents over a network | |
JP2017068547A (ja) | 情報提供装置、プログラム及び情報提供方法 | |
JP6683681B2 (ja) | コンバージョンに対する様々なユーザ・インタラクションの貢献度の決定 | |
JP5421309B2 (ja) | 行動ログメッセージを生成して投稿する投稿装置及びその方法 | |
US9135345B1 (en) | Generating and updating online content using standardized tagged data | |
US10109020B2 (en) | User interface for bookmarks in a social networking system | |
JP5216654B2 (ja) | 重要度判定装置、重要度判定方法、およびプログラム | |
US10827026B1 (en) | Eviction of data in a session service cache | |
US9146906B1 (en) | Modifying a webpage display based on a referrer web address | |
JP5231604B2 (ja) | クロールサーバ及び方法 | |
US10163118B2 (en) | Method and apparatus for associating user engagement data received from a user with portions of a webpage visited by the user | |
US10044827B1 (en) | Trigger-based session service cache population | |
JP5183762B2 (ja) | 更新部分再掲載装置及び更新部分再掲載方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110916 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131018 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131029 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140304 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |