JP5386548B2 - 急上昇ワード抽出装置及び方法 - Google Patents
急上昇ワード抽出装置及び方法 Download PDFInfo
- Publication number
- JP5386548B2 JP5386548B2 JP2011143578A JP2011143578A JP5386548B2 JP 5386548 B2 JP5386548 B2 JP 5386548B2 JP 2011143578 A JP2011143578 A JP 2011143578A JP 2011143578 A JP2011143578 A JP 2011143578A JP 5386548 B2 JP5386548 B2 JP 5386548B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- word
- differential
- url
- web
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims description 99
- 238000000034 method Methods 0.000 title claims description 29
- 239000000284 extract Substances 0.000 claims description 25
- 230000000630 rising effect Effects 0.000 claims description 21
- 230000009193 crawling Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 5
- 230000009191 jumping Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 108020001568 subdomains Proteins 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
インターネット上のWebサイトに含まれるコンテンツに使用されたワードの数を単純に数えるのではなく、当該ワードが登場したURLの数を数えることができるため、話題として取り上げた情報源の数を元にして注目度の高いキーワードが何かを判別し、抽出することができる。また、例えば、1つのWebページ内に同一のワードが脈絡無く多数登場するようなものであってもその影響を最小限にして注目度の高いキーワードを抽出することができる。
これにより、ドメイン又は所定のサブドメイン内のコンテンツにおいて、中心として取り上げられているトピックを示すキーワードを抽出することができるので、急上昇ワード自体をそれぞれのドメイン又はサブドメインを分類するキーとしても使用することが可能となる。
急上昇ワード抽出装置10は、急上昇ワード抽出装置10に係る各機能を統括的に制御する制御部11と、本発明の機能を実行するプログラム(図示省略)等を記憶する記憶部12と、を少なくとも有する。
ここで、Webクロール手段111が取得するWebページ31は、所定の内容により構成されるWebページであり、いわゆるニュース等の何らかの情報を提供するサイトのページに限らず、掲示板、ブログやショートブログメッセージを表示するWebページも含む。
差分コンテンツ抽出手段112は、この新たに追加されたコンテンツ323を差分コンテンツとして差分Webコンテンツ・アーカイブ123に記憶させる。
差分コンテンツ抽出手段112は、この新たに追加されたコンテンツ324を差分コンテンツとして差分Webコンテンツ・アーカイブ123に記憶させる。
なお、基準回数は、少なくとも、1より大きい値であることが好ましい。これにより、新規コンテンツに登場した数が基準数より大きくなった回数が複数回以上のものを抽出することができる。このため、所定期間内において、継続して注目されている話題(トピック)を示すキーワードを抽出することが可能となる。
11 制御部
12 記憶部
30 インターネット
111 Webクロール手段
112 差分コンテンツ抽出手段
113 急上昇ワード抽出手段
121 新規Webコンテンツ・アーカイブ
122 既存WebコンテンツDB
123 差分Webコンテンツ・アーカイブ
124 急上昇ワードDB
Claims (3)
- インターネット上で注目度が上昇している急上昇ワードを抽出する急上昇ワード抽出装置であって、
前記インターネット上のWebサイトを所定の周期で巡回して新規のコンテンツを取得するWebクロール手段と、
前記Webクロール手段が取得した新規のコンテンツを当該新規のコンテンツのURLに関連付けて記憶する新規コンテンツ記憶手段と、
前記Webクロール手段が前回の巡回までに取得した既存のコンテンツを当該既存のコンテンツのURLに関連付けて記憶している既存コンテンツ記憶手段と、
前記新規コンテンツ記憶手段が記憶した新規のコンテンツを、前記既存コンテンツ記憶手段が記憶している既存のコンテンツであって、当該新規のコンテンツと同じURLの既存コンテンツと比較して、当該新規のコンテンツにおいて新たに追加された差分コンテンツを抽出する差分コンテンツ抽出手段と、
前記差分コンテンツ抽出手段が抽出した差分コンテンツを、当該差分コンテンツのURLに関連付けて記憶する差分コンテンツ記憶手段と、
前記差分コンテンツ記憶手段が記憶した差分コンテンツに含まれるワード毎に、当該ワードが含まれる前記差分コンテンツのURLの数を、前記URLが示すドメイン又は所定のサブドメイン毎に集計し、前記URLの数が所定の基準数を超えたワードを、当該ドメイン又は所定のサブドメイン毎の急上昇ワードとして抽出する急上昇ワード抽出手段と、を備える急上昇ワード抽出装置。 - 前記Webクロール手段が新規のコンテンツを取得して前記新規コンテンツ記憶手段が新規のコンテンツを記憶する毎に、前記差分コンテンツ抽出手段及び前記差分コンテンツ記憶手段の処理を繰り返す繰り返し手段をさらに備え、
前記急上昇ワード抽出手段は、所定期間において取得した複数の差分コンテンツに含まれるワードの中から、前記URLの数が前記所定の基準数を超えた回数が所定の基準回数を超えたものを特定して、前記急上昇ワードとして抽出する請求項1に記載の急上昇ワード抽出装置。 - インターネット上で注目度が上昇している急上昇ワードを抽出する急上昇ワード抽出方
法であって、
コンピュータは、記憶手段を備え、
コンピュータに、
前記インターネット上のWebサイトを所定の周期で巡回して新規のコンテンツを取得するWebクロールステップと、
前記Webクロール手段が取得した新規のコンテンツを当該新規のコンテンツのURLに関連付けて前記記憶手段に記憶させる新規コンテンツ記憶ステップと、
前記Webクロール手段が前回の巡回までに取得した既存のコンテンツを当該既存のコンテンツのURLに関連付けて前記記憶手段に記憶させる既存コンテンツ記憶ステップと、
前記新規コンテンツ記憶ステップで前記記憶手段に記憶させた新規のコンテンツを、前記記憶手段が記憶している既存のコンテンツであって、当該新規のコンテンツと同じURLのコンテンツとを比較して、当該新規のコンテンツにおいて新たに追加された差分コンテンツを抽出する差分コンテンツ抽出ステップと、
前記差分コンテンツ抽出ステップにおいて抽出された差分コンテンツを、当該差分コンテンツのURLに関連付けて前記記憶手段に記憶させる差分コンテンツ記憶ステップと、
前記差分コンテンツ記憶ステップで記憶手段に記憶させた差分コンテンツに含まれるワード毎に、当該ワードが含まれる前記差分コンテンツのURLの数を、前記URLが示すドメイン又は所定のサブドメイン毎に集計し、前記URLの数が所定の基準数を超えたワードを、当該ドメイン又は所定のサブドメイン毎の急上昇ワードとして抽出する急上昇ワード抽出ステップと、を実行させる急上昇ワード抽出方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011143578A JP5386548B2 (ja) | 2011-06-28 | 2011-06-28 | 急上昇ワード抽出装置及び方法 |
CR20130119A CR20130119A (es) | 2010-09-02 | 2013-03-18 | Triazoles fundido para el tratamiento o profilaxis de deterioro cognitivo leve |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011143578A JP5386548B2 (ja) | 2011-06-28 | 2011-06-28 | 急上昇ワード抽出装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013011998A JP2013011998A (ja) | 2013-01-17 |
JP5386548B2 true JP5386548B2 (ja) | 2014-01-15 |
Family
ID=47685842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011143578A Expired - Fee Related JP5386548B2 (ja) | 2010-09-02 | 2011-06-28 | 急上昇ワード抽出装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5386548B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150128238A (ko) | 2014-05-09 | 2015-11-18 | 삼성전자주식회사 | 서버, 이의 제어 방법 및 급상승 검색어 순위 생성 시스템 |
JP6604603B2 (ja) * | 2015-09-18 | 2019-11-13 | Zホールディングス株式会社 | 検索装置、検索方法、及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007149022A (ja) * | 2005-11-30 | 2007-06-14 | Oki Electric Ind Co Ltd | 文書特徴抽出装置、方法及びプログラム |
JP5369689B2 (ja) * | 2009-01-08 | 2013-12-18 | ヤマハ株式会社 | 情報処理装置及びプログラム |
-
2011
- 2011-06-28 JP JP2011143578A patent/JP5386548B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013011998A (ja) | 2013-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8775437B2 (en) | Dynamic reranking of search results based upon source authority | |
CN102890689B (zh) | 一种用户兴趣模型的建立方法及系统 | |
US10169449B2 (en) | Method, apparatus, and server for acquiring recommended topic | |
WO2015196910A1 (zh) | 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎 | |
AU2011282258B2 (en) | Predictive query suggestion caching | |
US10296535B2 (en) | Method and system to randomize image matching to find best images to be matched with content items | |
US9081953B2 (en) | Defense against search engine tracking | |
US20090287676A1 (en) | Search results with word or phrase index | |
JP2017525026A (ja) | 文脈検索の提示の生成 | |
JP5269938B2 (ja) | 急上昇ワード関連付け装置及び方法 | |
CN109952571B (zh) | 基于上下文的图像搜索结果 | |
US9195944B1 (en) | Scoring site quality | |
US9251202B1 (en) | Corpus specific queries for corpora from search query | |
WO2016137690A1 (en) | Efficient retrieval of fresh internet content | |
US20100332491A1 (en) | Method and system for utilizing user selection data to determine relevance of a web document for a search query | |
US20150161205A1 (en) | Identifying an image for an entity | |
US11108802B2 (en) | Method of and system for identifying abnormal site visits | |
JP5386548B2 (ja) | 急上昇ワード抽出装置及び方法 | |
US9773035B1 (en) | System and method for an annotation search index | |
US9355175B2 (en) | Triggering answer boxes | |
KR101180371B1 (ko) | 폭소노미 기반 개인화 웹 검색 방법 및 이를 수행하는 시스템 | |
US20150088859A1 (en) | Click magnet images | |
WO2018106261A1 (en) | Preventing the distribution of forbidden network content using automatic variant detection | |
JP2011039835A (ja) | コンテンツ検索装置 | |
JP2009070210A (ja) | カテゴリ別ランキング作成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130528 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20130626 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131007 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5386548 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |