JP2009288964A - 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 - Google Patents
関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 Download PDFInfo
- Publication number
- JP2009288964A JP2009288964A JP2008139800A JP2008139800A JP2009288964A JP 2009288964 A JP2009288964 A JP 2009288964A JP 2008139800 A JP2008139800 A JP 2008139800A JP 2008139800 A JP2008139800 A JP 2008139800A JP 2009288964 A JP2009288964 A JP 2009288964A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- phrase
- sender
- document
- analysis target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】本発明は、外部から分析対象キーワードを受け付け、情報源にアクセスし、分析対象キーワードを含む記事を作成したことがある発信者の集合を抽出し、分析対象キーワードに興味を持つ発信者によって作成された文書集合を情報源から抽出し、該文書に含まれる語句を抽出し、分析対象キーワードを発信したことがある発信者において、特徴的に多く用いられる語句を関連キーワードとして度合いを表す関連度を算出し、関連キーワードについて、該関連キーワードが分野特有の語句として用いられる語句か個別の話題で用いられる語句なのかを判別し、その傾向が分析対象キーワードと似通っている語句を、該分析対象キーワードと似たような注目のされ方をしている関連キーワードと見なして抽出する。
【選択図】図1
Description
関連発信者抽出手段が、外部から関連話題を抽出する対象となる分析対象キーワードを受け付けるキーワード受付ステップ(ステップ1)と、
関連発信者抽出手段が、発信者の情報が付与された文書が蓄積されているデータベースや検索エンジンを含む情報源にアクセスし、分析対象キーワードを含む記事を作成したことがある発信者の集合を、該分析対象キーワードに関心を持つ人々の集合と見做して抽出する関連発信者抽出ステップ(ステップ2)と、
関連語句候補抽出手段が、関連発信者抽出ステップで得られた分析対象キーワードに興味を持つ発信者によって作成された文書集合を、該分析対象キーワードに関連する文書として情報源にアクセスして抽出し(ステップ3)、該文書に含まれる語句を抽出する(ステップ4)関連語句候補抽出ステップと、
関連度算出手段が、文書に含まれる語句について、分析対象キーワードを発信したことがある発信者において、特徴的に多く用いられる語句を関連キーワードとして度合いを表す関連度を算出する関連度算出ステップ(ステップ5)と、
反復度算出手段が、関連キーワードについて、該関連キーワードが分野特有の語句として用いられる語句か個別の話題で用いられる語句なのかを判別し、その傾向が分析対象キーワードと似通っている語句を、該分析対象キーワードと似たような注目のされ方をしている関連キーワードと見なして抽出する反復度算出ステップ(ステップ6)と、
を行い、
反復度算出ステップ(ステップ6)において、
関連キーワードの抽出を行う際に、各情報発信者が各々の関連分野に関する内容の文書を繰り返し発信する傾向に着目し、該各発信者からの発信文書群において複数文書に亘って繰り返し用いられる語句を当該発信者の関連分野における専門用語と判断し、また、各発信者からの発信文書群において個別の文書のみに用いられる語句を当該発信者の関心分野における個別の話題を表す語句と判別し、分析対象キーワードが繰り返し用いられる割合(反復度)と同程度の割合で用いられている語句を分析対象キーワードと似た位置づけの語句として抽出するステップを含む。
発信者抽出ステップで抽出された発信者集合の発信者それぞれについて、分析対象キーワードを含む文書を発信したことがある場合は、正のスコアを、該分析対象キーワードを含む文書を発信したことがない場合は、負のスコアを算出し、
正のスコア及び、負のスコアを分析対象キーワードを発信したことがある発信者全員分について集計した値を、関連度とする。
ある分析対象語句をwkとしたときに、該wkが分析対象キーワードと関連しているかを表す関連度スコアを、
により求める。
ある処理対象語句が分析対象キーワードと似たような使われ方をしているかを判定する際に、処理対象語句を発信したことがある発信者が発信した文書中で処理対象語句を繰り返し用いる割合の平均と、該分析対象キーワードを発信したことがある発信者が発信した文書中で分析対象キーワードを繰り返し用いる割合の平均とを比較し、その差が所定の値より少ない場合に、該処理対象語句が分析対象キーワードと似た使われ方をする語句であると判定する。
ある処理対象語句をwLとしたときに、該wLが各発信者の発信文書中で繰り返し用いられている度合いを表す反復度スコアT(wj)を
を用いて算出する。
発信者の情報が付与された文書が蓄積されているデータベースや検索エンジンを含む情報源270と、
外部から関連話題を抽出する対象となる分析対象キーワードを受け付け、情報源270にアクセスし、分析対象キーワードを含む記事を作成したことがある発信者の集合を、該分析対象キーワードに関心を持つ人々の集合と見做して抽出する関連発信者抽出手段220と、
関連発信者抽出手段220で得られた分析対象キーワードに興味を持つ発信者によって作成された文書集合を、該分析対象キーワードに関連する文書として情報源270にアクセスして抽出し、該文書に含まれる語句を抽出する関連語句候補抽出手段230と、
文書に含まれる語句について、分析対象キーワードを発信したことがある発信者において、特徴的に多く用いられる語句を関連キーワードとして度合いを表す関連度を算出する関連度算出手段240と、
関連キーワードについて、該関連キーワードが分野特有の語句として用いられる語句か個別の話題で用いられる語句なのかを判別し、その傾向が分析対象キーワードと似通っている語句を、該分析対象キーワードと似たような注目のされ方をしている関連キーワードと見なして抽出する反復度算出手段250と、
を有し、
反復度算出手段250は、
関連キーワードの抽出を行う際に各情報発信者が各々の関連分野に関する内容の文書を繰り返し発信する傾向に着目し、該各発信者からの発信文書群において複数文書に亘って繰り返し用いられる語句を当該発信者の関連分野における専門用語と判断し、また、各発信者からの発信文書群において個別の文書のみに用いられる語句を当該発信者の関心分野における個別の話題を表す語句と判別し、分析対象キーワードが繰り返し用いられる割合(反復度)と同程度の割合で用いられている語句を分析対象キーワードと似た位置づけの語句として抽出する手段を含む。
210 キーワード入力装置
220 関連発信者抽出手段、関連発信者抽出部
230 関連語句候補抽出手段、関連語句候補抽出部
231 発信者バッファ
240 関連度算出手段、関連度算出部
241 語句リストバッファ
250 反復度算出手段、反復度算出部
251 関連キーワードバッファ
270 情報源、文書データベース
Claims (8)
- 大量の文書情報から入力された分析対象キーワードの関連キーワードを抽出して出力する関連キーワード抽出方法であって、
関連発信者抽出手段が、外部から関連話題を抽出する対象となる分析対象キーワードを受け付けるキーワード受付ステップと、
前記関連発信者抽出手段が、発信者の情報が付与された文書が蓄積されているデータベースや検索エンジンを含む情報源にアクセスし、前記分析対象キーワードを含む記事を作成したことがある発信者の集合を、該分析対象キーワードに関心を持つ人々の集合と見做して抽出する関連発信者抽出ステップと、
関連語句候補抽出手段が、前記関連発信者抽出ステップで得られた前記分析対象キーワードに興味を持つ発信者によって作成された文書集合を、該分析対象キーワードに関連する文書として前記情報源にアクセスして抽出し、該文書に含まれる語句を抽出する関連語句候補抽出ステップと、
関連度算出手段が、前記文書に含まれる語句について、前記分析対象キーワードを発信したことがある発信者において、特徴的に多く用いられる語句を関連キーワードとして度合いを表す関連度を算出する関連度算出ステップと、
反復度算出手段が、前記関連キーワードについて、該関連キーワードが分野特有の語句として用いられる語句か個別の話題で用いられる語句なのかを判別し、その傾向が前記分析対象キーワードと似通っている語句を、該分析対象キーワードと似たような注目のされ方をしている関連キーワードと見なして抽出する反復度算出ステップと、
を行い、
前記反復度算出ステップにおいて、
前記関連キーワードの抽出を行う際に、各情報発信者が各々の関連分野に関する内容の文書を繰り返し発信する傾向に着目し、該各発信者からの発信文書群において複数文書に亘って繰り返し用いられる語句を当該発信者の関連分野における専門用語と判断し、また、各発信者からの発信文書群において個別の文書のみに用いられる語句を当該発信者の関心分野における個別の話題を表す語句と判別し、分析対象キーワードが繰り返し用いられる割合(反復度)と同程度の割合で用いられている語句を分析対象キーワードと似た位置づけの語句として抽出するステップを含む
ことを特徴とする関連キーワード抽出方法。 - 前記関連度算出ステップにおいて、
前記発信者抽出ステップで抽出された前記発信者集合の発信者それぞれについて、分析対象キーワードを含む文書を発信したことがある場合は、正のスコアを、該分析対象キーワードを含む文書を発信したことがない場合は、負のスコアを算出し、
前記正のスコア及び、前記負のスコアを前記分析対象キーワードを発信したことがある発信者全員分について集計した値を、前記関連度とする
請求項1記載の関連キーワード抽出方法。 - 前記関連キーワード抽出ステップにおいて、
ある処理対象語句が分析対象キーワードと似たような使われ方をしているかを判定する際に、処理対象語句を発信したことがある発信者が発信した文書中で処理対象語句を繰り返し用いる割合の平均と、該分析対象キーワードを発信したことがある発信者が発信した文書中で分析対象キーワードを繰り返し用いる割合の平均とを比較し、その差が所定の値より少ない場合に、該処理対象語句が分析対象キーワードと似た使われ方をする語句であると判定する
請求項1記載の関連キーワード抽出方法。 - 大量の文書情報から入力された分析対象キーワードの関連キーワードを抽出し、出力する関連キーワード抽出装置であって、
発信者の情報が付与された文書が蓄積されているデータベースや検索エンジンを含む情報源と、
外部から関連話題を抽出する対象となる分析対象キーワードを受け付け、前記情報源にアクセスし、前記分析対象キーワードを含む記事を作成したことがある発信者の集合を、該分析対象キーワードに関心を持つ人々の集合と見做して抽出する関連発信者抽出手段と、
前記関連発信者抽出手段で得られた前記分析対象キーワードに興味を持つ発信者によって作成された文書集合を、該分析対象キーワードに関連する文書として前記情報源にアクセスして抽出し、該文書に含まれる語句を抽出する関連語句候補抽出手段と、
前記文書に含まれる語句について、前記分析対象キーワードを発信したことがある発信者において、特徴的に多く用いられる語句を関連キーワードとして度合いを表す関連度を算出する関連度算出手段と、
前記関連キーワードについて、該関連キーワードが分野特有の語句として用いられる語句か個別の話題で用いられる語句なのかを判別し、その傾向が前記分析対象キーワードと似通っている語句を、該分析対象キーワードと似たような注目のされ方をしている関連キーワードと見なして抽出する反復度算出手段と、
を有し、
前記反復度算出手段は、
前記関連キーワードの抽出を行う際に、各情報発信者が各々の関連分野に関する内容の文書を繰り返し発信する傾向に着目し、該各発信者からの発信文書群において複数文書に亘って繰り返し用いられる語句を当該発信者の関連分野における専門用語と判断し、また、各発信者からの発信文書群において個別の文書のみに用いられる語句を当該発信者の関心分野における個別の話題を表す語句と判別し、分析対象キーワードが繰り返し用いられる割合(反復度)と同程度の割合で用いられている語句を分析対象キーワードと似た位置づけの語句として抽出する手段を含む
ことを特徴とする関連キーワード抽出装置。 - 請求項6に記載の関連キーワード抽出装置を構成する各手段としてコンピュータを機能させる関連キーワード抽出プログラム。
- 請求項7記載の関連キーワード抽出プログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008139800A JP5269481B2 (ja) | 2008-05-28 | 2008-05-28 | 関連キーワード抽出装置及びプログラム及びコンピュータ読取可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008139800A JP5269481B2 (ja) | 2008-05-28 | 2008-05-28 | 関連キーワード抽出装置及びプログラム及びコンピュータ読取可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009288964A true JP2009288964A (ja) | 2009-12-10 |
JP5269481B2 JP5269481B2 (ja) | 2013-08-21 |
Family
ID=41458134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008139800A Expired - Fee Related JP5269481B2 (ja) | 2008-05-28 | 2008-05-28 | 関連キーワード抽出装置及びプログラム及びコンピュータ読取可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5269481B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014203269A (ja) * | 2013-04-04 | 2014-10-27 | 日本電信電話株式会社 | 目的来店商圏判定装置及び方法及びプログラム |
JP2017191456A (ja) * | 2016-04-13 | 2017-10-19 | 株式会社Nttドコモ | 関連語抽出支援装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001290840A (ja) * | 2000-04-04 | 2001-10-19 | Matsushita Electric Ind Co Ltd | キーワード検索装置 |
JP2007140603A (ja) * | 2005-11-14 | 2007-06-07 | Nippon Telegr & Teleph Corp <Ntt> | アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム |
-
2008
- 2008-05-28 JP JP2008139800A patent/JP5269481B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001290840A (ja) * | 2000-04-04 | 2001-10-19 | Matsushita Electric Ind Co Ltd | キーワード検索装置 |
JP2007140603A (ja) * | 2005-11-14 | 2007-06-07 | Nippon Telegr & Teleph Corp <Ntt> | アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム |
Non-Patent Citations (2)
Title |
---|
CSNG200900289010; 関口 裕一郎、外3名: 'コミュニティ構造を利用した話題ナビゲーション手法の検討' DEWS2006論文集 , 20090727, p.1-7, 電子情報通信学会データ工学研究専門委員会 * |
JPN6012039356; 関口 裕一郎、外3名: 'コミュニティ構造を利用した話題ナビゲーション手法の検討' DEWS2006論文集 , 20090727, p.1-7, 電子情報通信学会データ工学研究専門委員会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014203269A (ja) * | 2013-04-04 | 2014-10-27 | 日本電信電話株式会社 | 目的来店商圏判定装置及び方法及びプログラム |
JP2017191456A (ja) * | 2016-04-13 | 2017-10-19 | 株式会社Nttドコモ | 関連語抽出支援装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5269481B2 (ja) | 2013-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jeon et al. | A framework to predict the quality of answers with non-textual features | |
El-Beltagy et al. | KP-Miner: A keyphrase extraction system for English and Arabic documents | |
JP5647508B2 (ja) | ショートテキスト通信のトピックを識別するためのシステムおよび方法 | |
US7519588B2 (en) | Keyword characterization and application | |
Pu et al. | Subject categorization of query terms for exploring Web users' search interests | |
US8515975B1 (en) | Search entity transition matrix and applications of the transition matrix | |
US9251249B2 (en) | Entity summarization and comparison | |
US8949227B2 (en) | System and method for matching entities and synonym group organizer used therein | |
RU2704531C1 (ru) | Способ и устройство для анализа семантической информации | |
Piao et al. | A feasibility study on extracting twitter users' interests using nlp tools for serendipitous connections | |
CN107918644B (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
Riadi | Detection of cyberbullying on social media using data mining techniques | |
JP5399450B2 (ja) | 医療用語の曖昧性を判定するシステム、方法およびソフトウェア | |
KR101429397B1 (ko) | 소셜 네트워크 서비스의 메시지 분석을 이용한 핵심사건 추출 방법 및 시스템 | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
Nwala et al. | Bootstrapping web archive collections from social media | |
Nigam et al. | Towards a robust metric of polarity | |
JP2010128917A (ja) | 情報伝播ネットワーク抽出方法、情報伝播ネットワーク抽出装置、及び情報伝播ネットワーク抽出プログラム | |
JP5964149B2 (ja) | 共起語を特定する装置およびプログラム | |
JP2006331014A (ja) | 情報提供装置、情報提供方法及び情報提供プログラム | |
JP2010198142A (ja) | 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム | |
JP5269481B2 (ja) | 関連キーワード抽出装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP4977004B2 (ja) | 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP5180894B2 (ja) | 属性表現獲得方法及び装置及びプログラム | |
JP2006286026A (ja) | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100817 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120723 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120731 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121001 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130430 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130508 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |