JP2009288964A - 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 - Google Patents

関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 Download PDF

Info

Publication number
JP2009288964A
JP2009288964A JP2008139800A JP2008139800A JP2009288964A JP 2009288964 A JP2009288964 A JP 2009288964A JP 2008139800 A JP2008139800 A JP 2008139800A JP 2008139800 A JP2008139800 A JP 2008139800A JP 2009288964 A JP2009288964 A JP 2009288964A
Authority
JP
Japan
Prior art keywords
keyword
phrase
sender
document
analysis target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008139800A
Other languages
English (en)
Other versions
JP5269481B2 (ja
Inventor
Yuichiro Sekiguchi
裕一郎 関口
Harumi Kawashima
晴美 川島
Masashi Uchiyama
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008139800A priority Critical patent/JP5269481B2/ja
Publication of JP2009288964A publication Critical patent/JP2009288964A/ja
Application granted granted Critical
Publication of JP5269481B2 publication Critical patent/JP5269481B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】分析対象の関連キーワードを分析対象語句と似たような使われ方をする語句のみに絞って抽出する。
【解決手段】本発明は、外部から分析対象キーワードを受け付け、情報源にアクセスし、分析対象キーワードを含む記事を作成したことがある発信者の集合を抽出し、分析対象キーワードに興味を持つ発信者によって作成された文書集合を情報源から抽出し、該文書に含まれる語句を抽出し、分析対象キーワードを発信したことがある発信者において、特徴的に多く用いられる語句を関連キーワードとして度合いを表す関連度を算出し、関連キーワードについて、該関連キーワードが分野特有の語句として用いられる語句か個別の話題で用いられる語句なのかを判別し、その傾向が分析対象キーワードと似通っている語句を、該分析対象キーワードと似たような注目のされ方をしている関連キーワードと見なして抽出する。
【選択図】図1

Description

本発明は、関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、利用者が入力したキーワードと適切な関係にある関連キーワードを、与えられた文書群を解析することにより自動的に抽出するための関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に関する。
インターネットをはじめとした情報メディアの発達により、誰であっても容易に情報発信を行えるようになり、ブログ記事などの様々な興味を持つ個人によって書かれた文書がインターネット上に配信され、蓄積されるようになってきた。これらの文書群は個人の興味・関心に関する事柄が書かれているため、その内容を読むことにより消費者の関心事項といったマーケティングに利用可能な情報を得ることができる。例えば、特定の商品名を含む文書の集合に目を通すことにより、当該商品に関心を持っている人々が興味を持つ関連事項を発見することができる。
上記の作業は時間と人手がかかるため、与えられた大量の文書集合を機械的に分析することにより、事前に設定された分析対象語句に関連する語句を自動的に抽出することに対するニーズが存在する。
利用者の入力した分析対象語句の関連キーワードを抽出する手法は多数提案されている。
従来の技術として、大量の文書中における語句の共起回数を分析することにより、より多く共起するような語句を、関連キーワードとして抽出する技術がある(例えば、特許文献1参照)。
特開平5−282367号公報
しかしながら、上記の従来の技術は、ユーザの設定した分析対象語句を含む文書中から関連キーワードを抽出するため、関連キーワードが分析対象語句と同じ文書に記述されていない場合には関連キーワードとして抽出されない。そのため、同一分野における異なるニュース記事に含まれるキーワードのような、内容的には非常に関連が高いが別の文書に書かれるキーワードを関連キーワードとして抽出できず、狭い範囲の関連キーワードしか抽出できないという問題点があった。
また、上記従来の技術では、スポーツチーム名についての関連語句として、「ストライク」「三振」などの同分野で頻繁に用いられるような語句も関連語句として抽出され、語句が使用される分野は同じであるが、語句としての使われ方の違う語句も関連キーワードとして抽出されてしまうという問題がある。
本発明は、上記の点に鑑みなされたもので、語句が各発信者からの発信文書中において使われるパターンを解析することにより、分析対象の関連キーワードを分析対象語句と似たような使われ方をする語句のみに絞って抽出することが可能な関連キーワード抽出方法及び装置及びプログラムを提供することを目的とする。
本発明(請求項1)は、大量の文書情報から入力された分析対象キーワードの関連キーワードを抽出して出力する関連キーワード抽出方法であって、
関連発信者抽出手段が、外部から関連話題を抽出する対象となる分析対象キーワードを受け付けるキーワード受付ステップ(ステップ1)と、
関連発信者抽出手段が、発信者の情報が付与された文書が蓄積されているデータベースや検索エンジンを含む情報源にアクセスし、分析対象キーワードを含む記事を作成したことがある発信者の集合を、該分析対象キーワードに関心を持つ人々の集合と見做して抽出する関連発信者抽出ステップ(ステップ2)と、
関連語句候補抽出手段が、関連発信者抽出ステップで得られた分析対象キーワードに興味を持つ発信者によって作成された文書集合を、該分析対象キーワードに関連する文書として情報源にアクセスして抽出し(ステップ3)、該文書に含まれる語句を抽出する(ステップ4)関連語句候補抽出ステップと、
関連度算出手段が、文書に含まれる語句について、分析対象キーワードを発信したことがある発信者において、特徴的に多く用いられる語句を関連キーワードとして度合いを表す関連度を算出する関連度算出ステップ(ステップ5)と、
反復度算出手段が、関連キーワードについて、該関連キーワードが分野特有の語句として用いられる語句か個別の話題で用いられる語句なのかを判別し、その傾向が分析対象キーワードと似通っている語句を、該分析対象キーワードと似たような注目のされ方をしている関連キーワードと見なして抽出する反復度算出ステップ(ステップ6)と、
を行い、
反復度算出ステップ(ステップ6)において、
関連キーワードの抽出を行う際に、各情報発信者が各々の関連分野に関する内容の文書を繰り返し発信する傾向に着目し、該各発信者からの発信文書群において複数文書に亘って繰り返し用いられる語句を当該発信者の関連分野における専門用語と判断し、また、各発信者からの発信文書群において個別の文書のみに用いられる語句を当該発信者の関心分野における個別の話題を表す語句と判別し、分析対象キーワードが繰り返し用いられる割合(反復度)と同程度の割合で用いられている語句を分析対象キーワードと似た位置づけの語句として抽出するステップを含む。
また、本発明(請求項2)は、関連度算出ステップにおいて、
発信者抽出ステップで抽出された発信者集合の発信者それぞれについて、分析対象キーワードを含む文書を発信したことがある場合は、正のスコアを、該分析対象キーワードを含む文書を発信したことがない場合は、負のスコアを算出し、
正のスコア及び、負のスコアを分析対象キーワードを発信したことがある発信者全員分について集計した値を、関連度とする。
また、本発明(請求項3)は、関連度算出ステップにおいて、
ある分析対象語句をwとしたときに、該wが分析対象キーワードと関連しているかを表す関連度スコアを、
Figure 2009288964
(但し、分析対象キーワードを含む文書を発信したことのある発信者数をU、L番目の発信者によって発信されたwを含む文書の数をdf(w),情報源に含まれるL番目の発信者が発信した文書数をN,情報源に含まれるwを含む文書の数をdf(w)とし、情報源に含まれる全文書数をNallとし、wがある文書に現れる確率をp(w)=df(w)/Nallとする)
により求める。
また、本発明(請求項4)は、関連キーワード抽出ステップにおいて、
ある処理対象語句が分析対象キーワードと似たような使われ方をしているかを判定する際に、処理対象語句を発信したことがある発信者が発信した文書中で処理対象語句を繰り返し用いる割合の平均と、該分析対象キーワードを発信したことがある発信者が発信した文書中で分析対象キーワードを繰り返し用いる割合の平均とを比較し、その差が所定の値より少ない場合に、該処理対象語句が分析対象キーワードと似た使われ方をする語句であると判定する。
また、本発明(請求項5)は、反復度算出ステップにおいて、
ある処理対象語句をwとしたときに、該wが各発信者の発信文書中で繰り返し用いられている度合いを表す反復度スコアT(w)を
Figure 2009288964
(但し、wを含む文書を発信したことがある発信者の数をV,wを含む文書を発信したことがある発信者の中でL番目の発信者が過去に発信した文書の数をN、L番目の発信者によって発信されたwを含む文書の数をdf(w)と表記する)
を用いて算出する。
図2は、本発明の原理構成図である。
本発明(請求項6)は、大量の文書情報から入力された分析対象キーワードの関連キーワードを抽出し、出力する関連キーワード抽出装置であって、
発信者の情報が付与された文書が蓄積されているデータベースや検索エンジンを含む情報源270と、
外部から関連話題を抽出する対象となる分析対象キーワードを受け付け、情報源270にアクセスし、分析対象キーワードを含む記事を作成したことがある発信者の集合を、該分析対象キーワードに関心を持つ人々の集合と見做して抽出する関連発信者抽出手段220と、
関連発信者抽出手段220で得られた分析対象キーワードに興味を持つ発信者によって作成された文書集合を、該分析対象キーワードに関連する文書として情報源270にアクセスして抽出し、該文書に含まれる語句を抽出する関連語句候補抽出手段230と、
文書に含まれる語句について、分析対象キーワードを発信したことがある発信者において、特徴的に多く用いられる語句を関連キーワードとして度合いを表す関連度を算出する関連度算出手段240と、
関連キーワードについて、該関連キーワードが分野特有の語句として用いられる語句か個別の話題で用いられる語句なのかを判別し、その傾向が分析対象キーワードと似通っている語句を、該分析対象キーワードと似たような注目のされ方をしている関連キーワードと見なして抽出する反復度算出手段250と、
を有し、
反復度算出手段250は、
関連キーワードの抽出を行う際に各情報発信者が各々の関連分野に関する内容の文書を繰り返し発信する傾向に着目し、該各発信者からの発信文書群において複数文書に亘って繰り返し用いられる語句を当該発信者の関連分野における専門用語と判断し、また、各発信者からの発信文書群において個別の文書のみに用いられる語句を当該発信者の関心分野における個別の話題を表す語句と判別し、分析対象キーワードが繰り返し用いられる割合(反復度)と同程度の割合で用いられている語句を分析対象キーワードと似た位置づけの語句として抽出する手段を含む。
本発明(請求項7)は、請求項6に記載の関連キーワード抽出装置を構成する各手段としてコンピュータを機能させる関連キーワード抽出プログラムである。
本発明(請求項8)は、請求項7記載の関連キーワード抽出プログラムを格納したコンピュータ読取可能な記録媒体である。
上記のように、本発明によれば、各文書の発信者に注目した分析を行うことで、分析対象語句と同一文書中に出現したかどうかに係わらず、分析対象語句に興味を持っている人々が同様に興味を持っている関連キーワードを抽出可能となる。各発信者毎の発信文書群中で繰り返し用いられる度合いが、分析対象語句が繰り返し用いられる度合いと近い語句を抽出することによって、分析対象キーワードと似通った使われ方をする関連語句のみを抽出することが可能となる。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における関連キーワード抽出装置の構成を示す。
同図に示す関連キーワード抽出装置200は、大量の文書情報が蓄積された文書データベース270と、本装置が解析する処理対象キーワードを入力するキーワード入力装置210と、本装置が出力する関連キーワード情報を表示する関連キーワード表示装置260とが接続されている。
関連キーワード抽出装置200は、関連発信者抽出部220、関連語句候補抽出部230、関連度算出部240、反復度算出部250から構成される。
文書データベース270には、発信者情報が付与された文書が大量に蓄積されている。例えば、ウェブ上の個人によって運営されているサイトにおける文書をその発信者の情報と共に次々と入力として記録することにより、文書データベース270を構築することができる。また、日記サイトのように新しい文書が逐次更新される情報源の場合には、サイト内の文書が更新された場合にも、新たな文書が作成されたと見做して収集してもよい。また、既存のウェブページの検索エンジンを、各ページのドメインURLを発信者情報と見做すことにより、文書データベース270の代わりとして用いてもよい。以下では、情報源として文書データベース270を利用するものとする。図4に、本発明の第1の実施の形態における文書データベースの情報の例を示す。
関連発信者抽出部220は、キーワード入力装置210から処理対象キーワードが入力されると、動作を開始し、文書データベース270にアクセスして処理対象キーワードを含む文書の発信者情報の一覧を取得する。取得した発信者の情報のうち重複する内容を取り除くことにより、処理対象キーワードを含む文書を一度でも発信したことのある発信者のリストを作成し、その情報を図5に示すような関連語句候補抽出部230の発信者バッファ231に蓄積する。
関連語句候補抽出部230は、関連発信者抽出部220によって発信者バッファ231に情報が蓄積されると、動作を開始し、発信者バッファ231に蓄積されている各発信者が過去に発信した文書の情報を文書データベース270にアクセスして取得し、得られた全ての文書情報の本文情報に対して形態素解析を行い、得られた品詞情報を集計することにより、発信者バッファ231に蓄積されている各発信者が過去に発信した文書に含まれる全ての語句の一覧を作成し、図6に示すような関連度算出部240の語句リストバッファ241に蓄積する。このとき、処理の軽減のために形態素解析処理によって得られた品詞群のうち、名詞のみを語句リストバッファ241に蓄積することにしてもよい。
関連度算出部240は、関連語句候補抽出部230によって語句リストバッファ241に情報が蓄積されると動作を開始し、語句リストバッファ241の全ての語句について、分析対象キーワードを発信したことがある発信者において特徴的に多く用いられる語句を関連キーワードとし、その関連の度合いを表す関連度を算出し、図7に示すような反復度算出部250の関連キーワードバッファ251に出力する。
次に、上記の関連度算出部240の処理の流れについて説明する。
図8は、本発明の第1の実施の形態における関連度算出部の処理のフローチャートである。
ステップ110) 関連度算出部240は、関連語句候補抽出部230によって語句リストバッファ241に情報が蓄積されると、動作を開始し、語句リストバッファ241から語句を一つ取り出して、関連度算出対象語句とする。以下、この関連度算出対象語句をwと表記する。このとき、語句リストバッファ241に含まれる語句の数がN語ある場合は、wのkは1〜Nまでの値をとる。
ステップ120) 文書データベース270にアクセスし、wを含む文書の数と文書データベース270に含まれる全文書数を取得し、wがある文書に現れる確率p(w)を求める。wを含む文書の数をdf(w)とし、文書データベース270に含まれる全文書数をNallとすると、wがある文書に現れる確率p(w)は以下の式(1)で得られる。
Figure 2009288964
ステップ130) 文書データベース270にアクセスすることによって、発信者バッファ231に含まれる各発信者について、wを含む文書を発信しているか否かを抽出し、wを含む文書を発信している場合には、当該発信者の発信した文書数に応じた正のスコアを算出し、wを含む文書を発信していない場合には発信した文書数に応じた負のスコアを算出し、得られた各発信者に対応するスコアを集計することにより、wの処理対象語句に対する関連度スコア(R(w)と表記することとする)を算出する。
発信者バッファに含まれる発信者数をU,L番目の発信者によって発信されたwを含む文書の数をdf(w)、文書データベース270中のL番目の発信者が発信した文書数Nと表記すると、wの処理対象語句に対する関連度スコアR(w)は下記の式(2)により算出できる。算出された関連度スコアR(w)を関連度スコアバッファ242に格納する。
Figure 2009288964
ステップ140) ステップ130で得られたwとR(w)との組を反復度算出部250の関連キーワードバッファ251に蓄積する。関連キーワードバッファ251に含まれる情報の例を図7に示す。
ステップ150) 語句リストバッファ241の全ての語句についてステップ110からステップ140の処理を行ったかを確認し、未処理の語句が残っていた場合には、関連度スコアバッファ242を空にしてステップ110に戻り、処理を継続する。未処理の語句が残っていない場合には、関連度算出部240の処理を終了する。
反復度算出部250は、関連度算出部240の処理が終了すると、動作を開始し、関連キーワードバッファ251に含まれる語句情報それぞれについて文書データベース270にアクセスすることにより各発信源毎に当該発信源からの発信文書集合中において当該語句がどの程度の割合の文書数に含まれているかの割合を取得し、得られた割合と分析対象語句についても同様に求めた各発信源からの発信文書集合中にどの程度の割合で含まれているかの割合との差が、予め定められた範囲以内の語句を分析対象キーワードの関連キーワードと見做して関連キーワード出力装置260に出力する。
図9は、本発明の一実施の形態における反復度算出部の処理のフローチャートである。
ステップ201) 反復度算出部250は、処理を開始すると、関連キーワードバッファ251から1つ語句を取り出して、反復度算出対象語句とする。以下、この反復度算出対象語句をwと表記する。
ステップ202) 次に、文書データベース270にアクセスすることによって、wを含む文書群を取得し、当該文書群に含まれる発信者情報を、重複を省いて集計することにより、wを含む文書を発信したことのある発信者のリストを取得する。
ステップ203) 得られた発信者リストに含まれる各発信者について文書データベース270にアクセスすることにより過去に発信した文書の数と語句wを含む文書の数とを取得し、語句wを含む文書の数を過去に発信した文書の数で割った値を求める。得られた値を発信者リストに含まれる全発信者について平均したものを、語句wの反復度として算出する。
具体的には、発信者リストに含まれる発信者の数をV、L番目の発信者が過去に発信した文書の数をN、L番目の発信者によって発信された語句wを含む文書の数をdf(w)と表記すると、wの反復度スコアT(w)は下記の式(2)により算出できる。
Figure 2009288964
ステップ204) 関連キーワードバッファ中の全ての語句についてステップ201〜ステップ203の処理を行ったかを確認し、未処理の語句が残っている場合には、ステップ201に移行し、処理を継続する。未処理の語句が残っていない場合には、ステップ205に移行する。
ステップ205) 分析対象キーワードについて、ステップ203の反復度スコア算出の手法を適用することにより、分析対象キーワードの反復度スコアを算出する。
ステップ206) 反復度スコアを算出した各語句について、分析対象キーワードの反復度スコアと当該語句の反復度スコアの差が予め定めた閾値以上であって、なおかつ当該語句の関連度スコア(R(w))が予め定めた閾値以上の語句を、分析対象キーワードに関連していて使われ方も似通っている関連キーワードとして、関連キーワード表示装置260に出力する。
なお、上記の図3の構成の各構成要素の動作をプログラムとして構築し、関連度話題抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、検索技術、特に、インターネット上の文書からキーワードを抽出する技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図 本発明の一実施の形態における関連話題抽出装置の構成図である。 本発明の一実施の形態における文書データベースに蓄積される情報の例である。 本発明の一実施の形態における発信者バッファに蓄積される情報の例である。 本発明の一実施の形態における語句リストバッファに蓄積される情報の例である。 本発明の一実施の形態における関連キーワードバッファに蓄積される情報の例である。 本発明の一実施の形態における関連度算出部の処理のフローチャートである。 本発明の一実施の形態における反復度算出部の処理のフローチャートである。
符号の説明
200 関連話題度抽出装置
210 キーワード入力装置
220 関連発信者抽出手段、関連発信者抽出部
230 関連語句候補抽出手段、関連語句候補抽出部
231 発信者バッファ
240 関連度算出手段、関連度算出部
241 語句リストバッファ
250 反復度算出手段、反復度算出部
251 関連キーワードバッファ
270 情報源、文書データベース

Claims (8)

  1. 大量の文書情報から入力された分析対象キーワードの関連キーワードを抽出して出力する関連キーワード抽出方法であって、
    関連発信者抽出手段が、外部から関連話題を抽出する対象となる分析対象キーワードを受け付けるキーワード受付ステップと、
    前記関連発信者抽出手段が、発信者の情報が付与された文書が蓄積されているデータベースや検索エンジンを含む情報源にアクセスし、前記分析対象キーワードを含む記事を作成したことがある発信者の集合を、該分析対象キーワードに関心を持つ人々の集合と見做して抽出する関連発信者抽出ステップと、
    関連語句候補抽出手段が、前記関連発信者抽出ステップで得られた前記分析対象キーワードに興味を持つ発信者によって作成された文書集合を、該分析対象キーワードに関連する文書として前記情報源にアクセスして抽出し、該文書に含まれる語句を抽出する関連語句候補抽出ステップと、
    関連度算出手段が、前記文書に含まれる語句について、前記分析対象キーワードを発信したことがある発信者において、特徴的に多く用いられる語句を関連キーワードとして度合いを表す関連度を算出する関連度算出ステップと、
    反復度算出手段が、前記関連キーワードについて、該関連キーワードが分野特有の語句として用いられる語句か個別の話題で用いられる語句なのかを判別し、その傾向が前記分析対象キーワードと似通っている語句を、該分析対象キーワードと似たような注目のされ方をしている関連キーワードと見なして抽出する反復度算出ステップと、
    を行い、
    前記反復度算出ステップにおいて、
    前記関連キーワードの抽出を行う際に、各情報発信者が各々の関連分野に関する内容の文書を繰り返し発信する傾向に着目し、該各発信者からの発信文書群において複数文書に亘って繰り返し用いられる語句を当該発信者の関連分野における専門用語と判断し、また、各発信者からの発信文書群において個別の文書のみに用いられる語句を当該発信者の関心分野における個別の話題を表す語句と判別し、分析対象キーワードが繰り返し用いられる割合(反復度)と同程度の割合で用いられている語句を分析対象キーワードと似た位置づけの語句として抽出するステップを含む
    ことを特徴とする関連キーワード抽出方法。
  2. 前記関連度算出ステップにおいて、
    前記発信者抽出ステップで抽出された前記発信者集合の発信者それぞれについて、分析対象キーワードを含む文書を発信したことがある場合は、正のスコアを、該分析対象キーワードを含む文書を発信したことがない場合は、負のスコアを算出し、
    前記正のスコア及び、前記負のスコアを前記分析対象キーワードを発信したことがある発信者全員分について集計した値を、前記関連度とする
    請求項1記載の関連キーワード抽出方法。
  3. 前記関連度算出ステップにおいて、
    ある分析対象語句をwとしたときに、該wが前記分析対象キーワードと関連しているかを表す関連度スコアを、
    Figure 2009288964
    (但し、分析対象キーワードを含む文書を発信したことのある発信者数をU、L番目の発信者によって発信されたwを含む文書の数をdf(w),情報源に含まれるL番目の発信者が発信した文書数をN,情報源に含まれるwを含む文書の数をdf(w)とし、情報源に含まれる全文書数をNallとし、wがある文書に現れる確率をp(w)=df(w)/Nallとする)
    により求める請求項2記載の関連キーワード抽出方法。
  4. 前記関連キーワード抽出ステップにおいて、
    ある処理対象語句が分析対象キーワードと似たような使われ方をしているかを判定する際に、処理対象語句を発信したことがある発信者が発信した文書中で処理対象語句を繰り返し用いる割合の平均と、該分析対象キーワードを発信したことがある発信者が発信した文書中で分析対象キーワードを繰り返し用いる割合の平均とを比較し、その差が所定の値より少ない場合に、該処理対象語句が分析対象キーワードと似た使われ方をする語句であると判定する
    請求項1記載の関連キーワード抽出方法。
  5. 前記反復度算出ステップにおいて、
    前記ある処理対象語句をwとしたときに、該wが各発信者の発信文書中で繰り返し用いられている度合いを表す反復度スコアT(w)を
    Figure 2009288964
    (但し、wを含む文書を発信したことがある発信者の数をV,wを含む文書を発信したことがある発信者の中でL番目の発信者が過去に発信した文書の数をN、L番目の発信者によって発信されたwを含む文書の数をdf(w)と表記する)
    を用いて算出する
    請求項1乃至4のいずれか1項記載の関連キーワード抽出方法。
  6. 大量の文書情報から入力された分析対象キーワードの関連キーワードを抽出し、出力する関連キーワード抽出装置であって、
    発信者の情報が付与された文書が蓄積されているデータベースや検索エンジンを含む情報源と、
    外部から関連話題を抽出する対象となる分析対象キーワードを受け付け、前記情報源にアクセスし、前記分析対象キーワードを含む記事を作成したことがある発信者の集合を、該分析対象キーワードに関心を持つ人々の集合と見做して抽出する関連発信者抽出手段と、
    前記関連発信者抽出手段で得られた前記分析対象キーワードに興味を持つ発信者によって作成された文書集合を、該分析対象キーワードに関連する文書として前記情報源にアクセスして抽出し、該文書に含まれる語句を抽出する関連語句候補抽出手段と、
    前記文書に含まれる語句について、前記分析対象キーワードを発信したことがある発信者において、特徴的に多く用いられる語句を関連キーワードとして度合いを表す関連度を算出する関連度算出手段と、
    前記関連キーワードについて、該関連キーワードが分野特有の語句として用いられる語句か個別の話題で用いられる語句なのかを判別し、その傾向が前記分析対象キーワードと似通っている語句を、該分析対象キーワードと似たような注目のされ方をしている関連キーワードと見なして抽出する反復度算出手段と、
    を有し、
    前記反復度算出手段は、
    前記関連キーワードの抽出を行う際に、各情報発信者が各々の関連分野に関する内容の文書を繰り返し発信する傾向に着目し、該各発信者からの発信文書群において複数文書に亘って繰り返し用いられる語句を当該発信者の関連分野における専門用語と判断し、また、各発信者からの発信文書群において個別の文書のみに用いられる語句を当該発信者の関心分野における個別の話題を表す語句と判別し、分析対象キーワードが繰り返し用いられる割合(反復度)と同程度の割合で用いられている語句を分析対象キーワードと似た位置づけの語句として抽出する手段を含む
    ことを特徴とする関連キーワード抽出装置。
  7. 請求項6に記載の関連キーワード抽出装置を構成する各手段としてコンピュータを機能させる関連キーワード抽出プログラム。
  8. 請求項7記載の関連キーワード抽出プログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。
JP2008139800A 2008-05-28 2008-05-28 関連キーワード抽出装置及びプログラム及びコンピュータ読取可能な記録媒体 Expired - Fee Related JP5269481B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008139800A JP5269481B2 (ja) 2008-05-28 2008-05-28 関連キーワード抽出装置及びプログラム及びコンピュータ読取可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008139800A JP5269481B2 (ja) 2008-05-28 2008-05-28 関連キーワード抽出装置及びプログラム及びコンピュータ読取可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2009288964A true JP2009288964A (ja) 2009-12-10
JP5269481B2 JP5269481B2 (ja) 2013-08-21

Family

ID=41458134

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008139800A Expired - Fee Related JP5269481B2 (ja) 2008-05-28 2008-05-28 関連キーワード抽出装置及びプログラム及びコンピュータ読取可能な記録媒体

Country Status (1)

Country Link
JP (1) JP5269481B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014203269A (ja) * 2013-04-04 2014-10-27 日本電信電話株式会社 目的来店商圏判定装置及び方法及びプログラム
JP2017191456A (ja) * 2016-04-13 2017-10-19 株式会社Nttドコモ 関連語抽出支援装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290840A (ja) * 2000-04-04 2001-10-19 Matsushita Electric Ind Co Ltd キーワード検索装置
JP2007140603A (ja) * 2005-11-14 2007-06-07 Nippon Telegr & Teleph Corp <Ntt> アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290840A (ja) * 2000-04-04 2001-10-19 Matsushita Electric Ind Co Ltd キーワード検索装置
JP2007140603A (ja) * 2005-11-14 2007-06-07 Nippon Telegr & Teleph Corp <Ntt> アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200900289010; 関口 裕一郎、外3名: 'コミュニティ構造を利用した話題ナビゲーション手法の検討' DEWS2006論文集 , 20090727, p.1-7, 電子情報通信学会データ工学研究専門委員会 *
JPN6012039356; 関口 裕一郎、外3名: 'コミュニティ構造を利用した話題ナビゲーション手法の検討' DEWS2006論文集 , 20090727, p.1-7, 電子情報通信学会データ工学研究専門委員会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014203269A (ja) * 2013-04-04 2014-10-27 日本電信電話株式会社 目的来店商圏判定装置及び方法及びプログラム
JP2017191456A (ja) * 2016-04-13 2017-10-19 株式会社Nttドコモ 関連語抽出支援装置

Also Published As

Publication number Publication date
JP5269481B2 (ja) 2013-08-21

Similar Documents

Publication Publication Date Title
Jeon et al. A framework to predict the quality of answers with non-textual features
El-Beltagy et al. KP-Miner: A keyphrase extraction system for English and Arabic documents
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
US7519588B2 (en) Keyword characterization and application
Pu et al. Subject categorization of query terms for exploring Web users' search interests
US8515975B1 (en) Search entity transition matrix and applications of the transition matrix
US9251249B2 (en) Entity summarization and comparison
US8949227B2 (en) System and method for matching entities and synonym group organizer used therein
RU2704531C1 (ru) Способ и устройство для анализа семантической информации
Piao et al. A feasibility study on extracting twitter users' interests using nlp tools for serendipitous connections
CN107918644B (zh) 声誉管理框架内的新闻议题分析方法和实施系统
Riadi Detection of cyberbullying on social media using data mining techniques
JP5399450B2 (ja) 医療用語の曖昧性を判定するシステム、方法およびソフトウェア
KR101429397B1 (ko) 소셜 네트워크 서비스의 메시지 분석을 이용한 핵심사건 추출 방법 및 시스템
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
Nwala et al. Bootstrapping web archive collections from social media
Nigam et al. Towards a robust metric of polarity
JP2010128917A (ja) 情報伝播ネットワーク抽出方法、情報伝播ネットワーク抽出装置、及び情報伝播ネットワーク抽出プログラム
JP5964149B2 (ja) 共起語を特定する装置およびプログラム
JP2006331014A (ja) 情報提供装置、情報提供方法及び情報提供プログラム
JP2010198142A (ja) 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム
JP5269481B2 (ja) 関連キーワード抽出装置及びプログラム及びコンピュータ読取可能な記録媒体
JP4977004B2 (ja) 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP5180894B2 (ja) 属性表現獲得方法及び装置及びプログラム
JP2006286026A (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100817

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120731

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130508

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees