JP2011070291A - トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム - Google Patents

トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム Download PDF

Info

Publication number
JP2011070291A
JP2011070291A JP2009219023A JP2009219023A JP2011070291A JP 2011070291 A JP2011070291 A JP 2011070291A JP 2009219023 A JP2009219023 A JP 2009219023A JP 2009219023 A JP2009219023 A JP 2009219023A JP 2011070291 A JP2011070291 A JP 2011070291A
Authority
JP
Japan
Prior art keywords
word
topic
words
versatility
general
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009219023A
Other languages
English (en)
Inventor
Norikazu Matsumura
憲和 松村
Yuichi Mizutani
友一 水谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biglobe Inc
Original Assignee
NEC Biglobe Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Biglobe Ltd filed Critical NEC Biglobe Ltd
Priority to JP2009219023A priority Critical patent/JP2011070291A/ja
Publication of JP2011070291A publication Critical patent/JP2011070291A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】オフラインにおいて、少ない処理量でテキストからトピックワードを抽出する。
【解決手段】トピックワード抽出装置は、集計期間内に予め収集された複数のテキストで使用されている単語について、該集計期間内で該単語が汎用的に使用された頻度を示す汎用度を単語ごとに算出する汎用度算出手段と、入力テキストが入力されると、該入力テキストから単語を抽出し、該入力テキスト中で該単語が出現した出現頻度と、前記汎用度算出手段により算出された該単語の汎用度とに基づき、該出現頻度が高いほど高く、前記汎用度が低いほど高い値となるトピック重要度を算出するトピック重要度算出手段と、前記入力テキストから、前記トピック重要度算出手段により算出された前記トピック重要度が高い単語を優先してトピックワードとして抽出する抽出手段と、を有する。
【選択図】図1

Description

本発明は、テキストデータからトピックワードを抽出する技術に関する。
Webを通じてリリースされるニュース記事やブログなど、頒布や公開を目的として生成されるテキストデータの量は近年において増加傾向にある。これらの大量のテキストデータから所望のデータを検索するには、各テキストデータから、文章の主題(トピック)としてふさわしいキーワードを抽出し、そのキーワードを含むデータを検索する方法が有効である。
特許文献1に記載されたトピック抽出装置は、テキストを言語解析して名詞を抽出し、その名詞を検索語としてウェブ検索を行い、検索結果に基づいて、そのテキストにおけるトピックを抽出している。
特許文献2に記載されたトピック抽出装置は、電子化されたニュース記事から抽出した単語の所定期間内の出現頻度に基づいて、その単語の重要度を求める。トピック抽出装置は、重要度を求めた単語の類似性に基づいて記事群をクラスタリングし、似た項目を持つクラスタ内における単語の出現頻度と、その単語の重要度との積を算出する。そして、トピック抽出装置は、算出した値の高い単語をトピックとして抽出している。
特開2009−15796号公報 特開2000−259666号公報
しかし、特許文献1に記載されたトピック抽出装置では、トピックの抽出にウェブ検索を要するので、オフラインではトピックを抽出できないという問題があった。
また、特許文献2に記載されたトピック抽出装置では、記事をクラスタリングしなければならないため、トピックの抽出のための処理量が多くなり、時間がかかりすぎるという問題があった。
本発明は、オフラインにおいて、少ない処理量でテキストからトピックを抽出する技術を提供することを目的とする。
上記目的を達成するために、本発明のトピックワード抽出装置は、集計期間内に予め収集された複数のテキストで使用されている単語について、該集計期間内で該単語が汎用的に使用された頻度を示す汎用度を単語ごとに算出する汎用度算出手段と、入力テキストが入力されると、該入力テキストから単語を抽出し、該入力テキスト中で該単語が出現した出現頻度と、前記汎用度算出手段により算出された該単語の汎用度とに基づき、該出現頻度が高いほど高く、前記汎用度が低いほど高い値となるトピック重要度を算出するトピック重要度算出手段と、前記入力テキストから、前記トピック重要度算出手段により算出された前記トピック重要度が高い単語を優先してトピックワードとして抽出する抽出手段と、を有する。
本発明のトピックワード抽出システムは、集計期間内に予め収集された複数のテキストで使用されている単語について、該集計期間内で該単語が汎用的に使用された頻度を示す汎用度を単語ごとに算出し、該単語に該汎用度を対応付けて第1の記憶装置に格納しておき、入力テキストが入力されると、該入力テキストから単語を抽出し、抽出した該単語が前記第1の記憶装置に格納された単語であれば、該第1の記憶装置から該単語に対応する前記汎用度を読み出し、該入力テキスト中で該単語が出現した出現した出現頻度と該汎用度とに基づき、該出現頻度が高いほど高く、前記汎用度が低いほど高くなる値であるトピック重要度を算出し、該入力テキストから、算出した該トピック重要度が高い単語を優先してトピックワードとして抽出するトピックワード抽出装置と、前記単語に、前記トピックワード抽出装置により算出された前記汎用度を対応付けて記憶する第1の記憶装置と、を有する。
本発明のトピック抽出方法は、汎用度算出手段が、集計期間内に予め収集された複数のテキストで使用されている単語について、該集計期間内で該単語が汎用的に使用された頻度を示す汎用度を単語ごとに算出し、入力テキストが入力されると、トピック重要度算出手段が、該入力テキストから単語を抽出し、該入力テキスト中で該単語が出現した出現頻度と、前記汎用度算出手段により算出された該単語の汎用度とに基づき、該出現頻度が高いほど高く、前記汎用度が低いほど高い値となるトピック重要度を算出し、抽出手段が、前記入力テキストから、前記トピック重要度算出手段により算出された前記トピック重要度が高い単語を優先してトピックワードとして抽出する、トピックワード抽出方法である。
本発明のプログラムは、コンピュータに、集計期間内に予め収集された複数のテキストで使用されている単語について、該集計期間内で該単語が汎用的に使用された頻度を示す汎用度を単語ごとに算出する汎用度算出手順、入力テキストが入力されると、該入力テキストから単語を抽出し、該入力テキスト中で該単語が出現した出現頻度と、前記汎用度算出手順で算出された該単語の汎用度とに基づき、該出現頻度が高いほど高く、前記汎用度が低いほど高い値となるトピック重要度を算出するトピック重要度算出手順、及び前記入力テキストから、前記トピック重要度算出手段により算出された前記トピック重要度が高い単語を優先してトピックワードとして抽出する抽出手順、を実行させるためのプログラムである。
本発明によれば、トピックワード抽出装置は、出現頻度と汎用度とからトピック重要度を算出し、トピック重要度が高い単語を優先して抽出するので、ウェブ検索を行う必要がない結果、オフラインであってもトピックワードを抽出できる。また、トピックワード抽出装置は、クラスタリングを行う必要がないので、処理量は少ない。
本発明の第1の実施形態のトピック抽出システムの一構成例を示す全体図である。 本発明の第1の実施形態の汎用語スコア取得部の一構成例を示すブロック図である。 本発明の第1の実施形態における記事の一例である。 (a)本発明の第1の実施形態における記事の解析結果の一例である。(b)本発明における第1の実施形態の記事の解析結果の一例である。 本発明の第1の実施形態における日次集計の結果の一例である。 本発明の第1の実施形態における集計結果を示すグラフである。 本発明の第1の実施形態における総集計の結果の一例である。 本発明の第1の実施形態の汎用語リストの一例である。 本発明の第1の実施形態のトピック付き記事データの示す内容の一例である。 本発明の第1の実施形態のトピック抽出処理を示すフローチャートである。 本発明の第1の実施形態の汎用語リスト作成処理を示すフローチャートである。 本発明の第1の実施形態の汎用語スコア取得処理を示すフローチャートである。 本発明の第1の実施形態のトピック重要度算出処理を示すフローチャートである。 本発明の第1の実施形態のトピック抽出システムの動作の一例を示すフローチャートである。 本発明の第2の実施形態の記事検索システムの一構成例を示す全体図である。 本発明の第3の実施形態における日次集計の結果の一例である。 本発明の第3の実施形態における総集計の結果の一例である。 本発明の第4の実施形態における日次集計の結果の一例である。 本発明の第4の実施形態における総集計の結果の一例である。
(第1の実施形態)
本発明を実施するための第1の実施形態について図面を参照して説明する。図1は、本実施形態のトピック抽出システム1の一構成例を示す全体図である。トピック抽出システム1は、記事やブログなどのテキストから、その記事やブログの主題としてふさわしい単語(以下、「トピックワード」という)を抽出するシステムである。
図1を参照すると、トピック抽出システム1は、ニュース配信サーバ10、トピック抽出サーバ20、汎用語DB(Database)30、およびトピック付きニュース記事DB40を有する。
ニュース配信サーバ10は、トピック抽出サーバ20へ、Webニュース記事を記載した記事データを定期的に、またはユーザの要求に応じて配信する。この記事データにはテキストデータが含まれている。
トピック付き記事DB40には、集計期間内に予め収集された複数の記事データからなる記事データ群が格納されている。
トピック抽出サーバ20は、トピック付き記事DB40に予め格納されている過去の記事データ群から、それらの記事データ群で汎用的に使用されている単語(以下、「汎用語」という)を抽出しておく。トピック抽出サーバ20は、抽出した汎用語のリストを汎用語DB30に格納する。
ニュース配信サーバ10から記事データが配信されると、トピック抽出サーバ20は、作成済みの汎用語のリストを利用して、その記事データからトピックワードを抽出する。そして、抽出したトピックワードと、記事データとを紐付けてトピック付きニュース記事DB40に格納する。
トピック抽出サーバ20の構成について具体的に説明する。図1に示すように、トピック抽出サーバ20は、汎用語スコア取得部201、トピック重要度算出部202、およびトピックワード抽出部203を有する。
汎用語スコア取得部201について説明する。図2は、汎用語スコア取得部201の一構成例を示すブロック図である。同図を参照すると、汎用語スコア取得部201は、言語解析部2011、集計部2012、汎用語スコア算出部2013、および汎用語検索部2014を有する。
言語解析部2011には、テキストから単語を抽出するためのアプリケーションソフトウェアである言語解析エンジンが予め実装されている。言語解析部2011は、記事データ群に含まれる各記事データのテキストについて、言語解析エンジンを使用して言語解析する。
言語解析において、言語解析部2011は、まず、記事データ内のテキストを単語単位で分解し、各単語が属する品詞を判定する。品詞の判定において、分析対象の単語が言語解析エンジンに登録されていない単語であれば、言語解析部2011は、その単語の品詞を未定義語とする。
次に、言語解析部2011は、テキストから、名詞および未定義語を抽出する。動詞、形容詞、助詞、句読点が出現するまで連続している名詞および未定義語については、言語解析部2011は、連続して抽出しうる全パターンの単語を連続単語として抽出する。
集計部2012は、抽出された単語(名詞、未定義語、および連続単語)の、それぞれのテキスト内での出現数をカウントする。そして、集計部2012は、単位期間ごとに、各単語の出現数を集計する。本実施形態では単位期間を1日とする。
また、集計部2012は、各単位期間における出現数を合計し、集計期間内における各単語の出現数を求める。集計部2012は、集計期間内における各単語の出現数と、各単位期間内における各単語の出現数とを示す集計データを出力する。
汎用語スコア算出部2013は、集計データから、各単語の汎用語スコアを算出する。汎用語スコアは、集計期間内で単語が汎用的に使用された頻度を示す値である。汎用語スコアは、集計期間内における単語の出現頻度と、集計期間内において単語が出現する事象の平均情報量とを乗算することにより算出される。
具体的には、単語wの汎用語スコア計算式は、
Score(w) = αF(w)×(1+log T(w))×ΣHt(w)・・・(式1)
と表される。
αはスコア調整定数であり、実システムに合わせて適切な値に設定される。F(w)は集計期間での単語wの出現総件数を示す。T(w)は、複数の単位期間からなる集計期間における単語wが利用された単位期間の数、すなわち、出現数が所定値以上カウントされた単位期間の数を示す。所定値は例えば1である。ΣHt(w)は各単位期間において単語が出現する事象の情報量(ばらつき具合)の総和、すなわち集計期間における平均情報量である。tは、指定された集計期間内の日付、すなわち指定された単位期間である。
(式1)のHt(w)は、単語wが、その日付(単位期間)において出現する事象の情報量、すなわちエントロピーである。Ht(w)は以下の式で算出する。
Ht(w)=−Ft(w)/F(w)×log(Ft(w)/F(w))・・・(式2)
(式2)のFt(w)は、日付t(単位期間)における単語wの出現件数である。
定常的に使用されるのでなく、一定期間のみ集中的に出現数が急増するような単語は、各単位期間におけるエントロピーの偏りが大きくなり、その単語が出現する事象の平均情報量(集計期間におけるエントロピー)は少なくなる。「一定期間のみに急増するような単語」とは、例えば、ワールドカップサッカーおよびオリンピックなどのスポーツイベントの名称、公開中の映画または視聴率の高いドラマに出演したタレントの名前がある。
このため、上記(式1)のように、この平均情報量を出現総件数に乗算することで、定常的によく使用される単語ほど、汎用語スコアが高くなる。そして、その結果として、トピック抽出サーバ20は、汎用語スコアに基づいて、汎用語を精度よく抽出できる。
汎用語スコア算出部2013は、汎用語スコアが閾値より大きい単語を汎用語とし、汎用語のリストを作成する。閾値は、例えば1とする。汎用語スコア算出部2013は、汎用語のリストと、各汎用語の汎用語スコアとを示す汎用語リストデータを汎用語DB30に格納する。
過去の記事データから生成された汎用語リストデータが格納された状態で、ニュース配信サーバ10から新たな記事データが配信されると、言語解析部2011は、その記事データを言語解析し、名詞、未定義語、および連続単語を抽出し、解析結果データを汎用語検索部2014へ出力する。
汎用語検索部2014は、抽出された単語を検索語として、検索語と一致する汎用語について、汎用語リストの検索を要求する汎用語検索要求データを汎用語DB30へ送信する。
汎用語DB30は、汎用語リストを検索し、検索語に一致する汎用語と、その汎用語スコアとを示す検索結果データをトピック抽出サーバ20へ送信する。ここで、汎用語DB30は、検索で一致する汎用語が見つからなかった単語については、その単語の汎用語スコアを1として、検索結果データを送信する。
汎用語検索部2014は、検索結果データから、抽出した各単語の汎用語スコアを取得する。
図1に戻り、トピック重要度算出部202、トピックワード抽出部203について説明する。
トピック重要度算出部202は、抽出した単語のそれぞれについて、記事データにおけるトピックとしての重要性を示すトピック重要度を算出する。トピック重要度を算出するための式は、
Point(w)=Freq(w)/Score(w)・・・(式3)
である。上記(式3)のPoint(w)は、単語wのトピック重要度を示す。Freq(w)は、単語wの記事データ内の出現頻度である。Score(w)は、上記(式1)で算出された、単語wの汎用語スコアである。
ここで、単語wがタイトルに含まれる場合、その単語wのトピックとしての重要度が高いものとし、トピック重要度算出部202は、Freq(w)に、1より大きい所定の係数を乗算する。この係数は、例えば3に設定する。
そして、トピック重要度算出部202は、記事データ内における各単語の出現数に基づいて、それらの単語の汎用語スコアを再計算し、汎用語DB30内の汎用語リストを更新する。
トピックワード抽出部203は、記事データから抽出された単語の中で、トピック重要度が最も高いものから所定個の単語を、その記事データのトピックワードとして選択する。トピックワード抽出部203は、例えば、上位5個をトピックワードとする。
ここで、トピック重要度が同じである単語が複数ある場合、トピックワード抽出部203は、その中から、文字列が長い単語を優先して選択する。
また、2つの単語のうち、一方の単語が他方の単語を含み、一方の単語のトピック重要度が、他方の単語のトピック重要度より高い場合、トピックワード抽出部203その他方の単語を、トピックワードとしない。
例えば、「ゴールド免許」、「免許」の2つの単語が言語解析により抽出され、「ゴールド免許」のトピック重要度が、「免許」のトピック重要度より高い場合、トピックワード抽出部203は、「免許」の単語をトピックワードとしない。
トピックワード抽出部203は、記事データと、その記事データで抽出されたトピックワードとを示すトピック付き記事データを、トピック付きニュース記事DB40に格納する。
トピック抽出システム1で送受信されるデータの内容について図面を参照して説明する。図3は、記事データの一例を示す図である。同図を参照すると、記事データは、記事のタイトルと、記事の本文とを含むテキストデータである。同図における「<自動車保険>保険料値上げ・・・」の部分がタイトルであり、「○○保険などの一部の・・・」の部分が本文である。
図4(a)は、記事データを言語解析した結果の一例を示す図である。同図(a)において、「/」は、単語と単語との間の区切りであり、かっこ内の名称は、直前の単語が属する品詞名である。例えば、「ゴールド免許の・・・」という文章を言語解析した場合、文章は、「ゴールド」、「免許」、「の」などに分解される。言語解析エンジンは、「免許」を名詞、「の」を助詞に分類する。しかし、「ゴールド」は、言語解析エンジンに登録されていないので、「未定義語」に分類される。言語解析部2011は、「ゴールド」、「免許」などの名詞、未定義語のみを抽出する。
図4(b)は、言語解析において、図4(a)の後に連続単語が更に抽出された結果の一例を示す図である。同図(b)において、下線が引かれた単語は、抽出された連続単語である。例えば、「ゴールド」、「免許」は助詞「の」が出現するまで連続しているので、言語解析部2011は、「ゴールド」、「免許」のほか、「ゴールド免許」を抽出する。
図5は日次集計の一例を示す表である。同図には、集計結果のうち、2008年1月1日と、同年1月2日の結果が示されている。同図において、他の日付の集計は省略されている。
同図を参照すると、日次集計において、「日次」、「順位」、「単語」、および「件数」が記録される。「日次」は、集計が行われた日(集計日)であり、「順位」は、集計日における出現件数の順位である。「単語」は、集計日に出現した単語であり、「件数」は、集計日における単語の出現数である。
例えば、2008年1月1日に発行された各社の記事データにおいて、保険料という単語が合計で500回出現した場合、「2008/1/1」の「保険料」の件数は「500」と記録される。
図6は、図5等の集計結果の一部をプロットした折れ線グラフである。同図の縦軸が、日付ごとの単語の出現件数であり、横軸が日付である。「アニメ」,「減少」,「自動車」,「損保」の総件数が他の単語の総件数より多く2000件以上であったので、これらについてプロットされている。これらの4つの単語以外の単語の集計結果は省略されている。同図における実線が「保険料」、点線が「値上げ」、一点鎖線が「アニメ」、に点鎖線が「損保」の集計数である。
図7は、集計期間における総集計の結果を示す。集計期間は、例えば、2008年1月1日から200X年X月X日までの期間である。
図6、図7を用いて、汎用語スコアの算出方法の使用例について説明する。
上記(式1)より、総件数が上位で、かつ日次集計の件数の変動が少ない単語ほど、汎用語スコアが高くなる。
例えば、総件数が2000件以上の単語は、図7から、単語「アニメ」,「減少」,「自動車」,「損保」である。
その中で、図6に示すように、単語「アニメ」,「自動車」の日次ごとの件数の変動は相対的に少なく、±50件以内で推移している。一方、「減少」や「損保」の日次ごとの件数の変動は、±50件を超えている。
以上より、総件数、平均情報量がともに大きいので、「保険料」、「値上げ」の汎用語スコアは他の単語より大きくなる。「減少」や「損保」の総件数は大きいが、変動が大きいので、平均情報量が小さくなり、これらの汎用語スコアは、「保険料」や「値上げ」ほど大きくならない。
図8は、汎用語リストデータの内容を示す図である。同図を参照すると、汎用語リストデータは、複数の「汎用語」と、それぞれの汎用語の「汎用語スコア」とを示す情報を含む。
図9は、トピック付き記事データの内容を示す図である。同図を参照すると、トピック付き記事データは、「記事内容」、「作成日時」、「トピックワード」、および「トピック重要度」を示す情報を含む。記事内容は、配信された記事データの示すタイトルおよび本文であり、「作成日時」は記事データの作成日時である。「トピックワード」は、トピックワード抽出部203により抽出されたトピックワードであり、「トピック重要度」は、トピック重要度算出部202により算出された、トピックワードのトピック重要度である。
続いて、トピック抽出サーバ20の動作について説明する。図10は、トピック抽出サーバ20が実行するトピック抽出処理を示すフローチャートである。このトピック抽出処理は、トピック付きニュース記事DB40から、予め収集された記事データ群が読み出されたときに開始する。
汎用語スコア取得部201は、汎用語スコアを算出し、汎用語リストを作成するための汎用語リスト作成処理を実行する(ステップS1)。
汎用語スコア取得部201は、ニュース配信サーバ10から記事データを受信したか否かを判断する(ステップS2)。記事データを受信していなければ(ステップS2:NO)、汎用語スコア取得部201はステップS2に戻る。
記事データを受信したのであれば(ステップS2:YES)、汎用語スコア取得部201は、受信した記事データから名詞等の単語を抽出し、それらの単語について汎用語スコアを取得するための汎用語スコア取得処理を実行する(ステップS3)。
トピック重要度算出部202は、記事データから抽出された単語について、トピック重要度を算出するためのトピック重要度算出処理を実行する(ステップS4)。
トピックワード抽出部203は、記事データ内の単語のうち、トピック重要度が高い単語を優先して所定個の単語をトピックワードとして選択する。トピックワード抽出部203は、そのトピックワードと記事データとを対応づけてトピック付きニュース記事DB40に格納する(ステップS5)。ステップS5の後、トピック抽出サーバ20は、ステップS2に戻る。
図11は、汎用語リスト作成処理を示すフローチャートである。同図を参照すると、汎用語スコア取得部201は、記事データ内のテキストを言語解析して単語単位で分解し、名詞および未定義語を抽出する(ステップS11)。そして、汎用語スコア取得部201は、連続して抽出できる全パターンの単語を連続単語として抽出する(ステップS12)。
汎用語スコア取得部201は、集計期間における各単語の出現数と、各単位期間における各単語の出現数とを集計する(ステップS13)。
汎用語スコア取得部201は、集計データから、各単語の汎用語スコアを算出する(ステップS14)。汎用語スコア取得部201は、汎用語スコアが1より大きい単語を汎用語として、汎用語のリストを作成する。汎用語スコア取得部201は、作成したリストを汎用語スコアとともに、汎用語DB30に格納する(ステップS15)。ステップS15の後、汎用語スコア取得部201は、汎用語リスト作成処理を終了する。
図12は、汎用語スコア取得処理を示すフローチャートである。同図を参照すると、汎用語スコア取得部201は、配信された記事データを言語解析し、名詞、未定義語、および連続単語を抽出する(ステップS31)。汎用語スコア取得部201は、抽出した単語を検索語として、汎用語リストの検索を汎用語DB30に要求し、汎用語DB30から、各単語の汎用語スコアを取得する(ステップS32)。ステップS32の後、汎用語スコア取得部201は、汎用語スコア取得処理を終了する。
図13は、トピック重要度算出処理を示すフローチャートである。同図を参照すると、トピック重要度算出部202は、抽出した単語ごとに、記事データにおける出現頻度を求める(ステップS41)。トピック重要度算出部202は、出現頻度を汎用語スコアで除算することにより、単語ごとにトピック重要度を算出する(ステップS42)。
そして、トピック重要度算出部202は、記事データ内で出現した各単語の出現数に基づいて、それらの単語の汎用語スコアを再計算し、汎用語DB30内の汎用語リストを更新する(ステップS43)。ステップS43の後、トピック重要度算出部202は、トピック重要度算出処理を終了する。
図14は、トピック抽出システム1全体の動作の一例を示すシーケンス図である。同図を参照すると、トピック抽出サーバ20は、トピック付きニュース記事DB40から、集計期間内に作成された記事データ群を読み出し、それらのデータから名詞等の単語を抽出する。そして、トピック抽出サーバ20は、各単語の汎用語スコアを算出する(ステップS1)。
ニュース配信サーバ10から記事データが配信されると、トピック抽出サーバ20は、その記事データから名詞等の単語を抽出し、それらの単語の汎用語スコアを汎用語DB30から取得する(ステップS3)。
トピック抽出サーバ20は、記事データ内の単語の出現頻度を汎用語スコアで除算することにより、トピック重要度を算出する(ステップS4)。
トピック抽出サーバ20は、記事データから、トピック重要度が高い単語を優先して所定個の単語をトピックワードとして選択し、トピック付きニュース記事DB40に格納する(ステップS5)。
なお、本実施形態では、汎用語DB30、およびトピック付きニュース記事DB40をトピック抽出サーバ20と別に設ける構成としているが、これらのデータベースの機能をトピック抽出サーバ20が有する構成としてもよい。また、トピック抽出サーバ20の各機能は、複数の装置に分散することもできる。
本実施形態では、上記(式1)および(式2)を使用して汎用語スコアを算出しているが、集計期間内での単語の出現頻度が高いほど汎用語スコアが大きくなり、集計期間内で単語が出現する事象の平均情報量が高いほど汎用語スコアが大きくなる数式であれば、別の数式を使用して汎用語スコアを算出することもできる。
本実施形態では上記(式3)を使用してトピック重要度を算出しているが、出現頻度が高いほどトピック重要度が大きくなり、汎用語スコアが小さいほどトピック重要度が大きくなるような数式であれば、(式3)以外の数式を使用してトピック重要度を算出する構成としてもよい。
本実施形態では、トピック抽出サーバ20は、抽出した単語がタイトルに含まれる単語であれば、出現頻度に所定の係数を乗算しているが、タイトルに含まれる単語のトピック重要度が高くなる演算であれば、係数の乗算に限らない。例えば、出現頻度に所定値を足し、トピック重要度を算出する構成としてもよい。
本実施形態では、トピック抽出サーバ20が記事データからトピックを抽出する構成としているが、ブログやホームページのデータなど、記事以外の種類のテキストデータからトピックワードを抽出する構成とすることもできる。
本実施形態では、トピック抽出サーバ20は、記事データが配信されるたびに汎用語リストを更新しているが、所定の更新期間ごとに、更新を行う構成としてもよい。
本実施形態では、トピック抽出サーバ20が、トピック付きニュース記事DBから、記事データ群を読み出す構成としている。しかし、トピック抽出サーバ20が、ニュース配信サーバ10から一定量の記事データを受信したり、ウェブ検索を行ったりして、記事データを収集し、汎用語を抽出する構成としてもよい。
以上説明したように本実施形態によれば、トピック抽出サーバ(トピックワード抽出装置)は、出現頻度と汎用度とからトピック重要度を算出し、トピック重要度が高い単語を優先して抽出するので、ウェブ検索を行う必要がない結果、オフラインであってもトピックワードを抽出できる。また、トピックワード抽出装置は、クラスタリングを行う必要がないので、処理量は少ない。
あるテキストデータ内で出現頻度が高い単語は、一般に、そのテキストデータにおけるトピックとしての重要度が高い。一方、テキスト内での出現頻度が高くとも、その単語が汎用的によく使用される単語であれば、トピックとしての重要度は低い。このため、テキスト内での出現頻度を汎用度で除算した値の高い単語を優先して抽出することにより、トピックワード抽出装置は、出現した単語のトピックとしての重要性を適切に判定できる。
あるテキスト内で出現した2つの単語のうち、一方の単語が他方の単語を含み、その一方の単語のトピック重要度が他方より高い場合、他方の単語は一方の単語に含まれているので、抽出する必要性は低い。このため、他方の単語を抽出しないことにより、トピックワード抽出装置は、トピックワードの抽出において、無駄を省くことができる。
一般的に文字数の大きい単語の方が、汎用的に用いられることが少なく、トピックワードとなる可能性は高い。このため、複数の単語について、同一の値のトピック重要度が算出された場合、トピック抽出装置は、文字数の大きい単語を優先してトピックワードとして抽出することで、トピックワード抽出装置は、適切にトピックワードを抽出できる。
一般語や地名など、定常的によく用いられる単語は、集計期間内における出現頻度が高くなり、汎用語としてふさわしい。しかし、スポーツイベントやメディアで一時的に取り上げられた人名など、一時的に盛り上がったことによっても、集計期間内の出現頻度が高くなることがあるが、その単語が定常的には利用されないのであれば、汎用語としてふさわしくない。このため、集計期間内の出現頻度と、集計期間内における平均情報量とを乗算した値に基づいて汎用語を抽出することにより、トピックワード抽出装置は、汎用語を精度よく抽出できる。
複数の単語が連続している場合、それらが連結された状態で異なる意味を生じ、別の単語として扱った方がよい場合がある。トピック抽出装置は、抽出しうる全パターンの連続単語を抽出することで、連続単語についてもトピックとして適切に抽出できる。
一般に、タイトルには、トピックとなる単語が含まれている場合が多い。このため、タイトルに含まれる単語に重みづけをすることで、トピック抽出装置は、トピックワードをより的確に抽出できる。
通常、単語の使用頻度は、時間の経過に伴い変動するので、定期的に汎用語リストを更新するために、利用者が汎用語DB30をメンテナンスする方が望ましいように思われる。しかし、本実施形態のトピック抽出装置は、記事データが入力されるたびに、汎用語スコアを再計算し、汎用語リストを自動的に更新するので、汎用語DB30を定期的にメンテナンスする必要はない。
(第2の実施形態)
本発明の第2の実施形態について図15、16を参照して詳細に説明する。図15は、本実施形態の記事検索システム2の一構成例を示す全体図である。記事検索システム2は、利用者が検索式を入力することにより、所望の記事を検索するためのシステムである。同図を参照すると、記事検索システム2は、第1の実施形態のトピック抽出システム1に、利用者PC50、および検索サーバ60を更に追加したシステムである。
利用者PC50は、利用者の操作に応じて記事を検索するための画面を表示し、検索語、若しくは、検索語と論理演算子(AND、OR、NOTなど)とを含む検索式の入力を受け付ける。
検索語が入力された場合、検索サーバ60は、トピック付きニュース記事DB40に格納された記事データの中から、その検索語と完全一致または部分一致するトピックワードを含む記事データを検索する。検索式が入力された場合、検索サーバ60は、その検索式の検索語と完全一致又は部分一致するトピックワードを含み、且つ検索式を満たす記事データを検索する。
検索サーバ60は、検索した記事データを利用者PC50へ送信し、利用者PC10は、その記事データを表示する。
なお、本実施形態では、利用者PC50、および検索サーバ60をトピック抽出サーバ20と別に設ける構成としているが、これらを、トピック抽出サーバ20と一体とする構成としてもよいのは勿論である。
以上説明したように、本実施形態によれば、記事検索システム2は、トピックワードを利用して、利用者が所望する記事を適切に検索し、出力できる。
(第3の実施形態)
本発明の第3の実施形態について図16、図17を参照して詳細に説明する。本実施形態のトピック抽出システムは、汎用語スコアの算出方法が異なる点以外は、第1の実施形態のトピック抽出システムと同様の構成である。
本実施形態の集計部2012は、単位期間における各単語の出現確率と、集計期間における各単語の出現確率とを更に算出する。
本実施形態の汎用語スコア算出部2013は、上記(式1)の代わりに、下記の式を使用して、汎用語スコアを算出する。
Score(w) = αP(w)×(1+log T(w))×ΣHt(w)・・・(式4)
P(w)は単語wの出現確率の全期間での総和(=ΣFt(w)/Ft、t=min,min+1,…)である。Ft(w)、T(w)、およびαは第1の実施形態と同様の値である。
式3のHt(w)には、単位期間における情報量、すなわちエントロピーである。但し、Ht(w)は、上記(式2)の代わりに、下記の式から算出される。
Ht(w)=−Pt(w)/P(w)×log(Pt(w)/P(w))・・・(式5)
上記(式4)のPt(w)は日付tでの単語wの出現確率(=Ft(w)/Ft)である。
図16は、本実施形態の日次集計の一例を示す表である。図17は、集計期間における、本実施形態の総集計の結果を示す表である。図16に示すように、各単位期間における各単語の出現確率が更に算出され、図17に示すように、集計期間における各単語の出現確率が更に集計される。
以上説明したように、本実施形態によれば、第1の実施形態と比較して計算量が増加するものの、日々の記事データの総数の変動に影響されることなく、汎用語スコアを高い精度で算出できる。
(第4の実施形態)
本発明の第4の実施形態について図18、図19を参照して詳細に説明する。本実施形態のトピック抽出システムは、汎用語スコアの算出方法が異なる点以外は、第1の実施形態のトピック抽出システムと同様の構成である。
本実施形態の集計部2012は、単位期間、集計期間における、各単語の順位ポイントを決定する。順位ポイントとは、ある単語の、他の単語に対する相対的な出現頻度の高さの指標となる値である。集計部2012は、出現数が高い単語ほど高い値となるように、順位ポイントを決定する。例えば、集計部2012は、出現の順位が1位の単語の順位ポイントを5000点とし、2位の単語の順位ポイントを4999点とする。
本実施形態の汎用語スコア算出部2013は、上記(式1)の代わりに、下記の式を使用して、汎用語スコアを算出する。
Score(w) = αO(w)×(1+log T(w))×ΣHt(w)・・・(式6)
上記(式6)のO(w)は、集計期間における単語wの順位ポイントの総数である。T(w)およびαは第1の実施形態と同様である。
Ht(w)には、単位期間における情報量、すなわちエントロピーである。但し、Ht(w)は、上記(式2)の代わりに、下記の式から算出される。
Ht(w)=−Ot(w)/0(w)×log(0t(w)/0(w))・・・(式7)
(式6)のOt(w)は、単語wの単位期間における順位ポイントである。
図18は、本実施形態の日次集計の一例を示す表である。図19は、集計期間における、本実施形態の総集計の結果を示す表である。図18に示すように、各単位期間において各単語の順位ポイントが更に決定され、図19に示すように、集計期間において順位ポイントが更に集計される。
以上説明したように、本実施形態によれば、第1の実施形態と比較して計算量が増加するものの、日々の記事データの総数の変動に影響されることなく、汎用語スコアを高い精度で算出できる。
1 トピック抽出システム
2 記事検索システム
10 ニュース配信サーバ
20 トピック抽出サーバ
30 汎用語DB
40 トピック付きニュース記事DB
50 利用者PC
60 検索サーバ
201 汎用語スコア取得部
202 トピック重要度算出部
203 トピックワード抽出部
2011 言語解析部
2012 集計部
2013 汎用語スコア算出部
2014 汎用語検索部

Claims (17)

  1. 集計期間内に予め収集された複数のテキストで使用されている単語について、該集計期間内で該単語が汎用的に使用された頻度を示す汎用度を単語ごとに算出する汎用度算出手段と、
    入力テキストが入力されると、該入力テキストから単語を抽出し、該入力テキスト中で該単語が出現した出現頻度と、前記汎用度算出手段により算出された該単語の汎用度とに基づき、該出現頻度が高いほど高く、前記汎用度が低いほど高い値となるトピック重要度を算出するトピック重要度算出手段と、
    前記入力テキストから、前記トピック重要度算出手段により算出された前記トピック重要度が高い単語を優先してトピックワードとして抽出する抽出手段と、
    を有するトピックワード抽出装置。
  2. 前記トピック重要度算出手段は、前記出現頻度を前記汎用度で除算した値を前記トピック重要度とする、請求項1に記載のトピックワード抽出装置。
  3. 前記抽出手段は、同じ入力テキストから抽出された2つの単語のうち、一方の単語が他方の単語を含み、該一方の単語のトピック重要度が、該他方の単語のトピック重要度より高ければ、該他方の単語をトピックワードとして抽出しない、請求項1又は2に記載のトピックワード抽出装置。
  4. 前記抽出手段は、複数の単語について、前記トピック重要度算出手段により同一の値のトピック重要度が算出された場合、文字数の多い単語を優先してトピックワードとして抽出する、請求項1乃至3のいずれか1項に記載のトピックワード抽出装置。
  5. 前記汎用度算出手段は、前記単語について、前記集計期間内における該単語の出現頻度が高いほど汎用度が大きく、該集計期間内において該単語が出現する事象の平均情報量が高いほど汎用度が大きくなるような演算を用いることにより、汎用度を算出する、請求項1乃至4のいずれか1項に記載のトピックワード抽出装置。
  6. 前記汎用度算出手段は、前記集計期間内の単位期間ごとに、前記単語の出現数を計数し、該単位期間内において該単語が出現する事象の情報量をHt、該単位期間内における該単語の出現数をFt、前記集計期間内における該単語の出現数をF、汎用度をS、実数の係数をα、該単語が出現した単位期間の数をTとして、
    Ht=−Ft/F×log(Ft/F)
    S=α×F×(1+logT)×ΣHt
    の式から、前記単語の汎用度を算出する、請求項5に記載のトピックワード抽出装置。
  7. 前記汎用度算出手段は、前記集計期間内の単位期間ごとに、前記単語の出現確率を算出し、該単位期間内において該単語が出現する事象の情報量をHt、該単位期間内における該単語の出現確率をPt、前記集計期間内における該単語の出現確率をP、汎用度をS、実数の係数をα、該単語が出現した単位期間の数をTとして、
    Ht=−Pt/P×log(Pt/P)
    S=α×P×(1+logT)×ΣHt
    の式から、前記単語の汎用度を算出する、請求項5に記載のトピックワード抽出装置。
  8. 前記汎用度算出手段は、前記集計期間内の単位期間ごとに、前記単語の他の単語に対する相対的な出現頻度の指標値を決定し、該単位期間内において該単語が出現する事象の情報量をHt、該単位期間内における該単語の他の単語に対する相対的な出現頻度の指標値をOt、前記集計期間内における該単語の他の単語に対する相対的な出現頻度の指標値をO、汎用度をS、実数の係数をα、該単語が出現した単位期間の数をTとして、
    Ht=−Ot/O×log(Ot/O)
    S=α×P×(1+logT)×ΣHt
    の式から、前記単語の汎用度を算出する、請求項5に記載のトピックワード抽出装置。
  9. 前記汎用度算出手段は、前記入力テキストにおいて連続する複数の単語が使用されているとき、それぞれの該単語を連結した単語である連続単語についても汎用度を算出する、請求項1乃至8のいずれか1項に記載のトピックワード抽出装置。
  10. 前記トピック重要度算出手段は、抽出した前記単語が前記汎用度算出手段により前記汎用度が算出された単語でない場合、又は下限値未満の汎用度が算出された単語である場合、該単語の汎用度を該下限値としてトピック重要度を算出する、請求項1乃至9のいずれか1項に記載のトピックワード抽出装置。
  11. 前記トピック重要度算出手段は、前記単語の出現頻度の計算に、前記単語が、前記入力テキストの中でタイトルの部分に出現している場合に該単語の出現頻度の値が大きくなるような演算を用いる、請求項1乃至10のいずれか1項に記載のトピックワード抽出装置。
  12. 前記汎用度算出手段により算出された前記汎用度を記憶する汎用度記憶手段と、
    前記入力テキストが入力されるたびに、又は所定の更新期間ごとに、前記入力テキスト中で前記単語が出現した出現頻度に基づいて前記汎用度記憶手段に記憶された前記汎用度を更新する更新手段と、
    を更に有し、
    前記トピック重要度算出手段は、前記汎用度記憶手段から読み出した前記汎用度に基づいて前記トピック重要度を算出する、請求項1乃至11のいずれか1項に記載のトピックワード抽出装置。
  13. 前記抽出手段により前記トピックワードが抽出された前記入力テキストを複数記憶するテキスト記憶手段と、
    検索語を入力する検索語入力手段と、
    前記テキスト記憶手段に記憶された前記複数の入力テキストの中から、前記検索語入力手段により入力された前記検索語と完全一致又は部分一致するトピックワードを含む入力テキストを検索し、出力する出力手段と、
    を更に有する請求項1乃至12のいずれか1項に記載のトピックワード抽出装置。
  14. 集計期間内に予め収集された複数のテキストで使用されている単語について、該集計期間内で該単語が汎用的に使用された頻度を示す汎用度を単語ごとに算出し、該単語に該汎用度を対応付けて第1の記憶装置に格納しておき、入力テキストが入力されると、該入力テキストから単語を抽出し、該第1の記憶装置から該単語に対応する前記汎用度を読み出し、該入力テキスト中で該単語が出現した出現頻度と該汎用度とに基づき、該出現頻度が高いほど高く、該汎用度が低いほど高い値となるトピック重要度を算出するトピックワード抽出装置と、
    前記単語に、前記トピックワード抽出装置により算出された前記汎用度を対応付けて記憶する第1の記憶装置と、
    を有するトピックワード抽出システム。
  15. 請求項14に記載のトピックワード抽出システムと、
    前記トピックワード抽出装置によりトピックワードが抽出された前記入力テキストを該トピックワードとともに複数記憶する第2の記憶装置と、
    検索語が入力されると、前記第2のデータベースに記憶された前記複数の入力テキストの中から、入力された前記検索語と完全一致又は部分一致するトピックワードを含む入力テキストを検索し、出力する検索サーバと、
    を有するテキスト検索システムであって、
    前記トピックワード抽出装置が、前記トピックワードを抽出した前記入力テキストを前記第2の記憶装置に格納する、テキスト検索システム。
  16. 汎用度算出手段が、集計期間内に予め収集された複数のテキストで使用されている単語について、該集計期間内で該単語が汎用的に使用された頻度を示す汎用度を単語ごとに算出し、
    入力テキストが入力されると、トピック重要度算出手段が、該入力テキストから単語を抽出し、該入力テキスト中で該単語が出現した出現頻度と、前記汎用度算出手段により算出された該単語の汎用度とに基づき、該出現頻度が高いほど高く、前記汎用度が低いほど高い値となるトピック重要度を算出し、
    抽出手段が、前記入力テキストから、前記トピック重要度算出手段により算出された前記トピック重要度が高い単語を優先してトピックワードとして抽出する、トピックワード抽出方法。
  17. コンピュータに、
    集計期間内に予め収集された複数のテキストで使用されている単語について、該集計期間内で該単語が汎用的に使用された頻度を示す汎用度を単語ごとに算出する汎用度算出手順、
    入力テキストが入力されると、該入力テキストから単語を抽出し、該入力テキスト中で該単語が出現した出現頻度と、前記汎用度算出手順で算出された該単語の汎用度とに基づき、該出現頻度が高いほど高く、前記汎用度が低いほど高い値となるトピック重要度を算出するトピック重要度算出手順、及び
    前記入力テキストから、前記トピック重要度算出手段により算出された前記トピック重要度が高い単語を優先してトピックワードとして抽出する抽出手順、
    を実行させるためのプログラム。
JP2009219023A 2009-09-24 2009-09-24 トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム Pending JP2011070291A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009219023A JP2011070291A (ja) 2009-09-24 2009-09-24 トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009219023A JP2011070291A (ja) 2009-09-24 2009-09-24 トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2011070291A true JP2011070291A (ja) 2011-04-07

Family

ID=44015543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009219023A Pending JP2011070291A (ja) 2009-09-24 2009-09-24 トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2011070291A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014643A (ja) * 2010-07-05 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> 期間別主題語句抽出装置及び方法及びプログラム
DE102012204981A1 (de) 2011-03-28 2012-10-04 Ngk Spark Plug Co., Ltd. Gaserfassungs-Vorrichtung und Gaserfassungs-Verfahren
JP2013145429A (ja) * 2012-01-13 2013-07-25 Internatl Business Mach Corp <Ibm> 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム
JP2013200743A (ja) * 2012-03-26 2013-10-03 Oki Electric Ind Co Ltd サーバ、情報生成方法、および表示制御方法
JP2014106550A (ja) * 2012-11-22 2014-06-09 Nippon Telegr & Teleph Corp <Ntt> デイリーワード学習装置、デイリーワード抽出装置、方法、及びプログラム
JP2015064650A (ja) * 2013-09-24 2015-04-09 ビッグローブ株式会社 情報処理装置、記事情報生成方法およびプログラム
KR101612423B1 (ko) * 2013-10-21 2016-04-22 대한민국 소셜미디어를 이용한 재난 감지 시스템
CN114138968A (zh) * 2021-12-07 2022-03-04 腾讯科技(深圳)有限公司 一种网络热点的挖掘方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120183A (ja) * 1997-10-08 1999-04-30 Ntt Data Corp キーワード抽出方法及び装置
WO2005038672A1 (ja) * 2003-10-21 2005-04-28 Intellectual Property Bank Corp. 調査対象文書の文書特徴分析装置
JP2008305127A (ja) * 2007-06-07 2008-12-18 Nippon Telegr & Teleph Corp <Ntt> キーワード抽出装置、キーワード抽出方法、プログラム及び記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120183A (ja) * 1997-10-08 1999-04-30 Ntt Data Corp キーワード抽出方法及び装置
WO2005038672A1 (ja) * 2003-10-21 2005-04-28 Intellectual Property Bank Corp. 調査対象文書の文書特徴分析装置
JP2008305127A (ja) * 2007-06-07 2008-12-18 Nippon Telegr & Teleph Corp <Ntt> キーワード抽出装置、キーワード抽出方法、プログラム及び記録媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014643A (ja) * 2010-07-05 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> 期間別主題語句抽出装置及び方法及びプログラム
DE102012204981A1 (de) 2011-03-28 2012-10-04 Ngk Spark Plug Co., Ltd. Gaserfassungs-Vorrichtung und Gaserfassungs-Verfahren
JP2013145429A (ja) * 2012-01-13 2013-07-25 Internatl Business Mach Corp <Ibm> 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム
JP2013200743A (ja) * 2012-03-26 2013-10-03 Oki Electric Ind Co Ltd サーバ、情報生成方法、および表示制御方法
JP2014106550A (ja) * 2012-11-22 2014-06-09 Nippon Telegr & Teleph Corp <Ntt> デイリーワード学習装置、デイリーワード抽出装置、方法、及びプログラム
JP2015064650A (ja) * 2013-09-24 2015-04-09 ビッグローブ株式会社 情報処理装置、記事情報生成方法およびプログラム
KR101612423B1 (ko) * 2013-10-21 2016-04-22 대한민국 소셜미디어를 이용한 재난 감지 시스템
CN114138968A (zh) * 2021-12-07 2022-03-04 腾讯科技(深圳)有限公司 一种网络热点的挖掘方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US8352455B2 (en) Processing a content item with regard to an event and a location
El-Beltagy et al. KP-Miner: A keyphrase extraction system for English and Arabic documents
CN102929873B (zh) 一种基于情境搜索提取搜索价值词的方法及装置
JP4587236B2 (ja) 情報検索装置、情報検索方法、およびプログラム
JP2011070291A (ja) トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム
JP6538277B2 (ja) 検索クエリ間におけるクエリパターンおよび関連する総統計の特定
US9904681B2 (en) Method and apparatus for assembling a set of documents related to a triggering item
US8375033B2 (en) Information retrieval through identification of prominent notions
US10586174B2 (en) Methods and systems for finding and ranking entities in a domain specific system
US9785704B2 (en) Extracting query dimensions from search results
JP5143057B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
Zhang et al. Feature-level sentiment analysis for Chinese product reviews
Rani et al. Automatic construction of generic stop words list for Hindi text
CN102637179B (zh) 词项加权函数确定及基于该函数进行搜索的方法及装置
JP4466334B2 (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP4631795B2 (ja) 情報検索支援システム、情報検索支援方法および情報検索支援プログラム
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
JP2006318398A (ja) ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
Najadat et al. Automatic keyphrase extractor from arabic documents
JP4640554B2 (ja) サーバ装置、情報処理方法およびプログラム
Armano et al. Semantic Enrichment of Contextual Advertising by using Concepts.
JP2008117351A (ja) 検索システム
JP2009086903A (ja) 検索サービス装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120726

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121204