JP2006139717A - 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体 - Google Patents
話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体 Download PDFInfo
- Publication number
- JP2006139717A JP2006139717A JP2004331066A JP2004331066A JP2006139717A JP 2006139717 A JP2006139717 A JP 2006139717A JP 2004331066 A JP2004331066 A JP 2004331066A JP 2004331066 A JP2004331066 A JP 2004331066A JP 2006139717 A JP2006139717 A JP 2006139717A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- word
- score
- time
- word extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 電子掲示板に参加するユーザが、議論されているカテゴリの話題を容易に把握することを可能にする。
【解決手段】 本発明は、カテゴリ毎に設定されているトピックについて、該トピック毎にトピックタイトル、該トピックの投稿数、投稿日時からなる情報を蓄積するトピック情報データベース(DB)からカテゴリ内にあるトピックタイトルを読み出して、該トピックタイトルを形態素解析し、形態素解析の結果の語句毎に、トピック情報DBのトピック内の投稿記事数を取得して、スコアを時系列に算出し、スコア記憶手段に該語句毎にスコアを格納し、スコア記憶手段から語句毎のスコアを取得して、時系列に従ってスコアが大きくなっている(伸びている)語句を前記カテゴリの話題語として抽出する。
【選択図】 図1
【解決手段】 本発明は、カテゴリ毎に設定されているトピックについて、該トピック毎にトピックタイトル、該トピックの投稿数、投稿日時からなる情報を蓄積するトピック情報データベース(DB)からカテゴリ内にあるトピックタイトルを読み出して、該トピックタイトルを形態素解析し、形態素解析の結果の語句毎に、トピック情報DBのトピック内の投稿記事数を取得して、スコアを時系列に算出し、スコア記憶手段に該語句毎にスコアを格納し、スコア記憶手段から語句毎のスコアを取得して、時系列に従ってスコアが大きくなっている(伸びている)語句を前記カテゴリの話題語として抽出する。
【選択図】 図1
Description
本発明は、話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体に係り、特に、インターネット上にWebサイト形態で提供されており、不特定多数のユーが自由に投稿でき、時系列に従って記事が掲載される電子掲示板において、投稿記事の投稿数とトピックのタイトルから、カテゴリ内の話題となっている語句を抽出するための話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体に関する。
従来より、新聞記事やニュース原稿、投稿記事といったタイトルと本文が含まれた文章の内容から話題を抽出する方法は、多数報告されている。
例えば、第1の従来技術として、文献を検索する際に、所与のキーワードが検索記事に出現する時間(文献が登録された時間)と出現頻度を抽出し、想定したモデルに閾値を設定してその値との関係からキーワードとして選択する情報検索方法がある(例えば、特許文献1参照)。
また、第2の従来技術として、電子掲示板に投稿された記事を、記事間の参照関係を使って話題語毎に分割して表示、検索する電子掲示板ブラウザがある(例えば、特許文献2参照)。
また、第3の従来技術として、後接単語である話題マーカと文頭の接続詞をキーにした話題手がかり句を抽出して、話題文を抽出する話題要約生成方法がある(例えば、特許文献3参照)。
また、第4の従来技術として、ニュース原稿を学習データとして、原稿に含まれる単語の出現頻度に基づき話題の単語特徴量を算出し、会話文の話題を判定する話題推定方法がある(例えば、特許文献4参照)。
また、第5の従来技術として、電子掲示板の記事を対象として、ある記事から名詞句・固有名詞を抽出し、後続記事にもその語句が表れた場合に、割合を利用してスコアを付け、スコアの高い順に話題として抽出する方法がある(例えば、非特許文献1参照)。
特許第2729356号公報
特開平9−106331号公報
特開2001−5821号公報
特開2003−323424号公報
「名詞句と単語の勢いを用いた話題抽出手法の提案」石井他、情報処理学会研究報告2004-NL-160
しかしながら、上記従来の技術では、電子掲示板において、活発に議論されている投稿記事の内容を一つ一つ全て分析して話題を抽出する必要があり、莫大な計算量を要してしまうという問題がある。
本発明は、上記の点に鑑みなされたもので、電子掲示板に参加するユーザが、議論されているカテゴリの話題を容易に把握することを可能にする話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体を提供することを目的とする。
図1は、本発明の原理説明図である。
本発明(請求項1)は、インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出方法において、
投稿記事を格納する記事データベースから、カテゴリ毎に設定されているトピックについて、該トピック毎にトピックタイトル、該トピックに対する記事の投稿数、最新投稿日時からなる情報を抽出してトピック情報データベース(DB)に蓄積するトピック情報データベース作成ステップ(ステップ1)と、
トピック情報データベース(DB)からカテゴリ内にあるトピックタイトルを読み出して、該トピックタイトルを形態素解析する形態素解析ステップ(ステップ2)と、
トピック情報DBのトピック内の投稿記事数を取得して、スコアを時系列に算出し、形態素解析の結果の語句毎に、スコア記憶手段に該語句毎にスコアを格納するスコア算出ステップ(ステップ3)と、
スコア記憶手段から語句毎のスコアを取得して、時系列に従ってスコアが大きくなっている(伸びている)語句をカテゴリの話題語として抽出する話題語抽出ステップ(ステップ4)と、を行う。
投稿記事を格納する記事データベースから、カテゴリ毎に設定されているトピックについて、該トピック毎にトピックタイトル、該トピックに対する記事の投稿数、最新投稿日時からなる情報を抽出してトピック情報データベース(DB)に蓄積するトピック情報データベース作成ステップ(ステップ1)と、
トピック情報データベース(DB)からカテゴリ内にあるトピックタイトルを読み出して、該トピックタイトルを形態素解析する形態素解析ステップ(ステップ2)と、
トピック情報DBのトピック内の投稿記事数を取得して、スコアを時系列に算出し、形態素解析の結果の語句毎に、スコア記憶手段に該語句毎にスコアを格納するスコア算出ステップ(ステップ3)と、
スコア記憶手段から語句毎のスコアを取得して、時系列に従ってスコアが大きくなっている(伸びている)語句をカテゴリの話題語として抽出する話題語抽出ステップ(ステップ4)と、を行う。
また、本発明(請求項2)は、請求項1の話題語抽出ステップにおいて、
出現頻度が時系列に従って大きくなっている(伸びている)語句を決定する際に、伸びの計算方法として、ある語句について、前後2区間の時間の出現頻度の差分を伸びとする。
出現頻度が時系列に従って大きくなっている(伸びている)語句を決定する際に、伸びの計算方法として、ある語句について、前後2区間の時間の出現頻度の差分を伸びとする。
また、本発明(請求項3)は、請求項1の話題語抽出ステップにおいて、
語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算ステップと、
微分フィルタ乗算ステップにより現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定ステップと、
を行う。
語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算ステップと、
微分フィルタ乗算ステップにより現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定ステップと、
を行う。
図2は、本発明の原理構成図である。
インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出装置であって、
投稿記事を格納する記事データベース40と、
記事データベース40から、カテゴリ毎に設定されているトピックについて、該トピック毎にトピックタイトル、該トピックに対する記事の投稿数、最新投稿日時からなる情報を抽出してトピック情報データベース(DB)10に蓄積するトピック情報データベース作成手段と、
トピック情報DB10からカテゴリ内にあるトピックタイトルを読み出して、該トピックタイトルを形態素解析する形態素解析手段100と、
トピック情報DBのトピック内の投稿記事数を取得して、スコアを時系列に算出し、形態素解析の結果の語句毎に、スコア記憶手段20に該語句毎にスコアを格納するスコア算出手段200と、
スコア記憶手段200から語句毎のスコアを取得して、時系列に従ってスコアが大きくなっている(伸びている)語句をカテゴリの話題語として抽出する話題語抽出手段300と、を有する。
投稿記事を格納する記事データベース40と、
記事データベース40から、カテゴリ毎に設定されているトピックについて、該トピック毎にトピックタイトル、該トピックに対する記事の投稿数、最新投稿日時からなる情報を抽出してトピック情報データベース(DB)10に蓄積するトピック情報データベース作成手段と、
トピック情報DB10からカテゴリ内にあるトピックタイトルを読み出して、該トピックタイトルを形態素解析する形態素解析手段100と、
トピック情報DBのトピック内の投稿記事数を取得して、スコアを時系列に算出し、形態素解析の結果の語句毎に、スコア記憶手段20に該語句毎にスコアを格納するスコア算出手段200と、
スコア記憶手段200から語句毎のスコアを取得して、時系列に従ってスコアが大きくなっている(伸びている)語句をカテゴリの話題語として抽出する話題語抽出手段300と、を有する。
また、本発明(請求項5)は、請求項4の話題語抽出手段300において、
出現頻度が時系列に従って大きくなっている(伸びている)語句を決定する際に、伸びの計算方法として、ある語句について、前後2区間の時間の出現頻度の差分を伸びとする手段を含む。
出現頻度が時系列に従って大きくなっている(伸びている)語句を決定する際に、伸びの計算方法として、ある語句について、前後2区間の時間の出現頻度の差分を伸びとする手段を含む。
また、本発明(請求項6)は、請求項4の話題語抽出手段300において、
語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算手段と、
微分フィルタ乗算手段により現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定手段と、
を含む。
語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算手段と、
微分フィルタ乗算手段により現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定手段と、
を含む。
本発明(請求項7)は、インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出プログラムであって、請求項1乃至3記載の話題語抽出方法を実現するための処理をコンピュータに実行させるプログラムである。
本発明(請求項8)は、インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出プログラムを格納した記憶媒体であって、請求項1乃至3記載の話題語抽出方法を実現するための処理をコンピュータに実行させるプログラムを格納した記憶媒体である。
上記のように、本発明では、逐次更新されていくインターネット上の電子掲示板において、記事一つ一つから話題を抽出する場合の莫大な計算を回避し、各トピックにおける投稿記事数を話題抽出に反映させることにより、関心の高さを把握することができる。
以下、図面と共に本発明の実施の形態を説明する。
最初に、カテゴリとトピックについて説明する。
図3は、カテゴリとトピックの例を示す。
カテゴリとは、掲示板を話題やテーマによって分類したものを指し、トピックとは、カテゴリ毎に作成された掲示板のことで、ユーザは適切なテーマを選択してカテゴリのテーマにあったトピックを作成する。
図3に示すこれらのカテゴリの中から1つを選択し、階層を辿っていくと、図4に示すようなトピックの画面に行き着く。図4は、“スポーツ”のカテゴリを選択し、その後、“ゴルフ”、“全般”とカテゴリを選択していった結果表れたトピックの例である。本発明では、トピックのタイトルから当該カテゴリで話題となっている語句(話題語)を抽出する。
図5は、本発明の一実施の形態における話題語抽出装置の構成を示す。
同図に示す話題語抽出装置は、記事データベース(DB)40、トピック情報データベース(DB)作成部400、形態素解析部100、スコア算出部200、話題語抽出部300、トピック情報データベース(DB)10、スコア記憶部20、及び出力装置30から構成される。
記事DB40は、ユーザによってカテゴリ内のトピックに投稿された記事を格納する。
トピック情報DB作成部400は、記事DB40を読み込み、カテゴリ毎のトピックタイトル、トピックタイトル毎に投稿された記事数をカウントした値、最終的に記事が投稿された日時からなるデータを1レコードとしてトピック情報DB10に追加書き込みしていく。なお、トピック情報DB10の作成のタイミングは、所定の時間周期で行ってもよいし、リアルタイムで行ってもよい。トピック情報DB10の例を図6に示す。
トピック情報DB10は、カテゴリ毎のトピックタイトル及び、トピックに対する記事の投稿記事数、投稿日時が格納されている。
形態素解析部100は、トピック情報DB10からデータを読み出して、トピックタイトルについて形態素解析し、名詞を抽出する。なお、本実施の形態では、名詞を抽出して用いるが、この例に限定されることなく、名詞以外の形態素解析結果や語句を用いてもよい。
スコア算出部200は、トピック情報DB10からトピック毎に投稿数を取得し、所定の単位時間内においてトピックに対して投稿された記事数を算出し、形態素解析された名詞毎に、投稿記事数を利用してスコアを算出し、スコア記憶部20に格納する。このとき、トピックが異なるが、同じ名詞の場合、当該トピック全部のスコアの合計をスコアとする。
なお、スコアの算出方法は、単純に投稿記事数とする方法、重み付け等を行う方法など種々考えられる。
話題語抽出部300は、全てのスコア算出処理が終了したら、スコア記憶部20からスコアを時系列に並べ、ある時間TN+1時のスコアとTN時のスコアからスコアの伸びを求め、その伸びが大きい名詞の順にTN+1時の当該カテゴリの話題として出力装置30に出力する。
出力装置30は、ディスプレイやプリンタ等で構成され、話題語決定部300で決定された話題語を出力する。また、決定された話題語を記憶手段に格納するようにしてもよい。
次に、上記の構成における動作を説明する。
図7は、本発明の一実施の形態における処理手順を示す図である。
以下の処理では、予め、トピック情報DB作成部400によって、トピック情報DB10が任意のタイミングで作成(更新)されているものとする。
まず、形態素解析部100は、トピック情報DB10からある1つのカテゴリ内のトピックタイトルを読み出して、当該トピックタイトルについて形態素解析し(ステップ101)、名詞を抽出する(ステップ102)。
次に、スコア算出部200は、トピック情報DB10からトピック毎の投稿数を取得し、所定の単位時間内のトピック毎に投稿された記事数を算出し(ステップ103)、ステップ102で抽出された名詞毎に投稿記事数を利用してスコアを算出し、名詞とスコアを組にしてスコア記憶部20に格納する(ステップ104)。このとき、トピックタイトルが形態素解析された結果、複数の異なるトピックに対し同一の名詞が抽出されている場合には、それらのトピック全てのスコアを合計し、これをスコアとするものとする。
トピック情報DB10の当該カテゴリ内に未処理のトピックがあるかを判定し、ある場合には、ステップ101に移行し(ステップ105、Yes)、ない場合には(ステップ105、No)、話題語抽出部300は、スコア記憶部20から名詞毎のスコアを読み出して、時系列に並べる。具体的にはメモリ上で時間順にソートする等の方法がある(ステップ106)。
話題語抽出部300は、時刻TN+1のときのスコアと時刻TNのスコアの差を求め、これをスコアの伸びとする(ステップ107)。当該スコアの伸びが大きい名詞の順に時刻TN+1の当該カテゴリの話題として出力装置30に出力する(ステップ108)。
なお、ステップ107におけるスコアの伸びの算出方法については、上記のように単純に差分を取り、それをスコアの伸びとするものの他に、微分フィルタを利用して傾きから算出する方法がある。
スコアの差分から求める方法は、時刻TN+1のスコアから時刻TNのスコアを引いた際に、プラスとなった場合に伸びがあるするものである。
一方、微分フィルタW(t)は以下の式(1)で表される。
W(t)=Aexp(at)−Bexp(bt) 式(1)
ここで、A,B,a,bは、A>B,a>0>b,W(t)の全区間における積分値は0となるように決定される。この微分フィルタを各時刻におけるスコアに乗じて重み付けを行い、指定時間内で重み付けした値を加算する(式(2))。
ここで、A,B,a,bは、A>B,a>0>b,W(t)の全区間における積分値は0となるように決定される。この微分フィルタを各時刻におけるスコアに乗じて重み付けを行い、指定時間内で重み付けした値を加算する(式(2))。
f(w,t)=Σt(w,t)W(t) 式(2)
ここで、f(w,t)は、語句wの時刻tにおけるスコアS(w,t)の重み付け加算値である。この関数は、スコアの伸びが大きい時刻にピークとして現われ、常時出現している時刻においては減衰することから、ピークがある語句をその時間における話題語とする方法をとることができる。
ここで、f(w,t)は、語句wの時刻tにおけるスコアS(w,t)の重み付け加算値である。この関数は、スコアの伸びが大きい時刻にピークとして現われ、常時出現している時刻においては減衰することから、ピークがある語句をその時間における話題語とする方法をとることができる。
なお、上記では、名詞を話題語して抽出する方法を示したが、名詞以外の形態素解析結果や語句でもよい。
なお、上記の形態素解析部100、スコア算出部200、話題語決定部300の処理をプログラムとして構築し、話題語抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることも可能である。
また、構築されたプログラムを話題語抽出装置として利用されるコンピュータに接続されるディスク装置や、フレキシブルディスクやCD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際に、コンピュータにインストールすることも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、インターネット上の電子掲示板の投稿記事から話題語を抽出する技術に適用可能である。
10 トピック情報データベース(DB)
20 スコア記憶手段、スコア記憶部
30 出力装置
100 形態素解析手段、形態素解析部
200 スコア算出手段、スコア算出部
300 話題語抽出手段、話題語決定部
20 スコア記憶手段、スコア記憶部
30 出力装置
100 形態素解析手段、形態素解析部
200 スコア算出手段、スコア算出部
300 話題語抽出手段、話題語決定部
Claims (8)
- インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出方法において、
投稿記事を格納する記事データベースから、カテゴリ毎に設定されているトピックについて、該トピック毎にトピックタイトル、該トピックに対する記事の投稿数、最新投稿日時からなる情報を抽出してトピック情報データベース(DB)に蓄積するトピック情報データベース作成ステップと、
前記トピック情報データベースからカテゴリ内にあるトピックタイトルを読み出して、該トピックタイトルを形態素解析する形態素解析ステップと、
前記トピック情報DBの前記トピック内の投稿記事数を取得して、前記形態素解析の結果の語句毎に、スコアを時系列に算出し、スコア記憶手段に該語句毎にスコアを格納するスコア算出ステップと、
前記スコア記憶手段から語句毎のスコアを取得して、時系列に従ってスコアが大きくなっている(伸びている)語句を前記カテゴリの話題語として抽出する話題語抽出ステップと、
を行うことを特徴とする話題語抽出方法。 - 前記話題語抽出ステップにおいて、
前記スコアが時系列に従って大きくなっている(伸びている)語句を決定する際に、伸びの計算方法として、ある語句について、前後2区間の時間の出現頻度の差分を伸びとする請求項1記載の話題語抽出方法。 - 前記話題語抽出ステップにおいて、
前記語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算ステップと、
前記微分フィルタ乗算ステップにより現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定ステップと、
を行う請求項1記載の話題語抽出方法。 - インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出装置であって、
投稿記事を格納する記事データベースと、
前記記事データベースから、カテゴリ毎に設定されているトピックについて、該トピック毎にトピックタイトル、該トピックに対する記事の投稿数、最新投稿日時からなる情報をトピック情報データベース(DB)に蓄積するトピック情報データベース作成手段と、
前記トピック情報DBからカテゴリ内にあるトピックタイトルを読み出して、該トピックタイトルを形態素解析する形態素解析手段と、
前記トピック情報DBの前記トピック内の投稿記事数を取得して、前記形態素解析の結果の語句毎に、スコアを時系列に算出し、スコア記憶手段に該語句毎にスコアを格納するスコア算出手段と、
前記スコア記憶手段から語句毎のスコアを取得して、時系列に従ってスコアが大きくなっている(伸びている)語句を前記カテゴリの話題語として抽出する話題語抽出手段と、
を有することを特徴とする話題語抽出装置。 - 前記話題語抽出手段は、
前記出現頻度が時系列に従って大きくなっている(伸びている)語句を決定する際に、伸びの計算方法として、ある語句について、前後2区間の時間の出現頻度の差分を伸びとする手段を含む請求項4記載の話題語抽出装置。 - 前記話題語抽出手段は、
前記語句の出現時間内の単位時間出現頻度に微分フィルタを乗じる微分フィルタ乗算手段と、
前記微分フィルタ乗算手段により現れたピーク及びピーク時の時間を記録し、該ピーク時の時間に記録された語句を話題語とする話題語決定手段と、
を含む請求項4記載の話題語抽出装置。 - インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出プログラムであって、
前記請求項1乃至3記載の話題語抽出方法を実現するための処理をコンピュータに実行させることを特徴とする話題語抽出プログラム。 - インターネット上の時系列に従って記事が掲載される電子掲示板の内容から話題語を抽出する話題語抽出プログラムを格納した記憶媒体であって、
前記請求項1乃至3記載の話題語抽出方法を実現するための処理をコンピュータに実行させるプログラムを格納したことを特徴とする話題語抽出プログラムを格納した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004331066A JP2006139717A (ja) | 2004-11-15 | 2004-11-15 | 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004331066A JP2006139717A (ja) | 2004-11-15 | 2004-11-15 | 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006139717A true JP2006139717A (ja) | 2006-06-01 |
Family
ID=36620490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004331066A Pending JP2006139717A (ja) | 2004-11-15 | 2004-11-15 | 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006139717A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010067566A1 (ja) * | 2008-12-12 | 2010-06-17 | 日本電気株式会社 | 時系列データ分析装置、時系列データ分析方法、及びコンピュータ読み取り可能な記録媒体 |
WO2011079416A1 (en) * | 2009-12-30 | 2011-07-07 | Google Inc. | Category-sensitive ranking for text |
JP2014206829A (ja) * | 2013-04-11 | 2014-10-30 | 株式会社日立製作所 | 混雑予測システムおよび方法 |
US9355137B2 (en) | 2012-09-04 | 2016-05-31 | Yahoo Japan Corporation | Displaying articles matching a user's interest based on key words and the number of comments |
-
2004
- 2004-11-15 JP JP2004331066A patent/JP2006139717A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010067566A1 (ja) * | 2008-12-12 | 2010-06-17 | 日本電気株式会社 | 時系列データ分析装置、時系列データ分析方法、及びコンピュータ読み取り可能な記録媒体 |
WO2011079416A1 (en) * | 2009-12-30 | 2011-07-07 | Google Inc. | Category-sensitive ranking for text |
US9092422B2 (en) | 2009-12-30 | 2015-07-28 | Google Inc. | Category-sensitive ranking for text |
US9355137B2 (en) | 2012-09-04 | 2016-05-31 | Yahoo Japan Corporation | Displaying articles matching a user's interest based on key words and the number of comments |
JP2014206829A (ja) * | 2013-04-11 | 2014-10-30 | 株式会社日立製作所 | 混雑予測システムおよび方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pavel et al. | Sceneskim: Searching and browsing movies using synchronized captions, scripts and plot summaries | |
JP4148522B2 (ja) | 表現検出システム、表現検出方法、及びプログラム | |
Moschitti | Kernel methods, syntax and semantics for relational text categorization | |
CN112989802B (zh) | 一种弹幕关键词提取方法、装置、设备及介质 | |
JP2003248676A (ja) | 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法 | |
Cao et al. | Machine learning based detection of clickbait posts in social media | |
CN116227466B (zh) | 一种语义不同措辞相似的句子生成方法、装置及设备 | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
Kanan et al. | Extracting named entities using named entity recognizer and generating topics using latent dirichlet allocation algorithm for arabic news articles | |
JP2013174995A (ja) | 基本語彙抽出装置、及びプログラム | |
JP4293145B2 (ja) | クチコミ情報判定方法及び装置及びプログラム | |
Tantuğ | Document categorization with modified statistical language models for agglutinative languages | |
Taneva et al. | Gem-based entity-knowledge maintenance | |
Hosseini et al. | Resolving indirect referring expressions for entity selection | |
JP2006139717A (ja) | 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
Patel et al. | Influence of Gujarati STEmmeR in supervised learning of web page categorization | |
JP2007172179A (ja) | 意見抽出装置、意見抽出方法、および意見抽出プログラム | |
Guthrie et al. | An unsupervised approach for the detection of outliers in corpora | |
JP2006318509A (ja) | 解データ編集処理装置および処理方法 | |
JP2006139716A (ja) | 話題語抽出方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
Choi et al. | Consento: a new framework for opinion based entity search and summarization | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
CN115757760A (zh) | 文本摘要提取方法及系统、计算设备、存储介质 | |
Ojokoh et al. | Online question answering system |