JP2006323654A - 話題抽出方法及び装置及びプログラム及び記憶媒体 - Google Patents

話題抽出方法及び装置及びプログラム及び記憶媒体 Download PDF

Info

Publication number
JP2006323654A
JP2006323654A JP2005146687A JP2005146687A JP2006323654A JP 2006323654 A JP2006323654 A JP 2006323654A JP 2005146687 A JP2005146687 A JP 2005146687A JP 2005146687 A JP2005146687 A JP 2005146687A JP 2006323654 A JP2006323654 A JP 2006323654A
Authority
JP
Japan
Prior art keywords
topic
message
score
messages
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005146687A
Other languages
English (en)
Inventor
Minako Izawa
味奈子 井沢
Megumi Ishii
恵 石井
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005146687A priority Critical patent/JP2006323654A/ja
Publication of JP2006323654A publication Critical patent/JP2006323654A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 話題が出現するに至った実際のメッセージを容易に認識でき、コミュニティの最新状態と表示される話題の齟齬によるユーザの誤解や混乱を防止する。
【解決手段】 本発明は、メッセージから話題を抽出し、抽出された話題が出現した全てのメッセージIDをソートして記録し、抽出された話題が出現したメッセージに後続するメッセージのうち、該話題を含むメッセージの数である支持数を求め、該支持数を分子の構成要素に持ち、後続するメッセージの数を分母の構成要素に持つ式により話題のスコアを求め、該スコアに基づいて話題を抽出し、抽出された該話題に対するメッセージIDを取得し、該メッセージIDに基づいてメッセージ記憶手段を検索し、メッセージを取得し、該話題と該話題が出現するメッセージID及び該メッセージからなる一覧を作成する。
【選択図】 図1

Description

本発明は、話題抽出方法及び装置及びプログラム及び記憶媒体に係り、特に、掲示板システムやチャットシステムなどのコミュニケーションシステムにおいて、メッセージから話題を抽出する話題抽出方法及び装置及びプログラム及び記憶媒体に関する。
大量のメッセージが投入される掲示板システムやチャットシステムにおいて、新規に参加するユーザは、今現在そのコミュニケーションの場でどのような話題で盛り上がっているのかを知りたいと思う。また、インターネットの普及に伴いこのようなシステムが増加し、全てのコミュニケーションの場を覗いてみることが物理的に難しくなっている。そのため、各コミュニケーションの場で現在どのような話題が盛り上がっているのか、すなわち、現在の話題の内容を提示することが求められている。
これらのコミュニケーションの場から、ユーザに分かりやすく現在の話題を高速に抽出する技術がある。当該技術は、メッセージを語に分割し、分割された語の列から予め与えられたパターンにマッチする列を話題として抽出する。抽出された話題が出現したメッセージに後続するメッセージのうち話題を含むメッセージの数である支持数を求め、支持数を分子の構成要素にもち、後続するメッセージの数を分母の構成要素に持つ式により話題のスコアを求めるものである(例えば、特許文献1参照)。
特開2004−348415号公報
しかしながら、上記の従来の技術では、現在盛り上がっている話題を提示されても、どういった経緯でその話題が出現したかが不明であるか、または、興味がある場合は、実際のメッセージを閲覧する必要がある。しかし大規模なコミュニティにおいて短時間で検索結果を得ることは難しく、ユーザ個人に検索のスキルと検索を実施するためのキーワード入力やクリック等の余計な作業が必要となる。
従来技術においては、話題出現するメッセージ番号の記録は、各話題毎に1つであるため、ユーザに提示できるメッセージは話題毎に1つである。なぜこの話題が出現するに至ったのかという経緯や、これまでの話題がいくつのメッセージ内に出現したのかという件数、どの辺りに一番密集して出現したのか、といったことを提示することができない。
また、上記の従来技術は、高速に話題を抽出することができるが、話題を抽出するという処理が入る以上、コミュニティへのメッセージ投入と話題の提示を完全にリアルタイムに同期させることは難しい。そのため、提示した話題は必ずしも最新のメッセージまでを処理完了した状態ではない。また、システムの処理が停止した場合も、提示される話題とコミュニティ内の最新の話題も異なってくる。しかし、上記の従来技術においては、現在何番目のメッセージ迄を処理済であるかを提示していない。
本発明は、上記の点に鑑みなされたもので、話題が出現するに至った実際のメッセージを容易に認識でき、コミュニティの最新状態と表示される話題の齟齬によるユーザの誤解や混乱を防止することが可能な話題抽出方法及び装置及びプログラム及び記憶媒体を提供することを目的とする。
詳しくは、
・実メッセージと話題を同時に表示するページを作成する:
・話題が表示されたページ内にどのメッセージまでを処理したかを示すページを作成する:
ことが可能な話題抽出方法及び装置及びプログラム及び記憶媒体を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、入力されたメッセージのリストから話題を抽出するメッセージ分割手段、話題候補語抽出手段、話題情報作成手段、スコア計算手段、メッセージID記録手段、メッセージID記憶手段、話題一覧作成手段を有する話題抽出装置における話題抽出方法であって、
メッセージ分割手段において、入力されたメッセージを語に分解するメッセージ分割ステップ(ステップ1)と、
話題候補語抽出手段において、メッセージ分割ステップで分割された語の列から予め与えられたパターンにマッチする語の列を話題として抽出する話題候補語抽出ステップ(ステップ2)と、
メッセージID記録手段において、話題候補語抽出ステップで抽出された話題が出現した全てのメッセージIDをソートして、該話題と共にメッセージID記憶手段に記録するメッセージID記録ステップ(ステップ3)と、
話題情報作成手段において、話題候補語抽出ステップで抽出された話題が出現したメッセージに後続するメッセージのうち、該話題を含むメッセージの数である支持数を求め、メッセージID記憶手段に格納する支持数算出ステップ(ステップ4)と、
スコア計算手段において、メッセージID記憶手段から支持数を取得し、該支持数を分子の構成要素に持ち、後続するメッセージの数を分母の構成要素に持つ式により、話題のスコアを求めるスコア計算ステップ(ステップ5)と、
話題一覧作成手段において、話題のスコア取得し、該スコアに基づいて話題を抽出し、抽出された該話題に対するメッセージIDをメッセージID記憶手段から取得し、該メッセージIDに基づいて、少なくともメッセージIDとメッセージの組を格納するメッセージ記憶手段を検索し、メッセージを取得し、少なくとも、該話題と該話題が出現するメッセージID及び該メッセージからなる一覧を作成する話題一覧作成ステップ(ステップ6)と、を行う。
本発明(請求項2)は、入力されたメッセージのリストから話題を抽出するメッセージ分割手段、話題候補語抽出手段、話題情報作成手段、メッセージID記憶手段、スコア計算手段、処理ID記録手段、処理ID記憶手段、話題一覧作成手段を有する話題抽出装置における話題抽出方法であって、
メッセージ分割手段において、入力されたメッセージを語に分解するメッセージ分割ステップと、
話題候補語抽出手段において、メッセージ分割ステップで分割された語の列から予め与えられたパターンにマッチする語の列を話題として抽出する話題候補語抽出ステップと、
話題情報作成手段において、話題候補語抽出ステップで抽出された話題が出現したメッセージに後続するメッセージのうち、該話題を含むメッセージの数である支持数を求め、該話題と共にメッセージID記憶手段に格納する支持数算出ステップと、
スコア計算手段において、メッセージID記憶手段から支持数を取得し、該支持数を分子の構成要素に持ち、後続するメッセージの数を分母の構成要素に持つ式により、話題のスコアを求めるスコア計算ステップと、
処理ID記録手段において、スコア計算ステップを終了したメッセージIDを処理IDとして処理ID記憶手段に記録する処理ID記録ステップと、
話題一覧作成手段において、話題のスコア取得し、該スコアに基づいて話題を抽出し、さらに、処理IDを処理ID記憶手段から取得し、少なくとも、抽出された該話題と該処理IDからなる一覧を作成する話題一覧作成ステップと、を行う。
本発明(請求項3)は、入力されたメッセージのリストから話題を抽出するメッセージ分割手段、話題候補語抽出手段、話題情報作成手段、スコア計算手段、メッセージID記録手段、メッセージID記憶手段、処理ID記録手段、処理ID記憶手段、話題一覧作成手段を有する話題抽出装置における話題抽出方法であって、
メッセージ分割手段において、入力されたメッセージを語に分解するメッセージ分割ステップと、
話題候補語抽出手段において、メッセージ分割ステップで分割された語の列から予め与えられたパターンにマッチする語の列を話題として抽出する話題候補語抽出ステップと、
メッセージID記録手段において、話題候補語抽出ステップで抽出された話題が出現した全てのメッセージIDをソートし、該話題と共にメッセージID記憶手段に記録するメッセージID記録ステップと、
話題情報作成手段において、話題候補語抽出ステップで抽出された話題が出現したメッセージに後続するメッセージのうち、該話題を含むメッセージの数である支持数を求め、メッセージIDの記憶手段に格納する支持数算出ステップと、
スコア計算手段において、メッセージID記憶手段から支持数を取得し、該支持数を分子の構成要素に持ち、後続するメッセージの数を分母の構成要素に持つ式により、話題のスコアを求めるスコア計算ステップと、
処理ID記録手段において、スコア計算ステップが終了したメッセージIDを処理IDとして処理ID記憶手段に記録する処理ID記録ステップと、
話題一覧作成手段において、話題のスコア取得し、該スコアに基づいて話題を抽出し、さらに、該話題に対するメッセージIDをメッセージID記憶手段から取得し、該メッセージIDに基づいて、少なくともメッセージIDとメッセージの組を格納するメッセージ記憶手段を検索し、メッセージを取得し、少なくとも、該話題が出現するメッセージID、該メッセージ、及び処理ID記憶手段から取得した処理IDからなる一覧を作成する話題一覧作成ステップと、を行う。
図2は、本発明の原理構成図である。
本発明(請求項4)は、入力されたメッセージのリストから話題を抽出する話題抽出装置であって、
少なくともメッセージIDとメッセージの組を格納するメッセージDB10と、
メッセージDB10から読み込んだメッセージを語に分解するメッセージ分割手段110と、
メッセージ分割手段110で分割された語の列から予め与えられたパターンにマッチする語の列を話題として抽出する話題候補語抽出手段120と、
話題候補語抽出手段120で抽出された話題が出現した全てのメッセージIDをソートし、話題と共にメッセージID記憶手段に記録するメッセージID記録手段140と、
話題候補語抽出手段120で抽出された話題が出現したメッセージに後続するメッセージのうち、該話題を含むメッセージの数である支持数を求め、メッセージID記憶手段に格納する話題情報作成手段130と、
記憶手段から支持数を取得し、該支持数を分子の構成要素に持ち、後続するメッセージの数を分母の構成要素に持つ式により、話題のスコアを求めるスコア計算手段150と、
話題のスコアに基づいて話題を抽出し、該話題に対するメッセージIDをメッセージID記憶手段141から取得し、該メッセージIDに基づいて、メッセージDBを検索し、メッセージを取得し、少なくとも、該話題と該話題が出現するメッセージID及び該メッセージからなる一覧を作成する話題一覧作成手段160と、を有する。
本発明(請求項5)は、入力されたメッセージのリストから話題を抽出する話題抽出装置であって、
少なくともメッセージIDとメッセージの組を格納するメッセージDBと、
メッセージDBから読み込んだメッセージを語に分解するメッセージ分割手段と、
メッセージ分割手段で分割された語の列から予め与えられたパターンにマッチする語の列を話題として抽出する話題候補語抽出手段と、
話題候補語抽出手段で抽出された話題が出現したメッセージに後続するメッセージのうち、該話題を含むメッセージの数である支持数を求め、該話題と共に支持数を支持数記憶手段に格納する話題情報作成手段と、
支持数記憶手段から支持数を取得し、該支持数を分子の構成要素に持ち、後続するメッセージの数を分母の構成要素に持つ式により、話題のスコアを求めるスコア計算手段と、
スコア計算手段の処理を終了したメッセージIDを処理IDとして処理ID記憶手段に記録する処理ID記録手段と、
話題のスコアに基づいて話題を抽出し、さらに、処理IDを処理ID記憶手段から取得し、少なくとも該話題と該処理IDからなる一覧を作成する話題一覧作成手段と、
を有する。
本発明(請求項6)は、入力されたメッセージのリストから話題を抽出する話題抽出装置であって、
少なくともメッセージIDとメッセージの組を格納するメッセージDBと、
メッセージDBから読み込んだメッセージを語に分解するメッセージ分割手段と、
メッセージ分割手段で分割された語の列から予め与えられたパターンにマッチする語の列を話題として抽出する話題候補語抽出手段と、
メッセージID記録手段において、話題候補語抽出手段で抽出された話題が出現した全てのメッセージIDをソートし、該話題と共にメッセージID記憶手段に記録するメッセージID記録手段と、
話題候補語抽出手段で抽出された話題が出現したメッセージに後続するメッセージのうち、該話題を含むメッセージの数である支持数を求め、メッセージID記憶手段に格納する話題情報作成手段と、
ID記憶手段から支持数を取得し、該支持数を分子の構成要素に持ち、後続するメッセージの数を分母の構成要素に持つ式により、話題のスコアを求めるスコア計算手段と、
スコア計算手段の処理が終了したメッセージIDを処理IDとして処理ID記憶手段に記録する処理ID記録手段と、
話題のスコアに基づいて話題を抽出し、該話題に対するメッセージIDをメッセージID記憶手段から取得し、該メッセージIDに基づいて、メッセージDBを検索してメッセージを取得し、少なくとも該話題が出現するメッセージID、処理ID記憶手段から取得した処理ID及び該メッセージからなる一覧を作成する話題一覧作成手段と、を有する。
本発明(請求項7)は、入力されたメッセージのリストから話題を抽出する話題抽出プログラムであって、
記憶手段上に、少なくともメッセージIDとメッセージの組を有するメッセージDB、話題とスコアを格納するメモリ、スコア算出処理が終了したメッセージIDを格納するメモリ、抽出された話題を含むメッセージIDを格納するメモリを有するコンピュータに、
請求項4乃至6記載の各手段を実行させる。
本発明(請求項8)は、入力されたメッセージのリストから話題を抽出する話題抽出プログラムを格納した記憶媒体であって、
記憶手段上に、少なくともメッセージIDとメッセージの組を有するメッセージDB、話題とスコアを格納するメモリ、スコア算出処理が終了したメッセージIDを格納するメモリ、抽出された話題を含むメッセージIDを格納するメモリを有するコンピュータに、
請求項4乃至6記載の各手段を実行させるプログラムを格納した記憶媒体である。
本発明によれば、話題とその話題が出現するメッセージID及びメッセージの一覧を作成することで、コミュニティを利用するユーザが現在の話題を短時間で知ることが可能になるだけでなく、その話題が出現する経過となるメッセージを簡易に、かつ、短時間で知ることが可能となり、より状況を理解しやすくなり、コミュニティへの新規参加者の発言への敷居を低くすることで、コミュニティへの参加者の増大にもつながる。
また、話題と処理済IDの一覧を作成することで、コミュニティを利用するユーザは、現在提示されている話題がどのメッセージ時点までの語なのかを明示させることにより、システム停止などに起因する話題抽出状態と最新のコミュニティの状態が乖離した状態の違和感や混乱を防ぐことができる。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
本実施の形態では、話題とその話題が出現するメッセージID及びメッセージの一覧を作成する例を説明する。
図3は、本発明の第1の実施の形態における話題抽出装置の構成を示す。
同図に示す話題抽出装置100は、コミュニティ名とメッセージID及び実メッセージを格納しているメッセージDB10、話題一覧ページDB20、表示装置30及び入力装置40に接続されており、メッセージ分割部110、話題候補語抽出部120、話題情報作成部130、メッセージID記録部140、スコア計算部150、メモリ151、話題一覧作成部160から構成される。
メッセージ分割部110は、メッセージDB10から指定されたコミュニティ名に属するメッセージ群を読み込み、記憶手段(図示せず)に格納されている辞書(図示せず)を参照して語に分割する。
話題候補語抽出部120は、分割された語の列から予め与えられたパターンにマッチする語の列を話題として抽出する。
話題情報作成部130は、抽出された話題が出現したメッセージに後続するメッセージのうち当該話題を含むメッセージの数である支持数を求める。
メッセージID記録部140は、話題候補抽出部120で抽出された話題が出現した全てのメッセージIDをソートして当該話題と共にメモリ141に格納する。
スコア計算部150は、支持数を分子の構成要素に持ち、後続するメッセージの数を分母の構成要素に持つ式により、話題のスコアを求め、話題と共にメモリ151に格納する。
話題一覧作成部160は、スコア計算部150で抽出された話題とスコアをメモリ151から取得し、所定のスコア以上の話題を抽出し、メモリ141から当該話題が出現するメッセージIDとを利用して、話題とその話題が出現するメッセージIDとメッセージの一覧を作成し、話題一覧ページDB20に出力する、または、表示装置30に表示する。
次に、上記の構成における話題抽出装置100の動作を説明する。
図4は、本発明の第1の実施の形態における話題抽出装置のフローチャートである。
ステップ110) メッセージ分割部110は、メッセージDB10から入力されたメッセージ群の古いメッセージから順にメッセージ毎に語を分解する。メッセージ分割部110は、内部に辞書(図示せず)を有し、メッセージを辞書に登録されている語に分割する。例えば、辞書に「インフルエンザ」「ワクチン」「予防」「接種」「病院」という語が登録されていた場合、図5に示すように、メッセージが古い順に、
メッセージm1:「インフルエンザワクチンはどこで接種できるのでしょうか」
メッセージm2:「ワクチン接種なら近所の病院がよいのでは。予防接種は大切です」
メッセージm3:「予防接種に子供を連れていくのは大変ですよね」
とあった場合、メッセージm1は「インフルエンザ」「ワクチン」「はどこで」「接種」「できるのでしょうか」と分割される。図6は、この場合のメッセージ分割の例を示している。
ステップ120) 話題候補語抽出部120は、メッセージ分割部110によって分割された語の例から、予め与えられたパターンにマッチする語の列を話題として抽出する。例えば、「辞書に登録されていた語の連続」がパターンとして予め与えられて、メモリ(図示せず)に格納されていた場合、メッセージ群では、「インフルエンザワクチン」、「ワクチン接種」、「予防接種」が話題として抽出される。
ステップ130) メッセージID記録部140は、抽出された話題とそのメッセージIDをメモリ141に記録する。この処理は具体的には以下のように実現できる。
メッセージIDは、図7に示すように、予め話題記録用のメモリ141に領域aを用意し、“メッセージID記録領域”に格納される。図5のメッセージの場合、メッセージm1で話題「インフルエンザワクチン」が抽出され、領域a内の“話題領域”の話題と比較する。「インフルエンザワクチン」は既存の領域内に存在しない話題であるので、「インフルエンザワクチン」と出現したメッセージIDである「m1」を記録する。同様にメッセージm2について、話題「ワクチン接種」及び「予防接種」とメッセージID「m2」を記録する。メッセージm3で抽出された「予防接種」は、“話題領域”に存在することから、既出の話題であるため、「予防接種」のメッセージID記録領域にメッセージID「m3」を追加し、ソートする。話題「予防接種」のメッセージID記録領域は、「m2,m3」となる。
ステップ140) 話題情報作成部130は、話題候補抽出部120によって抽出された話題に対して、当該話題が出現したメッセージの後続メッセージにおける支持数を求める。この処理は、例えば以下のように実現できる。
話題情報作成部130は、図7に示すように、メモリ141の領域a内の“メッセージID記録領域”のメッセージID数をカウントして、その話題の支持数を“支持数領域”に格納する。ここで支持数は、話題が最初に出現したメッセージに後続するメッセージ数なので、−1を行った数となる。つまり、「インフルエンザワクチン」と「ワクチン接種」は0、「予防接種」は1となる。
ステップ150) 全てのメッセージの処理が終了した場合には、ステップ160に移行し、終了していない場合はステップ110に移行する。
ステップ160) スコア計算部150は、抽出された話題に対し、支持数を分子に構成要素に持ち、後続するメッセージの数を分母の構成要素に持つ式を利用し、スコアを算出し、話題とスコアをメモリ151に格納する。本実施の形態では、特開2004−348415号公報に記載されている方法を用いるものとする。
ステップ170) 話題一覧作成部160は、メモリ151から所定のスコア以上の話題を抽出し、さらに、メモリ141から当該話題に対応するメッセージIDを取得し、当該メッセージIDをキーとしてメッセージDB10にアクセスして、当該メッセージIDに対応する実メッセージを取得し、図8に示すような一覧ページを作成する。なお、一覧ページの話題、メッセージIDや実メッセージの並び順等の編集方法については、図8の例に限定されることなく、任意に編集が可能である。
また、利用者への見易さを配慮し、メッセージの塊毎にタイトルを付与し、スコアを利用して表示装置30に表示する話題を抜粋することも可能である。支持数、即ち、話題の出現数が多い場合には、話題が一定数連続したメッセージのみを提示する方法もある。話題の出現数が多いが一定数連続したメッセージ群がない場合は、話題が出現した一番古いメッセージから一定数を表示するようにしてもよい。話題の出現数が多かった場合の一覧ページ作成例を図9に示す。
なお、上記の話題一覧作成部160により生成された一覧ページを話題一覧ページDB20に格納してもよい。
次に、上記の各ステップを詳細に説明する。
図10は、本発明の第1の実施の形態における話題抽出装置の詳細な動作のフローチャートである。以下では、前述の図4のフローチャートに準じて説明する。
・ステップ110:
ステップ111) 入力装置40からメッセージDB10中の処理対象となるコミュニティのメッセージ群を指定する。
ステップ112) メッセージ分割部110において、入力装置40から指定された対象コミュニティに属するメッセージIDとメッセージ本文をメッセージDB10から読み出す。
ステップ113) メッセージ分割部110は、読み出したメッセージを辞書(図示せず)を参照して単語に分割する。
・ステップ120:
ステップ121) 話題候補語抽出部120は、予め与えられているパターンに基づいて、話題の対象となる語(語句)を抽出する。
ステップ122) メッセージID記録部140は、メモリ141の領域aの「話題領域」に、ステップ121において抽出された語があるかを判定し、ある場合には、ステップ133に移行し、ない場合はステップ131に移行する。
・ステップ130:
ステップ131) ステップ121で抽出された語がある場合にはメッセージID記録部140は、その話題をメモリ141の領域aの“話題領域”に追加する。
ステップ132) メッセージID記録部140は、ステップ131で追加された話題に対応するメッセージIDをメモリ141の領域aの“メッセージID記録領域”に記録し、ステップ141に移行する。
ステップ133) ステップ121において抽出された語がある場合には、メッセージID記録部140は、メモリ141のステップ121で抽出された話題の“メッセージID記録領域”にメッセージIDを追加し、メッセージIDをソートし、ステップ141に移行する。
ステップ140:
ステップ141) 話題情報作成部130は、メモリ141の領域aの全ての話題について、“メッセージID記録領域”にあるID数をカウントして支持数を求める。
ステップ150:
ステップ151) ステップ111で指定された全てのメッセージ群について処理が終了したかを判定し、全てのメッセージを処理した場合には、ステップ161に移行し、処理していないメッセージがある場合にはステップ112に移行する。
ステップ160:
ステップ161) スコア計算部150は、話題情報作成部130で求められた支持数や、メモリ141から読み込んだメッセージ数等を利用して各話題のスコアを計算し、メモリ151に格納する。スコアの計算については、上述した通りである。
ステップ170:
ステップ171) 話題一覧作成部160は、スコア計算部150で求められたスコアの大きい話題をメモリ151から抽出する。例えば、スコア0.8以上の全ての語を抽出する等の方法を用いることができる。
ステップ172) 話題一覧作成部160は、話題に抽出された語に基づいて、メモリ141の領域aのその語の“メッセージID記録領域”からメッセージIDを取得する。
ステップ173) 話題一覧作成部160は、メッセージIDに基づいてメッセージDB10にアクセスし、当該メッセージIDに対応する実メッセージを取得する。
ステップ174) 話題一覧作成部160は、ステップ171で抽出された話題、ステップ172で取得したメッセージID、ステップ173で取得した実メッセージ及び話題から図8、図9に示すような一覧ページを作成する。なお、タイトルを付与する場合には、コミュニティ名をメッセージDB10から取得して利用するものとする。なお、ここでは、メッセージDB10に格納されているメッセージはコミュニティ名毎に格納されているものとする。
[第2の実施の形態]
本実施の形態では、現在提示されている話題がどのメッセージ時点までに出現したものであるかを示す一覧を作成する例を示す。
図11は、本発明の第2の実施の形態における話題抽出装置の構成を示す。
前述の第1の実施の形態では、メッセージID記録部140を用いたが、本実施の形態では処理ID記録部210を有する点において異なる。
図11では、図3と同一構成部分には同一符号を付す。
話題抽出装置200は、コミュニティ名とメッセージID及び実メッセージを格納しているメッセージDB10、話題一覧ページDB20、表示装置30及び入力装置40に接続されており、メッセージ分割部110、話題候補語抽出部120、話題情報作成部130、メモリ131、スコア計算部150、メモリ151、処理ID記録部210、メモリ211、話題一覧作成部160から構成される。
メッセージ分割部110は、第1の実施の形態と同様の動作を行う。
話題候補語抽出部120は、第1の実施の形態と同様の動作を行う。
話題情報作成部130は、出現したメッセージに後続するメッセージのうち当該話題を含むメッセージの数である支持数を求め、話題候補語抽出部120で抽出された話題と共にメモリ131に格納する。
スコア算出部140は、第1の実施の形態と同様の動作を行う。
処理ID記録部210は、スコア算出を終了したメッセージIDを処理IDとしてメモリ211に記録する。
話題一覧作成部160は、メモリ131に格納されている話題及びスコア算出部140で算出されたその話題のスコア、及びメモリ211に格納された処理IDを利用して、話題と処理IDの一覧を作成する。
次に、上記の構成における動作を説明する。
図12は、本発明の第2の実施の形態における話題抽出装置のフローチャートである。
ステップ210) メッセージ分割部110は、前述の第1の実施の形態と同様の動作を行う。
ステップ220) 話題候補語抽出部120は、前述の第1の実施の形態と同様の動作を行う。
ステップ230) 話題情報作成部130は、図13に示すように、メッセージm1についてメモリ131上に領域a1を設け、この領域a1の“話題領域”にメッセージm1から抽出された話題を格納し、“支持数領域” にこの話題の支持数を格納する。ここで支持数は、話題が出現したメッセージに後続するメッセージのうち当該話題を含むメッセージの数であるので、メッセージm1から抽出した話題「インフルエンザワクチン」の支持数をメッセージm1ついて求めることはできない。従って、メモリ131の領域a1に格納される「インフルエンザワクチン」の支持数は0である。同様にメッセージm2についてメモリ131上に領域a2を設け、抽出された話題「ワクチン接種」と「予防接種」を“話題領域”に格納し、これらの話題の支持数0を“支持数領域”に格納する。領域a1の話題「インフルエンザワクチン」は、メッセージm2中に含まれていないため、支持数に変化はない。同様にメッセージm3についてメモリ131上に領域a3を設ける。メッセージm1から抽出された「インフルエンザワクチン」はメッセージm2,m3中には存在せず、メッセージm2から抽出された「ワクチン接種」はメッセージm3に存在しない。また、「予防接種」はメッセージm3に存在するため、支持数は1となる。
ステップ240) すべてのメッセージの処理が終了した場合にはステップ250に移行し、まだ終了していない場合はステップ210に移行する。
ステップ250) スコア計算部150は、メモリ131に格納されている話題と支持数を取得し、抽出された話題に対し、支持数を分子の構成要素に持ち、後続するメッセージの数を分母の構成要素に持つ式を利用し、スコアを算出し、話題とスコアをメモリ151に格納する。具体的な処理方法は、前述の第1の形態と同様に、特開2004−348415号公報に記載されている方法を用いるようにしてもよい。
ステップ260) 処理ID記録部210は、スコア算出処理が終了した最終のメッセージIDを処理IDとしてメモリ211に格納する。例えば、前述の図5のメッセージの終了段階では、メッセージID「m3」が記録される。
ステップ270) 話題一覧作成部160は、話題をスコア計算部150内のメモリ151から所定の値以上のスコアを持つ話題を抽出し、処理済の処理IDをメモリ211から取得し、図14に示すような一覧ページを作成し、表示装置40に表示する、または、話題一覧ページDB20に出力する。なお、利用者への見易さを配慮し、メッセージの塊毎にタイトルを付与したり、スコアを利用して表示する話題を抜粋してもよい。
なお、図14の例では、第1の実施の形態と異なり、実メッセージが含まれていない。
次に、上記の各ステップを詳細に説明する。
図15は、本発明の第2の実施の形態における話題抽出装置の詳細な動作のフローチャートである。以下では、前述の図12のフローチャートに準じて説明する。
ステップ210:
ステップ211) 入力装置40からメッセージDB10中の処理対象となるコミュニティのメッセージ群を指定する。
ステップ212) メッセージ分割部110は、指定された対象のコミュニティのメッセージIDとメッセージ本文をメッセージDB10から読み出す。
ステップ213) メッセージ分割部110は、読み出したメッセージ本文を辞書(図示せず)を参照して、単語に分割する。
ステップ220:
ステップ221) 話題候補語抽出部120は、分割された単語の中から話題の対象となる語(語句)を抽出する。なお、語句の抽出は予め与えられているパターンにより行うものとする。
ステップ230:
ステップ231) 話題情報作成部130は、メモリ131上に領域an(nはメッセージID)を用意し、当該領域anの“話題領域”に話題を記録する。
ステップ232) 話題情報作成部130は、メモリ131を参照して、全ての話題について、後続の領域an中に同じ話題が出現している数をカウントして支持数を求め、メモリ131に格納する。
ステップ240:
ステップ241) ステップ211で指定された全てのメッセージ群について処理が終了したかを判定し、終了した場合には、ステップ251に移行し、終了していない場合には、ステップ212に移行する。
ステップ250:
ステップ251) スコア計算部150は、メモリ131から支持数や読み込んだメッセージ数等を利用して、各話題のスコアを計算し、話題とスコアをメモリ151に格納する。
ステップ260:
ステップ261) 処理ID記録部210は、最後に読み出したメッセージIDを処理IDとしてメモリ211に記録する。
ステップ270:
ステップ271) 処理ID記録部210は、ステップ251で計算されたスコアに基づいてスコアの高い話題をメモリ151から抽出する。このとき、例えば、スコア0.8以上の全ての語について抽出する等の方法を利用することが可能である。
ステップ272) 話題一覧作成部160は、ステップ271で抽出された話題及び、ステップ262においてメモリ211に格納された処理IDを用いて、図14に示すような話題と処理IDから一覧ページを作成する。図14の例において、話題が「インフルエンザワクチン」「予防接種」であり、処理IDから「現在の処理状況:メッセージ3迄」が編集される。これらを表示装置40または、話題一覧ページDB20に出力する。このとき、タイトルを付与する場合は、コミュニティ名をメッセージDB10より取り出して利用するものとする。
[第3の実施の形態]
本実施の形態は、第1・第2の実施の形態の内容を併せ持った一覧を作成する例を示す。
図16は、本発明の第3の実施の形態における話題抽出装置の構成を示す。
図16に示す話題抽出装置300は、コミュニティ名とメッセージID及び実メッセージを格納しているメッセージDB10、話題一覧ページDB20、表示装置30及び入力装置40に接続されており、メッセージ分割部110、話題候補語抽出部120、話題情報作成部130、メッセージID記録部140、メモリ141、スコア計算部150、メモリ151、処理ID記録部210、メモリ211、話題一覧作成部160から構成され、前述の第1の実施の形態と第2の実施の形態とをマージした構成である。
メッセージ分割部110は、前述の第1・第2の実施の形態と同様の動作を行う。
話題候補語抽出部120は、前述の第1・第2の実施の形態と同様の動作を行う。
話題情報作成部130は、前述の第1の実施の形態と同様の動作を行う。
メッセージID記録部140は、前述の第1の実施の形態と同様の動作を行う。
スコア計算部150は、前述の第1・第2の実施の形態と同様の動作を行う。
処理ID記録部210は、前述の第2の実施の形態と同様の動作を行う。
話題一覧作成部160は、スコア計算部150で計算され、メモリ151に格納された当該話題のスコアに基づいて話題を抽出し、当該話題に基づいてメモリ141からその話題が出現するメッセージIDを取得する。次に、メッセージIDに基づいてメッセージDB10にアクセスして当該メッセージIDに対応する実メッセージを取得する。また、メモリ211から処理IDを取得する。このようにして取得した、話題、メッセージID,実メッセージ、処理IDからなる一覧を作成し、話題一覧ページDB20に出力、または、表示装置30に表示する。
図17は、本発明の第3の実施の形態における話題抽出装置のフローチャートである。
ステップ310) メッセージ分割部110は、第1の実施の形態と同様の動作を行う。
ステップ320) 話題候補語抽出部120は、第1の実施の形態と同様の動作を行う。
ステップ330) メッセージID記録部140は、話題候補語抽出部120で抽出された話題とそのメッセージIDをメモリ141に記録する。具体的な処理は、前述の第1の実施の形態と同様である。
ステップ340) 話題情報作成部130は、話題候補抽出部120によって抽出された話題に対して、当該話題が出現したメッセージの後続メッセージにおける支持数を求め、メモリ141に格納する。具体的な処理については、前述の第1の実施の形態と同様である。
ステップ350) 全てのメッセージの処理が終了した場合には、ステップ360に移行し、終了していない場合はステップ310に移行する。
ステップ360) スコア計算部150は、抽出された話題に対し、支持数を分子に構成要素に持ち、後続するメッセージの数を分母の構成要素に持つ式を利用し、スコアを算出し、話題とスコアをメモリ151に格納する。具体的な処理方式は、第1の実施の形態と同様に、特開2004−348415号公報に記載に方法を用いるようにしてもよい。
ステップ370) 処理ID記録部210は、スコア算出処理が終了したメッセージIDを処理IDとしてメモリ211に記録する。
ステップ380) 話題一覧作成部160は、メモリ151からスコアに基づいて話題を抽出し、メモリ141から抽出された当該話題に対応するメッセージID、当該メッセージIDのメッセージ、メモリ211から処理済の処理IDを取得し、図18に示すような一覧ページを作成する。なお、図18に示すメッセージ原文は、メッセージIDに基づいてメッセージDB10にアクセスして取得するものとする。また、「現在の処理状況:メッセージ3迄」は、メモリ211から取得した処理ID(メッセージ3)に基づいて編集されたものである。
なお、利用者への見易さに配慮し、メッセージの塊毎にタイトルを付与し、スコアを利用して表示する話題を抜粋することも可能である。支持数、即ち話題の出現数が多い場合には、話題が一定数連続したメッセージのみを提示する方法もある。
また、話題の出現数が多いが、一定数連続したメッセージ群がない場合は、話題が出現した一番古いメッセージから一定数を表示するようにしてもよい。話題の出現数が多かった場合の一覧ページの作成例を図19に示す。
図20は、本発明の第3の実施の形態における話題抽出装置の詳細な動作のフローチャートである。以下では、図17のフローチャートに準じて説明する。
ステップ310:
ステップ311) 入力装置40から、メッセージDB10中の対象となるコミュニティのメッセージ群を指定する。
ステップ312) メッセージ分割部110は、メッセージDB10から対象コミュニティのメッセージIDとメッセージ本文を読み出す。
ステップ313) メッセージ分割部110は、メッセージを単語に分割する。
ステップ320:
ステップ321) 話題候補語抽出部120は、分割された単語から話題の対象となる語(語句)を抽出する。
ステップ330:
ステップ331) メッセージID記録部140は、メモリ141の領域aの“話題領域”に抽出された語があるかを判定し、ある場合にはステップ334に移行し、ない場合には、ステップ332に移行する。
ステップ332) メッセージID記録部140は、ステップ321で抽出された話題をメモリ141の領域aの“話題領域”に追加する。
ステップ333) メッセージID記録部140は、上記の話題のメッセージIDを領域aの“メッセージID記録領域”に記録し、ステップ341に移行する。
ステップ334) メッセージID記録部140は、ステップ331で領域aの“話題領域”にある話題について、“メッセージID記録領域”に当該話題のメッセージIDを追加し、ソートした後、ステップ341に移行する。
ステップ340:
ステップ341) 話題情報作成部130は、メモリ141の領域aの全ての話題のそれぞれについて、メッセージID記録領域にあるID数をカウントして、前述の方法により支持数を求め、メモリ141に話題語毎に格納する。
ステップ350:
ステップ351) 入力装置40から指定された全てのメッセージを処理したかを判定し、処理した場合にはステップ361に移行し、処理していない場合には、ステップ312に移行する。
ステップ360:
ステップ361) スコア計算部150は、ステップ341で求められ、メモリ141に格納された支持数や、読み込んだメッセージ数等を利用して、各話題のスコアを計算し、話題とスコアをメモリ151に格納する。
ステップ370:
ステップ371) 処理ID記録部210は、最後に読み出したメッセージIDを処理IDとしてメモリ211に記録する。
ステップ380:
ステップ381) 話題一覧処理部160は、所定の値以上のスコアを有する話題をメモリ151から抽出する。例えば、スコア0.8以上の全ての話題を抽出する。
ステップ382) 話題一覧作成部160は、ステップ381において話題として抽出された話題に基づいて、メモリ141の領域aのその話題の“メッセージID記録領域”からメッセージIDを取得する。
ステップ383) 話題一覧作成部160は、取得したメッセージIDに基づいてメッセージDB10から実メッセージを取得する。
ステップ384) メモリ141から取得した話題、メモリ151から取得したスコア、メモリ211から取得した処理ID、ステップ383で取得した実メッセージを用いて一覧ページを作成する。タイトルを付与する場合には、コミュニティ名をメッセージDB10から取得して利用する。
また、上記の第1〜第3の実施の形態における図3、図11、図16に示す話題抽出装置の各手段を、各記憶手段を有するコンピュータに実行させるプログラムとして構築するし、コンピュータにインストールして実行する、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムを話題抽出装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納して、配布することも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、掲示板システムやチャットシステムなどのコミュニケーションシステムに適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態における話題抽出装置の構成図である。 本発明の第1の実施の形態における話題抽出装置のフローチャートである。 本発明の第1の実施の形態におけるメッセージの例である。 本発明の第1の実施の形態におけるメッセージ分割の例である。 本発明の第1の実施の形態における領域aの格納例である。 本発明の第1の実施の形態における話題一覧の例である。 本発明の第1の実施の形態における多数のメッセージ中に話題が出現した場合を含んだ話題一覧の例である。 本発明の第1の実施の形態における話題抽出装置の詳細な動作のフローチャートである。 本発明の第2の実施の形態における話題抽出装置の構成図である。 本発明の第2の実施の形態における話題抽出装置のフローチャートである。 本発明の第2の実施の形態におけるメモリ上の話題と支持数記録の例である。 本発明の第2の実施の形態における話題一覧の例である。 本発明の第2の実施の形態における話題抽出装置の詳細な動作のフローチャートである。 本発明の第3の実施の形態における話題抽出装置の構成図である。 本発明の第3の実施の形態における話題抽出装置のフローチャートである。 本発明の第3の実施の形態における話題一覧の例である。 本発明の第3の実施の形態における多数のメッセージ中に話題が出現した場合を含んで話題一覧の例である。 本発明の第3の実施の形態における話題抽出装置の詳細な動作のフローチャートである。
符号の説明
10 メッセージDB
20 話題一覧ページDB
30 表示装置
40 入力装置
100,200,300 話題抽出装置
110 メッセージ分割手段、メッセージ分割部
120 話題候補語抽出手段、話題候補語抽出部
130 話題情報作成手段、話題情報作成部
140 メッセージID記録手段、メッセージID記録部
141 メッセージID記憶手段、メモリ
150 スコア計算手段、スコア計算部
151 メモリ
160 話題一覧作成手段、話題一覧作成部
210 処理ID記録部
211 メモリ

Claims (8)

  1. 入力されたメッセージのリストから話題を抽出するメッセージ分割手段、話題候補語抽出手段、話題情報作成手段、スコア計算手段、メッセージID記録手段、メッセージID記憶手段、話題一覧作成手段を有する話題抽出装置における話題抽出方法であって、
    前記メッセージ分割手段において、前記入力されたメッセージを語に分解するメッセージ分割ステップと、
    前記話題候補語抽出手段において、前記メッセージ分割ステップで分割された語の列から予め与えられたパターンにマッチする語の列を話題として抽出する話題候補語抽出ステップと、
    前記メッセージID記録手段において、前記話題候補語抽出ステップで抽出された前記話題が出現した全てのメッセージIDをソートして、該話題と共に前記メッセージID記憶手段に記録するメッセージID記録ステップと、
    前記話題情報作成手段において、前記話題候補語抽出ステップで抽出された前記話題が出現したメッセージに後続するメッセージのうち、該話題を含むメッセージの数である支持数を求め、前記メッセージID記憶手段に格納する支持数算出ステップと、
    前記スコア計算手段において、前記メッセージID記憶手段から前記支持数を取得し、該支持数を分子の構成要素に持ち、前記後続するメッセージの数を分母の構成要素に持つ式により、前記話題のスコアを求めるスコア計算ステップと、
    前記話題一覧作成手段において、前記話題のスコア取得し、該スコアに基づいて話題を抽出し、抽出された該話題に対するメッセージIDを前記メッセージID記憶手段から取得し、該メッセージIDに基づいて、少なくともメッセージIDとメッセージの組を格納するメッセージ記憶手段を検索し、メッセージを取得し、少なくとも、該話題と該話題が出現するメッセージID及び該メッセージからなる一覧を作成する話題一覧作成ステップと、
    を行うことを特徴とする話題抽出方法。
  2. 入力されたメッセージのリストから話題を抽出するメッセージ分割手段、話題候補語抽出手段、話題情報作成手段、支持数記憶手段、スコア計算手段、処理ID記録手段、処理ID記憶手段、話題一覧作成手段を有する話題抽出装置における話題抽出方法であって、
    前記メッセージ分割手段において、前記入力されたメッセージを語に分解するメッセージ分割ステップと、
    前記話題候補語抽出手段において、前記メッセージ分割ステップで分割された語の列から予め与えられたパターンにマッチする語の列を話題として抽出する話題候補語抽出ステップと、
    前記話題情報作成手段において、前記話題候補語抽出ステップで抽出された前記話題が出現したメッセージに後続するメッセージのうち、該話題を含むメッセージの数である支持数を求め、該話題と共に前記支持数記憶手段に格納する支持数算出ステップと、
    前記スコア計算手段において、前記支持数記憶手段から前記支持数を取得し、該支持数を分子の構成要素に持ち、前記後続するメッセージの数を分母の構成要素に持つ式により、前記話題のスコアを求めるスコア計算ステップと、
    前記処理ID記録手段において、前記スコア計算ステップを終了したメッセージIDを処理IDとして前記処理ID記憶手段に記録する処理ID記録ステップと、
    前記話題一覧作成手段において、前記話題のスコア取得し、該スコアに基づいて話題を抽出し、さらに、処理IDを前記処理ID記憶手段から取得し、少なくとも、抽出された該話題と該処理IDからなる一覧を作成する話題一覧作成ステップと、
    を行うことを特徴とする話題抽出方法。
  3. 入力されたメッセージのリストから話題を抽出するメッセージ分割手段、話題候補語抽出手段、話題情報作成手段、スコア計算手段、メッセージID記録手段、メッセージID記憶手段、処理ID記録手段、処理ID記憶手段、話題一覧作成手段を有する話題抽出装置における話題抽出方法であって、
    前記メッセージ分割手段において、前記入力されたメッセージを語に分解するメッセージ分割ステップと、
    前記話題候補語抽出手段において、前記メッセージ分割ステップで分割された語の列から予め与えられたパターンにマッチする語の列を話題として抽出する話題候補語抽出ステップと、
    前記メッセージID記録手段において、前記話題候補語抽出ステップで抽出された前記話題が出現した全てのメッセージIDをソートし、該話題と共に前記メッセージID記憶手段に記録するメッセージID記録ステップと、
    前記話題情報作成手段において、前記話題候補語抽出ステップで抽出された前記話題が出現したメッセージに後続するメッセージのうち、該話題を含むメッセージの数である支持数を求め、前記メッセージID記憶手段に格納する支持数算出ステップと、
    前記スコア計算手段において、前記メッセージID記憶手段から前記支持数を取得し、該支持数を分子の構成要素に持ち、前記後続するメッセージの数を分母の構成要素に持つ式により、前記話題のスコアを求めるスコア計算ステップと、
    前記処理ID記録手段において、前記スコア計算ステップが終了したメッセージIDを処理IDとして前記処理ID記憶手段に記録する処理ID記録ステップと、
    前記話題一覧作成手段において、前記話題のスコア取得し、該スコアに基づいて話題を抽出し、さらに、該話題に対するメッセージIDを前記メッセージID記憶手段から取得し、該メッセージIDに基づいて、少なくともメッセージIDとメッセージの組を格納するメッセージ記憶手段を検索し、メッセージを取得し、少なくとも、該話題が出現するメッセージID、該メッセージ及び、前記処理ID記憶手段から取得した処理IDからなる一覧を作成する話題一覧作成ステップと、
    を行うことを特徴とする話題抽出方法。
  4. 入力されたメッセージのリストから話題を抽出する話題抽出装置であって、
    少なくともメッセージIDとメッセージの組を格納するメッセージDBと、
    前記メッセージDBから読み込んだメッセージを語に分解するメッセージ分割手段と、
    前記メッセージ分割手段で分割された語の列から予め与えられたパターンにマッチする語の列を話題として抽出する話題候補語抽出手段と、
    前記話題候補語抽出手段で抽出された前記話題が出現した全てのメッセージIDをソートして該話題と共にメッセージID記憶手段に記録するメッセージID記録手段と、
    前記話題候補語抽出手段で抽出された前記話題が出現したメッセージに後続するメッセージのうち、該話題を含むメッセージの数である支持数を求め、前記メッセージID記憶手段に格納する話題情報作成手段と、
    前記メッセージID記憶手段から前記支持数を取得し、該支持数を分子の構成要素に持ち、前記後続するメッセージの数を分母の構成要素に持つ式により、前記話題のスコアを求めるスコア計算手段と、
    前記話題のスコアに基づいて話題を抽出し、該話題に対するメッセージIDを前記メッセージID記憶手段から取得し、該メッセージIDに基づいて、前記メッセージDBを検索し、メッセージを取得し、少なくとも、該話題と該話題が出現するメッセージID及び該メッセージからなる一覧を作成する話題一覧作成手段と、
    を有することを特徴とする話題抽出装置。
  5. 入力されたメッセージのリストから話題を抽出する話題抽出装置であって、
    少なくともメッセージIDとメッセージの組を格納するメッセージDBと、
    前記メッセージDBから読み込んだメッセージを語に分解するメッセージ分割手段と、
    前記メッセージ分割手段で分割された語の列から予め与えられたパターンにマッチする語の列を話題として抽出する話題候補語抽出手段と、
    前記話題候補語抽出手段で抽出された前記話題が出現したメッセージに後続するメッセージのうち、該話題を含むメッセージの数である支持数を求め、該話題と共に支持数を支持数記憶手段に格納する話題情報作成手段と、
    前記支持数記憶手段から前記支持数を取得し、該支持数を分子の構成要素に持ち、前記後続するメッセージの数を分母の構成要素に持つ式により、前記話題のスコアを求めるスコア計算手段と、
    前記スコア計算手段の処理を終了したメッセージIDを処理IDとして処理ID記憶手段に記録する処理ID記録手段と、
    前記話題のスコアに基づいて話題を抽出し、さらに、処理IDを前記処理ID記憶手段から取得し、少なくとも該話題と該処理IDからなる一覧を作成する話題一覧作成手段と、
    を有することを特徴とする話題抽出装置。
  6. 入力されたメッセージのリストから話題を抽出する話題抽出装置であって、
    少なくともメッセージIDとメッセージの組を格納するメッセージDBと、
    前記メッセージDBから読み込んだメッセージを語に分解するメッセージ分割手段と、
    前記メッセージ分割手段で分割された語の列から予め与えられたパターンにマッチする語の列を話題として抽出する話題候補語抽出手段と、
    前記話題候補語抽出手段で抽出された前記話題が出現した全てのメッセージIDをソートして、該話題と共にメッセージID記憶手段に記録するメッセージID記録手段と、
    前記話題候補語抽出手段で抽出された前記話題が出現したメッセージに後続するメッセージのうち、該話題を含むメッセージの数である支持数を求め、前記メッセージID記憶手段に格納する話題情報作成手段と、
    前記メッセージID記憶手段から前記支持数を取得し、該支持数を分子の構成要素に持ち、前記後続するメッセージの数を分母の構成要素に持つ式により、前記話題のスコアを求めるスコア計算手段と、
    前記スコア計算手段の処理が終了したメッセージIDを処理IDとして処理ID記憶手段に記録する処理ID記録手段と、
    前記話題のスコアに基づいて話題を抽出し、該話題に対するメッセージIDを前記メッセージID記憶手段から取得し、該メッセージIDに基づいて、前記メッセージDBを検索してメッセージを取得し、少なくとも、該話題が出現するメッセージID、該メッセージ、及び、前記処理ID記憶手段から取得した処理IDからなる一覧を作成する話題一覧作成手段と、
    を有することを特徴とする話題抽出装置。
  7. 入力されたメッセージのリストから話題を抽出する話題抽出プログラムであって、
    記憶手段上に、少なくともメッセージIDとメッセージの組を有するメッセージDB、話題とスコアを格納するメモリ、スコア算出処理が終了したメッセージIDを格納するメモリ、抽出された話題を含むメッセージIDを格納するメモリを有するコンピュータに、
    請求項4乃至6記載の各手段を実行させることを特徴とするプログラム。
  8. 入力されたメッセージのリストから話題を抽出する話題抽出プログラムを格納した記憶媒体であって、
    記憶手段上に、少なくともメッセージIDとメッセージの組を有するメッセージDB、話題とスコアを格納するメモリ、スコア算出処理が終了したメッセージIDを格納するメモリ、抽出された話題を含むメッセージIDを格納するメモリを有するコンピュータに、
    請求項4乃至6記載の各手段を実行させるプログラムを格納したことを特徴とする記憶媒体。
JP2005146687A 2005-05-19 2005-05-19 話題抽出方法及び装置及びプログラム及び記憶媒体 Pending JP2006323654A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005146687A JP2006323654A (ja) 2005-05-19 2005-05-19 話題抽出方法及び装置及びプログラム及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005146687A JP2006323654A (ja) 2005-05-19 2005-05-19 話題抽出方法及び装置及びプログラム及び記憶媒体

Publications (1)

Publication Number Publication Date
JP2006323654A true JP2006323654A (ja) 2006-11-30

Family

ID=37543281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005146687A Pending JP2006323654A (ja) 2005-05-19 2005-05-19 話題抽出方法及び装置及びプログラム及び記憶媒体

Country Status (1)

Country Link
JP (1) JP2006323654A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205864A (ja) * 2012-03-27 2013-10-07 Kddi Corp 話題語抽出装置、話題語抽出方法、およびプログラム
JP2021513127A (ja) * 2017-11-17 2021-05-20 Aホールディングス株式会社 会話の流れ情報を提供するためのコンピュータプログラム及びシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205864A (ja) * 2012-03-27 2013-10-07 Kddi Corp 話題語抽出装置、話題語抽出方法、およびプログラム
JP2021513127A (ja) * 2017-11-17 2021-05-20 Aホールディングス株式会社 会話の流れ情報を提供するためのコンピュータプログラム及びシステム
JP7053824B2 (ja) 2017-11-17 2022-04-12 Line株式会社 会話の流れ情報を提供するためのコンピュータプログラム及びシステム

Similar Documents

Publication Publication Date Title
JP4985974B2 (ja) コミュニケーション支援方法、システムおよびサーバ装置
Pavel et al. Sceneskim: Searching and browsing movies using synchronized captions, scripts and plot summaries
US8862473B2 (en) Comment recording apparatus, method, program, and storage medium that conduct a voice recognition process on voice data
CN102779114B (zh) 利用自动规则生成的非结构化数据支持
JP4215792B2 (ja) 会議支援装置、会議支援方法および会議支援プログラム
JP6165913B1 (ja) 情報処理装置、情報処理方法およびプログラム
CN108629548B (zh) 一种日程处理方法及装置
JP2011134334A (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
JP2015156099A (ja) 会議支援装置、会議支援装置の制御方法、及びプログラム
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
JPWO2009025193A1 (ja) 情報共有システム、情報共有方法、および情報共有プログラム
JP2009026108A (ja) 発想支援装置、発想支援システム、発想支援プログラム及び発想支援方法
RU2631164C2 (ru) Способ анимации sms-сообщений
JP6972935B2 (ja) 関連スコア算出システム、方法およびプログラム
JP7355244B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP5112027B2 (ja) 文書群提示装置および文書群提示プログラム
JP2011041164A (ja) 映像要約方法および映像要約プログラム
JP2010231526A (ja) 辞書構築装置、辞書構築方法および辞書構築用プログラム
JP2006323654A (ja) 話題抽出方法及び装置及びプログラム及び記憶媒体
CN104765830B (zh) 一种信息搜索方法及装置
JP3622711B2 (ja) 映像コンテンツ視聴者情報提供システム及び方法と、視聴者情報提供装置、プログラム及びプログラムの記録媒体
JP6988715B2 (ja) 回答文選択装置、方法、およびプログラム
JP6687078B2 (ja) 会議支援装置、会議支援装置の制御方法、及びプログラム
JP2007199876A (ja) 質問応答システム、質問応答処理方法及び質問応答プログラム
Akasaki et al. Early Discovery of Disappearing entities in microblogs