JP2008102645A - スレッド順位付け装置及びスレッド順位付け方法 - Google Patents

スレッド順位付け装置及びスレッド順位付け方法 Download PDF

Info

Publication number
JP2008102645A
JP2008102645A JP2006283278A JP2006283278A JP2008102645A JP 2008102645 A JP2008102645 A JP 2008102645A JP 2006283278 A JP2006283278 A JP 2006283278A JP 2006283278 A JP2006283278 A JP 2006283278A JP 2008102645 A JP2008102645 A JP 2008102645A
Authority
JP
Japan
Prior art keywords
thread
related expression
event
expression
information storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006283278A
Other languages
English (en)
Other versions
JP4247266B2 (ja
Inventor
Shigeaki Sakurai
茂明 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006283278A priority Critical patent/JP4247266B2/ja
Priority to US11/873,799 priority patent/US8161032B2/en
Publication of JP2008102645A publication Critical patent/JP2008102645A/ja
Application granted granted Critical
Publication of JP4247266B2 publication Critical patent/JP4247266B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Computer Hardware Design (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】利用者の興味に即して注目すべきスレッドを適切に抽出可能とする。
【解決手段】スレッド順位付け装置100は、掲示板サイトからスレッドを収集するスレッド収集部2と、収集されたスレッドを格納するスレッド情報格納部3と、イベント知識格納部5に格納されたイベント知識を用いて、スレッドからイベントを抽出するイベント抽出部4と、スレッド毎に、スレッドに含まれる表現の中から当該スレッドを特徴付ける関連表現を抽出する関連表現抽出部6と、所定のスレッドに対する評価の入力を促す情報を掲示板サイトの利用者に提示するとともに、利用者からの評価を入力する入出力制御部9と、その入力された各スレッドに対する評価に基づいて関連表現毎に重要度を算出する関連表現重要度算出部7と、抽出されたイベント及び関連表現毎の重要度に基づいてスレッドの順位を決定するスレッド順位付け部8と、を備える。
【選択図】図1

Description

本発明は、掲示板サイトにおける特定の話題に属する記事の集合(スレッド)の順位付けを行うスレッド順位付け装置及びスレッド順位付け方法に関する。
Web上には多数の掲示板サイトが存在しており、各サイトでは多数の議論がスレッドという形態で展開されている。これらスレッドの中には、例えば、企業活動にすら影響を与える大規模な議論へと発展する注目すべきスレッドが存在していることもある。しかしながら、これら注目すべきスレッドは、大多数の注目に値しないスレッドの中に埋もれてしまっている。このため、利用者の興味に即した注目すべきスレッドを抽出する技術が望まれている。
このような技術の一つとして特許文献1には、メールの送信頻度の上位にあるメールに含まれる単語の重みを修正することにより、利用者が興味を示した話題に含まれる単語の重みを修正する方法が提案されている。
特開2003−242176号公報
しかしながら、特許文献1に記載された技術は、利用者が興味を示していない話題に含まれる単語の重みを修正することができないばかりか、メールに記述される単語の種類が多くなるため、必ずしも単語の重みを妥当に修正しているとは言えなかった。従って、利用者の興味に即した話題を適切に抽出することができないという問題があった。
本発明は、利用者の興味に即してスレッドの順位付けをすることによって、注目すべきスレッドを適切に抽出可能とすることを目的とする。
上記課題を解決するため、本発明のスレッド順位付け装置は、利用者にとって関心のあるイベントをスレッドから抽出するための特徴表現であるイベント知識を格納するイベント知識格納手段と、通信ネットワーク上の掲示板サイトからスレッドを収集する収集手段と、前記収集手段により収集されたスレッドを格納するスレッド情報格納手段と、前記イベント知識格納手段に格納されたイベント知識を用いて、前記スレッド情報格納手段に格納されている各スレッドからイベントを抽出するイベント抽出手段と、前記スレッド情報格納手段の格納内容を参照することにより、スレッド毎に、スレッドに含まれる表現の中から当該スレッドを特徴付ける関連表現を抽出する関連表現抽出手段と、前記スレッド情報格納手段に格納された所定のスレッドに対する評価の入力を促すための情報を、前記掲示板サイトの利用者に提示する提示手段と、前記所定のスレッドに対する利用者の評価を入力する入力手段と、前記入力手段により入力された利用者の評価に基づいて関連表現毎に重要度を算出する関連表現重要度算出手段と、前記イベント抽出手段により抽出されたイベント及び前記関連表現重要度算出手段により算出された関連表現毎の重要度に基づいて、前記スレッド情報格納手段に格納された各スレッドの順位を決定するスレッド順位付け手段と、を備えることを特徴とする。
本発明のスレッド順位付け方法は、通信ネットワーク上の掲示板サイトからスレッドを収集し、前記収集されたスレッドをスレッド情報格納手段に格納し、利用者にとって関心のあるイベントをスレッドから抽出するための特徴表現であるイベント知識を用いて、前記スレッド情報格納手段に格納されている各スレッドからイベントを抽出し、前記スレッド情報格納手段の格納内容を参照することにより、スレッド毎に、スレッドに含まれる表現の中から当該スレッドを特徴付ける関連表現を抽出し、前記スレッド情報格納手段に格納された所定のスレッドに対する評価の入力を促すための情報を、前記掲示板サイトの利用者に提示し、前記所定のスレッドに対する利用者の評価を入力し、前記入力された利用者の評価に基づいて関連表現毎に重要度を算出し、前記抽出されたイベント及び前記算出された関連表現毎の重要度に基づいて、前記スレッド情報格納手段に格納された各スレッドの順位を決定することを特徴とする。
本発明によれば、利用者の興味に即してスレッドの順位付けをすることにより、注目に値するスレッドが適切に抽出可能となる。
以下、図面を参照して、本発明の実施形態を説明する。
まず、本実施形態における構成について説明する。
図1に、本発明の実施形態に係るスレッド順位付け装置100の構成を示す。スレッド順位付け装置100は、インターネット等の通信ネットワーク上に存在する掲示板サイト上の各スレッドを順位付けする装置であり、図1に示すように、収集時間制御部1、スレッド収集部2、スレッド情報格納部3、イベント抽出部4、イベント知識格納部5、関連表現抽出部6、関連表現重要度算出部7、スレッド順位付け部8、入出力制御部9により構成される。
収集時間制御部1は、通信ネットワーク上に存在する指定された掲示板サイトからスレッドを収集するタイミングを制御する。
スレッド収集部2は、収集時間制御部1によるスレッド収集開始指示に従って掲示板サイトからスレッドを収集する。
スレッド情報格納部3は、スレッド収集部2により収集されたスレッド、スレッドに含まれる記事に対する形態素解析結果、スレッド関連表現ベクトル(一つのスレッドに含まれる関連表現と、その関連表現を含む記事数を対にしたもの)、関連表現候補ベクトル(全スレッドに含まれる関連表現候補と、その関連表現候補を含む記事数を対にしたもの)、関連表現ベクトル(全スレッドに含まれる関連表現とその重要度を対にしたもの)、全スレッドの積算記事数等のデータを格納する。
イベント抽出部4は、イベント知識格納部5に格納されているイベント知識(後述)を、スレッドを構成する各記事の形態素解析結果に適用することにより、各記事に含まれるイベント(後述)を抽出する。
イベント知識格納部5は、利用者にとって関心のあるイベントをスレッドから抽出するための特徴表現であるイベント知識のデータを格納する。例えば、図12に示すように、「不満」というイベントの場合、「悪い」、「遅い」、「最低」というイベント表現がイベント知識としてイベント知識格納部5に格納されている。
関連表現抽出部6は、スレッド情報格納部3に格納されているスレッドを参照することにより、スレッド毎に、スレッドに含まれる表現の中から当該スレッドを特徴付ける関連表現を抽出する。
関連表現重要度算出部7は、入出力制御部9から入力されたスレッドに対する利用者の評価に基づいて関連表現の重要度を算出する。
スレッド順位付け部8は、イベント抽出部4によって抽出されたイベント及び関連表現重要度算出部7によって算出された重要度に基づいてスレッドの順位付けを行う。
入出力制御部9は、提示版サイトの利用者に提示するデータ(情報)の出力(提示手段)や、利用者の端末(例えば、PC(Personal Computer))から送信されたデータの入力(入力手段)を行う。
次に、本実施形態における動作について説明する。
まず、図2のフローチャートを参照して、スレッド順位付け装置100において実行される全体の処理の流れについて説明する。
まず、収集時間制御部1により、前回スレッドを収集した時刻と現在の時刻が比較され、スレッドの収集を開始するタイミングが判断される(ステップS1)。ステップS1において、前回の収集時刻と現在時刻の差が予め指定された閾値未満である場合、スレッド収集が待機状態となり(ステップS1;待機)、ステップS1の処理に戻る。一方、ステップS1において、前回の収集時刻と現在時刻の差が予め指定された閾値以上である場合、収集時間制御部1からスレッド収集部2に対しスレッドの収集開始が指示され(ステップS1;開始)、前回の収集時刻が現在の時刻へと更新され、ステップS2へ移行する。
スレッド収集部2では、収集時間制御部1からスレッド収集の開始が指示されると、処理対象としている掲示板サイトの中に未収集のスレッドが存在するか否かが判定される(ステップS2)。ステップS2において、未収集のスレッドが存在しないと判定された場合(ステップS2;NO)、ステップS10(後述)の処理へ移行する。
ステップS2において、未収集のスレッドが存在すると判定された場合(ステップS2;YES)、未収集のスレッドの中から一つのスレッドが選択される(ステップS3)。次いで、スレッド収集部2により、ステップS3で選択されたスレッドが収集され、スレッド情報格納部3に格納される(ステップS4)。具体的にステップS4では、ステップS3で選択されたスレッドに含まれる全ての記事が掲示板サイトからダウンロードされ、ダウンロードされた記事がスレッド情報格納部3に格納される。
次いで、イベント抽出部4により、ステップS3で選択されたスレッドに含まれる記事の中から、投稿者が記載した記事の本文部分が抽出される(ステップS5)。
次いで、イベント抽出部4において、ステップS5で抽出された記事の本文部分に対して形態素解析を実施することにより、記事の本文部分が単語に分割され、当該単語に対応する品詞の割り当てが行われ(ステップS6)、形態素解析された結果がスレッド情報格納部3に格納される。例えば、記事の本文が「CPUが非常に遅い。」である場合、「CPU〈英〉+が〈付〉/非常〈名〉+に〈付〉/遅い〈形〉/。〈句読〉/」といった形態素解析が実施され、スレッド情報格納部3に形態素解析結果が格納される。ここで、〈英〉は英数字、〈付〉は付属語、〈名〉は名詞、〈形〉は形容詞、〈句読〉は句読点を表す。
次いで、イベント抽出部4において、イベント知識格納部5に格納されているイベント知識を各記事の形態素解析結果に適用することにより、スレッドの各記事に含まれるイベントを抽出するイベント抽出処理が行われる(ステップS7)。ステップS7のイベント抽出処理については、後に図3を参照して詳細に説明する。
次いで、関連表現抽出部6により、スレッド情報格納部3に格納されている処理対象のスレッドから、当該スレッドを特徴付ける関連表現を抽出する関連表現抽出処理が行われる(ステップS8)。ステップS8の関連表現抽出処理については、後に図4を参照して詳細に説明する。
次いで、関連表現抽出部6により、ステップS8で抽出された関連表現が処理対象のスレッドにおいて出現する記事の記事数(頻度)が算出され(ステップS9)、ステップS8で抽出された関連表現と、ステップS9で算出された記事数を対にしたスレッド関連表現ベクトルが生成され、スレッド情報格納部3に格納される。例えば、スレッドt1から関連表現として「パソコン」、「CPU」が抽出され、それぞれの関連表現を含む記事数が10、12である場合、スレッドt1に対して図5に示すようなスレッド関連表現ベクトルが生成される。
収集された全てのスレッドについてステップS3〜S9の処理が終了し、未収集のスレッドがなくなると(ステップS2;NO)、関連表現重要度算出部7により、全スレッドにおける関連表現とその重要度の一覧を表す関連表現ベクトルが生成される(ステップS10)。具体的にステップS10では、ステップS8で抽出された関連表現が新規の関連表現であるか否かが判定され、新規の関連表現であると判定された場合に、関連表現ベクトルに当該新規の関連表現が追加されるとともに、当該関連表現の重要度が初期化される。
例えば、図6に示すように、関連表現として「パソコン」及び「デザイン」が関連表現ベクトルに既に登録され、ステップS8で関連表現として「パソコン」及び「CPU」が関連表現抽出部6によって抽出された場合、「CPU」が新規の関連表現として関連表現ベクトルに追加され、当該新規の関連表現の重要度に1(初期値)が設定される。この場合、図7に示すように関連表現ベクトルが更新される。
次いで、スレッド順位付け部8により、イベント抽出部4によって抽出されたイベントと、関連表現重要度算出部7によって算出された関連表現の重要度に基づいて、スレッド毎にスレッド重要度が算出され、スレッド重要度が高いスレッドが上位となるような順位付けが行われる(ステップS11)。式(1)にスレッド重要度の算出式を示す。
Figure 2008102645
ここで、イベント記事数は、処理対象のスレッドに対してイベント抽出部4によって抽出されたイベントを含む記事数、viはスレッドのi番目の関連表現の記事数、wkは関連表現ベクトルのk番目の関連表現の重要度、f(i)はスレッドのi番目の関連表現に対応する関連表現ベクトルの位置を指定する関数である。
例えば、二つのスレッドt1、t2の順位付けを行うものとする。このとき、スレッドt1に対して図5に示すスレッド関連表現ベクトルが生成され、スレッドt2に対して図8に示すスレッド関連表現ベクトルが生成されているとする。また、スレッドt1に対して「不満」に対応するイベント(図12参照)を含む記事数が20、スレッドt2に対して「不満」に対応するイベントを含む記事数が25であるものとし、図7に示す関連表現ベクトルが生成されているものとする。この場合、スレッドt1のスレッド重要度は、式(1)より6.67=20×[{10/(10+12)}×{1/(1+1+1)}+{12/(10+12)}×{1/(1+1+1)}]となり、スレッドt2のスレッド重要度は、8.33=25×[{11/(11+13)}×{1/(1+1+1)}+{13/(11+13)}×{1/(1+1+1)}]となる。よって、スレッドt2のスレッド重要度の数値が大きいため、スレッドt2に順位1位、スレッドt1に順位2位が与えられることになる。
各スレッドに順位が付与されると、入出力制御部9の制御により、上位のスレッド(例えば、1位〜5位までのスレッド)及びこれら各スレッドに対する評価の入力を促す画面が通信ネットワークを介して利用者端末に提示される(ステップS12)。
利用者によってステップS12で提示された各スレッドに対する評価が入力されていない間は、スレッド順位付け装置100は待機状態となる(ステップS13;NO)。入出力制御部9に、利用者による各スレッドに対する評価(「興味あり」、「興味なし」という評価)が入力されると(ステップS13;YES)、スレッド順位付け部8により、その入力された評価内容に基づいてスレッドの順位が更新され、入出力制御部9により、その更新された上位のスレッドを示した画面が利用者端末に提示される(ステップS14)。
ステップS14では、利用者が「興味あり」と評価したスレッドが上位スレッドに残される一方、利用者が「興味なし」と評価したスレッドが上位スレッドから削除され、削除されたスレッドに代わる次の順位のスレッドが提示される。例えば、入出力制御部9により、図9に示すように、上位5件のスレッド(スレッドタイトル)が提示されたとする。このとき、利用者が現在3位のスレッド(title 3)を「興味なし」と評価したとすると、現在3位のスレッドが削除される一方、現在4位、5位のスレッドがそれぞれ、3位、4位となり、現在6位のスレッドが新たな5位のスレッドとして提示される。このときの更新結果は図10のようになる。
スレッドの順位が更新されると、関連表現重要度算出部7により、入出力制御部9から入力されたスレッドに対する利用者の評価に基づいて関連表現の重要度が算出され(ステップS15)、スレッド順位付け装置100における全体の処理が終了する。具体的にステップS15では、関連表現重要度算出部7によって、入出力制御部9からスレッドの順位の更新結果が受け取られ、「興味あり」のスレッドに含まれる一方、「興味なし」のスレッドに含まれない関連表現が抽出され、その重要度が加算される。また、「興味なし」のスレッドに含まれる一方、「興味あり」のスレッドに含まれない関連表現が抽出され、その重要度が減算される。
例えば、「興味あり」のスレッドに対応する関連表現として、「パソコン」、「CPU」が与えられており、「興味なし」のスレッドに対応する関連表現として、「パソコン」、「デザイン」が与えられているとする。また、各関連表現の重要度が図7に示すように与えられているとする。このとき、関連表現「CPU」の重要度に1が加算され、関連表現「デザイン」の重要度から1が減算される。このとき、各関連表現の重要度は図11に示すように更新される。
このような重要度の更新に対応して、次回のスレッドの順位付けにおいてスレッド順位が変更されることとなる。例えば、各関連表現の重要度が図11のように与えられ、各スレッドのイベント抽出処理(ステップS7)において「不満」に対応するイベント(図12参照)のみが抽出されている場合、スレッド順位付け装置100は、次回のスレッドの順位付けにおいて、「デザイン」に関する不満に利用者は興味がないという利用者の意図を把握し、「デザイン」に関する不満を含むスレッドを上位に位置付けないようにすることができる。また、当初は「デザイン」に関する議論が行われていたスレッドが「CPU」に関する不満に議論が変遷した場合には、次回、「CPU」に関する不満を含むスレッドを上位に位置付けることができる。
次に、図3のフローチャートを参照して、イベント抽出部4において実行されるイベント抽出処理(図2のステップS7)について詳細に説明する。
まず、スレッドを構成する記事の中から未処理の記事があるか否かが判定される(ステップS20)。ステップS20において未処理の記事が存在しないと判定された場合(ステップS20;NO)、本イベント抽出処理が終了する。ステップS20において未処理の記事があると判定された場合(ステップS20;YES)、処理対象の記事が一つ取り出される(ステップS21)。
次いで、イベント知識格納部5を参照することにより、ステップS21で取り出された記事に対して未抽出のイベントがあるか否かが判定される(ステップS22)。ステップS22において未抽出のイベントが存在しないと判定された場合(ステップS22;NO)、ステップS20に戻り、未抽出のイベントがあると判定された場合(ステップS22;YES)、未抽出のイベントが一つ選択される(ステップS23)。
例えば、イベント知識格納部5に、不満イベントに関する知識のみが格納されているとする。このとき、ステップS21で取り出された記事に対する1回目のステップS22の処理では、未抽出のイベントがあると判定され、ステップS23において不満イベントが選択される。一方、2回目のステップS22の処理では、未抽出のイベントは存在しないと判定されるため、当該記事に対するイベント抽出が終了し、ステップS20に戻る。
ステップS23の次に、イベント知識格納部5に格納されているイベント毎の知識を参照することにより、ステップS21で取り出された記事に、ステップS23で選択されたイベントが含まれているか否かが判定される(ステップS24)。
ステップS24においてイベントが含まれていないと判定された場合(ステップS24;NO)、ステップS22に戻る。一方、ステップS24においてイベントが含まれていると判定された場合(ステップS24;YES)、ステップS21で取り出された記事に対してステップS23で選択されたイベントが設定されるとともに(ステップS25)、現在、処理対象のスレッドにおける当該イベントを含む記事数に1が加算され、ステップS22に戻る。
例えば、イベント知識格納部5に、図12に示すような不満イベントに関する知識が記述されているとする。このとき図12で示されるイベント表現が、形態素解析された記事の本文に含まれている場合に、当該イベントを含んでいると判定される。例えば、形態素解析された記事の本文が「CPU〈英〉+が〈付〉/非常〈名〉+に〈付〉/遅い〈形〉/。〈句読〉/」であるとすれば、図12に示す不満イベントに対応するイベント表現に「遅い」を含んでいるので、当該記事は不満イベントを含んでいると判定される。
このようなイベント抽出処理を行うことにより、スレッドが含むイベントを、そのイベントを含む記事数とともに得ることができる。
次に、図4のフローチャートを参照して、関連表現抽出部6において実行される関連表現抽出処理(図2のステップS8)について詳細に説明する。
まず、処理対象のスレッドに含まれる記事の本文を形態素解析した結果をまとめたスレッド形態素解析集合から、予め指定された品詞を有する表現のうち未処理のものが存在するか否かが判定される(ステップS30)。
ステップS30において未処理の表現が存在しないと判定された場合(ステップS30;NO)、本関連表現抽出処理が終了する。一方、ステップS30において未処理の表現があると判定された場合(ステップS30;YES)、当該未処理の表現が関連表現候補として抽出される(ステップS31)。
例えば、英数字からなる単語を意味する「〈英〉」が品詞として指定されており、スレッドに「CPU〈英〉+が〈付〉/非常〈名〉+に〈付〉/遅い〈形〉/。〈句読〉/」という記事が含まれている場合、ステップS31では、関連表現候補として「CPU」が抽出される。
次いで、スレッド情報格納部3に格納されたスレッド形態素解析集合に、ステップS31で抽出された関連表現候補を適用することにより、当該関連表現候補が処理対象のスレッドに含まれる記事数、即ち、当該関連表現候補が出現する頻度が算出される(ステップS32)。
次いで、スレッド情報格納部3に格納された全スレッドの関連表現候補及びその記事数を対にした関連表現候補ベクトルが検査され、ステップS31で抽出された関連表現候補について、ステップS32で算出された記事数が関連表現候補ベクトルに追加又は加算される(ステップS33)。ここで、関連表現候補ベクトルは、図5に示すスレッド関連表現ベクトルと同様なデータ構造にてスレッド情報格納部3に格納されているとする。
ステップS33では、ステップS31で抽出された関連表現候補が新規の関連表現候補であるか否かが判定され、新規の関連表現候補であると判定された場合には、当該新規の関連表現候補及びその記事数が関連表現候補ベクトルに追加される。一方、ステップS31で抽出された関連表現候補が関連表現候補ベクトルに既に存在すると判定された場合には、関連表現候補ベクトルに、当該関連表現候補の記事数が加算される。加えて、スレッド情報格納部3に格納されている全スレッドの積算記事数に当該スレッドに含まれる記事数が加算される。
次いで、全スレッドの積算記事数が予め指定された閾値以上であるか否かが判定される(ステップS34)。ステップS34において積算記事数が予め指定された閾値未満であると判定された場合(ステップS34;NO)、ステップS30に戻り、当該積算記事数が閾値以上であると判定された場合(ステップS34;YES)、ステップS35へ移行する。
例えば、現在、スレッド情報格納部3に格納された全スレッドの積算記事数が900件で、予め指定された閾値となる記事数が1000件である場合、処理対象のスレッドに90件の記事が含まれていれば、ステップS30へ戻り、当該スレッドに100件の記事が含まれていれば、ステップS35へ移行することとなる。
ステップS35では、関連表現候補ベクトルと、処理対象のスレッドに対して算出された関連表現候補とその記事数を解析することにより、当該スレッドの関連表現候補に対する評価値が算出される。評価値の算出式を式(2)に示す。
Figure 2008102645
例えば、関連表現候補ベクトルが図13に示すように与えられ、処理対象のスレッドの関連表現候補とその記事数が図14に示すように与えられているとする。この場合、関連表現候補「パソコン」、「CPU」、「問題」に対応する評価値は、それぞれ0.4(=10/25)、0.8(=12/15)、0.1(=10/100)と与えられる。
次いで、ステップS35で算出された関連表現候補に対応する評価値が予め指定された閾値以上であるか否かが判定される(ステップS36)。ステップS36において関連表現候補に対応する評価値が予め指定された閾値未満であると判定された場合(ステップS36;NO)、ステップS30に戻り、当該評価値が閾値以上であると判定された場合(ステップS36;YES)、ステップS37へ移行する。
例えば、ステップS36において予め指定された閾値が0.4であるものとし、図14に示す関連表現候補のうち「問題」について処理している場合、評価値が閾値より小さいため、ステップS30に戻る。一方、関連表現候補「パソコン」、「CPU」について処理している場合、双方とも評価値が閾値以上であるため、ステップS37へ移行することとなる。
ステップS37では、評価値が閾値以上の関連表現候補が関連表現として、当該関連表現を含む記事数とともに、スレッド情報格納部3に格納される。例えば、図14に示す関連表現候補に対して、図5に示す関連表現とその記事数がスレッド情報格納部3に格納される。このような処理を実施することにより、スレッド毎に関連表現とその記事数を抽出することができる。
以上のように、本実施形態のスレッド順位付け装置100によれば、イベント抽出及び関連表現抽出によりスレッドを特徴付け、利用者の評価に基づいてスレッドの順位を決定することにより、スレッドの内容の変遷を考慮して、利用者の興味に合うスレッドを上位に位置付けることができる。
従って、現時点において利用者の興味に合わないスレッドが、次の時点において上位に順位付けられないようにする一方、時間の経過に伴って当該スレッドにおける議論が利用者の興味に合う内容に変遷した場合に、当該スレッドを上位に順位付けることができる。このため、利用者が一旦不要と判断したスレッドが興味のあるスレッドに変化したとしても、利用者にとって興味のあるスレッドを見逃すことなくスレッドを利用者に提示することができる。
なお、本実施形態における記述内容は、本発明の趣旨を逸脱しない範囲で適宜変更可能である。
例えば、本実施形態では、スレッド順位付け部8において、一つのイベントと関連表現ベクトルとの組み合わせにより、スレッドの順位付けを行うようにしているが、複数のイベントと関連表現ベクトルを組み合わせて順位付けを行うようにしてもよい。このとき、各々のイベントに重み付け(学習効果による重み付け又は予め指定された重み付け)をして式(1)のスレッド重要度を算出するのが好ましい。また、掲示板サイトの利用者に応じてスレッド重要度を算出する際の重み付けを変えるようにしてもよい。
また、本実施形態では、イベント抽出部4において、イベントの特徴表現をイベント知識としてイベント知識格納部5に格納しておき、当該イベント知識がスレッドを構成する記事の本文に含まれるか否かに従ってイベントの有無を判定しているが、下記の文献に記載の方法を利用してイベントの有無を判定することもできる。
櫻井茂明、折原良平:「掲示板サイトからの評判イベントの抽出」、Webインテリジェンスとインタラクション研究会第3回研究会予稿集、p41−46(2005−09)。
この場合、記事とイベントの有無とを指定したデータを対とする学習データを利用することにより、SVM(Support Vector Machine)によって学習した分類モデルをイベント知識格納部5に格納する知識として帰納学習し、記事を当該の分類モデルに適用することにより、イベントの有無を判定する。
また、本実施形態では、関連表現抽出部6において、関連表現候補として特定の品詞を有する表現をスレッド形態素解析集合から抽出するようにしたが、特定の品詞列を有する表現をスレッド形態素解析集合から抽出するようにしてもよい。
また、本実施形態では、関連表現抽出部6において、スレッドに含まれる全ての記事を対象として関連表現を含む記事数を算出するようにしたが、特定のイベントに含まれる記事毎に記事を分類し、特定のイベントを含む記事毎に評価値を算出して関連表現を抽出するようにしてもよい。
更に、本実施形態では、関連表現重要度算出部7において、利用者にとって興味のあるスレッドに含まれ、興味がないスレッドに含まれない関連表現の重要度に1を加算し、利用者にとって興味がないスレッドに含まれ、興味があるレッドに含まれない関連表現の重要度から1を減算することにより重要度を更新するようにした。この方法の代わりに、利用者にとって興味のあるスレッドに含まれる関連表現と、興味がないスレッドに含まれる関連表現の差分を計算し、その差分を重要度の更新に利用するようにしてもよい。
本発明の実施形態に係るスレッド順位付け装置の構成を示すブロック図。 本実施形態に係るスレッド順位付け装置において実行される全体の処理の流れを示すフローチャート。 図2のステップS7に示したイベント抽出処理の詳細を示すフローチャート。 図2のステップS8に示した関連表現抽出処理の詳細を示すフローチャート。 スレッド関連表現ベクトルの一例を示す図。 スレッド情報格納部に格納された関連表現ベクトルの一例を示す図。 図6の関連表現ベクトルに新規の関連表現「CPU」が追加された場合の関連表現ベクトルを示す図。 スレッド情報格納部に格納されたスレッド関連表現ベクトルの一例を示す図。 スレッドタイトルとその順位との関係を示す図。 図9に示された各スレッドの順位が利用者の評価によって変更された例を示す図。 図7の関連表現ベクトルを更新した関連表現ベクトルの一例を示す図。 イベント知識格納部に格納されたイベント知識の一例を示す図。 スレッド情報格納部に格納された関連表現候補ベクトルの一例を示す図。 特定のスレッドから抽出された関連表現候補とその関連表現候補を含む記事数との関係を示す図。
符号の説明
1 収集時間制御部
2 スレッド収集部
3 スレッド情報格納部
4 イベント抽出部
5 イベント知識格納部
6 関連表現抽出部
7 関連表現重要度算出部
8 スレッド順位付け部
9 入出力制御部
100 スレッド順位付け装置

Claims (15)

  1. 利用者にとって関心のあるイベントをスレッドから抽出するための特徴表現であるイベント知識を格納するイベント知識格納手段と、
    通信ネットワーク上の掲示板サイトからスレッドを収集する収集手段と、
    前記収集手段により収集されたスレッドを格納するスレッド情報格納手段と、
    前記イベント知識格納手段に格納されたイベント知識を用いて、前記スレッド情報格納手段に格納されている各スレッドからイベントを抽出するイベント抽出手段と、
    前記スレッド情報格納手段の格納内容を参照することにより、スレッド毎に、スレッドに含まれる表現の中から当該スレッドを特徴付ける関連表現を抽出する関連表現抽出手段と、
    前記スレッド情報格納手段に格納された所定のスレッドに対する評価の入力を促すための情報を、前記掲示板サイトの利用者に提示する提示手段と、
    前記所定のスレッドに対する利用者の評価を入力する入力手段と、
    前記入力手段により入力された利用者の評価に基づいて関連表現毎に重要度を算出する関連表現重要度算出手段と、
    前記イベント抽出手段により抽出されたイベント及び前記関連表現重要度算出手段により算出された関連表現毎の重要度に基づいて、前記スレッド情報格納手段に格納された各スレッドの順位を決定するスレッド順位付け手段と、
    を備えることを特徴とするスレッド順位付け装置。
  2. 前記イベント抽出手段は、スレッドを構成する記事の本文に対して形態素解析を行い、当該形態素解析された記事の本文に、前記イベント知識格納手段に格納されたイベント知識で示される表現が含まれている場合に、当該イベント知識に対応するイベントを抽出することを特徴とする請求項1に記載のスレッド順位付け装置。
  3. 前記関連表現抽出手段は、処理対象のスレッドから所定の特徴を有する表現を関連表現候補として抽出し、当該スレッドにおける前記関連表現候補を含む記事数と、前記スレッド情報格納手段に格納された全スレッドにおける前記関連表現候補を含む記事数とを比較し、その比較結果に基づいて前記関連表現候補から関連表現を抽出することを特徴とする請求項1又は2に記載のスレッド順位付け装置。
  4. 前記関連表現抽出手段は、前記スレッド情報格納手段に格納された全スレッドにおける前記関連表現候補を含む記事数に対する、前記処理対象のスレッドにおける前記関連表現候補を含む記事数の割合を、関連表現を抽出するための評価値として算出し、当該評価値が予め指定された閾値以上である場合に、前記関連表現候補を関連表現として抽出することを特徴とする請求項3に記載のスレッド順位付け装置。
  5. 前記関連表現抽出手段は、前記スレッド情報格納手段に格納された全スレッドの積算記事数が予め指定された閾値以上である場合に前記評価値を算出することを特徴とする請求項4に記載のスレッド順位付け装置。
  6. 前記提示手段は、前記スレッド情報格納手段に格納されたスレッドのうち、現時点で上位所定数のスレッドに対する評価の入力を促すための情報を提示することを特徴とする請求項1乃至5の何れか一項に記載のスレッド順位付け装置。
  7. 前記スレッド順位付け手段は、スレッド毎に、スレッドに含まれるイベントの記事数と、当該スレッドに含まれる関連表現毎の記事数と、前記関連表現重要度算出手段により算出された関連表現毎の重要度に基づいて当該スレッドの重要度を算出し、スレッド毎に算出された重要度に基づいて各スレッドの順位を決定することを特徴とする請求項1乃至6の何れか一項に記載のスレッド順位付け装置。
  8. 前記収集手段、前記スレッド情報格納手段、前記イベント抽出手段、前記関連表現抽出手段、前記提示手段、前記入力手段、前記関連表現重要度算出手段、前記スレッド順位付け手段における各処理を所定のタイミングで繰り返すことを特徴とする請求項1乃至7の何れか一項に記載のスレッド順位付け装置。
  9. 通信ネットワーク上の掲示板サイトからスレッドを収集し、
    前記収集されたスレッドをスレッド情報格納手段に格納し、
    利用者にとって関心のあるイベントをスレッドから抽出するための特徴表現であるイベント知識を用いて、前記スレッド情報格納手段に格納されている各スレッドからイベントを抽出し、
    前記スレッド情報格納手段の格納内容を参照することにより、スレッド毎に、スレッドに含まれる表現の中から当該スレッドを特徴付ける関連表現を抽出し、
    前記スレッド情報格納手段に格納された所定のスレッドに対する評価の入力を促すための情報を、前記掲示板サイトの利用者に提示し、
    前記所定のスレッドに対する利用者の評価を入力し、
    前記入力された利用者の評価に基づいて関連表現毎に重要度を算出し、
    前記抽出されたイベント及び前記算出された関連表現毎の重要度に基づいて、前記スレッド情報格納手段に格納された各スレッドの順位を決定することを特徴とするスレッド順位付け方法。
  10. 前記イベントを抽出することは、スレッドを構成する記事の本文に対して形態素解析を行い、当該形態素解析された記事の本文に、前記イベント知識で示される表現が含まれている場合に、当該イベント知識に対応するイベントを抽出することであることを特徴とする請求項9に記載のスレッド順位付け方法。
  11. 前記関連表現を抽出することは、処理対象のスレッドから所定の特徴を有する表現を関連表現候補として抽出し、当該スレッドにおける前記関連表現候補を含む記事数と、前記スレッド情報格納手段に格納された全スレッドにおける前記関連表現候補を含む記事数とを比較し、その比較結果に基づいて前記関連表現候補から関連表現を抽出することであることを特徴とする請求項9又は10に記載のスレッド順位付け方法。
  12. 前記関連表現を抽出することは、前記スレッド情報格納手段に格納された全スレッドにおける前記関連表現候補を含む記事数に対する、前記処理対象のスレッドにおける前記関連表現候補を含む記事数の割合を、関連表現を抽出するための評価値として算出し、当該評価値が予め指定された閾値以上である場合に、前記関連表現候補を関連表現として抽出することであることを特徴とする請求項11に記載のスレッド順位付け方法。
  13. 前記評価値を算出することは、前記スレッド情報格納手段に格納された全スレッドの積算記事数が予め指定された閾値以上である場合に前記評価値を算出することであることを特徴とする請求項12に記載のスレッド順位付け方法。
  14. 前記所定のスレッドに対する評価の入力を促すための情報を提示することは、前記スレッド情報格納手段に格納されたスレッドのうち、現時点で上位所定数のスレッドに対する評価の入力を促すための情報を提示することであることを特徴とする請求項9乃至13の何れか一項に記載のスレッド順位付け方法。
  15. 前記各スレッドの順位を決定することは、スレッド毎に、スレッドに含まれるイベントの記事数と、当該スレッドに含まれる関連表現毎の記事数と、前記算出された関連表現毎の重要度に基づいて当該スレッドの重要度を算出し、スレッド毎に算出された重要度に基づいて各スレッドの順位を決定することであることを特徴とする請求項9乃至14の何れか一項に記載のスレッド順位付け方法。
JP2006283278A 2006-10-18 2006-10-18 スレッド順位付け装置及びスレッド順位付け方法 Expired - Fee Related JP4247266B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006283278A JP4247266B2 (ja) 2006-10-18 2006-10-18 スレッド順位付け装置及びスレッド順位付け方法
US11/873,799 US8161032B2 (en) 2006-10-18 2007-10-17 Thread ranking system and thread ranking method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006283278A JP4247266B2 (ja) 2006-10-18 2006-10-18 スレッド順位付け装置及びスレッド順位付け方法

Publications (2)

Publication Number Publication Date
JP2008102645A true JP2008102645A (ja) 2008-05-01
JP4247266B2 JP4247266B2 (ja) 2009-04-02

Family

ID=39319553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006283278A Expired - Fee Related JP4247266B2 (ja) 2006-10-18 2006-10-18 スレッド順位付け装置及びスレッド順位付け方法

Country Status (2)

Country Link
US (1) US8161032B2 (ja)
JP (1) JP4247266B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013242618A (ja) * 2012-05-17 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> イベント抽出装置及び方法及びプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026120A (ja) * 2007-07-20 2009-02-05 Toshiba Corp 情報処理装置、方法及びプログラム
US9305085B2 (en) 2013-11-26 2016-04-05 International Business Machines Corporation Online thread retrieval using thread structure and query subjectivity
KR20160071782A (ko) * 2014-12-12 2016-06-22 삼성전자주식회사 멀티 스레드를 처리하는 방법 및 장치
CN106445999A (zh) * 2016-07-27 2017-02-22 天津海量信息技术股份有限公司 一种基于事件要素的事件抽取方法及系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981630A (ja) 1995-09-13 1997-03-28 Toshiba Corp 評価機能付き情報提供システム
JP2002082981A (ja) 2000-09-08 2002-03-22 Fuji Xerox Co Ltd プロファイル管理装置
US7814043B2 (en) * 2001-11-26 2010-10-12 Fujitsu Limited Content information analyzing method and apparatus
JP2003242176A (ja) 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
US20050144162A1 (en) * 2003-12-29 2005-06-30 Ping Liang Advanced search, file system, and intelligent assistant agent
US7761447B2 (en) * 2004-04-08 2010-07-20 Microsoft Corporation Systems and methods that rank search results
JP4398777B2 (ja) 2004-04-28 2010-01-13 株式会社東芝 時系列データ分析装置および方法
US20060026593A1 (en) * 2004-07-30 2006-02-02 Microsoft Corporation Categorizing, voting and rating community threads
JP4127265B2 (ja) 2004-12-17 2008-07-30 日本電気株式会社 電子掲示板システムおよび電子掲示板システムを構築するプログラムを記録した記録媒体
JP4772378B2 (ja) 2005-05-26 2011-09-14 株式会社東芝 Webページから時系列データを生成する方法及び装置
JP5016832B2 (ja) 2006-03-27 2012-09-05 株式会社東芝 不揮発性半導体記憶装置及びその製造方法
JP4322887B2 (ja) * 2006-06-01 2009-09-02 株式会社東芝 スレッド順位付け装置及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013242618A (ja) * 2012-05-17 2013-12-05 Nippon Telegr & Teleph Corp <Ntt> イベント抽出装置及び方法及びプログラム

Also Published As

Publication number Publication date
US20080098399A1 (en) 2008-04-24
JP4247266B2 (ja) 2009-04-02
US8161032B2 (en) 2012-04-17

Similar Documents

Publication Publication Date Title
US7809664B2 (en) Automated learning from a question and answering network of humans
CN106383875B (zh) 基于人工智能的人机交互方法和装置
JP5212610B2 (ja) 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム並びに、代表画像又は代表画像群の選択システム、その方法およびそのプログラム
US7743054B2 (en) Information retrieval system
CN106227714A (zh) 一种基于人工智能的获取生成诗词的关键词的方法和装置
JP4247266B2 (ja) スレッド順位付け装置及びスレッド順位付け方法
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
JP5827874B2 (ja) キーワード取得装置、コンテンツ提供システム、キーワード取得方法、プログラム及びコンテンツ提供方法
CN108027824B (zh) 未来脚本生成装置和方法、以及计算机可读存储介质
JP5895777B2 (ja) 情報分類プログラム及び情報処理装置
JP2010146366A (ja) 情報提供サーバ
JP2021092925A (ja) データ生成装置およびデータ生成方法
CN112712056A (zh) 视频语义分析方法、装置、存储介质及电子设备
CN117540703A (zh) 文本生成方法、模型训练方法、装置及电子设备
JP2005258659A (ja) メタデータ生成装置
JP2007257369A (ja) 情報検索装置
CN110442759B (zh) 一种知识检索方法及其系统、计算机设备和可读存储介质
KR102279125B1 (ko) 취향필터에 기반한 추천 정보 제공 단말 및 장치
CN106446198A (zh) 基于人工智能的新闻推荐方法及装置
JP6676698B2 (ja) 予約語及び属性言語間の関連度を用いた情報検索方法及び装置
CN115130453A (zh) 互动信息生成方法和装置
JP2005301432A (ja) 最新情報提供方法及びシステム及びプログラム
JP2008040985A (ja) 文書情報抽出装置
JP5769648B2 (ja) 関連語取得装置及び関連語取得方法
JP2005234772A (ja) 文書管理装置および方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140116

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees