JP6027781B2 - 用語抽出装置、用語抽出方法およびプログラム - Google Patents

用語抽出装置、用語抽出方法およびプログラム Download PDF

Info

Publication number
JP6027781B2
JP6027781B2 JP2012133814A JP2012133814A JP6027781B2 JP 6027781 B2 JP6027781 B2 JP 6027781B2 JP 2012133814 A JP2012133814 A JP 2012133814A JP 2012133814 A JP2012133814 A JP 2012133814A JP 6027781 B2 JP6027781 B2 JP 6027781B2
Authority
JP
Japan
Prior art keywords
term
unit
terms
document
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012133814A
Other languages
English (en)
Other versions
JP2013257765A (ja
Inventor
智道 高山
智道 高山
高志 末永
高志 末永
慎也 本島
慎也 本島
英輔 小川
英輔 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2012133814A priority Critical patent/JP6027781B2/ja
Publication of JP2013257765A publication Critical patent/JP2013257765A/ja
Application granted granted Critical
Publication of JP6027781B2 publication Critical patent/JP6027781B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書から用語を抽出する用語抽出装置、用語抽出方法およびプログラムに関する。
複数の文書データを解析し、話題になっている用語を抽出する用語抽出技術が幾つか提案されている。例えば、特許文献1に記載の情報抽出装置では、文書を当該文書の更新日時に関する情報とともに保持する文書データベースと、文書データベースに保持された複数の文書に含まれる特定の語句の時間的な分布を文書の更新日時に基づいて検出して、分布の強度が高い語句を話題語句として抽出する話題語句抽出手段と、話題語句と同一文書に含まれる他の語句をカテゴリ語句として抽出する話題カテゴリ抽出手段と、話題語句をカテゴリ語句を用いて分類して管理する話題管理手段と、を備える。ここで、分布の強度の高い語句とは、分布している時間範囲に対する分布中のピークの度合いが高い語句のことをいい、例えば、短い時間範囲に分布している語句、分布中のピークが突出している語句等がある、とされている。
これにより、特許文献1に記載の情報抽出装置では、複数の文書から話題を抽出するだけでなく、更に、話題をより有効的に利用するための種々の情報を抽出することができる、とされている。
特開平10−340175号公報
従来の用語抽出技術は、既に話題になっている用語を抽出するためのものである。例えば、特許文献1において、情報抽出装置が抽出する分布強度が高い語句は、話題性の高い語句とみなすることができる、とされている。すなわち、特許文献1に記載の情報抽出装置は、既に話題性の高くなっている語句(用語)を抽出することを目的として、分布強度が高い語句を抽出している。
一方、相談対応や苦情対応など、話題になると予測される用語を予め取得したい場合がある。例えば、相談対応や苦情対応の担当者が、コールセンター等に寄せられた相談や苦情などのデータから、既に話題になっている用語を取得して、相談や苦情に関連する事象を把握し対応したのでは、当該事象が既に拡大しており対応が後手に回ってしまうおそれがある。事象が拡大する前に対応するために、相談対応や苦情対応の担当者は、話題になると予測される用語を予め取得して対応することを求められる。
しかしながら、従来の用語抽出技術では、話題になると予測される用語を予め抽出することはできない。
本発明は、このような事情を考慮してなされたものであり、その目的は、話題になると予測される用語を予め抽出することのできる用語抽出装置、用語抽出方法およびプログラムを提供することにある。
この発明は上述した課題を解決するためになされたもので、本発明の一態様による用語抽出装置は、文書と当該文書の発生タイミングを示す情報とを電子データにて取得する文書取得部と、前記文取得部が取得した複数の文書に対して形態素解析を行って用語を抽出する用語抽出部と、前記用語抽出部が抽出した用語の各々について、前記複数の文書のうち前記発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、前記複数の文書のうち前記発生タイミングが前記単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いが大きい順の順位を求め、少なくとも、最新の単位期間における前記順位の対数と、前記最新の単位期間よりも過去の単位期間における前記順位の対数とに基づいて、当該用語の出現頻度の増加傾向の評価値を求め、得られた評価値に基づいて用語を選択する評価部と、を具備することを特徴とする。
また、本発明の一態様による用語抽出装置は、上述の用語抽出装置であって、前記評価部は、最新の単位期間に発生した文書において初めて出現した用語である初出用語を検出することを特徴とする。
また、本発明の一態様による用語抽出装置は、上述の用語抽出装置であって、前記評価部は、最新の単位期間以前の期間に発生した文書において一定条件以上出現している用語であるコンスタント出現用語を検出することを特徴とする。
また、本発明の一態様による用語抽出装置は、上述の用語抽出装置であって、前記用語抽出部が抽出した用語同士の類似度を、2つの前記用語の組み合わせの各々について算出し、得られた類似度に基づいて前記用語をグループ内での順序のあるグループに分ける表記ゆれ統合部であって、2つのグループを結合する場合、結合される2つのグループの一方である第一グループの末尾に、結合される2つのグループのもう一方である第二グループを結合する方法、前記第一グループにおける用語の並び順を逆にした末尾に、前記第二グループを結合する方法、及び、前記第一グループの末尾に、前記第二グループにおける用語の並び順を逆にして結合する方法のうち、前記第一グループに属する用語と前記第二グループに属する用語との2つの用語の全ての組み合わせのうちで類似度が最も高い2つの用語が最も近くに配置される方法で結合する表記ゆれ統合部を具備し、前記評価部は、前記用語の出現頻度の増加傾向が強いほど大きい値を示すスコアを前記評価値として算出し、前記表記ゆれ統合部がグループ分けした各グループについて、当該グループに含まれる用語のスコアを合計してグループのスコアを算出することを特徴とする。
また、本発明の一態様による用語抽出方法は、用語抽出装置の用語抽出方法であって、文書と当該文書の発生タイミングを示す情報とを電子データにて取得する文書取得ステップと、前記文取得ステップにて取得した複数の文書に対して形態素解析を行って用語を抽出する用語抽出ステップと、前記用語抽出ステップにて抽出した用語の各々について、前記複数の文書のうち前記発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、前記複数の文書のうち前記発生タイミングが前記単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いが大きい順の順位を求め、少なくとも、最新の単位期間における前記順位の対数と、前記最新の単位期間よりも過去の単位期間における前記順位の対数とに基づいて、当該用語の出現頻度の増加傾向の評価値を求め、得られた評価値に基づいて用語を選択する評価ステップと、を具備することを特徴とする。
また、本発明の一態様によるプログラムは、用語抽出装置としてのコンピュータに、文書と当該文書の発生タイミングを示す情報とを電子データにて取得する文書取得ステップと、前記文取得ステップにて取得した複数の文書に対して形態素解析を行って用語を抽出する用語抽出ステップと、前記用語抽出ステップにて抽出した用語の各々について、前記複数の文書のうち前記発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、前記複数の文書のうち前記発生タイミングが前記単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いが大きい順の順位を求め、少なくとも、最新の単位期間における前記順位の対数と、前記最新の単位期間よりも過去の単位期間における前記順位の対数とに基づいて、当該用語の出現頻度の増加傾向の評価値を求め、得られた評価値に基づいて用語を選択する評価ステップと、を実行させるためのプログラムである。
この発明によれば、話題になると予測される用語を予め抽出することができる。
本発明の第1の実施形態における用語抽出装置の機能構成を示す概略ブロック図である。 同実施形態において、用語抽出装置が表示する、用語の出現頻度の増加順位の表示の例を示す説明図である。 同実施形態における順位急上昇用語の例を示す説明図である。 同実施形態において、用語抽出部が文書から抽出する用語の例を示す説明図である。 同実施形態において、用語抽出部が適用するフィルタリングルールの例を示す説明図である。 同実施形態における、単調増加していない評価の例を模式的に示す説明図である。 同実施形態における、評価上昇のカーブが下凸になっていない評価の例を模式的に示す説明図である。 同実施形態において、表示部が、ある用語の順位の上昇幅や順位の上昇幅の増加度を表示した例を示す説明図である。 同実施形態において、表示部が、コンスタント出現用語や初出用語をランキング表示と対応付けたマトリクスにて表示した例を示す説明図である。 同実施形態において、用語抽出装置が用語の出現頻度の増加の度合いのランキングを生成して表示する処理手順を示すフローチャートである。 同実施形態において、評価部が行う処理の手順を示すフローチャートである。 本発明の第2の実施形態における用語抽出装置の機能構成を示す概略ブロック図である。 同実施形態において、用語抽出装置が表示する、用語の出現頻度の増加順位の表示の例を示す説明図である。 同実施形態において、用語抽出装置が表示する、用語の出現頻度の増加順位の表示の変化の例を示す説明図である。 同実施形態において、表記ゆれ統合部が行うグループ分けの例を示す説明図である。 同実施形態における用語の接続パタンの類似度の例を示す説明図である。 同実施形態における共起のイメージを模式的に示す説明図である。 同実施形態において、用語抽出装置が用語の出現頻度の増加の度合いのランキングを生成して表示する処理手順を示すフローチャートである。 同実施形態において、表記ゆれ統合部が行う処理の手順を示すフローチャートである。 同実施形態において、評価部が行う処理の手順を示すフローチャートである。
<第1の実施形態>
以下、図面を参照して、本発明の実施の形態について説明する。図1は、本発明の第1の実施形態における用語抽出装置の機能構成を示す概略ブロック図である。同図において、用語抽出装置100は、文書取得部110と、前処理部120と、用語抽出部130と、評価部160と、表示部170とを具備する。
用語抽出装置100は、発生タイミングが既知である複数の文書を参照し、これら複数の文書に含まれる用語のうち出現の増加傾向が所定の判定基準を満たす用語を、話題になると予測される用語として抽出する。
例えば、用語抽出装置100は、コールセンターに寄せられた相談や苦情から、話題になると予測される用語を抽出する。相談対応や苦情対応の担当者は、用語抽出装置100が抽出した用語を参照して対応すべき事象を判断することで、事象が拡大する前に対応し得る。
あるいは、用語抽出装置100が、インターネットにて提示されている文書から、話題になると予測される用語を抽出するようにしてもよい。ユーザは、用語抽出装置100が抽出した用語を参照して、これから話題や流行になる事物を予測することが出来る。
なお、ここでいう文書は、一纏まりの文である。文書は、1つの文にて構成されていてもよいし、複数の文を含んでいてもよい。用語抽出装置100は、ある用語が出現する文書の数をカウントして当該用語の出現頻度を算出する。ここで、ある用語が出現する文書の数を、当該用語の「出現回数」と称する。また、ある用語の出現回数を、カウント対象となっている文書の数で除算した割合を、当該用語の「出現割合」と称する。すなわち、ここでいうある用語の出現割合は、対象となっている文書の量に対して当該用語が出現する割合である。また、出現回数と出現割合とを総称して「出現頻度」と表記する。
用語抽出装置100は、例えば、コールセンターに寄せられた1回の電話相談における会話内容を示す一纏まりの文を文書として取得する。
また、文書の発生タイミングとしては、例えば、文書データの生成された日時、あるいは、文書データの生成者が設定した日時を用いる。例えば、コールセンターのオペレータが電話相談を受けて相談内容を記録した文書ファイルを生成した場合、用語抽出装置100は、オペレータが当該文書ファイルに記載する電話を受けた日時を、文書の発生タイミングとして用いる。あるいは、用語抽出装置100が、当該文書ファイルの生成日時を文書の発生タイミングとして用いるようにしてもよい。
図2は、用語抽出装置100(表示部170)が表示する、用語の出現頻度の増加順位の表示の例を示す説明図である。
同図において、用語の左に付されている数字は、当該用語の出現頻度の増加順位を示している。従って、図2の例では、用語「固定カメラシステム」が、出現頻度の最も増加した用語であり、用語「障害監視システム」が、出現頻度が2番目に増加した用語である。
これら出現頻度が大きく増加している用語について、出現頻度が引き続き増加することが予想される。出現頻度が引き続き増加することで、当該用語が頻出用語(すなわち、話題になっている用語)となることが予想される。この点において、用語抽出装置100は、出現頻度の増加順位の高い用語を抽出することで、話題になると予測される用語を抽出している。
また、表示部170が表示している各用語には、当該用語が出現した原文書へのリンクが張られている。そして、ユーザがいずれかの用語を選択(例えばタッチまたはマウスクリック)すると、用語抽出装置100は、当該用語に張られているリンクに従って原文書を表示する。これにより、ユーザは、表示部170が表示している用語を選択するという簡単な操作にて原文書を参照することができ、用語に関連する事象を把握することができる。
また、図2における用語「プラネタリウム」の強調表示は、当該用語が初出用語であることを示している。ここでいう初出用語は、最近の所定期間において初めて出現した用語である。
この初出用語は、ユーザが初めて見る用語である点において、注目すべき用語である可能性が高い。従って、用語抽出装置100(表示部170)が初出用語を強調表示することで、ユーザが注目すべき可能性を見逃すおそれを低減させ得る。例えば、相談対応や苦情対応の担当者は、初出用語に注目することで、新たに出現し始めた相談や苦情に関連する事象を把握して、事象が拡大する前に対応することができる。
また、図2における用語「障害監視システム」の強調表示は、当該用語が、出現頻度の増加順位が特に大きく上昇している用語(以下、「順位急上昇用語」と称する)であることを示している。
図3は、順位急上昇用語の例を示す説明図である。同図に示すランキングR12は、出現頻度の増加順位の最新ランキングを示している。また、ランキングR11は、ランキングR12よりも1つ過去のランキングを示している。
このランキングにおける順位は、出現頻度の増加の度合いを示している。例えば、図3の例において、用語「障害監視システム」の順位は、ランキングR12にて2位と高順位になっている。この順位は、用語「障害監視システム」の出現頻度が大きく増加していることを示している。
一方、順位の上昇幅は、出現頻度の増加傾向が強まっている様子を示している。例えば、用語「監視システム」の順位は、ランキングR11において32位であったものが、ランキングR12において2位と急上昇している。従って、ランキングR12の時点における用語「監視システム」の出現頻度の上昇の度合いは、ランキングR11の時点における上昇の度合いよりも大幅に強まっている。
時間経過と共に用語の出現頻度の上昇の度合いが強まり続けると、当該用語の出現頻度が急激に増加し、間もなく頻出用語(すなわち、話題になっている用語)となることが予想される。すなわち、順位急上昇用語は、他の用語と比べて、話題になるまでにかかる時間が短い可能性がある。
そこで、用語抽出装置100(表示部170)は、順位急上昇用語を強調表示してユーザの注目を促す。これにより、ユーザが当該用語を見落として話題になるまで気付かないおそれを低減させることができる。
文書取得部110は、文書と当該文書の発生タイミングを示す情報とを電子データにて取得する。
文書取得部110は、例えば、コールセンターに寄せられた電話相談における会話内容を示す文書を文書データファイルにて記憶しているデータサーバ装置と通信を行う通信回路にて実現され、当該データサーバ装置から、文書と当該文書の発生タイミング(例えば、電話を受けた日時)を示す情報とを取得する。
ここで、本発明は、文書取得部110が文書を取得する形態に依存しない。従って、文書取得部110が文書を取得する形態として様々なものを用いることができる。例えば、文書取得部110が、テキストファイルにて文書を取得するようにしてもよいし、ワープロ文書ファイルなど他の形式のファイルにて文書を取得するようにしてもよい。あるいは、文書取得部110が、1つのファイルにて1つの文書を取得するようにしてもよいし、1つのファイルにて複数の文書を纏めて取得するようにしてもよい。
また、文書が発生する毎に文書取得部110が当該文書を取得して記憶しておくようにしてもよいし、あるいは、用語抽出装置100がランキングの処理等を行う度に、文書取得部110が、過去に発生した文書も含めて取得するようにしてもよい。
文書取得部110は、取得した文書と当該文書の発生タイミングを示す情報とを対応付けて前処理部120に出力する。
前処理部120は、文書取得部110が取得した文書を、当該文書の発生タイミング情報に基づいて単位期間として設定されている所定期間毎(例えば1週間毎)に分類する。後述するように、評価部160は、単位期間内に発生した文書に出現する各用語について出現頻度を算出し、当該単位期間よりも過去に発生した文書における当該用語の出現頻度との対比にて出現頻度の増加の度合いを求める。そこで、前処理部120は、用語抽出処理や出現頻度の増加の度合いを求める処理の前処理として、文書の期間毎の分類を行う。
また、前処理部120は、文書ファイルの書式変換を行う。すなわち、文書取得部110の取得した文書ファイルの書式が、用語抽出部130や評価部160が処理可能な書式と異なる場合、前処理部120は、当該文書ファイルの書式を、用語抽出部130や評価部160が処理可能な書式に変換する。
前処理部120は、期間毎に分類された文書を用語抽出部130に出力する。
用語抽出部130は、文書取得部110が取得した複数の文書から用語を抽出する。具体的には、用語抽出部130は、文書取得部110が取得した複数の文書のうち、前処理部120が最新の単位期間に分類した文書から用語を抽出する。この最新の単位期間に分類された文書から集出する用語は、評価部160が行うランキングの候補となる用語である。
図4は、用語抽出部130が文書から抽出する用語の例を示す説明図である。同図に示すように、用語抽出部130は、文書に対して形態素解析を行って用語を生成(抽出)する。図4の例では、用語抽出部130は、まず、「保健福祉施設において・・・」という文書から、「保険」や「福祉」や「施設」といった形態素を抽出している。そして、用語抽出部130は、抽出した形態素を組み合わせて(文字列として結合して)、「保健施設」や「福祉施設」や「保健福祉施設」といった用語を生成している。
ここで、形態素解析や複合名詞化において、用語抽出部130は、形態素や用語としてふさわしくないものを除外するフィルタリングを行う。
図5は、用語抽出部130が適用するフィルタリングルールの例を示す説明図である。同図に示すフィルタリングルールのうち、チェックレベルが形態素となっているルールは、用語抽出部130が形態素解析にて得られた形態素に適用するルールである。
例えば、行L111に示すルールは、名詞以外の形態素を除外するものである。ここで、本実施形態では、用語抽出部130が、名詞の形態素を組み合わせて得られる名詞としての用語を抽出することを予定している。そこで、用語抽出部130は、形態素解析にて抽出した形態素のうち、名詞以外の形態素を除外する。
また、行L112に示すルールは、非自立語や代名詞などの形態素を除外するものである。例えば、用語抽出装置100(表示部170)が「それ」などの代名詞を表示しても、ユーザは当該代名詞が指すものを把握することができない。すなわち、ユーザは、話題を把握することができない。そこで、用語抽出部130は、話題の把握に不適切な形態素を除外する。
また、図5に示すフィルタリングルールのうち、チェックレベルが複合語となっているルールは、用語抽出部130が複合名詞化にて得られた用語に適用するルールである。
例えば、行L121に示すルールは、数字のみの用語を除外するものである。例えば、用語抽出装置100(表示部170)が数字のみの用語を表示しても、ユーザは、当該数字が何を意味するか把握できず、用語に関連する事象を把握できない可能性が高い。そこで、用語抽出部130は、注目対象として不適切な数字のみの用語を除外する。
また、行L122に示すルールは、2文字以下の用語を除外するものである。通常、2文字以下の用語は、意味を把握するには文字列長が短すぎる。例えば、用語抽出装置100(表示部170)が「わん」という用語を表示しても、犬の鳴き声や、「碗」など様々な意味が想起され、ユーザは、特定の意味に絞り込むことができない。また、「わん」という用語が異なる意味で用いられて文書に出現した場合、評価部160は、用語を意味で区別することができない。そのため、評価部160は、本来別々に出現回数を数えるべき用語を同一の用語と捉えてしまい、意味毎に出現回数を数えた場合よりも出現回数が多くなってしまう。そこで、評価部160は2文字の用語を除外する。
このように、用語抽出部130が、形態素解析や複合名詞化の処理においてフィルタリングを行うことで、注目すべき用語として不適切な用語の提示(表示部170による表示)を低減させることができる。また、当該フィルタリングによって、評価部160の処理対象となる用語の数を削減でき、処理時間や処理負荷を低減させることができる。
用語抽出部130は、最終的に得られた用語と、前処理部120から取得した期間毎に分類された文書とを評価部160に出力する。
評価部160は、前処理部120からの用語の各々について、文書取得部110が取得した複数の文書のうち発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、複数の文書のうち発生タイミングが当該単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いを求め、少なくとも、最新の単位期間における増加の度合いと、最新の単位期間よりも過去の単位期間における増加の度合いとに基づいて、当該用語の出現頻度の増加傾向の評価値を求める。本実施形態では、評価部160は、評価値として、増加の度合いが大きい順の順位を用語の各々について求める。
具体的には、評価部160は、用語抽出部130から出力された各用語について、まず、最新の単位期間内に発生した文書での出現回数をカウントする。次に、評価部160は、各用語について、最新の単位期間内に発生した文書における出現回数と、それ以前に発生した文書での出現回数とを用いて、出現頻度の増加の度合いのスコアを算出する。それ以前に発生した文書での出現回数については、評価部160が、処理の度にカウントするようにしてもよいし、過去に行った処理でカウントした回数を記憶しておいて用いるようにしてもよい。
評価部160がスコア算出に用いる計算式として、様々なものを用いることができる。特に、最新の単位期間内に発生した文書における出現回数が多いほど高評価となり、かつ、それ以前に発生した文書での出現回数が少ないほど高評価となる計算式を用いることで、過去よりも最近のほうが出現回数の多い用語、すなわち、出現頻度の増加の度合いが大きい用語に高評価を与えることができる。
例えば、評価部160は、式(1)を用いて用語wのスコアS(w)を算出する。
Figure 0006027781
ここで、MおよびNは、単位期間の識別番号として用いられる正整数(M<N)である。識別番号の値が大きいほど、新しい期間であることを示す。単位期間M〜Nを合わせると、評価部160が処理の対象とする連続した期間を構成する。単位期間Nが、最新の単位期間に該当し、単位期間M〜N−1を合わせて得られる期間が、それ以前の期間に該当する。
また、freq(w,p)は、単位期間p内に発生した文書における用語wの出現回数を示す。
式(1)では、最新の単位期間内に発生した文書における用語wの出現回数「freq(w,N)」に定数「N−M」を乗算した値から、それ以前の期間内に発生した文書における用語wの出現回数「Σm∈[M,N−1]freq(w,m)」を減算している。従って、最新の単位期間内に発生した文書における用語wの出現回数が多いほど、スコアS(w)の値が大きくなる。また、それ以前の期間内に発生した文書における用語wの出現回数が少ないほど、スコアS(w)の値が大きくなる。なお、定数「N−M」は、最新の単位期間内に発生した文書における用語wの出現回数の重要度を高めるための重みとして乗算されている。
あるいは、評価部160が、式(2)を用いて用語wのスコアS(w)を算出するようにしてもよい。
Figure 0006027781
ここで、Doc(p)は、単位期間p内に発生した文書数を示す。
右辺の分子「freq(w,N)/Doc(N)」は、最新の単位期間内に発生した文書における用語wの出現回数を当該期間内に発生した文書数で除算した数、すなわち、当該期間における用語wの出現割合を示す。また、右辺の分母における「freq(w,m)/Doc(m)」は、単位期間mにおける用語wの出現割合を示す。式(1)が出現回数に基づいてスコアを算出する計算式の例を示しているのに対し、式(2)は、出現割合に基づいてスコアを算出する計算式の例を示している。
式(2)では、最新の単位期間における用語wの出現割合が大きいほど、スコアS(w)の値が大きくなる。また、それ以前の期間における用語wの出現割合が小さいほど、スコアS(w)の値が大きくなる。なお、右辺の分母側に加算している「1」は、用語wが初出用語である場合に0での除算が発生するのを防止するための項である。
あるいは、評価部160が、式(3)を用いて用語wのスコアS(w)を算出するようにしてもよい。
Figure 0006027781
この式(3)は、出現回数と出現割合とを組み合わせてスコアを算出する計算式の例を示している。すなわち、分子における「Log(freq(w,N))」の項は、出現回数の評価を示す項であり、「freq(w,N)/Doc(N)」の項は、出現割合の評価を示す項である。
ここで、出現回数を評価する場合、文書数を加味しない点でいわば絶対的な評価を行うことができる。これに対して、出現割合を評価する場合、文書数を加味したいわば相対的な評価を行うことができる。例えば、単位期間に発生した文書における用語wの出現回数が10回の場合、出現回数の評価では、文書数が100でも1万でも同じく「10」と評価することになる。一方、出現割合の評価では、文書数が100の場合は「0.1」と評価するのに対し、文書数が1万の場合は「0.001」と評価するように、文書数に応じて正規化した評価を得られる。この出現回数と出現割合とを組み合わせることで、絶対的な評価の要素と相対的な評価の要素とを共に加味することができる。
なお、式(3)の右辺の分子側にて「freq(w,N)」の対数を計算しているのは、出現回数と出現割合との比重を出現回数のスケールに応じて変化させるためである。すなわち、出現回数が突出して多い場合に、対数演算にて出現回数の比重を低下させ、出現割合のスコアへの影響を確保する。
各用語のスコアを算出した評価部160は、スコアの高い順に用語を並べたランキング情報を生成する。その際、評価部160は、所定順位以上の用語のみをランキング対象として選択する。このように、一定の順位まででランキングの処理を打ち切ることで、処理時間および評価部160の処理負荷を軽減させることができる。
このランキング対象とする順位の設定は、例えば予めユーザが行う。
また、評価部160は、ランキング情報に含まれる各用語に、初出用語フラグと順位急上昇用語フラグとを付与する。
ここで、初出用語フラグは、図2を参照して説明したように表示部170が初出用語を強調表示するためのフラグである。評価部160は、文書取得部110が取得した複数の文書において、発生タイミングが最新の単位期間に含まれる文書に初めて出現した用語を初出用語として検出する。具体的には、評価部160は、ランキング情報に含まれる各用語のうち、最新の単位期間以前に発生した各文書には含まれていない用語を、初出用語として検出する。そして、評価部160は、各用語に付与された初出用語フラグの値を検出結果に応じて設定する。例えば、評価部160は、初出用語に付与された初出用語フラグの値を「1」に設定し、他の用語に付与された初出用語フラグの値を「0」に設定する。
また、順位急上昇用語フラグは、図2を参照して説明したように表示部170が順位急上昇用語を強調表示するためのフラグである。評価部160は、複数の単位期間について各用語の順位を求め、所定の評価基準以上に順位が上昇した用語を順位急増用語として検出する。具体的には、評価部160は、今回の処理にて生成したランキングと、単位期間前に行った前回の処理にて生成したランキングとを対比して、所定の評価基準以上に順位が上昇した用語を順位急増用語として検出する。
ある用語が順位急上昇用語か否かを評価部160が判定する評価基準として、様々なものを用いることができる。例えば、評価部160が、最新のランキングにて前回のランキングよりも10位以上上昇した用語を順位急上昇用語として検出するようにしてもよい。
あるいは、評価部160が、式(4)を満たす用語を順位急上昇用語として検出するようにしてもよい。
Figure 0006027781
ここで、R(w,N)は、今回の処理において評価部160が生成したランキングにおける用語wの順位を示す。また、R(w,N−1)は、前回の処理において評価部160が生成したランキングにおける用語wの順位を示す。また、SHrは、ランクアップ閾値として予め設定された定数を示す。
式(4)の左辺に示されるように、R(w,N−1)やR(w,N)の対数を用いることで、順位が高いほど順位急上昇用語として検出され易くすることができる。例えば、対数の底を10とし、ランクアップ閾値を0.8に設定した場合、用語wの順位が10位から1位に上昇したときは、式(4)の左辺はLog(10)−Log(1)=1となり、式(4)を満たす。一方、用語wの順位が100位から91位に上昇したときは、式(4)の左辺はLog(100)−Log(91)=0.04となり、式(4)を満たさない。このように、同じく9位分の上昇幅であっても、用語の順位が高いときは、評価部160が順位急上昇用語として検出し、用語の順位が低いときは検出しない。
ここで、順位の高い用語は、出現頻度の増加の度合いが既に大きい用語である。従って、出現頻度の増加が続けば、当該用語の出現頻度が急激に増加し、間もなく頻出用語(すなわち、話題になっている用語)となることが予想される。一方、順位の低い用語は、出現頻度の増加の度合いが比較的小さい用語である。従って、順位の高い用語との比較において、当該用語が頻出用語となるまでにかかる時間が比較的長いことが予想される。
そこで、評価部160が式(4)を用いて順位急上昇用語を検出することで、より早く頻出用語となると予想される順位の高い用語を順位急上昇用語として検出し易くすることができる。
評価部160は、順位急上昇用語の検出結果に応じて、各用語に付与された順位急上昇用語フラグの値を設定する。例えば、評価部160は、順位急上昇用語として検出した用語に付与された順位急上昇用語フラグの値を「1」に設定し、他の用語に付与された順位急上昇用語フラグの値を「0」に設定する。
そして、評価部160は、各フラグの値の設定を完了したランキング情報を表示部170に出力して、ランキングを表示させる。
なお、評価部160が、順位急上昇用語の検出に際して、あるいは、順位急上昇用語の検出とは別に、評価が単調増加しているか否かの判定や、評価上昇のカーブが下凸になっているか否かの判定を行うようにしてもよい。
例えば、評価部160は、式(5)に基づいて評価が単調増加しているか否かを判定する。
Figure 0006027781
ここで、不等式の左辺「R(w,m−1) − R(w,m)」は順位の上昇幅を示す。すなわち、ランキングにおける用語wの順位が上昇している場合は、式(5)の不等式を満たし、上昇していない場合は満たさない。
図6は、単調増加していない評価の例を模式的に示す説明図である。同図のグラフの横軸は時刻を示し、縦軸は評価の高さを示している。本実施形態では評価値として順位を用いており、順位が高いほど、すなわち、順位の数が小さいほど高評価となってグラフの上側に位置する。
ある用語の評価が同図に示すように上下を繰り返している場合、当該用語の順位が再び低下する可能性が比較的高い。従って、当該用語の出現頻度の増大が緩やかになり、あるいは出現頻度が減少に転じて、当該用語が頻出用語となるまでにかかる時間が比較的長いことが予想される。
そこで、評価部160が、評価の単調増加していない(すなわち、順位の数が小さくなり続けていない)用語を順位急上昇用語から除外することで、頻出用語となるまでにかかる時間の短い用語を順位急上昇用語として検出する精度が高まると期待される。
あるいは、評価部160が、ランキング情報に含まれる各用語について、評価が単調増加しているか否かを判定し、区別して表示部170に表示させるようにしてもよい。これにより、ユーザがランキングを参照する際に、どの用語が間もなく頻出用語になるかの判断材料をさらに提示することができる。
また、評価部160は、式(6)に基づいて評価上昇のカーブが下凸になっているか否かを判定する。
Figure 0006027781
ここで、R_diff(w,p)は、式(7)のように定義される。
Figure 0006027781
すなわち、R_diff(w,p)は、順位の上昇幅を示す。従って、時間経過と共に順位の上昇幅が大きくなっている場合は、式(6)の不等式を満たし、大きくなっていない場合は満たさない。
図7は、評価上昇のカーブが下凸になっていない評価の例を模式的に示す説明図である。図6の場合と同様、図7のグラフの横軸は時刻を示し、縦軸は評価の高さを示している。
評価が単調増加している場合でも、図7に示すように評価上昇のカーブが下凸になっていない(図7の例では上凸になっている)場合、時刻の経過と共に評価の伸びが鈍っていることが考えられる。従って、当該用語の出現頻度の増大が緩やかになり、当該用語が頻出用語となるまでにかかる時間が比較的長いことが予想される。
そこで、評価部160が、評価の単調増加していない用語の除外に加えて、評価上昇のカーブが下凸になっていない用語を順位急上昇用語から除外することで、頻出用語となるまでにかかる時間の短い用語を順位急上昇用語として検出する精度が高まると期待される。
あるいは、評価部160が、ランキング情報に含まれる各用語のうち評価が単調増加している用語について、評価上昇のカーブが下凸になっているか否かを判定し、区別して表示部170に表示させるようにしてもよい。これにより、ユーザがランキングを参照する際に、どの用語が間もなく頻出用語になるかの判断材料をさらに提示することができる。
あるいは、評価部160が、式(5)における「R(w,m−1) − R(w,m)」の値や、式(6)における「R_diff(w,m−1) − R_diff(w,m)」の値を表示部170に出力して表示させるようにしてもよい。すなわち、評価部160が、順位の上昇幅や順位の上昇幅の増加度を表示部170に表示させるようにしてもよい。
図8は、表示部170が、ある用語の順位の上昇幅や、順位の上昇幅の増加度を表示した例を示す説明図である。例えば、図2に例示したランキングの表示において、ユーザが何れかの用語を選択(例えばタッチまたはマウスクリック)すると、表示部170は、当該用語の順位の上昇幅や順位の上昇幅の増加度をランキング表示と別ウィンドウにて表示する。これにより、ユーザがランキングを参照する際に、どの用語が間もなく頻出用語になるかの判断材料を、より詳細に提示することができる。
なお、評価部160が、最新の単位期間以前の期間に発生した文書において一定条件以上出現している用語(以下、「コンスタント出現用語」と称する)を検出し、表示部170に表示させるようにしてもよい。例えば、表示部170は、式(8)を満たす用語をコンスタント出現用語として検出する。
Figure 0006027781
ここで、SHcは、コンスタント閾値として予め設定された定数を示す。
式(1)〜式(3)に例示されるスコア算出式において、最新の単位期間以前の期間に発生した文書での出現回数が少ないほどスコアが大きくなったのに対し、式(8)の左辺では、最新の単位期間以前の期間に発生した文書での出現回数が多いほど計算値が大きくなる。すなわち、最新の単位期間以前の期間に発生した文書にて頻出している用語ほど、表示部170がコンスタント出現用語として検出し易くなる。
なお、左辺の各項における係数「1」、「1/2」、・・・は、単位期間の新しさに応じて、新しい単位期間内に発生した文書での用語wの出現頻度ほど比重を大きくするための重みである。
表示部170がコンスタント出現用語を表示した場合、ユーザは、過去のランキングにおいて出現していたにもかかわらず見落としていた用語を、コンスタント出現用語の中から見つけ出し得る。すなわち、ユーザは、コンスタント出現用語の表示を、用語への注目漏れの防止に用いることができる。
あるいは、ユーザは、ランキングに表示されている用語のうちコンスタント出現用語を、過去に注目して対応済みの用語として無視することができる。すなわち、ユーザは、コンスタント出現用語の表示を、過去に注目済みの用語か否かの確認に用いることができる。
表示部170は、図2を参照して説明した初出用語の場合と同様、ランキング表示においてコンスタント出現用語を他の用語と区別して表示(例えば強調表示)する。
あるいは、表示部170が、コンスタント出現用語のリストを、ランキング表示と別ウィンドウにて表示するようにしてもよい。また、初出用語についても、表示部170が、初出用語のリストを表示するようにしてもよい。
あるいは、表示部170が、コンスタント出現用語や初出用語をランキング表示と対応付けたマトリクスにて表示するようにしてもよい。
図9は、表示部170が、コンスタント出現用語や初出用語をランキング表示と対応付けたマトリクスにて表示した例を示す説明図である。同図において、コンスタント出現欄の表示の「○」は、該当する用語(その行に示される用語)がコンスタント出現用語であることを示している。また、初出欄の表示の「○」は、該当する用語が初出用語であることを示している。
このように、コンスタント用語や初出用語をユーザが認識可能な様々な表示方法を用いることができる。
なお、評価部160が、評価値として、上述した順位に代えてスコアを用いるようにしてもよい。具体的には、評価部160が、所定のスコア以上の用語のみをランキング対象として選択するようにしてもよい。あるいは、評価部160が、順位急上昇用語の検出や、コンスタント出現用語の検出を、順位に代えてスコアを用いて行うようにしてもよい。また、評価部160が、順位に代えて、あるいは、順位に加えてスコアを用語に添えて表示部170に表示させるようにしてもよい。
評価部160が算出するスコアの値は、他の用語のスコアの値に影響されない、いわば絶対的な値である。従って、評価部160は、評価値としてスコアを用いることで、ある用語の処理に関して他の用語の状況の影響を受けずに、いわば安定的に処理を行うことができる。例えば、評価部160が、所定のスコア以上の用語のみをランキング対象として選択する場合、他にスコアの大きい用語が幾つあるかに依存せずに、各用語をランキング対象とするか否かを決定し得る。従って、スコアの大きい用語が多数ある場合でも、所定のスコア以上の用語を全て表示部170が表示するようにできる。この点で、ユーザが用語の認識漏れをおこすおそれを低減させることができる。
一方、評価部160が取得する順位の値は、他の用語との関係において定められる、いわば相対的な値である。評価部160が、評価値として順位を用いる場合、ユーザは、各種閾値を比較的容易に設定し得る。例えば、ユーザは、上位100位までの用語を取得したい場合、評価部160がランキング対象とする用語の判定閾値として100位を設定すればよい。
なお、前処理部120と、用語抽出部130と、評価部160とは、例えば、用語抽出装置100の具備するCPU(Central Processing Unit、中央処理装置)が、用語抽出装置100の具備する記憶デバイスからプログラムを読み出して実行することで実現される。
表示部170は、例えば液晶ディスプレイ等の表示画面を有し、動画像や静止画像やテキスト(文字)など各種画像を表示する。特に、表示部170は、評価部160が取得した評価値に基づいて用語を表示する。さらに、表示部170は、評価部160が検出した順位急上昇用語を強調表示する。また、表示部170は、評価部160が検出した初出用語を強調表示する。具体的には、図2を参照して説明したように、表示部170は、評価部160が取得した順位に基づく用語のランキングを表示し、順位急上昇用語や初出用語を強調表示する。
なお、表示部170の実現方法は、ディスプレイなど表示画面を有するデバイスを用いる方法に限らない。例えば、表示部170が、プリンタなど他の表示デバイスを用いて実現されていてもよい。また、評価部160が生成したランキング情報を一旦記憶デバイスに記憶させた後、表示部170がランキングを表示するようにしてもよい。
次に、図10および図11を参照して、用語抽出装置100の動作について説明する。
図10は、用語抽出装置100が用語の出現頻度の増加の度合いのランキングを生成して表示する処理手順を示すフローチャートである。用語抽出装置100は、単位期間毎に同図の処理を行ってランキングを生成し表示する。
図10の処理において、まず、文書取得部110は、文書と当該文書の発生タイミングを示す情報とを取得し、前処理部120に出力する(ステップS101)。
次に、前処理部120は、文書取得部110からの文書を発生タイミングに応じて単位期間毎に分類する等の前処理を行い、単位期間毎に分類された文書を用語抽出部130に出力する(ステップS102)。
そして、用語抽出部130は、前処理部120からの文書のうち、最新の単位期間内に発生した文書から用語を抽出し、抽出した用語と前処理部120からの文書とを評価部160に出力する(ステップS103)。具体的には、用語抽出部130は、図4および図5を参照して説明したように、形態素解析や複合名詞化やフィルタリングを行って用語を抽出して評価部160に出力する。
次に、評価部160は、用語抽出部130からの用語および文書に基づいて、各用語の出現頻度の増加の度合いのランキング情報を生成し、表示部170に出力する(ステップS104)。
図11は、評価部160が行う処理の手順を示すフローチャートである。評価部160は図10のステップS104にて、図11の処理を行う。
図11の処理において、評価部160は、まず、用語抽出部130が抽出した用語の各々について、最新の単位期間内に発生した文書での当該用語の出現回数と、最新の単位期間以前に発生した文書での当該用語の出現回数とに基づいて、当該用語の出現頻度の増加の度合いのスコアを算出する(ステップS201)。
次に、評価部160は、用語をスコアの大きい順に並べ、予め設定された順位までのランキング情報を生成する(ステップS202)。
また、評価部160は、最新のランキングにおける各用語の順位と前回のランキングにおける各用語の順位をと対比して順位急上昇用語を抽出し、ランキング情報に付加した順位急上昇用語フラグの値を設定する(ステップS203)。
さらに、評価部160は、初出用語を検出し、ランキング情報に付加した初出用語フラグの値を設定する(ステップS204)。
そして、評価部160は、生成したランキング情報を表示部170に出力する(ステップS205)。
その後、図11の処理を終了し、図10の処理に戻る。
ステップS104の後、表示部170は、評価部160からのランキング情報に基づいて、図2を参照して説明したように、用語のランキングを表示し、順位急上昇用語および初出用語を強調表示する(ステップS105)。
その後、図10の処理を終了する。
以上のように、評価部160は、用語抽出部130が抽出した用語の各々について、文書取得部110が取得した文書のうち発生タイミングが最新の単位期間に含まれる文書における当該用語の出現頻度の、発生タイミングが最新の単位期間以前の期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いの評価値(順位またはスコア)を求める。そして、表示部170は、評価部160が求めた評価値に基づいて用語を表示する。例えば、表示部170は、評価部160が求めた順位が所定の順位より高い用語、または、評価部160が求めたスコアが所定のスコアより大きい用語を表示する。
上述したように、これら出現頻度が大きく増加している用語は、頻出用語(すなわち、話題になっている用語)となることが予想される。従って、用語抽出装置100は、話題になると予測される用語を予め抽出することができる。
また、評価部160は、評価値として、増加の度合いが大きい順の順位を用語の各々について求める。
これにより、ユーザは、各種閾値を比較的容易に設定し得る。例えば、ユーザは、上位100位までの用語を取得したい場合、評価部160がランキング対象とする用語の判定閾値として100位を設定すればよい。
また、評価部160は、複数の単位期間について用語の順位を求め、所定の評価基準以上に順位が上昇した用語を順位急上昇用語として検出する。そして、表示部170は、順位急上昇用語を強調表示する。
ここで、上述したように、順位急上昇用語は、他の用語と比べて、話題になるまでにかかる時間が短い可能性がある。そこで、表示部170が順位急上昇用語を強調表示することで、ユーザが当該用語を見落として話題になるまで気付かないおそれを低減させることができる。
また、評価部160は、評価値として、用語の出現頻度増加の度合いを示すスコアを用語の各々について算出する。
これにより、評価部160は、ある用語の処理に関して他の用語の状況の影響を受けずに処理を行うことができる。例えば、評価部160が、所定のスコア以上の用語のみをランキング対象として選択する場合、他にスコアの大きい用語が幾つあるかに依存せずに、各用語をランキング対象とするか否かを決定し得る。従って、スコアの大きい用語が多数ある場合でも、所定のスコア以上の用語を全て表示部170が表示するようにできる。この点で、ユーザが用語の認識漏れをおこすおそれを低減させることができる。
また、表示部170は、文書取得部110が取得した複数の文書において、発生タイミングが最新の単位期間に含まれる文書に初めて出現した用語(すなわち、初出用語)を検出する。そして、表示部170は、評価部160が検出した初出用語を強調表示する。
この初出用語は、ユーザが初めて見る用語である点において、注目すべき用語である可能性が高い。従って、用語抽出装置100(表示部170)が初出用語を強調表示することで、ユーザが注目すべき可能性を見逃すおそれを低減させ得る。
<第2の実施形態>
図12は、本発明の第2の実施形態における用語抽出装置の機能構成を示す概略ブロック図である。同図において、用語抽出装置200は、文書取得部110と、前処理部120と、用語抽出部130と、表記ゆれ統合部240と、関連付け部250と、評価部260と、表示部270とを具備する。同図において、図1の各部に対応して同様の機能を有する部分には同一の符号(110、120、130)を付し、説明を省略する。
用語抽出装置200は、用語抽出装置100と同様、話題になると予測される用語を抽出して表示する。その際、用語抽出装置200は、同様の意味を有する可能性の高い用語を表記ゆれとして同一グループに纏めて表示する。さらに、用語抽出装置200は、同一の文書に出現する頻度の比較的高い用語同士を共起語として対応付けて表示する。
図13は、用語抽出装置200(表示部270)が表示する、用語の出現頻度の増加順位の表示の例を示す説明図である。
同図において、用語抽出装置200は、図2を参照して説明した用語抽出装置100の場合の表示と同様、用語の出現頻度増加のランキングを表示し、順位急上昇用語および初出用語を強調表示している。
図14は、用語抽出装置200(表示部270)が表示する、用語の出現頻度の増加順位の表示の変化の例を示す説明図である。同図に示すランキングR23は、出現頻度の増加順位の最新ランキングを示している。また、ランキングR22は、ランキングR23よりも1つ過去のランキングを示している。また、ランキングR21は、ランキングR22よりも1つ過去のランキングを示している。
ランキングR21からランキングR22への遷移において、用語「ログ分析装置」の順位が96位から7位への急上昇している。そこで、用語抽出装置200は、ランキングR22において、用語「ログ分析装置」を順位急上昇用語として強調表示している。
また、ランキングR22からランキングR23への遷移において、用語「障害監視システム」の順位が78位から2位への急上昇している。そこで、用語抽出装置200は、ランキングR23において、用語「障害監視システム」を順位急上昇用語として強調表示している。
また、ランキングR22からランキングR23への遷移において、用語「地図表示装置」の順位が77位から7位への急上昇している。そこで、用語抽出装置200は、ランキングR23において、用語「地図表示装置」を順位急上昇用語として強調表示している。
また、ランキングR23における用語「感性分析システム」、「感性解析システム」および「感性分布表示システム」は、いずれも初出用語である。そこで、用語抽出装置200は、ランキングR23において、用語「感性分析システム」、「感性解析システム」および「感性分布表示システム」を初出用語として強調表示している。
一方、図13では、用語抽出装置200が用語をグループ化して表示している点、および、グループに含まれる用語の共起語をグループに対応付けて表示している点で、図2の例の場合と異なる。
具体的には、用語抽出装置200は、「固定カメラシステム」や「障害監視システム」など同様の意味を有する可能性の高い用語を、1つのグループとして纏めて領域A111に表示している。同様に、用語抽出装置200は、「地図表示装置」や「地図画像表示装置」など同様の意味を有する可能性の高い用語を、もう1つのグループとして纏めて領域A112に表示している。さらに、用語抽出装置200は、「感性分析システム」や「感性解析システム」など同様の意味を有する可能性の高い用語を、さらにもう1つのグループとして纏めて領域A113に表示している。
ここで、用語抽出装置200は、各グループ内において、各用語をランキングの順位に従って表示している。さらに、用語抽出装置200は、グループの並び順について、グループに含まれる用語のスコアの合計値の大きい順に並べて表示している。領域A111に表示されているグループが、用語のスコアの合計値が最も大きく、次に、領域A112に表示されているグループ、その次に、領域A113に表示されているグループ・・・の順になっている。
このように、用語抽出装置200が、同様の意味を有する可能性の高い用語を1つのグループとして纏め、グループ内に含まれる用語のスコアの合計に従った並び順でグループを表示することで、表記ゆれを同一の用語として扱ってランキング表示を行うことができる。
ここで、同一のものが表記ゆれにより複数の用語にて表現された場合、用語毎にスコアを算出してランキングを行うと、表記ゆれのない用語よりも低い順位となってしまうおそれがある。これに対して、用語抽出装置200は、同様の意味を有する可能性の高い用語を1つのグループとして纏めることで、表記ゆれの用語を同一グループに纏めることができる。そして、用語抽出装置200は、グループ間で順位付けを行うことで、表記ゆれを同一の用語として扱ってランキング表示を行うことができる。
なお、表記ゆれの無い用語は、1つの用語からなるグループを形成してランキングされる。
また、用語抽出装置200は、領域A111に表示されたグループに含まれる用語の共起語を、当該グループに対応付けて領域A121に表示している。同様に、用語抽出装置200は、領域A113に表示されたグループに含まれる用語の共起語を、当該グループに対応付けて領域A122に表示している。
このように、用語抽出装置200が共起語を表示することで、ユーザは、用語が出現した原文書の内容を推測し易くなる。従って、ユーザが原文書を参照せずとも用語に関連する事象を把握できる可能性が高まる。この点では、ユーザは、用語に関連する事象をより速く把握し得る。
表記ゆれ統合部240は、用語抽出部130が抽出した用語の類似度を算出し、得られた類似度に基づいて用語のグループ分けを行う。
図15は、表記ゆれ統合部240が行うグループ分けの例を示す説明図である。
表記ゆれ統合部240は、まず、各用語について、当該用語のみからなるグループを形成する。同図に示す状態T11では、6つの用語の各々が、当該用語自身のみを含むグループに属している。
また、表記ゆれ統合部240は、用語同士の類似度を、2つの用語の組み合わせ全てについて、算出しておく。例えば、表記ゆれ統合部240は、式(9)を用いて用語αと用語βとの類似度Sim(α,β)を算出する。
Figure 0006027781
ここで、Num(w)は、用語wの語長(すなわち文字数)を示す。また、LCS(α,β)は、用語αと用語βとの最長共通部分列(Longest Common Subsequence)を示す。最長共通部分列を求めるアルゴリズムとして、再帰的なアルゴリズムなど幾つかのものが知られている。表記ゆれ統合部240が最長共通部分列を求めるアルゴリズムとして既存のアルゴリズムを用いることができる。
式(9)を用いた類似度算出のように、表記ゆれ統合部240が用語の類似度を形式的に求めることで、用語の意味を示す辞書を用意する必要が無い。従って、用語抽出装置200の管理者(例えばユーザ)が辞書を予め用意しておく負担を削減できる。また、出現する可能性のある用語の予測が困難な場合や用語数が膨大になる場合など、辞書を予め用意することが困難な場合でも、表記ゆれ統合部240は、表記ゆれを検出して同一グループに纏め得る。
用語同士の類似度の算出、および、1つの用語のみを含むグループの形成を完了すると、表記ゆれ統合部240は、類似度の最も高い2つのグループを選択して結合する。
ここで、表記ゆれ統合部240は、2つのグループA、Bの類似度として、グループAに属する用語とグループBに属する用語との類似度の最大値を用いる。
また、グループに属する用語は、グループ内での順序を有している。そして、表記ゆれ統合部240は、以下の3つの方法のうち、グループの類似度を与える2つの用語が最も近くに配置される方法にてグループAとグループBとを結合する。
a.グループAの末尾にグループBを結合する。
b.グループAの順序を逆にし、その末尾にグループBを結合する。
c.グループAの末尾に、グループBの順序を逆にしたものを結合する。
結合の際、元のグループ内での並びを変更しないことで、先に行った結合における、より類似度の高い用語同士の並びを維持することができる。すなわち、より類似度の高い用度同士がより近くに位置するように配置できる。
ただし、2つのグループの類似度が、類似度閾値として予め設定されている定数以下の場合、表記ゆれ統合部240は、これら2つのグループを結合しない。また、類似度閾値より大きい類似度を与える用語の組み合わせが存在する場合でも、当該組み合わせの何れにおいても、2つの用語の形態素一致率が、形態素一致率閾値として予め設定されている定数以下のときは、表記ゆれ統合部240は、これら2つのグループを結合しない。ここで、表記ゆれ統合部240は、用語αと用語βとの形態素一致率CMP(α,β)を、式(10)を用いて算出する。
Figure 0006027781
ここで、Num_m(w)は、用語wに含まれる形態素数を示す。また、Num_cm(α,β)は、用語αと用語βとが共に含む形態素の数を示す。
表記ゆれ統合部240は、グループが1つになるか、あるいは、結合可能なグループがなくなるまで、グループの結合を繰り返す。
図15の例では、状態T11において、用語1を含むグループと用語2を含むグループとの類似度が0.9で最も高くなっている。そこで、表記ゆれ統合部240は、用語1の末尾に用語2を結合することで、2つのグループを結合する(上記方法a)。これにより、状態T12となる。
状態T12では、用語5を含むグループと用語6を含むグループとの類似度が0.8で最も高くなっている。そこで、表記ゆれ統合部240は、用語5の末尾に用語6を結合することで、2つのグループを結合する(上記方法a)。これにより、状態T13となる。
状態T13では、用語4と用語6との組み合わせが、グループの類似度の最大値0.7を与えている。そこで、表記ゆれ統合部240は、用語4と用語6とを近くに配置するために、用語5および6を含むグループの順序を逆にし、その末尾に用語4を含むグループを結合する(上記方法b)。これにより、状態T14となる。
状態T14では、用語2と用語3との組み合わせが、グループの類似度の最大値0.6を与えている。そこで、表記ゆれ統合部240は、用語2と用語3とを近くに配置するために、用語1および2を含むグループの末尾に用語3を含むグループを結合する(上記方法a)。これにより、状態T15となる。
状態T15では、用語1と用語5との組み合わせが、グループの類似度の最大値0.4を与えている。そこで、表記ゆれ統合部240は、用語1と用語5とを近くに配置するために、用語1、2および3を含むグループの順序を逆にし、その末尾に用語5、6および4を含むグループを結合する(上記方法b)。これにより、状態T16となる。
状態T16においてグループが1つになったため、表記ゆれ統合部240は、グループの結合を終了する。
表記ゆれ統合部240は、得られた各グループを関連付け部250に出力する。
なお、表記ゆれ統合部240が用語の類似度を算出する方法は、最長共通部分列に基づく方法に限らない。例えば、表記ゆれ統合部240が、用語の接続パタンの出現回数に基づいて用語の類似度を算出するようにしてもよい。
図16は、用語の接続パタンの類似度の例を示す説明図である。同図では、用語「米国」と「アメリカ」との各々について、用語「に行く」、「に住む」、「に向かう」、「から帰ってくる」の各々との接続パタン出現回数が示されている。表記ゆれ統合部240は、出現回数の各々を正規化して得られる正規化値のベクトルとしての類似度(例えばコサイン類似度)を、用語の類似度として算出する。
ここでいう用語aと用語bとの接続パタンは、用語aと用語bとが同一の文(sentence)に出現することである。
また、ここでいう正規化は、ある値を、より比較し易い別の値に変換することである。例えば、用語aとbとの接続パタンの出現割合に対し、式(11)に基づいて正規化を行うことが考えられる。
Figure 0006027781
ここで、normal(a,b)は、用語aと用語bとの接続パタンの出現回数の正規化値を示す。また、p(a,b)は、用語aとbとの接続パタンが出現する文の割合(すなわち、用語aとbとが共に出現する文の割合)を示す。また、p(a)は、用語aが出現する文の割合を示す。また、p(b)は、用語bが出現する文の割合を示す。これらの割合を確率と見做すと、式(11)の右辺は、いわば相互情報量の算出式に相当する。
また、ある用語が出現する文の割合は、用語が出現する文の数を文の総数で除算して得られる。そこで、表記ゆれ統合部240は、式(12)に基づいて用語の接続パタンの出現回数を正規化する。
Figure 0006027781
ここで、freq_s(a,b)は、用語aと用語bとの接続パタンの出現回数(すなわち、用語aとbとが共に出現する文の数)を示す。また、freq_s(a)は、用語aの出現回数(すなわち、用語aが出現する文の数)を示す。また、freq_s(b)は、用語bの出現回数を示す。
例えば、図16の例において、表記ゆれ統合部240は、「米国」の出現する文の数、「に行く」の出現する文の数、「米国」と「に行く」とが共に出現する文の数、および、文の総数を、式(12)に代入して、「米国」と「に行く」との正規化値を算出する。
このように、表記ゆれ統合部240が、用語の接続パタンの出現回数に基づいて用語の類似度を算出することで、「米国」と「アメリカ」とのように、表記は類似していないが同義の用語の類似度を高く算出し得る。従って、表記ゆれ統合部240は、表記は類似していないが同義の用語を、辞書無しで同一のグループに分類し得る。
関連付け部250は、複数の用語が同一の文書に共起(すなわち、共に出現)する頻度に基づいて用語の関連付けを行う。具体的には、関連付け部250は、グループAとグループBとが式(13)を満たす場合に、グループAとグループBとの間に共起関係があると決定する(グループAに含まれる各用語と、グループBに含まれる各用語とを、共起語として対応付ける)。
関連付け部250は、この共起関係の有無の決定を、表記ゆれ統合部240のグループ分けにおける2つのグループの全組み合わせについて行う。すなわち、関連付け部250は、2つのグループの組み合わせの各々について、一方のグループに含まれる用語と他方のグループに含まれる用語とが同一の文書に共起する頻度に基づいて、一方のグループに含まれる各用語と他方のグループに含まれる各用語とを共起語として対応付けるか否かを決定する。
Figure 0006027781
ここで、Da(G,N)は、最新の単位期間N内に発生した文書における、グループGに含まれる用語のうち少なくとも1つが出現する文書の集合を示す。また、Num(E)は、集合Eの要素数を示す。また、E∩Eは、集合EとEとの積集合(すなわち共通部分)を示す。また、MAX(N、N)は、数字NとNとの最大値(すなわちいずれか大きいほうの値)を示す。また、SHsは、共起閾値として予め設定された定数を示す。
また、freq(G,N)は、最新の単位期間N内に発生した文書における、グループGに含まれる用語のうち少なくとも1つが出現した文書の数を示す。また、SHaは、出現頻度閾値として予め設定された定数を示す。
図17は、共起のイメージを模式的に示す説明図である。同図において、A用語出現文書集合は、グループAに含まれる用語のうち少なくとも1つが出現した文書の集合である。また、B用語出現文書集合は、グループBに含まれる用語のうち少なくとも1つが出現した文書の集合である。
また、A用語出現文書集合とB用語出現文書集合との共通部分(以下、単に「共通部分」と称する)は、グループAに含まれる用語のうち少なくとも1つとグループBに含まれる用語のうち少なくとも1つが共に出現した文書の集合、すなわち、グループAに含まれる用語とグループBに含まれる用語とが共起する文書の集合を示す。
ここで、共通部分が大きいほど、グループAに含まれる用語とグループBに含まれる用語とが共通の事象に関連している可能性が高い。そこで、関連付け部250は、式(11)における最初の不等式にて、共通部分の大きさを、A用語出現文書集合の大きさ、および、B用語出現文書集合に占める割合にて評価している。また、式(11)における2番目の不等式および3番目の不等式は、出現頻度の低過ぎる用語を除外する。
ここで、あるグループに含まれる用語の出現頻度が低い場合、共通部分が大きく評価されがちである。例えば、グループGに含まれる用語の出現が1回のみの場合、この用語が出現している文書にて共に出現している他の用語との関係では、出現回数も共起の回数も共に1回であり、共起の回数を出現回数で除算した割合は100%となる。
しかしながら、このようにグループに含まれる用語の出現頻度が極端に低い場合、共起の回数が少ないので、共起している用語の間に強い関連性が無く、偶然共起しただけという可能性がある。
そこで、式(11)における2番目の不等式および3番目の不等式にて、出現頻度の低過ぎる用語を除外することで、関連性の低い用語を関連付けることを回避する。
関連付け部250は、関連付けの結果を、前処理部120が単位期間毎に分類した文書と、用語抽出部130が抽出した用語と、表記ゆれ統合部240が生成したグループの情報と共に評価部260に出力する。
評価部260は、評価部160(図1)と同様、ランキング情報を生成して表示部270に出力することで、表示部270ランキングを表示させる。ただし、評価部260は、図13を参照して説明したように、グループ毎の用語の順位とグループ間の順位とを示すランキング情報を生成する。また、評価部260は、グループと共起用語とを対応付けて表示部270に表示させる。
表示部270は、図13の例のように、表記ゆれ統合部240が行ったグループ分けにおけるグループ毎に用語を表示する。また表示部270は、当該グループに含まれる用語に関連付けられた用語を当該グループに対応付けて表示する。
次に、図18〜図20を参照して用語抽出装置200の動作について説明する。
図18は、用語抽出装置200が用語の出現頻度の増加の度合いのランキングを生成して表示する処理手順を示すフローチャートである。用語抽出装置100は、単位期間毎に同図の処理を行ってランキングを生成し表示する。
図18のステップS301〜S303は、図10のステップS101〜S103と同様である。ただし、ステップS303において、用語抽出部130は、抽出した用語と前処理部120からの文書とを表記ゆれ統合部240に出力する。
次に、表記ゆれ統合部240は、用語抽出部130が抽出した用語の類似度を算出し、得られた類似度に基づいて用語のグループ分けを行うことで、表記ゆれの用語を同一のグループに統合する(ステップS304)。
図19は、表記ゆれ統合部240が行う処理の手順を示すフローチャートである。表記ゆれ統合部240は、図18のステップS304にて図19の処理を行う。
図19の処理において、表記ゆれ統合部240は、まず、用語抽出部130が抽出した用語のうちの2つの各組み合わせについて、用語の類似度を算出する(ステップS401)。
次に、表記ゆれ統合部240は、各用語について、当該用語のみからなるグループを形成し、用語の類似度をグループの類似度として設定する(ステップS402)。
次に、表記ゆれ統合部240は、グループが2つ以上あるか否かを判定する(ステップS403)。グループが1つであると判定した場合(ステップS403:NO)、得られたグループを示す情報を、用語抽出部130が抽出した用語および所定周期毎に分類された文書と共に関連付け部250に出力する(ステップS421)。その後、同図の処理を終了し、図18の処理に戻る。
一方、グループが2つ以上あると判定した場合(ステップS403:YES)、表記ゆれ統合部240は、グループ同士の類似度の最も高い2つのグループを選択する(ステップS411)。
そして、表記ゆれ統合部240は、選択したグループの類似度が類似度閾値より大きいか否かを判定する(ステップS412)。類似度閾値以下であると判定した場合(ステップS412:NO)、ステップS421へ進む。
一方、類似度閾値より大きいと判定した場合(ステップS412:YES)、表記ゆれ統合部240は、グループの類似度を与える用語の組み合わせについて、形態素一致率が形態素一致率閾値より大きいか否かを判定する(ステップS431)。形態素一致率閾値より大きいと判定した場合(ステップS431:YES)、表記ゆれ統合部240は、選択したグループを結合する(ステップS441)。
そして、表記ゆれ統合部240は、結合したグループと他の各グループとの類似度を更新する(ステップS442)。その後、ステップS403へ戻る。
一方、ステップS431において、形態素一致率が形態素一致率閾値以下であると判定した場合(ステップS431:NO)、表記ゆれ統合部240は、当該用語の組み合わせについて用語の類似度を無効化するフラグを設定することで、当該用語の組み合わせを類似度判定の対象から除外する(ステップS441)。その後、ステップS411へ戻る。
ステップS304の後、関連付け部250は、複数の用語が同一の文書に共起する頻度に基づいて用語の関連付けを行い、得られた関連付けを示す情報を、表記ゆれ統合部240が形成したグループを示す情報や、用語抽出部130が抽出した用語や、単位期間毎に分類された文書と共に評価部260に出力する(ステップS305)。
そして、評価部260は、ランキング情報を生成し、表示部270に出力する(ステップS306)。
図20は、評価部260が行う処理の手順を示すフローチャートである。評価部260は図18のステップS306にて、図20の処理を行う。
図20のステップS501〜S502は、図11のステップS201〜S202と同様である。
ステップS502の後、評価部260は、ステップS502で表示対象に選択された用語を、表記ゆれ統合部240が形成したグループに分類し、グループ毎に用語を順位に従って並べる(ステップS503)。
また、評価部260は、各グループについて当該グループに含まれる用語のスコアを合計してグループのスコアを算出し、スコアの高い順にグループを順位付けする(ステップS504)。すなわち、評価部260は、用語の出現頻度の増加傾向が強いほど大きい値を示すスコアを評価値として算出し、各グループについて、当該グループに含まれる用語のスコアを合計してグループのスコアを算出する。
そして、評価部260は、表示対象のグループ(表示対象の用語を含むグループ)を、ステップS504で設定した順位に従って並べてランキング情報を生成する(ステップS505)。
また、評価部260は、最新のランキングにおける各用語の順位と前回のランキングにおける各用語の順位をと対比して順位急上昇用語を抽出し、ランキング情報に付加した順位急上昇用語フラグの値を設定する(ステップS506)。
さらに、評価部260は、初出用語を検出し、ランキング情報に付加した初出用語フラグの値を設定する(ステップS507)。
そして、評価部260は、生成したランキング情報を表示部270に出力する(ステップS508)。
その後、図20の処理を終了し、図18の処理に戻る。
ステップS306の後、表示部270は、評価部260からのランキング情報に基づいて、図13を参照して説明したように、用語のランキングを表示し、順位急上昇用語および初出用語を強調表示する(ステップS307)。
その後、図18の処理を終了する。
以上のように、表記ゆれ統合部240は、用語の類似度を算出し、得られた類似度に基づいて用語のグループ分けを行う。そして、表示部270は、表記ゆれ統合部240のグループ分けにおけるグループ毎に用語を表示する。
これにより、表示部270は、表記ゆれを同一の用語として扱ってランキング表示を行うことができ、表記ゆれによる順位の低下を防止し得る。
また、関連付け部250は、複数の用語が同一の文書に共起する頻度に基づいて用語の関連付けを行う。そして、表示部270は、表記ゆれ統合部240が形成したグループに含まれる用語に関連付けられた用語を当該グループに対応付けて表示する。
これにより、ユーザは、用語が出現した原文書の内容を推測し易くなる。従って、ユーザが原文書を参照せずとも用語に関連する事象を把握できる可能性が高まる。この点では、ユーザは、用語に関連する事象をより速く把握し得る。
なお、前処理部120や、用語抽出部130や、表記ゆれ統合部240や、関連付け部250や、評価部160および260の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、コンパクトディスク等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。
100、200 用語抽出装置
110 文書取得部
120 前処理部
130 用語抽出部
160、260 評価部
170、270 表示部
240 表記ゆれ統合部
250 関連付け部

Claims (6)

  1. 文書と当該文書の発生タイミングを示す情報とを電子データにて取得する文書取得部と、
    前記文取得部が取得した複数の文書に対して形態素解析を行って用語を抽出する用語抽出部と、
    前記用語抽出部が抽出した用語の各々について、前記複数の文書のうち前記発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、前記複数の文書のうち前記発生タイミングが前記単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いが大きい順の順位を求め、少なくとも、最新の単位期間における前記順位の対数と、前記最新の単位期間よりも過去の単位期間における前記順位の対数とに基づいて、当該用語の出現頻度の増加傾向の評価値を求め、得られた評価値に基づいて用語を選択する評価部と、
    を具備することを特徴とする用語抽出装置。
  2. 前記評価部は、最新の単位期間に発生した文書において初めて出現した用語である初出用語を検出することを特徴とする請求項1に記載の用語抽出装置。
  3. 前記評価部は、最新の単位期間以前の期間に発生した文書において一定条件以上出現している用語であるコンスタント出現用語を検出することを特徴とする請求項1または請求項2に記載の用語抽出装置。
  4. 前記用語抽出部が抽出した用語同士の類似度を、2つの前記用語の組み合わせの各々について算出し、得られた類似度に基づいて前記用語をグループ内での順序のあるグループに分ける表記ゆれ統合部であって、2つのグループを結合する場合、結合される2つのグループの一方である第一グループの末尾に、結合される2つのグループのもう一方である第二グループを結合する方法、前記第一グループにおける用語の並び順を逆にした末尾に、前記第二グループを結合する方法、及び、前記第一グループの末尾に、前記第二グループにおける用語の並び順を逆にして結合する方法のうち、前記第一グループに属する用語と前記第二グループに属する用語との2つの用語の全ての組み合わせのうちで類似度が最も高い2つの用語が最も近くに配置される方法で結合する表記ゆれ統合部を具備し、
    前記評価部は、前記用語の出現頻度の増加傾向が強いほど大きい値を示すスコアを前記評価値として算出し、前記表記ゆれ統合部がグループ分けした各グループについて、当該グループに含まれる用語のスコアを合計してグループのスコアを算出する
    ことを特徴とする請求項1から3のいずれか一項に記載の用語抽出装置。
  5. 用語抽出装置の用語抽出方法であって、
    文書と当該文書の発生タイミングを示す情報とを電子データにて取得する文書取得ステップと、
    前記文取得ステップにて取得した複数の文書に対して形態素解析を行って用語を抽出する用語抽出ステップと、
    前記用語抽出ステップにて抽出した用語の各々について、前記複数の文書のうち前記発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、前記複数の文書のうち前記発生タイミングが前記単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いが大きい順の順位を求め、少なくとも、最新の単位期間における前記順位の対数と、前記最新の単位期間よりも過去の単位期間における前記順位の対数とに基づいて、当該用語の出現頻度の増加傾向の評価値を求め、得られた評価値に基づいて用語を選択する評価ステップと、
    を具備することを特徴とする用語抽出方法。
  6. 用語抽出装置としてのコンピュータに、
    文書と当該文書の発生タイミングを示す情報とを電子データにて取得する文書取得ステップと、
    前記文取得ステップにて取得した複数の文書に対して形態素解析を行って用語を抽出する用語抽出ステップと、
    前記用語抽出ステップにて抽出した用語の各々について、前記複数の文書のうち前記発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、前記複数の文書のうち前記発生タイミングが前記単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いが大きい順の順位を求め、少なくとも、最新の単位期間における前記順位の対数と、前記最新の単位期間よりも過去の単位期間における前記順位の対数とに基づいて、当該用語の出現頻度の増加傾向の評価値を求め、得られた評価値に基づいて用語を選択する評価ステップと、
    を実行させるためのプログラム。
JP2012133814A 2012-06-13 2012-06-13 用語抽出装置、用語抽出方法およびプログラム Active JP6027781B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012133814A JP6027781B2 (ja) 2012-06-13 2012-06-13 用語抽出装置、用語抽出方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012133814A JP6027781B2 (ja) 2012-06-13 2012-06-13 用語抽出装置、用語抽出方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2013257765A JP2013257765A (ja) 2013-12-26
JP6027781B2 true JP6027781B2 (ja) 2016-11-16

Family

ID=49954143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012133814A Active JP6027781B2 (ja) 2012-06-13 2012-06-13 用語抽出装置、用語抽出方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6027781B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017077902A1 (ja) 2015-11-06 2017-05-11 日本電気株式会社 データ処理装置、データ処理方法、及び、プログラム
CN107784010B (zh) * 2016-08-29 2021-12-17 南京尚网网络科技有限公司 一种用于确定新闻主题的热度信息的方法与设备
CN108415910B (zh) * 2017-02-09 2021-03-05 中国传媒大学 基于时间序列的话题发展聚类分析系统和方法
CN107992976B (zh) * 2017-12-15 2020-09-29 中国传媒大学 热点话题早期发展趋势预测系统及预测方法
CN109214562A (zh) * 2018-08-24 2019-01-15 国网山东省电力公司电力科学研究院 一种基于rnn的电网科研热点预测与推送方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216311A (ja) * 2000-02-01 2001-08-10 Just Syst Corp イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
JP2002215647A (ja) * 2001-01-24 2002-08-02 Nec Corp テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそれらに用いるプログラム
JP2006323517A (ja) * 2005-05-17 2006-11-30 Mitsubishi Electric Corp テキスト分類装置およびプログラム
JP2009253497A (ja) * 2008-04-03 2009-10-29 Victor Co Of Japan Ltd 番組受信装置

Also Published As

Publication number Publication date
JP2013257765A (ja) 2013-12-26

Similar Documents

Publication Publication Date Title
KR102092691B1 (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
Dai et al. From social media to public health surveillance: Word embedding based clustering method for twitter classification
JP5990178B2 (ja) キーワード抽出に関するシステム及び方法
CN111475729B (zh) 搜索内容推荐方法及装置
US8819047B2 (en) Fact verification engine
US20200012905A1 (en) Label consistency for image analysis
JP6027781B2 (ja) 用語抽出装置、用語抽出方法およびプログラム
CN112380244B (zh) 一种分词搜索方法、装置、电子设备及可读存储介质
KR101735312B1 (ko) 소셜 미디어 분석을 기반으로 복합이슈를 탐지하기 위한 장치, 시스템 및 그 방법
EP2824586A1 (en) Method and computer server system for receiving and presenting information to a user in a computer network
KR101377447B1 (ko) 태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템
WO2011111038A2 (en) Method and system of providing completion suggestion to a partial linguistic element
JP2008152522A (ja) データマイニングシステム、データマイニング方法及びデータ検索システム
Kanhabua et al. Identifying relevant temporal expressions for real-world events
US20110087659A1 (en) Document relevance determining method and computer program
CN105653553B (zh) 词权重生成方法和装置
JP2008083928A (ja) 医療情報抽出装置、及び医療情報抽出プログラム
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
Sağlam et al. Automatic information timeliness assessment of diabetes web sites by evidence based medicine
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
JP5777663B2 (ja) 検索支援装置及び検索支援プログラム
Bobicev et al. Authorship attribution in health forums
JP5955817B2 (ja) 抽出装置、抽出方法及びプログラム
JP6457153B2 (ja) キーワード抽出システム、キーワード抽出方法およびプログラム
CN111709226B (zh) 一种文本处理方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161017

R150 Certificate of patent or registration of utility model

Ref document number: 6027781

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350