JP2013257765A

JP2013257765A - 用語抽出装置、用語抽出方法およびプログラム

Info

Publication number: JP2013257765A
Application number: JP2012133814A
Authority: JP
Inventors: Tomomichi Takayama; 智道高山; Takashi Suenaga; 高志末永; Shinya Motojima; 慎也本島; Eisuke Ogawa; 英輔小川
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2012-06-13
Filing date: 2012-06-13
Publication date: 2013-12-26
Anticipated expiration: 2032-06-13
Also published as: JP6027781B2

Abstract

【課題】用語抽出装置が、話題になると予測される用語を予め抽出できるようにする。
【解決手段】評価部１６０が、用語抽出部１３０が抽出した用語の各々について、文書取得部１１０が取得した文書のうち発生タイミングが最新の単位期間に含まれる文書における当該用語の出現頻度の、発生タイミングが最新の単位期間以前の期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いの評価値（順位またはスコア）を求める。
【選択図】図１

Description

本発明は、文書から用語を抽出する用語抽出装置、用語抽出方法およびプログラムに関する。

複数の文書データを解析し、話題になっている用語を抽出する用語抽出技術が幾つか提案されている。例えば、特許文献１に記載の情報抽出装置では、文書を当該文書の更新日時に関する情報とともに保持する文書データベースと、文書データベースに保持された複数の文書に含まれる特定の語句の時間的な分布を文書の更新日時に基づいて検出して、分布の強度が高い語句を話題語句として抽出する話題語句抽出手段と、話題語句と同一文書に含まれる他の語句をカテゴリ語句として抽出する話題カテゴリ抽出手段と、話題語句をカテゴリ語句を用いて分類して管理する話題管理手段と、を備える。ここで、分布の強度の高い語句とは、分布している時間範囲に対する分布中のピークの度合いが高い語句のことをいい、例えば、短い時間範囲に分布している語句、分布中のピークが突出している語句等がある、とされている。
これにより、特許文献１に記載の情報抽出装置では、複数の文書から話題を抽出するだけでなく、更に、話題をより有効的に利用するための種々の情報を抽出することができる、とされている。

特開平１０−３４０１７５号公報

従来の用語抽出技術は、既に話題になっている用語を抽出するためのものである。例えば、特許文献１において、情報抽出装置が抽出する分布強度が高い語句は、話題性の高い語句とみなすることができる、とされている。すなわち、特許文献１に記載の情報抽出装置は、既に話題性の高くなっている語句（用語）を抽出することを目的として、分布強度が高い語句を抽出している。

一方、相談対応や苦情対応など、話題になると予測される用語を予め取得したい場合がある。例えば、相談対応や苦情対応の担当者が、コールセンター等に寄せられた相談や苦情などのデータから、既に話題になっている用語を取得して、相談や苦情に関連する事象を把握し対応したのでは、当該事象が既に拡大しており対応が後手に回ってしまうおそれがある。事象が拡大する前に対応するために、相談対応や苦情対応の担当者は、話題になると予測される用語を予め取得して対応することを求められる。
しかしながら、従来の用語抽出技術では、話題になると予測される用語を予め抽出することはできない。

本発明は、このような事情を考慮してなされたものであり、その目的は、話題になると予測される用語を予め抽出することのできる用語抽出装置、用語抽出方法およびプログラムを提供することにある。

この発明は上述した課題を解決するためになされたもので、本発明の一態様による用語抽出装置は、文書と当該文書の発生タイミングを示す情報とを電子データにて取得する文書取得部と、前記文字取得部が取得した複数の文書に対して形態素解析を行って用語を抽出する用語抽出部と、前記用語抽出部が抽出した用語の各々について、前記複数の文書のうち前記発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、前記複数の文書のうち前記発生タイミングが前記単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いを求め、少なくとも、最新の単位期間における増加の度合いと、前記最新の単位期間よりも過去の単位期間における増加の度合いとに基づいて、当該用語の出現頻度の増加傾向の評価値を求め、得られた評価値に基づいて用語を選択する評価部と、を具備することを特徴とする。

また、本発明の一態様による用語抽出装置は、上述の用語抽出装置であって、前記用語抽出部が抽出した用語同士の類似度を、２つの前記用語の組み合わせの各々について算出し、得られた類似度に基づいて前記用語のグループ分けを行う表記ゆれ統合部を具備し、前記評価部は、前記用語の出現頻度の増加傾向が強いほど大きい値を示すスコアを前記評価値として算出し、前記表記ゆれ統合部がグループ分けした各グループについて、当該グループに含まれる用語のスコアを合計してグループのスコアを算出することを特徴とする。

また、本発明の一態様による用語抽出装置は、上述の用語抽出装置であって、２つの前記グループの組み合わせの各々について、一方のグループに含まれる用語と他方のグループに含まれる用語とが同一の文書に共起する頻度に基づいて、前記一方のグループに含まれる各用語と前記他方のグループに含まれる各用語とを共起語として対応付けるか否かを決定する関連付け部を具備することを特徴とする。

また、本発明の一態様による用語抽出方法は、用語抽出装置の用語抽出方法であって、文書と当該文書の発生タイミングを示す情報とを電子データにて取得する文書取得ステップと、前記文字取得ステップにて取得した複数の文書に対して形態素解析を行って用語を抽出する用語抽出ステップと、前記用語抽出ステップにて抽出した用語の各々について、前記複数の文書のうち前記発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、前記複数の文書のうち前記発生タイミングが前記単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いを求め、少なくとも、最新の単位期間における増加の度合いと、前記最新の単位期間よりも過去の単位期間における増加の度合いとに基づいて、当該用語の出現頻度の増加傾向の評価値を求め、得られた評価値に基づいて用語を選択する評価ステップと、を具備することを特徴とする。

また、本発明の一態様によるプログラムは、用語抽出装置としてのコンピュータに、文書と当該文書の発生タイミングを示す情報とを電子データにて取得する文書取得ステップと、前記文字取得ステップにて取得した複数の文書に対して形態素解析を行って用語を抽出する用語抽出ステップと、前記用語抽出ステップにて抽出した用語の各々について、前記複数の文書のうち前記発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、前記複数の文書のうち前記発生タイミングが前記単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いを求め、少なくとも、最新の単位期間における増加の度合いと、前記最新の単位期間よりも過去の単位期間における増加の度合いとに基づいて、当該用語の出現頻度の増加傾向の評価値を求め、得られた評価値に基づいて用語を選択する評価ステップと、を実行させるためのプログラムである。

この発明によれば、話題になると予測される用語を予め抽出することができる。

本発明の第１の実施形態における用語抽出装置の機能構成を示す概略ブロック図である。同実施形態において、用語抽出装置が表示する、用語の出現頻度の増加順位の表示の例を示す説明図である。同実施形態における順位急上昇用語の例を示す説明図である。同実施形態において、用語抽出部が文書から抽出する用語の例を示す説明図である。同実施形態において、用語抽出部が適用するフィルタリングルールの例を示す説明図である。同実施形態における、単調増加していない評価の例を模式的に示す説明図である。同実施形態における、評価上昇のカーブが下凸になっていない評価の例を模式的に示す説明図である。同実施形態において、表示部が、ある用語の順位の上昇幅や順位の上昇幅の増加度を表示した例を示す説明図である。同実施形態において、表示部が、コンスタント出現用語や初出用語をランキング表示と対応付けたマトリクスにて表示した例を示す説明図である。同実施形態において、用語抽出装置が用語の出現頻度の増加の度合いのランキングを生成して表示する処理手順を示すフローチャートである。同実施形態において、評価部が行う処理の手順を示すフローチャートである。本発明の第２の実施形態における用語抽出装置の機能構成を示す概略ブロック図である。同実施形態において、用語抽出装置が表示する、用語の出現頻度の増加順位の表示の例を示す説明図である。同実施形態において、用語抽出装置が表示する、用語の出現頻度の増加順位の表示の変化の例を示す説明図である。同実施形態において、表記ゆれ統合部が行うグループ分けの例を示す説明図である。同実施形態における用語の接続パタンの類似度の例を示す説明図である。同実施形態における共起のイメージを模式的に示す説明図である。同実施形態において、用語抽出装置が用語の出現頻度の増加の度合いのランキングを生成して表示する処理手順を示すフローチャートである。同実施形態において、表記ゆれ統合部が行う処理の手順を示すフローチャートである。同実施形態において、評価部が行う処理の手順を示すフローチャートである。

＜第１の実施形態＞
以下、図面を参照して、本発明の実施の形態について説明する。図１は、本発明の第１の実施形態における用語抽出装置の機能構成を示す概略ブロック図である。同図において、用語抽出装置１００は、文書取得部１１０と、前処理部１２０と、用語抽出部１３０と、評価部１６０と、表示部１７０とを具備する。

用語抽出装置１００は、発生タイミングが既知である複数の文書を参照し、これら複数の文書に含まれる用語のうち出現の増加傾向が所定の判定基準を満たす用語を、話題になると予測される用語として抽出する。
例えば、用語抽出装置１００は、コールセンターに寄せられた相談や苦情から、話題になると予測される用語を抽出する。相談対応や苦情対応の担当者は、用語抽出装置１００が抽出した用語を参照して対応すべき事象を判断することで、事象が拡大する前に対応し得る。
あるいは、用語抽出装置１００が、インターネットにて提示されている文書から、話題になると予測される用語を抽出するようにしてもよい。ユーザは、用語抽出装置１００が抽出した用語を参照して、これから話題や流行になる事物を予測することが出来る。

なお、ここでいう文書は、一纏まりの文である。文書は、１つの文にて構成されていてもよいし、複数の文を含んでいてもよい。用語抽出装置１００は、ある用語が出現する文書の数をカウントして当該用語の出現頻度を算出する。ここで、ある用語が出現する文書の数を、当該用語の「出現回数」と称する。また、ある用語の出現回数を、カウント対象となっている文書の数で除算した割合を、当該用語の「出現割合」と称する。すなわち、ここでいうある用語の出現割合は、対象となっている文書の量に対して当該用語が出現する割合である。また、出現回数と出現割合とを総称して「出現頻度」と表記する。
用語抽出装置１００は、例えば、コールセンターに寄せられた１回の電話相談における会話内容を示す一纏まりの文を文書として取得する。

また、文書の発生タイミングとしては、例えば、文書データの生成された日時、あるいは、文書データの生成者が設定した日時を用いる。例えば、コールセンターのオペレータが電話相談を受けて相談内容を記録した文書ファイルを生成した場合、用語抽出装置１００は、オペレータが当該文書ファイルに記載する電話を受けた日時を、文書の発生タイミングとして用いる。あるいは、用語抽出装置１００が、当該文書ファイルの生成日時を文書の発生タイミングとして用いるようにしてもよい。

図２は、用語抽出装置１００（表示部１７０）が表示する、用語の出現頻度の増加順位の表示の例を示す説明図である。
同図において、用語の左に付されている数字は、当該用語の出現頻度の増加順位を示している。従って、図２の例では、用語「固定カメラシステム」が、出現頻度の最も増加した用語であり、用語「障害監視システム」が、出現頻度が２番目に増加した用語である。

これら出現頻度が大きく増加している用語について、出現頻度が引き続き増加することが予想される。出現頻度が引き続き増加することで、当該用語が頻出用語（すなわち、話題になっている用語）となることが予想される。この点において、用語抽出装置１００は、出現頻度の増加順位の高い用語を抽出することで、話題になると予測される用語を抽出している。

また、表示部１７０が表示している各用語には、当該用語が出現した原文書へのリンクが張られている。そして、ユーザがいずれかの用語を選択（例えばタッチまたはマウスクリック）すると、用語抽出装置１００は、当該用語に張られているリンクに従って原文書を表示する。これにより、ユーザは、表示部１７０が表示している用語を選択するという簡単な操作にて原文書を参照することができ、用語に関連する事象を把握することができる。

また、図２における用語「プラネタリウム」の強調表示は、当該用語が初出用語であることを示している。ここでいう初出用語は、最近の所定期間において初めて出現した用語である。
この初出用語は、ユーザが初めて見る用語である点において、注目すべき用語である可能性が高い。従って、用語抽出装置１００（表示部１７０）が初出用語を強調表示することで、ユーザが注目すべき可能性を見逃すおそれを低減させ得る。例えば、相談対応や苦情対応の担当者は、初出用語に注目することで、新たに出現し始めた相談や苦情に関連する事象を把握して、事象が拡大する前に対応することができる。

また、図２における用語「障害監視システム」の強調表示は、当該用語が、出現頻度の増加順位が特に大きく上昇している用語（以下、「順位急上昇用語」と称する）であることを示している。
図３は、順位急上昇用語の例を示す説明図である。同図に示すランキングＲ１２は、出現頻度の増加順位の最新ランキングを示している。また、ランキングＲ１１は、ランキングＲ１２よりも１つ過去のランキングを示している。

このランキングにおける順位は、出現頻度の増加の度合いを示している。例えば、図３の例において、用語「障害監視システム」の順位は、ランキングＲ１２にて２位と高順位になっている。この順位は、用語「障害監視システム」の出現頻度が大きく増加していることを示している。
一方、順位の上昇幅は、出現頻度の増加傾向が強まっている様子を示している。例えば、用語「監視システム」の順位は、ランキングＲ１１において３２位であったものが、ランキングＲ１２において２位と急上昇している。従って、ランキングＲ１２の時点における用語「監視システム」の出現頻度の上昇の度合いは、ランキングＲ１１の時点における上昇の度合いよりも大幅に強まっている。

時間経過と共に用語の出現頻度の上昇の度合いが強まり続けると、当該用語の出現頻度が急激に増加し、間もなく頻出用語（すなわち、話題になっている用語）となることが予想される。すなわち、順位急上昇用語は、他の用語と比べて、話題になるまでにかかる時間が短い可能性がある。
そこで、用語抽出装置１００（表示部１７０）は、順位急上昇用語を強調表示してユーザの注目を促す。これにより、ユーザが当該用語を見落として話題になるまで気付かないおそれを低減させることができる。

文書取得部１１０は、文書と当該文書の発生タイミングを示す情報とを電子データにて取得する。
文書取得部１１０は、例えば、コールセンターに寄せられた電話相談における会話内容を示す文書を文書データファイルにて記憶しているデータサーバ装置と通信を行う通信回路にて実現され、当該データサーバ装置から、文書と当該文書の発生タイミング（例えば、電話を受けた日時）を示す情報とを取得する。

ここで、本発明は、文書取得部１１０が文書を取得する形態に依存しない。従って、文書取得部１１０が文書を取得する形態として様々なものを用いることができる。例えば、文書取得部１１０が、テキストファイルにて文書を取得するようにしてもよいし、ワープロ文書ファイルなど他の形式のファイルにて文書を取得するようにしてもよい。あるいは、文書取得部１１０が、１つのファイルにて１つの文書を取得するようにしてもよいし、１つのファイルにて複数の文書を纏めて取得するようにしてもよい。

また、文書が発生する毎に文書取得部１１０が当該文書を取得して記憶しておくようにしてもよいし、あるいは、用語抽出装置１００がランキングの処理等を行う度に、文書取得部１１０が、過去に発生した文書も含めて取得するようにしてもよい。
文書取得部１１０は、取得した文書と当該文書の発生タイミングを示す情報とを対応付けて前処理部１２０に出力する。

前処理部１２０は、文書取得部１１０が取得した文書を、当該文書の発生タイミング情報に基づいて単位期間として設定されている所定期間毎（例えば１週間毎）に分類する。後述するように、評価部１６０は、単位期間内に発生した文書に出現する各用語について出現頻度を算出し、当該単位期間よりも過去に発生した文書における当該用語の出現頻度との対比にて出現頻度の増加の度合いを求める。そこで、前処理部１２０は、用語抽出処理や出現頻度の増加の度合いを求める処理の前処理として、文書の期間毎の分類を行う。

また、前処理部１２０は、文書ファイルの書式変換を行う。すなわち、文書取得部１１０の取得した文書ファイルの書式が、用語抽出部１３０や評価部１６０が処理可能な書式と異なる場合、前処理部１２０は、当該文書ファイルの書式を、用語抽出部１３０や評価部１６０が処理可能な書式に変換する。
前処理部１２０は、期間毎に分類された文書を用語抽出部１３０に出力する。

用語抽出部１３０は、文書取得部１１０が取得した複数の文書から用語を抽出する。具体的には、用語抽出部１３０は、文書取得部１１０が取得した複数の文書のうち、前処理部１２０が最新の単位期間に分類した文書から用語を抽出する。この最新の単位期間に分類された文書から集出する用語は、評価部１６０が行うランキングの候補となる用語である。

図４は、用語抽出部１３０が文書から抽出する用語の例を示す説明図である。同図に示すように、用語抽出部１３０は、文書に対して形態素解析を行って用語を生成（抽出）する。図４の例では、用語抽出部１３０は、まず、「保健福祉施設において・・・」という文書から、「保険」や「福祉」や「施設」といった形態素を抽出している。そして、用語抽出部１３０は、抽出した形態素を組み合わせて（文字列として結合して）、「保健施設」や「福祉施設」や「保健福祉施設」といった用語を生成している。

ここで、形態素解析や複合名詞化において、用語抽出部１３０は、形態素や用語としてふさわしくないものを除外するフィルタリングを行う。
図５は、用語抽出部１３０が適用するフィルタリングルールの例を示す説明図である。同図に示すフィルタリングルールのうち、チェックレベルが形態素となっているルールは、用語抽出部１３０が形態素解析にて得られた形態素に適用するルールである。

例えば、行Ｌ１１１に示すルールは、名詞以外の形態素を除外するものである。ここで、本実施形態では、用語抽出部１３０が、名詞の形態素を組み合わせて得られる名詞としての用語を抽出することを予定している。そこで、用語抽出部１３０は、形態素解析にて抽出した形態素のうち、名詞以外の形態素を除外する。
また、行Ｌ１１２に示すルールは、非自立語や代名詞などの形態素を除外するものである。例えば、用語抽出装置１００（表示部１７０）が「それ」などの代名詞を表示しても、ユーザは当該代名詞が指すものを把握することができない。すなわち、ユーザは、話題を把握することができない。そこで、用語抽出部１３０は、話題の把握に不適切な形態素を除外する。

また、図５に示すフィルタリングルールのうち、チェックレベルが複合語となっているルールは、用語抽出部１３０が複合名詞化にて得られた用語に適用するルールである。
例えば、行Ｌ１２１に示すルールは、数字のみの用語を除外するものである。例えば、用語抽出装置１００（表示部１７０）が数字のみの用語を表示しても、ユーザは、当該数字が何を意味するか把握できず、用語に関連する事象を把握できない可能性が高い。そこで、用語抽出部１３０は、注目対象として不適切な数字のみの用語を除外する。

また、行Ｌ１２２に示すルールは、２文字以下の用語を除外するものである。通常、２文字以下の用語は、意味を把握するには文字列長が短すぎる。例えば、用語抽出装置１００（表示部１７０）が「わん」という用語を表示しても、犬の鳴き声や、「碗」など様々な意味が想起され、ユーザは、特定の意味に絞り込むことができない。また、「わん」という用語が異なる意味で用いられて文書に出現した場合、評価部１６０は、用語を意味で区別することができない。そのため、評価部１６０は、本来別々に出現回数を数えるべき用語を同一の用語と捉えてしまい、意味毎に出現回数を数えた場合よりも出現回数が多くなってしまう。そこで、評価部１６０は２文字の用語を除外する。

このように、用語抽出部１３０が、形態素解析や複合名詞化の処理においてフィルタリングを行うことで、注目すべき用語として不適切な用語の提示（表示部１７０による表示）を低減させることができる。また、当該フィルタリングによって、評価部１６０の処理対象となる用語の数を削減でき、処理時間や処理負荷を低減させることができる。
用語抽出部１３０は、最終的に得られた用語と、前処理部１２０から取得した期間毎に分類された文書とを評価部１６０に出力する。

評価部１６０は、前処理部１２０からの用語の各々について、文書取得部１１０が取得した複数の文書のうち発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、複数の文書のうち発生タイミングが当該単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いを求め、少なくとも、最新の単位期間における増加の度合いと、最新の単位期間よりも過去の単位期間における増加の度合いとに基づいて、当該用語の出現頻度の増加傾向の評価値を求める。本実施形態では、評価部１６０は、評価値として、増加の度合いが大きい順の順位を用語の各々について求める。

具体的には、評価部１６０は、用語抽出部１３０から出力された各用語について、まず、最新の単位期間内に発生した文書での出現回数をカウントする。次に、評価部１６０は、各用語について、最新の単位期間内に発生した文書における出現回数と、それ以前に発生した文書での出現回数とを用いて、出現頻度の増加の度合いのスコアを算出する。それ以前に発生した文書での出現回数については、評価部１６０が、処理の度にカウントするようにしてもよいし、過去に行った処理でカウントした回数を記憶しておいて用いるようにしてもよい。

評価部１６０がスコア算出に用いる計算式として、様々なものを用いることができる。特に、最新の単位期間内に発生した文書における出現回数が多いほど高評価となり、かつ、それ以前に発生した文書での出現回数が少ないほど高評価となる計算式を用いることで、過去よりも最近のほうが出現回数の多い用語、すなわち、出現頻度の増加の度合いが大きい用語に高評価を与えることができる。
例えば、評価部１６０は、式（１）を用いて用語ｗのスコアＳ（ｗ）を算出する。

ここで、ＭおよびＮは、単位期間の識別番号として用いられる正整数（Ｍ＜Ｎ）である。識別番号の値が大きいほど、新しい期間であることを示す。単位期間Ｍ〜Ｎを合わせると、評価部１６０が処理の対象とする連続した期間を構成する。単位期間Ｎが、最新の単位期間に該当し、単位期間Ｍ〜Ｎ−１を合わせて得られる期間が、それ以前の期間に該当する。
また、ｆｒｅｑ（ｗ，ｐ）は、単位期間ｐ内に発生した文書における用語ｗの出現回数を示す。

式（１）では、最新の単位期間内に発生した文書における用語ｗの出現回数「ｆｒｅｑ（ｗ，Ｎ）」に定数「Ｎ−Ｍ」を乗算した値から、それ以前の期間内に発生した文書における用語ｗの出現回数「Σ_{ｍ∈［Ｍ，Ｎ−１］}ｆｒｅｑ（ｗ，ｍ）」を減算している。従って、最新の単位期間内に発生した文書における用語ｗの出現回数が多いほど、スコアＳ（ｗ）の値が大きくなる。また、それ以前の期間内に発生した文書における用語ｗの出現回数が少ないほど、スコアＳ（ｗ）の値が大きくなる。なお、定数「Ｎ−Ｍ」は、最新の単位期間内に発生した文書における用語ｗの出現回数の重要度を高めるための重みとして乗算されている。

あるいは、評価部１６０が、式（２）を用いて用語ｗのスコアＳ（ｗ）を算出するようにしてもよい。

ここで、Ｄｏｃ（ｐ）は、単位期間ｐ内に発生した文書数を示す。
右辺の分子「ｆｒｅｑ（ｗ，Ｎ）／Ｄｏｃ（Ｎ）」は、最新の単位期間内に発生した文書における用語ｗの出現回数を当該期間内に発生した文書数で除算した数、すなわち、当該期間における用語ｗの出現割合を示す。また、右辺の分母における「ｆｒｅｑ（ｗ，ｍ）／Ｄｏｃ（ｍ）」は、単位期間ｍにおける用語ｗの出現割合を示す。式（１）が出現回数に基づいてスコアを算出する計算式の例を示しているのに対し、式（２）は、出現割合に基づいてスコアを算出する計算式の例を示している。
式（２）では、最新の単位期間における用語ｗの出現割合が大きいほど、スコアＳ（ｗ）の値が大きくなる。また、それ以前の期間における用語ｗの出現割合が小さいほど、スコアＳ（ｗ）の値が大きくなる。なお、右辺の分母側に加算している「１」は、用語ｗが初出用語である場合に０での除算が発生するのを防止するための項である。

あるいは、評価部１６０が、式（３）を用いて用語ｗのスコアＳ（ｗ）を算出するようにしてもよい。

この式（３）は、出現回数と出現割合とを組み合わせてスコアを算出する計算式の例を示している。すなわち、分子における「Ｌｏｇ（ｆｒｅｑ（ｗ，Ｎ））」の項は、出現回数の評価を示す項であり、「ｆｒｅｑ（ｗ，Ｎ）／Ｄｏｃ（Ｎ）」の項は、出現割合の評価を示す項である。
ここで、出現回数を評価する場合、文書数を加味しない点でいわば絶対的な評価を行うことができる。これに対して、出現割合を評価する場合、文書数を加味したいわば相対的な評価を行うことができる。例えば、単位期間に発生した文書における用語ｗの出現回数が１０回の場合、出現回数の評価では、文書数が１００でも１万でも同じく「１０」と評価することになる。一方、出現割合の評価では、文書数が１００の場合は「０．１」と評価するのに対し、文書数が１万の場合は「０．００１」と評価するように、文書数に応じて正規化した評価を得られる。この出現回数と出現割合とを組み合わせることで、絶対的な評価の要素と相対的な評価の要素とを共に加味することができる。

なお、式（３）の右辺の分子側にて「ｆｒｅｑ（ｗ，Ｎ）」の対数を計算しているのは、出現回数と出現割合との比重を出現回数のスケールに応じて変化させるためである。すなわち、出現回数が突出して多い場合に、対数演算にて出現回数の比重を低下させ、出現割合のスコアへの影響を確保する。

各用語のスコアを算出した評価部１６０は、スコアの高い順に用語を並べたランキング情報を生成する。その際、評価部１６０は、所定順位以上の用語のみをランキング対象として選択する。このように、一定の順位まででランキングの処理を打ち切ることで、処理時間および評価部１６０の処理負荷を軽減させることができる。
このランキング対象とする順位の設定は、例えば予めユーザが行う。

また、評価部１６０は、ランキング情報に含まれる各用語に、初出用語フラグと順位急上昇用語フラグとを付与する。
ここで、初出用語フラグは、図２を参照して説明したように表示部１７０が初出用語を強調表示するためのフラグである。評価部１６０は、文書取得部１１０が取得した複数の文書において、発生タイミングが最新の単位期間に含まれる文書に初めて出現した用語を初出用語として検出する。具体的には、評価部１６０は、ランキング情報に含まれる各用語のうち、最新の単位期間以前に発生した各文書には含まれていない用語を、初出用語として検出する。そして、評価部１６０は、各用語に付与された初出用語フラグの値を検出結果に応じて設定する。例えば、評価部１６０は、初出用語に付与された初出用語フラグの値を「１」に設定し、他の用語に付与された初出用語フラグの値を「０」に設定する。

また、順位急上昇用語フラグは、図２を参照して説明したように表示部１７０が順位急上昇用語を強調表示するためのフラグである。評価部１６０は、複数の単位期間について各用語の順位を求め、所定の評価基準以上に順位が上昇した用語を順位急増用語として検出する。具体的には、評価部１６０は、今回の処理にて生成したランキングと、単位期間前に行った前回の処理にて生成したランキングとを対比して、所定の評価基準以上に順位が上昇した用語を順位急増用語として検出する。

ある用語が順位急上昇用語か否かを評価部１６０が判定する評価基準として、様々なものを用いることができる。例えば、評価部１６０が、最新のランキングにて前回のランキングよりも１０位以上上昇した用語を順位急上昇用語として検出するようにしてもよい。
あるいは、評価部１６０が、式（４）を満たす用語を順位急上昇用語として検出するようにしてもよい。

ここで、Ｒ（ｗ，Ｎ）は、今回の処理において評価部１６０が生成したランキングにおける用語ｗの順位を示す。また、Ｒ（ｗ，Ｎ−１）は、前回の処理において評価部１６０が生成したランキングにおける用語ｗの順位を示す。また、ＳＨｒは、ランクアップ閾値として予め設定された定数を示す。
式（４）の左辺に示されるように、Ｒ（ｗ，Ｎ−１）やＲ（ｗ，Ｎ）の対数を用いることで、順位が高いほど順位急上昇用語として検出され易くすることができる。例えば、対数の底を１０とし、ランクアップ閾値を０．８に設定した場合、用語ｗの順位が１０位から１位に上昇したときは、式（４）の左辺はＬｏｇ（１０）−Ｌｏｇ（１）＝１となり、式（４）を満たす。一方、用語ｗの順位が１００位から９１位に上昇したときは、式（４）の左辺はＬｏｇ（１００）−Ｌｏｇ（９１）＝０．０４となり、式（４）を満たさない。このように、同じく９位分の上昇幅であっても、用語の順位が高いときは、評価部１６０が順位急上昇用語として検出し、用語の順位が低いときは検出しない。

ここで、順位の高い用語は、出現頻度の増加の度合いが既に大きい用語である。従って、出現頻度の増加が続けば、当該用語の出現頻度が急激に増加し、間もなく頻出用語（すなわち、話題になっている用語）となることが予想される。一方、順位の低い用語は、出現頻度の増加の度合いが比較的小さい用語である。従って、順位の高い用語との比較において、当該用語が頻出用語となるまでにかかる時間が比較的長いことが予想される。
そこで、評価部１６０が式（４）を用いて順位急上昇用語を検出することで、より早く頻出用語となると予想される順位の高い用語を順位急上昇用語として検出し易くすることができる。

評価部１６０は、順位急上昇用語の検出結果に応じて、各用語に付与された順位急上昇用語フラグの値を設定する。例えば、評価部１６０は、順位急上昇用語として検出した用語に付与された順位急上昇用語フラグの値を「１」に設定し、他の用語に付与された順位急上昇用語フラグの値を「０」に設定する。
そして、評価部１６０は、各フラグの値の設定を完了したランキング情報を表示部１７０に出力して、ランキングを表示させる。

なお、評価部１６０が、順位急上昇用語の検出に際して、あるいは、順位急上昇用語の検出とは別に、評価が単調増加しているか否かの判定や、評価上昇のカーブが下凸になっているか否かの判定を行うようにしてもよい。
例えば、評価部１６０は、式（５）に基づいて評価が単調増加しているか否かを判定する。

ここで、不等式の左辺「Ｒ（ｗ，ｍ−１） − Ｒ（ｗ，ｍ）」は順位の上昇幅を示す。すなわち、ランキングにおける用語ｗの順位が上昇している場合は、式（５）の不等式を満たし、上昇していない場合は満たさない。

図６は、単調増加していない評価の例を模式的に示す説明図である。同図のグラフの横軸は時刻を示し、縦軸は評価の高さを示している。本実施形態では評価値として順位を用いており、順位が高いほど、すなわち、順位の数が小さいほど高評価となってグラフの上側に位置する。
ある用語の評価が同図に示すように上下を繰り返している場合、当該用語の順位が再び低下する可能性が比較的高い。従って、当該用語の出現頻度の増大が緩やかになり、あるいは出現頻度が減少に転じて、当該用語が頻出用語となるまでにかかる時間が比較的長いことが予想される。

そこで、評価部１６０が、評価の単調増加していない（すなわち、順位の数が小さくなり続けていない）用語を順位急上昇用語から除外することで、頻出用語となるまでにかかる時間の短い用語を順位急上昇用語として検出する精度が高まると期待される。
あるいは、評価部１６０が、ランキング情報に含まれる各用語について、評価が単調増加しているか否かを判定し、区別して表示部１７０に表示させるようにしてもよい。これにより、ユーザがランキングを参照する際に、どの用語が間もなく頻出用語になるかの判断材料をさらに提示することができる。

また、評価部１６０は、式（６）に基づいて評価上昇のカーブが下凸になっているか否かを判定する。

ここで、Ｒ＿ｄｉｆｆ（ｗ，ｐ）は、式（７）のように定義される。

すなわち、Ｒ＿ｄｉｆｆ（ｗ，ｐ）は、順位の上昇幅を示す。従って、時間経過と共に順位の上昇幅が大きくなっている場合は、式（６）の不等式を満たし、大きくなっていない場合は満たさない。

図７は、評価上昇のカーブが下凸になっていない評価の例を模式的に示す説明図である。図６の場合と同様、図７のグラフの横軸は時刻を示し、縦軸は評価の高さを示している。
評価が単調増加している場合でも、図７に示すように評価上昇のカーブが下凸になっていない（図７の例では上凸になっている）場合、時刻の経過と共に評価の伸びが鈍っていることが考えられる。従って、当該用語の出現頻度の増大が緩やかになり、当該用語が頻出用語となるまでにかかる時間が比較的長いことが予想される。

そこで、評価部１６０が、評価の単調増加していない用語の除外に加えて、評価上昇のカーブが下凸になっていない用語を順位急上昇用語から除外することで、頻出用語となるまでにかかる時間の短い用語を順位急上昇用語として検出する精度が高まると期待される。
あるいは、評価部１６０が、ランキング情報に含まれる各用語のうち評価が単調増加している用語について、評価上昇のカーブが下凸になっているか否かを判定し、区別して表示部１７０に表示させるようにしてもよい。これにより、ユーザがランキングを参照する際に、どの用語が間もなく頻出用語になるかの判断材料をさらに提示することができる。

あるいは、評価部１６０が、式（５）における「Ｒ（ｗ，ｍ−１） − Ｒ（ｗ，ｍ）」の値や、式（６）における「Ｒ_ｄｉｆｆ（ｗ，ｍ−１） − Ｒ_ｄｉｆｆ（ｗ，ｍ）」の値を表示部１７０に出力して表示させるようにしてもよい。すなわち、評価部１６０が、順位の上昇幅や順位の上昇幅の増加度を表示部１７０に表示させるようにしてもよい。

図８は、表示部１７０が、ある用語の順位の上昇幅や、順位の上昇幅の増加度を表示した例を示す説明図である。例えば、図２に例示したランキングの表示において、ユーザが何れかの用語を選択（例えばタッチまたはマウスクリック）すると、表示部１７０は、当該用語の順位の上昇幅や順位の上昇幅の増加度をランキング表示と別ウィンドウにて表示する。これにより、ユーザがランキングを参照する際に、どの用語が間もなく頻出用語になるかの判断材料を、より詳細に提示することができる。

なお、表示部１７０が、最新の単位期間以前の期間に発生した文書において一定条件以上出現している用語（以下、「コンスタント出現用語」と称する）を検出し、表示部１７０に表示させるようにしてもよい。例えば、表示部１７０は、式（８）を満たす用語をコンスタント出現用語として検出する。

ここで、ＳＨｃは、コンスタント閾値として予め設定された定数を示す。
式（１）〜式（３）に例示されるスコア算出式において、最新の単位期間以前の期間に発生した文書での出現回数が少ないほどスコアが大きくなったのに対し、式（８）の左辺では、最新の単位期間以前の期間に発生した文書での出現回数が多いほど計算値が大きくなる。すなわち、最新の単位期間以前の期間に発生した文書にて頻出している用語ほど、表示部１７０がコンスタント出現用語として検出し易くなる。
なお、左辺の各項における係数「１」、「１／２」、・・・は、単位期間の新しさに応じて、新しい単位期間内に発生した文書での用語ｗの出現頻度ほど比重を大きくするための重みである。

表示部１７０がコンスタント出現用語を表示した場合、ユーザは、過去のランキングにおいて出現していたにもかかわらず見落としていた用語を、コンスタント出現用語の中から見つけ出し得る。すなわち、ユーザは、コンスタント出現用語の表示を、用語への注目漏れの防止に用いることができる。
あるいは、ユーザは、ランキングに表示されている用語のうちコンスタント出現用語を、過去に注目して対応済みの用語として無視することができる。すなわち、ユーザは、コンスタント出現用語の表示を、過去に注目済みの用語か否かの確認に用いることができる。

表示部１７０は、図２を参照して説明した初出用語の場合と同様、ランキング表示においてコンスタント出現用語を他の用語と区別して表示（例えば強調表示）する。
あるいは、表示部１７０が、コンスタント出現用語のリストを、ランキング表示と別ウィンドウにて表示するようにしてもよい。また、初出用語についても、表示部１７０が、初出用語のリストを表示するようにしてもよい。

あるいは、表示部１７０が、コンスタント出現用語や初出用語をランキング表示と対応付けたマトリクスにて表示するようにしてもよい。
図９は、表示部１７０が、コンスタント出現用語や初出用語をランキング表示と対応付けたマトリクスにて表示した例を示す説明図である。同図において、コンスタント出現欄の表示の「○」は、該当する用語（その行に示される用語）がコンスタント出現用語であることを示している。また、初出欄の表示の「○」は、該当する用語が初出用語であることを示している。
このように、コンスタント用語や初出用語をユーザが認識可能な様々な表示方法を用いることができる。

なお、評価部１６０が、評価値として、上述した順位に代えてスコアを用いるようにしてもよい。具体的には、評価部１６０が、所定のスコア以上の用語のみをランキング対象として選択するようにしてもよい。あるいは、評価部１６０が、順位急上昇用語の検出や、コンスタント出現用語の検出を、順位に代えてスコアを用いて行うようにしてもよい。また、評価部１６０が、順位に代えて、あるいは、順位に加えてスコアを用語に添えて表示部１７０に表示させるようにしてもよい。

評価部１６０が算出するスコアの値は、他の用語のスコアの値に影響されない、いわば絶対的な値である。従って、評価部１６０は、評価値としてスコアを用いることで、ある用語の処理に関して他の用語の状況の影響を受けずに、いわば安定的に処理を行うことができる。例えば、評価部１６０が、所定のスコア以上の用語のみをランキング対象として選択する場合、他にスコアの大きい用語が幾つあるかに依存せずに、各用語をランキング対象とするか否かを決定し得る。従って、スコアの大きい用語が多数ある場合でも、所定のスコア以上の用語を全て表示部１７０が表示するようにできる。この点で、ユーザが用語の認識漏れをおこすおそれを低減させることができる。

一方、評価部１６０が取得する順位の値は、他の用語との関係において定められる、いわば相対的な値である。評価部１６０が、評価値として順位を用いる場合、ユーザは、各種閾値を比較的容易に設定し得る。例えば、ユーザは、上位１００位までの用語を取得したい場合、評価部１６０がランキング対象とする用語の判定閾値として１００位を設定すればよい。

なお、前処理部１２０と、用語抽出部１３０と、評価部１６０とは、例えば、用語抽出装置１００の具備するCPU(Central Processing Unit、中央処理装置)が、用語抽出装置１００の具備する記憶デバイスからプログラムを読み出して実行することで実現される。

表示部１７０は、例えば液晶ディスプレイ等の表示画面を有し、動画像や静止画像やテキスト（文字）など各種画像を表示する。特に、表示部１７０は、評価部１６０が取得した評価値に基づいて用語を表示する。さらに、表示部１７０は、評価部１６０が検出した順位急上昇用語を強調表示する。また、表示部１７０は、評価部１６０が検出した初出用語を強調表示する。具体的には、図２を参照して説明したように、表示部１７０は、評価部１６０が取得した順位に基づく用語のランキングを表示し、順位急上昇用語や初出用語を強調表示する。
なお、表示部１７０の実現方法は、ディスプレイなど表示画面を有するデバイスを用いる方法に限らない。例えば、表示部１７０が、プリンタなど他の表示デバイスを用いて実現されていてもよい。また、評価部１６０が生成したランキング情報を一旦記憶デバイスに記憶させた後、表示部１７０がランキングを表示するようにしてもよい。

次に、図１０および図１１を参照して、用語抽出装置１００の動作について説明する。
図１０は、用語抽出装置１００が用語の出現頻度の増加の度合いのランキングを生成して表示する処理手順を示すフローチャートである。用語抽出装置１００は、単位期間毎に同図の処理を行ってランキングを生成し表示する。

図１０の処理において、まず、文書取得部１１０は、文書と当該文書の発生タイミングを示す情報とを取得し、前処理部１２０に出力する（ステップＳ１０１）。
次に、前処理部１２０は、文書取得部１１０からの文書を発生タイミングに応じて単位期間毎に分類する等の前処理を行い、単位期間毎に分類された文書を用語抽出部１３０に出力する（ステップＳ１０２）。

そして、用語抽出部１３０は、前処理部１２０からの文書のうち、最新の単位期間内に発生した文書から用語を抽出し、抽出した用語と前処理部１２０からの文書とを評価部１６０に出力する（ステップＳ１０３）。具体的には、用語抽出部１３０は、図４および図５を参照して説明したように、形態素解析や複合名詞化やフィルタリングを行って用語を抽出して評価部１６０に出力する。

次に、評価部１６０は、用語抽出部１３０からの用語および文書に基づいて、各用語の出現頻度の増加の度合いのランキング情報を生成し、表示部１７０に出力する（ステップＳ１０４）。
図１１は、評価部１６０が行う処理の手順を示すフローチャートである。評価部１６０は図１０のステップＳ１０４にて、図１１の処理を行う。

図１１の処理において、評価部１６０は、まず、用語抽出部１３０が抽出した用語の各々について、最新の単位期間内に発生した文書での当該用語の出現回数と、最新の単位期間以前に発生した文書での当該用語の出現回数とに基づいて、当該用語の出現頻度の増加の度合いのスコアを算出する（ステップＳ２０１）。
次に、評価部１６０は、用語をスコアの大きい順に並べ、予め設定された順位までのランキング情報を生成する（ステップＳ２０２）。

また、評価部１６０は、最新のランキングにおける各用語の順位と前回のランキングにおける各用語の順位をと対比して順位急上昇用語を抽出し、ランキング情報に付加した順位急上昇用語フラグの値を設定する（ステップＳ２０３）。
さらに、評価部１６０は、初出用語を検出し、ランキング情報に付加した初出用語フラグの値を設定する（ステップＳ２０４）。
そして、評価部１６０は、生成したランキング情報を表示部１７０に出力する（ステップＳ２０５）。
その後、図１１の処理を終了し、図１０の処理に戻る。

ステップＳ１０４の後、表示部１７０は、評価部１６０からのランキング情報に基づいて、図２を参照して説明したように、用語のランキングを表示し、順位急上昇用語および初出用語を強調表示する（ステップＳ１０５）。
その後、図１０の処理を終了する。

以上のように、評価部１６０は、用語抽出部１３０が抽出した用語の各々について、文書取得部１１０が取得した文書のうち発生タイミングが最新の単位期間に含まれる文書における当該用語の出現頻度の、発生タイミングが最新の単位期間以前の期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いの評価値（順位またはスコア）を求める。そして、表示部１７０は、評価部１６０が求めた評価値に基づいて用語を表示する。例えば、表示部１７０は、評価部１６０が求めた順位が所定の順位より高い用語、または、評価部１６０が求めたスコアが所定のスコアより大きい用語を表示する。
上述したように、これら出現頻度が大きく増加している用語は、頻出用語（すなわち、話題になっている用語）となることが予想される。従って、用語抽出装置１００は、話題になると予測される用語を予め抽出することができる。

また、評価部１６０は、評価値として、増加の度合いが大きい順の順位を用語の各々について求める。
これにより、ユーザは、各種閾値を比較的容易に設定し得る。例えば、ユーザは、上位１００位までの用語を取得したい場合、評価部１６０がランキング対象とする用語の判定閾値として１００位を設定すればよい。

また、評価部１６０は、複数の単位期間について用語の順位を求め、所定の評価基準以上に順位が上昇した用語を順位急上昇用語として検出する。そして、表示部１７０は、順位急上昇用語を強調表示する。
ここで、上述したように、順位急上昇用語は、他の用語と比べて、話題になるまでにかかる時間が短い可能性がある。そこで、表示部１７０が順位急上昇用語を強調表示することで、ユーザが当該用語を見落として話題になるまで気付かないおそれを低減させることができる。

また、評価部１６０は、評価値として、用語の出現頻度増加の度合いを示すスコアを用語の各々について算出する。
これにより、評価部１６０は、ある用語の処理に関して他の用語の状況の影響を受けずに処理を行うことができる。例えば、評価部１６０が、所定のスコア以上の用語のみをランキング対象として選択する場合、他にスコアの大きい用語が幾つあるかに依存せずに、各用語をランキング対象とするか否かを決定し得る。従って、スコアの大きい用語が多数ある場合でも、所定のスコア以上の用語を全て表示部１７０が表示するようにできる。この点で、ユーザが用語の認識漏れをおこすおそれを低減させることができる。

また、表示部１７０は、文書取得部１１０が取得した複数の文書において、発生タイミングが最新の単位期間に含まれる文書に初めて出現した用語（すなわち、初出用語）を検出する。そして、表示部１７０は、評価部１６０が検出した初出用語を強調表示する。
この初出用語は、ユーザが初めて見る用語である点において、注目すべき用語である可能性が高い。従って、用語抽出装置１００（表示部１７０）が初出用語を強調表示することで、ユーザが注目すべき可能性を見逃すおそれを低減させ得る。

＜第２の実施形態＞
図１２は、本発明の第２の実施形態における用語抽出装置の機能構成を示す概略ブロック図である。同図において、用語抽出装置２００は、文書取得部１１０と、前処理部１２０と、用語抽出部１３０と、表記ゆれ統合部２４０と、関連付け部２５０と、評価部２６０と、表示部２７０とを具備する。同図において、図１の各部に対応して同様の機能を有する部分には同一の符号（１１０、１２０、１３０）を付し、説明を省略する。

用語抽出装置２００は、用語抽出装置１００と同様、話題になると予測される用語を抽出して表示する。その際、用語抽出装置２００は、同様の意味を有する可能性の高い用語を表記ゆれとして同一グループに纏めて表示する。さらに、用語抽出装置２００は、同一の文書に出現する頻度の比較的高い用語同士を共起語として対応付けて表示する。

図１３は、用語抽出装置２００（表示部２７０）が表示する、用語の出現頻度の増加順位の表示の例を示す説明図である。
同図において、用語抽出装置２００は、図２を参照して説明した用語抽出装置１００の場合の表示と同様、用語の出現頻度増加のランキングを表示し、順位急上昇用語および初出用語を強調表示している。

図１４は、用語抽出装置２００（表示部２７０）が表示する、用語の出現頻度の増加順位の表示の変化の例を示す説明図である。同図に示すランキングＲ２３は、出現頻度の増加順位の最新ランキングを示している。また、ランキングＲ２２は、ランキングＲ２３よりも１つ過去のランキングを示している。また、ランキングＲ２１は、ランキングＲ２２よりも１つ過去のランキングを示している。

ランキングＲ２１からランキングＲ２２への遷移において、用語「ログ分析装置」の順位が９６位から７位への急上昇している。そこで、用語抽出装置２００は、ランキングＲ２２において、用語「ログ分析装置」を順位急上昇用語として強調表示している。
また、ランキングＲ２２からランキングＲ２３への遷移において、用語「障害監視システム」の順位が７８位から２位への急上昇している。そこで、用語抽出装置２００は、ランキングＲ２３において、用語「障害監視システム」を順位急上昇用語として強調表示している。

また、ランキングＲ２２からランキングＲ２３への遷移において、用語「地図表示装置」の順位が７７位から７位への急上昇している。そこで、用語抽出装置２００は、ランキングＲ２３において、用語「地図表示装置」を順位急上昇用語として強調表示している。
また、ランキングＲ２３における用語「感性分析システム」、「感性解析システム」および「感性分布表示システム」は、いずれも初出用語である。そこで、用語抽出装置２００は、ランキングＲ２３において、用語「感性分析システム」、「感性解析システム」および「感性分布表示システム」を初出用語として強調表示している。

一方、図１３では、用語抽出装置２００が用語をグループ化して表示している点、および、グループに含まれる用語の共起語をグループに対応付けて表示している点で、図２の例の場合と異なる。
具体的には、用語抽出装置２００は、「固定カメラシステム」や「障害監視システム」など同様の意味を有する可能性の高い用語を、１つのグループとして纏めて領域Ａ１１１に表示している。同様に、用語抽出装置２００は、「地図表示装置」や「地図画像表示装置」など同様の意味を有する可能性の高い用語を、もう１つのグループとして纏めて領域Ａ１１２に表示している。さらに、用語抽出装置２００は、「感性分析システム」や「感性解析システム」など同様の意味を有する可能性の高い用語を、さらにもう１つのグループとして纏めて領域Ａ１１３に表示している。

ここで、用語抽出装置２００は、各グループ内において、各用語をランキングの順位に従って表示している。さらに、用語抽出装置２００は、グループの並び順について、グループに含まれる用語のスコアの合計値の大きい順に並べて表示している。領域Ａ１１１に表示されているグループが、用語のスコアの合計値が最も大きく、次に、領域Ａ１１２に表示されているグループ、その次に、領域Ａ１１３に表示されているグループ・・・の順になっている。

このように、用語抽出装置２００が、同様の意味を有する可能性の高い用語を１つのグループとして纏め、グループ内に含まれる用語のスコアの合計に従った並び順でグループを表示することで、表記ゆれを同一の用語として扱ってランキング表示を行うことができる。
ここで、同一のものが表記ゆれにより複数の用語にて表現された場合、用語毎にスコアを算出してランキングを行うと、表記ゆれのない用語よりも低い順位となってしまうおそれがある。これに対して、用語抽出装置２００は、同様の意味を有する可能性の高い用語を１つのグループとして纏めることで、表記ゆれの用語を同一グループに纏めることができる。そして、用語抽出装置２００は、グループ間で順位付けを行うことで、表記ゆれを同一の用語として扱ってランキング表示を行うことができる。
なお、表記ゆれの無い用語は、１つの用語からなるグループを形成してランキングされる。

また、用語抽出装置２００は、領域Ａ１１１に表示されたグループに含まれる用語の共起語を、当該グループに対応付けて領域Ａ１２１に表示している。同様に、用語抽出装置２００は、領域Ａ１１３に表示されたグループに含まれる用語の共起語を、当該グループに対応付けて領域Ａ１２２に表示している。
このように、用語抽出装置２００が共起語を表示することで、ユーザは、用語が出現した原文書の内容を推測し易くなる。従って、ユーザが原文書を参照せずとも用語に関連する事象を把握できる可能性が高まる。この点では、ユーザは、用語に関連する事象をより速く把握し得る。

表記ゆれ統合部２４０は、用語抽出部１３０が抽出した用語の類似度を算出し、得られた類似度に基づいて用語のグループ分けを行う。
図１５は、表記ゆれ統合部２４０が行うグループ分けの例を示す説明図である。
表記ゆれ統合部２４０は、まず、各用語について、当該用語のみからなるグループを形成する。同図に示す状態Ｔ１１では、６つの用語の各々が、当該用語自身のみを含むグループに属している。
また、表記ゆれ統合部２４０は、用語同士の類似度を、２つの用語の組み合わせ全てについて、算出しておく。例えば、表記ゆれ統合部２４０は、式（９）を用いて用語αと用語βとの類似度Ｓｉｍ(α，β)を算出する。

ここで、Ｎｕｍ（ｗ）は、用語ｗの語長（すなわち文字数）を示す。また、ＬＣＳ（α，β）は、用語αと用語βとの最長共通部分列（Longest Common Subsequence）を示す。最長共通部分列を求めるアルゴリズムとして、再帰的なアルゴリズムなど幾つかのものが知られている。表記ゆれ統合部２４０が最長共通部分列を求めるアルゴリズムとして既存のアルゴリズムを用いることができる。

式（９）を用いた類似度算出のように、表記ゆれ統合部２４０が用語の類似度を形式的に求めることで、用語の意味を示す辞書を用意する必要が無い。従って、用語抽出装置２００の管理者（例えばユーザ）が辞書を予め用意しておく負担を削減できる。また、出現する可能性のある用語の予測が困難な場合や用語数が膨大になる場合など、辞書を予め用意することが困難な場合でも、表記ゆれ統合部２４０は、表記ゆれを検出して同一グループに纏め得る。

用語同士の類似度の算出、および、１つの用語のみを含むグループの形成を完了すると、表記ゆれ統合部２４０は、類似度の最も高い２つのグループを選択して結合する。
ここで、表記ゆれ統合部２４０は、２つのグループＡ、Ｂの類似度として、グループＡに属する用語とグループＢに属する用語との類似度の最大値を用いる。

また、グループに属する用語は、グループ内での順序を有している。そして、表記ゆれ統合部２４０は、以下の３つの方法のうち、グループの類似度を与える２つの用語が最も近くに配置される方法にてグループＡとグループＢとを結合する。
ａ．グループＡの末尾にグループＢを結合する。
ｂ．グループＡの順序を逆にし、その末尾にグループＢを結合する。
ｃ．グループＡの末尾に、グループＢの順序を逆にしたものを結合する。
結合の際、元のグループ内での並びを変更しないことで、先に行った結合における、より類似度の高い用語同士の並びを維持することができる。すなわち、より類似度の高い用度同士がより近くに位置するように配置できる。

ただし、２つのグループの類似度が、類似度閾値として予め設定されている定数以下の場合、表記ゆれ統合部２４０は、これら２つのグループを結合しない。また、類似度閾値より大きい類似度を与える用語の組み合わせが存在する場合でも、当該組み合わせの何れにおいても、２つの用語の形態素一致率が、形態素一致率閾値として予め設定されている定数以下のときは、表記ゆれ統合部２４０は、これら２つのグループを結合しない。ここで、表記ゆれ統合部２４０は、用語αと用語βとの形態素一致率ＣＭＰ（α，β）を、式（１０）を用いて算出する。

ここで、Ｎｕｍ＿ｍ（ｗ）は、用語ｗに含まれる形態素数を示す。また、Ｎｕｍ＿ｃｍ（α，β）は、用語αと用語βとが共に含む形態素の数を示す。
表記ゆれ統合部２４０は、グループが１つになるか、あるいは、結合可能なグループがなくなるまで、グループの結合を繰り返す。
図１５の例では、状態Ｔ１１において、用語１を含むグループと用語２を含むグループとの類似度が０．９で最も高くなっている。そこで、表記ゆれ統合部２４０は、用語１の末尾に用語２を結合することで、２つのグループを結合する（上記方法ａ）。これにより、状態Ｔ１２となる。

状態Ｔ１２では、用語５を含むグループと用語６を含むグループとの類似度が０．８で最も高くなっている。そこで、表記ゆれ統合部２４０は、用語５の末尾に用語６を結合することで、２つのグループを結合する（上記方法ａ）。これにより、状態Ｔ１３となる。
状態Ｔ１３では、用語４と用語６との組み合わせが、グループの類似度の最大値０．７を与えている。そこで、表記ゆれ統合部２４０は、用語４と用語６とを近くに配置するために、用語５および６を含むグループの順序を逆にし、その末尾に用語４を含むグループを結合する（上記方法ｂ）。これにより、状態Ｔ１４となる。

状態Ｔ１４では、用語２と用語３との組み合わせが、グループの類似度の最大値０．６を与えている。そこで、表記ゆれ統合部２４０は、用語２と用語３とを近くに配置するために、用語１および２を含むグループの末尾に用語３を含むグループを結合する（上記方法ａ）。これにより、状態Ｔ１５となる。
状態Ｔ１５では、用語１と用語５との組み合わせが、グループの類似度の最大値０．４を与えている。そこで、表記ゆれ統合部２４０は、用語１と用語５とを近くに配置するために、用語１、２および３を含むグループの順序を逆にし、その末尾に用語５、６および４を含むグループを結合する（上記方法ｂ）。これにより、状態Ｔ１６となる。
状態Ｔ１６においてグループが１つになったため、表記ゆれ統合部２４０は、グループの結合を終了する。
表記ゆれ統合部２４０は、得られた各グループを関連付け部２５０に出力する。

なお、表記ゆれ統合部２４０が用語の類似度を算出する方法は、最長共通部分列に基づく方法に限らない。例えば、表記ゆれ統合部２４０が、用語の接続パタンの出現回数に基づいて用語の類似度を算出するようにしてもよい。
図１６は、用語の接続パタンの類似度の例を示す説明図である。同図では、用語「米国」と「アメリカ」との各々について、用語「に行く」、「に住む」、「に向かう」、「から帰ってくる」の各々との接続パタン出現回数が示されている。表記ゆれ統合部２４０は、出現回数の各々を正規化して得られる正規化値のベクトルとしての類似度（例えばコサイン類似度）を、用語の類似度として算出する。

ここでいう用語ａと用語ｂとの接続パタンは、用語ａと用語ｂとが同一の文（sentence）に出現することである。
また、ここでいう正規化は、ある値を、より比較し易い別の値に変換することである。例えば、用語ａとｂとの接続パタンの出現割合に対し、式（１１）に基づいて正規化を行うことが考えられる。

ここで、ｎｏｒｍａｌ（ａ，ｂ）は、用語ａと用語ｂとの接続パタンの出現回数の正規化値を示す。また、ｐ（ａ，ｂ）は、用語ａとｂとの接続パタンが出現する文の割合（すなわち、用語ａとｂとが共に出現する文の割合）を示す。また、ｐ（ａ）は、用語ａが出現する文の割合を示す。また、ｐ（ｂ）は、用語ｂが出現する文の割合を示す。これらの割合を確率と見做すと、式（１１）の右辺は、いわば相互情報量の算出式に相当する。
また、ある用語が出現する文の割合は、用語が出現する文の数を文の総数で除算して得られる。そこで、表記ゆれ統合部２４０は、式（１２）に基づいて用語の接続パタンの出現回数を正規化する。

ここで、ｆｒｅｑ＿ｓ（ａ，ｂ）は、用語ａと用語ｂとの接続パタンの出現回数（すなわち、用語ａとｂとが共に出現する文の数）を示す。また、ｆｒｅｑ＿ｓ（ａ）は、用語ａの出現回数（すなわち、用語ａが出現する文の数）を示す。また、ｆｒｅｑ＿ｓ（ｂ）は、用語ｂの出現回数を示す。
例えば、図１６の例において、表記ゆれ統合部２４０は、「米国」の出現する文の数、「に行く」の出現する文の数、「米国」と「に行く」とが共に出現する文の数、および、文の総数を、式（１２）に代入して、「米国」と「に行く」との正規化値を算出する。

このように、表記ゆれ統合部２４０が、用語の接続パタンの出現回数に基づいて用語の類似度を算出することで、「米国」と「アメリカ」とのように、表記は類似していないが同義の用語の類似度を高く算出し得る。従って、表記ゆれ統合部２４０は、表記は類似していないが同義の用語を、辞書無しで同一のグループに分類し得る。

関連付け部２５０は、複数の用語が同一の文書に共起（すなわち、共に出現）する頻度に基づいて用語の関連付けを行う。具体的には、関連付け部２５０は、グループＡとグループＢとが式（１３）を満たす場合に、グループＡとグループＢとの間に共起関係があると決定する（グループＡに含まれる各用語と、グループＢに含まれる各用語とを、共起語として対応付ける）。
関連付け部２５０は、この共起関係の有無の決定を、表記ゆれ統合部２４０のグループ分けにおける２つのグループの全組み合わせについて行う。すなわち、関連付け部２５０は、２つのグループの組み合わせの各々について、一方のグループに含まれる用語と他方のグループに含まれる用語とが同一の文書に共起する頻度に基づいて、一方のグループに含まれる各用語と他方のグループに含まれる各用語とを共起語として対応付けるか否かを決定する。

ここで、Ｄａ（Ｇ，Ｎ）は、最新の単位期間Ｎ内に発生した文書における、グループＧに含まれる用語のうち少なくとも１つが出現する文書の集合を示す。また、Ｎｕｍ（Ｅ）は、集合Ｅの要素数を示す。また、Ｅ_１∩Ｅ_２は、集合Ｅ_１とＥ_２との積集合（すなわち共通部分）を示す。また、ＭＡＸ（Ｎ_１、Ｎ_２）は、数字Ｎ_１とＮ_２との最大値（すなわちいずれか大きいほうの値）を示す。また、ＳＨｓは、共起閾値として予め設定された定数を示す。
また、ｆｒｅｑ（Ｇ，Ｎ）は、最新の単位期間Ｎ内に発生した文書における、グループＧに含まれる用語のうち少なくとも１つが出現した文書の数を示す。また、ＳＨａは、出現頻度閾値として予め設定された定数を示す。

図１７は、共起のイメージを模式的に示す説明図である。同図において、Ａ用語出現文書集合は、グループＡに含まれる用語のうち少なくとも１つが出現した文書の集合である。また、Ｂ用語出現文書集合は、グループＢに含まれる用語のうち少なくとも１つが出現した文書の集合である。
また、Ａ用語出現文書集合とＢ用語出現文書集合との共通部分（以下、単に「共通部分」と称する）は、グループＡに含まれる用語のうち少なくとも１つとグループＢに含まれる用語のうち少なくとも１つが共に出現した文書の集合、すなわち、グループＡに含まれる用語とグループＢに含まれる用語とが共起する文書の集合を示す。

ここで、共通部分が大きいほど、グループＡに含まれる用語とグループＢに含まれる用語とが共通の事象に関連している可能性が高い。そこで、関連付け部２５０は、式（１１）における最初の不等式にて、共通部分の大きさを、Ａ用語出現文書集合の大きさ、および、Ｂ用語出現文書集合に占める割合にて評価している。また、式（１１）における２番目の不等式および３番目の不等式は、出現頻度の低過ぎる用語を除外する。

ここで、あるグループに含まれる用語の出現頻度が低い場合、共通部分が大きく評価されがちである。例えば、グループＧに含まれる用語の出現が１回のみの場合、この用語が出現している文書にて共に出現している他の用語との関係では、出現回数も共起の回数も共に１回であり、共起の回数を出現回数で除算した割合は１００％となる。
しかしながら、このようにグループに含まれる用語の出現頻度が極端に低い場合、共起の回数が少ないので、共起している用語の間に強い関連性が無く、偶然共起しただけという可能性がある。
そこで、式（１１）における２番目の不等式および３番目の不等式にて、出現頻度の低過ぎる用語を除外することで、関連性の低い用語を関連付けることを回避する。
関連付け部２５０は、関連付けの結果を、前処理部１２０が単位期間毎に分類した文書と、用語抽出部１３０が抽出した用語と、表記ゆれ統合部２４０が生成したグループの情報と共に評価部２６０に出力する。

評価部２６０は、評価部１６０（図１）と同様、ランキング情報を生成して表示部２７０に出力することで、表示部２７０ランキングを表示させる。ただし、評価部２６０は、図１３を参照して説明したように、グループ毎の用語の順位とグループ間の順位とを示すランキング情報を生成する。また、評価部２６０は、グループと共起用語とを対応付けて表示部２７０に表示させる。

表示部２７０は、図１３の例のように、表記ゆれ統合部２４０が行ったグループ分けにおけるグループ毎に用語を表示する。また表示部２７０は、当該グループに含まれる用語に関連付けられた用語を当該グループに対応付けて表示する。

次に、図１８〜図２０を参照して用語抽出装置２００の動作について説明する。
図１８は、用語抽出装置２００が用語の出現頻度の増加の度合いのランキングを生成して表示する処理手順を示すフローチャートである。用語抽出装置１００は、単位期間毎に同図の処理を行ってランキングを生成し表示する。

図１８のステップＳ３０１〜Ｓ３０３は、図１０のステップＳ１０１〜Ｓ１０３と同様である。ただし、ステップＳ３０３において、用語抽出部１３０は、抽出した用語と前処理部１２０からの文書とを表記ゆれ統合部２４０に出力する。
次に、表記ゆれ統合部２４０は、用語抽出部１３０が抽出した用語の類似度を算出し、得られた類似度に基づいて用語のグループ分けを行うことで、表記ゆれの用語を同一のグループに統合する（ステップＳ３０４）。

図１９は、表記ゆれ統合部２４０が行う処理の手順を示すフローチャートである。表記ゆれ統合部２４０は、図１８のステップＳ３０４にて図１９の処理を行う。
図１９の処理において、表記ゆれ統合部２４０は、まず、用語抽出部１３０が抽出した用語のうちの２つの各組み合わせについて、用語の類似度を算出する（ステップＳ４０１）。
次に、表記ゆれ統合部２４０は、各用語について、当該用語のみからなるグループを形成し、用語の類似度をグループの類似度として設定する（ステップＳ４０２）。

次に、表記ゆれ統合部２４０は、グループが２つ以上あるか否かを判定する（ステップＳ４０３）。グループが１つであると判定した場合（ステップＳ４０３：ＮＯ）、得られたグループを示す情報を、用語抽出部１３０が抽出した用語および所定周期毎に分類された文書と共に関連付け部２５０に出力する（ステップＳ４２１）。その後、同図の処理を終了し、図１８の処理に戻る。
一方、グループが２つ以上あると判定した場合（ステップＳ４０３：ＹＥＳ）、表記ゆれ統合部２４０は、グループ同士の類似度の最も高い２つのグループを選択する（ステップＳ４１１）。

そして、表記ゆれ統合部２４０は、選択したグループの類似度が類似度閾値より大きいか否かを判定する（ステップＳ４１２）。類似度閾値以下であると判定した場合（ステップＳ４１２：ＮＯ）、ステップＳ４２１へ進む。
一方、類似度閾値より大きいと判定した場合（ステップＳ４１２：ＹＥＳ）、表記ゆれ統合部２４０は、グループの類似度を与える用語の組み合わせについて、形態素一致率が形態素一致率閾値より大きいか否かを判定する（ステップＳ４３１）。形態素一致率閾値より大きいと判定した場合（ステップＳ４３１：ＹＥＳ）、表記ゆれ統合部２４０は、選択したグループを結合する（ステップＳ４４１）。
そして、表記ゆれ統合部２４０は、結合したグループと他の各グループとの類似度を更新する（ステップＳ４４２）。その後、ステップＳ４０３へ戻る。

一方、ステップＳ４３１において、形態素一致率が形態素一致率閾値以下であると判定した場合（ステップＳ４３１：ＮＯ）、表記ゆれ統合部２４０は、当該用語の組み合わせについて用語の類似度を無効化するフラグを設定することで、当該用語の組み合わせを類似度判定の対象から除外する（ステップＳ４４１）。その後、ステップＳ４１１へ戻る。

ステップＳ３０４の後、関連付け部２５０は、複数の用語が同一の文書に共起する頻度に基づいて用語の関連付けを行い、得られた関連付けを示す情報を、表記ゆれ統合部２４０が形成したグループを示す情報や、用語抽出部１３０が抽出した用語や、単位期間毎に分類された文書と共に評価部２６０に出力する（ステップＳ３０５）。

そして、評価部２６０は、ランキング情報を生成し、表示部２７０に出力する（ステップＳ３０６）。
図２０は、評価部２６０が行う処理の手順を示すフローチャートである。評価部２６０は図１８のステップＳ３０６にて、図２０の処理を行う。

図２０のステップＳ５０１〜Ｓ５０２は、図１１のステップＳ２０１〜Ｓ２０２と同様である。
ステップＳ５０２の後、評価部２６０は、ステップＳ５０２で表示対象に選択された用語を、表記ゆれ統合部２４０が形成したグループに分類し、グループ毎に用語を順位に従って並べる（ステップＳ５０３）。

また、評価部２６０は、各グループについて当該グループに含まれる用語のスコアを合計してグループのスコアを算出し、スコアの高い順にグループを順位付けする（ステップＳ５０４）。すなわち、評価部２６０は、用語の出現頻度の増加傾向が強いほど大きい値を示すスコアを評価値として算出し、各グループについて、当該グループに含まれる用語のスコアを合計してグループのスコアを算出する。
そして、評価部２６０は、表示対象のグループ（表示対象の用語を含むグループ）を、ステップＳ５０４で設定した順位に従って並べてランキング情報を生成する（ステップＳ５０５）。

また、評価部２６０は、最新のランキングにおける各用語の順位と前回のランキングにおける各用語の順位をと対比して順位急上昇用語を抽出し、ランキング情報に付加した順位急上昇用語フラグの値を設定する（ステップＳ５０６）。
さらに、評価部２６０は、初出用語を検出し、ランキング情報に付加した初出用語フラグの値を設定する（ステップＳ５０７）。
そして、評価部２６０は、生成したランキング情報を表示部２７０に出力する（ステップＳ５０８）。
その後、図２０の処理を終了し、図１８の処理に戻る。

ステップＳ３０６の後、表示部２７０は、評価部２６０からのランキング情報に基づいて、図１３を参照して説明したように、用語のランキングを表示し、順位急上昇用語および初出用語を強調表示する（ステップＳ３０７）。
その後、図１８の処理を終了する。

以上のように、表記ゆれ統合部２４０は、用語の類似度を算出し、得られた類似度に基づいて用語のグループ分けを行う。そして、表示部２７０は、表記ゆれ統合部２４０のグループ分けにおけるグループ毎に用語を表示する。
これにより、表示部２７０は、表記ゆれを同一の用語として扱ってランキング表示を行うことができ、表記ゆれによる順位の低下を防止し得る。

また、関連付け部２５０は、複数の用語が同一の文書に共起する頻度に基づいて用語の関連付けを行う。そして、表示部２７０は、表記ゆれ統合部２４０が形成したグループに含まれる用語に関連付けられた用語を当該グループに対応付けて表示する。
これにより、ユーザは、用語が出現した原文書の内容を推測し易くなる。従って、ユーザが原文書を参照せずとも用語に関連する事象を把握できる可能性が高まる。この点では、ユーザは、用語に関連する事象をより速く把握し得る。

なお、前処理部１２０や、用語抽出部１３０や、表記ゆれ統合部２４０や、関連付け部２５０や、評価部１６０および２６０の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、コンパクトディスク等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。

１００、２００用語抽出装置
１１０文書取得部
１２０前処理部
１３０用語抽出部
１６０、２６０評価部
１７０、２７０表示部
２４０表記ゆれ統合部
２５０関連付け部

Claims

文書と当該文書の発生タイミングを示す情報とを電子データにて取得する文書取得部と、
前記文字取得部が取得した複数の文書に対して形態素解析を行って用語を抽出する用語抽出部と、
前記用語抽出部が抽出した用語の各々について、前記複数の文書のうち前記発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、前記複数の文書のうち前記発生タイミングが前記単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いを求め、少なくとも、最新の単位期間における増加の度合いと、前記最新の単位期間よりも過去の単位期間における増加の度合いとに基づいて、当該用語の出現頻度の増加傾向の評価値を求め、得られた評価値に基づいて用語を選択する評価部と、
を具備することを特徴とする用語抽出装置。
前記用語抽出部が抽出した用語同士の類似度を、２つの前記用語の組み合わせの各々について算出し、得られた類似度に基づいて前記用語のグループ分けを行う表記ゆれ統合部を具備し、
前記評価部は、前記用語の出現頻度の増加傾向が強いほど大きい値を示すスコアを前記評価値として算出し、前記表記ゆれ統合部がグループ分けした各グループについて、当該グループに含まれる用語のスコアを合計してグループのスコアを算出する
ことを特徴とする請求項１に記載の用語抽出装置。
２つの前記グループの組み合わせの各々について、一方のグループに含まれる用語と他方のグループに含まれる用語とが同一の文書に共起する頻度に基づいて、前記一方のグループに含まれる各用語と前記他方のグループに含まれる各用語とを共起語として対応付けるか否かを決定する関連付け部を具備することを特徴とする請求項２に記載の用語抽出装置。
用語抽出装置の用語抽出方法であって、
文書と当該文書の発生タイミングを示す情報とを電子データにて取得する文書取得ステップと、
前記文字取得ステップにて取得した複数の文書に対して形態素解析を行って用語を抽出する用語抽出ステップと、
前記用語抽出ステップにて抽出した用語の各々について、前記複数の文書のうち前記発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、前記複数の文書のうち前記発生タイミングが前記単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いを求め、少なくとも、最新の単位期間における増加の度合いと、前記最新の単位期間よりも過去の単位期間における増加の度合いとに基づいて、当該用語の出現頻度の増加傾向の評価値を求め、得られた評価値に基づいて用語を選択する評価ステップと、
を具備することを特徴とする用語抽出方法。
用語抽出装置としてのコンピュータに、
文書と当該文書の発生タイミングを示す情報とを電子データにて取得する文書取得ステップと、
前記文字取得ステップにて取得した複数の文書に対して形態素解析を行って用語を抽出する用語抽出ステップと、
前記用語抽出ステップにて抽出した用語の各々について、前記複数の文書のうち前記発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、前記複数の文書のうち前記発生タイミングが前記単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いを求め、少なくとも、最新の単位期間における増加の度合いと、前記最新の単位期間よりも過去の単位期間における増加の度合いとに基づいて、当該用語の出現頻度の増加傾向の評価値を求め、得られた評価値に基づいて用語を選択する評価ステップと、
を実行させるためのプログラム。