JP2013257765A - 用語抽出装置、用語抽出方法およびプログラム - Google Patents
用語抽出装置、用語抽出方法およびプログラム Download PDFInfo
- Publication number
- JP2013257765A JP2013257765A JP2012133814A JP2012133814A JP2013257765A JP 2013257765 A JP2013257765 A JP 2013257765A JP 2012133814 A JP2012133814 A JP 2012133814A JP 2012133814 A JP2012133814 A JP 2012133814A JP 2013257765 A JP2013257765 A JP 2013257765A
- Authority
- JP
- Japan
- Prior art keywords
- term
- unit
- terms
- document
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】評価部160が、用語抽出部130が抽出した用語の各々について、文書取得部110が取得した文書のうち発生タイミングが最新の単位期間に含まれる文書における当該用語の出現頻度の、発生タイミングが最新の単位期間以前の期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いの評価値(順位またはスコア)を求める。
【選択図】図1
Description
これにより、特許文献1に記載の情報抽出装置では、複数の文書から話題を抽出するだけでなく、更に、話題をより有効的に利用するための種々の情報を抽出することができる、とされている。
しかしながら、従来の用語抽出技術では、話題になると予測される用語を予め抽出することはできない。
以下、図面を参照して、本発明の実施の形態について説明する。図1は、本発明の第1の実施形態における用語抽出装置の機能構成を示す概略ブロック図である。同図において、用語抽出装置100は、文書取得部110と、前処理部120と、用語抽出部130と、評価部160と、表示部170とを具備する。
例えば、用語抽出装置100は、コールセンターに寄せられた相談や苦情から、話題になると予測される用語を抽出する。相談対応や苦情対応の担当者は、用語抽出装置100が抽出した用語を参照して対応すべき事象を判断することで、事象が拡大する前に対応し得る。
あるいは、用語抽出装置100が、インターネットにて提示されている文書から、話題になると予測される用語を抽出するようにしてもよい。ユーザは、用語抽出装置100が抽出した用語を参照して、これから話題や流行になる事物を予測することが出来る。
用語抽出装置100は、例えば、コールセンターに寄せられた1回の電話相談における会話内容を示す一纏まりの文を文書として取得する。
同図において、用語の左に付されている数字は、当該用語の出現頻度の増加順位を示している。従って、図2の例では、用語「固定カメラシステム」が、出現頻度の最も増加した用語であり、用語「障害監視システム」が、出現頻度が2番目に増加した用語である。
この初出用語は、ユーザが初めて見る用語である点において、注目すべき用語である可能性が高い。従って、用語抽出装置100(表示部170)が初出用語を強調表示することで、ユーザが注目すべき可能性を見逃すおそれを低減させ得る。例えば、相談対応や苦情対応の担当者は、初出用語に注目することで、新たに出現し始めた相談や苦情に関連する事象を把握して、事象が拡大する前に対応することができる。
図3は、順位急上昇用語の例を示す説明図である。同図に示すランキングR12は、出現頻度の増加順位の最新ランキングを示している。また、ランキングR11は、ランキングR12よりも1つ過去のランキングを示している。
一方、順位の上昇幅は、出現頻度の増加傾向が強まっている様子を示している。例えば、用語「監視システム」の順位は、ランキングR11において32位であったものが、ランキングR12において2位と急上昇している。従って、ランキングR12の時点における用語「監視システム」の出現頻度の上昇の度合いは、ランキングR11の時点における上昇の度合いよりも大幅に強まっている。
そこで、用語抽出装置100(表示部170)は、順位急上昇用語を強調表示してユーザの注目を促す。これにより、ユーザが当該用語を見落として話題になるまで気付かないおそれを低減させることができる。
文書取得部110は、例えば、コールセンターに寄せられた電話相談における会話内容を示す文書を文書データファイルにて記憶しているデータサーバ装置と通信を行う通信回路にて実現され、当該データサーバ装置から、文書と当該文書の発生タイミング(例えば、電話を受けた日時)を示す情報とを取得する。
文書取得部110は、取得した文書と当該文書の発生タイミングを示す情報とを対応付けて前処理部120に出力する。
前処理部120は、期間毎に分類された文書を用語抽出部130に出力する。
図5は、用語抽出部130が適用するフィルタリングルールの例を示す説明図である。同図に示すフィルタリングルールのうち、チェックレベルが形態素となっているルールは、用語抽出部130が形態素解析にて得られた形態素に適用するルールである。
また、行L112に示すルールは、非自立語や代名詞などの形態素を除外するものである。例えば、用語抽出装置100(表示部170)が「それ」などの代名詞を表示しても、ユーザは当該代名詞が指すものを把握することができない。すなわち、ユーザは、話題を把握することができない。そこで、用語抽出部130は、話題の把握に不適切な形態素を除外する。
例えば、行L121に示すルールは、数字のみの用語を除外するものである。例えば、用語抽出装置100(表示部170)が数字のみの用語を表示しても、ユーザは、当該数字が何を意味するか把握できず、用語に関連する事象を把握できない可能性が高い。そこで、用語抽出部130は、注目対象として不適切な数字のみの用語を除外する。
用語抽出部130は、最終的に得られた用語と、前処理部120から取得した期間毎に分類された文書とを評価部160に出力する。
例えば、評価部160は、式(1)を用いて用語wのスコアS(w)を算出する。
また、freq(w,p)は、単位期間p内に発生した文書における用語wの出現回数を示す。
右辺の分子「freq(w,N)/Doc(N)」は、最新の単位期間内に発生した文書における用語wの出現回数を当該期間内に発生した文書数で除算した数、すなわち、当該期間における用語wの出現割合を示す。また、右辺の分母における「freq(w,m)/Doc(m)」は、単位期間mにおける用語wの出現割合を示す。式(1)が出現回数に基づいてスコアを算出する計算式の例を示しているのに対し、式(2)は、出現割合に基づいてスコアを算出する計算式の例を示している。
式(2)では、最新の単位期間における用語wの出現割合が大きいほど、スコアS(w)の値が大きくなる。また、それ以前の期間における用語wの出現割合が小さいほど、スコアS(w)の値が大きくなる。なお、右辺の分母側に加算している「1」は、用語wが初出用語である場合に0での除算が発生するのを防止するための項である。
ここで、出現回数を評価する場合、文書数を加味しない点でいわば絶対的な評価を行うことができる。これに対して、出現割合を評価する場合、文書数を加味したいわば相対的な評価を行うことができる。例えば、単位期間に発生した文書における用語wの出現回数が10回の場合、出現回数の評価では、文書数が100でも1万でも同じく「10」と評価することになる。一方、出現割合の評価では、文書数が100の場合は「0.1」と評価するのに対し、文書数が1万の場合は「0.001」と評価するように、文書数に応じて正規化した評価を得られる。この出現回数と出現割合とを組み合わせることで、絶対的な評価の要素と相対的な評価の要素とを共に加味することができる。
このランキング対象とする順位の設定は、例えば予めユーザが行う。
ここで、初出用語フラグは、図2を参照して説明したように表示部170が初出用語を強調表示するためのフラグである。評価部160は、文書取得部110が取得した複数の文書において、発生タイミングが最新の単位期間に含まれる文書に初めて出現した用語を初出用語として検出する。具体的には、評価部160は、ランキング情報に含まれる各用語のうち、最新の単位期間以前に発生した各文書には含まれていない用語を、初出用語として検出する。そして、評価部160は、各用語に付与された初出用語フラグの値を検出結果に応じて設定する。例えば、評価部160は、初出用語に付与された初出用語フラグの値を「1」に設定し、他の用語に付与された初出用語フラグの値を「0」に設定する。
あるいは、評価部160が、式(4)を満たす用語を順位急上昇用語として検出するようにしてもよい。
式(4)の左辺に示されるように、R(w,N−1)やR(w,N)の対数を用いることで、順位が高いほど順位急上昇用語として検出され易くすることができる。例えば、対数の底を10とし、ランクアップ閾値を0.8に設定した場合、用語wの順位が10位から1位に上昇したときは、式(4)の左辺はLog(10)−Log(1)=1となり、式(4)を満たす。一方、用語wの順位が100位から91位に上昇したときは、式(4)の左辺はLog(100)−Log(91)=0.04となり、式(4)を満たさない。このように、同じく9位分の上昇幅であっても、用語の順位が高いときは、評価部160が順位急上昇用語として検出し、用語の順位が低いときは検出しない。
そこで、評価部160が式(4)を用いて順位急上昇用語を検出することで、より早く頻出用語となると予想される順位の高い用語を順位急上昇用語として検出し易くすることができる。
そして、評価部160は、各フラグの値の設定を完了したランキング情報を表示部170に出力して、ランキングを表示させる。
例えば、評価部160は、式(5)に基づいて評価が単調増加しているか否かを判定する。
ある用語の評価が同図に示すように上下を繰り返している場合、当該用語の順位が再び低下する可能性が比較的高い。従って、当該用語の出現頻度の増大が緩やかになり、あるいは出現頻度が減少に転じて、当該用語が頻出用語となるまでにかかる時間が比較的長いことが予想される。
あるいは、評価部160が、ランキング情報に含まれる各用語について、評価が単調増加しているか否かを判定し、区別して表示部170に表示させるようにしてもよい。これにより、ユーザがランキングを参照する際に、どの用語が間もなく頻出用語になるかの判断材料をさらに提示することができる。
評価が単調増加している場合でも、図7に示すように評価上昇のカーブが下凸になっていない(図7の例では上凸になっている)場合、時刻の経過と共に評価の伸びが鈍っていることが考えられる。従って、当該用語の出現頻度の増大が緩やかになり、当該用語が頻出用語となるまでにかかる時間が比較的長いことが予想される。
あるいは、評価部160が、ランキング情報に含まれる各用語のうち評価が単調増加している用語について、評価上昇のカーブが下凸になっているか否かを判定し、区別して表示部170に表示させるようにしてもよい。これにより、ユーザがランキングを参照する際に、どの用語が間もなく頻出用語になるかの判断材料をさらに提示することができる。
式(1)〜式(3)に例示されるスコア算出式において、最新の単位期間以前の期間に発生した文書での出現回数が少ないほどスコアが大きくなったのに対し、式(8)の左辺では、最新の単位期間以前の期間に発生した文書での出現回数が多いほど計算値が大きくなる。すなわち、最新の単位期間以前の期間に発生した文書にて頻出している用語ほど、表示部170がコンスタント出現用語として検出し易くなる。
なお、左辺の各項における係数「1」、「1/2」、・・・は、単位期間の新しさに応じて、新しい単位期間内に発生した文書での用語wの出現頻度ほど比重を大きくするための重みである。
あるいは、ユーザは、ランキングに表示されている用語のうちコンスタント出現用語を、過去に注目して対応済みの用語として無視することができる。すなわち、ユーザは、コンスタント出現用語の表示を、過去に注目済みの用語か否かの確認に用いることができる。
あるいは、表示部170が、コンスタント出現用語のリストを、ランキング表示と別ウィンドウにて表示するようにしてもよい。また、初出用語についても、表示部170が、初出用語のリストを表示するようにしてもよい。
図9は、表示部170が、コンスタント出現用語や初出用語をランキング表示と対応付けたマトリクスにて表示した例を示す説明図である。同図において、コンスタント出現欄の表示の「○」は、該当する用語(その行に示される用語)がコンスタント出現用語であることを示している。また、初出欄の表示の「○」は、該当する用語が初出用語であることを示している。
このように、コンスタント用語や初出用語をユーザが認識可能な様々な表示方法を用いることができる。
なお、表示部170の実現方法は、ディスプレイなど表示画面を有するデバイスを用いる方法に限らない。例えば、表示部170が、プリンタなど他の表示デバイスを用いて実現されていてもよい。また、評価部160が生成したランキング情報を一旦記憶デバイスに記憶させた後、表示部170がランキングを表示するようにしてもよい。
図10は、用語抽出装置100が用語の出現頻度の増加の度合いのランキングを生成して表示する処理手順を示すフローチャートである。用語抽出装置100は、単位期間毎に同図の処理を行ってランキングを生成し表示する。
次に、前処理部120は、文書取得部110からの文書を発生タイミングに応じて単位期間毎に分類する等の前処理を行い、単位期間毎に分類された文書を用語抽出部130に出力する(ステップS102)。
図11は、評価部160が行う処理の手順を示すフローチャートである。評価部160は図10のステップS104にて、図11の処理を行う。
次に、評価部160は、用語をスコアの大きい順に並べ、予め設定された順位までのランキング情報を生成する(ステップS202)。
さらに、評価部160は、初出用語を検出し、ランキング情報に付加した初出用語フラグの値を設定する(ステップS204)。
そして、評価部160は、生成したランキング情報を表示部170に出力する(ステップS205)。
その後、図11の処理を終了し、図10の処理に戻る。
その後、図10の処理を終了する。
上述したように、これら出現頻度が大きく増加している用語は、頻出用語(すなわち、話題になっている用語)となることが予想される。従って、用語抽出装置100は、話題になると予測される用語を予め抽出することができる。
これにより、ユーザは、各種閾値を比較的容易に設定し得る。例えば、ユーザは、上位100位までの用語を取得したい場合、評価部160がランキング対象とする用語の判定閾値として100位を設定すればよい。
ここで、上述したように、順位急上昇用語は、他の用語と比べて、話題になるまでにかかる時間が短い可能性がある。そこで、表示部170が順位急上昇用語を強調表示することで、ユーザが当該用語を見落として話題になるまで気付かないおそれを低減させることができる。
これにより、評価部160は、ある用語の処理に関して他の用語の状況の影響を受けずに処理を行うことができる。例えば、評価部160が、所定のスコア以上の用語のみをランキング対象として選択する場合、他にスコアの大きい用語が幾つあるかに依存せずに、各用語をランキング対象とするか否かを決定し得る。従って、スコアの大きい用語が多数ある場合でも、所定のスコア以上の用語を全て表示部170が表示するようにできる。この点で、ユーザが用語の認識漏れをおこすおそれを低減させることができる。
この初出用語は、ユーザが初めて見る用語である点において、注目すべき用語である可能性が高い。従って、用語抽出装置100(表示部170)が初出用語を強調表示することで、ユーザが注目すべき可能性を見逃すおそれを低減させ得る。
図12は、本発明の第2の実施形態における用語抽出装置の機能構成を示す概略ブロック図である。同図において、用語抽出装置200は、文書取得部110と、前処理部120と、用語抽出部130と、表記ゆれ統合部240と、関連付け部250と、評価部260と、表示部270とを具備する。同図において、図1の各部に対応して同様の機能を有する部分には同一の符号(110、120、130)を付し、説明を省略する。
同図において、用語抽出装置200は、図2を参照して説明した用語抽出装置100の場合の表示と同様、用語の出現頻度増加のランキングを表示し、順位急上昇用語および初出用語を強調表示している。
また、ランキングR22からランキングR23への遷移において、用語「障害監視システム」の順位が78位から2位への急上昇している。そこで、用語抽出装置200は、ランキングR23において、用語「障害監視システム」を順位急上昇用語として強調表示している。
また、ランキングR23における用語「感性分析システム」、「感性解析システム」および「感性分布表示システム」は、いずれも初出用語である。そこで、用語抽出装置200は、ランキングR23において、用語「感性分析システム」、「感性解析システム」および「感性分布表示システム」を初出用語として強調表示している。
具体的には、用語抽出装置200は、「固定カメラシステム」や「障害監視システム」など同様の意味を有する可能性の高い用語を、1つのグループとして纏めて領域A111に表示している。同様に、用語抽出装置200は、「地図表示装置」や「地図画像表示装置」など同様の意味を有する可能性の高い用語を、もう1つのグループとして纏めて領域A112に表示している。さらに、用語抽出装置200は、「感性分析システム」や「感性解析システム」など同様の意味を有する可能性の高い用語を、さらにもう1つのグループとして纏めて領域A113に表示している。
ここで、同一のものが表記ゆれにより複数の用語にて表現された場合、用語毎にスコアを算出してランキングを行うと、表記ゆれのない用語よりも低い順位となってしまうおそれがある。これに対して、用語抽出装置200は、同様の意味を有する可能性の高い用語を1つのグループとして纏めることで、表記ゆれの用語を同一グループに纏めることができる。そして、用語抽出装置200は、グループ間で順位付けを行うことで、表記ゆれを同一の用語として扱ってランキング表示を行うことができる。
なお、表記ゆれの無い用語は、1つの用語からなるグループを形成してランキングされる。
このように、用語抽出装置200が共起語を表示することで、ユーザは、用語が出現した原文書の内容を推測し易くなる。従って、ユーザが原文書を参照せずとも用語に関連する事象を把握できる可能性が高まる。この点では、ユーザは、用語に関連する事象をより速く把握し得る。
図15は、表記ゆれ統合部240が行うグループ分けの例を示す説明図である。
表記ゆれ統合部240は、まず、各用語について、当該用語のみからなるグループを形成する。同図に示す状態T11では、6つの用語の各々が、当該用語自身のみを含むグループに属している。
また、表記ゆれ統合部240は、用語同士の類似度を、2つの用語の組み合わせ全てについて、算出しておく。例えば、表記ゆれ統合部240は、式(9)を用いて用語αと用語βとの類似度Sim(α,β)を算出する。
ここで、表記ゆれ統合部240は、2つのグループA、Bの類似度として、グループAに属する用語とグループBに属する用語との類似度の最大値を用いる。
a.グループAの末尾にグループBを結合する。
b.グループAの順序を逆にし、その末尾にグループBを結合する。
c.グループAの末尾に、グループBの順序を逆にしたものを結合する。
結合の際、元のグループ内での並びを変更しないことで、先に行った結合における、より類似度の高い用語同士の並びを維持することができる。すなわち、より類似度の高い用度同士がより近くに位置するように配置できる。
表記ゆれ統合部240は、グループが1つになるか、あるいは、結合可能なグループがなくなるまで、グループの結合を繰り返す。
図15の例では、状態T11において、用語1を含むグループと用語2を含むグループとの類似度が0.9で最も高くなっている。そこで、表記ゆれ統合部240は、用語1の末尾に用語2を結合することで、2つのグループを結合する(上記方法a)。これにより、状態T12となる。
状態T13では、用語4と用語6との組み合わせが、グループの類似度の最大値0.7を与えている。そこで、表記ゆれ統合部240は、用語4と用語6とを近くに配置するために、用語5および6を含むグループの順序を逆にし、その末尾に用語4を含むグループを結合する(上記方法b)。これにより、状態T14となる。
状態T15では、用語1と用語5との組み合わせが、グループの類似度の最大値0.4を与えている。そこで、表記ゆれ統合部240は、用語1と用語5とを近くに配置するために、用語1、2および3を含むグループの順序を逆にし、その末尾に用語5、6および4を含むグループを結合する(上記方法b)。これにより、状態T16となる。
状態T16においてグループが1つになったため、表記ゆれ統合部240は、グループの結合を終了する。
表記ゆれ統合部240は、得られた各グループを関連付け部250に出力する。
図16は、用語の接続パタンの類似度の例を示す説明図である。同図では、用語「米国」と「アメリカ」との各々について、用語「に行く」、「に住む」、「に向かう」、「から帰ってくる」の各々との接続パタン出現回数が示されている。表記ゆれ統合部240は、出現回数の各々を正規化して得られる正規化値のベクトルとしての類似度(例えばコサイン類似度)を、用語の類似度として算出する。
また、ここでいう正規化は、ある値を、より比較し易い別の値に変換することである。例えば、用語aとbとの接続パタンの出現割合に対し、式(11)に基づいて正規化を行うことが考えられる。
また、ある用語が出現する文の割合は、用語が出現する文の数を文の総数で除算して得られる。そこで、表記ゆれ統合部240は、式(12)に基づいて用語の接続パタンの出現回数を正規化する。
例えば、図16の例において、表記ゆれ統合部240は、「米国」の出現する文の数、「に行く」の出現する文の数、「米国」と「に行く」とが共に出現する文の数、および、文の総数を、式(12)に代入して、「米国」と「に行く」との正規化値を算出する。
関連付け部250は、この共起関係の有無の決定を、表記ゆれ統合部240のグループ分けにおける2つのグループの全組み合わせについて行う。すなわち、関連付け部250は、2つのグループの組み合わせの各々について、一方のグループに含まれる用語と他方のグループに含まれる用語とが同一の文書に共起する頻度に基づいて、一方のグループに含まれる各用語と他方のグループに含まれる各用語とを共起語として対応付けるか否かを決定する。
また、freq(G,N)は、最新の単位期間N内に発生した文書における、グループGに含まれる用語のうち少なくとも1つが出現した文書の数を示す。また、SHaは、出現頻度閾値として予め設定された定数を示す。
また、A用語出現文書集合とB用語出現文書集合との共通部分(以下、単に「共通部分」と称する)は、グループAに含まれる用語のうち少なくとも1つとグループBに含まれる用語のうち少なくとも1つが共に出現した文書の集合、すなわち、グループAに含まれる用語とグループBに含まれる用語とが共起する文書の集合を示す。
しかしながら、このようにグループに含まれる用語の出現頻度が極端に低い場合、共起の回数が少ないので、共起している用語の間に強い関連性が無く、偶然共起しただけという可能性がある。
そこで、式(11)における2番目の不等式および3番目の不等式にて、出現頻度の低過ぎる用語を除外することで、関連性の低い用語を関連付けることを回避する。
関連付け部250は、関連付けの結果を、前処理部120が単位期間毎に分類した文書と、用語抽出部130が抽出した用語と、表記ゆれ統合部240が生成したグループの情報と共に評価部260に出力する。
図18は、用語抽出装置200が用語の出現頻度の増加の度合いのランキングを生成して表示する処理手順を示すフローチャートである。用語抽出装置100は、単位期間毎に同図の処理を行ってランキングを生成し表示する。
次に、表記ゆれ統合部240は、用語抽出部130が抽出した用語の類似度を算出し、得られた類似度に基づいて用語のグループ分けを行うことで、表記ゆれの用語を同一のグループに統合する(ステップS304)。
図19の処理において、表記ゆれ統合部240は、まず、用語抽出部130が抽出した用語のうちの2つの各組み合わせについて、用語の類似度を算出する(ステップS401)。
次に、表記ゆれ統合部240は、各用語について、当該用語のみからなるグループを形成し、用語の類似度をグループの類似度として設定する(ステップS402)。
一方、グループが2つ以上あると判定した場合(ステップS403:YES)、表記ゆれ統合部240は、グループ同士の類似度の最も高い2つのグループを選択する(ステップS411)。
一方、類似度閾値より大きいと判定した場合(ステップS412:YES)、表記ゆれ統合部240は、グループの類似度を与える用語の組み合わせについて、形態素一致率が形態素一致率閾値より大きいか否かを判定する(ステップS431)。形態素一致率閾値より大きいと判定した場合(ステップS431:YES)、表記ゆれ統合部240は、選択したグループを結合する(ステップS441)。
そして、表記ゆれ統合部240は、結合したグループと他の各グループとの類似度を更新する(ステップS442)。その後、ステップS403へ戻る。
図20は、評価部260が行う処理の手順を示すフローチャートである。評価部260は図18のステップS306にて、図20の処理を行う。
ステップS502の後、評価部260は、ステップS502で表示対象に選択された用語を、表記ゆれ統合部240が形成したグループに分類し、グループ毎に用語を順位に従って並べる(ステップS503)。
そして、評価部260は、表示対象のグループ(表示対象の用語を含むグループ)を、ステップS504で設定した順位に従って並べてランキング情報を生成する(ステップS505)。
さらに、評価部260は、初出用語を検出し、ランキング情報に付加した初出用語フラグの値を設定する(ステップS507)。
そして、評価部260は、生成したランキング情報を表示部270に出力する(ステップS508)。
その後、図20の処理を終了し、図18の処理に戻る。
その後、図18の処理を終了する。
これにより、表示部270は、表記ゆれを同一の用語として扱ってランキング表示を行うことができ、表記ゆれによる順位の低下を防止し得る。
これにより、ユーザは、用語が出現した原文書の内容を推測し易くなる。従って、ユーザが原文書を参照せずとも用語に関連する事象を把握できる可能性が高まる。この点では、ユーザは、用語に関連する事象をより速く把握し得る。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、コンパクトディスク等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
110 文書取得部
120 前処理部
130 用語抽出部
160、260 評価部
170、270 表示部
240 表記ゆれ統合部
250 関連付け部
Claims (5)
- 文書と当該文書の発生タイミングを示す情報とを電子データにて取得する文書取得部と、
前記文字取得部が取得した複数の文書に対して形態素解析を行って用語を抽出する用語抽出部と、
前記用語抽出部が抽出した用語の各々について、前記複数の文書のうち前記発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、前記複数の文書のうち前記発生タイミングが前記単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いを求め、少なくとも、最新の単位期間における増加の度合いと、前記最新の単位期間よりも過去の単位期間における増加の度合いとに基づいて、当該用語の出現頻度の増加傾向の評価値を求め、得られた評価値に基づいて用語を選択する評価部と、
を具備することを特徴とする用語抽出装置。 - 前記用語抽出部が抽出した用語同士の類似度を、2つの前記用語の組み合わせの各々について算出し、得られた類似度に基づいて前記用語のグループ分けを行う表記ゆれ統合部を具備し、
前記評価部は、前記用語の出現頻度の増加傾向が強いほど大きい値を示すスコアを前記評価値として算出し、前記表記ゆれ統合部がグループ分けした各グループについて、当該グループに含まれる用語のスコアを合計してグループのスコアを算出する
ことを特徴とする請求項1に記載の用語抽出装置。 - 2つの前記グループの組み合わせの各々について、一方のグループに含まれる用語と他方のグループに含まれる用語とが同一の文書に共起する頻度に基づいて、前記一方のグループに含まれる各用語と前記他方のグループに含まれる各用語とを共起語として対応付けるか否かを決定する関連付け部を具備することを特徴とする請求項2に記載の用語抽出装置。
- 用語抽出装置の用語抽出方法であって、
文書と当該文書の発生タイミングを示す情報とを電子データにて取得する文書取得ステップと、
前記文字取得ステップにて取得した複数の文書に対して形態素解析を行って用語を抽出する用語抽出ステップと、
前記用語抽出ステップにて抽出した用語の各々について、前記複数の文書のうち前記発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、前記複数の文書のうち前記発生タイミングが前記単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いを求め、少なくとも、最新の単位期間における増加の度合いと、前記最新の単位期間よりも過去の単位期間における増加の度合いとに基づいて、当該用語の出現頻度の増加傾向の評価値を求め、得られた評価値に基づいて用語を選択する評価ステップと、
を具備することを特徴とする用語抽出方法。 - 用語抽出装置としてのコンピュータに、
文書と当該文書の発生タイミングを示す情報とを電子データにて取得する文書取得ステップと、
前記文字取得ステップにて取得した複数の文書に対して形態素解析を行って用語を抽出する用語抽出ステップと、
前記用語抽出ステップにて抽出した用語の各々について、前記複数の文書のうち前記発生タイミングが所定の単位期間に含まれる文書における当該用語の出現頻度の、前記複数の文書のうち前記発生タイミングが前記単位期間以前の単位期間に含まれる文書における当該用語の出現頻度に対しての、増加の度合いを求め、少なくとも、最新の単位期間における増加の度合いと、前記最新の単位期間よりも過去の単位期間における増加の度合いとに基づいて、当該用語の出現頻度の増加傾向の評価値を求め、得られた評価値に基づいて用語を選択する評価ステップと、
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012133814A JP6027781B2 (ja) | 2012-06-13 | 2012-06-13 | 用語抽出装置、用語抽出方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012133814A JP6027781B2 (ja) | 2012-06-13 | 2012-06-13 | 用語抽出装置、用語抽出方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013257765A true JP2013257765A (ja) | 2013-12-26 |
JP6027781B2 JP6027781B2 (ja) | 2016-11-16 |
Family
ID=49954143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012133814A Active JP6027781B2 (ja) | 2012-06-13 | 2012-06-13 | 用語抽出装置、用語抽出方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6027781B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017077902A1 (ja) * | 2015-11-06 | 2017-05-11 | 日本電気株式会社 | データ処理装置、データ処理方法、及び、プログラム |
CN107784010A (zh) * | 2016-08-29 | 2018-03-09 | 上海掌门科技有限公司 | 一种用于确定新闻主题的热度信息的方法与设备 |
CN107992976A (zh) * | 2017-12-15 | 2018-05-04 | 中国传媒大学 | 热点话题早期发展趋势预测系统及预测方法 |
CN108415910A (zh) * | 2017-02-09 | 2018-08-17 | 中国传媒大学 | 基于时间序列的话题发展聚类分析系统和方法 |
CN109214562A (zh) * | 2018-08-24 | 2019-01-15 | 国网山东省电力公司电力科学研究院 | 一种基于rnn的电网科研热点预测与推送方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001216311A (ja) * | 2000-02-01 | 2001-08-10 | Just Syst Corp | イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置 |
JP2002215647A (ja) * | 2001-01-24 | 2002-08-02 | Nec Corp | テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそれらに用いるプログラム |
JP2006323517A (ja) * | 2005-05-17 | 2006-11-30 | Mitsubishi Electric Corp | テキスト分類装置およびプログラム |
JP2009253497A (ja) * | 2008-04-03 | 2009-10-29 | Victor Co Of Japan Ltd | 番組受信装置 |
-
2012
- 2012-06-13 JP JP2012133814A patent/JP6027781B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001216311A (ja) * | 2000-02-01 | 2001-08-10 | Just Syst Corp | イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置 |
JP2002215647A (ja) * | 2001-01-24 | 2002-08-02 | Nec Corp | テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそれらに用いるプログラム |
JP2006323517A (ja) * | 2005-05-17 | 2006-11-30 | Mitsubishi Electric Corp | テキスト分類装置およびプログラム |
JP2009253497A (ja) * | 2008-04-03 | 2009-10-29 | Victor Co Of Japan Ltd | 番組受信装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017077902A1 (ja) * | 2015-11-06 | 2017-05-11 | 日本電気株式会社 | データ処理装置、データ処理方法、及び、プログラム |
JPWO2017077902A1 (ja) * | 2015-11-06 | 2018-08-16 | 日本電気株式会社 | データ処理装置、データ処理方法、及び、プログラム |
US10867162B2 (en) | 2015-11-06 | 2020-12-15 | Nec Corporation | Data processing apparatus, data processing method, and non-transitory storage medium |
US11830286B2 (en) | 2015-11-06 | 2023-11-28 | Nec Corporation | Data processing apparatus, data processing method, and non-transitory storage medium |
CN107784010A (zh) * | 2016-08-29 | 2018-03-09 | 上海掌门科技有限公司 | 一种用于确定新闻主题的热度信息的方法与设备 |
CN108415910A (zh) * | 2017-02-09 | 2018-08-17 | 中国传媒大学 | 基于时间序列的话题发展聚类分析系统和方法 |
CN108415910B (zh) * | 2017-02-09 | 2021-03-05 | 中国传媒大学 | 基于时间序列的话题发展聚类分析系统和方法 |
CN107992976A (zh) * | 2017-12-15 | 2018-05-04 | 中国传媒大学 | 热点话题早期发展趋势预测系统及预测方法 |
CN107992976B (zh) * | 2017-12-15 | 2020-09-29 | 中国传媒大学 | 热点话题早期发展趋势预测系统及预测方法 |
CN109214562A (zh) * | 2018-08-24 | 2019-01-15 | 国网山东省电力公司电力科学研究院 | 一种基于rnn的电网科研热点预测与推送方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6027781B2 (ja) | 2016-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102092691B1 (ko) | 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기 | |
JP5990178B2 (ja) | キーワード抽出に関するシステム及び方法 | |
CN111475729B (zh) | 搜索内容推荐方法及装置 | |
JP5825676B2 (ja) | ノン・ファクトイド型質問応答システム及びコンピュータプログラム | |
US10445623B2 (en) | Label consistency for image analysis | |
US20130110839A1 (en) | Constructing an analysis of a document | |
CN106095845B (zh) | 文本分类方法和装置 | |
JP6027781B2 (ja) | 用語抽出装置、用語抽出方法およびプログラム | |
Topaz et al. | NimbleMiner: an open-source nursing-sensitive natural language processing system based on word embedding | |
KR101735312B1 (ko) | 소셜 미디어 분석을 기반으로 복합이슈를 탐지하기 위한 장치, 시스템 및 그 방법 | |
CN112380244B (zh) | 一种分词搜索方法、装置、电子设备及可读存储介质 | |
EP2824586A1 (en) | Method and computer server system for receiving and presenting information to a user in a computer network | |
KR101377447B1 (ko) | 태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템 | |
WO2011111038A2 (en) | Method and system of providing completion suggestion to a partial linguistic element | |
JP2017134787A (ja) | 複数地域でのトピックの評価を分析する装置、プログラム及び方法 | |
Kanhabua et al. | Identifying relevant temporal expressions for real-world events | |
US9690797B2 (en) | Digital information analysis system, digital information analysis method, and digital information analysis program | |
Skaik et al. | Suicide ideation estimators within Canadian provinces using machine learning tools on social media text | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN105653553B (zh) | 词权重生成方法和装置 | |
RU2632126C1 (ru) | Способ и система предоставления контекстуальной информации | |
CN116168793A (zh) | 体检数据的处理分析方法及相关设备 | |
CN112926297B (zh) | 处理信息的方法、装置、设备和存储介质 | |
CN107590163B (zh) | 文本特征选择的方法、装置和系统 | |
TW201822031A (zh) | 以文字資訊建立圖表索引方法及其電腦程式產品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160920 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6027781 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |