JP5284990B2 - キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム - Google Patents
キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム Download PDFInfo
- Publication number
- JP5284990B2 JP5284990B2 JP2010002852A JP2010002852A JP5284990B2 JP 5284990 B2 JP5284990 B2 JP 5284990B2 JP 2010002852 A JP2010002852 A JP 2010002852A JP 2010002852 A JP2010002852 A JP 2010002852A JP 5284990 B2 JP5284990 B2 JP 5284990B2
- Authority
- JP
- Japan
- Prior art keywords
- document data
- cluster
- keyword
- document
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Description
また、文書解析の固有の問題として、文書データ中のキーワードを含む数は膨大である。文書データの数が多ければ、時系列で解析すべき文書データ中のキーワードの数は数億から数十億にもなる。検索によって絞り込まれた文書集合ごとに、そこに含まれるキーワードの出現頻度の時系列を、その全てのキーワードに対しておこなうには多大な時間と計算資源を必要とするため、検索実行時に要求される応答時間内にそれを行うのは非常に困難となる。従って、検索キーワードの大局的なトレンドを効率的に発見する方法が求められている。
自然言語による事象の記述である文書データを当該文書データ中のキーワードの出現頻度に基づきクラスタリング又は分類するステップであって、当該文書データのクラスタリング又は分類によって個々のキーワードもクラスタリング又は分類される、上記クラスタリング又は分類するステップと、
上記文書データをクラスタリング又は分類したクラスタ又はクラス(以下、「文書クラスタ」ともいう)内における個々のキーワードを含む文書データの出現頻度に対して、又は上記個々のキーワードをクラスタリング又は分類したクラスタ又はクラス(以下、「キーワード・クラスタ」ともいう)を含む文書データの出現頻度に対して時系列解析を行うステップであって、それによって上記文書データの出現頻度の変化を示す周波数分布が求められる、上記ステップと、
を実行させることを含む。
自然言語による事象の記述である文書データを当該文書データ中のキーワードの出現頻度に基づきクラスタリング又は分類するクラスタリング部であって、当該文書データのクラスタリング又は分類によって個々のキーワードもクラスタリング又は分類される、上記クラスタリング部と、
上記文書データをクラスタリング又は分類したクラスタ又はクラス(文書クラスタ)内における個々のキーワードを含む文書データの出現頻度に対して、又は上記個々のキーワードをクラスタリング又は分類したクラスタ又はクラス(キーワード・クラスタ)を含む文書データの出現頻度に対して時系列解析を行う時系列解析部であって、それによって上記文書データの出現頻度の変化を示す周波数分布が求められる、上記時系列解析部と、
を含む。
(1)クラスタの数は、キーワードの数に比べて格段に少ない。従って、周波数解析のような計算量の多い解析が可能である。
(2)クラスタは、文書データをクラスタリング又は分類したもの(文書クラスタ)又は当該文書クラスタ内における個々のキーワードをクラスタリング又は分類したもの(キーワード・クラスタ)である。従って、当該クラスタは、意味のあるトレンドと関係する可能性が高い。
(3)上記クラスタ内の複数のキーワードは、共通の文書データ内に含まれる可能性が高い。すなわち、当該複数のキーワードは、互いに共起関係にある。従って、異なる変動パターンで互いの時系列の変化を相殺する可能性が低い。
文書データをクラスタリングすることによってできるグループ又は文書データの集合をクラスタリングするためのグループをクラスタとも呼ぶ。文書データはキーワードの集合であるため、文書データの集合をクラスタリングすることは、キーワードをクラスタリングすることでもある。当該クラスタは、文書データにおける共起関係において相関するキーワードを構成する概念でもある。
当該グループ分けされた文書データの集合を検索対象とすることによって、1つ1つの文書データを検索対象とするよりも、ユーザが必要とする文書データを効率的に抽出することが可能である。各クラスタは特定のキーワードだけでできるわけではなく、顕著なキーワードの集合でありうる。一般的には、各クラスタに、当該クラスタを特徴付ける単語又はフレーズのスコア付きの集合が定義される。
文書データ間の類似度とは、文書データが2つ与えられたときに当該2つに対して決まる実数である。この値が大きいほど2つの文書データは似ていると仮定される。文書データのクラスタリングでは、類似度は、例えば文書データ中の共通のキーワードに基づいて求められる。類似度の高い文書データをグループ化することによりクラスタが作成できる。
文書データ間の距離とは、ユークリッド空間における2つの文書データ間の距離をいい、2つの文書データ間の隔たりである。距離を定義するためには、まず空間を定義する必要がある。空間としては各単語を各次元とし、文書データを、当該文書データ内に出現する単語の数、又はtf・idf(term frequency - inverse document frequency)を座標とする点としてプロットする。そして、2つの文書データ間の距離を単純にユークリッド空間での2つの点の距離によって、その隔たりを計算する。距離の近い文書データをグループ化することによりクラスタが作成できる。上記tf・idfは、頻出単語からの寄与を下げるように、文書データ内での単語の出現数tfに単語を含む文書データの数の逆数又は対数の逆数をかけたものである。
ステップ1 解析処理部(図8Aの806)は、文書データに対して、形態素解析を行い、各キーワードに分割する。形態素解析の方法として、規則による形態素解析と確率的言語モデルを用いる方法がある。確率的言語モデルによる形態素解析は、例えば隠れマルコフニコフモデルによる方法である。本発明の実施態様において、形態素解析エンジンは、市販で入手可能なものを用いてもよい。文書データのクラスタリングでは、文書データを表現するために文書を構成するキーワードの重みからなるベクトルを用いることが多い。当該ベクトルの表現のために、文書データにおいてキーワードを切り分けていく必要がある。当該切り分けのために、例えば日本語、中国語、韓国語の文書データの場合には、上記形態素解析が行われる。また、例えば英語の文書データの場合には、単語と単語との間に区切り(スペース)があるために文を形態素に区切るのは日本語と比べると比較的簡単ではあるが、形態素又は合成語の品詞を見分けることは必要である。
ステップ2 クラスタリング部(図8Aの806)は、文書データを上記各語の重みから構成されるベクトルとして表す。文書データDiにおける文書ベクトルdiの各属性値di k(k=1,2,・・・・,n)は、下記式1に従い求められる。式1では、下記式2〜式3に示すDiにおけるtf・idf値が用いられる。tf・idfでは、tf(単語の出現頻度)及びidf(逆出現頻度)の2つの指標に基づいて求められる。
(1)上記階層的クラスタリングでは、例えば、上記式4で求められる類似度を用いて、以下のアルゴリズムによりクラスタを形成することが可能である。
ステップ1 クラスタリング部は、個々の文書データをそれぞれ1つのクラスタとする。
ステップ2 クラスタリング部は、クラスタの集合の中から、類似度が最大となるクラスタの組を求める。
ステップ3 クラスタリング部は、上記クラスタの組間の類似度が閾値以下であれば、クラスタリングを終了する。一方、クラスタリング部は、上記クラスタの組間の類似度が閾値以上であれば、当該組のクラスタを統合し、1つのクラスタとする。クラスタリング部は、ステップ2に戻り、ステップ2及びステップ3を繰り返す。
クラスタの組間の類似度は、例えば下記式5に示される最長距離法によって求められうる。最長距離法では、例えば、クラスタGi及びGj間の類似度には、Giに属する任意の文書データの文書ベクトルxとGjに属する任意の文書データの文書ベクトルとの類似度のうち、最小の類似度を当該クラスタ間の類似度とする。
クラスタの分割数をkとし、文書データ数をm、クラスタWに含まれる文書データの数をN(W)とする。
ステップ1 クラスタリング部は、k個の初期クラスタを任意に決める。
ステップ2 クラスタリング部は、下記式6に従い得られる文書データDiをクラスタWに移動した場合の誤差の増加量e(i,W)を計算し、その最小値を持つクラスタWに文書データDiを移す。
分類は、例えば、方程式で表現されたモデル、ルールで表現されたモデル、確率で表現されたモデル及びマッチングを行うモデルに従い行われる。方程式で表現されたモデルは、例えば判別分析である。ルールで表現されたモデルは、例えばルールベース又は決定木である。確率で表現されたモデルは、例えばベイジアンネットワークである。マッチングを行うモデルは、例えば自己組織化マップである。
ウェーブレット変換では、フーリエ変換と異なり、周波数特性を求める際に失われる時間領域の情報を残すことが可能である。ウェーブレット変換では、基底関数のスケールを行うので、広い周波数領域の解析が可能である。
ウェーブレット変換は、例えば下記式9で表される。
mは、波長である。
nは、ウェーブレットの中心の座標である。
am,nは、各ウェーブレット成分の実係数である。
φm,nは、ウェーブレット関数である。
tは、時間である。
文書データ解析の代表的な手法は、キーワードの出現頻度を時系列で解析し、背後で起こっている事象を探し当てるというシナリオである。
上段のグラフ(101)は、周期パターンを示す。周期パターンは、大局的なトレンドの例である。
下段のグラフ(102)は、ランダムパターンを示す。ランダムパターンでは大局的な周期パターンは認められず、トレンドは局所的なものとなる。
上記グラフ(101、102)の縦軸は発生件数であり、発生件数は出現頻度と同じである。同グラフ(101、102)の横軸は時間軸であり、発生件数の時系列を示す。
キーワードの出現頻度を時系列で解析すると、図1に示すように、大局的なトレンド(101)と局所的なトレンド(102)とに大きく分けられる。トレンドは変動ともいう。大局的なトレンドでは、トレンドが集まって一定のタイムラインにおいて山のようになる。これらのトレンドを求めるために、例えば、時系列に沿って変動幅を測定し、大きく変動する点を検出する手法がある。しかし、当該方法では、大局的なトレンドを局所的なトレンドよりも優先して探すという解析ができない。このような問題を解決する手法として、出現頻度の時系列を時系列解析(例えば、フーリエ変換又はウェーブレット変換)を使用して周波数成分へ分解する手法がある。上記大きなトレンドを優先的に発見するために、上記時系列解析を、キーワードを含んだ文書の出現頻度のカウント(ファセットカウントともいう)に適用し、下記式10のようなインデックスを定義する。
mは、波長である。
nは、ウェーブレットの中心の座標である。
am,nは、各ウェーブレット成分の実係数であり、周波数解析の結果を示す。
c1、c2、c3、・・、は各周波数成分からの寄与を重み付けするための定数である。
索引データベース(214)の作成では、文書データ(211)から単語及びフレーズを抽出し(201)、文書データをクラスタリング又は分類し(202)、そして検索キーワードから当該検索キーワードを含む文書データを特定するための索引の作成を行う(203)。索引として、単語又はフレーズが文書データに索引付けられる。なお、文書データがクラスタ又はクラスに属するスコア又は確率は、文書データにメタデータとして付与されるものである。以下、索引データベースの作成を図2Aのステップ201〜203に従い説明する。
ステップ201では、コンピュータ内の自然言語解析を処理する解析処理部(図8Aの806)は、用意された文書データ(211)の自然言語解析を行う。文書データ(211)は、例えば文書データベースを格納する記憶装置又はその他の記録媒体に格納されている。自然言語解析は、例えば、図2Bに示すように下記4つのステップから構成される:形態素解析(221)、構文解析(222)、意味解析(223)及び文脈解析(224)。自然言語解析は、例えば、市販の自然言語解析アプリケーション・ソフトウェアを使用して行ってもよい。例えば、自然言語解析エンジンは、IBM(IBM社の登録商標)OmniFind(IBM社の登録商標) Enterprise Editionの一部の機能として実装されている。当該解析処理部は、文書データが入力されると又は文書データを取得すると、当該文書データ(211)から単語を抽出する。当該抽出には、単語辞書(212)及び単語の抽出ルール(213)が使用される。単語辞書(212)は、自然言語解析によって文書データから単語を抽出するために使用される辞書である。単語辞書は、例えば、文書データの内容の分野又は当該内容に類似の分野の辞書を使用しうる。抽出ルール(213)は、自然言語解析によって文書データから単語を抽出するために使用される規則又は決まりである。自然言語解析では、単語辞書(212)を使用して、上記抽出された単語に品詞情報をさらに付加する。そして、解析処理部は、品詞情報が付加された単語及び抽出ルール(213)に基づいてフレーズをさらに抽出してもよい。
ステップ202では、上記コンピュータ内のクラスタリング部は、文書データベースに格納されている文書データ(211)をクラスタリング又は分類する。文書データのクラスタリングでは、文書データ間の類似度又は距離に基づき、文書データをグループ分けする。文書データの分類では、コンピュータによって自動的に又は人手によって主導的に、文書データをグループ分けする。クラスタリング又は分類において、文書データ毎に、各クラスタのスコアが求められる。当該スコアを求める方法は、クラスタリング又は分類のアルゴリズムにより異なる。言い換えれば、スコアを定義するのが上記アルゴリズムである。例えば単語空間にマップする方法では、単語空間において、各クラスタそれぞれがクラスタを代表する点として定義され、且つ各文書データも点として定義される。当該マップする方法の場合、点間の距離の逆数をスコアとすることができる。別の方法として、点をベクトルと考え、内積で定義する方法がある。さらに別の方法として、単語の出現頻度を統計的な確率とみなし、ベイズ・ルールで確率を求めて、スコアとする方法がある。クラスタリングの具体例を、図3A〜図3Cを用いて別途説明する。
ステップ203では、上記コンピュータ内の索引付部(図8Aの807)は、検索対象である文書データを内部で処理できる形式(内部表現)に置き換える。この内部表現を索引ともいう。索引付部は、文書データ(211)から抽出されたキーワードを索引として、索引データベース(214)に保存する。また、索引付部は、文書データ毎に、各クラスタのスコアを有する文書リストを作成する。当該部文書リストは、索引データベース(214)に保存されてもよいし、他のデータベースとして記録媒体内に保存されてもよい。文書リストにおいて、各文書データにおける各クラスタのスコアを全て保存すると冗長であり、データ量が多くなる。よって、スコアが所定の閾値よりも大きいスコア又は所定の割合を有するクラスタのスコアが文書リスト中に保存され、その他のクラスタのスコアはゼロとみなされるようにしてもよい。
ステップ201〜203を繰り返すことによって、索引データベース(214)が作成される。索引データベース(214)が作成されることによって、ユーザから入力された又はコンピュータによって作成された検索キーワードに基づいて、索引データベース(214)を用いた文書データの検索が可能になる。
また、自動的な索引の作成のためにnグラム索引を使用しうる。nグラム索引では、分割された語でなく、文の先頭から1文字ずつずらしながら連続するn文字を索引とするnグラム索引が使用されうる。しかし、nグラム索引では、意味のない索引も作成されてしまう。
また、自動的な索引の作成のために、重要度を使用しうる。重要度は、上記文書データから抽出された索引が、当該索引が含まれている文書データの内容とどれだけ密接に関連しているからを表す。当該重要度が検索キーワードに付与されることによって、より適切な文書データの検索が可能である。文書データの重要度は、通常、当該検索キーワードが含まれる文書データによって異なりうる。
重要度の計算方法は、例えばtf・idfが用いられる。tfとは、索引の文書データ内の出現頻度であり、あるキーワードが文書データ中で多く存在するほど重要であると判断される。すなわち、出現頻度の値が大きい索引ほど文書データ内で重要であることを表している。dfとは、文書データの集合中で索引が出現する文書データ数であり、idfはその逆数である。tf・idfでは、文書データの集合において、特定のキーワードがある特定の文書データに多く出現する場合には当該キーワードは重要であるが、一方当該特定のキーワードが文書データの集合中にどの文書データにも現れる場合には重要度が下がる、という性質を表す。この性質を用いて、索引に重み付けを行うことができる。
tf・idfによる当該重み付けを使用して、与えられた検索キーワードの重要度が高い文書データが優先的に検索結果として抽出されうる。
自然言語解析は、解析処理部によって行われる。解析処理部は、形態素解析処理部、構文解析処理部、意味解析処理部、及び文脈解析処理部を備えている。
ステップ221では、形態素解析処理部が、文書データ(211)の文節を形態素解析する。形態素解析では、活用法が利用情報として使用される。形態素解析では、用語などの活用している語は原形に戻され、文書データから抽出された全ての語に品詞が割り当てられる。形態素解析では、例えば、当該文節内の単語の並び方が形態論的に正しい結果だけを用いることができる。
ステップ222では、構文解析処理部が、上記形態素解析された結果を用いて、構文解析する。構文解析では、例えば、文書データに従う各言語の文法が利用情報として使用され、統語構造が抽出される。統語構造とは、文の持つ規則的配列構造である。構文解析では、例えば、文法を用いて、キーワード間の修飾関係が解析されて、文の統語構造が得られる。
ステップ223では、意味解析処理部が、キーワードが持つ意味情報を持つ辞書を用いて、キーワード又は文の意味を抽出する。意味解析では、形態素解析及び構文解析で生じた曖昧性が解消される。
ステップ224では、文脈解析処理部が、意味解析の結果を用いて、文脈解析を行う。文脈解析では、例えば名詞句の解析、動詞句の解析が行われる。名詞句の解析では、中心となる名詞を概念化し、当該名詞を修飾している情報を統合する。動詞句の解析では、動詞を概念化し、そして副詞などの修飾語を統合した後に、名詞句の深層格とともに動詞句に統合していく(スロットフィリング)。
以上のステップ221〜ステップ224によって、自然言語解析による理解結果(215)が得られる。
文書データ(211)の具体例では、オリジナル文書データ1(231)を用いて説明する。オリジナル文書データ1(231)の内容は、次の通りである:「対向車を避けようと、ハンドルを強くきった。日時 2007/07/07 7:00AM」。
ステップ201では、解析処理部は、オリジナル文書データ1(231)の自然言語解析をする。その結果は次の通りである:「対向車(名詞) 避ける(動詞) ハンドル(名詞) 強く(形容詞) きる(動詞)」(232)。自然言語解析によって、用語などの活用している語は原形に戻されている。また、自然言語解析によって、各語に品詞が割り当てられている。
ステップ202では、クラスタリング部は、文書データ(211)をクラスタリング又は分類する。
図2Cに示したクラスタ1〜3それぞれは、文書データに含まれる語全てを参照して、共通語の多いもの同士をクラスタリングしたものである。図2Cでは、クラスタ1〜3の各スコアが示されている(233)。クラスタ1〜3の各スコア(233)は、オリジナル文書データ1が各クラスタに属するスコアを示している。例えば、文書データの集合が交通事故報告に関するものである場合、クラスタ1は「運転ミスによる事故」、クラスタ2は「エンジンの故障による事故」、及びクラスタ3は「雨などによる事故」である。しかし、クラスタには、例えば必ずしも人間が見て意味がないクラスタも存在する。なお、クラスタは、一般的に、例えばtf・idfを用いて、どの文書データにも出現する頻出単語からの寄与は小さくなるようにしてある。また、各クラスタは特定の単語又はフレーズだけでできているわけでない。例えば、文書データの集合が上記交通事故報告に関するものである場合、「運転ミスによる事故」のクラスタ1では例えば「ハンドル」及び「ブレーキ」が顕著な単語として表れ、及び「エンジンの故障による事故」のクラスタ2では例えば「オイル」及び「ガスケット」が顕著な単語として表れる。
tfとは、キーワードの文書データ内の出現頻度であり、あるキーワードが文書データ中で多く存在するほど重要であると判断される。すなわち、出現頻度の値が大きいキーワードほど文書データ内で重要であることを表している。dfとは、文書データの集合中でキーワードが出現する文書データ数であり、idfはその逆数である。tf・idfでは、文書データの集合において、特定のキーワードがある特定の文書データに多く出現する場合には当該キーワードは重要であるが、一方当該特定のキーワードが文書データの集合中にどの文書データにも現れる場合には重要度が下がる、という性質を表す。この性質を用いて、キーワードに重み付けを行うことができる。
ステップ203では、索引付部は、文書データ(211)の索引であるキーワード(234)を索引データベース(214)内に保存する。索引データベース(214)はまた、文書リスト(235)を格納してもよい。単語・フレーズ索引(234)は、文書データ(211)から抽出されたキーワードを索引として有している。索引の作成については後述する。また、単語・フレーズ索引(234)はまた、文書データの作成日である日付を索引として有していてもよい。日付は文書データの索引として必須ではないが、キーワード以外に、文書データの作成日などの文書データのメタデータとして利用可能なものは索引化されうる。文書データの作成日は、例えば、特定の期間内に作成された文書データに検索対象を絞って解析したい場合に有用である。文書リスト(235)は、文書データ毎に、各クラスタにおけるスコアを記録する。文書リスト(235)では、オリジナル文書データ1についてのクラスタ1〜3のスコアの大きいもののみを保存し、他のクラスタのスコアをゼロとみなして保存しなくてもよい。なぜならば、実際には、文書リスト(235)内に全クラスタのスコアを保存すると冗長であり、文書リストのファイルサイズが大きくなるだけであるからである。よって、文書リスト(235)内に大きなスコアを持つクラスタのスコアのみを保存し、他のクラスタのスコアをゼロとみなす。文書リスト(235)内には、オリジナル文書データ1〜nそれぞれについての各クラスタのスコアが保存されている。
ステップ205では、検索部は、合致した文書データの検索結果を、例えばリスト形式で表示装置上に表示する。
第1の態様は、各単語の出現頻度を独立した次元とみなし、ベクトル空間モデルに文書データをプロットしてクラスタリングする方法である。ベクトル空間モデルを単語空間とも呼ぶ。
本ベクトル空間モデルでは、キーワード1の出現頻度がX軸、キーワード2の出現頻度がY軸、及びキーワード3の出現頻度が矢印で示す軸に示されている。よって、図3Aに示したベクトル空間モデルは3次元である。なお、キーワードがN個(Nは整数)ある場合には、N次元となる。キーワードが1億個ある場合にはNが1億であることから、そのベクトル空間モデルは1億次元である。
本第1の態様では、例えば以下のステップに従いクラスタリングを行う。
ステップ1 文書データが与えられると、文書データで指定されている属性又は文書データで用いられている文字コードから、文書データの言語が何であるか(例えば、日本語、英語又は中国語)を特定する。
ステップ2 特定された言語用の辞書を用いて、形態素解析を行い、文書データ中の全てのキーワードを切り出す。また、辞書にない語を未知のキーワードとして、取り出す。これによって、1つの文書データに対して、当該文書データに含まれるキーワードの一覧とそれぞれのキーワードの出現頻度との一覧表が作られる。
ステップ3 上記一覧表を用いて、文書データ毎のキーワード一覧の和集合を求める。この一覧のキーワードそれぞれが、図3Aに示すベクトル空間モデルの次元となる。例えば、全部で1億個のキーワードが切り出せたとすると、ベクトル空間モデルは1億次元である。このベクトル空間モデルの点として、各文書データが当該モデル内にそれぞれプロットされる。
ステップ4 上記プロットされた点間の距離に基づいて、それぞれの文書データがクラスタリングされる。それによって、ある範囲内にある文書データのグループがクラスタリングされる。
当該クラスタリングのアルゴリズムとして、例えば、LSI/LSA、LDA(Latent Dirichlet Allocation)又はk−meansが使用されうる。
図3Aにおいて、クラスタリングによって、文書データはグループ1〜4(301〜304)にグループ分けされている。
第2の態様は、共通するキーワードの出現頻度により文書データをクラスタリングする方法である。
図3Bにおいて、上記第1の態様と同様に、キーワード1の出現頻度がX軸、キーワード2の出現頻度がY軸、キーワード3の出現頻度が矢印で示す軸、・・・、及びキーワードNの出現頻度がN軸(図示せず)に示されている。
例えば、キーワードとして、「細胞」、「DNA」及び「酸」が切り出された場合、「細胞」、「DNA」及び「酸」はそれぞれ、キーワードI、J及びKである(0≦I,J,K≦N)。
第2の態様においても、上記第1の態様と同様に、各文書データがベクトル空間モデル内にそれぞれプロットされる。第2の態様では、文書データが必ずしも分野別に分かれるわけではない。第2の態様を用いて、クラスタリングが可能である理由は次の通りである。上記に述べたように、例えば全部で1億個のキーワードが切り出せたとすると、ベクトル空間モデルは1億次元である。しかし、1億次元のベクトル空間に文書データを点としてプロットするとかなり疎な状態になる。同じトピックを扱う文書データ同士は共通の語を含む可能性が高いために、同じトピックを扱う各文書データはある空間に偏在する可能性が高い。例えば、バイオ関係の文書データでは、動画技術関係で言及されるキーワードが少ない。よって、バイオ関係の文書データの集合と動画技術の文書データの集合とがベクトル空間モデル内で分離されることが期待される。
図3Bにおいて、クラスタリングによって、文書データは、グループ1(細胞,DNA,酸、・・・)というバイオ関係の文書データの集合(311)、グループ2(動画,録画,MPEG、・・・)という動画技術関係の文書データの集合(312)、グループ3(電子,トランジスタ,電荷、・・・)という電子関係の文書データの集合(313)及びグループ4(液体,流体,バルブ、・・・)制御技術関係の文書データの集合(314)にグループ分けされている。
第3の態様は、各クラスタの重心の各キーワードの出現頻度により文書データをクラスタリングする方法である。
図3Cにおいて、上記第1の態様と同様に、キーワード1の出現頻度がX軸、キーワード2の出現頻度がY軸、キーワード3の出現頻度が矢印の方向、・・・、及びキーワードNの出現頻度がN軸(図示せず)に示されている。
ベクトル空間モデル内の点の群れ(クラスタ)を、重さを持った質点の集合とみなすと、その重心が存在することになる。この重心がクラスタの重心である。当該重さについて、各点が均一な重さを持つとしてもよいし、又は点毎にtf・idfを用いて重みを付けてもよい。重さが均一な場合、重心の定義はそれぞれの質点の座標の平均である。
第3の態様においても、上記第1の態様と同様に、文書データがベクトル空間モデル内にそれぞれプロットされる。その先については、どのようなアルゴリズムを用いるかによってどのようにクラスタリングするかは異なる。アルゴリズムとして、当業者に知られている慣用の方法が使用されうる。
図3Cにおいて、クラスタリングによって、文書データは、グループ1(細胞,DNA,酸、・・・)(321)、グループ2(動画,録画,MPEG、・・・)(322)、グループ3(電子,トランジスタ,電荷、・・・)(323)及びグループ4(液体,流体,バルブ、・・・)(324)にグループ分けされている。
索引作成にかける時間は長くても許容される。一方、検索又は解析実行時のレスポンスタイムは、それなりに速いことが要求される。そこで、索引の作成時に、時系列解析によるベース処理を行う。
検索又はトレンドの解析実行のための索引は、検索又は解析の実行に先立って下記ステップ401〜408に従い作成される。索引の作成のために、ハードウェアとして、解析処理部(図8Aの806)、クラスタリング部(図8Aの806)、時系列解析部(図8Aの806)又は索引付部(図8Aの807)が使用されるがこれらに限定されるものでない。
ステップ401では、索引の作成を開始する。
ステップ402では、解析処理部は、文書データ(411)を記憶装置からメモリ内に読み込む。
ステップ403では、解析処理部は、文書データで指定されている属性又は文書データで用いられている文字コードから、辞書又はファセット定義を含む辞書(412)を使用して文書データの言語を検知する。辞書には、単語又はファセット定義が登録されているが、言語の検知にはファセット定義は関係ないため、言語の検知のためにファセット定義を含まない辞書を用いてもよい。
ステップ404では、解析処理部は、特定された言語用の辞書(412)を用いて形態素解析を行い、文書データ中の全てのキーワードを検出する。例えば「日本国特許庁」という語がある場合に、辞書(412)を使用して「日本国」、「特許庁」に分解する。しかし、辞書がないと、「日本国」で区切るのか、「日本国特」で区切るのかが不明となる。ファセット定義は、このうちの特に指定した興味のある単語だけをファセット・キーワードとして定義したものであり、それ以外の単語を無視するためにある。
ステップ405では、クラスタリング部は、検出されたキーワードの出現頻度に基づいて、対象となる文書データ(411)をクラスタリング又は分類する。当該クラスタリング又は分類によって、クラスタ又はクラス(文書クラスタともいう)が形成される。当該クラスタリング又は分類によって、個々の文書データがクラスタ又はクラスに属する確率がスコアで評価される。スコアは、例えば0〜1の実数として示される。そして、例えば、キーワード(縦軸)×クラスタ(横軸)の文書データ・スコア表ができる。当該文書データ・スコアは、文書データ・スコア・データベース(413)内に格納される。なお、文書データのクラスタリング又は分類をすることは、キーワードのクラスタリング又は分類を行うことでもある。
Sc(d)は、文書データdがクラスタcに属するスコアである。
Σは、キーワードkを含む全ての文書データdのスコアの和である。
ステップ407では、時系列解析部は、各キーワードkに対して、クラスタcごとに当該キーワードを含む文書データの出現数xc,k(t)の時系列解析(スペクトル分解)をおこなう。時系列解析は、例えばフーリエ変換又はウェーブレット変換により行われる。当該スペクトル分解の結果として、各キーワードに対して、クラスタの数の分だけの周波数分布(スペクトル分解)f(ω)c,kが求められる。スペクトル分解f(ω)c,kは、クラスタcにキーワードkを含む文書データの出現頻度の時系列の周波数分布である。f(ω)c,kは、スペクトル分解がフーリエ変換の場合フーリエ係数であり、スペクトル分解がウェーブレット変換の場合ウェーブレット係数である。求められたスペクトル分解f(ω)c,kは、周波数分布データベース(414)に格納される。
当該スペクトル分析は、ランタイムで行われうる。しかしながら、一般にキーワードの数は膨大であることから、ランタイムでそれらキーワードの全てについてスペクトル分解を行うのは一般的に困難である。そこで、本発明の実施態様では、キーワードではなく、各クラスタについてスペクトル分解を行う。
ステップ408では、全てのクラスタに対し、すべてのキーワードについて、上記ステップ406〜ステップ407を繰り返し、索引の作成を終了する。
ランタイム時の処理は、ステップ421〜426に従い行われる。
ステップ421では、検索部は、ランタイム時の処理を開始する。
ステップ422では、検索部は、ユーザから入力された又はコンピュータによって作成された検索クエリqを受信し、メモリ又は記憶装置に格納する。検索クエリqは、検索キーワードを含む。検索部は、検索クエリqを受信することに応じて、検索クエリq中のキーワードに関連付けられた関連キーワードを抽出してもよい。
ステップ423では、検索部は、文書データ・スコア・データベース(413)に格納された文書データ・スコアを使用して、検索クエリq中のキーワードによる文書データd(411)の集合の絞り込みをランタイムに行う。文書データの集合の絞り込みによって、解析すべき時系列がダイナミックに作られる。
ステップ424では、検索部は、ステップ423において絞り込まれた文書データdの集合をクラスタの線形和で近似する。すなわち、各キーワードにより絞り込まれた文書データの集合内でのスペクトル分解は、各クラスタからの寄与で近似される。例えば、クラスタリングがLSA又はLSIによって行われた場合、各クラスタは互いに直交ベクトルとして定義される。従って、下記式12のように、次元集約で落とされた次元分の誤差の範囲で近似が可能になる。
acは、下記式13及び式14に従い求められる。
Dcは、クラスタに対応するベクトルである。Dcでは、その成分は各次元に対応する文書データがクラスタ又はクラスに属する確率又はスコアに応じて、0〜1の実数の値をとる。
acは、DqとDcの内積であり、文書データの集合Dqの各クラスタの成分への射影を表す。
ステップ426では、検索部は、ランタイム時の処理を終了する。
以上により、ランタイムに検索クエリqによって絞られた、文書データの集合における各キーワードkに対して、当該キーワードkを含む文書データの出現数の時系列変動のスペクトル分解f(ω)q,kが式12を用いて得られた。
検索又はトレンドの解析実行のための索引は、検索又は解析の実行に先立って下記ステップ501〜506に従い作成される。索引の作成のために、ハードウェアとして、解析処理部(図8Aの806)、クラスタリング部(図8Aの806)、時系列解析部(図8Aの806)又は索引付部(図8Aの807)が使用されるがこれらに限定されるものでない。
ステップ501では、索引の作成を開始する。
ステップ502では、解析処理部は、文書データ(511)を記憶装置からメモリ内に読み込む。
ステップ503では、解析処理部は、文書データで指定されている属性又は文書データで用いられている文字コードから、辞書又はファセット定義を含む辞書(512)を使用して文書データの言語を検知する。
ステップ504では、解析処理部は、特定された言語用の辞書(512)を用いて形態素解析を行い、文書データ中の全てのキーワードを検出する。
ステップ505では、クラスタリング部は、検出されたキーワードの出現頻度に基づいて、対象となる文書データ(511)をクラスタリング又は分類する。当該クラスタリング又は分類によって、クラスタ又はクラス(キーワード・クラスタともいう)が形成される。当該クラスタリング又は分類によって、個々の文書データがクラスタ又はクラスに属する確率がスコアで評価される。スコアは、例えば0〜1の実数として示される。そして、例えば、キーワード(縦軸)×クラスタ(横軸)の文書データ・スコア表ができる。当該文書データ・スコアは、文書データ・スコア・データベース(513)内に格納される。なお、文書データのクラスタリング又は分類をすることは、キーワードのクラスタリング又は分類を行うことでもある。
ランタイム時の処理は、ステップ521〜529に従い行われる。
ステップ521では、検索部は、ランタイム時の処理を開始する。
ステップ522では、検索部は、ユーザから入力された又はコンピュータによって作成された検索クエリqを受信し、メモリ又は記憶装置に格納する。検索クエリqは、検索キーワードを含む。検索部は、検索クエリqを受信することに応じて、検索クエリq中のキーワードに関連付けられた関連キーワードを抽出してもよい。
ステップ523では、検索部は、文書データ・スコア・データベース(513)に格納された文書データ・スコアを使用して、検索クエリqによる文書データd(511)の集合の絞り込みをランタイムに行う。文書データの集合の絞り込みによって、解析すべき時系列がダイナミックに作られる。
ステップ524では、検索部は、ステップ523において検索クエリで絞り込まれた文書データdの集合でのキーワードの時系列から、当該絞り込まれた文書データdの集合内での各クラスタの時系列を求める。時系列を求めるとは、出現頻度の時間変化を時間の関数として表すことである。時系列は、例えば、下記式15に従い求められうる。
Sc(x)はキーワードxのクラスタcでの重みである。
x−(t)は、個別のキーワードを含む文書データの出現頻度の、平準化の後、正規化された時系列である。
ステップ526では、検索部は、個々のキーワードへのドリルダウンを行うか否かをユーザに尋ねる。ドリルダウンとは、一般に、概要データから詳細データへと対象を絞り込んで解析することを指す。検索部は、ユーザにドリルダウンするクラスタの選択を可能にするために、クラスタの一覧を表示する。当該表示は例えば、クラスタを選択可能な態様で行われる。ユーザは、ドリルダウンするクラスタを選択する。ドリルダウンを行う場合、当該ステップはステップ527に進む。一方、ドリルダウンを行わない場合、当該ステップはステップ529に進み、ランタイム時の処理を終了する。
ステップ527では、上記ユーザからの選択に応じて、検索部は、当該選択されたクラスタの情報を受信する。
ステップ528では、検索部は、必要に応じて、選択されたクラスタに対して、その中で重みの大きいキーワードから順に時系列解析を行う。ここで、時系列解析とは、上記時間の関数の特性を解析することである。検索部は、選択されたクラスタを特徴付けるキーワードの時系列解析として、例えばフーリエ変換又はウェーブレット変換を実施する。解析された結果は、ユーザに表示される。
ステップ529では、検索部は、ランタイム時の処理を終了する。
以上により、ランタイムに検索クエリqによって絞られた、文書データの集合における各クラスタcに対して、当該クラスタcに属する文書データの出現数の時系列変動のスペクトル分解f(ω)q,c、及び選択されたクラスタを特徴付けるキーワードのスペクトル分解が得られた。
上記処理は、図5Aのステップ524において行われうる。
以下では、周波数分解などによる時系列解析を多数(〜10億個)のキーワードの出現回数に適用するためのクラスタ解析の技術を説明する。特に、低周波数の挙動(ゆるやかなで大きな変動)を摘出する方法について述べる。
まず、準備として、元の時系列x(t)を畳み込んだ関数を考える。当該関数は、下記式16で示される。これは、nの大きさをカットオフ(cut-off)値として、高周波の変動を切り捨てた時系列となる。
x(t)は、元の時系列である。
iにより0〜nまでの整数での和をとる。
tは、時間(タイムスライス)である。
nは、畳み込みをおこなう窓の幅である。
これを実際のテキスト解析のソフトウェアでおこなう場合、元の文書データに付随するタイム・スタンプよりも文書データを索引付する際に、粗い粒度のタイム・スタンプを割り当て、当該タイム・スタンプをファセットとみなすことにより、容易に実装可能である。
Tは、時系列の全体の間隔(時間)である。
x−(t)は、文書データの出現頻度の、平準化の後、正規化された時系列である。
x^(t)は、文書データの出現頻度の、(正規化前の)平準化された時系列である。
この上で、個別のキーワードに対する時系列x(t)の代わりにキーワード・クラスタc(t)の時系列を考える。これは個別キーワードの数は一般に膨大となるため、計算時間のかかる時系列解析をランタイムに実行することが不可能である。そのため、キーワードがグループ化された少数のキーワード・クラスタに対する時系列解析を先に行うことにより、すべての個別クラスタに対して時系列解析を行うことなく、おおまかな傾向を把握することが可能になるからである。例えば、文書データの集合の規模にもよるが、当該集合に含まれるキーワードの数は数千万〜数億であり、その場合のキーワード・クラスタの数は、例えば数十〜数千の数で定義されうる。この場合に、図5Bのステップ524において、下記式19が使用されうる。
Sc(x)はキーワードxのクラスタcでの重みである。
x−(t)は、個別のキーワードを含む文書データの出現頻度の、平準化の後、正規化された時系列である。
当該発生件数(出現頻度)は、図5Bのステップ525において求められる。
クラスタ1、クラスタ2、クラスタ3において最も周波数が低いクラスタは、クラスタ3である。
インデックス値の高いクラスタの選択は、図5Bに示す様にユーザ又はコンピュータによって行われる。クラスタ1〜3のインデックス値はそれぞれ、クラスタ1=1.2、クラスタ2=5.8、クラスタ3=17.2である。よって、図7Bでは、インデックス値の高いクラスタ3がドリルダウンされたため、当該クラスタ3のみが示されている。
本発明の実施態様に従うシステムは、索引作成のためのコンピュータ(801)(以下、「索引作成コンピュータ」ともいう)、索引作成コンピュータ(801)にネットワークを介して接続されている1又はそれ以上のサーバ(802a〜802n)及び1つ又はそれ以上の検索サーバ(803)、並びに検索サーバにネットワークを介して接続されたユーザ端末(804)を備えている。
索引作成コンピュータ(801)は、クローラ(805)、文書データ処理部(806)、索引付部(807)、キャッシュ(808)、及びサムネール処理部(809)を備えている。
クローラ(805)は、各サーバ(802a〜802n)から文書データ(810)、例えばWebページの収集処理を行う。クローラ(805)は、ロボット又はスパイダーとも呼ばれる。クローラ(805)は、収集した文書データ(810)を、例えば記憶装置(図示せず)に格納する。
クローラはまた、文書データ(810)をキャッシュ(808)に格納する。
文書データ処理部(806)は、解析処理部、クラスタリング部及び時系列解析部を含む。解析処理部は、自然言語解析を処理する。クラスタリング部は、文書データをクラスタリング又は分類する。時系列解析部は、各キーワードに対して、クラスタごとに当該キーワードを含む文書データの出現数の時系列解析をおこなう。
索引付部(807)は、検索キーワードから、文書データ(810)のテキスト索引、ファセット索引、サムネール索引を作成する。これらの各索引は、索引データベース(835)に格納される。それぞれの索引は検索ランタイム(811)によって利用される。テキスト索引とファセット索引とを区別しているのは実装上のデザインであり、同じであってもよい。検索ランタイムは、索引作成コンピュータ(801)上、又は他のサーバ上にあってもよい。検索ランタイム(811)が他のサーバ上にある場合、索引データベース(835)が他のサーバ上にコピーされる。或いは、索引作成コンピュータ(801)及び他のサーバが、索引データベース(835)に両方からアクセスできるように、ストレージ・エリア・ネットワーク(SAN)の共有ディスク上に索引データベースを配置してもよい。
索引付部(807)はまた、クラスタデータベース(図8Bの833)、文書データ・スコア・データベース(図8Bの834)及び索引データベース(図8Bの835)に、クラスタ情報、文書データがクラスタ又はクラスに属するスコア又は確率(第1のベクトル)、及び索引データをそれぞれ格納する。
サムネール処理部(809)は、キャッシュに格納された文書データ(810)のメタデータに基づいて、当該文書データを画面にアイコンとして表示するためのサムネールを作成する。メタデータとは、例えば、文書の種類、内容を特定するためのデータである。 検索サーバ(803)は、ユーザ端末(804)からのクエリを受信して、文書データ(810)を検索し、その検索結果をユーザ端末(804)に送信する。
検索サーバ(803)は、検索部(821)を含む。検索サーバ(803)はまた、検索サーバ(803)がユーザ端末を兼ね備えている場合には、検索結果表示部(823)を含む。検索サーバ(803)がユーザ端末(804)に検索結果を送信する場合には、検索サーバ(803)は検索結果送信部(822)を含む。検索部(821)は、クラスタデータベース(833)、文書データ・スコア・データベース(834)及び索引データベース(835)それぞれからのクラスタ情報、文書データのスコア及び索引データを利用して、文書データの検索を行う。
コンピュータ(901)は、CPU(902)とメイン・メモリ(903)とを含み、これらはバス(904)に接続されている。CPU(902)は好ましくは、32ビット又は64ビットのアーキテクチャに基づくものであり、例えば、インテル社のXeon(商標)シリーズ、Core(商標)シリーズ、Atom(商標)シリーズ、Pentium(商標)シリーズ、Celeron(商標)シリーズ、AMD社のPhenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(商標)シリーズ及びSempron(商標)などを使用することができる。バス(904)には、ディスプレイ・コントローラ(905)を介して、TFTモニタなどのディスプレイ(906)が接続されている。ディスプレイ(906)は、コンピュータ・システムの管理のために、通信回線を介してネットワークに接続されたコンピュータ・システムについての情報と、そのコンピュータ・システム上で動作中のソフトウェアについての情報を、適当なグラフィック・インタフェースで表示するために使用される。バス(904)にはまた、IDE又はS−ATAコントローラ(907)を介して、ハードディスク又はシリコン・ディスク(908)と、CD−ROM、DVDドライブ又はBDドライブ(909)が接続されている。
事故報告書の文書データ集合において、互いに関連するキーワード「ハンドル」、「ステアリング」、「曲がる」及び「避ける」のそれぞれを含む文書データが出現頻度を年度毎に集計した時系列と、これらを含むキーワード・クラスタにおける、それぞれのキーワードのスコアに応じて付けられて重みとを足し合わせることによって得られた、クラスタの時系列がグラフに示されている。当該グラフに示されるように、個々のキーワードの時系列に対して解析を行う代わりに、クラスタの時系列に対して解析をおこない、大まかな特徴を知ることができる。
Claims (20)
- キーワードの時系列解析のための処理システムであって、
自然言語による事象の記述である文書データを当該文書データ中のキーワードの出現頻度に基づきクラスタリング又は分類するクラスタリング部であって、当該文書データのクラスタリング又は分類によって個々のキーワードもクラスタリング又は分類される、前記クラスタリング部と、
前記文書データをクラスタリング又は分類したクラスタ又はクラス(以下、文書クラスタともいう)内における個々のキーワードを含む文書データの出現頻度に対して、又は前記個々のキーワードをクラスタリング又は分類したクラスタ又はクラス(以下、キーワード・クラスタともいう)を含む文書データの出現頻度に対して時系列解析を行う時系列解析部であって、それによって前記文書データの出現頻度の変化を示す周波数分布が求められる、前記時系列解析部と、
を含み、
検索クエリの受信に応答して、当該検索クエリにより文書データのデータ・セットを絞り込み、前記絞り込まれたデータ・セットを文書クラスタの線形和で近似し、前記文書クラスタ毎のキーワードの周波数分布から、前記絞り込まれた文書データの集合でのキーワードの周波数分布を推測するランタイム検索部をさらに含む、前記処理システム。 - キーワードの時系列解析のための処理システムであって、
自然言語による事象の記述である文書データを当該文書データ中のキーワードの出現頻度に基づきクラスタリング又は分類するクラスタリング部であって、当該文書データのクラスタリング又は分類によって個々のキーワードもクラスタリング又は分類される、前記クラスタリング部と、
前記文書データをクラスタリング又は分類したクラスタ又はクラス(以下、文書クラスタともいう)内における個々のキーワードを含む文書データの出現頻度に対して、又は前記個々のキーワードをクラスタリング又は分類したクラスタ又はクラス(以下、キーワード・クラスタともいう)を含む文書データの出現頻度に対して時系列解析を行う時系列解析部であって、それによって前記文書データの出現頻度の変化を示す周波数分布が求められる、前記時系列解析部と、
を含み、
検索クエリの受信に応答して、当該検索クエリにより文書データのデータ・セットを絞り込み、前記絞り込まれたデータ・セットの集合でのキーワードの時系列から、前記絞り込まれた文書データのデータ・セット内での各キーワード・クラスタの時系列を求め、前記各キーワード・クラスタの時系列の周波数解析を行うランタイム検索部をさらに含む、前記処理システム。 - 前記時系列解析部が、前記クラスタリングの後に、各キーワードに対して、各文書クラスタ内でキーワードを含む文書データの出現頻度を時系列毎に求める、請求項1又は2に記載の処理システム。
- 前記時系列解析部が、下記式1に従い前記文書データの出現頻度を時系列毎に求める、請求項3に記載の処理システム:
Sc(d)は、文書データdが文書クラスタcに属するスコアであり、及び、
Σは、キーワードkを含む全ての文書データdのスコアの和である。 - 前記ランタイム検索部が、前記近似を下記式2に従い求める、請求項1に記載の処理システム:
acは、下記式3及び式4に従い求められ、
Dcは、文書クラスタを同じ空間上で、各次元の成分をその次元に該当する文書の当該クラスタにおけるスコアとして表現した場合のベクトルであり、及び
acは、DqとDcの内積である。 - 前記ランタイム検索部が、前記周波数解析の結果からキーワード・クラスタ毎にインデックス値を計算し、前記計算されたインデックス値に従い解析結果を表示する表示部をさらに含む、請求項2に記載の処理システム。
- 前記ランタイム検索部が、個々のキーワードへのドリルダウンを行うか否かを問いあわせ、ドリルダウンされるキーワード・クラスタ情報を受信することに応じて、当該ドリルダウンされるキーワード・クラスタに対して、その中で重みの大きいキーワードから順に時系列解析を実施する、請求項2に記載の処理システム。
- 前記各キーワード・クラスタの時系列を求めることが、文書データのデータ・セットにフィルターをかけることを含む、請求項2に記載の処理システム。
- 前記フィルターが、下記式5である、請求項8に記載の処理システム:
x(t)は、元の時系列であり、
iにより0〜nまでの整数での和をとり、
tは、時間であり、
nは、畳み込みをおこなう窓の幅である。 - 前記各キーワード・クラスタの時系列を求めることが、下記式6及び式7に従い、高周波を取り除き、また時系列の振幅を正規化することをさらに含む、請求項2に記載の処理システム。:
Tは、時系列の全体の間隔であり、
x−(t)は、文書データの出現頻度の、平準化の後、正規化された時系列であり、
x^(t)は、文書データの出現頻度の、平準化された時系列である。 - 前記キーワード・クラスタの時系列を求めることが、少数のキーワード・クラスタに対する時系列解析を下記式8に従い行う、請求項2に記載の処理システム:
Sc(x)はキーワードxのクラスタcでの重みであり、
x−(t)は、個別のキーワードを含む文書データの出現頻度の、平準化の後、正規化された時系列である。 - キーワードの時系列解析のための処理システムであって、
自然言語による事象の記述である文書データを当該文書データ中のキーワードの出現頻度に基づきクラスタリング又は分類するクラスタリング部であって、当該文書データのクラスタリング又は分類によって個々のキーワードもクラスタリング又は分類される、前記クラスタリング部と、
前記文書データをクラスタリング又は分類したクラスタ又はクラス(以下、文書クラスタともいう)内における個々のキーワードを含む文書データの出現頻度に対して、又は前記個々のキーワードをクラスタリング又は分類したクラスタ又はクラス(以下、キーワード・クラスタともいう)を含む文書データの出現頻度に対して時系列解析を行う時系列解析部であって、それによって前記文書データの出現頻度の変化を示す周波数分布が求められる、前記時系列解析部と、
を含み、
前記時系列解析部が、前記クラスタリングの後に、各キーワードに対して、各文書クラスタ内でキーワードを含む文書データの出現頻度を時系列毎に下記式1に従い求める、前記処理システム:
vS c (d)は、文書データdが文書クラスタcに属するスコアであり、及び、
Σは、キーワードkを含む全ての文書データdのスコアの和である。 - キーワードの時系列解析のためのコンピュータが実行する処理方法であって、前記コンピュータはクラスタリング部と時系列解析部とランタイム検索部とを備えており、前記方法は、
前記クラスタリング部が、自然言語による事象の記述である文書データを当該文書データ中のキーワードの出現頻度に基づきクラスタリング又は分類するステップであって、当該文書データのクラスタリング又は分類によって個々のキーワードもクラスタリング又は分類される、前記クラスタリング又は分類するステップと、
前記時系列解析部が、前記文書データをクラスタリング又は分類したクラスタ又はクラス(以下、文書クラスタともいう)内における個々のキーワードを含む文書データの出現頻度に対して、又は前記個々のキーワードをクラスタリング又は分類したクラスタ又はクラス(以下、キーワード・クラスタともいう)を含む文書データの出現頻度に対して時系列解析を行うステップであって、それによって前記文書データの出現頻度の変化を示す周波数分布が求められる、前記ステップと、
を実行することを含み、
前記方法は、
前記ランタイム検索部が、
検索クエリの受信に応答して、当該検索クエリにより文書データのデータ・セットを絞り込むステップと、
前記絞り込まれたデータ・セットを文書クラスタの線形和で近似するステップと、
前記文書クラスタ毎のキーワードの周波数分布から、前記絞り込まれた文書データの集合でのキーワードの周波数分布を推測するステップと
をさらに実行することを含む、
前記方法。 - キーワードの時系列解析のためのコンピュータが実行する処理方法であって、前記コンピュータはクラスタリング部と時系列解析部とランタイム検索部とを備えており、前記方法は、
前記クラスタリング部が、自然言語による事象の記述である文書データを当該文書データ中のキーワードの出現頻度に基づきクラスタリング又は分類するステップであって、当該文書データのクラスタリング又は分類によって個々のキーワードもクラスタリング又は分類される、前記クラスタリング又は分類するステップと、
前記時系列解析部が、前記文書データをクラスタリング又は分類したクラスタ又はクラス(以下、文書クラスタともいう)内における個々のキーワードを含む文書データの出現頻度に対して、又は前記個々のキーワードをクラスタリング又は分類したクラスタ又はクラス(以下、キーワード・クラスタともいう)を含む文書データの出現頻度に対して時系列解析を行うステップであって、それによって前記文書データの出現頻度の変化を示す周波数分布が求められる、前記ステップと、
を実行することを含み、
前記方法は、
前記ランタイム検索部が、
検索クエリの受信に応答して、当該検索クエリにより文書データのデータ・セットを絞り込むステップと、
前記絞り込まれたデータ・セットの集合でのキーワードの時系列から、前記絞り込まれた文書データのデータ・セット内での各キーワード・クラスタの時系列を求めるステップと、
前記各キーワード・クラスタの時系列の周波数解析を行うステップと
をさらに実行することを含む、
前記方法。 - 前記時系列解析部が、
前記クラスタリング又は分類するステップの後に、各キーワードに対して、各文書クラスタ内でキーワードを含む文書データの出現頻度を時系列毎に求めるステップ
をさらに実行することを含む、請求項13又は14に記載の方法。 - 前記ランタイム検索部が、
前記周波数解析の結果からキーワード・クラスタ毎にインデックス値を計算するステップと、
前記計算されたインデックス値に従い解析結果を表示するステップと
をさらに実行することを含む、請求項14に記載の方法。 - 前記ランタイム検索部が、
個々のキーワードへのドリルダウンを行うか否かを問い合わせるステップと、
ドリルダウンされるキーワード・クラスタ情報を受信することに応じて、当該ドリルダウンされるキーワード・クラスタに対して、その中で重みの大きいキーワードから順に時系列解析を実施するステップと
をさらに実行することを含む、請求項14に記載の方法。 - 前記各キーワード・クラスタの時系列を求めるステップが、
文書データのデータ・セットにフィルターをかけるステップをさらに含む、請求項14に記載の方法。 - キーワードの時系列解析のためのコンピュータが実行する処理方法であって、前記コンピュータはクラスタリング部と時系列解析部とを備えており、前記方法は、
前記クラスタリング部が、自然言語による事象の記述である文書データを当該文書データ中のキーワードの出現頻度に基づきクラスタリング又は分類するステップであって、当該文書データのクラスタリング又は分類によって個々のキーワードもクラスタリング又は分類される、前記クラスタリング又は分類するステップと、
前記時系列解析部が、前記文書データをクラスタリング又は分類したクラスタ又はクラス(以下、文書クラスタともいう)内における個々のキーワードを含む文書データの出現頻度に対して、又は前記個々のキーワードをクラスタリング又は分類したクラスタ又はクラス(以下、キーワード・クラスタともいう)を含む文書データの出現頻度に対して時系列解析を行うステップであって、それによって前記文書データの出現頻度の変化を示す周波数分布が求められる、前記ステップと、
を実行することを含み、前記時系列解析部が、前記クラスタリングの後に、各キーワードに対して、各文書クラスタ内でキーワードを含む文書データの出現頻度を時系列毎に下記式1に従い求めるステップをさらに実行することを含む、前記方法:
vS c (d)は、文書データdが文書クラスタcに属するスコアであり、及び、
Σは、キーワードkを含む全ての文書データdのスコアの和である。 - コンピュータに、請求項13〜19のいずれか一項に記載の方法の各ステップを実行させるコンピュータ・プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010002852A JP5284990B2 (ja) | 2010-01-08 | 2010-01-08 | キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム |
US12/983,047 US8447110B2 (en) | 2010-01-08 | 2010-12-31 | Time-series analysis of keywords |
US13/461,856 US8526735B2 (en) | 2010-01-08 | 2012-05-02 | Time-series analysis of keywords |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010002852A JP5284990B2 (ja) | 2010-01-08 | 2010-01-08 | キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011141801A JP2011141801A (ja) | 2011-07-21 |
JP5284990B2 true JP5284990B2 (ja) | 2013-09-11 |
Family
ID=44258567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010002852A Active JP5284990B2 (ja) | 2010-01-08 | 2010-01-08 | キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム |
Country Status (2)
Country | Link |
---|---|
US (2) | US8447110B2 (ja) |
JP (1) | JP5284990B2 (ja) |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090307003A1 (en) * | 2008-05-16 | 2009-12-10 | Daniel Benyamin | Social advertisement network |
US8612293B2 (en) | 2010-10-19 | 2013-12-17 | Citizennet Inc. | Generation of advertising targeting information based upon affinity information obtained from an online social network |
WO2012097504A1 (en) * | 2011-01-18 | 2012-07-26 | Google Inc. | Automated answers to online questions |
WO2012111226A1 (ja) * | 2011-02-15 | 2012-08-23 | 日本電気株式会社 | 時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体 |
US20130073480A1 (en) * | 2011-03-22 | 2013-03-21 | Lionel Alberti | Real time cross correlation of intensity and sentiment from social media messages |
US9063927B2 (en) | 2011-04-06 | 2015-06-23 | Citizennet Inc. | Short message age classification |
JP5679194B2 (ja) * | 2011-05-18 | 2015-03-04 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN102902693B (zh) * | 2011-07-29 | 2018-01-12 | 慧与发展有限责任合伙企业 | 检测在网页上的重复模式 |
US9002892B2 (en) * | 2011-08-07 | 2015-04-07 | CitizenNet, Inc. | Systems and methods for trend detection using frequency analysis |
KR101522522B1 (ko) * | 2011-10-26 | 2015-05-27 | 에스케이텔레콤 주식회사 | 작문 자동 평가를 위한 예제 기반 오류 검출 시스템 및 방법 |
US9405750B2 (en) * | 2011-10-31 | 2016-08-02 | Hewlett-Packard Development Company, L.P. | Discrete wavelet transform method for document structure similarity |
US9785704B2 (en) * | 2012-01-04 | 2017-10-10 | Microsoft Technology Licensing, Llc | Extracting query dimensions from search results |
JP5764080B2 (ja) * | 2012-03-02 | 2015-08-12 | 株式会社栗本鐵工所 | Web検索システムおよびWeb検索方法 |
US9069880B2 (en) * | 2012-03-16 | 2015-06-30 | Microsoft Technology Licensing, Llc | Prediction and isolation of patterns across datasets |
US9053497B2 (en) | 2012-04-27 | 2015-06-09 | CitizenNet, Inc. | Systems and methods for targeting advertising to groups with strong ties within an online social network |
US20130305149A1 (en) * | 2012-05-10 | 2013-11-14 | SEC Live, LLC | Document reader and system for extraction of structural and semantic information from documents |
US9355170B2 (en) * | 2012-11-27 | 2016-05-31 | Hewlett Packard Enterprise Development Lp | Causal topic miner |
US9460078B2 (en) * | 2012-12-06 | 2016-10-04 | Accenture Global Services Limited | Identifying glossary terms from natural language text documents |
US9940307B2 (en) | 2012-12-31 | 2018-04-10 | Adobe Systems Incorporated | Augmenting text with multimedia assets |
WO2014198052A1 (en) | 2013-06-14 | 2014-12-18 | Microsoft Corporation | Fast grouping of time series |
WO2015062377A1 (zh) * | 2013-11-04 | 2015-05-07 | 北京奇虎科技有限公司 | 一种相似文本检测装置、方法以及应用 |
CN104679768B (zh) * | 2013-11-29 | 2019-08-09 | 百度在线网络技术(北京)有限公司 | 从文档中提取关键词的方法和设备 |
CN104951458B (zh) * | 2014-03-26 | 2019-03-01 | 华为技术有限公司 | 基于语义识别的帮助处理方法及设备 |
JP6515438B2 (ja) * | 2014-03-27 | 2019-05-22 | 日本電気株式会社 | 重要度算出装置、重要度算出装置方法、及び重要度算出装置システム |
CN105574005A (zh) * | 2014-10-10 | 2016-05-11 | 富士通株式会社 | 对包含多个文档的源数据进行聚类的装置和方法 |
JP2016110533A (ja) * | 2014-12-10 | 2016-06-20 | 大日本印刷株式会社 | 情報処理装置、情報処理システム及びプログラム |
US10573190B2 (en) | 2015-02-16 | 2020-02-25 | International Business Machines Corporation | Iterative deepening knowledge discovery using closure-based question answering |
US10572806B2 (en) | 2015-02-17 | 2020-02-25 | International Business Machines Corporation | Question answering with time-based weighting |
US9928232B2 (en) * | 2015-02-27 | 2018-03-27 | Microsoft Technology Licensing, Llc | Topically aware word suggestions |
CN108027823B (zh) * | 2015-07-13 | 2022-07-12 | 帝人株式会社 | 信息处理装置、信息处理方法以及计算机可读取的存储介质 |
TWI571756B (zh) * | 2015-12-11 | 2017-02-21 | 財團法人工業技術研究院 | 用以分析瀏覽記錄及其文件之方法及其系統 |
US10311087B1 (en) * | 2016-03-17 | 2019-06-04 | Veritas Technologies Llc | Systems and methods for determining topics of data artifacts |
JP6165913B1 (ja) * | 2016-03-24 | 2017-07-19 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
CN106909365A (zh) * | 2016-08-30 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 资讯信息的展示方法和装置 |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US10679002B2 (en) | 2017-04-13 | 2020-06-09 | International Business Machines Corporation | Text analysis of narrative documents |
KR101924352B1 (ko) * | 2017-04-19 | 2019-02-20 | 아시아나아이디티 주식회사 | 트랜드 분석에 기반하는 이슈 검출방법 및 그 장치 |
US11551104B2 (en) * | 2017-07-26 | 2023-01-10 | D2K Technologies India Pvt. Ltd | Method and system for exchange of packets pertaining to an instrument |
JP6403850B1 (ja) * | 2017-08-30 | 2018-10-10 | Nsフィナンシャルマネジメントコンサルティング株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP7098949B2 (ja) * | 2018-02-14 | 2022-07-12 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
JP7078429B2 (ja) * | 2018-03-20 | 2022-05-31 | 株式会社Screenホールディングス | テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置 |
JP6929260B2 (ja) * | 2018-11-01 | 2021-09-01 | 株式会社東芝 | 時系列特徴抽出装置、時系列特徴抽出方法及びプログラム |
CN109635299A (zh) * | 2018-12-13 | 2019-04-16 | 北京锐安科技有限公司 | 词汇相关性确定方法、装置、设备和计算机可读存储介质 |
CN109857761B (zh) * | 2018-12-28 | 2022-11-11 | 珍岛信息技术(上海)股份有限公司 | 一种数据库优化方法及其系统 |
US11176324B2 (en) * | 2019-09-26 | 2021-11-16 | Sap Se | Creating line item information from free-form tabular data |
US11646020B2 (en) * | 2020-01-24 | 2023-05-09 | International Business Machines Corporation | Communication notification management |
US20230078191A1 (en) * | 2020-03-30 | 2023-03-16 | Mitsubishi Electric Corporation | Data extraction apparatus, data extraction method, and storage medium |
JP2021179832A (ja) * | 2020-05-14 | 2021-11-18 | 富士通株式会社 | 変化検出プログラム、変化検出装置及び変化検出方法 |
CN111625578B (zh) * | 2020-05-26 | 2023-12-08 | 辽宁大学 | 适用于文化科技融合领域时间序列数据的特征提取方法 |
US11354345B2 (en) * | 2020-06-22 | 2022-06-07 | Jpmorgan Chase Bank, N.A. | Clustering topics for data visualization |
CN112307204A (zh) * | 2020-10-22 | 2021-02-02 | 首都师范大学 | 基于聚类等级关系自动识别方法、系统、设备及存储介质 |
JP2023020177A (ja) * | 2021-07-30 | 2023-02-09 | コニカミノルタ株式会社 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
JP7135235B1 (ja) | 2022-05-19 | 2022-09-12 | ヤフー株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
JP7135236B1 (ja) | 2022-05-19 | 2022-09-12 | ヤフー株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3545007B2 (ja) | 1993-03-17 | 2004-07-21 | 新日鉄ソリューションズ株式会社 | データベース検索システム |
JPH10154150A (ja) * | 1996-11-25 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 情報潮流提示方法及びその装置 |
JP3597697B2 (ja) * | 1998-03-20 | 2004-12-08 | 富士通株式会社 | 文書要約装置およびその方法 |
JP4025443B2 (ja) * | 1998-12-04 | 2007-12-19 | 富士通株式会社 | 文書データ提供装置及び文書データ提供方法 |
JP2000250822A (ja) | 1999-02-26 | 2000-09-14 | Matsushita Electric Ind Co Ltd | 電子情報受信表示方法及び装置 |
JP3791879B2 (ja) * | 1999-07-19 | 2006-06-28 | 富士通株式会社 | 文書要約装置およびその方法 |
JP2001117930A (ja) * | 1999-10-15 | 2001-04-27 | Ricoh Co Ltd | 文書分類装置、文書分類方法および記録媒体 |
JP3573688B2 (ja) * | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
US7124149B2 (en) | 2002-12-13 | 2006-10-17 | International Business Machines Corporation | Method and apparatus for content representation and retrieval in concept model space |
JP4087769B2 (ja) * | 2003-09-17 | 2008-05-21 | 富士通株式会社 | サーバ、及び関連語提案方法 |
JP4394517B2 (ja) * | 2004-05-12 | 2010-01-06 | 富士通株式会社 | 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置 |
JP4534019B2 (ja) * | 2004-08-31 | 2010-09-01 | 独立行政法人産業技術総合研究所 | 名前及びキーワードのグループ化方法、そのプログラムおよび記録媒体並びに装置 |
US7734641B2 (en) * | 2007-05-25 | 2010-06-08 | Peerset, Inc. | Recommendation systems and methods using interest correlation |
WO2009019860A1 (ja) * | 2007-08-09 | 2009-02-12 | Panasonic Corporation | コンテンツ検索装置 |
JP4774081B2 (ja) * | 2008-06-11 | 2011-09-14 | ヤフー株式会社 | 文書検索システム、文書検索方法、及びプログラム |
-
2010
- 2010-01-08 JP JP2010002852A patent/JP5284990B2/ja active Active
- 2010-12-31 US US12/983,047 patent/US8447110B2/en active Active
-
2012
- 2012-05-02 US US13/461,856 patent/US8526735B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20120215523A1 (en) | 2012-08-23 |
US20110170777A1 (en) | 2011-07-14 |
US8447110B2 (en) | 2013-05-21 |
JP2011141801A (ja) | 2011-07-21 |
US8526735B2 (en) | 2013-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5284990B2 (ja) | キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム | |
JP5448105B2 (ja) | 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム | |
US11573996B2 (en) | System and method for hierarchically organizing documents based on document portions | |
US9589208B2 (en) | Retrieval of similar images to a query image | |
US6611825B1 (en) | Method and system for text mining using multidimensional subspaces | |
JP4485524B2 (ja) | 分散潜在的意味インデキシングを使った情報検索およびテキストマイニングのための、方法、および、システム | |
US8219593B2 (en) | System and method for measuring the quality of document sets | |
JP5382651B2 (ja) | 単語対取得装置、単語対取得方法、およびプログラム | |
US7085771B2 (en) | System and method for automatically discovering a hierarchy of concepts from a corpus of documents | |
US20050021545A1 (en) | Very-large-scale automatic categorizer for Web content | |
EP2255299A2 (en) | Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system | |
EP1426882A2 (en) | Information storage and retrieval | |
Barrio et al. | Sampling strategies for information extraction over the deep web | |
Jain et al. | A theoretical study of text document clustering | |
TWI427492B (zh) | 資訊搜尋系統及方法 | |
WO2011033457A1 (en) | System and method for content classification | |
Rani | Importance of information retrieval | |
Wu et al. | A vertical search engine based on visual and textual features | |
Wu et al. | A Vertical Search Engine Based on Visual and Textual |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130328 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130410 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130411 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130509 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130509 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20130509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130530 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5284990 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |