JP5387578B2 - 情報分析装置、情報分析方法、及びプログラム - Google Patents
情報分析装置、情報分析方法、及びプログラム Download PDFInfo
- Publication number
- JP5387578B2 JP5387578B2 JP2010530725A JP2010530725A JP5387578B2 JP 5387578 B2 JP5387578 B2 JP 5387578B2 JP 2010530725 A JP2010530725 A JP 2010530725A JP 2010530725 A JP2010530725 A JP 2010530725A JP 5387578 B2 JP5387578 B2 JP 5387578B2
- Authority
- JP
- Japan
- Prior art keywords
- series data
- time
- section
- document
- sections
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 88
- 230000008859 change Effects 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 23
- 239000000284 extract Substances 0.000 claims description 13
- 230000000875 corresponding effect Effects 0.000 description 397
- 239000013598 vector Substances 0.000 description 47
- 230000014509 gene expression Effects 0.000 description 42
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 206010028980 Neoplasm Diseases 0.000 description 7
- 201000011510 cancer Diseases 0.000 description 7
- 238000007619 statistical method Methods 0.000 description 7
- 238000000611 regression analysis Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 231100000957 no side effect Toxicity 0.000 description 5
- 238000012731 temporal analysis Methods 0.000 description 5
- 238000000700 time series analysis Methods 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000001364 causal effect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 244000187656 Eucalyptus cornuta Species 0.000 description 1
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本願は、2008年9月24日に、日本に出願された特願2008−244753号に基づき優先権を主張し、その内容をここに援用する。
複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別する対応区間選別部と、
複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出する特徴抽出部と、
前記時系列データ毎に、選別された前記2以上の区間における、一の区間から抽出された特徴と、他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較する比較部と、
前記比較部による比較の結果に基づいて、前記文書集合間の関連度を算出する関連度算出部とを備える、ことを特徴とする。
(a)複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別するステップと、
(b)複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
(c)前記時系列データ毎に、選別された前記2以上の区間における、一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
(d)前記(c)のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを有する、ことを特徴とする。
前記コンピュータに、
(a)複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別するステップと、
(b)複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
(c)前記時系列データ毎に、選別された前記2以上の区間における、前記一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
(d)前記(c)のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを実行させる、ことを特徴とする。
以下、本発明の実施の形態1における情報分析装置、情報分析装置及びプログラムについて、図1〜図9を参照しながら説明する。最初に、図1〜図5を用いて、本発明の実施の形態1における情報分析装置の構成について説明する。図1は、本発明の実施の形態1における情報分析装置の概略構成を示すブロック図である。図2〜図5は、それぞれ、時系列データの一例を示す図である。
距離関数を求める対象となる二つの対応区間から抽出された、二つの特徴が全く同一となる場合、これらの特徴間距離が0(ゼロ)となる。
ある対応区間から特徴(1)が抽出され、別のある対応区間から特徴(2)が抽出されている場合、特徴(1)と特徴(2)との距離は、順序を入れ替えた特徴(2)と特徴(1)との距離と等しくなる。
3つの対応区間の特徴として、特徴(1)、特徴(2)、特徴(3)があるとき、それらの間の距離には、下記の関係が成立する。
(特徴(1)と特徴(3)の特徴間距離)≦(特徴(1)と特徴(2)の特徴間距離)+(特徴(2)と特徴(3)の特徴間距離)
比較部50に2つの特徴が入力されている場合に、一方の特徴がm個の特徴要素からなるベクトルで表現され、他方の特徴がn個の特徴要素からなるベクトルで表現され、更に、両方の特徴がc個の共通の特徴要素を有しているとする。この場合、共通でない特徴要素の数は(m+n−c)個となる。特徴間距離は、共通でない特徴要素の数に応じて、単調に増加する。
比較部50に2つの特徴が入力されている場合に、一方の特徴がm個の特徴要素と対応するm個の特徴スコアとのベクトル(特徴ベクトル)で表現され、他方の特徴がn個の特徴要素と対応するn個の特徴スコアとのベクトル(特徴ベクトル)で表現されるとする。またこのとき、両方の特徴は、c個の共通の特徴要素も有しているとする。この場合は、以下の手順5−1〜手順5−3で、2つの特徴ベクトル間の差分が求められ、差分の大きさが特徴間距離となる。
先ず、入力された2つの特徴ベクトルが正規化され、両者の次元数の整合が行われる。これにより、それぞれの特徴ベクトルにおいて、他方のみに存在する特徴要素に対しては、その特徴要素と特徴スコア「0(ゼロ)」とが与えられ、2つの特徴ベクトルの特徴要素が全て共通とされる。
入力された2つの特徴ベクトルそれぞれに対して、特徴要素の種類毎に、特徴ベクトル内の特徴スコアの出現順序のソートが実行される。このとき、種類が同一(言語表現が同一、メタ情報が同一)の特徴要素に対しては、ベクトル内の特徴スコアの出現位置が同じになるように、ソートが実行される。
手順5−1、手順5−2により、次元数と特徴スコアの出現順序との正規化が行われた後、正規化された2つの特徴ベクトルに対して、差分ベクトルが計算される。この差分ベクトルは、2つの特徴ベクトルそれぞれの各特徴スコア間の差分を値として有し、その次元は(m+n−c)次元となる。その後、得られた差分ベクトルの大きさの絶対値を求め、入力された2つの特徴ベクトル間の距離(特徴間距離)とする。
[特徴(1)]
(「ガンに効く」,0.8、「副作用がない」,0.6,「文書カテゴリー:広告」、0.85)
[特徴(2)]
(「即効性がある」,0.4,「副作用がない」,0.5,「文書カテゴリー:広告」,0.7)
[正規化された特徴(1)]
(「ガンに効く」,0.8,「副作用がない」,0.6,「即効性がある」,0,「文書カテゴリー:広告」,0.85)
[正規化された特徴(2)]
(「ガンに効く」,0,「副作用がない」,0.5,「即効性がある」,0.4,「文書カテゴリー:広告」,0.7)
差分ベクトル=((0.8−0),(0.6−0.5),(0−0.4),(0.85−0.7))
更に、上記の式を展開すると、下記の通りとなる。
差分ベクトル=(0.8,0.1,−0.4,0.15)
この差分ベクトルの大きさの絶対値を求めると、これが、特徴間距離となる。
次に、本発明の実施の形態2における情報分析装置、情報分析装置及びプログラムについて、図10及び図11を参照しながら説明する。最初に、図10を用いて、本発明の実施の形態2における情報分析装置の構成について説明する。図10は、本発明の実施の形態2における情報分析装置の概略構成を示すブロック図である。
2 情報分析装置(実施の形態2)
10 入力部
20 時系列データ生成部
30 対応区間選別部
31 対応区間ペア選別部
32 類似対向区間ペア選別部
40 特徴抽出部
50 比較部
60 データベース
70 関連度
80 出力部
Claims (15)
- 時間情報が付与された文書を含む文書集合に対して、情報分析を実行する情報分析装置であって、
複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別する対応区間選別部と、
複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出する特徴抽出部と、
前記時系列データ毎に、選別された前記2以上の区間における、一の区間から抽出された特徴と、他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較する比較部と、
前記比較部による比較の結果に基づいて、前記文書集合間の関連度を算出する関連度算出部とを備える、ことを特徴とする情報分析装置。 - 複数の前記文書集合の入力を受け付ける入力部と、
入力された複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて、複数の前記時系列データを生成する時系列データ生成部とを、更に備えている、請求項1に記載の情報分析装置。 - 前記入力部が2つの前記文書集合の入力を受け付け、前記時系列データ生成部が、2つの前記時系列データを生成している場合において、
前記対応区間選別部が、一方の前記時系列データと他方の前記時系列データとの相関係数を求め、2つの前記時系列データそれぞれにおける、前記相関係数の絶対値が設定された閾値を超える又は前記閾値以上となる2以上の区間を、前記対応して変化する2以上の区間として選別する、請求項2に記載の情報分析装置。 - 前記入力部が2つの前記文書集合の入力を受け付け、前記時系列データ生成部が、2つの前記時系列データを生成している場合において、
前記対応区間選別部が、更に、2つの前記時系列データそれぞれについて、選別された前記対応して変化する2以上の区間の変化が相互に類似するかどうかを判定し、2つの前記時系列データ両方において、変化が相互に類似する2以上の区間が存在する場合は、一方の前記時系列データの相互に類似する2以上の区間それぞれと、他方の前記時系列データの相互に類似する2以上の区間それぞれとが対応しているかどうかを判定し、対応して変化する区間のペアが二以上存在する場合は、これらの区間を再度選別し、
前記特徴抽出部が、2つの前記時系列データそれぞれについて、再度選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、
前記比較部が、前記時系列データ毎に、再度選別された前記2以上の区間における一の区間と他の区間とについて前記特徴間距離を求める、請求項2または3に記載の情報分析装置。 - 前記時間情報に基づいて前記文書集合から生成された時系列データの入力を受け付ける入力部を更に備え、
前記入力部が2つの前記時系列データの入力を受け付け、且つ、一方の時系列データの一区間と、前記一区間に対応して変化する他方の時系列データの一区間とが予め設定されている場合において、
前記対応区間選別部が、前記一方の時系列データについて、その予め設定された前記一区間と変化が類似する区間を選別し、更に、前記他方の時系列データについて、その予め設定された前記一区間と変化が類似し、且つ、前記一方の時系列データについて選別された前記区間に対応して変化する、区間を選別し、
前記特徴抽出部が、2つの前記時系列データそれぞれの予め設定された前記一区間に属する文書と、前記区間毎に、2つの前記時系列データそれぞれの選別された前記区間に属する文書とを特定し、特定された前記文書それぞれの特徴を抽出し、
前記比較部が、前記時系列データ毎に、予め設定された前記一区間に属する文書から抽出された特徴と、選別された前記区間に属する文書から抽出された特徴との間の特徴係間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較し、
前記関連度算出部が、前記比較部による比較の結果に基づいて、予め設定された前記一区間同士について前記関連度を算出する、請求項1に記載の情報分析装置。 - 時間情報が付与された文書を含む文書集合に対して、情報分析を実行するための情報分析方法であって、
(a)複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別するステップと、
(b)複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
(c)前記時系列データ毎に、選別された前記2以上の区間における、一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
(d)前記(c)のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを有する、ことを特徴とする情報分析方法。 - (e)前記(a)のステップの実行前に、複数の前記文書集合の入力を受け付けるステップと、
(f)前記(e)のステップで入力された複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて、複数の前記時系列データを生成する、ステップとを更に有する、請求項6に記載の情報分析方法。 - 前記(e)のステップにおいて、2つの前記文書集合の入力を受け付け、前記(f)のステップにおいて、2つの前記時系列データが生成されている場合に、
前記(a)のステップにおいて、一方の前記時系列データと他方の前記時系列データとの相関係数を求め、2つの前記時系列データそれぞれにおける、前記相関係数の絶対値が設定された閾値を超える又は前記閾値以上となる2以上の区間を、前記対応して変化する2以上の区間として選別する、請求項7に記載の情報分析方法。 - 前記(e)のステップにおいて、2つの前記文書集合の入力を受け付け、前記(f)のステップにおいて、2つの前記時系列データが生成されている場合に、
前記(a)のステップにおいて、前記対応して変化する2以上の区間を選別した後に、更に、2つの前記時系列データそれぞれについて、選別された前記2以上の区間の変化が相互に類似するかどうかを判定し、2つの前記時系列データ両方に、変化が相互に類似する2以上の区間が存在する場合は、一方の前記時系列データの相互に類似する2以上の区間それぞれと、他方の前記時系列データの相互に類似する2以上の区間それぞれとが対応して変化しているかどうかを判定し、対応して変化する区間のペアが二以上存在する場合に、これらの区間を再度選別し、
前記(b)のステップにおいて、2つの前記時系列データそれぞれについて、再度選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、
前記(c)のステップにおいて、前記時系列データ毎に、再度選別された前記2以上の区間における一の区間と他の区間とについて前記特徴間距離を求める、請求項7または8に記載の情報分析方法。 - (g)前記(a)のステップの実行前に、前記時間情報に基づいて前記文書集合から生成された時系列データの入力を受け付けるステップを更に有し、
前記(g)のステップにおいて、2つの前記時系列データの入力が受け付けられ、且つ、一方の時系列データの一区間と、前記一区間に対応して変化する他方の時系列データの一区間とが予め設定されている場合に、
前記(a)のステップにおいて、前記一方の時系列データについて、その予め設定された前記一区間と変化が類似する区間を選別し、更に、前記他方の時系列データについて、その予め設定された前記一区間と変化が類似し、且つ、前記一方の時系列データにおいて選別された前記区間に対応して変化する、区間を選別し、
前記(b)のステップにおいて、2つの前記時系列データそれぞれの予め設定された前記一区間に属する文書と、2つの前記時系列データそれぞれの選別された前記区間に属する文書とを特定し、前記区間毎に、特定された前記文書それぞれの特徴を抽出し、
前記(c)のステップにおいて、前記時系列データ毎に、予め設定された前記一区間に属する文書から抽出された特徴と、選別された前記区間に属する文書から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較し、
前記(d)のステップにおいて、前記(c)のステップによる比較の結果に基づいて、予め設定された前記一区間同士について前記関連度を算出する、請求項6に記載の情報分析方法。 - 時間情報が付与された文書を含む文書集合に対する情報分析をコンピュータに実行させるためのプログラムであって、
前記コンピュータに、
(a)複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて生成された、複数の時系列データを互いに比較し、各時系列データから、他の時系列データの2以上の区間それぞれに対応して変化する2以上の区間を選別するステップと、
(b)複数の前記時系列データそれぞれについて、選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、特定された前記文書の特徴を、前記区間毎に抽出するステップと、
(c)前記時系列データ毎に、選別された前記2以上の区間における、前記一の区間から抽出された特徴と、前記他の区間から抽出された特徴との間の特徴間距離を求め、求められた前記時系列データ毎の特徴間距離を互いに比較するステップと、
(d)前記(c)のステップによる比較の結果に基づいて、前記文書集合間の関連度を算出するステップとを実行させる、ことを特徴とするプログラム。 - (e)前記(a)のステップの実行前に、複数の前記文書集合の入力を受け付けるステップと、
(f)前記(e)のステップで入力された複数の前記文書集合から、前記文書集合毎に、前記時間情報に基づいて、複数の前記時系列データを生成する、ステップとを、更に、前記コンピュータに実行させる、請求項11に記載のプログラム。 - 前記(e)のステップにおいて、2つの前記文書集合の入力を受け付け、前記(f)のステップにおいて、2つの前記時系列データが生成されている場合に、
前記(a)のステップにおいて、一方の前記時系列データと他方の前記時系列データとの相関係数を求め、2つの前記時系列データそれぞれにおける、前記相関係数の絶対値が設定された閾値を超える又は前記閾値以上となる2以上の区間を、前記対応して変化する2以上の区間として選別する、請求項12に記載のプログラム。 - 前記(e)のステップにおいて、2つの前記文書集合の入力を受け付け、前記(f)のステップにおいて、2つの前記時系列データが生成されている場合に、
前記(a)のステップにおいて、前記対応して変化する2以上の区間を選別した後に、更に、2つの前記時系列データそれぞれについて、選別された前記2以上の区間の変化が相互に類似するかどうかを判定し、2つの前記時系列データ両方に、変化が相互に類似する2以上の区間が存在する場合は、一方の前記時系列データの相互に類似する2以上の区間それぞれと、他方の前記時系列データの相互に類似する2以上の区間それぞれとが対応して変化しているかどうかを判定し、対応して変化する区間のペアが二以上存在する場合に、これらの区間を再度選別し、
前記(b)のステップにおいて、2つの前記時系列データそれぞれについて、再度選別された前記2以上の区間に属する前記文書を前記区間毎に特定し、
前記(c)のステップにおいて、前記時系列データ毎に、再度選別された前記2以上の区間における一の区間と他の区間とについて前記特徴間距離を求める、請求項12または13に記載のプログラム。 - (g)前記(a)のステップの実行前に、前記時間情報に基づいて前記文書集合から生成された時系列データの入力を受け付けるステップを、更に、前記コンピュータに実行させ、
前記(g)のステップにおいて、2つの前記時系列データの入力が受け付けられ、且つ、一方の時系列データの一区間と、前記一区間に対応して変化する他方の時系列データの一区間とが予め設定されている場合に、
前記(a)のステップにおいて、前記一方の時系列データについて、その予め設定された前記一区間と変化が類似する区間を選別し、更に、前記他方の時系列データについて、その予め設定された前記一区間と変化が類似し、且つ、前記一方の時系列データにおいて選別された前記区間に対応して変化する、区間を選別し、
前記(b)のステップにおいて、2つの前記時系列データそれぞれの予め設定された前記一区間に属する文書と、2つの前記時系列データそれぞれの選別された前記区間に属する文書とを特定し、前記区間毎に、特定された前記文書それぞれの特徴を抽出し、
前記(c)のステップにおいて、前記時系列データ毎に、予め設定された前記一区間に属する文書から抽出された特徴と、選別された前記区間に属する文書から抽出された特徴との間の特徴間距離係を求め、求められた前記時系列データ毎の特徴間距離を互いに比較し、
前記(d)のステップにおいて、前記(c)のステップによる比較の結果に基づいて、予め設定された前記一区間同士について前記関連度を算出する、請求項11に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010530725A JP5387578B2 (ja) | 2008-09-24 | 2009-09-18 | 情報分析装置、情報分析方法、及びプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008244753 | 2008-09-24 | ||
JP2008244753 | 2008-09-24 | ||
PCT/JP2009/004752 WO2010035455A1 (ja) | 2008-09-24 | 2009-09-18 | 情報分析装置、情報分析方法、及びプログラム |
JP2010530725A JP5387578B2 (ja) | 2008-09-24 | 2009-09-18 | 情報分析装置、情報分析方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010035455A1 JPWO2010035455A1 (ja) | 2012-02-16 |
JP5387578B2 true JP5387578B2 (ja) | 2014-01-15 |
Family
ID=42059468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010530725A Active JP5387578B2 (ja) | 2008-09-24 | 2009-09-18 | 情報分析装置、情報分析方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20110153601A1 (ja) |
JP (1) | JP5387578B2 (ja) |
WO (1) | WO2010035455A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8407221B2 (en) * | 2010-07-09 | 2013-03-26 | International Business Machines Corporation | Generalized notion of similarities between uncertain time series |
JP5048852B2 (ja) * | 2011-02-25 | 2012-10-17 | 楽天株式会社 | 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体 |
WO2014034557A1 (ja) * | 2012-08-31 | 2014-03-06 | 日本電気株式会社 | テキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体 |
JP5952711B2 (ja) * | 2012-10-24 | 2016-07-13 | Kddi株式会社 | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 |
JP5963310B2 (ja) * | 2013-01-30 | 2016-08-03 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、情報処理方法、及び、情報処理プログラム |
GB2528792A (en) * | 2013-05-16 | 2016-02-03 | Hitachi Ltd | Detection device, detection method, and recording medium |
US9886422B2 (en) * | 2014-08-06 | 2018-02-06 | International Business Machines Corporation | Dynamic highlighting of repetitions in electronic documents |
JP5936240B2 (ja) * | 2014-09-12 | 2016-06-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | データ処理装置、データ処理方法、およびプログラム |
US9875228B1 (en) * | 2015-03-06 | 2018-01-23 | Google Llc | Systems and methods for preserving conditional styles when copying and pasting between applications |
JP7080029B2 (ja) * | 2017-04-10 | 2022-06-03 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 情報提供装置、情報提供方法及びコンピュータープログラム |
US11593692B2 (en) * | 2017-06-20 | 2023-02-28 | Nec Corporation | Graph structure analysis apparatus, graph structure analysis method, and computer-readable recording medium |
US11106664B2 (en) | 2018-05-03 | 2021-08-31 | Thomson Reuters Enterprise Centre Gmbh | Systems and methods for generating a contextually and conversationally correct response to a query |
US11144734B2 (en) * | 2019-06-12 | 2021-10-12 | International Business Machines Corporation | Self-learning natural-language generation rules engine with diachronic linguistic analysis |
KR102536201B1 (ko) * | 2019-09-24 | 2023-05-24 | 주식회사 디셈버앤컴퍼니자산운용 | 시계열 데이터 유사도 계산 시스템 및 방법 |
WO2023144967A1 (ja) * | 2022-01-27 | 2023-08-03 | 日本電信電話株式会社 | 処理装置、処理方法およびプログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10320419A (ja) * | 1997-05-22 | 1998-12-04 | Nippon Telegr & Teleph Corp <Ntt> | 情報関連づけ装置およびその方法 |
JPH1125169A (ja) * | 1997-06-30 | 1999-01-29 | Toshiba Corp | 相関関係抽出方法 |
JP2002251590A (ja) * | 2001-02-23 | 2002-09-06 | Fujitsu Ltd | 文書分析装置 |
JP2002351897A (ja) * | 2001-05-22 | 2002-12-06 | Fujitsu Ltd | 情報利用頻度予測プログラム、情報利用頻度予測装置および情報利用頻度予測方法 |
US20040027349A1 (en) * | 2002-08-08 | 2004-02-12 | David Landau | Method and system for displaying time-series data and correlated events derived from text mining |
JP2004206391A (ja) * | 2002-12-25 | 2004-07-22 | Mitsubishi Electric Corp | 文書情報分析装置 |
JP2006331089A (ja) * | 2005-05-26 | 2006-12-07 | Toshiba Corp | Webページから時系列データを生成する方法及び装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6598054B2 (en) * | 1999-01-26 | 2003-07-22 | Xerox Corporation | System and method for clustering data objects in a collection |
US6834266B2 (en) * | 2001-10-11 | 2004-12-21 | Profitlogic, Inc. | Methods for estimating the seasonality of groups of similar items of commerce data sets based on historical sales data values and associated error information |
US20050171948A1 (en) * | 2002-12-11 | 2005-08-04 | Knight William C. | System and method for identifying critical features in an ordered scale space within a multi-dimensional feature space |
US6871165B2 (en) * | 2003-06-20 | 2005-03-22 | International Business Machines Corporation | Method and apparatus for classifying time series data using wavelet based approach |
JP4773680B2 (ja) * | 2003-08-07 | 2011-09-14 | ソニー株式会社 | 情報処理装置および方法、プログラム記録媒体、並びにプログラム |
US20060173668A1 (en) * | 2005-01-10 | 2006-08-03 | Honeywell International, Inc. | Identifying data patterns |
JP5067556B2 (ja) * | 2005-09-30 | 2012-11-07 | 日本電気株式会社 | トレンド評価装置と、その方法及びプログラム |
-
2009
- 2009-09-18 JP JP2010530725A patent/JP5387578B2/ja active Active
- 2009-09-18 WO PCT/JP2009/004752 patent/WO2010035455A1/ja active Application Filing
- 2009-09-18 US US13/060,572 patent/US20110153601A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10320419A (ja) * | 1997-05-22 | 1998-12-04 | Nippon Telegr & Teleph Corp <Ntt> | 情報関連づけ装置およびその方法 |
JPH1125169A (ja) * | 1997-06-30 | 1999-01-29 | Toshiba Corp | 相関関係抽出方法 |
JP2002251590A (ja) * | 2001-02-23 | 2002-09-06 | Fujitsu Ltd | 文書分析装置 |
JP2002351897A (ja) * | 2001-05-22 | 2002-12-06 | Fujitsu Ltd | 情報利用頻度予測プログラム、情報利用頻度予測装置および情報利用頻度予測方法 |
US20040027349A1 (en) * | 2002-08-08 | 2004-02-12 | David Landau | Method and system for displaying time-series data and correlated events derived from text mining |
JP2004206391A (ja) * | 2002-12-25 | 2004-07-22 | Mitsubishi Electric Corp | 文書情報分析装置 |
JP2006331089A (ja) * | 2005-05-26 | 2006-12-07 | Toshiba Corp | Webページから時系列データを生成する方法及び装置 |
Non-Patent Citations (3)
Title |
---|
CSNG200201687001; 仲瀬明彦、外3名: '時系列データマイニングにおける相関関係発見方式' アドバンスト・データベース・シンポジウム'97 第97巻,第11号, 19971215, p.159-164, 社団法人情報処理学会 * |
JPN6009054638; 仲瀬明彦、外3名: '時系列データマイニングにおける相関関係発見方式' アドバンスト・データベース・シンポジウム'97 第97巻,第11号, 19971215, p.159-164, 社団法人情報処理学会 * |
JPN6009054645; 大西貴士、外4名: '時系列分析によるWeb文書の情報信頼性判断支援:時系列変化重要トピックの抽出' 言語処理学会第15回年次大会発表論文集[CD-ROM] , 20090302, p.104-107, 言語処理学会 * |
Also Published As
Publication number | Publication date |
---|---|
US20110153601A1 (en) | 2011-06-23 |
JPWO2010035455A1 (ja) | 2012-02-16 |
WO2010035455A1 (ja) | 2010-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5387578B2 (ja) | 情報分析装置、情報分析方法、及びプログラム | |
Shu et al. | Beyond news contents: The role of social context for fake news detection | |
Mandal et al. | Measuring similarity among legal court case documents | |
Tan et al. | Interpreting the public sentiment variations on twitter | |
Tuarob et al. | Fad or here to stay: Predicting product market adoption and longevity using large scale, social media data | |
US20100318526A1 (en) | Information analysis device, search system, information analysis method, and information analysis program | |
WO2017013667A1 (en) | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof | |
Diaz et al. | Using code ownership to improve ir-based traceability link recovery | |
CN109165382B (zh) | 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
CN105975459A (zh) | 一种词项的权重标注方法和装置 | |
WO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
WO2011065211A1 (ja) | 文書分析装置、文書分析方法、及びコンピュータ読み取り可能な記録媒体 | |
US9245023B2 (en) | Reputation analysis system and reputation analysis method | |
Gupta et al. | A combined approach of sentimental analysis using machine learning techniques | |
CN118378053B (zh) | 基于数据挖掘的用户数据分析方法 | |
JP4539616B2 (ja) | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム | |
CN110020195A (zh) | 文章推荐方法及装置、存储介质、电子设备 | |
Venkataraman et al. | Classifying the sentiment polarity of Amazon mobile phone reviews and their ratings | |
BE1025360B1 (nl) | Beheren en aanwenden van juridisch-fiscale documenten uit de rechtspraak | |
Sauban et al. | Text categorisation using document profiling | |
Setievi et al. | A Comparative Study of Supervised Machine Learning Algorithms for Fake Review Detection | |
US20170249317A1 (en) | Search-based recommendation engine | |
Tumu et al. | Context based sentiment analysis approach using n-gram and word vectorization methods | |
Mol et al. | A trustworthy model in E-commerce by mining feedback comments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120809 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130923 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5387578 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |