JP2014160358A - Time series data component decomposition apparatus, method and program and recording medium - Google Patents
Time series data component decomposition apparatus, method and program and recording medium Download PDFInfo
- Publication number
- JP2014160358A JP2014160358A JP2013030469A JP2013030469A JP2014160358A JP 2014160358 A JP2014160358 A JP 2014160358A JP 2013030469 A JP2013030469 A JP 2013030469A JP 2013030469 A JP2013030469 A JP 2013030469A JP 2014160358 A JP2014160358 A JP 2014160358A
- Authority
- JP
- Japan
- Prior art keywords
- document
- time
- unit
- series data
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、時系列データの成分分解を行なう時系列データ成分分解装置、方法、プログラム、及び記録媒体に関する。 The present invention relates to a time-series data component decomposition apparatus, method, program, and recording medium for performing component decomposition of time-series data.
Twitter(登録商標)などに代表される、利用者が主に自身の状況や雑感などを短い文章で投稿するマイクロブログは、更新の容易さと、そのリアルタイム性の高さから大きく普及し、新たな情報基盤として発展を続けている。このような状況の中で、マイクロブログを、実世界で発生した事象を捉える「センサ」として利用する技術が近年では発展している。 Microblogs, such as Twitter (registered trademark), where users mainly post their own situations and miscellaneous feelings in short sentences are widely used due to their ease of updating and their real-time nature. It continues to develop as an information infrastructure. Under these circumstances, in recent years, technology that uses microblogging as a “sensor” that captures events that occur in the real world has been developed.
例えば、下記非特許文献1には、インフルエンザ関連のキーワードが含まれるツイート量から、インフルエンザの流行度合について予測する技術が開示されている。このような技術により、実世界で観測された時系列データが、どのような背景によって生成されているかに関しての手掛りを知ることができる。
For example, the following
なお、前述の非特許文献1に記載の従来手法が利用するキーワード指定によるツイート数の計測では、時系列データの生成に関わるキーワードを網羅的に用意する必要がある。しかしながら、網羅的にキーワードを用意するのは困難であり、キーワードの用意が不十分である場合、結果として、時系列データの生成過程に関する正しい理解も不十分になってしまう、という問題がある。
Note that in the measurement of the number of tweets by keyword designation used by the conventional method described in Non-Patent
例えば、ある空港における利用者数について、利用者数の成分分解、すなわち、どのような理由でその空港を利用したか、という利用理由の内訳を明らかにすることを考えたとき、人々は「出張する」、「新婚旅行に出発する」、「遊ぶ」、「食事をする」、「買い物をする」など、様々な理由で空港を訪れているため、これらを網羅的にカバー可能なキーワード集合を用意するのは非常に難しく、時系列データの成分分解の精度が落ちてしまう。 For example, when considering the number of users at an airport, considering the breakdown of the number of users, that is, the reason for the reason for using the airport, , “Depart for a honeymoon”, “play”, “dine”, “shop”, and so on. It is very difficult to prepare, and the accuracy of component decomposition of time-series data is reduced.
また、キーワードマッチ型の従来手法では、キーワードは含まないが時系列データには関連する文書の情報が欠落してしまう、という問題もある。 In addition, the conventional keyword-matching method also has a problem that information on related documents is lost in time-series data although keywords are not included.
本発明は、上記問題を解決するためになされたもので、キーワードを用いずに時系列データの成分分解を精度高く行なうことができる時系列データ成分分解装置、方法、プログラム、及び記録媒体を提供することを目的とする。 The present invention has been made to solve the above-described problem, and provides a time-series data component decomposition apparatus, method, program, and recording medium capable of accurately performing time-series data component decomposition without using a keyword. The purpose is to do.
上記の目的を達成するために、本発明に係る時系列データ成分分解装置は、ある現象の時間的な変化を観測して得られた一連の観測値の系列である時系列データに含まれる各観測値を、予め定められた時間区間ごとに集計する時系列データ集計部と、作成時間情報が付与された文書の集合である時間情報付文書集合に対して、外的な基準を用いずに各文書の内容に基づいてクラスタリングを行って複数個のクラスタを発見し、各文書について、該複数個のクラスタの各々に所属する度合いを算出する文書クラスタリング部と、前記文書クラスタリング部により算出された前記各クラスタに所属する度合い、及び前記各文書に付与された作成時間情報に基づいて、前記時間区間ごとに、前記時間情報付文書集合の各文書が前記各クラスタに所属する度合いを集計する文書集計部と、前記時間区間ごとに、前記文書集計部の集計結果を説明変数とし、前記時系列データ集計部の集計結果を目的変数として、該説明変数と該目的変数との間の関係を表す回帰式を回帰分析により推計する回帰分析部と、前記回帰分析部により前記時間区間ごとに推計された回帰式の定数項及び回帰係数と、前記文書集計部による前記時間区間ごとの集計結果とを用いて、前記時間区間ごとの前記各クラスタの成分の比率を算出する成分比率算出部と、前記時系列データに含まれる各観測値を、前記観測値の観測時間に対応する前記時間区間の前記成分比率算出部により算出された前記クラスタの成分の比率を用いて、前記各クラスタの成分に分解する成分分解部と、を含んでいる。 In order to achieve the above object, the time series data component decomposition apparatus according to the present invention includes each time series data included in a series of observation values obtained by observing a temporal change of a certain phenomenon. Without using an external standard for the time-series data aggregation unit that aggregates observation values for each predetermined time interval and the document set with time information, which is a set of documents with creation time information Clustering is performed based on the contents of each document to find a plurality of clusters, and each document is calculated by the document clustering unit that calculates the degree of belonging to each of the plurality of clusters. Based on the degree of belonging to each cluster and the creation time information given to each document, each document in the document set with time information belongs to each cluster for each time interval. A document totaling unit that counts the degree of data, and for each time interval, the totaling result of the document totaling unit is used as an explanatory variable, and the totaling result of the time-series data totaling unit is used as an objective variable. A regression analysis unit that estimates a regression equation representing a relationship between the regression equation, a constant term and a regression coefficient of the regression equation estimated for each time interval by the regression analysis unit, and the time interval by the document aggregation unit The component ratio calculation unit that calculates the ratio of the components of each cluster for each time interval using the total result for each time interval, and each observation value included in the time series data corresponds to the observation time of the observation value And a component decomposing unit that decomposes into the components of each cluster using the ratio of the cluster components calculated by the component ratio calculating unit of the time interval.
このように、本発明に係る時系列データ成分分解装置によれば、キーワード単位ではなく、文書の内容に基づいたクラスタの成分比率に従って時系列データを成分分解するようにしたため、時系列データの成分分解を精度高く行なうことができる。 As described above, according to the time-series data component decomposition apparatus according to the present invention, the time-series data is decomposed according to the component ratio of the cluster based on the content of the document instead of the keyword unit. Decomposition can be performed with high accuracy.
なお、前記時間情報付文書集合の各文書について、どのような感情に基づいて文書が記載されたかを示す値として、各文書に含まれる各感情の度合いを推定する感情推定部を更に含み、前記文書集計部は、前記文書クラスタリング部により算出された前記各クラスタに所属する度合い、前記各文書に付与された作成時間情報、及び前記感情推定部の推定結果に基づいて、前記時間区間ごとに、前記時間情報付文書集合の各文書が前記クラスタ及び前記感情の各組に所属する度合いを集計し、前記成分比率算出部は、前記回帰分析部により前記時間区間ごとに推計された回帰式の定数項及び回帰係数と、前記文書集計部による前記時間区間ごとの集計結果とを用いて、前記時間区間ごとの前記クラスタ及び前記感情の組の成分の比率を算出し、前記時系列データに含まれる各観測値を、前記観測値の観測時間に対応する前記時間区間の前記成分比率算出部により算出された前記クラスタの成分の比率を用いて、前記クラスタ及び前記感情の各組の成分に分解するようにしてもよい。 In addition, for each document in the document set with time information, as a value indicating what kind of emotion is described based on the emotion, further includes an emotion estimation unit that estimates the degree of each emotion included in each document, Based on the degree of belonging to each cluster calculated by the document clustering unit, the creation time information given to each document, and the estimation result of the emotion estimation unit, the document aggregation unit, for each time interval, The degree to which each document of the document set with time information belongs to each set of the cluster and the emotion is totaled, and the component ratio calculation unit is a regression equation constant estimated by the regression analysis unit for each time interval. Using a term and a regression coefficient, and a totaling result for each time interval by the document totaling unit, a ratio of components of the cluster and the emotion set for each time interval is calculated, Each observed value included in the time-series data is obtained by using the ratio of the components of the cluster calculated by the component ratio calculating unit of the time interval corresponding to the observation time of the observed value. You may make it decompose | disassemble into the component of each group.
このように、文書の内容に基づいたクラスタ及び感情の組の成分比率に従って時系列データを成分分解するようにしたため、より精度高く時系列データの成分分解を行なうことができる。 As described above, since the time-series data is decomposed in accordance with the component ratio of the cluster and emotion group based on the contents of the document, the time-series data can be decomposed with higher accuracy.
本発明に係る時系列データ成分分解方法は、時系列データ集計部、文書クラスタリング部、文書集計部、回帰分析部、成分比率算出部、成分比率算出部、及び成分分解部を含む時系列データ成分分解装置における時系列データ成分分解方法であって、前記時系列データ集計部によって、ある現象の時間的な変化を観測して得られた一連の観測値の系列である時系列データに含まれる各観測値を、予め定められた時間区間ごとに集計し、前記文書クラスタリング部によって、作成時間情報が付与された文書の集合である時間情報付文書集合に対して、外的な基準を用いずに各文書の内容に基づいてクラスタリングを行って複数個のクラスタを発見し、各文書について、該複数個のクラスタの各々に所属する度合いを算出し、前記文書集計部によって、前記文書クラスタリング部により算出された前記各クラスタに所属する度合い、及び前記各文書に付与された作成時間情報に基づいて、前記時間区間ごとに、前記時間情報付文書集合の各文書が前記各クラスタに所属する度合いを集計し、前記回帰分析部によって、前記時間区間ごとに、前記文書集計部の集計結果を説明変数とし、前記時系列データ集計部の集計結果を目的変数として、該説明変数と該目的変数との間の関係を表す回帰式を回帰分析により推計し、前記成分比率算出部によって、前記回帰分析部により前記時間区間ごとに推計された回帰式の定数項及び回帰係数と、前記文書集計部による前記時間区間ごとの集計結果とを用いて、前記時間区間ごとの前記各クラスタの成分の比率を算出し、前記成分分解部によって、前記時系列データに含まれる各観測値を、前記観測値の観測時間に対応する前記時間区間の前記成分比率算出部により算出された前記クラスタの成分の比率を用いて、前記各クラスタの成分に分解するものである。 A time series data component decomposition method according to the present invention includes a time series data aggregation unit, a document clustering unit, a document aggregation unit, a regression analysis unit, a component ratio calculation unit, a component ratio calculation unit, and a component decomposition unit. A time-series data component decomposing method in a decomposing apparatus, wherein each time-series data is a series of observation values obtained by observing a temporal change of a phenomenon by the time-series data totaling unit. The observed values are aggregated for each predetermined time interval, and the document clustering unit does not use an external standard for the document set with time information that is a set of documents to which creation time information is given. Clustering is performed based on the contents of each document to find a plurality of clusters, and the degree to which each document belongs to each of the plurality of clusters is calculated. Based on the degree of belonging to each cluster calculated by the document clustering unit and the creation time information given to each document, each document in the document set with time information is The degree of belonging to each cluster is tabulated, and the regression analysis unit uses the tabulation result of the document tabulation unit as an explanatory variable and the tabulation result of the time series data tabulation unit as an objective variable for each time interval. A regression equation representing a relationship between the variable and the objective variable is estimated by regression analysis, and the component ratio calculation unit calculates a constant term and a regression coefficient of the regression equation estimated by the regression analysis unit for each time interval. , By using the aggregation result for each time interval by the document aggregation unit, to calculate the ratio of the components of each cluster for each time interval, by the component decomposition unit, Each observed value included in the time-series data is converted into a component of each cluster by using the ratio of the cluster components calculated by the component ratio calculating unit in the time interval corresponding to the observation time of the observed value. Decompose.
なお、前記時間情報付文書集合は、前記時間情報付文書集合に含まれる各文書内に特定のキーワードが含まれる文書の集合であってもよい。 The document set with time information may be a set of documents in which a specific keyword is included in each document included in the document set with time information.
また、前記時間情報付文書集合は、予め指定された位置範囲内に存在する端末で作成され投稿された文書の集合であってもよい。 Further, the document set with time information may be a set of documents created and posted by a terminal existing in a position range designated in advance.
また、前記時間情報付文書集合は、利用者が利用者自身のリアルタイムな状況又は雑感を表わす所定文字数以内の文章を作成して投稿するマイクロブログの文書の集合であってもよい。 The document set with time information may be a set of microblog documents in which a user creates and submits text within a predetermined number of characters representing a real-time situation or miscellaneous feeling of the user.
本発明に係るプログラムは、コンピュータを、上記時系列データ成分分解装置の各手段として機能させるためのプログラムである。 The program according to the present invention is a program for causing a computer to function as each unit of the time-series data component decomposition apparatus.
本発明に係る記録媒体は、コンピュータを、上記時系列データ成分分解装置の各手段として機能させるためのプログラムを記録したコンピュータ読取り可能な記録媒体である。 The recording medium according to the present invention is a computer-readable recording medium recording a program for causing a computer to function as each means of the time-series data component decomposition apparatus.
以上説明したように、本発明によれば、キーワードを用いずに時系列データの成分分解を精度高く行なうことができる、という効果が得られる。 As described above, according to the present invention, it is possible to obtain an effect that the component decomposition of time-series data can be performed with high accuracy without using a keyword.
<第1の実施の形態> <First Embodiment>
図1は、本発明の一実施の形態における時系列データ成分分解装置10の機能的な構成を示す図である。
FIG. 1 is a diagram showing a functional configuration of a time-series data
図1に示す時系列データ成分分解装置10は、入力された時系列データ及び時間情報付文書集合から、当該時系列データを複数個の成分に分解して出力する装置であって、入力部20、演算部22、及び出力部24を備えている。
The time-series data
入力部20は、時系列データ入力部30及び時間情報付文書集合入力部32を備えている。
The
時系列データ入力部30は、時系列データの入力を受け付ける。
The time series
ここで、時系列データは、ある現象の時間的な変化を観測して得られた一連の値(観測値)の系列である。時系列データの具体例としては、例えば、株価データや売り上げデータ等が挙げられる。時系列データに含まれる各観測値には、各観測値が観測された観測日時を示す観測日時情報が対応付けられている。時系列データは、例えば、インターネット等から自動的に収集しておくことができる。 Here, the time series data is a series of a series of values (observed values) obtained by observing a temporal change of a certain phenomenon. Specific examples of time-series data include stock price data and sales data. Each observation value included in the time-series data is associated with observation date / time information indicating the observation date / time when each observation value was observed. The time series data can be automatically collected from the Internet or the like, for example.
時間情報付文書集合入力部32は、時間情報付文書集合の各文書の入力を受け付ける。
The document set
時間情報付文書集合は、文書データ(以下、単に文書という)の集合であって、各文書には、各文書がいつ作成されたかを示す作成時間情報(以下、単に時間情報という)が例えばメタデータとして付与されている。時間情報付文書集合は、各文書内に特定のキーワードが含まれる文書の集合であってもよい。また、時間情報付文書集合は、予め指定された位置範囲内に存在する端末で作成され投稿された文書の集合であってもよい。更にまた、時間情報付文書集合は、利用者が利用者自身のリアルタイムな状況又は雑感を表わす所定文字数以内の文章を作成して投稿するマイクロブログの文書の集合であってもよい。 The document set with time information is a set of document data (hereinafter simply referred to as documents), and each document has creation time information (hereinafter simply referred to as time information) indicating when each document is created. It is given as data. The document set with time information may be a set of documents in which specific keywords are included in each document. Further, the document set with time information may be a set of documents created and posted by a terminal existing in a position range designated in advance. Furthermore, the document set with time information may be a set of microblog documents in which the user creates and submits text within a predetermined number of characters representing the user's own real-time situation or feeling.
なお、各文書に付与される時間情報は、例えば、日時を示す情報であってもよいし、曜日を示す情報であってもよいし、曜日と時間の組み合わせを示す情報であってもよいし、日付を示す情報であってもよい。時間情報付文書集合は、例えば、事前にインターネット等から収集して構築しておくことができる。 The time information given to each document may be, for example, information indicating date and time, information indicating day of the week, or information indicating a combination of day of the week and time. Information indicating a date may be used. The document set with time information can be collected and constructed in advance from the Internet or the like, for example.
演算部22は、単語分割部40、文書クラスタリング部42、文書集計部44、時系列データ集計部46、回帰分析部48、成分比率算出部50、及び成分分解部52を備えている。
The
単語分割部40は、時間情報付文書集合に含まれる各文書を単語単位に分割して単語集合を生成する。
The
文書クラスタリング部42は、まず、単語分割部40により各文書の単語集合が生成された時間情報付文書集合から、外的な基準を用いずに、時間情報付文書集合に含まれる文書の内容に基づいて、複数個の意味的なまとまりを持つクラスタ集合を発見する。そして、文書クラスタリング部42は、時間情報付文書集合に含まれる各文書について、各クラスタに所属する度合いを算出して出力する。なお、外的な基準を用いずに行なわれるクラスタリングは、教師無しのデータ分類手法として一般的に知られている手法を用いることができる。
First, the document clustering unit 42 converts the document information included in the time information-added document set from the time information-added document set generated by the
文書集計部44は、時間情報付文書集合の各文書の各クラスタに所属する度合いを時間区間ごとに集計する。ここで、時間区間とは、対象期間を複数の期間に分割したときの各分割区間をいう。具体的な例を挙げると、例えば、1日を24個の期間に均等に分割したときの各時間帯(0時台(00:00:00〜00:59:59)、1時台、……23時台)として時間区間を定義することができる。また、日付(365区間)や、曜日(7区間)、曜日と時間帯の組み合わせ(月曜7時台、火曜10時台、7×24=168区間)などとしてもよい。なお、文書集計部44の集計結果を文書集計結果と呼称する。
The
時系列データ集計部46は、時系列データを、時間区間ごとに集計する。時系列データ集計部46で時系列データを集計するときの時間区間の定義は、文書集計部44における集計で使用された時間区間の定義と同じである。時系列データ集計部46の集計結果を時系列データ集計結果と呼称する。
The time series
回帰分析部48は、時間区間ごとに、文書集計部44による文書集計結果を説明変数とし、時系列データ集計部46による時系列データ集計結果を目的変数として回帰分析を行なう。
The
成分比率算出部50は、回帰分析部48の回帰分析結果を用いて、時間区間ごとの各クラスタの成分比率を算出する。
The component
成分分解部52は、時系列データを、成分比率算出部50で算出された時間区間ごとの成分比率を用いて複数個の成分に分解する。
The
出力部24は、成分分解部52の分解結果(成分分解値)を出力する。
The
時系列データ成分分解装置10は、図2に示すように、CPU(Central Processing Unit)201と、CPUが後述する各処理ルーチンを実行するためのプログラム等を記憶したROM(Read Only Memory)202と、RAM(Random Access Memory)203と、を備えたコンピュータ200で構成することができる。また、このコンピュータ200は、通信インタフェース(IF)204、入出力IF205、及びハードディスクドライブ206も備えている。通信IF204はネットワーク210に接続するためのインタフェースである。入出力IF205は、ディスプレイ208及びキーボード209に接続される。
As shown in FIG. 2, the time-series data
CPU201がROM202やハードディスク等の記録媒体に記憶されているプログラムを読み出して実行することにより、上記ハードウェアとプログラムとを協働させて上述した機能が実現される。
When the
次に、本実施の形態における時系列データ成分分解装置10の動作について詳細に説明する。時系列データ成分分解装置10は、時系列データ入力部30及び時間情報付文書集合入力部32により時系列データ及び時間情報付文書集合の入力を受け付けると、図3に示す処理ルーチンを実行する。
Next, the operation of the time-series data
ステップ100において、単語分割部40は、時間情報付文書集合入力部32で入力が受け付けられた時間情報付文書集合に含まれる各文書diを単語単位に分割し単語集合を生成する。このとき、形態素解析器を用いて名詞のみを抽出して単語集合としてもよいし、あるいは、名詞・動詞・形容詞の単語のみを抽出し単語集合としてもよい。また、他品詞の単語を上記単語集合に加えてもよい。なお、ここでは、形態素解析器による形態素解析を実施する例について説明したが、形態素解析を実施する代わりに、時間情報付文書集合の各文書diに含まれる全ての文字nグラム(連続するn文字)を上記単語集合としてもよい。
In step 100, the
ステップ102において、文書クラスタリング部42は、各文書の単語集合が生成された時間情報付文書集合から、外的な基準を用いずに、文書の内容に基づいて複数個の意味的まとまりを持つクラスタ集合を発見し、時間情報付文書集合に含まれる各文書diについて、各クラスタに所属する度合いP(c|di)を出力する。なお、cは、各クラスタを示すパラメータであって、1からクラスタの個数Cまでの値をとる。 In step 102, the document clustering unit 42 selects a cluster having a plurality of semantic groups based on the contents of the document from the document set with time information in which the word set of each document is generated without using an external criterion. A set is found, and the degree P (c | d i ) belonging to each cluster is output for each document d i included in the document set with time information. C is a parameter indicating each cluster, and takes a value from 1 to the number C of clusters.
ここで、以下の式(1)に示す関係が成立する。 Here, the relationship shown in the following formula (1) is established.
ここでは、ソフトクラスタリング(例えば、参考文献1「新納浩幸、Rで学ぶクラスタ解析、オーム社、2007」参照。)と呼ばれる、データが各クラスタに属する度合いを出力可能なアルゴリズム(Fuzzy c-means、混合分布モデル、pLSI、LDA、NMFなど)のうち、任意のものが使用可能である。クラスタの個数Cは事前に与えるパラメータで、C=20などと設定する。
Here, an algorithm (Fuzzy c-means, for example) called soft clustering (see
ステップ104において、文書集計部44は、上記時間情報付文書集合の各文書diのクラスタに所属する度合いを示す値(以下、この度合いを示す値を便宜的に文書数と呼称する)を時間区間h別に集計する。具体的には、文書diが投稿された時刻をtiとしたとき、時間区間hにおける、クラスタcに所属する文書数n(c,h)を以下の式(2)に示すように定義し、全ての<c,h>の組み合わせについて計算する。
In step 104, the
ここで、Dは、時間情報付文書集合に含まれる文書の個数であり、δ(ti,h)は、時刻tiが時間区間hに含まれるときには1を、そうでないときには0を返す関数である。 Here, D is the number of documents included in the document set with time information, and δ (t i , h) is a function that returns 1 when the time t i is included in the time interval h, and returns 0 otherwise. It is.
文書集計部44は、上記計算した文書数n(c,h)を文書集計結果として出力する。
The
なお、前述したように、時間区間hを、1時間単位の時間帯としてもよいし、日付(365区間)や、曜日(7区間)、曜日と時間帯の組み合わせ(月曜7時台、火曜10時台、7×24=168区間)などとしてもよい。
As described above, the time interval h may be a time zone in units of one hour, a date (365 intervals), a day of the week (7 intervals), a combination of day of the week and time zone (Monday 7 o'clock,
ステップ106において、時系列データ集計部46は、時系列データのj個目の観測値xjについて、時間区間h別に平均値を集計する。
In step 106, the time-series
具体的には、観測値xjが観測された時刻(観測時刻)をtjとしたとき、時間区間hにおける、観測値xjの平均値m(h)を以下の式(3)に示すように定義し、全ての時間区間hについて式(3)を計算する。 Specifically, when the time (observation time) at which the observed value x j is observed is t j , the average value m (h) of the observed values x j in the time interval h is expressed by the following equation (3). Thus, Equation (3) is calculated for all time intervals h.
ここで、Jは、時系列データに含まれる観測値の個数であり、Nhは、δ(tj,h)=1となる観測値xjの個数である。また、集計の方法は、平均値以外にも、最大値、最小値、合計などとしてもよい。 Here, J is the number of observation values included in the time-series data, and N h is the number of observation values x j for which δ (t j , h) = 1. In addition to the average value, the aggregation method may be a maximum value, a minimum value, a total, or the like.
なお、ここでは、時間区間hの定義に基づき、観測値xjの観測時刻tjに応じて時系列データを集計したが、上記時間区間hの定義によっては、観測値xjの観測日や観測曜日等に応じて集計することもできる。 Here, based on the definition of the time interval h, the time series data is aggregated according to the observation time t j of the observation value x j , but depending on the definition of the time interval h, the observation date of the observation value x j It can also be tabulated according to the day of observation.
時系列データ集計部46は、上記計算したm(h)を時系列データ集計結果として出力する。
The time series
ステップ108において、回帰分析部48は、文書集計部44の文書集計結果n(c,h)を説明変数とし、時系列データ集計部46の時系列データ集計結果m(h)を目的変数として、回帰分析を行う。m(h)とn(c,h)との関係を表す線形回帰モデルは、以下の式(4)の通り定義される。
In
定数項及び回帰係数(β0,β1,…βC)は、例えば、参考文献2(川野秀一、廣瀬慧、立石正平、小西貞則「回帰モデリングとL1型正則化方の最近の展開」日本統計学会誌、39、2、pp.211-242、2010)に記載の線形重回帰や、lasso回帰、ridge回帰などにより導出できる。 Constant terms and regression coefficients (β 0 , β 1 ,… β C ) can be found in Reference 2 (Shuichi Kawano, Satoshi Hirose, Shohei Tateishi, Sadanori Konishi “Recent Developments in Regression Modeling and L1 Type Regularization” It can be derived by linear multiple regression, lasso regression, ridge regression, etc. described in the Journal of Statistical Society, 39, 2, pp.211-242, 2010).
ステップ110において、成分比率算出部50は、回帰分析部48による回帰係数の推定結果と、文書集計結果とを用いて、時間区間h別のクラスタ成分比率r(c,h)を以下の式(5)に従って算出し、出力する。
In
ここで、以下の式(6)を満たす。 Here, the following expression (6) is satisfied.
ステップ112において、成分分解部52は、時刻tjに観測された値xjを、成分比率算出部50により算出された、時刻tjに対応する時間区間hのクラスタ成分比率r(c,h)を用いて、以下の式(7)に示すように、C個の成分に分解する。
In
出力部24は、成分分解部52の成分分解結果を出力する。
The
図4に、上記説明した時系列データ成分分解装置10の処理内容を模式的に示す。図4に示すように、本実施の形態の時系列データ成分分解装置10は、ある現象の時間的な変化を観測して得られた一連の値の系列である時系列データを複数個の意味的成分に分解可能な手法であり、データマイニング、マーケティングなどに利用可能である。
FIG. 4 schematically shows the processing contents of the time-series data
以上説明したように、第1の実施の形態に係る時系列データ成分分解装置によれば、時系列データに含まれる各観測値を予め定められた時間区間ごとに集計し、時間情報付文書集合から、外的な基準を用いずに各文書の内容に基づいて複数個のクラスタを発見し、各文書について、該複数個のクラスタの各々に所属する度合いを算出し、該各クラスタに所属する度合い及び各文書に付与された作成時間情報に基づいて、上記時間区間ごとに時間情報付文書集合の各文書が各クラスタに所属する度合いを集計し、上記時間区間ごとに、時間情報付文書集合の集計結果を説明変数とし時系列データの集計結果を目的変数として、該説明変数と該目的変数との間の関係を表す回帰式を回帰分析により推計し、該回帰分析による推計結果及び時間情報付文書集合の集計結果に基づいて、時間区間ごとのクラスタの成分比率を算出し、該算出結果に基づいて、時系列データに含まれる各観測値をクラスタの成分に分解するようにしたため、キーワードを用いずに時系列データの成分分解を精度高く行なうことができる。 As described above, according to the time-series data component decomposition apparatus according to the first embodiment, the observation values included in the time-series data are aggregated for each predetermined time interval, and the document set with time information is collected. From the above, a plurality of clusters are found based on the contents of each document without using external criteria, and the degree to which each document belongs to each of the plurality of clusters is calculated and belongs to each cluster. Based on the degree and the creation time information given to each document, the degree to which each document of the document set with time information belongs to each cluster for each time interval is totaled, and the document set with time information for each time interval The summary results of the time series data are used as explanatory variables, and the summary results of the time series data are used as objective variables. A regression expression representing the relationship between the explanatory variables and the objective variables is estimated by regression analysis. The cluster component ratio for each time interval is calculated based on the aggregation result of the document set, and each observation value included in the time series data is decomposed into cluster components based on the calculation result. The component decomposition of time series data can be performed with high accuracy without using it.
なお、第1の実施の形態では、ステップ100〜104を、ステップ106の前に行なう例について記載したが(図3参照)、ステップ100〜104を、ステップ106とステップ108の間に行なうようにしてもよいし、ステップ100〜104の各々と、ステップ106とを並列に行なうようにしてもよい。
In the first embodiment, an example is described in which steps 100 to 104 are performed before step 106 (see FIG. 3), but steps 100 to 104 are performed between step 106 and
<第2の実施の形態> <Second Embodiment>
第2の実施の形態では、時間情報付文書集合の各文書について感情を推定する感情推定部が設けられた時系列データ成分分解装置により、時系列データの成分分解を行なう例について説明する。 In the second embodiment, an example will be described in which time-series data component decomposition is performed by a time-series data component decomposition apparatus provided with an emotion estimation unit that estimates emotion for each document in a document set with time information.
図5は、第2の実施の形態に係る時系列データ成分分解装置60の機能的な構成を示す図である。なお、図5において、図1と同一もしくは同等の部分には同じ記号を付し、その説明を省略する。
FIG. 5 is a diagram illustrating a functional configuration of the time-series data
時系列データ成分分解装置60は、入力部20、演算部26、及び出力部24を備えている。第2の実施の形態に係る演算部26は、単語分割部40、感情推定部41、文書クラスタリング部42、文書集計部62、時系列データ集計部46、回帰分析部64、成分比率算出部66、及び成分分解部68を備えている。
The time series data
感情推定部41は、感情推定器を用いて、時間情報付文書集合に含まれる、単語集合生成済みの各文書について、どのような感情に基づいて文書が記載されたかを示す値として、各文書に含まれる各感情成分の度合いを推定して出力する。ここでは、感情推定部41は、ポジティブ(肯定的)、ネガティブ(否定的)、ニュートラル(中立)の各感情の度合いを推定する。 The emotion estimation unit 41 uses an emotion estimator to set each document as a value indicating what kind of emotion the document has been described for each document that has been generated in the word set included in the document set with time information. Estimate and output the degree of each emotion component included in. Here, the emotion estimation unit 41 estimates the degree of each emotion of positive (positive), negative (negative), and neutral (neutral).
文書集計部62は、時間情報付文書集合の各文書が各クラスタ及び感情の組に所属する度合いを時間区間ごとに集計する。本実施の形態において、文書集計部62の集計結果を文書集計結果と呼称する。
The
回帰分析部64は、文書集計部62の文書集計結果を説明変数とし、時系列データ集計部46の時系列データ集計結果を目的変数として回帰分析を行なう。
The
成分比率算出部66は、回帰分析部64の回帰分析結果を用いて、時間区間ごとの各成分(クラスタ及び感情の組)の比率を算出する。
The component ratio calculation unit 66 calculates the ratio of each component (a set of clusters and emotions) for each time interval using the regression analysis result of the
成分分解部68は、時系列データを、成分比率算出部66で算出された成分比率を用いて複数個の成分に分解する。
The
なお、第2実施形態の時系列データ成分分解装置60も、図2に例示したコンピュータにより構成され、CPU201がROM202やハードディスク等の記録媒体に記憶されているプログラムを読み出して実行することにより、ハードウェアとプログラムとを協働させて上述した機能が実現される。
Note that the time-series data
次に、本実施の形態における時系列データ成分分解装置60の動作について詳細に説明する。時系列データ成分分解装置60は、時系列データ入力部30及び時間情報付文書集合入力部32により時系列データ及び時間情報付文書集合の入力を受け付けると、図6に示す処理ルーチンを実行する。
Next, the operation of the time series data
ステップ300において、単語分割部40は、時間情報付文書集合入力部32で入力が受け付けられた時間情報付文書集合に含まれる各文書diの単語集合を生成する。単語集合の生成方法は、第1の実施の形態で説明した通り(図3のステップ100参照)であるため、ここでは詳細な説明を省略する。
In step 300, the
ステップ302において、感情推定器を用いて、各文書について単語集合生成済みの時間情報付文書集合の各文書について、ポジティブ(肯定的)、ネガティブ(否定的)、ニュートラル(中立)の各感情の度合いP(s=1|di), P(s=2|di)、P(s=3|di)を推定する。感情推定器は、例えば、参考文献3(Alexander Pak and Patrick Paroubek, “Twitter as a Corpus for Sentiment Analysis and Opinion Mining”, LREC 2010.)に記載の方法により、時系列データ成分分解装置60に入力される入力データとは別のコーパスを用意して構築することができる。具体的には、予め正解データが与えられた感情データを用いて学習することで当該コーパスを構築することができる。
In step 302, using the emotion estimator, the degree of each emotion of positive (positive), negative (negative), and neutral (neutral) for each document in the document set with time information for which a word set has been generated for each document. P (s = 1 | d i ), P (s = 2 | d i ), and P (s = 3 | d i ) are estimated. The emotion estimator is input to the time-series data
ここで、以下の式(8)に示す関係が成立する。 Here, the relationship shown in the following formula (8) is established.
なお、感情推定器は、ポジティブ(肯定的)、ネガティブ(否定的)、ニュートラル(中立)の各感情の度合いを推定できるものであれば、上記参考文献3以外の方法を使用してもよい。 As long as the emotion estimator can estimate the degree of each of positive (positive), negative (negative), and neutral (neutral) emotions, a method other than the above Reference 3 may be used.
ステップ304において、文書クラスタリング部42は、第1の実施の形態で説明したように(図3のステップ102も参照)、各文書の単語集合が生成された時間情報付文書集合から、外的な基準無しで、文書の内容に基づいて複数個の意味的まとまりを持つクラスタ集合を発見し、時間情報付文書集合に含まれる各文書diについて、各クラスタに所属する度合いP(c|di)を出力する。
In
ステップ306において、文書集計部62は、上記時間情報付文書集合の各文書diのクラスタ及び感情の組に所属する度合いを示す値(以下、この度合いを示す値を文書数と呼称する)を時間区間h別に集計する。具体的には、文書diが投稿された時刻をtiとしたとき、時間区間hにおける、クラスタ及び感情の組<s,c>に所属する文書数n(s,c,h)を以下の式(9)に示すように定義し、全ての<s,c,h>の組み合わせについて計算する。
In
ここで、Dは、第1の実施の形態の式(2)と同様に、時間情報付文書集合に含まれる文書の個数であり、δ(ti,h)は、時刻tiが時間区間hに含まれるときには1を、そうでないときには0を返す関数である。 Here, D is the number of documents included in the document set with time information, as in Expression (2) of the first embodiment, and δ (t i , h) is the time interval between time t i This function returns 1 when included in h and 0 otherwise.
文書集計部64は、上記計算した文書数n(s,c,h)を文書集計結果として出力する。
The
ステップ308において、時系列データ集計部46は、第1の実施の形態で説明したように時系列データのj個目の観測値xj(観測時刻tj)について、時間区間h別に平均値m(h)を集計する。時系列データ集計部46は、計算したm(h)を時系列データ集計結果として出力する。ここでは、m(h)を、平均値としたが、最小値や、最大値、或いは合計値であってもよい。なお、時系列データの集計方法は、第1の実施の形態において、図3のステップ106を参照して説明した通りであるため、ここでは詳細な説明を省略する。
In
ステップ310において、回帰分析部64は、文書集計部62の文書集計結果n(s,c,h)を説明変数とし、時系列データ集計部46の時系列データ集計結果m(h)を目的変数として、回帰分析を行う。m(h)とn(s,c,h)との関係を表す線形回帰モデルは、以下の式(10)の通り定義される。
In step 310, the
定数項及び回帰係数(β0,β1,1,…β3,C)は、第1の実施の形態で説明したように、参考文献2(川野秀一、廣瀬慧、立石正平、小西貞則「回帰モデリングとL1型正則化方の最近の展開」日本統計学会誌、39、2、pp.211-242、2010)に記載の線形重回帰や、lasso回帰、ridge回帰などにより導出できる。 The constant term and the regression coefficient (β 0 , β 1,1 ,..., Β 3, C ) are as described in the first embodiment, as described in Reference Document 2 (Shuichi Kawano, Satoshi Hirose, Shohei Tateishi, Sadanori Konishi “ It can be derived by linear multiple regression, lasso regression, ridge regression, etc. described in "Recent Modeling of Regression Modeling and L1 Type Regularization", Journal of the Japan Statistical Society, 39, 2, pp.211-242, 2010).
ステップ312において、成分比率算出部66は、回帰分析部64による回帰係数の推定結果を用いて、時間区間h別の各成分(クラスタ・感情の組)の比率r(s,c,h)を以下の式(11)に従って算出し、出力する。
In step 312, the component ratio calculation unit 66 uses the estimation result of the regression coefficient by the
ここで、以下の式(12)を満たす。 Here, the following expression (12) is satisfied.
ステップ314において、成分分解部68は、時刻tjに観測された値xjを、成分比率算出部66により算出された、時刻tjに対応する時間区間hのクラスタ成分の比率r(s,c,h)を用いて、以下の式(13)に示すように、3×C個の成分に分解する。
In
出力部24は、成分分解部68の成分分解結果を出力する。
The
本実施の形態で説明した時系列データ成分分解装置60も、第1の実施の形態で説明した時系列データ成分分解装置10と同様に、ある現象の時間的な変化を観測して得られた一連の値の系列である時系列データを複数個の意味的成分に分解可能な手法であり、データマイニング、マーケティングなどに利用可能である。
The time-series data
以上説明したように、第2の実施の形態に係る時系列データ成分分解装置によれば、時系列データに含まれる各観測値を、予め定められた時間区間ごとに集計し、時間情報付文書集合の各文書に含まれる各感情の度合いを推定し、時間情報付文書集合から、外的な基準を用いずに各文書の内容に基づいて複数個のクラスタを発見し、各文書について、該複数個のクラスタの各々に所属する度合いを算出し、該各クラスタに所属する度合い及び各文書に付与された作成時間情報に基づいて、前記時間区間ごとに時間情報付文書集合の各文書がクラスタ及び感情の各組に所属する度合いを集計し、上記時間区間ごとに、時間情報付文書集合の集計結果を説明変数とし時系列データの集計結果を目的変数として、該説明変数と該目的変数との間の関係を表す式を回帰分析により推計し、該回帰分析による推計結果及び時間情報付文書集合の集計結果に基づいて、時間区間ごとのクラスタ及び感情の各組の成分比率を算出し、該算出結果に基づいて、時系列データに含まれる各観測値をクラスタ及び感情の各組の成分に分解するようにしたため、キーワードを用いずに時系列データの成分分解を精度高く行なうことができる。 As described above, according to the time-series data component decomposition apparatus according to the second embodiment, the observation values included in the time-series data are aggregated for each predetermined time interval, and the document with time information is added. Estimate the degree of each emotion included in each document of the set, find a plurality of clusters based on the contents of each document from the document set with time information without using external criteria, and for each document, The degree of belonging to each of a plurality of clusters is calculated, and each document of the document set with time information is clustered for each time interval based on the degree of belonging to each cluster and the creation time information given to each document. And the degree of belonging to each set of emotions, and for each time interval, the summary result of the document set with time information is the explanatory variable, and the summary result of the time series data is the objective variable. Seki Is calculated by regression analysis, and based on the estimation result of the regression analysis and the total result of the document set with time information, the component ratio of each set of clusters and emotions for each time interval is calculated, and the calculation result Based on this, each observation value included in the time-series data is decomposed into each set of cluster and emotion components, so that the time-series data can be accurately decomposed without using keywords.
なお、本実施の形態では、ステップ300〜306を、ステップ308の前に行なう例について記載したが(図6参照)、ステップ300〜306を、ステップ308とステップ310の間に行なうようにしてもよいし、ステップ300〜306の各々と、ステップ308とを並列に行なうようにしてもよい。また、ステップ302の処理とステップ304の順番も、上記図6に示した例に限定されず、何れが先でもよいし、並列に行なうようにしてもよい。
In this embodiment, an example in which steps 300 to 306 are performed before
なお、上記第1の実施の形態及び第2の実施の形態で説明した時系列データ成分分解装置は、どのような時間情報付文書集合に対しても適用可能であるが、特に、Twitter(登録商標)などのリアルタイム性の高いマイクロブログの文書集合に対して特に有効である。また、時間情報付文書集合を、地名、商品名など特定のキーワードを含むものや、文書を作成して投稿した端末の位置が指定範囲内に含まれるものに限定してもよい。 Note that the time-series data component decomposition apparatus described in the first embodiment and the second embodiment can be applied to any document set with time information. This is particularly effective for a microblog document set having a high real-time property such as a trademark. Further, the document set with time information may be limited to those including specific keywords such as place names and product names, and those including the position of the terminal that created and posted the document within the specified range.
また、上記第1の実施の形態及び第2の実施の形態で説明したように、図1或いは図5に示す構成要素の動作をプログラムとして構築し、時系列データ成分分解装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。 Further, as described in the first embodiment and the second embodiment, the operation of the components shown in FIG. 1 or FIG. 5 is constructed as a program and used as a time-series data component decomposition apparatus. It can be installed and executed on the network, or distributed via a network.
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。例えば、当該プログラムを、上述したROMやハードディスクのみならず、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。また、ネットワーク上の他の記憶装置に当該プログラムを記憶しておき、ネットワークを介して当該プログラムをダウンロードして実行するようにしてもよい。 In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium. For example, the program can be stored not only in the above-described ROM and hard disk but also in a portable storage medium such as a flexible disk or a CD-ROM, and installed in a computer or distributed. Alternatively, the program may be stored in another storage device on the network, and the program may be downloaded and executed via the network.
また、上述の時系列データ成分分解装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。 Further, the above-described time-series data component decomposition apparatus has a computer system therein, but if the “computer system” uses a WWW system, a homepage providing environment (or display environment) is also provided. Shall be included.
また、上記第1の実施の形態及び第2の実施の形態で説明した時系列データ成分分解装置を、ASIC等のハードウェアにより構成してもよい。 The time-series data component decomposition apparatus described in the first embodiment and the second embodiment may be configured by hardware such as an ASIC.
10 時系列データ成分分解装置
20 入力部
22 演算部
24 マイクロブログユーザ属性推定器構築部
24 出力部
26 演算部
30 時系列データ入力部
32 時間情報付文書集合入力部
40 単語分割部
41 感情推定部
42 文書クラスタリング部
44 文書集計部
46 時系列データ集計部
48 回帰分析部
50 成分比率算出部
52 成分分解部
60 時系列データ成分分解装置
62 文書集計部
64 回帰分析部
64 文書集計部
66 成分比率算出部
68 成分分解部
200 コンピュータ
201 CPU
202 ROM
203 RAM
204 通信IF
205 入出力IF
206 ハードディスクドライブ
10 time-series data
202 ROM
203 RAM
204 Communication IF
205 I / O IF
206 Hard disk drive
Claims (8)
作成時間情報が付与された文書の集合である時間情報付文書集合に対して、外的な基準を用いずに各文書の内容に基づいてクラスタリングを行って複数個のクラスタを発見し、各文書について、該複数個のクラスタの各々に所属する度合いを算出する文書クラスタリング部と、
前記文書クラスタリング部により算出された前記各クラスタに所属する度合い、及び前記各文書に付与された作成時間情報に基づいて、前記時間区間ごとに、前記時間情報付文書集合の各文書が前記各クラスタに所属する度合いを集計する文書集計部と、
前記時間区間ごとに、前記文書集計部の集計結果を説明変数とし、前記時系列データ集計部の集計結果を目的変数として、該説明変数と該目的変数との間の関係を表す回帰式を回帰分析により推計する回帰分析部と、
前記回帰分析部により前記時間区間ごとに推計された回帰式の定数項及び回帰係数と、前記文書集計部による前記時間区間ごとの集計結果とを用いて、前記時間区間ごとの前記各クラスタの成分の比率を算出する成分比率算出部と、
前記時系列データに含まれる各観測値を、前記観測値の観測時間に対応する前記時間区間の前記成分比率算出部により算出された前記クラスタの成分の比率を用いて、前記各クラスタの成分に分解する成分分解部と、
を含む時系列データ成分分解装置。 A time series data totaling unit that totals each observation value included in time series data that is a series of observation values obtained by observing a temporal change of a phenomenon, for each predetermined time interval;
A document set with time information, which is a set of documents to which creation time information is assigned, is clustered based on the contents of each document without using external criteria, and a plurality of clusters are found. A document clustering unit for calculating the degree of belonging to each of the plurality of clusters;
Based on the degree of belonging to each cluster calculated by the document clustering unit and the creation time information assigned to each document, each document in the document set with time information is added to each cluster for each time interval. A document aggregation section that aggregates the degree of belonging to
For each time interval, the regression result representing the relationship between the explanatory variable and the objective variable is regressed using the aggregation result of the document aggregation unit as an explanatory variable and the aggregation result of the time series data aggregation unit as an objective variable. A regression analysis unit that estimates by analysis,
Using the constant term and regression coefficient of the regression equation estimated for each time interval by the regression analysis unit and the aggregation result for each time interval by the document aggregation unit, the components of each cluster for each time interval A component ratio calculation unit for calculating the ratio of
Each observed value included in the time-series data is converted into a component of each cluster by using the ratio of the cluster components calculated by the component ratio calculating unit in the time interval corresponding to the observation time of the observed value. A component decomposition part to be decomposed;
A time-series data component decomposition apparatus.
前記文書集計部は、前記文書クラスタリング部により算出された前記各クラスタに所属する度合い、前記各文書に付与された作成時間情報、及び前記感情推定部の推定結果に基づいて、前記時間区間ごとに、前記時間情報付文書集合の各文書が前記クラスタ及び前記感情の各組に所属する度合いを集計し、
前記成分比率算出部は、前記回帰分析部により前記時間区間ごとに推計された回帰式の定数項及び回帰係数と、前記文書集計部による前記時間区間ごとの集計結果とを用いて、前記時間区間ごとの前記クラスタ及び前記感情の組の成分の比率を算出し、
前記時系列データに含まれる各観測値を、前記観測値の観測時間に対応する前記時間区間の前記成分比率算出部により算出された前記クラスタの成分の比率を用いて、前記クラスタ及び前記感情の各組の成分に分解する、
請求項1記載の時系列データ成分分解装置。 For each document in the document set with time information, as a value indicating what kind of emotion the document is described based on, it further includes an emotion estimation unit that estimates the degree of each emotion included in each document,
The document totaling unit, for each time interval, based on the degree of belonging to each cluster calculated by the document clustering unit, the creation time information given to each document, and the estimation result of the emotion estimation unit , Totalizing the degree to which each document of the document set with time information belongs to each set of the cluster and the emotion,
The component ratio calculation unit uses the constant term and regression coefficient of the regression equation estimated for each time interval by the regression analysis unit and the aggregation result for each time interval by the document aggregation unit, and uses the time interval. Calculating the ratio of the components of each cluster and the set of emotions for each
Each observation value included in the time series data is obtained by using the ratio of the cluster components calculated by the component ratio calculation unit of the time interval corresponding to the observation time of the observation value, and the cluster and the emotion. Break down into each set of components,
The time-series data component decomposition apparatus according to claim 1.
前記時間情報付文書集合に含まれる各文書内に特定のキーワードが含まれる文書の集合である、
請求項1又は請求項2に記載の時系列データ成分分解装置。 The document set with time information is
Each document included in the document set with time information is a set of documents including a specific keyword.
The time series data component decomposition | disassembly apparatus of Claim 1 or Claim 2.
予め指定された位置範囲内に存在する端末で作成され投稿された文書の集合である、
請求項1〜請求項3の何れか1項記載の時系列データ成分分解装置。 The document set with time information is
A set of documents created and posted on a terminal that exists within a pre-specified location range.
The time series data component decomposition | disassembly apparatus of any one of Claims 1-3.
利用者が利用者自身のリアルタイムな状況又は雑感を表わす所定文字数以内の文章を作成して投稿するマイクロブログの文書の集合である、
請求項1〜請求項4の何れか1項記載の時系列データ成分分解装置。 The document set with time information is
It is a set of microblog documents that users create and post sentences within a predetermined number of characters representing the user's own real-time situation or miscellaneous feeling.
The time series data component decomposition | disassembly apparatus of any one of Claims 1-4.
前記時系列データ集計部によって、ある現象の時間的な変化を観測して得られた一連の観測値の系列である時系列データに含まれる各観測値を、予め定められた時間区間ごとに集計し、
前記文書クラスタリング部によって、作成時間情報が付与された文書の集合である時間情報付文書集合に対して、外的な基準を用いずに各文書の内容に基づいてクラスタリングを行って複数個のクラスタを発見し、各文書について、該複数個のクラスタの各々に所属する度合いを算出し、
前記文書集計部によって、前記文書クラスタリング部により算出された前記各クラスタに所属する度合い、及び前記各文書に付与された作成時間情報に基づいて、前記時間区間ごとに、前記時間情報付文書集合の各文書が前記各クラスタに所属する度合いを集計し、
前記回帰分析部によって、前記時間区間ごとに、前記文書集計部の集計結果を説明変数とし、前記時系列データ集計部の集計結果を目的変数として、該説明変数と該目的変数との間の関係を表す回帰式を回帰分析により推計し、
前記成分比率算出部によって、前記回帰分析部により前記時間区間ごとに推計された回帰式の定数項及び回帰係数と、前記文書集計部による前記時間区間ごとの集計結果とを用いて、前記時間区間ごとの前記各クラスタの成分の比率を算出し、
前記成分分解部によって、前記時系列データに含まれる各観測値を、前記観測値の観測時間に対応する前記時間区間の前記成分比率算出部により算出された前記クラスタの成分の比率を用いて、前記各クラスタの成分に分解する
時系列データ成分分解方法。 A time-series data component decomposition method in a time-series data component decomposition apparatus including a time-series data aggregation unit, a document clustering unit, a document aggregation unit, a regression analysis unit, a component ratio calculation unit, a component ratio calculation unit, and a component decomposition unit ,
The time series data totaling unit aggregates each observation value included in the time series data, which is a series of observation values obtained by observing a temporal change in a phenomenon, for each predetermined time interval. And
A plurality of clusters obtained by performing clustering based on the contents of each document without using an external reference for the document set with time information, which is a set of documents to which creation time information is given, by the document clustering unit. And for each document, calculate the degree of belonging to each of the plurality of clusters,
Based on the degree of belonging to each cluster calculated by the document clustering unit and the creation time information given to each document by the document aggregation unit, the document set with time information is set for each time interval. Aggregate the degree to which each document belongs to each cluster,
By the regression analysis unit, for each time interval, the aggregation result of the document aggregation unit is an explanatory variable, and the aggregation result of the time series data aggregation unit is an objective variable, and the relationship between the explanatory variable and the objective variable The regression equation representing is estimated by regression analysis,
By using the constant term and regression coefficient of the regression equation estimated by the regression analysis unit for each time interval by the component ratio calculation unit, and the aggregation result for each time interval by the document aggregation unit, the time interval Calculating the proportion of each cluster component for each
By using the component ratio of the cluster calculated by the component ratio calculation unit of the time interval corresponding to the observation time of the observation value, each observation value included in the time series data by the component decomposition unit, A time-series data component decomposition method for decomposing into components of each cluster.
A computer-readable recording medium recording a program for causing a computer to function as each means of the time-series data component decomposition apparatus according to any one of claims 1 to 5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013030469A JP5937529B2 (en) | 2013-02-19 | 2013-02-19 | Time-series data component decomposition apparatus, method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013030469A JP5937529B2 (en) | 2013-02-19 | 2013-02-19 | Time-series data component decomposition apparatus, method, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014160358A true JP2014160358A (en) | 2014-09-04 |
JP5937529B2 JP5937529B2 (en) | 2016-06-22 |
Family
ID=51612008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013030469A Expired - Fee Related JP5937529B2 (en) | 2013-02-19 | 2013-02-19 | Time-series data component decomposition apparatus, method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5937529B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019036087A (en) * | 2017-08-14 | 2019-03-07 | ヤフー株式会社 | Generation device, method for generation, generation program, learning data, and model |
CN109949070A (en) * | 2019-01-28 | 2019-06-28 | 平安科技(深圳)有限公司 | Usage rate of the user appraisal procedure, device, computer equipment and storage medium |
US10831755B2 (en) | 2016-10-26 | 2020-11-10 | Seiko Epson Corporation | Data processing apparatus and data processing method |
-
2013
- 2013-02-19 JP JP2013030469A patent/JP5937529B2/en not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
JPN6016000185; 榊剛史、外1名: 'Twitterとソーシャルメディア-ソーシャルセンサは物理センサを凌駕するか?-' 人工知能学会誌 第27巻,第1号, 20120101, pp.67〜74, (社)人工知能学会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10831755B2 (en) | 2016-10-26 | 2020-11-10 | Seiko Epson Corporation | Data processing apparatus and data processing method |
JP2019036087A (en) * | 2017-08-14 | 2019-03-07 | ヤフー株式会社 | Generation device, method for generation, generation program, learning data, and model |
CN109949070A (en) * | 2019-01-28 | 2019-06-28 | 平安科技(深圳)有限公司 | Usage rate of the user appraisal procedure, device, computer equipment and storage medium |
CN109949070B (en) * | 2019-01-28 | 2024-03-26 | 平安科技(深圳)有限公司 | User viscosity evaluation method, device, computer equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP5937529B2 (en) | 2016-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Comparison of ARIMA and GM (1, 1) models for prediction of hepatitis B in China | |
Hu et al. | Generating business intelligence through social media analytics: Measuring brand personality with consumer-, employee-, and firm-generated content | |
Guille et al. | Information diffusion in online social networks: A survey | |
Keneshloo et al. | Predicting the popularity of news articles | |
Ahmed et al. | Detecting sentiment dynamics and clusters of Twitter users for trending topics in COVID-19 pandemic | |
Zhang et al. | Product information diffusion in a social network | |
CN103365867A (en) | Method and device for emotion analysis of user evaluation | |
Li et al. | Improving user attribute classification with text and social network attention | |
Hauthal et al. | Analyzing and visualizing emotional reactions expressed by emojis in location-based social media | |
Mahroum et al. | Public reaction to Chikungunya outbreaks in Italy—Insights from an extensive novel data streams-based structural equation modeling analysis | |
Al-Qurishi et al. | User profiling for big social media data using standing ovation model | |
Davahli et al. | Identification and prediction of human behavior through mining of unstructured textual data | |
JP5937529B2 (en) | Time-series data component decomposition apparatus, method, program, and recording medium | |
JP6289989B2 (en) | User emotion analysis apparatus and program for product | |
He et al. | Modeling online user behaviors with competitive interactions | |
Chávez et al. | A threshold GARCH model for Chilean economic uncertainty | |
Yang et al. | A network method for identifying the root cause of high-speed rail faults based on text data | |
JP2016162357A (en) | Analysis device and program of user's emotion to product | |
KR20090126862A (en) | System and method for analyzing emotional information from natural language sentence, and medium for storaging program for the same | |
Kwon et al. | ARIMAX and ARX Models with social media information to predict unemployment rate | |
Zhang et al. | A collaborative filtering recommendation system by unifying user similarity and item similarity | |
Gutierrez et al. | Sentiment-based user profiles in microblogging platforms | |
Pratama et al. | The addition symptoms parameter on sentiment analysis to measure public health concerns | |
Cherichi et al. | Big data analysis for event detection in microblogs | |
Wang et al. | Building consumer confidence index based on social media big data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160512 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5937529 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |