JP2015005086A - データ管理装置及びデータ分析装置 - Google Patents
データ管理装置及びデータ分析装置 Download PDFInfo
- Publication number
- JP2015005086A JP2015005086A JP2013129293A JP2013129293A JP2015005086A JP 2015005086 A JP2015005086 A JP 2015005086A JP 2013129293 A JP2013129293 A JP 2013129293A JP 2013129293 A JP2013129293 A JP 2013129293A JP 2015005086 A JP2015005086 A JP 2015005086A
- Authority
- JP
- Japan
- Prior art keywords
- training data
- target
- dimension
- variable dimension
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
Description
〔装置構成〕
図1は、第1実施形態におけるデータ管理装置10のハードウェア構成例を概念的に示す図である。第1実施形態におけるデータ管理装置10は、いわゆるコンピュータであり、相互にバスで接続される、CPU(Central Processing Unit)2、メモリ2、入出力インタフェース(I/F)3、通信装置4等を有する。メモリ2は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク、可搬型記憶媒体等である。
〔処理構成〕
図3は、第1実施形態におけるデータ管理装置10の処理構成例を概念的に示す図である。第1実施形態におけるデータ管理装置10は、サマリ取得部11、データ特定部12等を有する。これら各処理部は、例えば、CPU1によりメモリ2に格納されるプログラムが実行されることにより実現される。また、当該プログラムは、例えば、CD(Compact Disc)、メモリカード等のような可搬型記録媒体やネットワーク上の他のコンピュータから入出力I/F3を介してインストールされ、メモリ2に格納されてもよい。
次に、第1実施形態におけるデータ管理方法について図4を用いて説明する。図4は、第1実施形態におけるデータ管理装置10の動作例を示すフローチャートである。以下の説明では、データ管理装置10が各工程の実行主体となるが、データ管理装置10に含まれる上述の各処理部が実行主体となってもよい。
上述の第1実施形態では、訓練データ行列の同値変数次元を識別するサマリ情報が取得され、このサマリ情報に基づいて、パラメータベクトルの更新対象次元に対応する訓練データ行列の変数次元(対象変数次元)が同値変数次元であるか否かが判定される。この判定において、対象変数次元が同値変数次元である場合、全要素の値ではなく、その対象変数次元の代表値が特定される。そして、全要素の値の代わりにこの特定された代表値を用いて、パラメータベクトルの更新対象次元の更新差分を算出することができ、この算出された更新差分によりパラメータベクトルの各次元を順次更新し、最終的に、目的関数を最適化することができる。
第2実施形態は、訓練データ行列を区分けして得られる複数の部分行列が用いられる点で、第1実施形態と異なる。以下、第2実施形態におけるデータ管理装置10及びデータ管理方法について、第1実施形態と異なる内容を中心に説明する。以下の説明では、第1実施形態と同様の内容については適宜省略する。
図5は、第2実施形態におけるデータ管理装置10の処理構成例を概念的に示す図である。第2実施形態におけるデータ管理装置10は、第1実施形態の構成に加えて、区分取得部13を更に有する。区分取得部13についても、他の処理部と同様に実現される。
〔動作例〕
次に、第2実施形態におけるデータ管理方法について図7を用いて説明する。図7は、第2実施形態におけるデータ管理装置10の動作例を示すフローチャートである。以下の説明では、データ管理装置10が各工程の実行主体となるが、データ管理装置10に含まれる上述の各処理部が実行主体となってもよい。
上述のように、第2実施形態では、区分情報に基づいて、訓練データ行列が区分けされてなる複数の部分行列の中から、パラメータベクトルの更新対象次元に対応する対象変数次元を持つ対象部分行列が選択され、サマリ情報に基づいて、対象部分行列の対象変数次元が同値変数次元であるか否かが判定される。この判定により、各対象部分行列から、対象変数次元の全要素の値か、又は、それに代わる代表値がそれぞれ特定される。この特定された訓練データを用いれば、パラメータベクトルの更新対象次元の更新差分を算出することができる。
図8は、第3実施形態における最適化システム50の構成を概念的に示す図である。最適化システム50は、図8に示されるように、データ管理装置10、データ分析装置20、データ格納装置30等を有する。データ管理装置10は、上述の第2実施形態におけるデータ管理装置10に対応する。以下、第3実施形態における最適化システム50について、第1実施形態及び第2実施形態と異なる内容を中心に説明する。以下の説明では、第1実施形態及び第2実施形態と同様の内容については適宜省略する。
データ分析装置20及びデータ格納装置30は、いわゆるコンピュータであり、上述の各実施形態におけるデータ管理装置10と同様のハードウェア構成を有する。データ分析装置20及びデータ格納装置30のハードウェア構成は制限されない。
〈データ格納装置〉
図9は、データ格納装置30の格納部を概念的に示す図である。データ格納装置30は、図9に示されるように、訓練データ格納部31、関連情報格納部32等を有する。これら格納部は、メモリ2上に実現される。
関連情報格納部32は、ブロックサマリテーブルを持つ。ブロックサマリテーブルは、上述のサマリ情報及び区分情報を格納する。以降、訓練データ行列が区分けされて形成される複数の部分行列の各々はブロックと表記される場合もある。関連情報格納部32は、ブロックサマリテーブルと共に、各部分行列(ブロック)をそれぞれ格納する複数のブロックテーブルを格納してもよい。
図11は、第3実施形態におけるデータ管理装置10の処理構成例を概念的に示す図である。第3実施形態におけるデータ管理装置10は、第2実施形態の構成に加えて、データ割当部15及び初期値計算部16を更に有する。データ割当部15及び初期値計算部16についても、他の処理部と同様に実現される。
図12は、データ分析装置20の処理構成例を概念的に示す図である。データ分析装置20は、初期値格納部21、パラメータ格納部22、訓練データキュー23、キュー管理部25、最適化処理部26等を有する。これら各処理部は、例えば、CPU1によりメモリ2に格納されるプログラムが実行されることにより実現される。
パラメータ格納部22は、パラメータベクトルのような更新される変数を保持する。
次に、第3実施形態におけるデータ管理方法及び最適化方法について図13、図14及び図15を用いて説明する。図13及び図14は、第3実施形態におけるデータ管理装置10の動作例を示すフローチャートである。図15は、第3実施形態におけるデータ分析装置20の動作例を示すフローチャートである。以下の説明では、データ管理装置10又はデータ分析装置20が各工程の実行主体となるが、データ管理装置10及びデータ分析装置20に含まれる上述の各処理部が実行主体となってもよい。
まず、データ管理装置10は、データ格納装置30の関連情報格納部32からブロックサマリテーブルのデータを取得する(S141)。この工程(S141)は、図7に示される(S71)及び(S72)に相当する。データ管理装置10は、取得されたブロックサマリテーブルで示される少なくとも区分情報をデータ分析装置20の訓練データキュー23に格納する。
データ分析装置20は、パラメータベクトルの更新対象次元を決定する(S161)。データ分析装置20は、更新対象次元の全ての実行順を決め、その実行順に応じて、1つの更新対象次元を決定する。データ分析装置20は、その順序情報をデータ管理装置10に通知する。また、データ分析装置20は、1つの更新対象次元を決める度に、決定された更新対象次元をデータ管理装置10に通知するようにしてもよい。この通知に伴う、図14に示されるデータ管理装置10の動作により、データ分析装置20の訓練データキュー23に訓練データが格納される。
上述のように、第3実施形態では、区分情報及びサマリ情報がデータ管理装置10により生成され、訓練データキュー23の空き状況に応じて、第2実施形態と同様に特定された訓練データがデータ管理装置10からデータ分析装置20に送られる。データ分析装置20の訓練データキュー23には、対応するブロックの識別情報と関連付けられた訓練データ及び区分情報が格納される。データ分析装置20では、訓練データキュー23に格納される区分情報に基づいて、パラメータベクトルの更新対象次元に対応する対象ブロックが選択され、その対象ブロックに関連付けられた訓練データが特定される。そして、その訓練データが代表値であれば、複数要素の値に代えてその代表値を用いて、更新差分が算出され、その訓練データが代表値でなければ、複数要素の値を用いて、更新差分が算出される。
上述の第1実施形態及び第2実施形態では、最適化処理を行う処理部については言及されていなかったが、データ管理装置10が、データ特定部12により特定された訓練データを用いて、目的関数の最適化を行うデータ分析装置として動作してもよい。この場合、データ管理装置10は、訓練データ行列又は対象部分行列における、対象変数次元の全要素の値を取得するか、及び、対象変数次元の代表値を取得するかのいずれか一方を決定するデータ決定部と、データ決定部の決定に応じて、訓練データ行列又は対象部分行列における対象変数次元の全要素の値の代わりに対象変数次元の代表値を用いて、パラメータベクトルの更新対象次元の更新差分を算出する最適化処理部とを更に有してもよい。
図17は、図16に示される訓練データ行列に基づいて生成されたブロックサマリテーブルの例を示す図である。図17の例によれば、ソート後の訓練データ行列から生成されたブロックサマリテーブルのほうが、元の訓練データ行列から生成されたものよりも、同値変数次元の数が2個から6個に増加していることが分かる。
2 メモリ
10 データ管理装置
11 サマリ取得部
12 データ特定部
13 区分取得部
15 データ割当部
16 初期値計算部
20 データ分析装置
21 初期値格納部
22 パラメータ格納部
23 訓練データキュー
25 キュー管理部
26 最適化処理部
30 データ格納装置
31 訓練データ格納部
32 関連情報格納部
50 最適化システム
Claims (17)
- n次元(nは2以上の整数)の変数ベクトル及びパラメータベクトルを少なくとも含む目的関数の最適化に利用される訓練データ行列であって、該変数ベクトルに設定される値パターンである該n次元の訓練データベクトルを複数パターン含む訓練データ行列を管理するデータ管理装置において、
前記訓練データ行列内の変数次元成分における全要素の値が同じである同値変数次元を識別するサマリ情報を取得するサマリ取得部と、
前記サマリ情報を用いて、前記訓練データ行列における、前記パラメータベクトルの更新対象次元に対応する対象変数次元が前記同値変数次元か否かを判定し、該判定結果に基づいて、前記訓練データ行列の該対象変数次元の全要素の値の代わりに該対象変数次元の代表値を、前記パラメータベクトルの該更新対象次元の更新差分の算出のための訓練データとして特定するデータ特定部と、
を備えるデータ管理装置。 - 前記訓練データ行列が複数の部分行列に区分けされることを示す区分情報を取得する区分取得部、
を更に備え、
前記サマリ取得部は、前記区分情報で特定される前記複数の部分行列の各々について、部分行列内の前記同値変数次元をそれぞれ識別する前記サマリ情報を取得し、
前記データ特定部は、前記区分情報を用いて、前記複数の部分行列の中から、前記パラメータベクトルの前記更新対象次元に対応する前記対象変数次元を含む対象部分行列を選択し、前記サマリ情報を用いて、該対象部分行列に含まれる前記対象変数次元が前記同値変数次元か否かを判定し、該判定結果に基づいて、該対象部分行列の前記対象変数次元の全要素の値の代わりに前記対象変数次元の代表値を、前記パラメータベクトルの前記更新対象次元の更新差分の算出のための訓練データとして特定する、
請求項1に記載のデータ管理装置。 - 前記区分取得部は、前記訓練データ行列の少なくとも1つの区分けラインを決定し、かつ、該区分けラインに基づいて、前記各部分行列の前記訓練データ行列内の位置をそれぞれ示す前記区分情報を生成し、
前記サマリ取得部は、前記区分情報で特定される前記複数の部分行列の各々から前記同値変数次元をそれぞれ検出し、前記各部分行列に含まれる変数次元毎に前記同値変数次元か否かを示す前記サマリ情報を生成する、
請求項2に記載のデータ管理装置。 - 前記区分取得部は、前記区分けラインの決定前に、前記訓練データ行列内の前記訓練データベクトルの並びを変更する、
請求項3に記載のデータ管理装置。 - 前記区分取得部は、前記訓練データ行列内の前記訓練データベクトル毎に、所定指標に基づくスコアを付与し、該スコアを用いて、前記訓練データ行列内の前記訓練データベクトルの並びを変更する、
請求項4に記載のデータ管理装置。 - 前記サマリ取得部は、前記サマリ情報に、前記同値変数次元成分の前記代表値を含める、
請求項3から5のいずれか1項に記載のデータ管理装置。 - 請求項1から6のいずれか1項に記載のデータ管理装置で管理される前記訓練データ行列を用いて、前記目的関数の最適化を行うデータ分析装置において、
前記訓練データ行列又は前記対象部分行列における、前記対象変数次元の全要素の値を用いるか、及び、前記対象変数次元の代表値を用いるかのいずれか一方を決定するデータ決定部と、
前記データ決定部の決定に応じて、前記訓練データ行列又は前記対象部分行列における前記対象変数次元の全要素の値の代わりに前記対象変数次元の代表値を用いて、前記パラメータベクトルの前記更新対象次元の更新差分を算出する最適化処理部と、
を備えるデータ分析装置。 - 前記データ決定部は、前記サマリ情報を用いて前記決定を行う、
請求項7に記載のデータ分析装置。 - n次元(nは2以上の整数)の変数ベクトル及びパラメータベクトルを少なくとも含む目的関数の最適化に利用される訓練データ行列であって、該変数ベクトルに設定される値パターンである該n次元の訓練データベクトルを複数パターン含む訓練データ行列を管理するデータ管理方法において、
前記訓練データ行列内の変数次元成分における全要素の値が同じである同値変数次元を識別するサマリ情報を取得し、
前記サマリ情報を用いて、前記訓練データ行列における、前記パラメータベクトルの更新対象次元に対応する対象変数次元が前記同値変数次元か否かを判定し、
前記判定結果に基づいて、前記訓練データ行列の前記対象変数次元の全ての値の代わりに前記対象変数次元の代表値を、前記パラメータベクトルの前記更新対象次元の更新差分の算出のための訓練データとして特定する、
ことを含むデータ管理方法。 - 前記訓練データ行列が複数の部分行列に区分けされることを示す区分情報を取得し、
前記区分情報を用いて、前記複数の部分行列の中から、前記パラメータベクトルの前記更新対象次元に対応する対象変数次元を含む対象部分行列を選択する、
ことを更に含み、
前記サマリ情報の取得は、前記区分情報で特定される前記複数の部分行列の各々について、部分行列内の前記同値変数次元をそれぞれ識別する前記サマリ情報を取得し、
前記同値変数次元の判定は、前記サマリ情報を用いて、前記対象部分行列に含まれる前記対象変数次元が前記同値変数次元か否かを判定し、
前記訓練データの特定は、前記判定結果に基づいて、前記対象部分行列の前記対象変数次元の全要素の値の代わりに前記対象変数次元の代表値を、前記パラメータベクトルの前記更新対象次元の更新差分の算出のための訓練データとして特定する、
請求項9に記載のデータ管理方法。 - 前記訓練データ行列の少なくとも1つの区分けラインを決定し、
前記区分けラインに基づいて、前記各部分行列の前記訓練データ行列内の位置をそれぞれ示す前記区分情報を生成し、
前記区分情報で特定される前記複数の部分行列の各々から前記同値変数次元をそれぞれ検出し、
前記各部分行列に含まれる変数次元毎に前記同値変数次元か否かを示す前記サマリ情報を生成する、
ことを更に含む請求項10に記載のデータ管理方法。 - 前記区分けラインの決定前に、前記訓練データ行列内の前記訓練データベクトルの並びを変更する、
ことを更に含む請求項11に記載のデータ管理方法。 - 前記並びの変更は、前記訓練データ行列内の前記訓練データベクトル毎に、所定指標に基づくスコアを付与し、該スコアを用いて、前記訓練データ行列内の前記訓練データベクトルの並びを変更する、
請求項12に記載のデータ管理方法。 - 前記サマリ情報に、前記同値変数次元成分の前記代表値を含める、
ことを更に含む請求項11から13のいずれか1項に記載のデータ管理方法。 - 請求項9から14のいずれか1項に記載のデータ管理方法で管理される前記訓練データ行列を用いて、前記目的関数の最適化を行うデータ分析方法において、
前記訓練データ行列又は前記対象部分行列における、前記対象変数次元の全要素の値を用いるか、及び、前記対象変数次元の代表値を用いるかのいずれか一方を決定し、
前記決定に応じて、前記訓練データ行列又は前記対象部分行列における前記対象変数次元の全要素の値の代わりに前記対象変数次元の代表値を用いて、前記パラメータベクトルの前記更新対象次元の更新差分を算出する、
ことを含むデータ分析方法。 - 前記決定は、前記サマリ情報を用いて行う、
請求項15に記載のデータ分析方法。 - 請求項9から14のいずれか1項に記載のデータ管理方法、及び、請求項15又は16に記載のデータ分析方法の少なくとも一方を少なくとも一つのコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013129293A JP6217164B2 (ja) | 2013-06-20 | 2013-06-20 | データ管理装置及びデータ分析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013129293A JP6217164B2 (ja) | 2013-06-20 | 2013-06-20 | データ管理装置及びデータ分析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015005086A true JP2015005086A (ja) | 2015-01-08 |
JP6217164B2 JP6217164B2 (ja) | 2017-10-25 |
Family
ID=52300948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013129293A Active JP6217164B2 (ja) | 2013-06-20 | 2013-06-20 | データ管理装置及びデータ分析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6217164B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180080111A (ko) * | 2017-01-03 | 2018-07-11 | 한국전자통신연구원 | 자가 학습을 위한 데이터 메타 스케일링 장치 및 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004326465A (ja) * | 2003-04-24 | 2004-11-18 | Matsushita Electric Ind Co Ltd | 文書分類用の学習装置、及びこれを用いた文書分類方法並びに文書分類装置 |
JP2010128673A (ja) * | 2008-11-26 | 2010-06-10 | Nec Corp | コンピュータネットワーク、異常検出特定装置、異常検出特定方法およびそのプログラム |
JP2011227758A (ja) * | 2010-04-21 | 2011-11-10 | Sony Corp | 情報処理装置、情報処理方法及びプログラム |
-
2013
- 2013-06-20 JP JP2013129293A patent/JP6217164B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004326465A (ja) * | 2003-04-24 | 2004-11-18 | Matsushita Electric Ind Co Ltd | 文書分類用の学習装置、及びこれを用いた文書分類方法並びに文書分類装置 |
JP2010128673A (ja) * | 2008-11-26 | 2010-06-10 | Nec Corp | コンピュータネットワーク、異常検出特定装置、異常検出特定方法およびそのプログラム |
JP2011227758A (ja) * | 2010-04-21 | 2011-11-10 | Sony Corp | 情報処理装置、情報処理方法及びプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180080111A (ko) * | 2017-01-03 | 2018-07-11 | 한국전자통신연구원 | 자가 학습을 위한 데이터 메타 스케일링 장치 및 방법 |
KR102470145B1 (ko) | 2017-01-03 | 2022-11-24 | 한국전자통신연구원 | 자가 학습을 위한 데이터 메타 스케일링 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP6217164B2 (ja) | 2017-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Damle et al. | Simple, direct and efficient multi-way spectral clustering | |
Ferranti et al. | A distributed approach to multi-objective evolutionary generation of fuzzy rule-based classifiers from big data | |
JP6167767B2 (ja) | インデックス生成装置及び検索装置 | |
Liu et al. | Integration of improved predictive model and adaptive differential evolution based dynamic multi-objective evolutionary optimization algorithm | |
Meera et al. | Retracted article: a hybrid metaheuristic approach for efficient feature selection methods in big data | |
Tan et al. | Phased searching with NEAT in a time-scaled framework: experiments on a computer-aided detection system for lung nodules | |
Liang et al. | Image feature selection using genetic programming for figure-ground segmentation | |
Bai et al. | Bi-level graph neural networks for drug-drug interaction prediction | |
Shehab et al. | Toward feature selection in big data preprocessing based on hybrid cloud-based model | |
Walker et al. | Parallel evolution using multi-chromosome cartesian genetic programming | |
JP6201556B2 (ja) | 予測モデル学習装置、予測モデル学習方法およびコンピュータプログラム | |
CN117616431A (zh) | 针对大规模数据的可解释的机器学习 | |
JP6217164B2 (ja) | データ管理装置及びデータ分析装置 | |
JP3995099B2 (ja) | 高次元データを塊に分割する装置 | |
Clergue et al. | An iterated local search to find many solutions of the 6-states firing squad synchronization problem | |
Zhang et al. | Quadratic graph attention network (Q-GAT) for robust construction of gene regulatory networks | |
US11676050B2 (en) | Systems and methods for neighbor frequency aggregation of parametric probability distributions with decision trees using leaf nodes | |
JP2022081412A (ja) | ネットワーク・ノードのクラスタリング | |
Huo et al. | Sparse embedding for interpretable hospital admission prediction | |
JP5600694B2 (ja) | クラスタリング装置及び方法及びプログラム | |
Wang et al. | Parallel ordinal decision tree algorithm and its implementation in framework of MapReduce | |
Bouaguel et al. | Distributed Evolutionary Feature Selection for Big Data Processing | |
Gárate-Escamilla et al. | Big data execution time based on Spark Machine Learning Libraries | |
Fonseca et al. | A genetic algorithm assisted by a locally weighted regression surrogate model | |
Nazem et al. | A GU-Net-Based Architecture Predicting Ligand–Protein-Binding Atoms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160512 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170321 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170829 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170911 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6217164 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |