JP7402359B1 - 表形式データ生成システム - Google Patents
表形式データ生成システム Download PDFInfo
- Publication number
- JP7402359B1 JP7402359B1 JP2023011550A JP2023011550A JP7402359B1 JP 7402359 B1 JP7402359 B1 JP 7402359B1 JP 2023011550 A JP2023011550 A JP 2023011550A JP 2023011550 A JP2023011550 A JP 2023011550A JP 7402359 B1 JP7402359 B1 JP 7402359B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- column
- tabular
- pseudo
- tabular data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000010586 diagram Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 32
- 238000011157 data evaluation Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 description 19
- 238000009826 distribution Methods 0.000 description 19
- 238000004458 analytical method Methods 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
例えば、多数の企業の財務データ等に基づき統計モデルを生成し、これに特定企業の同種データを適用することにより、当該企業が所定期間内に休廃業する確率を算出する技術が存在しているが(特許文献1)、統計モデル生成の基礎となる財務データは典型的な表形式データといえる。
(1) データ不足の問題
専門性が高く収集コストの嵩むデータについては、慢性的なデータ不足の問題が生じている。
(2) 機密性保持の問題
データの中には個人情報や社外秘情報が含まれている可能性があり、これらを利用することによるリスクが懸念されている。
(3) 低品質データの問題
データ収集時に欠損や誤情報の混入が生じるリスクが常に存在している。
(4) 不均衡データの問題
分類問題などでは、データのクラスが不均衡となるケースがある。例えば、存続企業に係るデータは豊富に入手できるのに対し、倒産企業に係るデータは絶対的に不足しており、大きな偏りが生じている。
また、実在表形式データ記憶部11、学習データ記憶部14、メタデータ記憶部16、疑似データ記憶部24、識別結果記憶部28、疑似表形式データ記憶部32は、同コンピュータの記憶装置内に設けられている。
データ生成部22及びデータ識別部26は、ニューラルネットワークよりなる人工知能(AI)であり、いわゆる敵対的生成ネットワーク(Generative Adversarial Network/GAN)の「Generator」及び「Discriminator」として機能する。
まず、入力側データ変換部12によって、実在表形式データ記憶部11内に格納された実在の表形式データ36が読み込まれる(S10)。
ここで「表形式データ」とは、列と行の二つの属性に対して一つの値(連続値)が割り当てられている構造のデータを指している。
図3(a)は、表形式データ36の一例を示しており、A、B2つの列を備えた表形式データが示されている。値として記載された「a1」、「b1」「a2」、「b2」などには、実際には具体的な数値が充填されている。
ここで「表クラスタ番号」とは、表全体における各行の属するクラスタの番号を意味しており、入力側データ変換部12は各行に対して変分推論による混合正規分布モデルのクラスタリングを実行することにより、クラスタ番号を特定する。
この際、最も確率の高いクラスタの番号を単純に選択するのではなく、所属確率の高い所定数のクラスタを絞り込んだ上で、その中からランダム抽出によって一のクラスタ番号を特定することが望ましい。
図4の例でいえば、(1)~(10)の10個の正規分布の中から点Aの所属する可能性の高いクラスタとして(1)~(3)に絞り込んだ後に、ランダム抽出で一のクラスタを選択することが該当する。
なお、発生させる正規分布の数については一定の上限(例えば10個)が設けられているが、入力側データ変換部12はその範囲内で最適な数を推定しながらクラスタリングを実行する。
ここで「列クラスタ番号」とは、各値が属する列においてそれぞれが属するクラスタの番号を意味しており、上記と同様、入力側データ変換部12は各値に対して混合正規分布モデルのクラスタリングを実行することにより、クラスタ番号を特定する。
図5(a)においては、「a4-『2』」や「b4-『2』」のように各値にハイフン付きの数字が追加されているが、これが列クラスタ番号に相当する。
一般に、ニューラルネットワークを使用する際には値を標準化することが推奨されている。これは、データのスケールによってニューラルネットワーク内での重要性が変わるため、スケールを調整する必要があることから実施されている。
ただし、通常は列毎に標準化するところを、この発明では列毎のクラスタ単位で標準化を行う点に特徴がある。これは、マルチモーダル(多峰性)を考慮した結果である。
つぎに入力側データ変換部12は、図5(c)に示すように、各小表を横方向に並べて横結合する(S20)。
各行を小表化して横結合する理由については、後述する。
条件ベクトルは、各値の特性を0または1の組み合わせからなるOne-hotベクトルで表現したものよりなり、列単位のクラスタ番号が「1」の場合には「0,1」で表現され、列単位のクラスタ番号が「2」の場合には「1,0」で表現されている。
ここでは説明の便宜上、列単位のクラスタ番号が1か2に単純化されているため、条件ベクトルの桁数が2桁となっているが、例えば列のクラスタ番号が1~10まで存在する場合には、条件ベクトルの桁数も10となる。
仮に、小表化及び横結合をすることなく、図5(a)の状態のデータに条件ベクトルを付与するとなると、図6(b)に示すように、表クラスタ番号についても「1,0」で表現する必要が生じ、その分、条件ベクトルの桁数が増加して計算コストが嵩むこととなる。
このため、上記のように各行を表クラスタ番号単位で小表化し、それぞれを横結合して恰も別の列のごとく表現することにより、各値の条件ベクトルの桁数を節約している。
ここでメタデータとは、学習完了後の疑似データを表形式に戻す際に参照されるデータであり、図7に示すように、「(1) カラム名」、「(2) クラスタリングのモデル」、「(3) 列クラスタ番号」、「(4) クラス番号」、「(5) 表クラスタ番号」、「(6) 学習データ全体中の頻度」、「(7) 値と条件ベクトルを分けるキー群」、「(8) 列と認識するためのベクトルの長さ」のデータ項目を備えている。
また、メタデータは所定の順番(例えば最左小表の最左列から最右小表の最右列へと向かう順番)に従って生成される。このため、学習完了後の疑似データに対しても、同じ順番(位置)に従って参照すべきメタデータが特定される。
この疑似データ生成工程自体は、従来の条件付きGAN(Conditional GAN)の手順と基本的に同じであるが、以下に図8のフローチャートに従い簡潔に説明する。
つぎに、学習処理部18の指令に基づき、ノイズ生成部20によってランダムノイズが生成され、データ生成部22に出力される(S32)。
データ生成部22は、このランダムノイズを種として疑似データを生成し、疑似データ記憶部24に格納する(S34)。
つぎに、学習処理部18によって学習データと疑似データがデータ識別部26に交互に投入される(S36)。
つぎに、学習処理部18がデータ識別部26による識別結果の正誤について評価し(S40)、その評価結果(ロス率)に基づいてデータ識別部26のパラメータを更新する(S42)。
これに対しデータ識別部26は、入力された各データについて真(1)か偽(0)かを再判定し、その結果を識別結果記憶部28に格納する(S46)。
つぎに、学習処理部18がデータ識別部26による識別結果の正誤について再評価し(S48)、その評価結果に基づいてデータ生成部22のパラメータを更新する(S50)。
また学習処理部18は、全学習データについてS30~S50の処理が完了した後、同じことを所定のエポック数分繰り返した後、学習工程を停止させる。
以下、図9のフローチャートに従い、この変換処理について説明する。
つぎに、出力側データ変換部30はメタデータ記憶部16に格納された対応のメタデータを参照し、疑似データの値と条件ベクトルを識別する(S52)。
すなわち、図10(a)に示す通り、生成された疑似データは値と条件ベクトルが混在した状態であり、人間にとっては無秩序な数値の連続に見える。
そこで出力側データ変換部30は、メタデータの「(7) 値と条件ベクトルを分けるキー群」を参照し、図10(b)に示すように、値の部分と条件ベクトルの部分を識別する。
因みに、「(7) 値と条件ベクトルを分けるキー群」には、以下のように充填されている要素の種類と数が定義されている。
[値:1]、[条件ベクトル:2]
つぎに出力側データ変換部30は、図10(d)に示すように、メタデータの「(5) 表クラスタ番号」を参照し、疑似データの値の部分を表クラスタ番号毎に分離し、小表化する(S58)。
このため出力側データ変換部30は、図11(b)に示すように、余剰データを削除する(S60)。余剰データの範囲については、出力側データ変換部30がメタデータの「(6) 学習データ全体中の頻度」を参照し、各表クラスタがどの程度の割合かに基づいて判断する。
また、削除するとは言っても、ある値以降を一律に除去するのではなく、必要な数だけデータをランダムに抽出し、残りのデータを破棄することによって数の調整がなされる。
つぎに出力側データ変換部30は、図12に示すように、各列にカラム名を付与して疑似表形式データ38を生成し、疑似表形式データ記憶部32に格納する(S64)。
まず図13(a)は、X列及びY列の2列よりなる実在表形式データ36の値を、表形式データ評価部34がXYの座標平面上にそのままプロットし、ディスプレイ40またはプリンタ42を介して出力した結果を示している。
図示の通り、座標平面上には二つの三日月状の図形が上下に組み合わされている様子が描かれている。
図示の通り、個々の三日月形状には若干の崩れが生じているとはいえ、全体的なイメージとしてはかなりの再現性が認められる。
図より明らかなように、既存の技術を用いた場合、元の表形式データの特徴が全く再現されていない。
図14(a)は、列1、列2、列3の3つの列を備えた実在表形式データ36を示しており、図14(b)は、表形式データ評価部34によって描画された実在表形式データ36の分析シート50を示している。
マス(1):列1に属する各値の分布状況を示すヒストグラム。
マス(2):列1に属する値をX軸に、列2に属する対応の値をY軸にプロットした場合の分布状態を示す散布図。
マス(3):列1に属する値をX軸に、列3に属する対応の値をY軸にプロットした場合の分布状態を示す散布図。
マス(4):列2に属する値をX軸に、列1に属する対応の値をY軸にプロットした場合の分布状態を示す散布図。
マス(5):列2に属する各値の分布状況を示すヒストグラム。
マス(6):列2に属する値をX軸に、列3に属する対応の値をY軸にプロットした場合の分布状態を示す散布図。
マス(7):列3に属する値をX軸に、列1に属する対応の値をY軸にプロットした場合の分布状態を示す散布図。
マス(8):列3に属する値をX軸に、列2に属する対応の値をY軸にプロットした場合の分布状態を示す散布図。
マス(9):列3に属する各値の分布状況を示すヒストグラム。
このように、3列以上の表形式データであっても、2列単位で値を組み合わせ、それぞれをXY平面状に配置することにより、列間の関連性を二次元的な図形とし視覚的に表現することが可能となる。
また図14(d)は、表形式データ評価部34によって描画された疑似表形式データ38の分析シート52を示している。
ここで両分析シートを比較すると、各マスに描画された図形は比較的類似していることが視覚的に認識でき、実在表形式データ36の特徴が疑似表形式データ38においてうまく再現されていることが理解できる。
すなわち、図15(c)は、図15(a)の実在表形式データ36(図14(a)の実在表形式データ36と同じもの)から学習データを生成し、これに基づいてCTGANによる学習を行って生成した疑似データを、出力側データ変換部30が疑似表形式データ54に整形したものを示している(図中の「*」には、実際には具体的な数値が充填されている)。
また図15(d)は、表形式データ評価部34によって描画された疑似表形式データ54の分析シート56を示している。
ここで両分析シートのマス(1)、マス(5)、マス(9)を比較すると、各値の列毎の分布状況については良く再現されていることがわかる。
一方、残りのマス同士を比較すると、両者間には描かれた図形の形状や寸法、数、配置に大きな隔たりがあり、列間の関連性がうまく再現されていないことが一目で理解できる。
これに対し本発明では、列間の関連性を表クラスタ番号として表現し、GANによる学習工程に反映させる仕組みを備えているため、実在表形式データ36の特徴をうまく捉えた疑似表形式データ38の生成に成功している。
これに対し、この発明では表形式データを構成する各列の値をX軸あるいはY軸の値と見立てて座標平面上にプロットするという発想により、上記のように表形式データの特徴を視覚的に表現可能としている。
この場合、図16(a)に示すように、実在表形式データ36の各行に予めクラス番号を設定し、それぞれの所属クラスを明示しておくことにより、クラスを列間の関連性の一部として組み込むことができる。
この後、図示は省略するが、以下の処理が実行されてクラス番号付きの疑似表形式データ38が生成される。
(1) 入力側データ変換部12が、クラス付きの表形式データ36の各値に対して、列クラスタ番号を付与する。
(2) 入力側データ変換部12が、各行を「クラス番号×表クラスタ番号」毎に集約した上で分離し、小表化する。
(3) 入力側データ変換部12が、各小表を横方向に並べて横結合する。
(4) 入力側データ変換部12が、各値に条件ベクトルを付与して学習データを生成する。
(5) 入力側データ変換部12が、メタデータを生成する。
このメタデータは、上記のように「列クラスタ番号×クラス番号×表クラスタ番号」単位で生成される。
(6) 学習データを基に、データ識別部26との競合を通じて学習したデータ生成部22により、疑似データが生成される。
(7) 出力側データ変換部30が、メタデータを参照することにより、疑似データを疑似表形式データ38に変換する。
この際、出力側データ変換部30はメタデータ中のクラス番号に基づき、各行に対応のクラス番号を付与する。
11 実在表形式データ記憶部
12 入力側データ変換部
14 学習データ記憶部
16 メタデータ記憶部
18 学習処理部
20 ノイズ生成部
22 データ生成部
24 疑似データ記憶部
26 データ識別部
28 識別結果記憶部
30 出力側データ変換部
32 疑似表形式データ記憶部
34 表形式データ評価部
36 実在表形式データ
38 疑似表形式データ
40 ディスプレイ
42 プリンタ
50 実在表形式データの分析シート
52 本発明による疑似表形式データの分析シート
54 従来のCTGANによる疑似表形式データ
56 従来のCTGANによる疑似表形式データの分析シート
Claims (4)
- 実在表形式データを読み込み、学習データ及びメタデータを生成する入力側データ変換手段と、
入力されたランダムノイズを素に疑似データを生成するデータ生成手段と、
上記学習データ及び疑似データの入力を受け付けて、それぞれの真偽を判定するデータ識別手段と、
上記判定結果に基づいて上記データ識別手段及びデータ生成手段のパラメータを更新する学習処理手段と、
上記のパラメータ更新を所定回数繰り返した後に、上記データ生成手段によって生成された疑似データを、上記メタデータを参照して表形式データに成形する出力側データ変換手段とを備え、
上記メタデータには、カラム名、列クラスタ番号、表クラスタ番号、値と条件ベクトルを分けるキー群、列と認識するためのベクトルの長さが列クラスタ番号×表クラスタ番号毎に格納されており、
上記入力側データ変換手段は、実在表形式データを構成する各行の表全体におけるクラスタを特定し、表クラスタ番号を各行に付与する処理と、
各値の列中におけるクラスタを特定し、列クラスタ番号を各値に付与する処理と、
各行を表クラスタ毎に分離して小表化し、各小表を横方向に連結する処理と、
列クラスタ番号に対応した条件ベクトルを各値に付与し、学習データとなす処理を実行し、
上記出力側データ変換手段は、上記疑似データを値の部分と条件ベクトルの部分に区画する処理と、
各値の条件ベクトルを削除する処理と、
疑似データを表クラスタ番号毎に分離して小表化し、各小表を縦方向に連結する処理と、
各列にカラム名を付与して疑似表形式データとなす処理を実行することを特徴とする表形式データ生成システム。 - 上記入力側データ変換手段は、上記実在表形式データの各行に分類属性を特定するクラス番号が設定されている場合に、各行を表クラスタ番号×クラス番号毎に分離して小表化し、各小表を横方向に連結すると共に、クラス番号を含むメタデータをクラス番号×列クラスタ番号×表クラスタ番号単位で生成し、
上記出力側データ変換手段は、上記メタデータを参照して各行にクラス番号を付与することを特徴とする請求項1に記載の表形式データ生成システム。 - 上記メタデータに学習データ全体中の頻度が格納されており、
上記出力側データ変換手段は、この学習データ全体中の頻度を参照し、疑似データの件数を調整することを特徴とする請求項1または2に記載の表形式データ生成システム。 - 表形式データ評価手段を備え、
この表形式データ評価手段は、上記実在表形式データの各列の値を2列毎に組み合わせ、それぞれをX軸及びY軸の何れかの値として座標平面にプロットすることにより、複数の点の集合である散布図を生成し、外部に出力する処理と、
上記疑似表形式データの各列の値を2列毎に組み合わせ、それぞれをX軸及びY軸の何れかの値として座標平面にプロットすることにより、複数の点の集合である散布図を生成し、外部に出力する処理を実行することを特徴とする請求項1または2に記載の表形式データ生成システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023011550A JP7402359B1 (ja) | 2023-01-30 | 2023-01-30 | 表形式データ生成システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023011550A JP7402359B1 (ja) | 2023-01-30 | 2023-01-30 | 表形式データ生成システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7402359B1 true JP7402359B1 (ja) | 2023-12-20 |
Family
ID=89190312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023011550A Active JP7402359B1 (ja) | 2023-01-30 | 2023-01-30 | 表形式データ生成システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7402359B1 (ja) |
-
2023
- 2023-01-30 JP JP2023011550A patent/JP7402359B1/ja active Active
Non-Patent Citations (2)
Title |
---|
AN, Chunsheng et al.,"A K-means Improved CTGAN Oversampling Method for Data Imbalance Problem",2021 IEEE 21st International Conference on Software Quality, Reliability and Security (QRS) [online],IEEE,2022年03月,[2023年09月20日検索],インターネット<URL:https://ieeexplore.ieee.org/document/9724741>,DOI: 10.1109/QRS54544.2021.00097 |
XU, Lei et al.,"Modeling Tabular Data using Conditional GAN",33rd Conference on Neural Information Processing Systems (NeurIPS 2019) [online],arXiv,2019年10月,[2023年09月25日検索],インターネット<URL:https://arxiv.org/abs/1907.00503v2>,1907.00503v2 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005038386A (ja) | 文章分類装置および方法 | |
JP3038521B2 (ja) | 製品図面作成装置 | |
US9202314B2 (en) | Hexahedral mesh generator | |
CN111950622A (zh) | 基于人工智能的行为预测方法、装置、终端及存储介质 | |
CN111768096A (zh) | 基于算法模型的评级方法、装置、电子设备及存储介质 | |
CN111046283A (zh) | 特征选择方法、装置、设备及存储介质 | |
CN109102468A (zh) | 图像增强方法、装置、终端设备及存储介质 | |
JP7402359B1 (ja) | 表形式データ生成システム | |
CN106469141B (zh) | 一种基于Excel和TeamCenter的ECN检查方法 | |
CN110647461A (zh) | 多信息融合的回归测试用例排序方法及系统 | |
CN112686313B (zh) | 基于信息论改进的并行深度森林分类方法 | |
CN111695701B (zh) | 基于联邦学习实现数据集构建处理的系统及其构建生成方法 | |
CN116226487B (zh) | 一种基于图形识别的数据大屏可视化方法及系统 | |
Han et al. | Two novel methods for BBA approximation based on focal element redundancy | |
CN116823202A (zh) | 简历信息处理方法、系统、智能终端及存储介质 | |
CN113168698A (zh) | 小批量学习装置及其工作程序和工作方法 | |
CN112988403B (zh) | 具有保密功能的集成电路仿真多线程管理并行方法及装置 | |
CN114219259A (zh) | 一种工艺路线生成方法、管理系统及介质 | |
JPH10334054A (ja) | 並列画像生成方法とそのためのデータ分割手法 | |
DE112020006985T5 (de) | Passwortauthentifizierungsvorrichtung, passwortauthentifizierungsverfahren, und passwortauthentifizierungsprogramm | |
WO2008104742A2 (en) | Rule generation | |
CN117668576B (zh) | 一种分层聚类共识构架的逻辑处理方法 | |
WO2019039603A1 (ja) | 画像処理装置、及びプログラム | |
CN117786434B (zh) | 一种集群管理方法 | |
CN116931889B (zh) | 一种基于对象树的软件建模方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20230201 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230807 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230807 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230929 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231002 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7402359 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |