JP7345744B2

JP7345744B2 - データ処理装置

Info

Publication number: JP7345744B2
Application number: JP2019127040A
Authority: JP
Inventors: 賢治米川
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2023-09-19
Anticipated expiration: 2039-07-08
Also published as: JP2021012592A

Description

本発明は、データ処理装置に関する。

近年では様々なデータを収集できるようになり、多くのビジネスチャンスが生まれている。ウェブやモバイル、ＩＯＴ等の様々な要因により、収集できるデータの種類や量が爆発的に増えている。このようなデータを機械学習や分析に活用することは、他社との大きな差別要因となってきている。

さらに、機械学習や分析の結果をより早く得ることにより、更にビジネスチャンスが生まれる。店舗やオンライン等で異なるが、１日～１秒単位で結果が求められることもある。従来、機械学習や分析に入力する前のデータに対して、外れ値処理などの前処理を行うことが知られている（例えば、特許文献１、２参照）。

特開２０１８－１３９１０９号公報特開２０１８－１６９９９４号公報

https://www.trifacta.com/、２０１９年６月２７日検索 https://www.datarobot.com/jp/、２０１９年６月２７日検索

上記の通り扱うデータ量が増えている一方、機械学習や分析ではデータ全量を処理するのが難しいことがある。機械学習や分析にはデータ量に応じて多くのコンピューティング／ディスクリソースが必要となるため、データ量が多くなるとその分多くの費用とコストがかかる。また、機械学習や分析のツールによってはコストや時間、品質を保つために扱えるデータ量に制限があることがある。

本発明はこうした課題に鑑みてなされたものであり、その目的は、扱うデータ量が多くなっても適切に機械学習や分析を行うことができる技術の提供にある。

本発明のある態様は、データ処理装置に関する。このデータ処理装置は、所定のデータ分析処理のために前処理されたデータを取得する手段と、取得されたデータから分析の対象とするデータ単位を選択することで、取得されたデータよりも少ない量の新たなデータを生成する手段と、生成された新たなデータを所定のデータ分析処理のために出力する手段と、を備え、前記生成する手段は、取得されたデータの分布の端部に位置するデータ単位の集合である端部集合を含む前記新たなデータを生成し、前記生成する手段は、前記端部集合を初期値とするデータ追加処理を、目標のデータ量になるまで繰り返すことで、前記新たなデータを生成し、前記データ追加処理は、データ単位の開始集合に対して、取得されたデータに含まれる残りのデータ単位のなかから所定数のデータ単位をランダムに選択して追加することで、異なる複数の候補集合を生成する処理と、異なる複数の候補集合のそれぞれについて品質の指標を算出する処理と、算出された指標が最も良い候補集合を次の開始集合として選択する処理と、を含む。

なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を装置、方法、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。

本発明によれば、扱うデータ量が多くなっても適切に機械学習や分析を行うことができる。

収集したデータを機械学習に活用するモデルの説明図である。実施の形態に係るデータ処理サーバを含む処理システムの構成を示す模式図である。図２のデータ処理サーバのハードウエア構成図である。図２のデータ処理サーバの機能および構成を示すブロック図である。図２のデータ処理サーバにおける一連の処理の流れを示すフローチャートである。取得される前処理済みデータの一例を示すデータ構造図である。図６のデータを二次元平面にプロットした図である。データ処理サーバにおける一連の処理によるデータの変遷の一例を示す説明図である。出力データを二次元平面にプロットした図である。図９の出力データのＸの値の分布を示すヒストグラムを示す図である。図９の出力データのＹの値の分布を示すヒストグラムを示す図である。ユーザ端末のディスプレイに表示される操作画面の代表画面図である。出力データを二次元平面にプロットした図である。図１３の出力データのＸの値の分布を示すヒストグラムを示す図である。図１３の出力データのＹの値の分布を示すヒストグラムを示す図である。出力データを二次元平面にプロットした図である。図１６の出力データのＸの値の分布を示すヒストグラムを示す図である。図１６の出力データのＹの値の分布を示すヒストグラムを示す図である。１００００行のデータを５００行に削減したときの計算結果を示す図である。１００００行のデータを１００行に削減したときの計算結果を示す図である。

以下、各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面において説明上重要ではない部材の一部は省略して表示する。

（実施の形態）
図１は、収集したデータを機械学習に活用するモデルの説明図である。このモデルでは、異なる複数のデータソース１０、１２、１４からデータを収集して前処理１６し、前処理されたデータの量を削減してから機械学習処理２６に入力する。異なる複数のデータソース１０、１２、１４はそれぞれ異なるデータ形式、異なるデータ量、異なる列を有する。例えば、第１データソース１０はｃｓｖ形式のファイルを提供し、第２データソース１２はテキスト形式のファイルを提供し、第３データソース１４はユーザ定義の形式（動画形式、音声形式など）のファイルを提供する。
なお、異なる複数のデータソース１０、１２、１４がそれぞれ有するデータ形式は同じであってもよい。例えば、分析対象のデータが単一のデータベースサーバではなく、複数のデータベースサーバによって分散管理されている場合は、前処理１６でデータ結合することによって分析処理可能となる。この場合、前処理１６においてフォーマットを正規化する処理は省略される。より具体的には、大量の購買データが分散サーバで管理されており、顧客ＩＤの数字に応じて所定のサーバにデータが自動的に振り分けられる場合に、本実施の形態に係る技術的思想を適用してもよい。

前処理１６は、異なる複数のデータソース１０、１２、１４のそれぞれからファイルなどのデータを取得し、取得した複数のデータに前処理を行ってひとつの前処理済みデータを生成する。前処理１６は例えば非特許文献１に記載される公知の前処理技術を用いて実現されてもよい。

前処理１６は、フォーマット正規化１８と、データ結合２０と、名寄せ２２と、外れ値処理２４と、を含む。フォーマット正規化１８は、異なる複数のデータソース１０、１２、１４のそれぞれから取得したデータの形式を、機械学習処理２６への入力に適したひとつの形式に変換する。すなわち、フォーマット正規化１８は異なる複数のデータソース１０、１２、１４からの複数のデータの形式を正規化する。

データ結合２０は、フォーマット正規化１８で形式が揃った複数のデータを結合する。名寄せ２２は、結合により得られるひとつのデータにおいて名寄せ処理を行う。外れ値削除２４は、名寄せの済んだデータに対して外れ値削除を行う。外れ値削除は、例えば特許文献１、２に記載される公知の技術を用いて実現されてもよい。

実施の形態に係るデータ量削減処理１００は、データ前処理後、機械学習や分析の前に用いられる。データ量削減処理１００は、機械学習処理２６のために前処理されたデータを前処理１６から取得し、取得されたデータから機械学習の対象とする行やエントリなどのデータ単位を選択することで、取得されたデータよりも少ない量の新たなデータを生成し、生成された新たなデータを機械学習処理２６のために出力する。

データ量削減処理１００の段階では、データの前処理（クレンジング）は終わっている。このような前処理は、上述のような想定外の値を削除する外れ値処理や、複数カラムをまとめて新しいカラムを作成する処理などを含む。データ量削減処理１００は、これらの前処理が全て終わった後に行われる。本実施の形態では、前処理の後にデータ量削減処理１００を実施するため、処理時間の短縮やコスト削減を目的としたユースケースにフィットする。

機械学習処理２６は、データ量削減処理１００においてデータ量が削減されたデータを受ける。機械学習処理２６自体は例えば非特許文献２に記載されるような公知の機械学習技術を用いて実現されてもよい。

機械学習処理２６は、入力可能なデータの量に上限があってもよい。一般的に、データ量、行数、カラム数の制約がある。例えば、機械学習処理２６に一度に入力できるデータ量は５ＧＢに制限される。これは、機械学習処理２６にかかるコストや時間、品質を保つためである。データ量削減処理１００において目標とされる削減後のデータの量は、上記の上限以下に設定される。

図１に示されるように、データ量削減処理１００においてデータ量を削減してから機械学習や分析を行うことで、扱うデータ量が多くなっても適切に機械学習や分析を行うことができる。すなわち、機械学習処理２６に入力されるデータの量が抑えられるので、機械学習処理２６にかかるコストを低減し、また機械学習処理２６にかかる時間を低減することができる。

本発明者は、図１に示されるデータ量削減のスキームをさらに詳細に検討した結果、以下の追加的な課題を認識するに至った。一般に、データの量を減らすと、データの特徴や品質が低下する。データの特徴や品質が低下すると、そのようなデータを受け取る機械学習や分析の精度も損なわれうる。

そこで、本実施の形態では、データの特徴を保持し、データの品質を保つことでデータ削減の課題である精度の低下をできるだけ低減する手法を提案する。

図２は、実施の形態に係るデータ処理サーバ１０２を含む処理システム３０の構成を示す模式図である。処理システム３０は、データ処理サーバ１０２と、ユーザ端末１０４と、を備える。データ処理サーバ１０２とユーザ端末１０４とはインターネットなどのネットワーク１０６を介して通信可能に接続されている。ユーザ端末１０４は、ユーザが用いる端末であり、例えばデスクトップＰＣ、ラップトップＰＣ、携帯端末などであってもよい。データ処理サーバ１０２は、例えば図１の前処理１６、データ量削減処理１００および機械学習処理２６を行う機能を有する。あるいはまた、前処理１６や機械学習処理２６はデータ処理サーバ１０２とは異なる、データ処理サーバ１０２とネットワーク１０６を介して接続されたサーバで実現されてもよい。

本実施の形態では、ユーザがユーザ端末１０４に情報を入力し、ユーザ端末１０４が該情報をネットワーク１０６を介してデータ処理サーバ１０２に送信し、データ処理サーバ１０２が該情報を処理し、処理結果をネットワーク１０６を介してユーザ端末１０４に返し、ユーザ端末１０４が処理結果をディスプレイ１０８に表示する、いわゆるＡＳＰ（Application Service Provider）を想定する。しかしながら、本実施の形態の技術的思想は、スタンドアローンの端末にデータ処理サーバ１０２の機能を実装し、ユーザがその端末に情報を入力し、処理結果を得る場合など、ＡＳＰ以外のシステムにも適用可能である。

図３は、図２のデータ処理サーバ１０２のハードウエア構成図である。データ処理サーバ１０２は、メモリ１１０と、プロセッサ１１２と、通信インタフェース１１４と、ディスプレイ１０８と、入力インタフェース１１１８と、を備える。これらの要素はそれぞれバス１２０に接続され、バス１２０を介して互いに通信する。

メモリ１１０は、データやプログラムを記憶するための記憶領域である。データやプログラムは、メモリ１１０に恒久的に記憶されてもよいし、一時的に記憶されてもよい。プロセッサ１１２は、メモリ１１０に記憶されているプログラムを実行することにより、データ処理サーバ１０２の各種機能を実現する。通信インタフェース１１４は、データ処理サーバ１０２の外部との間でデータの送受信を行うためのインタフェースである。通信インタフェース１１４はネットワーク１０６と接続され、ネットワーク１０６を介して、ユーザ端末１０４とデータをやりとりする。ディスプレイ１０８は、各種情報を表示するためのデバイスである。入力インタフェース１１８は、本サービスの管理者からの入力を受け付けるためのデバイスである。

図４は、図２のデータ処理サーバ１０２の機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウエア的には、コンピュータのＣＰＵをはじめとする素子や機械装置で実現でき、ソフトウエア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウエア、ソフトウエアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。

データ処理サーバ１０２は、データ取得部１２０と、データ量低減部１２２と、データ出力部１３２と、表示制御部１３４と、を備える。データ取得部１２０は、機械学習処理２６のために前処理されたデータを取得する。データ量低減部１２２は、取得されたデータから分析の対象とする行を選択することで、取得されたデータよりも少ない量の新たなデータを生成する。データ出力部１３２は、生成された新たなデータを機械学習処理２６のために出力する。データ量低減部１２２は、端部集合選択部１２４と、候補集合生成部１２６と、品質指標算出部１２８と、評価部１３０と、を含む。

図５は、図２のデータ処理サーバ１０２における一連の処理の流れを示すフローチャートである。以下、図４および図５を参照してデータ処理サーバ１０２の各部の機能を説明する。

データ取得部１２０は、前処理済みデータを取得する（Ｓ５０２）。図６は、取得される前処理済みデータの一例を示すデータ構造図である。この例では、前処理済みデータは、Ｘの値６０２とＹの値６０４との組からなる行（データ単位）を１００００個（１００００行）含む。ヒストグラム６０６はＸの値６０２の分布を示し、ヒストグラム６０８はＹの値６０４の分布を示す。図７は、図６のデータを二次元平面にプロットした図である。横軸をＸの値６０２、縦軸をＹの値６０４としている。図７のプロットには１００００行に対応する１００００個の点が描かれている。

図４、５に戻り、端部集合選択部１２４はデータ取得部１２０によって取得された前処理済みデータの分布の端部に位置する行の集合である端部集合を選択する（Ｓ５０４）。端部集合は、例えば図６、図７の破線で囲まれた部分に対応する行からなる集合である。端部集合はユーザにより指定されてもよいし、機械学習などにより自動で選択されてもよい。本実施の形態に係る手法では、データの行数を、特徴、品質を担保したまま削減する。本発明者の独自の検討によると、データの特徴は主にデータの分布の端部に位置するデータ単位に現れる。したがって、まず前処理済みデータの端部集合を選択して出力に組み入れることで、前処理済みデータの特徴を保持する。

候補集合生成部１２６は、端部集合選択部１２４によって選択された端部集合をデータ追加処理の初期値として取得し、該端部集合をデータ追加処理の開始集合として特定する（Ｓ５０６）。データ追加処理は、以下に説明する候補集合生成部１２６、品質指標算出部１２８および評価部１３０における処理を含む。データ量低減部１２２は、端部集合を初期値とするデータ追加処理を、目標のデータ量になるまで繰り返すことで、前処理済みデータよりも量の少ない出力データを生成する。

目標のデータ量は相対的に設定されてもよく、この場合、例えば前処理済みデータの８０％、５０％などのように設定されてもよい。あるいはまた、目標のデータ量は絶対的に設定されてもよく、この場合、例えば機械学習処理２６に入力可能な最大データ量に設定されてもよいし、それよりも所定のマージン量だけ少ない量に設定されてもよい。なお、機械学習処理２６に入力可能な最大データ量は、データ処理サーバ１０２において図示しない目標データ量算出部が算出するようにしてもよい。

候補集合生成部１２６は、取得された前処理済みデータに含まれる残りの行のなかから所定数の行をランダムに選択する（Ｓ５０８）。残りの行は、その時点でまだ開始集合に含まれていない行である。所定数は処理の負荷や処理時間を考慮しシミュレーションや試験等により決定されてもよい。

候補集合生成部１２６は、ステップＳ５０６または後述のステップＳ５１６において特定された開始集合に対して、ステップＳ５０８で選択された所定数の行を追加することで、ひとつの候補集合を生成する（Ｓ５１０）。

候補集合生成部１２６は、その時点までに生成された候補集合の数がＮ（Ｎは２以上の自然数）に到達したか否か判定する（Ｓ５１２）。Ｎは処理の負荷や処理時間を考慮しシミュレーションや試験等により決定されてもよい。候補集合の数がＮに満たない場合（Ｓ５１２のＮ）、候補集合生成部１２６はステップＳ５０８に戻って新たな候補集合を生成する。ステップＳ５０８、Ｓ５１０およびＳ５１２の処理ループにより、Ｎ個のそれぞれ異なる候補集合が生成される。

候補集合の数がＮに到達すると（Ｓ５１２のＹ）、品質指標算出部１２８は生成されたＮ個の候補集合のそれぞれについて品質の指標を算出する（Ｓ５１４）。本実施の形態では、前処理済みデータの品質を保持するために、品質の指標を利用してデータ削減前後の差を減らすまたは最小化する。用いられる指標は例えばデータの類似度を表す指標であり、具体的にはコルモゴロフ・スミルノフ検定（Kolmogorov-Smirnov test）や信頼区間（confidence interval）等で得られる指標であってもよい。本実施の形態では、コルモゴロフ・スミルノフ検定のｐ値（pvalue）を指標として用いる。ｐ値は０と１との間の値をとり、１に近いほど元のデータと類似していることを示す。

評価部１３０は、ステップＳ５１４で算出された指標が最も良い候補集合を次の開始集合として選択する（Ｓ５１６）。例えば、評価部１３０は、ステップＳ５１４で算出されたＮ個のｐ値のうちの最大値を特定し、特定された最大値を与える候補集合を次の開始集合として選択する。

評価部１３０は、ステップＳ５１６で選択された開始集合のデータ量が目標のデータ量に到達したか否か判定する（Ｓ５１８）。開始集合のデータ量が目標のデータ量に満たない場合（Ｓ５１８のＮ）、処理はステップＳ５０８に戻り、新たな開始集合で次のデータ追加処理が行われる。開始集合のデータ量が目標のデータ量に到達した場合（Ｓ５１８のＹ）、データ出力部１３２は、ステップＳ５１６で選択された開始集合を出力データとして出力する。

図８は、データ処理サーバ１０２における一連の処理によるデータの変遷の一例を示す説明図である。データプロット８０２は、図５のステップＳ５０２で取得された前処理済みデータに対応し、図７のデータプロット（１００００行）と同じである。データプロット８０２に示される前処理済みデータに対してステップＳ５０４において端部集合が選択される。データプロット８０４は端部集合に対応する。ステップＳ５０８、Ｓ５１０、Ｓ５１２において、データプロット８０４に対応する端部集合を開始集合としてＮ個の候補集合が生成される。データプロット８０６＿１、８０６＿２、８０６＿３はこのように生成されたＮ個の候補集合のうちの三つに対応する。ステップＳ５１４においてＮ個の候補集合のそれぞれに対してｐ値が算出され、ステップＳ５１６において算出されたｐ値が最大の候補集合が次の開始集合として選択される。データプロット８０６＿１、８０６＿２、８０６＿３のそれぞれに対応する候補集合に対してｐ＝０．８、ｐ＝０．７、ｐ＝０．６と算出される。ｐ＝０．８がＮ個の算出されたｐ値のなかで最大であるから、次の開始集合としてｐ＝０．８を与えるデータプロット８０６＿１に対応する候補集合が選択される。ステップＳ５１８において、このように選択された次の開始集合（データプロット８０６＿１）のデータ量と目標データ量（例えば、５００行）とが比較され、前者が後者に満たないので次のデータ追加処理が行われる。

ステップＳ５０８、Ｓ５１０、Ｓ５１２において、データプロット８０６＿１に対応する開始集合からＮ個の候補集合が生成される。データプロット８０８＿１、８０８＿２、８０８＿３はこのように生成されたＮ個の候補集合のうちの三つに対応する。ステップＳ５１４において、データプロット８０８＿１、８０８＿２、８０８＿３のそれぞれに対応する候補集合に対してｐ＝０．９、ｐ＝０．８、ｐ＝０．６と算出される。ｐ＝０．９がＮ個の算出されたｐ値のなかで最大であるから、次の開始集合としてｐ＝０．９を与えるデータプロット８０８＿１に対応する候補集合が選択される。ステップＳ５１８において、このように選択された次の開始集合（データプロット８０８＿１）のデータ量と目標データ量とが比較され、前者が後者に満たないので次のデータ追加処理が行われる。

ステップＳ５０８、Ｓ５１０、Ｓ５１２において、データプロット８０８＿１に対応する開始集合からＮ個の候補集合が生成される。データプロット８１０＿１、８１０＿２、８１０＿３はこのように生成されたＮ個の候補集合のうちの三つに対応する。ステップＳ５１４において、データプロット８１０＿１、８１０＿２、８１０＿３のそれぞれに対応する候補集合に対してｐ＝０．９、ｐ＝０．６、ｐ＝０．５と算出される。ｐ＝０．９がＮ個の算出されたｐ値のなかで最大であるから、次の開始集合としてｐ＝０．９を与えるデータプロット８１０＿１に対応する候補集合が選択される。ステップＳ５１８において、このように選択された次の開始集合（データプロット８１０＿１）のデータ量と目標データ量とが比較され、前者が後者に到達したと判定される。ステップＳ５２０において、次の開始集合（データプロット８１０＿１）が出力データとして出力される。この場合、前処理済みデータの行数は１００００行、出力データの行数は５００行であり、データ量が１００００行から５００行まで減らされる。

このように、本実施の形態の手法では、以下のステップでデータを削減する。
１．特徴のあるデータ単位を元のデータから選ぶ。
２．品質が向上するデータ単位を選択し、ステップ１で選んだデータに追加する。
３．ステップ２を目標のデータ量になるまで繰り返す。

図１２は、ユーザ端末１０４のディスプレイ１０８に表示される操作画面７００の代表画面図である。表示制御部１３４は、ネットワーク１０６を介してユーザ端末１０４から、削減対象の前処理済みデータの指定を含む要求を受信すると、操作画面７００に対応する画面情報をユーザ端末１０４にネットワーク１０６を介して送信する。ユーザ端末１０４は、受信した画面情報に基づいて、ディスプレイ１０８に操作画面７００を表示させる。

操作画面７００は、元データ表示領域７０２と、削減後データ表示領域７０４と、目標設定領域７０６と、アルゴリズム設定領域７０８と、削減ボタン７１０と、を有する。元データ表示領域７０２には、指定された前処理済みデータのプロット７１２と、該データのＸの値のヒストグラム７１４と、該データのＹの値のヒストグラム７１６と、が表示される。

目標設定領域７０６には、指定された前処理済みデータのデータ量が行数７１８およびサイズ７２０で表示される。目標設定領域７０６は、ユーザに、目標のデータ量を行数で入力させる行数入力領域７２２と、目標のデータ量をサイズで入力させるサイズ入力領域７２４と、を有する。

アルゴリズム設定領域７０８は、品質の指標を算出するためのアルゴリズムを選択可能に構成される。

ユーザは、目標設定領域７０６の行数入力領域７２２またはサイズ入力領域７２４に目標のデータ量を入力し、アルゴリズム設定領域７０８で所望のアルゴリズムを選択し、削減ボタン７１０を押し下げる。ユーザ端末１０４は、入力された目標のデータ量および選択されたアルゴリズムを含む削減処理要求を生成し、ネットワーク１０６を介してデータ処理サーバ１０２に送信する。データ処理サーバ１０２は、指定された目標のデータ量および選択されたアルゴリズムに基づいて、上述のように前処理済みデータの量を削減する。
なお、データ処理サーバ１０２において図示しない目標データ量算出部が、機械学習処理２６で一度に処理可能なデータ量の上限を算出して、目標のデータ量として目標設定領域７０６に表示するようにしてもよい。

削減後データ表示領域７０４には、データ処理サーバ１０２における削減処理の結果得られる出力データ（削減後のデータ）のプロット７２６と、該データのＸの値のヒストグラム７２８と、該データのＹの値のヒストグラム７３０と、が表示される。

なお、ユーザによる端部集合の指定を受け付けるためのインタフェースを操作画面７００に設けてもよい。

本実施の形態に係るデータ処理サーバ１０２によると、特徴のあるデータを先に選択し、品質が向上するデータを徐々に追加することで、出力されるデータの特徴と品質とを担保することができる。

図９は、出力データを二次元平面にプロットした図である。図９には、図７に示される前処理済みデータに対して本実施の形態に係る手法を適用することで得られた出力データを二次元平面にプロットした図が示される。図９のプロットには５００行に対応する５００個の点が描かれている。

図１０は、図９の出力データのＸの値の分布を示すヒストグラム９０６を示す図である。ヒストグラム９０６において、前処理済みデータの分布は濃い実線９２２で示され、出力データの分布は薄い実線９２０で示される。濃い実線９２２の形状と薄い実線９２０の形状との一致度が高いので、算出されるｐ値は大きくなる。

図１１は、図９の出力データのＹの値の分布を示すヒストグラム９０８を示す図である。ヒストグラム９０８において、前処理済みデータの分布は濃い実線９２６で示され、出力データの分布は薄い実線９２４で示される。濃い実線９２６の形状と薄い実線９２４の形状との一致度が高いので、算出されるｐ値は大きくなる。

図９、図１０、図１１の実線の円で囲まれる部分に現れている通り、本実施の形態に係る手法によると、前処理済みデータの分布の端部に対応する行が、出力データにおいても保持されている。したがって、前処理済みデータの特徴を維持したままデータ量を削減することができる。また、データ追加処理において品質の指標が最も高い候補集合を選択するので、前処理済みデータと出力データとの類似度を高く保つことができる。

（比較例１）
比較のため、データ量低減部１２２において、本実施の形態に係る手法に代えて前処理済みデータからランダムに行を抜き出す手法を採用した例を示す。図１３は、出力データを二次元平面にプロットした図である。図１３には、図７に示される前処理済みデータに対して本比較例１に係る手法を適用することで得られた出力データを二次元平面にプロットした図が示される。図１３のプロットには５００行に対応する５００個の点が描かれている。

図１４は、図１３の出力データのＸの値の分布を示すヒストグラム９３０を示す図である。ヒストグラム９３０において、前処理済みデータの分布は濃い実線９３６で示され、出力データの分布は薄い実線９３４で示される。濃い実線９３６の形状と薄い実線９３４の形状との一致度は図１０のそれと比べて低いので、ｐ値もより小さくなる。

図１５は、図１３の出力データのＹの値の分布を示すヒストグラム９３２を示す図である。ヒストグラム９３２において、前処理済みデータの分布は濃い実線９４０で示され、出力データの分布は薄い実線９３８で示される。濃い実線９４０の形状と薄い実線９３８の形状との一致度は図１１のそれと比べて低いので、ｐ値もより小さくなる。

このように、ランダムに行を抜き出す手法では、得られる出力データの品質が比較的低くなる。また、図１３、図１４、図１５から分かる通り、前処理済みデータの特徴を表す端部の行の多くが出力データでは欠落している。したがって、特徴が保持されているとも言い難い。

（比較例２）
比較のため、データ量低減部１２２において、本実施の形態に係る手法に代えて前処理済みデータからの１０００回のランダム選択からベストなものを選択する手法を採用した例を示す。本比較例２に係る手法では、データの品質を確認しつつ、１０００回ランダムに選択し、ベストなものを選ぶ。

図１６は、出力データを二次元平面にプロットした図である。図１６には、図７に示される前処理済みデータに対して本比較例２に係る手法を適用することで得られた出力データを二次元平面にプロットした図が示される。図１６のプロットには５００行に対応する５００個の点が描かれている。

図１７は、図１６の出力データのＸの値の分布を示すヒストグラム９５０を示す図である。ヒストグラム９５０において、前処理済みデータの分布は濃い実線９５６で示され、出力データの分布は薄い実線９５４で示される。濃い実線９５６の形状と薄い実線９５４の形状との一致度は図１０のそれとほぼ同等であるから、ｐ値もほぼ同じ値となる。

図１８は、図１６の出力データのＹの値の分布を示すヒストグラム９５２を示す図である。ヒストグラム９５２において、前処理済みデータの分布は濃い実線９６０で示され、出力データの分布は薄い実線９５８で示される。濃い実線９６０の形状と薄い実線９５８の形状との一致度は図１１のそれとほぼ同等であるから、ｐ値もほぼ同じ値となる。

このように、１０００回のランダム選択からベストなものを選択する手法で得られる出力データの品質は、本実施の形態で得られる出力データの品質と遜色ない。しかしながら、図１６、図１７、図１８から分かる通り、前処理済みデータの特徴を表す端部の行の多くが、本比較例２で得られる出力データでは欠落している。したがって、特徴が保持されているとは言い難い。また、品質に関してもランダム選択が入る以上毎回同程度の品質が得られるわけではなく、確率論になってしまう。

（計算例）
本実施の形態に係る手法、比較例１に係る手法、比較例２に係る手法のそれぞれを用いて１００００行のデータを５００行、１００行まで低減したときの計算結果を図１９、図２０にそれぞれ示す。図１９は、１００００行のデータを５００行に削減したときの計算結果を示す図である。図２０は、１００００行のデータを１００行に削減したときの計算結果を示す図である。「Ｐ値（トータル）」は、Ｘの値について算出されたｐ値とＹの値について算出されたｐ値との和を表す。「最小値偏差（平均）」は、データの最小値の偏差の平均を表す。「最大値偏差（平均）」は、データの最大値の偏差の平均を表す。「実行時間（秒）」は削減処理に要した時間を表す。

図１９、図２０に示されるように、本実施の形態に係る手法で削減されたデータは、比較例１、２に係る手法で削減されたデータよりも元のデータとの類似度が高く、元のデータの特徴をも維持している。また、本実施の形態に係る手法の実行時間は許容範囲内に収まっている。

（応用例）
１．本実施の形態に係る技術的思想を、流通関連のビッグデータの機械学習に適用してもよい。例えば、顧客の購買情報（誰がいつどこで何をいくらで買ったかを示す情報）を収集し、本実施の形態に係るデータ量削減手法を用いてデータ量を削減してから機械学習に入力することで、正確な分析結果をより早く入手することができる。

例えば、大口顧客がごく少数で、大多数が小口顧客の訓練データがあり、この訓練データの量を削減する際に、大口顧客のデータが除かれてしまうと、機械学習や分析時に全て小口顧客の情報ベースで結果が出てしまう。これにより、大口顧客の推測、分析が非常にブレのあるものになってしまう。一例では、実際は商品購入数が従業員数の１．１乗の場合に、従業員数１０以下の訓練データしかない場合は、機械学習により購入数＝従業員数と推測される可能性がある。その機械学習により得られるモデルで従業員数が大きい場合を分析した場合、分析結果に大きなズレが発生しうる。例えば、従業員数が１０００人であればモデルは購入数を１０００と予測する。しかしながら、１．１乗にしたがえば正しくは１９９５個である。

そこで、本実施の形態に係る手法を適用すると、訓練データの特徴すなわち大口顧客のデータが削減の前後で保持される。したがって、より適切な結果を出力するようなモデルを機械学習により生成できる。

２．本実施の形態に係る技術的思想を、病気検知のための機械学習に適用してもよい。様々なデータから病気の陽性、陰性を検知する場合、陽性の割合が非常に小さいため、機械学習のアルゴリズムによっては全て陰性と推測する場合がある。仮に陽性：陰性＝１：９９の場合、全て陰性だと判定しても９９％の的中率となるため、「精度」は高いと判定されるからである。しかしながら、このような病気検知は陽性を正しく判定するのが目的のため、全て陰性だと判定してしまう機械学習は役に立たない。

そこで、本実施の形態に係る手法を適用すると、訓練データの特徴すなわち陽性に対応するデータが削減の前後で保持される。したがって、より適切な病気検知の結果を出力するようなモデルを機械学習により生成できる。例えば、元の訓練データで陽性：陰性＝１：９９である場合、データ削減後には陽性：陰性＝１：９となり、そのような訓練データで訓練されたモデルは病気の陽性をより適切に判断できる。

以上、実施の形態に係るデータ処理サーバ１０２の構成と動作について説明した。この実施の形態は例示であり、各構成要素や各処理の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解される。

実施の形態では、機械学習処理２６に入力するためのデータの量を削減する場合を説明したが、これに限られない。機械学習を含む所定のデータ分析処理に入力するためのデータの量を削減する場合に、本実施の形態に係る技術的思想を適用してもよい。

１０第１データソース、１６前処理、２６機械学習処理、１００データ量削減処理、１０２データ処理サーバ。

Claims

所定のデータ分析処理のために前処理されたデータを取得する手段と、
取得されたデータから分析の対象とするデータ単位を選択することで、取得されたデータよりも少ない量の新たなデータを生成する手段と、
生成された新たなデータを前記所定のデータ分析処理のために出力する手段と、を備え、
前記生成する手段は、取得されたデータの分布の端部に位置するデータ単位の集合である端部集合を含む前記新たなデータを生成し、
前記生成する手段は、前記端部集合を初期値とするデータ追加処理を、目標のデータ量になるまで繰り返すことで、前記新たなデータを生成し、
前記データ追加処理は、
データ単位の開始集合に対して、取得されたデータに含まれる残りのデータ単位のなかから所定数のデータ単位をランダムに選択して追加することで、異なる複数の候補集合を生成する処理と、
異なる複数の候補集合のそれぞれについて品質の指標を算出する処理と、
算出された指標が最も良い候補集合を次の開始集合として選択する処理と、を含むデータ処理装置。
前記所定のデータ分析処理は、入力可能なデータの量に上限のある機械学習処理であり、
前記新たなデータの量は前記上限以下である請求項１に記載のデータ処理装置。
前記所定のデータ分析処理のための前処理は外れ値を削除する処理を含む請求項１又は２に記載のデータ処理装置。