JP6818935B2

JP6818935B2 - データ処理装置、方法、およびプログラムを記憶した媒体

Info

Publication number: JP6818935B2
Application number: JP2020500343A
Authority: JP
Inventors: 吉田　学; 学吉田; 美幸今田; 社家　一平; 一平社家; 昭典藤野; 央倉沢
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-02-15
Filing date: 2019-01-18
Publication date: 2021-01-27
Anticipated expiration: 2039-01-18
Also published as: US11960499B2; US20210042318A1; JPWO2019159602A1; WO2019159602A1

Description

この発明は、取得されたデータに基づいて統計分析を実行するデータ処理装置、方法およびプログラムを記憶した媒体に関する。

近年、インターネットショッピングの購買履歴、プリペイドカードの利用履歴、ある商材の営業販売履歴等のように、多種多量のデータが蓄積されるようになってきた。蓄積されたデータを活用して、売り上げ向上や販売コスト削減を目的とした統計モデルの導出も行われている。

購買行動や営業による販売行動に係るデータについて、商材を「購入した」ないし「販売した」ことを示すデータは、商材を「購入しなかった」ないしは「販売できなかった」ことを示すデータに対し、希少であることが多い。このように、「購入した・購入しなかった」ないしは「販売した・販売できなかった」ことを示すデータにおいては、統計モデルにおいて目的変数となる２種類のラベル（以下、「購入した」を正ラベル、「購入しなかった」を負ラベルと称する。）が不均衡であるため、統計モデルを導出するにあたり、希少である正ラベルを精度よく予測できないという問題があった。

この問題を解決する手法として、サンプリングによってサンプル数を揃える方法が報告されている（例えば、Nitesh V. Chawla, et al. “SMOTE: Synthetic Minority Over-sampling Technique”, Journal of Artificial Intelligence Research 16 (2002) 321-357を参照）。

ここで、一般的に、売り買いをする人特有の振る舞い等の要因や、売り買いの対象となる商材特有の要因は、上述したような売り買いの結果に影響すると考えられる。しかしながら、これらの要因はデータとして表現することが難しいため、殆どの場合は上述したように蓄積されたデータセットには含まれない。

したがって、蓄積されたデータを活用して導出される統計モデルにおいて、このように売り買いの結果に影響し正ラベルまたは負ラベルの判別に影響するであろう、売り買いをする人特有の振る舞い等の要因や、売り買いの対象となる商材特有の要因を組み込むことができないという問題がある。

この発明は上記事情に着目してなされたもので、その目的とするところは、所定の事象の発生に対し影響を及ぼす潜在的な特徴を考慮して、取得されたデータを統計分析する技術を提供することにある。

上記課題を解決するために、この発明の第１の態様は、データ処理装置にあって、複数のレコードを含むデータを取得し、取得されたデータの複数のレコードを、当該複数のレコードの各レコードに含まれる、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成し、前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、当該レコードに含まれる、前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けて、当該ラベル情報毎の２つのデータセットを生成し、当該ラベル情報毎の２つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成し、上記生成された差分データを用いて統計分析を実行し、その統計分析の実行結果を出力するように構成されたプロセッサと、当該プロセッサを動作させる命令を記憶するメモリとを備えるようにしたものである。

この発明の第２の態様は、上記第１の態様において、前記取得されたデータの複数のレコードの各々がさらに、所定の特徴量の値に対応する情報を含み、前記差分データが、前記ラベル情報毎の２つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについての、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含み、前記統計分析を実行することが、前記所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を特徴ベクトルの要素とし、前記差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含むようにしたものである。

この発明の第３の態様は、上記第２の態様において、前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性（Receiver Operating Characteristic：ＲＯＣ）曲線に基づく曲線下面積（Area Under the Curve：ＡＵＣ）値が最大化するように前記回帰係数ベクトルを算出することを含むようにしたものである。

この発明の第４の態様は、上記第１の態様において、前記取得されたデータの複数のレコードの各々がさらに、所定の特徴量の値として、ユーザに所持されるモバイルの加速度データの値を含み、前記外部条件識別情報として、前記ユーザを識別するＩＤを含み、前記所定の事象が発生したことを示す正ラベルが、前記ユーザが段差を通ったことを示し、前記所定の事象が発生しなかったことを示す負ラベルが、前記ユーザが段差を通らなかったことを示し、前記差分データが、各レコードに係る前記加速度データの値の差分と、各レコードに係る前記ユーザが段差を通ったか否かを示す値の差分とを含み、前記統計分析を実行することが、前記ユーザが段差を通ったかどうかをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記加速度データの値の差分を特徴ベクトルの要素とし、前記ユーザが段差を通ったか否かを示す値の差分を前記モデルに係る前記ユーザが段差を通ったか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含むようにしたものである。

この発明の第５の態様は、上記第４の態様において、前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性（Receiver Operating Characteristic：ＲＯＣ）曲線に基づく曲線下面積（Area Under the Curve：ＡＵＣ）値が最大化するように前記回帰係数ベクトルを算出することを含むようにしたものである。

この発明の第１の態様によれば、複数のレコードを含むデータが取得され、取得されたデータの複数のレコードが、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けられて、上記外部条件毎のデータセットが生成される。当該生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードが、上記所定の事象が発生したことを示す正ラベルと上記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けられて、当該ラベル情報毎の２つのデータセットが生成され、当該ラベル情報毎の２つのデータセットの各々に含まれるレコードの間の組み合わせについて差分データが生成される。当該生成された差分データを用いて統計分析が実行され、その統計分析の実行結果が出力される。

この発明の第２の態様によれば、複数のレコードの各々がさらに、所定の特徴量の値に対応する情報を含み、上記差分データとして、当該ラベル情報毎の２つのデータセットの各々に含まれるレコードの間の組み合わせについて、各レコードに係る上記所定の特徴量の各特徴量についての値の差分と、各レコードに係る上記所定の事象が発生したか否かを示す値の差分とを含む差分データが生成される。そして、上記統計分析として、上記所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルについて、上記生成された差分データに含まれる上記所定の特徴量の各特徴量についての値の差分を特徴ベクトルの要素とし、上記差分データに含まれる上記所定の事象が発生したか否かを示す値の差分を上記モデルに係る上記所定の事象が発生したか否かを示すラベルとして用いることによって、上記モデルに係る回帰係数ベクトルが算出される。

上述した第１および第２の態様では、ラベル情報毎の２つのデータセットの各々に含まれるレコードの間の組み合わせについて、統計分析に用いられる差分データが生成される。このため、ペアワイズ学習をする際の組み合わせ方をほぼ同一条件に揃えることができ、したがって、正ラベルと負ラベルとが不均衡である場合に希少である一方のラベルを精度よく予測できないという問題を解決することができる。また、上記ラベル情報毎の２つのデータセットは、外部条件が同一のレコードをまとめた外部条件毎のレコードセットを分割して生成される。このように、外部条件が同一のレコード毎に上記差分データが生成されるため、当該生成される差分データは、所定の事象の発生に対し影響を及ぼす潜在的な特徴の影響が排除されたものとすることができる。さらに、ラベル情報毎の２つのデータセットの各々に含まれるレコードの間のさまざまな組み合わせについて差分データを生成させることができるので、サンプルとして十分に説明変数を集められない場合においても統計分析を実行するのに十分なデータ量を確保することもできる。

この発明の第３および第５の態様によれば、所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルに係るＲＯＣ曲線に基づくＡＵＣ値が最大化するように上記回帰係数ベクトルが算出される。

ＡＵＣ値は２値分類の精度を表すのに一般によく用いられる、ＲＯＣ曲線に基づく評価指標であり、ＡＵＣ値が大きいほど、正例から負例の順にコンテンツが正しくスコアで順位付けされていることになっている。上記Nitesh他の文献に記載の技術では、ＲＯＣ曲線に基づくＡＵＣ値を最良にすることは難しいという問題があった。しかしながら、上記第３の態様では、正ラベルのデータと負ラベルのデータとのサンプル数を揃えて統計分析を実行できることに加えて、当該統計分析により導出されるモデルに係るＡＵＣ値を最良化することもできる。

この発明の第４の態様によれば、上記第１の態様において、複数のレコードの各々がさらに、所定の特徴量の値として、ユーザに所持されるモバイルの加速度データの値を含み、また上記外部条件識別情報としてユーザを識別するＩＤを含む。これにより、複数のレコードが、ユーザを識別するＩＤに基づいて分けられて、ユーザを識別するＩＤ毎のデータセットが生成される。また、第４の態様では、上記所定の事象が発生したことを示す正ラベルが、上記ユーザが段差を通ったことを示し、上記所定の事象が発生しなかったことを示す負ラベルが、上記ユーザが段差を通らなかったことを示す。これにより、ユーザを識別するＩＤ毎のデータセットがさらにラベル情報に基づいて分けられて、ラベル情報毎の２つのデータセットが生成される。そして、ラベル情報毎の２つのデータセットの各々に含まれるレコード間の組合せについて上記差分データが生成される。当該差分データは、上記加速度データの値の差分と、上記ユーザが段差を通ったか否かを示す値の差分とを含む。そして、差分データを用いて統計分析を実行することによって、上記差分データに含まれる加速度データの値の差分を特徴ベクトルの要素とし、上記ユーザが段差を通ったか否かを示す値の差分をラベルとして用いて、ユーザが段差を通ったかどうかをあらわすスコア値を算出するためのモデルに係る回帰係数ベクトルが算出される。

これにより、ユーザによって歩き方が異なり、また大きな段差がある地点とない地点でラベルが不均衡であるような場合にも、上記第４の態様により、所定の事象の発生に対し影響を及ぼす潜在的な特徴の影響が排除された差分データを生成することができる。またこのような差分データを用いることで、ペアワイズ学習をする際の組み合わせ方をほぼ同一条件にそろえることができ、データ量を確保しつつ、段差を通ったスコアを算出するための統計モデルを導出することが可能となる。

すなわち、この発明によれば、所定の事象の発生に対し影響を及ぼす潜在的な特徴を考慮して、取得されたデータを統計分析する技術を提供することができる。

図１は、この発明の第１の実施形態に係るデータ処理装置のハードウェア構成を示すブロック図である。図２は、この発明の第１の実施形態に係るデータ処理装置の機能構成を示すブロック図である。図３は、図２に示したデータ処理装置の制御ユニットによって実行される取得データに基づく統計分析処理の一例を示すフロー図である。図４は、制御ユニットによって取得される営業販売履歴データの一例を示す図である。

以下、図面を参照してこの発明に係わる実施形態を説明する。
［第１の実施形態］
（構成）
図１は、この発明の第１の実施形態に係るデータ処理装置１のハードウェア構成の一例を示すブロック図である。
データ処理装置１は、ハードウェアとして、例えば、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサ１１ａを有し、このハードウェアプロセッサ１１ａに、プログラムメモリ１１ｂ、データメモリ１２ａ、入出力インタフェース（Ｉ／Ｆ）１３ａを、バス２２を介して接続したものとなっている。

Ｉ／Ｆ１３ａは、例えば１つ以上の有線または無線の通信インタフェースを含み、例えば、オペレータによって入力部２に入力されたデータを取り込み、表示データを表示部３へ出力して表示させる処理を行う。

プログラムメモリ１１ｂは、記憶媒体として、例えばＨＤＤ（Hard Disk Drive）またはＳＳＤ（Solid State Drive）等の随時書込および読出しが可能な不揮発性メモリ、またはＲＯＭ等の不揮発性メモリを使用したもので、実施形態に係る各種制御処理を実行するために必要なプログラムを格納している。

データメモリ１２ａは、例えばＨＤＤまたはＳＳＤ等の随時書込および読出しが可能な不揮発性メモリと、ＲＡＭ等の揮発性メモリとを組み合わせたものを記憶媒体として備える。そして、本実施形態に係る各種処理を実行する過程で取得、生成、算出される各種データを記憶するために用いられる。

入力部２は、ユーザ入力を受け付けるもので、例えば、キーボード、マウス、タッチスクリーン、ボタン、スイッチなどである。

表示部３は、ユーザに対して情報を提示するもので、例えば、液晶ディスプレイや有機ＥＬ（Electro-Luminescence）ディスプレイなどである。例えばタッチパネルのように、表示部３と入力部２とが一体に構成されてもよい。

図２は、この発明の第１の実施形態に係るデータ処理装置１の機能構成を示すブロック図である。データ処理装置１は、取得されたデータに基づいて統計分析を実行して統計モデルを導出することができる。当該統計モデルの導出処理では、例えば、所定の特徴量の値を要素とする特徴ベクトルから所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルに係る回帰係数ベクトルを算出する。

データ処理装置１は、ハードウェアとして、制御ユニット１１と、上記データメモリ１２ａを含む記憶ユニット１２と、上記Ｉ／Ｆ１３ａを含む入出力インタフェースユニット１３とを備えている。

入出力インタフェースユニット１３は、例えば１つ以上の有線または無線の通信インタフェースユニットを含んでいる。入出力インタフェースユニット１３は、例えばキーボードやマウス等を含む入力部２によって入力された、データ処理装置１が統計分析を実行する際に用いるデータを、制御ユニット１１に入力する。さらに、入出力インタフェースユニット１３は、制御ユニット１１から出力された表示データを表示部３に表示させる。

記憶ユニット１２は、記憶媒体として例えばＨＤＤまたはＳＳＤ等の随時書き込みおよび読み出しが可能な不揮発メモリを使用したもので、本実施形態を実現するために、取得データ記憶部１２１と、分割データ記憶部１２２と、差分データ記憶部１２３と、統合データ記憶部１２４と、分析結果記憶部１２５とを備えている。

取得データ記憶部１２１は、入力部２から取得された複数のレコードを含むデータを記憶させるために使用される。

分割データ記憶部１２２は、上記取得されたデータを分割して生成されたデータセットを記憶させるために使用される。

差分データ記憶部１２３は、上記分割して生成されたデータセットの各々に含まれるレコードに基づいて生成される差分データを記憶させるために使用される。

統合データ記憶部１２４は、上記差分データを統合して生成された、上記統計分析を実行する際に用いる統合データを記憶させるために使用される。

分析結果記憶部１２５は、上記統計分析により得られた結果の情報を記憶させるために使用される。

制御ユニット１１は、上記ＣＰＵ等のハードウェアプロセッサ１１ａと、上記プログラムメモリ１１ｂとを備え、本実施形態における処理機能を実行するために、データ取得部１１１と、データ分割部１１２と、差分データ生成部１１３と、データ統合部１１４と、データ分析部１１５と、分析結果出力部１１６とを備えている。これらの各部における処理機能はいずれも、プログラムメモリ１１ｂに格納されたプログラムを上記ハードウェアプロセッサ１１ａに実行させることによって実現される。なお、これらの処理機能は、プログラムメモリ１１ｂに格納されたプログラムを用いて実現されるのではなく、ネットワークを通して提供されるプログラムを用いて実現されてもよい。

データ取得部１１１は、入出力インタフェースユニット１３を介して入力部２から、複数のレコードを含むデータであって、当該複数のレコードの各々が、所定の特徴量の値に対応する情報と、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報と、当該レコードに係る上記所定の特徴量の値および当該レコードに係る上記外部条件に対応して、上記所定の事象が発生した正ラベルのデータと上記所定の事象が発生しなかった負ラベルのデータとのいずれに当該レコードが対応するかを示すラベル情報とを含む、データを取得する処理を実行する。その後、データ取得部１１１は、当該取得されたデータを、記憶ユニット１２の取得データ記憶部１２１に記憶させる処理を実行する。

データ分割部１１２は、記憶ユニット１２の取得データ記憶部１２１に記憶されるデータを読み出し、当該読み出されたデータに含まれる上記複数のレコードを、上記外部条件識別情報が示す外部条件毎に分けるように上記読み出されたデータを分割し、当該外部条件毎のデータセットを生成する処理を実行する。その後、データ分割部１１２は、当該生成された外部条件毎のデータセットを、記憶ユニット１２の分割データ記憶部１２２に記憶させる処理を実行する。

差分データ生成部１１３は、記憶ユニット１２の分割データ記憶部１２２に記憶される、上記外部条件毎のデータセットを読み出し、当該読み出された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、上記ラベル情報が示す、当該レコードが正ラベルのデータと負ラベルのデータとのいずれに対応するかで分けるようにデータセットを分割し、上記ラベル情報毎の２つのデータセットを生成する処理を実行する。次に、差分データ生成部１１３は、上記ラベル情報毎の２つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて、各レコードに係る上記所定の特徴量の各特徴量についての値の差分と、各レコードに係る上記所定の事象が発生したか否かを示す値の差分とを含む差分データを生成する処理を実行する。その後、差分データ生成部１１３は、当該生成された差分データを、記憶ユニット１２の差分データ記憶部１２３に記憶させる処理を実行する。

データ統合部１１４は、記憶ユニット１２の差分データ記憶部１２３に記憶される、上記外部条件毎に生成された差分データを読み出し、当該読み出された差分データを結合して統合データを生成し、当該生成された統合データを、記憶ユニット１２の統合データ記憶部１２４に記憶させる処理を実行する。

データ分析部１１５は、記憶ユニット１２の統合データ記憶部１２４に記憶される上記統合データを読み出し、当該読み出された統合データを統計分析する処理を実行する。データ分析部１１５は、係数ベクトル算出部１１５１を備える。例えば、データ分析部１１５は、上記統合データ中の差分データに含まれる上記所定の特徴量の各特徴量についての値の差分を特徴ベクトルの所定の特徴量の値として、さらに、当該差分データに含まれる上記所定の事象が発生したか否かを示す値の差分を上記所定の事象が発生したか否かを示すラベルとして用いることによって、係数ベクトル算出部１１５１において、上記特徴ベクトルから上記所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルに係る回帰係数ベクトルを算出する処理を実行する。データ分析部１１５は、上記統計分析により得られた結果の情報、例えば、上記モデルに関連する情報あるいは上記回帰係数ベクトルの情報を、記憶ユニット１２の分析結果記憶部１２５に記憶させる処理を実行する。

分析結果出力部１１６は、記憶ユニット１２の分析結果記憶部１２５に記憶される上記統計分析により得られた結果の情報を読み出し、当該読み出された情報の表示データを、入出力インタフェースユニット１３を介して表示部３に出力する処理を実行する。

（動作）
次に、以上のように構成されたデータ処理装置１の動作を説明する。
（１）営業販売履歴データに基づく統計分析処理
図３は、図２に示したデータ処理装置１の制御ユニット１１によって実行される取得データに基づく統計分析処理の一例を示すフロー図である。当該フロー図では、営業販売履歴データに基づく統計分析処理を例に挙げて説明する。

先ず、ステップＳ１において、制御ユニット１１は、データ取得部１１１の制御の下、例えばキーボードやマウス等を含む入力部２に例えばオペレータが手入力により入力した営業販売履歴データを取得し、当該取得された営業販売履歴データを取得データ記憶部１２１に記憶させる。なお、当該営業販売履歴データの取得処理は、例えば、通信を用いた自動収集により実行されるようにしてもよい。また、データ取得部１１１は、ステップＳ１において、あらかじめ記憶ユニット１２の記憶領域に記憶されたデータを読み込むことによって、データを取得するようにしてもよい。

図４は、取得データ記憶部１２１に記憶される、ある商材の営業販売履歴データの一例を示す図である。
図４に示す営業販売履歴データは複数のレコードを含んでいる。当該複数のレコードの各々は、営業先の顧客を識別する顧客ＩＤ情報と、所定の事象が発生した正ラベルのデータと上記所定の事象が発生しなかった負ラベルのデータとのいずれに当該レコードが対応するかを示すラベル情報としての、営業活動を行った結果として商材が売れたか否かの販売結果を示す販売結果情報と、上記所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報としての、営業活動を行った担当者を識別する営業社員ＩＤ情報と、所定の特徴量の値に対応する情報としての、顧客ＩＤに紐付く属性情報、例えば、従業員の規模や業種等を含んでいる。

次に、ステップＳ２において、制御ユニット１１は、データ分割部１１２の制御の下、取得データ記憶部１２１に記憶される上記営業販売履歴データを読み出し、当該読み出された営業販売履歴データに含まれる上記複数のレコードを、上記営業社員ＩＤ情報が示す営業社員ＩＤ毎に分けるように上記営業販売履歴データを分割し、当該営業社員ＩＤ毎のデータセットＤｉを生成する。その後、制御ユニット１１は、データ分割部１１２の制御の下、当該生成された営業社員ＩＤ毎のデータセットＤｉを分割データ記憶部１２２に記憶させる。

当該営業社員ＩＤ毎のデータセットの生成処理では、例えば、先ず、上記営業販売履歴データにおける営業社員ＩＤのユニークリストＬが生成され、上記営業販売履歴データのうち、営業社員ＩＤの情報を示すカラムが参照されて、営業社員ＩＤ毎のデータセットＤｉが生成される。図４に示した営業販売履歴データの例では、営業販売履歴データが、営業社員ＩＤが甲となっているレコードのみを集めたデータセットと、営業社員ＩＤが乙となっているレコードのみを集めたデータセットとに分割される。

ステップＳ３において、制御ユニット１１は、差分データ生成部１１３の制御の下、分割データ記憶部１２２に記憶される上記営業社員ＩＤ毎のデータセットＤｉを読み出し、当該読み出された上記営業社員ＩＤ毎のデータセットＤｉの各々について、当該データセットＤｉに含まれるレコードを、商材が売れたことと売れなかったこととのいずれを上記販売結果情報が示すかで分けるようにデータセットＤｉを分割し、上記販売結果情報毎の２つのデータセットである、商材が売れた販売結果のレコードのデータセットＤｉ＋と商材が売れなかった販売結果のレコードのデータセットＤｉ−とを生成する。

ステップＳ４において、制御ユニット１１は、差分データ生成部１１３の制御の下、上記データセットＤｉ＋に含まれるレコードと上記データセットＤｉ−に含まれるレコードとの間の組み合わせについて、差分データを生成する。その後、制御ユニット１１は、差分データ生成部１１３の制御の下、当該営業社員ＩＤ毎に生成された差分データを差分データ記憶部１２３に記憶させる。当該差分データの生成処理では、例えば、上記データセットＤｉ＋に含まれる各レコードと、上記データセットＤｉ−に含まれる各レコードとの間の総組み合わせ分の差分データを生成する。差分データでは、例えば、データセットＤｉ＋に含まれる各レコードと、データセットＤｉ−に含まれる各レコードとの全組み合わせ｛ｃ｝において特徴量ＸとラベルＹを次のように定義する。
（Ｘ，Ｙ＋）_ｉｃ＝（｛（Ｄｉ＋）−（Ｄｉ−）｝，１）_ｉｃ
（Ｘ，Ｙ−）_ｉｃ＝（｛（Ｄｉ−）−（Ｄｉ＋）｝，−１）_ｉｃ
なお、上記差分は、上記顧客ＩＤに紐付く属性情報および上記販売結果情報について、数量データであるものはそのまま引き算を行ったものとし、カテゴリカルデータである場合にはダミー変数として扱いそのまま引き算を行ったものとする。図４の例では、特徴量Ｘは、例えば、顧客属性である従業員規模や業種の情報に対応し、ラベルＹは、例えば、販売結果情報（売れた／売れなかった）に対応する。

図４の例では、顧客属性である従業員規模や業種の情報は、カテゴリカルデータに該当するので、当該顧客属性である従業員規模や業種の情報に関しては、ダミー変数として扱われる。また、販売結果情報に関しては、例えば「売れた」データを「１」とし、「売れなかった」データを「０」として、引き算が行われる。同一の社員ＩＤ毎に、「売れた」データと「売れなかった」データとの差分をとるため、社員特有の潜在的な特徴に関する影響である、例えば、社員の容姿やセールストークの内容、振る舞い等、営業成績に影響するような潜在的な特徴に関する影響を、相殺することができる。

ステップＳ５において、制御ユニット１１は、データ統合部１１４の制御の下、差分データ記憶部１２３に記憶される、上記営業社員ＩＤ毎に生成された差分データを読み出し、当該読み出された差分データを結合して統合データＤｎｅｗを生成し、当該統合データＤｎｅｗを統合データ記憶部１２４に記憶させる。

当該統合データＤｎｅｗの生成処理では、例えば、上記営業社員ＩＤの各々について、ならびに、データセットＤｉ＋に含まれるレコードとデータセットＤｉ−に含まれるレコードとの各々の組み合わせについて生成された、（Ｘ，Ｙ＋）_ｉｃおよび（Ｘ，Ｙ−）_ｉｃをすべて行結合し、分析用の上記統合データＤｎｅｗを生成する。

ステップＳ６において、制御ユニット１１は、データ分析部１１５の制御の下、統合データ記憶部１２４に記憶される上記統合データＤｎｅｗを読み出し、当該読み出された統合データを統計分析する。

上記統計分析処理では、相関分析、回帰分析、ロジスティック回帰分析、およびクラスタリング等の手法が、目的に応じて選択される。ここでは、特徴ベクトルに対して販売結果が「売れた」である場合に大きなスカラ値を出力する関数ｆ（ｘ；Ｗ）を設計する。ここで、ｘは特徴ベクトル、Ｗは特徴ベクトルに対応する回帰係数ベクトルを表す。特徴ベクトルｘの各要素は、上記の例では、差分データを結合して得られる分析用の統合データＤｎｅｗに含まれる特徴量である。この実施形態では、統計分析処理として、具体的には、係数ベクトル算出部１１５１において、販売結果を目的としたロジスティック回帰分析を行う。顧客ＩＤに紐付く変数の数が膨大な場合には、変数選択を行ってもよい。変数選択は、ＡＩＣによるステップワイズ法や、Ｌａｓｓｏ等を適用する。最終的なパラメータＷは、ニュートンラプソン法等を用いて算出できる。

ステップＳ６における統計分析処理の後に、制御ユニット１１は、分析結果出力部１１６の制御の下、上記統計分析により得られた結果の情報の表示データを表示部３に出力する。

上記出力処理では、例えば、データ分析部１１５の係数ベクトル算出部１１５１の制御下で実行されたロジスティック回帰分析の結果が出力される。ロジスティック回帰分析が実行されることにより、「売れた」販売結果である場合に大きなスカラ値を出力する関数ｆ（ｘ；Ｗ）におけるＷ；回帰係数ベクトルが出力されることになる。

（２）統計分析処理におけるＡＵＣ値の最大化
以下では、図３のステップＳ６において実行される統計分析処理の詳細を説明する。
例として、データ分析部１１５では、特徴ベクトルに対して正例である場合に大きなスカラ値を出力する関数ｆ（ｘ；Ｗ）を設計する。ここで、ｘは特徴ベクトル、Ｗは特徴ベクトルに対する回帰係数ベクトルとする。

正例集合

と、負例集合

とした場合、２値分類の精度を表す、受信者応答特性（Receiver Operating Characteristic：ＲＯＣ）曲線に基づく曲線下面積（Area Under the Curve：ＡＵＣ）値は、以下の式で算出できる。

ただし、

は、

の場合に１を、それ以外の場合に０を出力するステップ関数である。ラベルありデータ集合Ｄ＋，Ｄ−だけから学習させる場合は、ＡＵＣ値を最大化させるＷを算出する最適化問題を解くのが好ましい。

そこで、上記の最適化問題を、ステップ関数

をシグモイド関数

を用いて近似した以下の目的関数を最大化させるＷを算出する問題に置き換えることで、学習を容易に行うことができる。

Ｒ（Ｗ）は、パラメータＷに関する正則化項であり、Ｃは正則化項の重みを与えるハイパーパラメータである。正則化項は、サンプル集合に対して過剰にモデルが適合することで新規サンプルに対する予測精度を低下させる過学習を抑制するためによく用いられる。

目的関数とした

にあるように、正ラベルのデータ群と負ラベルのデータ群の差分を特徴量とすることで、ＡＵＣ値を最大化することが可能となる。したがって、上述したように生成された差分データを用いることにより、ＡＵＣ値を最大化することが可能となる。最終的なパラメータＷは、ニュートンラプソン法等を用いて算出できる。

また、データ分析部１１５では、特徴ベクトルに対して正例である場合に大きなスカラ値を出力する関数ｆ（ｘ；Ｗ）を設計したが、データ処理装置１では営業社員ＩＤ毎のデータを用いて分析を行うため、営業社員ＩＤをｐとした場合、Ｗを求める関数としては以下のように表現できることになる。

ここで、営業社員ｐが「売れた」ケースにおける特徴ベクトルを

とする。
また、営業社員ｐが「売れなかった」ケースにおける特徴ベクトルを

とする。このように、営業社員ごとにペアワイズ学習をする際の組み合わせを生成することで、営業社員が事象の発生に潜在的に影響を与える特徴が排除されたものとすることができ、売れやすい企業に関するその順序性を精度よく学習することが可能となる。
Ｒ（Ｗ）は、パラメータＷに関する正則化項であり、Ｃは正則化項の重みを与えるハイパーパラメータである。正則化項は、サンプル集合に対して過剰にモデルが適合することで新規サンプルに対する予測精度を低下させる過学習を抑制するためによく用いられる。

（３）ＡＵＣ値算出処理
上述したように、データ分析部１１５における統計分析処理では、正ラベルの発生しやすさをあらわすスコア値の妥当性を評価するＡＵＣ値の値を大きくすることができる。

以下では、上述した出力結果Ｗを用いて、「売れた」の発生しやすさをあらわすスコア値の妥当性を評価するＡＵＣ値の算出方法について例を挙げて説明する。

データ処理装置１による統計分析処理によってパラメータＷを算出するために例として用いた営業販売履歴データは、図４に示したようなデータ構造となっている、ある商品に関して営業活動を行った平成２８年度における１年分のデータである。このとき、特徴ベクトルの次元が１００を超えていたため、過学習を防ぐ目的でＬ２正則化を適用したロジスティック回帰分析を実行した。パラメータＷは、ニュートンラプソン法を用いて算出した。

このようにして算出されたパラメータＷを用いて、未知の営業先である顧客に対して「売れる」スコア値の予測値の算出を実行した。ここで、未知の営業先である顧客に紐付く特徴ベクトルと、上述したように算出されたパラメータＷを用いて、ロジスティック回帰モデルに基づく以下の式により、スコア値の予測値を算出した。

ここで、データ分析部１１５で求めた関数ｆ（ｘ；Ｗ）＝ｔ（Ｗ）Ｘとあらわせるので、
スコア値＝１／（１＋ｅｘｐ（−（ｔ（Ｗ）Ｘ）））
ここでｔは転置を示す。

これにより、顧客ＩＤ、および顧客ＩＤに紐付く顧客属性に対し、「売れる」スコア値の予測値が紐付いた。このスコア値の妥当性の評価には、ＡＵＣ値を用いた。ＡＵＣ値が大きいほど、正例から負例の順にコンテンツが正しくスコアで順位付けされていることになっている。

スコア値の予測値の妥当性を評価するためのデータとして、平成２９年度４月から７月までの営業販売履歴データを用いた。以降、これを評価データと呼ぶ。これは、上述したようにパラメータＷを算出した際に使用した平成２８年度の営業販売履歴データと、データ構造および販売した商材は同一である。

上記評価データでは、各顧客ＩＤの情報に対して、実際に営業活動を行い、販売結果として「売れた」「売れなかった」の結果が対応付けられている。上記で算出した「売れる」スコア値の予測値と、実際に販売した結果「売れた」かにより、ＡＵＣ値を算出する評価を実行した。具体的には以下の式により算出した。

ただし、

は、

の場合に１を出力し、それ以外の場合に０を出力するステップ関数である。

このようにして、上述したように導出されたＬ２型ロジスティック回帰モデルのＡＵＣ値は、０．５１と算出された。

図２に示したような構成を用いてこのように算出されたＡＵＣ値が改善できていることを示すために、２つの比較手法によって算出されたＡＵＣ値も示す。

比較手法ａでは、膨大な変数の中から有効な変数のみを選択することができるＬ２正則化型ロジスティック回帰モデルを対象とする。この手法は、図２に示したデータ取得部１１１、取得データ記憶部１２１、データ分析部１１５、および分析結果出力部１１６のみを用いてパラメータＷを算出したケースに対応する。この手法では、正ラベルと負ラベルとのラベルの不均衡性と、潜在的な特徴による影響を考慮できていない。比較手法ａでは、ＡＵＣ値は０．４２と算出された。

比較手法ｂは、比較手法ａのＬ２正則化型ロジスティック回帰モデルに対し、さらに図２に示した差分データ生成部１１３とデータ統合部１１４も適用してパラメータＷを求めたケースに対応する。この手法では、正ラベルと負ラベルとのラベルの不均衡性は考慮できているものの、潜在的な特徴による影響は考慮できていない。比較手法ｂでは、ＡＵＣ値は０．３９と算出された。

このように、図２に示したような構成を用いて上述したように算出されたＡＵＣ値は、比較手法ａ，ｂの場合に算出されるＡＵＣ値と比較して改善されていることが分かる。

（効果）
（１）データ取得部１１１の制御の下、複数のレコードを含む営業販売履歴データが取得される。当該複数のレコードの各々は、営業先の顧客を識別する顧客ＩＤ情報と、営業活動を行った結果として商材が売れたか否かの販売結果を示す販売結果情報と、営業活動を行った担当者を識別する営業社員ＩＤ情報と、顧客ＩＤに紐付く属性情報、例えば、従業員の規模や業種等を含んでいる。データ分割部１１２の制御の下、当該営業販売履歴データに含まれる上記複数のレコードを、上記営業社員ＩＤ情報が示す営業社員ＩＤ毎に分けるように上記営業販売履歴データが分割され、当該営業社員ＩＤ毎のデータセットＤｉが生成される。差分データ生成部１１３の制御の下、当該営業社員ＩＤ毎のデータセットＤｉの各々について、当該データセットＤｉに含まれるレコードを、商材が売れたことと売れなかったこととのいずれを上記販売結果情報が示すかで分けるようにデータセットＤｉが分割され、上記販売結果情報毎の２つのデータセットである、商材が売れた販売結果のレコードのデータセットＤｉ＋と商材が売れなかった販売結果のレコードのデータセットＤｉ−とが生成される。さらに、差分データ生成部１１３の制御の下、上記データセットＤｉ＋に含まれるレコードと上記データセットＤｉ−に含まれるレコードとの間の組み合わせについて、差分データが生成される。データ統合部１１４の制御の下、上記営業社員ＩＤ毎に上記生成された差分データを結合して統合データＤｎｅｗが生成される。データ分析部１１５の制御の下、当該統合データＤｎｅｗが統計分析される。

このように、上記販売結果情報毎の２つのデータセットＤｉ＋，Ｄｉ−の各々に含まれるレコードの間の組み合わせについて、統計分析に用いられる差分データが生成される。このため、ペアワイズ学習をする際の組み合わせ方をほぼ同一条件に揃えることができ、したがって、正ラベルと負ラベルとが不均衡である場合に希少である一方のラベルを精度よく予測できないという問題を解決することができる。また、上記販売結果情報毎の２つのデータセットは、販売結果に影響を及ぼす潜在的な特徴となる外部条件が同一のレコードをまとめた営業社員ＩＤ毎のレコードセットＤｉを分割して生成される。このように、上記外部条件が同一のレコード毎に上記差分データが生成されるため、当該生成される差分データは、上記潜在的な特徴の影響が排除されたものとすることができる。さらに、上記販売結果情報毎の２つのデータセットＤｉ＋，Ｄｉ−の各々に含まれるレコードの間のさまざまな組み合わせについて差分データを生成させることができるので、サンプルとして十分に説明変数を集められない場合においても統計分析を実行するのに十分なデータ量を確保することもできる。

（２）データ分析部１１５の係数ベクトル算出部１１５１の制御下での上記統合データの統計分析処理において、「売れた」販売結果である場合に大きなスカラ値を出力するモデルが導出される場合に、当該モデルに係るＲＯＣ曲線に基づくＡＵＣ値が最大化するように当該モデルに係る回帰係数ベクトルが算出される。

上記Nitesh他の文献に記載の技術では、ＲＯＣ曲線に基づくＡＵＣ値を最良にすることは難しいという問題があった。しかしながら、上述したように、正ラベルのデータと負ラベルのデータとのサンプル数を揃えて統計分析を実行できることに加えて、当該統計分析により導出されるモデルに係るＡＵＣ値を最良化することもできる。

（３）さらに、上記第１の実施形態に係るデータ処理装置を用いることで、データ処理負荷の重いデータ分析工程の学習効率を向上させることが可能となる。具体的には、上記第１の実施形態に係るデータ処理装置を使用した場合のデータ分析と、使用しない場合のデータ分析とにおいて、分析対象のデータレコード数が同じとした場合、データ分析工程の処理の負荷は同じであるにもかかわらず、上記第１の実施形態に係る装置を使用した場合のデータ分析をした学習モデルは、使用しない場合のデータ分析をした学習モデルよりも、学習目的に対して精度のよい予測を可能とする学習モデルを実現することができる。

［他の実施形態］
なお、この発明は上記第１の実施形態に限定されるものではない。

例えば、上記第１の実施形態では、営業社員毎に営業スタイルが異なり、かつ受注と失注といった販売結果が不均衡である場合にも、これから営業を行うある企業に営業を行った場合の受注スコアの予測値を精度よく算出するための統計モデルを、データ処理装置による統計分析によって導出する場合の例について説明した。

しかしながら、データ処理装置によって導出される統計モデルは上記のものに限定されない。この場合、データ処理装置によって取得され、データ処理装置によって処理された後に上記統計分析に用いられるデータは、上記第１の実施形態における営業販売履歴データではなく、導出したい統計モデルに対応したものとする。

＜モバイルセンサにおける加速度データを用いた段差スコア予測＞
例えば、人毎に歩き方が異なり、かつ大きな段差がある地点とない地点でラベルが不均衡である場合に、モバイルの加速度センサから段差を通ったスコアを精度よく算出するための統計モデルを導出する場合について考える。この場合、データ計測者（ユーザ）がモバイルセンサを携帯して街中を歩き、その加速度から段差があるかどうかを判別することを想定する。

データ取得部１１１においては、ユーザに所持されるモバイルセンサにおける加速度センサから加速度のデータがモバイル回線を介して取得される。加速度データのサンプリング間隔は、例えば１００Ｈｚとする。取得データ記憶部１２１において記憶される各レコードとして、データ測定者である歩行者（ユーザ）を識別するＩＤの情報と、歩行位置を示す位置情報と、加速度データが示す情報と、実際に段差があったかどうかの正解フラグの情報とが記憶されるようにする。すなわち、この実施例では、特徴量の値には、ユーザに所持されるモバイルの加速度データの値が含まれ、外部条件識別情報には、歩行者（ユーザ）を識別するＩＤの情報が含まれる。また、この実施例では、歩行者（ユーザ）が実際に段差を通ったときには、上記所定の事象が発生したことを示す正ラベルが付与され、段差を通らなかったときには、負ラベルが付与される。

データ分割部１１２においては、データ測定者である歩行者を識別するＩＤ毎にデータセットを分割するようにする。これにより、外部条件識別情報としての歩行者（ユーザ）を識別するＩＤ毎にデータセットＤｉが生成される。差分データ生成部１１３においては、データ分割部の制御下で生成された歩行者を識別するＩＤ毎のデータセットの各々について、当該データセットを、「段差あり（正ラベル）」のデータのみを集めたデータセットＤｉ＋と、「段差なし（負ラベル）」のデータのみを集めたデータセットＤｉ−に分割し、それぞれのレコードの総組み合わせにおいて引き算を行い、差分データセットを生成するようにする。生成される差分データセットには、加速度センサの加速度データの値の差分と、段差のありなし（歩行者が実際に段差を通ったか否か）を示す値の差分とが含まれることになる。

データ統合部１１４においては、差分データ生成部の制御下で歩行者を識別するＩＤ毎に生成された差分データセットを、レコード単位ですべて統合し、統計分析のための統合データＤｎｅｗとするようにする。データ分析部１１５（係数ベクトル算出部１１５１）においては、当該統合データＤｎｅｗを用いて、段差があるかどうかを判別するロジスティック回帰分析を実施するようにする。ここで、加速度データを特徴ベクトルｘとした場合、段差があるスコア値を算出する関数ｆ（ｘ；Ｗ）におけるパラメータＷを算出することになる。特徴ベクトルｘは、上記加速度データの値の差分を要素として含む。パラメータＷは、回帰係数ベクトルの要素値を含む。パラメータＷは、ニュートンラプソン法等を用いて算出することができる。分析結果出力部１１６においては、データ分析部１１５の制御下で算出されたパラメータＷが出力されるようにする。

このように算出されたパラメータＷを用いることにより、未知の場所を歩行して加速度データを測定した場合、加速度データを特徴ベクトルｘとした場合には、スコア値＝１／（１＋ｅｘｐ（−（ｔ（Ｗ）Ｘ）））を計算することで、段差であるスコア値を算出することが可能となる。ここで、ｔは転置を示す。本スコア値は、測定者による歩き方のような、データとして表現しづらい潜在的な特徴による影響を排除することができており、かつ希少事象である段差の不均衡性も考慮することができているため、精度よく段差であるスコア値を算出することが可能である。

＜金融業における融資データを用いた貸し倒れスコア予測＞
例えば、企業の経営者毎に経営戦略が異なり、かつ銀行がその企業に融資した結果として貸し倒れが発生する場合としない場合でラベルが不均衡である場合に、融資対象である企業に関する情報やその企業の経営者に関する情報から、貸し倒れするスコアを精度よく算出するための統計モデルを導出する場合について考える。

データ取得部においては、入力部を介して入力された、融資対象である企業に関する情報や、その企業の経営者に関するタイプの情報のデータが取得される。入力方式は、Ｗｅｂにある情報からのクローリングや、紙面にある情報からの文字認識、または人手による手入力でもよい。取得データ記憶部において記憶される各レコードとして、融資対象である企業を識別するＩＤの情報と、その企業に紐付く情報である、例えば従業員規模や業種等の情報と、その企業の経営者のタイプの情報と、例えば企業の経営者がワンマンタイプあるいはカリスマタイプであるという情報と、実際に貸し倒れが発生したかどうかの正解フラグの情報とが記憶されるようにする。データ分割部においては、融資対象である企業の経営者のタイプ毎にデータセットを分割するようにする。差分データ生成部においては、データ分割部の制御下で生成された企業の経営者のタイプ毎のデータセットの各々について、当該データセットを、「貸し倒れあり」のデータのみを集めたデータセットと、「貸し倒れなし」のデータのみを集めたデータセットとに分割し、それぞれのレコードの総組み合わせにおいて引き算を行い、差分データセットを生成するようにする。データ統合部においては、差分データ生成部の制御下で生成された差分データセットを、レコード単位ですべて統合し、統計分析のための統合データとするようにする。データ分析部においては、当該統合データを用いて、貸し倒れが発生したかどうかを判別するロジスティック回帰分析を実施するようにする。ここで、融資対象である企業に関する情報（従業員規模や業種等）を特徴ベクトルｘとした場合、貸し倒れの発生しやすさをあらわすスコア値を算出する関数ｆ（ｘ；Ｗ）におけるパラメータＷを算出することになる。パラメータＷは、ニュートンラプソン法等を用いて算出することができる。分析結果出力部においては、データ分析部の制御下で算出されたパラメータＷが出力されるようにする。

このように算出されたパラメータＷを用いることにより、融資候補である企業に関する情報を特徴ベクトルｘとした場合には、スコア値＝１／（１＋ｅｘｐ（−（ｔ（Ｗ）Ｘ）））を計算することで、貸し倒れの発生しやすさをあらわすスコア値を算出することが可能となる。ここでｔは転置を示す。本スコア値は、経営者のタイプ毎による経営戦略のような、データとして表現しづらい潜在的な特徴による影響を排除することができており、かつ希少事象である貸し倒れ発生の不均衡性も考慮することができているため、精度よく貸し倒れの発生しやすさをあらわすスコア値を算出することが可能である。

以上説明したように、ここに記載される諸実施形態に係るデータ処理装置、方法、プログラムまたはプログラムを記憶した媒体は、差分データを生成することを含む。この差分データ生成においては、潜在特性識別子（潜在特性が同じデータ）ごとに正例データと負例データの差分を生成するようにしている。すなわち、事象の起こりやすさに強く依存する潜在特性に仮説をたて、その潜在特性が同一となる識別子ごとにデータを選択する。

営業データにおいては、営業した結果「売れた／売れなかった」という事象に対し、営業担当者のスキルが潜在特性に該当し、潜在特性識別子は営業担当者ＩＤとなる。したがって、差分データとして、営業担当者ＩＤごとに正例データと負例データの差分が生成されることになる。

人が加速度センサを所持しながら歩いて収集した加速度データにおいては、「段差がある／なし」という事象に対し、歩行者（ユーザ）の歩容が潜在特性に該当し、潜在特性識別子は歩行者ＩＤとなる。したがって、差分データとして、歩行者ＩＤごとに、正例データと負例データの差分が生成されることになる。

また、ある企業に融資をした結果「貸し倒れした／しなかった」という事象に対し、企業を経営する経営者のタイプが潜在特性に該当し、潜在特性識別子は経営者ＩＤとなる。したがって、差分データとして、経営者ＩＤごとに、正例データと負例データの差分が生成されることになる。

このように、ここに記載される諸実施形態では、統計分析において、事象の起こりやすさに強く依存する潜在特性が同一となるように正例データと負例データを選択し、差分データを生成するようにしている。これにより、上記統計分析において事象の起こりやすさを精度よく予測でき、学習効率を向上させることが可能となる。

＜その他＞
さらに、上記では、潜在的な特徴として、例えば人に依存する特徴である、営業活動を行う場合の営業担当者の売り方や、モバイルセンサを所持して加速度を計測している人の歩き方や、例えば企業の経営者がワンマンタイプあるいはカリスマタイプであるといったタイプに依存するような経営戦略等の、特徴付ける振る舞いや考え方のようなデータとしての表現が難しいものの影響を排除することができることを説明した。

しかしながら、潜在的な特徴としては、例えば営業活動を行う場合の天候である、雨の降り方や風の吹き方等の、特徴付ける現象をデータとして表現が難しいものを含めることもできる。

その他、データ処理装置や制御ユニットが備える各部の構成や取得データ記憶部に記憶されるレコードの構成等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。

要するにこの発明は、上記第１の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記第１の実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、上記第１の実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

（付記）
上記各実施形態の一部または全部は、特許請求の範囲のほか以下の付記に示すように記載することも可能であるが、これに限られない。
（付記１）
取得された複数のレコードを、当該複数のレコードの各レコードに含まれる、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成するデータ分割部（１１２）と、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、当該レコードに含まれる、前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けて、当該ラベル情報毎の２つのデータセットを生成し、当該ラベル情報毎の２つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成する差分データ生成部（１１３）と、
前記差分データ生成部（１１３）によって生成された差分データを用いて統計分析を実行するデータ分析部（１１５）と
を備えるデータ処理装置（１）。
（付記２）
所定の特徴量の値を要素とする特徴ベクトルから所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルに係る回帰係数ベクトルを算出するデータ処理装置（１）であって、
複数のレコードであって、当該複数のレコードの各々が、前記所定の特徴量の値に対応する情報と、前記所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報と、当該レコードに係る前記所定の特徴量の値および当該レコードに係る外部条件に対応して、前記所定の事象が発生した正ラベルのデータと前記所定の事象が発生しなかった負ラベルのデータとのいずれに当該レコードが対応するかを示すラベル情報とを含む、前記複数のレコードを取得するデータ取得部（１１１）と、
前記取得された複数のレコードを、前記外部条件識別情報が示す外部条件毎に分けて、当該外部条件毎のデータセットを生成するデータ分割部（１１２）と、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、前記ラベル情報が示す、当該レコードが前記正ラベルのデータと前記負ラベルのデータとのいずれに対応するかで分けて、前記ラベル情報毎の２つのデータセットを生成し、当該ラベル情報毎の２つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含む差分データを生成する差分データ生成部（１１３）と、
前記差分データ生成部（１１３）によって生成された差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を前記モデルに係る前記特徴ベクトルの前記所定の特徴量の値として、さらに、当該差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記回帰係数ベクトルを算出する係数ベクトル算出部（１１５１）と
を備えるデータ処理装置（１）。
（付記３）
前記係数ベクトル算出部（１１５１）は、前記モデルに係る受信者応答特性（Receiver Operating Characteristic：ＲＯＣ）曲線に基づく曲線下面積（Area Under the Curve：ＡＵＣ）値が最大化するように前記回帰係数ベクトルを算出する、請求項２に記載のデータ処理装置（１）。
（付記４）
ハードウェアプロセッサおよびメモリを備える装置が実行するデータ処理方法であって、
取得された複数のレコードを、当該複数のレコードの各レコードに含まれる、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成するデータ分割過程（Ｓ２）と、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、当該レコードに含まれる、前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けて、当該ラベル情報毎の２つのデータセットを生成し（Ｓ３）、当該ラベル情報毎の２つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成する差分データ生成過程（Ｓ４）と、
前記差分データ生成過程において生成された差分データを用いて統計分析を実行するデータ分析過程（Ｓ６）と
を備えるデータ処理方法。
（付記５）
ハードウェアプロセッサおよびメモリを備える装置が実行する、所定の特徴量の値を要素とする特徴ベクトルから所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルに係る回帰係数ベクトルを算出するデータ処理方法であって、
複数のレコードであって、当該複数のレコードの各々が、前記所定の特徴量の値に対応する情報と、前記所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報と、当該レコードに係る前記所定の特徴量の値および当該レコードに係る外部条件に対応して、前記所定の事象が発生した正ラベルのデータと前記所定の事象が発生しなかった負ラベルのデータとのいずれに当該レコードが対応するかを示すラベル情報とを含む、前記複数のレコードを取得するデータ取得過程（Ｓ１）と、
前記取得された複数のレコードを、前記外部条件識別情報が示す外部条件毎に分けて、当該外部条件毎のデータセットを生成するデータ分割過程（Ｓ２）と、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、前記ラベル情報が示す、当該レコードが前記正ラベルのデータと前記負ラベルのデータとのいずれに対応するかで分けて、前記ラベル情報毎の２つのデータセットを生成し（Ｓ３）、当該ラベル情報毎の２つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含む差分データを生成する差分データ生成過程（Ｓ４）と、
前記差分データ生成過程において生成された差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を前記モデルに係る前記特徴ベクトルの前記所定の特徴量の値として、さらに、当該差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記回帰係数ベクトルを算出する係数ベクトル算出過程（Ｓ６）と
を備えるデータ処理方法。
（付記６）
請求項１乃至３のいずれかに記載のデータ処理装置（１）が備える各部としてハードウェアプロセッサを機能させるプログラム。
（付記７）
統計分析を実行するデータ処理装置（１）により用いられるレコードのデータ構造であって、
所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報と、
前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報と
を含み、
前記データ処理装置（１）が、
前記データ構造を含む複数のレコードを、前記外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成し、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、前記ラベル情報に基づいて分けて、当該ラベル情報毎の２つのデータセットを生成し、当該ラベル情報毎の２つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成し、
前記生成された差分データを用いて統計分析を実行する
処理に用いられる、レコードのデータ構造。
（付記８）
所定の特徴量の値を要素とする特徴ベクトルから所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルに係る回帰係数ベクトルを算出するデータ処理装置（１）により用いられるレコードのデータ構造であって、
前記所定の特徴量の値に対応する情報と、
前記所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報と、
当該レコードに係る前記所定の特徴量の値および当該レコードに係る外部条件に対応して、前記所定の事象が発生した正ラベルのデータと前記所定の事象が発生しなかった負ラベルのデータとのいずれに当該レコードが対応するかを示すラベル情報と
を含み、
前記データ処理装置（１）が、
前記データ構造を含む複数のレコードを、前記外部条件識別情報が示す外部条件毎に分けて、当該外部条件毎のデータセットを生成し、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、前記ラベル情報が示す、当該レコードが前記正ラベルのデータと前記負ラベルのデータとのいずれに対応するかで分けて、前記ラベル情報毎の２つのデータセットを生成し、当該ラベル情報毎の２つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含む差分データを生成し、
前記生成された差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を前記モデルに係る前記特徴ベクトルの前記所定の特徴量の値として、さらに、当該差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記回帰係数ベクトルを算出する
処理に用いられる、レコードのデータ構造。

１…データ処理装置、１１…制御ユニット、１１１…データ取得部、１１２…データ分割部、１１３…差分データ生成部、１１４…データ統合部、１１５…データ分析部、１１６…分析結果出力部、１２…記憶ユニット、１２１…取得データ記憶部、１２２…分割データ記憶部、１２３…差分データ記憶部、１２４…統合データ記憶部、１２５…分析結果記憶部、１３…入出力インタフェースユニット、２…入力部、３…表示部

Claims

データ処理装置であって、
複数のレコードを含むデータを取得し、
取得されたデータの複数のレコードを、当該複数のレコードの各レコードに含まれる、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成し、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、当該レコードに含まれる、前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けて、当該ラベル情報毎の２つのデータセットを生成し、当該ラベル情報毎の２つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成し、
前記生成された差分データを用いて統計分析を実行し、
前記統計分析の実行結果を出力するように構成されたプロセッサと、
前記プロセッサを動作させる命令を記憶するメモリと
を備えるデータ処理装置。
前記取得されたデータの複数のレコードの各々がさらに、所定の特徴量の値に対応する情報を含み、
前記差分データが、前記ラベル情報毎の２つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについての、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含み、
前記統計分析を実行することが、前記所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を特徴ベクトルの要素とし、前記差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含む、
請求項１に記載のデータ処理装置。
前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性（Receiver Operating Characteristic：ＲＯＣ）曲線に基づく曲線下面積（Area Under the Curve：ＡＵＣ）値が最大化するように前記回帰係数ベクトルを算出することを含む、請求項２に記載のデータ処理装置。
前記取得されたデータの複数のレコードの各々がさらに、所定の特徴量の値として、ユーザに所持されるモバイルの加速度データの値を含み、前記外部条件識別情報として、前記ユーザを識別するＩＤを含み、前記所定の事象が発生したことを示す正ラベルが、前記ユーザが段差を通ったことを示し、前記所定の事象が発生しなかったことを示す負ラベルが、前記ユーザが段差を通らなかったことを示し、
前記差分データが、各レコードに係る前記加速度データの値の差分と、各レコードに係る前記ユーザが段差を通ったか否かを示す値の差分とを含み、
前記統計分析を実行することが、前記ユーザが段差を通ったかどうかをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記加速度データの値の差分を特徴ベクトルの要素とし、前記ユーザが段差を通ったか否かを示す値の差分を前記モデルに係る前記ユーザが段差を通ったか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含む、
請求項１に記載のデータ処理装置。
前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性（Receiver Operating Characteristic：ＲＯＣ）曲線に基づく曲線下面積（Area Under the Curve：ＡＵＣ）値が最大化するように前記回帰係数ベクトルを算出することを含む、請求項４に記載のデータ処理装置。
ハードウェアプロセッサおよびメモリを備える装置が実行するデータ処理方法であって、
複数のレコードを含むデータを取得することと、
取得されたデータの複数のレコードを、当該複数のレコードの各レコードに含まれる、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成することと、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、当該レコードに含まれる、前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けて、当該ラベル情報毎の２つのデータセットを生成し、当該ラベル情報毎の２つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成することと、
前記生成された差分データを用いて統計分析を実行することと、
前記統計分析の実行結果を出力することと
を備えるデータ処理方法。
前記取得された複数のレコードの各々がさらに、所定の特徴量の値に対応する情報を含み、
前記差分データが、前記ラベル情報毎の２つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについての、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含み、
前記統計分析を実行することが、前記所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を特徴ベクトルの要素とし、前記差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含む、
請求項６に記載のデータ処理方法。
前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性（Receiver Operating Characteristic：ＲＯＣ）曲線に基づく曲線下面積（Area Under the Curve：ＡＵＣ）値が最大化するように前記回帰係数ベクトルを算出することを含む、請求項７に記載のデータ処理方法。
前記取得されたデータの複数のレコードの各々がさらに、所定の特徴量の値として、ユーザに所持されるモバイルの加速度データの値を含み、前記外部条件識別情報として、前記ユーザを識別するＩＤを含み、前記所定の事象が発生したことを示す正ラベルが、前記ユーザが段差を通ったことを示し、前記所定の事象が発生しなかったことを示す負ラベルが、前記ユーザが段差を通らなかったことを示し、
前記差分データが、各レコードに係る前記加速度データの値の差分と、各レコードに係る前記ユーザが段差を通ったか否かを示す値の差分とを含み、
前記統計分析を実行することが、前記ユーザが段差を通ったかどうかをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記加速度データの値の差分を特徴ベクトルの要素とし、前記ユーザが段差を通ったか否かを示す値の差分を前記モデルに係る前記ユーザが段差を通ったか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含む、
請求項６に記載のデータ処理方法。
前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性（Receiver Operating Characteristic：ＲＯＣ）曲線に基づく曲線下面積（Area Under the Curve：ＡＵＣ）値が最大化するように前記回帰係数ベクトルを算出することを含む、請求項９に記載のデータ処理方法。
複数のレコードを含むデータを取得することと、
取得されたデータの複数のレコードを、当該複数のレコードの各レコードに含まれる、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成することと、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、当該レコードに含まれる、前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けて、当該ラベル情報毎の２つのデータセットを生成し、当該ラベル情報毎の２つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成することと、
前記生成された差分データを用いて統計分析を実行することと、
前記統計分析の実行結果を出力することと
をプロセッサに実行させるための命令を記憶した非一時的な有形のコンピュータ可読記憶媒体。
前記取得されたデータの複数のレコードの各々がさらに、所定の特徴量の値に対応する情報を含み、
前記差分データが、前記ラベル情報毎の２つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについての、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含み、
前記統計分析を実行することが、前記所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を特徴ベクトルの要素とし、前記差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含む、
請求項１１に記載のコンピュータ可読記憶媒体。
前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性（Receiver Operating Characteristic：ＲＯＣ）曲線に基づく曲線下面積（Area Under the Curve：ＡＵＣ）値が最大化するように前記回帰係数ベクトルを算出することを含む、請求項１２に記載のコンピュータ可読記憶媒体。
前記取得されたデータの複数のレコードの各々がさらに、所定の特徴量の値として、ユーザに所持されるモバイルの加速度データの値を含み、前記外部条件識別情報として、前記ユーザを識別するＩＤを含み、前記所定の事象が発生したことを示す正ラベルが、前記ユーザが段差を通ったことを示し、前記所定の事象が発生しなかったことを示す負ラベルが、前記ユーザが段差を通らなかったことを示し、
前記差分データが、各レコードに係る前記加速度データの値の差分と、各レコードに係る前記ユーザが段差を通ったか否かを示す値の差分とを含み、
前記統計分析を実行することが、前記ユーザが段差を通ったかどうかをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記加速度データの値の差分を特徴ベクトルの要素とし、前記ユーザが段差を通ったか否かを示す値の差分を前記モデルに係る前記ユーザが段差を通ったか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含む、
請求項１１に記載のコンピュータ可読記憶媒体。
前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性（Receiver Operating Characteristic：ＲＯＣ）曲線に基づく曲線下面積（Area Under the Curve：ＡＵＣ）値が最大化するように前記回帰係数ベクトルを算出することを含む、請求項１４に記載のコンピュータ可読記憶媒体。