JP6818935B2 - データ処理装置、方法、およびプログラムを記憶した媒体 - Google Patents
データ処理装置、方法、およびプログラムを記憶した媒体 Download PDFInfo
- Publication number
- JP6818935B2 JP6818935B2 JP2020500343A JP2020500343A JP6818935B2 JP 6818935 B2 JP6818935 B2 JP 6818935B2 JP 2020500343 A JP2020500343 A JP 2020500343A JP 2020500343 A JP2020500343 A JP 2020500343A JP 6818935 B2 JP6818935 B2 JP 6818935B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- difference
- record
- predetermined event
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 55
- 238000000034 method Methods 0.000 title description 68
- 238000007619 statistical method Methods 0.000 claims description 58
- 230000001133 acceleration Effects 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000003672 processing method Methods 0.000 claims description 10
- 238000013500 data storage Methods 0.000 description 33
- 238000007405 data analysis Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 14
- 238000013179 statistical model Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 11
- 238000007477 logistic regression Methods 0.000 description 11
- 230000010354 integration Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012733 comparative method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Operations Research (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Description
この発明は、取得されたデータに基づいて統計分析を実行するデータ処理装置、方法およびプログラムを記憶した媒体に関する。
近年、インターネットショッピングの購買履歴、プリペイドカードの利用履歴、ある商材の営業販売履歴等のように、多種多量のデータが蓄積されるようになってきた。蓄積されたデータを活用して、売り上げ向上や販売コスト削減を目的とした統計モデルの導出も行われている。
購買行動や営業による販売行動に係るデータについて、商材を「購入した」ないし「販売した」ことを示すデータは、商材を「購入しなかった」ないしは「販売できなかった」ことを示すデータに対し、希少であることが多い。このように、「購入した・購入しなかった」ないしは「販売した・販売できなかった」ことを示すデータにおいては、統計モデルにおいて目的変数となる2種類のラベル(以下、「購入した」を正ラベル、「購入しなかった」を負ラベルと称する。)が不均衡であるため、統計モデルを導出するにあたり、希少である正ラベルを精度よく予測できないという問題があった。
この問題を解決する手法として、サンプリングによってサンプル数を揃える方法が報告されている(例えば、Nitesh V. Chawla, et al. “SMOTE: Synthetic Minority Over-sampling Technique”, Journal of Artificial Intelligence Research 16 (2002) 321-357を参照)。
ここで、一般的に、売り買いをする人特有の振る舞い等の要因や、売り買いの対象となる商材特有の要因は、上述したような売り買いの結果に影響すると考えられる。しかしながら、これらの要因はデータとして表現することが難しいため、殆どの場合は上述したように蓄積されたデータセットには含まれない。
したがって、蓄積されたデータを活用して導出される統計モデルにおいて、このように売り買いの結果に影響し正ラベルまたは負ラベルの判別に影響するであろう、売り買いをする人特有の振る舞い等の要因や、売り買いの対象となる商材特有の要因を組み込むことができないという問題がある。
この発明は上記事情に着目してなされたもので、その目的とするところは、所定の事象の発生に対し影響を及ぼす潜在的な特徴を考慮して、取得されたデータを統計分析する技術を提供することにある。
上記課題を解決するために、この発明の第1の態様は、データ処理装置にあって、複数のレコードを含むデータを取得し、取得されたデータの複数のレコードを、当該複数のレコードの各レコードに含まれる、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成し、前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、当該レコードに含まれる、前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けて、当該ラベル情報毎の2つのデータセットを生成し、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成し、上記生成された差分データを用いて統計分析を実行し、その統計分析の実行結果を出力するように構成されたプロセッサと、当該プロセッサを動作させる命令を記憶するメモリとを備えるようにしたものである。
この発明の第2の態様は、上記第1の態様において、前記取得されたデータの複数のレコードの各々がさらに、所定の特徴量の値に対応する情報を含み、前記差分データが、前記ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについての、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含み、前記統計分析を実行することが、前記所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を特徴ベクトルの要素とし、前記差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含むようにしたものである。
この発明の第3の態様は、上記第2の態様において、前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性(Receiver Operating Characteristic:ROC)曲線に基づく曲線下面積(Area Under the Curve:AUC)値が最大化するように前記回帰係数ベクトルを算出することを含むようにしたものである。
この発明の第4の態様は、上記第1の態様において、前記取得されたデータの複数のレコードの各々がさらに、所定の特徴量の値として、ユーザに所持されるモバイルの加速度データの値を含み、前記外部条件識別情報として、前記ユーザを識別するIDを含み、前記所定の事象が発生したことを示す正ラベルが、前記ユーザが段差を通ったことを示し、前記所定の事象が発生しなかったことを示す負ラベルが、前記ユーザが段差を通らなかったことを示し、前記差分データが、各レコードに係る前記加速度データの値の差分と、各レコードに係る前記ユーザが段差を通ったか否かを示す値の差分とを含み、前記統計分析を実行することが、前記ユーザが段差を通ったかどうかをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記加速度データの値の差分を特徴ベクトルの要素とし、前記ユーザが段差を通ったか否かを示す値の差分を前記モデルに係る前記ユーザが段差を通ったか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含むようにしたものである。
この発明の第5の態様は、上記第4の態様において、前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性(Receiver Operating Characteristic:ROC)曲線に基づく曲線下面積(Area Under the Curve:AUC)値が最大化するように前記回帰係数ベクトルを算出することを含むようにしたものである。
この発明の第1の態様によれば、複数のレコードを含むデータが取得され、取得されたデータの複数のレコードが、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けられて、上記外部条件毎のデータセットが生成される。当該生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードが、上記所定の事象が発生したことを示す正ラベルと上記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けられて、当該ラベル情報毎の2つのデータセットが生成され、当該ラベル情報毎の2つのデータセットの各々に含まれるレコードの間の組み合わせについて差分データが生成される。当該生成された差分データを用いて統計分析が実行され、その統計分析の実行結果が出力される。
この発明の第2の態様によれば、複数のレコードの各々がさらに、所定の特徴量の値に対応する情報を含み、上記差分データとして、当該ラベル情報毎の2つのデータセットの各々に含まれるレコードの間の組み合わせについて、各レコードに係る上記所定の特徴量の各特徴量についての値の差分と、各レコードに係る上記所定の事象が発生したか否かを示す値の差分とを含む差分データが生成される。そして、上記統計分析として、上記所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルについて、上記生成された差分データに含まれる上記所定の特徴量の各特徴量についての値の差分を特徴ベクトルの要素とし、上記差分データに含まれる上記所定の事象が発生したか否かを示す値の差分を上記モデルに係る上記所定の事象が発生したか否かを示すラベルとして用いることによって、上記モデルに係る回帰係数ベクトルが算出される。
上述した第1および第2の態様では、ラベル情報毎の2つのデータセットの各々に含まれるレコードの間の組み合わせについて、統計分析に用いられる差分データが生成される。このため、ペアワイズ学習をする際の組み合わせ方をほぼ同一条件に揃えることができ、したがって、正ラベルと負ラベルとが不均衡である場合に希少である一方のラベルを精度よく予測できないという問題を解決することができる。また、上記ラベル情報毎の2つのデータセットは、外部条件が同一のレコードをまとめた外部条件毎のレコードセットを分割して生成される。このように、外部条件が同一のレコード毎に上記差分データが生成されるため、当該生成される差分データは、所定の事象の発生に対し影響を及ぼす潜在的な特徴の影響が排除されたものとすることができる。さらに、ラベル情報毎の2つのデータセットの各々に含まれるレコードの間のさまざまな組み合わせについて差分データを生成させることができるので、サンプルとして十分に説明変数を集められない場合においても統計分析を実行するのに十分なデータ量を確保することもできる。
この発明の第3および第5の態様によれば、所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルに係るROC曲線に基づくAUC値が最大化するように上記回帰係数ベクトルが算出される。
AUC値は2値分類の精度を表すのに一般によく用いられる、ROC曲線に基づく評価指標であり、AUC値が大きいほど、正例から負例の順にコンテンツが正しくスコアで順位付けされていることになっている。上記Nitesh他の文献に記載の技術では、ROC曲線に基づくAUC値を最良にすることは難しいという問題があった。しかしながら、上記第3の態様では、正ラベルのデータと負ラベルのデータとのサンプル数を揃えて統計分析を実行できることに加えて、当該統計分析により導出されるモデルに係るAUC値を最良化することもできる。
この発明の第4の態様によれば、上記第1の態様において、複数のレコードの各々がさらに、所定の特徴量の値として、ユーザに所持されるモバイルの加速度データの値を含み、また上記外部条件識別情報としてユーザを識別するIDを含む。これにより、複数のレコードが、ユーザを識別するIDに基づいて分けられて、ユーザを識別するID毎のデータセットが生成される。また、第4の態様では、上記所定の事象が発生したことを示す正ラベルが、上記ユーザが段差を通ったことを示し、上記所定の事象が発生しなかったことを示す負ラベルが、上記ユーザが段差を通らなかったことを示す。これにより、ユーザを識別するID毎のデータセットがさらにラベル情報に基づいて分けられて、ラベル情報毎の2つのデータセットが生成される。そして、ラベル情報毎の2つのデータセットの各々に含まれるレコード間の組合せについて上記差分データが生成される。当該差分データは、上記加速度データの値の差分と、上記ユーザが段差を通ったか否かを示す値の差分とを含む。そして、差分データを用いて統計分析を実行することによって、上記差分データに含まれる加速度データの値の差分を特徴ベクトルの要素とし、上記ユーザが段差を通ったか否かを示す値の差分をラベルとして用いて、ユーザが段差を通ったかどうかをあらわすスコア値を算出するためのモデルに係る回帰係数ベクトルが算出される。
これにより、ユーザによって歩き方が異なり、また大きな段差がある地点とない地点でラベルが不均衡であるような場合にも、上記第4の態様により、所定の事象の発生に対し影響を及ぼす潜在的な特徴の影響が排除された差分データを生成することができる。またこのような差分データを用いることで、ペアワイズ学習をする際の組み合わせ方をほぼ同一条件にそろえることができ、データ量を確保しつつ、段差を通ったスコアを算出するための統計モデルを導出することが可能となる。
すなわち、この発明によれば、所定の事象の発生に対し影響を及ぼす潜在的な特徴を考慮して、取得されたデータを統計分析する技術を提供することができる。
以下、図面を参照してこの発明に係わる実施形態を説明する。
[第1の実施形態]
(構成)
図1は、この発明の第1の実施形態に係るデータ処理装置1のハードウェア構成の一例を示すブロック図である。
データ処理装置1は、ハードウェアとして、例えば、CPU(Central Processing Unit)等のハードウェアプロセッサ11aを有し、このハードウェアプロセッサ11aに、プログラムメモリ11b、データメモリ12a、入出力インタフェース(I/F)13aを、バス22を介して接続したものとなっている。
[第1の実施形態]
(構成)
図1は、この発明の第1の実施形態に係るデータ処理装置1のハードウェア構成の一例を示すブロック図である。
データ処理装置1は、ハードウェアとして、例えば、CPU(Central Processing Unit)等のハードウェアプロセッサ11aを有し、このハードウェアプロセッサ11aに、プログラムメモリ11b、データメモリ12a、入出力インタフェース(I/F)13aを、バス22を介して接続したものとなっている。
I/F13aは、例えば1つ以上の有線または無線の通信インタフェースを含み、例えば、オペレータによって入力部2に入力されたデータを取り込み、表示データを表示部3へ出力して表示させる処理を行う。
プログラムメモリ11bは、記憶媒体として、例えばHDD(Hard Disk Drive)またはSSD(Solid State Drive)等の随時書込および読出しが可能な不揮発性メモリ、またはROM等の不揮発性メモリを使用したもので、実施形態に係る各種制御処理を実行するために必要なプログラムを格納している。
データメモリ12aは、例えばHDDまたはSSD等の随時書込および読出しが可能な不揮発性メモリと、RAM等の揮発性メモリとを組み合わせたものを記憶媒体として備える。そして、本実施形態に係る各種処理を実行する過程で取得、生成、算出される各種データを記憶するために用いられる。
入力部2は、ユーザ入力を受け付けるもので、例えば、キーボード、マウス、タッチスクリーン、ボタン、スイッチなどである。
表示部3は、ユーザに対して情報を提示するもので、例えば、液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイなどである。例えばタッチパネルのように、表示部3と入力部2とが一体に構成されてもよい。
図2は、この発明の第1の実施形態に係るデータ処理装置1の機能構成を示すブロック図である。データ処理装置1は、取得されたデータに基づいて統計分析を実行して統計モデルを導出することができる。当該統計モデルの導出処理では、例えば、所定の特徴量の値を要素とする特徴ベクトルから所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルに係る回帰係数ベクトルを算出する。
データ処理装置1は、ハードウェアとして、制御ユニット11と、上記データメモリ12aを含む記憶ユニット12と、上記I/F13aを含む入出力インタフェースユニット13とを備えている。
入出力インタフェースユニット13は、例えば1つ以上の有線または無線の通信インタフェースユニットを含んでいる。入出力インタフェースユニット13は、例えばキーボードやマウス等を含む入力部2によって入力された、データ処理装置1が統計分析を実行する際に用いるデータを、制御ユニット11に入力する。さらに、入出力インタフェースユニット13は、制御ユニット11から出力された表示データを表示部3に表示させる。
記憶ユニット12は、記憶媒体として例えばHDDまたはSSD等の随時書き込みおよび読み出しが可能な不揮発メモリを使用したもので、本実施形態を実現するために、取得データ記憶部121と、分割データ記憶部122と、差分データ記憶部123と、統合データ記憶部124と、分析結果記憶部125とを備えている。
取得データ記憶部121は、入力部2から取得された複数のレコードを含むデータを記憶させるために使用される。
分割データ記憶部122は、上記取得されたデータを分割して生成されたデータセットを記憶させるために使用される。
差分データ記憶部123は、上記分割して生成されたデータセットの各々に含まれるレコードに基づいて生成される差分データを記憶させるために使用される。
統合データ記憶部124は、上記差分データを統合して生成された、上記統計分析を実行する際に用いる統合データを記憶させるために使用される。
分析結果記憶部125は、上記統計分析により得られた結果の情報を記憶させるために使用される。
制御ユニット11は、上記CPU等のハードウェアプロセッサ11aと、上記プログラムメモリ11bとを備え、本実施形態における処理機能を実行するために、データ取得部111と、データ分割部112と、差分データ生成部113と、データ統合部114と、データ分析部115と、分析結果出力部116とを備えている。これらの各部における処理機能はいずれも、プログラムメモリ11bに格納されたプログラムを上記ハードウェアプロセッサ11aに実行させることによって実現される。なお、これらの処理機能は、プログラムメモリ11bに格納されたプログラムを用いて実現されるのではなく、ネットワークを通して提供されるプログラムを用いて実現されてもよい。
データ取得部111は、入出力インタフェースユニット13を介して入力部2から、複数のレコードを含むデータであって、当該複数のレコードの各々が、所定の特徴量の値に対応する情報と、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報と、当該レコードに係る上記所定の特徴量の値および当該レコードに係る上記外部条件に対応して、上記所定の事象が発生した正ラベルのデータと上記所定の事象が発生しなかった負ラベルのデータとのいずれに当該レコードが対応するかを示すラベル情報とを含む、データを取得する処理を実行する。その後、データ取得部111は、当該取得されたデータを、記憶ユニット12の取得データ記憶部121に記憶させる処理を実行する。
データ分割部112は、記憶ユニット12の取得データ記憶部121に記憶されるデータを読み出し、当該読み出されたデータに含まれる上記複数のレコードを、上記外部条件識別情報が示す外部条件毎に分けるように上記読み出されたデータを分割し、当該外部条件毎のデータセットを生成する処理を実行する。その後、データ分割部112は、当該生成された外部条件毎のデータセットを、記憶ユニット12の分割データ記憶部122に記憶させる処理を実行する。
差分データ生成部113は、記憶ユニット12の分割データ記憶部122に記憶される、上記外部条件毎のデータセットを読み出し、当該読み出された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、上記ラベル情報が示す、当該レコードが正ラベルのデータと負ラベルのデータとのいずれに対応するかで分けるようにデータセットを分割し、上記ラベル情報毎の2つのデータセットを生成する処理を実行する。次に、差分データ生成部113は、上記ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて、各レコードに係る上記所定の特徴量の各特徴量についての値の差分と、各レコードに係る上記所定の事象が発生したか否かを示す値の差分とを含む差分データを生成する処理を実行する。その後、差分データ生成部113は、当該生成された差分データを、記憶ユニット12の差分データ記憶部123に記憶させる処理を実行する。
データ統合部114は、記憶ユニット12の差分データ記憶部123に記憶される、上記外部条件毎に生成された差分データを読み出し、当該読み出された差分データを結合して統合データを生成し、当該生成された統合データを、記憶ユニット12の統合データ記憶部124に記憶させる処理を実行する。
データ分析部115は、記憶ユニット12の統合データ記憶部124に記憶される上記統合データを読み出し、当該読み出された統合データを統計分析する処理を実行する。データ分析部115は、係数ベクトル算出部1151を備える。例えば、データ分析部115は、上記統合データ中の差分データに含まれる上記所定の特徴量の各特徴量についての値の差分を特徴ベクトルの所定の特徴量の値として、さらに、当該差分データに含まれる上記所定の事象が発生したか否かを示す値の差分を上記所定の事象が発生したか否かを示すラベルとして用いることによって、係数ベクトル算出部1151において、上記特徴ベクトルから上記所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルに係る回帰係数ベクトルを算出する処理を実行する。データ分析部115は、上記統計分析により得られた結果の情報、例えば、上記モデルに関連する情報あるいは上記回帰係数ベクトルの情報を、記憶ユニット12の分析結果記憶部125に記憶させる処理を実行する。
分析結果出力部116は、記憶ユニット12の分析結果記憶部125に記憶される上記統計分析により得られた結果の情報を読み出し、当該読み出された情報の表示データを、入出力インタフェースユニット13を介して表示部3に出力する処理を実行する。
(動作)
次に、以上のように構成されたデータ処理装置1の動作を説明する。
(1)営業販売履歴データに基づく統計分析処理
図3は、図2に示したデータ処理装置1の制御ユニット11によって実行される取得データに基づく統計分析処理の一例を示すフロー図である。当該フロー図では、営業販売履歴データに基づく統計分析処理を例に挙げて説明する。
次に、以上のように構成されたデータ処理装置1の動作を説明する。
(1)営業販売履歴データに基づく統計分析処理
図3は、図2に示したデータ処理装置1の制御ユニット11によって実行される取得データに基づく統計分析処理の一例を示すフロー図である。当該フロー図では、営業販売履歴データに基づく統計分析処理を例に挙げて説明する。
先ず、ステップS1において、制御ユニット11は、データ取得部111の制御の下、例えばキーボードやマウス等を含む入力部2に例えばオペレータが手入力により入力した営業販売履歴データを取得し、当該取得された営業販売履歴データを取得データ記憶部121に記憶させる。なお、当該営業販売履歴データの取得処理は、例えば、通信を用いた自動収集により実行されるようにしてもよい。また、データ取得部111は、ステップS1において、あらかじめ記憶ユニット12の記憶領域に記憶されたデータを読み込むことによって、データを取得するようにしてもよい。
図4は、取得データ記憶部121に記憶される、ある商材の営業販売履歴データの一例を示す図である。
図4に示す営業販売履歴データは複数のレコードを含んでいる。当該複数のレコードの各々は、営業先の顧客を識別する顧客ID情報と、所定の事象が発生した正ラベルのデータと上記所定の事象が発生しなかった負ラベルのデータとのいずれに当該レコードが対応するかを示すラベル情報としての、営業活動を行った結果として商材が売れたか否かの販売結果を示す販売結果情報と、上記所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報としての、営業活動を行った担当者を識別する営業社員ID情報と、所定の特徴量の値に対応する情報としての、顧客IDに紐付く属性情報、例えば、従業員の規模や業種等を含んでいる。
図4に示す営業販売履歴データは複数のレコードを含んでいる。当該複数のレコードの各々は、営業先の顧客を識別する顧客ID情報と、所定の事象が発生した正ラベルのデータと上記所定の事象が発生しなかった負ラベルのデータとのいずれに当該レコードが対応するかを示すラベル情報としての、営業活動を行った結果として商材が売れたか否かの販売結果を示す販売結果情報と、上記所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報としての、営業活動を行った担当者を識別する営業社員ID情報と、所定の特徴量の値に対応する情報としての、顧客IDに紐付く属性情報、例えば、従業員の規模や業種等を含んでいる。
次に、ステップS2において、制御ユニット11は、データ分割部112の制御の下、取得データ記憶部121に記憶される上記営業販売履歴データを読み出し、当該読み出された営業販売履歴データに含まれる上記複数のレコードを、上記営業社員ID情報が示す営業社員ID毎に分けるように上記営業販売履歴データを分割し、当該営業社員ID毎のデータセットDiを生成する。その後、制御ユニット11は、データ分割部112の制御の下、当該生成された営業社員ID毎のデータセットDiを分割データ記憶部122に記憶させる。
当該営業社員ID毎のデータセットの生成処理では、例えば、先ず、上記営業販売履歴データにおける営業社員IDのユニークリストLが生成され、上記営業販売履歴データのうち、営業社員IDの情報を示すカラムが参照されて、営業社員ID毎のデータセットDiが生成される。図4に示した営業販売履歴データの例では、営業販売履歴データが、営業社員IDが甲となっているレコードのみを集めたデータセットと、営業社員IDが乙となっているレコードのみを集めたデータセットとに分割される。
ステップS3において、制御ユニット11は、差分データ生成部113の制御の下、分割データ記憶部122に記憶される上記営業社員ID毎のデータセットDiを読み出し、当該読み出された上記営業社員ID毎のデータセットDiの各々について、当該データセットDiに含まれるレコードを、商材が売れたことと売れなかったこととのいずれを上記販売結果情報が示すかで分けるようにデータセットDiを分割し、上記販売結果情報毎の2つのデータセットである、商材が売れた販売結果のレコードのデータセットDi+と商材が売れなかった販売結果のレコードのデータセットDi−とを生成する。
ステップS4において、制御ユニット11は、差分データ生成部113の制御の下、上記データセットDi+に含まれるレコードと上記データセットDi−に含まれるレコードとの間の組み合わせについて、差分データを生成する。その後、制御ユニット11は、差分データ生成部113の制御の下、当該営業社員ID毎に生成された差分データを差分データ記憶部123に記憶させる。当該差分データの生成処理では、例えば、上記データセットDi+に含まれる各レコードと、上記データセットDi−に含まれる各レコードとの間の総組み合わせ分の差分データを生成する。差分データでは、例えば、データセットDi+に含まれる各レコードと、データセットDi−に含まれる各レコードとの全組み合わせ{c}において特徴量XとラベルYを次のように定義する。
(X,Y+)ic=({(Di+)−(Di−)},1)ic
(X,Y−)ic=({(Di−)−(Di+)},−1)ic
なお、上記差分は、上記顧客IDに紐付く属性情報および上記販売結果情報について、数量データであるものはそのまま引き算を行ったものとし、カテゴリカルデータである場合にはダミー変数として扱いそのまま引き算を行ったものとする。図4の例では、特徴量Xは、例えば、顧客属性である従業員規模や業種の情報に対応し、ラベルYは、例えば、販売結果情報(売れた/売れなかった)に対応する。
(X,Y+)ic=({(Di+)−(Di−)},1)ic
(X,Y−)ic=({(Di−)−(Di+)},−1)ic
なお、上記差分は、上記顧客IDに紐付く属性情報および上記販売結果情報について、数量データであるものはそのまま引き算を行ったものとし、カテゴリカルデータである場合にはダミー変数として扱いそのまま引き算を行ったものとする。図4の例では、特徴量Xは、例えば、顧客属性である従業員規模や業種の情報に対応し、ラベルYは、例えば、販売結果情報(売れた/売れなかった)に対応する。
図4の例では、顧客属性である従業員規模や業種の情報は、カテゴリカルデータに該当するので、当該顧客属性である従業員規模や業種の情報に関しては、ダミー変数として扱われる。また、販売結果情報に関しては、例えば「売れた」データを「1」とし、「売れなかった」データを「0」として、引き算が行われる。同一の社員ID毎に、「売れた」データと「売れなかった」データとの差分をとるため、社員特有の潜在的な特徴に関する影響である、例えば、社員の容姿やセールストークの内容、振る舞い等、営業成績に影響するような潜在的な特徴に関する影響を、相殺することができる。
ステップS5において、制御ユニット11は、データ統合部114の制御の下、差分データ記憶部123に記憶される、上記営業社員ID毎に生成された差分データを読み出し、当該読み出された差分データを結合して統合データDnewを生成し、当該統合データDnewを統合データ記憶部124に記憶させる。
当該統合データDnewの生成処理では、例えば、上記営業社員IDの各々について、ならびに、データセットDi+に含まれるレコードとデータセットDi−に含まれるレコードとの各々の組み合わせについて生成された、(X,Y+)icおよび(X,Y−)icをすべて行結合し、分析用の上記統合データDnewを生成する。
ステップS6において、制御ユニット11は、データ分析部115の制御の下、統合データ記憶部124に記憶される上記統合データDnewを読み出し、当該読み出された統合データを統計分析する。
上記統計分析処理では、相関分析、回帰分析、ロジスティック回帰分析、およびクラスタリング等の手法が、目的に応じて選択される。ここでは、特徴ベクトルに対して販売結果が「売れた」である場合に大きなスカラ値を出力する関数f(x;W)を設計する。ここで、xは特徴ベクトル、Wは特徴ベクトルに対応する回帰係数ベクトルを表す。特徴ベクトルxの各要素は、上記の例では、差分データを結合して得られる分析用の統合データDnewに含まれる特徴量である。この実施形態では、統計分析処理として、具体的には、係数ベクトル算出部1151において、販売結果を目的としたロジスティック回帰分析を行う。顧客IDに紐付く変数の数が膨大な場合には、変数選択を行ってもよい。変数選択は、AICによるステップワイズ法や、Lasso等を適用する。最終的なパラメータWは、ニュートンラプソン法等を用いて算出できる。
ステップS6における統計分析処理の後に、制御ユニット11は、分析結果出力部116の制御の下、上記統計分析により得られた結果の情報の表示データを表示部3に出力する。
上記出力処理では、例えば、データ分析部115の係数ベクトル算出部1151の制御下で実行されたロジスティック回帰分析の結果が出力される。ロジスティック回帰分析が実行されることにより、「売れた」販売結果である場合に大きなスカラ値を出力する関数f(x;W)におけるW;回帰係数ベクトルが出力されることになる。
(2)統計分析処理におけるAUC値の最大化
以下では、図3のステップS6において実行される統計分析処理の詳細を説明する。
例として、データ分析部115では、特徴ベクトルに対して正例である場合に大きなスカラ値を出力する関数f(x;W)を設計する。ここで、xは特徴ベクトル、Wは特徴ベクトルに対する回帰係数ベクトルとする。
以下では、図3のステップS6において実行される統計分析処理の詳細を説明する。
例として、データ分析部115では、特徴ベクトルに対して正例である場合に大きなスカラ値を出力する関数f(x;W)を設計する。ここで、xは特徴ベクトル、Wは特徴ベクトルに対する回帰係数ベクトルとする。
正例集合
と、負例集合
とした場合、2値分類の精度を表す、受信者応答特性(Receiver Operating Characteristic:ROC)曲線に基づく曲線下面積(Area Under the Curve:AUC)値は、以下の式で算出できる。
ただし、
は、
の場合に1を、それ以外の場合に0を出力するステップ関数である。ラベルありデータ集合D+,D−だけから学習させる場合は、AUC値を最大化させるWを算出する最適化問題を解くのが好ましい。
そこで、上記の最適化問題を、ステップ関数
をシグモイド関数
を用いて近似した以下の目的関数を最大化させるWを算出する問題に置き換えることで、学習を容易に行うことができる。
R(W)は、パラメータWに関する正則化項であり、Cは正則化項の重みを与えるハイパーパラメータである。正則化項は、サンプル集合に対して過剰にモデルが適合することで新規サンプルに対する予測精度を低下させる過学習を抑制するためによく用いられる。
目的関数とした
にあるように、正ラベルのデータ群と負ラベルのデータ群の差分を特徴量とすることで、AUC値を最大化することが可能となる。したがって、上述したように生成された差分データを用いることにより、AUC値を最大化することが可能となる。最終的なパラメータWは、ニュートンラプソン法等を用いて算出できる。
また、データ分析部115では、特徴ベクトルに対して正例である場合に大きなスカラ値を出力する関数f(x;W)を設計したが、データ処理装置1では営業社員ID毎のデータを用いて分析を行うため、営業社員IDをpとした場合、Wを求める関数としては以下のように表現できることになる。
ここで、営業社員pが「売れた」ケースにおける特徴ベクトルを
とする。
また、営業社員pが「売れなかった」ケースにおける特徴ベクトルを
とする。このように、営業社員ごとにペアワイズ学習をする際の組み合わせを生成することで、営業社員が事象の発生に潜在的に影響を与える特徴が排除されたものとすることができ、売れやすい企業に関するその順序性を精度よく学習することが可能となる。
R(W)は、パラメータWに関する正則化項であり、Cは正則化項の重みを与えるハイパーパラメータである。正則化項は、サンプル集合に対して過剰にモデルが適合することで新規サンプルに対する予測精度を低下させる過学習を抑制するためによく用いられる。
また、営業社員pが「売れなかった」ケースにおける特徴ベクトルを
R(W)は、パラメータWに関する正則化項であり、Cは正則化項の重みを与えるハイパーパラメータである。正則化項は、サンプル集合に対して過剰にモデルが適合することで新規サンプルに対する予測精度を低下させる過学習を抑制するためによく用いられる。
(3)AUC値算出処理
上述したように、データ分析部115における統計分析処理では、正ラベルの発生しやすさをあらわすスコア値の妥当性を評価するAUC値の値を大きくすることができる。
上述したように、データ分析部115における統計分析処理では、正ラベルの発生しやすさをあらわすスコア値の妥当性を評価するAUC値の値を大きくすることができる。
以下では、上述した出力結果Wを用いて、「売れた」の発生しやすさをあらわすスコア値の妥当性を評価するAUC値の算出方法について例を挙げて説明する。
データ処理装置1による統計分析処理によってパラメータWを算出するために例として用いた営業販売履歴データは、図4に示したようなデータ構造となっている、ある商品に関して営業活動を行った平成28年度における1年分のデータである。このとき、特徴ベクトルの次元が100を超えていたため、過学習を防ぐ目的でL2正則化を適用したロジスティック回帰分析を実行した。パラメータWは、ニュートンラプソン法を用いて算出した。
このようにして算出されたパラメータWを用いて、未知の営業先である顧客に対して「売れる」スコア値の予測値の算出を実行した。ここで、未知の営業先である顧客に紐付く特徴ベクトルと、上述したように算出されたパラメータWを用いて、ロジスティック回帰モデルに基づく以下の式により、スコア値の予測値を算出した。
ここで、データ分析部115で求めた関数f(x;W)=t(W)Xとあらわせるので、
スコア値=1/(1+exp(−(t(W)X)))
ここでtは転置を示す。
スコア値=1/(1+exp(−(t(W)X)))
ここでtは転置を示す。
これにより、顧客ID、および顧客IDに紐付く顧客属性に対し、「売れる」スコア値の予測値が紐付いた。このスコア値の妥当性の評価には、AUC値を用いた。AUC値が大きいほど、正例から負例の順にコンテンツが正しくスコアで順位付けされていることになっている。
スコア値の予測値の妥当性を評価するためのデータとして、平成29年度4月から7月までの営業販売履歴データを用いた。以降、これを評価データと呼ぶ。これは、上述したようにパラメータWを算出した際に使用した平成28年度の営業販売履歴データと、データ構造および販売した商材は同一である。
上記評価データでは、各顧客IDの情報に対して、実際に営業活動を行い、販売結果として「売れた」「売れなかった」の結果が対応付けられている。上記で算出した「売れる」スコア値の予測値と、実際に販売した結果「売れた」かにより、AUC値を算出する評価を実行した。具体的には以下の式により算出した。
ただし、
は、
の場合に1を出力し、それ以外の場合に0を出力するステップ関数である。
このようにして、上述したように導出されたL2型ロジスティック回帰モデルのAUC値は、0.51と算出された。
図2に示したような構成を用いてこのように算出されたAUC値が改善できていることを示すために、2つの比較手法によって算出されたAUC値も示す。
比較手法aでは、膨大な変数の中から有効な変数のみを選択することができるL2正則化型ロジスティック回帰モデルを対象とする。この手法は、図2に示したデータ取得部111、取得データ記憶部121、データ分析部115、および分析結果出力部116のみを用いてパラメータWを算出したケースに対応する。この手法では、正ラベルと負ラベルとのラベルの不均衡性と、潜在的な特徴による影響を考慮できていない。比較手法aでは、AUC値は0.42と算出された。
比較手法bは、比較手法aのL2正則化型ロジスティック回帰モデルに対し、さらに図2に示した差分データ生成部113とデータ統合部114も適用してパラメータWを求めたケースに対応する。この手法では、正ラベルと負ラベルとのラベルの不均衡性は考慮できているものの、潜在的な特徴による影響は考慮できていない。比較手法bでは、AUC値は0.39と算出された。
このように、図2に示したような構成を用いて上述したように算出されたAUC値は、比較手法a,bの場合に算出されるAUC値と比較して改善されていることが分かる。
(効果)
(1)データ取得部111の制御の下、複数のレコードを含む営業販売履歴データが取得される。当該複数のレコードの各々は、営業先の顧客を識別する顧客ID情報と、営業活動を行った結果として商材が売れたか否かの販売結果を示す販売結果情報と、営業活動を行った担当者を識別する営業社員ID情報と、顧客IDに紐付く属性情報、例えば、従業員の規模や業種等を含んでいる。データ分割部112の制御の下、当該営業販売履歴データに含まれる上記複数のレコードを、上記営業社員ID情報が示す営業社員ID毎に分けるように上記営業販売履歴データが分割され、当該営業社員ID毎のデータセットDiが生成される。差分データ生成部113の制御の下、当該営業社員ID毎のデータセットDiの各々について、当該データセットDiに含まれるレコードを、商材が売れたことと売れなかったこととのいずれを上記販売結果情報が示すかで分けるようにデータセットDiが分割され、上記販売結果情報毎の2つのデータセットである、商材が売れた販売結果のレコードのデータセットDi+と商材が売れなかった販売結果のレコードのデータセットDi−とが生成される。さらに、差分データ生成部113の制御の下、上記データセットDi+に含まれるレコードと上記データセットDi−に含まれるレコードとの間の組み合わせについて、差分データが生成される。データ統合部114の制御の下、上記営業社員ID毎に上記生成された差分データを結合して統合データDnewが生成される。データ分析部115の制御の下、当該統合データDnewが統計分析される。
(1)データ取得部111の制御の下、複数のレコードを含む営業販売履歴データが取得される。当該複数のレコードの各々は、営業先の顧客を識別する顧客ID情報と、営業活動を行った結果として商材が売れたか否かの販売結果を示す販売結果情報と、営業活動を行った担当者を識別する営業社員ID情報と、顧客IDに紐付く属性情報、例えば、従業員の規模や業種等を含んでいる。データ分割部112の制御の下、当該営業販売履歴データに含まれる上記複数のレコードを、上記営業社員ID情報が示す営業社員ID毎に分けるように上記営業販売履歴データが分割され、当該営業社員ID毎のデータセットDiが生成される。差分データ生成部113の制御の下、当該営業社員ID毎のデータセットDiの各々について、当該データセットDiに含まれるレコードを、商材が売れたことと売れなかったこととのいずれを上記販売結果情報が示すかで分けるようにデータセットDiが分割され、上記販売結果情報毎の2つのデータセットである、商材が売れた販売結果のレコードのデータセットDi+と商材が売れなかった販売結果のレコードのデータセットDi−とが生成される。さらに、差分データ生成部113の制御の下、上記データセットDi+に含まれるレコードと上記データセットDi−に含まれるレコードとの間の組み合わせについて、差分データが生成される。データ統合部114の制御の下、上記営業社員ID毎に上記生成された差分データを結合して統合データDnewが生成される。データ分析部115の制御の下、当該統合データDnewが統計分析される。
このように、上記販売結果情報毎の2つのデータセットDi+,Di−の各々に含まれるレコードの間の組み合わせについて、統計分析に用いられる差分データが生成される。このため、ペアワイズ学習をする際の組み合わせ方をほぼ同一条件に揃えることができ、したがって、正ラベルと負ラベルとが不均衡である場合に希少である一方のラベルを精度よく予測できないという問題を解決することができる。また、上記販売結果情報毎の2つのデータセットは、販売結果に影響を及ぼす潜在的な特徴となる外部条件が同一のレコードをまとめた営業社員ID毎のレコードセットDiを分割して生成される。このように、上記外部条件が同一のレコード毎に上記差分データが生成されるため、当該生成される差分データは、上記潜在的な特徴の影響が排除されたものとすることができる。さらに、上記販売結果情報毎の2つのデータセットDi+,Di−の各々に含まれるレコードの間のさまざまな組み合わせについて差分データを生成させることができるので、サンプルとして十分に説明変数を集められない場合においても統計分析を実行するのに十分なデータ量を確保することもできる。
(2)データ分析部115の係数ベクトル算出部1151の制御下での上記統合データの統計分析処理において、「売れた」販売結果である場合に大きなスカラ値を出力するモデルが導出される場合に、当該モデルに係るROC曲線に基づくAUC値が最大化するように当該モデルに係る回帰係数ベクトルが算出される。
上記Nitesh他の文献に記載の技術では、ROC曲線に基づくAUC値を最良にすることは難しいという問題があった。しかしながら、上述したように、正ラベルのデータと負ラベルのデータとのサンプル数を揃えて統計分析を実行できることに加えて、当該統計分析により導出されるモデルに係るAUC値を最良化することもできる。
(3)さらに、上記第1の実施形態に係るデータ処理装置を用いることで、データ処理負荷の重いデータ分析工程の学習効率を向上させることが可能となる。具体的には、上記第1の実施形態に係るデータ処理装置を使用した場合のデータ分析と、使用しない場合のデータ分析とにおいて、分析対象のデータレコード数が同じとした場合、データ分析工程の処理の負荷は同じであるにもかかわらず、上記第1の実施形態に係る装置を使用した場合のデータ分析をした学習モデルは、使用しない場合のデータ分析をした学習モデルよりも、学習目的に対して精度のよい予測を可能とする学習モデルを実現することができる。
[他の実施形態]
なお、この発明は上記第1の実施形態に限定されるものではない。
なお、この発明は上記第1の実施形態に限定されるものではない。
例えば、上記第1の実施形態では、営業社員毎に営業スタイルが異なり、かつ受注と失注といった販売結果が不均衡である場合にも、これから営業を行うある企業に営業を行った場合の受注スコアの予測値を精度よく算出するための統計モデルを、データ処理装置による統計分析によって導出する場合の例について説明した。
しかしながら、データ処理装置によって導出される統計モデルは上記のものに限定されない。この場合、データ処理装置によって取得され、データ処理装置によって処理された後に上記統計分析に用いられるデータは、上記第1の実施形態における営業販売履歴データではなく、導出したい統計モデルに対応したものとする。
<モバイルセンサにおける加速度データを用いた段差スコア予測>
例えば、人毎に歩き方が異なり、かつ大きな段差がある地点とない地点でラベルが不均衡である場合に、モバイルの加速度センサから段差を通ったスコアを精度よく算出するための統計モデルを導出する場合について考える。この場合、データ計測者(ユーザ)がモバイルセンサを携帯して街中を歩き、その加速度から段差があるかどうかを判別することを想定する。
例えば、人毎に歩き方が異なり、かつ大きな段差がある地点とない地点でラベルが不均衡である場合に、モバイルの加速度センサから段差を通ったスコアを精度よく算出するための統計モデルを導出する場合について考える。この場合、データ計測者(ユーザ)がモバイルセンサを携帯して街中を歩き、その加速度から段差があるかどうかを判別することを想定する。
データ取得部111においては、ユーザに所持されるモバイルセンサにおける加速度センサから加速度のデータがモバイル回線を介して取得される。加速度データのサンプリング間隔は、例えば100Hzとする。取得データ記憶部121において記憶される各レコードとして、データ測定者である歩行者(ユーザ)を識別するIDの情報と、歩行位置を示す位置情報と、加速度データが示す情報と、実際に段差があったかどうかの正解フラグの情報とが記憶されるようにする。すなわち、この実施例では、特徴量の値には、ユーザに所持されるモバイルの加速度データの値が含まれ、外部条件識別情報には、歩行者(ユーザ)を識別するIDの情報が含まれる。また、この実施例では、歩行者(ユーザ)が実際に段差を通ったときには、上記所定の事象が発生したことを示す正ラベルが付与され、段差を通らなかったときには、負ラベルが付与される。
データ分割部112においては、データ測定者である歩行者を識別するID毎にデータセットを分割するようにする。これにより、外部条件識別情報としての歩行者(ユーザ)を識別するID毎にデータセットDiが生成される。差分データ生成部113においては、データ分割部の制御下で生成された歩行者を識別するID毎のデータセットの各々について、当該データセットを、「段差あり(正ラベル)」のデータのみを集めたデータセットDi+と、「段差なし(負ラベル)」のデータのみを集めたデータセットDi−に分割し、それぞれのレコードの総組み合わせにおいて引き算を行い、差分データセットを生成するようにする。生成される差分データセットには、加速度センサの加速度データの値の差分と、段差のありなし(歩行者が実際に段差を通ったか否か)を示す値の差分とが含まれることになる。
データ統合部114においては、差分データ生成部の制御下で歩行者を識別するID毎に生成された差分データセットを、レコード単位ですべて統合し、統計分析のための統合データDnewとするようにする。データ分析部115(係数ベクトル算出部1151)においては、当該統合データDnewを用いて、段差があるかどうかを判別するロジスティック回帰分析を実施するようにする。ここで、加速度データを特徴ベクトルxとした場合、段差があるスコア値を算出する関数f(x;W)におけるパラメータWを算出することになる。特徴ベクトルxは、上記加速度データの値の差分を要素として含む。パラメータWは、回帰係数ベクトルの要素値を含む。パラメータWは、ニュートンラプソン法等を用いて算出することができる。分析結果出力部116においては、データ分析部115の制御下で算出されたパラメータWが出力されるようにする。
このように算出されたパラメータWを用いることにより、未知の場所を歩行して加速度データを測定した場合、加速度データを特徴ベクトルxとした場合には、スコア値=1/(1+exp(−(t(W)X)))を計算することで、段差であるスコア値を算出することが可能となる。ここで、tは転置を示す。本スコア値は、測定者による歩き方のような、データとして表現しづらい潜在的な特徴による影響を排除することができており、かつ希少事象である段差の不均衡性も考慮することができているため、精度よく段差であるスコア値を算出することが可能である。
<金融業における融資データを用いた貸し倒れスコア予測>
例えば、企業の経営者毎に経営戦略が異なり、かつ銀行がその企業に融資した結果として貸し倒れが発生する場合としない場合でラベルが不均衡である場合に、融資対象である企業に関する情報やその企業の経営者に関する情報から、貸し倒れするスコアを精度よく算出するための統計モデルを導出する場合について考える。
例えば、企業の経営者毎に経営戦略が異なり、かつ銀行がその企業に融資した結果として貸し倒れが発生する場合としない場合でラベルが不均衡である場合に、融資対象である企業に関する情報やその企業の経営者に関する情報から、貸し倒れするスコアを精度よく算出するための統計モデルを導出する場合について考える。
データ取得部においては、入力部を介して入力された、融資対象である企業に関する情報や、その企業の経営者に関するタイプの情報のデータが取得される。入力方式は、Webにある情報からのクローリングや、紙面にある情報からの文字認識、または人手による手入力でもよい。取得データ記憶部において記憶される各レコードとして、融資対象である企業を識別するIDの情報と、その企業に紐付く情報である、例えば従業員規模や業種等の情報と、その企業の経営者のタイプの情報と、例えば企業の経営者がワンマンタイプあるいはカリスマタイプであるという情報と、実際に貸し倒れが発生したかどうかの正解フラグの情報とが記憶されるようにする。データ分割部においては、融資対象である企業の経営者のタイプ毎にデータセットを分割するようにする。差分データ生成部においては、データ分割部の制御下で生成された企業の経営者のタイプ毎のデータセットの各々について、当該データセットを、「貸し倒れあり」のデータのみを集めたデータセットと、「貸し倒れなし」のデータのみを集めたデータセットとに分割し、それぞれのレコードの総組み合わせにおいて引き算を行い、差分データセットを生成するようにする。データ統合部においては、差分データ生成部の制御下で生成された差分データセットを、レコード単位ですべて統合し、統計分析のための統合データとするようにする。データ分析部においては、当該統合データを用いて、貸し倒れが発生したかどうかを判別するロジスティック回帰分析を実施するようにする。ここで、融資対象である企業に関する情報(従業員規模や業種等)を特徴ベクトルxとした場合、貸し倒れの発生しやすさをあらわすスコア値を算出する関数f(x;W)におけるパラメータWを算出することになる。パラメータWは、ニュートンラプソン法等を用いて算出することができる。分析結果出力部においては、データ分析部の制御下で算出されたパラメータWが出力されるようにする。
このように算出されたパラメータWを用いることにより、融資候補である企業に関する情報を特徴ベクトルxとした場合には、スコア値=1/(1+exp(−(t(W)X))) を計算することで、貸し倒れの発生しやすさをあらわすスコア値を算出することが可能となる。ここでtは転置を示す。本スコア値は、経営者のタイプ毎による経営戦略のような、データとして表現しづらい潜在的な特徴による影響を排除することができており、かつ希少事象である貸し倒れ発生の不均衡性も考慮することができているため、精度よく貸し倒れの発生しやすさをあらわすスコア値を算出することが可能である。
以上説明したように、ここに記載される諸実施形態に係るデータ処理装置、方法、プログラムまたはプログラムを記憶した媒体は、差分データを生成することを含む。この差分データ生成においては、潜在特性識別子(潜在特性が同じデータ)ごとに正例データと負例データの差分を生成するようにしている。すなわち、事象の起こりやすさに強く依存する潜在特性に仮説をたて、その潜在特性が同一となる識別子ごとにデータを選択する。
営業データにおいては、営業した結果「売れた/売れなかった」という事象に対し、営業担当者のスキルが潜在特性に該当し、潜在特性識別子は営業担当者IDとなる。したがって、差分データとして、営業担当者IDごとに正例データと負例データの差分が生成されることになる。
人が加速度センサを所持しながら歩いて収集した加速度データにおいては、「段差がある/なし」という事象に対し、歩行者(ユーザ)の歩容が潜在特性に該当し、潜在特性識別子は歩行者IDとなる。したがって、差分データとして、歩行者IDごとに、正例データと負例データの差分が生成されることになる。
また、ある企業に融資をした結果「貸し倒れした/しなかった」という事象に対し、企業を経営する経営者のタイプが潜在特性に該当し、潜在特性識別子は経営者IDとなる。したがって、差分データとして、経営者IDごとに、正例データと負例データの差分が生成されることになる。
このように、ここに記載される諸実施形態では、統計分析において、事象の起こりやすさに強く依存する潜在特性が同一となるように正例データと負例データを選択し、差分データを生成するようにしている。これにより、上記統計分析において事象の起こりやすさを精度よく予測でき、学習効率を向上させることが可能となる。
<その他>
さらに、上記では、潜在的な特徴として、例えば人に依存する特徴である、営業活動を行う場合の営業担当者の売り方や、モバイルセンサを所持して加速度を計測している人の歩き方や、例えば企業の経営者がワンマンタイプあるいはカリスマタイプであるといったタイプに依存するような経営戦略等の、特徴付ける振る舞いや考え方のようなデータとしての表現が難しいものの影響を排除することができることを説明した。
さらに、上記では、潜在的な特徴として、例えば人に依存する特徴である、営業活動を行う場合の営業担当者の売り方や、モバイルセンサを所持して加速度を計測している人の歩き方や、例えば企業の経営者がワンマンタイプあるいはカリスマタイプであるといったタイプに依存するような経営戦略等の、特徴付ける振る舞いや考え方のようなデータとしての表現が難しいものの影響を排除することができることを説明した。
しかしながら、潜在的な特徴としては、例えば営業活動を行う場合の天候である、雨の降り方や風の吹き方等の、特徴付ける現象をデータとして表現が難しいものを含めることもできる。
その他、データ処理装置や制御ユニットが備える各部の構成や取得データ記憶部に記憶されるレコードの構成等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
要するにこの発明は、上記第1の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記第1の実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、上記第1の実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
(付記)
上記各実施形態の一部または全部は、特許請求の範囲のほか以下の付記に示すように記載することも可能であるが、これに限られない。
(付記1)
取得された複数のレコードを、当該複数のレコードの各レコードに含まれる、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成するデータ分割部(112)と、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、当該レコードに含まれる、前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けて、当該ラベル情報毎の2つのデータセットを生成し、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成する差分データ生成部(113)と、
前記差分データ生成部(113)によって生成された差分データを用いて統計分析を実行するデータ分析部(115)と
を備えるデータ処理装置(1)。
(付記2)
所定の特徴量の値を要素とする特徴ベクトルから所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルに係る回帰係数ベクトルを算出するデータ処理装置(1)であって、
複数のレコードであって、当該複数のレコードの各々が、前記所定の特徴量の値に対応する情報と、前記所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報と、当該レコードに係る前記所定の特徴量の値および当該レコードに係る外部条件に対応して、前記所定の事象が発生した正ラベルのデータと前記所定の事象が発生しなかった負ラベルのデータとのいずれに当該レコードが対応するかを示すラベル情報とを含む、前記複数のレコードを取得するデータ取得部(111)と、
前記取得された複数のレコードを、前記外部条件識別情報が示す外部条件毎に分けて、当該外部条件毎のデータセットを生成するデータ分割部(112)と、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、前記ラベル情報が示す、当該レコードが前記正ラベルのデータと前記負ラベルのデータとのいずれに対応するかで分けて、前記ラベル情報毎の2つのデータセットを生成し、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含む差分データを生成する差分データ生成部(113)と、
前記差分データ生成部(113)によって生成された差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を前記モデルに係る前記特徴ベクトルの前記所定の特徴量の値として、さらに、当該差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記回帰係数ベクトルを算出する係数ベクトル算出部(1151)と
を備えるデータ処理装置(1)。
(付記3)
前記係数ベクトル算出部(1151)は、前記モデルに係る受信者応答特性(Receiver Operating Characteristic:ROC)曲線に基づく曲線下面積(Area Under the Curve:AUC)値が最大化するように前記回帰係数ベクトルを算出する、請求項2に記載のデータ処理装置(1)。
(付記4)
ハードウェアプロセッサおよびメモリを備える装置が実行するデータ処理方法であって、
取得された複数のレコードを、当該複数のレコードの各レコードに含まれる、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成するデータ分割過程(S2)と、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、当該レコードに含まれる、前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けて、当該ラベル情報毎の2つのデータセットを生成し(S3)、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成する差分データ生成過程(S4)と、
前記差分データ生成過程において生成された差分データを用いて統計分析を実行するデータ分析過程(S6)と
を備えるデータ処理方法。
(付記5)
ハードウェアプロセッサおよびメモリを備える装置が実行する、所定の特徴量の値を要素とする特徴ベクトルから所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルに係る回帰係数ベクトルを算出するデータ処理方法であって、
複数のレコードであって、当該複数のレコードの各々が、前記所定の特徴量の値に対応する情報と、前記所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報と、当該レコードに係る前記所定の特徴量の値および当該レコードに係る外部条件に対応して、前記所定の事象が発生した正ラベルのデータと前記所定の事象が発生しなかった負ラベルのデータとのいずれに当該レコードが対応するかを示すラベル情報とを含む、前記複数のレコードを取得するデータ取得過程(S1)と、
前記取得された複数のレコードを、前記外部条件識別情報が示す外部条件毎に分けて、当該外部条件毎のデータセットを生成するデータ分割過程(S2)と、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、前記ラベル情報が示す、当該レコードが前記正ラベルのデータと前記負ラベルのデータとのいずれに対応するかで分けて、前記ラベル情報毎の2つのデータセットを生成し(S3)、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含む差分データを生成する差分データ生成過程(S4)と、
前記差分データ生成過程において生成された差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を前記モデルに係る前記特徴ベクトルの前記所定の特徴量の値として、さらに、当該差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記回帰係数ベクトルを算出する係数ベクトル算出過程(S6)と
を備えるデータ処理方法。
(付記6)
請求項1乃至3のいずれかに記載のデータ処理装置(1)が備える各部としてハードウェアプロセッサを機能させるプログラム。
(付記7)
統計分析を実行するデータ処理装置(1)により用いられるレコードのデータ構造であって、
所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報と、
前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報と
を含み、
前記データ処理装置(1)が、
前記データ構造を含む複数のレコードを、前記外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成し、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、前記ラベル情報に基づいて分けて、当該ラベル情報毎の2つのデータセットを生成し、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成し、
前記生成された差分データを用いて統計分析を実行する
処理に用いられる、レコードのデータ構造。
(付記8)
所定の特徴量の値を要素とする特徴ベクトルから所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルに係る回帰係数ベクトルを算出するデータ処理装置(1)により用いられるレコードのデータ構造であって、
前記所定の特徴量の値に対応する情報と、
前記所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報と、
当該レコードに係る前記所定の特徴量の値および当該レコードに係る外部条件に対応して、前記所定の事象が発生した正ラベルのデータと前記所定の事象が発生しなかった負ラベルのデータとのいずれに当該レコードが対応するかを示すラベル情報と
を含み、
前記データ処理装置(1)が、
前記データ構造を含む複数のレコードを、前記外部条件識別情報が示す外部条件毎に分けて、当該外部条件毎のデータセットを生成し、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、前記ラベル情報が示す、当該レコードが前記正ラベルのデータと前記負ラベルのデータとのいずれに対応するかで分けて、前記ラベル情報毎の2つのデータセットを生成し、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含む差分データを生成し、
前記生成された差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を前記モデルに係る前記特徴ベクトルの前記所定の特徴量の値として、さらに、当該差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記回帰係数ベクトルを算出する
処理に用いられる、レコードのデータ構造。
上記各実施形態の一部または全部は、特許請求の範囲のほか以下の付記に示すように記載することも可能であるが、これに限られない。
(付記1)
取得された複数のレコードを、当該複数のレコードの各レコードに含まれる、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成するデータ分割部(112)と、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、当該レコードに含まれる、前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けて、当該ラベル情報毎の2つのデータセットを生成し、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成する差分データ生成部(113)と、
前記差分データ生成部(113)によって生成された差分データを用いて統計分析を実行するデータ分析部(115)と
を備えるデータ処理装置(1)。
(付記2)
所定の特徴量の値を要素とする特徴ベクトルから所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルに係る回帰係数ベクトルを算出するデータ処理装置(1)であって、
複数のレコードであって、当該複数のレコードの各々が、前記所定の特徴量の値に対応する情報と、前記所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報と、当該レコードに係る前記所定の特徴量の値および当該レコードに係る外部条件に対応して、前記所定の事象が発生した正ラベルのデータと前記所定の事象が発生しなかった負ラベルのデータとのいずれに当該レコードが対応するかを示すラベル情報とを含む、前記複数のレコードを取得するデータ取得部(111)と、
前記取得された複数のレコードを、前記外部条件識別情報が示す外部条件毎に分けて、当該外部条件毎のデータセットを生成するデータ分割部(112)と、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、前記ラベル情報が示す、当該レコードが前記正ラベルのデータと前記負ラベルのデータとのいずれに対応するかで分けて、前記ラベル情報毎の2つのデータセットを生成し、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含む差分データを生成する差分データ生成部(113)と、
前記差分データ生成部(113)によって生成された差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を前記モデルに係る前記特徴ベクトルの前記所定の特徴量の値として、さらに、当該差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記回帰係数ベクトルを算出する係数ベクトル算出部(1151)と
を備えるデータ処理装置(1)。
(付記3)
前記係数ベクトル算出部(1151)は、前記モデルに係る受信者応答特性(Receiver Operating Characteristic:ROC)曲線に基づく曲線下面積(Area Under the Curve:AUC)値が最大化するように前記回帰係数ベクトルを算出する、請求項2に記載のデータ処理装置(1)。
(付記4)
ハードウェアプロセッサおよびメモリを備える装置が実行するデータ処理方法であって、
取得された複数のレコードを、当該複数のレコードの各レコードに含まれる、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成するデータ分割過程(S2)と、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、当該レコードに含まれる、前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けて、当該ラベル情報毎の2つのデータセットを生成し(S3)、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成する差分データ生成過程(S4)と、
前記差分データ生成過程において生成された差分データを用いて統計分析を実行するデータ分析過程(S6)と
を備えるデータ処理方法。
(付記5)
ハードウェアプロセッサおよびメモリを備える装置が実行する、所定の特徴量の値を要素とする特徴ベクトルから所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルに係る回帰係数ベクトルを算出するデータ処理方法であって、
複数のレコードであって、当該複数のレコードの各々が、前記所定の特徴量の値に対応する情報と、前記所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報と、当該レコードに係る前記所定の特徴量の値および当該レコードに係る外部条件に対応して、前記所定の事象が発生した正ラベルのデータと前記所定の事象が発生しなかった負ラベルのデータとのいずれに当該レコードが対応するかを示すラベル情報とを含む、前記複数のレコードを取得するデータ取得過程(S1)と、
前記取得された複数のレコードを、前記外部条件識別情報が示す外部条件毎に分けて、当該外部条件毎のデータセットを生成するデータ分割過程(S2)と、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、前記ラベル情報が示す、当該レコードが前記正ラベルのデータと前記負ラベルのデータとのいずれに対応するかで分けて、前記ラベル情報毎の2つのデータセットを生成し(S3)、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含む差分データを生成する差分データ生成過程(S4)と、
前記差分データ生成過程において生成された差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を前記モデルに係る前記特徴ベクトルの前記所定の特徴量の値として、さらに、当該差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記回帰係数ベクトルを算出する係数ベクトル算出過程(S6)と
を備えるデータ処理方法。
(付記6)
請求項1乃至3のいずれかに記載のデータ処理装置(1)が備える各部としてハードウェアプロセッサを機能させるプログラム。
(付記7)
統計分析を実行するデータ処理装置(1)により用いられるレコードのデータ構造であって、
所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報と、
前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報と
を含み、
前記データ処理装置(1)が、
前記データ構造を含む複数のレコードを、前記外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成し、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、前記ラベル情報に基づいて分けて、当該ラベル情報毎の2つのデータセットを生成し、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成し、
前記生成された差分データを用いて統計分析を実行する
処理に用いられる、レコードのデータ構造。
(付記8)
所定の特徴量の値を要素とする特徴ベクトルから所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルに係る回帰係数ベクトルを算出するデータ処理装置(1)により用いられるレコードのデータ構造であって、
前記所定の特徴量の値に対応する情報と、
前記所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報と、
当該レコードに係る前記所定の特徴量の値および当該レコードに係る外部条件に対応して、前記所定の事象が発生した正ラベルのデータと前記所定の事象が発生しなかった負ラベルのデータとのいずれに当該レコードが対応するかを示すラベル情報と
を含み、
前記データ処理装置(1)が、
前記データ構造を含む複数のレコードを、前記外部条件識別情報が示す外部条件毎に分けて、当該外部条件毎のデータセットを生成し、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、前記ラベル情報が示す、当該レコードが前記正ラベルのデータと前記負ラベルのデータとのいずれに対応するかで分けて、前記ラベル情報毎の2つのデータセットを生成し、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含む差分データを生成し、
前記生成された差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を前記モデルに係る前記特徴ベクトルの前記所定の特徴量の値として、さらに、当該差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記回帰係数ベクトルを算出する
処理に用いられる、レコードのデータ構造。
1…データ処理装置、11…制御ユニット、111…データ取得部、112…データ分割部、113…差分データ生成部、114…データ統合部、115…データ分析部、116…分析結果出力部、12…記憶ユニット、121…取得データ記憶部、122…分割データ記憶部、123…差分データ記憶部、124…統合データ記憶部、125…分析結果記憶部、13…入出力インタフェースユニット、2…入力部、3…表示部
Claims (15)
- データ処理装置であって、
複数のレコードを含むデータを取得し、
取得されたデータの複数のレコードを、当該複数のレコードの各レコードに含まれる、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成し、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、当該レコードに含まれる、前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けて、当該ラベル情報毎の2つのデータセットを生成し、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成し、
前記生成された差分データを用いて統計分析を実行し、
前記統計分析の実行結果を出力するように構成されたプロセッサと、
前記プロセッサを動作させる命令を記憶するメモリと
を備えるデータ処理装置。 - 前記取得されたデータの複数のレコードの各々がさらに、所定の特徴量の値に対応する情報を含み、
前記差分データが、前記ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについての、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含み、
前記統計分析を実行することが、前記所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を特徴ベクトルの要素とし、前記差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含む、
請求項1に記載のデータ処理装置。 - 前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性(Receiver Operating Characteristic:ROC)曲線に基づく曲線下面積(Area Under the Curve:AUC)値が最大化するように前記回帰係数ベクトルを算出することを含む、請求項2に記載のデータ処理装置。
- 前記取得されたデータの複数のレコードの各々がさらに、所定の特徴量の値として、ユーザに所持されるモバイルの加速度データの値を含み、前記外部条件識別情報として、前記ユーザを識別するIDを含み、前記所定の事象が発生したことを示す正ラベルが、前記ユーザが段差を通ったことを示し、前記所定の事象が発生しなかったことを示す負ラベルが、前記ユーザが段差を通らなかったことを示し、
前記差分データが、各レコードに係る前記加速度データの値の差分と、各レコードに係る前記ユーザが段差を通ったか否かを示す値の差分とを含み、
前記統計分析を実行することが、前記ユーザが段差を通ったかどうかをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記加速度データの値の差分を特徴ベクトルの要素とし、前記ユーザが段差を通ったか否かを示す値の差分を前記モデルに係る前記ユーザが段差を通ったか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含む、
請求項1に記載のデータ処理装置。 - 前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性(Receiver Operating Characteristic:ROC)曲線に基づく曲線下面積(Area Under the Curve:AUC)値が最大化するように前記回帰係数ベクトルを算出することを含む、請求項4に記載のデータ処理装置。
- ハードウェアプロセッサおよびメモリを備える装置が実行するデータ処理方法であって、
複数のレコードを含むデータを取得することと、
取得されたデータの複数のレコードを、当該複数のレコードの各レコードに含まれる、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成することと、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、当該レコードに含まれる、前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けて、当該ラベル情報毎の2つのデータセットを生成し、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成することと、
前記生成された差分データを用いて統計分析を実行することと、
前記統計分析の実行結果を出力することと
を備えるデータ処理方法。 - 前記取得された複数のレコードの各々がさらに、所定の特徴量の値に対応する情報を含み、
前記差分データが、前記ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについての、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含み、
前記統計分析を実行することが、前記所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を特徴ベクトルの要素とし、前記差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含む、
請求項6に記載のデータ処理方法。 - 前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性(Receiver Operating Characteristic:ROC)曲線に基づく曲線下面積(Area Under the Curve:AUC)値が最大化するように前記回帰係数ベクトルを算出することを含む、請求項7に記載のデータ処理方法。
- 前記取得されたデータの複数のレコードの各々がさらに、所定の特徴量の値として、ユーザに所持されるモバイルの加速度データの値を含み、前記外部条件識別情報として、前記ユーザを識別するIDを含み、前記所定の事象が発生したことを示す正ラベルが、前記ユーザが段差を通ったことを示し、前記所定の事象が発生しなかったことを示す負ラベルが、前記ユーザが段差を通らなかったことを示し、
前記差分データが、各レコードに係る前記加速度データの値の差分と、各レコードに係る前記ユーザが段差を通ったか否かを示す値の差分とを含み、
前記統計分析を実行することが、前記ユーザが段差を通ったかどうかをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記加速度データの値の差分を特徴ベクトルの要素とし、前記ユーザが段差を通ったか否かを示す値の差分を前記モデルに係る前記ユーザが段差を通ったか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含む、
請求項6に記載のデータ処理方法。 - 前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性(Receiver Operating Characteristic:ROC)曲線に基づく曲線下面積(Area Under the Curve:AUC)値が最大化するように前記回帰係数ベクトルを算出することを含む、請求項9に記載のデータ処理方法。
- 複数のレコードを含むデータを取得することと、
取得されたデータの複数のレコードを、当該複数のレコードの各レコードに含まれる、所定の事象の発生に対し影響を及ぼす潜在的な特徴となる外部条件のうち当該レコードに係る外部条件がいずれであるかを識別するための外部条件識別情報に基づいて分けて、前記外部条件毎のデータセットを生成することと、
前記生成された外部条件毎のデータセットの各々について、当該データセットに含まれるレコードを、当該レコードに含まれる、前記所定の事象が発生したことを示す正ラベルと前記所定の事象が発生しなかったことを示す負ラベルとのいずれに当該レコードが対応するかを示すラベル情報に基づいて分けて、当該ラベル情報毎の2つのデータセットを生成し、当該ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについて差分データを生成することと、
前記生成された差分データを用いて統計分析を実行することと、
前記統計分析の実行結果を出力することと
をプロセッサに実行させるための命令を記憶した非一時的な有形のコンピュータ可読記憶媒体。 - 前記取得されたデータの複数のレコードの各々がさらに、所定の特徴量の値に対応する情報を含み、
前記差分データが、前記ラベル情報毎の2つのデータセットの一方のデータセットに含まれるレコードともう一方のデータセットに含まれるレコードとの間の組み合わせについての、各レコードに係る前記所定の特徴量の各特徴量についての値の差分と、各レコードに係る前記所定の事象が発生したか否かを示す値の差分とを含み、
前記統計分析を実行することが、前記所定の事象の発生しやすさをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記所定の特徴量の各特徴量についての値の差分を特徴ベクトルの要素とし、前記差分データに含まれる前記所定の事象が発生したか否かを示す値の差分を前記モデルに係る前記所定の事象が発生したか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含む、
請求項11に記載のコンピュータ可読記憶媒体。 - 前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性(Receiver Operating Characteristic:ROC)曲線に基づく曲線下面積(Area Under the Curve:AUC)値が最大化するように前記回帰係数ベクトルを算出することを含む、請求項12に記載のコンピュータ可読記憶媒体。
- 前記取得されたデータの複数のレコードの各々がさらに、所定の特徴量の値として、ユーザに所持されるモバイルの加速度データの値を含み、前記外部条件識別情報として、前記ユーザを識別するIDを含み、前記所定の事象が発生したことを示す正ラベルが、前記ユーザが段差を通ったことを示し、前記所定の事象が発生しなかったことを示す負ラベルが、前記ユーザが段差を通らなかったことを示し、
前記差分データが、各レコードに係る前記加速度データの値の差分と、各レコードに係る前記ユーザが段差を通ったか否かを示す値の差分とを含み、
前記統計分析を実行することが、前記ユーザが段差を通ったかどうかをあらわすスコア値を算出するためのモデルについて、前記差分データに含まれる前記加速度データの値の差分を特徴ベクトルの要素とし、前記ユーザが段差を通ったか否かを示す値の差分を前記モデルに係る前記ユーザが段差を通ったか否かを示すラベルとして用いることによって、前記モデルに係る回帰係数ベクトルを算出することを含む、
請求項11に記載のコンピュータ可読記憶媒体。 - 前記モデルに係る回帰係数ベクトルを算出することが、前記モデルに係る受信者応答特性(Receiver Operating Characteristic:ROC)曲線に基づく曲線下面積(Area Under the Curve:AUC)値が最大化するように前記回帰係数ベクトルを算出することを含む、請求項14に記載のコンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018025101 | 2018-02-15 | ||
JP2018025101 | 2018-02-15 | ||
PCT/JP2019/001515 WO2019159602A1 (ja) | 2018-02-15 | 2019-01-18 | データ処理装置、方法、およびプログラムを記憶した媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019159602A1 JPWO2019159602A1 (ja) | 2020-09-24 |
JP6818935B2 true JP6818935B2 (ja) | 2021-01-27 |
Family
ID=67619314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020500343A Active JP6818935B2 (ja) | 2018-02-15 | 2019-01-18 | データ処理装置、方法、およびプログラムを記憶した媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11960499B2 (ja) |
JP (1) | JP6818935B2 (ja) |
WO (1) | WO2019159602A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7196542B2 (ja) * | 2018-11-05 | 2022-12-27 | 株式会社リコー | 学習装置および学習方法 |
JP7454814B2 (ja) | 2020-06-22 | 2024-03-25 | 国立大学法人山口大学 | 情報処理装置と情報処理プログラムと情報処理システムと情報処理方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090132347A1 (en) * | 2003-08-12 | 2009-05-21 | Russell Wayne Anderson | Systems And Methods For Aggregating And Utilizing Retail Transaction Records At The Customer Level |
US20150170175A1 (en) * | 2009-01-21 | 2015-06-18 | Truaxis, Inc. | Method and system for identifying a cohort of users based on past shopping behavior and other criteria |
JP5699713B2 (ja) | 2011-03-17 | 2015-04-15 | 富士通株式会社 | データ解析プログラム、データ解析方法、およびデータ解析装置 |
JP6634635B2 (ja) | 2015-11-18 | 2020-01-22 | 本田技研工業株式会社 | 識別装置、ロボットおよび識別方法 |
US11049045B2 (en) | 2015-11-18 | 2021-06-29 | Honda Motor Co., Ltd. | Classification apparatus, robot, and classification method |
US10997672B2 (en) * | 2017-05-31 | 2021-05-04 | Intuit Inc. | Method for predicting business income from user transaction data |
-
2019
- 2019-01-18 JP JP2020500343A patent/JP6818935B2/ja active Active
- 2019-01-18 US US16/969,299 patent/US11960499B2/en active Active
- 2019-01-18 WO PCT/JP2019/001515 patent/WO2019159602A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2019159602A1 (ja) | 2019-08-22 |
US11960499B2 (en) | 2024-04-16 |
US20210042318A1 (en) | 2021-02-11 |
JPWO2019159602A1 (ja) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255506B (zh) | 一种基于大数据的互联网金融用户贷款逾期预测方法 | |
Volkov et al. | Incorporating sequential information in bankruptcy prediction with predictors based on Markov for discrimination | |
Koopman et al. | Credit cycles and macro fundamentals | |
Yan et al. | Sales pipeline win propensity prediction: A regression approach | |
Nyitrai | Dynamization of bankruptcy models via indicator variables | |
US20140379310A1 (en) | Methods and Systems for Evaluating Predictive Models | |
Muharemi et al. | Approaches to building a detection model for water quality: a case study | |
CN111882420A (zh) | 响应率的生成方法、营销方法、模型训练方法及装置 | |
JP6818935B2 (ja) | データ処理装置、方法、およびプログラムを記憶した媒体 | |
CN114202336A (zh) | 一种金融场景下的风险行为监测方法及系统 | |
Keya et al. | Comparison of different machine learning algorithms for detecting bankruptcy | |
CN110956278A (zh) | 重新训练机器学习模型的方法和系统 | |
CN107133862A (zh) | 动态产生增强信用评估的详细交易支付经历的方法和系统 | |
Machado et al. | Applying hybrid machine learning algorithms to assess customer risk-adjusted revenue in the financial industry | |
Kansal et al. | A Comparative Study of Machine Learning Models for House Price Prediction and Analysis in Smart Cities | |
Vandrangi | Predicting the insurance claim by each user using machine learning algorithms | |
KR20110114181A (ko) | 예측 정확성이 향상된 대출 심사 방법 | |
Cui et al. | Model selection for direct marketing: performance criteria and validation methods | |
Nurhidayat et al. | Analysis and Classification of Customer Churn Using Machine Learning Models | |
KR102543211B1 (ko) | 비정형 기업 데이터를 이용한 기업성장 예측 시스템 | |
Jahromi et al. | Customer churn models: a comparison of probability and data mining approaches | |
CN113128739B (zh) | 用户触达时间的预测方法、预测模型训练方法及相关装置 | |
Niknya et al. | Financial distress prediction of Tehran Stock Exchange companies using support vector machine | |
CN106600312A (zh) | 一种消费者购买酒的价位预测方法及系统 | |
Goncalves et al. | Predicting project sales prices using machine learning techniques: a case study in a project consultancy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6818935 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |