JP2017102710A - データ分析装置、データ分析方法、データ分析処理プログラム - Google Patents
データ分析装置、データ分析方法、データ分析処理プログラム Download PDFInfo
- Publication number
- JP2017102710A JP2017102710A JP2015235540A JP2015235540A JP2017102710A JP 2017102710 A JP2017102710 A JP 2017102710A JP 2015235540 A JP2015235540 A JP 2015235540A JP 2015235540 A JP2015235540 A JP 2015235540A JP 2017102710 A JP2017102710 A JP 2017102710A
- Authority
- JP
- Japan
- Prior art keywords
- data
- target field
- collected
- variable
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims description 31
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000000611 regression analysis Methods 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 6
- 238000009795 derivation Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 abstract description 5
- 238000013523 data management Methods 0.000 description 26
- 238000004364 calculation method Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000006399 behavior Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000002790 cross-validation Methods 0.000 description 4
- 238000013075 data extraction Methods 0.000 description 4
- 238000012353 t test Methods 0.000 description 4
- 238000000692 Student's t-test Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
Landscapes
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
心理学や経済学では、性差や年齢層で特徴が違うという前提の下、これらの変数でデータセットを分け(セグメンテーション)、このセグメンテーション毎に回帰分析を行って予測式を導出することで予測精度を高めている。
データが少ない場合は、現状、2つの方法で対応している。1つ目の方法は、ランダムに予測結果を出力し、結果に対するフィードバックを何度も受けることで、時間をかけて徐々に学習を行い、カスタマイズをしていく方法である。2つ目の方法は、他の手段を使って収集した大規模データから導出した平均値を予測値として使う。
当然ながら、初期状態では上記の2つの方法とも予測精度が悪いが、1つめの方法は100サンプル以上のデータが集まると、対象フィールドにあった回帰式が作れるようになる。
図1は、データ収集期間と予測精度との関係をグラフ形式で示す図である。
図1に示すように、実世界における、回帰分析による予測対象のフィールド(以下、対象フィールドと称することがある)で、十分なサンプル数でデータが集まらない場合は、特性は図1に示した特性cのように、予測精度が著しく低くなる。また、図1に示した特性bのように、他の手段を使って収集した大規模データから導出した平均値を初期状態の予測値として使った場合でも、予測精度は十分とはいえない。
本発明の3つめの特徴は、下記の第3の実施形態に関係する技術であり、データに欠損が存在しても改良EM(Expectation Maximization)アルゴリズム(期待値最大化法)などのデータ補完技術を用いて正しい分析を可能とすることである。
次に、第1の実施形態について説明する。
図2は、本発明の第1の実施形態の概要を示す図である。
図2に示すように、第1の実施形態では、対象フィールドにおいて回帰分析に必要なデータが十分集められず、対象フィールドにおいて収集したフィールドデータセット202が、要求を満たす精度で予測が可能なデータでない場合に、別の手段を使って収集した大規模データセット(例えばWebデータ、センサデータ、大規模なアンケートデータなど)201の中から、対象フィールドで収集されるデータと特徴量が同じ疑似データセット203を生成して、ある程度対象フィールドに適合した予測が可能な回帰式を短期間で導出することについて述べる。
図3に示すように、第1の実施形態におけるデータ分析システムは、端末1,2,3、センサ4、サーバ5、データ管理部6、データベース7、センサ8を有する。
端末3は、対象フィールドでデータを収集する。
センサ4は、RFID(Radio Frequency IDentification)タグなどで、対象フィールドでどこに誰がいるかのデータを検出(収集)する。サーバ5は、収集されたデータを格納処理するためのデータ管理部6、データベース7を有する。
データベース7は、不揮発性メモリなどの記憶装置であり、収集されたデータを格納する。データ管理部6は、格納されたデータを管理する。センサ8は、RFIDなどで大規模データを収集する。
図4に示すように、データ管理部6は、大規模データ管理部41、予備データ作成部42、予測計算部43、有意差判定部44、予測対象データ管理部45、模擬データ抽出部46を有する。
模擬データ抽出部46は、予備データ作成部42または大規模データ管理部41で管理されるデータから予測対象フィールドと特徴量が同じデータであって、対象フィールドにおける目的変数の予測に有用な疑似データを作成する。
(StepA)
StepAでは、まず、大規模データを使って、目的変数の予測に有用な説明変数を回帰分析により大まかに選定する。また、回帰式の最終的な作成対象である選定した説明変数に補正データを付加した変数と目的変数に関し、対象フィールドからデータを収集する。
StepBでは、StepAで収集したデータセットと大規模データとの分布のずれをt検定やf検定で確認し、ずれのある変数に着目して、対象フィールドと特徴量が同じ疑似データセットを作成し、このデータセットを用いて対象フィールドに適合した回帰式を導出する。
図5に示すように、StepAでは、大規模データセット201から先行研究や経験値から特徴が表れそうな説明変数を使った簡易疑似データセット211を作成し、このデータセットを使って、対象フィールドの目的変数の予測に関係しそうな変数を絞り込み、この変数に関して調査(対象フィールドからのデータ収集)する。
次に、この対象フィールドから収集したフィールドデータセット202を元に、逆に大規模データからデータを収集して対象フィールドに適合した擬似的な疑似データセット203を作成する。
まずStepA(大規模データを使って大雑把に有用な変数を選定すること)の詳細について説明する。
図6は、本発明の第1の実施形態におけるデータ分析システムによる第1の処理動作の概要を示す図である。図7は、本発明の第1の実施形態におけるデータ分析システムによる第1の処理動作の手順の一例を示すフローチャートである。
まず、知りたいことである目的変数と、どんな属性から目的変数を予測するのかを説明する説明変数とが決定された上で、大規模データ管理部41は、対象フィールドに存在する、目的変数や説明変数に関するデータが、回帰分析を行なうのに必要な量のデータであるか否かを確認する(A1)。必要な量の目安は、例えばクロスバリデーションを考慮した100サンプル以上である。
本実施形態では、予測精度を少しでも高くするために、予備データ作成部42を使って、最終的に回帰式を作成したい対象フィールドに対して静的属性が1〜2個同じもの(例えば職種、年齢層)で大規模データからセグメンテーションし、予備分析用の簡易疑似データセット211を作成し、このデータセットを用いて回帰式を導出する(A3)。
次にStepB(フィールドから収集したデータと似て、かつ目的変数の予測に有用な疑似データセットを大規模データから作成すること)の詳細について説明する。図8は、本発明の第1の実施形態におけるデータ分析システムによる第2の処理動作の概要を示す図である。図9は、本発明の第1の実施形態におけるデータ分析システムによる第2の処理動作の手順の一例を示すフローチャートである。
まず、有意差判定部44は、対象フィールドから収集したフィールドデータセット202をデータベース7から読み出すことで入力して、StepAのA3で導出した回帰式を用いた予測結果の正解率を計算することで(B1)、上記のフィールドデータセット202が一般的な大規模データセット201と比べてずれが大きいか否かを判定する(B2)。ずれが大きくない、例えば正解率が50%以下でない場合(B2のNO)は、大規模データセット201などから収集したフィールドデータセット202が一般的傾向に沿っており、このデータから導出した回帰式は適切であると判断する。
フィールドデータセット202における社交的であるという「1」というデータが有意であれば、大規模データセット201から、社交的を示すデータ「1」であるデータセットを作成する。つまり、社交的であるというデータでセグメンテーションを行うということになる。セグメンテーションを行なった結果、生成されたデータセットは、フィールドデータセット202と似て疑似データセット203となる。
そして、サンプル数が統計分析に必要な数(目安は100サンプル)以上であれば、回帰分析実行部431は、疑似データセット203が適切な分析が可能なデータセットであると判断し、この疑似データセット203に基づいて対象フィールド用の模擬回帰式を導出する。
次に、第2の実施形態について説明する。
図10は、本発明の第2の実施形態におけるデータ分析システムのデータ管理部の機能構成例を示す図である。
図10に示すように、第2の実施形態では、第1の実施形態で説明したデータ管理部6は、調査する変数に上限を設けるための次元削減部111をさらに有する。
しかし、ユーザの手入力も考慮した実用サービスを考えると、所望の予測結果を出力するために入力しなければならないデータが多くなればなるほど、ユーザの入力負荷が高くなり、サービスとしての定着率が低くなる。また、本発明の目的は、現在あるデータセットを使って導出した回帰式による未来の予測なので、予測に必要な説明変数の数が多いと、その変数に対する入力データがない場合は計算できない。また、変数が多いとうことは、それらすべてにデータが入力されるたびに予測値が変わるということになり、安定した予測精度をだすことができない。
全ての説明変数に入力するデータがすべて手入力になることを考えると、例えば30でも多すぎるため、最終目標の説明変数の数は10以下とすることが望ましい。
次に、第3の実施形態について説明する。
図11は、本発明の第3の実施形態におけるデータ分析システムのデータ管理部の機能構成例を示す図である。
図11に示すように、第3の実施形態では、第2の実施形態で説明したデータ管理部6は、欠損値対応部(欠損値補完部)121を有する。この欠損値対応部121は、回帰分析に用いるデータセットに欠損が生じてしていたとしても、平均値などを用いる方法や、改良EMアルゴリズムを用いた、欠損値があっても当該欠損値を含んだ状態で尤もらしい推定を行う最尤法などを用いたり、欠損値を含むレコードを削除したりすることで、欠損部を補完する。これにより、回帰分析のために作成したデータセットに欠損値があったとしても、欠損の起こり方に対応した回帰分析が行えるようになる。
Claims (7)
- 回帰分析による予測の対象となる対象フィールドで収集されるデータの属性の一部と同じ属性を有する簡易疑似データセットを、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて作成する第1の作成手段と、
前記作成した簡易疑似データセットを用いて回帰式を導出する導出手段と、
前記導出した回帰式について、前記対象フィールドにおける回帰分析のための目的変数の予測に有用な説明変数に、前記のフィールドで収集されるデータとの分布のずれを補正するための説明変数を付加して、この付加後の説明変数と前記導出した回帰式の目的変数について前記対象フィールドから正解値となるデータを抽出する第1の抽出手段と、
前記抽出したデータと前記対象フィールドと異なるフィールドで収集されるデータセットとの間に分布の有意差があるか否かを判定し、前記有意差がある場合に前記有意差を及ぼす説明変数を前記正解値となるデータから抽出する第2の抽出手段と、
前記有意差を及ぼす説明変数について、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて、前記対象フィールドで収集されるデータと特徴量が同じ、前記対象フィールドにおける目的変数の予測に有用な疑似データセットを作成する第2の作成手段と
を備えたことを特徴とするデータ分析装置。 - 前記第1の抽出手段は、
前記付加後の変数のうち、回帰係数が所定の条件を満たして大きい変数と前記導出した目的変数について前記対象フィールドから前記正解値となるデータを抽出する
ことを特徴とする請求項1に記載のデータ分析装置。 - 前記簡易疑似データセット、または前記対象フィールドで収集されるデータと特徴量が同じ疑似データセットに対し、欠損値の補完を行なう補完手段をさらに備えた
ことを特徴とする請求項1または2に記載のデータ分析装置。 - データ分析装置に適用される方法であって、
回帰分析による予測の対象となる対象フィールドで収集されるデータの属性の一部と同じ属性を有する簡易疑似データセットを、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて作成し、
前記作成した簡易疑似データセットを用いて回帰式を導出し、
前記導出した回帰式について、前記対象フィールドにおける回帰分析のための目的変数の予測に有用な説明変数に、前記のフィールドで収集されるデータとの分布のずれを補正するための説明変数を付加して、この付加後の説明変数と前記導出した回帰式の目的変数について前記対象フィールドから正解値となるデータを抽出し、
前記抽出したデータと前記対象フィールドと異なるフィールドで収集されるデータセットとの間に分布の有意差があるか否かを判定し、前記有意差がある場合に前記有意差を及ぼす説明変数を前記正解値となるデータから抽出し、
前記有意差を及ぼす説明変数について、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて、前記対象フィールドで収集されるデータと特徴量が同じ、前記対象フィールドにおける目的変数の予測に有用な疑似データセットを作成する
ことを特徴とするデータ分析方法。 - 前記付加後の変数のうち、回帰係数が所定の条件を満たして大きい変数と前記導出した目的変数について前記対象フィールドから前記正解値となるデータを抽出する
ことを特徴とする請求項4に記載のデータ分析方法。 - 前記簡易疑似データセット、または前記対象フィールドで収集されるデータと特徴量が同じ疑似データセットに対し、欠損値の補完を行なう
ことを特徴とする請求項4または5に記載のデータ分析方法。 - 請求項1乃至3のいずれかに記載のデータ分析装置の一部分として動作するコンピュータに用いられるプログラムであって、
前記コンピュータを、
前記第1の作成手段、前記導出手段、前記第1の抽出手段、前記第2の抽出手段、および第2の作成手段
として機能させるためのデータ分析処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015235540A JP6459937B2 (ja) | 2015-12-02 | 2015-12-02 | データ分析装置、データ分析方法、データ分析処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015235540A JP6459937B2 (ja) | 2015-12-02 | 2015-12-02 | データ分析装置、データ分析方法、データ分析処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017102710A true JP2017102710A (ja) | 2017-06-08 |
JP6459937B2 JP6459937B2 (ja) | 2019-01-30 |
Family
ID=59017442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015235540A Active JP6459937B2 (ja) | 2015-12-02 | 2015-12-02 | データ分析装置、データ分析方法、データ分析処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6459937B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022036713A (ja) * | 2020-08-24 | 2022-03-08 | Kddi株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP7378271B2 (ja) | 2019-11-06 | 2023-11-13 | 株式会社マクロミル | 情報処理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060161403A1 (en) * | 2002-12-10 | 2006-07-20 | Jiang Eric P | Method and system for analyzing data and creating predictive models |
CN102385719A (zh) * | 2011-11-01 | 2012-03-21 | 中国科学院计算技术研究所 | 回归预测方法及装置 |
JP2015170184A (ja) * | 2014-03-07 | 2015-09-28 | 富士通株式会社 | 未観測因子推定支援装置、未観測因子推定支援方法および未観測因子推定支援プログラム |
-
2015
- 2015-12-02 JP JP2015235540A patent/JP6459937B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060161403A1 (en) * | 2002-12-10 | 2006-07-20 | Jiang Eric P | Method and system for analyzing data and creating predictive models |
CN102385719A (zh) * | 2011-11-01 | 2012-03-21 | 中国科学院计算技术研究所 | 回归预测方法及装置 |
JP2015170184A (ja) * | 2014-03-07 | 2015-09-28 | 富士通株式会社 | 未観測因子推定支援装置、未観測因子推定支援方法および未観測因子推定支援プログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7378271B2 (ja) | 2019-11-06 | 2023-11-13 | 株式会社マクロミル | 情報処理方法 |
JP2022036713A (ja) * | 2020-08-24 | 2022-03-08 | Kddi株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP7309673B2 (ja) | 2020-08-24 | 2023-07-18 | Kddi株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6459937B2 (ja) | 2019-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800885A (zh) | 针对黑盒机器学习模型的规则确定 | |
CN102737333B (zh) | 用于计算用户和要约到微小细分的匹配的顺序引擎 | |
KR101524971B1 (ko) | 개인 성향 예측 방법 및 그 장치 | |
JP2017174062A (ja) | 購買行動分析装置およびプログラム | |
JP6753115B2 (ja) | コンテンツ管理装置、コンテンツ管理方法及びプログラム | |
KR101827345B1 (ko) | 다중 알고리즘 및 자기학습기능을 적용한 개인화 추천 시스템 및 추천 방법 | |
CN107451832B (zh) | 推送信息的方法和装置 | |
Charras-Garrido et al. | Classification method for disease risk mapping based on discrete hidden Markov random fields | |
Schetgen et al. | Predicting donation behavior: Acquisition modeling in the nonprofit sector using Facebook data | |
US20140122504A1 (en) | Systems and Methods for Collection and Automatic Analysis of Opinions on Various Types of Media | |
US20150120634A1 (en) | Information processing device, information processing method, and program | |
KR102515439B1 (ko) | 인공지능 기반 인플루언서 정보 및 브랜드 메이커 정보를 이용한 뷰티 제품 제조사 매칭 방법, 장치 및 시스템 | |
KR101450453B1 (ko) | 컨텐츠 추천 방법 및 장치 | |
JP6308339B1 (ja) | クラスタリングシステム、方法およびプログラム、並びに、レコメンドシステム | |
JP6459937B2 (ja) | データ分析装置、データ分析方法、データ分析処理プログラム | |
KR20130033506A (ko) | 아이템 추천 방법 및 장치 | |
JP6899805B2 (ja) | 特性推定装置、特性推定方法、及び特性推定プログラム等 | |
Knock et al. | Bayesian model choice for epidemic models with two levels of mixing | |
JP2020035167A (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
WO2017090175A1 (ja) | 検証支援システム及び方法 | |
KR102405503B1 (ko) | 소비 데이터와 소셜 데이터를 이용한 소비동향 예측 지수 생성 방법과 이를 적용한 소비동향 예측 지수 생성 시스템 및 이를 위한 컴퓨터 프로그램 | |
KR101689499B1 (ko) | 신규 논문 추천 방법 및 상기 방법을 수행하는 신규 논문 추천 시스템 | |
Rekik et al. | Extraction of association rules used for assessing web sites' quality from a set of criteria | |
WO2021071428A1 (en) | System and method for innovation, creativity, and learning as a service | |
Ishino | Knowledge extraction of consumers’ attitude and behavior: a case study of private medical insurance policy in Japan |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20171214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6459937 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |