JP7347517B2 - データ分析装置、方法およびプログラム - Google Patents

データ分析装置、方法およびプログラム Download PDF

Info

Publication number
JP7347517B2
JP7347517B2 JP2021543838A JP2021543838A JP7347517B2 JP 7347517 B2 JP7347517 B2 JP 7347517B2 JP 2021543838 A JP2021543838 A JP 2021543838A JP 2021543838 A JP2021543838 A JP 2021543838A JP 7347517 B2 JP7347517 B2 JP 7347517B2
Authority
JP
Japan
Prior art keywords
data
factor
scale
value
factor data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021543838A
Other languages
English (en)
Other versions
JPWO2021044514A1 (ja
Inventor
妙 佐藤
昭宏 千葉
智樹 渡部
正造 東
拓也 犬童
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021044514A1 publication Critical patent/JPWO2021044514A1/ja
Application granted granted Critical
Publication of JP7347517B2 publication Critical patent/JP7347517B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Economics (AREA)
  • Medical Informatics (AREA)
  • Strategic Management (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、データ分析装置、方法およびプログラムに関する。
面積などの量的データの比例尺度、および地目などの質的データの名義尺度を説明変数として入力し、例えば土地価格を予測対象データである目的変数として、それぞれの説明変数について目的変数への寄与度を算出するものがある。なお、質的データは、該当する要素のみを1とし、その他の要素を0とした、One-hotベクトル(Vector)で表現される(例えば非特許文献1を参照)。
"重回帰分析による土地価格推定の一手法"、岡山大学、DEIM Forum 2018 H5-3、インターネット<URL:http://db-event.jpn.org/deim2018/data/papers/195.pdf>
上記非特許文献1では、量的データの比例尺度、および質的データの名義尺度を説明変数として扱っているが、量的データの間隔尺度、例えば気温(摂氏温度)および主観的な疲労度、および質的データの順序尺度、例えば主観的な順位を考慮した回帰分析を行ないたい場合がある。
この場合、間隔尺度、順序尺度の値の一つ一つの数値あるいは範囲指定された条件の該当有無によって、One-hotベクトルで表現して説明変数とする方法が考えられる。しかし、このOne-hotベクトルは、各因子が独立の因子として表現されるため、因子の値の変化、例えば気温の差および疲労度の変化は考慮されない。
そのため、実際は変化の量、例えば変化の量が1なのか2なのかの違い、または変化前後の値、例えば4から3へ変化したこと、2から3へ変化したこと、の違い、が目的変数の説明に寄与するとしても、この因子を抽出できず、説明変数によるデータ分析の精度が不十分である。
この発明は、上記事情に着目してなされたもので、その目的とするところは、説明変数によるデータ分析の精度を向上させることができるようにしたデータ分析装置、方法およびプログラムを提供することにある。
本発明の一態様に係るデータ分析装置は、目的変数としての予測対象データに影響を与えると想定される因子データを収集する因子データ収集手段と、前記因子データ収集手段により収集された因子データに、尺度の種別が間隔尺度または順序尺度である因子データが含まれるときの、当該尺度に係る因子データの値の変化の特性に応じて設定された関数であって、前記目的変数への因子の影響度に応じて設定された変換関数を用いて、前記値の変化に関する補正偏微分値を算出し、前記補正偏微分値を正規化または標準化した値を含む説明変数を出力する出力手段とを有する。
本発明の一態様に係るデータ分析方法は、データ分析装置が行う方法であって、目的変数としての予測対象データに影響を与えると想定される因子データを収集し、前記収集された因子データに、尺度の種別が間隔尺度または順序尺度である因子データが含まれるときの、当該尺度に係る因子データの値の変化の特性に応じて設定された関数であって、前記目的変数への因子の影響度に応じて設定された変換関数を用いて、前記値の変化に対する補正偏微分値を算出し、前記補正偏微分値を正規化または標準化した値を含む説明変数を出力するようにしたものである。
本発明によれば、説明変数によるデータ分析の精度を向上させることができる。
図1は、本発明の一実施形態に係る寄与度推定装置のハードウェア構成の一例を示す図である。 図2は、本発明の一実施形態に係る寄与度推定装置のソフトウェア構成の一例を示す図である。 図3は、因子データDBに登録される因子データの一例を表形式で示す図である。 図4は、One-hotベクトル生成条件DBに格納されるOne-hotベクトル生成条件の一例を表形式で示す図である。 図5は、One-hotベクトルDBに登録されるOne-hotベクトルデータの一例を表形式で示す図である。 図6は、変化量ベクトル生成条件DBに格納される変化量ベクトル生成条件の一例を表形式で示す図である。 図7は、間隔・順序尺度の変化量ベクトル生成関数DBに格納される、間隔・順序尺度の変化量ベクトル生成関数の第1の例を表形式で示す図である。 図8は、変換関数の第1の例を説明する図である。 図9は、因子データDBに格納される、間隔尺度に係る因子データの第1の例を表形式で示す図である。 図10は、変化量ベクトルDBに格納される変化量ベクトルの第1の例を表形式で示す図である。 図11は、変換関数の第2の例を説明する図である。 図12は、因子データDBに格納される因子データの第3の例を表形式で示す図である。 図13は、間隔・順序尺度の変化量ベクトル生成関数DBに格納される、間隔・順序尺度の変化量ベクトル生成関数の第2の例を表形式で示す図である。 図14は、変化量ベクトルDBに格納される変化量ベクトルの第2の例を表形式で示す図である。 図15は、補正偏微分値の決定に係る処理手順の一例を示すフローチャートである。 図16は、各種の変換関数の一例を示す図である。 図17は、間隔・順序尺度の変化量ベクトル生成関数DBに格納される、間隔・順序尺度の変化量ベクトル生成関数の第3の例を表形式で示す図である。 図18は、目的変数DBに格納される目的変数の一例を表形式で示す図である。 図19は、重みDBに格納される、回帰分析により算出された重みの一例を表形式で示す図である。 図20は、行動への影響スコアの一例を示す図である。
以下、図面を参照しながら、この発明に係わる一実施形態を説明する。
(構成)
(1)ハードウェア構成
図1は、本発明の一実施形態に係る寄与度推定装置1のハードウェア構成の一例を示すブロック図である。
寄与度推定装置1は、例えばサーバコンピュータ(Server computer)またはパーソナルコンピュータ(Personal computer)により構成され、CPU(Central Processing Unit)等のハードウェアプロセッサ(Hardware processor)11Aを有する。そして、寄与度推定装置1では、このハードウェアプロセッサ11Aに対し、プログラムメモリ(Program memory)11B、データメモリ(Data memory)12、および入出力インタフェース13が、バス(Bus)14を介して接続される。
寄与度推定装置1にはキーボードなどの入力デバイス2、出力デバイス3が付設される。入出力インタフェース13には、入力デバイス2と出力デバイス3が接続可能である。プログラムメモリ11Bは、非一時的な有形のコンピュータ可読記憶媒体として、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリと、ROM等の不揮発性メモリとが組み合わせて使用されたものである。このプログラムメモリ11Bには、一実施形態に係る各種制御処理が実行されるために必要なプログラムが格納されている。
データメモリ12は、有形のコンピュータ可読記憶媒体として、例えば、上記の不揮発性メモリと、RAM(Random Access Memory)等の揮発性メモリとが組み合わせて使用されたものである。このデータメモリ12は、各種処理が行なわれる過程で取得および作成された各種データが記憶されるために用いられる。
(2)ソフトウェア構成
図2は、本発明の一実施形態に係る寄与度推定装置1のソフトウェア構成の一例を示す図である。この図2では、寄与度推定装置1のソフトウェア構成が図1に示されたハードウェア構成と関連付けられて示される。
図2に示すように、寄与度推定装置1は、ソフトウェアによる処理機能部として、因子データ収集部21、One-hotベクトル生成部22、間隔・順序尺度の変化量ベクトル生成部(変化量ベクトル生成部と称することもある)23、目的変数データ収集部24、回帰分析データ取得部25、回帰分析実行部26、重み利用部27、収集・生成DB(データベース)121、および条件DB122を備えるデータ分析装置として構成できる。
収集・生成DB121は、因子データDB121A、One-hotベクトルDB121B、変化量ベクトルDB121C、目的変数DB121D、生成関数‐精度DB121E、および重みDB121Fを有する。
条件DB122は、One-hotベクトル生成条件DB122A、変化量ベクトル生成条件DB122B、および間隔・順序尺度の変化量ベクトル生成関数DB(変化量ベクトル生成関数DBと称することもある)122Cを有する。条件DB122内の各部には事前に各種情報が登録されているとする。
図2に示された寄与度推定装置1内の収集・生成DB(データベース)121、条件DB122は、図1に示されたデータメモリ12を用いて構成され得る。ただし、これらのデータベースは寄与度推定装置1内に必須の構成ではなく、例えば、USB(Universal Serial Bus)メモリなどの外付け記憶媒体、又はクラウド(Cloud)に配置されたデータベースサーバ(Database server)等の記憶装置に設けられたものであってもよい。
上記の因子データ収集部21、One-hotベクトル生成部22、間隔・順序尺度の変化量ベクトル生成部23、目的変数データ収集部24、回帰分析データ取得部25、回帰分析実行部26、重み利用部27、収集・生成DB(データベース)121、および条件DB122の各部における処理機能部は、いずれも、プログラムメモリ11Bに格納されたプログラムを上記ハードウェアプロセッサ11Aにより読み出させて実行させることにより実現される。なお、これらの処理機能部の一部または全部は、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)またはFPGA(field-programmable gate array)などの集積回路を含む、他の多様な形式によって実現されてもよい。
寄与度推定装置1は、目的変数に影響を与えると想定される各因子(尺度種別が間隔尺度または順序尺度であるとき)の変化の特性(目的変数への影響度)が反映された新たな量的データを算出し、このデータを説明変数に加える。
本実施形態では、目的変数を説明する因子データに、主観的なアンケートなどの間隔尺度のデータ、又は順序尺度のデータが存在し、かつ、該当の因子データの値に変化がある場合において、要因分析の精度が向上する。さらに、目的変数への変化に関する寄与度の推定も可能になる。
以下、寄与度推定装置1の各部の詳細について説明する。
(1) 因子データ収集部
因子データ収集部21は、目的変数に影響を与えると想定される、あらかじめ定められた因子のデータを、指定された頻度、例えば指定時刻、またはデータが取得されたタイミングごと、などで収集し、この収集されたデータを、内蔵タイマにより計時される現在の日付と関連付けて因子データDB121Aへ登録する。
図3は、因子データDB121Aに登録される因子データの一例を表形式で示す図である。
例えば、目的変数が「ランニング(Running)の実施有無」である場合、因子データは、図3に示される「ユーザの忙しさ」、「ユーザの疲労度」、「帰宅時間」、「気温(例えば最低気温)」、「職種」、「体重」であるとする。この図3には示されないが、因子データとしては、例えば「心の余裕」なども挙げられる。
「ユーザの忙しさ」、「ユーザの疲労度」は、ユーザが入力デバイス2により入力したタイミングで収集され、「帰宅時間」、「体重」は、例えば一日の終わり(例えば23:59)で収集され、「気温」は例えば一日の始まり(例えば00:01)に収集され、「職種」は例えば1年に1回収集される。
また、ユーザの識別子を設けて複数ユーザに係る因子データが収集されても良い。
(2) One-hotベクトル生成部
図4は、One-hotベクトル生成条件DB122Aに格納されるOne-hotベクトル生成条件の一例を表形式で示す図である。
図4に示されるように、One-hotベクトル生成条件DB122Aには、因子データDB121Aに登録される因子データ中の各因子について、One-hotベクトル生成条件(条件)、尺度種別が対応付けられて格納される。One-hotベクトル生成条件としては、値毎、時間ごと、温度ごと、職種別が挙げられる。尺度種別としては、間隔尺度、名義尺度、比例尺度、順序尺度が挙げられる。なお、図4に示した例では、順序尺度および、この尺度に係る条件は示されていないが、順序尺度に該当する因子が存在すれば、この因子について、One-hotベクトル生成条件、尺度種別が対応付けられてOne-hotベクトル生成条件DB122Aに格納され得る。
One-hotベクトル生成部22は、因子データDB121AとOne-hotベクトル生成条件DB122Aとをそれぞれ参照することで、各因子データがOne-hotベクトルに変換されたOne-hotベクトルデータを生成し、この生成されたOne-hotベクトルデータをOne-hotベクトルDB121Bに登録する。
One-hotベクトル生成部22は、上記生成されたOne-hotベクトルデータに、尺度種別が比例尺度である因子データ、例えば体重、が含まれる場合には、この因子データに係るOne-hotベクトルの値を正規化して最終的なOne-hotベクトルデータとする。
図5は、One-hotベクトルDB121Bに登録されるOne-hotベクトルデータの一例を表形式で示す図である。図5では、各因子における各日付について、正規化されたOne-hotベクトルデータが示される。
(3) 変化量ベクトル生成部
図6は、変化量ベクトル生成条件DB122Bに格納される変化量ベクトル生成条件の一例を表形式で示す図である。
図6に示されるように、変化量ベクトル生成条件DB122Bには、因子データDB121Aに登録される因子データ中に間隔尺度に係る因子データ、または順序尺度に係る因子データが含まれるときの、該当の尺度に係る各因子について、変化量ベクトル生成条件(図6中の条件)、尺度種別が対応付けられて格納される。変化量ベクトル生成条件は、値毎、時間ごと、温度ごとなどが挙げられる。
図7は、間隔・順序尺度の変化量ベクトル生成関数DB122Cに格納される変化量ベクトル生成関数の第1の例を表形式で示す図である。
図7に示されるように、間隔・順序尺度の変化量ベクトル生成関数DB122Cに格納される変化量ベクトル生成関数では、変化量ベクトル生成条件DB122Bに格納される、各因子の変化量ベクトル生成条件に関連付けられて、変換関数zが格納される。この変換関数は、因子データの値の変化の特性である、目的変数への影響度に合わせて設けられた関数である。
図8は、変換関数の第1の例を説明する図である。
図8では、因子データの値の変化量ΔXと変換関数zとの関係が示される。ここでは、以下の(1)、(2)が成り立つとする。nは例えば1,2,3,…であり得る。
z=X´ …(1)
X´=ΔX=X[n]-X[n-1] …(2)
間隔・順序尺度の変化量ベクトル生成部23は、因子データDB121A、変化量ベクトル生成条件DB122B、間隔・順序尺度の変化量ベクトル生成関数DB122Cをそれぞれ参照し、間隔尺度、順序尺度に係る因子データについて、変化量ベクトルを生成する。
変化量ベクトルの生成手順の詳細を下記に示す。
(a)間隔・順序尺度の変化量ベクトル生成部23は、変化量ベクトル生成条件DB122Bに格納される、変化量ベクトルの生成条件を基に、ベクトル構造を作成する。
図9は、因子データDB121Aに格納される間隔尺度に係る因子データの第1の例を表形式で示す図である。図9では、間隔尺度に係る因子データのうち「忙しさ」に係る因子データが示される。
例えば、尺度種別が間隔尺度である「忙しさ」に係る因子データの値が、図9に示された、値が1~3である評価データである場合、ベクトル構造は、3パターン(Pattern)(変化前)×3パターン(変化後)でなる全9個の要素を持つベクトルとなる。
図10は、変化量ベクトルDB121Cに格納される変化量ベクトルの第1の例を表形式で示す図である。図10では、「忙しさ」に係る因子データの変化量ベクトルが示される。
図10に示されるxx~xxでなる各列が上記のベクトル構造における要素の数に対応する。
(b)間隔・順序尺度の変化量ベクトル生成部23は、間隔・順序尺度の変化量ベクトル生成関数DB122Cに格納される変換関数zを基に、上記作成されたベクトル構造内の該当する要素、例えば値の変化が1から2であるときの変化量Δ12に係る要素、の、因子データの値の変化に関する補正偏微分値Δxを、以下の(3)を用いて算出する。
Δx=z(ΔX) …(3)
Δx:補正偏微分値
ΔX:因子の変化量
z:変換関数
上記(3)は、時系列における、所定の日付などに係るデータに対する、一つ前の日付、例えば1日前などに係るデータとの間の因子の変化量を算出する式である。ただし、用途に応じて、時系列におけるk個前との間の値の差分、または1か月前などに係るデータとの間の差分が用いられても良い。
間隔・順序尺度の変化量ベクトル生成部23は、算出された補正偏微分値を正規化(または標準化)する。なお、該当しない要素の値は、0とする。図10に示される最下行の値は、上記正規化された補正偏微分値に対応する。
次に、補正偏微分値の算出および正規化の第1の具体例を下記で説明する。
変化量と行動への影響とは比例するとみなし、間隔・順序尺度の変化量ベクトル生成部23は、変換関数をz=X´=ΔXとする。
因子データDB121Aに格納される因子データが図9に示されるデータである場合、日付1/10から1/11の間における因子データの値の変化量に関する補正偏微分値は、下記の(4)で示される。
Δ13=z(ΔX)=3-1=2 …(4)
間隔・順序尺度の変化量ベクトル生成部23は、変化量ベクトルDB121Cに格納される変化量ベクトルに係る、図10に示されるテーブル(Table)内の全セル(Cell)を探索して、補正偏微分値の正規化を行なう。図10に示される最下行の値が正規化された値に対応する。
正規化の際、間隔・順序尺度の変化量ベクトル生成部23は、補正偏微分値について1より大きい最大値がある場合(図10に示した例では、Δ13に係る上記(4)で示される「2」)には、この最大値を「1」(図10中のa)として正規化し、補正偏微分値について0以下が最大値であるの場合は、この最大値を「0」として正規化する。
また、間隔・順序尺度の変化量ベクトル生成部23は、補正偏微分値について0より小さい最小値がある場合には、その値を「-1」として正規化し、補正偏微分値について0以上が最小値である場合(図10に示した例では「0」)には、この最小値を「0」として正規化する。
原則は、「-1」から「1」の範囲で正規化されるが、補正偏微分値についてプラス領域にしか値がない場合は「0」から「1」の範囲で正規化され、マイナス領域にしかない値がない場合には「-1」から「0」の範囲で正規化される。
次に、補正偏微分値の算出および正規化の第2の具体例を下記で説明する。
図11は、変換関数の第2の例を説明する図である。
ここでは、上記の、因子データの値の変化の特性(目的変数への影響度)の関係を図11に示される関係であるとみなし、下記の(5)、(6)で示される変換関数が用いられる。図11中の横軸は、ΔX(変化量)の複数の例を示す。
z=log(ΔX+1) (ΔX≧0) …(5)
z=log(ΔX+1)-1 (ΔX<0) …(6)
上記(5)は、図11に示される変換関数のうち、ポジティブ(Positive)へ変化する際の変換関数(図11中のa)である。
上記(6)は、図11に示される変換関数のうち、ネガティブ(Negative)へ変化する際の変換関数(図11中のb)である。
ポジティブへ変化する際の変換関数は、
(a)ポジティブ変化は、ネガティブ変化と比較し、主観的価値が小さいため行動への影響は小さい。
(b)変化量は大きくなると主観的価値は比例せず小さくなる。
という特性を反映した関数である。
ネガティブへ変化する際の変換関数は、
(a)ネガティブ変化は、ポジティブ変化と比較し、主観的価値が大きいため行動への影響が大きい。
(b)変化量は大きくなると主観的価値は比例せず小さくなる
という特性を反映した関数である。
図12は、因子データDB121Aに格納される因子データの第3の例を表形式で示す図である。図12では、間隔尺度に係る因子データのうち「心の余裕」に係る因子データが示される。
図13は、間隔・順序尺度の変化量ベクトル生成関数DB122Cに格納される、間隔・順序尺度の変化量ベクトル生成関数の第2の例を表形式で示す図である。
因子データDB121Aに格納される因子データが図12に示されるデータである場合で、間隔・順序尺度の変化量ベクトル生成関数DB122Cに格納される、間隔・順序尺度の変化量ベクトル生成関数が図13に示される関数である場合、日付「1/10」から「1/11」までの、因子データの値の変化量に関する補正偏微分値は、例えば下記の(7)のように計算される。
Δ13=z(ΔX)
=log(ΔX+1)
=log(2+1)
=0.48 …(7)
図14は、変化量ベクトルDB121Cに格納される変化量ベクトルの第2の例を表形式で示す図である。図14では、「心の余裕」に係る因子データの変化量ベクトルが示される。
この例では、間隔・順序尺度の変化量ベクトル生成部23は、変化量ベクトルDB121Cに格納される変化量ベクトルに係る、図14に示されるテーブル内の全セルを探索して、補正偏微分値の正規化を行なう。図14に示される最下行の値は、正規化された値に対応する。
正規化の際、間隔・順序尺度の変化量ベクトル生成部23は、補正偏微分値について1より大きい最大値がある場合(図14に示された例では、Δ13に係る上記(7)で示される「0.48」)には、この最大値を「1」(図14中のa)として正規化し、補正偏微分値について0以下が最大値であるの場合は、この最大値を「0」として正規化する。
また、間隔・順序尺度の変化量ベクトル生成部23は、補正偏微分値について0より小さい最小値である場合には、その値を「-1」として正規化し、補正偏微分値について0以上が最小の場合(図14に示された例では「0」)には、この最小値を「0」として正規化する。
次に、補正偏微分値の算出および正規化の第3の具体例を下記で説明する。
図15は、補正偏微分値の決定に係る処理手順の一例を示すフローチャートである。
図16は、各種の変換関数の一例を示す図である。
図17は、間隔・順序尺度の変化量ベクトル生成関数DB122Cに格納される、間隔・順序尺度の変化量ベクトル生成関数の第3の例を表形式で示す図である。
図16では、各因子に係る変換関数は、一次関数(図16中のa)、対数関数(図16中のb)、二次関数(図16中のc)のそれぞれが、補正偏微分値Δxの算出に用いられる変換関数の候補として存在することが示される。
この例では、間隔・順序尺度の変化量ベクトル生成部23は、補正偏微分値Δxの算出に用いられる候補である複数の変換関数の各々を用いて、各因子の補正偏微分値をΔx算出する(S11)。
間隔・順序尺度の変化量ベクトル生成部23は、各因子と各変換関数の組み合わせにそれぞれについて、S11で算出されたΔxを、予め取得された正解データと比較することでし、各変換関数の精度を算出する(S12)。
間隔・順序尺度の変化量ベクトル生成部23は、S12で算出された精度が最も良い(誤差が最小である)変換関数で算出された補正偏微分値Δxを最終的な補正偏微分値Δxとして採用(決定)する(S13)。
(4)目的変数データ収集部
目的変数データ収集部24は、目的変数の値を指定のタイミング(例えば、指定時刻、又はデータが取得されたタイミング、など)で収集し、この収集された、目的変数の値を目的変数DB121Dへ登録する。
図18は、目的変数DB121Dに格納される目的変数の一例を表形式で示す図である。例えば、目的変数DB121Dに格納される目的変数が「ランニングの実施有無」である場合、目的変数DB121Dに登録される収集データである目的変数の値yは、例えば図18に示される値である。
(5)回帰分析データ取得部
回帰分析データ取得部25は、指定のタイミングまたは利用者の任意のタイミングで、One-hotベクトルDB121B、変化量ベクトルDB121C、および目的変数DB121Dから、回帰分析に必要な説明変数(例えば、x(i:1~n),xx(j:1~n))、および目的変数(例えばy)のデータを取得し、この取得されたデータを回帰分析実行部26に送信する。xは因子データの新たな入力に基づくOne-hotベクトルの要素(iは要素の数)であり、xxは因子データの新たな入力に基づく変化量ベクトルの要素(jは要素の数)である。
(6)回帰分析実行部
回帰分析実行部26は、回帰分析データ取得部25から受信したデータを基に、目的変数と説明変数との関係の回帰的な分析である回帰分析、例えば、重回帰分析、ロジスティックス(Logistics)回帰分析、などを行ない、回帰分析により算出された重みwを重みDB121Fに保存する。
また、上記S12にて、各変換関数の精度が算出されたときは、この算出結果が、回帰分析データ取得部25から回帰分析実行部26を経由して生成関数‐精度DB121Eに格納される。
図19は、重みDB121Fに格納される、回帰分析により算出された重みの一例を表形式で示す図である。
図19中のaに示された値によれば、「ユーザが非常に疲れた状態から大きく疲れが減ることが、ユーザの行動に影響を強く及ぼす」ことが推測されることができる。
(7)重み利用部
上記のように、順序・間隔尺度のデータについて、変化量についても説明変数として重みが算出されることで、たとえば、下記のように重みを利用することが可能になる。
(7-1)動機・阻害要因の各状態における影響を示す影響スコア(Score)に利用
重み利用部27は、ユーザの行動を動機づける因子、ユーザの行動を阻害すると想定される因子における、ユーザの各状態が当該のユーザの行動に影響を及ぼす度合のスコアを、ユーザの行動への影響スコアとして利用する。
図20は、行動への影響スコアの一例を示す図である。
このようにして、ユーザの行動を動機づける因子、ユーザの行動を阻害する因子について、より精度よく細かく算出できる。
(7-2)実行可能性予測
重み利用部27は、因子データに関わるデータが新たに取得された際に、重みDB121Fに登録された重み情報を利用して、下記の(8)に基づいて目的変数の値を予測する。これにより、目的変数の予測値が、より精度よく算出されることができる。
Figure 0007347517000001
y´:予測対象の目的変数
:One-hotベクトルの要素の重み
:変化量ベクトルの要素の重み
x´:予測に用いられる説明変数(因子データの新たな入力に基づくOne-hotベクトルの要素)
xx´:予測に用いられる説明変数(因子データの新たな入力に基づく変化量ベクトルの要素)
以上説明したように、本発明の一実施形態では、目的変数としての予測対象データに影響を与えると想定される因子データを収集し、収集された因子データの種別ごとに、当該因子データの値の変化の特性である、目的変数への因子の影響度に基づいて説明変数を生成するので、説明変数によるデータ分析の精度を向上させることができる。
また、各実施形態に記載した手法は、計算機(コンピュータ)に実行させることができるプログラム(ソフトウェア手段)として、例えば磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD、MO等)、半導体メモリ(ROM、RAM、フラッシュメモリ等)等の記録媒体に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段(実行プログラムのみならずテーブル、データ構造も含む)を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。
なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
1…寄与度推定装置
21…因子データ収集部
22…One-hotベクトル生成部
23…間隔・順序尺度の変化量ベクトル生成部
24…目的変数データ収集部
25…回帰分析データ取得部
26…回帰分析実行部
27…重み利用部
121…収集・生成DB
121A…因子データDB
121B…One-hotベクトルDB
121C…変化量ベクトルDB
121D…目的変数DB
121E…生成関数‐精度DB
121F…重みDB
122…条件DB
122A…One-hotベクトル生成条件DB
122B…変化量ベクトル生成条件DB
122C…間隔・順序尺度の変化量ベクトル生成関数DB

Claims (7)

  1. 目的変数としての予測対象データに影響を与えると想定される因子データを収集する因子データ収集手段と、
    前記因子データ収集手段により収集された因子データに、尺度の種別が間隔尺度または順序尺度である因子データが含まれるときの、当該尺度に係る因子データの値の変化の特性に応じて設定された関数であって、前記目的変数への因子の影響度に応じて設定された変換関数を用いて、前記値の変化に関する補正偏微分値を算出し、前記補正偏微分値を正規化または標準化した値を含む説明変数を出力する出力手段と、
    を備える、データ分析装置。
  2. 前記出力手段は、
    設定された前記変換関数のうち、正解データとの誤差が最小となる変換関数を用いて、前記補正偏微分値を算出する、
    請求項に記載のデータ分析装置。
  3. 前記目的変数の値を収集する目的変数収集手段と、
    前記目的変数収集手段により収集された目的変数、および前記出力手段により出力された説明変数との関係を回帰的に分析する回帰分析実行手段と、
    をさらに備える、請求項1または2に記載のデータ分析装置。
  4. データ分析装置が行う方法であって、
    目的変数としての予測対象データに影響を与えると想定される因子データを収集することと、
    前記収集された因子データに、尺度の種別が間隔尺度または順序尺度である因子データが含まれるときの、当該尺度に係る因子データの値の変化の特性に応じて設定された関数であって、前記目的変数への因子の影響度に応じて設定された変換関数を用いて、前記値の変化に対する補正偏微分値を算出し、前記補正偏微分値を正規化または標準化した値を含む説明変数を出力することと、
    を備えるデータ分析方法。
  5. 前記出力することは、
    設定された前記変換関数のうち、正解データとの誤差が最小となる変換関数を用いて、前記補正偏微分値を算出することを含む、
    請求項4に記載のデータ分析方法。
  6. 前記目的変数の値を収集することと、
    前記収集された目的変数、および前記出力された説明変数との関係を回帰的に分析することと、
    をさらに備える請求項またはに記載のデータ分析方法。
  7. 請求項1乃至3のいずれか1項に記載のデータ分析装置の前記各手段としてプロセッサを機能させるデータ分析処理プログラム。
JP2021543838A 2019-09-03 2019-09-03 データ分析装置、方法およびプログラム Active JP7347517B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/034604 WO2021044514A1 (ja) 2019-09-03 2019-09-03 データ分析装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2021044514A1 JPWO2021044514A1 (ja) 2021-03-11
JP7347517B2 true JP7347517B2 (ja) 2023-09-20

Family

ID=74853075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021543838A Active JP7347517B2 (ja) 2019-09-03 2019-09-03 データ分析装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US20220327395A1 (ja)
JP (1) JP7347517B2 (ja)
WO (1) WO2021044514A1 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0588900A (ja) * 1991-09-30 1993-04-09 Hitachi Ltd 学習型フアジイ制御装置および制御方法
JP2802469B2 (ja) * 1992-09-01 1998-09-24 株式会社山武 状態予測装置

Also Published As

Publication number Publication date
WO2021044514A1 (ja) 2021-03-11
JPWO2021044514A1 (ja) 2021-03-11
US20220327395A1 (en) 2022-10-13

Similar Documents

Publication Publication Date Title
Sandulescu et al. Predicting the future relevance of research institutions-The winning solution of the KDD Cup 2016
Fan et al. Variance estimation using refitted cross-validation in ultrahigh dimensional regression
JP5988419B2 (ja) 予測方法、予測システムおよびプログラム
US8954910B1 (en) Device mismatch contribution computation with nonlinear effects
MacEachern et al. Judgement post-stratification with imprecise rankings
US8290969B2 (en) Systems and methods for validating interpolation results using monte carlo simulations on interpolated data inputs
JP7139932B2 (ja) 需要予測方法、需要予測プログラムおよび需要予測装置
JP5061999B2 (ja) 解析装置、解析方法及び解析プログラム
US8813009B1 (en) Computing device mismatch variation contributions
Nan et al. A varying-coefficient Cox model for the effect of age at a marker event on age at menopause
CN112396211A (zh) 一种数据预测方法及装置、设备和计算机存储介质
Sun et al. Regularized latent class model for joint analysis of high-dimensional longitudinal biomarkers and a time-to-event outcome
Harrell, Jr et al. Describing, resampling, validating, and simplifying the model
JP2019215749A (ja) 物流予測システム及び予測方法
US20190050373A1 (en) Apparatus, method, and program for calculating explanatory variable values
JP2017117394A (ja) 生成装置、生成方法及び生成プログラム
JPWO2018088277A1 (ja) 予測モデル生成システム、方法およびプログラム
JP7347517B2 (ja) データ分析装置、方法およびプログラム
CN109118029B (zh) 对象排序处理方法、装置、计算机设备和存储介质
Faraji et al. Another look at regression analysis using ranked set samples with application to an osteoporosis study
Demeester et al. Exploiting user disagreement for web search evaluation: an experimental approach
JP6025796B2 (ja) 行動予測装置、行動予測方法及びプログラム
US11562110B1 (en) System and method for device mismatch contribution computation for non-continuous circuit outputs
Sant’Anna et al. Inequality assessment by probabilistic development indices
Huggins et al. Non-parametric estimation of population size from capture–recapture data when the capture probability depends on a covariate

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220105

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230104

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230821

R150 Certificate of patent or registration of utility model

Ref document number: 7347517

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150