JP7056493B2 - データ処理装置、データ処理方法およびプログラム - Google Patents

データ処理装置、データ処理方法およびプログラム Download PDF

Info

Publication number
JP7056493B2
JP7056493B2 JP2018183608A JP2018183608A JP7056493B2 JP 7056493 B2 JP7056493 B2 JP 7056493B2 JP 2018183608 A JP2018183608 A JP 2018183608A JP 2018183608 A JP2018183608 A JP 2018183608A JP 7056493 B2 JP7056493 B2 JP 7056493B2
Authority
JP
Japan
Prior art keywords
data
vector
unit
estimation model
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018183608A
Other languages
English (en)
Other versions
JP2020052886A (ja
Inventor
昭宏 千葉
正造 東
和広 吉田
央 倉沢
直樹 麻野間
佳那 江口
勉 籔内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018183608A priority Critical patent/JP7056493B2/ja
Priority to US17/276,767 priority patent/US20220027686A1/en
Priority to PCT/JP2019/036262 priority patent/WO2020066724A1/ja
Publication of JP2020052886A publication Critical patent/JP2020052886A/ja
Application granted granted Critical
Publication of JP7056493B2 publication Critical patent/JP7056493B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • G06F17/175Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method of multidimensional data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21342Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis using statistical independence, i.e. minimising mutual information or maximising non-gaussianity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Operations Research (AREA)
  • Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Description

この発明の一態様は、欠損を含むデータを有効に活用するための、データ処理装置、データ処理方法、およびプログラムに関する。
IoT(Internet of Things)技術の発展に伴い、例えば血圧計や体重計などの家電製品がネットワークに接続され、日常生活で計測した血圧や体重などの健康データがネットワークを通じて収集される環境が整いつつある。健康データは、定期的な計測が推奨されることが多く、また計測値とともに計測日時を表す情報を含むことが多い。ここで、健康データには、計測し忘れや計測機器の不具合などによってデータが欠損しやすいという課題がある。この欠損は、健康データを解析する上で精度の低下等をまねく原因になる。
欠損を考慮したデータ解析として、欠損を表す配列を用いて、欠損の無い部分のみで誤差を最小化することで、欠損の影響を考慮した学習方法が提案されている(例えば、特許文献1参照)。
国際公開第2018/047655号
ところが、欠損を含むデータの解析では、課題の1つとしてデータが削減されてしまうことが考えられる。特に、取得されたデータ全体のサイズが小さい場合や、データ全体のサイズに対して欠損の割合が大きい場合など、欠損を無視して解析すると、有効なデータが少量になってしまうことがある。
例えば、血圧のように1日に複数回計測される健康データでは、1日の計測値のうち一部が欠損する場合がある。図4は、そのようなデータの欠損を含む5日分の血圧計測データの例を示す。図4の例では、1日3回の血圧を計測するように設定されている場合に、6月22日と26日には欠損のないデータが得られているが、23日は2回目と3回目のデータが、24日は3回目のデータが、25日はすべてのデータがそれぞれ欠損している。このようなケースで、例えば1回でも欠損した日のデータを無視すると決めると、5日間のデータのうち2日分のデータしか有効なデータとして解析に使用できなくなってしまう。
もう1つの課題が、欠損の度合いが考慮されないことである。例えば、図4の場合、欠損が1回だけの日から3回すべて欠損している日まで、欠損の程度に差がある。しかし、欠損の有無だけで判断すると、これらの日はすべて欠損ありとして判断されてしまう。集計単位が大きくなるほど、欠損の有無だけでなく欠損の度合いを適切に表現することが重要となり得る。
この発明は上記事情に着目してなされたもので、その目的とするところは、欠損を含むデータを有効に活用するための、データ処理装置、データ処理方法、およびプログラムを提供することにある。
上記課題を解決するために、この発明の第1の態様は、データ処理装置にあって、欠損を含む一連のデータを取得するデータ取得部と、上記一連のデータから、あらかじめ定められた集計単位ごとに、データの代表値と有効なデータが存在する割合を表す有効率とを算出する統計量算出部と、上記代表値および上記有効率を推定モデルに入力して得られる出力と、上記代表値との差に基づく誤差を最小化するように上記推定モデルを学習する学習部と、を具備するようにしたものである。
この発明の第2の態様は、上記第1の態様において上記学習部が、上記推定モデルに対し、あらかじめ定められた個数の代表値と、当該代表値の各々に対応する有効率とを連結した要素からなる入力ベクトルを入力するようにしたものである。
この発明の第3の態様は、上記第2の態様において上記学習部が、
Xを、上記あらかじめ定められた個数の代表値を要素とするベクトル、Wを、Xの各要素に対応する有効率を要素とするベクトル、Yを、上記入力ベクトルを上記推定モデルに入力して得られる出力ベクトルと、それぞれ定義したときに、次式:
L=|W・(Y-X)|
で表される誤差Lを最小化するように上記推定モデルを学習するようにしたものである。
この発明の第4の態様は、上記第1の態様において、上記データ取得部により推定対象となる欠損を含む一連のデータが取得された場合に、当該一連のデータから上記集計単位ごとに上記統計量算出部により算出される、データの代表値と有効なデータが存在する割合を表す有効率とを学習済みの上記推定モデルに入力し、当該入力に応じた上記推定モデルの中間層からの出力を、上記一連のデータの特徴量として出力する、第1の推定部をさらに具備するようにしたものである。
この発明の第5の態様は、上記第1の態様において、上記データ取得部により推定対象となる欠損を含む一連のデータが取得された場合に、当該一連のデータから上記集計単位ごとに上記統計量算出部により算出される、データの代表値と有効なデータが存在する割合を表す有効率とを学習済みの上記推定モデルに入力し、当該入力に応じた上記推定モデルからの出力を、上記欠損を補間した推定データとして出力する、第2の推定部をさらに具備するようにしたものである。
この発明の第1の態様によれば、欠損を含む一連のデータから、あらかじめ定められた集計単位ごとに、データの代表値と、有効なデータが存在する割合を表す有効率とが算出され、代表値と有効率とに基づく入力値を推定モデルに入力して得られる出力値と、前記代表値との差に基づく誤差を最小化するように、推定モデルが学習される。
これにより、取得された一連のデータが欠損を含む場合でも、あらかじめ定められた集計単位ごとに統計量としての代表値および有効率を算出して学習に用いることにより、データを破棄することなく、集計単位ごとの情報としてすべてのデータを有効に活用することができる。また、単に欠損があるかないかだけでなく、集計単位ごとに有効なデータが存在する割合が算出されて学習に用いられるので、欠損の度合いまで考慮に入れた効果的な学習を行うことができる。
この発明の第2の態様によれば、あらかじめ定められた個数の代表値と、各代表値に対応する有効率とを連結した要素からなる入力ベクトルが、推定モデルに対して入力され、当該推定モデルの学習に用いられる。これにより、学習用のデータ群が規則性のない欠損を含む場合でも、複雑なデータ処理を要することなく、各集計単位の代表値と有効率とを確実に対応付けて学習を行うことができる。
この発明の第3の態様によれば、あらかじめ定められた個数の代表値を要素とするベクトルXと、Xの各要素に対応する有効率を要素とするベクトルWと、上記入力ベクトルを推定モデルに入力して得られるベクトルYとから算出される誤差L=|W・(Y-X)|を最小化するように、推定モデルの学習が行われる。これにより、入力側のベクトルXおよび出力側のベクトルYの両方に有効率が適用され、欠損の度合いを明確に考慮した誤差を用いて、推定モデルの学習を行うことができる。
この発明の第4の態様によれば、推定対象となる欠損を含む一連のデータが取得された場合に、当該一連のデータから算出される集計単位ごとのデータの代表値と有効なデータが存在する割合を表す有効率とが学習済みの推定モデルに入力され、当該入力に応じた推定モデルの中間層からの出力が上記一連のデータの特徴量として出力される。これにより、欠損を含む一連のデータについて、欠損の度合いまでも考慮に入れた特徴量を得ることができ、当該一連のデータの特徴をより的確に把握することができる。
この発明の第5の態様によれば、推定対象となる欠損を含む一連のデータが取得された場合に、当該一連のデータから算出される集計単位ごとのデータの代表値と有効なデータが存在する割合を表す有効率とが学習済みの推定モデルに入力され、当該入力に応じた推定モデルからの出力が、欠損を補間した推定データとして出力される。これにより、欠損を含む一連のデータについて、欠損の度合いまでも考慮に入れた推定結果を得ることができる。
すなわちこの発明の各態様によれば、欠損を含むデータを有効に活用する技術を提供することができる。
図1は、この発明の一実施形態に係るデータ処理装置の機能構成を示すブロック図である。 図2は、図1に示したデータ処理装置による学習フェーズの処理手順とその処理内容の一例を示すフローチャートである。 図3は、図1に示したデータ処理装置による推定フェーズの処理手順とその処理内容の一例を示すフローチャートである。 図4は、欠損を含むデータの一例を示す図である。 図5は、欠損を含むデータから日ごとの集計単位で統計量を算出した結果の一例を示す図である。 図6は、推定モデルとそれに対する入力および出力の一例を示す図である。 図7は、欠損を含むデータから3日ごとの集計単位で統計量を算出した結果の一例を示す図である。 図8は、入力ベクトル生成の第1の例を示す図である。 図9は、入力ベクトル生成の第2の例を示す図である。 図10は、複数種類のデータに基づく入力ベクトル生成の第1の例を示す図である。 図11は、複数種類のデータに基づく入力ベクトル生成の第2の例を示す図である。
以下、図面を参照してこの発明に係わる実施形態を説明する。
[一実施形態]
(構成)
図1は、この発明の一実施形態に係るデータ処理装置1の機能構成を示すブロック図である。
データ処理装置1は、例えば、医療機関や保健管理センター等によって管理されるもので、例えばサーバコンピュータまたはパーソナルコンピュータにより構成される。データ処理装置1は、ネットワークNWを介して、または図示しない入力デバイスを介して、健康データなど、欠損を含む一連のデータ(「データ群」とも言う)を取得することができる。データ処理装置1は、単独で設置されてもよいが、医師等の医療従事者の端末や、医療機関ごとに設置されている電子医療記録(Electronic Medical Records:EMR)サーバ、複数の医療機関を含む地域ごとに設置される電子健康記録(Electronic Health Records:EHR)サーバ、さらにはサービス事業者のクラウドサーバ等に、その拡張機能の1つとして設けられるものであってもよい。さらには、データ処理装置1は、ユーザが所持するユーザ端末等にその拡張機能の1つとして設けられてもよい。
一実施形態に係るデータ処理装置1は、入出力インタフェースユニット10と、制御ユニット20と、記憶ユニット30とを備える。
入出力インタフェースユニット10は、例えば1つ以上の有線または無線の通信インタフェースユニットを含んでおり、外部機器との間で情報の送受信を可能にする。有線インタフェースとしては、例えば有線LANが使用され、また無線インタフェースとしては、例えば無線LANやBluetooth(登録商標)などの小電力無線データ通信規格を採用したインタフェースが使用される。
例えば、入出力インタフェースユニット10は、制御ユニット20の制御の下、通信機能を備えた血圧計などの計測機器から送信されたデータを受信し、またはデータベースサーバにアクセスして蓄積されたデータを読み出し、そのデータを解析対象として制御ユニット20に渡す処理を行う。入出力インタフェースユニット10はまた、キーボードなどの入力デバイス(図示せず)によって入力された指示情報を制御ユニット20に出力する処理を行うことができる。さらに、入出力インタフェースユニット10は、制御ユニット20から出力された学習結果や推定結果を、液晶ディスプレイなどの表示デバイス(図示せず)に出力したり、ネットワークNWを介して外部機器に送信する処理を行うことができる。
記憶ユニット30は、記憶媒体として、例えばHDD(Hard Disk Drive)またはSSD(Solid State Drive)等の随時書込および読み出しが可能な不揮発性メモリを用いたものであり、この実施形態を実現するために必要な記憶領域として、プログラム記憶部の他に、データ記憶部31と、統計量記憶部32と、モデル記憶部33とを備えている。
データ記憶部31は、入出力インタフェースユニット10を介して取得された、解析対象のデータ群を記憶するために用いられる。
統計量記憶部32は、データ群から算出された統計量を記憶するために用いられる。
モデル記憶部33は、欠損を含むデータ群から欠損を補間したデータ群を推定するための推定モデルを記憶するために用いられる。
ただし、上記記憶部31~33は、必須の構成ではなく、データ処理装置1が計測機器やユーザ機器から必要なデータを随時取得するようにしてもよい。あるいは、上記記憶部31~33は、データ処理装置1に内蔵されたものでなくてもよく、例えば、USBメモリなどの外付け記憶媒体や、クラウドに配置されたデータベースサーバ等の記憶装置に設けられたものであってもよい。
制御ユニット20は、図示しないCPU(Central Processing Unit)やMPU(Micro Processing Unit)等のハードウェアプロセッサと、DRAM(Dynamic Random Access Memory)やSRAM(Static Random Access Memory)等のメモリとを有し、この実施形態を実施するために必要な処理機能として、データ取得部21と、統計量算出部22と、ベクトル生成部23と、学習部24と、推定部25と、出力制御部26とを備えている。これらの処理機能は、いずれも上記記憶ユニット30に格納されたプログラムを上記プロセッサに実行させることにより実現される。制御ユニット20は、また、ASIC(Application Specific Integrated Circuit)やFPGA(field-programmable gate array)などの集積回路を含む、他の多様な形式で実現されてもよい。
データ取得部21は、入出力インタフェースユニット10を介して、解析対象とするデータ群を取得し、データ記憶部31に格納する処理を行う。
統計量算出部22は、データ記憶部31に格納されたデータを読み出し、あらかじめ定められた集計単位ごとに統計量を算出し、算出した結果を統計量記憶部32に格納する処理を行う。一実施形態では、統計量は、各集計単位に含まれるデータの代表値と、各集計単位に含まれる有効なデータの割合を表す有効率とを含む。
ベクトル生成部23は、統計量記憶部32に格納された統計量を読み出し、あらかじめ定められた個数の要素からなるベクトルを生成する処理を行う。一実施形態では、ベクトル生成部23は、あらかじめ定められた個数の代表値を要素とするベクトルXと、ベクトルXの各要素に対応する有効率を要素とするベクトルWとを生成する。ベクトル生成部23は、生成されたベクトルXおよびベクトルWを、学習フェーズにおいては学習部24に出力し、推定フェーズにおいては推定部25に出力する。
学習部24は、学習フェーズにおいて、モデル記憶部33に格納された推定モデルを読み出し、ベクトル生成部23から受け取ったベクトルXおよびベクトルWを当該推定モデルに入力して、推定モデルの各パラメータを学習する処理を行う。一実施形態では、学習部24は、ベクトルXの要素とベクトルWの要素を連結したベクトルを推定モデルに入力し、その入力に応じて当該推定モデルから出力されるベクトルYを取得する。そして、学習部24は、ベクトルXとベクトルYとの差に基づいて算出される誤差を最小化するように推定モデルの各パラメータを学習し、モデル記憶部33に格納された推定モデルを随時更新する処理を行う。
推定部25は、推定フェーズにおいて、モデル記憶部33に格納された学習済みの推定モデルを読み出し、ベクトル生成部23から受け取ったベクトルXおよびベクトルWを当該推定モデルに入力して、データの推定処理を行う。一実施形態では、推定部25は、ベクトルXの要素とベクトルWの要素を連結したベクトルを学習済みの推定モデルに入力し、その入力に応じて当該推定モデルから出力されるベクトルYまたは中間層の特徴量Zを、推定結果として出力制御部26に出力する。
出力制御部26は、推定部25から出力されたベクトルYまたは特徴量Zを出力する処理を行う。あるいは、出力制御部26は、モデル記憶部33に格納された学習済みの推定モデルに関するパラメータを出力することも可能である。
(動作)
次に、以上のように構成されたデータ処理装置1による情報処理動作を説明する。データ処理装置1は、例えば、入力デバイス等を通じて入力されたオペレータからの指示信号を受け付けて、学習フェーズまたは推定フェーズとして動作することができる。
(1)学習フェーズ
学習フェーズが設定されると、データ処理装置1は、以下のように推定モデルの学習処理を実行する。図2は、データ処理装置1による学習フェーズの処理手順と処理内容を示すフローチャートである。
(1-1)学習用データの取得
はじめに、データ処理装置1は、ステップS201において、データ取得部21の制御の下、入出力インタフェースユニット10を介して、欠損を含む一連のデータを学習用データとして取得し、取得したデータをデータ記憶部31に格納する。
図4は、取得され格納されるデータの一例として、1日3回の計測頻度を設定された、特定のユーザの5日分の血圧計測結果を示す。1日3回とは、例えば、起床直後、昼食前、就寝前など、異なる時間帯に計測されるものであってもよいし、同じ時間帯に3回計測が繰り返されるものであってもよい。また、血圧計測値は、収縮期血圧、拡張期血圧、脈圧など、いずれの計測値であってもよい。なお、図4に示した数値は説明のために例示するものにすぎず、特定の健康状態を表すことを意図したものではない。また、取得されるデータは、血圧計測値を表す数値データとともに、ユーザID、装置ID、計測日時を表す情報等を含むこともできる。
なお、図4では、便宜上、1日分のレコードごとに連続番号を付し、欠損に関する説明を付記している。図4において、記号「-」は、有効なデータが存在しない、またはデータが欠損していることを意味する。図4に示すように、6月22日(#1)および26日(#5)には3回分のデータが計測されており欠損はないが、23日(#2)には1回のデータしか計測されておらず、24日(#3)には2回のデータしか計測されておらず、25日(#4)にはまったく計測されていない。
(1-2)統計量の算出
次いで、データ処理装置1は、ステップS202において、統計量算出部22の制御の下、データ記憶部31に格納されたデータを読み出し、あらかじめ設定された集計単位ごとに統計量を算出する処理を行う。集計単位は、データ処理装置1のオペレータ、設計者または管理者等によって、例えばデータの種類ごとに任意に設定され、記憶ユニット30に記憶されているものとする。統計量算出部22は、記憶ユニット30に記憶された集計単位の設定を読み出し、データ記憶部31から読み出したデータを集計単位ごとに分割して、統計量を算出する。
図5は、図4に示したデータを用いて算出された、統計量としての代表値および有効率を示す。ここでは、日ごとの集計単位が設定され、代表値として平均値が設定されている。ただし、代表値はこれだけに限られるものではなく、中央値、最大値、最小値、最頻値、分散や標準偏差など、任意の統計量を用いることができる。集計単位と同様に、どのような種類の統計量を算出すべきかについても、あらかじめ管理者等によって設定しておくことが可能である。
図5に示した例では、代表値として、集計単位内の有効なデータの平均値が算出される。例えば、6月22日(#1)には3回分の血圧計測データ(110,111,111)が得られたので、代表値(平均値)として「110.6667」(=(110+111+111)/3)が算出されている。一方、6月23日(#2)には1回分の血圧計測データ(122)しか得られなかったので、有効なデータ間の平均値として代表値「122」(=122/1)が算出されている。また、6月25日(#4)には計測データが全く取得されなかったので、算出不可を意味する「NA」が示されている。
有効率は、集計単位内に有効なデータが存在する割合を示す。図5に示したように、集計単位が1日で、1日3回の計測頻度が設定されている場合、3回分の計測データが得られれば「1(=3/3)」、2回ならば「0.666(=2/3)」、1回ならば「0.333(=1/3)」、0回ならば「0(=0/3)」として算出される。
以上のようにして統計量算出部22によって算出された結果は、例えば集計単位を識別する識別番号や日付情報に紐づけて、統計量データとして統計量記憶部32に記憶させることができる。
なお、集計単位は、1日単位に限定されるものではなく、任意の単位を採用することができる。例えば、数時間単位、3日単位、1週間単位など、任意の時間幅に設定されてもよいし、時間情報を用いず、欠損を含めたデータの個数によって定義される単位であってもよい。さらに、集計単位は、互いに重複するものであってもよい。例えば、特定の日付に関連付けて、その日付の前日と当日の2日分のデータから移動平均を算出するように設定されてもよい。
(1-3)ベクトルの生成
次に、データ処理装置1は、ステップS203において、ベクトル生成部23の制御の下、統計量記憶部32に格納された統計量データを読み出し、推定モデルの学習に用いるための2種のベクトル(ベクトルXおよびベクトルW)を生成する処理を行う。
ベクトル生成部23は、読み出した統計量データから、あらかじめ設定された数(n)の集計単位を選択し、それらn個の集計単位の各々から代表値および有効率を抽出して、n個の代表値を要素とするベクトルX(x1, x2,..., xn)と、ベクトルXの各要素に対応するn個の有効率を要素とするベクトルW(w1, w2,..., wn)とを生成する。要素の数nは、後述するように、学習対象である推定モデルの入力次元数の1/2に対応し、推定モデルの入力次元数は、データ処理装置1の設計者や管理者等が任意に設定することができる。生成されるベクトル対(ベクトルXとベクトルW)の数Nは、学習データのサンプル数に対応し、その数Nもまた任意に設定することができる。
例えば、要素の数n=3、ベクトル対の数N=2と設定された場合、図5に示した例では、ベクトル生成部23は、1つ目のベクトル対として、例えば#1~#3の集計単位を選択し、代表値を抽出してベクトルX1(110.6667, 122, 121.5)を生成し、有効率を抽出してベクトルW1(1, 0.333, 0.666)を生成することができる。さらにベクトル生成部23は、2つ目のベクトル対として、例えば#2~#4の集計単位を選択し、ベクトルX2(122, 121.5, 0)およびベクトルW2(0.333, 0.666, 0)を生成することができる。このように、ベクトル生成の際には、代表値「NA」は0で置き換えることができる。またこのように、ベクトル生成の際に選択される集計単位は互いに重複していても重複していなくてもよい。生成すべきベクトル対の数Nを設定せず、読み出された統計量データから選択可能なすべての組合せに対応する個数のベクトル対を生成するように設定してもよい。
ベクトル生成部23は、以上のように生成したベクトル対(ベクトルXとベクトルW)を学習部24に出力する。
(1-4)推定モデルの学習
次に、データ処理装置1は、ステップS204において、学習部24の制御の下、あらかじめモデル記憶部33に格納された学習対象の推定モデルを読み出し、ベクトル生成部23から受け取ったベクトルXおよびベクトルWを当該推定モデルに入力してその学習を行う。学習対象とする推定モデルは、設計者や管理者等によって任意に設定されることができる。
一実施形態では、推定モデルとして階層型ニューラルネットワークが使用される。図6は、そのようなニューラルネットワークの一例と、それに対する入力および出力ベクトルのイメージを示す。図6に示した推定モデルは、入力層と、3層の中間層と、出力層とから構成され、ユニット数はそれぞれ順に10、3、2、3、5と設定されている。ただし、これらのユニット数の詳細は、説明のために便宜的に設定したものにすぎず、解析対象とするデータの性質や解析の目的、作業環境等に応じて任意に設定することができる。また、中間層については3層に限定されるものではなく、3層以外の層数を任意に選択して中間層を構成することができる。
ニューラルネットワークでは、一般に、入力層の各ノードに入力ベクトルの各要素が入力され、それぞれ重みづけされて足し合わされ、バイアスを付加されて次の層のノードに入り、当該ノードで活性化関数を適用後に出力される。したがって、重み係数をA、バイアスをB、活性化関数をfとすると、入力層にPが入力されたときの中間層(第1層)の出力Qは、一般に、次式で表される。
Q=f(AP+B) (1)
この実施形態では、入力層には、ベクトルXの要素とベクトルWの要素とを連結したベクトルが入力される。図6に示した例では、図5のデータから要素数n=5としてベクトルX(110.6667, 122, 121.5, 0, 115.3333)、およびベクトルW(1, 0.333, 0.666, 0, 1)が生成され、これらの要素を連結した入力ベクトル(110.6667, 122, 121.5, 0, 115.3333, 1, 0.333, 0.666, 0, 1)が推定モデルに入力される。
図6において、Yは、推定モデルからの出力ベクトルを表し、ベクトルXと同じ要素数を有する。したがって、この実施形態では、ベクトルXとベクトルWの要素数が同一であることから、推定モデルの出力次元数は、入力次元数の1/2となっている。図6の例ではまた、入力層および出力層に比べて中間層のユニット数が小さくなるように設計されている。
図6において、Zは、中間層の特徴量を表す。特徴量Zは、中間層のノードからの出力として得られ、上式(1)に基づいて表すことができる。例えば、図6の例で、中間層(第1層)の特徴量Z1は、
1=f1(A1P+B1) (2)
で表され、中間層(第2層)の特徴量Z2は、
2=f2(A2(f1(A1P+B1))+B2) (3)
で表される。なお、添え字1または2は、それぞれ第1層または第2層の出力に寄与するパラメータであることを意味する。
特徴量は、一般に、入力されたデータにどのような特徴があるかを表す。図6に示したように、入力層よりも中間層のユニット数の方が少ない学習済みモデルから得られる特徴量Zは、入力されたデータの本質的な特徴をより少ない次元で表した、有益な情報となり得ることが知られている。
学習部24は、このような推定モデルに対して、上記のようにベクトルXの要素とベクトルWの要素を連結した入力ベクトルを入力し、その入力に対して推定モデルから出力される出力ベクトルYを取得する。そして、学習部24は、生成されたすべてのベクトル対(ベクトルXとベクトルW)について、次式(4)を用いて算出される誤差Lを最小化するように、推定モデルのパラメータ(重み係数やバイアスなど)を学習する。
L=|W・(Y-X)| (4)
式(4)において、入力側のベクトルXおよび出力側のベクトルYの両方に有効率のベクトルWが適用されており、推定モデルを学習する際にデータ中の欠損の度合いが考慮されていることがわかる。
このように、学習部24では、出力層からの出力ができるだけ入力を再現したものとなるように、推定モデルが自己符号化器(オートエンコーダ)として学習される。ここで、学習部24は、例えばAdamやAdaDeltaなどの確率的勾配降下法を用いて、上記誤差Lを最小化するように推定モデルを学習することができるが、これに限るものではなく、他の任意の手法を用いることができる。
(1-5)モデルの更新
誤差Lを最小化するように推定モデルのパラメータが決定されたら、学習部24は、ステップS205において、モデル記憶部33に格納された推定モデルを更新する処理を行う。データ処理装置1は、例えばオペレータからの指示信号の入力に応答して、モデル記憶部33に格納された学習済みモデルの各パラメータを、制御ユニット20の制御の下、出力制御部26を通じて出力するように構成してもよい。
上記学習フェーズが終了すると、データ処理装置1は、モデル記憶部33に格納された学習済みモデルを用いて、新たに取得された欠損を含むデータ群をもとに、データの推定を行うことが可能となる。
(2)推定フェーズ
推定フェーズが設定されると、データ処理装置1は、学習済みモデルを用いて以下のようにデータの推定処理を実行することができる。図3は、データ処理装置1による推定フェーズの処理手順と処理内容を示すフローチャートである。なお、図2と同様の処理については詳細な説明は省略する。
(2-1)推定用データの取得
はじめに、データ処理装置1は、ステップS301において、ステップS201と同様に、データ取得部21の制御の下、入出力インタフェースユニット10を介して、欠損を含む一連のデータを推定用データとして取得し、取得したデータをデータ記憶部31に格納する。
(2-2)統計量の算出
次いで、データ処理装置1は、ステップS302において、ステップS202と同様に、統計量算出部22の制御の下、データ記憶部31に格納されたデータを読み出し、設定された集計単位ごとに統計量を算出する処理を行う。集計単位は、学習フェーズで用いたのと同じ設定を用いることが好ましいが、必ずしもそれに限定されるわけではない。同様に、代表値は、学習フェーズで用いたのと同じ代表値(例えば上記の例では有効なデータ間の平均値)を用いることが好ましいが、必ずしもそれに限定されるわけではない。集計単位ごとに統計量として代表値および有効率が算出されたら、統計量算出部22は、その算出結果を、例えば集計単位を識別する識別番号や日付情報に紐づけて、統計量データとして統計量記憶部32に記憶させることができる。
(2-3)ベクトルの生成
次に、データ処理装置1は、ステップS303において、ステップS203と同様に、ベクトル生成部23の制御の下、統計量記憶部32に格納された統計量データを読み出し、推定を行うための2種のベクトル(ベクトルXおよびベクトルW)を生成する処理を行う。
ベクトル生成部23は、読み出した統計量データから、設定された数(n)の集計単位を選択し、それらn個の集計単位の各々から代表値および有効率を抽出して、n個の代表値を要素とするベクトルX(x1, x2,..., xn)と、ベクトルXの各要素に対応するn個の有効率を要素とするベクトルW(w1, w2,..., wn)とを生成する。要素の数nは、例えば、学習に用いたnの値を記憶しておくか、またはモデル記憶部33に格納された学習済みモデルの入力次元数に1/2を乗じた値として取得することができる。
ベクトル生成部23は、生成したベクトル対(ベクトルXとベクトルW)を推定部25に出力する。
(2-4)データの推定
次に、データ処理装置1は、ステップS304において、推定部25の制御の下、モデル記憶部33に格納された学習済みの推定モデルを読み出し、ベクトル生成部23から受け取ったベクトルXおよびベクトルWを当該学習済みの推定モデルに入力して、その入力に対して推定モデルから出力される出力ベクトルYを取得する処理を行う。学習フェーズで説明したのと同様に、図6に示した出力ベクトルYは、次式で表される。
Y=f4(A4(f3(A3(f2(A2(f1(A1P+B1))+B2))+B3))+B4) (5)
図6に示した例では、推定モデルから出力ベクトルY(110.0, 122.2, 122.4, 0.1, 114.9)が出力される。入力されたベクトルXの各要素が、ベクトルYでは有効率を考慮した数値に置き換わっており、特に、ベクトルX中のx4=0(欠損)がベクトルYではy4=0.1に置き換わっている。
(2-5)推定結果の出力
データ処理装置1は、ステップS305において、例えばオペレータからの指示信号の入力に応答して、出力制御部26の制御の下、推定部25による推定結果を、入出力インタフェースユニット10を介して出力することができる。出力制御部26は、例えば、推定モデルから出力された出力ベクトルYを取得し、これを、入力データ群に対応する欠損を補間されたデータ群として、液晶ディスプレイなどの表示デバイスに出力したり、ネットワークNWを介して外部機器に送信することができる。
あるいは、出力制御部26は、入力データ群に対応する中間層の特徴量Zを抽出し、これを出力することもできる。特徴量Zは、上述のように、入力データ群について、元の入力データ群よりも少ない次元で本質的な特徴を表したものと考えることができる。したがって、特徴量Zを任意の別の学習器の入力として用いることにより、元の入力データ群をそのまま用いる場合に比べて負荷を軽減した処理を行うことができる。そのような任意の別の学習器として、例えば、ロジスティック回帰やサポートベクターマシン、ランダムフォレストのような分類器や、重回帰分析や回帰木などを用いた回帰モデルへの活用が想定される。
(効果)
以上詳述したように、この発明の一実施形態では、データ取得部21によって、欠損を含む一連のデータが取得され、統計量算出部22によって、この一連のデータから所定の集計単位ごとに統計量としてデータの代表値と有効なデータが存在する割合を表す有効率とが算出される。この有効率の算出の際、上記実施形態では、欠損をあり/なしの2値で表現するのではなく、割合としての連続値で表現するようにしている。
そして、学習フェーズにおいては、ベクトル生成部23によって、所定の個数nの集計単位から抽出される代表値を要素とするベクトルXと、それに対応する有効率を要素とするベクトルWとが生成される。次いで、学習部24によって、ベクトルXの要素とベクトルWの要素を連結した入力ベクトルが推定モデルに対して入力され、その入力に対して推定モデルから出力されるベクトルYに基づく誤差Lを最小化するように、オートエンコーダとして推定モデルの学習が行われる。
これにより、推定モデルの学習に際して、集計単位内の一部のデータまたはすべてのデータが欠損している場合でも、その集計単位を破棄することなく有効に活用して学習に用いることができ、データの削減を抑えることができる。これは、欠損の割合がデータ全体のサイズに対して大きい場合や、データ全体のサイズが小さい場合に特に有利である。
さらに、上記実施形態によれば、集計単位ごとの代表値に対し、集計単位ごとの欠損の度合いを考慮して学習を行うことができる。式(4)に示したように、誤差Lに含まれるWによって、欠損の大きいデータの寄与が小さくなるように学習されるので、欠損の度合いまでも効果的に用いてデータを有効に活用することができる。
推定フェーズにおいても、学習フェーズと同様に、ベクトル生成部23によって、所定の個数nの集計単位から抽出される代表値を要素とするベクトルXと、それに対応する有効率を要素とするベクトルWとが生成される。そして、推定部25によって、ベクトルXの要素とベクトルWの要素を連結した入力ベクトルが、上記のように学習された学習済みの推定モデルに対して入力され、その入力に応じて推定モデルから出力されるベクトルYまたは中間層から出力される特徴量Zが取得される。
したがって、欠損を含むデータ群をもとに、学習済みの推定モデルを用いてデータを推定するときにも、または学習済みの推定モデルの中間層から特徴量を取得するときにも、もとのデータを破棄することなく有効に活用して、またその欠損の度合いまでも考慮して、推定処理を行うことができる。
さらに、上記実施形態によれば、学習フェーズおよび推定フェーズのいずれについても、統計量の算出や入力ベクトル生成のために過度に複雑な操作を要求するものではないので、データの性質や分析の目的に応じて管理者等が任意の設定や修正を行って実施することが可能である。
[他の実施形態]
なお、この発明は上記実施形態に限定されるものではない。
例えば、図5および図6に関して、ベクトル生成部23が、集計単位ごとに算出された代表値および有効率を所定の要素数だけ抽出してベクトルXおよびベクトルWを生成するものとして説明したが、統計量を算出する前の生データからベクトルXを生成するようにしてもよい。
例えば図4の例では、#1のレコードから計測値をそのまま抽出してベクトルX1(110, 111, 111)を生成することもできる。この場合、対応するベクトルW1として、例えば#1のレコードには欠損がないので有効率として「1」を用いて、ベクトルW1(1, 1, 1)を生成することができる。また同様に、図4の#2のレコードからベクトルX2(122, 0, 0)を生成することができる。この場合、対応するベクトルW2として、#2のレコードでは1回目の計測値しか得られなかったので、有効率として「0.333」を用いて、ベクトルW2(0.333, 0.333, 0.333)を生成することができる。あるいは、1回目の計測値だけが有効であったとしてベクトルW2(1, 0, 0)を生成するようにしてもよい。
また、統計量算出部22が用いる集計単位は、上記実施形態に限定されるものではなく、任意の集計単位を設定することができる。図7は、集計単位を3日としたときの統計量の算出方法の一例を示す。図7では、日ごとに計測された体重を表す計測データから、集計単位として前後3日間の平均値および有効率が算出されている。すなわち、図7において、6月23日に紐づけられた#2については、6月22日~24日の3日間の平均値(代表値)「60.5」と、同じ3日間の有効率(有効データが存在する割合)「0.666」とが統計量として算出されている。同様に、6月27日に紐づけられた#6については、6月26日~28日の3日間に計測データが全く取得されなかったので、代表値として「NA(算出不可)」と、有効率「0」とが算出されている。なお、上述のように、「NA」はベクトル生成時に「0」に置き換えることができる。
さらに、ベクトル生成部23によるベクトルの生成も、上記で説明した実施形態に限定されるものではない。図8および図9は、ベクトル生成のための時系列データからの5次元のデータ抽出の例を示す。図8の例では、元のデータを5日間ごとに分割して、図6に示したような推定モデルに入力するようにしている。図9の例では、5日間のデータを1日ずつずらしながら抽出して入力ベクトルとするようにしている。同様に、2日ずつ、3日ずつ、または4日ずつずらして抽出することも可能であり、他の抽出方法を採用して上記実施形態に適用することも可能である。
またさらに、複数の種類のデータが存在する場合にも、上記実施形態を適用することができる。図10および図11は、2種類のデータ(データAおよびデータB)からの入力ベクトル生成の例を示す。ここでは、「データA」として、血圧値や体重などの健康に関するデータや、血糖値や尿検査値などの検査値、問診(アンケート)の回答などが想定され、「データB」として、歩数や睡眠時間などウェアラブルデバイスで計測されるようなセンサデータや、GPSなどで計測される位置情報、問診(アンケート)の回答などが想定される。例えば、「データA」として血圧計測値データ、「データB」として歩数計測値データを収集し、両者を同時に考慮して解析することにより、被検者の健康管理や病気の予防などに役立てようとする場合が考えられる。ただし、上記実施形態は、このような健康関連データに限るものではなく、製造業、運輸業、農業など、多種多様な分野において取得される多種多様なデータを用いることができる。
図10に示すように、2種類のデータが存在する場合、それぞれから抽出したデータを連結して入力ベクトルを生成するように構成することができる。図10の例では、6次元の入力に対して、前半の3次元をデータA、後半の3次元をデータBに割り当てて、データAおよびデータBそれぞれから抽出した3日間分のデータを入力ベクトルとしている。図10の例では、入力次元と同じ期間でずらしながら抽出した場合を記載したが、図9に関して上述したように1日ずつずらしながら入力してもよい。2種類を超える種類のデータが存在する場合にも、図10の例を適用可能である。
あるいは、図11に示すように、複数のデータをそれぞれ入力のチャネルに割り当てて入力してもよい。これは、RGB画像のように1つのピクセルが3つの情報を持っているときに、画像データをニューラルネットワークに入力する際などに使用される一般的な手法で実現される。
以上の実施形態では、特に1日ごとに記録されるような時系列データを例に記載したが、データの記録頻度は1日である必要はなく、任意の頻度で記録されたデータを用いることができる。
さらに、上述したように時系列データ以外のデータに対して上記実施形態を適用することも可能である。例えば、観測地点ごとに記録された気温データのようなものでもよいし、画像データなどでもよい。画像データのように2次元の配列で表現されるデータの場合は、複数の種類のデータが存在する事例について述べたように、行ごとに抽出して連結して入力することで実現される。
また、アンケートや試験などの集計結果に対して上記実施形態を適用することも可能である。例えば、アンケートの場合、該当なしまたは回答したくないなどの理由により、一部の質問に対してデータが欠損したり、特定の被検者に関して完全に無回答のデータが得られることが予想される。このような場合にも、上記実施形態によれば、一部無回答と完全無回答とを区別して考慮しつつ、データを破棄することなく有効に活用して学習や推定を行うことができる。なお、アンケートの自由回答のようにデータが言語情報を含む場合、テキストマイニングを用いてキーワードの出現頻度を解析するなど、任意の方法でデータを数値化し、上記実施形態を適用することができる。
またさらに、データ処理装置1が備える各機能部の必ずしもすべてを単一の装置に設ける必要はない。例えば、データ処理装置1が備える機能部21~26を、クラウドコンピュータやエッジルータ等に分散配置し、これらの装置が互いに連携することにより学習および推定を行うようにしてもよい。これにより、各装置の処理負荷を軽減し、処理効率を高めることができる。
その他、統計量の算出やデータの格納形式等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
1…データ処理装置、10…入出力インタフェースユニット、20…制御ユニット、21…データ取得部、22…統計量算出部、23…ベクトル生成部、24…学習部、25…推定部、26…出力制御部、30…記憶ユニット、31…データ記憶部、32…統計量記憶部、33…モデル記憶部。

Claims (8)

  1. 欠損を含む一連のデータを取得する、データ取得部と、
    前記一連のデータから、あらかじめ定められた集計単位ごとに、データの代表値と、有効なデータが存在する割合を表す有効率とを算出する、統計量算出部と、
    前記代表値および前記有効率を推定モデルに入力して得られる出力と、前記代表値との差に基づく誤差を最小化するように前記推定モデルを学習する、学習部と、
    を具備するデータ処理装置。
  2. 前記学習部は、前記推定モデルに対し、あらかじめ定められた個数の代表値と、当該代表値の各々に対応する有効率とを連結した要素からなる入力ベクトルを入力する、請求項1に記載のデータ処理装置。
  3. 前記学習部は、
    Xを、前記あらかじめ定められた個数の代表値を要素とするベクトル、Wを、Xの各要素に対応する有効率を要素とするベクトル、Yを、前記入力ベクトルを前記推定モデルに入力して得られる出力ベクトルと、それぞれ定義したときに、
    次式で表される誤差Lを最小化するように前記推定モデルを学習する、
    L=|W・(Y-X)|
    請求項2に記載のデータ処理装置。
  4. 前記データ取得部により推定対象となる欠損を含む一連のデータが取得された場合に、当該一連のデータから前記集計単位ごとに前記統計量算出部により算出されるデータの代表値と有効なデータが存在する割合を表す有効率とを学習済みの前記推定モデルに入力し、当該入力に応じた前記推定モデルの中間層からの出力を、前記一連のデータの特徴量として出力する、第1の推定部をさらに具備する、請求項1に記載のデータ処理装置。
  5. 前記データ取得部により推定対象となる欠損を含む一連のデータが取得された場合に、当該一連のデータから前記集計単位ごとに前記統計量算出部により算出されるデータの代表値と有効なデータが存在する割合を表す有効率とを学習済みの前記推定モデルに入力し、当該入力に応じた前記推定モデルからの出力を、前記欠損を補間した推定データとして出力する、第2の推定部をさらに具備する、請求項1に記載のデータ処理装置。
  6. データ処理装置が実行する、データ処理方法であって、
    欠損を含む一連のデータを取得する過程と、
    前記一連のデータから、あらかじめ定められた集計単位ごとに、データの代表値と、有効なデータが存在する割合を表す有効率とを算出する過程と、
    前記代表値および前記有効率を推定モデルに入力して得られる出力と、前記代表値との差に基づく誤差を最小化するように前記推定モデルを学習する過程と、
    を具備するデータ処理方法。
  7. 前記学習する過程は、
    Xを、あらかじめ定められた個数の代表値を要素とするベクトル、Wを、Xの各要素に対応する有効率を要素とするベクトル、Yを、Xの各要素とWの各要素とを連結した要素からなる入力ベクトルを前記推定モデルに入力して得られる出力ベクトルと、それぞれ定義したときに、
    次式で表される誤差Lを最小化するように前記推定モデルを学習する、
    L=|W・(Y-X)|
    請求項6に記載のデータ処理方法。
  8. 請求項1乃至5のいずれか一項に記載のデータ処理装置の各部による処理をプロセッサに実行させるプログラム。
JP2018183608A 2018-09-28 2018-09-28 データ処理装置、データ処理方法およびプログラム Active JP7056493B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018183608A JP7056493B2 (ja) 2018-09-28 2018-09-28 データ処理装置、データ処理方法およびプログラム
US17/276,767 US20220027686A1 (en) 2018-09-28 2019-09-17 Data processing apparatus, data processing method, and program
PCT/JP2019/036262 WO2020066724A1 (ja) 2018-09-28 2019-09-17 データ処理装置、データ処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018183608A JP7056493B2 (ja) 2018-09-28 2018-09-28 データ処理装置、データ処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2020052886A JP2020052886A (ja) 2020-04-02
JP7056493B2 true JP7056493B2 (ja) 2022-04-19

Family

ID=69952686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018183608A Active JP7056493B2 (ja) 2018-09-28 2018-09-28 データ処理装置、データ処理方法およびプログラム

Country Status (3)

Country Link
US (1) US20220027686A1 (ja)
JP (1) JP7056493B2 (ja)
WO (1) WO2020066724A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163521A (ja) 2004-12-02 2006-06-22 Research Organization Of Information & Systems 時系列データ分析装置および時系列データ分析プログラム
WO2010100701A1 (ja) 2009-03-06 2010-09-10 株式会社 東芝 学習装置、識別装置及びその方法
WO2018047655A1 (ja) 2016-09-06 2018-03-15 日本電信電話株式会社 時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2980174C (en) * 2015-04-09 2023-03-28 Equifax, Inc. Automated model development process
EP3475798A4 (en) * 2016-06-27 2020-05-06 Purepredictive, Inc. DATA QUALITY DETECTION AND COMPENSATION FOR MACHINE LEARNING
US10592368B2 (en) * 2017-10-26 2020-03-17 International Business Machines Corporation Missing values imputation of sequential data
US20190279043A1 (en) * 2018-03-06 2019-09-12 Tazi AI Systems, Inc. Online machine learning system that continuously learns from data and human input
US11374661B2 (en) * 2018-06-13 2022-06-28 Nokia Technologies Oy Generalized virtual PIM measurement for enhanced accuracy

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163521A (ja) 2004-12-02 2006-06-22 Research Organization Of Information & Systems 時系列データ分析装置および時系列データ分析プログラム
WO2010100701A1 (ja) 2009-03-06 2010-09-10 株式会社 東芝 学習装置、識別装置及びその方法
WO2018047655A1 (ja) 2016-09-06 2018-03-15 日本電信電話株式会社 時系列データ特徴量抽出装置、時系列データ特徴量抽出方法及び時系列データ特徴量抽出プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Liang Ze Wong et al.,Imputing missing values in sensor networks using sparse data representations,MSWiM '14: Proceedings of the 17th ACM international conference on Modeling, analysis and simulation of wireless and mobile systems,2014年09月,pp. 227-230,DOI: https://doi.org/10.1145/2641798.2641816
Lorenzo Rimoldini,Weighted statistical parameters for irregularly sampled time series,arXiv:1304.6616,2013年,URL:https://arxiv.org/abs/1304.6616
Yanjie Duan et al.,A deep learning based approach for traffic data imputation,17th International IEEE Conference on Intelligent Transportation Systems (ITSC),IEEE,2014年,pp. 912-917,DOI: 10.1109/ITSC.2014.6957805

Also Published As

Publication number Publication date
WO2020066724A1 (ja) 2020-04-02
US20220027686A1 (en) 2022-01-27
JP2020052886A (ja) 2020-04-02

Similar Documents

Publication Publication Date Title
Dineshkumar et al. Big data analytics of IoT based Health care monitoring system
Young et al. A survey of methodologies for the treatment of missing values within datasets: Limitations and benefits
US10546239B2 (en) Causal network generation system and data structure for causal relationship
US8788291B2 (en) System and method for estimation of missing data in a multivariate longitudinal setup
US20220165417A1 (en) Population-level gaussian processes for clinical time series forecasting
Planalp et al. Growth curve modeling to studying change: A comparison of approaches using longitudinal dyadic data with distinguishable dyads
Levy et al. A framework of statistical tests for comparing mean and covariance structure models
Gao et al. Semiparametric regression analysis of multiple right-and interval-censored events
Moreno-Betancur et al. Survival analysis with time-dependent covariates subject to missing data or measurement error: Multiple Imputation for Joint Modeling (MIJM)
Carrasco et al. Errors-in-variables beta regression models
Zimmer et al. Use of daily Internet search query data improves real-time projections of influenza epidemics
Natasha Beretvas et al. An evaluation of modified R 2-change effect size indices for single-subject experimental designs
JP7014119B2 (ja) データ処理装置、データ処理方法、及びプログラム
JP7056493B2 (ja) データ処理装置、データ処理方法およびプログラム
Rathnayake et al. Tolerance bands for functional data
JPWO2018221488A1 (ja) ノウハウ情報処理システム、方法及び装置
Thorpe et al. Sensing behaviour in healthcare design
Wang et al. The impact of over-simplifying the between-subject covariance structure on inferences of fixed effects in modeling nested data
Chalise et al. Baseline age effect on parameter estimates in Cox models
Morita Design of mobile health technology
Althouse et al. Understanding the true significance of a P value
Perry et al. Identifying the time of step change in the mean of autocorrelated processes
Wu et al. Nonparametric estimation for time-varying transformation models with longitudinal data
Khosravi et al. Phase I risk-adjusted control charts for surgical data with ordinal outcomes
Li et al. Bandwidth selection through cross-validation for semi-parametric varying-coefficient partially linear models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210108

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220321

R150 Certificate of patent or registration of utility model

Ref document number: 7056493

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150