JP7430091B2 - データ処理支援システム、データ処理支援方法及びデータ処理支援プログラム - Google Patents

データ処理支援システム、データ処理支援方法及びデータ処理支援プログラム Download PDF

Info

Publication number
JP7430091B2
JP7430091B2 JP2020053983A JP2020053983A JP7430091B2 JP 7430091 B2 JP7430091 B2 JP 7430091B2 JP 2020053983 A JP2020053983 A JP 2020053983A JP 2020053983 A JP2020053983 A JP 2020053983A JP 7430091 B2 JP7430091 B2 JP 7430091B2
Authority
JP
Japan
Prior art keywords
data
processing
data processing
layer
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020053983A
Other languages
English (en)
Other versions
JP2021157222A (ja
Inventor
実佳 高田
記史 西川
力也 田尻
祐介 船矢
俊彦 樫山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020053983A priority Critical patent/JP7430091B2/ja
Priority to US17/642,373 priority patent/US20220327164A1/en
Priority to PCT/JP2021/009790 priority patent/WO2021193100A1/ja
Publication of JP2021157222A publication Critical patent/JP2021157222A/ja
Application granted granted Critical
Publication of JP7430091B2 publication Critical patent/JP7430091B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Description

本発明は、データ処理を支援するデータ処理支援システム、データ処理支援方法及びデータ処理支援プログラムに関する。
従来、データ処理を支援する技術として、例えば特開2019-185751号公報(特許文献1)に開示の技術がある。この公報には、「患者の特徴量データを受信し、予め格納されているモデルと前記患者の特徴量データとの類似性を決定し、前記類似性の決定において、前記予め格納されているモデルのデータベースが、類似性を評価するために分析され、前記類似性は、前記予め格納されているモデルの特徴量準備が前記患者の特徴量データと両立するかを示し、利用すべき特徴量準備を示す類似性について、類似と判定された予め格納されているモデルに基づいて、前記患者の特徴量データに対する特徴量準備を行い、前記特徴量準備は、前記類似と判定された予め格納されているモデルに関連する再使用可能な特徴量を取得し、前記再使用可能な特徴量は、前記類似と判定された予め格納されているモデルの予め計算されている特徴量を含み、前記特徴量準備の結果及び前記患者の特徴量データを用いて、機械学習モデルを生成し、前記機械学習モデルを使用して予測を提供する。」という記載がある。
特開2019-185751号公報
上記特許文献1によれば、特徴量などを再利用することでモデル準備を速やかに行うことが可能である。しかし、モデル準備には専門知識が必要であるため、より一般的なユーザ(高度なスキルを有さないユーザ)には依然、利用が困難であった。そのため、例えば過去の分析に基づいて、分析できること、必要なデータ、予測精度などを提示することで、一般的なユーザに対してもデータ処理の利用を支援することが求められている。
そこで、本発明では、データ処理に係る各種情報を提供することでデータ処理を支援することを目的とする。
上記目的を達成するために、代表的な本発明のデータ処理支援システム、データ処理支援方法及びデータ処理支援プログラムの一つは、1又は複数のデータと、該データを用いて行ったデータ処理と、該データ処理の処理結果とを関連付けた処理実績を蓄積し、処理実績に基づいて、データの種類であるデータ種類、データ処理によって解答される問題及び処理結果の対応関係を示す対応関係データを作成し、データ種類及び問題の指定を受け付けた場合に、対応関係データに基づいて適切なデータ処理に関する情報を提示するものである。
本発明によれば、データ処理に係る各種情報を提供することでデータ処理を支援することができる。
上記した以外の課題、構成及び効果は以下の実施の形態の説明により明らかにされる。
実施例に係るデータ処理支援の概念図。 対応構造データの階層構造についての説明図。 対応構造データの具体例についての説明図。 データ処理支援システムのシステム構成図。 対応構造データの作成処理を示すフローチャート。 情報の提示に係る処理動作を示すフローチャート。 処理情報提示処理の詳細を示すフローチャート。 類似度計算処理の詳細を示すフローチャート。 問題検索処理の詳細を示すフローチャート。 必要データ種類検索処理の詳細を示すフローチャート。 データ処理管理データの具体例(その1)。 データ処理管理データの具体例(その2)。 データ処理管理データの具体例(その3)。 適合案テーブルの具体例。 代替案テーブルの具体例。 画面表示の具体例(その1)。 画面表示の具体例(その2)。 画面表示の具体例(その3)。
以下、実施例を図面を用いて説明する。
図1は、実施例に係るデータ処理支援の概念図である。データ処理支援システムは、データ処理の処理実績を蓄積し、蓄積した処理実績に基づいて対応構造データを作成する。データ処理は、1又は複数のデータを加工し、加工済データから特徴量を生成し、該特徴量を機械学習モデルに入力し、該機械学習モデルの出力を処理結果とするまでの一連の処理である。1又は複数のデータを加工する際には、ETL(Extract(抽出)・Transform(変換)・Load(書き出し))処理などを用いることができる。また、機械学習モデルは、機械学習(ML:machine learning)とTP(チューニングパラメータ)の組合せである。また、処理結果について評価し、機械学習モデルにフィードバックすることも可能である。
データ処理の具体例としては、血圧や服薬の履歴をデータとして受け付け、所定期間後の再入院率を求める処理がある。データ処理の途中では、加工や機械学習モデルへの入力など各種処理が行われるのであるが、データ処理支援システムは、一連の処理の最初に与えられる出発点としてのデータ(血圧など)から最終的に終着点としての処理結果(再入院率など)を出力するまでを1つのデータ処理として扱う。また、出発点としてのデータの種類をデータ種類といい、データ処理によって解答される項目を問題という。すなわち、「血圧」はデータ種類であり、「所定期間後の再入院率」はデータ処理によって解答される問題である。「所定期間後の再入院率」を問題とするデータ処理の処理結果は、「30%」などのように確率で表される。なお、処理結果に対する評価として、予測精度(Accuracy, AUCなど)や各種統計上の指標(f-measure, precision,recallなど)を求めることもできる。例えば、「所定期間後の再入院率」の処理結果が「30%」、その予測精度が「80%」であれば、「対象の人物は30%の確率で再入院する」との予測が「80%の確率であたる」ことになる。
データ処理支援システムは、多数のデータ処理の処理実績を蓄積し、データ種類、問題及び処理結果の対応関係を構造化することで対応構造データを作成する。詳細については後述するが、対応構造データは、問題層、データ種類層、処理実績層を有する階層構造を備える。この対応構造データは、特許請求の範囲に記載した対応関係データに相当するものである。
データ処理支援システムは、データ種類及び問題の指定を受け付けた場合(Case1)に、対応構造データに基づいて適切なデータ処理に関する情報を提示することができる。具体的には、データ処理支援システムは、指定されたデータ種類及び問題に適用可能なデータ処理を特定し、処理結果に期待できる精度を提示することができる。
さらに、データ処理支援システムは、データ種類の指定を受け付けたならば(Case2)、対応構造データを参照し、解答可能な問題、適用可能なデータ処理、処理結果に期待できる精度を出力することができる。
同様に、データ処理支援システムは、問題の指定を受け付けたならば(Case3)、対応構造データを参照し、解答に必要なデータ種類、適用可能なデータ処理、処理結果に期待できる精度を出力することができる。
図2は、対応構造データの階層構造についての説明図である。図2に示すように、対応構造データは、問題を示すノードを有する問題層と、データ種類を示すノードを有するデータ種類層と、処理実績を示すノードを有する処理実績層とを備えた階層構造である。
各ノードは、相対的に上位の層に所在する上位ノードと接続するときには単一の上位ノードと接続し、相対的に下位の層に所在する下位ノードと接続するときには1又は複数の下位ノードと接続する。このため、対応構造データは、ツリー構造となる。また、階層の順序は、上から問題層、データ種類層、処理実績層である。なお、問題層のさらに上位に他の階層があってもよい。また、問題層やデータ種類層は複数階層存在してもよい。
図3は、対応構造データの具体例についての説明図である。図3に示した対応構造データは、問題層よりも上位に分類層を備え、問題層を2層、データ種類層を1層、処理実績層を1層備えている。分類層は、問題の属する分類を示す。また、下位の問題層は上位の問題層の詳細を示す。ここで便宜上、処理実績層の直前までの層を入力層といい、上位から「レベル数」を付す。したがって、分類層は入力層のレベル1、問題層は入力層のレベル2とレベル3、データ種類層は入力層のレベル4となる。
図3に示した対応構造データは、レベル1の分類層に「ヘルスケア」、「電力」、「金融」のノードを備えている。「ヘルスケア」のノードは、レベル2の問題層の3つのノードに接続している。具体的には、「要介護度予測」、「死亡率」、「再入院確率」である。
さらに、問題層のレベル2の各ノードは、問題層のレベル3のノードに接続している。具体的には、レベル2のそれぞれのノードは、「90日以内」、「60日以内」、「30日以内」の3つのノードに接続される。レベル3のノードはレベル2のノードを詳細化したものであり、ノードの名称が同一でも個別に扱う。「要介護度予測」に接続された「60日以内」のノードは「60日以内の要介護度予測」を示し、「死亡率」に接続された「60日以内」のノードは「60日以内の死亡率」を示すからである。
また、レベル2のノードに応じて、レベル3のノードの数と内容は個別に設定可能である。例えば、レベル2のノードが「がんの生存率」であれば、レベル3には年単位のノードを設けることが望ましい。
データ種類層のノードは、データ処理の出発点としてのデータの種類である。ここで、複数のデータ種類の組合せについては個別のノードを設ける。図3では、「90日以内の要介護度予測」に接続するノードとして「検査データ」、「処方記録」、「検査データ、処方記録」が接続している。同様に「30日以内の再入院確率」に接続するノードとして「看護記録」、「検査データ」、「処方記録、個人基本データ、看護記録」が接続している。
処理実績層のノードは、実際の処理結果に対応する。図3では、処方記録のノードに「TEST_ID=10」と「TEST_ID=330」を接続しているが、これらはそれぞれ1つのデータ処理の処理結果に付された識別情報である。
次に、データ処理支援システムのシステム構成について説明する。図4は、データ処理支援システムのシステム構成図である。図4に示すように、データ処理支援システムは、サーバ10、メインデータベース(DB)及びメタDB40を有する。
サーバ10は、CPU(Central Processing Unit)11及びメモリ12を有する。CPU11は、図示しない補助記憶装置から読み出したプログラムを主記憶装置であるメモリ12上に展開して実行することで、各種機能部として動作する。図4では、対応構造作成部21、処理情報提示部22、問題検索部23、必要データ種類検索部24及び画面入出力部25として動作するプログラムがメモリ12に展開された状態を示している。
メインDB30は、特徴量セット31とモデルバイナリ32の他、データ処理の出発点としてのデータを格納するデータベースである。データ処理の出発点としてのデータには、検査データ33や処方記録34などが含まれる。特徴量セット31は、機械学習モデルへの入力用に加工されたデータ群である。モデルバイナリ32は、機械学習モデルを特定するデータである。
メタDB40は、データ処理管理データ41、対応構造データ42、適合案テーブル43、代替案テーブル44などを格納するデータベースである。データ処理管理データ41は、データ処理の処理実績を蓄積したデータである。対応構造データ42は、対応構造を一意に特定するデータである。適合案テーブル43は、指定されたデータ種類及び問題と同一条件で行われたデータ処理を登録するデータテーブルである。代替案テーブル44は、指定されたデータ種類及び問題に類似する条件で行われたデータ処理を登録するデータテーブルである。
対応構造作成部21は、処理実績に基づいて、データの種類であるデータ種類、データ処理によって解答される問題及び処理結果の対応関係を示す対応構造データ42を作成し、メタDB40に格納する処理を行う。
処理情報提示部22は、データ種類及び問題の指定を受け付けた場合に、対応構造データ42に基づいて適切なデータ処理に関する情報を提示する。具体的には、処理情報提示部22は、指定されたデータ種類及び問題に基づいて対応構造データ42の階層構造を上位から辿り、処理実績層に接続するノード(入力層の最下層のノード)まで到達したならば、該ノードに接続された処理実績に係るデータ処理を適合案テーブル43に登録し、適合案のデータ処理や適合案による解答の精度を提示する。また、処理情報提示部22は、指定されたデータ種類及び問題と階層構造を上位から辿る経路との類似度を求め、類似度の高い経路に接続された処理実績に係るデータ処理を代替案テーブル44に登録し、代替案のデータ処理や代替案による解答の精度を提示する。
問題検索部23は、データ種類の指定を受け付けた場合に、データ種類層のノードから一致度が高いノードを選択し、該ノードに至る経路に存在する問題層のノードを解答可能な問題候補として出力する。その後、処理情報提示部22は、指定されたデータ種類と問題候補とを用いて適切なデータ処理に関する情報を提示することができる。
必要データ種類検索部24は、問題の指定を受け付けた場合に、指定された問題に基づいて対応構造データ42の階層構造を上位から辿り、到達したノードの下位に所在するデータ種類層のノードを必要データ種類として出力する。処理情報提示部22は、指定された問題と必要データ種類とを用いて適切なデータ処理に関する情報を提示することができる。
画面入出力部25は、サーバ10に接続された図示しない表示部における表示画面の出力制御と、表示画面に応じた入力受付を行う。この他、図示を省略したが、データ処理支援システムは、メインDB30用のDBMS(Data Base Management System)やメタDB40用のDBMSなどを含む。
図5は、対応構造データの作成処理を示すフローチャートである。図5のフローチャートは、以下のステップを含む。
(ステップS101)
処理開始のステップにおいて、対応構造作成部21は、1のデータ処理に係る処理実績から問題とデータ種類に対応するタグを抽出し、ステップS102に移行する。
(ステップS102)
対応構造作成部21は、対応構造データ42の最上位層のノードとタグを比較して、ステップS103に移行する。
(ステップS103)
対応構造作成部21は、タグと完全一致するノードが存在しなければ(ステップS103;No)、ステップS104に移行する。タグと完全一致するノードが存在するならば(ステップS103;Yes)、ステップS105に移行する。
(ステップS104)
対応構造作成部21は、当該層に対応するタグを当該層の新しいノードとして追加し、ステップS102に移行する。
(ステップS105)
対応構造作成部21は、当該ノードが入力の最下層ノードであるか否かを判定する。入力の最下層ノードでなければ(ステップS105;No)、ステップS106に移行する。入力の最下層ノードであれば(ステップS105;Yes)、ステップS107に移行する。
(ステップS106)
対応構造作成部21は、該当ノードに紐づく下位ノードとタグを比較して、ステップS103に移行する。
(ステップS107)
対応構造作成部21は、入力の最下層ノードに処理実績を紐づけて、処理を終了する。
図6は、情報の提示に係る処理動作を示すフローチャートである。図6のフローチャートは、以下のステップを含む。
(ステップS201)
処理開始のステップにおいて、画面入出力部25は、問題とデータ種類の双方の少なくとも一方を受け付けて、ステップS202に移行する。
(ステップS202)
処理情報提示部22は、問題とデータ種類の双方を受け付けたか否かを判定する。双方を受け付けていれば(ステップS202;Yes)、処理情報提示部22は、ステップS206に移行する。いずれかのみを受け付けたならば(ステップS202;No)、処理情報提示部22は、ステップS203に移行する。
(ステップS203)
処理情報提示部22は、データ種類のみを受け付けたか否かを判定する。データ種類のみを受け付けていれば(ステップS203;Yes)、処理情報提示部22は、ステップS204に移行する。データ種類を受け付けていない場合(ステップS203;No)、すなわち、問題を受け付けた場合には、処理情報提示部22は、ステップS205に移行する。
(ステップS204)
問題検索部23が問題検索処理を実行し、ステップS206に移行する。問題検索処理の詳細は、後述する。
(ステップS205)
必要データ種類検索部24が必要データ種類検索処理を実行し、ステップS206に移行する。必要データ種類検索処理の詳細は、後述する。
(ステップS206)
処理情報提示部22が処理情報提示処理を実行し、ステップS207に移行する。処理情報提示処理の詳細は後述するが、この処理で適合案と代替案がテーブルに登録される。
(ステップS207)
画面入出力部25は、適合案と代替案を画面表示し、処理を終了する。適合案は、適合案テーブル43から読み出せばよい。同様に、代替案は代替案テーブル44から読み出せばよい。
図7は、図6に示した処理情報提示処理の詳細を示すフローチャートである。図7のフローチャートは、以下のステップを含む。
(ステップS301)
処理開始のステップにおいて、処理情報提示部22は、指定されたデータ種類及び問題と階層構造を上位から辿る経路との類似度を求める類似度計算処理を行い、ステップS302に移行する。詳細については後述するが、類似度は、指定されたデータ種類及び問題が一致する経路において最大値となる。換言すれば、類似度が最大となる経路は、指定されたデータ種類及び問題と同一のデータ種類及び問題についての処理実績が存在することを示す。
(ステップS302)
処理情報提示部22は、類似度の高い経路に紐づく処理実績の精度を評価し、ステップS303に移行する。
(ステップS303)
処理情報提示部22は、類似度の高い経路に紐づく処理実績の精度が要求を満たすか否かを判定する。要求を満たさなければ(ステップS303;No)、処理情報提示部22は、ステップS307に移行する。要求を満たしたならば(ステップS303;Yes)、処理情報提示部22は、ステップS304に移行する。
(ステップS304)
処理情報提示部22は、類似度が最大であるか否かを判定する。類似度が最大であれば(ステップS304;Yes)、処理情報提示部22は、ステップS305に移行する。類似度が最大でなければ(ステップS304;No)、処理情報提示部22は、ステップS306に移行する。
(ステップS305)
処理情報提示部22は、類似度が最大の経路に紐づく処理実績のデータ処理と精度を適合案として適合案テーブル43に登録し、ステップS307に移行する。
(ステップS306)
処理情報提示部22は、類似度が最大でない経路に紐づく処理実績のデータ処理と精度を代替案として代替案テーブル44に登録し、ステップS307に移行する。
(ステップS307)
処理情報提示部22は、代替案の数が代替案閾値に到達したか否かを判定する。代替案の数が代替案閾値に到達していなければ(ステップS307;No)、処理情報提示部22は、ステップS302に移行する。代替案の数が代替案閾値に到達したならば(ステップS307;Yes)、処理情報提示部22は、元の処理に戻る。
図8は、図7に示した類似度計算処理の詳細を示すフローチャートである。図8のフローチャートは、以下のステップを含む。
(ステップS401)
処理開始のステップにおいて、処理情報提示部22は、最上位層のノードと入力を比較し、ステップS402に移行する。
(ステップS402)
入力と完全一致するノードがあるならば(ステップS402;Yes)、処理情報提示部22は、ステップS403に移行する。入力と完全一致するノードが無ければ(ステップS402;No)、処理情報提示部22は、ステップS404に移行する。
(ステップS403)
処理情報提示部22は、類似度に1を加算し、ステップS406に移行する。
(ステップS404)
入力と部分一致するノードがあるならば(ステップS404;Yes)、処理情報提示部22は、ステップS405に移行する。入力と部分一致するノードがなければ(ステップS404;No)、処理情報提示部22は、類似度計算処理を終了し、元の処理に戻る。ここで、完全一致と部分一致について説明する。データ種類層に(A,B)のノードがあり、入力として(A,B)が与えられたときは、入力とノードが完全一致する。一方、データ種類層に(A,B)のノードがあり、入力として(B)が与えられたときは、入力とノードが完全一致する。
(ステップS405)
処理情報提示部22は、類似度に一致度を加算し、ステップS406に移行する。一致度は、例えばDice Indexで計算すればよい。
(ステップS406)
処理情報提示部22は、比較したノードが入力層の最下層に所在するノードであるか否かを判定する。最下層のノードであれば(ステップS406;Yes)、処理情報提示部22は、類似度計算処理を終了し、元の処理に戻る。最下層のノードでなければ(ステップS406;No)、処理情報提示部22は、ステップS407に移行する。
(ステップS407)
処理情報提示部22は、比較したノードに紐づく下位ノードと入力を比較し、ステップS402に移行することで、ノードを下層側に辿る。
図9は、図6に示した問題検索処理の詳細を示すフローチャートである。図9のフローチャートは、以下のステップを含む。
(ステップS501)
処理開始のステップにおいて、問題検索部23は、データ種類層のノードと入力を比較し、ステップS502に移行する。
(ステップS502)
問題検索部23は、完全一致又は部分一致するデータ種類層のノード、すなわち一致度高いノードを抽出し、ステップS503に移行する。
(ステップS503)
問題検索部23は、抽出結果のノードに至る経路に存在する問題層のノードを解答可能な問題候補として出力しステップS504に移行する。
(ステップS504)
画面入出力部25は、問題候補を表示出力し、問題候補から使用する問題の選択入力を受け付けて、問題検索処理を終了し、元の処理に戻る。この後、処理情報提示部22は、問題検索処理で選択された問題と、あらかじめ入力されたデータ種類とを用いて処理情報提示処理(ステップS206)を行うことになる。
図10は、図6に示した必要データ種類検索処理の詳細を示すフローチャートである。図10のフローチャートは、以下のステップを含む。
(ステップS601)
処理開始のステップにおいて、必要データ種類検索部24は、入力された問題に基づいて対応構造データ42の階層構造を上位から辿り、ステップS602に移行する。
(ステップS602)
必要データ種類検索部24は、辿り着いたノードの下位に所在するデータ種類層のノードを抽出し、ステップS603に移行する。
(ステップS603)
必要データ種類検索部24は、抽出したデータ種類層のノードを必要データ種類として出力し、ステップS604に移行する。
(ステップS604)
画面入出力部25は、必要データ種類を表示出力し、入力可能なデータ種類の指定を受け付けて、必要データ種類検索処理を終了し、元の処理に戻る。この後、処理情報提示部22は、必要データ種類検索処理で指定されたデータ種類と、あらかじめ入力された問題とを用いて処理情報提示処理(ステップS206)を行うことになる。
図11~図13は、データ処理管理データ41の具体例である。図11~図13に示すように、データ処理管理データ41は、特徴量セット管理テーブル、特徴量管理テーブル、データリソース管理テーブル、モデル管理テーブル、テスト結果管理テーブルを有する。これらのテーブルは、「****_ID」という項目で互いにリンクしている。
特徴量セット管理テーブルは、「FEATUES_ID」、「FEATURES_LINEAGE」、「NUM_OF_SAMPLES」、「RECIPE」、「TIME_STAMP」の項目を有し、特徴量データの格納先、生成方法、生成日時を管理する。
特徴量管理テーブルは「FEATURES_ELEMENT_ID」、「FEATUES_ID」、「FEATURES_ELEMENT_NAME」、「FEATURES_ELEMENTS_LINEAGE」、「DATASOURCE_ID」、「OPERATOR_PATH」、「TIME_STAMP」の項目を有し、特徴量の要素の名前、格納先、データソースや生成日時などを管理する。
データリソース管理テーブルは、「DATASOURCE_ID」、「DATASOURCE」、「VALID_START_DATE」、「VALID_END_DATE」、「TIME_STAMP」の項目を有し、データソースの有効期間や生成日時などを管理する。同様に、モデル管理テーブルは、「MODEL_ID」、「FEATURES_ID」、「ALGORITHM」、「TUNING_PARAM」、「GLOBAL_EXPLANATION」、「MODEL_PATH」、「TIME_STAMP」の項目を有してモデルを管理する。また、テスト結果管理テーブルは、「TEST_ID」、「MODEL_ID」、「FEATURES_ID」、「TEST_TARGET_ID」、「TEST_RESULT」、「TIME_STAMP」の項目を有してテスト結果(処理結果)を管理する。
図14は、適合案テーブル43の具体例である。図14に示すように、適合案テーブル43は、「入力条件」、「TEST_ID」、「平均精度」、「最大精度」、「Risk Factor」の項目を有し、適合案を管理している。
図15は、代替案テーブル44の具体例である。図15に示すように、代替案テーブル44は、「入力条件」、「代替案」、「代替案子ノードTEST_ID」、「推定平均精度」、「推定最大精度」、「推定Risk Factor」の項目を有し、代替案を管理している。
図16~図18は、画面入出力部25による画面表示の具体例である。図16の入力データ種類指定画面では、血圧データ、服薬データ、看護メモデータが入力するデータ種類として指定されている。ここで、データ処理を良好な精度で行うために、入力の項目には、更新頻度や1サンプル当たりのレコード数などについての目標値が定められている。そして、目標値に満たない項目については注意喚起の表示を付している。
図16のデータ処理情報提示画面では、予測範囲、問題の項目、予測精度を表示している。具体的には、指定されたデータ種類を用いれば、一か月後の再入院率を65%の精度で予測できることを示している。しかし、予測精度の目標は80%となっており、予測精度が目標に満たない。そこで、代替案として「予測範囲を短くして予測精度を向上する」、「類似データで他の問題を予測する」を挙げている。
「予測範囲を短くして予測精度を向上する」代替案は、予測範囲を3週間後に変更することで、再入院率を78%の精度で予測できることを示している。同様に、「類似データで他の問題を予測する」代替案では、入力するデータ種類を変えることなく、1か月後の発作確率を69%の精度で予測できることを示している。
このように、代替案では、より良い精度が期待される目標期間、より良い精度が期待される目標が提示される。また、より良い精度が期待されるデータ種類を提示してもよい。また、より良い精度に限らず、公平性などの他の指標が向上する代替案を提示してもよい。
図17の入力データ種類指定画面は、図16と同一である。図17のデータ処理情報提示画面では、予測の精度に変えて、AUC(Area under the curve)、F-measure、Sensitivityを表示し、代替案において正確度を示すAccuracyを表示している。
図18の入力データ種類指定画面は、図16と同一である。図18のデータ処理情報提示画面では、予測の精度に変えて、Accuracyを表示し、代替案では公平性を示すFairnessを表示するとともに、公平性の向上に有効な特徴量の追加・削除を提示している。
上述してきたように、本実施例に係るデータ処理支援システムは、1又は複数のデータと、該データを用いて行ったデータ処理と、該データ処理の処理結果とを関連付けた処理実績を蓄積する処理実績蓄積部と、前記処理実績に基づいて、前記データの種類であるデータ種類、前記データ処理によって解答される問題及び前記処理結果の対応関係を示す対応関係データを作成する対応関係データ作成部と、前記データ種類及び前記問題の指定を受け付けた場合に、前記対応関係データに基づいて適切なデータ処理に関する情報を提示する処理情報提示部とを備える。このため、データ処理に係る各種情報を提供することでデータ処理を支援することができる。
ここで、対応関係データは、前記問題を示すノードを有する問題層と、前記データ種類を示すノードを有するデータ種類層と、前記処理実績を示すノードを有する処理実績層とを備えた階層構造とすることができる。
また、ノードは、相対的に上位の層に所在する上位ノードと接続するときには単一の上位ノードと接続し、相対的に下位の層に所在する下位ノードと接続するときには1又は複数の下位ノードと接続することできる。
また、対応関係データは、前記問題層の上位に問題の属する分類を示す分類層をさらに備え、前記問題層の下位にデータ種類層、前記データ種類層の下位に前記処理実績層を備える構造としてもよい。また、対応関係データは、前記問題層を複数備え、下位の問題層は上位の問題層の詳細を示す構成とすることができる。また、対応関係データの前記データ種類層は、複数のデータ種類の組合せについて個別のノードを有することが好ましい。
また、処理情報提示部は、指定された前記データ種類及び前記問題に基づいて前記階層構造を上位から辿り、前記処理実績層に接続するノードまで到達したならば、該ノードに接続された処理実績に係るデータ処理、及び/又は該データ処理による解答の精度を提示することができる。
また、処理情報提示部は、指定された前記データ種類及び前記問題と前記階層構造を上位から辿る経路との類似度を求め、前記類似度の高い経路に接続された処理実績に係るデータ処理、及び/又は該データ処理による解答の精度を提示することができる。
また、データ種類の指定を受け付けた場合に、前記データ種類層のノードから一致度が高いノードを選択し、該ノードに至る経路に存在する前記問題層のノードを解答可能な問題候補として出力する問題検索部をさらに備え、前記処理情報提示部は、指定された前記データ種類と前記問題候補とを用いて前記適切なデータ処理に関する情報を提示してもよい。
また、前記問題の指定を受け付けた場合に、指定された前記問題に基づいて前記階層構造を上位から辿り、到達したノードの下位に所在する前記データ種類層のノードを必要データ種類として出力する必要データ種類検索部をさらに備え、前記処理情報提示部は、指定された前記問題と前記必要データ種類とを用いて前記適切なデータ処理に関する情報を提示する構成としてもよい。
なお、データ処理は、前記1又は複数のデータを加工し、加工済データから特徴量を生成し、該特徴量を機械学習モデルに入力し、該機械学習モデルの出力を前記処理結果とする処理とすることができる。
また、本実施例に係るデータ処理支援方法は、1又は複数のデータと、該データを用いて行ったデータ処理と、該データ処理の処理結果とを関連付けた処理実績を蓄積する処理実績蓄積ステップと、前記処理実績に基づいて、前記データの種類であるデータ種類、前記データ処理によって解答される問題及び前記処理結果の対応関係を示す対応関係データを作成する対応関係データ作成ステップと、前記データ種類及び前記問題の指定を受け付けた場合に、前記対応関係データに基づいて適切なデータ処理に関する情報を提示する処理情報提示ステップと実行することで、データ処理に係る各種情報を提供できる。
また、本実施例に係るデータ処理支援方法は、1又は複数のデータと、該データを用いて行ったデータ処理と、該データ処理の処理結果とを関連付けた処理実績を蓄積する処理実績蓄積手順と、前記処理実績に基づいて、前記データの種類であるデータ種類、前記データ処理によって解答される問題及び前記処理結果の対応関係を示す対応関係データを作成する対応関係データ作成手順と、前記データ種類及び前記問題の指定を受け付けた場合に、前記対応関係データに基づいて適切なデータ処理に関する情報を提示する処理情報提示手順とをコンピュータに実行させることで、データ処理に係る各種情報を提供できる。
なお、上述の実施例では、指定されたデータ種類及び問題に基づいて階層構造を上位から辿り、処理実績層に接続するノード(入力層の最下層のノード)まで到達したならば、該ノードに接続された処理実績に係るデータ処理を適合案とする場合について説明した。この適合案としてのデータ処理が複数ある場合には、所定の指標(例えば、精度であるprecision)により1つのデータ処理を選択すればよい。
また、実施例では説明を省略したが、提示した代替案に従ってデータ種類の追加や目的の変更などが行われた場合は、改めて処理情報提示部22による処理を行う。また、出発点としてのデータ種類を指定する際に、目標とする精度などの付加的な情報を追加することも可能であり、かかる付加的な情報は代替案の選択などに使用できる。
なお、本発明は上述の実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、かかる構成の削除に限らず、構成の置き換えや追加も可能である。
10:サーバ、11:CPU、12:メモリ、21:対応構造作成部、22:処理情報提示部、23:問題検索部、24:必要データ種類検索部、25:画面入出力部、30:メインDB、31:特徴量セット、32:モデルバイナリ、33:検査データ、34:処方記録、40:メタDB、41:データ処理管理データ、42:対応構造データ、43:適合案テーブル、44:代替案テーブル

Claims (15)

  1. 1又は複数のデータと、該データを用いて行ったデータ処理と、該データ処理の処理結果とを関連付けた処理実績を蓄積する処理実績蓄積部と、
    前記処理実績に基づいて、前記データの種類であるデータ種類、前記データ処理によって解答される問題及び前記処理結果の対応関係を示す対応関係データを作成する対応関係データ作成部と、
    前記データ種類及び前記問題の指定を受け付けた場合に、前記対応関係データに基づいて適切なデータ処理に関する情報を提示する処理情報提示部と
    を備えることを特徴とするデータ処理支援システム。
  2. 前記対応関係データは、前記問題を示すノードを有する問題層と、前記データ種類を示すノードを有するデータ種類層と、前記処理実績を示すノードを有する処理実績層とを備えた階層構造であることを特徴とする請求項1に記載のデータ処理支援システム。
  3. 前記ノードは、相対的に上位の層に所在する上位ノードと接続するときには単一の上位ノードと接続し、相対的に下位の層に所在する下位ノードと接続するときには1又は複数の下位ノードと接続することを特徴とする請求項2に記載のデータ処理支援システム。
  4. 前記対応関係データは、前記問題層の上位に問題の属する分類を示す分類層をさらに備え、前記問題層の下位にデータ種類層、前記データ種類層の下位に前記処理実績層を備えたことを特徴とする請求項2に記載のデータ処理支援システム。
  5. 前記対応関係データは、前記問題層を複数備え、下位の問題層は上位の問題層の詳細を示すことを特徴とする請求項2に記載のデータ処理支援システム。
  6. 前記対応関係データの前記データ種類層は、複数のデータ種類の組合せについて個別のノードを有することを特徴とする請求項2に記載のデータ処理支援システム。
  7. 前記処理情報提示部は、指定された前記データ種類及び前記問題に基づいて前記階層構造を上位から辿り、前記処理実績層に接続するノードまで到達したならば、該ノードに接続された処理実績に係るデータ処理、及び/又は該データ処理による解答の精度を提示することを特徴とする請求項2に記載のデータ処理支援システム。
  8. 前記処理情報提示部は、指定された前記データ種類及び前記問題と前記階層構造を上位から辿る経路との類似度を求め、前記類似度の高い経路に接続された処理実績に係るデータ処理、及び/又は該データ処理による解答の精度を提示することを特徴とする請求項2に記載のデータ処理支援システム。
  9. 前記類似度は、指定された前記データ種類及び前記問題と前記階層構造を上位から辿る経路との間で一致するノードの数に基づく指標であることを特徴とする請求項8に記載のデータ処理支援システム。
  10. 前記処理情報提示部は、前記類似度の高い経路の内、前記類似度が最大の経路に接続された処理実績に係るデータ処理、及び/又は該データ処理による解答の精度を適合案と判定し、前記類似度が最大でない経路に接続された処理実績に係るデータ処理、及び/又は該データ処理による解答の精度を代替案と判定し、前記適合案と前記代替案とを提示することを特徴とする、請求項9に記載のデータ処理システム。
  11. 前記データ種類の指定を受け付けた場合に、前記データ種類層のノードから一致度が高いノードを選択し、該ノードに至る経路に存在する前記問題層のノードを解答可能な問題候補として出力する問題検索部をさらに備え、
    前記処理情報提示部は、指定された前記データ種類と前記問題候補とを用いて前記適切なデータ処理に関する情報を提示する
    ことを特徴とする請求項2に記載のデータ処理支援システム。
  12. 前記問題の指定を受け付けた場合に、指定された前記問題に基づいて前記階層構造を上位から辿り、到達したノードの下位に所在する前記データ種類層のノードを必要データ種類として出力する必要データ種類検索部をさらに備え、
    前記処理情報提示部は、指定された前記問題と前記必要データ種類とを用いて前記適切
    なデータ処理に関する情報を提示する
    ことを特徴とする請求項2に記載のデータ処理支援システム。
  13. 前記データ処理は、前記1又は複数のデータを加工し、加工済データから特徴量を生成し、該特徴量を機械学習モデルに入力し、該機械学習モデルの出力を前記処理結果とする処理であることを特徴とする請求項1に記載のデータ処理支援システム。
  14. コンピュータがソフトウェアの制御によって、
    1又は複数のデータと、該データを用いて行ったデータ処理と、該データ処理の処理結果とを関連付けた処理実績を蓄積する処理実績蓄積ステップと、
    前記処理実績に基づいて、前記データの種類であるデータ種類、前記データ処理によって解答される問題及び前記処理結果の対応関係を示す対応関係データを作成する対応関係データ作成ステップと、
    前記データ種類及び前記問題の指定を受け付けた場合に、前記対応関係データに基づいて適切なデータ処理に関する情報を提示する処理情報提示ステップと
    を実行することを特徴とするデータ処理支援方法。
  15. 1又は複数のデータと、該データを用いて行ったデータ処理と、該データ処理の処理結果とを関連付けた処理実績を蓄積する処理実績蓄積手順と、
    前記処理実績に基づいて、前記データの種類であるデータ種類、前記データ処理によって解答される問題及び前記処理結果の対応関係を示す対応関係データを作成する対応関係データ作成手順と、
    前記データ種類及び前記問題の指定を受け付けた場合に、前記対応関係データに基づいて適切なデータ処理に関する情報を提示する処理情報提示手順と
    をコンピュータに実行させることを特徴とするデータ処理支援プログラム。
JP2020053983A 2020-03-25 2020-03-25 データ処理支援システム、データ処理支援方法及びデータ処理支援プログラム Active JP7430091B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020053983A JP7430091B2 (ja) 2020-03-25 2020-03-25 データ処理支援システム、データ処理支援方法及びデータ処理支援プログラム
US17/642,373 US20220327164A1 (en) 2020-03-25 2021-03-11 Data processing assistant system, data processing assistant method, and data processing assistant program
PCT/JP2021/009790 WO2021193100A1 (ja) 2020-03-25 2021-03-11 データ処理支援システム、データ処理支援方法及びデータ処理支援プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020053983A JP7430091B2 (ja) 2020-03-25 2020-03-25 データ処理支援システム、データ処理支援方法及びデータ処理支援プログラム

Publications (2)

Publication Number Publication Date
JP2021157222A JP2021157222A (ja) 2021-10-07
JP7430091B2 true JP7430091B2 (ja) 2024-02-09

Family

ID=77891987

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020053983A Active JP7430091B2 (ja) 2020-03-25 2020-03-25 データ処理支援システム、データ処理支援方法及びデータ処理支援プログラム

Country Status (3)

Country Link
US (1) US20220327164A1 (ja)
JP (1) JP7430091B2 (ja)
WO (1) WO2021193100A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018185899A1 (ja) 2017-04-06 2018-10-11 株式会社日立製作所 ライブラリ検索装置、ライブラリ検索システム、及びライブラリ検索方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08137696A (ja) * 1994-11-15 1996-05-31 Kobe Steel Ltd 事例ベース推論装置
US8392364B2 (en) * 2006-07-10 2013-03-05 Sap Ag Consistent set of interfaces derived from a business object model
US9280610B2 (en) * 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10331312B2 (en) * 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
KR101903522B1 (ko) * 2015-11-25 2018-11-23 한국전자통신연구원 다차원 건강데이터에 대한 유사사례 검색 방법 및 그 장치
US10049663B2 (en) * 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10796234B2 (en) * 2017-02-14 2020-10-06 Cognitive Scale, Inc. Ranked insight machine learning operation
US10909441B2 (en) * 2017-06-02 2021-02-02 Microsoft Technology Licensing, Llc Modeling an action completion conversation using a knowledge graph
US11461398B2 (en) * 2018-08-31 2022-10-04 Accenture Global Solutions Limited Information platform for a virtual assistant
US10818386B2 (en) * 2018-11-21 2020-10-27 Enlitic, Inc. Multi-label heat map generating system
US11113475B2 (en) * 2019-04-15 2021-09-07 Accenture Global Solutions Limited Chatbot generator platform
US11462220B2 (en) * 2020-03-04 2022-10-04 Accenture Global Solutions Limited Infrastructure automation platform to assist in performing actions in response to tasks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018185899A1 (ja) 2017-04-06 2018-10-11 株式会社日立製作所 ライブラリ検索装置、ライブラリ検索システム、及びライブラリ検索方法

Also Published As

Publication number Publication date
JP2021157222A (ja) 2021-10-07
WO2021193100A1 (ja) 2021-09-30
US20220327164A1 (en) 2022-10-13

Similar Documents

Publication Publication Date Title
US7917377B2 (en) Patient data mining for automated compliance
US8943059B2 (en) Systems and methods for merging source records in accordance with survivorship rules
CN108352196A (zh) 没有明显的准标识符的去标识的健康护理数据库的医院匹配
US20160004757A1 (en) Data management method, data management device and storage medium
KR101897080B1 (ko) 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치
JP7125358B2 (ja) 計算機システム及び入力データに対する予測結果の根拠に関する情報の提示方法
US20190304603A1 (en) Feature engineering method, apparatus, and system
US20140249851A1 (en) Systems and Methods for Developing and Managing Oncology Treatment Plans
CN112579586A (zh) 数据处理方法、装置、设备及存储介质
JP6177609B2 (ja) 医療カルテシステム及び医療カルテ検索方法
US20130254225A1 (en) Device, method, and non-transitory computer-readable medium for medical information search
CN112071431B (zh) 基于深度学习和知识图谱的临床路径自动生成方法及系统
CN117409922A (zh) 一种用于临床辅助决策的循证方法
JP7430091B2 (ja) データ処理支援システム、データ処理支援方法及びデータ処理支援プログラム
Hamoud et al. Design and implementing cancer data warehouse to support clinical decisions
JP7015320B2 (ja) データ分析支援装置、データ分析支援方法およびデータ分析支援プログラム
JP4250285B2 (ja) 疾病別診療報酬明細書分析システム
CN109522422A (zh) 医疗文献推送方法、系统、设备及存储介质
KR101612635B1 (ko) 외부 리소스를 이용하여 증거 적응을 위한 임상의사결정지원 시스템 및 방법
JP6775740B1 (ja) 設計支援装置、設計支援方法及び設計支援プログラム
JP2021135930A5 (ja)
JP2004185346A (ja) プロジェクト作業支援方法およびシステム
JP2020017094A (ja) 分析方法、分析装置及びプログラム
Lydia et al. Transforming Health Care Big Data Implementing through Aprior-Mapreduce
GB2573512A (en) Database and associated method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240130

R150 Certificate of patent or registration of utility model

Ref document number: 7430091

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150