CN107480435A

CN107480435A - 一种应用于临床数据的自动搜索机器学习系统及方法

Info

Publication number: CN107480435A
Application number: CN201710641052.0A
Authority: CN
Inventors: 李青海; 简宋全; 邹立斌; 侯大勇
Original assignee: Guangdong Fine Point Data Polytron Technologies Inc
Current assignee: Guangdong Fine Point Data Polytron Technologies Inc
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2017-12-15
Anticipated expiration: 2037-07-31
Also published as: CN107480435B

Abstract

本发明属于医疗大数据处理领域，本发明的解决的技术问题在于提供一种应用于临床数据的自动搜索机器学习方法，其具有快速提取临床数据、为医疗行业研究者提供最优算法、方便医疗行业研究者调整参数且具有学习能力的功能，包括如下步骤：S1：临床参数提取，将临床参数记录在EAV文件或者EXCEL文件中；S2：参数筛选，用MapReduce框架支持在SPARK上执行枢轴，在SPARK上执行枢轴用来提取有效的临床参数；S3：在机器内预制若干的推荐算法模型，然后建立SQL语句执行可视化查询，根据EAV文件或者EXCEL文件内容向用户展示可调用的相关算法，机器通过S4自主确定推荐算法模型及推荐算法参数。还公开了一种应用于临床数据的自动搜索机器学习系统。

Description

一种应用于临床数据的自动搜索机器学习系统及方法

技术领域

本发明涉及医疗大数据处理领域，具体涉及一种应用于临床数据的自动搜索机器学习系统及方法。

背景技术

现如今，医疗行业收集了大量的临床数据，其来源广泛包括电子病例、传感器、移动设备等等。这些临床大数据为我们的临床护理和生物医学研究的向前发展提供了很好的机会。预测模型能够帮助我们提前预测个体疾病的发生风险，从而提前采取适当的措施。大多医疗行业研究者对于机器学习算法的掌握和应用能力有限,机器学习算法的种类多样且对超参数的选择要求很高，对于非专业人士应用起来仍是很大的挑战。

因此开发一种方便医疗行业研究者使用的预测系统是十分必要的，其应该具有快速提取临床数据、为医疗行业研究者提供最优算法、方便医疗行业研究者调整参数且具有一定学习能力的功能。

发明内容

本发明解决的技术问题在于提供一种应用于临床数据的自动搜索机器学习系统及方法，其具有快速提取临床数据、为医疗行业研究者提供最优算法、方便医疗行业研究者调整参数且具有学习能力的功能。

本发明提供的基础方案为：一种应用于临床数据的自动搜索机器学习方法，包括如下步骤：

S1：临床参数提取，将临床参数记录在EAV文件或者EXCEL文件中；

S2：参数筛选，用MapReduce模型框架在SPARK引擎上执行枢轴，在SPARK上执行枢轴用来提取有效的临床参数；

S3：在机器内预制若干的推荐算法模型，然后建立SQL语句执行可视化查询，根据EAV文件或者EXCEL文件内容向用户展示可调用的相关算法，机器通过S4自主确定推荐算法模型及推荐算法参数；

S4：调用机器学习函数，利用样本进行机器训练，输出符合要求的精度的推荐算法模型及参数，然后根据精度确定S3中推荐算法模型，再调用推荐算法中相应的推荐算法参数，并提取该模型下的精度差阈值τ；

S5：根据S3和S4中确定的推荐算法模型和精确度差阈值τ生成关联表，将每个EAV文件或者EXCEL文件处理成对应的关联表，每个关联表生成时，输出界面显示第一批元组。关联表就是最终结果，得出的是确定的算法和参数，以及对应的精度。

名词解释：枢轴，在本申请中可以理解为对参数进行分类，或者说进行筛选；

精确度差阈值τ，在本申请表征对该算法模型的精确度的评价。

本发明的工作原理及优点在于：在S1中，根据医疗行业工作者的习惯，大多临床参数都是以EVA文件或者EXCEL文件保存的，这两种文件在办公软件中是广泛使用的用于保存数据的文件，在市面上能够提取这两种文件中的数据的方法较多，因此，结合医疗工作者的工作环境以及现有的软件技术，确定了EVA文件或者EXCEL文件作为临床参数提取文件。

MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。即MapReduce是面向大数据并行处理的计算模型、框架和平台。在本方案中，采用MapReduce框架，实现了大规模数据的并行运算。Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。利用SPARK具有的学习功能的特性，方便医疗工作者使用，以机器的学习代替医疗工作者的学习，并且通过预先训练，达到为医疗行业研究者提供最优算法的目的。

SQL语句是一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统。采用SQL，可方便医疗工作者或者机器查找到更加优化的算法。

具体的训练过程如下：在训练样本集相对小的情况下，是不好确定算法的适合程度，故可选择较大的精确度差阈值τ，例如可为0.4。随着迭代次数的增加，选择适合性的确定性增加，精确度差阈值τ可随之减小。通过精确度差阈值τ作为算法模型与结果匹配程度的标准，并向医疗工作者反馈，这样能够更好的帮助医疗工作者理解结果，方便医疗行业研究者根据精确度差阈值τ对参数进行调整。

本发明一种应用于临床数据的自动搜索机器学习方法，采用EVA文件或者EXCEL文件，然后用MapReduce、Spark做推荐算法模型的选择，然后及时对精确度差阈值τ的展示，实现了快速提取临床数据、为医疗行业研究者提供最优算法、方便医疗行业研究者调整参数且具有学习能力的目的。

进一步，在S3中机器的学习功能是通过修改开源代码或是调用MLlib的java的应用程序界面来实现机器学习函数的。MLlib是分布式机器学习图书馆，其可执行多种机器学习算法和变量选择技术，这些算法和技术全部都实现机器学习的功能，进一步加强学习能力。

进一步，在S3中，机器是通过Weka实现确定算法模型与S4步骤共同确定算法模型的。Weka提供可视化界面来进行特征选择、模型建构和模型评估，Weka是一种被广泛使用的开源机器学习设数据挖掘工具，这样的设计能进一步方便医疗行业研究者使用。

进一步，还包括S6：校准提醒，机器对第一批元组进行模型精确度预估，若机器给出了比精确度差阈值τ更低的模型精确度，则提醒用户返回S1增加临床参数的样本容量。这样的设计让医疗行业研究者更好的对参数进行修改。

一种应用于临床数据的自动搜索机器学习系统，包括：

采样模块，用于将临床参数记录在EAV文件或者EXCEL文件中；

筛选模块，用于MapReduce模型框架在SPARK引擎上执行枢轴，并在SPARK上执行枢轴用来提取有效的临床参数；

算法选择模块，算法选择模块内置有预先训练使其具有用户要求的精确度的模型机器学习函数；算法选择模块用于存储算法模型并与显示模块配合提供可视化查询，算法选择模块根据EAV文件或者EXCEL文件内容向用户展示确定调用的相关算法模型，算法选择模块提取该模型下的精确度差阈值τ；

算法执行模块，用于执行算法选择模块选定的算法模型，并根据精确度差阈值τ生成关联表，将每个EAV文件或者EXCEL文件处理成对应的关联表；

显示模块，用于在每个关联表生成后，显示第一批元组。

本系统，通过采样模块、筛选模块、算法选择模块、算法执行模块以及算法执行模块，实现了快速提取临床数据、为医疗行业研究者提供最优算法、方便医疗行业研究者调整参数且具有学习能力的目的。

进一步，还包括返回提醒模块，用于对第一批元组进行模型精确度预估，若结果比精确度差阈值τ更低的模型精确度，则提醒用户在采样模块中增加临床参数的样本容量。返回提醒模块能够在精确度差阈值τ出现异常时，及时提醒用户。

附图说明

图1是本发明一种应用于临床数据的自动搜索机器学习系统实施例的示意框图。

具体实施方式

下面通过具体实施方式对本发明作进一步详细的说明：

实施例基本如附图1所示：本实施例应用于临床数据的自动搜索机器学习系统，包括采样模块、筛选模块、算法选择模块、算法执行模块和显示模块。

采样模块，用于将临床参数记录在EAV文件或者EXCEL文件中；具体可以是通过将一些数据录入到PC电脑中的存储模块中，然后将数据上床至服务器中。

EVA是一个易语言插件、能辅助用户完成对API、数据类型、常量、子程序的自动插入避免反复查询文档，加快开发速度。EVA开发的初衷只为打破复杂API常量等的反复查询、转换操作。目的只为简化易语言的输入模式让其匹配其他语言。EVA的名字取自VC插件VAX(Visual AssistX)前两个字母的组合，意为易语言打造一款类似的插件。EVA是一个易语言插件、能辅助用户完成对API、数据类型、常量、子程序的自动插入避免反复查询文档，加快开发速度。在本实施例中，结合医疗行业工作者的习惯，大多临床参数都是以EVA文件或者EXCEL文件保存的，这两种文件在办公软件中是广泛使用的用于保存数据的文件，在市面上能够提取这两种文件中的数据的方法较多，因此，结合医疗工作者的工作环境以及现有的软件技术，确定了EVA文件或者EXCEL文件作为临床参数提取文件。

筛选模块，用于MapReduce模型框架在SPARK引擎上执行枢轴，并在SPARK上执行枢轴用来提取有效的临床参数；具体的，筛选模块是通过服务器实现的，服务器是在MapReduce框架支持SPARK下执行枢轴，然后提取有效的临床参数的。临床参数中为方便医生记录和调用数据，包含了许多无效的参数，因此需要根据实际的需要，提取有效的临床参数，在本实施例中，需要剔除的诸如患者姓名的信息，然后需要保留如就诊时间等有效的临床参数。

算法选择模块，算法选择模块内置有预先训练使其具有用户要求的精确度的模型机器学习函数，调用机器学习函数，利用样本进行机器训练，输出符合要求的精度的推荐算法模型及参数，然后根据精度确定推荐算法模型，再调用推荐算法中相应的推荐算法参数；算法选择模块用于存储算法模型并与显示模块配合提供可视化查询，算法选择模块根据EAV文件或者EXCEL文件内容向用户展示确定调用的相关算法模型，算法选择模块提取该模型下的精确度差阈值τ。

算法执行模块，用于执行算法选择模块选定的算法模型，并根据精确度差阈值τ生成关联表，将每个EAV文件或者EXCEL文件处理成对应的关联表。

显示模块，用于在每个关联表生成后，显示第一批元组。采样模块、筛选模块、算法选择模块、算法执行模块和显示模块均可以通过同一服务器实现，在本实施例中选用的是在服务器内加载，SPARK引擎，然后在SPARK引擎上构建MapReduce模型框架，然后通过MapReduce模型框架在SPARK引擎上对临床参数(EVA文件或者EXCEL文件)执行枢轴。

返回提醒模块，用于对第一批元组进行模型精确度预估，若输出结果比精确度差阈值τ更低的模型精确度，则提醒用户在采样模块中增加临床参数的样本容量。

具体使用时：用户将采集到的临床数据输入到EAV文件或者EXCEL文件中，EAV文件或者EXCEL文件既可作为平时的统计，也可以作为本方案中临床参数的源文件。然后筛选模块在Map Reduce框架支持SPARK下执行枢轴，在SPARK上执行枢轴用来提取有效的临床参数。然后算法选择模块根据预先训练的内容，确定最优的算法，然后通过算法执行模块对有效的临床参数进行运算，然后获得结果。并且输出对结果进行评价的精确度差阈值τ，用户根据精确度差阈值τ是否异常，决定是否返回重新输入临床参数。

在其他实施例中，我们对病毒性感冒这一病症进行预估。首先我们应先对机器进行训练，训练的临床参数是往年的医院记录的数据，如，对5年前的临床参数进行收集，总共有5组数据，输入前一年的临床参数，然后对后一年进行预测，预测结果与后一年的临床参数进行比对，通过这样的方式让机器进行多次学习。在学习完成后，然后输入今年的临床参数进行预估。

采样模块是通过护士或者医生记录的EXCEL文件中的临床数据作为基础数据的。其中包括了较多的对预估结果无效的临床参数，在输入之后，在Map Reduce框架支持SPARK下执行枢轴，在SPARK上执行枢轴用来提取有效的临床参数。

对于精确度差阈值τ用来排除不适合的算法模型，刚开始，训练样本集相对小，我们就不是很确定算法模型的契合程度，可选择较大的精确度差阈值τ，例如可为0.4。随着迭代次数的增加，选择适合性的确定性增加，精确度差阈值τ可随之减小。

具体的训练步骤，用训练集训练模型，用测试集估计模型的精确度。精确度反映了该算法模型与临床参数以及预测结构(元组)的适合程度。若是精确度<＝精确度差阈值τ，则被认为是不适合的，便可排除。然后再次循环，在最后一次循环中，用所有的数据集和选出的最好的机器学习算法模型和临床参数来训练和评估模型，得到的结果就是最终输出的结果。

本实施例应用于临床数据的自动搜索机器学习方法，包括如下步骤：

S1：临床参数提取，将临床参数记录在EXCEL文件中；

S5：根据S3和S4中确定的算法和精确度差阈值τ生成关联表，将每个EAV文件或者EXCEL文件处理成对应的关联表，每个关联表生成时，输出界面显示第一批元组；

S6：校准提醒，机器对第一批元组进行模型精确度预估，若机器给出了比精确度差阈值τ更低的模型精确度，则提醒用户返回S1增加临床参数的样本容量。

具体使用时：机器的学习功能是通过修改开源代码或是调用MLlib的java的应用程序界面来实现机器学习函数的。MLlib是分布式机器学习图书馆，其可执行多种机器学习算法和变量选择技术，这些算法和技术全部都实现机器学习的功能，进一步加强学习能力。机器是通过Weka实现确定算法模型与S4步骤共同确定算法模型的。Weka提供可视化界面来进行特征选择、模型建构和模型评估，Weka是一种被广泛使用的开源机器学习设数据挖掘工具，这样的设计能进一步方便医疗行业研究者使用。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种应用于临床数据的自动搜索机器学习方法，其特征在于，包括如下步骤：

S3：在机器内预制若干的推荐算法模型，然后建立SQL语句执行可视化查询，根据EAV文件或者EXCEL文件内容向用户展示可调用的相关算法，机器通过S4步骤自主确定推荐算法模型及推荐算法参数；

S5：根据S3和S4中确定的算法和精确度差阈值τ生成关联表，将每个EAV文件或者EXCEL文件处理成对应的关联表，每个关联表生成时，输出界面显示第一批元组。

2.根据权利要求1所述的应用于临床数据的自动搜索机器学习方法，其特征在于，在S3中机器的学习功能是通过修改开源代码或是调用MLlib的java的应用程序界面来实现机器学习函数的。

3.根据权利要求1所述的应用于临床数据的自动搜索机器学习方法，其特征在于，在S3中，机器是通过Weka实现确定算法模型与S4步骤共同确定算法模型的。

4.根据权利要求1所述的应用于临床数据的自动搜索机器学习方法，其特征在于，还包括S6：校准提醒，机器对第一批元组进行模型精确度预估，若机器给出了比精确度差阈值τ更低的推荐算法模型精确度，则提醒用户返回S1增加临床参数的样本容量。

5.一种应用于临床数据的自动搜索机器学习系统，其特征在于，包括：

采样模块，用于将临床参数记录在EAV文件或者EXCEL文件中；

算法执行模块，用于执行算法选择模块选定的推荐算法模型，并根据精确度差阈值τ生成关联表，将每个EAV文件或者EXCEL文件处理成对应的关联表；

显示模块，用于在每个关联表生成后，显示第一批元组。

6.根据权利要求5所述的应用于临床数据的自动搜索机器学习系统，其特征在于，还包括返回提醒模块，用于对第一批元组进行模型精确度预估，若结果比精确度差阈值τ更低的模型精确度，则提醒用户在采样模块中增加临床参数的样本容量。