CN109948680B

CN109948680B - 病历数据的分类方法及系统

Info

Publication number: CN109948680B
Application number: CN201910178672.4A
Authority: CN
Inventors: 顾东晓; 李童童; 江政; 王晓玉; 梁昌勇; 李兴国; 杨雪洁; 钟金宏; 杨颖�; 陆文星; 蒋丽; 赵树平; 徐健; 吴勇
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2021-06-11
Anticipated expiration: 2039-03-11
Also published as: CN109948680A

Abstract

本发明实施例提供了一种病历数据的分类方法及系统，对原始的病历数据进行预处理，得出能够与分类器匹配的数据集；然后，将特征选择后的数据集随机分为指定数量个大小相同的数据块，将各数据块分为训练集和测试集后，分别输入到对应的分类器中；随后，基于TPE算法，对全部分类器通过加权投票表决的方式进行预测，在运行指定次数的TPE算法后，选择验证误差最小时的分类器数量为最优分类器数量；最后，将最优分类器数量输入至深度级联森林模型中，深度级联森林模型进行逐次运行直至满足预设精度，获得病历数据的最优分类结果。本发明实施例的技术方案对数据量的要求不高，且易于训练，还具有适应性强的优点。

Description

病历数据的分类方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种病历数据的分类方法及系统。

背景技术

病历数据通常是一个较为复杂的数据集合，鉴于患者生理参数和疾病症状的复杂性，以及医院医生之间经验的差异性，病历数据分类的准确率往往不是很高。随着科技的发展，机器学习方法在医学数据的处理中扮演着越来越重要的角色。如果能够快速提供一种CAD(Computer Aided Diagnosis，计算机辅助诊断)应用，可以对疾病的病历数据进行学习与分类，可以在一定程度上改善疾病的分类和预测的准确性。

发明内容

有鉴于此，本发明实施例提供了一种病历数据的分类方法及系统。

第一方面，本发明实施例提供了一种病历数据的分类方法，包括：

对原始的病历数据进行预处理，得出能够与分类器匹配的数据集；

将特征选择后的所述数据集随机分为指定数量个大小相同的数据块，将各所述数据块分为训练集和测试集后，分别输入到对应的分类器中；

基于TPE算法，对全部分类器通过加权投票表决的方式进行预测，在运行指定次数的TPE算法后，选择验证误差最小时的分类器数量为最优分类器数量；

将所述最优分类器数量输入至深度级联森林模型中，深度级联森林模型进行逐次运行直至满足预设精度，获得病历数据的最优分类结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述数据集的特征选择，具体包括：

通过XGBoost模型获得数据集的各特征的特征权重，选取符合预设特征权重条件的特征。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，将特征选择后的所述数据集随机分为指定数量个大小相同的数据块，将各所述数据块分为训练集和测试集后，分别输入到对应的分类器中，具体包括：

通过k-fold交叉验证将特征选择后的所述数据集随机分为k个大小相同的数据块，其中k-1个数据块作为训练集，其余数据块作为测试集，分别输入到对应的分类器中。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，基于TPE算法，对全部分类器通过加权投票表决的方式进行预测，在运行指定次数的TPE算法后，选择验证误差最小时的分类器数量为最优分类器数量，具体包括：

基于TPE算法，对全部分类器通过加权投票表决的方式进行预测，其中，分类器i的投票权重

n_i为分类器i的数量，m为分类器的种类总数，运行TPE算法k次，通过k次交叉验证选择验证误差最小时的分类器数量为最优分类器数量。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述分类器包括：RF分类器、ET分类器、AdaBoost分类器和GBDT分类器。

第二方面，本发明实施例提供了一种病历数据的分类系统，包括：

预处理模块，用于对原始的病历数据进行预处理，得出能够与分类器匹配的数据集；

分配模块，用于将特征选择后的所述数据集随机分为指定数量个大小相同的数据块，将各所述数据块分为训练集和测试集后，分别输入到对应的分类器中；

选择模块，用于基于TPE算法，对全部分类器通过加权投票表决的方式进行预测，在运行指定次数的TPE算法后，选择验证误差最小时的分类器数量为最优分类器数量；

处理模块，用于将所述最优分类器数量输入至深度级联森林模型中，深度级联森林模型进行逐次运行直至满足预设精度，获得病历数据的最优分类结果。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述分配模块具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述分配模块还用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述选择模块具体用于：

上述技术方案中的一个技术方案具有如下有益效果：

本发明实施例的方法中，首先，对原始的病历数据进行预处理，得出能够与分类器匹配的数据集；然后，将特征选择后的数据集随机分为指定数量个大小相同的数据块，将各数据块分为训练集和测试集后，分别输入到对应的分类器中；随后，基于TPE算法，对全部分类器通过加权投票表决的方式进行预测，在运行指定次数的TPE算法后，选择验证误差最小时的分类器数量为最优分类器数量；最后，将最优分类器数量输入至深度级联森林模型中，深度级联森林模型进行逐次运行直至满足预设精度，获得病历数据的最优分类结果。本发明实施例的方法对数据量的要求不高，且易于训练，还具有适应性强的优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例所提供的病历数据的分类方法的一种流程示意图；

图2为本发明实施例所提供的病历数据的分类方法的另一种流程示意图；

图3为本发明实施例所提供的病历数据的分类系统的功能方块图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于理解，下面对本发明实施例所涉及的相关概念稍作解释。

深度学习是一种机器学习方法，它的原理是通过构建带有多个隐藏层的深度神经网络来模拟人脑进行分析学习，深度神经网络的隐藏层数目以及隐藏层的节点数目对于整个模型的学习效果尤为重要。

集成学习是把多个单一的机器学习器按照一定的规则结合起来，从而获得比单个学习器更优秀的学习效果的机器学习方法。集成学习可以用于分类问题集成、回归问题集成、特征选取集成、异常点检测集成等。对于分类问题来说，将几种分类器结合起来使用的效果要明显优于只使用单个分类器的情况。

超参数是机器学习模型中的框架参数，比如随机森林中的树数量，深度神经网络隐藏层数等。通常情况下，为了给学习器选择一组最优超参数，需要对超参数进行优化，以提高后续学习的性能和效果。

基于此，本发明实施例提供了一种病历数据的分类方法，如图1-2所示，该方法包括以下步骤：

S101、对原始的病历数据进行预处理，得出能够与分类器匹配的数据集；

S102、将特征选择后的所述数据集随机分为指定数量个大小相同的数据块，将各所述数据块分为训练集和测试集后，分别输入到对应的分类器中；

S103、基于TPE算法，对全部分类器通过加权投票表决的方式进行预测，在运行指定次数的TPE算法后，选择验证误差最小时的分类器数量为最优分类器数量；

S104、将所述最优分类器数量输入至深度级联森林模型中，深度级联森林模型进行逐次运行直至满足预设精度，获得病历数据的最优分类结果。

具体实施时，步骤S101可选择如下的方式进行数据的预处理：

对要进行预测的原始病例数据根据要求进行必要的预处理，获得没有缺失值和错误值的数据集，并生成能够输入分类器的正确格式，形式一般为：D＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，其中x_n表示与病人n有关的各项检测指标，y_n表示病人n是否患某种疾病，y_n＝1表示病人n患病，y_n＝0表示病人n没有患病。

需要说明的是，S102中的数据集的特征选择，具体包括：

通过XGBoost模型获得数据集的各特征的特征权重，选取符合预设特征权重条件的特征。即通过XGBoost模型去除掉不重要的特征，从而可以减少数据处理量。XGBoost是GB算法的高效实现，XGBoost中的基学习器可以是决策树分类器，也可以是以性分类器。

在进行数据集的特征选择后，通过k-fold交叉验证将特征选择后的所述数据集随机分为k个大小相同的数据块，其中k-1个数据块作为训练集，其余数据块作为测试集，分别输入到对应的分类器中，k可以取10。

需要说明的是，S103中分类器数量优化的步骤具体包括：

需要说明的是，TPE(Tree-structured Parzen Estimator，树形结构的Parzen估计器)主要用于深度神经网络的超参数优化，优化期间，每个分类器i产生类别分布p_i的估计。在二元分类问题中，p_i包含两个值，即c_i0和c_i1，它们分别代表0和1类的概率。通过将由所有分类器的平均输出给出的损失函数最小化来优化基本集成学习器的数量。分类器i的数量是n_i，且n_i∈N＝{0,1,2,3，...}，当n_i的值为0时，不选择分类器i。通过TPE优化方法确定各个分类器的优化数目n_i，分类器池中所有的分类器通过加权投票表决的方式进行预测，分类器i的投票权重

n_i为分类器i的数量，m为分类器的种类总数。运行算法k次，取加权投票预测验证误差最小时的各分类器数目n_i，并通过k次交叉验证最小化损失函数，k可以取10。

在这里我们选择四个基本分类器，分别是RF(Random Forest，随机森林)分类器、ET(Extremely Randomized Trees，极端随机树)分类器、AdaBoost分类器和GBDT(GradientBoosting Regression Tree，梯度提升树)分类器，举例说明，一组n_i＝{0,2,1,2}，表示0个RF分类器(即未选择RF分类器)、2个ET分类器、1个AdaBoost分类器和2个GBDT分类器组成集成模型。深度集成模型每层使用的基分类器的种类和数目，即深度集成模型的初始层和中间隐藏层的结构。

具体实施时，将S103中获得的最优分类器数量n_i输入至深度级联森林模型中，深度级联森林模型进行逐次运行直至满足预设精度，获得疾病的最优分类结果。深度级联森林模型每运行一次自动增加深度，并对每一层执行多数投票，直到最后一层获得最终结果。在第一层之后，每个级别接收由其先前级别处理的特征信息，然后将其与原始特征向量连接以输入到下一级别。

本发明实施例提供的技术方案具有以下有益效果：

下面通过具体应用场景对本发明实施例的疾病辅助判断方法进行说明。

本发明实施例原始的病历数据与乳腺癌的分类有关，来自于华东地区的一家大型医院。数据集中包含从初步临床和常规检查中获得的10个属性，分别是年龄、位置、淋巴结、密度、清晰度、面积、规则度、表面平滑度、乳头和家族病史，这些属性大多数表示的是肿瘤医生临床检查的症状和体征，如表1所示。分类的类别指乳腺癌严重程度：良性(阴性)或恶性(阳性)。数据集总共有334例病例，其中164例(49.10％)为良性，170例(50.90％)为恶性。

表1.乳腺癌数据集的特征属性表

然后采用TPE优化算法选择分类器组合：

TPE是一种非标准的基于贝叶斯的优化算法，用于非参数地模拟误差分布。TPE创建了两个分层过程，即l(x)和g(x)，充当所有域变量的生成模型。当目标函数低于和高于指定的分位数y^*时，这些过程对域变量进行建模，TPE通过转换生成过程来模拟p(x|y)，从而在非参数密度之前替换配置的分布。

其中，l(x)是使用观察值{xⁱ}形成的密度，使得相应的损失f(xⁱ)小于y^*，g(x)是使用剩余观察值形成的密度。TPE算法取决于大于最佳观察到的f(x)的y^*，因此可以使用一些点来形成l(x)。

需要说明的是，TPE优化期间，每个分类器i产生类别分布p_i的估计。在二元分类问题中，p_i包含两个值，即c_i0和C_i1，它们分别代表0和1类的概率。通过将由所有分类器的平均输出给出的损失函数最小化来优化基本集成学习器的数量。分类器i的数量是n_i，且n_i∈N＝{0,1,2,3，...}，当n_i的值为0时，不选择分类器i。通过TPE优化方法确定各个分类器的优化数目n_i，分类器池中所有的分类器通过加权投票表决的方式进行预测，分类器i的投票权重

在这里我们选择四个基本分类器，分别是RF分类器、ET分类器、AdaBoost分类器和GBDT分类器，举例说明，一组n_i＝{0,2,1,2}，表示0个RF分类器(即未选择RF分类器)、2个ET分类器、1个AdaBoost分类器和2个GBDT分类器组成集成模型。深度集成模型每层使用的基分类器的种类和数目，即深度集成模型的初始层和中间隐藏层的结构。

然后将获得的最优分类器数量n_i输入至深度级联森林模型中，深度级联森林模型进行逐次运行直至满足预设精度，获得疾病的最优分类结果。深度级联森林模型每运行一次自动增加深度，并对每一层执行多数投票，直到最后一层获得乳腺癌的分类结果。

基于相同的构思，本发明实施例进一步给出实现上述方法实施例中各步骤及方法的系统实施例。

请参考图3，其为本发明实施例所提供的一种病历数据的分类系统，如图3所示，该装置包括：

预处理模块310，用于对原始的病历数据进行预处理，得出能够与分类器匹配的数据集；

分配模块320，用于将特征选择后的所述数据集随机分为指定数量个大小相同的数据块，将各所述数据块分为训练集和测试集后，分别输入到对应的分类器中；

选择模块330，用于基于TPE算法，对全部分类器通过加权投票表决的方式进行预测，在运行指定次数的TPE算法后，选择验证误差最小时的分类器数量为最优分类器数量；

处理模块340，用于将所述最优分类器数量输入至深度级联森林模型中，深度级联森林模型进行逐次运行直至满足预设精度，获得病历数据的最优分类结果。

由于本实施例中的各单元模块能够执行图1所示的方法，本实施例未详细描述的部分，可参考对图1的相关说明。

图4是本发明的一个实施例电子设备的结构示意图。请参考图4，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Per-ipheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended I-ndustryStandard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

在一种可能实现的方式中，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，也可从其它设备上获取相应的计算机程序，以在逻辑层面上形成病历数据的分类系统。处理器，执行存储器所存放的程序，以通过执行的程序实现本发明任一实施例中提供的病历数据的分类方法。

本发明实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行本发明任一实施例中提供的病历数据的分类方法。

上述如本发明图3所示实施例提供的病历数据的分类系统执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元或模块分别描述。当然，在实施本发明时可以把各单元或模块的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种病历数据的分类方法，其特征在于，所述方法包括：

将所述最优分类器数量输入至深度级联森林模型中，深度级联森林模型进行逐次运行直至满足预设精度，获得病历数据的最优分类结果；

分类器包括：RF分类器、ET分类器、AdaBoost分类器和GBDT分类器。

2.根据权利要求1所述的方法，其特征在于，所述数据集的特征选择，具体包括：

3.根据权利要求1所述的方法，其特征在于，将特征选择后的所述数据集随机分为指定数量个大小相同的数据块，将各所述数据块分为训练集和测试集后，分别输入到对应的分类器中，具体包括：

4.根据权利要求3所述的方法，其特征在于，基于TPE算法，对全部分类器通过加权投票表决的方式进行预测，在运行指定次数的TPE算法后，选择验证误差最小时的分类器数量为最优分类器数量，具体包括：

5.一种病历数据的分类系统，其特征在于，所述系统包括：

处理模块，用于将所述最优分类器数量输入至深度级联森林模型中，深度级联森林模型进行逐次运行直至满足预设精度，获得病历数据的最优分类结果；

6.根据权利要求5所述的系统，其特征在于，所述分配模块具体用于：

7.根据权利要求5所述的系统，其特征在于，所述分配模块还用于：

8.根据权利要求7所述的系统，其特征在于，所述选择模块具体用于：