CN109920501A

CN109920501A - 基于卷积神经网络和主动学习的电子病历分类方法及系统

Info

Publication number: CN109920501A
Application number: CN201910068242.7A
Authority: CN
Inventors: 钱步月; 尹畅畅; 卫荣; 赵荣建; 王谞动; 刘小彤; 陆亮; 郑庆华
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-06-21
Anticipated expiration: 2039-01-24
Also published as: CN109920501B

Abstract

本发明公开了一种基于卷积神经网络和主动学习的电子病历分类方法及系统，包括：获取样本集合中每个电子病历对应的实体向量；获取标注数据集和未标注数据集；用标注数据集对应的实体向量对预设卷积神经网络模型进行训练，获得训练后的卷积神经网络模型；用获得的卷积神经网络模型预测未标注数据集中电子病历数据的分类概率，选择符合预设条件的电子病历补入标注数据集；用补入标注数据集的电子病历对应的实体向量，继续对训练后的卷积神经网络模型进行训练；重复训练后获得训练好的卷积神经网络模型；通过训练好的模型实现电子病历分类。本发明通过融合卷积神经网络和主动学习，可以在较小的样本下实现更加准确的分类效果。

Description

基于卷积神经网络和主动学习的电子病历分类方法及系统

技术领域

本发明属于数据处理和机器学习技术领域，特别涉及一种基于卷积神经网络和主动学习的电子病历分类方法及系统。

背景技术

患者的电子病历中包含所有的患病、用药、检查等历史信息，这些对于分析患者病情具有极大的参考价值。近十年来，基于电子病历数据分析判断病情的研究正在逐步增加，但是绝大多数都是采用医疗专家人工设计特征，采用SVM、随机森林等传统机器学习方法分类，其准确率依赖于数据特异性、特征提取方式等，无法做到端到端的训练方式。随着深度学习成功应用在图像和文本领域，也有部分基于深度学习的研究开始分析电子病历数据；但是这些主要基于循环神经网络分析电子病历的方法，速度较慢，而且依赖于海量样本的数据训练学习。

综上，亟需一种新型的电子病历分类方法及系统。

发明内容

本发明的目的在于提供一种基于卷积神经网络和主动学习的电子病历分类方法及系统，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或多个问题。

为达到上述目的，本发明采用以下技术方案：

一种基于卷积神经网络和主动学习的电子病历分类方法，包括以下步骤：

步骤1，获取多个已诊断的电子病历构造样本集合，提取样本集合中的事件实体构建事件实体集合；将获得的事件实体集合中的所有事件实体映射为等维度向量形式，构成实体向量集合，最终获得样本集合中每个电子病历对应的实体向量；

步骤2，从样本集合中随机选择预设批量的电子病历进行标注，构成标注数据集；样本集合中剩余的未标注的电子病历构成未标注数据集；

步骤3，用步骤2获得的标注数据集对应的实体向量对预设卷积神经网络模型进行训练，获得训练后的卷积神经网络模型；

步骤4，用获得的卷积神经网络模型预测未标注数据集中电子病历数据的分类概率，根据预测的分类概率以及卷积神经网络提取到的数据特征，选择符合预设条件的电子病历补入标注数据集；

步骤5，用补入标注数据集的电子病历对应的实体向量，继续对训练后的卷积神经网络模型进行训练，获得再次训练后的卷积神经网络模型；

步骤6，重复步骤4和步骤5，直至模型结果满足预设收敛条件，获得训练好的卷积神经网络模型；

步骤7，将待诊断电子病历对应的实体向量输入步骤6获得的训练好的卷积神经网络模型，获取待诊断电子病历分类信息。

进一步地，步骤1中构建事件实体集合时，同一事件实体只提取一次。

进一步地，步骤1中，事件实体包含诊断结果、检验化验结果、患者症状以及用药信息中的一种或多种。

进一步地，步骤3中，预设卷积神经网络模型包括：卷积层、池化层、全连接层和softmax层；

卷积层的输入用于接收训练数据；卷积层的输出作为池化层的输入，池化层的输出作为全连接层是输入，全连接层用于全连接操作；全连接层的输出作为softmax层的输入，softmax层用于输出预测分类概率。

进一步地，步骤3中，每次卷积层和全连接层操作之后都进行ReLU非线性激活函数操作。

进一步地，步骤4中，用获得的卷积神经网络模型预测未标注数据集中样本电子病历数据的分类概率，根据预测获得的分类概率，选择不确定性满足预设条件的电子病历数据补入标注数据集中；

其中，不确定性衡量方式为熵；熵越大，则不确定性越高；熵的计算公式为：

E_n(p)＝-plog(p)–(1-p)log(1-p)；

式中，p为预测的分类概率。

进一步地，步骤4还包括：第一种选取原则，在未标注数据集中任取两个样本电子病历，提取二者在模型分类器之前的特征向量，以二者特征向量夹角的cos值作为相似度度量，计算公式为：

Sim(f_c,f_d)＝cos<f_c,f_d>；

式中，c，d为在未标注数据集中任取的两个样本电子病历；f_c、f_d为选取的两个样本电子病历在模型分类器之前对应的特征向量；

需要补入标注数据集的集合G的计算公式为：

G＝arg max(E(G)–α*Sim(G))；

式中，E(G)为选取的样本集合G中所有样本的熵的平均值，Sim(G)为选取的样本集合G中任意两两样本的相似度的平均值，α为可调节参数，取值范围为大于0。

进一步地，α的取值范围为0～1。

进一步地，第二种补入批注数据集的电子病历数据的选取原则为：

选择补入的电子病历集合为Z，计算公式为：

Z＝arg max(Sim(Z,L))；

式中，Sim(Z,L)为选取的样本与已标注样本两两之间相似度的平均值；

根据两种选取原则的样本分类错误率，动态调整两种策略选择标注的电子病历数；若第二种选取原则的错误率更高，则增加Z选取的电子病历数，否则减少Z选取的电子病历数。

一种基于卷积神经网络和主动学习的电子病历分类系统，包括：

样本处理模块，用于获取多个已诊断的电子病历构造样本集合，提取样本集合中的事件实体构建事件实体集合；将获得的事件实体集合中的所有事件实体映射为等维度向量形式，构成实体向量集合，最终获得样本集合中每个电子病历对应的实体向量；

标注模块，用于从样本集合中随机选择预设批量的电子病历进行标注，构成标注数据集；样本集合中剩余的未标注的电子病历构成未标注数据集；

卷积神经网络模型模块，用于通过获得的标注数据集对应的实体向量对预设卷积神经网络模型进行训练，获得训练后的卷积神经网络模型；通过获得的卷积神经网络模型预测未标注数据集中电子病历数据的分类概率，根据预测的分类概率以及卷积神经网络提取到的数据特征，选择符合预设条件的电子病历补入标注数据集；通过补入标注数据集的电子病历对应的实体向量，继续对训练后的卷积神经网络模型进行训练，获得再次训练后的卷积神经网络模型；重复训练直至模型结果满足预设收敛条件，获得训练好的卷积神经网络模型；

输入输出模块，用于将待诊断电子病历对应的实体向量输入卷积神经网络模型模块训练好的卷积神经网络模型中，输出待诊断电子病历分类信息。

与现有技术相比，本发明具有以下有益效果：

本发明提出结合主动学习和深度学习网络，有效地选择标注样本，从而小样本下训练出高精度的神经网络模型。本发明采用卷积神经网络，可以同时处理患者不同时间的数据，相对于传统的循环神经网络需要按电子病历长度逐个输入，速度更快。本发明提出的主动选择标注数据的策略可以同时兼顾样本的信息量、样本间的信息冗余和潜在的未被探索的数据空间，有更高的选择效率。

本发明提供一种面向序列数据预测方法，通过融合卷积神经网络和主动学习，可以在较小的样本下实现更加准确的分类效果。主动学习技术能够选择标注少量但是最有价值的数据，从而减少标注成本。本发明融合卷积神经网络和主动学习方法，能够在保持原有模型效果的前提下，节约标注时间和标注数据量。

附图说明

图1是本发明的一种基于卷积神经网络和主动学习的电子病历分类方法中分类网络示意图；

图2是本发明的一种基于卷积神经网络和主动学习的电子病历分类方法中的相似度网络示意图；

图3是本发明的一种基于卷积神经网络和主动学习的电子病历分类方法中主动学习流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

本发明的一种基于卷积神经网络和主动学习的电子病历分类方法，包括以下步骤：

步骤1，提取电子病历事件实体；事件实体包含诊断结果、检验化验结果、患者症状以及用药信息等。

提取训练样本电子病历数据中的事件实体，构建事件实体集合，其中同一事件实体只提取一次。例如，一共有I个患者的电子病历数据，从中提取出了n个事件实体，构成事件实体集合W，表示为W＝{w₁,…,w_n}。

每个患者的电子病历数据均由多个有序的事件实体连接而成，不同患者的电子病历往往包含数量不等的多个事件实体。例如，第i个患者的电子病历中的第j个事件实体由w_ij表示，共有m个实体，构成与该患者电子病历的事件实体序列S_i，表示为S_i＝(w_i1,…,w_ij,…,w_im)；其中，w_ij∈W。若患者的电子病历中的事件实体数量小于m个，则以空事件实体填充至m个。

步骤2，采用词嵌入方式，将事件实体集合W中的所有事件实体映射为等维度向量形式。

具体的，采用卷积神经网络方法，将每一个事件实体w映射为长度为k的一维向量e，构成实体向量集合E，表示E＝{e₁,…,e_a,…,e_n}，e_a∈R^k。实体向量可以反应实体事件之间的相似度关系，例如两种关系相近的实体在向量空间中距离较近，采用内积相似度或者欧式距离都可以衡量这种关系。

例如，第i个患者的电子病历数据由事件实体序列S_i转换为有序的向量序列，即二维矩阵Q_i，表示为Q_i＝(e_i1,…,e_ij,…,e_im)，Q_i∈R^m×k；即获得了该电子病历数据样本对应的实体向量。

步骤3，随机标注小批量数据。

在模型训练最初阶段，从获取的I个患者电子病历数据构成的样本集合中，随机选择预设小批量数据进行标注，构成标注数据集L，其包含b个患者，表达式为L＝{S₁,…,S_b}，b＝|L|。

步骤4，构建卷积神经网络模型并用标注数据集L中的样本电子病历对应的实体向量进行训练，获得训练后的卷积神经网络模型。

请参阅图1，使用所有已标注数据集合L训练网络模型，网络模型如图1所示。训练数据首先经过一维卷积层，然后进入池化层，然后在全连接层进行全连接操作，最后经过softmax层，直接预测分类概率。每次卷积层和全连接层操作之后都进行ReLU非线性激活函数操作，采用非线性激活函数可以更好的拟合模型。

(5)从样本集合I的未标注集合U中选择患者样本电子病历继续标注，并将合适的电子病历数据补入标注数据集合L中。

用已经训练出来的卷积神经网络模型，预测未标注数据集U中所有数据分类概率，根据预测概率以及卷积神经网络提取到的数据特征，选择最有价值的患者电子病历继续标注。其中，U＝{S₁,…,S_u}，u＝|U|；U和L一起构成数据总量样本集合I。

(6)将标注数据加入训练集，重复(3)～(4)，直到模型结果不再提升为止。

具体的，在步骤(5)中，选择未标注数据集U中的数据标注时，每次选择一批样本电子病历数据进行分析，根据以下原则选取：

(i)在U中选取样本c，对U中的样本c预测分类概率p_c，根据分类概率，选择不确定性最大的患者。不确定性衡量方式为熵，熵越大，不确定性越高，熵的计算公式：E_n(p)＝-plog(p)–(1-p)log(1-p)，p为模型预测的分类概率。将获得的熵值从大到小排列，将前H个熵值对应的电子病历数据补入训练集L中。

进一步地选取原则还包括：

(ii)熵值大的样本有可能是极为相似的，对这些患者电子病历，只需要标注极小一部分，便可以分清楚其他的样本。因此在批量选择数据标注时，需要计算样本间相似度关系，尽可能减少冗余标注信息。在U中任意选取两个样本电子病历c和d，提取在softmax层之前的特征向量f_c、f_d，用特征向量表示对应的样本电子病历，以不同患者电子病历特征向量间夹角的cos值作为相似度度量，计算公式Sim(f_c,f_d)＝cos<f_c,f_d>。

根据(i)(ii)两种选取原则，应该选择进行标注的数据为G，计算公式为：

G＝arg max(E(G)–α*Sim(G))；

式中，E(G)为选取的样本集合G中所有样本的熵的平均值，Sim(G)为G中任意两两的相似度的平均值，α为可调节参数，取值范围为大于0，优选0～1。

(iii)由于已经标注数据可能只包含样本特征空间很小部分，需要尽可能探索特征空间其他区域，因此要选择和已标注数据最不相似的数据，不考虑其预测概率；根据这一选取原则，选择的病人电子病历集合为Z，计算公式为：

Z＝argmax(Sim(Z,L))

式中，Sim(Z,L)为选取的样本与已标注样本两两之间相似度的平均值。

根据Z和G选择的样本分类错误率，动态调整两种策略选择标注的样本数，即G与Z的数量。若原则(iii)错误率更高，说明还有未曾探索过的特征空间，这部分样本容易被分类错误，应该增加原则(iii)选择的样本数；否则应该减少原则(iii)的样本数。

本发明的原理

患者的电子病历中详细记录了该患者在医院于确定时间点被检查出某种症状，诊断为某种疾病，并服用过何种药物等医疗事件信息。这些事件信息彼此之间，尤其是疾病与疾病之间、症状与疾病之间、疾病与药品之间，都有重要关联。通过分析电子病历历史信息，可以有效的分析出病人身体状况，以及准确预测未来一段时间内是否可能患有心脏衰竭疾病。本发明提供的面向电子病历的分类方法，可辅助医生完成心脏衰竭早期预测；本发明的方法融合卷积神经网络和主动学习，可以在较小的样本下做到更加准确的疾病风险预测。

实施例1

请参阅图1至图3，本发明的一种基于卷积神经网络和主动学习的电子病历分类方法，包括以下步骤：

(1)提取电子病历事件实体。

通过提取出预设最具价值的疾病、药品、症状事件实体，可以用于分析患者在未来是否有患有心脏衰竭疾病的可能性，并做及早预防。在所有电子病历数据中，一共有10万种医疗事件实体，但是绝大多数实体为罕见实体，大约有8000个常见实体。本实施例从20万病人中选取4000个患有心脏衰竭的病人以及4000个没有心脏衰竭的病人，这些病人一共包含6458个常见实体，这些常见实体构成实体集合W，W＝{w₁,…,w_n}。

每一个病人都有长度不等的医疗事件实体序列，病人i由多个医疗事件w_ij表示。通常具有较多信息的病人更适合于训练模型，分析数据，建议提取序列长度大于50的数据用于训练，最多有m个实体，m取150以上比较合适，构成医疗事件实体序列S_i，S_i＝(w_i1,…,w_ij,…,w_im)，w_ij∈W。若实体数量小于m个，则以空实体填充。

(2)采用词嵌入方式，将所有医疗事件实体映射为等维度向量形式。

词嵌入的思想来自自然语言处理，指将单词映射到同一个高维空间，假设在该空间中，词向量的距离可以近似表示单词之间的相似度。通常认为，在相通句子之中经常共同出现的单词间语义更加接近，于是可以用深度学习方法学习这种词向量表示。使得在同一个句子中所有单词词向量更接近，不经常共同出现的单词间词向量距离更远。不断优化这一损失函数，多次迭代，可以学习到较好的词向量表示。这一方法在自然语言处理中已经得到多次证实，已经成为常用方法。本发明中将这一方法引入电子病历事件实体，将医疗实体映射为高维向量，将每一个医疗事件w映射为长度为k的一维向量e，构成实体向量集合E，E＝{e₁,…,e_n}，e_i∈R^k。

实体向量可以反应医疗事件之间的相似度关系，例如两种关系相近的疾病在向量空间中距离较近，采用内积相似度或者欧式距离都可以衡量这种关系。通常将k设置为50～100之间比较合适，当小于50时，维度太低，无法完整表示向量间相似关系，当大于100时，维度太高，又需要更多数据进行训练，如果数据量不够时，又会影像词嵌入模型训练过程，往往训练不够充分，会影响最终结果。在词嵌入之后，患者i由医疗事件序列S_i，转换为有序的向量序列，即二维矩阵Q_i，Q_i＝(e_i1,…,e_ij,…,e_im)，Q_i∈R^m×k。

(3)随机标注小批量数据。

由于医疗数据难以标注，通常需要对患者进行完整的检验化验，经过医生的仔细判断，得到最终真实可靠的标注结果。这种标注是十分费时费力的，大量占用医生时间会影响其正常工作。本发明提出的基于主动学习的算法，可以尽可能通过选取最有价值的患者进行标注，能实现在小数据标注下，得到最优的训练模型。在开始时，需要随机选择小批量数据进行标注，构成标注数据集L，包含l个患者，本样例选取32个初始病人：L＝{S₁,…,S_l}，l＝|L|。

(4)构建卷积神经网络模型，训练模型。

使用所有已标注医疗数据集合L训练，初次训练时仅随机标注少量数据，其中网络模型如图1所示，首先沿时间方向对实体向量序列矩阵做一维卷积，也可以采用连续多层卷积；并经过一次全局最大池化层，然后两次全连接操作，最后经过softmax层，直接完成分类，并辅助医生预测六个月后该病人患有心脏病的概率。每次卷积层和全连接层操作之后都接上ReLU非线性激活函数，采用非线性激活函数可以更好的拟合模型。

(5)从未标注集合中选择患者继续标注。

根据训练出来的模型，预测未标注病人电子病历数据集U中所有可能分类至心脏衰竭的概率，根据预测概率以及卷积神经网络提取到的病人体征，选择最有价值的病人继续标注，具体选择过程在后文中详细叙述。其中，U＝{S₁,…,S_u}，u＝|U|，U和L一起构成数据总量。

(6)将标注病人加入训练集，重复(3)～(4)，直到模型结果不再提升为止；由于所有患者并非一次选择而来，有的患者在早期选择，有的在后期选择，这种差异性导致先选择的数据会被网络训练多次，这样容易造成对这部分患者有严重的过拟合问题，对后选择的数据有欠拟合的问题。

本发明提供两种解决方案：

1)每次选择完患者之后，完全重新训练模型，这样可以从根本上规避这个问题，能得到最佳的结果，但是会让训练时间成二次方的速度增长，训练太慢。

2)每次选择完患者之后，对新选择的数据直接训练，最以前选择的数据，按照选择时间，随机抽取，使得越早被选择的患者被再次选中的概率越小。这种方法能在一定程度上缓解部分数据过拟合的问题，但是用时短，更适合于模型训练。

在第(5)步中，选择新数据标注时，每次选择一批病人电子病历进行分析，根据以下原则选取：

(i)对病人i预测六个月后患病概率p_i，根据概率，选择不确定性最大的病人。不确定性衡量方式为熵，熵越大，不确定性越高：E_n(p)＝-plog(p)–(1-p)log(1-p)。

(ii)熵值大的患者有可能是极为相似的，对这些患者，只需要标注极小一部分，便可以分清楚其他的患者。因此在批量选择患者进行标注时，需要计算患者间相似度关系，尽可能减少冗余标注信息。对患者c和d，提取其在softmax层之前的特征向量来f_c和f_d来表示，以不同患者间夹角的cos值作为相似度度量：

Sim(f_c,f_d)＝cos<f_c,f_d>

根据前两种选取原则，应该选择进行标注的数据为G：

G＝argmax(E(G)–α*Sim(G))

G为选择的数据集合，E(G)为选取的病人集合G中所有患者的熵的平均值，Sim(G)为G中任意两两患者之间相似度的平均值。

(iii)由于已经标注数据可能只包含病人特征空间很小部分，需要尽可能探索特征空间其他区域，因此要选择和已标注病人最不相似的病人，不考虑其预测概率；根据这一选取原则，选择的病人集合为Z：

Z＝argmax(Sim(Z,L))

Sim(Z,L)为选取的病人与已标注病人两两之间相似度的平均值。

根据两种选择的病人分类错误率，动态调整两种策略选择标注的人数，即G与Z的数量。若(iii)错误率更高，说明还有未曾探索过的特征空间，这部分病人容易被分类错误，应该增加(iii)选择的人数；否则应该减少(iii)的人数。

本样例中，在不同大小的标注训练集中，本发明的方法可以超过对比模型，对比模型包含其他基于卷积神经网络的模型。对比模型均采用相同的卷积神经网络模型，对比模型采用不同主动学习策略，在不同训练集数量下的模型正确率如表1：

表1多种主动学习策略在给定训练集数量下的预测正确率

训练集数量	100	200	300	400	800
						随机选择	0.66	0.70	0.74	0.75	0.77
熵值最大	0.68	0.73	0.74	0.76	0.77
						最远优先	0.64	0.72	0.75	0.76	0.78
批量选择	0.72	0.73	0.75	0.77	0.78
						本发明	0.72	0.75	0.78	0.80	0.81

从表1可知，随机选择方法，每次随机选择一批数据标注，可以发现在标注数据量超过200时，随机方法是最差的。熵值最大方法，每次仅仅选择最不确定的数据标注，在标注数据小于100时表现最好，之后结果逐渐被其他方法超过。这说明在数据量较小时，该方法适用于卷积神经网络模型，当标注量较大后，容易造成相似患者被同时标注，同一批量标注数据提供的信息有限。最远优先方法，仅仅采用本发明中(iii)策略，每次选择离以标注数据最远的新数据标注，由于该方法不关注未标注数据预测熵值，无法找到最优的数据，导致最终结果无法达到最优。批量选择方法，仅仅采用本发明中(i)和(ii)策略，没有探索已标注数据中为涉及的区域，导致最终无法达到最优的模型效果。本发明中的方法结合了以上所有方法的优点，最终可以达到最好的结果，仅仅标注400个数据的情况下，就可以达到80％的正确率。

本发明的一种基于卷积神经网络和主动学习的电子病历分类系统，包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

Claims

1.一种基于卷积神经网络和主动学习的电子病历分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于卷积神经网络和主动学习的电子病历分类方法，其特征在于，步骤1中构建事件实体集合时，同一事件实体只提取一次。

3.根据权利要求1所述的一种基于卷积神经网络和主动学习的电子病历分类方法，其特征在于，步骤1中，事件实体包含诊断结果、检验化验结果、患者症状以及用药信息中的一种或多种。

4.根据权利要求1所述的一种基于卷积神经网络和主动学习的电子病历分类方法，其特征在于，步骤3中，预设卷积神经网络模型包括：卷积层、池化层、全连接层和softmax层；

5.根据权利要求4所述的一种基于卷积神经网络和主动学习的电子病历分类方法，其特征在于，步骤3中，每次卷积层和全连接层操作之后都进行ReLU非线性激活函数操作。

6.根据权利要求1所述的一种基于卷积神经网络和主动学习的电子病历分类方法，其特征在于，步骤4中，用获得的卷积神经网络模型预测未标注数据集中样本电子病历数据的分类概率，根据预测获得的分类概率，选择不确定性满足预设条件的电子病历数据补入标注数据集中；

E_n(p)＝-plog(p)–(1-p)log(1-p)；

式中，p为预测的分类概率。

7.根据权利要求6所述的一种基于卷积神经网络和主动学习的电子病历分类方法，其特征在于，步骤4还包括：第一种选取原则，在未标注数据集中任取两个样本电子病历，提取二者在模型分类器之前的特征向量，以二者特征向量夹角的cos值作为相似度度量，计算公式为：

Sim(f_c,f_d)＝cos<f_c,f_d>；

需要补入标注数据集的集合G的计算公式为：

G＝arg max(E(G)–α*Sim(G))；

8.根据权利要求7所述的一种基于卷积神经网络和主动学习的电子病历分类方法，其特征在于，α的取值范围为0～1。

9.根据权利要求7所述的一种基于卷积神经网络和主动学习的电子病历分类方法，其特征在于，第二种补入批注数据集的电子病历数据的选取原则为：

选择补入的电子病历集合为Z，计算公式为：

Z＝arg max(Sim(Z,L))；

10.一种基于卷积神经网络和主动学习的电子病历分类系统，其特征在于，包括：