CN113555077B

CN113555077B - 疑似传染病预测方法及装置

Info

Publication number: CN113555077B
Application number: CN202111095969.8A
Authority: CN
Inventors: 王梦莹; 计虹; 孙震; 胡可云; 陈联忠; 常凤香; 魏振豪; 朱声荣; 王欣
Original assignee: Beijing Jiahesen Health Technology Co ltd; Peking University Third Hospital Peking University Third Clinical Medical College
Current assignee: Beijing Jiahesen Health Technology Co ltd; Peking University Third Hospital Peking University Third Clinical Medical College
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2022-01-11
Anticipated expiration: 2041-09-18
Also published as: CN113555077A

Abstract

本发明是关于一种疑似传染病预测方法及装置，方法包括：从医疗数据库中获取所有患者的电子病历信息和检查报告信息；利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练，以得到二分类预测模型；利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练，以得到多分类预测模型；获取目标患者的电子病历信息和检查报告信息；使用二分类预测模型预测目标患者是否是疑似传染病；当预测目标患者是疑似传染病时，使用多分类预测模型预测疑似传染病的具体类型。

Description

疑似传染病预测方法及装置

技术领域

本发明涉及传染病预测技术领域，尤其涉及一种疑似传染病预测方法及装置。

背景技术

传染病一直伴随着人类的发展，严重威胁着人类的健康。尽管医学研究一直在进步，但传染病仍然是世界范围内造成死亡、疾病、残疾和社会经济动荡的主要原因。早期诊断预测，准确选择诊疗方案，提前进行干预，可以极大地影响传染病的治疗效果和预防控制。中国对传染病实行分类管理，目前的法定报告传染病分为甲、乙、丙3类，加上2020年新增的COVID-19，共达40种之多。此外，还包括国家卫生健康委决定列入乙类、丙类传染病管理的其他传染病和按照甲类管理开展应急监测报告的其他传染病。针对不同类别传染病采用不同管理方式，甲类传染病需要在诊断2小时内报告至国家疾控中心，乙丙类需要在诊断的24小时内报告。传染病类型复杂，如何尽早做出准确的诊断是传染病防控过程中的重要环节。

目前将人工智能方法应用于疾病分类的研究较少，大多研究基于影像类数据，如X光、CT、核磁、心电图、超声等，Hannun等人使用深度神经网络来检测和分类动态心电图中的心脏病专家级心律失常，其结果显示了较好的分类精度（曲线下面积=0.97）。Attia等人测试了AI在心电图中的应用准确性，观察到的准确率为85.7%。Wildman Tobriner等人表明，采用AI方法优化的甲状腺成像报告和数据系统（TI-RADS）可以适度提高特异性和敏感性。LIYang等将神经网络应用于基于X光的股骨头坏死诊断上，根据神经网络学习图像特征角度变化确诊股骨头坏死，并推荐疾病分期。S Sathitratanacheewin等人设计了DCNN在美国国立卫生研究院临床中心National Institute of Health Clinical Centers和NationalLibrary of Medicine Shenzhen No.3 Hospital数据上，进行基于X光片的肺结节监测。基于不同AI算法的类似诊断工具在检测乳腺癌女性淋巴结转移、皮肤癌皮肤科级别分类、糖尿病视网膜病变和糖尿病黄斑水肿和阿尔茨海默病多类诊断方面具有良好的准确性。但现有适用于传染病的推荐诊断辅助决策研究较少，Rogachev等人使用了决策树与贝叶斯方法针对呼吸道感染疾病进行分类诊断，最终分类准确度为63.38%-70.68%。针对COVID-19，Govindaraj等人基于胸部CT图像数据，使用卷积神经网络进行特征提取与分类，尝试新冠肺炎分类模型结均达到90%以上。Rajpurkar P等人专门针对艾滋病患者的X光信息，采用深度学习，辅助提升艾滋病患者的肺结核确诊率，准确率可以达到79%，研究中数据仅有X光原始影像，缺少病历等重要的文本信息。虽然前期已有人员对传染病辅助诊断进行了探索，但在结合真实文本病历的研究方向上亟待探索，且当前研究普遍为基于影像数据的某一种传染病，尚缺乏对多种传染病同时有效的方法。

发明内容

为克服相关技术中存在的问题，本发明提供一种疑似传染病预测方法及装置。

根据本发明实施例的第一方面，提供一种疑似传染病预测方法，方法包括：

从医疗数据库中获取所有患者的电子病历信息和检查报告信息；

利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练，以得到二分类预测模型；

利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练，以得到多分类预测模型；

获取目标患者的电子病历信息和检查报告信息；

使用所述二分类预测模型预测所述目标患者是否是疑似传染病；

当预测所述目标患者是疑似传染病时，使用所述多分类预测模型预测所述疑似传染病的具体类型。

在一个实施例中，优选地，利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练，以得到二分类预测模型，包括：

第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息，确定该患者的个人信息、门诊信息或住院信息和检查报告信息；

根据所述患者的个人信息确定个人信息向量，根据所述门诊信息或住院信息确定诊疗向量，根据所述检查报告信息确定检查报告向量；

将所述诊疗向量和检查报告向量分别进行自编码器处理，以得到对应的稠密诊疗向量和稠密检查报告向量；

将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理，以得到输入向量；

将所述输入向量输入自注意力层，以得到第一输出结果；

将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理，得到第一处理结果；

将所述第一处理结果输入前馈神经网络，输出神经网络计算结果；

将所述第一处理结果和所述神经网络计算结果进行批归一化处理，得到第二处理结果；

将所述第二处理结果输入sigmoid函数，以输出是否是疑似传染病的概率。

在一个实施例中，优选地，利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练，以得到多分类预测模型，包括：

将所述输入向量输入自注意力层，以得到第一输出结果；

将所述第二处理结果输入归一化指数函数，以输出疑似传染病的具体类型的预测值。

在一个实施例中，优选地，所述自编码器在优化过程中把所述诊疗向量和检查报告向量同时作为分类预测模型的输入和输出，通过最小化重构误差希望学习到对应的抽象特征表示Z矩阵，其中，对于不同类型的文书，构建的自编码器不同。

在一个实施例中，优选地，在利用每个患者的电子病历信息和检查报告信息进行模型训练之前，还包括：

从所述每个患者的电子病历信息中获取电子病历文本数据；

对所述电子病历文本数据进行序列标注和分词处理，并使用BiLSTM- CRF网络结构从中提取实体特征信息以及实体之间的关系，并通过独热编码对所述实体特征信息进行格式转化，以利用转化格式后的所述实体特征信息进行模型训练。

根据本发明实施例的第二方面，提供一种疑似传染病预测装置，所述装置包括：

第一获取模块，用于从医疗数据库中获取所有患者的电子病历信息和检查报告信息；

第一训练模块，用于利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练，以得到二分类预测模型；

第二训练模块，用于利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练，以得到多分类预测模型；

第二获取模块，用于获取目标患者的电子病历信息和检查报告信息；

第一预测模块，用于使用所述二分类预测模型预测所述目标患者是否是疑似传染病；

第二预测模块，用于当预测所述目标患者是疑似传染病时，使用所述多分类预测模型预测所述疑似传染病的具体类型。

在一个实施例中，优选地，所述第一训练模块包括：

第一确定单元，用于第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息，确定该患者的个人信息、门诊信息或住院信息和检查报告信息；

第二确定单元，用于根据所述患者的个人信息确定个人信息向量，根据所述门诊信息或住院信息确定诊疗向量，根据所述检查报告信息确定检查报告向量；

第一处理单元，用于将所述诊疗向量和检查报告向量分别进行自编码器处理，以得到对应的稠密诊疗向量和稠密检查报告向量；

第二处理单元，用于将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理，以得到输入向量；

第三处理单元，用于将所述输入向量输入自注意力层，以得到第一输出结果；

第四处理单元，用于将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理，得到第一处理结果；

第五处理单元，用于将所述第一处理结果输入前馈神经网络，输出神经网络计算结果；

第六处理单元，用于将所述第一处理结果和所述神经网络计算结果进行批归一化处理，得到第二处理结果；

第七处理单元，将所述第二处理结果输入sigmoid函数，以输出是否是疑似传染病的概率。

在一个实施例中，优选地，所述第二训练模块包括：

第七处理单元，用于将所述第二处理结果输入归一化指数函数，以输出疑似传染病的具体类型的预测值。

在一个实施例中，优选地，还包括：

第三获取模块，用于在利用每个患者的电子病历信息和检查报告信息进行模型训练之前，从所述每个患者的电子病历信息中获取电子病历文本数据；

转化模块，用于对所述电子病历文本数据进行序列标注和分词处理，并使用BiLSTM- CRF网络结构从中提取实体特征信息以及实体之间的关系，并通过独热编码对所述实体特征信息进行格式转化，以利用转化格式后的所述实体特征信息进行模型训练。

根据本发明实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现第一方面中任一项方法的步骤。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明实施例中，以医院真实传染病历为数据基础，通过全病程数据采集，建立基础数据集。利用自编码器无监督学习方式对高维数据进行高效的特征提取和特征表示，对稀疏数据进行稠密化，从而使模型更易训练。构建MIDDM深度学习模型，引入残差网络和注意力attention机制，提升模型性能，从而实现对疑似传染病的预测，进而及时采取相应的措施。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种传染病流行趋势预测方法的流程图。

图2是根据一示例性实施例示出的一种传染病流行趋势预测方法中步骤S102的流程图。

图3是根据一示例性实施例示出的一种传染病流行趋势预测方法中步骤S102的流程示意图。

图4是根据一示例性实施例示出的一种传染病流行趋势预测方法中步骤S103的流程图。

图5是根据一示例性实施例示出的一种传染病流行趋势预测方法中步骤S103的流程示意图。

图6是根据一示例性实施例示出的一种传染病流行趋势预测装置的框图。

图7是根据一示例性实施例示出的一种传染病流行趋势预测过程示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种传染病流行趋势预测方法的流程图，如图1所示，该方法包括：

步骤S101，从医疗数据库中获取所有患者的电子病历信息和检查报告信息；

针对传染病的诊断需要患者病例数据中的多个特征，本发明所用病历数据主要从北京大学第三医院医学数据中心中获取。针对部分传染病患者病例数较少的问题，将门急诊与住院数据合并纳入，用以扩充数据集规模。由于患者数据提取自电子病历的文本数据，所以在训练诊断模型前应对缺乏统一性的数据进行多步骤处理。例如，对数据所用特征、疾病等存在的别名、子类名称，利用知识库进行归一替换；利用正则表达式、自然语言处理方法等规范化特征取值；并针对模型训练数据做结构化、向量化等处理。为尽可能广泛考虑病例中对传染病有重要影响因素的信息，训练模型所使用数据包含了患者个人信息以及当前症状、疾病等多种特征，具体包含：病案首页中患者性别、年龄、就诊时间等个人信息；入院记录与门诊病历中主诉、现病史、既往病史、社会史、体格检查、辅助检查等能够表明患者症状、疾病信息；以及能够更细致、精确量化当前患者状态的多种检查报告、检验报告，且包括其中含有的检查项目、检查结果、正常结果范围等数据，如表1所示。

表1 病历抽取数据

步骤S102，利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练，以得到二分类预测模型；

二分类预测模型用于对患者是否是传染病进行预测。

步骤S103，利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练，以得到多分类预测模型；多分类预测模型用于具体预测疑似传染病的类型。

步骤S104，获取目标患者的电子病历信息和检查报告信息；

步骤S105，使用所述二分类预测模型预测所述目标患者是否是疑似传染病；

步骤S106，当预测所述目标患者是疑似传染病时，使用所述多分类预测模型预测所述疑似传染病的具体类型。

如图2和图3所示，在一个实施例中，优选地，步骤S102包括：

步骤S201，第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息，确定该患者的个人信息、门诊信息或住院信息和检查报告信息；

步骤S202，根据所述患者的个人信息确定个人信息向量，根据所述门诊信息或住院信息确定诊疗向量，根据所述检查报告信息确定检查报告向量；

步骤S203，将所述诊疗向量和检查报告向量分别进行自编码器处理，以得到对应的稠密诊疗向量和稠密检查报告向量；

步骤S204，将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理，以得到输入向量；

步骤S205，将所述输入向量输入自注意力层，以得到第一输出结果；

步骤S206，将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理，得到第一处理结果；

步骤S207，将所述第一处理结果输入前馈神经网络，输出神经网络计算结果；

步骤S208，将所述第一处理结果和所述神经网络计算结果进行批归一化处理，得到第二处理结果；

步骤S209，将所述第二处理结果输入sigmoid函数，以输出是否是疑似传染病的概率。

如图4和图5所示，在一个实施例中，优选地，上述步骤S103包括：

步骤S401，第一多输入稠密化诊断模型根据每个患者的电子病历信息和检查报告信息，确定该患者的个人信息、门诊信息或住院信息和检查报告信息；

步骤S402，根据所述患者的个人信息确定个人信息向量，根据所述门诊信息或住院信息确定诊疗向量，根据所述检查报告信息确定检查报告向量；

步骤S403，将所述诊疗向量和检查报告向量分别进行自编码器处理，以得到对应的稠密诊疗向量和稠密检查报告向量；

步骤S404，将所述个人信息向量、稠密诊疗向量和稠密检查报告向量进行合并和归一化处理，以得到输入向量；

步骤S405，将所述输入向量输入自注意力层，以得到第一输出结果；

步骤S406，将所述稠密诊疗向量、稠密检查报告向量和所述第一输出结果进行批归一化处理，得到第一处理结果；

步骤S407，将所述第一处理结果输入前馈神经网络，输出神经网络计算结果；

步骤S408，将所述第一处理结果和所述神经网络计算结果进行批归一化处理，得到第二处理结果；

批归一化采用以下公式进行计算：

其中，

表示批处理数据平均值，

表示整体数量，

表示第i处所处理得到的结果；

其中，

表示批处理数据方差，

表示整体数量，

表示第i处所处理得到的结果，

表示批处理数据平均值；

表示批归一化后结果，，

是为了避免除数为0时所使用的微小正数。

步骤S409，将所述第二处理结果输入归一化指数函数，以输出疑似传染病的具体类型的预测值。

归一化指数函数表示为：

本发明针对当前多种常见传染病构建了多输入稠密化诊断模型(Multi InputDensification Diagnosis Model，MIDDM)。由于高维的稀疏数据（即0值较多的数据）在训练中计算复杂度较高、模型难以优化。所以需要使用一定方法对数据进行压缩、特征提取。针对医疗数据中大量的稀疏数据，MIDDM引入Auto-Encoder深度学习模型，采用无监督学习方式对高维数据进行高效的特征提取和特征表示。利用此方法可对稀疏数据进行稠密化，从而使模型更易训练，取得更优效果。Auto-Encoder主要分为三个部分， encoder、decoder以及特征。 Auto-Encoder在优化过程中无需使用样本的label，而是把样本的输入同时作为神经网络的输入和输出，通过最小化重构误差希望学习到样本的抽象特征表示Z矩阵。由于不同病历文书中包含特征种类不同、数量不同，所以在稠密化过程中分别对不同的文书构建不同的、有针对性的Auto-Encoder模型，从而获取各自更有效的抽象特征表达。之后将稠密化数据与包含患者个人信息的编码向量横向合并，在输入至后续分类结构前利用Layer Normalization方法对合并后向量进行归一化。由于不同文书经过不同Auto-Encoder后所得稠密向量不属于相同特征数值空间，利用层归一化对整个向量进行归一化，从而减小上述问题对训练结果产生的影响。MIDDM后续计算结构主要引入了自注意力Self-Attention与残差学习。将稠密向量与经过Self-Attention计算后结果进行加和，后续将加和的结果与经过前馈神经网络计算后的结果再进行直接求和。模型最终以Softmax作为激活函数，输出多个传染病各自的概率，从而完成对多个传染病的同时分类。

从所述每个患者的电子病历信息中获取电子病历文本数据；

电子病历包含了患者全面、详实、准确的个人健康信息，含有非常丰富可以深度利用的信息。通过深入分析和挖掘电子病历中的信息，可以获得大量与患者密切相关的潜在信息。但是在电子病历中，除了检验等结构化较好数据，非结构化的自由文本数据占有非常大的比例，自由文本在各个层次上广泛存在着各种各样的歧义性或多义性。一般来说，模型训练很难理解和利用这类数据。因此，通过NLP（Natural Language Processing）方法将这些数据有效地转换为模型可以识别的结构化数据是构建传染病辅助诊断模型的基础。其中序列标注（Sequence Labeling）是NLP任务中进行信息抽取和挖掘深层语义的核心任务之一，包括词性标注，命名实体识别，关键词抽取，词义角色标注等等。对电子病历文本数据进行序列标注可以从中提取出包括疾病、症状、药品、检验、检查项目等实体，以及各个实体之间的关系。本发明基于目前序列标注效果比较好的开源方法BiLSTM-CRF网络，结合规则模型等方法实现对原始电子病历数据的信息抽取。如图7所示，首先将分词后的序列化文本输入BiLSTM层之后，将前向和后向的隐藏状态结果进行结合，生成BiLSTM的输出。之后，将BiLSTM的输出送至CRF作为输入，这样就形成了BiLSTM- CRF网络结构。这种结构结合了BiLSTM和CRF的优势：基于双向 LSTM 组件，可以有效地保存整句的前后信息，提取句子中的特征信息；借助CRF层，它能够有效的学习到学习语料中的约束信息，进而进一步提高信息抽取准确率。

在NLP提取数据之后需要对数据进行编码处理，首先将数据清洗，去除噪声数据，之后对数据进行异常值处理，对于明显偏离的异常值去除后，进行1/0二值化处理，对于数值型数据转换到[0，1]统一数值区间，最后是进行标准化处理，将症状、疾病、体征等实体别名替换为知识库中标准名称，尤其是章节和实体关系的特征拼接，病历中不同的章节中有可能包含相同的实体信息，但在医学上表示着不同的医疗意义，如主诉中症状和现病史中时间节点的症状名称相同，但是一个代表着现在的主要症状，一个代表着以前出现过的症状即既往史。因此要基于章节对特征做拼接。如”主诉_股骨颈骨折”和”既往史_股骨颈骨折”；将分词后数据转化为特征，1表示拥有此特征，0表示未有此特征。举例如表2所示。

表2 NLP分词后数据转化为特征

传染病多分类MIDDM模型预测排位第一的诊断与患者的出院诊断一致的即为正确，否则即为不正确，在临床当中，传染病作为第一诊断的概率为8.5%（17/200），同时根据医疗安全管理要求，传染病与其他非传染病不同，为单独管理，因此传染病诊断准确率不考虑第几诊断情况。

准确率的定义公式为：

下面以具体实施例详细说明本发明的上述技术方案。

首先，利用法定传染病数据表对归一后的传染病名称进行过滤，之后将其下属不具有传染性的子疾病进行筛除，如，结核病的子分类下甲状腺结核、肾结核等不属于传染病。之后，为保证训练模型所用数据的类别平衡性和模型预测能力的可测试性，将每季度病例数量少于10例的传染病进行剔除，最终对共计7种传染病进行预测与验证研究。为使数据能够输入至多分类神经网络中进行训练，需利用自然语言处理技术实现的分词、实体识别方法对传染病文本病例数据进行特征提取，并通过独热编码（One-Hot Encoding)进行格式转化，最终获得病历质量较高，可以用于研究的20620例样本数据。其中训练数据占比80%，包含16496条样本，测试数据占比20%，包含4124条数据。MIDDM将744287维稀疏数据通过抽象层神经元个数为1024的Auto-Encoder压缩为1024维稠密向量。此外分类结构中的FeedForward神经元个数为256。本实验使用0.001学习率对模型训练了32个Epoch。所得结果如表3所示。

表3 针对传染病多分类诊断的训练与测试结果

由表3可知，MIDDM在针对7种传染病进行诊断的实验中取得了较优的预测结果。在疾病诊断特征干扰因素相近的情况下，样本数据较多的疾病分类预测准确率明显优于样本数据较少的疾病分类预测准确率，如病毒性肝炎、流行性感冒、手足口病的训练数据分别达到2954、3924、3015，对应的测试准确率分别取得了99.53%、95.42%、95.24%的测试准确率。而梅毒、感染性腹泻、麻疹，其使用的训练数据较少，分别为1208、575与190，对应测试准确率有所降低，分别为72.73%、60.47%与37.50%。而疾病诊断特征干扰因素的增加会直接影响预测准确率如肺结核样本量4630，预测准确率86.89%。对于肺结核分类结果，虽然样本量最多达到4630但结果并没有明显优于样本量2954的病毒性肝炎，主要原因是肺结核病历文本本身与其他很多疾病较为相似，比如肺癌、肺炎、慢性阻塞性肺疾病等，同时肺结核还涉及病原学阳性与阴性等多个分型，疾病在临床诊断中也明细复杂于病毒性肝炎、流行性感冒等疾病。但对于麻疹、百日咳等数据量极少的传染病，导致训练中无法充分学习到传染病的特性，训练集准确率较低；同时测试集准确率也较低，无法通过小量的测试集广泛验证模型结果。针对数据样本较少的疾病，有待提高数据量，进一步证明模型的有效性。

如图6所示，根据本发明实施例的第二方面，提供一种疑似传染病预测装置，所述装置包括：

第一获取模块61，用于从医疗数据库中获取所有患者的电子病历信息和检查报告信息；

第一训练模块62，用于利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练，以得到二分类预测模型；

第二训练模块63，用于利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练，以得到多分类预测模型；

第二获取模块64，用于获取目标患者的电子病历信息和检查报告信息；

第一预测模块65，用于使用所述二分类预测模型预测所述目标患者是否是疑似传染病；

第二预测模块66，用于当预测所述目标患者是疑似传染病时，使用所述多分类预测模型预测所述疑似传染病的具体类型。

在一个实施例中，优选地，所述第一训练模块包括：

在一个实施例中，优选地，所述第二训练模块包括：

在一个实施例中，优选地，还包括：

转化模块，用于对所述电子病历文本数据进行序列标注和分词处理，并使用BiLSTM- CRF网络结构从中提取实体特征信息以及实体之间的关系，并通过独热编码对所述实体特征信息进行格式转化，以利用转化格式后的所述实体特征信息进行模型训练。根据本发明实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现第一方面中任一项方法的步骤。

进一步可以理解的是，本发明中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，本发明实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种疑似传染病预测方法，其特征在于，所述方法包括：

获取目标患者的电子病历信息和检查报告信息；

当预测所述目标患者是疑似传染病时，使用所述多分类预测模型预测所述疑似传染病的具体类型；

利用每个患者的电子病历信息和检查报告信息以及第一多输入稠密化诊断模型进行训练，以得到二分类预测模型，包括：

将所述输入向量输入自注意力层，以得到第一输出结果；

将所述第二处理结果输入sigmoid函数，以输出是否是疑似传染病的概率；

利用每个患者的电子病历信息和检查报告信息以及第二多输入稠密化诊断模型进行训练，以得到多分类预测模型，包括：

将所述输入向量输入自注意力层，以得到第一输出结果；

将所述第二处理结果输入归一化指数函数，以输出疑似传染病的具体类型的预测值；

所述自编码器在优化过程中把所述诊疗向量和检查报告向量同时作为分类预测模型的输入和输出，通过最小化重构误差希望学习得到对应的抽象特征表示Z矩阵，其中，对于不同类型的文书，构建的自编码器不同。

2.根据权利要求1所述的方法，其特征在于，在利用每个患者的电子病历信息和检查报告信息进行模型训练之前，还包括：

从所述每个患者的电子病历信息中获取电子病历文本数据；

3.一种疑似传染病预测装置，其特征在于，所述装置包括：

第二预测模块，用于当预测所述目标患者是疑似传染病时，使用所述多分类预测模型预测所述疑似传染病的具体类型；

所述第一训练模块包括：

第七处理单元，将所述第二处理结果输入sigmoid函数，以输出是否是疑似传染病的概率；

所述第二训练模块包括：

第七处理单元，用于将所述第二处理结果输入归一化指数函数，以输出疑似传染病的具体类型的预测值；

4.根据权利要求3所述的装置，其特征在于，还包括：

转化模块，用于对所述电子病历文本数据进行序列标注和分词处理，并使用BiLSTM-CRF网络结构从中提取实体特征信息以及实体之间的关系，并通过独热编码对所述实体特征信息进行格式转化，以利用转化格式后的所述实体特征信息进行模型训练。