CN112836485B

CN112836485B - 一种基于神经机器翻译的相似病历预测方法

Info

Publication number: CN112836485B
Application number: CN202110096212.4A
Authority: CN
Inventors: 李宇栋; 任江涛
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2023-09-19
Anticipated expiration: 2041-01-25
Also published as: CN112836485A

Abstract

本发明涉及一种基于神经机器翻译的相似病历预测方法，包括以下步骤：S1：将电子病历中的相关文本信息作为编码网络的输入；S2：初始化编码网络中的参数，并将电子病历中的相关文本信息向量化；S3：用编码网络中的每一步的输出向量求平均值，作为解码器中的初始细胞状态；S4：将编码网络得到的每一步的输出向量输入attention中，然后将解码器每一步的输出输入attention中，得到attention的输出，作为解码器的隐含层向量；S5：最后通过解码器的隐含层向量解码得到输出相似病历的编号；用编码网络和初始化的参数，可以学习到电子病历文本信息的特征向量表示，将编码器的输出传输到attention层，并求平均值后初始化解码器，可以准确地预测到相似的病历。

Description

一种基于神经机器翻译的相似病历预测方法

技术领域

本发明涉及深度学习领域，更具体地，涉及一种基于神经机器翻译的相似病历预测方法。

背景技术

电子病历是用于信息化病人诊断过程中的相关信息和流程，可以为医生等医疗健康从业人员在对相关疾病的诊断时提供参考。

而相似的电子病历，对于医生的诊断有很大的辅助作用。由于电子病历文本的不标准和病人疾病的症状的不同，相同的疾病在电子病历上面的文本信息可能会差距较大，因而电子病历文本的不标准特性普遍存在。而不同的疾病由于可能会有相似甚至相同的症状，这都增加了相似病历的预测和检索难度。因而基于传统的聚类、文本检索等方法得到的相似病历，其病历之间的相似度一般不高，结果的准确性较差。且传统的相似性病历检索和预测方法缺乏对于大量数据进行有效分析和处理的手段；由上可知，现有的相似性病历的预测和检索尚存在准确率不高的缺陷。

现有的技术中，中国发明专利CN103678285A公开了“机器翻译方法和机器翻译系统”，公开日为2014年03月26日，公开机器翻译方法和机器翻译系统，所述机器翻译方法包括：利用多个机器翻译设备，分别将源语言的原文翻译为目标语言，以得到多个候选译文；利用语言模型，针对多个候选译文分别计算语言模型得分；分别获得多个机器翻译设备给出的关于多个候选译文的设备得分；基于原文的长度和候选译文的长度，针对多个候选译文分别计算长度得分；基于语言模型得分、设备得分、长度得分的至少一个，分别计算多个候选译文的总得分；以及选择总得分最高的候选译文作为机器翻译的结果。该方案中，所述机器翻译系统建立的语言模型，进行得分汇总，与本申请的具体方案不一样，本申请通过编码器和解码器进行处理和输出。

发明内容

本发明为解决现有的相似性病历的预测和检索尚存在准确率不高的技术缺陷，提供了一种基于神经机器翻译的相似病历预测方法。

为实现以上发明目的，采用的技术方案是：

一种基于神经机器翻译的相似病历预测方法，包括以下步骤：

S1：将电子病历中的相关文本信息作为编码网络的输入；

S2：初始化编码网络中的参数，并将电子病历中的相关文本信息向量化；

S3：用编码网络中的每一步的输出向量求平均值，作为解码器中的初始细胞状态；

S4：将编码网络得到的每一步的输出向量输入attention中，然后将解码器每一步的输出输入attention中，得到attention的输出，作为解码器的隐含层向量；

S5：通过解码器的隐含层向量解码得到输出相似病历的编号。

上述方案中，用编码网络和初始化的参数，可以学习到电子病历文本信息的特征向量表示，将编码器的输出传输到attention层，并求平均值后初始化解码器，可以准确地预测到相似的病历。

在步骤S1中，相关文本信息为对应输入词的上下文信息以及位置信息。

在步骤S2中，所述编码网络包括第一嵌入层和12个Transformer子层，编码网络将输入病历中的文本信息的词语通过第一嵌入层映射为待编码向量，再将待编码向量通过12个Transformer子层进行特征提取，得到输入病历的文本信息的特征，作为解码器的输入和初始化向量。

编码网络采用嵌入层和Transformer子层中的编码器，每一个Transformer子层的输出向量输出给下一个Transformer子层，编码器的输出为最后一个Transformer子层的输出，最后一个Transformer子层的输出向量作为输入病历的特征表示，用于解码器中的LSTM层的输入和初始化。

Transformer子层包括多头注意力层、全连接层和残差连接层；输入向量被输入到多头注意力层中，经过计算后得到Transformer子层的输出向量，与在残差连接层输入向量相加，得到残差连接层的输出，再将残差连接层的输出传输给全连接层，得到全连接层的输出，再与上一残差连接层的输出相加，得到这一残差连接层的输出，作为Transformer子层的输出向量。

所述Transformer子层为双向Transformer子层。

在步骤S3中，初始隐藏层的初始细胞状态全为0。

在步骤S4中，解码器采用基于Attention机制的长短期记忆层来进行解码。

解码的每一步接收上一步的隐藏层状态和细胞状态，结合这一步的输入，产生新的细胞状态和隐藏层状态；且长短期记忆层在解码的每一步都计算对于编码器每一步输出的注意力向量，基于注意力向量和这一步的输出得到长短期记忆层解码器的每一步的最终输出，并作为新的隐藏层状态。

在步骤S5中，解码器的输出方式为：

a_t＝f(c_t,h_t)＝tanh(W_c[c_t；h_t])

h_t和分别是指解码器的隐藏层状态和编码器的每一步的输出向量；α_ts为解码器隐藏层状态对于编码器的每一步的输出向量的注意力权重；/>为对解码器隐藏层状态和编码器的每一步的输出向量打分的函数；c_t为对应于解码器隐藏层状态的上下文对齐向量；a_t为计算得到的注意力向量，即注意力层的输出；t表示解码器的解码步骤，即t时刻；s和s’都表示编码器的时刻的变量。

上述方案中，采用Transformer的编码器结构和预训练参数，可以较好地学习到电子病历文本信息的特征向量表示，因而用编码器的输出输出到attention层，并求平均值后初始化解码器，可以较准确地预测到相似的病历，取得了76.28％的准确率，以预测到的病历与输入病历的主诊断是否相同为衡量标准。

由于方法输出的是病历库中的相似病历的编号，一个输入病历经过训练数据训练参数后，对于一个新的输入的病历，可以直接输出其相似的病历，而不需要再经过其他的步骤，因而是一个端到端的相似病历预测方法。

与现有技术相比，本发明的有益效果是：

本发明提供的一种基于神经机器翻译的相似病历预测方法，用编码网络和初始化的参数，可以学习到电子病历文本信息的特征向量表示，将编码器的输出传输到attention层，并求平均值后初始化解码器，可以准确地预测到相似的病历。

附图说明

图1为本发明的方法流程图；

图2为本发明的编码网络的数据流向图；

图3为本发明的Transformer结构的数据流向图；

图4为本发明的解码器的数据流向图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1、图2、图3和图4所示，一种基于神经机器翻译的相似病历预测方法，包括以下步骤：

S1：将电子病历中的相关文本信息作为编码网络的输入；

所述Transformer子层为双向Transformer子层。

在步骤S3中，初始隐藏层的初始细胞状态全为0。

在步骤S5中，解码器的输出方式为：

a_t＝f(c_t,h_t)＝tanh(W_c[c_t；h_t])

实施例2

采用Transformer的编码器结构和预训练参数，可以较好地学习到电子病历文本信息的特征向量表示，因而用编码器的输出输出到attention层，并求平均值后初始化解码器，可以较准确地预测到相似的病历，取得了76.28％的准确率，以预测到的病历与输入病历的主诊断是否相同为衡量标准。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于神经机器翻译的相似病历预测方法，其特征在于，包括以下步骤：

步骤S1：将电子病历中的相关文本信息作为编码网络的输入；在步骤S1中，所述相关文本信息为对应输入词的上下文信息以及位置信息；

步骤S2：初始化编码网络中的参数，并将电子病历中的相关文本信息向量化；在步骤S2中，所述编码网络包括第一嵌入层和12个Transformer子层，编码网络将输入病历中的文本信息的词语通过第一嵌入层映射为待编码向量，再将待编码向量通过12个Transformer子层进行特征提取，得到输入病历的文本信息的特征，作为解码器的输入和初始化向量；

编码网络采用嵌入层和Transformer子层中的编码器，每一个Transformer子层的输出向量输出给下一个Transformer子层，编码器的输出为最后一个Transformer子层的输出，最后一个Transformer子层的输出向量作为输入病历的特征表示，用于解码器中的LSTM层的输入和初始化；

Transformer子层包括多头注意力层、全连接层和残差连接层；输入向量被输入到多头注意力层中，经过计算后得到Transformer子层的输出向量，再与残差连接层输入向量相加，得到残差连接层的输出，再将残差连接层的输出传输给全连接层，得到全连接层的输出，再与上一残差连接层的输出相加，得到这一残差连接层的输出，作为Transformer子层的输出向量；

步骤S3：用编码网络中的每一步的输出向量求平均值，作为解码器中的初始细胞状态；

步骤S4：将编码网络得到的每一步的输出向量输入attention中，然后将解码器每一步的输出输入attention中，得到attention的输出，作为解码器的隐含层向量；解码器采用基于Attention机制的长短期记忆层来进行解码；解码的每一步接收上一步的隐藏层状态和细胞状态，结合这一步的输入，产生新的细胞状态和隐藏层状态；且长短期记忆层在解码的每一步都计算对于编码器每一步输出的注意力向量，基于注意力向量和这一步的输出得到长短期记忆层解码器的每一步的最终输出，并作为新的隐藏层状态；

步骤S5：通过解码器的隐含层向量解码得到输出相似病历的编号；在步骤S5中，解码器的输出方式为：

a_t＝f(c_t,h_t)＝tanh(W_c[c_t；h_t])

2.根据权利要求1所述的一种基于神经机器翻译的相似病历预测方法，其特征在于，所述Transformer子层为双向Transformer子层。

3.根据权利要求2所述的一种基于神经机器翻译的相似病历预测方法，其特征在于，在步骤S3中，初始隐藏层的初始细胞状态全为0。