CN110472229A

CN110472229A - 序列标注模型训练方法、电子病历处理方法及相关装置

Info

Publication number: CN110472229A
Application number: CN201910625223.XA
Authority: CN
Inventors: 王李鹏
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-11-19
Anticipated expiration: 2039-07-11
Also published as: CN110472229B

Abstract

本发明实施例涉及自然语言处理技术领域，提供一种序列标注模型训练方法、电子病历处理方法及相关装置，所述方法包括：获得样本序列和样本序列的标准标签序列；将样本序列输入预先建立的序列标注模型，利用序列标注模型的初始特征网络获得样本序列的初始向量序列；将初始向量序列输入序列标注模型的特征提取网络，采用注意力机制得到特征序列；将特征序列输入序列标注模型的标签预测网络，得到样本序列的训练标签结果；基于训练标签结果和标准标签序列，对序列标注模型进行迭代修正，得到训练后的序列标注模型。本发明实施例引入注意力机制可以更好的学习序列中的长距离特征信息，从而有效提高序列标注的准确度。

Description

序列标注模型训练方法、电子病历处理方法及相关装置

技术领域

本发明实施例涉及自然语言处理技术领域，具体而言，涉及一种序列标注模型训练方法、电子病历处理方法及相关装置。

背景技术

自然语言处理是一门研究如何实现人与计算机之间用自然语言进行有效通信的科学。在自然语言处理中，序列标注模型是比较重要的一种模型，被广泛应用于文本处理等相关领域，例如，分词标注、词性标注、命名实体识别标注、依存句法分析标注、时间序列分析等。

传统的序列标注模型主要有隐马尔可夫模型(Hidden Markov Model，HMM)、条件随机场(Conditional random field，CRF)等，在序列标注时，传统模型需要人工寻找特征，导致序列标注的准确度不足。

发明内容

本发明实施例的目的在于提供一种序列标注模型训练方法、电子病历处理方法及相关装置，用以解决现有序列标注中准确度低的问题

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种序列标注模型训练方法，所述方法包括：获得样本序列和所述样本序列的标准标签序列；将所述样本序列输入预先建立的序列标注模型，利用所述序列标注模型的初始特征网络获得所述样本序列的初始向量序列，所述初始向量序列包括所述样本序列中每个元素的特征向量表示，所述特征向量表示包括词向量表示和/或字向量表示、以及位置向量表示；将所述初始向量序列输入所述序列标注模型的特征提取网络，采用注意力机制得到特征序列；将所述特征序列输入所述序列标注模型的标签预测网络，得到所述样本序列的训练标签结果；基于所述训练标签结果和所述标准标签序列，对所述序列标注模型进行迭代修正，得到训练后的序列标注模型。

第二方面，本发明实施例还提供了一种电子病历处理方法，所述方法包括：获取电子病历文本；对所述电子病历文本进行预处理，得到表征样本序列的多个待识别序列，所述待识别序列包括表征样本序列中每个元素的多个词；将每一所述待识别序列输入利用上述的序列标注模型训练方法训练后的序列标注模型，得到表征训练标签结果的所有预测实体修饰序列及每个预测实体修饰序列的总得分；将最大总得分对应的预测实体修饰序列作为每一所述待识别序列的实体修饰序列，所述实体修饰序列包括所述待识别序列中每个词的实体修饰信息；依据所有待识别序列的实体修饰序列，得到所述电子病历文本对应的辅助诊断结果。

第三方面，本发明实施例还提供了一种序列标注模型训练装置，所述装置包括样本获得模块、处理模块、特征提取模块、预测模块、修正模块及序列标注模块。其中，样本获得模块用于获得样本序列和所述样本序列的标准标签序列；处理模块用于将所述样本序列输入预先建立的序列标注模型，利用所述序列标注模型的初始特征网络获得所述样本序列的初始向量序列，所述初始向量序列包括所述样本序列中每个元素的特征向量表示，所述特征向量表示包括词向量表示和/或字向量表示、以及位置向量表示；特征提取模块用于将所述初始向量序列输入所述序列标注模型的特征提取网络，采用注意力机制得到特征序列；预测模块用于将所述特征序列输入所述序列标注模型的标签预测网络，得到所述样本序列的训练标签结果；修正模块用于基于所述训练标签结果和所述标准标签序列，对所述序列标注模型进行迭代修正，得到训练后的序列标注模型。

第四方面，本发明实施例还提供了一种电子病历处理装置，所述装置包括文本获取模块、预处理模块、第一执行模块、第二执行模块及结果获得模块。其中，文本获取模块用于获取电子病历文本；预处理模块用于对所述电子病历文本进行预处理，得到表征样本序列的多个待识别序列，所述待识别序列包括表征样本序列中每个元素的多个词；第一执行模块用于将每一所述待识别序列输入利用上述的序列标注模型训练方法训练后的序列标注模型，得到表征训练标签结果的所有预测实体修饰序列及每个预测实体修饰序列的总得分；第二执行模块用于将最大总得分对应的预测实体修饰序列作为每一所述待识别序列的实体修饰序列，所述实体修饰序列包括所述待识别序列中每个词的实体修饰信息；结果获得模块用于依据所有待识别序列的实体修饰序列，得到所述电子病历文本对应的辅助诊断结果。

第五方面，本发明实施例还提供了一种电子设备，所述电子设备包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器上述的序列标注模型训练方法或者电子病历处理方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的序列标注模型训练方法或者电子病历处理方法。

相对现有技术，本发明实施例提供的一种序列标注模型训练方法、电子病历处理方法及相关装置，在训练预先建立的序列标注模型时，通过初始特征网络得到样本序列的初始向量序列后，采用注意力机制对初始向量序列进行特征提取得到特征序列，引入注意力机制能够更好的学习到序列中的长距离特征信息，这样在利用训练得到的序列标注模型进行序列标注时，能够有效提高准确度。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的序列标注模型训练方法的流程图。

图2示出了本发明实施例提供的序列标注模型的结构示意图。

图3示出了本发明实施例提供的IDCNN的结构示意图。

图4示出了本发明实施例提供的电子病历处理方法的流程图。

图5示出了本发明实施例提供的序列标注模型训练装置的方框示意图。

图6示出了本发明实施例提供的电子病历处理装置的方框示意图。

图7示出了本发明实施例提供的电子设备的方框示意图。

图标：100-序列标注模型训练装置；101-样本获得模块；102-处理模块；103-特征提取模块；104-预测模块；105-修正模块；200-电子病历处理装置；201-文本获取模块；202-预处理模块；203-第一执行模块；204-第二执行模块；205-结果获得模块；20-电子设备；21-处理器；22-存储器；23-总线。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在自然语言处理中，序列标注模型有着广泛的应用，与一般分类问题不同的是，序列标注模型输出的是一个标签序列。传统技术中，通常采用HMM、CRF等模型来解决序列标注任务，在序列标注中需要人工寻找特征并添加重要的外部特征，这种传统方式引入了大量的人力，效率低且准确度低。

为了避免繁琐的人工特征抽取，端到端的深度学习算法逐渐被应用到序列标注任务中，例如，卷积神经网络(Convolutional Neural Networks，CNN)、空洞卷积神经网络(Dilated Convolutions Neural Network，DCNN)、迭代空洞卷积神经网络(IterationDilated Convolutions Neural Network，IDCNN)、循环神经网络(Recurrent NeuralNetworks，RNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、双向长短期记忆网络(Bi-directional Long Short-Term Memory，BiLSTM)、LSTM-CRF、BiLSTM-CRF、CNN-CRF、IDCNN-CRF等。

在这些深度学习算法中，CNN及改进的CNN(例如，DCNN、IDCNN等)的感受野有限，感受野指的是CNN及改进的CNN中每一层输出的特征图上的一个点在输入图片上映射的区域大小，例如，CNN包括2层卷积核为3*3的卷积层，CNN的输入图片大小为10×10、输出图片大小为6×6，第1层卷积层输出的特征图为8×8，该特征图上一个点在输入图片上映射的区域大小为3×3，则第1层卷积层的感受野为3；第2层卷积层输出的特征图为6×6，该特征图上一个点在输入图片上映射的区域大小为5×5，则第2层卷积层的感受野为5。当序列长度较长时，CNN及改进的CNN不能很好的学习到序列的长距离特征信息，对于长距离依赖的序列，序列标注的准确度不足。RNN及改进的RNN(例如，LSTM、BiLSTM等)能够处理可变长度的输入向量，并在处理过程中能够有长时期的记忆，被广泛用于序列标注任务，但是，RNN会出现梯度消失问题，无法正常的进行模型训练；同时，RNN及改进的RNN(例如，LSTM、BiLSTM等)很难并行计算，在训练和测试阶段比较耗时。

为了解决上述问题，本发明实施例构建序列标注模型，该序列标注模型基于CNN及改进的CNN(例如，DCNN、IDCNN等)增加注意力层，CNN及改进的CNN(例如，DCNN、IDCNN等)在并行计算上具有天生的优势，可以有效缩短训练和测试阶段的时长，同时CNN及改进的CNN(例如，DCNN、IDCNN等)能够学习到序列中的长距离特征信息，而增加的注意力层可以更好的学习序列中的长距离特征信息，从而提高序列标注任务的效率和准确度。

本发明实施例可以用于解决分词任务、词性标注(Part-of-Speech tagging，POS)、命名实体识别(Named Entity Recognition，NER)、实体修饰识别、实体关系抽取等序列标注任务，下面以分词任务为例进行详细说明。

请参照图1，图1示出了本发明实施例提供的序列标注模型训练方法的流程图。序列标注模型训练方法可以应用于电子设备20，该序列标注模型训练方法包括以下步骤：

步骤S101，获得样本序列和样本序列的标准标签序列。

在本实施例中，首先需要建立训练样本集，训练样本集包含多个训练样本，一个训练样本包括一个样本序列和该样本序列的标准标签序列，训练样本可以用(x_i,y_i)表示，x_i表示样本序列，x_i的长度可以为n，即，x_i＝(x_i1,x_i2,…,x_in)；y_i表示标准标签序列，y_i的类别个数为n-classes，y_i∈{y¹,y²,…,y^n_classes}。样本序列是待进行序列标注的线性输入序列，例如，“头CT检查显示腔隙性脑梗塞”；标准标签序列是针对具体的序列标注任务，人工为样本序列中的每个元素打上标签集合中的某个标签，标签集合可以表示为Y＝{y¹,y²,…,yⁿ ^_classes}。以分词任务为例，定义标签集合为：

LabelSet＝{B,M,E,S}，其中，B代表词汇的开始字符，M代表词汇的中间字符，E代表词汇的结束字符，S代表单字词；

则样本序列“头CT检查显示腔隙性脑梗塞”的标准标签序列为“头/S C/B T/E检/B查/E显/B示/E腔/B隙/M性/M脑/M梗/M塞/E”。

作为一种实施方式，样本序列可以是通过网络下载的文章、教材等文本数据，也可以是在线获取的用户实时发送的文本数据，还可以是接入各个电子化的系统获取到的文本数据，例如，接入电子医疗系统获取到的电子病历文本等。具体地，电子设备20可提供输入界面，以获取用户通过输入界面输入的需要进行序列标注的文本数据作为样本序列；也可提供显示界面，以通过显示界面显示文本，并获取用户在显示界面中选中的文本数据作为样本序列。另外，电子设备20可以与智能手机、平板电脑等其他终端设备通信连接，电子设备20也可以接收其他终端设备发送的需要进行序列标注的文本数据作为样本序列。

在本实施例中，在获取到训练样本后，开始对预先建立的序列标注模型进行训练，请参照图2，序列标注模型包括初始特征网络、特征提取网络及标签预测网络。初始特征网络用于获得样本序列中每个元素的特征向量表示，特征提取网络用于对初始特征网络得到的特征向量表示进行特征提取，标签预测网络用于预测出样本序列的标签序列，下面通过步骤S102～S104进行详细介绍。

步骤S102，将样本序列输入预先建立的序列标注模型，利用序列标注模型的初始特征网络获得样本序列的初始向量序列，初始向量序列包括样本序列中每个元素的特征向量表示，特征向量表示包括词向量表示和/或字向量表示、以及位置向量表示。

在本实施例中，初始向量序列包括样本序列中每个元素的特征向量表示，此处的元素可以是样本序列中的每个字或者词，故特征向量表示可以包括词向量表示和/或字向量表示、以及位置向量表示，初始向量序列可以表示为e₁、e₂、…、e_n，其中，e_t∈R^n_dim，t＝1,2,…,n，n_dim表示每个元素的特征向量表示的长度。

在自然语言处理中，得到序列中每个元素的特征向量表示的方法，一般有字嵌入、词嵌入、字嵌入和词嵌入的结合等。针对不同的序列标注任务，可以选择不同的嵌入方法，例如，在分词任务中，由于目标是对序列进行分词，故不能采用词嵌入；在实体识别任务中，可以采用字嵌入、词嵌入、字嵌入和词嵌入的结合等。另外，由于本实施例中的序列标注模型采用CNN及改进的CNN(例如，DCNN、IDCNN等)，而CNN及改进的CNN(例如，DCNN、IDCNN等)不容易记住序列的位置，故为序列中的每个元素添加位置嵌入，并将每个元素的字嵌入和/或词嵌入、位置嵌入合并为特征向量表示。

也就是说，将样本序列输入序列标注模型的初始特征网络之后，初始特征网络可以获得样本序列的初始向量序列，具体过程包括：

首先，获得样本序列中每个元素的词向量表示和/或字向量表示。初始特征网络可以对样本序列进行分词处理，得到组成样本序列的各个元素，再将各个元素向量化，得到各个元素的向量表示。具体地，可以先采用预设的分词方式对样本序列进行分词处理，得到多个单独的字和/或词，这些字和/或词按照各自在样本序列中出现的先后顺序排列，例如，样本序列为“头CT检查显示腔隙性脑梗塞”，将其分词得到“头/C/T/检/查/显/示/腔/隙/性/脑/梗/塞/”；然后，根据每个字和/或词的内容，将每个字和/或词向量化，得到每个元素的字向量表示和/或词向量表示，例如，“头”的字向量表示为[0 0 1 0 ...]，“C”的字向量表示为[0 1 0 0 ...]。在对各个元素向量化时，可以采用随机初始化的方法将每个字和/或词向量化，也可以利用机器学习模型将每个字和/或词向量化，机器学习模型可以是Word2Vec、GloVe等。

然后，依据样本序列中每个元素的位置，获得每个元素的位置向量表示。由于样本序列中每个元素的位置是确定的，而CNN及改进的CNN(例如，DCNN、IDCNN等)不容易记住序列的位置，则为样本序列中的每个元素添加位置嵌入。具体地，可以先获取每个元素在样本序列中的位置，位置可以用0～9的数字进行表示，例如，样本序列“头CT检查显示腔隙性脑梗塞”中，每个元素的位置为“头/0 C/1 T/2检/3查/4显/5示/6腔/7隙/8性/9脑/0梗/1塞/2”；然后，将每个元素的位置向量化，就能得到每个元素的位置向量表示，例如，“头”的位置向量表示为[0 0 0 0 ...]，“C”的位置向量表示为[0 0 0 1 ...]。

最后，将每个元素的词向量表示和/或字向量表示与位置向量表示进行合并，得到每个元素的特征向量表示。得到样本序列中每个元素的词向量表示和/或字向量表示、位置向量表示后，将词向量表示和/或字向量表示、位置向量表示合并成一个向量，即可得到每个元素的特征向量表示，这里的合并可以是将词向量表示和/或字向量表示与位置向量表示进行拼接，假设词向量表示和/或字向量表示的维度为n_dim1、位置向量表示的维度为n_dim2，则特征向量表示的维度n_dim＝n_dim1+n_dim2。例如，“头”的特征向量表示为[0 0 10 ... 0 0 0 0 ...]，“C”的特征向量表示为[0 1 0 0 ...0 0 0 1 ...]。

步骤S103，将初始向量序列输入序列标注模型的特征提取网络，采用注意力机制得到特征序列。

在本实施例中，利用初始特征网络获得样本序列的初始向量序列之后，将初始向量序列输入特征提取网络，利用特征提取网络对初始向量序列进行特征提取，此时，特征提取网络可以包括CNN及改进的CNN(例如，DCNN、IDCNN等)学习序列中的长距离特征信息，同时，为了能够更好的学习到序列中的长距离特征信息，特征提取网络还可以引入注意力机制。

作为一种实施方式，特征提取网络可以包括第一卷积网络层和注意力层，第一卷积网络层可以包括CNN及改进的CNN，改进的CNN可以包括，但不限于DCNN、IDCNN、DepthwiseConvolution(深度卷积)、PointwiseConvolution(逐点卷积)、Group Convolution(分组卷积)等。

作为另一种实施方式，特征提取网络还可以包括第一卷积网络层、注意力层和第二卷积网络层，第一卷积网络层和第二卷积网络层均可以包括CNN及改进的CNN，改进的CNN可以包括，但不限于DCNN、IDCNN、Depthwise Convolution(深度卷积)、PointwiseConvolution(逐点卷积)、Group Convolution(分组卷积)等，下述实施例以第一卷积网络层和第二卷积网络层均包括IDCNN为例进行描述。

下面先对IDCNN进行介绍，IDCNN包括k个堆叠的DCNN，k的大小可以由用户自行设定，同时，IDCNN中每个DCNN的感受野大小λ和膨胀步长width也可以由用户自行设定，感受野大小λ表示DCNN的输出神经元只与其临近的λ个输入神经元有关，DCNN的输入神经元与输出神经元通过膨胀步长width相互连接。

请参照图3，本实施例提供的IDCNN共迭代了3层DCNN，其中，第1层DCNN(图3中的隐藏层1)的λ＝3，width＝1；第2层DCNN(图3中的隐藏层2)的λ＝5，width＝2；第3层DCNN(图3中的输出层)的λ＝9，width＝4，记作层数k＝3、感受野大小λ＝[3,5,9]、膨胀步长width＝[1,2,4]，IDCNN具体的计算过程为：

假设输入层序列向量为i＝(i₁,i₂,…,i_n)，隐藏层1序列向量为隐藏层2序列向量为输出层序列向量为o＝(o₁,o₂,…,o_n)，即可得到3层DCNN的输出依次为：

对式(1)～(3)进行简化，得到IDCNN的输出为：

o_t＝IDCNN(input＝(i₁,i₂,…,i_n),k＝3,λ＝[3,5,9],width＝[1,2,4],W＝[W₁,W₂,W₃]) (4)

其中，t＝1,2,…,n，(i₁,i₂,…,i_n)为IDCNN的输入，W₁,W₂,W₃分别为第1层、第2层、第3层DCNN的参数。

此时，将初始向量序列输入特征提取网络，采用注意力机制得到特征序列的过程，可以包括：

第一步，通过第一卷积网络层对初始向量序列进行卷积处理，得到样本序列中每个元素的卷积特征。

在本实施例中，当第一卷积网络层包括IDCNN时，假设IDCNN的层数k＝3、感受野大小λ＝[3,5,9]、膨胀步长width＝[1,2,4]，第一卷积网络层的输出序列向量为向量长度为h，则将初始向量序列e₁、e₂、…、e_n输入第一卷积网络层进行卷积处理后，输出样本序列中每个元素的卷积特征为：

其中，t＝1,2,…,n，W＝[W₁ ¹,W₂ ¹,W₃ ¹]为第一卷积网络层的参数。

第二步，将每个元素的卷积特征输入注意力层进行处理，得到每个元素的基于注意力的语义信息。

在本实施例中，语义信息是反映对应元素的语义的向量，这里的语义是对应元素在样本序列中表达的语义，也就是说，每个元素的语义信息是该元素在样本序列的语境中结合上下文信息反映的语义。例如，“我今天买了一斤苹果”和“我的苹果手机坏了”这两个序列中均包含“苹果”这一元素，但是这两个“苹果”有着不同的语义，第一个的语义是水果，第二个的语义是手机品牌。

对于长距离依赖的序列，同一元素可能会出现多次，如上述举例中的“苹果”，每次出现时的上下文信息可能不同，上下文信息充足的元素会被正确标注，上下文信息不足的元素则可能会被误标注，如果能将同一元素每次出现时的上下文联合起来考虑，就能使上下文信息不足的元素通过上下文信息充足的元素获得正确的标注，从而提高序列标注的准确度。

为解决上述问题，本实施例在特征提取网络中设置注意力层，注意力层能够学习到序列中每个元素的基于注意力的语义信息，也就是序列中每个元素与其他元素的依赖关系。注意力层可以采用自注意力机制对第一卷积网络层输出的每个元素的卷积特征进行学习，得到每个元素的基于注意力的语义信息v₁、v₂、…、v_n。

作为一种实施方式，将每个元素的卷积特征输入注意力层进行处理，得到每个元素的基于注意力的语义信息的过程，可以包括：

首先，将每个元素的卷积特征输入注意力层，得到当前元素与每个元素的注意力权重，即，

其中，W_a为注意力层的参数且W_a∈R^h×h，v_t∈R^h，t＝1,2,…,n，k＝1,2,…,n；α_tk为样本序列中当前元素t与每个元素k的注意力权重，为当前元素t的卷积特征，为每个元素k的卷积特征，例如，当前元素为样本序列中的第1个元素，则得到该第1个元素与每个元素的注意力权重依次为α₁₁、α₁₂、…、α_1n；当前元素为样本序列中的第2个元素，则得到该第2个元素与每个元素的注意力权重依次为α₂₁、α₂₂、…、α_2n等。

然后，将当前元素与每个元素的注意力权重与每个元素的卷积特征进行加权，得到当前元素的基于注意力的语义信息，即，

其中，v_t为当前元素的基于注意力的语义信息，为每个元素k的卷积特征。

作为另一种实施方式，将每个元素的卷积特征输入注意力层进行处理，得到每个元素的基于注意力的语义信息的过程，还可以包括：

首先，将每个元素的卷积特征输入注意力层，得到当前元素与每个元素的归一化相似度。具体的，先将当前元素w_i与初始向量序列中的每个元素w_j计算一个得分score(w_i,w_j)，再将该得分通过softmax回归计算出归一化相似度，即

其中，n表示初始向量序列的长度，q为1到n的整数；a_i,j表示当前元素与每个元素的归一化相似度，score(w_i,w_j)可以通过下式进行计算：

其中，为与的欧几里得距离，u_i为计算score(w_i,w_j)的随机初始化的参数，随模型训练进行更新。

然后，将当前元素与每个元素的归一化相似度与每个元素的卷积特征进行加权，得到当前元素的基于注意力的语义信息，即

其中，j为1到n的整数，h_j为元素w_j的卷积特征。

第三步，将每个元素的基于注意力的语义信息输入第二卷积网络层进行卷积处理，得到特征序列。

在本实施例中，当第二卷积网络层包括IDCNN时，假设IDCNN的层数k＝3、感受野大小λ＝[3,5,9]、膨胀步长width＝[1,2,4]，第二卷积网络层的输出序列向量为向量长度为h，则将注意力层输出的每个元素的基于注意力的语义信息v₁、v₂、…、v_n输入第二卷积网络层进行卷积处理后，输出特征序列为：

其中，t＝1,2,…,n，W＝[W₁ ²,W₂ ²,W₃ ²]为第二卷积网络层的参数。

步骤S104，将特征序列输入序列标注模型的标签预测网络，得到样本序列的训练标签结果。

在本实施例中，利用特征提取网络得到初始向量序列的特征序列之后，将特征序列输入标签预测网络，利用标签预测网络对特征序列中的每个向量进行标签预测，标签预测网络可以包括前馈神经网络层(feed-forward)，或者包括前馈神经网络层+CRF层。

作为一种实施方式，标签预测网络可以包括前馈神经网络层和CRF层，标签预测网络输出的训练标签结果包括所有预测标签序列及每个预测标签序列的总得分，此时，将特征序列输入标签预测网络，得到样本序列的训练标签结果的过程，可以包括：

第一步，通过前馈神经网络层对特征序列进行学习，得到样本序列的所有预测标签序列及每个预测标签序列的初始得分，初始得分包括样本序列中每个元素被预测为一个预设标签的概率之和，预测标签序列包括样本序列中的每个元素的预测标签。以分词任务为例，预测标签序列包括每个元素的预测标签B/M/E/S，初始得分包括样本序列中的每个元素被预测为标签集合LabelSet＝{B,M,E,S}中一个预设标签的概率之和。

假设前馈神经网络层的输出向量序列为o₁、o₂、…、o_n，则

其中，W_t和b_t为需要学习的参数；o_t的向量长度为n-classes，即，序列标注任务对应的标签类别，记作o_tk表示样本序列x_i的第t个元素x_it被预测为预设标签y^k的概率。因此，对于样本序列x_i，预测标签序列可以用y_i＝(y_i1,y_i2,…,y_in)表示，同时，预测标签序列y_i＝(y_i1,y_i2,…,y_in)的初始得分为：

其中，式(13)中隐含的假设条件为：预测标签序列中任意两个预测标签y_il与y_ik是相互独立的，l＝1,2,…,n，k＝1,2,…,n，n≠k。

以分词任务为例，针对样本序列“头CT检查显示腔隙性脑梗塞”，前馈神经网络层得到的部分预测标签序列及其初始得分如下：

y₁＝{头/S C/B T/E检/B查/E显/B示/E腔/B隙/M性/M脑/M梗/M塞/E}，S₁＝5.6；

y₂＝{头/S C/S T/S检/B查/E显/B示/E腔/B隙/M性/M脑/M梗/M塞/E}，S₁＝4.9；

y₃＝{头/S C/S T/S检/B查/B显/B示/E腔/B隙/M性/M脑/M梗/M塞/E}，S₁＝4.2。

第二步，将每个预测标签序列的初始得分输入CRF层，通过CRF层引入概率转移矩阵，计算出每个预测标签序列的总得分，概率转移矩阵表征由一个预设标签转移到另一个预设标签的概率。以分词任务为例，概率转移矩阵可以用于表征当样本序列中前一个元素的预测标签为B、M、E、S时，当前元素的预测标签为B/M/E/S的概率，例如，当前一个元素的预测标签为B时，当前元素的预测标签不可能为B，即，由B转移到B的概率为0。

假设概率转移矩阵为A＝[A_ij]，A_ij表示由标签yⁱ转移到标签y^j的转移概率，即

A_ij＝p(y_it＝y^j|y_it-1＝yⁱ) (14)

对于样本序列x_i，预测标签序列y_i＝(y_i1,y_i2,…,y_in)的转移得分为：

其中，y₀和y_in+1分别代表样本序列的起始(start)和结束(end)，式(15)中隐含的假设条件为：当前元素的标签y_it只与其前一个元素的标签y_it-1有关，即p(y_it|y_i1,y_i2,…,y_it-1)＝p(y_it|y_it-1)。

以分词任务为例，针对样本序列“头CT检查显示腔隙性脑梗塞”，部分预测标签序列的转移得分为：

y₁＝{头/S C/B T/E检/B查/E显/B示/E腔/B隙/M性/M脑/M梗/M塞/E}，S₂＝3.6；

y₂＝{头/S C/S T/S检/B查/E显/B示/E腔/B隙/M性/M脑/M梗/M塞/E}，S₂＝3.3；

y₃＝{头/S C/S T/S检/B查/B显/B示/E腔/B隙/M性/M脑/M梗/M塞/E}，S₂＝2.3。

因此，对于样本序列x_i，其预测标签序列y_i＝(y_i1,y_i2,…,y_in)的总得分为：

以分词任务为例，针对样本序列“头CT检查显示腔隙性脑梗塞”，部分预测标签序列的总得分为：

y₁＝{头/S C/B T/E检/B查/E显/B示/E腔/B隙/M性/M脑/M梗/M塞/E}，S＝9.2；

y₂＝{头/S C/S T/S检/B查/E显/B示/E腔/B隙/M性/M脑/M梗/M塞/E}，S＝8.2；

y₃＝{头/S C/S T/S检/B查/B显/B示/E腔/B隙/M性/M脑/M梗/M塞/E}，S＝6.5。

步骤S105，基于训练标签结果和所述标准标签序列，对序列标注模型进行迭代修正，得到训练后的序列标注模型。

在本实施例中，将样本序列输入预先建立的序列标注模型得到训练标签结果后，依据训练标签结果和标准标签序列之间的误差调节序列标注模型的参数，可以采用反向传播算法实现参数更新，具体过程可以包括：

第一步，依据训练标签结果和标准标签序列，获取损失函数。

在本实施例中，对于给定的训练样本(x_i,y_i)i＝1,2,…,N，基于训练标签结果和标准标签序列，定义其损失函数为：

其中，y_i表示样本序列x_i的标准标签序列，S(x_i,y_i)表示标准标签序列y_i的总得分，以分词任务为例，对于样本序列“头CT检查显示腔隙性脑梗塞”，其标准标签序列为“头/SC/B T/E检/B查/E显/B示/E腔/B隙/M性/M脑/M梗/M塞/E”，假设总得分为14；表示样本序列x_i的所有预测标签序列，表示对每个预测标签序列的总得分进行求和。

第二步，计算损失函数的梯度，并依据损失函数的梯度更新序列标注模型的参数。

在本实施例中，由于损失函数是用于衡量序列标注模型得到的预测值与真实值的不一致程度的函数，损失函数越小，则表明序列标注模型的性能越好，因此，可以通过计算损失函数的梯度来优化损失函数，直至损失函数达到最小值。

作为一种实施方式，可以通过梯度下降法来计算损失函数的梯度，确定是否需要更新序列标注模型中第一卷积网络层的参数W＝[W₁ ¹,W₂ ¹,W₃ ¹]、注意力层的参数W_a、第二卷积网络层的参数W＝[W₁ ²,W₂ ²,W₃ ²]、前馈神经网络层的参数W_t和b_t、以及CRF层的概率转移矩阵A＝[A_ij]；若更新，再循环获取训练标签结果并计算损失函数，直到损失函数达到最小值。

第三步，判断损失函数是否满足预设收敛条件，若满足，则停止参数更新，得到训练后的序列标注模型。

在本实施例中，根据损失函数的梯度更新序列标注模型的参数之后，需要损失函数是否满足预设收敛条件，预设收敛条件是指损失函数达到最小值，具体地，预设收敛条件可以是根据经验设定的预设次数或者预设值。也就是，当序列标注模型的迭代次数达到预设次数、或者损失函数达到预设值时，停止序列标注模型的参数更新，得到训练后的序列标注模型。

完成序列标注模型的训练之后，可以利用训练后的序列标注模型进行序列标注任务，例如，进行分词、词性标注、命名实体识别、实体修饰识别、实体关系抽取等任务，序列标注任务可以应用在机器翻译、智能客服、医疗、农业等领域，下面以序列标注任务在电子病历领域的应用为例进行描述。

随着社会的发展，电子医疗系统得到了迅速普及，大量医疗相关的信息以电子病历(Electronic Medical Records，EMR)的形式存储下来。电子病历是指医务人员在医疗活动过程中，使用医疗机构的信息系统生成的面向患者个体的数字化医疗记录，包含了关于病人个体健康信息的全面、详实、专业、即时、准确的描述。电子病历通常由结构化数据和非结构化数据组成，结构化数据包括医院名称、就诊时间、科室、医生姓名等能够自动生成的数据；非结构化数据主要是医务人员以自由文本形式记载的病理信息，可以包括主诉、现病史、病程记录、病历小结等。

采用序列标注模型对电子病历进行分析和挖掘，可以从中获得大量的医疗知识，且这些知识可应用于临床决策支持和个性化医疗健康信息服务等方面，例如，某患者的电子病历中记录着“头CT检查显示腔隙性脑梗塞”，对该电子病历进行命名实体识别，可以得到实体“头CT”和“腔隙性脑梗塞”，二者的实体类别分别为检查手段和疾病；对该电子病历进行进行关系抽取，可以得到“头CT”和“腔隙性脑梗塞”的关系为：“头CT”这种检查手段证实了“腔隙性脑梗塞”这种疾病的发生；对该电子病历进行实体修饰识别，可以得到“腔隙性脑梗塞”这一疾病的发生是确定的等。

下面以利用序列标注模型进行电子病历实体修饰识别为例进行描述。请参照图4，图4示出了本发明实施例提供的电子病历处理方法的流程图。电子病历处理方法可以应用于电子设备20，该电子病历处理方法包括以下步骤：

步骤S201，获取电子病历文本。

在电子病历文本中，医生在描述患者的疾病和症状时，通常都表达出不同的确定程度，比如肯定发生的、肯定不发生的(否认的)、可能发生的等，例如，从电子病历中记录的“头CT检查显示腔隙性脑梗塞”中可以知道，“腔隙性脑梗塞”这一疾病是“肯定发生的”，“肯定发生的”是表达“腔隙性脑梗塞”这个实体的实体修饰信息。从电子病历文本中提取出每个实体的实体修饰信息的过程，就是电子病历实体修饰识别。

步骤S202，对电子病历文本进行预处理，得到表征样本序列的多个待识别序列，待识别序列包括表征样本序列中每个元素的多个词。

在本实施例中，获取到电子病历文本后，需要对电子病历文本进行预处理，预处理包括分句处理和分词处理，也就是说，对于一份电子病历文本，首先进行分句处理，可以以标点符号为基准进行分句，例如，出现句号或分号则进行分句；然后，对每个句子进行分词处理，分词处理需要保证句子中的每个实体不被分开，这样就能得到多个待识别序列，待识别序列包括多个词，该多个词包括实体的词和非实体的词。

例如，假设电子病历文本为“未见明显肠型和蠕动波；双肺未闻及干湿性啰音，未闻及胸膜摩擦音。”，则分句处理为“未见明显肠型和蠕动波；”和“双肺未闻及干湿性啰音，未闻及胸膜摩擦音。”；再进行分词处理，就能得到2个待识别序列“未见/明显肠型/和/蠕动波/；”和“双肺/未闻/及/干湿性啰音/，/未闻/及/胸膜摩擦音/。”，其中，“明显肠型”、“蠕动波”、“干湿性啰音”和“胸膜摩擦音”为实体的词，其余均为非实体的词。

另外，在实体修饰识别任务中，需要给定实体的实体类别，对于电子病历文本，实体类别可以是疾病(disease)、症状(symptom)、治疗(treatment)或者非实体类别(o)，例如，上例中“干湿性啰音”的实体类别为“symptom”；实体修饰信息可以是否认的(absent)、非患者本人的(family)、当前的(present)、有条件的(conditional)、可能的(possible)、待证实的(hypothetical)、偶有的(occasional)、既往的(history)、或者无修饰类别(O)，其中无修饰类别(O)表示没有修饰信息的词，如用于表示非实体的词。

因此，将电子病理文本处理为多个待识别序列之后，还需要给定待识别序列的实体类别信息，实体类别信息包括待识别序列中每个词的实体类别，例如，对于“双肺/未闻/及/干湿性啰音/，/未闻/及/胸膜摩擦音/。”，其实体类别信息为“o/o/o/symptom/o/o/o/symptom/o”。

步骤S203，将每一待识别序列输入利用上述的序列标注模型训练方法训练后的序列标注模型，得到表征训练标签结果的所有预测实体修饰序列及每个预测实体修饰序列的总得分。

在本实施例中，待识别序列可以表示为x_new，例如，x_new＝“双肺/未闻/及/干湿性啰音/，/未闻/及/胸膜摩擦音/。”，每一待识别序列均相当于序列标注模型训练方法中的样本序列，将电子病历文本处理为多个待识别序列后，可以利用训练后的序列标注模型，输出每一待识别序列的表征训练标签结果的所有预测实体修饰序列及每个预测实体修饰序列的总得分。

将每一待识别序列x_new输入训练后的序列标注模型后，具体的处理过程可以包括：

首先，利用序列标注模型的初始特征网络获得待识别序列x_new的初始向量序列，初始向量序列包括待识别序列x_new中每个词的特征向量表示，特征向量表示包括词向量表示、位置向量表示及实体类别表示，假设词向量表示的维度为n_dim1、位置向量表示的维度为n_dim2、实体类别表示的维度为n_dim3，则特征向量表示的维度n_dim＝n_dim1+n_dim2+n_dim3。可选地，疾病(disease)、症状(symptom)、治疗(treatment)、非实体类别(o)这4种实体类别的实体类别表示可以预先设置为(1,0,0,0)、(0,1,0,0)、(0,0,1,0)、(0,0,0,1)。

然后，将待识别序列x_new的初始向量序列输入序列标注模型的特征提取网络，采用注意力机制得到特征序列；

接下来，通过前馈神经网络层的输出向量序列o_{new_1}、o_{new_2}、…，确定出待识别序列x_new的所有预测实体修饰序列y_{new_i}及每个预测实体修饰序列y_{new_i}的初始得分S₁；再根据CRF层已经学习到的概率转移矩阵A＝[A_ij]，计算出每个预测实体修饰序列y_{new_i}的总得分S。

例如，x_new＝“双肺/未闻/及/干湿性啰音/，/未闻/及/胸膜摩擦音/。”，得到的部分预测实体修饰序列y_{new_i}及其总得分如下：

y_{new_1}＝{双肺/O未闻/O及/O干湿性啰音/absent，/O未闻/O及/O胸膜摩擦音/absent。/O}，S＝9；

y_{new_2}＝{双肺/O未闻/O及/O干湿性啰音/possible，/O未闻/O及/O胸膜摩擦音/absent。/O}，S＝7；

y_{new_3}＝{双肺/O未闻/O及/O干湿性啰音/possible，/O未闻/O及/O胸膜摩擦音/possible。/O}，S＝5。

步骤S204，将最大总得分对应的预测实体修饰序列作为每一待识别序列的实体修饰序列，实体修饰序列包括待识别序列中每个词的实体修饰信息。

在本实施例中，利用CRF层输出每个预测实体修饰序列y_{new_i}的总得分S之后，从所有预测实体修饰序列y_{new_i}的总得分S中确定出最大总得分S_max，并将最大总得分S_max对应的预测实体修饰序列作为每一待识别序列的实体修饰序列。例如，x_new＝“双肺/未闻/及/干湿性啰音/，/未闻/及/胸膜摩擦音/。”，假设最大总得分S＝9，则对应的实体修饰序列为：{双肺/O未闻/O及/O干湿性啰音/absent，/O未闻/O及/O胸膜摩擦音/absent。/O}。

步骤S205，依据所有待识别序列的实体修饰序列，得到电子病历文本对应的辅助诊断结果。

在本实施例中，得到每一待识别序列的实体修饰序列之后，可以将每一待识别序列的实体修饰序列合并到一起得到电子病历文本对应的实体修饰文本，例如，电子病历文本为“未见明显肠型和蠕动波；双肺未闻及干湿性啰音，未闻及胸膜摩擦音。”，得到的实体修饰文本为“未见/O明显肠型/absent和/O蠕动波/absent；/O双肺/O未闻/O及/O干湿性啰音/absent，/O未闻/O及/O胸膜摩擦音/absent。/O”。

再对实体修饰文本进行处理，得到辅助诊断结果，辅助诊断结果可以是结构化数据且只包含电子病历文本中的所有实体及每个实体的修饰信息，例如，如下表1所示：

表1辅助诊断结果示例

明显肠型	absent
		蠕动波	absent
干湿性啰音	absent
		胸膜摩擦音	absent

辅助诊断结果还可以是依据实体修饰文本，对电子病历文本中的所有实体进行标识(例如，加粗、改变字体颜色等)，并标记出每个实体的修饰信息，例如，“未见明显肠型(absent)和蠕动波(absent)；双肺未闻及干湿性啰音(absent)，未闻及胸膜摩擦音(absent)。”。另外，在标记出每个实体的修饰信息时，可以采用符号、修饰信息的首字母等对修饰进行标记，例如，“未见明显肠型(×)和蠕动波(×)；双肺未闻及干湿性啰音(×)，未闻及胸膜摩擦音(×)。”、“未见明显肠型(a)和蠕动波(a)；双肺未闻及干湿性啰音(a)，未闻及胸膜摩擦音(a)。”等。

目前，医生在拿到患者的电子病历时，需要阅读电子病历来了解患者疾病和症状的确定程度，利用本实施例提供的电子病历处理方法，可以将电子病历中患者疾病和症状的确定程度以辅助诊断信息的形式展示给医生，医生通过辅助诊断信息就能快速了解到患者疾病和症状的确定程度，从而为医生提供辅助，减少医生的诊断时间。

与现有技术相比，本发明实施例具有以下有益效果：

首先，在初始特征网络中引入位置嵌入向量，即，为序列中的每个元素添加位置嵌入，并将每个元素的字嵌入和/或词嵌入、位置嵌入合并为特征向量表示，从而辅助CNN及改进的CNN(例如，DCNN、IDCNN等)记住序列的位置，提高序列标注的准确度；

其次，采用CNN及改进的CNN(例如，DCNN、IDCNN等)进行特征提取，CNN及改进的CNN(例如，DCNN、IDCNN等)在并行计算上具有天生的优势，可以有效缩短训练和测试阶段的时长，同时，CNN及改进的CNN(例如，DCNN、IDCNN等)能够学习到序列中的长距离特征信息；在此基础上引入注意力层，注意力层可以更好的学习序列中的上下文信息和长距离特征信息，从而提高了序列标注的效率和准确度；

最后，利用训练后的序列标注模型进行电子病历实体修饰识别，能够生成电子病历文本对应的辅助诊断结果，医生通过辅助诊断信息就能快速了解到患者疾病和症状的确定程度，从而为医生提供辅助，减少医生的诊断时间。请参照图5，图5示出了本发明实施例提供的序列标注模型训练装置100的方框示意图。序列标注模型训练装置100包括样本获得模块101、处理模块102、特征提取模块103、预测模块104及修正模块105。

样本获得模块101，用于获得样本序列和样本序列的标准标签序列。

处理模块102，用于将样本序列输入预先建立的序列标注模型，利用序列标注模型的初始特征网络获得样本序列的初始向量序列，初始向量序列包括样本序列中每个元素的特征向量表示，特征向量表示包括词向量表示和/或字向量表示、以及位置向量表示。

特征提取模块103，用于将初始向量序列输入序列标注模型的特征提取网络，采用注意力机制得到特征序列。

在本实施例中，特征提取网络包括第一卷积网络层、注意力层和第二卷积网络层；特征提取模块103具体用于：通过第一卷积网络层对初始向量序列进行卷积处理，得到样本序列中每个元素的卷积特征；将每个元素的卷积特征输入注意力层进行处理，得到每个元素的基于注意力的语义信息；将每个元素的基于注意力的语义信息输入第二卷积网络层进行卷积处理，得到特征序列。

在本实施例中，特征提取模块103执行将每个元素的卷积特征输入注意力层进行处理，得到每个元素的基于注意力的语义信息的方式，包括：将每个元素的卷积特征输入注意力层，得到当前元素与每个元素的注意力权重；将当前元素与每个元素的注意力权重与每个元素的卷积特征进行加权，得到当前元素的基于注意力的语义信息。

预测模块104，用于将特征序列输入序列标注模型的标签预测网络，得到样本序列的训练标签结果。

在本实施例中，标签预测网络包括前馈神经网络层和条件随机场CRF层，训练标签结果包括所有预测标签序列及每个预测标签序列的总得分；预测模块104，具体用于：通过前馈神经网络层对特征序列进行学习，得到样本序列的所有预测标签序列及每个预测标签序列的初始得分，其中，初始得分包括样本序列中每个元素被预测为一个预设标签的概率之和；将每个预测标签序列的初始得分输入CRF层，通过CRF层引入概率转移矩阵，计算出每个预测标签序列的总得分，其中，概率转移矩阵表征由一个预设标签转移到另一个预设标签的概率。

修正模块105，用于基于训练标签结果和所述标准标签序列，对序列标注模型进行迭代修正，得到训练后的序列标注模型。

在本实施例中，修正模块105具体用于：依据训练标签结果和标准标签序列，获取损失函数；计算损失函数的梯度，并依据损失函数的梯度更新序列标注模型的参数；判断损失函数是否满足预设收敛条件，若满足，则停止参数更新，得到训练后的序列标注模型。

请参照图6，图6示出了本发明实施例提供的电子病历处理装置200的方框示意图。电子病历处理装置200包括文本获取模块201、预处理模块202、第一执行模块203、第二执行模块204及结果获得模块205。

文本获取模块201，用于获取电子病历文本。

预处理模块202，用于对电子病历文本进行预处理，得到表征样本序列的多个待识别序列，待识别序列包括表征样本序列中每个元素的多个词。

第一执行模块203，用于将每一待识别序列输入利用上述的序列标注模型训练方法训练后的序列标注模型，得到表征训练标签结果的所有预测实体修饰序列及每个预测实体修饰序列的总得分。

第二执行模块204，用于将最大总得分对应的预测实体修饰序列作为每一待识别序列的实体修饰序列，实体修饰序列包括待识别序列中每个词的实体修饰信息。

结果获得模块205，用于依据所有待识别序列的实体修饰序列，得到电子病历文本对应的辅助诊断结果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的序列标注模型训练装置100和电子病历处理装置200的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

请参照图7，图7示出了本发明实施例提供的电子设备20的方框示意图。电子设备20包括处理器21、存储器22及总线23，处理器21和存储器22通过总线23连接。

存储器22用于存储程序，例如序列标注模型训练装置100、或者电子病历处理装置200、或者序列标注模型训练装置100和电子病历处理装置200，处理器21在接收到执行指令后，执行所述程序以实现发明上述实施例揭示的序列标注模型训练方法或者电子病历处理方法。

电子设备20可以是通用计算机或特殊用途的计算机，两者都可以用于实现本发明实施例的序列标注模型训练方法或者电子病历处理方法，也就是，序列标注模型训练方法和电子病历处理方法的执行主体可以是同一个计算机，可以是不同的计算机。本发明实施例尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

存储器22可能包括高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非易失存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器21可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器21中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器21可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器21执行时实现上述实施例揭示的序列标注模型训练方法或者电子病历处理方法。

综上所述，本发明实施例提供的一种序列标注模型训练方法、电子病历处理方法及相关装置，所述方法包括：获得样本序列和样本序列的标准标签序列；将样本序列输入预先建立的序列标注模型，利用序列标注模型的初始特征网络获得样本序列的初始向量序列，初始向量序列包括样本序列中每个元素的特征向量表示，特征向量表示包括词向量表示和/或字向量表示、以及位置向量表示；将初始向量序列输入序列标注模型的特征提取网络，采用注意力机制得到特征序列；将特征序列输入序列标注模型的标签预测网络，得到样本序列的训练标签结果；基于训练标签结果和标准标签序列，对序列标注模型进行迭代修正，得到训练后的序列标注模型。本发明实施例基于CNN及改进的CNN(例如，DCNN、IDCNN等)增加注意力层，CNN及改进的CNN(例如，DCNN、IDCNN等)在并行计算上具有天生的优势，可以有效缩短训练和测试阶段的时长，同时CNN及改进的CNN(例如，DCNN、IDCNN等)能够学习到序列中的长距离特征信息，而增加的注意力层可以更好的学习序列中的长距离特征信息，从而提高序列标注任务的效率和准确度。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种序列标注模型训练方法，其特征在于，所述方法包括：

获得样本序列和所述样本序列的标准标签序列；

将所述样本序列输入预先建立的序列标注模型，利用所述序列标注模型的初始特征网络获得所述样本序列的初始向量序列，所述初始向量序列包括所述样本序列中每个元素的特征向量表示，所述特征向量表示包括词向量表示和/或字向量表示、以及位置向量表示；

将所述初始向量序列输入所述序列标注模型的特征提取网络，采用注意力机制得到特征序列；

将所述特征序列输入所述序列标注模型的标签预测网络，得到所述样本序列的训练标签结果；

基于所述训练标签结果和所述标准标签序列，对所述序列标注模型进行迭代修正，得到训练后的序列标注模型。

2.如权利要求1所述的方法，其特征在于，所述特征提取网络包括第一卷积网络层、注意力层和第二卷积网络层；

所述将所述初始向量序列输入所述特征提取网络，采用注意力机制得到特征序列的步骤，包括：

通过所述第一卷积网络层对所述初始向量序列进行卷积处理，得到所述样本序列中每个元素的卷积特征；

将所述每个元素的卷积特征输入所述注意力层进行处理，得到所述每个元素的基于注意力的语义信息；

将所述每个元素的基于注意力的语义信息输入所述第二卷积网络层进行卷积处理，得到所述特征序列。

3.如权利要求2所述的方法，其特征在于，所述将所述每个元素的卷积特征输入所述注意力层进行处理，得到所述每个元素的基于注意力的语义信息的步骤，包括：

将所述每个元素的卷积特征输入所述注意力层，得到当前元素与所述每个元素的注意力权重；

将当前元素与所述每个元素的注意力权重与每个元素的卷积特征进行加权，得到当前元素的基于注意力的语义信息。

4.如权利要求1所述的方法，其特征在于，所述标签预测网络包括前馈神经网络层和条件随机场CRF层，所述训练标签结果包括所有预测标签序列及每个预测标签序列的总得分；

所述将所述特征序列输入所述标签预测网络，得到所述样本序列的训练标签结果的步骤，包括：

通过所述前馈神经网络层对所述特征序列进行学习，得到所述样本序列的所有预测标签序列及每个预测标签序列的初始得分，其中，所述初始得分包括所述样本序列中每个元素被预测为一个预设标签的概率之和；

将每个预测标签序列的初始得分输入CRF层，通过所述CRF层引入概率转移矩阵，计算出每个预测标签序列的总得分，其中，所述概率转移矩阵表征由一个预设标签转移到另一个预设标签的概率。

5.如权利要求1所述的方法，其特征在于，所述基于所述训练标签结果和所述标准标签序列，对所述序列标注模型进行迭代修正，得到训练后的序列标注模型的步骤，包括：

依据所述训练标签结果和所述标准标签序列，获取损失函数；

计算所述损失函数的梯度，并依据所述损失函数的梯度更新所述序列标注模型的参数；

判断所述损失函数是否满足预设收敛条件，若满足，则停止参数更新，得到训练后的序列标注模型。

6.一种电子病历处理方法，其特征在于，所述方法包括：

获取电子病历文本；

对所述电子病历文本进行预处理，得到表征样本序列的多个待识别序列，所述待识别序列包括表征样本序列中每个元素的多个词；

将每一所述待识别序列输入利用权利要求1-5任一项所述的方法训练后的序列标注模型，得到表征训练标签结果的所有预测实体修饰序列及每个预测实体修饰序列的总得分；

将最大总得分对应的预测实体修饰序列作为每一所述待识别序列的实体修饰序列，所述实体修饰序列包括所述待识别序列中每个词的实体修饰信息；

依据所有待识别序列的实体修饰序列，得到所述电子病历文本对应的辅助诊断结果。

7.一种序列标注模型训练装置，其特征在于，所述装置包括：

样本获得模块，用于获得样本序列和所述样本序列的标准标签序列；

处理模块，用于将所述样本序列输入预先建立的序列标注模型，利用所述序列标注模型的初始特征网络获得所述样本序列的初始向量序列，所述初始向量序列包括所述样本序列中每个元素的特征向量表示，所述特征向量表示包括词向量表示和/或字向量表示、以及位置向量表示；

特征提取模块，用于将所述初始向量序列输入所述序列标注模型的特征提取网络，采用注意力机制得到特征序列；

预测模块，用于将所述特征序列输入所述序列标注模型的标签预测网络，得到所述样本序列的训练标签结果；

修正模块，用于基于所述训练标签结果和所述标准标签序列，对所述序列标注模型进行迭代修正，得到训练后的序列标注模型。

8.一种电子病历处理装置，其特征在于，所述装置包括：

文本获取模块，用于获取电子病历文本；

预处理模块，用于对所述电子病历文本进行预处理，得到表征样本序列的多个待识别序列，所述待识别序列包括表征样本序列中每个元素的多个词；

第一执行模块，用于将每一所述待识别序列输入利用权利要求1-5任一项所述的方法训练后的序列标注模型，得到表征训练标签结果的所有预测实体修饰序列及每个预测实体修饰序列的总得分；

第二执行模块，用于将最大总得分对应的预测实体修饰序列作为每一所述待识别序列的实体修饰序列，所述实体修饰序列包括所述待识别序列中每个词的实体修饰信息；

结果获得模块，用于依据所有待识别序列的实体修饰序列，得到所述电子病历文本对应的辅助诊断结果。

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-5中任一项所述的序列标注模型训练方法，或者，如权利要求6所述的电子病历处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的序列标注模型训练方法，或者，如权利要求6所述的电子病历处理方法。