CN110457682A

CN110457682A - 电子病历词性标注方法、模型训练方法及相关装置

Info

Publication number: CN110457682A
Application number: CN201910625210.2A
Authority: CN
Inventors: 王李鹏
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-11-15
Anticipated expiration: 2039-07-11
Also published as: CN110457682B

Abstract

本申请提出一种电子病历词性标注方法、模型训练方法及相关装置，涉及自然语言处理技术领域，利用循环神经网络初步学习训练分词序列的语义信息得到循环网络输出序列后，利用语义连接网络对循环网络输出序列进行处理，以通过对训练分词序列进行多次学习处理的方式，学习训练分词序列的深层语义信息；进而将语义标注序列作为词性标注模型中词性预测网络的输入，从而得到训练词性序列对应的预测词性标注结果，进而基于该预测词性标注结果及训练分词序列对应的训练词性标注结果计算得到的损失函数，更新词性标注模型的模型参数，相比于现有技术，使词性标注模型能够充分学习到样本序列的深层语义信息及长距离特征信息，能够提升词性标注的准确度。

Description

电子病历词性标注方法、模型训练方法及相关装置

技术领域

本申请涉及自然语言处理技术领域，具体而言，涉及一种电子病历词性标注方法、模型训练方法及相关装置。

背景技术

序列标注任务是机器学习常见的一类任务，比如分词任务、实体识别任务、时间序列分析、词性标注任务等等。常见的一些解决序列标注任务的算法包括隐马尔可夫模型(Hidden Markov Model，HMM)、条件随机场(conditional random field，CRF)等等。

随着电子化医疗系统的迅速普及，大量医疗相关的信息以电子病历(ElectronicMedical Records，EMR)的形式被保存下来；利用机器学习技术，通过对电子病历进行分析和挖掘，比如对电子病历进行分词、词性标注、命名实体识别、实体关系抽取等等，可以从电子病历中获取大量的医疗知识，并被用于例如医学词典中，以辅助医生进行诊断等。

但目前对于词性标注的方法中，由于需要手工的寻找特征，并添加部分外部特征，导致词性标注的准确度较低。

发明内容

本申请的目的在于提供一种电子病历词性标注方法、模型训练方法及相关装置，能够提升词性标注的准确度。

为了实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供一种词性标注模型训练方法，所述方法包括：

获得训练分词序列及所述训练分词序列对应的训练词性标注结果；利用循环神经网络对所述训练分词序列进行处理，得到循环网络输出序列；

利用语义连接网络对所述循环网络输出序列进行处理，得到语义标注序列，其中，所述语义标注序列表征对所述训练分词序列进行多次学习处理后得到的语义结果；

将所述语义标注序列作为所述词性标注模型中词性预测网络的输入，得到所述训练分词序列对应的预测词性标注结果；

基于所述预测词性标注结果及所述训练词性标注结果计算得到的损失函数，更新所述词性标注模型的模型参数。

第二方面，本申请实施例提供一种电子病历词性标注方法，所述方法包括：

接收待标注电子病历；

利用循环神经网络对所述待标注电子病历进行处理，得到所述待标注电子病历对应的循环网络输出序列；

利用语义连接网络对所述循环网络输出序列进行处理，得到语义标注序列，其中，所述语义标注序列表征对所述待标注电子病历进行多次学习处理后得到的语义结果；

将所述语义标注序列作为词性预测网络的输入，得到所述待标注电子病历对应的预测词性标注结果；其中，所述词性预测网络被训练为根据所述语义标注序列输出多个预测词性标注序列以及每一所述预测词性标注序列各自对应的词性标注序列得分；所述待标注电子病历对应的预测词性标注结果为所述多个预测词性标注序列中，对应的词性标注序列得分最大的预测词性标注序列。

第三方面，本申请实施例提供一种词性标注模型训练装置，所述装置包括：

第一预处理模块，用于获得训练分词序列及所述训练分词序列对应的训练词性标注结果；

所述第一预处理模块还用于，利用循环神经网络对所述训练分词序列进行处理，得到循环网络输出序列；

所述第一预处理模块还用于，利用语义连接网络对所述循环网络输出序列进行处理，得到语义标注序列，其中，所述语义标注序列表征对所述训练分词序列进行多次学习处理后得到的语义结果；

所述第一预处理模块还用于，将所述语义标注序列作为所述词性标注模型中词性预测网络的输入，得到所述训练分词序列对应的预测词性标注结果；

参数更新模块，用于基于所述预测词性标注结果及所述训练词性标注结果计算得到的损失函数，更新所述词性标注模型的模型参数。

第四方面，本申请实施例提供一种电子病历词性标注装置，所述装置包括：

接收模块，用于接收待标注电子病历；

第二预处理模块，用于利用循环神经网络对所述待标注电子病历进行处理，得到所述待标注电子病历对应的循环网络输出序列；

所述第二预处理模块还用于，利用语义连接网络对所述循环网络输出序列进行处理，得到语义标注序列，其中，所述语义标注序列表征对所述待标注电子病历进行多次学习处理后得到的语义结果；

标注预测模块，用于将所述语义标注序列作为词性预测网络的输入，得到所述待标注电子病历对应的预测词性标注结果；其中，所述词性预测网络被训练为根据所述语义标注序列输出多个预测词性标注序列以及每一所述预测词性标注序列各自对应的词性标注序列得分；所述待标注电子病历对应的预测词性标注结果为所述多个预测词性标注序列中，词性标注序列得分最大的预测词性标注序列。

第五方面，本申请实施例提供一种电子设备，所述电子设备包括存储器，用于存储一个或多个程序；处理器。当所述一个或多个程序被所述处理器执行时，实现上述的词性标注模型训练方法或电子病历词性标注方法。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的词性标注模型训练方法或电子病历词性标注方法。

本申请实施例提供的一种电子病历词性标注方法、模型训练方法及相关装置，利用循环神经网络对训练分词序列进行处理得到循环网络输出序列，初步学习训练分词序列的语义信息，并利用语义连接网络对循环网络输出序列进行处理，以通过对训练分词序列进行多次学习处理的方式，学习训练分词序列的深层语义信息后，将得到的语义标注序列作为词性标注模型中词性预测网络的输入，从而得到训练词性序列对应的预测词性标注结果，进而基于该预测词性标注结果及训练分词序列对应的训练词性标注结果计算得到的损失函数，更新词性标注模型的模型参数，相比于现有技术，使词性标注模型能够充分学习到样本序列的深层语义信息及长距离特征信息，能够提升词性标注的准确度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为本申请一实施例提供的电子设备的一种示意性结构框图；

图2为本申请一实施例提供的词性标注模型训练方法的一种示意性流程图；

图3为一种词性标注模型的示意性结构图；

图4为图3中语义连接网络的一种网络架构示意图；

图5为图4中自匹配注意力层的一种网络架构示意图；

图6为图2中S209的子步骤的一种示意性流程图；

图7为图6中S209-2的子步骤的一种示意性流程图；

图8为本申请一实施例提供的电子病历词性标注方法的一种示例性流程图；

图9为本申请一实施例提供的词性标注模型训练装置的一种示意性结构图；

图10为本申请一实施例提供的电子病历词性标注装置的一种示意性结构图。

图中：100-电子设备；101-存储器；102-处理器；103-通信接口；400-词性标注模型训练装置；401-第一预处理模块；402-参数更新模块；500-电子病历词性标注装置；501-接收模块；502-第二预处理模块；503-标注预测模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对于序列标注任务，比如词性标注任务，常见的基于隐马尔可夫模型或者是条件随机场等，这些算法均是基于统计概率学的方式所建立的模型，由于无法学习到序列的深层语义信息，比如常见的长距离依赖问题，从而导致词性标注的准确度较低。

而随着深度学习技术的发展，循环神经网络(Recurrent Neural Networks，RNN)也被用于解决词性标注的问题，但RNN会出现梯度消失的问题，即：无法正常的对模型进行训练；因此，目前针对RNN的缺陷提出的一种解决方案为利用改进的循环网络模块比如长短期记忆网络(Long Short-Term Memory，LSTM)、双向长短期记忆网络(Bi-directionalLong Short-Term Memory，BiLSTM)等进行词性标注，也有利用各个模型之间的结果进行词性标注的，比如在长短期记忆网络的基础上添加概率转移机制的LSTM-CRF模型，或者是在双向长短期记忆网络的基础上添加概率转移机制的BiLSTM-CRF模型，或者是在卷积神经网络的基础上添加概率转移机制的CNN-CRF模型等等。

尽管深度学习算法是端到端的，不需要人工寻找特征，但依然存在无法较好的学习序列深层语义信息的问题；比如当序列长度较长时，当前一些基于深度学习的词性标注方案依然会存在长距离依赖问题，从而导致词性标注的准确度较低。

因此，基于上述缺陷，本申请实施例提供的一种可能的实现方式为：利用循环神经网络对训练分词序列进行处理得到循环网络输出序列，初步学习训练分词序列的语义信息，并利用语义连接网络对循环网络输出序列进行处理，以通过对训练分词序列进行多次学习处理的方式，学习训练分词序列的深层语义信息后，将得到的语义标注序列作为词性标注模型中词性预测网络的输入，从而得到训练词性序列对应的预测词性标注结果，进而基于该预测词性标注结果及训练分词序列对应的训练词性标注结果计算得到的损失函数，更新词性标注模型的模型参数。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1为本申请一实施例提供的电子设备100的一种示意性结构框图，该电子设备100可作为训练词性标注模型、以实现本申请实施例提供的词性标注模型训练方法，或者是实现本申请实施例提供的电子病历词性标注方法的设备，比如但手机、个人电脑(personal computer，PC)、平板电脑、服务器等等。

其中，电子设备100包括存储器101、处理器102和通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器101可用于存储软件程序及模块，如本申请实施例提供的词性标注模型训练装置400或者是电子病历词性标注装置500对应的程序指令/模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中，存储器101可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图1所示的结构仅为示意，电子设备100还可以包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

下面以图1所示的电子设备100作为示意性执行主体为例，对本申请实施例提供的词性标注模型训练方法进行进一步说明。

请参阅图2，图2为本申请一实施例提供的词性标注模型训练方法的一种示意性流程图，可以包括以下步骤：

S201，获得训练分词序列及训练分词序列对应的训练词性标注结果；

S203，利用循环神经网络对训练分词序列进行处理，得到循环网络输出序列；

S205，利用语义连接网络对循环网络输出序列进行处理，得到语义标注序列；

S207，将语义标注序列作为词性标注模型中词性预测网络的输入，得到训练分词序列对应的预测词性标注结果；

S209，基于预测词性标注结果及训练词性标注结果计算得到的损失函数，更新词性标注网络模型的模型参数。

本申请实施例中，训练词性标注模型时，需要执行S201以获得训练分词序列及该训练分词序列对应的训练词性标注结果，该训练词性标注结果可以为训练分词序列的人工标注结果，表征的是该训练分词序列的目标词性标注结果。

比如，示例性地，对于分词完成后的词性标注任务，假定训练分词序列为“未闻及干湿啰音和病理性呼吸音。”，对应的训练词性标注结果则为“未/d闻/v及/c干湿/n啰音/n和/c病理性/n呼吸音/n。/w”，其中，n表示名词，c表示连词，d表示副词，v表示动词，w表示标点符号。

请参阅图3，图3为一种词性标注模型的示意性结构图，基于该词性标注模型，下面对本申请实施例提供的词性标注模型训练方法的各个步骤进行具体说明。

训练时，需要将该训练分词序列向量化，以使词性标注模型能够对训练分词序列进行处理。其中，作为一种可能的实现方式，在向量化该训练分词序列时，可以通过在训练词性标注模型的电子设备内存储特征向量表的方式进行实现；电子设备内存储的特征向量表为多个字所对应的向量的集合，比如特征向量表的每一列所有元素的集合，均代表一个字。

由此，在向量化训练分词序列时，对于给定训练分词样本(x_i,y_i)，假定训练分词序列x_i的长度为n，且x_i＝(x_i1,x_i2,…,x_in)，y_i＝(y_i1,y_i2,…,y_in)；假设y_it所能取得的值共有n_classes种，即y_it∈R^n_classes，可以根据查找每个字在该特征向量表中的对应的列位置，从而得到训练分词序列x_i中每个字各自的向量，进而将该训练分词序列向量化；假定向量化后的训练分词序列表示为e₁、e₂、…、e_n，且e_t∈R^n_dim,t＝1,2,…,n。

比如在上述示例中，假定x＝“未闻及干湿啰音和病理性呼吸音。”，y＝(d,v,c,n,n,c,n,n,w)；序列的长度为9，且在电子病历的应用场景中，词性一般有20种，包括：分别是a(形容词)、b(区别词)、c(连词)、d(副词)、e(叹词)、g(学术词汇)、h(前缀)、i(成语)、j(简称略语)、k(后缀)、m(数词)、n(名词)、o(拟声词)、p(介词)、q(量词)、r(代词)、u(助词)、v(动词)、w(标点符号)、x(字符串)，因此，假定n_classes＝20，则y＝(y¹,y²,…,y²⁰)。

因此，在执行S203时，基于向量化后的训练分词序列，利用循环神经网络对该训练分词序列进行处理，得到循环网络输出序列，以使循环神经网络对该训练分词序列进行初步的学习后，便于后续的其他网络层继续学习。

比如，示例性地，以BiLSTM作为循环神经网络为例，则循环网络输出序列u₁、u₂、…、u_n的计算过程表示为：

u_t＝BiLSTM(u_t-1,e_t)；

式中，u_t表示为循环网络输出序列中第t个元素，且u_t∈R^l，即循环网络输出序列中的每一个元素均位于l维空间。

值得说明的是，上述采用BiLSTM作为循环神经网络仅为示意，在本申请实施例其他一些可能的应用场景中，还可以采用例如GRU(Gated Recurrent Unit，门控循环神经网络)、BiGRU(BiGated Recurrent Unit，双向门控循环神经网络)等网络结构作为该循环神经网络，本申请实施例对此不作限定。

对于循环神经网络输出的循环网络输出序列u₁、u₂、…、u_n，执行S205，利用语义连接网络对该循环网络输出序列u₁、u₂、…、u_n进行处理，得到语义标注序列，该语义标注序列表征对训练分词序列进行多次学习处理后得到的语义结果，从而使学习到训练分词序列中的深层语义信息。

可选地，请参阅图4，图4为图3中语义连接网络的一种网络架构示意图，作为一种可能的实现方式，本申请实施例可以基于自匹配注意力层(self-matching attentionlayer)进行构建语义连接网络，比如，由M个依次串联的自匹配注意力层构成该语义连接网络。

并且，在执行S205时，对于由M个依次串联的自匹配注意力层构成的语义连接网络中的第N个自匹配注意力层，将第N个自匹配注意力层之前的N-1个自匹配注意力层各自的自匹配注意力输出序列进行合并后得到的集合，作为第N个自匹配注意力层的自匹配注意力输入序列并进行处理，从而得到第N个自匹配注意力层的自匹配注意力输出序列。

其中，N小于或等于M，M和N均为大于1的整数，且语义连接网络中M个依次串联的自匹配注意力层中第一个自匹配注意力层的自匹配注意力输入序列为循环神经网络输出的循环网络输出序列；所有自匹配注意力层各自的自匹配注意力输出序列合并后得到的集合为语义标注序列。

比如，假定语义连接层包含k(k＝1,2,···)个依次串联的自匹配注意力层；假设语义连接层每一个自匹配注意力层各自输出的自匹配注意力输出序列分别表示为：每一个自匹配注意力层各自的自匹配注意力输入序列分别表示为：且上一层循环神经网络输出的循环网络输出序列u₁、u₂、…、u_n为语义连接网络中第一个自匹配注意力层的自匹配注意力输入序列，因此：

式中，MatchAtt用于表示自匹配注意力层的计算公式，符号[]表示向量的合并，比如向量a＝(1,2,3)，b＝(4,5,6)，则[a,b]＝(1,2,3,4,5,6)；假定语义连接网络输出的语义标注序列表示为则整个语义连接网络输出的语义标注序列等于所有k个自匹配注意力层输出的自匹配注意力输出序列进行合并后得到的集合，即：

示例性地，按照如图4所示的4层模型，第一个自匹配注意力层的自匹配注意力输入序列为图3中循环神经网络输出的循环网络输出序列；第二个自匹配注意力层的自匹配注意力输入序列为第一个自匹配注意力层输出的自匹配注意力输出序列；第三个自匹配注意力层的自匹配注意力输入序列为第一个自匹配注意力层输出的自匹配注意力输出序列与第二个自匹配注意力层输出的自匹配注意力输出序列两者进行合并后得到的集合；第四个自匹配注意力层的自匹配注意力输入序列为第一个自匹配注意力层输出的自匹配注意力输出序列与第二个自匹配注意力层输出的自匹配注意力输出序列、以及第三个自匹配注意力层输出的自匹配注意力输出序列三者进行合并后得到的集合；且第一个自匹配注意力层输出的自匹配注意力输出序列与第二自匹配注意力层输出的自匹配注意力输出序列、第三个自匹配注意力层输出的自匹配注意力输出序列、以及第四个自匹配注意力层输出的自匹配注意力输出序列四者进行合并后得到的集合为整个语义连接网络输出的语义标注序列。

并且，可选地，对于图4中的自匹配注意力层，作为一种可能的实现方式本申请实施例可以基于Attention(注意力)机制和BiLSTM构建自匹配注意力层，请参阅图5，图5为图4中自匹配注意力层的一种网络架构示意图，作为一种可能的实现方式，自匹配注意力层可以包括Attention层和BiLSTM层。

其中，Attention层用于对自匹配注意力输入序列进行处理，得到注意力输出序列。

而BiLSTM层则用于对注意力输出序列与自匹配注意力输入序列两者合并后得到的集合进行处理，得到自匹配注意力输出序列。

比如，假定自匹配注意力层的自匹配注意力输入序列表示为I₁、I₂、…、I_n，输出的自匹配注意力输出序列表示为O₁、O₂、…、O_n，则：

O_t＝BiLSTM(O_t-1,[I_t,C_t])；

式中，v^T、W₁和W₂均为需要学习的参数，上述公式可简记后，得到自匹配注意力层的计算公式为：O_t＝MatchAtt(O_t-1,I_t)。

另外，基于语义连接网络对循环网络输出序列进行处理后得到的语义标注序列，将该语义标注序列作为词性标注模型中词性预测网络的输入，从而得到该训练分词序列对应的预测词性标注结果；并基于该预测词性标注结果及该训练分词序列对应的训练词性标注结果计算损失函数，然后根据该计算得到的损失函数，更新词性标注模型的模型参数。

并且，作为一种可能的实现方式，词性预测网络得到的预测标注结果包括多个预测词性标注序列，以及与每一词性预测标注序列对应的词性标注序列得分，一般情况下，词性标注模型会以根据每一预测词性标注序列各自的词性标注序列得分情况，将词性标注序列得分最高的词性预测标注序列作为训练分词序列对应的预测词性标注序列。

在本申请实施例中，在执行S207时，可选地，在对训练分词序列的中每个词的词性进行预测时，可以引入概率转移机制，比如引入概率转移矩阵，以提升邻近标签之间的关联性。

因此，请再次参阅图3，作为一种可能的实现方式，该词性预测序列网络包含前馈神经网络层和概率转移矩阵，该概率转移矩阵中的数值表征将第一标注标签转移至第二标注标签的概率。

比如在上述示例“未/d闻/v及/c干湿/n啰音/n和/c病理性/n呼吸音/n。/w”中，若第一标注标签为c，c代表连词，则c后面不可能再继续跟连词，因此，将连词c转移至连词c的概率为0，即“及”后面的“干湿”的词性不可能为连词。

基于此，在实现S209时，请参阅图6，图6为图2中S209的子步骤的一种示意性流程图，作为一种可能的实现方式，S209可以包括以下子步骤：

S209-1，将语义标注序列作为前馈神经网络层的输入，得到多个预测词性标注序列，以及与每一预测词性标注序列对应的初始序列得分；

S209-2，根据概率转移矩阵对每一初始序列得分进行更新，得到每一预测词性标注序列对应的词性标注序列得分。

在本申请实施例中，在获得预测词性标注序列时，将语义连接网络输出的语义标注序列作为前馈神经网络层的输入，从而由前馈神经网络层输出多个预测词性标注序列，以及与每一预测词性标注序列对应的初始序列得分；其中，初始序列得分为每一预测词性标注序列中所有的预测标注标签对应的概率之和。

示例性地，假定语义连接层输出的语义连接序列为前馈神经网络层的输出序列表示为o₁、o₂、…、o_n，前馈神经网络层对序列进行学习时，有：

式中，W_t和b_t为需要学习的参数，且W_t∈R^{2kh×n_classes}，b_t∈R^n_classes，o_t∈R^n_classes，t＝1,2,…,n。

由于o_t的向量长度为n_classes，即：o_t＝(o_t1,o_t2,…,o_{tn_classes})，其中o_tk代表样本x_i的第t个元素x_it被预测为y^k的概率，即p(x_it＝y^k)＝o_tk，因此，对于给定样本x_i＝(x_i1,x_i2,…,x_in)，其预测的任意标签序列y_i＝(y_i1,y_i2,…,y_in)的初始序列得分S₁计算公式如下：

需要说明的是，式中的隐含的假设条件为：y_il与y_ik是相互独立的。

基于上述前馈神经网络层获得的多个预测词性标注序列，以及与每一预测词性标注序列对应的初始序列得分，采用概率转移矩阵对每一预测词性标注序列对应的初始序列得分进行更新，从而得到每一预测词性标注序列对应的词性标注序列得分。

其中，一阶的概率转移矩阵中的值，仅能表示将一个标注标签转移至另一个标注标签的概率，也就是说，一阶的概率转移矩阵仅能将每个标注标签与相邻的一个标注标签联系起来，比如在上述示例“未/d闻/v及/c干湿/n啰音/n和/c病理性/n呼吸音/n。/w”中，若第一标注标签为c，则c后面不可能再继续跟连词，因此，将连词c转移至连词c的概率为0，即连词“和”后面的“病理性”不可能为连词。

然而，在上述示例中，即使连词“和”后面不能跟连词，但“病理性”的词性也有可能有多种，比如可能是形容词a、也有可能是名词n。

但发明人在分析上述情况后发现，尽管连词“和”后面“病理性”的词性可能是形容词a、也有可能是名词n，但“病理性”的词性实际上与连词“和”之前的词性有关的，由于连词“和”之前的“啰音”属于名词n，则连词“和”后面的“病理性”为名词n的概率就很大了。

因此，作为一种可能的实现方式，结合图3所示，本申请实施例中的概率转移矩阵为二阶概率转移矩阵，该二阶概率转移矩阵中的数值表征将两个标注标签的组合转移至其他标注标签的概率。即假定该二阶概率转移矩阵表示为A，示例性地，二阶概率转移矩阵A中的A_ij代表将标签y_t-2、标签y_t-1两者的组合转移到标签y_t的概率。

值得说明的是，在本申请实施例其他一些可能的应用场景中，二阶概率转移矩阵A中的A_ij还可以代表将标签y_t-1和标签y_t+1两者的组合转移到标签y_t的概率；这取决于具体的应用场景或者是用户的设置而定，比如，A_ij还可以代表将标签y_t+2和标签y_t+1两者的组合转移到标签y_t的概率。

因此，请参阅图7，图7为图6中S209-2的子步骤的一种示意性流程图，作为一种可能的实现方式，S209-2可以包括以下子步骤：

S209-2a，根据目标预测词性标注序列中每一预测标注标签以及与每一预测标注标签相邻的两个预测标注标签，在二阶概率转移矩阵中获得每一预测标注标签对应的转移概率；

S209-2b，根据目标预测词性标注序列中所有预测标注标签各自对应的转移概率，对目标预测词性标注序列对应的初始序列得分进行更新，得到目标预测词性标注序列对应的词性标注序列得分。

基于前馈神经网络得到的多个预测词性标注序列中，每一预测词性标注序列对应的初始序列得分更新的方式均相同，下面以多个预测词性标注序列中的目标预测词性标注序列为例，对S209-2a及S209-2b进行示例性说明。

根据目标预测词性标注序列中每一预测标注标签以及与每一预测标注标签相邻的两个预测标注标签，在二阶概率转移矩阵中获得目标预测词性标注序列中每一预测标注标签对应的转移概率。

比如假定上述训练分词序列“未闻及干湿啰音和病理性呼吸音。”中某一目标预测词性标注序列为“未/d闻/v及/c干湿/n啰音/n和/c病理性/n呼吸音/n。/w”，则以预测标注标签“病理性/n”为例，该预测标注标签“病理性/n”对应的转移概率查找方式为：将“啰音”与“和”两者的词性“n”和“c”进行组合作为选择条件之一，“病理性”的词性“d”作为另一选择条件，两者相匹配，在二阶概率转移矩阵中确定出相对应的数值，作为该预测标注标签“病理性/n”对应的转移概率。

如上示例，根据获得的目标预测词性标注序列中所有预测标注标签对应的转移概率，进而对目标预测词性标注序列对应的初始序列得分进行更新，从而得到该目标预测词性标注序列对应的词性标注序列得分。

示例性地，对于给定样本x_i＝(x_i1,x_i2,…,x_in)，其预测的任意标签序列y_i＝(y_i1,y_i2,…,y_in)的更新初始序列得分S₁后得到的标注转移得分S₂可表示如下：

因此，对于给定样本x_i＝(x_i1,x_i2,…,x_in)，其预测的任意标签序列y_i＝(y_i1,y_i2,…,y_in)的词性标注序列得分S可表示为：

可见，基于上述设计，本申请实施例提供的一种词性标注模型训练方法，通过设置二阶概率转移矩阵，从而根据每一预测词性标注序列中每一预测标注标签以及与每一该预测标注标签相邻的两个预测标注标签，在二阶概率转移矩阵中获得每一该预测标注标签对应的转移概率，进而对每一预测标注序列对应的初始序列得分进行更新，得到每一预测标注序列对应的词性标注序列得分，使每一预测标注序列的预测概率能够结合每一预测标注序列中各个标签之间的依赖关系，提升了词性标注的准确度。

另外，示例性地，在执行S209时，对于给定的样本{x_i,y_i},i＝1,2,…,N，基于预测词性标注结果和训练词性标注结果计算得到的损失函数可以表示为：

式中，N为样本的数量，ture_y_i代表样本x_i的真实标签序列，则代表样本x_i的真实标签序列的总得分，代表对样本x_i所有可能的标签序列总得分的求和。

基于该计算得到的损失函数，可以利用梯度下降算法，最小化该损失函数的值，从而更新该词性标注模型的模型参数。

可见，基于上述设计，本申请实施例提供的一种词性标注模型训练方法，利用循环神经网络对训练分词序列进行处理得到循环网络输出序列，初步学习训练分词序列的语义信息，并利用语义连接网络对循环网络输出序列进行处理，以通过对训练分词序列进行多次学习处理的方式，学习训练分词序列的深层语义信息后，将得到的语义标注序列作为词性标注模型中词性预测网络的输入，从而得到训练词性序列对应的预测词性标注结果，进而基于该预测词性标注结果及训练分词序列对应的训练词性标注结果计算得到的损失函数，更新词性标注模型的模型参数，相比于现有技术，使词性标注模型能够充分学习到样本序列的深层语义信息及长距离特征信息，能够提升词性标注的准确度。

下面以电子病历词性标注的应用场景为例，基于上述词性标注模型训练方法训练结束后得到的词性标注模型，对本申请实施例提供的一种电子病历词性标注方法进行示例性说明。

请参阅图8，图8为本申请一实施例提供的电子病历词性标注方法的一种示例性流程图，包括以下步骤：

S301，接收待标注电子病历；

S303，利用循环神经网络对待标注电子病历进行处理，得到待标注电子病历对应的循环网络输出序列；

S305，利用语义连接网络对循环网络输出序列进行处理，得到语义标注序列；

S307，将语义标注序列作为词性预测网络的输入，得到待标注电子病历对应的预测词性标注结果。

基于本申请实施例上述的词性标注模型训练方式训练结束后得到的词性标注模型，以接收的分词后的待标注电子病历“未/闻/及/干湿/啰音/和/病理性/呼吸音/。”为例，在对该电子病历进行词性标注时，具体处理流程可以包括一下过程：

首先，采用循环神经网络(比如BiLSTM)对该待标注电子病历进行初步的学习，得到该待标注电子病历对应的循环网络输出序列，以便于后续其他网络层的学习。

其中，采用循环神经网络对待标注电子病历进行处理的方式，可以参阅上述S203的过程。

然后，利用语义连接网络对该循环网络输出序列进行学习处理，得到语义标注序列，以通过对该待标注电子病历进行多次学习后的语义结果，获得该待标注电子病历的深层语义信息。

其中，利用语义连接网络获得该待标注电子病历的深层语义信息处理方式，可以参阅上述S205的过程；且语义连接网络中各个需要确定的参数可以通过上述的词性标注模型训练方法获得。

接下来，将获得的语义标注序列作为词性预测网络的输入，从而得到该待标注电子病历对应的预测词性标注结果。

其中，利用词性预测网络对语义标注序列进行处理，以获得待标注电子病历对应的预测词性标注结果的处理过程，可以参阅上述S207的过程；且词性预测网络中各个需要确定的参数可以通过上述的词性标注模型训练方法获得。

另外，词性预测网络在对待标注电子病历进行词性标注时，一般会得到多个预测词性标注序列，且每一预测词性标注序列各自对应有词性标注序列得分；词性预测网络将所有得到预测词性标注序列中，对应的词性标注序列得分最大的预测词性标注序列作为该待标注电子病历对应的预测词性标注结果。

比如对于上述示例的电子病历“未/闻/及/干湿/啰音/和/病理性/呼吸音/。”，若预测词性标注序列y_i＝(d,v,c,n,n,c,n,n,w)对应的词性标注序列得分在所有获得的预测词性标注序列中得分最大，则该电子病历对应的预测词性标注结果为“未/d闻/v及/c干湿/n啰音/n和/c病理性/n呼吸音/n。/w”。

由此，通过采用上述电子病历词性标注方法对电子病历进行词性方法，可以将词性标注后的结果更新至医学词典中，进而为后续的上层应用系统提供支撑；比如在信息抽取、信息检索、机器翻译等应用场景中，可以利用上述电子病历词性标注方法更新得到的医学词典确定每个词单元对应的实体类型。

基于与本申请实施例提供的上述词性标注模型训练方法相同的发明构思，请参阅图9，图9为本申请一实施例提供的词性标注模型训练装置400的一种示意性结构图，该词性标注模型训练装置400可以包括第一预处理模块401和参数更新模块402。

第一预处理模块401用于获得训练分词序列及训练分词序列对应的训练词性标注结果；

第一预处理模块401还用于，利用循环神经网络对训练分词序列进行处理，得到循环网络输出序列；

第一预处理模块401还用于，利用语义连接网络对循环网络输出序列进行处理，得到语义标注序列，其中，语义标注序列表征对训练分词序列进行多次学习处理后得到的语义结果；

第一预处理模块401还用于，将语义标注序列作为词性标注模型中词性预测网络的输入，得到训练分词序列对应的预测词性标注结果；

参数更新模块402用于基于预测词性标注结果及训练词性标注结果计算得到的损失函数，更新词性标注模型的模型参数。

基于与本申请实施例提供的上述电子病历词性标注方法相同的发明构思，请参阅图10，图10为本申请一实施例提供的电子病历词性标注装置500的一种示意性结构图，该电子病历词性标注装置500可以包括接收模块501、第二预处理模块502和标注预测模块503。

接收模块501用于接收待标注电子病历；

第二预处理模块502用于利用循环神经网络对待标注电子病历进行处理，得到待标注电子病历对应的循环网络输出序列；

第二预处理模块502还用于利用语义连接网络对循环网络输出序列进行处理，得到语义标注序列，其中，语义标注序列表征对待标注电子病历进行多次学习处理后得到的语义结果；

标注预测模块503用于将语义标注序列作为词性预测网络的输入，得到待标注电子病历对应的预测词性标注结果；其中，词性预测网络被训练为根据语义标注序列输出多个预测词性标注序列以及每一预测词性标注序列各自对应的词性标注序列得分；待标注电子病历对应的预测词性标注结果为多个预测词性标注序列中，词性标注序列得分最大的预测词性标注序列。

值得说明的是，为描述的方便和简洁，上述的词性标注模型训练装置400和电子病历词性标注装置500的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。

也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请实施例提供的一种电子病历词性标注方法、模型训练方法及相关装置，利用循环神经网络对训练分词序列进行处理得到循环网络输出序列，初步学习训练分词序列的语义信息，并利用语义连接网络对循环网络输出序列进行处理，以通过对训练分词序列进行多次学习处理的方式，学习训练分词序列的深层语义信息后，将得到的语义标注序列作为词性标注模型中词性预测网络的输入，从而得到训练词性序列对应的预测词性标注结果，进而基于该预测词性标注结果及训练分词序列对应的训练词性标注结果计算得到的损失函数，更新词性标注模型的模型参数，相比于现有技术，使词性标注模型能够充分学习到样本序列的深层语义信息及长距离特征信息，能够提升词性标注的准确度。

并且，还通过设置二阶概率转移矩阵，从而根据每一预测词性标注序列中每一预测标注标签以及与每一该预测标注标签相邻的两个预测标注标签，在二阶概率转移矩阵中获得每一该预测标注标签对应的转移概率，进而对每一预测标注序列对应的初始序列得分进行更新，得到每一预测标注序列对应的词性标注序列得分，使每一预测标注序列的预测概率能够结合每一预测标注序列中各个标签之间的依赖关系，提升了词性标注的准确度。

另外，还基于上述词性标注模型训练方法训练结束的词性标注模型，对电子病历进行词性标注，从而将词性标注后的电子病历更新至医学词典中，能够为上层的应用系统提供支撑。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种词性标注模型训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述语义连接网络包括M个依次串联的自匹配注意力层；

根据语义连接网络对所述循环网络输出序列进行处理，得到语义标注序列的步骤，包括：

将第N个自匹配注意力层之前的N-1个自匹配注意力层各自的自匹配注意力输出序列进行合并后得到的集合，作为所述第N个自匹配注意力层的自匹配注意力输入序列并进行处理，得到所述第N个自匹配注意力层的自匹配注意力输出序列；

其中，N小于或等于M，M和N均为大于1的整数，且所述M个依次串联的自匹配注意力层中，第一个自匹配注意力层的自匹配注意力输入序列为所述循环网络输出序列；所有自匹配注意力层各自的自匹配注意力输出序列合并后得到的集合为所述语义标注序列。

3.如权利要求2所述的方法，其特征在于，所述自匹配注意力层包括注意力Attention层和双向长短期记忆网络BiLSTM层；

所述Attention层用于对所述自匹配注意力输入序列进行处理，得到注意力输出序列；

所述BiLSTM层用于对所述注意力输出序列与所述自匹配注意力输入序列合并后得到的集合进行处理，得到所述自匹配注意力输出序列。

4.如权利要求1所述的方法，其特征在于，所述词性预测网络包含前馈神经网络层和概率转移矩阵，所述概率转移矩阵中的数值表征将第一标注标签转移至第二标注标签的概率；

所述预测词性标注结果包括多个预测词性标注序列，以及与每一预测词性标注序列对应的词性标注序列得分；

将所述语义标注序列作为所述词性标注模型中词性预测网络的输入，得到所述训练分词序列对应的预测词性标注结果的步骤，包括：

将所述语义标注序列作为所述前馈神经网络层的输入，得到所述多个预测词性标注序列，以及与每一预测词性标注序列对应的初始序列得分，其中，所述初始序列得分为每一所述预测词性标注序列中所有的预测标注标签对应的概率之和；

根据所述概率转移矩阵对每一所述初始序列得分进行更新，得到每一所述预测词性标注序列对应的所述词性标注序列得分。

5.如权利要求4所述的方法，其特征在于，所述概率转移矩阵为二阶概率转移矩阵，所述二阶概率转移矩阵中的数值表征将两个标注标签的组合转移至其他标注标签的概率；

根据所述概率转移矩阵对每一所述初始序列得分进行更新，得到每一所述预测词性标注序列对应的所述词性标注序列得分的步骤，包括：

根据目标预测词性标注序列中每一预测标注标签以及与每一所述预测标注标签相邻的两个预测标注标签，在所述二阶概率转移矩阵中获得每一所述预测标注标签对应的转移概率，其中，所述目标预测词性标注序列为所述多个预测词性标注序列中的任意一个；

根据所述目标预测词性标注序列中所有预测标注标签各自对应的转移概率，对所述目标预测词性标注序列对应的初始序列得分进行更新，得到所述词性标注序列得分。

6.一种电子病历词性标注方法，其特征在于，所述方法包括：

接收待标注电子病历；

7.一种词性标注模型训练装置，其特征在于，所述装置包括：

8.一种电子病历词性标注装置，其特征在于，所述装置包括：

接收模块，用于接收待标注电子病历；

9.一种电子设备，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。