CN111813924A

CN111813924A - 基于可扩展动态选择与注意力机制的类别检测算法及系统

Info

Publication number: CN111813924A
Application number: CN202010659504.XA
Authority: CN
Inventors: 琚生根; 曹万平; 王婧妍
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-23
Anticipated expiration: 2040-07-09
Also published as: CN111813924B

Abstract

本发明提供一种基于可扩展动态选择与注意力机制的类别检测方法与系统，方法包括以下步骤：将摘要中的单个句子通过双通道融合预训练语言模型ELMo与Bi‑LSTM，分别得到第一句向量、第二句向量；通过动态选择机制筛选保留第一句向量、第二句向量中的一个设为主句向量；将摘要中所有单个句子对应的主句向量组成摘要向量序列并通过注意力网络进行加权；经注意力网络加权后的输出进入层连Bi‑LSTM网络，单个主句向量匹配上下文，过滤冗余信息进行分类，得到摘要中所有单个句子对应的文本生成概率；采用CRF对所有单个句子对应的文本生成概率进行优化表示形成标签概率序列。该方法能避免信息重复，同时，加入基于注意力的网络，解决现有类别检测方法中语义空洞问题。

Description

基于可扩展动态选择与注意力机制的类别检测算法及系统

技术领域

本发明属于医学文本摘要信息化处理技术领域，具体涉及一种基于可扩展动态选择与注意力机制的类别检测算法及系统。

背景技术

循证医学(Evidence-Based Medicine，EBM)是一种临床实践方法，其作为一种流行的医学研究范式，使用当前的最佳证据来辅助医疗决策；在循证医学中，搜寻医学证据是最为关键的一个环节，医学证据主要存在于医学文献或医学指南中，但是大部分文献和指南都是以无结构化的形式呈现，这为医生搜寻最佳证据带来了困扰，故为方便医生快速找到医学证据，需要将文献按照某种医学模式进行结构化表示，即类别检测。

近几年，面向循证医学领域的类别检测研究得到了发展，研究者多着眼于以自动化的形式寻找临床证据，主要采用机器学习的方法对文献根据PICO或类似模式进行划分，有利于更高效地鉴别高质量文献和筛选最佳证据。对于文献的处理，大多以词粒度和句粒度代替文档粒度，或以多者结合的方式，因医学领域的独特性，其规则制定与语义分析成为了研究难点；且又因自然语言的多样性，如何正确对序列进行建模和分析语义是句子分类任务面临的重大困难。

现有方法大多忽略了上下文信息和句子之间的依赖关系，或是会出现信息重复问题，并且在较长文本中会出现语义“空洞”问题，比如，Wang等人在其论文“A categorydetection method for Evidence-based Medicine”中提出采用双通道层连网络(HMcN)进行类别检测，HMcN在进行类别检测时融入摘要文本的上下文信息，考虑了医学文本的特殊性，但这种方法会产生信息重复问题，且无法解决长文本的语义“空洞”问题，即当前句子的相邻语句发生了主题偏移，相关语义信息存在于更早之前的语句中；Jin等人最先将深度学习用于循证医学类别检测任务，该模型大大提升序列句子分类任务的效果，但该模型在生成句向量时忽略了摘要内句子间的关系；Huang等人提出将朴素贝叶斯方法用于PICO类别检测中，隐马尔可夫模型(Hidden Markov Models，HMM)将输入序列看作观测序列、，类别序列看作状态序列，条件随机场(Conditional Random Fields，CRF)解决了HMM无法根据完整的上下文进行标注的问题，但以上三种方法往往需要大量手工构建特征，且特征只通过词频或其他形式表示，不可对词语语义进行表征。

发明内容

有鉴于此，本发明的目的之一在于提供一种基于可扩展动态选择与注意力机制的类别检测方法，该方法能减少对医学文献摘要进行类别检测信息重复、语义空洞问题。

为实现上述目的，本发明的技术方案为：一种基于可扩展动态选择与注意力机制的类别检测方法，包括以下步骤：

将摘要中的单个句子通过双通道融合预训练语言模型ELMo与Bi-LSTM，分别得到第一句向量、第二句向量；

通过动态选择机制筛选保留所述第一句向量、第二句向量中的一个设为主句向量；

将摘要中所有单个句子对应的所述主句向量组成摘要向量序列并通过注意力网络进行加权；

经所述注意力网络加权后的输出进入层连Bi-LSTM网络，单个主句向量自动匹配摘要向量序列的上下文，过滤冗余信息进行分类，得到摘要中所有单个句子对应的文本生成概率；

采用CRF对所有单个句子对应的文本生成概率进行优化表示形成标签概率序列。

进一步地，所述通过动态选择机制筛选保留所述第一句向量、第二句向量中的一个设为主句向量的步骤，具体方式为：

通过以下公式计算得到隐层单元向量：

其中，

为通过所述Bi-LSTM得到的所述第二句向量，

为通过所述ELMo得到的第一句向量，σ为Sigmoid激活函数，W_a，W_e∈R^u×u为权重，u为动态选择的隐层单元数，v_g∈R^u为偏置，g为u维的向量且每一维皆为大于0小于1的实数；

根据所述隐层单元向量通过动态选择机制筛选得到所述主句向量，具体计算公式为：

为主句向量。

进一步地，所述将摘要中所有单个句子对应的所述主句向量组成摘要向量序列并通过注意力网络进行加权的步骤具体包括：

所述注意力网络中的Bi-LSTM接收一个包含n个单词的句子S＝{word₁，...，word_n}，S∈R^n×d，得到两个方向的隐层表示，将其拼接作为经Bi-LSTM编码后的结果H∈Rⁿ ^×2×u，d为维度，u为LSTM隐层神经元数目；

H作为输入进入注意力网络，按照以下公式从多个层面对计算注意力权重：

A＝soft max(W_s2 tanh(W_s1H^T))；

其中，W_s1∈R^da×2×u注意力的权重参数，W_s2∈R^r×da表示通过关注句子的r个层面来对句子进行编码，A为n个单词进行加权求和的权重，da为注意力网络的隐层维度；

最后句子所有单词进行加权求和得到所述第二句向量，其公式为：

M＝AH。

进一步地，所述层连Bi-LSTM网络包括多个层连的Bi-LSTM，其中，层连Bi-LSTM网络的首层的计算方式为：

A＝Attention(S)·S；

为正则化项，A为摘要的矩阵经注意力网络处理后得到的最终结果，

为第一层LSTM的正向第i个隐层状态；

为第一层LSTM的正向第i-1个隐层状态，A_i为经注意力网络第i个句子得到的结果，

为第一层LSTM的反向第i个隐层状态，lstm为lstm网络，

为第一层LSTM的反向第i+1个隐层状态，att为注意力计算经softmax函数处理前结果，S为注意力计算经softmax函数处理前结果，S^T为S的转置，att_i为第i个句子的注意力计算经softmax函数处理前结果，att_j为第j个句子的注意力计算经softmax函数处理前结果，n为单个句子中单词个数。

进一步地，所述多个层连的Bi-LSTM中，除首层Bi-LSTM外的其他层输入均为其上一层的输入与输出拼接。

有鉴于此，本发明的目的之二在于提供一种基于可扩展动态选择与注意力机制的类别检测系统，该系统能减少类别检测时的信息重复。

为实现上述目的，本发明的技术方案为：一种基于可扩展动态选择与注意力机制的类别检测系统，包括：

单句编码层，包括双通道融合预训练语言模型ELMo与Bi-LSTM，用于接收摘要中的所有单个句子，ELMo将其编码生成第一句向量、Bi-LSTM编码得到第二句向量；

动态选择模块，与所述单句编码层相连，用于筛选保留所述第一句向量、第二句向量中的一个并将其设为主句向量，并将摘要中所有单个句子对应的所述主句向量组成摘要向量序列；

文本信息嵌入层，与动态选择模块相连，包括注意力网络与层连Bi-LSTM网络，用于对摘要向量序列进行加权，单个主句向量自动匹配摘要向量序列的上下文，过滤冗余信息进行分类，得到摘要中所有单个句子对应的文本生成概率；

标签优化层，与所述文本信息嵌入层相连，用于优化本生成概率形成标签概率序列。

进一步地，所述动态选择模块包括非线性函数控制的门控，用于计算门控大小，控制主句向量的选择。

进一步地，非线性函数控制的门控的计算方法为：

其中，

为通过所述Bi-LSTM得到的所述第二句向量，

为通过所述ELMo得到的第一句向量，ρ为Sigmoid激活函数，W_a，W_e∈R^u×u为权重，u为动态选择的隐层单元数，v_g∈R^u为偏置，g为u维的向量且每一维皆为大于0小于1的实数。

进一步地，所述层连Bi-LSTM网络中，后一层的输入为前一层的输入与输出的拼接。

有益效果

本发明提供一种基于可扩展动态选择与注意力机制的类别检测系统，在双通道网络加入动态选择机制，以及采用门控机制决定输入上层网络双通道信息，降低了网络覆盖，避免信息重复，同时，加入基于注意力的网络，解决现有类别检测方法中语义空洞问题。与此同时，本发明还提供了一种基于可扩展动态选择与注意力机制的类别方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明一种基于可扩展动态选择与注意力机制的类别检测系统的一实施例结构示意图；

图2为本发明一种基于可扩展动态选择与注意力机制的类别检测方法的特征图像编码过程流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

所举实施例是为了更好地对本发明进行说明，但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整，仍属于本发明的保护范围。

实施例1

参考图1为本发明一种基于可扩展动态选择与注意力机制的类别检测系统的一实施例结构示意图。具体地，一种基于可扩展动态选择与注意力机制的类别检测系统，包括：

单句编码层1，包括双通道融合预训练语言模型ELMo11与Bi-LSTM 12，用于接收摘要中的所有单个句子，ELMo将其中的单个句子编码生成第一句向量、Bi-LSTM将相同单个句子编码得到第二句向量；

本实施例中，ELMo将接受的摘要文本中一个句子进行编码，可得到第一句向量；同时Bi-LSTM将接受的摘要文本中一个句子进行编码得到第二句向量。

优选地，第二句向量中为多种方式对单个句子编码进行加权求和得到的。

动态选择模块2，与单句编码层1相连，用于筛选保留第一句向量、第二句向量中的一个并将其设为主句向量，并将摘要中所有单个句子对应的主句向量组成摘要向量序列；

本实施例中，动态选择模块包括非线性函数控制的门控，用于计算门控大小，控制主句向量的选择，具体地，动态选择模块2中门控大小动态取决于网络对于当前任务的学习而非人为设定进一步地，非线性函数控制的门控的计算方法为：

其中，

为通过Bi-LSTM得到的第二句向量，

为通过ELMo得到的第一句向量，σ为Sigmoid激活函数，W_a，W_e∈R^u×u为权重，u为动态选择的隐层单元数，v_g∈R^u为偏置，g为u维的向量且每一维皆为大于0小于1的实数；

对主向量的选择公式在动态选择模块2中设为

为主句向量。

文本信息嵌入层3，与动态选择模块相连，包括注意力网络与层连Bi-LSTM网络，用于对摘要向量序列进行加权，单个主句向量自动匹配摘要向量序列的上下文，过滤冗余信息进行分类，得到摘要中所有单个句子对应的文本生成概率；

具体地，本实施例中注意力网络进行加权的步骤为：注意力网络中的Bi-LSTM接收一个包含n个单词的主句向量S＝{word₁，...，word_n}，S∈R^n×d，得到两个方向的隐层表示，将其拼接作为经Bi-LSTM编码后的结果H∈R^n×2×u，d为维度，u为LSTM隐层神经元数目；

H作为输入并按照以下公式从多个层面对主句向量计算注意力权重：

A＝soft max(W_s2tanh(W_s1H^T))；

其中，W_s1∈R^da×2×u，W_s2∈R^r×da表示通过关注句子的r个层面来对句子进行编码，A为n个单词进行加权求和的权重，da为注意力网络的隐层维度；

最后句子所有单词进行加权求和得到句子向量矩阵，其公式为：

M＝AH。

本实施例中，进一步地，层连Bi-LSTM网络中，除首层外，后一层的输入为前一层的输入与输出的拼接，其中，层连Bi-LSTM网络中首层的计算方式为：

A＝Attention(S)·S；

为第一层LSTM的正向第i个隐层状态；

为第一层LSTM的反向第i个隐层状态，lstm为lstm网络，

为第一层LSTM的反向第i+1个隐层状态，att为注意力计算经softmax函数处理前结果，S为注意力计算经softmax函数处理前结果，S^T S的转置，att_i为第i个句子的注意力计算经softmax函数处理前结果，att_j为第j个句子的注意力计算经softmax函数处理前结果，n为单个句子中单词个数。

标签优化层4，与文本信息嵌入层相连，用于通过CRF优化文本生成概率形成标签概率序列，得到摘要中每个句子属于每个标签的概率，本实施例中的标签是CRF数据集中已存在的标签。

实施例2

基于实施例1的基于可扩展动态选择与注意力机制的类别检测系统，本发明还提供一种基于可扩展动态选择与注意力机制的类别检测方法，参考图2的流程图，具体地，本方法包括以下步骤：

S500：将摘要中的单个句子通过双通道融合预训练语言模型ELMo与Bi-LSTM，分别得到第一句向量、第二句向量；然后执行步骤S600；

本实施例中，将摘要中的句子同时间通过ELMo通道与Bi-LSTM通道进行编码，经ELMo通道编码后可得到摘要中句子对应的第一句向量，经Bi-LSTM通道编码后可得到摘要中句子对应的第二句向量；

S600：通过动态选择机制筛选保留第一句向量、第二句向量中的一个设为主句向量；

通过动态选择机制筛选保留第一句向量、第二句向量中的一个设为主句向量的步骤，具体方式为：

在第一句向量与第二句向量到达实施例1中的动态选择模块2时，通过以下公式计算得到隐层单元向量：

其中，

为通过Bi-LSTM得到的第二句向量，

根据隐层单元向量通过动态选择机制筛选得到主句向量，具体计算公式为：

为主句向量；本实施例中，当门控g为0时，语言模型ELMo得到的第一句向量信息将被丢弃，Bi-LSTM网络得到的第二句向量信息将被保留并设为主句向量；当g为1时，语言模型ELMo得到的第一句向量信息将被保留并设为主句向量，Bi-LSTM网络得到的第二句向量信息将被丢弃；与简单拼接方式相比，通过此种方法动态控制句向量的信息流入，可以防止冗余信息进入上层网络，减少了实施例1的系统中的参数量，动态选择机制的可扩展性在于公式中

与

可以换成通用词向量、外部信息或任意文本表示。

S700：将摘要中所有单个句子对应的所述主句向量组成摘要向量序列并通过注意力网络进行加权；然后执行步骤S800；

本实施例中，注意力网络中的Bi-LSTM接收一个包含n个单词的主句向量S＝{word₁，...，word_n}，S∈R^n×d，得到两个方向的隐层表示，将其拼接作为经Bi-LSTM编码后的结果H∈R^n×2×u，u为LSTM隐层神经元数目；

H作为输入并按照以下公式对主句向量计算注意力权重：

a＝soft max(ω_s2 tanh(W_s1H^T))；

其中，W_s1∈R^da×2×u为注意力的权重参数，是可学习的随机变量，ω_s2∈R^1×da表示通过关注句子的1个层面来对句子进行编码，da为注意力网络的隐层维度H^T为H的转置，a即为对各个单词进行加权求和的权重；

优选地，对于一个句子，不应只关注其中某一方面的信息，而应关注多方面的信息，以多种不同的方式对句子进行编码。

A＝soft max(W_s2 tanh(W_s1H^T))；

其中，W_s1∈R^da×2×u为注意力的权重参数，是可学习的随机变量，W_s2∈R^r×da表示通过关注句子的r个层面来对句子进行编码，A为n个单词进行加权求和的权重，；

M＝AH。

S800：将经注意力网络加权后的输出进入层连Bi-LSTM网络，单个主句向量自动匹配摘要向量序列的上下文，过滤冗余信息进行分类，得到摘要中所有单个句子对应的文本生成概率；然后执行步骤S900；

参考实施例1中的层连Bi-LSTM网络包括多个层连的Bi-LSTM，本实施例中，在步骤S700中对主句向量进行加权后，再与原始输入数据即摘要文本拼接再输入到层连Bi-LSTM网络中，层连Bi-LSTM网络直接将上下文信息与自身进行匹配，它从输入序列中动态地收集信息并过滤冗余信息，具体地，将摘要向量序列输入层连Bi-LSTM网络，其中Bi-LSTM首层的计算方式为：

A＝Attention(S)·S；

为第一层LSTM的正向第i个隐层状态；

为第一层LSTM的反向第i个隐层状态，lstm为lstm网络，

优选地，层连Bi-LSTM网络中除首层外的其他层输入方式与现有技术类似，均为其上一层的输入与输出拼接；因层连Bi-LSTM网络已提取了部分关键信息，层连Bi-LSTM网络响应减少了参数量，这样能为解决当维度较大时，出现数值爆炸问题。

本实施例中，在层连Bi-LSTM网络后，得到每个句子属于每个标签的概率，即为文本生成概率。

S900：采用CRF对所有单个句子对应的文本生成概率进行优化表示形成标签概率序列。

本实施例中，将步骤S800中得到所有单个句子对应的文本生成概率整合成概率序列并输入到CRF中，其后通过CRF算法对文本生成概率序列进行优化得到标签概率序列。

实施例3

本实施例中，对实施例1的系统和实施例2的方法的有效性进行验证，具体地，本实施例中采用精确率(Precision，P)、召回率(Recall，R)和F1值度量实验效果，数据集采用PubMed 20k RCT数据集(该数据集来自于PubMed中20k发表最多的文章摘要)与AMRCPIO数据集(Jin提出的针对PICO类别检测的数据集)，利用本发明中的系统与现有的模型如：LR(逻辑回归分类器)、CRF(条件随机场分类器)、Best Published(2012年Lui提出的基于多种特征集方法)、Bi-ANN(2017年Dernoncourt提出的标注模型)、Jin(2018Jin年提出的网络)、BERT+Transformer(Cohan将BERT预训练语言模型与Transformer编码器联合使用)、HMcN(Wang等人提出的基于双通道与层连网络的类别检测算法)进行对比，得到的结果如下表：

表格1 PubMed数据集整体效果

根据表1，本发明系统的F1值比其他模型分别提高F1分数0.5％-8.7％，很明显，DA-HMcN在各指标均明显优于其他模型，而与同样使用了预训练语言模型的BERT+Transformer模型，但本系统更注重文本信息嵌入与关键字段理解，而非大规模语料信息，且系统与BERT+Transformer模型相比训练复杂度较小；另由于本系统在各指标中皆优于HMcN模型，基于HMcN模型的特性，这表明本系统可以根据任务正确选择信息，将待分类语句语义聚焦在上下文中关键片段之上，解决了摘要文本中的语义“空洞”问题。

本实施例中，还对在AMRCPIO数据集各模型的效果做了对比，由于AMRCPIO数据集为针对PICO类别检测的数据集，本实施例更注重符合PICO模式的样本，所以着重分析P类别、I类别、O类别的实验情况，得到的效果如下表：

表格2 AMRCPIO数据集P类别实验结果(％)

表格3 AMRCPIO数据集I类别实验结果(％)

模型	P(％)	R(％)	F1(％)
				LR	55.6	55.0	55.3
CRF	67.8	70.3	69.0
				Jin	72.7	81.3	76.7
DA-HMcN	79.7	74.7	77.1

表格4 AMRCPIO数据集O类别实验结果(％)

模型	P(％)	R(％)	F1(％)
				LR	65.4	67.0	66.2
CRF	76.0	76.3	76.2
				Jin	81.1	85.3	83.1
本发明系统	85.6	85.6	85.6

根据表格2-表格4，看出在三种类别的样本中，本发明中系统的F1值都优于其他模型，与Jin等人提出的针对PICO模式的模型相比，DA-HMcN更注重上下文信息，有效分析了待分类文本语义和摘要中与待分类句子相关文本的语义。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于可扩展动态选择与注意力机制的类别检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述通过动态选择机制筛选保留所述第一句向量、第二句向量中的一个设为主句向量的步骤，具体方式为：

通过以下公式计算得到隐层单元向量：

其中，

为通过所述Bi-LSTM得到的所述第二句向量，

为通过所述ELMo得到的第一句向量，σ为Sigmoid激活函数，W_a，W_e∈R^u×u为权重，u为动态选择的隐层单元数，b_g∈R^u为偏置，g为u维的向量；

为主句向量。

3.根据权利要求2所述的方法，其特征在于，所述将摘要中所有单个句子对应的所述主句向量组成摘要向量序列并通过注意力网络进行加权的步骤具体包括：

所述注意力网络中的Bi-LSTM接收一个包含n个单词的主句向量S＝{word₁，...，word_n}，S∈R^n×d，得到两个方向的隐层表示，将其拼接作为经Bi-LSTM编码后的结果H∈Rⁿ ^×2×u，d为维度，u为LSTM隐层神经元数目；

A＝softmax(W_s2tanh(W_s1H^T))；

其中，W_s1∈R^da×2×u为注意力的权重参数，W_s2∈R^r×da表示通过关注句子的r个层面来对句子进行编码，A为n个单词进行加权求和的权重，da为注意力网络的隐层维度；

M＝AH。

4.根据权利要求3所述的方法，其特征在于，所述层连Bi-LSTM网络包括多个层连的Bi-LSTM，其中，层连Bi-LSTM网络的首层的计算方式为：

A＝Attention(S)·S；

为第一层LSTM的正向第i个隐层状态；

为第一层LSTM的反向第i个隐层状态，lstm为lstm网络，

5.根据权利要求4所述的方法，其特征在于，所述多个层连的Bi-LSTM中，除首层Bi-LSTM外的其他层输入均为其上一层的输入与输出拼接。

6.一种基于可扩展动态选择与注意力机制的类别检测系统，其特征在于，包括：

单句编码层，用于接收摘要中的所有单个句子，将摘要中的单个句子分别编码生成第一句向量、第二句向量；

文本信息嵌入层，与动态选择模块相连，包括注意力网络与层连Bi-LSTM网络，用于对摘要向量序列进行加权，且单个句子的主句向量自动匹配摘要向量序列的上下文，过滤冗余信息进行分类，得到摘要中所有单个句子对应的文本生成概率；

标签优化层：与所述文本信息嵌入层相连，用于优化文本生成概率形成标签概率序列。

7.根据权利要求6所述的系统，其特征在于，所述单句编码层为双通道融合预训练语言模型包括Bi-LSTM、ELMo，ELMo用于将摘要中单个句子编码生成第一句向量，Bi-LSTM用于将摘要中的单个句子编码生成第二句向量。

8.根据权利要求6所述的系统，其特征在于，所述动态选择模块包括非线性函数控制的门控，用于计算门控大小，控制主句向量的选择。

9.根据权利要求6所述的系统，其特征在于，非线性函数控制的门控的计算方法为：

其中，

为通过所述Bi-LSTM得到的所述第二句向量，

为通过所述ELMo得到的第一句向量，σ为Sigmoid激活函数，W_a，W_e∈R^u×u为权重，u为动态选择的隐层单元数，b_g∈R^u为偏置，g为u维的向量。

10.根据权利要求6所述的系统，其特征在于，所述层连Bi-LSTM网络中，后一层的输入为前一层的输入与输出的拼接。