CN112732872B

CN112732872B - 面向生物医学文本的基于主题注意机制的多标签分类方法

Info

Publication number: CN112732872B
Application number: CN202110038330.XA
Authority: CN
Inventors: 周德宇; 叶晨晨
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2022-11-18
Anticipated expiration: 2041-01-12
Also published as: CN112732872A

Abstract

本发明公开了面向生物医学文本的基于主题注意机制的多标签分类方法，包括：生物医学文本预处理；对预处理后的文本构建词向量特征；构建词/句子级的层次注意力机制获得生物医学文档的层次注意力表示；利用词袋模型对文档进行表示；利用神经主题模型获得语料库的词分布和文档主题分布；构建主题注意机制获得文档的主题注意力表示；将两种表示连接后通过神经模型进行多标签分类；在训练集中训练神经网络模型，保存最优模型参数；使用最优模型在测试集上测试，得到样本的多个标签。本发明采用了基于门控循环单元的层次注意力机制和主题注意力机制来进行多标签分类任务，相比以往的多标签文本分类方法，本发明具有更好的分类效果。

Description

面向生物医学文本的基于主题注意机制的多标签分类方法

技术领域

本发明涉及利用计算机对生物医学文本进行多标签文本分类的方法，属于信息处理技术领域。

背景技术

在生物医学领域，越来越多的科学文献为科研人员提供了更丰富的信息来源，同时也给信息检索带来了更大的困难。解决这一问题的有效方法是在生物医学文献数据库中，为每个文档标注一个标签列表。然而，面对海量的生物医学文献，通过人力进行标注的成本是极其昂贵的，而且耗费大量时间。很显然，运用自然语言处理技术进行文本的自动分类变得尤为重要。文本分类是为文本指定一个或多个预定义标签的任务，在生物医学领域有着广泛的应用，包括生物医学文献索引、公共卫生主题推文分类、自动诊断代码分配等。文本分类可以进一步分为两种类型：文本单标签分类与文本多标签分类。前者是指一个样本文本只会有一个标签；后者是指每个文本会有大于等于一个标签。事实上，在生物医学文献中，大多数的论文都会有多个相关主题与之对应，因而每个文档会对应多个标签，属于文本多标签分类范畴。

文本多标签分类任务是机器学习领域的热门任务之一。针对这个问题的解决方法包括：传统的机器学习方法和深度学习方法。传统的机器学习方法采用一些基础的特征工程方法，例如TF-IDF(Term Frequency–Inverse Document Frequency)等对文档内容进行特征表示，然后使用支持向量机(Support Vector Machine，SVM)等分类器进行分类；而深度学习方法，则选择使用更先进的CNN或RNN对文本进行特征抽取，然后进行分类。然而上述方法大多忽略了两个问题：第一，生物医学文本，大多由多个长文本句子组成，不同的句子有着不同的重要程度。仅使用CNN或RNN会忽略长文本中的一些重要句子或内容；第二，生物医学文本具有全局主题信息，这些全局的主题信息可以帮助分类器识别出更多的相关标签。目前的生物医学文本多标签分类方法却忽略了这两个因素。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种面向生物医学文本的基于主题注意力的多标签文本分类方法，该方法能够通过词级注意力机制和句子级注意力机制、以及主题注意力机制进行多标签文本分类任务，可以弥补当前方法的一些局限性。

技术方案：为实现上述目的，本发明采用的技术方案为：

面向生物医学文本的基于主题注意机制的多标签分类方法，包括以下步骤：

(1)对生物医学文本进行预处理，将文档进行分词以及去除停用词；

(2)通过基于门控循环单元的单词级注意力机制对词编码获得句子的表示；包括：使用门控循环单元对单词的嵌入进行编码获得单词隐状态，使用单词级的注意力机制对每个单词的表示进行加权求和，获得句子的表示；

(3)通过基于门控循环单元的句子级注意力机制对句子编码获得文档的表示；包括：使用门控循环单元对句子的表示进行编码获得句子隐状态，使用句子级的注意力机制对每个单词的表示进行加权求和，获得文档的层次注意力表示；

(4)通过词袋模型对文档进行表示，然后利用主题模型获得数据集中的词分布以及所有文档的主题分布；

(5)通过主题分布和词分布构建主题注意力机制，通过主题注意力机制获得文档的主题注意力表示；

(6)将文档的层次注意力表示和文档的主题注意力表示进行连接，通过一个多层感知机将其映射为标签分布，使用Sigmoid激活函数将其映射为各标签上的概率分布；

作为优选，所述步骤(1)中的生物医学文本预处理包括：对文档进行分词，过滤一些停用词等没有语义的单词。

作为优选，所述步骤(2)中对于句子s_i来说，句子的隐状态可以通过门控循环单元表示为

句子的隐状态H_i由每一个词w_ij的隐状态h_ij组成，w_ij代表句子s_i的第j个词的词向量，N_i是句子长度。句子s_i表示为：

其中

是单词W_ij的权重，W_w、b_w、u_w是模型参数，softmax(.)是一个归一化的逻辑回归函数，tanh(.)是双曲正切激活函数。

作为优选，所述步骤(3)中对文档来说，文档的隐状态可以通过门控循环单元表示为

文档隐状态H由每一个句子s_i的隐状态

组成，

代表文档d中第i个句子s_i的表示，M代表文档d中的句子数量。文档d的层次注意力表示d_h为：

其中

是句子s_i的权重，W_s、b_s、u_s是模型参数。

作为优选，所述步骤(4)中使用词袋模型来表示文档内的单词信息，然后通过ProdLDA神经主题模型来获得语料库的词分布

和文档d的主题分布θ_d。

作为优选，所述步骤(5)中构建主题注意力机制包括：

a)通过多层感知机将词分布

编码为主题嵌入E_topic＝<E_{topic 1}，E_{topic 2}，...，E_topicK>，计算方法如下：

其中W_E、b_E是模型参数，tanh(.)是双曲正切激活函数。

b)将文档d的层次注意力表示d_h与文档主题嵌入E_topic构建文档-主题相似度矩阵M_d，然后利用文档-主题相似度矩阵M_d与文档d的主题分布θ_d来获得文档d的主题注意力表示d_topic，计算方法如下：

M_d＝d_h·θ_d

d_topic＝M_d·θ_d

作为优选，所述步骤(6)包括将文档d的层次注意力表示d_h和主题注意力表示d_topic连接，然后通过多层感知机将其映射为标签分布，并使用Sigmoid激活函数将其映射为各标签上的概率分布，计算方法如下：

dis＝Sigmoid(MLP(d_h：d_topic))

其中Sigmoid(.)是Sigmoid激活函数，：是向量连接操作，然后利用预先设定的阈值，选出dis中大于阈值的标签得到文档d的标签集；

作为优选，文本多标签任务旨在学习标签分布函数g(d_i)＝[g₁(di)，g₂(d_i)，...，g_T(d_i)]为每一个标签c_j(j＝1，2，...，T)分配一个置信度g_j(d_i)，其中T为标签数量，d_i为训练集中的第i个生物医学文档；学习时使用的二元交叉熵损失函数表示为：

其中w_t是第t个标签对应的权重，y_t是真实的第t个标签值，

是预测的第t个标签概率值，log(.)是对数函数，

是所有标签上的损失。

附图说明

图1是本发明实施例的方法流程图。

图2是本发明实施基于主题注意力的多标签文本分类模型示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

问题可以描述如下：假设有T个标签集合C＝{c₁，...，c_T}和K个文档D＝{d₁，d₂，...，d_K}，每个文档d_i都有相应的标签集合

多标签文本分类任务旨在学习标签打分函数g(d_i)＝[g₁(d_i)，g₂(d_i)，...，g_T(d_i)]为每个标签c_j(j＝1，2，...，T)分配一个分数g_j(d_i)。为了区分文档具有的标签和无关标签，定义一个阈值g_θ(d_i)，该阈值通常设置为固定值，分数低于阈值则认为样本不具有该标签。

本发明实施例公开的一种面向生物医学文本的基于主题注意力的多标签文本分类模型。如图1所示，主要包括如下步骤：

S1：对于生物医学文本的数据集中给定的一个文档d进行分词，去除停用词，得到处理后的文档d＝{s₁，s₂，...，sM}以及句子

其中s_i表示文档d中的第i句的单词序列，w_ij表示文档d的第i个句子中的第j个单词的词向量，M是文档中的句子数目，N_i是句子中的单词数目。

S2：构建基于GRU(门控循环单元)的单词级注意力机制对词编码获得句子的表示，具体包括：

首先针对句子中的每一个词，将其映射为一个预先训练好的词向量，则一个句子可以表示为

w_ij代表句子s_i的第j个词的词向量，N_i是句子长度。由于自然语言通常具有较长的文档，本方法选择使用GRU这一循环神经网络作为编码器。在句子级循环神经网络中，对于句子s_i来说，状态可以表示为：

它包括对于每一个单词w_ij的隐状态

对于一个句子中的所有单词而言，每一个单词对于句子的重要程度是不同的，因此引入了单词级别的注意力机制来提取重要的单词，并将这些注意力信息和词汇表示进行加权，形成了最终的句子表示。计算方法如下：

其中

S3：构建基于GRU的句子级注意力机制对句子编码获得文档的表示，具体包括：

在句子级注意力机制中，使用了基于GRU的循环神经网络作为编码器，对于文档d来说，状态可以表示为：

它是由每一个句子s_i的隐状态

组成。对于一个文档中的所有句子而言，每一个句子对于文档的重要程度是不同的，因此引入了句子级别的注意力机制来提取重要的句子，并将这些注意力信息和句子表示进行加权，形成了最终的句子层次注意力表示d_h。计算方法如下：

S4：对文档d中出现的单词利用词袋模型进行表示，则一个文档可以表示为

其中

代表为词表中第i个词在文档d中出现的次数，V指词表中所有词的数量。然后通过主题模型ProdLDA获得文档d的主题分布

和语料库中的词分布

其中K为主题模型中设定的主题数量。

S5：通过主题分布θ和词分布

构建主题注意力机制，具体包括：

通过MLP将词分布

编码成为主题嵌入

计算方法如下：

其中W_E、b_E是模型参数，tanh(.)是双曲正切激活函数。然后将文档d的层次注意力表示d_h与文档嵌入进行点积，求解文档-主题相似度矩阵M_d；将文档-主题相似度矩阵M_d与文档d的主题分布θ_d进行点积，获得第i个文档的主题注意力表示d_topic。计算方法如下：

M_d＝d_h·E_topic

d_topic＝M_d·θ_d

S6：将文档d所对应的层次注意力表示d_h和主题注意力表示d_topic连接，通过一个多层感知机将其映射为标签分布，并使用Sigmoid函数将其映射为各标签上的概率分布，具体如下：

dis＝Sigmoid(MLP(d_h：d_topic))

其中Sigmoid(.)是Sigmoid激活函数，：是指向量连接操作。然后使用预先设定的阈值，选出dis中大于阈值的标签得到文档d的标签集合L_d＝{l₁，l₂，...，l_Q}。

多标签文本分类任务是学习到标签分数函数g，为了训练模型学习该函数，使用了二元交叉熵损失函数，具体如下：

其中w_t是第t个标签对应的权重，y_t是真实的第t个标签值，

是预测的第t个标签概率值，log(.)是对数函数，

是所有标签上的损失。

一种面向生物医学文本的基于主题注意力的多标签文本分类方法的算法流程如下：

本发明在实验过程中，实验参数设置如下：使用gensim对文档进行分词，预训练词向量使用Bert，词向量维度为768，中间层隐向量维度为100，主题嵌入维度为150，标签阈值设置为0.5。使用Adam优化器对神经网络进行优化，。在癌症症状(Hallmarks of cancersclassification)数据集上Precision为0.882，Recall为0.887，F1为0.885，性能均优于现有生物医学文本多标签分类方法。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.面向生物医学文本的基于主题注意机制的多标签分类方法，其特征在于，包括以下步骤：

(2)通过基于门控循环单元的单词级注意力机制对词编码获得句子的表示；包括：

使用门控循环单元对单词的嵌入进行编码获得单词隐状态，使用单词级的注意力机制对每个单词的表示进行加权求和，获得句子的表示；

(3)通过基于门控循环单元的句子级注意力机制对句子编码获得文档的表示；包括：

使用门控循环单元对句子的表示进行编码获得句子隐状态，使用句子级的注意力机制对每个单词的表示进行加权求和，获得文档的层次注意力表示；

(6)将文档的层次注意力表示和文档的主题注意力表示进行连接，通过一个多层感知机将其映射为标签分布，使用Sigmoid激活函数将其映射为各标签上的概率分布。

2.根据权利要求1所述的面向生物医学文本的基于主题注意机制的多标签分类方法，其特征在于，所述步骤(1)生物医学文本预处理包括：对文档进行分词，过滤没有语义的单词，包括停用词。

3.根据权利要求1所述的面向生物医学文本的基于主题注意机制的多标签分类方法，其特征在于，所述步骤(2)中对于句子s_i来说，通过门控循环单元获得句子的隐状态H_i，句子的隐状态表示为

句子的隐状态H_i由每一个词w_ij的隐状态h_ij组成，w_ij代表句子s_i的第j个词的词向量，N_i是句子长度；句子s_i表示为：

其中

4.根据权利要求1所述的面向生物医学文本的基于主题注意机制的多标签分类方法，其特征在于，所述步骤(3)中对文档来说，通过门控循环单元获得文档的隐状态H，文档的隐状态表示为

文档隐状态H由每一个句子s_i的隐状态

组成，

代表文档d中第i个句子s_i的表示，M代表文档d中的句子数量；文档d的层次注意力表示d_h为：

其中

是句子s_i的权重，W_s、b_s、u_s是模型参数。

5.根据权利要求1所述的面向生物医学文本的基于主题注意机制的多标签分类方法，其特征在于，所述步骤(4)中使用词袋模型来表示文档内的单词信息，然后通过ProdLDA神经主题模型来获得语料库的词分布

和文档d的主题分布θ_d。

6.根据权利要求1所述的面向生物医学文本的基于主题注意机制的多标签分类方法，其特征在于，所述步骤(5)中构建主题注意力机制包括：

a)通过多层感知机将词分布

编码为主题嵌入E_topic＝<E_{topic 1}，E_{topic 2}，…，E_topicK>，计算方法如下：

其中W_E、b_E是模型参数，tanh(.)是双曲正切激活函数；

M_d＝d_h·θ_d

d_topic＝M_d·θ_d

7.根据权利要求1所述的面向生物医学文本的基于主题注意机制的多标签分类方法，其特征在于，所述步骤(6)包括将文档d的层次注意力表示d_h和主题注意力表示d_topic连接，然后通过多层感知机将其映射为标签分布，并使用Sigmoid激活函数将其映射为各标签上的概率分布，计算方法如下：

dis＝Sigmoid(MLP(d_h：d_topic))

其中Sigmoid(.)是Sigmoid激活函数，：是向量连接操作，然后利用预先设定的阈值，选出dis中大于阈值的标签得到文档d的标签集。

8.根据权利要求1所述的面向生物医学文本的基于主题注意机制的多标签分类方法，其特征在于，文本多标签任务旨在学习标签分布函数g(d_i)＝[g₁(d_i)，g₂(d_i)，...，g_T(d_i)]为每一个标签c_j，其中j＝1，2，…，T；分配一个置信度g_j(d_i)，其中T为标签数量，d_i为训练集中的第i个生物医学文档；学习时使用的二元交叉熵损失函数表示为：

其中w_t是第t个标签对应的权重，y_t是真实的第t个标签值，

是预测的第t个标签概率值，log(.)是对数函数，

是所有标签上的损失。