CN114328927A - 基于标签感知的门控循环采集方法 - Google Patents
基于标签感知的门控循环采集方法 Download PDFInfo
- Publication number
- CN114328927A CN114328927A CN202111655179.0A CN202111655179A CN114328927A CN 114328927 A CN114328927 A CN 114328927A CN 202111655179 A CN202111655179 A CN 202111655179A CN 114328927 A CN114328927 A CN 114328927A
- Authority
- CN
- China
- Prior art keywords
- time step
- text
- label
- classification
- acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于标签感知的门控循环采集方法,包括如下步骤:S1、混合注意力层:混合注意层计算前一时间步分类预测向量与当前时间步文本词嵌入之间的注意权重;S2、文本特征提取层:使用卷积神经网络来提取文本特征;S3、循环采集层:门控循环单元根据前一时间步的分类结果和当前时间步的文本特征进行分类预测。本发明的分类结果具有更高的F1值(F1score)和更低的汉明损失(Hamming‑loss)。这说明模型的多次重读机制能够提升多标签分类的性能。本发明针对现有多标签分类算法的不足,将多标签分类任务建模为一个循环决策过程,考虑到了标签间的相关性,提升了模型的分类性能。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于标签感知的门控循环采集方法。
背景技术
多标签分类是自然语言处理的一个重要研究方向。对于多标签分类问题来说,给定一个文档,可能有一个或多个标签与之匹配,并且标签之间存在相关性,因此比单标签分类任务更具挑战性。多标签分类可以用于情感分析、信息检索、推荐系统等实际场景。
多标签分类任务主要有两种解决方法:问题转化和算法适应。问题转化方法将多标签分类问题转化为一组单标签分类问题,然后采用单标签分类算法进行处理。最具代表性的问题转化方法有二元关联算法(BinaryRelevance)、标签幂集算法(LabelPowerset)、分类器链算法(ClassifierChains)等。二元关联算法为每个标签单独训练分类器,因此无法利用标签间的关联性。标签幂集算法将多标签分类问题转化为多类别分类问题,将训练集中每个唯一的标签集视为一个类。在测试时,给定一个新样本,模型预测出样本最可能对应的类别,这个类别表示原始数据集中的一组类别。分类器链算法由单标签二进制分类器组成,每个分类器处理的特征由链中所有描述性特征和前一个分类器的预测组成的增强特征。算法适应方法则是对算法进行更新以适应多标签分类任务。如排序支持向量机算法(Rank-SVM)对支持向量机进行了优化,多标签k近邻算法(ML-kNN)使用k近邻的方法处理多标签分类问题。
近年来,一些深度学习的模型被用于多标签分类,并获得显著成效。深层卷积神经网络(VDCNN)使用大量的卷积层提取更丰富的文本信息以提升多标签分类性能。CNN-RNN算法使用卷积神经网络捕获文本特征,然后使用递归神经网络对标签的高阶相关性进行建模。
以上是多标签分类的一些相关工作,通过问题转化、算法适应和神经网络来解决多标签分类问题,但是这些方法没有考虑到标签和文本之间的语义信息。现有技术缺点:现有的统计学习多标签分类算法如二元关联算法、标签幂集算法、分类器链算法等只考虑了标签之间的一阶或二阶相关性,或在考虑高阶相关性时计算困难。现有的深度学习模型如深层卷积神经网络和CNN-RNN模型没有考虑到标签和文本之间的语义信息。为此,我们提出一种基于标签感知的门控循环采集方法,以解决上述背景技术中提到的问题。
发明内容
本发明的目的在于提供一种基于标签感知的门控循环采集方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于标签感知的门控循环采集方法,包括如下步骤:
S1、混合注意力层:混合注意层计算前一时间步分类预测向量与当前时间步文本词嵌入之间的注意权重;
S2、文本特征提取层:使用卷积神经网络来提取文本特征;
S3、循环采集层:门控循环单元根据前一时间步的分类结果和当前时间步的文本特征进行分类预测。
模型在每次循环采集之后,会产生不同的分类结果,根据上一时间步t-1的分类结果,动态调整在当前时间步t采集时需要关注的文本内容;
其中然后对qt和kt进行点积缩放注意计算如下:求出的αt是原始的点积缩放注意力权重,在初始采集时,初始化为全零向量,得到的α1会使得文本词嵌入缩小为原来数值的m是文本序列的单词个数,将加权后的词嵌入放大m倍,得到t时间步的加权文本词嵌入et:et=m·αt·x1:m。
所述文本特征提取层:使用卷积神经网络对加权后的文本词嵌入进行文本特征提取;省略当前时间步t上标,表示时间步t时的加权文本词嵌入,是加权文本列向量的串联;卷积核其中一个维度应该等于词嵌入的维度k,另一个维度为卷积核的窗口大小h;
将ei:i+h-1表示为h个相邻的词向量,卷积核对ei:i+h-1进行卷积提取到特征oj,i:
oj=max{oj,1,oj,2,…,oj,m-h+1};
所述循环采集层:在时间步t,循环采集层会得到不同于时间步t-1的文本特征向量ot,因为特征提取层的输入是动态调整的;一部分标签会在采集初期被预测,而另一部分标签需要采集多次才能被预测;需要保留那些依据当前信息已经足够进行分类的标签预测结果,剩下的部分标签还需要随后多次采集所提供的信息;
门控循环单元,即GRU最初是用于机器翻译领域,它通过重置门,即resetgate和更新门,即updategate缓解在循环神经网络中因句子过长而导致的梯度消失问题;重置门决定如何将t时间步的新的句子信息与上一时间步t-1的隐藏层信息结合起来,更新门决定更新或保留哪些隐藏信息;
其中更新门Γu和重置门Γr中的数值非常接近0和1,以更新门Γu中的一个数值为例,对于其对应的一个标签元素来说,当Γu接近0时代表在当前时间步t时这个标签的分类结果沿用上一时间步t-1的分类结果,而当Γu接近1时,表示这个标签的分类结果需要被更新。
与现有技术相比,本发明的有益效果是:本发明提供的一种基于标签感知的门控循环采集方法,本发明的分类结果具有更高的F1值(F1score)和更低的汉明损失(Hamming-loss)。这说明模型的多次重读机制能够提升多标签分类的性能。本发明针对现有多标签分类算法的不足,将多标签分类任务建模为一个循环决策过程,考虑到了标签间的相关性,提升了模型的分类性能。
附图说明
图1为本发明一种基于标签感知的门控循环采集方法的流程示意图;
图2为本发明标签感知注意力的示意图;
图3为本发明文本特征提取层的示意图;
图4为本发明更新门计算图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明目的:针对现有多标签分类算法的不足,本发明提出了基于标签感知的门控循环采集的概念和算法,将多标签分类任务建模为一个循环决策过程,考虑到了标签间的相关性,提升了模型的分类性能。
本发明要解决的技术问题:在自然语言处理领域,多标签分类是给一个文本文档分配一个或多个标签。本发明是对现有的多标签分类问题和方法的拓展,在现有的研究基础上提出循环采集的概念并提供了门控循环采集算法。本发明所要解决的技术问题是挖掘出标签和文本之间的语义信息,和标签之间的高阶相关性。本发明所解决的最终目标是给定一段文本,输出与之相关的一个或多个标签。
本发明专利提出了门控循环采集的概念并提供了多标签分类的算法,将多标签文本分类建模为一个反复采集的决策过程,并根据每个时间步的决策动态调整单词嵌入权重。我们的工作受到了人类认知过程的启发:在人做采集理解题的时候,很难通过一次采集回答所有的问题,有一些题目需要通过带着重点读原文,在循环采集的过程中提高解答的准确性。
实现这个框架,需要解决两个问题:如何根据每次采集后的预测结果动态调整下一时间步的文本内容,以及如何对多次采集产生的预测标签进行建模。
每一个时间步都需要生成一个预测结果,如果下一个时间步采集的文本内容和当前时间步采集的文本内容一致,那么循环采集的思想就失去了意义。因此模型需要根据当前时间步产生的预测结果,动态调整下一个时间步的采集内容。我们引入了注意力机制,用当前时间步的预测向量和文本词嵌入计算出注意力权重,求得的注意力权重可以用来调整下一时间步的词嵌入。
神经科学的实验发现,自上而下的调节是选择性注意力的基本机制。大脑高阶皮层区域可以通过反馈链接影响低阶皮层区域的信息处理。根据该理论,如果将做出分类决策的神经网络模块类比为高阶皮层,将处理词嵌入的模块类比为低阶皮层,然后利用前一时间步的分类结果获得下一时间步的词嵌入注意力权重,这种方法利用了自上而下的信号。
本发明提供了如图1-6的一种基于标签感知的门控循环采集方法,本发明的算法模型可以分为三个部分:混合注意力层、文本特征提取层和重读层(即循环采集层)。
一种基于标签感知的门控循环采集方法,包括如下步骤:
S1、混合注意力层:混合注意层计算前一时间步分类预测向量与当前时间步文本词嵌入之间的注意权重;
S2、文本特征提取层:使用卷积神经网络来提取文本特征;
S3、循环采集层:门控循环单元根据前一时间步的分类结果和当前时间步的文本特征进行分类预测。
(一)混合注意力层:
其中表示串联运算符,标签分类向量初始化为其中L是标签的个数,模型在第n次循环采集后输出的预测向量为其元素范围在-1到1之间。模型在每次循环采集之后,会产生不同的分类结果,我们根据上一时间步t-1的分类结果,动态调整在当前时间步t采集时需要关注的文本内容。
kt=WKx1:m;
求出的αt是原始的点积缩放注意力权重。但是在我们的模型中,这种权重会使词嵌入数值变小。
具体来说,在初始采集时,初始化为全零向量,得到的α1会使得文本词嵌入缩小为原来数值的m是文本序列的单词个数。因此我们将加权后的词嵌入放大m倍,得到t时间步的加权文本词嵌入et:et=m·αt·x1:m。
(二)文本特征提取层:
我们使用卷积神经网络对加权后的文本词嵌入进行文本特征提取。为了简化,我们在这个部分省略当前时间步t上标,表示时间步t时的加权文本词嵌入,是加权文本列向量的串联。因为是对文本进行卷积操作,所以卷积核其中一个维度应该等于词嵌入的维度k,另一个维度为卷积核的窗口大小h。将ei:i+h-1表示为h个相邻的词向量,卷积核对ei:i+h-1进行卷积提取到特征oj,i:
oj=max{oj,1,oj,2,…,oj,m-h+1};
(三)循环采集层:
在时间步t,循环采集层会得到不同于时间步t-1的文本特征向量ot,因为特征提取层的输入是动态调整的。一部分标签会在采集初期被预测,而另一部分标签需要采集多次才能被预测。我们需要保留那些依据当前信息已经足够进行分类的标签预测结果,剩下的部分标签还需要随后多次采集所提供的信息。
门控循环单元(GRU)最初是用于机器翻译领域,它通过重置门(resetgate)和更新门(updategate)缓解在循环神经网络中因句子过长而导致的梯度消失问题。重置门决定如何将t时间步的新的句子信息与上一时间步t-1的隐藏层信息结合起来,更新门决定更新或保留哪些隐藏信息。
门控循环单元对于句子隐藏信息的更新保留机制能够适用于我们的问题,这个问题就是在每一次循环采集之后如何更新或保留标签分类的结果,其中计算过程如图5所示。我们将文本特征向量ot和上一时间步的分类预测输入门控循环单元,得到当前时间步的分类预测计算步骤如下:
其中更新门Γu和重置门Γr中的数值非常接近0和1,其计算过程如图4所示。以更新门Γu中的一个数值为例,对于其对应的一个标签元素来说,当Γu接近0时代表在当前时间步t时这个标签的分类结果沿用上一时间步t-1的分类结果,而当Γu接近1时,表示这个标签的分类结果需要被更新。计算过程如图6所示。
(四)损失函数:
当一个文本被循环采集n次之后,得到模型最终的分类预测向量其元素值域在-1到1之间。元素值接近1代表文本中存在这个标签,而接近-1则不存在。样本真实标签向量为y,其元素值为0或1。我们使用缩放权重ws对预测分类向量进行加权变换,使其元素值域在送入sigmoid函数σ之前进行缩放。我们使用二进制交叉熵损失函数来计算样本损失值:
本发明方法在两个公开数据集:RCV1-V2和AAPD上进行了反复测试。两个数据集分别包含804,414和55,840条数据,分别涉及103和54个类别。通过对不同的重读次数n进行测试,在不同大小的数据集进行测试,本发明专利所提供的方法在一定的重读次数范围内,在分类性能上具有显著优势。
综上所述,与现有技术相比,本发明的分类结果具有更高的F1值(F1score)和更低的汉明损失(Hamming-loss)。这说明模型的多次重读机制能够提升多标签分类的性能。本发明针对现有多标签分类算法的不足,将多标签分类任务建模为一个循环决策过程,考虑到了标签间的相关性,提升了模型的分类性能。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于标签感知的门控循环采集方法,其特征在于:包括如下步骤:
S1、混合注意力层:混合注意层计算前一时间步分类预测向量与当前时间步文本词嵌入之间的注意权重;
S2、文本特征提取层:使用卷积神经网络来提取文本特征;
S3、循环采集层:门控循环单元根据前一时间步的分类结果和当前时间步的文本特征进行分类预测。
2.根据权利要求1所述的一种基于标签感知的门控循环采集方法,其特征在于:所述混合注意力层:一个包含m个词的文本序列标记为(w1,w2,…,wm),每个单词将被映射到随机初始化的词嵌入矩阵,定义是句子中的第i个词对应的k维词向量,一个包含m个词的句子表示为:
模型在每次循环采集之后,会产生不同的分类结果,根据上一时间步t-1的分类结果,动态调整在当前时间步t采集时需要关注的文本内容;
3.根据权利要求1所述的一种基于标签感知的门控循环采集方法,其特征在于:所述文本特征提取层:使用卷积神经网络对加权后的文本词嵌入进行文本特征提取;省略当前时间步t上标,表示时间步t时的加权文本词嵌入,是加权文本列向量的串联;卷积核其中一个维度应该等于词嵌入的维度k,另一个维度为卷积核的窗口大小h;
将ei:i+h-1表示为h个相邻的词向量,卷积核对ei:i+h-1进行卷积提取到特征oj,i:
oj=max{oj,1,oj,2,…,oj,m-h+1};
4.根据权利要求1所述的一种基于标签感知的门控循环采集方法,其特征在于:所述循环采集层:在时间步t,循环采集层会得到不同于时间步t-1的文本特征向量ot,因为特征提取层的输入是动态调整的;一部分标签会在采集初期被预测,而另一部分标签需要采集多次才能被预测;需要保留那些依据当前信息已经足够进行分类的标签预测结果,剩下的部分标签还需要随后多次采集所提供的信息;
门控循环单元,即GRU最初是用于机器翻译领域,它通过重置门,即resetgate和更新门,即updategate缓解在循环神经网络中因句子过长而导致的梯度消失问题;重置门决定如何将t时间步的新的句子信息与上一时间步t-1的隐藏层信息结合起来,更新门决定更新或保留哪些隐藏信息;
其中更新门Γu和重置门Γr中的数值非常接近0和1,以更新门Γu中的一个数值为例,对于其对应的一个标签元素来说,当Γu接近0时代表在当前时间步t时这个标签的分类结果沿用上一时间步t-1的分类结果,而当Γu接近1时,表示这个标签的分类结果需要被更新。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111655179.0A CN114328927A (zh) | 2021-12-30 | 2021-12-30 | 基于标签感知的门控循环采集方法 |
PCT/CN2022/112682 WO2023124110A1 (zh) | 2021-12-30 | 2022-08-16 | 基于标签感知的门控循环采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111655179.0A CN114328927A (zh) | 2021-12-30 | 2021-12-30 | 基于标签感知的门控循环采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114328927A true CN114328927A (zh) | 2022-04-12 |
Family
ID=81019203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111655179.0A Pending CN114328927A (zh) | 2021-12-30 | 2021-12-30 | 基于标签感知的门控循环采集方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114328927A (zh) |
WO (1) | WO2023124110A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023124110A1 (zh) * | 2021-12-30 | 2023-07-06 | 深圳市检验检疫科学研究院 | 基于标签感知的门控循环采集方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117828407B (zh) * | 2024-03-04 | 2024-05-14 | 江西师范大学 | 双向跳跃存储的双阶段门控注意力时序分类方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10417498B2 (en) * | 2016-12-30 | 2019-09-17 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for multi-modal fusion model |
CN111522908A (zh) * | 2020-04-09 | 2020-08-11 | 国网上海市电力公司 | 一种基于BiGRU和注意力机制的多标签文本分类方法 |
CN111859978B (zh) * | 2020-06-11 | 2023-06-20 | 南京邮电大学 | 一种基于深度学习的情感文本生成方法 |
CN113128622B (zh) * | 2021-05-12 | 2022-05-31 | 齐鲁工业大学 | 基于语义-标签多粒度注意力的多标签分类方法及系统 |
CN114328927A (zh) * | 2021-12-30 | 2022-04-12 | 深圳市检验检疫科学研究院 | 基于标签感知的门控循环采集方法 |
-
2021
- 2021-12-30 CN CN202111655179.0A patent/CN114328927A/zh active Pending
-
2022
- 2022-08-16 WO PCT/CN2022/112682 patent/WO2023124110A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023124110A1 (zh) * | 2021-12-30 | 2023-07-06 | 深圳市检验检疫科学研究院 | 基于标签感知的门控循环采集方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023124110A1 (zh) | 2023-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102008845B1 (ko) | 비정형 데이터의 카테고리 자동분류 방법 | |
CN108009148B (zh) | 基于深度学习的文本情感分类表示方法 | |
CN110969020A (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN108460089A (zh) | 基于Attention神经网络的多元特征融合中文文本分类方法 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及系统 | |
CN109376242A (zh) | 基于循环神经网络变体和卷积神经网络的文本分类算法 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN110807320A (zh) | 基于cnn双向gru注意力机制的短文本情感分析方法 | |
CN109165387A (zh) | 一种基于gru神经网络的中文评论情感分析法 | |
WO2023124110A1 (zh) | 基于标签感知的门控循环采集方法 | |
CN111046183A (zh) | 用于文本分类的神经网络模型的构建方法和装置 | |
CN111984791B (zh) | 一种基于注意力机制的长文分类方法 | |
CN111078833A (zh) | 一种基于神经网络的文本分类方法 | |
CN113361278B (zh) | 一种基于数据增强与主动学习的小样本命名实体识别方法 | |
CN110826298B (zh) | 一种智能辅助定密系统中使用的语句编码方法 | |
CN110851594A (zh) | 一种基于多通道深度学习模型的文本分类方法及其装置 | |
CN111476024A (zh) | 一种文本分词方法、装置及模型训练方法 | |
CN113220865B (zh) | 一种文本相似词汇检索方法、系统、介质及电子设备 | |
CN114722805B (zh) | 基于大小导师知识蒸馏的少样本情感分类方法 | |
CN110263174A (zh) | —基于焦点关注的主题类别分析方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN111651993A (zh) | 融合局部-全局字符级关联特征的中文命名实体识别方法 | |
CN111581974A (zh) | 一种基于深度学习的生物医学实体识别方法 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |