CN113569049B - 一种基于层次Trans-CNN的多标签文本分类方法 - Google Patents
一种基于层次Trans-CNN的多标签文本分类方法 Download PDFInfo
- Publication number
- CN113569049B CN113569049B CN202110915378.4A CN202110915378A CN113569049B CN 113569049 B CN113569049 B CN 113569049B CN 202110915378 A CN202110915378 A CN 202110915378A CN 113569049 B CN113569049 B CN 113569049B
- Authority
- CN
- China
- Prior art keywords
- features
- sentence
- word
- label
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 101000710137 Homo sapiens Recoverin Proteins 0.000 claims description 2
- 102100034572 Recoverin Human genes 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000007635 classification algorithm Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自然语言处理技术领域,具体涉及一种基于层次Trans‑CNN的多标签文本分类算法,包括如下步骤:S1、数据预处理;S2、对单词进行特征提取;S3、对句子进行特征提取;S4、将词特征和句子特征融合;S5、将融合后的特征通过卷积层,提取特征;S6、将得到的卷积特征通过全连接网络,对文本进行分类;本发明解决无法充分捕捉文本语义信息,无法获取到句子与句子之间、段落与段落之间的详细信息,造成语义信息部分缺失的问题。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于层次Trans-CNN的多标签文本分类方法。
背景技术
随着互联网信息技术的飞速发展以及5G时代的到来,海量的数据信息呈爆炸式增长,其中又以文本数据最为丰富。在有限的时间内快速且准确的获得文本信息的核心内容成为一个具有实际意义的挑战。而文本分类就是一个能够有效解决信息过载问题的一个基石,通过对文本内容进行标签分类,能够有效的为文本检索和文本推荐提供基础信息,从而极大的提高人们的检索效率和阅读体验。
文本分类一直是自然语言处理最为基础但又极为重要的研究领域,它的目标是自动的根据文本的内容为其分配一组预定义的标签,从而达到文本分类的目的。文本分类一般会分为单标签文本分类和多标签文本分类。单标签文本分类指的是一个文本只会对应一个标签,比如传统的情感分析,每个文本只会对应消极,积极和中性中的其中一个标签。在多标签文本分类中,一个文本可能会对应一个或多个标签,其中不同标签可能会具有层次性关系,比如一篇新闻可能会属于经济领域下的房地产标签。多标签文本分类比单标签文本分类能够更精细和全面的表示文本内容,更加符合现实世界的实际需求,逐渐成为文本分类的主流研究方向。
传统的多标签文本分类方法,特别是深度学习,取得了显著的效果。然而,这些方法大多使用word2vec技术来表示连续的文本信息,而无法充分捕捉文本语义信息,传统的方法是提取到每个句子直接的详细信息,但无法获取到句子与句子之间、段落与段落之间的详细信息,会造成语义信息的部分缺失。
发明内容
针对上述的不足,本发明目的解决无法充分捕捉文本语义信息,无法获取到句子与句子之间、段落与段落之间的详细信息,造成语义信息部分缺失等问题。
为实现上述目的,本发明提供如下技术方案:
一种基于层次Trans-CNN的多标签文本分类方法,包括如下步骤:
S1、数据预处理;
S2、对单词进行特征提取;
S3、对句子进行特征提取;
S4、将词特征和句子特征融合;
S5、将融合后的特征通过卷积层,提取特征;
S6、将得到的卷积特征通过全连接网络,对文本进行分类。
本发明技术方案的进一步改进在于,S1包括如下步骤:
S11、使用RCV1和AAPD数据集,将文本中的特殊字符去除;
S12、将每个标签种类下的文本中,每个句子的单词少于10的句子去除,句子数目少于40条的文本去除。
本发明技术方案的进一步改进在于,S2包括如下步骤:
S21、根据Transformer中的encoder构建word-encoder神经网络;
S22、将每个标签下的文本中的单词通过word-encoder网络,得到词向量特征。
本发明技术方案的进一步改进在于,S3包括如下步骤:
S31、根据Transformer中的encoder构建sentence-encoder神经网络;
S32、将每个标签下的文本中的句子通过sentence-encoder网络,得到句子向量特征。
本发明技术方案的进一步改进在于,S5包括如下步骤:
S51、将S4得到的融合特征,通过卷积核为1×Ds的卷积神经网络,卷积核数量为n,卷积后得到m×n的向量特征;
其中Ds为句子的嵌入维度,m为句子的个数。
本发明技术方案的进一步改进在于,S6包括如下步骤:
S61、构建全连接神经网络;
S62、将S5得到的特征通过该全连接神经网络后,再使用sigmoid激活函数转换为类别概率。
与现有技术相比,本发明提供一种基于层次Trans-CNN的多标签文本分类方法有益效果如下:
本发明提供一种基于层次Trans-CNN的多标签文本分类方法,该方法解决了传统方法中无法充分捕捉文本语义信息,无法获取到句子与句子之间、段落与段落之间的详细信息,造成语义信息部分缺失的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的整体架构图。
图2为本发明词嵌入向量结构图。
图3为本发明句子卷积神经网络模型结构图。
图4为本发明的前馈神经网络模型结构图。
具体实施方式
下面将通过具体实施方式对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例基于层次Transformer-CNN的多标签文本分类方法,包括如下步骤:
S1、数据预处理;使用两个非常经典的用于多标签分类任务的数据集,ReutersCorpus Volume I(RCV1)和AAPD,前者是新闻领域,是路透社的人工标记新闻数据集,其内容来自1996年至1997年的新闻,后者主要是科技论文领域,是计算机科学领域中的大型数据集,来自知名文献数据库Arxiv;
步骤S1的具体过程为:
S11、对数据处理的好坏程度将直接影响到后续模型的预测能力,我们首先去除数据集中的特殊字符;
S12、去除数据集中的较少语义的数据,将每个标签种类下的文本中,每个句子的单词少于10的句子去除,句子数目少于40条的文本去除;
S2、对单词进行特征提取;单词级别Transformer与传统的Transformer不同之处在于,单词级别Transformer将单词间自注意力的学习范围限制在了句子内部;
步骤S2的具体过程为:
S21、根据Transformer中的encoder构建word-encoder神经网络,如图2所示,多头自注意力的计算公式为下式:
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
其中,Q,K,V为三个矩阵,每个矩阵的维度为N×D,其中N为每个句子中单词的数目,D为单词的嵌入维度,headi定义如下:
headi=Attention(QWi Q,KWi K,VWi V)
其中,Wi Q∈RD×K,Wi K∈RD×K,Wi V∈RD×V,D为单词嵌入维度,K和V为转换后的单词嵌入维度;
S22、将每个标签下的文本中的单词通过word-encoder网络,得到词向量特征;通过单词级别Transformer特征抽取后,可以将每个句子内部的单词嵌入向量进行拼接,这样就可以得到以句子嵌入向量为粒度的文本表示矩阵;
S3、对句子进行特征提取;经过单词级Transformer处理后,每个单词都在句子视野中得到了充分的编码表示,这一步是句子级操作,其处理流程与单词级Transformer类似;
步骤S3的具体过程为:
S31、根据Transformer中的encoder构建sentence-encoder神经网络;
S32、将每个标签下的文本中的句子通过sentence-encoder网络,得到句子向量特征;经过句子级别的Transformer操作后,文本中的句子在全局范围内学习到不同句子的注意力分配,因此每个句子的语义特征更加丰富,有利于模型学习语义特征到类别特征的映射关系;
S4、将词特征和句子特征融合;
S5、将融合后的特征通过卷积层,提取特征;因为文本的所属类别是由文本的语义信息确定的,而文本的语义又是由所包含的句子确定的,所以可以把每个句子视为语义单元,即每个句子对应一种语义特征,所有的句子构成了文本的语义特征。针对这种特性,采用卷积神经网络捕捉每个句子的重点语义;
步骤S5的具体过程为:
S51、构建句子卷积神经网络模型,如图3所示,图中示例是具有7个句子,词嵌入维度为Ds的文本矩阵的一维卷积流程,卷积核大小为1×Ds,卷积核数量为n;
S52、将融合后的特征通过构建好的卷积神经网络,卷积后得到m×n的向量特征,m为句子的个数;经过句子卷积操作后,模型已经充分捕捉到局部语义和全局语义,并建立了从语义特征到类别特征的映射;
S6、将得到的卷积特征通过全连接网络,对文本进行分类;
步骤S6的具体过程为:
S61、构建前馈神经网络模型,如图4所示;
S62、将S5得到的特征通过该前馈神经网络,最后再使用sigmoid激活函数转换为类别概率。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明装置权利要求书确定的保护范围内。
Claims (4)
1.一种基于层次Trans-CNN的多标签文本分类方法,其特征在于,包括如下步骤:
S1、数据预处理;
S2、对单词进行特征提取;具体过程为:
S21、根据Transformer中的encoder构建word-encoder神经网络,多头自注意力的计算公式为下式:
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
其中,Q,K,V为三个矩阵,每个矩阵的维度为N×D,其中N为每个句子中单词的数目,D为单词的嵌入维度,headi定义如下:
headi=Attention(QWi Q,KWi K,VWi V)
其中,Wi Q∈RD×K,Wi K∈RD×K,Wi V∈RD×V,D为单词嵌入维度,K和V为转换后的单词嵌入维度;
S22、将每个标签下的文本中的单词通过word-encoder网络,得到词向量特征;通过单词级别Transformer特征抽取后,将每个句子内部的单词嵌入向量进行拼接,得到以句子嵌入向量为粒度的文本表示矩阵;
S3、对句子进行特征提取;具体过程为:
S31、根据Transformer中的encoder构建sentence-encoder神经网络;
S32、将每个标签下的文本中的句子通过sentence-encoder网络,得到句子向量特征;
S4、将词向量特征和句子向量特征融合;
S5、将融合后的特征通过卷积层,提取特征;
S6、将得到的卷积特征通过全连接网络,对文本进行分类。
2.根据权利要求1所述的一种基于层次Trans-CNN的多标签文本分类方法,其特征在于,S1包括如下步骤:
S11、使用RCV1和AAPD数据集,将文本中的特殊字符去除;
S12、将每个标签种类下的文本中,每个句子的单词少于10的句子去除,句子数目少于40条的文本去除。
3.根据权利要求1所述的一种基于层次Trans-CNN的多标签文本分类方法,其特征在于,S5包括如下步骤:
S51、将S4得到的融合特征,通过卷积核为1×Ds的卷积神经网络,卷积核数量为n,卷积后得到m×n的向量特征;
其中Ds为句子的嵌入维度,m为句子的个数。
4.根据权利要求1所述的一种基于层次Trans-CNN的多标签文本分类方法,其特征在于,S6包括如下步骤:
S61、构建全连接神经网络;
S62、将S5得到的特征通过该全连接神经网络后,再使用sigmoid激活函数转换为类别概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110915378.4A CN113569049B (zh) | 2021-08-10 | 2021-08-10 | 一种基于层次Trans-CNN的多标签文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110915378.4A CN113569049B (zh) | 2021-08-10 | 2021-08-10 | 一种基于层次Trans-CNN的多标签文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113569049A CN113569049A (zh) | 2021-10-29 |
CN113569049B true CN113569049B (zh) | 2024-03-29 |
Family
ID=78171121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110915378.4A Active CN113569049B (zh) | 2021-08-10 | 2021-08-10 | 一种基于层次Trans-CNN的多标签文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569049B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582789A (zh) * | 2018-11-12 | 2019-04-05 | 北京大学 | 基于语义单元信息的文本多标签分类方法 |
CN110968697A (zh) * | 2019-12-20 | 2020-04-07 | 合肥讯飞数码科技有限公司 | 文本分类方法、装置、设备及可读存储介质 |
CN111723196A (zh) * | 2020-05-21 | 2020-09-29 | 西北工业大学 | 基于多任务学习的单文档摘要生成模型构建方法及装置 |
US10929609B1 (en) * | 2017-06-26 | 2021-02-23 | Rm², Llc | Modeling english sentences within a distributed neural network for comprehension and understanding of a news article |
CN113076744A (zh) * | 2021-04-16 | 2021-07-06 | 重庆中国三峡博物馆 | 一种基于卷积神经网络的文物知识关系抽取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020245754A1 (en) * | 2019-06-05 | 2020-12-10 | Financial & Risk Organisation Limited | Machine-learning natural language processing classifier |
US20210183484A1 (en) * | 2019-12-06 | 2021-06-17 | Surgical Safety Technologies Inc. | Hierarchical cnn-transformer based machine learning |
-
2021
- 2021-08-10 CN CN202110915378.4A patent/CN113569049B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10929609B1 (en) * | 2017-06-26 | 2021-02-23 | Rm², Llc | Modeling english sentences within a distributed neural network for comprehension and understanding of a news article |
CN109582789A (zh) * | 2018-11-12 | 2019-04-05 | 北京大学 | 基于语义单元信息的文本多标签分类方法 |
CN110968697A (zh) * | 2019-12-20 | 2020-04-07 | 合肥讯飞数码科技有限公司 | 文本分类方法、装置、设备及可读存储介质 |
CN111723196A (zh) * | 2020-05-21 | 2020-09-29 | 西北工业大学 | 基于多任务学习的单文档摘要生成模型构建方法及装置 |
CN113076744A (zh) * | 2021-04-16 | 2021-07-06 | 重庆中国三峡博物馆 | 一种基于卷积神经网络的文物知识关系抽取方法 |
Non-Patent Citations (6)
Title |
---|
Hierarchical Graph Transformer-Based Deep Learning Model for Large-Scale Multi-Label Text Classification;JIBING GONG等;IEEE Access;第8卷;第30885-30896页 * |
Universal sentence encoder for English;Cer, D.等;In Proceedings of the 2018 conference on empirical methods in natural language processing: system demonstrations;第169-174页 * |
基于LSTM-Attention神经网络的文本特征提取方法;赵勤鲁;蔡晓东;李波;吕璐;;现代电子技术(08);全文 * |
基于层次神经网络的新闻文本分类算法研究;李程洋;中国优秀硕士学位论文全文数据库 信息科技辑;第I138-1200页 * |
多标签文本分类研究进展;郝超等;计算机工程与应用;第27卷(第10期);第48-56页 * |
融合用户和产品信息的多头注意力情感分类模型;蒋宗礼;张静;;计算机系统应用(07);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113569049A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918671B (zh) | 基于卷积循环神经网络的电子病历实体关系抽取方法 | |
CN110825845B (zh) | 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法 | |
Yang et al. | Learning to extract semantic structure from documents using multimodal fully convolutional neural networks | |
CN105631479B (zh) | 基于非平衡学习的深度卷积网络图像标注方法及装置 | |
Conneau et al. | Very deep convolutional networks for natural language processing | |
Cornia et al. | Explaining digital humanities by aligning images and textual descriptions | |
CN111581401A (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN114547298B (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN112101031B (zh) | 一种实体识别方法、终端设备及存储介质 | |
CN110781672A (zh) | 基于机器智能的题库生产方法及系统 | |
CN114462420A (zh) | 一种基于特征融合模型的虚假新闻检测方法 | |
CN116662599A (zh) | 一种基于对比学习算法的多模态商标检索方法及系统 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN114201605A (zh) | 一种基于联合属性建模的图像情感分析方法 | |
CN112528989A (zh) | 一种图像语义细粒度的描述生成方法 | |
Boudad et al. | Exploring the use of word embedding and deep learning in arabic sentiment analysis | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 | |
Vatani et al. | An effective automatic image annotation model via attention model and data equilibrium | |
Mu et al. | MOCOLNet: A Momentum Contrastive Learning Network for Multimodal Aspect-Level Sentiment Analysis | |
CN117131935A (zh) | 一种面向期货领域的知识图谱构建方法 | |
Peleshchak et al. | Text Tonality Classification Using a Hybrid Convolutional Neural Network with Parallel and Sequential Connections Between Layers. | |
CN117131877A (zh) | 一种基于对比学习的文本检测方法及系统 | |
CN115795037B (zh) | 一种基于标签感知的多标签文本分类方法 | |
CN113569049B (zh) | 一种基于层次Trans-CNN的多标签文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |