CN114528373A - 一种基于嵌入的新闻多标签分类方法及装置 - Google Patents
一种基于嵌入的新闻多标签分类方法及装置 Download PDFInfo
- Publication number
- CN114528373A CN114528373A CN202210060247.7A CN202210060247A CN114528373A CN 114528373 A CN114528373 A CN 114528373A CN 202210060247 A CN202210060247 A CN 202210060247A CN 114528373 A CN114528373 A CN 114528373A
- Authority
- CN
- China
- Prior art keywords
- text
- embedded
- label
- news
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 82
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 238000013145 classification model Methods 0.000 claims description 10
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于嵌入的新闻多标签分类方法及装置,将文本及其标签用嵌入向量表示,将文本嵌入向量矩阵输入到卷积神经网络模块,提取文本特征向量,将文本嵌入向量矩阵输入到双向门控循环单元网络模块,得到文本单词的上下文嵌入表示,将标签嵌入向量矩阵和文本单词的上下文嵌入表示输入到标签注意力模块,得到基于标签的文本特征向量,拼接文本特征向量和文本基于标签的特征向量,输入到文本分类器模块,输出文本分类结果。本发明从标签嵌入向量表示和文本嵌入向量表示中学习得到文本特征向量,提高新闻多标签分类的准确性。
Description
技术领域
本申请属于自然语言处理技术领域,尤其涉及一种基于嵌入的新闻多标签分类方法及装置。
背景技术
随着互联网时代的到来,人们每天可以几乎实时知道发生在世界各地的事情,而互联网平台上的新闻在这其中扮演了重要的角色。类似今日头条、搜狗新闻、新浪等平台上,每天都有大量的新闻文本产生,有体育、政治、经济、娱乐、艺术等等主题,而如何对新闻的主题进行准确的分类,在用户推荐系统、舆情分析等领域有着重要的作用。
文本分类是自然语言处理领域一个基本而重要的任务。新闻文本的多标签分类首先要对文本进行一些预处理,包括分句、分词、去除停用词等等。得到干净的文本之后需要对文本进行向量化,进行特征的提取。传统文本向量化主要基于词袋模型、TF-IDF等统计方法来得到代表文本的一个定长的向量表示,最后使用支持向量机进行文本分类。而随着深度学习的迅猛发展,2013年提出的word2vec模型,成功将文本中每个单词用一个低维稠密的定长向量表示。这些定长的向量表示很好地涵盖了单词的上下文信息,成为将深度神经网络应用到文本领域的重要基础。之后的卷积神经网络(CNN)、循环神经网络(RNN)也成功应用于文本领域,并刷新了当时文本分类的最好结果。但是LSTM和CNN这些模型对文本进行序列建模的时候往往只考虑了文本的信息,很少去关注标签的信息,尤其对于多标签分类而言,标签本身具有丰富的信息。因此,引入标签嵌入,在新闻文本分类过程当中增加标签信息,来进一步提升分类的精度,是本领域技术人员研究的一个课题。
发明内容
为了克服现有文本分类方法中输入文本的语义信息不足问题,更全面捕获文本特征信息,提升新闻文本多标签分类性能,本申请提出了一种基于嵌入的新闻多标签分类方法及装置。
为了实现上述目的,本申请技术方案如下:
一种基于嵌入的新闻多标签分类方法,包括:
收集新闻文本数据,在预处理后,将文本及其标签用嵌入向量表示,得到文本嵌入向量矩阵和标签嵌入向量矩阵;
将文本嵌入向量矩阵输入到卷积神经网络模块,提取文本特征向量;
将文本嵌入向量矩阵输入到双向门控循环单元网络模块,得到文本单词的上下文嵌入表示;
将标签嵌入向量矩阵和文本单词的上下文嵌入表示输入到标签注意力模块,得到基于标签的文本特征向量;
拼接文本特征向量和文本基于标签的特征向量,输入到文本分类器模块,输出文本分类结果。
进一步的,所述文本单词的上下文嵌入表示,包括文本单词的正向上下文嵌入表示和反向上下文嵌入表示 其中表示正向门控循环单元网络第t个单词的上文嵌入向量,表示反向门控循环单元网络第t个单词的下文嵌入向量,xt表示第t个单词的嵌入向量。
进一步的,所述基于标签的文本特征向量表示为:
f2=tanh(W3M);
其中,W3是可训练权重,tanh表示双曲正切激活函数,M为标签对应的特征向量,Z1=LH1为正向标签注意力权重,Z2=LH2为反向标签注意力权重,H1为文本单词的正向上下文嵌入表示,H2为文本单词的反向上下文嵌入表示。
进一步的,所述卷积神经网络模块、双向门控循环单元网络模块、标签注意力模块和文本分类器模块构成神经网络分类模型,所述神经网络分类模型的损失函数为:
进一步的,所述预处理,包括:
对收集的新闻文本,取前N个单词,如果一个新闻文本不足N个单词,不足之处用0填充。
本申请还提出了一种基于嵌入的新闻多标签分类装置,包括处理器以及存储有若干计算机指令的存储器,所述计算机指令被处理器执行时实现所述基于嵌入的新闻多标签分类方法的步骤。
本申请的技术构思为:提出了考虑标签语义信息的多标签分类方法,将标签用预训练嵌入向量表示,并从标签嵌入向量表示和文本嵌入向量表示中学习得到文本特征向量,提高新闻多标签分类的准确性。
附图说明
图1为本申请基于嵌入的新闻多标签分类方法流程图;
图2为本申请神经网络分类模型结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于嵌入的新闻多标签分类方法,包括:
步骤S1、收集新闻文本数据,在预处理后,将文本及其标签用嵌入向量表示,得到文本嵌入向量矩阵和标签嵌入向量矩阵。
本步骤收集B个新闻文本数据,任意一个文本数据包括文本内容及其所属的多个标签类别,在每个新闻文本中取前N个单词,如果一个新闻文本不足N个单词,不足之处用0填充。对每个新闻原始文本进行包括分句、分词、去除停用词、去除标点符号等预处理,得到预处理文本内容。
对预处理后的任意一个文本i,将标签和文本的单词用开源的Chinese WordVector中文预训练单词嵌入向量表示,进而得到文本i的文本嵌入向量其中,D表示单词嵌入维度,xik表示文本i中第k个单词的嵌入向量,遍历整个文本数据集得到每个新闻文本的嵌入表示,则B个文本的嵌入向量矩阵可表示为X=[X1,X2,…,XB]。同时也得到标签嵌入矩阵其中Q表示标签数量,lj表示第j标签的嵌入向量。
步骤S2、将文本嵌入向量矩阵输入到卷积神经网络模块,提取文本特征向量。
本实施例构建并训练用于新闻分类的神经网络分类模型,包括四个模块,分别是卷积神经网络模块(CNN模块)、Bi-GRU模块、标签注意力模块和文本分类器模块。
本步骤利用CNN模块来提取文本特征向量,将文本嵌入向量X输入到卷积神经网络CNN,得到特征映射向量
C=CNN(X,k,F),
其中C=[c1,c2……,ck],k是CNN的通道数,F表示卷积核个数;
利用最大池化方法计算文本特征向量:
f1=maxpool(C),
步骤S3、将文本嵌入向量矩阵输入到双向门控循环单元网络模块,得到文本单词的上下文嵌入表示。
本步骤利用双向门控循环单元网络模块(Bi-GRU模块)得到文本单词的上下文嵌入表示。将文本单词嵌入矩阵X输入双向门控循环单元网络Bi-GRU,得到文本单词的正向上下文嵌入表示和反向上下文嵌入表示其中 表示正向门控循环单元网络第t个单词的上文嵌入向量,表示反向门控循环单元网络第t个单词的下文嵌入向量,xt表示第t个单词的嵌入向量,分别表示前一个单词的上下文嵌入向量。
步骤S4、将标签嵌入向量矩阵和文本单词的上下文嵌入表示输入到标签注意力模块,得到基于标签的文本特征向量。
计算基于标签的文本特征向量:
f2=tanh(W3M);
步骤S5、拼接文本特征向量和文本基于标签的特征向量,输入到文本分类器模块,输出文本分类结果。
本步骤拼接特征向量f=[f1;f2],利用文本分类器模块计算文本分类结果:
Y=sigmoid(W4f),
在一个具体的实施例中,训练本申请神经网络分类模型时,损失函数如下:
在训练时,输入训练样本,直到损失值不再下降或者小于指定的值,结束训练,获得分类模型。
在训练好神经网络分类模型后,对于需要分类的新闻文本,执行步骤S1后输入分类模型,模型输出的Y就是新闻多标签分类结果。
在另一个实施例中,本申请还提供了一种基于嵌入的新闻多标签分类装置,包括处理器以及存储有若干计算机指令的存储器,所述计算机指令被处理器执行时实现所述基于嵌入的新闻多标签分类方法的步骤。
关于基于嵌入的新闻多标签分类装置的具体限定可以参见上文中对于基于嵌入的新闻多标签分类方法的限定,在此不再赘述。上述基于嵌入的新闻多标签分类装置可全部或部分通过软件、硬件及其组合来实现。可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上对应的操作。
存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序,所述处理器通过运行存储在存储器内的计算机程序,从而实现本发明实施例中的网络拓扑布局方法。
其中,所述存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器用于存储程序,所述处理器在接收到执行指令后,执行所述程序。
所述处理器可能是一种集成电路芯片,具有数据的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种基于嵌入的新闻多标签分类方法,其特征在于,所述基于嵌入的新闻多标签分类方法,包括:
收集新闻文本数据,在预处理后,将文本及其标签用嵌入向量表示,得到文本嵌入向量矩阵和标签嵌入向量矩阵;
将文本嵌入向量矩阵输入到卷积神经网络模块,提取文本特征向量;
将文本嵌入向量矩阵输入到双向门控循环单元网络模块,得到文本单词的上下文嵌入表示;
将标签嵌入向量矩阵和文本单词的上下文嵌入表示输入到标签注意力模块,得到基于标签的文本特征向量;
拼接文本特征向量和文本基于标签的特征向量,输入到文本分类器模块,输出文本分类结果。
5.根据权利要求1所述的基于嵌入的新闻多标签分类方法,其特征在于,所述预处理,包括:
对收集的新闻文本,取前N个单词,如果一个新闻文本不足N个单词,不足之处用0填充。
6.一种基于嵌入的新闻多标签分类装置,包括处理器以及存储有若干计算机指令的存储器,其特征在于,所述计算机指令被处理器执行时实现权利要求1至权利要求5中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210060247.7A CN114528373A (zh) | 2022-01-19 | 2022-01-19 | 一种基于嵌入的新闻多标签分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210060247.7A CN114528373A (zh) | 2022-01-19 | 2022-01-19 | 一种基于嵌入的新闻多标签分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114528373A true CN114528373A (zh) | 2022-05-24 |
Family
ID=81620572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210060247.7A Pending CN114528373A (zh) | 2022-01-19 | 2022-01-19 | 一种基于嵌入的新闻多标签分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114528373A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905533A (zh) * | 2022-11-24 | 2023-04-04 | 重庆邮电大学 | 一种多标签文本智能分类方法 |
-
2022
- 2022-01-19 CN CN202210060247.7A patent/CN114528373A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905533A (zh) * | 2022-11-24 | 2023-04-04 | 重庆邮电大学 | 一种多标签文本智能分类方法 |
CN115905533B (zh) * | 2022-11-24 | 2023-09-19 | 湖南光线空间信息科技有限公司 | 一种多标签文本智能分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119786B (zh) | 文本话题分类方法及装置 | |
CN108334605B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN110609897A (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN111160350B (zh) | 人像分割方法、模型训练方法、装置、介质及电子设备 | |
CN109918560A (zh) | 一种基于搜索引擎的问答方法和装置 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN112347254B (zh) | 新闻文本的分类方法、装置、计算机设备和存储介质 | |
CN112507124A (zh) | 一种基于图模型的篇章级别事件因果关系抽取方法 | |
CN111582576A (zh) | 一种基于多尺度特征融合和门控单元的预测系统及方法 | |
CN110232128A (zh) | 题目文本分类方法及装置 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN111985243A (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN114528374A (zh) | 一种基于图神经网络的电影评论情感分类方法及装置 | |
CN116541492A (zh) | 一种数据处理方法及相关设备 | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
CN113987188B (zh) | 一种短文本分类方法、装置及电子设备 | |
CN113408282B (zh) | 主题模型训练和主题预测方法、装置、设备及存储介质 | |
CN111428034A (zh) | 分类模型的训练方法、评论信息的分类方法及装置 | |
CN114528373A (zh) | 一种基于嵌入的新闻多标签分类方法及装置 | |
CN113535960A (zh) | 一种文本分类方法、装置和设备 | |
CN111767720B (zh) | 一种标题生成方法、计算机及可读存储介质 | |
Xia | Label oriented hierarchical attention neural network for short text classification | |
CN111445545A (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |