CN111666373A - 一种基于Transformer的中文新闻分类方法 - Google Patents

一种基于Transformer的中文新闻分类方法 Download PDF

Info

Publication number
CN111666373A
CN111666373A CN202010375567.2A CN202010375567A CN111666373A CN 111666373 A CN111666373 A CN 111666373A CN 202010375567 A CN202010375567 A CN 202010375567A CN 111666373 A CN111666373 A CN 111666373A
Authority
CN
China
Prior art keywords
news
vector
word
neural network
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010375567.2A
Other languages
English (en)
Inventor
范梦真
杨芳洲
刘金
罗轶凤
钱卫宁
周傲英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Guandian Technology Co ltd
East China Normal University
Original Assignee
Shanghai Guandian Technology Co ltd
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Guandian Technology Co ltd, East China Normal University filed Critical Shanghai Guandian Technology Co ltd
Priority to CN202010375567.2A priority Critical patent/CN111666373A/zh
Publication of CN111666373A publication Critical patent/CN111666373A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于Transformer的中文新闻分类方法,其特点是采用可并行的Transformer‑Encoder来对文本序列进行编码,采用“词‑句‑文章”多层的网络来提取新闻的文本信息,利用attention机制来降维得到文章级别的向量,并且结合NER命名实体识别技术引入实体信息来丰富特征,最后融合两部分特征输入分类器,训练得到分类模型,提高分类模型训练的效率和预测的精度。本发明在某领域的文本分类任务上,相比于现有的分类模型,可并行化的序列编码方式降低了模型训练的时间开销,attention机制和加入实体信息提高了模型对重要信息的识别能力,同时,识别了新闻中的实体信息,减少了机器阅读文字的歧义。

Description

一种基于Transformer的中文新闻分类方法
技术领域
本发明涉及自然语言处理领域,尤其涉及基于Transformer的多层文本编码并结合某领域实体信息的中文新闻分类方法。
背景技术
互联网时代文本信息大量产生,例如每天的行业新闻中蕴含大量有效信息,获取并为这些高效准确地为文本打上标签,是自然语言处理复杂任务的基础。类别化后的新闻也有利于研究员针对性地分析和预测行业行情变化。文本分类是自然语言处理中的一项基础任务,是指根据预先定义好的类别体系将文本打上相应一个或多个标签的过程,由于标签数的不同文本分类又分为单分类和多分类两种。
传统的机器学习文本分类方法,通常包括两个部分:特征表示和分类模型。传统文本特征表示方式主要有Bow(词袋)、Tf-idf(词频-逆文档频率)等,在将文档向量化后,使用诸如逻辑回归、SVM、朴素贝叶斯、决策树等方法分类。传统的语言表示模型特征稀疏且无法表征相似度。随着深度学习技术的发展,文本表示模型可以使用word2vec、glove 等分布式表示的语言模型,并使用神经网络进行信息提取和分类。近年来,注意力机制的提出和广泛使用,提升了文本分类的效果。但是现有文本分类方法针对新闻分类仍然有以下不足。
1)RNN类序列模型资源消耗大
现有的文本分类模型大部分基于类别较少,粒度较粗的场景,一般是几类到几十类,使用循环神经网络(RNN)和长短期记忆神经网络(LSTM)进行特征提取。在序列增长时,RNN类模型难以很好地保存序列信息,导致重要词汇的权重在分类中降低。同时由于并行化困难,资源消耗较大,难以做到大规模高效的训练和预测。
2)没有结合具体领域的知识进行分类
以金融领域的文本分类为例,在与金融相关的新闻中所出现的人名、公司名、机构名等实体信息含有与类别相关的信息,但这些名称中可能含有与其他类别相近的信息,如“某证券公司遭处罚”,为“行业监管类”新闻而不是“证券类”新闻,由于没有识别出“某证券公司”这个实体导致分类错误;或者“近年来某地果农收益是往年十余倍,得益于在某互联网平台的曝光”这类新闻属于农业而与互联网行业的相关性不大。所以,识别出新闻的实体能够避免上述歧义,提高新闻分类方法的准确率。
综上所述,适用于大规模文本的高效计算且对于领域内实体信息敏感的文本分类技术尚未出现。
发明内容
本发明的目的是针对现有技术的不足而提供的一种基于在文本领域受到关注的Transformer序列编码方式,结合attention机制,使用“词-句-文档”的层级神经网络编码新闻,结合命名实体识别的结果,将实体信息编码进文档的表达中,提升新闻表征的信息量,得到一个有丰富语义同时融合了实体知识的表征用于新闻分类的方法。
实现本发明目的的具体技术方案是:
步骤1:新闻收集与处理
收集新闻,对收集到的新闻进行文本预处理,并划分出训练集、验证集和测试集;其中,文本预处理包括分词及去除停用词;
步骤2:词向量模型训练
使用步骤1中处理后的全部新闻训练word2vec词向量模型,保存训练好的word2vec 词向量模型;
步骤3:基于Transformer序列编码构建层级神经网络
基于Transformer序列编码构建层级神经网络,用于提取文本特征;
步骤4:文本特征提取
使用步骤2的词向量模型将步骤1中预处理后的新闻转化为向量表示,将向量输入步骤3构建的层级神经网络,输出的向量为新闻的文本特征;
步骤5:实体特征识别与提取
使用命名实体识别模型识别步骤1处理后的新闻,得到其中的所有的实体及其实体类型,并用步骤2中的词向量模型把实体和实体类型编码为向量,将向量平均值作为新闻的实体特征;
步骤6:特征融合
合并步骤4中的文本特征和步骤5中的实体特征作为一篇新闻的向量表示;
步骤7:训练与保存模型
将步骤6得到的向量输入一层的全连接神经网络作为分类器,输出为新闻属于各个类别的概率,在训练集上使用交叉熵损失函数衡量预测概率与新闻真实类别的差距,通过Adam优化器反向传播更新层级神经网络和分类器中的参数,每次更新参数后计算验证集上损失函数的值,重复上述过程直到验证集上损失函数不再下降,保存此时层级神经网络、命名实体识别模型和分类器的组成的整体模型;
步骤8:新闻预测
将新闻输入训练好整体模型中,得到新闻属于各个类别的概率,取概率最大的类别为预测类别。
针对步骤1,所述收集新闻为收集来自各大新闻门户网站和公众号;所述分词方法使用中文分词方法THULAC;所述停用词由公开的中文停用词表以及新闻中词频-逆文档频率 Tf-idf值低的词人工筛选后合并构成;所述划分默认百分之七十为训练集、百分之十为验证集和百分之二十为测试集。
针对步骤2,所述训练word2vec词向量模型使用skip-gram方法训练。
针对步骤3,具体构建过程如下:
层级神经网络使用Transformer序列编码器的Encoder,Encoder包括Multi-HeadAttention模块和Feed-Forward Networks模块;
Multi-Head Attention模块:设输入为X=(x1,x2,…,xn),输出用MultiHead(X)表示,公式如下:
headi=Attention(XWi X,XWi X,XWi X)(i=0,1,…,n)
MultiHead(X)=Concat(head1,head2,…,headh)Wo
Figure BDA0002479762270000031
为权重矩阵,dmodel,dX,分别为输入向量维度和子空间维度;Attention,表示self-Attention机制,headi表示第i个子空间,Concat表示合并操作;
所述self-Attention机制,公式如下:
Figure BDA0002479762270000032
其中,dk为输入维度,
Figure BDA0002479762270000033
为尺度因子,Q,K,V分别Attention机制的query、key和value,在Multi-Head Attention模块中,Q,K,V的值与XWi X相同;
Feed-Forward Networks模块:该模块的输入为Multi-Head Attention部分的输出加上输入原始输入X,设为x,输出为FFN(x),公式如下:
x=MultiHead(X)+X
FFN(x)=max(0,xW1+b1)W2+b2
上述Wi,bi(i=1,2)分别表示第i层神经网络权重项和偏移项;
基于上述Encoder构建层级神经网络,层级指词级别和句级别,构建步骤为:
词级别:设第i句的词组成的序列长度为n,用Xi=[xi1,xi2,…,xin]表示,将Xi作为上述的 Encoder的输入,得到Xi′=[xi1′,xi2′,…,xin′];
使用soft Attention对X′进行降维,得到句向量si,公式如下:
uij=tanh(Wwxij′+bw)
Figure BDA0002479762270000041
Figure BDA0002479762270000042
其中,Ww,bw为权重矩阵和偏移项,tanh为激活函数,uij为输xij′经过一层神经网络的输出,uw为权重向量,αij为xij′的权重,xij′为Xi′中第j个向量,uij T为uij转置;
句级别:设新闻共有m个句子,每一句经词级别的处理后得到句向量,所有句向量构成序列为S=[s1,s2,…,sm],将S作为上述Encoder的输入,得到S′=[s1′,s1′,…,sn′];
使用soft Attention机制对S′进行降维,输出文章级别的向量d,计算如下:
hi=tanh(Wssi′+bs)
Figure BDA0002479762270000043
Figure BDA0002479762270000044
其中,Ws,bs为权重矩阵和偏移项,tanh为激活函数,hi为输si′经过一层神经网络的输出, us为权重向量,βi为s′i的权重,s′i为S′中第i个向量,hi T为hi转置;
上述词级别和句级别的处理构成了层级神经网络。
针对步骤4,所述新闻转化为向量表示是一个三维张量,分别对应层级神经网络的句级别、词级别和每个词的词向量;上述输入具体为将每一句的词序列都输入层级神经网络词级别的到句向量,再将所有句向量Concat合并输入层级神经网络句级别,得到新闻的文本特征d。
针对步骤5,所述的命名实体识别模型为Bi-LSTM+CRF;所述实体类型包括新闻中的上市公司、非上市公司、人名、地点、时间、金钱和产品。
针对步骤6,所述合并方式为concat,合并后新闻的向量表示的维度为文本特征和实体特征维度之和。
针对步骤7,所述分类器输出前要使用softmax激活函数,分类器输出为c维向量,其中 c为新闻总类别数,分类器中计算如下:
p=softmax(Wcd′+bc)
其中,us为随机初始化的权重向量,Ws为全连接层权重,bs为偏移项;p∈Rc为输出的向量,表示新闻属于各个类别的概率,d′为合并后新闻的向量;
所述交叉熵损失函数计算如下:
Figure BDA0002479762270000045
其中yi(i=1,2,…,c)等于1时表示新闻属于第i类,
Figure BDA0002479762270000051
为分类器预测新闻属于第i类的概率。
本发明在精细粒度的文本分类任务上,相比于现有的分类模型,可并行化的序列编码降低了模型训练的时间开销,同时attention机制和加入实体信息提高了模型对重要信息的识别能力。
附图说明
图1为本发明基于Transformer序列编码构建层级神经网络的结构示意图;
图2为本发明流程图。
具体实施方式
本发明使用THULAC分词对所有目标新闻语料进行分词,并使用全量分词后的语料训练word2vec词向量模型,用训练好的词向量模型得到新闻语料的词向量序列,然后基于Transformer序列编码器和Attention机制构建“词-句子-文章”的层级文本语义提取网络,同时将新闻输入命名实体识别模型,得到新闻中的词对应的实体类型,取出每篇文章中出现最多的实体及其类型,最后将两部分表征合并作为文档表征,输入分类器进行分类,得到最终的结果。
通过以下具体实施例对本发明作进一步的详细说明。
实施例1
参阅图2,按下述步骤进行基于Transformer的中文文本分类模型训练:
S1:收集目标网站和公众号的新闻,对收集到的新闻进行文本预处理,并划分出训练集、验证集和测试集;其中,文本预处理包括分词及去除停用词,例如:
原始文本:
平安基金张某:坚持新股常态化发行,有利于发行生态法治化、市场化12月1日消息,据悉,证监会将按照发展股权融资、优化上市公司质量、服务实体经济的整体需求,坚持新股常态化发行;重视市场投融资两端的平衡,明确市场预期,严把资本市场入口关,推动发行、注册和市场承受力的有机统一衔接,切实防控各类风险。
预处理后文本序列:
['平安','基金','张某',':','坚持','新股','常态化','发行',',','有利于','发行','生态','法治化','、','市场化','12月1日','消息','据悉',' 证监会','将','按照','发展','股权','融资','、','优化','上市公司','质量','、','服务','实体','经济','的','整体','需求','坚持','新股','常态化','发行','重视','市场','投融资','两端','平衡','明确','市场','预期','严把','资本','市场','入口关',”推动','发行','、','注册','市场','承受力','有机','统一','衔接','切实','防控','各类','风险','。'];
S2:使用S1中处理后的新闻训练word2vec词向量模型,这里指使用收集到的全部新闻,保存训练好的word2vec词向量模型;word2vec词向量模型使用skip-gram方法训练。
S3:构建基于Transformer序列编码的层级神经网络。层级神经网络如图1所示;
层级神经网络使用Transformer序列编码器的Encoder,Encoder包括Multi-HeadAttention模块和Feed-Forward Networks模块;
Multi-Head Attention模块:该模块将输入映射进多个子空间中,在子空间中使self-Attention机制(下式中用Attention代替),并合并每个子空间的结果得到输出,设输入为X=(x1,x2,…,xn),公式如下:
headi=Attention(XWi X,XWi X,XWi X)(i=0,1,…,n)
MultiHead(X)=Concat(head1,head2,…,headh)Wo
Figure BDA0002479762270000061
为权重矩阵,dmodel,dX,分别为输入向量维度和子空间维度;headi表示第i个子空间,Concat表示合并操作的方式;
所述self-Attention机制,公式如下:
Figure BDA0002479762270000062
其中,dk为输入维度,
Figure BDA0002479762270000063
为尺度因子,Q,K,V分别Attention机制的query、key和value,在Multi-Head Attention部分中,Q,K,V的值与XWi X相同;
Feed-Forward Networks模块:该模块的输入为Multi-Head Attention部分的输出加上输入原始输入X,设为x,输出为FFN(x),公式如下:
x=MultiHead(X)+X
FFN(x)=max(0,xW1+b1)W2+b2
上述Wi,bi(i=1,2)分别表示第i层神经网络权重项和偏移项;
基于上述Encoder构建层级神经网络模型,层级指词级别和句级别,构建步骤为:
词级别:设第i句的词组成的序列长度为n,用Xi=[xi1,xi2,…,xin]表示,将Xi作为X输入上述Transformer序列编码器的Encoder,得到Xi′=[xi1′,xi2′,…,xin′];
使用soft Attention对X′进行降维,得到句向量si,公式如下:
uij=tanh(Wwxij′+bw)
Figure BDA0002479762270000064
Figure BDA0002479762270000071
其中,Ww,bw为权重矩阵和偏移项,tanh为激活函数,uij为输xij′经过一层神经网络的输出,uw为权重向量,αij为xij′的权重,xij′为Xi′中第j个向量,uij T为uij转置;
句级别:设新闻共有m个句子,每一句经词级别的处理后得到句向量,所有句向量构成序列为S=[s1,s2,…,sm],使用Transformer序列编码器的Encoder对该序列进行编码得到S′=[s1′,s1′,…,sn′];
使用soft Attention机制对S′进行降维,输出文章级别的向量d,计算如下:
hi=tanh(Wssi′+bs)
Figure BDA0002479762270000072
Figure BDA0002479762270000073
其中,Ws,bs为权重矩阵和偏移项,tanh为激活函数,hi为输si′经过一层神经网络的输出, us为权重向量,βi为s′i的权重,s′i为S′中第i个向量,hi T为hi转置;
S4:使用S2的词向量模型将步骤1中预处理后的新闻转化为向量表示,得到一个三维张量,分别对应句级别、词级别和词向量,将每一句的词序列都输入层级神经网络词级别的到句向量,再将句向量输入层级神经网络句级别,输出为新闻的文本特征向量d;
S4:提取实体特征。将例子中的词序列输入命名实体识别模型中,得到其中的所有的实体及其实体类型,并用步骤2中的词向量模型把实体和实体类型编码为向量,将这些向量平均值作为新闻的实体特征r;
S5:融合两部分特征。使用concat方式合并步骤4中的文本特征和步骤5中的实体特征作为一篇新闻的向量表示d′=Concat(d,r);
S6:模型训练与保存。将得到新闻的向量输入一层的全连接神经网络作为分类器,使用交叉熵损失函数衡量预测概率与新闻真实类别的差距,并通过Adam优化器反向传播更新参数,每次更新参数后计算验证集上损失函数的值。分类器中计算如下:
p=softmax(Wcd′+bc)
其中,us为随机初始化的权重向量,Ws为全连接层权重,bs为偏移项,参与模型的训练; p∈Rc为输出的向量,表示新闻属于类别c的概率,d′为新闻的向量表示;
那么,交叉熵损失函数计算如下:
Figure BDA0002479762270000074
其中yi等于1时表示新闻属于第i类,
Figure BDA0002479762270000075
为分类器预测新闻属于第i类的概率;通过Adam优化器反向传播更新参数,每次更新参数后计算验证集上损失函数的值,需要更新的参数包括层级神经网络和分类器中的参数,重复上述过程直到验证集上损失函数不再下降,保存此时层级神经网络、命名实体识别模型和分类器组成的整体模型;
S7:将例子中的新闻输入上述保存的整体模型中,得到预测数的概率,本实施例中的类别c为20,输出p=[0.08050156,0.02728766,0.03207764,0.06168538,0.05952194,0.03316066,0.07006078,0.05632877,0.04960008,0.05180365,0.03285286,0.02650431,0.01506351,0.07907253,0.00450123,0.03119562,0.05675745, 0.104023,0.03745773,0.09054364],其中概率最大的为第18类,
Figure BDA0002479762270000081
在本实施例代表“行业监管”类别,所以,预测类别为“行业监管”。
综上所述,本发明采用可并行的Transformer-Encoder来对文本序列进行编码,利用attention机制来降维得到文本向量,并且结合命名实体识别技术(NER)引入实体信息来丰富文本特征,最后融合两部分特征进行模型训练得到分类模型,提高分类模型训练的效率和预测的精度。本发明在精细粒度的文本分类任务上,相比于现有的分类模型,可并行化的序列编码降低了模型训练的时间开销,同时attention机制和加入实体信息提高了模型对重要信息的识别能力。
以上仅是本发明的一个实施示例。本发明的保护范围并不局限于上述实例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进,应视为本发明的保护范围。

Claims (8)

1.一种基于Transformer的中文新闻分类方法,其特征在于,该方法包括以下具体步骤:
步骤1:新闻收集与处理
收集新闻,对收集到的新闻进行文本预处理,并划分出训练集、验证集和测试集;其中,文本预处理包括分词及去除停用词;
步骤2:词向量模型训练
使用步骤1中处理后的全部新闻训练word2vec词向量模型,保存训练好的word2vec词向量模型;
步骤3:基于Transformer序列编码构建层级神经网络
基于Transformer序列编码构建层级神经网络,用于提取文本特征;
步骤4:文本特征提取
使用步骤2的词向量模型将步骤1中预处理后的新闻转化为向量表示,将向量输入步骤3构建的层级神经网络,输出的向量为新闻的文本特征;
步骤5:实体特征识别与提取
使用命名实体识别模型识别步骤1处理后的新闻,得到其中的所有的实体及其实体类型,并用步骤2中的词向量模型把实体和实体类型编码为向量,将向量平均值作为新闻的实体特征;
步骤6:特征融合
合并步骤4中的文本特征和步骤5中的实体特征作为一篇新闻的向量表示;
步骤7:训练与保存模型
将步骤6得到的向量输入一层的全连接神经网络作为分类器,输出为新闻属于各个类别的概率,在训练集上使用交叉熵损失函数衡量预测概率与新闻真实类别的差距,通过Adam优化器反向传播更新层级神经网络和分类器中的参数,每次更新参数后计算验证集上损失函数的值,重复上述过程直到验证集上损失函数不再下降,保存此时层级神经网络、命名实体识别模型和分类器组成的整体模型;
步骤8:新闻预测
将新闻输入训练好的整体模型中,得到新闻属于各个类别的概率,取概率最大的类别为预测类别。
2.根据权利要求1所述的新闻分类方法,其特征在于,步骤1所述收集新闻为收集来自各大新闻门户网站和公众号;所述分词方法使用中文分词方法THULAC;所述停用词由公开的中文停用词表以及新闻中词频-逆文档频率Tf-idf值低的词人工筛选后合并构成;所述划分默认百分之七十为训练集、百分之十为验证集和百分之二十为测试集。
3.根据权利要求1所述的新闻分类方法,其特征在于,步骤2所述训练word2vec词向量模型使用skip-gram方法训练。
4.根据权利要求1所述的新闻分类方法,其特征在于,步骤3具体构建过程如下:
层级神经网络使用Transformer序列编码器的Encoder,Encoder包括Multi-HeadAttention模块和Feed-Forward Networks模块;
Multi-Head Attention模块:设输入为X=(x1,x2,…,xn),输出用MultiHead(X)表示,公式如下:
headi=Attention(XWi X,XWi X,XWi X)(i=0,1,…,n)
MultiHead(X)=Concat(head1,head2,…,headh)Wo
Figure FDA0002479762260000021
为权重矩阵,dmodel,dX,分别为输入向量维度和子空间维度;Attention,表示self-Attention机制,headi表示第i个子空间,Concat表示合并操作;所述self-Attention机制,公式如下:
Figure FDA0002479762260000022
其中,dk为输入维度,
Figure FDA0002479762260000023
为尺度因子,Q,K,V分别Attention机制的query、key和value,在Multi-Head Attention模块中,Q,K,V的值与XWi X相同;
Feed-Forward Networks模块:该模块的输入为Multi-Head Attention部分的输出加上输入原始输入X,设为x,输出为FFN(x),公式如下:
x=MultiHead(X)+X
FFN(x)=max(0,xW1+b1)W2+b2
上述Wi,bi(i=1,2)分别表示第i层神经网络权重项和偏移项;
基于上述Encoder构建层级神经网络,层级指词级别和句级别,构建步骤为:
词级别:设第i句的词组成的序列长度为n,用Xi=[xi1,xi2,…,xin]表示,将Xi作为上述的Encoder的输入,得到Xi′=[xi1′,xi2′,…,xin′];
使用soft Attention对X′进行降维,得到句向量si,公式如下:
uij=tanh(Wwxij′+bw)
Figure FDA0002479762260000024
Figure FDA0002479762260000025
其中,Ww,bw为权重矩阵和偏移项,tanh为激活函数,uij为输xij′经过一层神经网络的输出,uw为权重向量,αij为xij′的权重,xij′为Xi′中第j个向量,uij T为uij转置;
句级别:设新闻共有m个句子,每一句经词级别的处理后得到句向量,所有句向量构成序列为S=[s1,s2,…,sm],将S作为上述Encoder的输入,得到S′=[s1′,s1′,…,sn′];
使用soft Attention机制对S′进行降维,输出文章级别的向量d,计算如下:
hi=tanh(Wssi′+bs)
Figure FDA0002479762260000031
Figure FDA0002479762260000032
其中,Ws,bs为权重矩阵和偏移项,tanh为激活函数,hi为输si′经过一层神经网络的输出,us为权重向量,βi为s′i的权重,s′i为S′中第i个向量,hi T为hi转置;
上述词级别和句级别的处理构成了层级神经网络。
5.根据权利要求1所述的新闻分类方法,其特征在于,步骤4中所述新闻转化为向量表示是一个三维张量,分别对应层级神经网络的句级别、词级别和每个词的词向量;所述将向量输入具体为将每一句的词序列都输入层级神经网络的词级别得到句向量,再将所有句向量Concat合并输入层级神经网络句级别,得到新闻的文本特征d。
6.根据权利要求1所述的新闻分类方法,其特征在于,步骤5中所述的命名实体识别模型为Bi-LSTM+CRF:所述实体类型包括新闻中的上市公司、非上市公司、人名、地点、时间、金钱和产品。
7.根据权利要求1所述的新闻分类方法,其特征在于,步骤6所述合并,其方式为concat,合并后新闻的向量表示的维度为文本特征和实体特征维度之和。
8.根据权利要求1所述的新闻分类方法,其特征在于,步骤7所述分类器输出前要使用softmax激活函数,分类器输出为c维向量,其中c为新闻总类别数,分类器中计算如下:
p=softmax(Wcd′+bc)
其中,Wc为全连接层权重,bc为偏移项;p∈Rc为输出的向量,表示新闻属于各个类别的概率,d′为合并后新闻的向量;
所述交叉熵损失函数计算如下:
Figure FDA0002479762260000033
其中yi(i=1,2,…,c)等于1时表示新闻属于第i类,
Figure FDA0002479762260000034
为分类器预测新闻属于第i类的概率。
CN202010375567.2A 2020-05-07 2020-05-07 一种基于Transformer的中文新闻分类方法 Pending CN111666373A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010375567.2A CN111666373A (zh) 2020-05-07 2020-05-07 一种基于Transformer的中文新闻分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010375567.2A CN111666373A (zh) 2020-05-07 2020-05-07 一种基于Transformer的中文新闻分类方法

Publications (1)

Publication Number Publication Date
CN111666373A true CN111666373A (zh) 2020-09-15

Family

ID=72383285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010375567.2A Pending CN111666373A (zh) 2020-05-07 2020-05-07 一种基于Transformer的中文新闻分类方法

Country Status (1)

Country Link
CN (1) CN111666373A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010669A (zh) * 2020-12-24 2021-06-22 华戎信息产业有限公司 一种新闻分类方法和系统
CN114186059A (zh) * 2021-11-01 2022-03-15 东风汽车集团股份有限公司 一种文章的分类方法和装置
CN114266255A (zh) * 2022-03-01 2022-04-01 深圳壹账通科技服务有限公司 基于聚类模型的语料分类方法、装置、设备及存储介质
WO2022226034A1 (en) * 2021-04-21 2022-10-27 Northwestern University Hierarchical deep learning neural networks-artificial intelligence: an ai platform for scientific and materials systems innovation
ES2933625A1 (es) * 2022-10-29 2023-02-10 Kallisto Ai Sl Metodo y sistema utilizando tecnicas de inteligencia artificial general para la segmentacion de usuarios

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846017A (zh) * 2018-05-07 2018-11-20 国家计算机网络与信息安全管理中心 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
CN109977224A (zh) * 2019-03-11 2019-07-05 南京邮电大学 基于卷积神经网络和词向量相结合的新闻分类方法
CN110222349A (zh) * 2019-06-13 2019-09-10 成都信息工程大学 一种深度动态上下文词语表示的模型及方法、计算机
CN110377738A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法
CN110516073A (zh) * 2019-08-30 2019-11-29 北京百度网讯科技有限公司 一种文本分类方法、装置、设备和介质
CN110569508A (zh) * 2019-09-10 2019-12-13 重庆邮电大学 融合词性和自注意力机制的情感倾向性分类方法及系统
US10528866B1 (en) * 2015-09-04 2020-01-07 Google Llc Training a document classification neural network
CN111061843A (zh) * 2019-12-26 2020-04-24 武汉大学 一种知识图谱引导的假新闻检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10528866B1 (en) * 2015-09-04 2020-01-07 Google Llc Training a document classification neural network
CN108846017A (zh) * 2018-05-07 2018-11-20 国家计算机网络与信息安全管理中心 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
CN109977224A (zh) * 2019-03-11 2019-07-05 南京邮电大学 基于卷积神经网络和词向量相结合的新闻分类方法
CN110222349A (zh) * 2019-06-13 2019-09-10 成都信息工程大学 一种深度动态上下文词语表示的模型及方法、计算机
CN110377738A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法
CN110516073A (zh) * 2019-08-30 2019-11-29 北京百度网讯科技有限公司 一种文本分类方法、装置、设备和介质
CN110569508A (zh) * 2019-09-10 2019-12-13 重庆邮电大学 融合词性和自注意力机制的情感倾向性分类方法及系统
CN111061843A (zh) * 2019-12-26 2020-04-24 武汉大学 一种知识图谱引导的假新闻检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010669A (zh) * 2020-12-24 2021-06-22 华戎信息产业有限公司 一种新闻分类方法和系统
CN113010669B (zh) * 2020-12-24 2022-06-21 华戎信息产业有限公司 一种新闻分类方法和系统
WO2022226034A1 (en) * 2021-04-21 2022-10-27 Northwestern University Hierarchical deep learning neural networks-artificial intelligence: an ai platform for scientific and materials systems innovation
CN114186059A (zh) * 2021-11-01 2022-03-15 东风汽车集团股份有限公司 一种文章的分类方法和装置
CN114266255A (zh) * 2022-03-01 2022-04-01 深圳壹账通科技服务有限公司 基于聚类模型的语料分类方法、装置、设备及存储介质
CN114266255B (zh) * 2022-03-01 2022-05-17 深圳壹账通科技服务有限公司 基于聚类模型的语料分类方法、装置、设备及存储介质
ES2933625A1 (es) * 2022-10-29 2023-02-10 Kallisto Ai Sl Metodo y sistema utilizando tecnicas de inteligencia artificial general para la segmentacion de usuarios

Similar Documents

Publication Publication Date Title
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN112015863B (zh) 一种基于图神经网络的多元特征融合中文文本分类方法
CN111666373A (zh) 一种基于Transformer的中文新闻分类方法
CN110020438B (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN110580287A (zh) 基于迁移学习和on-lstm的情感分类方法
CN110046223B (zh) 基于改进型卷积神经网络模型的影评情感分析方法
CN111597340A (zh) 一种文本分类方法及装置、可读存储介质
CN113705238B (zh) 基于bert和方面特征定位模型的方面级情感分析方法及系统
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN114330354A (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN112434514A (zh) 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
CN116029305A (zh) 一种基于多任务学习的中文属性级情感分析方法、系统、设备及介质
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN112347783B (zh) 无触发词的警情笔录数据事件类型识别方法
CN115796635A (zh) 基于大数据和机器学习的银行数字化转型成熟度评价系统
CN113312903B (zh) 一种5g移动业务产品词库的构建方法及系统
CN110968795B (zh) 一种公司形象提升系统的数据关联匹配系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200915

WD01 Invention patent application deemed withdrawn after publication