CN113128557B - 基于胶囊网络融合模型的新闻文本分类方法、系统及介质 - Google Patents

基于胶囊网络融合模型的新闻文本分类方法、系统及介质 Download PDF

Info

Publication number
CN113128557B
CN113128557B CN202110266706.2A CN202110266706A CN113128557B CN 113128557 B CN113128557 B CN 113128557B CN 202110266706 A CN202110266706 A CN 202110266706A CN 113128557 B CN113128557 B CN 113128557B
Authority
CN
China
Prior art keywords
news
text
vector
representation
capsule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110266706.2A
Other languages
English (en)
Other versions
CN113128557A (zh
Inventor
李校林
王薇
杨劲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Information Technology Designing Co ltd
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing Information Technology Designing Co ltd
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Information Technology Designing Co ltd, Chongqing University of Post and Telecommunications filed Critical Chongqing Information Technology Designing Co ltd
Priority to CN202110266706.2A priority Critical patent/CN113128557B/zh
Publication of CN113128557A publication Critical patent/CN113128557A/zh
Application granted granted Critical
Publication of CN113128557B publication Critical patent/CN113128557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于胶囊网络融合模型的新闻文本分类方法、系统及介质,属于深度学习领域,该方法包括:文本预处理与词向量生成;选择BiLSTM模型对新闻文本进行特征表示;考虑新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权;通过BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示,弥补BiLSTM的缺点;结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络对获得的信息进行聚合,完成文本分类。

Description

基于胶囊网络融合模型的新闻文本分类方法、系统及介质
技术领域
本发明属于深度学习领域,涉及一种基于胶囊网络的融合模型应用于新闻文本分类的方法。
背景技术
新闻是“对新近发生的事实的报道”,使用简练的文字概括了丰富的信息并频繁更新,且通过公开媒体传播。大数据时代的发展,网络丰富了新闻的来源,加速了新闻的传播。截至2020年3月,我国网络新闻用户规模达7.31亿,较2018年底增长5598万,占网民整体的80.9%;手机网络新闻用户规模达7.26亿,较2018年底增长7356万,占手机网民的81.0%。面对新闻数据呈爆炸式增长且缺乏高效管理等问题,增加了读者快速获取有效信息的难度。从海量的新闻文本中获取所需的有效信息是一项在研究和应用方面都具有积极意义的工作,一种高效准确的分类算法可以为新闻文本进行自动分类提供有力的支撑,有助于新媒体传播平台对新闻的管理并且根据用户习惯为用户做个性化推荐。
基于深度学习的文本分类方法近年来研究趋热。2006年,Hinton首次提出深度学习就引起了学术界和工业界的关注。其中,卷积神经网络(CNN)和循环神经网络(RNN,LSTM,GRU)等都可以运用在文本分类中。使用深度神经网络模型对海量文本进行分类的基础和关键是文本的特征表示,提取到较理想的浅层语义表示后能在更高层次上对深层语义特征进行抽取,省去了繁杂低效的人工特征工程,在自然语言处理的许多任务中取得了最佳表现。
目前,取自网络的新闻文本往往分为标题和正文两部分,其中标题内容通常是新闻全文的精要概括,信息量大,包含了文章的中心内容。但是在文本分类领域中,现有的基于深度学习的研究大多没有考虑标题和正文处理方式,单一的将二者汇合一起进行文本分类,降低了分类的准确率。另一个问题是单一的深度神经网络往往不能够获得最佳的效果,影响了新闻文本分类模型的效率。基于以上问题,本文基于深度学习的新闻文本分类的研究,将考虑标题和正文两部分,同时在分类效率上,将设计一种新型网络融合模型,充分利用模型优点以提高分类效率。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高分类准确率的基于胶囊网络融合模型的新闻文本分类方法、系统及存储介质。本发明的技术方案如下:
一种基于胶囊网络融合模型的新闻文本分类方法,其包括以下步骤:
步骤一:对新闻文本采用分词与去停用词在内的预处理,并进行词向量生成;
步骤二:选择双向长短记忆神经网络BiLSTM模型对新闻文本进行特征表示;
步骤三:根据新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权;
步骤四:通过双向长短记忆神经网络BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示;
步骤五:结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络(CapsNet,也称之为向量胶囊网络模型)对获得的信息进行聚合,完成文本分类。
进一步的,所述步骤一对新闻文本采用分词与去停用词在内的预处理,并进行词向量生成,具体包括:
从搜狗实验室数据资源中获取的全网新闻数据,保留12种新闻标签,包括房产house、女性women、运动sports、娱乐yule、信息技术IT、教育learning、商业business、军事mil、旅游travel、健康health、汽车auto、文化cul,首先将获取的新闻文本数据集进行预处理操作,包括分词与去停用词,采用的是基于Python语言的Jieba分词工具,通过增加一些专业词汇来扩充停用词表;词向量生成选择word2vec中的Skip-gram模型,Skip-gram模型是通过当前词来预测当前词前后单词,将预处理完成的新闻标题与正文文本输入到Skip-gram的模型结构中,以获取新闻文本标题与正文的词向量表示,分别表示为T0、T1、T2…Tm与C0、C1、C2…Cn,其中m表示新闻文本标题个数,n表示正文的词向量个数。
进一步的,所述步骤二选择双向长短记忆神经网络BiLSTM模型对新闻文本进行特征表示,具体包括:
采取双向长短记忆神经网络BiLSTM,BiLSTM由两个LSTM组成的双向通道,包括输入门、遗忘门和输出门,选择BiLSTM模型对新闻文本进行特征表示,向量化的文本进入BiLSTM进行上下文语义特征提取,其结构算法如公式(20)、(21)、(22)、(23)、(24)、(25):
it=σ(Wi[ht-1,xt]+bi) (20)
ft=σ(Wf[ht-1,xt]+bf) (21)
g=tanh(Wc[ht-1,xt]+bc) (22)
Ct=ft·Ct-1+it·g (23)
ot=σ(Wo[ht-1,xt]+bo) (24)
ht=ot·tanh(Ct) (25)
其中,xt表示此刻新闻标题与正文的输入信息,ht-1表示前一时刻的输出,it表示此刻输入门,ft表示此刻的遗忘门,g表示候选的输入,Ct表示自循环神经元,用于保存序列信息,ot表示此刻的输出,ht是此刻的输出向量,W表示权重矩阵,b表示偏置向量。
进一步的,所述步骤三:根据新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权,具体为:新闻文本包含两个部分,分别是新闻标题和新闻正文,标题对新闻主题有着总结的作用,将新闻标题编码后与新闻正文的单词表示进行点积,获得每个新闻正文词语的重要程度即注意力权重,然后对新闻正文的单词表示进行加权,使得新闻中更重要的单词得到增强;
新闻标题与正文的各个词的向量表示分别为T0、T1、T2…Tm与C0、C1、C2…Cn,作为输入传入Bi-LSTM单元,得到对应隐藏层H0、H1、H2…Hm与h0、h1、h2…hn,将标题词向量与正文词向量进行点积,对新闻正文词向量进行加权,计算出注意力概率分布值a0、a1、a2…an,其思想是获取新闻正文词向量的重要程度,最终获得包含文本信息的特征向量v,其运算过程如公式(26)、(27)、(28):
Figure BDA0002972298220000041
Figure BDA0002972298220000042
Figure BDA0002972298220000043
其中exp表示指数函数,f表示打分函数,其中m表示新闻文本标题个数,n表示正文的词向量个数。
进一步的,所述步骤四:通过双向长短记忆神经网络BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示,具体为:
CNN模块包含输入层、卷积层、池化层,输入层是新闻文本的向量化表示;卷积与池化层是卷积神经网络模型的核心层,目的是将原始的特征映射到更高层次维度的语义空间,通过BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示,设置3,4,5三种长度的卷积核,进行卷积与池化操作,将词向量加权模块后的输出作为CNN模块的输入,即新闻标题标题H0,H1,H2…Hm和加权后的新闻正文表示h′0,h′1,h′2…h′n,经过CNN的卷积与池化操作,得到新闻标题与正文的特征向量X0,X1,X2…Xm与x0,x1,x2…xn
进一步的,所述卷积与池化操作运算过程如下:
(一)卷积操作
新闻标题词向量表示卷积运算如公式(29):
Xi=f(W1⊙Hi:i+l-1+b) (29)
其中,Xi表示新闻标题卷积运算后的结果,W1表示滤波器,b表示偏置量,f表示激活函数,l表示滑动窗口大小,Hi:i+l-1表示为由第i到第i+l-1个标题文本词组成的局部特征矩阵,⊙表示点乘运算;
同理,新闻正文词向量表示卷积运算如公式(30):
xi=f(W1⊙h′i:i+l-1+b) (30)
(二)池化操作
对卷积核产生的新闻标题与正文特征进行最大池化操作如公式(31)、(32):
Figure BDA0002972298220000051
Figure BDA0002972298220000052
其中,Xi为新闻标题词向量经卷积运算后的结果,i=0,1,...,n-l+1,xi为新闻正文词向量加权后和卷积运算后的结果,
Figure BDA0002972298220000053
表示新闻文本标题与正文经过最大池化运算后的结果。
进一步的,所述步骤五结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络对获得的信息进行聚合,完成文本分类,具体为:
胶囊网络与传统的神经网络不同,是通过向量来表示属性,即它的神经元是向量而不是标量,涉及到动态路由、输入胶囊、输出胶囊,本文采用的胶囊网络模块包括挤压、耦合、加权、动态路由在内的步骤,其中动态路由算法是胶囊网络模块的核心组件,通过动态路由不断的调整输入胶囊向量与输出胶囊向量的耦合系数,最终预测出输出胶囊向量;结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络对获得的信息进行聚合,完成文本分类,其算法过程如公式(33)、(34)、(35)、(36)、(37)、(38):
Figure BDA0002972298220000054
Figure BDA0002972298220000061
Figure BDA0002972298220000062
Figure BDA0002972298220000063
Figure BDA0002972298220000064
bij=bij+aij (38)
其中,cij表示耦合系数;i表示输入,j表输出;Wij表示变换矩阵,ui表示输入
胶囊,
Figure BDA0002972298220000065
表示输出胶囊向量,式(34)表示通过变换矩阵,实现输入胶囊与输出胶囊的转换;sj表示耦合过程的输出,vj表示sj通过压缩函数后的胶囊向量;aij表示vj对应的预测向量
Figure BDA0002972298220000066
进行点积预算;
将CNN模块所提取得到的新闻文本标题与正文的特征作为子阶胶囊向量输入到胶囊网络模块进行文本分类,通过上述的算法,将新闻文本所有向量拼接获得高阶胶囊向量表示y0,y1,y2…yn,最终完成新闻文本分类。
一种基于所述方法的胶囊网络融合模型的新闻文本分类系统,其包括:
预处理模块:对新闻文本采用分词与去停用词在内的预处理,并进行词向量生成;
双向长短记忆神经网络BiLSTM:选择双向长短记忆神经网络BiLSTM模型对新闻文本进行特征表示;根据新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权;通过双向长短记忆神经网络BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示;
聚合模块:结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络(CapsNet,也称之为向量胶囊网络模型)对获得的信息进行聚合,完成文本分类。
一种介质,该介质内部存储计算机程序,所述计算机程序被处理器读取时,执行上述权利要求任一项的方法。
本发明的优点及有益效果如下:
1、本发明新闻文本往往分为标题和正文两部分,在模型的搭建中,草率的把标题与正文合并作为输入是不科学的,因此本文通过引入注意力机制,对词向量进行加权,即新闻标题编码后与新闻正文的单词表示进行点积,可以获得每个新闻单词的重要程度(也就是注意力权重),然后对新闻内容的单词表示进行加权,使得新闻中更重要的单词得到增强,从而提高分类准确率。
2、BiLSTM关注上下文信息,CNN关注局部而非整体。BiLSTM对文本长序列有着很好的表示作用,但是新闻内容属于过长的文本内容,仅仅使BiLSTM会在序列化模型中损失一些信息,本文通过BiLSTM获得新闻词向量的表示之后,再通过CNN获得句子的局部表示,可以有效弥补BiLSTM的一些缺点,并且最终通过胶囊网络对获得的信息进行聚合,获得输出胶囊,可以有效地提升分类效果。
附图说明
图1是本发明提供优选实施例基于胶囊网络融合模型的新闻文本分类方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,在本实施例中,一种基于胶囊网络融合模型的新闻文本分类方法,具体包括以下步骤:
步骤一:文本预处理与词向量生成;
本次实验数据从搜狗实验室数据资源中获取的全网新闻数据,保留12种新闻标签,包括房产(house)、女性(women)、运动(sports)、娱乐(yule)、信息技术(IT)、教育(learning)、商业(business)、军事(mil)、旅游(travel)、健康(health)、汽车(auto)、文化(cul)。首先将获取的新闻文本数据集进行预处理操作,包括分词与去停用词等。采用的是基于Python语言的Jieba分词工具。通过增加一些专业词汇来扩充停用词表。词向量生成选择word2vec中的Skip-gram模型,该模型在数据集较大的情况效果更好。包括输入层、投影层和输出层,通过当前词来预测当前词前后单词。将预处理完成的新闻标题与正文文本输入到Skip-gram的模型结构中,以获取新闻文本标题与正文的词向量表示,即T0、T1、T2…Tm与C0、C1、C2…Cn
步骤二:选择BiLSTM模型对新闻文本进行特征表示;
采取双向长短记忆神经网络(BiLSTM),其模型结构由两个LSTM组成的双向通道,包括输入门、遗忘门和输出门。该模型更关注于全局特征,具备记忆功能,在文本特征表示有着管饭的应用。因此本文利用BiLSTM对文本长序列有着很好的表示作用,选择BiLSTM模型对新闻文本进行特征表示。向量化的文本进入BiLSTM进行上下文语义特征提取,其结构算法如公式(39)、(40)、(41)、(42)、(43)、(44):
it=σ(Wi[ht-1,xt]+bi) (39)
ft=σ(Wf[ht-1,xt]+bf) (40)
g=tanh(Wc[ht-1,xt]+bc) (41)
Ct=ft·Ct-1+it·g (42)
ot=σ(Wo[ht-1,xt]+bo) (43)
ht=ot·tanh(Ct) (44)
其中,xt表示此刻新闻标题与正文的输入信息,ht-1表示前一时刻的输出,it表示此刻输入门,ft表示此刻的遗忘门,g表示候选的输入。Ct表示自循环神经元,用于保存序列信息。ot表示此刻的输出,ht是此刻的输出向量,W表示权重矩阵,b表示偏置向量。
步骤三:考虑新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权;
新闻文本通常包含两个部分,分别是新闻标题和新闻正文,标题对新闻主题有着总结的作用,因此本文将新闻标题编码后与新闻正文的单词表示进行点积,可以获得每个新闻正文词语的重要程度(也就是注意力权重),然后对新闻正文的单词表示进行加权,使得新闻中更重要的单词得到增强。
新闻标题与正文的各个词的向量表示分别为T0、T1、T2…Tm与C0、C1、C2…Cn,作为输入传入Bi-LSTM单元,得到对应隐藏层H0、H1、H2…Hm与h0、h1、h2…hn,将标题词向量与正文词向量进行点积,对新闻正文词向量进行加权,计算出注意力概率分布值a0、a1、a2…an,其思想是获取新闻正文词向量的重要程度,最终获得包含文本信息的特征向量v,其运算过程如公式(45)、(46)、(47)。
Figure BDA0002972298220000091
Figure BDA0002972298220000092
Figure BDA0002972298220000093
其中exp表示指数函数,f表示打分函数,其中m表示新闻文本标题个数,n表示正文的词向量个数。
步骤四:通过BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示,弥补BiLSTM的缺点;
CNN模块包含输入层、卷积层、池化层。输入层是新闻文本的向量化表示;卷积与池化层是卷积深井网络模型的核心层,目的是将原始的特征映射到更高层次维度的语义空间。本文通过BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示,可以有效弥补BiLSTM的缺点,实验设置3,4,5三种长度的卷积核,进行卷积与池化操作。将词向量加权模块后的输出作为CNN模块的输入,即新闻标题标题H0,H1,H2…Hm和加权后的新闻正文表示h′0,h′1,h′2…h′n,经过CNN的卷积与池化操作,得到新闻标题与正文的特征向量X0,X1,X2…Xm与x0,x1,x2…xn。其运算过程如下:
(1)卷积操作
新闻标题词向量表示卷积运算如公式(48):
Xi=f(W1⊙Hi:i+l-1+b) (48)
其中,Xi表示新闻标题卷积运算后的结果,W1表示滤波器,b表示偏置量,f表示激活函数,l表示滑动窗口大小,Hi:i+l-1可以表示为由第i到第i+l-1个标题文本词组成的局部特征矩阵,⊙表示点乘运算。
同理,新闻正文词向量表示卷积运算如公式(49):
xi=f(W1⊙h′i:i+l-1+b) (49)
(2)池化操作
对卷积核产生的新闻标题与正文特征进行最大池化操作如公式(50)、(51):
Figure BDA0002972298220000101
Figure BDA0002972298220000102
其中,Xi(i=0,1,...,n-l+1)为新闻标题词向量经卷积运算后的结果,xi(i=0,1,...,n-l+1)为新闻正文词向量加权后和卷积运算后的结果。
Figure BDA0002972298220000103
表示新闻文本标题与正文经过最大池化运算后的结果。
步骤五:结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络对获得的信息进行聚合,完成文本分类。
胶囊网络与传统的神经网络不同,是通过向量来表示属性,即它的神经元是向量而不是标量。涉及到动态路由、输入胶囊、输出胶囊等概念。本文采用的胶囊网络模块包括挤压、耦合、加权、动态路由等步骤,其中动态路由算法是胶囊网络模块的核心组件,通过动态路由不断的调整输入胶囊向量与输出胶囊向量的耦合系数,最终预测出输出胶囊向量。本文结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络具有局部与整体空间位置关系的学习能力,对获得的信息进行聚合,完成文本分类。其算法过程如公式(52)、(53)、(54)、(55)、(56)、(57)。
Figure BDA0002972298220000111
Figure BDA0002972298220000112
Figure BDA0002972298220000113
Figure BDA0002972298220000114
Figure BDA0002972298220000115
bij=bij+aij (57)
其中,cij表示耦合系数;i表示输入,j表输出;Wij表示变换矩阵,ui表示输入胶囊,
Figure BDA0002972298220000116
表示输出胶囊向量,式(53)表示通过变换矩阵,实现输入胶囊与输出胶囊的转换;sj表示耦合过程的输出,vj表示sj通过压缩函数后的胶囊向量;aij表示vj对应的预测向量
Figure BDA0002972298220000117
进行点积预算。
将CNN模块所提取得到的新闻文本标题与正文的特征作为子阶胶囊向量输入到胶囊网络模块进行文本分类。通过上述的算法,将新闻文本所有向量拼接获得高阶胶囊向量表示y0,y1,y2…yn,最终完成新闻文本分类。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (5)

1.一种基于胶囊网络融合模型的新闻文本分类方法,其特征在于,包括以下步骤:
步骤一:对新闻文本采用分词与去停用词在内的预处理,并进行词向量生成;
步骤二:选择双向长短记忆神经网络BiLSTM模型对新闻文本进行特征表示;
步骤三:根据新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权;
步骤四:通过双向长短记忆神经网络BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示;
步骤五:结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络CapsNet对获得的信息进行聚合,完成文本分类;
所述步骤三:根据新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权,具体为:新闻文本包含两个部分,分别是新闻标题和新闻正文,标题对新闻主题有着总结的作用,将新闻标题编码后与新闻正文的单词表示进行点积,获得每个新闻正文词语的重要程度即注意力权重,然后对新闻正文的单词表示进行加权,使得新闻中更重要的单词得到增强;
新闻标题与正文的各个词的向量表示分别为T0、T1、T2…Tm与C0、C1、C2…Cn,作为输入传入Bi-LSTM单元,得到对应隐藏层H0、H1、H2…Hm与h0、h1、h2…hn,将标题词向量与正文词向量进行点积,对新闻正文词向量进行加权,计算出注意力概率分布值a0、a1、a2…an,其思想是获取新闻正文词向量的重要程度,最终获得包含文本信息的特征向量v,其运算过程如公式(7)、(8)、(9);
Figure FDA0003649018180000011
Figure FDA0003649018180000021
Figure FDA0003649018180000022
其中exp表示指数函数,f表示打分函数,其中m表示新闻文本标题个数,n表示正文的词向量个数;
所述步骤四:通过双向长短记忆神经网络BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示,具体为:
CNN模块包含输入层、卷积层、池化层,输入层是新闻文本的向量化表示;卷积与池化层是卷积神经网络模型的核心层,目的是将原始的特征映射到更高层次维度的语义空间,通过BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示,设置3,4,5三种长度的卷积核,进行卷积与池化操作,将词向量加权模块后的输出作为CNN模块的输入,即新闻标题标题H0,H1,H2…Hm和加权后的新闻正文表示h′0,h′1,h′2…h′n,经过CNN的卷积与池化操作,得到新闻标题与正文的特征向量X0,X1,X2…Xm与x0,x1,x2…xn
所述卷积与池化操作运算过程如下:
(一)卷积操作
新闻标题词向量表示卷积运算如公式(10):
Xi=f(W1⊙Hi:i+l-1+b) (10)
其中,Xi表示新闻标题卷积运算后的结果,W1表示滤波器,b表示偏置量,
f表示激活函数,l表示滑动窗口大小,Hi:i+l-1表示为由第i到第i+l-1个标题文本词组成的局部特征矩阵,⊙表示点乘运算;
同理,新闻正文词向量表示卷积运算如公式(11):
xi=f(W1⊙h′i:i+l-1+b) (11)
(二)池化操作
对卷积核产生的新闻标题与正文特征进行最大池化操作如公式(12)、(13):
Figure FDA0003649018180000031
Figure FDA0003649018180000032
其中,Xi为新闻标题词向量经卷积运算后的结果,i=0,1,...,n-l+1,xi为新闻正文词向量加权后和卷积运算后的结果,
Figure FDA0003649018180000033
表示新闻文本标题与正文经过最大池化运算后的结果;
所述步骤五结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络对获得的信息进行聚合,完成文本分类,具体为:
胶囊网络与传统的神经网络不同,是通过向量来表示属性,即它的神经元是向量而不是标量,涉及到动态路由、输入胶囊、输出胶囊,本文采用的胶囊网络模块包括挤压、耦合、加权、动态路由在内的步骤,其中动态路由算法是胶囊网络模块的核心组件,通过动态路由不断的调整输入胶囊向量与输出胶囊向量的耦合系数,最终预测出输出胶囊向量;结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络对获得的信息进行聚合,完成文本分类,其算法过程如公式(14)、(15)、(16)、(17)、(18)、(19);
Figure FDA0003649018180000034
Figure FDA0003649018180000035
Figure FDA0003649018180000036
Figure FDA0003649018180000037
Figure FDA0003649018180000038
bij=bij+aij (19)
其中,cij表示耦合系数;i表示输入,j表输出;Wij表示变换矩阵,ui表示输入胶囊,
Figure FDA0003649018180000041
表示输出胶囊向量,式(15)表示通过变换矩阵,实现输入胶囊与输出胶囊的转换;sj表示耦合过程的输出,vj表示sj通过压缩函数后的胶囊向量;aij表示vj对应的预测向量
Figure FDA0003649018180000042
进行点积预算;
将CNN模块所提取得到的新闻文本标题与正文的特征作为子阶胶囊向量输入到胶囊网络模块进行文本分类,通过上述的算法,将新闻文本所有向量拼接获得高阶胶囊向量表示y0,y1,y2…yn,最终完成新闻文本分类。
2.根据权利要求1所述的一种基于胶囊网络融合模型的新闻文本分类方法,其特征在于,所述步骤一对新闻文本采用分词与去停用词在内的预处理,并进行词向量生成,具体包括:
从搜狗实验室数据资源中获取的全网新闻数据,保留12种新闻标签,包括房产house、女性women、运动sports、娱乐yule、信息技术IT、教育learning、商业business、军事mil、旅游travel、健康health、汽车auto、文化cul,首先将获取的新闻文本数据集进行预处理操作,包括分词与去停用词,采用的是基于Python语言的Jieba分词工具,通过增加一些专业词汇来扩充停用词表;词向量生成选择word2vec中的Skip-gram模型,Skip-gram模型是通过当前词来预测当前词前后单词,将预处理完成的新闻标题与正文文本输入到Skip-gram的模型结构中,以获取新闻文本标题与正文的词向量表示,分别表示为T0、T1、T2…Tm与C0、C1、C2…Cn,其中m表示新闻文本标题个数,n表示正文的词向量个数。
3.根据权利要求2所述的一种基于胶囊网络融合模型的新闻文本分类方法,其特征在于,所述步骤二选择双向长短记忆神经网络BiLSTM模型对新闻文本进行特征表示,具体包括:
采取双向长短记忆神经网络BiLSTM,BiLSTM由两个LSTM组成的双向通道,包括输入门、遗忘门和输出门,选择BiLSTM模型对新闻文本进行特征表示,向量化的文本进入BiLSTM进行上下文语义特征提取,其结构算法如公式(1)、(2)、(3)、(4)、(5)、(6):
it=σ(Wi[ht-1,xt]+bi) (1)
ft=σ(Wf[ht-1,xt]+bf) (2)
g=tanh(Wc[ht-1,xt]+bc) (3)
Ct=ft·Ct-1+it·g (4)
ot=σ(Wo[ht-1,xt]+bo) (5)
ht=ot·tanh(Ct) (6)
其中,xt表示此刻新闻标题与正文的输入信息,ht-1表示前一时刻的输出,it表示此刻输入门,ft表示此刻的遗忘门,g表示候选的输入,Ct表示自循环神经元,用于保存序列信息,ot表示此刻的输出,ht是此刻的输出向量,W表示权重矩阵,b表示偏置向量。
4.一种基于权利要求1-3任一项所述方法的胶囊网络融合模型的新闻文本分类系统,其特征在于,包括:
预处理模块:对新闻文本采用分词与去停用词在内的预处理,并进行词向量生成;
双向长短记忆神经网络BiLSTM:选择双向长短记忆神经网络BiLSTM模型对新闻文本进行特征表示;根据新闻文本标题与正文的重要程度,引入注意力机制,实现新闻词向量加权;通过双向长短记忆神经网络BiLSTM获得新闻文本的向量表示之后,再通过CNN获得句子的局部表示;
聚合模块:结合BiLSTM模型对文本长序列表示和CNN模型提取局部特征的优势,并利用胶囊网络CapsNet对获得的信息进行聚合,完成文本分类。
5.一种介质,该介质内部存储计算机程序,其特征在于,所述计算机程序被处理器读取时,执行上述权利要求1~3任一项的方法。
CN202110266706.2A 2021-03-11 2021-03-11 基于胶囊网络融合模型的新闻文本分类方法、系统及介质 Active CN113128557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110266706.2A CN113128557B (zh) 2021-03-11 2021-03-11 基于胶囊网络融合模型的新闻文本分类方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110266706.2A CN113128557B (zh) 2021-03-11 2021-03-11 基于胶囊网络融合模型的新闻文本分类方法、系统及介质

Publications (2)

Publication Number Publication Date
CN113128557A CN113128557A (zh) 2021-07-16
CN113128557B true CN113128557B (zh) 2022-08-23

Family

ID=76772913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110266706.2A Active CN113128557B (zh) 2021-03-11 2021-03-11 基于胶囊网络融合模型的新闻文本分类方法、系统及介质

Country Status (1)

Country Link
CN (1) CN113128557B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947427A (zh) * 2021-10-14 2022-01-18 广西大学 一种灵活能源混合网络动态微分控制的长期价格引导方法
CN116313061A (zh) * 2023-05-18 2023-06-23 山东师范大学 一种基于医疗大数据的辅助诊断系统及方法
CN116432644B (zh) * 2023-06-12 2023-08-15 南京邮电大学 一种基于特征融合和双重分类的新闻文本分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241283A (zh) * 2018-08-08 2019-01-18 广东工业大学 一种基于多角度胶囊网络的文本分类方法
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074500B2 (en) * 2017-06-20 2021-07-27 Battelle Memorial Institute Prediction of social media postings as trusted news or as types of suspicious news

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241283A (zh) * 2018-08-08 2019-01-18 广东工业大学 一种基于多角度胶囊网络的文本分类方法
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Aspect Based Sentiment Analysis With Feature Enhanced Attention CNN-BiLSTM;Wei Meng;《IEEEXplore》;20191111;全文 *
LSTM-TextCNN联合模型的短文本分类研究;李志杰等;《西安工业大学学报》;20200625(第03期);全文 *
一种基于LSTM和CNN混合模型的文本分类方法;王海涛等;《小型微型计算机系统》;20200529(第06期);全文 *
基于CNN-BiLSTM的中文微博立场分析研究;张翠肖等;《计算机技术与发展》;20200710(第07期);全文 *
基于胶囊网络的方面级情感分类研究;徐志栋等;《智能科学与技术学报》;20200915(第03期);全文 *
多特征融合的中文短文本分类模型;杨朝强等;《小型微型计算机系统》;20200710(第07期);全文 *

Also Published As

Publication number Publication date
CN113128557A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN113128557B (zh) 基于胶囊网络融合模型的新闻文本分类方法、系统及介质
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN112818861B (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
CN111581401A (zh) 一种基于深度相关性匹配的局部引文推荐系统及方法
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN110727765B (zh) 基于多注意力机制的问题分类方法、系统及存储介质
WO2022252636A1 (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN110263325A (zh) 中文分词系统
WO2021190662A1 (zh) 医学文献排序方法、装置、电子设备及存储介质
Banik et al. Gru based named entity recognition system for bangla online newspapers
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
CN114298157A (zh) 基于舆情大数据分析的短文本情感分类方法、介质及系统
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
Chaudhuri Visual and text sentiment analysis through hierarchical deep learning networks
CN115878761B (zh) 事件脉络生成方法、设备及介质
CN116775873A (zh) 一种多模态对话情感识别方法
JP7181693B2 (ja) ニュース素材分類装置、プログラム及び学習モデル
Samatin Njikam et al. CharTeC‐Net: An Efficient and Lightweight Character‐Based Convolutional Network for Text Classification
CN114417863A (zh) 词权重生成模型训练方法及装置、词权重生成方法及装置
CN114764437A (zh) 用户意图识别方法、装置以及电子设备
Zhang et al. A deep recommendation framework for completely new users in mashup creation
Guha et al. A Hybrid Deep Learning Model for Long-Term Sentiment Classification.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant