CN108595632B - 一种融合摘要与主体特征的混合神经网络文本分类方法 - Google Patents

一种融合摘要与主体特征的混合神经网络文本分类方法 Download PDF

Info

Publication number
CN108595632B
CN108595632B CN201810375856.5A CN201810375856A CN108595632B CN 108595632 B CN108595632 B CN 108595632B CN 201810375856 A CN201810375856 A CN 201810375856A CN 108595632 B CN108595632 B CN 108595632B
Authority
CN
China
Prior art keywords
text
sentence
vector
word
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810375856.5A
Other languages
English (en)
Other versions
CN108595632A (zh
Inventor
陈羽中
张伟智
郭昆
林剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201810375856.5A priority Critical patent/CN108595632B/zh
Publication of CN108595632A publication Critical patent/CN108595632A/zh
Application granted granted Critical
Publication of CN108595632B publication Critical patent/CN108595632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种融合摘要与主体特征的混合神经网络文本分类方法,包括以下步骤:步骤A:对训练集中各文本抽取摘要;步骤B:使用卷积神经网络学习步骤A得到的摘要的关键局部特征;步骤C:使用长短期记忆网络学习训练集中各文本主体内容上的上下文时序特征;步骤D:将步骤B和步骤C得到的两种特征级联,得到文本整体特征,将训练集中各文本的文本整体特征输入到全连接层,使用分类器计算各文本属于各类别的概率来训练网络,得到深度神经网络模型;步骤E:利用训练好的深度神经网络模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出。该方法有利于提高基于深度神经网络的文本分类的准确率。

Description

一种融合摘要与主体特征的混合神经网络文本分类方法
技术领域
本发明涉及自然语言处理及数据挖掘领域,特别是一种融合摘要与主体特征的混合神经网络文本分类方法。
背景技术
文本分类(text categorization)技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。近年来,利用深度学习来建立语言模型的研究思路逐渐走向成熟,大大提升了文本的特征质量。有学者最早提出一种基于卷积神经网络的句子分类模型,通过卷积层对预训练的词向量矩阵进行特征提取,利用梯度下降法优化网络权重参数,达到优于传统基于机器学习分类方法的分类精度;有学者提出一种对句子建模的深度神经网络模型,底层通过组合邻近的词语信息,逐步向上传递,上层则又组合新的Phrase信息,从而使得句子中即使相离较远的词语也有交互行为;有学者提出一种结合卷积神经网络和循环神经网络的网络模型,利用循环神经网络的结构得到词的上下文信息,将词本身与其上下文视为一个整体,共同参与卷积层的特征提取以及输出层的分类;有学者提出一种层次的注意力神经网络用于文档分类,将文档按照词,句,文档三个层次依次建模,并运用注意力机制赋予关键的词与句更高的权重;有学者提出一种基于解析树的递归神经网络模型,通过将句子解析为语法树,利用树型结构构造网络,递归地将文本信息传递至根结点,构成文本的表征向量用以分类。
目前针对文档级别的深度神经网络模型普遍采用文档中词构成句子,句子构成文档的这种层次结构来构建网络模型,然而,这些模型没有考虑到一些特定文档在行文上是存在明显的组织结构的特点,例如文本通常可以分为摘要,主体等文章的组织结构,而不同的文章结构对于文本的类别有着不同的影响:文本摘要部分是对文本内容的高度概括,其中包含有事件的主体,事件的结果等关键信息;文本主体对内容进行详述,描述了内容的起因经过,具有上下文时序的特点。而目前针对文档级别的深度神经网络模型普遍直接将整个文本输入到网络中统一处理,无法很好利用到文本不同组织结构上的作用。
发明内容
本发明的目的在于提供一种融合摘要与主体特征的混合神经网络文本分类方法,该方法有利于提高基于深度神经网络的文本分类的准确率。
为实现上述目的,本发明的技术方案是:一种融合摘要与主体特征的混合神经网络文本分类方法,包括以下步骤:
步骤A:对训练集中各文本抽取摘要;
步骤B:使用卷积神经网络学习步骤A得到的摘要的关键局部特征;
步骤C:使用长短期记忆网络学习训练集中各文本主体内容上的上下文时序特征;
步骤D:将步骤B和步骤C得到的两种特征级联,得到文本整体特征,将训练集中各文本的文本整体特征输入到全连接层,使用分类器计算各文本属于各类别的概率来训练网络,得到深度神经网络模型;
步骤E:利用训练好的深度神经网络模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出。
进一步地,所述步骤A中,对训练集中各文本抽取摘要,包括以下步骤:
步骤A1:对任一文本D,进行分句和分词处理,并使用词嵌入工具将文本中的词转为词向量形式,计算公式如下:
v=W·v′
其中,文本中每个词随机初始化为一个d’维的实数向量,即v’;W为词嵌入矩阵,W∈Rd×d′,由大规模语料在神经网络语言模型中训练得到,用于将d’维实数向量投射为d维词向量;v∈Rd,表示词向量,d为词向量的维度;
步骤A2:对于句子数不少于设定阈值的文本,对于每个句子,去除停用词,然后计算句子中词向量的平均值,作为句子向量,计算公式如下:
Figure BDA0001639264260000021
其中,vij表示文本D中第i个句子的第j个词的词向量,ni表示文本D中第i个句子中词的个数,si表示句子向量;
以两句子向量的夹角余弦值,作为句子之间的相似度函数,利用TextRank算法,计算每个句子的得分,计算公式如下:
Figure BDA0001639264260000031
Figure BDA0001639264260000032
其中,S(si)为句子i的得分,dp为阻尼系数,sim(si,sj)表示句子i和句子j的相似度;
按照得分高低进行排序,选择得分最高的部分句子作为文本摘要;
步骤A3:对于句子数少于设定阈值的文本,将文本D本身视为文本的文本摘要,然后使用密度聚类算法对文本D中的词向量进行语义聚类,获取簇中心作为语义中心,并找出与语义中心距离小于设定阈值的词向量,计算其向量和,得到新的向量作为语义拓展,补充到文本摘要内容中去,计算公式如下:
Figure BDA0001639264260000033
Figure BDA0001639264260000034
vc+vi=vnew,if dis(vc,vi)<ε
其中,将每一个词向量作为多维空间的一个点,dij表示点i即第i个词向量和点j即第j个词向量间的距离,dc为截断距离阈值,函数χ统计点距离大于截断距离阈值的个数,ρi为点i在多维空间中的局部密度,δi为点i与具有更高密度的点的距离;同时满足ρic和δic的点取为簇中心vc,其中,ρc,δc为设定的阈值;将与簇中心vc距离dis(vc,vi)小于阈值ε的vi取出,分别计算向量的和得到新的向量vnew,vnew由语义中心与阈值内的向量相加得到,以此拓展过短的文本。
进一步地,所述步骤B中,使用卷积神经网络学习步骤A得到的摘要的关键局部特征,包括以下步骤:
步骤B1:将文本摘要构成的词向量矩阵输入到卷积神经网络的输入层,用不同大小的卷积核分别对词向量矩阵进行局部卷积计算,计算公式如下:
oi=w·A[i:i+h-1]
ci=f(oi+b)
c=[c1,c2,…,cs-h+1]
其中,A是文本摘要构成的词向量矩阵,A∈Rs×d,s为文本摘要中词的个数,d为词向量的维数,A[i:i+h-1]表示词向量矩阵A位于滑动窗口中的部分,即词向量矩阵的第i行到第i+h-1行,h是卷积核窗口的大小,h取不同值以提取不同粒度的局部特征,从而提取摘要中的关键特征,w是卷积核的权重矩阵,w∈Rh×d;oi是卷积操作的输出,b是偏置项,b∈R,f为激活函数,ci为卷积核在词向量矩阵第i行到i+h-1行的局部特征,其中i=1,2,…,s-h+1,ci构成特征映射图c;
步骤B2:对不同大小卷积核窗口生成的特征映射图c进行池化操作,池化操作分为最大池化和平均池化,计算公式如下:
y=max(ci),i=1,2,…,s-h+1
y=average(ci),i=1,2,…,s-h+1
最大池化和平均池化起到数据降维的作用,且最大池化通过选择特征映射图中的最大值以捕获最重要的特征;
步骤B3:将各个特征映射图的池化结果级联,构成文本摘要向量vsm
进一步地,所述步骤C中,使用长短期记忆网络学习训练集中各文本内容上的上下文时序特征,包括以下步骤:
步骤C1:对于每一个句子,将构成句子的词看作一个时序序列,将词向量按照词序依次输入到一个词级别的双向的长短期记忆网络中,对于正向长短期记忆网络,依次输入x1,x2,…,xn,对于反向长短期记忆网络,则依次输入xn,xn-1,…,x1;通过长短期记忆网络,计算每个词在前后上下文词的影响下的输出状态,将正向最后一个网络单元的输出与反向最后一个单元的输出级联,得到句子的表征向量;以正向长短期记忆网络为说明,计算公式如下:
it=σ(Wi·[ht-1,xt]+bi)
ft=σ(Wf·[ht-1,xt]+bf)
qt=tanh(Wq·[ht-1,xt]+bq)
ot=σ(Wo·[ht-1,xt]+bo)
ct=ft*ct-1+it*qt
ht=ot*tanh(ct)
Figure BDA0001639264260000051
其中,σ是sigmoid函数,将变量映射到0-1之间,计算公式如下:
Figure BDA0001639264260000052
tanh为双曲正切函数,将变量映射到-1-1之间,计算公式如下:
Figure BDA0001639264260000053
xt为句子中第t个词,Wi、Wf、Wq、Wo为权重矩阵,bi、bf、bq、bo为偏置项,ht为t时刻的输出,it为t时刻的输入门,ft为t时刻的遗忘门,ot为t时刻的输出门,ct为t时刻的细胞状态,vj为第j个句子的向量表示,ns为句子数;
Figure BDA0001639264260000054
为正向最后一个单元的输出,
Figure BDA0001639264260000055
为反向最后一个单元的输出;
步骤C2:将步骤C1得到的各个句子向量看作一个时序序列,将句子向量依次输入到一个句子级别的双向的长短期记忆网络中,对于正向长短期记忆网络,依次输入
Figure BDA0001639264260000056
对于反向长短期记忆网络,则依次输入
Figure BDA0001639264260000057
通过长短期记忆网络,计算每个句子在前后上下文句子的影响下的输出状态,将正向最后一个网络单元的输出与反向最后一个单元的输出级联,得到文本的内容表征向量vM;以正向长短期记忆网络为说明,计算公式如下:
it=σ(Wi·[ht-1,vt]+bi)
ft=σ(Wf·[ht-1,vt]+bf)
qt=tanh(Wq·[ht-1,vt]+bq)
ot=σ(Wo·[ht-1,vt]+bo)
ct=ft*ct-1+it*qt
ht=ot*tanh(ct)
Figure BDA0001639264260000058
vt表示第t个句子,vM为文本内容向量。
进一步地,所述步骤D中,将步骤B和步骤C得到的两种特征级联,得到文本整体特征,将训练集中各文本的文本整体特征输入到全连接层,使用分类器计算文本属于各类别的概率来训练网络,包括以下步骤:
步骤D1:将文本摘要向量与文本内容向量级联,得到文本整体特征向量,计算公式如下:
vnews=[vsm,vM]
步骤D2:将文本整体特征向量输入到全连接层,并使用softmax归一化,计算文本属于各类别的概率,计算公式如下:
y=fdense(Wdense·vnews+bdense)
Figure BDA0001639264260000061
其中,Wdense为全连接层权重矩阵,bdense为偏置项,fdense为激活函数,yi为全连接输出特征的第i维,p(yi)为预测为类别i的概率,0≤p(yi)≤1,C为类别的总数;
步骤D3:以对数似然函数为损失函数,通过随机梯度下降优化方法,利用方向传播迭代更新模型参数,以最小化损失函数来训练模型,计算公式如下:
Figure BDA0001639264260000062
其中,D表示训练集,x为训练集中的文本,y为x的真实类别,θ表示模型参数。
相较于现有技术,本发明的有益效果是:首先对文本内容进行分析,提取文本不同的组织结构,同时依据神经网络的特点进行结合,利用能够提取关键局部特征的卷积神经网络来学习文本摘要中的关键局部特征,同时使用能够很好处理时序序列数据的长短期记忆网络来学习文本主体句子内及句子间的上下文时序特征,将两个不同的特征级联作为文本整体的特征来提升模型对文本的语义的理解。该方法从文本内容上分析,提取文本不同的组织结构,综合考虑了文本摘要中的关键局部信息和文本主体内容上的上下文时序信息,能够有效提高基于深度神经网络在文本上的分类准确率。
附图说明
图1是本发明方法的流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明提供一种融合摘要与主体特征的混合神经网络文本分类方法,如图1所示,包括以下步骤:
步骤A:对训练集中各文本抽取摘要。具体包括以下步骤:
步骤A1:对任一文本D,进行分句和分词处理,并使用词嵌入工具将文本中的词转为词向量形式,计算公式如下:
v=W·v′
其中,文本中每个词随机初始化为一个d’维的实数向量,即v’;W为词嵌入矩阵,W∈Rd×d′,由大规模语料在神经网络语言模型中训练得到,用于将d’维实数向量投射为d维词向量;v∈Rd,表示词向量,d为词向量的维度;这里词的向量化借助现有的词嵌入工具如word2vec等实现,由于词嵌入矩阵由大规模语料在神经网络语言模型中训练得到,经由词嵌入矩阵变换得到的词向量,具有语义近似的词在多维空间中相距近的特点。
步骤A2:对于句子数不少于设定阈值的文本,对于每个句子,去除停用词,然后计算句子中词向量的平均值,作为句子向量,计算公式如下:
Figure BDA0001639264260000071
其中,vij表示文本D中第i个句子的第j个词的词向量,ni表示文本D中第i个句子中词的个数,si表示句子向量。
以两句子向量的夹角余弦值,作为句子之间的相似度函数,利用TextRank算法,计算每个句子的得分,计算公式如下:
Figure BDA0001639264260000072
Figure BDA0001639264260000073
其中,S(si)为句子i的得分,dp为阻尼系数,在本实施例中设为0.85,sim(si,sj)表示句子i和句子j的相似度。
按照得分高低进行排序,根据文本D中的句子数量,按照一定比例,选择得分最高的部分句子作为文本摘要。
步骤A3:对于句子数少于设定阈值的文本,将文本D本身视为文本的文本摘要,然后使用密度聚类算法对文本D中的词向量进行语义聚类,获取簇中心作为语义中心,并找出与语义中心距离小于设定阈值的词向量,计算其向量和,得到新的向量作为语义拓展,补充到文本摘要内容中去,计算公式如下:
Figure BDA0001639264260000081
Figure BDA0001639264260000082
vc+vi=vnew,if dis(vc,vi)<ε
其中,将每一个词向量作为多维空间的一个点,dij表示点i即第i个词向量和点j即第j个词向量间的距离,dc为截断距离阈值,函数χ统计点距离大于截断距离阈值的个数,ρi为点i在多维空间中的局部密度,δi为点i与具有更高密度的点的距离;同时满足ρic和δic的点取为簇中心vc,其中,ρc,δc为设定的阈值;将与簇中心vc距离dis(vc,vi)小于阈值ε的vi取出,分别计算向量的和得到新的向量vnew,新的向量vnew是由带语义的词向量相加得到,而这些带语义的词向量是由在大规模语料上训练得到,由此得到类似于vec(德国)+vec(首都)≈vec(柏林)等具有语义的结果,vnew由语义中心与阈值内的向量相加得到,目的在于使其尽可能贴近文本的中心话题,以此拓展过短的文本。
步骤B:使用卷积神经网络学习步骤A得到的摘要的关键局部特征。具体包括以下步骤:
步骤B1:将文本摘要构成的词向量矩阵输入到卷积神经网络的输入层,用不同大小的卷积核分别对词向量矩阵进行局部卷积计算,计算公式如下:
oi=w·A[i:i+h-1]
ci=f(oi+b)
c=[c1,c2,…,cs-h+1]
其中,A是文本摘要构成的词向量矩阵,A∈Rs×d,s为文本摘要中词的个数,d为词向量的维数,A[i:i+h-1]表示词向量矩阵A位于滑动窗口中的部分,即词向量矩阵的第i行到第i+h-1行,h是卷积核窗口的大小,h取不同值以提取不同粒度的局部特征,从而提取摘要中的如事件主体,结果等关键特征,在本实施例中,h取值可以是2、3、4等,w是卷积核的权重矩阵,w∈Rh×d;oi是卷积操作的输出,b是偏置项,b∈R,f为激活函数,ci为卷积核在词向量矩阵第i行到i+h-1行的局部特征,其中i=1,2,…,s-h+1,ci构成特征映射图c。
步骤B2:对不同大小卷积核窗口生成的特征映射图c进行池化操作,池化操作分为最大池化和平均池化,计算公式如下:
y=max(ci),i=1,2,…,s-h+1
y=average(ci),i=1,2,…,s-h+1
最大池化和平均池化起到数据降维的作用,且最大池化通过选择特征映射图中的最大值以捕获最重要的特征。
步骤B3:将各个特征映射图的池化结果级联,构成文本摘要向量vsm
步骤C:使用长短期记忆网络学习训练集中各文本主体内容上的上下文时序特征。具体包括以下步骤:
步骤C1:对于每一个句子,将构成句子的词看作一个时序序列,将词向量按照词序依次输入到一个词级别的双向的长短期记忆网络中,对于正向长短期记忆网络,依次输入x1,x2,…,xn,对于反向长短期记忆网络,则依次输入xn,xn-1,…,x1;通过长短期记忆网络,计算每个词在前后上下文词的影响下的输出状态,将正向最后一个网络单元的输出与反向最后一个单元的输出级联,得到句子的表征向量;以正向长短期记忆网络为说明,计算公式如下:
it=σ(Wi·[ht-1,xt]+bi)
ft=σ(Wf·[ht-1,xt]+bf)
qt=tanh(Wq·[ht-1,xt]+bq)
ot=σ(Wo·[ht-1,xt]+bo)
ct=ft*ct-1+it*qt
ht=ot*tanh(ct)
Figure BDA0001639264260000091
其中,σ是sigmoid函数,将变量映射到0-1之间,计算公式如下:
Figure BDA0001639264260000101
tanh为双曲正切函数,将变量映射到-1-1之间,计算公式如下:
Figure BDA0001639264260000102
xt为句子中第t个词,Wi、Wf、Wq、Wo为权重矩阵,bi、bf、bq、bo为偏置项,ht为t时刻的输出,it为t时刻的输入门,ft为t时刻的遗忘门,ot为t时刻的输出门,ct为t时刻的细胞状态,vj为第j个句子的向量表示,ns为句子数;
Figure BDA0001639264260000103
为正向最后一个单元的输出,
Figure BDA0001639264260000104
为反向最后一个单元的输出;相比于循环神经网络RNN,使用长短期记忆网络有效解决循环神经网络存在的梯度消失问题,并且融入词在句子内部的前后上下文的时序信息。
步骤C2:将步骤C1得到的各个句子向量看作一个时序序列,将句子向量依次输入到一个句子级别的双向的长短期记忆网络中,对于正向长短期记忆网络,依次输入
Figure BDA0001639264260000105
对于反向长短期记忆网络,则依次输入
Figure BDA0001639264260000106
通过长短期记忆网络,计算每个句子在前后上下文句子的影响下的输出状态,将正向最后一个网络单元的输出与反向最后一个单元的输出级联,得到文本的内容表征向量vM;以正向长短期记忆网络为说明,计算公式如下:
it=σ(Wi·[ht-1,vt]+bi)
ft=σ(Wf·[ht-1,vt]+bf)
qt=tanh(Wq·[ht-1,vt]+bq)
ot=σ(Wo·[ht-1,vt]+bo)
ct=ft*ct-1+it*qt
ht=ot*tanh(ct)
Figure BDA0001639264260000107
vt表示第t个句子,vM为文本内容向量,其余参数同步骤C1。
步骤D:将步骤B和步骤C得到的两种特征级联,得到文本整体特征,将训练集中各文本的文本整体特征输入到全连接层,使用分类器计算各文本属于各类别的概率来训练网络,得到深度神经网络模型。具体包括以下步骤:
步骤D1:将文本摘要向量与文本内容向量级联,得到文本整体特征向量,计算公式如下:
vnews=[vsm,vM]
步骤D2:将文本整体特征向量输入到全连接层,并使用softmax归一化,计算文本属于各类别的概率,计算公式如下:
y=fdense(Wdense·vnews+bdense)
Figure BDA0001639264260000111
其中,Wdense为全连接层权重矩阵,bdense为偏置项,fdense为激活函数,yi为全连接输出特征的第i维,p(yi)为预测为类别i的概率,0≤p(yi)≤1,C为类别的总数。
步骤D3:以对数似然函数为损失函数,通过随机梯度下降优化方法,利用方向传播迭代更新模型参数,以最小化损失函数来训练模型,计算公式如下:
Figure BDA0001639264260000112
其中,D表示训练集,x为训练集中的文本,y为x的真实类别,θ表示模型参数。
步骤E:利用训练好的深度神经网络模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (1)

1.一种融合摘要与主体特征的混合神经网络文本分类方法,其特征在于,包括以下步骤:
步骤S1:对训练集中各文本抽取摘要;
步骤S2:使用卷积神经网络学习步骤S1得到的摘要的关键局部特征;
步骤S3:使用长短期记忆网络学习训练集中各文本主体内容上的上下文时序特征;
步骤S4:将步骤S2和步骤S3得到的两种特征级联,得到文本整体特征,将训练集中各文本的文本整体特征输入到全连接层,使用分类器计算各文本属于各类别的概率来训练网络,得到深度神经网络模型;
步骤S5:利用训练好的深度神经网络模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出;
所述步骤S1中,对训练集中各文本抽取摘要,包括以下步骤:
步骤A1:对任一文本D,进行分句和分词处理,并使用词嵌入工具将文本中的词转为词向量形式,计算公式如下:
v=W·v′
其中,文本中每个词随机初始化为一个d’维的实数向量,即v’;W为词嵌入矩阵,W∈Rd ×d′,由大规模语料在神经网络语言模型中训练得到,用于将d’维实数向量投射为d维词向量;v∈Rd,表示词向量,d为词向量的维度;
步骤A2:对于句子数不少于设定阈值的文本,对于每个句子,去除停用词,然后计算句子中词向量的平均值,作为句子向量,计算公式如下:
Figure FDA0003534885140000011
其中,vij表示文本D中第i个句子的第j个词的词向量,ni表示文本D中第i个句子中词的个数,si表示句子向量;
以两句子向量的夹角θ的余弦值,作为句子之间的相似度函数,利用TextRank算法,计算每个句子的得分,计算公式如下:
Figure FDA0003534885140000012
Figure FDA0003534885140000021
其中,S(si)为句子i的得分,dp为阻尼系数,
Figure FDA0003534885140000024
表示句子i和句子j*的相似度;
按照得分高低进行排序,选择得分最高的部分句子作为文本摘要;
步骤A3:对于句子数少于设定阈值的文本,将文本D本身视为文本的文本摘要,然后使用密度聚类算法对文本D中的词向量进行语义聚类,获取簇中心作为语义中心,并找出与语义中心距离小于设定阈值的词向量,计算其向量和,得到新的向量作为语义拓展,补充到文本摘要内容中去,计算公式如下:
Figure FDA0003534885140000022
Figure FDA0003534885140000023
vc+vi'=vnew,如果dis(vc,vi')<ε
其中,将每一个词向量作为多维空间的一个点,di'j'表示点i'即第i'个词向量和点j'即第j'个词向量间的距离,dc为截断距离阈值,函数χ统计点距离大于截断距离阈值的个数,ρi'为点i'在多维空间中的局部密度,δi'为点i'与具有更高密度的点的距离;同时满足ρi'c和δi'c的点取为簇中心vc,其中,ρc,δc为设定的阈值;将与簇中心vc距离dis(vc,vi')小于阈值ε的vi'取出,得到新的向量vnew,vnew由语义中心与阈值内的向量相加得到,以此拓展过短的文本;
所述步骤S2中,使用卷积神经网络学习步骤S1得到的摘要的关键局部特征,包括以下步骤:
步骤B1:将文本摘要构成的词向量矩阵输入到卷积神经网络的输入层,用不同大小的卷积核分别对词向量矩阵进行局部卷积计算,计算公式如下:
oi1=w·A[i1:i1+h-1]
ci1=f(oi1+b)
c=[c1,c2,…,cs-h+1]
其中,A是文本摘要构成的词向量矩阵,A∈Rs×d,s为文本摘要中词的个数,d为词向量的维数,A[i1:i1+h-1]表示词向量矩阵A位于滑动窗口中的部分,即词向量矩阵的第i1行到第i1+h-1行,h是卷积核窗口的大小,h取不同值以提取不同粒度的局部特征,从而提取摘要中的关键特征,w是卷积核的权重矩阵,w∈Rh×d;oi1是卷积操作的输出,b是偏置项,b∈R,f为激活函数,ci1为卷积核在词向量矩阵第i1行到i1+h-1行的局部特征,其中i1=1,2,…,s-h+1,ci1构成特征映射图c;
步骤B2:对不同大小卷积核窗口生成的特征映射图c进行池化操作,池化操作分为最大池化和平均池化,计算公式如下:
y=max(ci1),i1=1,2,…,s-h+1
y=average(ci1),i1=1,2,…,s-h+1
最大池化和平均池化起到数据降维的作用,且最大池化通过选择特征映射图中的最大值以捕获最重要的特征;
步骤B3:将各个特征映射图的池化结果级联,构成文本摘要向量vsm
所述步骤S3中,使用长短期记忆网络学习训练集中各文本内容上的上下文时序特征,包括以下步骤:
步骤C1:对于每一个句子,将构成句子的词看作一个时序序列,将词向量按照词序依次输入到一个词级别的双向的长短期记忆网络中,对于正向长短期记忆网络,依次输入x1,x2,…,xn,对于反向长短期记忆网络,则依次输入xn,xn-1,…,x1;通过长短期记忆网络,计算每个词在前后上下文词的影响下的输出状态,将正向最后一个网络单元的输出与反向最后一个单元的输出级联,得到句子的表征向量;以正向长短期记忆网络为说明,计算公式如下:
Figure FDA0003534885140000031
Figure FDA0003534885140000032
Figure FDA0003534885140000033
Figure FDA0003534885140000034
ct=ft*ct-1+it*qt
ht=ot*tanh(ct)
Figure FDA0003534885140000041
其中,σ是sigmoid函数,将变量映射到0-1之间,计算公式如下:
Figure FDA0003534885140000042
tanh为双曲正切函数,将变量映射到-1-1之间,计算公式如下:
Figure FDA0003534885140000043
Figure FDA0003534885140000049
为句子中第t*个词,Wi2、Wf、Wq、Wo为权重矩阵,bi2、bf、bq、bo为偏置项,ht为t时刻的输出,it为t时刻的输入门,ft为t时刻的遗忘门,ot为t时刻的输出门,ct为t时刻的细胞状态,
Figure FDA00035348851400000410
为第j*个句子的向量表示,ns为句子数;
Figure FDA0003534885140000044
为正向最后一个单元的输出,
Figure FDA0003534885140000045
为反向最后一个单元的输出;
步骤C2:将步骤C1得到的各个句子向量看作一个时序序列,将句子向量依次输入到一个句子级别的双向的长短期记忆网络中,对于正向长短期记忆网络,依次输入
Figure FDA0003534885140000046
对于反向长短期记忆网络,则依次输入
Figure FDA0003534885140000047
通过长短期记忆网络,计算每个句子在前后上下文句子的影响下的输出状态,将正向最后一个网络单元的输出与反向最后一个单元的输出级联,得到文本的内容表征向量vM;以正向长短期记忆网络为说明,计算公式如下:
Figure FDA00035348851400000411
Figure FDA00035348851400000412
Figure FDA00035348851400000413
Figure FDA00035348851400000414
ct=ft*ct-1+it*qt
ht=ot*tanh(ct)
Figure FDA0003534885140000048
Figure FDA00035348851400000415
表示句子中第t*个词,vM为文本内容向量;
所述步骤S4中,将步骤S2和步骤S3得到的两种特征级联,得到文本整体特征,将训练集中各文本的文本整体特征输入到全连接层,使用分类器计算文本属于各类别的概率来训练网络,包括以下步骤:
步骤D1:将文本摘要向量与文本内容向量级联,得到文本整体特征向量,计算公式如下:
vnews=[vsm,vM]
步骤D2:将文本整体特征向量输入到全连接层,并使用softmax归一化,计算文本属于各类别的概率,计算公式如下:
y=fdense(Wdense·vnews+bdense)
Figure FDA0003534885140000051
其中,Wdense为全连接层权重矩阵,bdense为偏置项,fdense为激活函数,yi3为全连接输出特征的第i3维,p(yi3)为预测的概率,0≤p(yi3)≤1,C为类别的总数;
步骤D3:以对数似然函数为损失函数,通过随机梯度下降优化方法,利用方向传播迭代更新模型参数,以最小化损失函数来训练模型,计算公式如下:
Figure FDA0003534885140000052
其中,D'表示训练集,x'为训练集中的文本,y'为x'的真实类别,θ'表示模型参数。
CN201810375856.5A 2018-04-24 2018-04-24 一种融合摘要与主体特征的混合神经网络文本分类方法 Active CN108595632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810375856.5A CN108595632B (zh) 2018-04-24 2018-04-24 一种融合摘要与主体特征的混合神经网络文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810375856.5A CN108595632B (zh) 2018-04-24 2018-04-24 一种融合摘要与主体特征的混合神经网络文本分类方法

Publications (2)

Publication Number Publication Date
CN108595632A CN108595632A (zh) 2018-09-28
CN108595632B true CN108595632B (zh) 2022-05-24

Family

ID=63609320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810375856.5A Active CN108595632B (zh) 2018-04-24 2018-04-24 一种融合摘要与主体特征的混合神经网络文本分类方法

Country Status (1)

Country Link
CN (1) CN108595632B (zh)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325125B (zh) * 2018-10-08 2022-06-14 中山大学 一种基于cnn优化的社交网络谣言检测方法
CN109376242B (zh) * 2018-10-18 2020-11-17 西安工程大学 基于循环神经网络变体和卷积神经网络的文本分类方法
CN109389091B (zh) * 2018-10-22 2022-05-03 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法
CN109508651A (zh) * 2018-10-24 2019-03-22 辽宁师范大学 基于卷积神经网络的脑电情感分类方法
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN111199155B (zh) * 2018-10-30 2023-09-15 飞狐信息技术(天津)有限公司 一种文本分类方法及装置
CN109582786B (zh) * 2018-10-31 2020-11-24 中国科学院深圳先进技术研究院 一种基于自动编码的文本表示学习方法、系统及电子设备
CN109299274B (zh) * 2018-11-07 2021-12-17 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
CN109597891B (zh) * 2018-11-26 2023-04-07 重庆邮电大学 基于双向长短时记忆神经网络的文本情感分析方法
CN110147444B (zh) * 2018-11-28 2022-11-04 腾讯科技(深圳)有限公司 基于神经网络语言模型的文本预测方法、装置及存储介质
CN109359198A (zh) * 2018-12-04 2019-02-19 北京容联易通信息技术有限公司 一种文本分类方法及装置
CN111291178A (zh) * 2018-12-06 2020-06-16 北京嘀嘀无限科技发展有限公司 一种对话分类方法、装置、电子设备及存储介质
CN111291179B (zh) * 2018-12-06 2023-12-08 北京嘀嘀无限科技发展有限公司 一种对话分类方法、装置、电子设备及存储介质
CN109597997B (zh) * 2018-12-07 2023-05-02 上海宏原信息科技有限公司 基于评论实体、方面级情感分类方法和装置及其模型训练
CN109617909B (zh) * 2019-01-07 2021-04-27 福州大学 一种基于smote和bi-lstm网络的恶意域名检测方法
CN109840279A (zh) * 2019-01-10 2019-06-04 山东亿云信息技术有限公司 基于卷积循环神经网络的文本分类方法
CN109902293B (zh) * 2019-01-30 2020-11-24 华南理工大学 一种基于局部与全局互注意力机制的文本分类方法
CN109800438B (zh) * 2019-02-01 2020-03-31 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109992771B (zh) * 2019-03-13 2020-05-05 北京三快在线科技有限公司 一种文本生成的方法及装置
CN111694949B (zh) * 2019-03-14 2023-12-05 京东科技控股股份有限公司 一种多文本分类方法和装置
CN110009027B (zh) * 2019-03-28 2022-07-29 腾讯科技(深圳)有限公司 图像的比对方法、装置、存储介质及电子装置
CN110032645B (zh) * 2019-04-17 2021-02-09 携程旅游信息技术(上海)有限公司 文本情感识别方法、系统、设备以及介质
CN110096986B (zh) * 2019-04-24 2022-04-12 东北大学 一种基于图像识别与文本融合的博物馆展品智能导览方法
CN110245227B (zh) * 2019-04-25 2021-12-28 义语智能科技(广州)有限公司 文本分类的融合分类器的训练方法及设备
CN110245230A (zh) * 2019-05-15 2019-09-17 北京思源智通科技有限责任公司 一种图书分级方法、系统、存储介质和服务器
CN110298038B (zh) * 2019-06-14 2022-12-06 北京奇艺世纪科技有限公司 一种文本打分方法及装置
CN110377741B (zh) * 2019-07-22 2021-10-22 成都深度智慧人工智能科技有限公司 文本分类方法、智能终端及计算机可读存储介质
CN110647919A (zh) * 2019-08-27 2020-01-03 华东师范大学 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统
CN110717330A (zh) * 2019-09-23 2020-01-21 哈尔滨工程大学 基于深度学习的词句级短文本分类方法
CN110705287B (zh) * 2019-09-27 2023-06-30 北京妙笔智能科技有限公司 一种用于文本摘要的生成方法和系统
CN110826338B (zh) * 2019-10-28 2022-06-17 桂林电子科技大学 一种单选择门与类间度量的细粒度语义相似识别的方法
CN111104789B (zh) * 2019-11-22 2023-12-29 华中师范大学 文本评分方法、装置和系统
CN110929033A (zh) * 2019-11-26 2020-03-27 深圳市信联征信有限公司 长文本分类方法、装置、计算机设备及存储介质
CN111125386B (zh) * 2019-12-02 2023-03-14 深圳市雅阅科技有限公司 媒体资源的处理方法和装置、存储介质及电子装置
CN113010668A (zh) * 2019-12-20 2021-06-22 京东方科技集团股份有限公司 文本聚类方法、装置、电子设备及计算机可读存储介质
CN111274395B (zh) * 2020-01-19 2021-11-12 河海大学 基于卷积和长短期记忆网络的电网监控告警事件识别方法
CN111475642A (zh) * 2020-02-29 2020-07-31 新华三大数据技术有限公司 一种文本分类方法、装置及模型训练方法
CN111628970B (zh) * 2020-04-24 2021-10-15 中国科学院计算技术研究所 一种dga型僵尸网络的检测方法、介质和电子设备
CN111985369B (zh) * 2020-08-07 2021-09-17 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN112015863B (zh) * 2020-08-26 2023-06-13 华东师范大学 一种基于图神经网络的多元特征融合中文文本分类方法
CN112070784B (zh) * 2020-09-15 2022-07-01 桂林电子科技大学 一种基于上下文增强网络的感知边缘检测方法
CN112084338B (zh) * 2020-09-18 2024-02-06 达而观数据(成都)有限公司 一种文档自动归类方法、系统、计算机设备及存储介质
CN113191135A (zh) * 2021-01-26 2021-07-30 北京联合大学 一种融合颜文字的多类别情感提取方法
CN113033174B (zh) * 2021-03-23 2022-06-10 哈尔滨工业大学 一种基于输出型相似门的案件分类方法、装置及存储介质
CN112989049A (zh) * 2021-03-30 2021-06-18 广东工业大学 一种小样本文本分类方法、装置、计算机设备和存储介质
CN113485102A (zh) * 2021-06-22 2021-10-08 西安法士特汽车传动有限公司 一种基于长短期记忆神经网络识别车辆行驶工况的方法
CN115563284B (zh) * 2022-10-24 2023-06-23 重庆理工大学 一种基于语义的深度多实例弱监督文本分类方法
CN117938555A (zh) * 2024-03-25 2024-04-26 衢州海易科技有限公司 车联网云平台日志序列和参数异常检测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107291795A (zh) * 2017-05-03 2017-10-24 华南理工大学 一种结合动态词嵌入和词性标注的文本分类方法
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170140240A1 (en) * 2015-07-27 2017-05-18 Salesforce.Com, Inc. Neural network combined image and text evaluator and classifier
CN107220231A (zh) * 2016-03-22 2017-09-29 索尼公司 用于自然语言处理的电子设备和方法以及训练方法
CN106650943B (zh) * 2016-10-28 2020-09-25 北京百度网讯科技有限公司 基于人工智能的辅助写作方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107291795A (zh) * 2017-05-03 2017-10-24 华南理工大学 一种结合动态词嵌入和词性标注的文本分类方法
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Chinese Text Sentiment Analysis using Bilinear Character-Word Convolutional Neural Networks;Xu Wang et al.;《2017 International Conference on Computer Science and Application Engineering》;20171231;第36-43页 *
Combination of Convolutional and Recurrent Neural Network for Sentiment Analysis of Short Texts;Xingyou Wang et al.;《Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers》;20161231;第2428-2437页 *
Research on Keyword Extraction Based on Word2Vec Weighted TextRank;Yujun Wen et al.;《2016 2nd IEEE International Conference on Computer and Communications》;20161231;第2109-2111页 *
Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification;Peng Wang et al.;《Neurocomputing》;20151009;第808页 *
吴俊江.基于深度学习的中文文本情感分类及其在舆情分析中的应用研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2018, *
基于深度学习的中文文本情感分类及其在舆情分析中的应用研究;吴俊江;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215;第15-44页 *
基于深度学习的短文本分类及信息抽取研究;李超;《中国优秀硕士学位论文全文数据库 信息科技辑》;20171215;第1-53页 *

Also Published As

Publication number Publication date
CN108595632A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN108595632B (zh) 一种融合摘要与主体特征的混合神经网络文本分类方法
CN108984745B (zh) 一种融合多知识图谱的神经网络文本分类方法
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
Zhang et al. A text sentiment classification modeling method based on coordinated CNN‐LSTM‐attention model
CN110222163B (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN111027595B (zh) 双阶段语义词向量生成方法
CN109189925A (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN112883738A (zh) 基于神经网络和自注意力机制的医学实体关系抽取方法
CN108399230A (zh) 一种基于卷积神经网络的中文财经新闻文本分类方法
CN110263325B (zh) 中文分词系统
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN108388651A (zh) 一种基于图核和卷积神经网络的文本分类方法
CN106776562A (zh) 一种关键词提取方法和提取系统
CN110807084A (zh) 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
CN112818118B (zh) 基于反向翻译的中文幽默分类模型的构建方法
CN110717330A (zh) 基于深度学习的词句级短文本分类方法
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN103020167B (zh) 一种计算机中文文本分类方法
CN111125367A (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN111753088A (zh) 一种自然语言信息的处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant