CN108595632B

CN108595632B - 一种融合摘要与主体特征的混合神经网络文本分类方法

Info

Publication number: CN108595632B
Application number: CN201810375856.5A
Authority: CN
Inventors: 陈羽中; 张伟智; 郭昆; 林剑
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2022-05-24
Anticipated expiration: 2038-04-24
Also published as: CN108595632A

Abstract

本发明涉及一种融合摘要与主体特征的混合神经网络文本分类方法，包括以下步骤：步骤A：对训练集中各文本抽取摘要；步骤B：使用卷积神经网络学习步骤A得到的摘要的关键局部特征；步骤C：使用长短期记忆网络学习训练集中各文本主体内容上的上下文时序特征；步骤D：将步骤B和步骤C得到的两种特征级联，得到文本整体特征，将训练集中各文本的文本整体特征输入到全连接层，使用分类器计算各文本属于各类别的概率来训练网络，得到深度神经网络模型；步骤E：利用训练好的深度神经网络模型预测待预测文本所属类别，取概率最大的类别作为预测的类别输出。该方法有利于提高基于深度神经网络的文本分类的准确率。

Description

一种融合摘要与主体特征的混合神经网络文本分类方法

技术领域

本发明涉及自然语言处理及数据挖掘领域，特别是一种融合摘要与主体特征的混合神经网络文本分类方法。

背景技术

文本分类(text categorization)技术是信息检索和文本挖掘的重要基础，其主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。近年来,利用深度学习来建立语言模型的研究思路逐渐走向成熟，大大提升了文本的特征质量。有学者最早提出一种基于卷积神经网络的句子分类模型，通过卷积层对预训练的词向量矩阵进行特征提取，利用梯度下降法优化网络权重参数，达到优于传统基于机器学习分类方法的分类精度；有学者提出一种对句子建模的深度神经网络模型，底层通过组合邻近的词语信息，逐步向上传递，上层则又组合新的Phrase信息，从而使得句子中即使相离较远的词语也有交互行为；有学者提出一种结合卷积神经网络和循环神经网络的网络模型，利用循环神经网络的结构得到词的上下文信息，将词本身与其上下文视为一个整体，共同参与卷积层的特征提取以及输出层的分类；有学者提出一种层次的注意力神经网络用于文档分类，将文档按照词，句，文档三个层次依次建模，并运用注意力机制赋予关键的词与句更高的权重；有学者提出一种基于解析树的递归神经网络模型，通过将句子解析为语法树，利用树型结构构造网络，递归地将文本信息传递至根结点，构成文本的表征向量用以分类。

目前针对文档级别的深度神经网络模型普遍采用文档中词构成句子，句子构成文档的这种层次结构来构建网络模型，然而，这些模型没有考虑到一些特定文档在行文上是存在明显的组织结构的特点，例如文本通常可以分为摘要，主体等文章的组织结构，而不同的文章结构对于文本的类别有着不同的影响：文本摘要部分是对文本内容的高度概括，其中包含有事件的主体，事件的结果等关键信息；文本主体对内容进行详述，描述了内容的起因经过，具有上下文时序的特点。而目前针对文档级别的深度神经网络模型普遍直接将整个文本输入到网络中统一处理，无法很好利用到文本不同组织结构上的作用。

发明内容

本发明的目的在于提供一种融合摘要与主体特征的混合神经网络文本分类方法，该方法有利于提高基于深度神经网络的文本分类的准确率。

为实现上述目的，本发明的技术方案是：一种融合摘要与主体特征的混合神经网络文本分类方法，包括以下步骤：

步骤A：对训练集中各文本抽取摘要；

步骤B：使用卷积神经网络学习步骤A得到的摘要的关键局部特征；

步骤C：使用长短期记忆网络学习训练集中各文本主体内容上的上下文时序特征；

步骤D：将步骤B和步骤C得到的两种特征级联，得到文本整体特征，将训练集中各文本的文本整体特征输入到全连接层，使用分类器计算各文本属于各类别的概率来训练网络，得到深度神经网络模型；

步骤E：利用训练好的深度神经网络模型预测待预测文本所属类别，取概率最大的类别作为预测的类别输出。

进一步地，所述步骤A中，对训练集中各文本抽取摘要，包括以下步骤：

步骤A1：对任一文本D，进行分句和分词处理，并使用词嵌入工具将文本中的词转为词向量形式，计算公式如下：

v＝W·v′

其中，文本中每个词随机初始化为一个d’维的实数向量，即v’；W为词嵌入矩阵，W∈R^d×d′，由大规模语料在神经网络语言模型中训练得到，用于将d’维实数向量投射为d维词向量；v∈R^d，表示词向量，d为词向量的维度；

步骤A2：对于句子数不少于设定阈值的文本，对于每个句子，去除停用词，然后计算句子中词向量的平均值，作为句子向量，计算公式如下：

其中，v_ij表示文本D中第i个句子的第j个词的词向量，n_i表示文本D中第i个句子中词的个数，s_i表示句子向量；

以两句子向量的夹角余弦值，作为句子之间的相似度函数，利用TextRank算法，计算每个句子的得分，计算公式如下：

其中，S(s_i)为句子i的得分，dp为阻尼系数，sim(s_i,s_j)表示句子i和句子j的相似度；

按照得分高低进行排序，选择得分最高的部分句子作为文本摘要；

步骤A3：对于句子数少于设定阈值的文本，将文本D本身视为文本的文本摘要，然后使用密度聚类算法对文本D中的词向量进行语义聚类，获取簇中心作为语义中心，并找出与语义中心距离小于设定阈值的词向量，计算其向量和，得到新的向量作为语义拓展，补充到文本摘要内容中去，计算公式如下：

v_c+v_i＝v_new,if dis(v_c,v_i)＜ε

其中，将每一个词向量作为多维空间的一个点，d_ij表示点i即第i个词向量和点j即第j个词向量间的距离，d_c为截断距离阈值，函数χ统计点距离大于截断距离阈值的个数，ρ_i为点i在多维空间中的局部密度，δ_i为点i与具有更高密度的点的距离；同时满足ρ_i>ρ_c和δ_i>δ_c的点取为簇中心v_c，其中，ρ_c，δ_c为设定的阈值；将与簇中心v_c距离dis(v_c,v_i)小于阈值ε的v_i取出，分别计算向量的和得到新的向量v_new，v_new由语义中心与阈值内的向量相加得到，以此拓展过短的文本。

进一步地，所述步骤B中，使用卷积神经网络学习步骤A得到的摘要的关键局部特征，包括以下步骤：

步骤B1：将文本摘要构成的词向量矩阵输入到卷积神经网络的输入层，用不同大小的卷积核分别对词向量矩阵进行局部卷积计算，计算公式如下：

o_i＝w·A[i:i+h-1]

c_i＝f(o_i+b)

c＝[c₁,c₂,…,c_s-h+1]

其中，A是文本摘要构成的词向量矩阵，A∈R^s×d，s为文本摘要中词的个数，d为词向量的维数，A[i:i+h-1]表示词向量矩阵A位于滑动窗口中的部分，即词向量矩阵的第i行到第i+h-1行，h是卷积核窗口的大小，h取不同值以提取不同粒度的局部特征，从而提取摘要中的关键特征，w是卷积核的权重矩阵，w∈R^h×d；o_i是卷积操作的输出，b是偏置项，b∈R，f为激活函数，c_i为卷积核在词向量矩阵第i行到i+h-1行的局部特征，其中i＝1,2,…,s-h+1，c_i构成特征映射图c；

步骤B2：对不同大小卷积核窗口生成的特征映射图c进行池化操作，池化操作分为最大池化和平均池化，计算公式如下：

y＝max(c_i),i＝1,2,…,s-h+1

y＝average(c_i),i＝1,2,…,s-h+1

最大池化和平均池化起到数据降维的作用，且最大池化通过选择特征映射图中的最大值以捕获最重要的特征；

步骤B3：将各个特征映射图的池化结果级联，构成文本摘要向量v_sm。

进一步地，所述步骤C中，使用长短期记忆网络学习训练集中各文本内容上的上下文时序特征，包括以下步骤：

步骤C1：对于每一个句子，将构成句子的词看作一个时序序列，将词向量按照词序依次输入到一个词级别的双向的长短期记忆网络中，对于正向长短期记忆网络，依次输入x₁,x₂,…,x_n，对于反向长短期记忆网络，则依次输入x_n,x_n-1,…,x₁；通过长短期记忆网络，计算每个词在前后上下文词的影响下的输出状态，将正向最后一个网络单元的输出与反向最后一个单元的输出级联，得到句子的表征向量；以正向长短期记忆网络为说明，计算公式如下：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

q_t＝tanh(W_q·[h_t-1,x_t]+b_q)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

c_t＝f_t*c_t-1+i_t*q_t

h_t＝o_t*tanh(c_t)

其中，σ是sigmoid函数，将变量映射到0-1之间，计算公式如下：

tanh为双曲正切函数，将变量映射到-1-1之间，计算公式如下：

x_t为句子中第t个词，W_i、W_f、W_q、W_o为权重矩阵，b_i、b_f、b_q、b_o为偏置项，h_t为t时刻的输出，i_t为t时刻的输入门，f_t为t时刻的遗忘门，o_t为t时刻的输出门，c_t为t时刻的细胞状态，v_j为第j个句子的向量表示,n_s为句子数；

为正向最后一个单元的输出，

为反向最后一个单元的输出；

步骤C2：将步骤C1得到的各个句子向量看作一个时序序列，将句子向量依次输入到一个句子级别的双向的长短期记忆网络中，对于正向长短期记忆网络，依次输入

对于反向长短期记忆网络，则依次输入

通过长短期记忆网络，计算每个句子在前后上下文句子的影响下的输出状态，将正向最后一个网络单元的输出与反向最后一个单元的输出级联，得到文本的内容表征向量v_M；以正向长短期记忆网络为说明，计算公式如下：

i_t＝σ(W_i·[h_t-1,v_t]+b_i)

f_t＝σ(W_f·[h_t-1,v_t]+b_f)

q_t＝tanh(W_q·[h_t-1,v_t]+b_q)

o_t＝σ(W_o·[h_t-1,v_t]+b_o)

c_t＝f_t*c_t-1+i_t*q_t

h_t＝o_t*tanh(c_t)

v_t表示第t个句子，v_M为文本内容向量。

进一步地，所述步骤D中，将步骤B和步骤C得到的两种特征级联，得到文本整体特征，将训练集中各文本的文本整体特征输入到全连接层，使用分类器计算文本属于各类别的概率来训练网络，包括以下步骤：

步骤D1：将文本摘要向量与文本内容向量级联，得到文本整体特征向量，计算公式如下：

v_news＝[v_sm,v_M]

步骤D2：将文本整体特征向量输入到全连接层，并使用softmax归一化，计算文本属于各类别的概率，计算公式如下：

y＝f_dense(W_dense·v_news+b_dense)

其中，W_dense为全连接层权重矩阵，b_dense为偏置项，f_dense为激活函数，y_i为全连接输出特征的第i维，p(y_i)为预测为类别i的概率，0≤p(y_i)≤1，C为类别的总数；

步骤D3：以对数似然函数为损失函数，通过随机梯度下降优化方法，利用方向传播迭代更新模型参数，以最小化损失函数来训练模型，计算公式如下：

其中，D表示训练集，x为训练集中的文本，y为x的真实类别，θ表示模型参数。

相较于现有技术，本发明的有益效果是：首先对文本内容进行分析，提取文本不同的组织结构，同时依据神经网络的特点进行结合，利用能够提取关键局部特征的卷积神经网络来学习文本摘要中的关键局部特征，同时使用能够很好处理时序序列数据的长短期记忆网络来学习文本主体句子内及句子间的上下文时序特征，将两个不同的特征级联作为文本整体的特征来提升模型对文本的语义的理解。该方法从文本内容上分析，提取文本不同的组织结构，综合考虑了文本摘要中的关键局部信息和文本主体内容上的上下文时序信息，能够有效提高基于深度神经网络在文本上的分类准确率。

附图说明

图1是本发明方法的流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明提供一种融合摘要与主体特征的混合神经网络文本分类方法，如图1所示，包括以下步骤：

步骤A：对训练集中各文本抽取摘要。具体包括以下步骤：

v＝W·v′

其中，文本中每个词随机初始化为一个d’维的实数向量，即v’；W为词嵌入矩阵，W∈R^d×d′，由大规模语料在神经网络语言模型中训练得到，用于将d’维实数向量投射为d维词向量；v∈R^d，表示词向量，d为词向量的维度；这里词的向量化借助现有的词嵌入工具如word2vec等实现，由于词嵌入矩阵由大规模语料在神经网络语言模型中训练得到，经由词嵌入矩阵变换得到的词向量，具有语义近似的词在多维空间中相距近的特点。

其中，v_ij表示文本D中第i个句子的第j个词的词向量，n_i表示文本D中第i个句子中词的个数，s_i表示句子向量。

其中，S(s_i)为句子i的得分，dp为阻尼系数，在本实施例中设为0.85，sim(s_i,s_j)表示句子i和句子j的相似度。

按照得分高低进行排序，根据文本D中的句子数量，按照一定比例，选择得分最高的部分句子作为文本摘要。

v_c+v_i＝v_new,if dis(v_c,v_i)＜ε

其中，将每一个词向量作为多维空间的一个点，d_ij表示点i即第i个词向量和点j即第j个词向量间的距离，d_c为截断距离阈值，函数χ统计点距离大于截断距离阈值的个数，ρ_i为点i在多维空间中的局部密度，δ_i为点i与具有更高密度的点的距离；同时满足ρ_i>ρ_c和δ_i>δ_c的点取为簇中心v_c，其中，ρ_c，δ_c为设定的阈值；将与簇中心v_c距离dis(v_c,v_i)小于阈值ε的v_i取出，分别计算向量的和得到新的向量v_new，新的向量v_new是由带语义的词向量相加得到，而这些带语义的词向量是由在大规模语料上训练得到，由此得到类似于vec(德国)+vec(首都)≈vec(柏林)等具有语义的结果，v_new由语义中心与阈值内的向量相加得到，目的在于使其尽可能贴近文本的中心话题，以此拓展过短的文本。

步骤B：使用卷积神经网络学习步骤A得到的摘要的关键局部特征。具体包括以下步骤：

o_i＝w·A[i:i+h-1]

c_i＝f(o_i+b)

c＝[c₁,c₂,…,c_s-h+1]

其中，A是文本摘要构成的词向量矩阵，A∈R^s×d，s为文本摘要中词的个数，d为词向量的维数，A[i:i+h-1]表示词向量矩阵A位于滑动窗口中的部分，即词向量矩阵的第i行到第i+h-1行，h是卷积核窗口的大小，h取不同值以提取不同粒度的局部特征，从而提取摘要中的如事件主体，结果等关键特征，在本实施例中，h取值可以是2、3、4等，w是卷积核的权重矩阵，w∈R^h×d；o_i是卷积操作的输出，b是偏置项，b∈R，f为激活函数，c_i为卷积核在词向量矩阵第i行到i+h-1行的局部特征，其中i＝1,2,…,s-h+1，c_i构成特征映射图c。

y＝max(c_i),i＝1,2,…,s-h+1

y＝average(c_i),i＝1,2,…,s-h+1

最大池化和平均池化起到数据降维的作用，且最大池化通过选择特征映射图中的最大值以捕获最重要的特征。

步骤C：使用长短期记忆网络学习训练集中各文本主体内容上的上下文时序特征。具体包括以下步骤：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

q_t＝tanh(W_q·[h_t-1,x_t]+b_q)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

c_t＝f_t*c_t-1+i_t*q_t

h_t＝o_t*tanh(c_t)

为正向最后一个单元的输出，

为反向最后一个单元的输出；相比于循环神经网络RNN，使用长短期记忆网络有效解决循环神经网络存在的梯度消失问题，并且融入词在句子内部的前后上下文的时序信息。

对于反向长短期记忆网络，则依次输入

i_t＝σ(W_i·[h_t-1,v_t]+b_i)

f_t＝σ(W_f·[h_t-1,v_t]+b_f)

q_t＝tanh(W_q·[h_t-1,v_t]+b_q)

o_t＝σ(W_o·[h_t-1,v_t]+b_o)

c_t＝f_t*c_t-1+i_t*q_t

h_t＝o_t*tanh(c_t)

v_t表示第t个句子，v_M为文本内容向量，其余参数同步骤C1。

步骤D：将步骤B和步骤C得到的两种特征级联，得到文本整体特征，将训练集中各文本的文本整体特征输入到全连接层，使用分类器计算各文本属于各类别的概率来训练网络，得到深度神经网络模型。具体包括以下步骤：

v_news＝[v_sm,v_M]

y＝f_dense(W_dense·v_news+b_dense)

其中，W_dense为全连接层权重矩阵，b_dense为偏置项，f_dense为激活函数，y_i为全连接输出特征的第i维，p(y_i)为预测为类别i的概率，0≤p(y_i)≤1，C为类别的总数。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种融合摘要与主体特征的混合神经网络文本分类方法，其特征在于，包括以下步骤：

步骤S1：对训练集中各文本抽取摘要；

步骤S2：使用卷积神经网络学习步骤S1得到的摘要的关键局部特征；

步骤S3：使用长短期记忆网络学习训练集中各文本主体内容上的上下文时序特征；

步骤S4：将步骤S2和步骤S3得到的两种特征级联，得到文本整体特征，将训练集中各文本的文本整体特征输入到全连接层，使用分类器计算各文本属于各类别的概率来训练网络，得到深度神经网络模型；

步骤S5：利用训练好的深度神经网络模型预测待预测文本所属类别，取概率最大的类别作为预测的类别输出；

所述步骤S1中，对训练集中各文本抽取摘要，包括以下步骤：

v＝W·v′

其中，文本中每个词随机初始化为一个d’维的实数向量，即v’；W为词嵌入矩阵，W∈R^d ^×d′，由大规模语料在神经网络语言模型中训练得到，用于将d’维实数向量投射为d维词向量；v∈R^d，表示词向量，d为词向量的维度；

以两句子向量的夹角θ的余弦值，作为句子之间的相似度函数，利用TextRank算法，计算每个句子的得分，计算公式如下：

其中，S(s_i)为句子i的得分，dp为阻尼系数，

表示句子i和句子j*的相似度；

v_c+v_i'＝v_new,如果dis(v_c,v_i')＜ε

其中，将每一个词向量作为多维空间的一个点，d_i'j'表示点i'即第i'个词向量和点j'即第j'个词向量间的距离，d_c为截断距离阈值，函数χ统计点距离大于截断距离阈值的个数，ρ_i'为点i'在多维空间中的局部密度，δ_i'为点i'与具有更高密度的点的距离；同时满足ρ_i'>ρ_c和δ_i'>δ_c的点取为簇中心v_c，其中，ρ_c，δ_c为设定的阈值；将与簇中心v_c距离dis(v_c,v_i')小于阈值ε的v_i'取出，得到新的向量v_new，v_new由语义中心与阈值内的向量相加得到，以此拓展过短的文本；

所述步骤S2中，使用卷积神经网络学习步骤S1得到的摘要的关键局部特征，包括以下步骤：

o_i1＝w·A[i1:i1+h-1]

c_i1＝f(o_i1+b)

c＝[c₁,c₂,…,c_s-h+1]

其中，A是文本摘要构成的词向量矩阵，A∈R^s×d，s为文本摘要中词的个数，d为词向量的维数，A[i1:i1+h-1]表示词向量矩阵A位于滑动窗口中的部分，即词向量矩阵的第i1行到第i1+h-1行，h是卷积核窗口的大小，h取不同值以提取不同粒度的局部特征，从而提取摘要中的关键特征，w是卷积核的权重矩阵，w∈R^h×d；o_i1是卷积操作的输出，b是偏置项，b∈R，f为激活函数，c_i1为卷积核在词向量矩阵第i1行到i1+h-1行的局部特征，其中i1＝1,2,…,s-h+1，c_i1构成特征映射图c；

y＝max(c_i1),i1＝1,2,…,s-h+1

y＝average(c_i1),i1＝1,2,…,s-h+1

步骤B3：将各个特征映射图的池化结果级联，构成文本摘要向量v_sm；

所述步骤S3中，使用长短期记忆网络学习训练集中各文本内容上的上下文时序特征，包括以下步骤：