CN109492108A

CN109492108A - 基于深度学习的多级融合文档分类方法和系统

Info

Publication number: CN109492108A
Application number: CN201811395789.XA
Authority: CN
Inventors: 姚毅; 姚智; 阳帅
Original assignee: Shanghai Wisdom-Only Laojian Information Technology Co Ltd
Current assignee: Wuhan Zhibang Navigation Technology Co.,Ltd.; Zhang Enbang
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-03-19
Anticipated expiration: 2038-11-22
Also published as: CN109492108B

Abstract

本发明公开了一种基于深度学习的多级融合文档分类方法和系统，通过结合表示与模型的多级融合，提高文档分类的最终准确率。其技术方案为：本发明基于深度学习，结合表示与模型的多级融合文档分类方法主要包含表示融合部分与模型融合部分，其中表示融合部分通过搭建向量模型，对输入的待分类文本数据同时训练词、句、段、篇四级向量矩阵。模型融合部分接收融合向量数据，搭建三大分类模型，再经融合最终形成分类结果。

Description

基于深度学习的多级融合文档分类方法和系统

技术领域

本发明涉及自然语言处理技术领域，特别是涉及基于深度学习，结合表示与模型的多级融合文档分类方法和系统。

背景技术

文本分类技术是指根据预先设定的类别，运用自然语言处理方法将文本归类的技术。文本分类技术作为自然语言处理的基本技术，广泛应用各类数据挖掘、文本处理等领域。

近年来，随着文本分类技术的不断发展，多种技术不断发明出来。例如，在文本表示领域，对词向量技术的发明，将每个文本中的词用固定维度的向量表示。通过训练，向量与向量的空间关系一定程度了反映了词与词之间的语义关联。在分类模型方面，有学者提出长短期记忆神经网络，在获取当前时间步数据的同时，同时获取之前时间步的状态，可更好的反映文本数据的时序特征。有学者提出使用卷积神经网络，通过多层卷积，获取不同维度的文本上下文信息，起到与N元语法模型类似的作用，并同时避免N元语法模型的缺点——N过大会导致实际计算的难以实现。机器学习领域著名的梯度提升树技术，使用多个固定大小的决策树作为多个弱学习器，多次迭代后形成分类结果，这种技术也被证明可取得显著的效果。

尽管多种技术的不断出现，但是从分类结果看，技术仍然尚未完全成熟。词向量虽能一定程度上反映词与词之间的语义特征，但是对文档分类，尤其对长文档分类来说，无法体现文档的篇章结构，无法从整体上的对文档使用向量表示。多种分类模型虽均取得一定成果，各自关注各自的维度，未能将模型与多维度的表示向量结合，存在一定的局限性。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种基于深度学习的多级融合文档分类方法和系统，通过结合表示与模型的多级融合，提高文档分类的最终准确率。

本发明的技术方案为：本发明揭示了一种基于深度学习的多级融合文档分类方法，包括：

步骤1：对输入的文本数据进行预处理，包括在词、句、段、篇四个级别上各自构造一个矩阵；

步骤2：在步骤1预处理得到的词、句、段、篇各自对应的矩阵的基础上进一步构造向量模型，使用背景词与当前句、段、篇作为输入，对中心词进行预测，向量模型收敛后分别保存词向量矩阵、句向量矩阵、段向量矩阵和文本向量矩阵，并分别进行步骤3至步骤5的处理；

步骤3：基于向量模型，构造带有多级注意力机制的循环神经网络分类模型，对多级向量表示分别使用注意力机制，促使循环神经网络分类模型在多级维度动态分布注意力，建立循环神经网络分类模型对应的文本分类模型，得到循环神经网络分类模型预测的概率分布；

步骤4：基于向量模型，构造依据卷积神经网络的文本分类模型，使用多个维度的卷积层获取文本上下文信息，再连接最大池化层和全连接层，得到卷积神经网络的文本分类模型预测的概率分布；

步骤5：基于向量模型，训练梯度提升树分类模型，获取梯度提升树分类模型预测的概率分布；

步骤6：融合循环神经网络分类模型、文本分类模型和梯度提升树分类模型，完成文本分类预测。

根据本发明的基于深度学习的多级融合文档分类方法的一实施例，步骤5中的梯度提升树分类模型是一种融合模型，以固定大小的决策树模型作为弱学习器，并通过多个弱学习器逐步迭代以构建强学习器，最终完成梯度提升树分类模型的搭建。

根据本发明的基于深度学习的多级融合文档分类方法的一实施例，步骤1中的预处理包括：

(1)获取待分类的文本数据，进行中文分词，统计数据信息；

(2)对文本进行去停用词、去特殊符号处理；

(3)统计词语出现的频率，根据频率再次清洗；

(4)在词、句、段、篇四级维度分别进行独热编码以便在词、句、段、篇这四个级别上各自构造出对应的矩阵，其中矩阵的行列数量都是不重复表示的数量，矩阵的值初始化为0，每一行中对应该级别标识序列位置的值设置为1。

根据本发明的基于深度学习的多级融合文档分类方法的一实施例，步骤2中，向量模型分别输入词、句、段、篇四级独热编码数据，以构造神经网络模型来预测中心词，再通过将中心词的预测值与目标值进行比较，计算误差后通过反向传播算法进行梯度更新，经多次迭代训练待模型收敛后，保存四级向量矩阵作为下一步分类模型的输入数据。

根据本发明的基于深度学习的多级融合文档分类方法的一实施例，步骤2进一步包括：

从训练文本中选择中心词，并通过窗口范围和选择数量来确定背景词；

获取中心词并转化为词编码，词编码为向量模型的目标数据，获取背景词并转化为词编码，再根据中心词的位置，选择该中心词所在的句、端、篇独热编码数据；

随机初始化四个权重矩阵，分别对应词、句、段、篇四级，将背景词及中心词所在的句、段、篇独特编码数据分布与各自对应的权重矩阵进行点积操作，分别得到各自对应的词向量、句向量、段向量与篇向量；

添加Concat层连接四级向量，添加全连接层并使用softmax函数进行类别预测概率归一化，最终得到预测概率分布；

训练阶段使用交叉熵作为损失函数计算出损失，再利用梯度下降法计算出损失与相应参数的偏导数，以该偏导数相反的方向更新参数值；

模型拟合后保存权重矩阵，分别对应词、句、段、篇向量矩阵。

根据本发明的基于深度学习的多级融合文档分类方法的一实施例，步骤3中，循环神经网络模型首先分别将词、句、段向量分别输入带有注意力机制的双向循环神经网络，最终分别获得词、句、段相应维度上的注意力向量，该三个注意力向量与篇向量连接后一同输入全连接层，最终使用softmax函数进行概率归一化。

根据本发明的基于深度学习的多级融合文档分类方法的一实施例，循环神经网络模型中的循环神经网络使用长短期记忆网络，以防止梯度消失，其中双向循环神经网络是在长短期记忆网络基础上构建的特殊长短期记忆网络层，特殊长短期记忆网络层包含两层的长短期记忆网络，第一层以正序方式输入数据并输出每个时间步的状态，第二层以倒序方式输入数据并输出每个时间步的状态，最终将两个状态合并以得到一个完整的输出。

根据本发明的基于深度学习的多级融合文档分类方法的一实施例，步骤4进一步包括：

步骤41：使用多个维度的卷积层获取文本上下文信息；

步骤42：分别在每个卷积层后使用最大池化层以降低数据维度；

步骤43:将各个卷积层后的最大池化层的输出结构相互拼接，再通过全连接层并使用softmax函数进行概率归一化，得到文本分类模型预测的概率分布。

根据本发明的基于深度学习的多级融合文档分类方法的一实施例，步骤5进一步包括：

梯度提升树分类模型以固定大小的决策树作为弱学习器，对多个弱学习器逐步迭代，其中前一个迭代的强学习器通过累加当前阶段的弱学习器可以得到当前阶段的强学习器，其中在每个迭代阶段通过损失最小化来确定当前阶段弱学习器的选择，最小化的过程通过计算最大梯度方向确定，最大梯度方向通过计算损失函数相对前一阶段强学习器最大负梯度计算，损失函数是对数似然损失函数。

根据本发明的基于深度学习的多级融合文档分类方法的一实施例，步骤6中，文本分类预测的概率分布是循环神经网络分类模型、文本分类模型和梯度提升树分类模型的模型概率分布的平均值。

本发明还揭示了一种基于深度学习的多级融合文档分类系统，包括：

预处理模块，对输入的文本数据进行预处理，包括在词、句、段、篇四个级别上各自构造一个矩阵；

向量模型模块，连接预处理模块，在预处理模块中得到的词、句、段、篇各自对应的矩阵的基础上进一步构造向量模型，使用背景词与当前句、段、篇作为输入，对中心词进行预测，向量模型收敛后分别保存词向量矩阵、句向量矩阵、段向量矩阵和文本向量矩阵；

循环神经网络分类模型模块，连接向量模型模块，基于向量模型，构造带有多级注意力机制的循环神经网络分类模型，对多级向量表示分别使用注意力机制，促使循环神经网络分类模型在多级维度动态分布注意力，建立循环神经网络分类模型对应的文本分类模型，得到循环神经网络分类模型预测的概率分布；

文本分类模型模块，连接向量模型模块，基于向量模型，构造依据卷积神经网络的文本分类模型，使用多个维度的卷积层获取文本上下文信息，再连接最大池化层和全连接层，得到卷积神经网络的文本分类模型预测的概率分布；

梯度提升树分类模型模块，连接向量模型模块，基于向量模型，构造梯度提升树分类模型，获取梯度提升树分类模型预测的概率分布；

模型融合模块，分别连接循环神经网络分类模型模块、文本分类模型模块和梯度提升树分类模型模块，融合循环神经网络分类模型、文本分类模型和梯度提升树分类模型，完成文本分类预测。

根据本发明的基于深度学习的多级融合文档分类系统的一实施例，梯度提升树分类模型模块中的梯度提升树分类模型是一种融合模型，以固定大小的决策树模型作为弱学习器，并通过多个弱学习器逐步迭代以构建强学习器，最终完成梯度提升树分类模型的搭建。

根据本发明的基于深度学习的多级融合文档分类系统的一实施例，预处理模块被配置为实现如下处理：

(1)获取待分类的文本数据，进行中文分词，统计数据信息；

(2)对文本进行去停用词、去特殊符号处理；

(3)统计词语出现的频率，根据频率再次清洗；

根据本发明的基于深度学习的多级融合文档分类系统的一实施例，向量模型模块被配置为向量模型分别输入词、句、段、篇四级独热编码数据，以构造神经网络模型来预测中心词，再通过将中心词的预测值与目标值进行比较，计算误差后通过反向传播算法进行梯度更新，经多次迭代训练待模型收敛后，保存四级向量矩阵作为下一步分类模型的输入数据。

根据本发明的基于深度学习的多级融合文档分类系统的一实施例，向量模型模块被配置为实现如下的处理：

根据本发明的基于深度学习的多级融合文档分类系统的一实施例，循环神经网络模型模块被配置为循环神经网络模型首先分别将词、句、段向量分别输入带有注意力机制的双向循环神经网络，最终分别获得词、句、段相应维度上的注意力向量，该三个注意力向量与篇向量连接后一同输入全连接层，最终使用softmax函数进行概率归一化。

根据本发明的基于深度学习的多级融合文档分类系统的一实施例，循环神经网络模型模块中的循环神经网络使用长短期记忆网络，以防止梯度消失，其中双向循环神经网络是在长短期记忆网络基础上构建的特殊长短期记忆网络层，特殊长短期记忆网络层包含两层的长短期记忆网络，第一层以正序方式输入数据并输出每个时间步的状态，第二层以倒序方式输入数据并输出每个时间步的状态，最终将两个状态合并以得到一个完整的输出。

根据本发明的基于深度学习的多级融合文档分类系统的一实施例，文本分类模型模块被配置为实现如下的处理：

使用多个维度的卷积层获取文本上下文信息；

分别在每个卷积层后使用最大池化层以降低数据维度；

将各个卷积层后的最大池化层的输出结构相互拼接，再通过全连接层并使用softmax函数进行概率归一化，得到文本分类模型预测的概率分布。

根据本发明的基于深度学习的多级融合文档分类系统的一实施例，梯度提升树分类模型模块被配置为：

根据本发明的基于深度学习的多级融合文档分类系统的一实施例，模型融合模块被配置为文本分类预测的概率分布是循环神经网络分类模型、文本分类模型和梯度提升树分类模型的模型概率分布的平均值。

本发明对比现有技术有如下的有益效果：本发明的基于深度学习，结合表示与模型的多级融合文档分类方法主要包含表示融合部分与模型融合部分，其中表示融合部分通过搭建向量模型，对输入的待分类文本数据同时训练词、句、段、篇四级向量矩阵。模型融合部分接收融合向量数据，搭建三大分类模型，再经融合最终形成分类结果。

相较于现有的文本分类模型，本发明有以下几方面的优势：1、提出了对句向量、段向量、篇向量的训练，通过不同维度的向量获取文档不同维度的数据表示特征。2、提出了词、句、段、篇四级向量的融合，这样得到的表示向量不仅能够表示词义特征，还可以一定程度上体现文档的篇章结构特征。3、融合多个分类模型，并将其与文档多级表示特征进行想配合，从多个维度获取分类结果，经融合获取最优分类预测。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了本发明的基于深度学习的多级融合文档分类方法的一实施例的流程图。

图2示出了向量模型的示意图。

图3示出了带有多级注意力(Attention)的循环网络分类模型的示意图。

图4示出了文本分类模型(TextCNN)的示意图。

图5示出了本发明的基于深度学习的多级融合文档分类系统的一实施例的原理图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

图1示出了本发明的基于深度学习的多级融合文档分类方法的实施例，请参见图1，下面是对本实施例的方法的实施步骤的详细描述。

步骤S1：对输入的文本数据进行预处理。

文本数据预处理的内容具体包括：

(1)获取待分类的文本数据，进行中文分词，统计数据信息。这里说的中文分词，是指将一段中文序列分割为一个个中文词语。这里使用较为成熟的jieba分词系统，具体分词方法不做限制。

(2)对文本进行去停用词、去特殊符号处理。假设处理后，文本数量为f，词表大小为C。去停用词可以显著降低C数量，去除冗余信息。这里说的特殊符号包括标点符号以及句子中出现的货币符号、数学符号等。

(3)统计词语出现的频率，根据频率再次清洗。这个步骤主要是统计每个词语出现的频率，去除“极度频率”(Extreme frequency)的情况。这里说的“极度频率”，是指一个词语出现的频率非常高或者非常低的情况。词语出现的频率在所有文本中非常高，表明该词更多的表现为所有文本的共性特征，在文本分类任务中作用不大。词语出现的频率在所有文本中非常低，表明词语较为稀有，很有可能属于罕见词，这样也无法体现某一类文本的共性特征，故也进行删除。也就是说，词语的频率ω_i需满足：ε_low＜Freq(ω_i)＜ε_high，ε_high与ε_low是上下频率过滤的参数，根据具体文本数据调整。

(4)在词(word，用w表示)、句(sentence，用s表示)、段(paragraph，用p表示)、篇(article，用a表示)四级维度分别进行独热编码(one-hot)。具体是指，在每个级别上，各自构造出一个矩阵，矩阵的行列数量都是不重复表示的数量。矩阵的值初始化为0，每一行中对应该级别标识序列位置的值设置为1。

步骤S2：构造向量模型，使用背景词与当前句、段、篇作为输入，对中心词进行预测，模型收敛后分别保存词向量矩阵、句向量矩阵、段向量矩阵和文本向量矩阵。

整体上看，向量模型分别输入词、句、段、篇四级独热编码数据，以此构造神经网络来预测中心词。然后再通过将预测值与目标值进行比较，计算误差后应用反向传播算法进行梯度更新。这样经多次迭代训练之后，神经网络模型预测准确率逐渐提高。模型收敛后，保存四级向量矩阵，作为下一步分类模型的输入数据。向量模型的构造示意如图2所示。

步骤S2的具体处理包括如下的步骤：

步骤S21：中心词从训练文本中按顺序从头开始进行依次选择。确定中心词，通过窗口范围(window)和选择数量k来确定背景词。窗口范围用来确定在中心词左右多少范围内选择背景词。选择数量k指定在背景词的范围内具体选择输入的数量，因此选择数量也就是背景词数量，需满足k≤window*2。

步骤S22：获取中心词，转化为词编码，此即为向量模型的目标数据，用符号t表示。获取背景词，转化为词编码，可表示为[ω₁，ω₂，ω₃，...ω_k]。再根据中心词位置，选择其所在的句、端、篇独热编码数据，分别为[s]，[p]，[a]。

步骤S23：随机初始化一个权重矩阵U_w,U_s,U_p,U_a，分别对应词、句、段、篇四级。并设置参数M为每个每级向量的维度。将背景词及中心词所在的句、段、篇独特编码数据分布与各自的权重矩阵进行点积操作，分别得到各自的词向量、句向量、段向量与篇向量。公式表示为：

步骤S24：添加Concat层，连接四级向量。最后添加一个全连接层，并使用softmax函数进行类别预测概率归一化，最终得到预测概率分布

这里的W和b是全连接层的权重和偏置变量。Softmax函数公式如下，作用是将多个输出t_i归一化为和为1的概率分布：

步骤S25：训练阶段使用交叉熵作为损失函数，计算出损失。交叉熵函数公式如下：

再利用梯度下降法，计算出损失与相应参数的偏导数，以该偏导数相反的方向更新参数值。

步骤S26：模型拟合之后，保存权重矩阵U_w,U_s,U_p,U_a，分别对应词、句、段、篇向量矩阵。

在完成步骤S2后，分别进行步骤3至步骤5的并行处理。

步骤S3：基于向量模型，构造带有多级注意力机制的循环神经网络模型，对多级向量表示分别使用注意力(Attention)机制，促使模型在多级维度动态分布注意力，建立循环神经网络分类模型对应的文本分类模型，得到循环神经网络分类模型预测的概率分布。

具体而言，循环神经网络模型首先分别在将词、句、段向量分别输入带有注意力机制的双向循环神经网络，最终分别获得词、句、段相应维度上的注意力向量。将这三个向量与篇向量连接后，一同输入全连接层，最终使用softmax函数进行概率归一化。带有多级注意力机制的循环网络分类模型的构造示意如图3所示。

本模型中的循环神经网络使用长短期记忆网络(Long Short-Term Memory，LSTM)，以其可以较好的体现序列数据中的顺序和历史信息，并可有效防止梯度消失的问题而得到广泛使用。具体来说，每个LSTM节点内部包含三个小的神经网络，综合三个结果得到输出，计算过程公式如下：

z_t＝σ(W_z·[h_t-1])

r_t＝σ(W_γ·[h_t-1,x_t])

符号说明如下：h_t-1是上一个时间步状态的输出，x_t是当前时间步的输入，W_z,W_r,W，均是三个小神经网络中的随机权重。σ是指sigmoid激活函数，tanh是双曲正切函数。这两个激活函数的公式如下：

每个LSTM节点就是在输入上一个时间步的状态输出和本时间步的输入后，最终输出本节点状态。

上述的双向循环神经网络是指一种在LSTM基础上构建的特殊LSTM层。该特殊LSTM层包含两层的LSTM。第一层以正序方式输入数据并输出每个时间步的状态，第二层以倒序方式输入数据并输出每个时间步的状态。最终将两个状态合并，得到一个完整的Bidirectional LSTM的输出。

在获得双向循环神经的输出后，开始分别构造注意力机制。分别设置参数向量u_w，u_s，u_p，分别对应词、句、段向量经双向循环神经网络的输出。以词的维度为例，计算过程如下(句和段的维度，计算过程相同)

u_it＝tanh(W_wh_it+b_w)

s_w＝∑_tα_ith_it

其中，h_it为双向循环神经网络第i个时间步的输出，通过一个简单神经网络，获得u_it，后经参数向量u_w，计算出该时间步输出的重要性程度α_it，最终输出的结果是s_w就是所有时间步与其相应的重要性程度乘积和。

分别在句、段维度使用同样模式的注意力机制，得到另外两个注意力向量s_s和s_p。

循环神经网络模型的参数优化采用反向传播算法，算法与步骤S2中的参数优化方法相同。

步骤S4：基于向量模型，构造依据卷积神经网络的文本分类模型(TextCNN模型)。使用多个维度的卷积层获取文本上下文信息，之后连接最大池化层(Max pooling)和全连接层，得到卷积神经网络的文本分类模型预测的概率分布。卷积神经网络的文本分类模型的构造示意如图4所示。

本步骤的具体实现包括如下的几个步骤：

步骤S41：由于文本数据为一维数据，仅有一个时间序列维度，因此卷积层使用1d卷积。模型一共采用三层卷积层，感受野(kernel_size)大小分别为7、5、3，从三个维度捕捉空间特征。假设所有数据表示为：x_1,n＝concat(x₁,x₂,...,x_n)。假设感受野大小为h，h范围内的数据范围表示为：x_i,i+h-1＝concat(x_i,x_i+1,x_i+2,...,x_i+h-1)，此时，该感受野范围内提取的特征可表示为：c_i＝f(W·x_i,i+h-1+b)。这里的f是激活函数，模型使用relu激活函数，公式为：relu(x)＝max(0,x)。W和b分别是权重和偏置。同理，设跨度(stride)为1，在整条数据中滑动感受野，就能得到包含所有的特征的矩阵：c＝concat(c₁,c₂,...,c_n-h+1)。这就是一个卷积层的输出。

步骤S42：池化层起到降低数据维度。存在多种池化方式，本模型分别在每个卷积层后使用最大池化层，公式为：

步骤S43:在对输入文本向量和词向量数据分别使用3个不同感受野的1D卷积，再如步骤S42描述，每个卷积层后均使用一个最大池化层，这时将三个池化层输出结构相互拼接，最终再输入一个全连接层并使用softmax函数进行概率归一化，最终得到预测的概率分布。

步骤S44：TextCNN模型的参数优化采用反向传播算法，算法与S2中的模型参数优化方法相同。

步骤S5：基于向量模型，训练梯度提升树分类模型，获取预测结果，即梯度提升树分类模型预测的概率分布。梯度提升树分类(Gradient Tree Boosting)模型是一种融合模型。基本算法是，以固定大小的决策树模型作为弱学习器(weak learner)，并通过多个弱学习器逐步迭代，构建强学习器(strong learner)，并最终完成梯度提升树分类模型的搭建。

步骤S5的具体实现如下：

梯度提升树分类模型以固定大小的决策树作为弱学习器，假设弱学习器用h_m(x)表示，则强学习器F(x)的公式为：不同阶段强学习器的迭代关系可表示为：F_m(x)＝F_m-1(x)+γ_mh_m(x)。从公式可以看到，前一个迭代的强学习器通过累加当前阶段的弱学习器可以得到当前阶段的强学习器。

在每个迭代阶段，通过损失最小化来确定当前阶段弱学习器的选择。即公式表示为：

最小化的过程通过计算最大梯度方向确定。最大梯度方向通过计算损失函数相对前一阶段强学习器最大负梯度计算，这样可将公式重写为：

在公式中，通过参数γ_m控制等式两边值得重要性程度，依据下面的公式通过线性搜索获得：

上述的损失函数可有多种选择。由于文本分类任务一般属于多标签分类，本次模型采用对数似然损失函数，计算公式为：其中，第k类的概率p_k(x)为：

步骤S6：获取步骤S1处理后的训练数据后，根据步骤S2得到的词、句、段、篇四级向量矩阵进行转化，得到特定训练文本相应的词、句、段、篇向量，然后将四者连接，形成完整版本输入数据。用该输入数据分别输入步骤S3、步骤S4、步骤S5中的分类模型，获取三个模型的预测概率分布。最后使用软融合(soft voting)的方法，融合分类模型，从而最终得到最优预测值。

具体实施步骤为：设类别数量为k，步骤C、D、E中三个模型的输出结果分类为：

M＝[m₁,m₂,...,m_k]

N＝[n₁,n₂,...,n_k]

G＝[g₁,g₂,...,g_k]

则经软融合后，最终类别预测的概率分布为：

P＝[aver(m₁,n₁,g₁),aver(m₂,n₂,g₂),...aver(m_k,n_k,g_k)]

即最三个分类模型结果分别取平均值，得到最终概率分布最终预测的类别就是argmax(P)。

图5示出了本发明的基于深度学习的多级融合文档分类系统的一实施例的原理。请参见图5，本实施例的系统包括：预处理模块、向量模型模块、循环神经网络分类模型模块、文本分类模型模块、梯度提升树分类模型模块、模型融合模块。其中预处理模块连接向量模型模块；向量模型模块分别连接循环神经网络分类模型模块、文本分类模型模块、梯度提升树分类模型模块；循环神经网络分类模型模块、文本分类模型模块、梯度提升树分类模型模块的输出端连接到模型融合模块。

预处理模块，对输入的文本数据进行预处理，包括在词、句、段、篇四个级别上各自构造一个矩阵。

预处理模块被配置为实现如下处理：

(1)获取待分类的文本数据，进行中文分词，统计数据信息；

(2)对文本进行去停用词、去特殊符号处理；

(3)统计词语出现的频率，根据频率再次清洗；

向量模型模块，在预处理模块中得到的词、句、段、篇各自对应的矩阵的基础上进一步构造向量模型，使用背景词与当前句、段、篇作为输入，对中心词进行预测，向量模型收敛后分别保存词向量矩阵、句向量矩阵、段向量矩阵和文本向量矩阵。向量模型模块被配置为向量模型分别输入词、句、段、篇四级独热编码数据，以构造神经网络模型来预测中心词，再通过将中心词的预测值与目标值进行比较，计算误差后通过反向传播算法进行梯度更新，经多次迭代训练待模型收敛后，保存四级向量矩阵作为下一步分类模型的输入数据。

向量模型模块被配置为实现如下的处理：

循环神经网络分类模型模块，基于向量模型，构造带有多级注意力机制的循环神经网络分类模型，对多级向量表示分别使用注意力机制，促使循环神经网络分类模型在多级维度动态分布注意力，建立循环神经网络分类模型对应的文本分类模型，得到循环神经网络分类模型预测的概率分布。

循环神经网络模型模块被配置为循环神经网络模型首先分别将词、句、段向量分别输入带有注意力机制的双向循环神经网络，最终分别获得词、句、段相应维度上的注意力向量，该三个注意力向量与篇向量连接后一同输入全连接层，最终使用softmax函数进行概率归一化。

循环神经网络模型模块中的循环神经网络使用长短期记忆网络，以防止梯度消失，其中双向循环神经网络是在长短期记忆网络基础上构建的特殊长短期记忆网络层，特殊长短期记忆网络层包含两层的长短期记忆网络，第一层以正序方式输入数据并输出每个时间步的状态，第二层以倒序方式输入数据并输出每个时间步的状态，最终将两个状态合并以得到一个完整的输出。

文本分类模型模块，基于向量模型，构造依据卷积神经网络的文本分类模型，使用多个维度的卷积层获取文本上下文信息，再连接最大池化层和全连接层，得到卷积神经网络的文本分类模型预测的概率分布。

文本分类模型模块被配置为实现如下的处理：

使用多个维度的卷积层获取文本上下文信息；

分别在每个卷积层后使用最大池化层以降低数据维度；

梯度提升树分类模型模块，基于向量模型，构造梯度提升树分类模型，获取梯度提升树分类模型预测的概率分布。梯度提升树分类模型模块中的梯度提升树分类模型是一种融合模型，以固定大小的决策树模型作为弱学习器，并通过多个弱学习器逐步迭代以构建强学习器，最终完成梯度提升树分类模型的搭建。

梯度提升树分类模型模块被配置为：

模型融合模块，融合循环神经网络分类模型、文本分类模型和梯度提升树分类模型，完成文本分类预测。模型融合模块被配置为文本分类预测的概率分布是循环神经网络分类模型、文本分类模型和梯度提升树分类模型的模型概率分布的平均值。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种基于深度学习的多级融合文档分类方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的多级融合文档分类方法，其特征在于，步骤5中的梯度提升树分类模型是一种融合模型，以固定大小的决策树模型作为弱学习器，并通过多个弱学习器逐步迭代以构建强学习器，最终完成梯度提升树分类模型的搭建。

3.根据权利要求1所述的基于深度学习的多级融合文档分类方法，其特征在于，步骤1中的预处理包括：

(1)获取待分类的文本数据，进行中文分词，统计数据信息；

(2)对文本进行去停用词、去特殊符号处理；

(3)统计词语出现的频率，根据频率再次清洗；

4.根据权利要求1所述的基于深度学习的多级融合文档分类方法，其特征在于，步骤2中，向量模型分别输入词、句、段、篇四级独热编码数据，以构造神经网络模型来预测中心词，再通过将中心词的预测值与目标值进行比较，计算误差后通过反向传播算法进行梯度更新，经多次迭代训练待模型收敛后，保存四级向量矩阵作为下一步分类模型的输入数据。

5.根据权利要求4所述的基于深度学习的多级融合文档分类方法，其特征在于，步骤2进一步包括：

6.根据权利要求1所述的基于深度学习的多级融合文档分类方法，其特征在于，步骤3中，循环神经网络模型首先分别将词、句、段向量分别输入带有注意力机制的双向循环神经网络，最终分别获得词、句、段相应维度上的注意力向量，该三个注意力向量与篇向量连接后一同输入全连接层，最终使用softmax函数进行概率归一化。

7.根据权利要求6所述的基于深度学习的多级融合文档分类方法，其特征在于，循环神经网络模型中的循环神经网络使用长短期记忆网络，以防止梯度消失，其中双向循环神经网络是在长短期记忆网络基础上构建的特殊长短期记忆网络层，特殊长短期记忆网络层包含两层的长短期记忆网络，第一层以正序方式输入数据并输出每个时间步的状态，第二层以倒序方式输入数据并输出每个时间步的状态，最终将两个状态合并以得到一个完整的输出。

8.根据权利要求1所述的基于深度学习的多级融合文档分类方法，其特征在于，步骤4进一步包括：

步骤41：使用多个维度的卷积层获取文本上下文信息；

9.根据权利要求2所述的基于深度学习的多级融合文档分类方法，其特征在于，步骤5进一步包括：

10.根据权利要求1所述的基于深度学习的多级融合文档分类方法，其特征在于，步骤6中，文本分类预测的概率分布是循环神经网络分类模型、文本分类模型和梯度提升树分类模型的模型概率分布的平均值。

11.一种基于深度学习的多级融合文档分类系统，其特征在于，包括：

12.根据权利要求11所述的基于深度学习的多级融合文档分类系统，其特征在于，梯度提升树分类模型模块中的梯度提升树分类模型是一种融合模型，以固定大小的决策树模型作为弱学习器，并通过多个弱学习器逐步迭代以构建强学习器，最终完成梯度提升树分类模型的搭建。

13.根据权利要求11所述的基于深度学习的多级融合文档分类系统，其特征在于，预处理模块被配置为实现如下处理：

(1)获取待分类的文本数据，进行中文分词，统计数据信息；

(2)对文本进行去停用词、去特殊符号处理；

(3)统计词语出现的频率，根据频率再次清洗；

14.根据权利要求11所述的基于深度学习的多级融合文档分类系统，其特征在于，向量模型模块被配置为向量模型分别输入词、句、段、篇四级独热编码数据，以构造神经网络模型来预测中心词，再通过将中心词的预测值与目标值进行比较，计算误差后通过反向传播算法进行梯度更新，经多次迭代训练待模型收敛后，保存四级向量矩阵作为下一步分类模型的输入数据。

15.根据权利要求14所述的基于深度学习的多级融合文档分类系统，其特征在于，向量模型模块被配置为实现如下的处理：

16.根据权利要求11所述的基于深度学习的多级融合文档分类系统，其特征在于，循环神经网络模型模块被配置为循环神经网络模型首先分别将词、句、段向量分别输入带有注意力机制的双向循环神经网络，最终分别获得词、句、段相应维度上的注意力向量，该三个注意力向量与篇向量连接后一同输入全连接层，最终使用softmax函数进行概率归一化。

17.根据权利要求16所述的基于深度学习的多级融合文档分类系统，其特征在于，循环神经网络模型模块中的循环神经网络使用长短期记忆网络，以防止梯度消失，其中双向循环神经网络是在长短期记忆网络基础上构建的特殊长短期记忆网络层，特殊长短期记忆网络层包含两层的长短期记忆网络，第一层以正序方式输入数据并输出每个时间步的状态，第二层以倒序方式输入数据并输出每个时间步的状态，最终将两个状态合并以得到一个完整的输出。

18.根据权利要求11所述的基于深度学习的多级融合文档分类系统，其特征在于，文本分类模型模块被配置为实现如下的处理：

使用多个维度的卷积层获取文本上下文信息；

分别在每个卷积层后使用最大池化层以降低数据维度；

19.根据权利要求12所述的基于深度学习的多级融合文档分类系统，其特征在于，梯度提升树分类模型模块被配置为：

20.根据权利要求11所述的基于深度学习的多级融合文档分类系统，其特征在于，模型融合模块被配置为文本分类预测的概率分布是循环神经网络分类模型、文本分类模型和梯度提升树分类模型的模型概率分布的平均值。