CN110096591A

CN110096591A - 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质

Info

Publication number: CN110096591A
Application number: CN201910268933.1A
Authority: CN
Inventors: 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-08-06
Also published as: WO2020199595A1

Abstract

本申请涉及智能决策领域，通过词袋模型提取长文本的词语级特征向量和文字级特征向量，以根据词语级特征向量和文字级特征向量对长文本进行分类，分类更准确。具体公开了一种基于词袋模型的长文本分类方法、装置、计算机设备及存储介质，该方法包括：获取待分类的长文本；根据预设规则滤除所述长文本中的噪音字符；基于第一词袋模型，从滤除所述噪音字符的长文本提取第一词袋特征向量，所述第一词袋模型的词典包括若干词语；基于第二词袋模型，从滤除所述噪音字符的长文本提取第二词袋特征向量，所述第二词袋模型的词典包括若干单个文字；基于分类模型，根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据。

Description

基于词袋模型的长文本分类方法、装置、计算机设备及存储介质

技术领域

本申请涉及文本分类技术领域，尤其涉及一种基于词袋模型的长文本分类方法、装置、计算机设备及存储介质。

背景技术

文本分类是自然语言处理的重要应用，也可以说是最基础的应用。常见的文本分类应用有：新闻文本分类、信息检索、情感分析、意图判断等。

目前长文本分类模型主要基于词向量特征以及深度学习模型，虽然此类模型具有较高精度，但是需要较高的计算能力；无法兼具高精度和较低的性能需求，因此限制了一些应用场合，例如移动端的应用。

发明内容

本申请实施例提供一种基于词袋模型的长文本分类方法、装置、计算机设备及存储介质，具有较高的分类准确性且对计算性能的需求较低。

第一方面，本申请提供了一种基于词袋模型的长文本分类方法，所述方法包括：

获取待分类的长文本；

根据预设规则滤除所述长文本中的噪音字符；

基于第一词袋模型，从滤除所述噪音字符的长文本提取第一词袋特征向量，所述第一词袋模型的词典包括若干词语；

基于第二词袋模型，从滤除所述噪音字符的长文本提取第二词袋特征向量，所述第二词袋模型的词典包括若干单个文字；

基于分类模型，根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据。

第二方面，本申请提供了一种基于词袋模型的长文本分类装置，所述装置包括：

长文本获取模块，用于获取待分类的长文本；

滤除模块，用于根据预设规则滤除所述长文本中的噪音字符；

第一提取模块，用于基于第一词袋模型，从滤除所述噪音字符的长文本提取第一词袋特征向量，所述第一词袋模型的词典包括若干词语；

第二提取模块，用于基于第二词袋模型，从滤除所述噪音字符的长文本提取第二词袋特征向量，所述第二词袋模型的词典包括若干单个文字；

分类模块，用于基于分类模型，根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据。

第三方面，本申请提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现上述的基于词袋模型的长文本分类方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，若所述计算机程序被处理器执行，实现上述的基于词袋模型的长文本分类方法。

本申请公开了一种基于词袋模型的长文本分类方法、装置、计算机设备及存储介质，通过第一词袋模型提取滤除噪音字符的长文本的词语级特征向量以及通过第二词袋模型提取滤除噪音字符的长文本的文字级特征向量，然后根据词语级特征向量和文字级特征向量对长文本进行分类；分类所依据的信息更丰富，从而分类结果更准确；同时通过词袋模型提取的特征向量数据量较小，对计算能力的要求较低。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施方式的基于词袋模型的长文本分类方法的流程示意图；

图2为图1中长文本分类方法应用场景的示意图；

图3为图1中滤除噪音字符的子流程示意图；

图4为构建第一词袋模型中词典的子流程示意图；

图5为图1中提取第一词袋特征向量的子流程示意图；

图6为构建第二词袋模型中词典的子流程示意图；

图7为图1中提取第二词袋特征向量的子流程示意图；

图8为图1中对长文本进行分类的子流程示意图；

图9为随机森林训练阶段的子流程示意图；

图10为本申请另一实施方式的基于词袋模型的长文本分类方法的流程示意图；

图11为训练第一降维模型的子流程示意图；

图12为训练第二降维模型的子流程示意图；

图13为图10中对长文本进行分类的子流程示意图；

图14为训练随机森林模型的子流程示意图；

图15为本申请一实施例的基于词袋模型的长文本分类装置的结构示意图；

图16为本申请另一实施例的基于词袋模型的长文本分类装置的结构示意图；

图17为长文本分类装置中各训练模块的结构示意图；

图18为本申请一实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

本申请的实施例提供了一种基于词袋模型的长文本分类方法、装置、设备及存储介质。其中，该长文本分类方法可以应用于终端或服务器中，以用于新闻文本分类、信息检索、情感分析、意图判断等。

例如，基于词袋模型的长文本分类方法用于服务器，当然可以用于终端，比如手机、笔记本等。但为了便于理解，以下实施例将以应用于服务器的长文本分类方法进行详细介绍。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请的实施例提供的一种基于词袋模型的长文本分类方法的流程示意图。

如图1所示，基于词袋模型的长文本分类方法包括以下步骤：

步骤S110、获取待分类的长文本。

在一些可选的实施例中，待分类的长文本为用于实现基于词袋模型的长文本分类方法的装置在本地存储的文本、该装置从网络获取的文本、该装置从与其连接的输入装置获取的文本、该装置从其他电子设备获取的文本、该装置根据语音信息转成的文本等。

如图2所示，服务器从终端获取待分类的长文本，服务器与终端均连接于互联网，用户在终端输入长文本后，终端将该长文本传输至服务器。

步骤S120、根据预设规则滤除所述长文本中的噪音字符。

在一些实施例中，根据预设规则滤除长文本中的特殊符号、非中文字符等噪音字符。

在一些可选的实施例中，如图3所示，步骤S120根据预设规则滤除所述长文本中的噪音字符，具体包括：

步骤S121、获取预设的停用词库。

其中，所述停用词库包括若干停用词。

具体的，可以根据应用场景需要规定一些特殊符号、非中文字符等噪音字符为停用词，以构建停用词库，以配置文件的形式保存起来。服务器在执行步骤S121时调取与应用场景相关的停用词库。

停用词例如可以为：标点符号、“的”、“得”等等，这些词汇可以看作无效词，会以噪音的形式影响后续运算，需要去除。

步骤S122、若在所述长文本中查找到所述停用词，将所述长文本中的所述停用词删除或者以预设符号替换。

在一些实施例中，分别查找停用词库中的各停用词是否在长文本中出现，若出现则删除长文本中的停用词；在另一些实施例中，分别查找停用词库中的各停用词是否在长文本中出现，若出现则将长文本中的停用词替换为预设符号，如空格等，以在一定程度上保留长文本的结构。

步骤S130、基于第一词袋模型，从滤除所述噪音字符的长文本提取第一词袋特征向量。

词袋(Bag-of-words，BOW)是描述文档中单词元素出现的文本的一种表示形式。词袋模型是用机器学习算法对文本进行建模时表示文本数据的方法。它涉及两件方面：已知单词的集合、测试已知单词的存在。

词袋模型把一段文本划分成一个个词，想象成将所有词放入一个袋子里，忽略其词序、语法、句法等要素，将其仅仅看作是若干个词汇的集合，文本中每个词的出现都是独立的，不依赖于其他词是否出现。

在本实施例中，所述第一词袋模型的词典包括若干词语。

示例性的，第一词袋模型的词典中的词语可以为单纯词或合成词。其中单纯词整个词只能表示一个意思，不能拆开；如单音节单纯词人、鸟、山、高、绿、走、飞等，又如双音节单纯词仿佛、忐忑、玲珑、腼腆、蜻蜓、徘徊、蝙蝠、葡萄、沙发、扑通、布谷、高尔夫、丁零当啷等。合成词是由几个语素组成的，拆开来仍旧有意义；如长短、开放、雕塑、快餐、特区、电脑、招标、投资、牵头、扩大、延长、布匹、案件、房间、国庆、夏至、河流、老师、阿姨、第一、刚刚，又如忍俊不禁、回味无穷等动补短语，又如举世无双、心痛如割、险象跌生、问心无愧、玲珑剔透、热烈欢迎等。

在一些可选的实施例中，如图4所示，第一词袋模型中词典的构建流程包括以下步骤：

S11、获取训练数据。

其中，训练数据包括若干条样本长文本。

具体的，样本长文本与待分类的长文本具有一些通性，即与长文本分类方法的应用场景相关；例如来源相同、场景相同、用途相同等，例如均来源于新闻文本。

具体的，训练数据中的样本长文本也去除了噪音字符。

S12、根据训练数据中的样本长文本获取第一词袋模型的词典中的词语。

示例性的，训练数据包括两条样本长文本，分别为小明喜欢看电影、小明也喜欢踢足球。根据这两条样本长文本可以构建出第一词袋模型的词典{1：“小明”，2：“喜欢”，3：“看”，4：“电影”5：“也”，6：“踢”，7：“足球”}。按照该词典中词语排列的顺序，各词语对应于各自的索引序号。

在一些可选的实施例中，如图5所示，步骤S130基于第一词袋模型，从滤除所述噪音字符的长文本提取第一词袋特征向量，具体包括：

步骤S131、初始化全零的第一词袋特征向量。

其中，所述第一词袋特征向量中的元素与所述第一词袋模型的词典中的词语一一对应。

示例性的，根据第一词袋模型的词典{1：“小明”，2：“喜欢”，3：“看”，4：“电影”5：“也”，6：“踢”，7：“足球”}初始化全零的第一词袋特征向量为[0，0，0，0，0，0，0]。

步骤S132、统计各所述词语在滤除所述噪音字符的长文本中出现的次数。

步骤S133、根据所述词语在所述长文本中出现的次数对所述第一词袋特征向量中对应的元素赋值。

示例性的，如果去除噪音字符的长文本为“小明喜欢看电影”，则第一词袋特征向量为[1，1，1，1，0，0，0]。如果去除噪音字符的长文本为“小明喜欢看电影小明也喜欢踢足球”，则第一词袋特征向量为[2，2，1，1，1，1，1]。

步骤S140、基于第二词袋模型，从滤除所述噪音字符的长文本提取第二词袋特征向量。

其中，所述第二词袋模型的词典包括若干单个文字。

在一些可选的实施例中，如图6所示，第二词袋模型中词典的构建流程包括以下步骤：

S21、获取训练数据。

其中训练数据包括若干条样本长文本。

具体的，训练数据中的样本长文本也去除了噪音字符。

S22、根据训练数据中的样本长文本获取第二词袋模型的词典中的单个文字。

示例性的，训练数据包括两条样本长文本，分别为小明喜欢看电影、小明也喜欢踢足球。根据这两条样本长文本可以构建出第二词袋模型的词典{1：“小”，2：“明”，3：“喜”，4：“欢”，5：“看”，6：“电”，7：“影”，8：“也”，9：“踢”，10：“足”，11：“球”}。按照该词典中单个文字排列的顺序，各文字对应于各自的索引序号。

在一些可选的实施例中，如图7所示，步骤S140基于第二词袋模型，从滤除所述噪音字符的长文本提取第二词袋特征向量，具体包括：

步骤S141、初始化全零的第二词袋特征向量。

其中，所述第二词袋特征向量中的元素与所述第二词袋模型的词典中的单个文字一一对应。

示例性的，根据第二词袋模型的词典{1：“小”，2：“明”，3：“喜”，4：“欢”，5：“看”，6：“电”，7：“影”，8：“也”，9：“踢”，10：“足”，11：“球”}初始化一个11维的全零向量作为初始化的第二词袋特征向量。

步骤S142、统计各所述单个文字在滤除所述噪音字符的长文本中出现的次数。

步骤S143、根据所述单个文字在所述长文本中出现的次数对所述第二词袋特征向量中对应的元素赋值。

示例性的，如果去除噪音字符的长文本为“小明喜欢看电影”，则第二词袋特征向量为[1，1，1，1，1，1，1，0，0，0，0]。如果去除噪音字符的长文本为“小明喜欢看电影小明也喜欢踢足球”，则第二词袋特征向量为[2，2，2，2，1，1，1，1，1，1，1]。

步骤S150、基于分类模型，根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据。

基于词袋模型从长文本提取的词袋特征向量可以表征待分类的长文本的一些特点，根据第一词袋特征向量和第二词袋特征向量可以对待分类的长文本进行分类；示例性的，将这一待分类的长文本附上分类得到的类别标记，以例如将长文本分类为社会、娱乐、经济或者考古等类别。

根据第一词袋特征向量表征的待分类文本中词语的特点，以及第二词袋特征向量表征待的分类文本中文字的特点，对待分类的长文本进行分类；分类依据的信息更丰富，从而分类结果更准确。

在一些可选的实施例中，如图8所示，步骤S150基于分类模型，根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据，具体包括：

步骤S151、将所述第一词袋特征向量和所述第二词袋特征向量融合。

示例性的，将一维的第一词袋特征向量和一维的第二词袋特征向量拼接为一个一维的融合向量。

步骤S152、将融合后的向量输入训练好的随机森林模型，以获取所述待分类的长文本的类别。

融合后的向量既可以表征待分类文本中词语的特点，也可以表征待分类文本中文字的特点，从而表达的信息更丰富。根据融合后的向量对待分类的长文本进行分类，分类结果更准确。

在一些可选的实施例中，根据融合后的向量获取所述待分类的长文本的类别可以通过多种分类模型实现，例如人工神经网络模型、KNN算法模型、支持向量机SVM算法模型、决策树算法模型等。

在本实施例中，基于随机森林模型对所述待分类的长文本进行分类以获取所述待分类的长文本的类别。

随机森林模型包括若干个决策树，随机森林的每一棵决策树之间是没有关联的。当将融合后的向量输入训练好的随机森林模型的时候，就让随机森林模型中的每一棵决策树分别进行判断分类；然后看看哪一类被选择最多，就预测这个向量相应的长文本为哪一类别。

随机森林属于非传统的机器学习算法，由多颗决策树组成，每棵决策树处理的是一个训练样本子集。例如，随机森林模型的训练样本包括多个样本长文本，各样本文件标注了所属类型；各样本长文本经过提取第一词袋特征向量、第二词袋特征向量，以及向量融合后得到多个训练向量；然后多次有放回的从所述多个训练向量中取部分训练向量组成多个训练样本子集；之后根据各训练样本子集训练各各自对应的决策树。具体的，随机森林模型的建立和训练，可以通过Python中的sklearn库实现。

在训练阶段，通过决策树的节点分裂来筛选特征，对训练向量进行层层细分，直至将每个训练样本子集分类正确。在测试阶段，直接基于训练出的训练向量进行样本分类。

在一些实施例中，如图9所示，随机森林训练阶段的流程具体为：

步骤S31、从N个标注了类型的训练向量中有放回的随机选择n个训练向量，将所选择的n个训练向量作为一个决策树根节点处的样本。

其中，n为不大于N的自然数；有放回指的是每次随机选择一个样本，然后返回继续选择；所选择的n个训练向量用来训练一个决策树，作为决策树根节点处的样本。

步骤S32、随机从训练向量的M个属性中选取出m个属性，并根据预设策略从m个属性中选择一个作为所示决策树相应节点的分裂属性。

示例性的，假设当训练向量的维数为M，在决策树的每个节点需要分裂时，随机从这M个属性中选取出m个属性，满足条件m<<M；然后从这m个属性中采用某种策略，如信息增益来选择1个属性作为该节点的分裂属性。

步骤S33、对所述决策树的相应节点进行分裂，直至不能够再分裂为止，以建立所示决策树。

所谓不能再分裂，就是全部到达叶子节点，即收敛；如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性，则该节点就是叶子节点。

步骤S34、建立预设数量的决策树，以构成随机森林。

随机森林的随机性体现在每颗决策树的训练样本是随机的，各决策树中每个节点的分裂属性集合也是随机选择确定的。有了这两个随机的保证，可以降低随机森林产生过拟合现象的概率，从而提高分类的准确率。

在一些可选的实施方式中，如图10所示，在步骤S150基于分类模型，根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据之前，还包括：

步骤S101、基于第一降维模型对所述第一词袋特征向量进行降维。

在一些应用场景中，第一词袋特征向量的规模可能很大，可以通过降维在保留第一词袋特征向量大部分信息的基础上降低特征向量的规模，以减少计算量。

在一些实施例中，如图11所示，所述第一降维模型的训练方法包括：

步骤S41、获取初始的第一降维模型。

其中，所述第一降维模型包括第一编码层和第一解码层，所述第一编码层输入的维数、所述第一解码层输出的维数均等于所述第一词袋模型的词典中词语的数目，所述第一编码层的输出作为所述第一解码层的输入。

步骤S42、将第一降维训练样本输入所述第一降维模型，以获取所述第一解码层的输出向量。

第一编码层通过编码处理获取第一降维训练样本的隐含特征，并降低第一降维训练样本的维数；第一解码层通过解码将隐含特征还原。

步骤S43、根据所述第一解码层的输出向量和所述第一降维训练样本之间的损失调整所述第一降维模型的参数。

具体的，第一降维模型的训练目标是使得输入向量与输出向量的差异最小化，以保证第一编码层输出的隐含特征保留原始输入信息而维度降低。示例性的，训练损失函数为均方误差(mean squared error，MSE)，优化算法为适应性矩估计(adaptive momentestimation)ADAM优化算法。ADAM优化算法是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重。

步骤S44、若所述输出向量和所述第一降维训练样本之间的损失满足预设的训练条件，将所述第一编码层的输出作为所述一降维模型的输出。

示例性的，输入向量与输出向量的差异小于预设阈值时损失满足预设的训练条件，实现训练目标。第一编码层的输出可以作为输入的向量降维后的向量。

步骤S102、基于第二降维模型对所述第二词袋特征向量进行降维。

在一些应用场景中，第二词袋特征向量的规模可能很大，可以通过降维在保留第二词袋特征向量大部分信息的基础上降低特征向量的规模，以减少计算量。

在一些实施例中，如图12所示，所述第二降维模型的训练方法包括：

步骤S51、获取初始的第二降维模型。

其中，所述第二降维模型包括第二编码层和第二解码层；其中所述第二编码层输入的维数、所述第二解码层输出的维数均等于所述第二词袋模型的词典中单个文字的数目，所述第二编码层的输出作为所述第二解码层的输入。

步骤S52、将第二降维训练样本输入所述第二降维模型，以获取所述第二解码层的输出向量。

第二编码层通过编码处理获取第二降维训练样本的隐含特征，并降低第二降维训练样本的维数；第二解码层通过解码将隐含特征还原。

步骤S53、根据所述第二解码层的输出向量和所述第二降维训练样本之间的损失调整所述第二降维模型的参数。

具体的，第二降维模型的训练目标是使得输入向量与输出向量的差异最小化，以保证第二编码层输出的隐含特征保留原始输入信息而维度降低。

步骤S54、若所述输出向量和所述第二降维训练样本之间的损失满足预设的训练条件，将所述第二编码层的输出作为所述二降维模型的输出。

示例性的，输入向量与输出向量的差异小于预设阈值时损失满足预设的训练条件，实现训练目标。第二编码层的输出可以作为输入的向量降维后的向量。

在一些可选的实施例中，第一降维模型、第二降维模型的建立与训练可以通过Python中的tensorflow库实现。

在本实施例中，步骤S150基于分类模型，根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据，具体包括：

步骤S153、基于分类模型，根据降维后的第一词袋特征向量和降维后的第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据。

基于词袋模型从长文本提取的词袋特征向量可以表征待分类的长文本的一些特点，在第一词袋特征向量、第二词袋特征分贝降维后仍可保存大部分信息，因此可以据降维后的第一词袋特征向量和降维后的第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据，例如将长文本分类为社会、娱乐、经济或者考古等类别。

具体的，如图13所示，步骤S153基于分类模型，根据降维后的第一词袋特征向量和降维后的第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据，具体包括：

步骤S1531、将降维后的第一词袋特征向量和降维后的第二词袋特征向量融合。

示例性的，将降维后的第一词袋特征向量和降维后的第二词袋特征向量拼接为一个一维的融合向量。

步骤S1532、将融合后的向量输入训练好的随机森林模型，以获取所述待分类的长文本的类别。

在一些可选的实施例中，如图14所示，随机森林模型的训练方法包括：

步骤S61、获取样本长文本和与所述样本长文本对应的分类标记。

具体的，样本长文本与待分类的长文本具有一些通性，即与长文本分类方法的应用场景相关；例如来源相同、场景相同、用途相同等，例如均来源于新闻文本。各样本长文本分别对应于相应的分类标记，如社会、娱乐、经济或者考古等。

步骤S62、根据预设规则滤除所述样本长文本中的噪音字符。

具体的，先获取预设的停用词库，所述停用词库包括若干停用词；若在所述长文本中查找到所述停用词，将所述长文本中的所述停用词删除或者以预设符号替换。

步骤S63、基于所述第一词袋模型，从滤除所述噪音字符的样本长文本提取第一样本特征向量。

所述第一词袋模型的词典包括若干词语。

步骤S64、基于所述第二词袋模型，从滤除所述噪音字符的样本长文本提取第二样本特征向量。

所述第二词袋模型的词典包括若干单个文字。

步骤S65、基于所述第一降维模型对所述第一样本特征向量进行降维，以及基于所述第二降维模型对所述第二样本特征向量进行降维。

在一些应用场景中，第一样本特征向量、第二样本特征向量的规模可能很大，可以通过降维在保留第一样本特征向量、第二样本特征向量大部分信息的基础上降低特征向量的规模，以减少计算量。

步骤S66、将降维后的第一样本特征向量、第二样本特征向量组合为与所述分类标记对应的训练向量。

示例性的，将降维后的第一样本特征向量和降维后的第二样本特征向量拼接为一个一维的融合向量。

步骤S67、根据若干所述训练向量和与各所述训练向量对应的分类标记对所述随机森林模型进行训练。

具体的，根据前述步骤S31-步骤S34对所述随机森林模型进行训练。

上述实施例提供的基于词袋模型的长文本分类方法，通过第一词袋模型提取滤除噪音字符的长文本的词语级特征向量以及通过第二词袋模型提取滤除噪音字符的长文本的文字级特征向量，然后根据词语级特征向量和文字级特征向量对长文本进行分类；分类所依据的信息更丰富，从而分类结果更准确；同时通过词袋模型提取的特征向量数据量较小，对计算能力的要求较低。

请参阅图15，图15是本申请一实施例提供的一种基于词袋模型的长文本分类装置的结构示意图，该长文本分类装置可以配置于服务器或终端中，用于执行前述的基于词袋模型的长文本分类方法。

如图15所示，该基于词袋模型的长文本分类装置，包括：

长文本获取模块110，用于获取待分类的长文本。

滤除模块120，用于根据预设规则滤除所述长文本中的噪音字符。

在一些实施例中，如图16所示，滤除模块120包括：

停用词获取子模块121，用于获取预设的停用词库，所述停用词库包括若干停用词。

滤除子模块122，用于若在所述长文本中查找到所述停用词，将所述长文本中的所述停用词删除或者以预设符号替换。

第一提取模块130，用于基于第一词袋模型，从滤除所述噪音字符的长文本提取第一词袋特征向量，所述第一词袋模型的词典包括若干词语。

在一些实施例中，第一提取模块130包括：

第一初始化子模块131，用于初始化全零的第一词袋特征向量，所述第一词袋特征向量中的元素与所述第一词袋模型的词典中的词语一一对应。

第一统计子模块132，用于统计各所述词语在滤除所述噪音字符的长文本中出现的次数。

第一赋值子模块133，用于根据所述词语在所述长文本中出现的次数对所述第一词袋特征向量中对应的元素赋值。

第二提取模块140，用于基于第二词袋模型，从滤除所述噪音字符的长文本提取第二词袋特征向量，所述第二词袋模型的词典包括若干单个文字。

在一些实施例中，第二提取模块140包括：

第二初始化子模块141，用于初始化全零的第二词袋特征向量，所述第二词袋特征向量中的元素与所述第二词袋模型的词典中的单个文字一一对应。

第二统计子模块142，用于统计各所述单个文字在滤除所述噪音字符的长文本中出现的次数。

第二赋值子模块143，用于根据所述单个文字在所述长文本中出现的次数对所述第二词袋特征向量中对应的元素赋值。

分类模块150，用于基于分类模型，根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据。

在一些实施例中，分类模块150包括：

融合子模块151，用于将所述第一词袋特征向量和所述第二词袋特征向量融合；

分类子模块152，用于将融合后的向量输入训练好的随机森林模型，以获取所述待分类的长文本的类别。

在一些实施例中，基于词袋模型的长文本分类装置还包括：

第一降维模块161，用于基于第一降维模型对所述第一词袋特征向量进行降维。

第一降维模块162，用于基于第二降维模型对所述第二词袋特征向量进行降维。

分类模块150具体用于基于分类模型，根据降维后的第一词袋特征向量和降维后的第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据。

在一些实施例中，如图17所示，基于词袋模型的长文本分类装置还包括：

第一训练模块101，用于训练第一降维模型。

具体的，第一训练模块101包括：

第一初始化子模块1011，用于获取初始的第一降维模型，所述第一降维模型包括第一编码层和第一解码层；其中所述第一编码层输入的维数、所述第一解码层输出的维数均等于所述第一词袋模型的词典中词语的数目，所述第一编码层的输出作为所述第一解码层的输入。

第一编解码子模块1012，用于将第一降维训练样本输入所述第一降维模型，以获取所述第一解码层的输出向量。

第一调整子模块1013，用于根据所述第一解码层的输出向量和所述第一降维训练样本之间的损失调整所述第一降维模型的参数。

第一终止子模块1014，用于若所述输出向量和所述第一降维训练样本之间的损失满足预设的训练条件，将所述第一编码层的输出作为所述一降维模型的输出。

第二训练模块102，用于训练第二降维模型。

具体的，第二训练模块102包括：

第二初始化子模块1021，用于获取初始的第二降维模型，所述第二降维模型包括第二编码层和第二解码层；其中所述第二编码层输入的维数、所述第二解码层输出的维数均等于所述第二词袋模型的词典中单个文字的数目，所述第二编码层的输出作为所述第二解码层的输入。

第二编解码子模块1022，用于将第二降维训练样本输入所述第二降维模型，以获取所述第二解码层的输出向量。

第二调整子模块1023，用于根据所述第二解码层的输出向量和所述第二降维训练样本之间的损失调整所述第二降维模型的参数。

第二终止子模块1024，用于若所述输出向量和所述第二降维训练样本之间的损失满足预设的训练条件，将所述第二编码层的输出作为所述二降维模型的输出。

第三训练模块103，用于训练随机森林模型。

具体的，第三训练模块103包括：

样本获取子模块1031，用于获取样本长文本和与所述样本长文本对应的分类标记。

去噪子模块1032，用于根据预设规则滤除所述样本长文本中的噪音字符。

第一提取子模块1033，用于基于所述第一词袋模型，从滤除所述噪音字符的样本长文本提取第一样本特征向量。

第二提取子模块1034，用于基于所述第二词袋模型，从滤除所述噪音字符的样本长文本提取第二样本特征向量。

降维子模块1035，用于基于所述第一降维模型对所述第一样本特征向量进行降维，以及基于所述第二降维模型对所述第二样本特征向量进行降维。

组合子模块1036，用于将降维后的第一样本特征向量、降维后的第二样本特征向量组合为与所述分类标记对应的训练向量。

训练子模块1037，用于根据若干所述训练向量和与各所述训练向量对应的分类标记对所述随机森林模型进行训练。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

示例性的，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图18所示的计算机设备上运行。

请参阅图18，图18是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备可以是服务器或终端。

参阅图18，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种基于词袋模型的长文本分类方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种基于词袋模型的长文本分类方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，该计算机设备的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取待分类的长文本；

根据预设规则滤除所述长文本中的噪音字符；

在一些实施例中，所述处理器用于实现根据预设规则滤除所述长文本中的噪音字符时，具体用于实现：

获取预设的停用词库，所述停用词库包括若干停用词；

若在所述长文本中查找到所述停用词，将所述长文本中的所述停用词删除或者以预设符号替换。

在一些实施例中，所述处理器用于实现从滤除所述噪音字符的长文本提取第一词袋特征向量时，具体用于实现：

初始化全零的第一词袋特征向量，所述第一词袋特征向量中的元素与所述第一词袋模型的词典中的词语一一对应；

统计各所述词语在滤除所述噪音字符的长文本中出现的次数；

根据所述词语在所述长文本中出现的次数对所述第一词袋特征向量中对应的元素赋值。

在一些实施例中，所述处理器用于实现从滤除所述噪音字符的长文本提取第二词袋特征向量时，具体用于实现：

初始化全零的第二词袋特征向量，所述第二词袋特征向量中的元素与所述第二词袋模型的词典中的单个文字一一对应；

统计各所述单个文字在滤除所述噪音字符的长文本中出现的次数；

根据所述单个文字在所述长文本中出现的次数对所述第二词袋特征向量中对应的元素赋值。

在一些实施例中，所述处理器用于实现基于分类模型，根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据之前，还用于实现：

基于第一降维模型对所述第一词袋特征向量进行降维；

基于第二降维模型对所述第二词袋特征向量进行降维；

所述处理器用于实现基于分类模型，根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据时，具体用于实现：

基于分类模型，根据降维后的第一词袋特征向量和降维后的第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据。

在一些实施例中，所述处理器用于实现第一降维模型的训练，具体的用于实现：

获取初始的第一降维模型，所述第一降维模型包括第一编码层和第一解码层；其中所述第一编码层输入的维数、所述第一解码层输出的维数均等于所述第一词袋模型的词典中词语的数目，所述第一编码层的输出作为所述第一解码层的输入；

将第一降维训练样本输入所述第一降维模型，以获取所述第一解码层的输出向量；

根据所述第一解码层的输出向量和所述第一降维训练样本之间的损失调整所述第一降维模型的参数；

若所述输出向量和所述第一降维训练样本之间的损失满足预设的训练条件，将所述第一编码层的输出作为所述一降维模型的输出。

所述处理器还用于实现第二降维模型的训练，具体的用于实现：

获取初始的第二降维模型，所述第二降维模型包括第二编码层和第二解码层；其中所述第二编码层输入的维数、所述第二解码层输出的维数均等于所述第二词袋模型的词典中单个文字的数目，所述第二编码层的输出作为所述第二解码层的输入；

将第二降维训练样本输入所述第二降维模型，以获取所述第二解码层的输出向量；

根据所述第二解码层的输出向量和所述第二降维训练样本之间的损失调整所述第二降维模型的参数；

若所述输出向量和所述第二降维训练样本之间的损失满足预设的训练条件，将所述第二编码层的输出作为所述二降维模型的输出。

在一些实施例中，所述处理器用于实现基于分类模型，根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据时，具体用于实现：

将所述第一词袋特征向量和所述第二词袋特征向量融合；

将融合后的向量输入训练好的随机森林模型，以获取所述待分类的长文本的类别。

所述处理器还用于实现随机森林模型的训练，具体的用于实现：

获取样本长文本和与所述样本长文本对应的分类标记；

根据预设规则滤除所述样本长文本中的噪音字符；

基于所述第一词袋模型，从滤除所述噪音字符的样本长文本提取第一样本特征向量；

基于所述第二词袋模型，从滤除所述噪音字符的样本长文本提取第二样本特征向量；

基于所述第一降维模型对所述第一样本特征向量进行降维，以及基于所述第二降维模型对所述第二样本特征向量进行降维；

将降维后的第一样本特征向量、降维后的第二样本特征向量组合为与所述分类标记对应的训练向量；

根据若干所述训练向量和与各所述训练向量对应的分类标记对所述随机森林模型进行训练。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法，如：

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项基于词袋模型的长文本分类方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于词袋模型的长文本分类方法，其特征在于，包括：

获取待分类的长文本；

根据预设规则滤除所述长文本中的噪音字符；

2.如权利要求1所述的长文本分类方法，其特征在于，所述根据预设规则滤除所述长文本中的噪音字符，具体包括：

获取预设的停用词库，所述停用词库包括若干停用词；

3.如权利要求1所述的长文本分类方法，其特征在于，所述从滤除所述噪音字符的长文本提取第一词袋特征向量，具体包括：

根据所述词语在所述长文本中出现的次数对所述第一词袋特征向量中对应的元素赋值；

所述从滤除所述噪音字符的长文本提取第二词袋特征向量，具体包括：

4.如权利要求3所述的长文本分类方法，其特征在于，在所述基于分类模型，根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据之前，还包括：

基于第一降维模型对所述第一词袋特征向量进行降维；

基于第二降维模型对所述第二词袋特征向量进行降维；

所述基于分类模型，根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据，具体包括：

5.如权利要求4所述的长文本分类方法，其特征在于，所述第一降维模型的训练包括：

若所述输出向量和所述第一降维训练样本之间的损失满足预设的训练条件，将所述第一编码层的输出作为所述一降维模型的输出；

所述第二降维模型的训练包括：

6.如权利要求4所述的长文本分类方法，其特征在于，所述基于分类模型，根据所述第一词袋特征向量和第二词袋特征向量对所述待分类的长文本进行分类以得到分类数据，具体包括：

将所述第一词袋特征向量和所述第二词袋特征向量融合；

7.如权利要求6所述的长文本分类方法，其特征在于，所述随机森林模型的训练包括：

获取样本长文本和与所述样本长文本对应的分类标记；

根据预设规则滤除所述样本长文本中的噪音字符；

8.一种基于词袋模型的长文本分类装置，其特征在于，包括：

长文本获取模块，用于获取待分类的长文本；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1-7中任一项所述的基于词袋模型的长文本分类方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：若所述计算机程序被处理器执行，实现如权利要求1-7中任一项所述的基于词袋模型的长文本分类方法。