CN110309304A

CN110309304A - 一种文本分类方法、装置、设备及存储介质

Info

Publication number: CN110309304A
Application number: CN201910479226.7A
Authority: CN
Inventors: 李坤
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2019-10-08
Also published as: WO2020244066A1

Abstract

本申请涉及文本分类领域，提供一种文本分类方法、装置、设备及存储介质，方法包括：获取训练文本，将所述训练文本输入神经网络模型的编码层，在所述编码层对所述训练文本进行词向量化，得到与所述训练文本对应的特征向量；将所述特征向量输入RNN模型，对句子进行建模，捕捉所述训练文本中各句子的长距离依赖特征；将捕获了所述长距离依赖信息的特征向量输入所述神经网络模型中的卷积神经网络CNN模型；在所述CNN模型中从所述特征向量中提取局部特征，得到目标特征向量；其中，局部特征是指所述特征向量中的局部相关性；将所述目标特征向量输入到所述分类器，通过所述分类器对所述训练文本进行分类处理，得到分类后的文本。

Description

一种文本分类方法、装置、设备及存储介质

技术领域

本申请涉及文本分类领域，尤其涉及一种文本分类方法、装置、设备及存储介质。

背景技术

文本分类是自然语言处理中的关键任务，能够帮助用户从海量数据中发掘有用信息，文本分类主要应用于垃圾邮件识别、情感分析、问答系统、翻译等方面。句子模型目的是学习文本特征对句子进行表征，是文本分类的关键模型。

在入侵检测系统中WebShell的检测也属于一种文本分类。目前的文本分类大多基于统计学和机器学习。统计学的方法采用拆分句子，基于语料库，统计相邻的字组成的词语出现的概率，相邻的词出现的次数多，就出现的概率大，按照概率值进行分词，所以一个完整的语料库很重要。机器学习方法采用获取TF-IDF算法计算文本特征，然后使用logisticregression、SVM、随机森林等分类器对文本进行分类。但是这些方式费时费力，而且泛化能力很差、误报率较高。

发明内容

本申请提供了一种文本分类方法、装置、设备及存储介质，能够解决现有技术中文本分类的准确率较差的问题。

第一方面，本申请提供一种文本分类方法，该方法包括：

获取训练文本；

将所述训练文本输入神经网络模型的编码层，在所述编码层对所述训练文本进行词向量化，得到与所述训练文本对应的特征向量；

将所述特征向量输入RNN模型，对句子进行建模，捕捉所述训练文本中各句子的长距离依赖特征；其中，所述长距离依赖特征是指文本的上下文向量，且上下文向量在时域上长期依赖；

将捕获了所述长距离依赖信息的特征向量输入所述神经网络模型中的卷积神经网络CNN模型；

在所述CNN模型中从所述特征向量中提取局部特征，得到目标特征向量；其中，局部特征是指所述特征向量中的局部相关性；

将所述目标特征向量输入到所述分类器，通过所述分类器对所述训练文本进行分类处理，得到分类后的文本。

在一种可能的设计中，所述捕捉所述训练文本中各句子的长距离依赖特征，包括：

通过所述LSTM模型依序计算句子中的各个词的长距离依赖特征，其中，特定词的长距离依赖特征表征该特定词与句子中的其他长距离的词之间的依赖关系；

所述方法还包括：

依序计算各个词的语义结构特征，特定词的语义结构特征表征包含该特定词及其之前的词的局部句子的语义结构；

将每个词的长距离依赖特征和语义结构特征组合，以得到句子中的各个词的词特征；

基于各个词特征计算句子中的各个词的概率。

在一种可能的设计中，所述训练文本为演讲语言、歌词或论文中的任一项连续数据时，所述通过所述LSTM模型依序计算句子中的各个词的长距离依赖特征，包括：

通过所述LSTM模型依序循环计算句子中的各个词的长距离依赖信息，以从所述连续数据中捕获所述长距离依赖特征。

在一种可能的设计中，所述通过所述分类器对所述训练文本进行分类处理之前，所述方法还包括：

向所属神经网络模型输入多个句子，对各句子进行词向量化，得到多个词向量；

将各词向量输入LSTM模型或者GRU模型，提取长距离依赖特征；

将所述长距离依赖特征输入CNN模型，抽取位置不变的局部特征，最终得到多个特征向量，每个所述特征向量分别具备长距离依赖特征和位置不变的局部特征；

将所述多个特征向量输入池化层，以对这些特征向量进行降维处理；

将降维处理得到的特征向量输入所述分类器。

在一种可能的设计中，所述将降维处理得到的特征向量输入所述分类器之前，所述方法还包括：

为所述分类器预先设置一个阈值；

若所述分类器的输出大于所述阈值，则表示是WebShell；当分类器的输出小于预设阈值，则表示不是WebShell；

所述通过所述分类器对所述训练文本进行分类处理，得到分类后的文本，包括：

设置所述分类器中决策树N的大小，进行Bootstrap抽样得到N个数据集；

学习N颗决策树中每颗决策树的参数θn；

采用并行训练的方式训练每颗决策树，在单颗决策树训练完成后，统计针对训练决策树的训练结果的投票记录确定CNN-RF模型的最终输出；其中，CNN-RF模型的最终输出的一种表示方式为：

其中，Ti(x)为树i对样本x的分类结果，c*为样本对应最终类别，N为所述分类器中决策树的数目。

在一种可能的设计中，所述训练文本为Webshell，Webshell是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境；所述获取训练文本，包括以下实现方式之一：

利用搜索引擎来查找互联网上公开的通用漏洞，如果目标站点并没有进行修复，则获取WebShell；

通过代码审计策略对开源的CMS进行代码审计，从所述CMS中挖掘代码漏洞，以获取WebShell；

采用上传漏洞获取WebShell；

利用SQL注入攻击获取WebShell；

或者，利用数据库备份获取WebShell。

第二方面，本申请提供一种文本分类装置，具有实现对应于上述第一方面提供的文本分类方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

一种可能的设计中，所述文本分类装置包括：

输入输出模块，用于获取训练文本；

处理模块，用于将所述训练文本输入神经网络模型的编码层，在所述编码层对所述训练文本进行词向量化，得到与所述训练文本对应的特征向量；将所述特征向量输入RNN模型，对句子进行建模；

采集模块，用于捕捉所述训练文本中各句子的长距离依赖特征；其中，所述长距离依赖特征是指文本的上下文向量，且上下文向量在时域上长期依赖；

所述输入输出模块还用于将所述采集模块捕获了所述长距离依赖信息的特征向量输入所述神经网络模型中的卷积神经网络CNN模型；

所述处理模块还用于在所述CNN模型中从所述特征向量中提取局部特征，得到目标特征向量；其中，局部特征是指所述特征向量中的局部相关性；通过所述输入输出模块将所述目标特征向量输入到所述分类器，通过所述分类器对所述训练文本进行分类处理，得到分类后的文本。

一种可能的设计中，所述采集模块具体用于：

基于各个词特征计算句子中的各个词的概率。

一种可能的设计中，所述训练文本为演讲语言、歌词或论文中的任一项连续数据时，所述处理模块具体用于：

在一种可能的设计中，所述处理模块在通过所述分类器对所述训练文本进行分类处理之前，还用于：

通过所述输入输出模块向所属神经网络模型输入多个句子，对各句子进行词向量化，得到多个词向量；

通过所述输入输出模块将各词向量输入LSTM模型或者GRU模型，提取长距离依赖特征；

通过所述输入输出模块将所述长距离依赖特征输入CNN模型，抽取位置不变的局部特征，最终得到多个特征向量，每个所述特征向量分别具备长距离依赖特征和位置不变的局部特征；

通过所述输入输出模块将所述多个特征向量输入池化层，以对这些特征向量进行降维处理；

通过所述输入输出模块将降维处理得到的特征向量输入所述分类器。

在一种可能的设计中，所述处理模块在将降维处理得到的特征向量输入所述分类器之前，还用于：

为所述分类器预先设置一个阈值；

学习N颗决策树中每颗决策树的参数θn；

在一种可能的设计中，所述训练文本为Webshell，Webshell是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境；所述输入输出模块执行以下操作之一获取WebShell：

采用上传漏洞获取WebShell；

利用SQL注入攻击获取WebShell；

或者，利用数据库备份获取WebShell。

本申请又一方面提供了一种计算机设备，其包括至少一个连接的处理器、存储器和收发器，其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述的方法。

本申请又一方面提供了一种计算机存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

相较于现有技术，本申请提供的方案中，与现有技术相比，本申请中，先利用RNN模型处理长期信息的特点捕获长距离依赖特征，这样能够准确的判断相关性较强的上下文向量，以及避免信号在传递过程中损失大量信息，然后利用CNN模型对局部特征的感知特点提取局部特征，最后再将CNN模型的输出输入到分类其中进行分类处理，由于输入分类器中的特征向量同时具备长距离依赖特征和局部特征，所以能够有效的提升不同长度句子的分类效果，以及提高所述神经网络模型识别文本的准确性。

附图说明

图1为本申请实施例中文本分类方法的一种流程示意图；

图2a为本申请实施例中文本分类方法的一种流程示意图；

图2b为本申请实施例对fudan、微博和MR进行分类的准确率对比示意表；

图2c为本申请实施例文本分类方法的另一种流程示意图；

图3为本申请实施例中文本分类的一种结构示意图；

图4为本申请实施例中计算机设备的一种结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。

本申请提供一种文本分类方法、装置、设备及存储介质，可用于对新闻、论文、帖子、邮件等文本进行分类，本申请不对文本分类的应用场景作限定。

为解决上述技术问题，本申请主要提供以下技术方案：

利用深度学习中卷积神经网络(Convolutional Neural Networks，CNN)模型擅长抽取位置不变的局部特征的特性，以及利用循环神经网络(Recurrent Neural Network，RNN)模型则擅长对整个句子进行建模的特性，结合CNN模型和RNN模型实现既能捕捉长距离依赖信息，又可以很好地抽取关键短语信息的目的，通过入侵检测系统项目实践验证，达到比单独使用CNN模型或者RNN模型更高的准确性。本申请的神经网络模型包括CNN模型和RNN模型，所述神经网络模型的一种结构示意图如图1所示。

图1中，所述神经网络模型的编码层包括RNN模型和CNN模型，所述神经网络模型的输入为所述RNN模型的输入，所述RNN模型的输出为所述CNN模型的输入，所述CNN模型的输出为所述神经网络模型的输出。

请参照图2a，以下介绍本申请实施例中的一种文本分类方法，所述方法包括：

201、获取训练文本。

其中，所述训练文本包括多个句子，每个句子包括多个词。本申请中的训练文本为Webshell，Webshell是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境，也可以将其称做为一种网页后门。黑客在入侵了一个网站后，通常会将asp或php后门文件与网站服务器WEB目录下正常的网页文件混在一起，然后使用浏览器来访问asp或者php后门，得到一个命令执行环境，以达到控制网站服务器的目的。

所述训练文本为Webshell，Webshell是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境。

一些实施方式中，可以采用内容管理系统(Content Management System，CMS)获取Webshell，可采用以下实现方式之一获取所述训练文本：

(1)可以采用内容管理系统(Content Management System，CMS)获取Webshell，例如利用公开漏洞途径即利用搜索引擎来查找互联网上公开的通用漏洞，如果目标站点并没有进行修复，则获取WebShell。

(2)通过代码审计策略对开源的CMS进行代码审计，从所述CMS中挖掘代码漏洞，以获取WebShell。

(3)采用上传漏洞获取WebShell。

(4)利用SQL注入攻击获取WebShel。

(5)利用数据库备份获取WebShell。

本申请不对获取训练文本的方式和来源作限定。

202、将所述训练文本输入神经网络模型的编码层，在所述编码层对所述训练文本进行词向量化，得到与所述训练文本对应的特征向量。

其中，所述特征向量是指向量空间模型的文本表示，通过词向量的表示方式，把文本数据从高纬度高稀疏的神经网络难处理的方式，变为类似图像、语音的的连续稠密数据。

203、将所述特征向量输入RNN模型，对句子进行建模，捕捉所述训练文本中各句子的长距离依赖特征。

其中，所述长距离依赖特征是指文本的上下文向量，且上下文向量在时域上长期依赖。

一些实施方式中，所述捕捉所述训练文本中各句子的长距离依赖特征，包括：

通过所述LSTM模型依序计算句子中的各个词的长距离依赖特征，其中，特定词的长距离依赖特征表征该特定词与句子中的其他长距离的词之间的依赖关系。

一些实施方式中，所述RNN模型可采用长短时记忆网络(Long Short-TermMemory，LSTM)模型，通过该LSTM模型在文本处理中能够利用很宽范围的上下文信息来判断下一个词的概率。具体来说，通过该LSTM模型在文本处理中能够利用很宽范围的上下文信息来判断下一个词的概率，包括以下步骤：

基于各个词特征计算句子中的各个词的概率。

一些实施方式中，考虑到所述训练文本可能为连续的数据，例如为演讲语言、歌词或论文等，可以采用循环操作从这类连续数据中捕获长距离依赖信息，以保证信号能够不断地传播。具体来说，所述训练文本为演讲语言、歌词或论文中的任一项连续数据时，所述通过所述LSTM模型依序计算句子中的各个词的长距离依赖特征，包括：

204、将捕获了所述长距离依赖信息的特征向量输入所述神经网络模型中的卷积神经网络CNN模型。

205、在所述CNN模型中从所述特征向量中提取局部特征，得到目标特征向量。

其中，局部特征是指所述特征向量中的局部相关性，也可以称为所述特征向量中类似n-gram的关键信息。

一些实施方式中，为进一步提高分类器的泛化能力和文本分类的准确率，CNN模型可采用CNN-RF模型。下表为采用NB模型、CART模型、RF模型、CNN模型和CNN-RF模型对3类文本(fudan、微博和MR)进行分类的准确率对比示意表(如图2b所示)。

206、将所述目标特征向量输入到所述分类器，通过所述分类器对所述训练文本进行分类处理，得到分类后的文本。

本申请实施例中，所述神经网络模型包括分类器，分类器的输入为所述CNN模型的输出。在所述神经网络模型中该分类器对所述特征向量进行训练，直至所述分类器收敛。

一些实施方式中，还可为所述分类器预先设置一个阈值，若所述分类器的输出大于所述阈值，则表示是WebShell；当SoftMax的输出小于thredshold，则表示不是WebShell。

与现有机制相比，本申请实施例中，先利用RNN模型处理长期信息的特点捕获长距离依赖特征，这样能够准确的判断相关性较强的上下文向量，以及避免信号在传递过程中损失大量信息，然后利用CNN模型对局部特征的感知特点提取局部特征，最后再将CNN模型的输出输入到分类其中进行分类处理，由于输入分类器中的特征向量同时具备长距离依赖特征和局部特征，所以能够有效的提升不同长度句子的分类效果，以及提高所述神经网络模型识别文本的准确性。此外，结合CNN模型的特征提取能力与随机森林的泛化能力，泛化能力可以从以下三个方面分析：

第一方面，从统计角度来看，由于学习任务的假设空间往往很大，可能有多个假设在训练集上达到同等水准的性能，此时若使用单一决策树可能因为误选而导致泛化能力不佳。

第二方面，从特征提取角度分析，双重词向量分别从两个角度刻画词语的含义，丰富了短文本信息，相对于单一词向量来说扩充了特征信息。

第三方面，从表示方面来看，某些学习任务的真实假设可能不在当前决策树算法所处的假设空间之内，若使用单一分类方法，则会导致搜索不到既定的假设空间。并且随机森林采用Bootstrap抽样可以降低机器学习模型对数据的依赖能力，以及降低模型的方差，使得RNN模型拥有更好的泛化能力。

可选的，在本申请的一些实施例中，所述通过所述分类器对所述训练文本进行分类处理之前，所述方法还包括：

将各词向量输入LSTM模型或者GRU模型，提取长距离依赖特征；

将降维处理得到的特征向量输入所述分类器。

可选的，在本申请的一些实施例中，所述将降维处理得到的特征向量输入所述分类器之前，所述方法还包括：

为所述分类器预先设置一个阈值；

学习N颗决策树中每颗决策树的参数θn；

其中，Ti(x)是树i对样本x的分类结果，即投票法，c*即为样本对应最终类别，N为所述分类器中决策树的数目。

本申请实施例中，分类器可采用随机森林模型或Softmax模型，采用随机森林模型时，可将全连接层特征Cfinal送入随机森林模型进行训练。

由于随机森林的全连接层特征Cfinal通常维度不大，一般数据集种均有m×s<103，所以建立随机森林模型的开销非常小。

为便于理解，以下以一具体的应用场景为例。如图2c所示，向所属神经网络模型输入多个句子，对各句子进行词向量化，得到多个词向量(例如h1、h2、…和h9)，将各词向量输入LSTM模型或者GRU模型，提取长距离依赖特征(例如y1、y2、…y9)，将所述长距离依赖特征输入CNN模型，抽取位置不变的局部特征，最终得到多个特征向量，这些特征向量分别具备长距离依赖特征和位置不变的局部特征。然后将所述多个特征向量输入池化层，以对这些特征向量进行降维处理。将降维处理得到的特征向量输入分类器(例如Softmax)，该分类器预先设置一个阈值(threshold)，当SoftMax的输出大于thredshold，则表示是WebShell；当SoftMax的输出小于thredshold，则表示不是WebShell。

上述图1至图2c中任一所对应的实施例或实施方式中所提及的技术特征也同样适用于本申请中的图3和图4所对应的实施例，后续类似之处不再赘述。

以上对本申请中一种文本分类方法进行说明，以下对执行上述文本分类方法的装置进行描述。

如图3所示的一种文本分类装置30的结构示意图，其可应用于对新闻、论文、帖子、邮件等文本进行分类。本申请实施例中的文本分类装置30能够实现对应于上述图1所对应的实施例中所执行的文本分类方法的步骤。文本分类装置30实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述文本分类装置30可包括输入输出模块301、处理模块302和采集模块303，所述输入输出模块301、所述处理模块302和所述采集模块303的功能实现可参考图1所对应的实施例中所执行的操作，此处不作赘述。所述处理模块302可用于控制所述收入输出模块301的输入输出操作，以及控制所述采集模块303的采集操作。

一些实施方式中，所述输入输出模块301可用于获取训练文本；

所述处理模块302可用于将所述输入输出模块301获取的所述训练文本输入神经网络模型的编码层，在所述编码层对所述训练文本进行词向量化，得到与所述训练文本对应的特征向量；将所述特征向量输入RNN模型，对句子进行建模；

所述采集模块303可用于捕捉所述训练文本中各句子的长距离依赖特征；其中，所述长距离依赖特征是指文本的上下文向量，且上下文向量在时域上长期依赖；

所述输入输出模块301还用于将所述采集模块捕获了所述长距离依赖信息的特征向量输入所述神经网络模型中的卷积神经网络CNN模型；

所述处理模块302还用于在所述CNN模型中从所述特征向量中提取局部特征，得到目标特征向量；其中，局部特征是指所述特征向量中的局部相关性；通过所述输入输出模块将所述目标特征向量输入到所述分类器，通过所述分类器对所述训练文本进行分类处理，得到分类后的文本。

本申请实施例中，先利用RNN模型处理长期信息的特点捕获长距离依赖特征，这样能够准确的判断相关性较强的上下文向量，以及避免信号在传递过程中损失大量信息，然后利用CNN模型对局部特征的感知特点提取局部特征，最后再将CNN模型的输出输入到分类其中进行分类处理，由于输入分类器中的特征向量同时具备长距离依赖特征和局部特征，所以能够有效的提升不同长度句子的分类效果，以及提高所述神经网络模型识别文本的准确性。

一些实施方式中，所述采集模块302具体用于：

基于各个词特征计算句子中的各个词的概率。

一些实施方式中，所述训练文本为演讲语言、歌词或论文中的任一项连续数据时，所述处理模块302具体用于：

一些实施方式中，所述处理模块302在通过所述分类器对所述训练文本进行分类处理之前，还用于：

通过所述输入输出模块301向所属神经网络模型输入多个句子，对各句子进行词向量化，得到多个词向量；

通过所述输入输出模块301将各词向量输入LSTM模型或者GRU模型，提取长距离依赖特征；

通过所述输入输出模块301将所述长距离依赖特征输入CNN模型，抽取位置不变的局部特征，最终得到多个特征向量，每个所述特征向量分别具备长距离依赖特征和位置不变的局部特征；

通过所述输入输出模块301将所述多个特征向量输入池化层，以对这些特征向量进行降维处理；

通过所述输入输出模块301将降维处理得到的特征向量输入所述分类器。

一些实施方式中，所述处理模块302在将降维处理得到的特征向量输入所述分类器之前，还用于：

为所述分类器预先设置一个阈值；

学习N颗决策树中每颗决策树的参数θn；

一些实施方式中，所述训练文本为Webshell，Webshell是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境；所述输入输出模块301执行以下操作之一获取WebShell：

采用上传漏洞获取WebShell；

利用SQL注入攻击获取WebShell；

或者，利用数据库备份获取WebShell。

图3中所示的输入输出模块301对应的实体设备为图4所示的输入输出单元，该输入输出单元能够实现获取模块1部分或全部的功能，或者实现与输入输出模块301相同或相似的功能。图3中所示的采集模块303对应的实体设备为图4所示的采集设备。

图3中所示的处理模块302对应的实体设备为图4所示的处理器，该处理器能够实现处理模块302部分或全部的功能，或者实现与处理模块302相同或相似的功能。

上面从模块化功能实体的角度分别介绍了本申请实施例中的文本分类装置30，以下从硬件角度介绍一种计算机设备，如图4所示，其包括：处理器、存储器、输入输出单元(也可以是收发器，图4中未标识出)以及存储在所述存储器中并可在所述处理器上运行的计算机程序。例如，该计算机程序可以为图1所对应的实施例中文本分类方法对应的程序。例如，当计算机设备实现如图3所示的文本分类装置30的功能时，所述处理器执行所述计算机程序时实现上述图3所对应的实施例中由文本分类装置30执行的文本分类方法中的各步骤；或者，所述处理器执行所述计算机程序时实现上述图3所对应的实施例的文本分类装置30中各模块的功能。又例如，该计算机程序可以为图1所对应的实施例中文本分类方法对应的程序。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述收发器也可以用接收器和发送器代替，可以为相同或者不同的物理实体。为相同的物理实体时，可以统称为收发器。该收发器可以为输入输出单元。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本申请的保护之内。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

获取训练文本，所述训练文本包括多个句子，每个句子包括多个词；

2.根据权利要求1所述的方法，其特征在于，所述捕捉所述训练文本中各句子的长距离依赖特征，包括：

所述方法还包括：

基于各个词特征计算句子中的各个词的概率。

3.根据权利要求2所述的方法，其特征在于，所述训练文本为演讲语言、歌词或论文中的任一项连续数据时，所述通过所述LSTM模型依序计算句子中的各个词的长距离依赖特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述通过所述分类器对所述训练文本进行分类处理之前，所述方法还包括：

将各词向量输入LSTM模型或者GRU模型，提取长距离依赖特征；

将降维处理得到的特征向量输入所述分类器。

5.根据权利要求4所述的方法，其特征在于，所述将降维处理得到的特征向量输入所述分类器之前，所述方法还包括：

为所述分类器预先设置一个阈值；

学习N颗决策树中每颗决策树的参数θn；

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述训练文本为Webshell，Webshell是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境；所述获取训练文本，包括以下实现方式之一：

采用上传漏洞获取WebShell；

利用SQL注入攻击获取WebShell；

或者，利用数据库备份获取WebShell。

7.一种文本分类装置，其特征在于，所述文本分类装置包括：

输入输出模块，用于获取训练文本，所述训练文本包括多个句子，每个句子包括多个词；

8.根据权利要求7所述的装置，其特征在于，所述采集模块具体用于：

基于各个词特征计算句子中的各个词的概率。

9.一种计算机设备，其特征在于，所述设备包括：

至少一个处理器、存储器和输入输出单元；

其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-6中任一项所述的方法。

10.一种计算机存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-6中任一项所述的方法。