CN110020430B

CN110020430B - 一种恶意信息识别方法、装置、设备及存储介质

Info

Publication number: CN110020430B
Application number: CN201910156842.9A
Authority: CN
Inventors: 孙尚勇
Original assignee: New H3C Security Technologies Co Ltd
Current assignee: New H3C Security Technologies Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2023-06-23
Anticipated expiration: 2039-03-01
Also published as: CN110020430A

Abstract

本申请公开一种恶意信息识别方法、装置、设备及存储介质，该方法包括：获取待识别的文档信息；计算文档信息包括的单词的词频‑逆文件频率；根据文档信息包括的单词数目、单词对应的排列位置及词频‑逆文件频率，生成文档信息对应的特征向量；根据特征向量，通过预先训练的恶意内容识别模型识别文档信息是否为恶意信息。本申请中的特征向量能表示文档信息中单词的分布情况。恶意内容识别模型是通过大量已分类文档的特征向量训练得到的，对于以拼音、同音词以及标点符号分割等形式组织的恶意信息也能准确识别出来，提高了识别准确性与全面性。且通过恶意内容识别模型进行批量识别处理，运算量小，处理速度快，提高了恶意信息识别的效率。

Description

一种恶意信息识别方法、装置、设备及存储介质

技术领域

本申请涉及网络通信技术领域，具体涉及一种恶意信息识别方法、装置、设备及存储介质。

背景技术

随着互联网的普及，越来越多的人可以接触到互联网，然而却出现了很多不法分子利用互联网传递恶意信息的行为。例如，经常有犯罪分子利用论坛、博客等发布邪教、黄赌毒等恶意信息。如何识别出这些恶意信息，从而阻断恶意信息的传播，已成为目前网络内容安全领域的一项迫切需求。

当前，相关技术中通常采用基于关键词的拦截规则来识别恶意信息，具体通过配置文件定义包含非法词汇的拦截规则，若检测到网络中某个文档信息符合配置文件中的拦截规则，则确定该文档信息为恶意信息。

但目前不法分子经常以拼音、同音词以及标点符号分割等形式组织文档信息，对于以这些形式组织的文档信息，上述基于关键词的拦截规则很难识别出来，拦截率很低。

发明内容

为解决以上问题，本申请提供一种恶意信息识别方法、装置、设备及存储介质，通过支持向量机分类模型进行大样本的机器学习，训练出恶意内容识别模型，对于以拼音、同音词以及标点符号分割等形式组织的恶意信息也能准确识别出来，提高了恶意内容识别的准确性与全面性。本申请通过以下几个方面来解决以上问题。

第一方面，本申请实施例提供了一种恶意信息识别方法，所述方法包括：

获取待识别的文档信息；

计算所述文档信息包括的单词的词频-逆文件频率；

根据所述文档信息包括的单词数目、所述单词对应的排列位置及词频-逆文件频率，生成所述文档信息对应的特征向量；

根据所述特征向量，通过预先训练的恶意内容识别模型识别所述文档信息是否为恶意信息。

结合第一方面，本申请实施例提供了上述第一方面的第一种可能的实现方式，其中，所述计算所述文档信息包括的单词的词频-逆文件频率，包括：

根据所述文档信息，计算第一单词对应的词频TF值，所述第一单词为所述文档信息包括的任一单词；

根据所述恶意内容识别模型对应的训练集，计算所述第一单词对应的逆向文件频率IDF值；

根据所述TF值和所述IDF值，计算所述第一单词的词频-逆文件频率。

结合第一方面，本申请实施例提供了上述第一方面的第二种可能的实现方式，其中，所述根据所述文档信息包括的单词数目、所述单词对应的排列位置及词频-逆文件频率，生成所述文档信息对应的特征向量，包括：

创建一个多维向量，所述多维向量的维数为预设数值；

根据所述多维向量的维数、所述文档信息包括的单词数目、所述单词对应的排列位置及词频-逆文件频率，对所述多维向量包括的元素进行赋值，得到所述文档信息对应的特征向量。

结合第一方面的第二种可能的实现方式，本申请实施例提供了上述第一方面的第三种可能的实现方式，其中，所述根据所述多维向量的维数、所述文档信息包括的单词数目、所述单词对应的排列位置及词频-逆文件频率，对所述多维向量包括的元素进行赋值，得到所述文档信息对应的特征向量，包括：

若所述文档信息包括的单词数目小于或等于所述预设数值，则根据所述单词在所述文档信息中的排列位置，从所述多维向量中确定出所述单词对应的元素；将所述单词对应的元素赋值为所述单词的词频-逆文件频率；将所述多维向量中剩余的元素赋值为零，得到所述文档信息对应的特征向量；

若所述文档信息包括的单词数目大于所述预设数值，则从所述文档信息中选择词频-逆文件频率最大的所述预设数值个单词；根据选择的单词对应的预设排列位置，分别从所述多维向量中确定出选择的单词对应的元素；将选择的单词对应的元素分别赋值为选择的单词的词频-逆文件频率，得到所述文档信息对应的特征向量。

结合第一方面，本申请实施例提供了上述第一方面的第四种可能的实现方式，其中，所述计算所述文档信息包括的单词的词频-逆文件频率之前，还包括：

分别计算所述文档信息包括的每个句子对应的句子概率及句子长度；

根据所述每个句子对应的句子概率及所述每个句子对应的句子长度，计算所述文档信息的内容概率值；

若所述内容概率值小于预设阈值，则直接确定所述文档信息为恶意信息，结束操作；

若所述内容概率值大于或等于所述预设阈值，则执行分别计算所述文档信息中每个单词的词频-逆文件频率的操作。

结合第一方面的第四种可能的实现方式，本申请实施例提供了上述第一方面的第五种可能的实现方式，其中，所述分别计算所述文档信息包括的每个句子对应的句子概率，包括：

分别统计第一句子包括的每个单词在所述恶意内容识别模型对应的训练集中的出现次数，所述第一句子为所述文档信息包括的任一句子；

分别根据所述每个单词的出现次数及所述训练集包括的单词总数，计算所述每个单词对应的单词概率；

根据所述每个单词对应的单词概率及所述每个单词在所述第一句子中的词序，计算每个单词对应的词组条件概率；

根据所述每个单词对应的词组条件概率，计算所述第一句子对应的句子概率。

第二方面，本申请实施例提供了一种恶意信息识别方法，包括：

获取训练集，所述训练集包括多个具有分类标识符的文档，所述分类标识符用于指示文档是否为恶意文档；

分别计算所述文档中每个单词的词频-逆文件频率；

根据所述文档包括的单词数目、所述每个单词对应的排列位置及词频-逆文件频率，生成所述文档对应的特征向量；

根据所述训练集包括的文档对应的特征向量及分类标识符，训练恶意内容识别模型。

结合第二方面，本申请实施例提供了上述第二方面的第一种可能的实现方式，其中，所述根据所述文档包括的单词数目、所述每个单词对应的排列位置及词频-逆文件频率，生成所述文档对应的特征向量，包括：

创建一个多维向量，所述多维向量的维数为预设数值；

若所述文档包括的单词数目小于或等于所述预设数值，则根据所述每个单词在所述文档中的排列位置及所述每个单词的词频-逆文件频率，对所述多维向量包括的元素进行赋值，得到所述文档对应的特征向量；

若所述文档包括的单词数目大于所述预设数值，则从所述文档中选择词频-逆文件频率最大的所述预设数值个单词；根据选择的单词的词频-逆文件频率及选择的单词对应的预设排列位置，对所述多维向量中的每个元素进行赋值，得到所述文档对应的特征向量。

第三方面，本申请实施例提供了一种恶意信息识别装置，所述装置包括：

获取模块，用于获取待识别的文档信息；

计算模块，用于计算所述文档信息包括的单词的词频-逆文件频率；

生成模块，用于根据所述文档信息包括的单词数目、所述单词对应的排列位置及词频-逆文件频率，生成所述文档信息对应的特征向量；

识别模块，用于根据所述特征向量，通过预先训练的恶意内容识别模型识别所述文档信息是否为恶意信息。

第四方面，本申请实施例提供了一种恶意信息识别装置，所述装置包括：

获取模块，用于获取训练集，所述训练集包括多个具有分类标识符的文档，所述分类标识符用于指示文档是否为恶意文档；

计算模块，用于分别计算所述文档中每个单词的词频-逆文件频率；

生成模块，用于根据所述文档包括的单词数目、所述每个单词对应的排列位置及词频-逆文件频率，生成所述文档对应的特征向量；

训练模块，用于根据所述训练集包括的文档对应的特征向量及分类标识符，训练用于识别恶意信息的恶意内容识别模型。

第五方面，本申请实施例提供了一种恶意信息识别设备，包括存储器和处理器；

所述存储器中存储有可执行程序，所述可执行程序被所述处理器执行，以实现上述第一方面、第二方面或第一方面及第二方面的任一种可能的实现方式所述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述第一方面、第二方面或第一方面及第二方面的任一种可能的实现方式所述的方法。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

在本申请实施例中，获取待识别的文档信息；计算文档信息包括的单词的词频-逆文件频率；根据文档信息包括的单词数目、单词对应的排列位置及词频-逆文件频率，生成文档信息对应的特征向量；根据特征向量，通过预先训练的恶意内容识别模型识别文档信息是否为恶意信息。本申请生成文档信息对应的特征向量，该特征向量能够表示文档信息中有具体含义的单词的分布情况。通过大量已分类文档的特征向量训练得到恶意内容识别模型。在实际应用中，根据待识别的文档信息对应的特征向量，基于统计语言模型和训练出的恶意内容识别模型进行恶意信息的识别，对于以字母、同音词以及标点符号等进行分割的形式组织的恶意信息也能准确识别出来，提高了恶意内容识别的准确性与全面性。且在线进行文档信息的分类识别时，通过预先训练的恶意内容识别模型进行批量识别处理，运算量小，处理速度快，提高了恶意信息识别的效率。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变的明显，或通过本申请的实践了解到。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例所提供的一种恶意信息识别方法的流程图；

图2示出了本申请另一实施例所提供的一种恶意信息识别方法的流程图；

图3示出了本申请另一实施例所提供的一种恶意信息识别方法的流程图；

图4示出了本申请实施例所提供的一种恶意信息识别装置的结构示意图；

图5示出了本申请另一实施例所提供的一种恶意信息识别装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

恶意信息是指违反法律法规、违背社会道德或破坏信息安全等能够造成不良影响的信息，如赌博、诈骗、迷信等信息。恶意信息经常采用大量字母、标点符号、乱码等进行分割的形式组织而成，其组织形式千变万化、难以穷举。本申请实施例提供一种恶意信息识别方法，生成文档对应的特征向量，该特征向量能够表示文档中有具体含义的单词的分布情况。通过大量已分类文档的特征向量进行模型训练，得到恶意内容识别模型。从而在实际应用中，根据待识别的文档信息的特征向量，通过该恶意内容识别模型识别文档信息是否为恶意信息，通过将文档转换为特征向量，降低了文档组织形式对恶意信息识别的影响，大大提高了识别恶意信息的准确率。

如图1所示，本申请实施例通过如下操作来训练恶意内容识别模型，包括：

步骤101：获取训练集，训练集包括多个具有分类标识符的文档，分类标识符用于指示文档是否为恶意文档。

获取大量的恶意文档和非恶意文档，为获取的每个文档赋予分类标识符，将这些文档组成训练集。其中，分类标识符用于指示文档是否为恶意文档，如分类标识符可以为0或1，0表示恶意文档，1表示非恶意文档等。

在利用训练集来训练恶意内容识别模型之前，对于训练集包括的每个文档，首先通过如下步骤102和103的操作生成每个文档对应的特征向量。

步骤102：分别计算训练集包括的文档中每个单词的词频-逆文件频率。

对文档进行分词处理，得到文档包括的每个单词；分别计算每个单词的词频-逆文件频率。

由于文档中每个单词的词频-逆文件频率的计算方式都是相同的，为了便于描述，下面以一个单词为例来具体说明词频-逆文件频率的计算过程。对于文档中的其他每个单词，都可按照与该单词相同的计算方式，分别计算出其他每个单词的词频-逆文件频率。

在本申请实施例中，单词的词频-逆文件频率即为TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆文件频率)值，TF-IDF是基于统计的，用以评估一个单词对于一个文档的重要程度。单词的重要性随着它在文档中出现的次数成正比增加，但同时会随着它在文档中出现的频率成反比下降。

对于单词的词频-逆文件频率，根据文档，计算该单词对应的TF(Term Frequency，词频)值。根据上述训练集，计算该单词对应的IDF(Inverse Document Frequency，逆文件频率)值。根据TF值和IDF值，计算该单词的词频-逆文件频率。

具体地，统计该单词在该文档中的出现次数。根据该单词的出现次数及该文档包括的单词总数，通过如下公式(1)计算该单词对应的TF值。

在上述公式(1)中，ω为单词，TF_ω为单词ω对应的TF值，n_ω为单词ω在该文档中的出现次数，N为该文档包括的单词总数。

从上述训练集中，统计包括该单词的文档数目。根据训练集包括的文档总数及统计的文档数目，通过如下公式(2)计算该单词对应的IDF值。

在上述公式(2)中，IDF_ω为单词ω对应的IDF值，M为训练集包括的文档总数，m_ω为训练集中包括单词ω的文档数目。

通过上述公式(1)和(2)计算出该单词对应的TF值和IDF值后，通过如下公式(3)计算该单词对应的词频-逆文件频率，即TF-IDF值。

步骤103：根据训练集中文档包括的单词数目、每个单词对应的排列位置及词频-逆文件频率，生成文档对应的特征向量。

在本申请实施例中，还建立上述训练集对应的单词库，该单词库中包括在训练集中出现的所有单词。

对于训练集包括的任一文档，在生成该文档对应的特征向量时，首先创建一个多维向量，该多维向量的维数为预设数值，该预设数值大于或等于上述单词库包括的单词总数。根据多维向量的维数、文档包括的单词数目、单词对应的排列位置及词频-逆文件频率，对多维向量包括的元素进行赋值，得到文档对应的特征向量。

判断该文档包括的单词数目是否小于或等于预设数值，如果是，则根据单词在该文档中的排列位置及单词的词频-逆文件频率，对多维向量包括的元素进行赋值，得到该文档对应的特征向量。具体地，根据单词在该文档中的排列位置，从多维向量中确定出单词对应的元素；将单词对应的元素赋值为单词的词频-逆文件频率；将多维向量中剩余的元素赋值为零，得到该文档对应的特征向量。

在本申请实施例中，对于上述单词库中包括的每个单词，还预先设置了每个单词对应的预设排列位置，该预设排列位置为文档大于上述预设数值时单词对应的元素在文档的特征向量中所在的位置，如对于单词“我们”，预先设置“我们”对应的预设排列位置为排在第5位。

如果判断出该文档包括的单词数目大于上述预设数值，则从该文档中选择词频-逆文件频率最大的上述预设数值个单词；根据选择的单词的词频-逆文件频率及选择的单词对应的预设排列位置，对多维向量中的每个元素进行赋值，得到该文档对应的特征向量。具体地，根据选择的单词对应的预设排列位置，分别从多维向量中确定出选择的单词对应的元素；将选择的单词对应的元素分别赋值为选择的单词的词频-逆文件频率，得到该文档对应的特征向量。

为了便于理解上述特征向量的构造过程，下面结合示例进行具体说明。例如，假设训练集包括的一个文档中包含500个单词，而训练集对应的单词库中包括2000个单词，则创建一个维数为2000的多维向量，对于文档包括的每个单词，确定该单词在文档中的排列位置，从该多维向量中确定出该排列位置对应的元素，将确定出的元素赋值为该单词的词频-逆文件频率。如假设单词在文档中的排列位置为排在第2位，则多维向量中该单词对应的元素为排在第2位的元素，将排在第2位的元素赋值为该单词的词频-逆文件频率。对于文档包括的每个单词对应的元素均进行赋值之后，将该多维向量中剩余的元素均赋值为零，得到该文档对应的特征向量。即该文档对应的特征向量是一个维数为2000的向量，该特征向量中只有500个非零元素，是一个高维稀疏向量。

再如，假设训练集包括的一个文档中包含3000个单词，而训练集对应的单词库中包括2000个单词，则创建一个维数为2000的多维向量，从文档包括的3000个单词中选择词频-逆文件频率最大的2000个单词。对于选出的这2000个单词中的任一单词，根据该单词对应的预设排列位置，从创建的多维向量中确定出该预设排列位置对应的元素，将确定出的元素赋值为该单词的词频-逆文件频率。如假设单词对应的预设排列位置为排在第5位，则多维向量中该单词对应的元素为排在第5位的元素，将排在第5位的元素赋值为该单词的词频-逆文件频率。对于选出的这2000个单词对应的元素均进行赋值之后，即得到该文档对应的特征向量。

在本申请实施例中，若文档中存在拼音、乱码或标点符号等，则在文档对应的特征向量中这些拼音、乱码或标点符号等对应的元素的取值为0，只有文档中的单词对应的元素的取值不为0。通过这种方式能够去除无意义的垃圾内容，且单词对应的元素的取值为单词的词频-逆文件频率，因此文档对应的特征向量能够体现文档中有具体含义的单词的分布情况。本申请实施例利用大量已分类文档的特征向量进行机器学习，将有意义的内容交给恶意内容识别模型进行分类，提升了机器学习模型的准确率，也减小了算法复杂度。后续通过该恶意内容识别模型进行恶意信息的识别，使得能够依据文档中单词的分布情况进行识别，大大降低了恶意内容的组织形式对识别造成的影响，能够准确的检测出恶意内容，具有准确性高，计算量小的特点。

对于训练集包括的每个文档，都通过上述方式分别生成每个文档对应的特征向量后，通过如下步骤104的操作来训练恶意内容识别模型。

步骤104：根据训练集包括的文档对应的特征向量及分类标识符，训练恶意内容识别模型。

将每个文档对应的特征向量以及每个文档对应的分类标识符输入支持向量机分类模型中进行文档分类的机器学习，训练得到恶意内容识别模型。

在训练过程中，支持向量机分类模型对训练集包括的大量恶意文档对应的特征向量及大量非恶意文档对应的特征向量进行机器学习，当训练至该支持向量机分类模型的识别准确率达到预设值时，停止训练，得到训练好的恶意内容识别模型。

除通过上述支持向量机分类模型来训练恶意内容识别模型外，还可以通过贝叶斯分类器、随机森林分类器、决策树算法等来训练恶意内容识别模型。

在本申请实施例中，采集大量已分类的恶意文档和非恶意文档，并生成每个文档对应的特征向量，特征向量中元素的取值及分布能够表示文档中有具体含义的单词的分布情况。通过已分类的大量恶意文档及非恶意文档的特征向量机分类标识符来训练恶意内容识别模型。使得该恶意内容识别模型能够依据文档中单词的分布情况进行识别，大大降低了恶意内容的组织形式对识别造成的影响，大大提高了恶意内容识别的准确性，且计算量小，算法复杂度低。

本申请另一实施例提供了一种恶意内容识别方法，通过上述实施例训练得到恶意内容识别模型之后，即可采用本实施例提供的方法，通过该恶意内容识别模型对待识别的文档信息进行识别，参见图2，包括：

步骤201：获取待识别的文档信息。

步骤202：计算该文档信息包括的单词的词频-逆文件频率。

首先对该文档信息进行分词处理，得到该文档信息包括的每个单词；分别计算每个单词的词频-逆文件频率。

在本步骤中，单词的词频-逆文件频率同样用单词对应的TF-IDF值来表示。由于文档信息包括的每个单词的词频-逆文件频率的计算方式相同，因此以第一单词为例具体说明词频-逆文件频率的计算过程，第一单词为该文档信息包括的任一单词。对于该文档信息包括的其他每个单词，都可按照与第一单词相同的方式，分别计算出其他每个单词的词频-逆文件频率。

对于第一单词的词频-逆文件频率，根据该文档信息，计算第一单词对应的TF值。根据预先训练的恶意内容识别模型对应的训练集，计算第一单词对应的IDF值。根据计算的TF值和IDF值，计算第一单词的词频-逆文件频率。

具体地，统计第一单词在该文档信息中的出现次数。根据第一单词的出现次数及该文档信息包括的单词总数，通过上述实施例中的公式(1)计算第一单词对应的TF值。以及，从预先训练的恶意内容识别模型对应的训练集中，统计包括第一单词的文档数目。根据该训练集包括的文档总数及统计的文档数目，通过上述公式(2)计算第一单词对应的IDF值。然后通过上述公式(3)计算第一单词对应的词频-逆文件频率，即TF-IDF值。

通过上述方式计算出该文档信息包括的每个单词的词频-逆文件频率之后，通过如下步骤203的操作生成该文档信息对应的特征向量。

步骤203：根据该文档信息包括的单词数目、单词对应的排列位置及词频-逆文件频率，生成该文档信息对应的特征向量。

创建一个多维向量，该多维向量的维数为预设数值，该预设数值大于或等于上述训练集对应的单词库包括的单词总数。根据多维向量的维数、文档信息包括的单词数目、单词对应的排列位置及词频-逆文件频率，对多维向量包括的元素进行赋值，得到文档信息对应的特征向量。

判断该文档信息包括的单词数目是否小于或等于预设数值，如果是，则根据单词在该文档信息中的排列位置及单词的词频-逆文件频率，对多维向量包括的元素进行赋值，得到该文档信息对应的特征向量。具体地，根据单词在该文档信息中的排列位置，从多维向量中确定出单词对应的元素；将单词对应的元素赋值为单词的词频-逆文件频率；将多维向量中剩余的元素赋值为零，得到该文档信息对应的特征向量。

如果判断出该文档信息包括的单词数目大于上述预设数值，则从该文档信息中选择词频-逆文件频率最大的上述预设数值个单词；根据选择的单词的词频-逆文件频率及选择的单词对应的预设排列位置，对多维向量中的每个元素进行赋值，得到该文档信息对应的特征向量。具体地，根据选择的单词对应的预设排列位置，分别从多维向量中确定出选择的单词对应的元素；将选择的单词对应的元素分别赋值为选择的单词的词频-逆文件频率，得到该文档信息对应的特征向量。

步骤204：根据该文档信息对应的特征向量，通过预先训练的恶意内容识别模型识别该文档信息是否为恶意信息。

将该文档信息对应的特征向量，输入上述实施例预先训练的恶意内容识别模型中，通过该恶意内容识别模型对该文档信息进行分类识别，得到识别结果。若该识别结果为该文档信息为恶意信息，则后续对该文档信息进行拦截，避免该文档信息在网络中继续传播。

在本申请实施例中，基于统计语言模型和向量分类模型进行恶意信息的识别，恶意内容识别模型是根据大量已分类的恶意文档及非恶意文档的特征向量及分类标识符训练得到的，对于以拼音、同音词以及标点符号等分割形式组织的恶意信息也能准确识别出来，提高了恶意内容识别的准确性与全面性。且在线进行文档信息的分类识别时，通过预先训练的恶意内容识别模型进行批量识别处理，运算量小，处理速度快，提高了恶意信息识别的效率。

以拼音、同音词以及标点符号等分割形式组织的恶意信息，其可读性很差，且其表达的含义会造成不良的社会影响。而互联网中展示的内容通常要求具有一定的可读性，且宣扬符合法律及社会道德等要求的正面含义。对于以拼音、同音词以及标点符号等分割形式组织的文档信息，通过统计语言模型计算文档信息的概率，当文档信息的概率小于预设阈值时，认为该文档信息的可读性差，可以直接将该文档信息判断为恶意信息，从而提高恶意信息的识别效率。因此在本申请的另一个实施例中，通过上述实施例中的方式训练得到恶意内容识别模型之后，还可采用图3所示的方法，利用该恶意内容识别模型来对待识别的文档信息进行识别，具体包括：

步骤301：获取待识别的文档信息。

步骤302：计算该文档信息的内容概率值。

在本申请实施例中，具体通过如下步骤A1和A2的操作来计算该文档信息的内容概率值，包括：

A1：分别计算文档信息包括的每个句子对应的句子概率及句子长度。

对于该文档信息包括的每个句子的句子长度，可以句子包括的单词数目来表示句子长度，或者用句子包括的字符数目来表示句子长度等。

对于该文档信息包括的每个句子的句子概率，由于每个句子的句子概率的计算方式相同，下面以第一句子为例来详细说明句子概率的计算过程，第一句子为该文档信息包括的任一句子。该文档信息包括的其他每个句子，均可按照与第一句子相同的方式，分别计算出其他每个句子的句子概率。

具体地，本申请实施例通过如下步骤A11和A12的操作来计算第一句子的句子概率，包括：

A11：根据预先训练的恶意内容识别模型对应的训练集，计算第一句子包括的每个单词对应的单词概率。

分别统计第一句子包括的每个单词在恶意内容识别模型对应的训练集中的出现次数；分别根据每个单词的出现次数及训练集包括的单词总数，计算每个单词对应的单词概率。对于每个单词，计算单词的出现次数与训练集包括的单词总数之间的比值，将该比值作为该单词对应的单词概率。

在本申请实施例中，还可以在模型训练阶段，对训练集包括的每个单词，按照上述方式计算出每个单词对应的单词概率，并在训练集对应的单词库中存储每个单词对应的单词概率。这样在本步骤中可以无需再次计算文档信息包括的每个句子中单词对应的单词概率，而是直接从存储的单词库中获取对应的单词概率，如此大大减少了运算量，缩短了恶意内容识别所需的时间，提高了识别效率。

通过上述方式计算出第一句子包括的每个单词对应的单词概率后，通过步骤A12的操作来计算第一句子对应的句子概率。

A12：根据每个单词对应的单词概率及每个单词在第一句子中的词序，计算第一句子对应的句子概率。

根据每个单词对应的单词概率及每个单词在第一句子中的词序，计算每个单词对应的词组条件概率。本申请实施例中基于统计语言模型来计算句子概率，假设第一句子是由t个单词组成，这t个单词组成第一句子的词序为“w₁、w₂、…、w_t”，则单词w₁的概率为P(w₁)，单词w₂对应的词组条件概率为P(w₂|w₁)，单词w_i对应的词组条件概率为P(w_i|w₁，w₂，…，w_i-1)，单词w_t对应的词组条件概率为P(w_t|w₁，w₂，…，w_t-1)。

得到每个单词对应的词组条件概率后，根据每个单词对应的词组条件概率，通过如下公式(4)计算第一句子对应的句子概率。

对于文档信息包括的其他每个句子，都按照与第一句子相同的方式，通过上述步骤A11和A12的操作计算出其他每个句子对应的句子概率，然后通过如下步骤A2的操作来计算该文档信息的内容概率值。

A2：根据每个句子对应的句子概率及每个句子对应的句子长度，计算该文档信息的内容概率值。

利用该文档信息包括的每个句子对应的句子概率，对每个句子的句子长度进行加权平均，将得到的加权平均值作为该文档信息的内容概率值。假设该文档信息包括三个句子，这三个句子的句子长度依次为L₁、L₂、L₃，这三个句子对应的句子概率依次为P₁、P₂、P₃，则该文档信息对应的内容概率值P通过如下公式(5)来计算：

P＝(L₁*P₁+L₂*P₂+L₃*P₃)/(L₁+L₂+L₃)…(5)

步骤303：判断该文档信息的内容概率值是否小于预设阈值，如果是，则执行步骤304，如果否，则执行步骤305。

步骤304：直接确定文档信息为恶意信息，结束操作。

当该文档信息的内容概率值小于预设阈值时，直接判断该文档信息为恶意信息。

在通过预先训练的恶意内容识别模型对待识别的文档信息进行分类识别之前，基于统计方式首先计算该文档信息的内容概率值，若该内容概率值大于或等于预设阈值，则通过恶意内容识别模型进行分类识别。若该内容概率值小于预设阈值，则直接将该文档信息确定为恶意信息，并对该文档信息进行拦截，如此能够减少运算量，提高文档信息的识别效率。

步骤305：计算该文档信息包括的单词的词频-逆文件频率。

步骤305的操作与上述实施例中步骤202的操作相同，在此不再赘述。

步骤306：根据该文档信息包括的单词数目、单词对应的排列位置及词频-逆文件频率，生成该文档信息对应的特征向量。

步骤306的操作与上述实施例中步骤203的操作相同，在此不再赘述。

步骤307：根据该文档信息对应的特征向量，通过预先训练的恶意内容识别模型识别该文档信息是否为恶意信息。

步骤307的操作与上述实施例中步骤204的操作相同，在此不再赘述。

在本申请实施例中，首先基于统计语言模型计算待识别的文档信息的内容概率，若文档信息的内容概率小于预设阈值，则直接确定该文档信息为恶意信息，减少运算量，提高文档信息的识别效率。当文档信息的内容概率值大于或等于预设阈值时，根据文档信息对应的特征向量采用恶意内容识别模型进行识别，恶意内容识别模型是根据大量已分类的恶意文档及非恶意文档的特征向量及分类标识符训练得到的，对于以拼音、同音词以及标点符号分割等形式组织的恶意信息也能准确识别出来，提高了恶意内容识别的准确性与全面性。且在线进行文档信息的分类识别时，通过预先训练的恶意内容识别模型进行批量识别处理，运算量小，处理速度快，提高了恶意信息识别的效率。

参见图4，本申请实施例还提供一种恶意信息识别装置，该装置用于执行上述模型训练阶段的实施例所述的恶意信息识别方法，该装置包括：

获取模块40，用于获取训练集，训练集包括多个具有分类标识符的文档，分类标识符用于指示文档是否为恶意文档；

计算模块41，用于分别计算文档中每个单词的词频-逆文件频率；

生成模块42，用于根据文档包括的单词数目、每个单词对应的排列位置及词频-逆文件频率，生成文档对应的特征向量；

训练模块43，用于根据训练集包括的文档对应的特征向量及分类标识符，训练恶意内容识别模型。

上述生成模块42包括：

创建单元，用于创建一个多维向量，多维向量的维数为预设数值；

赋值单元，用于根据所述多维向量的维数、所述文档信息包括的单词数目、所述单词对应的排列位置及词频-逆文件频率，对所述多维向量包括的元素进行赋值，得到所述文档信息对应的特征向量。

上述赋值单元，用于若文档包括的单词数目小于或等于预设数值，则根据所述单词在所述文档信息中的排列位置，从所述多维向量中确定出所述单词对应的元素；将所述单词对应的元素赋值为所述单词的词频-逆文件频率；将所述多维向量中剩余的元素赋值为零，得到所述文档信息对应的特征向量；若文档包括的单词数目大于预设数值，则从文档中选择词频-逆文件频率最大的预设数值个单词；根据选择的单词对应的预设排列位置，分别从所述多维向量中确定出选择的单词对应的元素；将选择的单词对应的元素分别赋值为选择的单词的词频-逆文件频率，得到所述文档信息对应的特征向量。

参见图5，本申请实施例还提供一种恶意信息识别装置，该装置用于执行上述模型应用阶段的实施例所述的恶意信息识别方法，该装置包括：

获取模块50，用于获取待识别的文档信息；

计算模块51，用于计算文档信息包括的单词的词频-逆文件频率；

生成模块52，用于根据文档信息包括的单词数目、单词对应的排列位置及词频-逆文件频率，生成文档信息对应的特征向量；

识别模块53，用于根据特征向量，通过预先训练的恶意内容识别模型识别文档信息是否为恶意信息。

上述计算模块51，用于根据文档信息，计算第一单词对应的词频TF值，第一单词为文档信息包括的任一单词；根据恶意内容识别模型对应的训练集，计算第一单词对应的逆向文件频率IDF值；根据TF值和IDF值，计算第一单词的词频-逆文件频率。

上述生成模块52包括：

上述赋值单元，还用于若文档信息包括的单词数目小于或等于预设数值，则根据所述单词在所述文档信息中的排列位置，从所述多维向量中确定出所述单词对应的元素；将所述单词对应的元素赋值为所述单词的词频-逆文件频率；将所述多维向量中剩余的元素赋值为零，得到所述文档信息对应的特征向量；若文档信息包括的单词数目大于预设数值，则从文档信息中选择词频-逆文件频率最大的预设数值个单词；根据选择的单词对应的预设排列位置，分别从多维向量中确定出选择的单词对应的元素；将选择的单词对应的元素分别赋值为选择的单词的词频-逆文件频率，得到文档信息对应的特征向量。

在计算模块51计算文档信息包括的单词的词频-逆文件频率之前，该装置还包括：

内容概率值判断模块，用于分别计算所述文档信息包括的每个句子对应的句子概率及句子长度；根据所述每个句子对应的句子概率及所述每个句子对应的句子长度，计算所述文档信息的内容概率值；若内容概率值小于预设阈值，则直接确定文档信息为恶意信息，结束操作；若内容概率值大于或等于预设阈值，则通过上述计算模块51计算文档信息包括的单词的词频-逆文件频率。

上述内容概率值判断模块，还用于分别统计第一句子包括的每个单词在恶意内容识别模型对应的训练集中的出现次数，所述第一句子为所述文档信息包括的任一句子；分别根据每个单词的出现次数及训练集包括的单词总数，计算每个单词对应的单词概率；根据每个单词对应的单词概率及每个单词在第一句子中的词序，计算每个单词对应的词组条件概率；根据每个单词对应的词组条件概率，计算第一句子对应的句子概率。

在本申请实施例中，根据文档信息对应的特征向量采用恶意内容识别模型进行识别，出恶意内容识别模型是根据大量已分类的恶意文档及非恶意文档的特征向量及分类标识符训练得到的，对于以拼音、同音词以及标点符号分割等形式组织的恶意信息也能准确识别出来，提高了恶意内容识别的准确性与全面性。且在线进行文档信息的分类识别时，通过预先训练的恶意内容识别模型进行批量识别处理，运算量小，处理速度快，提高了恶意信息识别的效率。进一步地，在通过恶意内容识别模型进行识别之前，还可以先基于统计语言模型计算待识别的文档信息的内容概率，若文档信息的内容概率小于预设阈值，则直接确定该文档信息为恶意信息，只有当文档信息的内容概率大于或等于预设阈值时，才通过恶意内容识别模型进行识别，如此能够减少运算量，提高文档信息的识别效率。

为了实现上述各实施例，本申请一实施例还提出了一种恶意信息识别设备，包括存储器、处理器，存储器上存储有可执行程序；处理器读取存储器中存储的可执行程序代码，运行与该可执行程序代码对应的程序，用于实现如上述任一实施例的恶意信息识别方法。

为了实现上述实施例，本申请另一实施例还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程度被处理器执行时实现如上述任一实施例的恶意信息识别方法。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种恶意信息识别方法，其特征在于，所述方法包括：

获取待识别的文档信息；

计算所述文档信息包括的单词的词频-逆文件频率；所述单词不包括拼音、乱码、标点符号；

根据所述特征向量，通过预先训练的恶意内容识别模型识别所述文档信息是否为恶意信息;

其中，所述计算所述文档信息包括的单词的词频-逆文件频率之前，还包括：

分别计算所述文档信息包括的每个句子对应的句子概率及句子长度；根据所述每个句子对应的句子概率及所述每个句子对应的句子长度，计算所述文档信息的内容概率值；若所述内容概率值小于预设阈值，则直接确定所述文档信息为恶意信息，结束操作；若所述内容概率值大于或等于所述预设阈值，则执行分别计算所述文档信息中每个单词的词频-逆文件频率的操作；

所述分别计算所述文档信息包括的每个句子对应的句子概率，包括：

分别统计第一句子包括的每个单词在所述恶意内容识别模型对应的训练集中的出现次数，所述第一句子为所述文档信息包括的任一句子；分别根据所述每个单词的出现次数及所述训练集包括的单词总数，计算所述每个单词对应的单词概率；根据所述每个单词对应的单词概率及所述每个单词在所述第一句子中的词序，计算每个单词对应的词组条件概率；根据所述每个单词对应的词组条件概率，计算所述第一句子对应的句子概率。

2.根据权利要求1所述的方法，其特征在于，所述计算所述文档信息包括的单词的词频-逆文件频率，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述文档信息包括的单词数目、所述单词对应的排列位置及词频-逆文件频率，生成所述文档信息对应的特征向量，包括：

创建一个多维向量，所述多维向量的维数为预设数值；

4.根据权利要求3所述的方法，其特征在于，所述根据所述多维向量的维数、所述文档信息包括的单词数目、所述单词对应的排列位置及词频-逆文件频率，对所述多维向量包括的元素进行赋值，得到所述文档信息对应的特征向量，包括：

5.一种恶意信息识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别的文档信息；

识别模块，用于根据所述特征向量，通过预先训练的恶意内容识别模型识别所述文档信息是否为恶意信息；

该装置还包括：内容概率值判断模块，用于分别计算所述文档信息包括的每个句子对应的句子概率及句子长度；根据所述每个句子对应的句子概率及所述每个句子对应的句子长度，计算所述文档信息的内容概率值；若内容概率值小于预设阈值，则直接确定文档信息为恶意信息；若内容概率值大于或等于预设阈值，则通过所述计算模块计算所述文档信息包括的单词的词频-逆文件频率；

所述内容概率值判断模块，还用于分别统计第一句子包括的每个单词在恶意内容识别模型对应的训练集中的出现次数，所述第一句子为所述文档信息包括的任一句子；分别根据每个单词的出现次数及训练集包括的单词总数，计算每个单词对应的单词概率；根据每个单词对应的单词概率及每个单词在第一句子中的词序，计算每个单词对应的词组条件概率；根据每个单词对应的词组条件概率，计算第一句子对应的句子概率。

6.一种恶意信息识别设备，其特征在于，包括存储器和处理器；

所述存储器中存储有可执行程序，所述可执行程序被所述处理器执行，以实现如权利要求1-4中任一所述的方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。