CN110020532A

CN110020532A - 一种信息过滤方法、系统、设备及计算机可读存储介质

Info

Publication number: CN110020532A
Application number: CN201910299730.9A
Authority: CN
Inventors: 徐潇
Original assignee: Suzhou Wave Intelligent Technology Co Ltd
Current assignee: Suzhou Wave Intelligent Technology Co Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-07-16
Anticipated expiration: 2039-04-15
Also published as: CN110020532B

Abstract

本申请所提供的一种信息过滤方法，包括：根据用户需求选择信息过滤模型；将待分类信息输入信息过滤模型，输出相应的分类结果；根据分类结果，执行对应的信息过滤操作。本申请先是根据用户需求选择信息过滤模型，再将待分类信息输入信息过滤模型，输出相应的分类结果，最后根据分类结果，执行对应的信息过滤操作。该方法利用信息过滤模型进行信息的过滤，替代了现有技术中采用的黑白名单策略，能够提高信息过滤的安全性。此外，该方法可以适配大部分的场景，而且避免了现有技术中黑白名单策略需要不断的更新名单列表，降低了维护工作的成本，提高了工作效率。本申请还提供一种信息过滤系统、设备及计算机可读存储介质，均具有上述有益效果。

Description

一种信息过滤方法、系统、设备及计算机可读存储介质

技术领域

本申请涉及信息过滤技术领域，特别涉及一种信息过滤方法、系统、设备及计算机可读存储介质。

背景技术

在当今的计算器安全中，在安全字符过滤、有效信息筛选、信息交互对象定向选择等领域，使用的都是黑名单策略和白名单策略。白名单策略十分简单，白名单策略的优点是除了名单上的实体外都不能运行或者通过，但是白名单策略的缺点是应用场景单一。例如，对于经常会受到陌生人询价的销售人员，以及收到读者来信的作家或者其他定期收取潜在客户邮件的商业人士，如果使用白名单策略，则无法接收陌生人的邮件。

黑名单策略只在某些应用中能够发挥良好作用，当然前提是黑名单内容准确性和完整性。但是，黑名单策略只能抵御已知的有害的程序和发送者，不能够抵御新威胁(0day攻击等)，攻击者容易针对性绕过，导致存在安全隐患。此外，黑白名单策略需要不断的更新名单列表，只能通过运维人员人工修改和迭代，不仅增加了维护工作的成本，而且工作效率低下。

因此，如何提高信息过滤的安全性是本领域技术人员亟需解决的技术问题。

发明内容

本申请的目的是提供一种信息过滤方法、系统、设备及计算机可读存储介质，能够提高信息过滤的安全性。

为解决上述技术问题，本申请提供一种信息过滤方法，包括：

根据用户需求选择信息过滤模型；

将待分类信息输入所述信息过滤模型，输出相应的分类结果；

根据所述分类结果，执行对应的信息过滤操作。

优选地，所述将待分类信息输入所述信息过滤模型，输出相应的分类结果，包括：

将利用SVM模型训练样本对原始SVM模型进行模型训练得到的SVM模型作为所述信息过滤模型；其中，所述SVM模型训练样本包括合法输入数据和非法输入数据；

将所述待分类信息输入所述SVM模型，输出所述待分类信息的类别为安全或不安全。

优选地，输出所述待分类信息的类别为不安全后，还包括：

将所述待分类信息输入RVM模型，输出相应的分类结果。

优选地，将利用SVM模型训练样本对原始SVM模型进行模型训练得到的SVM模型作为所述信息过滤模型之后，还包括：

判断所述SVM模型的精度是否达到SVM模型精度阈值；

若是，则执行所述将所述待分类信息输入所述SVM模型，输出所述待分类信息的类别为安全或不安全的步骤。

将利用RVM模型训练样本对原始RVM模型进行模型训练得到的RVM模型作为所述信息过滤模型；其中，所述RVM模型训练样本包括非法输入数据及对应的类别；

将待分类安全字符输入所述RVM模型，输出所述待分类安全字符的类别为合法输入或XSS或目录遍历或命令注入。

优选地，将利用RVM模型训练样本对原始RVM模型进行模型训练得到的RVM模型作为所述信息过滤模型之后，还包括：

判断所述RVM模型的精度是否达到RVM模型精度阈值；

若是，则执行所述将待分类安全字符输入所述RVM模型，输出所述待分类安全字符的类别为合法输入或XSS或目录遍历或命令注入的步骤。

本申请还提供一种信息过滤系统，包括：

模型选择模块，用于根据用户需求选择信息过滤模型；

分类结果输出模块，用于将待分类信息输入所述信息过滤模型，输出相应的分类结果；

过滤操作执行模块，用于根据所述分类结果，执行对应的信息过滤操作。

优选地，所述分类结果输出模块包括：

SVM模型训练单元，用于将利用SVM模型训练样本对原始SVM模型进行模型训练得到的SVM模型作为所述信息过滤模型；其中，所述SVM模型训练样本包括合法输入数据和非法输入数据；

SVM模型分类结果输出单元，用于将所述待分类信息输入所述SVM模型，输出所述待分类信息的类别为安全或不安全。

本申请还提供一种设备，包括：存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现上述所述的信息过滤方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的信息过滤方法的步骤。

本申请所提供的一种信息过滤方法，包括：根据用户需求选择信息过滤模型；将待分类信息输入所述信息过滤模型，输出相应的分类结果；根据所述分类结果，执行对应的信息过滤操作。

本申请先是根据用户需求选择信息过滤模型，再将待分类信息输入所述信息过滤模型，输出相应的分类结果，最后根据所述分类结果，执行对应的信息过滤操作。该方法利用信息过滤模型进行信息的过滤，替代了现有技术中采用的黑白名单策略，能够提高信息过滤的安全性。此外，该方法可以适配大部分的场景，而且避免了现有技术中黑白名单策略需要不断的更新名单列表，降低了维护工作的成本，提高了工作效率。本申请还提供一种信息过滤系统、设备及计算机可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种信息过滤方法的流程图；

图2为本申请实施例所提供的一种信息过滤系统的结构框图。

具体实施方式

本申请的核心是提供一种信息过滤方法，能够提高信息过滤的安全性。本申请的另一核心是提供一种信息过滤系统、设备及计算机可读存储介质。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在当今的计算器安全中，在安全字符过滤、有效信息筛选、信息交互对象定向选择等领域，使用的都是黑名单策略和白名单策略。白名单策略十分简单，白名单策略的优点是除了名单上的实体外都不能运行或者通过，但是白名单策略的缺点是应用场景单一。黑名单策略只在某些应用中能够发挥良好作用，当然前提是黑名单内容准确性和完整性。但是，黑名单策略只能抵御已知的有害的程序和发送者，不能够抵御新威胁(0day攻击等)，攻击者容易针对性绕过，导致存在安全隐患。此外，黑白名单策略需要不断的更新名单列表，只能通过运维人员人工修改和迭代，不仅增加了维护工作的成本，而且工作效率低下。本申请实施例能够提高信息过滤的安全性，且可以适配大部分的场景，还可以避免现有技术中黑白名单策略需要不断的更新名单列表，降低了维护工作的成本，提高了工作效率。具体请参考图1，图1为本申请实施例所提供的一种信息过滤方法的流程图，该信息过滤方法具体包括：

S101、根据用户需求选择信息过滤模型；

本申请实施例首先根据用户需求选择信息过滤模型，在此对用户的需求不作具体限定，需根据实际情况而定。用户需求可以是一些简单的需求，例如只区分验证信息是否符合要求；用户需求还可以是一些复杂的需求，例如确定验证信息的具体类别。在此对用户需求的输入方式不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，例如可以通过键盘输入用户需求，还可以通过鼠标在屏幕上勾选用户需求对应的选项。在此对信息过滤模型也不做具体限定，应由本领域技术人员根据实际情况作出相应的设定，信息过滤模型通常包括SVM(support vector machine，支持向量机)模型、RVM(Relevance vectormachine，相关向量机)模型等等。支持向量机(SVM)是一种有监督学习的算法，它可以用来处理分类和回归的问题。然而，实际应用中SVM主要用来处理分类问题。在这个算法中，首先我们将所有点画在一个n维空间中(其中n代表特征个数)，然后我们通过寻找较好区分两类样本的超平面来对数据进行分类处理。SVM简单的说是一个分类器，并且是二类分类器。在机器学习中，支持向量机(SVM，还支持矢量网络)是与相关的学习算法有关的监督学习模型，可以分析数据、识别模式，还可以用于分类和回归分析。相关向量机是Tipping在2001年在贝叶斯框架的基础上提出的，它有着与支持向量机一样的函数形式，与SVM一样基于核函数映射将低维空间非线性问题转化为高维空间的线性问题。

由上文可知，支持向量机是一种有监督学习的算法，在此对有监督学习进行一下说明。有监督学习就是从给定的训练数据集中学习出一个函数(模型参数)，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的，监督学习就是最常见的分类(注意和聚类区分)问题，通过已有的训练样本(即已知数据及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合，最优表示某个评价准则下是最佳的)，再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，也就具有了对未知数据分类的能力，监督学习的目标往往是让计算机去学习我们已经创建好的分类系统(模型)。

本申请实施例利用信息过滤模型替代相关技术中的黑白名单策略，也即使用机器学习的算法模型替代黑白名单策略。在计算机安全中，黑名单只是一种防止已经恶意程序运行或者防止已知垃圾邮件发送者和其他不受欢迎的发件人向用户发送邮件的简单有效的方法，更新黑名单可以快速通过更新服务器来实现，大多数防病毒程序使用的是黑名单技术来阻止已知威胁，垃圾邮件过滤器往往需要依赖于黑名单技术。但是，黑名单技术只能抵御已知的有害的程序和发送者，不能够抵御新威胁(0day攻击等)，攻击者很容易针对性地绕过，安全性不高。白名单技术的宗旨是不阻止某些特定的事物，它采取了与黑名单相反的做法，利用一份“已知为良好”的实体(程序、电子邮件地址、域名、网址)名单，以下是白名单技术的优点：没有必要运行必须不断更新的防病毒软件，任何不在名单上的事物将被阻止运行；且系统能够免受Oday攻击。但是，白名单技术的缺点就是不在名单上的实体都不能运行和通过，导致应用场景单一。而且，黑白名单策略需要不断地更新黑白名单列表，增加了维护工作的成本，工作效率低下。本申请实施例所使用的信息过滤模型，安全性较高、可以应用于多种场景、降低了维护成本且提高了工作效率。

S102、将待分类信息输入信息过滤模型，输出相应的分类结果；

本申请实施例在根据用户需求选择信息过滤模型后，将待分类信息输入信息过滤模型，输出相应的分类结果。在此对待分类信息不作具体限定，需根据实际情况而定，例如待分类信息可以为安全字符。本申请实施例必要时会以安全字符为例进行说明，但是需注意的是，本申请中的待分类信息包括但不限于安全字符。由上文可知，本申请实施例对信息过滤模型不作具体限定，所以对于输出的分类结果也不作具体限定，本申请实施例的分类结果就是待分类信息的类别。

进一步地，上述将待分类信息输入信息过滤模型，输出相应的分类结果，通常包括：将利用SVM模型训练样本对原始SVM模型进行模型训练得到的SVM模型作为信息过滤模型；其中，SVM模型训练样本包括合法输入数据和非法输入数据；将待分类信息输入SVM模型，输出待分类信息的类别为安全或不安全。本实施例建立SVM模型使用合法输入数据和非法输入数据作为训练样本，对原始SVM模型进行模型训练，即有监督学习，对原始SVM模型进行充分训练后得到SVM模型。本实施例中的待分类信息可以为安全字符，故该步骤即为安全字符过滤，即检验输入的数据，以防止黑客或攻击者使用恶意输入对系统或服务器进行攻击。若输入的数据为合法数据，则允许数据通过，这里可以认为返回为“安全”；反之，若输入的数据为非法数据或者恶意代码，则禁止数据通过，这里可以认为返回为“不安全”。此处将安全字符过滤问题抽象化为一个二分类问题，即“安全”与“不安全”，这是第一层过滤机制。在此对训练样本的数量不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，通常训练样本的数量越多，所训练出的SVM模型的精度越高。

进一步地，将利用SVM模型训练样本对原始SVM模型进行模型训练得到的SVM模型作为信息过滤模型之后，通常还包括：判断SVM模型的精度是否达到SVM模型精度阈值；若是，则执行将待分类信息输入SVM模型，输出待分类信息的类别为安全或不安全的步骤。本实施例对SVM模型精度阈值不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，例如可以设置SVM模型精度阈值为98％。在后续的维护中，随着新型攻击方法或新的合法数据的出现，可以更进一步对该SVM模型进行训练，以进一步的提高分类的准确率和速度。

进一步地，输出待分类信息的类别为不安全后，通常还可以包括：将待分类信息输入RVM模型，输出相应的分类结果。因为恶意攻击的种类繁多，包括XSS、目录遍历、上传下载、命令注入、LDAP注入、CRLF注入、日志伪造注入、SQL注入、PHP文件包含、XML注入、XXE、json注入等等。在有的过滤场景下，用户可能希望得到攻击者使用的恶意攻击的类别，以对攻击来源、攻击目的等进行分析。此时，即需要过滤系统对输入数据区分出不同的类别。本实施例可以在粗略知道待分类信息的类别为不安全后，将该待分类信息输入RVM模型，从而知道该待分类信息的具体类别。

进一步地，上述将待分类信息输入信息过滤模型，输出相应的分类结果，通常包括：将利用RVM模型训练样本对原始RVM模型进行模型训练得到的RVM模型作为信息过滤模型；其中，RVM模型训练样本包括非法输入数据及对应的类别；将待分类安全字符输入RVM模型，输出待分类安全字符的类别为合法输入或XSS或目录遍历或命令注入。本实施例建立RVM模型使用非法输入数据及对应的类别作为训练样本，对原始RVM模型进行模型训练，即有监督学习，对原始RVM模型进行充分训练后得到RVM模型。此处将安全字符过滤问题抽象化为一个多分类问题，即“合法输入”、“XSS”、“目录遍历”、“命令注入”等等多个分类，这是第二层过滤机制。在此对训练样本的数量不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，通常训练样本的数量越多，所训练出的RVM模型的精度越高。

进一步地，将利用RVM模型训练样本对原始RVM模型进行模型训练得到的RVM模型作为信息过滤模型之后，通常还包括：判断RVM模型的精度是否达到RVM模型精度阈值；若是，则执行将待分类安全字符输入RVM模型，输出待分类安全字符的类别为合法输入或XSS或目录遍历或命令注入的步骤。本实施例对RVM模型精度阈值不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，例如可以设置RVM模型精度阈值为98％。在后续的维护中，随着新型攻击方法或新的合法数据的出现，可以更进一步对该RVM模型进行训练，以进一步的提高分类的准确率和速度。

S103、根据分类结果，执行对应的信息过滤操作。

本申请实施例在得到分类结果后，根据分类结果，执行对应的信息过滤操作。例如，若输出的分类结果为不安全，则将相应的数据过滤掉。

本申请先是根据用户需求选择信息过滤模型，再将待分类信息输入信息过滤模型，输出相应的分类结果，最后根据分类结果，执行对应的信息过滤操作。该方法利用信息过滤模型进行信息的过滤，替代了现有技术中采用的黑白名单策略，能够提高信息过滤的安全性。此外，该方法可以适配大部分的场景，而且避免了现有技术中黑白名单策略需要不断的更新名单列表，降低了维护工作的成本，提高了工作效率。

下面对本申请实施例提供的一种信息过滤系统、设备及计算机可读存储介质进行介绍，下文描述的信息过滤系统、设备及计算机可读存储介质与上文描述的信息过滤方法可相互对应参照。

请参考图2，图2为本申请实施例所提供的一种信息过滤系统的结构框图；该信息过滤系统包括：

模型选择模块201，用于根据用户需求选择信息过滤模型；

分类结果输出模块202，用于将待分类信息输入信息过滤模型，输出相应的分类结果；

过滤操作执行模块203，用于根据分类结果，执行对应的信息过滤操作。

基于上述实施例，本实施例中分类结果输出模块202通常包括：

SVM模型训练单元，用于将利用SVM模型训练样本对原始SVM模型进行模型训练得到的SVM模型作为信息过滤模型；其中，SVM模型训练样本包括合法输入数据和非法输入数据；

SVM模型分类结果输出单元，用于将待分类信息输入SVM模型，输出待分类信息的类别为安全或不安全。

基于上述实施例，本实施例中通常还包括：

待分类信息输入模块，用于将待分类信息输入RVM模型，输出相应的分类结果。

基于上述实施例，本实施例中通常还包括：

SVM模型精度阈值判断模块，用于判断SVM模型的精度是否达到SVM模型精度阈值；

SVM模型分类结果输出单元具体为当SVM模型的精度达到SVM模型精度阈值时，将待分类信息输入SVM模型，输出待分类信息的类别为安全或不安全的单元。

基于上述实施例，本实施例中分类结果输出模块202，通常包括：

RVM模型训练单元，用于将利用RVM模型训练样本对原始RVM模型进行模型训练得到的RVM模型作为信息过滤模型；其中，RVM模型训练样本包括非法输入数据及对应的类别；

RVM模型分类结果输出单元，用于将待分类安全字符输入RVM模型，输出待分类安全字符的类别为合法输入或XSS或目录遍历或命令注入。

基于上述实施例，本实施例中通常还包括：

RVM模型精度阈值判断模块，用于判断RVM模型的精度是否达到RVM模型精度阈值；

RVM模型分类结果输出单元具体为当RVM模型的精度达到RVM模型精度阈值时，将待分类安全字符输入RVM模型，输出待分类安全字符的类别为合法输入或XSS或目录遍历或命令注入的单元。

本申请还提供一种设备，包括：存储器和处理器；其中，存储器用于存储计算机程序，处理器用于执行计算机程序时实现上述任意实施例的信息过滤方法的步骤。

本申请还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例的信息过滤方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种信息过滤方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种信息过滤方法，其特征在于，包括：

根据用户需求选择信息过滤模型；

根据所述分类结果，执行对应的信息过滤操作。

2.根据权利要求1所述的信息过滤方法，其特征在于，所述将待分类信息输入所述信息过滤模型，输出相应的分类结果，包括：

3.根据权利要求2所述的信息过滤方法，其特征在于，输出所述待分类信息的类别为不安全后，还包括：

将所述待分类信息输入RVM模型，输出相应的分类结果。

4.根据权利要求2所述的信息过滤方法，其特征在于，将利用SVM模型训练样本对原始SVM模型进行模型训练得到的SVM模型作为所述信息过滤模型之后，还包括：

判断所述SVM模型的精度是否达到SVM模型精度阈值；

5.根据权利要求1所述的信息过滤方法，其特征在于，所述将待分类信息输入所述信息过滤模型，输出相应的分类结果，包括：

6.根据权利要求5所述的信息过滤方法，其特征在于，将利用RVM模型训练样本对原始RVM模型进行模型训练得到的RVM模型作为所述信息过滤模型之后，还包括：

判断所述RVM模型的精度是否达到RVM模型精度阈值；

7.一种信息过滤系统，其特征在于，包括：

模型选择模块，用于根据用户需求选择信息过滤模型；

8.根据权利要求7所述的信息过滤系统，其特征在于，所述分类结果输出模块包括：

9.一种设备，其特征在于，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现如权利要求1至6任一项所述的信息过滤方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的信息过滤方法的步骤。