CN109558547A

CN109558547A - 一种数据的过滤方法、装置、电子设备及存储介质

Info

Publication number: CN109558547A
Application number: CN201811386470.0A
Authority: CN
Inventors: 张志远; 王生玉; 王雪松; 石志中; 张俊杰
Original assignee: Qinghai Public Security Bureau; Beijing Ruian Technology Co Ltd
Current assignee: Qinghai Public Security Bureau; Beijing Ruian Technology Co Ltd
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2019-04-02

Abstract

本发明实施例公开了一种数据的过滤方法、装置、电子设备及存储介质，该方法包括：获取待过滤的数据；利用预先训练好的过滤模型对所述数据进行过滤。而由于过滤模型是机器学习得到，因此，处理数据速度较快，并且准确率高，从而提高整体引擎的准确率及召回率，以更高效、更精准、更稳定的方法实现数据的过滤。

Description

一种数据的过滤方法、装置、电子设备及存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种数据的过滤方法、装置、电子设备及存储介质。

背景技术

随着互联网、社交网络、电子商务等的迅猛发展，每天新增的数据量迅猛激增，数据平台的存储压力及查询性能压力也越来越大，其中HTTP协议在数据总量中占据相当大的比重。

现有技术中，基本是依赖规则的词库检测机制，比如检测引擎内置的正则或者采用多模匹配算法等进行HTTP协议信息的匹配。虽然能够将大部分无价值 HTTP数据过滤掉，但是依然存在一些问题，导致过滤效率较低。例如，词库维护困难，为保证词库的有效性，需要不断的对大量数据进行分析；词库中词的粒度大小容易导致过拟合或者欠拟合，比如规则写的太宽泛容易误杀，写的太细容易绕过；基于规则的词库检测机制严重影响性能，尤其是词库量大时，极大的影响了实时流式框架的处理速度，造成消息队列的积压。

发明内容

本发明提供一种数据的过滤方法、装置、电子设备及存储介质，实现对HTTP 协议数据的高效率过滤，大大减少了资源的开销，提升了实时处理性能和过滤效率。

第一方面，本发明实施例提供了一种数据的过滤方法，包括：

获取待过滤的数据；

利用预先训练好的过滤模型对所述数据进行过滤。

第二方面，本发明实施例还提供了一种数据的过滤装置，包括：

数据获取模块，用于获取待过滤的数据；

数据过滤模块，用于利用预先训练好的过滤模型对所述数据进行过滤。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的一种数据的过滤方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例所述的一种数据的过滤方法。

本发明实施例的技术方案，通过获取待过滤的数据，并利用预先训练好的过滤模型对所述数据进行过滤，而由于过滤模型是机器学习得到，因此，处理数据速度较快，并且准确率高，从而提高整体引擎的准确率及召回率，以更高效、更精准、更稳定的方法实现数据的过滤。

附图说明

图1是本发明实施例一中的一种数据的过滤方法的流程图。

图2是本发明实施例二中的一种数据的过滤方法的流程图。

图3是本发明实施例三中的一种数据的过滤装置的结构示意图。

图4是本发明实施例四中的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种数据的过滤方法的流程图，本实施例可适用于数据过滤的情况，该方法可以由数据的过滤装置来执行，该装置可以采用硬件和/或软件实现，可以配置于电子设备中，该方法具体包括如下步骤：

S110、获取待过滤的数据。

其中，待过滤的数据可以包括终端或服务器运行产生的数据，比如应用程序或网页运行过程中产生的网页数据和协议数据等，例如网站域名数据、TCP 协议数据和HTTP协议数据等。示例性的，在浏览器运行使用过程中，会产生大量的网页数据和IP地址数据，这些网页数据或IP地址数据中有很多是无价值的数据，比如一些恶意网站的网址和色情网站的网址数据等。因此，可以对浏览器产生的数据可以进行过滤，以减轻浏览器以及终端的资源占用和安全性。

S120、利用预先训练好的过滤模型对所述数据进行过滤。

过滤模型是预先训练好的，可以是通过机器学习算法得到的过滤模型，用于识别对待过滤数据的价值情况，比如是有效信息数据还是无效信息数据。由于过滤模型是通过大量的样本数据经过机器学习或其他神经网络训练而成，因此可以高效、准确的识别待过滤数据是否有效。

可选的，所述数据是HTTP协议数据，所述过滤模型训练的样本数据包括预设数量的URL数据；其中，属于同一URL数据的数量是均匀的。

其中，超文本传输协议(HTTP)是一种通信协议，它允许将超文本标记语言 (HTML)文档从Web服务器传送到客户端的浏览器。URL(Uniform Resource Locator)，称为统一资源定位符，是使用web浏览器等访问web页面时需要输入的网页地址。过滤模型的样本数据可以是从HBASE数据库(HBASE是一个分布式的、面向列的开源数据库)中获取的URL数据，。在采样时需要保证样本数据的均衡性，比如按照每个URL均匀采样，避免出现所有的URL都是指向类似的数据，如样本数据只包括某一个用户频繁上线下线的URL数据，这样会造成样本数据不合理，最终训练出来的过滤模型也不不能准确进行数据的过滤。

另外，在获取到样本数据之后，还可以由人工根据经验对样本数据筛选后形成预设数量的样本数据，然后对样本数据进行人工标注，具体可以对样本数据标注为有效或无效信息。然后利用监督学习的二分类训练过滤模型，过滤模型的训练过程中可以利用TFIDF算法进行特征提取，最终完成训练过滤模型的训练。

可选的，所述过滤模型的训练过程，包括：

基于所述样本数据训练过滤模型；

计算所述过滤模型的效果评价参数，其中，所述效果评价参数包括：准确率、精确率和/或召回率；

直至所述效果评价参数满足预设阈值，则所述过滤模型训练完成。

具体的，在训练过滤模型的过程中，需要验证过滤模型的效果，验证过滤模型的效果是否达标，效果达标即满足预设阈值以后该过滤模型才可以视为训练完成，否则需要继续进行训练。对于过滤模型的效果可以通过计算效果评价参数来判断，比如准确率、错检率和/或召回率等。预设阈值相应可以是：准确率是98％，召回率是95％，错检率是30％。具体的，预设阈值可以根据业务的实际情况设定，一般可以设置准确率高一些，可以接受的是将少量无效数据判断为价值数据，但是要避免将有效的价值数据判断为无效数据，这样的过滤模型是不合理的，应用到实际业务中的效率会很低。

可选的，计算所述过滤模型的效果评价参数，包括：对所述过滤模型采用交叉验证的方式计算效果评价参数。

对于模型效果的验证和评估可以采取交叉验证的方式，交叉验证(Crossvalidation)，是一种统计学上将数据样本切割成较小子集的实用方法，具体可以是用一部分样本数据做模型的训练，另一部分样本数据做后续模型的测试，评估及验证。比如，可以将样本数据中的50％的数据为训练数据，50％为测试数据。示例性的，在对过滤模型的效果评估过程中，可以通过混淆矩阵计算效果评价参数，比如准确率、召回率和错检率等。在效果不达标时，可以对过滤模型中的相关参数进行优化调整，具体可以利用Sklearn中的GridSearchCV算法对过滤模型进行优化，遍历多种参数组合，通过交叉验证确定最佳效果参数，最终形成过滤模型。其中，Sklearn(scikit-learn)是Python重要的机器学习库。训练完成并且效果达标以后便可以利用该过滤模型预测数据为有效数据或者无效数据。

本实施例的技术方案，通过获取待过滤的数据；并利用预先训练好的过滤模型对所述数据进行过滤。而由于过滤模型是通过机器学习训练而来，并且模型的评价效果是经过验证的，因此利用该过滤模型对数据进行过滤时，可以准确识别有效或无效信息，提高了过滤效率和准确度。另外，通过该方案对HTTP 的URL进行过滤，可以有效防止恶意内容传送到终端，以及防止恶意协议流量传送到终端，从而达到限制某些指定的不可信的网址无法打开，保证网络的安全。

实施例二

图2是本发明实施例二提供的一种数据的过滤方法的流程图，在上述实施例的基础上，可选的，对步骤S120做了进一步的优化，如图2所示，该方法具体包括：

S210、获取待过滤的数据。

S220、利用预先训练好的过滤模型确定所述待过滤数据是无效信息或有效信息。

训练好的过滤模型可以是评价效果参数符合预设阈值的，然后利用其判断待过滤数据是无效信息还是有效信息。具体可以应用在Spark集群的mlib库的环境中，利用过滤模型对待过滤数据进行判断。如果识别出是有效信息，则可以将待过滤数据存入规定的数据库进行后续的使用，比如HBASE，HDFS和 SOLR等数据库。如果识别出无效信息，则执行步骤S230。

S230、如果是无效信息，则利用预设过滤规则确定所述待过滤数据是无效信息或有效消息。

如果利用过滤模型判断待过滤数据是无效信息，则进一步利用预设的过滤规则确定待过滤数据是否是无效信息增加判断的准确性。。因此，如果是无效信息，则利用预设的过滤规则再次判别是否为无效信息。预设的过滤规则可以是预先设定好的可以判别出待过滤数据是无效信息或有效信息的规则，比如可以是精确匹配词库和模糊匹配词库，如果待过滤数据与匹配词库中的关键词匹配，则可以认为待过滤数据是无效信息。

示例性的，利用过滤规则的过滤处理过程可以包括URLdecode解码、是否非英文数据处理、post参数识别、cookie数据识别、body数据识别和其它不规格数据识别等。如果识别出是有效信息，则可以将待过滤数据存入规定的数据库进行后续的使用。如果识别出是无效信息，则执行步骤S240。

S240、当利用预设过滤规则确定所述待过滤数据是无效信息时，将所述待过滤数据存入无效信息数据库。

当利用通过过滤规则处理再次确定待过滤数据是无效信息，则可以将待过滤数据库存入无效信息库，实现数据最终的过滤。

可选的，利用预先训练好的过滤模型对所述数据进行过滤之后，所述方法还包括：根据对所述数据的过滤结果对所述过滤模型进行优化。

在具体实施过程中或过滤模型的线上使用过程中，可以根据过滤结果以及对无效数据和价值数据的不断分析，对提取的特征不断优化，使过滤模型以及过滤系统能够更高效、更稳定、更准确的过滤HTTP协议数据。另外，在具体实施过程中，整个过滤流程的框架可以包括：Jtorm资源配置，Spark机器学习引擎集群，词库检测引擎集群和引擎评价体系部分，在Jstorm集群和Spark集群搭建完成后，Topology(拓扑)任务可以根据当前的资源配置各个bolt的并行度。合理的并行度配置可以合理调度资源，更快更高效的处理海量数据。

本实施例的技术方案，通过在过滤模型判断待过滤数据后，再通过过滤规则进行判断是否为无效信息，可以更高效、更精准、更稳定的过滤HTTP协议数据，提高过滤数据的准确率及召回率。同时解决了现有技术中需要频繁更新过滤词库造成的开发难度大，运维成本高的问题。

实施例三

图3为本发明实施例三提供的一种数据的过滤装置的结构示意图，如图3 所示，所述装置包括：

数据获取模块310，用于获取待过滤的数据；

数据过滤模块320，用于利用预先训练好的过滤模型对所述数据进行过滤。

可选的，所述数据过滤模块320，具体包括：

信息初始确定模块，用于利用预先训练好的过滤模型确定所述待过滤数据是无效信息或有效信息；

无效信息确认模块，用于如果是无效信息，则利用预设过滤规则确定所述待过滤数据是无效信息或有效消息；

无效数据存储模块，用于当利用预设过滤规则确定所述待过滤数据是无效信息时，将所述待过滤数据存入无效信息数据库。

可选的，所述数据是HTTP协议数据，所述过滤模型训练的样本数据包括预设数量的URL数据，其中，属于同一URL数据的数量是均匀的。

可选的，所述装置还包括：过滤模型训练模块，包括：

过滤模型单元，用于基于所述样本数据训练过滤模型；

效果评价单元，用于计算所述过滤模型的效果评价参数，其中，所述效果评价参数包括：准确率、错检率和/或召回率；

模型判断单元，用于直至所述效果评价参数满足预设阈值，则所述过滤模型训练完成。

可选的，所述效果评价单元具体用于：对所述过滤模型采用交叉验证的方式计算效果评价参数。

可选的，所述装置还包括：过滤模型优化模块，用于根据对所述数据的过滤结果对所述过滤模型进行优化。

本发明实施例所提供的数据的过滤装置，可执行本发明任意实施例所提供的数据的过滤方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的一种数据的过滤方法。

实施例四

参见图4，本实施例提供了一种电子设备400，其包括：一个或多个处理器 420；存储装置410，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器420执行，使得所述一个或多个处理器420实现本发明实施例所提供的一种数据的过滤方法，包括：

获取待过滤的数据；

利用预先训练好的过滤模型对所述数据进行过滤。

当然，本领域技术人员可以理解，处理器420还可以实现本发明任意实施例所提供的一种数据的过滤方法的技术方案。

图4显示的电子设备400仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于：一个或者多个处理器420，存储装置410，连接不同系统组件(包括存储装置410和处理器420)的总线450。

总线450表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构 (ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备400典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备400访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置410可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)411和/或高速缓存存储器412。电子设备400可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统413可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如 CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线450相连。存储装置410 可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块415的程序/实用工具414，可以存储在例如存储装置410中，这样的程序模块415包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块415通常执行本发明所描述的任意实施例中的功能和/或方法。

电子设备400也可以与一个或多个外部设备460(例如键盘、指向设备、显示器470等)通信，还可与一个或者多个使得用户能与该电子设备400交互的设备通信，和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口430进行。并且，电子设备400还可以通过网络适配器440与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器440通过总线450与电子设备400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器420通过运行存储在存储装置410中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种数据的过滤方法。

实施例五

本发明实施例五提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种数据的过滤方法，该方法包括：

获取待过滤的数据；

利用预先训练好的过滤模型对所述数据进行过滤。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的一种数据的过滤方法中的相关操作。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括—— 但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、 Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)— 连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据的过滤方法，其特征在于，所述方法包括：

获取待过滤的数据；

利用预先训练好的过滤模型对所述数据进行过滤。

2.根据权利要求1所述的方法，其特征在于，利用预先训练好的过滤模型对所述数据进行过滤，包括：

利用预先训练好的过滤模型确定所述待过滤数据是无效信息或有效信息；

如果是无效信息，则利用预设过滤规则确定所述待过滤数据是无效信息或有效消息；

当利用预设过滤规则确定所述待过滤数据是无效信息时，将所述待过滤数据存入无效信息数据库。

3.根据权利要求1所述的方法，其特征在于，所述数据是HTTP协议数据，所述过滤模型训练的样本数据包括预设数量的URL数据，其中，属于同一URL数据的数量是均匀的。

4.根据权利要求3所述的方法，其特征在于，所述过滤模型的训练过程，包括：

基于所述样本数据训练过滤模型；

计算所述过滤模型的效果评价参数，其中，所述效果评价参数包括：准确率、错检率和/或召回率；

5.根据权利要求4所述的方法，其特征在于，计算所述过滤模型的效果评价参数，包括：对所述过滤模型采用交叉验证的方式计算效果评价参数。

6.根据权利要求1所述的方法，其特征在于，利用预先训练好的过滤模型对所述数据进行过滤之后，所述方法还包括：

根据对所述数据的过滤结果对所述过滤模型进行优化。

7.一种数据的过滤装置，其特征在于，包括：

数据获取模块，用于获取待过滤的数据；

8.根据权利要求7所述的装置，其特征在于，所述数据过滤模块，具体用于：

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的一种数据的过滤方法。

10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6中任一所述的一种数据的过滤方法。