CN108733764B

CN108733764B - 基于机器学习的广告过滤规则生成方法和广告过滤系统

Info

Publication number: CN108733764B
Application number: CN201810339112.8A
Authority: CN
Inventors: 梁劲
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2018-04-16
Filing date: 2018-04-16
Publication date: 2021-09-10
Anticipated expiration: 2038-04-16
Also published as: CN108733764A

Abstract

本发明公开了一种基于机器学习的广告过滤规则生成方法和广告过滤系统。该方法包括：收集网页的网页截图；将收集到的所述网页截图输入机器学习模型；所述机器学习模型针对所述网页截图进行是否包含广告的图像识别；以及根据所述图像识别的结果生成广告过滤规则。由此，通过机器学习，能够自行学习和过滤各种类型的广告，以达到人工干预所无法实现的广度、精度和效率。

Description

基于机器学习的广告过滤规则生成方法和广告过滤系统

技术领域

本发明涉及信息技术领域，特别涉及一种基于机器学习的广告过滤规则生成方法、广告过滤方法及广告过滤系统。

背景技术

随着信息技术的飞速发展，越来越多的人们通过网页浏览来获取各类信息，但网页上充斥的各类广告严重妨碍了人们的浏览体验。为了滤除广告，人们通常会选择安装过滤软件或插件，例如ADBlock。ADBlock的过滤规则需要后台工作人员的人工编写或是用户的自行定义。面对互联网上的海量网页，通过人工无法实现网页广告的全面高效过滤。

因此，迫切需要一种高效准确的广告过滤方案，以实现对页面广告的准确过滤，提升用户的网页浏览体验。

发明内容

本发明的目的是提供基于机器学习的广告过滤方法和系统，其通过人工智能图像识别的方式来识别并过滤广告。通过机器学习，能够使信息收集、规则制定和广告滤除的整个流程自动化，大大减少了人工干预。上述过滤在服务器端实现，从而避免了客户端安装广告过滤插件以及编辑和/或存储大量过滤规则的必要。

根据本发明的一个方面，公开了一种基于机器学习的广告过滤规则生成方法包括：收集网页的网页截图；将收集到的所述网页截图输入机器学习模型；所述机器学习模型针对所述网页截图进行是否包含广告的图像识别；以及根据所述图像识别的结果生成广告过滤规则。

由此，通过AI图像识别，能够使信息收集、规则制定和广告滤除的整个流程自动化，大大减少了人工干预。

网页截图的收集可以通过收集网页的URL并对生成的网页进行截图来实现，由此方便对大量网页的抓取以及对网页具体内容的获取和更改。

所述机器学习模型通过将海量分类为包含广告的网页截图和不包含广告的网页截图作为正负样本输入进行训练而具备所述图像识别的能力，优选地，所述机器学习模型可以是深度卷积神经网络。

优选地，所述机器学习模型针对所述网页截图进行是否包含广告的图像识别包括：按照预定规则对包括广告的网页中的特定项目进行屏蔽并生成经项目屏蔽的网页截图；在所述机器学习模型判断所述经项目屏蔽的网页截图是不包含广告的网页截图的情况下，判定所述特定项目是包含广告的项目，其中，所述包含广告的项目用于生成所述广告过滤规则。所述特定项目可以是网页元素节点和/或网页子资源。

由此，可以通过对项目的屏蔽、截图和判断来找出包含广告的具体项目，从而方便规则的生成。

优选地，所述是否包含广告的图像识别是识别输入的网页截图的广告权重，所述广告权重是所述网页截图包含广告的概率，其中，按照预定规则对包括广告的网页中的特定项目进行屏蔽并生成经项目屏蔽的网页截图包括：按照预定规则对包括广告的网页中的多个特定项目进行遍历屏蔽并生成相应的经项目屏蔽的网页截图，并且，在所述机器学习模型判断所述经项目屏蔽的网页截图是不包含广告的网页截图的情况下，判定所述特定项目是包含广告的项目包括：在所述机器学习模型判断所述经项目屏蔽的网页截图的广告权重降低的情况下，判定相应的特定项目是包含广告的项目。由此，方便对页面包括多个广告的情况的判定和识别。

由于本发明的机器学习模型针对的是静止的网页截图进行识别，因此对于变化的广告投放形式，可以进一步采取其他的学习措施。

优选地，所述机器学习模型针对所述网页截图进行图像识别可以包括：在所述遍历屏蔽中的一次或多次屏蔽的网页截图的广告权重高于第一阈值的情况下，判断所述屏蔽对应的特定项目与多个JavaScript广告项目相对应；屏蔽在前JavaScript广告项目进行加载直到经特定项目屏蔽的网页截图的广告权重降低，其中，所述多个JavaScript广告项目用于生成所述广告过滤规则。由此使得本发明的广告过滤方案能够应对同一项目包含多JavaScript广告项的特殊情况。

优选地，所述机器学习模型针对所述网页截图进行图像识别可以包括：在所述遍历屏蔽中的多次屏蔽的所述经项目屏蔽的网页截图的广告权重均低于第二阈值的情况下，判断所述网页或其所在网站存在样式变化，并且所述方法还包括：基于所述机器学习模型或人工方法识别所述样式变化以生成所述广告过滤规则。由此使得本发明的广告过滤方案能够应对样式变化的特殊情况。

本发明的广告过滤规则生成方法还可以优选包括：预先收集广告过滤关联信息；并且，用于对包括广告的网页中的特定项目进行屏蔽的预定规则至少部分基于所述预先收集的广告过滤关联信息生成。由此能够利用已有的广告过滤信息提示机器学习模块的学习和判断效率。另外，预先收集的广告过滤关联信息包括如下至少一项：广告过滤插件的已有广告过滤规则；用户反馈的包括广告的网页URL和/或网页截图；以及用户主动触发广告过滤的相关信息。

本发明的广告过滤规则生成方法还可以优选包括：人工验证所述图像识别的结果是否出错；以及将错误信息返回所述机器学习模型用于训练改进。因此本发明的广告滤除方案具有高度的可改进性、灵活性和时效性(例如，可以及时学习并识别新的广告源或广告投放类型)。

根据本发明的另一个方面，公开了一种广告过滤方法，包括：将如上任一项所述广告过滤规则应用于关联网页以过滤广告。由此，广告过滤服务可以在服务器端实现并对用户透明，从而避免了客户端安装广告过滤插件以及编辑和/或存储大量过滤规则的必要，由此大幅提升用户的浏览体验。

优选地，应用所述广告过滤规则的关联网页包括如下至少一项：截图被所述机器学习模块进行图像识别的所述网页本身；所述网页所在的网站网页或其部分；与所述网页具有相同或类似结构的相关网页；以及与所述网页被过滤的子资源具有相同或关联名称的子资源的相关网页。由此能够方便广告过滤规则的恰当应用。

根据本发明的另一方面，公开了一种基于机器学习的广告过滤系统，包括：收集模块，用于收集网页的网页截图，并将收集到的所述网页截图输入机器学习模型；机器学习模型模块，使用机器学习模型针对所述网页截图进行是否包含广告的图像识别；过滤规则生成模块，用于根据所述图像识别的结果生成广告过滤规则；以及网页过滤模块，用于将所述广告过滤规则应用于关联网页以过滤广告。

可选地，所述收集模块可以收集网页的URL并对生成的网页进行截图。

可选地，所述机器学习模型可以是深度卷积神经网络。所述机器学习模型通过将海量分类为包含广告的网页截图和不包含广告的网页截图作为正负样本输入进行训练而具备所述图像识别的能力。

可选地，所述机器学习模型模块可以包括：项目屏蔽单元，用于按照预定规则对包括广告的网页中的特定项目进行屏蔽并生成经项目屏蔽的网页截图；以及广告项目判定单元，用于在所述机器学习模型判断所述经项目屏蔽的网页截图是不包含广告的网页截图的情况下，判定所述特定项目是包含广告的项目，其中，所述包含广告的项目用于生成所述广告过滤规则。网页中进行屏蔽的所述特定项目可以是网页元素节点和/或网页子资源。

可选地，所述机器学习模型通过识别输入的网页截图的广告权重来进行是否包含广告的图像识别，所述广告权重是所述网页截图包含广告的概率，其中，所述项目屏蔽单元按照预定规则对包括广告的网页中的多个特定项目进行遍历屏蔽并生成相应的经项目屏蔽的网页截图，并且，所述广告项目判定单元在所述机器学习模型判断所述经项目屏蔽的网页截图的广告权重降低的情况下，判定相应的特定项目是包含广告的项目。

可选地，所述广告项目判定单元在所述遍历屏蔽中的一次或多次屏蔽的网页截图的广告权重高于第一阈值的情况下，判断所述屏蔽对应的特定项目与多个JavaScript广告项目相对应；所述项目屏蔽单元屏蔽在前JavaScript广告项目进行加载直到经特定项目屏蔽的网页截图的广告权重降低，其中，所述多个JavaScript广告项目用于生成所述广告过滤规则。

可选地，所述广告项目判定单元在所述遍历屏蔽中的多次屏蔽的所述经项目屏蔽的网页截图的广告权重均低于第二阈值的情况下，判断所述网页或其所在网站存在样式变化，并且所述过滤规则生成模块基于所述机器学习模型或人工方法识别所述样式变化以生成所述广告过滤规则。

可选地，所述收集模块还包括：关联信息收集单元，用于预先收集广告过滤关联信息；并且，所述过滤规则生成模块至少部分基于所述预先收集的广告过滤关联信息生成所述预定规则。

可选地，所述预先收集的广告过滤关联信息可以包括如下至少一项：广告过滤插件的已有广告过滤规则；用户反馈的包括广告的网页URL和/或网页截图；以及用户主动触发广告过滤的相关信息。

另外，还可以通过人工验证所述图像识别的结果是否出错；以及将错误信息返回所述机器学习模型用于训练改进。

可选地，所述网页过滤模块将所述广告过滤规则应用于包括如下至少一项的关联网页：截图被所述机器学习模块进行图像识别的所述网页本身；所述网页所在的网站网页或其部分；与所述网页具有相同或类似结构的相关网页；以及与所述网页被过滤的子资源具有相同或关联名称的子资源的相关网页。

根据本发明的另一方面，还公开了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

根据本发明的另一方面，还公开了一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

通过机器学习，本发明的广告过滤方法能够自行学习和过滤各种类型的广告，以达到人工干预所无法实现的广度、精度和效率。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1是用于实现本发明的广告过滤方案的环境的示意图。

图2示出了根据本发明一个实施例的广告过滤方法的示意性流程图。

图3是根据本发明一个实施例的包含广告图像的人工智能识别步骤的流程示意图。

图4示出了根据本发明一个优选实施例的广告过滤规则生成方案的流程图。

图5示出了根据本发明一个实施例的广告过滤方法的流程图。

图6示出了根据本发明一个实施例的广告过滤系统的结构示意性图。

图7示出了根据本发明一个实施例的机器学习模型模块的结构示意图。

图8示出了根据本发明一个实施例的计算设备的结构示意性图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

出于利益的考虑，互联网上的大部分网页都包含广告。为了让广告在浏览时被看到，大部分广告都会占据网页的显眼位置，从而严重影响用户的网页浏览体验。有鉴于此，用户会通过为浏览器安装广告过滤插件，例如ADBlock等方式来对充斥的广告进行过滤。但互联网的网页数以亿计，广告投放方法五花八门，尽管广告过滤插件经常升级并且用户可以对过滤规则进行编辑和完善，也无法全面、及时地实现对广告的精确过滤。

为此，本发明提供一种基于机器学习的广告过滤方案，其通过人工智能图像识别的方式来识别并过滤广告。通过机器学习，能够使信息收集、规则制定和广告滤除的整个流程自动化，大大减少了人工干预。同时，上述过滤在服务器端实现，可以避免客户端安装广告过滤插件以及编辑和/或存储大量过滤规则的必要。

人工智能(Artificial Intelligence，英文缩写AI)是利用计算机技术研发用于模拟、延伸和扩展人的智能的技术科学。机器学习是用于实现人工智能的一种方法，其使用算法来解析数据，从中学习，用以对真实世界中的事件进行决策和判断。与传统的、为解决特定任务而硬编码的软件程序不同，机器学习使用大量的数据来“训练”，通过各种算法从数据中学习如何完成任务。在机器学习领域，利用深度神经网络的深度学习技术近年来得到了迅猛发展。深度神经网络可以理解为包含多个隐含层的神经网络结构。

例如，典型的卷积神经网络(CNN)由一系列有序运行的层组成。CNN模型的参数被称为“权重”(weights)。CNN的第一层读取输入图像，并输出一系列的特征图(map)。下面的层读取由上一层产生的特征图，并输出新的特征图。最后一个分类器(classifier)输出输入内容可能属于的每一类别的概率。但在对任何任务使用CNN之前，应该首先通过正负样本的大量输入来训练CNN数据集以调整模型参数。在现有技术中，CNN的培训主要是在大型服务器上实现。

在本公开中，主要基于深度神经网络(例如，卷积神经网络)模型例来说明使用人工智能的图像识别来识别并滤除网页广告的方案。但本领域技术人员可以理解的是，可以根据具体情况使用其他的深度学习技术来实现本发明的经由图像人工智能识别的广告过滤方案。

本发明的广告过滤方案可应用于图1所示的环境中。图1是用于实现本发明的广告过滤方案的环境的示意图。在一个实施例中，模型服务器15从网络40获取训练机器学习模型所需的海量网页信息(例如，网页截图)，训练例如在其上实现的机器学习模型使该模型能够对网页图像进行识别，根据识别结果生成广告过滤规则。生成的广告过滤规则可以存储在数据库30中。环境中的终端设备10可以经由网络40实现与网络访问服务器20的信息收发。服务器20可以通过访问数据库30来获取移动终端10所需的内容和存储其中的广告过滤规则，对上述内容进行广告过滤后将其下发给终端设备10。

网络40可以是广义上的用于信息传递的网络，可以包括各类无线通信网络、因特网、私域网、局域网、城域网、广域网或是蜂窝数据网络等及其上海量信息的互联网。终端设备10是可用来进行网络访问的任何合适的电子设备，包括但不限于桌上型计算机、便携式计算机、智能电话、平板电脑或是其他客户端。模型服务器15用于训练和维护本发明中用于生成广告过滤规则的机器学习模型。可以编写爬虫或其他程序来收集网页的URL并对生成的网页进行截图，以获取训练模型和制定过滤规则所需的图像信息。网络访问服务器20则是能够通过网络访问的提供交互服务所需信息的任何服务器。数据库30则可以存储模型服务器15生成的广告过滤规则。在随后的描述中会选择其中的一个或部分移动终端加以描述(例如，移动终端10-1)，但是本领域技术人员应该理解的是，上述1…N个终端设备旨在表示真实网络中存在的大量终端设备，示出的模型服务器15和网络访问服务器20和数据库30旨在表示本发明的技术方案涉及服务器及数据库的操作。对特定编号的移动终端以及服务器和数据库加以详述至少为了说明方便，而非暗示对移动端和服务器的类型或是位置等具有限制。

应当注意，如果向图示环境中添加或从中去除附加模块，不会改变本发明的示例实施例的底层概念。例如，网页收集和模型训练可以由不同的服务器15完成，网络访问服务器也可以有多个或是具有更为复杂的层级结构，但上述结构对于终端用户而言是透明的，因此可以理解为由服务器端提供的带广告滤除功能的页面浏览服务。另外，虽然为了方便说明而在图1中示出了从数据库30到服务器15/20的双向箭头，但本领域技术人员可以理解的是，上述数据的收发也是可以通过网络40实现的。

本发明的广告过滤方案可以实现为一种基于机器学习的广告过滤方法。图2示出了根据本发明一个实施例的广告过滤方法的示意性流程图。

在步骤S210，收集网页的网页截图。网页收集可以经由其URL实现，例如可以收集网页的URL并对生成的网页进行截图。例如，可以利用爬虫程序抓取特定域名下全部或部分页面的截图。由于同一网站内网页的布局通常会遵循特定的几个样式，因此出于效率的考虑，可以抽取或是根据网站地图或其他规则抓取有该网站内有代表性的若干网页并进行截图，由此提升系统效率。

在步骤S220，将收集到的网页截图输入机器学习模型。这里的机器学习模型是已经具备图像识别能力的模型，换句话说，是经过训练的机器学习模型。

在步骤S230，机器学习模型针对网页截图进行是否包含广告的图像识别。随后在步骤S240，根据图像识别的结果生成广告过滤规则。在一个实施例中，可以根据对网页中多个项目进行逐一屏蔽而得到的图像识别结果来判断包括广告的特定项目，并基于上述项目制定广告过滤规则。

在一个实施例中，步骤S210～S230的截图收集和图像识别步骤可以在例如图1的模型服务器15中进行，步骤S240的过滤规则步骤可以在中间服务器或是模型服务器15中进行。优选地，本发明的步骤S210～240可由布置在一起的规则生成服务器实现，该规则生成服务器可以包括用于训练和存储机器学习模型的模型服务器15。规则生成服务器生成的广告过滤规则可以发送至相应的数据库，以供例如网络访问服务器20在应答用户的网页访问请求时使用以进行对用户透明的、在服务器端实现的广告过滤。

如上所述，本发明中的机器学习模型在应用于广告过滤规则生成时已经具备了识别输入的图像中是否包含广告的能力。如前所述，本发明的机器学习模型可以是人工智能领域内具有自我学习能力并且能够对输入图像进行分类识别的任何模型。

所述机器学习模型通过将海量分类为包含广告的网页截图和不包含广告的网页截图作为正负样本输入进行训练而具备所述图像识别的能力。在一个实施例中，本发明的机器学习模型是深度学习模型，优选地是卷积神经网络(CNN)模型。

典型的CNN由一系列有序运行的层组成。CNN的第一层读取输入图像，并输出一系列的特征图(map)。下面的层读取由上一层产生的特征图，并输出新的特征图。最后一个分类器(classifier)输出输入图像可能属于的每一类别的概率。CONV层(卷积层)和FC层(全连层)是CNN中两种基本层类型。CONV层后，通常有汇集层(Pooling layers)。

CNN可用于前向推理过程中进行图像分类。但在对任何任务使用CNN之前，应该首先训练CNN数据集。在本发明中，机器学习模型同样需要通过训练来获取识别输入图像是否包含广告的能力。例如，可以向实现为CNN的机器学习模型输入包含已分类为包含广告的网页截图和不包含广告的网页截图的大数据图像集，根据训练结果调整CNN模型的参数，使其能够具备以一定准确率(例如，80％以上的准确率)判断输入图像是否包含广告的能力。上述训练数据集的获取和分类可以通过自动爬取各网站页面，根据已知的广告过滤规则进行过滤，以获取相应的包含广告和不包含广告的图像来实现。在具体应用中，数据集的分类也可以经由人工验证来辅助。

在训练阶段之后的分类阶段，该CNN模型能够根据训练结果以一定的准确率将输入的图像分类为包含广告的图像或是不包含广告的图像。应该理解的是，在分类阶段，如果人工验证出该模型的图像识别的结果出错，则可将上述出错信息返回至该CNN模型用于改进训练，例如，进行相应地模型参数调整。

本发明的机器学习模型可以基于各类实现来判定输入的网页截图是否包含广告。如下将结合图3对本发明的机器学习模型进行图像识别的一个优选实施例进行描述。图3是根据本发明一个实施例的包含广告图像的人工智能识别步骤的流程示意图。该人工智能识别步骤可以看做是图2中步骤S230的具体实现。

在步骤S231，按照预定规则对包括广告的网页中的特定项目进行屏蔽并生成经项目屏蔽的网页截图。

在步骤S232，在所述机器学习模型判断所述经项目屏蔽的网页截图是不包含广告的网页截图的情况下，判定所述特定项目是包含广告的项目。在此，识别出的包含广告的项目用于生成广告过滤规则。

换句话说，如果使用机器学习模型将某网页截图(例如，原始加载网页的网页截图)分类为包含广告的图像，则可以通过屏蔽该网页中的特定项目并截图再重新送入机器学习模型进行分类，倘若此时被分类为不包含广告的图像，则可以判定被屏蔽的特定项目包含广告。该包含广告的特定项目随后可以用于广告过滤规则的生成。

在本发明的机器学习模型由CNN模型实现的情况下，模型对图像是否包含的广告的判断可以实现为识别输入的网页截图的广告权重。广告权重可以理解为该网页截图包含广告的概率。相应地，如上对特定项目的屏蔽、截图和分类可以按照一定的遍历规则多次进行。由此，在一个实施例中，步骤S231可以优选为按照预定规则对包括广告的网页中的多个特定项目进行遍历屏蔽并生成相应的经项目屏蔽的网页截图，并且步骤S232可以优选为在所述机器学习模型判断所述经项目屏蔽的网页截图的广告权重降低的情况下，判定相应的特定项目是包含广告的项目。

在此，“特定项目”中的“项目”可以指代网页元素节点或是网页子资源。网页子资源是加载网页过程中所触发加载的资源，例如CSS、JavaScript或图片资源等。“特定项目”则是根据“预定规则”从当前网页所包含的多个项目中选出的。在一个极端例子中，“预定规则”对屏蔽项目不加限定，则可以对网页中的所有项目进行逐一屏蔽并截图，并将分类为不包含广告的图像或广告权重降低的图像所对应的屏蔽项判断为包含广告的项目。

通常情况下，“预定规则”可以根据具体应用场景灵活指定。在一个实施例中，可以通过预定规则对要进行屏蔽判断的项目类型加以限定，例如限定为网页中的CSS、JavaScript或图片资源等。在另一个实施例中，可以根据已有的广告过滤规则对网页中要进行屏蔽判断的项目加以限定。于是，图2所示的广告过滤方法还可以包括预先收集广告过滤关联信息。预先收集的广告过滤关联信息可以包括如下至少一项：广告过滤插件的已有广告过滤规则；用户反馈的包括广告的网页URL和/或网页截图；以及用户主动触发广告过滤的相关信息。用于对包括广告的网页中的特定项目进行屏蔽的预定规则至少部分基于所述预先收集的广告过滤关联信息生成。由此，已有的广告过滤信息资源可以用于加速机器学习模型对包含广告的项目的具体识别。

在根据预定规则网页内有多个项目需要屏蔽的情况下，可以按照一定算法(例如，穷举或分组)遍历屏蔽各个项目，通过对相应的截图进行编号并查看机器学习模型的判断结果(例如，广告权重是否降低)来找出网页内所包含的多个广告项目。

由于本发明的机器学习模型针对的是静止的网页截图进行识别，因此对于变化的广告投放形式，可以进一步采取其他的学习措施。在一个实施例中，当在步骤S232判断在遍历屏蔽中的一次或多次屏蔽的网页截图的广告权重较高(例如，高于第一阈值)的情况下，机器学习模型可以判断该屏蔽对应的特定项目与多个JavaScript广告项目相对应。于是，可以在屏蔽在前JavaScript广告项目的情况下继续进行加载、屏蔽、截图和判断，直到判断经特定项目屏蔽的网页截图的广告权重降低位置。识别出的多个JavaScript广告项目都用于生成广告过滤规则。

在另一个实施例中，当在步骤S232判断在遍历屏蔽中的多次屏蔽的所述经项目屏蔽的网页截图的广告权重均低于第二阈值的情况下，该机器学习模型可以判断所述网页或其所在网站存在样式变化，例如，按照一定的样式在网页的不同项目内显示广告。由此，本发明的广告过滤方法还可以包括：基于所述机器学习模型或人工方法识别所述样式变化以生成所述广告过滤规则。换句话说，可以为该机器学习模型添加样式学习模块，或将其交由人工处理。

图4示出了根据本发明一个优选实施例的广告过滤规则生成方案的流程图，该图的具体内容已在上文中阐述，在此不再赘述。

基于图2-4生成的广告过滤规则可以用于广告的滤除。图5示出了根据本发明一个实施例的广告过滤方法的流程图，在步骤S510，将广告过滤规则应用于关联网页以滤除广告。广告的滤除可以是不加载相应的子资源，也可以是直接删除相应的网页元素节点。例如，针对一个识别出的图片广告，可以不显示该图片但保留该图片位(例如，显示为灰色)，也可以直接在网页渲染时对包含(且仅包含)该图片的元素节点不加显示。

在一个实施例中，应用所述广告过滤规则的关联网页包括如下至少一项：截图被所述机器学习模块进行图像识别的所述网页本身；所述网页所在的网站网页或其部分；与所述网页具有相同或类似结构的相关网页；以及与所述网页被过滤的子资源具有相同或关联名称的子资源的相关网页。

该关联网页广告滤除步骤S510可以在网络访问服务器20中进行，也可以经由该网络访问服务器20而在各客户端实现。不同于图2所示的规则生成方案，仅在规则使用阶段，即步骤S510，涉及与终端用户(例如，图1的终端设备10)的交互。在终端用户经由中继服务器进行网络访问的情况下，例如，由浏览器提供的中继服务器，上述滤除步骤可以在服务器端，例如中继服务器进行，并直接向终端用户发送经滤过的网页内容。在另一种情况下，可以将与该请求网页相关联的过滤规则发送给终端用户，并在终端上实现最终的广告滤除，例如，浏览器内嵌的广告过滤插件使用下发的规则进行相关网页的广告过滤。

此外，本发明的广告过滤方案还可以由一种基于机器学习模型的广告过滤系统实现。图6示出了根据本发明一个实施例的广告过滤系统的结构示意图。其中，广告过滤系统600的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图6所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

图6所示的广告过滤系统600可以用来实现图2-5所示的广告过滤方法，下面仅就广告过滤系统600可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文结合图2-5的描述，这里不再赘述。

如图6所示，本发明的基于机器学习模型的广告过滤系统，根据其功能，可以包括规则生成部分(如图虚线框所示)与规则应用部分。在一个实施例中，规则生成部分可由图1所示的规则服务器15构成，而规则应用部分则可由网络访问服务器20构成。如图所示的广告过滤系统600可以包括收集模块610、机器学习模型模块620、过滤规则生成模块630和网页过滤模块640。

收集模块610用于收集网页的网页截图，并将收集到的所述网页截图输入机器学习模型。其中，收集模块可以收集网页的URL并对生成的网页进行截图。

机器学习模型模块620基于机器学习模型针对所述网页截图进行是否包含广告的图像识别。其中，机器学习模型例如可以是深度卷积神经网络。机器学习模型可以通过将海量分类为包含广告的网页截图和不包含广告的网页截图作为正负样本输入进行训练而具备所述图像识别的能力。

过滤规则生成模块630用于根据所述图像识别的结果生成广告过滤规则。

网页过滤模块640用于将所述广告过滤规则应用于关联网页以过滤广告。其中，应用所述广告过滤规则的关联网页可以包括如下至少一项：截图被所述机器学习模块进行图像识别的所述网页本身；所述网页所在的网站网页或其部分；与所述网页具有相同或类似结构的相关网页；以及与所述网页被过滤的子资源具有相同或关联名称的子资源的相关网页。

图7示出了根据本发明一个实施例的机器学习模型模块的结构示意图。如图7所示，机器学习模型模块620可以包括项目屏蔽单元621和广告项目判定单元623。其中，项目屏蔽单元621可以用于按照预定规则对包括广告的网页中的特定项目进行屏蔽并生成经项目屏蔽的网页截图。广告项目判定单元623可以用于在所述机器学习模型判断所述经项目屏蔽的网页截图是不包含广告的网页截图的情况下，判定所述特定项目是包含广告的项目，其中，所述包含广告的项目用于生成所述广告过滤规则。网页中进行屏蔽的所述特定项目是网页元素节点和/或网页子资源。

优选地，机器学习模型模块可以通过识别输入的网页截图的广告权重来进行是否包含广告的图像识别，所述广告权重可以是所述网页截图包含广告的概率。其中，项目屏蔽单元621可以按照预定规则对包括广告的网页中的多个特定项目进行遍历屏蔽并生成相应的经项目屏蔽的网页截图，并且，广告项目判定单元623可以在所述机器学习模型判断所述经项目屏蔽的网页截图的广告权重降低的情况下，判定相应的特定项目是包含广告的项目。

在一个优选实施例中，广告项目判定单元623可以在所述遍历屏蔽中的一次或多次屏蔽的网页截图的广告权重高于第一阈值的情况下，判断所述屏蔽对应的特定项目与多个JavaScript广告项目相对应；项目屏蔽单元621屏蔽在前JavaScript广告项目进行加载直到经特定项目屏蔽的网页截图的广告权重降低，其中，所述多个JavaScript广告项目用于生成所述广告过滤规则。

在一个优选实施例中，广告项目判定单元623可以在所述遍历屏蔽中的多次屏蔽的所述经项目屏蔽的网页截图的广告权重均低于第二阈值的情况下，判断所述网页或其所在网站存在样式变化，并且，所述过滤规则生成模块630可以基于所述机器学习模型或人工方法识别所述样式变化以生成所述广告过滤规则。

在一个优选实施例中，该系统还可以包括关联信息收集模块，或者是包括在收集模块中的关联信息收集单元，用于预先收集广告过滤关联信息，并且，所述过滤规则生成模块可以基于所述预先收集的广告过滤关联信息生成所述预定规则。所述预先收集的广告过滤关联信息包括如下至少一项：广告过滤插件的已有广告过滤规则；用户反馈的包括广告的网页URL和/或网页截图；以及用户主动触发广告过滤的相关信息。

另外，本发明还可以通过人工验证所述图像识别的结果是否出错；以及将错误信息返回所述机器学习模型用于训练改进。

至此，已经结合附图6详细描述了本发明的基于机器学习的广告过滤系统。通过机器学习，本发明的广告过滤方法能够过滤各种类型的广告。例如，针对弹出或悬浮广告，机器学习模型可以将整个弹出或悬浮页面识别为广告并由此生成相应规则加以滤除。对于网页内的内嵌广告、样式变化广告或是多个JavaScript项目叠加的广告，本发明的机器学习模型都能够通过相应的学习和分类加以识别并滤除。另外，由于可以通过人工验证将错误分类信息直接反馈给机器学习模型，因此本发明的广告滤除方案具有高度的可改进性、灵活性和时效性(例如，可以及时学习并识别新的广告源或广告投放类型)。再次，本发明的广告过滤服务在服务器端实现并对用户透明，从而避免了客户端安装广告过滤插件以及编辑和/或存储大量过滤规则的必要，由此大幅提升用户的浏览体验。

图8示出了根据本发明一实施例可用于实现上述广告过滤方法的数据处理的计算设备的结构示意图。

参见图8，计算设备800包括存储器810和处理器820。

处理器820可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器820可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器820可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器810可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器820或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器810可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器810可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器810上存储有可处理代码，当可处理代码被处理器820处理时，可以使处理器820执行上文述及的广告过滤方法。

上文中已经参考附图详细描述了根据本发明的基于机器学习模型的广告过滤方法和系统。

上述广告过滤方案可由浏览服务提供方使用，从而为其用户提供带广告滤除功能的浏览服务。在一个具体实现中，浏览服务提供方可以训练并维持本发明的机器学习模型，并将其学习得到的过滤规则存储在相应的数据库中。而在用户端，用户可以首先下载该浏览服务提供方提供的浏览器安装包并进行软件安装，随后通过浏览器进行网络浏览。通常为了提升访问效率，浏览服务提供方会将用户请求的网页经由中继服务器在发送给相应用户。由于参与了网页信息的获取过程，因此该浏览服务提供方可以在将上述网页送至用户之前就使用其数据库中存有的过滤规则进行公告过滤，或者可以将与该网页相关联的过滤规则发送至客户端，并由客户端浏览器内嵌的过滤插件使用上述过滤规则进行广告过滤。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于机器学习的广告过滤规则生成方法，包括：

收集网页的网页截图；

将收集到的所述网页截图输入机器学习模型；

所述机器学习模型针对所述网页截图进行是否包含广告的图像识别；以及

根据所述图像识别的结果生成广告过滤规则，

其中，通过对特定项目的屏蔽、针对屏蔽后网页的截图、以及所述机器学习模型针对屏蔽后网页截图是否包含广告的判断，找出包含广告的项目，所述包含广告的项目用于生成所述广告过滤规则，并且网页中进行屏蔽的所述特定项目是网页元素节点和/或网页子资源。

2.如权利要求1所述的方法，其中，所述收集网页的网页截图包括：

收集网页的URL并对生成的网页进行截图。

3.如权利要求1所述的方法，其中，所述机器学习模型通过将海量分类为包含广告的网页截图和不包含广告的网页截图作为正负样本输入进行训练而具备所述图像识别的能力。

4.如权利要求3所述的方法，其中，所述机器学习模型是深度卷积神经网络。

5.如权利要求3所述的方法，其中，所述机器学习模型针对所述网页截图进行是否包含广告的图像识别包括：

按照预定规则对包括广告的网页中的特定项目进行屏蔽并生成经项目屏蔽的网页截图；

在所述机器学习模型判断所述经项目屏蔽的网页截图是不包含广告的网页截图的情况下，判定所述特定项目是包含广告的项目。

6.如权利要求5所述的方法，其中，所述是否包含广告的图像识别是识别输入的网页截图的广告权重，所述广告权重是所述网页截图包含广告的概率，其中，

按照预定规则对包括广告的网页中的特定项目进行屏蔽并生成经项目屏蔽的网页截图包括：

按照预定规则对包括广告的网页中的多个特定项目进行遍历屏蔽并生成相应的经项目屏蔽的网页截图，并且，

在所述机器学习模型判断所述经项目屏蔽的网页截图是不包含广告的网页截图的情况下，判定所述特定项目是包含广告的项目包括：

在所述机器学习模型判断所述经项目屏蔽的网页截图的广告权重降低的情况下，判定相应的特定项目是包含广告的项目。

7.如权利要求6所述的方法，其中，所述机器学习模型针对所述网页截图进行图像识别包括：

在所述遍历屏蔽中的一次或多次屏蔽的网页截图的广告权重高于第一阈值的情况下，判断所述屏蔽对应的特定项目与多个JavaScript广告项目相对应；

屏蔽在前JavaScript广告项目进行加载直到经特定项目屏蔽的网页截图的广告权重降低，其中，所述多个JavaScript广告项目用于生成所述广告过滤规则。

8.如权利要求6所述的方法，其中，所述机器学习模型针对所述网页截图进行图像识别包括：

在所述遍历屏蔽中的多次屏蔽的所述经项目屏蔽的网页截图的广告权重均低于第二阈值的情况下，判断所述网页或其所在网站存在样式变化，并且

所述方法还包括：

基于所述机器学习模型或人工方法识别所述样式变化以生成所述广告过滤规则。

9.如权利要求5所述的方法，还包括：

预先收集广告过滤关联信息；

并且，用于对包括广告的网页中的特定项目进行屏蔽的预定规则至少部分基于所述预先收集的广告过滤关联信息生成。

10.如权利要求9所述的方法，其中，所述预先收集的广告过滤关联信息包括如下至少一项：

广告过滤插件的已有广告过滤规则；

用户反馈的包括广告的网页URL和/或网页截图；以及

用户主动触发广告过滤的相关信息。

11.如权利要求1所述的方法，还包括：

人工验证所述图像识别的结果是否出错；以及

将错误信息返回所述机器学习模型用于训练改进。

12.一种广告过滤方法，包括：

将如权利要求1-11中任一项所述广告过滤规则应用于关联网页以过滤广告。

13.如权利要求12所述的方法，其中，应用所述广告过滤规则的关联网页包括如下至少一项：

截图被所述机器学习模型进行图像识别的所述网页本身；

所述网页所在的网站网页或其部分；

与所述网页具有相同或类似结构的相关网页；以及

与所述网页被过滤的子资源具有相同或关联名称的子资源的相关网页。

14.一种基于机器学习的广告过滤系统，包括：

收集模块，用于收集网页的网页截图，并将收集到的所述网页截图输入机器学习模型；

机器学习模型模块，使用机器学习模型针对所述网页截图进行是否包含广告的图像识别；

过滤规则生成模块，用于根据所述图像识别的结果生成广告过滤规则；以及

网页过滤模块，用于将所述广告过滤规则应用于关联网页以过滤广告，

15.如权利要求14所述的系统，其中，所述收集模块收集网页的URL并对生成的网页进行截图。

16.如权利要求14所述的系统，其中，所述机器学习模型通过将海量分类为包含广告的网页截图和不包含广告的网页截图作为正负样本输入进行训练而具备所述图像识别的能力。

17.如权利要求16所述的系统，其中，所述机器学习模型模块包括：

项目屏蔽单元，用于按照预定规则对包括广告的网页中的特定项目进行屏蔽并生成经项目屏蔽的网页截图；以及

广告项目判定单元，用于在所述机器学习模型判断所述经项目屏蔽的网页截图是不包含广告的网页截图的情况下，判定所述特定项目是包含广告的项目，其中，所述包含广告的项目用于生成所述广告过滤规则。

18.如权利要求17所述的系统，其中，所述机器学习模型通过识别输入的网页截图的广告权重来进行是否包含广告的图像识别，所述广告权重是所述网页截图包含广告的概率，其中，

所述项目屏蔽单元按照预定规则对包括广告的网页中的多个特定项目进行遍历屏蔽并生成相应的经项目屏蔽的网页截图，并且，

所述广告项目判定单元在所述机器学习模型判断所述经项目屏蔽的网页截图的广告权重降低的情况下，判定相应的特定项目是包含广告的项目。

19.如权利要求18所述的系统，其中，所述广告项目判定单元在所述遍历屏蔽中的一次或多次屏蔽的网页截图的广告权重高于第一阈值的情况下，判断所述屏蔽对应的特定项目与多个JavaScript广告项目相对应；

所述项目屏蔽单元屏蔽在前JavaScript广告项目进行加载直到所述机器学习模型判定经特定项目屏蔽的网页截图的广告权重降低，其中，所述多个JavaScript广告项目用于生成所述广告过滤规则。

20.如权利要求18所述的系统，其中，所述广告项目判定单元在所述遍历屏蔽中的多次屏蔽的所述经项目屏蔽的网页截图的广告权重均低于第二阈值的情况下，判断所述网页或其所在网站存在样式变化，并且

所述过滤规则生成模块基于所述机器学习模型或人工方法识别所述样式变化以生成所述广告过滤规则。

21.如权利要求17所述的系统，其中，所述收集模块还包括：

关联信息收集单元，用于预先收集广告过滤关联信息；

并且，所述过滤规则生成模块至少部分基于所述预先收集的广告过滤关联信息生成所述预定规则。

22.如权利要求14所述的系统，其中，所述网页过滤模块将所述广告过滤规则应用于包括如下至少一项的关联网页：

截图被所述机器学习模型进行图像识别的所述网页本身；

所述网页所在的网站网页或其部分；

与所述网页具有相同或类似结构的相关网页；以及

23.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-13中任一项所述的方法。

24.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-13中任一项所述的方法。