CN107886344A - 基于卷积神经网络的欺诈广告页面识别方法和装置 - Google Patents

基于卷积神经网络的欺诈广告页面识别方法和装置 Download PDF

Info

Publication number
CN107886344A
CN107886344A CN201610875790.7A CN201610875790A CN107886344A CN 107886344 A CN107886344 A CN 107886344A CN 201610875790 A CN201610875790 A CN 201610875790A CN 107886344 A CN107886344 A CN 107886344A
Authority
CN
China
Prior art keywords
picture
neural networks
convolutional neural
page
layer
Prior art date
Application number
CN201610875790.7A
Other languages
English (en)
Inventor
黃獻德
Original Assignee
北京金山安全软件有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京金山安全软件有限公司 filed Critical 北京金山安全软件有限公司
Priority to CN201610875790.7A priority Critical patent/CN107886344A/zh
Publication of CN107886344A publication Critical patent/CN107886344A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/62Methods or arrangements for recognition using electronic means
    • G06K9/6217Design or setup of recognition systems and techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06K9/6256Obtaining sets of training patterns; Bootstrap methods, e.g. bagging, boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/62Methods or arrangements for recognition using electronic means
    • G06K9/6267Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06QDATA PROCESSING SYSTEMS OR METHODS, SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL, SUPERVISORY OR FORECASTING PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL, SUPERVISORY OR FORECASTING PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce, e.g. shopping or e-commerce
    • G06Q30/02Marketing, e.g. market research and analysis, surveying, promotions, advertising, buyer profiling, customer management or rewards; Price estimation or determination
    • G06Q30/0241Advertisement
    • G06Q30/0248Avoiding fraud

Abstract

本发明公开了一种基于卷积神经网络的欺诈广告页面识别方法、装置和服务器,其中方法包括:收集页面图片制作训练集,对所述训练集中的所有图片进行处理;构建卷积神经网络,使用所述训练集中的图片训练所述卷积神经网络;然后获取待检测页面的图片,对所述检测页面的图片进行处理后输入到训练好的所述卷积神经网络中进行检测。由此,不再需要耗费资源像过去针对网址提取特征码及不用再藉由人工来提取特征的图像识别,有效解决欺诈广告问题。

Description

基于卷积神经网络的欺诈广告页面识别方法和装置

技术领域

[0001] 本发明涉及计算器视觉领域的图片识别方法,其中特别涉及一种基于卷积类神经 网络的欺诈广告页面识别方法、装置和服务器。 ~

背景技术

[0002] 图像识别(Pattern recognition,或称模式识别)是一种透过计算机运算技术方 法达到图像的自动判读之技术。影像在计算机中以数组的形式储存与运算,如三原色光模 式(RGB),先将影像以不同色彩分层,以上述方法代表不同颜色后,再以相对位置分配颜色 的强度数值。常见的代表性技术如字符识别(〇CR;Optical Character Recognition),将文 字影像进行处理,抽取主要表达特征并将特征模型纪录,比对实际输入影像后,依逻辑与机 率转换成字符串形式,供系统进行后续处理,另外还有像是车牌辨识系统,将各种车辆的影 像做为系统输入,以特征匹配辨识车牌字符后,即可进行如计费、安全控管、疑车追踪等现 有相关应用。

[0003] 在如今信息变化快速的时代,人手一台智能型手机是非常普遍的情形,其中又以 Android手机较常见,当用户使用手机上网时经常被被告知中毒或者需要更新应用程序而 被迫糊里糊涂下载和安装了用户自己可能根本不需要的App,这就是所谓的欺诈广告 (Deceptive Advertising)(如图1所示),当用户正在浏览页面时使用恶劣手段欺骗用户, 使得用户认为自己的电脑正在被病毒入侵,而被诱导至下载页面“安装”某App,欺诈广告呈 现方式日新月异,会随着国家、时区、语言而有不同的样貌,防不胜防。

[0004]目前相关技术多数为直接搜集欲拦阻的目标网址并制作特征码(即黑白名单机 制)来进行传统钓鱼网站之广告网页的过滤,但欺诈广告与其最大的不同为会因所在地、时 差、浏览器语系等不同而弹现不同的广告内容,藉此吸引用户点击安装现实欲被推广的应 用。这种方法很明显的不适用于对抗欺诈广告的生命周期短等多变化之特性;另外尚有针 对网页内容源码制作特征码等作法,这更只适用于少数的应用场景如钓鱼网站等,欲对抗 变化快速的欺诈广告网页明显不足。

发明内容

[0005] 本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

[0006] 为此,本发明的第一个目的在于提出一种基于卷积神经网络的欺诈广告页面识别 方法,该方法主要是透过深度学习的卷积类神经网络技术,针对弹现欺诈广告的网页截取 图片开f成训练集,用其中小范围的影像进行逐层过滤,如图6所示,透过大量的样本训练集 来进行学习,使得卷积神经网络能够自动提取欺诈广告页面图片的特征,进而自动识别未 知页面中的欺诈广告。

[0007] 本发明的第二个目的在于提出一种基于卷积神经网络的欺诈广告页面识别装置。

[0008] 本发明的第三个目的在于提出一种服务器。

[0009] 为达上述目的,本发明第一方面实施例基于卷积神经网络的欺诈广告页面识别方 法,包括:

[0010] 收集页面图片制作训练集,所述训练集中至少包含欺诈广告页面图片和正常图 片;

[0011] 对所述训练集中的所有图片进行缩放获取预定大小的彩色图,计算所述图片的色 值,其中所述训练集中的每个图片带有标签信息,所述标签信息用于标记所述图片的类别;

[0012] 构建卷积神经网络,所述卷积类神经网络包括一个输入层、多个卷积层和多个池 化层、多个全连接层和一个输出层,使用所述训练集中的图片训练所述卷积神经网络,使得 所述卷积神经网络输出层特征值与所输入的每个图片的标签信息相同;其中所述输入层的 大小与所述训练集中图片的预定大小相同;

[0013] 获取待检测页面的图片,对所述检测页面的图片进行处理后输入到训练好的所述 卷积神经网络中,根据所述卷积神经网络的输出层特征值判断所述待检测页面中是否包含 欺诈广告。

[0014] 在第一方面的一种可能的实现形式中,收集页面图片制作训练集,包括:

[0015] 获取欺诈广告页面,通过虚拟专属主机模拟打开所述广告页面进行截图存储在所 述训练集中。

[0016] 在第一方面的另一种可能的实现形式中,该识别方法还包括:

[0017] 若根据所述卷积神经网络的输出层特征值,确定所述待检测页面图片中包含欺诈 广告,将所述检测结果进行保存。

[0018] 在第一方面的另一种可能的实现形式中,所述卷积神经网络具体包括一个输入 层、四个卷积层和四个池化层、两个全连接层和一个输出层,卷积层之前为输入层,每个卷 积层之后有一池化层,两个全连接层位于最后一个池化层和输出层之间。

[0019] 在第一方面的另一种可能的实现形式中,所述卷积神经网络的卷积层大小为在 10x10至255x255之间,池化层大小为在5x5至12如128之间。

[0020] 在第一方面的另一种可能的实现形式中,所述卷积神经网络的四个卷积层大小分 别为255x255,96x96,2¾¾,10x10,四个池化层大小分别为12办128,4故48,14x14,5x5。

[0021] 在第一方面的另一种可能的实现形式中,所述卷积神经网络的全连接层节点为在 10到100之间。

[0022] 在第一方面的另一种可能的实现形式中,所述卷积神经网络的输出层为softmax 分类器,所述输出层的结点个数与所述训练集中图片的标签类别数一致。

[0023] 本发明第二方面实施例的基于卷积神经网络的欺诈广告页面识别装置,包括:训 练模块,卷积神经网络模型和接口模块,其中,

[0024] 所述训练模块,用于收集页面图片制作训练集,所述训练集中至少包含欺诈广告 页面图片和正常图片;其中,对所述训练集中的所有图片进行缩放获取预定大小的彩色图, 计算所述图片的色值,其中所述训练集中的每个图片带有标签信息,所述标签信息用于标 记所述图片的类别•,

[0025]所述卷积祌经网络模型,用于构建卷积神经网络,所述卷积类神经网络包括一个 输入层、多个卷积层和多个池化层、多个全连接层和一个输出层,使用所述训练集中的图片 训练所述卷积神经网络,使得所述卷积神经网络输出层特征值与所输入的每个图片的标签 信息相同;其中所述输入层的大小与所述训练集中图片的预定大小相同;

[0026] 接口模块,用于获取待检测页面的图片,对所述检测页面的图片进行处理后输入 到训练好的所述卷积神经网络中,根据所述卷积神经网络的输出层特征值判断所述待检测 页面中是否包含欺诈广告。

[0027] 在第二方面的一种可能的实现形式中,所述训练模块还包括:

[0028] 欺诈图片子模块,用于获取欺诈广告页面,通过虚拟专属主机模拟打开所述广告 页面进行截图存储在所述训练集中。

[0029] 在第二方面的另一种可能的实现形式中,所述装置还包括:

[0030] 存储模块,用于若根据所述卷积神经网络的输出层特征值,确定所述待检测页面 图片中包含欺诈广告时,将所述检测结果进行保存。

[0031] 在第二方面的另一种可能的实现形式中,所述装置还包括:

[0032] 存储模块,用于若根据所述卷积神经网络的输出层特征值,确定所述待检测页面 图片中包含欺诈广告时,将所述检测结果进行保存。

[0033] 在第二方面的另一种可能的实现形式中,所述卷积神经网络具体包括一个输入 层、四个卷积层和四个池化层、两个全连接层和一个输出层,卷积层之前为输入层,每个卷 积层之后有一池化层,两个全连接层位于最后一个池化层和输出层之间。

[0034] 在第二方面的另一种可能的实现形式中,所述卷积神经网络的卷积层大小为在 10x10至255x255之间,池化层大小为在5x5至128x128之间。

[0035] 在第二方面的另一种可能的实现形式中,所述卷积神经网络的四个卷积层大小分 别为 2551255,96196,28\28,1(^10,四个池化层大小分别为12办128,48\48,14义14,5叉5。

[0036] 在第二方面的另一种可能的实现形式中,所述卷积神经网络的全连接层节点为在 10到100之间。

[0037] 在第二方面的另一种可能的实现形式中,所述卷积神经网络的输出层为softmax 分类器,所述输出层的结点个数与所述训练集中图片的标签类别数一致。

[0038] 本发明第三方面实施例的服务器,包括:包括:存储器,处理器和通信接口,所述存 储器用于存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码 来运行与可执行程序代码对应的程序,用于执行前述任一基于卷积神经网络的欺诈广告识 别方法。

[0039] 本发明实施例基于卷积神经网络的欺诈广告页面识别方法、装置和服务器,基于 使用者实际见到的欺诈广告页面搜集页面图片,和正常图片一起制作成训练集,对训练集 中的图片进行处理后输入到构建的卷积神经网络中,借由卷积类神经网络算法,进行反复 的模型训练,当卷积神经网络能够正确识别训练集中所有的欺诈广告时,卷积神经网络就 可用于识别未知页面图片中是否包含欺诈广告,这样可完全简化传统特征码或图像识别等 所需耗费的大量人力,对抗因时区及语系等设定而快速产生不同欺诈内容广告特别有效。 如果将训练好的卷积神经网络模型部署在云端主机中还可以提供查询接口供用户判断遇 到的未知页面中是否包含欺诈广告。

[0040] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。

附图说明

[0041] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得 明显和容易理解,其中:

[0042] 图1是本发明涉及的欺诈广告页面范例图;

[0043] 图2是本发明一个实施例基于卷积神经网络的欺诈广告页面识别方法的流程图;

[0044] 图3是本发明一个实施例基于卷积神经网络的欺诈广告页面识别装置结构示意 图;

[0045] 图4是本发明一个实施例基于卷积神经网络的欺诈广告页面识别系统不意图。

[0046] 图5是根据本发明服务器一个实施例的结构示意图;

[0047] 图6是本发明构建的卷积类神经网络示意图。

具体实施方式

[0048] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

[0049] 卷积神经网络(Convolutional Neural Network,CNN)是类神经网络的一种,可以 区分为输入层(表示输入变量),输出层(表示要预测的变量),而中间的卷积层是用来增加 神经元的复杂度,以便让它能够仿真更复杂的函数转换结构。

[0050] 卷积神经网络利用空间关系进行权值共享,减少需要学习的参数数目,在卷积神 经网络中对图片影像进行处理后只用一小部分作为层级结构的最底层输入,然后信息再依 次传输到不同的层,每层通过一个小的卷积核去获得观测数据的最显着的特征,由于参数 大大减少降低了计算量有助于快速获取结果,深度学习就是大量的训练样本配合计算能力 再加上自由灵活的神经网络结构设计来快速获取有效的图像识别特征。

[0051] 下面参考附图描述本发明实施例的基于卷积神经网络的欺诈广告页面识别方法、 装置和服务器。

[0052]图2是根据本发明一个实施例基于卷积神经网络的欺诈广告页面识别方法的流程 图,如图2所示,所述方法包括以下步骤:

[0053] S100、收集页面图片制作训练集;

[0054] 其中,所述训练集中至少包含欺诈广告页面图片和正常图片。每个图片带有标签 信息,所述标签信息用于标记所述图片的类别,比如0表示所述图片为欺诈广告,1表示所述 图片为正常图片。

[0055] S102、对所述训练集中的所有图片进行缩放获取预定大小的彩色图,计算所述训 练集中每个图片的色值。

[0056] 这样经过上述处理得到的训练集中预定大小的图片就可以作为后续卷积神经网 络的输入,训练所述卷积神经网络自动学习欺诈广告的图片特征。

[0057] 在可选的实施例中,可以通过收集用户设备中产生的欺诈广告页面,当用户在自 己的终端设备中浏览网页时举报和上传欺诈广告页面,比如页面网址。

[0058] 在可选的实施例中,对于用户上报的欺诈广告页面,可以通过虚拟专属主机模拟 打开网址还原页面,以便进行截图获取欺诈广告页面图片。当得到一定数量的欺诈广告页 面图片之后制作训练集,对于卷积神经网络来说,训练集中的样本数量越多,得到的输出层 特征值就更为准确,为了兼顾效率本发明一实施例中选用lOw张欺诈广告页面图片和10W张 正常图片作为训练集。

[0059]制作训练集时,对训练集中的图片进行缩放得到预定大小的彩色图,计算所述训 练集中每个图片的色值,对训练集中的图片进行缩放并不影响图片本身所包含的图像特 征,因此可以根据卷积神经网络在训练时的输出表现调整图片缩放的预定大小。

[0060] 在本发明一实施例中,所述图片缩放的预定大小为l〇〇xl〇〇到300x300之间,优选 为299x299。

[0061] S104、构建卷积神经网络,所述卷积类神经网络包括一个输入层、多个卷积层和多 个池化层、多个全连接层和一个输出层,使用所述训练集中的图片,结合梯度下降算法训练 所述卷积神经网络,使得所述卷积神经网络输出层特征值与所输入的每个图片的标签信息 相同;其中,所述输入层的大小与所述训练集中图片的预定大小相同。

[0062] 在可选实施例的中,所述卷积神经网络具体包括一个输入层、四个卷积层和四个 池化层、两个全连接层和一个输出层,卷积层之前为输入层,每个卷积层之后有一池化层, 两个全连接层位于最后一个池化层和输出层之间。

[0063] 在可选的实施例中,所述卷积神经网络的卷积层大小为在10x10至255x255之间, 池化层大小为在5x5至128x128之间,全连接层节点在10到100之间。

[0064]其中,上述卷积层的激活函数为Relu,最后一层输出层的激活函数为softmax。 [0065] 在一优选的实施例中,卷积神经网络的输入层大小为299x299,四个卷积层大小分 别为255x255,96x96,28x28,10x10,四个池化层大小分别为 128x128,48x48,14x14,5x5。其 中,各个卷积层的激活函数都使用Relu。第一个全连接层的大小为1〇〇,第二个全连接层的 大小为10。最后一层输出层为softmax分类器,输出层的结点个数与所述训练集中图片的标 记类别数一致。

[0066] 在本发明一个实施例中,训练集中包含欺诈广告(标签信息为〇)、正常图片(标签 信息为1)两类,因此输出层结点个数为2,此时softmax分类器的输出值有两个。把训练集中 的图片值输入到卷积神经网络中之后,经过反复训练,直到卷积神经网络能够正确识别出 训练集中的欺诈图片和正常图片,使得卷积神经网络输出层特征值与训练集中所输入的每 个图片的标签信息相同,当输入的是欺诈广告时得到的输出值是0,如果输入的是正常图片 输出层得到的输出值是1,此时卷积神经网络经过学习到欺诈广告的特征值,可以用于识别 其他未知图片是否包含欺诈广告。

[0067]可选的,可以选取与上述训练集中的图片不完全相同的欺诈图片和正常图片组成 测试集,输入到上述卷积神经网络中,使上述卷积神经网络输出层特征值与测试集中每个 图片的标签信息相同,对卷积神经网络进行测试的同时亦可以对其各项参数进行调整。 [0068] 需要指出的是,作为可选实施例,训练集中还可以包括其他类别的图片,比如还可 以包含1 〇w张色情图片,可设置色情图片的标签信息为2,此时使用包含三类图片的训练集 对上述卷积神经网络进行训练时,输出层的结点个数为3,输出层softmax分类器的输出值 有三个,分别表征输入的图片是正常图片、欺诈广告还是色情图片。此时,经过反复训练的 卷积神经网络能够正确识别训练集中的图片是正常图片、欺诈广告还是色情图片,卷积神 经网络的输出值为0时表示输入图片是欺诈广告,输出值为1时表示输入图片是正常图片, 输出值是2时表示输入图片是色情图片。

[0069] 需要说明的是,上述数值仅用于示例性说明本发明技术,并不用于限定卷积神经 网络的各项参数。

[0070] S106、获取待检测页面的图片,对所述检测页面的图片进行处理后输入到训练好 的卷积神经网络中,根据所述卷积神经网络的输出层得到的特征值判断所述待检测页面中 是否包含欺诈广告。

[0071] 在可选实施例中,上述训练好的卷积神经网络可以部署在云端服务器中,通过开 放查询接口的方法帮助用户判断实际页面中是否包含欺诈广告。

[0072] 当接收到用户回传的待检测页面的图片时,对待检测页面的图片进行缩放获取预 定大小的彩色图,将预定大小的待检测页面图片的图片色值输入到上述训练好的卷积神经 网络中,根据所述卷积神经网络的输出层特征值判断所述待检测页面中是否包含欺诈广 告。举例来说,根据上述内容当输出层特征值为〇时判断待检测图片包含欺诈广告。

[0073] 在实际中,用户可以通过回传页面网址信息或者页面图片内容到云端服务器进行 判定,如果用户回传了网址信息则云端服务器可以打开页面网址截取待检测图片,或者直 接将用户回传的页面图片作为待检测图片,把待检测图片进行处理之后输入到上述训练好 的卷积神经网络中,根据输出层得到的特征值判断所述待检测页面中是否包含欺诈广告, 并将判定结果反馈给用户。

[0074] 在可选的实施例中,如果上述训练好的卷积神经网络能够确定待检测页面中包含 欺诈广告,将该检测结果进行保存,举例来说,可以将该待检测页面存储的图片保存在云端 服务器的欺诈广告图片集中,这样有助于形成更大的训练样本集,不断训练优化卷积神经 网络,使得卷积神经网络的判断更为准确;还可以将该页面的网址存储在云端欺诈广告页 面黑名单库中,用于根据页面地址直接检测用户遇到的欺诈广告页面。

[0075] 欺诈广告变化快速且生命周期短,使用卷积神经网络能够有效自动识别欺诈广 告,不再需要针对网址提取特征码或由人工来提取图像特征,大量缩减人工所需耗费的资 源。

[0076] 本发明还提出了一种基于卷积神经网络的欺诈广告页面识别装置,图3是根据本 发明一个实施例的欺诈广告页面识别装置的结构示意图,如图3所示,该装置包括:

[0077] 训练模块10,用于收集页面图片制作训练集,所述训练集中至少包含欺诈广告页 面图片和正常图片;其中,对所述训练集中的所有图片进行缩放获取预定大小的彩色图,计 算所述图片的色值,其中所述训练集中的每个图片带有标签信息,所述标签信息用于标记 所述图片的类别;

[0078] 在可选的实施例中,所述训练模块还包括:欺诈图片子模块,用于获取欺诈广告页 面,通过虚拟专属主机模拟打开所述广告页面进行截图存储在所述训练集中。

[0079] 卷积神经网络模型20,用于构建卷积神经网络,所述卷积类神经网络包括一个输 入层、多个卷积层和多个池化层、多个全连接层和一个输出层,使用所述训练集中的图片训 练所述卷积神经网络,使得所述卷积神经网络输出层特征值与所输入的每个图片的标签信 息相同;其中所述输入层的大小与所述训练集中图片的预定大小相同;

[0080] 接口模块30,用于获取待检测页面的图片,对所述检测页面的图片进行处理后输 入到训练好的所述卷积神经网络中,根据所述卷积神经网络的输出层特征值判断所述待检 测页面中是否包含欺诈广告。

[0081] 在可选的实施例中,上述装置还包括:存储模块,用于若根据所述卷积神经网络的 输出层特征值,确定所述待检测页面图片中包含欺诈广告时,将所述检测结果进行保存。

[0082] 需要说明的是,前述对基于卷积神经网络的欺诈广告页面识别方法实施例的说 明,也适用于对本发明基于卷积神经网络的欺诈广告页面识别装置实施例的说明,本发明 基于卷积神经网络的欺诈广告页面识别装置实施例中未披露的细节,在此不再赘述。

[0083]图4给出本发明实施例欺诈广告识别系统示意图,如图4所示,收集用户设备中产 生的欺诈广告页面,当用户在自己的终端设备中浏览网页时举报和上传欺诈广告页面,比 如页面网址。

[0084] 对于用户在终端设备中上报的欺诈广告页面网址,可以通过虚拟专属主机(VPS, Virtual Private Server)模拟打开网址还原页面,以便进行截图获取欺诈广告页面图片。 得到一定数量的欺诈广告页面图片之后可以制作训练集,对于卷积神经网络来说,训练集 中的样本数量越多,得到的输出层特征值就更为准确。

[0085] 收集欺诈广告页面图片制作训练集之后,在进入卷积神经网络进行训练之前,对 所述训练集中的所有图片进行缩放获取预定大小的彩色图,计算所述图片的色值,其中所 述训练集中的每个图片带有标签信息,所述标签信息用于标记所述图片中是否包含欺诈广 告;

[0086] 构建卷积神经网络,该卷积类神经网络包括一个输入层、多个卷积层和多个池化 层、多个全连接层和一个输出层,使用训练集中处理好的图片,结合梯度下降算法训练所述 卷积神经网络,达到所述卷积神经网络输出层特征值与所输入的每个图片的标签信息相 同;其中,所述输入层的大小与所述训练集中图片的预定大小相同。

[0087] 在卷积网络神经训练好之后,将卷积神经网络模型部署在云端服务器中,用于检 测用户设备中产生的未知广告页面。

[0088]用户设备中发现未知广告页面之后,会将相关信息回传到云端服务器进行鉴定。 [0089]当收到用户设备中的待检测页面时,如果不能够根据欺诈广告页面地址黑名单查 询到结果,可以获取待检测页面的图片进行处理后输入到训练好的所述卷积神经网络中, 根据所述卷积神经网络的输出层得到的特征值判断所述待检测页面中是否包含欺诈广告。 [0090] 本发明基于卷积神经网络的欺诈广告识别系统,能给及时检测用户设备端遇到的 页面中是否包含欺诈广告,对抗欺诈广告变化快速且生命周期短的特性非常有效,大大节 省了人工成本和时间成本。

[0091]图5所示的是本发明实施例提供的服务器结构示意图,采用通用计算机系统结构, 执行本发明方案的程序代码保存在存储器中,并由处理器来控制执行。服务器包括:处理器 501,存储器502,通信接口 503。

[0092] 处理器501可以是一个通用中央处理器(CPU),图形处理器(GPU),微处理器,特定 应用集成电路applicatln-specific integrated circuit (ASIC),或一个或多个用于控制 本发明方案程序执行的集成电路。

[0093]计算机系统中包括的一个或多个存储器㈤2,可以是一种非易失性的计算机可读 存储介质,例如只读存储器read-only memory (ROM)或可存储静态信息和指令的其他类型 的静态存储设备,也可以是磁盘存储器。这些存储器可通过总线与处理器相连接。存储器, 保存有执行本发明方案的程序代码,例如执行图2所示实施例的方法的程序。执行本发明方 案的程序代码保存在存储器中,并由处理器来控制执行。

[0094] 通信接口 503,可以使用任何收发器一类的装置,以便与其他设备或通信网络通 信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。

[0095] 需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之 间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。 尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,各模块 具体功能的执行过程参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示 意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显 示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个 网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目 的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

[0096] 在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确 具体的限定。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体 示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者 特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述 不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在 任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的 技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行 结合和组合。

[0097]尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例 性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述 实施例进行变化、修改、替换和变型。

Claims (10)

1. 一种基于卷积神经网络的欺诈广告页面识别方法,其特征在于,包括以下步骤: 收集页面图片制作训练集,所述训练集中至少包含欺诈广告页面图片和正常图片; 对所述训练集中的所有图片进行缩放获取预定大小的彩色图,计算所述图片的色值, 其中所述训练集中的每个图片带有标签信息,所述标签信息用于标记所述图片的类别; 构建卷积神经网络,所述卷积类神经网络包括一个输入层、多个卷积层和多个池化层、 多个全连接层和一个输出层,使用所述训练集中的图片训练所述卷积神经网络,使得所述 卷积神经网络输出层特征值与所输入的每个图片的标签信息相同;其中所述输入层的大小 与所述训练集中图片的预定大小相同; 获取待检测页面的图片,对所述检测页面的图片进行处理后输入到训练好的所述卷积 神经网络中,根据所述卷积神经网络的输出层特征值判断所述待检测页面中是否包含欺诈 广告。
2. 如权利要求1所述的方法,其特征在于,所述收集页面图片制作训练集,包括: 获取欺诈广告页面,通过虚拟专属主机模拟打开所述广告页面进行截图存储在所述训 练集中。
3. 如权利要求1所述的方法,其特征在于,所述方法还包括: 若根据所述卷积神经网络的输出层特征值,确定所述待检测页面图片中包含欺诈广 告,则将所述检测结果进行保存。
4. 如权利要求1所述的方法,其特征在于,所述卷积神经网络具体包括一个输入层、四 个卷积层和四个池化层、两个全连接层和一个输出层,卷积层之前为输入层,每个卷积层之 后有一池化层,两个全连接层位于最后一个池化层和输出层之间。
5. 如权利要求4所述的方法,其特征在于,所述卷积神经网络的卷积层大小为在10x10 至255x255之间,池化层大小为在5x5至128x128之间。
6. 如权利要求4所述的方法,其特征在于,所述卷积神经网络的四个卷积层大小分别为 255x255,96x96,28x28,10x10,四个池化层大小分别为 128x128,48x48,14x14,5x5。
7. 如权利要求4所述的方法,其特征在于,所述卷积神经网络的全连接层节点为在10到 100之间。
8. 如权利要求4所述的方法,其特征在于,所述卷积神经网络的输出层为sof tmax分类 器,所述输出层的结点个数与所述训练集中图片的标签类别数一致。
9. 一种基于卷积神经网络的欺诈广告页面识别装置,其特征在于,包括: 训练模块,用于收集页面图片制作训练集,所述训练集中至少包含欺诈广告页面图片 和正常图片;其中,对所述训练集中的所有图片进行缩放获取预定大小的彩色图,计算所述 图片的色值,其中所述训练集中的每个图片带有标签信息,所述标签信息用于标记所述图 片的类别; 卷积神经网络模型,用于构建卷积神经网络,所述卷积类神经网络包括一个输入层、多 个卷积层和多个池化层、多个全连接层和一个输出层,使用所述训练集中的图片训练所述 卷积神经网络,使得所述卷积神经网络输出层特征值与所输入的每个图片的标签信息相 同;其中所述输入层的大小与所述训练集中图片的预定大小相同; 接口模块,用于获取待检测页面的图片,对所述检测页面的图片进行处理后输入到训 练好的所述卷积神经网络中,根据戶斤$卷积神会各自勺辅1 $胃特征彳直判断所$待检测页面 中是否包含欺诈广告。
10.—种服务器,其特征在于,包括:存储器,处理器和通信接口,所述存储器巧于存储 可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与可执 行程序代码对应的程序,用于执行前述任一权利要求卜8所述的基于卷积祌经网络的欺诈 广告识别方法。
CN201610875790.7A 2016-09-30 2016-09-30 基于卷积神经网络的欺诈广告页面识别方法和装置 CN107886344A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610875790.7A CN107886344A (zh) 2016-09-30 2016-09-30 基于卷积神经网络的欺诈广告页面识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610875790.7A CN107886344A (zh) 2016-09-30 2016-09-30 基于卷积神经网络的欺诈广告页面识别方法和装置

Publications (1)

Publication Number Publication Date
CN107886344A true CN107886344A (zh) 2018-04-06

Family

ID=61769791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610875790.7A CN107886344A (zh) 2016-09-30 2016-09-30 基于卷积神经网络的欺诈广告页面识别方法和装置

Country Status (1)

Country Link
CN (1) CN107886344A (zh)

Similar Documents

Publication Publication Date Title
Treisman Features and objects in visual processing
Hofmann et al. Detecting informal settlements from QuickBird data in Rio de Janeiro using an object based approach
Gosselin et al. Revisiting the fisher vector for fine-grained classification
Xiao et al. Sun database: Large-scale scene recognition from abbey to zoo
Wang et al. What your images reveal: Exploiting visual contents for point-of-interest recommendation
JP2009534776A (ja) コンテキスト画像入り広告の生成
CN105005774B (zh) 一种基于卷积神经网络的人脸亲属关系识别方法及装置
Solberg et al. A large-scale evaluation of features for automatic detection of oil spills in ERS SAR images
Kamal et al. Object-based approach for multi-scale mangrove composition mapping using multi-resolution image datasets
Förster et al. Approaches to utilising QuickBird data for the monitoring of NATURA 2000 habitats
Albert et al. Using convolutional networks and satellite imagery to identify patterns in urban environments at a large scale
CN105139028B (zh) 基于分层稀疏滤波卷积神经网络的sar图像分类方法
CN104166841B (zh) 一种视频监控网络中指定行人或车辆的快速检测识别方法
CN104700099B (zh) 识别交通标志的方法和装置
Yang et al. An automated method to parameterize segmentation scale by enhancing intrasegment homogeneity and intersegment heterogeneity
Seress et al. Quantifying the urban gradient: a practical method for broad measurements
CN104778453B (zh) 一种基于红外行人亮度统计特征的夜间行人检测方法
Zhao et al. ApLeaf: An efficient android-based plant leaf identification system
CN104346370B (zh) 图像搜索、获取图像文本信息的方法及装置
WO2017020528A1 (zh) 车道线的识别建模方法、装置、存储介质和设备及识别方法、装置、存储介质和设备
CN106462574B (zh) 用于来自图像的文本的机器语言翻译的方法和服务器
CN104881865B (zh) 基于无人机图像分析的森林病虫害监测预警方法及其系统
CN105718869B (zh) 一种评估图片中人脸颜值的方法和装置
KR101877693B1 (ko) 문자성 객관식 문제에 이용되는 지능적 채점 방법 및 시스템
CN104392228B (zh) 基于条件随机场模型的无人机图像目标类检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination