CN107886344A - 基于卷积神经网络的欺诈广告页面识别方法和装置 - Google Patents

基于卷积神经网络的欺诈广告页面识别方法和装置 Download PDF

Info

Publication number
CN107886344A
CN107886344A CN201610875790.7A CN201610875790A CN107886344A CN 107886344 A CN107886344 A CN 107886344A CN 201610875790 A CN201610875790 A CN 201610875790A CN 107886344 A CN107886344 A CN 107886344A
Authority
CN
China
Prior art keywords
picture
convolutional neural
neural networks
page
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201610875790.7A
Other languages
English (en)
Inventor
黃獻德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201610875790.7A priority Critical patent/CN107886344A/zh
Publication of CN107886344A publication Critical patent/CN107886344A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0248Avoiding fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于卷积神经网络的欺诈广告页面识别方法、装置和服务器,其中方法包括:收集页面图片制作训练集,对所述训练集中的所有图片进行处理;构建卷积神经网络,使用所述训练集中的图片训练所述卷积神经网络;然后获取待检测页面的图片,对所述检测页面的图片进行处理后输入到训练好的所述卷积神经网络中进行检测。由此,不再需要耗费资源像过去针对网址提取特征码及不用再藉由人工来提取特征的图像识别,有效解决欺诈广告问题。

Description

基于卷积神经网络的欺诈广告页面识别方法和装置
技术领域
本发明涉及计算器视觉领域的图片识别方法,其中特别涉及一种基于卷积类神经网络的欺诈广告页面识别方法、装置和服务器。
背景技术
图像识别(Pattern recognition,或称模式识别)是一种透过计算机运算技术方法达到图像的自动判读之技术。影像在计算机中以数组的形式储存与运算,如三原色光模式(RGB),先将影像以不同色彩分层,以上述方法代表不同颜色后,再以相对位置分配颜色的强度数值。常见的代表性技术如字符识别(OCR;Optical Character Recognition),将文字影像进行处理,抽取主要表达特征并将特征模型纪录,比对实际输入影像后,依逻辑与机率转换成字符串形式,供系统进行后续处理,另外还有像是车牌辨识系统,将各种车辆的影像做为系统输入,以特征匹配辨识车牌字符后,即可进行如计费、安全控管、疑车追踪等现有相关应用。
在如今信息变化快速的时代,人手一台智能型手机是非常普遍的情形,其中又以Android手机较常见,当用户使用手机上网时经常被被告知中毒或者需要更新应用程序而被迫糊里糊涂下载和安装了用户自己可能根本不需要的App,这就是所谓的欺诈广告(Deceptive Advertising)(如图1所示),当用户正在浏览页面时使用恶劣手段欺骗用户,使得用户认为自己的电脑正在被病毒入侵,而被诱导至下载页面“安装”某App,欺诈广告呈现方式日新月异,会随着国家、时区、语言而有不同的样貌,防不胜防。
目前相关技术多数为直接搜集欲拦阻的目标网址并制作特征码(即黑白名单机制)来进行传统钓鱼网站之广告网页的过滤,但欺诈广告与其最大的不同为会因所在地、时差、浏览器语系等不同而弹现不同的广告内容,藉此吸引用户点击安装现实欲被推广的应用。这种方法很明显的不适用于对抗欺诈广告的生命周期短等多变化之特性;另外尚有针对网页内容源码制作特征码等作法,这更只适用于少数的应用场景如钓鱼网站等,欲对抗变化快速的欺诈广告网页明显不足。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种基于卷积神经网络的欺诈广告页面识别方法,该方法主要是透过深度学习的卷积类神经网络技术,针对弹现欺诈广告的网页截取图片形成训练集,用其中小范围的影像进行逐层过滤,如图6所示,透过大量的样本训练集来进行学习,使得卷积神经网络能够自动提取欺诈广告页面图片的特征,进而自动识别未知页面中的欺诈广告。
本发明的第二个目的在于提出一种基于卷积神经网络的欺诈广告页面识别装置。
本发明的第三个目的在于提出一种服务器。
为达上述目的,本发明第一方面实施例基于卷积神经网络的欺诈广告页面识别方法,包括:
收集页面图片制作训练集,所述训练集中至少包含欺诈广告页面图片和正常图片;
对所述训练集中的所有图片进行缩放获取预定大小的彩色图,计算所述图片的色值,其中所述训练集中的每个图片带有标签信息,所述标签信息用于标记所述图片的类别;
构建卷积神经网络,所述卷积类神经网络包括一个输入层、多个卷积层和多个池化层、多个全连接层和一个输出层,使用所述训练集中的图片训练所述卷积神经网络,使得所述卷积神经网络输出层特征值与所输入的每个图片的标签信息相同;其中所述输入层的大小与所述训练集中图片的预定大小相同;
获取待检测页面的图片,对所述检测页面的图片进行处理后输入到训练好的所述卷积神经网络中,根据所述卷积神经网络的输出层特征值判断所述待检测页面中是否包含欺诈广告。
在第一方面的一种可能的实现形式中,收集页面图片制作训练集,包括:
获取欺诈广告页面,通过虚拟专属主机模拟打开所述广告页面进行截图存储在所述训练集中。
在第一方面的另一种可能的实现形式中,该识别方法还包括:
若根据所述卷积神经网络的输出层特征值,确定所述待检测页面图片中包含欺诈广告,将所述检测结果进行保存。
在第一方面的另一种可能的实现形式中,所述卷积神经网络具体包括一个输入层、四个卷积层和四个池化层、两个全连接层和一个输出层,卷积层之前为输入层,每个卷积层之后有一池化层,两个全连接层位于最后一个池化层和输出层之间。
在第一方面的另一种可能的实现形式中,所述卷积神经网络的卷积层大小为在10x10至255x255之间,池化层大小为在5x5至128x128之间。
在第一方面的另一种可能的实现形式中,所述卷积神经网络的四个卷积层大小分别为255x255,96x96,28x28,10x10,四个池化层大小分别为128x128,48x48,14x14,5x5。
在第一方面的另一种可能的实现形式中,所述卷积神经网络的全连接层节点为在10到100之间。
在第一方面的另一种可能的实现形式中,所述卷积神经网络的输出层为softmax分类器,所述输出层的结点个数与所述训练集中图片的标签类别数一致。
本发明第二方面实施例的基于卷积神经网络的欺诈广告页面识别装置,包括:训练模块,卷积神经网络模型和接口模块,其中,
所述训练模块,用于收集页面图片制作训练集,所述训练集中至少包含欺诈广告页面图片和正常图片;其中,对所述训练集中的所有图片进行缩放获取预定大小的彩色图,计算所述图片的色值,其中所述训练集中的每个图片带有标签信息,所述标签信息用于标记所述图片的类别;
所述卷积神经网络模型,用于构建卷积神经网络,所述卷积类神经网络包括一个输入层、多个卷积层和多个池化层、多个全连接层和一个输出层,使用所述训练集中的图片训练所述卷积神经网络,使得所述卷积神经网络输出层特征值与所输入的每个图片的标签信息相同;其中所述输入层的大小与所述训练集中图片的预定大小相同;
接口模块,用于获取待检测页面的图片,对所述检测页面的图片进行处理后输入到训练好的所述卷积神经网络中,根据所述卷积神经网络的输出层特征值判断所述待检测页面中是否包含欺诈广告。
在第二方面的一种可能的实现形式中,所述训练模块还包括:
欺诈图片子模块,用于获取欺诈广告页面,通过虚拟专属主机模拟打开所述广告页面进行截图存储在所述训练集中。
在第二方面的另一种可能的实现形式中,所述装置还包括:
存储模块,用于若根据所述卷积神经网络的输出层特征值,确定所述待检测页面图片中包含欺诈广告时,将所述检测结果进行保存。
在第二方面的另一种可能的实现形式中,所述装置还包括:
存储模块,用于若根据所述卷积神经网络的输出层特征值,确定所述待检测页面图片中包含欺诈广告时,将所述检测结果进行保存。
在第二方面的另一种可能的实现形式中,所述卷积神经网络具体包括一个输入层、四个卷积层和四个池化层、两个全连接层和一个输出层,卷积层之前为输入层,每个卷积层之后有一池化层,两个全连接层位于最后一个池化层和输出层之间。
在第二方面的另一种可能的实现形式中,所述卷积神经网络的卷积层大小为在10x10至255x255之间,池化层大小为在5x5至128x128之间。
在第二方面的另一种可能的实现形式中,所述卷积神经网络的四个卷积层大小分别为255x255,96x96,28x28,10x10,四个池化层大小分别为128x128,48x48,14x14,5x5。
在第二方面的另一种可能的实现形式中,所述卷积神经网络的全连接层节点为在10到100之间。
在第二方面的另一种可能的实现形式中,所述卷积神经网络的输出层为softmax分类器,所述输出层的结点个数与所述训练集中图片的标签类别数一致。
本发明第三方面实施例的服务器,包括:包括:存储器,处理器和通信接口,所述存储器用于存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一基于卷积神经网络的欺诈广告识别方法。
本发明实施例基于卷积神经网络的欺诈广告页面识别方法、装置和服务器,基于使用者实际见到的欺诈广告页面搜集页面图片,和正常图片一起制作成训练集,对训练集中的图片进行处理后输入到构建的卷积神经网络中,借由卷积类神经网络算法,进行反复的模型训练,当卷积神经网络能够正确识别训练集中所有的欺诈广告时,卷积神经网络就可用于识别未知页面图片中是否包含欺诈广告,这样可完全简化传统特征码或图像识别等所需耗费的大量人力,对抗因时区及语系等设定而快速产生不同欺诈内容广告特别有效。如果将训练好的卷积神经网络模型部署在云端主机中还可以提供查询接口供用户判断遇到的未知页面中是否包含欺诈广告。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明涉及的欺诈广告页面范例图;
图2是本发明一个实施例基于卷积神经网络的欺诈广告页面识别方法的流程图;
图3是本发明一个实施例基于卷积神经网络的欺诈广告页面识别装置结构示意图;
图4是本发明一个实施例基于卷积神经网络的欺诈广告页面识别系统示意图。
图5是根据本发明服务器一个实施例的结构示意图;
图6是本发明构建的卷积类神经网络示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
卷积神经网络(Convolutional Neural Network,CNN)是类神经网络的一种,可以区分为输入层(表示输入变量),输出层(表示要预测的变量),而中间的卷积层是用来增加神经元的复杂度,以便让它能够仿真更复杂的函数转换结构。
卷积神经网络利用空间关系进行权值共享,减少需要学习的参数数目,在卷积神经网络中对图片影像进行处理后只用一小部分作为层级结构的最底层输入,然后信息再依次传输到不同的层,每层通过一个小的卷积核去获得观测数据的最显着的特征,由于参数大大减少降低了计算量有助于快速获取结果,深度学习就是大量的训练样本配合计算能力再加上自由灵活的神经网络结构设计来快速获取有效的图像识别特征。
下面参考附图描述本发明实施例的基于卷积神经网络的欺诈广告页面识别方法、装置和服务器。
图2是根据本发明一个实施例基于卷积神经网络的欺诈广告页面识别方法的流程图,如图2所示,所述方法包括以下步骤:
S100、收集页面图片制作训练集;
其中,所述训练集中至少包含欺诈广告页面图片和正常图片。每个图片带有标签信息,所述标签信息用于标记所述图片的类别,比如0表示所述图片为欺诈广告,1表示所述图片为正常图片。
S102、对所述训练集中的所有图片进行缩放获取预定大小的彩色图,计算所述训练集中每个图片的色值。
这样经过上述处理得到的训练集中预定大小的图片就可以作为后续卷积神经网络的输入,训练所述卷积神经网络自动学习欺诈广告的图片特征。
在可选的实施例中,可以通过收集用户设备中产生的欺诈广告页面,当用户在自己的终端设备中浏览网页时举报和上传欺诈广告页面,比如页面网址。
在可选的实施例中,对于用户上报的欺诈广告页面,可以通过虚拟专属主机模拟打开网址还原页面,以便进行截图获取欺诈广告页面图片。当得到一定数量的欺诈广告页面图片之后制作训练集,对于卷积神经网络来说,训练集中的样本数量越多,得到的输出层特征值就更为准确,为了兼顾效率本发明一实施例中选用10w张欺诈广告页面图片和10W张正常图片作为训练集。
制作训练集时,对训练集中的图片进行缩放得到预定大小的彩色图,计算所述训练集中每个图片的色值,对训练集中的图片进行缩放并不影响图片本身所包含的图像特征,因此可以根据卷积神经网络在训练时的输出表现调整图片缩放的预定大小。
在本发明一实施例中,所述图片缩放的预定大小为100x100到300x300之间,优选为299x299。
S104、构建卷积神经网络,所述卷积类神经网络包括一个输入层、多个卷积层和多个池化层、多个全连接层和一个输出层,使用所述训练集中的图片,结合梯度下降算法训练所述卷积神经网络,使得所述卷积神经网络输出层特征值与所输入的每个图片的标签信息相同;其中,所述输入层的大小与所述训练集中图片的预定大小相同。
在可选实施例的中,所述卷积神经网络具体包括一个输入层、四个卷积层和四个池化层、两个全连接层和一个输出层,卷积层之前为输入层,每个卷积层之后有一池化层,两个全连接层位于最后一个池化层和输出层之间。
在可选的实施例中,所述卷积神经网络的卷积层大小为在10x10至255x255之间,池化层大小为在5x5至128x128之间,全连接层节点在10到100之间。
其中,上述卷积层的激活函数为Relu,最后一层输出层的激活函数为softmax。
在一优选的实施例中,卷积神经网络的输入层大小为299x299,四个卷积层大小分别为255x255,96x96,28x28,10x10,四个池化层大小分别为128x128,48x48,14x14,5x5。其中,各个卷积层的激活函数都使用Relu。第一个全连接层的大小为100,第二个全连接层的大小为10。最后一层输出层为softmax分类器,输出层的结点个数与所述训练集中图片的标记类别数一致。
在本发明一个实施例中,训练集中包含欺诈广告(标签信息为0)、正常图片(标签信息为1)两类,因此输出层结点个数为2,此时softmax分类器的输出值有两个。把训练集中的图片值输入到卷积神经网络中之后,经过反复训练,直到卷积神经网络能够正确识别出训练集中的欺诈图片和正常图片,使得卷积神经网络输出层特征值与训练集中所输入的每个图片的标签信息相同,当输入的是欺诈广告时得到的输出值是0,如果输入的是正常图片输出层得到的输出值是1,此时卷积神经网络经过学习到欺诈广告的特征值,可以用于识别其他未知图片是否包含欺诈广告。
可选的,可以选取与上述训练集中的图片不完全相同的欺诈图片和正常图片组成测试集,输入到上述卷积神经网络中,使上述卷积神经网络输出层特征值与测试集中每个图片的标签信息相同,对卷积神经网络进行测试的同时亦可以对其各项参数进行调整。
需要指出的是,作为可选实施例,训练集中还可以包括其他类别的图片,比如还可以包含10w张色情图片,可设置色情图片的标签信息为2,此时使用包含三类图片的训练集对上述卷积神经网络进行训练时,输出层的结点个数为3,输出层softmax分类器的输出值有三个,分别表征输入的图片是正常图片、欺诈广告还是色情图片。此时,经过反复训练的卷积神经网络能够正确识别训练集中的图片是正常图片、欺诈广告还是色情图片,卷积神经网络的输出值为0时表示输入图片是欺诈广告,输出值为1时表示输入图片是正常图片,输出值是2时表示输入图片是色情图片。
需要说明的是,上述数值仅用于示例性说明本发明技术,并不用于限定卷积神经网络的各项参数。
S106、获取待检测页面的图片,对所述检测页面的图片进行处理后输入到训练好的卷积神经网络中,根据所述卷积神经网络的输出层得到的特征值判断所述待检测页面中是否包含欺诈广告。
在可选实施例中,上述训练好的卷积神经网络可以部署在云端服务器中,通过开放查询接口的方法帮助用户判断实际页面中是否包含欺诈广告。
当接收到用户回传的待检测页面的图片时,对待检测页面的图片进行缩放获取预定大小的彩色图,将预定大小的待检测页面图片的图片色值输入到上述训练好的卷积神经网络中,根据所述卷积神经网络的输出层特征值判断所述待检测页面中是否包含欺诈广告。举例来说,根据上述内容当输出层特征值为0时判断待检测图片包含欺诈广告。
在实际中,用户可以通过回传页面网址信息或者页面图片内容到云端服务器进行判定,如果用户回传了网址信息则云端服务器可以打开页面网址截取待检测图片,或者直接将用户回传的页面图片作为待检测图片,把待检测图片进行处理之后输入到上述训练好的卷积神经网络中,根据输出层得到的特征值判断所述待检测页面中是否包含欺诈广告,并将判定结果反馈给用户。
在可选的实施例中,如果上述训练好的卷积神经网络能够确定待检测页面中包含欺诈广告,将该检测结果进行保存,举例来说,可以将该待检测页面存储的图片保存在云端服务器的欺诈广告图片集中,这样有助于形成更大的训练样本集,不断训练优化卷积神经网络,使得卷积神经网络的判断更为准确;还可以将该页面的网址存储在云端欺诈广告页面黑名单库中,用于根据页面地址直接检测用户遇到的欺诈广告页面。
欺诈广告变化快速且生命周期短,使用卷积神经网络能够有效自动识别欺诈广告,不再需要针对网址提取特征码或由人工来提取图像特征,大量缩减人工所需耗费的资源。
本发明还提出了一种基于卷积神经网络的欺诈广告页面识别装置,图3是根据本发明一个实施例的欺诈广告页面识别装置的结构示意图,如图3所示,该装置包括:
训练模块10,用于收集页面图片制作训练集,所述训练集中至少包含欺诈广告页面图片和正常图片;其中,对所述训练集中的所有图片进行缩放获取预定大小的彩色图,计算所述图片的色值,其中所述训练集中的每个图片带有标签信息,所述标签信息用于标记所述图片的类别;
在可选的实施例中,所述训练模块还包括:欺诈图片子模块,用于获取欺诈广告页面,通过虚拟专属主机模拟打开所述广告页面进行截图存储在所述训练集中。
卷积神经网络模型20,用于构建卷积神经网络,所述卷积类神经网络包括一个输入层、多个卷积层和多个池化层、多个全连接层和一个输出层,使用所述训练集中的图片训练所述卷积神经网络,使得所述卷积神经网络输出层特征值与所输入的每个图片的标签信息相同;其中所述输入层的大小与所述训练集中图片的预定大小相同;
接口模块30,用于获取待检测页面的图片,对所述检测页面的图片进行处理后输入到训练好的所述卷积神经网络中,根据所述卷积神经网络的输出层特征值判断所述待检测页面中是否包含欺诈广告。
在可选的实施例中,上述装置还包括:存储模块,用于若根据所述卷积神经网络的输出层特征值,确定所述待检测页面图片中包含欺诈广告时,将所述检测结果进行保存。
需要说明的是,前述对基于卷积神经网络的欺诈广告页面识别方法实施例的说明,也适用于对本发明基于卷积神经网络的欺诈广告页面识别装置实施例的说明,本发明基于卷积神经网络的欺诈广告页面识别装置实施例中未披露的细节,在此不再赘述。
图4给出本发明实施例欺诈广告识别系统示意图,如图4所示,收集用户设备中产生的欺诈广告页面,当用户在自己的终端设备中浏览网页时举报和上传欺诈广告页面,比如页面网址。
对于用户在终端设备中上报的欺诈广告页面网址,可以通过虚拟专属主机(VPS,Virtual Private Server)模拟打开网址还原页面,以便进行截图获取欺诈广告页面图片。得到一定数量的欺诈广告页面图片之后可以制作训练集,对于卷积神经网络来说,训练集中的样本数量越多,得到的输出层特征值就更为准确。
收集欺诈广告页面图片制作训练集之后,在进入卷积神经网络进行训练之前,对所述训练集中的所有图片进行缩放获取预定大小的彩色图,计算所述图片的色值,其中所述训练集中的每个图片带有标签信息,所述标签信息用于标记所述图片中是否包含欺诈广告;
构建卷积神经网络,该卷积类神经网络包括一个输入层、多个卷积层和多个池化层、多个全连接层和一个输出层,使用训练集中处理好的图片,结合梯度下降算法训练所述卷积神经网络,达到所述卷积神经网络输出层特征值与所输入的每个图片的标签信息相同;其中,所述输入层的大小与所述训练集中图片的预定大小相同。
在卷积网络神经训练好之后,将卷积神经网络模型部署在云端服务器中,用于检测用户设备中产生的未知广告页面。
用户设备中发现未知广告页面之后,会将相关信息回传到云端服务器进行鉴定。
当收到用户设备中的待检测页面时,如果不能够根据欺诈广告页面地址黑名单查询到结果,可以获取待检测页面的图片进行处理后输入到训练好的所述卷积神经网络中,根据所述卷积神经网络的输出层得到的特征值判断所述待检测页面中是否包含欺诈广告。
本发明基于卷积神经网络的欺诈广告识别系统,能给及时检测用户设备端遇到的页面中是否包含欺诈广告,对抗欺诈广告变化快速且生命周期短的特性非常有效,大大节省了人工成本和时间成本。
图5所示的是本发明实施例提供的服务器结构示意图,采用通用计算机系统结构,执行本发明方案的程序代码保存在存储器中,并由处理器来控制执行。服务器包括:处理器501,存储器502,通信接口503。
处理器501可以是一个通用中央处理器(CPU),图形处理器(GPU),微处理器,特定应用集成电路applicat1n-specific integrated circuit(ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。
计算机系统中包括的一个或多个存储器502,可以是一种非易失性的计算机可读存储介质,例如只读存储器read-only memory(ROM)或可存储静态信息和指令的其他类型的静态存储设备,也可以是磁盘存储器。这些存储器可通过总线与处理器相连接。存储器,保存有执行本发明方案的程序代码,例如执行图2所示实施例的方法的程序。执行本发明方案的程序代码保存在存储器中,并由处理器来控制执行。
通信接口503,可以使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,各模块具体功能的执行过程参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于卷积神经网络的欺诈广告页面识别方法,其特征在于,包括以下步骤:
收集页面图片制作训练集,所述训练集中至少包含欺诈广告页面图片和正常图片;
对所述训练集中的所有图片进行缩放获取预定大小的彩色图,计算所述图片的色值,其中所述训练集中的每个图片带有标签信息,所述标签信息用于标记所述图片的类别;
构建卷积神经网络,所述卷积类神经网络包括一个输入层、多个卷积层和多个池化层、多个全连接层和一个输出层,使用所述训练集中的图片训练所述卷积神经网络,使得所述卷积神经网络输出层特征值与所输入的每个图片的标签信息相同;其中所述输入层的大小与所述训练集中图片的预定大小相同;
获取待检测页面的图片,对所述检测页面的图片进行处理后输入到训练好的所述卷积神经网络中,根据所述卷积神经网络的输出层特征值判断所述待检测页面中是否包含欺诈广告。
2.如权利要求1所述的方法,其特征在于,所述收集页面图片制作训练集,包括:
获取欺诈广告页面,通过虚拟专属主机模拟打开所述广告页面进行截图存储在所述训练集中。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
若根据所述卷积神经网络的输出层特征值,确定所述待检测页面图片中包含欺诈广告,则将所述检测结果进行保存。
4.如权利要求1所述的方法,其特征在于,所述卷积神经网络具体包括一个输入层、四个卷积层和四个池化层、两个全连接层和一个输出层,卷积层之前为输入层,每个卷积层之后有一池化层,两个全连接层位于最后一个池化层和输出层之间。
5.如权利要求4所述的方法,其特征在于,所述卷积神经网络的卷积层大小为在10x10至255x255之间,池化层大小为在5x5至128x128之间。
6.如权利要求4所述的方法,其特征在于,所述卷积神经网络的四个卷积层大小分别为255x255,96x96,28x28,10x10,四个池化层大小分别为128x128,48x48,14x14,5x5。
7.如权利要求4所述的方法,其特征在于,所述卷积神经网络的全连接层节点为在10到100之间。
8.如权利要求4所述的方法,其特征在于,所述卷积神经网络的输出层为softmax分类器,所述输出层的结点个数与所述训练集中图片的标签类别数一致。
9.一种基于卷积神经网络的欺诈广告页面识别装置,其特征在于,包括:
训练模块,用于收集页面图片制作训练集,所述训练集中至少包含欺诈广告页面图片和正常图片;其中,对所述训练集中的所有图片进行缩放获取预定大小的彩色图,计算所述图片的色值,其中所述训练集中的每个图片带有标签信息,所述标签信息用于标记所述图片的类别;
卷积神经网络模型,用于构建卷积神经网络,所述卷积类神经网络包括一个输入层、多个卷积层和多个池化层、多个全连接层和一个输出层,使用所述训练集中的图片训练所述卷积神经网络,使得所述卷积神经网络输出层特征值与所输入的每个图片的标签信息相同;其中所述输入层的大小与所述训练集中图片的预定大小相同;
接口模块,用于获取待检测页面的图片,对所述检测页面的图片进行处理后输入到训练好的所述卷积神经网络中,根据所述卷积神经网络的输出层特征值判断所述待检测页面中是否包含欺诈广告。
10.一种服务器,其特征在于,包括:存储器,处理器和通信接口,所述存储器用于存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一权利要求1-8所述的基于卷积神经网络的欺诈广告识别方法。
CN201610875790.7A 2016-09-30 2016-09-30 基于卷积神经网络的欺诈广告页面识别方法和装置 Withdrawn CN107886344A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610875790.7A CN107886344A (zh) 2016-09-30 2016-09-30 基于卷积神经网络的欺诈广告页面识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610875790.7A CN107886344A (zh) 2016-09-30 2016-09-30 基于卷积神经网络的欺诈广告页面识别方法和装置

Publications (1)

Publication Number Publication Date
CN107886344A true CN107886344A (zh) 2018-04-06

Family

ID=61769791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610875790.7A Withdrawn CN107886344A (zh) 2016-09-30 2016-09-30 基于卷积神经网络的欺诈广告页面识别方法和装置

Country Status (1)

Country Link
CN (1) CN107886344A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960304A (zh) * 2018-06-20 2018-12-07 东华大学 一种网络交易欺诈行为的深度学习检测方法
CN108984146A (zh) * 2018-06-13 2018-12-11 南昌黑鲨科技有限公司 应用程序的语音控制方法、智能终端及计算机可读存储介质
CN109191191A (zh) * 2018-08-20 2019-01-11 南京工业大学 基于代价敏感卷积神经网络的广告点击欺诈检测方法
CN109660676A (zh) * 2018-10-11 2019-04-19 阿里巴巴集团控股有限公司 异常对象的识别方法、装置及设备
CN109783713A (zh) * 2018-12-27 2019-05-21 北京奇安信科技有限公司 一种动态网站分类方法、系统、设备及介质
CN110223106A (zh) * 2019-05-20 2019-09-10 华南理工大学 一种基于深度学习的欺诈应用检测方法
CN110705364A (zh) * 2019-09-06 2020-01-17 武汉美格科技股份有限公司 恶意广告消除方法及系统
CN110807176A (zh) * 2019-10-15 2020-02-18 武汉牌洲湾广告科技有限公司 基于神经网络的图片版权鉴别方法、装置、设备及介质
CN111245820A (zh) * 2020-01-08 2020-06-05 北京工业大学 基于深度学习的钓鱼网站检测方法
CN111461767A (zh) * 2020-03-17 2020-07-28 北京邮电大学 一种基于深度学习的Android欺骗性广告检测方法、装置及设备
JP2021170221A (ja) * 2020-04-15 2021-10-28 ネットスター株式会社 学習済みモデル、サイト判定プログラム及びサイト判定システム
CN116980235A (zh) * 2023-09-25 2023-10-31 成都数智创新精益科技有限公司 一种基于人工智能的web非法请求的拦截方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102419777A (zh) * 2012-01-10 2012-04-18 凤凰在线(北京)信息技术有限公司 一种互联网图片广告过滤系统及其过滤方法
CN103458300A (zh) * 2013-08-28 2013-12-18 天津三星电子有限公司 电视机虚假广告提示方法及系统
CN104850836A (zh) * 2015-05-15 2015-08-19 浙江大学 基于深度卷积神经网络的害虫图像自动识别方法
WO2016112797A1 (zh) * 2015-01-15 2016-07-21 阿里巴巴集团控股有限公司 一种用于确定图片陈列信息的方法及设备
CN105868785A (zh) * 2016-03-30 2016-08-17 乐视控股(北京)有限公司 基于卷积神经网络的图片鉴别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102419777A (zh) * 2012-01-10 2012-04-18 凤凰在线(北京)信息技术有限公司 一种互联网图片广告过滤系统及其过滤方法
CN103458300A (zh) * 2013-08-28 2013-12-18 天津三星电子有限公司 电视机虚假广告提示方法及系统
WO2016112797A1 (zh) * 2015-01-15 2016-07-21 阿里巴巴集团控股有限公司 一种用于确定图片陈列信息的方法及设备
CN104850836A (zh) * 2015-05-15 2015-08-19 浙江大学 基于深度卷积神经网络的害虫图像自动识别方法
CN105868785A (zh) * 2016-03-30 2016-08-17 乐视控股(北京)有限公司 基于卷积神经网络的图片鉴别方法及系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984146A (zh) * 2018-06-13 2018-12-11 南昌黑鲨科技有限公司 应用程序的语音控制方法、智能终端及计算机可读存储介质
CN108984146B (zh) * 2018-06-13 2021-03-30 南昌黑鲨科技有限公司 应用程序的语音控制方法、智能终端及计算机可读存储介质
CN108960304B (zh) * 2018-06-20 2022-07-15 东华大学 一种网络交易欺诈行为的深度学习检测方法
CN108960304A (zh) * 2018-06-20 2018-12-07 东华大学 一种网络交易欺诈行为的深度学习检测方法
CN109191191A (zh) * 2018-08-20 2019-01-11 南京工业大学 基于代价敏感卷积神经网络的广告点击欺诈检测方法
CN109191191B (zh) * 2018-08-20 2022-04-26 南京工业大学 基于代价敏感卷积神经网络的广告点击欺诈检测方法
CN109660676B (zh) * 2018-10-11 2021-03-19 创新先进技术有限公司 异常对象的识别方法、装置及设备
CN109660676A (zh) * 2018-10-11 2019-04-19 阿里巴巴集团控股有限公司 异常对象的识别方法、装置及设备
CN109783713A (zh) * 2018-12-27 2019-05-21 北京奇安信科技有限公司 一种动态网站分类方法、系统、设备及介质
CN110223106A (zh) * 2019-05-20 2019-09-10 华南理工大学 一种基于深度学习的欺诈应用检测方法
CN110705364B (zh) * 2019-09-06 2021-04-30 武汉美格科技股份有限公司 恶意广告消除方法及系统
CN110705364A (zh) * 2019-09-06 2020-01-17 武汉美格科技股份有限公司 恶意广告消除方法及系统
CN110807176A (zh) * 2019-10-15 2020-02-18 武汉牌洲湾广告科技有限公司 基于神经网络的图片版权鉴别方法、装置、设备及介质
CN111245820A (zh) * 2020-01-08 2020-06-05 北京工业大学 基于深度学习的钓鱼网站检测方法
CN111461767A (zh) * 2020-03-17 2020-07-28 北京邮电大学 一种基于深度学习的Android欺骗性广告检测方法、装置及设备
CN111461767B (zh) * 2020-03-17 2023-05-09 北京邮电大学 一种基于深度学习的Android欺骗性广告检测方法、装置及设备
JP2021170221A (ja) * 2020-04-15 2021-10-28 ネットスター株式会社 学習済みモデル、サイト判定プログラム及びサイト判定システム
CN116980235A (zh) * 2023-09-25 2023-10-31 成都数智创新精益科技有限公司 一种基于人工智能的web非法请求的拦截方法

Similar Documents

Publication Publication Date Title
CN107886344A (zh) 基于卷积神经网络的欺诈广告页面识别方法和装置
WO2019221551A1 (ko) 이미지 내 객체의 대표 특성을 추출하는 방법, 장치 및 컴퓨터 프로그램
CN109376667A (zh) 目标检测方法、装置及电子设备
CN109492638A (zh) 文本检测方法、装置及电子设备
Zhang et al. Fully convolutional network-based ensemble method for road extraction from aerial images
CN106250845A (zh) 基于卷积神经网络的火焰检测方法及装置
CN109584248A (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN108615046A (zh) 一种储粮害虫检测识别方法及装置
CN107944450A (zh) 一种车牌识别方法及装置
CN105574550A (zh) 一种车辆识别方法及装置
CN107742107A (zh) 人脸图像分类方法、装置及服务器
CN106295591A (zh) 基于人脸图像的性别识别方法及装置
CN110147094A (zh) 一种基于车载环视系统的车辆定位方法及车载终端
CN110009057A (zh) 一种基于深度学习的图形验证码识别方法
CN109993031A (zh) 一种畜力车目标违章行驶行为检测方法、装置及相机
CN110097029B (zh) 基于Highway网络多视角步态识别的身份认证方法
CN109559362B (zh) 一种图像主体脸部替换方法及装置
CN109214280A (zh) 基于街景的店铺识别方法、装置、电子设备及存储介质
CN103761526B (zh) 一种基于特征位置优选整合的城区检测方法
CN113989662A (zh) 一种基于自监督机制的遥感图像细粒度目标识别方法
CN110378243A (zh) 一种行人检测方法及装置
CN107545571A (zh) 一种图像检测方法及装置
CN108960124A (zh) 用于行人再识别的图像处理方法及装置
CN109117717A (zh) 一种城市行人检测方法
CN110490232A (zh) 训练文字行方向预测模型的方法、装置、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180406

WW01 Invention patent application withdrawn after publication