CN111461767B

CN111461767B - 一种基于深度学习的Android欺骗性广告检测方法、装置及设备

Info

Publication number: CN111461767B
Application number: CN202010188729.1A
Authority: CN
Inventors: 徐国爱; 张淼; 苏思铭; 王浩宇; 郭燕慧; 徐国胜
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2023-05-09
Anticipated expiration: 2040-03-17
Also published as: CN111461767A

Abstract

本说明书一个或多个实施例提供一种基于深度学习的Android欺骗性广告检测方法、装置及设备，包括：基于浅层遍历策略遍历Android应用以提取广告控件；基于广告控件提取欺骗性广告样本，欺骗性广告样本对应至少四种不同的广告类型；提取欺骗性广告样本的图片特征和文字特征；将至少四种不同的广告类型、欺骗性广告样本的图片特征和文字特征作为训练样本集，以训练样本集训练机械学习模型，得到欺骗性广告类型识别模型；利用欺骗性广告类型识别模型进行欺骗性广告类型检测。本发明通过对不同类型的欺骗性广告的分类，能够根据该体系针对每一种欺诈性广告的不同特征进行识别和检测，对广告本身所推送的内容进行分析从而检测应用中的欺诈性广告。

Description

一种基于深度学习的Android欺骗性广告检测方法、装置及设备

技术领域

本说明书一个或多个实施例涉及软件安全技术领域，尤其涉及一种基于深度学习的Android欺骗性广告检测方法、装置及设备。

背景技术

现有技术对欺骗性广告检测中，针对广告的图片、文本和URL作为特征进行学习分类以从广告中识别出欺骗性广告，但并未提及获取广告控件的方法，现有技术在对欺诈性广告的检测中，对广告控件做到了提取但并没有分析广告本身的内容，而且由于广告具有时效性，之前存在的欺骗性广告到现在可能已经停止使用，因此现有技术只基于原有的欺骗性广告进行学习是不足以满足时代发展的，现有技术对欺骗性广告的识别没有达到轻量级和快速的检测，对欺骗性广告的分类和识别不够精确和宽泛。

发明内容

有鉴于此，本说明书一个或多个实施例的目的在于提出一种基于深度学习的Android欺骗性广告检测方法、装置及设备，以解决现有技术没有轻量级和快速的进行欺骗性广告检测，以及对欺骗性广告的分类和识别不精确且不宽泛的问题。

基于上述目的，本说明书一个或多个实施例提供了一种基于深度学习的Android欺骗性广告检测方法，包括：

基于浅层遍历策略遍历Android应用以提取广告控件；

基于所述广告控件提取欺骗性广告样本，所述欺骗性广告样本对应至少四种不同的广告类型；

提取所述欺骗性广告样本的图片特征和文字特征；

将所述至少四种不同的广告类型、所述欺骗性广告样本的图片特征和文字特征作为训练样本集，以所述训练样本集训练机械学习模型，得到欺骗性广告类型识别模型；

利用所述欺骗性广告类型识别模型进行欺骗性广告类型检测。

可选的，所述浅层遍历策略，包括：规定对所述Android应用的遍历层次和遍历次数，优先遍历所述Android应用的浅层次页面。

可选的，所述基于浅层遍历策略遍历Android应用以提取广告控件，包括：

动态安装并运行所述Android应用；

基于所述浅层遍历策略遍历所述Android应用；

根据所述广告控件的调用函数调用栈和属性特征提取所述广告控件。

可选的，所述欺骗性广告样本对应至少四种不同的广告类型，包括：

通过购物链接引诱用户进行点击操作的所述欺骗性广告样本；

伪装成杀毒软件提示或者中毒警告引诱所述用户进行所述点击操作的所述欺骗性广告样本；

伪装成系统或第三方应用按钮引诱所述用户进行所述点击操作的所述欺骗性广告样本；

伪装成更新通知引诱所述用户进行所述点击操作的所述欺骗性广告样本。

可选的，所述以所述训练样本集训练机械学习模型，得到欺骗性广告类型识别模型，包括：

对所述欺骗性广告样本进行色差调整，得到色差对抗样本，一个所述欺骗性广告样本对应至少两个所述色差对抗样本；

利用所述色差对抗样本训练所述机械学习模型，得到所述欺骗性广告类型识别模型。

可选的，所述利用所述欺骗性广告类型识别模型进行欺骗性广告类型检测，包括：

提取被检测应用中广告控件的图片特征和文字特征；

基于所述被检测应用中广告控件的图片特征和文字特征检测所述被检测应用中的所述欺骗性广告的类型。

基于同一发明构思，本说明书一个或多个实施例还提出了一种基于深度学习的Android欺骗性广告检测装置，包括：

第一提取模块，被配置为基于浅层遍历策略遍历Android应用以提取广告控件；

第二提取模块，被配置为基于所述广告控件提取欺骗性广告样本，所述欺骗性广告样本对应至少四种不同的广告类型；

第三提取模块，被配置为提取所述欺骗性广告样本的图片特征和文字特征；

训练模块，被配置为将所述至少四种不同的广告类型、所述欺骗性广告样本的图片特征和文字特征作为训练样本集，以所述训练样本集训练机械学习模型，得到欺骗性广告类型识别模型；

检测模块，被配置为利用所述欺骗性广告类型识别模型进行欺骗性广告类型检测。

可选的，所述第一提取模块用于动态安装并运行所述Android应用；基于所述浅层遍历策略遍历所述Android应用；根据所述广告控件的调用函数调用栈和属性特征提取所述广告控件。

可选的，所述检测模块用于提取被检测应用中广告控件的图片特征和文字特征；基于所述被检测应用中广告控件的图片特征和文字特征进行所述欺骗性广告检测。

基于同一发明构思，本说明书一个或多个实施例还提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上任意一中所述的方法。

从上面所述可以看出，本说明书一个或多个实施例提供的一种基于深度学习的Android欺骗性广告检测方法、装置及设备，考虑到欺骗性广告对广告商的声誉和利益，对Android应用商店以及整个移动广告的生态环境都存在着巨大的伤害，提出了本说明书一个或多个实施例提供的方法，基于浅层遍历策略遍历Android应用以提取广告控件，再提取广告控件的图片特征和文字特征，以所述至少四种不同的广告类型、所述欺骗性广告样本的图片特征和文字特征作为训练样本集训练机械学习模型，利用得到的欺骗性广告类型识别模型检测Android应用，以达到检测欺骗性广告类型的目的。本说明书一个或多个实施例提供的方法还对欺骗性广告进行了分类，包括至少四种不同的广告类型，能够根据该体系针对每一种具体类型不同的欺骗性广告的不同特征得到识别方法并指定具体的检测方案，而且本说明书一个或多个实施例提供的方法是对广告本身所推送的内容进行分析，从提取的广告控件中提取图片、文本等作为特征，作为深度学习的输入对广告进行欺骗性广告的识别以及分类，对已有的样本提取特征进行监督训练，对后续通过深度学习识别欺骗性广告提供支撑，以达到轻量级和快速的检测，精确宽泛的对欺诈性广告进行识别和分类。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例中检测方法的流程示意图；

图2为本说明书一个或多个实施例中检测装置示意图；

图3为本说明书一个或多个实施例中电子设备示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

本说明书一个或多个实施例提供了一种基于深度学习的Android欺骗性广告检测方法、装置及设备。

参考图1，发明人通过研究现有技术对欺骗性广告的识别，发现现有技术对欺骗性广告的识别不够精确，因为现有技术只能在一定程度上识别应用中是否存在欺骗性广告，但是并不能对欺骗性广告进行分类，从而识别欺骗性广告的类型，而识别欺骗性广告的类型可以使得解决欺骗性广告的手段更有针对性，从而可以判断该欺骗性广告对用户的影响大小，是否会危及系统安全或用户的资料安全，因此本说明书一个或多个实施例提供的方法，包括以下步骤：

S101基于浅层遍历策略遍历Android应用以提取广告控件。

本实施例中，基于浅层遍历策略遍历Android应用以提取广告控件具体包括：

动态安装并运行所述Android应用；

基于浅层遍历策略遍历Android应用；

根据广告控件的调用函数调用栈和属性特征提取广告控件。

本实施例中，浅层遍历策略为发明人根据实际操作中的需求进行编写的策略，由于如果要完全遍历完一个Android应用中的所有交互界面所需要的时间不等，可能达到1个小时以上，时间过长无法达到批量化处理大规模的应用，再加上广告控件想要达到宣传的效果，一般也只会出现再前几个界面中，所以提出了浅层遍历策略，首先需要规定一个遍历次数的上限，其次规定遍历的层数，即只要遍历的次数达到这个上限便退出认为没有发现广告，在未达到这个上限之前对Android应用进行广度优先遍历，即优先遍历Android应用的浅层次的界面，这样提高了提取广告控件的效率，例如规定遍历次数为3，遍历的层次为浅层次，即如果一个应用的页面有5页，前三页定义为浅层次页面，利用浅层遍历策略一层一层遍历应用，达到3次遍历后如果没有在浅层次页面发现广告控件，则说明该应用不存在广告控件，如果在未达到3次遍历或达到3次遍历时在浅层次页面发现广告控件，则说明该应用存在广告控件，将该应用中的广告控件提取出来。通过浅层遍历策略遍历Android应用的各个界面时，会获取该应用的UI控件信息，包括：该应用界面的布局以及各个控件的类名、文本信息、坐标、大小和resouce_id等详细信息，resouce_id为资源账号的ID，大多数广告控件的resouce_id为AdWebview或AdLayout，大多数广告控件的类名为ImageView、WebView、ViewFlipper等，因此可以从resouce_id和类名这两个特征从应用的各个UI控件中识别并提取出广告控件。

S102基于所述广告控件提取欺骗性广告样本，所述欺骗性广告样本对应至少四种不同的广告类型。

本实施例中，人工识别上述步骤中提取的广告控件中的欺骗性广告样本，并对所有欺骗性广告样本进行分类，欺骗性广告样本对应至少四种不同的广告类型，包括：

通过购物链接引诱用户进行点击操作的欺骗性广告样本；

伪装成杀毒软件提示或者中毒警告引诱用户进行点击操作的欺骗性广告样本；

伪装成系统或第三方应用按钮引诱用户进行点击操作的欺骗性广告样本；

伪装成更新通知引诱用户进行点击操作的欺骗性广告样本。

通过对这些欺骗性广告样本的分析和分类，对后续通过深度学习进行欺骗性广告的识别和检测提供支持。

S103提取所述欺骗性广告样本的图片特征和文字特征。

本实施例中，对上述步骤中已经进行分类的欺骗性广告样本进行特征提取，包括对各类型的欺骗性广告的图片特征和文字特征的提取，并将提取后的图片特征和文字特征作为训练特征，以支持后续的模型监督训练。

S104将所述至少四种不同的广告类型、所述欺骗性广告样本的图片特征和文字特征作为训练样本集，以所述训练样本集训练机械学习模型，得到欺骗性广告类型识别模型。

本实施例中，将所述至少四种不同的广告类型、所述欺骗性广告样本的图片特征和文字特征作为训练样本集，采用对抗训练和负采样结合的方式训练机械学习模型，得到欺骗性广告类型识别模型。其中采用对抗训练是由于在欺骗性广告中，如果有两张相似的图片只有很微小的变化量，在进行人工识别的时候人眼几乎看不出区别，所以很可能将两张欺诈性广告的图片分为同一类别，但是对于机器识别来说，人眼分辨不出的区别机器可以识别，而且识别结果可能会有很大差别，很有可能将两张相似的欺骗性广告的图片归为不同分类，造成人工识别和机器识别之间的误判，因此需要对每一张欺骗性广告中提取的图片特征中的图片进行色差调整，通过多次的色差调整，形成多个色差对抗样本，一个欺骗性广告样本至少对应两个色差对抗样本，把所有得到的色差对抗样本分类形成对抗样本集，把对抗样本集也作为训练样本对机械学习模型进行训练。采用负采样的技术是由于不同类别的欺骗性广告样本的数量可能会存在较大差异，而保证每个类别的欺骗性广告样本的数量相近，可以提高识别的准确率，所以需要采用负采样的技术调整各个类别的欺骗性样本作为训练样本的数量，例如通过购物链接引诱用户进行点击操作的欺骗性广告样本的样本数量为100，伪装成杀毒软件提示或者中毒警告引诱用户进行点击操作的欺骗性广告样本的样本数量为80，伪装成系统或第三方应用按钮引诱用户进行点击操作的欺骗性广告样本的样本数量为120，伪装成更新通知引诱用户进行点击操作的欺骗性广告样本的样本数量为60，通过负采样技术，最终确定各个类别的欺骗性广告样本的样本数量的区间为60至80，以保证各个类别的欺诈性广告样本的样本数量差距较小，保证识别准确率。作为一个可选的实施例，由于更新通知框可能为欺骗性广告，也可能是系统真实的更新通知，所以需要进行区分，如果更新通知框是由广告控件伪装的，那么则可以通过欺骗性广告类型识别模型进行识别；但是也存在某些更新通知框是由调用系统函数形成的真正的更新通知，并非是广告控件的情况，但点击后却不是更新而是下载其他应用，对于这种情况，由于该更新通知框不属于广告，所以不能利用欺骗性广告类型识别模型进行识别，而是需要收集大量更新通知框的样本对机械学习模型进行训练，达到能够识别更新通知框的目的，再模拟人工自动点击更新，结合流量分析是否真的对应用进行更新，以检测其是否具有欺骗性。

S105利用所述欺骗性广告类型识别模型进行欺骗性广告类型检测。

本实施例中，在得到欺骗性广告类型识别模型后，对被检测应用进行广告控件的特征提取，包括提取被检测应用中的被检测广告空间的图片特征和文字特征，将被检测广告空间的图片特征和文字特征输入至欺骗性广告类型识别模型中，欺骗性广告类型识别模型将基于被检测广告控件的图片特征和文字特征进行欺骗性广告类型检测。

需要说明的是，本说明书一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，本说明书一个或多个实施例还提供了一种基于深度学习的Android欺骗性广告检测装置，包括：第一提取模块、第二提取模块、第三提取模块、训练模块和检测模块。

参考图2，本装置中包括：

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，本说明书一个或多个实施例还提供了一种电子设备，该电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一实施例所述的方法。

图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器301、存储器302、输入/输出接口303、通信接口304和总线305。其中处理器301、存储器302、输入/输出接口303和通信接口304通过总线305实现彼此之间在设备内部的通信连接。

处理器301可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器302可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器302可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器302中，并由处理器301来调用执行。

输入/输出接口303用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口304用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线305包括一通路，在设备的各个组件(例如处理器301、存储器302、输入/输出接口303和通信接口304)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器301、存储器302、输入/输出接口303、通信接口304以及总线305，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本说明书一个或多个实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本说明书一个或多个实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于深度学习的Android欺骗性广告检测方法，其特征在于，包括：

基于浅层遍历策略遍历Android应用以提取广告控件；所述基于浅层遍历策略遍历Android应用以提取广告控件，包括：

动态安装并运行所述Android应用；

基于所述浅层遍历策略遍历所述Android应用；

根据所述广告控件的调用函数调用栈和属性特征提取所述广告控件；

提取所述欺骗性广告样本的图片特征和文字特征；

将所述至少四种不同的广告类型、所述欺骗性广告样本的图片特征和文字特征作为训练样本集，以所述训练样本集训练机械学习模型，得到欺骗性广告类型识别模型；其中，对所述欺骗性广告样本进行色差调整，得到色差对抗样本，一个所述欺骗性广告样本对应至少两个所述色差对抗样本；

利用所述色差对抗样本训练所述机械学习模型，得到所述欺骗性广告类型识别模型；

2.根据权利要求1所述的方法，其特征在于，所述浅层遍历策略，包括：规定对所述Android应用的遍历层次和遍历次数，优先遍历所述Android应用的浅层次页面。

3.根据权利要求1所述的方法，其特征在于，所述欺骗性广告样本对应至少四种不同的广告类型，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用所述欺骗性广告类型识别模型进行欺骗性广告类型检测，包括：

提取被检测应用中广告控件的图片特征和文字特征；

5.一种基于深度学习的Android欺骗性广告检测装置，其特征在于，包括：

训练模块，被配置为将所述至少四种不同的广告类型、所述欺骗性广告样本的图片特征和文字特征作为训练样本集，以所述训练样本集训练机械学习模型，得到欺骗性广告类型识别模型；其中，对所述欺骗性广告样本进行色差调整，得到色差对抗样本，一个所述欺骗性广告样本对应至少两个所述色差对抗样本；

6.根据权利要求5所述的装置，其特征在于，所述第一提取模块用于动态安装并运行所述Android应用；基于所述浅层遍历策略遍历所述Android应用；根据所述广告控件的调用函数调用栈和属性特征提取所述广告控件。

7.根据权利要求5所述的装置，其特征在于，所述检测模块用于提取被检测应用中广告控件的图片特征和文字特征；基于所述被检测应用中广告控件的图片特征和文字特征检测所述被检测应用中的所述欺骗性广告的类型。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任意一项所述的方法。