CN117527369B

CN117527369B - 基于哈希函数的安卓恶意攻击监测方法及系统

Info

Publication number: CN117527369B
Application number: CN202311503853.2A
Authority: CN
Inventors: 陈敏锋; 苏玉玲
Original assignee: Wuxi Institute of Commerce
Current assignee: Wuxi Institute of Commerce
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-06-04
Anticipated expiration: 2043-11-13
Also published as: CN117527369A

Abstract

本发明提供一种基于哈希函数的安卓恶意攻击监测方法及系统，方法包括：采集访问网络的URI特征，形成URI特征数据集；过滤并选择相关的URI特征数据形成目标URI特征数据集；基于哈希函数映射得到二进制目标URI特征数据集；选择判断安卓系统访问的网络受到恶意攻击的判断属性，根据判断属性，采用决策树方法对二进制目标URI特征数据集进行分类，得到基于决策树的安卓系统恶意攻击分类模型；识别被监测的安卓系统访问的网络的是否受到恶意攻击。本发明可以有效减少数据的存储空间和运算开销，还能降低数据维度，从而显著提高识别恶意攻击的效率；通过计算规范化属性值进一步确定最适用的判断属性，有助于恶意攻击的精准监测和划分。

Description

基于哈希函数的安卓恶意攻击监测方法及系统

技术领域

本发明属于移动安卓程序网络安全技术领域，具体涉及基于哈希函数的安卓恶意攻击监测方法及系统。

背景技术

随着Android手机及其相应应用的流行，人们把涉及生活工作各个方面交给了Android手机及其各种应用。这使得Android手机及其应用成为了用户隐私信息最为丰富的平台。而且Android应用本身具有可反编译、添加代码、再重新编译的特点，遭到了越来越多的恶意应用制造的青睐。越来越多的恶意应用制造者都寻求通过Android手机应用来进行恶意攻击。恶意应用是拥有恶意行为的应用的统称，包括僵尸程序、间谍应用、特洛伊木马等。

恶意软件通过网络或短信方式窃取用户的通讯录，通讯记录，手机号码，邮件，地理位置，手机中已安装的软件，各种账号、密码等隐私资料。黑客利用该应用远程控制用户手机，同时在手机后台隐秘的进行恶意行为，比如安装未经许可的应用、卸载杀毒应用、发送短信、拨打电话等。

大部分Android应用利用HTTP和外部服务器建立连接。因此，传统的流量识别算法不适用于识别移动应用，比如协议识别特征载荷匹配、数据挖掘算法。现有技术中对于移动安卓网络的恶意攻击或者恶意软件的实时监控方法中，如申请号为CN201710038656.6的中国专利申请文件公开的基于网络流量分析的安卓恶意软件实时检测方法，其为通过利用HTTP和外部服务器的通信协议提取识别特征，提取的特征可以为HTTP请求数据包的平均长度、HTTP响应数据包的平均长度、HTTP请求数据包个数/响应数据包个数、HTTP请求数据包字节数/响应数据包字节数、HTTP请求URI字段、HTTP请求方法字段、HTTP请求User-Agent字段、HTTP请求Host字段等特征，再采用决策树进行黑白名单的分类划分，基于分类划分形成的模型，对后续提取识别得到的特征进行判断识别属于恶意攻击或恶意软件类别的黑明单特征还是属于非恶意攻击或非恶意软件类别的白名单内特征。

但是其并没有明确如何提取并且准确识别HTTP请求URI字段是对Android网络进行语义更改而调动安卓应用进行某些恶意软件的安卓或者进行恶意攻击后控制安卓系统进行非法操作的非法URI特征，同时现有技术中仅仅是提取了HTTP请求的某些字段之后就进行决策树划分，其仅公开了决策树信息增益率的计算公式，并没有明确如何判断各个测试属性中哪个测试属性是能够作为最准确识别恶意攻击或者恶意软件安装的决策树划分黑白名单的划分属性，因此，其也没有明确信息增益率的判断阈值，仅选择最大的信息增益率的属性进行一次黑白名单划分，因此导致监测的基础样本变动性以及噪音过多，导致监测准确度不够。

发明内容

本发明针对上述缺陷，提供一种基于哈希函数的安卓恶意攻击监测方法及系统。本发明采用的基于哈希函数的安卓恶意攻击监测方法及系统，是将URI特征数据进行特定的语义目标识别算法，对URI特征数据进行过滤后，确定具有该语义的URI特征为目标URI特征形成目标URI特征数据集后，可以过滤不具有该语句的特征，可以有效减少后期的监测识别过程中的计算量；再通过哈希函数的二进制目标向量映射，将有关于第i个目标URI特征映射为与其相对应的第i个二进制目标URI特征数据/>大大减少数据的存储空间和运算开销，还能降低数据维度从而显著提高后续基于决策树方法决定的判断属性分类得到恶意攻击特征数据集和非恶意攻击特征数据集的效率。最后通过基于决策树的二进制目标URI特征数据集的分类以及确定决策树的划分属性决策树划分方法，当大于属性判断阈值时的测试属性大于等于2个时，通过计算规范化属性值进一步确定最适用的判断属性，可以对黑白名单中的重点安卓恶意攻击信息进行重点关注，进而进一步划分黑白名单中的关键信息优先级，有助于恶意攻击的精准监测和划分。

本发明提供如下技术方案：基于哈希函数的安卓恶意攻击监测方法，包括以下步骤：

S1、采集安卓系统访问网络的URI特征，形成URI特征数据集；

S2、对所述URI特征数据集中的数据进行过滤，选择相关的URI特征数据形成目标URI特征数据集；

S3、基于哈希函数，将所述S2步骤得到的目标URI特征数据集中的数据映射为二进制目标向量组成的二进制目标URI特征数据集；

S4、选择判断安卓系统访问的网络受到恶意攻击的判断属性，根据所述判断属性，采用决策树方法对二进制目标URI特征数据集进行分类，分为恶意攻击特征数据集和非恶意攻击特征数据集，进而得到基于决策树的安卓系统恶意攻击分类模型；

S5、根据所述S4步骤得到的安卓系统恶意攻击分类模型，识别被监测的安卓系统访问的网络的是否受到恶意攻击。

进一步地，所述S2步骤包括以下步骤：

S2.1、在所述S1步骤采集安卓系统访问网络的URI特征过程中，采集t时刻多个网络数据，形成网络数据集合X，识别t时刻多个网络数据中的第i个网络数据/>相对应的第i个URI特征/>定义t时刻与所述多个网络数据相一一对应的多个URI特征形成的URI特征数据集为V，/>

S2.2、构建恶意攻击相关URI特征数据集优化识别模型：

其中，t＝1,2,...,T；s_t+1为t+1时刻更新得到的识别模型参数矩阵，s_t为t时刻识别模型参数矩阵，s为随机产生的初始识别模型参数矩阵，G_t为损失函数，为损失函数的梯度函数，/>为计算矩阵的L2范数，‖·‖₁为计算矩阵的L1范数，μ₁为正则化系数，μ₁＝rand[0,1)；δ_T为时隙T内的迭代学习速率，/>

S2.3、在确定了所述S2.2步骤构建的恶意攻击相关URI特征数据集优化识别模型中所述t时刻识别模型参数矩阵s_t的情况下，计算预测能够识别到t时刻第i个网络数据相对应的第i个URI特征/>的识别概率p_t：

其中，s_i为所述t时刻识别模型参数矩阵s_t中用于识别相对应的第i个URI特征的t时刻第i个识别模型参数；

S2.4、判断所述S2.3步骤计算得到的识别概率p_t是否大于识别阈值p，若大于，则判定识别得到的第i个URI特征为第i个目标URI特征/>否则判定识别得到的第i个URI特征/>为非目标URI特征，并重复所述步骤S2.1-S2.3；p∈(0,1)；

S2.5、由所述S2.4步骤识别得到的多个目标URI特征，形成目标URI特征数据集。

进一步地，所述S2.2步骤中的损失函数G_t的计算公式、损失函数的梯度函数的计算公式分别如下：

其中，为识别得到的第i个URI特征/>的观察标签值，满足以下条件：

进一步地，所述识别阈值p为0.68。

进一步地，所述S2.4步骤识别得到的第i个目标URI特征为Uri.parse(·)语句，进而所述S2.5步骤形成的目标URI特征数据集为基于Android Browser的攻击手段形成的对安卓系统的Intent Scheme URLs攻击的目标URI特征数据集。

进一步地，所述S3步骤中，基于哈希函数，将所述S2步骤得到的目标URI特征数据集中的数据映射为二进制目标向量组成的二进制目标URI特征数据集，包括以下步骤：

S3.1、构建所述S2步骤得到的目标URI特征数据集中的第i个目标URI特征以第j个目标URI特征/>为核中心的径向基核函数计算模型/>

其中，j≠i，α_i为计算第i个目标URI特征与所述核中心的径向基距离权重系数；

S3.2、构建将目标URI特征数据集中的第i个目标URI特征映射为与其相对应的二进制目标向量/>的哈希码计算函数/>

S3.3、基于由所述哈希码计算函数计算得到的多个二进制目标向量为二进制哈希码均衡条件，构建所述S3.1步骤中的径向基距离权重系数α_i贪心迭代优化模型：

其中，为所述S3.1步骤中的径向基核函数计算模型/>延后t-τ个的目标特征的共轭径向基函数；

S3.4、基于贪心算法不断迭代优化，直至所述S3.3步骤中计算得到的径向基距离权重系数α_i能够满足全局最优解，得到满足限定条件的最优径向基核函数计算模型/>进而基于最优径向基函数计算模型/>代入至所述S3.2步骤构建的哈希码计算函数/>完成将目标URI特征数据集中的第i个目标URI特征/>映射为与其相对应的二进制目标向量/>

进一步地，所述S4步骤包括以下步骤：

S4.1、计算所述S3步骤得到的二进制目标URI特征数据集的初始信息熵：

其中，C代表二进制目标URI特征数据集，E(C)为二进制URI特征数据集的信息熵，N为二进制目标URI特征数据集中初始类的总数，p_n为二进制目标URI特征数据集中第n类特征数据子集占初始类总数的百分比，n＝1,2,…,N；

S4.2、从所述二进制目标URI特征数据集中选择测试属性集合A＝{a₁,a₂,…,a_r,…,a_R}，a_r为第R个测试属性子集，r＝1,2,…,R，采用测试属性集合A对二进制目标URI特征数据集进行划分，第r个测试属性子集与二进制目标URI特征数据集中第n类特征数据子集C_n形成特征数据属性交集进而形成二进制目标URI特征数据集

S4.3、计算第r个测试属性子集对二进制目标URI特征数据进行决策划分的第r分裂熵E_r(C)：

其中，为由第r个测试属性子集对二进制目标URI特征数据集中第n类特征数据子集划分形成特征数据属性交集/>的交集熵；/>为二进制目标URI特征数据集中第n类特征数据子集中的属于第r个测试属性的次子集个数，|C|为二进制目标URI特征数据集中的数据个数；

所述S4.3步骤中由第r个测试属性子集对二进制目标URI特征数据集中第n类特征数据子集划分形成特征数据属性交集的交集熵/>的计算公式如下：

其中，为划分形成的特征数据属性交集/>的数据个数占所述测试属性集合A中第r个测试属性子集中数据个数的百分比，|a_r|为所述测试属性集合A中第r个测试属性子集的个数；

S4.4、构建第r个测试属性对二进制目标URI特征数据进行决策划分的信息增益率Ga_ratio(C,a_r)计算模型：

S4.5、判断所述信息增益率是否大于信息增益率阈值，若大于，则选定第r个测试属性为划分所述S3步骤得到的二进制目标URI特征数据集分为恶意攻击特征数据集和非恶意攻击特征数据集的判断属性，否则重复所述步骤S4.1-S4.4；

S4.6、根据所述判断属性，采用决策树分类所述S3步骤形成的二进制目标URI特征数据集，形成恶意攻击特征数据集和非恶意攻击特征数据集，形成基于决策树的安卓系统恶意攻击分类模型。

进一步地，所述信息增益率阈值为0.83；所述测试属性集合A的测试属性个数为6个，分别为发送与接收的数据包大小属性子集a₁、Android数据流大小属性a₂、每条Android数据流包含数据包的个数属性a₃、HTTP请求和相应总时长属性a₄、上传字节与下载字节的比率属性a₅和发送与接收的字节总数量属性a₆。

进一步地，当所述S4.5步骤中判断大于所述信息增益率阈值的测试属性的个数为1个时，以该属性作为判断属性，在S4.6步骤中分类所述S3步骤形成的二进制目标URI特征数据集；

当所述S4.5步骤中判断大于所述信息增益率阈值的测试属性的个数大于等于2时，计算大于所述信息增益率阈值的K个属性集合B＝{b₁,b₂,…,b_k,…,b_K}的规范化属性值，k＜R，根据计算得到的多个规范化属性值的中最大的测试属性作为判断属性，在S4.6步骤中分类所述S3步骤形成的二进制目标URI特征数据集；

所述K个属性集合B中第k个属性的规范化属性值计算公式如下：

其中，b_k为K个属性集合B中第k个属性，为第k个属性的规范化属性值。

本发明还提供一种基于哈希函数的安卓恶意攻击监测系统，包括URI特征采集模块、数据过滤模块、数据映射模块、恶意攻击判断属性确定模块以及恶意攻击识别控制模块；

所述URI特征采集模块，用于采集安卓系统访问网络的URI特征，形成URI特征数据集；

所述数据过滤模块，用于对所述URI特征数据集中的数据进行过滤，选择相关的URI特征数据形成目标URI特征数据集；

所述数据映射模块，用于基于哈希函数，将所述数据过滤模块过滤得到的目标URI特征数据集中的数据映射为二进制目标向量组成的二进制目标URI特征数据集；

所述恶意攻击判断模块，用于选择判断安卓系统访问的网络受到恶意攻击的判断属性，根据所述判断属性，采用决策树方法对二进制目标URI特征数据集进行分类，分为恶意攻击特征数据集和非恶意攻击特征数据集，进而得到基于决策树的安卓系统恶意攻击分类模型；

所述恶意攻击识别控制模块，用于根据所述恶意攻击判断模块得到的基于决策树的安卓系统恶意攻击分类模型，识别被监测的安卓系统访问的网络的是否受到恶意攻击。

本发明的有益效果为：

1、本发明提供的基于哈希函数的安卓恶意攻击监测方法及系统，首先通过监控需要监测的安卓网络，采集URI特征，进而形成URI特征数据集，然后将URI特征数据进行特定的语义目标识别算法，将识别得到t时刻多个网络数据中的第i个网络数据相对应的第i个URI特征/>所组成的URI特征数据集V，通过设定/>为识别得到的第i个URI特征/>的观察标签值，通过sigmoid函数预测能够识别到t时刻第i个网络数据/>相对应的第i个URI特征的识别概率p_t，再分别计算损失函数G_t和损失函数的梯度函数/>进而可以构建用于语义识别攻击安卓系统所在的安卓网络的语句的恶意攻击相关URI特征数据集优化识别模型：/>通过不断迭代优化，当达到大于识别阈值p，若大于，则判定识别得到的第i个URI特征/>为第i个目标URI特征/>进而可以有效

对URI特征数据进行过滤，确定具有该语义的URI特征为目标URI特征形成目标URI特征数据集后，可以过滤不具有该语句的特征，可以有效减少后期的监测识别过程中的计算量。

2、本发明提供的基于哈希函数的安卓恶意攻击监测方法及系统，将经过语义识别得到的具有特定的URI统一资源识别符能够代表的特定安卓恶意攻击类型的URI特征语句先行过滤，再通过哈希函数转换映射为二进制目标URI特征数据集，最终进行特定的根据不同的应用场景或者安卓系统所处的应用安卓网络下，判断识别出能够有效分类恶意攻击特征和非恶意攻击特征的决策树判断属性进行二次URI特征分类，进而通过两次分类可以有效提高对被监测的安卓系统所在安卓网络的恶意攻击特征和非恶意攻击特征的识别和分类的景精确度，避免了直接采用决策树对分散性广的URI初始数据集直接进行识别和分类所导致的系统CPU计算负荷过高、计算量大所导致的监测系统卡顿或容量不够的缺陷，同时提高了运行速率，能够较快识别出安卓系统所在的安卓网络被恶意攻击的情况。

3、本发明在进行决策树对初始URI特征数据集进行二次分类识别之前，通过哈希函数的二进制目标向量映射，通过构建计算得到的径向基距离权重系数α_i贪心迭代优化模型：s.t/>将有关于第i个目标URI特征/>映射为与其相对应的第i个二进制目标URI特征数据/>大大减少数据的存储空间和运算开销，还能降低数据维度从而显著提高后续基于决策树方法决定的判断属性分类得到恶意攻击特征数据集和非恶意攻击特征数据集的效率。

4、本发明提供的基于哈希函数的安卓恶意攻击监测方法及系统，在经过哈希函数的二进制URI特征映射之后，选择与安卓系统所在安卓网络最相关的六个属性：发送与接收的数据包大小属性子集a₁、Android数据流大小属性a₂、每条Android数据流包含数据包的个数属性a₃、HTTP请求和相应总时长属性a₄、上传字节与下载字节的比率属性a₅和发送与接收的字节总数量属性a₆，形成测试属性集合A，通过构建基于信息增益率的测试属性对于决策树分类识别恶意攻击特征和非恶意攻击特征最有效的测试属性，作为判断属性，进而最后通过基于决策树的二进制目标URI特征数据集的分类以及确定决策树的划分属性决策树划分方法，当大于属性判断阈值时的测试属性大于等于2个时，通过计算规范化属性值进一步确定最适用的判断属性，可以对黑白名单中的重点安卓恶意攻击信息进行重点关注，进而进一步划分黑白名单中的关键信息优先级，有助于恶意攻击的精准监测和划分。

附图说明

在下文中将基于实施例并参考附图来对本发明进行更详细的描述。其中：

图1为本发明提供的基于哈希函数的安卓恶意攻击监测方法流程示意图；

图2为本发明提供的方法中选择相关的URI特征数据形成目标URI特征数据集的流程示意图；

图3采用本发明提供的方法中S2步骤与其他优化算法对URI特征数据集进行过滤后形成目标URI特征数据集的准确度的对比示意图；

图4为本发明提供的方法中S3步骤基于哈希函数映射为二进制目标URI特征数据集的流程示意图；

图5为采用与不采用本发明方法中S3步骤进行基于哈希函数二进制映射后进行安卓恶意攻击数据分类的分类正确率以及系统运行时间对比图；

图6为本发明提供的方法中S4步骤采用决策树方法对二进制目标URI特征数据集进行分类的流程示意图；

图7为以校园网络为例采用本发明提供的方法选择判断属性得到的分类模型准确率对比示意图；

图8为本发明提供的基于哈希函数的安卓恶意攻击监测系统；

图9为本发明提供的基于哈希函数的安卓恶意攻击监测方法及系统相对于其他算法系统对安卓恶意攻击特征的识别精确率对比示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明提供的基于哈希函数的安卓恶意攻击监测方法流程示意图，本发明提供的基于哈希函数的安卓恶意攻击监测方法包括以下步骤：

S1、采集安卓系统访问网络的URI特征，形成URI特征数据集；

S2、对URI特征数据集中的数据进行过滤，选择相关的URI特征数据形成目标URI特征数据集；

S3、基于哈希函数，将S2步骤得到的目标URI特征数据集中的数据映射为二进制目标向量组成的二进制目标URI特征数据集；

在爬网过程中，爬网程序将遇到属于数百万个域的URI特征，属性的数量可能为数万；即使通过过滤后，还是处于高维数据空间内，因此，潜在的特征空间将是巨大的。通过采用构建向基核函数计算模型哈希码计算函数/>将目标URI特征数据集中的高维特征数据映射为二进制目标URI特征数据集中的相对应的二进制向量：目标URI特征数据，使用随机稀疏投影技术将数据的维数从m减小到n，采用哈希码计算函数/>将特征向量映射为二进制向量。通过散列这些特性，可以绑定生成的二进制向量的大小，并且不需要预先构建的字典，因此本申请提供的基于哈希函数的安卓恶意攻击监测方法可以在内存使用方面获得显著优势。

S4、选择判断安卓系统访问的网络受到恶意攻击的判断属性，根据判断属性，采用决策树方法对二进制目标URI特征数据集进行分类，分为恶意攻击特征数据集和非恶意攻击特征数据集，进而得到基于决策树的安卓系统恶意攻击分类模型；

S5、根据S4步骤得到的安卓系统恶意攻击分类模型，识别被监测的安卓系统访问的网络的是否受到恶意攻击。

如图2所示，本发明提供的基于哈希函数的安卓恶意攻击监测方法中S2步骤中的对URI特征数据集中的数据进行过滤，选择相关的URI特征数据形成目标URI特征数据集，具体包括以下步骤：

S2.1、在S1步骤采集安卓系统访问网络的URI特征过程中，采集t时刻多个网络数据，形成网络数据集合X，识别t时刻多个网络数据中的第i个网络数据相对应的第i个URI特征/>定义t时刻与多个网络数据相一一对应的多个URI特征形成的URI特征数据集为V，/>

S2.2、构建恶意攻击相关URI特征数据集优化识别模型：

其中，t＝1,2,...,T；s_t+1为t+1时刻更新得到的识别模型参数矩阵，s_t为t时刻识别模型参数矩阵，s为随机产生的初始识别模型参数矩阵，G_t为损失函数，为损失函数的梯度函数，/>为计算矩阵的L2范数，即计算矩阵中每个元素的平方和的平方根，因此s_i为初始识别模型参数矩阵中用于识别第i个URI特征/>的第i个初始识别模型参数，/>为t时刻识别模型参数矩阵中的第i个识别模型参数，‖·‖₁为计算矩阵的L1范数，即矩阵中各个元素的绝对值之和，因此，‖s‖₁就是计算初始识别模型参数矩阵s中各个元素的绝对值之和，μ₁为正则化系数，μ₁＝rand[0,1)，μ₁＝0时为采用随机梯度下降获得t时刻识别模型参数矩阵s_t；δ_T为时隙T内的迭代学习速率，即t时刻迭代至t+1时刻的迭代步长，/>

恶意攻击相关URI特征数据集优化识别模型中，是对损失函数G_t的为整个模型产生贡献的一个估计，/>是为了使优化识别模型中的随机产生的初始识别模型参数矩阵s在每次迭代中变化不要产生太大，μ₁‖s‖₁代表对随机产生的初始识别模型参数矩阵s进行L1正则化处理，进而对满足高斯分布的URI特征数据集V进行处理时，使优化迭代模型更加平滑，进而具有更好的泛化能力，使整个恶意攻击相关URI特征数据集优化识别模型优化产生的t+1时刻更新得到的识别模型参数矩阵s_t+1能够在保证高精度的结果的同时进行快速收敛。

S2.3、在确定了S2.2步骤构建的恶意攻击相关URI特征数据集优化识别模型中t时刻识别模型参数矩阵s_t的情况下，计算预测能够识别到t时刻第i个网络数据相对应的第i个URI特征/>的识别概率p_t：

其中，s_i为t时刻识别模型参数矩阵s_t中用于识别相对应的第i个URI特征的t时刻第i个识别模型参数；

其用于将进行优化迭代的神经元a输出至取值范围为(0,1)内的输出值，进而形成连续的S形生长曲线，用于激活优化迭代的神经元a。

S2.4、判断S2.3步骤计算得到的识别概率p_t是否大于识别阈值p，若大于，则判定识别得到的第i个URI特征为第i个目标URI特征/>否则判定识别得到的第i个URI特征/>为非目标URI特征，并重复步骤S2.1-S2.3；p∈(0,1)；

S2.5、由S2.4步骤识别得到的多个目标URI特征，形成目标URI特征数据集。

通过本发明提供的S2步骤对S1步骤采集得到的URI特征数据集进一步过滤，选择相关的URI特征数据形成目标URI特征数据集，使构建的优化迭代模型在进行数据识别时既保证了经验风险较小的同时，也可以降低模型的复杂程度，进而可以提高优化迭代的速率，减少整个系统运行所占存储内存容量以及运行时间；构建的优化迭代模型仅仅依赖于初始识别模型参数矩阵s、损失函数G_t，损失函数的梯度函数时隙T内的迭代学习速率和正则化系数，避免了模型所包含的参数过多且训练样本过少的情况下所导致的过拟合现象，使采用步骤S2的各个流程优化迭代的得到的恶意攻击相关URI特征数据集预测结果与训练仿真预测准确度一致。具体的本申请S2步骤对S1步骤采集得到的URI特征数据集进一步过滤，选择相关的URI特征数据形成目标URI特征数据集的Matlab仿真预测结果与采用Matlab仿真采用KNN算法、朴素贝叶斯算法以及支持向量机算法对S1步骤形成的URI特征数据集的进一步分类的准确度对比情如图3所示。

进一步优选地，本发明提供的基于哈希函数的安卓恶意攻击监测方法的S2.2步骤中的损失函数G_t的计算公式、损失函数的梯度函数的计算公式分别如下：

进一步优选地，本发明提供的基于哈希函数的安卓恶意攻击监测方法的S2.4步骤中用于判断S2.3步骤计算得到的识别概率p_t的识别阈值p为0.68。

进一步优选地，本发明提供的基于哈希函数的安卓恶意攻击监测方法S2.4步骤识别得到的第i个目标URI特征为Uri.parse(·)语句，进而S2.5步骤形成的目标URI特征数据集为基于Android Browser的攻击手段形成的对安卓系统的Intent Scheme URLs攻击的目标URI特征数据集。

例如，调用web浏览器、调用打电话界面、调用发短信或调用播放音频的Uri.parse(·)语句分别如下：

1)调用web浏览器

Uri myWebpage Uri＝Uri.parse("http://xxxxx.com")；

returnIt＝new Intent(Intent.ACTION_VIEW,myWebpage Uri)。

2)调用打电话界面

Uri telUri＝Uri.parse("tel:1XXXXXXXXXX")；

returnIt＝new Intent(Intent.ACTION_DIAL,telUri)。

3)调用发短信

Uri smsUri＝Uri.parse("tel:1XXXXXXXXXX")；

returnIt＝new Intent(Intent.ACTION_VIEW,smsUri)。

returnIt.putExtra("sms_body","yyyy")；

returnIt.setType("vnd.android-dir/mms-sms")。

4)调用播放音频

Uri playUri＝Uri.parse("file:///sdcard/download/allmusic.mp3")；

returnIt＝new Intent(Intent.ACTION_VIEW,playUri)。

因此，通过S2.4步骤识别得到第i个目标URI特征为Uri.parse(·)语句时，就可以判断监测的安卓网络受到基于Android Browser的攻击手段形成的对安卓系统的IntentScheme URLs攻击，这一特定种类的攻击。也可以通过S2.4步骤识别得到的第i个目标URI特征/>为卸载软件程序、安装软件程序的URI特征时，也可以判定监测的安卓网络受到基于Android Browser的攻击手段形成的攻击为，卸载软件程序、安装软件程序的URI特征语句如下：

1)卸载软件程序：

Uri uninstallUri＝Uri.fromParts("package","xxx",null)；

returnIt＝new Intent(Intent.ACTION_DELETE,uninstallUri)。

2)安装软件程序：

UriinstallUri＝Uri.fromParts("package","xxx",null)；

returnIt＝new Intent(Intent.ACTION_PACKAGE_ADDED,installUri)。

作为本发明的另一个优选实施例，本发明提供的基于哈希函数的安卓恶意攻击监测方法的S3步骤中，如图4所示，基于哈希函数，将S2步骤得到的目标URI特征数据集中的数据映射为二进制目标向量组成的二进制目标URI特征数据集，包括以下步骤：

S3.1、构建S2步骤得到的目标URI特征数据集中的第i个目标URI特征以第j个目标URI特征/>为核中心的径向基核函数计算模型/>

其中，j≠i，α_i为计算第i个目标URI特征与核中心的径向基距离权重系数；

S3.3、基于由哈希码计算函数计算得到的多个二进制目标向量为二进制哈希码均衡条件，构建S3.1步骤中的径向基距离权重系数α_i贪心迭代优化模型：

/>

其中，为S3.1步骤中的径向基核函数计算模型/>延后t-τ个的目标特征的共轭径向基函数；

S3.4、基于贪心算法不断迭代优化，直至S3.3步骤中计算得到的径向基距离权重系数α_i能够满足全局最优解，得到满足限定条件的最优径向基核函数计算模型/>进而基于最优径向基函数计算模型/>代入至S3.2步骤构建的哈希码计算函数/>完成将目标URI特征数据集中的第i个目标URI特征/>映射为与其相对应的二进制目标向量/>

径向基核函数计算模型通过计算第i个目标URI特征/>与第j个目标URI特征为核中心的径向基距离，进而可以通过径向基距离衡量哈希值之间的关联程度，在径向基空间内反映数据的相似性，也就是说相似的数据在径向基空间内的距离足够接近，在最近邻检索数据时尽可能地找到相似数据；与之对应的，不相似的数据在径向基空间内的距离足够疏远，不同类别数据更容易被区分开，因此将目标URI特征数据集中的数据映射为二进制目标向量/>组成的二进制目标URI特征数据集的过程就是建立高维度空间到较低维度径向基空间的映射关系，并构建合理的/>为的径向基核函数计算模型/>延后t-τ个的目标特征的共轭径向基函数与其自身的自相关函数最小化的目标方程作为径向基距离权重系数α_i贪心迭代优化模型，进而量化损失减少两个空间分布的差异。

通过包含有多个目标URI特征的S2步骤得到的目标URI特征数据集的径向基函数计算结果与0的比较，进而限定为哈希码计算函数/>将有关于第i个目标URI特征/>映射为与其相对应的第i个二进制目标URI特征数据/>通过建立基于径向基核函数计算模型/>的哈希码计算函数/>可以将目标URI特征数据集中的多个目标URI特征数据映射为紧凑的二进制目标向量/>所表示的二进制码形式，便于后期进行决策树判定区分恶意攻击和非恶意攻击的判定属性使，方便地使用异或运算快速计算数据间相似度，将原样本空间相似的两个数据点映射到海明空间里接近的两个点。学习型哈希不仅能大大减少数据的存储空间和运算开销，还能降低数据维度，从而显著提高后续基于决策树方法决定的判断属性分类得到恶意攻击特征数据集和非恶意攻击特征数据集的效率。

如图5所示，比较不采用本申请的步骤S3直接进行S4步骤的分类以及采用本申请S3步骤的哈希函数映射至二进制目标URI特征数据集后，分类正确率以及整个安卓恶意攻击监测识别得到恶意攻击和/或非恶意攻击所需要的系统运行时间对比示意图。

作为本发明的另一个优选实施例，如图6所示，本发明提供的基于哈希函数的安卓恶意攻击监测方法中的S4步骤采用决策树方法对二进制目标URI特征数据集进行分类，分为恶意攻击特征数据集和非恶意攻击特征数据集，进而得到基于决策树的安卓系统恶意攻击分类模型，具体包括以下步骤：

S4.1、计算S3步骤得到的二进制目标URI特征数据集的初始信息熵：

其中，C代表二进制目标URI特征数据集，E(C)为二进制URI特征数据集的信息熵，N为二进制目标URI特征数据集中初始类的总数，p_n为二进制目标URI特征数据集中第n类特征数据子集占初始类总数的百分比，n＝1,2,…,N，C_n为二进制目标URI特征数据集中第n类特征数据子集，|C_n|为二进制目标URI特征数据集中第n类特征数据子集中的数据个数，|C|为二进制目标URI特征数据集中的数据个数；

S4.2、从二进制目标URI特征数据集中选择测试属性集合A＝{a₁,a₂,…,a_r,…,a_R}，a_r为第r个测试属性子集，r＝1,2,…,R，采用测试属性集合A对二进制目标URI特征数据集进行划分，第r个测试属性子集与二进制目标URI特征数据集中第n类特征数据子集C_n形成特征数据属性交集进而形成二进制目标URI特征数据集

第r分裂熵E_r(C)表明了采用第r个测试属性子集对二进制目标URI特征数据进行决策划分得到的n个类特征数据属性交集的不确定性；

由第r个测试属性子集对二进制目标URI特征数据集中第n类特征数据子集划分形成特征数据属性交集的交集熵/>的计算公式如下：

其中，为划分形成的特征数据属性交集/>的数据个数占测试属性集合A中第r个测试属性子集中数据个数的百分比，|a_r|为测试属性集合A中第r个测试属性子集的个数，由于是从二进制目标URI特征数据集C中选择的测试属性集合，因此|C|>|A|，在根据测试属性集合中的第r个属性对具有N类数据的二进制目标URI特征数据集C进行分类，因此，二进制目标URI特征数据集C中第n类数据子集中属于第r个测试属性的特征数据属性交集/>为第r个测试属性子集{a_r}与二进制目标URI特征数据集C的交集，即因此，/>

信息增益率代表了第n分裂熵E_r(C)对二进制目标URI特征数据进行决策划分的准确程度，即划分得到的n个类特征数据属性交集的不确定性的减少程度，信息增益率越大，则表明第r分类熵E_r(C)对于二进制目标URI特征数据进行准确划分越重要，用由第r个测试属性子集对二进制目标URI特征数据集中第n类特征数据子集划分形成特征数据属性交集/>的交集熵/>作为度量值来考虑第r个测试属性对具有n类数据的二进制目标URI特征数据进行分裂时分支的数量信息和尺寸信息，把交集熵/>能够度量的这些信息称为属性的内在信息。本申请构建的信息增益率用E(C)-E_r(C)的计算结果作为除以交集熵作为的内在信息，因此，计算结果会反应第r个测试属性作为决策层划分二进制目标URI特征是否受到恶意攻击的重要性随着内在信息的增大而减小(也就是说，如果这个属性本身不确定性就很大，那我就越不倾向于选取该属性作为划分二进制目标URI特征是否受到恶意攻击形成恶意攻击特征数据集子集和非恶意攻击特征数据集子集的判断属性)，这样算是对单纯用信息增益有所补偿，能够相对于仅仅采用信息增益的计算结果E(C)-E_r(C)判断是否作为判断属性具有更高的准确率。

S4.5、判断信息增益率是否大于信息增益率阈值，若大于，则选定第r个测试属性为划分S3步骤得到的二进制目标URI特征数据集分为恶意攻击特征数据集和非恶意攻击特征数据集的判断属性，否则重复步骤S4.1-S4.4；

S4.6、根据判断属性，采用决策树分类S3步骤形成的二进制目标URI特征数据集，形成恶意攻击特征数据集和非恶意攻击特征数据集，形成基于决策树的安卓系统恶意攻击分类模型。

进一步优选地，信息增益率阈值为0.83；测试属性集合A的测试属性个数为6个，分别为发送与接收的数据包大小属性子集a₁、Android数据流大小属性a₂、每条Android数据流包含数据包的个数属性a₃、HTTP请求和相应总时长属性a₄、上传字节与下载字节的比率属性a₅和发送与接收的字节总数量属性a₆。

进一步优选地，当S4.5步骤中判断大于信息增益率阈值的测试属性的个数为1个时，以该属性作为判断属性，在S4.6步骤中分类S3步骤形成的二进制目标URI特征数据集；

当S4.5步骤中判断大于信息增益率阈值的测试属性的个数大于等于2时，计算大于信息增益率阈值的K个属性集合B＝{b₁,b₂,…,b_k,…,b_K}的规范化属性值，k＜R，根据计算得到的多个规范化属性值的中最大的测试属性作为判断属性，在S4.6步骤中分类S3步骤形成的二进制目标URI特征数据集；

K个属性集合B中第k个属性的规范化属性值计算公式如下：

在进行计算的过程中计算每个规范化属性值这样可以有效地避免在进行决策树分类过程中仅仅依靠信息增益率判断得到的判断属性进行划分属性子集，带来的划分结果偏向于数量级较大的属性的问题，进而可以通过计算规范化属性值进而判断属性的二次筛选，进而基于二次筛选得到的判断属性对二进制目标URI特征数据集进行划分。

由于不同的被监测的安卓系统所处于的安卓网络中的具体性质不同，因此，计算得出的适用于分类处于该被监测网络的安卓系统的测试属性大于信息增益率阈值0.83时的测试属性也不同，本发明以校园网络中的各个应用的安卓手机系统的为例，如图7所示，表明适用于校园网络的安卓手机的基于哈希函数的安卓恶意攻击监测方法的选取测试属性集合A中的发送与接收的数据包大小属性子集a₁、Android数据流大小属性a₂、每条Android数据流包含数据包的个数属性a₃、HTTP请求和相应总时长属性a₄、上传字节与下载字节的比率属性a₅和发送与接收的字节总数量属性a₆分别作为测试属性时的信息增益率，图中只有Android数据流大小属性a₂的信息增益率大于0.83，因此，选择Android数据流大小属性a₂作为校园网络中的各个应用的安卓手机系统的基于哈希函数的安卓恶意攻击方法的判断属性。

当安卓系统处于不同的安卓应用网络中时，基于本发明提供的方法选取作为决策树的安卓系统恶意攻击分类模型的测试属性不同。

本发明还提供一种基于哈希函数的安卓恶意攻击监测系统，如图8所示，包括URI特征采集模块、数据过滤模块、数据映射模块、恶意攻击判断属性确定模块以及恶意攻击识别控制模块；

URI特征采集模块，用于采集安卓系统访问网络的URI特征，形成URI特征数据集；具体地，采集安卓系统访问网络的URI特征是采用URI提取服务器实现的，URI提取服务器带有请求URI字符串的HTTP请求协议，或者如中国专利申请文件201410548620.9公开的一种超文本传输协议数据还原方法及装置中，采用接收网页浏览器发送的携带有一待还原记录的统一资源标识符URI的超文本传输协议请求；对超文本传输协议请求进行解析，获取超文本传输协议请求中的待还原记录的URI，根据预先建立的URI与记录数据的索引关系，获取与待还原记录的URI对应的待还原记录数据

数据过滤模块，用于对URI特征数据集中的数据进行过滤，选择相关的URI特征数据形成目标URI特征数据集；

数据映射模块，用于基于哈希函数，将数据过滤模块过滤得到的目标URI特征数据集中的数据映射为二进制目标向量组成的二进制目标URI特征数据集；

恶意攻击判断模块，用于选择判断安卓系统访问的网络受到恶意攻击的判断属性，根据判断属性，采用决策树方法对二进制目标URI特征数据集进行分类，分为恶意攻击特征数据集和非恶意攻击特征数据集，进而得到基于决策树的安卓系统恶意攻击分类模型；

恶意攻击识别控制模块，用于根据恶意攻击判断模块得到的基于决策树的安卓系统恶意攻击分类模型，识别被监测的安卓系统访问的网络的是否受到恶意攻击。

如图9所示，经过本申请S3步骤基于哈希函数映射形成二进制目标URI特征数据集后，分别采用K-means算法、LLC算法、SV算法对安卓网络监测得到的数据进行分类，形成恶意攻击特征数据集和非恶意攻击特征数据集的精确度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.基于哈希函数的安卓恶意攻击监测方法，其特征在于，包括以下步骤：

S1、采集安卓系统访问网络的URI特征，形成URI特征数据集；

S5、根据所述S4步骤得到的安卓系统恶意攻击分类模型，识别被监测的安卓系统访问的网络的是否受到恶意攻击；

所述S2步骤包括以下步骤：

S2.1、在所述S1步骤采集安卓系统访问网络的URI特征过程中，采集t时刻多个网络数据，形成网络数据集合X，，识别t时刻多个网络数据中的第i个网络数据相对应的第i个URI特征/>，定义t时刻与所述多个网络数据相一一对应的多个URI特征形成的URI特征数据集为V，/>，i=1,2,…,M；

S2.2、构建恶意攻击相关URI特征数据集优化识别模型：

其中，t=1, 2, ..., T；为t+1时刻更新得到的识别模型参数矩阵，/>为t时刻识别模型参数矩阵，s为随机产生的初始识别模型参数矩阵，/>为损失函数，/>为损失函数的梯度函数，/>为计算矩阵的L2范数，/>为计算矩阵的L1范数，/>为正则化系数，；/>为时隙T内的迭代学习速率，/>；

S2.3、在确定了所述S2.2步骤构建的恶意攻击相关URI特征数据集优化识别模型中所述t时刻识别模型参数矩阵的情况下，计算预测能够识别到t时刻第i个网络数据/>相对应的第i个URI特征/>的识别概率/>：

其中，为所述t时刻识别模型参数矩阵/>中用于识别相对应的第i个URI特征/>的t时刻第i个识别模型参数；

S2.4、判断所述S2.3步骤计算得到的识别概率是否大于识别阈值p，若大于，则判定识别得到的第i个URI特征/>为第i个目标URI特征/>，否则判定识别得到的第i个URI特征/>为非目标URI特征，并重复所述步骤S2.1-S2.3；/>；

S2.5、由所述S2.4步骤识别得到的多个目标URI特征，形成目标URI特征数据集；

所述S3步骤中，基于哈希函数，将所述S2步骤得到的目标URI特征数据集中的数据映射为二进制目标向量组成的二进制目标URI特征数据集，包括以下步骤：

S3.1、构建所述S2步骤得到的目标URI特征数据集中的第i个目标URI特征以第j个目标URI特征/>为核中心的径向基核函数计算模型/>：

其中，j≠i，为计算第i个目标URI特征/>与所述核中心的径向基距离权重系数；

S3.2、构建将目标URI特征数据集中的第i个目标URI特征映射为与其相对应的二进制目标向量/>的哈希码计算函数/>：

S3.3、基于由所述哈希码计算函数计算得到的多个二进制目标向量为二进制哈希码均衡条件，构建所述S3.1步骤中的径向基距离权重系数贪心迭代优化模型：

s.t

其中，为所述S3.1步骤中的径向基核函数计算模型/>延后/>个的目标特征的共轭径向基函数；

S3.4、基于贪心算法不断迭代优化，直至所述S3.3步骤中计算得到的径向基距离权重系数能够满足全局最优解，得到满足限定条件/>的最优径向基核函数计算模型/>，进而基于最优径向基函数计算模型/>代入至所述S3.2步骤构建的哈希码计算函数/>，完成将目标URI特征数据集中的第i个目标URI特征/>映射为与其相对应的二进制目标向量/>。

2.根据权利要求1所述的基于哈希函数的安卓恶意攻击监测方法，其特征在于，所述S2.2步骤中的损失函数的计算公式、损失函数的梯度函数/>的计算公式分别如下：

；

。

3.根据权利要求1所述的基于哈希函数的安卓恶意攻击监测方法，其特征在于，所述识别阈值p为0.68。

4.根据权利要求1所述的基于哈希函数的安卓恶意攻击监测方法，其特征在于，所述S2.4步骤识别得到的第i个目标URI特征为Uri.parse(·)语句，进而所述S2.5步骤形成的目标URI特征数据集为基于Android Browser的攻击手段形成的对安卓系统的IntentScheme URLs攻击的目标URI特征数据集。

5.根据权利要求1所述的基于哈希函数的安卓恶意攻击监测方法，其特征在于，所述S4步骤包括以下步骤：

其中，C代表二进制目标URI特征数据集，为二进制 URI特征数据集的信息熵，N为二进制目标URI特征数据集中初始类的总数，/>为二进制目标URI特征数据集中第n类特征数据子集占初始类总数的百分比，n=1, 2, …, N；

S4.2、从所述二进制目标URI特征数据集中选择测试属性集合，/>为第R个测试属性子集，r=1, 2, …, R，采用测试属性集合/>对二进制目标URI特征数据集进行划分，第r个测试属性子集与二进制目标URI特征数据集中第n类特征数据子集/>形成特征数据属性交集/>，进而形成二进制目标URI特征数据集；

S4.3、计算第r个测试属性子集对二进制目标URI特征数据进行决策划分的第r分裂熵：

其中，为由第r个测试属性子集对二进制目标URI特征数据集中第n类特征数据子集划分形成特征数据属性交集/>的交集熵；/>为二进制目标URI特征数据集中第n类特征数据子集中的属于第r个测试属性的次子集个数，/>为二进制目标URI特征数据集中的数据个数；

所述由第r个测试属性子集对二进制目标URI特征数据集中第n类特征数据子集划分形成特征数据属性交集的交集熵/>的计算公式如下：

其中，为划分形成的特征数据属性交集/>的数据个数占所述测试属性集合A中第r个测试属性子集中数据个数的百分比，/>为所述测试属性集合A中第r个测试属性子集的个数；

S4.4、构建第r个测试属性对二进制目标URI特征数据进行决策划分的信息增益率计算模型：

6.根据权利要求5所述的基于哈希函数的安卓恶意攻击监测方法，其特征在于，所述信息增益率阈值为0.83；所述测试属性集合的测试属性个数为6个，分别为发送与接收的数据包大小属性子集/>、Android数据流大小属性/>、每条Android数据流包含数据包的个数属性/>、HTTP请求和相应总时长属性/>、上传字节与下载字节的比率属性/>和发送与接收的字节总数量属性/>。

7.根据权利要求5所述的基于哈希函数的安卓恶意攻击监测方法，其特征在于，当所述S4.5步骤中判断大于所述信息增益率阈值的测试属性的个数为1个时，以该属性作为判断属性，在S4.6步骤中分类所述S3步骤形成的二进制目标URI特征数据集；

当所述S4.5步骤中判断大于所述信息增益率阈值的测试属性的个数大于等于2时，计算大于所述信息增益率阈值的K个属性集合的规范化属性值，k＜R，根据计算得到的多个规范化属性值的中最大的测试属性作为判断属性，在S4.6步骤中分类所述S3步骤形成的二进制目标URI特征数据集；

其中，为K个属性集合B中第k个属性，/>为第k个属性的规范化属性值。

8.采用如权利要求1所述方法的基于哈希函数的安卓恶意攻击监测系统，其特征在于，包括URI特征采集模块、数据过滤模块、数据映射模块、恶意攻击判断属性确定模块以及恶意攻击识别控制模块；