CN108491720A - 一种应用识别方法、系统以及相关设备 - Google Patents

一种应用识别方法、系统以及相关设备 Download PDF

Info

Publication number
CN108491720A
CN108491720A CN201810230941.2A CN201810230941A CN108491720A CN 108491720 A CN108491720 A CN 108491720A CN 201810230941 A CN201810230941 A CN 201810230941A CN 108491720 A CN108491720 A CN 108491720A
Authority
CN
China
Prior art keywords
application
acquisition system
detection model
data acquisition
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810230941.2A
Other languages
English (en)
Other versions
CN108491720B (zh
Inventor
雷经纬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810230941.2A priority Critical patent/CN108491720B/zh
Publication of CN108491720A publication Critical patent/CN108491720A/zh
Application granted granted Critical
Publication of CN108491720B publication Critical patent/CN108491720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明实施例公开了一种应用识别方法、系统以及相关设备,方法包括:获取目标应用的目标日志数据集合;根据目标日志数据集合中每个日志数据所对应的业务行为类型,生成目标日志数据集合对应的目标时间行为向量;根据目标日志数据集合中每个日志数据所对应的业务行为类型,生成目标日志数据集合对应的目标概率行为向量;提取目标时间行为向量的目标时序特征信息;提取目标概率行为向量的目标空间特征信息;对目标空间特征信息和目标时序特征信息进行特征融合,得到目标融合特征信息;根据目标融合特征信息识别目标应用的应用安全类型。采用本发明,可以提高应用识别的准确率。

Description

一种应用识别方法、系统以及相关设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种应用识别方法、系统以及相关设备。
背景技术
近几年来,安卓(Android)平台已经成为了一个非常流行的手机操作系统平台,并且占据了世界上超过一半的手机操作系统市场份额。随着Android智能手机与Android平板电脑的普及,基于Android的恶意应用也发展迅猛。恶意应用以破坏系统、隐私窃取、恶意扣费以及耗费流量为目的,主要分为木马,后门,蠕虫,僵尸网络,攻击性广告,间谍软件等,恶意应用携带攻击性操作指令,给用户造成巨大的经济损失。
现有的应用识别方法主要是终端设备将APP(Application)的名称、安全证书等信息发送至云端服务器,云端服务器接收到上述信息后,在云端服务器存储的黑名单中查找上述APP是否在黑名单中,若在黑名单中,则向终端发送恶意应用的提示消息;若不在黑名单中,则向终端发送正常应用的提示消息。但恶意应用中病毒的变异速度快、增长数量大,若识别恶意应用只是依赖云端服务器中黑名单的数量,则识别恶意应用存在滞后性且难以有效地持续检测恶意应用。
上述可见,根据云端服务器中黑名单的应用识别方法识别准确率低下,难以做到准确、持续地识别终端设备中的应用的安全性。
发明内容
本发明实施例提供一种应用检测方法、装置以及相关设备,可以提高应用识别的准确率。
本发明一方面提供了一种应用识别方法,包括:
获取目标应用的目标日志数据集合;
根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量;
根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量;
提取所述目标时间行为向量的目标时序特征信息;
提取所述目标概率行为向量的目标空间特征信息;
对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息;
根据所述目标融合特征信息识别所述目标应用的应用安全类型。
其中,所述目标日志数据集合包括用于表征业务行为类型的业务标识、业务行为时间;
所述根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量,包括:
按照所述业务行为时间的时间顺序,对所述目标日志数据集合中的所有业务标识进行顺序组合,得到标识数组,并将所述标识数组确定为所述目标时间行为向量。
其中,所述根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量,包括:
根据所述目标日志数据集合中的所述业务标识,统计每种所述业务行为类型分别对应的行为发生概率;
按照所述业务标识的字符顺序,对所述行为发生概率进行顺序组合,得到概率数组,并将所述概率数组确定为所述目标概率行为向量;所述概率数组的长度等于所述业务行为类型的数量。
其中,所述提取所述目标时间行为向量的目标时序特征信息,包括:
基于目标应用检测模型中的递归子模型,对所述目标时间行为向量进行时序处理,得到待调整时序特征信息;
基于所述目标应用检测模型中的第一标准化子模型,对所述待调整时序特征信息进行归一化处理,得到处于目标特征区间内的目标时序特征信息。
其中,所述提取所述目标概率行为向量的目标空间特征信息,包括:
基于所述目标应用检测模型中的卷积子模型,对所述目标概率行为向量进行卷积处理和池化处理,得到待调整空间特征信息;
基于所述目标应用检测模型中的第二标准化子模型,对所述待调整空间特征信息进行归一化处理,得到处于所述目标特征区间内的目标空间特征信息。
其中,所述对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息,包括:
将所述目标空间特征信息和所述目标时序特征信息进行连接,得到所述目标融合特征信息;
其中,所述根据所述目标融合特征信息识别所述目标应用的应用安全类型,包括:
基于所述目标应用检测模型中的分类器,对所述目标融合特征信息进行识别处理,得到与所述目标融合特征信息匹配的目标标签信息;
若所述目标标签信息属于恶意标签类型,则确定所述目标应用的应用安全类型为恶意应用类型;
若所述目标标签信息属于正常标签类型,则确定所述目标应用的应用安全类型为正常应用类型。
其中,还包括:
若当前时间满足模型更新时间条件,则向云端服务器发送模型获取请求,以使所述云端服务器根据所述模型获取请求返回云端应用检测模型;所述云端应用检测模型是由所述云端服务器定时更新得到;
若所述云端应用检测模型与本地应用检测模型不同,则根据所述云端应用检测模型对所述本地应用检测模型进行更新,得到所述目标应用检测模型。
其中,还包括:
向所述云端服务器发送所述目标日志数据集合和所述目标应用的应用安全类型,以使所述云端服务器根据所述目标日志数据集合和所述目标应用的应用安全类型,更新所述云端应用检测模型。
其中,还包括:
当运行所述目标应用时,从多个预设检测点中分别采集所述目标应用的日志数据,并将所述多个预设检测点分别对应的日志数据组合为所述目标日志数据集合。
本发明另一方面提供了一种应用识别方法,包括:
终端设备向云端服务器发送模型获取请求;
所述云端服务器根据所述模型获取请求,向所述终端设备发送云端应用检测模型;
所述终端设备将所述云端应用检测模型确定为目标应用检测模型;
所述终端设备获取目标应用的目标日志数据集合;
所述终端设备根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量;
所述终端设备根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量;
所述终端设备提取所述目标时间行为向量的目标时序特征信息;
所述终端设备提取所述目标概率行为向量的目标空间特征信息;
所述终端设备对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息;
所述终端设备根据所述目标融合特征信息识别所述目标应用的应用安全类型。
其中,还包括:
所述云端服务器获取样本应用的样本日志数据集合和所述样本应用的应用安全类型;
所述云端服务器根据所述样本日志数据集合中每个日志数据所对应的业务行为类型,生成所述样本日志数据集合对应的样本时间行为向量和样本概率行为向量;
所述云端服务器根据所述样本时间行为向量、所述样本概率行为向量、所述样本应用的应用安全类型,调整所述云端应用检测模型。
其中,所述云端服务器根据所述样本时间行为向量、所述样本概率行为向量、所述样本应用的应用安全类型,调整所述云端应用检测模型,包括:
所述云端服务器基于所述云端应用检测模型中的递归子模型,对所述样本时间行为向量进行时序处理,得到待确定时序特征信息;
所述云端服务器基于所述云端应用检测模型中的第一标准化子模型,对所述待确定时序特征信息进行归一化处理,得到处于样本特征区间内的样本时序特征信息;
所述云端服务器基于所述云端应用检测模型中的卷积子模型,对所述样本概率行为向量进行卷积处理和池化处理,得到待确定空间特征信息;
所述云端服务器基于所述云端应用检测模型中的第二标准化子模型,对所述待确定空间特征信息进行归一化处理,得到处于所述样本特征区间内的样本空间特征信息;
所述云端服务器将所述样本时序特征信息和所述样本空间特征信息进行连接,得到样本融合特征信息;
所述云端服务器根据所述样本融合特征信息、所述样本应用的应用安全类型,调整所述云端应用检测模型。
其中,所述云端服务器根据所述样本融合特征信息、所述样本应用的应用安全类型,调整所述云端应用检测模型,包括:
所述云端服务器基于所述云端应用检测模型中的分类器,对所述样本融合特征信息进行识别处理,得到所述样本应用的应用安全识别结果;
所述云端服务器根据所述应用安全识别结果、所述样本应用的应用安全类型,计算分类误差;
所述云端服务器根据所述分类误差调整所述云端应用检测模型中的递归子模型的参数、所述云端应用检测模型中的第一标准化子模型的参数、所述云端应用检测模型中的卷积子模型的参数、所述云端应用检测模型中的第二标准化子模型的参数。
其中,还包括:
所述云端服务器获取所述终端设备发送的目标日志数据集合和所述目标应用的应用安全类型,根据所述目标日志数据集合、所述目标应用的应用安全类型、已保存的样本日志数据集合、已保存的样本应用的应用安全类型,更新所述云端应用检测模型。
本发明另一方面提供了一种应用识别装置,包括:
获取模块,用于获取目标应用的目标日志数据集合;
第一生成模块,用于根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量;
第二生成模块,用于根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量;
第一提取模块,用于提取所述目标时间行为向量的目标时序特征信息;
第二提取模块,用于提取所述目标概率行为向量的目标空间特征信息;
融合模块,用于对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息。
识别模块,用于根据所述目标融合特征信息识别所述目标应用的应用安全类型。
其中,所述目标日志数据集合包括用于表征业务行为类型的业务标识、业务行为时间;
所述第一生成模块,具体用于按照所述业务行为时间的时间顺序,对所述目标日志数据集合中的所有业务标识进行顺序组合,得到标识数组,并将所述标识数组确定为所述目标时间行为向量。
其中,所述第二生成模块,包括:
统计单元,用于根据所述目标日志数据集合中的所述业务标识,统计每种所述业务行为类型分别对应的行为发生概率;
组合单元,用于按照所述业务标识的字符顺序,对所述行为发生概率进行顺序组合,得到概率数组,并将所述概率数组确定为所述目标概率行为向量;所述概率数组的长度等于所述业务行为类型的数量。
其中,所述第一提取模块,包括:
时序处理单元,用于基于目标应用检测模型中的递归子模型,对所述目标时间行为向量进行时序处理,得到待调整时序特征信息;
第一归一化处理单元,用于基于所述目标应用检测模型中的第一标准化子模型,对所述待调整时序特征信息进行归一化处理,得到处于目标特征区间内的目标时序特征信息。
其中,所述第二提取模块,包括:
卷积处理单元,用于基于所述目标应用检测模型中的卷积子模型,对所述目标概率行为向量进行卷积处理和池化处理,得到待调整空间特征信息;
第二归一化处理单元,用于基于所述目标应用检测模型中的第二标准化子模型,对所述待调整空间特征信息进行归一化处理,得到处于所述目标特征区间内的目标空间特征信息。
其中,所述融合模块,具体用于将所述目标空间特征信息和所述目标时序特征信息进行连接,得到所述目标融合特征信息;
其中,所述识别模块,包括:
识别单元,用于基于所述目标应用检测模型中的分类器,对所述目标融合特征信息进行识别处理,得到与所述目标融合特征信息匹配的目标标签信息;
第一确定单元,用于若所述目标标签信息属于恶意标签类型,则确定所述目标应用的应用安全类型为恶意应用类型;
第二确定单元,用于若所述目标标签信息属于正常标签类型,则确定所述目标应用的应用安全类型为正常应用类型。
其中,还包括:
第一发送模块,用于若当前时间满足模型更新时间条件,则向云端服务器发送模型获取请求,以使所述云端服务器根据所述模型获取请求返回云端应用检测模型;所述云端应用检测模型是由所述云端服务器定时更新得到;
更新模块,用于若所述云端应用检测模型与本地应用检测模型不同,则根据所述云端应用检测模型对所述本地应用检测模型进行更新,得到所述目标应用检测模型。
其中,还包括:
第二发送模块,用于向所述云端服务器发送所述目标日志数据集合和所述目标应用的应用安全类型,以使所述云端服务器根据所述目标日志数据集合和所述目标应用的应用安全类型,更新所述云端应用检测模型。
其中,还包括:
采集模块,用于当运行所述目标应用时,从多个预设检测点中分别采集所述目标应用的日志数据,并将所述多个预设检测点分别对应的日志数据组合为所述目标日志数据集合。
本发明另一方面提供了一种应用识别系统,所述应用识别系统包括:终端设备和云端服务器;
终端设备,用于向云端服务器发送模型获取请求;
所述云端服务器,用于根据所述模型获取请求,向所述终端设备发送云端应用检测模型;
所述终端设备,还用于将所述云端应用检测模型确定为目标应用检测模型;
所述终端设备,还用于获取目标应用的目标日志数据集合;
所述终端设备,还用于根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量;
所述终端设备,还用于根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量;
所述终端设备,还用于提取所述目标时间行为向量的目标时序特征信息;
所述终端设备,还用于提取所述目标概率行为向量的目标空间特征信息;
所述终端设备,还用于对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息;
所述终端设备,还用于根据所述目标融合特征信息识别所述目标应用的应用安全类型。
其中,
所述云端服务器,还用于获取样本应用的样本日志数据集合和所述样本应用的应用安全类型;
所述云端服务器,还用于根据所述样本日志数据集合中每个日志数据所对应的业务行为类型,生成所述样本日志数据集合对应的样本时间行为向量和样本概率行为向量;
所述云端服务器,还用于根据所述样本时间行为向量、所述样本概率行为向量、所述样本应用的应用安全类型,调整所述云端应用检测模型。
其中,
所述云端服务器,还用于基于所述云端应用检测模型中的递归子模型,对所述样本时间行为向量进行时序处理,得到待确定时序特征信息;
所述云端服务器,还用于基于所述云端应用检测模型中的第一标准化子模型,对所述待确定时序特征信息进行归一化处理,得到处于样本特征区间内的样本时序特征信息;
所述云端服务器,还用于基于所述云端应用检测模型中的卷积子模型,对所述样本概率行为向量进行卷积处理和池化处理,得到待确定空间特征信息;
所述云端服务器,还用于基于所述云端应用检测模型中的第二标准化子模型,对所述待确定空间特征信息进行归一化处理,得到处于所述样本特征区间内的样本空间特征信息;
所述云端服务器,还用于将所述样本时序特征信息和所述样本空间特征信息进行连接,得到样本融合特征信息;
所述云端服务器,还用于根据所述样本融合特征信息、所述样本应用的应用安全类型,调整所述云端应用检测模型。
其中,
所述云端服务器,还用于基于所述云端应用检测模型中的分类器,对所述样本融合特征信息进行识别处理,得到所述样本应用的应用安全识别结果;
所述云端服务器,还用于根据所述应用安全识别结果、所述样本应用的应用安全类型,计算分类误差;
所述云端服务器,还用于根据所述分类误差调整所述云端应用检测模型中的递归子模型的参数、所述云端应用检测模型中的第一标准化子模型的参数、所述云端应用检测模型中的卷积子模型的参数、所述云端应用检测模型中的第二标准化子模型的参数。
其中,
所述云端服务器,还用于获取所述终端设备发送的目标日志数据集合和所述目标应用的应用安全类型,根据所述目标日志数据集合、所述目标应用的应用安全类型、已保存的样本日志数据集合、已保存的样本应用的应用安全类型,更新所述云端应用检测模型。
本发明另一方面提供了一种终端设备,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如本发明实施例中一方面中的方法。
本发明实施例另一方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如本发明实施例中一方面中的方法。
本发明实施例通过获取目标应用的目标日志数据集合,根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量和目标概率行为向量;提取所述时间行为向量的目标时序特征信息,并提取所述目标概率行为向量的目标空间特征信息;对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息,并根据所述目标融合特征信息识别所述目标应用的应用安全类型。由此可见,根据目标日志数据集合中本质的业务行为特征来识别应用,可以避免由于病毒的快速变异而造成单一的根据应用名称来识别应用或者根据安全证书来识别应用的不准确性,即本发明可以更准确地识别应用中恶意行为,进而提高应用识别的准确率;同时在终端本地就可以完成应用的识别,减少终端和服务器之间的交互,节约网络流量的消耗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a-图1b是本发明实施例提供的一种应用识别方法的场景示意图;
图2是本发明实施例提供的一种应用识别方法的流程示意图;
图2a是本发明实施例提供的一种识别目标应用的应用安全类型的示意图;
图3是本发明实施例提供的一种生成目标时间行为向量的流程示意图;
图4是本发明实施例提供的一种生成目标概率行为向量的流程示意图;
图5是本发明实施例提供的另一种应用识别方法的流程示意图;
图5a是本发明实施例提供的一种特征融合的示意图;
图6是本发明实施例提供的一种应用识别方法的交互示意图;
图6a是本发明实施例提供的一种调整云端应用检测模型的示意图;
图6b是本发明实施例提供的一种应用识别方法的示意图;
图7是本发明实施例提供的一种应用识别装置的结构示意图;
图7a是本发明实施例提供的一种应用识别系统的结构示意图;
图8是本发明实施例提供的一种终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1a-图1b,是本发明实施例提供的一种应用识别方法的场景示意图。如图1a所示,服务器10f通过交换机10e与个人电脑10a、个人电脑10b、智能手机10c、...、平板电脑10d连接。服务器10f中存储N个恶意应用的日志数据和N个个正常应用的日志数据。将上述恶意应用的日志数据和正常应用的日志数据输入服务器10f中的模拟器中,模拟器将上述日志数据转换为样本时间行为向量和样本概率行为向量,其中一个应用对应一个样本时间行为向量和一个样本概率行为向量。服务器根据多个样本时间行为向量、多个样本概率行为向量、每一个样本应用对应的应用安全类型(恶意应用类型或正常应用类型)训练一个云端检测模型10p,该云端检测模型10p用于检测应用是恶意应用或者正常应用。模型训练完成后,服务器10f通过交换机10e将云端检测模型10p发送至个人电脑10a、个人电脑10b、智能手机10c、...、平板电脑10d。为了保持模型的泛化能力,个人电脑10a、个人电脑10b、智能手机10c、...、平板电脑10d均可以定时向服务器10f发送本地应用最新的日志数据以及该本地应用对应的应用安全类型(恶意应用类型或正常应用类型),或者服务器10f主动收集个人电脑10a、个人电脑10b、智能手机10c、...、平板电脑10d中最新的日志数据和对应的应用安全类型,服务器10f将上述日志数据和对应的应用安全类型同样输入服务器10f的模拟器中,将日志数据转换为样本时间行为向量和样本概率行为向量,根据样本时间行为向量、样本概率行为向量和对应的应用安全类型,调整云端检测模型10p中的相关参数,增强云端检测模型10p的识别能力。同样,服务器10f也可以定时向个人电脑10a、个人电脑10b、智能手机10c、...、平板电脑10d发送最新的云端检测模型。
如图1b所示,智能手机10c接收云端检测模型10p,由于存储于智能手机10c中的本地检测模型与云端检测模型10p不同,因此将云端检测模型10p替换本地检测模型,得到本地检测模型10g,其中云端检测模型10p和本地检测模型10g相同。智能手机10c打开“地图”应用,在“地图”应用中查询“北京市天安门”的公交路线,智能手机10c中的检测点A采集“地图”应用关于“登录退出”、“查询路线”的日志数据,检测点B采集“地图”应用关于“网络流量消耗”、“内存占用”的日志数据,将上述关于“登录退出”的日志数据、关于“查询路线”的日志数据、关于“网络流量消耗”的日志数据、关于“内存占用”的日志数据组合为日志数据集合,根据日志数据集合中业务的类型,将日志数据集合转换为目标时间行为向量10k和目标概率行为向量10y。根据上述目标时间行为向量10k、目标概率行为向量10y和具有识别功能的本地检测模型10g,输出标签信息10q,标签信息10q中的字符为:正常。因此,识别出“地图”应用是不会产生任何安全威胁的正常应用。若识别“地图”应用识别出来是恶意应用,在智能手机10c的屏幕上显示存在病毒应用的提示消息。后续,可以将上述由“地图”应用产生的日志数据集合和对应的应用安全类型(正常应用类型)通过交换机10e发送至服务器10f中,用于更新服务器10f中的云端应用检测模型10p。基于服务器端的海量数据,不断优化云端检测模型的识别能力,并将识别能力强大的云端检测模型发送至各终端设备中,终端设备可以实时检测设备中所有的本地应用是否存在恶意应用,若存在恶意应用则可以向用户发送存在恶意应用的提示消息,甚至可以直接删除恶意应用和相关的文件数据,避免由于恶意应用造成经济损失。
其中,生成时间行为向量、概率行为向量、识别应用的具体过程可以参见以下图2至图6b所对应的实施例。
进一步地,请参见图2,是本发明实施例提供的一种应用识别方法的流程示意图。如图2所示,所述方法可以包括:
步骤S101,获取目标应用的目标日志数据集合;
具体的,获取待检测的应用以及待检测应用的日志数据集合,其中待检测的应用称之为目标应用,目标应用的日志数据集合称之为目标日志数据集合。日志数据集合中包括多种类型的日志数据,例如,关于“流量消耗”类型的日志数据、关于“内存占用”类型的日志数据、关于“电量消耗”类型的日志数据,若目标应用是购物应用,还包括关于“购买商品”的日志数据、关于“收藏商品”的日志数据等,日志数据是运行应用时,记录所产生的各种数据(例如,用户名、日期、时间、业务标识等),其中每一种类型的日志数据分别由一个预设检测点采集得到,一个预设检测点记录一种类型或多种类型的日志数据,将每个预设检测点采集而来的日志数据进行组合,得到日志数据集合,预设检测点可以是从终端中的多个原始检测点中筛选出来的,而多个原始检测点可以是终端设备供应商提前在终端设备的系统中设置完成的。日志数据集合中的每个日志数据均包括业务标识和业务行为时间,业务标识是用于标识业务行为类型,可以用数字、字母等字符表示,业务标识具有唯一性和排他性。例如,短信应用的日志数据中,业务标识1表示的业务行为类型是:接收文字短信;业务标识2表示业务行为类型是:发送语音短信;业务标识3表示的业务行为类型是:发送图片短信等。业务行为时间可以理解为生成对应日志数据的时间,例如,用户14:30在购物应用A中购买了商品B,业务行为类型为:购买商品,对应的业务行为时间为:14:30。
步骤S102,根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量;
具体的,按照日志数据中的业务行为时间的时间顺序,将业务标识组合为数组,得到时间行为向量,由目标日志数据集合转换而来的时间行为向量称之为目标时间行为向量(如上述图1b所对应实施例中的时间行为向量10k)。
步骤S103,根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量;
统计日志数据集合中每一种业务行为类型的行为发生概率,将每一种业务行为类型的行为发生概率组合为数组,可以得到概率行为向量,由目标日志数据集合转换而来的概率行为向量称之为目标概率行为向量(如上述图1b所对应实施例中的时间行为向量10y)。
步骤S104,提取所述目标时间行为向量的目标时序特征信息;
具体的,基于目标应用检测模型中的递归子模型中的长短期记忆网络层(Long-Short Term Memory,LSTM),对目标时间行为向量进行时序处理,即在长短期记忆网络层的遗忘门中,终端设备中的处理器计算需要从单元状态(cell state)中去除的信息;然后在输入门(input gate)中,处理器计算出在单元状态中需要存储的信息;最后在输出门(output gate)中,更新单元状态,也就是处理器将单元旧状态乘以需要去除的信息,然后再加上需要存储的信息,就得到单元新状态。目标时间行为向量通过与多个单元状态之间的线性作用,将上下文纹理(context texture)信息的关联性转换为结构化的循环依赖关系,进而提取隐藏在目标时间行为向量中的时序特征信息,从目标时间行为向量提取出来的时序特征信息称之为待调整时序特征信息。时序处理后,基于目标应用检测模型中的第一标准化子模型中的第一标准化层(Batch Normalization),对待调整时序特征信息进行归一化处理,也就是将待调整时序特征信息按比例缩放,得到目标时序特征信息,使得该目标时序特征信息处于预设的目标特征区间内,比例缩放可以是数值大小的比例缩放,也可以是维度大小的比例缩放,例如,目标特征区间的数值范围是0-1,维度是5×5,归一化处理就是将待调整时序特征信息的数值调整至0-1数值区间内,且调整维度至5×5。由于只有处于同一个特征区间内的特征信息才能进行运算,归一化处理就是为了将提取出来的目标时序特征信息和提取的目标空间特征信息进行后续的连接处理。上述可知,存储于终端设备本地的目标应用检测模型(如上述图1b所对应实施例中的本地检测模型10g)包括递归子模型和第一标准化子模型,该目标应用检测模型是从云端服务器(如上述图1a所对应实施例中的服务器10f)获取的检测模型。递归子模型中包括长短期记忆网络层,第一标准化子模型中包括第一标准化层,当然递归子模型中长短期记忆网络层的数量可以是一个也可以是多个;同样第一标准化子模型中的第一标准化层的数量可以是一个也可以是多个,且上述长短期记忆网络层和第一标准化层之间的排列没有限定。
步骤S105,,提取所述目标概率行为向量的目标空间特征信息;
具体的,基于卷积子模型中的卷积层(Convolution)的卷积处理,即随机选取目标概率行为向量中的一小部分特征信息作为样本(卷积核),将这个样本作为一个窗口依次滑过所有的目标概率行为向量,也就是上述样本和所有目标概率行为向量做卷积运算,从而获得目标概率行为向量中的空间特征信息。卷积运算后,提取了目标概率行为向量的空间特征信息,但上述空间特征信息的数量庞大,为了减少后续计算量,基于卷积子模型中的池化层,对上述空间特征信息进行聚合统计,也即是池化处理(Pooling),聚合统计后的空间特征信息的数量要远远低于卷积运算提取的空间特征信息的数量,同时还会提高后续分类效果。常用的池化方法主要包括平均池化运算方法和最大池化运算方法。平均池化运算方法是在一个特征信息集合里计算出一个平均特征信息代表该特征信息集合的特征;最大池化运算是在一个特征信息集合里提取出最大特征信息代表该特征信息集合的特征。池化处理后,可以得到目标概率行为向量的空间特征信息,称之为目标待调整空间特征信息。基于第二标准化子模型中的第二标准化层(Batch Normalization),对待调整空间特征信息进行归一化处理,也就是将待调整空间特征信息按比例缩放,得到目标空间特征信息,使得目标空间特征信息仍处于预设的目标特征区间内。提取目标时间行为向量的目标时序特征信息的时间和提取目标概率行为向量的目标空间特征信息的时间没有先后限定。上述可知,存储于终端设备本地的目标应用检测模型包括递归子模型和第一标准化子模型,还包括卷积子模型和第二标准化子模型,卷积子模型包括卷积层、池化层,第二标准化子模型包括第二标准化层,同样卷积子模型中的卷积层、池化层的数量均可以是一个也可以是多个;第二标准化子模型中的第二标准化层的数量可以是一个也可以是多个,且上述卷积层、池化层、第二标准化层之间的排列没有限定。
步骤S106,对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息;
具体的,将递归子模型提取出来的目标时序特征信息和卷积子模型提取出来的目标空间特征信息进行连接,得到融合特征信息,该融合特征信息称之为目标融合特征信息。可以知道,目标融合特征信息的维度等于目标时序特征信息的维度和目标空间特征信息的维度之和,例如,目标时序特征信息的维度为:100×1,目标空间特征信息维度为:100×1,因此融合后得到的目标融合特征信息的维度为:200×1。
步骤S107,根据所述目标融合特征信息识别所述目标应用的应用安全类型。
具体的,基于目标应用检测模型中的全连接层(Fully Connection),去除目标融合特征信息中的冗余信息,共享神经元的权值,基于目标应用检测模型中的分类器(Softmax),对去除冗余信息后的目标融合特征信息进行识别处理,识别与目标融合特征信息匹配的标签信息(如上述图1b所对应实施例中的标签信息10q),将识别出的标签信息称之为目标标签信息,该分类器可以是根据支持向量机(Support Vector Machine,SVM)算法训练的二分类器,其中标签信息和标签类型之间存在预设的映射关系,标签类型包括恶意标签类型和正常标签类型,标签信息可以是数值信息也可以是其他具有标识区别意义的字符信息,例如,分类器输出的标签信息是数值“0”对应的标签类型是正常标签类型;对应的,分类器输出的标签信息是数值“1”对应的标签类型是恶意标签类型。
标签类型和应用安全类型也存在对应关系,若目标标签信息所对应的标签类型是恶意标签类型,则确定目标应用为恶意应用,并在屏幕上显示警告消息,用于提示用户目标应用为恶意应用,或者在后台直接删除该目标应用以及该目标应用相关的文件数据。其中恶意应用是应用中包含有木马、后门、蠕虫等程序指令,以破坏系统、隐私窃取、恶意扣费以及耗费流量为目的应用。例如,标签信息为0-1之间的小数,若标签信息中的数值大于0.5,确定该标签信息属于正常标签类型;若标签信息中的数值小于或等于0.5,确定该标签信息属于恶意标签类型,分类器输出的目标标签信息为数值0.1,则确定目标标签信息属于恶意标签类型,进而确定目标应用为恶意应用。
若目标标签信息所对应的标签类型是正常标签类型,则确定目标应用为正常应用。正常应用是不会对用户的网络安全产生任何威胁的应用,例如,相机应用、闹钟应用等。例如,标签信息为0-1之间的小数,若标签信息中的数值大于0.5,确定该标签信息属于正常标签类型;若标签信息中的数值小于或等于0.5,确定该标签信息属于恶意标签类型,若分类器输出的目标标签信息为数值0.8,则确定目标标签信息属于正常标签类型,进而确定目标应用为正常应用。确定了目标应用的应用安全类型后,可以将目标日志数据集合和对应的应用安全类型发送至云端服务器,以使云端服务器根据该目标日志数据集合和该应用安全类型,更新云端服务器中的云端应用检测模型。
请参见图2a,是本发明实施例提供的一种识别目标应用的应用安全类型的示意图。将目标应用的目标日志数据集合分别转换为目标概率行为向量50a和目标时间行为向量50b。基于目标应用检测模型50y中的递归子模型(长短期记忆网络层50p、长短期记忆网络层50q、长短期记忆网络层50r)和第一标准化子模型(第一标准化层50s),提取目标时间行为向量50b的时序特征信息,当然目标应用检测模型50y是提前从云端服务器获取检测模型。基于目标应用检测模型50y中的卷积子模型(卷积层50c、池化层50d、卷积层50e、池化层50f、卷积层50g、池化层50h)和第二标准化子模型(第二标准化层50k),提取目标概率行为向量50a的空间特征信息,特征融合控制器50t将提取出来的目标时间行为向量50b的时序特征信息和目标概率行为向量50a的空间特征信息进行特征融合,得到目标融合特征信息。基于目标应用检测模型50y中的分类器50x,识别上述融合特征信息,可以确定目标应用对应的应用安全类型是正常应用类型或者恶意应用类型。
请一并参见图3,是本发明实施例提供的一种生成目标时间行为向量的流程示意图。如图3所示,生成目标时间行为向量的具体过程包括如下步骤S201-步骤S203,且步骤S201-步骤S203为图2所对应实施例中步骤S102的一个具体实施例:
步骤S201,过滤所述目标日志数据集合中不完整的日志数据,得到完备日志数据集合,并统计完备日志数据集合中日志数据的数量;
检测目标日志数据集合中所有的日志数据是否完整,即每条日志数据是否均包含业务标识以及对应的业务行为时间,若日志数据均包括业务标识以及对应的业务行为时间,则确定该日志数据是完整的日志数据;若日志数据既不包括业务标识也不包括对应的业务行为时间、或者只包括业务标识、或者只包括业务行为时间,则确定该日志数据是不完整的日志数据。将检测出的不完整的日志数据,从目标日志数据集合中删除,得到完备日志数据集合,并统计完备日志数据集合中日志数据的数量。
步骤S202,若所统计到的所述日志数据的数量不等于数量阈值,则将所述完备日志数据集合中日志数据的数量调整为所述数量阈值,得到调整日志数据集合;
具体的,若统计到的日志数据的数量大于预设的数量阈值,可以按照日志数据的业务行为时间排序(可以按照业务行为时间的时间升序排序,也可以按照业务行为时间的时间降序排序),并删除多余且排序靠后的日志数据,得到调整日志数据集合,使得调整日志数据集合中日志数据的数量等于预设的数量阈值。例如,完备日志数据集合中包括日志数据1、日志数据2、日志数据3、日志数据4、日志数据5,且获取日志数据1的时间早于获取日志数据2的时间早于获取日志数据3的时间早于获取日志数据4的时间早于获取日志数据5的时间,预设的数量阈值是3,因此将日志数据1和日志数据2删除,得到包含日志数据3、日志数据4、日志数据5的调整日志数据集合。若统计到的日志数据的数量小于预设的数量阈值,则缺位补零,得到调整日志数据集合,同样使得调整日志数据集合中日志数据的数量等于预设的数量阈值,补充的日志数据的业务标识为数值零,补充的日志数据的数量等于预设的数量阈值和统计到的日志数据之间的差值。例如,完备日志数据集合中包括日志数据1、日志数据2、日志数据3,预设的数量阈值为5,则补充日志数据4、日志数据5,其中日志数据4和日志数据5的业务标识均为数值0,同时日志数据4的业务行为时间和补充日志数据5的业务行为时间为当前时间戳,得到包含日志数据1、日志数据2、日志数据3、日志数据4、日志数据5的调整日志数据集合。
步骤S203,按照所述业务行为时间的时间顺序,对所述调整日志数据集合中的所有业务标识进行顺序组合,得到标识数组,并将所述标识数组确定为所述目标时间行为向量。
具体的,按照业务行为时间的时间顺序(可以是时间升序,也可以是时间降序),对调整日志数据集合中的所有业务标识进行顺序组合,得到标识数组,将该标识数据确定为目标时间行为向量,可以看出,标识数组的长度等于调整日志数据集合中日志数据的数量也等于预设的数量阈值。
下面举例说明,完备日志数据集合包括5条日志数据,分别为:1,8:00;3,7:00;5,8:02;4,10:00;11,4:00;其中,日志数据中的第一项表示业务标识,第二项表示业务行为时间。若预设数量阈值为7且当前时间戳为11:00,而当前目标日志数据集合中日志数据的数量为5,因此缺位2个日志数据,对2个日志数据补零,得到调整日志数据集合:1,8:00;3,7:00;5,8:02;4,10:00;11,4:00;0,11:00;0,11:00。按照时间升序排列,得到标识数组:[11,3,1,5,4,0,0],则数组[11,3,1,5,4,0,0]即是目标时间行为向量。若预设数量阈值为3,而当前完备日志数据集合中日志数据的数量为5,因此根据业务行为时间删除2个日志数据(删除业务行为时间靠后的两个日志数据),得到调整日志数据集合:1,8:00;3,7:00;11,4:00;按照时间升序排列,得到标识数组:[11,3,1],则数组[11,3,1]即是目标时间行为向量。
请一并参见图4,是本发明实施例提供的一种生成目标概率行为向量的流程示意图。如图4所示,生成目标概率行为向量的具体过程包括如下步骤S301-步骤S302,且步骤S301-步骤S302为上述图2所对应实施例中步骤S103的一个具体实施例:
步骤S301,过滤所述目标日志数据集合中不完整的日志数据,得到完备日志数据集合,并根据完备日志数据集合中的业务标识,统计每种所述业务行为类型分别对应的行为发生概率;
检测目标日志数据集合中所有的日志数据是否完整,即每个日志数据是否均包含业务标识和业务行为时间,若日志数据包括业务标识和业务行为时间,则确定该日志数据是完整的日志数据;若日志数据既不包括业务标识也不包括业务行为时间、或者只包括业务标识、或者只包括业务行为时间,则确定该日志数据是不完整的日志数据。将检测出的不完整的日志数据,从目标日志数据集合中删除,得到完备日志数据集合,并统计完备日志数据集合中每种业务行为类型分别对应的行为发生概率,也即是每一种业务行为类型(业务标识)出现在完备日志数据集合中的概率。例如,完备日志数据集合包括6条日志数据,分别为:1,8:00;3,9:02;5,8:50;4,11:09;11,13:34;3,14:20;其中,日志数据中的第一项表示业务标识,第二项标识业务行为时间。则业务标识1(业务行为类型1)的行为发生概率为1/6;业务标识3(业务行为类型3)的行为发生概率为1/3(1/6+1/6=1/3);业务标识4(业务行为类型4)的行为发生概率为1/6;业务标识5(业务行为类型5)的行为发生概率为1/6;业务标识11(业务行为类型11)的行为发生概率为1/6。
步骤S302,按照所述业务标识的字符顺序,对所述行为发生概率进行顺序组合,得到概率数组,并将所述概率数组确定为所述目标概率行为向量。
具体的,按照业务标识的字符顺序(可以是字符升序也可以是字符降序),对统计得到的行为发生概率进行顺序组合,得到概率数组,将该概率数组确定为目标概率行为向量。可以看出,概率数组的长度就等于预设的业务行为类型的数量。例如,预设6个业务标识,分别为:业务标识1、业务标识2、业务标识3、业务标识4、业务标识5、业务标识6。若业务标识1(业务行为类型1)的行为发生概率为1/6;业务标识3(业务行为类型3)的行为发生概率为1/3;业务标识4(业务行为类型4)的行为发生概率为1/6;业务标识5(业务行为类型5)的行为发生概率为1/3,也即是业务标识2(业务行为类型2)的行为发生概率为0;业务标识6(业务行为类型6)的行为发生概率为0;按照字符升序(1>2>3>4>5>6),得到概率数组为:[1/6,0,1/3,1/6,1/3,0],且数组[1/6,0,1/3,1/6,1/3,0]即是目标概率行为向量。
本发明实施例通过获取目标应用的目标日志数据集合,根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量和目标概率行为向量;提取所述时间行为向量的目标时序特征信息,并提取所述目标概率行为向量的目标空间特征信息;对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息,并根据所述目标融合特征信息识别所述目标应用的应用安全类型。由此可见,根据目标日志数据集合中本质的业务行为特征来识别应用,可以避免由于病毒的快速变异而造成单一的根据应用名称来识别应用或者根据安全证书来识别应用的不准确性,即本发明可以更准确地识别应用中恶意行为,进而提高应用识别的准确率;同时在终端本地就可以完成应用的识别,减少终端和服务器之间的交互,可以节约网络流量的消耗。
进一步地,请参见图5是本发明实施例提供的另一种应用识别方法的流程示意图。如图5所示,所述方法可以包括:
步骤S401,若当前时间满足模型更新时间条件,则向云端服务器发送模型获取请求;
具体的,终端设备检测当前时间,若当前时间满足模型更新时间条件,则向云端服务器发送模型获取请求,以使云端服务器接收到模型获取请求后,云端服务器向终端设备发送云端应用检测模型。例如,模型更新时间条件为:每天凌晨0:00,若当前时间戳是0:00点,当前时间戳就满足于模型更新时间条件,则终端设备就向云端服务器发送模型获取请求,其中云端应用检测模型是在云端服务器中提前训练好的模型。
步骤S402,若所述云端应用检测模型与本地应用检测模型不同,则根据所述云端应用检测模型对所述本地应用检测模型进行更新,得到所述目标应用检测模型;
具体的,终端设备接收云端服务器发送的云端应用检测模型后,将云端应用检测模型与存储在终端设备本地的本地应用检测模型进行比对。若云端应用检测模型和本地应用检测模型不相同,则更新本地应用检测模型,使得更新后的本地检测模型和云端检查模型相同,并将更新后的本地检测模型确定为目标应用检查模型。若云端应用检查模型和本地应用检测模型相同,可以将存储在本地的云端应用检测模型删除。
步骤S403,获取目标应用的目标日志数据集合;
步骤S404,根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量;
步骤S405,根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量;
步骤S406,提取所述目标时间行为向量的目标时序特征信息;
步骤S407,提取所述目标概率行为向量的目标空间特征信息;
步骤S408,对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息;
步骤S409,根据所述目标融合特征信息识别所述目标应用的应用安全类型。
其中,步骤S403-步骤S409的具体实施方式可以参见上述图2中对步骤S101-步骤S107的描述,此处不再进行赘述。
请参见图5a,是本发明实施例提供的一种特征融合的示意图。将目标日志数据集合分别转换为时间行为向量60a和概率行为向量60b,基于递归子模型和第一标准化子模型提取时间行为向量60a的时序特征信息,上述时序特征信息映射到包含300个神经元的神经元集合60c中。基于卷积子模型和第二标准化子模型提取概率行为向量60b的空间特征信息,上述空间特征信息映射到包含350个神经元的神经元集合60d中。将时序特征信息和空间特征信息进行特征融合,即是将神经元集合60c和神经元集合60d进行融合,得到包含650(300+350=650)个神经元的神经元集合30e。分类器60f识别被激活的神经元集合60e,得到的目标标签信息为:0,而目标标签信息“0”对应的应用安全类型是正常应用类型,即目标应用是正常应用。
本发明实施例通过获取目标应用的目标日志数据集合,根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量和目标概率行为向量;提取所述时间行为向量的目标时序特征信息,并提取所述目标概率行为向量的目标空间特征信息;对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息,并根据所述目标融合特征信息识别所述目标应用的应用安全类型。由此可见,根据目标日志数据集合中本质的业务行为特征来识别应用,可以避免由于病毒的快速变异而造成单一的根据应用名称来识别应用或者根据安全证书来识别应用的不准确性,即本发明可以更准确地识别应用中恶意行为;定时更新终端本地的应用检测模型,可以保证模型的准确性和有效性,进而提高应用识别的准确率;同时在终端本地就可以完成应用的识别,减少终端和服务器之间的交互,可以节约网络流量的消耗。
进一步地,请参见图6,是本发明实施例提供的一种应用识别方法的交互示意图。如图6所示,所述方法可以包括:
步骤S501,云端服务器获取样本应用的样本日志数据集合和样本应用的应用安全类型;
具体的,云端服务器获取用于训练云端应用检测模型的应用的日志数据,用于训练云端应用检测模型的应用称为样本应用,样本应用的日志数据集合称之为样本日志数据集合。云端服务器获取与样本应用对应的应用安全类型,应用安全类型是用于表征样本应用是正常应用类型或者恶意应用类型。正常应用类型是不存在网络安全威胁的应用,对应地恶意应用类型是包含木马、后门、蠕虫等程序指令的应用,以破坏系统、隐私窃取、恶意扣费以及耗费流量为目。日志数据集合中的每个日志数据均包括业务标识和业务行为时间,业务标识是用于表示业务行为类型,可以用数字、字母等字符表示,业务标识具有唯一性和排他性,对应的业务行为时间是发生业务行为的时间戳。例如,14:30在购物应用F中购买了商品,业务行为类型为:购买商品,对应的业务行为时间为:14:30。
步骤S502,云端服务器根据所述样本日志数据集合中每个日志数据所对应的业务行为类型,生成所述样本日志数据集合对应的样本时间行为向量和样本概率行为向量,并根据所述样本时间行为向量、所述样本概率行为向量、所述样本应用的应用安全类型,调整所述云端应用检测模型;
具体的,云端服务器按照日志数据中业务行为时间的时间顺序,将业务标识组合为数组,得到时间行为向量,由样本日志数据集合转换而来的时间行为向量称之为样本时间行为向量。云端服务器统计日志数据集合中每一种业务行为类型的行为发生概率,将每一种业务行为类型的行为发生概率组合为数组,可以得到概率行为向量,由样本日志数据集合转换而来的概率行为向量称之为样本概率行为向量。生成样本时间行为向量的具体过程可以参见图3对应实施例中步骤S201-步骤S203,生成样本概率行为向量的具体过程可以参见或图4对应实施例中步骤S301-步骤S302的描述。
生成样本时间行为向量和样本概率行为向量后,相同的应用安全类型为一类,以类为单位,终端设备中的处理器将样本时间行为向量输入云端应用检测模型中的递归子模型中的长短期记忆网络层,提取样本时间行为向量的时序特征信息,称之为待确定时序特征信息。基于第一标准化子模型中的第一标准化层,将待确定时序特征信息按比例缩放(归一化处理),得到处于样本特征区间的样本时序特征信息,样本特征区间和目标特征区间可以相同也可以不同。同样以类为单位,处理器将样本概率行为向量输入云端应用检测模型中的卷积子模型中的卷积层、池化层,通过卷积层的卷积处理和池化层的池化处理,提取样本概率行为向量的空间特征信息,称之为待确定空间特征信息。基于第二标准化子模型中的第二标准化层,将待确定空间特征信息同样按比例缩放(归一化处理),得到处于样本特征区间的样本空间特征信息。进而将提取出的样本时序特征信息和样本空间特征信息进行特征连接,得到的融合特征信息称之为样本融合特征信息。云端服务器根据云端应用检测模型中的分类器,识别样本融合特征信息,得到样本应用的应用安全识别结果,该应用安全识别结果用于表示对应的样本应用为恶意用于或者正常应用。根据识别出来的应用安全识别结果和该样本应用真实的应用安全类型,计算该应用样本的分类误差,当然若应用安全识别结果和真实的应用安全类型相同,则分类误差小,若应用安全识别结果和真实的应用安全类型不同,则分类误差大。再根据该分类误差反向调节云端应用检测模型中的递归子模型的参数、第一标准化子模型的参数、卷积子模型的参数、第二标准化子模型的参数。云端应用检测模型中的递归子模型可以包括3个长短期记忆记忆网络层,第一标准化子模型可以包括一个第一标准化层,卷积子模型可以包括三个卷积层、三个池化层和,第二标准化子模型可以包括一个第二标准化层。其中,长短期记忆记忆网络层的时序处理、第一标准化层的归一化处理、卷积层的卷积处理、池化层的池化处理、第二标准化层的归一化处理可以参见上述图2所对应实施例中对步骤S102的详细描述。
请参见图6a,是本发明实施例提供的一种调整云端应用检测模型的示意图。将样本应用的样本日志数据集合分别转换为样本时间行为向量70b和样本概率行为向量70a,基于云端服务器中的云端检测模型70y中的递归子模型(长短期记忆网络层70f)和第一标准化子模型(第一标准化层70g),提取样本时间行为向量70b的时序特征信息。基于云端服务器中的云端检测模型70y中的递卷积子模型(卷积层70c、池化层70d)和第二标准化子模型(第二标准化层70e),提取样本概率行为向量70a的空间特征信息。控制器70h将提取出来的样本时间行为向量70b的时序特征信息和样本概率行为向量70a的空间特征信息进行连接,得到样本融合特征信息。分类器70p识别该样本融合特征信息,得到识别结果,根据上述识别结果和样本应用真实的应用安全类型(正常应用类型或者恶意应用类型),由分类误差计算器70q计算样本应用的分类误差,控制器70h根据计算出来的分类误差反向调节递归子模型(长短期记忆网络层70f)的参数、第一标准化子模型(第一标准化层70g)的参数、递卷积子模型(卷积层70c、池化层70d)的参数和第二标准化子模型(第二标准化层70e)的参数。
步骤S503,终端设备向云端服务器发送模型获取请求;
具体的,终端设备检测当前时间,若当前时间满足模型更新时间条件,则向云端服务器发送模型获取请求。例如,模型更新时间条件为:每天的中午12:00,若当前时间戳是12:00,说明当前时间满足模型更新时间条件,则终端设备向云端服务器发送模型获取请求。
步骤S504,云端服务器根据模型获取请求,向终端设备发送云端应用检测模型;
具体的,云端服务器接收到模型获取请求后,云端服务器向终端设备发送训练完成的云端应用检测模型。
步骤S505,若所述云端应用检测模型与本地应用检测模型不同,则终端设备根据所述云端应用检测模型对所述本地应用检测模型进行更新,得到所述目标应用检测模型;
具体的,终端设备接收云端服务器发送的云端应用检测模型后,将云端应用检测模型与存储在终端设备本地的本地应用检测模型进行比对,若云端应用检测模型和本地应用检测模型不相同,则更新本地应用检测模型,使得更新后的本地检测模型和云端检查模型相同,并将更新后的本地检测模型确定为目标应用检查模型。若云端应用检查模型和本地应用检测模型相同,可以将存储在本地的云端应用检测模型删除。
步骤S506,获取目标应用的目标日志数据集合;
步骤S507,根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量;
步骤S508,根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量;
步骤S509,提取所述目标时间行为向量的目标时序特征信息;
步骤S510,提取所述目标概率行为向量的目标空间特征信息;
步骤S511,对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息;
步骤S512,根据所述目标融合特征信息识别所述目标应用的应用安全类型。
其中,步骤S506-步骤S512的具体实施方式可以参见上述图2中对步骤S101-步骤S107的描述,此处不再进行赘述。
步骤S513,终端设备向云端服务器发送所述目标日志数据集合和所述目标应用的应用安全类型;
具体的,终端设备向云服务发送目标日志数据集合以及识别的目标标签信息。
步骤S514,云端服务器获取所述终端设备发送的目标日志数据集合和所述目标应用的应用安全类型,根据所述目标日志数据集合、所述目标应用的应用安全类型、已保存的样本日志数据集合、已保存的样本应用的应用安全类型,更新所述云端应用检测模型。
具体的,云端服务器接收目标日志数据集合和目标应用的应用安全类型,云端服务器根据目标日志数据集合、目标应用的应用安全类型、已保存的样本日志数据集合、已保存的样本应用的应用安全类型,再次调整云端应用检测模型。当然,由更丰富的样本日志数据集合训练而成的云端检测模型,具有更高的应用识别能力和更强的泛化能力。
请参加图6b,是本发明实施例提供的一种应用识别方法的示意图。应用识别方法涉及终端设备80z和云服务器80x,其中,终端设备80z和云服务器80x通过交换机80y建立连接。在云服务器80x中部署:模拟器沙箱80a、数据清洗单元80d、行为向量生成器80e、检测模型训练单元80b、检测模型发送器80c;在终端设备80z中部署:日志数据采集器80f、数据清洗单元80g、行为向量生成器80h、检测模型接收器80k、检测单元80m、反馈单元80n。将样本日志数据集合输入云端服务器80x中的模拟器沙箱80a中,云服务器80x调用数据清洗单元80d将样本日志数据集中不完整的日志数据过滤,并调用行为向量生成器80e生成样本时间行为向量和样本概率行为向量,将样本时间行为向量、样本概率行为向量以及对应的样本应用的应用安全类型,输入检测模型训练单元80b,训练得到云端应用检测模型。检测模型发送器80c将训练好的云端应用检测模型发送至终端设备80z中的检测模型接收器80k中。日志数据采集器80f采集目标应用运行时所生成的多种类型的目标日志数据,合并为目标日志数据集合。终端设备80z调用数据清洗单元80g将目标日志数据集中不完整的日志数据过滤,并调用行为向量生成器80h生成目标时间行为向量和目标概率行为向量,检测单元80m从检测模型接收器80k中接收云端应用检测模型,并加载该云端应用检测模型,识别目标应用,并将识别的结果发送至反馈单元80n,反馈单元80n显示识别结果。
本发明实施例通过获取目标应用的目标日志数据集合,根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量和目标概率行为向量;提取所述时间行为向量的目标时序特征信息,并提取所述目标概率行为向量的目标空间特征信息;对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息,并根据所述目标融合特征信息识别所述目标应用的应用安全类型。由此可见,根据目标日志数据集合中本质的业务行为特征来识别应用,可以避免由于病毒的快速变异而造成单一的根据应用名称来识别应用或者根据安全证书来识别应用的不准确性,即本发明可以更准确地识别应用中恶意行为;定时更新终端本地的应用检测模型,可以保证模型的准确性和有效性,进而提高应用识别的准确率;同时在终端本地就可以完成应用的识别,减少终端和服务器之间的交互,可以节约网络流量的消耗。
进一步的,请参见图7,是本发明实施例提供的一种应用识别装置的结构示意图。如图7所示,所述应用识别装置1可以包括:获取模块11,第一生成模块12,第二生成模块13,第一提取模块14,第二提取模块15,融合模块16,识别模块17;
获取模块11,用于获取目标应用的目标日志数据集合;
第一生成模块12,用于根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量;
第二生成模块13,用于根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量;
第一提取模块14,用于提取所述目标时间行为向量的目标时序特征信息;
第二提取模块15,用于提取所述目标概率行为向量的目标空间特征信息;
融合模块16,用于对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息;
识别模块17,用于根据所述目标融合特征信息识别所述目标应用的应用安全类型;
第一生成模块12具体用于按照所述业务行为时间的时间顺序,对所述目标日志数据集合中的所有业务标识进行顺序组合,得到标识数组,并将所述标识数组确定为所述目标时间行为向量;
融合模块16,具体用于将所述目标空间特征信息和所述目标时序特征信息进行连接,得到所述目标融合特征信息。
其中,获取模块11,第一生成模块12,第二生成模块13,第一提取模块14,第二提取模块15,融合模块16,识别模块17的具体功能实现方式可以参见上述图2对应实施例中的步骤S101-步骤S107,这里不再进行赘述。
请一并参见图7,第二生成模块13可以包括:统计单元131,组合单元132;
统计单元131,用于根据所述目标日志数据集合中的所述业务标识,统计每种所述业务行为类型分别对应的行为发生概率;
组合单元132,用于按照所述业务标识的字符顺序,对所述行为发生概率进行顺序组合,得到概率数组,并将所述概率数组确定为所述目标概率行为向量;所述概率数组的长度等于所述业务行为类型的数量。
其中,统计单元131,组合单元132的具体功能实现方式可以参见上述图4对应实施例中的步骤S301-步骤S302,这里不再进行赘述。
请再参见图7,第一提取模块14可以包括:时序处理单元141,第一归一化处理单元142;
时序处理单元141,用于基于目标应用检测模型中的递归子模型,对所述目标时间行为向量进行时序处理,得到待调整时序特征信息;
第一归一化处理单元142,用于基于所述目标应用检测模型中的第一标准化子模型,对所述待调整时序特征信息进行归一化处理,得到处于目标特征区间内的目标时序特征信息。
其中,时序处理单元141,第一归一化处理单元142的具体功能实现方式可以参见上述图2对应实施例中的步骤S102,这里不再进行赘述。
请一并参见图7,第二提取模块15可以包括:卷积处理单元151,第二归一化处理单元152;
卷积处理单元151,用于基于所述目标应用检测模型中的卷积子模型,对所述目标概率行为向量进行卷积处理和池化处理,得到待调整空间特征信息;
第二归一化处理单元152,用于基于所述目标应用检测模型中的第二标准化子模型,对所述待调整空间特征信息进行归一化处理,得到处于所述目标特征区间内的目标空间特征信息。
其中,卷积处理单元151,第二归一化处理单元152的具体功能实现方式可以参见上述图2对应实施例中的步骤S102,这里不再进行赘述。
请参见图7,识别模块17可以包括:识别单元171,第一确定单元172,第二确定单元173;
识别单元171,用于基于所述目标应用检测模型中的分类器,对所述目标融合特征信息进行识别处理,得到与所述目标融合特征信息匹配的目标标签信息;
第一确定单元172,用于若所述目标标签信息属于恶意标签类型,则确定所述目标应用的应用安全类型为恶意应用类型;
第二确定单元173,用于若所述目标标签信息属于正常标签类型,则确定所述目标应用的应用安全类型为正常应用类型。
其中,识别单元171,第一确定单元172,第二确定单元173的具体功能实现方式可以参见上述图2对应实施例中的步骤S107,这里不再进行赘述。
请参见图7,应用识别装置1可以包括:获取模块11,第一生成模块12,第二生成模块13,第一提取模块14,第二提取模块15,融合模块16,识别模块17;应用识别装置1还可以包括:第一发送模块18,更新模块19,第二发送模块20,采集模块21;
第一发送模块18,用于若当前时间满足模型更新时间条件,则向云端服务器发送模型获取请求,以使所述云端服务器根据所述模型获取请求返回云端应用检测模型;所述云端应用检测模型是由所述云端服务器定时更新得到;
更新模块19,用于若所述云端应用检测模型与本地应用检测模型不同,则根据所述云端应用检测模型对所述本地应用检测模型进行更新,得到所述目标应用检测模型,;
第二发送模块20,用于向所述云端服务器发送所述目标日志数据集合和所述目标标签信息,以使所述云端服务器根据所述目标日志数据集合和所述目标标签信息,更新所述云端应用检测模型;
采集模块21,用于当运行所述目标应用时,从多个预设检测点中分别采集所述目标应用的日志数据,并将所述多个预设检测点分别对应的日志数据组合为所述目标日志数据集合;每个预设检测点记录一种类型的日志数据。
其中,第一发送模块18,更新模块19的具体功能实现方式可以参见上述图5对应实施例中的步骤S401-步骤S402;第二发送模块20的具体功能实现方式可以参见上述图6对应实施例中的步骤S513;采集模块21的具体功能实现方式可以参见上述图2对应实施例中的步骤S101,这里不再进行赘述。
请一并参见图7a,是本发明实施例提供的一种应用识别系统的结构示意图。应用识别系统2包括:终端设备100c和云端服务器100a,其中终端设备100c和云端服务器100a通过网络100b建立连接。
终端设备100c,用于向云端服务器发送模型获取请求;
所述云端服务器100a,用于根据所述模型获取请求,向所述终端设备发送云端应用检测模型;
所述终端设备100c,还用于将所述云端应用检测模型确定为目标应用检测模型;
所述终端设备100c,还用于获取目标应用的目标日志数据集合;
所述终端设备100c,还用于根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量;
所述终端设备100c,还用于根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量;
所述终端设备100c,还用于提取所述目标时间行为向量的目标时序特征信息;
所述终端设备100c,还用于提取所述目标概率行为向量的目标空间特征信息;
所述终端设备100c,还用于对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息;
所述终端设备100c,还用于根据所述目标融合特征信息识别所述目标应用的应用安全类型。
其中,终端设备100c和云端服务器100a的具体功能实现方式可以参见上述图6对应实施例中的步骤S501-步骤S514,这里不再进行赘述。
应当理解,本发明实施例中所描述的终端设备100c可执行前文图2到图6b所对应实施例中对所述应用识别方法的描述,也可执行前文图7所对应实施例中对所述应用识别装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。而且本发明实施例中所描述的云端服务器100a可执行前文图6和图6b所对应实施例中对所述应用识别方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图8是本发明实施例提供的一种终端设备的结构示意图。如图8所示,上述图7中的应用识别装置1可以应用于所述终端设备1000,所述终端设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,所述终端设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图8所示的终端设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1004中存储的设备控制应用程序,以实现:
获取目标应用的目标日志数据集合;
根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量;
根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量;
提取所述目标时间行为向量的目标时序特征信息;
提取所述目标概率行为向量的目标空间特征信息;
对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息;
根据所述目标融合特征信息识别所述目标应用的应用安全类型。
在一个实施例中,所述目标日志数据集合中每个日志数据均包括用于表征业务行为类型的业务标识、业务行为时间;
所述处理器1001在执行所述根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量时,具体执行以下步骤:
按照所述业务行为时间的时间顺序,对所述目标日志数据集合中的所有业务标识进行顺序组合,得到标识数组,并将所述标识数组确定为所述目标时间行为向量。
所述处理器1001在执行所述根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量时,具体执行以下步骤:
根据所述目标日志数据集合中的所述业务标识,统计每种所述业务行为类型分别对应的行为发生概率;
按照所述业务标识的字符顺序,对所述行为发生概率进行顺序组合,得到概率数组,并将所述概率数组确定为所述目标概率行为向量;所述概率数组的长度等于所述业务行为类型的数量。
在一个实施例中,所述处理器1001在执行所述提取所述目标时间行为向量的目标时序特征信息时,具体执行以下步骤:
基于目标应用检测模型中的递归子模型,对所述目标时间行为向量进行时序处理,得到待调整时序特征信息;
基于所述目标应用检测模型中的第一标准化子模型,对所述待调整时序特征信息进行归一化处理,得到处于目标特征区间内的目标时序特征信息。
在一个实施例中,所述处理器1001在执行所述提取所述目标概率行为向量的目标空间特征信息时,具体执行以下步骤:
基于所述目标应用检测模型中的卷积子模型,对所述目标概率行为向量进行卷积处理和池化处理,得到待调整空间特征信息;
基于所述目标应用检测模型中的第二标准化子模型,对所述待调整空间特征信息进行归一化处理,得到处于所述目标特征区间内的目标空间特征信息。
在一个实施例中,所述处理器1001在执行所述对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息时,具体执行以下步骤:
将所述目标空间特征信息和所述目标时序特征信息进行连接,得到所述目标融合特征信息。
在一个实施例中,所述处理器1001在执行所述根据所述目标融合特征信息识别所述目标应用的应用安全类型时,具体执行以下步骤:
基于所述目标应用检测模型中的分类器,对所述目标融合特征信息进行识别处理,得到与所述目标融合特征信息匹配的目标标签信息;
若所述目标标签信息属于恶意标签类型,则确定所述目标应用的应用安全类型为恶意应用类型;
若所述目标标签信息属于正常标签类型,则确定所述目标应用的应用安全类型为正常应用类型。
在一个实施例中,所述处理器1001还执行以下步骤:
若当前时间满足模型更新时间条件,则向云端服务器发送模型获取请求,以使所述云端服务器根据所述模型获取请求返回云端应用检测模型;所述云端应用检测模型是由所述云端服务器定时更新得到;
若所述云端应用检测模型与本地应用检测模型不同,则根据所述云端应用检测模型对所述本地应用检测模型进行更新,得到所述目标应用检测模型。
在一个实施例中,所述处理器1001还执行以下步骤:
向所述云端服务器发送所述目标日志数据集合和所述目标标签信息,以使所述云端服务器根据所述目标日志数据集合和所述目标标签信息,更新所述云端应用检测模型。
在一个实施例中,所述处理器1001还执行以下步骤:
当运行所述目标应用时,从多个预设检测点中分别采集所述目标应用的日志数据,并将所述多个预设检测点分别对应的日志数据组合为所述目标日志数据集合;每个预设检测点记录一种类型的日志数据。
本发明实施例通过获取目标应用的目标日志数据集合,根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,将所述目标日志数据集合转换为目标应用行为向量;将所述目标应用行为向量输入目标应用检测模型中,识别与所述目标应用匹配的目标标签信息;所述目标应用检测模型是从云端服务器定时获取到的模型;若所述目标标签信息属于恶意标签类型,则确定所述目标应用为恶意应用;若所述目标标签信息属于正常标签类型,则确定所述目标应用为正常应用。由此可见,通过将目标应用的目标日志数据集合转换为目标应用行为向量,并利用存储于本地的目标应用检测模型检测目标应用行为向量,进而确定目标应用为恶意应用或正常应用。因此,根据目标日志数据集合中本质的业务行为特征来识别应用,可以避免由于病毒的快速变异而造成单一的根据应用名称来识别应用或者根据安全证书来识别应用的不准确性,即本发明可以更准确地识别应用中恶意行为,进而提高应用识别的准确率;同时在终端本地就可以完成应用的识别,减少终端和服务器之间的交互,可以节约网络流量的消耗。
应当理解,本发明实施例中所描述的终端设备1000可执行前文图2到图6b所对应实施例中对所述应用识别方法的描述,也可执行前文图7所对应实施例中对所述应用识别装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的应用识别装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图2到图6b所对应实施例中对所述应用识别方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (18)

1.一种应用识别方法,其特征在于,包括:
获取目标应用的目标日志数据集合;
根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量;
根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量;
提取所述目标时间行为向量的目标时序特征信息;
提取所述目标概率行为向量的目标空间特征信息;
对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息;
根据所述目标融合特征信息识别所述目标应用的应用安全类型。
2.根据权利要求1所述的方法,其特征在于,所述目标日志数据集合包括用于表征业务行为类型的业务标识、业务行为时间;
所述根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量,具体包括:
按照所述业务行为时间的时间顺序,对所述目标日志数据集合中的所有业务标识进行顺序组合,得到标识数组,并将所述标识数组确定为所述目标时间行为向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量,包括:
根据所述目标日志数据集合中的所述业务标识,统计每种所述业务行为类型分别对应的行为发生概率;
按照所述业务标识的字符顺序,对所述行为发生概率进行顺序组合,得到概率数组,并将所述概率数组确定为所述目标概率行为向量;所述概率数组的长度等于所述业务行为类型的数量。
4.根据权利要求1所述的方法,其特征在于,所述提取所述目标时间行为向量的目标时序特征信息,包括:
基于目标应用检测模型中的递归子模型,对所述目标时间行为向量进行时序处理,得到待调整时序特征信息;
基于所述目标应用检测模型中的第一标准化子模型,对所述待调整时序特征信息进行归一化处理,得到处于目标特征区间内的目标时序特征信息。
5.根据权利要求1所述的方法,其特征在于,所述提取所述目标概率行为向量的目标空间特征信息,包括:
基于目标应用检测模型中的卷积子模型,对所述目标概率行为向量进行卷积处理和池化处理,得到待调整空间特征信息;
基于所述目标应用检测模型中的第二标准化子模型,对所述待调整空间特征信息进行归一化处理,得到处于所述目标特征区间内的目标空间特征信息。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标融合特征信息识别所述目标应用的应用安全类型,包括:
基于目标应用检测模型中的分类器,对所述目标融合特征信息进行识别处理,得到与所述目标融合特征信息匹配的目标标签信息;
若所述目标标签信息属于恶意标签类型,则确定所述目标应用的应用安全类型为恶意应用类型;
若所述目标标签信息属于正常标签类型,则确定所述目标应用的应用安全类型为正常应用类型。
7.根据权利要求1所述的要求,其特征在于,还包括:
若当前时间满足模型更新时间条件,则向云端服务器发送模型获取请求,以使所述云端服务器根据所述模型获取请求返回云端应用检测模型;所述云端应用检测模型是由所述云端服务器定时更新得到;
若所述云端应用检测模型与本地应用检测模型不同,则根据所述云端应用检测模型对所述本地应用检测模型进行更新,得到目标应用检测模型。
8.根据权利要求1所述的方法,其特征在于,还包括:
向所述云端服务器发送所述目标日志数据集合和所述目标应用的应用安全类型,以使所述云端服务器根据所述目标日志数据集合和所述目标应用的应用安全类型,更新云端应用检测模型。
9.根据权利要求1所述的方法,其特征在于,还包括:
当运行所述目标应用时,从多个预设检测点中分别采集所述目标应用的日志数据,并将所述多个预设检测点分别对应的日志数据组合为所述目标日志数据集合。
10.一种应用识别方法,其特征在于,包括:
终端设备向云端服务器发送模型获取请求;
所述云端服务器根据所述模型获取请求,向所述终端设备发送云端应用检测模型;
所述终端设备将所述云端应用检测模型确定为目标应用检测模型;
所述终端设备获取目标应用的目标日志数据集合;
所述终端设备根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量;
所述终端设备根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量;
所述终端设备提取所述目标时间行为向量的目标时序特征信息;
所述终端设备提取所述目标概率行为向量的目标空间特征信息;
所述终端设备对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息;
所述终端设备根据所述目标融合特征信息识别所述目标应用的应用安全类型。
11.根据权利要求10所述的方法,其特征在于,还包括:
所述云端服务器获取样本应用的样本日志数据集合和所述样本应用的应用安全类型;
所述云端服务器根据所述样本日志数据集合中每个日志数据所对应的业务行为类型,生成所述样本日志数据集合对应的样本时间行为向量和样本概率行为向量;
所述云端服务器根据所述样本时间行为向量、所述样本概率行为向量、所述样本应用的应用安全类型,调整所述云端应用检测模型。
12.根据权利要求11所述的方法,其特征在于,所述云端服务器根据所述样本时间行为向量、所述样本概率行为向量、所述样本应用的应用安全类型,调整所述云端应用检测模型,包括:
所述云端服务器基于所述云端应用检测模型中的递归子模型,对所述样本时间行为向量进行时序处理,得到待确定时序特征信息;
所述云端服务器基于所述云端应用检测模型中的第一标准化子模型,对所述待确定时序特征信息进行归一化处理,得到处于样本特征区间内的样本时序特征信息;
所述云端服务器基于所述云端应用检测模型中的卷积子模型,对所述样本概率行为向量进行卷积处理和池化处理,得到待确定空间特征信息;
所述云端服务器基于所述云端应用检测模型中的第二标准化子模型,对所述待确定空间特征信息进行归一化处理,得到处于所述样本特征区间内的样本空间特征信息;
所述云端服务器将所述样本时序特征信息和所述样本空间特征信息进行连接,得到样本融合特征信息;
所述云端服务器根据所述样本融合特征信息、所述样本应用的应用安全类型,调整所述云端应用检测模型。
13.根据权利要求12所述的方法,其特征在于,所述云端服务器根据所述样本融合特征信息、所述样本应用的应用安全类型,调整所述云端应用检测模型,包括:
所述云端服务器基于所述云端应用检测模型中的分类器,对所述样本融合特征信息进行识别处理,得到所述样本应用的应用安全识别结果;
所述云端服务器根据所述应用安全识别结果、所述样本应用的应用安全类型,计算分类误差;
所述云端服务器根据所述分类误差调整所述云端应用检测模型中的递归子模型的参数、所述云端应用检测模型中的第一标准化子模型的参数、所述云端应用检测模型中的卷积子模型的参数、所述云端应用检测模型中的第二标准化子模型的参数。
14.根据权利要求10所述的方法,其特征在于,还包括:
所述云端服务器获取所述终端设备发送的目标日志数据集合和所述目标应用的应用安全类型,根据所述目标日志数据集合、所述目标应用的应用安全类型、已保存的样本日志数据集合、已保存的样本应用的应用安全类型,更新所述云端应用检测模型。
15.一种应用识别装置,其特征在于,包括:
获取模块,用于获取目标应用的目标日志数据集合;
第一生成模块,用于根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量;
第二生成模块,用于根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量;
第一提取模块,用于提取所述目标时间行为向量的目标时序特征信息;
第二提取模块,用于提取所述目标概率行为向量的目标空间特征信息;
融合模块,用于对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息;
识别模块,用于根据所述目标融合特征信息识别所述目标应用的应用安全类型。
16.一种应用识别系统,其特征在于,所述应用识别系统包括:终端设备和云端服务器;
终端设备,用于向云端服务器发送模型获取请求;
所述云端服务器,用于根据所述模型获取请求,向所述终端设备发送云端应用检测模型;
所述终端设备,还用于将所述云端应用检测模型确定为目标应用检测模型;
所述终端设备,还用于获取目标应用的目标日志数据集合;
所述终端设备,还用于根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标时间行为向量;
所述终端设备,还用于根据所述目标日志数据集合中每个日志数据所对应的业务行为类型,生成所述目标日志数据集合对应的目标概率行为向量;
所述终端设备,还用于提取所述目标时间行为向量的目标时序特征信息;
所述终端设备,还用于提取所述目标概率行为向量的目标空间特征信息;
所述终端设备,还用于对所述目标空间特征信息和所述目标时序特征信息进行特征融合,得到目标融合特征信息;
所述终端设备,还用于根据所述目标融合特征信息识别所述目标应用的应用安全类型。
17.一种终端设备,其特征在于,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-9任一项所述的方法。
18.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-9任一项所述的方法。
CN201810230941.2A 2018-03-20 2018-03-20 一种应用识别方法、系统以及相关设备 Active CN108491720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810230941.2A CN108491720B (zh) 2018-03-20 2018-03-20 一种应用识别方法、系统以及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810230941.2A CN108491720B (zh) 2018-03-20 2018-03-20 一种应用识别方法、系统以及相关设备

Publications (2)

Publication Number Publication Date
CN108491720A true CN108491720A (zh) 2018-09-04
CN108491720B CN108491720B (zh) 2023-07-14

Family

ID=63318812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810230941.2A Active CN108491720B (zh) 2018-03-20 2018-03-20 一种应用识别方法、系统以及相关设备

Country Status (1)

Country Link
CN (1) CN108491720B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533683A (zh) * 2019-08-30 2019-12-03 东南大学 一种融合传统特征与深度特征的影像组学分析方法
CN111126120A (zh) * 2018-11-01 2020-05-08 百度在线网络技术(北京)有限公司 城市区域分类方法、装置、设备和介质
CN111626098A (zh) * 2020-04-09 2020-09-04 北京迈格威科技有限公司 模型的参数值更新方法、装置、设备及介质
CN111832591A (zh) * 2019-04-23 2020-10-27 创新先进技术有限公司 机器学习模型训练方法及装置
CN112307475A (zh) * 2020-09-29 2021-02-02 北京软慧科技有限公司 一种系统检测方法及装置
CN113159201A (zh) * 2021-04-28 2021-07-23 上海德衡数据科技有限公司 基于云边缘计算智能融合信息的方法、装置及云端服务器
CN116150221A (zh) * 2022-10-09 2023-05-23 浙江博观瑞思科技有限公司 服务于企业电商运营管理的信息交互方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110029817A1 (en) * 2009-07-30 2011-02-03 Hitachi, Ltd. Abnormality detection method, device and program
US20130247187A1 (en) * 2012-03-19 2013-09-19 Qualcomm Incorporated Computing device to detect malware
US20140237595A1 (en) * 2013-02-15 2014-08-21 Qualcomm Incorporated APIs for Obtaining Device-Specific Behavior Classifier Models from the Cloud
WO2017030672A1 (en) * 2015-08-14 2017-02-23 Qualcomm Incorporated Using normalized confidence values for classifying mobile device behaviors
CN106790008A (zh) * 2016-12-13 2017-05-31 浙江中都信息技术有限公司 用于在企业网络中检测异常主机的机器学习系统
CN107302547A (zh) * 2017-08-21 2017-10-27 深信服科技股份有限公司 一种web业务异常检测方法及装置
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN107808146A (zh) * 2017-11-17 2018-03-16 北京师范大学 一种多模态情感识别分类方法
US20180248902A1 (en) * 2015-08-28 2018-08-30 Mircea DÃNILÃ-DUMITRESCU Malicious activity detection on a computer network and network metadata normalisation
US20180246797A1 (en) * 2015-08-28 2018-08-30 Ankur MODI Identifying and monitoring normal user and user group interactions

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110029817A1 (en) * 2009-07-30 2011-02-03 Hitachi, Ltd. Abnormality detection method, device and program
US20130247187A1 (en) * 2012-03-19 2013-09-19 Qualcomm Incorporated Computing device to detect malware
CN104205111A (zh) * 2012-03-19 2014-12-10 高通股份有限公司 用以检测恶意软件的计算装置
US20140237595A1 (en) * 2013-02-15 2014-08-21 Qualcomm Incorporated APIs for Obtaining Device-Specific Behavior Classifier Models from the Cloud
WO2017030672A1 (en) * 2015-08-14 2017-02-23 Qualcomm Incorporated Using normalized confidence values for classifying mobile device behaviors
US20180248902A1 (en) * 2015-08-28 2018-08-30 Mircea DÃNILÃ-DUMITRESCU Malicious activity detection on a computer network and network metadata normalisation
US20180246797A1 (en) * 2015-08-28 2018-08-30 Ankur MODI Identifying and monitoring normal user and user group interactions
CN106790008A (zh) * 2016-12-13 2017-05-31 浙江中都信息技术有限公司 用于在企业网络中检测异常主机的机器学习系统
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN107302547A (zh) * 2017-08-21 2017-10-27 深信服科技股份有限公司 一种web业务异常检测方法及装置
CN107808146A (zh) * 2017-11-17 2018-03-16 北京师范大学 一种多模态情感识别分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEI-LING CHANG, HUNG-MIN SUN AND WEI WU: "An Android Behavior-Based Malware Detection Method using Machine Learning", 2016 IEEE INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING, COMMUNICATIONS AND COMPUTING, pages 1 - 4 *
孙名松;韩群;: "基于LDA模型的海量APT通信日志特征研究", 计算机工程, no. 02, pages 200 - 206 *
许艳萍: "基于数据特征的Android恶意应用检测关键技术研究", 信息科技, no. 02, pages 27 - 30 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126120A (zh) * 2018-11-01 2020-05-08 百度在线网络技术(北京)有限公司 城市区域分类方法、装置、设备和介质
CN111126120B (zh) * 2018-11-01 2024-02-23 百度在线网络技术(北京)有限公司 城市区域分类方法、装置、设备和介质
CN111832591A (zh) * 2019-04-23 2020-10-27 创新先进技术有限公司 机器学习模型训练方法及装置
CN110533683A (zh) * 2019-08-30 2019-12-03 东南大学 一种融合传统特征与深度特征的影像组学分析方法
CN110533683B (zh) * 2019-08-30 2022-04-29 东南大学 一种融合传统特征与深度特征的影像组学分析方法
CN111626098A (zh) * 2020-04-09 2020-09-04 北京迈格威科技有限公司 模型的参数值更新方法、装置、设备及介质
CN112307475A (zh) * 2020-09-29 2021-02-02 北京软慧科技有限公司 一种系统检测方法及装置
CN113159201A (zh) * 2021-04-28 2021-07-23 上海德衡数据科技有限公司 基于云边缘计算智能融合信息的方法、装置及云端服务器
CN116150221A (zh) * 2022-10-09 2023-05-23 浙江博观瑞思科技有限公司 服务于企业电商运营管理的信息交互方法及系统

Also Published As

Publication number Publication date
CN108491720B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN108491720A (zh) 一种应用识别方法、系统以及相关设备
CN110505196B (zh) 物联网卡异常检测方法及装置
CN111178760B (zh) 风险监测方法、装置、终端设备及计算机可读存储介质
CN106469276B (zh) 数据样本的类型识别方法及装置
CN107968730A (zh) 监测物联网卡被盗用的方法和系统
CN104717743B (zh) 基于信令分析的移动终端追踪方法及系统
CN111935172A (zh) 基于网络拓扑的网络异常行为检测方法、计算机装置及计算机可读存储介质
CN110830986A (zh) 一种物联网卡异常行为检测方法、装置、设备及存储介质
CN109859002B (zh) 产品推送方法、装置、计算机设备及存储介质
CN110471821A (zh) 异常变更检测方法、服务器及计算机可读存储介质
CN104836696B (zh) 一种ip地址的检测方法及装置
CN107038620A (zh) 基于用户打车偏好的信息推送及装置
CN110139280A (zh) 诈骗号码的检测方法、装置及存储介质
CN112437034B (zh) 虚假终端检测方法和装置、存储介质及电子装置
CN111931189A (zh) Api接口转用风险检测方法、装置和api服务系统
CN109657468A (zh) 病毒行为检测方法、装置及计算机可读存储介质
CN101389085A (zh) 基于发送行为的垃圾短消息识别系统及方法
CN111612085A (zh) 一种对等组中异常点的检测方法及装置
CN108182282A (zh) 地址真实性验证方法、装置及电子设备
CN114445088A (zh) 一种欺诈行为的判定方法、装置、电子设备和存储介质
CN107925881A (zh) 无线通信设备、无线通信系统、评估方法、和存储有程序的非暂时性计算机可读介质
CN112491900A (zh) 异常节点识别方法、装置、设备及介质
CN104994220A (zh) 一种数据处理方法和系统
CN108090172A (zh) 一种企业经营数据的监管方法与系统
CN104111821B (zh) 一种数据处理的方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant