CN113626815A - 病毒信息的识别方法、病毒信息的识别装置及电子设备 - Google Patents

病毒信息的识别方法、病毒信息的识别装置及电子设备 Download PDF

Info

Publication number
CN113626815A
CN113626815A CN202110912287.5A CN202110912287A CN113626815A CN 113626815 A CN113626815 A CN 113626815A CN 202110912287 A CN202110912287 A CN 202110912287A CN 113626815 A CN113626815 A CN 113626815A
Authority
CN
China
Prior art keywords
information
virus
website
target
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110912287.5A
Other languages
English (en)
Inventor
张彦
刘胜平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202110912287.5A priority Critical patent/CN113626815A/zh
Publication of CN113626815A publication Critical patent/CN113626815A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/561Virus type analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Virology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开涉及终端安全技术技术领域,提供了一种病毒信息的识别方法、病毒信息的识别装置及电子设备。其中,该方法包括:在目标信息发送至终端之前,提取目标信息中的网址信息;基于网址信息,获取目标信息对应的目标静态特征和目标动态特征;将静态特征和目标动态特征输入至训练后的病毒识别模型,并通过训练后的病毒识别模型预测目标信息中是否包含病毒。本技术方案在信息到达终端之前,基于人工智能技术对信息中是否包含病毒进行自动识别,具有较高的识别准确率,同时能够及时阻止包含病毒的信息被发送至终端,从而有效保障终端安全。

Description

病毒信息的识别方法、病毒信息的识别装置及电子设备
技术领域
本公开涉及终端安全技术领域,具体而言,涉及一种病毒信息的识别方法、一种病毒信息的识别装置,以及实现上述方法的计算机可读存储和电子设备。
背景技术
软件病毒主要通过网络进行复制传播,从而达到其快速扩散的目的。鉴于终端(如手机、手提电脑等)的高频使用率,为了保护用户利益,需要识别病毒信息(如短信),以遏制病毒信息的传播,进而保障终端安全。
相关技术中病毒短信防治方法一般在用户终端施行。一种方案中,提醒终端用户提高警惕性,如不点击打开不明网址、不下载安装不明手机应用等。另一种方案中,建议终端用户安装杀毒软件。然而相关技术提供的方案无法有效遏止病毒信息传播。
因此,亟需提供一种病毒信息的自动识别方案,以通过及时识别病毒信息来有效遏制病毒信息传播,进而保护终端安全。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开的目的在于提供一种病毒信息的识别方法、一种病毒信息的识别装置,以及实现上述方法的计算机可读存储和电子设备,进而至少在一定程度上提升病毒信息的识别及时性,能够有效保证终端安全。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种病毒信息的识别方法,包括:在目标信息发送至终端之前,提取上述目标信息中的网址信息;基于上述网址信息,获取上述目标信息对应的目标静态特征和目标动态特征;将上述静态特征和上述目标动态特征输入至训练后的病毒识别模型,并通过上述训练后的病毒识别模型预测上述目标信息中是否包含病毒。
在本公开的一些实施例中,基于前述方案,上述方法还包括:在上述目标信息中包含病毒的情况下,拦截上述目标信息到达上述终端;在上述目标信息中不包含病毒的情况下,发送上述目标信息至上述终端。
在本公开的一些实施例中,基于前述方案,提取上述目标信息中的网址信息,包括:加载用于提取网址信息的正则表达式;根据上述正则表达式对上述目标信息进行匹配,并将相匹配的内容提取得到上述网址信息。
在本公开的一些实施例中,基于前述方案,基于上述网址信息,获取上述目标信息对应的目标静态特征和目标动态特征,包括:在上述网址信息中获取上述目标静态特征;通过网络爬虫技术对上述网址信息进行访问得到上述目标动态特征。
在本公开的一些实施例中,基于前述方案,上述方法还包括:
根据包含病毒的信息确定正样本信息集合,以及根据不包含病毒的信息确定负样本信息集合;基于上述正样本信息集合中每条信息分别对应的正类网址信息,获取上述每条信息分别对应的正类静态特征和正类动态特征;基于上述负样本信息集合中每条信息分别对应的负类网址信息,获取上述每条信息分别对应的负类静态特征和负类动态特征;根据上述正样本信息集合中每条信息分别对应的正类静态特征和正类动态特征,以及上述负样本信息集合中每条信息分别对应的负类静态特征和负类动态特征,确定分类模型的模型损失;根据上述模型损失对上述病毒识别模型的模型参数进行迭代计算,以优化上述模型参数,得到上述训练后的病毒识别模型。
在本公开的一些实施例中,基于前述方案,根据上述正样本信息集合中每条信息分别对应的正类静态特征和正类动态特征,以及上述负样本信息集合中每条信息分别对应的负类静态特征和负类动态特征,确定分类模型的模型损失,包括:
对于第i个决策树,获取第i特征集,计算以上述第i特征集中任一特征作为分裂节点的情况下的信息熵,并将信息熵差最大值对应的特征作为上述第i个决策树的根节点,其中,i的取值为不大于预设决策树总个数的正整数,上述第i特征集包括上述正样本信息集合中每条信息分别对应的正类静态特征和正类动态特征,以及上述负样本信息集合中每条信息分别对应的负类静态特征和负类动态特征;在上述第i特征集中排除上述第i个决策树的根节点对应的特征之后,计算以任一特征作为分裂节点的情况下的信息熵,并将信息熵差最大值对应的特征作为上述第i个决策树的中间节点,直至达到上述第i个决策树的预设分裂高度或者预设信息熵差;获取以上述根节点进行决策时确定的叶子节点对应的第一预测标签,以及获取以上述中间节点进行决策时确定的叶子节点对应的第二预测标签,根据上述第一预测标签、上述第二预测标签以及实际标签确定上述第 i个决策树对应的模型损失。
在本公开的一些实施例中,基于前述方案,在确定上述模型损失之后,上述方法还包括:根据上述模型损失确定交叉熵损失函数作为上述病毒识别模型的损失函数;根据上述模型损失对上述病毒识别模型的模型参数进行迭代计算,包括:采用随机梯度下降法处理上述损失函数以对上述病毒识别模型的模型参数进行迭代计算。
在本公开的一些实施例中,基于前述方案,上述目标静态特征、上述正类静态特征和上述负类静态特征分别包括以下信息中的一种或多种:网址长度特征、网址词汇特征、网址相似性特征、顶级域名特征和短网址特征;上述目标动态特征、上述正类动态特征和上述负类动态特征分别包括以下信息中的一种或多种:浏览器特征、页面跳转特征、IP地理位置特征、安装程序下载特征、文件属性特征和程序行为特征。
根据本公开的一个方面,提供了一种病毒信息的识别装置,包括:网址提取模块、特征获取模块以及识别模块。
其中,上述网址提取模块,被配置为在目标信息发送至终端之前,提取上述目标信息中的网址信息;上述特征获取模块,被配置为:基于上述网址信息,获取上述目标信息对应的目标静态特征和目标动态特征;以及,上述识别模块,被配置为:将上述静态特征和目标动态特征输入至训练后的病毒识别模型,并通过上述训练后的病毒识别模型预测上述目标信息中是否包含病毒。
根据本公开的一个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的病毒信息的识别方法。
根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的病毒信息的识别方法。
根据本公开的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质中读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的病毒信息的识别方法。
由上述技术方案可知,本公开示例性实施例中的病毒信息的识别方法、病毒信息的识别装置、计算机存储介质及电子设备至少具备以下优点和积极效果:
在本公开的一些实施例所提供的技术方案中,在目标信息发送至终端之前,提取所述目标信息中的网址信息,然后,基于网址信息获取目标信息对应的目标静态特征和目标动态特征。进一步地,将目标静态特征和目标动态特征输入至训练后的病毒识别模型,以通过训练后的病毒识别模型预测所述目标信息中是否包含病毒。其中,在信息到达终端之前,由网络侧(服务器,而非终端)识别信息中是否包含病毒,能够及时阻止包含病毒的信息被发送至终端,从而实现主动防范病毒信息,及时发现病毒信息并从源头有效遏止其传播与扩散,保障终端用户的信息安全。另一方面,本技术方案基于人工智能技术对信息中是否包含病毒进行预测识别,具有较高的识别准确率。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
在附图中:
图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。
图2示出本公开一示例性实施例中病毒识别模型的训练方法的流程示意图。
图3示出本公开一示例性实施例中对实体的特征提取方法的流程示意图。
图4示意性示出了本公开一示例性实施例中包含第一类预设词语的饼图。
图5示意性示出了本公开一示例性实施例中包含第二类预设词语的饼图。
图6示出本公开一示例性实施例中病毒信息的识别装置的结构示意图。
图7示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
软件病毒主要通过网络进行复制传播,从而达到其快速扩散的目的。随着智能终端(如,智能手机等)普及、3G/4G/5G网络建成使用,移动互联网飞速发展,使得智能终端成为了必不可少的通讯工具。移动互联网具有接入便捷(如,无线接入)、上网快、覆盖面广等特点,由此形成了软件病毒极为满意的传播渠道。
例如,病毒通过带有病毒网址的短信推送伪装引诱信息,使得目标用户被动接收,由于年龄及受教育程度等因素,用户容易触发病毒下载以及通讯录接力扩散传播,因此其危害面大。如背景技术部分所述,目前包含病毒的信息(如,病毒短信)防治方法多在用户终端施行。具体的,基于终端实施的相关方案中,在终端下载安装杀毒软件,如xxx手机卫士等。通过杀毒软件实现查杀手机病毒的功能,然而,安装在终端的杀毒软件主要针对存在于终端的病毒apk(Android application package, Android应用程序包)文件,而未对病毒网址进行针对性分析,进而无法通过网址特征对病毒信息进行预测。同时,由于需要用户安装APP应用,对用户要求较高,也无法处理未安装该APP应用的手机病毒感染,更无法遏止病毒短信扩散。
对于基于网络侧实施的相关技术,主要时通过关键词、基于短信内容的分类比较计算相似度等方式,需要预先知道关键词、收集病毒短信内容样本数据,才能对病毒短信识别和拦截,工作较为被动和滞后,也无法适应病毒短信不断变化的特性。
为了实现主动防范病毒短信,及时发现病毒短信并从源头有效遏止其传播与扩散,本技术方案在信息到达终端之前,从网络侧基于人工智能技术预测信息中是否包含病毒,能够实现主动防范病毒短信,及时真确的发现病毒短信并从源头有效遏止其传播与扩散,保障用户信息安全,减少用户损失。同时,本方案为运营商进行短信业务安全运营的必要手段。以下介绍本技术方案所涉及的人工智能相关技术:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明:
图1示出了可以应用本公开实施例的一病毒信息的识别方案的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括终端110、网络120、服务器 130。其中,终端110和服务器130通过网络120连接。
具体的,终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。在本技术方案提供的实施例中,为了保障终端110的安全,将阻止包含病毒的信息发送至该终端。网络120可以是能够在终端110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路、无线通信链路或者光纤电缆等等,本申请在此不做限制。服务器130用于执行本公开提供的病毒信息的识别方案,其可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器。
示例性的,服务器130还可以提供病毒识别模型的训练。
具体地,服务器130根据包含病毒的信息确定正样本信息集合,以及根据不包含病毒的信息确定负样本信息集合。然后,服务器130基于所述正样本信息集合中每条信息分别对应的正类网址信息,获取所述每条信息分别对应的正类静态特征和正类动态特征;以及,服务器130基于所述负样本信息集合中每条信息分别对应的负类网址信息,获取所述每条信息分别对应的负类静态特征和负类动态特征。进一步地,服务器130根据所述正样本信息集合中每条信息分别对应的正类静态特征和正类动态特征,以及所述负样本信息集合中每条信息分别对应的负类静态特征和负类动态特征,确定分类模型的模型损失。服务器130根据所述模型损失对所述病毒识别模型的模型参数进行迭代计算,以优化所述模型参数,得到所述训练后的病毒识别模型。
示例性的,服务器130还可以存储训练后的病毒识别模型,以提供病毒信息的识别算法
本公开实施例所提供的病毒信息的识别方法由服务器130执行,在信息到达终端110之前识别信息中是否包含病毒。示例性的,图2示出本公开一示例性实施例中病毒信息的识别方法的流程示意图。其中,病毒信息是指包含病毒的信息。如,包含病毒的短信等。
参考图2,该图所示实施例提供的病毒信息的识别方法包括:
步骤S210,在目标信息发送至终端之前,提取所述目标信息中的网址信息。其中,上述目标信息可以是通过网络传播的任一信息。
步骤S220,基于所述网址信息,获取所述目标信息对应的目标静态特征和目标动态特征;以及,步骤S230,将所述静态特征和所述目标动态特征输入至训练后的病毒识别模型,并通过所述训练后的病毒识别模型预测所述目标信息中是否包含病毒。
其中,包含病毒的信息(如,包含病毒的短信)可以是带有恶意链接的信息,例如,通过诱导用户点击恶意链接,下载和自动安装apk文件。进一步地,安装该apk软件的终端将有可能被窃取通讯录信息、拨打/接听电话记录信息和短信记录信息等,还有可能使得安装该apk软件的终端自动地以短信方式继续向手机通讯录好友传播上述包含病毒的信息。进而对终端以及终端用户的信息安全造成极大隐患。
图2所示实施例提供的技术方案,在信息到达终端之前,由网络侧 (服务器,而非终端)识别信息中是否包含病毒,能够及时阻止包含病毒的信息被发送至终端,从而实现主动防范病毒信息,及时发现病毒信息并从源头有效遏止其传播与扩散,保障终端用户的信息安全。另一方面,本技术方案基于人工智能技术对信息中是否包含病毒进行预测识别,具有较高的识别准确率。同时,本方案为运营商进行短信业务安全运营的必要手段。
以下对图2所示实施例中各个步骤的具体实施方式进行详细介绍:
在步骤S210中,在目标信息发送至终端之前,提取所述目标信息中的网址信息。
在示例性的实施例中,上述目标信息以短信为例进行说明。示例性的,在服务器根据《短消息业务中心与短消息管理中心接口》技术规范从短信中心(即短信到达接收端之前)实时获取发送过程中的短信数据。进一步地,对短消息进行解码,获取主叫号码、被叫号码、发送时间、短信内容等数据信息。
由于病毒一般以网址的形式体现在短信中,因此本技术方案针对性的识别并提取短信中的网址(而排出短信内容中除了网址之外的文字信息)。并进一步地针对网址分析与病毒相关的特征信息,作为研判病毒短信的判断依据。
示例性的,先对上述短信内容中的网址信息进行识别提取。
在一种示例性的示例例中,通过设置正则表达式的方式识别提取网址信息。具体的,加载用于提取网址信息的正则表达式,并根据该正则表达式对上述目标信息进行匹配,再将相匹配的内容提取得到该目标信息中的网址信息。其中,正则表达式为用于匹配字符串中字符组合。
在另一种示例性的实施例中,还可以通过爬虫程序对目标信息中的 URL(UniformResource Locator,统一资源定位器)进行抓取,进而得到该目标信息中的网址信息。
在步骤S220中,基于所述网址信息,获取所述目标信息对应的目标静态特征和目标动态特征。
在示例性的实施例中,参考图3,上述目标静态特征包括以下信息中的一种或多种:网址长度特征、网址词汇特征、网址相似性特征、顶级域名特征和短网址特征,上述目标动态特征以下信息中的一种或多种:浏览器特征、页面跳转特征、IP地理位置特征、安装程序下载特征、文件属性特征和程序行为特征。
以目标信息为短信为例,以下介绍如何获取上述目标静态特征和目标动态特征:
在示例性的实施例中,对上述目标信息对应的网址信息本身进行分析统计,便可以获取上述目标静态特征。以下对静态特征:网址长度特征、网址词汇特征、网址相似性特征、顶级域名特征和短网址特征,分别进行解释说明:
网址长度特征:鉴于短信长度具有140个字节的限制,包含病毒的短信通过较为简短的语言描述和便捷的网址点击访问方式,诱导接收端用户访问链接。示例性的,包含病毒的短信的URL长度范围为[11,14] 个字符。如确定URL长度在上述范围内,则网址长度特征对应的特征值为1,如确定URL长度未在上述范围内,则网址长度特征对应的特征值为0。
网址词汇特征:病毒网址中使用的词随意性较大,无特别含义。因此将其作为判断病毒网址的决策因素之一。示例性的,通过利用英文词汇语法检测方法,对网址信息中的词进行语法检测,如语法检测结果为不正常,则网址词汇特征对应的特征值为1,如语法检测结果为正常,则网址词汇特征对应的特征值为0。
网址相似特征:为了避开因网址被设置为关键词而无法正常下发,部分病毒网址通过调整网址中的路径信息,引申出一个新的网址,但实际上这些网址都具有相同的前缀结构,因此将其作为判断病毒网址的决策因素之一。具体地,将短信中的网址与病毒网址库中的网址进行相似比较。
示例性的,如与病毒网址的相似度大于预设值,则网址相似特征对应的特征值为1,如与病毒网址的相似度不大于预设值,则网址相似特征对应的特征值为0。示例性的,如果存在相同前缀结构,则网址相似特征对应的特征值为1,否则为0。
顶级域名特征:网址使用不常见的顶级域名时,如:pw、me,网址为病毒网址的可能性提高30%,因此将其作为判断病毒网址的决策因素之一。具体地,通过定义常见顶级域名列表,若该短信中的网址的顶级域名不存在于上述常见顶级域名列表中,或者包含不常见的顶级域名(如, pw、me)时,则确定该网址的顶级域名特征对应的特征值为1。若该短信中的网址的顶级域名存在于上述常见顶级域名列表中,则确定该网址的顶级域名特征对应的特征值为为0。
短网址特征:为了使病毒网址更具有隐蔽性,即为了与普通非病毒网址相类似,病毒网址通常借助于知名的第三方平台生成短网址,缩短地址的同时隐藏了真实的病毒网址域名。因此将短网址特征作为判断病毒网址的决策因素之一。
具体地,对网址进行是否为第三方平台的短网址检测。若检测结果为该网址为第三方平台的短网址,则短网址特征对应的特征值为1,若检测结果为该网址不是第三方平台的短网址,则短网址特征对应的特征值为0。
在示例性的实施例中,通过网络爬虫技术对上述目标信息对应的网址信息进行访问得到上述目标动态特征。以下对动态特征:浏览器特征、页面跳转特征、IP地理位置特征、安装程序下载特征、文件属性特征和程序行为特征,分别进行解释说明:
浏览器特征:包含病毒网址的短信中的网址攻击对象主要为智能终端(如,手机),通过在手机端点击网址自动下载安装文件并安装,利用病毒程序扩散病毒短信和窃取用户手机上的信息。为了防止病毒网址被 PC端浏览器或爬虫服务访问,病毒网址通常限制只能手机浏览器才能访问,将对访问网址的浏览器进行检测和类型限制。因此本技术方案将浏览器特征作为判断病毒网址的决策因素之一。
具体地,可以检测网址是否存在访问浏览器类型的限制。若检测结果为存在访问浏览器类型的限制,则确定该网址的浏览器特征对应的特征值为1,若检测结果为不存在访问浏览器类型的限制,则确定该网址的浏览器特征对应的特征值为0。
页面跳转特征:正常情况下,通过爬虫服务访问病毒网址即可爬取病毒网址提供的病毒程序安装文件,对病毒安装程序进行程序行为分析。但实际中,病毒短信制造者为了防止病毒网址被爬虫服务访问,在访问网址上通过window.location.href、window.loction.replace、window.navigate、 self.location、meta配置等方式设置页面跳转,实现反爬虫访问处理。因此本技术方案将页面跳转特征作为判断病毒网址的决策因素之一。
具体地,可以检测网址是否存在页面跳转处理。若检测结果为存在页面跳转处理,则确定该网址的浏览器特征对应的特征值为1,检测结果为不存在页面跳转处理,则确定该网址的浏览器特征对应的特征值为 0。
IP地理位置特征:病毒网址归属的服务器IP所在地,通过都相对集中,另外为了避开公安部门的侦查追踪,约60%的病毒网址服务器IP均来自境外。因此,本技术方案将IP地理位置特征作为判断病毒网址的决策因素之一。
具体地,确定病毒网址常出现的归属地列表,通过获取网址对应服务器IP的归属地信息,并在常出现病毒网址的归属列表中查找。若在常出现病毒网址的归属列表能够查找到,则确定该网址的IP地理位置特征对应的特征值为1,在常出现病毒网址的归属列表不能查找到,则确定该网址的IP地理位置特征对应的特征值为10。
安装程序下载特征:病毒短信为了实现病毒扩散和窃取用户手机上的信息,必须通过病毒短信中的网址提供病毒安装程序的下载,有别于普通网址提供的网页信息内容服务。因此,本技术方案将安装程序下载特征作为判断病毒网址的决策因素之一。
具体地,对网址是否提供安装程序下载安装的行为进行检索。若检测结果为存在提供安装程序下载安装的行为,则确定该网址的安装程序下载特征对应的特征值为1,若检测结果为不存在提供安装程序下载安装的行为,则确定该网址的安装程序下载特征对应的特征值为0。
文件属性特征:病毒网址提供下载的病毒安装程序,经统计分析,文件为Android安装包(apk),60%的文件名为中文,80%的文件大小在 [200,330]KB范围。因此,本技术方案将文件属性特征作为判断病毒网址的决策因素之一。
具体地,获取病毒网址提供的病毒安装文件的属性,若文件为 Android安装包,或文件名为中文,或文件大小在[200,330]KB范围,则确定该网址的文件属性特征对应的特征值为1;若文件并非droid安装包且文件名并非中文且文件大小不[200,330]KB范围,则确定该网址的文件属性特征对应的特征值为0。
程序行为特征:病毒网址提供下载安装的病毒程序,为了能继续扩散病毒和窃取用户信息,该安装文件所要获取的系统权限和动作行为会包含以下特征:读取通讯录中的手机号码和姓名信息,对病毒短信模板更新姓名信息,并往该通讯录好友发送病毒短信;读取手机终端信息、用户的通讯录、通话记录和短信等信息,通过邮件方式往指定邮箱发送。因此,本技术方案将程序行为特征作为判断病毒网址的决策因素之一。
具体地,检测病毒程序的行为特征,判断是否泄露隐私的行为或存在恶意行为。若存在泄露隐私的行为或存在恶意行为,则确定该网址的程序行为特征对应的特征值为1,若不存在泄露隐私的行为以及不存在恶意行为,则确定该网址的程序行为特征对应的特征值为0。
基于上述方案,在运营商网络侧实时接收短信(目标信息),根据识别并提取区中的网址信息。进一步地,根据上述实施例获取网址信息所承载的特征信息。进一步地,将在步骤S230中运用训练后的病毒识别模型判定规则判别该短信(目标信息)是否包含病毒,进而实现病毒短信的精准识别。
在介绍步骤S230的具体实施方式之前,先介绍训练病毒识别模型的实施例。其中,图4示出本公开一示例性实施例中病毒识别模型的训练方法的流程示意图。参考图4,该实施例提供的病毒识别模型的训练方法,包括步骤S410-步骤S440。
在步骤S410中,根据包含病毒的信息确定正样本信息集合,以及根据不包含病毒的信息确定负样本信息集合。
该步骤对应的具体实施方式可以参步骤S210的具体实施方式实施例,在此不再赘述。
在步骤S420中,基于所述正样本信息集合中每条信息分别对应的正类网址信息,获取所述每条信息分别对应的正类静态特征和正类动态特征;基于所述负样本信息集合中每条信息分别对应的负类网址信息,获取所述每条信息分别对应的负类静态特征和负类动态特征。
该步骤对应的具体实施方式可以参步骤S220的具体实施方式实施例,在此不再赘述。
在步骤S430中,根据所述正样本信息集合中每条信息分别对应的正类静态特征和正类动态特征,以及所述负样本信息集合中每条信息分别对应的负类静态特征和负类动态特征,确定分类模型的模型损失;以及,在步骤S440中,根据所述模型损失对所述病毒识别模型的模型参数进行迭代计算,以优化所述模型参数,得到训练后的病毒识别模型。
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。
决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中,在每个结点都会遇到一个测试,对每个结点上问题的不同的测试输出导致不同的分支,最后会到达一个叶子结点,这个过程就是利用决策树进行分类的过程,利用若干个变量来判断所属的类别。
在本示例性的实施例中,通过基于轻量化的梯度提升机(Light GradientBoosting Machine,简称:LightGBM)模型确定上述病毒识别模型,该模型相当于多个决策树的集成模型。
示例性的,根据步骤S220的实施方式,对于每个样本收集上述11个网址特征数据及其对应的特征值作为样本数据。示例性的,还可以将样本数据分为训练集和测试集,将训练集输入到决策树模型中进行模型参数训练。示例性的,可以采用的决策树算法为C4.5算法(C4.5算法继承了ID3 算法的优点,产生的分类规则易于理解,准确率较高),将模型参数训练结果,再应用到测试集中,通过调整置信因子、叶子节点的实例个数等参数,通过交叉验证和评估指标对比,得出稳定性和准确率较高的模型参数规则。
具体的,图5示出了本公开一示例性实施例中模型损失确定方法的流程示意图,包括:
步骤S510,对于第i个决策树,获取第i特征集,计算以所述第i特征集中任一特征作为分裂节点的情况下的信息熵,并将信息熵差最大值对应的特征作为所述第i个决策树的根节点。
其中,i的取值为不大于预设决策树总个数的正整数,所述第i特征集包括所述正样本信息集合中每条信息分别对应的正类静态特征和正类动态特征,以及所述负样本信息集合中每条信息分别对应的负类静态特征和负类动态特征。
其中,数据越混乱信息熵越大,而数据越有序信息则信息熵越小。
示例性的,对于上述获取到的正类静态特征(如包含5维)、正类动态特征(如包含6维)以及负类静态特征(如包含5维)和负类动态特征 (如包含6维),则在本实施例中整体上有上述22维特征。对于多个决策树中的任意一个,从上述22维特征中获取多维(如15维)作为该决策树对应的特征集,并计算该特征集中哪个作为分裂节点进行分裂后,信息熵减少的最多,并将该节点作为根节点。
步骤S520,在所述第i特征集中排除所述第i个决策树的根节点对应的特征之后,计算以任一特征作为分裂节点的情况下的信息熵,并将信息熵差最大值对应的特征作为所述第i个决策树的中间节点,直至达到所述第i个决策树的预设分裂高度或者预设信息熵差。
仍以上述实施例为例,将根节点对应的特征在特征集中排除后,再次计算任一特征作为分裂节点的情况下的信息熵,并将信息熵差最大值对应的特征作为该决策树的中间节点,以此类推直到达到该决策树对应的预先要求的分裂高度或者信息熵差。
步骤S530,获取以所述根节点进行决策时确定的叶子节点对应的第一预测标签,以及获取以所述中间节点进行决策时确定的叶子节点对应的第二预测标签,根据所述第一预测标签、所述第二预测标签以及实际标签确定所述第i个决策树对应的模型损失。其中,上述第一预测标签是“包含病毒”,上述第二预测标签是“不包含病毒”,当然,还可以是上述第一预测标签是“不包含病毒”,上述第二预测标签是“包含病毒”。
示例性的,计算第一预测标签和该叶子节点对应的实际标签之间差别来确定第一损失,并计算第二预测标签和相关叶子节点对应的实际标签之间差别来确定第二损失。进而,根据第一损失和第二损失确定第i个决策树对应的模型损失。在示例性的实施例中,通过交叉熵损失函数作为所述病毒识别模型的损失函数,采用梯度下降法(StochasticGradient Descent,简称:SGD)处理所述损失函数以对所述病毒识别模型的模型参数进行迭代计算。示例性的,训练上述病毒识别模型的具体参数可以如下:学习率 0.07,特征选择比例0.8。
仍以上述实施例为例,进一步地,基于这i个决策树的概率损失去构建第i+1个决策树,直到预设规定的树个数。其中,每个决策树中根节点和中间节点的确定方式均如上述实施例所述。
需要说明的是,通过调参来确定决策树的个数、每个决策树对应的分裂高度或者信息熵差,即实现模型训练。
在示例性的实施例中,可以通过以下模型评价指标中的一种或多种:混淆矩阵、准确率、召回率和接收者操作特征曲线(receiver operating characteristic curve,简称:ROC)下面积AUC(一种模型评价指标,具体用于评估模型的预测价值;是Area Under Curve的简称)对上述迭代优化后的病毒识别模型进行评价。具体的:
示例性的,通过训练样本进行迭代优化之后,再通过测试集中的样本对迭代优化后中的病毒识别模型(记作“待测试模型”)进行测试。具体的,针对不同的参数(包括:决策树的个数、每个决策树对应的分裂高度或者信息熵差等)进行以下测试,进而获取到该参数对应的较佳值,并将该参数为较佳值的情况下的病毒识别模型进行识别目标信息中是否包含病毒。例如,分别在决策树的个数取值为50/100/150的情况下,通过测试集中的样本进行测试,得到多个测试结果(包括以下多个测试指标对应的结果:准确率,召回率,混淆矩阵,AUC,ROC曲线等)。
其中,混淆矩阵可以用来评价监督式学习模型的精确性,矩阵的每一列代表一个类的实例预测,而每一行表示一个实际的类的实例。本方法的分类判断结果只有2种,是包含病毒和不包含病毒,对应的混淆矩阵如表 1所示:
表1
Figure BDA0003204234800000171
其中,P(Positive Sample):表示正例的样本数量;
N(Negative Sample):表示负例的样本数量;
TP(True Positive):表示正确预测到的正例的数量;
FP(False Positive):表示把负例预测成正例的数量;
FN(False Negative):表示把正例预测成负例的数量;
TN(True Negative):表示正确预测到的负例的数量。
在示例性的实施例中,针对某一参数(如决策树的个数)进行的测试过程如下:
根据测试样本输入至待测试模型,模型的输出数据得到混淆矩阵:真阳性TP,真阴性TN,伪阴性FN和伪阳性FP。
根据真阳性TP,真阴性TN,伪阴性FN和伪阳性FP计算待测试模型的测试结果。
根据以下两个公式分别计算准确率p和召回率r;
p=TP/(TP+FP)
r=TP/(TP+FN)
假如,测试指标对应的预设要求为:准确率测试结果大于p’(预设值) 则为满足测试指标为准确率的预设要求,否则不满足测试指标为准确率的预设要求,以及召回率测试结果大于r’(预设值)则为满足测试指标为召回率的设预设要求,否则不满足测试指标为召回率的预设要求。
在示例性的实施例中,测试指标为AUC的情况下,利用以下两公式分布确定伪阳性率FPR和真阳性率TPR,
FPR=FP/(FP+TN)
TPR=TP/(TP+FN)
进一步地,以FPR为横坐标,TPR为纵坐标,绘制受试者工作特征曲线(ReceiverOperating Characteristic curve,简称ROC曲线)。其中, ROC曲线是获得的各指标的特征曲线,用于展示各指标之间的关系,并进一步计算出ROC曲线下面积AUC。ROC曲线是获得的各指标的特征曲线,用于展示各指标之间的关系,AUC即ROC曲线下面积,AUC越大,则模型的预测价值越高,进而可通过AUC对待测试模型进行测试。
示例性的,假如决策树的个数为100的时候,测试结果满足各个测试指标的预设要求,则就使用决策树的个数为100的模型用于目标信息中是否包含病毒的预测。
为了使模型经得起现实数据的检验,模型还可以使用交叉验证评估方法。其中,交叉验证(cross-validation)是指把数据分成数量相同的k份,每次使用数据进行分类时,选择其中一份作为检验集,剩下的k-1份为训练集,重复k次,正好使得每一份数据都被用于一次检验集k-1次训练集。该方法的优点是尽可能多的数据作为训练集数据,每一次训练集数据和检验集数据都是相互独立的,并且完全覆盖了整个数据集。
示例性的,本技术方案建立的决策树判断规则模型,使用1万条样本数据(如,包含8000条病毒短信正样本集合和包含2000条正常短信负样本集合),通过交叉验证和评估指标对比,最终确定出准确率98.4%、召回率99.2%,虚警率5%,精确度98.7%的判定规则。
在示例性的实施例中,对于测试后满足预测测试指标的病毒识别模型,可用于识别目标信息中是否包含病毒。示例性的,执行步骤S230:将所述静态特征和所述目标动态特征输入至训练后的病毒识别模型,并通过所述训练后的病毒识别模型预测所述目标信息中是否包含病毒。
在示例性的实施例中,参考图2,在所述目标信息中包含病毒的情况下,执行步骤S240:拦截所述目标信息到达所述终端,即对判别为包含病毒的目标信息实现拦截封堵。在所述目标信息中不包含病毒的情况下,执行步骤S250:发送所述目标信息至所述终端,即对判别为正常短信的短消息数据实现放行下发。
本申请提供了一种基于网址特征预测是否包含病毒的技术方案,通过较为全面的包含病毒的信息的网址特征(包括静态特征和动态特征)和为包含病毒的信息的网址特征训练分类模型,从而实现精准识别和自动拦截病毒短信,起到遏制病毒短信的传播的技术效果,有效减少用户信息泄露的风险和由其带来的经济损失。
在一实施例中,目前基于网址特征识别病毒短信的方法已在湖南省垃圾消息拦截系统中得到应用,经统计,2016年发现的带有网址的短信总量为1353.46万条(月均112.79万条),拦截病毒短信量44.3万(月均3.69 万条),经人工二次确认的病毒短信总量为43.1万条(月均3.59万条),准确率达97%,总共避免了25.66万个用户移动终端感染病毒(月均2.14 万个),保障了用户终端安全,为用户挽回了不可估量的经济损失和家庭伤害,履行了运营商的社会责任,达到精准判断和拦截的要求。
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由处理器,(包括GPU/CPU)执行的计算机程序。在该计算机程序被 GPU/CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
以下通过图6介绍本公开的病毒信息的识别装置实施例,可以用于执行本公开上述的病毒信息的识别方法。
图6示出本公开一示例性实施例中病毒信息的识别装置的结构示意图。
如图6所示,上述病毒信息的识别装置600包括:网址提取模块601、特征获取模块602以及识别模块603。
其中,上述网址提取模块601,被配置为:在目标信息发送至终端之前,提取上述目标信息中的网址信息;上述特征获取模块602,被配置为:基于上述网址信息,获取上述目标信息对应的目标静态特征和目标动态特征;以及,上述识别模块603,被配置为:将上述静态特征和目标动态特征输入至训练后的病毒识别模型,并通过上述训练后的病毒识别模型预测上述目标信息中是否包含病毒。
在本公开的一些实施例中,基于前述方案,上述病毒信息的识别装置 600还包括:信息拦截模块604和信息发送模块605。
其中,上述信息拦截模块604,被配置为:在上述目标信息中包含病毒的情况下,拦截上述目标信息到达上述终端;以及,上述信息发送模块 605,被配置为:在上述目标信息中不包含病毒的情况下,发送上述目标信息至上述终端。
在本公开的一些实施例中,基于前述方案,上述网址提取模块601,被具体配置为:加载用于提取网址信息的正则表达式;以及,根据上述正则表达式对上述目标信息进行匹配,并将相匹配的内容提取得到上述网址信息。
在本公开的一些实施例中,基于前述方案,上述特征获取模块602,被具体配置为:在上述网址信息中获取上述目标静态特征;以及,通过网络爬虫技术对上述网址信息进行访问得到上述目标动态特征。
在本公开的一些实施例中,基于前述方案,上述病毒信息的识别装置 600还包括:模型训练模块606。
其中,上述模型训练模块606,包括样本确定单元、特征获取单元、损失确定单元和迭代计算单元。
上述样本确定单元,被配置为:根据包含病毒的信息确定正样本信息集合,以及根据不包含病毒的信息确定负样本信息集合;
上述特征获取单元,被配置为:基于上述正样本信息集合中每条信息分别对应的正类网址信息,获取上述每条信息分别对应的正类静态特征和正类动态特征;基于上述负样本信息集合中每条信息分别对应的负类网址信息,获取上述每条信息分别对应的负类静态特征和负类动态特征;
上述损失确定单元,被配置为:根据上述正样本信息集合中每条信息分别对应的正类静态特征和正类动态特征,以及上述负样本信息集合中每条信息分别对应的负类静态特征和负类动态特征,确定分类模型的模型损失;以及,上述迭代计算单元,被配置为:根据上述模型损失对上述病毒识别模型的模型参数进行迭代计算,以优化上述模型参数,得到上述训练后的病毒识别模型。
在本公开的一些实施例中,基于前述方案,上述损失确定单元,被具体配置为:
对于第i个决策树,获取第i特征集,计算以上述第i特征集中任一特征作为分裂节点的情况下的信息熵,并将信息熵差最大值对应的特征作为上述第i个决策树的根节点,其中,i的取值为不大于预设决策树总个数的正整数,上述第i特征集包括上述正样本信息集合中每条信息分别对应的正类静态特征和正类动态特征,以及上述负样本信息集合中每条信息分别对应的负类静态特征和负类动态特征;在上述第i特征集中排除上述第i个决策树的根节点对应的特征之后,计算以任一特征作为分裂节点的情况下的信息熵,并将信息熵差最大值对应的特征作为上述第i个决策树的中间节点,直至达到上述第i个决策树的预设分裂高度或者预设信息熵差;获取以上述根节点进行决策时确定的叶子节点对应的第一预测标签,以及获取以上述中间节点进行决策时确定的叶子节点对应的第二预测标签,根据上述第一预测标签、上述第二预测标签以及实际标签确定上述第 i个决策树对应的模型损失。
在本公开的一些实施例中,基于前述方案,上述病毒信息的识别装置600还包括:损失函数确定模块。
其中,上述损失函数确定模块,被配置为:在确定上述模型损失之后,根据上述模型损失确定交叉熵损失函数作为上述病毒识别模型的损失函数;
上述迭代计算单元,被具体配置为:采用随机梯度下降法处理上述损失函数以对上述病毒识别模型的模型参数进行迭代计算。
在本公开的一些实施例中,基于前述方案,上述目标静态特征、上述正类静态特征和上述负类静态特征分别包括以下信息中的一种或多种:网址长度特征、网址词汇特征、网址相似性特征、顶级域名特征和短网址特征;
上述目标动态特征、上述正类动态特征和上述负类动态特征分别包括以下信息中的一种或多种:浏览器特征、页面跳转特征、IP地理位置特征、安装程序下载特征、文件属性特征和程序行为特征。
在由上述病毒信息的识别装置实现的病毒识别方案中,在目标信息发送至终端之前,提取所述目标信息中的网址信息,然后,基于网址信息获取目标信息对应的目标静态特征和目标动态特征。进一步地,将目标静态特征和目标动态特征输入至训练后的病毒识别模型,以通过训练后的病毒识别模型预测所述目标信息中是否包含病毒。其中,在信息到达终端之前,由网络侧(服务器,而非终端)识别信息中是否包含病毒,能够及时阻止包含病毒的信息被发送至终端,从而实现主动防范病毒信息,及时发现病毒信息并从源头有效遏止其传播与扩散,保障终端用户的信息安全。另一方面,本技术方案基于人工智能技术对信息中是否包含病毒进行预测识别,具有较高的识别准确率。
上述病毒信息的识别装置中各单元的具体细节已经在上述病毒信息的识别方法实施例中进行了详细的描述,因此此处不再赘述。
图7示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图7示出的电子设备的计算机系统700仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括处理器701,其中处理器701又具体可以包括:图像处理单元(Graphics Processing Unit,简称:GPU)和中央处理单元(Central ProcessingUnit,简称:CPU),其可以根据存储在只读存储器(Read-Only Memory,简称:ROM)702中的程序或者从储存部分708加载到随机访问存储器(Random Access Memory,简称:RAM) 703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统操作所需的各种程序和数据。处理器701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(Input/Output,简称:I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(Cathode Ray Tube,简称:CRT)、液晶显示器(Liquid Crystal Display,简称:LCD)等以及扬声器等的输出部分707;包括硬盘等的储存部分708;以及包括诸如局域网(LocalArea Network,简称:LAN) 卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入储存部分708。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory, EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
例如,所述的电子设备可以实现如图2中所示的:步骤S210,在目标信息发送至终端之前,提取所述目标信息中的网址信息;步骤S220,基于所述网址信息,获取所述目标信息对应的目标静态特征和目标动态特征;以及,步骤S230,将所述静态特征和所述目标动态特征输入至训练后的病毒识别模型,并通过所述训练后的病毒识别模型预测所述目标信息中是否包含病毒。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是 CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种病毒信息的识别方法,其特征在于,所述方法包括:
在目标信息发送至终端之前,提取所述目标信息中的网址信息;
基于所述网址信息,获取所述目标信息对应的目标静态特征和目标动态特征;
将所述静态特征和所述目标动态特征输入至训练后的病毒识别模型,并通过所述训练后的病毒识别模型预测所述目标信息中是否包含病毒。
2.根据权利要求1所述的病毒信息的识别方法,其特征在于,所述方法还包括:
在所述目标信息中包含病毒的情况下,拦截所述目标信息到达所述终端;
在所述目标信息中不包含病毒的情况下,发送所述目标信息至所述终端。
3.根据权利要求1所述的病毒信息的识别方法,其特征在于,提取所述目标信息中的网址信息,包括:
加载用于提取网址信息的正则表达式;
根据所述正则表达式对所述目标信息进行匹配,并将相匹配的内容提取得到所述网址信息。
4.根据权利要求1所述的病毒信息的识别方法,其特征在于,基于所述网址信息,获取所述目标信息对应的目标静态特征和目标动态特征,包括:
在所述网址信息中获取所述目标静态特征;
通过网络爬虫技术对所述网址信息进行访问得到所述目标动态特征。
5.根据权利要求1至4中任意一项所述的病毒信息的识别方法,其特征在于,所述方法还包括:
根据包含病毒的信息确定正样本信息集合,以及根据不包含病毒的信息确定负样本信息集合;
基于所述正样本信息集合中每条信息分别对应的正类网址信息,获取所述每条信息分别对应的正类静态特征和正类动态特征;
基于所述负样本信息集合中每条信息分别对应的负类网址信息,获取所述每条信息分别对应的负类静态特征和负类动态特征;
根据所述正样本信息集合中每条信息分别对应的正类静态特征和正类动态特征,以及所述负样本信息集合中每条信息分别对应的负类静态特征和负类动态特征,确定分类模型的模型损失;
根据所述模型损失对所述病毒识别模型的模型参数进行迭代计算,以优化所述模型参数,得到所述训练后的病毒识别模型。
6.根据权利要求5所述的病毒信息的识别方法,其特征在于,根据所述正样本信息集合中每条信息分别对应的正类静态特征和正类动态特征,以及所述负样本信息集合中每条信息分别对应的负类静态特征和负类动态特征,确定分类模型的模型损失,包括:
对于第i个决策树,获取第i特征集,计算以所述第i特征集中任一特征作为分裂节点的情况下的信息熵,并将信息熵差最大值对应的特征作为所述第i个决策树的根节点,其中,i的取值为不大于预设决策树总个数的正整数,所述第i特征集包括所述正样本信息集合中每条信息分别对应的正类静态特征和正类动态特征,以及所述负样本信息集合中每条信息分别对应的负类静态特征和负类动态特征;
在所述第i特征集中排除所述第i个决策树的根节点对应的特征之后,计算以任一特征作为分裂节点的情况下的信息熵,并将信息熵差最大值对应的特征作为所述第i个决策树的中间节点,直至达到所述第i个决策树的预设分裂高度或者预设信息熵差;
获取以所述根节点进行决策时确定的叶子节点对应的第一预测标签,以及获取以所述中间节点进行决策时确定的叶子节点对应的第二预测标签,根据所述第一预测标签、所述第二预测标签以及实际标签确定所述第i个决策树对应的模型损失。
7.根据权利要求5所述的病毒信息的识别方法,其特征在于,在确定所述模型损失之后,所述方法还包括:
根据所述模型损失确定交叉熵损失函数作为所述病毒识别模型的损失函数;
根据所述模型损失对所述病毒识别模型的模型参数进行迭代计算,包括:
采用随机梯度下降法处理所述损失函数以对所述病毒识别模型的模型参数进行迭代计算。
8.根据权利要求5所述的病毒信息的识别方法,其特征在于,所述目标静态特征、所述正类静态特征和所述负类静态特征分别包括以下信息中的一种或多种:网址长度特征、网址词汇特征、网址相似性特征、顶级域名特征和短网址特征;
所述目标动态特征、所述正类动态特征和所述负类动态特征分别包括以下信息中的一种或多种:浏览器特征、页面跳转特征、IP地理位置特征、安装程序下载特征、文件属性特征和程序行为特征。
9.一种病毒信息的识别装置,其特征在于,所述装置包括:
网址提取模块,被配置为在目标信息发送至终端之前,提取所述目标信息中的网址信息;
特征获取模块,被配置为:基于所述网址信息,获取所述目标信息对应的目标静态特征和目标动态特征;
识别模块,被配置为:将所述静态特征和目标动态特征输入至训练后的病毒识别模型,并通过所述训练后的病毒识别模型预测所述目标信息中是否包含病毒。
10.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如1至8中任意一项所述的病毒信息的识别方法。
CN202110912287.5A 2021-08-10 2021-08-10 病毒信息的识别方法、病毒信息的识别装置及电子设备 Pending CN113626815A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110912287.5A CN113626815A (zh) 2021-08-10 2021-08-10 病毒信息的识别方法、病毒信息的识别装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110912287.5A CN113626815A (zh) 2021-08-10 2021-08-10 病毒信息的识别方法、病毒信息的识别装置及电子设备

Publications (1)

Publication Number Publication Date
CN113626815A true CN113626815A (zh) 2021-11-09

Family

ID=78383820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110912287.5A Pending CN113626815A (zh) 2021-08-10 2021-08-10 病毒信息的识别方法、病毒信息的识别装置及电子设备

Country Status (1)

Country Link
CN (1) CN113626815A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089961A (zh) * 2023-02-14 2023-05-09 哈尔滨晨亿科技有限公司 一种基于大数据的计算机智能图像管理系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089961A (zh) * 2023-02-14 2023-05-09 哈尔滨晨亿科技有限公司 一种基于大数据的计算机智能图像管理系统及方法
CN116089961B (zh) * 2023-02-14 2023-07-21 河南省中视新科文化产业有限公司 一种基于大数据的计算机智能图像管理系统及方法

Similar Documents

Publication Publication Date Title
CN108259494B (zh) 一种网络攻击检测方法及装置
Zhu et al. OFS-NN: an effective phishing websites detection model based on optimal feature selection and neural network
CN107463704B (zh) 基于人工智能的搜索方法和装置
CN107204960B (zh) 网页识别方法及装置、服务器
CN112019569B (zh) 恶意域名检测方法、装置及存储介质
CN108090351B (zh) 用于处理请求消息的方法和装置
US11580222B2 (en) Automated malware analysis that automatically clusters sandbox reports of similar malware samples
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
CN103279710A (zh) Internet信息系统恶意代码的检测方法和系统
CN110765459A (zh) 一种恶意脚本检测方法、装置和存储介质
CN107944032B (zh) 用于生成信息的方法和装置
CN111783016A (zh) 一种网站分类方法、装置及设备
RU2701040C1 (ru) Способ и вычислительное устройство для информирования о вредоносных веб-ресурсах
CN111586695B (zh) 短信识别方法及相关设备
Thakur et al. An intelligent algorithmically generated domain detection system
CN108804501B (zh) 一种检测有效信息的方法及装置
Amanullah et al. CNN based prediction analysis for web phishing prevention
US20200167477A1 (en) Security Testing Tool Using Crowd-Sourced Data
CN113626815A (zh) 病毒信息的识别方法、病毒信息的识别装置及电子设备
US11489859B2 (en) System and method for retrieving and extracting security information
KR102483004B1 (ko) 유해 url 탐지 방법
CN111181756B (zh) 一种域名安全性判定方法、装置、设备及介质
Tatarinova et al. Extended vulnerability feature extraction based on public resources
Zeng Malicious urls and attachments detection on lexical-based features using machine learning techniques
Sun et al. Padetective: A systematic approach to automate detection of promotional attackers in mobile app store

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination