CN110414232B

CN110414232B - 恶意程序预警方法、装置、计算机设备及存储介质

Info

Publication number: CN110414232B
Application number: CN201910561745.8A
Authority: CN
Inventors: 谭昱; 杨耀荣; 彭宁; 沈江波; 刘敏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2023-07-25
Anticipated expiration: 2039-06-26
Also published as: CN110414232A

Abstract

本发明公开了一种恶意程序预警方法、装置、计算机设备及存储介质，属于计算机技术领域。方法包括：获取目标名称词组集合和关键词集合，目标名称词组集合包括至少两个恶意程序的名称词组，关键词集合包括至少两个热点事件的关键词；确定目标名称集合中任一恶意程序的名称词组与关键词集合中任一关键词之间的相似度；将相似度符合目标规则的恶意程序确定为目标恶意程序，输出目标恶意程序的预警信息。本发明通过获取当前时段热点事件的标题，对恶意程序样本库中新增的恶意程序的名称进行比对，确定出名称与热点事件的标题相匹配的恶意程序，提高了对利用热点事件进行传播的恶意程序的识别准确率。

Description

恶意程序预警方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种恶意程序预警方法、装置、计算机设备及存储介质。

背景技术

恶意程序(例如木马病毒等)一直是威胁用户电脑及终端安全的一大隐患，不仅数量庞大，类型繁多，影响范围也极其广泛。目前，恶意程序借助热点事件进行传播呈现集中爆发趋势，而借助热点事件传播的恶意程序通常为广告、诈骗、盗取用户信息类恶意程序，比如，在高考时期前后，恶意程序伪装成“高考复习大全”、“高考成绩查询”等应用进行传播，以获取用户信息进行违法操作。而这种借助热点事件传播的恶意程序由于其传播量相对较小，常规检测恶意程序的方法很难检测到这种传播方式的恶意程序。

针对于上述这种借助热点事件传播的恶意程序，通常采用人工监控对其进行识别，当发现有热点事件发生时，将该热点事件的关键词加入到鉴定器中，当鉴定器识别出有恶意程序的名称与热点事件的关键词匹配后，触发相关预警。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

首先，通过人工监控识别出借助热点事件传播的恶意程序，其识别出的准确率很大程度上取决于人工分析人员的经验，需要人工分析人员对热点事件非常敏感，但是，每个人工分析人员仅仅对自己所擅长的领域比较关注，对其不感兴趣的领域并不关注，导致了无法准确识别出借助热点事件传播的恶意程序；其次，人工监控所能关注到的热点数量是有限的，并且人工监控无法完成7x24小时持续监控，容易漏判一些借助热点事件传播的恶意程序；最后，上述现有的人工监控方法只能通过预先定义好的规则对恶意程序识别，判断其是否借助热点事件进行传播，当预先定义的规则不完善时，也会导致漏判一些借助热点事件传播的恶意程序。

发明内容

本发明实施例提供了一种恶意程序预警方法、装置、计算机设备及存储介质，可以解决现有技术中容易漏判利用热点事件进行传播的恶意程序的问题。该技术方案如下：

一方面，提供了一种恶意程序预警方法，方法包括：

获取目标名称词组集合和关键词集合，目标名称词组集合包括至少两个恶意程序的名称词组，关键词集合包括至少两个热点事件的关键词；

确定目标名称集合中任一恶意程序的名称词组与关键词集合中任一关键词之间的相似度；

将相似度符合目标规则的恶意程序确定为目标恶意程序，输出目标恶意程序的预警信息。

一方面，提供了一种恶意程序预警装置，装置包括：

获取模块，用于获取目标名称词组集合和关键词集合，目标名称词组集合包括至少两个恶意程序的名称词组，关键词集合包括至少两个热点事件的关键词；

确定模块，用于确定目标名称集合中任一恶意程序的名称词组与关键词集合中任一关键词之间的相似度；

预警模块，用于将相似度符合目标规则的恶意程序确定为目标恶意程序，输出目标恶意程序的预警信息。

在一种可能的实现方式中，上述确定模块用于：

计算任一名称词组与任一关键词之间的余弦相似度和最短编辑距离；

对余弦相似度和最短编辑距离加权求和，将所获得的数值确定为任一名称词组与任一关键词之间的相似度。

在一种可能的实现方式中，上述确定模块具体用于：

计算各个名称词组和各个关键词的词频；

基于词频，获得各个名称词组对应的名称词组向量和各个关键词对应的关键词向量。

在一种可能的实现方式中，上述获取模块还用于：

周期性获取至少两个恶意程序的散列值；

基于散列值，从数据库中获取对应的至少两个恶意程序的名称数据。

在一种可能的实现方式中，上述获取模块具体用于：

从至少两个恶意程序的名称数据中提取对应的中文字符数据；

基于中文字符数据，生成目标名称词组集合。

在一种可能的实现方式中，上述获取模块具体用于：

将至少两个恶意程序的名称数据中的英文字符数据和数字字符数据滤除，得到至少两个恶意程序对应的中文字符数据。

在一种可能的实现方式中，上述获取模块还用于：

从至少两个目标榜单中获取至少两个热点事件的标题数据；

基于标题数据，获得各个热点事件的关键词；

基于各个热点事件的关键词，生成关键词集合。

一方面，提供了一种恶意程序预警系统，包括：

热点时间关键词获取子系统，用于从目标榜单中获取多个热点事件的关键词集合；

恶意程序获取子系统，用于从恶意程序数据库中获取恶意程序的目标名称词组集合；

相似度匹配子系统，用于确定目标名称集合中任一恶意程序的名称词组与关键词集合中任一关键词之间的相似度；将相似度符合目标规则的恶意程序确定为目标恶意程序，输出目标恶意程序的预警信息；

恶意程序处理子系统，用于基于预警信息处理对应的目标恶意程序。

一方面，提供了一种计算机设备，计算机设备包括：处理器；用于存放计算机程序的存储器；其中，处理器用于执行存储器上所存放的计算机程序，实现恶意程序预警方法中任一项的方法步骤。

一方面，提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现恶意程序预警方法中任一项的方法步骤。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例通过获取当前时段热点事件的标题，对恶意程序样本库中新增的恶意程序的标题进行比对，确定出名称与热点事件的标题相匹配的恶意程序，提高了对利用热点事件进行传播的恶意程序的识别准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的恶意程序预警系统100的结构框图；

图2示出了本申请一个示例性实施例提供的恶意程序预警系统100的运行流程图；

图3是本发明实施例提供的一种恶意程序预警的流程图；

图4是本发明实施例提供的一种恶意程序预警的详细流程图；

图5是本发明实施例提供的一种恶意程序预警装置的结构示意图；

图6是本发明实施例提供的一种恶意程序预警系统的结构示意图；

图7是本发明实施例提供的一种计算机设备700的结构示意图；

图8示出了本发明一个示例性实施例提供的终端800的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1示出了本申请一个示例性实施例提供的恶意程序预警系统100的结构框图。该恶意程序预警系统100包括：终端110和恶意程序检测平台140。

终端110通过无线网络或有线网络与恶意程序检测平台110相连。终端110可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3播放器、MP4播放器和膝上型便携计算机中的至少一种。终端110安装和运行有支持恶意程序检测的应用程序。示意性的，终端110是用户使用的终端，终端110中运行的应用程序内登录有用户账号。

终端110通过无线网络或有线网络与恶意程序检测平台140相连。

恶意程序检测平台140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。恶意程序检测平台140用于为支持恶意程序确定的应用程序提供后台服务。可选地，恶意程序检测平台140承担主要的数据处理工作，终端110承担次要的数据处理工作；或者，恶意程序检测平台140承担次要的数据处理工作，终端110承担主要的数据处理工作；或者，恶意程序检测平台140或终端110分别可以单独承担数据处理工作。

可选地，恶意程序检测平台140包括：接入服务器、恶意程序确定服务器和数据库。接入服务器用于提供终端110提供接入服务。恶意程序确定服务器用于提供恶意程序确定有关的后台服务。恶意程序确定服务器可以是一台或多台。当恶意程序确定服务器是多台时，存在至少两台恶意程序确定服务器用于提供不同的服务，和/或，存在至少两台恶意程序确定服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。

终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。终端110的类型包括：智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3播放器、MP4播放器和膝上型便携计算机中的至少一种。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述恶意程序预警系统还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

本申请实施例主要涉及恶意程序，该恶意程序可以是在计算机程序中插入的破坏计算机功能或者数据的代码，能够影响计算机的使用，并且能自我复制及传播的一组计算机指令或者程序代码，例如，网络病毒、文件病毒、引导型病毒等等。

用户还可以在终端进行选择操作，该终端检测到选择操作后，确定出高威胁恶意程序后，将该高威胁恶意程序以及相关的热点事件在终端上显示。

图2示出了本申请一个示例性实施例提供的恶意程序预警系统100的运行流程图，参照图2所示，获取当前时段的所有新增恶意程序的名称，先进行预处理(去除无效文件名，例如英文名，纯数字等)，然后利用分词器对每一个名称进行分词，转换为名称词组，并将该名称词组存入数据库中；同时，通过爬虫抓取互联网公开的热点榜单(比如搜索风云榜、热搜榜、指数飙升榜等)定的排名前N个热点事件的标题，利用分词算法对于标题进行分词处理，生成热点事件的关键词，并将该关键词存入数据库中；对目标名称词组集合和关键词集合中的所有词，利用TF-IDF算法，计算每个词的词频，然后将每个恶意程序的名称词组，以及每个热点事件的关键词转化为词频向量矩阵，对于目标名称集合中的每一项名称词组和关键词集合中的每一项关键词进行匹配，使用余弦相似结合和最短编辑距离加权求和的方式，确定其之间的相似度，将相似度符合目标规则的恶意程序确定为目标恶意程序，对目标恶意程序进行预分析，并推送目标恶意程序的预警信息，转由分析人员分析处理。

在判断多个恶意程序是否在借助当前热点事件进行传播时，提取该多个恶意程序的名称集合，并获取当前时段热点事件的关键词集合，将恶意程序的名称与热点事件的关键词进行匹配，将匹配成功的恶意程序确定为借助当前热点事件进行传播的恶意程序。图3是本发明实施例提供的一种恶意程序预警的流程图。该方法可以应用于任一计算机设备，该计算机设备可以是终端或者服务器，参见图3，本发明实施例提供的方法流程包括：

301、获取目标名称词组集合和关键词集合。

基于恶意程序数据库获取目标名称词组集合，其中，目标名称词组集合中包含多个目标恶意程序对应的名称词组，而多个目标恶意程序可以是在目标周期内恶意程序数据库所新增的恶意程序，在实际应用中，基于实时发现的恶意程序，生成用于表示该恶意程序的特征信息，比如恶意程序的中文名称、英文名称、发现日期、收集日期、最后更新时间、类型等，并将该特征信息存入恶意程序数据库。

在本发明的一个实施例中，从恶意程序数据库提取出所新增恶意程序的特征信息，基于该特征信息中的中文名称、英文名称，获取目标名称词组集合。

在本发明的一个实施例中，上述关键词集合可以是在当前时段内多个热点事件的关键词的集合，其中，热点事件的关键词可以从多个榜单中提取，该榜单中包括了特定领域在当前时间段内热点事件的排序，多个榜单中热点事件的排序可以是按照热点事件的热度、点击率、搜索量等进行排序，该特定领域可以民生领域、娱乐领域、体育领域、新闻领域等。

上述获取目标词组集合和获取关键词集合的步骤可以同时进行，也可以先获取目标名称词组集合，再获取关键词集合，或者先获取关键词集合后，再获取目标名称词组集合，本发明对此不作具体限定。

302、确定目标名称集合中任一恶意程序的名称词组与关键词集合中任一关键词之间的相似度。

其中，上述相似度可以通过计算任一名称词组与任一关键词组之间的夹角余弦值和最短编辑距离加权求和后获得，其中，在计算任一名称词组与任一关键词组之间的夹角余弦值时，计算任一名称词组和任一关键词所在集合内的词频，基于该词频将名称词组和关键词转换为对应的向量后计算夹角余弦值，同时，计算任一名称词组与任一关键词组之间最短编辑距离，对夹角余弦值和最短编辑距离加权求和后，将所获得的数值作为该相似度。

303、将相似度符合目标规则的恶意程序确定为目标恶意程序，输出目标恶意程序的预警信息。

根据实际需求设定目标规则，将相似度符合目标规则的恶意程序确定为借助热点事件进行传播的目标恶意程序，输出该目标恶意程序的相关信息，在实际应用中，当确定出目标恶意程序后，可以向用户的终端推送该目标恶意程序的预警信息，向用户提示目前有恶意程序利用热点事件进行传播，还可以将该预警信息输入至恶意程序查杀系统，对该恶意程序进行分析，基于分析结果生成对应的查杀方法，并向计算机设备推送，已达到控制恶意程序的传播范围。

本发明通过获取当前时段热点事件的标题，对恶意程序样本库中新增的恶意程序的标题进行比对，确定出名称与热点事件的标题相匹配的恶意程序，提高了利用热点时间进行传播的恶意程序的识别准确率和识别效率。

在本发明的一个实施例中，从恶意程序数据库中获取多个恶意程序的目标名称词组集合。基于上述图3所示实施例，步骤301中的获取目标名称词组集合可以采用下述方式实现，图4示意性示出了本发明实施例提供的一种获取名称词组集合详细流程图，参照图4，该方法包括以下步骤：

3011、周期性获取至少两个恶意程序的散列值。

在本发明的一个实施例中，按照预设的时间周期，从恶意程序数据库中获取多个恶意程序的散列值，该散列值可以作为在恶意程序数据库中进行查询的索引值，通常由字母和数字组成，并且在常规条件下，每个恶意程序在恶意程序数据库中对应一个唯一的散列值，因此，可以通过所获取到的散列值可以从恶意程序数据库中获取与该散列值对应的恶意程序的相关数据。

3012、基于散列值，从数据库中获取对应的至少两个恶意程序的名称数据。

在本发明的一个实施例中，通过散列值从恶意程序数据库中查询出与其对应的恶意程序的名称数据，该名称数据至少包括对应恶意程序的中文名称数据、英文名称数据、扩展名称数据。

3013、从至少两个恶意程序的名称数据中提取对应的中文字符数据。

在本发明的一个实施例中，将恶意程序的名称数据中的英文字符数据、纯数字字符数据以及无效字符数据滤除，获得恶意程序的中文字符数据，便于后续步骤的相似度计算

例如，多个恶意程序的中文字符数据的格式可以是：

[['b6f6b7b6ce1093ddab104cc94e9be447','XXX流量版.exe']

['47af5abc65a0d8f886c0db4e1b98eb38','重要的图片.exe']

['8ca8216260b4f5e0d6e1132e49d1d25a','湖南安仁项目排版编程.exe']

……

['5fb5834621139aa97ed2e2e4d824fcc8','2019年各项表格.exe']

['ee325273e1c0339783d36307612f0be8','野象攻击游客视频.exe']]

其中，头部数据为恶意程序的散列值，作为恶意程序的身份信息，尾部数据包括了恶意程序的中文字符数据和扩展名。

3014、基于中文字符数据，生成目标名称词组集合。

在一种可能的实现方式中，将中文字符数据中的扩展名去掉后，对中文字符数据进行分词处理，将中文字符数据中连续的字符按照一定的规范重新组合成多个名称词组，生成目标名称词组集合，其中，任一名称词组的数据格式可以是：

[‘恶意程序散列值’，‘恶意程序名称’‘恶意程序的名称词组’]，

例如，将步骤303中距离的中文字符数据去除扩展名并进行分词处理后，获得的目标名称词组集合可以是：

[[b6f6b7b6ce1093ddab104cc94e9be447,XXX流量版,[XXX,流量]],

[47af5abc65a0d8f886c0db4e1b98eb38,重要的图片,[图片,重要]],

[8ca8216260b4f5e0d6e1132e49d1d25a,湖南安仁项目排版编程,[安仁,排版,编程,湖南,项目]],

……

[5fb5834621139aa97ed2e2e4d824fcc8,2019年各项表格,[2019,表格,各项]],

[ee325273e1c0339783d36307612f0be8,野象攻击游客视频,[野象,视频,游客,攻击]]

其中，尾部数据为对应恶意程序的名称词组，多个恶意程序构成了目标名称词组集合。

在一种可能的实现方式中，将所生成的目标名称词组集合存储至对应的名称数据库中，并设置定位运行周期，比如2个小时，即每隔两个小时，对名称数据库中的名称词组集合进行更新。

在本发明的一个实施例中，从热点事件数据库中获取多个热点事件的关键词集合。基于上述图3所示实施例，步骤301中获取关键词集合可以采用下述方式实现，图4还示意性示出了本发明实施例提供的一种获取关键词集合的流程图，参照图4，包括以下步骤：

3015、从至少两个目标榜单中获取至少两个热点事件的标题数据。

在一种可能的实现方式中，可以通过爬虫工具，从网页或网站的目标榜单中获取排名前N的热点事件的标题数据，其中，N>1，N的取值可以根据实际需求自由设定，比如从目标榜单中获取热度排名前100的热点事件的标题数据。

例如，通过爬虫工具从公开的目标榜单中获取热点事件的标题数据：

['吴鹤臣XX百万',

'737冲入河中',

'游客遭野象攻击',

'火星日出日落照片',

'90后还过五四吗'

……]。

3016、基于标题数据，获得各个热点事件的关键词。

在本发明的一个实施例中，对标题数据进行分词处理，获得每个热点事件对应的关键词。

3017、基于各个热点事件的关键词，生成关键词集合。

在本发明的一个实施例中，将每个热点事件的关键词进行整合，生成关键词集合，其中，关键词集合中包括多个热点事件的关键词。

例如，对所获得的标题数据进行分词，获得每个热点数据的关键词，并生成关键词集合：

[[吴鹤臣XX百万,[吴鹤臣,XX,百万]],

[737冲入河中,[737,冲入,河中]],

[游客遭野象攻击,[野象,游客,攻击]],

[火星日出日落照片,[日出日落,火星,照片]],

[河北滦平发生XX,[滦平,XX,河北,发生]],

……]。

在一种可能的实现方式中，将所生成关键词集合存储至相应的数据库中，按照预定的周期对数据库中所存储的关键词集合进行更新，比如每隔6个小时对数据库中所存储的关键词集合进行全量更新。

3018、获取目标名称词组集合和关键词集合。

在本发明的一个实施例中，该目标词组集合中包括至少两个恶意程序的名称词组，以及关键词集合中包括至少两个热点事件的关键。

在本发明的一个实施例中，获取目标名称词组集合和关键词集合后，可以确定出目标名称词组集合中任一名称词组与关键词集合中任一关键词之间的相似度。基于上述图3所示实施例，步骤302中确定目标名称集合中任一恶意程序的名称词组与关键词集合中任一关键词之间的相似度可以采用下述方式实现，图4还示意性示出了本发明实施例提供的一种确定目标名称集合中任一恶意程序的名称词组与关键词集合中任一关键词之间的相似度的流程图，参照图4，包括以下步骤：

3021、计算任一名称词组与任一关键词之间的余弦相似度和最短编辑距离。

在本发明的一个实施例中，可以通过分别计算任一名称词组与任一关键词之间的余弦相似度和最短编辑距离，基于该余弦相似度和最短编辑距离确定出名称词组与关键词的相似度。

在本发明的一个实施例中，在计算余弦相似度时，还需要分别计算出名称词组和关键词的词频，基于该词频生成名称词组和关键词的向量即可计算出其之间的余弦相似度。

在本发明的一个实施例中，任一名称词组与任一关键词之间的最短编辑距离也同样可以表征其之间的相似度，具体的，计算名称词组的字符串转换成关键词的字符串所需要的最少操作数值即为最短编辑距离，其中，对字符串的转换操作包括：删除一个字符、插入一个字符以及修改一个字符，任一名称词组与任一关键词的字符串的编辑距离越小，则表明它们之间越相似。

3022、对余弦相似度和最短编辑距离加权求和，将所获得的数值确定为任一名称词组与任一关键词之间的相似度。

在本发明的一个实施例中，当计算得到任一名称词组与任一关键词之间的余弦相似度和最短编辑距离后，分别对余弦相似度和最短编辑距离与预设的权重系数相乘，将相乘后所获得的数值进行求和后确定为该名称词组与该关键词之间的相似度。

例如：遍历目标名称词组集合和关键词集合，分别计算目标名称词组集合中任一名称词组和关键词集合中任一关键词之间的余弦相似度和最短编辑距离，为余弦相似度和最短编辑距离进行加权求和后，确定出任一名称词组和任一关键词的相似度，该相似度可以如下表1所示：

表1

从上表1可以确定出，恶意程序名称词组为“野象攻击游客视频”与标题为“游客遭野象攻击”的热点事件的相似度为0.794495，该数值是余弦相似度和最短编辑距离进行加权求和后所获得的数值。

在本发明的一个实施例中，上述计算任一名称词组与任一关键词之间的相似度还可以使用其他加权算法进行计算，还可以使用文本相似度算法进行计算，比如，simhash和海明距离的相似度算法，本发明对此不作具体限定。

3023、计算各个名称词组和各个关键词的词频。

在一种可能的实现方式中，通过词频-地文本频率指数(TF-IDF，Term Frequency–Inverse Document Frequency)算法分别计算出名称词组与关键词的词频，基于该词频确定出名称词组向量和关键词向量。

3024、基于词频，获得各个名称词组对应的名称词组向量和各个关键词对应的关键词向量。

例如，对于一个名称为“野象攻击游客视频”的恶意程序，该名称词组为“[野象][视频][游客][攻击]”，计算获得每个名称词组在目标名称词组集合中的词频后，该名称词组的名称词组向量可以是：

[0,0,0,0.23235473142857319,0.23235473142857319,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.30761223034456847,0,0,0,0,0,0,0,0.23235473142857319,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。

基于上述相同的方法，还可以计算出关键词的词频，对于标题为“游客遭野象攻击”的热点事件，其关键词可以是“[野象，游客，攻击]”，计算该关键词所在关键词集合中的词频后，该关键词的关键词向量可以是：

[0,0,0,0.3098063085714309,0.3098063085714309,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.3098063085714309,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。

在本发明的一个实施例中，将相似度大于预设相似度阈值的恶意程序确定为借助热点事件进行传播的恶意程序，针对该恶意程序还可以做出相应的响应和处理，以减少该恶意程序的传染范围。比如，针对该目标恶意程序，判断其威胁程度，基于其威胁程度的大小使用对应的处置预案对其进行处理；还可以确定出该目标恶意程序所借助的热点事件，发出基于该热点事件的预警，以提醒用户当前可能会有恶意程序利用该热点事件进行伪装进行传播；还可以对该恶意程序进行详细分析，例如对恶意程序的传播源、行为、变种程度、传播范围等进行分析，将分析结果向相关专业人员推送，以便进一步进行处理。

在一种可能的实现方式中，基于确定出的目标恶意程序的相关信息以及该恶意程序所伪装成的热点事件信息，生成对应的预警信息，将该恶意程序预警信息通过终端即时通讯服务的相关应用程序(比如微信、QQ等)进行推送，以提醒用户对该恶意程序进行防范。

本发明实施例公开了一种恶意程序预警方法、装置、计算机设备及存储介质，属于计算机技术领域。方法包括：获取恶意程序的名称集合和热点事件的标题集合；确定名称集合中任一恶意程序的名称与标题集合中任一热点事件的标题之间的相似度；将相似度符合目标相似度阈值的恶意程序确定为高威胁恶意程序。本发明通过获取当前时段热点事件的标题，对恶意程序样本库中新增的恶意程序的标题进行比对，确定出名称与热点事件的标题相匹配的恶意程序，提高了利用热点时间进行传播的恶意程序的识别准确率，同时还提升了恶意程序的识别效率，通过该方法能够实时的对当前的热点事件进行最终，并将新增的大量恶意程序自动进行筛选和处理，实现了7x24小时的恶意程序监控和预警。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图5是本发明实施例提供的一种恶意程序预警装置的结构示意图，参见图5，该装置包括：

获取模块501，用于获取目标名称词组集合和关键词集合，目标名称词组集合包括至少两个恶意程序的名称词组，关键词集合包括至少两个热点事件的关键词；

确定模块502，用于确定目标名称集合中任一恶意程序的名称词组与关键词集合中任一关键词之间的相似度；

预警模块503，用于将相似度符合目标规则的恶意程序确定为目标恶意程序，输出目标恶意程序的预警信息。

在一种可能的实现方式中，上述确定模块502用于：

在一种可能的实现方式中，上述确定模块502具体用于：

计算各个名称词组和各个关键词的词频；

在一种可能的实现方式中，上述获取模块501还用于：

周期性获取至少两个恶意程序的散列值；

在一种可能的实现方式中，上述获取模块501具体用于：

基于中文字符数据，生成目标名称词组集合。

在一种可能的实现方式中，上述获取模块501具体用于：

在一种可能的实现方式中，上述获取模块501还用于：

从至少两个目标榜单中获取至少两个热点事件的标题数据；

基于标题数据，获得各个热点事件的关键词；

基于各个热点事件的关键词，生成关键词集合。

图6是本发明实施例提供的一种恶意程序预警系统600的结构示意图，参见图6，该系统包括：

热点时间关键词获取子系统601，用于从目标榜单中获取多个热点事件的关键词集合；

其中，该热点时间关键词获取子系统601可以通过图5所示的恶意程序进行预警的装置中的获取模块501实现，具体实现方法可以参照该实施例的相关内容，这里不再赘述。

恶意程序获取子系统602，用于从恶意程序数据库中获取恶意程序的目标名称词组集合；

其中，恶意程序获取子系统602可以通过图5所示的恶意程序进行预警的装置中的获取模块501实现，具体实现方法可以参照该实施例的相关内容，这里不再赘述。

相似度匹配子系统603，用于确定目标名称集合中任一恶意程序的名称词组与关键词集合中任一关键词之间的相似度；将相似度符合目标规则的恶意程序确定为目标恶意程序，输出目标恶意程序的预警信息；

其中，相似度匹配子系统603可以通过图5所示的恶意程序进行预警的装置中的确定模块502实现，具体实现方法可以参照该实施例的相关内容，这里不再赘述。

恶意程序处理子系统604，用于基于预警信息处理对应的目标恶意程序。

其中，恶意程序处理子系统604可以通过图5所示的恶意程序进行预警的装置中的预警模块503实现，具体实现方法可以参照该实施例的相关内容，这里不再赘述。

本发明实施例提供的装置及系统通过获取当前时段热点事件的标题，对恶意程序样本库中新增的恶意程序的标题进行比对，确定出名称与热点事件的标题相匹配的恶意程序，提高了利用热点时间进行传播的恶意程序的识别准确率，同时还提升了恶意程序的识别效率，通过该方法能够实时的对当前的热点事件进行最终，并将新增的大量恶意程序自动进行筛选和处理，实现了7x24小时的恶意程序监控和预警。

需要说明的是：上述实施例提供的恶意程序预警装置及系统在对恶意程序进行预警时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置及系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的恶意程序预警装置及系统与恶意程序预警方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本发明实施例提供的一种计算机设备700的结构示意图，该计算机设备700可以被提供为一服务器，该计算机设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)801和一个或一个以上的存储702，其中，该存储器702中存储有至少一条指令，该至少一条指令由该处理器701加载并执行以实现上述各个方法实施例提供的恶意程序预警方法。当然，该计算机设备700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备700还可以包括其他用于实现设备功能的部件，在此不做赘述。

图8示出了本发明一个示例性实施例提供的终端800的结构框图。该终端800可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的恶意程序预警方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头806、音频电路807和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器811可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述各个实施例中的恶意程序预警方法。例如，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种恶意程序预警方法，其特征在于，包括：

基于实时发现的恶意程序，生成用于表示所述恶意程序的特征信息，将所述恶意程序的特征信息存入恶意程序数据库，所述特征信息包括中文名称、英文名称；

周期性从所述恶意程序数据库中提取新增的恶意程序的特征信息包含的名称；将提取到的名称进行分词，转换为名称词组；

获取关键词集合，所述关键词集合包括当前时段至少两个热点事件的关键词；

确定所述名称词组与所述关键词集合中任一所述关键词之间的相似度；

将所述相似度符合目标规则的新增的恶意程序，确定为借助热点事件传播的目标恶意程序，输出所述目标恶意程序的预警信息；

将所述预警信息输入至恶意程序查杀系统，对所述目标恶意程序进行分析，基于分析结果生成对应的查杀方法，向计算机设备推送所述查杀方法。

2.根据权利要求1所述的方法，其特征在于，所述确定所述名称词组与所述关键词集合中任一所述关键词之间的相似度，包括：

计算所述名称词组与所述关键词之间的余弦相似度和最短编辑距离；

对所述余弦相似度和所述最短编辑距离加权求和，将所获得的数值确定为所述名称词组与所述关键词之间的相似度。

3.根据权利要求2所述的方法，其特征在于，所述计算所述名称词组与所述关键词之间的余弦相似度，包括：

计算各个名称词组和各个关键词的词频；

基于所述词频，获得所述各个名称词组对应的名称词组向量和所述各个关键词对应的关键词向量；

基于所述名称词组向量与所述关键词向量，确定所述名称词组向量对应的名称词组与所述关键词向量对应的关键词之间的余弦相似度。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

周期性获取至少两个恶意程序的散列值；

基于所述散列值，从所述恶意程序数据库中获取对应的至少两个恶意程序的名称数据。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

从所述至少两个恶意程序的名称数据中提取对应的中文字符数据；

基于所述中文字符数据，生成目标名称词组集合，所述目标名称词组集合包括所述至少两个恶意程序的名称词组。

6.根据权利要求5所述的方法，其特征在于，所述从所述至少两个恶意程序的名称数据中提取对应的中文字符数据，包括：

将所述至少两个恶意程序的名称数据中的英文字符数据和数字字符数据滤除，得到所述至少两个恶意程序对应的中文字符数据。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

从至少两个目标榜单中获取至少两个热点事件的标题数据；

基于所述标题数据，获得各个热点事件的关键词；

基于所述各个热点事件的关键词，生成所述关键词集合。

8.一种恶意程序预警装置，其特征在于，包括：

用于执行以下步骤的模块：基于实时发现的恶意程序，生成用于表示所述恶意程序的特征信息，将所述恶意程序的特征信息存入恶意程序数据库，所述特征信息包括中文名称、英文名称；周期性从所述恶意程序数据库中提取新增的恶意程序的特征信息包含的名称；将提取到的名称进行分词，转换为名称词组；

获取模块，用于获取关键词集合，所述关键词集合包括当前时段至少两个热点事件的关键词；

确定模块，用于确定所述名称词组与所述关键词集合中任一所述关键词之间的相似度；

预警模块，用于将所述相似度符合目标规则的新增的恶意程序，确定为借助热点事件传播的目标恶意程序，输出所述目标恶意程序的预警信息；

用于执行以下步骤的模块：将所述预警信息输入至恶意程序查杀系统，对所述目标恶意程序进行分析，基于分析结果生成对应的查杀方法，向计算机设备推送所述查杀方法。

9.根据权利要求8所述的装置，其特征在于，所述确定模块，用于计算所述名称词组与所述关键词之间的余弦相似度和最短编辑距离；对所述余弦相似度和所述最短编辑距离加权求和，将所获得的数值确定为所述名称词组与所述关键词之间的相似度。

10.根据权利要求9所述的装置，其特征在于，所述确定模块，用于计算各个名称词组和各个关键词的词频；基于所述词频，获得所述各个名称词组对应的名称词组向量和所述各个关键词对应的关键词向量；基于所述名称词组向量与所述关键词向量，确定所述名称词组向量对应的名称词组与所述关键词向量对应的关键词之间的余弦相似度。

11.根据权利要求8所述的装置，其特征在于，所述获取模块，还用于周期性获取至少两个恶意程序的散列值；基于所述散列值，从所述恶意程序数据库中获取对应的至少两个恶意程序的名称数据。

12.根据权利要求11所述的装置，其特征在于，所述获取模块，用于从所述至少两个恶意程序的名称数据中提取对应的中文字符数据；基于所述中文字符数据，生成目标名称词组集合，所述目标名称词组集合包括所述至少两个恶意程序的名称词组。

13.根据权利要求12所述的装置，其特征在于，所述获取模块，用于将所述至少两个恶意程序的名称数据中的英文字符数据和数字字符数据滤除，得到所述至少两个恶意程序对应的中文字符数据。

14.根据权利要求12所述的装置，其特征在于，所述获取模块，还用于：从至少两个目标榜单中获取至少两个热点事件的标题数据；基于所述标题数据，获得各个热点事件的关键词；基于所述各个热点事件的关键词，生成所述关键词集合。

15.一种计算机设备，其特征在于，包括：

处理器；

用于存放计算机程序的存储器；

其中，所述处理器用于执行存储器上所存放的计算机程序，实现权利要求1-7任一项所述的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。