CN102831153A - 一种选取样本的方法和装置 - Google Patents
一种选取样本的方法和装置 Download PDFInfo
- Publication number
- CN102831153A CN102831153A CN2012102244529A CN201210224452A CN102831153A CN 102831153 A CN102831153 A CN 102831153A CN 2012102244529 A CN2012102244529 A CN 2012102244529A CN 201210224452 A CN201210224452 A CN 201210224452A CN 102831153 A CN102831153 A CN 102831153A
- Authority
- CN
- China
- Prior art keywords
- sample
- code
- points
- program
- score value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种选取样本的方法和装置,以及一种选取样本的系统;其中,所述的方法包括:客户端在用户计算机的程序中选取符合预置的程序筛选条件的程序作为样本;根据预置评分规则对所述样本评分,获得样本分数;将所述样本分数与预置的上传阈值比较,所述样本分数超过所述上传阈值的样本选定为目标样本;将目标样本上传到服务器端进行扫描。有效的针对用户所使用的程序进行鉴定,提高样本采集的精确性和针对性,并且能够增强对病毒本身采取的各类绕过上传鉴定的方法的抵制效果。本发明实施例能够用于有效的针对用户所使用的程序进行鉴定,提高样本采集的精确性和针对性,并且能够增强对病毒本身采取的各类绕过上传鉴定的方法的抵制效果。
Description
技术领域
本发明实施例涉及病毒处理的技术领域,特别是涉及一种选取样本的方法。
背景技术
当今,随着互联网的发展,网络安全越来越受到重视。其中,像杀毒软件之类的产品已经与我们的生活密不可分。
而对于制作此类产品的网络安全公司来说,各类病毒样本与非病毒样本的采集是一个非常重要的问题。样本是疑似病毒或者可能携带病毒的文件。
以2012年1月的数据来看,在中国互联网,平均每天产生的新病毒样本超过100万个,即每秒超过12个;而新样本(样本指可能被病毒感染而变成带毒样本的程序。普通的文件类型,不在这个统计范围之内)产生的速度是病毒样本是4倍。全部收集这类文件,以目前计算机行业的发展来看,是无法实现的,也是没有必要的。所以,一般的安全公司会采用以下几种方法对样本进行的鉴别,是否需要采集:
1、在客户端内置鉴别程序,用来鉴别样本是否需要采集。
2、检测程序的大小,对于固定大小的程序,进行采集。
3、利用云计算技术,动态鉴别程序是否需要采集。
对于第一种方法,由于鉴别程序的代码内嵌在客户端,很容易被病毒作者获得,因此病毒可以通过其他方式绕过固定的鉴定逻辑,不易发现。
第二种方法针对的是病毒的传播特性。由于病毒本身需要进行快速的传播,所以在早期,病毒自身都很小,利用这一特性,收集那些大小在一个固定阈值之下的病毒,是一个很快的策略。但随着计算机存储与网络带宽的发展,病毒对于自身的大小不再需要像早期那么敏感,因此这一策略的效果也会越来越差。
第三种方法在云计算流行后开始出现,由于鉴定逻辑处于云端,所以病毒需要更多的尝试,才有可能绕过鉴定逻辑。但这种方式,也只是将原有位于用户电脑上的病毒攻防的过程,扩展到了云端,仅仅是加大了病毒制作的难度。
因此,本领域技术人员迫切需要解决的问题是:提供一种选取样本的方法和装置,以及一种选取样本的系统;用以有效的针对用户所使用的程序进行鉴定,提高样本采集的精确性和针对性,并且能够增强对病毒本身采取的各类绕过上传鉴定的方法的抵制效果。
发明内容
本发明实施例所要解决的技术问题是提供一种选取样本的方法,用以有效的针对用户所使用的程序进行鉴定,提高样本采集的精确性和针对性,并且能够增强对病毒本身采取的各类绕过上传鉴定的方法的抵制效果。
相应的,本发明实施例还提供了一种选取样本的装置,和一种选取样本的系统,用以保障上述方法在实际中的应用。
为了解决上述问题,本发明实施例公开了一种选取样本的方法,具体可以包括:
在客户端的程序中选取符合预置的程序筛选条件的程序作为样本;
根据预置评分规则对所述样本评分,获得样本分数;
将所述样本分数与预置的上传阈值比较,所述样本分数超过所述上传阈值的样本选定为目标样本;
将目标样本上传到服务器端进行扫描,保存扫描结果。
优选的是,所述的方法,还可以包括:
客户端定期接收所述目标样本的扫描结果,若所述目标样本为病毒或非病毒样本,则判定所述样本为有效样本;若未检测出所述样本为病毒或非病毒样本,则判定所述样本为无效样本。
优选的是,所述的方法,还可以包括:
对预置评分规则进行随机干扰,结合磁盘剩余空间和带宽的流量,生成新评分值;
对预置的评分规则进行关联分析,获取评分规则的权重;
根据所述新评分值和权重调整预置的评分规则。
优选的是,所述预置的程序筛选条件可以包括至少一项评定项;所述客户端在用户计算机的程序中选取符合预置的程序筛选条件的程序作为样本的步骤可以包括:
将所述预置的程序筛选条件中的各评定项与用户计算机中程序逐一进行对比,获取符合任一评定项的程序生成目标程序;
所述目标程序通过摘要算法生成样本。
优选的是,所述预置的评分规则可以包括至少一项单项规则,所述单项规则包括对应分值;所述根据预置评分规则对所述样本评分,获得样本分数的步骤可以包括:
根据所述当前评分规则中单项规则的对应分值,对所述样本进行评分;
汇总所述样本对应单项规则的评分结果,算出样本分数。
优选的是,所述对预置的评分规则进行关联分析,获取评分规则的权重的步骤权重可以包括:
将所述有效样本所触发的单项规则的次数,记为有效次数;
将所述无效样本所触发的单项规则的次数,记为无效次数;
根据所述有效次数和无效次数计算评分规则的权重。
优选的是,所述根据有效次数和无效次数调整评分规则的权重的步骤可以包括:
统计预置时间内全部单项规则被触发的总有效次数和总无效次数;
将所述总有效次数和总无效次数求比,得到所述评分规则的权重。
优选的是,所述根据新评分值和权重调整预置的评分规则的步骤可以包括:
将所述权重和预置权重阈值比较,当低于预置权重阈值时,提高总有效次数大于总无效次数的单项规则分值,降低总无效次数大于总有效次数的单项规则分值,得到调整分值;
用所述调整分值和所述新评分值调整预置的评分规则。
本申请同时提供了一种选取样本的装置,具体可以包括:
客户端取样模块,用于在客户端的程序中选取符合预置的程序筛选条件的程序作为样本;
样本分数获取模块,用于根据预置评分规则对所述样本评分,获得样本分数;
目标样本选定模块,用于将所述样本分数与预置的上传阈值比较,所述样本分数超过所述上传阈值的样本选定为目标样本;
目标样本上传模块,用于将目标样本上传到服务器端进行扫描,保存扫描结果。
优选的是,所述的装置,还可以包括:
目标样本扫描模块,用于客户端定期接收所述目标样本的扫描结果,若所述目标样本为病毒或非病毒样本,则判定所述样本为有效样本;若未检测出所述样本为病毒或非病毒样本,则判定所述样本为无效样本。
优选的是,所述的装置,其特征在于,还可以包括:
新评分值生成模块,用于对预置评分规则进行随机干扰,结合磁盘剩余空间和带宽的流量,生成新评分值;
权重获取模块,用于对预置的评分规则进行关联分析,获取评分规则的权重;
评分规则调整模块,用于根据所述新评分值和权重调整预置的评分规则。
优选的是,所述预置的程序筛选条件可以包括至少一项评定项;所述客户端取样模块可以包括以下子模块:
目标程序生成子模块,用于将所述预置的程序筛选条件中的各评定项与用户计算机中程序逐一进行对比,获取符合任一评定项的程序生成目标程序;
样本生成子模块,用于所述目标程序通过摘要算法生成样本。
优选的是,所述预置的评分规则可以包括至少一项单项规则,所述单项规则包括对应分值;所述样本分数获取模块可以包括以下子模块:
样本评分子模块,用于根据所述当前评分规则中单项规则的对应分值,对所述样本进行评分;
评分结果汇总子模块,用于汇总所述样本对应单项规则的评分结果,算出样本分数。
优选的是,所述权重获取模块可以包括以下子模块:
有效次数获取子模块,用于将所述有效样本所触发的单项规则的次数,记为有效次数;
无效次数获取子模块,用于将所述无效样本所触发的单项规则的次数,记为无效次数;
权重计算子模块,用于根据所述有效次数和无效次数计算评分规则的权重。
优选的是,所述权重计算子模块可以包括以下单元:
次数统计单元,用于统计预置时间内全部单项规则被触发的总有效次数和总无效次数;
比较求权单元,用于将所述总有效次数和总无效次数求比,得到所述评分规则的权重。
优选的是,所述评分规则调整模块可以包括以下子模块:
调整分值获取子模块,用于将所述权重和预置权重阈值比较,当低于预置权重阈值时,提高总有效次数大于总无效次数的单项规则分值,降低总无效次数大于总有效次数的单项规则分值,得到调整分值;
分值调整子模块,用于根据所述调整分值和所述新评分值调整预置的评分规则。
本申请还提供了一种选取样本的系统,具体可以包括:
客户端取样模块,用于在客户端的程序中选取符合预置的程序筛选条件的程序作为样本;
样本分数获取模块,用于根据预置评分规则对所述样本评分,获得样本分数;
目标样本选定模块,用于将所述样本分数与预置的上传阈值比较,所述样本分数超过所述上传阈值的样本选定为目标样本;
目标样本上传模块,用于将目标样本上传到服务器端进行扫描,保存扫描结果;
目标样本扫描模块,用于客户端定期接收所述目标样本的扫描结果,若所述目标样本为病毒或非病毒样本,则判定所述样本为有效样本;若未检测出所述样本为病毒或非病毒样本,则判定所述样本为无效样本;
新评分值生成模块,用于对预置评分规则进行随机干扰,结合磁盘剩余空间和带宽的流量,生成新评分值;
权重获取模块,用于对预置的评分规则进行关联分析,获取评分规则的权重;
评分规则调整模块,用于根据所述新评分值和权重调整预置的评分规则。
与现有技术相比,本发明实施例具有以下优点:
本发明实施例通过预置程序筛选条件选取对应程序并转换格式,取得样本;根据预置评分规则给样本评分,样本的分数和上传阈值比较,将分数超过上传阈值的样本标记为目标样本,作为上传的对象,目标样本的收集价值符合收集的要求。并且,对已上传的目标样本进行统计和分析,计算出预置评分规则的权重。根据预置评分规则的权重对预置的评分规则进行调整,提高样本上传的精确性和针对性。
本发明实施例还对预置评分规则进行随机的修改,调整规则分值,生成当前评分规则进行鉴别。当前评分规则是随机变化的,从而能够增强对病毒本身采取的各类绕过上传鉴定的方法的抵制效果。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1是本发明实施例一种选取样本的方法实施例1的流程图;
图2是本发明实施例一种选取样本的方法实施例2的流程图;
图3是本发明实施例一种选取样本的装置实施例1的结构框图;
图4是本发明实施例一种选取样本的装置实施例2的结构框图;
图5是本发明实施例一种选取样本的系统实施例的结构框图。
具体实施方式
为使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明实施例作进一步详细的说明。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明实施例通过客户端在用户计算机的程序中选取符合预置的程序筛选条件的程序作为样本;根据预置评分规则给样本评分,将样本的分数和上传阈值比较,将分数超过上传阈值的样本标记为目标样本,作为上传的对象。并且,对已上传的目标样本进行统计和分析,计算出预置评分规则的权重。根据预置评分规则的权重对预置的评分规则进行调整,提高样本上传的精确性和针对性。
参照图1,示出了一种选取样本的方法实施例1的流程图,具体可以包括以下步骤:
步骤101、在客户端的程序中选取符合预置的程序筛选条件的程序作为样本;
在具体实现中,选取符合预置的程序筛选条件的程序后,可以采用摘要算法进行标记,生成一个唯一标识的程序作为样本。
在本发明实施例的一种优选实施例中,所述预置的程序筛选条件包括至少一条评定项;所述步骤101具体可以包括以下子步骤:
子步骤S11、将所述预置的程序筛选条件中的各评定项与用户计算机中程序逐一进行对比,获取符合任一评定项的程序生成目标程序;
子步骤S12、所述目标程序通过摘要算法生成样本。
在具体实现中,本发明实施例可利用的筛选条件可以包括但不仅限于以下几个方面:
文件大小。这一规则会在文件第一次被发现时触发。如:当有新的文件保存、生成时,客户端会采集所述新的文件信息,其中包括文件大小的信息。当文件大小超过预设大小阈值时将对应文件标记为样本。
文件的分布。文件的分布是指有多少用户的机器上包含了该文件。如:一款网络游戏的补丁下载的热度很高,当下载用户达到一定数量后,客户端会将存在于本地的所述补丁标记为样本。
文件的活跃度。文件的活跃度是指该文件被用户或其他程序执行的频度。如:对于用户在一定时间段使用次数达到一定数量的文件标记为样本。
压缩文件的压缩比例。部分病毒不直接存储在用户的机器中,而是保存在压缩文件中,这类文件的压缩比例也是规则之一。例如:普通文件压缩比为3:1,当某些文件的比例高于20:1时,该文件将会被记录下来,标记为样本。
用户机器中的病毒扫描结果。用户机器中的病毒扫描程序判定成病毒的程序。由于不同扫描器之间存在差异,并且同一扫描器对于病毒也会有多个级别的处理。这一规则实际上,是由多个子规则组成的一类规则。
程序对于用户操作系统关键位置的操作。操作系统的部分关键位置对于用户非常重要,某类程序对于操作系统的部分关键位置进行改动会触发此规则。关键位置一般是指定的几个位置,如:安装磁盘,移动硬盘等。当有文件对用户的C盘程序进行修改时,所述文件将被标记为样本。
程序的分类特征。部分病毒是由某些病毒自动生成程序产生的,那么这些病毒将表现出某些固定的分类特征。如:一款木马病毒总是自动生成进程,并会占用较大的内存;那么这一款木马病毒感染到其他的文件后,自动生成程序产生的新病毒也将会自动生成进程,并会占用较大的内存。对于此类文件标记为样本。
步骤102、根据预置评分规则对所述样本评分,获得样本分数;
在本发明实施例的一种优选实施例中,所述预置的评分规则包括若干单项规则,所述单项规则包括对应分值;所述步骤102具体可以包括以下子步骤:
子步骤S21、根据所述当前评分规则中单项规则的对应分值,对所述样本进行评分;
子步骤S22、汇总所述样本符合的单项规则对应分值算出样本分数。
在具体实现中,评分规则和程序筛选条件可以是对应,根据各项程序筛选条件可以生成对应的单项规则。如:
文件大小。文件越小,则上传收集越容易,设置的分数就越高;反之,由于过大的文件会占用较多的资源进行存储与扫描,所以分数越低。同时,这一分数也受到存储系统剩余空间的影响。
文件的分布。分布越广的文件,其影响用户越多,那么分数也会越高,反之分数会越低。
文件的活跃度。频繁执行的文件,对于用户的影响较大,所以分数较高。反之则较低。
压缩文件的压缩比例。压缩比例与正常的比例偏差越大,则分数越高。
用户机器中的病毒扫描结果。用户机器中的病毒扫描程序判定成病毒的程序分数会较高。反之而较低。
程序对于用户操作系统关键位置的操作。如果某类程序对用户操作系统关键位置(如用户C盘中的文件)进行了改动,则分数会较高。反之,如果样本只对用户的操作系统产生了很小的影响,那么分数会比较低。
程序的分类特征。符合某些病毒表现出固定的分类特征(如占用内存达到预置阈值),则该分类特征的威胁性越高,则该分数越高。
在具体实现中,对于预置的评分规则的分值计算,可以当任何一个单项规则被触发时,样本和其触发的单项规则会被记录下来。由于单项规则的对应分数会受到系统自身反馈的影响,所以这里不应该只记录分数,而是记录规则。同时,系统可以样本触发的全部规则,结合“当前规则分数”进行计算,并得出当前这个文件的分数。
步骤103、将所述样本分数与预置的上传阈值比较,所述样本分数超过所述上传阈值的样本选定为目标样本;
步骤104、将目标样本上传到服务器端进行扫描,保存扫描结果。
在具体实现中,可以将样本分数超过上传阈值的对应样本标记为目标样本,客户端会针对目标样本进行上传。目标样本即是达到了收集价值的样本,可以通过摘要算法对其进行标记,生成一个带有唯一标识的样本。
所述上传阈值时预置的一个值,可以根据用户的需要和病毒库更新的结果对上传阈值进行相应的调节。
在具体实现中,客户端的上传请求中还可以包括客户端的IP地址,这样,服务器端的管理服务器就可以根据客户端的IP地址,为该客户端分配距离最近的数据服务器,客户端在上传具体的数据时,就可以向该分配的数据服务器上传。具体实现时,可以根据客户端上传的IP地址,来比对IP库从而确定客户端所在的地域,然后再根据该地域的数据服务器部署情况,为用户选择合适的服务器。当然,在实际应用中,除了依据客户端的IP地址之外,还可以根据客户端的带宽状况等等综合考虑,为客户端选择最好的数据服务器。
参照图2,示出了一种选取样本的方法实施例2的流程图,具体可以包括以下步骤:
步骤201、在客户端的程序中选取符合预置的程序筛选条件的程序作为样本;
步骤202、根据预置评分规则对所述样本评分,获得样本分数;
步骤203、将所述样本分数与预置的上传阈值比较,所述样本分数超过所述上传阈值的样本选定为目标样本;
步骤204、将目标样本上传到服务器端进行扫描,保存扫描结果。
步骤205、客户端定期接收所述目标样本的扫描结果,若所述目标样本为病毒或非病毒样本,则判定所述样本为有效样本;若未检测出所述样本为病毒或非病毒样本,则判定所述样本为无效样本;
在具体实现中,客户端可以定期更新,接收服务器端对样本扫描的结果反馈。将扫描结果保存,作为调整样本选取的预置的评分规则的参考数据。
在具体实现中,所述有效样本包括病毒和非病毒目标样本(病毒样本是指被编制或者插入的破坏计算机功能或者破坏数据,影响计算机使用并且能够自我复制的一组计算机指令或者程序代码的文件。非病毒样本是指被确认的不会对用户造成威胁的文件)被认为是有效样本,是有价值的样本。剩余无法确定的样本被认为是无效样本,是无价值的样本。因为病毒和非病毒目标样本能检测出结果,对此后查杀病毒和预防病毒等有作用。所述无效样本包括不能检测出所述样本为病毒或非病毒样本,此类上传的样本较难对今后查杀病毒和预防病毒等产生作用,反而耗费了收集样本的资源。
步骤206、对预置评分规则进行随机干扰,结合磁盘剩余空间和带宽的流量,生成新评分值;
在具体实现中,随着系统的长期运行,规则的分数也将趋向稳定,而新病毒样本将有可能探测到预测方法被进行相应改变,试图绕过已经稳定的上传系统。因此,可以加入随机干扰的过程,使得本系统在的规则与分数计算上产生波动,不会使病毒被更改后能探测到长期稳定的样本收集机制,从而出现一种新型的病毒的长期评分值较低而不被标记为样本,绕过上传检测的情况。
随机干扰主要分为,但不仅限于以下几类:
长期被触发,但分值较低的规则;随机干扰过程,可以随机加大这类规则的分数。由于加大分数会产生更多的上传样本,如果这些因干扰而产生的上传样本中,在云端扫描时,病毒样本的比例较高,那么说明有部分病毒是通过这一规则而绕过了本系统的稳定状态,那么我们需要对这一规则临时提高分数,并维持一段时间,从而使系统可以做出后续的反馈。
对于长期分值较高的规则,也可以分为两类,一类是该规则确实可以识别出大量的病毒样本被进行上传;另一类是该规则触发的条件与其他类似规则有重合,而导致了大量被最终检测出的病毒都有此项评分。这时的干扰策略是对某些高分值的规则,随机产生一个低分值,并对触发了这类规则的样本计算2个分值,未干扰的分值用于判断是否上传,即随机干扰不影响最终的上传结果。但在上传后,对于这些样本开始计算,是否在降低分值后,扫描出的病毒样本是否降低,如果不降低,说明系统可以开始降低这些规则的原有分值,同时不影响后续的上传结果。
在随机干扰的同时,参考磁盘剩余空间和带宽的流量的因素,对随机干扰后的评分作出调整。如:磁盘剩余空间越小,对随机干扰后的评分作出越大的降低;带宽的流量越低,对随机干扰后的评分作出越大的降低。
在具体实现中,假设一个文件触发的规则分别记为:P1、P2、P3……Pn,所述规则对应的分数分别为:K1、K2、K3……Kn。则该文件对应的分数M为:M=K1+K2+K3+……+Kn。
在具体实现中,当任何一个条件被触发时,文件及其触发的规则会被记录下来。由于规则的分数会受到系统自身反馈的影响,所以这里不应该只记录分数,而是记录规则。同时,系统会开始利用新触发的规则与之前该文件触发的规则,结合“规则分数”进行计算,并得出当前这个文件的分数。
步骤207、对预置的评分规则进行关联分析,获取评分规则的权重;
在本发明实施例的一种优选实施例中,所述步骤205具体可以包括以下子步骤:
在本发明实施例的一种优选实施例中,所述步骤207具体可以包括以下子步骤:
子步骤S31、将所述有效样本所触发的单项规则的次数,记为有效次数;
子步骤S32、将所述无效样本所触发的单项规则的次数,记为无效次数;
子步骤S33、根据所述有效次数和无效次数计算评分规则的权重。
在本发明实施例的一种优选实施例中,所述子步骤S33具体还可以包括以下单元:
统计预置时间内全部单项规则被触发的总有效次数和总无效次数;
将所述总有效次数和总无效次数求比,得到所述评分规则的权重。
步骤208、根据所述新评分值和权重率权重调整预置的评分规则。
在本发明实施例的一种优选实施例中,所述步骤208具体可以包括以下子步骤:
子步骤S41、将所述权重和预置权重阈值比较,当低于预置权重阈值时,提高总有效次数大于总无效次数的单项规则分值,降低总无效次数大于总有效次数的单项规则分值,得到调整分值;
子步骤S42、用所述调整分值和所述新评分值调整预置的评分规则。
在具体实现中,有效样本触发的规则被证明是对系统有益的;而无效样本,其触发的规则被认为是对系统无益处的。结合所有文件的的扫描结果,可以计算得到每一个单项规则对本系统的影响。如:可以计算出某个单项规则给多少个有效样本评了分;给多少个无效样本评了分。再通过与上一次计算后的结果进行比较,可以适当加强有益的规则的分数,使得本系统设置的上传结果,更有针对性和精确性,也避免病毒通过改变绕过样本收集检测,提高有效样本的数量;并可以减小对于无益处的规则的分数,以减少上传样本中,无法判断威胁程度的文件的数量。
为了方便本领域技术人员更好地理解本发明实施例,以下通过一个完整示例更进一步说明本发明实施例:
1、根据预置的程序筛选条件对用户程序A、B、C和D进行选取。A触发了文件的分布和文件的活跃度两个程序筛选条件;B触发了文件大小和压缩文件的压缩比例两个程序筛选条件;C触发了用户机器中的病毒扫描结果一个程序筛选条件;D没有触发任何筛选条件。因此选取A、B和C为样本,并通过MD5算法将其转换成特定的格式为A1、B1和C1。
2、对预置评分规则进行随机干扰,将文件的活跃度和用户机器中的病毒扫描结果的分值从10分增加到20分,生成当前评分规则。根据所述当前评分规则对样本A1、B1和C1评分。得到A1的样本分数20分,B1的样本分数30分,C1的样本分数20分。
3、将A1、B1和C1的样本分数与预置的上传阈值10分比较,A1、B1和C1的样本分数都超过预置的上传阈值,对A1、B1和C1进行标记得到目标样本A2、B2和C2并上传目标样本。
4、对A2、B2和C2进行扫描,检测出A2为非病毒目标样本,C2为病毒,B2检测结果无法确定是否病毒的样本。所以A2和C2为有效样本,B2为无效样本。
5、统计得到用户机器中的病毒扫描结果、文件的分布和文件的活跃度的有效次数各为1,文件大小和压缩文件的压缩比例的无效次数各为1;因此增加评分规则中病毒扫描结果、文件的分布和文件的活跃度的分值,降低文件大小和压缩文件的压缩比例的分值,其他单项规则分值保持不变。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了一种选取样本的装置实施例1的结构框图,具体可以包括:
客户端取样模块301,用于在客户端的程序中选取符合预置的程序筛选条件的程序作为样本;
在本发明实施例的一种优选实施例中,所述预置的程序筛选条件包括至少一项评定项;所述客户端取样模块301具体可以包括以下子模块:
目标程序生成子模块,用于将所述预置的程序筛选条件中的各评定项与用户计算机中程序逐一进行对比,获取符合任一评定项的程序生成目标程序;
样本生成子模块,用于所述目标程序通过摘要算法生成样本。
样本分数获取模块302,用于根据预置评分规则对所述样本评分,获得样本分数;
在本发明实施例的一种优选实施例中,所述预置的评分规则包括至少一项单项规则,所述单项规则包括对应分值;所述样本分数获取模块302具体可以包括以下子模块:
样本评分子模块,用于根据所述当前评分规则中单项规则的对应分值,对所述样本进行评分;
评分结果汇总子模块,用于汇总所述样本对应单项规则的评分结果,算出样本分数。
目标样本选定模块303,用于将所述样本分数与预置的上传阈值比较,所述样本分数超过所述上传阈值的样本选定为目标样本;
目标样本上传模块304,用于将目标样本上传到服务器端进行扫描,保存扫描结果。
参照图4,示出了一种选取样本的装置实施例2的结构框图,具体可以包括:
客户端取样模块401,用于在客户端的程序中选取符合预置的程序筛选条件的程序作为样本;
样本分数获取模块402,用于根据预置评分规则对所述样本评分,获得样本分数;
目标样本选定模块403,用于将所述样本分数与预置的上传阈值比较,所述样本分数超过所述上传阈值的样本选定为目标样本;
目标样本上传模块404,用于将目标样本上传到服务器端进行扫描,保存扫描结果;
目标样本扫描模块405,用于客户端定期接收所述目标样本的扫描结果,若所述目标样本为病毒或非病毒样本,则判定所述样本为有效样本;若未检测出所述样本为病毒或非病毒样本,则判定所述样本为无效样本;
新评分值生成模块406,用于对预置评分规则进行随机干扰,结合磁盘剩余空间和带宽的流量,生成新评分值;
权重获取模块407,用于对预置的评分规则进行关联分析,获取评分规则的权重;
在本发明实施例的一种优选实施例中,所述权重获取模块407具体可以包括以下子模块:
有效次数获取子模块,用于将所述有效样本所触发的单项规则的次数,记为有效次数;
无效次数获取子模块,用于将所述无效样本所触发的单项规则的次数,记为无效次数;
权重计算子模块,用于根据所述有效次数和无效次数计算评分规则的权重。
在本发明实施例的一种优选实施例中,所述权重计算子模块具体还可以包括以下单元:
次数统计单元,用于统计预置时间内全部单项规则被触发的总有效次数和总无效次数;
比较求权单元,用于将所述总有效次数和总无效次数求比,得到所述评分规则的权重。
评分规则调整模块408,用于根据所述新评分值和权重调整预置的评分规则。
在本发明实施例的一种优选实施例中,所述评分规则调整模块408具体可以包括以下子模块:
调整分值获取子模块,用于将所述权重和预置权重阈值比较,当低于预置权重阈值时,提高总有效次数大于总无效次数的单项规则分值,降低总无效次数大于总有效次数的单项规则分值,得到调整分值;
分值调整子模块,用于根据所述调整分值和所述新评分值调整预置的评分规则。
由于所述装置实施例基本相应于前述方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此就不赘述了。
参照图5,示出了一种选取样本的系统实施例的结构框图,具体可以包括:
客户端取样模块501,用于在客户端的程序中选取符合预置的程序筛选条件的程序作为样本;
样本分数获取模块502,用于根据预置评分规则对所述样本评分,获得样本分数;
目标样本选定模块503,用于将所述样本分数与预置的上传阈值比较,所述样本分数超过所述上传阈值的样本选定为目标样本;
目标样本上传模块504,用于将目标样本上传到服务器端进行扫描,保存扫描结果;
目标样本扫描模块505,用于客户端定期接收所述目标样本的扫描结果,若所述目标样本为病毒或非病毒样本,则判定所述样本为有效样本;若未检测出所述样本为病毒或非病毒样本,则判定所述样本为无效样本;
新评分值生成模块506,用于对预置评分规则进行随机干扰,结合磁盘剩余空间和带宽的流量,生成新评分值;
权重获取模块507,用于对预置的评分规则进行关联分析,获取评分规则的权重;
评分规则调整模块508,用于根据所述新评分值和权重调整预置的评分规则。
由于所述系统实施例基本相应于前述方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此就不赘述了。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、系统、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
以上对本发明实施例所提供的一种选取样本的方法、一种选取样本的装置,以及一种选取样本的系统进行了详细介绍,本文中应用了具体个例对本发明实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明实施例的限制。
Claims (17)
1.一种选取样本的方法,其特征在于,包括:
在客户端的程序中选取符合预置的程序筛选条件的程序作为样本;
根据预置评分规则对所述样本评分,获得样本分数;
将所述样本分数与预置的上传阈值比较,所述样本分数超过所述上传阈值的样本选定为目标样本;
将目标样本上传到服务器端进行扫描,保存扫描结果。
2.如权利要求1所述的方法,其特征在于,还包括:
客户端定期接收所述目标样本的扫描结果,若所述目标样本为病毒或非病毒样本,则判定所述样本为有效样本;若未检测出所述样本为病毒或非病毒样本,则判定所述样本为无效样本。
3.如权利要求2所述的方法,其特征在于,还包括:
对预置评分规则进行随机干扰,结合磁盘剩余空间和带宽的流量,生成新评分值;
对预置的评分规则进行关联分析,获取评分规则的权重;
根据所述新评分值和权重调整预置的评分规则。
4.如权利要求3所述的方法,其特征在于,所述预置的程序筛选条件包括至少一项评定项;所述客户端在用户计算机的程序中选取符合预置的程序筛选条件的程序作为样本的步骤包括:
将所述预置的程序筛选条件中的各评定项与用户计算机中程序逐一进行对比,获取符合任一评定项的程序生成目标程序;
所述目标程序通过摘要算法生成样本。
5.如权利要求4所述的方法,其特征在于,所述预置的评分规则包括至少一项单项规则,所述单项规则包括对应分值;所述根据预置评分规则对所述样本评分,获得样本分数的步骤包括:
根据所述当前评分规则中单项规则的对应分值,对所述样本进行评分;
汇总所述样本对应单项规则的评分结果,算出样本分数。
6.如权利要求5所述的方法,其特征在于,所述对预置的评分规则进行关联分析,获取评分规则的权重的步骤权重包括:
将所述有效样本所触发的单项规则的次数,记为有效次数;
将所述无效样本所触发的单项规则的次数,记为无效次数;
根据所述有效次数和无效次数计算评分规则的权重。
7.如权利要求6所述的方法,其特征在于,所述根据有效次数和无效次数调整评分规则的权重的步骤包括:
统计预置时间内全部单项规则被触发的总有效次数和总无效次数;
将所述总有效次数和总无效次数求比,得到所述评分规则的权重。
8.如权利要求7所述的方法,其特征在于,所述根据新评分值和权重调整预置的评分规则的步骤包括:
将所述权重和预置权重阈值比较,当低于预置权重阈值时,提高总有效次数大于总无效次数的单项规则分值,降低总无效次数大于总有效次数的单项规则分值,得到调整分值;
用所述调整分值和所述新评分值调整预置的评分规则。
9.一种选取样本的装置,其特征在于,包括:
客户端取样模块,用于在客户端的程序中选取符合预置的程序筛选条件的程序作为样本;
样本分数获取模块,用于根据预置评分规则对所述样本评分,获得样本分数;
目标样本选定模块,用于将所述样本分数与预置的上传阈值比较,所述样本分数超过所述上传阈值的样本选定为目标样本;
目标样本上传模块,用于将目标样本上传到服务器端进行扫描,保存扫描结果。
10.如权利要求9所述的装置,其特征在于,还包括:
目标样本扫描模块,用于客户端定期接收所述目标样本的扫描结果,若所述目标样本为病毒或非病毒样本,则判定所述样本为有效样本;若未检测出所述样本为病毒或非病毒样本,则判定所述样本为无效样本。
11.如权利要求10所述的装置,其特征在于,还包括:
新评分值生成模块,用于对预置评分规则进行随机干扰,结合磁盘剩余空间和带宽的流量,生成新评分值;
权重获取模块,用于对预置的评分规则进行关联分析,获取评分规则的权重;
评分规则调整模块,用于根据所述新评分值和权重调整预置的评分规则。
12.如权利要求11所述的装置,其特征在于,所述预置的程序筛选条件包括至少一项评定项;所述客户端取样模块包括以下子模块:
目标程序生成子模块,用于将所述预置的程序筛选条件中的各评定项与用户计算机中程序逐一进行对比,获取符合任一评定项的程序生成目标程序;
样本生成子模块,用于所述目标程序通过摘要算法生成样本。
13.如权利要求12所述的装置,其特征在于,所述预置的评分规则包括至少一项单项规则,所述单项规则包括对应分值;所述样本分数获取模块包括以下子模块:
样本评分子模块,用于根据所述当前评分规则中单项规则的对应分值,对所述样本进行评分;
评分结果汇总子模块,用于汇总所述样本对应单项规则的评分结果,算出样本分数。
14.如权利要求13所述的装置,其特征在于,所述权重获取模块包括以下子模块:
有效次数获取子模块,用于将所述有效样本所触发的单项规则的次数,记为有效次数;
无效次数获取子模块,用于将所述无效样本所触发的单项规则的次数,记为无效次数;
权重计算子模块,用于根据所述有效次数和无效次数计算评分规则的权重。
15.如权利要求14所述的装置,其特征在于,所述权重计算子模块包括以下单元:
次数统计单元,用于统计预置时间内全部单项规则被触发的总有效次数和总无效次数;
比较求权单元,用于将所述总有效次数和总无效次数求比,得到所述评分规则的权重。
16.如权利要求15所述的装置,其特征在于,所述评分规则调整模块包括以下子模块:
调整分值获取子模块,用于将所述权重和预置权重阈值比较,当低于预置权重阈值时,提高总有效次数大于总无效次数的单项规则分值,降低总无效次数大于总有效次数的单项规则分值,得到调整分值;
分值调整子模块,用于根据所述调整分值和所述新评分值调整预置的评分规则。
17.一种选取样本的系统,其特征在于,包括:
客户端取样模块,用于在客户端的程序中选取符合预置的程序筛选条件的程序作为样本;
样本分数获取模块,用于根据预置评分规则对所述样本评分,获得样本分数;
目标样本选定模块,用于将所述样本分数与预置的上传阈值比较,所述样本分数超过所述上传阈值的样本选定为目标样本;
目标样本上传模块,用于将目标样本上传到服务器端进行扫描,保存扫描结果;
目标样本扫描模块,用于客户端接收所述目标样本的扫描结果,若所述目标样本为病毒或非病毒样本,则判定所述样本为有效样本;若未检测出所述样本为病毒或非病毒样本,则判定所述样本为无效样本;
新评分值生成模块,用于对预置评分规则进行随机干扰,结合磁盘剩余空间和带宽的流量,生成新评分值;
权重获取模块,用于对预置的评分规则进行关联分析,获取评分规则的权重;
评分规则调整模块,用于根据所述新评分值和权重调整预置的评分规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210224452.9A CN102831153B (zh) | 2012-06-28 | 2012-06-28 | 一种选取样本的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210224452.9A CN102831153B (zh) | 2012-06-28 | 2012-06-28 | 一种选取样本的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102831153A true CN102831153A (zh) | 2012-12-19 |
CN102831153B CN102831153B (zh) | 2015-09-30 |
Family
ID=47334290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210224452.9A Expired - Fee Related CN102831153B (zh) | 2012-06-28 | 2012-06-28 | 一种选取样本的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102831153B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528521A (zh) * | 2015-09-11 | 2017-03-22 | 北京国双科技有限公司 | 社交应用数据的筛选方法和装置 |
CN106569840A (zh) * | 2015-10-08 | 2017-04-19 | 上海智瞳通科技有限公司 | 一种机器视觉驾驶辅助系统自动获取样本以提高识别精度的方法 |
CN107341176A (zh) * | 2017-05-23 | 2017-11-10 | 北京三快在线科技有限公司 | 一种样本权重设置方法及装置,电子设备 |
CN110070076A (zh) * | 2019-05-08 | 2019-07-30 | 北京字节跳动网络技术有限公司 | 用于选取训练用样本的方法和装置 |
CN111967771A (zh) * | 2020-08-18 | 2020-11-20 | 深圳市维度统计咨询股份有限公司 | 基于大数据的数据质量管理方法、装置及存储介质 |
CN113127333A (zh) * | 2019-12-31 | 2021-07-16 | 中移互联网有限公司 | 一种数据处理方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593253A (zh) * | 2009-06-22 | 2009-12-02 | 成都市华为赛门铁克科技有限公司 | 一种恶意程序判断方法及装置 |
CN101645125A (zh) * | 2008-08-05 | 2010-02-10 | 珠海金山软件股份有限公司 | 过滤以及监控程序的行为的方法 |
CN101984450A (zh) * | 2010-12-15 | 2011-03-09 | 北京安天电子设备有限公司 | 恶意代码检测方法和系统 |
-
2012
- 2012-06-28 CN CN201210224452.9A patent/CN102831153B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645125A (zh) * | 2008-08-05 | 2010-02-10 | 珠海金山软件股份有限公司 | 过滤以及监控程序的行为的方法 |
CN101593253A (zh) * | 2009-06-22 | 2009-12-02 | 成都市华为赛门铁克科技有限公司 | 一种恶意程序判断方法及装置 |
CN101984450A (zh) * | 2010-12-15 | 2011-03-09 | 北京安天电子设备有限公司 | 恶意代码检测方法和系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528521A (zh) * | 2015-09-11 | 2017-03-22 | 北京国双科技有限公司 | 社交应用数据的筛选方法和装置 |
CN106569840A (zh) * | 2015-10-08 | 2017-04-19 | 上海智瞳通科技有限公司 | 一种机器视觉驾驶辅助系统自动获取样本以提高识别精度的方法 |
CN106569840B (zh) * | 2015-10-08 | 2020-10-30 | 上海智瞳通科技有限公司 | 一种机器视觉驾驶辅助系统自动获取样本以提高识别精度的方法 |
CN107341176A (zh) * | 2017-05-23 | 2017-11-10 | 北京三快在线科技有限公司 | 一种样本权重设置方法及装置,电子设备 |
CN107341176B (zh) * | 2017-05-23 | 2020-05-29 | 北京三快在线科技有限公司 | 一种样本权重设置方法及装置,电子设备 |
CN110070076A (zh) * | 2019-05-08 | 2019-07-30 | 北京字节跳动网络技术有限公司 | 用于选取训练用样本的方法和装置 |
CN110070076B (zh) * | 2019-05-08 | 2021-05-18 | 北京字节跳动网络技术有限公司 | 用于选取训练用样本的方法和装置 |
CN113127333A (zh) * | 2019-12-31 | 2021-07-16 | 中移互联网有限公司 | 一种数据处理方法、装置、电子设备和存储介质 |
CN111967771A (zh) * | 2020-08-18 | 2020-11-20 | 深圳市维度统计咨询股份有限公司 | 基于大数据的数据质量管理方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102831153B (zh) | 2015-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102831153B (zh) | 一种选取样本的方法和装置 | |
CN103078864B (zh) | 一种基于云安全的主动防御文件修复方法 | |
Dou et al. | A confidence-based filtering method for DDoS attack defense in cloud environment | |
CN103685575B (zh) | 一种基于云架构的网站安全监控方法 | |
Niakanlahiji et al. | Phishmon: A machine learning framework for detecting phishing webpages | |
CN102664875B (zh) | 基于云模式的恶意代码类别检测方法 | |
Cho et al. | Insights from the Inside: A View of Botnet Management from Infiltration. | |
JP6408395B2 (ja) | ブラックリストの管理方法 | |
CN102413142A (zh) | 基于云平台的主动防御方法 | |
US11372860B2 (en) | Processing techniques for queries where predicate values are unknown until runtime | |
EP3563555A1 (en) | System and method for detecting malicious device by using a behavior analysis | |
US11893025B2 (en) | Scan set pruning for queries with predicates on semi-structured fields | |
CN105681312A (zh) | 一种基于频繁项集挖掘的移动互联网异常用户检测方法 | |
CN102968591B (zh) | 基于行为片段共享的恶意软件特征聚类分析方法及系统 | |
Krishnan et al. | Crossing the threshold: Detecting network malfeasance via sequential hypothesis testing | |
RU2012156434A (ru) | Система и способ выбора оптимального типа антивирусной проверки при доступе к файлу | |
JP6294847B2 (ja) | ログ管理制御システムおよびログ管理制御方法 | |
US20240179157A1 (en) | Using machine learning to detect malicious upload activity | |
Zeeuwen et al. | Improving malicious URL re-evaluation scheduling through an empirical study of malware download centers | |
CN111159708B (zh) | 检测服务器中网页木马的装置、方法及存储介质 | |
Burji et al. | Malware analysis using reverse engineering and data mining tools | |
JP6707952B2 (ja) | 制御装置、制御方法及びプログラム | |
KR20120070025A (ko) | 웹/이메일을 통해 유포되는 악성코드 자동 관리 시스템 및 그 관리방법 | |
Haddadi et al. | Data confirmation for botnet traffic analysis | |
CN104486123B (zh) | 黑白名单管理的方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150930 Termination date: 20190628 |
|
RR01 | Reinstatement of patent right | ||
RR01 | Reinstatement of patent right |
Former decision: termination of patent right due to unpaid annual fee Former decision publication date: 20200623 |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150930 Termination date: 20210628 |