CN110555304A - 恶意包名检测方法、恶意应用检测方法及相应装置 - Google Patents
恶意包名检测方法、恶意应用检测方法及相应装置 Download PDFInfo
- Publication number
- CN110555304A CN110555304A CN201810553159.4A CN201810553159A CN110555304A CN 110555304 A CN110555304 A CN 110555304A CN 201810553159 A CN201810553159 A CN 201810553159A CN 110555304 A CN110555304 A CN 110555304A
- Authority
- CN
- China
- Prior art keywords
- malicious
- packet name
- certain
- word segmentation
- application
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
Abstract
本发明实施例公开了一种恶意包名检测方法、恶意应用检测方法及相应装置,涉及网络安全技术领域。其中恶意包名检测方法包括:获取应用的包名的所有分句;当判断任一分句为不可读时,确定出所述包名为随机;当判断所有分句均为可读时,确定出所述包名为非随机。本方法创新性地根据包名的随机性与恶意应用的相互依赖关系,利用包名的分句可读性来能判断出包名是否随机,判断准确度高达99.98%,且方法简单,检测速度快,耗费时间短,对于海量日志数据可以做到实时消费,且对被检测为随机生成的包名,再进行逆向代码分析确定恶意应用,可以大大节省人工逆向代码分析的工作,恶意应用检测针对性更强、准确率更高。
Description
技术领域
本发明涉及网络安全技术领域,特别涉及恶意包名检测方法、恶意应用检测方法、相关装置、计算机设备和计算机存储程序。
背景技术
随着智能手机的快速普及,人们进入了移动互联网的时代,移动应用产业得到了快速的增长。由于移动应用可从移动终端获得大量的敏感信息,且其本身能通过移动市场及广告商产生高利润,移动应用频频遭到了黑客的攻击,移动应用安全事件频发。鱼龙混杂的第三方应用市场,海量的移动应用缺乏集中有效的安全审查等,都导致大量的恶意移动应用被发布在移动应用市场。如何从海量的移动应用中精确地识别出可能会给移动终端带来安全隐患的恶意应用,成为移动应用安全研究的重要问题之一。
鉴别恶意应用,传统的方法是人工对应用进行安全性逆向代码分析,这种方法在海量应用情形下不仅需要耗费大量的时间,人工逆向代码分析工作量大,且检测针对性弱,准确度低,对于流式日志数据也不能进行实时消费。
发明内容
本发明实施例提供了一种恶意包名检测方法、恶意应用检测方法、相关装置、计算机设备和计算机存储程序,用以解决现有技术中所存在的上述技术问题。
第一方面,本发明实施例提供了一种恶意包名检测方法。
具体地,所述恶意包名检测方法包括:
获取应用的包名的所有分句;
当判断任一分句为不可读时,确定出所述包名为随机;
当判断所有分句均为可读时,确定出所述包名为非随机。
第二方面,本发明实施例提供了一种恶意包名检测装置。
具体地,所述恶意包名检测装置,包括:
分句获取模块,用于获取应用的包名的所有分句;
包名特性确定模块,用于当判断任一分句为不可读时,确定出所述包名为随机,且当判断所有分句均为可读时,确定出所述包名为非随机。
第三方面,本发明实施例提供了一种恶意应用检测方法。
具体地,所述恶意应用检测方法包括:
通过第一方面所述度恶意包名检测方法对应用的包名进行检测;
若包名检测结果为非随机,则确定出所述应用为正常应用;
若包名检测结果为随机,则对所述应用进一步进行恶意性检测。
第四方面,本发明实施例提供了一种恶意应用检测装置。
具体地,所述恶意应用检测装置包括:
包名检测装置,用于通过第一方面所述的恶意包名检测方法对应用的包名进行检测;
正常应用确定模块,用于若包名检测结果为非随机,则确定出所述应用为正常应用;
应用检测模块,用于若包名检测结果为随机,则对所述应用进一步进行恶意性检测。
第三方面,本发明实施例提供了一种计算机设备。
具体地,所述计算机设备,包括:
处理器;以及
用于存放计算机程序的存储器,
其特征在于,所述处理器用于执行所述存储器上所存放的计算机程序,以实现第一方面所述的恶意包名检测方法或第三方面所述的恶意应用检测方法。
第三方面,本发明实施例提供了一种计算机存储介质。
具体地,所述计算机存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的恶意包名检测方法或第三方面所述的恶意应用检测方法。
本实施例发明人对海量已知应用的包名进行特征分析,创新性地得出包名的随机性与恶意应用的相互依赖关系,另外由于包名的字符串越长,可读性越差,因此利用包名的分句可读性来能判断出包名是否随机(恶意)。本申请实施例恶意包名检测方法及装置、计算机设备和计算机存储程序经过大量实验验证,包名恶性判断的准确度高达99.98%,且方法简单,检测速度快,耗费时间短,对于海量日志数据可以做到实时消费。另外,本申请实施例恶意应用检测方法及装置、计算机设备和计算机存储程序对被检测为随机生成的包名,再进行逆向代码分析确定恶意应用,可以大大节省人工逆向代码分析的工作,恶意应用检测针对性更强、准确率更高。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明方法实施例1的恶意包名检测方法的流程图;
图2是图1所示实施例中判断某一分句是否可读的流程图;
图3是图2所示实施例中判断某一分词是否可读的流程图;
图4是图2所示实施例中判断某一分词是否可读的流程图;
图5是图4所示实施例中构建分词白名单的流程图;
图6是本发明方法实施例2的恶意应用检测方法的流程图;
图7是本发明装置实施例1的恶意包名检测装置的示意图;
图8为图7所述装置中包名特性确定模块的详细示意图;
图9为图8所示装置中分句特性确定模块的详细示意图;
图10为图7所示装置的其他组成模块的示意图;
图11为本发明装置实施例2的恶意应用检测装置的示意图
具体实施方式
【方法实施例1】
图1是根据本发明方法实施例1的恶意包名检测方法的流程图。参见图1,在本实施例中,所述方法包括:
步骤S11,获取应用的包名的所有分句;
步骤S12,当判断任一分句为不可读时,确定出该包名为随机;
步骤S13,当判断所有分句均为可读时,确定出该包名为非随机。
本实施例发明人对海量已知应用的包名进行特征分析,创新性地得出包名的随机性与恶意应用的相互依赖关系,另外由于包名的字符串越长,可读性越差,因此利用包名的分句可读性来能判断出包名是否随机(恶意)。本方法经过大量实验验证,包名恶性判断的准确度高达99.98%,且方法简单,检测速度快,耗费时间短,对于海量日志数据可以做到实时消费。另外,对被检测为随机生成的包名,再进行逆向代码分析确定恶意应用,可以大大节省人工逆向代码分析的工作,恶意应用检测针对性更强、准确率更高。
较佳地,步骤S11具体为:
根据大写字母、标点符号和数字将所述包名分成多个分句。
其中大写字母,比如“A”至“Z”,标点符号,比如“.”、“-”、“_”、“@”、“#”、“\”、“,”、“/”),数字,比如“0”至“9”,把一个包名(可以用P表示)分成多个分句(可以用C1,C2,…,Ci,…,Cn表示,n为自然数)。
本实施例中,通过将没有实际含义的上述大写字母、标点符号和数字这些特殊字符对包名进行分句,可以最大化的保证包名的真实性。另外,对于频繁切换大小写、穿插数字来躲避检测的包名,通过该分句手段,使得本方法判断得尤为精准。
进一步地,参考图2,该方法中判断某一分句是否可读,包括:
步骤S21,获取某一分句的所有分词;
步骤S22,当判断任一分词为可读时,确定出该某一分句为可读;
步骤S23,当判断所有分词均为不可读时,确定出该某一分句为不可读。
本实施例在确定分句的可读性时,可以利用该分句的分词的可读性来判断。并且判断规则经过大量实验验证,分句可读性判断的准确度高达99.98%。
较佳地,步骤S1a具体为:
以N为窗口,在该某一分句上滑动,进行N-gram分词。
具体地,以N为窗口,在分句Ci上滑动,把一个分句Ci拆分为多个分词,得到分词W1,W2,…,Wi,…,Wm,其中m为自然数。例如,分句Ci为abcdef,如果以3-gram对分句Ci进行分词,就会得到:abc,bcd,cde,def这四个分词。
本实施例发明人对N的取值与分句的可读性判断准确度之间的关系进行大量实验,得出N=4时,分句可读性判断的准确率度高达100%。
可选地,参考图3,在一种实施方式中,判断某一分词是否可读,可以包括:
步骤S31,当判断第一分词满足第一设定条件时,确定出该某一分词为可读,其中,第一设定条件为该某一分词符合所属语言所对应的语法规则;
步骤S32,当判断该某一分词满足第二设定条件时,确定出该某一分词为不可读,其中,第二设定条件为该某一分词不符合所属语言所对应的语法规则。
比如正常包名的命名规则为英语,通过判断分词Wi是否符合英语语法规则即可判断Wi是否为随机生成。这里,英语语法规则包括一个单词元音(a,e,i,o,u)的数量不超过3个,且辅音(元音之外的其他字母,还包括辅音字母的组合,例如sh,zh,st等)的数量不超过3个。若分词Wi符合英语语法规则,则分词Wi可读,否则不可读。
可选地,参考图4,在另一实施方式中,判断某一分词是否可读,可以包括:
步骤S41,当判断该某一分词满足第一设定条件时,确定出该某一分词为可读,其中,第一设定条件为该某一分词不符合所属语言所对应的语法规则但与分词白名单匹配;
步骤S43,当判断该某一分词满足第二设定条件时,确定出该某一分词为不可读,其中,该第二设定条件为该某一分词不符合所属语言所对应的语法规则且与分词白名单不匹配。
需要指出的是,当某个分词不符合该分词所属的语言所对应的语法规则时,例如,一些分词例如apps,html、cmcc这种,从所属的英语语法规则来说是不可读的,但是这些词有的是计算机或者手机应用的通用语言,有的是多个单词的缩写等各种形式的具有特殊意义的词语,应该为可读的,故对于不符合语言检测结果所对应的语法规则的分词,进一步进行分词白名单匹配判断。这里分词白名单可以包括单词(例如,single,puzzle,monster,simple,beauty,light,songs,bubble,girls,world)、拼音(例如,hongxiu,anzhi,hongshu)、单词缩写(例如,apps)、术语简写(例如,html,)、其他经验统计结果(例如templte,lvdou,cxzg,lkkl,xsld,mitpplay,snda,tmgp,dmmap,,andme,zskj,swda,eightgrid,gosms,ownskin,appswiz,ytxt,eyxz,wqhj,magzter,cnzz,kingkr,bkcat,qsbn,fullhd)中的任意一种或其组合。
进一步地,参考图5,该方法还可以包括:
步骤S51,对海量应用的包名的每个分词,根据包含在海量应用中的包名个数进行计数;
步骤S52,判断计数排序靠前的分词是否可读;
步骤S53,当计数排序靠前的分词为可读时,根据计数排序靠前的分词构建分词白名单。
在本实施例中,当某个分词不符合该分词所属的语言所对应的语法规则时,若该分词在海量应用中重复多次出现,这样的分词会在一定程度上认为是可读的,这时通过人工运营的方式进一步确定该分词是否有实义,即是否可读,并将其中可读的分词作为分词随机性检测的分词白名单,即使语法规则判断某分词为不可读,只要该分词匹配白名单,则认为是非随机的,当然若不匹配白名单,则仍然认为是随机的。具体地,在海量app包名集合中先进行分句,再进行N-gram分词,对每个分词计数,每个分词出现在海量app包名中的一个包名中,就加1,取计数最高的前K个分词,即top-K进行人工运营,以通过人工确定该前K个分词的可读性,此时分词白名单包括该前K个分词中可读的分词。可以理解地,后续海量app包名集合可能还需要定期加入新出现的包名,这时需要重新计算确定分词白名单。
【方法实施例2】
图6是根据本发明方法实施例2的恶意应用检测方法的流程图。参见图6,在本实施例中,所述方法包括:
步骤S61,通过方法实施例1所述的恶意包名检测方法对应用的包名进行检测;
步骤S62,若包名检测结果为非随机,则确定出该应用为正常应用;
步骤S63,若包名检测结果为随机,则对该应用进一步进行恶意性检测。
本实施例恶意应用检测方法对包名检测结果为非随机的应用,无需进一步进行逆向代码分析,而是直接确定出该应用为正常应用,但是对包名检测结果为随机的应用,需要进一步进行恶意性检测,例如通过逆向代码分析或者引擎来确定应用是否正常,这种方法对于海量日志数据可以做到实时消费,能大大节省人工逆向代码分析的工作,且恶意应用检测针对性更强、准确率更高。
【装置实施例1】
图7是根据本发明装置实施例1的恶意包名检测装置的示意图。参见图7,在本实施例中,所述装置包括:
分句获取模块71,用于获取应用的包名的所有分句;
包名特性确定模块72,用于当判断任一分句为不可读时,确定出包名为随机,且当判断所有分句均为可读时,确定出包名为非随机。
本实施例发明人对海量已知应用的包名进行特征分析,创新性地得出包名的随机性与恶意应用的相互依赖关系,另外由于包名的字符串越长,可读性越差,因此利用包名的分句可读性来能判断出包名是否随机(恶意)。本装置经过大量实验验证,包名恶性判断的准确度高达99.98%,且包名检测方法简单,检测速度快,耗费时间短,对于海量日志数据可以做到实时消费。另外,对被检测为随机生成的包名,本装置可以再进行逆向代码分析确定恶意应用,能大大节省人工逆向代码分析的工作,恶意应用检测针对性更强、准确率更高。
进一步地,该分句获取模块具体可以用于根据大写字母、标点符号和数字将包名分成多个分句。
参考图8,该包名特性确定模块72可以包括:
分词获取单元721,用于获取某一分句的所有分词;
分句特性确定单元722,用于当判断任一分词为可读时,确定出某一分句为可读,且当判断所有分词均为不可读时,确定出某一分句为不可读。
进一步地,该分词获取单元721具体可以用于以N为窗口,在某一分句上滑动,进行N-gram分词,其中N为自然数。
再进一步地,参考图9,该分句特性确定单元722,包括:
第一分词特性确定子单元722a,用于当判断某一分词满足第一设定条件时,确定出该某一分词为可读,其中,第一设定条件为该某一分词符合所属语言所对应的语法规则,或者,第一设定条件为该某一分词不符合所属语言所对应的语法规则但与分词白名单匹配;
第二分词特性确定子单元722b,用于当判断某一分词满足第二设定条件时,确定出该某一分词为不可读,其中,第二设定条件为该某一分词不符合所属语言所对应的语法规则,或者,第二设定条件为该某一分词不符合所属语言所对应的语法规则且与分词白名单不匹配。
更进一步地,参考图10,该恶意包名检测装置还包括:
海量分词计数模块73,用于对海量应用中每个包名的每个分词,根据包含在海量应用中的包名个数进行计数;
特定分词特性判断模块74,用于判断计数排序靠前的分词是否可读;
分词白名单构建模块75,用于当计数排序靠前的分词为可读时,根据计数排序靠前的分词构建分词白名单。
【装置实施例2】
图11是根据本发明装置实施例2的恶意应用检测装置的示意图。参见图11,在本实施例中,所述装置包括:
包名检测装置1111,用于通过方法实施例一的恶意包名检测方法对应用的包名进行检测;
正常应用确定模块1112,用于若包名检测结果为非随机,则确定出应用为正常应用;
应用检测模块1113,用于若包名检测结果为随机,则对应用进一步进行恶意性检测。
本实施例恶意应用检测装置通过包名检测装置1111首先对应用的包名进行检测,对包名检测结果为非随机的应用,无需进一步进行逆向代码分析,而是直接确定出该应用为正常应用,但是对包名检测结果为随机的应用,需要进一步进行恶意性检测,例如通过逆向代码分析或者引擎来确定应用是否正常,这种方法对于海量日志数据可以做到实时消费,能大大节省人工逆向代码分析的工作,且恶意应用检测针对性更强、准确率更高。
本发明的实施例还提供了一种计算机设备,包括处理器以及用于存放计算机程序的存储器,该处理器用于执行存储器上所存放的计算机程序,以实现方法实施例1所述的恶意包名检测方法或方法实施例2所述的恶意应用检测方法。
此外,本发明的实施例又提供了一种计算机存储介质,该计算机存储介质内存储有计算机程序,其中计算机程序被处理器执行时实现方法实施例1所述的恶意包名检测方法或方法实施例2所述的恶意应用检测方法。
上述计算机设备和存储介质,一部分实现了上述恶意包名检测方法,因此同理能检测包名是否随机,检测准确度高,方法简单,检测速度快,耗费时间短,对于海量日志数据可以做到实时消费。另一部分实现了上述恶意应用检测方法,因此同理能检测应用是否恶意,人工逆向代码分析的工作量小,恶意应用检测针对性更强、准确率更高。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同及相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域的技术人员可以清楚地了解到本发明可全部通过软件实现,也可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,所述计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、智能手机或者网络设备等)执行本发明各个实施例或实施例的某些部分所述的方法。
本文中所使用的“软件”等词均指一般意义上的任意类型的计算机编码或者计算机可执行指令集,可以运行所述编码或者指令集来使计算机或其他处理器程序化以执行如上所述的本发明的技术方案的各个方面。此外,需要说明的是,根据实施例的一个方面,在执行时实施本发明的技术方案的方法的一个或多个计算机程序不必须要在一台计算机或处理器上,而是可以分布于多个计算机或者处理器中的模块中,以执行本发明的技术方案的各个方面。
计算机可执行指令可以有许多形式,如程序模块,可以由一台或多台计算机或是其他设备执行。一般地,程序模块包括例程、程序、对象、组件以及数据结构等等,执行特定的任务或是实施特定的抽象数据类型。特别地,在各种实施例中,程序模块进行的操作可以根据各个不同实施例的需要进行结合或者拆分。
并且,本发明的技术方案可以体现为一种方法,并且已经提供了所述方法的至少一个示例。可以通过任何一种合适的顺序执行动作,所述动作表现为所述方法中的一部分。因此,实施例可以构造成可以按照与所示出的执行顺序不同的顺序执行动作,其中,可以包括同时地执行一些动作(尽管在示出的实施例中,这些动作是连续的)。
在本发明的各个具体实施例中,所描述的特征、架构或功能可在一个或一个以上实施例中以任何方式组合,其中众所周知的操作过程、程序模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。本领域技术人员应当理解,下述的各种实施例只用于举例说明,而非用于限制本发明的保护范围。本领域的技术人员还可以容易理解,本文所述和附图所示的各实施例中的程序模块、单元或步骤可以按多种不同配置进行组合和设计。
对于未在本说明书中进行具体说明的技术术语,除非另有特定说明,都应以本领域最为宽泛的意思进行解释。本文所给出的和使用的定义,应当对照字典、通过引用而并入的文档中的定义、和/或其通常意思进行理解。本文使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。
在权利要求书中以及上述的说明书中,所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项的任何或者所有可能组合。应当理解,尽管在本文可能采用术语第一、第二、第三等来描述各种信息和/或模块,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息和/或模块彼此区分开。例如,在不脱离本文范围的情况下,第一信息和/或模块也可以被称为第二信息和/或模块,类似地,第二信息和/或模块也可以被称为第一信息和/或模块。另外,在此所使用的词语“如果”,其意思取决于语境,可以被解释成为“在……时”或“当……时”或“响应于确定”。
在权利要求书中以及上述的说明书中,所有的过度短语,例如“包括”、“具有”、“包含”、“承载”、“具有”、“涉及”、“主要由…组成”以及其任何其它变体是应理解为是开放式的,即,包含但不限于,意在涵盖非排它性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限定。本领域技术人员应当理解,在不脱离所公开的实施例的基本原理的前提下,对上述实施例中的各细节可进行各种变化。因此,本发明的范围只由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合理的意思进行理解。
Claims (16)
1.一种恶意包名检测方法,包括:
获取应用的包名的所有分句;
当判断任一分句为不可读时,确定出所述包名为随机;
当判断所有分句均为可读时,确定出所述包名为非随机。
2.如权利要求1所述的恶意包名检测方法,其特征在于,所述获取应用的包名的所有分句,包括:
根据大写字母、标点符号和数字将所述包名分成多个分句。
3.如权利要求1或2所述的恶意包名检测方法,其特征在于,判断某一分句是否可读,包括:
获取所述某一分句的所有分词;
当判断任一分词为可读时,确定出所述某一分句为可读;
当判断所有分词均为不可读时,确定出所述某一分句为不可读。
4.如权利要求3所述的恶意包名检测方法,其特征在于,所述获取所述某一分句的所有分词,包括:
以N为窗口,在所述某一分句上滑动,进行N-gram分词,其中N为自然数。
5.如权利要求4所述的恶意包名检测方法,其特征在于,判断某一分词是否可读,包括:
当判断所述某一分词满足第一设定条件时,确定出所述某一分词为可读,其中,所述第一设定条件为所述某一分词符合所属语言所对应的语法规则,或者,所述第一设定条件为所述某一分词不符合所属语言所对应的语法规则但与分词白名单匹配;
当判断所述某一分词满足第二设定条件时,确定出所述某一分词为不可读,其中,所述第二设定条件为所述某一分词不符合所属语言所对应的语法规则,或者,所述第二设定条件为所述某一分词不符合所属语言所对应的语法规则且与所述分词白名单不匹配。
6.如权利要求5所述的恶意包名检测方法,其特征在于,还包括:
对海量应用的包名的每个分词,根据包含在海量应用中的包名个数进行计数;
判断计数排序靠前的分词是否可读;
当所述计数排序靠前的分词为可读时,根据所述计数排序靠前的分词构建所述分词白名单。
7.一种恶意包名检测装置,包括:
分句获取模块,用于获取应用的包名的所有分句;
包名特性确定模块,用于当判断任一分句为不可读时,确定出所述包名为随机,且当判断所有分句均为可读时,确定出所述包名为非随机。
8.如权利要求7所述的恶意包名检测装置,其特征在于,所述分句获取模块具体用于根据大写字母、标点符号和数字将所述包名分成多个分句。
9.如权利要求7或8所述的恶意包名检测装置,其特征在于,所述包名特性确定模块包括:
分词获取单元,用于获取所述某一分句的所有分词;
分句特性确定单元,用于当判断任一分词为可读时,确定出所述某一分句为可读,且当判断所有分词均为不可读时,确定出所述某一分句为不可读。
10.如权利要求9所述的恶意包名检测装置,其特征在于,所述分词获取单元具体用于以N为窗口,在所述某一分句上滑动,进行N-gram分词,其中N为自然数。
11.如权利要求10所述的恶意包名检测装置,其特征在于,所述分句特性确定单元,包括:
第一分词特性确定子单元,用于当判断所述某一分词满足第一设定条件时,确定出所述某一分词为可读,其中,所述第一设定条件为所述某一分词符合所属语言所对应的语法规则,或者,所述第一设定条件为所述某一分词不符合所属语言所对应的语法规则但与分词白名单匹配;
第二分词特性确定子单元,用于当判断所述某一分词满足第二设定条件时,确定出所述某一分词为不可读,其中,所述第二设定条件为所述某一分词不符合所属语言所对应的语法规则,或者,所述第二设定条件为所述某一分词不符合所属语言所对应的语法规则且与所述分词白名单不匹配。
12.如权利要求11所述的恶意包名检测装置,其特征在于,还包括:
海量分词计数模块,用于对海量应用中每个包名的每个分词,根据包含在所述海量应用中的包名个数进行计数;
特定分词特性判断模块,用于判断计数排序靠前的分词是否可读;
分词白名单构建模块,用于当所述计数排序靠前的分词为可读时,根据所述计数排序靠前的分词构建所述分词白名单。
13.一种恶意应用检测方法,包括:
通过权利要求1至6中任一权利要求所述的恶意包名检测方法对应用的包名进行检测;
若包名检测结果为非随机,则确定出所述应用为正常应用;
若包名检测结果为随机,则对所述应用进一步进行恶意性检测。
14.一种恶意应用检测装置,包括:
包名检测装置,用于通过权利要求1至6中任一权利要求所述的恶意包名检测方法对应用的包名进行检测;
正常应用确定模块,用于若包名检测结果为非随机,则确定出所述应用为正常应用;
应用检测模块,用于若包名检测结果为随机,则对所述应用进一步进行恶意性检测。
15.一种计算机设备,包括:
处理器;以及
用于存放计算机程序的存储器,
其特征在于,所述处理器用于执行所述存储器上所存放的计算机程序,以实现权利要求1至6中任一项权利要求所述的恶意包名检测方法或权利要求13所述的恶意应用检测方法。
16.一种计算机存储介质,其特征在于,所述计算机存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6中任一项权利要求所述的恶意包名检测方法或者权利要求13所述的恶意应用检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810553159.4A CN110555304A (zh) | 2018-05-31 | 2018-05-31 | 恶意包名检测方法、恶意应用检测方法及相应装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810553159.4A CN110555304A (zh) | 2018-05-31 | 2018-05-31 | 恶意包名检测方法、恶意应用检测方法及相应装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110555304A true CN110555304A (zh) | 2019-12-10 |
Family
ID=68735406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810553159.4A Pending CN110555304A (zh) | 2018-05-31 | 2018-05-31 | 恶意包名检测方法、恶意应用检测方法及相应装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110555304A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084489A (zh) * | 2020-09-11 | 2020-12-15 | 北京天融信网络安全技术有限公司 | 可疑应用检测方法及装置 |
CN113742727A (zh) * | 2021-08-27 | 2021-12-03 | 恒安嘉新(北京)科技股份公司 | 程序识别模型训练和程序识别方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7266202B1 (en) * | 1999-02-17 | 2007-09-04 | Sony Corporation | Information processing device and method, and program storage medium |
CN104598815A (zh) * | 2013-10-30 | 2015-05-06 | 贝壳网际(北京)安全技术有限公司 | 恶意广告程序的识别方法、装置及客户端 |
CN105574186A (zh) * | 2015-12-21 | 2016-05-11 | 广州爱九游信息技术有限公司 | 应用匹配方法和装置 |
CN106022101A (zh) * | 2016-05-17 | 2016-10-12 | 广东欧珀移动通信有限公司 | 一种应用管理方法及终端 |
CN107800673A (zh) * | 2016-09-07 | 2018-03-13 | 武汉安天信息技术有限责任公司 | 一种白名单的维护方法及装置 |
-
2018
- 2018-05-31 CN CN201810553159.4A patent/CN110555304A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7266202B1 (en) * | 1999-02-17 | 2007-09-04 | Sony Corporation | Information processing device and method, and program storage medium |
CN104598815A (zh) * | 2013-10-30 | 2015-05-06 | 贝壳网际(北京)安全技术有限公司 | 恶意广告程序的识别方法、装置及客户端 |
CN105574186A (zh) * | 2015-12-21 | 2016-05-11 | 广州爱九游信息技术有限公司 | 应用匹配方法和装置 |
CN106022101A (zh) * | 2016-05-17 | 2016-10-12 | 广东欧珀移动通信有限公司 | 一种应用管理方法及终端 |
CN107800673A (zh) * | 2016-09-07 | 2018-03-13 | 武汉安天信息技术有限责任公司 | 一种白名单的维护方法及装置 |
Non-Patent Citations (1)
Title |
---|
张程: ""基于行为检测的恶意代码查杀引擎技术研究"", 《中国优秀博硕士学位论文全文数据库(硕士)·信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084489A (zh) * | 2020-09-11 | 2020-12-15 | 北京天融信网络安全技术有限公司 | 可疑应用检测方法及装置 |
CN113742727A (zh) * | 2021-08-27 | 2021-12-03 | 恒安嘉新(北京)科技股份公司 | 程序识别模型训练和程序识别方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107204184B (zh) | 语音识别方法及系统 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN110020422B (zh) | 特征词的确定方法、装置和服务器 | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN102279890A (zh) | 基于微博的情感词提取收集方法 | |
CN103324745A (zh) | 基于贝叶斯模型的文本垃圾识别方法和系统 | |
WO2017198031A1 (zh) | 解析语义的方法和装置 | |
CN106897290B (zh) | 一种建立关键词模型的方法及装置 | |
CN103559313B (zh) | 搜索方法及装置 | |
CN110287318B (zh) | 业务操作的检测方法及装置、存储介质、电子装置 | |
KR101541306B1 (ko) | 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체 | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
CN113076735A (zh) | 目标信息的获取方法、装置和服务器 | |
KR101695014B1 (ko) | 감성 어휘 정보 구축 방법 및 장치 | |
CN110069769A (zh) | 应用标签生成方法、装置及存储设备 | |
WO2014065392A1 (ja) | 情報抽出システム、情報抽出方法および情報抽出用プログラム | |
CN110263121B (zh) | 表格数据处理方法、装置、电子装置及计算机可读存储介质 | |
CN110555304A (zh) | 恶意包名检测方法、恶意应用检测方法及相应装置 | |
CN103577547A (zh) | 网页类型识别方法及装置 | |
CN111291551A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN107688594B (zh) | 基于社交信息的风险事件的识别系统及方法 | |
CN110489514B (zh) | 提升事件抽取标注效率的系统及方法、事件抽取方法及系统 | |
CN109933775B (zh) | Ugc内容处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191210 |