CN106528805B

CN106528805B - 基于用户的移动互联网恶意程序url智能分析挖掘方法

Info

Publication number: CN106528805B
Application number: CN201611001790.0A
Authority: CN
Inventors: 黄宏昌; 罗剑华; 刘小坤; 吴林辉; 陈海建; 蔡晓光; 朱煜家; 陈清; 董森涛; 王汉威; 罗俊
Original assignee: GUANGDONG HUATONG JIUFANG TECHNOLOGY CO LTD
Current assignee: GUANGDONG HUATONG JIUFANG TECHNOLOGY CO LTD
Priority date: 2016-11-15
Filing date: 2016-11-15
Publication date: 2019-06-28
Anticipated expiration: 2036-11-15
Also published as: CN106528805A

Abstract

本发明涉及互联网络技术领域，具体涉及一种基于用户的移动互联网恶意程序URL智能分析挖掘方法，它采用如下方法步骤：步骤一；订购模式匹配：步骤二；第一次智能分析：步骤三；根据步骤二得到的第一次输出数据，进行分析得出黑白名单URL；步骤四：根据步骤三的数据进行第二次智能分析：步骤五；针对第二次输出数据，进行第三次智能分析：它具有速度快，定位准确，能够提前发现疑似URL的时间，针对目前通过用户投诉才能发现恶意扣费移动互联网恶意程序，能够在发现移动互联网恶意程序样本之前侦测得到到移动互联网恶意程序主控地址，保护了手机用户的安全使用移动互联网络，减少损失。

Description

基于用户的移动互联网恶意程序URL智能分析挖掘方法

【技术领域】

本发明涉及互联网络技术领域，具体涉及一种基于手机用户上网日志的移动互联网恶意程序URL智能分析挖掘方法。

【背景技术】

互联网又称英特网，是网络与网络之间所串连成的庞大网络，这些网络以一组通用的协议相连，形成逻辑上的单一巨大国际网络。随着科技技术的不断发展，针对手机的4G网络的也随之高速发展，国内的手机用户在不断地增长随着智能手机的普及，移动互联网恶意程序已经日益剧增，已经严重影响到用户正常使用手机。

互联网中的恶意程序通常是指带有攻击意图所编写的一段程序。这些威胁可以分成两个类别：需要宿主程序的威胁和彼此独立的威胁。前者基本上是不能独立于某个实际的应用程序、实用程序或系统程序的程序片段；后者是可以被操作系统调度和运行的自包含程序。

移动互联网恶意程序在资费、隐私保护、网络稳定等多个方面影响移动运营商的服务质量和客户满意度，其中恶意扣费类的移动互联网恶意程序会利用移动增值业务的漏洞进行恶意扣费，会给移动运营商造成极大的影响。因此移动运营商纷纷开始构建各种手机移动互联网恶意程序的监测分析类系统，利用移动运营商的特殊优势，对移动网络、通信网络中的海量数据进行挖掘和分析，全面监控和防范移动互联网恶意程序的传播和爆发。

传统的移动互联网恶意程序侦测方法，是通过提取已发现的移动互联网恶意程序的网络行为特征，再从海量的数据进行挖掘和分析，才能监测已经感染移动互联网恶意程序用户。这样的前提是在发现已知移动互联网恶意程序的情况下才进行的侦测已发现移动互联网恶意程序的操作，是在用户已感染的移动互联网恶意程序的情况下才发现，不能够做到提前发现移动互联网恶意程序，达到预防的效果。同时不能对未知的移动互联网恶意程序进行挖掘，在发现已知情况下移动互联网恶意程序前，相信大部分用户已经造成经济损失了。

因此在大数据横行的年代，需要从大数据中挖掘移动互联网恶意程序的网络行为，快速定位移动互联网恶意程序特征，进行相关的处置，才能够保证用户不受移动互联网恶意程序的感染。

【发明内容】

本发明的目的在于针对现有技术的缺陷和不足，提供一种结构简单，设计合理、使用方便的基于用户的移动互联网恶意程序URL智能分析挖掘方法，它具有速度快，定位准确，能够提前发现疑似URL的时间，针对目前通过用户投诉才能发现恶意扣费移动互联网恶意程序，能够在发现移动互联网恶意程序样本之前侦测得到到移动互联网恶意程序主控地址，保护了手机用户的安全使用移动互联网络，减少损失。

本发明所述的基于用户的移动互联网恶意程序URL智能分析挖掘方法，它采用如下方法步骤：

步骤一：订购模式匹配：

输入：用户每天访问的url列表；输出：订购业务的疑似URL，判断是可疑的业务订购；

1)根据业务订购关键筛选有关URL，通过IO操作与URL数据库进行数据交换；

2)按时间顺序依此扫描用户访问的URL地址，根据关键字匹配判断用户订购的业务类型，根据订购类型(比如gameOrder)确定需要匹配的业务流程节点。然后提取出相应的URL段进行业务流程节点匹配，打印出匹配到的业务流程节点(所有业务流程节点构成一个业务流程节点链)；

3)根据用户访问的流程节点链条，通过订购模式库，进行分析判断；

其中：URL数据库，现在生产环境的数据库主要为ORACLE数据库，程序主要以一天的数据为单位进行分析；

其中：IO操作，支持两种数据库操作方式，包括原生数据库读取和Hibernate(面向对象)数据读取，现在主要使用原生数据库操作；IO操作主要是根据关键词匹配，比如(cmgame，mmGo，cmread，10086等等进行匹配)过滤掉无关的用户数据；

其中：订购模式库：人工提取移动的标准订购流程，定义为规范(xml定义存储)；

步骤二：第一次智能分析：

1)以每个用户一天的数据为单位，根据用户想要订购的业务而选取对应的标准订购模式进行匹配，并打印相应的信息(经过的流程节点)到日志；

2)得出结论，输出：这是一个完整/不完整的订购业务，如果完整，则判断，输出：是一次可疑/可信的业务订购行为，并且打印出相应的用户id，形成第一次输出数据；第一次输出数据根据订购模式匹配，把可疑的订购行为的用户访问URL记录输出和相应的用户信息输出；第一次输出数据包括可疑订购的URL分析和可疑用户的URL列表；

步骤三：根据步骤二得到的第一次输出数据，进行分析得出黑白名单URL；

输入：可疑的URL列表输出：匹配到的URL黑名单；

建立了两种列表：移动互联网恶意程序黑名单URL列表(已知的移动互联网恶意程序主控地址)和URL白名单(主流网站，新浪，百度等等)；在程序开始运行把相应的黑白名单信息写入到缓存，然后通过对url进行匹配，命中到黑名单则输出，命中到白名单的URL则对在url列表中移除相应的url信息

步骤四：根据步骤三的数据进行第二次智能分析：

1)步骤三中所得到的黑名单、白名单；

2)URL痕迹匹配：

输入：可疑的url列表输出：相似度高的URL；

实现步骤：主要是加载白名单的列表，然后对每个url一一跟白名单的URL进行相似度匹配，但相似度达到一定的权值则输出；

3)余弦相似性判断：

输入：可疑的url列表输出：相似度高的URL

实现方法：主要是加载白名单的列表，然后对每个url一一跟白名单的URL进行相似度匹配，但相似度达到一定的权值则输出；URL相似度分析(用编辑距离算法，又名venshtein距离)：Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数；许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符；这样子，通过距离的大小，就可以很好的代表两个的字符串的相似度匹配)；

4)进行第二次智能分析后得到第二次输出数据；

第二次输出数据：主要输出有两种：

1)可疑URL主控地址；

2)可疑URL传播地址；可疑的URL传播地址，可以通过程序爬去直接获得移动互联网恶意程序样本。而主控地址则可以通过MMDS手机病毒分析系统分析而获取相应的移动互联网恶意程序样本可疑URL传播主控；

步骤五：针对第二次输出数据，进行第三次智能分析：将可疑URL进行主控特征提取，然后从用户上网日志的下载链接中进行疑似主控特征过滤，将过滤获取到的移动互联网恶意程序样本提交给人工进行分析，提取移动互联网恶意程序特征，加入移动互联网恶意程序特征库，改善杀毒效果；

1)将第二次输出数据中的可疑URL主控地址，进行系统分析，然后输入至病毒样本智能分析中，同时将可疑URL主控地址输入至URL特征库备存；

2)将第二次输出数据中可疑的URL传播主控直接输送至病毒样本智能分析，并输送至URL特征库备存；

3)方便下次进行第二次智能分析时，根据URL特征库进行比对。

采用上述结构后，本发明有益效果为：本发明所述的基于用户的移动互联网恶意程序URL智能分析挖掘方法，其研究目的是通过用户访问的URL，判断该历史记录是否代表用户本身自愿的操作，然后对移动互联网恶意程序强制的操作进行挖掘分析，通过对移动网络侧大数据的过滤分析，找到移动互联网恶意程序的根源，然后进行整治挖掘，具有速度快，定位准确，能够提前发现疑似URL的时间，针对目前通过用户投诉才能发现恶意扣费移动互联网恶意程序，能够在发现移动互联网恶意程序样本之前侦测得到到移动互联网恶意程序主控地址，保护了手机用户的安全使用移动互联网络，减少损失。

【附图说明】

此处所说明的附图是用来提供对本发明的进一步理解，构成本申请的一部分，但并不构成对本发明的不当限定，在附图中：

图1是本发明流程示意图；

图2是本发明的第一次智能分析URL时序图；

图3是本发明的第二次智能分析UML时序图；

图4所示为正常订购模式访问流程图；

图5所示为非正常订购模式的访问流程图。

【具体实施方式】

下面将结合附图以及具体实施例来详细说明本发明，其中的示意性实施例以及说明仅用来解释本发明，但并不作为对本发明的限定。

如图1-图3所示，本具体实施方式所述的基于用户的移动互联网恶意程序URL智能分析挖掘方法，它采用如下方法步骤：

步骤一：订购模式匹配：

步骤二：第一次智能分析：

输入：可疑的URL列表输出：匹配到的URL黑名单；

步骤四：根据步骤三的数据进行第二次智能分析：

1)步骤三中所得到的黑名单、白名单；

2)URL痕迹匹配：

输入：可疑的url列表输出：相似度高的URL；

3)余弦相似性判断：

输入：可疑的url列表输出：相似度高的URL

4)进行第二次智能分析后得到第二次输出数据；

第二次输出数据：主要输出有两种：

1)可疑URL主控地址；

2)可疑URL传播地址；可疑的URL传播地址，可以通过程序爬去直接获得移动互联网恶意程序样本。

本发明研究的用户特指的是手机终端的用户，行为的数据主要是指用户访问过的URL地址，特别是用户订购的移动业务(点播，游戏等等)。

本发明中制造方法：

1)正向匹配方法侦测：

移动对于每个业务订购都明确定义了规范和标准流程，比如正常订购某点播音乐服务的流程为1-＞2-＞3-＞4-＞5，但是移动互联网恶意程序由于自身的机制，通常会跳过正常订购移动业务的步骤和用户的确认机制，而对原有的流程做出某些改动或增加某种流程，流程可能变为1-＞3-＞2--＞5，通过在用户访问的历史记录，提取用户订购业务流程与正常的业务流程匹配，判断该流程是否符合标准流程。

2)反向匹配方法侦测：

反向匹配就是提取移动互联网恶意程序的流程特征，把访问其恶意网络行为特征的访问流程具有相似性特征提取出来，归类为一种种对应的模式。然后与正向匹配一样，通过在用户访问过的历史记录中，提取用户订购业务流程，然后到移动互联网恶意程序模式库里面进行匹配，匹配成功，则表明该软件的网络行为特征存在恶意控制的可疑。

3)URL痕迹特征侦测：

对移动互联网恶意程序服务器的域名或者IP地址的参数进行痕迹特征提取侦测，通过对URL的HTTP提交的参数进行痕迹特征提取，归类到相应的移动互联网恶意程序数据库，然后对URL进行匹配判断。目的是发现新的主控地址；追查发现新的移动互联网恶意程序样本；监控存在关联链式发展的移动互联网恶意程序。

4)URl相似性分析：

可疑的URL地址，往往为了达到某些目的，而佯装成正常URL地址，特别是对于网银，支付宝，移动商城的钓鱼网站等等。通过申请类似这些网站的域名，达到欺骗网民的作用。由于这些域名往往与白名单或者网银的正常网址非常相似，所以可以通过分析URL的相似度，把相似度较高的URL打印出来。

本发明的测试方法如下：

订购模式匹配方法测试

1)如图4所示为正常订购模式访问流程图

2)如图5所示为非正常订购模式的访问流程图

图4、图5是从用户的上网日志中提取的订购链接信息，由图4、图5两图我们可以发现，正常的手机订购和异常订购最主要的区别在于：异常手机订购用户的URL记录往往具有不确定性和突然性，即用户下载移动梦网的手机游戏过程中，非法的手机订购并不经过移动梦网主页或者游戏商场的主页面而直接根据恶意主控的配置文件直接进入游戏下载页面(所以可以判断是一种别有目的的直接跳转)，从流程节点这个角度分析来说，也就是用户往往跳过流程1而直接进入流程2甚至流程3。所以通过对用户上网日志进行模式匹配分析是可行的。

3)URL痕迹特征侦测方法测试：

对移动互联网恶意程序URL进行痕迹特征提取。例如吸血狂魔

http：//121.37.61.30/softagent/report？serviceid＝cs&ua＝NOKIA5320&imei＝358228030099308&imsi＝460000121149656&status＝0&ver＝1.0&smsc＝+86138002005000200500

提取参数进行痕迹特征/fee/get？serviceid。通过测试从其他用户上网日志捕获到新的移动互联网恶意程序主控121.37.61.23，证明对用户上网日志进行URL痕迹特征侦测是可行的

http：//121.37.61.23：8010/fee/get？serviceid＝cc&mobi le＝cc&ua＝NOKIA5320&imei＝358228030099308&imsi＝460000121149656&status＝1&ver＝1.5&smsc＝+8613800200500

4)URl相似度分析测试：

通过短信或者弹窗的形式让消费者访问“光大银行”的网址www.cebbork.com。

这个网址是一个钓鱼网站的网址，真正的“光大银行”官方网站为www.cebbank.com通过对官方网站的URL相似的字母进行修改，达到欺瞒用户的目的。类似的URL篡改地址还包括http：//1oo86.com来佯装成http：//10086.com，证明对用户上网日志进行URL相似性分析是可行的。

本发明处理方法步骤如下：

1)数据格式定义

初定采用xml来表征每个业务订购模式。如下图，每一种业务模式(model)都包含一个流程节点(process)列表，具体如下：

2)程序的分层设计：

应用软件的设计采用分层设计。分层的程序设计带来的好处是显而易见的，由于层间松散的耦合关系，使得我们可以专注于本层的设计，而不必关心其他层的设计，也不必担心自己的设计会影响其它层。

根据程序设计的需要，主要分为

业务层：Serice主要完成的工作调用dao，读取数据进行智能分析。

Dao层：Dao层主要完成的工作是与数据库做交互(本项目主要设计了两种数据库的读取模式，hibernate的读取模式，和原生数据库的读取，现在主要使用的原生数据库的操作，因为操作起来更加灵活方便)

由于程序运行的环境是一定时间的累计的数据信息，并且程序分析也是针对一定时间区间的用户url进行分析，所以增加响应的定时调度任务类，让程序在每天的固定时间提取数据进行分析。

3)第一次智能分析：主要是录入用户的上网日志记录，找出包含订购模式的用户上网日志的疑似URL地址，通过正向和反向匹配方法进行匹配，然后输出可疑URL到智能分析二模块；

4)第二次智能分析：主要采取了责任链的设计模式，在责任链模式里，很多对象由每一个对象对其下家的引用而连接起来形成一条链。请求在这个链上传递，直到链上的某一个对象决定处理此请求。发出这个请求的客户端并不知道链上的哪一个对象最终处理这个请求，这使得系统可以在不影响客户端的情况下动态地重新组织和分配责任；

Public interface intfFilter{

Public void doFilter(List<String>urls)；}

在每个分析url的方法实现这个过滤器接口，然后在doFilter的方法里面完成url列表的分析，包括URL痕迹分析、URL相似度分析。然后按照约定的输出格式打印在日志信息上面。

5)第三次智能分析：将高度疑似的URL特征挖掘其下载的移动互联网恶意程序，交由人工进行研判分析。

本发明针对附图一中各流程模块，进行如下说明：

1)数据库，现在生产环境的数据库主要为ORACLE数据库。程序主要以一天的数据为单位进行分析。

2)IO操作，支持两种数据库操作方式，包括原生数据库读取和Hibernate(面向对象)数据读取，现在主要使用原生数据库操作。IO操作主要是根据关键词匹配，比如(cmgame，mmGo，cmread，10086等等进行匹配)过滤掉无关的用户数据。

3)智能分析一(第一次智能分析)：以每个用户一天的数据为单位，根据用户想要订购的业务而选取对应的标准订购模式进行匹配，并打印相应的信息(经过的流程节点)到日志。

4)订购模式库：人工提取移动的标准订购流程，定义为规范(xml定义存储)。

5)第一次输出：根据订购模式匹配，把可疑的订购行为的用户访问URL记录输出，和相应的用户信息输出。

6)判断可疑订购的标准主要通过两种：1、根据流程顺序判断2、根据流程必经步骤判断3、在短时间多次尝试访问同一个节点(比如短时间发起下载游戏链接多次)。

7)智能分析二(第二次智能分析)：对第一次输出出来的URL进行分析，常用的方法有黑白名单的过滤校验、URL痕迹匹配(对于一个移动互联网恶意程序URL，

http：//datacenter.sj3g88.com/portal/m/c5/1.ashx？r＝E16AFA，1430003813727&ie＝354203030147450&is＝460004450443774&p＝13800200500&m＝536956370&nt2＝20110825143014&kv＝1_1_1&v＝3&tp＝0按照传统的URL痕迹提取，portal/m/c5/1.ashx只提取为痕迹进行匹配。但是，其实上，URL后面的参数名也是特征信息之一，比如nt2，ie，is，tp等等。对于移动互联网恶意程序URL可以提取出这些特征信息，在数学上进行统计，得出每个特征在移动互联网恶意程序URL训练库出现的频数作为每个特征权值的量化参考值之一，然后对于每个url，通过提取出url特征信息，然后再通过算法计算出特征匹配的权值系数输出可疑的URL)。URL相似度分析(用编辑距离算法(又名venshtein距离)。Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。这样子，通过距离的大小，就可以很好的代表两个的字符串的相似度匹配)

8)URL特征库：通过对有问题的URL进行特征提取，获得移动互联网恶意程序URL的特征库

9)第二次输出：主要输出有两种1)、可疑URL主控地址2)可疑URL传播地址。可疑的URL传播地址，可以通过程序爬去直接获得移动互联网恶意程序样本。而主控地址则可以通过MMDS手机病毒分析系统分析而获取相应的移动互联网恶意程序样本。

10)智能分析三(第三次智能分析)：这是整个智能分析的最后一步，将可疑URL进行主控特征提取，然后从用户上网日志的下载链接中进行疑似主控特征过滤，将过滤获取到的移动互联网恶意程序样本提交给人工进行分析，提取移动互联网恶意程序特征，加入移动互联网恶意程序特征库，改善杀毒效果。

本发明一是通过订购模式匹配进行疑似URL过滤，具有创新性，应给予保护；二是通过URL痕迹匹配、相似度匹配算法对疑似URL进行处理，挖掘移动互联网恶意程序主控地址，最后通过疑似地址挖掘移动互联网恶意程序样本，具有创新，应给予保护。

本发明所述的基于用户的移动互联网恶意程序URL智能分析挖掘方法，其研究目的是通过用户访问的URL，判断该历史记录是否代表用户本身自愿的操作，然后对移动互联网恶意程序强制的操作进行挖掘分析，通过对移动网络侧大数据的过滤分析，找到移动互联网恶意程序的根源，然后进行整治挖掘，具有速度快，定位准确，能够提前发现疑似URL的时间，针对目前通过用户投诉才能发现恶意扣费移动互联网恶意程序，能够在发现移动互联网恶意程序样本之前侦测得到到移动互联网恶意程序主控地址，保护了手机用户的安全使用移动互联网络，减少损失。

以上所述仅是本发明的较佳实施方式，故凡依本发明专利申请范围所述的特征及原理所做的等效变化或修饰，均包括于本发明专利申请范围内。

Claims

1.基于用户的移动互联网恶意程序URL智能分析挖掘方法，其特征在于：它采用如下方法步骤:

步骤一：订购模式匹配:

输入：用户每天访问的url列表；输出:订购业务的疑似URL，判断是可疑的业务订购；

2)按时间顺序依此扫描用户访问的URL地址，根据关键字匹配判断用户订购的业务类型，根据订购类型gameOrder，确定需要匹配的业务流程节点，然后提取出相应的URL段进行业务流程节点匹配，打印出匹配到的业务流程节点，所有业务流程节点构成一个业务流程节点链；

其中:URL数据库，现在生产环境的数据库为ORACLE数据库，程序以一天的数据为单位进行分析；

其中：IO操作，支持两种数据库操作方式，包括原生数据库读取和Hibernate面向对象，进行数据读取，使用原生数据库操作；IO操作是根据关键词匹配，关键词为cmgame、mmGo、cmread或10086，过滤掉无关的用户数据；

其中：订购模式库：人工提取移动的标准订购流程，定义为规范，xml定义存储；

步骤二：第一次智能分析:

1)以每个用户一天的数据为单位，根据用户想要订购的业务而选取对应的标准订购模式进行匹配，并打印相应的信息，经过的流程节点，到日志；

输入：可疑的URL列表输出：匹配到的URL黑名单；

建立了两种列表：移动互联网恶意程序黑名单URL列表和URL白名单；URL列表为已知的移动互联网恶意程序主控地址，URL白名单为主流网站新浪、百度；在程序开始运行把相应的黑白名单信息写入到缓存，然后通过对url进行匹配，命中到黑名单则输出，命中到白名单的URL则对在url列表中移除相应的url信息；

步骤四:根据步骤三的数据进行第二次智能分析:

1)步骤三中所得到的黑名单、白名单；

2)URL痕迹匹配：

输入：可疑的url列表输出：相似度高的URL；

实现步骤：是加载白名单的列表，然后对每个url一一跟白名单的URL进行相似度匹配，但相似度达到权值则输出；

3)余弦相似性判断：

输入：可疑的url列表输出：相似度高的URL

实现方法：是加载白名单的列表，然后对每个url一一跟白名单的URL进行相似度匹配，但相似度达到权值则输出；URL相似度分析用编辑距离算法，编辑距离算法又名Levenshtein距离：Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数；许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符；通过距离的大小，就可以很好的代表两个的字符串的相似度匹配；

4)进行第二次智能分析后得到第二次输出数据；

第二次输出数据：输出有两种：

1)可疑URL主控地址；

2)可疑URL传播地址；可疑的URL传播地址，可以通过程序爬去直接获得移动互联网恶意程序样本；而主控地址则可以通过MMDS分析而获取相应的移动互联网恶意程序样本可疑URL传播主控；

步骤五：针对第二次输出数据，进行第三次智能分析:将可疑URL进行主控特征提取，然后从用户上网日志的下载链接中进行疑似主控特征过滤，将过滤获取到的移动互联网恶意程序样本提交给人工进行分析，提取移动互联网恶意程序特征，加入移动互联网恶意程序特征库，改善杀毒效果；