CN105939359A

CN105939359A - 检测移动终端隐私泄露的方法及装置

Info

Publication number: CN105939359A
Application number: CN201610448204.0A
Authority: CN
Inventors: 黄亮; 陈训逊; 李超; 王东安; 王博; 薛晨; 洪筱筱; 徐杰; 熊刚; 刘文浩
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2016-06-20
Filing date: 2016-06-20
Publication date: 2016-09-14

Abstract

本发明公开了一种检测移动终端隐私泄露的方法及装置，该方法包括：利用已构建的粗粒度检测模型监控并检测移动终端当前的网络数据流，所述粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的；若检测到所述移动终端当前的网络数据流中包含所述头域特征关键字和/或URL参数特征字符串，则判定所述移动终端当前的网络数据流存在隐私泄露。通过上述方式，本发明能够全面检测现有的隐私泄露，且适合大规模网络环境。

Description

检测移动终端隐私泄露的方法及装置

技术领域

本发明涉及移动终端安全技术领域，特别是涉及一种检测移动终端隐私泄露的方法及装置。

背景技术

随着移动智能终端的普及和移动应用(App)的广泛使用，移动终端上安全问题频发，导致移动用户频频遭受经济损失，隐私信息被恶意窃取。因此，如何从流量中有效检测隐私信息，尤其是明文传输的隐私信息，对于保护用户隐私安全具有较大的意义。

传统隐私信息对用户而言是不会随时间变化的，而位置隐私信息则不然，例如用户的坐标数据随着时间不同可能会不断变化。一方面，现有的隐私数据检测方法大都关注某类App甚至是某一个App产生的数据流量特点，缺乏普适性。为了能够从网络流量中准确检测位置隐私泄露，需要总结出适用于大规模网络流的位置隐私特征，覆盖大部分应用流量，以保证检测的结果有效。而现有的特征提取算法对未知特点的隐私泄露检测以及大规模网络流量的隐私泄露检测都不太适用。

另一方面，还有一种移动终端隐私窃取行为的监控方法，主要通过在移动终端中预设隐私信息模拟配置库，模拟用户隐私信息及硬件数据信息，并监控移动终端的通讯行为，将移动终端通讯行为中所携带信息与预设隐私信息模拟配置库中的信息进行比对，如果比对成功，则认为存在隐私窃取行为，要求用户判断是否允许行为继续，否则认为不存在隐私窃取行为，对该行为进行过滤放行。但是，该技术仅适用于在特定移动终端上判断是否有应用开展隐私窃取操作，不适合大规模网络环境下判断是否有隐私窃取行为，且依赖于用户配置。

发明内容

本发明主要解决的技术问题是提供一种检测移动终端隐私泄露的方法及装置，能够全面检测现有的隐私泄露，且适合大规模网络环境。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种检测移动终端隐私泄露的方法，所述方法包括：利用已构建的粗粒度检测模型监控并检测移动终端当前的网络数据流，所述粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的；若检测到所述移动终端当前的网络数据流中包含所述头域特征关键字和/或URL参数特征字符串，则判定所述移动终端当前的网络数据流存在隐私泄露。

其中，所述隐私信息包括位置信息和/或用户标识信息。

其中，所述位置信息包括小区信息和全球定位系统GPS信息中的至少一个。

其中，所述用户标识信息包括国际移动用户识别码IMSI、国际移动设备标识IMEI、移动台综合业务数字网号码MSISDN中的至少一个。

其中，所述利用已构建的粗粒度检测模型监控并检测移动终端当前的网络数据流的步骤之前，还包括：将所述网络数据流样本标记为包含隐私信息泄露的网络数据流样本和不包含隐私信息泄露的网络数据流样本；从标记后的网络数据流样本的HTTP数据包中进行头域特征关键字的提取，进而获得与隐私信息泄露相关联的头域特征关键字集合；从标记后的网络数据流样本的URL路径中进行URL参数特征字符串的提取，进而获得与隐私信息泄露相关联的URL参数特征字符串集合；基于所述头域特征关键字集合和所述URL参数特征字符串集合，采用有监督学习方法或无监督学习方法进行学习训练，获得所述粗粒度检测模型。

其中，所述方法还包括：利用分别与不同隐私信息类型对应的数据匹配正则表达式集合对判定为存在隐私泄露的所述移动终端当前的网络数据流中的隐私信息进行匹配，进而确定所述移动终端当前的网络数据流所泄露的隐私信息类型。

其中，所述利用分别与不同隐私信息类型对应的数据匹配正则表达式集合对以判定为存在隐私泄露的所述移动终端当前的网络数据流中的隐私信息进行匹配的步骤之前，进一步包括：对包含隐私信息泄露的网络数据流样本中的隐私信息的隐私信息类型进行标记；根据各隐私信息类型下的隐私信息形成所述数据匹配正则表达式。

其中，所述从标记后的网络数据流样本的URL路径中进行URL参数特征字符串的提取的步骤包括：基于n-gram模型对所述标记后的网络数据流样本的URL路径进行URL参数特征字符串的提取。

其中，所述基于n-gram模型对所述标记后的网络数据流样本的URL路径进行URL参数特征字符串的提取的步骤，包括：从所述标记后的网络数据流样本的URL路径中获取URL参数文本集合；通过n-gram算法将URL参数文本集合的URL参数文本切分为多个URL参数特征字符串；根据各所述URL参数特征字符串被标记为包含隐私信息泄露和不包含隐私信息泄露的概率计算所述URL参数特征字符串的信息增益；若计算出来的URL参数特征字符串的信息增益大于临界阈值，则将所述URL参数特征字符串加入到所述与隐私信息泄露相关联的URL参数特征字符串集合中。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种检测移动终端隐私泄露的装置，所述装置包括：监控与检测模块，用于利用已构建的粗粒度检测模型监控并检测移动终端当前的网络数据流，所述粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的；判定模块，用于在检测到所述移动终端当前的网络数据流中包含所述头域特征关键字和/或URL参数特征字符串时，判定所述移动终端当前的网络数据流存在隐私泄露。

其中，所述隐私信息包括位置信息和/或用户标识信息。

其中，所述装置还包括：第一标记模块，用于将所述网络数据流样本标记为包含隐私信息泄露的网络数据流样本和不包含隐私信息泄露的网络数据流样本；第一提取模块，用于从标记后的网络数据流样本的HTTP数据包中进行头域特征关键字的提取，进而获得与隐私信息泄露相关联的头域特征关键字集合；第二提取模块，用于从标记后的网络数据流样本的URL路径中进行URL参数特征字符串的提取，进而获得与隐私信息泄露相关联的URL参数特征字符串集合；学习训练模块，用于基于所述头域特征关键字集合和所述URL参数特征字符串集合，采用有监督学习方法或无监督学习方法进行学习训练，获得所述粗粒度检测模型。

其中，所述装置还包括：匹配模块，用于利用分别与不同隐私信息类型对应的数据匹配正则表达式集合对判定为存在隐私泄露的所述移动终端当前的网络数据流中的隐私信息进行匹配，进而确定所述移动终端当前的网络数据流所泄露的隐私信息类型。

其中，所述装置还包括：第二标记模块，用于对包含隐私信息泄露的网络数据流样本中的隐私信息的隐私信息类型进行标记；形成模块，用于根据各隐私信息类型下的隐私信息形成所述数据匹配正则表达式。

其中，所述第二提取模块具体用于基于n-gram模型对所述标记后的网络数据流样本的URL路径进行URL参数特征字符串的提取。

其中，所述第二提取模块包括：获取单元，用于从所述标记后的网络数据流样本的URL路径中获取URL参数文本集合；切分单元，用于通过n-gram算法将URL参数文本集合的URL参数文本切分为多个URL参数特征字符串；计算单元，用于根据各所述URL参数特征字符串被标记为包含隐私信息泄露和不包含隐私信息泄露的概率计算所述URL参数特征字符串的信息增益；加入单元，用于在计算出来的URL参数特征字符串的信息增益大于临界阈值时，将所述URL参数特征字符串加入到所述与隐私信息泄露相关联的URL参数特征字符串集合中。

本发明的有益效果是：区别于现有技术的情况，本发明利用已构建的粗粒度检测模型监控并检测移动终端当前的网络数据流，粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的；若检测到移动终端当前的网络数据流中包含头域特征关键字和/或URL参数特征字符串，则判定移动终端当前的网络数据流存在隐私泄露。由于粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的，通过这种方式，能够全面检测现有的隐私泄露，且适合大规模网络环境。

附图说明

图1是本发明检测移动终端隐私泄露的方法一实施方式的流程图；

图2是本发明检测移动终端隐私泄露的方法另一实施方式的流程图；

图3是本发明检测移动终端隐私泄露的方法又一实施方式的流程图；

图4是本发明检测移动终端隐私泄露的方法又一实施方式的流程图；

图5是本发明检测移动终端隐私泄露的方法又一实施方式的流程图；

图6是本发明检测移动终端隐私泄露的装置一实施方式的结构示意图；

图7是本发明检测移动终端隐私泄露的装置另一实施方式的结构示意图；

图8是本发明检测移动终端隐私泄露的装置又一实施方式的结构示意图；

图9是本发明检测移动终端隐私泄露的装置又一实施方式的结构示意图；

图10是本发明检测移动终端隐私泄露的装置又一实施方式的结构示意图。

具体实施方式

在详细介绍本发明之前，先说明一下现有移动终端的用户面临的个人隐私泄露的问题。

在日常生活与互联网紧密结合的今天，用户的个人信息已经不可避免在网络上传输。小到用户的邮箱账户、网络昵称、通信录、手机号码、设备标识、移动用户标识、所在位置信息，大到用户的银行账号、财产信息等。通常一些应用或合理的申请使用这些资源，由于移动互联网通道的不安全性，例如公共Wifi、钓鱼Wifi、家庭/小区宽带被窃听等现象时有发生，这些信息在传输过程中存在泄露的风险，用户的一切情况都会暴露在互联网之上，毫无隐私可言。

因此，很有必要提供一种能够全面、且适应强的检测移动终端隐私泄露的方法。本发明检测移动终端隐私泄露的方法及装置由于粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的，利用粒度检测模型检测移动终端当前的网络数据流是否存在隐私泄露，通过这种方式，能够全面检测现有的隐私泄露，且适合大规模网络环境。

下面结合附图和实施方式对本发明进行详细说明。需要说明的是，本发明检测移动终端隐私泄露的方法及装置是从网络侧进行检测的，因此，适应性强，可以适合各种各样的网络环境。

参阅图1，图1是本发明检测移动终端隐私泄露的方法一实施方式的流程图，包括：

步骤S101：利用已构建的粗粒度检测模型监控并检测移动终端当前的网络数据流，粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的。

网络数据流样本是从移动终端的网络数据流中获取的、包括当前各种隐私信息的数据流。由于网络数据流样本包括当前各种各样的隐私信息的数据，因此，该网络数据流样本极具有代表性，从样本的角度尽最大可能避免隐私信息泄露的漏检，尽可能保证隐私信息均能检测得到。

头域(Header)是HTTP协议中请求(Request)和响应(Response)中的头部信息，是HTTP通信的操作参数，意思是告诉服务器和浏览器怎样处理该通信，简单说是给服务器或客户端的附言。

统一资源定位符(Uniform Resource Locator，简写URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。带参数的URL是指地址尾部带有"？"的URL。参数存在的意义是带有指示性的，这些参数既可以传递信息，又可以作为提示性语言。

？是第一个参数，&是后面的参数，

比如：http://xxxxx/abc？name＝admin，参数是：name＝admin；

如果再有一个参数，就再后面加&，第一个参数不能使用&，

比如：http://xxxxx/abc？name＝admin&password＝admin，第一个参数是：name＝admin，第二个参数是password＝admin。

隐私信息是用户比较保密的、不愿意透漏或公开的信息，小到用户的邮箱账户、网络昵称、通信录、手机号码、设备标识、移动用户标识、所在位置信息，大到用户的银行账号、财产信息等。

隐私信息有时候在数据包的头域中，有时候在URL的参数部分，特别是位置信息，位置信息通常是变动的，坐标经常会发生变化，这些位置信息在头域和/或URL的参数部分可以找到。

头域特征关键字是指位于头域中、与隐私信息泄露相关联的具有特征性的关键字，将这些头域特征关键字集中在一起，即为头域特征关键字集合。URL参数特征字符串是指位于URL参数部分的、与隐私信息泄露相关联的具有特征性的字符串，将这些URL参数特征字符串集中在一起，即为URL参数特征字符串集合。

网络数据流样本极具有代表性，头域特征关键字集合和URL参数特征字符串集合均与隐私信息泄露相关联，因此，利用上述方式构建的粗粒度检测模型监控并检测移动终端当前的网络数据流，不容易漏检。

步骤S102：若检测到移动终端当前的网络数据流中包含头域特征关键字和/或URL参数特征字符串，则判定移动终端当前的网络数据流存在隐私泄露。

由于头域特征关键字集合和URL参数特征字符串集合均与隐私信息泄露相关联，当检测到移动终端当前的网络数据流中包含头域特征关键字和/或URL参数特征字符串时，即可判定移动终端当前的网络数据流存在隐私泄露。

本发明实施方式利用已构建的粗粒度检测模型监控并检测移动终端当前的网络数据流，粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的；若检测到移动终端当前的网络数据流中包含头域特征关键字和/或URL参数特征字符串，则判定移动终端当前的网络数据流存在隐私泄露。由于粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的，通过这种方式，能够全面检测现有的隐私泄露，且适合大规模网络环境。

其中，隐私信息包括位置信息和/或用户标识信息。而位置信息包括小区信息和全球定位系统GPS信息中的至少一个。用户标识信息包括国际移动用户识别码IMSI、国际移动设备标识IMEI、移动台综合业务数字网号码MSISDN中的至少一个。

由于在实施本发明的方法时，需要利用粗粒度检测模型，因此，首先需要构建粗粒度检测模型。参见图2，步骤S101之前，还包括：

步骤S201：将网络数据流样本标记为包含隐私信息泄露的网络数据流样本和不包含隐私信息泄露的网络数据流样本。

网络数据流样本中既包括隐私信息泄露的网络数据流样本，也包括其他不包含隐私信息泄露的网络数据流样本，提取的与隐私信息泄露相关联的头域特征关键字集合和URL参数特征字符串集合，均是在包括隐私信息泄露的网络数据流样本中进行的，因此，需要将网络数据流样本分别进行标记，以确定哪些是包含隐私信息泄露的网络数据流样本，哪些是不包含隐私信息泄露的网络数据流样本。

例如：对获取的网络数据流样本进行人工标注，标注的隐私数据类型有：标注MSISDN数据、标注IMSI数据、标注IMEI数据、标注位置信息数据等。

步骤S202：从标记后的网络数据流样本的HTTP数据包中进行头域特征关键字的提取，进而获得与隐私信息泄露相关联的头域特征关键字集合。

例如：从标注MSISDN数据的网络数据流样本中进行头域特征关键字的提取，进而获得与MSISDN泄露相关联的头域特征关键字集合；从标注IMSI数据的网络数据流样本中进行头域特征关键字的提取，进而获得与IMSI泄露相关联的头域特征关键字集合；从标注IMEI数据的网络数据流样本中进行头域特征关键字的提取，进而获得与IMEI泄露相关联的头域特征关键字集合；从标注位置信息数据的网络数据流样本中进行头域特征关键字的提取，进而获得与位置信息泄露相关联的头域特征关键字集合。

步骤S203：从标记后的网络数据流样本的URL路径中进行URL参数特征字符串的提取，进而获得与隐私信息泄露相关联的URL参数特征字符串集合。

例如：从标注MSISDN数据的网络数据流样本的URL路径中进行URL参数特征字符串的提取，进而获得与MSISDN泄露相关联的URL参数特征字符串集合；从标注IMSI数据的网络数据流样本的URL路径中进行URL参数特征字符串的提取，进而获得与IMSI泄露相关联的URL参数特征字符串集合；从标注IMEI数据的网络数据流样本的URL路径中进行URL参数特征字符串的提取，进而获得与IMEI泄露相关联的URL参数特征字符串集合；从标注位置信息数据的网络数据流样本的URL路径中进行URL参数特征字符串的提取，进而获得与位置信息泄露相关联的URL参数特征字符串集合。

需要说明的是，步骤S202和步骤S203没有明显的先后顺序，是并列的步骤。

步骤S204：基于头域特征关键字集合和URL参数特征字符串集合，采用有监督学习方法或无监督学习方法进行学习训练，获得粗粒度检测模型。

有监督学习方法，是对具有概念标记(分类)的训练样本进行学习，以尽可能对训练样本集外的数据进行标记(分类)预测；由于所有的标记(分类)是已知的，因此，训练样本的岐义性低。无监督学习方法，是对没有概念标记(分类)的训练样本进行学习，以发现训练样本集中的结构性知识；由于所有的标记(分类)是未知的，因此，训练样本的岐义性高。

例如，基于与MSISDN泄露相关联的头域特征关键字集合和URL参数特征字符串集合，进行学习训练后，获得MSISDN的粗粒度检测模型。基于与IMSI泄露相关联的头域特征关键字集合和URL参数特征字符串集合，进行学习训练后，获得IMSI的粗粒度检测模型。基于与IMEI泄露相关联的头域特征关键字集合和URL参数特征字符串集合，进行学习训练后，获得IMEI的粗粒度检测模型。基于与位置信息泄露相关联的头域特征关键字集合和URL参数特征字符串集合，进行学习训练后，获得位置信息的粗粒度检测模型。

通过上述方式，可以获得针对不同隐私信息的粗粒度检测模型，从而能够检测移动终端网络数据流中不同隐私类型的隐私信息的泄露，从而避免漏检。

在实际应用中，粗粒度检测模型只能向用户表明存在隐私信息，例如：位置信息的泄露，但是没有办法表明具体存在哪一种类型的位置信息的泄露，是小区信息的泄露还是GPS信息的泄露，这无从得知。

因此，参见图3，在一实施方式中，为了进一步确定具体是哪一种类型的隐私信息的泄露，该方法在步骤S102之后，还可以包括：

步骤S103：利用分别与不同隐私信息类型对应的数据匹配正则表达式集合对判定为存在隐私泄露的移动终端当前的网络数据流中的隐私信息进行匹配，进而确定移动终端当前的网络数据流所泄露的隐私信息类型。

正则表达式(Regular Expression)，又称正规表示法、常规表示法。在代码中常简写为regex、regexp或RE，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则。数据匹配正则表达式是与各隐私信息类型下的网络数据相匹配的、可以据此确定具体隐私信息类型的正则表达式；将数据匹配正则表达式集中在一起，即可获得数据匹配正则表达式集合。

由于数据匹配正则表达式是与各隐私信息类型下的网络数据相匹配，因此，通过这种方式，能够更加精细化地确定移动终端当前的网络数据流所泄露的隐私信息类型。

其中，参见图4，在步骤S103之前，进一步包括：

步骤S301：对包含隐私信息泄露的网络数据流样本中的隐私信息的隐私信息类型进行标记。

步骤S302：根据各隐私信息类型下的隐私信息形成数据匹配正则表达式。

其中，步骤S203具体可以是基于n-gram模型对标记后的网络数据流样本的URL路径进行URL参数特征字符串的提取。

n-gram模型是大词汇连续语音识别中常用的一种语言模型，对中文而言，也称之为汉语语言模型(Chinese Language Model，简写CLM)。该模型利用上下文中相邻词间的搭配信息，在需要把连续无空格的拼音、笔划，或代表字母或笔划的数字，转换成汉字串(即句子)时，可以计算出具有最大概率的句子，从而实现到汉字的自动转换，无需用户手动选择，避开了许多汉字对应一个相同的拼音(或笔划串，或数字串)的重码问题。该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。

此时，参见图5，步骤S203可以包括：子步骤S2031、子步骤S2032、子步骤S2033以及子步骤S2034。

子步骤S2031：从标记后的网络数据流样本的URL路径中获取URL参数文本集合。

子步骤S2032：通过n-gram算法将URL参数文本集合的URL参数文本切分为多个URL参数特征字符串。

子步骤S2033：根据各URL参数特征字符串被标记为包含隐私信息泄露和不包含隐私信息泄露的概率计算URL参数特征字符串的信息增益。

子步骤S2034：若计算出来的URL参数特征字符串的信息增益大于临界阈值，则将URL参数特征字符串加入到与隐私信息泄露相关联的URL参数特征字符串集合中。

在信息增益中，衡量标准是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。对一个特征而言，系统有它和没它时信息量将发生变化，而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量，就是熵。假如有变量X，其可能的取值有n种，每一种取到的概率为Pi，那么X的熵就定义为：

H (X) = Σ_{i = 1}^{n} P (x_{i}) \times \log P (x_{i})

也就是说X可能的变化越多，X所携带的信息量越大，熵也就越大。对于文本分类或聚类而言，就是说文档属于哪个类别的变化越多，类别的信息量就越大。所以特征T给聚类C或分类C带来的信息增益为IG(T)＝H(C)-H(C|T)。

H(C|T)包含两种情况：一种是特征T出现，标记为t，一种是特征T不出现，标记为t'。所以H(C|T)＝P(t)H(C|t)+P(t')H(C|t')，再由熵的计算公式便可推得特征与类别的信息增益公式。

例如：URL参数文本集合为D，其中，D＝{{W(m,i)}}。

该文本集合含有M个参数文本串，w(m,i)代表第m个参数文本串中的第i个字符；Nm是参数文本串m中所考虑的总字节数：首先统计集合D中所有的2到n阶的所有n-gram元素的个数。具体地说，一个n-gram元素是包含有至少n个元素序列的n元素子序列。例如，给定数据报文m的字节序W(m,1)，W(m,2)，W(m,3)，W(m,4)，......，在3-gram语言模型下W(m,i-2)，W(m,i-1)，W(m,i)代表以一个3-gram元素的特征串。

将文本集合D中的参数文本串被标记为两种类型，一种类型是参数文本串对应隐私信息的泄露，用t表示，另一类型是参数本文串对应没有隐私信息的泄露，用表示。

在这里，用c(t|w)表示在D中被标记为t类型且包含子串w的数目，用表示在D中被标记为t类型且不包含子串w的数目，c(w)表示在D中子串w的数目；利用条件概率公式计算在t类型中包含子串w的概率P(t|w)和在t类型中不包含子串w的概率其中，如果子串w能够成为t类型的特征串，则P(t|w)要高而要低。使用增益信息来判断子串w和类型t之间的关联度：

\begin{matrix} I G (W) = H (T) - H (T | W) = \\ - Σ_{i = 1}^{n} P (T_{i}) \times \log_{2} P (T_{i}) + P (w) Σ_{i = 1}^{n} P (T_{i} | w) \times \log_{2} P (T_{i} | w) + P (\overset{&OverBar;}{w}) Σ_{i = 1}^{n} P (T_{i} | \overset{&OverBar;}{w}) \times \log_{2} P (T_{i} | \overset{&OverBar;}{w}) \end{matrix}

对D中所有的n-gram子串m都进行互信息的计算，如果某一个子串的互信息满足我们设定的终止条件L(即大于临界阈值)，那么选择该子串进入URL参数特征字符串集合。

通过上述方式，能够比较客观地、高准确性地、快速地选择到与隐私信息泄露相关联的URL参数特征字符串进入到URL参数特征字符串集合中。

总结来说，利用本发明的方法能对移动互联网中用户标识信息或位置信息泄露进行有效的检测，与现有技术相比，具有以下优点：

(1)能够自动化的提取已标记的用户标识信息或位置信息的网络数据流样本中的特征集合，通过有监督或无监督或半监督的方法训练学习到用户标识或位置信息的粗粒度检测模型。进一步地对不同的隐私数据类型设计数据匹配正则表达式，提供更加精细化的检测。

(2)能够对未知流量中的用户标识信息或位置信息隐私泄露进行检测，从中发现有助于提高数据多样性的流量样本，从而进一步的提高系统的检测效果。

参见图6，图6是本发明检测移动终端隐私泄露的装置一实施方式的结构示意图，该装置可以执行上述方法中的步骤，相关内容的详细说明请参见上述方法部分，在此不再赘叙。

该装置包括：监控与检测模块101、判定模块102。

监控与检测模块101用于利用已构建的粗粒度检测模型监控并检测移动终端当前的网络数据流，粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的。

判定模块102用于在检测到移动终端当前的网络数据流中包含头域特征关键字和/或URL参数特征字符串时，判定移动终端当前的网络数据流存在隐私泄露。

其中，隐私信息包括位置信息和/或用户标识信息。

其中，位置信息包括小区信息和全球定位系统GPS信息中的至少一个。

其中，用户标识信息包括国际移动用户识别码IMSI、国际移动设备标识IMEI、移动台综合业务数字网号码MSISDN中的至少一个。

参见图7，该装置还包括：第一标记模块201、第一提取模块202、第二提取模块203以及学习训练模块204。

第一标记模块201用于将网络数据流样本标记为包含隐私信息泄露的网络数据流样本和不包含隐私信息泄露的网络数据流样本。

第一提取模块202用于从标记后的网络数据流样本的HTTP数据包中进行头域特征关键字的提取，进而获得与隐私信息泄露相关联的头域特征关键字集合。

第二提取模块203用于从标记后的网络数据流样本的URL路径中进行URL参数特征字符串的提取，进而获得与隐私信息泄露相关联的URL参数特征字符串集合。

学习训练模块204用于基于头域特征关键字集合和URL参数特征字符串集合，采用有监督学习方法或无监督学习方法进行学习训练，获得粗粒度检测模型。

参见图8，该装置还包括：匹配模块103。

匹配模块103用于利用分别与不同隐私信息类型对应的数据匹配正则表达式集合对判定为存在隐私泄露的移动终端当前的网络数据流中的隐私信息进行匹配，进而确定移动终端当前的网络数据流所泄露的隐私信息类型。

其中，参见图9，该装置还包括：第二标记模块301和形成模块302。

第二标记模块301用于对包含隐私信息泄露的网络数据流样本中的隐私信息的隐私信息类型进行标记。

形成模块302用于根据各隐私信息类型下的隐私信息形成数据匹配正则表达式。

其中，第二提取模块203具体用于基于n-gram模型对标记后的网络数据流样本的URL路径进行URL参数特征字符串的提取。

进一步地，参见图10，第二提取模块203包括：获取单元2031、切分单元2032、计算单元2033以及加入单元2034。

获取单元2031用于从标记后的网络数据流样本的URL路径中获取URL参数文本集合。

切分单元2032用于通过n-gram算法将URL参数文本集合的URL参数文本切分为多个URL参数特征字符串。

计算单元2033用于根据各URL参数特征字符串被标记为包含隐私信息泄露和不包含隐私信息泄露的概率计算URL参数特征字符串的信息增益。

加入单元2034用于在计算出来的URL参数特征字符串的信息增益大于临界阈值时，将URL参数特征字符串加入到与隐私信息泄露相关联的URL参数特征字符串集合中。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种检测移动终端隐私泄露的方法，其特征在于，所述方法包括：

利用已构建的粗粒度检测模型监控并检测移动终端当前的网络数据流，所述粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的；

若检测到所述移动终端当前的网络数据流中包含所述头域特征关键字和/或URL参数特征字符串，则判定所述移动终端当前的网络数据流存在隐私泄露。

2.根据权利要求1所述的方法，其特征在于，所述隐私信息包括位置信息和/或用户标识信息。

3.根据权利要求2所述的方法，其特征在于，所述位置信息包括小区信息和全球定位系统GPS信息中的至少一个。

4.根据权利要求2所述的方法，其特征在于，所述用户标识信息包括国际移动用户识别码IMSI、国际移动设备标识IMEI、移动台综合业务数字网号码MSISDN中的至少一个。

5.根据权利要求1所述的方法，其特征在于，所述利用已构建的粗粒度检测模型监控并检测移动终端当前的网络数据流的步骤之前，还包括：

将所述网络数据流样本标记为包含隐私信息泄露的网络数据流样本和不包含隐私信息泄露的网络数据流样本；

从标记后的网络数据流样本的HTTP数据包中进行头域特征关键字的提取，进而获得与隐私信息泄露相关联的头域特征关键字集合；

从标记后的网络数据流样本的URL路径中进行URL参数特征字符串的提取，进而获得与隐私信息泄露相关联的URL参数特征字符串集合；

基于所述头域特征关键字集合和所述URL参数特征字符串集合，采用有监督学习方法或无监督学习方法进行学习训练，获得所述粗粒度检测模型。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

利用分别与不同隐私信息类型对应的数据匹配正则表达式集合对判定为存在隐私泄露的所述移动终端当前的网络数据流中的隐私信息进行匹配，进而确定所述移动终端当前的网络数据流所泄露的隐私信息类型。

7.根据权利要求6所述的方法，其特征在于，所述利用分别与不同隐私信息类型对应的数据匹配正则表达式集合对以判定为存在隐私泄露的所述移动终端当前的网络数据流中的隐私信息进行匹配的步骤之前，进一步包括：

对包含隐私信息泄露的网络数据流样本中的隐私信息的隐私信息类型进行标记；

根据各隐私信息类型下的隐私信息形成所述数据匹配正则表达式。

8.根据权利要求5所述的方法，其特征在于，所述从标记后的网络数据流样本的URL路径中进行URL参数特征字符串的提取的步骤包括：

基于n-gram模型对所述标记后的网络数据流样本的URL路径进行URL参数特征字符串的提取。

9.根据权利要求8所述的方法，其特征在于，所述基于n-gram模型对所述标记后的网络数据流样本的URL路径进行URL参数特征字符串的提取的步骤，包括：

从所述标记后的网络数据流样本的URL路径中获取URL参数文本集合；

通过n-gram算法将URL参数文本集合的URL参数文本切分为多个URL参数特征字符串；

根据各所述URL参数特征字符串被标记为包含隐私信息泄露和不包含隐私信息泄露的概率计算所述URL参数特征字符串的信息增益；

若计算出来的URL参数特征字符串的信息增益大于临界阈值，则将所述URL参数特征字符串加入到所述与隐私信息泄露相关联的URL参数特征字符串集合中。

10.一种检测移动终端隐私泄露的装置，其特征在于，所述装置包括：

监控与检测模块，用于利用已构建的粗粒度检测模型监控并检测移动终端当前的网络数据流，所述粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的；

判定模块，用于在检测到所述移动终端当前的网络数据流中包含所述头域特征关键字和/或URL参数特征字符串时，判定所述移动终端当前的网络数据流存在隐私泄露。

11.根据权利要求10所述的装置，其特征在于，所述隐私信息包括位置信息和/或用户标识信息。

12.根据权利要求11所述的装置，其特征在于，所述位置信息包括小区信息和全球定位系统GPS信息中的至少一个。

13.根据权利要求11所述的装置，其特征在于，所述用户标识信息包括国际移动用户识别码IMSI、国际移动设备标识IMEI、移动台综合业务数字网号码MSISDN中的至少一个。

14.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第一标记模块，用于将所述网络数据流样本标记为包含隐私信息泄露的网络数据流样本和不包含隐私信息泄露的网络数据流样本；

第一提取模块，用于从标记后的网络数据流样本的HTTP数据包中进行头域特征关键字的提取，进而获得与隐私信息泄露相关联的头域特征关键字集合；

第二提取模块，用于从标记后的网络数据流样本的URL路径中进行URL参数特征字符串的提取，进而获得与隐私信息泄露相关联的URL参数特征字符串集合；

学习训练模块，用于基于所述头域特征关键字集合和所述URL参数特征字符串集合，采用有监督学习方法或无监督学习方法进行学习训练，获得所述粗粒度检测模型。

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

匹配模块，用于利用分别与不同隐私信息类型对应的数据匹配正则表达式集合对判定为存在隐私泄露的所述移动终端当前的网络数据流中的隐私信息进行匹配，进而确定所述移动终端当前的网络数据流所泄露的隐私信息类型。

16.根据权利要求15所述的装置，其特征在于，所述装置还包括：

第二标记模块，用于对包含隐私信息泄露的网络数据流样本中的隐私信息的隐私信息类型进行标记；

形成模块，用于根据各隐私信息类型下的隐私信息形成所述数据匹配正则表达式。

17.根据权利要求14所述的装置，其特征在于，所述第二提取模块具体用于基于n-gram模型对所述标记后的网络数据流样本的URL路径进行URL参数特征字符串的提取。

18.根据权利要求17所述的装置，其特征在于，所述第二提取模块包括：

获取单元，用于从所述标记后的网络数据流样本的URL路径中获取URL参数文本集合；

切分单元，用于通过n-gram算法将URL参数文本集合的URL参数文本切分为多个URL参数特征字符串；

计算单元，用于根据各所述URL参数特征字符串被标记为包含隐私信息泄露和不包含隐私信息泄露的概率计算所述URL参数特征字符串的信息增益；

加入单元，用于在计算出来的URL参数特征字符串的信息增益大于临界阈值时，将所述URL参数特征字符串加入到所述与隐私信息泄露相关联的URL参数特征字符串集合中。