CN104966031A

CN104966031A - 安卓应用程序中非权限相关隐私数据的识别方法

Info

Publication number: CN104966031A
Application number: CN201510374683.1A
Authority: CN
Inventors: 杨珉; 杨哲慜; 南雨宏; 周顺帆; 张源
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2015-07-01
Filing date: 2015-07-01
Publication date: 2015-10-07
Anticipated expiration: 2035-07-01
Also published as: CN104966031B

Abstract

本发明属于程序信息安全检测技术领域，具体为安卓应用程序中非权限相关隐私数据的识别方法。本发明方法分为数据预处理、隐私相关文本的分析、非权隐私相关界面元素的识别、基于代码静态信息流分析的果过滤四个阶段，主要针对处于Android系统的权限模型的保护范围之外的Android应用程序中非权限相关的隐私数据，将机器学习技术与传统静态信息流分析技术相结合进行识别。通过对此类隐私数据识别，能够将其标记为敏感数据源，进一步结合传统静态信息流分析检测技术或者动态污点信息跟踪检测技术，为此类隐私数据的监控和保护提供基础，从而降低用户隐私数据的泄露风险。

Description

安卓应用程序中非权限相关隐私数据的识别方法

技术领域

本发明属于程序信息安全检测技术领域，具体涉及利用自然语言处理、机器学习技术和静态信息流分析技术，识别Android应用程序中非权限相关的隐私数据的方法。

背景技术

谈及Android系统中的用户隐私信息，大致可分为两类，第一类为权限相关的用户隐私，第二类为非权限相关的用户隐私。其中，权限相关的用户隐私指的是通过调用Android系统权限模型提供的函数接口所能获得的用户隐私信息，如通过调用getIMEI()函数获取手机序列号、调用getLocation()函数获取用户地理位置信息等。由于安卓自身通过权限保护机制来管控这样的隐私数据, 在调用此类函数获取隐私信息之前必须声明相应的权限，故称此类隐私信息为权限相关的隐私信息。

相对而言，非权限相关的用户隐私涉及范围更广，监控难度更大。此类隐私并非应用通过调用系统函数获得，而是通过直接与用户交互获取。如用户在使用购物类应用时所输入的网银账号信息，或是其他用户名、密码等信息，都属于非权限相关的用户隐私范畴。应用在获取到此类信息之后，可能将其以文件形式进行持久化存储或通过网络向服务器发送以实现特定功能。

对于权限相关的隐私数据，由于其敏感数据源固定（如上述getIMEI()、getLocation()等函数），故可通过传统的静态信息流分析，对数据进行追踪和监控；而对于非权限相关的隐私数据而言，敏感数据源将随着具体应用程序的不同而不同，敏感数据与普通数据混杂在用户界面当中，因为它们均为用户使用应用所产生的数据。故从程序分析的角度, 无法通过信息流分析、污点跟踪技术等对其进行有效的检测分析。

发明内容

本发明的目的是提供一种支持大规模批量、离线分析的，Android应用程序中非权限相关隐私数据的自动识别方法。

本发明提供的Android应用程序中非权限相关的隐私数据的识别方法，具有以下特点：

（1）仅凭借对代码的静态分析识别敏感数据源，无需额外的用户交互信息；

（2）具备自适应能力，分析应用的速度快、资源消耗低；

（3）以界面元素为依据对用户隐私进行识别，并自动判定界面元素与后台函数的关系.

由于非权限相关的用户隐私数据涉及范围较广，且不同类别的用户隐私涉及的文本词汇都有较大差异，为了便于解释说明，本发明将用户隐私数据总结为三类：

（1）Account Credentials and User Profiles（账户相关的认证信息以及用户数据）；

（2）Location（地理位置数据）；

（3）Financial（金融支付类隐私数据）。

对于不同类别的隐私数据，本发明所关注的文本特征略有差别。

本发明提供的Android应用程序中非权限相关的隐私数据的识别方法，其架构如附图1所示，整个识别过程分为四个阶段：

1、数据预处理，包括：提取资源文件，文本预处理。

提取资源文件：首先对Android应用程序进行逆向工程，提取得到描述界面的资源文件。在Android应用程序中，用户交互界面（UI）是由若干个界面元素所组成的，不同种类的界面元素提供了展示信息、接受输入等不同功能。Android系统主要使用XML文件来描述用户交互界面。

对于逆向后的Android应用程序，其描述界面的XML文件散布于不同的文件夹中。其中，用以描述UI界面的布局文件位于res/layout文件夹下；界面元素和其16进制ID的对应关系存储于res/value/public.xml文件中；界面中所展示的文本（即界面文本）位于/res/values/strings.xml文件中。上述资源文件的内容如附图2的样例所示。

由于本发明分析的重点在于应用的界面元素，所以本发明关注的信息主要有两类：界面文本和布局信息。

界面文本指的是用户在应用界面上所能看到的文本数据。对于Android应用程序而言，其以键值对形式存于/res/values/strings.xml文件中，并可通过String/[键值]的形式引用这些文本常量，也有部分文本被直接写在界面布局文件中；而布局信息对应于/res/layout/目录下的XML文件中的内容，布局信息描述了界面元素的排布方式，其中不仅包含了上述的界面文本，还含有界面元素的其他属性，如id, hint等。本发明提取了XML文件中出现的文本、界面元素中id、text、contentDescription、prompt、hint等属性中所出现的文本以及各个界面元素相互之间的位置关系。本发明所提取的信息样例如附下表1所示：

表1

资源类型	样例
		界面文本信息	Add a new credit card, Credit Card Number, Expiration Date, Card Type, Cardholder’s name
界面布局信息	id/opl credit card number string/opl new credit card expiration date month

文本预处理：包括文本分词、文本过滤、词干提取。

文本分词：对于上述获得的文本资源，有部分是普通的自然语言，而诸如界面布局文件中的id属性，往往是以变量名形式存在的文本，如“phone number”可能被表示为“phone_number”或“phoneNumber”，需要根据其分隔符或大小写对其进行分词；还有一些文本常量是由几个单词简单拼接而成的，如“confirmpasswordfield”，对于此类文本，本发明从WordNet上获取了词表，并不断从文本中切分出词表中所能匹配到的最长词，如此上述文本被切分为“confirm”、“password”、“field”。

文本过滤：对于处理后的文本，去除其中的数字和符号，仅保留单词。同时去除其中的停用词，如“is”、“the”等不影响语义的单词。

词干提取：由于本发明关注的是文本所要传达的语义，故需要通过词干提取来剔除时态、词性的影响。

经过文本预处理之后，文本的变化如附图3所示。

、隐私相关文本的分析

本发明借助卡方检验从一组特定的样本中提取隐私相关的文本。本发明在此处的观察是:隐私相关的单词更倾向于在特定的用户交互界面中群聚出现，如登陆界面、注册界面、设置界面等。通过设定一些“种子词”，借助卡方检验本发明便能提取训练集文本中与其相关度较高的词，从而扩展本发明的敏感词列表。

卡方检验：卡方检验是统计学中一种常用的特征提取方法。在本发明中，通过考察两个词在正负样本中共同出现的次数，便可利用卡方检验来衡量两个词的相关程度。

本发明首先指定了一系列能够准确描述用户隐私（如email、location、credit card等）的词汇，称为种子词。每个界面布局样本文件中都包含了界面文本。基于以下两个条件，种子词将被用以判定一个界面布局样本文件是为隐私相关的界面：

（1）存在“动词+种子词”的模式，如(save, password);

（2）存在“物主代词（主要是“your”）+种子词”的模式，如(your, username)。

上述模式的出现，意味着应用在此界面中要求用户输入隐私相关的信息，对于满足上述两个条件之一的界面布局样本文件，将其标记为隐私相关的（正样本），同时由于Android系统允许界面布局文件相互嵌套，将其中所嵌套的其他界面布局文件也标记为正样本；反之，若界面布局样本文件未满足这两个条件，则标记其为非隐私相关的（负样本）。

对于正样本中出现的单词，本发明对其进行卡方检验，并将结果按数值从高到低进行排序。单词具有高数值便意味着其能够更好的表征其所在的界面或元素是隐私相关的。

下述例子能够清晰地表现本发明在获取Financial相关的文本时的过程。首先本发明设定“credit card”为种子词，在附图1中所示界面所对应的界面布局文件中，出现了(add, credit card)模式，满足了上述第一个条件，故被标记为正样本，其余类似的界面布局文件也将同样被标记为正样本。通过卡方检验，本发明便可获得诸如“expire”、“date”、“year”、“month”等词。

噪声过滤：卡方检验能够拓展隐私相关的词表，却不可避免的引入噪声，其原因在于并非所有隐私相关界面上出现的单词都是和隐私有关的。为了获取准确的词表，避免误报，本发明在噪声过滤阶段引入少许人工干预，通过遍历卡方检验结果剔除与隐私无关的词汇。

、非权隐私相关界面元素的识别

本发明使用机器学习的方法，基于对元素的文本语义分析，实现非权隐私相关界面元素的自动识别。通过训练集训练获得分类器，对于给定的未分类界面元素，本发明能够判定其文本语义是否是与隐私相关。

特征选取：本发明选取上一步所挑选出的隐私相关单词作为特征。单个隐私相关文本的出现并不足以标识一个界面是否为隐私相关的，但通过多个单词的组合，就能够有效地评判一个界面是否为与隐私相关，这是由于一个界面的主题将随着单词的增加而逐渐清晰。同时本发明也将界面元素之间的上下文关系纳入了考虑的范畴，对于某个界面元素，本发明不仅考虑元素自身的文本，还将考虑其前后兄弟节点的文本。如附图1所示，绝大多数的输入框的输入内容，其实是由其旁边的静态标签所描述的。将前后兄弟节点纳入考虑范围，能够有效的增加语义信息，从而提高判定的准确率。对于每个界面元素，其特征向量的长度为词表的长度，特征向量的每一维度为对应单词的词频，此处的词频为元素自身和其前后兄弟节点的词频和。

训练集：对于Android应用而言，为了使开发者能够限制输入框所接受的输入类型，Android系统提供了android:inputType属性。例如，若一个输入框的inputType为textEmailAddress，则用户必须在此输入框内输入email地址。在android:inputType的取值范围中，就有一些属性值表征了对应输入框将接收本发明所关注的隐私数据，属性值列表如表2所示。

表2

隐私类别	inputType属性值
		Account Credenticals & User Profile	textEmailAddress textPersonName textPassword textVisiblePassword password/email/phoneNumber
Location	textPostalAddress

对于那些具有inputType属性，且属性值在上述取值范围之内的元素，本发明将其标记为训练集中的正样本。同时，由于Financial相关的正样本无法通过上述手段获得，本发明人工标注了一定量的训练集作为补充。

分类器选择：分类器的选择并非本发明中的重要问题，对于一组良好设计的特征向量和合理规范的训练集而言，各个训练器的表现并无太大差距。在此本发明选用支撑向量机SVM作为本发明的分类器。

、基于代码静态信息流分析的结果过滤

上述的识别手段完全基于界面元素的语义信息，而通过检测界面元素背后的代码行为，本发明能够了解一个元素是否真正接受了用户的输入，从而能够过滤那些虽然具有隐私相关的语义，却不具备获取隐私数据能力的界面元素（如一个标有“your password”的静态标签）。

用户输入数据是在用户与应用交互的过程中生成的。在Android系统中，应用要从用户交互界面中获取数据必须通过调用特定API来完成，同时应用获取用户输入数据一定是由用户的特定操作触发的。因此只有满足下述信息流分析条件的元素才有可能属于隐私相关界面元素。

判定条件：界面元素存在以findViewById()为起始，getText()为终点的完整调用链。同时调用链中含有OnClick()等事件触发函数，表明该元素与用户存在直接交互关系。即可认为此元素接受了用户输入。

图4是图1中在获取用户信用卡信息时所对应的后台代码逻辑。该段代码的关键点为：

（1）输入框对象IB是通过调用findViewById()获得的；

（2）当用户点击了“Add your card”按钮后，触发了事先通过

submitBtn.setOnClickListener()注册的系统回调，从而触发OnClick()函数；

（3）最终应用通过调用IB.getText()获取用户输入的内容；

对于每一个通过分类器获得的敏感界面元素，本发明都对其进行静态信息流分析，检测是否存在上述代码特征。通过静态信息流分析，对于符合过滤条件的界面元素，其ID集合即对应了界面上接收非权限相关的隐私数据的界面元素集合。

本发明的有益效果是：本发明将机器学习技术与传统静态信息流分析技术相结合，能有效识别出界面中的非权限相关隐私数据源，并将其标记为敏感数据源，从而使得传统静态信息流分析、动态污点检测跟踪都能够对此类隐私数据进行追踪和保护，提高了用户隐私数据的安全性。

附图说明

图1：检测系统整体架构图。

图2：资源文件内容示例。

图3：经过文本预处理前后的文本内容。

图4：从交互界面获取用户输入的代码样例。

具体实施方式

本发明设计并实现了上述的基于机器学习技术和静态信息流分析技术的非权隐私检测系统，本节对该框架的具体实施作一个详细的介绍。

（1）数据预处理

本发明采用Apktool对Android应用程序进行逆向工程，Apktool是Google公司提供的Android应用程序编译软件，能够对应用程序进行反编译，且在反编译时能够获取应用程序内部的各种资源文件，对于资源文件的完整性有所保证。因此本发明选取其以实现资源文件提取模块。

对于提取后的资源文件，本发明使用Python的NLTK工具包对其进行文本预处理。NLTK工具包是自然语言处理中最为常用的工具包之一，其中所提供的停用词过滤、词干提取算法，均很好的契合了本发明的需求。故选取其实现文本预处理模块。

（2）隐私相关文本的分析

本发明自行编写了Python脚本，实现了上述设计中的XML文件解析、模式检测、卡方检验以及噪声过滤功能。

针对每一个种子词，我们都进行一轮的卡方检测，之后收集结果中排名前80的单词；在对7个种子词完成总共7轮的卡方检测后，共收集不重复的单词273个。之后我们人工去除了45个噪声词。最终从13392个不同单词中挑选出了228个隐私相关的单词。这些单词将在下一步的识别中作为特征。实现所选取的种子词和最终获取到的敏感词列表如表3所示。

表3

隐私类别	种子词	扩展后的部分词表（词干提取后）
			Account Credenticals & User Profile	username, password, email	mobil phone middl profile cellphone account nicknam firstnam lastnam person birth login confirm detail regist
Location	address, location	zip citi street postal locat countri
			Financial	credit card, bank	secur month date pay year bill expir debit transact mm yy pin code

（3）非权隐私相关界面元素的识别

对于Financial相关的正样本，我们人工标注了含有6459个界面元素的训练集作为补充。最终，我们的训练集中含有24291个正样本（其中24021个通过inputType属性获得，270个通过人工标注获得）以及数量相等的负样本。

对于分类器的参数设置，我们选用支撑向量机SVM作为我们的分类器，通过实验，核函数选用次数为3的线性函数，gamma值设为50。

本发明选取python的scikit-learn工具包实现机器学习相关的功能。scikit-learn中包含了对于主流数据预处理算法和主流机器学习算法的开源实现，具有API结构清晰、实现高效等特点。故选取其实现本发明中的机器学习模块。

（4）基于代码静态信息流分析的结果过滤

本发明选取FlowDroid工具对Android应用程序进行静态信息流分析。FlowDroid是基于Soot框架实现的静态信息流分析工具，其中包含了信息流图构建功能。由于FlowDroid能够处理基于系统事件的回调以及界面元素，故其分析结果是准确且完备的。我们将FlowDroid的layout模式设置为“ALL”以获得以findViewById()为起始，getText()为终点的完整调用链。对每个界面元素而言，若其调用链中含有OnClick()函数，即可认为此元素接受了用户输入。

Claims

1. 一种安卓应用程序中非权限相关隐私数据的识别方法，将用户隐私数据分为三类：账户相关的认证信息以及用户数据、地理位置数据、金融支付类隐私数据；其特征在于识别的具体步骤分为四个阶段：

一、数据预处理，包括：提取资源文件、文本预处理；其中：

提取资源文件：首先采用Apktool对Android应用程序进行逆向工程，提取得到描述界面的资源文件；

对于逆向工程后的Android应用程序，其描述界面的XML文件散布于不同的文件夹中；其中，用以描述用户交互界面（UI）的布局文件位于res/layout文件夹下；界面元素和其16进制ID的对应关系存储于res/value/public.xml文件中；界面中所展示的文本即界面文本位于/res/values/strings.xml文件中；

文本预处理：使用Python的NLTK工具包进行文本预处理，包括文本分词、文本过滤、词干提取；其中：

文本分词：对于上述获得的资源文件中，以变量名形式存在的文本，根据其分隔符或大小写对其进行分词；对于一些文本常量是由几个单词简单拼接而成的，从WordNet上获取词表，并不断从文本中切分出词表中所能匹配到的最长词；

文本过滤：对于处理后的资源文件，去除其中的数字和符号，仅保留单词；同时去除其中的停用词；

词干提取：通过Porter词干提取算法，剔除时态、词性的影响，减小单词形态变化；

二、隐私相关文本的分析

通过设定少量“种子词”，借助卡方检验，提取训练集文本中与其相关度较高的词，从而扩展敏感词列表，获取更加完整的隐私相关文本：

种子词是指定一系列能够准确描述用户隐私的词汇；由于每个界面布局样本文件中都包含了界面文本，在界面文本当中，通过判断是否包含种子词，以及下面的约束条件来判定一个界面布局样本文件是为隐私相关的界面：

（1）存在“动词+种子词”的模式；

（2）存在“物主代词+种子词”的模式；

满足上述两个条件之一的界面布局样本文件，将其标记为隐私相关界面即正样本，同时由于Android系统允许界面布局文件相互嵌套，将其中所嵌套的其他界面布局文件也标记为正样本；反之，若界面布局样本文件未满足这两个条件，则标记其为非隐私相关界面即负样本；

对于正样本中出现的所有单词进行卡方检验，并将结果按数值从高到低进行排序；单词具有高数值意味着其能够更好的表征其所在的界面或元素是隐私相关的；

噪声过滤：卡方检验能够拓展隐私相关的词表，却不可避免的引入噪声，为此，在噪声过滤阶段引入少许人工干预，通过遍历卡方检验结果剔除与隐私无关的词汇；

三、非权隐私相关界面元素的识别

使用机器学习的方法，基于对界面元素的文本语义分析，实现非权隐私相关界面元素的自动识别；通过训练集训练获得分类器，对于给定的未分类界面元素，判定其文本语义是否是与隐私相关；其中包括：

特征选取：选取隐私相关文本分析中所挑选出的隐私相关单词作为特征；并通过多个单词的组合，有效地评判一个界面是否为与隐私相关；对于每个界面元素，其特征向量的长度为词表的长度，特征向量的每一维度为对应单词的词频，此处的词频为元素自身和其前后兄弟节点的词频之和；

训练集：对于Android应用而言， Android系统提供了android:inputType属性；在android:inputType的取值范围中，有一些属性值表征了对应输入框将接收所关注的隐私数据；

对于那些具有inputType属性，且属性值包含“password”，“email”，“postaladdress”，“phonenumber”的元素，将其标记为训练集中的正样本；同时，人工选取部分Financial相关隐私输入元素作为正样本的补充；负样本选取与正样本等量，包含任意敏感词但是不属于隐私相关的界面元素；；

分类器选择：选用支持向量机SVM作为本发明的分类器；

四、基于代码静态信息流分析的结果过滤

对于上一步中获得的所有界面元素，通过静态信息流分析确定其是否真正接受用户输入，进一步剔除只具有隐私相关语义，但不具备隐私获取能力的静态界面元素；

过滤条件：

对于步骤三中分析得出的任意界面元素，以其唯一元素ID作为信息流分析源点，查看其在Android生命周期中的相应代码特征；如果该元素存在以getText（）函数为终点之一，且处在包含Onclick（）函数的下游，即可判断为该元素确实接受了用户的数据输入；

经过过滤后，所获取到符合上述代码特征的界面元素ID集合即对应于界面上接收非权限相关的隐私数据的界面元素集合。

2. 根据权利要求1所述的安卓应用程序中非权限相关隐私数据的识别方法，其特征在于采用Python的Scikit-learn工具包实现机器学习相关的功能。

3. 根据权利要求1所述的安卓应用程序中非权限相关隐私数据的识别方法，其特征在于基于FlowDroid信息流分析工具，构建界面元素所处的安卓生命周期上下文信息，对Android应用程序进行静态信息流分析；

其中，将FlowDroid的layout模式设置为“ALL”，以获得以findViewById()为起始，getText()为终点的完整调用链。