CN111259139A

CN111259139A - 一种基于安卓应用文本挖掘的权限推荐方法及系统

Info

Publication number: CN111259139A
Application number: CN202010016938.8A
Authority: CN
Inventors: 许静; 过辰楷; 高红灿; 朱静雯; 黄登蓉; 候晓磊; 吴彦峰
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2020-06-09

Abstract

本发明涉及一种基于安卓应用文本挖掘的权限推荐方法及系统。该方法包括：获取安卓应用的文本；获取安卓应用的权限映射关系；根据安卓应用的文本，利用文档主题模型进行主题挖掘，确定安卓应用的主题；根据权限映射关系和安卓应用的主题构建多主题权限模型；利用多主题权限模型确定安卓应用功能与权限的关系；对安卓应用的文本进行分类；获取分类后的安卓应用的权限映射关系；根据分类后的安卓应用的权限映射关系，确定相似应用与权限的关系；根据安卓应用功能与权限的关系和相似应用与权限的关系确定安卓应用的权限推荐。本发明所提供的上述方法及系统，解决现有技术中不能有效的为用户提供合理安全的权限推荐。

Description

一种基于安卓应用文本挖掘的权限推荐方法及系统

技术领域

本发明涉及数据挖掘领域，特别是涉及一种基于安卓应用文本挖掘的权限推荐方法及系统。

背景技术

如今，智能手机在人们的日常生活中扮演着重要的角色。由于大多数移动应用都可以很容易地从应用市场上获得，方便移动用户选择安装各种功能的应用程序。例如2019年6月Google Play商店的应用数量为270万，与2013年7月相比，超过了170万。然而，随着移动应用的爆炸式增长，因为大多数应用程序都可以访问个人数据和资源，移动设备上的安全和隐私成为一个严重的挑战。为了控制第三方应用程序对敏感数据的访问，目前移动平台使用基于许可的机制(Android中保护用户隐私和安全的主要措施之一)来提示移动应用程序用户隐私威胁。

较早版本的Android(5.1及以下版本)实现要求用户在安装应用时对权限进行授权(Ask-on-install,AOI)策略。研究表明，AOI政策是无效的，因为很少有人阅读请求安装应用程序时的权限，更少得人能够正确了解授予权限的后果。而在Android 6.0中，权限机制更新为(Ask-on-first-use,AOFU)策略。用户在首次使用应用时提示用户进行授权，即“允许”或“拒绝”访问敏感资源，如位置和联系人列表。AOFU机制表明，敏感数据的授权在很大程度上取决于用户的决策。然而，由于过度依赖用户，当前的权限机制存在一些局限性，其中最重要的是用户在为应用程序请求做出权限决策时所面临的困境。因此，迫切需要制定有效的措施来帮助用户正常使用权限。

研究学者提出了大量的关于Android权限机制研究。其中，大部分是对AOI许可机制的研究，这对AOFU来说是不可行的。关于AOFU策略，现有的研究大多依赖于动态环境的行为分析和用户的隐私偏好。例如通过分析用户的授权行为，预测用户的隐私偏好，帮助用户进行授权。然而，以往的研究工作严重依赖于大量用户的历史权限的决定，并忽略了用户缺乏隐私保护意识和专业知识。一方面，随着应用程序的爆炸式增长，已知有越来越多的应用程序请求的权限超出了它们的需要，例如，一个与照相相关的应用程序需要访问SMS权限。因此，过度依赖用户操作的授权推荐存在较高的隐私泄露风险。另一方面，很少有用户具有理解个性化应用程序的专业知识，即权限与应用程序功能的关系，以及一组类似应用程序中的隐私使用情况，这些都是影响用户做出权限决策最重要的因素。可见，现有技术中的权限推荐方法还不能有效的为用户提供合理安全的权限推荐。

发明内容

本发明的目的是提供一种基于安卓应用文本挖掘的权限推荐方法及系统，解决现有技术中不能有效的为用户提供合理安全的权限推荐。

为实现上述目的，本发明提供了如下方案：

一种基于安卓应用文本挖掘的权限推荐方法，包括：

获取安卓应用的文本；

获取所述安卓应用的权限映射关系；

根据所述安卓应用的文本，利用文档主题模型进行主题挖掘，确定所述安卓应用的主题；

根据所述权限映射关系和所述安卓应用的主题构建多主题权限模型；

利用所述多主题权限模型确定所述安卓应用功能与权限的关系；

对所述安卓应用的文本进行分类；

获取分类后的安卓应用的权限映射关系；

根据分类后的安卓应用的权限映射关系，确定相似应用与权限的关系；

根据所述安卓应用功能与权限的关系和所述相似应用与权限的关系确定所述安卓应用的权限推荐。

可选的，所述获取安卓应用的文本，之后还包括：

对所述安卓应用的文本进行预处理；所述预处理包括：处理无效文本、清除非英文文本、删除文本标点和词干化处理。

可选的，所述根据所述权限映射关系和所述安卓应用的主题构建多主题权限模型，具体包括：

根据所述权限映射关系和所述安卓应用的主题，采用互信息方法，挖掘主题与权限的相关性；

根据所述相关性对权限进行排序，确定主题与权限的映射；

根据所述主题与权限的映射构建多主题权限模型。

可选的，所述对所述安卓应用的文本进行分类，之前还包括：

将所述安卓应用的文本进行文本向量化处理。

可选的，所述对所述安卓应用的文本进行分类，具体包括

采用长短期记忆网络对所述安卓应用的文本进行分类。

一种基于安卓应用文本挖掘的权限推荐系统，包括：

文本获取模块，用于获取安卓应用的文本；

安卓应用的权限映射关系获取模块，用于获取所述安卓应用的权限映射关系；

安卓应用的主题确定模块，用于根据所述安卓应用的文本，利用文档主题模型进行主题挖掘，确定所述安卓应用的主题；

多主题权限模型构建模块，用于根据所述权限映射关系和所述安卓应用的主题构建多主题权限模型；

安卓应用功能与权限的关系确定模块，用于利用所述多主题权限模型确定所述安卓应用功能与权限的关系；

文本分类模块，用于对所述安卓应用的文本进行分类；

分类后的安卓应用的权限映射关系获取模块，用于获取分类后的安卓应用的权限映射关系；

相似应用与权限的关系确定模块，用于根据分类后的安卓应用的权限映射关系，确定相似应用与权限的关系；

安卓应用的权限推荐确定模块，用于根据所述安卓应用功能与权限的关系和所述相似应用与权限的关系确定所述安卓应用的权限推荐。

可选的，还包括：

文本预处理模块，用于对所述安卓应用的文本进行预处理；所述预处理包括：处理无效文本、清除非英文文本、删除文本标点和词干化处理。

可选的，所述多主题权限模型构建模块具体包括：

主题与权限的相关性挖掘单元，用于根据所述权限映射关系和所述安卓应用的主题，采用互信息方法，挖掘主题与权限的相关性；

主题与权限的映射确定单元，用于根据所述相关性对权限进行排序，确定主题与权限的映射；

多主题权限模型构建单元，用于根据所述主题与权限的映射构建多主题权限模型。

可选的，还包括：

文本向量化处理模块，用于将所述安卓应用的文本进行文本向量化处理。

可选的，所述文本分类模块具体包括

文本分类单元，用于采用长短期记忆网络对所述安卓应用的文本进行分类。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明所提供的一种基于安卓应用文本挖掘的权限推荐方法及系统，通过结合所述安卓应用功能与权限的关系和所述相似应用与权限的关系，基于不同的权限组，对安卓应用的权限进行推荐，确定所述安卓应用的权限推荐。即提供了多方面的权限推荐解释，解决了现有技术中不能有效的为用户提供合理安全的权限推荐的问题，能够为用户提供合理安全的权限推荐，在保护用户隐私安全的同时，增加了推荐的可解释性和系统的实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种基于安卓应用文本挖掘的权限推荐方法流程示意图；

图2为本发明所提供的一种基于安卓应用文本挖掘的权限推荐系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的一种基于安卓应用文本挖掘的权限推荐方法流程示意图，如图1所示，本发明所提供的一种基于安卓应用文本挖掘的权限推荐方法，包括：

S101，获取安卓应用的文本。安卓应用的文本指的是用来描述安卓应用的文本，在安卓应用下载页面显示，是由开发者提供的，基于文本描述进行挖掘。通过对文本描述进行分析，挖掘安卓应用的功能，并且用来分类相似的安卓应用，从而建立权限与安卓应用功能的关系，以及权限与相似安卓应用的关系，生成基于不同权限的推荐决策。

基于31,023个安卓应用的数据爬取，包括：包名，评分，下载量，文本描述和权限等信息。在数据的收集过程中，会出现爬取信息缺失或为空的无效情况，为了提高文本挖掘的效率，处理无效文本。

由Google Play商店的获取安卓应用的文本，Google Play商店的安卓应用是由不同国家的开发者进行上传，包含了多种语言。但是使用最广发为英文文本，即基于英文文本，利用langid包对文本描述进行检测，并删除所有非英文文本的段落。

删除描述文本中无意义的参数，例如标签，电子邮件地址，应用的超链接和标签等，利用自然语言处理工具包(Natural Language Toolkit，NLTK)去除停用词，如：and，or和but等，除此之外，删除对文本分析没有实际意义的标点符号。

在英语中同一个单词有多种变形，诸如同一个单词后面加上表示复数的s和表示进行时的ing等等。对于同一个单词，也会有不同的变体，例如like，likeness和liker等。因此，找出这些变形的单词，有利于对信息的检索和处理。利用NLTK的Porter Stemmer工具进行词干化处理。

S102，获取所述安卓应用的权限映射关系。

使用apktool工具反编译.apk文件，并使用自动化工具aapt检查它是否声明访问给定资源的权限，这些权限都在Manifest.xml列表中声明。使用自动化权限提取工具aapt，从Manifest.xml中提取所有权限，只保留“危险权限”，表1为权限组与权限的映射表，根据表1将应用申请的权限映射到相应的权限组，确定安卓应用的权限映射关系。如表1如下所示：

表1

S103，根据所述安卓应用的文本，利用文档主题模型进行主题挖掘，确定所述安卓应用的主题。

为了对当前安卓应用的多种功能进行描述，使用文档主题生成模型(LatentDirichletAllocation，LDA)进行主题挖掘，从应用程序的文本描述中提取出用于描述安卓应用多个功能的多个主题。

基于某一个主题，计算文本与主题之间的概率P，同时将文本划分为若干个词汇，划分为{word₁,word₂,word₃,....word_n}，对划分后的某一个词汇，放置于Topic_i集合中，计算该词汇属于某一个词汇的概率Q，则该词汇在文本中的概率为PQ，排名越靠前的词汇越能表达该主题。由于本文从Google Play商店中收集30个类别的应用程序，因此将LDA主题的个数确立为30，此外，将得到的主题按照概率进行排序，排名越靠前的主题越能表达该应用的功能，用P(T|app)代表应用程序属于某个主题的概率，T代表主题，app代表安卓应用。对于每个安卓应用，考虑大于5％的主题。

对31,023个文本描述的进行主题挖掘，表2列举出其中10个主题以及相关的排名前5个词汇，包含主题名称及其属性词。除此之外，表3列举出了有关MP3播放器、天气预报和美图相机三个应用程序的LDA主题模型结果。其中，包名唯一地标识了APK，从Manifest.xml文件中进行提取，这里列举了APK所属排名前三个的主题概率。

表2

表3

S104，根据所述权限映射关系和所述安卓应用的主题构建多主题权限模型。

根据所述权限映射关系和所述安卓应用的主题，采用互信息方法，挖掘主题与权限的相关性。

根据所述相关性对权限进行排序，确定主题与权限的映射；排序结果代表权限与主题关系的紧密程度。

根据所述主题与权限的映射构建多主题权限模型。

S105，利用所述多主题权限模型确定所述安卓应用功能与权限的关系。

应用程序与权限的相关性可以表示为Score(PG,app)。即P(T|app)和权限组与主题相关性(T,PG)。给定一个应用程序和一个权限请求，Score(PG,app)的计算公式表示如下：

所述安卓应用功能与权限的关系用于生成推荐权限决策，对需安装的安卓应用的权限进行授权权限推荐；其中，Score(PG,app)为应用程序和权限请求所属的权限组之间的相关性；PG为危险权限组，app为应用程序；T为LDA模型中生成的主题topic；P(T|app)为应用程序属于某个主题的概率；Relevance(T,PG)为权限组与主题的相关性。

P(T|app)和Relevance(T,PG)分别在主题挖掘阶段和多主题权限模型产生，对于每一个输入的安卓应用,通过在权限决策阶段产生与应用相关的一组权限排列Rank(PG,app)，并对权限进行降序排名。最终根据申请权限在推荐序列中的位置进行推荐，生成基于安卓应用功能的推荐决策。如果申请权限位于k₁个位置，进行相应的“ALLOW”推荐，如果位于k₂个位置及之后的位置，进行“DENY”推荐，除此之外，采取第三种策略“ASK”由用户进行决策。k₁和k₂为性能组好的参数组合，其中，(k₁,k₂)取(2,3)。

S106，对所述安卓应用的文本进行分类。

将所述安卓应用的文本进行文本向量化处理。利用词嵌入技术来进行文本的转换，经过词嵌入的处理，输入数据可以被转换成低维的紧密的连续向量。对于文本处理来说，词嵌入是一种有效的方法，在保持原始信息的同时，保留了语义和顺序信息。

使用基于Word2Vec的词嵌入技术将预处理之后的文本转化为向量，Word2Vec是Google公司在2013年开放的一款用于训练词向量的软件工具。Word2Vec根据给定的语料库，通过优化后的训练模型快速、有效的将一个词语表达成向量的形式。

采用一种的无监督神经网络方法word2vec进行词嵌入。通过将单词和短语转换为矢量表示，word2vec捕获额外的语义特征，所述语义特征用于表示文本。word2vec通过两种典型的语言模型生成单词向量：Word2Vec包括连续词袋模型(Bag-of-words model，CBOW)和skip-gram模型。其中，CBOW模型的目的是根据周围的词来预测一个词，而CBOW模型的目的是通过给定的目标词来预测词的上下文。CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量，而输出就是这特定的一个词的词向量。相反，Skip-Gram模型输入的是特定的一个词的词向量，而输出是特定词对应的上下文词向量。本发明采用Word2Vec的skip-gram神经网络模型，保留了文本的语义信息，依据建立好的语料库将文本转化为词向量，作为后期LSTM模型训练和预测的输入。

采用长短期记忆网络对所述安卓应用的文本进行分类。

基于长短期记忆网络，首先获取安卓应用的标签(label)，用于模型训练，label是Google Play商店中具有细粒度分类应用的“类别”，只有具有代表性的流行的app具有细粒度的类别。虽然，Google Play商店为所有的应用提供了粗粒度的“category”类别。但是，由于一个类别不能完全代表应用程序的多个功能，而且粗粒度的“category”类别并不能有效地识别相似的应用程序。根据具有细粒度分类的app的特征建立分类模型，并对剩余的app进行细粒度的分类。

基于长短期记忆网络(Long Short-TermMemory,LSTM)模型进行分类，LSTM是一种可扩展的序列数据学习模型。LSTM结构可以表示为：

i_t＝σ(Wⁱx_t+Uⁱh_t-1+bⁱ)

f_t＝σ(W^fx_t+U^fh_t-1+b^f)

c_t＝f_t⊙c_t-1+i_t⊙tanh(W^cx_t+U^ch_t-1+b^c)

o_t＝σ(W^ox_t+U^oh_t-1+b^o)

h_t＝o_t⊙tanh(c_t)

其中σ为sigmoid函数，b为bias向量。i、f、o分别为输入门、输出门和遗忘门，h为隐藏向量。W为输入权重矩阵，U为隐藏状态权重矩阵。C为细胞激活向量。

同时，为了利用双向特征(因为其包含了前向与后向的所有信息)，采用BILSTM网络在时间t来探索双向隐藏状态，并将两个方向状态被集成到一个最终状态中，计算如下：

利用单词注意机制(Attention)捕捉单词对描述的影响，从而获得考虑单词权重的向量。建立基于attention机制的半监督BILSTM模型，即在BILSTM的模型上加入Attention层，在BILSTM中用最后一个时序的输出向量作为特征向量，然后进行softmax分类。通过Attention机制，计算每个时序的权重，然后将所有时序的向量进行加权和作为特征向量，最后进行softmax分类，计算如下：

u_ti＝tanh(Wh_ti+b)

其中t表示第t个描述文本，i表示描述中的第i个单词。u_ti是上下文向量h_ti的表示，b是一个bias向量。然后，我们利用u_ti和上下文向量u_w之间的相似性来衡量不同单词的重要性。因此，通过softmax函数获得规范化的权重a_ti，从而将句子向量s_t表示为单词注释的加权和。

数据平衡是建立LSTM模型的重要因素。利用半监督学习缓解了弱监督的偏差，弥补有类标签的样本不足的缺陷。BILSTM结构分两个阶段训练，在第一次训练中，我们的分类器用标记的数据集去预测未被标记的数据集，并得到一个伪标签的数据集。在第二阶段的训练中，原始分类器的输入被转换为伪标签数据集和标记数据集的组合，并继续训练模型，从而得到一个越来越精细的分类器来训练模型。

S107，获取分类后的安卓应用的权限映射关系。

基于分类后的安卓应用即相似的安卓应用的组合，通过统计每个权限组在类似应用程序的使用比例，推荐相应的策略。也就是说，如果一个应用程序集合频繁地请求一个权限，那么该权限与权限租的关系通常比其他权限更接近，也更有可能让用户授予对某些资源的访问权限。例如，地图应用程序和与位置相关的权限。因此，计算每个相似应用程序集合中权限组的使用比例。在这个过程中，如果在某个特定的集合中，申请权限的比例多于或等于θ₁进行相应的“ALLOW”推荐，如果比例少于或等于θ₂，进行“DENY”推荐，除此之外，采取第三种策略“ASK”由用户进行决策。给予8个权限组，我们通过在实验中计算不同参数组合((θ₁,θ₂)的准确率(Accuracy)，取性能组好的参数组合，其中(θ₁,θ₂)为(30％，70％)。

S108，根据分类后的安卓应用的权限映射关系，确定相似应用与权限的关系。

S109，根据所述安卓应用功能与权限的关系和所述相似应用与权限的关系确定所述安卓应用的权限推荐。

给定一个安卓应用和一组申请的权限，AutoPer+根据根据所述安卓应用功能与权限的关系和所述相似应用与权限的关系确定所述安卓应用的权限推荐，根据推荐结果进行推荐。

本发明所提供的一种基于安卓应用文本挖掘的权限推荐方法通过确定基于功能的权限推荐阶段、确定基于相似应用的权限推荐阶段以及结合两种权限推荐作为最终的权限推荐阶段。

图2为本发明所提供的一种基于安卓应用文本挖掘的权限推荐系统结构示意图，如图2所示，本发明所提供的一种基于安卓应用文本挖掘的权限推荐系统，包括：文本获取模块201、安卓应用的权限映射关系获取模块202、安卓应用的主题确定模块203、多主题权限模型构建模块204、安卓应用功能与权限的关系确定模块205、文本分类模块206、分类后的安卓应用的权限映射关系获取模块207、相似应用与权限的关系确定模块208和安卓应用的权限推荐确定模块209。

文本获取模块201用于获取安卓应用的文本。

安卓应用的权限映射关系获取模块202用于获取所述安卓应用的权限映射关系。

安卓应用的主题确定模块203用于根据所述安卓应用的文本，利用文档主题模型进行主题挖掘，确定所述安卓应用的主题。

多主题权限模型构建模块204用于根据所述权限映射关系和所述安卓应用的主题构建多主题权限模型。

安卓应用功能与权限的关系确定模块205用于利用所述多主题权限模型确定所述安卓应用功能与权限的关系。

文本分类模块206用于对所述安卓应用的文本进行分类。

分类后的安卓应用的权限映射关系获取模块207用于获取分类后的安卓应用的权限映射关系。

相似应用与权限的关系确定模块208用于根据分类后的安卓应用的权限映射关系，确定相似应用与权限的关系。

安卓应用的权限推荐确定模块209用于根据所述安卓应用功能与权限的关系和所述相似应用与权限的关系确定所述安卓应用的权限推荐。

本发明所提供的一种基于安卓应用文本挖掘的权限推荐系统还包括：文本预处理模块和文本向量化处理模块。

文本预处理模块用于对所述安卓应用的文本进行预处理；所述预处理包括：处理无效文本、清除非英文文本、删除文本标点和词干化处理。

文本向量化处理模块用于将所述安卓应用的文本进行文本向量化处理。

所述多主题权限模型构建模块204具体包括：主题与权限的相关性挖掘单元、主题与权限的映射确定单元和多主题权限模型构建单元。

主题与权限的相关性挖掘单元用于根据所述权限映射关系和所述安卓应用的主题，采用互信息方法，挖掘主题与权限的相关性。

主题与权限的映射确定单元用于根据所述相关性对权限进行排序，确定主题与权限的映射。

多主题权限模型构建单元用于根据所述主题与权限的映射构建多主题权限模型。

所述文本分类模块206具体包括文本分类单元。

文本分类单元用于采用长短期记忆网络对所述安卓应用的文本进行分类。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于安卓应用文本挖掘的权限推荐方法，其特征在于，包括：

获取安卓应用的文本；

获取所述安卓应用的权限映射关系；

对所述安卓应用的文本进行分类；

获取分类后的安卓应用的权限映射关系；

2.根据权利要求1所述的一种基于安卓应用文本挖掘的权限推荐方法，其特征在于，所述获取安卓应用的文本，之后还包括：

3.根据权利要求1所述的一种基于安卓应用文本挖掘的权限推荐方法，其特征在于，所述根据所述权限映射关系和所述安卓应用的主题构建多主题权限模型，具体包括：

根据所述相关性对权限进行排序，确定主题与权限的映射；

根据所述主题与权限的映射构建多主题权限模型。

4.根据权利要求1所述的一种基于安卓应用文本挖掘的权限推荐方法，其特征在于，所述对所述安卓应用的文本进行分类，之前还包括：

将所述安卓应用的文本进行文本向量化处理。

5.根据权利要求4所述的一种基于安卓应用文本挖掘的权限推荐方法，其特征在于，所述对所述安卓应用的文本进行分类，具体包括

采用长短期记忆网络对所述安卓应用的文本进行分类。

6.一种基于安卓应用文本挖掘的权限推荐系统，其特征在于，包括：

文本获取模块，用于获取安卓应用的文本；

文本分类模块，用于对所述安卓应用的文本进行分类；

7.根据权利要求6所述的一种基于安卓应用文本挖掘的权限推荐系统，其特征在于，还包括：

8.根据权利要求7所述的一种基于安卓应用文本挖掘的权限推荐系统，其特征在于，所述多主题权限模型构建模块具体包括：

9.根据权利要求7所述的一种基于安卓应用文本挖掘的权限推荐系统，其特征在于，还包括：

10.根据权利要求9所述的一种基于安卓应用文本挖掘的权限推荐系统，其特征在于，所述文本分类模块具体包括