CN110334180A

CN110334180A - 一种基于评论数据的移动应用安全性评估方法

Info

Publication number: CN110334180A
Application number: CN201910484227.0A
Authority: CN
Inventors: 陶传奇; 郭虹静; 黄志球
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-10-15
Anticipated expiration: 2039-06-05
Also published as: CN110334180B

Abstract

本发明公开了一种基于评论数据的移动应用安全性评估方法，该方法融合了多种文本表示模型，从评论数据中提取多维度特征构建统一的向量表示形式，使用机器学习算法构建移动应用的安全性评估模型，利用评估模型为待检测的应用程序提供安全性风险值。同时，就安全性评估结果为用户提供解释说明。本发明克服了传统应用程序安全性评估方法中程序代码难获得、难分析以及评估结果用户难以理解的问题，构建了基于评论数据的移动应用安全性评估模型，并为用户提供评估结果的解释说明，有效地提高了安全性评估工作的效率，同时也降低了评估工作的难度。

Description

一种基于评论数据的移动应用安全性评估方法

技术领域

本发明属于移动应用安全性评估技术领域，具体涉及一种基于评论数据的移动应用安全性评估方法。

背景技术

随着移动互联网的发展，移动应用程序(App)发展迅速，用户对移动应用的安全问题的担忧也随之而来。在传统的移动应用安全分析中，通过对移动应用动态检测和静态代码分析技术，可以挖掘出隐藏在程序代码里的不良行为，这些分析技术的前提是事先获取程序的代码，通过反编译等手段解析出应用程序的代码结构，从代码层面对移动应用进行安全检测。然而用户很难获取到移动应用的源代码，也很难对一些经过复杂的混淆和加壳技术的应用程序进行逆向破解工作，用户很难部署基于代码的分析技术来对应用程序进行安全性评估。此外，用户也很难理解这些代码层面的评估结果。对于用户来说，评论数据是评估移动应用程序的宝贵信息来源，这些信息对于发现移动应用的不足和安全隐患具有重要的价值。如果从评论中去挖掘移动应用程序的安全信息，可以避免复杂的代码逆向分析工作，将会节省很多工作量，可以提高移动应用的安全性评估的效率。

目前，已有一些工作集中在挖掘用户评论中，如从原始评论中提取出有意义的信息，将评论自动分成多种类型，从评论文本的情感角度分析用户对移动应用的满意度等。Hatamian等人提出了一种基于人工神经网络的排序模型，从评论中提取安全和隐私问题相关的知识，但并未从移动应用的层面，给出直观的安全性评估结果；Cen等人挖掘GooglePlay应用商店上的用户评论，使用有监督的多标签学习方法识别不同类别的安全和隐私问题的评论，并采用众包和排序学习的方法对应用程序的安全性风险进行排名，此方法虽给出了安全性评估的结果，但未从用户角度，给出清晰的，便于理解的评估结果说明。近年来，由于机器学习和深度学习的广泛应用，计算机对于自然语言的处理能力更上了一个新的台阶。此时，若能采用这些智能化的技术，对一定数量的用户评论数据进行统计分析，对移动应用进行安全性评估，并为用户提供评估结果的解释说明，这样就可以更便捷、更高效地实现移动应用的安全性评估工作，同时也减轻用户的负担。

发明内容

针对于上述现有技术的不足，本发明的目的在于提供一种基于评论数据的移动应用安全性评估方法，以克服传统应用程序安全性评估方法中程序代码难获得、难分析以及评估结果用户难以理解的问题；本发明能够融合多种文本表示模型，将非结构化的评论表示成统一的向量形式，利用机器学习算法构建移动应用的安全性评估模型，为待测移动应用提供安全性风险值，同时为用户提供评估结果的说明和可视化的雷达图显示。

为达到上述目的，本发明采用的技术方案如下：

本发明的一种基于评论数据的移动应用安全性评估方法，包括步骤如下：

1)安全性评论数据获取：收集移动应用程序的评论数据，对评论数据进行预处理和关键词提取，筛选关键词构建安全性关键词库；根据安全性关键词库，构建安全性相关评论数据集；

2)评论文本向量生成：对每一条安全性相关的评论文本，生成评论文本的语义向量及文本—主题向量，将所述两种向量进行拼接、融合生成新的向量，新的向量作为评论文本向量；

3)评论文档向量生成：将评论文本向量作为输入，使用双向RNN模型得到当前应用程序下的评论文档向量；

4)评估结果生成：获取应用程序的安全性风险值；将每一个应用程序表示为<评论文档向量，安全性风险值>的二元组，将二元组作为输入，使用机器学习的回归模型构建安全性评估模型，利用安全性评估模型为待检测的应用程序生成安全性风险值；

5)评估结果说明：对步骤2)中得到的评论文本向量进行聚类，并抽取出每一簇中的关键词和关键短语；根据步骤4)中得到的安全性风险值以及抽取出的关键词和关键短语，为用户提供自然语言描述的安全性评估结果的说明。

优选地，所述步骤1)具体包括：

11)收集移动应用程序的评论数据，利用自然语言处理技术对评论数据进行预处理和关键词提取，筛选关键词构造安全性关键词库；

12)根据安全性关键词库，利用余弦函数筛选安全性相关评论，构建安全性相关评论数据集。

优选地，所述步骤2)具体包括：

21)利用TF-IDF算法计算评论中词语权重，采用词语权重和Word2Vec模型生成的词向量加权平均得到评论文本的语义向量；

22)利用LDA模型为评论文本生成文本—主题向量。

优选地，所述步骤5)具体包括：

51)利用K-means++算法对步骤2)中得到的评论文本向量进行聚类，并使用TextRank算法提取出每一簇中的关键词和关键短语；

52)根据步骤4)中得到的安全性风险值以及抽取出的关键词和关键短语，以雷达图和列表的形式，为用户提供自然语言描述的安全性评估结果的说明。

本发明的有益效果：

本发明充分利用了评论的词语权重、语义和主题信息，将非结构化的评论文档统一表示成向量的形式，并利用机器学习算法构建了移动应用的安全性评估模型，利用模型为待检测移动应用进行安全性评估，同时为用户提供便于理解的评估结果说明。具体说，主要有如下一些优点：

(1)本发明规避开了复杂的代码逆向和分析工作，充分利用了评论数据挖掘出安全性相关信息，并基于评论数据的统计信息对移动应用的安全性进行评估。

本发明利用了自然语言形式的评论文本，对评论文本进行了大量的特征提取过程，包括词语权重特征、语义特征以及主题特征的提取，从多个维度来充分挖掘评论数据中所包含的信息。并且将评论文本的语义向量和文档—主题向量融合成一个新的向量，将非结构化的自然语言评论文本转化为机器学习算法可以理解的形式。

考虑到不同用户撰写的评论文本对于整个应用程序的评论文档向量的生成的重要性不同，本发明利用双向RNN模型来获得每条评论文本的权重，加权得到最终评论文档的向量。

(2)本发明提出了智能化的移动应用安全性评估模型，可对移动应用市场上已发布的且具有一定用户评论的应用程序进行安全性评估，不依赖于传统的代码分析和安全性专家的人工评估，进一步提高工作效率，减轻用户负担。

(3)目前已有的移动应用安全性评估工作仅给出了宏观的评估结果，本发明不仅给出了一个数值型的安全性评估结果，还提供相应的评估结果说明供用户参考，使得用户更能清晰地了解到当前移动应用程序存在的问题。

附图说明

图1为本发明的方法架构图。

图2为本发明中所使用的双向RNN模型应用于评论文档向量生成的示例图。

图3为Androguard工具生成的移动应用程序的安全性风险值的示意图。

图4为本发明中所生成的用户评论中的安全性相关信息的雷达图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

参照图1所示，本发明的一种基于评论数据的移动应用安全性评估方法，包括步骤如下：

步骤1)安全性评论数据获取：收集移动应用程序的评论数据，对评论数据进行预处理和关键词提取，筛选关键词构建安全性关键词库；根据安全性关键词库，构建安全性相关评论数据集；其中，

11)利用爬虫从Google Play应用商店中爬取200个移动应用的评论数据，其中包括评论的内容和评论提交时间。每一条评论的内容作为一个评论文本，选取提交时间范围为2018年4月至2019年4月的评论文本。对收集到的评论文本进行自然语言处理，包括分词、词根还原、去掉停用词。经过人工评估，筛选出安全性相关的关键词，主要是名词和动词，构建安全性关键词库。表1所示为安全性关键词库中，词频排序前15的关键词列表；

表1

1	security	6	account	11	steal
						2	privacy	7	permission	12	phish
3	crash	8	leak	13	advertisement/ad
						4	spam	9	GPS	14	malware
5	money	10	junk	15	SMS

12)获得安全性关键词库后，根据词库，利用余弦函数从用户评论中筛选出与安全性相关的评论，构建安全性评论数据集。首先，对每一条评论文本进行关键词提取，然后利用余弦函数计算该评论与安全性关键词库中信息的文本相似度，如公式(1)所示：

其中，|r_k|表示每一条评论文本的关键词数量，|r_k∩r_l|表示该评论与安全性关键词库所共有的关键词数量，S_k表示该评论与安全性关键词库中信息的文本相似度。当S_k大于某一界定θ(根据经验0.7-0.8较为合适)时，即认为该评论是与安全性相关的评论。

步骤2)评论文本向量生成：对每一条安全性相关的评论文本，生成评论文本的语义向量及文本—主题向量，将所述两种向量进行拼接、融合生成新的向量，新的向量作为评论文本向量；其中，

21)对于安全性评论数据集中的每一条评论文本，利用TF-IDF算法计算评论文本中词语t的权重k_t，并去除评论文本中的低频词；利用Word2Vec模型得到词语t对应的100维的词向量w_t。经TF-IDF算法得到词语权重后，对所有评论文本中的词语的词向量进行加权平均得到评论文本的语义向量，如公式(2)所示，其中，r_i为评论文本i中经过分词后的所有的单词集合；每一条评论文本的语义向量具体表示为：V_i＝(v₁,v₂,...,v₁₀₀)；

22)对于每一条评论文本i，采用LDA模型生成100维的文本—主题向量，具体表示为：T_i＝(t₁,t₂,...,t₁₀₀)；

23)将100维的经词语权重加权后的文本语义向量V_i＝(v₁,v₂,...,v₁₀₀)和100维的文本—主题向量T_i＝(t₁,t₂,...,t₁₀₀)进行向量拼接，最终表示为200维的评论文本向量，具体表现形式为：R_i＝(v₁,v₂,...,v₁₀₀,t₁,t₂,...,t₁₀₀)。

步骤3)评论文档向量生成：评论文档由当前应用程序下所有的安全性相关的评论文本组成；将评论文本向量作为输入，使用双向RNN模型(结构如图2)将当前应用程序下的评论文档向量表示为一个m维的向量，具体表现形式为：D_j＝(d₁,d₂,...,d_m)。

步骤4)评估结果生成：获取应用程序的安全性风险值；将每一个应用程序表示为<评论文档向量，安全性风险值>的二元组，将二元组作为输入，使用机器学习的回归模型构建安全性评估模型，利用安全性评估模型为待检测的应用程序生成安全性风险值；其中，

41)利用开源静态分析工具Androguard中的androrisk模块获取应用程序的安全性风险值，该风险值在[0-100]的范围内，该值越高则表明该应用程序存在的安全性风险越大，图3给出了Androguard工具生成的移动应用程序安全性风险值的实例；

42)将步骤3)中得到的评论文档向量作为回归模型的特征输入，将收集到的每一个应用程序表示为<评论文档向量，风险值>的二元组，将这些数据作为机器学习的回归模型的输入，训练并构建移动应用的安全性评估模型；

43)利用构建好的安全性评估模型，对待检测的应用程序进行评估，模型进行预测并生成[0-100]范围内的安全性评估值。

步骤5)评估结果说明：对步骤2)中得到的评论文本向量进行聚类，并抽取出每一簇中的关键词和关键短语；根据步骤4)中得到的安全性风险值以及抽取出的关键词和关键短语，为用户提供自然语言描述的安全性评估结果的说明。其中，

51)采用K-means++算法，对步骤2)中得到的评论文本向量进行聚类，具有相似语义和主题特征的评论文本被分至同一簇；

52)采用TextRank算法抽取出同一簇评论文本中的关键词和关键短语，统计出现的频率，按照降序进行排序，表2为抽取的出现频率前七的关键词或关键短语的列表；如下：

表2

关键词或关键短语	出现频率(/次)
		crash	54
advertisement pop up	36
		steal money	28
leak GPS location	10
		send SMS message	5
steal data	5
		junk mail	2

53)使用雷达图对出现频率最高的前七个关键词或短语进行可视化显示，如图4所示；同时，根据步骤4)中得到的安全性风险值以及抽取出的关键词和关键短语，以表3的形式，为用户提供自然语言描述的安全性评估结果的说明，表3如下：

表3

其中，“安全性评估值”即步骤4)中生成的安全性风险值，“用户评论中反馈的问题”即抽取出的关键词和关键短语，按照出现的次数降序排序。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种基于评论数据的移动应用安全性评估方法，其特征在于，包括步骤如下：

2.根据权利要求1所述的基于评论数据的移动应用安全性评估方法，其特征在于，所述步骤1)具体包括：

3.根据权利要求1所述的基于评论数据的移动应用安全性评估方法，其特征在于，所述步骤2)具体包括：

22)利用LDA模型为评论文本生成文本—主题向量。

4.根据权利要求1所述的基于评论数据的移动应用安全性评估方法，其特征在于，所述步骤5)具体包括：