CN109583208A

CN109583208A - 基于移动应用评论数据的恶意软件识别方法和系统

Info

Publication number: CN109583208A
Application number: CN201811466838.4A
Authority: CN
Inventors: 崔红军; 吴振宇; 唐祝寿; 燕锦华; 邓朝日; 池定程; 封亮; 解群; 龙刚; 李翔; 沈雷; 郭玉环; 李巍
Original assignee: Shanghai Benzhong Information Technology Co ltd; CETC 32 Research Institute
Current assignee: Shanghai Benzhong Information Technology Co ltd; CETC 32 Research Institute
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-04-05

Abstract

本发明提供了一种基于移动应用评论数据的恶意软件识别方法和系统，获取移动应用市场中的评论数据集，定义分类类别，对评论数据集进行筛选，得到评论关键词；基于评论关键词确定特征属性，对特征属性进行分类类别划分后，得到训练样本，基于训练样本进行分类器训练，建立检测模型；检测模型接收用户评论，计算特征属性在各分类类别的条件概率值，得出移动应用的风险识别。本发明从NLP技术角度，收集应用市场中的移动应用评论数据，分析获得特征属性，通过分类器训练建立检测模型。检测模型接收来自应用市场中用户评论可快速、自动反馈出应用存在的风险，实现恶意软件识别。

Description

基于移动应用评论数据的恶意软件识别方法和系统

技术领域

本发明涉及自然语言处理领域，具体地，涉及一种基于移动应用评论数据的恶意软件识别方法和系统。

背景技术

随着移动互联网的迅速发展与普及，用户和移动应用之间的关系密不可分，使得某些包含恶意代码的应用迅速传播。用户使用这些应用时，恶意代码会直接或间接地对用户造成严重的后果。因此需要对应用市场上的恶意应用进行排查。

现有技术中，检测恶意安卓应用通常使用两种方法。一是静态分析，在不运行恶意软件的情况下执行恶意检测，所用技术包括反编译，模式识别等。但静态分析方法不能识别未知的恶意软件。二是动态分析，在沙盒环境下运行，可以检测应用的行为并且防止恶意软件感染真实的运行环境。但是动态分析首先需要搭建独立的沙盒环境，进行一些列的参数配置。因此，需要寻求一种简单有效的检测方式，能够快速、自动发现待检测应用中各类风险的存在。

专利文献CN108647518A公开了一种基于深度学习的Android平台恶意软件检测方法，包括以下步骤：通过反编译得到应用软件APK对应的字节码文件；从字节码文件中提取并生成相应的指令序列，以向量的形式来表示每条指令的信息，并得到指令序列的时间序列；以指令序列的时间序列作为循环神经网络的输入值，循环神经网络的输出值为onehot向量，通过对循环神经网络进行大量输入输出对的训练，得到恶意软件识别器；利用恶意软件识别器对恶意软件检测识别。本发明能够对神经网络持续训练，更为快捷地得到识别模型，这种实现方法能够得到快速恶意软件识别器，恶意软件识别器经过大量样本训练后具有较高的检测准确率和速度，提高了恶意软件检测准确率和速度。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于移动应用评论数据的恶意软件识别方法和系统。

根据本发明提供的一种基于移动应用评论数据的恶意软件识别方法，包括：

数据处理步骤：获取移动应用市场中的评论数据集，定义分类类别，对评论数据集进行筛选，得到评论关键词；

数据训练步骤：基于评论关键词确定特征属性，对特征属性进行分类类别划分后，得到训练样本，基于训练样本进行分类器训练，建立检测模型；

数据检测步骤：检测模型接收用户评论，计算特征属性在各分类类别的条件概率值，得出移动应用的风险识别。

优选地，所述数据处理步骤包括：

数据获取步骤：获取移动应用市场中的评论数据集，将评论数据集分成两部分，分别记为第一评论数据、第二评论数据，基于第一评论数据、第二评论数据定义分类类别；

数据分类步骤：将第一评论数据基于分类类别进行分类，得到第一评论数据的所属类别，运用kappa系数校正所属类别的准确率；

数据筛选步骤：采用语言探测工具对第一评论数据进行语言限定后，采用分词组件对第一评论数据进行分词计算，保留第一评论数据中的有效词，删除第一评论数据中的无效词，得到第三评论数据；

关键词获得步骤：将第三评论数据用文档向量表示，采用向量空间模型计算每个有效词在文档向量中的权重，将各有效词按照所述权重的从大到小进行排列，得到评论关键词。

优选地，所述数据训练步骤包括：

类别划分步骤：基于评论关键词确定特征属性，参考朴素贝叶斯模型，进行分类类别划分，得到训练样本；

模型建立步骤：计算各分类类别在训练样本中的出现频率，得到样本类别频率，计算各特征属性对各分类类别的条件概率，得到属性条件概率，基于样本类别频率和属性条件概率建立检测模型。

优选地，所述数据检测步骤包括：

类别频率计算步骤：基于评论关键词计算第三评论数据在各分类类别中出现的频率，记为评论类别频率；

条件概率计算步骤：基于评论类别频率，计算各特征属性在各分类类别中出现的条件概率值，取条件概率值的最大值作为条件概率，基于所述条件概率的分类类别进行风险识别。

根据本发明提供的一种基于移动应用评论数据的恶意软件识别系统，包括：

数据处理模块：获取移动应用市场中的评论数据集，定义分类类别，对评论数据集进行筛选，得到评论关键词；

数据训练模块：基于评论关键词确定特征属性，对特征属性进行分类类别划分后，得到训练样本，基于训练样本进行分类器训练，建立检测模型；

数据检测模块：检测模型接收用户评论，计算特征属性在各分类类别的条件概率值，得出移动应用的风险识别。

优选地，所述数据处理模块包括：

数据获取模块：获取移动应用市场中的评论数据集，将评论数据集分成两部分，分别记为第一评论数据、第二评论数据，基于第一评论数据、第二评论数据定义分类类别；

数据分类模块：将第一评论数据基于分类类别进行分类，得到第一评论数据的所属类别，运用kappa系数校正所属类别的准确率；

数据筛选模块：采用语言探测工具对第一评论数据进行语言限定后，采用分词组件对第一评论数据进行分词计算，保留第一评论数据中的有效词，删除第一评论数据中的无效词，得到第三评论数据；

关键词获得模块：将第三评论数据用文档向量表示，采用向量空间模型计算每个有效词在文档向量中的权重，将各有效词按照所述权重的从大到小进行排列，得到评论关键词。

优选地，所述数据训练模块包括：

类别划分模块：基于评论关键词确定特征属性，参考朴素贝叶斯模型，进行分类类别划分，得到训练样本；

模型建立模块：计算各分类类别在训练样本中的出现频率，得到样本类别频率，计算各特征属性对各分类类别的条件概率，得到属性条件概率，基于样本类别频率和属性条件概率建立检测模型。

优选地，所述数据检测模块包括：

类别频率计算模块：基于评论关键词计算第三评论数据在各分类类别中出现的频率，记为评论类别频率；

条件概率计算模块：基于评论类别频率，计算各特征属性在各分类类别中出现的条件概率值，取条件概率值的最大值作为条件概率，基于所述条件概率的分类类别进行风险识别。

优选地，所述分类类别主要包括恶意扣费、隐私窃取、远程控制、恶意传播、资费消耗、系统破坏、诱骗欺诈、流氓行为。

优选地，所述语言探测工具采用语言探测工具Langdetect，所述分词组件采用jieba分词库组件。

与现有技术相比，本发明具有如下的有益效果：

从NLP技术角度，收集应用市场中的移动应用评论数据，分析获得特征属性，通过分类器训练建立检测模型。检测模型接收来自应用市场中用户评论可快速、自动反馈出应用存在的风险，实现恶意软件识别。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明检测方法流程图；

图2为朴素贝叶斯分类三个阶段示意图；

图3为朴素贝叶斯分类三个阶段的输入和输出示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

具体地，所述数据处理步骤包括：

具体地，所述数据训练步骤包括：

具体地，所述数据检测步骤包括：

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现上述的方法的步骤。

具体地，所述数据处理模块包括：

具体地，所述数据训练模块包括：

具体地，所述数据检测模块包括：

具体地，所述分类类别主要包括恶意扣费、隐私窃取、远程控制、恶意传播、资费消耗、系统破坏、诱骗欺诈、流氓行为。

具体地，所述语言探测工具采用语言探测工具Langdetect，所述分词组件采用jieba分词库组件。

本发明提供的基于移动应用评论数据的恶意软件识别系统，可以通过基于移动应用评论数据的恶意软件识别方法的步骤流程实现。本领域技术人员可以将基于移动应用评论数据的恶意软件识别方法理解为所述基于移动应用评论数据的恶意软件识别系统的优选例。

本发明通过基于移动应用评论数据的移动应用行为检测，进一步识别恶意软件，可以对应用进行快速检测，以让用户快速了解待检测的移动应用中是否存在各类风险行为以及恶意行为特征，从而对用户使用进行有效保护。

本发明涉及自然语言处理(NLP)技术领域，实现对移动应用评论数据进行分类处理，来达到识别恶意软件的目的。NLP，Natural language Processing，自然语言处理，人工智能的一个子领域，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

以下结合附图对本发明的优选例进行详细阐述。

如图1所示，本发明对应用市场中的评论数据集进行分类，对分类后的评论根据移动互联网恶意程序行为属性分为恶意扣费、隐私窃取、远程控制、恶意传播、资费消耗、系统破坏、诱骗欺诈、流氓行为八类，并且对评论进行文本处理，获取其中关键词，通过特征属性和数据集进行分类器训练，最终建立检测模型。检测模型接收来自应用市场中用户评论可以及时反馈出该应用存在的风险。

在数据预处理方面：我们针对中文评论数据进行分类处理，使用语言探测工具Langdetect对数据进行语言限定。对于筛选出的中文评论通过jieba分词库组件完成中文分词。同时，文本中存在诸如“啊”，“这”等此类无效词，通过引入停用词表将它们从文本中删除。

在特征提取方面：经过数据处理后的文档采用空间向量模型，把文档用向量来表示，然后使用tf-idf权重去计算每一个词组在文档向量中的权重，比较词组权重的大小，获得相应的特征，即关键词，并过滤存在同义词现象的关键词。

在分类模型方面：考虑朴素贝叶斯模型，通过单独查看每个特征来学习参数，并从特征中收集简单的类别统计数据。方法如下：

①设x＝{a₁,a₂,...,a_m}为一个待分类项，a₁,a₂,...,a_m分别是x的m个特征属性。

②一个有类别集合C＝{y₁,y₂,...,y_n}，y₁,y₂,...,y_n分别是类别集合C中的n个类别。

③计算P(y₁|x),P(y₂|x),...,P(y_n|x)。

④如果P(y_k|x)＝max{P(y₁|x),P(y₂|x),...,P(y_n|x)}，则x∈y_k。其中y_k表示类别集合C中任一个类别。

具体实施方式如下：首先第一步：从GooglePlay应用市场中获取用户评论数据，根据搜集到的数据情况确定分为八个类别：恶意扣费、隐私窃取、远程控制、恶意传播、资费消耗、系统破坏、诱骗欺诈、流氓行为。将评论数据一分为二，一部分构造分类器，一部分检测模型的准确率。由人工对一部分数据进行分类，运用Cohen’s kappa系数来衡量评估者之间对于分类项目的准确率，保证分类的一致性。

然后第二步：对于评论数据A，假设其类别为a,然后使用Langdetect工具对评论数据A限定为中文评论，通过组件jieba对中文评论进行分词，词语之间以空格分开，例如评论数据同时引入停用词表删除诸如“啊”，“这”，标点符号等此类无效词。例如，对于某一条评论“后台偷跑，消耗40％以上的电量。”，判断其类别为系统破坏，分词后结果为[后台偷跑，消耗40％以上的电量。]，删除无效词后结果为[后台偷跑消耗以上电量]。

第三步：采用向量空间模型中tf-idf算法计算每个词组在文档向量中的权重，比较词组权重大小，按权重从大到小排列，获得关键词。所述获取到的关键词具有很好的类别区分能力，可以作为该类别的特征属性。

计算公式：TF-IDF＝TF*IDF

其中，TF词频表示词条在文档d中出现的频率；IDF逆向文件频率表示是一个词语普遍重要性的度量，如果包含词条t的文档越少，IDF越大，则说明词条t具有很好的类别区分能力。词频(term frequency,TF)公式为：对第i个词语t_i来说，

以上式子中n_i,j是该词t_i在第j个文件d_j中的出现次数，而分母则是在文件d_j中所有词语的出现次数之和，n_k,j表示文件d_j中第k个词语在文件d_j中出现的次数，tf_i,j表示该词t_i在文件d_j中的词频；

IDF表示逆向文件频率(invert document frequency,IDF)，由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到：

其中，idf_i表示该词t_i的逆向文件频率；

|D|:语料库中文件总数；

|{j:t_i∈d_j}|:包含该词t_i的文件数目；

tf-idf算法过滤常见词语，保留下来的重要词语(关键词)，通过同义词词典对数据进一步清洗。

以上三步为准备工作阶段，输入的是一部分的评论数据，输出则是带有类别标签的评论数据样本和关键词。数据样本是从应用市场获取评论，并对其进行分类。关键词指可以代表类别的特征属性。

第四步：计算每个类别在训练样本中的出现频率和每个特征属性对每个类别的条件概率，记录结果。已知有类别集合C＝{y₁,y₂,...,y_n}，且设x＝{a₁,a₂,...,a_m}为一个待分类项，可以得出：

各个属性特征条件独立，可以推导出：

又P(x)对于所有类别来说数值相同，不需要考虑分母情况，优选P(x)为常数，则其中y_i表示第i个类别，a_j表示第j个待分类项，m表示待分类项的总个数。

如果P(y_k|x)＝max{P(y₁|x),P(y₂|x),...,P(y_n|x)}，则x∈y_k。

以上由程序自动计算完成，输出是分类器。

最后使用分类器对待分类项进行分类，得出待分类项与类别之间的映射关系，并进一步得出待分类项的风险识别。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于移动应用评论数据的恶意软件识别方法，其特征在于，包括：

2.根据权利要求1所述的基于移动应用评论数据的恶意软件识别方法，其特征在于，所述数据处理步骤包括：

3.根据权利要求2所述的基于移动应用评论数据的恶意软件识别方法，其特征在于，所述数据训练步骤包括：

4.根据权利要求2所述的基于移动应用评论数据的恶意软件识别方法，其特征在于，所述数据检测步骤包括：

5.一种基于移动应用评论数据的恶意软件识别系统，其特征在于，包括：

6.根据权利要求5所述的基于移动应用评论数据的恶意软件识别系统，其特征在于，所述数据处理模块包括：

7.根据权利要求6所述的基于移动应用评论数据的恶意软件识别系统，其特征在于，所述数据训练模块包括：

8.根据权利要求6所述的基于移动应用评论数据的恶意软件识别系统，其特征在于，所述数据检测模块包括：

9.根据权利要求1所述的基于移动应用评论数据的恶意软件识别方法或者根据权利要求5所述的基于移动应用评论数据的恶意软件识别系统，其特征在于，所述分类类别主要包括恶意扣费、隐私窃取、远程控制、恶意传播、资费消耗、系统破坏、诱骗欺诈、流氓行为。

10.根据权利要求2所述的基于移动应用评论数据的恶意软件识别方法或者根据权利要求6所述的基于移动应用评论数据的恶意软件识别系统，其特征在于，所述语言探测工具采用语言探测工具Langdetect，所述分词组件采用jieba分词库组件。