CN109583208A - 基于移动应用评论数据的恶意软件识别方法和系统 - Google Patents
基于移动应用评论数据的恶意软件识别方法和系统 Download PDFInfo
- Publication number
- CN109583208A CN109583208A CN201811466838.4A CN201811466838A CN109583208A CN 109583208 A CN109583208 A CN 109583208A CN 201811466838 A CN201811466838 A CN 201811466838A CN 109583208 A CN109583208 A CN 109583208A
- Authority
- CN
- China
- Prior art keywords
- comment
- comment data
- data
- mobile application
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000001514 detection method Methods 0.000 claims abstract description 40
- 238000012216 screening Methods 0.000 claims abstract description 9
- 238000013480 data collection Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 6
- 230000006378 damage Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000005611 electricity Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 244000035744 Hura crepitans Species 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Virology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于移动应用评论数据的恶意软件识别方法和系统,获取移动应用市场中的评论数据集,定义分类类别,对评论数据集进行筛选,得到评论关键词;基于评论关键词确定特征属性,对特征属性进行分类类别划分后,得到训练样本,基于训练样本进行分类器训练,建立检测模型;检测模型接收用户评论,计算特征属性在各分类类别的条件概率值,得出移动应用的风险识别。本发明从NLP技术角度,收集应用市场中的移动应用评论数据,分析获得特征属性,通过分类器训练建立检测模型。检测模型接收来自应用市场中用户评论可快速、自动反馈出应用存在的风险,实现恶意软件识别。
Description
技术领域
本发明涉及自然语言处理领域,具体地,涉及一种基于移动应用评论数据的恶意软件识别方法和系统。
背景技术
随着移动互联网的迅速发展与普及,用户和移动应用之间的关系密不可分,使得某些包含恶意代码的应用迅速传播。用户使用这些应用时,恶意代码会直接或间接地对用户造成严重的后果。因此需要对应用市场上的恶意应用进行排查。
现有技术中,检测恶意安卓应用通常使用两种方法。一是静态分析,在不运行恶意软件的情况下执行恶意检测,所用技术包括反编译,模式识别等。但静态分析方法不能识别未知的恶意软件。二是动态分析,在沙盒环境下运行,可以检测应用的行为并且防止恶意软件感染真实的运行环境。但是动态分析首先需要搭建独立的沙盒环境,进行一些列的参数配置。因此,需要寻求一种简单有效的检测方式,能够快速、自动发现待检测应用中各类风险的存在。
专利文献CN108647518A公开了一种基于深度学习的Android平台恶意软件检测方法,包括以下步骤:通过反编译得到应用软件APK对应的字节码文件;从字节码文件中提取并生成相应的指令序列,以向量的形式来表示每条指令的信息,并得到指令序列的时间序列;以指令序列的时间序列作为循环神经网络的输入值,循环神经网络的输出值为onehot向量,通过对循环神经网络进行大量输入输出对的训练,得到恶意软件识别器;利用恶意软件识别器对恶意软件检测识别。本发明能够对神经网络持续训练,更为快捷地得到识别模型,这种实现方法能够得到快速恶意软件识别器,恶意软件识别器经过大量样本训练后具有较高的检测准确率和速度,提高了恶意软件检测准确率和速度。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于移动应用评论数据的恶意软件识别方法和系统。
根据本发明提供的一种基于移动应用评论数据的恶意软件识别方法,包括:
数据处理步骤:获取移动应用市场中的评论数据集,定义分类类别,对评论数据集进行筛选,得到评论关键词;
数据训练步骤:基于评论关键词确定特征属性,对特征属性进行分类类别划分后,得到训练样本,基于训练样本进行分类器训练,建立检测模型;
数据检测步骤:检测模型接收用户评论,计算特征属性在各分类类别的条件概率值,得出移动应用的风险识别。
优选地,所述数据处理步骤包括:
数据获取步骤:获取移动应用市场中的评论数据集,将评论数据集分成两部分,分别记为第一评论数据、第二评论数据,基于第一评论数据、第二评论数据定义分类类别;
数据分类步骤:将第一评论数据基于分类类别进行分类,得到第一评论数据的所属类别,运用kappa系数校正所属类别的准确率;
数据筛选步骤:采用语言探测工具对第一评论数据进行语言限定后,采用分词组件对第一评论数据进行分词计算,保留第一评论数据中的有效词,删除第一评论数据中的无效词,得到第三评论数据;
关键词获得步骤:将第三评论数据用文档向量表示,采用向量空间模型计算每个有效词在文档向量中的权重,将各有效词按照所述权重的从大到小进行排列,得到评论关键词。
优选地,所述数据训练步骤包括:
类别划分步骤:基于评论关键词确定特征属性,参考朴素贝叶斯模型,进行分类类别划分,得到训练样本;
模型建立步骤:计算各分类类别在训练样本中的出现频率,得到样本类别频率,计算各特征属性对各分类类别的条件概率,得到属性条件概率,基于样本类别频率和属性条件概率建立检测模型。
优选地,所述数据检测步骤包括:
类别频率计算步骤:基于评论关键词计算第三评论数据在各分类类别中出现的频率,记为评论类别频率;
条件概率计算步骤:基于评论类别频率,计算各特征属性在各分类类别中出现的条件概率值,取条件概率值的最大值作为条件概率,基于所述条件概率的分类类别进行风险识别。
根据本发明提供的一种基于移动应用评论数据的恶意软件识别系统,包括:
数据处理模块:获取移动应用市场中的评论数据集,定义分类类别,对评论数据集进行筛选,得到评论关键词;
数据训练模块:基于评论关键词确定特征属性,对特征属性进行分类类别划分后,得到训练样本,基于训练样本进行分类器训练,建立检测模型;
数据检测模块:检测模型接收用户评论,计算特征属性在各分类类别的条件概率值,得出移动应用的风险识别。
优选地,所述数据处理模块包括:
数据获取模块:获取移动应用市场中的评论数据集,将评论数据集分成两部分,分别记为第一评论数据、第二评论数据,基于第一评论数据、第二评论数据定义分类类别;
数据分类模块:将第一评论数据基于分类类别进行分类,得到第一评论数据的所属类别,运用kappa系数校正所属类别的准确率;
数据筛选模块:采用语言探测工具对第一评论数据进行语言限定后,采用分词组件对第一评论数据进行分词计算,保留第一评论数据中的有效词,删除第一评论数据中的无效词,得到第三评论数据;
关键词获得模块:将第三评论数据用文档向量表示,采用向量空间模型计算每个有效词在文档向量中的权重,将各有效词按照所述权重的从大到小进行排列,得到评论关键词。
优选地,所述数据训练模块包括:
类别划分模块:基于评论关键词确定特征属性,参考朴素贝叶斯模型,进行分类类别划分,得到训练样本;
模型建立模块:计算各分类类别在训练样本中的出现频率,得到样本类别频率,计算各特征属性对各分类类别的条件概率,得到属性条件概率,基于样本类别频率和属性条件概率建立检测模型。
优选地,所述数据检测模块包括:
类别频率计算模块:基于评论关键词计算第三评论数据在各分类类别中出现的频率,记为评论类别频率;
条件概率计算模块:基于评论类别频率,计算各特征属性在各分类类别中出现的条件概率值,取条件概率值的最大值作为条件概率,基于所述条件概率的分类类别进行风险识别。
优选地,所述分类类别主要包括恶意扣费、隐私窃取、远程控制、恶意传播、资费消耗、系统破坏、诱骗欺诈、流氓行为。
优选地,所述语言探测工具采用语言探测工具Langdetect,所述分词组件采用jieba分词库组件。
与现有技术相比,本发明具有如下的有益效果:
从NLP技术角度,收集应用市场中的移动应用评论数据,分析获得特征属性,通过分类器训练建立检测模型。检测模型接收来自应用市场中用户评论可快速、自动反馈出应用存在的风险,实现恶意软件识别。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明检测方法流程图;
图2为朴素贝叶斯分类三个阶段示意图;
图3为朴素贝叶斯分类三个阶段的输入和输出示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
根据本发明提供的一种基于移动应用评论数据的恶意软件识别方法,包括:
数据处理步骤:获取移动应用市场中的评论数据集,定义分类类别,对评论数据集进行筛选,得到评论关键词;
数据训练步骤:基于评论关键词确定特征属性,对特征属性进行分类类别划分后,得到训练样本,基于训练样本进行分类器训练,建立检测模型;
数据检测步骤:检测模型接收用户评论,计算特征属性在各分类类别的条件概率值,得出移动应用的风险识别。
具体地,所述数据处理步骤包括:
数据获取步骤:获取移动应用市场中的评论数据集,将评论数据集分成两部分,分别记为第一评论数据、第二评论数据,基于第一评论数据、第二评论数据定义分类类别;
数据分类步骤:将第一评论数据基于分类类别进行分类,得到第一评论数据的所属类别,运用kappa系数校正所属类别的准确率;
数据筛选步骤:采用语言探测工具对第一评论数据进行语言限定后,采用分词组件对第一评论数据进行分词计算,保留第一评论数据中的有效词,删除第一评论数据中的无效词,得到第三评论数据;
关键词获得步骤:将第三评论数据用文档向量表示,采用向量空间模型计算每个有效词在文档向量中的权重,将各有效词按照所述权重的从大到小进行排列,得到评论关键词。
具体地,所述数据训练步骤包括:
类别划分步骤:基于评论关键词确定特征属性,参考朴素贝叶斯模型,进行分类类别划分,得到训练样本;
模型建立步骤:计算各分类类别在训练样本中的出现频率,得到样本类别频率,计算各特征属性对各分类类别的条件概率,得到属性条件概率,基于样本类别频率和属性条件概率建立检测模型。
具体地,所述数据检测步骤包括:
类别频率计算步骤:基于评论关键词计算第三评论数据在各分类类别中出现的频率,记为评论类别频率;
条件概率计算步骤:基于评论类别频率,计算各特征属性在各分类类别中出现的条件概率值,取条件概率值的最大值作为条件概率,基于所述条件概率的分类类别进行风险识别。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现上述的方法的步骤。
根据本发明提供的一种基于移动应用评论数据的恶意软件识别系统,包括:
数据处理模块:获取移动应用市场中的评论数据集,定义分类类别,对评论数据集进行筛选,得到评论关键词;
数据训练模块:基于评论关键词确定特征属性,对特征属性进行分类类别划分后,得到训练样本,基于训练样本进行分类器训练,建立检测模型;
数据检测模块:检测模型接收用户评论,计算特征属性在各分类类别的条件概率值,得出移动应用的风险识别。
具体地,所述数据处理模块包括:
数据获取模块:获取移动应用市场中的评论数据集,将评论数据集分成两部分,分别记为第一评论数据、第二评论数据,基于第一评论数据、第二评论数据定义分类类别;
数据分类模块:将第一评论数据基于分类类别进行分类,得到第一评论数据的所属类别,运用kappa系数校正所属类别的准确率;
数据筛选模块:采用语言探测工具对第一评论数据进行语言限定后,采用分词组件对第一评论数据进行分词计算,保留第一评论数据中的有效词,删除第一评论数据中的无效词,得到第三评论数据;
关键词获得模块:将第三评论数据用文档向量表示,采用向量空间模型计算每个有效词在文档向量中的权重,将各有效词按照所述权重的从大到小进行排列,得到评论关键词。
具体地,所述数据训练模块包括:
类别划分模块:基于评论关键词确定特征属性,参考朴素贝叶斯模型,进行分类类别划分,得到训练样本;
模型建立模块:计算各分类类别在训练样本中的出现频率,得到样本类别频率,计算各特征属性对各分类类别的条件概率,得到属性条件概率,基于样本类别频率和属性条件概率建立检测模型。
具体地,所述数据检测模块包括:
类别频率计算模块:基于评论关键词计算第三评论数据在各分类类别中出现的频率,记为评论类别频率;
条件概率计算模块:基于评论类别频率,计算各特征属性在各分类类别中出现的条件概率值,取条件概率值的最大值作为条件概率,基于所述条件概率的分类类别进行风险识别。
具体地,所述分类类别主要包括恶意扣费、隐私窃取、远程控制、恶意传播、资费消耗、系统破坏、诱骗欺诈、流氓行为。
具体地,所述语言探测工具采用语言探测工具Langdetect,所述分词组件采用jieba分词库组件。
本发明提供的基于移动应用评论数据的恶意软件识别系统,可以通过基于移动应用评论数据的恶意软件识别方法的步骤流程实现。本领域技术人员可以将基于移动应用评论数据的恶意软件识别方法理解为所述基于移动应用评论数据的恶意软件识别系统的优选例。
本发明通过基于移动应用评论数据的移动应用行为检测,进一步识别恶意软件,可以对应用进行快速检测,以让用户快速了解待检测的移动应用中是否存在各类风险行为以及恶意行为特征,从而对用户使用进行有效保护。
本发明涉及自然语言处理(NLP)技术领域,实现对移动应用评论数据进行分类处理,来达到识别恶意软件的目的。NLP,Natural language Processing,自然语言处理,人工智能的一个子领域,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
以下结合附图对本发明的优选例进行详细阐述。
如图1所示,本发明对应用市场中的评论数据集进行分类,对分类后的评论根据移动互联网恶意程序行为属性分为恶意扣费、隐私窃取、远程控制、恶意传播、资费消耗、系统破坏、诱骗欺诈、流氓行为八类,并且对评论进行文本处理,获取其中关键词,通过特征属性和数据集进行分类器训练,最终建立检测模型。检测模型接收来自应用市场中用户评论可以及时反馈出该应用存在的风险。
在数据预处理方面:我们针对中文评论数据进行分类处理,使用语言探测工具Langdetect对数据进行语言限定。对于筛选出的中文评论通过jieba分词库组件完成中文分词。同时,文本中存在诸如“啊”,“这”等此类无效词,通过引入停用词表将它们从文本中删除。
在特征提取方面:经过数据处理后的文档采用空间向量模型,把文档用向量来表示,然后使用tf-idf权重去计算每一个词组在文档向量中的权重,比较词组权重的大小,获得相应的特征,即关键词,并过滤存在同义词现象的关键词。
在分类模型方面:考虑朴素贝叶斯模型,通过单独查看每个特征来学习参数,并从特征中收集简单的类别统计数据。方法如下:
①设x={a1,a2,...,am}为一个待分类项,a1,a2,...,am分别是x的m个特征属性。
②一个有类别集合C={y1,y2,...,yn},y1,y2,...,yn分别是类别集合C中的n个类别。
③计算P(y1|x),P(y2|x),...,P(yn|x)。
④如果P(yk|x)=max{P(y1|x),P(y2|x),...,P(yn|x)},则x∈yk。其中yk表示类别集合C中任一个类别。
具体实施方式如下:首先第一步:从GooglePlay应用市场中获取用户评论数据,根据搜集到的数据情况确定分为八个类别:恶意扣费、隐私窃取、远程控制、恶意传播、资费消耗、系统破坏、诱骗欺诈、流氓行为。将评论数据一分为二,一部分构造分类器,一部分检测模型的准确率。由人工对一部分数据进行分类,运用Cohen’s kappa系数来衡量评估者之间对于分类项目的准确率,保证分类的一致性。
然后第二步:对于评论数据A,假设其类别为a,然后使用Langdetect工具对评论数据A限定为中文评论,通过组件jieba对中文评论进行分词,词语之间以空格分开,例如评论数据同时引入停用词表删除诸如“啊”,“这”,标点符号等此类无效词。例如,对于某一条评论“后台偷跑,消耗40%以上的电量。”,判断其类别为系统破坏,分词后结果为[后台偷跑,消耗40%以上的电量。],删除无效词后结果为[后台偷跑消耗以上电量]。
第三步:采用向量空间模型中tf-idf算法计算每个词组在文档向量中的权重,比较词组权重大小,按权重从大到小排列,获得关键词。所述获取到的关键词具有很好的类别区分能力,可以作为该类别的特征属性。
计算公式:TF-IDF=TF*IDF
其中,TF词频表示词条在文档d中出现的频率;IDF逆向文件频率表示是一个词语普遍重要性的度量,如果包含词条t的文档越少,IDF越大,则说明词条t具有很好的类别区分能力。词频(term frequency,TF)公式为:对第i个词语ti来说,
以上式子中ni,j是该词ti在第j个文件dj中的出现次数,而分母则是在文件dj中所有词语的出现次数之和,nk,j表示文件dj中第k个词语在文件dj中出现的次数,tfi,j表示该词ti在文件dj中的词频;
IDF表示逆向文件频率(invert document frequency,IDF),由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到:
其中,idfi表示该词ti的逆向文件频率;
|D|:语料库中文件总数;
|{j:ti∈dj}|:包含该词ti的文件数目;
tf-idf算法过滤常见词语,保留下来的重要词语(关键词),通过同义词词典对数据进一步清洗。
以上三步为准备工作阶段,输入的是一部分的评论数据,输出则是带有类别标签的评论数据样本和关键词。数据样本是从应用市场获取评论,并对其进行分类。关键词指可以代表类别的特征属性。
第四步:计算每个类别在训练样本中的出现频率和每个特征属性对每个类别的条件概率,记录结果。已知有类别集合C={y1,y2,...,yn},且设x={a1,a2,...,am}为一个待分类项,可以得出:
各个属性特征条件独立,可以推导出:
又P(x)对于所有类别来说数值相同,不需要考虑分母情况,优选P(x)为常数,则其中yi表示第i个类别,aj表示第j个待分类项,m表示待分类项的总个数。
如果P(yk|x)=max{P(y1|x),P(y2|x),...,P(yn|x)},则x∈yk。
以上由程序自动计算完成,输出是分类器。
最后使用分类器对待分类项进行分类,得出待分类项与类别之间的映射关系,并进一步得出待分类项的风险识别。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种基于移动应用评论数据的恶意软件识别方法,其特征在于,包括:
数据处理步骤:获取移动应用市场中的评论数据集,定义分类类别,对评论数据集进行筛选,得到评论关键词;
数据训练步骤:基于评论关键词确定特征属性,对特征属性进行分类类别划分后,得到训练样本,基于训练样本进行分类器训练,建立检测模型;
数据检测步骤:检测模型接收用户评论,计算特征属性在各分类类别的条件概率值,得出移动应用的风险识别。
2.根据权利要求1所述的基于移动应用评论数据的恶意软件识别方法,其特征在于,所述数据处理步骤包括:
数据获取步骤:获取移动应用市场中的评论数据集,将评论数据集分成两部分,分别记为第一评论数据、第二评论数据,基于第一评论数据、第二评论数据定义分类类别;
数据分类步骤:将第一评论数据基于分类类别进行分类,得到第一评论数据的所属类别,运用kappa系数校正所属类别的准确率;
数据筛选步骤:采用语言探测工具对第一评论数据进行语言限定后,采用分词组件对第一评论数据进行分词计算,保留第一评论数据中的有效词,删除第一评论数据中的无效词,得到第三评论数据;
关键词获得步骤:将第三评论数据用文档向量表示,采用向量空间模型计算每个有效词在文档向量中的权重,将各有效词按照所述权重的从大到小进行排列,得到评论关键词。
3.根据权利要求2所述的基于移动应用评论数据的恶意软件识别方法,其特征在于,所述数据训练步骤包括:
类别划分步骤:基于评论关键词确定特征属性,参考朴素贝叶斯模型,进行分类类别划分,得到训练样本;
模型建立步骤:计算各分类类别在训练样本中的出现频率,得到样本类别频率,计算各特征属性对各分类类别的条件概率,得到属性条件概率,基于样本类别频率和属性条件概率建立检测模型。
4.根据权利要求2所述的基于移动应用评论数据的恶意软件识别方法,其特征在于,所述数据检测步骤包括:
类别频率计算步骤:基于评论关键词计算第三评论数据在各分类类别中出现的频率,记为评论类别频率;
条件概率计算步骤:基于评论类别频率,计算各特征属性在各分类类别中出现的条件概率值,取条件概率值的最大值作为条件概率,基于所述条件概率的分类类别进行风险识别。
5.一种基于移动应用评论数据的恶意软件识别系统,其特征在于,包括:
数据处理模块:获取移动应用市场中的评论数据集,定义分类类别,对评论数据集进行筛选,得到评论关键词;
数据训练模块:基于评论关键词确定特征属性,对特征属性进行分类类别划分后,得到训练样本,基于训练样本进行分类器训练,建立检测模型;
数据检测模块:检测模型接收用户评论,计算特征属性在各分类类别的条件概率值,得出移动应用的风险识别。
6.根据权利要求5所述的基于移动应用评论数据的恶意软件识别系统,其特征在于,所述数据处理模块包括:
数据获取模块:获取移动应用市场中的评论数据集,将评论数据集分成两部分,分别记为第一评论数据、第二评论数据,基于第一评论数据、第二评论数据定义分类类别;
数据分类模块:将第一评论数据基于分类类别进行分类,得到第一评论数据的所属类别,运用kappa系数校正所属类别的准确率;
数据筛选模块:采用语言探测工具对第一评论数据进行语言限定后,采用分词组件对第一评论数据进行分词计算,保留第一评论数据中的有效词,删除第一评论数据中的无效词,得到第三评论数据;
关键词获得模块:将第三评论数据用文档向量表示,采用向量空间模型计算每个有效词在文档向量中的权重,将各有效词按照所述权重的从大到小进行排列,得到评论关键词。
7.根据权利要求6所述的基于移动应用评论数据的恶意软件识别系统,其特征在于,所述数据训练模块包括:
类别划分模块:基于评论关键词确定特征属性,参考朴素贝叶斯模型,进行分类类别划分,得到训练样本;
模型建立模块:计算各分类类别在训练样本中的出现频率,得到样本类别频率,计算各特征属性对各分类类别的条件概率,得到属性条件概率,基于样本类别频率和属性条件概率建立检测模型。
8.根据权利要求6所述的基于移动应用评论数据的恶意软件识别系统,其特征在于,所述数据检测模块包括:
类别频率计算模块:基于评论关键词计算第三评论数据在各分类类别中出现的频率,记为评论类别频率;
条件概率计算模块:基于评论类别频率,计算各特征属性在各分类类别中出现的条件概率值,取条件概率值的最大值作为条件概率,基于所述条件概率的分类类别进行风险识别。
9.根据权利要求1所述的基于移动应用评论数据的恶意软件识别方法或者根据权利要求5所述的基于移动应用评论数据的恶意软件识别系统,其特征在于,所述分类类别主要包括恶意扣费、隐私窃取、远程控制、恶意传播、资费消耗、系统破坏、诱骗欺诈、流氓行为。
10.根据权利要求2所述的基于移动应用评论数据的恶意软件识别方法或者根据权利要求6所述的基于移动应用评论数据的恶意软件识别系统,其特征在于,所述语言探测工具采用语言探测工具Langdetect,所述分词组件采用jieba分词库组件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811466838.4A CN109583208A (zh) | 2018-12-03 | 2018-12-03 | 基于移动应用评论数据的恶意软件识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811466838.4A CN109583208A (zh) | 2018-12-03 | 2018-12-03 | 基于移动应用评论数据的恶意软件识别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109583208A true CN109583208A (zh) | 2019-04-05 |
Family
ID=65926639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811466838.4A Pending CN109583208A (zh) | 2018-12-03 | 2018-12-03 | 基于移动应用评论数据的恶意软件识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109583208A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334180A (zh) * | 2019-06-05 | 2019-10-15 | 南京航空航天大学 | 一种基于评论数据的移动应用安全性评估方法 |
CN112364165A (zh) * | 2020-11-12 | 2021-02-12 | 上海犇众信息技术有限公司 | 一种基于中文隐私政策条款的自动分类方法 |
CN114491051A (zh) * | 2022-04-02 | 2022-05-13 | 四川省大数据中心 | 一种建筑用地项目审批系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573046A (zh) * | 2015-01-20 | 2015-04-29 | 成都品果科技有限公司 | 一种基于词向量的评论分析方法及系统 |
CN107391792A (zh) * | 2017-06-14 | 2017-11-24 | 深圳市金证科技股份有限公司 | 一种静态停车资源的模拟方法及系统 |
CN107463935A (zh) * | 2016-06-06 | 2017-12-12 | 工业和信息化部电信研究院 | 应用分类方法和应用分类装置 |
CN108804651A (zh) * | 2018-06-07 | 2018-11-13 | 南京邮电大学 | 一种基于强化贝叶斯分类的社交行为检测方法 |
-
2018
- 2018-12-03 CN CN201811466838.4A patent/CN109583208A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573046A (zh) * | 2015-01-20 | 2015-04-29 | 成都品果科技有限公司 | 一种基于词向量的评论分析方法及系统 |
CN107463935A (zh) * | 2016-06-06 | 2017-12-12 | 工业和信息化部电信研究院 | 应用分类方法和应用分类装置 |
CN107391792A (zh) * | 2017-06-14 | 2017-11-24 | 深圳市金证科技股份有限公司 | 一种静态停车资源的模拟方法及系统 |
CN108804651A (zh) * | 2018-06-07 | 2018-11-13 | 南京邮电大学 | 一种基于强化贝叶斯分类的社交行为检测方法 |
Non-Patent Citations (1)
Title |
---|
张家旺 等: "基于机器学习算法的Android 恶意程序检测系统", 《计算机应用研究》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334180A (zh) * | 2019-06-05 | 2019-10-15 | 南京航空航天大学 | 一种基于评论数据的移动应用安全性评估方法 |
CN110334180B (zh) * | 2019-06-05 | 2023-03-31 | 南京航空航天大学 | 一种基于评论数据的移动应用安全性评估方法 |
CN112364165A (zh) * | 2020-11-12 | 2021-02-12 | 上海犇众信息技术有限公司 | 一种基于中文隐私政策条款的自动分类方法 |
CN114491051A (zh) * | 2022-04-02 | 2022-05-13 | 四川省大数据中心 | 一种建筑用地项目审批系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109471944A (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
CN107292349A (zh) | 基于百科知识语义增强的零样本分类方法、装置 | |
CN109583208A (zh) | 基于移动应用评论数据的恶意软件识别方法和系统 | |
WO2022121163A1 (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
CN113254655B (zh) | 文本分类方法、电子设备及计算机存储介质 | |
CN111581956A (zh) | 基于bert模型和k近邻的敏感信息识别方法及系统 | |
Mestry et al. | Automation in social networking comments with the help of robust fasttext and cnn | |
Shoohi et al. | DCGAN for Handling Imbalanced Malaria Dataset based on Over-Sampling Technique and using CNN. | |
CN108920446A (zh) | 一种工程文本的处理方法 | |
Parwita et al. | Classification of mobile application reviews using word embedding and convolutional neural network | |
Kornish et al. | Malware classification using deep convolutional neural networks | |
CN106599824A (zh) | 一种基于情感对的gif动画情感识别方法 | |
Raja et al. | Fake news detection on social networks using Machine learning techniques | |
Aljofey et al. | A supervised learning model for detecting Ponzi contracts in Ethereum Blockchain | |
KR102166390B1 (ko) | 비정형 데이터의 모델링 방법 및 시스템 | |
Dass et al. | Cyberbullying detection on social networks using LSTM model | |
CN103034657B (zh) | 文档摘要生成方法和装置 | |
Arshad et al. | Multi-class text classification: Model comparison and selection | |
CN109344397A (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
CN111341404B (zh) | 一种基于ernie模型的电子病历数据组解析方法及系统 | |
Lapertot et al. | Supervised Learning of Hierarchical Image Segmentation | |
Meng et al. | A survey on machine learning-based detection and classification technology of malware | |
CN110968685B (zh) | 商品名称的归集方法和装置 | |
CN113761123A (zh) | 关键词获取的方法、装置、计算设备和存储介质 | |
Samalo et al. | Improved Model for Identifying the Cyberbullying based on Tweets of Twitter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190405 |