CN115826992A - 一种识别异常apk的方法、电子设备及可读存储介质 - Google Patents

一种识别异常apk的方法、电子设备及可读存储介质 Download PDF

Info

Publication number
CN115826992A
CN115826992A CN202111090859.2A CN202111090859A CN115826992A CN 115826992 A CN115826992 A CN 115826992A CN 202111090859 A CN202111090859 A CN 202111090859A CN 115826992 A CN115826992 A CN 115826992A
Authority
CN
China
Prior art keywords
apk
target
abnormal
word
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111090859.2A
Other languages
English (en)
Inventor
方毅
尹祖勇
俞锋锋
吕繁荣
周琦
孙勇韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yunshen Technology Co ltd
Original Assignee
Hangzhou Yunshen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yunshen Technology Co ltd filed Critical Hangzhou Yunshen Technology Co ltd
Priority to CN202111090859.2A priority Critical patent/CN115826992A/zh
Publication of CN115826992A publication Critical patent/CN115826992A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种识别异常APK的方法、电子设备及可读存储介质,所述方法包括如下步骤:通过获取目标APK列表,根据目标APK表中APK反编译后的文件得到第一目标词列表和第二目标词列表,根据第一目标词列表和第二目标词列表,得到目标词列表并存储至样本数据库;将目标词列表任一目标词输入至第三模型,得到此目标词进行扩充得到扩充后的词向量并存储至所述样本数据库;基于所述样本数据库,确定待测APK是否为异常APK;发明的技术方案中能够保证样本数据库的中数据充足和完善,有利于提高确定异常APK的准确性,同时也优化了本数据库的中数据。

Description

一种识别异常APK的方法、电子设备及可读存储介质
技术领域
本发明涉及APK识别技术领域,特别涉及一种识别异常APK的方法、电子设备及可读存储介质。
背景技术
目前,安卓平台中针对安卓安装包(AndroidPackage,简称APK)具有很多的类型,其中异常类型的APK会对于用户产生负面效果,例如,泄漏用户信息或者插入异常插件等。
在现有的技术中,对于安装在设备中的APK,统计的异常APK有限,一方面是由于APK加密无法进行识别,另一方面由于,异常APK会不断的更新,数据库中无法满足更新后的APK识别,对用户使用造成负面效果,影响到用户的使用安全。
发明内容
为了解决现有技术的问题,通过计算出任一APK反编译后的文本中关键对应的TF值和textrank值,并基于TF值和textrank值筛选出目标词用于扩展若干关联词,将关联词和目标词存储值样本数据库中,保证样本数据库的中数据充足和完善,有利于提高确定异常APK的准确性,同时也优化了本数据库的中数据;本发明实施例提供了一种识别异常APK的方法、电子设备及可读存储介质。所述技术方案如下:
一方面,一种识别异常APK的方法,所述方法包括如下步骤:
S101、获取目标APK列表A=(A1,A2,A3,……,Am),其中,Ai是指第i个目标APK,m为目标APK数量;
S103、根据Ai对应的目标文本Di,得到Ai对应的目标关键词列表(Ai1,Ai2,Ai3,……,Aiz),Air是指第r个目标关键词,r=1……z,z为关键词数量;
S105、根据Di,得到第一目标列表B=(B1,B2,B3,……,Bλ)和第二目标列表
Figure BDA0003267404650000021
其中,Bx是指第x个第一目标词,x=1……λ,λ为第一目标词数量,
Figure BDA0003267404650000022
是指第y个第二目标词,y=1……γ,γ为第二目标词数量;
S107、根据B和
Figure BDA0003267404650000023
得到样本词列表C=(C1,C2,C3,……,Cn)存储至样本词数据库,其中,Cj是指第j个样本关键词,j=1……n,n为样本关键数量;
S109、将任一Cj输入至第三模型,得到Cj对应的词向量(Cj1,Cj2,Cj3,……,Cjk)并存储至所述样本数据库,其中,Cjt是指Cj对应的第t个目标关联词,t=1……k,k为目标关联词数量;
S1011、基于所述样本数据库,确定待测APK是否为异常APK。
另一方面,一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述任一项所述识别异常APK的方法。
另一方面,一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述任一项所述识别异常APK的方法。
本发明提供的一种识别异常APK的方法、电子设备及可读存储介质,具有如下技术效果:
本发明通过获取目标APK列表,根据目标APK列表中APK反编译后的文件得到第一目标词列表和第二目标词列表,根据一目标关键词列表和第二目标词列表,得到目标词列表并存储至样本数据库;将目标词列表任一目标词输入至第三模型,得到此目标词进行扩充得到扩充后的词向量并存储至所述样本数据库;基于所述样本数据库,确定待测APK是否为异常APK;可见,发明的技术方案中保证样本数据库的中数据充足和完善,有利于提高确定异常APK的准确性,同时也优化了本数据库的中数据。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种识别异常APK的方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本实施例提供了一种识别异常APK的方法,所述方法包括如下步骤:
S101、获取目标APK列表A=(A1,A2,A3,……,Am),其中,Ai是指第i个目标APK,m为目标APK数量。
具体地,所述目标APK为具有异常标识的APK,其中,A1至Am具有相同的异常标识,能够对于同类的APK中关键词进行计算,进而通过关键词扩充样本数据库,有利于待测APK类型的确定。
S103、根据Ai对应的目标文本Di,得到Ai对应的目标关键词列表(Ai1,Ai2,Ai3,……,Aiz),Air是指第r个关键词,z为关键词数量。
在一个具体的实施例中,所述方法还包括如下方法确定Di
将Ai进行反编译处理,得到目标代码包,其中,所述目标代码包包括:若干个的目标文件,所述目标文件是指若干行的编辑代码;
将任一行的编辑代码提取的中文语料作为目标语句,并对相邻行的目标语句之间插入间隔符且对相邻的目标文件之间插入相同的间隔符,得到Di
具体地,所述目标语句包括单个字字、单个词组和一段语句中一种或者多种组合;能够有利于切词处理,避免误切词或者遗漏切词,简化了计算TF值和textrank值过程同时也提高了计算TF值和textrank值的准确性。
优选地,所述间隔符可以采用停用词库中任一停用词,例如,“/”“\”等,例如,登入/包装/……/涉及等。
具体地,本领域技术人员能够采取任意一种反编译软件进行反编译处理,对反编译过程在此不再赘述。
S105、根据Di,得到第一目标列表B=(B1,B2,B3,……,Bλ)和第二目标列表
Figure BDA0003267404650000041
其中,Bx是指第x个第一目标词,x=1……λ,λ为第一目标词数量,
Figure BDA0003267404650000042
是指第y个第二目标词,y=1……γ,γ为第二目标词数量。
其中,所述S105步骤还包括如下步骤:
将Di进行切词处理和去重处理,得到第一关键词列表T=(T1,T2,T3,……,Tp)和T对应的TF值列表S=(S1,S2,S3,……,Sp),Tα是指第α个第一关键词且Sα是指Tα对应的TF值,α=1……p,p为第一关键词数量,其中,S1≥S2≥S3≥……≥Sp
初始化B=Null且遍历S;
当α≤预设的序号阈值,将Tα插入至B。
具体地,所述第一关键词是指在对Di中目标语句采用第一切词方法进行切词并进行去重处理得到的关键词,其中,第一切词方法是指遍历Di中目标语句以停用词库中停用词作为间隔进行切词的方法,本领域技术人员可以知晓任一切词方法和去重方法得到第一关键词,在此不再赘述。
在一个具体的实施例中,当α≤预设的序号阈值且Sα=Sα+1=Sα+2=……Sα+r>Sα+r+1时,将T1对应的第一关键词至Tα+r对应的第一关键词均插入至B;能够避免遗漏关键词,保证基于关键词可以扩充出足够的关联词存储至样本词数据库中,有利于异常APK的确定。
具体地,λ=α或者α+r,r=1……p-1。
同时,相同的Di进行切词处理和去重处理,得到第二关键词列表
Figure BDA0003267404650000051
Figure BDA0003267404650000052
Figure BDA0003267404650000053
对应的textrank值列表
Figure BDA0003267404650000054
Figure BDA0003267404650000055
Figure BDA0003267404650000056
是指第β第二关键词且
Figure BDA0003267404650000057
是指
Figure BDA0003267404650000058
对应的textrank值,β=1……q,q为第二关键词数量,其中,
Figure BDA0003267404650000059
S205、初始化
Figure BDA00032674046500000510
且遍历
Figure BDA00032674046500000511
S206、当β≤所述序号阈值,将
Figure BDA00032674046500000512
插入至
Figure BDA00032674046500000513
具体地,所述第二关键词是指在对Di中目标语句采用第二切词方法进行切词并进行去重处理得到的关键词,其中,第二切词方法与第一切词方法一致或者,第二切词方法是指遍历Di中目标语句以其他停用词库中停用词作为间隔进行切词的方法,本领域技术人员可以知晓任一切词方法和去重方法得到第一关键词,在此不再赘述。
在一个具体的实施例中,当β≤预设的序号阈值且
Figure BDA00032674046500000514
Figure BDA00032674046500000515
时,将
Figure BDA00032674046500000516
对应的第二关键词至
Figure BDA00032674046500000517
对应的第二关键词均插入至
Figure BDA00032674046500000518
能够避免遗漏关键词,保证基于关键词可以扩充出足够的关联词存储至样本词数据库中,有利于异常APK的确定。
具体地,γ=β或者β+h,h=1……q-1。
S107、根据B和
Figure BDA0003267404650000061
得到样本关键词列表C=(C1,C2,C3,……,Cn)存储至样本词数据库,其中,Cj是指第j个样本关键词,j=1……n,n为样本关键词数量;
具体地,所述方法还包括如下方法确定C:
初始化C=Null且遍历B和
Figure BDA0003267404650000062
Figure BDA0003267404650000063
时,将Bx插入至C,能够通过TF-IDF值和textrank值得到关键词列表,并选取两个关键词列表的交集,提高了选词的准确率,同时减少了其他词的干扰,保证确定异常APK的准确性。
S109、将任一Cj输入至LDA模型,得到Cj对应的词向量(Cj1,Cj2,Cj3,……,Cjk)并存储至样本数据库,其中,Cjt是指Cj对应的第t个目标关联词,t=1……k,k为目标关联词数量。
具体地,所述目标关联词是指与样本关键词具有相同或者相似含义的词。
上述通过采用两种方式选取目标词,能够保证对目标词进行扩充的准确率,同时对目标词进行扩充得到词向量,提高了样本数据库中数据量和确定异常APK的准确性。
S1011、基于所述样本数据库,确定待测APK是否为异常APK。
具体地,所述S1011步骤还包括如下步骤:
获取待测APK对应的文本,所述文本包括若干待测关键词;
遍历所述样本数据库,得到待测APK对应的异常值;
当所述异常值≥预设的相似度阈值时,确定待测APK为异常APK。
具体地,所述待测APK对应的文本与目标APK对应的文本相同的方法进行确定,在此不再赘述。
具体地,本领域技术人员可以采取任一方法得到异常值,用于判断待测APK是否为异常APK,在此不再赘述。
本实施例提供了一种识别异常APK的方法,一方面能够保证样本数据库的中数据充足和完善,有利于提高确定异常APK的准确性;另一方面,避免遗漏目标词,并基于目标词进行扩展,优化了样本数据库的中数据。
本发明的实施例还提供了一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的识别异常APK的方法。
本发明实施例的计算机设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如tPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MtD和UMPC设备等,例如tPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如tPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
本发明的实施例还提供了一种计算机可读存储介质,所述存储介质可设置于电子设备之中以保存用于实现方法实施例中一种识别异常APK的方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的识别异常APK的方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种识别异常APK的方法,其特征在于,所述方法包括如下步骤:
S101、获取目标APK列表A=(A1,A2,A3,……,Am),其中,Ai是指第i个目标APK,m为目标APK数量;
S103、根据Ai对应的目标文本Di,得到Ai对应的目标关键词列表(Ai1,Ai2,Ai3,……,Aiz),Air是指第r个关键词,r=1……z,z为关键词数量;
S105、根据Di,得到第一目标列表B=(B1,B2,B3,……,Bλ)和第二目标列表
Figure FDA0003267404640000011
其中,Bx是指第x个第一目标词,x=1……λ,λ为第一目标词数量,
Figure FDA0003267404640000012
是指第y个第二目标词,y=1……γ,γ为第二目标词数量;
S107、根据B和
Figure FDA0003267404640000013
得到样本词列表C=(C1,C2,C3,……,Cn)存储至样本词数据库,其中,Cj是指第j个样本关键词,j=1……n,n为样本关键数量;
S109、将任一Cj输入至第三模型,得到Cj对应的词向量(Cj1,Cj2,Cj3,……,Cjk)并存储至所述样本数据库,其中,Cjt是指Cj对应的第t个目标关联词,t=1……k,k为目标关联词数量;
S1011、基于所述样本数据库,确定待测APK是否为异常APK。
2.根据权利要求1所述的一种识别异常APK的方法,其特征在于,所述目标APK为具有异常标识的APK。
3.根据权利要求2所述的一种识别异常APK的方法,其特征在于,A1……Am具有相同的异常标识。
4.根据权利要求1所述的一种识别异常APK的方法,其特征在于,所述方法还包括如下方法确定Di
将Ai进行反编译处理,得到目标代码包,其中,所述目标代码包包括:若干个的目标文件,所述目标文件是指若干行的编辑代码;
将任一行的编辑代码提取的中文语料作为目标语句,并对相邻行的目标语句之间插入间隔符且对相邻的目标文件之间插入相同的间隔符,得到Di
5.根据权利要求4所述的一种识别异常APK的方法,其特征在于,所述目标语句包括单个字字、单个词组和一段语句中一种或者多种组合。
6.根据权利要求4所述的一种识别异常APK的方法,其特征在于,所述间隔符可以问停用词库中任一停用词。
7.根据权利要求1所述的一种识别异常APK的方法,其特征在于,所述方法还包括如如下方法确定C:
初始化C=Null且遍历B和
Figure FDA0003267404640000021
Figure FDA0003267404640000022
时,将Bx插入至C。
8.根据权利要求1所述的一种识别异常APK的方法,其特征在于,所述方法还包括如下方法确定异常APK:
获取待测APK对应的文本,所述文本包括若干待测关键词;
遍历所述样本数据库,得到待测APK对应的异常值;
当所述异常值≥预设的相似度阈值时,确定待测APK为异常APK。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1~8中任一项所述的识别异常APK的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~8任一项所述的识别异常APK的方法。
CN202111090859.2A 2021-09-17 2021-09-17 一种识别异常apk的方法、电子设备及可读存储介质 Pending CN115826992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111090859.2A CN115826992A (zh) 2021-09-17 2021-09-17 一种识别异常apk的方法、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111090859.2A CN115826992A (zh) 2021-09-17 2021-09-17 一种识别异常apk的方法、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN115826992A true CN115826992A (zh) 2023-03-21

Family

ID=85515833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111090859.2A Pending CN115826992A (zh) 2021-09-17 2021-09-17 一种识别异常apk的方法、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115826992A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116244659A (zh) * 2023-05-06 2023-06-09 杭州云信智策科技有限公司 一种识别异常设备的数据处理方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116244659A (zh) * 2023-05-06 2023-06-09 杭州云信智策科技有限公司 一种识别异常设备的数据处理方法、装置、设备及介质
CN116244659B (zh) * 2023-05-06 2023-07-28 杭州云信智策科技有限公司 一种识别异常设备的数据处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
CN107729300B (zh) 文本相似度的处理方法、装置、设备和计算机存储介质
CN109978060B (zh) 一种自然语言要素抽取模型的训练方法及装置
CN115563287B (zh) 一种获取关联对象的数据处理系统
CN108241727A (zh) 新闻可信度评价方法及设备
CN108304377B (zh) 一种长尾词的提取方法及相关装置
Harris et al. Improved bounds and algorithms for graph cuts and network reliability
CN110852056A (zh) 一种获取文本相似度的方法、装置、设备及可读存储介质
CN106878275A (zh) 身份验证方法及装置和服务器
CN115826992A (zh) 一种识别异常apk的方法、电子设备及可读存储介质
CN110347900B (zh) 一种关键词的重要度计算方法、装置、服务器及介质
CN112052676B (zh) 一种文本内容的处理方法、计算机设备及存储介质
CN108052686B (zh) 一种摘要提取方法及相关设备
CN113177407A (zh) 数据字典的构建方法、装置、计算机设备及存储介质
CN112099870A (zh) 文档处理方法、装置、电子设备及计算机可读存储介质
CN109508390B (zh) 基于知识图谱的输入预测方法、装置和电子设备
CN117009989A (zh) 一种语言模型保护方法、装置及计算设备集群
CN114168155A (zh) 一种识别异常apk的方法、电子设备及可读存储介质
CN113805895B (zh) 一种数据库中关键词的确定方法、电子设备及存储介质
CN114817450A (zh) 关键词识别方法、装置、设备及介质
CN113805893B (zh) 一种异常apk的识别方法、电子设备及可读存储介质
CN113805894B (zh) 一种异常apk的识别方法、电子设备及可读存储介质
CN112559474A (zh) 日志处理方法和装置
CN113805892B (zh) 一种异常apk的识别方法、电子设备及可读存储介质
CN113805931B (zh) 一种确定app标签的方法、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination