CN114707617B - 一种获取pkg簇的数据处理系统 - Google Patents

一种获取pkg簇的数据处理系统 Download PDF

Info

Publication number
CN114707617B
CN114707617B CN202210606332.9A CN202210606332A CN114707617B CN 114707617 B CN114707617 B CN 114707617B CN 202210606332 A CN202210606332 A CN 202210606332A CN 114707617 B CN114707617 B CN 114707617B
Authority
CN
China
Prior art keywords
pkg
list
cluster
initial
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210606332.9A
Other languages
English (en)
Other versions
CN114707617A (zh
Inventor
李浩川
叶新江
尹雅露
陈志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Merit Interactive Co Ltd
Original Assignee
Merit Interactive Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Merit Interactive Co Ltd filed Critical Merit Interactive Co Ltd
Priority to CN202210606332.9A priority Critical patent/CN114707617B/zh
Publication of CN114707617A publication Critical patent/CN114707617A/zh
Application granted granted Critical
Publication of CN114707617B publication Critical patent/CN114707617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Abstract

本发明涉及pkg处理技术领域,尤其是一种获取pkg簇的数据处理系统,所述系统包括:初始pkg列表、初始pkg列表中每一初始pkg对应的初始标签列表、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:根据初始pkg列表和初始pkg列表中每一初始pkg对应的初始标签列表,获取第一样本pkg列表和第二样本pkg列表;对第一样本pkg列表进行处理,获取到中间pkg簇列表;当任一中间pkg簇对应的pkg数量与第一pkg数量阈值和第二pkg数量阈值继续比对,获取目标pkg簇;可知,能够根据无标签的pkg和有标签的pkg通过聚类的方式,获取到目标pkg簇,以将目标pkg簇发送至用,实现对pkg的模糊化,提高pkg文件信息的安全性。

Description

一种获取pkg簇的数据处理系统
技术领域
本发明涉及pkg处理技术领域,尤其涉及一种获取pkg簇的数据处理系统。
背景技术
随着普及电子设备的应用,每一电子设备涉及信息安全问题,在当前的网络环境下,信息安全越来越受到重视。当前,大部分电子设备安装了大量APP,这些APP多少用于生活或者工作等场景的使用,因此每个APP都涉及到信息,进而会产生泄露信息或者恶意传播信息等恶意行为影响到信息安全,尤其是在安装APP时必然存在安装包配置文件,简称pkg文件,pkg文件是获取信息的源头之一,但是现有技术中,对于信息安全的技术方案均是通过多信息加密或者多信息传输过程中加密,很少有技术方案涉及提高pkg文件信息的安全性,因此,导致pkg文件信息的泄露或者恶意传播,影响到电子设备的信息安全。
发明内容
针对上述技术问题,本发明采用的技术方案为一种获取pkg簇的数据处理系统,所述系统包括:初始pkg列表、初始pkg列表中每一初始pkg对应的初始标签列表、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:
S100、根据初始pkg列表和初始pkg列表中每一初始pkg对应的初始标签列表,获取第一样本pkg列表和第二样本pkg列表;
S200、对第一样本pkg列表进行处理,获取第一样本pkg列表对应的中间pkg集G={G1,……,Gj,……,Gn},Gj是指第j类目标标签对应的中间pkg列表,j=1……n,n为目标标签的类型数量;
S300、对每一Gj进行处理,获取到G对应的中间pkg簇列表H={H1,……,Hr,……,Hs},Hr是指第r个中间pkg簇,r=1……s,s为中间pkg簇的数量;
S400、当Hr对应的pkg数量等于第一pkg数量阈值时,则将Hr插入至第二样本pkg列表中,生成第三样本pkg列表;
S500、当Hr对应的pkg数量不等于第一pkg数量阈值时,则将Hr对应的pkg数量与第二pkg数量阈值进行比对;
S600、当Hr对应的pkg数量不小于第二pkg数量阈值时,则将Hr作为目标pkg簇;
S700、当Hr对应的pkg数量小于第二pkg数量阈值时,根据Hr和第三样本pkg列表,获取目标pkg簇。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种获取pkg簇的数据处理系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明提供了一种获取pkg簇的数据处理系统,所述系统包括:初始pkg列表、初始pkg列表中每一初始pkg对应的初始标签列表、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:根据初始pkg列表和初始pkg列表中每一初始pkg对应的初始标签列表,获取第一样本pkg列表和第二样本pkg列表;对第一样本pkg列表进行处理,获取第一样本pkg列表对应的中间pkg集;对中间pkg集内目标标签对应的pkg列表进行聚类处理,获取到中间pkg簇列表;当任一中间pkg簇对应的pkg数量等于第一pkg数量阈值时,则将中间pkg簇插入至第二样本pkg列表中,生成第三样本pkg列表;当任一中间pkg簇对应的pkg数量不等于第一pkg数量阈值且当任一中间pkg簇对应的pkg数量不小于第二pkg数量阈值时,则将中间pkg簇作为目标pkg簇;当任一中间pkg簇对应的pkg数量小于第二pkg数量阈值时,根据中间pkg簇和第三样本pkg列表,获取目标pkg簇;可知,能够根据无标签的pkg和有标签的pkg通过聚类的方式,获取到目标pkg簇,以将目标pkg簇发送至用,实现对pkg的模糊化,提高pkg文件信息的安全性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的一种获取pkg簇的数据处理系统的执行步骤的流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种获取目标位置的数据处理系统的具体实施方式及其功效,详细说明如后。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
本实施例提供了一种获取pkg簇的数据处理系统,所述系统包括:初始pkg列表、初始pkg列表中每一初始pkg对应的初始标签列表、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
S100、根据初始pkg列表和初始pkg列表中每一初始pkg对应的初始标签列表,获取第一样本pkg列表和第二样本pkg列表。
具体地,在S100步骤中还通过如下步骤确定第一样本pkg和第二样本pkg:
S101、获取初始pkg列表A={A1,……,Ai,……,Am},Ai是指第i个初始pkg,i=1……m,m为初始pkg数量。
进一步地,在A中所有的初始pkg对应同一应用平台,避免因不同应用平台导致的同一pkg具有不同的标签,导致无法准确的样本pkg聚类的情况。
S103、根据Ai,获取Ai对应的初始标签列表。
S105、当Ai对应的初始标签列表不等于null时,将Ai作为第一样本pkg,即第一样本pkg为有标签的pkg。
S107、当Ai对应的初始标签列表等于null时,将Ai作为第二样本pkg,即第二样本pkg为无标签的pkg。
优选地,本领域技术人员知晓,基于第一样本pkg构建成第一样本pkg列表的方法和基于第二样本pkg构建成第二样本pkg列表的方法,在此不再赘述;基于上述方法获取到可知第一样本pkg列表和第二样本pkg列表,可知,能够将有标签的和无标签的pkg区分出,便于后续跟进有标签的pkg构建pkg簇,在将无标签的pkg插入已知的pkg簇中,实现对大量的pkg模糊化。
S200、对第一样本pkg列表进行处理,获取第一样本pkg列表对应的中间pkg集G={G1,……,Gj,……,Gn},Gj是指第j类目标标签对应的中间pkg列表,j=1……n,n为目标标签的类型数量。
具体地,在S200步骤中还包括如下步骤:
S201、获取第一样本pkg列表中任一第一样本pkg对应的标签列表L={L1,……,Lt,……,Lk},Lt是指第一样本pkg对应的第t个初始标签,t=1……k,k为指第一样本pkg对应的初始标签的数量;
S203、基于从所述应用平台中获取Lt对应的pkg数量,获取L对应的pkg数量列表;
S205、遍历L对应的pkg数量列表且从L对应的pkg数量列表中获取最大pkg数量对应的初始标签作为第一样本pkg的目标标签;
S207、根据所有第一样本pkg的目标标签,获取到G。
上述,通过同一应用平台中任一标签的pkg数量,确定出第一样本pkg的目标标签,能够将pkg根据标签进行分类,以使得对每一分类后的pkg列表进行聚类处理,得到pkg簇。
在另一个具体的实施例中,在S200步骤中或包括如下步骤:
S201、获取第一样本pkg列表中任一第一样本pkg对应的标签列表L={L1,……,Lt,……,Lk},Lt是指第一样本pkg对应的第t个初始标签,t=1……k,k为指第一样本pkg对应的初始标签的数量;
S203、基于从所有的应用平台中获取Lt对应的pkg数量,获取L对应的pkg数量列表;
S205、遍历L对应的pkg数量列表且从L对应的pkg数量列表中获取最大pkg数量对应的初始标签作为第一样本pkg的目标标签;
S207、根据所有第一样本pkg的目标标签,获取到G。
上述,通过不同的应用平台中同一标签的pkg数量,确定出第一样本pkg的目标标签,相对于基于同一应用平台,确定出第一样本pkg的目标标签,本实施例能够更加准确的确定出目标标签,避免因应用平台自身获取的某一标签对应的pkg数量过大,导致无法准确的确定出目标标签。
S300、对每一Gj进行处理,获取到G对应的中间pkg簇列表H={H1,……,Hr,……,Hs},Hr是指第r个中间pkg簇,r=1……s,s为中间pkg簇的数量。
具体地,在S300步骤中还包括如下步骤:
S301、对每一Gj进行聚类处理,获取G对应的第一指定pkg簇集H'={H'1,……,H'j,……,H'n},H'j={H'j1,……,H'ja,……,H'jbj},H'ja是指Gj对应的第a个第一指定pkg簇,a=1……bj,bj为Gj对应的第一指定pkg簇的数量。
具体地,在S301步骤中还包括如下步骤:
S3011、获取Gj对应的向量列表G'j={G'j1,……G',……,G'},G'是指Gj中第δ个中间pkg对应的向量,δ=1……η,η为Gj内的中间pkg的数量。
S3012、获取Gj对应的初始向量列表CSj={CSj1,……,CSja,……,CSjbj},CSja是指Gj对应的第a个初始向量。
进一步地,所述初始向量是Gj中随机选取bj个向量。
S3013、根据G'和CSj,获取G'对应的相似度列表Fδ j={Fδ j1,……,Fδ ja,……,Fδ jb},Fδ ja是指G'和CSja之间的相似度;本领域技术人员知晓,任何获取向量之间的相似度的方法均属于本发明的保护范围;优选地,两个向量之间的相似度的获取方法为余弦相似度方法。
S3014、遍历Fδ j且将G'与Fδ j中最大相似度对应的初始向量进行聚类成第三指定pkg簇。
S3015、重复执行S3014步骤,获取到Gj对应的第三指定pkg簇列表。
S3016、根据Gj对应的第三指定pkg簇列表,获取Gj对应的第三指定pkg簇列表中每一第三指定pkg簇的均值向量,其中,所述均值向量是指每一pkg簇内的中心点对应的向量。
S3017、根据G'与每一第三指定pkg簇的均值向量重新聚类,获取到第四指定pkg簇列表;
S3018,重复执行S3016和S3017步骤,直到最终的指定pkg簇列表的均值向量不变且将最终的指定pkg簇列表作为H'j
S303、根据H'ja与H'ja对应的非第一指定pkg簇列表,获取中间pkg簇。
具体地,在S303步骤中还包括如下步骤:
S3031、获取H'对应的均值向量列表H0={H0 1,……,H0 σ,……,H0 μ},H0 σ是指H'对应的第σ个第一指定pkg簇的均值向量,σ=1……μ,μ为第一指定pkg簇的数量。
S3033、获取H'ja对应的向量列表,其中,H'ja对应的向量列表中包括若干个pkg对应的向量。
S3035、根据H0,H'ja对应的非第一指定pkg簇列表,其中,非第一指定pkg簇列表是指H0中除H'ja对应均值向量之外的所有第一指定pkg簇的均值向量,构建的数据列表。
S3037、根据H'ja对应的非第一指定pkg簇列表和H'ja对应的向量列表,获取到H。
进一步地,S3037步骤可以参照S3013-S3018步骤,在此不再赘述。
上述,通过每一目标标签类型中的pkg进行聚类后,再整体进行聚类,保证了聚类的准确性,进而通过聚类生成pkg簇,使得将目标pkg簇发送至用户,实现对pkg的模糊化,提高pkg文件信息的安全性。
S400、当Hr对应的pkg数量等于第一pkg数量阈值时,则将Hr插入至第二样本pkg列表中,生成第三样本pkg列表。
具体地,所述第一pkg数量阈值为1;进一步理解为:第三样本pkg列表是指将孤立的pkg插入至第二样本pkg列表中后的pkg列表。
S500、当Hr对应的pkg数量不等于第一pkg数量阈值时,则将Hr对应的pkg数量与第二pkg数量阈值进行比对。
具体地,所述第二pkg数量阈值的取值范围为3~5。
S600、当Hr对应的pkg数量不小于第二pkg数量阈值时,则将Hr作为目标pkg簇;
S700、当Hr对应的pkg数量小于第二pkg数量阈值时,根据Hr和第三样本pkg列表。
具体地,在S700步骤中还包括如下步骤:
S701、当Hr对应的pkg数量小于第二pkg数量阈值时,将Hr作为第一pkg簇且基于第一pkg簇,构建第一pkg簇列表U={U1,……,Ug,……,Uz},Ug是指第g个第一pkg簇,g=1……z,z为关键pkg簇的数量;
S703、获取第三样本pkg列表D={D1,……,Dx,……,Dq},Dx是指第x个第三样本pkg,x=2……q,q为第三样本pkg的数量;
S705、从U中获取Dx对应的第二pkg簇列表U'x={U'x1,……,U'xy,……,U'xp},U'xy是指Dx对应的第y个第二pkg簇,y=2……p,p为Dx对应的第二pkg簇的数量。
具体地,在S705步骤中还包括如下步骤:
S7051、获取Dx-1对应的第二pkg簇列表U'x-1
进一步地,当x=2时,U'1=U。
S7053、根据Dx-1和U'x-1,获取Dx-1对应的相似度列表Fx-1
进一步地,Fx-1的获取方式与Fx的获取方式一致,在此不再赘述。
S7055、遍历Fx-1且将Dx-1插入至Fx-1中最大相似度对应的第二pkg簇,获取Dx-1对应的第三pkg簇。
在另一个具体的实施例中,当Fx-1中最大相似度对应的第二pkg簇的数量大于1时,从所有的Fx-1中最大相似度对应的第二pkg簇中任选一个第二pkg簇作为Dx-1对应的第三pkg簇;能够满足多个最大相似度的情况下,选择一个pkg簇。
S7057、当Dx-1对应的第三pkg簇内的pkg数量不小于第二pkg数量阈值时,确定Dx-1对应的第三pkg簇作为目标pkg簇且将删除Dx-1对应的第三pkg簇的U'x-1作为U'x;能够同时进行确定出目标pkg簇和U'x
S7059、当Dx-1对应的第三pkg簇内的pkg数量小于第二pkg数量阈值时,将Dx-1对应的第三pkg簇保留在U'x-1内且将U'x-1作为U'x
S707、根据Dx和U'x,获取Dx对应的相似度列表Fx={Fx1,……,Fxy,……,Fxp},Fxy是指Dx与U'xy之间的相似度。
具体地,在S707步骤中,Fxy符合如下条件:
Figure 100002_DEST_PATH_IMAGE002
,其中,MKγ x是指Dx对应的向量中第γ个bit值,NKγ xy是指U' xy对应的目标向量中第γ个bit值,γ=1……φ,φ为pkg对应的向量的bit位数。
优选地,通过word2vec模型,获取到pkg对应的向量,即φ=128。
S709、根据Fxy,获取到目标pkg簇。
具体地,在S709步骤中还包括如下步骤:
S7091、遍历Fx且将Dx插入至Fx中最大相似度Fxy对应的关键pkg簇,获取Dx对应的第三pkg簇;
S7093、当Dx对应的第三pkg簇内的pkg数量不小于第二pkg数量阈值时,确定Dx对应的第三pkg簇作为目标pkg簇。
具体地,所述目标向量是指中间pkg簇内所有pkg对应的向量的均值向量;优选地,当第三样本pkg列表中任一pkg插入第一pkg簇时,保持所述中间pkg簇对应的目标向量不变,其中,第一pkg簇∈中间pkg簇,能够实现避免孤立的pkg或者无标签的pkg对pkg簇的中心点进行改变,使得pkg簇的中心点偏移,进而影响到pkg簇的准确性。
进一步的,本领域技术人员知晓,从H中获取U' xy对应的目标向量的方法,在此不再赘述。
具体地,当所述计算机程序被处理器执行时,实现还以下步骤:将目标pkg簇反馈至用户,以实现pkg的模糊化。
本实施例提供了一种获取pkg簇的数据处理系统,所述系统包括:初始pkg列表、初始pkg列表中每一初始pkg对应的初始标签列表、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:根据初始pkg列表和初始pkg列表中每一初始pkg对应的初始标签列表,获取第一样本pkg列表和第二样本pkg列表;对第一样本pkg列表进行处理,获取第一样本pkg列表对应的中间pkg集;对中间pkg集内目标标签对应的pkg列表进行聚类处理,获取到中间pkg簇列表;当任一中间pkg簇对应的pkg数量等于第一pkg数量阈值时,则将中间pkg簇插入至第二样本pkg列表中,生成第三样本pkg列表;当任一中间pkg簇对应的pkg数量不等于第一pkg数量阈值且当任一中间pkg簇对应的pkg数量不小于第二pkg数量阈值时,则将中间pkg簇作为目标pkg簇;当任一中间pkg簇对应的pkg数量小于第二pkg数量阈值时,根据中间pkg簇和第三样本pkg列表,获取目标pkg簇;可知,能够根据无标签的pkg和有标签的pkg通过聚类的方式,获取到目标pkg簇,以将目标pkg簇发送至用,实现对pkg的模糊化,提高pkg文件信息的安全性。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (5)

1.一种获取pkg簇的数据处理系统,其特征在于,所述系统包括:初始pkg列表、初始pkg列表中每一初始pkg对应的初始标签列表、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:
S100、根据初始pkg列表和初始pkg列表中每一初始pkg对应的初始标签列表,获取第一样本pkg列表和第二样本pkg列表,其中,在S100步骤中还通过如下步骤确定第一样本pkg和第二样本pkg:
S101、获取初始pkg列表A={A1,……,Ai,……,Am},Ai是指第i个初始pkg,i=1……m,m为初始pkg数量;
S103、根据Ai,获取Ai对应的初始标签列表;
S105、当Ai对应的初始标签列表不等于null时,将Ai作为第一样本pkg;
S107、当Ai对应的初始标签列表等于null时,将Ai作为第二样本pkg;
S200、对第一样本pkg列表进行处理,获取第一样本pkg列表对应的中间pkg集G={G1,……,Gj,……,Gn},Gj是指第j类目标标签对应的中间pkg列表,j=1……n,n为目标标签的类型数量,其中,在S200步骤中还包括如下步骤:
S201、获取第一样本pkg列表中任一第一样本pkg对应的标签列表L={L1,……,Lt,……,Lk},Lt是指第一样本pkg对应的第t个初始标签,t=1……k,k为指第一样本pkg对应的初始标签的数量;
S203、基于从应用平台中获取Lt对应的pkg数量,获取L对应的pkg数量列表;
S205、遍历L对应的pkg数量列表且从L对应的pkg数量列表中获取最大pkg数量对应的初始标签作为第一样本pkg的目标标签;
S207、根据所有第一样本pkg的目标标签,获取到G;
S300、对每一Gj进行处理,获取到G对应的中间pkg簇列表H={H1,……,Hr,……,Hs},Hr是指第r个中间pkg簇,r=1……s,s为中间pkg簇的数量;
S400、当Hr对应的pkg数量等于第一pkg数量阈值时,则将Hr插入至第二样本pkg列表中,生成第三样本pkg列表;
S500、当Hr对应的pkg数量不等于第一pkg数量阈值时,则将Hr对应的pkg数量与第二pkg数量阈值进行比对;
S600、当Hr对应的pkg数量不小于第二pkg数量阈值时,则将Hr作为目标pkg簇;
S700、当Hr对应的pkg数量小于第二pkg数量阈值时,根据Hr和第三样本pkg列表,获取目标pkg簇,其中,在S700步骤中还包括如下步骤:
S701、当Hr对应的pkg数量小于第二pkg数量阈值时,将Hr作为第一pkg簇且基于第一pkg簇,构建第一pkg簇列表U={U1,……,Ug,……,Uz},Ug是指第g个第一pkg簇,g=1……z,z为关键pkg簇的数量;
S703、获取第三样本pkg列表D={D1,……,Dx,……,Dq},Dx是指第x个第三样本pkg,x=2……q,q为第三样本pkg的数量;
S705、从U中获取Dx对应的第二pkg簇列表U'x={U'x1,……,U'xy,……,U'xp},U'xy是指Dx对应的第y个第二pkg簇,y=2……p,p为Dx对应的第二pkg簇的数量;
S707、根据Dx和U'x,获取Dx对应的相似度列表Fx={Fx1,……,Fxy,……,Fxp},Fxy是指Dx与U'xy之间的相似度,其中,Fxy符合如下条件:
Figure DEST_PATH_IMAGE002
,其中,MKγ x是指Dx对应的向量中第γ个bit值,NKγ xy是指U'xy对应的目标向量中第γ个bit值,γ=1……φ,φ为pkg对应的向量的bit位数;
S709、根据Fxy,获取到目标pkg簇,其中,在S709步骤中还包括如下步骤:
S7091、遍历Fx且将Dx插入至Fx中最大相似度对应的关键pkg簇,获取Dx对应的第三pkg簇;
S7093、当Dx对应的第三pkg簇内的pkg数量不小于第二pkg数量阈值时,确定Dx对应的第三pkg簇作为目标pkg簇。
2.根据权利要求1所述的获取pkg簇的数据处理系统,其特征在于,
在A中所有的初始pkg对应同一应用平台。
3.根据权利要求1所述的获取pkg簇的数据处理系统,其特征在于,在S705步骤中还包括如下步骤:
S7051、获取Dx-1对应的第二pkg簇列表U'x-1
S7053、根据Dx-1和U'x-1,获取Dx-1对应的相似度列表Fx-1
S7055、遍历Fx-1且将Dx-1插入至Fx-1中最大相似度对应的第二pkg簇,获取Dx-1对应的第三pkg簇;
S7057、当Dx-1对应的第三pkg簇内的pkg数量不小于第二pkg数量阈值时,确定Dx-1对应的第三pkg簇作为目标pkg簇且将删除Dx-1对应的第三pkg簇的U'x-1作为U'x
S7059、当Dx-1对应的第三pkg簇内的pkg数量小于第二pkg数量阈值时,将Dx-1对应的第三pkg簇保留在U'x-1内,且将U'x-1作为U'x
4.根据权利要求1所述的获取pkg簇的数据处理系统,其特征在于,所述第一pkg数量阈值为1。
5.根据权利要求1所述的获取pkg簇的数据处理系统,其特征在于,所述第二pkg数量阈值的取值范围为3~5。
CN202210606332.9A 2022-05-31 2022-05-31 一种获取pkg簇的数据处理系统 Active CN114707617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210606332.9A CN114707617B (zh) 2022-05-31 2022-05-31 一种获取pkg簇的数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210606332.9A CN114707617B (zh) 2022-05-31 2022-05-31 一种获取pkg簇的数据处理系统

Publications (2)

Publication Number Publication Date
CN114707617A CN114707617A (zh) 2022-07-05
CN114707617B true CN114707617B (zh) 2022-08-26

Family

ID=82176490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210606332.9A Active CN114707617B (zh) 2022-05-31 2022-05-31 一种获取pkg簇的数据处理系统

Country Status (1)

Country Link
CN (1) CN114707617B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2017734A2 (en) * 2007-07-17 2009-01-21 Nextair Corporation Inter-process communication at a mobile device
WO2017151515A1 (en) * 2016-02-29 2017-09-08 Palo Alto Networks, Inc. Automatically grouping malware based on artifacts
CN109670039A (zh) * 2018-11-20 2019-04-23 华南师范大学 基于三部图和聚类分析的半监督电商评论情感分析方法
CN110046586A (zh) * 2019-04-19 2019-07-23 腾讯科技(深圳)有限公司 一种数据处理方法、设备及存储介质
WO2019164293A1 (ko) * 2018-02-21 2019-08-29 주식회사 팬라인 비계층적 데이터베이스 구조를 활용한 정보 검색 방법 및 장치
WO2021082426A1 (zh) * 2019-10-29 2021-05-06 平安科技(深圳)有限公司 人脸聚类方法、装置、计算机设备及存储介质
CN113222652A (zh) * 2021-04-29 2021-08-06 西安点告网络科技有限公司 一种在线广告基础受众标签构建方法、系统、设备及存储介质
CN114021200A (zh) * 2022-01-07 2022-02-08 每日互动股份有限公司 一种用于pkg模糊化的数据处理系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348123A (zh) * 2020-12-08 2021-02-09 武汉卓尔数字传媒科技有限公司 一种用户聚类的方法、装置及电子设备
CN113891323B (zh) * 2021-12-07 2022-03-18 杭州云信智策科技有限公司 一种基于WiFi的用户标签获取系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2017734A2 (en) * 2007-07-17 2009-01-21 Nextair Corporation Inter-process communication at a mobile device
WO2017151515A1 (en) * 2016-02-29 2017-09-08 Palo Alto Networks, Inc. Automatically grouping malware based on artifacts
WO2019164293A1 (ko) * 2018-02-21 2019-08-29 주식회사 팬라인 비계층적 데이터베이스 구조를 활용한 정보 검색 방법 및 장치
CN109670039A (zh) * 2018-11-20 2019-04-23 华南师范大学 基于三部图和聚类分析的半监督电商评论情感分析方法
CN110046586A (zh) * 2019-04-19 2019-07-23 腾讯科技(深圳)有限公司 一种数据处理方法、设备及存储介质
WO2021082426A1 (zh) * 2019-10-29 2021-05-06 平安科技(深圳)有限公司 人脸聚类方法、装置、计算机设备及存储介质
CN113222652A (zh) * 2021-04-29 2021-08-06 西安点告网络科技有限公司 一种在线广告基础受众标签构建方法、系统、设备及存储介质
CN114021200A (zh) * 2022-01-07 2022-02-08 每日互动股份有限公司 一种用于pkg模糊化的数据处理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Security and Privacy in Device-to-Device (D2D) Communication: A Review;Michael Haus et al;《IEEE Communications Surveys & Tutorials》;20170109;第19卷(第2期);1054-1079页 *
基于异构嵌入式的目标检测系统的研究与设计;贾芃;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20210915;第2021年卷(第9期);I138-492页 *

Also Published As

Publication number Publication date
CN114707617A (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
Lei et al. Assessing protein similarity with Gene Ontology and its use in subnuclear localization prediction
Collin et al. Extending approximate Bayesian computation with supervised machine learning to infer demographic history from genetic polymorphisms using DIYABC Random Forest
Hanczar et al. Small-sample precision of ROC-related estimates
Zhu et al. Improving protein fold recognition by extracting fold-specific features from predicted residue–residue contacts
Scalzitti et al. Spliceator: multi-species splice site prediction using convolutional neural networks
Deznabi et al. DeepKinZero: zero-shot learning for predicting kinase–phosphosite associations involving understudied kinases
Bonidia et al. Feature extraction approaches for biological sequences: a comparative study of mathematical features
da Cruz et al. TERL: classification of transposable elements by convolutional neural networks
Armstrong et al. Uniform manifold approximation and projection (UMAP) reveals composite patterns and resolves visualization artifacts in microbiome data
Ji et al. Single-cell ATAC-seq signal extraction and enhancement with SCATE
Chen et al. Multiple classifier integration for the prediction of protein structural classes
CN112052891A (zh) 机器行为识别方法、装置、设备及计算机可读存储介质
Kouchaki et al. A signal processing method for alignment-free metagenomic binning: multi-resolution genomic binary patterns
Sherier et al. Determining informative microbial single nucleotide polymorphisms for human identification
CN114707617B (zh) 一种获取pkg簇的数据处理系统
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
CN110597977B (zh) 数据处理方法、装置、计算机设备和存储介质
Xu et al. PhosTransfer: a deep transfer learning framework for kinase-specific phosphorylation site prediction in hierarchy
CN115017311A (zh) 一种pkg簇的获取方法、计算机设备及存储介质
Toma et al. Human ancestry indentification under resource constraints--what can one chromosome tell us about human biogeographical ancestry?
Adetiba et al. Classification of eukaryotic organisms through cepstral analysis of mitochondrial DNA
Meissner et al. Prediction of turn types in protein structure by machine‐learning classifiers
Nicora et al. A semi-supervised learning approach for pan-cancer somatic genomic variant classification
EP2390811B1 (en) Identification of ribosomal DNA sequences
CN114611101B (zh) 一种获取应用软件趋势的数据处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant