CN114707617B

CN114707617B - 一种获取pkg簇的数据处理系统

Info

Publication number: CN114707617B
Application number: CN202210606332.9A
Authority: CN
Inventors: 李浩川; 叶新江; 尹雅露; 陈志勇
Original assignee: Merit Interactive Co Ltd
Current assignee: Merit Interactive Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-26
Anticipated expiration: 2042-05-31
Also published as: CN114707617A

Abstract

本发明涉及pkg处理技术领域，尤其是一种获取pkg簇的数据处理系统，所述系统包括：初始pkg列表、初始pkg列表中每一初始pkg对应的初始标签列表、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：根据初始pkg列表和初始pkg列表中每一初始pkg对应的初始标签列表，获取第一样本pkg列表和第二样本pkg列表；对第一样本pkg列表进行处理，获取到中间pkg簇列表；当任一中间pkg簇对应的pkg数量与第一pkg数量阈值和第二pkg数量阈值继续比对，获取目标pkg簇；可知，能够根据无标签的pkg和有标签的pkg通过聚类的方式，获取到目标pkg簇，以将目标pkg簇发送至用，实现对pkg的模糊化，提高pkg文件信息的安全性。

Description

一种获取pkg簇的数据处理系统

技术领域

本发明涉及pkg处理技术领域，尤其涉及一种获取pkg簇的数据处理系统。

背景技术

随着普及电子设备的应用，每一电子设备涉及信息安全问题，在当前的网络环境下，信息安全越来越受到重视。当前，大部分电子设备安装了大量APP，这些APP多少用于生活或者工作等场景的使用，因此每个APP都涉及到信息，进而会产生泄露信息或者恶意传播信息等恶意行为影响到信息安全，尤其是在安装APP时必然存在安装包配置文件，简称pkg文件，pkg文件是获取信息的源头之一，但是现有技术中，对于信息安全的技术方案均是通过多信息加密或者多信息传输过程中加密，很少有技术方案涉及提高pkg文件信息的安全性，因此，导致pkg文件信息的泄露或者恶意传播，影响到电子设备的信息安全。

发明内容

针对上述技术问题，本发明采用的技术方案为一种获取pkg簇的数据处理系统，所述系统包括：初始pkg列表、初始pkg列表中每一初始pkg对应的初始标签列表、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：

S100、根据初始pkg列表和初始pkg列表中每一初始pkg对应的初始标签列表，获取第一样本pkg列表和第二样本pkg列表；

S200、对第一样本pkg列表进行处理，获取第一样本pkg列表对应的中间pkg集G={G₁，……，G_j，……，G_n}，G_j是指第j类目标标签对应的中间pkg列表，j=1……n，n为目标标签的类型数量；

S300、对每一G_j进行处理，获取到G对应的中间pkg簇列表H={H₁，……，H_r，……，H_s}，H_r是指第r个中间pkg簇，r=1……s，s为中间pkg簇的数量；

S400、当H_r对应的pkg数量等于第一pkg数量阈值时，则将H_r插入至第二样本pkg列表中，生成第三样本pkg列表；

S500、当H_r对应的pkg数量不等于第一pkg数量阈值时，则将H_r对应的pkg数量与第二pkg数量阈值进行比对；

S600、当H_r对应的pkg数量不小于第二pkg数量阈值时，则将H_r作为目标pkg簇；

S700、当H_r对应的pkg数量小于第二pkg数量阈值时，根据H_r和第三样本pkg列表，获取目标pkg簇。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种获取pkg簇的数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明提供了一种获取pkg簇的数据处理系统，所述系统包括：初始pkg列表、初始pkg列表中每一初始pkg对应的初始标签列表、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：根据初始pkg列表和初始pkg列表中每一初始pkg对应的初始标签列表，获取第一样本pkg列表和第二样本pkg列表；对第一样本pkg列表进行处理，获取第一样本pkg列表对应的中间pkg集；对中间pkg集内目标标签对应的pkg列表进行聚类处理，获取到中间pkg簇列表；当任一中间pkg簇对应的pkg数量等于第一pkg数量阈值时，则将中间pkg簇插入至第二样本pkg列表中，生成第三样本pkg列表；当任一中间pkg簇对应的pkg数量不等于第一pkg数量阈值且当任一中间pkg簇对应的pkg数量不小于第二pkg数量阈值时，则将中间pkg簇作为目标pkg簇；当任一中间pkg簇对应的pkg数量小于第二pkg数量阈值时，根据中间pkg簇和第三样本pkg列表，获取目标pkg簇；可知，能够根据无标签的pkg和有标签的pkg通过聚类的方式，获取到目标pkg簇，以将目标pkg簇发送至用，实现对pkg的模糊化，提高pkg文件信息的安全性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的一种获取pkg簇的数据处理系统的执行步骤的流程图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种获取目标位置的数据处理系统的具体实施方式及其功效，详细说明如后。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本实施例提供了一种获取pkg簇的数据处理系统，所述系统包括：初始pkg列表、初始pkg列表中每一初始pkg对应的初始标签列表、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤，如图1所示：

S100、根据初始pkg列表和初始pkg列表中每一初始pkg对应的初始标签列表，获取第一样本pkg列表和第二样本pkg列表。

具体地，在S100步骤中还通过如下步骤确定第一样本pkg和第二样本pkg：

S101、获取初始pkg列表A={A₁，……，A_i，……，A_m}，A_i是指第i个初始pkg，i=1……m，m为初始pkg数量。

进一步地，在A中所有的初始pkg对应同一应用平台，避免因不同应用平台导致的同一pkg具有不同的标签，导致无法准确的样本pkg聚类的情况。

S103、根据A_i，获取A_i对应的初始标签列表。

S105、当A_i对应的初始标签列表不等于null时，将A_i作为第一样本pkg，即第一样本pkg为有标签的pkg。

S107、当A_i对应的初始标签列表等于null时，将A_i作为第二样本pkg，即第二样本pkg为无标签的pkg。

优选地，本领域技术人员知晓，基于第一样本pkg构建成第一样本pkg列表的方法和基于第二样本pkg构建成第二样本pkg列表的方法，在此不再赘述；基于上述方法获取到可知第一样本pkg列表和第二样本pkg列表，可知，能够将有标签的和无标签的pkg区分出，便于后续跟进有标签的pkg构建pkg簇，在将无标签的pkg插入已知的pkg簇中，实现对大量的pkg模糊化。

S200、对第一样本pkg列表进行处理，获取第一样本pkg列表对应的中间pkg集G={G₁，……，G_j，……，G_n}，G_j是指第j类目标标签对应的中间pkg列表，j=1……n，n为目标标签的类型数量。

具体地，在S200步骤中还包括如下步骤：

S201、获取第一样本pkg列表中任一第一样本pkg对应的标签列表L={L₁，……，L_t，……，L_k}，L_t是指第一样本pkg对应的第t个初始标签，t=1……k，k为指第一样本pkg对应的初始标签的数量；

S203、基于从所述应用平台中获取L_t对应的pkg数量，获取L对应的pkg数量列表；

S205、遍历L对应的pkg数量列表且从L对应的pkg数量列表中获取最大pkg数量对应的初始标签作为第一样本pkg的目标标签；

S207、根据所有第一样本pkg的目标标签，获取到G。

上述，通过同一应用平台中任一标签的pkg数量，确定出第一样本pkg的目标标签，能够将pkg根据标签进行分类，以使得对每一分类后的pkg列表进行聚类处理，得到pkg簇。

在另一个具体的实施例中，在S200步骤中或包括如下步骤：

S203、基于从所有的应用平台中获取L_t对应的pkg数量，获取L对应的pkg数量列表；

S207、根据所有第一样本pkg的目标标签，获取到G。

上述，通过不同的应用平台中同一标签的pkg数量，确定出第一样本pkg的目标标签，相对于基于同一应用平台，确定出第一样本pkg的目标标签，本实施例能够更加准确的确定出目标标签，避免因应用平台自身获取的某一标签对应的pkg数量过大，导致无法准确的确定出目标标签。

S300、对每一G_j进行处理，获取到G对应的中间pkg簇列表H={H₁，……，H_r，……，H_s}，H_r是指第r个中间pkg簇，r=1……s，s为中间pkg簇的数量。

具体地，在S300步骤中还包括如下步骤：

S301、对每一G_j进行聚类处理，获取G对应的第一指定pkg簇集H'={H'₁，……，H'_j，……，H'_n}，H'_j={H'_j1，……，H'_ja，……，H'_jbj}，H'_ja是指G_j对应的第a个第一指定pkg簇，a=1……bj，bj为G_j对应的第一指定pkg簇的数量。

具体地，在S301步骤中还包括如下步骤：

S3011、获取G_j对应的向量列表G'_j={G'_j1，……G'_jδ，……，G'_jη}，G'_jδ是指G_j中第δ个中间pkg对应的向量，δ=1……η，η为G_j内的中间pkg的数量。

S3012、获取G_j对应的初始向量列表CS_j={CS_j1，……，CS_ja，……，CS_jbj}，CS_ja是指G_j对应的第a个初始向量。

进一步地，所述初始向量是G_j中随机选取bj个向量。

S3013、根据G'_jδ和CS_j，获取G'_jδ对应的相似度列表F^δ _j={F^δ _j1，……，F^δ _ja，……，F^δ _jb}，F^δ _ja是指G'_jδ和CS_ja之间的相似度；本领域技术人员知晓，任何获取向量之间的相似度的方法均属于本发明的保护范围；优选地，两个向量之间的相似度的获取方法为余弦相似度方法。

S3014、遍历F^δ _j且将G'_jδ与F^δ _j中最大相似度对应的初始向量进行聚类成第三指定pkg簇。

S3015、重复执行S3014步骤，获取到G_j对应的第三指定pkg簇列表。

S3016、根据G_j对应的第三指定pkg簇列表，获取G_j对应的第三指定pkg簇列表中每一第三指定pkg簇的均值向量，其中，所述均值向量是指每一pkg簇内的中心点对应的向量。

S3017、根据G'_jδ与每一第三指定pkg簇的均值向量重新聚类，获取到第四指定pkg簇列表；

S3018，重复执行S3016和S3017步骤，直到最终的指定pkg簇列表的均值向量不变且将最终的指定pkg簇列表作为H'_j。

S303、根据H'_ja与H'_ja对应的非第一指定pkg簇列表，获取中间pkg簇。

具体地，在S303步骤中还包括如下步骤：

S3031、获取H'对应的均值向量列表H⁰={H⁰ ₁，……，H⁰ _σ，……，H⁰ _μ}，H⁰ _σ是指H'对应的第σ个第一指定pkg簇的均值向量，σ=1……μ，μ为第一指定pkg簇的数量。

S3033、获取H'_ja对应的向量列表，其中，H'_ja对应的向量列表中包括若干个pkg对应的向量。

S3035、根据H⁰，H'_ja对应的非第一指定pkg簇列表，其中，非第一指定pkg簇列表是指H⁰中除H'_ja对应均值向量之外的所有第一指定pkg簇的均值向量，构建的数据列表。

S3037、根据H'_ja对应的非第一指定pkg簇列表和H'_ja对应的向量列表，获取到H。

进一步地，S3037步骤可以参照S3013-S3018步骤，在此不再赘述。

上述，通过每一目标标签类型中的pkg进行聚类后，再整体进行聚类，保证了聚类的准确性，进而通过聚类生成pkg簇，使得将目标pkg簇发送至用户，实现对pkg的模糊化，提高pkg文件信息的安全性。

S400、当H_r对应的pkg数量等于第一pkg数量阈值时，则将H_r插入至第二样本pkg列表中，生成第三样本pkg列表。

具体地，所述第一pkg数量阈值为1；进一步理解为：第三样本pkg列表是指将孤立的pkg插入至第二样本pkg列表中后的pkg列表。

S500、当H_r对应的pkg数量不等于第一pkg数量阈值时，则将H_r对应的pkg数量与第二pkg数量阈值进行比对。

具体地，所述第二pkg数量阈值的取值范围为3~5。

S700、当H_r对应的pkg数量小于第二pkg数量阈值时，根据H_r和第三样本pkg列表。

具体地，在S700步骤中还包括如下步骤：

S701、当H_r对应的pkg数量小于第二pkg数量阈值时，将H_r作为第一pkg簇且基于第一pkg簇，构建第一pkg簇列表U={U₁，……，U_g，……，U_z}，U_g是指第g个第一pkg簇，g=1……z，z为关键pkg簇的数量；

S703、获取第三样本pkg列表D={D₁，……，D_x，……，D_q}，D_x是指第x个第三样本pkg，x=2……q，q为第三样本pkg的数量；

S705、从U中获取D_x对应的第二pkg簇列表U'_x={U'_x1，……，U'_xy，……，U'_xp}，U'_xy是指D_x对应的第y个第二pkg簇，y=2……p，p为D_x对应的第二pkg簇的数量。

具体地，在S705步骤中还包括如下步骤：

S7051、获取D_x-1对应的第二pkg簇列表U'_x-1。

进一步地，当x=2时，U'₁=U。

S7053、根据D_x-1和U'_x-1，获取D_x-1对应的相似度列表F_x-1。

进一步地，F_x-1的获取方式与F_x的获取方式一致，在此不再赘述。

S7055、遍历F_x-1且将D_x-1插入至F_x-1中最大相似度对应的第二pkg簇，获取D_x-1对应的第三pkg簇。

在另一个具体的实施例中，当F_x-1中最大相似度对应的第二pkg簇的数量大于1时，从所有的F_x-1中最大相似度对应的第二pkg簇中任选一个第二pkg簇作为D_x-1对应的第三pkg簇；能够满足多个最大相似度的情况下，选择一个pkg簇。

S7057、当D_x-1对应的第三pkg簇内的pkg数量不小于第二pkg数量阈值时，确定D_x-1对应的第三pkg簇作为目标pkg簇且将删除D_x-1对应的第三pkg簇的U'_x-1作为U'_x；能够同时进行确定出目标pkg簇和U'_x。

S7059、当D_x-1对应的第三pkg簇内的pkg数量小于第二pkg数量阈值时，将D_x-1对应的第三pkg簇保留在U'_x-1内且将U'_x-1作为U'_x。

S707、根据D_x和U'_x，获取D_x对应的相似度列表F_x={F_x1，……，F_xy，……，F_xp}，F_xy是指D_x与U'_xy之间的相似度。

具体地，在S707步骤中，F_xy符合如下条件：

，其中，MK^γ _x是指D_x对应的向量中第γ个bit值，NK^γ _xy是指U^' _xy对应的目标向量中第γ个bit值，γ=1……φ，φ为pkg对应的向量的bit位数。

优选地，通过word2vec模型，获取到pkg对应的向量，即φ=128。

S709、根据F_xy，获取到目标pkg簇。

具体地，在S709步骤中还包括如下步骤：

S7091、遍历F_x且将D_x插入至F_x中最大相似度F_xy对应的关键pkg簇，获取D_x对应的第三pkg簇；

S7093、当D_x对应的第三pkg簇内的pkg数量不小于第二pkg数量阈值时，确定D_x对应的第三pkg簇作为目标pkg簇。

具体地，所述目标向量是指中间pkg簇内所有pkg对应的向量的均值向量；优选地，当第三样本pkg列表中任一pkg插入第一pkg簇时，保持所述中间pkg簇对应的目标向量不变，其中，第一pkg簇∈中间pkg簇，能够实现避免孤立的pkg或者无标签的pkg对pkg簇的中心点进行改变，使得pkg簇的中心点偏移，进而影响到pkg簇的准确性。

进一步的，本领域技术人员知晓，从H中获取U^' _xy对应的目标向量的方法，在此不再赘述。

具体地，当所述计算机程序被处理器执行时，实现还以下步骤：将目标pkg簇反馈至用户，以实现pkg的模糊化。

本实施例提供了一种获取pkg簇的数据处理系统，所述系统包括：初始pkg列表、初始pkg列表中每一初始pkg对应的初始标签列表、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：根据初始pkg列表和初始pkg列表中每一初始pkg对应的初始标签列表，获取第一样本pkg列表和第二样本pkg列表；对第一样本pkg列表进行处理，获取第一样本pkg列表对应的中间pkg集；对中间pkg集内目标标签对应的pkg列表进行聚类处理，获取到中间pkg簇列表；当任一中间pkg簇对应的pkg数量等于第一pkg数量阈值时，则将中间pkg簇插入至第二样本pkg列表中，生成第三样本pkg列表；当任一中间pkg簇对应的pkg数量不等于第一pkg数量阈值且当任一中间pkg簇对应的pkg数量不小于第二pkg数量阈值时，则将中间pkg簇作为目标pkg簇；当任一中间pkg簇对应的pkg数量小于第二pkg数量阈值时，根据中间pkg簇和第三样本pkg列表，获取目标pkg簇；可知，能够根据无标签的pkg和有标签的pkg通过聚类的方式，获取到目标pkg簇，以将目标pkg簇发送至用，实现对pkg的模糊化，提高pkg文件信息的安全性。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种获取pkg簇的数据处理系统，其特征在于，所述系统包括：初始pkg列表、初始pkg列表中每一初始pkg对应的初始标签列表、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：

S100、根据初始pkg列表和初始pkg列表中每一初始pkg对应的初始标签列表，获取第一样本pkg列表和第二样本pkg列表，其中，在S100步骤中还通过如下步骤确定第一样本pkg和第二样本pkg：

S101、获取初始pkg列表A={A₁，……，A_i，……，A_m}，A_i是指第i个初始pkg，i=1……m，m为初始pkg数量；

S103、根据A_i，获取A_i对应的初始标签列表；

S105、当A_i对应的初始标签列表不等于null时，将A_i作为第一样本pkg；

S107、当A_i对应的初始标签列表等于null时，将A_i作为第二样本pkg；

S200、对第一样本pkg列表进行处理，获取第一样本pkg列表对应的中间pkg集G={G₁，……，G_j，……，G_n}，G_j是指第j类目标标签对应的中间pkg列表，j=1……n，n为目标标签的类型数量，其中，在S200步骤中还包括如下步骤：

S203、基于从应用平台中获取L_t对应的pkg数量，获取L对应的pkg数量列表；

S207、根据所有第一样本pkg的目标标签，获取到G；

S700、当H_r对应的pkg数量小于第二pkg数量阈值时，根据H_r和第三样本pkg列表，获取目标pkg簇，其中，在S700步骤中还包括如下步骤：

S705、从U中获取D_x对应的第二pkg簇列表U'_x={U'_x1，……，U'_xy，……，U'_xp}，U'_xy是指D_x对应的第y个第二pkg簇，y=2……p，p为D_x对应的第二pkg簇的数量；

S707、根据D_x和U'_x，获取D_x对应的相似度列表F_x={F_x1，……，F_xy，……，F_xp}，F_xy是指D_x与U'_xy之间的相似度，其中，F_xy符合如下条件：

，其中，MK^γ _x是指D_x对应的向量中第γ个bit值，NK^γ _xy是指U'_xy对应的目标向量中第γ个bit值，γ=1……φ，φ为pkg对应的向量的bit位数；

S709、根据F_xy，获取到目标pkg簇，其中，在S709步骤中还包括如下步骤：

S7091、遍历F_x且将D_x插入至F_x中最大相似度对应的关键pkg簇，获取D_x对应的第三pkg簇；

2.根据权利要求1所述的获取pkg簇的数据处理系统，其特征在于，

在A中所有的初始pkg对应同一应用平台。

3.根据权利要求1所述的获取pkg簇的数据处理系统，其特征在于，在S705步骤中还包括如下步骤：

S7051、获取D_x-1对应的第二pkg簇列表U'_x-1；

S7053、根据D_x-1和U'_x-1，获取D_x-1对应的相似度列表F_x-1；

S7055、遍历F_x-1且将D_x-1插入至F_x-1中最大相似度对应的第二pkg簇，获取D_x-1对应的第三pkg簇；

S7057、当D_x-1对应的第三pkg簇内的pkg数量不小于第二pkg数量阈值时，确定D_x-1对应的第三pkg簇作为目标pkg簇且将删除D_x-1对应的第三pkg簇的U'_x-1作为U'_x；

S7059、当D_x-1对应的第三pkg簇内的pkg数量小于第二pkg数量阈值时，将D_x-1对应的第三pkg簇保留在U'_x-1内，且将U'_x-1作为U'_x。

4.根据权利要求1所述的获取pkg簇的数据处理系统，其特征在于，所述第一pkg数量阈值为1。

5.根据权利要求1所述的获取pkg簇的数据处理系统，其特征在于，所述第二pkg数量阈值的取值范围为3~5。