CN115659226A

CN115659226A - 一种获取app标签的数据处理系统

Info

Publication number: CN115659226A
Application number: CN202211429031.XA
Authority: CN
Inventors: 方毅; 段永康; 朱为宁; 董霖
Original assignee: Merit Interactive Co Ltd
Current assignee: Merit Interactive Co Ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-01-31

Abstract

本发明涉及一种获取APP标签的数据处理系统，系统包括：数据库、处理器和存储有计算机程序的存储器，其中，数据库包括第一数据库和第二数据库，第一数据库包括初始APP列表和初始文本列表，第二数据库包括第一样本APP集、第二样本APP集和第三样本APP集，当计算机程序被处理器执行时，实现以下步骤：根据第一数据库获取目标词向量列表，将目标词向量输入第一神经网络模型获取第一中间标签列表，根据第一中间标签对应的标签数量分别进行标记处理，从而获取APP对应的标签。本发明提供了一种获取APP标签的新方法，通过模型训练获取样本标签并且将样本的标签进行处理，使获取到的APP标签的准确度较高。

Description

一种获取APP标签的数据处理系统

技术领域

本发明涉及APP处理技术领域，特别是涉及一种获取APP标签的数据处理系统。

背景技术

随着智能化的普及和发展，越来越多的应用软件(APP)出现在设备端的应用平台中，技术的不断创新与发展，使得应用软件的类型越来越多，每个类型下应用软件的数量也越来越多，如何对设备端应用平台中的应用软件进行清晰的分类处理成为热门研究问题，通过获取APP标签从而对APP进行精准分类，能够为用户提供更加精准化服务。

目前，现有技术中，获取APP分类的方法为：基于APP的id获取对应的描述信息，将对应的描述信息输入模型中生成向量，基于APP的id获取预设安装序列生成向量，将生成的所有向量输入到分类模型中进行APP类型的输出，以上所述获取APP类型的方法存在的问题：

一方面，因方法的局限性，APP标签简单化，使得对APP分类的精确度较低；

另一方面，因APP数量的巨大，只局限于对特定部分的APP进行分类，不能全面自动覆盖所有APP，使获取到的APP标签的准确度较低。

发明内容

针对上述技术问题，本发明采用的技术方案为：一种获取APP标签的数据处理系统，系统包括：第一数据库、处理器和存储有计算机程序的存储器，其中，第一数据库包括：初始APP列表B＝{B₁，……，B_i，……，B_m}和B对应的初始文本列表C＝{C₁，……，C_i，……，C_m}，B_i为第i个初始APP名称，C_i为B_i对应的初始APP文本，i＝1……m，m为初始APP的数量，当计算机程序被处理器执行时，实现以下步骤：

S100，根据B_i和C_i，获取B_i对应的目标词向量列表D_i＝{B⁰ _i，C⁰ _i1，……，C⁰ _ix，……，C⁰ _ip(i)}，B⁰ _i为B_i对应的第一词向量，C⁰ _ix为C_i对应的第x个第二词向量，x＝1……p(i)，p(i)为C_i对应的第二词向量的数量。

S200，将D_i输入至预设的第一神经网络模型中，获取B_i对应的第一中间标签列表D⁰ _i。

S300，当D⁰ _i＝Null时，将B_i对应的初始APP作为第一APP。

S400，当D⁰ _i≠Null且K⁰ _i≥K⁰时，将B_i对应的初始APP作为第一APP，其中，K⁰ _i为D⁰ _i对应的第一中间标签数量，K⁰为预设的标签数量阈值。

S500，当D⁰ _i≠Null且K⁰ _i＜K⁰时，将B_i对应的初始APP作为第二APP。

S600，对所述第一APP进行第一标记处理，获取第一APP对应的目标标签。

S700，对所述第二APP进行第二标记处理，获取第二APP对应的目标标签。

本发明与现有技术相比具有明显的有益效果，借由上述技术方案，本发明提供的一种获取APP标签的数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：

本发明提供了一种获取APP标签的数据处理系统，系统包括：第一数据库、处理器和存储有计算机程序的存储器，其中，第一数据库包括：初始APP列表和初始APP列表对应的初始文本列表，当计算机程序被处理器执行时，实现以下步骤：根据初始APP列表和初始APP列表对应的初始文本列表获取初始APP对应的目标词向量列表，将目标词向量输入至预设的第一神经网络模型中获取初始APP对应的第一中间标签列表，对第一中间标签进行处理获取第一APP和第二APP，分别对第一APP和第二APP进行标记处理，获取第一APP对应的目标标签和第二APP对应的目标标签，从而获取APP的标签。可知，本发明一方面，通过模型训练获取样本标签并且将样本的标签进行处理，使APP标签复杂化，使得获取到的APP标签的精确度较高；另一方面，不局限于对特定部分的APP进行分类，通过对APP采用不同的处理方式，能够全面自动覆盖到所有APP，使获取到的APP标签的准确度较高。

附图说明

图1为本发明实施例提供的一种获取APP标签的数据处理系统的执行计算机程序的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅为本发明一部分实施例，而不为全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明提供了一种获取APP标签的数据处理系统，所述系统包括：第一数据库、处理器和存储有计算机程序的存储器，其中，所述第一数据库包括：初始APP列表B＝{B₁，……，B_i，……，B_m}和B对应的初始文本列表C＝{C₁，……，C_i，……，C_m}，B_i为第i个初始APP名称，C_i为B_i对应的初始APP文本，i＝1……m，m为初始APP的数量，当所述计算机程序被处理器执行时，实现以下步骤，如图1所示：

具体的，所述初始文本为用于描述初始APP的文本。

具体的，所述系统中还包括第二数据库。

进一步的，所述第二数据库包括第一样本APP集H＝{H₁，……，H_j，……，H_n}，H_j＝{H_j1，……，H_jy，……，H_jq(j)}，H_jy为第j个应用平台对应的第y个第一样本APP信息，j＝1……n，n为APP应用平台的数量，y＝1……q(j)，q(j)为第j个APP应用平台对应的第一样本APP的数量，其中，所述第一样本APP信息包括第一样本APP名称和第一样本APP的APP文本。

具体的，在S100之前还包括如下步骤：

S1，遍历H且从H中获取H_jy对应的关键APP列表U_jy＝{U¹ _jy，……，U^e _jy，……，U^f _jy}，其中，U^e _jy为H_jy对应的第e个关键APP信息，e＝1……f，f为关键APP的数量，其中，所述关键APP信息包括关键APP名称和关键APP的APP文本，其中，每一U^e _jy中关键APP名称与H_jy中第一样本APP名称一致。

S2，根据U_jy，获取U_jy对应的文字字符数量列表SL_jy＝{SL¹ _jy，……，SL^e _jy，……，SL^f _jy}，SL^e _jy为U^e _jy对应的APP文本中字符数量。

S3，遍历SL_jy且当SL^e _jy为SL_jy中最大APP文本中字符数量时，将U^e _jy插入值B中。

上述，通过获取关键APP对应的文字字符数量最大的文本，使得获取到的APP的信息更加准确，有效的确定出APP名称和对应的APP文本，进而避免因不同的APP应用平台导致同一APP出现不同的文本对APP进行描述。

在一个具体的实施例中，在100之前还包括如下步骤：

S101，对C_i进行分词处理，获取C_i对应的第一初始词列表，其中，本领域技术人员知晓，可以根据实际需求采取现有技术中任一分词处理的方法，在此不再赘述。

S103，从C_i对应的第一初始词列表删除预设词列表中预设词，获取到C_i对应的第二初始词列表，其中，本领域技术人员知晓，根据实际需求设置预设词列表，例如，预设词为“的”、“得”等，在此不再赘述。

S105，将C_i对应的第二初始词列表中任一第二初始词输入至词嵌入模型中，获取第二词向量。

进一步的，B_i和C_i的向量维度一致，本领域技术人员知晓，根据实际需求确定任一词嵌入模型获取初始APP名称对应的词向量和初始APP文本中任一词与对应的词向量，在此不再赘述。

具体的，所述第二数据库还包括第二样本APP集，其中，所述第二样本APP集合中每一第二样本APP信息包括：第二样本APP名称、第二样本APP名称的APP文本和第二样本APP名称对应的APP标签列表。

具体的，在S200中通过如下步骤获取第一神经网络模型：

S201，根据所述第二样本APP集，获取所述第二样本APP集对应的第一样本词向量。

具体的，所述获取第一样本词向量的方式与获取目标词向量的方式一致。

上述，通过采用相同的获取词向量的方式，能够保证获取到的第一样本词向量和目标词向量的表示方式一致，为后续进行APP分类提供有效的数据，使得获取到的APP标签的准确度较高。

S203，将所述第二样本APP集对应的第一样本词向量集作为训练数据集输入至预设的第一初始神经网络模型中，获取到所述第二样本APP集对应的样本标签集，其中，所述样本标签集包括第二样本APP名称对应的第一样本标签列表，其中，本领域技术人员知晓训练神经网络模型的过程，在此不再赘述。

S205，根据所述第二样本APP名称对应的第一样本标签列表和第二样本APP名称对应的APP标签列表，获取到第一神经网络模型。

上述，通过APP名称和APP文本训练神经网络模型进而获取到第一神经网络模型，能够准确的确定出APP标签，进而准确的获取到无文本描述的APP类型。

S300，当D⁰ _i＝Null时，将B_i对应的初始APP作为第一APP。

具体的，所述预设的标签数量阈值K⁰的取值范围为1～3，其中，本领域技术人员知晓，根据实际需求进行K⁰的选取，在此不再赘述。

上述，基于第一神经网络模型获取到的标签数量过多的APP，将标签数量过多的APP进行进一步的确定APP标签，使得APP获取到更加准确的标签，进而准确的获取到无文本描述的APP类型。

上述，能够通过初始APP名称和初始APP文本，准确的确定出APP的初始APP的标签，进而基于初始APP的标签，准确的获取到无文本描述的APP类型。

具体的，所述第一标记处理为通过标记员对APP进行标记标签的处理。

具体的，在S700中还包括如下步骤：

S701，根据任一第二APP对应的第一中间标签列表，获取第二APP对应的第二中间标签列表G＝{G₁，……，G_r，……，G_s}，G_r为第二APP对应的第r个第二中间标签，r＝1……s，s为第二APP对应的中间标签的数量。

S703，获取预设APP标签列表G⁰＝{G⁰ ₁，……，G⁰ _t，……，G⁰ _g}，G⁰ _t为第t个预设APP标签，t＝1……g，g为预设APP标签的数量，其中，预设APP标签为预设的表征虚拟现实的APP对应的标签。

S705，当G_r≠G⁰ _t时，将第二APP对应的第一中间标签作为第二APP对应的目标标签。

S707，当G_r＝G⁰ _t时，将第二APP对应的目标词向量列表输入至预设的第二神经网络模型，获取所述第二APP对应的第三中间标签列表。

具体的，所述第二数据库还包括第三样本APP集。

进一步的，所述第三样本APP集合中每一第三样本APP信息包括：第三样本APP名称、第三样本APP名称的APP文本和第三样本APP名称对应的APP标签列表，其中，所述第三样本APP为表征虚拟现实的APP。

具体的，在S707中通过如下步骤获取第二神经网络模型：

S7071，根据第三样本APP集，获取所述第三样本APP集对应的第二样本词向量。

具体的，所述获取第二样本词向量的方式与获取目标词向量的方式一致。

上述，通过采用相同的获取词向量的方式，能够保证获取到的第二样本词向量和目标词向量的表示方式一致，为后续进行APP分类提供有效的数据，使得获取到的APP标签的准确度较高。

S7073，将所述第三样本APP集对应的第二样本词向量作为训练数据集输入至预设的第二初始神经网络模型中，获取到所述第三样本APP集对应的第二样本标签集，所述第二样本标签集包括第三样本APP名称对应的第二样本标签列表，其中，本领域技术人员知晓训练神经网络模型的过程，在此不再赘述。

S7075，根据所述第三样本APP名称对应的第二样本标签列表和第三样本APP名称对应的APP标签列表，获取到第二神经网络模型。

上述，通过模型训练获取第二神经网络模型，能够大规模并行处理数据，能够实现自主学习处理不同信息，使得获取到的APP标签的准确度较高。

S709，将所述第二APP对应的第三中间标签列表中第三中间标签作为第二APP对应的目标标签。

上述，对于表征虚拟现实的APP需要通过单独的神经网络模型获取标签，避免因采用同一神经网络模型，无法准确的确定出此类APP的标签，导致无法准确的获取到无文本描述的APP类型，通过对虚拟现实的APP进行进一步的标签处理，进而生成对虚拟现实的APP更加准确的标签，进而准确的获取到无文本描述的APP类型。

具体的，在所述系统中，当所述计算机程序被处理器执行时，还实现以下步骤：

S800，根据第一APP对应的目标标签和第二APP对应的目标标签，获取B对应的目标标签集D'＝{D'₁，……，D'_i，……，D'_m},D'_i为B_i对应的目标标签列表。

上述，通过APP名称和APP文本准确的获取到APP的标签，以使得根据APP的标签，对文本描述的APP进行分类，使得APP应用平台中大部分APP具有标签。

S900，基于D'_i，获取B对应的最终标签集D”＝{D”₁，……，D”_i，……，D”_m}，D”_i为B_i对应的最终标签列表。

具体的，在S900中还包括如下步骤：

S910，获取B中的目标APP，标记员对目标APP进行标记标签的处理。

具体的，当DN＞N₀且WP＞N₁时，获取APP为目标APP，其中，DN为APP的安装量，所述安装量为安装APP的设备数量，WP为APP的留存率，N₀为预设的安装量阈值，N₁为预设的留存率阈值。

具体的，WP符合如下条件：

其中US_M为登录APP后至第M天至少登录过一次APP的用户数，US₁为第一天第一次登录APP的用户数。

具体的，所述预设的安装量阈值N₀的取值范围为1×10⁸～2×10⁸，其中，本领域技术人员知晓，根据实际需求进行N₀的选取，在此不再赘述。

具体的，所述预设的留存率阈值N₁的取值范围为30％～40％，其中，本领域技术人员知晓，根据实际需求进行N₁的选取，在此不再赘述。

进一步的，当目标APP对应的文本中存在目标标签未包含的标签时，需要标记员进行标记处理。

上述，通过标记员对目标APP手动标注，能够确保APP信息的准确性，同时确保APP标签的全面性，从而使获取到的APP标签的准确度较高。

具体的，所述系统还包括第三数据库，进一步的，所述第三数据库包括非样本APP集合，其中，所述非样本APP集为原始APP集中除所述样本APP集之外的APP集合。

具体的，当所述计算机程序被处理器执行时，实现以下步骤：

S10，从所述非样本APP集中获取第一非样本APP列表FA＝{FA₁，……，FA_α，……，FA_λ}和第二非样本APP列表FB＝{FB₁，……，FB_β，……，FB_γ}，FA_α为第α个第一非样本APP信息，α＝1……λ，λ为第一非样本APP的数量，FB_β为第β个第二非样本APP信息，β＝1……γ，γ为第二非样本APP的数量。

具体的，所述第一非样本APP信息包括第一非样本APP名称且不包括第一非样本APP的APP文本和第一非样本APP的pkg名称。

具体的，所述第二非样本APP信息包括第二非样本APP的pkg名称且不包括第二非样本APP的APP文本和第二非样本APP的名称。

S20，根据FA_α和B_i，获取FA_α对应的最终标签列表；

具体的，在S20中还包括如下步骤：

S210，根据FA和B，获取FA对应的第一相似度列表F＝{F₁，……，F_α，……，F_λ}，F_α＝{F¹ _α，……，Fⁱ _α，……，F^m _α}，Fⁱ _α为FA_α和B_i之间的第一相似度。

具体的，在S210之前还包括如下步骤：

S2101，获取FA_α对应的第一中间字符串。

S2103，遍历FA_α对应的第一中间字符串且将FA_α对应的第一中间字符串中非中文字符删除，获取FA_α对应的第二中间字符串。

S2105，根据FA_α对应的第二中间字符串，获取FA_α对应的第一中间词向量。

S2107，根据FA_α对应的第一中间词向量和B⁰ _i，获取Fⁱ _α，本领域技术人员可以实际需求确定获取向量之间的相似度方法，例如，向量之间的余弦相似度，在此不再赘述。

上述，将APP中涉及非中文的词删除，避免影响到APP名称之间相似度的准确性，进而可以准确的确定出此类APP的标签，以使得准确的获取到无文本描述的APP类型。

S230，当Fⁱ _α为最大的第一相似度且Fⁱ _α≥F⁰ ₁时，将D'_i作为FA_α对应的最终标签列表，其中，F⁰ ₁为预设的第一相似度阈值。

具体的，所述预设的第一相似度阈值F⁰ ₁的取值范围为0.8～0.9，本领域技术人员根据实际需求设置第一相似度阈值，在此不再赘述。

S250，当Fⁱ _α为最大的第一相似度且Fⁱ _α＜F⁰ ₁时，根据B_i和C_i，获取FA_α对应的最终标签列表。

具体的，在S250中，还包括如下步骤：

S2501，获取C_i对应的第二初始词列表。

S2503，根据C_i对应的第二初始词列表，获取C_i对应的第二初始词列表中任一关键词的优先级YX^v _i,其中，

其中，η^v _i为C_i对应的第二初始词列表中第v个第二初始词在C_i中出现的次数，λ^v _i为C_i对应的第二初始词列表中第v个第二初始词在B和C中出现的总次数，μ^v _i为在D'_i对应的目标标签中B_i的数量。

S2507，当YX^v _i≥YX⁰时，将YX^v _i对应的第二初始词作为D'_i的关键词，其中，YX⁰为关键词的优先级阈值，本领域技术人员知晓，根据实际需求设置关键词优先级的阈值，在此不再赘述。

S2509，根据D'_i的关键词与FA_α之间的相似度，获取FA_α对应的最终标签列表；可以理解为：将D'_i的关键词转化成D'_i的关键词向量，根据D'_i的关键词向量与FA_α对应的第一中间词向量，获取D'_i的关键词与FA_α之间的相似度，当D'_i的关键词与FA_α之间的相似度不小于第一相似度阈值时，基于D'_i的关键词在D'中对应的所有目标标签，构建FA_α对应的最终标签列表。

上述，能够避免因无文本描述的APP名称无法匹配时，导致无法获取到无文本描述的APP的标签，提高了获取无文本描述的APP的标签的准确性和范围。

S30，根据FB_β和Q_i，获取FB_β对应的最终标签列表。

具体的，在S30中还包括如下步骤：

S310,根据FB和Q，获取FB对应的第二相似度列表F'＝{F'₁，……，F'_β，……，F'_γ},F'_β＝{F'¹ _β，……，F'ⁱ _β，……，F'^m _β}，F'ⁱ _β为FB_β和Q_i之间的第二相似度。

具体的，所述获取第二相似度列表的方式与获取第一相似度列表的方式一致。

S330，当F'ⁱ _β为最大的第二相似度且F'ⁱ _β≥F⁰ ₂时，将D'_i作为FB_β对应的最终标签列表，其中，F⁰ ₂为预设的第二相似度阈值。

具体的，所述预设的第二相似度阈值F⁰ ₂的取值范围为0.8～0.9，本领域技术人员根据实际需求设置第二相似度阈值，在此不再赘述。

S350，当Fⁱ _α为最大的第二相似度且Fⁱ _α＜F⁰ ₂时，未生成FB_β对应的最终标签列表。

在另一个具体的实施例中，所述非样本APP集合中还包括第三非样本APP列表，其中，所述第三非样本APP信息包括第三非样本APP名称和第三非样本APP的pkg名称且不包括APP文本，当所述计算机程序被处理器执行时，实现以下步骤：

S'1，根据第三非样本APP名称与B，确定出第三非样本APP对应的最终标签列表，其中，根据第三非样本APP名称与B，确定出第三非样本APP对应的最终标签列表的方法与S40一致，在此不再赘述。

S'2，当第三非样本APP名称与D'_i的关键词之间的相似度小于第一相似度阈值时，根据第三非样本APP的pkg名称与Q，确定出第三非样本APP对应的最终标签列表，其中，根据第三非样本APP的pkg名称与Q，确定出第三非样本APP对应的最终标签列表的方法与S50一致，在此不再赘述。

上述，通过对不同的APP采用不同的处理方式，能够全面自动覆盖到所有APP，使获取到的APP类型的准确度较高。

S40，根据所述FA_α对应的最终标签列表和所述FB_β对应的最终标签列表，获取到FA_α对应的APP类型和FB_β对应的APP类型。

上述，通过具有文本描述的APP，获取到无文本描述的APP的标签，进而根据无文本描述的APP的标签，能够准确的对APP应用平台中的APP进行分类，以使得更多的APP划分到准确的类型中，便于用户查找。

本发明提供了一种获取APP标签的数据处理系统，系统包括：第一数据库、处理器和存储有计算机程序的存储器，其中，第一数据库包括：初始APP列表和初始APP列表对应的初始文本列表，当计算机程序被处理器执行时，实现以下步骤：根据初始APP列表和初始APP列表对应的初始文本列表获取初始APP对应的目标词向量列表，将目标词向量输入至预设的第一神经网络模型中获取初始APP对应的第一中间标签列表，对第一中间标签进行处理获取第一APP和第二APP，分别对第一APP和第二APP进行标记处理，获取第一APP对应的目标标签和第二APP对应的目标标签，从而获取APP的标签。本发明提供了一种获取APP标签的数据处理系统，一方面，通过模型训练获取样本标签并且将样本的标签进行处理，使APP标签复杂化，使得获取到的APP标签的精确度较高；另一方面，不局限于对特定部分的APP进行分类，通过对APP采用不同的处理方式，能够全面自动覆盖到所有APP，使获取到的APP标签的准确度较高。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种获取APP标签的数据处理系统，其特征在于，所述系统包括：第一数据库、处理器和存储有计算机程序的存储器，其中，所述第一数据库包括：初始APP列表B＝{B₁，……，B_i，……，B_m}和B对应的初始文本列表C＝{C₁，……，C_i，……，C_m}，B_i为第i个初始APP名称，C_i为B_i对应的初始APP文本，i＝1……m，m为初始APP的数量，当所述计算机程序被处理器执行时，实现以下步骤：

S100，根据B_i和C_i，获取B_i对应的目标词向量列表D_i＝{B⁰ _i，C⁰ _i1，……，C⁰ _ix，……，C⁰ _ip(i)}，B⁰ _i为B_i对应的第一词向量，C⁰ _ix为C_i对应的第x个第二词向量，x＝1……p(i)，p(i)为C_i对应的第二词向量的数量；

S200，将D_i输入至预设的第一神经网络模型中，获取B_i对应的第一中间标签列表D⁰ _i；

S300，当D⁰ _i＝Null时，将B_i对应的初始APP作为第一APP；

S400，当D⁰ _i≠Null且K⁰ _i≥K⁰时，将B_i对应的初始APP作为第一APP，其中，K⁰ _i为D⁰ _i对应的第一中间标签数量，K⁰为预设的标签数量阈值；

S500，当D⁰ _i≠Null且K⁰ _i＜K⁰时，将B_i对应的初始APP作为第二APP；

S600，对所述第一APP进行第一标记处理，获取第一APP对应的目标标签；

2.根据权利要求1所述的获取APP标签的数据处理系统，其特征在于，所述初始文本为用于描述初始APP的文本。

3.根据权利要求1所述的获取APP标签的数据处理系统，其特征在于，所述系统中还包括第二数据库，其中，所述第二数据库包括第一样本APP集H＝{H₁，……，H_j，……，H_n}，H_j＝{H_j1，……，H_jy，……，H_jq(j)}，H_jy为第j个应用平台对应的第y个第一样本APP信息，j＝1……n，n为APP应用平台的数量，y＝1……q(j)，q(j)为第j个APP应用平台对应的第一样本APP的数量，其中，所述第一样本APP信息包括第一样本APP名称和第一样本APP的APP文本，当所述计算机程序被处理器执行时，在S100之前还实现以下步骤：

S1，遍历H且从H中获取H_jy对应的关键APP列表U_jy＝{U¹ _jy，……，U^e _jy，……，U^f _jy}，其中，U^e _jy为H_jy对应的第e个关键APP信息，e＝1……f，f为关键APP的数量，其中，所述关键APP信息包括关键APP名称和关键APP的APP文本，其中，每一U^e _jy中关键APP名称与H_jy中第一样本APP名称一致；

S2，根据U_jy，获取U_jy对应的文字字符数量列表SL_jy＝{SL¹ _jy，……，SL^e _jy，……，SL^f _jy}，SL^e _jy为U^e _jy对应的APP文本中字符数量；

4.根据权利要求1所述的获取APP标签的数据处理系统，其特征在于，在S100之前还包括如下步骤：

S101，对C_i进行分词处理，获取C_i对应的第一初始词列表；

S103，从C_i对应的第一初始词列表删除预设词列表中预设词，获取到C_i对应的第二初始词列表；

5.根据权利要求3所述的获取APP标签的数据处理系统，其特征在于，所述第二数据库还包括第二样本APP集，其中，所述第二样本APP集合中每一第二样本APP信息包括：第二样本APP名称、第二样本APP名称的APP文本和第二样本APP名称对应的APP标签列表，当所述计算机程序被处理器执行时，在S200中通过如下步骤获取第一神经网络模型：

S201，根据第二样本APP集，获取所述第二样本APP集对应的第一样本词向量；

S203，将所述第二样本APP集对应的第一样本词向量集作为训练数据集输入至预设的第一初始神经网络模型中，获取到所述第二样本APP集对应的样本标签集，其中，所述样本标签集包括第二样本APP名称对应的第一样本标签列表；

6.根据权利要求1所述的获取APP标签的数据处理系统，其特征在于，所述预设的标签数量阈值K⁰的取值范围为1～3。

7.根据权利要求1所述的获取APP标签的数据处理系统，其特征在于，所述第一标记处理为通过标记员对APP进行标记标签的处理。

8.根据权利要求1所述的获取APP标签的数据处理系统，其特征在于，在S700中还包括如下步骤：

S701，根据任一第二APP对应的第一中间标签列表，获取第二APP对应的第二中间标签列表G＝{G₁，……，G_r，……，G_s}，G_r为第二APP对应的第r个第二中间标签，r＝1……s，s为第二APP对应的中间标签的数量；

S703，获取预设APP标签列表G⁰＝{G⁰ ₁，……，G⁰ _t，……，G⁰ _g}，G⁰ _t为第t个预设APP标签，t＝1……g，g为预设APP标签的数量，其中，预设APP标签为预设的表征虚拟现实的APP对应的标签；

S705，当G_r≠G⁰ _t时，将第二APP对应的第一中间标签作为第二APP对应的目标标签；

S707，当G_r＝G⁰ _t时，将第二APP对应的目标词向量列表输入至预设的第二神经网络模型，获取所述第二APP对应的第三中间标签列表；

9.根据权利要求8所述的获取APP标签的数据处理系统，其特征在于，所述第二数据库还包括第三样本APP集，其中，所述第三样本APP集合中每一第三样本APP信息包括：第三样本APP名称、第三样本APP名称的APP文本和第三样本APP名称对应的APP标签列表，其中，所述第三样本APP为表征虚拟现实的APP，当所述计算机程序被处理器执行时，在S707中通过如下步骤获取第二神经网络模型：

S7071，根据第三样本APP集，获取所述第三样本APP集对应的第二样本词向量；

S7073，将所述第三样本APP集对应的第二样本词向量作为训练数据集输入至预设的第二初始神经网络模型中，获取到所述第三样本APP集对应的第二样本标签集，所述第二样本标签集包括第三样本APP名称对应的第二样本标签列表；

10.根据权利要求1所述的获取APP标签的数据处理系统，其特征在于，在所述系统中，当所述计算机程序被处理器执行时，还实现以下步骤：

S800，根据第一APP对应的目标标签和第二APP对应的目标标签，获取B对应的目标标签集D'＝{D'₁，……，D'_i，……，D'_m},D'_i为B_i对应的目标标签列表；