CN115659226A - 一种获取app标签的数据处理系统 - Google Patents
一种获取app标签的数据处理系统 Download PDFInfo
- Publication number
- CN115659226A CN115659226A CN202211429031.XA CN202211429031A CN115659226A CN 115659226 A CN115659226 A CN 115659226A CN 202211429031 A CN202211429031 A CN 202211429031A CN 115659226 A CN115659226 A CN 115659226A
- Authority
- CN
- China
- Prior art keywords
- app
- sample
- list
- obtaining
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明涉及一种获取APP标签的数据处理系统,系统包括:数据库、处理器和存储有计算机程序的存储器,其中,数据库包括第一数据库和第二数据库,第一数据库包括初始APP列表和初始文本列表,第二数据库包括第一样本APP集、第二样本APP集和第三样本APP集,当计算机程序被处理器执行时,实现以下步骤:根据第一数据库获取目标词向量列表,将目标词向量输入第一神经网络模型获取第一中间标签列表,根据第一中间标签对应的标签数量分别进行标记处理,从而获取APP对应的标签。本发明提供了一种获取APP标签的新方法,通过模型训练获取样本标签并且将样本的标签进行处理,使获取到的APP标签的准确度较高。
Description
技术领域
本发明涉及APP处理技术领域,特别是涉及一种获取APP标签的数据处理系统。
背景技术
随着智能化的普及和发展,越来越多的应用软件(APP)出现在设备端的应用平台中,技术的不断创新与发展,使得应用软件的类型越来越多,每个类型下应用软件的数量也越来越多,如何对设备端应用平台中的应用软件进行清晰的分类处理成为热门研究问题,通过获取APP标签从而对APP进行精准分类,能够为用户提供更加精准化服务。
目前,现有技术中,获取APP分类的方法为:基于APP的id获取对应的描述信息,将对应的描述信息输入模型中生成向量,基于APP的id获取预设安装序列生成向量,将生成的所有向量输入到分类模型中进行APP类型的输出,以上所述获取APP类型的方法存在的问题:
一方面,因方法的局限性,APP标签简单化,使得对APP分类的精确度较低;
另一方面,因APP数量的巨大,只局限于对特定部分的APP进行分类,不能全面自动覆盖所有APP,使获取到的APP标签的准确度较低。
发明内容
针对上述技术问题,本发明采用的技术方案为:一种获取APP标签的数据处理系统,系统包括:第一数据库、处理器和存储有计算机程序的存储器,其中,第一数据库包括:初始APP列表B={B1,……,Bi,……,Bm}和B对应的初始文本列表C={C1,……,Ci,……,Cm},Bi为第i个初始APP名称,Ci为Bi对应的初始APP文本,i=1……m,m为初始APP的数量,当计算机程序被处理器执行时,实现以下步骤:
S100,根据Bi和Ci,获取Bi对应的目标词向量列表Di={B0 i,C0 i1,……,C0 ix,……,C0 ip(i)},B0 i为Bi对应的第一词向量,C0 ix为Ci对应的第x个第二词向量,x=1……p(i),p(i)为Ci对应的第二词向量的数量。
S200,将Di输入至预设的第一神经网络模型中,获取Bi对应的第一中间标签列表D0 i。
S300,当D0 i=Null时,将Bi对应的初始APP作为第一APP。
S400,当D0 i≠Null且K0 i≥K0时,将Bi对应的初始APP作为第一APP,其中,K0 i为D0 i对应的第一中间标签数量,K0为预设的标签数量阈值。
S500,当D0 i≠Null且K0 i<K0时,将Bi对应的初始APP作为第二APP。
S600,对所述第一APP进行第一标记处理,获取第一APP对应的目标标签。
S700,对所述第二APP进行第二标记处理,获取第二APP对应的目标标签。
本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的一种获取APP标签的数据处理系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
本发明提供了一种获取APP标签的数据处理系统,系统包括:第一数据库、处理器和存储有计算机程序的存储器,其中,第一数据库包括:初始APP列表和初始APP列表对应的初始文本列表,当计算机程序被处理器执行时,实现以下步骤:根据初始APP列表和初始APP列表对应的初始文本列表获取初始APP对应的目标词向量列表,将目标词向量输入至预设的第一神经网络模型中获取初始APP对应的第一中间标签列表,对第一中间标签进行处理获取第一APP和第二APP,分别对第一APP和第二APP进行标记处理,获取第一APP对应的目标标签和第二APP对应的目标标签,从而获取APP的标签。可知,本发明一方面,通过模型训练获取样本标签并且将样本的标签进行处理,使APP标签复杂化,使得获取到的APP标签的精确度较高;另一方面,不局限于对特定部分的APP进行分类,通过对APP采用不同的处理方式,能够全面自动覆盖到所有APP,使获取到的APP标签的准确度较高。
附图说明
图1为本发明实施例提供的一种获取APP标签的数据处理系统的执行计算机程序的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅为本发明一部分实施例,而不为全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明提供了一种获取APP标签的数据处理系统,所述系统包括:第一数据库、处理器和存储有计算机程序的存储器,其中,所述第一数据库包括:初始APP列表B={B1,……,Bi,……,Bm}和B对应的初始文本列表C={C1,……,Ci,……,Cm},Bi为第i个初始APP名称,Ci为Bi对应的初始APP文本,i=1……m,m为初始APP的数量,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
S100,根据Bi和Ci,获取Bi对应的目标词向量列表Di={B0 i,C0 i1,……,C0 ix,……,C0 ip(i)},B0 i为Bi对应的第一词向量,C0 ix为Ci对应的第x个第二词向量,x=1……p(i),p(i)为Ci对应的第二词向量的数量。
具体的,所述初始文本为用于描述初始APP的文本。
具体的,所述系统中还包括第二数据库。
进一步的,所述第二数据库包括第一样本APP集H={H1,……,Hj,……,Hn},Hj={Hj1,……,Hjy,……,Hjq(j)},Hjy为第j个应用平台对应的第y个第一样本APP信息,j=1……n,n为APP应用平台的数量,y=1……q(j),q(j)为第j个APP应用平台对应的第一样本APP的数量,其中,所述第一样本APP信息包括第一样本APP名称和第一样本APP的APP文本。
具体的,在S100之前还包括如下步骤:
S1,遍历H且从H中获取Hjy对应的关键APP列表Ujy={U1 jy,……,Ue jy,……,Uf jy},其中,Ue jy为Hjy对应的第e个关键APP信息,e=1……f,f为关键APP的数量,其中,所述关键APP信息包括关键APP名称和关键APP的APP文本,其中,每一Ue jy中关键APP名称与Hjy中第一样本APP名称一致。
S2,根据Ujy,获取Ujy对应的文字字符数量列表SLjy={SL1 jy,……,SLe jy,……,SLf jy},SLe jy为Ue jy对应的APP文本中字符数量。
S3,遍历SLjy且当SLe jy为SLjy中最大APP文本中字符数量时,将Ue jy插入值B中。
上述,通过获取关键APP对应的文字字符数量最大的文本,使得获取到的APP的信息更加准确,有效的确定出APP名称和对应的APP文本,进而避免因不同的APP应用平台导致同一APP出现不同的文本对APP进行描述。
在一个具体的实施例中,在100之前还包括如下步骤:
S101,对Ci进行分词处理,获取Ci对应的第一初始词列表,其中,本领域技术人员知晓,可以根据实际需求采取现有技术中任一分词处理的方法,在此不再赘述。
S103,从Ci对应的第一初始词列表删除预设词列表中预设词,获取到Ci对应的第二初始词列表,其中,本领域技术人员知晓,根据实际需求设置预设词列表,例如,预设词为“的”、“得”等,在此不再赘述。
S105,将Ci对应的第二初始词列表中任一第二初始词输入至词嵌入模型中,获取第二词向量。
进一步的,Bi和Ci的向量维度一致,本领域技术人员知晓,根据实际需求确定任一词嵌入模型获取初始APP名称对应的词向量和初始APP文本中任一词与对应的词向量,在此不再赘述。
具体的,所述第二数据库还包括第二样本APP集,其中,所述第二样本APP集合中每一第二样本APP信息包括:第二样本APP名称、第二样本APP名称的APP文本和第二样本APP名称对应的APP标签列表。
S200,将Di输入至预设的第一神经网络模型中,获取Bi对应的第一中间标签列表D0 i。
具体的,在S200中通过如下步骤获取第一神经网络模型:
S201,根据所述第二样本APP集,获取所述第二样本APP集对应的第一样本词向量。
具体的,所述获取第一样本词向量的方式与获取目标词向量的方式一致。
上述,通过采用相同的获取词向量的方式,能够保证获取到的第一样本词向量和目标词向量的表示方式一致,为后续进行APP分类提供有效的数据,使得获取到的APP标签的准确度较高。
S203,将所述第二样本APP集对应的第一样本词向量集作为训练数据集输入至预设的第一初始神经网络模型中,获取到所述第二样本APP集对应的样本标签集,其中,所述样本标签集包括第二样本APP名称对应的第一样本标签列表,其中,本领域技术人员知晓训练神经网络模型的过程,在此不再赘述。
S205,根据所述第二样本APP名称对应的第一样本标签列表和第二样本APP名称对应的APP标签列表,获取到第一神经网络模型。
上述,通过APP名称和APP文本训练神经网络模型进而获取到第一神经网络模型,能够准确的确定出APP标签,进而准确的获取到无文本描述的APP类型。
S300,当D0 i=Null时,将Bi对应的初始APP作为第一APP。
S400,当D0 i≠Null且K0 i≥K0时,将Bi对应的初始APP作为第一APP,其中,K0 i为D0 i对应的第一中间标签数量,K0为预设的标签数量阈值。
具体的,所述预设的标签数量阈值K0的取值范围为1~3,其中,本领域技术人员知晓,根据实际需求进行K0的选取,在此不再赘述。
上述,基于第一神经网络模型获取到的标签数量过多的APP,将标签数量过多的APP进行进一步的确定APP标签,使得APP获取到更加准确的标签,进而准确的获取到无文本描述的APP类型。
S500,当D0 i≠Null且K0 i<K0时,将Bi对应的初始APP作为第二APP。
上述,能够通过初始APP名称和初始APP文本,准确的确定出APP的初始APP的标签,进而基于初始APP的标签,准确的获取到无文本描述的APP类型。
S600,对所述第一APP进行第一标记处理,获取第一APP对应的目标标签。
具体的,所述第一标记处理为通过标记员对APP进行标记标签的处理。
S700,对所述第二APP进行第二标记处理,获取第二APP对应的目标标签。
具体的,在S700中还包括如下步骤:
S701,根据任一第二APP对应的第一中间标签列表,获取第二APP对应的第二中间标签列表G={G1,……,Gr,……,Gs},Gr为第二APP对应的第r个第二中间标签,r=1……s,s为第二APP对应的中间标签的数量。
S703,获取预设APP标签列表G0={G0 1,……,G0 t,……,G0 g},G0 t为第t个预设APP标签,t=1……g,g为预设APP标签的数量,其中,预设APP标签为预设的表征虚拟现实的APP对应的标签。
S705,当Gr≠G0 t时,将第二APP对应的第一中间标签作为第二APP对应的目标标签。
S707,当Gr=G0 t时,将第二APP对应的目标词向量列表输入至预设的第二神经网络模型,获取所述第二APP对应的第三中间标签列表。
具体的,所述第二数据库还包括第三样本APP集。
进一步的,所述第三样本APP集合中每一第三样本APP信息包括:第三样本APP名称、第三样本APP名称的APP文本和第三样本APP名称对应的APP标签列表,其中,所述第三样本APP为表征虚拟现实的APP。
具体的,在S707中通过如下步骤获取第二神经网络模型:
S7071,根据第三样本APP集,获取所述第三样本APP集对应的第二样本词向量。
具体的,所述获取第二样本词向量的方式与获取目标词向量的方式一致。
上述,通过采用相同的获取词向量的方式,能够保证获取到的第二样本词向量和目标词向量的表示方式一致,为后续进行APP分类提供有效的数据,使得获取到的APP标签的准确度较高。
S7073,将所述第三样本APP集对应的第二样本词向量作为训练数据集输入至预设的第二初始神经网络模型中,获取到所述第三样本APP集对应的第二样本标签集,所述第二样本标签集包括第三样本APP名称对应的第二样本标签列表,其中,本领域技术人员知晓训练神经网络模型的过程,在此不再赘述。
S7075,根据所述第三样本APP名称对应的第二样本标签列表和第三样本APP名称对应的APP标签列表,获取到第二神经网络模型。
上述,通过模型训练获取第二神经网络模型,能够大规模并行处理数据,能够实现自主学习处理不同信息,使得获取到的APP标签的准确度较高。
S709,将所述第二APP对应的第三中间标签列表中第三中间标签作为第二APP对应的目标标签。
上述,对于表征虚拟现实的APP需要通过单独的神经网络模型获取标签,避免因采用同一神经网络模型,无法准确的确定出此类APP的标签,导致无法准确的获取到无文本描述的APP类型,通过对虚拟现实的APP进行进一步的标签处理,进而生成对虚拟现实的APP更加准确的标签,进而准确的获取到无文本描述的APP类型。
具体的,在所述系统中,当所述计算机程序被处理器执行时,还实现以下步骤:
S800,根据第一APP对应的目标标签和第二APP对应的目标标签,获取B对应的目标标签集D'={D'1,……,D'i,……,D'm},D'i为Bi对应的目标标签列表。
上述,通过APP名称和APP文本准确的获取到APP的标签,以使得根据APP的标签,对文本描述的APP进行分类,使得APP应用平台中大部分APP具有标签。
S900,基于D'i,获取B对应的最终标签集D”={D”1,……,D”i,……,D”m},D”i为Bi对应的最终标签列表。
具体的,在S900中还包括如下步骤:
S910,获取B中的目标APP,标记员对目标APP进行标记标签的处理。
具体的,当DN>N0且WP>N1时,获取APP为目标APP,其中,DN为APP的安装量,所述安装量为安装APP的设备数量,WP为APP的留存率,N0为预设的安装量阈值,N1为预设的留存率阈值。
具体的,WP符合如下条件:
具体的,所述预设的安装量阈值N0的取值范围为1×108~2×108,其中,本领域技术人员知晓,根据实际需求进行N0的选取,在此不再赘述。
具体的,所述预设的留存率阈值N1的取值范围为30%~40%,其中,本领域技术人员知晓,根据实际需求进行N1的选取,在此不再赘述。
进一步的,当目标APP对应的文本中存在目标标签未包含的标签时,需要标记员进行标记处理。
上述,通过标记员对目标APP手动标注,能够确保APP信息的准确性,同时确保APP标签的全面性,从而使获取到的APP标签的准确度较高。
具体的,所述系统还包括第三数据库,进一步的,所述第三数据库包括非样本APP集合,其中,所述非样本APP集为原始APP集中除所述样本APP集之外的APP集合。
具体的,当所述计算机程序被处理器执行时,实现以下步骤:
S10,从所述非样本APP集中获取第一非样本APP列表FA={FA1,……,FAα,……,FAλ}和第二非样本APP列表FB={FB1,……,FBβ,……,FBγ},FAα为第α个第一非样本APP信息,α=1……λ,λ为第一非样本APP的数量,FBβ为第β个第二非样本APP信息,β=1……γ,γ为第二非样本APP的数量。
具体的,所述第一非样本APP信息包括第一非样本APP名称且不包括第一非样本APP的APP文本和第一非样本APP的pkg名称。
具体的,所述第二非样本APP信息包括第二非样本APP的pkg名称且不包括第二非样本APP的APP文本和第二非样本APP的名称。
S20,根据FAα和Bi,获取FAα对应的最终标签列表;
具体的,在S20中还包括如下步骤:
S210,根据FA和B,获取FA对应的第一相似度列表F={F1,……,Fα,……,Fλ},Fα={F1 α,……,Fi α,……,Fm α},Fi α为FAα和Bi之间的第一相似度。
具体的,在S210之前还包括如下步骤:
S2101,获取FAα对应的第一中间字符串。
S2103,遍历FAα对应的第一中间字符串且将FAα对应的第一中间字符串中非中文字符删除,获取FAα对应的第二中间字符串。
S2105,根据FAα对应的第二中间字符串,获取FAα对应的第一中间词向量。
S2107,根据FAα对应的第一中间词向量和B0 i,获取Fi α,本领域技术人员可以实际需求确定获取向量之间的相似度方法,例如,向量之间的余弦相似度,在此不再赘述。
上述,将APP中涉及非中文的词删除,避免影响到APP名称之间相似度的准确性,进而可以准确的确定出此类APP的标签,以使得准确的获取到无文本描述的APP类型。
S230,当Fi α为最大的第一相似度且Fi α≥F0 1时,将D'i作为FAα对应的最终标签列表,其中,F0 1为预设的第一相似度阈值。
具体的,所述预设的第一相似度阈值F0 1的取值范围为0.8~0.9,本领域技术人员根据实际需求设置第一相似度阈值,在此不再赘述。
S250,当Fi α为最大的第一相似度且Fi α<F0 1时,根据Bi和Ci,获取FAα对应的最终标签列表。
具体的,在S250中,还包括如下步骤:
S2501,获取Ci对应的第二初始词列表。
S2503,根据Ci对应的第二初始词列表,获取Ci对应的第二初始词列表中任一关键词的优先级YXv i,其中,其中,ηv i为Ci对应的第二初始词列表中第v个第二初始词在Ci中出现的次数,λv i为Ci对应的第二初始词列表中第v个第二初始词在B和C中出现的总次数,μv i为在D'i对应的目标标签中Bi的数量。
S2507,当YXv i≥YX0时,将YXv i对应的第二初始词作为D'i的关键词,其中,YX0为关键词的优先级阈值,本领域技术人员知晓,根据实际需求设置关键词优先级的阈值,在此不再赘述。
S2509,根据D'i的关键词与FAα之间的相似度,获取FAα对应的最终标签列表;可以理解为:将D'i的关键词转化成D'i的关键词向量,根据D'i的关键词向量与FAα对应的第一中间词向量,获取D'i的关键词与FAα之间的相似度,当D'i的关键词与FAα之间的相似度不小于第一相似度阈值时,基于D'i的关键词在D'中对应的所有目标标签,构建FAα对应的最终标签列表。
上述,能够避免因无文本描述的APP名称无法匹配时,导致无法获取到无文本描述的APP的标签,提高了获取无文本描述的APP的标签的准确性和范围。
S30,根据FBβ和Qi,获取FBβ对应的最终标签列表。
具体的,在S30中还包括如下步骤:
S310,根据FB和Q,获取FB对应的第二相似度列表F'={F'1,……,F'β,……,F'γ},F'β={F'1 β,……,F'i β,……,F'm β},F'i β为FBβ和Qi之间的第二相似度。
具体的,所述获取第二相似度列表的方式与获取第一相似度列表的方式一致。
S330,当F'i β为最大的第二相似度且F'i β≥F0 2时,将D'i作为FBβ对应的最终标签列表,其中,F0 2为预设的第二相似度阈值。
具体的,所述预设的第二相似度阈值F0 2的取值范围为0.8~0.9,本领域技术人员根据实际需求设置第二相似度阈值,在此不再赘述。
S350,当Fi α为最大的第二相似度且Fi α<F0 2时,未生成FBβ对应的最终标签列表。
在另一个具体的实施例中,所述非样本APP集合中还包括第三非样本APP列表,其中,所述第三非样本APP信息包括第三非样本APP名称和第三非样本APP的pkg名称且不包括APP文本,当所述计算机程序被处理器执行时,实现以下步骤:
S'1,根据第三非样本APP名称与B,确定出第三非样本APP对应的最终标签列表,其中,根据第三非样本APP名称与B,确定出第三非样本APP对应的最终标签列表的方法与S40一致,在此不再赘述。
S'2,当第三非样本APP名称与D'i的关键词之间的相似度小于第一相似度阈值时,根据第三非样本APP的pkg名称与Q,确定出第三非样本APP对应的最终标签列表,其中,根据第三非样本APP的pkg名称与Q,确定出第三非样本APP对应的最终标签列表的方法与S50一致,在此不再赘述。
上述,通过对不同的APP采用不同的处理方式,能够全面自动覆盖到所有APP,使获取到的APP类型的准确度较高。
S40,根据所述FAα对应的最终标签列表和所述FBβ对应的最终标签列表,获取到FAα对应的APP类型和FBβ对应的APP类型。
上述,通过具有文本描述的APP,获取到无文本描述的APP的标签,进而根据无文本描述的APP的标签,能够准确的对APP应用平台中的APP进行分类,以使得更多的APP划分到准确的类型中,便于用户查找。
本发明提供了一种获取APP标签的数据处理系统,系统包括:第一数据库、处理器和存储有计算机程序的存储器,其中,第一数据库包括:初始APP列表和初始APP列表对应的初始文本列表,当计算机程序被处理器执行时,实现以下步骤:根据初始APP列表和初始APP列表对应的初始文本列表获取初始APP对应的目标词向量列表,将目标词向量输入至预设的第一神经网络模型中获取初始APP对应的第一中间标签列表,对第一中间标签进行处理获取第一APP和第二APP,分别对第一APP和第二APP进行标记处理,获取第一APP对应的目标标签和第二APP对应的目标标签,从而获取APP的标签。本发明提供了一种获取APP标签的数据处理系统,一方面,通过模型训练获取样本标签并且将样本的标签进行处理,使APP标签复杂化,使得获取到的APP标签的精确度较高;另一方面,不局限于对特定部分的APP进行分类,通过对APP采用不同的处理方式,能够全面自动覆盖到所有APP,使获取到的APP标签的准确度较高。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (10)
1.一种获取APP标签的数据处理系统,其特征在于,所述系统包括:第一数据库、处理器和存储有计算机程序的存储器,其中,所述第一数据库包括:初始APP列表B={B1,……,Bi,……,Bm}和B对应的初始文本列表C={C1,……,Ci,……,Cm},Bi为第i个初始APP名称,Ci为Bi对应的初始APP文本,i=1……m,m为初始APP的数量,当所述计算机程序被处理器执行时,实现以下步骤:
S100,根据Bi和Ci,获取Bi对应的目标词向量列表Di={B0 i,C0 i1,……,C0 ix,……,C0 ip(i)},B0 i为Bi对应的第一词向量,C0 ix为Ci对应的第x个第二词向量,x=1……p(i),p(i)为Ci对应的第二词向量的数量;
S200,将Di输入至预设的第一神经网络模型中,获取Bi对应的第一中间标签列表D0 i;
S300,当D0 i=Null时,将Bi对应的初始APP作为第一APP;
S400,当D0 i≠Null且K0 i≥K0时,将Bi对应的初始APP作为第一APP,其中,K0 i为D0 i对应的第一中间标签数量,K0为预设的标签数量阈值;
S500,当D0 i≠Null且K0 i<K0时,将Bi对应的初始APP作为第二APP;
S600,对所述第一APP进行第一标记处理,获取第一APP对应的目标标签;
S700,对所述第二APP进行第二标记处理,获取第二APP对应的目标标签。
2.根据权利要求1所述的获取APP标签的数据处理系统,其特征在于,所述初始文本为用于描述初始APP的文本。
3.根据权利要求1所述的获取APP标签的数据处理系统,其特征在于,所述系统中还包括第二数据库,其中,所述第二数据库包括第一样本APP集H={H1,……,Hj,……,Hn},Hj={Hj1,……,Hjy,……,Hjq(j)},Hjy为第j个应用平台对应的第y个第一样本APP信息,j=1……n,n为APP应用平台的数量,y=1……q(j),q(j)为第j个APP应用平台对应的第一样本APP的数量,其中,所述第一样本APP信息包括第一样本APP名称和第一样本APP的APP文本,当所述计算机程序被处理器执行时,在S100之前还实现以下步骤:
S1,遍历H且从H中获取Hjy对应的关键APP列表Ujy={U1 jy,……,Ue jy,……,Uf jy},其中,Ue jy为Hjy对应的第e个关键APP信息,e=1……f,f为关键APP的数量,其中,所述关键APP信息包括关键APP名称和关键APP的APP文本,其中,每一Ue jy中关键APP名称与Hjy中第一样本APP名称一致;
S2,根据Ujy,获取Ujy对应的文字字符数量列表SLjy={SL1 jy,……,SLe jy,……,SLf jy},SLe jy为Ue jy对应的APP文本中字符数量;
S3,遍历SLjy且当SLe jy为SLjy中最大APP文本中字符数量时,将Ue jy插入值B中。
4.根据权利要求1所述的获取APP标签的数据处理系统,其特征在于,在S100之前还包括如下步骤:
S101,对Ci进行分词处理,获取Ci对应的第一初始词列表;
S103,从Ci对应的第一初始词列表删除预设词列表中预设词,获取到Ci对应的第二初始词列表;
S105,将Ci对应的第二初始词列表中任一第二初始词输入至词嵌入模型中,获取第二词向量。
5.根据权利要求3所述的获取APP标签的数据处理系统,其特征在于,所述第二数据库还包括第二样本APP集,其中,所述第二样本APP集合中每一第二样本APP信息包括:第二样本APP名称、第二样本APP名称的APP文本和第二样本APP名称对应的APP标签列表,当所述计算机程序被处理器执行时,在S200中通过如下步骤获取第一神经网络模型:
S201,根据第二样本APP集,获取所述第二样本APP集对应的第一样本词向量;
S203,将所述第二样本APP集对应的第一样本词向量集作为训练数据集输入至预设的第一初始神经网络模型中,获取到所述第二样本APP集对应的样本标签集,其中,所述样本标签集包括第二样本APP名称对应的第一样本标签列表;
S205,根据所述第二样本APP名称对应的第一样本标签列表和第二样本APP名称对应的APP标签列表,获取到第一神经网络模型。
6.根据权利要求1所述的获取APP标签的数据处理系统,其特征在于,所述预设的标签数量阈值K0的取值范围为1~3。
7.根据权利要求1所述的获取APP标签的数据处理系统,其特征在于,所述第一标记处理为通过标记员对APP进行标记标签的处理。
8.根据权利要求1所述的获取APP标签的数据处理系统,其特征在于,在S700中还包括如下步骤:
S701,根据任一第二APP对应的第一中间标签列表,获取第二APP对应的第二中间标签列表G={G1,……,Gr,……,Gs},Gr为第二APP对应的第r个第二中间标签,r=1……s,s为第二APP对应的中间标签的数量;
S703,获取预设APP标签列表G0={G0 1,……,G0 t,……,G0 g},G0 t为第t个预设APP标签,t=1……g,g为预设APP标签的数量,其中,预设APP标签为预设的表征虚拟现实的APP对应的标签;
S705,当Gr≠G0 t时,将第二APP对应的第一中间标签作为第二APP对应的目标标签;
S707,当Gr=G0 t时,将第二APP对应的目标词向量列表输入至预设的第二神经网络模型,获取所述第二APP对应的第三中间标签列表;
S709,将所述第二APP对应的第三中间标签列表中第三中间标签作为第二APP对应的目标标签。
9.根据权利要求8所述的获取APP标签的数据处理系统,其特征在于,所述第二数据库还包括第三样本APP集,其中,所述第三样本APP集合中每一第三样本APP信息包括:第三样本APP名称、第三样本APP名称的APP文本和第三样本APP名称对应的APP标签列表,其中,所述第三样本APP为表征虚拟现实的APP,当所述计算机程序被处理器执行时,在S707中通过如下步骤获取第二神经网络模型:
S7071,根据第三样本APP集,获取所述第三样本APP集对应的第二样本词向量;
S7073,将所述第三样本APP集对应的第二样本词向量作为训练数据集输入至预设的第二初始神经网络模型中,获取到所述第三样本APP集对应的第二样本标签集,所述第二样本标签集包括第三样本APP名称对应的第二样本标签列表;
S7075,根据所述第三样本APP名称对应的第二样本标签列表和第三样本APP名称对应的APP标签列表,获取到第二神经网络模型。
10.根据权利要求1所述的获取APP标签的数据处理系统,其特征在于,在所述系统中,当所述计算机程序被处理器执行时,还实现以下步骤:
S800,根据第一APP对应的目标标签和第二APP对应的目标标签,获取B对应的目标标签集D'={D'1,……,D'i,……,D'm},D'i为Bi对应的目标标签列表;
S900,基于D'i,获取B对应的最终标签集D”={D”1,……,D”i,……,D”m},D”i为Bi对应的最终标签列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211429031.XA CN115659226A (zh) | 2022-11-15 | 2022-11-15 | 一种获取app标签的数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211429031.XA CN115659226A (zh) | 2022-11-15 | 2022-11-15 | 一种获取app标签的数据处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115659226A true CN115659226A (zh) | 2023-01-31 |
Family
ID=85021936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211429031.XA Pending CN115659226A (zh) | 2022-11-15 | 2022-11-15 | 一种获取app标签的数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115659226A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116071924A (zh) * | 2023-02-03 | 2023-05-05 | 以萨技术股份有限公司 | 一种基于任务分配获取目标车流量的数据处理系统 |
CN117520754A (zh) * | 2024-01-05 | 2024-02-06 | 北京睿企信息科技有限公司 | 一种模型训练数据的预处理系统 |
-
2022
- 2022-11-15 CN CN202211429031.XA patent/CN115659226A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116071924A (zh) * | 2023-02-03 | 2023-05-05 | 以萨技术股份有限公司 | 一种基于任务分配获取目标车流量的数据处理系统 |
CN116071924B (zh) * | 2023-02-03 | 2023-09-22 | 以萨技术股份有限公司 | 一种基于任务分配获取目标车流量的数据处理系统 |
CN117520754A (zh) * | 2024-01-05 | 2024-02-06 | 北京睿企信息科技有限公司 | 一种模型训练数据的预处理系统 |
CN117520754B (zh) * | 2024-01-05 | 2024-04-12 | 北京睿企信息科技有限公司 | 一种模型训练数据的预处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241304B (zh) | 基于深度学习的答案生成方法、电子装置及可读存储介质 | |
CN110795919B (zh) | 一种pdf文档中的表格抽取方法、装置、设备及介质 | |
CN111160017A (zh) | 关键词抽取方法、话术评分方法以及话术推荐方法 | |
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN115659226A (zh) | 一种获取app标签的数据处理系统 | |
CN115563287B (zh) | 一种获取关联对象的数据处理系统 | |
CN109446885B (zh) | 一种基于文本的元器件识别方法、系统、装置和存储介质 | |
CN111198948A (zh) | 文本分类校正方法、装置、设备及计算机可读存储介质 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN110019703B (zh) | 数据标记方法及装置、智能问答方法及系统 | |
CN111914159A (zh) | 一种信息推荐方法及终端 | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
CN111767390A (zh) | 技能词评估方法及装置、电子设备、计算机可读介质 | |
CN108415971B (zh) | 采用知识图谱推荐供求信息的方法和装置 | |
CN111382250A (zh) | 问句文本的匹配方法、装置、计算机设备和存储介质 | |
CN107480126B (zh) | 一种工程材料类别智能识别方法 | |
CN110750984B (zh) | 命令行字符串处理方法、终端、装置及可读存储介质 | |
CN115544215B (zh) | 一种关联对象的获取方法、介质及设备 | |
CN110442674B (zh) | 标签传播的聚类方法、终端设备、存储介质及装置 | |
CN109992723B (zh) | 一种基于社交网络的用户兴趣标签构建方法及相关设备 | |
CN115129951B (zh) | 一种获取目标语句的数据处理系统 | |
CN113139368B (zh) | 一种文本编辑方法及系统 | |
CN111460268B (zh) | 数据库查询请求的确定方法、装置和计算机设备 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |