CN113704501A

CN113704501A - 应用的标签获取方法、装置、电子设备及存储介质

Info

Publication number: CN113704501A
Application number: CN202110918168.0A
Authority: CN
Inventors: 王传鹏; 李腾飞
Original assignee: Shanghai Hard Link Network Technology Co ltd
Current assignee: Shanghai Hard Link Network Technology Co ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-11-26
Anticipated expiration: 2041-08-10
Also published as: CN113704501B

Abstract

本申请公开了一种应用的标签获取方法、装置、电子设备及存储介质，所述方法包括：获取目标应用的描述文本；对描述文本进行分词处理，获取多个分词；根据各分词的预设权重进行加权，确定描述文本的特征评分；对特征评分进行检测，并在检测到特征评分大于预设阈值时，获取各分词的词向量，将各分词的词向量输入训练好的多标签分类模型，以通过多标签分类模型获取目标应用的至少一个目标标签。本申请提高了获取到的标签的准确度。

Description

应用的标签获取方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种应用的标签获取方法、装置、电子设备及存储介质。

背景技术

随着计算机运用与互联网技术的发展，各种应用层出不穷。为了方便用户了解这些应用，会从数据源如应用商店中获取各个应用的数据，然后对这些游戏数据推送至终端设备进行陈列展示，方便用户观察。由于应用的数量巨大，因此为方便用户筛选和查找获取到的应用的数据，通常会为这些应用打上标签，如一款射击类游戏，会为其打上类似“第一人称射击”、“二次元”等标签，方便用户根据标签查找和筛选感兴趣的游戏应用。

考虑到数据源中通常针对每款应用都记录有对应的描述文本，同时这些描述文本通常记载有与应用相关的特征词，因此相关技术中，可将每款应用的描述文本的特征词通过多标签分类模型进行处理，从而获取每款应用对应的标签。但在实际应用中，描述文本不一定存在足够明显的特征词，甚至可能不存在特征词，若直接将描述文本通过多标签分类模型来确定应用的标签，则会无法保证标签的准确度。

发明内容

本申请的目的在于至少解决现有技术中存在的技术问题之一，提供一种应用的标签获取方法、装置以及电子设备，提高获取到的标签的准确度。

第一方面，本申请实施例提供一种应用的标签获取方法，包括：

获取目标应用的描述文本；

对描述文本进行分词处理，获取多个分词；

根据各分词的预设权重进行加权，确定描述文本的特征评分；

对特征评分进行检测，并在检测到特征评分大于预设阈值时，获取各分词的词向量，将各分词的词向量输入训练好的多标签分类模型，以通过多标签分类模型获取目标应用的至少一个目标标签。

进一步的，各分词的预设权重根据各分词的词性确定。

进一步的，将各分词的词向量输入训练好的多标签分类模型，以通过多标签分类模型获取目标应用的至少一个目标标签，包括：

将各词向量输入多标签分类模型，获取各词向量对应的索引，根据各索引从预设标签库中获取至少一个预设标签作为目标标签。

进一步的，还包括：

在检测到特征评分小于或等于预设阈值时，从至少一个数据源中获取针对目标应用的各待选标签，将各待选标签与预设标签库中各预设标签进行相似度匹配，以根据相似度匹配结果从预设标签库中获取至少一个预设标签作为目标标签。

进一步的，从至少一个数据源中获取针对目标应用的各待选标签，包括：

从多个数据源中获取目标应用的标签集；

将各标签集进行对比去重，获取各待选标签。

进一步的，将各标签集进行对比去重，包括：

将各标签集进行对比，当两个标签集之间存在相似度大于预设值的标签时，在任一标签集中删除所述标签。

进一步的，将各待选标签与预设标签库中各预设标签进行相似度匹配，以根据相似度匹配结果从预设标签库中获取至少一个预设标签作为目标标签，包括：

根据各待选标签的类别，将待选标签与同一类别下的各预设标签进行相似度匹配，以根据相似度匹配结果从预设标签库中获取至少一个预设标签作为目标标签。

第二方面，在本申请实施例中，还提供了一种应用的标签获取装置，包括：

文本获取模块，用于获取目标应用的描述文本；

文本分词模块，用于对描述文本进行分词处理，获取多个分词；

评分确定模块，用于根据各分词的预设权重进行加权，确定描述文本的特征评分；

标签获取模块，用于对特征评分进行检测，并在检测到特征评分大于预设阈值时，获取各分词的词向量，将各分词的词向量输入训练好的多标签分类模型，以通过多标签分类模型获取目标应用的至少一个目标标签。

第三方面，本申请实施例提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例所述的应用的标签获取方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上述实施例所述的应用的标签获取方法。

与现有技术相比，本申请至少具有如下有益技术效果：

本申请所述的应用的标签获取方法、装置以及电子设备通过在将分词通过多标签分类模型来获取应用的标签之前，根据各分词的预设权重进行加权后得到描述文本的特征评分，并在特征评分大于预设阈值时，再将分词通过多标签分类模型来获取应用的标签，从而使通过多标签分类模型进行处理的描述文本均存在足够明显的特征词，进而提高获取到的标签的准确度。

附图说明

下面结合附图和实施例对本申请进一步地说明；

图1为一个实施例中应用的标签获取方法的应用环境图；

图2为一个实施例中应用的标签获取方法的流程示意图；

图3为又一个实施例中应用的标签获取方法的流程示意图；

图4为一个实施例中应用的标签获取装置的结构框图；

图5为一个实施例中计算机设备的结构框图。

其中，图1的附图标记说明如下：

110、数据源；120、服务器；130、终端设备。

图2和图3的附图标记说明如下：

S11、步骤一；S12、步骤二；S13、步骤三；S14、步骤四；S15、步骤五。

图4的附图标记说明如下：

101、文本获取模块；102、文本分词模块；103、评分确定模块；104、标签获取模块。

具体实施方式

本部分将详细描述本申请的具体实施例，本申请之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本申请的每个技术特征和整体技术方案，但其不能理解为对本申请保护范围的限制。

下面结合附图对本申请实施例进行详细的阐述，本申请实施例提供的应用的标签获取方法应用于如图1所示的包括数据源110、服务器120和终端设备130的应用环境中。其中数据源110与服务器120通过网络连接，服务器120与终端设备130通过网络连接。数据源110具体可以是存储有应用数据，如应用的下载排名、下载量，以及存储有应用的相关描述文本和标签的任一外部数据平台，如安卓应用商城、IOS应用商城等。其中应用描述文本用于对应用进行简单的文字介绍。以游戏应用为例，数据源中存储有游戏应用的游戏数据、游戏应用的描述文本以及游戏的标签等。服务器120可以用独立的服务器或者是多个服务器组成的服务器群来实现，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备130可以是台式终端或移动终端，其中移动终端可以是手机、平板电脑、笔记本电脑、可穿戴设备等中的一种。

数据源110用于将应用的描述文本发送至服务器120，服务器120用于在从任一数据源获取到应用的描述文本后，对描述文本进行分词后，获取各分词的预设权重进行加权，确定描述文本的特征评分，并检测特征评分是否大于预设阈值，若是，则将各分词输入训练好的多标签分类模型，得到应用的标签后，将标签发送至终端设备进行展示。

通过在将分词通过多标签分类模型来获取应用的标签之前，根据各分词的预设权重进行加权后得到描述文本的特征评分，并在特征评分大于预设阈值时，再将分词通过多标签分类模型来获取应用的标签，从而保证通过多标签分类模型进行处理的描述文本均存在足够明显的特征词，进而提高获取到的标签的准确度。

下面，将通过几个具体的实施例对本申请实施例提供的应用的标签获取方法进行详细介绍和说明。

如图2所示，在一个实施例中，提供了一种应用的标签获取方法。本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备具体可以是上述图1中的服务器120。

参照图2，该应用的标签获取方法具体包括如下步骤：

S11、获取目标应用的描述文本。

在一实施例中，服务器可从任一数据源中直接获取目标应用的描述文本，其中应用描述文本用于对应用进行简单的文字描述。以游戏应用为例，游戏应用的描述文本用于描述该游戏应用的特点，如“《XXX》动画官方合作手游，还原原著庞大IP世界观，动画人物形象全植入，多场景搭建学院、唐门等经典场景……”。

在一实施例中，服务器还可以先从所有数据源中获取目标应用的相关文字描述，然后对比各相关文字描述的字数，以从各相关文字描述中挑选出字数最多的相关文字描述作为描述文本进行后续处理。若字数最多的相关文字描述存在多个，则可从字数最多的多个相关文字描述中随机挑选任一相关文字描述作为描述文本，从而使后续分词时能够得到更多的样本，提高从描述文本中获取高权重分词的概率。

S12、对描述文本进行分词处理，获取多个分词。

在一实施例中，服务器在获取到描述文本后，可通过训练好的分词模型对描述文本进行分词处理，以获取多个分词。

示例性的，分词模型可以通过采用TextRank算法将描述文本进行分词，或采用基于语料库的分词方法，即通过构建一个语料库，该语料库中有若干分组词条。例如语料库中有分组词条“庞大”、“学院”、“手游”、“原著”等等。该语料库中的分组词条可以通过保存网络上已有的词条或者通过人工来进行设定。通过将各描述文本与语料库中的各分组词条进行匹配处理，将描述文本在语料库中有对应分组词条的词语截取出来，截取得到的词语即为分词。

S13、根据各分词的预设权重进行加权，确定描述文本的特征评分。

在一实施例中，服务器120中预先存储有每个分词的预设权重，如“庞大”的预设权重为5，“学院”的预设权重为4等等。上述预设权重的具体数值可根据实际情况进行调整。在获取到各分词的预设权重后，即可对各分词的预设权重进行加权，得到描述文本的特征评分。

由于不同的分词可能具有不同的词性，而不同词性对于应用的目标标签确定所起到的影响是不相同的，例如助词“的”，对于目标标签的确定没有任何影响，而形容词“二次元”对目标标签确定影响较大，因此为了突出对目标标签起到关键影响的分词，并且提高后续获取特征评分的准确性，在一实施例中，各分词的预设权重根据各分词的词性确定。如实体词的权重为10，形容词的预设权重为5，名词的预设权重为3，停用词和助词的预设权重为0等。

S14、对特征评分进行检测，并在检测到特征评分大于预设阈值时，获取各分词的词向量，将各分词的词向量输入训练好的多标签分类模型，以通过多标签分类模型获取目标应用的至少一个目标标签。

在一实施例中，服务器在确定描述文本的特征评分后，通过二分类模型判定特征评分是否大于预设阈值。若是，则判定描述文本为“有效描述”，即描述文本能够有效地描述应用的特征，从而将描述文本的各分词输入多标签分类模型，得到目标应用的目标标签。其中，预设阈值可由大量实验验证后得到。

在一实施例中，当描述文本为“有效描述”时，通过word-to-vector(文本向量化)构建各分词的词向量，并根据训练好的多分类模型处理各词向量，获取目标应用对应的目标标签。其中，标签包括玩法、题材、风格等多种类型。

为使获取到的标签具有统一的标准，能够有效地起到指导业务指导作用，在一实施例中，在获取各分词的词向量后，将各词向量输入多标签分类模型，获取各词向量对应的索引，根据各索引从预设标签库中获取至少一个预设标签作为目标标签。所述多标签分类模型包括NN(Neural Network,传统神经网络模型)、CNN(Convolutional NeuralNetworks，卷积神经网络模型)、RNN(Recurrent Neural Network,递归神经网络模型)。其中，NN包括了fasttext；CNN包括全连接深度神经网络等，RNN包括LSTM(长短期记忆人工神经网络)、GRU(门控循环单元)。

其中，服务器预先存储有索引与预设标签库中各预设标签的映射关系。将词向量输入多标签分类模型进行sum pooling(求和池化)操作后，再获取各词向量对应的索引。由于服务器预先存储有索引与预设标签库中各预设标签的映射关系，因此根据各词向量对应的索引，可以得到各词向量与各预设标签的映射关系，从而得到各词向量对应的预设标签，进而将各词向量对应的预设标签作为目标应用的目标标签。可以理解的，若词向量的索引在预设标签库中没有对应的预设标签，则表示该词向量不存在对应的预设标签。

通过在将分词通过多标签分类模型来获取应用的标签之前，根据各分词的预设权重进行加权后得到描述文本的特征评分，并在特征评分大于预设阈值时，再将分词通过多标签分类模型来获取应用的标签，从而保证通过多标签分类模型进行处理的描述文本均存在足够明显的特征词，进而确保获取到的标签的准确度。

考虑到当描述文本中不存在足够明显的特征词或不存在特征词时，获取到的标签的准确度不高，为了还能够获取应用足够准确的标签，因此在一实施例中，除图2所示步骤外，还包括：

S15、在检测到特征评分小于或等于预设阈值时，从至少一个数据源中获取针对目标应用的各待选标签，将各待选标签与预设标签库中各预设标签进行相似度匹配，以根据相似度匹配结果从预设标签库中获取至少一个预设标签作为目标标签。

可以理解的，相似度匹配可以通过余弦相似度算法或Jaccard相似系数等常规相似度匹配算法进行相似度匹配。

在一实施例中，当服务器检测到特征评分小于或等于预设阈值时，则将特征评分判定为“无效描述”，即此时描述文本中各分词无法明显地表示出描述文本的特征。在将特征评分判定为“无效描述”时，服务器从多个数据源，如安卓应用商城、IOS应用商城等收集目标应用在各个数据源的所有标签，再从所有标签中选取出N个待选标签。其中，N≥2。

在一实施例中，待选标签的选取方式，可以是将目标应用在各个数据源的所有标签均作为待选标签。或预设需获取的预设标签数量，如10个，若目标应用在各个数据源的所有标签的数量大于预设标签数量，则从所有标签中随机选取10个标签作为待选标签。

在一实施例中，在获取到各待选标签后，将各待选标签分别与预设标签库中各预设标签进行相似度匹配。若在各预设标签库中匹配到与待选标签相似度大于预设值的预设标签，则将该匹配到的预设标签作为目标标签。其中，预设标签库中的各预设标签可以由多位行业资深人士评估制定。

考虑到当描述文本中不存在足够明显的特征词或不存在特征词时，若直接采用单一数据源的标签作为目标应用的目标标签，则可能对于比较新的应用，数据源的标签可能不全，导致获取到的标签不够准确。若直接采用多个数据源的标签作为目标应用的目标标签，则可能由于不同数据源标签的设定标准不同，导致目标标签没有统一的标准，很难起到指导业务的作用，同时数据源的标签质量不可控，很多标签缺乏专业性。因此，当描述文本中不存在足够明显的特征词或不存在特征词时，通过将待选标签与预设标签匹配的方式，从预设标签库中选取出对应的预设标签作为目标标签，使目标标签具有统一的标准，能够有效地起到指导业务的作用。

由于多个数据源获取到的所有标签的数量可能较大，此时为了减少后续预设标签的匹配压力，在一实施例中，从至少一个数据源中获取针对目标应用的各待选标签，包括：从多个数据源中获取目标应用的标签集；将各标签集进行对比去重，获取各待选标签。

在一实施例中，服务器从每个数据源中获取对应的标签集，标签集中存储有目标应用在一个数据源中的所有标签。在获取到各标签集后，将不同标签集中的标签进行比较，对多个同样的标签进行去重，使相同的标签只保留一个。如第一个标签集的标签为A1，B1，C1。第二个标签集的标签为A2，B2，C2。此时将第一个标签集中的所有标签A1、B1，C1分别与第二个标签集的所有标签A2、B2、C2进行比较，若A1与B2相同，则删除A1或B2，使相同的标签只保留一个。通过将不同标签集的标签进行对比去重后，即可得到各待选标签，从而减少后续进行预设标签的匹配时需要重复进行相同标签匹配的情况，减少匹配时的运算压力。

在一实施例中，相同标签的判定方式，可以是当两个标签的相似度大于预设值时，则判定两个标签相同。具体的，将各标签集进行对比去重，包括：将各标签集进行对比，当两个标签集之间存在相似度大于预设值的标签时，在任一标签集中删除所述标签。

示例性的，将第一个标签集中的所有标签A1、B1，C1，与第二个标签集的标签为A2，B2，C2进行相似度匹配，若A1与B2的相似度大于预设值时，则判断A1与B2相同，此时删除A1或B2，使相同的标签只保留一个。

考虑到每个标签都具有对应的类别，如“射击”这一标签的类别为玩法，“三国”这一标签的类别为题材，“二次元”这一标签的类别为风格等，同时预设标签库中的预设标签数量通常较多，此时为减少进行预设标签匹配时的运算量，在一实施例中，将各待选标签与预设标签库中各预设标签进行相似度匹配，以根据相似度匹配结果从预设标签库中获取至少一个预设标签作为目标标签，包括：根据各待选标签的类别，将待选标签与同一类别下的各预设标签进行相似度匹配，以根据相似度匹配结果从预设标签库中获取至少一个预设标签作为目标标签。

示例性的，若待选标签的类别为玩法，则将该待选标签与玩法类别下的各预设标签进行相似度匹配；若待选标签的类别为题材，则将该待选标签与题材类别下的各预设标签进行相似度匹配；若待选标签的类别为风格，则将该待选标签与风格类别下的各预设标签进行相似度匹配。

通过分类匹配的方式，无需在匹配时遍历预设标签库中所有的预设标签，只需在某一个类别下的预设标签中进行遍历，从而减少运算量。

在一个实施例中，如图4所示，提供了一种应用的标签获取装置，包括：

文本获取模块101，用于获取目标应用的描述文本；

文本分词模块102，用于对描述文本进行分词处理，获取多个分词；

评分确定模块103，用于根据各分词的预设权重进行加权，确定描述文本的特征评分；

标签获取模块104，用于对特征评分进行检测，并在检测到特征评分大于预设阈值时，获取各分词的词向量，将各分词的词向量输入训练好的多标签分类模型，以通过多标签分类模型获取目标应用的至少一个目标标签。

在一实施例中，各分词的预设权重根据各分词的词性确定。

在一实施例中，标签获取模块104具体用于：将各词向量输入多标签分类模型，获取各词向量对应的索引，根据各索引从预设标签库中获取至少一个预设标签作为目标标签。

在一实施例中，标签获取模块104还用于：在检测到特征评分小于或等于预设阈值时，从至少一个数据源中获取针对目标应用的各待选标签，将各待选标签与预设标签库中各预设标签进行相似度匹配，以根据相似度匹配结果从预设标签库中获取至少一个预设标签作为目标标签。

在一实施例中，标签获取模块104还用于：从多个数据源中获取目标应用的标签集；将各标签集进行对比去重，获取各待选标签。

在一实施例中，标签获取模块104还用于：将各标签集进行对比，当两个标签集之间存在相似度大于预设值的标签时，在任一标签集中删除所述标签。

在一实施例中，标签获取模块104还用于：根据各待选标签的类别，将待选标签与同一类别下的各预设标签进行相似度匹配，以根据相似度匹配结果从预设标签库中获取至少一个预设标签作为目标标签。

在一个实施例中，提供了一种计算机设备，如图5所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现应用的标签获取方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行应用的标签获取方法。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的应用的标签获取装置可以实现为一种计算机程序的形式，计算机程序可在如图5所示的计算机设备上运行。计算机设备的存储器中可存储组成该应用的标签获取装置的各个程序模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的应用的标签获取方法中的步骤。

在一个实施例中，提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时执行上述应用的标签获取方法的步骤。此处应用的标签获取方法的步骤可以是上述各个实施例的应用的标签获取方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述应用的标签获取方法的步骤。此处应用的标签获取方法的步骤可以是上述各个实施例的应用的标签获取方法中的步骤。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本申请的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种应用的标签获取方法，其特征在于，包括：

获取目标应用的描述文本；

对描述文本进行分词处理，获取多个分词；

2.根据权利要求1所述的应用的标签获取方法，其特征在于，各分词的预设权重根据各分词的词性确定。

3.根据权利要求1所述的应用的标签获取方法，其特征在于，将各分词的词向量输入训练好的多标签分类模型，以通过多标签分类模型获取目标应用的至少一个目标标签，包括：

4.根据权利要求1-3任意一项所述的应用的标签获取方法，其特征在于，还包括：

5.根据权利要求4所述的应用的标签获取方法，其特征在于，从至少一个数据源中获取针对目标应用的各待选标签，包括：

从多个数据源中获取目标应用的标签集；

将各标签集进行对比去重，获取各待选标签。

6.根据权利要求5所述的应用的标签获取方法，其特征在于，将各标签集进行对比去重，包括：

7.根据权利要求4所述的应用的标签获取方法，其特征在于，将各待选标签与预设标签库中各预设标签进行相似度匹配，以根据相似度匹配结果从预设标签库中获取至少一个预设标签作为目标标签，包括：

8.一种应用的标签获取装置，其特征在于，包括：

文本获取模块，用于获取目标应用的描述文本；

9.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任意一项所述的应用的标签获取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-7任意一项所述的标签获取方法。