CN116955447A

CN116955447A - 标签挖掘方法、装置、电子设备及存储介质

Info

Publication number: CN116955447A
Application number: CN202310760345.6A
Authority: CN
Inventors: 付宇; 薛璐影; 白云龙; 吴广发
Original assignee: Baidu China Co Ltd
Current assignee: Baidu China Co Ltd
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-10-27

Abstract

本公开提供了标签挖掘方法、装置、电子设备及存储介质，涉及数据处理技术领域，尤其涉及智能搜索、大数据等领域。具体实现方案为：基于目标文本的句子权重，从目标文本中筛选出关键句子，得到关键句子集合；基于关键句子集合，确定候选标签集合；确定候选标签集合中各候选标签的多个特征信息；基于各候选标签的多个特征信息，从候选标签集合中筛选出目标文本的标签。本公开实施例中基于关键句子挖掘标签可以提高挖掘效率，基于多个特征信息挖掘标签，可以从多个维度描述候选标签，以使得筛选出的标签信息更为准确。

Description

标签挖掘方法、装置、电子设备及存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及智能搜索、大数据等领域。

背景技术

随着计算机技术的发展，各个领域中存在大量的文档。为便于管理文档，一般都会对文档设置标签。基于标签可对文档进行分类、检索等。由于文档过多，可能存在文档的标签与文档内容不符的情况，因此，如何获取文档的标签是一个问题。

发明内容

本公开提供了一种标签挖掘方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种标签挖掘方法，包括：

基于目标文本的句子权重，从目标文本中筛选出关键句子，得到关键句子集合；

基于关键句子集合，确定候选标签集合；

确定候选标签集合中各候选标签的多个特征信息；

基于各候选标签的多个特征信息，从候选标签集合中筛选出目标文本的标签。

根据本公开的另一方面，提供了一种标签挖掘装置，包括：

句子筛选模块，用于基于目标文本的句子权重，从目标文本中筛选出关键句子，得到关键句子集合；

标签获取模块，用于基于关键句子集合，确定候选标签集合；

特征获取模块，用于确定候选标签集合中各候选标签的多个特征信息；

标签筛选模块，用于基于各候选标签的多个特征信息，从候选标签集合中筛选出目标文本的标签。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开中任一实施例的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。

本公开实施例中，基于关键句子挖掘标签可以提高挖掘效率，基于多个特征信息挖掘标签，可以从多个维度描述候选标签，以使得筛选出的标签信息更为准确。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例中标签挖掘方法的流程示意图；

图2是根据本公开另一实施例中权重预测模型的训练方法的流程示意图；

图3是根据本公开另一实施例中标签挖掘方法的示意图；

图4是根据本公开另一实施例中标签挖掘装置的结构示意图；

图5是根据本公开另一实施例中标签挖掘装置的结构示意图；

图6是用来实现本公开实施例的标签挖掘方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在相关技术中，对于文档进行标签挖掘的方式可以分为有监督的方式和无监督的方式。

有监督的方式为针对有限的标签领域，通过对海量的数据进行标注，进而采用传统的分类模型或者实体抽取的方式进行训练，获取对应的抽取模型，基于该抽取模型可实现对文档的标签标注。该方式由于仅针对有限的标签领域，因此存在泛化性低的问题，同时该方式需要大量的人工标注的数据，较为浪费人力资源。

无监督的方式可以为对于文档进行分词处理，可以采用TF-IDF(词频-逆文档频率，Term Frequence-Inverse Document Frequence)获取每个分词结果的权重信息，该方式仅是简单的统计词频，实际应用中抽取的标签准确率较低。

有鉴于此，本公开实施例提出了一种标签挖掘方法，如图1所示，包括：

S101，基于目标文本的句子权重，从目标文本中筛选出关键句子，得到关键句子集合。

其中，目标文本可以为网络文档，也可以为网页中的文字页面等，凡需要获取标签的文本均适用于本公开实施例。

S102，基于关键句子集合，确定候选标签集合。

S103，确定候选标签集合中各候选标签的多个特征信息。

S104，基于各候选标签的多个特征信息，从候选标签集合中筛选出目标文本的标签信息。

其中，由于每个候选标签包括多个特征信息，每种特征信息从不同的维度或角度来描述候选标签的特征，综合考虑不同的特征，有利于得到能够准确描述目标文本的标签。

本公开实施例中，基于句子的权重信息，可以筛选出目标文本中较为重要的句子。该方式可以实现基于少量的关键句子，获取到丰富的候选标签集合。由于无需从整个目标文档中逐句挖掘候选标签，因此节约了资源消耗。此外，关键句子能够传递文档的核心思想，基于关键句子挖掘标签，同时也保证了候选样本标签的全面性和准确性。再结合候选标签集合的多个特征信息，以确定目标文本的标签信息，基于多个特征信息实现了标签预测，可以从多个维度描述候选标签，以使得筛选出的标签信息更为准确。基于无监督的方式，使得本公开实施例不局限于固定领域，因此使得本公开实施例中提出的方式也具有通用性。

本公开实施例提出的标签挖掘方法可以分为以下几个流程：获取关键句子集合，获取候选标签集合，获取各候选标签的特征信息，以及确定目标文本的标签信息，下面对这几个流程进行详细说明：

1)获取关键句子集合

在一些实施例中，基于目标文本的句子权重，从目标文本中筛选出关键句子，得到关键句子集合，可实施为：

步骤A1，基于预设采样率对目标文本中的句子进行采样。

本公开实施例中的预设采样率低于50％。可根据实际需求设置预设采样率。

以预设采样率为20％为例，对目标文本的全部句子中筛选20％的句子，作为采样得到的句子。其中，筛选该20％的句子可以在目标文本重点的部分进行采样。举例来说，在有固定格式的文档中，可以预先标记出重点部分。然后对该重点部分多采样，而对非重点部分少采样。例如，对于专利申请文件，可以对权利要求书重点采样，从而尽可能获得关键句子。

当然，实施时，可根据文档的具体情况设置采样方式。

步骤A2，基于采样得到的句子和指定句子，构建第一句子集合；该指定句子用于描述目标文本的核心内容。

其中，指定句子可以为目标文本的标题、核心句子等。该核心句子可以为摘要中的句子，也可以是基于文本改写技术，由摘要改写成的短句子。针对专利文档，还可以是基于文本改写技术，对权利要求书部分改写获得的短句子。

当然，使用目标文本的标题作为指定句子，可以无需耗费时间进行筛选以及构造，且标题一般可以更为准确地确定目标文本的具体信息，因此可以实现更为高效的获取到指定句子。

当然，指定句子的获取方式可以基于实际情况确定，本公开实施例对此不进行限定。

步骤A3，对第一句子集合中的各句子进行分词处理，得到第一特征词集合。

由于目标文本的篇章过长，对于目标文本的全部句子进行分词处理，会导致耗时过长的问题。因此，本公开实施例中，可以从目标文本中筛选出部分较为重要的句子作为第一句子集合，进行分词处理，进而得到第一特征词集合。

其中，可以使用正向最大匹配法(forward maximum matching method，FMM)对第一句子集合中各句子进行分词操作。

在另一种实施方式中，除了使用上述FMM方法对其进行分词处理外，还可以使用逆向最大匹配法(Backward maximum matching method，BMM)以及双向最大匹配法等对其进行分词处理。本公开对此不进行限定。

步骤A4，基于第一特征词集合，确定目标文本的多个句子的句子权重。

在一些实施例中，由于目标文本篇幅过长，在确定每个句子权重的情况下，可能会存在耗时过长的问题。由于第一特征词集合中的词均为关键词。因此，为了节约时间，可以根据目标文件中每个句子所包含的关键词的情况，确定目标文件的句子权重。例如，针对每个句子，其所包含的关键词越多，则句子权重越大。针对不同的关键词也可以分配不同的权重，则针对每个句子，其包含的关键词越多，且关键词的权重越大，则相应的句子权重越大。由此，实施时，可以基于句子所包含的关键词，加权求和得到句子权重。

在另一种可能的实施方式中，为了节约时间，同时为了能够考虑整个目标文本中的句子情况，确定目标文件中多个句子的句子权重，可实施为：

步骤B1，基于未采样到的句子，构建第二句子集合。

还是以预设采样率为20％为例，将目标文本中20％的句子进行采样后，基于剩下的80％的句子构建第二句子集合。

步骤B2，以第一特征词集合为分词词典，对第二句子集合中的句子进行分词处理，得到第二特征词集合。

其中，第二特征词集合中的词均包含在第一特征词集合中。

实施时，以第一特征词集合为分词词典，可以使用FMM方法对第二句子集合中的句子进行分词处理，在匹配上分词词典的情况下，将该词添加至第二特征词集合中。

在另一种实施方式中，可以对第一特征词集合中的特征词与第二句子集合中的待处理句子进行Aho-Corasick算法(AC自动机)的匹配处理，进而实现对第二句子集合中各句子的分词处理，以得到第二特征词集合。

实施时，以第一特征词集合中的特征词为待匹配字符串，待处理句子构建字典树，基于待匹配字符串对字典树进行匹配，进而可以得到第一特征词中与待处理句子匹配的字符串。即可以理解为，该特征词出现在第一特征词集合中，且出现在第二句子集合中，将该特征词添加到第二特征词集合。

举例来说，第一特征词集合为[学习，成绩，热爱]，使用该集合建立的AC自动机对待处理句子“小明热爱学习和海洋”进行匹配，得到的第二特征词集合为[热爱，学习]，待处理句子中“海洋”这个词即被舍弃。

步骤B3，基于文本的排序方法处理第一特征词集合和第二特征词集合，以得到目标文本的句子间的相似度矩阵。

其中，可以基于文本的排序方法(textrank)处理目标文本中各句子的分词结果，确定第二句子集合中各句子间的相似度，如表达式(1)所示：

其中，Similarity(S_i，S_j)表示目标文本中第i个句子和第j个句子之间的相似度，w_k表示出现在第i个句子，第j个句子以及总特征词集合(即第一特征词集合和第二特征词集合的并集)中的词。

基于表达式(1)可以计算出目标文本各句子与目标文本中其他句子的相似度，进而构建出该句子对应的相似度矩阵。

该相似度矩阵可以如表达式(2)所示：

在相似度矩阵中，第一列表示第1个句子和其他所有句子的相似度，第二列表示第2个句子和其他所有句子的相似度，以此类推，第n列表示第n个句子和其他所有句子的相似度。

如表达式(2)所示，第一列第一行中的S₁₁表示第一个句子和自身的相似度，以此类推，第一列第n行中的S_1n表示第一个句子和第n个句子的相似度。第n列第一行中的S_n1表示第n个句子和第一个句子的相似度，以此类推，直至得到所有句子的相似度。该集合中存在n个句子的情况下，则该句子对应的相似度矩阵的大小为n*n。

步骤B4，基于网页排名方法(PageRank)处理相似度矩阵，得到目标文本的多个句子的句子权重。

其中，网页排名方法用于确定每个句子权重的方式可以如下处理：

基于相似度矩阵以及初始向量进行点乘，该初始向量即为该句子的初始值，点乘后得到第一向量，如表达式(3)所示：

其中，E1表示第一向量，A1表示目标文本中第一个句子的初始权重，A2表示目标文本中第二个句子的初始权重，以此类推。S₁₁到S_nn表示的含义与前述相似，这里不再进行一一赘述。

在得到第一向量的基础上，基于第一向量与随机向量进行点乘，得到第二向量，该随机向量表示该句子与目标文本中其他句子相似概率的随机值，该第二向量如表达式(4)所示：

其中，E2为第二向量，E1为第一向量，n表示目标文本中包括n个句子，表示随机向量。α可以根据经验值确定。

依次迭代，在迭代满足预设次数或向量趋于稳定的情况下，最终得到目标文本中各句子的句子权重。

本公开实施例中，使用第一特征词集合对第二句子集合中的待处理句子进行特征词匹配，得到各句子的分词结果。基于该方式无需对目标文本中每个句子进行耗时的分词操作，由此减少了计算量，以达到节约资源和提高效率的目标。进而结合网页排名方式，可以准确的确定出目标文本的多个句子的句子权重，为了后续处理奠定基础。

步骤A5，从目标文本的多个句子中，筛选句子权重大于权重阈值句子，构建关键句子集合。

本公开实施例中，基于采样到的句子和能够表达核心思想的指定句子，构建第一句子集合；对第一句子集合进行分词处理，可以节约耗时，以便于快速得到第一特征词集合。基于该第一特征词集合与其余句子进行匹配，可筛选出目标文本中较为重要的特征词，该特征词即为可代表目标文本的特征词。进而基于该特征词确定目标文本的多个句子的句子权重，可实现确定出可代表目标文本的关键句子集合，该关键句子集合即为可代表目标文本的关键句子，从而为准确抽取标签奠定了基础。

2)获取候选标签集合

在一些实施例中，基于关键句子集合，确定候选标签集合，可实施为：

步骤C1，对关键句子集合进行分词处理，得到候选分词集合。

其中，进行分词处理的方式可以使用正向最大匹配法，逆向最大匹配法以及双向最大匹配法等。

步骤C2，对候选分词集合中的词进行随机组合，得到扩展词。

基于前述分词处理后，可以对候选分词集合中每个词的类型进行标注，其标注方法可以使用词性标注法(part-of-speech tagging)，该方法可以准确的标注出每个词的类型，其类型包括专有名词、量词、动词、形容词等。获取到每个词的类型后，可以基于每个词的类型进行随机组合。

举例来说，在词类型表示专有名词且该专有名词为完整词的情况下，该词可作为候选标签，无需再次进行组合。在词类型表示专有名词且该专有名词不为完整词的情况下，该词可与其他词性的词进行组合，得到扩展词，将该扩展词作为候选标签。同理，在词类型表示形容词、动词的情况下，将该词与其他词性的词进行组合，得到扩展词，将该扩展词作为候选标签。

举例来说，候选标签集合为“三年级、学生、学习、语文”，对其进行随机组合，得到的扩展词可以为“三年级语文、三年级学生、三年级学生、学习学生”等。显然，这里“三年级语文”相对原始的各个单个的分词更有意义。后续，通过多个维度的特征信息，可以将有意义的扩展词筛选出来，并将意义不大的扩展词过滤掉。

步骤C3，基于扩展词和候选分词集合，构建候选标签集合。

需要说明的是，应基于扩展词和候选分词集合获取并集，剔除掉重复的词，进而获取到候选标签集合。

本公开实施例中，基于关键句子进行分词处理，得到的候选分词集合中皆为目标文本的关键词，由于得到的关键词粒度较细，覆盖面较小。因此对候选分词集合中的词进行随机组合，得到扩展词，将细粒度的关键词进行扩展，使其更能表达目标文本的内容，使其候选标签更为丰富。

3)获取各候选标签的特征信息

由于前述获取的候选标签为随机组合的标签，因此需要基于每个候选标签的特征信息对其进行再次筛选。针对每个候选标签，候选标签的多个特征信息，包括以下中的至少一种：

a)第一特征，基于无监督的关键词提取方法确定的候选标签的分值。

在一些实施例中，在各候选标签的多个特征信息包括第一特征的情况下，针对每个候选标签，确定候选标签的第一特征，可实施为：

步骤D1，获取各候选标签的多个预设子特征信息。

其中，可以基于YAKE(Yet Another Keyword Extractor，无监督的关键词提取算法)获取候选标签的多个预设子特征信息。

步骤D2，基于多个预设子特征信息计算联合计算指标，以得到第一特征。

其中，联合计算指标的计算公式如表达式(5)所示：

H＝WPos*WRel/dist (5)

其中，dist可以基于表达式(6)得到，WRel可以基于表达式(7)得到，WPos可以基于表达式(14)得到。其中，预设子特征信息为用于公式(5)的参数。

dist＝(WCase+WTCase+(WFreq/WRel)+(WSpread/WRel)) (6)

其中，WRel可以基于表达式(7)得到，WCase可以基于表达式(10)得到，WTCase可以基于表达式(11)得到，WFreq可以基于表达式(12)得到，WSpread可以基于表达式(13)得到。

WRel＝(0.5+(PWL*(TF/maxTF)))+(0.5+(PWR*(TF/maxTF))) (7)

其中，PWL可以基于表达式(8)得到，PWR可以基于表达式(9)得到，TF表示候选标签的词频，maxTF表示所有候选词中的最大词频。

PWL＝WDL/WIL (8)

其中，WDL表示的是一个有向图该节点的入度个数(该有向图的节点为一个分词，边为该节点与邻边节点同在一个滑动窗口进行连接)；WIL为表示的是一个有向图该节点的入度边的加权求和，边的权重是指该节点与邻接节点同在一个滑动窗口的次数。

PWR＝WDR/WIR (9)

其中，WDR表示的是一个有向图该节点的出度个数(该有向图的节点为一个分词，边为该节点与邻边节点同在一个滑动窗口进行连接)；WIR表示的是一个有向图该节点的出度边的加权求和，边的权重是指该节点与邻接节点同在一个滑动窗口的次数。

WCase＝TF-a/(1+log(TF)) (10)

其中，TF-a表示专有名词词频，TF表示候选标签的词频。在候选标签为专有名词的情况下，TF-a和TF统计一个即可，此时TF-a是指候选标签是专有名词的情况下，候选标签的词频。该种情况下，对于非专有名词的候选标签，WCase的取值将为0。

在另一种实施例中，TF-a还可以是目标文本中所有专有名词的词频。

WTCase＝TF-t/(1+log(TF)) (11)

其中，TF-t表示句首名词词频，TF表示候选标签的词频。在候选标签未作为句首名词出现的情况下，其对应的WTCase为0。

WFreq＝TF/(avgTF+stdTF) (12)

其中，TF表示候选标签的词频，avgTF表示所有候选标签的词频的平均值，stdTF表示所有候选标签的词频的标准差，当然，也可以采用方差。

WSpread＝len(occurs)/number_of_sentence (13)

其中，len(Occurs)表示计算包含该候选标签的句子个数，number_of_sentence表示目标文本的句子总数。

WPos＝log(log(3+np.median(list(occurs.keys())))) (14)

其中，occurs.keys()表示该候选标签所在句子的ID(Identity document，身份证标识号)，也可以认为是句子的序列号。list表示包含该候选标签的句子列表。np.median表示取中位数。

本公开实施例中，基于无监督方式获取的多个预设子特征信息，得到联合计算指标，该指标汇总了候选标签的多个子特征信息，进而获取到全面的第一特征，进而为后续获取精确地目标文本标签奠定了基础。

b)第二特征，用于表示候选标签与指定句子之间的相似度。

其中，如前文所阐述的，指定句子用于描述目标文本的核心内容。

在一些实施例中，在各候选标签的多个特征信息包括第二特征的情况下，针对每个候选标签，确定候选标签的第二特征，可实施为：

步骤E1，获取指定句子的句子特征。

其中，指定句子可以为目标文本的标题，核心句子等。该核心句子可以为摘要中的句子，也可以基于关键短语技术，获取关键短语，进而基于关键短语构建核心句子。

对于指定句子进行分词处理，可以先获取每个词对应的词向量。进而每个词的类型进行标注，其标注方法可以使用词性标注法，该方法可以准确的标注出每个词的类型，其类型包括人名、地名、量词、动词、形容词等。获取到指定句子中每个词的类型后，可以基于每个词的类型赋予权重。基于每个词的权重对每个词的特征向量进行加权求和，进而得到指定句子的句子特征。

可以基于Embedding(嵌入向量)获取指定句子中每个词的特征向量。

步骤E2，确定指定句子的句子特征和候选标签的词嵌入特征之间的相似度，得到第二特征。

其中，可以基于余弦相似度确定指定句子的句子特征和候选标签的词嵌入特征之间的相似度。

本公开实施例中，由于指定句子可以代表目标文本的核心内容，因此计算候选标签的词嵌入特征以及指定句子的句子特征之间的相似性，可以衡量候选特征词对目标文本的重要性，以此帮助准确的筛选出标签。

c)第三特征，用于表示候选标签的权重。

在一些实施例中，在各候选标签的多个特征信息包括第三特征的情况下，针对每个候选标签，确定候选标签的第三特征，可实施为：

步骤F1，基于无监督的关键词提取方法，提取候选标签的多个统计特征，得到统计特征集合。

其中，无监督的关键词提取方法可以为YAKE方式，进而得到前述的多个基础特征。

该统计特征可以为前述得到的预设子特征信息。举例来说，可以为TF-a、TF-t、WRel、maxTF、WFreq、WSpread、WCase、WTCase、WPos，当然也可以使用PL、PR、WSDist等信息。

其中，计算PL的方式可如表达式(15)所示：

PL＝WDL/maxTF (15)

其中，WDL、maxTF表示的含义与前述相同，这里不再进行赘述。

计算PR的方式可如表达式(16)所示：

PR＝WDR/maxTF (16)

其中，WDR、maxTF表示的含义与前述相同，这里不再进行赘述。

计算WSDist的方式可如表达式(17)所示：

WSDist＝math.log(math.log(3+SDIST)) (17)

其中，SDIST表示输入时，存在候选标签对应句子的ID序列的情况下，计算候选标签所在的句子和相邻句子的序列号之前的差值，得到一个差值序列，计算该差值序列中的标准差和长度的比值。

其他特征的计算方式与前文类似，这里不再进行一一赘述。

需要说明的是，可以将每个候选标签对应的预设子特征信息以矩阵的形式展示，由于每个候选标签的有些预设子特征信息不存在，即可以将矩阵中该特征对应的位置设为0。举例来说，候选标签为“三年级”未出现在句首位置，即子特征TF-t对应的位置即可以设为0。

此外，在其它实施例中，还可以使用统计函数的方式对预设子特征信息进行统计分析，以得到候选标签的统计特征，该统计函数可以为求和函数(mean)，求标准差函数(std)，求最大值函数(max)，求中位数函数(media)等函数，可以基于基础特征的具体内容确定使用具体的函数，本公开实施例对此不进行限定。

步骤F3，将候选标签的统计特征集合，以及第二特征输入权重预测模型，得到第三特征。

其中，权重预测模型是基于二分类训练得到的，在训练阶段权重预测模型基于预测的权重对输入样本进行分类，二分类的类别包括对文本重要，和对文本不重要。

其中，权重预测模型可以为XGBoost(eXtremeGradient Boosting)模型。

其中，对于权重预测模型的训练过程如下步骤，如图2所示，包括：

S201，对样本特征词进行标注，得到类别标签；类别标签为二分类标签。

S202，将样本特征词的特征信息输入待训练模型，得到样本特征词的权重信息。

该特征信息包括前述第一特征、第二特征以及第三特征。

S203，基于权重信息对样本特征词进行二分类，得到预测类别。

S204，基于预测类别和类别标签，确定损失值，损失值用于调整待训练模型参数。

S205，在待训练模型满足预设条件的情况下，结束训练得到权重预测模型。

其中，预设条件可以为损失值趋于稳定，或迭代次数满足预设阈值。

本公开实施例中，结合多种特征输入权重预测模型，在训练过程中可以使得模型学习到更多特征，使其具有泛化性。在标签挖掘过程中，使用多种特征的结合使得输出的权重结果更为准确。

本公开实施例中，将候选标签的多种特征信息结合，可以全面的获取到该候选标签的具体信息，进而基于该特征信息可以获取到准确的目标文本的标签信息。

4)确定目标文本的标签信息

在一些实施例中，基于各候选标签的多个特征信息，从候选标签集合中筛选出目标文本的标签，可实施为：将多个特征信息分别跟相应的阈值进行比较；选择各特征信息均大于相应阈值的候选标签作为目标文本的标签。

由于本提案中具备多个特征信息，因此可以将每个特征信息都设置对应的预设条件，在候选标签的每个特征信息都满足对应的预设条件的情况下，将该候选标签确定为目标文本的标签。在候选标签的任一特征信息不满足其对应的预设条件的情况下，则将该候选标签进行舍弃处理。

本公开实施例中，对每个特征信息均设置预设条件，可以为目标文本筛选出更为准确的标签。

为了更为详细的了解本公开实施例中提出的标签挖掘方法，该方式的整体流程框图，如图3所示，将文档进行分割，得到多个句子。以预设采样率为20％对目标文本进行采样，得到第一句子集合，对于第一句子集合进行分词处理，得到第一特征词集合；基于目标文本中未采样到的80％的句子，构建第二句子集合；以第一特征词集合为分词词典，基于AC自动匹配机对第二句子集合中的句子进行分词处理，得到第二特征词集合；基于文本的排序方法处理第一特征词集合和第二特征词集合，以得到目标文本的句子间的相似度矩阵；基于网页排名方法处理相似度矩阵，得到目标文本的多个句子的句子权重。从目标文本的多个句子中，筛选句子权重大于权重阈值句子，构建关键句子集合。基于关键句子集合构建候选标签集合。针对后续标签集合中的每个候选标签，基于无监督YAKE算法获取第一特征，基于Embedding向量获取第二特征，将基于YAKE算法提取的统计特征以及第二特征输入XGBoost权重模型，得到候选标签对应的第三特征。进而将候选标签的第一特征、第二特征、第三特征与相应的阈值进行比较，选择各特征信息均大于相应阈值的候选标签作为目标文本的标签。

在一些实施例中，本公开实施例还提供一种标签挖掘装置400，如图4所示，包括：

句子筛选模块401，用于基于目标文本的句子权重，从目标文本中筛选出关键句子，得到关键句子集合；

标签获取模块402，用于基于关键句子集合，确定候选标签集合；

特征获取模块403，用于确定候选标签集合中各候选标签的多个特征信息；

标签筛选模块404，用于基于各候选标签的多个特征信息，从候选标签集合中筛选出目标文本的标签。

在一些实施例中，在图4的基础上，本公开实施例还提供一种标签挖掘装置500，如图5所示，句子筛选模块，包括：

采样单元501，用于基于预设采样率对目标文本中的句子进行采样；

构建单元502，用于基于采样到的句子和指定句子，构建第一句子集合；指定句子用于描述目标文本的核心内容；

处理单元503，用于对第一句子集合中的各句子进行分词处理，得到第一特征词集合；

句子权重确定单元504，用于基于第一特征词集合，确定目标文本的多个句子的句子权重；

筛选单元505，用于从目标文本的多个句子中，筛选句子权重大于权重阈值句子，构建关键句子集合。

在一些实施例中，句子权重确定单元，用于：

基于目标文本中未采样到的句子，构建第二句子集合；

以第一特征词集合为分词词典，对第二句子集合中的句子进行分词处理，得到第二特征词集合；

基于文本的排序方法处理第一特征词集合和第二特征词集合，以得到目标文本的句子间的相似度矩阵；

基于网页排名方法处理相似度矩阵，得到目标文本的多个句子的句子权重。

在一些实施例中，指定句子包括目标文本的标题。

在一些实施例中，标签获取模块，用于：

对关键句子集合进行分词处理，得到候选分词集合；

对候选分词集合中的词进行随机组合，得到扩展词；

基于扩展词和候选分词集合，构建候选标签集合。

在一些实施例中，针对每个候选标签，候选标签的多个特征信息，包括以下中的至少一种：

第一特征，基于无监督的关键词提取方法确定的候选标签的分值；

第二特征，用于表示候选标签与指定句子之间的相似度；指定句子用于描述目标文本的核心内容；

第三特征，用于表示候选标签的权重。

在一些实施例中，在各候选标签的多个特征信息包括第一特征的情况下，针对每个候选标签，确定候选标签的第一特征，特征获取模块，用于：

获取候选标签的多个预设子特征信息；

基于多个预设子特征信息计算联合计算指标，以得到第一特征。

在一些实施例中，在各候选标签的多个特征信息包括第二特征的情况下，针对每个候选标签，确定候选标签的第二特征，特征获取模块，用于：

获取指定句子的句子特征；

确定指定句子的句子特征和候选标签的词嵌入特征之间的相似度，得到第二特征。

在一些实施例中，在各候选标签的多个特征信息包括第三特征的情况下，针对每个候选标签，确定候选标签的第三特征，特征获取模块，用于：

基于无监督的关键词提取装置，提取候选标签的多个统计特征，得到统计特征集合；

将候选标签的统计特征集合，以及第二特征输入权重预测模型，得到第三特征；

在一些实施例中，标签筛选模块，用于：

将多个特征信息分别跟相应的阈值进行比较；

选择各特征信息均大于相应阈值的候选标签作为目标文本的标签。

本公开实施例的装置的各模块、子模块/单元的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如标签挖掘方法。例如，在一些实施例中，标签挖掘方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的标签挖掘方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行标签挖掘方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种标签挖掘方法，包括：

基于目标文本的句子权重，从所述目标文本中筛选出关键句子，得到关键句子集合；

基于所述关键句子集合，确定候选标签集合；

确定所述候选标签集合中各候选标签的多个特征信息；

基于各候选标签的多个特征信息，从所述候选标签集合中筛选出所述目标文本的标签。

2.根据权利要求1所述的方法，其中，所述基于目标文本的句子权重，从所述目标文本中筛选出关键句子，得到关键句子集合，包括：

基于预设采样率对所述目标文本中的句子进行采样；

基于采样到的句子和指定句子，构建第一句子集合；所述指定句子用于描述所述目标文本的核心内容；

对所述第一句子集合中的各句子进行分词处理，得到第一特征词集合；

基于所述第一特征词集合，确定所述目标文本的多个句子的句子权重；

从所述目标文本的多个句子中，筛选句子权重大于权重阈值句子，构建所述关键句子集合。

3.根据权利要求2所述的方法，其中，所述基于所述第一特征词集合，确定所述目标文本的多个句子的句子权重，包括：

基于所述目标文本中未采样到的句子，构建第二句子集合；

以所述第一特征词集合为分词词典，对所述第二句子集合中的句子进行分词处理，得到第二特征词集合；

基于文本的排序方法处理所述第一特征词集合和所述第二特征词集合，以得到所述目标文本的句子间的相似度矩阵；

基于网页排名方法处理所述相似度矩阵，得到所述目标文本的多个句子的句子权重。

4.根据权利要求2所述的方法，其中，所述指定句子包括所述目标文本的标题。

5.根据权利要求1-4中任一项所述的方法，其中，所述基于所述关键句子集合，确定候选标签集合，包括：

对所述关键句子集合进行分词处理，得到候选分词集合；

对所述候选分词集合中的词进行随机组合，得到扩展词；

基于所述扩展词和所述候选分词集合，构建所述候选标签集合。

6.根据权利要求1-5中任一项所述的方法，针对每个候选标签，所述候选标签的多个特征信息，包括以下中的至少一种：

第一特征，基于无监督的关键词提取方法确定的所述候选标签的分值；

第二特征，用于表示所述候选标签与指定句子之间的相似度；所述指定句子用于描述所述目标文本的核心内容；

第三特征，用于表示所述候选标签的权重。

7.根据权利要求6所述的方法，在各候选标签的多个特征信息包括第一特征的情况下，针对每个候选标签，确定所述候选标签的所述第一特征，包括：

获取所述候选标签的多个预设子特征信息；

基于多个所述预设子特征信息计算联合计算指标，以得到所述第一特征。

8.根据权利要求6所述的方法，在各候选标签的多个特征信息包括第二特征的情况下，针对每个候选标签，确定所述候选标签的所述第二特征，包括：

获取所述指定句子的句子特征；

确定所述指定句子的句子特征和所述候选标签的词嵌入特征之间的相似度，得到所述第二特征。

9.根据权利要求6所述的方法，在各候选标签的多个特征信息包括第三特征的情况下，针对每个候选标签，确定所述候选标签的所述第三特征，包括：

基于无监督的关键词提取方法，提取所述候选标签的多个统计特征，得到统计特征集合；

将所述候选标签的统计特征集合，以及所述第二特征输入权重预测模型，得到所述第三特征；

其中，所述权重预测模型是基于二分类训练得到的，在训练阶段所述权重预测模型基于预测的权重对输入样本进行分类，二分类的类别包括对文本重要，和对文本不重要。

10.根据权利要求1-9中任一项所述的方法，其中，所述基于各候选标签的多个特征信息，从所述候选标签集合中筛选出所述目标文本的标签，包括：

将所述多个特征信息分别跟相应的阈值进行比较；

选择各特征信息均大于相应阈值的候选标签作为所述目标文本的标签。

11.一种标签挖掘装置，包括：

句子筛选模块，用于基于目标文本的句子权重，从所述目标文本中筛选出关键句子，得到关键句子集合；

标签获取模块，用于基于所述关键句子集合，确定候选标签集合；

特征获取模块，用于确定所述候选标签集合中各候选标签的多个特征信息；

标签筛选模块，用于基于各候选标签的多个特征信息，从所述候选标签集合中筛选出所述目标文本的标签。

12.根据权利要求11所述的装置，其中，所述句子筛选模块，包括：

采样单元，用于基于预设采样率对所述目标文本中的句子进行采样；

第一构建单元，用于基于采样到的句子和指定句子，构建第一句子集合；所述指定句子用于描述所述目标文本的核心内容；

处理单元，用于对所述第一句子集合中的各句子进行分词处理，得到第一特征词集合；

句子权重确定单元，用于基于所述第一特征词集合，确定所述目标文本的多个句子的句子权重；

筛选单元，用于从所述目标文本的多个句子中，筛选句子权重大于权重阈值句子，构建所述关键句子集合。

13.根据权利要求12所述的装置，其中，所述句子权重确定单元，用于：

基于所述目标文本中未采样到的句子，构建第二句子集合；

14.根据权利要求12所述的装置，其中，所述指定句子包括所述目标文本的标题。

15.根据权利要求11-14中任一项所述的装置，其中，所述标签获取模块，用于：

对所述关键句子集合进行分词处理，得到候选分词集合；

对所述候选分词集合中的词进行随机组合，得到扩展词；

16.根据权利要求11-15中任一项所述的装置，针对每个候选标签，所述候选标签的多个特征信息，包括以下中的至少一种：

第一特征，基于无监督的关键词提取装置确定的所述候选标签的分值；

第三特征，用于表示所述候选标签的权重。

17.根据权利要求16所述的装置，在各候选标签的多个特征信息包括第一特征的情况下，针对每个候选标签，确定所述候选标签的所述第一特征，所述特征获取模块，用于：

获取所述候选标签的多个预设子特征信息；

18.根据权利要求16所述的装置，在各候选标签的多个特征信息包括第二特征的情况下，针对每个候选标签，确定所述候选标签的所述第二特征，所述特征获取模块，用于：

获取所述指定句子的句子特征；

19.根据权利要求16所述的装置，在各候选标签的多个特征信息包括第三特征的情况下，针对每个候选标签，确定所述候选标签的所述第三特征，所述特征获取模块，用于：

20.根据权利要求11-19中任一项所述的装置，其中，所述标签筛选模块，用于：

将所述多个特征信息分别跟相应的阈值进行比较；

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。