CN112948573A

CN112948573A - 文本标签的提取方法、装置、设备和计算机存储介质

Info

Publication number: CN112948573A
Application number: CN202110163478.6A
Authority: CN
Inventors: 杨浩; 刘昊; 肖欣延; 洪豆
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-06-11
Anticipated expiration: 2041-02-05
Also published as: CN112948573B

Abstract

本公开公开了文本标签的提取方法、装置、设备和计算机存储介质，涉及人工智能技术领域中的自然语言处理和深度学习技术。具体实现方案为：获取文本包含的各词项，所述词项由相邻的N个词语组成，所述N为预设的至少一个正整数；依据各词项在所述文本中的出现顺序建立有向图；在所述有向图中分别确定各词项的中介中心性；依据所述各词项的中介中心性，从所述各词项中筛选出所述文本的标签。本公开能够准确地实现文本标签的提取。

Description

文本标签的提取方法、装置、设备和计算机存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能技术领域中的自然语言处理和和深度学习技术。

背景技术

在自然语言处理领域，无论是长文本还是短文本，均可以通过一些标签来表示整个文本的主题思想。与此同时，无论是文本推荐还是文本搜索，也均依赖于文本标签。标签提取的准确程度直接影响文本推荐系统和搜索系统的最终效果。

发明内容

本公开提供了一种文本标签的提取方法、装置、设备、计算机存储介质以及计算机程序产品，以便于准确地实现文本标签的提取。

根据本公开的第一方面，提供了一种文本标签的提取方法，包括：

获取文本包含的各词项，所述词项由相邻的N个词语组成，所述N为预设的至少一个正整数；

依据各词项在所述文本中的出现顺序建立有向图；

在所述有向图中分别确定各词项的中介中心性；

依据所述各词项的中介中心性，从所述各词项中筛选出所述文本的标签。

根据本公开的第二方面，提供了一种获取文本集合中各文本包含的各词项，所述词项由相邻的N个词语组成，所述N为预设的至少一个正整数；

依据各词项在各文本中的出现顺序建立有向图；

在所述有向图中分别确定各词项的中介中心性；

依据所述各词项的中介中心性，从所述各词项中筛选出标签；

利用筛选出的标签，得到标签词典。

根据本公开的第三方面，提供了一种文本标签的提取方法，包括：

获取目标文本；

确定标签词典中与所述目标文本匹配的标签作为所述目标文本的标签；

其中，所述标签词典采用上述的方法预先建立。

根据本公开的第四方面，提供了一种文本标签的提取装置，包括：

第一获取单元，用于获取文本包含的各词项，所述词项由相邻的N个词语组成，所述N为预设的至少一个正整数；

第一构建单元，用于依据各词项在所述文本中的出现顺序建立有向图；

第一筛选单元，用于在所述有向图中分别确定各词项的中介中心性；依据所述各词项的中介中心性，从所述各词项中筛选出所述文本的标签。

根据本公开的第五方面，提供了一种挖掘标签词典的装置，包括：

第二获取单元，用于获取文本集合中各文本包含的各词项，所述词项由相邻的N个词语组成，所述N为预设的至少一个正整数；

第二构建单元，用于依据各词项在各文本中的出现顺序建立有向图；

第二筛选单元，用于在所述有向图中分别确定各词项的中介中心性；依据所述各词项的中介中心性，从所述各词项中筛选出标签；

词典建立单元，用于利用所述第二筛选单元筛选出的标签，得到标签词典。

根据本公开的第六方面，提供了一种文本标签的提取装置，包括：

第三获取单元，用于获取目标文本；

标签提取单元，用于确定标签词典中与所述目标文本匹配的标签作为所述目标文本的标签；

其中，所述标签词典采用上述的装置预先建立。

根据本公开的第七方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的第八方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的第九方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

由以上技术方案可以看出，本公开针对文本基于词项的中介中心性来筛选标签，提高了标签提取的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例一提供的文本标签的提取方法的流程图；

图2为本公开实施例二提供的挖掘标签词典的方法流程图；

图3为本公开实施例三提供的文本标签的提取方法流程图；

图4为本公开实施例四提供的文本标签的提取装置的结构图；

图5为本公开实施例五提供的挖掘标签词典的装置的结构图；

图6为本公开实施例六提供的文本标签的提取装置的结构图；

图7是用来实现本公开实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实施例一、

图1为本公开实施例一提供的文本标签的提取方法的流程图，该方法的执行主体为文本标签的提取装置，该装置可以位于服务器端，也可以位于具有较强计算能力的计算机设备。上述服务器端可以采用服务器集群的形式。该装置可以体现为应用，也可以体现为应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元。如图1中所示，该方法可以包括以下步骤：

在101中，获取文本包含的各词项。

本实施例中涉及的文本指的是需要提取标签的文本。根据不同的应用场景，需要提取标签的文本也不相同。可以是互联网中的网页文本，例如，从网页新闻中提取标签。可以是文献数据库中的文献文本，例如从某篇论文中提取标签。可以从网页或文献等中的一部分文本中提取标签，例如从新闻摘要中提取标签。

本步骤中获取的词项由相邻的N个词语组成，N为预设的至少一个正整数。也就是说，词项可以是N-gram(N元组)。

作为一种实现方式，可以仅从文本中获取一种N取值的词项。例如，可以获取文本包含的各1-gram，或者，获取文本包含的2-gram。

作为一种优选的实施方式，可以从文本中获取不同N取值的词项。例如，获取文本包含的1-gram、2-gram和3-gram，将获取的各1-gram、2-gram和3-gram均作为词项。

以文本“猫正在捉老鼠”为例，可以获取如下词项：

1-gram：“猫”、“正在”、“捉”、“老鼠”；

2-gram：“猫正在”、“正在捉”、“捉老鼠”；

3-gram：“猫正在捉”、“正在捉老鼠”。

在102中，依据各词项在文本中的出现顺序建立有向图。

建立的有向图体现了各词项在文本中的前后顺序关系。其中，有向图的各节点可以为各词项，各节点之间边的指向关系依据各词项在文本中的出现顺序确定。

其中，作为一种实现方式，两个节点只要在文本中前后相邻出现过，就增加一条该两个节点之间的有向边。还可以存在另外一种实现方式，两个节点之间只有一条边，但边的权重依据两个节点相邻出现的次数确定。

举个例子，假设词项A和词项B在文本中相邻且前后出现，则在有向图中，节点1对应词项A，节点2对应词项B，且存在节点1指向节点2的边。若在文本中词项A和词项B共在文本中相邻且前后出现5次，则可以在有向图中，存在节点1指向节点2的5条边，或者存在节点1指向节点2的一条边，但为该边的权重赋值5。

在103中，在有向图中分别确定各词项的中介中心性。

中介中心性(betweenness)是由美国社会学家林顿·弗里曼教授提出的一个概念，是用以量化节点在有向图中地位重要性的图论概念。

节点u的中介中心性B(u)的定义可以表示为如下公式：

其中，s和t为有向图中的任意两个不相同且不是u的节点。p为节点s和t之间最短路径的总数，p(u)为节点s和t之间经过节点u的最短路径的数量。

在本公开中使用了各词项的中介中心性来作为各词项在文本中重要程度的度量因素。在其他因素相同的情况下，一个词项的中介中心性越大，则该词项在文本中越重要，就越可能成为文本的标签。关于中介中心性的计算方法可以采用目前已有的成熟技术，在此不做详述。

在104中，依据各词项的中介中心性，从各词项中筛选出上述文本的标签。

在本步骤中，可以直接依据各词项的中介中心性对各词项进行排序，依据排序结果筛选出文本的标签。例如排在前预设数量的词项作为上述文本的标签。

除了单纯依靠中介中心性来筛选文本标签之外，还可以结合一些其他因素。例如词项的长度、出现次数、出现位置等等。

作为一种优选的实施方式，可以结合各词项的中介中心性和长度来筛选文本的标签。一般情况下相同的中介中心性前提下，长度越长的词语越能够更准确地表达文本语义。例如“新能源汽车”比“新能源”和“汽车”都能够更好的表达文本语义。因此，具体地，可以分别依据各词项的中介中心性和长度，确定各词项的排序得分；例如将各词项的中介中心性和长度值进行加权求和、加权求平均等处理从而得到排序得分。然后从各词项中筛选出排序得分满足预设条件的词项作为文本的标签。例如选择排序得分超过预设第一得分阈值，或者选择排序得分排在前预设第一数量的词项作为文本的标签。

需要说明的是，本公开中涉及的“第一”、“第二”等，例如“第一数量”、“第二数量”、“第一训练数据”、“第二训练数据”等中的“第一”、“第二”，均不具备顺序、大小、数量等限制含义，仅仅是用以在名称上进行区分。

在一些情况下，可能筛选出的词项并不符合语义，也就不适合作为文本标签。因此，为了进一步提高文本标签提取的准确性，该方法还可以进一步包括步骤105：利用预先训练得到的文本分类模型，识别筛选出的文本的标签是否符合语义标准，从筛选出的标签中过滤掉不符合语义标准的标签。

其中文本分类模型用以识别文本是否符合语义标准，即在输入文本后，输出结果为：符合语义标准或者不符合语义标准。

作为其中一种实现方式，文本分类模型可以采用如下方式预先训练得到：首先获取第一训练数据，第一训练数据可以包括标签样本以及对该标签样本标注的是否符合语义标准的标注结果。即可以预先收集一些符合语义标准的标签和不符合语义标准的标签并对其进行标注后，构成训练数据。然后，将各标签样本作为文本分类模型的输入，将各标签样本对应的标注结果作为文本分类模型的目标输出，训练文本分类模型。

其中文本分类模型可以为基于CNN(Convolutional Neural Networks，卷积神经网络)的文本分类模型，也可以采用其他诸如基于BERT(Bidirectional EncoderRepresentations from Transformers，Transformer的双向编码表示)的文本分类模型等等。

通过上述实施例中的方式，能够针对文本基于词项的中介中心性来筛选标签，提高了标签提取的准确性。并且整个提取流程完全自动化，无需人工参与，降低了人工成本、提高了效率。

上述思路除了上述实施例一的用法之外，还可以用于进行标签词典的挖掘。所谓标签词典中包含的是标签，在针对各文本进行标签提取时必须受限于该标签词典，即提取的标签必须是标签词典中的标签。下面结合实施例二对挖掘标签词典的过程进行详细描述。

实施例二、

图2为本公开实施例二提供的挖掘标签词典的方法流程图，该方法的执行主体为文本标签的挖掘装置，该装置可以位于服务器端，也可以位于具有较强计算能力的计算机设备。上述服务器端可以采用服务器集群的形式。该装置可以体现为应用，也可以体现为应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元。如图2中所示，该方法可以包括以下步骤：

在201中，获取文本集合中各文本包含的各词项。

在本实施例中可以预先收集大量的文本来构成文本集合。收集的文本可以来自互联网，也可以来自特定数据库；可以是不区分领域的各种文本，也可以是特定领域的文本。

获取到文本集合后，分别从各文本中获取各词项。与实施例一中相同的，本步骤中获取的词项由相邻的N个词语组成，N为预设的至少一个正整数。也就是说，词项可以是N-gram。具体参见实施例一中的相关记载。

在202中，依据各词项在各文本中的出现顺序建立有向图。

本步骤中建立有向图的过程与实施例一中类似，不同之处在于，本实施例是利用文本集合包含的所有词项来建立的有向图，实施例一是利用单一文本包含的词项来建立有向图。

在203中，在有向图中分别确定各词项的中介中心性。

因为有向图是利用文本集合包含的所有词项来建立的，因此，本步骤中确定的词项的中介中心性体现了各词项在文本集合整体上所体现出的重要程度，更具普适性。

上述两个步骤中建立有向图和确定中介中心性的具体内容可以参见实施例一中的相关记载，在此不做赘述。

在204中，依据各词项的中介中心性，从各词项中筛选出标签。

本步骤也与实施例一中类似。作为一种优选的实施方式，可以结合各词项的中介中心性和长度来筛选标签。具体地，可以分别依据各词项的中介中心性和长度，确定各词项的排序得分；例如将各词项的中介中心性和长度值进行加权求和、加权求平均等处理从而得到排序得分。然后从各词项中筛选出排序得分满足预设条件的词项作为文本的标签。例如选择排序得分超过预设第二得分阈值，或者选择排序得分排在前预设第二数量的词项作为文本的标签。

在205中，利用筛选出的标签，得到标签词典。

本步骤中可以将所有筛选出的标签构成标签词典，也可以与实施例一中类似的，利用预先训练得到的文本分类模型识别筛选出的标签是否符合语义标准，从筛选出的标签中过滤掉不符合语义标准的标签后，得到标签词典。

另外，在本实施例中，若步骤201中收集的文本集合是包含各种领域的文本，那么该标签词典也可以作为普适的的标签词典用以对各种类型的目标文本(即待提取标签的文本)进行标签提取。若步骤202中收集的文本集合是针对特定领域的文本，那么该标签词典可以作为该特定领域的标签词典，用以对该特定领域的目标文本进行标签提取。

通过该实施例中的方式，能够针对文本集合中的各文本分别基于词项的中介中心性来筛选标签，从而得到标签词典，提高了标签词典的准确性。并且整个提取流程完全自动化，无需人工参与，降低了人工成本、提高了效率。

下面结合实施例三对基于标签词典的文本标签的提取方法进行详细描述。

实施例三、

图3为本公开实施例三提供的文本标签的提取方法流程图，如图3中所示，该方法可以包括以下步骤：

在301中，获取目标文本。

在本实施例三中为了与实施例二中挖掘标签词典中使用的文本进行区分，将本实施例中待提取标签的文本称为目标文本。

在302中，确定标签词典中与目标文本匹配的标签作为目标文本的标签。

本步骤中，在确定标签词典中与目标文本匹配的标签时，主要分为以下三种情况：

第一种情况：在目标文本中出现的与标签词典完全一致的标签。

这种情况实际上是标签的显示召回，即召回在目标文本中出现的标签。作为其中一种实施方式，可以将标签词典中的各标签分别在目标文本中查询，以确定在目标文本中出现的标签。例如，标签词典中有标签“人工智能”，则将“人工智能”在目标文本中进行查询，如果目标文本中也存在“人工智能”，则认为该标签与目标文本匹配。

作为另一种实现方式，可以采用关键词提取算法从目标文本中提取属于标签词典的标签。其中关键词提取算法可以采用目前较为成熟的TF-IDF关键词提取算法、TextRank关键词提取算法等等，具体提取方式在此不做详述。在利用这些关键词提取算法从目标文本中提取出关键词后，仅筛选出属于标签词典的关键词作为与目标文本匹配的标签。

第二种情况：在目标文本中非连续出现的词语组合构成的属于标签词典中的标签。

对于由两个或以上词语构成的复合词，可能会出现标签词典中复合词的标签中各词语在目标文本中非连续出现。例如标签词典中有标签“新能源汽车”，但“新能源”和“汽车”在目标文本中非连续出现，则也可以认为“新能源汽车”是与目标文本匹配的标签。

对于确定出的上述两种情况中至少一种的标签可以作为候选标签，然后确定候选标签与目标文本的语义匹配度，将语义匹配度满足预设匹配条件的候选标签作为目标文本的标签。例如，将语义匹配度大于或等于预设匹配度阈值的候选标签作为目标文本的标签。

其中，在确定候选标签与目标文本的语义匹配度时，可以采用语义匹配模型对候选标签和目标文本的语义匹配程度进行打分。其中，语义匹配模型可以采用诸如Simnet(是一种百度自研的有监督的神经网络语义匹配模型)、DSSM(Deep Structured SemanticModels，深度语义匹配模型)等等。

第三种情况：在目标文本中没有出现的属于标签词典中的标签。

这种情况实际上是针对目标文本生成标签，该标签可能在目标文本中并未出现，但在语义上一致。作为其中一种实现方式，可以利用标签生成模型对目标文本生成标签，其中标签生成模型在生成标签时受到标签词典的约束。其中标签生成模型可以采用Transformer模型来从目标文本中预测标签。

其中，标签生成模型的训练过程可以包括：首先获取第二训练数据，第二训练数据包括文本样本以及对文本样本标注的标签，该标签属于标签词典。也就是说，在进行标签的标注时，需要从标签词典中选择标签以对文本样本进行标注。

然后将文本样本作为Transformer模型的输入，Transformer模型对文本样本中的各字符进行嵌入处理，其中，嵌入处理包括：词Embedding(嵌入)和位置Embedding。位置Embedding可以包括对文本中的各字符在句子中的位置进行嵌入以及各字符所在文本段落的编号进行嵌入等。将嵌入处理的结果映射至标签词典的空间得到标签预测结果。也就是说，在标签生成模型的训练过程中，标签生成模型对标签的预测是受限于标签词典的，标签生成模型中映射层在对嵌入处理的结果进行映射时，只能映射至标签词典的空间，得到的标签预测结果只能是标签词典中的标签。

上述训练Transformer模型的训练目标为：最小化标签预测结果与对文本样本标注的标签之间的差异。可以利用该训练目标构建损失函数，然后在每轮迭代过程中利用损失函数的取值更新Transformer模型的模型参数，直至达到预设的训练结束条件。其中训练结束条件可以包括损失函数的取值小于或等于预设的阈值，或者，迭代次数达到预设的最大次数阈值，等等。

对于第三种情况确定出的标签，可以直接将其确定为目标文本的标签。

从本实施例的上述内容可以看出，基于预先挖掘出的标签词典，能够迅速从目标文本中得到匹配的标签，效率更高。

另外，除了能够预测得到文本中出现的词语作为标签之外，还可以预测出文本中未出现的词语作为标签，使得在语义上召回更准确和丰富的标签。

通过实施例二中的方式可以预先挖掘出普适的标签词典，并使用实施例三中的方式快速匹配到目标文本中的标签，且并不限于特定领域，迁移性更强。

以上是本公开所提供方法进行的详细描述，下面结合实施例对本公开提供的装置进行详细描述。

实施例四、

图4为本公开实施例四提供的文本标签的提取装置的结构图，该装置可以位于服务器端，也可以位于具有较强计算能力的计算机设备。上述服务器端可以采用服务器集群的形式。该装置可以体现为应用，也可以体现为应用中的插件或SDK等功能单元。如图4中所示，该装置400可以包括：第一获取单元401、第一构建单元402和第一筛选单元403，还可以包括语义判断单元404和第一训练单元405。其中各组成单元的主要功能如下：

第一获取单元401，用于获取文本包含的各词项，词项由相邻的N个词语组成，N为预设的至少一个正整数。

第一构建单元402，用于依据各词项在文本中的出现顺序建立有向图。其中，有向图的各节点为各词项，各节点之间边的指向关系依据各词项在文本中的出现顺序确定，两个节点之间边的权重依据两个节点相邻出现的次数确定。

第一筛选单元403，用于在有向图中分别确定各词项的中介中心性；依据各词项的中介中心性，从各词项中筛选出文本的标签。

可以直接依据各词项的中介中心性对各词项进行排序，依据排序结果筛选出文本的标签。例如排在前预设数量的词项作为上述文本的标签。

作为其中一种优选的实现方式，第一筛选单元403分别依据各词项的中介中心性和长度，确定各词项的排序得分；从各词项中筛选出排序得分满足预设条件的词项作为文本的标签。

语义判断单元404，用于利用预先训练得到的文本分类模型，识别第一筛选单元403筛选出的文本的标签是否符合语义标准；从筛选出的文本的标签中过滤掉不符合语义标准的标签。

第一训练单元405，用于获取第一训练数据，第一训练数据包括标签样本以及对标签样本标注的是否符合语义标准的标注结果；将各标签样本作为文本分类模型的输入，将各标签样本对应的标注结果作为文本分类模型的目标输出，训练文本分类模型。

实施例五、

图5为本公开实施例五提供的挖掘标签词典的装置的结构图，该装置可以位于服务器端，也可以位于具有较强计算能力的计算机设备。上述服务器端可以采用服务器集群的形式。该装置可以体现为应用，也可以体现为应用中的插件或SDK等功能单元。如图5中所示，该装置500可以包括：第二获取单元501、第二构建单元502、第二筛选单元503和词典建立单元504。其中各组成单元的主要功能如下：

第二获取单元501，用于获取文本集合中各文本包含的各词项，词项由相邻的N个词语组成，N为预设的至少一个正整数。

第二构建单元502，用于依据各词项在各文本中的出现顺序建立有向图。

其中，有向图的各节点为各词项，各节点之间边的指向关系依据各词项在各文本中的出现顺序确定，两个节点之间边的权重依据两个节点相邻出现的次数确定。

第二筛选单元503，用于在有向图中分别确定各词项的中介中心性；依据各词项的中介中心性，从各词项中筛选出标签。

作为一种优选的方式，第二筛选单元503可以分别依据各词项的中介中心性和长度，确定各词项的排序得分；从各词项中筛选出排序得分满足预设条件的词项。

词典建立单元504，用于利用第二筛选单元筛选出的标签，得到标签词典。

作为一种可实现的方式，词典建立单元504可以利用预先训练得到的文本分类模型，识别筛选出的标签是否符合语义标准；从筛选出的标签中过滤掉不符合语义标准的标签后，得到标签词典。

更进一步地，该装置中还可以包括如图4中所示的第一训练单元(图5中未示出)用于训练文本分类模型。

实施例六、

图6为本公开实施例六提供的文本标签的提取装置的结构图，该装置可以位于服务器端，也可以位于具有较强计算能力的计算机设备。上述服务器端可以采用服务器集群的形式。该装置可以体现为应用，也可以体现为应用中的插件或SDK等功能单元。如图6中所示，该装置600可以包括：第三获取单元610和标签提取单元620，还可以包括第二训练单元630。其中各组成单元的主要功能如下：

第三获取单元610，用于获取目标文本。

标签提取单元620，用于确定标签词典中与目标文本匹配的标签作为目标文本的标签。其中，标签词典采用如实施例五中所述的装置预先建立。

作为其中一种实现方式，标签提取单元620可以包括：

候选确定子单元621，用于确定标签词典中在目标文本中出现的标签作为候选标签，和/或，确定由在目标文本中非连续出现的词语组合构成的属于标签词典中的标签作为候选标签。

具体地，在确定标签词典中目标文本中出现的标签时，候选确定子单元621可以将标签词典中的各标签分别在目标文本中查询，以确定在目标文本中出现的标签；或者，采用关键词提取算法从目标文本中提取属于标签词典的标签。其中关键词提取算法可以采用目前较为成熟的TF-IDF关键词提取算法、TextRank关键词提取算法等等。

语义匹配子单元622，用于确定候选标签与目标文本的语义匹配度；将语义匹配度满足预设匹配条件的候选标签作为目标文本的标签。

其中，确定语义匹配度时采用的语义匹配模型可以采用诸如Simnet、DSSM等等。

作为另一种实现方式，标签提取单元620可以包括标签生成子单元623利用标签生成模型对目标文本生成标签；其中标签生成模型在生成标签时受到标签词典的约束。

第二训练单元630，用于获取第二训练数据，第二训练数据包括文本样本以及对文本样本标注的标签，该标签属于标签词典；将文本样本作为转换Transformer模型的输入，Transformer模型对文本样本中的各字符进行嵌入处理，嵌入处理包括：词嵌入和位置嵌入；将嵌入处理的结果映射至标签词典的空间得到标签预测结果；训练Transformer模型的训练目标为：最小化标签预测结果与对文本样本标注的标签之间的差异。

在采用上述实施例中的方式从文本中提取出标签后，可以应用于但并不限于以下应用场景：

应用场景1：

预先针对爬取的文本或者数据库中的文本采用上述实施例中的方式分别提取文本的标签，然后分别针对各文本存储相应的标签。当获取到来自用户端的文本搜索请求后，依据请求中包含的关键词在各标签中进行匹配，并将匹配到的标签对应的文本返回给用户端，从而实现了基于标签的文本搜索的应用。

应用场景2：

预先针对爬取的文本或数据库中的文本采用上述实施例中的方式分别提取文本的标签，然后分别针对各文本存储相应的标签。可以针对特定的用户，将用户标签与文本标签进行匹配，将匹配得到的标签对应的文本推荐给用户，从而实现了基于标签的文本推荐。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图7所示，是根据本公开实施例的文本标签的提取方法或标签词典的挖掘方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如文本标签的提取方法或标签词典的挖掘方法。例如，在一些实施例中，文本标签的提取方法或标签词典的挖掘方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。

在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的文本标签的提取方法或标签词典的挖掘方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本标签的提取方法或标签词典的挖掘方法。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控30制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本标签的提取方法，包括：

依据各词项在所述文本中的出现顺序建立有向图；

在所述有向图中分别确定各词项的中介中心性；

2.根据权利要求1所述的方法，其中，所述有向图的各节点为所述各词项，各节点之间边的指向关系依据各词项在所述文本中的出现顺序确定，两个节点之间边的权重依据两个节点相邻出现的次数确定。

3.根据权利要求1所述的方法，其中，依据所述各词项的中介中心性，从所述各词项中筛选出所述文本的标签包括：

分别依据各词项的中介中心性和长度，确定各词项的排序得分；

从所述各词项中筛选出排序得分满足预设条件的词项作为所述文本的标签。

4.根据权利要求1所述的方法，还包括：

利用预先训练得到的文本分类模型，识别筛选出的所述文本的标签是否符合语义标准；

从所述筛选出的所述文本的标签中过滤掉不符合语义标准的标签。

5.根据权利要求4所述的方法，其中，所述文本分类模型采用如下方式预先训练得到：

获取第一训练数据，所述第一训练数据包括标签样本以及对所述标签样本标注的是否符合语义标准的标注结果；

将各标签样本作为文本分类模型的输入，将各标签样本对应的标注结果作为所述文本分类模型的目标输出，训练所述文本分类模型。

6.一种挖掘标签词典的方法，包括：

获取文本集合中各文本包含的各词项，所述词项由相邻的N个词语组成，所述N为预设的至少一个正整数；

依据各词项在各文本中的出现顺序建立有向图；

在所述有向图中分别确定各词项的中介中心性；

利用筛选出的标签，得到标签词典。

7.根据权利要求6所述的方法，其中，所述有向图的各节点为所述各词项，各节点之间边的指向关系依据各词项在所述各文本中的出现顺序确定，两个节点之间边的权重依据两个节点相邻出现的次数确定。

8.根据权利要求6所述的方法，其中，依据所述各词项的中介中心性，从所述各词项中筛选出标签包括：

从所述各词项中筛选出排序得分满足预设条件的词项。

9.根据权利要求6所述的方法，其中，所述利用筛选出的标签，得到标签词典包括：

利用预先训练得到的文本分类模型，识别筛选出的标签是否符合语义标准；

从所述筛选出的标签中过滤掉不符合语义标准的标签后，得到标签词典。

10.一种文本标签的提取方法，包括：

获取目标文本；

其中，所述标签词典采用如权利要求6～9中任一项所述的方法预先建立。

11.根据权利要求10所述的方法，其中，所述确定标签词典中与所述目标文本匹配的标签包括：

确定所述标签词典中在所述目标文本中出现的标签作为候选标签，和/或，确定由在所述目标文本中非连续出现的词语组合构成的属于所述标签词典中的标签作为候选标签；

确定候选标签与所述目标文本的语义匹配度；

将语义匹配度满足预设匹配条件的候选标签作为所述目标文本的标签。

12.根据权利要求11所述的方法，其中，确定所述标签词典中在所述目标文本中出现的标签包括：

将所述标签词典中的各标签分别在所述目标文本中查询，以确定在所述目标文本中出现的标签；或者，

采用关键词提取算法从所述目标文本中提取属于所述标签词典的标签。

13.根据权利要求10所述的方法，其中，所述确定标签词典中与所述目标文本匹配的标签包括：

利用标签生成模型对所述目标文本生成标签；

其中所述标签生成模型在生成标签时受到所述标签词典的约束。

14.根据权利要求13所述的方法，其中，所述标签生成模型采用如下方式预先训练得到：

获取第二训练数据，所述第二训练数据包括文本样本以及对文本样本标注的标签，该标签属于所述标签词典；

将所述文本样本作为转换Transformer模型的输入，所述Transformer模型对所述文本样本中的各字符进行嵌入处理，所述嵌入处理包括：词嵌入和位置嵌入；将所述嵌入处理的结果映射至所述标签词典的空间得到标签预测结果；训练所述Transformer模型的训练目标为：最小化标签预测结果与所述对文本样本标注的标签之间的差异。

15.一种文本标签的提取装置，包括：

16.根据权利要求15所述的装置，其中，所述有向图的各节点为所述各词项，各节点之间边的指向关系依据各词项在所述文本中的出现顺序确定，两个节点之间边的权重依据两个节点相邻出现的次数确定。

17.根据权利要求15所述的装置，其中，所述第一筛选单元，具体用于分别依据各词项的中介中心性和长度，确定各词项的排序得分；从所述各词项中筛选出排序得分满足预设条件的词项作为所述文本的标签。

18.根据权利要求15所述的装置，还包括：

语义判断单元，用于利用预先训练得到的文本分类模型，识别所述第一筛选单元筛选出的所述文本的标签是否符合语义标准；从所述筛选出的所述文本的标签中过滤掉不符合语义标准的标签。

19.根据权利要求18所述的装置，还包括：

第一训练单元，用于获取第一训练数据，所述第一训练数据包括标签样本以及对所述标签样本标注的是否符合语义标准的标注结果；将各标签样本作为文本分类模型的输入，将各标签样本对应的标注结果作为所述文本分类模型的目标输出，训练所述文本分类模型。

20.一种挖掘标签词典的装置，包括：

21.根据权利要求20所述的装置，其中，所述有向图的各节点为所述各词项，各节点之间边的指向关系依据各词项在所述各文本中的出现顺序确定，两个节点之间边的权重依据两个节点相邻出现的次数确定。

22.根据权利要求20所述的装置，其中，所述第二筛选单元，具体用于分别依据各词项的中介中心性和长度，确定各词项的排序得分；从所述各词项中筛选出排序得分满足预设条件的词项。

23.根据权利要求20所述的装置，其中，所述词典建立单元，具体用于利用预先训练得到的文本分类模型，识别筛选出的标签是否符合语义标准；从所述筛选出的标签中过滤掉不符合语义标准的标签后，得到标签词典。

24.一种文本标签的提取装置，包括：

第三获取单元，用于获取目标文本；

其中，所述标签词典采用如权利要求20～23中任一项所述的装置预先建立。

25.根据权利要求24所述的装置，其中，所述标签提取单元包括：

候选确定子单元，用于确定所述标签词典中在所述目标文本中出现的标签作为候选标签，和/或，确定由在所述目标文本中非连续出现的词语组合构成的属于所述标签词典中的标签作为候选标签；

语义匹配子单元，用于确定候选标签与所述目标文本的语义匹配度；将语义匹配度满足预设匹配条件的候选标签作为所述目标文本的标签。

26.根据权利要求25所述的装置，其中，所述候选确定子单元，具体用于将所述标签词典中的各标签分别在所述目标文本中查询，以确定在所述目标文本中出现的标签；或者，采用关键词提取算法从所述目标文本中提取属于所述标签词典的标签。

27.根据权利要求24所述的装置，其中，所述标签提取单元，具体用于利用标签生成模型对所述目标文本生成标签；其中所述标签生成模型在生成标签时受到所述标签词典的约束。

28.根据权利要求27所述的装置，还包括：

第二训练单元，用于获取第二训练数据，所述第二训练数据包括文本样本以及对文本样本标注的标签，该标签属于所述标签词典；将所述文本样本作为转换Transformer模型的输入，所述Transformer模型对所述文本样本中的各字符进行嵌入处理，所述嵌入处理包括：词嵌入和位置嵌入；将所述嵌入处理的结果映射至所述标签词典的空间得到标签预测结果；训练所述Transformer模型的训练目标为：最小化标签预测结果与所述对文本样本标注的标签之间的差异。

29.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。

30.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-14中任一项所述的方法。

31.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-14中任一项所述的方法。