CN113626564B

CN113626564B - 一种概念标签生成方法、装置、电子设备和存储介质

Info

Publication number: CN113626564B
Application number: CN202111173613.1A
Authority: CN
Inventors: 吴焕钦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2021-12-17
Anticipated expiration: 2041-10-09
Also published as: CN113626564A

Abstract

本申请公开了一种概念标签生成方法、装置、电子设备和存储介质，涉及人工智能技术领域，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。将目标文本以及目标文本对应的实体标签序列，输入语言理解模型，分别获得目标文本对应的文本特征、实体标签序列对应的序列特征，该实体标签序列包括目标文本中的目标词语和至少一个占位符；从文本特征中获取目标词语对应的文本子特征，以及从序列特征中获取至少一个占位符对应的序列子特征；将文本子特征以及序列子特征，输入属性信息生成网络，获得目标词语的属性信息；基于目标词语与属性信息，获得目标文本对应的概念标签。本申请提高了概念标签的提取准确性，从而提高推荐系统的推荐效果。

Description

一种概念标签生成方法、装置、电子设备和存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种概念标签生成方法、装置、电子设备和存储介质。

背景技术

随着互联网技术的不断发展，各种网络信息层出不穷，例如文章、视频、图片、商品、广告等等，使得推荐系统得到了广泛应用。在推荐系统中，内容理解组件是非常重要的基础组件，基于内容理解组件对待推荐文本进行内容理解，可以得到待推荐文本的文本标签，文本标签可以用于推荐系统中的各个组件，例如：用户画像组件、召回组件、排序组件等。

文本标签包括实体标签和概念标签。一般地，实体标签是具体的实体词，如人名，地名，机构名等，可以理解为文本中的关键词；实体标签往往存在语义不聚焦的问题，例如，实体标签“江苏”，可能蕴含着江苏的各个方面，因此，在推荐系统中还需要对文本的概念标签进行提取。

概念标签通常是短语的形式，其语义相对于实体标签更加聚焦，可以理解为实体标签的信息细化或抽象，例如，实体标签“江苏”对应的概念标签可以是“江苏高校”。文本的概念标签可以作为文本的结构化表示，用于推荐系统的各个组件，对推荐系统起着重要的作用。

目前，通过内容理解组件提取文本的概念标签时，可以先获得多个候选标签，再通过对多个候选标签进行分类或排序，获得最终的概念标签；然而，采用此种方式获得的概念标签不够准确，导致推荐系统的推荐效果不好。

发明内容

本申请实施例提供一种概念标签生成方法、装置、电子设备和存储介质，用于准确提取文本的概念标签，从而提高推荐系统的推荐效果。

一方面，本申请实施例提供一种概念标签生成方法，包括：

将目标文本以及所述目标文本对应的实体标签序列，输入语言理解模型，分别获得所述目标文本对应的文本特征，以及所述实体标签序列对应的序列特征；其中，所述实体标签序列包括所述目标文本中的目标词语和至少一个占位符；

从所述文本特征中获取所述目标词语对应的文本子特征，以及从所述序列特征中获取所述至少一个占位符对应的序列子特征；

将所述文本子特征以及所述序列子特征，输入属性信息生成网络，获得所述目标词语的属性信息；

基于所述目标词语与所述属性信息，获得所述目标文本对应的概念标签，所述概念标签用于表征所述目标文本的关键语义信息。

一方面，本申请实施例提供一种概念标签生成装置，包括：

特征提取模块，用于将目标文本以及所述目标文本对应的实体标签序列，输入语言理解模型，分别获得所述目标文本对应的文本特征，以及所述实体标签序列对应的序列特征；其中，所述实体标签序列包括所述目标文本中的目标词语和至少一个占位符；

特征选择模块，用于从所述文本特征中获取所述目标词语对应的文本子特征，以及从所述序列特征中获取所述至少一个占位符对应的序列子特征；

属性生成模块，用于将所述文本子特征以及所述序列子特征，输入属性信息生成网络，获得所述目标词语的属性信息；

标签生成模块，用于基于所述目标词语与所述属性信息，获得所述目标文本对应的概念标签，所述概念标签用于表征所述目标文本的关键语义信息。

在一种可能的实施例中，所述语言理解模型为预训练语言模型，且所述预训练语言模型包括双向语言子模型和单向语言子模型；

所述特征提取模块，还用于：

将所述目标文本输入所述双向语言子模型，获得所述目标文本对应的文本特征；

将所述目标文本和所述实体标签序列输入所述单向语言子模型，获得所述实体标签序列对应的序列特征。

在一种可能的实施例中，所述特征提取模块，还用于在将所述目标文本输入所述双向语言子模型，获得所述目标文本对应的文本特征之后，将所述目标文本和所述实体标签序列输入所述单向语言子模型之前，执行如下操作：

将所述目标文本对应的文本特征，输入实体标签提取网络，获得所述目标文本对应的目标词语，并将所述目标词语作为所述实体标签；

基于所述实体标签和设定的所述至少一个占位符，获得所述实体标签序列。

在一种可能的实施例中，所述文本特征包括所述目标文本中的各个字分别对应的字向量；所述序列特征包括所述目标词语对应的词语向量和所述至少一个占位符各自对应的占位符向量；

所述特征选择模块，还用于：

从所述文本特征中的各个字向量中，选择所述目标词语对应的至少一个目标字向量，并将所述至少一个目标字向量作为所述文本子特征；

从所述序列特征中选择所述至少一个占位符各自对应的占位符向量，将选择的至少一个占位符向量作为所述序列子特征。

在一种可能的实施例中，所述属性信息生成网络至少包括图神经网络；

所述属性生成模块，还用于：

将所述文本子特征中的各个目标字向量，以及所述序列子特征中的各个占位符向量，分别输入所述图神经网络，获得所述各个占位符向量各自对应的预测字向量；

基于获得的各个预测字向量，确定所述目标词语的属性信息。

在一种可能的实施例中，所述将所述文本子特征中的各个目标字向量，以及所述序列子特征中的各个占位符向量，分别输入所述图神经网络，获得所述各个占位符向量各自对应的预测字向量时，所述属性生成模块还用于：

将所述文本子特征中的各个目标字向量分别作为一个第一节点，以及将所述序列子特征中的各个占位符向量分别作为一个第二节点；

将获得的各个第一节点以及各个第二节点，分别输入所述图神经网络，以使所述图神经网络基于注意力机制，对所述各个第二节点分别进行更新；

将更新后的所述各个第二节点作为所述各个标识符向量各自对应的预测字向量。

一方面，本申请实施例提供一种电子设备，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任一种概念标签生成方法的步骤。

一方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行上述任一种概念标签生成方法的步骤。

一方面，本申请实施例提供一种计算机程序产品，其包括计算机指令，所述计算机指令存储在计算机可读存储介质中；当计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令时，所述处理器执行该计算机指令，使得所述计算机设备执行上述任一种概念标签生成方法的步骤。

由于本申请实施例采用上述技术方案，至少具有如下技术效果：

本申请实施例的方案中，针对需要提取概念标签的目标文本，在确定该目标文本的实体标签（目标文本中的目标词语）后，将该目标文本及其对应的实体标签序列，输入语言理解模型，分别获得目标文本对应的文本特征，以及实体标签序列对应的序列特征，由于实体标签序列由实体标签和多个占位符组成，多个占位符的位置用于生成实体标签的属性信息，因此，序列特征包括实体标签特征和多个占位符对应的占位符特征；接下来，从上述文本特征中获取实体标签对应的文本子特征，以及从序列特征中获取多个占位符对应的序列子特征；然后将所述文本子特征以及所述序列子特征，输入语言理解模型，获得实体标签的属性信息；最后基于实体标签及其属性信息，获得目标文本对应的概念标签。

可见，本申请在提取文本的概念标签时，显示引入了文本的实体标签，即语言理解模型和属性信息生成网络可以识别文本的实体标签，由于实体标签与概念标签是紧密相关的两类标签，因此基于实体标签预测概念标签，使得概念标签与实体标签之间具有联系，提高了概念标签的提取准确性，从而提高推荐系统的推荐效果。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种概念标签生成方法的应用场景示意图；

图2为本申请实施例提供的一种概念标签生成方法的流程图；

图3为本申请实施例提供的另一种概念标签生成方法的流程图；

图4为本申请实施例提供的另一种概念标签生成方法的流程图；

图5为本申请实施例提供的又一种概念标签生成方法的流程图；

图6为本申请实施例提供的一种图神经网络的图注意力层的示意图；

图7为本申请实施例提供的一种概念标签提取模型的训练过程示意图；

图8为本申请实施例提供的一种概念标签生成装置的结构框图；

图9为本申请实施例提供的一种电子设备的结构示意图；

图10为本申请实施例中的另一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的名词进行介绍。

图注意力网络（Graph Attention Networks，GAT）：是基于空间的图卷积网络，在图卷积网络的基础上引入了注意力机制，属于一种图神经网络。图神经网络广泛应用于图的表征学习，其遵循邻域聚合框架，通过递归聚合和转换相邻节点的特征向量来计算节点的表征向量。

注意力机制（Attention Mechanism）：它源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息。上述机制通常被称为注意力机制。注意力机制可以使得神经网络具备专注于其输入（或特征）子集的能力：选择特定的输入。在计算能力有限情况下，注意力机制是解决信息超载问题的主要手段的一种资源分配方案，将计算资源分配给更重要的任务。

实体标签：用于表示文本的重要主体的标签，通常为词语的形式，例如人名、地名、机构名、游戏名等实体词。

概念标签：用于抽象表示文本的关键信息的标签，通常是短语的形式，它可以理解为实体标签的信息细化或抽象，可以应用于推荐系统中的各个组件，例如用户画像组件、召回组件、排序组件等。

下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

文中的术语“第一”、“第二”仅用于描述目的，而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例涉及人工智能（ArtificialIntelligence，AI）和机器学习(MachineLearning, ML)技术和自然语言处理(Nature Language processing, NLP)，基于人工智能中的机器学习技术和自然语言处理技术而设计。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例采用基于机器学习的语言模型，对文本进行文本处理以及语义理解，以提取文本的概念标签。

下面对本申请实施例的设计思想进行简要介绍：

相关技术中，文本的概念标签可以作为文本的结构化表示，用于推荐系统的各个组件，对推荐系统起着重要的作用。目前。推荐系统的内容理解组件在提取文本的概念标签时，可以先获得多个候选标签，再通过对多个候选标签进行分类或排序，获得最终的概念标签；然而，采用此种方式获得的概念标签不够准确，导致推荐系统的推荐效果不好。有鉴于此，本申请实施例提供一种概念标签生成方法、装置、电子设备和存储介质，通过语言理解模型和属性信息生成网络提取文本的概念标签时，显示引入了文本的实体标签，进而基于实体标签预测概念标签，使得概念标签与实体标签之间具有联系，提高了概念标签的提取准确性，从而提高推荐系统的推荐效果。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请实施例及实施例中的特征可以相互组合。

如图1所示，其为本申请实施例中的应用场景示意图。该应用场景示意图中包括终端设备100和服务器200。终端设备100与服务器200之间可以通过通信网络进行通信。可选地，通信网络可以是有线网络或无线网络。终端设备100与服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在本申请实施例中，终端设备100为用户使用的电子设备，该电子设备包括但不限于个人计算机、手机、平板电脑、笔记本、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备；终端设备100可以安装各种应用，例如浏览器类应用、视频应用、资讯类应用等等。服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。

服务器200可以通过推荐系统向用户的终端设备100推荐多媒体内容，具体地，推荐系统在推荐多媒体内容时，可以采用本申请实施例的概念标签生成方法，生成各个多媒体内容所对应的文本的概念标签，然后基于各个文本的概念标签进行用户画像的构建，或者将各个文本的概念标签应用于推荐系统的召回组件或者排序组件等，以便根据用户画像、召回结果、排序结果等进行多媒体内容的推荐。

应当说明的是，图1是对本申请的概念标签生成方法的应用场景进行示例介绍，实际本申请实施例中的方法可以适用的应用场景并不限于此。此外，本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

下面对本申请实施例的概念标签生成方法的具体实施方式进行介绍。

图2示出了本申请实施例提供的一种概念标签生成方法的示意图，该方法可以由服务器执行，例如图1中的服务器200。如图2所示，该概念标签生成方法可以包括如下步骤：

步骤S201，将目标文本以及目标文本对应的实体标签序列，输入语言理解模型，分别获得目标文本对应的文本特征，以及实体标签序列对应的序列特征；其中，实体标签序列包括目标文本中的目标词语和至少一个占位符。

本申请实施例中，服务器可以通过推荐系统向用户推荐多媒体内容，目标文本可以是推荐系统待推荐的多媒体内容所对应的文本，例如多媒体内容可以是视频、文章、广告、图片、新闻等，在此不作限定。

实体标签序列可以包括目标文本的实体标签以及多个占位符，该实体标签即目标文本中的目标词语，可以理解为目标文本的关键词；多个占位符可以理解为实体标签的属性词语的标识符，每个占位符可以看作属性词语中的一个字。实体标签的属性词语用于描述实体标签，通常可以位于实体标签的前面和后面，因此，实体标签序列可以表示为：多个占位符+实体标签+多个占位符，其中，占位符的数量可以根据属性词语的字数确定，具体可以根据实际情况进行设定。

例如，目标文本为：江苏这所高校，创立时间超百年，有望成为下一个“双一流”，其中，“江苏”可以看作实体标签，假设占位符为MASK，实体标签序列可以为：[MASK][MASK]江苏[MASK][MASK]。

本申请实施例中，在获取到目标文本以及目标文本的实体标签之后，可以通过已训练的语言理解模型，对目标文本以及对应的实体标签序列进行语言理解，获得目标文本对应的文本特征，以及实体标签序列对应的序列特征。例如，语言理解模型可以是预训练语言模型，该模型一般是指通过无监督或自监督等技术把人类的语言知识预先学习成一个模型，然后再代入到某个具体任务中进行调整。

预训练语言模型可以对目标文本进行特征提取，获得目标文本对应的文本特征，该文本特征可以通过文本向量的形式表示，文本向量可以包括目标文本中的各个字对应的字向量。该模型还可以基于目标文本及其对应的实体标签序列，对实体标签序列进行特征提取，获得实体标签序列对应的序列特征，该序列特征可以包括实体标签（即目标词语）对应的词语向量表示和各个占位符对应的占位符向量表示。

步骤S202，从文本特征中获取目标词语对应的文本子特征，以及从序列特征中获取至少一个占位符对应的序列子特征。

由上述可知，文本特征可以包括目标文本中的各个字对应的字向量，则目标词语对应的文本子特征，可以包括目标词语中的各个字对应的字向量，因此，在已知目标词语的情况下，可以从文本特征中获取目标词语对应的文本子特征。同样地，从序列特征中可以获取各个占位符对应的占位符向量表示，即得到各个占位符对应的序列子特征。

因此，在一些实施例中，如图3所示，步骤S202中从文本特征中获取目标词语对应的文本子特征，以及从序列特征中获取设定标识符对应的序列子特征，可以包括如下步骤：

步骤S2021，从文本特征中的各个字向量中，选择目标词语对应的至少一个目标字向量，并将至少一个目标字向量作为文本子特征。

示例性的，将目标文本中的每个字用x表示，则目标文本可以表示为：x₁、x₂……x_m，其中，x₁、x₂组成目标文本中的目标词语，通过语言理解模型对该目标文本进行特征提取后，得到目标文本的文本特征：t₁、t₂……t_m，其中，t为x的字向量表示，则t₁、t₂为目标词语对应的文本子特征。

步骤S2022，从序列特征中选择至少一个占位符各自对应的占位符向量，将选择的至少一个占位符向量作为序列子特征。

示例性的，将实体标签序列中的每个占位符用M表示，实体标签用T表示，则实体标签序列可以表示为：M₁、M₂、T、M₃、M₄，通过语言理解模型对该实体标签序列进行特征提取后，得到序列特征：W₁、W₂、N、W₃、W₄，其中，W为M的向量表示，N为T的向量表示，则W₁、W₂、W₃、W₄为各个占位符对应的序列子特征。

步骤S203，将文本子特征以及序列子特征，输入属性信息生成网络，获得目标词语的属性信息。

其中，文本子特征为目标文本中的目标词语对应的向量表示，序列子特征为各个占位符对应的向量表示，由于各个占位符用于表示实体标签（即目标词语）的属性词语，因此，将文本子特征以及序列子特征，输入属性信息生成网络，可以获得目标词语的属性词语，即属性信息。例如，属性信息生成网络可以是图神经网络，下述实施例中将进一步对图神经网络的属性信息生成过程进行介绍。

步骤S204，基于目标词语与属性信息，获得目标文本对应的概念标签，概念标签用于表征目标文本的关键语义信息。

该步骤中，将目标词语与其属性信息进行组合，可以得到目标文本的概念标签，其中，属性信息用于描述目标词语，例如目标词语为“江苏”，其属性信息可以是“高校”，则组成的概念标签为“江苏高校”。概念标签可以表示文本的关键语义信息，用于文本的结构化表示。

本申请实施例的上述方案中，在提取文本的概念标签时，显示引入了文本的实体标签，即语言理解模型和属性信息生成网络可以识别文本的实体标签，进而基于实体标签预测概念标签，使得概念标签与实体标签之间具有联系，提高了概念标签的提取准确性，从而提高推荐系统的推荐效果。

在一些实施例中，上述步骤S201中的语言理解模型可以为预训练语言模型，且预训练语言模型包括双向语言子模型和单向语言子模型。

例如，预训练语言模型可以是自然语言理解与生成的统一预训练语言模型（Unified Language Model Pre-training for Natural Language Understanding andGeneration，UniLM），该模型不仅可用于自然语言理解，还可以用于生成任务。该模型是基于Mask机制的预训练语言模型，使用三种类型的语言建模进行预训练，包括：单向语言模型、双向语言模型、序列到序列预测模型；通过使用一个共享的Transform网络（包括编码器和解码器），利用特定的自注意掩模来控制预测条件的上下文，从而实现了统一的建模。

其中，Mask机制用于模型训练阶段时，可以理解为，对于某个输入样本序列，先mask掉部分输入（如将部分输入替换为[MASK]），然后基于其他上下文来预测被mask掉的输入。本申请实施例中，实体标签序列中的多个占位符可以理解为为被mask掉的输入，需要预测多个占位符对应的字，以获得实体标签的属性词语。

本申请实施例的预训练语言模型不限于UniLM，还可以采用其他基于Mask机制的预训练语言模型。

进一步地，如图4所示，上述步骤S201中将目标文本以及目标文本的实体标签序列，输入语言理解模型，获得目标文本对应的文本特征以及实体标签序列对应的序列特征，包括如下步骤：

步骤S2011，将目标文本输入双向语言子模型，获得目标文本对应的文本特征。

例如，双向语言子模型可以是基于Mask机制的BERT（Bidirectional EncoderRepresentations from Transformers，来自Transformer的双向编码器表示）语言模型。BERT可以结合上下文来预训练深度双向表示，只需要一个额外的输出层，就可以对预训练的BERT表示进行微调，从而为目标任务（比如回答问题和语言推断任务）构建模型。

步骤S2012，将目标文本和实体标签序列输入单向语言子模型，获得实体标签序列对应的序列特征。

其中，单向语言子模型可以与双向语言子模型共享Transform网络，并将Transform网络作为特征提取器，采用Transform网络的单向编码器结构，结合上文来预训练深度单向表示。

可以理解的是，本申请实施例的预训练语言模型可以将目标文本作为前置条件，然后基于双向语言子模型对目标文本进行编码表示，获得目标文本的文本向量，即得到文本特征，以及基于单向语言子模型对实体标签序列进行编码表示，获得实体标签序列对应的向量表示，即得到序列特征。

需要说明的是，上述双向语言子模型还可以采用其他基于Mask机制的语言模型，在此不作限定。

在本申请上述实施例中，目标文本的实体标签可以是预先获得的，也可以是根据目标文本提取的，下面对根据目标文本提取实体标签的过程进行介绍。

在一些实施例中，在上述步骤S2011将目标文本输入双向语言子模型，获得目标文本对应的文本特征之后，以及步骤S2012将目标文本和实体标签序列输入单向语言子模型之前，方法还可以包括如下步骤：

A1、将目标文本对应的文本特征，输入实体标签提取网络，获得目标文本对应的目标词语，并将目标词语作为实体标签。

其中，实体标签提取网络可以是全连接层，在训练过程中，可以基于实体标签标注方法（例如BIO标注方法，下面实施例中将进行介绍）对训练文本的的文本特征进行实体标签标注，以训练获得实体标签提取网络。在双向语言子模型提取到目标文本的文本特征后，再通过实体标签提取网络提取文本特征中的实体标签。

A2、基于实体标签和设定的至少一个占位符，获得实体标签序列。

该步骤中，将实体标签和多个占位符进行拼接，可以获得实体标签序列。

本申请实施例中，可以针对已知实体标签的文本进行概念标签的提取，也可以针对单独的文本进行概念标签的提取，满足不同应用场景的需求。

在一些实施例中，上述步骤S203中的属性信息生成网络可以至少包括图神经网络；例如，图神经网络具体可以是图注意力网络GAT，GAT将注意力机制引入到基于空间域的图神经网络，其中的每个节点的隐藏状态通过注意其邻居节点来计算，具体地，通过注意力机制计算当前节点与邻居节点的注意力系数(attention coefficient), 在聚合邻居节点的时候进行加权，实现对不同邻居节点的权重的自适应分配，即针对不同的邻居节点分配不同的权重，使得图神经网络能够更加关注重要的节点。

进一步地，如图5所示，上述步骤S203中将文本子特征以及序列子特征，输入属性信息生成网络，获得目标词语的属性信息，可以包括如下步骤：

步骤S2031，将文本子特征中的各个目标字向量，以及序列子特征中的各个占位符向量，分别输入图神经网络，获得各个占位符向量各自对应的预测字向量。

步骤S2032，基于获得的各个预测字向量，确定目标词语的属性信息。

上述步骤S2031中，图神经网络可以是基于注意力机制的图神经网络，例如上述图注意力网络，文本子特征中的各个目标字向量，以及序列子特征中的各个占位符向量，可以分别作为图神经网络中的一个节点，针对每一个节点，通过注意力机制计算当前节点与邻居节点的注意力系数，在聚合邻居节点的时候进行加权，为不同的邻居节点分配不同的权重，从而更新各个邻居节点。

在一些实施例中，步骤S2031可以包括如下步骤：

B1、将文本子特征中的各个目标字向量分别作为一个第一节点，以及将序列子特征中的各个占位符向量分别作为一个第二节点。

B2、将获得的各个第一节点以及各个第二节点，分别输入图神经网络，以使图神经网络基于注意力机制，对各个第二节点分别进行更新。

B3、将更新后的各个第二节点作为各个标识符向量各自对应的预测字向量。

本申请实施例中，各个第一节点以及各个第二节点均可以作为图神经网络中的一个节点，设图神经网络中的任意一个第二节点为v_i，在第l层所对应的特征向量为h_i，

，d^(l)表示第l层节点特征向量的长度，R是向量或者矩阵维度的一种表达方式，经过一个以注意力机制为核心的聚合操作之后，输出的是每个节点新的特征向量

，

，d^(l+1)是输出的特征向量的长度（第l+1层节点特征向量的长度）；上述聚合操作称为图注意力层(Graph Attention Layer，GAL)，图注意力层如图6所示。

假设当前中心节点为v_i (每个节点都可以作为中心节点，可以对各个节点并行计算)，其中一个邻居节点为v_j到v_i的权重系数e_ij通过下式（1）进行计算：

（1）

其中，e_ij为v_j到v_i的权重系数，

是第l层节点特征变换（维度变换）的权重参数；h_i是节点v_i在第l层所对应的特征向量；h_j是节点v_j在第l层所对应的特征向量；||代表拼接操作，a是一个权重向量（属于模型参数），可以将输入映射到 R，激活函数使用Leaky ReLU。

为了更好地分配权重，可以将当前中心节点与其所有邻居节点计算出的相关度进行统一的归一化处理，具体形式为softmax归一化，得到注意力系数

,如式（2）所示:

（2）

其中，

是v_j到v_i的注意力系数，e_ik为v_k到v_i的权重系数，

表示节点v_i的邻居节点。最终使用softmax进行归一化并加入LeakyReLU以提供非线性性。

最终节点v_i的特征输出由以下式（4）计算得到：

（3）

此外，该层也可以利用多头注意力机制以稳定学习过程。它应用 K 个独立的注意力机制来计算隐藏状态，然后将其特征连接起来（或计算平均值），从而得到以下输出表示形式：

（4）

其中，

是第 k 个注意力机制归一化的注意力系数，

表示第k个注意力机制对应的权重参数，||表示拼接操作。

上述过程为对节点v_i的表示进行更新的过程，节点v_i可以是本申请实施例中的第二节点中的一个。

本申请上述实施例中，语言理解模型、实体标签提取网络、属性信息生成网络可以构成一个概念标签提取模型，将目标文本和目标文本的实体标签序列输入概念标签提取模型，可以输出目标文本的实体标签的属性词语，进而根据实体标签及其属性词语得到目标文本的概念标签。下面结合图7对该概念标签提取模型的训练过程进行介绍。

如图7所示，本申请实施例的概念标签提取模型主要包括两个任务，即实体标签标注任务与概念标签的属性词语生成任务，其中，实体标签标注任务为辅助任务，即训练实体标签提取网络，通过加入实体标签标注任务，可以显式引入实体标签的信息，从而提升概念标签提取的效果。对于概念标签的属性词语生成任务，采用基于mask机制的属性词语生成方法，这是一种相对可控的词语生成方法，采用的语言理解模型可以是基于mask机制的预训练语言模型，属性信息生成网络可以是GAT网络，该GAT网络可以建模实体标签与概念标签属性词语之间的关系。

具体训练过程中，将训练文本的实体标签(tag)的前后生成其相应的属性词语占位符（[Mask]），得到实体标签序列，通过训练文本及其对应的实体标签序列，训练语言理解模型和属性信息生成网络，最终训练好的语言理解模型和属性信息生成网络，可以用于生成目标文本的属性词语，进而将属性词语与实体标签组合形成概念标签。

（1）概念标签提取模型的输入和输出

概念标签提取模型的输入包括：训练文本以及训练文本的实体标签序列，输出为实体标签的属性词语，最终通过实体标签以及实体标签的属性词语得到概念标签。其中，训练文本的实体标签不仅可以用作属性词语生成的上下文，即用于概念标签的属性词语生成任务的训练，还可以用于实体标签标注任务的训练，即得到实体标签在训练文本中对应的实体标签标注序列，即训练文本中的每个字对应的标注序列。

在对实体标签进行标注时，可以针对训练文本的文本特征序列进行标注，该文本特征序列是语言理解模型对训练文本进行特征提取后获得的，具体可以包括训练文本中的每个字对应的字向量。例如，可以采用BIO的标注形式对文本特征序列进行标注，具体地，将文本特征序列中的每个字向量标注为“B-X”、“I-X”或者“O”。其中，X表示实体标签，“B-X”表示字向量对应的字属于实体标签，且位于实体标签的开头，“I-X”表示字向量对应的字属于实体标签，且位于实体标签的中间，“O”表示字向量对应的字不属于实体标签。通过上述标注方式对文本特征序列中的每一个字向量标注一个标签，可以获得训练文本的实体标签标注序列。

示例性的，给定如下训练文本及其实体标签：

训练文本：江苏这所高校，创立时间超百年，有望成为下一个“双一流”；

训练文本的实体标签：江苏；

在上述训练文本及实体标签下，概念标签提取模型的输入输出为：

模型输入：[CLS]江苏这所高校，创立时间超百年，有望成为下一个“双一流”[SEP][Mask][Mask]江苏[Mask][Mask][SEP]

实体标签序列标注输出：OBIOOOOOOOOOOOOOOOOO...

概念标签属性词语输出：<T><T>高校

其中，[CLS]、[SEP]、<T>均为模型的标记符，[CLS]位于输入序列（文本序列）的开头，[SEP]用于分隔两个输入序列，<T>表示[Mask]位置输出为空。

（2）概念标签提取模型的编码模块

编码模块可以理解为上述语言理解模型，可以采用预训练语言模型，例如上述UNILM模型，该模型使用三种类型的语言建模（单向模型、双向模型、序列到序列预测模型）进行预训练。

本申请实施例可以采用UNILM模型，对输入的训练文本以及实体标签序列进行编码表示，具体地，对于训练文本可以采用双向语言模型进行编码表示（可以理解为特征提取），对于实体标签序列采用单向语言模型进行编码表示。

示例性的，如图7所示，训练文本中的各个字采用x表示，即得到文本序列x₁、x₂……x_m，实体标签序列即Mask+实体标签+ Mask，其中，实体标签前后的Mask数量可以根据需要设置，图7中以前后各1个Mask为例，实体标签序列可以表示为：[M₁]、Tag、[M₂]。将上述文本序列和实体标签序列输入编码模块后，编码模块将文本序列和实体标签序列进行编码表示，输出文本序列对应的编码表示h₁、h₂……h_m，根据该编码表示可以得到训练文本的文本隐层表示t₁、t₂……t_m（可以理解为本申请上述实施例的文本向量）；同样地，输出实体标签序列对应的编码表示h_m+1……h_n，根据其中的[M₁]和 [M₂]对应的编码表示，可以得到实体标签序列中的Mask隐层表示w₁、w₂。

在获得训练文本的文本隐层表示t₁、t₂……t_m后，可以对其中的实体标签进行标注，例如采用上述BIO标注方式，得到标注为BI的实体标签隐层表示l₁、l₂……l_n。该实体标签隐层表示和上述Mask隐层表示共同构成下述GAT交互模块的输入。

（3）概念标签提取模型的GAT交互模块

GAT交互模块即上述图神经网络GAT，其输入为上述实体标签隐层表示和上述Mask隐层表示，实体标签隐层表示中的l₁、l₂……l_n和Mask隐层表示中的w₁、w₂分别作为图中的各个节点，每个节点均连接其上边的节点，l₁、l₂……l_n以及w₁、w₂的隐层表示作为各个节点的表示，通过图神经网络的注意力机制，计算更新图中各个节点的表示，在节点表示更新过程中，图中的各个节点的表示可以进行充分的交互。

例如，对于某一个Mask位置的表示而言，该Mask位置给GAT交互模块的输入为：当前位置的Mask隐层表示、实体标签隐层表示。GAT交互模块在得到当前输入后，将进行节点表示的更新。

如图7所示，将实体标签隐层表示l₁、l₂……l_n和Mask隐层表示w₁、w₂输入GAT交互模块后，输出w₁、w₂更新后的节点表示g1、g2，基于节点表示g1、g2获得Mask位置对应的预测字，进而根据预测字生成概念标签的属性词语。

上述GAT交互模块使用GAT图神经网络建模实体标签与概念标签属性词语之间的关系，使得实体标签与概念标签之间具有显式的交互。

（4）概念标签提取模型的训练与预测

概念标签提取模型的训练阶段包括两个训练任务。其中，任务一为训练文本的实体标签标注任务，该任务的训练目标是为训练文本中每个字的字向量（即隐层表示）进行标注学习，得到其对应的BIO标签。任务二为[Mask]位置的字生成任务，该任务使用上述编码模块和GAT交互模块，输出实体标签的属性词语，训练目标为生成[Mask]位置对应的字，即得到属性词语。上述两个任务的损失值相加之后，可以作为模型训练的最终损失函数。

在模型预测阶段，给出预测文本及其实体标签后，模型需要进行[Mask]位置字的生成。通过得到各个[Mask]位置生成的字，组合成实体标签的属性词语，即可得到预测文本的概念标签。

基于相同的发明构思，本申请实施例提供一种概念标签生成装置，该装置解决问题的原理与上述实施例的方法相似，因此该装置的实施可以参见上述方法的实施，重复之处不再赘述。

图8示出了本申请实施例提供的一种概念标签生成装置，如图8所示，该概念标签生成装置包括：特征提取模块81、特征选择模块82、属性生成模块83和标签生成模块84。

特征提取模块81，用于将目标文本以及目标文本对应的实体标签序列，输入语言理解模型，分别获得目标文本对应的文本特征，以及实体标签序列对应的序列特征；其中，实体标签序列包括目标文本中的目标词语和至少一个占位符；

特征选择模块82，用于从文本特征中获取目标词语对应的文本子特征，以及从序列特征中获取至少一个占位符对应的序列子特征；

属性生成模块83，用于将文本子特征以及序列子特征，输入属性信息生成网络，获得目标词语的属性信息；

标签生成模块84，用于基于目标词语与属性信息，获得目标文本对应的概念标签，概念标签用于表征目标文本的关键语义信息。

在一种可能的实施例中，语言理解模型为预训练语言模型，且预训练语言模型包括双向语言子模型和单向语言子模型；

特征提取模块81，还用于：

将目标文本输入双向语言子模型，获得目标文本对应的文本特征；

将目标文本和实体标签序列输入单向语言子模型，获得实体标签序列对应的序列特征。

在一种可能的实施例中，特征提取模块81，还用于在将目标文本输入双向语言子模型，获得目标文本对应的文本特征之后，将目标文本和实体标签序列输入单向语言子模型之前，执行如下操作：

将目标文本对应的文本特征，输入实体标签提取网络，获得目标文本对应的目标词语，并将目标词语作为实体标签；

基于实体标签和设定的至少一个占位符，获得实体标签序列。

在一种可能的实施例中，文本特征包括目标文本中的各个字分别对应的字向量；序列特征包括目标词语对应的词语向量和至少一个占位符各自对应的占位符向量；

特征选择模块82，还用于：

从文本特征中的各个字向量中，选择目标词语对应的至少一个目标字向量，并将至少一个目标字向量作为文本子特征；

从序列特征中选择至少一个占位符各自对应的占位符向量，将选择的至少一个占位符向量作为序列子特征。

在一种可能的实施例中，属性信息生成网络至少包括图神经网络；

属性生成模块84，还用于：

将文本子特征中的各个目标字向量，以及序列子特征中的各个占位符向量，分别输入图神经网络，获得各个占位符向量各自对应的预测字向量；

基于获得的各个预测字向量，确定目标词语的属性信息。

在一种可能的实施例中，将文本子特征中的各个目标字向量，以及序列子特征中的各个占位符向量，分别输入图神经网络，获得各个占位符向量各自对应的预测字向量时，属性生成模块84还用于：

将文本子特征中的各个目标字向量分别作为一个第一节点，以及将序列子特征中的各个占位符向量分别作为一个第二节点；

将获得的各个第一节点以及各个第二节点，分别输入图神经网络，以使图神经网络基于注意力机制，对各个第二节点分别进行更新；

将更新后的各个第二节点作为各个标识符向量各自对应的预测字向量。

为了描述的方便，以上各部分按照功能划分为各模块（或单元）分别描述。当然，在实施本申请时可以把各模块（或单元）的功能在同一个或多个软件或硬件中实现。

关于上述实施例中的装置，其中各个模块的具体执行方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在介绍了本申请示例性实施方式的音频节目内容的文稿显示控制方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算为了描述的方便，以上各部分按照功能划分为各模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件或硬件中实现。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

与本申请上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备，该电子设备解决问题的原理与上述实施例的方法相似，因此该电子设备的实施可以参见上述方法的实施，重复之处不再赘述。

参阅图9所示，电子设备900可以至少包括处理器901、以及存储器902。其中，存储器902存储有程序代码，当程序代码被处理器901执行时，使得处理器901执行上述任意一种概念标签生成方法中的步骤。

在一些可能的实施方式中，根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的概念标签生成方法中的步骤。例如，处理器可以执行如图2中所示的步骤。

在示例性实施例中，本申请还提供了一种包括程序代码的存储介质，例如包括程序代码的存储器902，上述程序代码可由电子设备900的处理器901执行以完成上述概念标签生成方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

下面参照图10来描述根据本申请的这种实施方式的电子设备100。图10的电子设备100仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10，电子设备100以通用电子设备的形式表现。电子设备100的组件可以包括但不限于：上述至少一个处理单元101、上述至少一个存储单元102、连接不同系统组件（包括存储单元102和处理单元101）的总线103。

总线103表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元102可以包括易失性存储器形式的可读介质，例如随机存取存储器（RAM）1021和/或高速缓存存储单元1022，还可以进一步包括只读存储器（ROM）1023。

存储单元102还可以包括具有一组（至少一个）程序模块1024的程序/实用工具1025，这样的程序模块1024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备100也可以与一个或多个外部设备104（例如键盘、指向设备等）通信，还可与一个或者多个使得用户能与电子设备100交互的设备通信，和/或与使得该电子设备100能与一个或多个其它电子设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口105进行。并且，电子设备100还可以通过网络适配器106与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器106通过总线103与用于电子设备100的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

与上述方法实施例基于同一发明构思，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任意一种概念标签生成方法的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种概念标签生成方法，其特征在于，包括：

将目标文本输入预训练语言模型的双向语言子模型，获得所述目标文本对应的文本特征，以及将所述目标文本和实体标签序列输入所述预训练语言模型的单向语言子模型，获得所述实体标签序列对应的序列特征；其中，所述实体标签序列包括所述目标文本中的目标词语和至少一个占位符；

将所述文本子特征以及所述序列子特征，输入属性信息生成网络，获得所述目标词语的属性信息；其中，所述属性信息生成网络至少包括图神经网络；

2.根据权利要求1所述的方法，其特征在于，所述将所述目标文本输入所述双向语言子模型，获得所述目标文本对应的文本特征之后，将所述目标文本和所述实体标签序列输入所述单向语言子模型之前，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述文本特征包括所述目标文本中的各个字分别对应的字向量；所述序列特征包括所述目标词语对应的词语向量和所述至少一个占位符各自对应的占位符向量；

所述从所述文本特征中获取所述目标词语对应的文本子特征，以及从所述序列特征中获取所述至少一个占位符对应的序列子特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述文本子特征以及所述序列子特征，输入属性信息生成网络，获得所述目标词语的属性信息，包括：

5.根据权利要求4所述的方法，其特征在于，将所述文本子特征中的各个目标字向量，以及所述序列子特征中的各个占位符向量，分别输入所述图神经网络，获得所述各个占位符向量各自对应的预测字向量，包括:

将更新后的所述各个第二节点作为所述各个占位符向量各自对应的预测字向量。

6.一种概念标签生成装置，其特征在于，包括：

特征提取模块，用于将目标文本输入预训练语言模型的双向语言子模型，获得所述目标文本对应的文本特征，以及将所述目标文本和实体标签序列输入所述预训练语言模型的单向语言子模型，获得所述实体标签序列对应的序列特征；其中，所述实体标签序列包括所述目标文本中的目标词语和至少一个占位符；

属性生成模块，用于将所述文本子特征以及所述序列子特征，输入属性信息生成网络，获得所述目标词语的属性信息；其中，所述属性信息生成网络至少包括图神经网络；

7.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1~5中任一所述方法的步骤。

8.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述程序代码在电子设备上运行时，所述程序代码用于使所述电子设备执行权利要求1~5中任一所述方法的步骤。