CN113761188A

CN113761188A - 文本标签确定方法、装置、计算机设备和存储介质

Info

Publication number: CN113761188A
Application number: CN202110412379.7A
Authority: CN
Inventors: 吴焕钦; 刘维
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2021-12-07

Abstract

本申请涉及自然语言处理技术领域，提供了一种文本标签确定方法、装置、计算机设备和存储介质。所述方法包括：获取拼接文本，拼接文本包括已拼接的候选标签以及目标文本；对拼接文本中各单字进行编码，得到与各单字对应的字向量；利用注意力机制根据字向量对各单字进行交互，得到与候选标签中各单字对应的特征向量；根据特征向量对候选标签中各单字进行序列标注分类，得到候选标签中各单字对应的序列标注结果；根据序列标注结果，确定与目标文本对应的目标标签。采用本方法能够提高文本标签确定准确率。

Description

文本标签确定方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种文本标签确定文本标签确定方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，出现了文本标签确定技术，文本标签确定是指为文章匹配对应的概念标签，概念标签是指用于反映文章内容或中心主旨的短语级的描述。

传统技术中，常通过无监督抽取或有监督训练中的双塔模型来进行文本标签确定，无监督抽取具体可以为无监督相似度计算、基于图的排序等方法，基于双塔模型进行文本标签确定主要是指建立以文章建模模块与短语建模模块组成的双塔模型，通过这两个模块分别得到文章与短语的表示后，通过选择不同的损失函数训练分类或排序模型。

然而，传统方法无监督抽取方式由于缺乏监督信息，抽取出来的结果通常会存在偏离原文章中心主旨的问题，存在文本标签确定准确率低的问题；基于双塔模型进行文本标签确定，由于存在语义表示不对称、文章与短语间缺乏交互、候选短语之间缺乏交互等问题，也存在文本标签确定准确率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高标签匹配准确率的文本标签确定方法、装置、计算机设备和存储介质。

一种文本标签确定方法，所述方法包括：

获取拼接文本，拼接文本包括已拼接的候选标签以及目标文本；

对拼接文本中各单字进行编码，得到与各单字对应的字向量；

利用注意力机制根据字向量对各单字进行交互，得到与候选标签中各单字对应的特征向量；

根据特征向量对候选标签中各单字进行序列标注分类，得到候选标签中各单字对应的序列标注结果；

根据序列标注结果，确定与目标文本对应的目标标签。

一种文本标签确定装置，所述装置包括：

获取模块，用于获取拼接文本，拼接文本包括已拼接的候选标签以及目标文本；

编码模块，用于对拼接文本中各单字进行编码，得到与各单字对应的字向量；

交互模块，用于利用注意力机制根据字向量对各单字进行交互，得到与候选标签中各单字对应的特征向量；

分类模块，用于根据特征向量对候选标签中各单字进行序列标注分类，得到候选标签中各单字对应的序列标注结果；

处理模块，用于根据序列标注结果，确定与目标文本对应的目标标签。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据序列标注结果，确定与目标文本对应的目标标签。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据序列标注结果，确定与目标文本对应的目标标签。

上述文本标签确定方法、装置、计算机设备和存储介质，通过在获取待拼接文本后，先对拼接文本中各单字进行编码，得到与各单字对应的字向量，再利用注意力机制根据字向量对各单字进行交互，得到与候选标签中各单字对应的特征向量，再根据特征向量对候选标签中各单字进行序列标注分类，能够在充分交互候选标签中各标签、以及各标签与目标文本的语义的情况下，得到准确的序列标注结果，从而可以利用该序列标注结果，一次性的从候选标签中匹配出所有与目标文本对应的目标标签，能够提高标签匹配准确率。

附图说明

图1为一个实施例中文本标签确定方法的流程示意图；

图2为一个实施例中文本标签确定方法的示意图；

图3为一个实施例中文本标签确定方法的示意图；

图4为另一个实施例中文本标签确定方法的流程示意图；

图5为一个实施例中文本标签确定装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

本申请涉及人工智能技术领域，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请中主要涉及的是自然语言处理技术，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种文本标签确定方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，也可以是区块链中的节点，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载设备等，但并不局限于此。当本实施例提供的文本标签确定方法通过终端和服务器的交互实现时，终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

步骤102，获取拼接文本，拼接文本包括已拼接的候选标签以及目标文本。

其中，拼接文本是指需要进行标签匹配的已拼接文本，这里的拼接是指对候选标签以及目标文本进行拼接，将两者拼接成为一个拼接文本。标签是指用于反映文章内容或者中心主旨的短语级的描述，比如，标签具体可以是指概念标签。候选标签是指可供匹配的标签的集合，文本标签确定即是要从候选标签中确定出与目标文本对应的目标标签。目标文本是指需要匹配标签的文本，与目标文本对应的目标标签可对目标文本进行概括描述。

举例说明，对于目标文本“套内X平小户型，装修花了Y万，装完这效果真不错！现如今，装修一套房子可能随便都要花个十万以上。不过，钱花了还要花得值，毕竟大家的钱都不是大风刮来的”来说，候选标签可以为小户型装修、别墅装修等，利用文本标签确定，可得出与目标文本对应的目标标签为小户型装修。

具体的，在文本标签确定时，终端会先获取候选标签以及目标文本，拼接候选标签中标签，得到已拼接候选标签，再拼接已拼接候选标签以及目标文本，得到拼接文本。需要说明的是，在候选标签中包括至少两个标签，拼接候选标签中标签是指依次排列各标签。比如，当候选标签中包括标签A以及标签B时，拼接候选标签中标签，得到的已拼接候选标签具体可以为标签A+标签B的形式或者标签B+标签A的形式，此处的拼接不影响和改变单个标签。

步骤104，对拼接文本中各单字进行编码，得到与各单字对应的字向量。

其中，编码是指通过嵌入编码将拼接文本中各单字转换为预设固定长度的字向量，即用向量表示各单字，以便后续进行处理，其中的预设固定长度可按照需要自行设置。

具体的，在得到拼接文本后，终端会对拼接文本中各单字进行编码，将拼接文本中各单字转换为预设固定长度的字向量，不同单字用不同字向量表示。

步骤106，利用注意力机制根据字向量对各单字进行交互，得到与候选标签中各单字对应的特征向量。

其中，交互是指在对各单字进行编码之后，先利用特征提取网络对字向量进行处理，抽取更多的上下文信息，再利用单向或者双向的注意力机制以及上下文信息，得到候选标签以及目标文本之间的交互信息，通过交互信息可以推测出候选标签中哪部分对于目标文本更为重要。其中，特征提取网络具体可以是循环神经网络、卷积神经网络等，本实施例在此处不做具体限定。其中，交互信息具体可以是指由拼接文本中各单字之间的相似度得到的相似度矩阵，拼接文本中各单字之间的相似度可通过各单字对应的字向量得到。特征向量是指用于表示交互过后的单字的向量。比如，特征向量具体可以是指与字向量长度相同的向量，在每个单字的特征向量中，综合了候选标签中其他单字的字向量。

具体的，在得到与各单字对应的字向量之后，终端会利用注意力机制根据字向量计算各单字之间的相似度，根据各单字之间的相似度，得到与拼接文本对应的相似度矩阵，根据相似度矩阵中的相似度，可以计算出各单字之间的相对权重系数，相对权重系数可以用来表示拼接文本中各单字之间的重要程度。在得到相对权重系数后，终端可以根据相对权重系数以及各单字的字向量，得到候选标签中各单字对应的特征向量。需要说明的是，交互的过程即是通过计算拼接文本中各单字之间的相似度，来挖掘候选标签和目标文本之间的关系，以实现用拼接文本中各单字的字向量来重新表示各单字，得到各单字的特征向量。为了深层次的挖掘候选标签和目标文本之间的关系，两者之间的交互过程有时可能会执行多次，以此来模拟人类在进行阅读理解时重复阅读的行为。因此，在一次得到特征向量后，终端会以特征向量作为单字的新的字向量，再次根据特征向量进行交互，以不断更新特征向量，直到交互次数达到预设的交互次数阈值为止。其中，这里的预设的交互次数阈值可按照需要自行设置。

步骤108，根据特征向量对候选标签中各单字进行序列标注分类，得到候选标签中各单字对应的序列标注结果。

其中，序列标注分类是指预测与候选标签中各单字对应的序列标签。比如，序列标签具体可以是指BIO(Begin、Intermediate、Other，开始、中间、其他)标签。序列标注结果是指预测得到的、候选标签中各单字所对应的序列标签，该序列标签用于对各单字进行区分，通过序列标签即可确定各单字与目标文本的对应关系，进而得到与单字对应的候选标签中标签与目标文本之间的对应关系。

具体的，在得到特征向量后，终端会获取已训练的标签向量转换矩阵，根据已训练的标签向量转换矩阵将特征向量转换为序列标签向量，得到与各单字对应的序列标签向量，序列标签向量中各元素的元素值是与单字归属于各预设序列标签的类别概率对应的，终端在得到序列标签向量后，可以根据序列标签向量以及预设的序列标签向量中元素与预设序列标签的对应关系，对候选标签中各单字进行序列标注分类，得到各单字归属于各预设序列标签的类别概率，通过对类别概率进行排序，就可以得到与各单字对应的序列标注结果。

其中，序列标签向量用于表示各单字对应的序列标签信息，比如，序列标签向量具体可以是以各单字归属于各预设序列标签的类别概率为元素得到的向量。举例说明，当序列标签为BIO标签时，序列标签向量的形式具体可以为[x y z]，其中的x、y、z分别为单字归属于B、I、O标签的概率。其中，在BIO标签中，用B表示开始位置，I表示中间位置，O表示无关位置。

其中，序列标签向量中元素与预设序列标签的对应关系是预先设置的，举例说明，当序列标签为BIO标签时，可以预先设定特征向量中的第一个元素与B标签相对应，第二个元素与I对应，第三个标签与O对应，通过这种方式，就可以在得到序列标签向量后，依据序列标签向量得到各单字归属于各预设序列标签的类别概率。

步骤110，根据序列标注结果，确定与目标文本对应的目标标签。

其中，目标标签是指能够与目标文本正确匹配的标签，可以从候选标签中筛选得到。

具体的，在得到序列标注结果后，终端会根据预设有效标签，从序列标注结果中确定有效序列标签，根据有效序列标签，就可以确定出有效单字，进而根据有效单字确定出与目标文本对应的目标标签。其中，预设有效标签是指预先设置的有实际意义的标签，比如，当序列标签为BIO标签时，由于可以用标签B表示开始位置，用标签I表示中间位置，用标签O表示其他位置，则标签B和标签I可以理解为有实际意义的标签，标签O可以理解为没有实际意义的标签，则在设置有效标签时，需要将标签B和标签I设置为有效标签。

上述文本标签确定方法，通过在获取待拼接文本后，先对拼接文本中各单字进行编码，得到与各单字对应的字向量，再利用注意力机制根据字向量对各单字进行交互，得到与候选标签中各单字对应的特征向量，再根据特征向量对候选标签中各单字进行序列标注分类，能够在充分交互候选标签中各标签、以及各标签与目标文本的语义的情况下，得到准确的序列标注结果，从而可以利用该序列标注结果，一次性的从候选标签中匹配出所有与目标文本对应的目标标签，能够提高标签匹配准确率。

在一个实施例中，利用注意力机制根据字向量对各单字进行交互，得到与候选标签中各单字对应的特征向量包括：

利用注意力机制根据字向量计算各单字之间的相似度，得到与拼接文本对应的相似度矩阵；

对相似度矩阵进行归一化，确定各单字之间的相对权重系数；

根据相对权重系数和字向量进行向量加权，得到与候选标签中各单字对应的特征向量。

其中，相似度用于表征各单字之间的相似程度。比如，相似度具体可以是指各单字的字向量之间的向量相似度。相似度矩阵是指由各单字之间的相似度组成的矩阵。相对权重系数用来表示拼接文本中各单字之间的重要程度，这里的各单字之间的重要程度是指对于拼接文本中任意单字来说，其他单字对它的重要程度。

具体的，终端会利用注意力机制，根据字向量计算各单字与候选标签中所有单字之间的相似度，根据计算得到的相似度，得到与拼接文本对应的相似度矩阵，根据相似度矩阵中相似度值，对相似度矩阵进行归一化，确定各单字之间的相对权重系数，相对权重系数即归一化后的相似度值。得到相对权重系数后，针对候选标签中各单字，终端会根据候选标签中其他单字的字向量以及与它的相对权重系数进行向量加权，得到各单字对应的特征向量。为了深层次的挖掘候选标签和目标文本之间的关系，两者之间的交互过程有时可能会执行多次，以此来模拟人类在进行阅读理解时重复阅读的行为。因此，在一次得到特征向量后，终端会以特征向量作为单字的新的字向量，再次根据特征向量进行交互，以不断更新特征向量，直到交互次数达到预设的交互次数阈值为止。其中，这里的预设的交互次数阈值可按照需要自行设置。

本实施例中，通过利用注意力机制根据字向量对各单字进行交互，能够充分挖掘候选标签和目标文本之间的关系，得到与候选标签中各单字对应的特征向量。

在一个实施例中，根据特征向量对候选标签中各单字进行序列标注分类，得到候选标签中各单字对应的序列标注结果包括：

获取已训练的标签向量转换矩阵；

根据特征向量和标签向量转换矩阵，得到与候选标签中各单字对应的序列标签向量；

根据序列标签向量对候选标签中各单字进行序列标注分类，得到候选标签中各单字对应的序列标注结果。

其中，已训练的标签向量转换矩阵是指用于将特征向量转换为序列标签向量的矩阵，可通过预先训练得到。标签向量转换矩阵的大小与特征向量以及预设序列标签数量相关，举例说明，当特征向量大小为1*N，且预设序列标签数量为3个时，可得到标签向量转换矩阵的大小为N*3，利用该标签向量转换矩阵可以将特征向量转换为1*3的序列标签向量。

具体的，在得到特征向量后，终端会获取已训练的标签向量转换矩阵，利用标签向量转换矩阵对特征向量进行转换，将特征向量转换为对应的序列标签向量，再根据序列标签向量中元素值对候选标签中各单字进行序列标注分类，得到候选标签中各单字对应的序列标注结果。

本实施例中，通过获取标签向量转换矩阵，能够利用标签向量转换矩阵实现对特征向量的转换，得到各单字对应的序列标签向量，进而能够根据序列标签向量对候选标签中各单字进行序列标注分类，得到候选标签中各单字对应的序列标注结果。

在一个实施例中，根据序列标签向量对候选标签中各单字进行序列标注分类，得到候选标签中各单字对应的序列标注结果包括：

根据序列标签向量对候选标签中各单字进行序列标注分类，确定各单字归属于各预设序列标签的类别概率；

根据类别概率，得到候选标签中各单字对应的序列标注结果。

其中，预设序列标签是指预先设置的用于区分各单字在标签中位置的标签。比如预设序列标签具体可以是指BIO标签。

具体的，序列标签向量中各元素的元素值是与单字归属于各预设序列标签的类别概率对应的，终端在得到序列标签向量后，可以根据序列标签向量以及预设的序列标签向量中元素与预设序列标签的对应关系，对候选标签中各单字进行序列标注分类，得到各单字归属于各预设序列标签的类别概率，通过对类别概率进行排序，就可以得到与各单字对应的序列标注结果。其中，序列标注结果是指与最大类别概率对应的预设序列标签。比如，针对单字A，其归属于标签B、标签I以及标签O的类别概率分别为0.6、0.3以及0.1时，可以得到单字A的序列标注结果为标签B，即该单字A对应正确匹配的目标标签的开始位置。

本实施例中，通过根据序列标签向量对候选标签中各单字进行序列标注分类，得到各单字归属于各预设序列标签的类别概率，能够根据类别概率，得到候选标签中各单字对应的序列标注结果。

在一个实施例中，根据序列标注结果，确定与目标文本对应的目标标签包括：

根据序列标注结果，确定有效序列标签；

根据有效序列标签，从候选标签中筛选出与目标文本对应的目标标签。

其中，有效序列标签是指在序列标注结果中具有实际意义的标签。比如，当序列标签为BIO标签时，由于标签B和标签I会分别指向匹配的标签的开始位置以及中间位置，其就是具有实际意义的标签，由于标签O会指向不匹配的标签，其就是不具有实际意义的标签。目标标签是指与目标文本相匹配的标签。

具体的，在得到序列标注结果后，终端会根据预设有效标签从序列标注结果中筛选出有效序列标签，根据有效序列标签，从候选标签中筛选出与有效序列标签对应的标签，将与有效序列标签对应的标签作为与目标文本对应的目标标签。其中，其中，预设有效标签是指预先设置的有实际意义的标签。

本实施例中，通过根据序列标注结果，确定有效序列标签，根据有效序列标签，从候选标签中筛选出与目标文本对应的目标标签，能够利用有效序列标签，确定目标标签。

在一个实施例中，上述实施例中候选标签中各单字对应的序列标注结果通过文本标签匹配模型得到；

文本标签匹配模型的构建过程包括：

获取初始文本匹配模型以及分类匹配训练数据，分类匹配训练数据包括已拼接的分类标签以及与分类标签对应的分类匹配文本，分类标签携带分类序列标签；

根据分类匹配训练数据对初始文本匹配模型进行训练，得到初始文本标签匹配模型；

获取标签匹配训练数据，标签匹配训练数据包括已拼接的训练标签以及与训练标签匹配的标签匹配文本，训练标签携带训练序列标签；

根据标签匹配训练数据对初始文本标签匹配模型进行训练，得到已训练的文本标签匹配模型。

其中，已训练的文本标签匹配模型是指预先已训练的用于进行文本标签匹配的模型，在已训练的文本标签匹配模型中包括编码层以及输出层，其中的编码层用于对输入数据进行编码和交互，得到与输入数据对应的特征向量，输出层主要用于根据特征向量对候选标签中各单字进行序列标签分类。比如，输出层具体可以是用于序列标注分类的全连接层。比如，已训练的文本标签匹配模型具体可以是指基于机器阅读理解任务构建的模型，在传统的基于机器阅读理解任务构建的模型中，通常给定上下文和问题作为输入，模型需要根据问题在上下文中找出答案，本实施例中，在文本标签确定的场景下，文本标签匹配模型将目标文本作为问题，将候选标签作为上下文，得到的答案即为正确的标签。

举例说明，基于机器阅读理解任务构建的模型具体可以是指基于BERT(Bidirectional Encoder Representations from Transformers)的阅读理解模型，如图2所示，在基于BERT的阅读理解模型中，以候选标签拼接作为上下文，以标题与正文(即目标文本)作为问题，得到的答案即为候选标签中各单字对应的序列标注结果，根据该序列标注可以从候选标签中确定出目标标签。进一步的，如图2所示，在问题中除了标题与正文外，还包括先验知识，这里的先验知识是指与目标文本相关的描述，比如先验知识具体可以是指目标文本的分类信息，能够帮助模型更好学习得到目标文本的语义表示。当存在先验知识时，先验知识会作为目标文本的一部分参与文本标签匹配。

其中，分类匹配训练数据是指用于进行分类训练的训练集，在分类匹配训练数据中包括已拼接的分类标签以及与分类标签对应的分类匹配文本。需要说明的是，这里的分类标签中包括与分类匹配文本相匹配的第一分类标签，也包括与分类匹配文本不相匹配的第二分类标签，第一分类标签与第二分类标签可通过分类标签携带的分类序列标签进行区分，分类序列标签是指预先为第一分类标签和第二分类标签标注的标签，用于标注第一分类标签以及第二分类标签中各单字在分类标签中的位置。比如，标注的标签具体可以是指BIO标签，则针对第一分类标签，以B表示其开始位置，I表示中间位置，针对第二分类标签，以O表示其全部位置。比如，针对第一分类标签AAAA，其分类序列标签具体可以是BIII，针对第二分类标签BBBBB，其分类序列标签具体可以是OOOOO。

举例说明，分类标签具体可以与搜索query(查询)相对应，其中包括多个表征搜索query短语的第一分类标签以及第二分类标签。其中的搜索query短语以及对应的分类匹配文本可以从存储有搜索日志的数据库中获取，通过对搜索日志进行挖掘，可以得到搜索query与对应点击文章，从而可以以搜索query作为该对应点击文章的第一分类标签，其他不对应的搜索query作为第二分类标签。搜索query包含了来自用户点击的监督信号，且数据规模较大，是较好的分类数据，但是搜索query和真正的标签还存在一定差距，因此，优选的可以使用更接近的分类数据源。

举例说明，更接近的分类数据源具体可以是指与标签语义接近的二三级分类数据，其中分类标签具体可以与二级分类相对应，其中包括多个表征三级分类的第一分类标签以及第二分类标签，这里的二级分类与三级分类是指依据分类范围划分的分类，其中二级分类的范围大于三级分类，在二级分类中包括多个三级分类，举例说明，在体育类这个一级分类下，存在篮球、足球等二级分类，篮球这个二级分类下存在NBA(NationalBasketball Association，美国男篮职业联赛)、CBA(China Basketball Association，中国男子篮球职业联赛)这样的三级分类。

其中，初始文本匹配模型是指用于实现文本匹配的模型，包括编码层和输出层。比如，初始文本匹配模型具体可以是指基于机器阅读理解任务构建的模型。在传统的基于机器阅读理解任务构建的模型中，通常给定上下文和问题作为输入，模型需要根据问题在上下文中找出答案，本实施例中，在分类匹配的场景下，将与分类标签对应的分类匹配文本作为问题，将分类匹配训练数据作为上下文，输出分类结果，即将分类任务转换为标签匹配任务，利用分类匹配训练数据来对初始文本匹配模型进行训练。由于标签是与二三级分类语义相接近的，因此，通过引入对分类匹配的训练，能够使得初始文本匹配模型学习到细粒度的语义区分，从而加强初始文本匹配模型的细粒度语义区分能力。

其中，标签匹配训练数据是指用于对初始文本标签匹配模型进行训练的训练集，在标签匹配训练数据中包括已拼接的训练标签以及与训练标签匹配的标签匹配文本。序列标签是指预先为训练标签中各单字标注的标签，用于标注训练标签中各单字在训练标签中的位置。比如序列标签具体可以是指BIO标签，以B表示训练标签的开始位置，以I表示训练标签的中间位置。初始文本标签匹配模型是指待训练的文本标签匹配模型，在初始文本标签匹配模型中包括编码层和输出层，其中的编码层用于对标签匹配训练数据进行编码以及交互，得到与标签匹配训练数据对应的特征向量，输出层用于根据特征向量对训练标签进行序列标注分类，得到训练标签中各单字对应的序列标注结果。

需要说明的是，这里的训练标签的数量可以不止一个，即包括所有与标签匹配文本相匹配的标签，不同的训练标签通过序列标签进行区分。比如，当序列标签为BIO标签时，以B表示训练标签的开始位置，以I表示训练标签的中间位置，每个训练标签所对应的序列标签为从一个开始位置到下一个开始位置的前一个中间位置。举例说明，当已拼接的训练标签为两个训练标签AAAA和BBBBB时，其对应的序列标签为BIIIBIIII。

具体的，终端会获取分类匹配训练数据以及初始文本匹配模型，将分类匹配训练数据输入初始文本匹配模型，先通过其中的编码层对分类匹配训练数据进行编码以及交互，得到与分类匹配训练数据对应的特征向量，再通过其中的输出层根据特征向量对分类标签进行序列标注分类，得到分类标签中各单字对应的分类序列标注结果。在得到分类序列标注结果后，终端会通过比对同一单字的分类序列标注结果以及分类序列标签中该单字对应的序列标签的方式，计算模型损失函数，根据模型损失函数对初始文本匹配模型进行参数调整，根据分类匹配训练数据对参数调整后的初始文本匹配模型再次进行训练，直到模型损失函数满足预设训练结束条件为止，得到初始文本标签匹配模型。其中，预设训练结束条件可按照需要自行设置，包括但不限定于模型损失函数小于预设损失函数阈值、模型损失函数收敛等条件。

具体的，在得到初始文本标签匹配模型后，终端会获取标签匹配训练数据，将标签匹配训练数据输入初始文本标签匹配模型，先通过其中的编码层对标签匹配训练数据进行编码以及交互，得到与标签匹配训练数据对应的特征向量，再通过其中的输出层根据特征向量对训练标签进行序列标注分类，得到训练标签中各单字对应的序列标注结果。在得到序列标注结果后，终端会通过比对同一单字的序列标注结果以及序列标签中该单字对应的序列标签的方式，计算模型损失函数，根据模型损失函数对初始文本标签匹配模型进行参数调整，根据标签匹配训练数据对参数调整后的初始文本标签匹配模型再次进行训练，直到模型损失函数满足预设训练结束条件为止，得到已训练的文本标签匹配模型。其中，预设训练结束条件可按照需要自行设置，包括但不限定于模型损失函数小于预设损失函数阈值、模型损失函数收敛等条件。

进一步的，在通过输出层根据特征向量对训练标签进行序列标注分类时，主要是通过输出层中的标签向量转换矩阵实现对特征向量的转换，将特征向量转换为对应的序列标签向量，再依据序列标签向量实现对训练标签中各单字进行序列标注分类，得到训练标签中各单字对应的序列标注结果。其中，标签向量转换矩阵的大小与特征向量以及预设序列标签数量相关，举例说明，当特征向量大小为1*N，且预设序列标签数量为3个时，可得到标签向量转换矩阵的大小为N*3，利用该标签向量转换矩阵可以将特征向量转换为1*3的序列标签向量。

本实施例中，通过先引入分类匹配训练数据对初始文本匹配模型进行预训练，能够使得初始文本匹配模型学习到细粒度的语义区分，从而加强初始文本匹配模型的细粒度语义区分能力，得到更准确的初始文本标签匹配模型，进而可以通过利用标签匹配训练数据对初始文本标签匹配模型进行训练，得到准确的已训练的文本标签匹配模型。

在一个实施例中，根据标签匹配训练数据对初始文本标签匹配模型进行训练，得到已训练的文本标签匹配模型包括：

根据标签匹配训练数据对初始文本标签匹配模型进行训练，得到初步训练文本标签匹配模型；

根据分类匹配训练数据以及标签匹配训练数据，生成任务联合训练数据；

根据任务联合训练数据对初步训练文本标签匹配模型进行训练，得到已训练的文本标签匹配模型。

具体的，在根据标签匹配训练数据对初始文本标签匹配模型进行训练，得到已训练的文本标签匹配模型时，除了直接训练得到已训练的文本标签匹配模型外，也可以通过先得到初步训练文本标签匹配模型，再生成任务联合训练数据，根据任务联合训练数据对初步训练文本标签匹配模型进行训练的方式，得到已训练的文本标签匹配模型。其中，在任务联合训练数据中包括分类匹配训练数据以及标签匹配训练数据，根据任务联合训练数据对初步训练文本标签匹配模型进行训练是指同时利用分类匹配训练数据以及标签匹配训练数据，对初步训练文本标签匹配模型进行训练，即交替使用分类匹配训练数据或标签匹配训练数据对初步训练文本标签匹配模型进行训练。

进一步的，在训练的过程中，还会在标签匹配文本和分类匹配文本前拼接任务标识，以区分文本标签匹配任务和分类任务，由于分类任务是与文本标签匹配任务相关的任务，通过引入分类任务作为辅助任务进行多任务学习，能够利用任务联合训练改进模型的性能。需要说明的是，在标签匹配文本和分类匹配文本中可能存在相同匹配文本，即存在目标匹配文本可同时用于分类任务和文本标签匹配任务。优选的，终端在进行任务联合训练时，可以从分类匹配训练数据以及标签匹配训练数据中筛选出相同的匹配文本，作为目标匹配文本，根据目标匹配文本得到任务联合训练数据。

举例说明，如图3所示，在分类匹配训练数据以及标签匹配训练数据中均包括“螺蛳粉不算什么！广西的重口味美食，你敢吃吗？”这个目标匹配文本，在利用该目标匹配文本进行任务联合训练时，对于分类任务，其分类标签中包括第一分类标签城市必吃，以及第二分类标签网红美食、吃喝攻略等，对于文本标签匹配任务，其训练标签包括广西美食、螺蛳粉做法、广西旅游等，其中广西美食的序列标签为BIII，螺蛳粉做法的序列标签为OOOOO，广西旅游的序列标签为OOOOO。

本实施例中，通过先生成任务联合训练数据，再根据任务联合训练数据进行训练，能够通过任务联合训练改善初步训练文本标签匹配模型的性能，得到可实现准确文本标签确定的已训练的文本标签匹配模型。

本申请还提供一种应用场景，该应用场景应用上述的文本标签确定方法。具体地，该文本标签确定方法在该应用场景的应用如下：

其中，目标文本为“套内X平小户型，装修花了Y万，装完这效果真不错！现如今，装修一套房子可能随便都要花个十万以上。不过，钱花了还要花得值，毕竟大家的钱都不是大风刮来的”，候选标签为“小户型装修、别墅装修、农村住房”，目标标签为“小户型装修”；

终端先获取拼接文本，拼接文本包括已拼接的候选标签以及目标文本，对拼接文本中各单字进行编码，得到与各单字对应的字向量，利用注意力机制根据字向量对各单字进行交互，得到与候选标签中各单字对应的特征向量，根据特征向量对候选标签中各单字进行序列标注分类，得到候选标签中各单字对应的序列标注结果，根据序列标注结果，确定与目标文本对应的目标标签。其中，当拼接的候选标签为小户型装修+别墅装修+农村住房且序列标签为BIO标签时，可得到对应的序列标注结果为BIIII+OOOO+OOOO，根据该序列标注结果即可得到目标标签为小户型装修。

如图4所示，本申请还另外提供一个流程示意图来说明本申请的文本标签确定方法，该文本标签确定方法具体包括以下步骤：

步骤402，获取拼接文本，拼接文本包括已拼接的候选标签以及目标文本；

步骤404，对拼接文本中各单字进行编码，得到与各单字对应的字向量；

步骤406，利用注意力机制根据字向量计算各单字之间的相似度，得到与拼接文本对应的相似度矩阵；

步骤408，对相似度矩阵进行归一化，确定各单字之间的相对权重系数；

步骤410，根据相对权重系数和字向量进行向量加权，得到与候选标签中各单字对应的特征向量；

步骤412，获取已训练的标签向量转换矩阵；

步骤414，根据特征向量和标签向量转换矩阵，得到与候选标签中各单字对应的序列标签向量；

步骤416，根据序列标签向量对候选标签中各单字进行序列标注分类，确定各单字归属于各预设序列标签的类别概率；

步骤418，根据类别概率，得到候选标签中各单字对应的序列标注结果；

步骤420，根据序列标注结果，确定有效序列标签；

步骤422，根据有效序列标签，从候选标签中筛选出与目标文本对应的目标标签。

本申请中提出的文本标签确定方法与传统方法相比，能够充分实现目标文本与候选标签的交互，且能够一次性完成对候选标签中所有标签的匹配过程，匹配能力更强，代价更小。此外，在上述实施例中，还提出了由远到近的多领域数据迁移的训练优化，包括先引入对分类匹配的训练，加强模型的细粒度语义区分能力以及利用任务联合训练改进模型的性能等，能够进一步提升文本标签确定的效果。通过在相同的数据集上与已有的无监督策略方法、基于GBDT(Gradient Boosting Decision Tree，梯度提升决策树)的分类方法等进行对比，可以发现本申请提出的文本标签确定方法具有明显效果提升。

具体的，对比数据可以如表1所示，其中，分类数据预训练是指引入对分类匹配的训练的方式，分类辅助任务是指任务联合训练，query数据预训练是指利用事先收集的query数据进行预训练优化，MRC(Machine Reading Comprehension，机器阅读理解)匹配模型是指未进行训练优化的文本标签匹配模型：

表1

应该理解的是，虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种文本标签确定装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块502、编码模块504、交互模块506、分类模块508和处理模块510，其中：

获取模块502，用于获取拼接文本，拼接文本包括已拼接的候选标签以及目标文本；

编码模块504，用于对拼接文本中各单字进行编码，得到与各单字对应的字向量；

交互模块506，用于利用注意力机制根据字向量对各单字进行交互，得到与候选标签中各单字对应的特征向量；

分类模块508，用于根据特征向量对候选标签中各单字进行序列标注分类，得到候选标签中各单字对应的序列标注结果；

处理模块510，用于根据序列标注结果，确定与目标文本对应的目标标签。

上述文本标签确定装置，通过在获取待拼接文本后，先对拼接文本中各单字进行编码，得到与各单字对应的字向量，再利用注意力机制根据字向量对各单字进行交互，得到与候选标签中各单字对应的特征向量，再根据特征向量对候选标签中各单字进行序列标注分类，能够在充分交互候选标签中各标签、以及各标签与目标文本的语义的情况下，得到准确的序列标注结果，从而可以利用该序列标注结果，一次性的从候选标签中匹配出所有与目标文本对应的目标标签，能够提高标签匹配准确率。

在一个实施例中，交互模块还用于利用注意力机制根据字向量计算各单字之间的相似度，得到与拼接文本对应的相似度矩阵，对相似度矩阵进行归一化，确定各单字之间的相对权重系数，根据相对权重系数和字向量进行向量加权，得到与候选标签中各单字对应的特征向量。

在一个实施例中，分类模块还用于获取已训练的标签向量转换矩阵，根据特征向量和标签向量转换矩阵，得到与候选标签中各单字对应的序列标签向量，根据序列标签向量对候选标签中各单字进行序列标注分类，得到候选标签中各单字对应的序列标注结果。

在一个实施例中，分类模块还用于根据序列标签向量对候选标签中各单字进行序列标注分类，确定各单字归属于各预设序列标签的类别概率，根据类别概率，得到候选标签中各单字对应的序列标注结果。

在一个实施例中，处理模块还用于根据序列标注结果，确定有效序列标签，根据有效序列标签，从候选标签中筛选出与目标文本对应的目标标签。

在一个实施例中，上述实施例中候选标签中各单字对应的序列标注结果可通过文本标签匹配模型得到，文本标签确定装置还包括模型处理模块，模块处理模块中包括文本标签匹配模型，模块处理模块还用于获取初始文本匹配模型以及分类匹配训练数据，分类匹配训练数据包括已拼接的分类标签以及与分类标签对应的分类匹配文本，分类标签携带分类序列标签，根据分类匹配训练数据对初始文本匹配模型进行训练，得到初始文本标签匹配模型，获取标签匹配训练数据，标签匹配训练数据包括已拼接的训练标签以及与训练标签匹配的标签匹配文本，训练标签携带训练序列标签，根据标签匹配训练数据对初始文本标签匹配模型进行训练，得到已训练的文本标签匹配模型。

在一个实施例中，模块处理模块还用于根据标签匹配训练数据对初始文本标签匹配模型进行训练，得到初步训练文本标签匹配模型，根据分类匹配训练数据以及标签匹配训练数据，生成任务联合训练数据，根据任务联合训练数据对初步训练文本标签匹配模型进行训练，得到已训练的文本标签匹配模型。

关于文本标签确定装置的具体限定可以参见上文中对于文本标签确定方法的限定，在此不再赘述。上述文本标签确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本标签确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本标签确定方法，其特征在于，所述方法包括：

获取拼接文本，所述拼接文本包括已拼接的候选标签以及目标文本；

对所述拼接文本中各单字进行编码，得到与各单字对应的字向量；

利用注意力机制根据所述字向量对各单字进行交互，得到与所述候选标签中各单字对应的特征向量；

根据所述特征向量对所述候选标签中各单字进行序列标注分类，得到所述候选标签中各单字对应的序列标注结果；

根据所述序列标注结果，确定与所述目标文本对应的目标标签。

2.根据权利要求1所述的方法，其特征在于，所述利用注意力机制根据所述字向量对各单字进行交互，得到与所述候选标签中各单字对应的特征向量包括：

利用注意力机制根据所述字向量计算各单字之间的相似度，得到与所述拼接文本对应的相似度矩阵；

对所述相似度矩阵进行归一化，确定各单字之间的相对权重系数；

根据所述相对权重系数和所述字向量进行向量加权，得到与所述候选标签中各单字对应的特征向量。

3.根据权利要求1所述的方法，其特征在于，所述根据所述特征向量对所述候选标签中各单字进行序列标注分类，得到所述候选标签中各单字对应的序列标注结果包括：

获取已训练的标签向量转换矩阵；

根据所述特征向量和所述标签向量转换矩阵，得到与所述候选标签中各单字对应的序列标签向量；

根据所述序列标签向量对所述候选标签中各单字进行序列标注分类，得到所述候选标签中各单字对应的序列标注结果。

4.根据权利要求3所述的方法，其特征在于，所述根据所述序列标签向量对所述候选标签中各单字进行序列标注分类，得到所述候选标签中各单字对应的序列标注结果包括：

根据所述序列标签向量对所述候选标签中各单字进行序列标注分类，确定各单字归属于各预设序列标签的类别概率；

根据所述类别概率，得到所述候选标签中各单字对应的序列标注结果。

5.根据权利要求1所述的方法，其特征在于，所述根据所述序列标注结果，确定与所述目标文本对应的目标标签包括：

根据所述序列标注结果，确定有效序列标签；

根据所述有效序列标签，从所述候选标签中筛选出与所述目标文本对应的目标标签。

6.根据权利要求1所述的方法，其特征在于，权利要求1-4中任一项中所述候选标签中各单字对应的序列标注结果通过文本标签匹配模型得到；

所述文本标签匹配模型的构建过程包括：

获取初始文本匹配模型以及分类匹配训练数据，所述分类匹配训练数据包括已拼接的分类标签以及与所述分类标签对应的分类匹配文本，所述分类标签携带分类序列标签；

根据所述分类匹配训练数据对所述初始文本匹配模型进行训练，得到初始文本标签匹配模型；

获取标签匹配训练数据，所述标签匹配训练数据包括已拼接的训练标签以及与所述训练标签匹配的标签匹配文本，所述训练标签携带训练序列标签；

根据所述标签匹配训练数据对所述初始文本标签匹配模型进行训练，得到已训练的文本标签匹配模型。

7.根据权利要求6所述的方法，其特征在于，所述根据所述标签匹配训练数据对所述初始文本标签匹配模型进行训练，得到已训练的文本标签匹配模型包括：

根据所述标签匹配训练数据对所述初始文本标签匹配模型进行训练，得到初步训练文本标签匹配模型；

根据所述分类匹配训练数据以及所述标签匹配训练数据，生成任务联合训练数据；

根据所述任务联合训练数据对所述初步训练文本标签匹配模型进行训练，得到已训练的文本标签匹配模型。

8.一种文本标签确定装置，其特征在于，所述装置包括：

获取模块，用于获取拼接文本，所述拼接文本包括已拼接的候选标签以及目标文本；

编码模块，用于对所述拼接文本中各单字进行编码，得到与各单字对应的字向量；

交互模块，用于利用注意力机制根据所述字向量对各单字进行交互，得到与所述候选标签中各单字对应的特征向量；

分类模块，用于根据所述特征向量对所述候选标签中各单字进行序列标注分类，得到所述候选标签中各单字对应的序列标注结果；

处理模块，用于根据所述序列标注结果，确定与所述目标文本对应的目标标签。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。