CN116542234A

CN116542234A - 一种基于分治关键词和意图的细粒度文本语义匹配方法

Info

Publication number: CN116542234A
Application number: CN202310209180.3A
Authority: CN
Inventors: 邹游
Original assignee: Chongqing Telian Qizhi Technology Co ltd
Current assignee: Chongqing Telian Qizhi Technology Co ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-08-04

Abstract

本发明公开一种基于分治关键词和意图的细粒度文本语义匹配方法，其特征在于，包括以下步骤：步骤一：基于大规模预训练模型的文本语义匹配:使用大规模预训练模型进行，这里使用NLP领域的bert预训练模型；步骤二：区分关键词和意图的远程监督训练:假定每个句子都可以分解为关键词和意图，其中关键词表示动作和实体之类的事实信息，事实信息是应该严格匹配的。本提供了一种基于分治关键词和意图的细粒度文本语义匹配方法，方便文本语义匹配。

Description

一种基于分治关键词和意图的细粒度文本语义匹配方法

技术领域

本发明涉及文本检索技术领域，具体地讲，涉及一种基于分治关键词和意图的细粒度文本语义匹配方法。

背景技术

文本匹配用于获取两篇文本的相关或者相似程度，是自然语言处理领域的一个核心技术，能够有效表示和抽取文本的语义信息，在信息检索、信息抽取、自动问答等领域都有重要的意义。

目前文本语义匹配缺点1：文本语义匹配往往粒度较粗，进行语义相似度判断时，会使模型忽略细节部分的信息和知识，造成模型的误判；缺点2：文本语义匹配对于字面相似语义不相似的文本往往容易错误判定。

发明内容

本发明要解决的技术问题是提供一种基于分治关键词和意图的细粒度文本语义匹配方法，方便文本语义匹配。

本发明采用如下技术方案实现发明目的：

一种基于分治关键词和意图的细粒度文本语义匹配方法，其特征在于，包括以下步骤：

步骤一：基于大规模预训练模型的文本语义匹配:使用大规模预训练模型进行，这里使用NLP领域的bert预训练模型；

步骤二：区分关键词和意图的远程监督训练:假定每个句子都可以分解为关键词和意图；

步骤三：采用分治的策略：将原始的文本语义匹配问题分解为关键词匹配和意图匹配分别进行处理；

步骤四：训练和推理:在训练阶段，采用所述步骤三中的方式进行训练，在推理阶段，不采用提取关键词和意图，直接将两个句子拼接输入模型进行推理即可。

作为对本技术方案的进一步限定，所述步骤二的关键词表示像动作和实体之类的事实信息，他们是应该严格匹配的；其中意图表达了抽象的概念他们可以有不同的表达方式，通过区分意图和关键词，将匹配过程划分为两个更简单的子任务去完成，这里对于如何提取出关键词，由于缺少标签数据进行训练，采用通过引入外部知识库自动提取实体生成关键词的方式，所有提取的实体自动标记为关键词；

作为对本技术方案的进一步限定，所述步骤一中，使用中文预训练模型bert-wwm；

给定两个句子：

和/>

其中：和/>分别表示句子里的第i个字符；

使用分类器y＝ξ(S^a,S^b)来预测S^a和S^b的语义等价关系；

其中：l_a和l_b分别表示句子的长；

y表示两个句子的关系；

将两个句子S^a和S^b进行连接得到S^a,b＝[S^a；w^sep；S^b]，

其中：w^sep是分割符。

作为对本技术方案的进一步限定，将S^a,b＝[S^a；w^sep；S^b]输入预训练模型按照如下式:

[h^cls；H^a,b]＝PLM([w^cls；S^a,b]) (1)

P(y|S^a,S^b)＝Softmax(h^cls·W^T) (2)

其中：w^cls是一个特殊字符位于每句话的开头；

h^cls是每句话的一个句向量表示，预测的时候使用一层全连接层进行输出；

H^a,b表示隐层向量；

W∈R^K×H表示可训练的权重，其中K表示标签的数量；

最终的分类损失表示如下:

作为对本技术方案的进一步限定，所述步骤二的具体流程如下：

步骤二一：首先通过NLTK识别出名词，动词，形容词等可能的关键词；

步骤二二：将可能的关键词以此纳入外部知识图谱进行实体匹配，若匹配成功则为关键词，若匹配失败则不为关键词；

步骤二三：按照上述方式匹配成功的为关键词，句子除了关键词剩下的部分认为是意图，这样就获得了关键词和意图的弱标签信息。

作为对本技术方案的进一步限定，添加一个辅助的训练目标强迫模型学会区分关键词和意图表示；

将H^a,b分解为两部分，分别为和/>分别对应关键词和意图的表示；

其中：N_k和N_i分别表示关键词和意图的token数量；

关键词与意图分类的loss定义如下：

其中：W_ds∈R^1×H为可训练参数；

和/>是通过/>和/>进行average-pooling得到；

通过上述的loss可以更好的让模型学习如何区分关键词和意图。

作为对本技术方案的进一步限定，所述步骤三的具体流程为：

假设每个子问题和原始的目标有相同的解，那么原始问题的概率分布Q^y可由两个子问题的联合概率分布P(y_k,y_i)派生出来，公式如下：

其中：c_n和c_m反应了匹配度；

c_m＞c_n表示c_m有更高的匹配分数相比于c_n；

为了建模子问题，重用式(2)，获得关键词和意图的条件概率分布和/>

其中：S_k和S_i分别表示意图和关键词被mask之后的句子表示。

作为对本技术方案的进一步限定，依据独立子问题的假设，y_k和y_i的联合条件概率分布如下式：

最后，原问题和子问题的联合概率分布的KL散度表示loss如下:

最终训练loss为上述3个loss相加而得:

作为对本技术方案的进一步限定，所述步骤四中，采用所述步骤三中的方式为训练loss。

作为对本技术方案的进一步限定，两个句子的关系包括匹配、部分匹配及完全匹配

与现有技术相比，本发明的优点和积极效果是：

1、针对缺点1，本发明着重解决文本语义匹配粒度较粗的问题，细化文本语义匹配的粒度为文本匹配，关键词匹配，意图匹配，细化语义相似度判断的粒度。

2、本发明提出了一种基于分治关键词和意图的细粒度文本语义匹配方法与系统，解决了文本语义匹配粒度较粗，进行语义相似度判断时，会使模型忽略细节部分的信息和知识，造成模型的误判问题。

3、针对缺点2本发明着重解决如何提升文本语义匹配的精度和泛化能力。通过引入关键词，意图的多维度多粒度匹配训练，提升文本语义匹配系统的精度和泛化性。

4、本发明提出了一种基于分治关键词和意图的细粒度文本语义匹配方法与系统，解决了语义匹配对于字面相似语义不相似的文本往往容易错误判定问题。

5、本发明通过细化文本语义匹配粒度为文本匹配，关键词匹配，意图匹配，细化语义相似度判断的粒度；通过引入关键词，意图的多维度多粒度匹配训练，提升文本语义匹配系统的精度和泛化性。

具体实施方式

下面对本发明的一个具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

本发明包括以下步骤：

步骤一：基于大规模预训练模型的文本语义匹配：使用大规模预训练模型进行，这里使用NLP领域的bert预训练模型；

所述步骤一中，使用中文预训练模型bert-wwm；

给定两个句子：

和/>

其中：和/>分别表示句子里的第i个字符；

使用分类器y＝ξ(S^a,S^b)来预测S^a和S^b的语义等价关系；

其中：l_a和l_b分别表示句子的长；

y表示两个句子的关系；

两个句子的关系包括匹配、部分匹配及完全匹配。

将两个句子S^a和S^b进行连接得到S^a,b＝[S^a；w^sep；S^b]，

其中：w^sep是分割符；

将S^a,b＝[S^a；w^sep；S^b]输入预训练模型按照如下式:

[h^cls；H^a,b]＝PLM([w^cls；S^a,b]) (1)

P(y|S^a,S^b)＝Softmax(h^cls·W^T) (2)

其中：w^cls是一个特殊字符位于每句话的开头；

H^a,b表示隐层向量；

W∈R^K×H表示可训练的权重，其中K表示标签的数量；

最终的分类损失表示如下:

步骤二：区分关键词和意图的远程监督训练：假定每个句子都可以分解为关键词和意图，其中关键词表示像动作和实体之类的事实信息，该事实信息是应该严格匹配的；其中意图表达了抽象的概念、可以有不同的表达方式。通过区分意图和关键词，将匹配过程划分为两个更简单的子任务去完成，这里对于如何提取出关键词，由于缺少标签数据进行训练，采用通过引入外部知识库自动提取实体生成关键词的方式，所有提取的实体自动标记为关键词；

所述步骤二的具体流程如下：

添加一个辅助的训练目标强迫模型学会区分关键词和意图表示；

其中：N_k和N_i分别表示关键词和意图的token数量；

关键词与意图分类的loss定义如下：

其中：W_ds∈R^1×H为可训练参数；

和/>是通过/>和/>进行average-pooling得到；

所述步骤三的具体流程为：

其中：c_n和c_m反应了匹配度；

c_m＞c_n表示c_m有更高的匹配分数相比于c_n；

其中：S_k和S_i分别表示意图和关键词被mask之后的句子表示；

依据独立子问题的假设，y_k和y_i的联合条件概率分布如下式：

最后，原问题和子问题的联合概率分布的KL散度表示loss如下:

最终训练loss为上述3个loss相加而得:

步骤四：训练和推理；在训练阶段，采用所述步骤三中的方式进行训练，在推理阶段，不采用提取关键词和意图，直接将两个句子拼接输入模型进行推理即可。

所述步骤四中，采用所述步骤三中的方式为训练loss。

以上公开的仅为本发明的具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种基于分治关键词和意图的细粒度文本语义匹配方法，其特征在于，包括以下步骤：

步骤一：基于大规模预训练模型的文本语义匹配:使用大规模预训练模型进行，所述预训练模型包括NLP领域的bert预训练模型；

2.根据权利要求1所述的基于分治关键词和意图的细粒度文本语义匹配方法，其特征在于：所述步骤二的关键词为事实信息，所述事实信息包括动作和实体信息；所述意图为抽象概念表达，通过区分意图和关键词，将匹配过程划分为两个子任务去完成。

3.根据权利要求1所述的基于分治关键词和意图的细粒度文本语义匹配方法，其特征在于：所述步骤一中，使用中文预训练模型bert-wwm；

给定两个句子：

和/>

其中：和/>分别表示句子里的第i个字符；

使用分类器y＝ξ（S^a,S^b）来预测S^a和S^b的语义等价关系；

其中：l_a和l_b分别表示句子的长；

y表示两个句子的关系；

将两个句子S^a和S^b进行连接得到S^a,b＝[S^a；w^sep；S^b]，

其中：w^sep是分割符。

4.根据权利要求3所述的基于分治关键词和意图的细粒度文本语义匹配方法，其特征在于：将S^a,b＝[S^a；w^sep；S^b]输入预训练模型按照如下式:

[h^cls；H^a,b]＝PLM([w^cls；S^a,b]) (1)

P(y|S^a,S^b)＝Softmax(h^cls·W^T) (2)

其中：w^cls是一个特殊字符位于每句话的开头；

H^a,b表示隐层向量；

W∈R^K×H表示可训练的权重，其中K表示标签的数量；

最终的分类损失表示如下:

5.根据权利要求4所述的基于分治关键词和意图的细粒度文本语义匹配方法，其特征在于：所述步骤二的具体流程如下：

步骤二一：首先通过NLTK识别出可能的关键词，所述可能的关键词包括名词，动词，形容词；

步骤二三：按照上述方式匹配成功的为关键词，句子除了关键词剩下的部分为意图，以获得关键词和意图的弱标签信息。

6.根据权利要求5所述的基于分治关键词和意图的细粒度文本语义匹配方法，其特征在于：添加一个辅助的训练目标强迫模型学会区分关键词和意图表示；

其中：N_k和N_i分别表示关键词和意图的token数量；

关键词与意图分类的loss定义如下：

其中：W_ds∈R^1×H为可训练参数；

和/>是通过/>和/>进行average-pooling得到；

通过所述loss让模型学习如何区分关键词和意图。

7.根据权利要求6所述的基于分治关键词和意图的细粒度文本语义匹配方法，其特征在于：所述步骤三的具体流程为：

假设每个子问题和原始的目标有相同的解，则原始问题的概率分布Q^y可由两个子问题的联合概率分布P(y_k,y_i)派生出来，公式如下：

其中：c_n和c_m反应了匹配度；

c_m＞c_n表示c_m有更高的匹配分数相比于c_n；

为了建模子问题，重用式(2)，获得关键词和意图的条件概率分布和

其中：S_k和S_i分别表示意图和关键词被mask之后的句子表示。

8.根据权利要求7所述的基于分治关键词和意图的细粒度文本语义匹配方法，其特征在于：

最后，原问题和子问题的联合概率分布的KL散度表示loss如下:

最终训练loss为上述3个loss相加而得:

9.根据权利要求8所述的基于分治关键词和意图的细粒度文本语义匹配方法，其特征在于：所述步骤四中，采用所述步骤三中的方式为训练loss。

10.根据权利要求8所述的基于分治关键词和意图的细粒度文本语义匹配方法，其特征在于：两个句子的关系包括匹配、部分匹配及完全匹配。