CN113836942B

CN113836942B - 一种基于隐关键词的文本匹配方法

Info

Publication number: CN113836942B
Application number: CN202111150632.2A
Authority: CN
Inventors: 赵天成
Original assignee: Honglong Technology Hangzhou Co ltd
Current assignee: Hangzhou Linker Technology Co ltd; Honglong Technology Hangzhou Co ltd
Priority date: 2021-02-08
Filing date: 2021-09-29
Publication date: 2022-09-20
Anticipated expiration: 2041-09-29
Also published as: CN113836942A

Abstract

本发明公开了一种基于隐关键词的文本匹配方法，基于的模型包括词向量和句子编码器，方法包括以下步骤：S1、输入为x和x’，用词向量将x和y转换为一系列的向量e_x=E(x)和e_y=E(x’)；S2、把词向量e输入句子编码器，得到包含上下文信息的向量h；S3、根据h和概率公式计算每个词属于关键词的概率；S4、计算文本的关键词向量；S5、得到文本的最终向量，通过余弦夹角计算两个文本的匹配度。本方案可以让文本匹配变得更加精准，并且不需要额外的人工标注。

Description

一种基于隐关键词的文本匹配方法

技术领域

本发明涉及人工智能领域，尤其是涉及一种基于隐关键词的文本匹配方法。

背景技术

文本匹配是一个重要的人工智能任务，大量的业务场景需要通过对于语义建模实现准确高效的文本匹配。例如智能搜索、商品推荐，对话系统、智能客服、问答系统、翻译系统等都需要利用文本匹配实现其核心功能。传统的文本匹配系统依赖于双塔结构(dualencoder)来计算两端文本之间的相关性，但是因为双塔结构完全依赖于单个向量来表达一句话的语义，因此匹配的误报率往往偏高，影响在实际产品中的性能。

发明内容

本发明主要是提供一种准确度较高的基于隐关键词的文本匹配方法。

本发明针对上述技术问题主要是通过下述技术方案得以解决的：一种基于隐关键词的文本匹配方法，基于的模型包括词向量矩阵E和句子编码器F，方法包括以下步骤：

S1、输入为第一文本x和第二文本y，用词向量矩阵E对x和y进行转换得到第一词向量e_x＝E(x)和第二词向量e_y＝E(y)；

S2、把第一词向量e_x和第二词向量e_y分别输入句子编码器F进行编码，得到第一编码向量集和第二编码向量集，第一编码向量集中的每个编码向量与第一文本中的每个词对应，第二编码向量集中的每个编码向量与第二文本中的每个词对应；

S3、根据第一编码向量集中的每个编码向量计算所对应的词属于关键词的概率；根据第二编码向量集中的每个编码向量计算所对应的词属于关键词的概率；

S4、从第一文本中采样得到第一关键词，根据第一文本中每个词属于关键词的概率计算每个词的关键词的概率预期值，第一文本中所有词的关键词的概率预期值构成第一文本的关键词向量；同样方法得到第二文本的关键词向量；

S5、将第一编码向量集和第一文本的关键词向量进行拼接得到第一文本的最终向量，将第二编码向量集和第二文本的关键词向量进行拼接得到第二文本的最终向量，依据第一文本的最终向量和第二文本的最终向量通过余弦夹角计算两个文本的匹配度，如果匹配度大于阈值则认为第一文本和第二文本匹配。

作为优选，词向量矩阵E是V×D的矩阵，V是词表的大小，D是词向量的大小。

作为优选，句子编码器F为LSTM模型或者Transformer模型。

作为优选，步骤S4中，计算第一文本中每个词属于关键词的概率p(w_i|x)通过如下公式计算得到：

式中，w_i表示第i个词，x为关键词，K为句子所包含的词数，e是自然常数，h_i是句子编码器针对第i个词输出的编码向量，T是矩阵转置操作，W是第i个词的词向量。同理，计算第二文本中每个词属于关键词的概率p(w_i|y)也通过同样方式得到。

作为优选，基于隐关键词的文本匹配方法还包括模型训练过程，模型训练过程具体为：

采集一个人工标注的数据集，包含人工配对好的相关句子x_i和y_i；人工标注的数据作为正样本，而同一个批量中其他句子作为负样本；用交叉熵作为损失函数并且配合SGD对模型进行优化：

式中，g_i是第i个样本(包括正样本和负样本)的匹配度，g*表示所有正样本的匹配度平均值，B是所采集的数据集中的文本数量。

作为优选，所述训练过程中，采用mini-batch的方法进行训练，每次处理一个小批量的数据，数据通过gumbel softmax的方式采样得到。

本发明带来的实质性效果是，提出了一种新颖的神经网络语义匹配架构，可以让文本匹配变得更加精准，并且不需要额外的人工标注。

附图说明

图1是本发明的一种流程图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：本方案的模型包括：

1.词向量E：词向量矩阵是一个V×D的矩阵，其中V是词表的大小而D是词向量的大小；

2.句子编码器F：利用LSTM或者Transformer等模型，对于一个句子进行编码，输出关于每一个词的编码向量h_i；

3.关键词注意力机制：针对每一个编码向量h_i，我们利用MLP W计算每一个词属于关键词的未归一化概率。具体来说我们通过softmax和W来计算如下概率

其中K是句子的长度。

根据上述三个模块，我们通过如下步骤计算两句话的匹配度(图1)：

输入为x和x’，我们首先用词向量将x和y转换为一系列的向量e_x＝E(x)和e_y＝E(x’)；

把词向量e输入句子编码器，得到包含上下文信息的向量h。

根据h和上述公式计算每个词属于关键词的概率。

1.下面会有两种模式：随机模式和确定模式

2.随机模式：根据p(w_i|x)的概率，我们通过采样的方式选择n个关键词，为了后续让这个步骤可以被训练，我们采用gumbel softmax的方式进行采样，得到单词z，我们在此从E中获取z的词向量获得输出f_z。

3.确定模式：我们直接利用p(w_i|x)计算关键词的概率预期值，作为输出向量f_z。

得到f_z后，文本的最终向量表达为f＝[pooling(h)，f_z]，也就是F的输出和关键词的向量拼接。

最后，两个文本的匹配度可通过余弦夹角获得：

s＝cosine-similarity(f_x，f_y)

我们根据如下步骤训练上述模型。首先，我们需要采集一个人工标注的数据集，也就是有人工配对好的相关句子x_i，y_i，i∈S，其中x_i和y_i是相关的句子。在训练的过程中，我们会用mini-batch的方法进行训练，也就是每次我们处理一个小批量的数据。我们将人工标注的数据作为正样本，而同一个批量中其他句子作为负样本。此外，在训练模式下我们会采用随机模式对于z进行采样。我们用交叉熵作为损失函数并且配合SGD对模型进行优化：

其中B是该批量的大小。

模型使用在模型训练完成之后，我们使用确定模式对于z进行计算。给定任意两端文本，我们都可以根据上述推理计算他们的匹配值。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了向量、编码器、概率等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种基于隐关键词的文本匹配方法，其特征在于，基于的模型包括词向量矩阵E和句子编码器F，方法包括以下步骤：

S5、将第一编码向量集和第一文本的关键词向量进行拼接得到第一文本的最终向量，将第二编码向量集和第二文本的关键词向量进行拼接得到第二文本的最终向量，依据第一文本的最终向量和第二文本的最终向量通过余弦夹角计算两个文本的匹配度，如果匹配度大于阈值则认为第一文本和第二文本匹配；

步骤S4中，计算第一文本中每个词属于关键词的概率p(w_i|x)通过如下公式计算得到：

式中，w_i表示第i个词，x为关键词，K为句子所包含的词数，e是自然常数，h_i是句子编码器针对第i个词输出的编码向量，T是矩阵转置操作，W是第i个词的词向量。

2.根据权利要求1所述的一种基于隐关键词的文本匹配方法，其特征在于，词向量矩阵E是V×D的矩阵，V是词表的大小，D是词向量的大小。

3.根据权利要求1所述的一种基于隐关键词的文本匹配方法，其特征在于，句子编码器F为LSTM模型或者Transformer模型。

4.根据权利要求1所述的一种基于隐关键词的文本匹配方法，其特征在于，还包括模型训练过程，模型训练过程具体为：

式中，g_i是第i个样本的匹配度，g*表示所有正样本的匹配度平均值，B是所采集的数据集中的文本数量。

5.根据权利要求4所述的一种基于隐关键词的文本匹配方法，其特征在于，所述训练过程中，采用mini-batch的方法进行训练，每次处理一个小批量的数据，数据通过gumbelsoftmax的方式采样得到。