CN116226357A

CN116226357A - 一种输入中包含错误信息场景下的文档检索方法

Info

Publication number: CN116226357A
Application number: CN202310517097.2A
Authority: CN
Inventors: 刘军平; 龚明康; 郭沛然; 胡新荣; 姚迅; 杨捷
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2023-05-09
Filing date: 2023-05-09
Publication date: 2023-06-06
Anticipated expiration: 2043-05-09
Also published as: CN116226357B

Abstract

本发明公开了一种输入中包含错误信息场景下的文档检索方法，包括：步骤1，对原始的查询文本进行攻击，生成一个包含错误信息的查询文本，以扩充数据集；步骤2，对生成的包含错误信息的查询文本进行预处理，检测其文本单词个数，并在其文本中随机插入[MASK]特殊字符；步骤3，将数据集中的不包含特殊字符的原始查询文本，不包含特殊字符的文档文本以及插入了特殊字符的包含错误的查询文本输入文档检索网络进行训练，获得文档检索模型；步骤4，使用训练好的文档检索模型进行结果测试，当输入一个查询时输出一系列与该查询最相关的文档。本发明可以有效避免查询中包含错误信息的场景下，文档检索模型检索准确率下降的状况。

Description

一种输入中包含错误信息场景下的文档检索方法

技术领域

本发明涉及自然语言处理领域，并且更具体地，涉及一种输入中包含错误信息场景下的文档检索方法。

背景技术

文档检索技术是指从大量的文档中找出与用户查询相关的文档的技术，它是信息检索的一个重要分支。文档检索技术从最早的布尔模型，到向量空间模型、概率模型、语言模型等经典模型，再到近年来基于深度学习和预训练语言模型的神经排序模型，文档检索技术不断地引入新的理论和方法，提高了检索效果和效率。

文档检索技术可以应用于多种场景，如搜索引擎、问答系统、数据分析、数据管道等。不同场景下可能有不同的需求和挑战，比如数据规模、实时性、多样性、可解释性等。因此，需要根据具体场景选择合适的文档检索方法和策略。

随着互联网数据量和多样性不断增长，以及人工智能领域不断创新，文档检索技术也面临着新的机遇和挑战。在实际应用中，用户的查询可能存在多种形式和含义，文档也可能存在多种类型和质量，如果模型不能适应这些变化，就会导致检索结果不准确或不相关。因此，在设计和评估文档检索模型时，需要考虑其鲁棒性，并采用相应的方法来提高其鲁棒性。

发明内容

针对现有技术的以上缺陷或者改进需求，本发明提供了一种输入中包含错误信息场景下的文档检索方法，其目的在于解决有效避免查询中包含错误信息的场景下，文档检索模型检索准确率下降的状况。

为实验上述目的，按照本发明的一个方面，提供了一种输入中包含错误信息场景下的文档检索方法，包括如下步骤：

步骤1：通过拼写错误、顺序替换、停用词删除和同义替换等技术，对原始的查询文本进行攻击，生成一个包含错误信息的查询文本，以扩充数据集。

优选的，从构建的初始训练集中提取查询文本，通过拼写错误、顺序替换、停用词删除和同义替换等文本数据处理技术生成新的查询文本，模拟输入中包含错误信息场景下的文本查询。

步骤2：对生成的包含错误信息的查询文本进行预处理，检测其文本单词个数，并在其文本中随机插入[MASK]特殊字符。

优选的，检测文本中单词的长度，得到文本中单词的数量信息；在文本中插入数量的20%的且最至少为1个[MASK]特殊字符。

步骤3：将数据集中的不包含特殊字符的原始查询文本，插入了特殊字符的包含错误的查询文本以及原始查询和插入了特殊字符的包含错误的查询所对应的文档文本，即可以用于回答查询的一串文字表示，输入到文档检索网络进行训练，获得文档检索模型；

优选的，基于特征编码的文档检索模型的网络结构，其中网络结构可以分为四个部分。

（1）将训练集中的原始查询文本、扩充后的查询文本以及文档文本分别输入到文档检索网络后，预设的字符编码模块首先会将输入的文本转换为维度为16的矩阵。具体来说，人工设置了一个词汇表包括非ASCII符号在内的256个字符以及添加的一些如[MASK]、[CLS]、[SEP]等特殊标记，词汇表大小为263。首先会对所有单词进行字符级分割，而插入的特殊标记不会进行分割。将单词分割出来的每一个字符转化为一个最大长度为50的one-hot向量，如果字符不在词汇表内就用全零向量表示以保证输入的维度一致，然后将one-hot向量拼接成一个人工设置的维度为16的矩阵，表示为字符嵌入序列。

（2）将字符嵌入序列输入到预设的CharacterCNN模块以生成单词级的向量表示。具体来说，它由7个不同的一维卷积层组成，卷积核的大小和卷积核的个数为：[1,32]，[2,32]，[3,64]，[4,128]，[5,256]，[6,512]，[7,1024]。一维卷积层的作业是通过滑动窗口和卷积核对输入特征进行局部特征提取，然后通过ReLU激活函数增加非线性。然后每个卷积层的输出在字符序列中进行最大池化，并且与单词中其他字符经过卷积层的输出进行连接以将字符级向量合成为单词级向量表示。

（3）将生成的单词级向量表示通过两个Highway层增加一个非线性变化，从而得到上下文特征表示，以提高模型的表达能力和灵活性。

具体来说，所述Highway层的公式如下：

其中H是一个全连接层加一个ReLU激活函数，T是一个全连接层加一个sigmoid激活函数，

和

是可学习的权重矩阵，x是输入向量，y是输出向量。

（4）上述部分生成的单词级上下文特征表示通过组合拼接为整个查询文本的上下文特征表示，然后通过12个预设的Transformer编码器层进一步学习上下文特征中包含的隐藏信息。每个Transformer层都包含两个子层：多头自注意力和前馈神经网络。在多头自注意力子层中，会将嵌入向量分成多个头，每个头都进行自注意力操作，具体来说，计算输入序列中每个词与其他词之间的相关性，并根据相对性对输入序列进行加权平均，然后预设的编码器将多个头的输出拼接起来，并进行线性变换。在前馈神经网络子层中，预设的编码器将多头自注意力子层的输出送入一个全连接层和一个激活函数ReLU，再送入另一个全连接层。这相当于对每个词进行非线性变换。输入的上下文特征表示在经过每一个Transformer层后，还会进行残差连接和层归一化以提高模型的稳定性和收敛速度。残差连接就是将子层的输入和输出相加，层归一化就是将每个词向量沿着维度方向进行标准化，使其均值为0，方差为1。

输入的查询文本通过前面四部分操作后会得到原始查询的文本词向量，输入的扩充后的查询文本再次通过前面四部操作后会得到包含错误信息的查询文本词向量，输入的文档文本通过前面四部操作后会得到文档的文本词向量。在本发明中，采用两个交叉熵以及一个余弦相似度作为损失函数以加快模型的收敛速度。

进一步的，通过原始查询的文本词向量与文档的文本词向量进行矩阵相乘得到原始查询与文档之间的相似度分布，通过

损失函数计算相似度分布与真实标签的交叉熵损失，公式如下：

其中ore表示的是原始查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵，下标pos表示的是相似度分布矩阵中，原始查询与真实标签对应的位置。下标neg表示的是相似度分布中，除原始查询与真实标签对应的位置的其他位置。

进一步的，通过包含错误信息的查询的文本词向量与文档的文本词向量进行矩阵相乘得到包含错误信息的查询与文档之间的相似度分布，通过

其中mae表示的是包含错误信息的查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵，下标pos表示的是相似度分布矩阵中，原始查询与真实标签对应的位置。下标neg表示的是相似度分布中，除原始查询与真实标签对应的位置的其他位置。

进一步的，通过

损失函数计算原始查询的文本词向量与包含错误信息的查询词向量之间的相似度损失，公式如下：

其中A是原始查询的文本词向量与，B是包含错误信息的查询词向量。

最终的损失是由这三个损失函数的值进行加权求和得到的。

步骤4：使用训练好的文档检索模型进行结果测试，当输入一个查询时输出一系列与该查询最相关的文档；

优选的，当模型接收到包含错误信息的查询是，依旧能够保持良好的检索准确率，具体如下：

当接收到用户输入的一个查询时，无论是否包含错误信息，将查询文本通过步骤3的四部分操作后，得到最终的查询文本向量。为节省检索时的时间消耗，所有的文档采用离线编码的方法，具体来说，当文档检索模型训练完成后，对所有的文档直接进行编码并且直接保存文档的向量表示。查询文本经过文档检索模型生成最终的向量表示后，与磁盘上保存的文档向量进行相似度计算，并且文档检索模型将最终返回一系列与该查询最相关的文档。

总体而言，通过本发现所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

（1）所能处理的错误信息更多，包括：拼写错误、顺序替换、停用词删除和同义替换等，增加文档检索模型在真实环境中的鲁棒性。

（2）基于特征编码的文档检索模型的网络，可以有效避免错误信息对最终编码结果产生的影响以及对模型检索结果的提升，减少了信息损失。

（3）可以提升用户的检索体验，有效检索出用户真实想要的查询结果，减少错误信息对查询结果的影响。

附图说明

图1本发明实施例提供的一种输入中包含错误信息场景下的文档检索方法的模块流程示意图。

图2本发明实施例提供的一种输入中包含错误信息场景下的文档检索方法的文档检索网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，是实施例提供的一种输入中包含错误信息场景下的文档检索方法的模块流程示意图，包含了错误处理网络训练模块，错误处理网络训练模块包括数据集预处理模型、数据集扩充模型和文档检索网络训练模块，用于学习输入中包含错误信息场景下查询和文档之间的隐藏特征，并且训练得到文档检索模型。实施例提供的一种输入中包含错误信息场景下的文档检索方法包括如下步骤：

（1）通过拼写错误、顺序替换、停用词删除和同义替换等技术，对原始的查询文本进行攻击，生成一个包含错误信息的查询文本，以扩充数据集。

具体来说，若原始查询文本q为：who got the first nobel prize in physics，通过数据增强技术生成包含错误信息的查询文本

:who got the firts nobel prize inphysics。而p表示的为一系列文档。

（2）对生成的包含错误信息的查询文本进行预处理，检测其文本单词个数，并在其文本中随机插入[MASK]特殊字符。

具体来说，检测到包含错误信息的查询文本的单词个数为8，通过计算得到将在文本中插入8的20%向下取整为1个特殊字符，在文本中随机进行插入，得到预处理后的包含错误信息的查询文本：who got [MASK] the firts nobel prize in physics。

（3）将数据集中的不包含特殊字符的原始查询文本，插入了特殊字符的包含错误的查询文本以及原始查询和插入了特殊字符的包含错误的查询所对应的文档文本，即可以用于回答查询的一串文字表示，输入到文档检索网络进行训练，获得文档检索模型；；

优选的，基于特征编码的文档检索模型的网络结构，其中网络结构可以分为五个部分。

（1）将原始查询文本、扩充后的查询文本以及文档文本分别输入到文档检索网络后，预设的字符编码模块首先会将输入的文本转换为维度为16的矩阵。预设的字符编码会将文本进行字符级分割，如将单词firts分割为：f，i，r，t，s且[MASK]将直接作为一个字符不会进行分隔。分隔为字符后，将每个字符转化为长度为50的one-hot向量，然后将one-hot向量拼接成一个维度为16的矩阵，表示为字符嵌入序列。

（2）将上述得到的f，i，r，t，s的字符嵌入序列输入到预设的CharacterCNN模块以生成单词级的向量表示。具体来说，它由7个不同的一维卷积层组成，卷积核的大小和卷积核的个数为：[1,32]，[2,32]，[3,64]，[4,128]，[5,256]，[6,512]，[7,1024]。一维卷积层的作业是通过滑动窗口和卷积核对输入特征进行局部特征提取，然后通过ReLU激活函数增加非线性。然后每个卷积层的输出在字符序列中进行最大池化，并且与单词中其他字符经过卷积层的输出进行连接以将f，i，r，t，s的字符级向量合成为单词firts的单词级向量。

具体来说，所述Highway层的公式如下：

和

是可学习的权重矩阵，x是输入向量，y是输出向量。

（4）上述部分生成的单词级上下文特征表示通过组合拼接为整个查询文本的上下文特征表示，然后通过12个预设的Transformer编码器层进一步学习上下文特征中包含的隐藏信息。每个Transformer层都包含两个子层：多头自注意力和前馈神经网络。在多头自注意力子层中，会将嵌入向量分成多个头，每个头都进行自注意力操作，具体来说，计算输入序列中每个词与其他词之间的相关性，并根据相对性对输入序列进行加权平均，然后预设的编码器将多个头的输出拼接起来，并进行线性变换。在前馈神经网络子层中，预设的编码器将多头自注意力的输出送一个全连接层和一个激活函数ReLU，再送入另一个全连接层。这相当于对每个词进行非线性变换。输入的上下文特征表示在经过每一个Transformer层后，还会进行残差连接和层归一化以提高模型的稳定性和收敛速度。残差连接就是将子层的输入和输出相加，层归一化就是将每个词向量沿着维度方向进行标准化，使其均值为0，方差为1。

（5）输入的查询文本通过前面四部分操作后会得到原始查询的文本词向量，输入的扩充后的查询文本再次通过前面四部操作后会得到包含错误信息的查询文本词向量，输入的文档文本通过前面四部操作后会得到文档的文本词向量。在本发明中，采用两个交叉熵以及一个余弦相似度作为损失函数以加快模型的收敛速度。

进一步的，通过

最终的损失是由这三个损失函数的值进行加权求和得到的。

（4）使用训练好的文档检索模型进行结果测试，当输入一个查询时输出一系列与该查询最相关的文档；

当接收到用户输入的一个查询时，无论是否包含错误信息，将查询文本通过步骤3的五部分操作后，得到最终的查询文本向量。为节省检索时的时间消耗，所有的文档采用离线编码的方法，具体来说，当文档检索模型训练完成后，对所有的文档直接进行编码并且直接保存文档的向量表示。查询文本经过文档检索模型生成最终的向量表示后，与磁盘上保存的文档向量进行相似度计算，并且文档检索模型将最终返回一系列与该查询最相关的文档。

本发明不仅通过重新训练模型从而使模型能够处理更多种类的错误信息，而且当用户输入包含带有错误信息的查询时，能够有效的避免错误信息带来的检索精度下降的问题，有力的保证了用户的查询体验以及最终检索结果的精度。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种输入中包含错误信息场景下的文档检索方法，其特征在于，包括如下步骤：

步骤1，通过拼写错误、顺序替换、停用词删除和同义替换技术，对原始的查询文本进行攻击，生成一个包含错误信息的查询文本，以扩充数据集；

步骤2，对生成的包含错误信息的查询文本进行预处理，检测其文本单词个数，并在其文本中随机插入MASK特殊字符；

步骤3，将数据集中的不包含特殊字符的原始查询文本，插入了特殊字符的包含错误的查询文本以及原始查询和插入了特殊字符的包含错误的查询所对应的文档文本，即用于回答查询的一串文字表示，输入到文档检索网络进行训练，获得文档检索模型；

所述文档检索网络包括用于将输入的文本转换为字符嵌入序列的字符编码模块、用于将字符嵌入序列转换为单词级向量表示的CharacterCNN模块、用于将单词级向量表转换为上下文特征表示的Highway层和用于进一步学习上下文特征中包含的隐藏信息的Transformer编码器层；

输入的原始查询文本通过文档检索网络得到原始查询的文本词向量，输入的扩充及预处理后的包含错误的查询文本通过文档检索网络得到包含错误信息的查询文本词向量，输入的文档文本通过文档检索网络得到文档的文本词向量，然后采用交叉熵和余弦相似度作为损失函数以加快模型训练的收敛速度；

步骤4，使用训练好的文档检索模型进行结果测试，当输入一个查询时输出一系列与该查询最相关的文档。

2.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法，其特征在于：步骤2中插入MASK特殊字符的个数为文本中单词个数的20%，且至少为1个。

3.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法，其特征在于：所述字符编码模块的具体处理过程如下；

首先，构建包括字符和特殊标记在内的词汇表，然后对所有单词进行字符级分割，而插入的特殊标记不会进行分割，将每一个字符转化为一个one-hot向量，如果字符不在字符表内就用全零向量表示以保证输入的维度一致，然后将one-hot向量拼接成一个矩阵，表示为字符嵌入序列。

4.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法，其特征在于：所述CharacterCNN模块用于将字符嵌入序列转换为单词级的向量表示，CharacterCNN模块由7个不同的一维卷积层组成，卷积核的大小和卷积核的个数为：[1,32]，[2,32]，[3,64]，[4,128]，[5,256]，[6,512]，[7,1024]；一维卷积层是通过滑动窗口和卷积核对输入特征进行局部特征提取，然后通过ReLU激活函数增加非线性，然后每个卷积层的输出在字符序列中进行最大池化，并且与单词中其他字符经过卷积层的输出进行连接以将字符级向量合成为单词级向量表示。

5.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法，其特征在于：所述Highway层的公式如下：

；

和

是可学习的权重矩阵，x是输入向量，y是输出向量；

其中，所述文档检索网络中包括两个Highway层。

6.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法，其特征在于：首先，将单词级上下文特征表示通过组合拼接为整个查询文本的上下文特征表示，然后再输入到Transformer编码器层，其中，所述文档检索网络中包括12个预设的Transformer编码器层；所述Transformer编码器层包含两个子层：多头自注意力和前馈神经网络，在多头自注意力子层中，会将嵌入向量分成多个头，每个头都进行自注意力操作，具体来说，计算输入序列中每个词与其他词之间的相关性，并根据相对性对输入序列进行加权平均，然后预设的编码器将多个头的输出拼接起来，并进行线性变换；在前馈神经网络子层中，预设的编码器将多头自注意力子层的输出送入一个全连接层和一个激活函数ReLU，再送入另一个全连接层，这相当于对每个词进行非线性变换；输入的上下文特征表示在经过每一个Transformer层后，还会进行残差连接和层归一化以提高模型的稳定性和收敛速度；残差连接就是将子层的输入和输出相加，层归一化就是将每个词向量沿着维度方向进行标准化，使其均值为0，方差为1。

7.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法，其特征在于：通过原始查询的文本词向量与文档的文本词向量进行矩阵相乘得到原始查询与文档之间的相似度分布，通过

；

其中ore表示的是原始查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵，下标pos表示的是相似度分布矩阵中，原始查询与真实标签对应的位置，下标neg表示的是相似度分布中，除原始查询与真实标签对应的位置的其他位置；

通过包含错误信息的查询的文本词向量与文档的文本词向量进行矩阵相乘得到包含错误信息的查询与文档之间的相似度分布，通过

；

其中mae表示的是包含错误信息的查询的文本词向量与文档的文本词向量通过矩阵相乘得到的相似度分布矩阵，下标pos表示的是相似度分布矩阵中，原始查询与真实标签对应的位置，下标neg表示的是相似度分布中，除原始查询与真实标签对应的位置的其他位置；

通过

；

其中A是原始查询的文本词向量与，B是包含错误信息的查询词向量；

最终的损失函数是由上述三个损失函数的值进行加权求和得到的。

8.根据权利要求1所述的一种输入中包含错误信息场景下的文档检索方法，其特征在于：步骤4的具体实现方式为：当接收到用户输入的一个查询时，无论是否包含错误信息，将查询文本通过步骤3的四部分操作后，得到最终的查询文本向量，为节省检索时的时间消耗，所有的文档采用离线编码的方法，具体来说，当文档检索模型训练完成后，对所有的文档直接进行编码并且直接保存文档的向量表示，查询文本经过文档检索模型生成最终的向量表示后，与磁盘上保存的文档向量进行相似度计算，并且文档检索模型将最终返回一系列与该查询最相关的文档。