CN116756275A

CN116756275A - 文本检索匹配方法及装置

Info

Publication number: CN116756275A
Application number: CN202310822712.0A
Authority: CN
Inventors: 马俊; 储军梅; 陈爱华
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-09-15

Abstract

本申请公开了一种文本检索匹配方法及装置。其中，该方法包括：获取检索文本与被检索文本；采用向量分析模型分别对检索文本和被检索文本进行特征提取，得到检索文本对应的第一嵌入式表征向量和被检索文本对应的第二嵌入式表征向量，其中，向量分析模型是利用正负样本对和对抗样本进行训练，利用基于内斯特罗夫动量的梯度下降算法和解耦的权重衰减策略调整模型参数得到的；依据第二嵌入式表征向量构建ANNOY索引树；从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量，确定目标嵌入式表征向量对应的文本为目标检索结果。本申请解决了相关技术中进行文本检索时训练模型需要使用大量标注数据，且最终匹配准确率和效率不佳的技术问题。

Description

文本检索匹配方法及装置

技术领域

本申请涉及文本检索技术领域，具体而言，涉及一种文本检索匹配方法及装置。

背景技术

近年来，随着人工智能技术的迅速发展，特别是自然语言处理(Natural LanguageProcessing，NLP)的日益更新，文本检索匹配成为自然语言处理领域一个比较核心的任务，不管是在对话系统、推荐系统、搜索引擎中，文本匹配都是必不可少的，文本检索匹配方法的优劣将严重影响相关企业业务的健康发展。

将深度学习的方法应用于中文文本检索匹配时，最常见的是有监督的训练(最有代表性的是近年来流行的双塔模型)，但这种方法需要大量可用于训练的有标签数据，而这往往需要大量的人工标注，需要企业承担较高的人工标注成本；同时，训练好的模型往往缺乏泛化能力，导致最终进行文本检索匹配时的结果并不理想。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种文本检索匹配方法及装置，以至少解决相关技术中进行文本检索时训练模型需要使用大量标注数据，且最终匹配准确率和效率不佳的技术问题。

根据本申请实施例的一个方面，提供了一种文本检索匹配方法，包括：获取检索文本与被检索文本；采用向量分析模型分别对检索文本和被检索文本进行特征提取，得到检索文本对应的第一嵌入式表征向量和被检索文本对应的第二嵌入式表征向量，其中，向量分析模型是利用正负样本对和对抗样本进行训练，利用基于内斯特罗夫动量的梯度下降算法和解耦的权重衰减策略调整模型参数得到的；依据第二嵌入式表征向量构建ANNOY索引树；从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量，确定目标嵌入式表征向量对应的文本为目标检索结果。

可选地，向量分析模型的训练过程包括：确定待训练模型，其中，待训练模型中至少包括双向编码表示转换子模型，双向编码表示转换子模型中包括嵌入层和编码器；在每个训练批次中，构建正负样本对，并依据正负样本对构建目标损失函数；确定与正负样本对对应的对抗样本，并确定引入对抗样本后的待训练模型的对抗梯度；依据对抗梯度确定目标内斯特罗夫动量，其中，目标内斯特罗夫动量包括：一阶内斯特罗夫动量、梯度差分的一阶内斯特罗夫动量和二阶内斯特罗夫动量；对目标内斯特罗夫动量进行解耦的权重衰减，得到更新后的模型参数；对待训练模型进行迭代训练，直至目标损失函数收敛，得到向量分析模型。

可选地，构建正负样本对，包括：获取第一文本数据，并利用正则表达式对第一文本数据进行清洗，得到第二文本数据；对第二文本数据进行分词处理，得到第一分词序列；按照目标重复率随机重复第一分词序列中的部分分词，得到第二分词序列；通过编码器对第一分词序列和第二分词序列进行随机失活处理，得到正样本对；获取第二文本数据对应的训练批次的紧邻训练批次中的第三文本数据，对第二文本数据和第三文本数据进行动量对比学习，得到负样本对。

可选地，依据正负样本对构建目标损失函数，包括：确定正负样本对对应的输入样本；将输入样本输入待训练模型，得到待训练模型的输出结果；依据正样本对和输出结果构建目标损失函数。

可选地，迭代训练包括k个训练批次，确定与正负样本对对应的对抗样本，并确定引入对抗样本后的待训练模型的对抗梯度，包括：在第1个训练批次中，将第1个训练批次的正负样本对中的输入样本输入待训练模型进行正向传播和反向传播，得到待训练模型的第一梯度和嵌入层的第一权重，其中，将输入样本作为第1个训练批次的对抗样本，将第一梯度作为第1个训练批次的对抗梯度；在第2至第k-1的每个训练批次中，依据上一训练批次的对抗样本和正负样本对构建当前训练批次的对抗样本，并依据当前训练批次的对抗样本将嵌入层的第一权重调整为第二权重，设置待训练模型的当前梯度为0，将当前训练批次的正负样本对中的输入样本输入待训练模型进行正向传播和反向传播，得到待训练模型在当前训练批次的对抗梯度，并调整待训练模型的模型参数；其中，对抗样本的类型为投影梯度下降对抗样本；在第k个训练批次中，依据上一训练批次的对抗样本和正负样本对构建当前训练批次的对抗样本，并依据当前训练批次的对抗样本将嵌入层的第一权重调整为第三权重，设置待训练模型的当前梯度为第一梯度，将当前训练批次的正负样本对中的输入样本输入待训练模型进行正向传播和反向传播，得到待训练模型在当前训练批次的对抗梯度。

可选地，依据对抗梯度确定目标内斯特罗夫动量，包括：对于每个训练批次，依据上一训练批次的一阶内斯特罗夫动量、当前训练批次的对抗梯度和预设的一阶动量平均参数确定当前训练批次的一阶内斯特罗夫动量，其中，第1个训练批次的一阶内斯特罗夫动量为第一梯度；依据上一训练批次的对抗梯度、当前训练批次的对抗梯度、上一训练批次的梯度差分的一阶内斯特罗夫动量和预设的梯度差分的一阶动量平均参数确定当前训练批次的梯度差分的一阶内斯特罗夫动量；依据上一训练批次的对抗梯度、当前训练批次的对抗梯度、上一训练批次的二阶内斯特罗夫动量和预设的二阶动量平均参数确定当前训练批次的二阶内斯特罗夫动量。

可选地，从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量，包括：依据ANNOY索引树的节点顺序依次确定ANNOY索引树中各个节点与第一嵌入式表征向量的余弦距离；将与第一嵌入式表征向量的余弦距离最小的节点对应的第二嵌入式表征向量作为目标嵌入式表征向量；或，将与第一嵌入式表征向量的余弦距离小于预设阈值的节点对应的第二嵌入式表征向量作为目标嵌入式表征向量。

根据本申请实施例的另一方面，还提供了一种文本检索匹配装置，包括：获取模块，用于获取检索文本与被检索文本；处理模块，用于采用向量分析模型分别对检索文本和被检索文本进行特征提取，得到检索文本对应的第一嵌入式表征向量和被检索文本对应的第二嵌入式表征向量，其中，向量分析模型是利用正负样本对和对抗样本进行训练，利用基于内斯特罗夫动量的梯度下降算法和解耦的权重衰减策略调整模型参数得到的；构建模块，用于依据第二嵌入式表征向量构建ANNOY索引树；检索模块，用于从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量，确定目标嵌入式表征向量对应的文本为目标检索结果。

根据本申请实施例的另一方面，还提供了一种非易失性存储介质，该非易失性存储介质包括存储的计算机程序，其中，非易失性存储介质所在设备通过运行该计算机程序执行上述的文本检索匹配方法。

根据本申请实施例的另一方面，还提供了一种电子设备，该电子设备包括：存储器和处理器，其中，存储器中存储有计算机程序，处理器被配置为通过计算机程序执行上述的文本检索匹配方法。

在本申请实施例中，首先获取检索文本与被检索文本；然后采用向量分析模型分别对检索文本和被检索文本进行特征提取，得到检索文本对应的第一嵌入式表征向量和被检索文本对应的第二嵌入式表征向量；依据第二嵌入式表征向量构建ANNOY索引树；从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量，确定目标嵌入式表征向量对应的文本为目标检索结果。其中，在训练向量分析模型时，利用词重复及动量对比机制构建正负样本对，并加入多次迭代下的对抗样本以增加扰动，可以提高模型的泛化能力；通过结合内斯特罗夫动量的梯度下降算法，同时引入解耦的权重衰减，提前感知周围梯度信息，可以避免局部最优而寻找全局最优模型，达到快速的收敛与良好的泛化，提升深度学习模型对文本的匹配能力；在检索匹配阶段，以ANNOY高维空间索引代替传统信息检索方法，可以极大提高文本检索效率。本申请方案有效解决了相关技术中进行文本检索时训练模型需要使用大量标注数据，且最终匹配准确率和效率不佳的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的计算机终端的结构示意图；

图2是根据本申请实施例的一种可选的文本检索匹配方法的流程示意图；

图3是根据本申请实施例的一种可选的文本检索匹配装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了更好地理解本申请实施例，首先对本申请实施例描述过程中出现的部分名词或术语翻译解释如下：

BERT(Bidirectional Encoder Representations from Transformers，双向编码表示转换)模型：是一种基于Transformer的预训练语言模型。在预训练阶段，BERT使用大规模的无标签文本数据进行训练，通过学习预测掩码任务和下一句预测任务来捕捉语言的上下文信息，通过这种方式，BERT可以学习到丰富的语言表示；在微调阶段，BERT可以通过在特定任务上进行有监督的微调来适应不同的NLP任务，如文本分类、命名实体识别、问答等，通过微调，BERT可以根据具体任务的需求，进一步优化模型的性能。

ANNOY(Approximate Nearest Neighbors Oh Yeah)：是一种基于二叉树的数据结构，用于近似最近邻搜索，可以高效地搜索最近邻点。ANNOY树的构建过程是通过将数据点逐个添加到树中来完成的，树的每个节点都有一个分割超平面，该超平面将数据空间划分为两个子空间，通过在构建树的过程中选择合适的分割超平面，可以使得树的结构更加平衡，从而提高搜索效率；在搜索最近邻点时，可以通过遍历ANNOY树的节点来逐步逼近目标点的最近邻点，通过比较目标点与节点的分割超平面的距离，可以确定应该先搜索哪个子空间。然后，继续递归地搜索子空间中的节点，直到找到最近邻点为止。

实施例1

根据本申请实施例，提供了一种文本检索匹配方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本检索匹配方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的文本检索匹配方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请实施例提供了一种文本检索匹配方法，如图2所示，该方法包括如下步骤：

步骤S202，获取检索文本与被检索文本；

步骤S204，采用向量分析模型分别对检索文本和被检索文本进行特征提取，得到检索文本对应的第一嵌入式表征向量和被检索文本对应的第二嵌入式表征向量，其中，向量分析模型是利用正负样本对和对抗样本进行训练，利用基于内斯特罗夫动量的梯度下降算法和解耦的权重衰减策略调整模型参数得到的；

步骤S206，依据第二嵌入式表征向量构建ANNOY索引树；

步骤S208，从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量，确定目标嵌入式表征向量对应的文本为目标检索结果。

以下结合具体的实施过程对文本检索匹配方法的各步骤进行说明。

作为一种可选的实施方式，在训练向量分析模型时，可以通过如下方式进行：

首先确定待训练模型，其中，待训练模型中至少包括双向编码表示转换子模型，双向编码表示转换子模型中包括嵌入层和编码器。

可选地，可以从Hugging Face社区的模型库中选取预训练的语言模型BERT，同时结合CLS(Classification，分类)模型和池化层等共同组成待训练模型。

在对待训练模型进行训练时，在每个训练批次中，首先构建正负样本对，并依据正负样本对构建目标损失函数；然后确定与正负样本对对应的对抗样本，并确定引入对抗样本后的待训练模型的对抗梯度；在依据对抗梯度确定目标内斯特罗夫动量，其中，目标内斯特罗夫动量包括：一阶内斯特罗夫动量、梯度差分的一阶内斯特罗夫动量和二阶内斯特罗夫动量；最后对目标内斯特罗夫动量进行解耦的权重衰减，得到更新后的模型参数；不断对待训练模型进行迭代训练，直至目标损失函数收敛，得到最终的向量分析模型。

可选地，在构建正负样本对时，可以先获取第一文本数据，并利用正则表达式对第一文本数据进行清洗，得到第二文本数据。

其中，第一文本数据为用户提供的训练用文本数据，为了提高模型训练的精准性，可以先利用正则表达式对第一文本数据进行清洗，去除第一文本数据中的英文、特殊字符等杂乱字符，得到第二文本数据。

之后，可以利用ESimCSE(Enhanced Sample Building Method for ContrastiveLearning of Unsupervised Sentence Embedding，改进的基于无监督句向量对比学习的样本构建方法)方法构建正负样本对：

可选地，在构建正样本对时，可以先对第二文本数据进行分词处理，得到第一分词序列x；按照目标重复率随机重复第一分词序列x中的部分分词，得到第二分词序列x⁺；通过编码器encoder对第一分词序列x和第二分词序列x⁺进行随机失活dropout处理，得到正样本对。

可选地，在构建负样本对时，可以获取第二文本数据对应的训练批次的紧邻训练批次中的第三文本数据，通常为上一个训练批次的第三文本数据，然后对第二文本数据和第三文本数据进行动量对比学习，得到负样本对。

具体地，动量对比允许维护固定大小的队列来重用来自紧邻训练批次中编码的句嵌入，该队列中的句嵌入会被逐步替换，即当前训练批次输出的句嵌入入队时，会删除队列中最旧的句嵌入。通过动量更新编码器对排队的句嵌入进行编码，根据该排队队列生成当前训练批次的负样本对。

可选地，在依据正负样本对构建目标损失函数时，可以先确定正负样本对对应的输入样本；然后将输入样本输入待训练模型，得到待训练模型的输出结果；再依据正样本对和输出结果构建目标损失函数。一种可选的损失函数公式如下：

式中，N是一个训练批次batch的大小，batch里的样本对为(que_i,pos_j)，当i＝j时是正样本对，i≠j时是负样本对，P(pos_i|que_i)是正样本对中第一个样本出现时，第二个样本出现的条件概率，S(que_i,pos_i)表示待训练模型的输出。

作为一种可选的实施方式，在进行迭代训练时，可以采用如下方式，通过k个训练批次引入对抗样本扰动，以提升模型的泛化能力。其中，k为正整数，具体值可由用户根据经验自行设置，此处不做具体限定。

在第1个训练批次中，将第1个训练批次的正负样本对中的输入样本输入待训练模型进行正向传播和反向传播，得到待训练模型的第一梯度和嵌入层的第一权重，其中，可以将该输入样本作为第1个训练批次的对抗样本，将该第一梯度作为第1个训练批次的对抗梯度；

在第2至第k-1的每个训练批次中，依据上一训练批次的对抗样本和正负样本对构建当前训练批次的对抗样本，并依据当前训练批次的对抗样本将嵌入层的第一权重调整为第二权重，设置待训练模型的当前梯度为0，将当前训练批次的正负样本对中的输入样本输入待训练模型进行正向传播和反向传播，得到待训练模型在当前训练批次的对抗梯度，并调整待训练模型的模型参数；

在第k个训练批次中，依据上一训练批次的对抗样本和正负样本对构建当前训练批次的对抗样本，并依据当前训练批次的对抗样本将嵌入层的第一权重调整为第三权重，设置待训练模型的当前梯度为第一梯度，将当前训练批次的正负样本对中的输入样本输入待训练模型进行正向传播和反向传播，得到待训练模型在当前训练批次的对抗梯度。

其中，对抗样本的类型为投影梯度下降对抗样本，其计算公式如下：

x_t+1＝Clip_x,ε(x_t+α·sign(▽_xL(x_t,y；θ)))

式中，x_t是第t步的对抗样本，t≤k-1，x_t+1是第t+1步的对抗样本，对于首步，x_t就是原始输入样本，Clip_x,ε是投影操作，如果输入在范数球外，则将输入投影到以x为中心，∈为半径的范数球上，以保证迭代过程中对抗样本的扰动范围不超过限定∈，α是单步扰动大小，sign是1或-1取值的符号函数，▽是取偏导，L是损失函数，θ是损失函数相关参数，x是样本输入，y是数据增强后的正负样本对标记。

通过上述步骤，可得到累加多次对抗样本扰动后的对抗梯度，也即多次迭代下最强对抗样本攻击后的对抗梯度。

可选地，在依据对抗梯度确定目标内斯特罗夫动量时，可通过如下方式进行：

对于每个训练批次，依据上一训练批次的一阶内斯特罗夫动量、当前训练批次的对抗梯度和预设的一阶动量平均参数确定当前训练批次的一阶内斯特罗夫动量，其中，第1个训练批次的一阶内斯特罗夫动量为第一梯度。具体计算公式如下：

m_k＝(1-β₁)m_k-1+β₁g_k

式中，β₁是一阶动量平均参数，值在0至1之间，g_k是当前训练批次的对抗梯度，m_k-1为前一训练批次的一阶内斯特罗夫动量，初始值m₀＝g₀。

之后，依据上一训练批次的对抗梯度、当前训练批次的对抗梯度、上一训练批次的梯度差分的一阶内斯特罗夫动量和预设的梯度差分的一阶动量平均参数确定当前训练批次的梯度差分的一阶内斯特罗夫动量。具体计算公式如下：

v_k＝(1-β₂)v_k-1+β₂(g_k-g_k-1)

式中，β₂是梯度差分的一阶动量平均参数，值在0至1之间，g_k、g_k-1分别是当前训练批次及上一训练批次的对抗梯度，v_k-1是上一训练批次的梯度差分的一阶内斯特罗夫动量。

之后，依据上一训练批次的对抗梯度、当前训练批次的对抗梯度、上一训练批次的二阶内斯特罗夫动量和预设的二阶动量平均参数确定当前训练批次的二阶内斯特罗夫动量。具体计算公式如下：

n_k＝(1-β₃)n_k-1+β₃[g_k+(1-β₂)(g_k-g_k-1)²]

式中，β₃是二阶动量平均参数，值在0至1之间，g_k、g_k-1分别是当前训练批次及上一训练批次的对抗梯度，n_k-1是上一训练批次的二阶内斯特罗夫动量。

对于每个训练批次，可以对上述计算得到的目标内斯特罗夫动量进行解耦的权重衰减，得到更新后的模型参数，具体计算公式如下：

式中，θ_k+1是更新后的模型参数，λ_k是当前训练批次的权重衰减参数，η是学习率，ε是稳定参数。

通过上述方式不断对待训练模型进行迭代训练，直至目标损失函数收敛，得到最终的向量分析模型。

在实际应用中，检索文本即用户输入的需要进行检索的文本，被检索文本可以是文本数据库中的文本，也可以是用户提供的作为检索基础的文本。

可以将检索文本和被检索文本分别输入上述训练完成的向量分析模型，得到与检索文本对应的第一嵌入式表征向量和与被检索文本对应的第二嵌入式表征向量，可以依据第二嵌入式表征向量构建ANNOY索引树；然后从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量，确定目标嵌入式表征向量对应的文本为目标检索结果。

可选地，在从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量时，可以依据ANNOY索引树的节点顺序依次确定ANNOY索引树中各个节点与第一嵌入式表征向量的余弦距离；将与第一嵌入式表征向量的余弦距离最小的节点对应的第二嵌入式表征向量作为目标嵌入式表征向量；也可以预先设置阈值，将与第一嵌入式表征向量的余弦距离小于该阈值的所有节点对应的第二嵌入式表征向量作为目标嵌入式表征向量。

实施例2

根据本申请实施例，还提供了一种用于实现实施例1中的文本检索匹配方法的文本检索匹配装置，如图3所示，该文本检索匹配装置中至少包括获取模块31，处理模块32，构建模块33和检索模块34，其中：

获取模块31，用于获取检索文本与被检索文本；

处理模块32，用于采用向量分析模型分别对检索文本和被检索文本进行特征提取，得到检索文本对应的第一嵌入式表征向量和被检索文本对应的第二嵌入式表征向量，其中，向量分析模型是利用正负样本对和对抗样本进行训练，利用基于内斯特罗夫动量的梯度下降算法和解耦的权重衰减策略调整模型参数得到的；

构建模块33，用于依据第二嵌入式表征向量构建ANNOY索引树；

检索模块34，用于从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量，确定目标嵌入式表征向量对应的文本为目标检索结果。

可选地，文本检索匹配装置中还包括有模型训练模块，用于通过如下方式训练得到向量分析模型：

首先确定待训练模型，其中，待训练模型中至少包括双向编码表示转换子模型，双向编码表示转换子模型中包括嵌入层和编码器。可选地，可以从Hugging Face社区的模型库中选取预训练的语言模型BERT，同时结合CLS模型和池化层等共同组成待训练模型。

可选地，在构建正负样本对时，可以先获取第一文本数据，并利用正则表达式对第一文本数据进行清洗，得到第二文本数据。其中，第一文本数据为用户提供的训练用文本数据，为了提高模型训练的精准性，可以先利用正则表达式对第一文本数据进行清洗，去除第一文本数据中的英文、特殊字符等杂乱字符，得到第二文本数据。

之后，可以利用ESimCSE方法构建正负样本对：

可选地，在构建正样本对时，可以先对第二文本数据进行分词处理，得到第一分词序列；按照目标重复率随机重复第一分词序列中的部分分词，得到第二分词序列；通过编码器对第一分词序列和第二分词序列进行随机失活处理，得到正样本对。

可选地，在依据正负样本对构建目标损失函数时，可以先确定正负样本对对应的输入样本；然后将输入样本输入待训练模型，得到待训练模型的输出结果；再依据正样本对和输出结果构建目标损失函数。

在第2至第k-1的每个训练批次中，依据上一训练批次的对抗样本和正负样本对构建当前训练批次的对抗样本，并依据当前训练批次的对抗样本将嵌入层的第一权重调整为第二权重，设置待训练模型的当前梯度为0，将当前训练批次的正负样本对中的输入样本输入待训练模型进行正向传播和反向传播，得到待训练模型在当前训练批次的对抗梯度，并调整待训练模型的模型参数，其中，对抗样本的类型为投影梯度下降对抗样本；

对于每个训练批次，依据上一训练批次的一阶内斯特罗夫动量、当前训练批次的对抗梯度和预设的一阶动量平均参数确定当前训练批次的一阶内斯特罗夫动量，其中，第1个训练批次的一阶内斯特罗夫动量为第一梯度。

之后，依据上一训练批次的对抗梯度、当前训练批次的对抗梯度、上一训练批次的梯度差分的一阶内斯特罗夫动量和预设的梯度差分的一阶动量平均参数确定当前训练批次的梯度差分的一阶内斯特罗夫动量。

之后，依据上一训练批次的对抗梯度、当前训练批次的对抗梯度、上一训练批次的二阶内斯特罗夫动量和预设的二阶动量平均参数确定当前训练批次的二阶内斯特罗夫动量。

对于每个训练批次，可以对上述计算得到的目标内斯特罗夫动量进行解耦的权重衰减，得到更新后的模型参数。

在实际应用中，获取模块31获取的检索文本即用户输入的需要进行检索的文本，被检索文本可以是文本数据库中的文本，也可以是用户提供的作为检索基础的文本。

处理模块32可以将检索文本和被检索文本分别输入上述训练完成的向量分析模型，得到与检索文本对应的第一嵌入式表征向量和与被检索文本对应的第二嵌入式表征向量；之后，构建模块33可以依据第二嵌入式表征向量构建ANNOY索引树；检索模块34可以从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量，确定目标嵌入式表征向量对应的文本为目标检索结果。

可选地，检索模块34在从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量时，可以依据ANNOY索引树的节点顺序依次确定ANNOY索引树中各个节点与第一嵌入式表征向量的余弦距离；将与第一嵌入式表征向量的余弦距离最小的节点对应的第二嵌入式表征向量作为目标嵌入式表征向量；也可以预先设置阈值，将与第一嵌入式表征向量的余弦距离小于该阈值的所有节点对应的第二嵌入式表征向量作为目标嵌入式表征向量。

需要说明的是，本申请实施例中的文本检索匹配装置中的各模块与实施例1中的文本检索匹配方法的各实施步骤一一对应，由于实施例1中已经进行了详尽的描述，本实施例中部分未体现的细节可以参考实施例1，在此不再过多赘述。

实施例3

根据本申请实施例，还提供了一种非易失性存储介质，该非易失性存储介质包括存储的计算机程序，其中，非易失性存储介质所在设备通过运行该计算机程序执行实施例1中的文本检索匹配方法。

具体地，非易失性存储介质所在设备通过运行该计算机程序执行实现以下步骤：获取检索文本与被检索文本；采用向量分析模型分别对检索文本和被检索文本进行特征提取，得到检索文本对应的第一嵌入式表征向量和被检索文本对应的第二嵌入式表征向量，其中，向量分析模型是利用正负样本对和对抗样本进行训练，利用基于内斯特罗夫动量的梯度下降算法和解耦的权重衰减策略调整模型参数得到的；依据第二嵌入式表征向量构建ANNOY索引树；从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量，确定目标嵌入式表征向量对应的文本为目标检索结果。

根据本申请实施例，还提供了一种处理器，该处理器用于运行计算机程序，其中，计算机程序运行时执行实施例1中的文本检索匹配方法。

具体地，计算机程序运行时执行实现以下步骤：获取检索文本与被检索文本；采用向量分析模型分别对检索文本和被检索文本进行特征提取，得到检索文本对应的第一嵌入式表征向量和被检索文本对应的第二嵌入式表征向量，其中，向量分析模型是利用正负样本对和对抗样本进行训练，利用基于内斯特罗夫动量的梯度下降算法和解耦的权重衰减策略调整模型参数得到的；依据第二嵌入式表征向量构建ANNOY索引树；从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量，确定目标嵌入式表征向量对应的文本为目标检索结果。

根据本申请实施例，还提供了一种电子设备，该电子设备包括：存储器和处理器，其中，存储器中存储有计算机程序，处理器被配置为通过计算机程序执行实施例1中的文本检索匹配方法。

具体地，处理器被配置为通过计算机程序执行实现以下步骤：获取检索文本与被检索文本；采用向量分析模型分别对检索文本和被检索文本进行特征提取，得到检索文本对应的第一嵌入式表征向量和被检索文本对应的第二嵌入式表征向量，其中，向量分析模型是利用正负样本对和对抗样本进行训练，利用基于内斯特罗夫动量的梯度下降算法和解耦的权重衰减策略调整模型参数得到的；依据第二嵌入式表征向量构建ANNOY索引树；从ANNOY索引树中检索与第一嵌入式表征向量相匹配的目标嵌入式表征向量，确定目标嵌入式表征向量对应的文本为目标检索结果。

上述实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文本检索匹配方法，其特征在于，包括：

获取检索文本与被检索文本；

采用向量分析模型分别对所述检索文本和所述被检索文本进行特征提取，得到所述检索文本对应的第一嵌入式表征向量和所述被检索文本对应的第二嵌入式表征向量，其中，所述向量分析模型是利用正负样本对和对抗样本进行训练，利用基于内斯特罗夫动量的梯度下降算法和解耦的权重衰减策略调整模型参数得到的；

依据所述第二嵌入式表征向量构建ANNOY索引树；

从所述ANNOY索引树中检索与所述第一嵌入式表征向量相匹配的目标嵌入式表征向量，确定所述目标嵌入式表征向量对应的文本为目标检索结果。

2.根据权利要求1所述的方法，其特征在于，所述向量分析模型的训练过程包括：

确定待训练模型，其中，所述待训练模型中至少包括双向编码表示转换子模型，所述双向编码表示转换子模型中包括嵌入层和编码器；

在每个训练批次中，构建所述正负样本对，并依据所述正负样本对构建目标损失函数；确定与所述正负样本对对应的对抗样本，并确定引入所述对抗样本后的待训练模型的对抗梯度；依据所述对抗梯度确定目标内斯特罗夫动量，其中，所述目标内斯特罗夫动量包括：一阶内斯特罗夫动量、梯度差分的一阶内斯特罗夫动量和二阶内斯特罗夫动量；对所述目标内斯特罗夫动量进行解耦的权重衰减，得到更新后的模型参数；

对所述待训练模型进行迭代训练，直至所述目标损失函数收敛，得到所述向量分析模型。

3.根据权利要求2所述的方法，其特征在于，构建所述正负样本对，包括：

获取第一文本数据，并利用正则表达式对所述第一文本数据进行清洗，得到第二文本数据；

对所述第二文本数据进行分词处理，得到第一分词序列；按照目标重复率随机重复所述第一分词序列中的部分分词，得到第二分词序列；通过所述编码器对所述第一分词序列和所述第二分词序列进行随机失活处理，得到正样本对；

获取所述第二文本数据对应的训练批次的紧邻训练批次中的第三文本数据，对所述第二文本数据和所述第三文本数据进行动量对比学习，得到负样本对。

4.根据权利要求2所述的方法，其特征在于，依据所述正负样本对构建目标损失函数，包括：

确定所述正负样本对对应的输入样本；

将所述输入样本输入所述待训练模型，得到所述待训练模型的输出结果；

依据正样本对和所述输出结果构建所述目标损失函数。

5.根据权利要求2所述的方法，其特征在于，所述迭代训练包括k个训练批次，确定与所述正负样本对对应的对抗样本，并确定引入所述对抗样本后的待训练模型的对抗梯度，包括：

在第1个训练批次中，将第1个训练批次的正负样本对中的输入样本输入所述待训练模型进行正向传播和反向传播，得到所述待训练模型的第一梯度和嵌入层的第一权重，其中，将所述输入样本作为所述第1个训练批次的对抗样本，将所述第一梯度作为所述第1个训练批次的对抗梯度；

在第2至第k-1的每个训练批次中，依据上一训练批次的对抗样本和正负样本对构建当前训练批次的对抗样本，并依据所述当前训练批次的对抗样本将所述嵌入层的所述第一权重调整为第二权重，设置所述待训练模型的当前梯度为0，将当前训练批次的正负样本对中的输入样本输入所述待训练模型进行正向传播和反向传播，得到所述待训练模型在当前训练批次的对抗梯度，并调整所述待训练模型的模型参数；其中，所述对抗样本的类型为投影梯度下降对抗样本；

在第k个训练批次中，依据上一训练批次的对抗样本和正负样本对构建当前训练批次的对抗样本，并依据所述当前训练批次的对抗样本将所述嵌入层的所述第一权重调整为第三权重，设置所述待训练模型的当前梯度为所述第一梯度，将当前训练批次的正负样本对中的输入样本输入所述待训练模型进行正向传播和反向传播，得到所述待训练模型在当前训练批次的对抗梯度。

6.根据权利要求5所述的方法，其特征在于，依据所述对抗梯度确定目标内斯特罗夫动量，包括：

对于每个训练批次，依据上一训练批次的一阶内斯特罗夫动量、当前训练批次的对抗梯度和预设的一阶动量平均参数确定当前训练批次的一阶内斯特罗夫动量，其中，第1个训练批次的一阶内斯特罗夫动量为所述第一梯度；

依据上一训练批次的对抗梯度、当前训练批次的对抗梯度、上一训练批次的梯度差分的一阶内斯特罗夫动量和预设的梯度差分的一阶动量平均参数确定当前训练批次的梯度差分的一阶内斯特罗夫动量；

依据上一训练批次的对抗梯度、当前训练批次的对抗梯度、上一训练批次的二阶内斯特罗夫动量和预设的二阶动量平均参数确定当前训练批次的二阶内斯特罗夫动量。

7.根据权利要求1所述的方法，其特征在于，从所述ANNOY索引树中检索与所述第一嵌入式表征向量相匹配的目标嵌入式表征向量，包括：

依据所述ANNOY索引树的节点顺序依次确定所述ANNOY索引树中各个节点与所述第一嵌入式表征向量的余弦距离；

将与所述第一嵌入式表征向量的余弦距离最小的节点对应的所述第二嵌入式表征向量作为所述目标嵌入式表征向量；或，

将与所述第一嵌入式表征向量的余弦距离小于预设阈值的节点对应的所述第二嵌入式表征向量作为所述目标嵌入式表征向量。

8.一种文本检索匹配装置，其特征在于，包括：

获取模块，用于获取检索文本与被检索文本；

处理模块，用于采用向量分析模型分别对所述检索文本和所述被检索文本进行特征提取，得到所述检索文本对应的第一嵌入式表征向量和所述被检索文本对应的第二嵌入式表征向量，其中，所述向量分析模型是利用正负样本对和对抗样本进行训练，利用基于内斯特罗夫动量的梯度下降算法和解耦的权重衰减策略调整模型参数得到的；

构建模块，用于依据所述第二嵌入式表征向量构建ANNOY索引树；

检索模块，用于从所述ANNOY索引树中检索与所述第一嵌入式表征向量相匹配的目标嵌入式表征向量，确定所述目标嵌入式表征向量对应的文本为目标检索结果。

9.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的计算机程序，其中，所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至7中任意一项所述的文本检索匹配方法。

10.一种电子设备，其特征在于，包括：存储器和处理器，其中，所述存储器中存储有计算机程序，所述处理器被配置为通过所述计算机程序执行权利要求1至7中任意一项所述的文本检索匹配方法。