CN112000805A

CN112000805A - 基于预训练模型的文本匹配方法、装置、终端及存储介质

Info

Publication number: CN112000805A
Application number: CN202010859297.2A
Authority: CN
Inventors: 于溦
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-11-27

Abstract

本发明涉及人工智能技术领域，提供一种基于预训练模型的文本匹配方法、装置、终端及存储介质，包括：获取预训练模型BERT并对所述预训练模型BERT进行参数微调得到参数共享的BERT模型；获取目标文本并抽取所述目标文本的第一词嵌入向量；将所述第一词嵌入向量映射到低维词嵌入空间得到第二词嵌入向量；输入所述第二词嵌入向量至所述参数共享的BERT模型中，并获取所述参数共享的BERT模型输出的目标向量；根据所述目标向量从预设文本语料库中匹配出最近似文本。本发明能够快速且准确的匹配出最近似的文本。此外，本发明还涉及区块链技术领域，所述参数共享的BERT模型可存储于区块链节点中。

Description

基于预训练模型的文本匹配方法、装置、终端及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于预训练模型的文本匹配方法、装置、终端及存储介质。

背景技术

文本匹配是自然语言领域中一个很常见的任务，是大部分应用系统，比如智能问答、搜索引擎、知识检索等的核心模块。

目前文本匹配技术主要是基于关键词匹配和词嵌入的方式，由于一个词语可能有多种表述方式，纯粹基于关键词匹配并不能很好地匹配用户的输入，匹配精确度差，而使用词嵌入的方式，由于训练模型时参数较多，导致训练时间较长，对硬件的配置要求很高。

因此，急需提出一种文本匹配方法。

发明内容

鉴于以上内容，有必要提出一种基于预训练模型的文本匹配方法、装置、终端及存储介质，能够快速且准确的匹配出最近似的文本。

本发明的第一方面提供一种基于预训练模型的文本匹配方法，所述基于预训练模型的文本匹配方法包括：

获取预训练模型BERT并对所述预训练模型BERT进行参数微调得到参数共享的BERT模型；

获取目标文本并抽取所述目标文本的第一词嵌入向量；

将所述第一词嵌入向量映射到低维词嵌入空间得到第二词嵌入向量；

输入所述第二词嵌入向量至所述参数共享的BERT模型中，并获取所述参数共享的BERT模型输出的目标向量；

根据所述目标向量从预设文本语料库中匹配出最近似文本。

根据本发明的一个可选的实施例，所述对所述预训练模型BERT进行参数微调得到参数共享的BERT模型包括：

获取所述预训练模型BERT中的多个编码层及多个解码层，并确定编码层与解码层之间的对应关系；

获取每个所述编码层的参数，并将所述参数更新为与所述编码层对应的解码层的参数；

基于参数更新后的预训练模型BERT重新进行训练得到参数共享的BERT模型。

根据本发明的一个可选的实施例，所述将所述第一词嵌入向量映射到低维词嵌入空间得到第二词嵌入向量包括：

对所述第一词嵌入向量进行奇异值分解；

提取奇异值分解得到的奇异值作为第二词嵌入向量。

根据本发明的一个可选的实施例，所述提取奇异值分解得到的奇异值作为第二词嵌入向量包括：

计算所述奇异值中非零奇异值的个数；

计算所述个数与预设比例阈值得到目标个数；

选取所述非零奇异值中所述目标个数之前的非零奇异值，并将选取的非零奇异值构建为第二词嵌入向量。

根据本发明的一个可选的实施例，所述抽取所述目标文本的第一词嵌入向量包括：

对所述目标文本进行分词处理得到词块嵌入；

根据所述目标文本的上下文关系获取每一个词块的段号嵌入及获取每一个词块的位置嵌入；

将所述词块嵌入、所述段号嵌入及所述位置嵌入叠加形成第一词嵌入向量。

根据本发明的一个可选的实施例，所述根据所述目标向量从预设文本语料库中匹配出最近似文本包括：

遍历所述预设文本语料库中的每一个文本语料的文本向量；

计算所述目标向量与每一个文本语料的文本向量之间的相似度；

对所述相似度进行排序并将排序在第一的相似度对应的文本语料确定为所述目标文本的最近似文本。

根据本发明的一个可选的实施例，在遍历所述预设文本语料库中的每一个文本语料的文本向量之前，所述方法还包括：

抽取每一个文本语料的词嵌入向量；

将所述每一个文本语料的词嵌入向量进行奇异值分解，并提取奇异值分解得到的奇异值作为最终词嵌入向量；

输入所述每一个文本语料的最终词嵌入向量至所述参数共享的BERT模型中，并获取所述参数共享的BERT模型输出的文本向量。

本发明的第二方面提供一种基于预训练模型的文本匹配装置，所述基于预训练模型的文本匹配装置包括：

模型训练模块，用于获取预训练模型BERT并对所述预训练模型BERT进行参数微调得到参数共享的BERT模型；

文本抽取模块，用于获取目标文本并抽取所述目标文本的第一词嵌入向量；

低维嵌入模块，用于将所述第一词嵌入向量映射到低维词嵌入空间得到第二词嵌入向量；

向量输出模块，用于输入所述第二词嵌入向量至所述参数共享的BERT模型中，并获取所述参数共享的BERT模型输出的目标向量；

文本匹配模块，用于根据所述目标向量从预设文本语料库中匹配出最近似文本。

本发明的第三方面提供一种终端，所述终端包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述基于预训练模型的文本匹配方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于预训练模型的文本匹配方法。

综上所述，本发明所述的基于预训练模型的文本匹配方法、装置、终端及存储介质，通过对词嵌入参数分解和跨层参数共享，降低了基于transformer的双向编码器的表征模型的参数量，从而大大提高了训练速度和运算开销。降低了模型的参数，从而压缩了模型的大小，可以让运算资源不是特别丰富的机构或者公司也能使用基于transformer的双向编码器的表征模型，提高文本匹配的效果。

附图说明

图1是本发明实施例一提供的基于预训练模型的文本匹配方法的流程图。

图2是本发明实施例二提供的基于预训练模型的文本匹配装置的结构图。

图3是本发明实施例三提供的终端的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

图1是本发明实施例一提供的基于预训练模型的文本匹配方法的流程图。所述基于预训练模型的文本匹配方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，获取预训练模型BERT并对所述预训练模型BERT进行参数微调得到参数共享的BERT模型。

BERT(Bidirectional Encoder Representations from Transformers，来自Transformer的双向编码器表征)是一个预训练模型，在处理一个词的时候，能考虑到该词前面和后面词的信息，从而获取上下文的语义。

在一个可选的实施例中，可以从Google提供的多种预训练好的BERT模型中选取BERT(base)作为文本匹配的预训练模型，其中，BERT(base)的编码层(Transformer)的层数为12(6个编码层和6个解码层)，隐藏层(Hidden units)的层数为768，自注意力层(self-attention heads)的层数为12，总参数为1.1亿。

在一个可选的实施例中，所述对所述预训练模型BERT进行参数微调得到参数共享的BERT模型包括：

该可选的实施例中，对下载的预训练模型BERT文件进行解压得到五个文件，其中bert_model.ckpt开头的文件是负责模型变量载入的，而vocab.txt是训练中文文本采用的字典，最后bert_config.json是BERT在训练时，可选调整的一些参数。当需要进行参数微调时，可以在bert_config.json文件中修改do_train来进行参数微调。

当完成编码层和解码层之间的参数共享后，再使用中文文本采用的字典vocab.txt重新训练BERT得到参数共享的BERT模型。

现有的预训练模型BERT使用12层的Transformer，各层之间的参数不共享，本实施例通过将编码层的参数更新为对应的解码层参数，实现了参数的跨层共享，使得参数的总量下降到原来的1/2。由于参数的总量下降了，减少了训练BERT模型的计算量，从而提高了训练BERT模型的效率；此外，降低了对硬件的配置要求。

S12，获取目标文本并抽取所述目标文本的第一词嵌入向量。

在智能问答系统中，所述目标文本为用户输入的提问语句。在搜索引擎系统中，目标文本为用户输入的查询语句。在知识检索系统中，所述目标文本为用户输入的检索语句。

在一个可选的实施例中，所述抽取所述目标文本的第一词嵌入向量包括：

对所述目标文本进行分词处理得到词块嵌入；

该可选的实施例中，由于BERT模型期望输入的数据具有特定的格式，因此可以用特殊标记来标记句子的开头([CLS])和句子的分隔/结尾([SEP])，符合BERT中使用的固定词汇的令牌，BERT的令牌生成器提供的令牌ID，掩码ID，以指示序列中的哪些元素是令牌，哪些是填充元素，用于区分不同句子的句段ID，用于显示序列中标记位置的位置嵌入。

BERT输入表征是词块嵌入、段号嵌入和位置嵌入的总和。

S13，将所述第一词嵌入向量映射到低维词嵌入空间得到第二词嵌入向量。

对第一词嵌入向量进行映射，使得第一词嵌入向量的维度降低，便于BERT模型快速的提取出目标向量。

在一个可选的实施例中，所述将所述第一词嵌入向量映射到低维词嵌入空间得到第二词嵌入向量包括：

对所述第一词嵌入向量进行奇异值分解；

提取奇异值分解得到的奇异值作为第二词嵌入向量。

现有的BERT模型中，WordPiece词嵌入的维度E和Transformer隐藏层H的大小是一样的。假设隐藏层H大小为4096，对于一个大小为30000的词典，假设为V，那么BERT模型的参数为30000×4096＝1.23亿。

本实施例，通过对第一词嵌入向量进行奇异值分解，能够将V映射到一个低维的词嵌入空间E，然后再映射到Transformer隐藏层H，如此能够使得BERT模型的参数大大降低，从而提高对目标文本的分类。

示例性的，假设VERT模型的参数从O(V×H)降低到O(V×E+E×H)，设E为128，则VERT参数从1.23亿降低到30000×128+128×4096＝384万。

在一个可选的实施例中，所述提取奇异值分解得到的奇异值作为第二词嵌入向量包括：

计算所述奇异值中非零奇异值的个数；

计算所述个数与预设比例阈值得到目标个数；

该可选的实施例中，所述预设比例阈值为事先设定的临界值。

示例性的，假设预设比例阈值为90％，对所述第一词嵌入向量进行奇异值分解得到的奇异值有100个，其中，非零奇异值有90个，则从90个非零奇异值中选取前81个非零奇异值，并将前81个非零奇异值连接成一个向量，作为第二词嵌入向量。

通过选取前预设比例阈值的非零奇异值，能够进一步降低第二词嵌入向量的维度，且不会影响第二词嵌入的对目标文本的表征能力。

S14，输入所述第二词嵌入向量至所述参数共享的BERT模型中，并获取所述参数共享的BERT模型输出的目标向量。

得到第二词嵌入向量后，即可输入至参数共享的BERT模型，通过BERT模型输出目标文本的目标向量。

S15，根据所述目标向量从预设文本语料库中匹配出最近似文本。

可以根据不同的应用场景，预先设置不同的文本语料库。比如，在智能问答应用场景中，设置的文本语料库中包括多个文本答案，每个文本答案对应有文本向量；在搜索引擎应用场景中，设置的文本语料库中包括多个文本页面，每个文本页面对应有文本向量；在知识检索应用场景中，设置的文本语料库中包括多个文本资料，每个文本资料对应有文本向量。

在一个可选的实施例中，在遍历所述预设文本语料库中的每一个文本语料的文本向量之前，所述基于预训练模型的文本匹配方法还包括：

抽取每一个文本语料的词嵌入向量；

该可选的实施例中，抽取每一个文本语料的词块嵌入、段号嵌入及位置嵌入，并将词块嵌入、段号嵌入及位置嵌入叠加得到词嵌入向量。在提取奇异值分解得到的奇异值之后，还可以计算所述奇异值中非零奇异值的个数；计算所述个数与预设比例阈值得到目标个数；选取所述非零奇异值中所述目标个数之前的非零奇异值，并将选取的非零奇异值构建为最终词嵌入向量。

在一个可选的实施例中，所述根据所述目标向量从预设文本语料库中匹配出最近似文本包括：

遍历所述预设文本语料库中的每一个文本语料的文本向量；

在一个可选的实施例中，所述计算所述目标向量与每一个文本语料的文本向量之间的相似度包括：

计算所述目标向量与每一个文本语料的文本向量之间的余弦相似度。

该可选的实施例中，所述余弦相似度用向量空间中两个向量的夹角的余弦值来衡量两个文本间的相似度。

余弦相似度的计算公式如下：

其中，(X₁，X₂，…，X_N)为目标文本的目标向量，(Y₁，Y₂，…，Y_N)为文本语料的文本向量，cos(θ)为余弦相似度。

相比距离度量，余弦相似度更加注重两个向量在方向上的差异。

综上所述，本发明通过获取预训练模型BERT并对所述预训练模型BERT进行参数微调得到参数共享的BERT模型，在需要从预设文本语料库中匹配出目标文本的最近似文本时，先抽取所述目标文本的第一词嵌入向量，接着将所述第一词嵌入向量映射到低维词嵌入空间得到第二词嵌入向量，再输入所述第二词嵌入向量至所述参数共享的BERT模型中，即可获取所述参数共享的BERT模型输出的目标向量；最后根据所述目标向量从预设文本语料库中匹配出最近似文本。通过参数跨层共享和对词嵌入因式分解进行降维，降低了基于transformer的双向编码器的表征模型的参数量，从而大大提高了训练速度和运算开销。降低了模型的参数，从而压缩了模型的大小，可以让运算资源不是特别丰富的机构或者公司也能使用基于transformer的双向编码器的表征模型，提高文本匹配的效果。

与传统的Bag-of-Word(词袋模型)相比，经过句嵌入模型后的序列不是包含的词语对应位置为1，其余位置为0的稀疏向量，而是一个稠密的固定维度向量。通过直观上可减少额外存储和计算开销。其次，参数共享的BERT模型，能抽象出句子的语义，实现语义理解。

此外，本方案可以应用于，如智能问答、搜索引擎、知识检索等领域，能够从用户的输入问题中，找到存储在知识库中最匹配的文档；能够根据用户的输入检索出与重合度最高的网页。因而，本发明所述的基于预训练模型的文本匹配方法，可应用于智慧政务、智慧物流、智慧教育等场景中，例如，应用于智慧教育中，可以匹配出最接近的课程，从而提高课程的推荐效率和质量。

需要强调的是，为进一步保证上述参数共享的BERT模型和/或预设文本语料库中的每一个文本语料的文本向量的私密和安全性，上述参数共享的BERT模型和/或预设文本语料库中的每一个文本语料的文本向量还可以存储于一区块链的节点中。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

实施例二

在一些实施例中，所述基于预训练模型的文本匹配装置20可以包括多个由程序代码段所组成的功能模块。所述基于预训练模型的文本匹配装置20中的各个程序段的程序代码可以存储于终端的存储器中，并由至少一个处理器所执行，以执行(详见图1描述)基于预训练模型的文本匹配的功能。

本实施例中，所述基于预训练模型的文本匹配装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：模型训练模块201、文本抽取模块202、低维嵌入模块203、向量输出模块204及文本匹配模块205。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

所述模型训练模块201，用于获取预训练模型BERT并对所述预训练模型BERT进行参数微调得到参数共享的BERT模型。

在一个可选的实施例中，所述模型训练模块201对所述预训练模型BERT进行参数微调得到参数共享的BERT模型包括：

所述文本抽取模块202，用于获取目标文本并抽取所述目标文本的第一词嵌入向量。

在一个可选的实施例中，所述文本抽取模块202抽取所述目标文本的第一词嵌入向量包括：

对所述目标文本进行分词处理得到词块嵌入；

BERT输入表征是词块嵌入、段号嵌入和位置嵌入的总和。

所述低维嵌入模块203，用于将所述第一词嵌入向量映射到低维词嵌入空间得到第二词嵌入向量。

在一个可选的实施例中，所述低维嵌入模块203将所述第一词嵌入向量映射到低维词嵌入空间得到第二词嵌入向量包括：

对所述第一词嵌入向量进行奇异值分解；

提取奇异值分解得到的奇异值作为第二词嵌入向量。

计算所述奇异值中非零奇异值的个数；

计算所述个数与预设比例阈值得到目标个数；

所述向量输出模块204，用于输入所述第二词嵌入向量至所述参数共享的BERT模型中，并获取所述参数共享的BERT模型输出的目标向量。

所述文本匹配模块205，用于根据所述目标向量从预设文本语料库中匹配出最近似文本。

在一个可选的实施例中，所述文本抽取模块202，还用于在遍历所述预设文本语料库中的每一个文本语料的文本向量之前，抽取每一个文本语料的词嵌入向量。

所述低维嵌入模块203，还用于将所述每一个文本语料的词嵌入向量进行奇异值分解，并提取奇异值分解得到的奇异值作为最终词嵌入向量。

所述向量输出模块204，还用于输入所述每一个文本语料的最终词嵌入向量至所述参数共享的BERT模型中，并获取所述参数共享的BERT模型输出的文本向量。

在一个可选的实施例中，所述文本匹配模块205根据所述目标向量从预设文本语料库中匹配出最近似文本包括：

遍历所述预设文本语料库中的每一个文本语料的文本向量；

余弦相似度的计算公式如下：

实施例三

参阅图3所示，为本发明实施例三提供的终端的结构示意图。在本发明较佳实施例中，所述终端3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的终端的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述终端3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述终端3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的终端，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述终端3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述终端3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31中存储有程序代码，且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如，上述实施例中所述的各个模块是存储在所述存储器31中的程序代码，并由所述至少一个处理器32所执行，从而实现所述各个模块的功能。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中，所述至少一个处理器32是所述终端3的控制核心(ControlUnit)，利用各种接口和线路连接整个终端3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行终端3的各种功能和处理数据。例如，所述至少一个处理器32执行所述存储器中存储的程序代码时实现本发明实施例中所述的基于预训练模型的文本匹配方法的全部或者部分步骤。所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(CentralProcessing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

在一些实施例中，所述处理器32用于执行所述存储器31中存储的计算机程序时实现所述基于预训练模型的文本匹配方法，所述基于预训练模型的文本匹配方法包括：获取预训练模型BERT并对所述预训练模型BERT进行参数微调得到参数共享的BERT模型；获取目标文本并抽取所述目标文本的第一词嵌入向量；将所述第一词嵌入向量映射到低维词嵌入空间得到第二词嵌入向量；输入所述第二词嵌入向量至所述参数共享的BERT模型中，并获取所述参数共享的BERT模型输出的目标向量；根据所述目标向量从预设文本语料库中匹配出最近似文本。

在一些实施例中，所述存储器31存储的计算机程序被所述处理器32执行时实现所述基于预训练模型的文本匹配方法，所述基于预训练模型的文本匹配方法包括：获取预训练模型BERT并对所述预训练模型BERT进行参数微调得到参数共享的BERT模型；获取目标文本并抽取所述目标文本的第一词嵌入向量；将所述第一词嵌入向量映射到低维词嵌入空间得到第二词嵌入向量；输入所述第二词嵌入向量至所述参数共享的BERT模型中，并获取所述参数共享的BERT模型输出的目标向量；根据所述目标向量从预设文本语料库中匹配出最近似文本。

尽管未示出，所述终端3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述终端3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)或处理器(processor)执行本发明各个实施例所述基于预训练模型的文本匹配方法的部分。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于预训练模型的文本匹配方法，其特征在于，所述基于预训练模型的文本匹配方法包括：

获取目标文本并抽取所述目标文本的第一词嵌入向量；

根据所述目标向量从预设文本语料库中匹配出最近似文本。

2.如权利要求1所述的基于预训练模型的文本匹配方法，其特征在于，所述对所述预训练模型BERT进行参数微调得到参数共享的BERT模型包括：

3.如权利要求1所述的基于预训练模型的文本匹配方法，其特征在于，所述将所述第一词嵌入向量映射到低维词嵌入空间得到第二词嵌入向量包括：

对所述第一词嵌入向量进行奇异值分解；

提取奇异值分解得到的奇异值作为第二词嵌入向量。

4.如权利要求3所述的基于预训练模型的文本匹配方法，其特征在于，所述提取奇异值分解得到的奇异值作为第二词嵌入向量包括：

计算所述奇异值中非零奇异值的个数；

计算所述个数与预设比例阈值得到目标个数；

5.如权利要求1所述的基于预训练模型的文本匹配方法，其特征在于，所述抽取所述目标文本的第一词嵌入向量包括：

对所述目标文本进行分词处理得到词块嵌入；

6.如权利要求1所述的基于预训练模型的文本匹配方法，其特征在于，所述根据所述目标向量从预设文本语料库中匹配出最近似文本包括：

遍历所述预设文本语料库中的每一个文本语料的文本向量；

7.如权利要求6所述的基于预训练模型的文本匹配方法，其特征在于，在遍历所述预设文本语料库中的每一个文本语料的文本向量之前，所述方法还包括：

抽取每一个文本语料的词嵌入向量；

8.一种基于预训练模型的文本匹配装置，其特征在于，所述基于预训练模型的文本匹配装置包括：

9.一种终端，其特征在于，所述终端包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述基于预训练模型的文本匹配方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于预训练模型的文本匹配方法。