CN117271742A

CN117271742A - 一种问答方法、装置、设备及介质

Info

Publication number: CN117271742A
Application number: CN202311324274.1A
Authority: CN
Inventors: 丁乐; 刘子星; 徐煌; 王伟; 马军明; 周晏清
Original assignee: 17win Network Technology Co ltd
Current assignee: 17win Network Technology Co ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2023-12-22

Abstract

本申请公开了一种问答方法、装置、设备及介质，涉及计算机技术领域，包括：对目标问答文本进行切词得到各目标分词，对目标分词进行向量化得到各目标向量；通过目标问答模型中的问题编码器基于目标向量生成问题文本矩阵；通过目标问答模型中的相似度计算模块基于问题文本矩阵与各参考文本矩阵计算目标问题文本与各参考文本之间的目标相似度，选取目标相似度最高的目标数量个参考文本；参考文本矩阵为预先通过目标问答模型中的参考文本编码器基于参考文本构建的矩阵；每个参考文本为标准问题文本和参考答案文本，或，参考答案文本；通过答案生成器基于目标数量个参考文本生成目标答案文本。本申请能够提高问答的准确性和泛化性，并加快问答效率。

Description

一种问答方法、装置、设备及介质

技术领域

本发明涉及计算机技术领域，特别涉及一种问答方法、装置、设备及介质。

背景技术

当前，在各领域中的问答任务中，人们主要追求的是两类效果：一个是准确率，另一个则是问答的泛化性，即当真实场景中用户输入一个语义相似但表达方式不同的问题时，问答系统能否通过历史数据中的相似问答而给出答案。

而传统的问题与答案匹配方式大多数是通过记录问答对数据，通过“正则匹配计算覆盖率”、“判别式分类模型判断匹配度”、“聚类模型判断相似度”等方式进行问答匹配计算，以上传统方式无法避免效率低下、随机性导致的结果不稳定、需要大量人工介入制定回答框架等等弊端。

综上，如何提高问答的准确性和泛化性，并加快问答效率是当前亟待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种问答方法、装置、设备及介质，能够提高问答的准确性和泛化性，并加快问答效率，其具体方案如下：

第一方面，本申请公开了一种问答方法，包括：

获取目标问题文本，并对所述目标问答文本进行切词处理得到各目标分词，然后对所述各目标分词进行向量化得到各目标向量；

通过目标问答模型中的问题编码器基于各目标向量生成问题文本矩阵；

通过所述目标问答模型中的相似度计算模块，并基于所述问题文本矩阵与各参考文本矩阵计算所述目标问题文本与各参考文本之间的目标相似度，并根据所述目标相似度由高至低的顺序进行排序，然后选取排序最前的目标数量个所述参考文本；所述参考文本矩阵为预先通过所述目标问答模型中的参考文本编码器基于预设参考文本库中的所述参考文本构建的矩阵；每个所述参考文本为标准问题文本和参考答案文本，或，所述参考答案文本；

通过答案生成器基于所述目标数量个所述参考文本生成所述目标问题文本对应的目标答案文本。

可选的，所述获取目标问题文本之前，还包括：

在所述目标问答模型的部署阶段，对所述预设参考文本库中的每个所述参考文本进行切词处理得到各参考分词，并对所述各参考分词进行向量化得到的各参考向量；

通过所述参考文本编码器基于所述预设参考文本库中的每个所述参考文本对应的所述各参考向量生成每个所述参考文本对应的所述参考文本矩阵。

可选的，所述参考文本矩阵和所述问题文本矩阵为二维矩阵；其中，第一维度表征对应分词的位置信息，第二维度表征对应分词的分词特征信息。

可选的，所述通过所述目标问答模型中的相似度计算模块，并基于所述问题文本矩阵与各参考文本矩阵计算所述目标问题文本与各参考文本之间的目标相似度，包括：

通过所述目标问答模型中的相似度计算模块计算所述问题文本矩阵与转置后的参考文本矩阵的点乘，得到表征每个所述目标分词与每个所述参考分词之间的相似度的第一相似度矩阵；

选取所述第一相似矩阵中每个所述目标分词对应的最大相似度构成第二相似矩阵；

对所述第二相似矩阵中的所有相似度进行加和操作得到总和相似度；

选取所述第二相似矩阵中的最大相似度作为关键相似度；

对所述第二相似矩阵中的所有相似度进行均值操作得到平均相似度；

基于所述总和相似度、关键相似度和平均相似度确定所述目标问题文本与所述参考文本矩阵对应的所述参考文本之间的目标相似度，以计算所述目标问题文本与各所述参考文本之间的所述目标相似度。

可选的，所述获取目标问题文本之前，还包括：

获取待训练问题文本、待训练正确答案文本和待训练错误答案文本；

将所述待训练问题文本和所述待训练正确答案文本的第一组合作为用于计算所述待训练问题文本和所述待训练正确答案文本之间相似度的第一正样本，并将所述待训练问题文本以及所述第一组合的第二组合作为用于计算所述待训练问题文本以及所述第一组合之间相似度作为第二正样本；

将所述待训练问题文本和所述待训练错误答案文本的第三组合作为用于计算所述待训练问题文本和所述待训练错误答案文本之间相似度的第一负样本，并将所述待训练问题文本以及所述第三组合的第四组合作为用于计算所述待训练问题文本以及所述第三组合之间相似度的第二负样本；

对所述待训练问题文本、所述待训练正确答案文本和所述待训练错误答案文本进行切词处理得到若干待训练分词；

基于所述待训练分词，并根据所述第一正样本、所述第二正样本、所述第一负样本和所述第二负样本训练初始问答模型得到所述目标问答模型。

可选的，所述初始问答模型中的索引器包括训练前双塔模型和训练前的所述相似度计算模块；其中，所述双塔模型为基于转换器模型中的单层编码层构成的模型；所述目标问答模型中的所述问题编码器和所述参考文本编码器由训练后双塔模型拆分得到。

若所述参考文本矩阵分别存储于若干个图形处理器中，则通过所述相似度计算模块并利用每个所述图形处理器基于所述问题文本矩阵和存储在该图形处理器中的各参考文本矩阵计算所述目标问题文本与各所述参考文本之间的目标相似度；

相应的，所述根据所述目标相似度由高至低的顺序进行排序，然后选取排序最前的目标数量个所述参考文本，包括：

将每个所述图形处理器中存储的所述参考文本根据所述目标相似度由高至低的顺序进行排序，并选取每个所述图形处理器对应的排序最前的目标数量个所述参考文本；

利用所述若干个图形处理器中的任一所述图形处理器根据所述目标相似度由高至低的顺序将选取出的所有所述参考文本重新排序，并从重新排序后的所述参考文本中选取出排序最前的所述目标数量个所述参考文本。

第二方面，本申请公开了一种问答装置，包括：

向量生成模块，用于获取目标问题文本，并对所述目标问答文本进行切词处理得到各目标分词，然后对所述各目标分词进行向量化得到各目标向量

矩阵生成模块，用于通过目标问答模型中的问题编码器基于各目标向量生成问题文本矩阵；

参考文本选取模块，用于通过所述目标问答模型中的相似度计算模块，并基于所述问题文本矩阵与各参考文本矩阵计算所述目标问题文本与各参考文本之间的目标相似度，并根据所述目标相似度由高至低的顺序进行排序，然后选取排序最前的目标数量个所述参考文本；所述参考文本矩阵为预先通过所述目标问答模型中的参考文本编码器基于预设参考文本库中的所述参考文本构建的矩阵；每个所述参考文本为标准问题文本和参考答案文本，或，所述参考答案文本；

答案生成模块，用于通过答案生成器基于所述目标数量个所述参考文本生成所述目标问题文本对应的目标答案文本。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的问答方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的问答方法。

可见，本申请获取目标问题文本，并对所述目标问答文本进行切词处理得到各目标分词，然后对所述各目标分词进行向量化得到各目标向量；通过目标问答模型中的问题编码器基于各目标向量生成问题文本矩阵；通过所述目标问答模型中的相似度计算模块，并基于所述问题文本矩阵与各参考文本矩阵计算所述目标问题文本与各参考文本之间的目标相似度，并根据所述目标相似度由高至低的顺序进行排序，然后选取排序最前的目标数量个所述参考文本；所述参考文本矩阵为预先通过所述目标问答模型中的参考文本编码器基于预设参考文本库中的所述参考文本构建的矩阵；每个所述参考文本为标准问题文本和参考答案文本，或，所述参考答案文本；通过答案生成器基于所述目标数量个所述参考文本生成所述目标问题文本对应的目标答案文本。由此可见，本申请生成目标分词而不是目标字，更能精细化表示目标问题文本的含义，提高准确度，且分词比字数量少，之后处理过程可提高速率；本申请所述参考文本为标准问题文本和参考答案文本时，着重考虑文本相似度，所述参考文本为参考答案文本时，着重考虑语义相似度，两种相似度都考虑，提高了问答的泛化性和准确性；本申请选取排序最前的目标数量个所述参考文本，而不是设定预设阈值，减少了人工干预，降低了认为因素的影响，可提高准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种问答方法流程图；

图2为本申请公开的一种参考文本矩阵生成示意图；

图3为本申请公开的一种目标相似度计算示意图；

图4为本申请公开的一种具体的问答方法流程图；

图5为本申请公开的一种模型训练示意图；

图6为本申请公开的一种具体的问答方法流程图；

图7为本申请公开的一种图形处理器分层计算相似度的方法示意图；

图8为本申请公开的一种基于图形处理器分层计算相似度的问答方法示意图；

图9为本申请公开的一种问答装置结构示意图；

图10为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为此，本申请实施例提出一种问答方案，能够提高问答的准确性和泛化性，并加快问答效率。

本申请实施例公开了一种问答方法，参见图1所示，该方法包括：

步骤S11：获取目标问题文本，并对所述目标问答文本进行切词处理得到各目标分词，然后对所述各目标分词进行向量化得到各目标向量。

本实施例中，利用Jieba分词工具，对目标问题文本进行且此处理；对各目标分词进行向量化也即对各目标分词进行Embedding；Embedding指对个输入的文本进行切分后，进行编码为词向量的过程。

需要指出的是，Jieba为常用的中文切词工具，在将语料进行embedding之前，需要将按字或按词文本切开。使用切词工具而非切字是因为分词比分字更能精细化表示目标问题文本的含义，因此切词能够使得模型识别的精度提高，也会缩短总目标向量的个数。

本实施例中，预设词库中存储有训练初始问答模型得到目标问答模型的过程中利用的所有分词，当所述目标问题文本中存在有预设词库不存在的目标未知分词时，首先将目标已知分词进行向量化，然后将目标未知分词对应的向量标注为[unk]未知标记或[pad]填补标记，以便后续填补。

本实施例中，所述获取目标问题文本之前，还包括：在所述目标问答模型的部署阶段，对所述预设参考文本库中的每个所述参考文本进行切词处理得到各参考分词，并对所述各参考分词进行向量化得到的各参考向量；通过所述参考文本编码器基于所述预设参考文本库中的每个所述参考文本对应的所述各参考向量生成每个所述参考文本对应的所述参考文本矩阵。

参见图2所示，为一种参考文本矩阵生成示意图；图中预设参考文本库中的每个所述参考文本进行切词及向量化，并经过位置编码和参考文本编码器后得到参考文本矩阵，可将所有参考文本矩阵存入参考文本矩阵库中。

步骤S12：通过目标问答模型中的问题编码器基于各目标向量生成问题文本矩阵。

本实施例中，所述参考文本矩阵和所述问题文本矩阵为二维矩阵；其中，第一维度表征对应分词的位置信息，第二维度表征对应分词的分词特征信息。具体的，二维矩阵多出了一个维度的文本特征信息，因此在第一个维度上最大程度保留了长度为512位的词或词包(bag of tokens)的位置信息，在第二个维度上则表示长度为128位的词或词包的特征表示(representation)；此方法由于维度信息增多使得文本相似度计算精准度大幅提升，经验证比一维矩阵相似度算法高出10％左右的命中率。

本实施例中，由于模型训练时，模型基于输入的语料库重新生成词库，所以当使用模型时，难免遇到用户问题中存在词库中不包含的生僻词，导致序列中存在[unk]token(目标未知分词)。基于此问题，在模型架构中设计了自动化空置词(生僻词)填补机制，当输入的问题被embedding模块嵌入化时，序列中若存在[unk]未知标记或[pad]填补标记，模型自动基于序列中的前后文其他词或词包的特征表示，做一维方向上的均值计算(即在128个特征维度上，分别做已知特征表示的均值计算)，填补到所有[unk]标记位置，可选地对[pad]填补位置进行同样的操作，也即基于问题文本矩阵中其它数值计算均值用于填补。这样做的好处是可以在有限的输入信息中，增问题文本矩阵和参考文本矩阵的信息密度，提高相似度计算的精度。当然，我们在训练阶段是不开启这个模式的，一是因为我们的词库本身基于训练的语料而生成，因此不存在[unk]生僻词的情况；二是训练时需要追求输入信息纯度而不是信息密度，否则训练数据失真，在实际应用中效果并不好，因此[pad]标记也不会在训练中被填补。

步骤S13：通过所述目标问答模型中的相似度计算模块，并基于所述问题文本矩阵与各参考文本矩阵计算所述目标问题文本与各参考文本之间的目标相似度，并根据所述目标相似度由高至低的顺序进行排序，然后选取排序最前的目标数量个所述参考文本；所述参考文本矩阵为预先通过所述目标问答模型中的参考文本编码器基于预设参考文本库中的所述参考文本构建的矩阵；每个所述参考文本为标准问题文本和参考答案文本，或，所述参考答案文本。

本实施例中，所述获取目标问题文本之前，还包括：在所述目标问答模型的部署阶段，对所述预设参考文本库中的每个所述参考文本进行切词处理得到各参考分词，并对所述各参考分词进行向量化得到的各参考向量；通过所述参考文本编码器基于所述预设参考文本库中的每个所述参考文本对应的所述各参考向量生成每个所述参考文本对应的所述参考文本矩阵。需要指出的是，生成参考文本矩阵的过程与生成问题文本矩阵的过程一致。

本实施例中，所述目标问答模型中的参考文本编码器在获取问题文本文件之间就预先构建参考文本矩阵，而不是在对目标问题文本的处理过程中构建的，因此降低了目标问答系统的复杂度，提高了速度。

本实施例中，所述通过所述目标问答模型中的相似度计算模块，并基于所述问题文本矩阵与各参考文本矩阵计算所述目标问题文本与各参考文本之间的目标相似度，包括：通过所述目标问答模型中的相似度计算模块计算所述问题文本矩阵与转置后的参考文本矩阵的点乘，得到表征每个所述目标分词与每个所述参考分词之间的相似度的第一相似度矩阵；选取所述第一相似矩阵中每个所述目标分词对应的最大相似度构成第二相似矩阵；对所述第二相似矩阵中的所有相似度进行加和操作得到总和相似度；选取所述第二相似矩阵中的最大相似度作为关键相似度；对所述第二相似矩阵中的所有相似度进行均值操作得到平均相似度；基于所述总和相似度、关键相似度和平均相似度确定所述目标问题文本与所述参考文本矩阵对应的所述参考文本之间的目标相似度，以计算所述目标问题文本与各所述参考文本之间的所述目标相似度。

需要指出的是，所述通过所述目标问答模型中的相似度计算模块，并基于所述问题文本矩阵与各参考文本矩阵计算所述目标问题文本与各参考文本之间的目标相似度之前，还需要对问题文本矩阵和参考文本矩阵的第二维度(128位)进行1D-Layernorm操作(维度为1的layernorm(Layer normalization，层归一化)操作)，以降低无意义、噪音词的重复对整体相似度的误导，从而起到降噪的作用。需要指出的是，1D-Layernorm操作的有益效果包括：：1、使得模型更易收敛，避免出现梯度爆炸问题；2、降低噪声词的影响，如一些通用的非关键词汇，可能在参考文本中出现多次，若不进行归一化，则此类大量重复的高得分，会对第二步计算中的一维相似度矩阵造成误导，稀释有效词的相似度对MixSim相似度的占比。因此，在矩阵相似度计算的第一步和第二步之间加入维度为1的layernorm操作，能够保证有效信息的浓度。

需要指出的是，所述第一相似度矩阵，为二维矩阵，为问题文本矩阵(尺寸为n×m，即token数(问题文本分词数)×特征维度)和转置后的参考文本矩阵(尺寸位m×n)进行归一化点乘计算得到的相似度矩阵，第一相似度矩阵尺寸就是n×n(即token数(问题文本分词数)×token数(参考文本分词数))。需要指出的是，第一相似度矩阵就代表了问题文本和参考文本之间每个词或者词包之间的两两相似度关系，具有更浓的信息密度和更明确、直观的计算逻辑，使得模型训练更易收敛，问答匹配更加精准。

需要指出的是，所述第二相似度矩阵，是对n×n的第一相似度矩阵进行第二维度(128位)上的最大值取值操作(即找到问题矩阵中每个词或词包与文本矩阵中所有词或词包中最相似的，并且返回其得分)(也即选取所述第一相似矩阵中每个所述目标分词对应的最大相似度)，得到的n×1尺寸的一维矩阵。

需要指出的是，所述对所述第二相似矩阵中的所有相似度进行加和操作得到总和相似度，具体为对得到的一维矩阵进行加和操作，得到词或词包最高两两相似度的总和，即为总和相似度(MaxSum)。

需要指出的是，选取所述第二相似矩阵中的最大相似度作为关键相似度，具体为取一维矩阵中的最大相似度值，即为问题矩阵和文本矩阵之间最相似配对的相似度得分，即为关键相似度(MaxMax)。

需要指出的是，对所述第二相似矩阵中的所有相似度进行均值操作得到平均相似度，具体为对一维矩阵进行均值操作，代表问题矩阵和文本矩阵之间所有词或词包相似度的平均得分，即为平均相似度(MaxMean)。

需要指出的是，目标相似度混合利用MaxSum、MaxMax、MaxMean，3类相似度算法进行问题文本矩阵和参考文本矩阵的相似度计算形成MixSim相似度指标，以达到更高精度。

需要指出的是，所述基于所述总和相似度、关键相似度和平均相似度确定所述目标问题文本与所述参考文本矩阵对应的所述参考文本之间的目标相似度，可以是根据为三者相似度设定的权重，并基于所述总和相似度、关键相似度和平均相似度确定所述目标问题文本与所述参考文本矩阵对应的所述参考文本之间的目标相似度。

在一种具体实施例中，参见图3所示，为一种目标相似度计算示意图；图中存在一个问题文本二维矩阵(1,512,128)和n个转置后的参考文本二维矩阵(n，128，512)，问题文本二维矩阵与一个参考文本二维矩阵进行点乘计算得到第一相似度矩阵(512，512)，对第一相似度矩阵进行维度为1的layernorm归一化操作，然后得到第二相似度矩阵，并基于所述第二相似度矩阵计算总和相似度、关键相似度和平均相似度，基于总和相似度、关键相似度和平均相似度通过全连接层计算权重得到目标相似度。

需要指出的是，此种矩阵乘法计算相似度的步骤，与传统判别式模型“需要将问题和每个参考文本进行整套算法流程计算”相比速度快出数倍，资源要求也更低。

本实施例中，每个所述参考文本为标准问题文本和参考答案文本，或，所述参考答案文本，因为，所述参考文本为标准问题文本和参考答案文本是可充分考虑文本相似度，所述参考文本为参考答案文本时，充分考虑了文本语义相似度，两者相似度都考虑使得结果更加准确；另外还可以根据自身要求(着重考虑文本相似度还是语义相似度)，调整所述参考文本为标准问题文本和参考答案文本，和，所述参考文本为所述参考答案文本的数量；若着重考虑文本相似度，则增加所述参考文本为标准问题文本和参考答案文本的数量，若着重考虑语义相似度，则增加所述参考文本为参考答案文本的数量。

步骤S14：通过答案生成器基于所述目标数量个所述参考文本生成所述目标问题文本对应的目标答案文本。

本实施例中，所述答案生成器(generator)具体作用是基于retriever索引的top-n相关参考文本及问题，通过GPT(Generative Pre-Trained Transformer，生成式预训练Transformer模型(转换器模型))语言模型，参考给出的文本，组织语言生成答案；所述答案生成器可为chatglm模型，采用chatglm模型作为答案生成器使得算法的表达更接近人类的语言习惯，并且可以通过调节temperature决定模型是否生成更加有创造性和随机性的回答。当然这其中稳定性和随机性需要权衡，一般情况下，设定为最严谨的生成模式即可。需要指出的是，其chatglm模型的预训练语料中比其他国内外开源的GPT模型有更多的中文语料，具有更好的中文语言组织能力。

本实施例中，将目标问题文本和所述目标数量个参考文件输入答案生成器的得到目标答案文本步骤通过以下步骤来带通：训练一个文本摘要模型，然后利用文本摘要模型提取所述目标数量个参考文件的关键信息得到目标答案文本；但是利用文本摘要模型得到的目标答案文本的表达方式没有生成类语言模型那么接近人类的表达，效果也不一定能达到预期。

本实施例中，基于2维矩阵计算相似度可以用1维句向量相似度计算代替，弊端是1维句向量的语义信息经过压缩，精准度不高，且训练不易收敛。

可见，申请生成目标分词而不是目标字，更能精细化表示目标问题文本的含义，提高准确度，且分词比字数量少，之后处理过程可提高速率；本申请所述参考文本为标准问题文本和参考答案文本时，着重考虑文本相似度，所述参考文本为参考答案文本时，着重考虑语义相似度，两种相似度都考虑，提高了问答的泛化性和准确性；本申请选取排序最前的目标数量个所述参考文本，而不是设定预设阈值，减少了人工干预，降低了认为因素的影响，可提高准确性。

本申请实施例公开了一种具体的问答方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。参见图4所示，具体包括：

步骤S21：获取待训练问题文本、待训练正确答案文本和待训练错误答案文本。

本实施例中，需要进行什么领域的问答，就利用什么领域的现有的待训练问题文本、待训练正确答案文本和待训练错误答案文本进行训练，也即利用对应领域的语料库中语料进行训练。

需要指出的是，针对输入的不同语料库，自动化重新生成领域内词库，聚焦基于语料库的词，减少冗余词汇，轻量化模型；不同领域都具有各自的词库。需要指出的是，训练过程中模型参数的训练完全是由特定领域内的语料主导的，没有其他预训练模型参数中的冗余信息干扰。

步骤S22：将所述待训练问题文本和所述待训练正确答案文本的第一组合作为用于计算所述待训练问题文本和所述待训练正确答案文本之间相似度的第一正样本，并将所述待训练问题文本以及所述第一组合的第二组合作为用于计算所述待训练问题文本以及所述第一组合之间相似度作为第二正样本。

本实施例中，所述第一正样本为(Q，D)；所述第二正样本为(Q，QD)；Q表示问题文本，D表示答案文本；第一正样本和第二正样本的比例可为2:1，比例可根据实际情况具体变动；

步骤S23：将所述待训练问题文本和所述待训练错误答案文本的第三组合作为用于计算所述待训练问题文本和所述待训练错误答案文本之间相似度的第一负样本，并将所述待训练问题文本以及所述第三组合的第四组合作为用于计算所述待训练问题文本以及所述第三组合之间相似度的第二负样本。

本实施例中，负样本类似正样本的设置。需要指出的是，正样本和负样本同时存在保证样本均衡。

步骤S24：对所述待训练问题文本、所述待训练正确答案文本和所述待训练错误答案文本进行切词处理得到若干待训练分词；基于所述待训练分词，并根据所述第一正样本、所述第二正样本、所述第一负样本和所述第二负样本训练初始问答模型得到所述目标问答模型。

本实施例中，采用jieba进行切词处理进行训练，而不是切为字，简化了模型训练难度，提高训练收敛速度和模型精度；另外，切为词比切为字，数量更少，对应的向量也更少，大大缩短了输入文本向量的长度。

本实施例中，所述初始问答模型中的索引器包括训练前双塔模型和训练前的所述相似度计算模块；其中，所述双塔模型为基于转换器模型中的单层编码层构成的模型；所述目标问答模型中的所述问题编码器和所述参考文本编码器由训练后双塔模型拆分得到。

需要指出的是，基于转换器模型中的单层编码层构建双塔模型，具体是，具体是从自然语言处理最流行的基础范式Transformer模块中，抽取Transformer-encoder层，并且各使用一层encoder-layer构建并行的双塔模型，具体是，因为考虑到二维矩阵的高维度特性，会增加计算时的内存或显存占用，所以利用单层编码结构最大限度地轻量化模型参数，提高模型推理速度、降低资源占用，保证低资源占用的前提下利用二维矩阵优势提升命中率；另外，只是用1层transformer-encoder(1层编码层)对文本进行编码和特征抽取，相较于BERT(Bidirectional Encoder Representation from Transformers，变压器的双向编码器表示)模型(12或24层)，更加轻量化，训练速度更快，资源要求更低。当然也可以根据需要增加层数，以获得在大语料场景下包含更多信息量的能力。

本实施例中，模型训练完成之后，还需要部署模型，训练后双塔模型拆分得所述问题编码器和所述参考文本编码器就是在部署步骤进行的，参考文本编码器(Qencoder)拆分出来之后，不在线上部署，会先将现有的参考文本编码为参考文本矩阵，之后只有在有新的参考文本需要更新时才会再次被调用，这样，从算法模型的复杂度上就提高了系统的计算效率。另外，参考文本集编码完成后，参考文本将被转化为参考文本矩阵存在内存或者显存中，待用户问输入被编码成问题矩阵后进行相似度计算的步骤；问题编码器(Dencoder)拆分出来之后，作为答案生成器的上游，被线上部署以对问题文本进行实时编码。综上，本申请中后期参考文本库矩阵的更新维护与线上的问答系统完全解耦，若有新文本需要更新，可直接对文本库进行扩展而不影响其他模块。

参见图5所示，为一种模型训练示意图；图中，对待训练问题文本、所述待训练正确答案文本和所述待训练错误答案文本进行切词及向量化，在进行位置编码后，经过问题编码器或参考文本编码器进行相似度计算、排序及获取目标数量个参考文本，然后将目标数量个参考文本输入答案生成器得到临时答案文本，再根据临时答案文本反向传播更新切词及向量化步骤、问题编码器和参考文版编码器的参数，词过程可多次循环进行直至得到的答案满足预先设置的正确率。

本实施例中，索引器模型中的双塔模型(Qencoder、Dencoder)可以用BERT代替，弊端是模型太大，对资源要求搞，领域内问答没有必要上BERT这么大的模型。

可见，本申请获取待训练问题文本、待训练正确答案文本和待训练错误答案文本；将所述待训练问题文本和所述待训练正确答案文本的第一组合作为用于计算所述待训练问题文本和所述待训练正确答案文本之间相似度的第一正样本，并将所述待训练问题文本以及所述第一组合的第二组合作为用于计算所述待训练问题文本以及所述第一组合之间相似度作为第二正样本；将所述待训练问题文本和所述待训练错误答案文本的第三组合作为用于计算所述待训练问题文本和所述待训练错误答案文本之间相似度的第一负样本，并将所述待训练问题文本以及所述第三组合的第四组合作为用于计算所述待训练问题文本以及所述第三组合之间相似度的第二负样本；对所述待训练问题文本、所述待训练正确答案文本和所述待训练错误答案文本进行切词处理得到若干待训练分词；基于所述待训练分词，并根据所述第一正样本、所述第二正样本、所述第一负样本和所述第二负样本训练初始问答模型得到所述目标问答模型。由此可见，本申请问题文本编码器和参考文本编码器利用1层编码层，提高了训练速度，获取更轻量化模型。

本申请实施例公开了一种具体的问答方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。参见图6所示，具体包括：

步骤S31：获取目标问题文本，并对所述目标问答文本进行切词处理得到各目标分词，然后对所述各目标分词进行向量化得到各目标向量。

其中，关于步骤S31的更加具体的处理过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

步骤S32：通过目标问答模型中的问题编码器基于各目标向量生成问题文本矩阵。

其中，关于步骤S32的更加具体的处理过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

步骤S33：通过所述相似度计算模块并利用每个所述图形处理器基于所述问题文本矩阵和存储在该图形处理器中的各参考文本矩阵计算所述目标问题文本与各所述参考文本之间的目标相似度；所述参考文本矩阵为预先通过所述目标问答模型中的参考文本编码器基于预设参考文本库中的所述参考文本构建的矩阵；每个所述参考文本为标准问题文本和参考答案文本，或，所述参考答案文本。

步骤S34：将每个所述图形处理器中存储的所述参考文本根据所述目标相似度由高至低的顺序进行排序，并选取每个所述图形处理器对应的排序最前的目标数量个所述参考文本。

步骤S35：利用所述若干个图形处理器中的任一所述图形处理器根据所述目标相似度由高至低的顺序将选取出的所有所述参考文本重新排序，并从重新排序后的所述参考文本中选取出排序最前的所述目标数量个所述参考文本。

本实施例中，若参考文本矩阵存储在显卡中，且所有的安靠文本矩阵被分为不同的多个矩阵包分别存储在不同的显卡中，则可以选择图形处理器分层计算相似度，存在了几个显卡就选择分几层图像处理器处理，首先每个图形处理器计算对应矩阵包中参考文本矩阵和问题文本矩阵的相似度，得到目标数量个参考文本，所以每个图形处理器都得到目标数量个参考文件，之后选择一个图形处理器多组目标数量个参考文件中选取出目标数量个参考文件，具体的，参见图7所示，为一种图形处理器分层计算相似度的方法示意图；途中，3个图形处理器(GPU0、GPU1和GPU2)，3个矩阵包，GPU0、GPU1和GPU2分别处理一个矩阵包，分别得到目标数量个参考文本，然后GPU0从多组目标数量个参考文本中选取目标数量个参考文本；所述目标数量个参考文本都是再对应的所有参考文本中与目标问题文本相似度最高的前目标数量个参考文本。

需要指出的是，分层并行的计算方式进行高效的相似度计算的方法，由于多个图像处理器并行进行，所以处理速度快，比在CPU(Central Processing Unit，中央处理器)中计算效率提升至少10倍(一般情况下再CPU中计算)。

需要指出的是，每个图形处理器完成相应计算工作后需要自动清理缓存。

参见图8所示，为一种基于图形处理器分层计算相似度的问答方法示意图；图中，首先对问题文本进行切词及向量化，然后再进行位置编码后，通过问题编码器进行编码得到问题文本矩阵，然后基于图形处理器分层计算方法计算相似度并得出最终目标数量个参考文本，将问题文本和目标数量个参考文本共同输入答案生成器得到目标答案文本。其中，参考文本矩阵从预设参考文本矩阵库中获取；所述参考文本从预设参考文本库中获取；其中，所述问题编码过程中增加了动态填补模快，以便对问题文本矩阵中的[unk]未知标记或[pad]填补标记进行填补；所述[unk]未知标记或[pad]填补标记用于标记目标向量中的目标未知向量；所述目标未知向量为目标问题文本中目标分词中的对应领域的词库中不存在的分词。

步骤S36：通过答案生成器基于所述目标数量个所述参考文本生成所述目标问题文本对应的目标答案文本。

其中，关于步骤S36的更加具体的处理过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本申请生成目标分词而不是目标字，更能精细化表示目标问题文本的含义，提高准确度，且分词比字数量少，之后处理过程可提高速率；本申请所述参考文本为标准问题文本和参考答案文本时，着重考虑文本相似度，所述参考文本为参考答案文本时，着重考虑语义相似度，两种相似度都考虑，提高了问答的泛化性和准确性；本申请选取排序最前的目标数量个所述参考文本，而不是设定预设阈值，减少了人工干预，降低了认为因素的影响，可提高准确性；另外，本申请通过多个GPU分别进行相似度检测，使得激素速度加快，提高问答效率。

相应的，本申请实施例还公开了一种问答装置，参见图9所示，该装置包括：

向量生成模块11，用于获取目标问题文本，并对所述目标问答文本进行切词处理得到各目标分词，然后对所述各目标分词进行向量化得到各目标向量

矩阵生成模块12，用于通过目标问答模型中的问题编码器基于各目标向量生成问题文本矩阵；

参考文本选取模块13，用于通过所述目标问答模型中的相似度计算模块，并基于所述问题文本矩阵与各参考文本矩阵计算所述目标问题文本与各参考文本之间的目标相似度，并根据所述目标相似度由高至低的顺序进行排序，然后选取排序最前的目标数量个所述参考文本；所述参考文本矩阵为预先通过所述目标问答模型中的参考文本编码器基于预设参考文本库中的所述参考文本构建的矩阵；每个所述参考文本为标准问题文本和参考答案文本，或，所述参考答案文本；

答案生成模块14，用于通过答案生成器基于所述目标数量个所述参考文本生成所述目标问题文本对应的目标答案文本。

其中，关于上述各个模块更加具体的工作过程可以参数前述实施例中公开的相应内容，在此不再进行赘述。

进一步的，本申请实施例还提供了一种电子设备。图10是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图10为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、显示屏23、输入输出接口24、通信接口25、电源26和通信总线27。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的问答方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源26用于为电子设备20上的各硬件设备提供工作电压；通信接口25能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口24，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括计算机程序221，存储方式可以是短暂存储或者永久存储。其中，计算机程序221除了包括能够用于完成前述任一实施例公开的由电子设备20执行的问答方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请实施例还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的问答方法。

关于该方法的具体步骤可以参数前述实施例中公开的相应内容，在此不再进行赘述。

本申请书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种问答方法、装置、设备、存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种问答方法，其特征在于，包括：

2.根据权利要求1所述的问答方法，其特征在于，所述获取目标问题文本之前，还包括：

3.根据权利要求2所述的问答方法，其特征在于，所述参考文本矩阵和所述问题文本矩阵为二维矩阵；其中，第一维度表征对应分词的位置信息，第二维度表征对应分词的分词特征信息。

4.根据权利要求3所述的问答方法，其特征在于，所述通过所述目标问答模型中的相似度计算模块，并基于所述问题文本矩阵与各参考文本矩阵计算所述目标问题文本与各参考文本之间的目标相似度，包括：

选取所述第二相似矩阵中的最大相似度作为关键相似度；

5.根据权利要求1所述的问答方法，其特征在于，所述获取目标问题文本之前，还包括：

6.根据权利要求5所述的问答方法，其特征在于，所述初始问答模型中的索引器包括训练前双塔模型和训练前的所述相似度计算模块；其中，所述双塔模型为基于转换器模型中的单层编码层构成的模型；所述目标问答模型中的所述问题编码器和所述参考文本编码器由训练后双塔模型拆分得到。

7.根据权利要求1至6任一项所述的问答方法，其特征在于，所述通过所述目标问答模型中的相似度计算模块，并基于所述问题文本矩阵与各参考文本矩阵计算所述目标问题文本与各参考文本之间的目标相似度，包括：

8.一种问答装置，其特征在于，包括：

向量生成模块，用于获取目标问题文本，并对所述目标问答文本进行切词处理得到各目标分词，然后对所述各目标分词进行向量化得到各目标向量矩阵生成模块，用于通过目标问答模型中的问题编码器基于各目标向量生成问题文本矩阵；

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的问答方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的问答方法。