发明内容
鉴于上述问题,本申请提出了一种负样本确定方法、相关设备及可读存储介质。具体方案如下:
一种负样本确定方法,所述方法包括:
获取待确定负样本的样本问题以及所述样本问题对应的文本库;
计算文本库中各个文本与所述样本问题的语义相似度;
从所述文本库中确定样本文本集合,所述样本文本集合中包括排名靠前的预设数量个语义相似度对应的文本;
将所述样本文本集合中除去包含所述样本问题的答案的样本文本后的剩余样本文本,确定为所述样本问题的负样本。
可选地,所述计算文本库中各个文本与所述样本问题的语义相似度,包括:
将所述样本问题输入语义相似度计算模型的问题编码器,所述问题编码器对所述样本问题进行编码,得到所述样本问题的特征向量;
将所述文本库中的各个文本输入所述语义相似度计算模型的文本编码器,所述文本编码器对所述文本库中的各个文本进行编码,得到所述文本库中各个文本的特征向量;
所述语义相似度计算模型的计算模块计算所述文本库中各个文本的特征向量,与所述样本问题的特征向量的相似度,作为所述文本库中各个文本与所述样本问题的语义相似度。
可选地,所述语义相似度计算模型的训练方式如下:
确定预训练数据集,所述预训练数据集中包括多个预训练数据,每个预训练数据包括一个样本问题、所述样本问题的正样本以及所述样本问题的负样本;
确定所述样本问题的正样本的第一标签,所述样本问题的负样本的第二标签;
以每个样本问题与所述样本问题的正样本的语义相似度趋近于所述第一标签,以所述样本问题与所述样本问题的负样本的语义相似度趋近于所述第二标签为训练目标,对所述语义相似度计算模型进行预训练,得到预训练的语义相似度计算模型;
对所述预训练的语义相似度计算模型的问题编码器进行优化训练,得到所述语义相似度计算模型。
可选地,所述对所述预训练的语义相似度计算模型的问题编码器进行优化训练,得到所述语义相似度计算模型,包括:
获取优化训练样本问题;
基于所述预训练的语义相似度计算模型,计算文本库中各个文本与各优化训练样本问题的语义相似度;
基于文本库中各个文本与各优化训练样本问题的语义相似度,从所述文本库中确定各优化训练样本问题的负样本;
确定所述优化训练样本问题的负样本的第三标签,所述第三标签用于表征所述优化训练样本问题的负样本被确定为包含所述优化训练样本问题的答案的样本的概率;
以每个优化训练样本问题与所述优化训练样本问题的负样本的相似度趋近于所述第三标签为训练目标,对所述预训练的语义相似度计算模型进行优化训练。
可选地,所述基于所述预训练的语义相似度计算模型,计算文本库中各个文本与各优化训练样本问题的语义相似度,包括:
将所述文本库中各文本输入所述预训练的语义相似度计算模型中的文本编码器进行编码,生成文本特征向量索引库,所述文本特征向量索引库中包括多个文本特征向量索引,每个文本特征向量索引对应一个文本,每个文本特征向量索引包括所述文本在所述文本库中的编号和所述文本的特征向量;
基于所述预训练的语义相似度计算模型中的问题编码器以及所述文本特征向量索引库,计算文本库中各个文本与各优化训练样本问题的语义相似度。
可选地,在确定所述优化训练样本问题的负样本的第三标签之前,所述方法还包括:
获取所述优化训练样本问题的正样本;
以所述优化训练样本问题与所述优化训练样本问题的正样本的语义相似度趋近于所述第一标签,以所述优化训练样本问题与所述优化训练样本问题的负样本的相似度趋近于所述第二标签为训练目标,对智能问答模型的检索模型进行训练。
可选地,所述确定所述优化训练样本问题的负样本的第三标签,包括:
将所述智能问答模型的检索模型在训练结束时,输出的所述优化训练样本问题与所述优化训练样本问题的负样本的相似度,作为所述优化训练样本问题的负样本的第三标签。
可选地,在确定所述优化训练样本问题的负样本的第三标签之前,所述方法还包括:
获取所述优化训练样本问题的正样本;
确定所述优化训练样本问题的答案的位置标签;
以所述优化训练样本问题的正样本中包含所述优化训练样本问题的答案的概率趋近于所述第一标签,以所述优化训练样本问题的负样本中包含所述优化训练样本问题的答案的概率趋近于所述第二标签,且所述优化训练样本问题的答案的位置趋近于所述优化训练样本问题的答案的位置标签为训练目标,对智能问答模型的检索模型进行训练。
可选地,所述确定所述优化训练样本问题的负样本的第三标签,包括:
将所述智能问答模型的问答模型在训练结束时,输出的所述优化训练样本问题的负样本中包含所述优化训练样本问题的答案的概率,作为所述优化训练样本问题的负样本的第三标签。
可选地,在确定所述样本问题的负样本之后,所述方法还包括:
利用所述样本问题的负样本检测智能问答模型的检索模型和/或问答模型的鲁棒性。
一种智能问答模型训练方法,所述方法包括:
获取训练样本,所述训练样本包括样本问题、所述样本问题的正样本以及所述样本问题的负样本,其中,所述样本问题的负样本是基于如上所述的负样本确定方法得到的;
确定所述样本问题的正样本的标签,以及,所述样本问题的负样本的标签;
以所述样本问题与所述样本问题的正样本的相似度趋近于所述样本问题的正样本的标签,所述样本问题与所述样本问题的负样本的相似度趋近于所述样本问题的负样本的标签对所述智能问答模型的检索模型和/或问答模型进行训练,得到所述智能问答模型。
一种负样本确定装置,所述装置包括:
获取单元,用于获取待确定负样本的样本问题以及所述样本问题对应的文本库;
计算单元,用于计算文本库中各个文本与所述样本问题的语义相似度;
样本文本集合确定单元,用于从所述文本库中确定样本文本集合,所述样本文本集合中包括排名靠前的预设数量个语义相似度对应的文本;
负样本确定单元,用于将所述样本文本集合中除去包含所述样本问题的答案的样本文本后的剩余样本文本,确定为所述样本问题的负样本。
可选地,所述计算单元,包括:
样本问题编码单元,用于将所述样本问题输入语义相似度计算模型的问题编码器,所述问题编码器对所述样本问题进行编码,得到所述样本问题的特征向量;
文本编码单元,用于将所述文本库中的各个文本输入所述语义相似度计算模型的文本编码器,所述文本编码器对所述文本库中的各个文本进行编码,得到所述文本库中各个文本的特征向量;
语义相似度计算单元,用于利用所述语义相似度计算模型的计算模块计算所述文本库中各个文本的特征向量,与所述样本问题的特征向量的相似度,作为所述文本库中各个文本与所述样本问题的语义相似度。
可选地,所述装置还包括:语义相似度计算模型训练单元;
所述语义相似度计算模型训练单元包括:
预训练数据集确定单元,用于确定预训练数据集,所述预训练数据集中包括多个预训练数据,每个预训练数据包括一个样本问题、所述样本问题的正样本以及所述样本问题的负样本;
第一确定单元,用于确定所述样本问题的正样本的第一标签,所述样本问题的负样本的第二标签;
预训练单元,用于以每个样本问题与所述样本问题的正样本的语义相似度趋近于所述第一标签,以所述样本问题与所述样本问题的负样本的语义相似度趋近于所述第二标签为训练目标,对所述语义相似度计算模型进行预训练,得到预训练的语义相似度计算模型;
优化训练单元,用于对所述预训练的语义相似度计算模型的问题编码器进行优化训练,得到所述语义相似度计算模型。
可选地,所述优化训练单元,包括:
优化训练样本问题获取单元,用于获取优化训练样本问题;
计算子单元,用于基于所述预训练的语义相似度计算模型,计算文本库中各个文本与各优化训练样本问题的语义相似度;
负样本确定子单元,用于基于文本库中各个文本与各优化训练样本问题的语义相似度,从所述文本库中确定各优化训练样本问题的负样本;
第二确定单元,用于确定所述优化训练样本问题的负样本的第三标签,所述第三标签用于表征所述优化训练样本问题的负样本被确定为包含所述优化训练样本问题的答案的样本的概率;
优化训练子单元,用于以每个优化训练样本问题与所述优化训练样本问题的负样本的相似度趋近于所述第三标签为训练目标,对所述预训练的语义相似度计算模型进行优化训练。
可选地,所述计算子单元,包括:
文本特征向量索引库生成单元,用于将所述文本库中各文本输入所述预训练的语义相似度计算模型中的文本编码器进行编码,生成文本特征向量索引库,所述文本特征向量索引库中包括多个文本特征向量索引,每个文本特征向量索引对应一个文本,每个文本特征向量索引包括所述文本在所述文本库中的编号和所述文本的特征向量;
语义相似度计算子单元,用于基于所述预训练的语义相似度计算模型中的问题编码器以及所述文本特征向量索引库,计算文本库中各个文本与各优化训练样本问题的语义相似度。
可选地,所述装置还包括:
第一正样本获取单元,用于在确定所述优化训练样本问题的负样本的第三标签之前,获取所述优化训练样本问题的正样本;
检索模型训练单元,用于以所述优化训练样本问题与所述优化训练样本问题的正样本的语义相似度趋近于所述第一标签,以所述优化训练样本问题与所述优化训练样本问题的负样本的相似度趋近于所述第二标签为训练目标,对智能问答模型的检索模型进行训练。
可选地,所述第二确定单元,具体用于:
将所述智能问答模型的检索模型在训练结束时,输出的所述优化训练样本问题与所述优化训练样本问题的负样本的相似度,作为所述优化训练样本问题的负样本的第三标签。
可选地,所述装置还包括:
第二正样本获取单元,用于在确定所述优化训练样本问题的负样本的第三标签之前,获取所述优化训练样本问题的正样本;
答案的位置标签确定单元,用于确定所述优化训练样本问题的答案的位置标签;
检索模型训练单元,用于以所述优化训练样本问题的正样本中包含所述优化训练样本问题的答案的概率趋近于所述第一标签,以所述优化训练样本问题的负样本中包含所述优化训练样本问题的答案的概率趋近于所述第二标签,且所述优化训练样本问题的答案的位置趋近于所述优化训练样本问题的答案的位置标签为训练目标,对智能问答模型的检索模型进行训练。
可选地,所述第二确定单元,具体用于:
将所述智能问答模型的问答模型在训练结束时,输出的所述优化训练样本问题的负样本中包含所述优化训练样本问题的答案的概率,作为所述优化训练样本问题的负样本的第三标签。
可选地,所述装置还包括:
检测单元,用于在确定所述样本问题的负样本之后,利用所述样本问题的负样本检测智能问答模型的检索模型和/或问答模型的鲁棒性。
一种负样本确定设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的负样本确定方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的负样本确定方法的各个步骤。
一种智能问答模型训练装置,所述装置包括:
训练样本获取单元,用于获取训练样本,所述训练样本包括样本问题、所述样本问题的正样本以及所述样本问题的负样本,其中,所述样本问题的负样本是基于如上所述的负样本确定方法得到的;
标签确定单元,用于确定所述样本问题的正样本的标签,以及,所述样本问题的负样本的标签;
训练单元,用于以所述样本问题与所述样本问题的正样本的相似度趋近于所述样本问题的正样本的标签,所述样本问题与所述样本问题的负样本的相似度趋近于所述样本问题的负样本的标签对所述智能问答模型的检索模型和/或问答模型进行训练,得到所述智能问答模型。
借由上述技术方案,本申请公开了一种负样本确定方法、相关设备及可读存储介质,基于文本库中各个文本与样本问题的语义相似度,便能够从文本库中,确定与样本问题的语义相似度高,但不包含所述样本问题的答案的文本作为样本问题的负样本。基于该方法确定的负样本与样本问题的语义相似度高,但不包含所述样本问题的答案,对样本问题的迷惑性强。
进一步的,将基于上述方法确定的负样本用于训练智能问答系统中的检索模型和问答模型,能够提升训练效果。而且,将基于上述方法确定的负样本用于测试智能问答系统中的检索模型和问答模型的鲁棒性时,相对于采用现有技术确定的对抗样本,效果更好。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了得到迷惑性较强的负样本,并用以训练智能问答系统中的检索模型和问答模型,以提升训练效果,本案发明人进行研究发现,对抗样本是指在数据集中故意添加细微的干扰所形成的,导致机器学习模型以高置信度输出错误结果的输入样本。目前,为了测试智能问答系统中的检索模型和问答模型鲁棒性,已经能够生成样本问题的对抗样本。具体的,用来测试智能问答系统的样本问题的对抗样本的生成方法常用的有两种,一种是使用启发式规则的方法,比如,将一个文本末尾加入一个与样本问题有较多词汇重叠的句子来生成样本问题的对抗样本。另一种是改写的方法,比如,通过增加、删除、交换、替换文本中的字符或单词来生成样本问题的对抗样本等。
基于以上,本案发明人起初的思路为:使用上述方法生成的样本问题的对抗样本作为样本问题的负样本,用以训练智能问答系统中的检索模型和问答模型。
但是,通过上述方法生成的样本问题的对抗样本通常存在各种错误,比如,语义不连贯错误、词序错误、拼写错误等,用其作为样本问题的负样本训练智能问答系统中的检索模型和问答模型,会很容易被检索模型和问答模型识别出来,迷惑性较差,无法提升训练效果,甚至还可能使检索模型和问答模型学习到错误的数据分布,反而会导致训练效果的下降。
鉴于上述思路存在的问题,本案发明人进行了深入研究发现,对样本问题来说,质量较好的负样本,通常是语义流畅,与问题高度相关,但不包含问题答案的样本。基于此,本案发明人提出了一种负样本确定方法,该方法基于文本库中各个文本与样本问题的语义相似度,便能够从文本库中,确定与样本问题的语义相似度高,但不包含所述样本问题的答案的文本作为样本问题的负样本。基于该方法确定的负样本与样本问题的语义相似度高,但不包含所述样本问题的答案,迷惑性强,而且,基于该方法确定的负样本无需对文本库中的文本进行修改,出现各种错误的概率降低。进一步地,将基于上述方法确定的负样本用于训练智能问答系统中的检索模型和问答模型,能够提升训练效果。而且,将基于上述方法确定的负样本用于测试智能问答系统中的检索模型和问答模型的鲁棒性时,相对于采用现有技术确定的对抗样本,效果更好。
接下来,通过下述实施例对本申请提供的负样本确定方法进行介绍。
参照图1,图1为本申请实施例公开的负样本确定方法的流程示意图,该方法可以包括:
步骤S101:获取待确定负样本的样本问题以及所述样本问题对应的文本库。
在本申请中,待确定负样本的样本问题可以为各种智能问答场景下,用户可能提出的问题,也可以为用于训练智能问答系统(如开放域问答系统、垂直领域问答系统等)的检索模型和/或问答模型的训练数据集中的样本问题,对此,本申请不进行任何限定。在本申请中,文本库可以为各种智能问答场景下的文本库,比如,开放域问答场景下,文本库可以为互联网的海量文本数据组成的数据库。对此,本申请不进行任何限定。需要说明的是,不同智能问答场景下,样本问题不同,对应的文本库也不相同。
步骤S102:计算所述文本库中各个文本与所述样本问题的语义相似度。
在本申请中,文本库中各个文本与所述样本问题的语义相似度用于表征文本库中各个文本与所述样本问题的语义相似性。在本申请中,可以基于神经网络模型计算所述文本库中各个文本与所述样本问题的语义相似度,具体将通过后面的实施例详细说明。
步骤S103:从所述文本库中确定样本文本集合,所述样本文本集合中包括排名靠前的预设数量个语义相似度对应的文本。
在本申请中,在计算文本库中各个文本与所述样本问题的语义相似度后,可以对各语义相似度进行降序排序,得到排名靠前的预设数量个语义相似度,从所述文本库中获取排名靠前的预设数量个语义相似度对应的文本即可得到样本文本集合。
步骤S104:将所述样本文本集合中除去包含所述样本问题的答案的样本文本后的剩余样本文本,确定为所述样本问题的负样本。
需要说明的是,包含样本问题的答案的文本与样本问题的语义相似度一般较高,因此,在排名靠前的预设数量个语义相似度对应的文本中,通常包括包含所述样本问题的答案的文本,而包含样本问题的答案的文本可以作为样本问题的正样本,因此,在本申请中,将所述样本文本集合中除去包含所述样本问题的答案的样本文本后的剩余样本文本,确定为所述样本问题的负样本。
作为一种可实施方式,在本申请中,可以对所述样本问题和所述样本文本集合中各样本文本进行字符串匹配的方式确定出包含样本问题答案的样本文本,具体的,所述样本文本集合中与所述样本问题的字符串匹配成功的样本文本为包含所述样本问题的答案的样本文本。当然,也可以采用神经网络的方式实现,对此,本申请不进行任何限定。
本实施例公开了一种负样本确定方法,该方法基于文本库中各个文本与样本问题的语义相似度,便能够从文本库中,确定与样本问题的语义相似度高,但不包含所述样本问题的答案的文本作为样本问题的负样本。基于该方法确定的负样本与样本问题的语义相似度高,但不包含所述样本问题的答案,迷惑性强,而且,基于该方法确定的负样本无需对文本库中的文本进行修改,出现各种错误的概率降低。
因此,将基于上述方法确定的负样本用于训练智能问答系统中的检索模型和问答模型,能够提升训练效果。而且,将基于上述方法确定的负样本用于测试智能问答系统中的检索模型和问答模型的鲁棒性时,相对于采用现有技术确定的对抗样本,效果更好。
参照图2,图2为本申请实施例公开的智能问答系统中的检索模型的结构示意图,如图2所示,智能问答系统中的检索模型包括问题编码器、文本编码器、计算模块和检索模块,问题编码器和文本编码器的结构相同。作为一种可实施方式,问题编码器和文本编码器均可使用预训练的双向文本编码器(Bidirectional Encoder Representations fromTransformers,BERT)。BERT模型由24层Transformer层堆叠而成,每一个输入的单词都被表示为长度为特定值(比如,1024维)的特征向量。每一层的Transformer层的输入和输出均为长度为特定值(比如,1024维)的特征向量。在经过每一层Transformer计算后,每个单词的特征向量表示中将包含更多的上下文信息。对于使用预训练的BERT模型的问题编码器来说,其[CLS]位的输出特征向量可作为用户输入的问题的特征向量,对于使用预训练的BERT模型的样本文本编码器来说,其[CLS]位的输出特征向量可作为文本库中的每个文本的特征向量示。
对于一个给定的用户输入的问题,其中问题编码器用于将输入的问题编码为一个特征向量。同样的,文本编码器用于对文本库中的每个文本进行编码并得到各自的特征向量。计算模块基于问题的特征向量和文本的特征向量计算问题和文本的语义相似度,检索模块基于各相似度,即可检索出与问题相关的文本。
在本申请中,可以基于图2所示的智能问答系统中的检索模型的结构构建语义相似度计算模型,并对语义相似度计算模型进行训练,由训练后的语义相似度计算模型执行步骤S102,下面将通过以下实施例详细说明。
参照图3,图3为本申请实施例公开的一种语义相似度计算模型的结构示意图,该语义相似度计算模型可以包括问题编码器、文本编码器和计算模块。基于图3所示的语义相似度计算模型,作为一种可实施方式,所述计算文本库中各个文本与所述样本问题的语义相似度的过程可以包括如下步骤:
步骤S201:将所述样本问题输入语义相似度计算模型的问题编码器,所述问题编码器对所述样本问题进行编码,得到所述样本问题的特征向量;
步骤S202:将所述文本库中的各个文本输入所述语义相似度计算模型的文本编码器,所述文本编码器对所述文本库中的各个文本进行编码,得到所述文本库中各个文本的特征向量;
步骤S203:所述语义相似度计算模型的计算模块计算所述文本库中各个文本的特征向量,与所述样本问题的特征向量的相似度,作为所述文本库中各个文本与所述样本问题的语义相似度。
在本申请的另一个实施例中,对图3所示的语义相似度计算模型的训练过程进行了详细介绍,该过程可以包括如下步骤:
步骤S301:确定预训练数据集,所述预训练数据集中包括多个预训练数据,每个预训练数据包括一个样本问题、所述样本问题的正样本以及所述样本问题的负样本。
在本申请中,如果样本文本包含所述样本问题的答案,则该样本文本可以认为是样本问题的正样本,如果样本文本不包含所述样本问题的答案,则该样本文本可以认为是样本问题的负样本。
作为一种可实施方式,所述预训练数据可以为智能问答系统中检索模型的训练集中的全部或部分数据,对此,本申请不进行任何限定。
步骤S302:确定所述样本问题的正样本的第一标签,所述样本问题的负样本的第二标签。
在本申请中,所述第一标签与所述第二标签为不同值。比如,所述第一标签可以为1,所述第二标签可以为0。
步骤S303:以每个样本问题与所述样本问题的正样本的语义相似度趋近于所述第一标签,以所述样本问题与所述样本问题的负样本的语义相似度趋近于所述第二标签为训练目标,对所述语义相似度计算模型进行预训练,得到预训练的语义相似度计算模型。
每个样本问题与所述样本问题的正样本的语义相似度即为每个样本问题的特征向量与所述样本问题的正样本的特征向量的相似度,所述样本问题与所述样本问题的负样本的语义相似度即为每个样本问题的特征向量与所述样本问题的负样本的特征向量的相似度。
在对所述语义相似度计算模型进行预训练时,可以使用二元交叉熵作为损失函数,也可以采用其他的损失函数,如均方差损失(MSE)等,对此,本申请不进行任何限定。
步骤S304:对所述预训练的语义相似度计算模型的问题编码器进行优化训练,得到所述语义相似度计算模型。
在本申请的另一个实施例中,对步骤S304对所述预训练的语义相似度计算模型的问题编码器进行优化训练,得到所述语义相似度计算模型,包括:
步骤S401:获取优化训练样本问题。
在本申请中,优化训练样本问题可以预训练数据集中的部分或全部样本问题,也可以为未包含在预训练数据集中的样本问题,对此本申请实施例不进行任何限定。
步骤S402:基于所述预训练的语义相似度计算模型,计算文本库中各个文本与各优化训练样本问题的语义相似度;
在本申请中,作为一种可实施方式,基于所述预训练的语义相似度计算模型,计算文本库中各个文本与各优化训练样本问题的语义相似度的实现过程可以如下:
针对每个优化训练样本问题,将该优化训练样本问题输入预训练的语义相似度计算模型的问题编码器,问题编码器对该优化训练样本问题进行编码,得到该优化训练样本问题的特征向量;
将文本库中的各个文本输入预训练的语义相似度计算模型的文本编码器,得到文本库中各个文本的特征向量;
由预训练的语义相似度计算模型中的计算模块计算出该优化训练样本问题与文本库中的各个文本的语义相似度。
但是,优化训练样本问题有多个,针对每个优化训练样本问题,均需要与文本库中各文本计算语义相似度,如果针对每个优化训练样本问题,都采用问题编码器对文本库中的各个文本进行编码,则会出现重复计算文本库中各个文本的特征向量的情况。而文本库中包含大量文本,每次计算文本库中各个文本的特征向量将消耗大量的计算资源,重复计算文本库中各个文本的特征向量将造成计算资源的浪费。
为了节省计算资源,在本申请中,作为另一种可实施方式,基于所述预训练的语义相似度计算模型,计算文本库中各个文本与各优化训练样本问题的语义相似度的实现过程可以如下:
步骤S4021:将所述文本库中各文本输入所述预训练的语义相似度计算模型中的文本编码器进行编码,生成文本特征向量索引库,所述文本特征向量索引库中包括多个文本特征向量索引,每个文本特征向量索引对应一个文本,每个文本特征向量索引包括所述文本在所述文本库中的编号和所述文本的特征向量。基于文本库中每个文本特征向量索引,即可快速得到该文本的特征向量,而无需重复计算文本库中该文本的特征向量。
步骤S4022:基于所述预训练的语义相似度计算模型中的问题编码器以及所述文本特征向量索引库,计算文本库中各个文本与各优化训练样本问题的语义相似度。
具体的,请参阅图4,图4为本申请实施例公开的一种基于所述预训练的语义相似度计算模型中的问题编码器以及所述文本特征向量索引库,计算文本库中各个文本与各优化训练样本问题的语义相似度的过程的示意图,由图4可以看出,针对每个优化训练样本问题,将该优化训练样本问题输入预训练的语义相似度计算模型的问题编码器,问题编码器对该优化训练样本问题进行编码,得到该优化训练样本问题的特征向量;从文本特征向量索引库中获取文本库中各个文本的特征向量,并用于计算文本库中各个文本与各优化训练样本问题的语义相似度。
步骤S403:基于文本库中各个文本与各优化训练样本问题的语义相似度,从所述文本库中确定各优化训练样本问题的负样本。
在本申请中,针对每个优化训练样本问题,可以从所述文本库中确定所述优化训练样本问题样本文本集合,所述样本文本集合中包括排名靠前的预设数量个语义相似度对应的文本;
将所述优化训练样本问题样本文本集合中除去包含所述优化训练样本问题的答案的样本文本后的剩余样本文本,确定为所述优化训练样本问题的负样本。
需要说明的是,针对基于所述预训练的语义相似度计算模型中的问题编码器以及所述文本特征向量索引库,计算文本库中各个文本与各优化训练样本问题的语义相似度的情况,针对每个优化训练样本问题,从所述文本库中确定所述优化训练样本问题样本文本集合的具体方式可以如下:
基于文本特征向量索引库确定出目标编号集合,所述目标编号集合中包括排名靠前的预设数量个语义相似度对应的文本的特征向量对应的编号,从所述文本库中请求与所述目标编号集合对应的文本集合,作为所述优化训练样本问题对应的样本文本集合。
步骤S404:确定所述优化训练样本问题的负样本的第三标签,所述第三标签用于表征所述优化训练样本问题的负样本被确定为包含所述优化训练样本问题的答案的样本的概率。
作为一种可实施方式,可以获取所述优化训练样本问题的正样本;以所述优化训练样本问题与所述优化训练样本问题的正样本的语义相似度趋近于所述第一标签,以所述优化训练样本问题与所述优化训练样本问题的负样本的相似度趋近于所述第二标签为训练目标,对智能问答模型的检索模型进行训练。则,确定所述优化训练样本问题的负样本的第三标签,可以包括:
将所述智能问答模型的检索模型在训练结束时,输出的所述优化训练样本问题与所述优化训练样本问题的负样本的相似度,作为所述优化训练样本问题的负样本的第三标签。
在对检索模型进行训练时,每一个所述优化训练样本问题的负样本与所述优化训练样本问题的相似度都可以看作是对于该负样本“难度”的一种反馈。举例来说,相似度的取值范围为(0,1),若某一优化训练样本问题的负样本的得分较高(如0.9),意味着其非常成功的误导了检索模型,因此很自然的认为该负样本是一个具有较高迷惑性的对抗样本。与之相反,若一个负样本得分很低(如0.1),则意味着检索模型以非常高的置信度认为该负样本确实与问题无关,因此可以认为该负样本是较差的负样本,没有迷惑性。因此,所述智能问答模型的检索模型在训练结束时,输出的所述优化训练样本问题与所述优化训练样本问题的负样本的相似度可以作为监督信号,用于对预训练的语义相似度计算模型进行优化训练。
作为另一种可实施方式,可以获取所述优化训练样本问题的正样本;确定所述优化训练样本问题的答案的位置标签;以所述优化训练样本问题的正样本中包含所述优化训练样本问题的答案的概率趋近于所述第一标签,以所述优化训练样本问题的负样本中包含所述优化训练样本问题的答案的概率趋近于所述第二标签,且所述优化训练样本问题的答案的位置趋近于所述优化训练样本问题的答案的位置标签为训练目标,对智能问答模型的检索模型进行训练。则,确定所述优化训练样本问题的负样本的第三标签,可以包括:
将所述智能问答模型的问答模型在训练结束时,输出的所述优化训练样本问题的负样本中包含所述优化训练样本问题的答案的概率,作为所述优化训练样本问题的负样本的第三标签。
需要说明的是,对于一个难度较大的负样本,问答模型将会比较容易被误导并认为该负样本有很大概率是正样本(如
),而对于比较差的负样本,问答模型将很容易判定该负样本与问题无关(如
)。因此,在本申请中,可以使用问答模型给出的各个负样本包含所述优化训练样本问题的答案的概率作为监督信号,用于对预训练的语义相似度计算模型进行优化训练。
步骤S405:以每个优化训练样本问题与所述优化训练样本问题的负样本的相似度趋近于所述第三标签为训练目标,对所述预训练的语义相似度计算模型进行优化训练。
需要说明的是,针对基于所述预训练的语义相似度计算模型中的问题编码器以及所述文本特征向量索引库,计算文本库中各个文本与各优化训练样本问题的语义相似度的情况,在对所述预训练的语义相似度计算模型进行优化训练时,只对所述预训练的语义相似度计算模型中的问题编码器的参数是可以调整的,所述预训练的语义相似度计算模型中的文本编码器是固定参数,以保证问题编码器生成的优化训练样本问题的特征向量与文本特征向量索引库中各个文本的特征向量之间的相关性。
在本申请的另一个实施例中,基于上述实施例确定所述样本问题的负样本之后,还可以利用所述样本问题的负样本训练智能问答模型。具体的,智能问答模型训练方法可以包括以下步骤:
获取训练样本,所述训练样本包括样本问题、所述样本问题的正样本以及所述样本问题的负样本,其中,所述样本问题的负样本是基于上述实施例所述的负样本确定方法得到的;
确定所述样本问题的正样本的标签,以及,所述样本问题的负样本的标签;
以所述样本问题与所述样本问题的正样本的相似度趋近于所述样本问题的正样本的标签,所述样本问题与所述样本问题的负样本的相似度趋近于所述样本问题的负样本的标签对所述智能问答模型的检索模型和/或问答模型进行训练,得到所述智能问答模型。
需要说明的是,基于上述实施例确定所述样本问题的负样本迷惑性强,因此,将其用于训练智能问答系统中的检索模型和/或问答模型,能够提升训练效果。
在本申请的另一个实施例中,基于上述实施例确定所述样本问题的负样本之后,还可以利用所述样本问题的负样本检测智能问答系统的检索模型和/或问答模型的鲁棒性。
以检测智能问答系统的问答模型的鲁棒性为例,可以先使用智能问答系统的检索模型检出的文本作为问答模型的输入,得到问答模型输出的第一结果,再使用所述样本问题的负样本作为问答模型的输入,得到问答模型输出的第二结果,比较两次结果的预设评价指标,如,精确匹配率(ExactMatch,EM)、F1得分等,确定其下降值,如果其下降值小于预设阈值,则说明问答模型的鲁棒性好,否则,则说明问答模型的鲁棒性差。
需要说明的是,基于上述实施例确定所述样本问题的负样本迷惑性强,因此,将其用于检测智能问答系统的检索模型和/或问答模型的鲁棒性时,效果更好。
下面对本申请实施例公开的负样本确定装置进行描述,下文描述的负样本确定装置与上文描述的负样本确定方法可相互对应参照。
参照图5,图5为本申请实施例公开的一种负样本确定装置结构示意图。如图5所示,该负样本确定装置可以包括:
获取单元51,用于获取待确定负样本的样本问题以及所述样本问题对应的文本库;
计算单元52,用于计算文本库中各个文本与所述样本问题的语义相似度;
样本文本集合确定单元53,用于从所述文本库中确定样本文本集合,所述样本文本集合中包括排名靠前的预设数量个语义相似度对应的文本;
负样本确定单元54,用于将所述样本文本集合中除去包含所述样本问题的答案的样本文本后的剩余样本文本,确定为所述样本问题的负样本。
作为一种可实施方式,所述计算单元,包括:
样本问题编码单元,用于将所述样本问题输入语义相似度计算模型的问题编码器,所述问题编码器对所述样本问题进行编码,得到所述样本问题的特征向量;
文本编码单元,用于将所述文本库中的各个文本输入所述语义相似度计算模型的文本编码器,所述文本编码器对所述文本库中的各个文本进行编码,得到所述文本库中各个文本的特征向量;
语义相似度计算单元,用于利用所述语义相似度计算模型的计算模块计算所述文本库中各个文本的特征向量,与所述样本问题的特征向量的相似度,作为所述文本库中各个文本与所述样本问题的语义相似度。
作为一种可实施方式,所述装置还包括:语义相似度计算模型训练单元;
所述语义相似度计算模型训练单元包括:
预训练数据集确定单元,用于确定预训练数据集,所述预训练数据集中包括多个预训练数据,每个预训练数据包括一个样本问题、所述样本问题的正样本以及所述样本问题的负样本;
第一确定单元,用于确定所述样本问题的正样本的第一标签,所述样本问题的负样本的第二标签;
预训练单元,用于以每个样本问题与所述样本问题的正样本的语义相似度趋近于所述第一标签,以所述样本问题与所述样本问题的负样本的语义相似度趋近于所述第二标签为训练目标,对所述语义相似度计算模型进行预训练,得到预训练的语义相似度计算模型;
优化训练单元,用于对所述预训练的语义相似度计算模型的问题编码器进行优化训练,得到所述语义相似度计算模型。
作为一种可实施方式,所述优化训练单元,包括:
优化训练样本问题获取单元,用于获取优化训练样本问题;
计算子单元,用于基于所述预训练的语义相似度计算模型,计算文本库中各个文本与各优化训练样本问题的语义相似度;
负样本确定子单元,用于基于文本库中各个文本与各优化训练样本问题的语义相似度,从所述文本库中确定各优化训练样本问题的负样本;
第二确定单元,用于确定所述优化训练样本问题的负样本的第三标签,所述第三标签用于表征所述优化训练样本问题的负样本被确定为包含所述优化训练样本问题的答案的样本的概率;
优化训练子单元,用于以每个优化训练样本问题与所述优化训练样本问题的负样本的相似度趋近于所述第三标签为训练目标,对所述预训练的语义相似度计算模型进行优化训练。
作为一种可实施方式,所述计算子单元,包括:
文本特征向量索引库生成单元,用于将所述文本库中各文本输入所述预训练的语义相似度计算模型中的文本编码器进行编码,生成文本特征向量索引库,所述文本特征向量索引库中包括多个文本特征向量索引,每个文本特征向量索引对应一个文本,每个文本特征向量索引包括所述文本在所述文本库中的编号和所述文本的特征向量;
语义相似度计算子单元,用于基于所述预训练的语义相似度计算模型中的问题编码器以及所述文本特征向量索引库,计算文本库中各个文本与各优化训练样本问题的语义相似度。
作为一种可实施方式,所述装置还包括:
第一正样本获取单元,用于在确定所述优化训练样本问题的负样本的第三标签之前,获取所述优化训练样本问题的正样本;
检索模型训练单元,用于以所述优化训练样本问题与所述优化训练样本问题的正样本的语义相似度趋近于所述第一标签,以所述优化训练样本问题与所述优化训练样本问题的负样本的相似度趋近于所述第二标签为训练目标,对智能问答模型的检索模型进行训练。
作为一种可实施方式,所述第二确定单元,具体用于:
将所述智能问答模型的检索模型在训练结束时,输出的所述优化训练样本问题与所述优化训练样本问题的负样本的相似度,作为所述优化训练样本问题的负样本的第三标签。
作为一种可实施方式,所述装置还包括:
第二正样本获取单元,用于在确定所述优化训练样本问题的负样本的第三标签之前,获取所述优化训练样本问题的正样本;
答案的位置标签确定单元,用于确定所述优化训练样本问题的答案的位置标签;
检索模型训练单元,用于以所述优化训练样本问题的正样本中包含所述优化训练样本问题的答案的概率趋近于所述第一标签,以所述优化训练样本问题的负样本中包含所述优化训练样本问题的答案的概率趋近于所述第二标签,且所述优化训练样本问题的答案的位置趋近于所述优化训练样本问题的答案的位置标签为训练目标,对智能问答模型的检索模型进行训练。
作为一种可实施方式,所述第二确定单元,具体用于:
将所述智能问答模型的问答模型在训练结束时,输出的所述优化训练样本问题的负样本中包含所述优化训练样本问题的答案的概率,作为所述优化训练样本问题的负样本的第三标签。
作为一种可实施方式,所述装置还包括:
检测单元,用于在确定所述样本问题的负样本之后,利用所述样本问题的负样本检测智能问答模型的检索模型和/或问答模型的鲁棒性。
参照图6,图6为本申请实施例提供的负样本确定设备的硬件结构框图,参照图6,负样本确定设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待确定负样本的样本问题以及所述样本问题对应的文本库;
计算文本库中各个文本与所述样本问题的语义相似度;
从所述文本库中确定样本文本集合,所述样本文本集合中包括排名靠前的预设数量个语义相似度对应的文本;
将所述样本文本集合中除去包含所述样本问题的答案的样本文本后的剩余样本文本,确定为所述样本问题的负样本。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该存储介质可存储有适于处理器执行的计算机程序,所述计算机程序用于:
获取待确定负样本的样本问题以及所述样本问题对应的文本库;
计算文本库中各个文本与所述样本问题的语义相似度;
从所述文本库中确定样本文本集合,所述样本文本集合中包括排名靠前的预设数量个语义相似度对应的文本;
将所述样本文本集合中除去包含所述样本问题的答案的样本文本后的剩余样本文本,确定为所述样本问题的负样本。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种智能问答模型训练装置,所述装置包括:
训练样本获取单元,用于获取训练样本,所述训练样本包括样本问题、所述样本问题的正样本以及所述样本问题的负样本,其中,所述样本问题的负样本是基于上述实施例中所述的负样本确定方法得到的;
标签确定单元,用于确定所述样本问题的正样本的标签,以及,所述样本问题的负样本的标签;
训练单元,用于以所述样本问题与所述样本问题的正样本的相似度趋近于所述样本问题的正样本的标签,所述样本问题与所述样本问题的负样本的相似度趋近于所述样本问题的负样本的标签对所述智能问答模型的检索模型和/或问答模型进行训练,得到所述智能问答模型。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。