CN114547267A - 智能问答模型的生成方法、装置、计算设备和存储介质 - Google Patents

智能问答模型的生成方法、装置、计算设备和存储介质 Download PDF

Info

Publication number
CN114547267A
CN114547267A CN202210162095.1A CN202210162095A CN114547267A CN 114547267 A CN114547267 A CN 114547267A CN 202210162095 A CN202210162095 A CN 202210162095A CN 114547267 A CN114547267 A CN 114547267A
Authority
CN
China
Prior art keywords
question
data set
sample
sample data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210162095.1A
Other languages
English (en)
Inventor
刘军平
梅世杰
胡新荣
姚迅
杨捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Textile University
Original Assignee
Wuhan Textile University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Textile University filed Critical Wuhan Textile University
Priority to CN202210162095.1A priority Critical patent/CN114547267A/zh
Publication of CN114547267A publication Critical patent/CN114547267A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种智能问答模型的生成方法,包括:扩充原始样本数据集以使存在与所述原始样本数据集中问题对应的正样本,生成新样本数据集;将生成的新样本数据集输入到现有问答模型中,所述现有问答模型从新样本数据集中的知识库和文档中获取与问题相关的特征编码,并计算现有问答模型的损失Lqa;将获得的特征编码加入到改进的对比学习模型中,分别计算出真样本与新样本数据集中的困难正、负样本之间的相似度,得出对比损失Lcl;将现有问答模型的损失Lqa和对比损失Lcl进行结合,得到最终问答模型的损失L,并训练最终问答模型。本发明在现有问答模型加入对比学习模型,模型泛化能力更强,同时在知识库问答取得的效果相比于传统的方法更好。

Description

智能问答模型的生成方法、装置、计算设备和存储介质
技术领域
本发明涉及自然语言处理领域,特别涉及一种智能问答模型的生成方法、装置、计算设备和可存储介质。
背景技术
在基于自然语言的问答系统中,知识库是回答事实问题的必要资源,知识库又可以被称为知识图谱,在各大浏览器和推荐算法上得以应用广泛,比如谷歌浏览器有GoogleKnowledge Graph,微软的Bing搜索有Bing Satori,百度的百度知识图谱,以及在推荐系统Facebook中的Facebook Social Graph和淘宝中的Alicoco等等。
知识库中往往包含了很多三元组信息,每条三元组信息都描述着一个事实,一般三元组的形式表示包括两种形式:(头实体,关系,尾实体)和(实体,属性,值)。以第一种形式为例,“中国的首都是北京”这个自然语言中,用三元组的形式可以表达为(中国,首都,北京)。
随着互联网技术的高速发展,知识库的信息也呈现出爆炸式的增长趋势。目前在互联网领域的知识库问答模型中,用户一般是通过自然语言的方式提出问题并输入知识库问答模型,问答模型对用户提出的问题进行语义分析和输出,然后利用知识库中的信息进行查询和匹配,进而给出答案。
然而,目前基于知识库问答模型对于知识库信息的理解并不深入,即知识库中可能缺乏关键性的,能用于正确回答问题的知识,导致问答模型的答案准确率较低,问答模型有待于进一步提升。
发明内容
本发明实施例的目的是提供一种智能问答模型的生成方法、装置、终端设备和可存储介质,解决知识库问答中的精确度问题。
为了实现前述发明目的,本发明实施例提供的技术方案如下:
第一方面,本发明实施例提供了一种智能问答模型的生成方法,所述方法包括:
扩充原始样本数据集以使存在与所述原始样本数据集中问题对应的正样本,生成新样本数据集,其中所述正样本定义为原始样本数据集答案相同的问题,原始样本数据集答案不相同的问题定义为负样本;
将生成的新样本数据集输入到现有问答模型中,所述现有问答模型从新样本数据集中的知识库和文档中获取与问题相关的特征编码,并计算现有问答模型的损失Lqa
将获得的特征编码加入到改进的对比学习模型中,分别计算出真样本与新样本数据集中的困难正、负样本之间的相似度,得出对比损失Lcl
采用线性融合将现有问答模型的损失Lqa和对比损失Lcl进行结合,得到最终问答模型的损失L,并训练得到所述最终问答模型。
具体的,所述扩充原始样本数据集以使存在与所述原始样本数据集中问题对应的正样本,生成新样本数据集具体包括:
根据原始样本数据集中的问题和知识库三元组信息,生成与原始样本数据集中的问题对应的正样本,其中将原始样本数据集中答案相同的问题定义为正样本,答案不同的定义为负样本;
针对每一条数据样本生成三条正样本,得到新样本数据集,其中,原始样本数据集为公共的问答数据集WebQuestionSP。
具体的,所述现有问答模型从新样本数据集中的知识库和文档中获取与问题相关的特征编码具体包括:
现有问答模型对问题、知识库三元组信息和文档信息分别进行编码,分别得到它们的语义表达q,KBi和docj,其中,KBi表示知识库中第i个子图的语义表达,i=1,2,..,lkb,lkb表示知识库中子图的总数;docj表示文档中第j个子图的语义表达,j=1,2,..,ldoc,ldoc表示文档的总数;
利用LSTM注意力编码器对问题进行编码,获得问题特征向量
Figure BDA0003514371530000031
获得知识库的实体特征向量和文档的实体特征向量;
根据知识库的实体特征向量和文档的实体特征向量获得与问题相关的实体特征向量ent;
将所述问题特征向量
Figure BDA0003514371530000032
实体特征向量ent作为特征编码。
具体的,所述将获得的正样本利用动量更新编码器进行编码,具体包括:
将原始样本数据集标记为真样本xquery,计算所述真样本xquery的特征向量query,其中
Figure BDA0003514371530000033
将扩充的三条正样本数据标记为
Figure BDA0003514371530000034
计算正样本的特征向量(k1,k2,k3),其中,
Figure BDA0003514371530000035
Figure BDA0003514371530000036
θk←mθk+(1-m)θq,m∈[0,1)
其中fq=encoder,fk=moment encoder为现有问答模型和动量更新编码器,前者模型参数θq采用反向传播更新,后者模型参数θk采用动量更新方程,m为动量更新参数。
具体的,所述将获得的特征编码加入到改进的对比学习模型中,分别计算出真样本与新样本数据集中的困难正、负样本之间的相似度,得出对比损失Lcl,之后采用线性融合将现有问答模型的损失Lqa和对比损失Lcl进行结合,得到最终问答模型的损失L具体包括:
定义一个负样本队列Zneg={z1,z2,...,zK},其中zi表示样本数据集中的第i个负样本,K表示负样本队列的个数。
具体来说,困难正样本向量khard是所有正样本中和真样本最不相似的样本。这里本发明实施例提出了一种正推法来获取困难正样本,该方法通过计算真样本与正样本之间的余弦相似度,并最终提取相似度最小的正样本作为khard
Figure BDA0003514371530000041
对于负样本向量,本发明实施例提出了一种新的方法(负融法),即将正样本和真样本进行线性融合后形成新的困难负样本向量
Figure BDA0003514371530000042
然后更新进负样本队列Zneg。具体公式表示如下:
Figure BDA0003514371530000043
其中,λ表示分配权重。
与提取困难正样本相反,困难负样本队列
Figure BDA0003514371530000044
是所有负样本队列Zneg中与真样本最相似的那一部分样本。首先对Zneg按照负样本和真样本的相似度进行从大到小的排序,即:||query||||zi||>||query||||zj||,(i<j),之后只抽取Top-K个相似度最大的负样本来组成
Figure BDA0003514371530000045
满足:
Figure BDA0003514371530000046
其中λneg是一个人为设定的超参。通过实验发现λneg=0.95时的
Figure BDA0003514371530000047
可以达到与完整的Zneg相同甚至更好的实验效果,而本发明实施例的困难负样本队列个数仅为2000,该个数远远小于K。
根据上面得到的困难负样本队列向量
Figure BDA0003514371530000051
和困难正样本向量khard,本发明实施例再提出如下改进后的对比损失函数Lcl
Figure BDA0003514371530000052
最终的模型损失函数L,
L=λqaLqaclLcl
其中,τ为一个常数,λqa和λcl分别表示问答模型和对比模型的损失权重。
第二方面,本发明实施例提供了一种智能问答模型的生成装置,所述装置包括:
样本集生成模块,用于扩充原始样本数据集以使存在与所述原始样本数据集中问题对应的正样本,生成新样本数据集,其中所述正样本定义为原始样本数据集答案相同的问题,原始样本数据集答案不相同的问题定义为负样本;
编码模块,用于将生成的新样本数据集输入到现有问答模型中,所述现有问答模型从新样本数据集中的知识库和文档中获取与问题相关的特征编码,并计算现有问答模型的损失Lqa
对比模块,用于将获得的特征编码加入到改进的对比学习模型中,分别计算出真样本与新样本数据集中的困难正、负样本之间的相似度,得出对比损失Lcl
训练模块,用于采用线性融合将现有问答模型的损失Lqa和对比损失Lcl进行结合,得到最终问答模型的损失L,并训练得到所述最终问答模型。
优选的,所述编码模块具体包括:
第一编码单元,用于现有问答模型对问题、知识库三元组信息和文档信息分别进行编码,分别得到它们的语义表达q,KBi和docj,其中,KBi表示知识库中第i个子图的语义表达,i=1,2,..,lkb,这里lkb表示知识库中子图的总数;docj表示文档中第j个子图的语义表达,j=1,2,..,ldoc,ldoc表示文档的总数;
第二编码单元,用于利用LSTM注意力编码器对问题进行编码,获得问题特征向量
Figure BDA0003514371530000061
第一向量获取单元,用于获得知识库的实体特征向量和文档的实体特征向量;
第二向量获取单元,用于根据知识库的实体特征向量和文档的实体特征向量获得与问题相关的实体特征向量ent,将所述问题特征向量
Figure BDA0003514371530000062
实体特征向量ent作为特征编码。
第三方面,本发明实施例提供了一种计算设备,所述计算设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如前所述的智能问答模型的生成方法.
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如前所述的智能问答模型的生成方法。
本发明实施例在现有问答模型加入对比学习模型,使得新的问答模型的模型泛化能力更强,而且传统的对比学习在更新负样本队列时只简单地将正样本对已有的负样本进行替代,无法有效地保留困难正负样本,从而导致优化的效率和性能下降,在本发明实施例中针对样本还提出了正推法和负融法,该方法能有效的提取困难正负样本,摒弃了动辄上万的负样本队列(本发明只需要传统负队列的3%个数左右),不仅极大地提高了时间和空间效率,还改进了模型的性能。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,本发明实施例的智能问答模型生成方法、装置、终端设备和可存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1为本发明实施例智能问答模型的生成方法的整体模型框架示意图;
图2为本发明实施例智能问答模型的生成方法的数据扩充示意图;
图3为本发明实施例智能问答模型的生成方法的问答模型示意图;
图4为本发明实施例智能问答模型的生成方法的对比学习模型示意图;
图5为本发明实施例智能问答模型的生成方法的计算设备示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘制了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
为了实现前述发明目的,本发明实施例提供的技术方案如下:
如图1所示,本发明实施例提供了一种智能问答模型的生成方法,所述方法包括:
S1.扩充原始样本数据集以使存在与所述原始样本数据集中问题对应的正样本,生成新样本数据集,其中所述正样本定义为原始样本数据集答案相同的问题,原始样本数据集答案不相同的问题定义为负样本;
S2.将生成的新样本数据集输入到现有问答模型中,所述现有问答模型从新样本数据集中的知识库和文档中获取与问题相关的特征编码,并计算现有问答模型的损失Lqa
S3.将获得的特征编码加入到对比学习模型中,分别计算出真样本与新样本数据集中的正、负样本之间的相似度,得出对比损失Lcl
S4.采用线性融合将现有问答模型的损失Lqa和对比损失Lcl进行结合,得到最终问答模型的损失L,并训练得到所述最终问答模型。
如图2所示,首先进行数据集的扩充,然后传入图3的问答模型中输出问题与相关实体的特征编码,之后将特征编码传入图4的对比模型中,计算出损失函数,并利用图2的问答模型预测最终答案。
首先,扩充原始样本数据集,使得原始样本数据集存在正样本与之对应,其具体为:利用原始样本数据集中的问题和知识库三元组信息,生成与原始样本数据集中的问题对应的正样本,其中将原始样本数据集中答案相同的问题定义为正样本,答案不同的定义为负样本,并且针对每一条数据样本生成三条正样本,得到新的样本数据集,其中,原始样本数据集为公共的问答数据集WebQuestionSP。
将生成的新样本数据集加入到现有问答模型中,所述现有问答模型从新的样本数据集中的知识库和文档中获取与问题相关的特征编码,并计算出现有问答模型的损失,其具体为:
将新的样本数据集输入到现有问答模型中,其中,所述现有问答模型主要包括:基于知识库的问题理解SGReader(·)和基于文档的问题理解KAReader(·);
利用glove模型对问题、知识库三元组信息和文档信息分别进行编码,分别得到它们的语义表达q,KBi和docj,其中,KBi表示知识库中第i个子图的语义表达,i=1,2,..,lkb,这里lkb表示知识库中子图的总数;docj表示文档中第j个子图的语义表达,j=1,2,..,ldoc,ldoc表示文档的总数;
利用LSTM注意力编码器对问题进行编码,获得问题特征向量
Figure BDA0003514371530000091
按照如下公式获得与问题相关的实体特征向量ent、每个实体信息作为答案的概率se和问答模型的损失Lqa
Figure BDA0003514371530000092
ent=[ekb;ed]
Figure BDA0003514371530000093
Lqa=bce(se,answer)
其中,ekb表示知识库的实体特征向量,ed表示文档的实体特征向量,两者拼接形成实体特征向量ent,σs(·)表示激活函数,Ws表示一个训练权重矩阵,bce(·)表示二进制交叉熵函数。
将获得的问题特征向量
Figure BDA0003514371530000094
实体特征向量ent加入到改进的对比学习模型中,分别计算出真样本与新的样本数据集中的困难正、负样本之间的相似度,从而得出对比损失,然后采用线性融合方式将问答模型的损失Lqa和对比损失Lcl结合,得到最终整体模型的损失L并训练模型,最后利用问答模型进行答案预测和生成,其具体步骤为:
将新的样本数据集分开,其中原始样本数据集标记为真样本xquery,扩充的三条正样本数据标记为
Figure BDA0003514371530000095
按照如下公式分别计算出真样本和正样本的特征向量query和(k1,k2,k3),
Figure BDA0003514371530000096
Figure BDA0003514371530000097
Figure BDA0003514371530000098
Figure BDA0003514371530000099
θk←mθk+(1-m)θq,m∈[0,1)
其中fq=encoder,fk=moment encoder为现有问答模型和动量编码器,前者模型参数θq采用反向传播更新,后者模型参数θk采用动量更新方程,m为动量更新参数;真样本特征向量query是由真样本xquery利用问题特征向量
Figure BDA0003514371530000101
和实体特征向量ent拼接而成,同理得到正样本特征向量为(k1,k2,k3)。
定义一个负样本队列Zneg={z1,z2,...,zK},其中zi表示样本数据集中的第i个负样本,K表示负样本队列的个数。传统对比学习方法中K是一个人为设定的超参,一般为60000,但冗长的队列增加了计算和存储成本。相较于传统的对比学习,本发明实施例创新地提出了困难正负样本的概念,并只使用困难正负样本进行对比学习。该方案极大地简化了原有的学习过程,提高了优化效率和模型性能。
具体来说,困难正样本向量khard是所有正样本中和真样本最不相似的样本。这里本发明实施例提出了一种正推法来获取困难正样本,该方法通过计算真样本与正样本之间的余弦相似度,并最终提取相似度最小的正样本作为khard
Figure BDA0003514371530000102
对于负样本向量,本发明实施例提出了一种新的方法(负融法),即将正样本和真样本进行线性融合后形成新的困难负样本向量
Figure BDA0003514371530000103
然后更新进负样本队列Zneg。具体公式表示如下:
Figure BDA0003514371530000104
其中,λ表示分配权重。
与提取困难正样本相反,困难负样本队列
Figure BDA0003514371530000105
是所有负样本队列Zneg中与真样本最相似的那一部分样本。首先对Zneg按照负样本和真样本的相似度进行从大到小的排序,即:||query||||zi||>||query||||zj||,(i<j),之后只抽取Top-K个相似度最大的负样本来组成
Figure BDA0003514371530000111
满足:
Figure BDA0003514371530000112
其中λneg是一个人为设定的超参。通过实验发现λneg=0.95时的
Figure BDA0003514371530000113
可以达到与完整的Zneg相同甚至更好的实验效果,而本发明实施例的困难负样本队列个数仅为2000,该个数远远小于K。
根据上面得到的困难负样本队列向量
Figure BDA0003514371530000114
和困难正样本向量khard,本发明实施例再提出如下改进后的对比损失函数Lcl
Figure BDA0003514371530000115
最终的模型损失函数L,
L=λqaLqaclLcl
其中,τ为一个常数,λqa和λcl分别表示问答模型和对比模型的损失权重。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤将不再赘述。
本发明实施例在公开数据集WebQuestionSP上进行实验。为了客观地评价本发明算法的性能,本发明实施例使用了问答系统中常见的评价标准Hit@1,F1。Hit@1表示答案预测的准确率,F1表示衡量模型的精确度。所得实验结果如表1所示,比对了多个不同程度知识库问答模型的实验结果,其中KDReader为本发明实施例中的问答模型实验效果,Ours为本发明实施例的实验结果。
表1的测试结果反映出,本发明实施例可以有效的学习到知识库三元组的信息,相比于传统问答模型的方法预测答案的效果更好。
表1基于不同程度知识库信息各模型的实验效果比较
Figure BDA0003514371530000121
另一方面,本发明实施例提供了一种智能问答模型的生成装置,所述装置包括:
样本集生成模块,用于扩充原始样本数据集以使存在与所述原始样本数据集中问题对应的正样本,生成新样本数据集,其中所述正样本定义为原始样本数据集答案相同的问题,原始样本数据集答案不相同的问题定义为负样本;
编码模块,用于将生成的新样本数据集输入到现有问答模型中,所述现有问答模型从新样本数据集中的知识库和文档中获取与问题相关的特征编码,并计算现有问答模型的损失Lqa
对比模块,用于将获得的特征编码加入到改进的对比学习模型中,分别计算出真样本与新样本数据集中的困难正、负样本之间的相似度,得出对比损失Lcl
训练模块,用于采用线性融合将现有问答模型的损失Lqa和对比损失Lcl进行结合,得到最终问答模型的损失L,并训练得到所述最终问答模型。
优选的,所述编码模块具体包括:
第一编码单元,用于现有问答模型对问题、知识库三元组信息和文档信息分别进行编码,分别得到它们的语义表达q,KBi和docj,其中,KBi表示知识库中第i个子图的语义表达,i=1,2,..,lkb,这里lkb表示知识库中子图的总数;docj表示文档中第j个子图的语义表达,j=1,2,..,ldoc,ldoc表示文档的总数;
第二编码单元,用于利用LSTM注意力编码器对问题进行编码,获得问题特征向量
Figure BDA0003514371530000131
第一向量获取单元,用于获得知识库的实体特征向量和文档的实体特征向量;
第二向量获取单元,用于根据知识库的实体特征向量和文档的实体特征向量获得与问题相关的实体特征向量ent,将所述问题特征向量
Figure BDA0003514371530000132
实体特征向量ent作为特征编码。
首先,扩充原始样本数据集,使得原始样本数据集存在正样本与之对应,其具体为:利用原始样本数据集中的问题和知识库三元组信息,生成与原始样本数据集中的问题对应的正样本,其中将原始样本数据集中答案相同的问题定义为正样本,答案不同的定义为负样本,并且针对每一条数据样本生成三条正样本,得到新的样本数据集,其中,原始样本数据集为公共的问答数据集WebQuestionSP。
将生成的新样本数据集加入到现有问答模型中,所述现有问答模型从新的样本数据集中的知识库和文档中获取与问题相关的特征编码,并计算出现有问答模型的损失,其具体为:
将新的样本数据集输入到现有问答模型中,其中,所述现有问答模型主要包括:基于知识库的问题理解SGReader(·)和基于文档的问题理解KAReader(·);
利用glove模型对问题、知识库三元组信息和文档信息分别进行编码,分别得到它们的语义表达q,KBi和docj,其中,KBi表示知识库中第i个子图的语义表达,i=1,2,..,lkb,这里lkb表示知识库中子图的总数;docj表示文档中第j个子图的语义表达,j=1,2,..,ldoc,ldoc表示文档的总数;
利用LSTM注意力编码器对问题进行编码,获得问题特征向量
Figure BDA0003514371530000141
按照如下公式获得与问题相关的实体特征向量ent、每个实体信息作为答案的概率se和问答模型的损失Lqa
Figure BDA0003514371530000142
ent=[ekb;ed]
Figure BDA0003514371530000143
Lqa=bce(se,answer)
其中,ekb表示知识库的实体特征向量,ed表示文档的实体特征向量,两者拼接形成实体特征向量ent,σs(·)表示激活函数,Ws表示一个训练权重矩阵,bce(·)表示二进制交叉熵函数。
将获得的问题特征向量
Figure BDA0003514371530000144
实体特征向量ent加入到对比学习模型中,分别计算出真样本与新的样本数据集中的正、负样本之间的相似度,从而得出对比损失,然后采用线性融合方式将问答模型的损失Lqa和对比损失Lcl结合,得到最终整体模型的损失L并训练模型,最后利用问答模型进行答案预测和生成,其具体步骤为:
将新的样本数据集分开,其中原始样本数据集标记为真样本xquery,扩充的三条正样本数据标记为
Figure BDA0003514371530000145
按照如下公式分别计算出真样本和正样本的特征向量query和(k1,k2,k3),
Figure BDA0003514371530000146
Figure BDA0003514371530000147
Figure BDA0003514371530000148
Figure BDA0003514371530000149
θk←mθk+(1-m)θq,m∈[0,1)
其中fq=encoder,fk=moment encoder为现有问答模型和动量编码器,前者模型参数θq采用反向传播更新,后者模型参数θk采用动量更新方程,m为动量更新参数;真样本特征向量query是由真样本xquery利用问题特征向量
Figure BDA0003514371530000151
和实体特征向量ent拼接而成,同理得到正样本特征向量为(k1,k2,k3)。
定义一个负样本队列Zneg={z1,z2,...,zK},其中zi表示样本数据集中的第i个负样本,K表示负样本队列的个数。传统对比学习方法中K是一个人为设定的超参,一般为60000,但冗长的队列增加了计算和存储成本。相较于传统的对比学习,本发明实施例创新地提出了困难正负样本的概念,并只使用困难正负样本进行对比学习。该方案极大地简化了原有的学习过程,提高了优化效率和模型性能。
具体来说,困难正样本向量khard是所有正样本中和真样本最不相似的样本。这里本发明实施例提出了一种正推法来获取困难正样本,该方法通过计算真样本与正样本之间的余弦相似度,并最终提取相似度最小的正样本作为khard
Figure BDA0003514371530000152
对于负样本向量,本发明实施例提出了一种新的方法(负融法),即将正样本和真样本进行线性融合后形成新的困难负样本向量
Figure BDA0003514371530000153
然后更新进负样本队列Zneg。具体公式表示如下:
Figure BDA0003514371530000154
其中,λ表示分配权重。
与提取困难正样本相反,困难负样本队列
Figure BDA0003514371530000155
是所有负样本队列Zneg中与真样本最不相似的那一部分样本。首先对Zneg按照负样本和真样本的相似度进行从大到小的排序,即:||query||||zi||>||query||||zj||,(i<j),之后只抽取Top-K个相似度最大的负样本来组成
Figure BDA0003514371530000161
满足:
Figure BDA0003514371530000162
其中λneg是一个人为设定的超参。通过实验发现λneg=0.95时的
Figure BDA0003514371530000163
可以达到与完整的Zneg相同甚至更好的实验效果,而本发明实施例的困难负样本队列个数仅为2000,该个数远远小于K。
根据上面得到的困难负样本队列向量
Figure BDA0003514371530000164
和困难正样本向量khard,本发明实施例再提出如下改进后的对比损失函数Lcl
Figure BDA0003514371530000165
最终的模型损失函数L,
L=λqaLqaciLcl
其中,τ为一个常数,λqa和λcl分别表示问答模型和对比模型的损失权重。
根据上述实施例,与提取困难正样本相反,困难负样本队列
Figure BDA0003514371530000166
是所有负样本队列Zneg中与真样本最相似的那一部分样本,通过实验发现λneg=0.95时的
Figure BDA0003514371530000167
可以达到与完整的Zneg相同甚至更好的实验效果,而本发明实施例的困难负样本队列个数仅为2000,该个数远远小于K。
第三方面,本发明实施例还提供了一种计算设备,所述计算设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如前所述的智能问答模型的生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如前所述的智能问答模型的生成方法。
请参考图5,其示出了本申请一个实施例提供的计算设备1500的结构示意图。该计算设备1500可用于实施上述实施例中如前所述的智能问答模型的生成方法。
具体来讲:
所述计算设备1500包括中央处理单元(CPU)1501、包括随机存取存储器(RAM)1502和只读存储器(ROM)150三的系统存储器1504,以及连接系统存储器1504和中央处理单元1501的系统总线1505。所述计算设备1500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1506,和用于存储操作系统151三、应用程序1514和其他程序模块1515的大容量存储设备1507。
所述基本输入/输出系统1506包括有用于显示信息的显示器1508和用于用户输入信息的诸如鼠标、键盘之类的输入设备1509。其中,所述显示器1508和输入设备1509都通过连接到系统总线1505的输入输出控制器1510连接到中央处理单元1501。所述基本输入/输出系统1506还可以包括输入输出控制器1510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1510还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1507通过连接到系统总线1505的大容量存储控制器(未示出)连接到中央处理单元1501。所述大容量存储设备1507及其相关联的计算机可读介质为计算设备1500提供非易失性存储。也就是说,所述大容量存储设备1507可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。
当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1504和大容量存储设备1507可以统称为存储器。
根据本申请的各种实施例,所述计算设备1500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算设备1500可以通过连接在所述系统总线1505上的网络接口单元1511连接到网络1512,或者说,也可以使用网络接口单元1511来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于实现如前所述的智能问答模型的生成方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被终端的处理器执行时实现如前所述的智能问答模型的生成方法。可选地,上述计算机可读存储介质可以是ROM(Read-OnlyMemory,只读存储器)、RAM(RandomAccessMemory,随机存取存储器)、CD-ROM(CompactDiscRead-OnlyMemory,只读光盘)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,当该计算机程序产品被执行时,其用于实现如前所述的智能问答模型的生成方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台终端设备(可以是个人计算机,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solidstate disk,SSD))等。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种智能问答模型的生成方法,其特征在于,所述方法包括:
扩充原始样本数据集以使存在与所述原始样本数据集中问题对应的正样本,生成新样本数据集,其中,所述正样本定义为与原始样本数据集答案相同的问题,与原始样本数据集答案不相同的问题定义为负样本;
将生成的新样本数据集输入到现有问答模型中,所述现有问答模型从新样本数据集中的知识库和文档中获取与问题相关的特征编码,并计算现有问答模型的损失Lqa
将获得的特征编码加入到改进的对比学习模型中,分别计算出真样本与新样本数据集中的困难正、负样本之间的相似度,得出对比损失Lcl
采用线性融合将现有问答模型的损失Lqa和对比损失Lcl进行结合,得到最终问答模型的损失L,并训练得到所述最终问答模型。
2.根据权利要求1所述的智能问答模型的生成方法,其特征在于,所述扩充原始样本数据集以使存在与所述原始样本数据集中问题对应的正样本,生成新样本数据集具体包括:
根据原始样本数据集中的问题和知识库三元组信息,生成与原始样本数据集中的问题对应的正样本,其中将与原始样本数据集中答案相同的问题定义为正样本,答案不同的定义为负样本;
针对每一条数据样本生成三条正样本,得到新样本数据集,其中,原始样本数据集为公共的问答数据集WebQuestionSP。
3.根据权利要求2所述的智能问答模型的生成方法,其特征在于,所述现有问答模型从新样本数据集中的知识库和文档中获取与问题相关的特征编码具体包括:
现有问答模型对问题、知识库三元组信息和文档信息分别进行编码,分别得到它们的语义表达q,KBi和docj,其中,KBi表示知识库中第i个子图的语义表达,i=1,2,..,lkb,这里lkb表示知识库中子图的总数;docj表示文档中第j个子图的语义表达,j=1,2,..,ldoc,ldoc表示文档的总数;
利用LSTM注意力编码器对问题进行编码,获得问题特征向量
Figure FDA0003514371520000027
获得知识库的实体特征向量和文档的实体特征向量;
根据知识库的实体特征向量和文档的实体特征向量获得与问题相关的实体特征向量ent;
将所述问题特征向量
Figure FDA0003514371520000021
实体特征向量ent作为特征编码。
4.根据权利要求3所述的智能问答模型的生成方法,其特征在于,所述方法还包括:
将原始样本数据集标记为真样本xquery,计算所述真样本xquery的特征向量query,其中
Figure FDA0003514371520000022
Figure FDA0003514371520000023
将扩充的三条正样本数据标记为
Figure FDA0003514371520000024
计算正样本的特征向量(k1,k2,k3),其中,
Figure FDA0003514371520000025
Figure FDA0003514371520000026
θk←mθk+(1-m)θq,m∈[0,1)
其中fq=encoder,fk=moment encoder均为现有问答模型和动量更新编码器。
5.根据权利要求4所述的智能问答模型的生成方法,其特征在于,所述将获得的特征编码加入到改进的对比学习模型中,分别计算出真样本与新样本数据集中的困难正样本、负样本之间的相似度,得出对比损失Lcl,采用线性融合将现有问答模型的损失Lqa和对比损失Lcl进行结合,得到最终问答模型的损失L具体包括:
定义一个负样本队列Zneg={z1,z2,...,zK},其中zi表示样本数据集中的第l个负样本,K表示负样本队列的个数;
计算真样本与正样本之间的余弦相似度,并最终提取相似度最小的正样本作为困难正样本向量khard
Figure FDA0003514371520000031
将正样本和真样本进行线性融合后形成新的困难负样本向量
Figure FDA0003514371520000032
然后更新进负样本队列Zneg,具体公式如下:
Figure FDA0003514371520000033
其中,λ表示分配权重;
对Zneg按照负样本和真样本的相似度进行从大到小的排序,得到||query||||zi||>||query||||zj||,(i<j),抽取Top-K个相似度最大的负样本来组成
Figure FDA0003514371520000034
满足:
Figure FDA0003514371520000035
其中λneg为预先设定的超参;根据得到的困难负样本队列向量
Figure FDA0003514371520000036
和困难正样本向量khard,得到改进后的对比损失函数Lcl
Figure FDA0003514371520000037
其中,τ为一个常数;
从而得到最终的模型损失函数L,
L=λqaLqaclLcl
λqa和λcl分别表示现有问答模型和对比模型的损失权重。
6.一种智能问答模型的生成装置,其特征在于,所述装置包括:
样本集生成模块,用于扩充原始样本数据集以使存在与所述原始样本数据集中问题对应的正样本,生成新样本数据集,其中所述正样本定义为原始样本数据集答案相同的问题,原始样本数据集答案不相同的问题定义为负样本;
编码模块,用于将生成的新样本数据集输入到现有问答模型中,所述现有问答模型从新样本数据集中的知识库和文档中获取与问题相关的特征编码,并计算现有问答模型的损失Lqa
对比模块,用于将获得的特征编码加入到对比学习模型中,分别计算出真样本与新样本数据集中的正、负样本之间的相似度,得出对比损失Lcl
训练模块,用于采用线性融合将现有问答模型的损失Lqa和对比损失Lcl进行结合,得到最终问答模型的损失L,并训练得到所述最终问答模型。
7.根据权利要求6所述的智能问答模型的生成装置,其特征在于,所述编码模块具体包括:
第一编码单元,用于现有问答模型对问题、知识库三元组信息和文档信息分别进行编码,分别得到它们的语义表达q,KBi和docj,其中,KBi表示知识库中第i个子图的语义表达,i=1,2,..,lkb,这里lkb表示知识库中子图的总数;docj表示文档中第j个子图的语义表达,j=1,2,..,ldoc,ldoc表示文档的总数;
第二编码单元,用于利用LSTM注意力编码器对问题进行编码,获得问题特征向量
Figure FDA0003514371520000051
第一向量获取单元,用于获得知识库的实体特征向量和文档的实体特征向量;
第二向量获取单元,用于根据知识库的实体特征向量和文档的实体特征向量获得与问题相关的实体特征向量ent,将所述问题特征向量
Figure FDA0003514371520000052
实体特征向量ent作为特征编码。
8.一种计算设备,其特征在于,所述计算设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至5任一项所述的智能问答模型的生成方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至5任一项所述的智能问答模型的生成方法。
CN202210162095.1A 2022-02-22 2022-02-22 智能问答模型的生成方法、装置、计算设备和存储介质 Pending CN114547267A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210162095.1A CN114547267A (zh) 2022-02-22 2022-02-22 智能问答模型的生成方法、装置、计算设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210162095.1A CN114547267A (zh) 2022-02-22 2022-02-22 智能问答模型的生成方法、装置、计算设备和存储介质

Publications (1)

Publication Number Publication Date
CN114547267A true CN114547267A (zh) 2022-05-27

Family

ID=81678024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210162095.1A Pending CN114547267A (zh) 2022-02-22 2022-02-22 智能问答模型的生成方法、装置、计算设备和存储介质

Country Status (1)

Country Link
CN (1) CN114547267A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329063A (zh) * 2022-10-18 2022-11-11 江西电信信息产业有限公司 一种用户的意图识别方法及系统
CN116306863A (zh) * 2023-01-06 2023-06-23 山东财经大学 基于对比学习的协同知识追踪建模方法及系统
CN117272937A (zh) * 2023-11-03 2023-12-22 腾讯科技(深圳)有限公司 文本编码模型训练方法、装置、设备及存储介质
CN117436500A (zh) * 2023-12-19 2024-01-23 杭州宇谷科技股份有限公司 一种基于对比学习的电池数据处理模型的无监督训练方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329063A (zh) * 2022-10-18 2022-11-11 江西电信信息产业有限公司 一种用户的意图识别方法及系统
CN116306863A (zh) * 2023-01-06 2023-06-23 山东财经大学 基于对比学习的协同知识追踪建模方法及系统
CN117272937A (zh) * 2023-11-03 2023-12-22 腾讯科技(深圳)有限公司 文本编码模型训练方法、装置、设备及存储介质
CN117272937B (zh) * 2023-11-03 2024-02-23 腾讯科技(深圳)有限公司 文本编码模型训练方法、装置、设备及存储介质
CN117436500A (zh) * 2023-12-19 2024-01-23 杭州宇谷科技股份有限公司 一种基于对比学习的电池数据处理模型的无监督训练方法
CN117436500B (zh) * 2023-12-19 2024-03-26 杭州宇谷科技股份有限公司 一种基于对比学习的电池数据处理模型的无监督训练方法

Similar Documents

Publication Publication Date Title
CN110837550B (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
CN109033068B (zh) 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN111737476B (zh) 文本处理方法、装置、计算机可读存储介质及电子设备
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN114547267A (zh) 智能问答模型的生成方法、装置、计算设备和存储介质
CN113535984B (zh) 一种基于注意力机制的知识图谱关系预测方法及装置
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
JP7457125B2 (ja) 翻訳方法、装置、電子機器及びコンピュータプログラム
WO2021027125A1 (zh) 序列标注方法、装置、计算机设备和存储介质
CN111782826A (zh) 知识图谱的信息处理方法、装置、设备及存储介质
CN109145083B (zh) 一种基于深度学习的候选答案选取方法
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN112183881A (zh) 一种基于社交网络的舆情事件预测方法、设备及存储介质
CN111160049B (zh) 文本翻译方法、装置、机器翻译系统和存储介质
CN111090765B (zh) 一种基于缺失多模态哈希的社交图像检索方法及系统
CN114896067A (zh) 任务请求信息的自动生成方法、装置、计算机设备及介质
CN112800205A (zh) 基于语义变化流形分析获取问答相关段落的方法、装置
CN111488460B (zh) 数据处理方法、装置和计算机可读存储介质
CN116662488A (zh) 业务文档检索方法、装置、设备及存储介质
CN113254716B (zh) 视频片段检索方法、装置、电子设备和可读存储介质
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN112085091B (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
CN117473053A (zh) 基于大语言模型的自然语言问答方法、装置、介质及设备
CN116821373A (zh) 基于图谱的prompt推荐方法、装置、设备及介质
KR20200131736A (ko) 다중작업 학습을 이용한 텍스트 분류 방법 및 서버

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination