CN111737426B - 问答模型的训练方法、计算机设备以及可读存储介质 - Google Patents

问答模型的训练方法、计算机设备以及可读存储介质 Download PDF

Info

Publication number
CN111737426B
CN111737426B CN202010388307.9A CN202010388307A CN111737426B CN 111737426 B CN111737426 B CN 111737426B CN 202010388307 A CN202010388307 A CN 202010388307A CN 111737426 B CN111737426 B CN 111737426B
Authority
CN
China
Prior art keywords
training
question
model
meta
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010388307.9A
Other languages
English (en)
Other versions
CN111737426A (zh
Inventor
黄薇屹
杨敏
曲强
姜青山
贺倩明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Deli Technology Co ltd
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Deli Technology Co ltd
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Deli Technology Co ltd, Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Deli Technology Co ltd
Priority to CN202010388307.9A priority Critical patent/CN111737426B/zh
Publication of CN111737426A publication Critical patent/CN111737426A/zh
Application granted granted Critical
Publication of CN111737426B publication Critical patent/CN111737426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了问答模型的训练方法、计算机设备以及计算机可读存储介质。该问答模型的训练方法包括:建立文本匹配模型和元学习模型,文本匹配模型和元学习模型具有相同的深度神经网络结构;获取测试任务和多个不同的训练任务;分别基于多个不同的训练任务各自的第一匹配损失来更新元学习模型的元网络参数,第一匹配损失用于表示多个不同的训练任务各自的文本匹配模型的匹配误差;利用更新后的元网络参数生成文本匹配模型的初始参数,并使用测试任务对文本匹配模型进行训练以更新文本匹配模型的初始参数,将经过训练后所得到的文本匹配模型作为问答模型。通过上述方式,本申请的问答模型能够应用于少样本的问答领域中,并提高问答对匹配的准确性。

Description

问答模型的训练方法、计算机设备以及可读存储介质
技术领域
本申请涉及机器学习技术领域,特别是涉及问答模型的训练方法、计算机设备以及计算机可读存储介质。
背景技术
问答系统是信息检索和自然语言处理的重要分支,近年来,随着互联网络的兴起,用户产生内容在网络上得到了大量的积累,产生了丰富的开放领域问答、垂直领域问答数据。
在社区问答场景中,一种常见的应用是在候选回答中选择与当前用户问题最为匹配的答案,即答案排序与选择。准确率高的问答模型能够快速定位出候选答案中与新来问题最为匹配的回答,提高问题回答率,改善用户体验,但往往意味着需要大量的质量较优的问答样本,这意味着大量的人力成本和时间成本。
对于部分专业领域或小众领域的问题,社区提问回答率往往较低,因此无法提供大量的质量较优的问答样本,用于问答模型的训练,因而存在由于样本量少而模型训练困难的问题。
发明内容
本申请主要解决的技术问题是提供问答模型的训练方法、计算机设备以及计算机可读存储介质,能够解决由于样本量少而模型训练困难的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种问答模型的训练方法,该训练方法包括:模型具有相同的深度神经网络结构;获取测试任务和多个不同的训练任务,所述测试任务和所述训练任务均包括多个问答对数据,所述测试任务中的数据量少于所述训练任务的数据量,每个所述问答对数据包括问题和与所述问题相匹配的候选回答;分别基于多个不同的所述训练任务各自的第一匹配损失来更新元学习模型的元网络参数,所述第一匹配损失用于表示多个不同的所述训练任务各自的文本匹配模型的匹配误差;利用更新后的所述元网络参数生成所述文本匹配模型的初始参数,并使用所述测试任务对所述文本匹配模型进行训练以更新所述文本匹配模型的初始参数,将经过训练后所得到的所述文本匹配模型作为所述问答模型。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机设备,该计算机设备包括处理器以及与处理器连接的存储器;其中,存储器用于存储程序数据,处理器用于执行程序数据,以实现如上述的问答模型的训练方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种具有计算机可读存储介质,该计算机可读存储介质用于存储程序数据,程序数据在被处理器执行时,用于实现如上述的问答模型的训练方法。
本申请的有益效果是:区别于现有技术的情况,本申请提供一种问答模型的训练方法,该方法通过建立文本匹配模型和元学习模型,且文本匹配模型和元学习模型具有相同的深度神经网络结构,并获取测试任务和多个不同的训练任务,以分别基于多个不同的训练任务各自的第一匹配损失来更新元学习模型的元网络参数,最后利用更新后的元网络参数生成文本匹配模型的初始参数,并使用测试任务对文本匹配模型进行训练以更新文本匹配模型的初始参数,将经过训练后所得到的文本匹配模型作为问答模型,能够模型训练的学习难度,提升了模型的快速收敛能力,使训练更加充分,且所得到的问答模型能够应用于少样本的问答领域中,并提高问答对匹配的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请问答模型的训练方法第一实施例的流程示意图;
图2是本申请问答模型的训练方法第二实施例中元学习模型训练和测试过程示意图;
图3是本申请问答模型的训练方法第二实施例中的流程示意图;
图4是本申请问答模型的训练方法第二实施例中S160的具体流程示意图;
图5是本申请问答模型的训练方法第二实施例中S180的具体流程示意图;
图6是本申请问答模型的训练方法第三实施例中文本匹配模型的结构示意图;
图7是本申请问答模型的训练方法第三实施例的流程示意图;
图8是本申请问答模型的训练方法第四实施例的流程示意图;
图9是本申请计算机设备一实施例的结构示意图;
图10是本申请计算机可读存储介质一实施例的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序或结构。此外,术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
相关技术中,给定一个垂直领域(或小众领域、特定领域)的问题,问答模型旨在从已有的回答集合中对所有的候选回答进行相关性打分并排序,从而选择最佳回答。例如在法律领域,用户的提问往往类似。
例如,法律场景下许多用户会发出“不合法拆迁如何上诉?”这样的同类问题。在用户提问同质化且候选回答足够多的情况下,好的问答模型能够定位出与当前用户疑问相似的问题所对应的高质量答案,有效提高垂直领域社区提问的回答率。由于法律问答面临着样本量少且标注成本高的难点,通过使用大量法律垂直领域的问答样本训练一个问答系统开发周期很长且消耗的人力成本巨大,并不适合现实应用。
其他样本量少的领域也存在类似问题。
基于此,本申请提供一种问答模型的训练方法,以解决上述由于样本量少而模型训练困难的问题。
请参阅图1,图1是本申请问答模型的训练方法第一实施例的流程示意图。
本实施例中,问答模型的训练方法包括:
S120:建立文本匹配模型和元学习模型,文本匹配模型和元学习模型具有相同的深度神经网络结构。
深度神经网络结构是一种模仿动物神经网络行为特征、进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的日的。
本实施例中,问答模型的训练方法基于元学习方法,元学习(Meta Learning)是机器学习的子领域。传统的机器学习问题是基于海量数据集从头开始学习一个用于预测的数学模型,这与人类学习、积累历史经验(也称为元知识)指导新的机器学习任务的过程相差甚远。元学习则是学习不同的机器学习任务的学习训练过程,以及学习如何更快更好地训练一个数学模型。
在一种实施方式中,深度神经网络结构可采用长短期记忆神经网络、双向注意力机制以及全连接网络构建。
S140:获取测试任务和多个不同的训练任务。
其中,测试任务和训练任务均包括多个问答对数据,测试任务中的数据量少于训练任务的数据量,每个问答对数据包括问题和与问题相匹配的候选回答。
问答对数据也就是任务中的样本。测试任务和训练任务具有一定的相关性,两者都是基于问答的场景,并且都是文本匹配任务,都是针对一个特定的查询或问题,从候选的文档或者回答集中逐个计算文本与查询的匹配分数,排序后选出最佳的反馈文本。
可选地,相似的问答任务可包括:社区问答中的答案选择任务(用户提出问题,返回相关的回答),信息检索任务(用户输入查询,返回与查询相关的文本),多轮对话任务(基于用户新一轮的话语,返回系统回复)。上述三个任务都是基于问答的场景,并且都是文本匹配任务,都是针对一个特定的查询或问题,从候选的文档或者回答集中逐个计算文本与查询的匹配分数,排序后选出最佳的反馈文本。
也就是说,训练任务可包括信息检索任务、社区问答任务和多轮对话任务。
本实施例中,为了便于描述,将文本匹配的待匹配方(查询或问题)统称为问题,将文本匹配的候选方(候选的文档或者回答集)统称为候选回答。
测试任务中的数据量少于训练任务的数据量,即训练任务为富样本数据,测试任务为少样本数据。
S160:分别基于多个不同的训练任务各自的第一匹配损失来更新元学习模型的元网络参数。
其中,第一匹配损失用于表示多个不同的训练任务各自的文本匹配模型的匹配误差。
本实施例率先成功地将元学习方法应用于自然语言处理领域的文本匹配任务中。
由于元学习模型先在问答对数据量较大的训练任务上进行元学习,能够生成较好的元学习模型的元网络参数,所以元学习模型能够在测试任务上通过少量的梯度迭代来产生泛化的性能,即通过上述步骤训练了一个易于微调的元学习模型。
S180:利用更新后的元网络参数生成文本匹配模型的初始参数,并使用测试任务对文本匹配模型进行训练以更新文本匹配模型的初始参数,将经过训练后所得到的文本匹配模型作为问答模型。
通过利用更新后的元网络参数生成文本匹配模型的初始参数,能够增强文本匹配模型在少样本数据条件下快速收敛的能力,即通过测试任务上的少量问答对数据的训练精细地调节文本匹配模型,能够得到训练后所得到的文本匹配模型作为问答模型,该问答模型能够应用于少样本的问答领域中,并提高问答对匹配的准确性。
相比于单独使用少样本数据训练问答模型,通过本实施例所提供的训练方法降低了模型训练的学习难度,提升了模型在测试任务中(即目标任务中)快速收敛的能力,使训练更加充分,且得到问答模型用于问答对的匹配时准确性更高。
在本实施例的问答模型的训练方法,通过建立文本匹配模型和元学习模型,且文本匹配模型和元学习模型具有相同的深度神经网络结构,并获取测试任务和多个不同的训练任务,以分别基于多个不同的训练任务各自的第一匹配损失来更新元学习模型的元网络参数,最后利用更新后的元网络参数生成文本匹配模型的初始参数,并使用测试任务对文本匹配模型进行训练以更新文本匹配模型的初始参数,将经过训练后所得到的文本匹配模型作为问答模型,能够模型训练的学习难度,提升了模型的快速收敛能力,使训练更加充分,且所得到的问答模型能够应用于少样本的问答领域中,并提高问答对匹配的准确性。
请结合参阅图2-图5,图2是本申请问答模型的训练方法第二实施例中元学习模型训练和测试过程示意图。图3是本申请问答模型的训练方法第二实施例中的流程示意图。图4是本申请问答模型的训练方法第二实施例中S160的具体流程示意图。图5是本申请问答模型的训练方法第二实施例中S180的具体流程示意图。
本申请问答模型的训练方法第二实施例是基于本申请问答模型的训练方法第一实施例的,因此本实施例与第一实施例相同的步骤不再赘述,可以参照第一实施例中的描述。
请参与图3,本实施例中,在步骤S140:获取测试任务和多个不同的训练任务之后,可包括:
S150:对测试任务和每个训练任务中的问答对数据进行数据预处理,以将测试任务和每个训练任务中的问答对数据分别划分为两部分,作为训练任务的支撑集和查询集以及测试任务的支撑集和查询集。
请参阅图2,在元学习模型训练和测试过程中,将帮助训练元学习模型的训练集、测试集分别称为Dtrain,Dtest。训练集包括多个不同的训练任务,测试集包括测试任务,每个任务Ti内部的训练集、测试集分别被称做支撑集、查询集。
在步骤S150中,中文句子可采用公开的Python分词模块jieba进行中文分词,以将测试任务和每个训练任务中的问答对数据分别划分为两部分,作为训练任务的支撑集和查询集以及测试任务的支撑集和查询集将任务数据。
可选地,请参阅图4,步骤S160:分别基于多个不同的训练任务各自的第一匹配损失来更新元学习模型的元网络参数,可包括:
S161:对于每个训练任务进行以下操作:
如图2所示,定义元学习模型为F,元网络参数为
Figure BDA0002484726930000071
更新后的元网络参数为
Figure BDA0002484726930000072
文本匹配模型为f,文本匹配模型的初始参数为θ0,更新后的文本匹配模型的参数为
Figure BDA0002484726930000073
在不同的任务上的最终优化结果表示为
Figure BDA0002484726930000074
S1611:初始化元学习模型的元网络参数。
S1612:利用元网络参数生成文本匹配模型的初始参数。
利用元网络参数生成文本匹配模型的初始参数,可以是根据
Figure BDA0002484726930000075
计算出每一个训练任务的初始参数θ0
S1613:基于训练任务的支撑集计算文本匹配模型的第一匹配损失。
S1614:基于第一匹配损失更新文本匹配模型的初始参数。
在步骤S1613-S1614中,对于每一个文本匹配任务Ti,可执行如下的文本匹配模型f的参数θ0的优化过程:
a.在训练任务的支撑集
Figure BDA0002484726930000081
上可计算文本匹配模型f的第一匹配损失
Figure BDA0002484726930000082
b.基于第一匹配损失更新文本匹配模型f的初始参数,即优化文本匹配模型f的初始参数得到
Figure BDA0002484726930000083
c.执行步骤b若干次,并得到该训练任务上的最终参数
Figure BDA0002484726930000084
S162:当所有训练任务均完成训练后,基于所有训练任务的查询集计算元学习模型的训练损失,并基于训练损失更新元学习模型的元网络参数。
步骤S162中,对于所有的文本匹配任务,可执行如下的元学习网络F的参数
Figure BDA0002484726930000085
的优化过程:
d.在任务查询集
Figure BDA0002484726930000086
上计算元学习模型的训练损失
Figure BDA0002484726930000087
e.优化元网络参数
Figure BDA0002484726930000088
得到
Figure BDA0002484726930000089
执行上述步骤a-e若干次,并得到更新后的元学习模型的元网络参数
Figure BDA00024847269300000810
Figure BDA00024847269300000811
经过上述步骤,能够生成具有较好的元网络参数的元学习模型。
可选地,请参阅图5,步骤S180:利用更新后的元网络参数生成文本匹配模型的初始参数,并使用测试任务对文本匹配模型进行训练以更新文本匹配模型的初始参数,将经过训练后所得到的文本匹配模型作为问答模型,可包括:
S181:利用更新后的元网络参数作为文本匹配模型的初始参数。
定义测试过程中,本匹配模型的初始参数为
Figure BDA00024847269300000812
利用更新后的元网络参数作为文本匹配模型的初始参数,可以是根据
Figure BDA00024847269300000813
计计算出测试任务的初始参数
Figure BDA00024847269300000814
S182:基于测试任务的支撑集计算文本匹配模型的第二匹配损失。
S183:基于第二匹配损失更新文本匹配模型的初始参数。
在步骤S181-S182中,可执行如下的文本匹配网络f的参数
Figure BDA00024847269300000815
的优化过程:
g.在测试任务的支撑集
Figure BDA0002484726930000091
上可计算文本匹配模型f的第二匹配损失
Figure BDA0002484726930000092
h.基于第二匹配损失更新文本匹配模型f的初始参数,即优化文本匹配模型f的参数得到
Figure BDA0002484726930000093
i.执行步骤h若干次,并得到测试任务上的最终参数
Figure BDA0002484726930000094
S184:将经过训练后所得到的文本匹配模型作为问答模型。
利用更新后的元网络参数生成文本匹配模型的初始参数,并使用测试任务对文本匹配模型进行训练,以对文本匹配模型进行精调,从而得到训练后所得到的文本匹配模型,可作为问答模型。
请结合参阅图2-图7,图6是本申请问答模型的训练方法第三实施例中文本匹配模型的结构示意图。图7是本申请问答模型的训练方法第三实施例的流程示意图。
本申请问答模型的训练方法第三实施例是基于本申请问答模型的训练方法第二实施例的,因此本实施例与第二实施例相同的步骤不再赘述,可以参照第二实施例中的描述。
如图6所示,本实施例中,步骤S120:建立文本匹配模型和元学习模型,可包括:
采用长短期记忆神经网络、双向注意力机制以及全连接网络建立深度神经网络结构,以分别建立文本匹配模型和元学习模型。
可选地,请参阅图7,步骤S1613:基于训练任务的支撑集计算文本匹配模型的第一匹配损失,可包括:
S220:利用长短期记忆神经网络对问答对数据进行空间映射和语义学习,得到建模后的问答语句。
可选地,可采用word2vec词向量,将每个问题与对应的候选回答转换为输入向量,通过长短期记忆神经网络建模问答句语义。
具体的,问题与回答可先经过词嵌入层建模后可以表示为词向量构成的矩阵,表达形式如下:
Q={q1,q2,…,qm},A={a1,a2,…,an}
其中,m和n分别为问题与回答的语句长度。
采用长短期记忆神经网络进行问答语句的语义建模,建模后的问答语句表达如下:
Q′=q1′,q2′,…,qm′],A′=[a1′,a2′,…,an′]。
长短期记忆神经网络能够实现对输入的信息进行空间映射和语义学习。
S240:利用双向注意力机制对问答语句进行语境交互与语义放缩,得到问题向量和回答向量。
语义交互层采用双向注意力机制实现对问答语句的语境交互与语义放缩,具体过程可如下:
首先计算问答语句的交互矩阵R,
R=Q′TA′
在交互矩阵R的基础上得到问题侧与回答侧的交互矩阵如下,
RA=softmax(R),RQ=softmax(RT)
其中softmax表示在矩阵行层面进行向量的归一化。在问答侧交互矩阵的基础上进行问答侧隐含层的信息重整,即,
Qatt=Q′RA,Aatt=A′RQ
将整合后的特征矩阵Qatt,Aatt与语义建模层得到的特征Q′,A′进行连接后得到语义矩阵如下,
Qfinal=Q′,Qatt],Afinal=[A′,Aatt]
问答侧的语义矩阵经过最大池化进行特征下采样后,得到问答的向量表示q和a,
q=maxpool(Qfinal),a=maxpool(final)
通过在文本匹配模型中采用注意力机制进行语句信息交互,能够起到根据训练样本的问答对匹配情况放大或缩小特定词语的作用,从而提升文本匹配模型的性能。
S260:利用全连接网络基于问题向量和回答向量计算匹配分数。
全连接网络可包括一个全连接层、一个隐含层与一个softmax概率层。
用全连接网络基于问题向量和回答向量计算匹配分数具体可以是:
首先计算基于问题回答向量的匹配分数,即
sim=qTWa
再将问答侧向量与匹配分数进行连接,即x=[q,sim,a],并通过一个隐含层与一个softmax概率层计算最终的问答对匹配分数pi
S280:基于匹配分数计算得到文本匹配模型的第一匹配损失。
可选地,步骤S280中,可通过如下公式计算文本匹配模型的第一匹配损失:
Figure BDA0002484726930000111
其中,Lf表示文本匹配模型的第一匹配损失,yi为候选答案是否符合问题的标签,pi为匹配分数,θ表示文本匹配模型中的初始参数,
Figure BDA0002484726930000115
为用于防止过拟合的正则项。
可选地,步骤S162:当所有训练任务均完成训练后,基于所有训练任务的查询集计算元学习模型的训练损失,并基于训练损失更新元学习模型的元网络参数,可包括:
利用如下公式计算元学习模型的训练损失:
Figure BDA0002484726930000112
其中,
Figure BDA0002484726930000113
为元学习模型的训练损失,
Figure BDA0002484726930000114
为在第i个训练任务的查询集上得到的第一匹配损失。
请结合参阅图2-图8,图8是本申请问答模型的训练方法第四实施例的流程示意图。
本申请问答模型的训练方法第四实施例是基于本申请问答模型的训练方法第三实施例的,因此本实施例与第三实施例相同的步骤不再赘述,可以参照第三实施例中的描述。
本实施例中,问答模型的训练方法还包括以下问答模型的评价指标计算过程:
S191:基于测试任务的查询集计算问答模型对于每一个问答对数据的预测结果。
具体的,可在测试任务的查询集
Figure BDA0002484726930000121
上计算文本匹配模型f对于每一个问答对的预测结果p。
S192:将预测结果作为问答对数据的匹配分数,进行匹配分数的降序排序。
对于每一个问题qk的所有回答ak1,ak2,…,ks均计算得到预测结果p,将p作为问答对数据的匹配分数,并进行匹配分数的降序排序。
S193:基于匹配分数评估问答模型。
本实施例中,可使用评价标准为排序模型中的通用评价指标MAP(Mean AveragePrecision)。
Figure BDA0002484726930000122
其中,P(q)表示第q个问答对数据的匹配分数。
请参阅图9,图9是本申请计算机设备一实施例的结构示意图。
本实施例中,计算机设备100包括处理器110和与处理器110连接的存储器120。存储器120用于存储程序数据,处理器110用于执行程序数据,以实现上述任一实施例中的问答模型的训练方法。
计算机设备可包括与处理器连接的驱动器。
其中,处理器110还可以称为CPU(Central Processing Unit,中央处理单元)。处理器110可能是一种集成电路芯片,具有信号的处理能力。处理器110还可以是通用处理器110、数字信号处理器110(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器110可以是微处理器110或者该处理器110也可以是任何常规的处理器110等。
请参阅图10,图10是本申请计算机可读存储介质一实施例的示意图。
计算机可读存储介质200用于存储程序数据210,程序数据210在被处理器执行时能够实现上述任一实施例中的问答模型的训练方法。
可以理解的,本实施例中的计算机可读存储介质200可以应用于服务器,其具体的实施可以参考上述实施例,这里不再赘述。
在本申请所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分S。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的问答模型的训练方法,该方法通过建立文本匹配模型和元学习模型,且文本匹配模型和元学习模型具有相同的深度神经网络结构,并获取测试任务和多个不同的训练任务,以分别基于多个不同的训练任务各自的第一匹配损失来更新元学习模型的元网络参数,最后利用更新后的元网络参数生成文本匹配模型的初始参数,并使用测试任务对文本匹配模型进行训练以更新文本匹配模型的初始参数,将经过训练后所得到的文本匹配模型作为问答模型,能够模型训练的学习难度,提升了模型的快速收敛能力,使训练更加充分,且所得到的问答模型能够应用于少样本的问答领域中,并提高问答对匹配的准确性。
以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (7)

1.一种问答模型的训练方法,其特征在于,所述训练方法包括:
采用长短期记忆神经网络、双向注意力机制以及全连接网络建立深度神经网络结构,以分别建立文本匹配模型和元学习模型,所述文本匹配模型和所述元学习模型具有相同的深度神经网络结构;
获取测试任务和多个不同的训练任务,对所述测试任务和每个所述训练任务中的问答对数据进行数据预处理,以将所述测试任务和每个所述训练任务中的问答对数据分别划分为两部分,作为所述训练任务的支撑集和查询集以及所述测试任务的支撑集和查询集;所述测试任务和所述训练任务均包括多个问答对数据,所述测试任务中的数据量少于所述训练任务的数据量,每个所述问答对数据包括问题和与所述问题相匹配的候选回答;
分别基于多个不同的所述训练任务各自的第一匹配损失来更新元学习模型的元网络参数,所述第一匹配损失用于表示多个不同的所述训练任务各自的文本匹配模型的匹配误差;其中,对于每个所述训练任务进行以下操作:初始化所述元学习模型的元网络参数;利用所述元网络参数生成所述文本匹配模型的初始参数;利用所述长短期记忆神经网络对所述问答对数据进行空间映射和语义学习,得到建模后的问答语句;利用所述双向注意力机制对所述问答语句进行语境交互与语义放缩,得到问题向量和回答向量;利用所述全连接网络基于所述问题向量和所述回答向量计算匹配分数;基于所述匹配分数计算得到所述文本匹配模型的第一匹配损失;基于所述第一匹配损失更新所述文本匹配模型的初始参数;当所有所述训练任务均完成训练后,基于所有所述训练任务的查询集计算所述元学习模型的训练损失,并基于所述训练损失更新所述元学习模型的元网络参数;
利用更新后的所述元网络参数生成所述文本匹配模型的初始参数,并使用所述测试任务对所述文本匹配模型进行训练以更新所述文本匹配模型的初始参数,将经过训练后所得到的所述文本匹配模型作为所述问答模型;
其中,通过如下公式计算所述文本匹配模型的第一匹配损失:
Figure FDA0002956591030000021
其中,Lf表示文本匹配模型的第一匹配损失,yi为候选答案是否符合问题的标签,pi为匹配分数,θ表示文本匹配模型中的初始参数,
Figure FDA0002956591030000025
为用于防止过拟合的正则项。
2.根据权利要求1所述的训练方法,其特征在于,
所述当所有所述训练任务均完成训练后,基于所有所述训练任务的查询集计算所述元学习模型的训练损失,并基于所述训练损失更新所述元学习模型的元网络参数,包括:
利用如下公式计算所述元学习模型的训练损失:
Figure FDA0002956591030000022
其中,
Figure FDA0002956591030000023
为所述元学习模型的训练损失,
Figure FDA0002956591030000024
为在第i个所述训练任务的查询集上得到的第一匹配损失。
3.根据权利要求1所述的训练方法,其特征在于,
所述利用更新后的所述元网络参数生成所述文本匹配模型的初始参数,并使用所述测试任务对所述文本匹配模型进行训练以更新所述文本匹配模型的初始参数,将经过训练后所得到的所述文本匹配模型作为所述问答模型,包括:
利用更新后的所述元网络参数作为所述文本匹配模型的初始参数;
基于所述测试任务的支撑集计算所述文本匹配模型的第二匹配损失;
基于所述第二匹配损失更新所述文本匹配模型的初始参数;
将经过训练后所得到的所述文本匹配模型作为所述问答模型。
4.根据权利要求3所述的训练方法,其特征在于,
所述方法还包括:
基于所述测试任务的查询集计算所述问答模型对于每一个问答对数据的预测结果;
将所述预测结果作为问答对数据的匹配分数,进行匹配分数的降序排序;
基于所述匹配分数评估所述问答模型。
5.根据权利要求1所述的训练方法,其特征在于,
所述训练任务包括信息检索任务、社区问答任务和多轮对话任务。
6.一种计算机设备,其特征在于,所述计算机设备包括处理器以及与所述处理器连接的存储器;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据,以实现如权利要求1-5任一项所述的训练方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序数据,所述程序数据在被处理器执行时,用于实现如权利要求1-5任一项所述的训练方法。
CN202010388307.9A 2020-05-09 2020-05-09 问答模型的训练方法、计算机设备以及可读存储介质 Active CN111737426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010388307.9A CN111737426B (zh) 2020-05-09 2020-05-09 问答模型的训练方法、计算机设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010388307.9A CN111737426B (zh) 2020-05-09 2020-05-09 问答模型的训练方法、计算机设备以及可读存储介质

Publications (2)

Publication Number Publication Date
CN111737426A CN111737426A (zh) 2020-10-02
CN111737426B true CN111737426B (zh) 2021-06-01

Family

ID=72648128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010388307.9A Active CN111737426B (zh) 2020-05-09 2020-05-09 问答模型的训练方法、计算机设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN111737426B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434213B (zh) * 2020-10-15 2023-09-29 中国科学院深圳先进技术研究院 网络模型的训练方法、信息推送方法及相关装置
US11977602B2 (en) * 2020-11-10 2024-05-07 Nec Corporation Domain generalized margin via meta-learning for deep face recognition
CN112487170B (zh) * 2020-12-14 2023-12-15 南京三眼精灵信息技术有限公司 面向场景配置的人机交互对话机器人系统
CN112836048A (zh) * 2021-01-27 2021-05-25 天津大学 基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法
CN112507106B (zh) * 2021-02-05 2021-05-04 恒生电子股份有限公司 深度学习模型的训练方法、装置和faq相似度判别方法
CN113033664A (zh) * 2021-03-26 2021-06-25 网易(杭州)网络有限公司 问答模型训练方法、问答方法、装置、设备及存储介质
CN113468313A (zh) * 2021-07-21 2021-10-01 阳光保险集团股份有限公司 一种生成式模型训练方法、信息交互方法及其装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108449A (zh) * 2017-12-27 2018-06-01 哈尔滨福满科技有限责任公司 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法
CN109919299A (zh) * 2019-02-19 2019-06-21 西安交通大学 一种基于元学习器逐步梯度校正的元学习算法
CN110175588A (zh) * 2019-05-30 2019-08-27 山东大学 一种基于元学习的少样本面部表情识别方法及系统
CN111046661A (zh) * 2019-12-13 2020-04-21 浙江大学 基于图卷积网络的阅读理解方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832036B2 (en) * 2018-07-16 2020-11-10 Adobe Inc. Meta-learning for facial recognition
CN110020682B (zh) * 2019-03-29 2021-02-26 北京工商大学 一种基于小样本学习的注意力机制关系对比网络模型方法
CN110569886B (zh) * 2019-08-20 2023-02-28 天津大学 一种双向通道注意力元学习的图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108449A (zh) * 2017-12-27 2018-06-01 哈尔滨福满科技有限责任公司 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法
CN109919299A (zh) * 2019-02-19 2019-06-21 西安交通大学 一种基于元学习器逐步梯度校正的元学习算法
CN110175588A (zh) * 2019-05-30 2019-08-27 山东大学 一种基于元学习的少样本面部表情识别方法及系统
CN111046661A (zh) * 2019-12-13 2020-04-21 浙江大学 基于图卷积网络的阅读理解方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Challenge Closed-book Science Exam: A Meta-learning Based Question Answering System;Xinyue Zheng etc.;《https://arxiv.org/pdf/2004.12303v1.pdf》;20200426;第1、3.1-3.2、4节、图1、表2 *
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks;Chelsea Finn etc.;《https://arxiv.org/pdf/1703.03400.pdf》;20170718;第1、2.1-2.2、3.1节 *

Also Published As

Publication number Publication date
CN111737426A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111737426B (zh) 问答模型的训练方法、计算机设备以及可读存储介质
CN111415740B (zh) 问诊信息的处理方法、装置、存储介质及计算机设备
CN109783817B (zh) 一种基于深度强化学习的文本语义相似计算模型
CN110188351B (zh) 语句通顺度及句法评分模型的训练方法及装置
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN110929515A (zh) 基于协同注意力和自适应调整的阅读理解方法及系统
CN111966810B (zh) 一种用于问答系统的问答对排序方法
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN111079418B (zh) 命名体识别方法、装置、电子设备和存储介质
CN112084307B (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN111552773A (zh) 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN113342958B (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
CN112559706B (zh) 对话生成模型的训练方法、对话方法、设备以及存储介质
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN113821527A (zh) 哈希码的生成方法、装置、计算机设备及存储介质
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN114416929A (zh) 实体召回模型的样本生成方法、装置、设备及存储介质
CN112836027A (zh) 用于确定文本相似度的方法、问答方法及问答系统
CN113392640B (zh) 一种标题确定方法、装置、设备及存储介质
CN112434174A (zh) 多媒体信息的发布账号的识别方法、装置、设备及介质
CN117235237B (zh) 一种文本生成方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant