CN117370524A - 答复生成模型的训练方法、答复语句生成方法和装置 - Google Patents

答复生成模型的训练方法、答复语句生成方法和装置 Download PDF

Info

Publication number
CN117370524A
CN117370524A CN202311352441.3A CN202311352441A CN117370524A CN 117370524 A CN117370524 A CN 117370524A CN 202311352441 A CN202311352441 A CN 202311352441A CN 117370524 A CN117370524 A CN 117370524A
Authority
CN
China
Prior art keywords
answer
training
sample
fact
generation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311352441.3A
Other languages
English (en)
Inventor
焦振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202311352441.3A priority Critical patent/CN117370524A/zh
Publication of CN117370524A publication Critical patent/CN117370524A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提出了一种答复生成模型的训练方法、答复语句生成方法和装置,涉及自然语言处理和深度学习等人工智能领域,包括获取待训练的候选答复生成模型的第一训练样本以及第一训练样本中的样本对话上文、样本事实和参考事实标签;识别样本事实与参考事实标签是否匹配并根据识别结果确定候选答复生成模型的当前轮次的模型训练任务;获取候选答复生成模型在模型训练任务下的训练损失;根据训练损失对候选答复生成模型进行参数调整并返回获取下一样本对话上文对参数调整后的候选答复生成模型继续进行训练,直至训练结束得到目标答复生成模型。降低了模型生成的答复信息与事实信息的不一致所导致的机器错误答复的可能程度,提高了答复信息的准确率。

Description

答复生成模型的训练方法、答复语句生成方法和装置
技术领域
本公开涉及数据处理领域,尤其涉及自然语言处理和深度学习等人工智能领域。
背景技术
随着技术的发展,用户端可以通过与机器的对话得到想要查询的信息,其中,用户端可以在机器的输入端输入其需求信息,机器通过用户输入的需求信息生成对应的答复信息并返回至用户端。
相关技术中,可以通过模板式答复的方法生成返回给用户的答复信息,在该场景下,模板式答复虽然可以为用户提供对应的答复信息,但是模板式回复灵活度较低,用户体验感欠佳,且需要进行模板的预配置,工作量较大。
可选地,还可以通过答复生成模型为用户生成对应的答复信息,在该场景下,模型输出的答复语句存在可能出现与事实不一致的情况发生,用户体验感欠佳。
发明内容
本公开提出了一种答复生成模型的训练方法、答复语句生成方法和装置。
根据本公开的第一方面,提出了一种答复生成模型的训练方法,方法包括:获取待训练的候选答复生成模型的第一训练样本,以及所述第一训练样本中的样本对话上文、样本事实和参考事实标签;识别所述样本事实与所述参考事实标签是否匹配,并根据识别结果确定所述候选答复生成模型的当前轮次的模型训练任务,其中,所述模型训练任务为事实答复一致性分类任务和答复生成学习任务中的至少一个;获取所述候选答复生成模型在所述模型训练任务下的训练损失;根据所述训练损失对所述候选答复生成模型进行参数调整,并返回获取下一样本对话上文对参数调整后的候选答复生成模型继续进行训练,直至训练结束,得到训练好的目标答复生成模型。
根据本公开的第二方面,提出了一种答复语句生成方法,方法包括:获取用户端输入的对话上文,并获取所述对话上文对应的事实信息;获取训练好的目标答复生成模型,并将所述对话上文和所述事实信息输入所述目标答复生成模型中,通过所述目标答复生成模型生成所述对话上文的目标答复语句,其中,所述目标答复生成模型基于上述第一方面提出的答复生成模型的训练方法得到。
根据本公开的第三方面,提出了一种答复生成模型的训练方法,方法包括:第一获取模块,用于获取待训练的候选答复生成模型的第一训练样本,以及所述第一训练样本中的样本对话上文、样本事实和参考事实标签;识别模块,用于识别所述样本事实与所述参考事实标签是否匹配,并根据识别结果确定所述候选答复生成模型的当前轮次的模型训练任务,其中,所述模型训练任务为事实答复一致性分类任务和答复生成学习任务中的至少一个;第二获取模块,用于获取所述候选答复生成模型在所述模型训练任务下的训练损失;训练模块,用于根据所述训练损失对所述候选答复生成模型进行参数调整,并返回获取下一样本对话上文对参数调整后的候选答复生成模型继续进行训练,直至训练结束,得到训练好的目标答复生成模型。
根据本公开的第四方面,提出了一种答复语句生成装置,装置包括:第三获取模块,用于获取用户端输入的对话上文,并获取所述对话上文对应的事实信息;生成模块,用于获取训练好的目标答复生成模型,并将所述对话上文和所述事实信息输入所述目标答复生成模型中,通过所述目标答复生成模型生成所述对话上文的目标答复语句,其中,所述目标答复生成模型基于上述第三方面提出的答复生成模型的训练装置得到。
根据本公开的第五方面,提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面提出的答复生成模型的训练方法和/或第二方面提出的答复语句生成方法。
根据本公开的第四方面,提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述第一方面提出的答复生成模型的训练方法和/或第二方面提出的答复语句生成方法。
根据本公开的第五方面,提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述第一方面提出的答复生成模型的训练方法和/或第二方面提出的答复语句生成方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开一实施例的答复生成模型的训练方法的流程示意图;
图2为本公开另一实施例的答复生成模型的训练方法的流程示意图;
图3为本公开一实施例的答复生成模型的示意图;
图4为本公开一实施例的答复语句生成方法的流程示意图;
图5为本公开一实施例的答复生成模型的训练装置的结构示意图;
图6为本公开一实施例的答复语句生成装置的结构示意图;
图7为本公开一实施例的电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
数据处理(data processing),是系统工程和自动控制的基本环节,数据是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理(data processing)是对数据的采集、存储、检索、加工、变换和传输,数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
深度学习(Deep Learning,DL),是机器学习领域中一个新的研究方向,深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
自然语言处理(Natural Language Processing,NLP),是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统。
人工智能(Artificial Intelligence,AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。人工智能可以对人的意识、思维的信息过程的模拟。
图1为本公开一实施例的答复生成模型的训练方法的流程示意图,如图1所示,该方法包括:
S101,获取待训练的候选答复生成模型的第一训练样本,以及第一训练样本中的样本对话上文、样本事实和参考事实标签。
实现中,用户可以通过人机交互界面输入其需求信息,机器通过获取到的用户需求为其生成对应的答复语句并提供给用户。
其中,可以将用户通过人机交互界面输入的携带有用户需求的语句,作为机器生成对应答复信息的对话上文。
本公开实施例中,可以通过答复生成模型为用户输入的对话上文生成对应的答复语句,在该场景下,可以将需要进行训练的候选答复生成模型标记为待训练的候选答复生成模型。
可选地,可以基于相关技术中的统一语言模型(Unified Language Model,UniLM)构建待训练的候选答复生成模型,也可以基于其他神经网络构建候选答复生成模型,此处不做具体限定。
本公开实施例中,可以将候选答复生成模型进行模型训练时所使用的样本标记为第一训练样本,其中,第一训练样本中包括有对候选答复生成模型进行训练的对话上文、事实以及对应的事实标签。
在该场景下,可以将第一训练样本中包括的对话上文标记为样本对话上文,第一训练样本中包括的事实标记为样本事实,以及将对应的事实标签标记为第一训练样本的参考事实标签。
可选地,可以将第一训练样本输入至候选答复生成模型中,通过候选答复生成模型对第一训练样本中的样本对话上文和样本事实进行解析,进而得到候选答复生成模型生成的答复信息。
S102,识别样本事实与参考事实标签是否匹配,并根据识别结果确定候选答复生成模型的当前轮次的模型训练任务,其中,模型训练任务为事实答复一致性分类任务和答复生成学习任务中的至少一个。
为了使得训练好的答复生成模型能够实现其所生成的答复信息与事实信息的一致性的优化,本公开实施例中,候选答复生成模型设置有两个训练任务,分别为事实答复一致性分类任务以及答复生成学习任务。
其中,事实答复一致性分类任务可以理解为,候选答复生成模型对其在训练过程中的输出结果与样本对话上文实际需求的目标信息是否一致进行分类识别,并根据分类识别的结果对候选答复生成模型进行迭代优化,从而实现事实答复一致性分类任务的训练。
相应地,答复生成学习任务可以理解为,候选答复生成模型进行答复信息生成的学习并根据学习输出的结果对候选答复生成模型进行迭代优化,从而实现答复生成任务的训练。
本公开实施例中,可以对第一训练样本中的样本事实与第一训练样本的参考事实标签进行对比,识别二者是否匹配,从而判断候选答复生成模型在对应训练轮次需要进行训练的任务,并将其标记为候选答复生成模型在对应训练轮次的模型训练任务。
在样本事实与参考事实标签的匹配识别结果满足了事实答复一致性分类任务训练的预设条件的场景下,可以判定候选答复生成模型在对应训练轮次的模型训练任务为事实答复一致性分类任务。
在样本事实与参考事实标签的匹配识别结果满足了答复生成任务训练的预设条件的场景下,可以判定候选答复生成模型在对应训练轮次的模型训练任务为答复生成任务。
需要说明的是,针对候选答复生成模型在任一轮次的模型训练,可以仅对事实答复一致性分类任务进行训练,也可以仅对答复生成任务进行训练,还可以对事实答复一致性分类任务和答复生成任务一起进行训练,此处不做具体限定。
S103,获取候选答复生成模型在模型训练任务下的训练损失。
可选地,针对候选答复生成模型的任一轮次的模型训练,可以获取候选答复生成模型在该训练轮次下的模型训练任务,并获取候选答复生成模型在模型训练任务下的训练损失,进而得到候选答复生成模型的训练损失。
可选地,在候选答复生成模型的模型训练任务为事实答复一致性分类任务的场景下,可以获取候选答复生成模型在事实答复一致性分类任务下的损失,作为候选答复生成模型在当前训练轮次下的训练损失。
可选地,在候选答复生成模型的模型训练任务为事实答复一致性分类任务和答复生成任务的场景下,可以分别获取候选答复生成模型在事实答复一致性分类任务下的损失以及候选答复生成模型在答复生成任务下的损失,并将获取到的两个损失进行整合,从而得到候选答复生成模型在当前训练轮次下的训练损失。
S104,根据训练损失对候选答复生成模型进行参数调整,并返回获取下一样本对话上文对参数调整后的候选答复生成模型继续进行训练,直至训练结束,得到训练好的目标答复生成模型。
本公开实施例中,根据训练损失可以对候选答复生成模型的模型参数进行调整,并返回获取下一第一训练样本对参数调整后的候选答复生成模型继续进行训练,直至训练结束,得到训练好的目标答复生成模型。
可选地,可以基于训练轮次设置候选答复生成模型的训练结束条件,若当前轮次训练结束后的模型的训练轮次满足了预设的训练结束条件,即可结束模型训练,并将当前训练轮次所得到的候选答复生成模型确定为训练好的目标答复生成模型。
可选地,还可以基于模型输出结果设置候选答复生成模型的训练结束条件,若当前训练轮次候选答复生成模型的输出结果满足了预设的训练结束条件,即可结束模型训练,并将当前训练轮次所得到的候选答复生成模型确定为训练好的目标答复生成模型。
本公开提出的答复生成模型的训练方法,获取待训练的候选答复生成模型,以及候选答复生成模型的第一训练样本,从所述第一训练样本中获取样本对话上文、样本事实以及对应的参考事实标签,识别样本事实与参考事实是否匹配,并根据匹配识别结果确定候选答复生成模型在当前训练轮次中的模型训练任务,进而得到候选答复生成模型在模型训练任务下的训练损失。进一步地,根据训练损失调整候选答复生成模型的模型参数,并返回获取下一第一训练样本对模型参数调整后的候选答复生成模型继续进行训练,直至训练结束得到训练好的目标答复生成模型。本公开中,通过事实答复一致性分类任务以及答复生成学习任务的训练,使得候选答复生成模型在进行答复生成学习的同时,优化了模型生成的答复信息与事实信息的一致性,降低了模型生成的答复信息与事实信息的不一致所导致的机器错误答复的可能程度,使得训练好的目标答复生成模型所输出的答复信息在满足与人们阅读习惯之间的适配性的同时提高了答复信息的准确率,相较于相关技术中的模板式回复,无需进行答复模板的预配置,降低了获取答复信息的工作量,提高了答复信息的生成效率,进而提高了对用户端的答复效率,从而实现了用户的使用体验的优化。
上述实施例中,关于候选答复生成模型的模型训练损失的获取,可结合图2进一步理解,图2为本公开另一实施例的答复生成模型的训练方法的流程示意图,如图2所示,该方法包括:
S201,获取待训练的候选答复生成模型的第一训练样本,以及第一训练样本中的样本对话上文、样本事实和参考事实标签。
本公开实施例中,可以获取候选答复生成模型的训练样本集合,并针对当前轮次的模型训练,从获取到的训练样本集合中确定在当前轮次对候选答复生成模型进行模型训练的训练样本。
其中,可以获取历史对话上文的历史参考事实和历史参考答复语句,并对历史参考答复语句和历史参考事实分别进行扰动,得到历史参考答复语句的扰动答复语句和历史参考事实的扰动事实。
可选地,可以将历史时间范围内用户输入的对话上文标记为历史对话上文,并为历史对话上文获取对应的事实信息和答复语句,其中,可以将历史对话上文实际所需的事实信息标记为历史对话上文的历史参考事实,相应地,可以获取满足历史对话上文中的用户需求的答复语句,并标记为历史对话上文的历史参考答复语句。
在该场景下,可以基于预设的扰动方法,对历史参考答复语句和历史参考事实进行扰动,其中,可以将扰动后的历史参考答复语句标记为扰动答复语句,以及将扰动后的历史参考事实标记为扰动事实。
作为一种示例,如图3所示,可以通过图3示出的遮蔽语言模型(Masked LanguageModel,MLM)对历史参考事实和历史参考答复语句进行扰动,从而得到历史参考事实的扰动事实以及历史参考答复语句的扰动答复语句。
其中,设定历史对话上文标记为c,历史参考事实标记为k以及将历史参考答复语句标记为r,在该示例中,可以通过图3示出的MLM模型对标记为k的历史参考事实进行扰动,从而得到对应的扰动事实并标记为k_r,以及,通过图3示出的MLM模型对标记为r的历史参考答复语句进行扰动,从而得到对应的扰动答复语句并标记为r_r。
可选地,将历史参考事实和历史参考答复语句作为标签,生成历史对话上文和历史参考事实的第二训练样本,以及历史对话上文和扰动事实的第三训练样本。
其中,可以将历史对话上文作为样本对话上文,将历史参考事实作为样本事实,将历史参考事实以及历史参考答复语句作为样本对话上文和样本事实的标签生成对应的训练样本,并将该训练样本标记为第二训练样本。
作为一种示例,设定样本对话上文标记为c,历史参考事实和样本事实标记为k,以及将参考答复语句标记为r,并将k和r作为c和k的标签,从而得到第二训练样本(c,k)(k,r)。
相应地,可以将历史对话上文作为样本对话上文,将扰动事实作为样本事实,将历史参考事实以及历史参考答复语句作为样本对话上文和样本事实的标签生成对应的训练样本,并将该训练样本标记为第三训练样本。
作为一种示例,设定样本对话上文标记为c,历史参考事实标记为k,作为样本事实的扰动事实标记为k_r,将参考答复语句标记为r,并将k和r作为c和k_r的标签,从而得到第三训练样本(c,k_r)(k,r)。
可选地,基于第二训练样本和第三训练样本,获取候选答复生成模型的训练样本集合。
本公开实施例中,获取到第二训练样本以及第三训练样本后,可以对第二训练样本和第三训练样本进行组合,从而得到对应的样本集合,并将该样本集合标记为候选答复生成模型的训练样本集合。
在该场景下,可以从获取到的训练样本集合中,为候选答复生成模型的当前轮次的模型训练选择训练样本,并标记为候选答复生成模型的第一训练样本。
S202,识别样本事实与参考事实标签是否匹配,并根据识别结果确定候选答复生成模型的当前轮次的模型训练任务,其中,模型训练任务为事实答复一致性分类任务和答复生成学习任务中的至少一个。
本公开实施例中,可以将第一训练样本中的样本事实与标签中的参考事实标签进行对比,识别二者是否匹配,从而确定候选答复生成模型在当前轮次的模型训练任务。
在模型训练任务包括事实答复一致性分类任务以及答复生成学习任务中的至少一个的场景下,响应于识别到样本事实与参考事实标签匹配,确定候选答复生成模型的当前轮次的模型训练任务为事实答复一致性分类任务和答复生成学习任务。
可以理解为,当第一训练样本中的样本事实与参考事实标签匹配时,输入候选答复生成模型进行答复信息生成的样本事实中的知识信息是样本对话上文所需求的知识信息,在该场景下,可以确定候选答复生成模型的当前轮次的模型训练任务为事实答复一致性分类任务和答复生成学习任务。
相应地,响应于识别到样本事实与参考事实标签不匹配,确定候选答复生成模型的当前轮次的模型训练任务为事实答复一致性分类任务。
可以理解为,当第一训练样本中的样本事实与参考事实标签不匹配时,输入候选答复生成模型进行答复信息生成的样本事实中的知识信息不是样本对话上文所需求的知识信息,在该场景下,可以确定候选答复生成模型基于样本对话上文和样本事实所生成的答复信息不是样本对话上文所需的正确答复信息,在该场景下,可以仅对候选答复生成模型的事实答复一致性分类任务进行训练。
S203,获取候选答复生成模型在模型训练任务下的训练损失。
在候选答复生成模型的模型训练任务为事实答复一致性分类任务和答复生成学习任务的场景下,响应于模型训练任务为事实答复一致性分类任务和答复生成学习任务,获取候选答复生成模型基于样本对话上文和样本事实生成的第一输出答复。
可以理解为,当候选答复生成模型的模型训练任务包括了事实答复一致性分类任务和答复生成学习任务两个时,可以获取候选答复生成任务分别在事实答复一致性分类任务和答复生成学习任务下的损失,从而得到候选答复生成任务的总的训练损失。
其中,可以将第一训练样本输入候选答复生成模型,通过候选答复生成模型基于第一训练样本中的样本对话上文和样本事实,生成对应的答复信息,并标记为候选答复生成模型的第一输出答复。
可选地,可以通过候选答复生成模型对样本对话上文和样本事实进行双向编码,得到样本对话上文和样本事实的编码特征向量,并对编码特征向量进行单向编码,得到候选答复生成模型输出的第三输出答复,其中,第三输出答复为第一输出答复。
作为一种示例,如图3所示,图3示出的候选答复生成模型基于统一语言模型(Unified Language Model,UniLM)构建得到,在该场景下,可以通过图3示出的双向编码模块对第一训练样本中样本对话上文和样本事实进行双向编码,得到样本对话上文和样本事实的编码特征向量。
进一步,通过图3示出的单向编码模块对样本对话上文和样本事实的编码特征向量进行单向编码,从而生成样本对话上文的输出答复,并将该输出答复标记为第三输出答复。
其中,在第一训练样本中的样本事实为样本对话上文的历史参考事实的场景下,图3示出的候选答复生成模型的第三输出答复即为第一输出答复。
可选地,获取第一输出答复中携带的第一事实答复一致性标识符,并通过候选答复生成模型对第一事实答复一致性标识符进行分类,得到候选答复生成模型对第一输出答复的第一一致性分类结果。
本公开实施例中,第一输出答复携带有样本对话上文的答复语句,还携带有答复语句与参考事实标签是否一致的标识符,其中,可以将第一输出答复中携带的该标识符标记为第一事实答复一致性标识符。
在该场景下,可以通过候选答复生成模型的事实答复一致性分类任务的执行,对第一事实答复一致性标识符进行分类,识别第一事实答复一致性标识符是否为指示第一输出答复事实答复一致的标识符,从而得到第一事实答复一致性标识符的一致性分类结果,并将该一致性分类结果标记为第一一致性分类结果。
作为一种示例,如图3所示,可以通过图3示出的分类任务(classification,CLS)的执行,实现对第一输出答复中携带的第一事实答复一致性标识符的分类,识别携带有第一事实答复一致性标识符的第一输出答复中的答复信息是否与参考事实标签一致,进而得到对应的第一一致性分类结果。
本公开实施例中,第一输出答复是候选答复生成模型基于样本对话上文以及作为样本事实的历史参考事实生成,由此可知,第一输出答复中携带的第一事实答复一致性标识符为指示答复信息与参考事实标签中的事实信息相匹配的标识符。
可选地,获取样本对话上文的答复语句标签,以得到第一输出答复基于答复语句标签的第一损失值,以及获取样本对话上文的第一一致性标签,以得到第一一致性分类结果基于第一一致性标签的第二损失值。
本公开实施例中,可以将作为样本对话上文的标签中的参考答复语句,标记为答复语句标签。
在该场景下,可以基于相关技术中的损失值获取算法,对候选答复生成模型的第一输出答复和答复语句标签进行算法处理,从而得到第一输出答复基于答复语句标签的损失值,作为候选答复生成模型的第一损失值。
本公开实施例中,样本对话上文和样本事实的标签信息中,携带有第一输出答复的事实答复一致性的标签信息,可以将该标签信息标记为第一一致性标签。
在该场景下,可以基于相关技术中的分类损失获取算法,对第一一致性标签和第一一致性分类结果进行算法处理,从而得到第一一致性分类结果基于第一一致性标签的分类损失值作为第二损失值。
可选地,根据第一损失值和第二损失值,获取候选答复生成模型在模型训练任务下的训练损失。
本公开实施例中,可以分别获取第一损失值和第二损失值各自的权重,并基于二者各自的权重对第一损失值和第二损失值进行加权处理,从而得到候选答复生成模型在包括有事实答复一致性分类任务以及答复生成学习任务的模型训练任务下的训练损失。
在候选答复生成模型的模型训练任务为事实答复一致性分类任务的场景下,响应于模型训练任务为事实答复一致性分类任务,获取候选答复生成模型基于样本对话上文和样本事实生成的第二输出答复。
可选地,可以通过候选答复生成模型对样本对话上文和样本事实进行双向编码,得到样本对话上文和样本事实的编码特征向量,并对编码特征向量进行单向编码,得到候选答复生成模型输出的第三输出答复,其中,第三输出答复为第二输出答复。
作为一种示例,如图3所示,可以通过图3示出的双向编码模块对第一训练样本中样本对话上文和样本事实进行双向编码,得到样本对话上文和样本事实的编码特征向量。
进一步,通过图3示出的单向编码模块对样本对话上文和样本事实的编码特征向量进行单向编码,从而生成样本对话上文的输出答复,并将该输出答复标记为第三输出答复。
其中,在第一训练样本中的样本事实为样本对话上文的历史参考事实的扰动事实的场景下,图3示出的候选答复生成模型的第三输出答复即为第二输出答复。
可选地,获取第二输出答复中携带的第二事实答复一致性标识符,并通过候选答复生成模型对第二事实答复一致性标识符进行分类,得到候选答复生成模型对第二输出答复的第二一致性分类结果。
本公开实施例中,第二输出答复中携带有候选答复生成模型基于样本对话上文和样本事实生成的答复信息之外,还携带有该答复信息与事实信息的一致性标识,其中,可以将该标识标记为第二输出答复中携带的第二事实答复一致性标识符。
在该场景下,候选答复生成模型可以基于事实答复一致性分类任务的执行,识别第二事实答复一致性标识符的指示信息是否为答复信息和事实信息不一致,进而得到候选答复生成模型对第二输出答复的一致性分类结果,并标记为第二一致性分类结果。
作为一种示例,如图3所示,可以通过图3示出的CLS任务的执行,实现对第二输出答复中携带的第二事实答复一致性标识符的分类,识别携带有第二事实答复一致性标识符的第二输出答复中的答复信息是否与参考事实标签一致,进而得到对应的第二一致性分类结果。
本公开实施例中,第二输出答复是候选答复生成模型基于样本对话上文以及作为样本事实的扰动事实生成,由此可知,第二输出答复中携带的第二事实答复一致性标识符为指示答复信息与参考事实标签中的事实信息不匹配的标识符。
可选地,获取样本对话上文的第二一致性标签,以得到第二一致性分类结果基于第二一致性标签的第三损失值。
本公开实施例中,样本对话上文的标签信息中存在有对应的一致性标签信息,可以将该标签信息标记为第二一致性标签。
在该场景下,可以基于相关技术中的分类损失获取方法获取第二一致性分类结果基于第二一致性标签的分类损失值,并将该损失值标记为第三损失值。
可选地,根据第三损失值,获取候选答复生成模型在模型训练任务下的训练损失。
在模型训练任务仅为事实答复一致性分类任务的场景下,候选答复生成模型在事实答复一致性分类任务下的第三损失值,即为候选答复生成模型在模型训练任务下的训练损失。
本公开提出的答复生成模型的训练方法,若识别到样本事实与参考事实标签匹配,则可以确定候选答复生成模型的模型训练任务为事实答复一致性分类任务和答复生成学习任务,在该场景下,可以获取候选答复生成模型在事实答复一致性分类任务下的损失以及候选答复生成模型在答复生成学习任务的训练损失,从而得到候选答复生成模型在模型训练任务下总的训练损失。相应地,若识别到样本事实与参考事实标签不匹配,则可以确定候选答复生成模型的模型训练任务为事实答复一致性分类任务,在该场景下,可以获取候选答复生成模型在事实答复一致性分类任务下的训练损失,作为候选答复生成模型的总的训练损失。本公开中,通过事实答复一致性分类任务以及答复生成学习任务的训练,使得候选答复生成模型在进行答复生成学习的同时,优化了模型生成的答复信息与事实信息的一致性,降低了模型生成的答复信息与事实信息的不一致所导致的机器错误答复的可能程度,使得训练好的目标答复生成模型所输出的答复信息在满足与人们阅读习惯之间的适配性的同时提高了答复信息的准确率。
本公开还提出一种答复语句生成方法,可结合图4理解,图4为本公开一实施例的答复语句生成方法的流程示意图,如图4所示,该方法包括:
S401,获取用户端输入的对话上文,并获取对话上文对应的事实信息。
本公开实施例中,用户可以通过人机交互的操作界面输入携带有用户需求的语句,其中,可以将该语句标记为用户端输入的对话上文。
在该场景下,可以获取对话上文中携带的用户需求信息,并根据获取到的用户需求信息为对话上文查询对应的事实信息。
S402,获取训练好的目标答复生成模型,并将对话上文和事实信息输入目标答复生成模型中,通过目标答复生成模型生成对话上文的目标答复语句。
本公开实施例中,可以将训练好的答复生成模型标记为目标答复生成模型,其中,目标答复生成模型基于上述图1至图3实施例提出的答复生成模型的训练方法得到。
在该场景下,可以将用户端输入的对话上文和对话上文对应的事实信息输入目标答复生成模型中,通过目标答复生成模型对对话上文和事实信息进行双向编码,得到对应的编码特征向量后,进行答复语句生成的单向编码,进而得到目标答复生成模型基于对话上文和事实信息生成的答复语句,作为返回给用户端的目标答复语句。
本公开提出的答复语句生成方法,获取用户端输入的对话上文以及对话上文对应的事实信息后,可以将对话上文和事实信息输入训练好的目标答复生成模型中,通过目标答复生成模型输出对话上文的目标答复语句。本公开中,目标答复生成模型基于图1至图3实施例提出的答复生成模型的训练方法得到,使得训练好的目标答复生成模型可以在输出适配于人们阅读习惯的答复语句的同时,优化了答复语句中的答复信息与事实信息的一致性,提高了答复语句的生成准确率和生成效率,实现了用户的使用体验的优化。
上述几种实施例提出的答复生成模型的训练方法相对应,本公开的一个实施例还提出了一种答复生成模型的训练装置,由于本公开实施例提出的答复生成模型的训练装置与上述几种实施例提出的答复生成模型的训练方法相对应,因此上述的答复生成模型的训练方法的实施方式也适用于本公开实施例提出的答复生成模型的训练装置,在下述实施例中不再详细描述。
图5为本公开一实施例的答复生成模型的训练装置的结构示意图,如图5所示,答复生成模型的训练装置500,包括第一获取模块51、识别模块52、第二获取模块53和训练模块54,其中:
第一获取模块51,用于获取待训练的候选答复生成模型的第一训练样本,以及第一训练样本中的样本对话上文、样本事实和参考事实标签。
识别模块52,用于识别样本事实与参考事实标签是否匹配,并根据识别结果确定候选答复生成模型的当前轮次的模型训练任务,其中,模型训练任务为事实答复一致性分类任务和答复生成学习任务中的至少一个。
第二获取模块53,用于获取候选答复生成模型在模型训练任务下的训练损失。
训练模块54,用于根据训练损失对候选答复生成模型进行参数调整,并返回获取下一样本对话上文对参数调整后的候选答复生成模型继续进行训练,直至训练结束,得到训练好的目标答复生成模型。
本公开实施例中,识别模块52,还用于:响应于识别到样本事实与参考事实标签匹配,确定候选答复生成模型的当前轮次的模型训练任务为事实答复一致性分类任务和答复生成学习任务。响应于识别到样本事实与参考事实标签不匹配,确定候选答复生成模型的当前轮次的模型训练任务为事实答复一致性分类任务。
本公开实施例中,第二获取模块53,还用于:响应于模型训练任务为事实答复一致性分类任务和答复生成学习任务,获取候选答复生成模型基于样本对话上文和样本事实生成的第一输出答复。获取第一输出答复中携带的第一事实答复一致性标识符,并通过候选答复生成模型对第一事实答复一致性标识符进行分类,得到候选答复生成模型对第一输出答复的第一一致性分类结果。获取样本对话上文的答复语句标签,以得到第一输出答复基于答复语句标签的第一损失值,以及获取样本对话上文的第一一致性标签,以得到第一一致性分类结果基于第一一致性标签的第二损失值。根据第一损失值和第二损失值,获取候选答复生成模型在模型训练任务下的训练损失。
本公开实施例中,第二获取模块53,还用于:响应于模型训练任务为事实答复一致性分类任务,获取候选答复生成模型基于样本对话上文和样本事实生成的第二输出答复。获取第二输出答复中携带的第二事实答复一致性标识符,并通过候选答复生成模型对第二事实答复一致性标识符进行分类,得到候选答复生成模型对第二输出答复的第二一致性分类结果。获取样本对话上文的第二一致性标签,以得到第二一致性分类结果基于第二一致性标签的第三损失值。根据第三损失值,获取候选答复生成模型在模型训练任务下的训练损失。
本公开实施例中,第二获取模块53,还用于:通过候选答复生成模型对样本对话上文和样本事实进行双向编码,得到样本对话上文和样本事实的编码特征向量。对编码特征向量进行单向编码,得到候选答复生成模型输出的第三输出答复,其中,第三输出答复为第一输出答复和第二输出答复中的一个。
本公开实施例中,第一获取模块51,还用于:获取历史对话上文的历史参考事实和历史参考答复语句。对历史参考答复语句和历史参考事实分别进行扰动,得到历史参考答复语句的扰动答复语句和历史参考事实的扰动事实。将历史参考事实和历史参考答复语句作为标签,生成历史对话上文和历史参考事实的第二训练样本,以及历史对话上文和扰动事实的第三训练样本。基于第二训练样本和第三训练样本,获取候选答复生成模型的训练样本集合。
本公开提出的答复生成模型的训练装置,获取待训练的候选答复生成模型,以及候选答复生成模型的第一训练样本,从第一训练样本中获取样本对话上文、样本事实以及对应的参考事实标签,识别样本事实与参考事实是否匹配,并根据匹配识别结果确定候选答复生成模型在当前训练轮次中的模型训练任务,进而得到候选答复生成模型在模型训练任务下的训练损失。进一步地,根据训练损失调整候选答复生成模型的模型参数,并返回获取下一第一训练样本对模型参数调整后的候选答复生成模型继续进行训练,直至训练结束得到训练好的目标答复生成模型。本公开中,通过事实答复一致性分类任务以及答复生成学习任务的训练,使得候选答复生成模型在进行答复生成学习的同时,优化了模型生成的答复信息与事实信息的一致性,降低了模型生成的答复信息与事实信息的不一致所导致的机器错误答复的可能程度,使得训练好的目标答复生成模型所输出的答复信息在满足与人们阅读习惯之间的适配性的同时提高了答复信息的准确率,相较于相关技术中的模板式回复,无需进行答复模板的预配置,降低了获取答复信息的工作量,提高了答复信息的生成效率,进而提高了对用户端的答复效率,从而实现了用户的使用体验的优化。
上述几种实施例提出的答复语句生成方法相对应,本公开的一个实施例还提出了一种答复语句生成装置,由于本公开实施例提出的答复语句生成装置与上述几种实施例提出的答复语句生成方法相对应,因此上述的答复语句生成方法的实施方式也适用于本公开实施例提出的答复语句生成装置,在下述实施例中不再详细描述。
图6为本公开一实施例的答复语句生成装置的结构示意图,如图6所示,答复语句生成装置600,包括第三获取模块61和生成模块62,其中:
第三获取模块61,用于获取用户端输入的对话上文,并获取对话上文对应的事实信息。
生成模块62,用于获取训练好的目标答复生成模型,并将对话上文和事实信息输入目标答复生成模型中,通过目标答复生成模型生成对话上文的目标答复语句,其中,目标答复生成模型基于图1至图3实施例提出的答复生成模型的训练装置得到。
本公开提出的答复语句生成装置,获取用户端输入的对话上文以及对话上文对应的事实信息后,可以将对话上文和事实信息输入训练好的目标答复生成模型中,通过目标答复生成模型输出对话上文的目标答复语句。本公开中,目标答复生成模型基于图1至图3实施例提出的答复生成模型的训练方法得到,使得训练好的目标答复生成模型可以在输出适配于人们阅读习惯的答复语句的同时,优化了答复语句中的答复信息与事实信息的一致性,提高了答复语句的生成准确率和生成效率,实现了用户的使用体验的优化。
根据本公开的实施例,本公开还提出了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元706,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如答复生成模型的训练方法和/或答复语句生成方法。例如,在一些实施例中,答复生成模型的训练方法和/或答复语句生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的答复生成模型的训练方法和/或答复语句生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行答复生成模型的训练方法和/或答复语句生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提出给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提出与用户账号的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户账号显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户账号可以通过该键盘和该指向装置来将输入提出给计算机。其它种类的装置还可以用于提出与用户账号的交互;例如,提出给用户账号的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户账号的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户账号界面或者网络浏览器的用户账号计算机,用户账号可以通过该图形用户账号界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种答复生成模型的训练方法,其中,所述方法包括:
获取待训练的候选答复生成模型的第一训练样本,以及所述第一训练样本中的样本对话上文、样本事实和参考事实标签;
识别所述样本事实与所述参考事实标签是否匹配,并根据识别结果确定所述候选答复生成模型的当前轮次的模型训练任务,其中,所述模型训练任务为事实答复一致性分类任务和答复生成学习任务中的至少一个;
获取所述候选答复生成模型在所述模型训练任务下的训练损失;
根据所述训练损失对所述候选答复生成模型进行参数调整,并返回获取下一样本对话上文对参数调整后的候选答复生成模型继续进行训练,直至训练结束,得到训练好的目标答复生成模型。
2.根据权利要求1所述的方法,其中,所述识别所述样本事实与所述参考事实标签是否匹配,并根据识别结果确定所述候选答复生成模型的当前轮次的模型训练任务,其中,所述模型训练任务为事实答复一致性分类任务和答复生成学习任务中的至少一个,包括:
响应于识别到所述样本事实与所述参考事实标签匹配,确定所述候选答复生成模型的当前轮次的模型训练任务为事实答复一致性分类任务和答复生成学习任务;
响应于识别到所述样本事实与所述参考事实标签不匹配,确定所述候选答复生成模型的当前轮次的模型训练任务为事实答复一致性分类任务。
3.根据权利要求1所述的方法,其中,所述获取所述候选答复生成模型在所述模型训练任务下的训练损失,包括:
响应于所述模型训练任务为事实答复一致性分类任务和答复生成学习任务,获取所述候选答复生成模型基于所述样本对话上文和所述样本事实生成的第一输出答复;
获取所述第一输出答复中携带的第一事实答复一致性标识符,并通过所述候选答复生成模型对所述第一事实答复一致性标识符进行分类,得到所述候选答复生成模型对所述第一输出答复的第一一致性分类结果;
获取所述样本对话上文的答复语句标签,以得到所述第一输出答复基于所述答复语句标签的第一损失值,以及获取所述样本对话上文的第一一致性标签,以得到所述第一一致性分类结果基于所述第一一致性标签的第二损失值;
根据所述第一损失值和所述第二损失值,获取所述候选答复生成模型在所述模型训练任务下的所述训练损失。
4.根据权利要求1所述的方法,其中,所述获取所述候选答复生成模型在所述模型训练任务下的训练损失,包括:
响应于所述模型训练任务为事实答复一致性分类任务,获取所述候选答复生成模型基于所述样本对话上文和所述样本事实生成的第二输出答复;
获取所述第二输出答复中携带的第二事实答复一致性标识符,并通过所述候选答复生成模型对所述第二事实答复一致性标识符进行分类,得到所述候选答复生成模型对所述第二输出答复的第二一致性分类结果;
获取所述样本对话上文的第二一致性标签,以得到所述第二一致性分类结果基于所述第二一致性标签的第三损失值;
根据所述第三损失值,获取所述候选答复生成模型在所述模型训练任务下的所述训练损失。
5.根据权利要求3或4所述的方法,其中,所述获取所述候选答复生成模型基于所述样本对话上文和所述样本事实生成的第一输出答复,和/或,所述获取所述候选答复生成模型基于所述样本对话上文和所述样本事实生成的第二输出答复,包括:
通过所述候选答复生成模型对所述样本对话上文和所述样本事实进行双向编码,得到所述样本对话上文和所述样本事实的编码特征向量;
对所述编码特征向量进行单向编码,得到所述候选答复生成模型输出的第三输出答复,其中,所述第三输出答复为所述第一输出答复和所述第二输出答复中的一个。
6.根据权利要求1所述的方法,其中,所述获取待训练的候选答复生成模型的第一训练样本,以及所述第一训练样本中的样本对话上文、样本事实和参考事实标签之前,包括:
获取历史对话上文的历史参考事实和历史参考答复语句;
对所述历史参考答复语句和所述历史参考事实分别进行扰动,得到所述历史参考答复语句的扰动答复语句和所述历史参考事实的扰动事实;
将所述历史参考事实和所述历史参考答复语句作为标签,生成所述历史对话上文和所述历史参考事实的第二训练样本,以及所述历史对话上文和所述扰动事实的第三训练样本;
基于所述第二训练样本和所述第三训练样本,获取所述候选答复生成模型的训练样本集合。
7.一种答复语句生成方法,其特征在于,所述方法包括:
获取用户端输入的对话上文,并获取所述对话上文对应的事实信息;
获取训练好的目标答复生成模型,并将所述对话上文和所述事实信息输入所述目标答复生成模型中,通过所述目标答复生成模型生成所述对话上文的目标答复语句,其中,所述目标答复生成模型基于权利要求1-6任一项所述的答复生成模型的训练方法得到。
8.一种答复生成模型的训练装置,其中,所述装置包括:
第一获取模块,用于获取待训练的候选答复生成模型的第一训练样本,以及所述第一训练样本中的样本对话上文、样本事实和参考事实标签;
识别模块,用于识别所述样本事实与所述参考事实标签是否匹配,并根据识别结果确定所述候选答复生成模型的当前轮次的模型训练任务,其中,所述模型训练任务为事实答复一致性分类任务和答复生成学习任务中的至少一个;
第二获取模块,用于获取所述候选答复生成模型在所述模型训练任务下的训练损失;
训练模块,用于根据所述训练损失对所述候选答复生成模型进行参数调整,并返回获取下一样本对话上文对参数调整后的候选答复生成模型继续进行训练,直至训练结束,得到训练好的目标答复生成模型。
9.根据权利要求8所述的装置,其中,所述识别模块,还用于:
响应于识别到所述样本事实与所述参考事实标签匹配,确定所述候选答复生成模型的当前轮次的模型训练任务为事实答复一致性分类任务和答复生成学习任务;
响应于识别到所述样本事实与所述参考事实标签不匹配,确定所述候选答复生成模型的当前轮次的模型训练任务为事实答复一致性分类任务。
10.根据权利要求8所述的装置,其中,所述第二获取模块,还用于:
响应于所述模型训练任务为事实答复一致性分类任务和答复生成学习任务,获取所述候选答复生成模型基于所述样本对话上文和所述样本事实生成的第一输出答复;
获取所述第一输出答复中携带的第一事实答复一致性标识符,并通过所述候选答复生成模型对所述第一事实答复一致性标识符进行分类,得到所述候选答复生成模型对所述第一输出答复的第一一致性分类结果;
获取所述样本对话上文的答复语句标签,以得到所述第一输出答复基于所述答复语句标签的第一损失值,以及获取所述样本对话上文的第一一致性标签,以得到所述第一一致性分类结果基于所述第一一致性标签的第二损失值;
根据所述第一损失值和所述第二损失值,获取所述候选答复生成模型在所述模型训练任务下的所述训练损失。
11.根据权利要求8所述的装置,其中,所述第二获取模块,还用于:
响应于所述模型训练任务为事实答复一致性分类任务,获取所述候选答复生成模型基于所述样本对话上文和所述样本事实生成的第二输出答复;
获取所述第二输出答复中携带的第二事实答复一致性标识符,并通过所述候选答复生成模型对所述第二事实答复一致性标识符进行分类,得到所述候选答复生成模型对所述第二输出答复的第二一致性分类结果;
获取所述样本对话上文的第二一致性标签,以得到所述第二一致性分类结果基于所述第二一致性标签的第三损失值;
根据所述第三损失值,获取所述候选答复生成模型在所述模型训练任务下的所述训练损失。
12.根据权利要求10或11所述的装置,其中,所述第二获取模块,还用于:
通过所述候选答复生成模型对所述样本对话上文和所述样本事实进行双向编码,得到所述样本对话上文和所述样本事实的编码特征向量;
对所述编码特征向量进行单向编码,得到所述候选答复生成模型输出的第三输出答复,其中,所述第三输出答复为所述第一输出答复和所述第二输出答复中的一个。
13.根据权利要求8所述的装置,其中,所述第一获取模块,还用于:
获取历史对话上文的历史参考事实和历史参考答复语句;
对所述历史参考答复语句和所述历史参考事实分别进行扰动,得到所述历史参考答复语句的扰动答复语句和所述历史参考事实的扰动事实;
将所述历史参考事实和所述历史参考答复语句作为标签,生成所述历史对话上文和所述历史参考事实的第二训练样本,以及所述历史对话上文和所述扰动事实的第三训练样本;
基于所述第二训练样本和所述第三训练样本,获取所述候选答复生成模型的训练样本集合。
14.一种答复语句生成装置,其特征在于,所述装置包括:
第三获取模块,用于获取用户端输入的对话上文,并获取所述对话上文对应的事实信息;
生成模块,用于获取训练好的目标答复生成模型,并将所述对话上文和所述事实信息输入所述目标答复生成模型中,通过所述目标答复生成模型生成所述对话上文的目标答复语句,其中,所述目标答复生成模型基于权利要求8-13任一项所述的答复生成模型的训练装置得到。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6和/或权利要求7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6和/或权利要求7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6和/或权利要求7中任一项所述的方法。
CN202311352441.3A 2023-10-18 2023-10-18 答复生成模型的训练方法、答复语句生成方法和装置 Pending CN117370524A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311352441.3A CN117370524A (zh) 2023-10-18 2023-10-18 答复生成模型的训练方法、答复语句生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311352441.3A CN117370524A (zh) 2023-10-18 2023-10-18 答复生成模型的训练方法、答复语句生成方法和装置

Publications (1)

Publication Number Publication Date
CN117370524A true CN117370524A (zh) 2024-01-09

Family

ID=89396001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311352441.3A Pending CN117370524A (zh) 2023-10-18 2023-10-18 答复生成模型的训练方法、答复语句生成方法和装置

Country Status (1)

Country Link
CN (1) CN117370524A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118227770A (zh) * 2024-05-24 2024-06-21 阿里巴巴(中国)有限公司 任务处理方法、法律问答方法及任务处理模型训练方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118227770A (zh) * 2024-05-24 2024-06-21 阿里巴巴(中国)有限公司 任务处理方法、法律问答方法及任务处理模型训练方法
CN118227770B (zh) * 2024-05-24 2024-08-06 阿里巴巴(中国)有限公司 任务处理方法、法律问答方法及任务处理模型训练方法

Similar Documents

Publication Publication Date Title
KR20210092148A (ko) 시계열 지식그래프 생성 방법, 장치, 기기 및 매체
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN113590776B (zh) 基于知识图谱的文本处理方法、装置、电子设备及介质
CN114840671A (zh) 对话生成方法、模型的训练方法、装置、设备及介质
CN113360711A (zh) 视频理解任务的模型训练和执行方法、装置、设备及介质
CN117370524A (zh) 答复生成模型的训练方法、答复语句生成方法和装置
CN113468857B (zh) 风格转换模型的训练方法、装置、电子设备以及存储介质
CN112906368B (zh) 行业文本增量方法、相关装置及计算机程序产品
CN114037059A (zh) 预训练模型、模型的生成方法、数据处理方法及装置
CN117573507A (zh) 测试用例生成方法、装置、电子设备及存储介质
CN117271884A (zh) 确定推荐内容的方法、装置、电子设备及存储介质
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN113222414B (zh) 模型稳定性的评估方法、装置、电子设备和存储介质
CN112541557B (zh) 生成式对抗网络的训练方法、装置及电子设备
CN113886543A (zh) 生成意图识别模型的方法、装置、介质及程序产品
CN114817476A (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN116244432B (zh) 语言模型的预训练方法、装置及电子设备
CN113705206B (zh) 情感预测模型的训练方法、装置、设备及存储介质
CN117332068B (zh) 人机交互方法、装置、电子设备以及存储介质
CN114330345B (zh) 命名实体识别方法、训练方法、装置、电子设备及介质
CN117473153A (zh) 推送指数预测模型的训练方法和推送内容的获取方法
CN117493595A (zh) 基于大模型的图像搜索方法、装置、设备和介质
CN117391185A (zh) 基于大模型的学生模型生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination