CN117556005A

CN117556005A - 质量评估模型的训练方法、多轮对话质量评估方法和装置

Info

Publication number: CN117556005A
Application number: CN202311489773.6A
Authority: CN
Inventors: 赵珊珊; 李鸿宇; 赵玉琨; 邢国亮; 程智聪
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-11-09
Filing date: 2023-11-09
Publication date: 2024-02-13

Abstract

本公开提出了一种质量评估模型的训练方法、多轮对话质量评估方法和装置，涉及自然语言处理和深度学习等人工智能领域，包括：获取初始质量评估模型并对初始质量评估模型进行模型训练，得到训练好的候选质量评估模型；对第一样本多轮对话进行标注得到样本标注向量集合；根据样本标注向量集合对候选质量评估模型进行训练，得到训练好的目标质量评估模型。优化了候选质量评估模型对第一样本多轮对话的语义学习效果，提高了候选质量评估模型对于第一样本多轮对话的质量评估能力，提高了多轮对话的质量评估效率和精度，相较于依赖于人工实现的多轮对话的质量评估，降低了人工依赖程度和人工成本，并为下游任务提供了准确的数据支撑。

Description

质量评估模型的训练方法、多轮对话质量评估方法和装置

技术领域

本公开涉及数据处理领域，尤其涉及自然语言处理和深度学习等人工智能领域。

背景技术

随着技术的发展，对话服务成为热门的应用，其中，用户可以通过真人多轮对话获取所需的信息，在该场景下，可以对多轮对话进行质量评估，从而对多轮对话所提供的服务的质量进行衡量。

相关技术中，可以通过人工对多轮对话的质量进行评估，通过人工对多轮对话中答案的正确性专业性等相关参数进行评估，从而实现对多轮对话的质量评估，人工成本高。

发明内容

本公开提出了一种质量评估模型的训练方法、多轮对话质量评估方法和装置。

根据本公开的第一方面，提出了一种质量评估模型的训练方法，方法包括：获取待训练的初始质量评估模型，并对所述初始质量评估模型进行模型训练，得到训练好的候选质量评估模型；获取第一样本多轮对话并对所述第一样本多轮对话进行标注，得到所述第一样本多轮对话的样本标注向量集合；根据所述样本标注向量集合对所述候选质量评估模型进行训练，直至训练结束，得到训练好的目标质量评估模型。

根据本公开的第二方面，提出了一种多轮对话质量评估方法，方法包括：获取训练好的目标多轮对话质量评估模型，其中，所述目标多轮对话质量评估模型通过上述第一方面提出的质量评估模型的训练方法得到；获取待评估的多轮对话，并将所述多轮对话输入所述目标多轮对话质量评估模型，得到所述目标多轮对话质量评估模型输出的质量评估结果。

根据本公开的第三方面，提出了一种质量评估模型的训练装置，装置包括：第一训练模块，用于获取待训练的初始质量评估模型，并对所述初始质量评估模型进行模型训练，得到训练好的候选质量评估模型；第一获取模块，用于获取第一样本多轮对话并对所述第一样本多轮对话进行标注，得到所述第一样本多轮对话的样本标注向量集合；第二训练模块，用于根据所述样本标注向量集合对所述候选质量评估模型进行训练，直至训练结束，得到训练好的目标质量评估模型。

根据本公开的第四方面，提出了一种多轮对话质量评估装置，装置包括：第二获取模块，用于获取训练好的目标多轮对话质量评估模型，其中，所述目标多轮对话质量评估模型通过上述第三方面提出的质量评估模型的训练装置得到；评估模块，用于获取待评估的多轮对话，并将所述多轮对话输入所述目标多轮对话质量评估模型，得到所述目标多轮对话质量评估模型输出的质量评估结果。

根据本公开的第五方面，提出了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面提出的质量评估模型的训练方法和/或第二方面提出的多轮对话质量评估方法。

根据本公开的第六方面，提出了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述第一方面提出的质量评估模型的训练方法和/或第二方面提出的多轮对话质量评估方法。

根据本公开的第七方面，提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述第一方面提出的质量评估模型的训练方法和/或第二方面提出的多轮对话质量评估方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开一实施例的质量评估模型的训练方法的流程示意图；

图2为本公开另一实施例的质量评估模型的训练方法的流程示意图；

图3为本公开另一实施例的质量评估模型的训练方法的流程示意图；

图4为本公开另一实施例的质量评估模型的训练方法的流程示意图；

图5为本公开另一实施例的质量评估模型的训练方法的流程示意图；

图6为本公开一实施例的多轮对话质量评估方法的流程示意图；

图7为本公开一实施例的质量评估模型的训练装置的结构示意图；

图8为本公开一实施例的多轮对话质量评估装置的结构示意图；

图9为本公开一实施例的电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

数据处理(data processing)，是系统工程和自动控制的基本环节，数据是对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后，便成为信息。数据处理(data processing)是对数据的采集、存储、检索、加工、变换和传输，数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。

深度学习(Deep Learning，DL)，是机器学习领域中一个新的研究方向，深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

自然语言处理(Natural Language Processing,NLP)，是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统。

人工智能(Artificial Intelligence，AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。

图1为本公开一实施例的质量评估模型的训练方法的流程示意图，如图1所示，该方法包括：

S101，获取待训练的初始质量评估模型，并对初始质量评估模型进行模型训练，得到训练好的候选质量评估模型。

实现中，人们习惯于通过多轮次的真人对话实现信息获取，在该场景下，可以对多轮次的对话进行质量评估，从而识别对话过程中的提问者所得到的回答服务是否满足用户需求。

本公开实施例中，可以将用于进行多轮次对话质量评估的待训练模型，确定为初始质量评估模型。

可选地，可以获取样本用户的历史多轮对话以及历史多轮对话的质量评估标签，进而基于历史多轮对话以及历史多轮对话的质量评估标签得到对应的训练样本。

进一步地，根据该训练样本对初始质量评估模型进行训练，并将训练好的模型确定为候选质量评估模型。

S102，获取第一样本多轮对话并对第一样本多轮对话进行标注，得到第一样本多轮对话的样本标注向量集合。

本公开实施例中，可以对候选质量评估模型进行二次的模型训练，从而实现对训练好的候选质量评估模型的进一步地迭代优化。

其中，可以将对候选质量评估模型进行二次训练的样本多轮对话标记为第一样本多轮对话。

可选地，可以对第一样本多轮对话进行多次的标注，并将每次标注所得到的向量所组成的集合确定为样本标注向量集合。

其中，可以获取预设置的第一样本多轮对话的标注策略，并基于标注策略获取所述第一样本多轮对话中的待标注元素，并对待标注元素进行编码，从而得到第一样本多轮对话的样本标注向量集合。

S103，根据样本标注向量集合对候选质量评估模型进行训练，直至训练结束，得到训练好的目标质量评估模型。

本公开实施例中，可以将样本标注向量集合输入至候选质量评估模型中，通过候选质量评估模型对样本标注向量进行特征提取，并根据提取到的特征对第一样本多轮对话进行质量评估。

作为一种示例，如图2所示，可以将样本标注集合输入至图2示出的候选质量评估模型中，通过候选质量评估模型中的语言模型(ERNIE 2.0)进行样本标注向量集合中各向量的特征提取，从而得到第一样本多轮对话的词法、句法以及语义等维度上的特征表达。

进一步地，将图2示出的语言模型提取到的特征输入至图2示出的全连接层(Fullyconnected layer，FC)以及归一层(softmax)中，通过FC和softmax对语言模型提取到的特征进行质量评估，从而得到图2示出的候选质量评估模型对第一样本多轮对话的质量评估结果。

需要说明的是，质量评估结果可以为候选质量评估模型输出的三分类结果，其中，三分类可以包括优质解决、已解决和未解决等，此处不做具体限定。

可选地，可以根据候选质量评估模型输出的质量评估结果获取候选质量评估模型的训练损失，并根据训练损失对候选质量评估模型进行迭代优化，直至训练结束，将训练结束得到的候选质量评估模型确定为训练好的目标质量评估模型。

本公开提出的多轮对话质量评估模型的训练方法，对待训练的初始质量评估模型进行训练，得到训练好的候选质量评估模型，获取第一样本多轮对话，并对第一样本多轮对话进行标注，得到样本标注向量集合。根据样本标注向量集合对候选质量评估模型进行二次的模型训练，直至训练结束，得到训练好的目标质量评估模型。本公开中，通过对初始质量评估模型的训练得到候选质量评估模型，并通过对第一样本多轮对话进行标注得到的样本标注向量对候选质量评估模型进行二次训练，优化了候选质量评估模型对第一样本多轮对话的语义学习效果，提高了候选质量评估模型对于第一样本多轮对话的质量评估能力，进而优化了质量评估模型的训练方法和训练效果，在通过目标质量评估模型进行多轮对话的质量评估的场景下，提高了多轮对话的质量评估效率和精度，相较于依赖于人工实现的多轮对话的质量评估，降低了人工依赖程度和人工成本，并为下游任务提供了准确的数据支撑。

上述实施例中，关于第一样本多轮对话的标注，可结合图3理解，图3为本公开另一实施例的多轮对话质量评估模型的训练方法的流程示意图，如图3所示，该方法包括：

S301，获取第一样本多轮对话中的问题文本和问题文本的第一归结信息，以及第一样本多轮对话中的回答文本和问答文本的第二归结信息。

本公开实施例中，第一样本多轮对话中包括有问题文本和回答文本，其中，可以将提问部分对应的文本标记为第一样本多轮对话中的问题文本，将对提问部分中的问题文本进行答复的文本标记为第一样本多轮对话中的回答文本。

可选地，可以获取预设置的问题文本的第一归结项，以及问题文本在第一归结项下的第一特征值，并对第一特征值进行分桶，得到第一归结项的第一归结标识。

其中，可以将预设置的对问题文本的特征进行评估归纳的总结项，标记为问题文本的第一归结项，比如，可以基于问题分类、用户评分和问题价值三个维度对问题文本进行评估归纳，则问题文本的第一归结项即为问题分类项、用户评分项和问题价值项。

在该场景下，可以获取问题文本分别第一归结项下的第一特征值，并对的第一特征值进行分桶，从而得到问题文本在第一归结项下的第一归结标识。

作为一种示例，设定第一归结项为问题价值项，则可以将问题文本在问题价值项下的第一特征值进行分桶，其中，问题价值项下设置有低、中、高三个桶，在该示例中，可以分别获取低、中、高三桶各自的特征值区间，并将问题价值项下的第一特征值所属的特征值区间的对应桶，确定为第一特征值的所属桶。

在第一特征值的所属桶为中时，问题文本在问题价值项下的第一归结标识即为中。

可选地，根据第一归结项和第一归结标识，得到问题文本的第一归结信息，其中，可以将第一归结项和第一归结标识进行组合，并将组合后得到的信息确定为问题文本的第一归结信息。

作为一种示例，在上述示例的基础上可知，问题文本在作为第一归结项的问题价值项下的第一归结标识为中，则可以对问题价值项和中进行组合，并将组合得到的“问题价值项：中”确定为问题文本的第一归结信息。

可选地，获取预设置的回答文本的第二归结项，以及回答文本在第二归结项下的第二特征值，并对第二特征值进行分桶，得到第二归结项的第二归结标识。

其中，可以将预设置的对回答文本的特征进行评估归纳的总结项，标记为回答文本的第二归结项，比如，可以基于答主认证领域和用户反馈两个维度对回答文本进行评估归纳，则回答文本的第二归结项即为答主认证领域项和用户反馈项。

在该场景下，可以获取回答文本分别第二归结项下的第二特征值，并对的第二特征值进行分桶，从而得到回答文本在第二归结项下的第二归结标识。

作为一种示例，设定第二归结项为用户反馈项，则可以将回答文本在用户反馈项下的第二特征值进行分桶，其中，用户反馈项下设置有很低、低、中、高、很高五个桶，在该示例中，可以分别获取很低、低、中、高、很高五个桶各自的特征值区间，并将用户反馈项下的第二特征值所属的特征值区间的对应桶，确定为第二特征值的所属桶。

在第二特征值的所属桶为很高时，回答文本在用户反馈项下的第二归结标识即为很高。

可选地，根据第二归结项和第二归结标识，得到回答文本的第二归结信息。其中，可以将第二归结项和第二归结标识进行组合，并将组合后得到的信息确定为回答文本的第二归结信息。

作为一种示例，在上述示例的基础上可知，回答文本在作为第二归结项的用户反馈项下的第二归结标识为很高，则可以对用户反馈项和很高进行组合，并将组合得到的“用户反馈项：很高”确定为回答文本的第二归结信息。

S302，对问题文本、回答文本、第一归结信息和第二归结信息进行拼接，得到第一样本多轮对话的第一样本标注向量。

可选地，可以获取问题文本所属的提问轮次，并根据提问轮次生成问题文本的第一标注符号，第一标注符号包括问题文本的提问轮次序号。

本公开实施例中，第一样本多轮对话中包括有多个问题文本和多个回答文本，在该场景下，问题文本存在对应的提问轮次。

在该场景下，可以根据问题文本的所属提问轮次生成对应的标注符号，作为第一标注符号，其中，第一标注符号中包括有问题文本对应的提问轮次序号。

比如，针对第一样本多轮对话中的首个问题文本，其对应的提问轮次序号可以为1，在该场景下，可以基于该序号生成首个问题文本的第一标注符号“Q1”。

针对第一样本多轮对话中的第二个问题文本，其对应的提问轮次序号可以为2，在该场景下，可以基于该序号生成第二个问题文本的第一标注符号“Q2”。

可选地，获取回答文本所属的回答轮次，并根据回答轮次生成回答文本的第二标注符号，第二标注符号包括回答文本的回答轮次序号。

本公开实施例中，第一样本多轮对话中包括有多个问题文本和多个回答文本，在该场景下，回答文本存在其对应的回答轮次。

在该场景下，可以根据回答文本的所属回答轮次生成对应的标注符号，作为第二标注符号，其中，第二标注符号中包括有回答文本对应的提问轮次序号。

比如，针对第一样本多轮对话中的首个回答文本，其对应的回答轮次序号可以为1，在该场景下，可以基于该序号生成首个回答文本的第二标注符号“R1”。

针对第一样本多轮对话中的第二个回答文本，其对应的回答轮次序号可以为2，在该场景下，可以基于该序号生成第二个回答文本的第二标注符号“R2”。

可选地，可以获取第一归结信息和第二归结信息的第三标注符号。

本公开实施例中，可以为第一归结信息和第二归结信息设置对应的标注符号，作为第三标注符号。

比如，可以将第一归结信息的第三标注符号设定为“QF”，将第二归结信息的第三标注符号设定为“RF”。

可选地，基于第一标注符号、第二标注符号和第三标注符号，对问题文本、回答文本、第一归结信息和第二归结信息进行拼接，得到第一样本多轮对话的第一样本标注向量。

其中，可以获取第一样本多轮对话中，各问题文本、各回答文本、第一归结信息和第二归结信息之间的拼接顺序。

本公开实施例中，第一样本多轮对话中的各问题文本和各回答文本之间穿插出现，可以理解为，第一个问题文本后是第一个回答文本，第一个回答文本后是第二个回答文本，第二个回答文本后是第三个问题文本，依次类推。

在该场景下，可以对第一样本多轮对话进行问题文本和回答文本的识别，从而得到各问题文本和各回答文本之间的拼接顺序。

相应地，可以为第一归结信息和第二归结信息设置对应的位置，从而得到第一归结信息和第二归结信息的拼接顺序。

可选地，可以通过第一标注符号对问题文本进行标注，得到第一标注片段，以及通过第二标注符号对回答文本进行标注，得到第二标注片段，以及通过第三标注符号后缀对的第一归结信息和/或的第二归结信息进行标注，得到第三标注片段。

在该场景下，可以获取预设置的拼接符号，并通过拼接符号根据拼接顺序对第一标注片段、第二标注片段和第三标注片段进行拼接，得到第一样本标注向量。

作为一种示例，设定第一样本多轮对话中包括两个问题文本和三个回答文本，其中，第一个问题文本的第一标注符号为Q1，第二个问题文本的第一标注符号为Q2，第一个回答文本的第二标注符号为R1，第二个回答文本的第二标注符号为R2，第三个回答文本的第二标注符号为R3，第一归结信息的第三标注符号为QF，第二归结信息的第三标注符号为RF。

在该场景下，可以用Q1对第一个问题文本进行标注，得到第一标注片段Q1，以及用Q2对第二个问题文本进行标注，得到第一标注片段Q2。

相应地，用R1对第一个回答文本进行标注，得到第二标注片段R1，以及用R2对第二个回答文本进行标注，得到第二标注片段R2，以及用R3对第一个回答文本进行标注，得到第二标注片段R3。

以及，用QF对第一归结信息进行标注，得到第三标注片段QF，以及用RF对第二归结信息进行标注，得到第三标注片段RF。

进一步地，获取预设置的拼接符号。

作为一种示例，设定第一标注片段和第二标注片段之间的拼接符号为TURN，第一标注片段或者第二标注片段各自与第三标注片段之间的拼接符号为SEP，第一归结信息的第三标注片段与第二归结信息的第三标注片段之间的拼接符号为SEP。

则在该示例中，通过该部分拼接符号，按照获取到的拼接顺序对各第一标注片段、各第二标注片段和各第三标注片段进行拼接，从而得到图3示出的第一样本标注向量CLS，Q1，TURN，R1，TURN，Q2，TURN，R2，PARA，R3，SEP，QF，SEP，RF，SEP。

其中，CLS为第一样本标注向量的起始标注值。

需要说明的是，上述第一样本标注向量中，R3是在R2后的追答文本，在该场景下，响应于相邻拼接的两个片段为两个问题文本各自的第一标注片段，和/或两个回答文本各自的第二标注片段，获取预配置的第四标注符号，将第四标注符号添加至两个问题文本各自的第一标注片段之间，和/或两个回答文本各自的第二标注片段之间，得到添加后的第一样本标注向量。

本公开实施例中，多轮对话中存在可能问题文本和问题文本之间不存在回答文本，可以理解为，提问者可以在没有接收到回答的情况下，对其已经提出的问题进行追问，在该场景下，第一样本多轮对话中存在可能出现问题文本与问题文本相邻。

相应地，多轮对话中存在可能回答文本与回答文本之间不存在问题文本，可以理解为，答复者在对提问者提出的问题进行回答后，可以在提问者没有提出下一个问题的情况下，对其已经解答的内容进行追答，在该场景下，第一样本多轮对话中存在可能回答文本与回答文本相邻。

在该场景下，可以在相邻的两个问答文本各自的第一标注片段中间和/或相邻的两个回答文本各自的第二标注片段之间，插入预配置的第四标注符号。

作为一种示例，如图4所示，第四标注符号可以为PARA，在图4示出的第一样本标注向量中，R2和R3为相邻的两个回答文本各自的第二标注片段，在该场景下，可以在R2和R3中间插入第四标注符号PARA，从而得到图4示出的第一样本标注向量。

S303，对第一样本标注向量进行标注，得到第一样本标注向量的第二样本标注向量。

本公开实施例中，可以将第一样本标注向量划分为问题文本和回答文本部分、第一归结信息部分和第二归结信息部分，并分别对该三个部分进行标注，得到标注后的第二样本标注向量。

可选地，获取第一样本标注向量中，问题文本和回答文本的第一区域标注值，第一归结信息的第二区域标注值和第二归结信息的第三区域标注值。

其中，可以将标注问题文本和回答文本部分的标注值确定为第一区域标注值，将标注第一归结信息的标注值确定为第二区域标注值，以及将标注第二归结信息的标注值确定为第三区域标注值。

可选地，可以根据第一区域标注值、第二区域标注值和第三区域标注值对第一样本标注向量进行编码，得到第二样本标注向量。

其中，可以获取第一样本标注向量中，问题文本和回答文本、第一归结信息和第二归结信息之间的区域顺序，并根据区域顺序，对第一区域标注值、第二区域标注值和第三区域标注值进行排序，得到第二样本标注向量。

作为一种示例，如图3所示，在图3示出的第一样本标注向量中，问题文本和回答文本、第一归结信息和第二归结信息之间的区域顺序为CLS→Q1→TURN→R1→TURN→Q2→TURN→R2→PARA→R3→SEP→QF→SEP→RF→SEP。

其中，CLS→Q1→TURN→R1→TURN→Q2→TURN→R2→PARA→R3→SEP属于问题文本和回答文本对应的部分，则CLS、Q1、TURN、R1、TURN、Q2、TURN、R2、PARA、R3和SEP各自的标注值为第一区域标注值。

以及，QF→SEP为第一归结信息对应的部分，则QF和SEP各自的标注值为第二标注值。

以及，RF→SEP为第二归结信息对应的部分，则RF和SEP各自的标注值为第三标注值。

在该场景下，设定第一区域标注值为0，第二区域标注值为1，第三区域标注值为2，则根据第一区域标注值、第二区域标注值和第三区域标注值对图3示出的第一样本标注向量进行编码所得到的向量为图3示出的区域分隔维度下的第二样本标注向量000000000001122。

本公开实施例中，可以获取第一样本标注向量中各词元的顺序，并基于各词元的顺序进行第一样本标注向量的编码，得到第二样本标注向量。

可选地，可以获取第一样本标注向量的词元序列中各词元的词元顺序，并根据词元顺序对各词元的词元位置按序编码，得到第二样本标注向量。

以图3示出的第一样本标注向量为示例，如图3所示，第一样本标注向量中的词元序列为图3示出的CLS对应的词元，Q1对应的词元，TURN对应的词元，R1对应的词元，TURN对应的词元，Q2对应的词元，TURN对应的词元，R2对应的词元，PARA对应的词元，R3对应的词元，SEP对应的词元，QF对应的词元，SEP对应的词元，RF对应的词元和SEP对应的词元组成的序列，如图3所示，该词元序列中各词元的顺序为CLS→Q1→TURN→R1→TURN→Q2→TURN→R2→PARA→R3→SEP→QF→SEP→RF→SEP。

在该场景下，可以根据该词元顺序对第一样本标注向量进行编码，其中，可以根据词元顺序，获取词元序列中首个词元的词元位置的第一位置标注值。

作为一种示例，在图3示出的第一样本标注向量中，词元序列中位于首位的首个词元为CLS对应的词元，则可以将该词元所属词元位置上的标注值确定为第一位置标注值。

进一步地，获取对各词元的词元位置中任意两个相邻词元位置之间的位置标注差值，并根据第一位置标注值和位置标注差值，获取对各词元位置中除首个词元位置之外的剩余词元位置各自的第二位置标注值。

作为一种示例，设定首个词元的词元位置的第一位置标注值为0，任意两个相邻词元位置之间的位置标注差值为1，可以以0为首位，依次加1，从而得到除首个词元位置之外的剩余词元位置各自的第二位置标注值。

以图3示出的第一样本标注向量为例，CLS对应的词元的第一位置标注值为0，则除首个词元位置之外的剩余词元位置中的Q1对应的词元的第二位置标注值为1，TURN对应的词元的第二位置标注值为2，R1对应的词元的第二位置标注值为3，TURN对应的词元的第二位置标注值为4，Q2对应的词元的第二位置标注值为5，TURN对应的词元的第二位置标注值为6，R2对应的词元的第二位置标注值为7，PARA对应的词元的第二位置标注值为8，R3对应的词元的第二位置标注值为9，SEP对应的词元的第二位置标注值为10，QF对应的词元的第二位置标注值为11，SEP对应的词元的第二位置标注值为12，RF对应的词元的第二位置标注值为13和SEP对应的词元的第二位置标注值为14。

可选地，根据词元顺序，对第一位置标注值和各第二位置标注值进行排序，得到第二样本标注向量。

在上述示例的基础上，可以基于各词元的词元顺序对第一位置标注值和各第二位置标注值进行排序，进而得到图3示出的词元维度下的第二样本标注向量0,1,2,3,4,5,6,7,8,9,10,11,12,13,14。

本公开实施例中，第一样本多轮对话中存在有提问角色、回答角色以及第一归结信息和第二归结信息对应的归结角色，在该场景下，可以根据第一样本多轮对话中的角色对第一样本标注向量进行编码。

其中，可以获取第一样本标注向量中的问题文本的第一角色标注值、回答文本的第二角色标注值以及第一归结信息和第二归结信息的第三角色标注值，并根据第一角色标注值、第二角色标注值和第三角色标注值，对第一样本标注向量进行编码，得到第二样本标注向量。

本公开实施例中，可以将问题文本对应的角色确定为提问角色，并将对提问角色进行标注时采用的标准值确定为问题文本的第一角色标注值。相应地，可以将回答文本对应的角色确定为回答角色，并将对回答角色进行标注时采用的标准值确定为回答文本的第二角色标注值。

相应地，将对第一归结信息和第二归结信息对应的归结角色进行标注时所采用的标注值确定为第三角色标注值。

可选地，可以对第一样本标注向量中的各元素进行角色划分，从而识别出第一样本标注向量中属于提问角色的元素、属于回答角色的元素以及属于归结角色的元素，并基于第一角色标注值对属于提问角色的元素进行标注编码，基于第二角色标注值对属于回答角色的元素进行标注编码，以及基于第三角色标注值对属于归结角色的元素进行标注编码，从而得到编码后的第二样本标注向量。

其中，可以获取第一样本标注向量中问题文本、回答文本以及第一归结信息和第二归结信息之间的角色顺序，并根据角色顺序对第一角色标注值、第二角色标注值和第三角色标注值进行排序，得到第二样本标注向量。

以图3示出的第一样本标注向量为例，设定第一角色标注值为0，第二角色标注值为1，第三角色标注值为2。

如图3所示，第一样本标注向量中属于提问角色的元素包括CLS，Q1，TURN，Q2，TURN，则可以基于第一角色标注值0对该部分元素进行标注编码，属于回答角色的元素包括R1，TURN，R2，PARA，R3，SEP，则可以基于第二角色标注值1对该部分元素进行标注编码，以及，属于归结角色的元素包括QF，SEP，RF，SEP，则可以基于第三角色标注值2对该部分元素进行标注编码。

由图3示出的第一样本标注向量可知，问题文本、回答文本以及第一归结信息和第二归结信息之间的角色顺序为CLS→Q1→TURN→R1→TURN→Q2→TURN→R2→PARA→R3→SEP→QF→SEP→RF→SEP，则可以基于该顺序进行第一角色标注值0、第二角色标注值1和第三角色标注值3的排序，从而得到图3示出的角色维度下的第二样本标注向量0,0,0,1，1,0,0,1,1,1,1,2,2,2,2。

S304，根据第一样本标注向量和第二样本标注向量，得到样本标注向量集合。

本公开实施例中，第二样本标注向量为对第一样本标注向量进行多轮次的标注编码所得到的多个向量。

在该场景下，可以将第一样本标注向量和第二样本标注向量进行组合，从而得到输入候选质量评估模型进行训练的样本标注向量集合。

S305，根据样本标注向量集合对候选质量评估模型进行训练，直至训练结束，得到训练好的目标质量评估模型。

可选地，可以将样本标注向量集合输入候选质量评估模型，获取候选质量评估模型输出的第一质量评估结果。

作为一种示例，如图4所示，可以将样本标注向量集合输入至图4示出的候选质量评估模型中，通过候选质量评估模型中的语言模型提取样本标注向量中的词法、句法以及语义等相关维度的特征。

进一步地，通过图4示出的FC层和softmax层基于语言模型提出出的特征进行第一样本多轮对话的质量评估，从而输出图4示出的第一质量评估结果。

需要说明的是，第一质量评估结果可以为三分类结果，其中，三分类中的分类项可以包括优质解决、已解决和未解决，也可以包括其他多轮对话的质量评估项，此处不做具体限定。

可选地，获取第一样本多轮对话的第一评估标签，并基于第一质量评估结果和第一评估标签，获取候选质量评估模型的第一训练损失。

其中，可以将第一样本多轮对话的标签确定为第一评估标签，在该场景下，可以基于相关技术中的损失值获取算法对第一样本多轮对话的第一评估标签和第一质量评估结果进行算法处理，从而得到第一质量评估结果基于第一评估标签的损失值，并将该损失值确定为第一训练损失。

可选地，根据第一训练损失对候选质量评估模型进行调整，并返回获取下一第一样本多轮对话对参数调整后的候选质量评估模型继续训练，直至训练结束，得到训练好的目标质量评估模型。

其中，可以基于训练轮次设置候选质量评估模型的训练结束条件，针对当前轮次的模型训练，若该轮次满足了预设的训练结束条件，则可以结束对候选质量评估模型的训练，并将最后一个轮次训练结束得到的模型，确定为训练好的目标质量评估模型。

相应地，可以基于训练输出设置候选质量评估模型的训练结束条件，针对当前轮次的模型训练，若该轮次的模型输出结果满足了预设的训练结束条件，则可以结束对候选质量评估模型的训练，并将最后一个轮次训练结束得到的模型，确定为训练好的目标质量评估模型。

本公开提出的多轮对话质量评估模型的训练方法，获取第一样本多轮对话中的问题文本、回答文本以及问题文本的第一归结信息和回答文本的第二归结信息，对问题文本、回答文本、第一归结信息和第二归结信息进行拼接，得到第一样本标注向量，并通过对第一样本标注向量进行标注，得到第二样本标注向量，从而得到第一样本标注向量和第二样本标注向量组成的样本标注向量集合，并通过样本标注向量集合对候选质量评估模型进行训练，得到训练好的目标质量评估模型。本公开中，通过第一样本标注向量和第二样本标注向量实现了对第一样本多轮对话的精细化标注，降低了候选质量评估模型学习第一样本多轮对话中的词法、句法以及语义等相关维度的表达的学习难度，提高了候选质量评估模型对第一样本多轮对话的学习效果，进而优化了候选质量评估模型的训练效果，提高了基于候选质量评估模型得到的目标质量评估模型对多轮对话的质量评估的精度和准确度。

上述实施例中，关于初始质量评估模型的训练，可结合图5进一步理解，图5为本公开另一实施例的多轮对话质量评估模型的训练方法的流程示意图，如图5所示，该方法包括：

S501，获取初始质量评估模型的第二样本多轮对话，以及第二样本多轮对话的第二评估标签。

本公开实施例中，可以获取样本用户的历史多轮对话，并将历史多轮对话作为初始质量评估模型的第二样本多轮对话。

可选地，可以对第二样本多轮对话进行质量评估结果，并将该质量评估结果作为第二样本多轮对话的第二评估标签。

其中，第二评估标签可以通过对第二样本多轮对话进行地多维度的质量评估得到，比如，可以针对第二样本多轮对话中的回答文本对问题文本提出的疑问的解决程度进行评估，还可以针对第二样本多轮对话中的正确性和专业性等维度进行评估，此处不做具体限定。

S502，将第二样本多轮对话输入初始质量评估模型，得到初始质量评估模型输出的第二质量评估结果。

可选地，可以将第二样本多轮对话输入初始质量评估模型，通过初始质量评估模型对第二样本多轮对话中的词法、句法以及语义等相关特征维度进行特征提取。

进一步地，基于提取到的特征进行第二样本多轮对话的质量评估，通过初始质量评估模型的FC层和softmax层得到初始质量评估模型输出的第二样本多轮对话的质量评估结果，并将该结果标记为第二质量评估结果。

S503，基于第二质量评估结果和第二评估结果标签，得到初始质量评估模型的第二训练损失。

可选地，可以基于相关技术中的损失值算法，对第二质量评估结果和第二评估结果标签进行损失值算法处理，进而根据算法处理的结果得到第二质量评估结果基于第二评估结果标签的训练损失，作为第二训练损失。

其中，损失值算法可以为分类损失值算法，也可以为其他类型的损失值算法，此处不做具体限定。

S504，根据第二训练损失对初始质量评估模型进行参数调整，并返回获取下一第二样本多轮对话对调整后的初始质量评估模型继续进行训练，直至训练结束，得到训练好的候选质量评估模型。

可选地，可以基于训练轮次设置初始质量评估模型的训练结束条件，针对当前轮次的模型训练，若该轮次满足了预设的训练结束条件，则可以结束对初始质量评估模型的训练，并将最后一个轮次训练结束得到的模型，确定为训练好的候选质量评估模型。

可选地，可以基于训练输出设置初始质量评估模型的训练结束条件，针对当前轮次的模型训练，若该轮次的模型输出结果满足了预设的训练结束条件，则可以结束对初始质量评估模型的训练，并将最后一个轮次训练结束得到的模型，确定为训练好的候选质量评估模型。

本公开提出的质量评估模型的训练方法，获取待训练的初始质量评估模型，并通过第二样本多轮对话对初始质量评估模型进行训练，直至训练结束，得到训练好的候选质量评估模型。本公开中，通过第二样本多轮对话对初始质量评估模型进行模型训练，使得训练好的候选质量评估模型巨具备了多轮对话的质量评估能力，为后续模型的二次训练提供了基础。

本公开还提出一种多轮对话的质量评估方法，可结合图6理解，图6为本公开一实施例的多轮对话的质量评估方法的流程示意图，如图6所示，该方法包括：

S601，获取训练好的目标多轮对话质量评估模型。

本公开实施例中，可以将用于多轮对话进行质量评估的模型确定为训练好的目标多轮对话质量评估模型。

其中，目标多轮对话质量评估模型通过图1至图5实施例提出的质量评估模型的训练方法得到。

S602，获取待评估的多轮对话，并将多轮对话输入目标多轮对话质量评估模型，得到目标多轮对话质量评估模型输出的质量评估结果。

可选地，可以将待评估的多轮对话输入训练好的目标多轮对话质量评估模型中，通过目标多轮对话质量模型中的语言模型对多轮对话中的词法、句法以及语义等相关维度的表达特征进行提取。

进一步地，基于目标多轮对话质量评估模型中的FC层和softmax层对提取到的特征进行质量评估，从而得到待评估的多类对话的质量评估结果。

本公开提出的多轮对话的质量评估方法，获取训练好的目标多轮对话质量评估模型，并将待评估的多轮对话输入目标多轮对话质量评估模型中，进而得到目标多轮对话质量评估模型输出的质量评估结果。本公开中，通过目标多轮对话质量评估模型实现多轮对话的质量评估，相较于依赖于人工实现的多轮对话的质量评估，降低了人工依赖程度和人工成本，提高了多轮对话的质量评估精度和质量评估效率，优化了多轮对话的质量评估方法，进而为下游任务提供了准确的数据支撑。

上述几种实施例提出的质量评估模型的训练方法相对应，本公开的一个实施例还提出了一种质量评估模型的训练装置，由于本公开实施例提出的质量评估模型的训练装置与上述几种实施例提出的质量评估模型的训练方法相对应，因此上述的质量评估模型的训练方法的实施方式也适用于本公开实施例提出的质量评估模型的训练装置，在下述实施例中不再详细描述。

图7为本公开一实施例的质量评估模型的训练装置的结构示意图，如图7所示，质量评估模型的训练装置700，包括第一训练模块71、第一获取模块72和第二训练模块73，其中：

第一训练模块71，用于获取待训练的初始质量评估模型，并对初始质量评估模型进行模型训练，得到训练好的候选质量评估模型。

第一获取模块72，用于获取第一样本多轮对话并对第一样本多轮对话进行标注，得到第一样本多轮对话的样本标注向量集合。

第二训练模块73，用于根据样本标注向量集合对候选质量评估模型进行训练，直至训练结束，得到训练好的目标质量评估模型。

本公开实施例中，第一获取模块72，还用于：获取第一样本多轮对话中的问题文本和问题文本的第一归结信息，以及第一样本多轮对话中的回答文本和问答文本的第二归结信息。对问题文本、回答文本、第一归结信息和第二归结信息进行拼接，得到第一样本多轮对话的第一样本标注向量。对第一样本标注向量进行标注，得到第一样本标注向量的第二样本标注向量。根据第一样本标注向量和第二样本标注向量，得到样本标注向量集合。

本公开实施例中，第一获取模块72，还用于：获取预设置的问题文本的第一归结项，以及问题文本在第一归结项下的第一特征值。对第一特征值进行分桶，得到第一归结项的第一归结标识。根据第一归结项和第一归结标识，得到问题文本的第一归结信息。

本公开实施例中，第一获取模块72，还用于：获取预设置的回答文本的第二归结项，以及回答文本在第二归结项下的第二特征值。对第二特征值进行分桶，得到第二归结项的第二归结标识。根据第二归结项和第二归结标识，得到回答文本的第二归结信息。

本公开实施例中，第一获取模块72，还用于：获取问题文本所属的提问轮次，并根据提问轮次生成问题文本的第一标注符号，第一标注符号包括问题文本的提问轮次序号。获取回答文本所属的回答轮次，并根据回答轮次生成回答文本的第二标注符号，第二标注符号包括回答文本的回答轮次序号。获取第一归结信息和第二归结信息的第三标注符号。基于第一标注符号、第二标注符号和第三标注符号，对问题文本、回答文本、第一归结信息和第二归结信息进行拼接，得到第一样本多轮对话的第一样本标注向量。

本公开实施例中，第一获取模块72，还用于：获取第一样本多轮对话中，各问题文本、各回答文本、第一归结信息和第二归结信息之间的拼接顺序；通过第一标注符号对问题文本进行标注，得到第一标注片段；通过第二标注符号对回答文本进行标注，得到第二标注片段；通过第三标注符号后缀对的第一归结信息和/或的第二归结信息进行标注，得到第三标注片段；获取预设置的拼接符号，并通过拼接符号根据拼接顺序对第一标注片段、第二标注片段和第三标注片段进行拼接，得到第一样本标注向量。

本公开实施例中，第一获取模块72，还用于：响应于相邻拼接的两个片段为两个问题文本各自的第一标注片段，和/或两个回答文本各自的第二标注片段，获取预配置的第四标注符号。将第四标注符号添加至两个问题文本各自的第一标注片段之间，和/或两个回答文本各自的第二标注片段之间，得到添加后的第一样本标注向量。

本公开实施例中，第一获取模块72，还用于：获取第一样本标注向量中，问题文本和回答文本的第一区域标注值，第一归结信息的第二区域标注值和第二归结信息的第三区域标注值。根据第一区域标注值、第二区域标注值和第三区域标注值对第一样本标注向量进行编码，得到第二样本标注向量。

本公开实施例中，第一获取模块72，还用于：获取第一样本标注向量中，问题文本和回答文本、第一归结信息和第二归结信息之间的区域顺序。根据区域顺序，对第一区域标注值、第二区域标注值和第三区域标注值进行排序，得到第二样本标注向量。

本公开实施例中，第一获取模块72，还用于：获取第一样本标注向量的词元序列中各词元的词元顺序。根据词元顺序对各词元的词元位置按序编码，得到第二样本标注向量。

本公开实施例中，第一获取模块72，还用于：根据词元顺序，获取词元序列中首个词元的词元位置的第一位置标注值。获取对各词元的词元位置中任意两个相邻词元位置之间的位置标注差值。根据第一位置标注值和位置标注差值，获取对各词元位置中除首个词元位置之外的剩余词元位置各自的第二位置标注值。根据词元顺序，对第一位置标注值和各第二位置标注值进行排序，得到第二样本标注向量。

本公开实施例中，第一获取模块72，还用于：获取第一样本标注向量中的问题文本的第一角色标注值、回答文本的第二角色标注值以及第一归结信息和第二归结信息的第三角色标注值。根据第一角色标注值、第二角色标注值和第三角色标注值，对第一样本标注向量进行编码，得到第二样本标注向量。

本公开实施例中，第一获取模块72，还用于：获取第一样本标注向量中问题文本、回答文本以及第一归结信息和第二归结信息之间的角色顺序。根据角色顺序对第一角色标注值、第二角色标注值和第三角色标注值进行排序，得到第二样本标注向量。

本公开实施例中，第二训练模块73，还用于：将样本标注向量集合输入候选质量评估模型，获取候选质量评估模型输出的第一质量评估结果。获取第一样本多轮对话的第一评估标签，并基于第一质量评估结果和第一评估标签，获取候选质量评估模型的第一训练损失。根据第一训练损失对候选质量评估模型进行调整，并返回获取下一第一样本多轮对话对参数调整后的候选质量评估模型继续训练，直至训练结束，得到训练好的目标质量评估模型。

本公开实施例中，第一训练模块71，还用于：获取初始质量评估模型的第二样本多轮对话，以及第二样本多轮对话的第二评估标签。将第二样本多轮对话输入初始质量评估模型，得到初始质量评估模型输出的第二质量评估结果。基于第二质量评估结果和第二评估结果标签，得到初始质量评估模型的第二训练损失。根据第二训练损失对初始质量评估模型进行参数调整，并返回获取下一第二样本多轮对话对调整后的初始质量评估模型继续进行训练，直至训练结束，得到训练好的候选质量评估模型。

本公开提出的多轮对话质量评估模型的训练装置，对待训练的初始质量评估模型进行训练，得到训练好的候选质量评估模型，获取第一样本多轮对话，并对第一样本多轮对话进行标注，得到样本标注向量集合。根据样本标注向量集合对候选质量评估模型进行二次的模型训练，直至训练结束，得到训练好的目标质量评估模型。本公开中，通过对初始质量评估模型的训练得到候选质量评估模型，并通过对第一样本多轮对话进行标注得到的样本标注向量对候选质量评估模型进行二次训练，优化了候选质量评估模型对第一样本多轮对话的语义学习效果，提高了候选质量评估模型对于第一样本多轮对话的质量评估能力，进而优化了质量评估模型的训练方法和训练效果，在通过目标质量评估模型进行多轮对话的质量评估的场景下，提高了多轮对话的质量评估效率和精度，相较于依赖于人工实现的多轮对话的质量评估，降低了人工依赖程度和人工成本，并为下游任务提供了准确的数据支撑。

上述几种实施例提出的多轮对话质量评估方法相对应，本公开的一个实施例还提出了一种多轮对话质量评估装置，由于本公开实施例提出的多轮对话质量评估装置与上述几种实施例提出的多轮对话质量评估方法相对应，因此上述的多轮对话质量评估方法的实施方式也适用于本公开实施例提出的多轮对话质量评估装置，在下述实施例中不再详细描述。

图8为本公开一实施例的多轮对话质量评估装置的结构示意图，如图8所示，多轮对话质量评估装置800，包括第二获取模块81和评估模块82，

第二获取模块81，用于获取训练好的目标多轮对话质量评估模型，其中，目标多轮对话质量评估模型通过图7实施例提出的质量评估模型的训练装置得到。

评估模块82，用于获取待评估的多轮对话，并将多轮对话输入目标多轮对话质量评估模型，得到目标多轮对话质量评估模型输出的质量评估结果。

本公开提出的多轮对话的质量评估装置，获取训练好的目标多轮对话质量评估模型，并将待评估的多轮对话输入目标多轮对话质量评估模型中，进而得到目标多轮对话质量评估模型输出的质量评估结果。本公开中，通过目标多轮对话质量评估模型实现多轮对话的质量评估，相较于依赖于人工实现的多轮对话的质量评估，降低了人工依赖程度和人工成本，提高了多轮对话的质量评估精度和质量评估效率，优化了多轮对话的质量评估方法，进而为下游任务提供了准确的数据支撑。

根据本公开的实施例，本公开还提出了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元906，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如质量评估模型的训练方法和/或多轮对话质量评估方法。例如，在一些实施例中，质量评估模型的训练方法和/或多轮对话质量评估方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的质量评估模型的训练方法和/或多轮对话质量评估方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行质量评估模型的训练方法和/或多轮对话质量评估方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提出给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提出与用户账号的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户账号显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户账号可以通过该键盘和该指向装置来将输入提出给计算机。其它种类的装置还可以用于提出与用户账号的交互；例如，提出给用户账号的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户账号的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户账号界面或者网络浏览器的用户账号计算机，用户账号可以通过该图形用户账号界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种质量评估模型的训练方法，其中，所述方法包括：

获取待训练的初始质量评估模型，并对所述初始质量评估模型进行模型训练，得到训练好的候选质量评估模型；

获取第一样本多轮对话并对所述第一样本多轮对话进行标注，得到所述第一样本多轮对话的样本标注向量集合；

根据所述样本标注向量集合对所述候选质量评估模型进行训练，直至训练结束，得到训练好的目标质量评估模型。

2.根据权利要求1所述的方法，其中，所述获取第一样本多轮对话并对所述第一样本多轮对话进行标注，得到所述第一样本多轮对话的样本标注向量，包括：

获取所述第一样本多轮对话中的问题文本和所述问题文本的第一归结信息，以及所述第一样本多轮对话中的回答文本和所述问答文本的第二归结信息；

对所述问题文本、所述回答文本、所述第一归结信息和所述第二归结信息进行拼接，得到所述第一样本多轮对话的第一样本标注向量；

对所述第一样本标注向量进行标注，得到所述第一样本标注向量的第二样本标注向量；

根据所述第一样本标注向量和所述第二样本标注向量，得到所述样本标注向量集合。

3.根据权利要求2所述的方法，其中，所述获取所述第一样本多轮对话中的问题文本和所述问题文本的第一归结信息，包括：

获取预设置的所述问题文本的第一归结项，以及所述问题文本在所述第一归结项下的第一特征值；

对所述第一特征值进行分桶，得到所述第一归结项的第一归结标识；

根据所述第一归结项和所述第一归结标识，得到所述问题文本的所述第一归结信息。

4.根据权利要求2所述的方法，其中，所述获取所述第一样本多轮对话中的回答文本和所述问答文本的第二归结信息，包括：

获取预设置的所述回答文本的第二归结项，以及所述回答文本在所述第二归结项下的第二特征值；

对所述第二特征值进行分桶，得到所述第二归结项的第二归结标识；

根据所述第二归结项和所述第二归结标识，得到所述回答文本的所述第二归结信息。

5.根据权利要求2所述的方法，其中，所述对所述问题文本、所述回答文本、所述第一归结信息和所述第二归结信息进行拼接，得到所述第一样本多轮对话的第一样本标注向量，包括：

获取所述问题文本所属的提问轮次，并根据所述提问轮次生成所述问题文本的第一标注符号，所述第一标注符号包括所述问题文本的提问轮次序号；

获取所述回答文本所属的回答轮次，并根据所述回答轮次生成所述回答文本的第二标注符号，所述第二标注符号包括所述回答文本的回答轮次序号；

获取所述第一归结信息和所述第二归结信息的第三标注符号；

基于所述第一标注符号、所述第二标注符号和所述第三标注符号，对所述问题文本、所述回答文本、所述第一归结信息和所述第二归结信息进行拼接，得到所述第一样本多轮对话的第一样本标注向量。

6.根据权利要求5所述的方法，其中，所述基于所述第一标注符号、所述第二标注符号和所述第三标注符号，对所述问题文本、所述回答文本、所述第一归结信息和所述第二归结信息进行拼接，得到所述第一样本多轮对话的第一样本标注向量，包括：

获取所述第一样本多轮对话中，各问题文本、各回答文本、所述第一归结信息和所述第二归结信息之间的拼接顺序；

通过所述第一标注符号对问题文本进行标注，得到第一标注片段；

通过所述第二标注符号对回答文本进行标注，得到第二标注片段；

通过所述第三标注符号后缀对的第一归结信息和/或的第二归结信息进行标注，得到第三标注片段；

获取预设置的拼接符号，并通过所述拼接符号根据所述拼接顺序对所述第一标注片段、所述第二标注片段和所述第三标注片段进行拼接，得到所述第一样本标注向量。

7.根据权利要求6所述的方法，其中，所述方法还包括：

响应于相邻拼接的两个片段为两个问题文本各自的第一标注片段，和/或两个回答文本各自的第二标注片段，获取预配置的第四标注符号；

将所述第四标注符号添加至两个问题文本各自的第一标注片段之间，和/或两个回答文本各自的第二标注片段之间，得到添加后的所述第一样本标注向量。

8.根据权利要求2所述的方法，其中，所述对所述第一样本标注向量进行标注，得到所述第一样本标注向量的第二样本标注向量，包括：

获取所述第一样本标注向量中，所述问题文本和所述回答文本的第一区域标注值，所述第一归结信息的第二区域标注值和所述第二归结信息的第三区域标注值；

根据所述第一区域标注值、所述第二区域标注值和所述第三区域标注值对所述第一样本标注向量进行编码，得到所述第二样本标注向量。

9.根据权利要求8所述的方法，其中，所述根据所述第一区域标注值、所述第二区域标注值和所述第三区域标注值对所述第一样本标注向量进行编码，得到所述第二样本标注向量，包括：

获取所述第一样本标注向量中，所述问题文本和所述回答文本、所述第一归结信息和所述第二归结信息之间的区域顺序；

根据所述区域顺序，对所述第一区域标注值、所述第二区域标注值和所述第三区域标注值进行排序，得到所述第二样本标注向量。

10.根据权利要求2所述的方法，其中，所述对所述第一样本标注向量进行标注，得到所述第一样本标注向量的第二样本标注向量，包括：

获取所述第一样本标注向量的词元序列中各词元的词元顺序；

根据所述词元顺序对各词元的词元位置按序编码，得到所述第二样本标注向量。

11.根据权利要求10所述的方法，其中，所述根据所述词元顺序对各词元的词元位置按序编码，得到所述第二样本标注向量，包括：

根据所述词元顺序，获取所述词元序列中首个词元的词元位置的第一位置标注值；

获取对各词元的词元位置中任意两个相邻词元位置之间的位置标注差值；

根据所述第一位置标注值和所述位置标注差值，获取对各词元位置中除首个词元位置之外的剩余词元位置各自的第二位置标注值；

根据所述词元顺序，对所述第一位置标注值和各第二位置标注值进行排序，得到所述第二样本标注向量。

12.根据权利要求2所述的方法，其中，所述对所述第一样本标注向量进行标注，得到所述第一样本标注向量的第二样本标注向量，包括：

获取所述第一样本标注向量中的问题文本的第一角色标注值、所述回答文本的第二角色标注值以及所述第一归结信息和所述第二归结信息的第三角色标注值；

根据所述第一角色标注值、所述第二角色标注值和所述第三角色标注值，对所述第一样本标注向量进行编码，得到所述第二样本标注向量。

13.根据权利要求12所述的方法，其中，所述根据所述第一角色标注值、所述第二角色标注值和所述第三角色标注值，对所述第一样本标注向量进行编码，得到所述第二样本标注向量，包括：

获取所述第一样本标注向量中所述问题文本、所述回答文本以及所述第一归结信息和所述第二归结信息之间的角色顺序；

根据所述角色顺序对所述第一角色标注值、所述第二角色标注值和所述第三角色标注值进行排序，得到所述第二样本标注向量。

14.根据权利要求1所述的方法，其中，所述根据所述样本标注向量集合对所述候选质量评估模型进行训练，直至训练结束，得到训练好的目标质量评估模型，包括：

将所述样本标注向量集合输入所述候选质量评估模型，获取所述候选质量评估模型输出的第一质量评估结果；

获取所述第一样本多轮对话的第一评估标签，并基于所述第一质量评估结果和所述第一评估标签，获取所述候选质量评估模型的第一训练损失；

根据所述第一训练损失对所述候选质量评估模型进行调整，并返回获取下一第一样本多轮对话对参数调整后的候选质量评估模型继续训练，直至训练结束，得到训练好的目标质量评估模型。

15.根据权利要求1所述的方法，其中，所述获取待训练的初始质量评估模型，并对所述初始质量评估模型进行模型训练，得到训练好的候选质量评估模型，包括：

获取所述初始质量评估模型的第二样本多轮对话，以及所述第二样本多轮对话的第二评估标签；

将所述第二样本多轮对话输入所述初始质量评估模型，得到所述初始质量评估模型输出的第二质量评估结果；

基于所述第二质量评估结果和所述第二评估结果标签，得到所述初始质量评估模型的第二训练损失；

根据所述第二训练损失对所述初始质量评估模型进行参数调整，并返回获取下一第二样本多轮对话对调整后的初始质量评估模型继续进行训练，直至训练结束，得到训练好的所述候选质量评估模型。

16.一种多轮对话质量评估方法，其中，所述方法包括：

获取训练好的目标多轮对话质量评估模型，其中，所述目标多轮对话质量评估模型通过上述权利要求1-15任一项所述的质量评估模型的训练方法得到；

获取待评估的多轮对话，并将所述多轮对话输入所述目标多轮对话质量评估模型，得到所述目标多轮对话质量评估模型输出的质量评估结果。

17.一种质量评估模型的训练装置，其中，所述装置包括：

第一训练模块，用于获取待训练的初始质量评估模型，并对所述初始质量评估模型进行模型训练，得到训练好的候选质量评估模型；

第一获取模块，用于获取第一样本多轮对话并对所述第一样本多轮对话进行标注，得到所述第一样本多轮对话的样本标注向量集合；

第二训练模块，用于根据所述样本标注向量集合对所述候选质量评估模型进行训练，直至训练结束，得到训练好的目标质量评估模型。

18.根据权利要求17所述的装置，其中，所述第一获取模块，还用于：

19.根据权利要求18所述的装置，其中，所述第一获取模块，还用于：

20.根据权利要求18所述的装置，其中，所述第一获取模块，还用于：

21.根据权利要求18所述的装置，其中，所述第一获取模块，还用于：

22.根据权利要求21所述的装置，其中，所述第一获取模块，还用于：

23.根据权利要求22所述的装置，其中，所述第一获取模块，还用于：

24.根据权利要求18所述的装置，其中，所述第一获取模块，还用于：

25.根据权利要求24所述的装置，其中，所述第一获取模块，还用于：

26.根据权利要求18所述的装置，其中，所述第一获取模块，还用于：

27.根据权利要求26所述的装置，其中，所述第一获取模块，还用于：

28.根据权利要求18所述的装置，其中，所述第一获取模块，还用于：

29.根据权利要求28所述的装置，其中，所述第一获取模块，还用于：

30.根据权利要求17所述的装置，其中，所述第二训练模块，还用于：

31.根据权利要求17所述的装置，其中，所述第一训练模块，还用于：

32.一种多轮对话质量评估装置，其中，所述装置包括：

第二获取模块，用于获取训练好的目标多轮对话质量评估模型，其中，所述目标多轮对话质量评估模型通过上述权利要求17-31任一项所述的质量评估模型的训练装置得到；

评估模块，用于获取待评估的多轮对话，并将所述多轮对话输入所述目标多轮对话质量评估模型，得到所述目标多轮对话质量评估模型输出的质量评估结果。

33.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-15和/或权利要求16中任一项所述的方法。

34.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-15和/或权利要求16中任一项所述的方法。

35.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-15和/或权利要求16中任一项所述的方法。