CN116756284A

CN116756284A - 对话模型测评文本获取方法、装置、电子设备及存储介质

Info

Publication number: CN116756284A
Application number: CN202310730018.6A
Authority: CN
Inventors: 田静涛; 胡岗; 王世朋
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-09-15

Abstract

本申请公开了一种对话模型测评文本获取方法、装置、电子设备及存储介质，涉及自然语言领域及数字医疗领域，其中，方法包括：响应于对话模型测评文本获取请求，获取待测评的第一对话模型、第二对话模型和推荐数据集合，其中，第一对话模型和第二对话模型分别对应不同的角色；获取第一对话模型的角色类型；根据推荐数据集合和角色类型，确定起始话术；根据起始话术、第一对话模型和第二对话模型，生成测评文本。利用与测评人员相同角色的第二对话模型为测评人员提供话术，使得输入第一对话模型的话术都是由第二对话模型生成，无需测评人员人工编造，使得最终生成的测评文本内容多样化且专业性较高。

Description

对话模型测评文本获取方法、装置、电子设备及存储介质

技术领域

本申请涉及自然语言领域及数字医疗领域，特别是涉及一种对话模型测评文本获取方法、装置、电子设备及存储介质。

背景技术

现有技术中，对于多轮对话模型的测评方法，通常由测评人员编造话术与对话模型进行对话交互，收集测评人员与模型之间的对话内容，来对对话模型进行评分。然而，由于不同测评人员之间知识背景各不相同，部分测评人员专业知识了解较少且思维较为固定，这种通过测评人员人工编造话术与对话模型进行对话所获得的对话内容的方式，最终得到的测试文本专业知识含量较少，且内容单一缺乏多样性，进而导致对话模型的测评结果准确性较低。

发明内容

有鉴于此，本申请提供了一种对话模型测评文本获取方法、装置、电子设备及存储介质，主要目的在于解决现有技术中采用人工编造话术进行对话得到测评文本的方式，对于对话模型的测评结果准确性较低的技术问题。

依据本申请第一方面，提供了一种对话模型测评文本获取方法，该方法包括：

响应于对话模型测评文本获取请求，获取待测评的第一对话模型、第二对话模型和推荐数据集合，其中，第一对话模型和第二对话模型分别对应不同的角色；

获取第一对话模型的角色类型；

根据推荐数据集合和角色类型，确定起始话术；

根据起始话术、第一对话模型和第二对话模型，生成测评文本。

可选地，该方法应用于服务器，服务器与客户端通信连接，根据推荐数据集合和角色类型，确定起始话术的步骤，具体包括：

将推荐数据集合和角色类型发送至客户端，以供测评人员根据角色类型，在推荐数据集合中，确定起始话术；

接收客户端发送的起始话术。

可选地，根据起始话术、第一对话模型和第二对话模型，生成测评文本的步骤，具体包括：

根据第一对话模型、第二对话模型和起始话术，生成多个回复话术和结论话术；

根据起始话术、多个回复话术和结论话术，生成测评文本。

可选地，根据第一对话模型、第二对话模型和起始话术，生成多个回复话术和结论话术的步骤，具体包括：

将起始话术输入至第一对话模型，生成第一回复话术；

根据第一回复话术和第二对话模型，确定第二回复话术；

将第二回复话术输入至第一对话模型，生成第三回复话术；

根据第三回复话术的话术内容，判断第三回复话术是否为结论话术；

若是，停止利用第一对话模型和第二对话模型生成话术；

若否，继续利用第一对话模型和第二对话模型生成话术，直至第一对话模型生成结论话术。

可选地，根据第一回复话术和第二对话模型，确定第二回复话术的步骤，具体包括：

将第一回复话术输入第二对话模型，生成回复话术列表；

将回复话术列表发送至客户端，以供测评人员在回复话术列表中，确定第二回复话术；

接收客户端发送的第二回复话术。

可选地，该方法还包括：

在生成测评文本过程中，获取第一对话模型生成的回复话术的话术数量；

当话术数量大于或等于预设数量时，停止生成话术。

可选地，根据起始话术、第一对话模型和第二对话模型，生成测评文本之后，还包括：

将测评文本发送至客户端，以供测评人员基于测评文本对第一对话模型进行测评。

依据本申请第二方面，提供了一种对话模型测评文本获取装置，该装置包括：

第一获取模块，用于响应于对话模型测评文本获取请求，获取待测评的第一对话模型、第二对话模型和推荐数据集合，其中，第一对话模型和第二对话模型分别对应不同的角色；

第二获取模块，用于获取第一对话模型的角色类型；

确定模块，用于根据推荐数据集合和角色类型，确定起始话术；

生成模块，用于根据起始话术、第一对话模型和第二对话模型，生成测评文本。

可选地，该装置应用于服务器，服务器与客户端通信连接，该装置还包括：

发送模块，用于将推荐数据集合和角色类型发送至客户端，以供测评人员根据角色类型，在推荐数据集合中，确定起始话术；

接收模块，用于接收客户端发送的起始话术。

可选地，生成模块，具体用于：

根据起始话术、多个回复话术和结论话术，生成测评文本。

可选地，生成模块，还用于将起始话术输入至第一对话模型，生成第一回复话术；

确定模块，还用于根据第一回复话术和第二对话模型，确定第二回复话术；

生成模块，还用于将第二回复话术输入至第一对话模型，生成第三回复话术。

可选地，该装置还包括：

判断模块，用于根据第三回复话术的话术内容，判断第三回复话术是否为结论话术；

控制模块，用于若是，停止利用第一对话模型和第二对话模型生成话术；

控制模块，还用于若否，继续利用第一对话模型和第二对话模型生成话术，直至第一对话模型生成结论话术。

可选地，生成模块，还用于将第一回复话术输入第二对话模型，生成回复话术列表；

发送模块，还用于将回复话术列表发送至客户端，以供测评人员在回复话术列表中，确定第二回复话术；

接收模块，还用于接收客户端发送的第二回复话术。

可选地，该装置还包括：

第三获取模块，用于在生成测评文本过程中，获取第一对话模型生成的回复话术的话术数量。

可选地，控制模块，还用于当话术数量大于或等于预设数量时，停止生成话术。

可选地，发送模块，还用于将测评文本发送至客户端，以供测评人员基于测评文本对第一对话模型进行测评。

依据本申请第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面中任一项所述方法的步骤。

依据本申请第四方面，提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。

借由上述技术方案，本申请提供的一种对话模型测评文本获取方法、装置、电子设备及存储介质，具体地，获取待测评的第一对话模型，以及同一业务场景下，与第一对话模型代表角色对应的第二对话模型。其后，根据汇总的推荐数据集合和第一对话模型的角色类型，确定发起对话的起始话术，将起始话术输入第一对话模型，并利用获取的第二对话模型配合测评人员与第一对话模型进行对话，并将对话内容进行汇总生成测评文本。便于后续以测评文本作为测评基础对第一对话模型进行测评。相较于现有技术中，完全由测评人员思考话题、编造话术与第一对话模型进行对话，以生成测评文本的方式。本申请利用同一场景下，与测评人员相同角色的第二对话模型为测评人员提供话术支持，配合测评人员的监督选择，使得测评人员与第一对话模型之间的对话话术都是由第二对话模型生成，无需测评人员人工编造，使得最终生成的测评文本更加符合业务场景，内容多样化且专业性较高，以实现对对话模型生成能力进行完整测试，确保第一对话模型的测评结果的准确性；同时，大大缩短了测评人员编造话术的时间，有效提高了对话模型测评效率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种对话模型测评文本获取方法流程示意图；

图2示出了本申请实施例提供的另一种对话模型测评文本获取方法的示意图；

图3示出了本申请实施例提供的一种对话模型测评文本获取装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种对话模型测评文本获取方法，如图1所示，该方法包括：

S101、响应于对话模型测评文本获取请求，获取待测评的第一对话模型、第二对话模型和推荐数据集合，其中，第一对话模型和第二对话模型分别对应不同的角色。

本申请实施例中，自然语言对话技术作为人机交互的重要手段，已经运用到众多领域和场景中，各种对话系统，包括手机、电视、车载的语音助手、智能音响、自动客户、聊天机器人等已经进入人们生活的方方面面。本申请所要测评的对话模型可以为不同领域、不同业务场景下的多轮对话模型，例如医疗问诊对话模型。

因为自然语言的多轮对话，而每次的回复话术并没有标准的话术答案，无法使用机器的方法去计算每个回复话术的准确率、召回率等数据，只能由测试人员与对话模型进行对话交互，并由测评人员来对模型生成的对话进行评分。然而，测评人员的知识背景各不相同，以及个人特有的固定思维，在与对话模型对话时，测评人员所输入的话术无法对模型所能面临的领域、场景进行全面覆盖，且话术固化严重缺乏多样性。尤其是一些特定行业下的对话模型，由于测评人员缺乏专业知识，并不能与对话模型进行专业的对话，例如医疗问诊对话模型，需要测试人员具备一定的医学知识和医学经验，才能全面且专业的模拟患者或者医生进行对话。这样就对测评人员有了较高的要求，测评成本较高。基于上述问题，本申请提出了在确定待测评的对话模型后，获取与第一对话模型相同场景、相同专业下的不同角色的第二对话模型。使得测评人员在与第一对话模型对话过程中，可采用第二对话模型对第一对话模型所回复的话术进行回复，为测评人员提供专业提示。

具体地，在对对话模型的测评过程中，首先获取第一对话模型、第二对话模型以及推荐数据集合。其中，第一对话模型与第二对话模型所代表的角色不同，例如，对于医疗问诊对话模型来说，医疗问诊对话模型可以代表医生角色，来回答患者所提出的问题；也可以代表患者角色，来配合医疗人员、医学生来模拟问诊场景。在确定待测评的第一对话模型所代表的角色后，找出该角色所对应角色的第二对话模型，以利用第二对话模型配合测评人员得到第一对话模型的测评文本。

进一步地，在对第一对话模型测评过程中，需要测评人员发起对话。然而，测评人员对对话模型所属的行业、专业可能不太了解，无参考数据的情况下，测评人员发起的对话可能偏离第一对话模型的行业方向，或者无法提出第一对话模型专业领域内的问题。此外，测评人员若专业性较差，还需要花费时间去了解第一对话模型的专业知识后再发起对话。为了使测评人员更好地确定测评对话的主题、方向，且缩短测评人员考虑话题的时间，本申请提出了获取推荐数据集合，该推荐数据集合为第一对话模型所对应的业务类型的数据集合，例如第一对话模型为医疗问诊对话模型，那么推荐数据集合则为一段时间内汇总的问诊数据。测评人员可在推荐数据集合中选择合适的话题进行对话，确保测评人员与第一对话模型对话的专业性。

S102、获取第一对话模型的角色类型。

在该步骤中，不同业务场景、业务领域中，每个对话模型所代表的角色不同。如医疗场景中，对话模型能代表医生解答患者问题，也能代表患者回答医生问题。因此，在获取第一对话模型后，首先要清楚第一对话模型的角色类型，来确认第一对话模型所代表的角色，以便测评人员知晓站在哪一角度与第一对话模型进行对话。具体地，若第一对话模型的角色类型为医生，那么测评人员就要站在患者的角度与其对话；若第一对话模型的角色类型为患者，那么测评人员就要站在医生的角度与其对话。

S103、根据推荐数据集合和角色类型，确定起始话术。

在该步骤中，在确定第一对话模型的角色类型后，可根据该角色类型，在推荐数据集合中选择适配度最高的问诊数据，并基于问诊数据，确定要对第一对话模型发起对话的起始话术。

可选地，测评人员可在推荐数据集合中，自行选择适合第一对话模型的起始话术。也可又系统基于角色类型，在推荐数据集合中智能匹配与第一对话模型适配的问诊数据，并将问诊数据发送至测评人员的客户端，以供测评人员基于问诊数据确定起始话术。

S104、根据起始话术、第一对话模型和第二对话模型，生成测评文本。

现有技术中，对第一对话模型进行测评时，是将测评人员确定的起始话术输入至第一对话模型，第一对话模型基于起始话术进行回复，测评人员再根据第一对话模型的回复话术再想出下一步话术，输入至第一对话模型中进行对话。然而，这种全部由测评人员自行思考对话内容的方式，会因为测评人员专业水平低、知识面窄、思维固定等不同原因，导致最终形成的测评文本中的对话内容存在无法对第一对话模型所能面临的场景进行完全覆盖，或者话术固化缺乏多样性以及专业内容较少无法评判等问题，进而导致对第一对话模型的测评结果不够准确。基于上述问题，本申请提出了，在对第一对话模型测评过程中，获取与第一对话模型的角色类型所对立的第二对话模型，当测评人员确定起始话术，并将起始话术输入第一对话模型，获得第一对话模型的回复后，将第一对话模型的回复输入至第二对话模型，使得第二对话模型根据该回复生成话术列表，为测评人员提供提醒话术，测评人员可根据第二对话模型提供的话术列表，确定再次输入第一对话模型的话术内容。按照上述方式，进行多轮对话，直至第一对话模型给出结论。其后，将测评人员与第一对话模型之间的所有对话内容进行汇总，生成测评文本，以便后续将该测评文本作为测评依据对第一对话模型进行测评。

可选地，第一对话模型与第二对话模型可以为同一业务场景下，针对不同角色训练的不同模型，如第一对话模型和第二对话模型均为医疗问诊对话模型。其中，第一对话模型为代表医生与患者进行对话的对话模型，那么第二对话模型则为代表患者与医生进行对话的对话模型。进一步地，第一对话模型与第二对话模型也可以为不同角色模式下的同一个对话模型。具体地，第一对话模型和第二对话模型为同一个医疗问诊对话模型，该医疗问诊对话模型可以设定不同的角色模式，如医生模式、患者模式等。若第一对话模型为医生模式下的问诊对话模型，那么第二对话模型则为患者模式下的问诊对话模型。在对对话模型测评过程中，利用与测评人员相同角色类型的第二对话模型，为测评人员提供话术上提醒，使得测评人员与第一对话模型之间的对话专业性较高，能够确保第一对话模型测评结果的准确性。

本申请实施例提供的对话模型测评文本获取方法，获取待测评的第一对话模型，以及同一业务场景下，与第一对话模型代表角色对应的第二对话模型。其后，根据汇总的推荐数据集合和第一对话模型的角色类型，确定发起对话的起始话术，将起始话术输入第一对话模型，并利用获取的第二对话模型配合测评人员与第一对话模型进行对话，并将对话内容进行汇总生成测评文本。便于后续以测评文本作为测评基础对第一对话模型进行测评。相较于现有技术中，完全由测评人员思考话题、编造话术与第一对话模型进行对话，以生成测评文本的方式。本申请利用同一场景下，与测评人员相同角色的第二对话模型为测评人员提供话术支持，配合测评人员的监督选择，使得测评人员与第一对话模型之间的对话话术都是由第二对话模型生成，无需测评人员人工编造，使得最终生成的测评文本更加符合业务场景，内容多样化且专业性较高，以实现对对话模型生成能力进行完整测试，确保第一对话模型的测评结果的准确性；同时，大大缩短了测评人员编造话术的时间，有效提高了对话模型测评效率。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，本申请实施例提供了另一种对话模型测评文本获取方法，如图2所示，该方法包括：

S201、响应于对话模型测评文本获取请求，获取待测评的第一对话模型、第二对话模型和推荐数据集合，其中，第一对话模型和第二对话模型分别对应不同的角色。

在该步骤中，在对对话模型的测评过程中，首先获取第一对话模型、第二对话模型以及推荐数据集合。其中，第一对话模型与第二对话模型所代表的角色不同，例如，对于医疗问诊对话模型来说，医疗问诊对话模型可以代表医生角色，来回答患者所提出的问题；也可以代表患者角色，来配合医疗人员、医学生来模拟问诊场景。在确定待测评的第一对话模型所代表的角色后，找出该角色所对应角色的第二对话模型，以利用第二对话模型配合测评人员得到第一对话模型的测评文本。

可选地，第一对话模型和第二对话模型可以为同一业务领域中的，代表对立角色的对话模型，如医疗领域中，代表医生/患者角色的第一对话模型和代表患者/医生角色的第二对话模型。在实际应用中，可以采用CMCQA问答数据集作为对话模型的语料库，在语料库的基础上对对话模型进行训练。使得对话模型能够充分学习CMCQA中蕴含的医学知识。

S202、获取第一对话模型的角色类型。

S203、将推荐数据集合和角色类型发送至客户端，以供测评人员根据角色类型，在推荐数据集合中，确定起始话术。

S204、接收客户端发送的起始话术。

在步骤S203和S204中，对话模型测评文本获取方法应用于服务器，服务器与客户端通信连接，测评人员可在客户端上进行操作来输入话术。具体地，将获取到的推荐数据集合以及第一对话模型的角色类型发送至客户端。测评人员在确定第一对话类型的角色类型的同时，也就确定了自己所代表的角色。此时，测评人员查看接收到的推荐数据集合，在其中筛选出专业性较强，且适合第一对话模型的数据内容，并筛选出的数据内容，确定发起对话的起始话术。其后，在客户端中的对话界面输入起始话术，此时，服务器将接收到测评人员输入的起始话术。

在实际应用中，若待测评的第一对话模型为医疗问诊模型，该模型的角色类型为医生。收集近一年医院的问诊数据，或者医疗问诊模型近一年的对话记录，整理得到推荐数据集合。并将推荐数据集合发送到测评人员的客户端。测评人员在推荐数据集合中选取其认为合适的问诊数据或者对话记录，并确认其作为患者，向第一对话模型提问的提问主题、提问方向、提问内容。并根据问诊数据，确定对话的起始话术，如“医生，我最近一直胃疼”，以供第一对话模型基于起始话术进行回复，以进行测评人员与第一对话模型之间的对话，进而收集对话内容形成测评文本。

S205、根据第一对话模型、第二对话模型和起始话术，生成多个回复话术和结论话术。

在该步骤中，将起始话术输入至第一对话模型，第一对话模型基于该起始话术输出回复话术，将回复话术发送至客户端显示在对话界面的同时，将第一对话模型输出的回复话术输入第二对话模型，使得第二对话模型基于该回复话术输出话术列表，并将第二对话模型输出的话术列表发送至客户端。测试人员在接收到话术列表后，可在该列表中选择一个对话话术，作为回复第一对话模型的话术，并将对话话术输入对话界面，作为对第一对话模型的回话。测评人员与第一对话模型按照上述方式进行对话，直至第一对话模型给出结论话术。

通过上述方式，使得测评人员与第一对话模型进行对话过程中，由第二对话模型提供提醒话术，无需人工去编造对话话术，缩短了对话时间的同时使得测评人员与第一对话模型之间的对话更贴合专业，且跳出测评人员的思维固定模式，使得对话内容更加多样化，大大提高了对话内容的质量。

在本申请实施例中，可选地，步骤S205中，也即根据第一对话模型、第二对话模型和起始话术，生成多个回复话术和结论话术，具体包括：将起始话术输入至第一对话模型，生成第一回复话术；根据第一回复话术和第二对话模型，确定第二回复话术；将第二回复话术输入至第一对话模型，生成第三回复话术；根据第三回复话术的话术内容，判断第三回复话术是否为结论话术；若是，停止利用第一对话模型和第二对话模型生成话术；若否，继续利用第一对话模型和第二对话模型生成话术，直至第一对话模型生成结论话术。

在该实施例中，将接收到的起始话术输入至第一对话模型，第一对话模型对起始话术进行分析，生成其对应的第一回复话术。此时，将第一回复话术输入至第二对话模型中，由于第二对话模型所扮演的角色与测评人员相同，如都是扮演患者的角色。那么，第二对话模型就可以以患者的角度对第一回复模型进行分析，得到多个话术，测评人员可在这些话术中挑选一个作为第二回复话术。其后，将第二回复话术输入至第一对话模型，生成第三回复话术。在实际应用中，患者在初次问诊时，医生会根据患者表述的状况来判断患者的严重性，并作初步结论，而该过程通常不会持续很长时间，会在简短的几轮对话之间结束。因此，在测评人员与第一对话模型对话过程中，在第一对话模型输出第三回复话术后，根据第三回复话术的话术内容，对其进行分析，判断是否为结论话术。若第三回复话术为结论话术，说明此轮对话已经完成，则停止测评人员与第一对话模型之间的对话。进一步地，若第三回复话术不是结论话术，测评人员则继续与第一对话模型对话，并在每次第一对话模型给出回复话术时，对回复话术进行分析，判断其是否为结论话术，当第一对话模型给出结论话术时，对话停止。

可选地，不同应用场景以及不同模型角色的结论话术也不相同，如医疗应用场景下，第一对话模型所代表的医生角色与患者进行对话时，结论话术通常为病灶相关词汇。因此，服务器预先对收集到的问诊数据进行分析，在问诊数据中筛选、提取出医生对于每个问诊的结论的关键词，组成关键词组。在测评对话模型过程中，当服务器接收到第一对话模型输出的回复话术时，基于关键词组对其进行检测，以判断是否为结论话术。进一步地，当测评人员接收到第一对话模型给出的回复话术时，可人工判断该话术是否为结论话术，若是，测评人员在对话界面中点击结束按钮停止对话。

在本申请实施例中，根据第一回复话术和第二对话模型，确定第二回复话术的步骤，具体包括：将第一回复话术输入第二对话模型，生成回复话术列表；将回复话术列表发送至客户端，以供测评人员在回复话术列表中，确定第二回复话术；接收客户端发送的第二回复话术。

在该实施例中，当第一对话模型输出第一回复话术后，将第一回复话术输入至第二对话模型中，由于第二对话模型所代表的角色与测评人员相同，且与第一对话模型所代表的角色对立，如测评人员与第二对话模型均代表患者。那么，将第一回复话术输入第二对话模型后，第二对话模型会以患者的角度对第一回复话术进行分析，生成并输出相应的多个回复话术。将第二对话模型输出的多个回复话术进行汇总，生成回复话术列表，并将回复话术列表发送至客户端，以供测评人员在回复话术列表中挑选一个话术作为第二回复话术，其后，客户端返回测评人员选择的第二回复话术。

可选地，为了提高测评文本的多样性，确保测评文本对于专业知识覆盖面更广，测评人员可基于同一起始话术与第一对话模型进行多次对话，并在对话过程中选择第二对话模型提供的不同回复话术。

通过上述方式，通过第一对话模型和第二对话模型相互生成对话话术的同时，配合测评人员的监督选择，使得所有对话内容都是基于专业对话模型生成的，一方面，无需人工编造对话数据，使得对话更加合理、专业；另一方面，相较于完全使用第一对话模型与第二对话模型进行对话，由服务器基于第二对话模型生成的回复话术列表随机调取任一回复话术输入第一对话模型的对话方式，本申请通过添加了人工监督选择，确保对话质量以及对话内容多样性。

在实际应用中，服务器在接收到起始话术“医生，我最近肚子疼”后，将该话术输入至第一对话模型中。第一对话模型会对起始话术进行分析，并生成相应的回复话术“具体是上腹痛，还是下腹痛？”。服务器在获取第一对话模型输出的回复话术后，将该回复话术输入至第二对话模型，由于第二对话模型扮演患者角色，在接收到话术“具体是上腹痛，还是下腹痛？”时，第二对话模型就会基于该话术生成多个回复话术，例如“是上腹痛”、“是下腹痛”、“我也不清楚”等等。其后，服务器对第二对话模型输出的多个话术进行汇总，生成话术列表，并将话术列表与第一对话模型的回复话术一起发送至客户端。测评人员看到对话界面显示第一对话模型的回复话术“具体是上腹痛，还是下腹痛？”后，在第二对话模型对应的话术列表中，选择一个其认为合适的话术，如“是上腹痛”，并将该话术输入对话界面作为对第一对话模型的回应。第一对话模型基于接收到的“是上腹痛”再次进行回复。重复上述步骤，将第一对话模型的回复话术输入第二对话模型中，得到话术列表，其后，将话术列表和回复话术发送至客户端，以供测评人员基于回复话术选择对话话术进行对话。按照上述步骤，进行测评人员与第一对话模型之间的多轮对话，直至第一对话模型给出结论话术，如“可能是慢性是肠胃炎，需要拍个片子”为止。

S206、根据起始话术、多个回复话术和结论话术，生成测评文本。

在该步骤中，当测评人员与第一对话模型之间对话结束后，对测评人员与第一对话模型之间的所有对话内容进行汇总、整理，生成测评文本。其中，对话内容包含测评人员的起始话术、测评人员与第一对话模型之间的所有回复话术以及第一对话模型给出的结论话术。

在本申请实施例中，为了提高对话模型测评效率，对话模型测评文本获取方法还包括：在生成测评文本过程中，获取第一对话模型生成的回复话术的话术数量；当话术数量大于或等于预设数量时，停止生成话术。

在该实施例中，由于第一对话模型与第二对话模型内的专业知识较为全面，由第一对话模型和第二对话模型互相生成对话数据，对话回合可能较多，进而使得测评文本的内容较多，而为了确保测评文本对于专业知识覆盖全面性，通常会生成多个测评文本，这会导致对话模型测评时间较久。为了提高模型测评效率，缩短测评时间，可通过控制对话回合，来控制测评文本的文本大小。具体地，在生成测评文本过程中，即测评人员与第一对话模型对话过程中，统计第一对话模型生成的回复话术的话术数量，当话术数量达到预设数量时，说明第一对话模型已经给出了足够多的对话数据，此时可停止对话。

可选地，预设数量可基于业务场景以及对话模型所代表角色来具体设定，本申请在此不做具体限定。例如，对话模型为医疗对话模型，若该模型为医生角色，则预设数量可以为5至8条话术；若该模型为患者角色，则预设数量可以为10至15条话术。

在实际应用中，患者在使用第一对话模型时，通常想在短时间内，通过简短的几轮对话得到答案，若第一对话模型问题过于精细导致回复过多，会使得对话时间过长，患者回答问题较多，降低患者使用体验。因此，当第一对话模型在测评过程中，若回复话术的数量过多，停止对话。其后基于测评文本对该模型进行优化，以控制对话模型的回复数量。

S207、将测评文本发送至客户端，以供测评人员基于测评文本对第一对话模型进行测评。

在该步骤中，在生成第一对话模型的测评文本后，将测评文本发送至客户端，使得测评人员根据接收到的测评文本，对第一对话模型进行测评。

可选地，最终对第一对话模型进行测评的测评人员与对话的测评人员可以为同一测评人员，也可以为不同的测评人员。例如，最终通过具备医学知识和医学经验的专业医生来基于测评文本对第一对话模型进行打分。而医生通常工作较忙，没有大量时间与第一对话模型进行多次对话采集测评文本，因此，与第一对话模型进行对话的测评人员可以为模型的技术人员，或者医疗行业的其他工作人员，通过第二对话模型辅助测评人员生成测评文本。

进一步地，作为图1所述方法的具体实现，本申请实施例提供了一种对话模型测评文本获取装置300，如图3所示，该装置包括：

第一获取模块301，用于响应于对话模型测评文本获取请求，获取待测评的第一对话模型、第二对话模型和推荐数据集合，其中，第一对话模型和第二对话模型分别对应不同的角色；

第二获取模块302，用于获取第一对话模型的角色类型；

确定模块303，用于根据推荐数据集合和角色类型，确定起始话术；

生成模块304，用于根据起始话术、第一对话模型和第二对话模型，生成测评文本。

发送模块305，用于将推荐数据集合和角色类型发送至客户端，以供测评人员根据角色类型，在推荐数据集合中，确定起始话术；

接收模块306，用于接收客户端发送的起始话术。

可选地，生成模块304，具体用于：

根据起始话术、多个回复话术和结论话术，生成测评文本。

可选地，生成模块304，还用于将起始话术输入至第一对话模型，生成第一回复话术；

确定模块303，还用于根据第一回复话术和第二对话模型，确定第二回复话术；

生成模块304，还用于将第二回复话术输入至第一对话模型，生成第三回复话术。

可选地，该装置还包括：

判断模块307，用于根据第三回复话术的话术内容，判断第三回复话术是否为结论话术；

控制模块308，用于若是，停止利用第一对话模型和第二对话模型生成话术；

控制模块308，还用于若否，继续利用第一对话模型和第二对话模型生成话术，直至第一对话模型生成结论话术。

可选地，生成模块304，还用于将第一回复话术输入第二对话模型，生成回复话术列表；

发送模块305，还用于将回复话术列表发送至客户端，以供测评人员在回复话术列表中，确定第二回复话术；

接收模块306，还用于接收客户端发送的第二回复话术。

可选地，该装置还包括：

第三获取模块309，用于在生成测评文本过程中，获取第一对话模型生成的回复话术的话术数量。

可选地，控制模块308，还用于当话术数量大于或等于预设数量时，停止生成话术。

本申请实施例提供的对话模型测评文本获取装置300，获取待测评的第一对话模型，以及同一业务场景下，与第一对话模型代表角色对应的第二对话模型。其后，根据汇总的推荐数据集合和第一对话模型的角色类型，确定发起对话的起始话术，将起始话术输入第一对话模型，并利用获取的第二对话模型配合测评人员与第一对话模型进行对话，并将对话内容进行汇总生成测评文本。便于后续以测评文本作为测评基础对第一对话模型进行测评。相较于现有技术中，完全由测评人员思考话题、编造话术与第一对话模型进行对话，以生成测评文本的方式。本申请利用同一场景下，与测评人员相同角色的第二对话模型为测评人员提供话术支持，配合测评人员的监督选择，使得测评人员与第一对话模型之间的对话话术都是由第二对话模型生成，无需测评人员人工编造，使得最终生成的测评文本更加符合业务场景，内容多样化且专业性较高，以实现对对话模型生成能力进行完整测试，确保第一对话模型的测评结果的准确性；同时，大大缩短了测评人员编造话术的时间，有效提高了对话模型测评效率。

在示例性实施例中，本申请还提供了一种电子设备，包括存储器和处理器。该存储器存储有计算机程序，处理器，用于执行存储器上所存放的程序，执行上述实施例中的对话模型测评文本获取方法。

在示例性实施例中，本申请还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的对话模型测评文本获取方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种对话模型测评文本获取方法，其特征在于，包括：

响应于对话模型测评文本获取请求，获取待测评的第一对话模型、第二对话模型和推荐数据集合，其中，所述第一对话模型和所述第二对话模型分别对应不同的角色；

获取所述第一对话模型的角色类型；

根据所述推荐数据集合和所述角色类型，确定起始话术；

根据所述起始话术、所述第一对话模型和所述第二对话模型，生成测评文本。

2.根据权利要求1所述的方法，其特征在于，应用于服务器，所述服务器与客户端通信连接，所述根据所述推荐数据集合和所述角色类型，确定起始话术的步骤，具体包括：

将所述推荐数据集合和所述角色类型发送至所述客户端，以供所述测评人员根据所述角色类型，在所述推荐数据集合中，确定所述起始话术；

接收所述客户端发送的所述起始话术。

3.根据权利要求1所述的方法，其特征在于，所述根据所述起始话术、所述第一对话模型和所述第二对话模型，生成测评文本的步骤，具体包括：

根据所述第一对话模型、所述第二对话模型和所述起始话术，生成多个回复话术和结论话术；

根据所述起始话术、所述多个回复话术和所述结论话术，生成所述测评文本。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一对话模型、所述第二对话模型和所述起始话术，生成多个回复话术和结论话术的步骤，具体包括：

将所述起始话术输入至所述第一对话模型，生成第一回复话术；

根据所述第一回复话术和所述第二对话模型，确定第二回复话术；

将所述第二回复话术输入至所述第一对话模型，生成第三回复话术；

根据所述第三回复话术的话术内容，判断所述第三回复话术是否为结论话术；

若是，停止利用所述第一对话模型和所述第二对话模型生成话术；

若否，继续利用所述第一对话模型和所述第二对话模型生成话术，直至所述第一对话模型生成所述结论话术。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一回复话术和所述第二对话模型，确定第二回复话术的步骤，具体包括：

将所述第一回复话术输入所述第二对话模型，生成回复话术列表；

将所述回复话术列表发送至客户端，以供测评人员在所述回复话术列表中，确定所述第二回复话术；

接收所述客户端发送的所述第二回复话术。

6.根据权利要求1至5中任一项所述的方法，还包括：

在生成测评文本过程中，获取所述第一对话模型生成的回复话术的话术数量；

当所述话术数量大于或等于预设数量时，停止生成话术。

7.根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述起始话术、所述第一对话模型和所述第二对话模型，生成测评文本之后，还包括：

将所述测评文本发送至客户端，以供测评人员基于所述测评文本对所述第一对话模型进行测评。

8.一种对话模型测评文本获取装置，其特征在于，包括：

第一获取模块，用于响应于对话模型测评文本获取请求，获取待测评的第一对话模型、第二对话模型和推荐数据集合，其中，所述第一对话模型和所述第二对话模型分别对应不同的角色；

第二获取模块，用于获取所述第一对话模型的角色类型；

确定模块，用于根据所述推荐数据集合和所述角色类型，确定起始话术；

生成模块，用于根据所述起始话术、所述第一对话模型和所述第二对话模型，生成测评文本。

9.一种电子设备，包括存储器和处理器，存储器存储有计算机程序，其特征在于，处理器执行计算机程序时实现权利要求1至7中任一项方法的步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现权利要求1至7中任一项方法的步骤。