CN117271290B

CN117271290B - 一种公平高效的多对话系统测评系统及方法

Info

Publication number: CN117271290B
Application number: CN202311543827.2A
Authority: CN
Inventors: 张静; 马泽尧; 姚子骏; 于济凡; 张笑涵
Original assignee: Beijing Zhipu Huazhang Technology Co ltd
Current assignee: Beijing Zhipu Huazhang Technology Co ltd
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-02-20
Anticipated expiration: 2043-11-20
Also published as: CN117271290A

Abstract

本发明属于人工智能技术领域，涉及一种公平高效的多对话系统测评系统及方法，所述测评系统包括：人机交互窗口，用于供标注人员输入标注问题、显示多对话系统生成的各自的回复及供标注人员选择最佳回复；共享对话历史模块，用于存储历史输入的标注问题及其对应最佳回复以及最新输入的标注问题并将它们输入到对话系统中；多对话系统，用于生成各自的回复；回复处理模块，用于对回复进行处理并将处理后的回复发送到人机交互窗口；排名模块，用于确定多对话系统的排名；排行榜模块，用于更新多对话系统的排行榜。其与人工评测之间存在更强的相关性，且能同时完成多个对话系统的评测，更高效、更节省人力。

Description

一种公平高效的多对话系统测评系统及方法

技术领域

本发明属于人工智能技术领域，涉及一种对话系统测评系统及方法，尤其涉及一种公平高效的多对话系统测评系统及方法。

背景技术

设计可靠、高效的评测系统及方法对于改进开放域对话系统具有重要的指导作用。在以生成式大语言模型（LLM）构建的对话系统为主导的时代，这一挑战变得越来越严峻。这些对话系统生成的回复具有丰富、多样的信息，如何准确、公正地评测这些回复是一个紧迫的问题。

现有的对话系统评测方法主要分为两类：自动评测和人工评测。其中，自动评测方法通常将对话系统的回复与人工编写的参考回复进行比较，计算二者之间的相似度。然而，由于开放域对话没有明确的“正确”答案，已有的指标无法很好的识别与参考回复不同但仍然比较合适的回复。尽管研究者可以使用语言模型直接对回复打分来缓解这个问题，但是语言模型通常更倾向于选择与自己给出的回复相似的回复，造成了评测公平性的偏差。因此，招募标注人员与对话系统进行交互并给出得分是目前评测对话系统实际上的黄金标准。然而，人工评测也有其缺陷。对于标注人员来说，完成多维度的主观评分是十分困难且耗时的。虽然有研究者提出通过让标注人员在一对模型中进行偏好选择来提高效率，但是，这种方法仍然需要大量的标注才能获得稳定的对话系统排名。

因此，针对上述现有技术中存在的缺陷，需要研发一种新型的对话系统测评系统及方法。

发明内容

为了克服现有技术的缺陷，本发明提出一种公平高效的多对话系统评测系统及方法，其在标注时只需要进行偏好选择，且能够同时完成多个对话系统的评测，更高效、更节省人力。

为了实现上述目的，本发明提供如下技术方案：

一种公平高效的多对话系统测评系统，其特征在于，包括：

人机交互窗口，其用于供标注人员输入标注问题、显示多对话系统针对所述标注问题生成的各自的回复以及供标注人员从多个回复中选择最佳回复；

共享对话历史模块，其用于存储标注人员历史输入的标注问题及其对应的最佳回复以及最新输入的标注问题并将它们输入到对话系统中；

多对话系统，其用于分别基于所述共享对话历史模块的输入而生成各自的回复；

回复处理模块，其用于对所述多对话系统生成的各自的回复进行处理并将处理后的回复发送到所述人机交互窗口以供标注人员选择最佳回复；

排名模块，其用于基于各个对话系统被选中的最佳回复的次数确定所述多对话系统的排名；

排行榜模块，其用于使用TrueSkill算法，基于所述多对话系统的排名计算各个对话系统的分数，并基于分数更新所述多对话系统的排行榜。

优选地，所述回复处理模块对所述多对话系统生成的各自的回复进行处理包括：对所述多对话系统生成的各自的回复都进行匿名化处理，并将所述多对话系统生成的各自的回复打乱顺序。

优选地，所述回复处理模块对所述多对话系统生成的各自的回复进行处理还包括：识别和替换所述多对话系统生成的各自的回复中暴露对话系统身份的句子或单词，并且，等待所有对话系统的回复就绪后同时发送到所述人机交互窗口进行显示。

优选地，标注人员从多个回复中选择最佳回复的评测标准包括：回复的上下文一致性、信息量和内容的真实性。

优选地，TrueSkill算法将各对话系统的能力建模为包含两个参数的高斯分布，其中一个参数为均值，另一参数/> 为标准差，所述排行榜模块通过如下公式计算各个对话系统的分数

；

式中， K=3。

此外，本发明还提供一种采用上述公平高效的多对话系统测评系统的测评方法，其特征在于，包括以下步骤：

1）、标注人员通过所述人机交互窗口输入标注问题；

2）、将标注人员输入的所述标注问题加入到所述共享对话历史模块中；

3）、所述共享对话历史模块将所述标注问题输入到各个对话系统中，以获得各个对话系统的各自的回复；

4）、所述回复处理模块对各个对话系统的各自的回复进行处理后发送到所述人机交互窗口；

5）、标注人员通过所述人机交互窗口选择最佳回复并输入新的标注问题；

6）、将所述最佳回复和新的标注问题加入到所述共享对话历史模块中；

7）、所述共享对话历史模块将所述标注问题及其对应的最佳回复和新的标注问题输入到各个对话系统中，以获得各个对话系统的各自的新的回复；

8）、所述回复处理模块对各个对话系统的各自的新的回复进行处理后发送到所述人机交互窗口；

9）、标注人员通过所述人机交互窗口选择新的最佳回复并确定是否结束标注，如果确定结束标注，则进入步骤10）；如果确定不结束标注，则输入新的标注问题并返回到步骤6）；

10）、所述排名模块基于各对话系统被选中的最佳回复的次数确定所述多对话系统的排名；

11）、所述排行榜模块使用TrueSkill算法，基于所述多对话系统的排名计算各对话系统的分数，并基于分数更新所述多对话系统的排行榜。

优选地，所述回复处理模块对各个对话系统的各自的回复进行处理包括：对所述多对话系统的各自的回复都进行匿名化处理，并将所述多对话系统生成的各自的回复打乱顺序。

优选地，所述回复处理模块对各个对话系统的各自的回复进行处理还包括：识别和替换所述多对话系统生成的各自的回复中暴露对话系统身份的句子或单词，并且，等待所有对话系统的回复就绪后同时发送到所述人机交互窗口进行显示。

优选地，标注人员通过所述人机交互窗口选择最佳回复的评测标准包括：回复的上下文一致性、信息量和内容的真实性。

优选地，TrueSkill算法将各个对话系统的能力建模为包含两个参数的高斯分布，其中一个参数为均值，另一参数/> 为标注差，所述排行榜模块通过如下公式计算各个对话系统的分数

；

式中， K=3。

与现有技术相比，本发明的公平高效的多对话系统测评系统及方法具有如下有益技术效果中的一者或多者：

1、本发明能够同时完成多个对话系统的评测，更高效、更节省人力。

2、本发明为所有参与评测的对话系统维护了一个共享的对话历史，这有效地避免了标注人员在隐式回复对话系统时引入的不公平性。

3、不同于两两比较整个对话内容，本发明在每次回复后都对所有参与评测的对话系统进行比较，使得本发明的评测结果更快、更公平地收敛到一个稳定的对话系统排名，使得标注所需的时间和金钱成本缩小。

4、本发明使用TrueSkill算法进行多对话系统的排名，这种计算方式对标注人员的标注顺序不敏感，且分数收敛速度更快，使得最终结果更加鲁棒。

附图说明

图1是本发明的公平高效的多对话系统测评系统的构成示意图。

图2是本发明的公平高效的多对话系统测评方法的流程图。

具体实施方式

在详细说明本发明的任何实施方式之前，应理解的是，本发明在其应用中并不限于以下描述阐述或以下附图图示的部件的构造和布置细节。本发明能够具有其他实施方式并且能够以各种方式实践或进行。另外，应理解的是，这里使用的措辞和术语出于描述的目的并且不应该被认为是限制性的。本文中使用“包括”或“具有”及其变型意在涵盖下文中陈列的条目及其等同物以及附加条目。除非另有指定或限制，否则术语“安装”、“连接”、“支撑”和“联接”及其变型被广泛地使用并且涵盖直接安装和间接的安装、连接、支撑和联接。此外，“连接”和“联接”不限于物理或机械的连接或联接。

并且，第一方面，在本发明的揭露中，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系，其仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此上述术语不能理解为对本发明的限制；第二方面，术语“一”应理解为“至少一”或“一个或多个”，即在一个实施例中，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个，术语“一”不能理解为对数量的限制。

目前，开放域对话系统的评测是一个悬而未决的问题。自动评测方法比较高效，但准确度较低，与人工评测的相关性较差；传统的人工评测方法通常使用预先设计的指标对对话系统的回复进行多维度打分，结果可靠但是效率较低。为此，本发明设计了一种公平高效的多对话系统测评系统及方法，其通过共享多个对话系统的对话历史，使得标注人员能够以单盲的方式同时与多个对话系统进行多轮对话。在对话系统回复后，标注人员选择最合适的回复继续对话，基于每个对话系统被选择的次数，使用TrueSkill算法计算每个对话系统的分数，从而进行排名。与现有的评测方法相比，本发明与人工评测之间存在更强的相关性，且效率更高。

图1示出了本发明的公平高效的多对话系统测评系统的构成示意图。如图1所示，本发明的公平高效的多对话系统测评系统包括人机交互窗口、共享对话历史模块、多对话系统、回复处理模块、排名模块和排行榜模块。

其中，所述人机交互窗口用于供标注人员与多对话系统进行人机交互。在本发明中，标注人员与多对话系统共进行三种人机交互：1、标注人员与多对话系统进行多轮对话；2、标注人员被引导选择每轮对话中的最佳回复；3、标注人员决定何时结束对话，从而使得能够根据当前对话最终确定每个对话系统的排名。

由此，所述人机交互窗口用于供标注人员输入标注问题、显示各个对话系统针对所述标注问题生成的各自的回复、供标注人员从多个回复中选择最佳回复和供标注人员确定何时结束对话。

所述共享对话历史模块是使标注人员能够与多个对话系统同时进行对话的关键组成部分。由于对于标注人员发送的信息（也就是，输入的标注问题），不同的对话系统的回复是多样的，对话系统可能会遇到所谓的级联偏差，即在首轮对话中未被选择的对话系统可能会具有矛盾的对话历史，从而导致它们在未来的对话轮次中表现不佳，通过所述共享对话历史模块，可以解决该问题。

所述共享对话历史模块用于存储标注人员历史输入的标注问题及其对应的最佳回复以及最新输入的标注问题并将它们输入到对话系统中。由此，使得所有对话系统都具有相同的上下文，避免出现级联偏差。

在本发明中，需要标注人员首先发送消息（也就是，输入标注问题）来开始一段对话。在每轮对话时，标注人员发送的信息（也就是，输入的标注问题）都会被添加到共享对话历史模块中。可以使用下面所示的Prompt模板来构造所述共享对话历史模块的存储格式，也就是，所有对话系统的输入，进而获取各个对话系统的回复。

在上述Prompt模板中，<SEP>字符需要被替换为特定模型（也就是，对话系统）需要的分隔符，例如EVA2.0使用的分隔符是<sep>，而BlenderBot使用的是。另外，中括号内需要被替换为对话历史中的对应内容，其中，User Utterance需要被替换为标注人员发送的信息（也就是，输入的标注问题），Selected Response需要被替换为标注人员每轮选择的最佳回复。

同时，为了提高对话系统的回复速度，本发明使用多线程技术，同时获取所有对话系统的回复。

从技术角度看，所述共享对话历史模块可以使用栈进行实现，共有两种压栈情况。当标注人员完成标注问题的输入后，标注问题会被入栈。当标注人员从多个回复中选择最佳回复后，所选对话系统的回复也会被入栈。

所述多对话系统用于分别基于所述共享对话历史模块的输入而生成各自的回复。

在本发明中，所述多对话系统可以是任何对话系统，包括多个不同规模、不同结构的英文和中文对话系统。其中，英文对话系统包括：Seq2Seq模型、DialoGPT、BlenderBot-90m、BlenderBot-3b、PLATO-XL等；中文对话系统包括：CDial-GPT、EVA2.0、PLATO-2、XDAI、GLM-Dialog等。

标注人员输入的标注问题输入到各个对话系统中之后，各个对话系统会生成各自的回复。同时，由于也将标注人员历史输入的标注问题及其对应的最佳回复输入到各个对话系统中，从而能够保证所有的对话系统具有相同的上下文环境，避免出现级联偏差。

所述回复处理模块用于对所述多对话系统生成的各自的回复进行处理并将处理后的回复发送到所述人机交互窗口以供标注人员选择最佳回复。

在所有的对话系统生成各自的回复后，标注人员需要根据提供的评测标准来选择最佳回复。为了确保公正地评测，本发明增加了回复处理模块，通过回复处理模块对交互流程进行了优化。

具体地，所述回复处理模块在对话系统的每轮回复后都会对各个对话系统生成的各自的回复进行匿名化，并在打乱顺序后展示给标注人员。另外，本发明还对对话系统的回复进行了后处理。由于在对话中对话系统会输出暴露身份的信息，为了保证评测公平性，所述回复处理模块预先记录了待评测对话系统可能暴露的名称、研发机构等信息，在后处理中识别和替换可能暴露对话系统身份的句子或单词。此外，由于不同的对话系统回复速度不同，为了减弱“primary effect”（初始效应）的影响，即标注人员对人机交互窗口中最先显示的回复更加关注，所述回复处理模块等待所有对话系统生成的回复都就绪后再一同发送给所述人机交互窗口进行同时显示。

在所述人机交互窗口同时显示了所有对话系统的回复后，需要标注人员选择与标注问题对应的最佳回复。

直观来看，选择最佳回复缺乏明确的评测角度与规范。因此，本发明参考了基于评分的人工评测方法，设计了一个规范的评测标准来评测对话系统的整体能力，要求标注人员考虑回复的上下文一致性、信息量和内容的真实性。相比于多维度打分，本发明没有使用预先设计的各种指标来限制标注人员的评测，因此本发明更加灵活，能够更好地评测出对话系统的整体能力。

所述排名模块用于基于各个对话系统被选中的最佳回复的次数确定所述多对话系统的排名。

具体地，在每轮对话中，标注人员选择的最佳回复对应的对话系统获得1分，而其他对话系统不得分。标注人员可以在任何时候结束当前对话（通常要求进行5轮以上的对话），基于各个对话系统获得的分数，所述排名模块会生成一个排行榜，得分高者排名更高。之后，使用此排行榜来计算多对话系统的排名分数。值得注意的是，发明人通过实验证明，标注人员选择多个最佳回复对对话系统的评测结果有轻微负面影响，原因是多个对话系统可能获得相似的分数。因此，本发明要求标注人员在每轮只能选择一个最佳回复。

所述排行榜模块用于使用TrueSkill算法，基于所述多对话系统的排名计算各个对话系统的分数，并基于分数更新所述多对话系统的排行榜。

在本发明中，所述排行榜模块能够获得多对话系统的全局排名分数，而全局排名分数量化了一系列对话后每个对话系统的技能水平。

受游戏中玩家技能水平跟踪算法的启发，本发明使TrueSkill算法计算全局排名分数。与其他排名算法（如Chatbot Arena使用的Elo）相比，TrueSkill算法具有三大优势：

1、TrueSkill算法是为多玩家的竞赛而设计的，而Elo是为1v1比赛设计的；

2、TrueSkill算法跟踪分数的估测方差，为估测的排名分数提供置信区间；

3、TrueSkill算法获得一个收敛的排名所需的比赛更少，因此所需的对话标注更少。

具体来说，TrueSkill算法将各个对话系统的能力建模为包含两个参数的高斯分布，其中一个参数为均值，另一参数/>为标准差。参考TrueSkill算法的原始设计，本发明以/>的初始值为25，/>的初始值为/>来初始化各个对话系统的能力。在每次对话结束后，会得到当前对话中各个对话系统的排名结果。之后，将当前各个对话系统的高斯分布和得到的排名结果输入到TrueSkill算法中，算法使用贝叶斯定律来更新各个对话系统的/>和/>。

在收集了足够多的对话之后，可以使用以下等式计算每个对话系统的得分：；

这是一个保守的能力估计，给出了对话系统可能的真实能力的下限。本发明遵循TrueSkill算法设置K=3。

为了证明本发明的公平高效的多对话系统测评系统的可靠性和高效性，本发明进行了相关实验，下面介绍相关实验。

1、实验用的待评测对话系统。

为了评测本发明的公平高效的多对话系统测评系统在多种语言下的泛化性，实验选取了多个不同规模、不同结构的英文和中文对话系统进行测试。所用的英文对话系统如下：Seq2Seq模型、DialoGPT、BlenderBot-90m、BlenderBot-3b、PLATO-XL；所用的中文对话系统如下：CDial-GPT、EVA2.0、PLATO-2、XDAI、GLM-Dialog。

2、实验用的基线算法。

为了体现本发明的公平高效的多对话系统测评系统在可靠性和效率方面的优势，实验选取了多个不同种类、且有竞争力的基线算法进行比较，包括：基于人工参考的自动评测方法（F1和BERTScore）、无需人工参考的自动评测方法（ChatMatch）和人工评测方法（Chatbot Arena和PreferenceRanking）。

3、可靠性。

由于基于打分的人工评测是目前公认的权威评测方法，实验首先收集了权威的参考结果，之后，招募标注人员，分别收集基线算法和本发明的公平高效的多对话系统测评系统的计算结果，最后计算皮尔逊相关系数和肯德尔相关系数，结果如表1。

表1. 相关性结果

由表1可知，本发明与权威的参考结果相关性更大，可靠性更强。

4、高效性。

另外，为了证明本发明的高效性，实验记录了不同的人工评测方法所需的标注时间，如表2所示。

表2. 标注效率

由表2可知，本发明获得一个稳定的对话系统所需的排名最少，证明了本发明的高效性。

此外，本发明还披露了一种采用上述公平高效的多对话系统测评系统的测评方法。如图2所示，本发明的测评方法包括以下步骤：

1、标注人员通过所述人机交互窗口输入标注问题，从而启动测评。

例如，在所述人机交互窗口输入“你最喜欢的歌手是谁？”。

2、将标注人员输入的所述标注问题加入到所述共享对话历史模块。

对应地，在所述共享对话历史模块中存储“你最喜欢的歌手是谁？”。

3、所述共享对话历史模块将所述标注问题输入到各个对话系统中，以获得各个对话系统生成的各自的回复。

对应地，所述共享对话历史模块将“你最喜欢的歌手是谁？”输入到各个对话系统中。假如有三个对话系统，分别为A对话系统、B对话系统和C对话系统，则三个对话系统分别生成对应的回复。例如，A对话系统生成的回复为“我更喜欢日本流行歌手”、B对话系统生成的回复为“我认为是MJ”，C对话系统生成的回复为“实际上我没有一个喜欢的歌手”。

4、所述回复处理模块对各个对话系统生成的各自的回复进行处理后发送到所述人机交互窗口。

其中，所述回复处理模块对各个对话系统的各自的回复进行处理包括：对所述多对话系统的各自的回复都进行匿名化处理，并将所述多对话系统生成的各自的回复打乱顺序。

此外，所述回复处理模块对各个对话系统的各自的回复进行处理还包括：识别和替换所述多对话系统生成的各自的回复中暴露对话系统身份的句子或单词，并且，等待所有对话系统的回复就绪后同时发送到所述人机交互窗口进行显示。

5、标注人员通过所述人机交互窗口选择最佳回复并输入新的标注问题。

经过所述回复处理模块的处理，在所述人机交互窗口显示的三个对话系统生成的各自的回复中，不显示三个对话系统的真实名称，而用字母X、Y和Z代替。同时，打乱了回复顺序，在人机交互窗口中从上到下显示的可以为：“Y：我认为是MJ”、“X：我更喜欢日本流行歌手”和“Z：实际上我没有一个喜欢的歌手”。

然后，标注人口根据测评标准，包括：回复的上下文一致性、信息量和内容的真实性，选择“Y：我认为是MJ”作为最佳回复并输入新的标注问题“你喜欢MJ的哪张专辑？”。

6、将所述最佳回复和新的标注问题加入到所述共享对话历史模块中。

此时，所述共享对话历史模块中存储的内容从上到下依次是：“你最喜欢的歌手是谁？”、“我认为是MJ”和“你喜欢MJ的哪张专辑？”。

7、所述共享对话历史模块将所述标注问题及其对应的最佳回复和新的标注问题输入到各个对话系统中，以获得各个对话系统生成的各自的新的回复。

也就是，将“你最喜欢的歌手是谁？”、“我认为是MJ”和“你喜欢MJ的哪张专辑？”都输入到A、B和C三个系统中，则三个对话系统分别生成对应的回复。例如，A对话系统的回复为“Thriller，这是他最有名的专辑之一”、B对话系统的回复为“我不知道他有哪些专辑”，C对话系统的回复为“加州旅馆，我听过这个专辑很多遍了”。

8、所述回复处理模块对各个对话系统的各自的新的回复进行处理后发送到所述人机交互窗口。

该步骤的处理与步骤4的处理相同，这里不再详细介绍。

9、标注人员通过所述人机交互窗口选择新的最佳回复并确定是否结束标注。

如果确定结束标注，则进入步骤10；如果确定不结束标注，则输入新的标注问题并返回到步骤6，重新生成新的回复。

10、所述排名模块基于各对话系统被选中的最佳回复的次数确定所述多对话系统的排名。

例如，总共进行了5轮对话，A对话系统生成的回复有2次被选择为了最佳回复，B对话系统生成的回复有3次被选择为了最佳回复，C对话系统生成的回复有0次被选择为了最佳回复，那么所述多对话系统的排名为：B对话系统 3次；A对话系统 2次；C对话系统0次。

11、所述排行榜模块使用TrueSkill算法，基于所述多对话系统的排名计算各对话系统的分数，并基于分数更新所述多对话系统的排行榜。

例如，基于上述多对话系统的排名，通过TrueSkill算法计算出三个对话系统的得分，并依据积分重新三个对话系统的排行榜为：B对话系统 26.13；A对话系统 23.29；C对话系统 21.32。

由此，实现了对三个对话系统排名更新。

本发明为所有参与评测的对话系统维护了一个共享的对话历史，这有效地避免了标注人员在隐式回复对话系统时引入的不公平性。同时，不同于两两比较整个对话内容，本发明在每次回复后都对所有参与评测的对话系统进行比较，使得本发明的评测结果更快、更公平地收敛到一个稳定的对话系统排名，使得标注所需的时间和金钱成本缩小。而且，本发明使用TrueSkill算法进行多对话系统的排名，这种计算方式对标注人员的标注顺序不敏感，且分数收敛速度更快，使得最终结果更加鲁棒。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制。本领域的技术人员，依据本发明的思想，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种公平高效的多对话系统测评系统，其特征在于，包括：

人机交互窗口，其用于供标注人员输入标注问题、显示各个对话系统针对所述标注问题生成的各自的回复以及供标注人员从多个回复中选择最佳回复；

共享对话历史模块，其用于存储标注人员历史输入的标注问题及其对应的最佳回复以及最新输入的标注问题并将它们输入到各个对话系统中；

2.根据权利要求1所述的公平高效的多对话系统测评系统，其特征在于，所述回复处理模块对所述多对话系统生成的各自的回复进行处理包括：对所述多对话系统生成的各自的回复都进行匿名化处理，并将所述多对话系统生成的各自的回复打乱顺序。

3.根据权利要求2所述的公平高效的多对话系统测评系统，其特征在于，所述回复处理模块对所述多对话系统生成的各自的回复进行处理还包括：识别和替换所述多对话系统生成的各自的回复中暴露对话系统身份的句子或单词，并且，等待所有对话系统的回复就绪后同时发送到所述人机交互窗口进行显示。

4.根据权利要求3所述的公平高效的多对话系统测评系统，其特征在于，标注人员从多个回复中选择最佳回复的评测标准包括：回复的上下文一致性、信息量和内容的真实性。

5.根据权利要求4所述的公平高效的多对话系统测评系统，其特征在于，TrueSkill算法将各个对话系统的能力建模为包含两个参数的高斯分布，其中一个参数为对话系统的能力的均值，另一参数/> 为对话系统的能力的标准差，对话系统的能力由该对话系统的排名来体现，所述排行榜模块通过如下公式计算各个对话系统的分数

；

式中，。

6.一种采用权利要求1-5中任一项所述的公平高效的多对话系统测评系统的测评方法，其特征在于，包括以下步骤：

1）、标注人员通过所述人机交互窗口输入标注问题；

3）、所述共享对话历史模块将所述标注问题输入到各个对话系统中，以获得各个对话系统生成的各自的回复；

4）、所述回复处理模块对各个对话系统生成的各自的回复进行处理后发送到所述人机交互窗口；

7）、所述共享对话历史模块将所述标注问题及其对应的最佳回复和新的标注问题输入到各个对话系统中，以获得各个对话系统生成的各自的新的回复；

8）、所述回复处理模块对各个对话系统生成的各自的新的回复进行处理后发送到所述人机交互窗口；

10）、所述排名模块基于各个对话系统被选中的最佳回复的次数确定所述多对话系统的排名；

7.根据权利要求6所述的测评方法，其特征在于，所述回复处理模块对各个对话系统生成的各自的回复进行处理包括：对所述多对话系统生成的各自的回复都进行匿名化处理，并将所述多对话系统生成的各自的回复打乱顺序。

8.根据权利要求7所述的测评方法，其特征在于，所述回复处理模块对各个对话系统生成的各自的回复进行处理还包括：识别和替换所述多对话系统生成的各自的回复中暴露对话系统身份的句子或单词，并且，等待所有对话系统生成的各自的回复就绪后同时发送到所述人机交互窗口进行显示。

9.根据权利要求8所述的测评方法，其特征在于，标注人员通过所述人机交互窗口选择最佳回复的评测标准包括：回复的上下文一致性、信息量和内容的真实性。

10.根据权利要求9所述的测评方法，其特征在于，TrueSkill算法将各个对话系统的能力建模为包含两个参数的高斯分布，其中一个参数为对话系统的能力的均值，另一参数为对话系统的能力的标准差，对话系统的能力由该对话系统的排名来体现，所述排行榜模块通过如下公式计算各个对话系统的分数

；

式中，。