CN111897936B

CN111897936B - 一种问答系统的召回准确度的评测方法、装置及设备

Info

Publication number: CN111897936B
Application number: CN202010776233.6A
Authority: CN
Inventors: 周磊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2023-08-08
Anticipated expiration: 2040-08-05
Also published as: CN111897936A

Abstract

本申请提供一种问答系统的召回准确度的评测方法、装置及设备，涉及计算机技术领域，用以提高问答系统的评测精度和效率。该方法包括：获取目标测试问和目标候选问，目标测试问包括问答系统的测试问库中的测试问，目标候选问包括问答系统根据目标测试问从候选问库中召回的候选问，测试问库中的任一条测试问与候选问库中的任一条候选问之间预先标定有关联值；基于召回的目标候选问和目标测试问之间的关联值，确定问答系统的召回指标值，召回指标值表征召回第一相似候选问的准确度，第一相似候选问是指与目标测试问的相似度满足相似度条件的候选问的准确度，该方法中对问答系统根据测试问召回的候选问进行分析，提升了问答系统的评测精度和效率。

Description

一种问答系统的召回准确度的评测方法、装置及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种问答系统的召回准确度的评测方法、装置及设备。

背景技术

相关技术在对问答系统进行测试时，通常对问答系统回复问句的准确度进行评测，通过人工判断并标注问答系统返回的答案与问句是否关联的情况，进而确定问答系统回复问句的准确度，但通过这种方式评测问答系统时，通常情况下在对问答系统进行评测时，一方面会向问答系统输入大量的测试问，问答系统对应会返回大量的答案，通过人工标注返回的答案是否是测试问的相关答案，不仅耗时耗力，评测结果还会由于标注人员的知识经验的不同会出现质量浮动；当多个问答系统回复问句的准确度很接近，无法基于评测结果对多个问答系统进行比较，造成评测精度和评测效果都不能满足评测要求，因此如何提高问答系统的评测精度和评测效果，是一个需要考虑的问题。

发明内容

本申请实施例提供一种问答系统的召回准确度的评测方法、装置及设备，用于提高问答系统的评测精度和评测效率。

本申请第一方面，提供一种问答系统的召回准确度的评测方法，包括：

获取目标测试问和目标候选问，所述目标测试问包括问答系统的测试问库中的测试问，所述目标候选问包括所述问答系统根据所述目标测试问从候选问库中召回的候选问，所述测试问库中的任一条测试问与所述候选问库中的任一条候选问之间预先标定有关联值，所述关联值用于标识测试问和候选问之间的相似度；

基于召回的目标候选问和所述目标测试问之间的关联值，确定所述问答系统的召回指标值，所述召回指标值表征召回第一相似候选问的准确度，所述第一相似候选问是指与所述目标测试问的相似度满足相似度条件的候选问。

在一种可能的实现方式中，所述相似度包括测试问和候选问的字符串匹配度；或

所述相似度包括测试问的答案和候选问的答案的字符串匹配度。

本申请第二方面，提供一种问答系统的测试装置，包括：

信息获取单元，用于获取目标测试问和目标候选问，所述目标测试问包括问答系统的测试问库中的测试问，所述目标候选问包括所述问答系统根据所述目标测试问从候选问库中召回的候选问，所述测试问库中的任一条测试问与所述候选问库中的任一条候选问之间预先标定有关联值，所述关联值用于标识测试问和候选问之间的相似度；

评测结果确定单元，用于基于召回的目标候选问和所述目标测试问之间的关联值，确定所述问答系统的召回指标值，所述召回指标值表征召回第一相似候选问的准确度，所述第一相似候选问是指与所述目标测试问的相似度满足相似度条件的候选问。

在一种可能的实现方式中，所述信息获取单元还用于通过如下方式获得所述测试问库和所述候选问库：

获取用于测试所述问答系统的预设问集合；

基于每两个预设问之间的相似度，对预设问集合中的各预设问进行聚类；

将每个聚类中的部分预设问作为所述测试问库中的测试问，得到所述测试问库；以及

将每个聚类中作为测试问之外的其他预设问作为候选问，得到所述候选问库。

在一种可能的实现方式中，所述信息获取单元具体用于：

将相似度达到目标相似度阈值的预设问，聚类为一个问句簇；以及

将各问句簇中的每两个预设问之间的关联值，标定为各问句簇对应的目标关联值。

在一种可能的实现方式中，所述目标测试问包括多个，所述评测结果确定单元具体用于：

确定所述问答系统根据各目标测试问召回的第j个目标候选问，所述j为正整数；

基于各目标测试问和对应的召回的第j个目标候选问之间的关联值，确定所述根据各目标测试问召回的第j个目标候选问中，与对应的目标测试问的相似度达到第一相似度阈值的第j个目标候选问的数量；

将确定的第j个目标候选问的数量和所述目标测试问的总数量的比值，确定所述问答系统的召回指标值。

在一种可能的实现方式中，所述评测结果确定单元具体用于：

所述目标测试问包括一个，将所述目标测试问的第一召回准确度确定为所述问答系统的召回指标值；

所述目标测试问包括多个，基于所述多个目标测试问的第一召回准确度，确定所述问答系统的召回指标值；其中，通过如下方式获取一个目标测试问的第一召回准确度：

基于根据所述一个目标测试问召回的各目标候选问和所述一个目标测试问之间的关联值，确定根据所述一个目标测试问召回的目标候选问中，与所述一个目标测试问的相似度达到第二相似度阈值的目标候选问的第一数量；

将所述第一数量和根据所述一个目标测试问召回的目标候选问的总数量的比值，确定为所述一个目标测试问的第一召回准确度。

所述目标测试问包括一个，将所述目标测试问的第二召回准确度确定为所述问答系统的召回指标值；

所述目标测试问包括多个，基于所述多个目标测试问的第二召回准确度，确定所述问答系统的召回指标值，其中，通过如下方式获取一个目标测试问的第二召回准确度：

基于所述候选问库中的各候选问和所述一个目标测试问之间的关联值，确定根据所述一个目标测试问召回的目标候选问中，与所述一个目标测试问的相似度达到第三相似度阈值的目标候选问的第二数量；以及

确定所述候选问库中的各候选问中，与所述一个目标测试问的相似度达到所述第三相似度阈值的候选问的第三数量；

将所述第二数量和所述第三数量的比值，确定为所述一个目标测试问的第二召回准确度。

所述目标测试问包括一个，将所述目标测试问的召回顺序准确度确定为所述问答系统的召回指标值；

所述目标测试问包括多个，基于所述多个目标测试问的召回顺序准确度，确定所述问答系统的召回指标值，其中，通过如下方式获取一个目标测试问的召回顺序准确度：

基于根据所述一个目标测试问召回的各目标候选问和所述一个目标测试问之间的关联值，从根据所述一个目标测试问召回的目标候选问中确定出第二相似候选问，所述第二相似候选问包括与所述一个目标测试问的相似度达到第四相似度阈值的目标候选问；

确定各第二相似候选问在第二相似候选问中的第一召回顺序；以及

确定各第二相似候选问在根据所述一个目标测试问召回的目标候选问中的第二召回顺序；

将各第二相似候选问的第一召回顺序和第二召回顺序的比值的和，确定为所述一个目标测试问的召回顺序准确度。

所述目标测试问包括一个，将所述目标测试问的召回顺序损失值，确定为所述问答系统的召回指标值；

所述目标测试问包括多个，基于所述多个目标测试问的召回顺序损失值，确定所述问答系统的召回指标值，其中，通过如下方式获取一个目标测试问的召回顺序损失值：

确定根据所述一个目标测试问召回的各目标候选问，在所述召回的各目标候选问中的第三召回顺序；以及

基于根据所述一个目标测试问召回的各目标候选问和所述一个目标测试问之间的关联值，以及根据所述一个目标测试问召回的各目标候选问的第三召回顺序，确定第一召回损失参考值；

确定根据所述一个目标测试问召回的各目标候选问对应的第四召回顺序，所述第四召回顺序是基于根据所述一个目标测试问召回的各目标候选问和所述一个目标测试问之间的关联值的大小确定的；

基于根据所述一个目标测试问召回的各目标候选问和所述一个目标测试问之间的关联值，以及根据所述一个目标测试问召回的各目标候选问的第四召回顺序，确定第二召回损失参考值；

将所述第一召回损失参考值和所述第二召回损失参考值的比值，确定为所述一个目标测试问的召回顺序损失值。

本申请第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面及任一种可能的实施方式中任一所述的方法。

本申请第四方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面的各种可能的实现方式中提供的方法。

本申请第五方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面及任一种可能的实施方式中任一所述的方法。

由于本申请实施例采用上述技术方案，至少具有如下技术效果：

一方面，本申请实施例中基于根据目标测试问召回的目标候选问，确定问答系统的召回指标值，从问答系统召回与目标测试问相似的第一相似候选问的维度对问答系统进行测试，在通过传统方法评测出多个问答系统的回复准确度相近的情况下，可以通过问答系统的召回指标值对多个问答系统做进一步比较，进而提升了问答系统的评测精度；另一方面，本申请实施例中基于召回的目标候选问和目标测试问之间预先标定的关联值，确定问答系统的召回指标值，不需要人工标注召回的各目标候选问和目标测试问的关系，减少了评测的耗时，提升了问答系统的评测效率；且使得评测结果不受限于测试人员的知识经验，减少了评测结果的质量浮动，也提升了评测问答系统的准确度。

附图说明

图1为本申请实施例提供的一种问答系统的结构示意图；

图2为本申请实施例提供的一种应用场景的示例图；

图3为本申请实施例提供的一种应用场景的示意图；

图4为本申请实施例提供的一种应用场景的示意图；

图5为本申请实施例提供的一种预设问的聚类结果的示意图；

图6为本申请实施例提供的一种问答系统的召回准确度的评测流程的示意图；

图7为本申请实施例提供的一种问答系统的召回准确度的评测交互的示例图；

图8为本申请实施例提供的一种问答系统的召回准确度的评测交互的示例图；

图9为本申请实施例提供的一种多个问答系统的召回指标值的比较示意图；

图10为本申请实施例提供的一种问答系统的测试装置的结构图；

图11为本申请实施例提供的一种终端设备的结构图；

图12为本申请实施例提供的一种计算机设备的结构图。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的技术名词进行说明。

终端设备：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。

问答系统(Question Answering System，QA)：是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题；问答系统研究兴起的主要原因是人们对快速、准确地获取信息的需求，目前问答系统是人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。

预设问、测试问和候选问：预设问包括在测试问答系统的过程中用于测试问答系统的预设的问句，预设问包括测试问和候选问；测试问包括在测试问答系统时用于输入问答系统的问句；候选问包括在测试问答系统的过程中，问答系统用于根据测试问召回与测试问相似的问句时检索的问句，且候选问在问答系统根据测试问召回与测试问相似的问句之前已预先存储至问答系统中。

测试问库和候选问库：测试问库包括测试问组成的集合，候选问库包括候选问组成的集合，且候选问库在测试问答系统之前已预先存储至上述问答系统中，以便问答系统根据测试问从候选问库中召回与测试问相似的候选问。

下面对本申请的设计思想进行说明。

问答系统在对目标问进行回答时，首先根据相似性检索的原理，从知识库中召回与目标问相似度最高的一部分候选问，进而根据召回的多个候选问与目标问更精确的语义相关性，将召回的多个候选问进行排序后从中选取一个候选问，将与选取的候选问关联的答案作为目标问的答案返回；相关技术在对问答系统进行评测时，通常对问答系统回复测试问的准确度进行评测，根据问答系统根据测试问返回的答案与测试问的关联情况，将返回的答案中与测试问关联的答案的数量和测试问的总数量的比值，确定为该问答系统的回复准确度。但在对不同的问答系统进行评测时，常会出现多个问答系统的回复准确度很相近的情况，在这种情况下便无法对多个问答系统进行比较；且上述过程中，需要通过测试人员根据自身的知识经验，去判断并标注返回的答案与测试问的关联情况，一般在对不同的问答系统进行评测时，会使用大量的测试问进行测试，测试人员需要标注返回的大量答案与测试问的关联时间，耗时长，且每次评测得到的评测结果依赖于测试人员的标注的质量(标注的是否正确)，评测结果具有浮动性，问答系统的评测精度和评测效率低。

鉴于此，发明人设计了一种问答系统的召回准确度的评测方法、装置及设备，由于问答系统在对目标问进行回答时，首先从知识库中召回与目标问相似的候选问，进而从召回的多个相似的候选问中选择一个，将与选择的候选问关联的答案作为目标问的答案返回，问答系统召回候选问的准确度直接影响到了问答系统回复目标问的准确度，鉴于此，本申请实施例中考虑在对问答系统进行评测时，对问答系统召回候选问的能力进行评测以提升问答系统的评测精度；具体地，可以根据问答系统召回的候选问与输入问答系统的测试问的关联情况，确定问答系统召回候选问的准确度。

进一步，考虑到人工标注问答系统召回的候选问与测试问的关联情况耗时耗力，为了提升问答系统的评测效率，本申请实施例中提前获取用于评测的测试问库和用于问答系统召回候选问的候选问库，并根据各问句之间的相似度，预先标定测试问库中任一条测试问与候选问库中的任一条候选问之间的关联值；进而在问答系统根据测试问召回候选问时，可以根据召回的各候选问和测试问之间预先标定的关联值，确定表征问答系统召回第一相似候选问的准确度的召回指标值，该第一相似候选问是指与输入问答系统的测试问相似的候选问。

应当说明的是，本申请实施例中的测试问和候选问，可以但不局限于为文本信息或语音信息，本领域的技术人员可根据实际需求设置。

为了更清楚地理解本申请的设计思路，以下对为问答系统进行测试的应用场景进行示例介绍。

请参见图1，提供一种问答系统的结构示意图，该系统中包括终端设备100和问答服务器210，终端设备100上安装有问答客户端110，其中问答客户端110为问答系统的客户端，问答服务器210为问答系统的服务器；问答客户端110和问答服务器210之间互相通信。

问答客户端110将用户输入的目标测试问发送给问答服务器210，以及接收问答服务器210根据目标测试问从候选问库中召回的目标候选问。

问答服务器210接收问答客户端110发送的目标测试问，根据目标测试问从候选问库中召回与目标测试问相似的目标候选问，以及将召回的目标候选问发送给问答客户端110。

请参照图2，提供一种测试问答系统的应用场景示例图。该应用场景中包括终端设备100、问答服务器210和测试服务器220，终端设备100中安装有测试客户端120和问答客户端110；问答客户端110为问答系统的客户端，问答服务器210为问答系统的服务器，测试客户端120为测试问答系统的测试工具的客户端，测试服务器220为上述测试工具的服务器，问答客户端110和问答服务器210之间互相通信，测试客户端120可以与测试服务器220之间相互通信。

其中，该应用场景中各客户端和服务器之间的信息交互如下：

问答客户端110接收测试人员输入的目标测试问，并将目标测试问发送给问答服务器210，以及接收问答服务器210根据目标测试问召回的目标候选问。

问答服务器210接收问答客户端110发送的目标测试问，并根据目标测试问召回目标候选问，以及将召回的目标候选问发送给问答客户端110。

测试客户端120可以通过接口或其他通信方式，从问答客户端110中获取目标测试问和问答服务器210根据目标测试问召回的目标候选问；以及，将获取的目标测试问和目标候选问发送给测试服务器220。

测试服务器220接收测试客户端120发送的目标测试问和目标候选问，并基于目标候选问和目标测试问之间的关联值，确定问答系统的召回指标值，以及将召回指标值发送给测试客户端120。

请参照图3，表示另一种应用场景示例图。该应用场景中包括终端设备100、问答服务器210，终端设备100中安装有测试客户端120和问答客户端110；其中问答客户端110为问答系统的客户端，问答服务器210为问答系统的服务器，测试客户端120为测试问答系统的测试工具的客户端；问答客户端110和问答服务器210之间互相通信。

问答客户端110接收测试人员输入的目标测试问，并将目标测试问发送给问答服务器210，以及接收问答服务器210根据目标测试问召回的目标候选问；

问答服务器210接收问答客户端110发送的目标测试问，并根据目标测试问召回目标候选问，以及将召回的目标候选问发送给问答客户端110；

测试客户端120可以通过接口或其他通信方式，从问答客户端110中获取目标测试问和问答服务器220根据目标测试问召回的目标候选问；以及，基于目标候选问和目标测试问之间的关联值，确定问答系统的召回指标值。

作为一种实施例，在图2和图3示意出的应用场景中，当对多个问答系统进行测试时，与多个客户端110对应的问答服务器210也应有多个，请参见图4，可以在同一个终端设备100上安装多个问答客户端110，以实现对多个问答系统的测试；也可以在一个终端设备100上安装一个问答客户端110，通过将多个问答客户端110安装在多个终端设备100上，以实现对多个问答系统的测试，本领域的技术人员可根据实际需求设置。

基于图2和图3的应用场景，下面对本申请实施例中涉及的问答系统的召回准确度的评测方法进行示例说明；

本申请实施例中的测试问库中包括用于输入问答系统的测试问，候选问库中包括用于问答系统根据测试问召回目标候选问的候选问，以下对获取问答系统的测试问库和候选问库的过程进行说明。

首先获取用于测试问答系统的预设问的预设问集合，进而随机从预设问集合中选取一部分预设问作为测试问，得到测试问库，将预设问集合中测试问之外的预设问作为候选问，得到候选问库；其中上述预设问集合可以但不局限于是从目标平台获取的或人工创建的。

考虑到为提升问答系统的测试准确度，可以将较为相似的预设问均衡的分配到测试问库和候选问库中，以便提升问答系统根据目标测试问召回目标候选问的能力，具体地，可以在获取预设问集合之后，基于每两个预设问之间的相似度，对预设问集合中的各预设问进行聚类；进而将每个聚类中的部分预设问作为测试问库中的测试问，得到测试问库；以及将每个聚类中作为测试问之外的其他预设问作为候选问，得到候选问库。

作为一种实施例，在得到测试问库和候选问库后，可以基于测试问和候选问的相似度标定各测试问和各候选问的关联值，其中可以但不局限于通过如下两种方式标定关联值：

第一种标定关联值的方法：直接基于测试问和候选问的相似度标定关联值。

具体地，在一个测试问和一个候选问的相似度未达到目标相似度阈值时，将该测试问和该候选问之间的关联值标定为第一目标关联值；在一个测试问和一个候选问的相似度达到设定的相似度阈值时，将该测试问和该候选问之间的关联值标定为第二目标关联值。

上述第一目标关联值和第二目标关联值表示两个问句不同的相似程度，如可以但不局限于将第一目标关联值设置为0，以表征测试问和候选问为不相似的问句，可以但不局限于将第二目标关联值设置为1，以表征测试问和候选问为相似的问句。

作为一种实施例，上述目标相似度阈值可以包括一个或多个，目标相似度阈值包括多个时，可以将相似度未达到目标相似度阈值的测试问和候选问之间的关联值标定为第一目标关联值，分别将相似度达到不同的目标相似度阈值的测试问和候选问之间的关联值，标定为不同的第二目标关联值，以表征测试问和候选问之间不同的相似程度；如目标相似度阈值包括第一阈值和第二阈值，且第一阈值小于第二阈值，则可以将相似度未达到第一阈值的测试问和候选问之间的关联值标定为0(第一目标关联值)，以表征该测试问和候选问为不相似的问句，将相似度达到第一阈值且未达到第二阈值的测试问和候选问之间的关联值标定为1(第二目标关联值)，以表征该测试问和候选问为一些相似的问句，将相似度达到第二阈值的测试问和候选问之间的关联值标定为2(第二目标关联值)，以表征该测试问和候选问为比较相似的问句。

应当说明的是，该标定关联值的方法中，也可以不设置目标相似度阈值，由技术人员基于知识经验，确定各测试问和各候选问之间的相似程度，标定不同的测试问和候选问之间的关联值。

第二种标定关联值的方法：基于预设问的聚类结果标定关联值。

具体地，可以基于每两个预设问之间的相似度，将相似度达到目标相似度阈值的预设问，聚类为一个问句簇，进而将各问句簇中的每两个预设问之间的关联值，标定为各问句簇对应的目标关联值；目标关联值与聚类时依据的目标相似度阈值对应，可以针对不同的目标相似度阈值设置不同的目标关联值。

其中在对预设问进行聚类时，可以但不局限于将各预设问转换为对应的特征向量，进而对特征向量进行聚类；也可以设置一些参考问，或者选取一些预设问作为参考问，将与参考问的相似度达到目标相似度阈值的预设问聚类为一个问句簇，如图5所示，给出一种预设问的聚类结果的抽象展示的示意图，图中每个圆表征一个预设问，每个矩形表示聚类得到的一个问句簇。

作为一种实施例，上述目标相似度阈值可以包括一个或多个，目标相似度阈值为一个时，可以将各问句簇中每两个预设问之间的关联值标定为目标关联值，以表征属于同一问句簇中的任意两个预设问互为相似的问句，将不属于同一问句簇的每两个预设问之间的关联值标定为目标关联值之外的其他关联值，以表征不属于同一问句簇的每两个预设问互相不是相似的问句，如可以但不局限于将目标关联值设置为1，将上述其他关联值设置为0。

目标相似度阈值包括多个时，可以将各问句簇中每两个预设问之间的关联值标定聚类时依据的目标相似度阈值对应的目标关联值，如目标相似度阈值包括第三阈值和第四阈值，可以将根据第三阈值聚类得到的问句簇中任意两个预设问之间的关联值，标定为第三阈值对应的目标关联值，将根据第四阈值聚类得到的问句簇中任意两个预设问之间的关联值，标定为第四阈值对应的目标关联值；其中第三阈值对应的目标关联值和第四阈值对应的目标关联值，为表征不同相似程度的关联值，如可以将第三阈值对应的目标关联值设置为1，将第四阈值对应的目标关联值设置为2。

应当说明的是，该方式中，针对没有聚类到任何一个问句簇的预设问，可以将该预设问与该预设问之外的任意预设问的关联值，标定为设定关联值，以表征该预设问与该预设问之外的任意预设问都不相似。

本申请实施例中两个预设问之间的相似度可以包括这两个预设问的字符串匹配程度，或这两个预设问的答案的字符串匹配程度，请参见下表1，给出一些基于答案的字符串匹配程度，确定的与参考问的相似度满足目标相似度阈值的预设问，即给出一些与参考问相似的预设问的示例：

表1：

作为一种实施例，在标定各测试问和各候选问之间的关联值之后，可以将候选问库、测试问库以及各测试问和各候选问之间的关联值存储在测试服务器220中，以便测试服务器220确定问答系统的召回指标值，也可以将候选问库、测试问库以及各测试问和各候选问之间的关联值存储在测试客户端120中，以便测试客户端120确定问答系统的召回指标值。

在得到测试问库和候选问库后，可以将候选问库存储到问答系统的问答服务器210中，以便问答服务器210根据目标测试问，从候选问库中检索并召回目标候选问，将测试问库提供给测试人员，以便测试人员从中选取目标测试问。

进一步，在将候选问库上传到待测试的各问答系统的问答服务器210后，利用获得的测试问库和上传的候选问库，对各问答系统基于候选问库回复问句的技能进行训练，如设置召回目标候选问的召回相似度阈值，让问答系统召回与测试问的相似度达到召回相似度阈值的候选问，以此对各问答系统进行训练，进而在完成各问答系统的训练后，对各问答系统进行测试。

下面对本申请实施例中涉及的问答系统的召回准确度的评测方法进行示例说明；本申请实施例中涉及的问答系统的召回准确度的评测方法可应用于上述测试服务器220或测试客户端120，请参见图6，该方法具体包括：

步骤S601，获取目标测试问和问答系统根据目标测试问召回的目标候选问，目标测试问包括问答系统的测试问库中的测试问，目标候选问包括上述问答系统的候选问库中的候选问，测试问库中的任一条测试问与候选问库中的任一条候选问之间预先标定有关联值，该关联值用于标识测试问和候选问之间的相似度；

步骤S602，基于目标候选问和目标测试问之间的关联值，确定上述问答系统的召回指标值，召回指标值表征问答系统召回第一相似候选问的准确度，其中第一相似候选问是指与目标测试问的相似度满足相似度条件的候选问。

本申请实施例中的召回指标值可以但不局限于包括如下一个指标值和多个指标值：

召回相关度，用以表征问答系统召回的目标候选问与多个目标测试问的相关程度，具体地，可以将召回的目标候选问是对应的目标测试问的相似问句的目标测试问的数量，与目标测试问的总数量的比值，确定为召回相关度；

召回准确率，用以表征针对每个目标测试问，问答系统召回的目标候选问是对应目标测试问的相似问句的准确度；

召回率，用以表征针对每个目标测试问，候选问库中与目标测试问的相似的候选问被召回的指标；

召回平均准确率，用以表征针对每个目标测试问，召回的目标候选问的召回顺序的精确度；

召回折损率，用以表征召回的目标候选问的召回顺序的损失值。

作为一种实施例，请参见图7，提供一种应用于图2示意出的应用场景的问答系统的召回准确度的评测方法的交互示意图，该交互过程具体如下：

步骤S701，问答客户端110接收用户输入的目标测试问，并将目标测试问发送给问答服务器210；

步骤S702，问答服务器210根据目标测试问，从候选问库中召回目标候选问；

步骤S703，问答服务器210将召回的目标候选问发送给问答客户端110；

步骤S704，测试客户端120通过接口获取目标测试问和根据目标测试问召回的目标候选问，并将获取的目标测试问和目标候选问；

步骤S705，测试客户端120将目标测试问和根据目标测试问召回的目标候选问发送给测试服务器220；

步骤S706，测试服务器220基于目标候选问和上述目标测试问之间的关联值，确定上述问答系统的召回指标值。

可选的，在步骤S706之后，测试服务器220还可以将确定的问答系统的召回指标值发送给测试客户端120，以使测试客户端120通过用户交互界面展示上述召回指标值。

请参见图8，提供一种应用于图3示意出的应用场景的问答系统的召回准确度的评测方法的交互示意图，该交互过程具体如下：

步骤S801，问答客户端110接收用户输入的目标测试问，并将目标测试问发送给问答服务器210；

步骤S802，问答服务器210根据目标测试问，从候选问库中召回目标候选问；

步骤S803，问答服务器210将召回的目标候选问发送给问答客户端110；

步骤S804，测试客户端120通过接口获取目标测试问和根据目标测试问召回的目标候选问；

步骤S805测试客户端120基于目标候选问和上述目标测试问之间的关联值，确定上述问答系统的召回指标值。

可选的，在步骤S804之后，测试客户端120还可以通过用户交互界面展示上述召回指标值。

以下分别对针对步骤S601中，针对不同的召回指标值的确定过程进行说明。

(一)召回相关度

针对各个目标测试问而言，将召回的目标候选问是对应的目标测试问的相似问句的目标测试问的总数量的比值，确定为召回相关度，其中目标测试问的相似问句可以是与对应的目标测试问的相似度达到第一相似度阈值的目标候选问；

可以根据各目标测试问召回的第j个目标候选问是否是对应的目标测试问的相似问句，确定召回的目标候选问是否是对应的目标测试问的相似问句，上述j为正整数；具体地，确定问答系统根据各目标测试问召回的第j个目标候选问，基于各目标测试问和对应的召回的第j个目标候选问之间的关联值，确定上述根据各目标测试问召回的第j个目标候选问中，与对应的目标测试问的相似度达到第一相似度阈值的第j个目标候选问的数量；将确定的第j个目标候选问的数量和上述目标测试问的总数量的比值，确定该问答系统的QQ相关度(上述召回相关度)；上述j可以为1或者其他正整数；

如若关联值设置包括1和0，其中1表征两个预设问之间的相似度达到第一相似度阈值，0表征两个预设问之间的相似度未达到第一相似度阈值，则可以通过如下公式1的原理，确定问答系统的QQ相关度。

公式1：

公式1中，i为目标测试问的标识信息，n为目标测试问的总数量，corpus_qi为第i个目标测试问，corpus_si为问答系统根据第i个目标测试问召回的第j个目标候选问，Relevance(corpus_qi，corpus_si)为第i个目标测试问和对应的第j个目标候选问的关联值。

例如，利用corpus_q1至corpus_q3三个目标测试问对问答系统进行测试，其中：

corpus_q1为“世界上最高的山是什么？”，corpus_s1为“世界上最高的山”，Relevance(corpus_q1，corpus_s1)＝1；

corpus_q2为“为什么地球是圆的？”，corpus_s2为“为何地球是圆形的”，Relevance(corpus_q2，corpus_s2)＝1；

corpus_q3为“地球面积最大的州是什么？”，corpus_s3为“地球历史最久的洲是什么”，Relevance(corpus_q3，corpus_s3)＝0；

则问答系统的QQ相关度为即该问答系统的QQ相关度为2/3。

(二)召回准确率

针对一个目标测试问而言，可以确定问答系统根据该目标测试问召回的目标候选问是否准确，即确定召回的目标候选问中与对应的目标测试问的相似度满足相似度条件的情况。

具体的，目标测试问包括一个，将该目标测试问的第一召回准确度(P@K)确定为问答系统的召回准确率；目标测试问包括多个，则基于多个目标测试问的第一召回准确度(P@K)，确定问答系统的召回准确率，如将多个目标测试问的第一召回准确度的均值作为问答系统的召回准确率，或将多个目标测试问的第一召回准确度加权后的均值作为问答系统的召回准确率。

其中，通过如下方式获取一个目标测试问的第一召回准确度(P@K)：

基于根据该目标测试问召回的各目标候选问和该目标测试问之间的关联值，确定根据该目标测试问召回的目标候选问中，与该目标测试问相似的目标候选问的第一数量，将第一数量和根据该目标测试问召回的目标候选问的总数量的比值，确定为该目标测试问的第一召回准确度，其中，可以与该目标测试问相似的目标候选问包括与该目标测试问的相似度达到第二相似度阈值的目标候选问。

如关联值设置包括1和0，1表征两个预设问之间的相似度达到第二相似度阈值，0表征两个预设问之间的相似度未达到第二相似度阈值，则可以通过如下公式2的原理，确定各目标测试问对应的第一召回准确度。

公式2：/>

公式2中corpus_q为一个目标测试问，i为问答系统根据corpus_q召回的目标候选问的召回顺序，corpus_ci为问答系统根据corpus_q召回的第i个目标候选问，K为问答系统根据corpus_q召回的目标候选问的数量，Relevance为关联值。

例如，利用corpus_q1和corpus_q2两个目标测试问对问答系统进行测试，问答系统根据每个目标测试问分别召回3个目标候选问，其中：

若针对corpus_q1：

corpus_q1为“世界上最高的山是什么？”；

corpus_c1为“世界上最高的山是”，Relevance(corpus_q1，corpus_c1)＝1；

corpus_c2为“世界上面积最大的山是”，Relevance(corpus_q1，corpus_c2)＝0；

corpus_c3为“世界上最高的山是啥”，Relevance(corpus_q1，corpus_c3)＝1；

则针对corpus_q1而言，其第一召回准确度为(1+0+1)/3，即corpus_q1的P@K为2/3。

若针对corpus_q2：

corpus_q2为“世界上最高的人是谁？”；

corpus_c1为“世界上最高的人是”，Relevance(corpus_q2，corpus_c1)＝1；

corpus_c2为“世界上最长的人是”，Relevance(corpus_q2，corpus_c2)＝1；

corpus_c3为“X国家最长的人是”，Relevance(corpus_q2，corpus_c3)＝0；

则针对corpus_q2而言，其第一召回准确度为(1+1+0)/3，即corpus_q2的P@K为2/3。

针对问答系统而言，其召回准确率为(2/3+2/3)/2，即针对问答系统的召回准确率为2/3。

(三)召回率

针对各目标测试问而言，可以确定问答系统根据各目标测试问召回目标候选问时，与目标测试问的相似度满足相似度条件的候选问被召回的召回率。

具体地，目标测试问包括一个，将该目标测试问的第二召回准确度(R@K)确定为问答系统的召回率；目标测试问包括多个，基于多个目标测试问的第二召回准确度，确定问答系统的召回率，如将多个目标测试问的第二召回准确度的均值作为问答系统的召回率，或将多个目标测试问的第二召回准确度加权后的均值作为问答系统的召回率。

其中，通过如下方式获取一个目标测试问的第二召回准确度(P@K)：

基于候选问库中的各候选问和该目标测试问之间的关联值，确定根据该目标测试问召回的目标候选问中与该目标测试问相似的目标候选问的第二数量，以及确定候选问库中与该目标测试问相似的候选问的第三数量，进而将第二数量和第三数量的比值，确定为该目标测试问的第二召回准确度；其中，与该目标测试问相似的目标候选问包括与该目标测试问的相似度达到第三相似度阈值的目标候选问；候选问库中与该目标测试问相似的候选问包括候选问库中与目标测试问的相似度达到上述第三相似度阈值的候选问。

如若关联值设置为1和0，表征两个预设问之间的相似度达到第三相似度阈值，0表征两个预设问之间的相似度未达到第三相似度阈值，则可以通过如下公式3的原理，确定各目标测试问对应的第二召回准确度。

公式3：

公式3中corpus_q为一个目标测试问，i为问答系统根据corpus_q召回的目标候选问的召回顺序，corpus_ci为问答系统根据corpus_q召回的第i个目标候选问，K为问答系统根据corpus_q召回的目标候选问的数量，Relevance为关联值，M为候选问库中与corpus_q的相似的候选问的总数量。

例如，利用corpus_q1至corpus_q2两个目标测试问对问答系统进行测试，问答系统根据每个目标测试问分别召回3个目标候选问，其中：

若针对corpus_q1：

corpus_q1为“世界上最高的人是什么？”；候选问库中与corpus_q1的相似度达到第三相似度阈值的候选问包括“世界上最高的人是”、“世界上最长的人是”以及“世界上最高的人是谁”共3个候选问；

corpus_c1为“世界上最高的人是”，Relevance(corpus_q1，corpus_c1)＝1；

corpus_c2为“世界上最长的人是”，Relevance(corpus_q1，corpus_c2)＝1；

corpus_c3为“X国家最长的人是啥”，Relevance(corpus_q1，corpus_c3)＝0；

则针对corpus_q1而言，其第二召回准确度为(1+1+0)/3，即corpus_q1的P@K为2/3。

若针对corpus_q2：

corpus_q2为“世界上最高的人是谁？”；候选问库中与corpus_q2的相似度达到第三相似度阈值的候选问包括“世界上最长的人是”、“世界上最长的人是”以及“世界上最高的人是谁”共3个候选问；

corpus_c2为“世界上最长的动物是”，Relevance(corpus_q2，corpus_c2)＝0；

corpus_c3为“X国家最长的人是啥”，Relevance(corpus_q2，corpus_c3)＝0；

则针对corpus_q2而言，其第二召回准确度为(1+0+0)/3，即corpus_q2的P@K为1/3。

针对问答系统而言，其召回率为(2/3+1/3)/2，即问答系统的召回率为1/2。

(四)召回平均准确度

针对各目标测试问而言，可以通过问答系统根据各目标测试问召回目标候选问时，与目标测试问的相似度满足相似度条件的目标候选问的召回顺序的准确度，来衡量问答系统的召回平均准确度。

具体地，目标测试问包括一个，将该目标测试问的召回顺序准确度(Mean AveragePrecision@K，MAP@K)确定为问答系统的召回平均准确度；目标测试问包括多个，基于多个目标测试问的召回顺序准确度，确定问答系统的召回指标值，如将多个目标测试问的召回顺序准确度的均值作为问答系统的召回平均准确度，或将多个目标测试问的召回顺序准确度加权后的均值作为问答系统的召回平均准确度。

其中，通过如下方式获取一个目标测试问的召回顺序准确度：

基于根据该目标测试问召回的各目标候选问和该目标测试问之间的关联值，从根据该目标测试问召回的目标候选问中确定出第二相似候选问；确定各第二相似候选问在第二相似候选问中的第一召回顺序，其中第二相似候选问包括与该目标测试问的相似度达到第四相似度阈值的目标候选问；以及

确定各第二相似候选问在根据该目标测试问召回的目标候选问中的第二召回顺序；将各第二相似候选问的第一召回顺序和第二召回顺序的比值的和，确定为该目标测试问的召回顺序准确度。

如关联值包括1和0，1表征两个预设问之间的相似度达到第四相似度阈值，0表征两个预设问之间的相似度未达到第四相似度阈值，则可以通过如下公式4的原理，确定各目标测试问对应的召回顺序准确度。

公式4：

公式4中m表示目标测试问的第二相似候选问，corpus_j表示各第二相似候选问在召回的第二相似候选问中的排序(即上述第一召回顺序)；

若针对corpus_q1，下述corpus_c1至corpus_c3为问答系统根据corpus_q1先后召回的3个目标候选问：

corpus_q1为“世界上最高的山是什么？”；

则corpus_c1与corpus_c3为corpus_q1的第二相似候选问；且corpus_c1的第一召回顺序为1，第二召回顺序为1；corpus_c3的第一召回顺序为2，第二召回顺序为3；

针对corpus_q1而言，其召回顺序准确度为(1/1+2/3)，即corpus_q1的MAP@K为0.833。

若针对corpus_q2，下述corpus_c1至corpus_c3为问答系统根据corpus_q1先后召回的3个目标候选问：

corpus_q2为“世界上最高的人是谁？”；

则corpus_c1与corpus_c2为corpus_q2的第二相似候选问；且corpus_c1的第一召回顺序为1，第二召回顺序为1；corpus_c2的第一召回顺序为2，第二召回顺序为2；

针对corpus_q2而言，其召回顺序准确度为(1/1+2/2)，即corpus_q2的MAP@K为1.0。

则该问答系统的召回平均准确度为(0.833+1.0)/2，即该问答系统的精确度为0.9165。

(五)召回折损率

针对各目标测试问而言，可以通过问答系统根据各目标测试问召回目标候选问时，与目标测试问的相似度满足相似度条件的目标候选问的召回顺序的损失值，来衡量问答系统的召回折损率。

具体地，目标测试问包括一个，将该目标测试问的召回顺序损失值，确定为问答系统的召回折损率；目标测试问包括多个，基于多个目标测试问的召回顺序损失值(Normalize Discounted Cumulative Gain，NDCG)，确定问答系统的召回折损率，如将多个目标测试问的召回顺序损失值的均值作为问答系统的召回折损率，或将多个目标测试问的召回顺序损失值加权后的均值作为问答系统的召回折损率。

其中，通过如下方式获取一个目标测试问的召回顺序损失值：

确定根据该目标测试问召回的各目标候选问，在召回的各目标候选问中的第三召回顺序；以及基于根据该目标测试问召回的各目标候选问和该目标测试问之间的关联值，以及根据该目标测试问召回的各目标候选问的第三召回顺序，确定第一召回损失参考值(Discounted Cumulative Gain，DCG)；以及

基于根据该目标测试问召回的各目标候选问和该目标测试问之间的关联值，以及根据该目标测试问召回的各目标候选问的第四召回顺序，确定第二召回损失参考值(IDCG)，其中各目标候选问对应的第四召回顺序，第四召回顺序是基于根据目标测试问召回的各目标候选问和该目标测试问之间的关联值的大小确定的；

将第一召回损失参考值和第二召回损失参考值的比值，确定为一个目标测试问的召回顺序损失值。

如关联值包括0、1、2，0至2表征两个预设问之间的相似度越来越高，则可以通过如下公式5的原理，确定各目标测试问对应的第一召回损失参考值DCG，通过如下公式6的原理，确定各目标测试问对应的第二召回损失参考值IDCG，通过如下公式7的原理，确定各目标测试问的召回顺序损失值。

公式5：

公式6：

公式7：

公式5至公式7中，R(i)表示召回的目标候选问中排序在第i个的目标候选问与该目标测试问的关联值，IR(i)表示理想情况下排序在第i个的目标候选问与该目标测试问的关联值，i为目标候选问的召回顺序；其中理想情况下，目标候选问按照其与目标测试问的关联值的大小的顺序被召回。

corpus_q1为“世界上最高的山是什么？”；

corpus_c1为“世界上最高的山是”，Relevance(corpus_q1，corpus_c1)＝2；

corpus_c2为“世界上最大的山是”，Relevance(corpus_q1，corpus_c2)＝0；

corpus_c3为“X国家最高的山是啥”，Relevance(corpus_q1，corpus_c3)＝1；

corpus_c1的第三召回顺序为1，第四召回顺序为1；corpus_c2的第三召回顺序为2，第四召回顺序为3；corpus_c3的第三召回顺序为3，第四召回顺序为2则：

corpus_q1的NDCG为(3+0.5)/(3+0.63)，即corpus_q1的NDCG为0.964。

corpus_q2为“最高的人是谁？”；

corpus_c1为“X国家最长的人是”，Relevance(corpus_q2，corpus_c1)＝1；

corpus_c2为“X国家最高的人是”，Relevance(corpus_q2，corpus_c2)＝1；

corpus_c3为“世界上最高的人是”，Relevance(corpus_q2，corpus_c3)＝2；

corpus_c1的第三召回顺序为1，第四召回顺序为2；corpus_c2的第三召回顺序为2，第四召回顺序为3；corpus_c3的第三召回顺序为3，第四召回顺序为1则：

corpus_q2的NDCG为(1+0.63+1.5)/(3+0.63+0.5)，即corpus_q2的NDCG为0.758。

则该问答系统的召回折损率为(0.964+0.758)/2，即该问答系统的召回折损率为0.861。

应当说明的是，在上述(一)至(五)中涉及的各相似度阈值可以为相同的阈值，也可以为不同的阈值，本领域的技术人员可根据实际需求设置。

作为一种实施例，在上述(一)至(五)中确定召回相关度、召回准确率、召回率、召回平均准确度以及召回折损率时，也可以按照召回顺序从召回的目标候选问中仅选取部分目标候选问进行计算，如选取根据每个目标测试问召回的前3个目标候选问，计算问答系统的各个召回指标值，请参见图9，给出一个根据每个目标测试问召回的前3个目标候选问，确定的三个问答系统的各类召回指标值的比较示意图。

本申请实施例中根据问答系统的召回指标值，从召回相似问句的能力的维度对问答系统进行评测，可以在通过传统方法评测出多个问答系统的回复准确度相近的情况下，可以通过各问答系统的召回相关度、召回准确率、召回率、召回平均准确度以及召回折损率对多个问答系统做进一步比较，提升了问答系统的评测精度；另一方面，本申请实施例在确定问答系统的召回指标值，不需要人工标注召回的各目标候选问和目标测试问的关系，减少了评测的耗时，提升了问答系统的评测效率，且评测结果不受限于测试人员的知识经验，提升了评测结果的质量稳定性，故而也提升了问答系统的评测准确度。

请参照图10，基于同一发明构思，本申请实施例提供一种问答系统的召回准确度的评测装置1000，包括：

信息获取单元1001，用于获取目标测试问和目标候选问，上述目标测试问包括问答系统的测试问库中的测试问，上述目标候选问包括上述问答系统根据上述目标测试问从候选问库中召回的候选问，上述测试问库中的任一条测试问与上述候选问库中的任一条候选问之间预先标定有关联值，上述关联值用于标识测试问和候选问之间的相似度；

评测结果确定单元1002，用于基于召回的目标候选问和上述目标测试问之间的关联值，确定上述问答系统的召回指标值，上述召回指标值表征召回第一相似候选问的准确度，上述第一相似候选问是指与上述目标测试问的相似度满足相似度条件的候选问。

作为一种实施例，信息获取单元1001还用于通过如下方式获得上述测试问库和上述候选问库：

获取用于测试上述问答系统的预设问集合；

将每个聚类中的部分预设问作为上述测试问库中的测试问，得到上述测试问库；以及

将每个聚类中作为测试问之外的其他预设问作为候选问，得到上述候选问库。

作为一种实施例，信息获取单元1001具体用于：

作为一种实施例，上述相似度包括测试问和候选问的字符串匹配度；或

上述相似度包括测试问的答案和候选问的答案的字符串匹配度。

作为一种实施例，上述目标测试问包括多个，评测结果确定单元702具体用于：

确定上述问答系统根据各目标测试问召回的第j个目标候选问，上述j为正整数；

基于各目标测试问和对应的召回的第j个目标候选问之间的关联值，确定上述根据各目标测试问召回的第j个目标候选问中，与对应的目标测试问的相似度达到第一相似度阈值的第j个目标候选问的数量；

将确定的第j个目标候选问的数量和上述目标测试问的总数量的比值，确定上述问答系统的召回指标值。

作为一种实施例，评测结果确定单元1002具体用于：

上述目标测试问包括一个，将上述目标测试问的第一召回准确度确定为上述问答系统的召回指标值；

上述目标测试问包括多个，基于上述多个目标测试问的第一召回准确度，确定上述问答系统的召回指标值；其中，通过如下方式获取一个目标测试问的第一召回准确度：

基于根据上述一个目标测试问召回的各目标候选问和上述一个目标测试问之间的关联值，确定根据上述一个目标测试问召回的目标候选问中，与上述一个目标测试问的相似度达到第二相似度阈值的目标候选问的第一数量；

将上述第一数量和根据上述一个目标测试问召回的目标候选问的总数量的比值，确定为上述一个目标测试问的第一召回准确度。

作为一种实施例，评测结果确定单元1002具体用于：

上述目标测试问包括一个，将上述目标测试问的第二召回准确度确定为上述问答系统的召回指标值；

上述目标测试问包括多个，基于上述多个目标测试问的第二召回准确度，确定上述问答系统的召回指标值，其中，通过如下方式获取一个目标测试问的第二召回准确度：

基于上述候选问库中的各候选问和上述一个目标测试问之间的关联值，确定根据上述一个目标测试问召回的目标候选问中，与上述一个目标测试问的相似度达到第三相似度阈值的目标候选问的第二数量；以及

确定上述候选问库中的各候选问中，与上述一个目标测试问的相似度达到上述第三相似度阈值的候选问的第三数量；

将上述第二数量和上述第三数量的比值，确定为上述一个目标测试问的第二召回准确度。

作为一种实施例，评测结果确定单元1002具体用于：

上述目标测试问包括一个，将上述目标测试问的召回顺序准确度确定为上述问答系统的召回指标值；

上述目标测试问包括多个，基于上述多个目标测试问的召回顺序准确度，确定上述问答系统的召回指标值，其中，通过如下方式获取一个目标测试问的召回顺序准确度：

基于根据上述一个目标测试问召回的各目标候选问和上述一个目标测试问之间的关联值，从根据上述一个目标测试问召回的目标候选问中确定出第二相似候选问，上述第二相似候选问包括与上述一个目标测试问的相似度达到第四相似度阈值的目标候选问；

确定各第二相似候选问在根据上述一个目标测试问召回的目标候选问中的第二召回顺序；

将各第二相似候选问的第一召回顺序和第二召回顺序的比值的和，确定为上述一个目标测试问的召回顺序准确度。

作为一种实施例，评测结果确定单元1002具体用于：

上述目标测试问包括一个，将上述目标测试问的召回顺序损失值，确定为上述问答系统的召回指标值；

上述目标测试问包括多个，基于上述多个目标测试问的召回顺序损失值，确定上述问答系统的召回指标值，其中，通过如下方式获取一个目标测试问的召回顺序损失值：

确定根据上述一个目标测试问召回的各目标候选问，在上述召回的各目标候选问中的第三召回顺序；以及

基于根据上述一个目标测试问召回的各目标候选问和上述一个目标测试问之间的关联值，以及根据上述一个目标测试问召回的各目标候选问的第三召回顺序，确定第一召回损失参考值；

确定根据上述一个目标测试问召回的各目标候选问对应的第四召回顺序，上述第四召回顺序是基于根据上述一个目标测试问召回的各目标候选问和上述一个目标测试问之间的关联值的大小确定的；

基于根据上述一个目标测试问召回的各目标候选问和上述一个目标测试问之间的关联值，以及根据上述一个目标测试问召回的各目标候选问的第四召回顺序，确定第二召回损失参考值；

将上述第一召回损失参考值和上述第二召回损失参考值的比值，确定为上述一个目标测试问的召回顺序损失值。

作为一种实施例，图10中的装置可以用于实现前文论述的任意一种问答系统的召回准确度的评测方法。

基于同一发明构思，本申请实施例提供一种终端设备，下面对该终端设备100进行介绍。

请参照图11，上述问答客户端110和测试客户端120可以安装在终端设备100上，该终端设备100包括显示单元1140、处理器1180以及存储器1120，其中，显示单元1140包括显示面板1141，用于显示由用户输入的目标测试问或展示目标候选问或展示问答系统的召回指标值，提供给用户的信息以及问答客户端110和测试客户端120的各种操作界面等，在本申请实施例中主要用于显示终端设备100中已安装的问答客户端110或测试客户端120的界面、快捷窗口等。

可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)或有机发光二极管OLED(Organic Light-Emitting Diode)等形式来配置显示面板1141。

处理器1180用于读取计算机程序，然后执行计算机程序定义的方法，例如处理器1180读取问答客户端110以及测试客户端120对应的应用等，从而在该终端设备100上运行应用，在显示单元1140上显示应用的界面。处理器1180可以包括一个或多个通用处理器，还可包括一个或多个DSP(Digital Signal Processor，数字信号处理器)，用于执行相关操作，以实现本申请实施例所提供的技术方案。

存储器1120一般包括内存和外存，内存可以为随机存储器(RAM)，只读存储器(ROM)，以及高速缓存(CACHE)等。外存可以为硬盘、光盘、USB盘、软盘或磁带机等。存储器1120用于存储计算机程序和其他数据，该计算机程序包括各客户端对应的应用程序等，其他数据可包括操作系统或应用程序被运行后产生的数据，该数据包括系统数据(例如操作系统的配置参数)和用户数据。本申请实施例中程序指令存储在存储器1120中，处理器1180执行存储器1120中的程序指令，实现前文图论述的任意的一种问答系统的召回准确度的评测方法。

上述显示单元1140用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势，以及产生与终端设备100的用户设置以及功能控制有关的信号输入等。具体地，本申请实施例中，该显示单元1140可以包括显示面板1141。显示面板1141例如触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在显示面板1141上或在显示面板1141的操作)，并根据预先设定的程式驱动相应的连接装置。

可选的，显示面板1141可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测玩家的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1180，并能接收处理器1180发来的命令并加以执行。在本申请实施例中，若用户点击问答客户端110或测试客户端120，则在显示面板1141中的触摸检测装置检测到触摸操作，则将检测到的触摸操作对应的信号发送的触摸控制器，触摸控制器将信号转换成触点坐标发送给处理器1180，处理器1180根据接收到的触点坐标确定用户需要对问答客户端110或测试客户端120进行的操作。

其中，显示面板1141可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元1140，终端设备100还可以包括输入单元1130，输入单元1130可以包括图形输入设备1131和其他输入设备1132，其中其他输入设备可以但不限于包括物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

除以上之外，终端设备100还可以包括用于给其他模块供电的电源1190、音频电路1160、近场通信模块1170和RF电路1110。终端设备100还可以包括一个或多个传感器1150，例如加速度传感器、光传感器、压力传感器等。音频电路1160具体包括扬声器1161和麦克风1162等，例如终端设备100可以通过麦克风1162采集用户的声音，进行相应的操作等。

作为一种实施例，处理器1180的数量可以是一个或多个，处理器1180和存储器1120可以是耦合设置，也可以是相对独立设置。

作为一种实施例，图11中的处理器1180可以用于实现如图10中的信息获取单元1001和评测结果确定单元1002的功能。

作为一种实施例，图11中的处理器1180可以用于实现前文论述的问答客户端110的功能，和/或测试客户端120的功能。

上述测试装置1000作为硬件实体的一个实例如图12所示的计算机设备，该计算机设备包括处理器1201、存储介质1202以及至少一个外部通信接口1203；上述处理器1201、存储介质1202以及外部通信接口1203均通过总线1204连接。

存储介质1202中存储有计算机程序；

处理器1201执行该计算机程序时实现前文论述的测试服务器220的问答系统的召回准确度的评测方法。

图12中是以一个处理器1201为例，但是实际上不限制处理器1201的数量。

其中，存储介质1202可以是易失性存储介质(volatile memory)，例如随机存取存储介质(random-access memory，RAM)；存储介质1202也可以是非易失性存储介质(non-volatile memory)，例如只读存储介质，快闪存储介质(flash memory)，硬盘(hard diskdrive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储介质1202是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储介质1202可以是上述存储介质的组合。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例提供的一种直播控制方法。

基于同一技术构思，本申请实施例还一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，当上述计算机指令在计算机上运行时，使得计算机执行如前文论述的目标函数确定方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种问答系统的召回准确度的评测方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述测试问库和所述候选问库是通过如下方式获得的：

获取用于测试所述问答系统的预设问集合；

3.如权利要求2所述的方法，其特征在于，所述基于每两个预设问之间的相似度，对预设问集合中的各预设问进行聚类，包括：

4.如权利要求1-3任一项所述的方法，其特征在于，所述目标测试问包括多个，所述基于召回的目标候选问和所述目标测试问之间的关联值，确定所述问答系统的召回指标值，包括：

5.如权利要求1-3任一项所述的方法，其特征在于，所述基于召回的目标候选问和所述目标测试问之间的关联值，确定所述问答系统的召回指标值，包括：

6.如权利要求1-3任一项所述的方法，其特征在于，所述基于召回的目标候选问和所述目标测试问之间的关联值，确定所述问答系统的召回指标值，包括：

7.如权利要求1-3任一项所述的方法，其特征在于，所述基于召回的目标候选问和所述目标测试问之间的关联值，确定所述问答系统的召回指标值，包括：

8.如权利要求1-3任一项所述的方法，其特征在于，所述基于召回的目标候选问和所述目标测试问之间的关联值，确定所述问答系统的召回指标值，包括：

9.一种问答系统的召回准确度的评测装置，其特征在于，包括：

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-8中任一权利要求所述方法的步骤。