CN114706795A

CN114706795A - 面向SaaS人工智能应用的图灵测试方法、装置和系统

Info

Publication number: CN114706795A
Application number: CN202210632474.2A
Authority: CN
Inventors: 尹刚; 邓再勇; 黄井泉; 王威; 钟科军; 周丽涛; 段甲生; 林露; 喻银凤; 皮佑先
Original assignee: Hunan Zhijing Technology Co ltd
Current assignee: Hunan Zhijing Technology Co ltd
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-07-05

Abstract

本申请涉及面向SaaS人工智能应用的图灵测试方法、装置和系统，方法包括：接收用户端发送的提问数据；根据提问数据从问答知识库中召回多个备选问题及对应回答；将备选问题中与提问数据中的问题相似度最高的备选问题确定为目标问题，将目标问题对应的目标回答返回给用户端；目标回答用于指示提问数据的回答信息；向用户端发送回答有效性问卷；回答有效性问卷用于指示目标回答对提问数据的有效性；接收用户端返回的问卷结果并进行有效性统计；若有效性统计结果中有效占比大于30%，则确定当前SaaS人工智能应用通过图灵测试。显著提升了SaaS人工智能应用的图灵测试质量。

Description

面向SaaS人工智能应用的图灵测试方法、装置和系统

技术领域

本发明属于计算机应用测试技术领域，涉及一种面向SaaS人工智能应用的图灵测试方法、装置和系统。

背景技术

SaaS是Software-as-a-Service的缩写名称，意思为软件即服务，即通过网络提供软件服务。SaaS平台供应商将应用软件统一部署在己方服务器上，用户可以根据工作实际需求，通过互联网向厂商定购所需的应用软件服务并通过互联网获得Saas平台供应商提供的服务。图灵测试作为一种人工智能应用测试方法，其通过人工智能应用（机器）冒充人来回答问题，如果超过30%的人认为是真人在回答问题而非机器回答，那么就认为此人工智能应用通过了图灵测试。

近年来，智能问答系统作为人工智能在自然语言处理领域落地最多的应用，尤其是在各种提供SaaS服务的平台。智能问答系统的测试是AI模型开发人员和SaaS平台都需要面对的问题，而人工智能应用的图灵测试作为一种评判标准，从很大程度上决定了智能问答系统是否能够进行工业级大规模部署应用。传统的应用测试方法是通过准确率、召回率和F1 Score来进行模型性能评估，以便在代码层级来优化模型。然而，在实现本发明的过程中，发明人发现传统的应用测试方法，存在着测试质量较差的技术问题。

发明内容

针对上述传统方法中存在的问题，本发明提出了一种面向SaaS人工智能应用的图灵测试方法、一种面向SaaS人工智能应用的图灵测试装置、一种SaaS人工智能应用系统、一种计算机设备和一种计算机可读存储介质，可显著提升SaaS人工智能应用的图灵测试质量。

为了实现上述目的，本发明实施例采用以下技术方案：

一方面，提供一种面向SaaS人工智能应用的图灵测试方法，包括步骤：

接收用户端发送的提问数据；

根据提问数据从问答知识库中召回多个备选问题及对应回答；

将备选问题中与提问数据中的问题相似度最高的备选问题确定为目标问题，将目标问题对应的目标回答返回给用户端；目标回答用于指示提问数据的回答信息；

向用户端发送回答有效性问卷；回答有效性问卷用于指示目标回答对提问数据的有效性；

接收用户端返回的问卷结果并进行有效性统计；

若有效性统计结果中有效占比大于30%，则确定当前SaaS人工智能应用通过图灵测试。

另一方面，还提供另一种面向SaaS人工智能应用的图灵测试方法，包括步骤：

向智能服务端发送提问数据；智能服务端部署有SaaS人工智能应用；

接收智能服务端返回的目标回答；目标回答用于指示提问数据的回答信息；

接收智能服务端发送的回答有效性问卷；回答有效性问卷用于指示目标回答对提问数据的有效性；

获取对回答有效性问卷输入的问卷结果并发送至智能服务端；问卷结果用于指示智能服务端进行有效性统计，有效性统计的结果用于指示SaaS人工智能应用是否通过图灵测试。

又一方面，还提供一种面向SaaS人工智能应用的图灵测试装置，包括：

提问接收模块，用于接收用户端发送的提问数据；

问答召回模块，用于根据提问数据从问答知识库中召回多个备选问题及对应回答；

问答返回模块，用于将备选问题中与提问数据中的问题相似度最高的备选问题确定为目标问题，将目标问题对应的目标回答返回给用户端；目标回答用于指示提问数据的回答信息；

问卷发送模块，用于向用户端发送回答有效性问卷；回答有效性问卷用于指示目标回答对提问数据的有效性；

问卷统计模块，用于接收用户端返回的问卷结果并进行有效性统计；

测试判决模块，用于在有效性统计结果中有效占比大于30%时，确定当前SaaS人工智能应用通过图灵测试。

再一方面，还提供另一种面向SaaS人工智能应用的图灵测试装置，包括：

提问发送模块，用于向智能服务端发送提问数据；智能服务端部署有SaaS人工智能应用；

回答接收模块，用于接收智能服务端返回的目标回答；目标回答用于指示提问数据的回答信息；

问卷接收模块，用于接收智能服务端发送的回答有效性问卷；回答有效性问卷用于指示目标回答对提问数据的有效性；

结果发送模块，用于获取对回答有效性问卷输入的问卷结果并发送至智能服务端；问卷结果用于指示智能服务端进行有效性统计，有效性统计的结果用于指示SaaS人工智能应用是否通过图灵测试。

再一方面，还提供一种SaaS人工智能应用系统，包括用户端设备和智能服务器，智能服务器部署有SaaS人工智能应用；

用户端设备向智能服务器发送提问数据时，智能服务器根据提问数据从问答知识库中召回多个备选问题及对应回答；

智能服务器将备选问题中与提问数据中的问题相似度最高的备选问题确定为目标问题，将目标问题对应的目标回答返回给用户端设备；目标回答用于指示提问数据的回答信息；

智能服务器返回目标回答后，向用户端设备发送回答有效性问卷；回答有效性问卷用于指示目标回答对提问数据的有效性；

用户端设备获取对回答有效性问卷输入的问卷结果并发送至智能服务器；

智能服务器接收问卷结果并进行有效性统计，在有效性统计结果中有效占比大于30%时，确定SaaS人工智能应用通过图灵测试。

再一方面，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述任一种面向SaaS人工智能应用的图灵测试方法的步骤。

再一方面，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一种面向SaaS人工智能应用的图灵测试方法的步骤。

上述技术方案中的一个技术方案具有如下优点和有益效果：

上述面向SaaS人工智能应用的图灵测试方法、装置和系统，通过提出一种全新的问答系统SaaS人工智能应用图灵测试方法，首先接收用户提出的提问，然后SaaS人工智能应用从问答知识库中进行快速的问题与回答召回，实现相似问题及其回答的粗筛选，进而从召回的问题中选取相似度最高的备选问题对应的回答作为用户提问的回答，而且针对给出的回答向用户发起有效性问卷调查，最后对应问卷结果进行有效性统计后，当有效占比超过30%时，问答系统SaaS人工智能应用即通过了图灵测试。

与传统的应用测试相比，上述方案构建了全程可由用户人为参与的图灵测试实验床，可以发现智能问答系统的问答知识库存在问/回答内容质量不高的情况，为解决可能出现的答非所问的情况提供有效优化途径，是一种具有自学习自优化的解决方法。此外，上述方案更接近真实业务使用场景的人工智能应用的图灵测试，当用户调查问卷中有效的问答统计结果占比超过30%，即可认为智能问答系统人工智能应用通过了图灵测试，达到了显著提升SaaS人工智能应用的图灵测试质量的效果。

附图说明

图1为一个实施例中SaaS人工智能应用系统的结构组成示意图；

图2为一个实施例中SaaS人工智能应用系统中的各端交互时序示意图；

图3为一个实施例中SaaS人工智能应用系统与外部设备的交互时序示意图；

图4为一个实施例中面向SaaS人工智能应用的图灵测试方法的第一流程示意图；

图5为一个实施例中面向SaaS人工智能应用的图灵测试方法的第二流程示意图；

图6为一个实施例中面向SaaS人工智能应用的图灵测试方法的第三流程示意图；

图7为一个实施例中面向SaaS人工智能应用的图灵测试装置的模块结构示意图；

图8为另一个实施例中面向SaaS人工智能应用的图灵测试装置的模块结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“和／或”包括一个或多个相关的所列项目的任意的和所有的组合。

下面将结合本发明实施例图中的附图，对本发明实施方式进行详细说明。

在实践研究中，发明人发现传统的测试方法只能通过准确率、召回率和F1 Score来进行模型性能评估，只能在代码层级来优化模型，并不能在应用层级开展智能问答系统的图灵测试。而人工智能应用的图灵测试作为一种评判标准，从很大程度上决定了智能问答系统是否能够进行工业级大规模部署应用，因此，即使在代码层级把模型的准确率、召回率和F1 Score提升得很高，若不能有效通过图灵测试，则也不能进行工业级大规模部署应用。

具体的，传统的测试方法是：通过优化算法和代码，提升智能问答系统模型的准确率、召回率和F1 Score，其中：

召回率(Recall) =系统检索到的相关问题/系统所有相关的问题总数；

准确率(Precision)=系统检索到的相关问题/系统所有检索到的问题总数；

F1 Score =准确率*召回率*2/(准确率+召回率) ，（F1值即为正确率和召回率的调和平均值）。

上述传统的测试方法在实际应用中：没有用户人为的参与，只能通过优化算法和代码。因此，即便把召回率、准确率和F1 Score的值提升得很高，如果智能问答系统的问答知识库存在的问答内容质量不高，出现答非所问的情况也无法及时发现。而智能问答系统是直接给用户提供服务的，出现答非所问的情况会极大地影响用户的服务体验。综上，发明人在实现本发明的过程中研究发现传统的测试方法没有用户全程参与测试，没有考虑到真实的业务使用场景，不能真正测试出智能问答系统存在的问题和不足，也即存在着图灵测试的测试质量较差的技术问题。

针对上述技术问题，本申请的设计构思是构造一种基于SaaS应用A的智能问答系统图灵测试实验床，全程可支持用户人为参与测试，在智能问答系统每次给用户回答问题后，提供用户调查问卷，以便用户可以点击本次回答是否有用或者无用，并且还可以填写有用或者无用的反馈意见，SaaS应用A在后台统计有用和无用的结果，可将用户的调查问卷结果反馈给AI算法研究团队，AI算法团队根据用户调查问卷结果不断完善问答知识库、优化改进智能问答系统模型和算法，从而有效地显著提高SaaS人工智能应用的图灵测试质量，有效推动智能问答系统快速进入工业级大规模部署应用。

请参阅图1，在一个实施例中，本申请提供了一种SaaS人工智能应用系统100，包括用户端设备11和智能服务器13。智能服务器13部署有SaaS人工智能应用。用户端设备11向智能服务器13发送提问数据时，智能服务器13根据提问数据从问答知识库中召回多个备选问题及对应回答。智能服务器13将备选问题中与提问数据中的问题相似度最高的备选问题确定为目标问题，将目标问题对应的目标回答返回给用户端设备11。目标回答用于指示提问数据的回答信息。

智能服务器13返回目标回答后，向用户端设备11发送回答有效性问卷；回答有效性问卷用于指示目标回答对提问数据的有效性。用户端设备11获取对回答有效性问卷输入的问卷结果并发送至智能服务器13。智能服务器13接收问卷结果并进行有效性统计，在有效性统计结果中有效占比大于30%时，确定SaaS人工智能应用通过图灵测试。

可以理解，参与测试的用户可通过用户端设备11与智能服务器13实现问答交互，智能服务器13可以是云服务器，也可以是本地服务器或者其他服务器系统。用户端设备11可以是各类电脑或者其他人机交互终端，只要可以将SaaS人工智能应用提供的人机交互界面展示给用户并接收用户的输入指令即可。

智能服务器13上可预先配置有待测试的SaaS人工智能应用，具体如应用的AI模型及智能问答系统算法等。SaaS人工智能应用可设置有虚拟身份，以便该SaaS人工智能应用可以该虚拟身份通过用户端设备11为用户提供服务。提问数据是指用户端设备11收到用户想要对SaaS人工智能应用进行提问而输入的问题后，对应生成的便于在用户端设备11和智能服务器13之间传输的数据，其中包含用户所提问题（内容）。

问答知识库为SaaS人工智能应用中智能问答系统所使用的知识库，其中存储了海量的问题及其回答的数据，且可以在实际测试与应用中进行扩充升级。备选问题及对应回答也即是指智能问答系统通过配置的快速召回算法，从问答知识库中召回的与用户所提问题相似的Top k（相似程度较高的前若干）个问题及其回答。目标回答也即针对用户所提问题返回给用户端设备11以呈现给用户的回答，回答信息也即针对用户所提问题的回答内容。

回答有效性问卷也即针对SaaS人工智能应用回答的内容提供的调查问卷，用于收集用户针对SaaS人工智能应用的回答给出的有效性（评价），有效性（评价）例如但不限于是有效或无效（有用或无用），以及其他反馈意见等。问卷上的具体问题可以根据实际需要进行设置或生成，只要能够实现所需的调查目的即可。智能服务器13上的SaaS人工智能应用在每次针对用户的提问进行回答时均可以发送相应的回答有效性问卷并记录用户给出的问卷结果（如有效或无效）。如此，可以进行常态化图灵测试调查，也可以便于测试后将调查结果反馈至AI算法研发团队所在的后台，帮助AI算法研发团队实现对SaaS人工智能应用进行持续优化服务。

在收到问卷结果后均可以对当前累计收到的所有问卷结果进行统计，统计其中用户评价为有效（有用）在所有有效性评价中占据的比重。当有效性统计结果中有效占比大于30%时，即表明在应用层级上对SaaS人工智能应用的图灵测试获得通过。

上述SaaS人工智能应用系统100，通过采用一种全新的问答系统SaaS人工智能应用图灵测试方法，首先接收用户提出的提问，然后SaaS人工智能应用从问答知识库中进行快速的问题与回答召回，实现相似问题及其回答的粗筛选，进而从召回的问题中选取相似度最高的备选问题对应的回答作为用户提问的回答，而且针对给出的回答向用户发起有效性问卷调查，最后对问卷结果进行有效性统计后，当有效占比超过30%时，问答系统SaaS人工智能应用即通过了图灵测试。

在一个实施例中，如图2所示，智能服务器13包括第一云服务器131和第二云服务器132。SaaS人工智能应用包括SaaS应用A和智能问答系统。

SaaS应用A采用Docker镜像方式部署在第一云服务器131上，智能问答系统采用Docker镜像方式部署在第二云服务器132上，第一云服务器131和第二云服务器132通过RestAPI接口连接。第一云服务器131通信连接用户端设备11。智能问答系统中存储有问答知识库。

可以理解，SaaS应用A部署在一个云服务器上，智能问答系统部署在另一云服务器上，智能问答系统提供RestAPI接口给SaaS应用A调用，可以JSON的格式返回数据。SaaS应用A通过客户端为用户提供服务，智能问答系统通过RestAPI接口提供服务，同时开启Http协议监听端口，监听SaaS应用A的RestAPI接口调用请求，以便提供实时智能问答服务。

具体的，在用户端设备11展示的客户端（SaaS应用A的交互界面）上，用户输入想向虚拟身份（如虚拟智能助教）提问的问题后，点击发送（即向用户端设备11输入发送数据的控制指令），用户将会快速看到智能问答系统（以虚拟身份呈现给用户并为用户提供服务）的回答。在这其中，其内部处理过程可以如下：SaaS应用A传递用户所提问题的问题参数，智能问答系统在接收到接口调用请求后，即可首先通过快速召回算法召回相似的Top k个问题和回答，然后再通过句子语义相似度匹配算法返回最匹配的问题及其回答。将得到的最匹配的问题及其回答通过SaaS应用A返回到用户端设备11以呈现给用户。

SaaS应用A在返回目标回答给用户时，还会向用户提供调查问卷（回答有效性问卷），用户可以针对智能问答系统给出的回答给出有效性评价，如根据回答有效性问卷的调查给出有效或无效（有用或无用）评价，也即给出本次测试的问卷结果；其中，有效（有用）即代表本次智能问答系统的回答通过测试，反之则未通过本次测试。当用户选择有用或无用时，SaaS应用A即向自身使用的问卷调查数据库中保存本次的用户反馈记录（即本次测试的问卷结果），以便后续进行统计。

此外，在一些实施方式中，在回答有效性问卷中也可以提交其他选项，如用户提供的详细反馈意见，用于说明本次回答有用或无用的具体理由，SaaS应用A也可同步将该反馈意见保存到问卷调查数据库中，以便后台AI算法研发团队调用。

在一个实施例中，智能问答系统使用的问答知识库中存储了海量的问题及其回答，并且还可以通过上述构建的图灵测试实验床不断地进行数据扩充与完善。智能问答系统可将问答知识库中所有的问题通过Word2Vec（一群用来产生词向量的相关模型）的方式进行句子向量化保存，并且通过向量索引的方式建立好索引，以便提高智能问答系统执行召回操作的效率。在测试中，SaaS应用A通过智能问答系统提供的RestAPI接口传递用户所提问题的问题参数，智能问答系统在收到接口调用请求后，首先对请求的问题参数进行解析，再将参数请求的问题通过Word2Vec的方式进行句子向量化，进而进行召回处理。

在一个实施例中，在智能问答系统中，使用HNSW近似最近邻向量检索算法从海量的问答知识库中召回Top k个和参数请求问题相似的问题，以进行相似问题的粗筛选。若参数请求问题（即用户所提问题）在问答知识库中没有发现相似的问题，则智能问答系统可以自动记录并保存用户所提的此问题，以便于后续通过图灵测试实验床进行问题补充与完善。

在一个实施例中，智能问答系统中，可以使用预训练语言模型（例如但不限于Sentence-Bert），根据已有的文本语义相似度算法对召回的问题和参数请求的问题进行语义相似度匹配计算，选取相似度最高的问题对应的回答，作为参数请求的问题的回答内容，同时返回其他相关的问题和回答。

在一个实施例中，在SaaS应用A中，设置并开启虚拟智能助教（为智能问答系统设置的虚拟身份）进行自动答疑，即将智能问答系统设置为虚拟智能助教的身份给用户提供问答服务，实现通过虚拟智能助教冒充真实的助教来回答用户的问题。智能问答系统通过虚拟智能助教的身份回答用户的问题时，从问答知识库中检索出和用户所问问题大于设定相似阈值（具体相似阈值可以根据实际应用场景的需要设定）的问题，只要问答知识库中存在相似的问题，智能问答系统即会立即给出回答，如在用户端设备11的客户端界面上立即显示回答内容，以呈现给用户是真实的助教在回答问题的感觉，以便促进图灵测试的效率提升。

在一个实施例中，如图3所示，在SaaS应用A的后台统计用户调查问卷中有用和无用的数据，也即进行有效性统计后，可以将统计的结果提交给智能问答系统的AI算法研发团队所在的研发后台（研发终端设备），以便AI算法研发团队在收到调查问卷结果的统计后，针对用户给出的反馈，可分析评价为无用的回答和其他详细意见反馈，采用相应优化措施调整图灵测试实验床、完善评价为无用的回答。

在一个实施例中，智能问答系统的AI算法研发团队可以持续优化更新问答知识库和优化改进模型（智能问答系统），经过多轮（相应的进行多次图灵测试）的迭代改进和优化，当用户反馈的调查问卷的统计结果中评价为有效的回答数据占比超过30%时，智能问答系统人工智能应用即可通过图灵测试，从而能够快速进入后续的工业级大规模部署应用。

请参阅图4，在一个实施例中，提供了一种面向SaaS人工智能应用的图灵测试方法，包括以下步骤S12至S22：

S12，接收用户端发送的提问数据；

S14，根据提问数据从问答知识库中召回多个备选问题及对应回答；

S16，将备选问题中与提问数据中的问题相似度最高的备选问题确定为目标问题，将目标问题对应的目标回答返回给用户端；目标回答用于指示提问数据的回答信息；

S18，向用户端发送回答有效性问卷；回答有效性问卷用于指示目标回答对提问数据的有效性；

S20，接收用户端返回的问卷结果并进行有效性统计；

S22，若有效性统计结果中有效占比大于30%，则确定当前SaaS人工智能应用通过图灵测试。

可以理解，关于上述各步骤中的各特征术语的解释说明，可以同理参照上述SaaS人工智能应用系统100各实施例中的相应特征术语同理理解，此处不再重复赘述。本实施例的方法将从智能服务端（如上述的智能服务器13）的角度进行展开描述。

具体的，智能服务端接收用户端发送的提问数据，智能服务端上部署的SaaS人工智能应用即从问答知识库中快速召回与所提问题相似的多个备选问题及其对应回答，然后从召回的备选问题中选取最相似的备选问题作为匹配的目标问题，将该目标问题对应的回答返回给用户端呈现给用户，以便用户快速得到SaaS人工智能应用的回答。

此外，SaaS人工智能应用还会通过智能服务端和用户端向用户发送本次回答的调查问卷（即回答有效性问卷），收到用户给出的问卷结果后基于当前所有收到的问卷结果进行有效性统计，当有效性统计结果中有效占比大于30%时，即可确定当前SaaS人工智能应用通过了图灵测试。

上述面向SaaS人工智能应用的图灵测试方法，通过提出一种全新的问答系统SaaS人工智能应用图灵测试方法，首先接收用户提出的提问，然后SaaS人工智能应用从问答知识库中进行快速的问题与回答召回，实现相似问题及其回答的粗筛选，进而从召回的问题中选取相似度最高的备选问题对应的回答作为用户提问的回答，而且针对给出的回答向用户发起有效性问卷调查，最后对应问卷结果进行有效性统计后，当有效占比超过30%时，问答系统SaaS人工智能应用即通过了图灵测试。

在一个实施例中，关于上述的步骤S14，具体可以包括如下处理步骤：

对提问数据中的问题进行句子向量化操作；

根据句子向量化操作后的问题，采用近似最近邻向量检索算法从问答知识库中召回多个备选问题及对应回答。

具体的，SaaS人工智能应用中，智能问答系统使用的问答知识库中所有的问题已通过Word2Vec的方式进行句子向量化保存，因此，当收到新的问题时，首先将其通过Word2Vec的方式进行句子向量化，以便采用HNSW近似最近邻向量检索算法从问答知识库中快速召回多个备选问题及对应回答。

通过上述处理，即可实现备选问题及对应回答的高效召回操作。

在一个实施例中，关于上述的步骤S16中将备选问题中与提问数据中的问题相似度最高的备选问题确定为目标问题的过程，具体可以包括如下处理过程：

采用预训练语言模型，通过文本语义相似度算法对提问数据中的问题与召回的多个备选问题进行语义相似度匹配处理；

选取语义相似度最高的备选问题作为目标问题。

具体的，预训练语言模型在本领域中可以有多种现有模型可用，在本实施例中可以使用预训练语言模型Sentence-Bert，通过已有的文本语义相似度算法实现对问题的相似度匹配（计算）处理，从而快速找到与用户所提问题语义相似度最高的目标问题，以便向用户端快速返回目标回答。

在一个实施例中，上述面向SaaS人工智能应用的图灵测试方法还可以包括如下处理步骤：

若提问数据中的问题在问答知识库中无相似问题，则保存提问数据中的问题。

可以理解，当用户所提问题在问答知识库中没有发现相似的问题时，SaaS人工智能应用中的智能问答系统可以自动记录并保存用户所提的此问题，如可以将该问题反馈给研发终端设备，以便于AI算法研发人员后续通过图灵测试实验床进行问题补充与完善，以进一步提高测试质量。

在一个实施例中，如图5所示，上述面向SaaS人工智能应用的图灵测试方法还可以包括如下处理步骤S24至S28：

S24，将有效性统计结果发送至研发终端；

S26，接收研发终端返回的测试结果文件；测试结果文件包括图灵测试通过的确认或系统更新文件；

S28，若测试结果文件为系统更新文件，则利用系统更新文件进行系统更新升级。

可以理解，SaaS人工智能应用中的SaaS应用A还可以将有效性统计结果（可以是每次测试的或者间隔若干次测试）发送给研发后台，也即研发终端，以便智能问答系统的AI算法研发团队在收到调查问卷结果的统计后，可以返回相应的测试通过确认指令，或者针对用户给出的反馈，可分析评价为无用的回答和其他详细意见反馈，采用优化措施后即可通过图灵测试实验床调整、完善评价为无用的回答，又或者对问答知识库与智能问答系统的模型算法等进行更新升级，从而将形成的系统更新文件返回给智能服务端，以对智能服务端上的智能问答系统进行系统更新升级，实现问答知识库的自增长外，还可实现智能问答系统的模型自更新机制，以进一步提升图灵测试通过的效率与质量。

在一个实施例中，问卷结果包括有用、无用或改进反馈意见数据；改进反馈意见数据用于发送至研发终端。

可以理解，用户可以对智能问答系统给出的回答进行有效性评价，如根据回答有效性问卷给出的评价选项，点击选择有用或无用的评价选项，以向SaaS应用A返回对于本次回答的问卷结果。用户还可以选择给出其他改进反馈意见，以便AI算法研发团队进行更深入的系统优化。

请参阅图6，在一个实施例中，提供了另一种面向SaaS人工智能应用的图灵测试方法，包括以下步骤S31至S37：

S31，向智能服务端发送提问数据；智能服务端部署有SaaS人工智能应用；

S33，接收智能服务端返回的目标回答；目标回答用于指示提问数据的回答信息；

S35，接收智能服务端发送的回答有效性问卷；回答有效性问卷用于指示目标回答对提问数据的有效性；

S37，获取对回答有效性问卷输入的问卷结果并发送至智能服务端；问卷结果用于指示智能服务端进行有效性统计，有效性统计的结果用于指示SaaS人工智能应用是否通过图灵测试。

可以理解，关于本实施例上述各步骤中的各特征术语的解释说明，可以参照上述SaaS人工智能应用系统100各实施例中的相应特征术语同理理解，此处不再重复赘述。本实施例的方法将从用户端的角度进行展开描述。

具体的，用户通过用户端向智能服务端上的SaaS人工智能应用发送提问数据，SaaS人工智能应用将会快速给出回答至用户端以呈现给用户。当SaaS人工智能应用针对本次回答发出回答有效性问卷后，用户端将会接收智能服务端发送的回答有效性问卷并呈现给用户，用户对本次回答进行有效性评价，即向用户端输入选择的问卷结果，此时用户端即获取该问卷结果并发送至智能服务端，以便智能服务端进行有效性统计，有效性统计的结果可指示SaaS人工智能应用是否通过图灵测试，如当有效性统计结果中有效占比大于30%时，即可确定当前SaaS人工智能应用通过了本次图灵测试，否则未通过本次图灵测试。

上述面向SaaS人工智能应用的图灵测试方法，通过提出一种全新的问答系统SaaS人工智能应用图灵测试方法，首先向SaaS人工智能应用提问问题，然后SaaS人工智能应用从问答知识库中进行快速的问题与回答召回，实现相似问题及其回答的粗筛选，进而从召回的问题中选取相似度最高的备选问题对应的回答作为用户提问的回答，而且针对给出的回答向用户发起有效性问卷调查，最后对应问卷结果进行有效性统计后，当有效占比超过30%时，问答系统SaaS人工智能应用即通过了图灵测试。

在一个实施例中，关于上述的步骤S31，具体可以包括如下处理步骤：

在显示的交互界面中读取对虚拟智能助教输入的提问问题；虚拟智能助教为SaaS人工智能应用在上述交互界面中的身份展示；

接收到输入的发送指令后，生成提问问题对应的提问数据并发送至智能服务端。

可以理解，关于在用户端显示的交互界面上虚拟智能助教等的解释说明，可以参照上述实施例中关于SaaS人工智能应用的相应身份的解释说明同理理解，此处不再重复赘述。

通过上述步骤，可以对用户起到和真人进行问答的相同效果，在该过程中用户实时地得到了问题的回答，在用户体验上得到了极大的提升，有利于促进SaaS人工智能应用的图灵测试质量提升。

应该理解的是，虽然图2至图6流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且图2至图6的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图7，在一个实施例中，还提供一种面向SaaS人工智能应用的图灵测试装置200，包括提问接收模块21、问答召回模块22、问答返回模块23、问卷发送模块24、问卷统计模块25和测试判决模块26。其中：

提问接收模块21用于接收用户端发送的提问数据。问答召回模块22用于根据提问数据从问答知识库中召回多个备选问题及对应回答。问答返回模块23用于将备选问题中与提问数据中的问题相似度最高的备选问题确定为目标问题，将目标问题对应的目标回答返回给用户端；目标回答用于指示提问数据的回答信息。问卷发送模块24用于向用户端发送回答有效性问卷；回答有效性问卷用于指示目标回答对提问数据的有效性。问卷统计模块25用于接收用户端返回的问卷结果并进行有效性统计。测试判决模块26用于在有效性统计结果中有效占比大于30%时，确定当前SaaS人工智能应用通过图灵测试。

上述面向SaaS人工智能应用的图灵测试装置200，通过各模块的协作，首先接收用户提出的提问，然后SaaS人工智能应用从问答知识库中进行快速的问题与回答召回，实现相似问题及其回答的粗筛选，进而从召回的问题中选取相似度最高的备选问题对应的回答作为用户提问的回答，而且针对给出的回答向用户发起有效性问卷调查，最后对应问卷结果进行有效性统计后，当有效占比超过30%时，问答系统SaaS人工智能应用即通过了图灵测试。

关于面向SaaS人工智能应用的图灵测试装置200的具体限定，可以参见上文中面向SaaS人工智能应用的图灵测试方法的相应限定，在此不再赘述。上述面向SaaS人工智能应用的图灵测试装置200中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中，也可以软件形式存储于前述设备的存储器中，以便于处理器调用执行以上各个模块对应的操作，前述设备可以是但不限于本领域已有的各型计算机终端和/或服务器设备。

请参阅图8，在一个实施例中，还提供一种面向SaaS人工智能应用的图灵测试装置300，包括提问发送模块31、回答接收模块32、问卷接收模块33和结果发送模块34。其中：

提问发送模块31用于向智能服务端发送提问数据；智能服务端部署有SaaS人工智能应用。回答接收模块32用于接收智能服务端返回的目标回答；目标回答用于指示提问数据的回答信息。问卷接收模块33用于接收智能服务端发送的回答有效性问卷；回答有效性问卷用于指示目标回答对提问数据的有效性。结果发送模块34用于获取对回答有效性问卷输入的问卷结果并发送至智能服务端；问卷结果用于指示智能服务端进行有效性统计，有效性统计的结果用于指示SaaS人工智能应用是否通过图灵测试。

上述面向SaaS人工智能应用的图灵测试装置300，通过各模块的协作，采用一种全新的问答系统SaaS人工智能应用图灵测试方法，首先向SaaS人工智能应用提问问题，然后SaaS人工智能应用从问答知识库中进行快速的问题与回答召回，实现相似问题及其回答的粗筛选，进而从召回的问题中选取相似度最高的备选问题对应的回答作为用户提问的回答，而且针对给出的回答向用户发起有效性问卷调查，最后对应问卷结果进行有效性统计后，当有效占比超过30%时，问答系统SaaS人工智能应用即通过了图灵测试。

关于面向SaaS人工智能应用的图灵测试装置300的具体限定，可以参见上文中面向SaaS人工智能应用的图灵测试方法的相应限定，在此不再赘述。上述面向SaaS人工智能应用的图灵测试装置300中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中，也可以软件形式存储于前述设备的存储器中，以便于处理器调用执行以上各个模块对应的操作，前述设备可以是但不限于本领域已有的各型计算机终端和/或服务器设备。

又一方面，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现如下处理步骤：接收用户端发送的提问数据；根据提问数据从问答知识库中召回多个备选问题及对应回答；将备选问题中与提问数据中的问题相似度最高的备选问题确定为目标问题，将目标问题对应的目标回答返回给用户端；目标回答用于指示提问数据的回答信息；向用户端发送回答有效性问卷；回答有效性问卷用于指示目标回答对提问数据的有效性；接收用户端返回的问卷结果并进行有效性统计；若有效性统计结果中有效占比大于30%，则确定当前SaaS人工智能应用通过图灵测试。

或者上述处理器执行计算机程序时实现如下处理步骤：向智能服务端发送提问数据；智能服务端部署有SaaS人工智能应用；接收智能服务端返回的目标回答；目标回答用于指示提问数据的回答信息；接收智能服务端发送的回答有效性问卷；回答有效性问卷用于指示目标回答对提问数据的有效性；获取对回答有效性问卷输入的问卷结果并发送至智能服务端；问卷结果用于指示智能服务端进行有效性统计，有效性统计的结果用于指示SaaS人工智能应用是否通过图灵测试。

在一个实施例中，处理器执行计算机程序时还可以实现上述任一种面向SaaS人工智能应用的图灵测试方法各实施例中增加的步骤或者子步骤。

再一方面，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如下处理步骤：接收用户端发送的提问数据；根据提问数据从问答知识库中召回多个备选问题及对应回答；将备选问题中与提问数据中的问题相似度最高的备选问题确定为目标问题，将目标问题对应的目标回答返回给用户端；目标回答用于指示提问数据的回答信息；向用户端发送回答有效性问卷；回答有效性问卷用于指示目标回答对提问数据的有效性；接收用户端返回的问卷结果并进行有效性统计；若有效性统计结果中有效占比大于30%，则确定当前SaaS人工智能应用通过图灵测试。

或者计算机程序被处理器执行时实现如下处理步骤：向智能服务端发送提问数据；智能服务端部署有SaaS人工智能应用；接收智能服务端返回的目标回答；目标回答用于指示提问数据的回答信息；接收智能服务端发送的回答有效性问卷；回答有效性问卷用于指示目标回答对提问数据的有效性；获取对回答有效性问卷输入的问卷结果并发送至智能服务端；问卷结果用于指示智能服务端进行有效性统计，有效性统计的结果用于指示SaaS人工智能应用是否通过图灵测试。

在一个实施例中，计算机程序被处理器执行时，还可以实现上述任一种面向SaaS人工智能应用的图灵测试方法各实施例中增加的步骤或者子步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线式动态随机存储器（Rambus DRAM，简称RDRAM）以及接口动态随机存储器（DRDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可做出若干变形和改进，都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种面向SaaS人工智能应用的图灵测试方法，其特征在于，包括步骤：

接收用户端发送的提问数据；

根据所述提问数据从问答知识库中召回多个备选问题及对应回答；

将所述备选问题中与所述提问数据中的问题相似度最高的备选问题确定为目标问题，将所述目标问题对应的目标回答返回给所述用户端；所述目标回答用于指示所述提问数据的回答信息；

向所述用户端发送回答有效性问卷；所述回答有效性问卷用于指示所述目标回答对所述提问数据的有效性；

接收所述用户端返回的问卷结果并进行有效性统计；

2.根据权利要求1所述的面向SaaS人工智能应用的图灵测试方法，其特征在于，根据所述提问数据从问答知识库中召回多个备选问题及对应回答的步骤，包括：

对所述提问数据中的问题进行句子向量化操作；

根据所述句子向量化操作后的问题，采用近似最近邻向量检索算法从所述问答知识库中召回多个所述备选问题及对应回答。

3.根据权利要求1或2所述的面向SaaS人工智能应用的图灵测试方法，其特征在于，将所述备选问题中与所述提问数据中的问题相似度最高的备选问题确定为目标问题的过程，包括：

采用预训练语言模型，通过文本语义相似度算法对所述提问数据中的问题与召回的多个所述备选问题进行语义相似度匹配处理；

选取语义相似度最高的备选问题作为所述目标问题。

4.根据权利要求3所述的面向SaaS人工智能应用的图灵测试方法，其特征在于，所述方法还包括步骤：

若所述提问数据中的问题在所述问答知识库中无相似问题，则保存所述提问数据中的问题。

5.根据权利要求1所述的面向SaaS人工智能应用的图灵测试方法，其特征在于，所述方法还包括步骤：

将所述有效性统计结果发送至研发终端；

接收所述研发终端返回的测试结果文件；所述测试结果文件包括图灵测试通过的确认或系统更新文件；

若所述测试结果文件为系统更新文件，则利用所述系统更新文件进行系统更新升级。

6.根据权利要求4或5所述的面向SaaS人工智能应用的图灵测试方法，其特征在于，所述问卷结果包括有用、无用或改进反馈意见数据；所述改进反馈意见数据用于发送至研发终端。

7.一种面向SaaS人工智能应用的图灵测试方法，其特征在于，包括步骤：

向智能服务端发送提问数据；所述智能服务端部署有SaaS人工智能应用；

接收所述智能服务端返回的目标回答；所述目标回答用于指示所述提问数据的回答信息；

接收所述智能服务端发送的回答有效性问卷；所述回答有效性问卷用于指示所述目标回答对所述提问数据的有效性；

获取对所述回答有效性问卷输入的问卷结果并发送至所述智能服务端；所述问卷结果用于指示所述智能服务端进行有效性统计，所述有效性统计的结果用于指示所述SaaS人工智能应用是否通过图灵测试。

8.根据权利要求7所述的面向SaaS人工智能应用的图灵测试方法，其特征在于，向智能服务端发送提问数据的步骤，包括：

在显示的交互界面中读取对虚拟智能助教输入的提问问题；所述虚拟智能助教为所述SaaS人工智能应用在上述交互界面中的身份展示；

接收到输入的发送指令后，生成所述提问问题对应的所述提问数据并发送至所述智能服务端。

9.一种面向SaaS人工智能应用的图灵测试装置，其特征在于，包括：

提问接收模块，用于接收用户端发送的提问数据；

问答召回模块，用于根据所述提问数据从问答知识库中召回多个备选问题及对应回答；

问答返回模块，用于将所述备选问题中与所述提问数据中的问题相似度最高的备选问题确定为目标问题，将所述目标问题对应的目标回答返回给所述用户端；所述目标回答用于指示所述提问数据的回答信息；

问卷发送模块，用于向所述用户端发送回答有效性问卷；所述回答有效性问卷用于指示所述目标回答对所述提问数据的有效性；

问卷统计模块，用于接收所述用户端返回的问卷结果并进行有效性统计；

10.一种面向SaaS人工智能应用的图灵测试装置，其特征在于，包括：

提问发送模块，用于向智能服务端发送提问数据；所述智能服务端部署有SaaS人工智能应用；

回答接收模块，用于接收所述智能服务端返回的目标回答；所述目标回答用于指示所述提问数据的回答信息；

问卷接收模块，用于接收所述智能服务端发送的回答有效性问卷；所述回答有效性问卷用于指示所述目标回答对所述提问数据的有效性；

结果发送模块，用于获取对所述回答有效性问卷输入的问卷结果并发送至所述智能服务端；所述问卷结果用于指示所述智能服务端进行有效性统计，所述有效性统计的结果用于指示所述SaaS人工智能应用是否通过图灵测试。

11.一种SaaS人工智能应用系统，其特征在于，包括用户端设备和智能服务器，所述智能服务器部署有SaaS人工智能应用；

所述用户端设备向所述智能服务器发送提问数据时，所述智能服务器根据所述提问数据从问答知识库中召回多个备选问题及对应回答；

所述智能服务器将所述备选问题中与所述提问数据中的问题相似度最高的备选问题确定为目标问题，将所述目标问题对应的目标回答返回给所述用户端设备；所述目标回答用于指示所述提问数据的回答信息；

所述智能服务器返回所述目标回答后，向所述用户端设备发送回答有效性问卷；所述回答有效性问卷用于指示所述目标回答对所述提问数据的有效性；

所述用户端设备获取对所述回答有效性问卷输入的问卷结果并发送至所述智能服务器；

所述智能服务器接收所述问卷结果并进行有效性统计，在有效性统计结果中有效占比大于30%时，确定所述SaaS人工智能应用通过图灵测试。

12.根据权利要求11所述的SaaS人工智能应用系统，其特征在于，所述智能服务器包括第一云服务器和第二云服务器，所述SaaS人工智能应用包括SaaS应用A和智能问答系统；

所述SaaS应用A采用Docker镜像方式部署在所述第一云服务器上，所述智能问答系统采用Docker镜像方式部署在所述第二云服务器上，所述第一云服务器和所述第二云服务器通过RestAPI接口连接，所述第一云服务器通信连接所述用户端设备，所述智能问答系统中存储有所述问答知识库。