CN112037763A

CN112037763A - 一种基于人工智能的服务测试方法及装置

Info

Publication number: CN112037763A
Application number: CN202010879057.9A
Authority: CN
Inventors: 张�杰; 唐文
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2020-12-04
Anticipated expiration: 2040-08-27
Also published as: CN112037763B

Abstract

本申请提供了一种基于人工智能的服务测试方法、装置、电子设备及计算机可读存储介质；方法包括：响应于针对电子设备中服务的测试请求操作，根据语料输出用于测试所述电子设备的语音指令；对所述电子设备针对所述语音指令的响应过程进行图像采集，得到所述电子设备在所述响应过程中输出的图像数据；对所述图像数据进行识别处理，得到所述响应过程中的多个不同阶段的图像；呈现所述响应过程中的多个不同阶段的图像。通过本申请，能够自动化的测试服务从而提升测试效率。

Description

一种基于人工智能的服务测试方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于人工智能的服务测试方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

其中，语音处理技术是人工智能的一个重要分支。目前，电子设备中的服务可以依据用户发出的语音指令，控制电子设备执行相应的操作。例如，当用户对着手机说出语音指令“播放音乐”时，手机中的语音助手在接收到语音指令后，会控制手机自动打开音乐播放软件。

为了测试电子设备中的服务针对用户发出的语音指令的响应结果的准确性，相关技术通常是由人工直接进行操作，即人工按照输入文本朗读来唤醒电子设备中的服务，然后人工记录从电子设备听到的或者看到的返回结果。

显而易见的，这种人工获取电子设备针对语音指令返回的响应结果的方式需要全程由人参与，需要耗费大量的人力，同时，也需要人注意力高度集中，因此非常容易出错，导致测试效率也非常低下。

发明内容

本申请实施例提供一种基于人工智能的服务测试方法、装置、电子设备及计算机可读存储介质，能够自动化的测试服务从而提升测试效率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的服务测试方法，包括：

响应于针对电子设备中服务的测试请求操作，根据语料输出用于测试所述服务的语音指令；

对所述电子设备针对所述语音指令的响应过程进行图像采集，得到所述电子设备在所述响应过程中输出的图像数据；

对所述图像数据进行识别处理，得到所述响应过程中的多个不同阶段的图像；

呈现所述响应过程中的多个不同阶段的图像。

本申请实施例提供一种基于人工智能的服务测试装置，包括：

输出模块，用于响应于针对电子设备中服务的测试请求操作，根据语料输出用于测试所述服务的语音指令；

采集模块，用于对所述电子设备针对所述语音指令的响应过程进行图像采集，得到所述电子设备在所述响应过程中输出的图像数据；

识别模块，用于对所述图像数据进行识别处理，得到所述响应过程中的多个不同阶段的图像；

呈现模块，用于呈现所述响应过程中的多个不同阶段的图像。

上述方案中，所述识别模块，还用于从所述图像数据中识别出第一帧图像，将所述第一帧图像确定为所述电子设备在所述唤醒前阶段的图像。

上述方案中，所述装置还包括确定模块，用于在所述电子设备的人机交互界面中确定语音指令识别区域，其中，所述语音指令识别区域是用于显示针对所述语音指令的语音识别结果的区域；所述识别模块，还用于针对所述图像数据中的每一帧图像，识别出所述每一帧图像的所述语音指令识别区域包括的字符串；所述确定模块，还用于将包括最长字符串的语音指令识别区域对应的图像，确定为所述电子设备在所述语音指令识别完成阶段的图像。

上述方案中，所述确定模块，还用于在所述电子设备的人机交互界面中确定标准区域，其中，所述标准区域是在响应所述语音指令前未发生变化的区域；以及用于在所述电子设备的人机交互界面中确定语音指令识别区域，其中，所述语音指令识别区域是用于显示针对所述语音指令的语音识别结果的区域；以及用于确定所述图像数据中的第一帧图像的标准区域与后续每帧图像的标准区域之间的第一相似度，将所述第一相似度大于第一相似度阈值的图像组成第一图像集合；以及用于确定所述图像数据中的第一帧图像的语音指令识别区域与后续每帧图像的语音指令识别区域之间的第二相似度，将所述第二相似度小于第二相似度阈值的图像组成第二图像集合；以及用于确定所述第一图像集合和所述第二图像集合中相同的图像，并将所述相同的图像中最后被采集的图像，确定为所述电子设备在所述语音指令识别完成阶段的图像。

上述方案中，所述确定模块，还用于针对所述电子设备在所述语音指令识别完成阶段的图像，执行以下处理：将所述图像的所述语音指令识别区域中的任一位置确定为种子点；在所述图像中确定与所述种子点相连通、且与所述种子点之间的色差小于色差阈值的目标像素点；从所述图像中提取出由所述种子点、以及多个所述目标像素点组成的区域；将从所述区域识别出的字符与所述语料进行比对，并根据比对结果确定所述服务针对所述语音指令的识别结果。

上述方案中，所述确定模块，还用于当所述字符与所述语料一致时，确定所述服务针对所述语音指令的识别结果正确；以及用于当所述字符与所述语料不一致时，确定所述服务针对所述语音指令的识别结果错误。

上述方案中，所述确定模块，还用于在所述电子设备的人机交互界面中确定标准区域，其中，所述标准区域是在响应所述语音指令前未发生变化的区域；以及用于确定所述图像数据中第一帧图像的标准区域与后续每帧图像的标准区域之间的第一相似度；以及用于将与所述第一帧图像的标准区域的第一相似度最小的图像，确定为所述电子设备在所述语音指令响应阶段的图像。

上述方案中，所述采集模块，还用于对所述电子设备针对所述语音指令的响应过程进行音频采集，得到音频数据；所述识别模块，还用于对所述音频数据进行语音识别，得到所述电子设备用于响应所述语音指令的应答文本。

上述方案中，所述装置还包括获取模块，用于获取针对所述图像以及所述应答文本的评价数据，其中，所述评价数据用于表征所述服务响应所述语音指令的准确性；所述装置还包括存储模块，用于将所述图像、所述应答文本以及所述评价数据存储到数据库中。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于人工智能的服务测试方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的基于人工智能的服务测试方法。

本申请实施例具有以下有益效果：

在获取电子设备的服务时，通过采集图像数据来自动识别出相应过程的不同阶段的图像，可以方便后续问题的分析和追溯，整个过程无需人工参与，在减少人力投入的同时，也减少了人为产生的错误，从而最大程度地保证了获取结果的精度；并且，以图像来代替采集的原始图像数据，精简了数据量，便于数据的保存和追溯。

附图说明

图1是相关技术提供的获取智能终端设备响应结果的流程示意图；

图2是本申请实施例提供的测试系统的架构示意图；

图3是本申请实施例提供的服务器的结构示意图；

图4A是本申请实施例提供的基于人工智能的服务测试方法的流程示意图；

图4B是本申请实施例提供的基于人工智能的服务测试方法的流程示意图；

图5是本申请实施例提供的基于人工智能的服务测试方法的流程示意图；

图6是本申请实施例提供的获取终端响应结果的架构示意图；

图7是本申请实施例提供的终端在对语音指令进行识别的不同阶段分别对应的界面示意图；

图8是本申请实施例提供的终端在响应过程中的不同阶段分别对应的界面示意图；

图9是本申请实施例提供的确定终端在语音指令识别完成阶段的图像的流程示意图；

图10A是本申请实施例提供的识别出的终端在语音指令识别完成阶段的图像示意图；

图10B是本申请实施例提供的识别出的终端在语音指令识别完成阶段的图像示意图；

图11是本申请实施例提供的通过漫水填充算法对终端在语音指令识别完成阶段的图像进行处理的流程示意图；

图12A是本申请实施例提供的针对图10A对应的终端在语音指令识别完成阶段的图像进行漫水填充算法处理后得到的图像示意图；

图12B是本申请实施例提供的针对图10B对应的终端在语音指令识别完成阶段的图像进行漫水填充算法处理后得到的图像示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

本申请实施例涉及的术语适用于如下的解释。

1)文字转语音(TTS，Text To Speech)，是一种可以将任意输入文本转换成相应语音的技术。传统的语音合成系统通常包括前端和后端两个模块。前端模块主要是对输入文本进行分析，提取后端模块所需要的语言学信息，对于中文合成系统而言，前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果，通过一定的方法生成语音波形，后端系统一般分为基于统计参数建模的语音合成(或称参数合成)以及基于单元挑选和波形拼接的语音合成(或称拼接合成)。

2)自动语音识别(ASR，Automatic Speech Recognition)，是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素：1.识别词汇表的大小和语音的复杂性；2.语音信号的质量；3.单个说话人还是多说话人；4.硬件。

3)光学字符识别(OCR，Optical Character Recognition)，是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

4)语音唤醒，电子设备中的服务在一般情况下，均需要特定的唤醒词来进行唤醒，例如，小度在家需要用户发出“小度小度”的指令，才能进行下一步的交互。

5)语音响应，电子设备在交互中，会通过语音的方式返回部分服务内容，例如用户在询问天气情况时，电子设备会通过语音的方式响应播报相关天气内容。

6)服务响应，电子设备在一般交互中，可以通过屏幕展示部分服务内容，例如用户在询问天气情况时，电子设备可以在屏幕上显示相关的天气内容。

7)标准区域，在用户与电子设备进行交互前到电子设备返回服务响应前，均不会发生任何改变的屏幕区域。

8)语音指令识别区域，电子设备在接收到用户的语音指令后，会将针对语音指令的识别结果呈现在屏幕上的一个固定区域。

在实施本申请实施例的过程中发现：相关技术在获取电子设备中的服务针对用户发出的语音指令的响应结果时，通常是通过人工直接操作，即人工按照输入文本朗读来唤醒电子设备中的服务，然后人工记录从电子设备看到的或者听到的返回内容。

示例的，参见图1，图1是相关技术提供的获取智能终端设备(简称终端)中的服务针对用户发出的语音指令返回的响应结果的流程示意图。如图1所示，在获取终端针对用户发出的语音指令返回的响应结果的过程中，主要是采取人工按照文本用嘴朗读、人工用耳朵听、人工用手记录返回内容的流程，需要人工的口、耳、手配合使用才能完成。

可以看出，相关技术提供的方案需要全程由人参与，需要耗费大量的人力。由于整个流程需要人工不断朗读、关键信息记录和判断也需要在终端响应的短时间内完成。而且，终端在这段时间内包含了大量的无效信息，需要人注意力高度集中，因此非常容易出错，导致获取效率也十分低下。因为没有关键信息(例如终端针对语音指令的识别结果、终端语音响应、终端服务响应等)的备份，也不利于问题追溯和问题分析。

针对上述技术问题，本申请实施例提供一种基于人工智能的服务测试方法、装置、电子设备和计算机可读存储介质，能够自动化地测试服务，从而提升测试效率、减低了在测试过程中所需的人力成本。

下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为服务器或服务器集群，也可以实施为智能手机、平板电脑等类型的用户终端。

参见图2，图2是本申请实施例提供的测试系统100的架构示意图，为实现对被测电子设备中的服务针对语音指令的响应结果的准确性进行测试。其中，测试系统100包括：服务器200、网络300、被测电子设备400、采集设备500、数据库600和终端700，下面分别进行说明。

下面，说明实现本发明实施例提供的服务测试方法的电子设备为终端时的示例性应用。

示例的，以图2中的终端700为例，终端700可以通过自身的采集能力，例如通过自带的摄像头对被测电子设备400针对语音指令的响应过程进行采集；或者当终端700自身不具备采集能力时，也可以通过控制采集设备500对被测电子设备400针对语音指令的响应过程进行采集。接着，终端700在获取到被测电子设备400在响应过程中输出的图像数据后，通过调用自身的运算处理能力对所获取到的图像数据进行识别处理，以得到响应过程中的多个不同阶段的图像。随后，终端700调用客户端710的图形界面对得到的不同阶段的图像进行呈现，以供测试人员进行后续的判断和分析。

下面，说明实现本发明实施例提供的服务测试方法的电子设备为服务器时的示例性应用，以图2示出的服务器200为例，服务器200对采集设备500通过网络300发送的图像数据进行识别处理，得到被测电子设备400在响应过程中的多个不同阶段的图像(将在下文具体说明识别过程)，并将识别出的不同阶段的图像存储到数据库600中。

网络300，用于连接服务器200和采集设备500、以及用于连接服务器200和终端700，网络300可以是广域网或者是局域网，又或者是二者的组合。

被测电子设备400上运行有智能助手410，用于为用户提供相应的服务，例如当被测电子设备400是智能音响时，用于根据语音指令控制智能音响播放相应的音乐。或者，当被测电子设备400是智能电视时，用于根据语音指令控制智能电视播放相应的电视节目等。

采集设备500，用于对被测电子设备400针对语音指令的响应过程进行图像采集，得到被测电子设备400在响应过程中输出的图像数据。示例的，采集设备500可以是摄像设备，例如数码相机等。

数据库600用于存储服务器200识别出的被测电子设备400在响应过程中的不同阶段的图像。

终端700是测试人员所关联的终端，其上运行有客户端710，用于在人机交互界面中呈现服务器200通过网络300下发的被测电子设备400在响应过程中的不同阶段的图像，以使测试人员根据在客户端710上呈现的不同阶段的图像，对被测电子设备400针对语音指令的响应结果的准确性进行判断。

需要说明的是，上述服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端700可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

下面对图2中的服务器200的结构进行说明。参见图3，图3是本申请实施例提供的服务器200的结构示意图，图3所示的服务器200包括：至少一个处理器210、存储器240、至少一个网络接口220。服务器200中的各个组件通过总线系统230耦合在一起。可理解，总线系统230用于实现这些组件之间的连接通信。总线系统230除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统230。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器240可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器240可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器240包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器240旨在包括任意适合类型的存储器。

在一些实施例中，存储器240能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统241，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块242，用于经由一个或多个(有线或无线)网络接口220到达其他确定设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

在一些实施例中，本申请实施例提供的基于人工智能的服务测试装置可以采用软件方式实现，图3示出了存储在存储器240中的基于人工智能的服务测试装置243，其可以是程序和插件等形式的软件，包括以下软件模块：输出模块2431、采集模块2432、识别模块2433、呈现模块2434、确定模块2435、获取模块2436和存储模块2437，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的基于人工智能的服务测试装置可以采用硬件方式实现，作为示例，本申请实施例提供的基于人工智能的服务测试装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的基于人工智能的服务测试方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrate d Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

下面说明本申请实施例提供的基于人工智能的服务测试方法，可以理解地，下文所述的服务测试方法可以由上文所述的终端或服务器等各种类型的电子设备执行。

参见图4A，图4A是本申请实施例提供的基于人工智能的服务测试方法的流程示意图，将结合图4A示出的步骤进行说明。

在步骤S401中，响应于针对电子设备中服务的测试请求操作，根据语料输出用于测试电子设备的语音指令。

在一些实施例中，电子设备(即被测电子设备)可以包括各种类型的用户终端，其上运行有智能助手，能够根据用户发出的语音指令控制终端执行相应的操作，从而提供相应的服务。例如，电子设备可以是智能音响，用于根据用户发出的语音指令播放相应的音乐。或者，电子设备也可以是智能电视，用于根据用户发出的语音指令播放相应的电视节目等。

在一些实施例中，当测试人员需要针对电子设备中的服务进行测试时，可以向服务器发送测试请求，服务器在接收到测试人员发送的测试请求后，从语料库中获取语料，并将所获取的语料发送给文字转语音模块(即TTS模块)，以使TTS模块将语料转换为对应的用于测试电子设备的语音指令。

示例的，服务器在接收到测试人员发送的测试请求后，从语料库中获取用户语料，接着，将所获取的用户语料发送给TTS模块，以使TTS模块将用户语料转换为对应的语音指令进行播报，从而电子设备可以根据TTS模块播报的语音指令进行响应。

本申请实施例通过从语料库中获取用户语料，并将所获取的用户语料发送给文字转语音模块，以使文字转语音模块将用户语料转换为对应的语音指令进行播报，从而避免了通过人工朗读语料的方式对电子设备中的服务进行测试，提高了测试效率，同时也减低了人力成本。

在步骤S402中，对电子设备针对语音指令的响应过程进行图像采集，得到电子设备在响应过程中输出的图像数据。

在一些实施例中，服务器可以通过图像采集设备对电子设备针对语音指令的响应过程进行图像采集，以得到电子设备在响应过程中输出的图像数据。

示例的，当服务器接收到测试请求后，控制图像采集设备开启摄像功能，对电子设备针对TTS模块播报的语音指令的响应过程进行图像采集(即对电子设备在响应过程中在人机交互界面中呈现的图像进行采集)，得到电子设备在响应过程中输出的图像数据。

本申请实施例通过图像采集设备对电子设备针对语音指令的整个响应过程进行了记录，方便后续问题的追溯和分析。

在步骤S403中，对图像数据进行识别处理，得到响应过程中的多个不同阶段的图像。

在一些实施例中，图4A示出的步骤S403可以通过图4B示出的步骤S4031至步骤S4037实现，将结合图4B示出的步骤进行说明。

示例的，电子设备在响应过程中的多个不同阶段可以包括电子设备的唤醒前阶段。针对电子设备的唤醒前阶段，服务器执行下述的步骤S4031。

在步骤S4031中，从图像数据中识别出响应过程中的第一帧图像，将第一帧图像确定为电子设备在唤醒前阶段的图像。

在一些实施例中，服务器在接收到图像采集设备通过网络发送的图像数据后，对图像数据进行分帧处理(即将图像数据分解成独立的一帧一帧的图像)，并将经过分帧处理后得到的第一帧图像，确定为电子设备在唤醒前阶段的图像。

示例的，电子设备在响应过程中的多个不同阶段还可以包括电子设备的语音指令识别完成阶段。针对电子设备的语音指令识别完成阶段，执行下述的步骤S4032至步骤S4034。

在步骤S4032中，在电子设备的人机交互界面中确定语音指令识别区域，其中，语音指令识别区域是用于显示针对语音指令的语音识别结果的区域。

在一些实施例中，服务器首先需要在电子设备的人机交互界面中确定出语音指令识别区域，其中，语音指令识别区域是用于显示针对语音指令的语音识别结果的区域。对于同一类型的电子设备来说，其语音指令识别区域在人机交互界面中的位置是相同的。因此，在针对同一类型的电子设备，采用不同的语音指令进行测试时，只需首次在该类型的电子设备的人机交互界面中确定出语音指令识别区域即可。而对于不同类型的电子设备，其语音指令识别区域在人机交互界面中的位置可能是不同的。例如，对于电子设备A来说，其语音指令识别区域位于人机交互界面的底部；而对于电子设备B来说，其语音指令识别区域位于人机交互界面的左侧。因此，在对新电子设备中的服务进行测试时，需要首先确定出新电子设备的人机交互界面中的语音指令识别区域。

在步骤S4033中，针对图像数据中的每一帧图像，识别出每一帧图像的语音指令识别区域包括的字符串。

在一些实施例中，承接上文，服务器在对图像数据进行分帧处理之后，针对图像数据中的每一帧图像，识别出每一帧图像的语音指令识别区域包括的字符串。

示例的，假设TTS模块播报的语音指令为“我要听刘XX的冰雨”，针对这一语音指令，服务器从第5帧图像的语音指令识别区域中识别出的字符为“我要听”，服务器从第10帧图像的语音指令识别区域中识别出的字符为“我要听刘XX”。

在步骤S4034中，将包含最长字符串的语音指令识别区域对应的图像，确定为电子设备在语音指令识别完成阶段的图像。

在一些实施例中，针对同一语音指令，服务器将包含最长字符串的语音指令识别区域对应的图像，确定为电子设备在语音指令识别完成阶段的图像。

示例的，假设TTS模块播放的语音指令为“讲个爱莎公主的故事”，针对这一语音指令，服务器从第5帧图像的语音指令识别区域中识别出的字符为“讲个”，即识别出的字符长度为2；服务器从第10帧图像的语音指令识别区域中识别出的字符为“讲个爱莎公主”，即识别出的字符长度为6；服务器从第20帧图像的语音指令识别区域中识别出的字符为“讲个爱莎公主的故事”，即识别出的字符长度为9；服务器从第22帧图像的语音指令识别区域中识别出的字符为“讲个爱莎公主的故事”，即识别出的字符长度为仍为9。也就是说，第20帧图像的语音识别区域包括的字符串的长度最长，因此，服务器将第20帧图像作为电子设备针对语音指令“讲个爱莎公主的故事”识别完成阶段的图像。

在另一些实施例中，还可以通过以下方式确定出电子设备在语音指令识别完成阶段的图像。

示例的，服务器首先在电子设备的人机交互界面中确定出标准区域，其中，标准区域是电子设备在响应语音指令前未发生变化的区域；以及在电子设备的人机交互界面中确定出语音指令识别区域，其中，语音指令识别区域是人机交互界面中用于显示针对语音指令的语音识别结果的区域。接着，服务器针对经过分帧处理后的图像数据，依次确定出图像数据中的第一帧图像的标准区域与后续每帧图像的标准区域之间的第一相似度，并将第一相似度大于第一相似度阈值的图像组成第一图像集合。随后，服务器还依次确定出图像数据中的第一帧图像的语音指令识别区域与后续每帧图像的语音指令识别区域之间的第二相似度，将第二相似度小于第二相似度阈值的图像组成第二图像集合。最后，服务器确定出第一图像集合和第二图像集合中相同的图像，并将相同的图像中的最后被采集的图像，确定为电子设备在语音指令识别完成阶段的图像。

举例来说，假设服务器对图像数据进行分帧处理后，一共得到30帧独立的图像。接着，服务器依次确定出这30帧图像中的第一帧图像的标准区域与后续29帧图像的标准区域之间的第一相似度，并将第一相似度大于第一相似度阈值的图像组成第一图像集合，假设第一图像集合中包括第2帧图像至第15帧图像。随后，服务器还依次确定出这30帧图像中的第一帧图像的语音指令识别区域与后续29帧图像的语音指令识别区域之间的第二相似度，并将第二相似度小于第二相似度阈值的图像组成第二图像集合，假设第二图像集合中包括第10帧图像至第20帧图像。最后，服务器确定出第一图像集合中和第二图像集合中相同的图像，即第10帧图像至第15帧图像，并将相同的图像中最后被采集的图像，即第15帧图像确定为电子设备在语音指令识别完成阶段的图像。

在一些实施例中，服务器还可以针对电子设备在语音指令识别完成阶段的图像执行以下处理：服务器首先在图像的语音指令识别区域中确定种子点，接着，在图像中确定出与种子点相连通、且与种子点之间的色差小于色差阈值的目标像素点。随后，服务器从图像中提取出由种子点、以及多个目标像素点组成的区域，并将从区域中识别出的字符与语音指令对应的语料进行比对，以根据比对结果确定电子设备中的服务针对语音指令的识别结果。

示例的，服务器在从图像数据中识别出电子设备在语音指令识别完成阶段的图像后，还可以对图像中的语音指令识别区域包括的字符进行识别，以对电子设备中的服务针对语音指令的识别结果的准确性进行判断。此外，由于图像中可能会存在一些干扰信息或者推送信息，这些干扰信息或者推送信息会影响识别结果的精度。因此，服务器在对图像中的语音指令识别区域包括的字符进行识别之前，还需要执行以下操作：服务器将图像中的语音指令识别区域的第一个像素点作为种子点，并确定出与种子点相连通、且与种子点的色差小于色差阈值的目标像素点(由于电子设备的人机交互界面中用于显示语音指令识别结果的区域的颜色与其他区域的颜色相差较大，因此可以通过上述方式从图像中选取出语音指令识别区域)。接着，服务器将图像中除种子点、以及多个目标像素点之外的区域置黑，即服务器将图像中除种子点、以及多个目标像素点之外的像素点的三个颜色通道的值设置成(0,0,0)。最后，服务器针对经过上述处理后的图像进行识别，从而能够准确地识别出语音指令识别区域包括的字符。

示例的，承接上文，服务器在识别出语音指令识别区域包括的字符后，将识别出的字符与语料进行比对，当识别出的字符和语料一致时，服务器确定电子设备中的服务针对语音指令的识别结果正确；当识别出的字符和语料不一致时，服务器确定电子设备中的服务针对语音指令的识别结果错误。

本申请实施例通过在电子设备的人机交互界面中确定语音指令识别区域，并根据语音指令识别区域，确定出电子设备在语音指令识别完成阶段的图像。随后，针对电子设备在语音指令识别完成阶段的图像进行识别，并将识别结果与语音指令对应的语料进行比对，从而实现了对电子设备中的服务针对语音指令的识别结果的准确性的判断。

示例的，电子设备在响应过程中的多个不同阶段也可以包括电子设备的语音指令响应阶段。针对电子设备的语音指令响应阶段，执行下述的步骤S4035至步骤S4037。

在步骤S4035中，在电子设备的人机交互界面中确定标准区域，其中，标准区域是在响应语音指令前未发生变化的区域。

在一些实施例中，服务器首先需要在电子设备的人机交互界面中确定出标准区域，其中，标准区域是电子设备在响应语音指令前未发生变化的区域。

需要说明的是，对于不同类型的电子设备，其标准区域在人机交互界面中的位置可能是不同的。因此，对于不同类型的电子设备，需要分别确定出其在人机交互界面中对应的标准区域。

在步骤S4036中，确定图像数据中第一帧图像的标准区域与后续每帧图像的标准区域之间的第一相似度。

在一些实施例中，承接上文，针对经过分帧处理后的图像数据，服务器依次确定出图像数据中的第一帧图像的标准区域与后续每帧图像的标准区域之间的第一相似度。

示例的，假设服务器对图像数据进行分帧处理后，一共得到20帧独立的图像。接着，服务器依次确定出第一帧图像的标准区域与后续19帧图像的标准区域之间的相似度。

在步骤S4037中，将与第一帧图像的标准区域的第一相似度最小的图像，确定为电子设备在语音指令响应阶段的图像。

在一些实施例中，服务器在确定出图像数据中的第一帧图像的标准区域与后续每帧图像的标准区域之间的第一相似度之后，从中选取出与第一帧图像的标准区域的第一相似度值最小的图像，将其确定为电子设备在语音指令响应阶段的图像。

示例的，假设语音指令为“来首林XX的歌曲”，同时，假设服务器确定出第1帧图像的标准区域与后续19帧图像的标准区域之间的相似度分别为99％、99％、99％、…、2％、2％。其中，第19帧图像的标准区域与第1帧图像的标准区域之间的相似度为2％，为最小相似度，则服务器将第19帧图像确定为电子设备在语音指令“来首林XX的歌曲”响应阶段的图像。

本申请实施例通过在电子设备的人机交互界面中确定出标准区域，并根据标准区域确定出电子设备在语音指令响应阶段的图像，以使后续可以根据图像对电子设备中的服务针对语音指令的响应结果进行判断。例如，根据电子设备在语音指令响应阶段的图像，判断电子设备返回的响应结果是否与语音指令匹配。

在步骤S404中，呈现响应过程中的多个不同阶段的图像。

在一些实施例中，服务器可以将从图像数据中识别出的多个不同阶段的图像发送给测试人员所关联的终端，以使终端调用客户端的人机交互界面进行呈现，从而测试人员可以根据人机交互界面中呈现的不同阶段的图像，对电子设备中的服务针对语音指令的响应过程、以及响应结果进行分析和判断。

示例的，服务器可以将从图像数据识别出的电子设备在唤醒前阶段的图像、电子设备在语音指令识别完成阶段的图像、以及电子设备在语音指令响应阶段的图像通过网络发送给测试人员所关联的终端上，以使终端调用客户端的人机交互界面进行呈现。如此，测试人员可以根据在人机交互界面中呈现的唤醒前阶段的图像、语音指令识别完成阶段的图像、以及语音指令响应阶段的图像，对电子设备中的服务针对语音指令的响应结果进行分析。

本申请实施例通过对图像数据进行识别，仅保留电子设备在唤醒前阶段的图像、电子设备在语音指令识别完成阶段的图像、以及电子设备在语音指令响应阶段的图像这三帧关键的图像，从而实现了对图像数据中无效信息的剔除，使得最终保留的数据信息量最大、数据量最小，方便了后续的分析和判断处理。

在一些实施例中，在执行完步骤S404后，还可以继续执行图5示出的步骤S405至步骤S406，将结合图5示出的步骤进行说明。

在步骤S405中，对电子设备针对语音指令的响应过程进行音频采集，得到音频数据。

在一些实施例中，电子设备除了以在人机交互界面中呈现服务内容的方式对语音指令进行响应外，还可以通过语音的方式对语音指令进行响应。因此，服务器还可以通过录音设备对电子设备针对语音指令的响应过程进行音频采集，得到对应的音频数据。

示例的，假设TTS模块播报的语音指令为“今天天气如何”，服务器通过录音设备对电子设备针对语音指令“今天天气如何”的响应过程进行音频采集，例如电子设备通过语音响应播报相关的天气情况，则服务器通过录音设备针对电子设备播报的相关天气情况进行音频采集，得到音频数据。

在步骤S406中，对音频数据进行语音识别，得到电子设备用于响应语音指令的应答文本。

在一些实施例中，服务器在接收到录音设备通过网络发送的音频数据后，通过自动语音识别模块(即ASR模块)对音频数据进行语音识别，从而得到电子设备用于响应语音指令的应答文本，以便测试人员后续可以根据应答文本对电子设备中的服务针对语音指令的响应结果进行分析。

在另一些实施例中，服务器还可以执行以下操作：服务器获取针对图像、以及应答文本的评价数据，其中，评价数据用于表征电子设备中的服务响应语音指令的准确性。接着，服务器将图像、应答文本、以及评价数据存储到数据库中。

示例的，服务器在从图像数据中识别出电子设备在唤醒前阶段的图像、电子设备在语音指令识别完成阶段的图像、以及电子设备在语音指令响应阶段的图像后，将识别出的这三帧关键图像连同应答文本一同发送给测试人员所关联的终端上，以使测试人员根据这三帧关键图像、以及应答文本，对电子设备中的服务响应语音指令的准确性进行判断，从而得出对应的评价数据。随后，服务器接收测试人员返回的评价数据，并将这三帧关键图像、应答文本、以及评价数据一起关联存储到数据库中。

本申请实施例在获取电子设备中的服务针对语音指令的响应结果的过程中，无需人工参与，在减少人力投入的同时，也减少了人为产生的错误，从而最大程度地保证了获取结果的精度。同时，对电子设备针对语音指令进行响应的整个过程进行了记录，以方便后续问题的分析和追溯。进一步的，对获取到的图像数据进行了精简，使得精简后的数据量最小化，但是保留的信息量最大化，也方便了后续对响应结果的判断和分析。

下面继续说明本申请实施例提供的基于人工智能的服务测试装置243实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器240的基于人工智能的服务测试装置243中的软件模块可以包括：输出模块2431、采集模块2432、识别模块2433、呈现模块2434、确定模块2435、获取模块2436和存储模块2437。

输出模块2431，用于响应于针对电子设备中服务的测试请求操作，根据语料输出用于测试服务的语音指令；采集模块2432，用于对电子设备针对语音指令的响应过程进行图像采集，得到电子设备在响应过程中输出的图像数据；识别模块2433，用于对图像数据进行识别处理，得到响应过程中的多个不同阶段的图像；呈现模块2434，用于呈现响应过程中的多个不同阶段的图像。

在一些实施例中，识别模块2433，还用于从图像数据中识别出第一帧图像，将第一帧图像确定为电子设备在唤醒前阶段的图像。

在一些实施例中，基于人工智能的服务测试装置243还包括确定模块2435，用于在电子设备的人机交互界面中确定语音指令识别区域，其中，语音指令识别区域是用于显示针对语音指令的语音识别结果的区域；识别模块2433，还用于针对图像数据中的每一帧图像，识别出每一帧图像的语音指令识别区域包括的字符串；确定模块2435，还用于将包括最长字符串的语音指令识别区域对应的图像，确定为电子设备在语音指令识别完成阶段的图像。

在一些实施例中，确定模块2435，还用于在电子设备的人机交互界面中确定标准区域，其中，标准区域是在响应语音指令前未发生变化的区域；以及用于在电子设备的人机交互界面中确定语音指令识别区域，其中，语音指令识别区域是用于显示针对语音指令的语音识别结果的区域；以及用于确定图像数据中的第一帧图像的标准区域与后续每帧图像的标准区域之间的第一相似度，将第一相似度大于第一相似度阈值的图像组成第一图像集合；以及用于确定图像数据中的第一帧图像的语音指令识别区域与后续每帧图像的语音指令识别区域之间的第二相似度，将第二相似度小于第二相似度阈值的图像组成第二图像集合；以及用于确定第一图像集合和第二图像集合中相同的图像，并将相同的图像中最后被采集的图像，确定为电子设备在语音指令识别完成阶段的图像。

在一些实施例中，确定模块2435，还用于针对电子设备在语音指令识别完成阶段的图像，执行以下处理：将图像的语音指令识别区域中的任一位置确定为种子点；在图像中确定与种子点相连通、且与种子点之间的色差小于色差阈值的目标像素点；从图像中提取出由种子点、以及多个目标像素点组成的区域；将从区域识别出的字符与语料进行比对，并根据比对结果确定服务针对语音指令的识别结果。

在一些实施例中，确定模块2435，还用于当字符与语料一致时，确定服务针对语音指令的识别结果正确；以及用于当字符与语料不一致时，确定服务针对语音指令的识别结果错误。

在一些实施例中，确定模块2435，还用于在电子设备的人机交互界面中确定标准区域，其中，标准区域是在响应语音指令前未发生变化的区域；以及用于确定图像数据中第一帧图像的标准区域与后续每帧图像的标准区域之间的第一相似度；以及用于将与第一帧图像的标准区域的第一相似度最小的图像，确定为电子设备在语音指令响应阶段的图像。

在一些实施例中，采集模块2432，还用于对电子设备针对语音指令的响应过程进行音频采集，得到音频数据；识别模块，还用于对音频数据进行语音识别，得到电子设备用于响应语音指令的应答文本。

在一些实施例中，基于人工智能的服务测试装置243还包括获取模块2436，用于获取针对图像以及应答文本的评价数据，其中，评价数据用于表征服务响应语音指令的准确性；基于人工智能的服务测试装置243还包括存储模块2437，用于将图像、应答文本以及评价数据存储到数据库中。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本申请实施例提供的基于人工智能的服务测试装置中未尽的技术细节，可以根据图4A、图4B或者图5任一附图的说明而理解。

下面，以电子设备为智能终端设备(下文中简称为终端)为例，说明本申请实施例在一个实际的应用场景中的示例性应用。

示例的，参见图6，图6是本申请实施例提供的获取终端响应结果的架构示意图。如图6所示，在自动获取终端响应结果的过程中，首先需要将摄像设备、终端(即被测终端，被测终端上运行有智能助手应用，用于对语音指令进行响应，并控制终端执行相应的操作，终端可以是各种类型的智能设备，包括智能电视、智能音响等)、录音设备分别进行固定，接着，就可以按顺序程序化地执行文字转语音、录像、录音、自动语音识别、以及无效信息删除等流程。

本申请实施例提供的测试方法可以有效地执行和记录终端的响应过程，并将响应过程中记录的无效信息进行剔除，最大化地消除了无效信息，即将响应过程中记录的数据浓缩为语音响应文本(即通过自动语音识别技术对终端语音响应进行识别得到的应答文本)、终端唤醒前、终端语音指令识别完成时、以及终端服务响应时三帧共四个信息，从而使得最终保留的数据信息量最大、数据量最小，以方便后续测试人员判断或者分析终端的响应结果。如此，简化了人工分析的流程，又可以提升测试人员的分析效率，同时，由于对关键信息进行了保存，也便于问题的追溯和分析。

也就是说，本申请实施例提供的基于人工智能的服务测试方法主要包括以下三个部分：

1、自动化执行并记录终端针对语音指令进行响应的整个过程。

2、自动精简无效信息，从而使得最终保留的数据信息量最大、同时占用的存储空间最小。

3、自动将获取到的语音响应数据通过自动语音识别的方式转录为对应的文本，以方便后续测试人员进行分析。

在一些实施例中，终端在响应语音指令的过程中有4个重要信息需要进行记录，包括：第一个是终端唤醒前的状态；第二个是终端针对语音指令的识别结果；第三个是终端的语音响应；第四个是终端的服务响应。其中，终端唤醒前的状态、终端针对语音指令的识别结果、以及终端的服务响应可以通过图像采集设备，例如摄像头进行记录；而终端的语音响应可以通过音频采集设备，例如录音设备进行记录。

在一些实施例中，在使用录像设备将终端响应语音指令的整个过程进行记录之后，虽然最大程度地保留了有效信息，但是同时也包含了大量的无效信息，在对终端针对语音指令的响应结果进行分析和判断时，测试人员需要观看整个录像，耗费时间较长，导致测试效率较低。因此，需要对在响应过程中记录的信息进行删减。在录像中，可以默认第一帧图像为终端唤醒前的图像。因此，关键在于如何在录像中定位出终端语音指令识别完成时对应的图像、以及终端服务响应时对应的图像。

下面对从录像中定位出终端语音指令识别完成时对应的图像进行说明。

终端在针对TTS模块播报的语音指令进行识别时，会将识别结果按照时间先后顺序依次在屏幕上进行呈现。示例的，参见图7，图7是本申请实施例提供的终端在对语音指令进行识别的不同阶段分别对应的界面示意图。如图7所示，以语音指令为“我要听刘XX的冰雨”为例，图7展示了录像的第1帧、第17帧、第20帧、以及第28帧分别对应的界面示意图。其中，图7中的粗线框是终端上用于显示语音指令识别结果的区域，即语音指令识别区域71。从图7中可以看出，当终端针对语音指令识别完成时，语音指令识别区域71中包含的文字是最多的。因此，可以根据这个特征确定出终端语音指令识别完成时对应的图像。

示例的，可以通过以下方式在录像中定位出终端语音指令识别完成时对应的图像帧：

1、服务器在终端的屏幕上确定出语音指令识别区域。由于摄像头和终端是固定的，因此，语音指令识别区域对于同一批次的不同语音指令的录像结果均适用。

2、服务器将录像进行分帧处理，并将帧集合记为P，其中，第i帧图像记为pi(i＝1,2,3…N)。

3、服务器遍历当前语音指令录像的所有帧，并通过图像处理方式截取出语音指令识别区域。

4、服务器通过光学字符识别的方式对截取出的语音指令识别区域进行识别，并计算出每一帧语音指令识别区域中包含的字符串的长度，例如将第i帧图像的语音指令识别区域包含的字符串的长度记为li，放入长度集合L中。

5、服务器获取长度集合L中最长的字符串，将最长字符串的语音指令识别区域对应的图像，确定为终端语音指令识别完成时对应的图像。

在另一些实施例中，还可以通过以下方式从录像中定位出终端语音指令识别完成时对应的图像。

示例的，参见图8，图8是本申请实施例提供的终端在响应过程中的不同阶段分别对应的界面示意图。如图8所示，以语音指令为“刘XX的十七岁”为例，图8展示了录像的第1帧、第17帧、以及第28帧分别对应的界面示意图。其中，图8中的长条形矩形框是终端上用于显示语音指令的识别结果的区域，即语音指令识别区域81；正方形框是终端上在返回服务内容前不会发生变化的区域，即标准区域82。

从图8中可以看出，当终端针对语音指令识别完成时，具有以下特征：

a)对于语音指令识别区域81，终端语音指令识别完成帧、终端服务响应帧、以及第一帧之间的相似度非常小。

b)对于标准区域82，终端语音指令识别完成帧和第一帧的相似度非常高，而终端服务响应帧和第一帧之间的相似度非常低。

因此，终端语音指令识别完成帧具有的特性可以概括为：1)语音指令识别区域和第一帧不相似(即终端语音指令识别完成帧的语音指令识别区域和第一帧的语音指令识别区域之间的相似度小于相似度阈值)；2)标准区域和第一帧高度相似(即终端语音指令识别完成帧的标准区域和第一帧的标准区域之间的相似度大于相似度阈值)。故可以根据上述两个特性从录像中定位出终端语音指令识别完成时对应的图像。

示例的，参见图9，图9是本申请实施例提供的确定终端在语音指令识别完成阶段的图像的流程示意图，将结合图9示出的步骤进行说明。

在步骤S901中，服务器在终端的人机交互界面中确定出标准区域。

在步骤S902中，服务器在终端的人机交互界面中确定出语音指令识别区域(即ASR识别区域)。

在步骤S903中，服务器对录像进行分帧处理。

在步骤S904中，服务器截取每一帧图像的标准区域。

在步骤S905中，服务器将第一帧图像的标准区域确定为标准帧，记为G1。

在步骤S906中，服务器遍历所有帧，分别计算出每一帧的标准区域与G1之间的相似度。

在步骤S907中，服务器通过预先设定的标准区域相似度阈值，获取相似度大于相似度阈值的图像，组成相似图像列表。

在步骤S908中，服务器截取每一帧图像的ASR识别区域。

在步骤S909中，服务器将第一帧图像的ASR识别区域确定为标准帧，记为G1.1。

在步骤S910中，服务器遍历所有帧，分别计算出每一帧的ASR识别区域与G1.1之间的相似度。

在步骤S911中，服务器通过预先设定的ASR识别区域相似度阈值，获取相似度小于相似度阈值的图像，组成不相似图像列表。

在步骤S912中，服务器确定两个图像列表的交集。

在步骤S913中，服务器将列表交集中的最后一帧图像，确定为终端语音指令识别完成时对应的图像。

在一些实施例中，在精确定位出终端语音指令识别完成时对应的图像之后，还可以对图像中的语音指令识别区域进行OCR识别。然而，由于OCR识别区域常常会有屏幕本身的推送信息或者干扰信息，因此极易对识别结果产生影响。

示例的，参见图10A，图10A是本申请实施例提供的识别出的终端在语音指令识别完成阶段的图像示意图。如图10A所示，在终端的屏幕上除了语音指令识别区域101包括的字符，还包括推送信息102。

示例的，参见图10B，图10B是本申请实施例提供的识别出的终端在语音指令识别完成阶段的图像示意图。如图10B所示，在终端的屏幕上除了语音指令识别区域103包括的字符，还存在干扰信息104。

针对上述技术问题，本申请实施例通过引入漫水填充的图像处理手段，从图像中分离出语音指令识别区域，并将语音指令识别区域之外的像素置为黑色，从而来消除语音指令识别区域之外的推送信息和干扰信息。

示例的，参见图11，图11是本申请实施例提供的通过漫水填充算法对终端在语音指令识别完成阶段的图像进行处理的流程示意图，将结合图11示出的步骤进行说明。

在步骤S111中，服务器定位ASR识别区域的种子点。

示例的，服务器可以将ASR识别区域的第一个像素点确定为种子点。

在步骤S112中，服务器通过漫水填充的方式从图像中分离出有效的ASR识别区域。

在步骤S113中，服务器将图像中的非有效的ASR识别区域的像素置为黑色。

在步骤S114中，服务器输出经过处理后的ASR识别帧(即经过上述步骤S111至步骤S113处理得到的终端在语音指令识别完成阶段对应的图像)。

示例的，参见图12A，图12A是本申请实施例提供的针对图10A对应的终端在语音指令识别完成阶段的图像进行漫水填充算法处理后得到的图像示意图。如图12A所示，在经过上述漫水填充算法处理后，图像中仅显示有语音指令识别区域101包括的字符，消除了推送信息的影响，在后续进行OCR识别时，能够提高识别精度。

示例的，参见图12B，图12B是本申请实施例提供的针对图10B对应的终端在语音指令识别完成阶段的图像进行漫水填充算法处理后得到的图像示意图。如图12B所示，在经过上述漫水填充算法处理后，图像中仅显示有语音指令识别区域103包括的字符，消除了干扰信息的影响，在后续进行OCR识别时，能够提高识别精度。

下面对从录像中定位出终端服务响应时的图像的过程进行说明。

终端在针对语音指令进行响应后，会清除响应前的屏幕内容，并重新展示响应内容。因此，可以在终端的屏幕上划定一个标准区域，该标准区域在终端服务响应前不会发生任何的改变，在终端服务响应后必然会做出改变。

示例的，参见图8，以语音指令为“刘XX的十七岁”为例，图8展示了录像的第1帧、第17帧、以及第28帧分别对应的界面示意图。其中，正方形框是屏幕上的标准区域82。从图8的第1帧图像和第28帧图像分别对应的界面示意图中可以看出，当终端服务响应时，标准区域82也会相应地进行改变。因此，终端服务响应前后在标准区域的图像相似度是非常小的。因此，可以通过以下方式从录像中定位出终端服务响应时对应的图像：

1、服务器在终端的屏幕上确定出标准区域，由于摄像头和终端是固定的，因此，标准区域对于同一批次的不同语音指令的录像结果均适用。

3、服务器遍历当前语音指令录像的所有帧，并通过图像处理方式截取标准区域。

4、服务器将第1帧图像的标准区域确定为标准帧，记为g。

5、服务器依次计算pi的标准区域(i＝1,2,3…N)与g之间的相似度，记为si，并放入相似度集合S中。

6、服务器获取相似度集合S中最小的相似度，将最小相似度对应的图像确定为终端服务响应时对应的图像。

本申请实施例在获取终端中的服务针对语音指令的响应结果的过程中，无需人工参与，在减少人力投入的同时，也减少了人为产生的错误，从而最大程度地保证了获取结果的精度。同时，对终端针对语音指令进行响应的整个过程进行了记录，以方便后续问题的分析和追溯。进一步的，对获取到的图像数据进行了精简，使得精简后的数据量最小化，但是保留的信息量最大化，也方便了后续对响应结果的判断和分析。

也就是说，相关技术在获取终端中的服务针对语音指令返回的响应结果时，通常是通过人工直接操作，即人工按照输入文本朗读来唤醒终端，然后人工记录从终端听到的或者看到的返回内容。这种通过人工直接操作的方式由于全程由人参与，需要耗费大量人力。同时，终端在响应语音指令的过程中也会包含大量无效信息，需要人注意力高度集中，因此非常容易出错，导致获取效率也十分低下。进一步的，由于没有关键信息的备份，例如终端语音指令识别结果、终端语音响应、终端服务响应等，也不利于问题追溯和问题分析。

在实施本申请实施例的过程中发现：终端在交互过程中仅有三个重要阶段的响应结果需要记录，第一个是终端针对语音指令的识别结果；第二个是终端语音响应结果；第三个是终端服务响应结果。因此，可以通过程序化地执行视频录像、语音唤醒、语音播报语料、获取终端语音指令识别结果、获取终端语音响应结果、以及获取终端服务响应结果等流程，完整获取终端交互过程中的信息。同时，引入通用自动语音识别技术，将终端语音响应转换为对应的文字进行保存；在终端的屏幕上定义语音指令识别区域和标准区域，使用图像处理技术和光学字符识别技术，将所录制的视频帧进行删减，只保留终端唤醒前(对应于上文中的电子设备的唤醒前阶段)、终端语音指令识别完成时(对应于上文中电子设备在语音指令识别完成阶段)、以及终端服务响应时(对应于上文中电子设备的语音指令响应阶段)三帧。如此，在后续进行分析时，只需要查看终端语音响应转换为文字的结果和终端被唤醒前、终端语音指令识别完成时、以及终端服务响应时分别对应的三张图片，即可对终端针对语音指令的响应结果是否正确进行判断，从而，可以极大地提升分析效率、以及节省获取终端响应结果的人力成本；同时，由于对关键信息进行了保存，也便于问题的追溯和分析。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的基于人工智能的服务测试方法。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图4A、图4B或者图5示出的基于人工智能的服务测试方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以被存储在保存其它程序或数据的文件的一部分，例如，存储在超日志标记语言(HT ML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例具有以下有益效果：

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的服务测试方法，其特征在于，所述方法包括：

呈现所述响应过程中的多个不同阶段的图像。

2.根据权利要求1所述的方法，其特征在于，

所述多个不同阶段中包括所述电子设备的唤醒前阶段；

所述对所述图像数据进行识别处理，得到所述响应过程的多个不同阶段的图像，包括：

从所述图像数据中识别出第一帧图像，将所述第一帧图像确定为所述电子设备在所述唤醒前阶段的图像。

3.根据权利要求1所述的方法，其特征在于，

所述多个不同阶段中包括所述电子设备的语音指令识别完成阶段；

所述对所述图像数据进行识别处理，得到所述响应过程中的多个不同阶段的图像，包括：

在所述电子设备的人机交互界面中确定语音指令识别区域，其中，所述语音指令识别区域是用于显示针对所述语音指令的语音识别结果的区域；

针对所述图像数据中的每一帧图像，识别出所述每一帧图像的所述语音指令识别区域包括的字符串；

将包括最长字符串的语音指令识别区域对应的图像，确定为所述电子设备在所述语音指令识别完成阶段的图像。

4.根据权利要求1所述的方法，其特征在于，

在所述电子设备的人机交互界面中确定标准区域，其中，所述标准区域是在响应所述语音指令前未发生变化的区域；

确定所述图像数据中的第一帧图像的标准区域与后续每帧图像的标准区域之间的第一相似度，将所述第一相似度大于第一相似度阈值的图像组成第一图像集合；

确定所述图像数据中的第一帧图像的语音指令识别区域与后续每帧图像的语音指令识别区域之间的第二相似度，将所述第二相似度小于第二相似度阈值的图像组成第二图像集合；

确定所述第一图像集合和所述第二图像集合中相同的图像，并将所述相同的图像中最后被采集的图像，确定为所述电子设备在所述语音指令识别完成阶段的图像。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

针对所述电子设备在所述语音指令识别完成阶段的图像，执行以下处理：

将所述图像的所述语音指令识别区域中的任一位置确定为种子点；

在所述图像中确定与所述种子点相连通、且与所述种子点之间的色差小于色差阈值的目标像素点；

从所述图像中提取出由所述种子点、以及多个所述目标像素点组成的区域；

将从所述区域识别出的字符与所述语料进行比对，并根据比对结果确定所述服务针对所述语音指令的识别结果。

6.根据权利要求5所述的方法，其特征在于，所述根据比对结果确定所述服务针对所述语音指令的识别结果，包括：

当所述字符与所述语料一致时，确定所述服务针对所述语音指令的识别结果正确；

当所述字符与所述语料不一致时，确定所述服务针对所述语音指令的识别结果错误。

7.根据权利要求1所述的方法，其特征在于，

所述多个不同阶段中包括所述电子设备的语音指令响应阶段；

确定所述图像数据中第一帧图像的标准区域与后续每帧图像的标准区域之间的第一相似度；

将与所述第一帧图像的标准区域的第一相似度最小的图像，确定为所述电子设备在所述语音指令响应阶段的图像。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

对所述电子设备针对所述语音指令的响应过程进行音频采集，得到音频数据；

对所述音频数据进行语音识别，得到所述电子设备用于响应所述语音指令的应答文本。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

获取针对所述图像以及所述应答文本的评价数据，其中，所述评价数据用于表征所述服务响应所述语音指令的准确性；

将所述图像、所述应答文本以及所述评价数据存储到数据库中。

10.一种基于人工智能的服务测试装置，其特征在于，所述装置包括：