CN113453135A

CN113453135A - 智能音箱优化方法及测试方法、装置、设备和存储介质

Info

Publication number: CN113453135A
Application number: CN202010214080.6A
Authority: CN
Inventors: 黄裔源
Original assignee: Nail Holding Cayman Co ltd
Current assignee: Nail Holding Cayman Co ltd; Dingtalk Holding Cayman Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2021-09-28

Abstract

本发明实施例提供一种智能音箱优化方法及测试方法、装置、设备和存储介质，该方法包括：根据未被测试对象正确响应的用户音频，获取测试音频以及测试音频对应的多种标注信息，多种标注信息与多种测试指标对应；将测试音频输入到优化后的测试对象，以获取优化后的测试对象输出的多种测试信息，多种测试信息与多种测试指标对应；根据多种标注信息和多种测试信息，确定优化后的测试对象的性能是否达到要求。在该方法中，可以获取测试对象此前不能正确响应的用户音频，基于这些用户音频来获得测试音频，使用这些测试音频对优化后的测试对象进行测试，可以使得测试结果更加准确、可靠。

Description

智能音箱优化方法及测试方法、装置、设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种智能音箱优化方法及测试方法、装置、设备和存储介质。

背景技术

随着人工智能技术的发展，各种支持一种或多种交互模式的产品层出不穷。

实际应用中，这些人工智能产品需要经过不断优化，以提高产品性能以及用户体验。

当某款经过优化的人工智能产品发布给广大用户使用前，需要对这款人工智能产品进行测试，以测试其性能是否符合要求。因此，如何准确、全面地完成这种测试任务是亟待解决的问题。

发明内容

本发明实施例提供一种智能音箱优化方法及测试方法、装置、设备和存储介质，可以实现测试对象(如某款人工智能产品)的准确测试。

第一方面，本发明实施例提供一种测试方法，该方法包括：

根据未被测试对象正确响应的用户音频，获取测试音频以及所述测试音频对应的多种标注信息，所述多种标注信息与多种测试指标对应；

将所述测试音频输入到优化后的测试对象，以获取所述优化后的测试对象输出的多种测试信息，所述多种测试信息与所述多种测试指标对应；

根据所述多种标注信息和所述多种测试信息，确定所述优化后的测试对象的性能是否达到要求。

第二方面，本发明实施例提供一种测试装置，该装置包括：

获取模块，用于根据未被测试对象正确响应的用户音频，获取测试音频以及所述测试音频对应的多种标注信息，所述多种标注信息与多种测试指标对应；

测试模块，用于将所述测试音频输入到优化后的测试对象，以获取所述优化后的测试对象输出的多种测试信息，所述多种测试信息与所述多种测试指标对应；

确定模块，用于根据所述多种标注信息和所述多种测试信息，确定所述优化后的测试对象的性能是否达到要求。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第一方面所述的测试方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的测试方法。

第五方面，本发明实施例提供一种测试方法，该方法包括：

根据响应未达到要求的用户音频，获取测试音频以及所述测试音频对应的多种标注信息，所述多种标注信息与多种测试指标对应；

第六方面，本发明实施例提供一种测试装置，该装置包括：

获取模块，用于根据响应未达到要求的用户音频，获取测试音频以及所述测试音频对应的多种标注信息，所述多种标注信息与多种测试指标对应；

第七方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第五方面所述的测试方法。

第八方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第五方面所述的测试方法。

第九方面，本发明实施例提供一种测试方法，该方法包括：

根据未被应用程序正确响应的用户音频，获取测试音频以及所述测试音频对应的多种标注信息，所述多种标注信息与多种测试指标对应，所述用户音频是用于查找目标组织内的目标用户的音频；

将所述测试音频输入到优化后的应用程序中，以获取所述优化后的应用程序输出的多种测试信息，所述多种测试信息与所述多种测试指标对应；

根据所述多种标注信息和所述多种测试信息，确定所述优化后的应用程序的性能是否达到要求。

第十方面，本发明实施例提供一种测试装置，该装置包括：

获取模块，用于根据未被应用程序正确响应的用户音频，获取测试音频以及所述测试音频对应的多种标注信息，所述多种标注信息与多种测试指标对应，所述用户音频是用于查找目标组织内的目标用户的音频；

测试模块，用于将所述测试音频输入到优化后的应用程序中，以获取所述优化后的应用程序输出的多种测试信息，所述多种测试信息与所述多种测试指标对应；

确定模块，用于根据所述多种标注信息和所述多种测试信息，确定所述优化后的应用程序的性能是否达到要求。

第十一方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第九方面所述的测试方法。

第十二方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第九方面所述的测试方法。

第十三方面，本发明实施例提供一种智能音箱优化方法，该方法包括：

根据未被第一智能音箱正确响应的用户音频，获取测试音频以及所述测试音频对应的多种标注信息，所述多种标注信息与多种测试指标对应；

将所述测试音频输入到第二智能音箱，以获取所述第二智能音箱输出的多种测试信息，所述多种测试信息与所述多种测试指标对应，其中，所述第二智能音箱是对所述第一智能音箱进行优化后的智能音箱；

根据所述多种标注信息和所述多种测试信息，确定所述第二智能音箱的性能是否达到要求。

第十四方面，本发明实施例提供一种智能音箱优化装置，该装置包括：

获取模块，用于根据未被第一智能音箱正确响应的用户音频，获取测试音频以及所述测试音频对应的多种标注信息，所述多种标注信息与多种测试指标对应；

测试模块，用于将所述测试音频输入到第二智能音箱，以获取所述第二智能音箱输出的多种测试信息，所述多种测试信息与所述多种测试指标对应，其中，所述第二智能音箱是对所述第一智能音箱进行优化后的智能音箱；

确定模块，用于根据所述多种标注信息和所述多种测试信息，确定所述第二智能音箱的性能是否达到要求。

第十五方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第十三方面所述的智能音箱优化方法。

第十六方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第十三方面所述的智能音箱优化方法。

第十七方面，本发明实施例提供一种智能音箱优化方法，该方法包括：

根据未被智能音箱正确响应的用户音频，获取测试音频以及所述测试音频对应的多种标注信息，所述多种标注信息与多种测试指标对应；

将所述测试音频输入到所述智能音箱，以获取所述智能音箱输出的多种测试信息，所述多种测试信息与所述多种测试指标对应；

根据所述多种标注信息和所述多种测试信息，确定所述智能音箱的性能是否达到要求；

若未达到要求，则输出优化提示信息，以使根据所述优化提示信息对所述智能音箱进行优化处理。

第十八方面，本发明实施例提供一种智能音箱优化装置，该装置包括：

获取模块，用于根据未被智能音箱正确响应的用户音频，获取测试音频以及所述测试音频对应的多种标注信息，所述多种标注信息与多种测试指标对应；

测试模块，用于将所述测试音频输入到所述智能音箱，以获取所述智能音箱输出的多种测试信息，所述多种测试信息与所述多种测试指标对应；根据所述多种标注信息和所述多种测试信息，确定所述智能音箱的性能是否达到要求；

优化模块，用于若未达到要求，则输出优化提示信息，以使根据所述优化提示信息对所述智能音箱进行优化处理。

第十九方面，本发明实施例提供一种智能音箱，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第十七方面所述的智能音箱优化方法。

第二十方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被智能音箱的处理器执行时，使所述处理器至少可以实现如第十七方面所述的智能音箱优化方法。

通过本发明实施例提供的方法，可以获取测试对象此前不能正确响应的用户音频，基于这些用户音频，获得测试音频，并根据需要对该测试对象进行测试的多种测试指标对测试音频进行标注，以获得多种标注信息。具有这些标注信息的测试音频可以用于对优化后的测试对象进行测试，如果将测试音频输入到优化后的测试对象，该优化后的测试对象实际输出的多种测试信息和上述多种标注信息相一致，则可以确定优化后的测试对象能够正确进行服务响应，性能已经得到提高，否则说明还需要继续优化该测试对象。在该方案中，由于测试音频是根据用户真实使用测试对象的过程中所产生的用户音频生成的，这些用户音频与用户对测试对象的真实使用场景相匹配。从而，基于这些用户音频得到测试音频，使用这些测试音频对优化后的测试对象进行测试，可以使得测试结果更加准确、可靠。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种测试方法的流程图；

图2为本发明实施例提供的一种ASR算法的测试过程的示意图；

图3为本发明实施例提供的一种NLU算法的测试过程的示意图；

图4为本发明实施例提供的一种DOA算法的测试过程的示意图；

图5为本发明实施例提供的一种VAD算法的测试过程的示意图；

图6为本发明实施例提供的另一种测试方法的流程图；

图7为本发明实施例提供的一种智能音箱优化方法的流程图；

图8为本发明实施例提供的另一种智能音箱优化方法的流程图；

图9为本发明实施例提供的一种测试装置的结构示意图；

图10为与图9所示实施例提供的测试装置对应的电子设备的结构示意图；

图11为本发明实施例提供的另一种测试装置的结构示意图；

图12为与图11所示实施例提供的测试装置对应的电子设备的结构示意图；

图13为本发明实施例提供的一种智能音箱优化装置的结构示意图；

图14为与图13所示实施例提供的测试装置对应的电子设备的结构示意图；

图15为本发明实施例提供的另一种智能音箱优化装置的结构示意图；

图16为与图15所示实施例提供的测试装置对应的智能音箱的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

本发明实施例提供的方法可以用于对测试对象进行性能测试。其中，测试对象可以是应用程序、服务、插件等能够执行一定功能逻辑的软件或硬件。该测试对象可以是支持人机交互功能的人工智能产品，比如智能音箱。该测试对象至少可以支持语音交互功能，从而，用户可以和测试对象进行语音交互。在实际应用中，用户在向测试对象发出语音时，该测试对象可以基于接收到的语音进行服务响应，以向使用户输出服务响应结果，该服务响应结果可以是向用户输出应答语音，也可以是向用户展示某些界面元素。

上述所说的“对测试对象进行性能测试”，其中，该性能可以体现为如下两个方面：其一，服务响应结果准确性层面(即服务逻辑层面)；其二，算法的计算准确性层面。

举例来说，假设测试对象是一款智能音箱，那么，服务响应结果准确性层面是指，当用户说出诸如“我想听歌曲A”等语音指令时，该智能音箱是否能够正确做出服务响应——播放这首歌名为《歌曲A》的歌曲。如果智能音箱响应于用户的这个语音指令而播放这首歌曲，则说明此时该智能音箱的服务响应正确。而算法的计算准确性层面是指，智能音箱在接收到这条语音指令后，在对该语音指令进行服务响应的过程中，往往需要使用至少一种算法，以对该语音指令进行不同的处理，比如可能涉及到语音识别(Automatic SpeechRecognition，简写为ASR)算法、自然语言理解(Natural Language Processing，简写为NLU)算法，等等。这些算法的输出结果的准确性将直接对服务响应的正确性产生影响。

本发明实施例提供的测试方法可以由某电子设备执行，该电子设备可以是诸如PC机、笔记本电脑、手机等终端设备，也可以是服务器。该电子设备可以通过有线或无线的通信方式与测试对象所对应的设备连接，以便于将测试音频传输给测试对象。其中，测试对象为某种软件时，该测试对象对应的设备可以是指按照了该软件的某个电子设备。

下面结合以下实施例对本文提供的测试方法的执行过程进行示例性说明。

图1为本发明实施例提供的一种测试方法的流程图，如图1所示，该方法包括如下步骤：

101、根据未被测试对象正确响应的用户音频，获取测试音频以及测试音频对应的多种标注信息，多种标注信息与多种测试指标对应。

102、将测试音频输入到优化后的测试对象，以获取优化后的测试对象输出的多种测试信息，多种测试信息与多种测试指标对应。

103、根据多种标注信息和多种测试信息，确定优化后的测试对象的性能是否达到要求。

本发明实施例中，测试对象至少可以支持语音交互功能，即用户可以通过语音交互的方式使用该测试对象。当然，该测试对象还可以支持其他模式的人机交互功能。在测试对象的研发、优化过程中，当对这个人工测试对象进行优化之后，需要测试优化后的测试对象的性能是否达到要求。

为完成对优化后的测试对象的性能的准确测试，本发明实施例中，用于对优化后的测试对象进行性能测试的测试音频来自于大量用户对优化前的测试对象的实际使用过程。举例来说，下面将经过优化处理后的测试对象表示为测试对象B，将优化前的测试对象表示为测试对象A。由于这些测试音频是根据大量用户真实使用测试对象A的过程中所产生的用户音频生成的，这些用户音频与用户对测试对象B的真实使用场景相匹配。从而，使用这些测试音频对测试对象B进行性能测试，可以使得测试结果更加准确、可靠。

可选地，可以通过收集大量用户在使用测试对象A的过程中未被测试对象A正确响应的用户音频，基于这些未被测试对象A正确响应的用户音频，可以生成用于对测试对象B进行测试的测试音频。

当然，可选地，也可以收集测试对象A的响应未达到要求的用户音频，基于这些用户音频生成用于对测试对象B进行测试的测试音频。其中，响应未达到要求，包括但不限于响应不正确的情况，比如还可以包括响应不及时即响应延时大的情况，等等。

实际应用中，可以将初始研发出的测试对象A投入到市场中，这样测试对象A可以被大量的用户所使用，不同用户可以向测试对象A基于自己的实际需求给出不同的语音指令，这些语音指令也可称为用户音频。对应于这些用户音频，测试对象A可能进行了正确的服务响应，也可能进行了错误的服务响应。针对上述所说的两种获取测试音频的方式，可以在所有用户音频中，将未被测试对象A正确响应的用户音频筛选出；也可以记录测试对象A对各用户音频或者对正确响应的用户音频的响应时间，将响应时间大于设定阈值的用户音频筛选出来，其中，响应时间是指从接收到用户音频到输出响应结果所经历的时长。

为实现将未被测试对象A正确响应的用户音频筛选出来，需要识别出来哪些用户音频未被测试对象A正确响应。

可选地，可以根据用户对测试对象A输出的服务响应信息而做出反馈行为确定该用户说出的用户音频是否被测试对象A正确响应。

例如，测试对象为集成有找人功能的智能终端。当某一访客到访某公司寻找公司职员“小明”时，该访客可以对智能终端发出“请帮我找小明”的语音指令，在智能终端接收到该语音指令之后，可以根据公司通讯录查询公司中是否存在小明。根据查询结果，智能终端可以输出相应的响应语音，比如如果查询到存在小明，输出“您好，我马上帮您联系小明”的响应语音，再比如如果未能查询到小明，输出“您好，我司没有这个人”的响应语音。如果访客确定该公司中确实有小明这个人，而该智能终端却输出“您好，我司没有这个人”的响应语音，那么该访客得知该智能终端未给出正确的响应，则该访客可能会再对智能终端重复一次或多次地发出语音指令“请帮我找小明”。基于此，可以将智能终端连续接收到的同一用户输出的同一语音指令视为是未被该智能终端正确响应的用户音频。

基于上述举例可知，可以获取同一用户连续向测试对象A输入的同一音频作为未被测试对象A正确响应的用户音频。

可选地，也可以由使用测试对象A的用户主动上报其说出的未被测试对象A正确响应的用户音频。比如测试对象A是智能音箱，某用户向智能音箱输出“播放某某歌曲”的用户音频，但是该智能音箱并未播放这首歌曲，或者总是输出一些错误的响应语音，此时，该用户可以向该智能音箱的管理后台提供错误反馈信息，从而，可以根据用户提供的错误反馈信息，获取与该错误反馈信息对应的用户音频，该用户音频作为未被测试对象A正确响应的用户音频。实际应用中，错误反馈信息可以通过语音或文字的形式反馈，而且该错误反馈信息中可以描述有：该用户输出的音频内容以及智能音箱的错误响应信息。基于此，可以根据该用户输出的音频内容合成对应的音频，作为上述用户音频。当然，如果用户提供的错误反馈信息中直接包含有未被测试对象A正确响应的用户音频，那么从中提取出来即可。

实际应用中，获取未被测试对象A正确响应的用户音频的方式不以上述举例的实现方式为限。

在得到未被测试对象A正确响应的用户音频之后，可以根据未被测试对象A正确响应的用户音频，获取测试音频。可以理解的是，当筛选出的用户音频包括响应及时性不符合要求的用户音频时，基于这些用户音频获取测试音频的过程是一样的，因此，下面仅以根据未被测试对象A正确响应的用户音频，获取测试音频为例进行说明。

获取测试音频的过程，概括来说，可以实现为：确定未被测试对象A正确响应的用户音频对应的文本内容；获取包含该文本内容的测试音频，其中，该测试音频以不同的语音特征表述该文本内容。由此可知，针对同一文本内容，以不同的语音特征来表述该文本内容会得到不同的测试音频，从而，基于同一文本内容可以得到多个测试音频。

具体地，所述测试音频可以通过如下至少一种方式获得的：

录制以不同的语音特征说出所述文本内容的音频作为测试音频；

根据不同的语音特征对所述本文内容进行语音合成处理，以得到测试音频；

从音频库中搜索出对应于所述文本内容且满足设定的语音特征筛选条件的音频作为测试音频。

在上述录制方案中，测试音频可以是测试对象A的提供方组织相关技术人员录制的。在实际应用中，可以标注出未被测试对象A正确响应的用户音频所对应的文本内容，这样技术人员可以以不同的语音特征说出该文本内容，在技术人员以某种语音特征说出该文本内容时，可以对技术人员的语音进行录制，得到一段测试音频。

上述语音特征可以包括但不限于性别、口音、方位、语速、年龄、语种。基于此，在录制测试音频时，可以挑选具有不同年龄、不同性别、不同口音、不同语种的技术人员录制相同的文本内容，还可以让技术人员以不同的语速录制相同的文本内容。此外，在实际应用中也可以让技术人员处在相对于测试对象A的不同方位上进行录制。其中，方位可以包括声源相对于测试对象A的偏离角度和距离等。

在根据文本内容合成测试音频的方案中，可以通过现有技术中提供的语音合成技术，针对同一文本内容，合成具有不同语音特征的测试音频，比如，将预先通过机器学习方式学习到的不同年龄段、不同性别、不同口音、不同语种等的语音特征和上述文本内容输入到语音合成算法中，以通过语音合成算法输出相应的测试音频。

在音频库中搜索测试音频的方案中，针对同一文本内容，音频库中可能存储有与之对应的多个音频，这多个音频可能具有不同的语音特征，此时，可以将这多个音频都搜索出来作为测试音频。实际应用中，这多个音频可能是不同的用户在使用测试对象A的过程中发出的，比如，用户a和用户b在使用测试对象A的过程中都说出过“明天天气怎么样”的语音。当然，考虑到测试音频数量的问题，当对应于同一文本内容的音频的数量很庞大时，直接使用这些音频作为测试音频，可能导致测试音频的数量过于众多，导致整个测试时长过长，因此，可以从对应于同一文本内容的若干音频中，按照语音特征进行筛选，以筛选出的音频作为测试音频。该筛选的条件可以是：筛选出呈现某一种或几种语音特征的不超过设定数量的音频作为测试音频。比如筛选出对应于20-30年龄段的女性的音频，若筛选出的音频数量大于100条，则从中随机选择出100条。再比如，筛选出对应于语种a和语种b的音频，若筛选出的音频数量大于100条，则从中随机选择出100条。基于此，可以理解的是，在音频库中，针对每个音频，可以关联存储有该音频对应的文本内容、各种语音特征，以便进行上述筛选操作。而该文本内容、语音特征可以是人工标注出的，也可以是通过机器学习等方式自动学习出的。

综上，通过上述方式可以获得用于测试测试对象B的若干测试音频。

值得说明的是，上述介绍的测试音频是基于未被测试对象A正确响应的用户音频得到的，这些测试音频是用于对测试对象A的优化结果——测试对象B进行性能测试。但是，实际上，即使作为初代产品的测试对象A，在提供给广大用户使用之前，也是需要经过测试的。由于测试对象A在提供给广大用户使用之前，是无法获得上述所说的用户音频的，因此，此时，对测试对象A进行测试时，可以让技术人员直接以不同的语音特征说出默认的文本内容，对技术人员说出的默认的文本内容进行录制，以获取测试音频。默认的文本内容可以根据测试对象A所被应用于的使用场景来设定，亦即可以根据测试对象A能够提供的功能来设定。假设测试对象A是天气查询应用程序，则用户可能会说出的内容多与天气查询相关，此时，设定的文本内容可以是查询不同地方的天气的语句。

还值得说明的是，为了对测试对象B进行更为全面地测试，以进一步提高测试结果的可靠性，除了可以基于未被测试对象A正确响应的用户音频获取测试音频之外，实际也可以基于已被测试对象A正确响应的用户音频扩展测试音频，也就是说，用于对测试对象B进行测试的测试音频中还可以包括被测试对象A正确响应的用户音频，这样，可以观看到测试对象B是否依旧能够正确响应这部分用户音频。

在获取到测试音频之后，可以将测试音频输入到测试对象B中，对测试对象B进行测试。如果测试对象B不能基于输入的测试音频给出正确的服务响应，则如前文所述，问题产生的原因可能包括多面，例如可以是宏观的服务响应逻辑错误、微观的算法计算结果错误等。基于此，可以从服务响应逻辑层面、算法的计算准确性层面等对测试对象B进行测试，以定位测试对象B不能进行正确的服务响应的原因。

为了从服务响应逻辑层面和算法的计算准确性层面对测试对象B进行测试，首先，需要设置与这两个层面对应的多个测试指标，进而针对测试音频，获取测试音频与这多个测试指标对应的多种标注信息。在将测试音频输入到测试对象B后，测试对象B可以输出与这多个测试指标对应的多种测试信息。通过一一对应地对比这多种标注信息和多种测试信息，便可以得知测试对象B的性能表现情况。

下面先介绍从服务响应逻辑层面对测试对象B进行测试的实现方式。

本发明实施例中，与服务响应逻辑层面对应的测试指标可以是服务响应准确率。基于此，测试音频在服务响应准确率下对应的标注信息为：希望测试对象B输出的服务响应信息。将测试音频输入到测试对象B后，测试对象B实际输出的服务响应信息，即作为该测试音频在服务响应准确率下对应的测试信息。针对某测试音频来说，如果为其标注的“希望输出的服务响应信息”与测试对象B“实际输出的服务响应信息”一致，则认为测试对象B能够正确响应该测试音频。

可以理解的是，假设一共使用N个测试音频对测试对象B进行测试，N大于1，假设其中有M个测试音频都能够被测试对象B正确响应，那么，测试对象B的服务响应准确率为：M/N。当M/N满足达到阈值时，可以认为测试对象B的服务响应准确率符合要求。

上述“希望输出的服务响应信息”可以是人工对测试音频进行标注得到的服务响应信息。以找人场景为例，假设测试音频为“请帮我找小明”，假设该测试音频对应的通讯录中确实是存在小明这个人的，并且假设测试对象B在能够查询到某人的情况下，被设计的响应模板是输出如下语音“请别走开，正在帮您联系某人”。基于此，技术人员为该测试音频标注的希望输出的服务响应信息为：“请别走开，正在帮您联系小明”的语音反馈内容。

值得说明的是，有些测试对象在执行服务响应逻辑的过程中，可能需要加载用户侧的应用场景数据，针对这种测试对象进行测试时，也需要将测试音频对应的应用场景数据加载到优化后的测试对象中，以便优化后的测试对象能够根据该应用场景数据对测试音频进行服务响应。也即是说，需要从测试对象A中获取用户音频对应的应用场景数据，将应用场景数据加载到测试对象B中，以使测试对象B在应用场景数据中搜索用于响应与用户音频对应的测试音频的目标数据。

为便于理解，举例来说，假设测试对象A是能够实现找人功能的应用程序，某公司在使用测试对象A时，需要在测试对象A中创建公司通讯录，以便基于该通讯录实现找人功能。基于该假设，如果对经过优化后得到的测试对象B进行测试的测试音频中，存在与该公司对应的K个测试音频，K大于或等于1，这K个测试音频是基于收集到的与该公司对应的一个或多个用户音频得到的。那么，在将这K个测试音频输入测试对象B时，需要将该公司在使用测试对象A时所创建的通讯录加载到测试对象B中，以便测试对象B针对这K个测试音频进行服务响应的过程中，调用该通讯录来响应这K个测试音频，具体地，是在这个通讯录中进行与K个测试音频分别对应的目标用户的搜索，以便基于搜索结果给出响应结果。此时，该通讯录即为应用场景数据。

以上对从服务响应逻辑层面对测试对象B进行测试的过程进行了介绍，下面对算法的计算准确性层面对测试对象B进行测试的过程进行介绍。

可以理解的是，如果测试对象B不能正确响应输入的测试音频，则可能是服务响应逻辑层面存在错误，也可能是服务响应过程中使用的一些算法的计算准确性不佳。此时，可以对测试对象B使用到的算法进行排查，如果测试对象B使用到的算法的计算准确性都较佳，则说明很有可能是因为服务响应逻辑方面的问题导致的响应结果错误。

可以理解的是，测试对象B对测试音频进行响应的过程中可以使用到至少一种算法。从而，用于评价测试对象B的性能的多种测试指标中包括至少一种算法的计算准确率。在本发明实施例中，测试对象B能够进行语音交互，因此测试对象B对测试音频进行响应的过程中使用到的算法可以包括用于处理测试音频的语音处理算法。

上述语音处理算法可以包括如下算法中的至少一种：语音活动检测(VoiceActivity Detection，简写为VAD)算法、语音识别(Automatic Speech Recognition，简写为ASR)算法、自然语言理解(Natural Language Processing，简写为NLU)算法、声源方向定位算法。其中，声源定位算法比如可以是波达方向定位(Direction Of Arriva，简写为DOA)算法。

当然除了上面列举的四种语音处理算法之外，测试对象B还可以使用其他语音处理算法，对此本发明实施例不再一一进行举例。

为了对测试对象B使用到的各种算法进行计算准确率的度量，需要结合每种算法的功能，为测试音频进行相关信息的标注，这些相关信息是用于度量各种算法的计算准确率所需的信息。针对任一种算法来说，该算法基于输入数据而输出的结果，即作为该算法的测试信息，从而，通过对比与该算法对应的标注信息以及其输出的测试信息，便可以得知该算法是否能够正确计算当前的输入数据。

在下文将会分别针对列举的四种语音处理算法中的每种算法介绍算法的计算准确率的确定过程。

(1)ASR算法

可以通过ASR算法，对测试音频进行语音识别处理，以获取测试音频中包含的文本内容，也就是说，ASR算法的目的是将测试语音转换为文本。

基于此，测试音频在ASR算法的计算准确率下对应的标注信息和测试信息分别为：希望ASR算法识别出的文本内容和ASR算法实际识别出的文本内容。其中，可以通过人工对希望ASR算法识别出的文本内容进行标注。

在实际应用中，为了确定测试对象B中使用的ASR算法的计算准确率，可以将测试音频输入到测试对象B，当测试对象B调用ASR算法时，该ASR算法会输出其实际识别出的文本内容。继而对比为该测试音频标注出的希望其识别书的文本内容和ASR算法实际识别出的文本内容是否一致，便可以得知ASR算法是否正确地识别出了该测试音频对应的文本内容。

基于每个测试音频都进行上述的识别、对比处理，便可以得到ASR算法在这些测试音频下对应的计算准确率。

为了方便理解，下面结合图2，示例性说明ASR算法的测试过程。如图2所示，假设为一段测试音频标注的文本内容(即希望ASF算法识别出的文本内容)是“请叫一下小刚”，通过ASR算法识别这段测试音频实际识别出的文本内容为“请叫一下小刚”，两个文本内容是一致的，可以ASR算法能够正确对测试音频进行语音识别处理。

(2)NLU算法

NLU算法一般与ASR算法配合使用，概括来说，NLU算法的目的是：基于ASR算法的识别结果，确定用户意图。例如，如果ASR算法识别出的文本内容为“请帮我找XXX”、“请帮我叫XXX”等找人句式，则可以确定用户意图是找人。

从服务响应逻辑层面来说，测试对象B可以基于ASR算法的识别结果以及NLU算法的确定结果，执行相应的回调函数，以最终得到需要输出的服务响应信息。

测试音频在NLU算法的计算准确率下对应的标注信息和测试信息分别为：希望NLU算法识别出的意图信息和NLU算法实际识别出的意图信息。其中，希望NLU算法识别出的意图信息可以是人工对测试音频进行标注得到的，因此也可以称为标注的意图信息。

在实际应用中，为了确定测试对象B中使用的NLU算法的计算准确率，可以将测试音频输入到测试对象B，当测试对象B调用ASR算法时，该ASR算法会输出其实际识别出的文本内容。继而ASR算法实际识别出的文本内容被传输至NLU算法，NLU算法基于该输入信息确定测试音频对应的用户意图。通过对比NLU算法实际识别出的用户意图与该测试音频被标注的意图信息是否一致，便可以得知NLU算法是否正确地识别出了该测试音频对应的用户意图。

指的说明的是，做出上述判断结果的前提是，ASR算法能够正确识别出测试音频对应的文本内容。

基于每个测试音频都进行上述的识别、对比处理，便可以得到NLU算法在这些测试音频下对应的计算准确率。

为了方便理解，下面结合图3，示例性说明NLU算法的测试过程。如图3所示，假设一段测试音频对应的文本内容为“请叫一下小刚”，这段测试音频被标注的意图信息是“找人”。将该测试音频输入测试对象B后，若通过ASR算法识别这段测试音频实际识别出的文本内容为“请叫一下小刚”，与标注的文本内容一致，则确定ASR算法能够正确对测试音频进行语音识别处理。进而，ASR算法的识别结果输入到NLU算法，假设通过NLU算法识别出的用户意图为“给某人发邮件”，与该测试音频被标注的用户意图不一致，可以确定NLU算法不能正确识别该测试音频对应的用户意图。

(3)DOA算法

通过DOA算法，可以定位出声源的方位。

在对测试对象B进行测试的过程中，为测试DOA算法的计算准确率，测试音频在DOA算法的计算准确率下对应的标注信息为：测试音频的录制人员在录制过程中相对测试对象B的方位，可以称为方位标注信息。测试音频在DOA算法的计算准确率下对应的测试信息为：该DOA算法实际定位出的方位信息。

在测试过程中，将测试音频输入到测试对象B，当测试对象B调用该DOA算法时，该DOA算法会输出其实际定位出的方位信息。继而对比该测试音频对应的方位标注信息与该DOS算法实际定位出的方位信息是否一致，便可以得知DOA算法是否正确地定位出了声源方位。

可以理解的是，在录制测试音频时，可以让录制人员处在相对测试对象B不同方位上进行录制，在每录制一段测试音频时，可以实地测量技术人员当前相对测试对象B的方位，将测量出的方位作为该测试音频对应的方位标注信息。例如，可以让技术人员在相对测试对象B逆时针方向偏离30°，且距离为1米的位置上录制测试音频。再例如，可以让技术人员正对着测试对象B且距离3米远的位置上录制测试音频。

为了方便理解，下面结合图4，示例性说明DOA算法的测试过程。如图4所示，假设技术人员录制一段测试音频时是在相对于测试对象B逆时针方向偏离30°且距离为1米的位置上录制测试音频的，通过DOA算法计算出这段测试音频是在相对于测试对象B逆时针方向偏离10°且距离为1米的位置上录制测试音频的，由于DOA算法计算出的声源方位与标注的声源方位相差较大，可以确定DOA算法不能正确对该测试音频进行声源定位处理。

(4)VAD算法

VAD算法的目的是从声音信号流里识别和消除长时间的静音期。

在对测试对象B进行测试的过程中，为了测试VAD算法的计算准确率，测试音频在VAD算法的计算准确率下对应的标注信息可以是：对测试音频进行分帧处理，得到多个音频片段，标记各音频片段对应的时间戳以及是否是语音信号(若不是语音信号，则为静默信号)。测试音频在VAD算法的计算准确率下对应的测试信息为：VAD算法实际分割出的多个音频片段以及每个音频片段对应的信号类型识别结果，其中，该信号类型识别结果为语音信号或者静默信号。

为了方便理解，下面结合图5，示例性说明VAD算法的测试过程。如图5所示，假设读完一个文本内容需要3秒，技术人员在开始录制的0至2秒未说话，在录制的2秒至5秒说出了上述文本内容。可以对测试音频进行如下标注：对测试音频进行分帧处理，假设1秒包括10个音频帧，那么5秒的测试音频共可以划分为50个音频片段。可以对各音频片段对应的时间戳进行标记，如第一个音频片段的时间戳可以标记为0'0”-0'05”，第二个音频片段的时间戳可以标记为0'06”-0'11”，以此类推，直到给50个音频片段都标记上对应的时间戳。由于技术人员在开始录制测试音频的0至2秒未说话，因此前20个音频片段中每个音频片段都标记为是静默信号，技术人员在录制测试音频的2秒至5秒说出了文本内容，因此后30个音频片段中的每个音频片段都标记为是语音信号。此外，还可以将这段测试音频输入到VAD算法中，VAD算法对这段测试音频进行实际的分割，假设得到了50个音频片段，进一步地VAD算法还可以识别分割得到的每个音频片段的信号类型识别结果，假设测试音频中包含的所有音频片段的信号类型识别结果为前20个音频片段中每个音频片段都是静默信号，后30个音频片段中的每个音频片段都是语音信号。由此可以看出，测试音频在VAD算法的计算准确率下对应的标注信息与测试音频在VAD算法的计算准确率下对应的测试信息是相一致的，因此可以确定VAD算法能够正确识别测试音频中为静默信号的音频片段。

上面介绍了测试对象B对测试音频进行响应的过程中使用到的语音处理算法，实际应用中，测试对象B对测试音频进行响应的过程中还可以使用其他类型的算法，例如用于识别测试音频对应的用户人脸图像的图像处理算法。

通过图像处理算法，可以对用户人脸图像进行图像处理，例如可以识别用户的身份等。类似于语音处理算法，也可以在对测试对象B进行测试的过程中，确定图像处理算法的计算准确率，具体可以实现为：将与测试音频对应的用户人脸图像输入到测试对象B，测试对象B调用图像处理算法识别该用户人脸图像对应的用户身份时，该图像处理算法结合已知的图像库输出确定出的用户信息。另一方面，预先对该用户人脸图像对应的用户信息进行标注，继而可以对比图像处理算法识别出的用户信息和标注的用户信息，以确定该图像处理算法的计算准确率。

其中，测试音频对应的用户人脸图像可以是与生成该测试音频的用户音频对应的用户的人脸图像，或者也可以是对该人脸图像进行模糊处理后的人脸图像。

其中，以找人场景为例，上述已知的图像库可以是包含某公司的全部员工的人脸图像的数据库。实际上，该已知的图像库，与前文中所述的通讯录一样，都是应用场景数据，即都是使用测试对象的用户侧输入到测试对象中为了使用测试对象的数据。

综上，通过对测试对象可能使用到的各算法进行计算准确率的测试以及对测试对象的服务响应逻辑进行准确率测试，可以及时地发现计算准确性不佳的算法以及服务响应逻辑层面存在的缺陷，以便及时的、针对性的做出优化，保证测试对象的性能。

图6为本发明实施例提供的另一种测试方法的流程图，如图6所示，该测试方法包括如下步骤：

601、根据未被应用程序正确响应的用户音频，获取测试音频以及测试音频对应的多种标注信息，多种标注信息与多种测试指标对应，用户音频是用于查找目标组织内的目标用户的音频。

602、将测试音频输入到优化后的应用程序中，以获取优化后的应用程序输出的多种测试信息，多种测试信息与多种测试指标对应。

603、根据多种标注信息和多种测试信息，确定优化后的应用程序的性能是否达到要求。

本实施例中，测试对象是某种应用程序，该应用程序提供找人功能。

上述目标组织可以是任一企业，目标用户可以是该企业中的任一员工。

基于此，当某企业使用该应用程序时，可以在该应用程序中创建公司通讯录。而运行有该应用程序的终端设备可以放置在公司的前台，从而，当有访客来公司招人时，可以通过与该终端设备进行语音交互实现找人目的。

本实施例提供的测试方法可以对优化后的应用程序的性能进行测试，测试过程的详细细节可以参考前述其他实施例中的说明，在此不赘述。

图7为本发明实施例提供的一种智能音箱优化方法的流程图，如图7所示，该智能音箱优化方法包括如下步骤：

701、根据未被第一智能音箱正确响应的用户音频，获取测试音频以及测试音频对应的多种标注信息，多种标注信息与多种测试指标对应。

702、将测试音频输入到第二智能音箱，以获取第二智能音箱输出的多种测试信息，多种测试信息与多种测试指标对应，其中，第二智能音箱是对第一智能音箱进行优化后的智能音箱。

703、根据多种标注信息和多种测试信息，确定第二智能音箱的性能是否达到要求。

本实施例中，测试对象是某款智能音箱。将优化前的智能音箱称为第一智能音箱，将优化后的智能音箱称为第二智能音箱。

本实施例提供的方法可以由智能音箱的管理后台来执行。

可以理解的是，上述用户音频收集自若干使用第一智能音箱的用户。比如，若干用户购买第一智能音箱后，使用第一智能音箱的过程中产生若干音频，上述用户音频即为从这些音频中选择出的。

可选地，若未被第一智能音箱正确响应的用户音频的数量达到设定条件，则可以输出优化提示信息，以便工作人员可以基于该优化提示信息触发对第一智能音箱进行优化，以得到第二智能音箱。

本实施例中未展开的详细内容节可以参考前述其他实施例中的说明，在此不赘述。

图8为本发明实施例提供的另一种智能音箱优化方法的流程图，如图8所示，该智能音箱优化方法包括如下步骤：

801、根据未被智能音箱正确响应的用户音频，获取测试音频以及测试音频对应的多种标注信息，多种标注信息与多种测试指标对应。

802、将测试音频输入到智能音箱，以获取智能音箱输出的多种测试信息，多种测试信息与多种测试指标对应。

803、根据多种标注信息和多种测试信息，确定智能音箱的性能是否达到要求，若未达到要求，则输出优化提示信息，以使根据优化提示信息对智能音箱进行优化处理。

本实施例中，测试对象是某款智能音箱。

本实施例提供的方法可以由智能音箱的管理后台来执行，该方法的目的在于：基于该智能音箱被广大用户使用期间所产生的未被智能音箱正确响应的用户音频，扩展出更多的测试音频，以便基于这些测试音频对该智能音箱是否需要优化进行测试。如果测试结果表明需要进行优化，则输出优化提示信息，以便相关工作人员对智能音箱进行及时地优化升级。

以下将详细描述本发明的一个或多个实施例的测试装置、智能音箱优化装置。本领域技术人员可以理解，这些测试装置、智能音箱优化装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图9为本发明实施例提供的一种测试装置的结构示意图，该测试装置可以位于用于对测试对象进行测试的某电子设备中。如图9所示，该装置包括：获取模块11、测试模块12、确定模块13。

获取模块11，用于根据未被测试对象正确响应的用户音频，获取测试音频以及所述测试音频对应的多种标注信息，所述多种标注信息与多种测试指标对应。

测试模块12，用于将所述测试音频输入到优化后的测试对象，以获取所述优化后的测试对象输出的多种测试信息，所述多种测试信息与所述多种测试指标对应。

确定模块13，用于根据所述多种标注信息和所述多种测试信息，确定所述优化后的测试对象的性能是否达到要求。

可选地，获取模块11，具体用于确定用户音频对应的文本内容；获取包含所述文本内容的测试音频，所述测试音频以不同的语音特征表述所述文本内容。

可选地，获取模块11具体可以用于：通过如下至少一种方式获得测试音频：

录制以不同的语音特征说出所述文本内容的音频作为所述测试音频；

根据不同的语音特征对所述本文内容进行语音合成处理，以得到所述测试音频；

从音频库中搜索出对应于所述文本内容且满足设定的语音特征筛选条件的音频作为所述测试音频。

可选地，所述语音特征包括如下至少一种：性别、口音、方位、语速、年龄、语种。

可选地，获取模块11具体可以用于：通过如下至少一种方式获得用户音频：

获取同一用户连续向所述测试对象输入的同一音频作为所述用户音频；

根据用户提供的错误反馈信息，获取与所述错误反馈信息对应的用户音频。

可选地，测试模块12还可以用于：从所述测试对象中获取所述用户音频对应的应用场景数据；将所述应用场景数据加载到所述优化后的测试对象中，以使所述优化后的测试对象在所述应用场景数据中搜索用于响应所述测试音频的目标数据。

可选地，所述多种测试指标包括服务响应准确率。所述测试音频在所述服务响应准确率下对应的标注信息和测试信息分别为：希望输出的服务响应信息和实际输出的服务响应信息。

可选地，所述测试对象对所述测试音频进行响应的过程中使用到至少一种算法，所述多种测试指标中包括所述至少一种算法的计算准确率，所述至少一种算法包括用于处理所述测试音频的语音处理算法。

可选地，所述至少一种算法还包括用于识别所述测试音频对应的用户人脸图像的图像处理算法。

可选地，所述语音处理算法包括如下至少一种：

声源方向定位算法、语音活动检测算法、语音识别算法、自然语言理解算法。

可选地，所述测试音频在所述语音识别算法的计算准确率下对应的标注信息和测试信息分别为：希望所述语音识别算法识别出的文本内容和所述语音识别算法实际识别出的文本内容。所述测试音频在所述自然语言理解算法的计算准确率下对应的标注信息和测试信息分别为：希望所述自然语言理解算法识别出的意图信息和所述自然语言理解算法实际识别出的意图信息。

图9所示装置可以执行前述图1至图5所示实施例中提供的测试方法，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

在一个可能的设计中，上述图9所示测试装置的结构可实现为一电子设备，如图10所示，该电子设备可以包括：第一处理器21、第一存储器22。其中，第一存储器22上存储有可执行代码，当所述可执行代码被第一处理器21执行时，使第一处理器21至少可以实现如前述图1至图5所示实施例中提供的测试方法。

可选地，该电子设备中还可以包括第一通信接口23，用于与其他设备进行通信。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述图1至图5所示实施例中提供的测试方法。

图11为本发明实施例提供的另一种测试装置的结构示意图，该测试装置可以位于用于对测试对象进行测试的某电子设备中。如图11所示，该装置包括：获取模块31、测试模块32、确定模块33。

获取模块31，用于根据未被应用程序正确响应的用户音频，获取测试音频以及所述测试音频对应的多种标注信息，所述多种标注信息与多种测试指标对应，所述用户音频是用于查找目标组织内的目标用户的音频。

测试模块32，用于将所述测试音频输入到优化后的应用程序中，以获取所述优化后的应用程序输出的多种测试信息，所述多种测试信息与所述多种测试指标对应。

确定模块33，用于根据所述多种标注信息和所述多种测试信息，确定所述优化后的应用程序的性能是否达到要求。

图11所示装置可以执行前述图6所示实施例中提供的测试方法，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

在一个可能的设计中，上述图11所示测试装置的结构可实现为一电子设备，如图12所示，该电子设备可以包括：第二处理器41、第二存储器42。其中，第二存储器42上存储有可执行代码，当所述可执行代码被第二处理器41执行时，使第二处理器41至少可以实现如前述图6所示实施例中提供的测试方法。

可选地，该电子设备中还可以包括第二通信接口43，用于与其他设备进行通信。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述图6所示实施例中提供的测试方法。

图13为本发明实施例提供的一种智能音箱优化装置的结构示意图，该测试装置可以位于用于对智能音箱进行优化的某电子设备中。如图13所示，该装置包括：获取模块51、测试模块52、确定模块53。

获取模块51，用于根据未被第一智能音箱正确响应的用户音频，获取测试音频以及所述测试音频对应的多种标注信息，所述多种标注信息与多种测试指标对应。

测试模块52，用于将所述测试音频输入到第二智能音箱，以获取所述第二智能音箱输出的多种测试信息，所述多种测试信息与所述多种测试指标对应，其中，所述第二智能音箱是对所述第一智能音箱进行优化后的智能音箱。

确定模块53，用于根据所述多种标注信息和所述多种测试信息，确定所述第二智能音箱的性能是否达到要求。

可选地，所述装置还包括优化模块；所述优化模块，用于当所述用户音频的数量达到设定条件时，输出优化提示信息，以通过对所述第一智能音箱进行优化处理以得到所述第二智能音箱。

图13所示装置可以执行前述图7所示实施例中提供的智能音箱优化方法，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

在一个可能的设计中，上述图13所示智能音箱优化装置的结构可实现为一电子设备，如图14所示，该电子设备可以包括：第三处理器61、第三存储器62。其中，第三存储器62上存储有可执行代码，当所述可执行代码被第三处理器61执行时，使第三处理器61至少可以实现如前述图7所示实施例中提供的智能音箱优化方法。

可选地，该电子设备中还可以包括第三通信接口63，用于与其他设备进行通信。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述图7所示实施例中提供的智能音箱优化方法。

图15为本发明实施例提供的另一种智能音箱优化装置的结构示意图，该测试装置可以位于用于智能音箱中。如图15所示，该装置包括：获取模块71、测试模块72、优化模块73。

获取模块71，用于根据未被智能音箱正确响应的用户音频，获取测试音频以及所述测试音频对应的多种标注信息，所述多种标注信息与多种测试指标对应。

测试模块72，用于将所述测试音频输入到所述智能音箱，以获取所述智能音箱输出的多种测试信息，所述多种测试信息与所述多种测试指标对应；根据所述多种标注信息和所述多种测试信息，确定所述智能音箱的性能是否达到要求。

优化模块73，用于若未达到要求，则输出优化提示信息，以使根据所述优化提示信息对所述智能音箱进行优化处理。

图15所示装置可以执行前述图8所示实施例中提供的智能音箱优化方法，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

在一个可能的设计中，上述图15所示智能音箱优化装置的结构可实现为一智能音箱，如图16所示，该智能音箱可以包括：第四处理器81、第四存储器82。其中，第四存储器82上存储有可执行代码，当所述可执行代码被第四处理器81执行时，使第四处理器81至少可以实现如前述图8所示实施例中提供的智能音箱优化方法。

可选地，该智能音箱中还可以包括第四通信接口83，用于与其他设备进行通信。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被智能音箱的处理器执行时，使所述处理器至少可以实现如前述图8所示实施例中提供的智能音箱优化方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例提供的测试方法可以由某种程序/软件来执行，该程序/软件可以由网络侧提供，前述实施例中提及的电子设备可以将该程序/软件下载到本地的非易失性存储介质中，并在其需要执行前述测试方法以及智能音箱优化方法时，通过CPU将该程序/软件读取到内存中，进而由CPU执行该程序/软件以实现前述实施例中所提供的测试方法以及智能音箱优化方法，执行过程可以参见前述图1至图8中的示意。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种测试方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据未被测试对象正确响应的用户音频，获取测试音频，包括：

确定所述用户音频对应的文本内容；

获取包含所述文本内容的测试音频，所述测试音频以不同的语音特征表述所述文本内容。

3.根据权利要求2所述的方法，其特征在于，所述测试音频是通过如下至少一种方式获得的：

4.根据权利要求2所述的方法，其特征在于，所述语音特征包括如下至少一种：

性别、口音、方位、语速、年龄、语种。

5.根据权利要求1所述的方法，其特征在于，所述用户音频是通过如下至少一种方式获得的：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述测试对象中获取所述用户音频对应的应用场景数据；

将所述应用场景数据加载到所述优化后的测试对象中，以使所述优化后的测试对象在所述应用场景数据中搜索用于响应所述测试音频的目标数据。

7.根据权利要求1所述的方法，其特征在于，所述多种测试指标包括服务响应准确率；

所述测试音频在所述服务响应准确率下对应的标注信息和测试信息分别为：希望输出的服务响应信息和实际输出的服务响应信息。

8.根据权利要求1所述的方法，其特征在于，所述测试对象对所述测试音频进行响应的过程中使用到至少一种算法，所述多种测试指标中包括所述至少一种算法的计算准确率，所述至少一种算法包括用于处理所述测试音频的语音处理算法。

9.根据权利要求8所述的方法，其特征在于，所述至少一种算法还包括用于识别所述测试音频对应的用户人脸图像的图像处理算法。

10.根据权利要求8所述的方法，其特征在于，所述语音处理算法包括如下至少一种：

11.根据权利要求10所述的方法，其特征在于，所述测试音频在所述语音识别算法的计算准确率下对应的标注信息和测试信息分别为：希望所述语音识别算法识别出的文本内容和所述语音识别算法实际识别出的文本内容；

所述测试音频在所述自然语言理解算法的计算准确率下对应的标注信息和测试信息分别为：希望所述自然语言理解算法识别出的意图信息和所述自然语言理解算法实际识别出的意图信息。

12.一种测试装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至11中任一项所述的测试方法。

14.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至11中任一项所述的测试方法。

15.一种测试方法，其特征在于，包括：

16.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求15所述的测试方法。

17.一种测试方法，其特征在于，包括：

18.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求17所述的测试方法。

19.一种智能音箱优化方法，其特征在于，包括：

20.根据权利要求19所述的方法，其特征在于，所述方法还包括：

若所述用户音频的数量达到设定条件，则输出优化提示信息，以通过对所述第一智能音箱进行优化处理以得到所述第二智能音箱。

21.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求19或20所述的智能音箱优化方法。

22.一种智能音箱优化方法，其特征在于，包括：

23.一种智能音箱，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求22所述的智能音箱优化方法。