CN114360530A

CN114360530A - 语音测试方法、装置、计算机设备和存储介质

Info

Publication number: CN114360530A
Application number: CN202111448310.6A
Authority: CN
Inventors: 李茂�
Original assignee: Beijing Co Wheels Technology Co Ltd
Current assignee: Beijing Co Wheels Technology Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-04-15
Anticipated expiration: 2041-11-30
Also published as: CN114360530B

Abstract

本申请提出一种语音测试方法、装置、计算机设备和存储介质，其中，方法包括：测试视频中分离出第一音频数据；确定第一音频数据中每段语音的开始时间和/或结束时间；从测试视频中获取多张抽样图像；根据多张抽样图像和参考图像，确定第一目标抽样图像在测试视频中的出现时间；根据每段语音的开始时间和/或结束时间、第一目标抽样的出现时间，确定语音响应时间及界面图像响应时间。该方法实现了自动化测试语音响应时间和图像响应时间，提高了测试的准确性，节省了人力，提高了测试效率。

Description

语音测试方法、装置、计算机设备和存储介质

技术领域

本申请涉及测试技术领域，尤其涉及一种语音测试方法、装置、计算机设备和存储介质。

背景技术

相关技术中，车载终端的语音测试通常是由测试人员直接面向被测试的车载终端发出语音命令，由车载终端对语音命令进行响应，采用人眼观察和手动秒表计时的形式记录语音和图像的响应时间。但是这种测试方式，误差较大，人力成本高。

发明内容

本申请提出一种语音测试方法、装置、计算机设备和存储介质。

本申请一方面实施例提出了一种语音测试方法，包括：

从所述测试视频中分离出第一音频数据；

确定所述第一音频数据中每段语音的开始时间和/或结束时间；

从所述测试视频中获取多张抽样图像；

根据所述多张抽样图像和参考图像，确定第一目标抽样图像在所述测试视频中的出现时间；

根据每段语音的开始时间和/或结束时间、第一目标抽样图像的出现时间确定每个测试指令对应的语音响应时间及界面图像响应时间。

在本申请一方面实施例一种可能的实现方式中，所述根据所述多张抽样图像和参考图像，确定第一目标抽样图像和所述第一目标抽样图像在所述测试视频中的出现时间，包括：

根据每张参考图像与每张抽样图像之间的匹配度，确定第二目标抽样图像；

根据第二目标抽样图像，确定第一开始位置索引和结束位置索引；

在所述第一开始位置索引和结束位置索引之间的抽样图像或所述测试视中进行查找，以确定第一目标抽样图像对应的第二开始位置索引；

根据所述第二开始位置索引和抽样时间间隔，确定第一目标抽样图像的出现时间，其中，所述抽样时间间隔为从所述测试视频中获取多张抽样图像所采用的抽样间隔。

在本申请一方面实施例一种可能的实现方式中，所述第一音频数据包括指令语音及对应的应答语音，所述根据所述每段语音的所述开始时间和/或所述结束时间、所述第一目标抽样图像的出现时间，确定语音响应时间及界面图像响应时间，包括：

对所述每段语音进行识别，以获取所述每段语音对应的文本内容；

根据每段语音对应的文本内容，确定所述指令语音及所述应答语音；

根据指令语音的结束时间和所述应答语音的开始时间，确定语音响应时间；

根据指令语音的结束时间、及第一目标抽样图像的出现时间，确定界面图像响应时间。

在本申请一方面实施例一种可能的实现方式中，在从所述测试视频中分离出第一音频数据之前，还包括：

播放第二音频数据，以使车载终端对所述第二音频数据中的测试指令进行应答，拍摄所述车载终端的应答过程，以生成测试视频。

本申请另一方面实施例提出了一种语音测试装置，包括：

语音分离模块，用于从测试视频中分离出第一音频数据；

解析模块，用于确定所述第一音频数据中每段语音的开始时间和/或结束时间；

抽样模块，用于从所述测试视频中获取多张抽样图像；

第一确定模块，用于根据所述多张抽样图像和参考图像，确定第一目标抽样图像和所述第一目标抽样图像在所述测试视频中的出现时间；

第二确定模块，用于根据所述每段语音的所述开始时间和/或所述结束时间、所述第一目标抽样图像的出现时间，确定语音响应时间及界面图像响应时间。

在本申请另一方面实施例一种可能的实现方式中，所述第一确定模块，用于：

根据所述参考图像与每张抽样图像之间的匹配度，确定第二目标抽样图像；

在所述第一开始位置索引和结束位置索引之间的抽样图像或测试视频中进行查找，以确定所述第一目标抽样图像对应的第二开始位置索引；

根据所述第二开始位置索引和抽样时间间隔，确定所述第二目标抽样图像的出现时间，其中，所述抽样时间间隔为从所述测试视频中获取多张抽样图像所采用的抽样间隔。

在本申请另一方面实施例一种可能的实现方式中，第一音频数据包括指令语音及对应的应答语音，所述第二确定模块，用于：

根据每段语音对应的文本内容，确定指令语音及应答语音；

在本申请另一方面实施例一种可能的实现方式中，所述装置还包括：

播放模块，用于播放第二音频数据，以使车载终端对所述第二音频数据中的测试指令进行应答，拍摄所述车载终端的应答过程，以生成测试视频。

本申请另一方面实施例提出了一种计算机设备，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如上述一方面实施例所述的语音测试方法。

本申请另一方面实施例提出了一种测试系统，该测试系统包括上述计算机设备。

本申请另一方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述一方面实施例所述的语音测试方法。

本申请另一方面实施例提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述一方面实施例所述的语音测试方法的步骤。

本申请实施例的语音测试方法、装置、计算机设备和存储介质，通过从测试视频中分离出第一音频数据，并确定第一音频数据中每段语音的开始时间和/或结束时间，从测试视频中获取多张抽样图像，根据多张抽样图像和参考图像，确定第一目标抽样图像在测试视频中的出现时间，并根据每段语音的开始时间和/或结束时间、第一目标抽样图像的出现时间，确定语音响应时间和界面图像响应时间，实现了自动化测试语音响应时间和图像响应时间，提高了测试的准确性，节省了人力，提高了测试效率。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的一种语音测试方法的流程示意图；

图2为本申请实施例提供的另一种语音测试方法的流程示意图；

图3为本申请实施例提供的另一种语音测试方法的流程示意图；

图4为本申请实施例提供的一种测试视频中各段语音和界面图像的出现时间的示意图；

图5为本申请实施例提供的另一种语音测试方法的流程示意图；

图6为本申请实施例提供的一种语音测试装置的结构示意图；

图7为本申请实施例提供的一种用于语音测试的计算机设备的框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的语音测试方法、装置、计算机设备和存储介质。

图1为本申请实施例提供的一种语音测试方法的流程示意图。

本申请实施例的语音测试方法，可以由本申请实施例的语音测试装置执行，该装置可配置于计算机设备中，以通过从测试视频中分离出第一音频数据，并确定第一音频数据中每段语音的开始时间和/或结束时间，从测试视频中获取多张抽样图像，根据多张抽样图像和参考图像，确定第一目标抽样图像在测试视频中的出现时间，并根据每段语音的开始时间和/或结束时间、第一目标抽样图像的出现时间，确定语音响应时间和界面图像响应时间，实现了自动化测试语音响应时间和图像响应时间，提高了测试的准确性，节省了人力，提高了测试效率。

如图1所示，该语音测试方法包括：

步骤101，从测试视频中分离出第一音频数据。

本申请中的测试视频是指车载终端对语音测试指令进行响应的过程的视频。其中，测试指令可以包括唤醒指令、控制指令等。比如，测试视频为人对车载终端发出唤醒指令，车载终端接收唤醒指令并对唤醒指令进行响应的过程进行拍摄得到的视频。

本申请中，可以采用现有分离数字音频的相关技术对测试视频进行语音分离，以从测试视频中分离整个测试视频的音频数据，为了便于区分，这里称为第一音频数据。

步骤102，确定第一音频数据中每段语音的开始时间和/或结束时间。

本申请中，第一音频数据中包括至少一段语音。在获取第一音频数据后，可以对第一音频数据进行解析，确定第一音频数据中的空白语音，之后根据空白语音确定第一音频数据中每段语音的开始时间和结束时间，即确定每段语音在测试视频中所处的时间段。

或者，也可以采用现有分离音频的相关技术，比如FFmpeg等，从第一音频数据中分离出每段语音，并确定每段语音的开始时间和/或结束时间。

其中，每段语音的开始时间可以是指每段语音中第一个字对应的时间，每段语音的结束时间可以是指每段语音中尾字对应的时间。

步骤103，从测试视频中获取多张抽样图像。

在实际应用中，车载终端在进行语音响应时，车载终端的界面也可能会对语音指令进行响应。比如，人对车载终端说“今天天气怎么样”，车载终端的界面上显示“今天天气怎么样”的字样。

为了确定车载终端的界面图像响应时间，本申请中，可以确定界面响应对应的图像在测试视频中开始出现的时间。比如，确定测试指令“今天天气怎么样”文字上屏的开始时间。

由于测试视频中包含大量图像，为了提高了测试效率，本申请中可以每隔抽样时间间隔对测试视频进行抽样处理，以获取多张抽样图像。在实现时，可以使用视频转图片技术，将测试视频中的图像按照每隔预设时间间隔截图并保存，从而得到多张抽样图像。其中，抽样时间间隔可以根据需要设定，比如8毫秒或者10毫秒等。

为了便于测试，本申请中，可以按照抽样图像在测试视频中出现的先后顺序进行编号，得到每张抽样图像对应的索引。比如，从测试视频中抽取了100张图像，可以从0开始编号，第100张图像的编号为99，即抽样图像的索引范围为0-99，或者也可以从1开始编号，抽样图像的索引范围为1-100。

或者，也可以在获取每张抽样图像时，记录每张抽样图像在测试视频中的时间点。

步骤104，根据多张抽样图像和参考图像，确定第一目标抽样图像和第一目标抽样图像在测试视频中的出现时间。

本申请中，测试视频中可以包含至少一个测试指令，每个测试指令可具有对应的参考图像，其中，参考图像是指车载终端对测试指令进行响应时的界面显示图像。需要说明的是，一个测试指令可以对应一张或多张参考图像，不同的参考图像对应的不同的界面响应。比如，测试指令“今天天气怎么样”对应两张参考图像，一张是“今天天气怎么样”文字上屏的图像，另一张是车载终端执行测界面图像，即界面显示天气查询结果的图像。

本申请中，可以利用每个测试指令对应的参考图像在多张抽样图像中进行查找，以确定与参考图像匹配的抽样图像，即第一目标抽样图像，在测试视频中的出现时间。在实现时，可以按照抽样图像在测试视频中出现的早晚顺序依次将抽样图像与参考图像进行比对，以确定抽样图像与参考图像之间的匹配度。在某张抽样图像与参考图像之间的匹配度大于预设阈值、且该抽样图像的前一张抽样图像与参考图像的匹配度小于或等于预设阈值时，那么该抽样图像在测试视频中的时间点，即为该抽样图像在测试视频中的出现时间。

可以理解的是，若某测试指令对应多张参考图像，可以利用上述方式确定与每张参考图像匹配的第一目标抽样图像在测试视频中的出现时间。

步骤105，根据每段语音的开始时间和/或结束时间、第一目标抽样图像的出现时间，确定语音响应时间及界面图像响应时间。

本申请中，可以按照时间的早晚顺序对每段语音和第一目标抽样图像进行排序。由于通常与测试指令所属的语音相邻的后一段语音为应答语音，那么可以根据应答语音的开始时间与测试指令所属语音的结束时间之间的差值，确定语音响应时间，根据第一目标抽样图像的出现时间与测试指令所属语音的结束时间之间的差值，确定界面图像响应时间。

本申请实施例中，通过从测试视频中分离出第一音频数据，并确定第一音频数据中每段语音的开始时间和/或结束时间，从测试视频中获取多张抽样图像，根据多张抽样图像和参考图像，确定第一目标抽样图像在测试视频中的出现时间，并根据每段语音的开始时间和/或结束时间、第一目标抽样图像的出现时间，确定语音响应时间和界面图像响应时间，提高了测试的准确性，节省了人力，提高了测试效率，并且实现了语音响应时间和图像响应时间的计算。

在本申请的一个实施例中，针对分离出的每段语音，还可以采用语音转内容SDK(Software Development Kit，软件开发工具包)将每段语音转换为文本内容。

进一步地，在从第一音频数据中分离出每段语音之前，可以采用滤波器或者降噪软件等对第一音频数据进行降噪处理，比如将低于-35DB的噪音和杂音去掉等，从处理后的语音数据中提取每段语音，以减少每段语音中的噪音，提高测试了测试的准确性。

在实际应用中，录制的测试视频中可能包含当前测试环境周围其他人员的语音。基于此，为了提高测试准确性，在获取每段语音对应的文本内容后，可以将文本内容与预设的文本指令库中的文本内容，及应答语音库中的文本内容进行比对，以对文本内容进行校验，确定每段语音是否为语音指令或者车载终端的语音响应。比如，某段语音的文本内容为“在呢”，与应答语音库中某个文本内容匹配，可以认为该段语音校验通过。

如果任一一段语音对应的文本内容未校验通过的情况下，说明该段语音不是语音指令或者车载终端的应答语音，那么可以将该段进行筛除。

由此，通过对每段语音对应的文本内容进行验证，将不是语音测试所需的语音段删除，以使剩余的语音段均是语音测试所需的语音，利用剩余的多段语音的开始时间和结束时间、及剩余的每段语音对应的文本内容，确定每个测试指令的语音响应时间和界面图像响应时间，从而提高了测试的准确性和测试的稳定性。

图2为本申请实施例提供的另一种语音测试方法的流程示意图。

如图2所示，该语音测试方法包括：

步骤201，从测试视频中分离出第一音频数据。

步骤202，确定第一音频数据中每段语音的开始时间和/或结束时间、及每段语音对应的文本内容。

步骤203，从测试视频中获取多张抽样图像。

本申请中，步骤201-步骤203与上述实施例中记载的方法类似，故在此不再赘述。

步骤204，根据参考图像与每张抽样图像之间的匹配度，确定第二目标抽样图像。

本申请中，每张抽样图像具有对应的索引，可以计算参考图像与每张抽样图像之间的匹配度，可以从多张抽样图像中确定出匹配度大于预设阈值的多张候选抽样图像，可以将出现时间最早的候选抽样图像作为第二目标抽样图像。

步骤205，根据第二目标抽样图像，确定第一开始位置索引和结束位置索引。

在确定第二目标抽样图像后，可以将第二目标抽样图像对应的索引作为结束位置索引，从结束位置索引开始向前预设步长，以得到第一开始位置索引。其中，第一开始位置索引对应的抽样图像与参考图像的匹配度小于阈值。

比如，第二目标抽样图像对应的索引为100，从索引100开始向前步长10，即索引90，可以将索引90作为第一开始位置索引，将索引100作为结束位置索引。

步骤206，在第一开始位置索引和结束位置索引之间的抽样图像或测试视频中进行查找，以确定第一目标抽样图像对应的第二开始位置索引。

在实际应用中，由于抽样图像受到测试当时环境的光线等的影响，通过参考图像找到的第二目标抽样图像不一定准确。

本申请中，若参考图像为包含文字的界面图像，用于查找这些文字第一次全部显示在界面上的抽样图像，那么在确定第一开始位置索引和结束位置索引后，可以在第一开始位置索引和结束位置索引区间内，通过OCR(Optical Character Recognition，光学字符识别)的二分查找算法，查找与参考图像匹配的第一目标抽样图像对应的第二开始位置索引。

比如，第一开始位置索引为90，结束位置索引为100，可以通过OCR方式在索引90到100范围之间进行查找。

由于通过OCR查找的优点是查找准确，但耗时较长，而利用参考图像对比的优点是耗时较少，但准确度稍差。因此，可以通过结合参考图像和OCR两种方式进行查找。同时，由于抽样图像较多，可先通过参考图像确定一定的范围，之后再通过OCR查找，以便提高效率。由此，通过结合两种参考图像和OCR两种方式进行查找，兼顾了效率和准确性。

或者，也可以从第一开始位置索引开始，将第一开始位置索引与结束位置索引之间的抽样图像依次输入至预先训练得到的图像识别模型，直至查找到与参考图像匹配的概率大于预设概率的第二目标抽样图像，那么第二目标抽样图像对应的索引为第二开始位置索引。

比如，第一开始位置索引为90，结束位置索引为100，可以将索引为90的抽样图像输入至图像识别模型，以确定该抽样图像与参考图像的匹配概率，若匹配概率大于预设概率，那么该抽样图像为第二目标抽样图像，第二开始位置索引为90。若匹配概率小于或等于预设概率，将索引为91的抽样图像输入至图像识别模型，若索引为91的抽样图像对应的匹配概率大于预设概率，则91为第二开始位置索引。若索引为91的抽样图像对应的匹配概率小于或等于预设概率，则将索引为92的抽样图像输入至图像识别模型中，直至完成对索引为99的抽样图像对应的匹配概率的判断。可以理解的是，若索引90到99之间的抽样图像对应的匹配概率均小于预设概率，那么索引100对应的抽样图像为第二目标抽样图像，结束位置索引100即为第二开始位置索引。

为了进一步提高准确性，也可以按照一定的抽样时间间隔对第一开始位置索引和结束位置索引之间的测试视频片段进行抽样，这里所用抽样时间间隔小于对整个测试视频进行抽样所用的时间间隔。之后，可以利用OCR或图像识别模型在该测试视频片段中的多张抽样图像中查找，以确定第一目标抽样图像对应的第二开始位置索引，这里的第二开始位置索引是指在测试视频片段的多张抽样图像中的索引。

由于图像显示装置有显示延时，或界面设置有动画效果，可能使得界面图像的出现过程是由模糊到清晰或由浅到深，为了更准确的识别第一张与参考图像匹配的抽样图像，还可在查找索引时先对抽样图像进行锐化、对比度、饱和度或亮度的调整，以加强抽样图像内的图像或文字显示，方便识别和匹配。

步骤207，根据第二开始位置索引和抽样时间间隔，确定第一目标抽样图像对应的开始时间。

本申请中，可以根据抽样图像对应的索引，确定获取抽样图像所经历的抽样间隔的数量，那么可以根据第二开始位置索引和抽样时间间隔，确定参考图像在测试视频中的出现时间，即确定每张参考图像对应的开始时间。

步骤208，根据每段语音的开始时间和/或结束时间、第一目标抽样图像的出现时间，确定每个测试指令对应的语音响应时间及界面图像响应时间。

本申请中，步骤208与上述步骤105类似，故在此不再赘述。

本申请实施例中，在根据多张抽样图像和参考图像，确定第一目标抽样图像和第一目标抽样图像在测试视频中的出现时间时，可以先根据每张参考图像与每张抽样图像之间的匹配度，确定第二目标抽样图像，根据第二目标抽样图像，确定第一开始位置索引和结束位置索引，再在第一开始位置索引和结束位置索引之间的抽样图像或测试视频中进行查找，以确定第一目标抽样图像对应的第二开始位置索引，最后根据第二开始位置索引和抽样时间间隔，确定第一目标抽样图像对应的开始时间。由此，先通过利用参考图像在多张抽样图像中进行查找，确定一个索引范围，再在索引范围内查找，确定最终的开始位置索引，从而通过结合两种方式进行查找，兼顾了效率和准确性。

图3为本申请实施例提供的另一种语音测试方法的流程示意图。

如图3所示，该语音测试方法包括：

步骤301，从测试视频中分离出第一音频数据。

步骤302，确定第一音频数据中每段语音的开始时间和/或结束时间。

步骤303，从测试视频中获取多张抽样图像。

步骤304，根据多张抽样图像和参考图像，确定第一目标抽样图像和第一目标抽样图像在测试视频中的出现时间。

本申请中，步骤301-步骤304与上述步骤101-步骤104类似，故在此不再赘述。

步骤305，对每段语音进行语音识别，以获取每段语音对应的文本内容。

本申请中，第一音频数据可以包含至少一段语音，在对第一音频数据进行分离得到至少一段语音后，可以对每段语音进行语音识别，以获取每段语音对应的文本内容。

步骤306，根据每段语音对应的文本内容，确定指令语音及对应的应答语音。

本申请中，第一音频数据中可以包括指令语音及对应的应答语音。其中，指令语音是指文本内容与测试指令对应的文本内容一致的语音，应答语音是指对指令语音进行应答的语音。

需要说明的是，第一音频数据中可以包括一组指令语音及对应的应答语音，也可以包括多组指令语音及对应的应答语音。其中，每组指令语音及对应的应答语音对应一个测试指令，即一个测试指令具有对应的指令语音和应答语音。

本申请中，可以对每段语音对应的文本内容进行语义识别，确定每段语音所属的类型，比如是指令语音还是语音应答。若某段语音为指令语音，那么可以对该段语音之后的语音进行语义识别，以确定该指令语音对应的应答语音。

或者，也可以将每段语音对应的文本内容分别与预设的文本指令库中指令及应答语音库中的文本内容进行比对，以确定每段语音所属的类型。其中，所属的类型包括指令语音、应答语音等。

步骤307，根据指令语音的结束时间和应答语音的开始时间，确定语音响应时间。

本申请中，可以将每个测试指令对应的应答语音的开始时间与对应的指令语音的结束时间之间的差值，作为每个测试指令对应的语音响应时间。

步骤308，根据指令语音的结束时间、及第一目标抽样图像的出现时间，确定界面图像响应时间。

本申请中，每个测试指令可以具有对应的参考图像，根据参考图像和多张抽样图像，可以确定第一目标抽样图像在测试视频中的出现时间，那么可以将每个测试指令对应的第一目标抽样图像的出现时间与每个测试指令所属的语音的结束时间之间的差值，作为每个测试指令对应的界面图像响应时间。

为了便于理解，下面结合图4说明响应时间的计算过程，图4为本申请实施例提供的一种测试视频中各段语音和界面图像的出现时间的示意图。

如图4所示，第一段语音为“A同学”，第二段语音为“在呢”，第三段语音为“今天天气怎么样”，第四段语音为“今天天气晴，最高温度28度”，第一张图像为UI(UserInterface，用户界面)动画首帧，即界面显示“A同学”字样的图像，第二张图像为“今天天气怎么样”文字上屏图像，第三张图像为执行界面首帧。通过对四段语音进行语义识别，可以确定第一段语音为唤醒指令所属的语音，第二段语音为唤醒应答语音，第三段语音为控制指令所属的语音，第四段语音为控制指令的应答语音。

在计算唤醒指令的响应时间时，可以将第二段语音“在呢”的开始时间减去第一段语音“A同学”的结束时间，到唤醒指令的语音响应时间，即3.1-2.6＝0.5秒；将UI动画首帧的开始时间减去第一段语音“A同学”的结束时间，得到唤醒指令的界面图像响应时间，即3.0-2.6＝0.4秒。

在计算控制指令“今天天气怎么样”的响应时间时，可以将文字上屏图像的出现时间减去控制指令“今天天气怎么样”的结束时间，得到该控制指令对应的文字上屏的界面图像响应时间，即7.5-6.9＝0.6秒；将控制指令的应答语音的开始时间减去控制指令“今天天气怎么样”的结束时间，得到控制指令对应的文字上屏响应时间即，8.8-6.9＝2.2秒；将执行界面首帧的出现时间减去控制指令“今天天气怎么样”的结束时间，得到控制指令对的执行界面图像响应时间，即14.4-6.9＝7.5秒。

本申请实施例中，第一音频数据可以包括指令语音及应答语音，在根据每段语音的开始时间和/或结束时间、第一目标抽样图像的出现时间，确定语音响应时间及界面图像响应时间时，可以通过对每段语音进行识别，以获取每段语音对应的文本内容；根据每段语音对应的文本内容，确定指令语音及应答语音；根据指令语音的结束时间和应答语音的开始时间，确定语音响应时间；根据指令语音的结束时间、及第一目标抽样图像的出现时间，确定界面图像响应时间。由此，不仅可以确定出语音响应时间，也可以计算出界面图像响应时间，丰富了语音测试的多样化。

图5为本申请实施例提供的另一种语音测试方法的流程示意图。

如图5所示，该语音测试方法包括：

步骤501，获取第二音频数据。

本申请中，测试人员可以录制语音测试指令，得到第二音频数据，之后将第二音频数据进行上传到计算机设备，由此计算机设备获取第二音频数据。比如，录制唤醒指令“A同学”和控制指令“今天天气怎么样”，得到相应的音频数据。

进一步地，计算机设备可以对获取的第二音频数据进行标准化处理，比如，保证语音的最高音和最低音在一定区间、过滤掉多余杂音等，以提高测试的准确性。

步骤502，播放第二音频数据，以使车载终端对第二音频数据中的测试指令进行应答，拍摄车载终端的应答过程，以生成测试视频。

在获取第二音频数据后，可以利用脚本在车辆内播放第二音频数据，以使车载终端对第二音频数据中的每个测试指令进行应答，并拍摄车载终端的应答过程，以生成测试视频。或者，也可以利用高分辨率的录像机、手机等终端设备拍摄应答过程得到测试视频，之后从终端设备拍获取测试视频。

步骤503，从测试视频中分离出第一音频数据。

步骤504，确定第一音频数据中每段语音的开始时间和/或结束时间。

步骤505，从测试视频中获取多张抽样图像。

步骤506，根据多张抽样图像和参考图像，确定第一目标抽样图像和第一目标抽样图像在测试视频中的出现时间。

步骤507，根据每段语音的开始时间和/或结束时间、第一目标抽样图像的出现时间，确定语音响应时间及界面图像响应时间。

本申请中，步骤503-步骤507与上述步骤101-步骤105类似，故在此不再赘述。

本申请实施例中，在从测试视频中分离出第一音频数据之前，可以通过播放第二音频数据，以使车载终端对第二音频数据中的测试指令进行应答，拍摄车载终端的应答过程，以生成测试视频。由此，通过播放包含测试指令的音频数据，并拍摄车载终端的响应过程，得到测试视频，通过对测试视频进行处理，确定测试指令的语音响应时间和界面图像响应时间，实现了全程不需要人工参与，自动化完成端到端的语音响应测试，节省了人力，提高了测试效率，并且完全端到端测试不占用车机资源，不会影响车载语音交互系统响应时间，提高了测试的准确性，也可以快速查看测试场景，供原因分析。

为了实现上述实施例，本申请实施例还提出一种语音测试装置。图6为本申请实施例提供的一种语音测试装置的结构示意图。

如图6所示，该语音测试装置600包括：语音分离模块610、解析模块620、抽样模块630、第一确定模块640和第二确定模块650。

语音分离模块610，用于从测试视频中分离出第一音频数据；

解析模块620，用于确定所述第一音频数据中每段语音的开始时间和/或结束时间；

抽样模块630，用于从所述测试视频中获取多张抽样图像；

第一确定模块640，用于根据所述多张抽样图像和参考图像，确定第一目标抽样图像和所述第一目标抽样图像在所述测试视频中的出现时间；

第二确定模块650，用于根据所述每段语音的所述开始时间和/或所述结束时间、所述第一目标抽样图像的出现时间，确定语音响应时间及界面图像响应时间。

在本申请实施例一种可能的实现方式中，所述第一音频数据包括指令语音及对应的应答语音，所述第二确定模块650，用于：

根据所述每段语音对应的文本内容，确定指令语音及对应的应答语音；

根据所述指令语音的结束时间和所述应答语音的开始时间，确定所述语音响应时间；

根据所述指令语音的结束时间、及所述第一目标抽样图像的出现时间，确定所述界面图像响应时间。

在本申请实施例一种可能的实现方式中，所述第一确定模块640，用于：

在本申请实施例一种可能的实现方式中，该装置还可以包括：

播放模块，用于播放所述第二音频数据，以使车载终端对所述第二音频数据中的测试指令进行应答，拍摄所述车载终端的应答过程，以生成测试视频；

需要说明的是，上述对语音测试方法实施例的解释说明，也适用于该实施例的语音测试装置，故在此不再赘述。

本申请实施例的语音测试装置，通过从测试视频中分离出第一音频数据，并确定第一音频数据中每段语音的开始时间和/或结束时间，从测试视频中获取多张抽样图像，根据多张抽样图像和参考图像，确定第一目标抽样图像在测试视频中的出现时间，并根据每段语音的开始时间和/或结束时间、第一目标抽样图像的出现时间，确定语音响应时间和界面图像响应时间，实现了自动化测试语音响应时间和图像响应时间，提高了测试的准确性，节省了人力，提高了测试效率，并且实现了语音响应时间和图像响应时间的计算。

如图7所示，该计算机设备700包括：

存储器710及处理器720，连接不同组件(包括存储器710和处理器720)的总线730，存储器710存储有计算机程序，当处理器720执行所述程序时实现本公开实施例所述的房屋测绘文件处理方法。

总线730表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备700典型地包括多种计算机设备可读介质。这些介质可以是任何能够被计算机设备700访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器710还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)740和/或高速缓存存储器750。计算机设备700可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统760可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线730相连。存储器710可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块770的程序/实用工具780，可以存储在例如存储器710中，这样的程序模块770包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块770通常执行本公开所描述的实施例中的功能和/或方法。

计算机设备700也可以与一个或多个外部设备790(例如键盘、指向设备、显示器791等)通信，还可与一个或者多个使得用户能与该计算机设备700交互的设备通信，和/或与使得该计算机设备700能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口792进行。并且，计算机设备700还可以通过网络适配器793与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器793通过总线730与计算机设备700的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器720通过运行存储在存储器710中的程序，从而执行各种功能应用以及数据处理。

需要说明的是，本实施例的计算机设备的实施过程和技术原理参见前述对本申请实施例的语音测试方法的解释说明，此处不再赘述。

为了实现上述实施例，本申请实施例还提出一种测试系统，包括上述计算机700，计算机设备执行如上述实施例所述的语音测试方法。

为了实现上述实施例，本申请实施例还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所述的语音测试方法。

为了实现上述实施例，本申请还提供一种计算机程序产品，该计算机程序由计算机设备的处理器执行时，使得计算机设备能够执行如前所述的语音测试方法。

在本说明书的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音测试方法，其特征在于，包括：

从测试视频中分离出第一音频数据；

从所述测试视频中获取多张抽样图像；

根据所述多张抽样图像和参考图像，确定第一目标抽样图像和所述第一目标抽样图像在所述测试视频中的出现时间；

根据所述每段语音的所述开始时间和/或所述结束时间、所述第一目标抽样图像的出现时间，确定语音响应时间及界面图像响应时间。

2.如权利要求1所述的方法，其特征在于，所述第一音频数据包括指令语音及对应的应答语音，所述根据所述每段语音的所述开始时间和/或所述结束时间、所述第一目标抽样图像的出现时间，确定语音响应时间及界面图像响应时间，包括：

根据所述每段语音对应的文本内容，确定所述指令语音及所述应答语音；

3.如权利要求1所述的方法，其特征在于，所述根据所述多张抽样图像和参考图像，确定第一目标抽样图像和所述第一目标抽样图像在所述测试视频中的出现时间，包括：

在所述第一开始位置索引和结束位置索引之间的所述抽样图像或所述测试视频中进行查找，以确定所述第一目标抽样图像对应的第二开始位置索引；

根据所述第二开始位置索引和抽样时间间隔，确定所述第一目标抽样图像的出现时间，其中，所述抽样时间间隔为从所述测试视频中获取多张抽样图像所采用的抽样间隔。

4.如权利要求1-3任一所述的方法，其特征在于，在从测试视频中分离出第一音频数据之前，还包括：

播放第二音频数据，以使车载终端对所述第二音频数据中的测试指令进行应答，拍摄所述车载终端的应答过程，以生成所述测试视频。

5.一种语音测试装置，其特征在于，包括：

语音分离模块，用于从测试视频中分离出第一音频数据；

抽样模块，用于从所述测试视频中获取多张抽样图像；

6.如权利要求5所述的装置，其特征在于，所述第一音频数据包括指令语音及对应的应答语音，所述第二确定模块，用于：

7.如权利要求5所述的装置，其特征在于，所述第一确定模块，用于：

8.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-4中任一所述的方法。

9.一种测试系统，其特征在于，包括所述权利要求8所述的计算机设备。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。

11.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-4中任一项所述方法的步骤。