CN113516965B

CN113516965B - 一种语音测试方法、计算机设备及可读存储介质

Info

Publication number: CN113516965B
Application number: CN202010278305.4A
Authority: CN
Inventors: 孙振芳; 黄世富; 白俊杰
Original assignee: Beijing Dongzhou Technology Co ltd
Current assignee: Beijing Dongzhou Technology Co ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2023-09-12
Anticipated expiration: 2040-04-10
Also published as: CN113516965A

Abstract

本申请提供了一种语音测试方法、计算机设备及可读存储介质，该方法包括接收音频测试文件，音频测试文件包括主叫终端发出的唤醒语音及被叫终端响应唤醒语音发出的回复语音；解析音频测试文件以生成测试音频波形曲线；根据测试音频波形曲线计算唤醒语音的结束时间及回复语音的开始时间的差值，以得到被叫终端的响应时间。通过上述方法，本申请能够减少测试误差，降低人工成本，提高测试结果的一致性及测试效率。

Description

一种语音测试方法、计算机设备及可读存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种语音测试方法、计算机设备及可读存储介质。

背景技术

随着人工智能技术的发展，机器能识别的东西越来越多，除了方便我们的日常生活外，同时也给语音这种交互方式带来了更多的实现可能，目前市面上带有语音交互的智能硬件层穷不出，比如手机、音箱、车机以及家电等，但是用户在使用语音交互功能时绝大多数情况都会觉得语音唤醒迟钝。

目前为了量化具体的唤醒延迟时间，一般采用人工掐表的方式进行判断，但是这种方法误差较大，且不同人的测试结果不同，导致测试一致性较差。

发明内容

本申请主要是提供一种语音测试方法、计算机设备及可读存储介质，能够减少测试误差，降低人工成本，提高测试结果的一致性及测试效率。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音测试方法，所述方法包括：接收音频测试文件，所述音频测试文件包括主叫终端发出的唤醒语音及被叫终端响应所述唤醒语音发出的回复语音；解析所述音频测试文件以生成测试音频波形曲线；根据所述测试音频波形曲线计算所述唤醒语音的结束时间及所述回复语音的开始时间的差值，以得到所述被叫终端的响应时间。

其中，所述解析所述音频测试文件以根据所述唤醒语音的结束时间及所述回复语音的开始时间计算所述被叫终端的响应时间的步骤之后还包括：获取多次计算得到的多个响应时间，并计算所述多个响应时间的平均值。

其中，所述根据所述测试音频波形曲线计算所述唤醒语音的结束时间及所述回复语音的开始时间的差值，以得到所述被叫终端的响应时间的步骤包括：获取所述测试音频波形曲线的幅值；在所述测试音频波形曲线的时间轴方向上依次选择所述幅值的绝对值等于阈值幅值且相邻的第一时刻及第二时刻，所述第一时刻的前一时刻及所述第二时刻的后一时刻的幅值的绝对值大于所述阈值幅值；判断所述第二时刻与所述第一时刻之间的差值是否大于或等于阈值时间值；若是，则将所述差值作为所述被叫终端的响应时间。

其中，所述阈值幅值的设置方法包括：采集环境声音，以生成环境音频波形曲线；获取所述环境音频波形曲线的幅值，以计算所述幅值的绝对值的平均值作为底噪值，在所述底噪值的基础上增加预设判断幅值，并将其作为所述阈值幅值。

其中，所述根据所述测试音频波形曲线计算所述唤醒语音的结束时间及所述回复语音的开始时间的差值，以得到所述被叫终端的响应时间的步骤包括：在所述测试音频波形曲线的波形中选择分别与所述唤醒语音及所述回复语音对应的第一波形区及第二波形区；在所述测试音频波形曲线的时间轴方向上确定所述第一波形区的右边界对应的时间作为所述结束时间，所述第二波形区的左边界对应的时间作为所述开始时间；计算所述开始时间与所述结束时间的差值以得到所述被叫终端的响应时间。

其中，所述在所述测试音频波形曲线的波形中选择分别与所述唤醒语音及所述回复语音对应的第一波形区及第二波形区的步骤包括：获取所述唤醒语音的第一预设音频波形曲线及所述回复语音的第二预设音频波形曲线；在所述测试音频波形曲线的波形中选择分别与所述第一预设音频波形曲线及所述第二预设音频波形曲线匹配的两段波形区作为所述第一波形区及所述第二波形区。

其中，所述接收音频测试文件的步骤之前还包括：向所述主叫终端发送唤醒指令，以使得所述主叫终端发出所述唤醒语音。

其中，所述接收音频测试文件的步骤之前还包括：向拾音器发送采集指令，以使得所述拾音器采集所述唤醒语音及所述回复语音；所述接收音频测试文件的步骤包括：接收所述拾音器发送的音频测试文件。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机设备，所述计算机设备包括处理器以及存储器，所述存储器存储有计算机指令，所述处理器耦合所述存储器，所述处理器在工作时执行所述计算机指令以实现如上述的方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如上述的方法。

本申请的有益效果是：区别于现有技术的情况，本申请通过接收音频测试文件，音频测试文件包括主叫终端发出的唤醒语音及被叫终端响应唤醒语音发出的回复语音；解析音频测试文件以生成测试音频波形曲线；根据测试音频波形曲线计算唤醒语音的结束时间及回复语音的开始时间的差值，以得到被叫终端的响应时间的方法，相比于人工测试的方法，减少测试误差，降低人工成本，提高测试结果的一致性及测试效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本申请提供的语音测试方法第一实施例的流程示意图；

图2是图1中步骤S11一实施方式的原理示意图；

图3是图1中步骤S11另一实施方式的原理示意图；

图4是图1中步骤S12的测试音频波形曲线图；

图5是图1中步骤S13一实施方式的具体流程示意图；

图6是图5中步骤S132中阈值幅值的设置方法一实施方式的具体流程示意图；

图7是图1中步骤S13另一实施方式的具体流程示意图；

图8是图7中步骤S13a一实施方式的具体流程示意图；

图9是本申请提供的语音测试方法第二实施例的流程示意图；

图10是本申请提供的计算机设备实施例的示意框图；

图11是本申请提供的计算机可读存储介质实施例的示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1是本申请提供的语音测试方法第一实施例的流程示意图，本实施例中的语音测试方法包括：

S11：接收音频测试文件；

请参阅图2，图2是图1中步骤S11一实施方式的原理示意图，其中，上述的音频测试文件包括主叫终端110发出的唤醒语音及被叫终端120响应唤醒语音发出的回复语音。

具体的，主叫终端110是一种可以发出语音的智能设备，比如人工嘴，人工嘴一种特殊的人工声源，亦称人工嘴或人造嘴，它是用一只小型扬声器安装在特殊形状的障板上构成的，障板形状的设计是使其模拟人嘴的平均指向性和辐射图案，且仿真嘴必须要有恒定的声压输出，被叫终端120是本实施例中用于进行语音测试的被测试设备，比如手机、音箱、车机、家电等，在测试过程中，主叫终端110发出唤醒语音，比如“小爱同学”，可以理解的，该唤醒语音预先设置，当被叫终端120接收到该唤醒语音后，响应该唤醒语音并发出回复语音，比如回复“我在”，计算机设备130即可通过自身的拾音模块采集主叫终端110发出的唤醒语音以及被叫终端120发出的回复语音。

可选的，在一具体应用场景中，步骤S11中的计算机设备130接收音频测试文件之前，向主叫终端110发出唤醒指令，以使得主叫终端110发出唤醒语音，也即计算机设备130与主叫设备110通信连接，在测试过程中，通过计算机设备130控制主叫终端110发出唤醒语音，而不需要对主叫终端110进行人工操作来使其发出唤醒语音。

请参阅图3，图3是图1中步骤S11另一实施方式的原理示意图，在该另一实施方式中，当主叫终端110发出唤醒语音及被叫终端120发出回复语音时，通过拾音器140采集该唤醒语音及回复语音以生成音频测试文件，拾音器140与计算机设备130通信连接，以使得计算机设备130接收拾音器140发送的音频测试文件。

在一具体应用场景中，步骤S11中的计算机设备130接收音频测试文件之前，向拾音器140发送采集指令，以使得拾音器140采集唤醒语音及回复语音，也即通过计算机设备130控制拾音器140进行工作，而不需要对拾音器140进行人工操作。

进一步参阅图1，本实施例中的语音测试方法还包括：

S12：解析音频测试文件以生成测试音频波形曲线；

请参阅图4，图4是图1中步骤S12的测试音频波形曲线图，其中，该测试音频波形曲线包括波形、时间轴及幅值轴，该测试音频波形曲线表示波形随着时间变化，其幅值随之变化的关系。

进一步参阅图1，本实施例中的语音测试方法还包括：

S13：根据测试音频波形曲线计算唤醒语音的结束时间及回复语音的开始时间的差值，以得到被叫终端的响应时间。

请参阅图5，图5是图1中步骤S13一实施方式的具体流程示意图，在该一实施方式中，步骤S13可具体包括：

S131：获取测试音频波形曲线的幅值；

具体的，在如图4所示的测试音频波形曲线图中，根据幅值轴表示的数据获取测试音频波形曲线的幅值。

S132：在测试音频波形曲线的时间轴方向上依次选择幅值的绝对值等于阈值幅值且相邻的第一时刻及第二时刻；

其中，第一时刻的前一时刻及第二时刻的后一时刻的幅值的绝对值大于阈值幅值，在本实施例方式中，阈值幅值根据测试环境的环境噪声进行设置。

具体的，首先，在测试音频波形曲线的时间轴方向选择幅值的绝对值等于阈值幅值的第一时刻，且该第一时刻的前一时刻的幅值的绝对值大于阈值幅值，此时说明，在第一时刻时，处于唤醒语音正在进行或者唤醒语音进入到只有环境噪声的情况，处于唤醒语音进入到只有环境噪声的情况又包括了唤醒语音进行过程中出现停顿的情况或者唤醒语音结束的情况，然后，选择幅值的绝对值等于阈值幅值的第二时刻，且该第二时刻的后一时刻的幅值的绝对值大于阈值幅值，同理，说明在第二时刻时，处于唤醒语音正在进行、唤醒语音进行过程中出现停顿后又重新进入到唤醒语音或者唤醒语音结束以后回复语音开始的情况。

S133：判断第二时刻与第一时刻之间的差值是否大于或等于阈值时间值。

具体的，判断第二时刻与第一时刻之间的差值是否大于或等于阈值时间值，若大于或等于阈值时间值，则执行步骤S134，否则，返回步骤S132。

可选地，本申请阈值时间值可根据具体情况进行设置，在此不做限制。

S134：将差值作为被叫终端的响应时间。

举例来说，在本申请一具体应用场景中，阈值时间值可以设置为800ms，当然也可以是其他值，此处不做具体限定。

具体的，若检测到第二时刻与第一时刻之间的差值小于阈值时间值800ms，则可以判断上述情况处于唤醒语音正在进行或者唤醒语音进行过程中出现停顿的情况，此时说明第一时刻不是唤醒语音的结束时间，第二时刻也不是回复语音的开始时间，则返回步骤S132，选择下两个与步骤S132中同样特征的时间点。同理，若检测到当第二时刻与第一时刻之间的差值大于或等于阈值时间值800ms时，则说明第二时刻与第一时刻之间处于唤醒语音结束至回复语音开始的阶段，也即，第一时刻为唤醒语音的结束时间，第二时刻为回复语音的开始时间，两者之间的差值即为被叫终端的响应时间，比如如图4中所示的，第一时刻为t_e1，第二时刻为t_r1，那么被叫终端的响应时间即为T₁＝t_r1-t_e1。

请参阅图6，图6是图5中步骤S132中阈值幅值的设置方法一实施方式的具体流程示意图，在该一实施方式中，步骤S132可具体包括：

S1321：采集环境声音，以生成环境音频波形曲线；

具体的，可通过拾音器采集一定环境下的环境声音，并生成环境音频波形曲线，该环境音频波形曲线同样包括波形、时间轴及幅值轴。

S1322：获取环境音频波形曲线的幅值，以计算幅值的绝对值的平均值作为底噪值。

可以理解的，在具体实施的过程中，环境声音可能处于不稳定的状态，那么环境音频波形曲线的幅值也可能不是一个稳定的值，因此，选择幅值的绝对值的平均值作为底噪值。

S1323：在底噪值的基础上增加预设判断幅值，并将其作为阈值幅值。

可以理解的是，声音的消失以及开始并不是直接下降或者上升到阈值幅值，本申请在底噪值的基础上增加一预设的判断幅值，以此来作为声音的开始或结束。举例来说，当获取到的环境的底噪值(幅值)为80db，此时可以设置预设判断幅值为20db，如此在获取到测试音频波形曲线的幅值大于或者等于100db时，则可以将幅值大于或者等于100db的点作为语音开始或者结束的判断点。当然在其他实施方式中，预设判断幅值的取值可以是任意取值，此处不做具体限定。

同理，在本申请的具体实施方式中，也可以通过判断获取到测试音频波形曲线的幅值和环境的底噪值之差是否在预设的判断幅值之内，从而来确定所述测试音频波形曲线的幅值所在点是否为语音的开始或者结束的判断点。

请参阅图7，图7是图1中步骤S13另一实施方式的具体流程示意图，在该另一实施方式中，步骤S13可具体包括：

S13a：在测试音频波形曲线的波形中选择分别与唤醒语音及回复语音对应的第一波形区及第二波形区；

可以理解的，该测试音频波形曲线中包括了唤醒语音对应的波形曲线以及回复语音对应的波形曲线，那么相应的，测试音频波形曲线的波形中也包括了唤醒语音对应的波形区及回复语音对应的波形区，也即如图4中的第一波形区A1及第二波形区A2，而如果测试音频波形曲线的波形中没有包括第一波形区A1及第二波形区A2，则说明语音采集失败、唤醒语音发出失败或者回复语音发出失败，那么说明测试失败，则不计入测试结果。

请参阅图8，图8是图7中步骤S13a一实施方式的具体流程示意图，在该一实施方式中，步骤S13a可具体包括：

S131a：获取唤醒语音的第一预设音频波形曲线及回复语音的第二预设音频波形曲线；

具体的，可预先在相同环境下分别采集唤醒语音及回复语音，并生成对应的第一预设音频波形曲线及第二预设音频波形曲线，并将其存储。

S131b：在测试音频波形曲线的波形中选择分别与第一预设音频波形曲线及第二预设音频波形曲线匹配的两段波形区作为第一波形区及第二波形区。

具体的，可分别将第一预设音频波形曲线及第二预设音频波形曲线与测试音频波形曲线进行相似度比对，比如通过幅值相似度或幅值变化量相似度进行比对，并选择与第一预设音频波形曲线的相似度小于或等于预设相似度的波形区作为第一波形区A1，选择与第二预设音频波形曲线的相似度小于或等于预设相似度的波形区作为第二波形区A2。

S13b：在测试音频波形曲线的时间轴方向上确定第一波形区的右边界对应的时间作为结束时间，第二波形区的左边界对应的时间作为开始时间；

具体的，当步骤S13a中确定了唤醒语音对应的第一波形区A1及回复语音对应的第二波形区A2之后，由于在时间上，唤醒语音的发出时间在前，回复语音的发出时间在后，因此，如图4所示，在测试音频波形曲线的时间轴方向上，第一波形区A1的右边界对应的时间为唤醒语音的结束时间，第二波形区A2的左边界对应的时间作为回复语音的开始时间。

S13c：计算开始时间与结束时间的差值以得到被叫终端的相应时间。

具体的，如图4所示，第一波形区A1的右边界对应的时间为t_e1，那么该时间t_e1即为唤醒语音的结束时间，第二波形区的左边界对应的时间为t_r1，那么该时间t_r1即为回复语音的开始时间，被叫终端的相应时间即为T₁＝t_r1-t_e1。

本实施例中通过接收音频测试文件，音频测试文件包括主叫终端发出的唤醒语音及被叫终端响应唤醒语音发出的回复语音；解析音频测试文件以生成测试音频波形曲线；根据所述测试音频波形曲线计算唤醒语音的结束时间及回复语音的开始时间的差值，以得到被叫终端的响应时间的方法，相比于人工测试的方法，减少测试误差，降低人工成本，提高测试结果的一致性及测试效率。

请参阅图9，图9是本申请提供的语音测试方法第二实施例的流程示意图，本实施例中的步骤S21～S23分别与上述第一实施例中的步骤S11～S13相同，在此不再赘述，本实施例中的语音测试方法还包括：

S24：获取多次计算得到的多个响应时间，并计算多个响应时间的平均值。

具体的，通过循环使用上述实施例中步骤S11～S13的方法，计算多个响应时间，比如第一次响应时间为T₁，第二次响应时间为T₂，以此类推，第n次响应时间为T_n，那么多个响应时间的平均值T即为

本实施例中进一步通过获取多次计算得到的多个响应时间，并计算多个响应时间的平均值的方法，相比于单次计算的结果，提高测试结果的准确性。

参阅图10，图10是本申请提供的计算机设备实施例的示意框图，本实施例中的计算机设备包括处理器31及存储器32，处理器31与存储器32耦合，存储器32存储有计算机指令，处理器31在工作时执行计算机指令以实现上述任一实施例中的语音测试方法。

其中，处理器31还可以称为CPU(Central Processing Unit，中央处理单元)。处理器31可能是一种集成电路芯片，具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器，但不仅限于此。

参阅图11，图11是本申请提供的计算机可读存储介质实施例的示意框图，本实施例中的计算机可读存储介质存储有计算机程序41，该计算机程序41能够被处理器执行以实现上述任一实施例中的语音测试方法。

可选的，该可读存储介质可以是U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音测试方法，其特征在于，所述方法包括：

接收音频测试文件，所述音频测试文件包括主叫终端发出的唤醒语音及被叫终端响应所述唤醒语音发出的回复语音；

解析所述音频测试文件以生成测试音频波形曲线；

根据所述测试音频波形曲线计算所述唤醒语音的结束时间及所述回复语音的开始时间的差值，以得到所述被叫终端的响应时间；

所述根据所述测试音频波形曲线计算所述唤醒语音的结束时间及所述回复语音的开始时间的差值，以得到所述被叫终端的响应时间的步骤包括：

获取所述测试音频波形曲线的幅值；

在所述测试音频波形曲线的时间轴方向上依次选择所述幅值的绝对值等于阈值幅值且相邻的第一时刻及第二时刻，所述第一时刻的前一时刻及所述第二时刻的后一时刻的幅值的绝对值大于所述阈值幅值；

判断所述第二时刻与所述第一时刻之间的差值是否大于或等于阈值时间值；

若是，则将所述差值作为所述被叫终端的响应时间。

2.根据权利要求1所述的方法，其特征在于，所述根据所述测试音频波形曲线计算所述唤醒语音的结束时间及所述回复语音的开始时间的差值，以得到所述被叫终端的响应时间的步骤之后还包括：

获取多次计算得到的多个响应时间，并计算所述多个响应时间的平均值。

3.根据权利要求1所述的方法，其特征在于，所述阈值幅值的设置方法包括：

采集环境声音，以生成环境音频波形曲线；

获取所述环境音频波形曲线的幅值，计算所述幅值的绝对值的平均值作为底噪值；

在所述底噪值的基础上增加预设判断幅值，并将其作为所述阈值幅值。

4.根据权利要求1所述的方法，其特征在于，所述根据所述测试音频波形曲线计算所述唤醒语音的结束时间及所述回复语音的开始时间的差值，以得到所述被叫终端的响应时间的步骤包括：

在所述测试音频波形曲线的波形中选择分别与所述唤醒语音及所述回复语音对应的第一波形区及第二波形区；

在所述测试音频波形曲线的时间轴方向上确定所述第一波形区的右边界对应的时间作为所述结束时间，所述第二波形区的左边界对应的时间作为所述开始时间；

计算所述开始时间与所述结束时间的差值以得到所述被叫终端的响应时间。

5.根据权利要求4所述的方法，其特征在于，所述在所述测试音频波形曲线的波形中选择分别与所述唤醒语音及所述回复语音对应的第一波形区及第二波形区的步骤包括：

获取所述唤醒语音的第一预设音频波形曲线及所述回复语音的第二预设音频波形曲线；

在所述测试音频波形曲线的波形中选择分别与所述第一预设音频波形曲线及所述第二预设音频波形曲线匹配的两段波形区作为所述第一波形区及所述第二波形区。

6.根据权利要求1所述的方法，其特征在于，所述接收音频测试文件的步骤之前还包括：

向所述主叫终端发送唤醒指令，以使得所述主叫终端发出所述唤醒语音。

7.根据权利要求1所述的方法，其特征在于，所述接收音频测试文件的步骤之前还包括：

向拾音器发送采集指令，以使得所述拾音器采集所述唤醒语音及所述回复语音；

所述接收音频测试文件的步骤包括：

接收所述拾音器发送的音频测试文件。

8.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器，所述存储器存储有计算机指令，所述处理器耦合所述存储器，所述处理器在工作时执行所述计算机指令以实现如权利要求1～7任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行以实现如权利要求1～7任一项所述的方法。