CN108511000A

CN108511000A - 一种测试智能音箱唤醒词识别率的方法及系统

Info

Publication number: CN108511000A
Application number: CN201810181704.1A
Authority: CN
Inventors: 陈长海
Original assignee: Fuzhou Rockchip Electronics Co Ltd
Current assignee: Rockchip Electronics Co Ltd
Priority date: 2018-03-06
Filing date: 2018-03-06
Publication date: 2018-09-07
Anticipated expiration: 2038-03-06
Also published as: CN108511000B

Abstract

本发明提供一种测试智能音箱唤醒词识别率的方法和系统，测试端控制被测智能音箱播放调音音乐文件，通过分贝仪在唤醒词播放端抓取当前环境音量的分贝值，并根据该分贝值调节被测智能音箱的播放音量与测试要求相符；测试端让智能音箱播放有声内容，由所述分贝仪抓取当前环境音量的分贝值，记为参照值A，播放到特定时间点后控制所述唤醒语播放端播放唤醒词语音；由所述分贝仪在一测试周期内继续抓取当前环境音量的分贝值，记为测试值C，并将参照值A和测试值C发回测试端进行分析，并由测试端记录唤醒结果；测试端控制智能音箱变换播放的有声内容的类型及控制智能音箱变换所在位置的高度和水平方位角，重复测试。

Description

一种测试智能音箱唤醒词识别率的方法及系统

技术领域

本发明涉及一种智能设备，特别涉及一种测试智能音箱唤醒词识别率的方法及系统。

背景技术

智能语音交互是近几年的热点，亚马逊和谷歌等国际大公司先后都推出了智能音箱作为推进各自人工智能的入口。国内也有京东，百度，阿里等公司在智能领域有布局。语音识别技术发展也有二三十年的历史，只有近两三年如雨后春笋般在不同领域有应用，主要是由于硬件设备条件达到，在云端可以运行高复杂度的语音识别系统，并且识别率达到商用级别。因此，目前语音识别系统的自动化测试也有比较成熟的方法与装置，但对于设备端本地唤醒词的识别测试目前还没有公开成熟的方法，但是作为交互设备的唤醒功能，在整个交互过程中也是非常关键的一个环节，特别是作为音箱类产品，在正常播放歌曲或其他有声内容的时候唤醒设备进行交互是一个主要的场景，其识别率也是智能音箱的性能的一个重要指标。在开发或者认证阶段，都需要一个能够标准化的测试和可复现问题的测试系统来解决开发或者认证过程中遇到的一些问题。

发明内容

本发明要解决的技术问题，在于提供一种测试智能音箱唤醒词识别率的系统及系统，可以无人工的自动化长时间测试，还可以多方位、多维度进行测试，从而实现标准化的测试。

本发明方法是这样实现的：一种测试智能音箱唤醒词识别率的方法，包括：

步骤S1、测试端控制被测智能音箱播放调音音乐文件，通过分贝仪在唤醒词播放端抓取当前环境音量的分贝值，并根据该分贝值调节被测智能音箱的播放音量与测试要求相符；

步骤S2、测试端让智能音箱播放有声内容，由所述分贝仪抓取当前环境音量的分贝值，记为参照值A，播放到特定时间点后控制所述唤醒语播放端播放唤醒词语音；由所述分贝仪在一测试周期内继续抓取当前环境音量的分贝值，记为测试值C，并将参照值A和测试值C发回测试端进行分析，并由测试端记录唤醒结果。

进一步的，本发明还包括：

步骤S3、测试端控制智能音箱变换播放的有声内容的类型，重复步骤S1至S2；

步骤S4、测试端控制智能音箱变换所在位置的高度和水平方位角，重复步骤S1至S3。

进一步的，所述步骤S2的分析是：将测试值C与参照值A进行对比，若测试值C远远低于参照值A，则判断被测智能音箱已被唤醒，若测试值C接近参照值A，则判断智能音箱没有被唤醒。

进一步的，所述有声内容的类型包括流行乐，爵士乐，Radio和电子书；所述唤醒词语音由软件仿真得到，并保存在语音资源库中。

进一步的，所述唤醒词播放端为高保真喇叭；所述测试端为PC，且与被测智能音箱通过蓝牙连接；所述被测智能音箱所在位置的高度和水平方位角的变换是通过可调旋转台实现。

进一步的，所述特定时间点为10秒或20秒，所述测试周期为唤醒词语音播放完毕后的10秒。

本发明系统是这样实现的：一种测试智能音箱唤醒词识别率的系统，包括测试端、唤醒词播放端、分贝仪以及可调旋转台；被测智能音箱放置在可调旋转台上，所述分贝仪邻近所述唤醒词播放端放置；

所述测试端运行测试程序，该测试程序根据测试方案控制所述唤醒词播放端输出唤醒词语音，同时也控制可调旋转台的高度和水平方位角；所述分贝仪实时监测环境声音音量大小的分贝值；所述测试端根据分贝仪监测的分贝值来控制被测智能音箱播放有声内容的音量大小，同时在所述唤醒词播放端播放唤醒词语音后，在测试周期内根据分贝仪监测的分贝值分析被测智能音箱是否被唤醒。

进一步的，所述测试程序包括：核心控制模块、音频处理模块、转台控制模块、数据采集模块、结果输出模块以及音响交互模块；

所述核心控制模块，首先在确认好本次的测试项后，确认测试端与被测智能音箱以及与所述唤醒词播放端的音乐通路建立完成后，播放调音音乐文件，利用分贝仪进行被测智能音箱播放音量校准，使得分贝仪抓取的分贝值符合本次测试要求，向所述音频处理模块发送需要生成唤醒词语音和有声内容语音的指令，同时对所述转台控制模块发送转台控制指令，等到两个指令都得到执行后，通知所述音频处理模块按照测试要求播放本次测试有声内容文件，并通过音乐通路使被测智能音箱输出有声内容语音，播放到特定时间点，控制所述唤醒词播放端播放唤醒词语音，在播放有声内容语音和唤醒词语音完的过程中，发送指令给所述数据采集模块对当前的环境的分贝值进行数据采集，并将采集的数据进行比对分析，得到唤醒结果；

所述音频处理模块，首先从所述核心控制模块接收到需要生成唤醒词语音和有声内容语音的指令，从语音资源库中取出对应所述唤醒词语音的音频文件，并根据指令中的需要模拟距离的信息，经过空间传输模型处理后，输出符合指令要求的有声内容语音；将对应唤醒词语音和有声内容语音的两个音频文件进入本次测试的待播放环节，根据所述核心控制模块提供的播放控制指令，将两个音频文件配置对应的播放时序和传输的设备；

所述转台控制模块，根据被测智能音箱常用的几个位置和所述核心控制模块输出的转台控制指令，并根据转台当前的高度和方位角信息对比本次测试需要的位置信息，得到基于目前转台位置需要进行调控的信息传输给转台，等待转台反馈完成后，上报给所述核心控制模块；同时从数据采集模块获取的被测智能音箱麦克风输入数据和处理后数据至测试端，并存储在特定的位置；

所述数据采集模块，预设到被测智能音箱的系统软件中，主要处于音频系统端，用于打包麦克风输入的原始数据与经过麦克风阵列算法处理后的数据；

所述结果输出模块，从所述核心控制模块得到测试项和唤醒结果按照一定格式要求进行输出，如果遇到有唤醒失败则提供失败的采集数据的位置链接；

所述音响交互模块，用于测试端搜索播放设备并建立音乐通路。

进一步的，所述转台控制模块还模拟用户真实摆放被测智能音箱的位置高低和水平方位来产生了不同的交互效果。

进一步的，当智能音箱播放有声内容时，所述数据采集模块将采集的数据记为参照值A，当所述唤醒语播放端播放唤醒词语音后的测试周期内，所述数据采集模块将采集的数据记为测试值C，则将参照值A和测试值C进行对比，若测试值C远远低于参照值A，则判断被测智能音箱已被唤醒，若测试值C接近参照值A，则判断智能音箱没有被唤醒；并将唤醒结果同步输出给所述结果输出模块。

本发明具有如下优点：本发明可以实现无人工的自动化长时间测试智能音箱的唤醒性能，可以多方位、多维度进行测试，从而比较真实模拟智能音箱最终用户的使用场景，亦可提供比较量化的数字报告给开发者或生厂商，供开发者或生产商做对应的优化。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明测试方法及系统中各装置的连接示意图。

图2为本发明测试系统中测试程序的各模块组成架构图。

图3为本发明测试系统中核心控制模块功能执行流程图。

图4为本发明测试方法及系统中唤醒词语音和有声内容语音的产生过程流程图。

图5为本发明测试系统中转台控制模块功能执行流程图。

图6为本发明测试系统中音乐通路交互功能执行流程图。

具体实施方式

请参阅图1所示，本发明的测试智能音箱唤醒词识别率的系统，包括测试端、唤醒词播放端、分贝仪以及可调旋转台；被测智能音箱放置在可调旋转台上，所述唤醒词播放端和被测智能音箱可以分开放置，所述分贝仪邻近所述唤醒词播放端放置；在具体的实施例中，所述唤醒词播放端为高保真喇叭；所述测试端为PC，且与被测智能音箱通过蓝牙连接，保证连接方便可靠；所述被测智能音箱所在位置的高度和水平方位角的变换是通过可调旋转台实现，无需人工参与，以实现自动测试。

本发明的测试智能音箱唤醒词识别率的方法，包括：

步骤S1、测试端控制被测智能音箱播放调音音乐文件，通过分贝仪在唤醒词播放端抓取当前环境音量的分贝值，并根据该分贝值调节被测智能音箱的播放音量与测试要求相符。

步骤S2、测试端让智能音箱播放有声内容，有声内容的类型包括流行乐，爵士乐，Radio和电子书；由所述分贝仪抓取当前环境音量的分贝值(此时的分贝值接近播放调节好的调音音乐文件时的测试值)，记为参照值A，播放到特定时间点后，如播放10秒或20秒后，控制所述唤醒语播放端播放唤醒词语音，唤醒词语音由软件仿真得到，并保存在语音资源库中；由所述分贝仪在一测试周期内，即唤醒词语音播放完毕后的10秒内(该测试周期可供配置)内，继续抓取当前环境音量的分贝值，记为测试值C，并将参照值A和测试值C发回测试端进行分析，并由测试端记录唤醒结果；其中，分析过程是：将测试值C与参照值A进行对比，若测试值C远远低于参照值A，则判断被测智能音箱已被唤醒，若测试值C接近参照值A，则判断智能音箱没有被唤醒；通常低于10DB以上可认为唤醒，具体的还得看当时环境分贝值，如果环境当时有很大的噪音，需要等待静音后测试，正常情况下会预测一下环境值然后做判断。其测试原理是：

被测智能音箱在播放有声内容的时候，分贝仪测得的参照值A和测试值C两个相近，比如A＝65分贝，C＝67分贝，二者很相近。在播放唤醒词语音后，因为被测智能音箱如果有检测到唤醒词则会停止播放当前音乐，等待进一步的语音交互，等待时间即为测试周期，这个测试周期的时间最长可可自己设置到10秒左右，这个时候分贝仪检测到的值为测试值C，若智能音箱被唤醒，测试值C肯定远远低于之前的A值，如30分贝，如果智能音箱没有被唤醒，那测试值C与参照值A应该是相近的，因此可以通过这个分贝值来判断智能音箱是否被唤醒。

步骤S3、测试端控制智能音箱变换播放的有声内容的类型，重复步骤S1至S2，以实现智能音箱在播放不同的有声内容时，对唤醒词识别率的影响的测试。

步骤S4、测试端控制智能音箱变换所在位置的高度和水平方位角，重复步骤S1至S3，以实现智能音箱在不同的方位，对唤醒词识别率的影响的测试。

请参阅图2所示，所述测试程序包括：核心控制模块、音频处理模块、转台控制模块、数据采集模块、结果输出模块以及音响交互模块。

请参阅图3所示，所述核心控制模块，首先在确认好本次的测试项后，确认测试端与被测智能音箱以及与所述唤醒词播放端的音乐通路建立完成后，播放调音音乐文件，利用分贝仪进行被测智能音箱播放音量校准，使得分贝仪抓取的分贝值符合本次测试要求，向所述音频处理模块发送需要生成唤醒词语音和有声内容语音的指令，同时对所述转台控制模块发送转台控制指令，等到两个指令都得到执行后，通知所述音频处理模块按照测试要求播放本次测试有声内容文件，并通过音乐通路使被测智能音箱输出有声内容语音，播放到特定时间点，控制所述唤醒词播放端播放唤醒词语音，在播放有声内容语音和唤醒词语音完的过程中，发送指令给所述数据采集模块对当前的环境的分贝值进行数据采集，并将采集的数据进行比对分析，得到唤醒结果，并将唤醒结果同步输出给结果输出模块，同时从数据采集模块中的音乐通路获取对应麦克风输入数据和处理后数据至测试端，并存储在特定的位置(如Failed文件夹)。

请参阅图4所示，所述音频处理模块，首先从所述核心控制模块接收到需要生成唤醒词语音和有声内容语音的指令，从语音资源库中取出对应所述唤醒词语音的音频文件，并根据指令中的需要模拟距离的信息，经过空间传输模型处理后，输出符合指令要求的有声内容语音；将对应唤醒词语音和有声内容语音的两个音频文件进入本次测试的待播放环节，根据所述核心控制模块提供的播放控制指令，将两个音频文件配置对应的播放时序和传输的设备。

其中，当智能音箱播放有声内容时，所述数据采集模块将采集的数据记为参照值A，当所述唤醒语播放端播放唤醒词语音后的测试周期内，所述数据采集模块将采集的数据记为测试值C，则将参照值A和测试值C进行对比，若测试值C远远低于参照值A，则判断被测智能音箱已被唤醒，若测试值C接近参照值A，则判断智能音箱没有被唤醒；并将唤醒结果同步输出给所述结果输出模块。

请参阅图5所示，所述转台控制模块，根据被测智能音箱常用的几个位置和所述核心控制模块输出的转台控制指令，并根据转台当前的高度和方位角信息对比本次测试需要的位置信息，得到基于目前转台位置需要进行调控的信息传输给转台，等待转台反馈完成后，上报给所述核心控制模块；同时从数据采集模块获取的被测智能音箱麦克风输入数据和处理后数据至测试端，并存储在特定的位置。所述转台控制模块还模拟用户真实摆放被测智能音箱的位置高低和水平方位来产生了不同的交互效果。

所述数据采集模块，预设到被测智能音箱的系统软件中，主要处于音频系统端，用于打包麦克风输入的原始数据与经过麦克风阵列算法处理后的数据。

所述结果输出模块，从所述核心控制模块得到测试项和唤醒结果按照一定格式要求进行输出，如果遇到有唤醒失败则提供失败的采集数据的位置链接。

请参阅图6所示，所述音响交互模块，主要是测试端搜索播放设备并建立音乐通路，即搜索蓝牙设备，选择被测智能音箱的蓝牙进行链接，然后建立蓝牙音乐播放通路A2DP，最后在建立蓝牙数据传输链路如Socket链接传输。

本发明可以实现无人工的自动化长时间测试智能音箱的唤醒性能，可以多方位、多维度进行测试，从而比较真实模拟智能音箱最终用户的使用场景，亦可提供比较量化的数字报告给开发者或生厂商，供开发者或生产商做对应的优化。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种测试智能音箱唤醒词识别率的方法，其特征在于：包括：

2.根据权利要求1所述的一种测试智能音箱唤醒词识别率的方法，其特征在于：还包括

3.根据权利要求1所述的一种测试智能音箱唤醒词识别率的方法，其特征在于：所述步骤S2的分析是：将测试值C与参照值A进行对比，若测试值C远远低于参照值A，则判断被测智能音箱已被唤醒，若测试值C接近参照值A，则判断智能音箱没有被唤醒。

4.根据权利要求1所述的一种测试智能音箱唤醒词识别率的方法，其特征在于：所述有声内容的类型包括流行乐，爵士乐，Radio和电子书；所述唤醒词语音由软件仿真得到，并保存在语音资源库中。

5.根据权利要求1或4所述的一种测试智能音箱唤醒词识别率的方法，其特征在于：所述唤醒词播放端为高保真喇叭；所述测试端为PC，且与被测智能音箱通过蓝牙连接；所述被测智能音箱所在位置的高度和水平方位角的变换是通过可调旋转台实现。

6.根据权利要求1所述的一种测试智能音箱唤醒词识别率的方法，其特征在于：所述特定时间点为10秒或20秒，所述测试周期为唤醒词语音播放完毕后的10秒。

7.一种测试智能音箱唤醒词识别率的系统，其特征在于：包括测试端、唤醒词播放端、分贝仪以及可调旋转台；被测智能音箱放置在可调旋转台上，所述分贝仪邻近所述唤醒词播放端放置；

8.根据权利要求7所述的一种测试智能音箱唤醒词识别率的系统，其特征在于：所述测试程序包括：核心控制模块、音频处理模块、转台控制模块、数据采集模块、结果输出模块以及音响交互模块；

所述数据采集模块，预设到被测智能音箱的系统软件中，用于打包麦克风输入的原始数据与经过麦克风阵列算法处理后的数据；

9.根据权利要求8所述的一种测试智能音箱唤醒词识别率的系统，其特征在于：所述转台控制模块还模拟用户真实摆放被测智能音箱的位置高低和水平方位来产生了不同的交互效果。

10.根据权利要求8所述的一种测试智能音箱唤醒词识别率的系统，其特征在于：当智能音箱播放有声内容时，所述数据采集模块将采集的数据记为参照值A，当所述唤醒语播放端播放唤醒词语音后的测试周期内，所述数据采集模块将采集的数据记为测试值C，则将参照值A和测试值C进行对比，若测试值C远远低于参照值A，则判断被测智能音箱已被唤醒，若测试值C接近参照值A，则判断智能音箱没有被唤醒；并将唤醒结果同步输出给所述结果输出模块。