CN111326174A

CN111326174A - 一种远场语音干扰场景测试语料自动化合成的方法

Info

Publication number: CN111326174A
Application number: CN201911416964.3A
Authority: CN
Inventors: 万召亮
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-06-23

Abstract

本发明涉及远场语音测试技术，其公开了一种远场语音干扰场景测试语料自动化合成的方法，针对不同干扰测试场景快速合成对应场景的测试语料，有利于提高测试效率和精确性。该方法包括以下步骤：a.获取原始语料文件和干扰噪声文件；b.统计各原始语料长度；c.将各原始语料的编号和长度数据保存至第一列表中；d.根据第一列表，将干扰噪声文件截取为与原始语料相同长度的干扰语料，并生成第二列表；e.根据第一列表和第二列表批量生成单通道语料；f.约定每个干扰场景使用的语音通道；g.根据干扰测试场景，自动合成多通道的测试语料。本发明适用于的具备远场语音功能的产品进行语音功能测试。

Description

一种远场语音干扰场景测试语料自动化合成的方法

技术领域

本发明涉及远场语音测试技术，具体涉及一种远场语音干扰场景测试语料自动化合成的方法。

背景技术

远场语音是一种人与机器间的交互方式，相对于近场语音来说，区别是它的作用距离更长，通常会在1米到10米之间。远场语音是一种融合了AI语音搜索、被广泛应用于智能电视、智能音箱中的AI语音交互技术。用户可以脱离遥控器，在较远距离通过唤醒词直接说出指令进行智能电视及智能音箱的操控。

远场语音的激活和识别直接影响用户的使用体验，所以激活算法和识别率算法的测试十分重要。在测试过程中，不仅要测试安静场景、还要覆盖多种干扰测试场景，而如何针对不同干扰测试场景快速合成对应场景的测试语料是当前远场语音测试亟待解决的问题。

发明内容

本发明所要解决的技术问题是：提出一种远场语音干扰场景测试语料自动化合成的方法，针对不同干扰测试场景快速合成对应场景的测试语料，有利于提高测试效率和精确性。

本发明解决上述技术问题采用的技术方案是：

一种远场语音干扰场景测试语料自动化合成的方法，包括以下步骤：

a.获取原始语料文件和干扰噪声文件；

b.统计各原始语料长度；

c.将各原始语料的编号和长度数据保存至第一列表中；

d.根据第一列表，将干扰噪声文件截取为与原始语料相同长度的干扰语料，并生成第二列表；

e.根据第一列表和第二列表批量生成单通道语料；

f.约定每个干扰场景使用的语音通道；

g.根据干扰测试场景，自动合成多通道的测试语料。

作为进一步优化，步骤a中，所述干扰噪声文件包括多种类型的干扰语料。

作为进一步优化，步骤b中，通过调用开源软件ffmpeg来统计原始语料文件名称和长度。

作为进一步优化，步骤c和步骤d中，所述第一列表和第二列表中每一个文件对应一个编号和自身音频长度。

作为进一步优化，步骤e中，所述批量生成的单通道语料包括单通道的测试语料和每一种类型的干扰语料集合。

本发明的有益效果是：

由于语料合成了不同测试场景的测试语料，所以播放不同的测试语料集合，就实现了不同干扰场景的测试需求；通过控制播放不同的测试语料集合，实现了语音激活和识别功能的高效测试。

附图说明

图1为本发明实施例中的测试语料自动化合成方法流程图。

具体实施方式

对于远场语音识别率和唤醒率算法测试，需要多种场景测试语料如：安静、单点噪声、多点噪声、散射噪声等；要对不同版本算法的效果进行对比，就要求使用相同的测试语料进行测试才能保证一致性，而每种类型的干扰场景对应的干扰语料也需要多种才能保证测试的全面性，因此，本发明通过自动化合成原始输入语料和N种干扰测试语料，生成不同干扰场景的测试语料数据，即针对每个测试场景生成固定的测试语料，提高测试效率和测试精准度。

在具体实现上，本发明中远场语音干扰场景测试语料自动化合成的方法，包括：

步骤一、获取原始语料文件(如唤醒词条文件)、干扰噪声文件；

步骤二、统计测试语料的长度，可以通过开发测试工具1调用开源软件ffmpeg来实现此功能，具体开发过程对于本领域技术人员而言使用linux操作系统下的shell脚本语言实现，这里不再赘述。

步骤三：使用步骤三的测试工具1，统计批量原始测试语料文件的编号、长度到列表1；

步骤四：根据干扰场景选择干扰语料，根据步骤三得到的列表1，使用开源软件sox的方法，截取相同长度的干扰语料并生列表2；

步骤五：处理原始语料和干扰语料，判断如果是多通道音频文件，根据列表1和列表2，批量生成单通道语料；可以通过开发测试工具2调用开源软件sox来实现此功能，具体开发过程对于本领域技术人员而言使用linux操作系统下的shell脚本语言实现，这里不再赘述。

步骤六：约定每个干扰场景使用的语音通道，如原始语料使用通道1、单点干扰语料使用通道2、多点干扰语料使用通道3/4/5/6等；

步骤七：根据干扰测试场景，合成多通道的测试语料，可以通过开发测试工具3来调用开源软件sox的方法来实现此功能，具体开发过程对于本领域技术人员而言可以使用linux操作系统下的shell脚本语言实现，这里不再赘述。

步骤八：根据场景，自动化生成多种场景的测试语料；可以通过合并测试工具1、测试工具2和测试工具3，实现选择原始语料和干扰语料后，根据场景，自动化生成多种场景的测试语料。

由于语料合成了不同测试场景的测试语料，所以播放不同的测试语料集合，就实现了不同干扰场景的测试需求；通过控制播放不同的测试语料集合，实现了语音激活和识别功能的自动化测试。

实施例：

如图1所示，本实施例中的远场语音干扰场景测试语料自动化合成的方法包括以下步骤：

步骤一、获取原始语料文件为100个“长虹小白”的激活音频文件，获取电视剧节目的录音文件1，获取访谈节目的录音文件2；

步骤二、调用开源软件ffmpeg和sox提供的方法，统计原始语料文件“长虹小白”的名称和长度；

步骤三、统计100个“长虹小白”原始测试语料文件的编号、长度数据到列表1；

步骤四、根据列表1，使用开源软件sox的方法，把录音文件1和录音文件2分别截成100个文件，长度和列表1种对应；

步骤五、判断100个“长虹小白”原始测试语料文件、录音文件1生成的100个文件、录音文件2生成的100个文件为多通道音频文件，根据列表1和列表2，使用开源的sox软件批量生成单通道语料；

步骤六、约定每个干扰场景使用的语音通道，如原始语料使用通道1、电视剧节目类型干扰语料使用通道2、访谈节目类型干扰语料使用通道3等；

步骤七、根据干扰测试场景，合成多通道的测试语料，如电视剧节目类型的干扰测试场景，选择100个原始测试语料+100个电视剧节目类型的录音文件，生成100个电视剧节目类型的干扰测试的语料；

按照实际情况，可以约定生成结果为多个通道的音频文件，不使用的通道使用空白噪声填充，通过上述方法，可以自动化生成不同测试场景的测试语料。

Claims

1.一种远场语音干扰场景测试语料自动化合成的方法，其特征在于，包括以下步骤：

a.获取原始语料文件和干扰噪声文件；

b.统计各原始语料长度；

c.将各原始语料的编号和长度数据保存至第一列表中；

e.根据第一列表和第二列表批量生成单通道语料；

f.约定每个干扰场景使用的语音通道；

g.根据干扰测试场景，自动合成多通道的测试语料。

2.如权利要求1所述的一种远场语音干扰场景测试语料自动化合成的方法，其特征在于，

步骤a中，所述干扰噪声文件包括多种类型的干扰语料。

3.如权利要求1所述的一种远场语音干扰场景测试语料自动化合成的方法，其特征在于，

步骤b中，通过调用开源软件ffmpeg来统计原始语料文件名称和长度。

4.如权利要求1所述的一种远场语音干扰场景测试语料自动化合成的方法，其特征在于，

所述第一列表和第二列表中每一个文件对应一个编号和自身音频长度。

5.如权利要求1所述的一种远场语音干扰场景测试语料自动化合成的方法，其特征在于，

步骤e中，所述批量生成的单通道语料包括单通道的测试语料和每一种类型的干扰语料集合。