CN112151080B

CN112151080B - 一种录制和处理训练语料的方法

Info

Publication number: CN112151080B
Application number: CN202011171578.5A
Authority: CN
Inventors: 钟晓蝶; 许兵; 陈思应
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-08-03
Anticipated expiration: 2040-10-28
Also published as: CN112151080A

Abstract

一种录制和处理训练语料的方法,包括如下步骤：S1在录音位的不同距离布置一组录音设施，同组的所述录音设施位于相对录音位的不同角度方位；S2开始录音，录音者按下前进键，按照命令词列表依序朗读命令词，每读完一个命令词，录音者按一次前进键；S3所有训练语料录音完成后，对得到的录制语料转化为统一格式；S4转化为统一格式后，进行批量切分，将录制语料切分为多个命令词语料；切分的分割点为所述步骤S21中按下前进键的时间点；S5对命令词语料进行校验，剔除不合格的命令词语料。本发明通过对录音工艺流程的优化和改善、缩短了音频处理周期、降低了文本和训练切分的错误率，提高了工作效率。

Description

一种录制和处理训练语料的方法

技术领域

本发明属于人工智能领域中的语音识别技术，涉及大批量语料的数据处理，具体涉及一种录制和处理训练语料的方法。

背景技术

近几年，随着AI语音技术迅猛发展，声音作为语料的来源，在声学模型训练流程中至关重要，但目前，语料的录制和处理还存在很大的缺点，列如：录制训练语料时只能录制同一人次的单一音频，无法收集到同一人次多距离和多角度的音频，因此需要耗费大量的财力来找人录制足够多的训练语料。在录制时经常出现录音者读错命令词、按键过快以及回退等问题，导致生成的时间标签记录出错，从而在后续处理过程中产生许多问题音频，修改起来繁琐且耗时，导致大量的音频无法投入使用。

在训练语料录制完成后，需要大量的人力来对音频进行手动对齐和手动切分的操作，不仅处理周期长、错误率高且效率低下。从训练语料录制到处理的整套流程中，现有方法已经无法满足使用者日益增长的需求。

发明内容

为克服现有技术存在的技术缺陷，本发明公开了一种录制和处理训练语料的方法。

本发明所述录制和处理训练语料的方法,包括如下步骤：

S1在录音位的不同距离布置一组录音设施，同组的所述录音设施位于相对录音位的不同角度方位；每组录音设施包括至少一个高保真录音设备；

S2开始录音，录音者进入录音位，系统调用训练语料并将其中的命令词列表显示在显示设备上，随后播报提示音；

S21提示音播报完后，录音者按下前进键，按照命令词列表依序朗读命令词，每读完一个命令词，录音者按一次前进键；

S22当前训练语料的全部命令词读完后，系统调用新的训练语料，并重新播报提示音，重复步骤S21；

S3所有训练语料录音完成后，对得到的录制语料转化为统一格式；

S4 转化为统一格式后，进行批量切分，将录制语料切分为多个命令词语料；切分的分割点为所述步骤S21中按下前进键的时间点；

S5对命令词语料进行校验，剔除不合格的命令词语料。

优选的，所述步骤S4的批量切分具体为：

选取近距离的高保真录音设备录制的录制语料，根据该设备在音频录制时按下前进键时的时间做为分割点，将录制语料分割为多个训练切分标签，每一训练切分标签包括仅一个命令词的音频；所述近距离为距离录音位不超过1米；

获取到训练切分标签后，用训练切分标签的前后时间点切分其他录制语料。

优选的，所述高保真录音设备位于录音者的发音方向上。

优选的，所述步骤S21中，录音者如果读错命令词，系统识别后，录音设备的显示器上该命令词会显示异色字体提示，

录音者发现读错后，按下回退键，回退到上一命令词，系统提示录音者重新念该命令词，录音者重读命令词，系统记录该正确命令词前后两次按键时间作为所述步骤S4 中的分割点。

优选的，所述步骤S21中，若在录音者还没读完就按下前进键时，系统发现前进键按下时仍然有语音播报，则系统自动将本次前进键按下时间延时并作为所述步骤S4 中的分割点，所述延时为0.5-5秒。

本发明通过对录音工艺流程的优化和改善、对音频处理进行自动化、流程化，优化后的工艺流程在整套录制和处理训练语料时，极大地缩短了音频处理周期、降低了文本和训练切分的错误率，提高了工作效率，节省了大量的财力和人力。

附图说明

图1为本发明所述录音采集时录音设施布置的一种具体实施方式示意图;图1中箭头表示录音者发声方向，图1中附图标记为：1-录音位，2-高保真录音设备，3-非高保真录音设备；

图2为本发明所述录制和处理训练语料的方法的一种具体实施方式示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步的详细说明。

本发明所述录制和处理训练语料的方法,包括如下步骤：

S5对命令词语料进行校验，剔除不合格的命令词语料

根据录音需求，在距离声源的不同距离、及同一距离上相对声源的不同角度摆放采音板，实现同一人次同时录制多个距离和角度的语料。

如图1所示，在距离声源的不同距离处放置录音设施，在发声方向上可以放置高保真录音设施，在偏离发声方向的其它方向可以放置非高保真录音设施，其中高保真录音设施用于后续提取训练切分标签，而非高保真录音设施采集的录制语料作为采集的样本数据，非高保真录音设施更能模拟真实环境下语音识别设备读取到的音频信息。

各个录音设施可以通过红外控制，使用遥控器实现同时开和同时关，操作简单方便，避免每次去手动断电和通电，导致录音设施损坏，延长使用周期。

录音中需要进行批量自动对齐：即每条训练语料在录制正式开始时，系统播报开始测试的提示音，录制完成后，根据提示音所处时间点删除提示音之前的部分音频，使所有的音频文件对应统一规整的时间起始点。

显示设备中通常以EXCEL表格形式显示出每条训练语料的所有命令词，录音设备在录音过程中，监控录音过程并可以进行如下操作：

命令词读错回退：在读错命令词时，录音设备的显示器上该句会显示红色字体提示，录音者在录制时可以按下回退键，回退到上一句命令词，提示录音者重新念该命令词，并记录该正确命令词的时间。

为避免录音者在未读完当前命令词就按下前进键，在所述步骤S21中，若在录音者还没读完就按下前进键时，系统发现前进键按下时仍然有语音播报，则系统可以自动将本次前进键按下时间延时并作为所述步骤S4 中的分割点，所述延时为0.5-5秒。

例如系统通过麦克风检测到某次前进键按下时，录音者仍然在持续发音，则认为此时命令词未读完，系统自动将当前命令词的结束时间增加一段时间例如2s，以防止当前命令词对应的记录时间不足，导致后续切分错误，将延时后的时间点作为步骤S4中的分割点。

录音完成后，对录音得到的录制语料需要进行处理。

录制语料由于录音设备不同，例如有高保真设备，也有非高保真的普通采音板，不同设备存储的录制语料通常具有不同的格式，比如：96khz 16bit、48khz 16bit、44.1khz16bit、32khz 16bit、16khz 16bit等，需要将不同格式的音频规整为所需的目标音频格式，比如可以将高音频格式转为低音频格式：例如将96khz 16bit格式的语料转换为48khz16bit、44.1khz 16bit、32khz 16bit、16khz 16bit等格式，32khz 16bit格式的语料转换为16khz 16bit格式的语料等。

所述步骤S4中的批量切分可以具体为：

选取近距离的高保真录音设备录制的录制语料，根据该设备在音频录制时按下前进键时的时间作为分割点，将录制语料分割为多个训练切分标签，每一训练切分标签包括仅一个命令词的音频；所述近距离为距离录音位不超过1米；

获取到训练切分标签后，用训练切分标签的前后时间点切分其他录制语料。即以训练切分标签的前后时间点作为切分点，对其他录音设施录制的相同录制语料进行分割，得到命令词语料，其中每个命令词语料仅包含一个命令词的音频。

批量切分：在提示音对齐后，选取高保真录制的一条近距离的音频，例如0.5m的音频，根据音频录制时生成的时间标签去获取训练切分的标签，将0.5m的整段音频切分为单个命令词的小段音频作为训练切分标签。

获取到训练切分标签后，用训练切分标签去切分该标签对应的所有音频，例如高保真录音设施录制的距离分别为1m、3m、5m以及非高保真录音设施录制的其他角度的所有音频。

音频与文本内容校验：使用校验工具，将所有切分后的命令词语料与对应的音频文本内容一一校验，确保切分正确，并可以剔除校验不合格的命令词的语料。

本发明所涉及的计算机程序指令可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种录制和处理训练语料的方法,其特征在于,包括如下步骤：

S5对命令词语料进行校验，剔除不合格的命令词语料；

所述步骤S4的批量切分具体为：

2.如权利要求1所述的录制和处理训练语料的方法，其特征在于，所述高保真录音设备位于录音者的发音方向上。

3.如权利要求1所述的录制和处理训练语料的方法，其特征在于，所述步骤S21中，录音者如果读错命令词，系统识别后，录音设备的显示器上该命令词会显示异色字体提示，

录音者发现读错后，按下回退键，回退到上一命令词，系统提示录音者重新念该命令词，录音者重读命令词，系统记录正确命令词前后两次按键时间作为所述步骤S4 中的分割点。

4.如权利要求1所述的录制和处理训练语料的方法，其特征在于，所述步骤S21中，若在录音者还没读完就按下前进键时，系统发现前进键按下时仍然有语音播报，则系统自动将本次前进键按下时间延时并作为所述步骤S4 中的分割点，所述延时为0.5-5秒。