CN112599152A

CN112599152A - 语音数据标注方法、系统、电子设备及存储介质

Info

Publication number: CN112599152A
Application number: CN202110242305.3A
Authority: CN
Inventors: 张旺
Original assignee: Beijing Smart Starlight Information Technology Co ltd
Current assignee: Beijing Smart Starlight Information Technology Co ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-04-02
Anticipated expiration: 2041-03-05
Also published as: CN112599152B

Abstract

本发明公开了一种语音数据标注方法、系统、电子设备及存储介质，该方法先对原始语音数据进行筛选，对筛选语音进行朗读文本的匹配得到校对语音和校对文本；对校对文本进行分词得到分词文本；对校对语音进行降噪得到降噪语音，将特征提取后的语音特征输入VAD模型中得到降噪语音的VAD有效语音持续时间；采用声学模型对分词文本进行语音强制对齐得到字级别对齐时间、字级别时间间距、分段文本、分段文本起始时间、结尾时间和文本对齐时间；根据上述多个时间确定语速、有效时间比和误差字数，进行语音质量检查；按照分段文本起始时间和结尾时间对原始语音进行切分，将分段文本和切分语音作为语音标注结果；实现了自动获取质量合格的语音标注文本。

Description

语音数据标注方法、系统、电子设备及存储介质

技术领域

本发明涉及语音数据处理领域，具体涉及到一种语音数据标注方法、系统、电子设备及存储介质。

背景技术

随着语音技术的快速发展，对于模型训练所需的可靠、高质量的语音标注数据的需求日益增加，特别是在语音识别领域，短时间得到大量可靠标注数据快速建立模型难度较大。语音标注数据需求有四个特点：数据量大、标注质量高、多场景、多语种等，传统纯人工的语音数据标注方法，难以适合目前的语音生产需求。因此，如何自动获得语音标注文本并保证语音标注文本的质量成为亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种语音数据标注方法、系统、电子设备及存储介质，以实现自动获取质量合格的语音标注文本。

为此，本发明实施例提供了如下技术方案：

根据第一方面，本发明实施例提供了一种语音数据标注方法，包括：获取原始语音数据；对所述原始语音数据进行筛选处理，得到筛选语音；对所述筛选语音和预先存储的朗读文本进行匹配，得到相互对应的校对语音和校对文本；对所述校对文本进行分词处理，得到分词文本；对所述校对语音进行降噪处理，得到降噪语音；对所述降噪语音进行特征的提取，得到语音特征；根据VAD模型对所述语音特征进行检测，得到降噪语音的VAD有效语音起始时间、VAD有效语音结尾时间和VAD有效语音持续时间；根据所述分词文本、所述语音特征和预存的发音字典，采用声学模型进行语音强制对齐，得到对齐结果；根据所述对齐结果得到字级别对齐时间、字级别时间间距、分段文本、分段文本起始时间、分段文本结尾时间和文本对齐时间；根据所述分词文本得到所述分词文本中的文本总字数；根据所述VAD有效语音持续时间、所述文本对齐时间、所述字级别对齐时间和所述文本总字数得到语速、有效时间比和误差字数；根据所述语速、有效时间比和误差字数进行语音质量检查，得到质量合格语音；按照所述分段文本起始时间、分段文本结尾时间对所述质量合格语音所对应的原始语音数据进行切分，得到与所述分段文本对应的切分语音，将所述分段文本和所述切分语音作为语音标注结果。

可选地，根据所述对齐结果得到字级别对齐时间、字级别时间间距、分段文本、分段文本起始时间、分段文本结尾时间和文本对齐时间的步骤中，包括：根据所述对齐结果得到字级别对齐时间和字级别时间间距；根据预设字间距阈值和字级别时间间距对分词文本进行分段，得到分段文本；根据分段文本得到分段文本起始时间、分段文本结尾时间；根据分段文本起始时间、分段文本结尾时间得到文本对齐时间。

可选地，根据预设字间距阈值和字级别时间间距对分词文本进行分段，得到分段文本的步骤中，包括：获取预设字间距阈值，所述预设字间距阈值根据有效语音前后静音段时间和语音采集停顿时间确定；判断所述字级别时间间距是否小于所述预设字间距阈值；若所述字级别时间间距小于所述预设字间距阈值，则不对相邻的字进行段落切分；若所述字级别时间间距大于或者等于所述预设字间距阈值，则对相邻的字进行段落切分。

可选地，根据所述VAD有效语音持续时间、所述文本对齐时间、所述字级别对齐时间和所述文本总字数得到语速、有效时间比和误差字数的步骤中，包括：根据字级别对齐时间和文本总字数得到字级别平均时长，计算字级别平均时长的公式为：

其中，

表示字级别平均时长，

表示文本总字数，

表示第i个字的字级别对齐时间，i取值范围1≤ i ≤ N；

根据VAD有效语音持续时间和文本总字数得到语速，计算语速的公式为：

其中，

表示语速，

表示文本总字数，

表示VAD有效语音持续时间；

根据VAD有效语音持续时间和文本对齐时间得到有效时间比，计算有效时间比的公式为：

其中，

表示有效时间比，

表示VAD有效语音持续时间，

表示文本对齐时间；

根据VAD有效语音持续时间、字级别对齐时间和字级别平均时长得到误差字数，计算误差字数的公式为：

其中，

表示误差字数，

表示VAD有效语音持续时间，

表示第i个字的字级别对齐时间，i取值范围1≤ i≤ N，

表示字级别平均时长。

可选地，根据所述语速、有效时间比和误差字数进行语音质量检查，得到质量合格语音的步骤中，包括：判断所述语速是否在预设语速阈值的范围内；若所述语速未在所述预设语速阈值的范围内，则语音质量检测不合格；若所述语速在所述预设语速阈值的范围内，则判断所述有效时间比是否在预设时间比的范围内；若所述有效时间比未在预设时间比的范围内，则语音质量检测不合格；若所述有效时间比在预设时间比的范围内，则判断所述误差字数是否在预设误差字数的范围内；若所述误差字数未在预设误差字数的范围内，则语音质量检测不合格；若所述误差字数在预设误差字数的范围内，则语音质量检测合格，得到质量合格语音。

可选地，根据VAD模型对所述语音特征进行检测，得到降噪语音的VAD有效语音起始时间、VAD有效语音结尾时间和VAD有效语音持续时间的步骤中，包括：步骤S7001：将语音特征输入VAD模型中，得到每一帧语音预测结果；步骤S7002：判断连续第一预设帧数的语音预测结果是否为有效语音；步骤S7003：若连续第一预设帧数的语音预测结果不为有效语音，则向后移动第一预设帧数，返回步骤S7002；步骤S7004：若连续第一预设帧数的语音预测结果为有效语音，则将连续第一预设帧数的语音起始位置所对应的时间作为VAD有效语音起始时间；步骤S7005：判断连续第二预设帧数的语音预测结果是否为噪音；步骤S7006：若连续第二预设帧数的语音预测结果不为噪音，则向后移动第二预设帧数，返回步骤S7005；步骤S7007：若连续第二预设帧数的语音预测结果为噪音，则将连续第二预设帧数的语音起始位置所对应的时间作为VAD有效语音结尾时间；步骤S7008：根据所述VAD有效语音起始时间和VAD有效语音结尾时间计算得到VAD有效语音时长；步骤S7009：判断所述VAD有效语音时长是否小于预设语音最小时长；步骤S7010：若所述VAD有效语音时长小于所述预设语音最小时长，则返回步骤S7002；步骤S7011：若所述VAD有效语音时长大于或者等于所述预设语音最小时长，则所述VAD有效语音时长为VAD有效语音持续时间。

可选地，所述筛选处理包括：语音信噪比检测、语音混响检测、语音截幅检测、语音频段丢失检测、语音音量检测和喷麦检测。

根据第二方面，本发明实施例提供了一种语音数据标注系统，包括：获取模块，用于获取原始语音数据；第一处理模块，用于对所述原始语音数据进行筛选处理，得到筛选语音；第二处理模块，用于对所述筛选语音和预先存储的朗读文本进行匹配，得到相互对应的校对语音和校对文本；第三处理模块，用于对所述校对文本进行分词处理，得到分词文本；第四处理模块，用于对所述校对语音进行降噪处理，得到降噪语音；第五处理模块，用于对所述降噪语音进行特征的提取，得到语音特征；第六处理模块，用于根据VAD模型对所述语音特征进行检测，得到降噪语音的VAD有效语音起始时间、VAD有效语音结尾时间和VAD有效语音持续时间；第七处理模块，用于根据所述分词文本、所述语音特征和预存的发音字典，采用声学模型进行语音强制对齐，得到对齐结果；第八处理模块，用于根据所述对齐结果得到字级别对齐时间、字级别时间间距、分段文本、分段文本起始时间、分段文本结尾时间和文本对齐时间；第九处理模块，用于根据所述分词文本得到所述分词文本中的文本总字数；第十处理模块，用于根据所述VAD有效语音持续时间、所述文本对齐时间、所述字级别对齐时间和所述文本总字数得到语速、有效时间比和误差字数；第十一处理模块，用于根据所述语速、有效时间比和误差字数进行语音质量检查，得到质量合格语音；第十二处理模块，用于按照所述分段文本起始时间、分段文本结尾时间对所述质量合格语音所对应的原始语音数据进行切分，得到与所述分段文本对应的切分语音，将所述分段文本和所述切分语音作为语音标注结果。

可选地，所述第八处理模块包括：第一处理单元，用于根据所述对齐结果得到字级别对齐时间和字级别时间间距；第二处理单元，用于根据预设字间距阈值和字级别时间间距对分词文本进行分段，得到分段文本；第三处理单元，用于根据分段文本得到分段本文起始时间、分段文本结尾时间；第四处理单元，用于根据分段文本起始时间、分段结文本尾时间得到文本对齐时间。

可选地，所述第二处理单元包括：获取子单元，用于获取预设字间距阈值，所述预设字间距阈值根据有效语音前后静音段时间和语音采集停顿时间确定；判断子单元，用于判断所述字级别时间间距是否小于所述预设字间距阈值；第一处理子单元，用于若所述字级别时间间距小于所述预设字间距阈值，则不对相邻的字进行段落切分；第二处理子单元，用于若所述字级别时间间距大于或者等于所述预设字间距阈值，则对相邻的字进行段落切分。

可选地，所述第十处理模块包括：

第五处理单元，用于根据字级别对齐时间和文本总字数得到字级别平均时长，计算字级别平均时长的公式为：

其中，

表示字级别平均时长，

表示文本总字数，

表示第i个字的字级别对齐时间，i取值范围1≤ i ≤ N；；

其中，

表示语速，

表示文本总字数，

表示VAD有效语音持续时间；

其中，

表示有效时间比，

表示VAD有效语音持续时间，

表示文本对齐时间；

其中，

表示误差字数，

表示VAD有效语音持续时间，

表示第i个字的字级别对齐时间，i取值范围1≤ i ≤ N，

表示字级别平均时长。

可选地，所述第十一处理模块包括：第一判断单元，用于判断所述语速是否在预设语速阈值的范围内；第九处理单元，用于若所述语速未在所述预设语速阈值的范围内，则语音质量检测不合格；第十处理单元，用于若所述语速在所述预设语速阈值的范围内，则判断所述有效时间比是否在预设时间比的范围内；第十一处理单元，用于若所述有效时间比未在预设时间比的范围内，则语音质量检测不合格；第十二处理单元，用于若所述有效时间比在预设时间比的范围内，则判断所述误差字数是否在预设误差字数的范围内；第十三处理单元，用于若所述误差字数未在预设误差字数的范围内，则语音质量检测不合格；第十四处理单元，用于若所述误差字数在预设误差字数的范围内，则语音质量检测合格，得到质量合格语音。

可选地，所述第六处理模块包括：第十五处理单元，用于将语音特征输入VAD模型中，得到每一帧语音预测结果；第二判断单元，用于判断连续第一预设帧数的语音预测结果是否为有效语音；第十六处理单元，用于若连续第一预设帧数的语音预测结果不为有效语音，则向后移动第一预设帧数，返回第二判断单元；第十七处理单元，用于若连续第一预设帧数的语音预测结果为有效语音，则将连续第一预设帧数的语音起始位置所对应的时间作为VAD有效语音起始时间；第三判断单元，用于判断连续第二预设帧数的语音预测结果是否为噪音；第十八处理单元，用于若连续第二预设帧数的语音预测结果不为噪音，则向后移动第二预设帧数，返回第三判断单元；第十九处理单元，用于若连续第二预设帧数的语音预测结果为噪音，则将连续第二预设帧数的语音起始位置所对应的时间作为VAD有效语音结尾时间；第二十处理单元，用于根据所述VAD有效语音起始时间和VAD有效语音结尾时间计算得到VAD有效语音时长；第四判断单元，用于判断所述VAD有效语音时长是否小于预设语音最小时长；第二十一处理单元，用于若所述VAD有效语音时长小于所述预设语音最小时长，则返回第二判断单元；第二十二处理单元，用于若所述VAD有效语音时长大于或者等于所述预设语音最小时长，则所述VAD有效语音时长为VAD有效语音持续时间。

根据第三方面，本发明实施例提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器执行上述第一方面任意一项描述的语音数据标注方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行上述第一方面任意一项描述的语音数据标注方法。

本发明实施例技术方案，具有如下优点：

本发明实施例提供了一种语音数据标注方法、系统、电子设备及存储介质，其中，该方法包括：获取原始语音数据；对所述原始语音数据进行筛选处理，得到筛选语音；对所述筛选语音和预先存储的朗读文本进行匹配，得到相互对应的校对语音和校对文本；对所述校对文本进行分词处理，得到分词文本；对所述校对语音进行降噪处理，得到降噪语音；对所述降噪语音进行特征的提取，得到语音特征；根据VAD模型对所述语音特征进行检测，得到降噪语音的VAD有效语音起始时间、VAD有效语音结尾时间和VAD有效语音持续时间；根据所述分词文本、所述语音特征和预存的发音字典，采用声学模型进行语音强制对齐，得到对齐结果；根据所述对齐结果得到字级别对齐时间、字级别时间间距、分段文本、分段文本起始时间、分段文本结尾时间和文本对齐时间；根据所述分词文本得到所述分词文本中的文本总字数；根据所述VAD有效语音持续时间、所述文本对齐时间、所述字级别对齐时间和所述文本总字数得到语速、有效时间比和误差字数；根据所述语速、有效时间比和误差字数进行语音质量检查，得到质量合格语音；按照所述分段文本起始时间、分段文本结尾时间对所述质量合格语音所对应的原始语音数据进行切分，得到与所述分段文本对应的切分语音，将所述分段文本和所述切分语音作为语音标注结果。该方法先对原始语音数据进行筛选处理，对初步筛选后的筛选语音进行朗读文本的匹配，得到相互对应的校对语音和校对文本；然后，对校对文本进行分词得到分词文本，对校对语音进行降噪得到降噪语音，避免后续操作受到噪声的影响；对降噪语音进行语音特征提取，并将特征提取后的语音特征输入VAD模型中得到降噪语音的VAD有效语音起始时间、VAD有效语音结尾时间和VAD有效语音持续时间；采用声学模型对分词文本进行语音强制对齐得到字级别对齐时间、字级别时间间距、分段文本、分段文本起始时间、分段文本结尾时间和文本对齐时间；对上述多个时间进行计算，得到语速、有效时间比和误差字数，之后根据语速、有效时间比和误差字数进行语音质量检查，得到质量合格语音，最后，按照分段文本起始时间、分段文本结尾时间对质量合格语音所对应的原始语音数据进行切分，得到与分段文本对应的切分语音，将相互匹配的分段文本和切分语音作为语音标注结果；实现了语音标注文本的自动获取，并且提高了语音标注的质量。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的语音数据标注方法的一个具体示例的流程图；

图2为本发明实施例的语音数据标注方法的另一个具体示例的流程图；

图3为本发明实施例的语音数据标注系统的一个具体示例的框图；

图4为本发明实施例的电子设备的示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例中的方法主要应用于工业语音数据标注生产中，定制化语音数据标注预处理流程。针对工业语音标注数据生产中，数据标注速度慢，人工成本投入大，数据质量难保证等存在的问题。本发明采取语音技术手段，通过语音时间信息，文本内容，语速等信息，对待标注语音数据进行快速处理，加快数据生产效率，提高语音数据质量，提高语音数据的工业生产效能。

本发明实施例提供了一种语音数据标注方法，如图1所示，该方法包括步骤S1-S13。

步骤S1：获取原始语音数据。

作为示例性的实施例，原始语音数据可以是自由对话类的语音，也可以是其它类语音采集任务所得到的语音。其它类语音采集任务会提前设计好要说的文本内容，根据文本采集语音。本实施例对原始语音数据仅作示意性说明，并不以此为限。

步骤S2：对原始语音数据进行筛选处理，得到筛选语音。

作为示例性的实施例，对原始语音数据进行数据筛选处理，通过技术手段过滤掉不满足要求的语音，即将无法用于实际语音训练中原始语音数据过滤掉，得到筛选语音。具体可以是对采集到的原始语音数据进行信噪比和混响检测，按照一定的阈值，将信噪比过低，混响过大的不合格的原始语音数据丢弃，得到筛选语音，筛选语音是能够用于语音训练中的原始语音数据。

步骤S3：对筛选语音和预先存储的朗读文本进行匹配，得到相互对应的校对语音和校对文本。

作为示例性的实施例，预先存储的朗读文本是一个语音文本集合，包含若干个语音朗读文本。语音标注需要语音和文本相互匹配，对筛选语音和预先存储的朗读文本进行匹配，找到相互对应的校对语音和校对文本。

具体地，每一个文本在采集语音时，都会将该文本与该文本所对应的采集语音进行一一映射，以便根据语音能够快速在朗读文本集合中找到与之匹配的朗读文本。本实施例中，具体可以是语音和文本的名字相同，这样，根据语音的名字便可找到对应的文本。当然，在其它实施例中，也可以是语音和文本具有相同的id，本实施例对此仅作示意性说明，不以此为限。

根据文本采集语音，但采集过程中录音人可能出现漏读或多读语句，导致采集到的语音和朗读文本不对应，该步骤是核对语音和其对应的朗读文本是否存在，去除文本丢失的语音和语音丢失的文本，得到相互匹配的校对语音和校对文本，以便用于后续的语音训练中。

步骤S4：对校对文本进行分词处理，得到分词文本。

作为示例性的实施例，具体的分词方法可以是基于统计的分词方法，例如HMM、CRF、SVM、深度学习等算法；也可以是基于词典分词算法，例如正向最大匹配法、逆向最大匹配法和双向匹配分词法等。具体的分词工具可以是结巴分词、pkuseg、stanford、Hanlp等。

本实施例对分词方法仅作示意性说明，并不以此为限，在实际应用中可根据实际需要合理选择分词方法，从而得到分词文本。

步骤S5：对校对语音进行降噪处理，得到降噪语音。

作为示例性的实施例，为了避免语音中出现不合理的相关噪音对后期结果造成噪声干扰，故需要对语音进行降噪处理。训练语音需要的是不经过任何技术手段处理过的原始采集语音，这里降噪为防止语音中包含未知噪声对后续其他流程造成影响。降噪处理用于去除掉录制语音中非目标音的声音。

本实施例中，降噪方法可以是维纳滤波降噪、谱减法降噪、LMS自适应滤波器降噪或者深度神经网络模型降噪等；当然，在其它实施例中，还可以采用其它降噪方法，本实施例对此不作限制。

步骤S6：对降噪语音进行特征的提取，得到语音特征。

作为示例性的实施例，特征的提取可以是梅尔倒谱系数（Mel-scale FrequencyCepstral Coefficients, MFCC）、线性预测编码（Linear Predictive Coding，LPC）、梅尔标度滤波器组(Mel-scale Filter Bank，FBank)、I-Vector特征、瓶颈特征（Bottleneckfeature）、过零率(zero-crossing rate,ZCR)、短时平均能量等，本实施例对此仅作示意性说明，不以此为限。不同的特征提取方法得到的语音特征不同，具体可根据需要合理确定提取方法。对降噪语音进行特征提取后得到语音特征，语音特征是降噪语音在另一种维度上的表示，以便输入VAD (Voice Activity Detection）模型中进行检测。

步骤S7：根据VAD模型对语音特征进行检测，得到降噪语音的VAD有效语音起始时间、VAD有效语音结尾时间和VAD有效语音持续时间。

作为示例性的实施例，为了获取整条语音上的有效语音时长，采用VAD检测模块得到降噪语音的VAD有效语音起始时间、VAD有效语音结尾时间，再获取降噪语音的VAD有效语音持续时间，也就是VAD有效语音时长。

例如，降噪语音的时长为10秒，经过VAD检测后得到的VAD有效语音起始时间为3s，VAD有效语音结束时间为7秒，则VAD有效语音持续时间为4秒。

步骤S8：根据分词文本、语音特征和预存的发音字典，采用声学模型进行语音强制对齐，得到对齐结果。

作为示例性的实施例，预存的发音字典是一个巨大的汉字对照表，包括汉字和汉字所对应的拼音，以提供汉字的标准音标。

作为示例性的实施例，声学模型可以是传统的GMM-HMM模型，也可以是深度神经网络模型，如CNN、RNN、RNN-T、LSTM、BLSTM、DNN、TDNN、CLDNN、FSMN、Transformer-attention等；本实施例对此仅作示意性说明，不以此为限。

作为示例性的实施例，文本和语音强制对齐采用维特比算法（Viterbi）。Viterbi解码是一个动态规划的算法，简单来说就是将音频切分成一个个长度很短的帧(称之为一个采样)，帧的长度通常取到5~10ms之间，认为在这样短的时间内音频的各种特征基本不会发生改变。对一个音频的每个采样进行特征抽取，再和标准音标的特征进行相似度计算，用b_i(o_t)来表示第t个采样和第i个音标模型的相似度。用δ_t(i)代表在采样t的时刻当前音频到达音标i的最大概率δ_t(i)，则可以利用公式由第t个采样推算出第t+1个时刻的结果δ_t+1(i)。解码过程中，t从0开始不断递增，直到音频结束，最终得到各个音标i对应的δ_T(i)。

维特比算法实际是给定观测序列求其最可能对应的状态序列, 用动态规划解决预测问题。即模型λ= (A,B,π)和观测序列O=(o₁,o₂,…,o_T)，求使条件概率P(I|O)最大的状态序列 I=(i₁,i₂,...,i_t)。

算法首先需要导入两个变量δ和ψ。δ是在时刻t状态为i的所有单个路径(i₁,i₂,...,i_t)中概率的最大值：

由定义可得变量δ的递推公式：

算法在设定初始值δ₁(i)= π_ib_i (o_i)之后就不断迭代，终止情况是：

ψ代表时刻t状态为i所有单个路径 (i₁, i₂,..., i_t)中概率最大的路径的第t-1个节点为：

代表从时刻t-1状态j转移到时刻t状态i概率最大时，时刻t-1的状态j是哪一个状态。

具体的，对齐结果包括分词文本中每一个字，和每一个字所对应的起始时间和结束时间。读朗读文本的时候，不确定录音人是否按照朗读文本朗读。强制对齐是预测朗读文本中具体的某个字和朗读语音中哪小段音频对应，并估计这字在音频中的起始，结尾时间，就得到字级别对齐结果。

例如，语音校对文本为“这是一条语音对齐文本”，对校对文本分词后得到的分词文本为“这是一条语音对齐文本”。采用声学模型进行语音强制对齐后得到的对齐结果如下所示。

这 0.20 0.50

是 0.60 0.70

一 0.75 0.85

条 0.86 0.95

语 1.03 1.1

音 1.12 1.20

对 1.30 1.40

齐 1.41 1.50

文 1.65 1.80

本 1.82 1.99

步骤S9：根据对齐结果得到字级别对齐时间、字级别时间间距、分段文本、分段文本起始时间、分段文本结尾时间和文本对齐时间。

作为示例性的实施例，对对齐结果进行时间提取，得到每一个字所对应的字起始时间和字结尾时间，同一个字的字结尾时间与字起始时间之间的差值便是该字所对应的字级别对齐时间，下一个字起始时间与上一个字结尾时间的差值便是相邻字之间的字级别时间间距。进而，根据字级别时间间距对分词文本进行分段，得到分段文本、分段文本起始时间、分段文本结尾时间和文本对齐时间，以便后续对质量合格语音进行语音切分。

步骤S10：根据分词文本得到分词文本中的文本总字数。

作为示例性的实施例，可通过代码中的字数统计对分词文本中的文本进行字数统计，得到文本总字数。本实施例对此仅作示意性说明，不以此为限。

步骤S11：根据VAD有效语音持续时间、文本对齐时间、字级别对齐时间和文本总字数得到语速、有效时间比和误差字数。

作为示例性的实施例，语音数据采集时，语速一般会控制在一定范围内，单位时间内发音过慢或者快都不符合要求。同时当发音人朗读文本时未按照要求多读或少读文本时也会导致语速过快或过慢，通过对语速的检查可以过滤掉此类不合格语音。

语速在符合要求的情况下，还需要对有效时间和误差字数作进一步的检查，保证语音质量。

有效时间比的作用是检查文本朗读完整度，有效时间比值越接近1，表示文本朗读完整度越高；越大于1，则在朗读文本过程中，未在朗读文本中出现的内容越多，或者连续重复文本部分内容。

误差字数的作用是检查多读或者少读的字数。

步骤S12：根据语速、有效时间比和误差字数进行语音质量检查，得到质量合格语音。

作为示例性的实施例，根据语速、有效时间比和误差字数对语音进行检查，当语音同时满足以上要求时，说明该语音质量合格，否则，语音质量不合格。

步骤S13：按照所述分段文本起始时间、分段文本结尾时间对所述质量合格语音所对应的原始语音数据进行切分，得到与所述分段文本对应的切分语音，将所述分段文本和所述切分语音作为语音标注结果。

一大段音频和它的朗读文本，标注是对原始语音进行标注，最终标注结果要得到一小段音频及小段音频对应的段文本。

作为示例性的实施例，先根据质量合格语音匹配到与质量合格语音相对应的原始语音数据和与质量合格语音相对应的分段文本，然后根据分段文本起始时间、分段文本结尾时间对原始语音进行切分，组成切分语音及其对应的切分文本，分段文本也就是切分文本，切分文本和对应的切分语音相匹配，两者match，也就是一个句子的文本对应该句子的语音。上述相互匹配的切分语音和分段文本即为语音标注结果，上述标注结果符合模型训练的要求，可用于模型训练。

上述步骤，先对原始语音数据进行筛选处理，对初步筛选后的筛选语音进行朗读文本的匹配，得到相互对应的校对语音和校对文本；然后，对校对文本进行分词得到分词文本，对校对语音进行降噪得到降噪语音，避免后续操作受到噪声的影响；对降噪语音进行语音特征提取，并将特征提取后的语音特征输入VAD模型中得到降噪语音的VAD有效语音起始时间、VAD有效语音结尾时间和VAD有效语音持续时间；采用声学模型对分词文本进行语音强制对齐得到字级别对齐时间、字级别时间间距、分段文本、分段文本起始时间、分段文本结尾时间和文本对齐时间；对上述多个时间进行计算，得到语速、有效时间比和误差字数，之后根据语速、有效时间比和误差字数进行语音质量检查，得到质量合格语音，最后，按照分段文本起始时间、分段文本结尾时间对质量合格语音所对应的原始语音数据进行切分，得到与分段文本对应的切分语音，将所述分段文本和所述切分语音作为语音标注结果。该方法实现了语音标注文本的自动获取，并且提高了语音标注文本的质量。

作为示例性的实施例，步骤S9根据对齐结果得到字级别对齐时间、字级别时间间距、分段文本、分段文本起始时间、分段文本结尾时间和文本对齐时间的步骤中，包括步骤S91-S94。

步骤S91：根据对齐结果得到字级别对齐时间和字级别时间间距。

本实施例中，对对齐结果进行解析计算，具体的，根据对齐结果得到每一个字的起始时间和结尾时间，从而得到每一个字所对应的时间，也就是字级别对齐时间。根据前一个字的结尾时间和后一个字的起始时间得到相邻字之间的时间间距，也就是字级别时间间距。

步骤S92：根据预设字间距阈值和字级别时间间距对分词文本进行分段，得到分段文本。

本实施例中，预设字间距阈值用于对分词文本进行分段，分段具体指的是将分词文本中的若干字进行切分，形成若干个语句段，也就是段落。本实施例中的段落指的是一个句子。

具体的，可以是当字级别时间间距大于或者等于预设字间距阈值时，表明字之间的停顿时间过长，故在该处对字进行切分，该字和前面的字属于不同的段落。

步骤S93：根据分段文本得到分段文本起始时间、分段文本结尾时间。

本实施例中，在对分词文本进行分段后便得到分段文本，根据每一个段落起始位置的字得到该段落的分段文本起始时间，根据每一个段落结尾位置的字得到该段落的分段文本结尾时间。

步骤S94：根据分段文本起始时间、分段文本结尾时间得到文本对齐时间。

本实施例中，根据分段文本起始时间、分段文本结尾时间得到每一个段落的段落对齐时间，将所有段落的段落对齐时间相加便得到文本对齐时间。

例如，语音被分成三段，三段的段落对齐时间分别为10秒、15秒和8秒，则文本对齐时间为10+15+8=33秒。

作为示例性的实施例，步骤S92根据预设字间距阈值和字级别时间间距对分词文本进行分段的步骤中，包括步骤S921-S924。

步骤S921：获取预设字间距阈值，预设字间距阈值根据有效语音前后静音段时间和语音采集停顿时间确定。

本实施例中，一般语音标注要求有效语音前后各需满足有0.2s的静音段，结合在采集语音时对语音停顿时间的要求，在文本分段过程中，预设字间距阈值设置为大于或者等于0.4秒。具体的，本实施例中将预设字间距阈值设置为0.4s；当然，在其它实施例中，预设字间距阈值还可以设置为其它数值，如0.6s，根据需要合理设置即可。

步骤S922：判断字级别时间间距是否小于预设字间距阈值。若字级别时间间距小于预设字间距阈值，则执行步骤S923；若字级别时间间距大于或者等于预设字间距阈值，则执行步骤S924。

步骤S923：若字级别时间间距小于预设字间距阈值，则不对相邻的字进行段落切分。

本实施例中，当字级别时间间距小于预设字间距阈值，表明相邻字之间的停顿时间较短，也就是两者的时间间距较短，相邻字属于同一个段落中，故无需进行段落切分。

步骤S924：若字级别时间间距大于或者等于预设字间距阈值，则对相邻的字进行段落切分。

本实施例中，当字级别时间间距大于或者等于预设字间距阈值，表明相邻字之间的停顿时间较长，也就是两者的时间间距较长，相邻字不属于同一个段落中，前一个字属于上一个段落中，后一个字属于下一个段落，故需在此处进行段落切分，以区分不同的段落。

上述步骤通过比较预设字间距阈值和字级别时间间距对分词文本进行分段，提高文本对齐时间的准确性。

作为示例性的实施例，步骤S11根据VAD有效语音持续时间、文本对齐时间、字级别对齐时间和文本总字数得到语速、有效时间比和误差字数的步骤中，包括步骤S111-S114。

步骤S111：根据字级别对齐时间和文本总字数得到字级别平均时长，计算字级别平均时长的公式为：

其中，

表示字级别平均时长，

表示文本总字数，

表示第i个字的字级别对齐时间，i取值范围1≤ i ≤ N；

具体的，对文本中的每一个字所对应的字级别对齐时间进行相加，得到文本中所有字对应的对齐时间

，然后，再除以文本总字数，进而得到字级别平均时长。

步骤S112：根据VAD有效语音持续时间和文本总字数得到语速，计算语速的公式为：

其中，

表示语速，

表示文本总字数，

表示VAD有效语音持续时间；

步骤S113：根据VAD有效语音持续时间和文本总字数得到语速，计算语速的公式为：

其中，

表示有效时间比，

表示VAD有效语音持续时间，

表示文本对齐时间；

步骤S114：根据VAD有效语音持续时间、字级别对齐时间和字级别平均时长得到误差字数，计算误差字数的公式为：

其中，

表示误差字数，

表示VAD有效语音持续时间，

表示第i个字的字级别对齐时间，i取值范围1≤ i ≤ N，

表示字级别平均时长。

上述步骤中的有效时间比是去除原始语音中的噪声后，也就是将噪声干扰因素排除后，通过两种方式获取VAD有效语音持续时间和文本对齐时间，然后对两个时间作对比得到的，因此，有效时间比更加准确。

作为示例性的实施例，步骤S12根据语速、有效时间比和误差字数进行语音质量检查，得到质量合格语音的步骤中，包括步骤S121-S127。

步骤S121：判断语速是否在预设语速阈值的范围内。若语速不在预设语速阈值的范围内，则执行步骤S122；若语速在预设语速阈值的范围内，则执行步骤S123。

具体的，预设语速阈值根据以往相似采集场景中采集到的合格语音数据进行统计分析得到，通常范围为120字/秒~250字/秒，具体阈值根据实际采集场景确定。

步骤S122：若语速未在预设语速阈值的范围内，则语音质量检测不合格。

具体的，当语速未在预设语速阈值的范围内时，说明语速过快或者过慢，这些语音是不符合语音标注的要求的，质量检测不合格，将不合格的语音丢弃。

步骤S123：若语速在预设语速阈值的范围内，则判断有效时间比是否在预设时间比的范围内。若有效时间比不在预设时间比的范围内，则执行步骤S124；若有效时间比在预设时间比的范围内，则执行步骤S125。

若语速在预设语速阈值的范围内，则表明该语音的语速合格，需进一步判断有效时间比是否符合要求。本实施例中，预设时间比设置为0.9~1.1，当然，在其它实施例中，预设时间比还可以设置为其它数值，如0.95~1.05，具体数值范围根据需要合理设置即可。

步骤S124：若有效时间比未在预设时间比的范围内，则语音质量检测不合格。

若有效时间比未在预设时间比的范围内，则表明文本的朗读不完整，质量检测不合格，去除不合格的语音。

例如，想要采集的音频内容为“我要去吃饭啦”，经过采集后得到的语音时长为10s，根据VAD模型得到的VAD有效语音持续时间是7s；分词文本对齐后得到的文本对齐时间为5s，则有效时间比为7:5。有效时间比大于1，很大概率是采集语音时多说了内容，例如实际采集到的语音可能是“我要去要去吃饭啦”，这样便会导致有效时间比超出预设时间比的范围，文本朗读存在多读的问题，语音质量不合格。

步骤S125：若有效时间比在预设时间比的范围内，则判断误差字数是否在预设误差字数的范围内。若误差字数不在预设误差字数的范围内，则执行步骤S126；若误差字数在预设误差字数的范围内，则执行步骤S127。

若有效时间比在预设时间比的范围内，则表明文本的朗读完整，需进一步判断误差字数是否符合要求。本实施例中，误差字数设置为1~2个字，当然，在其它实施例中，误差字数还可以设置为其它数值，如1~3个字，具体数值范围根据需要合理设置即可。

步骤S126：若误差字数未在预设误差字数的范围内，则语音质量检测不合格。

若误差字数未在预设误差字数的范围内，说明多读或者少读的字数较多，语音质量检测不合格，去除不合格的语音。

步骤S127：若误差字数在预设误差字数的范围内，则语音质量检测合格，得到质量合格语音。

若误差字数在预设误差字数的范围内，说明语音质量检测合格，得到质量合格语音。

上述方法，通过语速、有效时间比和误差字对语音质量进行多方面的检查，保证语音质量。

作为示例性的实施例，步骤S7根据VAD模型对语音特征进行检测，得到降噪语音的VAD有效语音起始时间、VAD有效语音结尾时间和VAD有效语音持续时间的步骤中，如图2所示，包括步骤S7001-S7011。

步骤S7001：将语音特征输入VAD模型中，得到每一帧语音预测结果。

具体地，预测结果包括有效语音和噪声，通过VAD模型预测得到每一帧是有效语音还是噪声，以便根据每一帧语音预测结果确定语音有效语音的起始时间和结尾时间。

步骤S7002：判断连续第一预设帧数的语音预测结果是否为有效语音。若连续第一预设帧数的语音预测结果不为有效语音，则执行步骤S7003；若连续第一预设帧数的语音预测结果为有效语音，则执行步骤S7004。

具体地，一段语音总共M帧，从第一帧开始依次往后检测，发现第一个连续m帧为有效，执行步骤S7004；否则，执行步骤S7003。

第一预设帧数根据实际需求而定，能接受的连续最小语音时间长度和连续最大无效语音长度。一般无效设为0.2s, 有效设为0.5s；故本实施例中，将第一预设帧数的总时长设置为0.5s。

步骤S7003：若连续第一预设帧数的语音预测结果不为有效语音，则向后移动第一预设帧数，返回步骤S7002。

具体地，当连续第一预设帧数的语音预测结果不为有效语音时，也就是该部分语音中存在噪声，不是有效语音的起始点，故向后移动第一预设帧数，返回步骤S7002，对后面第一预设帧数的预测结果进行有效语音的检测。

步骤S7004：若连续第一预设帧数的语音预测结果为有效语音，则将连续第一预设帧数的语音起始位置所对应的时间作为VAD有效语音起始时间。

当连续第一预设帧数的语音预测结果为有效语音时，说明第一预设帧数的每一帧语音均是有效语音，故将连续第一预设帧数的语音起始位置所对应的时间作为VAD有效语音起始时间。

步骤S7005：判断连续第二预设帧数的语音预测结果是否为噪音。若连续第二预设帧数的语音预测结果不为噪音，则执行步骤S7006；若连续第二预设帧数的语音预测结果为噪音，则执行步骤S7007。

具体的，能接受的连续最小语音时间长度和连续最大无效语音长度，根据实际需求而定。一般连续无效语音设为0.2s, 连续最小有效语音时长设为0.5s。故本实施例中，将第二预设帧数的总时长设置为0.2s。

步骤S7006：若连续第二预设帧数的语音预测结果不为噪音，则向后移动第二预设帧数，返回步骤S7005。

当连续第二预设帧数的语音预测结果不为噪音时，说明该部分语音中存在有效语音，向后移动第二预设帧数，返回步骤S7005，对后面第二预设帧数的预测结果进行噪音的检测。

步骤S7007：若连续第二预设帧数的语音预测结果为噪音，则将连续第二预设帧数的语音起始位置所对应的时间作为VAD有效语音结尾时间。

当连续第二预设帧数的语音预测结果为噪音时，说明该部分语音中不存在有效语音，有效语音已结束，故将连续第二预设帧数的语音起始位置所对应的时间作为VAD有效语音结尾时间。

步骤S7008：根据VAD有效语音起始时间和VAD有效语音结尾时间计算得到VAD有效语音时长。

具体的，将VAD有效语音结尾时间减去VAD有效语音起始时间得到VAD有效语音时长。

步骤S7009：判断VAD有效语音时长是否小于预设语音最小时长。若VAD有效语音时长小于预设语音最小时长，则执行步骤S7010；若VAD有效语音时长大于或等于预设语音最小时长，则执行步骤S7011。通过预设语音最小时长提高有效语音识别的准确性。

具体的，能接受的连续最小语音时间长度和连续最大无效语音长度，根据实际需求而定。一般连续无效语音设为0.2s, 连续最小有效语音时长设为0.5s。故本实施例中，将预设语音最小时长设置为0.5s。

步骤S7010：若VAD有效语音时长小于预设语音最小时长，则返回步骤S7002。

当VAD有效语音时长小于预设语音最小时长，VAD有效语音时长不符合要求，该语音是无效语音。

步骤S7011：若VAD有效语音时长大于或者等于预设语音最小时长，则VAD有效语音时长为VAD有效语音持续时间。

当VAD有效语音时长大于或者等于预设语音最小时长，VAD有效语音时长符合要求，该语音为有效语音，将VAD有效语音时长作为VAD有效语音持续时间。

上述步骤，使用降噪后的语音来进行VAD检测，这样可以大大提高检测的准确性，能够获取到较为准确的VAD有效语音起始、结尾时间。

作为示例性的实施例，筛选处理包括：语音信噪比检测、语音混响检测、语音截幅检测、频段丢失检测、音量检测和喷麦检测。

本实施例中，对采集到的原始语音数据进行语音信噪比检测、语音混响检测、语音截幅检测、频段丢失检测、音量检测和喷麦检测，以对原始语音数据进行筛选，去除不合格的语音数据。当然，在其它实施例中，筛选处理可以是上述多种检测中的若干种，或者包括除上述多种检测以外的检测，根据需要合理设置即可。

具体地，语音信噪比检测可以是先计算原始语音数据的信噪比，将信噪比与预设信噪比进行比较，当信噪比小于预设信噪比时，表明该原始语音数据的噪声过大，需要将其丢弃。

信噪比计算公式如下：

其中，P_signal为信号功率(Power of Signal)；P_noise为噪声功率(Power of Noise)；A_signal为信号幅度(Amplitude of Signal)；A_noise为噪声幅度(Amplitude of Noise)。

具体地，声波在室内传播时，要被墙壁、天花板、地板等障碍物反射，每反射一次都要被障碍物吸收一些。这样，当声源停止发声后，声波在室内要经过多次反射和吸收，最后才消失，我们就感觉到声源停止发声后还有若干个声波混合持续一段时间（室内声源停止发声后仍然存在的声延续现象），这种现象叫做混响，这段时间叫做混响时间。不同的场地混响时间不同，混响计算：T=0.161V/(S*a),其中T为混响时间，V为房间体积，S为房间墙体总面积，a为房间表面的平均吸声系数。对不同场景下的语音数据采集时混响时间也不同，具体参见表1。

表1 不同场景下的最佳混响时间:

场景	混响时间（秒）	场景	混响时间（秒）
				电影院、会议厅	1.0~1.2	电视演播厅	0.7~1.0
演讲、戏剧、话剧	1.0~1.4	语言录音	0.3~0.4
				歌剧、音乐厅	1.5~1.8	音乐录音	1.4~1.6
多功能厅堂	1.2~1.4	多功能体育馆	小于1.8

本实施例中，采集到的原始语音数据是语言录音，故预设混响时间为0.3~0.4秒，将计算出的原始语音数据的混响时间与预设混响时间进行比较，将混响严重的语音去除。

当语音的波形幅度过大时，会超出系统或者设备的线性范围，幅度超过线性范围的语音将被截掉，导致语音数据不完整，语音截幅检测是要去除波形幅值不符合要求的语音。具体地，语音截幅检测是将语音的幅度与预设幅度（预设幅度可根据设备能够识别的波形幅度确定）进行比较，当语音的幅度超出预设幅度范围内时，将该语音丢弃。

频段丢失检测是检测语音的频段信息是否完整，当频段信息丢失导致语音不完整时，去除频段不完整的语音。例如，语音数据的格式为8K数据，当检测到的实际频段为3.5kHz，那么，将频段对应的数字乘以2得到实际频域信息为3.5*2=7K，小于8K，说明7K以上的频域信息丢失，该语音的音段信息不完整。

语音音量检测是检查语音的音量，当语音音量小于预设音量时，说明语音的波形幅度过小，声音能量过低，不能用于语音标注，将语音音量过小的语音去除。

喷麦检测，是检测录音人距离话筒太近时，是否造成有效语音中存在强烈气流干扰音。当气流声过大，造成语音波形剧烈震荡，会干扰有效语音的质量。通过检测语音中能量和波形的变化，将变化过快的录音去除。

需要说明的是，本实施例中筛选处理的多种方法之间的顺序是任意的，本实施例对此仅作示意性描述；在实际应用中还可以包括除上述列举的筛选方法以外的筛选处理方法。

在本实施例中还提供了一种语音数据标注系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例还提供一种语音数据标注系统，如图3所示，包括：获取模块1、第一处理模块2、第二处理模块3、第三处理模块4、第四处理模块5、第五处理模块6、第六处理模块7、第七处理模块8、第八处理模块9、第九处理模块10、第十处理模块11、第十一处理模块12、第十二处理模块13。

获取模块1，用于获取原始语音数据；

第一处理模块2，用于对所述原始语音数据进行筛选处理，得到筛选语音；

第二处理模块3，用于对所述筛选语音和预先存储的朗读文本进行匹配，得到相互对应的校对语音和校对文本；

第三处理模块4，用于对所述校对文本进行分词处理，得到分词文本；

第四处理模块5，用于对所述校对语音进行降噪处理，得到降噪语音；

第五处理模块6，用于对所述降噪语音进行特征的提取，得到语音特征；

第六处理模块7，用于根据VAD模型对所述语音特征进行检测，得到降噪语音的VAD有效语音起始时间、VAD有效语音结尾时间和VAD有效语音持续时间；

第七处理模块8，用于根据所述分词文本、所述语音特征和预存的发音字典，采用声学模型进行语音强制对齐，得到对齐结果；

第八处理模块9，用于根据所述对齐结果得到字级别对齐时间、字级别时间间距、分段文本、分段文本起始时间、分段文本结尾时间和文本对齐时间；

第九处理模块10，用于根据所述分词文本得到所述分词文本中的文本总字数；

第十处理模块11，用于根据所述VAD有效语音持续时间、所述文本对齐时间、所述字级别对齐时间和所述文本总字数得到语速、有效时间比和误差字数；

第十一处理模块12，用于根据所述语速、有效时间比和误差字数进行语音质量检查，得到质量合格语音；

第十二处理模块13，用于按照所述分段文本起始时间、分段文本结尾时间对所述质量合格语音所对应的原始语音数据进行切分，得到与所述分段文本对应的切分语音，将所述分段文本和所述切分语音作为语音标注结果。

作为示例性的实施例，第八处理模块包括：第一处理单元，用于根据所述对齐结果得到字级别对齐时间和字级别时间间距；第二处理单元，用于根据预设字间距阈值和字级别时间间距对分词文本进行分段，得到分段文本；第三处理单元，用于根据分段文本得到分段文本起始时间、分段文本结尾时间；第四处理单元，用于根据分段文本起始时间、分段文本结尾时间得到文本对齐时间。

作为示例性的实施例，第二处理单元包括：获取子单元，用于获取预设字间距阈值，所述预设字间距阈值根据有效语音前后静音段时间和语音采集停顿时间确定；判断子单元，用于判断所述字级别时间间距是否小于所述预设字间距阈值；第一处理子单元，用于若所述字级别时间间距小于所述预设字间距阈值，则不对相邻的字进行段落切分；第二处理子单元，用于若所述字级别时间间距大于或者等于所述预设字间距阈值，则对相邻的字进行段落切分。

作为示例性的实施例，第十处理模块包括：

其中，

表示字级别平均时长，

表示文本总字数，

表示第i个字的字级别对齐时间，i取值范围1≤ i≤ N；

其中，

表示语速，

表示文本总字数，

表示VAD有效语音持续时间；

其中，

表示有效时间比，

表示VAD有效语音持续时间，

表示文本对齐时间；

其中，

表示误差字数，

表示VAD有效语音持续时间，

表示第i个字的字级别对齐时间，i取值范围1≤ i≤ N，

表示字级别平均时长。

作为示例性的实施例，第十一处理模块包括：第一判断单元，用于判断所述语速是否在预设语速阈值的范围内；第九处理单元，用于若所述语速未在所述预设语速阈值的范围内，则语音质量检测不合格；第十处理单元，用于若所述语速在所述预设语速阈值的范围内，则判断所述有效时间比是否在预设时间比的范围内；第十一处理单元，用于若所述有效时间比未在预设时间比的范围内，则语音质量检测不合格；第十二处理单元，用于若所述有效时间比在预设时间比的范围内，则判断所述误差字数是否在预设误差字数的范围内；第十三处理单元，用于若所述误差字数未在预设误差字数的范围内，则语音质量检测不合格；第十四处理单元，用于若所述误差字数在预设误差字数的范围内，则语音质量检测合格，得到质量合格语音。

作为示例性的实施例，第六处理模块包括：第十五处理单元，用于将语音特征输入VAD模型中，得到每一帧语音预测结果；第二判断单元，用于判断连续第一预设帧数的语音预测结果是否为有效语音；第十六处理单元，用于若连续第一预设帧数的语音预测结果不为有效语音，则向后移动第一预设帧数，返回第二判断单元；第十七处理单元，用于若连续第一预设帧数的语音预测结果为有效语音，则将连续第一预设帧数的语音起始位置所对应的时间作为VAD有效语音起始时间；第三判断单元，用于判断连续第二预设帧数的语音预测结果是否为噪音；第十八处理单元，用于若连续第二预设帧数的语音预测结果不为噪音，则向后移动第二预设帧数，返回第三判断单元；第十九处理单元，用于若连续第二预设帧数的语音预测结果为噪音，则将连续第二预设帧数的语音起始位置所对应的时间作为VAD有效语音结尾时间；第二十处理单元，用于根据所述VAD有效语音起始时间和VAD有效语音结尾时间计算得到VAD有效语音时长；第四判断单元，用于判断所述VAD有效语音时长是否小于预设语音最小时长；第二十一处理单元，用于若所述VAD有效语音时长小于所述预设语音最小时长，则返回第二判断单元；第二十二处理单元，用于若所述VAD有效语音时长大于或者等于所述预设语音最小时长，则所述VAD有效语音时长为VAD有效语音持续时间。

作为示例性的实施例，筛选处理包括：语音信噪比检测、语音混响检测、语音截幅检测、语音频段丢失检测、语音音量检测和喷麦检测等。

本实施例中的语音数据标注系统是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供了一种电子设备，如图4所示，该电子设备包括一个或多个处理器71以及存储器72，图4中以一个处理器71为例。

该控制器还可以包括：输入装置73和输出装置74。

处理器71、存储器72、输入装置73和输出装置74可以通过总线或者其他方式连接，图4中以通过总线连接为例。

处理器71可以为中央处理器（Central Processing Unit，CPU）。处理器71还可以为其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何常规的处理器等。

存储器72作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的语音数据标注方法对应的程序指令/模块。处理器71通过运行存储在存储器72中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的语音数据标注方法。

存储器72可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外，存储器72可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器72可选包括相对于处理器71远程设置的存储器，这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置73可接收输入的数字或字符信息，以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置74可包括显示屏等显示设备。

一个或者多个模块存储在存储器72中，当被一个或者多个处理器71执行时，执行如图1-2所示的方法。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指示相关的硬件来完成，被执行的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述语音数据标注方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存储记忆体（Random AccessMemory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种语音数据标注方法，其特征在于，包括：

获取原始语音数据；

对所述原始语音数据进行筛选处理，得到筛选语音；

对所述筛选语音和预先存储的朗读文本进行匹配，得到相互对应的校对语音和校对文本；

对所述校对文本进行分词处理，得到分词文本；

对所述校对语音进行降噪处理，得到降噪语音；

对所述降噪语音进行特征的提取，得到语音特征；

根据VAD模型对所述语音特征进行检测，得到降噪语音的VAD有效语音起始时间、VAD有效语音结尾时间和VAD有效语音持续时间；

根据所述分词文本、所述语音特征和预存的发音字典，采用声学模型进行语音强制对齐，得到对齐结果；

根据所述对齐结果得到字级别对齐时间、字级别时间间距、分段文本、分段文本起始时间、分段文本结尾时间和文本对齐时间；

根据所述分词文本得到所述分词文本中的文本总字数；

根据所述VAD有效语音持续时间、所述文本对齐时间、所述字级别对齐时间和所述文本总字数得到语速、有效时间比和误差字数；

根据所述语速、有效时间比和误差字数进行语音质量检查，得到质量合格语音；

按照所述分段文本起始时间、分段文本结尾时间对所述质量合格语音所对应的原始语音数据进行切分，得到与所述分段文本对应的切分语音，将所述分段文本和所述切分语音作为语音标注结果。

2.根据权利要求1所述的语音数据标注方法，其特征在于，根据所述对齐结果得到字级别对齐时间、字级别时间间距、分段文本、分段文本起始时间、分段文本结尾时间和文本对齐时间的步骤中，包括：

根据所述对齐结果得到字级别对齐时间和字级别时间间距；

根据预设字间距阈值和字级别时间间距对分词文本进行分段，得到分段文本；

根据分段文本得到分段文本起始时间、分段文本结尾时间；

根据分段文本起始时间、分段文本结尾时间得到文本对齐时间。

3.根据权利要求2所述的语音数据标注方法，其特征在于，根据预设字间距阈值和字级别时间间距对分词文本进行分段，得到分段文本的步骤中，包括：

获取预设字间距阈值，所述预设字间距阈值根据有效语音前后静音段时间和语音采集停顿时间确定；

判断所述字级别时间间距是否小于所述预设字间距阈值；

若所述字级别时间间距小于所述预设字间距阈值，则不对相邻的字进行段落切分；

若所述字级别时间间距大于或者等于所述预设字间距阈值，则对相邻的字进行段落切分。

4.根据权利要求1所述的语音数据标注方法，其特征在于，根据所述VAD有效语音持续时间、所述文本对齐时间、所述字级别对齐时间和所述文本总字数得到语速、有效时间比和误差字数的步骤中，包括：

其中，

表示字级别平均时长，

表示文本总字数，

表示第i个字的字级别对齐时间，i 取值范围1≤ i ≤ N；

其中，

表示语速，

表示文本总字数，

表示VAD有效语音持续时间；

其中，

表示有效时间比，

表示VAD有效语音持续时间，

表示文本对齐时间；

其中，

表示误差字数，

表示VAD有效语音持续时间，

表示第i个字的字级别对齐时间，i取值范围1≤ i≤ N，

表示字级别平均时长。

5.根据权利要求1所述的语音数据标注方法，其特征在于，根据所述语速、有效时间比和误差字数进行语音质量检查，得到质量合格语音的步骤中，包括：

判断所述语速是否在预设语速阈值的范围内；

若所述语速未在所述预设语速阈值的范围内，则语音质量检测不合格；

若所述语速在所述预设语速阈值的范围内，则判断所述有效时间比是否在预设时间比的范围内；

若所述有效时间比未在预设时间比的范围内，则语音质量检测不合格；

若所述有效时间比在预设时间比的范围内，则判断所述误差字数是否在预设误差字数的范围内；

若所述误差字数未在预设误差字数的范围内，则语音质量检测不合格；

若所述误差字数在预设误差字数的范围内，则语音质量检测合格，得到质量合格语音。

6.根据权利要求1所述的语音数据标注方法，其特征在于，根据VAD模型对所述语音特征进行检测，得到降噪语音的VAD有效语音起始时间、VAD有效语音结尾时间和VAD有效语音持续时间的步骤中，包括：

步骤S7001：将语音特征输入VAD模型中，得到每一帧语音预测结果；

步骤S7002：判断连续第一预设帧数的语音预测结果是否为有效语音；

步骤S7003：若连续第一预设帧数的语音预测结果不为有效语音，则向后移动第一预设帧数，返回步骤S7002；

步骤S7004：若连续第一预设帧数的语音预测结果为有效语音，则将连续第一预设帧数的语音起始位置所对应的时间作为VAD有效语音起始时间；

步骤S7005：判断连续第二预设帧数的语音预测结果是否为噪音；

步骤S7006：若连续第二预设帧数的语音预测结果不为噪音，则向后移动第二预设帧数，返回步骤S7005；

步骤S7007：若连续第二预设帧数的语音预测结果为噪音，则将连续第二预设帧数的语音起始位置所对应的时间作为VAD有效语音结尾时间；

步骤S7008：根据所述VAD有效语音起始时间和VAD有效语音结尾时间计算得到VAD有效语音时长；

步骤S7009：判断所述VAD有效语音时长是否小于预设语音最小时长；

步骤S7010：若所述VAD有效语音时长小于所述预设语音最小时长，则返回步骤S7002；

步骤S7011：若所述VAD有效语音时长大于或者等于所述预设语音最小时长，则所述VAD有效语音时长为VAD有效语音持续时间。

7.根据权利要求1-6中任一所述的语音数据标注方法，其特征在于，所述筛选处理包括：语音信噪比检测、语音混响检测、语音截幅检测、语音频段丢失检测、语音音量检测和喷麦检测。

8.一种语音数据标注系统，其特征在于，包括：

获取模块，用于获取原始语音数据；

第一处理模块，用于对所述原始语音数据进行筛选处理，得到筛选语音；

第二处理模块，用于对所述筛选语音和预先存储的朗读文本进行匹配，得到相互对应的校对语音和校对文本；

第三处理模块，用于对所述校对文本进行分词处理，得到分词文本；

第四处理模块，用于对所述校对语音进行降噪处理，得到降噪语音；

第五处理模块，用于对所述降噪语音进行特征的提取，得到语音特征；

第六处理模块，用于根据VAD模型对所述语音特征进行检测，得到降噪语音的VAD有效语音起始时间、VAD有效语音结尾时间和VAD有效语音持续时间；

第七处理模块，用于根据所述分词文本、所述语音特征和预存的发音字典，采用声学模型进行语音强制对齐，得到对齐结果；

第八处理模块，用于根据所述对齐结果得到字级别对齐时间、字级别时间间距、分段文本、分段文本起始时间、分段文本结尾时间和文本对齐时间；

第九处理模块，用于根据所述分词文本得到所述分词文本中的文本总字数；

第十处理模块，用于根据所述VAD有效语音持续时间、所述文本对齐时间、所述字级别对齐时间和所述文本总字数得到语速、有效时间比和误差字数；

第十一处理模块，用于根据所述语速、有效时间比和误差字数进行语音质量检查，得到质量合格语音；

第十二处理模块，用于按照所述分段文本起始时间、分段文本结尾时间对所述质量合格语音所对应的原始语音数据进行切分，得到与所述分段文本对应的切分语音，将所述分段文本和所述切分语音作为语音标注结果。

9.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-7任意一项所述的语音数据标注方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-7任意一项所述的语音数据标注方法。