CN110176251B

CN110176251B - 一种声学数据自动标注方法及装置

Info

Publication number: CN110176251B
Application number: CN201910266707.XA
Authority: CN
Inventors: 惠寅华; 薛文韬; 蔡雅莉; 林远东
Original assignee: Suzhou Chivox Information Technology Co ltd
Current assignee: Suzhou Chivox Information Technology Co ltd
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2021-12-21
Anticipated expiration: 2039-04-03
Also published as: CN110176251A

Abstract

本发明涉及一种声学数据自动标注方法及装置，所述方法包括：获取待标注数据中音频句子的声学特征，所述待标注数据为音频数据，所述音频数据包括至少一句音频句子，所述声学特征包括频谱、信噪比、截幅、截断、语速和音量；基于所述声学特征计算所述音频数据中对应音频句子的置信度；如果所述置信度满足预设条件，则判断所述音频数据中音频句子的对应声学特征为可信指标。本发明通过各个维度的声学特性，可以有效地按各维度特性进行数据划分归类，提高了传统声学数据置信度计算的准确度，从而可以有效地判断声学特征是否为可以对声学数据进行标注的可信指标。

Description

一种声学数据自动标注方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种声学数据自动标注方法及装置。

背景技术

随着全球化的不断发展，对外语学习的需求也大幅增加，其中一个方面是发音学习。有效地教授发音通常需要一对一的师生互动，这对许多学生来说是负担不起的。出于这个原因，自动(计算机辅助)发音教学一直是研究界的焦点。

其中，语音识别是计算机辨别人声最重要的技术。利用语音识别技术，通过提前准备(训练)好的语言模型和声学模型，可以识别出发音学习者朗读的词级序列和音素级序列。同时利用识别结果和相关算法可以评估出学习者发音质量。

语音识别中的声学模型，是一种直接反应朗读者发音质量的模型。随着大数据时代的到来和深度学习的数据量需求，如何高效地利用线上海量数据进行人工标注来(用于)训练基于深度学习框架的声学模型成为目前比较热门的一个研究课题。

数据只有通过人工标注(有正确标注的数据)才是可用的。然而通过人工手动标注海量数据，过程是缓慢的，开销是昂贵的。对于一些罕见的语言，它可能甚至是很难实现的。

发明内容

基于此，有必要针对目前人工标注效率低下的问题，提供一种声学数据自动标注方法及装置。

一种声学数据自动标注方法，包括：

获取待标注数据中音频句子的声学特征，所述待标注数据为音频数据，所述音频数据包括至少一句音频句子，所述声学特征包括频谱、信噪比、截幅、截断、语速和音量中；

基于所述声学特征，采用预设的种子模型计算所述音频数据中对应音频句子的置信度；

如果所述置信度满足预设条件，则判断所述音频数据中音频句子的对应声学特征为可信指标。

优选的，所述获取待标注数据中音频句子的声学特征，包括：

对所述标注数据中音频句子的声音信号进行预处理，所述预处理包括剔除冗余非人声段；

从预处理后的音频句子的声音信号中提取对应的声学特征。

优选的，所述基于所述声学特征计算所述音频数据中对应音频句子的置信度，包括：

获取所述音频数据中对应音频句子中的音素信息；

基于所述声学特征，采用预设的种子模型以每个音素为单位计算所述音频数据中对应音频句子的置信度。

基于预设的种子模型剔除所述待标注数据中音频句子的冗余静音段。

一种声学数据自动标注装置，所述装置包括：

获取模块，用于获取待标注数据中音频句子的声学特征，所述待标注数据为音频数据，所述音频数据包括至少一句音频句子，所述声学特征包括信噪比、截幅、截断、语速和音量；

计算模块，用于基于所述声学特征，采用预设的种子模型计算所述音频数据中对应音频句子的置信度；

判断模块，用于如果所述置信度满足预设条件，则判断所述音频数据中音频句子的对应声学特征为可信指标。

优选的，所述获取模块用于：

从预处理后的音频句子的声音信号中提取对应的声学特征。

优选的，所述计算模块用于：

获取所述音频数据中对应音频句子中的音素信息；

优选的，所述获取模块，用于：

本发明不仅考虑了声学(人声朗读)发音质量的问题，还考虑了声学音频各个维度的声学特性，包括噪声大小(信噪比)，截幅，截断，语速，音量，人群(成人、儿童)等。可以有效地按各维度特性进行数据划分归类，提高了传统声学数据置信度计算的准确度，从而可以有效地判断声学特征是否为可以对声学数据进行标注的可信指标。

附图说明

图1为一实施例的声学数据的标注方法的流程图；

图2为一实施例的声学数据的标注装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一实施例的声学数据的标注方法的流程图。如图1所示，该方法包括：

步骤120，获取待标注数据中音频句子的声学特征，待标注数据为音频数据，音频数据包括至少一句音频句子，声学特征包括信噪比、截幅、截断、语速和音量；

步骤140，基于声学特征，采用预设的种子模型计算音频数据中对应音频句子的置信度；

步骤160，如果置信度满足预设条件，则判断音频数据中音频句子的对应声学特征为可信指标。

本实施例中，在确定声学特征为可信指标后，可以用这些声学特征来对对应的声学句子进行标注。根据这些标注结果(标注后的有效数据)，可以通过相关的评估算法和模型以评估学习者在学习外语时的发音质量。具体的算法可以参照现有的算法，本实施例不再具体赘述。

本实施例的一实现方式中，获取待标注数据中音频句子的声学特征，包括：

对标注数据中音频句子的声音信号进行预处理，预处理包括剔除冗余非人声段；

从预处理后的音频句子的声音信号中提取对应的声学特征。

其中，对声学信号进行预处理，可以是去除噪声等处理方式，还可以去除其中静音(非人声)时间过长的空白区域等。以上预处理只是本实施例的可以实现的方式，本实施例不限于其它方式。预处理后提取声学特征，可以使提取的声学特征更准确。

本实施例的另一实现方式中，基于声学特征计算音频数据中对应音频句子的置信度，包括：

采用预设的种子模型计算音频数据中对应音频句子的置信度。

其中，种子模型，是指利用已有人工标注的少量数据训练而得的基础模型。本实施例中，依靠种子模型可以对未标注的原始线上音频数据进行置信度计算。本实施例可以利用深度学习的技术训练模型，能够训练出一个高质量的种子模型。

本实施例中，基于声学特征计算音频数据中对应音频句子的置信度，包括：

获取音频数据中对应音频句子中的音素信息；

基于声学特征，以每个音素为单位计算音频数据中对应音频句子的置信度。

置信度是一种衡量自动标注结果是否可信的指标。可以利用深度学习的技术给出待标注数据的置信度，本实施例通过计算句子音频中更小单位(音素)的置信度，从而在丢弃无效数据时单位更小，丢弃率更低，从而提高置信度计算的准确性。

本实施例的另一实现方式中，获取待标注数据中音频句子的声学特征，包括：

基于预设的种子模型剔除待标注数据中音频句子的冗余的静音(非人声)段；

获取剔除静音段后的对应音频句子的声学特征。

可以理解，去除冗余的静音(非人声)段，可以更准确的获取声学特征。

图2为一实施例的声学数据的标注装置的结构图。如图2所示，该装置包括：

获取模块220，用于获取待标注数据中音频句子的声学特征，待标注数据为音频数据，音频数据包括至少一句音频句子，声学特征包括信噪比、截幅、截断、语速和音量；

计算模块240，用于基于声学特征计算音频数据中对应音频句子的置信度；

判断模块260，用于如果置信度满足预设条件，则判断音频数据中音频句子的对应声学特征为可信指标。

本发明不仅考虑了声学发音质量的问题，还考虑了声学音频各个维度的声学特性，包括噪声大小(信噪比)，截幅，截断，语速，音量，人群(成人、儿童)等。可以有效地按各维度特性进行数据划分归类，提高了传统声学数据置信度计算的准确度，从而可以有效地判断声学特征是否为可以对声学数据进行标注的可信指标。

在一实施例中，获取模块220用于：

对标注数据中音频句子的声音信号进行预处理；

从预处理后的音频句子的声音信号中提取对应的声学特征。

在一实施例中，计算模块240，用于：

在一实施例中，计算模块240用于：

获取音频数据中对应音频句子中的音素信息；

在一实施例中，获取模块220，用于：

获取剔除静音段后的对应音频句子的声学特征。

本发明以上装置的实施例与以上方法的实施例相同，具体可以参照以上方法的实施例部分，本实施例不再具体阐述。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种声学数据自动标注方法，其特征在于，包括：

对标注数据中音频句子的声音信号进行预处理，所述预处理包括剔除冗余非人声段；

从预处理后的音频句子的声音信号中提取对应的声学特征，基于预设的种子模型剔除待标注数据中音频句子的冗余静音段，

所述待标注数据为音频数据，所述音频数据包括至少一句音频句子，所述声学特征包括频谱、信噪比、截幅、截断、语速和音量；

获取所述音频数据中对应音频句子中的音素信息；

基于所述声学特征，采用预设的种子模型以每个音素为单位计算所述音频数据中对应音频句子的置信度，种子模型，是指利用已有人工标注的少量数据训练而得的基础模型；

2.一种声学数据自动标注装置，其特征在于，所述装置包括：

获取模块，对标注数据中音频句子的声音信号进行预处理，所述预处理包括剔除冗余非人声段；

从预处理后的音频句子的声音信号中提取对应的声学特征，基于预设的种子模型剔除待标注数据中音频句子的冗余静音段，所述待标注数据为音频数据，所述音频数据包括至少一句音频句子，所述声学特征包括信噪比、截幅、截断、语速和音量；

计算模块，获取所述音频数据中对应音频句子中的音素信息；