CN110176251A - 一种声学数据自动标注方法及装置 - Google Patents

一种声学数据自动标注方法及装置 Download PDF

Info

Publication number
CN110176251A
CN110176251A CN201910266707.XA CN201910266707A CN110176251A CN 110176251 A CN110176251 A CN 110176251A CN 201910266707 A CN201910266707 A CN 201910266707A CN 110176251 A CN110176251 A CN 110176251A
Authority
CN
China
Prior art keywords
sentence
data
audio
acoustic feature
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910266707.XA
Other languages
English (en)
Other versions
CN110176251B (zh
Inventor
惠寅华
薛文韬
蔡雅莉
林远东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Chisheng Information Technology Co Ltd
Original Assignee
Suzhou Chisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Chisheng Information Technology Co Ltd filed Critical Suzhou Chisheng Information Technology Co Ltd
Priority to CN201910266707.XA priority Critical patent/CN110176251B/zh
Publication of CN110176251A publication Critical patent/CN110176251A/zh
Application granted granted Critical
Publication of CN110176251B publication Critical patent/CN110176251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Abstract

本发明涉及一种声学数据自动标注方法及装置,所述方法包括:获取待标注数据中音频句子的声学特征,所述待标注数据为音频数据,所述音频数据包括至少一句音频句子,所述声学特征包括频谱、信噪比、截幅、截断、语速和音量;基于所述声学特征计算所述音频数据中对应音频句子的置信度;如果所述置信度满足预设条件,则判断所述音频数据中音频句子的对应声学特征为可信指标。本发明通过各个维度的声学特性,可以有效地按各维度特性进行数据划分归类,提高了传统声学数据置信度计算的准确度,从而可以有效地判断声学特征是否为可以对声学数据进行标注的可信指标。

Description

一种声学数据自动标注方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种声学数据自动标注方法及装置。
背景技术
随着全球化的不断发展,对外语学习的需求也大幅增加,其中一个方面是发音学习。有效地教授发音通常需要一对一的师生互动,这对许多学生来说是负担不起的。出于这个原因,自动(计算机辅助)发音教学一直是研究界的焦点。
其中,语音识别是计算机辨别人声最重要的技术。利用语音识别技术,通过提前准备(训练)好的语言模型和声学模型,可以识别出发音学习者朗读的词级序列和音素级序列。同时利用识别结果和相关算法可以评估出学习者发音质量。
语音识别中的声学模型,是一种直接反应朗读者发音质量的模型。随着大数据时代的到来和深度学习的数据量需求,如何高效地利用线上海量数据进行人工标注来(用于)训练基于深度学习框架的声学模型成为目前比较热门的一个研究课题。
数据只有通过人工标注(有正确标注的数据)才是可用的。然而通过人工手动标注海量数据,过程是缓慢的,开销是昂贵的。对于一些罕见的语言,它可能甚至是很难实现的。
发明内容
基于此,有必要针对目前人工标注效率低下的问题,提供一种声学数据自动标注方法及装置。
一种声学数据自动标注方法,包括:
获取待标注数据中音频句子的声学特征,所述待标注数据为音频数据,所述音频数据包括至少一句音频句子,所述声学特征包括频谱、信噪比、截幅、截断、语速和音量中;
基于所述声学特征,采用预设的种子模型计算所述音频数据中对应音频句子的置信度;
如果所述置信度满足预设条件,则判断所述音频数据中音频句子的对应声学特征为可信指标。
优选的,所述获取待标注数据中音频句子的声学特征,包括:
对所述标注数据中音频句子的声音信号进行预处理,所述预处理包括剔除冗余非人声段;
从预处理后的音频句子的声音信号中提取对应的声学特征。
优选的,所述基于所述声学特征计算所述音频数据中对应音频句子的置信度,包括:
获取所述音频数据中对应音频句子中的音素信息;
基于所述声学特征,采用预设的种子模型以每个音素为单位计算所述音频数据中对应音频句子的置信度。
优选的,所述获取待标注数据中音频句子的声学特征,包括:
基于预设的种子模型剔除所述待标注数据中音频句子的冗余静音段。
一种声学数据自动标注装置,所述装置包括:
获取模块,用于获取待标注数据中音频句子的声学特征,所述待标注数据为音频数据,所述音频数据包括至少一句音频句子,所述声学特征包括信噪比、截幅、截断、语速和音量;
计算模块,用于基于所述声学特征,采用预设的种子模型计算所述音频数据中对应音频句子的置信度;
判断模块,用于如果所述置信度满足预设条件,则判断所述音频数据中音频句子的对应声学特征为可信指标。
优选的,所述获取模块用于:
对所述标注数据中音频句子的声音信号进行预处理,所述预处理包括剔除冗余非人声段;
从预处理后的音频句子的声音信号中提取对应的声学特征。
优选的,所述计算模块用于:
获取所述音频数据中对应音频句子中的音素信息;
基于所述声学特征,采用预设的种子模型以每个音素为单位计算所述音频数据中对应音频句子的置信度。
优选的,所述获取模块,用于:
基于预设的种子模型剔除所述待标注数据中音频句子的冗余静音段。
本发明不仅考虑了声学(人声朗读)发音质量的问题,还考虑了声学音频各个维度的声学特性,包括噪声大小(信噪比),截幅,截断,语速,音量,人群(成人、儿童)等。可以有效地按各维度特性进行数据划分归类,提高了传统声学数据置信度计算的准确度,从而可以有效地判断声学特征是否为可以对声学数据进行标注的可信指标。
附图说明
图1为一实施例的声学数据的标注方法的流程图;
图2为一实施例的声学数据的标注装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一实施例的声学数据的标注方法的流程图。如图1所示,该方法包括:
步骤120,获取待标注数据中音频句子的声学特征,待标注数据为音频数据,音频数据包括至少一句音频句子,声学特征包括信噪比、截幅、截断、语速和音量;
步骤140,基于声学特征,采用预设的种子模型计算音频数据中对应音频句子的置信度;
步骤160,如果置信度满足预设条件,则判断音频数据中音频句子的对应声学特征为可信指标。
本发明不仅考虑了声学(人声朗读)发音质量的问题,还考虑了声学音频各个维度的声学特性,包括噪声大小(信噪比),截幅,截断,语速,音量,人群(成人、儿童)等。可以有效地按各维度特性进行数据划分归类,提高了传统声学数据置信度计算的准确度,从而可以有效地判断声学特征是否为可以对声学数据进行标注的可信指标。
本实施例中,在确定声学特征为可信指标后,可以用这些声学特征来对对应的声学句子进行标注。根据这些标注结果(标注后的有效数据),可以通过相关的评估算法和模型以评估学习者在学习外语时的发音质量。具体的算法可以参照现有的算法,本实施例不再具体赘述。
本实施例的一实现方式中,获取待标注数据中音频句子的声学特征,包括:
对标注数据中音频句子的声音信号进行预处理,预处理包括剔除冗余非人声段;
从预处理后的音频句子的声音信号中提取对应的声学特征。
其中,对声学信号进行预处理,可以是去除噪声等处理方式,还可以去除其中静音(非人声)时间过长的空白区域等。以上预处理只是本实施例的可以实现的方式,本实施例不限于其它方式。预处理后提取声学特征,可以使提取的声学特征更准确。
本实施例的另一实现方式中,基于声学特征计算音频数据中对应音频句子的置信度,包括:
采用预设的种子模型计算音频数据中对应音频句子的置信度。
其中,种子模型,是指利用已有人工标注的少量数据训练而得的基础模型。本实施例中,依靠种子模型可以对未标注的原始线上音频数据进行置信度计算。本实施例可以利用深度学习的技术训练模型,能够训练出一个高质量的种子模型。
本实施例中,基于声学特征计算音频数据中对应音频句子的置信度,包括:
获取音频数据中对应音频句子中的音素信息;
基于声学特征,以每个音素为单位计算音频数据中对应音频句子的置信度。
置信度是一种衡量自动标注结果是否可信的指标。可以利用深度学习的技术给出待标注数据的置信度,本实施例通过计算句子音频中更小单位(音素)的置信度,从而在丢弃无效数据时单位更小,丢弃率更低,从而提高置信度计算的准确性。
本实施例的另一实现方式中,获取待标注数据中音频句子的声学特征,包括:
基于预设的种子模型剔除待标注数据中音频句子的冗余的静音(非人声)段;
获取剔除静音段后的对应音频句子的声学特征。
可以理解,去除冗余的静音(非人声)段,可以更准确的获取声学特征。
图2为一实施例的声学数据的标注装置的结构图。如图2所示,该装置包括:
获取模块220,用于获取待标注数据中音频句子的声学特征,待标注数据为音频数据,音频数据包括至少一句音频句子,声学特征包括信噪比、截幅、截断、语速和音量;
计算模块240,用于基于声学特征计算音频数据中对应音频句子的置信度;
判断模块260,用于如果置信度满足预设条件,则判断音频数据中音频句子的对应声学特征为可信指标。
本发明不仅考虑了声学发音质量的问题,还考虑了声学音频各个维度的声学特性,包括噪声大小(信噪比),截幅,截断,语速,音量,人群(成人、儿童)等。可以有效地按各维度特性进行数据划分归类,提高了传统声学数据置信度计算的准确度,从而可以有效地判断声学特征是否为可以对声学数据进行标注的可信指标。
在一实施例中,获取模块220用于:
对标注数据中音频句子的声音信号进行预处理;
从预处理后的音频句子的声音信号中提取对应的声学特征。
在一实施例中,计算模块240,用于:
采用预设的种子模型计算音频数据中对应音频句子的置信度。
在一实施例中,计算模块240用于:
获取音频数据中对应音频句子中的音素信息;
基于声学特征,以每个音素为单位计算音频数据中对应音频句子的置信度。
在一实施例中,获取模块220,用于:
基于预设的种子模型剔除待标注数据中音频句子的冗余的静音(非人声)段;
获取剔除静音段后的对应音频句子的声学特征。
本发明以上装置的实施例与以上方法的实施例相同,具体可以参照以上方法的实施例部分,本实施例不再具体阐述。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种声学数据自动标注方法,其特征在于,包括:
获取待标注数据中音频句子的声学特征,所述待标注数据为音频数据,所述音频数据包括至少一句音频句子,所述声学特征包括频谱、信噪比、截幅、截断、语速和音量中;
基于所述声学特征,采用预设的种子模型计算所述音频数据中对应音频句子的置信度;
如果所述置信度满足预设条件,则判断所述音频数据中音频句子的对应声学特征为可信指标。
2.根据权利要求1所述的,其特征在于,所述获取待标注数据中音频句子的声学特征,包括:
对所述标注数据中音频句子的声音信号进行预处理,所述预处理包括剔除冗余非人声段;
从预处理后的音频句子的声音信号中提取对应的声学特征。
3.根据权利要求1所述的方法,其特征在于,所述基于所述声学特征计算所述音频数据中对应音频句子的置信度,包括:
获取所述音频数据中对应音频句子中的音素信息;
基于所述声学特征,采用预设的种子模型以每个音素为单位计算所述音频数据中对应音频句子的置信度。
4.根据权利要求1所述的方法,其特征在于,所述获取待标注数据中音频句子的声学特征,包括:
基于预设的种子模型剔除所述待标注数据中音频句子的冗余静音段。
5.一种声学数据自动标注装置,其特征在于,所述装置包括:
获取模块,用于获取待标注数据中音频句子的声学特征,所述待标注数据为音频数据,所述音频数据包括至少一句音频句子,所述声学特征包括信噪比、截幅、截断、语速和音量;
计算模块,用于基于所述声学特征,采用预设的种子模型计算所述音频数据中对应音频句子的置信度;
判断模块,用于如果所述置信度满足预设条件,则判断所述音频数据中音频句子的对应声学特征为可信指标。
6.根据权利要求5所述的装置,其特征在于,所述获取模块用于:
对所述标注数据中音频句子的声音信号进行预处理,所述预处理包括剔除冗余非人声段;
从预处理后的音频句子的声音信号中提取对应的声学特征。
7.根据权利要求5所述的装置,其特征在于,所述计算模块用于:
获取所述音频数据中对应音频句子中的音素信息;
基于所述声学特征,采用预设的种子模型以每个音素为单位计算所述音频数据中对应音频句子的置信度。
8.根据权利要求5所述的装置,其特征在于,所述获取模块,用于:
基于预设的种子模型剔除所述待标注数据中音频句子的冗余静音段。
CN201910266707.XA 2019-04-03 2019-04-03 一种声学数据自动标注方法及装置 Active CN110176251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910266707.XA CN110176251B (zh) 2019-04-03 2019-04-03 一种声学数据自动标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910266707.XA CN110176251B (zh) 2019-04-03 2019-04-03 一种声学数据自动标注方法及装置

Publications (2)

Publication Number Publication Date
CN110176251A true CN110176251A (zh) 2019-08-27
CN110176251B CN110176251B (zh) 2021-12-21

Family

ID=67689394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910266707.XA Active CN110176251B (zh) 2019-04-03 2019-04-03 一种声学数据自动标注方法及装置

Country Status (1)

Country Link
CN (1) CN110176251B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341305A (zh) * 2020-03-05 2020-06-26 苏宁云计算有限公司 一种音频数据标注方法、装置及系统
CN111369977A (zh) * 2020-03-02 2020-07-03 上海乂学教育科技有限公司 中文诵读训练系统
CN113066482A (zh) * 2019-12-13 2021-07-02 阿里巴巴集团控股有限公司 语音模型更新、语音数据处理方法、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1280136A1 (en) * 2001-07-18 2003-01-29 AT&T Corp. Spoken language understanding that incorporates prior knowledge into boosting
CN101894549A (zh) * 2010-06-24 2010-11-24 中国科学院声学研究所 一种语音识别应用领域中的置信度快速计算方法
CN101996635A (zh) * 2010-08-30 2011-03-30 清华大学 基于重音突显度的英语发音质量评价方法
CN104681036A (zh) * 2014-11-20 2015-06-03 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
CN107578769A (zh) * 2016-07-04 2018-01-12 科大讯飞股份有限公司 语音数据标注方法和装置
CN108877778A (zh) * 2018-06-13 2018-11-23 百度在线网络技术(北京)有限公司 语音端点检测方法及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1280136A1 (en) * 2001-07-18 2003-01-29 AT&T Corp. Spoken language understanding that incorporates prior knowledge into boosting
CN101894549A (zh) * 2010-06-24 2010-11-24 中国科学院声学研究所 一种语音识别应用领域中的置信度快速计算方法
CN101996635A (zh) * 2010-08-30 2011-03-30 清华大学 基于重音突显度的英语发音质量评价方法
CN104681036A (zh) * 2014-11-20 2015-06-03 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
CN107578769A (zh) * 2016-07-04 2018-01-12 科大讯飞股份有限公司 语音数据标注方法和装置
CN108877778A (zh) * 2018-06-13 2018-11-23 百度在线网络技术(北京)有限公司 语音端点检测方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王兮楼等: "基于解码多候选结果的半监督数据挑选的语音识别", 《模式识别与人工智能》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066482A (zh) * 2019-12-13 2021-07-02 阿里巴巴集团控股有限公司 语音模型更新、语音数据处理方法、设备及存储介质
CN111369977A (zh) * 2020-03-02 2020-07-03 上海乂学教育科技有限公司 中文诵读训练系统
CN111341305A (zh) * 2020-03-05 2020-06-26 苏宁云计算有限公司 一种音频数据标注方法、装置及系统
CN111341305B (zh) * 2020-03-05 2023-09-26 苏宁云计算有限公司 一种音频数据标注方法、装置及系统

Also Published As

Publication number Publication date
CN110176251B (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
CN101246685B (zh) 计算机辅助语言学习系统中的发音质量评价方法
CN109599093B (zh) 智能质检的关键词检测方法、装置、设备及可读存储介质
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
CN100411011C (zh) 用于语言学习机的发音质量评价方法
CN110148394B (zh) 歌声合成方法、装置、计算机设备及存储介质
CN103761975B (zh) 一种口语评测方法及装置
CN108847215B (zh) 基于用户音色进行语音合成的方法及装置
CN103985381B (zh) 一种基于参数融合优化决策的音频索引方法
CN110176251A (zh) 一种声学数据自动标注方法及装置
CN111833853A (zh) 语音处理方法及装置、电子设备、计算机可读存储介质
CN111243569B (zh) 基于生成式对抗网络的情感语音自动生成方法及装置
CN103559892A (zh) 口语评测方法及系统
CN106782603A (zh) 智能语音评测方法及系统
CN112802456A (zh) 一种语音评测打分方法、装置、电子设备及存储介质
CN112270933A (zh) 一种音频识别方法和装置
CN112185363A (zh) 音频处理方法及装置
CN104700831B (zh) 分析音频文件的语音特征的方法和装置
Neumeyer et al. Webgrader: a multilingual pronunciation practice tool
CN115440193A (zh) 一种基于深度学习的发音评测打分方法
Shufang Design of an automatic english pronunciation error correction system based on radio magnetic pronunciation recording devices
CN113506563A (zh) 一种发音识别的方法、装置及电子设备
Huckvale Within-speaker features for native language recognition in the interspeech 2016 computational paralinguistics challenge
Tao et al. Self-study system assessment of spoken English considering the speech scientific computing knowledge assessment algorithm
Shen et al. Solfeggio Teaching Method Based on MIDI Technology in the Background of Digital Music Teaching
Sztaho et al. Subjective tests and automatic sentence modality recognition with recordings of speech impaired children

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant