CN110176251B - 一种声学数据自动标注方法及装置 - Google Patents
一种声学数据自动标注方法及装置 Download PDFInfo
- Publication number
- CN110176251B CN110176251B CN201910266707.XA CN201910266707A CN110176251B CN 110176251 B CN110176251 B CN 110176251B CN 201910266707 A CN201910266707 A CN 201910266707A CN 110176251 B CN110176251 B CN 110176251B
- Authority
- CN
- China
- Prior art keywords
- audio
- data
- acoustic
- labeled
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims abstract description 3
- 238000007781 pre-processing Methods 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 5
- 230000008030 elimination Effects 0.000 claims 1
- 238000003379 elimination reaction Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 11
- 238000000034 method Methods 0.000 abstract description 9
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及一种声学数据自动标注方法及装置,所述方法包括:获取待标注数据中音频句子的声学特征,所述待标注数据为音频数据,所述音频数据包括至少一句音频句子,所述声学特征包括频谱、信噪比、截幅、截断、语速和音量;基于所述声学特征计算所述音频数据中对应音频句子的置信度;如果所述置信度满足预设条件,则判断所述音频数据中音频句子的对应声学特征为可信指标。本发明通过各个维度的声学特性,可以有效地按各维度特性进行数据划分归类,提高了传统声学数据置信度计算的准确度,从而可以有效地判断声学特征是否为可以对声学数据进行标注的可信指标。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种声学数据自动标注方法及装置。
背景技术
随着全球化的不断发展,对外语学习的需求也大幅增加,其中一个方面是发音学习。有效地教授发音通常需要一对一的师生互动,这对许多学生来说是负担不起的。出于这个原因,自动(计算机辅助)发音教学一直是研究界的焦点。
其中,语音识别是计算机辨别人声最重要的技术。利用语音识别技术,通过提前准备(训练)好的语言模型和声学模型,可以识别出发音学习者朗读的词级序列和音素级序列。同时利用识别结果和相关算法可以评估出学习者发音质量。
语音识别中的声学模型,是一种直接反应朗读者发音质量的模型。随着大数据时代的到来和深度学习的数据量需求,如何高效地利用线上海量数据进行人工标注来(用于)训练基于深度学习框架的声学模型成为目前比较热门的一个研究课题。
数据只有通过人工标注(有正确标注的数据)才是可用的。然而通过人工手动标注海量数据,过程是缓慢的,开销是昂贵的。对于一些罕见的语言,它可能甚至是很难实现的。
发明内容
基于此,有必要针对目前人工标注效率低下的问题,提供一种声学数据自动标注方法及装置。
一种声学数据自动标注方法,包括:
获取待标注数据中音频句子的声学特征,所述待标注数据为音频数据,所述音频数据包括至少一句音频句子,所述声学特征包括频谱、信噪比、截幅、截断、语速和音量中;
基于所述声学特征,采用预设的种子模型计算所述音频数据中对应音频句子的置信度;
如果所述置信度满足预设条件,则判断所述音频数据中音频句子的对应声学特征为可信指标。
优选的,所述获取待标注数据中音频句子的声学特征,包括:
对所述标注数据中音频句子的声音信号进行预处理,所述预处理包括剔除冗余非人声段;
从预处理后的音频句子的声音信号中提取对应的声学特征。
优选的,所述基于所述声学特征计算所述音频数据中对应音频句子的置信度,包括:
获取所述音频数据中对应音频句子中的音素信息;
基于所述声学特征,采用预设的种子模型以每个音素为单位计算所述音频数据中对应音频句子的置信度。
优选的,所述获取待标注数据中音频句子的声学特征,包括:
基于预设的种子模型剔除所述待标注数据中音频句子的冗余静音段。
一种声学数据自动标注装置,所述装置包括:
获取模块,用于获取待标注数据中音频句子的声学特征,所述待标注数据为音频数据,所述音频数据包括至少一句音频句子,所述声学特征包括信噪比、截幅、截断、语速和音量;
计算模块,用于基于所述声学特征,采用预设的种子模型计算所述音频数据中对应音频句子的置信度;
判断模块,用于如果所述置信度满足预设条件,则判断所述音频数据中音频句子的对应声学特征为可信指标。
优选的,所述获取模块用于:
对所述标注数据中音频句子的声音信号进行预处理,所述预处理包括剔除冗余非人声段;
从预处理后的音频句子的声音信号中提取对应的声学特征。
优选的,所述计算模块用于:
获取所述音频数据中对应音频句子中的音素信息;
基于所述声学特征,采用预设的种子模型以每个音素为单位计算所述音频数据中对应音频句子的置信度。
优选的,所述获取模块,用于:
基于预设的种子模型剔除所述待标注数据中音频句子的冗余静音段。
本发明不仅考虑了声学(人声朗读)发音质量的问题,还考虑了声学音频各个维度的声学特性,包括噪声大小(信噪比),截幅,截断,语速,音量,人群(成人、儿童)等。可以有效地按各维度特性进行数据划分归类,提高了传统声学数据置信度计算的准确度,从而可以有效地判断声学特征是否为可以对声学数据进行标注的可信指标。
附图说明
图1为一实施例的声学数据的标注方法的流程图;
图2为一实施例的声学数据的标注装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一实施例的声学数据的标注方法的流程图。如图1所示,该方法包括:
步骤120,获取待标注数据中音频句子的声学特征,待标注数据为音频数据,音频数据包括至少一句音频句子,声学特征包括信噪比、截幅、截断、语速和音量;
步骤140,基于声学特征,采用预设的种子模型计算音频数据中对应音频句子的置信度;
步骤160,如果置信度满足预设条件,则判断音频数据中音频句子的对应声学特征为可信指标。
本发明不仅考虑了声学(人声朗读)发音质量的问题,还考虑了声学音频各个维度的声学特性,包括噪声大小(信噪比),截幅,截断,语速,音量,人群(成人、儿童)等。可以有效地按各维度特性进行数据划分归类,提高了传统声学数据置信度计算的准确度,从而可以有效地判断声学特征是否为可以对声学数据进行标注的可信指标。
本实施例中,在确定声学特征为可信指标后,可以用这些声学特征来对对应的声学句子进行标注。根据这些标注结果(标注后的有效数据),可以通过相关的评估算法和模型以评估学习者在学习外语时的发音质量。具体的算法可以参照现有的算法,本实施例不再具体赘述。
本实施例的一实现方式中,获取待标注数据中音频句子的声学特征,包括:
对标注数据中音频句子的声音信号进行预处理,预处理包括剔除冗余非人声段;
从预处理后的音频句子的声音信号中提取对应的声学特征。
其中,对声学信号进行预处理,可以是去除噪声等处理方式,还可以去除其中静音(非人声)时间过长的空白区域等。以上预处理只是本实施例的可以实现的方式,本实施例不限于其它方式。预处理后提取声学特征,可以使提取的声学特征更准确。
本实施例的另一实现方式中,基于声学特征计算音频数据中对应音频句子的置信度,包括:
采用预设的种子模型计算音频数据中对应音频句子的置信度。
其中,种子模型,是指利用已有人工标注的少量数据训练而得的基础模型。本实施例中,依靠种子模型可以对未标注的原始线上音频数据进行置信度计算。本实施例可以利用深度学习的技术训练模型,能够训练出一个高质量的种子模型。
本实施例中,基于声学特征计算音频数据中对应音频句子的置信度,包括:
获取音频数据中对应音频句子中的音素信息;
基于声学特征,以每个音素为单位计算音频数据中对应音频句子的置信度。
置信度是一种衡量自动标注结果是否可信的指标。可以利用深度学习的技术给出待标注数据的置信度,本实施例通过计算句子音频中更小单位(音素)的置信度,从而在丢弃无效数据时单位更小,丢弃率更低,从而提高置信度计算的准确性。
本实施例的另一实现方式中,获取待标注数据中音频句子的声学特征,包括:
基于预设的种子模型剔除待标注数据中音频句子的冗余的静音(非人声)段;
获取剔除静音段后的对应音频句子的声学特征。
可以理解,去除冗余的静音(非人声)段,可以更准确的获取声学特征。
图2为一实施例的声学数据的标注装置的结构图。如图2所示,该装置包括:
获取模块220,用于获取待标注数据中音频句子的声学特征,待标注数据为音频数据,音频数据包括至少一句音频句子,声学特征包括信噪比、截幅、截断、语速和音量;
计算模块240,用于基于声学特征计算音频数据中对应音频句子的置信度;
判断模块260,用于如果置信度满足预设条件,则判断音频数据中音频句子的对应声学特征为可信指标。
本发明不仅考虑了声学发音质量的问题,还考虑了声学音频各个维度的声学特性,包括噪声大小(信噪比),截幅,截断,语速,音量,人群(成人、儿童)等。可以有效地按各维度特性进行数据划分归类,提高了传统声学数据置信度计算的准确度,从而可以有效地判断声学特征是否为可以对声学数据进行标注的可信指标。
在一实施例中,获取模块220用于:
对标注数据中音频句子的声音信号进行预处理;
从预处理后的音频句子的声音信号中提取对应的声学特征。
在一实施例中,计算模块240,用于:
采用预设的种子模型计算音频数据中对应音频句子的置信度。
在一实施例中,计算模块240用于:
获取音频数据中对应音频句子中的音素信息;
基于声学特征,以每个音素为单位计算音频数据中对应音频句子的置信度。
在一实施例中,获取模块220,用于:
基于预设的种子模型剔除待标注数据中音频句子的冗余的静音(非人声)段;
获取剔除静音段后的对应音频句子的声学特征。
本发明以上装置的实施例与以上方法的实施例相同,具体可以参照以上方法的实施例部分,本实施例不再具体阐述。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (2)
1.一种声学数据自动标注方法,其特征在于,包括:
对标注数据中音频句子的声音信号进行预处理,所述预处理包括剔除冗余非人声段;
从预处理后的音频句子的声音信号中提取对应的声学特征,基于预设的种子模型剔除待标注数据中音频句子的冗余静音段,
所述待标注数据为音频数据,所述音频数据包括至少一句音频句子,所述声学特征包括频谱、信噪比、截幅、截断、语速和音量;
获取所述音频数据中对应音频句子中的音素信息;
基于所述声学特征,采用预设的种子模型以每个音素为单位计算所述音频数据中对应音频句子的置信度,种子模型,是指利用已有人工标注的少量数据训练而得的基础模型;
如果所述置信度满足预设条件,则判断所述音频数据中音频句子的对应声学特征为可信指标。
2.一种声学数据自动标注装置,其特征在于,所述装置包括:
获取模块,对标注数据中音频句子的声音信号进行预处理,所述预处理包括剔除冗余非人声段;
从预处理后的音频句子的声音信号中提取对应的声学特征,基于预设的种子模型剔除待标注数据中音频句子的冗余静音段,所述待标注数据为音频数据,所述音频数据包括至少一句音频句子,所述声学特征包括信噪比、截幅、截断、语速和音量;
计算模块,获取所述音频数据中对应音频句子中的音素信息;
基于所述声学特征,采用预设的种子模型以每个音素为单位计算所述音频数据中对应音频句子的置信度,种子模型,是指利用已有人工标注的少量数据训练而得的基础模型;
判断模块,用于如果所述置信度满足预设条件,则判断所述音频数据中音频句子的对应声学特征为可信指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910266707.XA CN110176251B (zh) | 2019-04-03 | 2019-04-03 | 一种声学数据自动标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910266707.XA CN110176251B (zh) | 2019-04-03 | 2019-04-03 | 一种声学数据自动标注方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110176251A CN110176251A (zh) | 2019-08-27 |
CN110176251B true CN110176251B (zh) | 2021-12-21 |
Family
ID=67689394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910266707.XA Active CN110176251B (zh) | 2019-04-03 | 2019-04-03 | 一种声学数据自动标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110176251B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113066482A (zh) * | 2019-12-13 | 2021-07-02 | 阿里巴巴集团控股有限公司 | 语音模型更新、语音数据处理方法、设备及存储介质 |
CN111369977A (zh) * | 2020-03-02 | 2020-07-03 | 上海乂学教育科技有限公司 | 中文诵读训练系统 |
CN111341305B (zh) * | 2020-03-05 | 2023-09-26 | 苏宁云计算有限公司 | 一种音频数据标注方法、装置及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104681036A (zh) * | 2014-11-20 | 2015-06-03 | 苏州驰声信息科技有限公司 | 一种语言音频的检测系统及方法 |
CN107578769A (zh) * | 2016-07-04 | 2018-01-12 | 科大讯飞股份有限公司 | 语音数据标注方法和装置 |
CN108877778A (zh) * | 2018-06-13 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法及设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7152029B2 (en) * | 2001-07-18 | 2006-12-19 | At&T Corp. | Spoken language understanding that incorporates prior knowledge into boosting |
CN101894549A (zh) * | 2010-06-24 | 2010-11-24 | 中国科学院声学研究所 | 一种语音识别应用领域中的置信度快速计算方法 |
CN101996635B (zh) * | 2010-08-30 | 2012-02-08 | 清华大学 | 基于重音突显度的英语发音质量评价方法 |
-
2019
- 2019-04-03 CN CN201910266707.XA patent/CN110176251B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104681036A (zh) * | 2014-11-20 | 2015-06-03 | 苏州驰声信息科技有限公司 | 一种语言音频的检测系统及方法 |
CN107578769A (zh) * | 2016-07-04 | 2018-01-12 | 科大讯飞股份有限公司 | 语音数据标注方法和装置 |
CN108877778A (zh) * | 2018-06-13 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110176251A (zh) | 2019-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105845134B (zh) | 自由朗读题型的口语评测方法及系统 | |
CN101751919B (zh) | 一种汉语口语重音自动检测方法 | |
CN110176251B (zh) | 一种声学数据自动标注方法及装置 | |
CN108766415B (zh) | 一种语音测评方法 | |
CN102376182B (zh) | 语言学习系统、语言学习方法及其程序产品 | |
CN102426834B (zh) | 测试英文口语韵律水平的方法 | |
CN109697988B (zh) | 一种语音评价方法及装置 | |
CN107818795B (zh) | 一种英语口语的测评方法及装置 | |
CN109697975B (zh) | 一种语音评价方法及装置 | |
CN113393841B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN112767961B (zh) | 一种基于云端计算的口音矫正方法 | |
Shufang | Design of an automatic english pronunciation error correction system based on radio magnetic pronunciation recording devices | |
CN110992986B (zh) | 单词音节重读检错方法、装置、电子设备和存储介质 | |
Díez et al. | Non-native speech corpora for the development of computer assisted pronunciation training systems | |
CN114078470A (zh) | 模型处理方法及装置、语音识别方法及装置 | |
Bai | Pronunciation Tutor for Deaf Children based on ASR | |
CN112951276B (zh) | 一种综合评价语音的方法、装置及电子设备 | |
Li et al. | English sentence pronunciation evaluation using rhythm and intonation | |
CN112151018A (zh) | 语音评测及语音识别方法、装置、设备及存储介质 | |
Cucchiarini et al. | The Nature of Phonetic Transcription | |
CN113611287B (zh) | 一种基于机器学习的发音纠错方法和系统 | |
CN114783412B (zh) | 一种西班牙语口语发音训练纠正方法及系统 | |
CN116543760A (zh) | 基于人工智能的口语教学评估方法 | |
Zhang | Research on Regression Model of Multi-parameter English Pronunciation Quality Evaluation Based on Computer Technology | |
CN101546554A (zh) | 一种汉语普通话中清擦音和塞擦音的客观测试方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |