CN112786071A - 面向语音交互场景语音片段的数据标注方法 - Google Patents
面向语音交互场景语音片段的数据标注方法 Download PDFInfo
- Publication number
- CN112786071A CN112786071A CN202110040225.XA CN202110040225A CN112786071A CN 112786071 A CN112786071 A CN 112786071A CN 202110040225 A CN202110040225 A CN 202110040225A CN 112786071 A CN112786071 A CN 112786071A
- Authority
- CN
- China
- Prior art keywords
- voice
- frame
- data
- segment
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000003993 interaction Effects 0.000 title claims abstract description 11
- 238000009432 framing Methods 0.000 claims abstract description 15
- 238000007637 random forest analysis Methods 0.000 claims abstract description 15
- 238000001914 filtration Methods 0.000 claims abstract description 14
- 239000012634 fragment Substances 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims description 27
- 238000001514 detection method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 210000001260 vocal cord Anatomy 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 3
- 238000001228 spectrum Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Abstract
本发明涉及面向语音交互场景语音片段的数据标注方法。标注方法包括:步骤1:模型训练;步骤2:对待识别语音数据的语音信号分帧加窗滤波处理;将接收到的语音数据首先进行分帧处理,选择25ms为一帧,在对分帧后的结果进行加窗处理,使得没一帧能够在处理后更加的平滑,根据需要再进行滤波处理;步骤3:对待识别语音数据进行特征提取,提取短时能量,过零率,梅尔频率倒谱系数,音高,基音周期,信噪比,谐噪比,短时平均幅度;对于每一帧语音计算上述特征,帧语音与特征共同构成了接下来的随机森林的输入数据;步骤4:根据阈值,将每一帧的类型输出并组成序列。此技术能够较好的保证模型准确率,识别出相关不同类型的语音片段。
Description
技术领域:
本发明涉及一种音频处理技术,具体涉及面向语音交互场景语音片段的数据标注方法。
背景技术:
现有技术中,常见的自动化语音标注方法,是通过短时能量与过零率来进行检测,具体过程是获取一段语音,将语音转换成标准的数字信号,即将双声道语音转换成2列数组,将数字信号进行分帧处理,接着计算语音帧的短时能量以及过零率,通过设置的短时能量和过零率的阈值,来判断该段语音是噪音片段或静音片段。短时能量为一帧语音的能量,过零率为一帧语音穿过时间轴的次数,因此这种方法就须保证:在比较长的一段时间内,背景噪音平稳;语音的能量高于噪音的能量;语音谱比噪音谱更加有序;语音信号周期性比噪音的周期性好。
但在实际的检测中发现,由于环境的复杂性极高,必然造成了噪音的多样性,因此上述的条件并不能时时成立,存在识别的准确率低,如果阈值设置过高,会将有效语音识别成噪音,如果阈值设置过低,又会将噪音识别成有效语音。不能找到一个阈值将有效语音和噪音很好的分割开来。因此,需要一种新的面向语音交互场景语音片段的数据标注方法。
发明内容:
本发明提出了一种面向语音交互场景语音片段的数据标注方法。具体技术方案如下:
面向语音交互场景语音片段的数据标注方法,包括以下步骤:
步骤1:模型训练;具体过程包括:
步骤1.1:采用人工标准的方式确定哪些语音是噪音片段,哪些语音是静音片段,哪些语音是有效语音片段进行标注;
步骤1.2:语音信号分帧加窗滤波处理;将接收到的语音数据首先进行分帧处理,选择25ms为一帧,在对分帧后的结果进行加窗处理,使得每一帧能够在处理后更加的平滑,根据需要再进行滤波处理;
步骤1.3:语音特征提取,提取短时能量,过零率,梅尔频率倒谱系数,音高,基音周期,信噪比,谐噪比,短时平均幅度;对于每一帧语音计算上述特征,帧语音与特征共同构成了接下来的随机森林的输入数据;
步骤1.4:训练随机森林模型,从而确定出随机森林的参数即阈值;
步骤2:对待识别语音数据的语音信号分帧加窗滤波处理;将接收到的语音数据首先进行分帧处理,选择25ms为一帧,在对分帧后的结果进行加窗处理,使得每一帧能够在处理后更加的平滑,根据需要再进行滤波处理;
步骤3:对待识别语音数据进行特征提取,提取短时能量,过零率,梅尔频率倒谱系数,音高,基音周期,信噪比,谐噪比,短时平均幅度;对于每一帧语音计算上述特征,帧语音与特征共同构成了接下来的随机森林的输入数据;
步骤4:输出语音片段的类型:将未进行标记的每一帧语音片段进行步骤三的语音特征提取后,将相应的语音特征带入步骤1中训练好的模型中,得到未进行标记的每一帧语音片段的对应输出类型,即噪音片段、静音片段及有效语音片段三者中的一种,进一步将每一帧语音片段的对应输出类型组成序列,最终得到语音数据的活性检测结果。
优选方案一,所述步骤1.2或步骤2中加窗采用矩形窗:
优选方案二,所述步骤1.3或步骤3中,
音高:响度级为40phon,频率为1000Hz的声音的音高定义为1000Mel;
基音周期:声带每开启和闭合一次的时间,用自相关法估值;
谐噪比:即HNR,是语音中谐波成分和噪声成分的比率;
相对于现有技术,本发明具有以下优势:语音特征提取较多的特征,实现噪音,静音与有效语音相关特征的广泛参与,进一步提升准确率与泛化能力;使用随机森林模型克服了阈值难以设定的问题,同时由于随机森林模型是一种监督模型,在使用时需要经过标注数据的训练,因此能够较好的保证模型准确率,识别出不同类型的语音片段,有效提高了对供电用户故障报修电话语音自动化处理的效率及质量。
附图说明:
图1是本发明实施例中标识流程示意图。
具体实施方式:
实施例:
面向语音交互场景语音片段的数据标注方法,包括以下步骤:
步骤1:模型训练;具体过程包括:
步骤1.1:输入一段wav格式采样率为8KHz的录音单声道文件;如果为双声道则将双声道拆分成两个单声道;选取200个采样点数据为一帧语音数据;采用人工标准的方式确定哪些语音是噪音片段,哪些语音是静音片段,哪些语音是有效语音片段进行标注;
步骤1.2:语音信号分帧加窗滤波处理;将接收到的语音数据首先进行分帧处理,选取200个采样点数据为一帧语音片段,在对分帧后的结果进行加窗处理,使得每一帧能够在处理后更加的平滑,根据需要再进行滤波处理;加窗采用矩形窗其中N为一帧语音片段的采样点个数,n为音频采样点的位置,即第一个采样点为0,第二个采样点为1,以此类推;
步骤1.3:语音特征提取,提取短时能量,过零率,梅尔频率倒谱系数,音高,基音周期,信噪比,谐噪比,短时平均幅度;对于每一帧语音计算上述特征,帧语音与特征共同构成了接下来的随机森林的输入数据;
音高:响度级为40phon,频率为1000Hz的声音的音高定义为1000Mel;
基音周期:声带每开启和闭合一次的时间,用自相关法估值;
谐噪比:即HNR,是语音中谐波成分和噪声成分的比率;
步骤1.4:训练随机森林模型,从而确定出随机森林的参数即阈值;
步骤2:对待识别语音数据的语音信号分帧加窗滤波处理;将接收到的语音数据首先进行分帧处理,选取200个采样点数据为一帧语音片段,在对分帧后的结果进行加窗处理,使得没一帧能够在处理后更加的平滑,根据需要再进行滤波处理;
步骤3:对待识别语音数据进行特征提取,提取短时能量,过零率,梅尔频率倒谱系数,音高,基音周期,信噪比,谐噪比,短时平均幅度;计算方法同步骤1.3;对于每一帧语音计算上述特征,帧语音与特征共同构成了接下来的随机森林的输入数据;
步骤4:输出语音片段的类型:将未进行标记的每一帧语音片段进行步骤三的语音特征提取后,将相应的语音特征带入步骤1中训练好的模型中,得到未进行标记的每一帧语音片段的对应输出类型,即噪音片段、静音片段及有效语音片段三者中的一种,进一步将每一帧语音片段的对应输出类型组成序列,最终得到语音数据的活性检测结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.面向语音交互场景语音片段的数据标注方法,其特征在于,包括以下步骤:
步骤1:模型训练;具体过程包括:
步骤1.1:采用人工标准的方式确定哪些语音是噪音片段,哪些语音是静音片段,哪些语音是有效语音片段进行标注;
步骤1.2:语音信号分帧加窗滤波处理;将接收到的语音数据首先进行分帧处理,选取200个采样点数据为一帧语音片段,在对分帧后的结果进行加窗处理,使得每一帧能够在处理后更加的平滑,根据需要再进行滤波处理;
步骤1.3:语音特征提取,提取短时能量,过零率,梅尔频率倒谱系数,音高,基音周期,信噪比,谐噪比,短时平均幅度;对于每一帧语音计算上述特征,帧语音与特征共同构成了接下来的随机森林的输入数据;
步骤1.4:训练随机森林模型,从而确定出随机森林的参数即阈值;
步骤2:对待识别语音数据的语音信号分帧加窗滤波处理;将接收到的语音数据首先进行分帧处理,选取200个采样点数据为一帧语音片段,在对分帧后的结果进行加窗处理,使得每一帧能够在处理后更加的平滑,根据需要再进行滤波处理;
步骤3:对待识别语音数据进行特征提取,提取短时能量,过零率,梅尔频率倒谱系数,音高,基音周期,信噪比,谐噪比,短时平均幅度;对于每一帧语音计算上述特征,帧语音与特征共同构成了接下来的随机森林的输入数据;
步骤4:输出语音片段的类型:将未进行标记的每一帧语音片段进行步骤三的语音特征提取后,将相应的语音特征带入步骤1中训练好的模型中,得到未进行标记的每一帧语音片段的对应输出类型,即噪音片段、静音片段及有效语音片段三者中的一种,进一步将每一帧语音片段的对应输出类型组成序列,最终得到语音数据的活性检测结果。
3.根据权利要求1或2所述面向语音交互场景语音片段的数据标注方法,其特征在于,所述步骤1.3或步骤3中,
音高:响度级为40phon,频率为1000Hz的声音的音高定义为1000Mel;
基音周期:声带每开启和闭合一次的时间,用自相关法估值;
谐噪比:即HNR,是语音中谐波成分和噪声成分的比率;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110040225.XA CN112786071A (zh) | 2021-01-13 | 2021-01-13 | 面向语音交互场景语音片段的数据标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110040225.XA CN112786071A (zh) | 2021-01-13 | 2021-01-13 | 面向语音交互场景语音片段的数据标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112786071A true CN112786071A (zh) | 2021-05-11 |
Family
ID=75755574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110040225.XA Pending CN112786071A (zh) | 2021-01-13 | 2021-01-13 | 面向语音交互场景语音片段的数据标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112786071A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117040487A (zh) * | 2023-10-08 | 2023-11-10 | 武汉海微科技有限公司 | 音频信号处理的滤波方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104112453A (zh) * | 2014-04-09 | 2014-10-22 | 天津思博科科技发展有限公司 | 一种音频预处理系统 |
US20170309297A1 (en) * | 2016-04-22 | 2017-10-26 | Xerox Corporation | Methods and systems for classifying audio segments of an audio signal |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
CN111933175A (zh) * | 2020-08-06 | 2020-11-13 | 北京中电慧声科技有限公司 | 一种基于噪声场景识别的活动语音检测方法及系统 |
CN112151072A (zh) * | 2020-08-21 | 2020-12-29 | 北京搜狗科技发展有限公司 | 语音处理方法、装置和介质 |
-
2021
- 2021-01-13 CN CN202110040225.XA patent/CN112786071A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104112453A (zh) * | 2014-04-09 | 2014-10-22 | 天津思博科科技发展有限公司 | 一种音频预处理系统 |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
US20170309297A1 (en) * | 2016-04-22 | 2017-10-26 | Xerox Corporation | Methods and systems for classifying audio segments of an audio signal |
CN111933175A (zh) * | 2020-08-06 | 2020-11-13 | 北京中电慧声科技有限公司 | 一种基于噪声场景识别的活动语音检测方法及系统 |
CN112151072A (zh) * | 2020-08-21 | 2020-12-29 | 北京搜狗科技发展有限公司 | 语音处理方法、装置和介质 |
Non-Patent Citations (2)
Title |
---|
BOAT_LEE: "《语音信号中的特征提取》", 《CSDN》, 18 April 2016 (2016-04-18), pages 1 - 11 * |
田野等: "一种基于噪声场景识别与多特征集成学习的活动语音检测方法", 《电声技术》, vol. 44, no. 06, 5 June 2020 (2020-06-05), pages 28 - 31 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117040487A (zh) * | 2023-10-08 | 2023-11-10 | 武汉海微科技有限公司 | 音频信号处理的滤波方法、装置、设备及存储介质 |
CN117040487B (zh) * | 2023-10-08 | 2024-01-02 | 武汉海微科技有限公司 | 音频信号处理的滤波方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110148427B (zh) | 音频处理方法、装置、系统、存储介质、终端及服务器 | |
Zhou et al. | Efficient audio stream segmentation via the combined T/sup 2/statistic and Bayesian information criterion | |
CN102231278B (zh) | 实现语音识别中自动添加标点符号的方法及系统 | |
CN104900235B (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN111508498B (zh) | 对话式语音识别方法、系统、电子设备和存储介质 | |
Kos et al. | Acoustic classification and segmentation using modified spectral roll-off and variance-based features | |
US7269561B2 (en) | Bandwidth efficient digital voice communication system and method | |
US8326610B2 (en) | Producing phonitos based on feature vectors | |
JP2006079079A (ja) | 分散音声認識システム及びその方法 | |
US7120575B2 (en) | Method and system for the automatic segmentation of an audio stream into semantic or syntactic units | |
CN103915093B (zh) | 一种实现语音歌唱化的方法和装置 | |
CN112133277B (zh) | 样本生成方法及装置 | |
CN113192535B (zh) | 一种语音关键词检索方法、系统和电子装置 | |
JP2023507889A (ja) | オーディオ相互作用における感情検出 | |
CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
US6963835B2 (en) | Cascaded hidden Markov model for meta-state estimation | |
JP5385876B2 (ja) | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 | |
CN110782902A (zh) | 音频数据确定方法、装置、设备和介质 | |
Mamiya et al. | Lightly supervised GMM VAD to use audiobook for speech synthesiser | |
KR101022519B1 (ko) | 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 | |
CN111968622A (zh) | 一种基于注意力机制的语音识别方法、系统及装置 | |
CN112786071A (zh) | 面向语音交互场景语音片段的数据标注方法 | |
CN101281747A (zh) | 基于声道参数的汉语耳语音声调识别方法 | |
Li et al. | Detecting laughter in spontaneous speech by constructing laughter bouts | |
TW200811833A (en) | Detection method for voice activity endpoint |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210511 |
|
RJ01 | Rejection of invention patent application after publication |