CN112786071A - 面向语音交互场景语音片段的数据标注方法 - Google Patents

面向语音交互场景语音片段的数据标注方法 Download PDF

Info

Publication number
CN112786071A
CN112786071A CN202110040225.XA CN202110040225A CN112786071A CN 112786071 A CN112786071 A CN 112786071A CN 202110040225 A CN202110040225 A CN 202110040225A CN 112786071 A CN112786071 A CN 112786071A
Authority
CN
China
Prior art keywords
voice
frame
data
segment
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110040225.XA
Other languages
English (en)
Inventor
杜文勇
马永波
申蕾
刘娟
王笑一
安业腾
巫乾军
陈宇航
张邵韡
董蓓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Co ltd Customer Service Center
Original Assignee
State Grid Co ltd Customer Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Co ltd Customer Service Center filed Critical State Grid Co ltd Customer Service Center
Priority to CN202110040225.XA priority Critical patent/CN112786071A/zh
Publication of CN112786071A publication Critical patent/CN112786071A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Abstract

本发明涉及面向语音交互场景语音片段的数据标注方法。标注方法包括:步骤1:模型训练;步骤2:对待识别语音数据的语音信号分帧加窗滤波处理;将接收到的语音数据首先进行分帧处理,选择25ms为一帧,在对分帧后的结果进行加窗处理,使得没一帧能够在处理后更加的平滑,根据需要再进行滤波处理;步骤3:对待识别语音数据进行特征提取,提取短时能量,过零率,梅尔频率倒谱系数,音高,基音周期,信噪比,谐噪比,短时平均幅度;对于每一帧语音计算上述特征,帧语音与特征共同构成了接下来的随机森林的输入数据;步骤4:根据阈值,将每一帧的类型输出并组成序列。此技术能够较好的保证模型准确率,识别出相关不同类型的语音片段。

Description

面向语音交互场景语音片段的数据标注方法
技术领域:
本发明涉及一种音频处理技术,具体涉及面向语音交互场景语音片段的数据标注方法。
背景技术:
现有技术中,常见的自动化语音标注方法,是通过短时能量与过零率来进行检测,具体过程是获取一段语音,将语音转换成标准的数字信号,即将双声道语音转换成2列数组,将数字信号进行分帧处理,接着计算语音帧的短时能量以及过零率,通过设置的短时能量和过零率的阈值,来判断该段语音是噪音片段或静音片段。短时能量为一帧语音的能量,过零率为一帧语音穿过时间轴的次数,因此这种方法就须保证:在比较长的一段时间内,背景噪音平稳;语音的能量高于噪音的能量;语音谱比噪音谱更加有序;语音信号周期性比噪音的周期性好。
但在实际的检测中发现,由于环境的复杂性极高,必然造成了噪音的多样性,因此上述的条件并不能时时成立,存在识别的准确率低,如果阈值设置过高,会将有效语音识别成噪音,如果阈值设置过低,又会将噪音识别成有效语音。不能找到一个阈值将有效语音和噪音很好的分割开来。因此,需要一种新的面向语音交互场景语音片段的数据标注方法。
发明内容:
本发明提出了一种面向语音交互场景语音片段的数据标注方法。具体技术方案如下:
面向语音交互场景语音片段的数据标注方法,包括以下步骤:
步骤1:模型训练;具体过程包括:
步骤1.1:采用人工标准的方式确定哪些语音是噪音片段,哪些语音是静音片段,哪些语音是有效语音片段进行标注;
步骤1.2:语音信号分帧加窗滤波处理;将接收到的语音数据首先进行分帧处理,选择25ms为一帧,在对分帧后的结果进行加窗处理,使得每一帧能够在处理后更加的平滑,根据需要再进行滤波处理;
步骤1.3:语音特征提取,提取短时能量,过零率,梅尔频率倒谱系数,音高,基音周期,信噪比,谐噪比,短时平均幅度;对于每一帧语音计算上述特征,帧语音与特征共同构成了接下来的随机森林的输入数据;
步骤1.4:训练随机森林模型,从而确定出随机森林的参数即阈值;
步骤2:对待识别语音数据的语音信号分帧加窗滤波处理;将接收到的语音数据首先进行分帧处理,选择25ms为一帧,在对分帧后的结果进行加窗处理,使得每一帧能够在处理后更加的平滑,根据需要再进行滤波处理;
步骤3:对待识别语音数据进行特征提取,提取短时能量,过零率,梅尔频率倒谱系数,音高,基音周期,信噪比,谐噪比,短时平均幅度;对于每一帧语音计算上述特征,帧语音与特征共同构成了接下来的随机森林的输入数据;
步骤4:输出语音片段的类型:将未进行标记的每一帧语音片段进行步骤三的语音特征提取后,将相应的语音特征带入步骤1中训练好的模型中,得到未进行标记的每一帧语音片段的对应输出类型,即噪音片段、静音片段及有效语音片段三者中的一种,进一步将每一帧语音片段的对应输出类型组成序列,最终得到语音数据的活性检测结果。
优选方案一,所述步骤1.2或步骤2中加窗采用矩形窗:
Figure BDA0002895093500000031
其中N为一帧语音片段的采样点个数,n为音频采样点的位置,即第一个采样点为0,第二个采样点为1,以此类推。
优选方案二,所述步骤1.3或步骤3中,
短时能量:
Figure BDA0002895093500000032
其中n为需要计算短时能量的采样位置,m为整数,x(m)为音频第m个采样结果,w(n-m)为窗函数,h(n)=w(n)2
过零率:
Figure BDA0002895093500000033
其中s是采样点的值,T为帧长,函数π{A}在A为真是值为1,否则为0;当帧长T固定后,t的取值为1≤t≤T-1;
梅尔频率倒谱系数(MFCC):
Figure BDA0002895093500000034
其中,f为频率;
音高:响度级为40phon,频率为1000Hz的声音的音高定义为1000Mel;
基音周期:声带每开启和闭合一次的时间,用自相关法估值;
信噪比:
Figure BDA0002895093500000035
其中x(n)代表n位置的信号值,y(n)代表n位置的噪音值;
谐噪比:即HNR,是语音中谐波成分和噪声成分的比率;
短时平均幅度:
Figure BDA0002895093500000036
其中i表示帧,yi(n)表示第i帧n位置的采样值。
相对于现有技术,本发明具有以下优势:语音特征提取较多的特征,实现噪音,静音与有效语音相关特征的广泛参与,进一步提升准确率与泛化能力;使用随机森林模型克服了阈值难以设定的问题,同时由于随机森林模型是一种监督模型,在使用时需要经过标注数据的训练,因此能够较好的保证模型准确率,识别出不同类型的语音片段,有效提高了对供电用户故障报修电话语音自动化处理的效率及质量。
附图说明:
图1是本发明实施例中标识流程示意图。
具体实施方式:
实施例:
面向语音交互场景语音片段的数据标注方法,包括以下步骤:
步骤1:模型训练;具体过程包括:
步骤1.1:输入一段wav格式采样率为8KHz的录音单声道文件;如果为双声道则将双声道拆分成两个单声道;选取200个采样点数据为一帧语音数据;采用人工标准的方式确定哪些语音是噪音片段,哪些语音是静音片段,哪些语音是有效语音片段进行标注;
步骤1.2:语音信号分帧加窗滤波处理;将接收到的语音数据首先进行分帧处理,选取200个采样点数据为一帧语音片段,在对分帧后的结果进行加窗处理,使得每一帧能够在处理后更加的平滑,根据需要再进行滤波处理;加窗采用矩形窗
Figure BDA0002895093500000041
其中N为一帧语音片段的采样点个数,n为音频采样点的位置,即第一个采样点为0,第二个采样点为1,以此类推;
步骤1.3:语音特征提取,提取短时能量,过零率,梅尔频率倒谱系数,音高,基音周期,信噪比,谐噪比,短时平均幅度;对于每一帧语音计算上述特征,帧语音与特征共同构成了接下来的随机森林的输入数据;
短时能量:
Figure BDA0002895093500000042
其中n为需要计算短时能量的采样位置,m为整数,x(m)为音频第m个采样结果,w(n-m)为窗函数,h(n)=w(n)2
过零率:
Figure BDA0002895093500000051
其中s是采样点的值,T为帧长,函数π{A}在A为真是值为1,否则为0;当帧长T固定后,t的取值为1≤t≤T-1;
梅尔频率倒谱系数(MFCC):
Figure BDA0002895093500000052
其中,f为频率;
音高:响度级为40phon,频率为1000Hz的声音的音高定义为1000Mel;
基音周期:声带每开启和闭合一次的时间,用自相关法估值;
信噪比:
Figure BDA0002895093500000053
其中x(n)代表n位置的信号值,y(n)代表n位置的噪音值;
谐噪比:即HNR,是语音中谐波成分和噪声成分的比率;
短时平均幅度:
Figure BDA0002895093500000054
其中i表示帧,yi(n)表示第i帧n位置的采样值;
步骤1.4:训练随机森林模型,从而确定出随机森林的参数即阈值;
步骤2:对待识别语音数据的语音信号分帧加窗滤波处理;将接收到的语音数据首先进行分帧处理,选取200个采样点数据为一帧语音片段,在对分帧后的结果进行加窗处理,使得没一帧能够在处理后更加的平滑,根据需要再进行滤波处理;
步骤3:对待识别语音数据进行特征提取,提取短时能量,过零率,梅尔频率倒谱系数,音高,基音周期,信噪比,谐噪比,短时平均幅度;计算方法同步骤1.3;对于每一帧语音计算上述特征,帧语音与特征共同构成了接下来的随机森林的输入数据;
步骤4:输出语音片段的类型:将未进行标记的每一帧语音片段进行步骤三的语音特征提取后,将相应的语音特征带入步骤1中训练好的模型中,得到未进行标记的每一帧语音片段的对应输出类型,即噪音片段、静音片段及有效语音片段三者中的一种,进一步将每一帧语音片段的对应输出类型组成序列,最终得到语音数据的活性检测结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.面向语音交互场景语音片段的数据标注方法,其特征在于,包括以下步骤:
步骤1:模型训练;具体过程包括:
步骤1.1:采用人工标准的方式确定哪些语音是噪音片段,哪些语音是静音片段,哪些语音是有效语音片段进行标注;
步骤1.2:语音信号分帧加窗滤波处理;将接收到的语音数据首先进行分帧处理,选取200个采样点数据为一帧语音片段,在对分帧后的结果进行加窗处理,使得每一帧能够在处理后更加的平滑,根据需要再进行滤波处理;
步骤1.3:语音特征提取,提取短时能量,过零率,梅尔频率倒谱系数,音高,基音周期,信噪比,谐噪比,短时平均幅度;对于每一帧语音计算上述特征,帧语音与特征共同构成了接下来的随机森林的输入数据;
步骤1.4:训练随机森林模型,从而确定出随机森林的参数即阈值;
步骤2:对待识别语音数据的语音信号分帧加窗滤波处理;将接收到的语音数据首先进行分帧处理,选取200个采样点数据为一帧语音片段,在对分帧后的结果进行加窗处理,使得每一帧能够在处理后更加的平滑,根据需要再进行滤波处理;
步骤3:对待识别语音数据进行特征提取,提取短时能量,过零率,梅尔频率倒谱系数,音高,基音周期,信噪比,谐噪比,短时平均幅度;对于每一帧语音计算上述特征,帧语音与特征共同构成了接下来的随机森林的输入数据;
步骤4:输出语音片段的类型:将未进行标记的每一帧语音片段进行步骤三的语音特征提取后,将相应的语音特征带入步骤1中训练好的模型中,得到未进行标记的每一帧语音片段的对应输出类型,即噪音片段、静音片段及有效语音片段三者中的一种,进一步将每一帧语音片段的对应输出类型组成序列,最终得到语音数据的活性检测结果。
2.根据权利要求1所述面向语音交互场景语音片段的数据标注方法,其特征在于,所述步骤1.2或步骤2中加窗采用矩形窗:
Figure FDA0002895093490000021
其中N为一帧语音片段的采样点个数,n为音频采样点的位置,即第一个采样点为0,第二个采样点为1,以此类推。
3.根据权利要求1或2所述面向语音交互场景语音片段的数据标注方法,其特征在于,所述步骤1.3或步骤3中,
短时能量:
Figure FDA0002895093490000022
其中n为需要计算短时能量的采样位置,m为整数,x(m)为音频第m个采样结果,W(n-m)为窗函数,h(n)=w(n)2
过零率:
Figure FDA0002895093490000023
其中s是采样点的值,T为帧长,函数π{A}在A为真是值为1,否则为0;当帧长T固定后,t的取值为1≤t≤T-1;
梅尔频率倒谱系数(MFCC):
Figure FDA0002895093490000024
其中,f为频率;
音高:响度级为40phon,频率为1000Hz的声音的音高定义为1000Mel;
基音周期:声带每开启和闭合一次的时间,用自相关法估值;
信噪比:
Figure FDA0002895093490000031
其中x(n)代表n位置的信号值,y(n)代表n位置的噪音值;
谐噪比:即HNR,是语音中谐波成分和噪声成分的比率;
短时平均幅度:
Figure FDA0002895093490000032
其中i表示帧,yi(n)表示第i帧n位置的采样值。
CN202110040225.XA 2021-01-13 2021-01-13 面向语音交互场景语音片段的数据标注方法 Pending CN112786071A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110040225.XA CN112786071A (zh) 2021-01-13 2021-01-13 面向语音交互场景语音片段的数据标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110040225.XA CN112786071A (zh) 2021-01-13 2021-01-13 面向语音交互场景语音片段的数据标注方法

Publications (1)

Publication Number Publication Date
CN112786071A true CN112786071A (zh) 2021-05-11

Family

ID=75755574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110040225.XA Pending CN112786071A (zh) 2021-01-13 2021-01-13 面向语音交互场景语音片段的数据标注方法

Country Status (1)

Country Link
CN (1) CN112786071A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117040487A (zh) * 2023-10-08 2023-11-10 武汉海微科技有限公司 音频信号处理的滤波方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104112453A (zh) * 2014-04-09 2014-10-22 天津思博科科技发展有限公司 一种音频预处理系统
US20170309297A1 (en) * 2016-04-22 2017-10-26 Xerox Corporation Methods and systems for classifying audio segments of an audio signal
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
CN111933175A (zh) * 2020-08-06 2020-11-13 北京中电慧声科技有限公司 一种基于噪声场景识别的活动语音检测方法及系统
CN112151072A (zh) * 2020-08-21 2020-12-29 北京搜狗科技发展有限公司 语音处理方法、装置和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104112453A (zh) * 2014-04-09 2014-10-22 天津思博科科技发展有限公司 一种音频预处理系统
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US20170309297A1 (en) * 2016-04-22 2017-10-26 Xerox Corporation Methods and systems for classifying audio segments of an audio signal
CN111933175A (zh) * 2020-08-06 2020-11-13 北京中电慧声科技有限公司 一种基于噪声场景识别的活动语音检测方法及系统
CN112151072A (zh) * 2020-08-21 2020-12-29 北京搜狗科技发展有限公司 语音处理方法、装置和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BOAT_LEE: "《语音信号中的特征提取》", 《CSDN》, 18 April 2016 (2016-04-18), pages 1 - 11 *
田野等: "一种基于噪声场景识别与多特征集成学习的活动语音检测方法", 《电声技术》, vol. 44, no. 06, 5 June 2020 (2020-06-05), pages 28 - 31 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117040487A (zh) * 2023-10-08 2023-11-10 武汉海微科技有限公司 音频信号处理的滤波方法、装置、设备及存储介质
CN117040487B (zh) * 2023-10-08 2024-01-02 武汉海微科技有限公司 音频信号处理的滤波方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110148427B (zh) 音频处理方法、装置、系统、存储介质、终端及服务器
Zhou et al. Efficient audio stream segmentation via the combined T/sup 2/statistic and Bayesian information criterion
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
CN104900235B (zh) 基于基音周期混合特征参数的声纹识别方法
CN111508498B (zh) 对话式语音识别方法、系统、电子设备和存储介质
Kos et al. Acoustic classification and segmentation using modified spectral roll-off and variance-based features
US7269561B2 (en) Bandwidth efficient digital voice communication system and method
US8326610B2 (en) Producing phonitos based on feature vectors
JP2006079079A (ja) 分散音声認識システム及びその方法
US7120575B2 (en) Method and system for the automatic segmentation of an audio stream into semantic or syntactic units
CN103915093B (zh) 一种实现语音歌唱化的方法和装置
CN112133277B (zh) 样本生成方法及装置
CN113192535B (zh) 一种语音关键词检索方法、系统和电子装置
JP2023507889A (ja) オーディオ相互作用における感情検出
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
US6963835B2 (en) Cascaded hidden Markov model for meta-state estimation
JP5385876B2 (ja) 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
CN110782902A (zh) 音频数据确定方法、装置、设备和介质
Mamiya et al. Lightly supervised GMM VAD to use audiobook for speech synthesiser
KR101022519B1 (ko) 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법
CN111968622A (zh) 一种基于注意力机制的语音识别方法、系统及装置
CN112786071A (zh) 面向语音交互场景语音片段的数据标注方法
CN101281747A (zh) 基于声道参数的汉语耳语音声调识别方法
Li et al. Detecting laughter in spontaneous speech by constructing laughter bouts
TW200811833A (en) Detection method for voice activity endpoint

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210511

RJ01 Rejection of invention patent application after publication