CN113380226A - 一种极短语音语种识别特征提取方法 - Google Patents
一种极短语音语种识别特征提取方法 Download PDFInfo
- Publication number
- CN113380226A CN113380226A CN202110755053.4A CN202110755053A CN113380226A CN 113380226 A CN113380226 A CN 113380226A CN 202110755053 A CN202110755053 A CN 202110755053A CN 113380226 A CN113380226 A CN 113380226A
- Authority
- CN
- China
- Prior art keywords
- signal
- sub
- frequency domain
- input
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Abstract
一种极短语音语种识别特征提取方法,所述方法包括步骤:获取输入语音信号;对所述输入语音信号进行预处理;获取基于线性预测系数算法;使用所述基于线性预测系数算法对所述输入语音信号进行特征提取。本申请针对时长1s的极短语音提取语种识别特征进行研究,设计对极短(1s长度)语音语种识别更加鲁棒的特征提取方法,该特征利用频域线性预测系数(FDLP)方法,先使用离散余弦变换(Discrete Cosine Transform,DCT)获得信号的频域等价物,再在频域等价物上利用线性预测(Linear Prediction,LP)分析计算得到语音信号的子带包络信号(Sub‑band Envelop Signal),然后将子带包络信号经过傅里叶变换转化为子带包络的频域信号,然后计算子带包络幅度特征。
Description
技术领域
本发明属于语音识别技术领域,具体涉及一种极短语音语种识别特征提 取方法。
背景技术
语种识别是识别一个语音段中包含的语种类别的任务,语种识别一般作 为其他很多语音识别系统的前端处理器,例如多语种连续语音识别、语音翻 译等。而作为这些系统的前端处理器,在实时性上就有更高的要求,因此提 升语种识别在短语音上的性能具有重要实用意义。
经过多年发展,语音语种识别系统可用的特征从使用短时频域特征 MFCC、FilterBank、FFT特征,转向使用基于深度学习的DBF、PLLR等特征, 以及最近提出的可解释的SincNet神经网络特征。这些提出的特征对于长语 音语种识别性能较好,但是由于短语音语段中提取到的特征有效数据不足、 说话人多种噪音干扰、语音信息少等问题,当识别语音长度较短时(如3s) 准确率有所下降。而当识别语音长度极短时(如1s),识别性能更是下降明 显。
发明内容
为解决上述问题,本发明提供了一种极短语音语种识别特征提取方法, 所述方法包括步骤:
获取输入语音信号;
对所述输入语音信号进行预处理;
获取基于线性预测系数算法;
使用所述基于线性预测系数算法对所述输入语音信号进行特征提取。
优选地,所述对所述输入语音信号进行预处理包括步骤:
对所述输入语音信号进行降噪处理;
基于信噪比SNR对所述输入语音信号进行静音检测处理;
将所述输入语音信号分割为预设长度的有效语音。
优选地,所述基于信噪比SNR对所述输入语音信号进行静音检测处理包 括步骤:
获取降噪处理后的所述输入语音信号;
去除所述输入语音信号中的非语音段;
保留所述输入语音信号中的有效语音段。
优选地,所述将所述输入语音信号分割为预设长度的有效语音包括步骤:
获取静音检测处理后的有效语音段;
将所述有效语音段分割为预设长度的多段有效语音;
对每段所述有效语音进行单独语种识别;
将多段所述有效语音语种识别结果进行得分融合;
判断得分是否达到预设置信度阈值;
若是,获取所有所述有效语音;
若否,返回所述对每段所述有效语音进行单独语种识别步骤。
优选地,所述使用所述基于线性预测系数算法对所述输入语音信号进行 特征提取包括步骤:
获取所述输入语音信号中的有效语音;
对所述有效语音应用离散余弦变换并得到频域表示;
在所述频域表示上进行子带分解并得到子带表示分量;
对每个所述子带表示分量进行线性预测分析并得到子带频域线性预测系 数;
应用离散余弦变换计算所述子带频域线性预测系数的频域等价物;
计算幅度特征信号;
使用能量插值方法降低所述幅度特征信号的特征数据量;。
得到子带频域线性预测系数的幅度特征。
本申请针对时长1s的极短语音提取语种识别特征进行研究,设计对极短 (1s长度)语音语种识别更加鲁棒的特征提取方法,该特征利用频域线性预 测系数(FDLP)方法,先使用离散余弦变换(Discrete Cosine Transform, DCT)获得信号的频域等价物,再在频域等价物上利用线性预测(Linear Prediction,LP)分析计算得到语音信号的子带包络信号(Sub-band Envelop Signal),然后将子带包络信号经过傅里叶变换转化为子带包络的频域信号, 然后计算子带包络幅度特征。通过频域线性预测方法计算得到的子带包络信号,会将一些噪音信号掩盖到包络之下,因此会对一些干扰信息起到抑制作 用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种极短语音语种识别特征提取方法的流程示意 图;
图2为本发明中的线性预测分析LPC模拟模型;
图3为本发明中的多频率子带线性预测系数幅度特征提取的具体处理流 程示意图;
图4为本发明中的预处理流程示意图;
图5为本发明中的识别后处理示意图;
图6为本发明中的多频与子带线性预测系数幅度特征结果示例图;
图7为本发明中的多频与子带线性预测系数幅度特征经过TAM能量插值 结果示例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施 方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例 性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结 构和技术的描述,以避免不必要地混淆本发明的概念。
如图1-7,在本申请实施例中,本发明提供了一种极短语音语种识别特 征提取方法,所述方法包括步骤:
S1:获取输入语音信号;
S2:对所述输入语音信号进行预处理;
在本申请实施例中,步骤S2中的对所述输入语音信号进行预处理包括步 骤:
对所述输入语音信号进行降噪处理;
基于信噪比SNR对所述输入语音信号进行静音检测处理;
将所述输入语音信号分割为预设长度的有效语音。
在本申请实施例中,当对所述输入语音信号进行预处理时,具体地,首 先对所述输入语音信号进行降噪处理,并基于信噪比SNR对所述输入语音信 号进行静音检测处理,然后将所述输入语音信号分割为预设长度的有效语音。
在本申请实施例中,所述基于信噪比SNR对所述输入语音信号进行静音 检测处理包括步骤:
获取降噪处理后的所述输入语音信号;
去除所述输入语音信号中的非语音段;
保留所述输入语音信号中的有效语音段。
在本申请实施例中,所述将所述输入语音信号分割为预设长度的有效语 音包括步骤:
获取静音检测处理后的有效语音段;
将所述有效语音段分割为预设长度的多段有效语音;
对每段所述有效语音进行单独语种识别;
将多段所述有效语音语种识别结果进行得分融合;
判断得分是否达到预设置信度阈值;
若是,获取所有所述有效语音;
若否,返回所述对每段所述有效语音进行单独语种识别步骤。
S3:获取基于线性预测系数算法;
S4:使用所述基于线性预测系数算法对所述输入语音信号进行特征提取。
在本申请实施例中,步骤S4中的使用所述基于线性预测系数算法对所述 输入语音信号进行特征提取包括步骤:
获取所述输入语音信号中的有效语音;
对所述有效语音应用离散余弦变换并得到频域表示;
在所述频域表示上进行子带分解并得到子带表示分量;
对每个所述子带表示分量进行线性预测分析并得到子带频域线性预测系 数;
应用离散余弦变换计算所述子带频域线性预测系数的频域等价物;
计算幅度特征信号;
使用能量插值方法降低所述幅度特征信号的特征数据量;。
得到子带频域线性预测系数的幅度特征。
在本申请实施例中,使用所述基于线性预测系数算法对所述输入语音信 号进行特征提取具体包含如下操作:
设置每段有效语音信号为s(n),采样点数为N;
对有效语音信号s(n)应用DCT(离散余弦变换),得到频域表示C[k], 离散余弦变换公式为:
其中,k=0,1,...,N-1,δk=1,ifk=0else0。
在频域表示C[k]上进行子带分解,如公式(2),将频域表示通过滤波器 组Hi[k](可以选择使用梅尔滤波器组或其他常见语音特征滤波器组),得到2 维的频域子带表示Yi[k]:
Yi[k]=C[k]·Hi[k] (2)
其中,i表示滤波器组的滤波器索引,得到结果Yi即第i个子带分量。
然后通过DFT计算预测系数a的频域等价物δ,如公式(14)所示:
得到幅度特征后,可以选择使用多种能量插值方法,降低特征数据量, 提升语种识别系统识别语音的速度:时间幅度平均(temporal average magnitude,TAM)、时间中心幅度(temporal centroid magnitude,TCM)以 及时间中心距离(temporal centroiddistance,TCD)。
其中L表示窗口宽度(小于序列长度),p表示帧号,M表示窗口重叠宽 度,TAM中Wh[z]是窗系数(可以选用汉宁窗、海明窗等),TCM和TCD中ri[g] 是权重系数,计算如公式(14)所示,其中分别代表第i子带包络信号 的最低频率和最高频率,G是第i个子带包络信号的采样点数。
最终得到多频域子带的线性预测系数的幅度特征F,形状为MF x NF,MF 为特征帧数,NF为特征维度。
在本申请实施例中,线性预测分析的步骤具体为:
线性预测(Linear Prediction)分析可精确地估计信号,其基本思想是一 个信号的取样可用过去若干信号取样的线性组合来逼近。通过使得实际信号 取样与LP取样间差值的平方和最小,即进行LMS逼近,可决定唯一的一组预 测系数。LP分析的基本原理可以认为被分析的信号用一个模型表示,即将 信号x(n)看做一个模型在输入为u(n)的输出,这样就可以用模型参数 描述信号。
通常模型中只包含极点,而没有零点,此时信号的模拟系统为:
其中,各分量系数αi、增益G、模型阶数P为模型参数,αi被称为线性预测系数。这样信号可以使用有限数量参数的模型表示。LP分析 就是根据已知信号x(n)对参数αi和G的估计。
预测信号可以用线性预测系数αi和P表示,如公式11所示:
预测误差为:
预测均方误差为:
通过求解(14)、(15)、(16)计算得到LPC各阶参数αi作为 信号的模型表示。
本申请针对时长1s的极短语音提取语种识别特征进行研究,设计对极短 (1s长度)语音语种识别更加鲁棒的特征提取方法,该特征利用频域线性预 测系数(FDLP)方法,先使用离散余弦变换(Discrete Cosine Transform, DCT)获得信号的频域等价物,再在频域等价物上利用线性预测(Linear Prediction,LP)分析计算得到语音信号的子带包络信号(Sub-band Envelop Signal),然后将子带包络信号经过傅里叶变换转化为子带包络的频域信号, 然后计算子带包络幅度特征。通过频域线性预测方法计算得到的子带包络信号,会将一些噪音信号掩盖到包络之下,因此会对一些干扰信息起到抑制作 用。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释 本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和 范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保 护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和 边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (5)
1.一种极短语音语种识别特征提取方法,其特征在于,所述方法包括步骤:
获取输入语音信号;
对所述输入语音信号进行预处理;
获取基于线性预测系数算法;
使用所述基于线性预测系数算法对所述输入语音信号进行特征提取。
2.根据权利要求1所述的极短语音语种识别特征提取方法,其特征在于,所述对所述输入语音信号进行预处理包括步骤:
对所述输入语音信号进行降噪处理;
基于信噪比SNR对所述输入语音信号进行静音检测处理;
将所述输入语音信号分割为预设长度的有效语音。
3.根据权利要求2所述的极短语音语种识别特征提取方法,其特征在于,所述基于信噪比SNR对所述输入语音信号进行静音检测处理包括步骤:
获取降噪处理后的所述输入语音信号;
去除所述输入语音信号中的非语音段;
保留所述输入语音信号中的有效语音段。
4.根据权利要求2所述的极短语音语种识别特征提取方法,其特征在于,所述将所述输入语音信号分割为预设长度的有效语音包括步骤:
获取静音检测处理后的有效语音段;
将所述有效语音段分割为预设长度的多段有效语音;
对每段所述有效语音进行单独语种识别;
将多段所述有效语音语种识别结果进行得分融合;
判断得分是否达到预设置信度阈值;
若是,获取所有所述有效语音;
若否,返回所述对每段所述有效语音进行单独语种识别步骤。
5.根据权利要求1所述的极短语音语种识别特征提取方法,其特征在于,所述使用所述基于线性预测系数算法对所述输入语音信号进行特征提取包括步骤:
获取所述输入语音信号中的有效语音;
对所述有效语音应用离散余弦变换并得到频域表示;
在所述频域表示上进行子带分解并得到子带表示分量;
对每个所述子带表示分量进行线性预测分析并得到子带频域线性预测系数;
应用离散余弦变换计算所述子带频域线性预测系数的频域等价物;
计算幅度特征信号;
使用能量插值方法降低所述幅度特征信号的特征数据量;。
得到子带频域线性预测系数的幅度特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110755053.4A CN113380226A (zh) | 2021-07-02 | 2021-07-02 | 一种极短语音语种识别特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110755053.4A CN113380226A (zh) | 2021-07-02 | 2021-07-02 | 一种极短语音语种识别特征提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113380226A true CN113380226A (zh) | 2021-09-10 |
Family
ID=77580813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110755053.4A Pending CN113380226A (zh) | 2021-07-02 | 2021-07-02 | 一种极短语音语种识别特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113380226A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002045076A1 (de) * | 2000-11-28 | 2002-06-06 | Siemens Aktiengesellschaft | Verfahren und system zur multilingualen spracherkennung |
CN104900229A (zh) * | 2015-05-25 | 2015-09-09 | 桂林电子科技大学信息科技学院 | 一种语音信号混合特征参数的提取方法 |
CN105336324A (zh) * | 2015-11-17 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 一种语种识别方法及装置 |
CN108172212A (zh) * | 2017-12-25 | 2018-06-15 | 横琴国际知识产权交易中心有限公司 | 一种基于置信度的语音语种识别方法及系统 |
CN109036458A (zh) * | 2018-08-22 | 2018-12-18 | 昆明理工大学 | 一种基于音频特征参数的多语种场景分析方法 |
CN110459241A (zh) * | 2019-08-30 | 2019-11-15 | 厦门亿联网络技术股份有限公司 | 一种用于语音特征的提取方法和系统 |
CN111653267A (zh) * | 2020-03-31 | 2020-09-11 | 因诺微科技(天津)有限公司 | 一种基于时延神经网络的快速语种识别方法 |
-
2021
- 2021-07-02 CN CN202110755053.4A patent/CN113380226A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002045076A1 (de) * | 2000-11-28 | 2002-06-06 | Siemens Aktiengesellschaft | Verfahren und system zur multilingualen spracherkennung |
CN104900229A (zh) * | 2015-05-25 | 2015-09-09 | 桂林电子科技大学信息科技学院 | 一种语音信号混合特征参数的提取方法 |
CN105336324A (zh) * | 2015-11-17 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 一种语种识别方法及装置 |
CN108172212A (zh) * | 2017-12-25 | 2018-06-15 | 横琴国际知识产权交易中心有限公司 | 一种基于置信度的语音语种识别方法及系统 |
CN109036458A (zh) * | 2018-08-22 | 2018-12-18 | 昆明理工大学 | 一种基于音频特征参数的多语种场景分析方法 |
CN110459241A (zh) * | 2019-08-30 | 2019-11-15 | 厦门亿联网络技术股份有限公司 | 一种用于语音特征的提取方法和系统 |
CN111653267A (zh) * | 2020-03-31 | 2020-09-11 | 因诺微科技(天津)有限公司 | 一种基于时延神经网络的快速语种识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shrawankar et al. | Techniques for feature extraction in speech recognition system: A comparative study | |
KR100312919B1 (ko) | 화자인식을위한방법및장치 | |
Wang et al. | Speaker identification by combining MFCC and phase information in noisy environments | |
CN109192200B (zh) | 一种语音识别方法 | |
WO2002029782A1 (en) | Perceptual harmonic cepstral coefficients as the front-end for speech recognition | |
JP2007523374A (ja) | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN108564956B (zh) | 一种声纹识别方法和装置、服务器、存储介质 | |
CN111243617B (zh) | 一种基于深度学习降低mfcc特征失真的语音增强方法 | |
CN108682432B (zh) | 语音情感识别装置 | |
Kawakami et al. | Speaker identification by combining various vocal tract and vocal source features | |
Labied et al. | An overview of automatic speech recognition preprocessing techniques | |
CN112116909A (zh) | 语音识别方法、装置及系统 | |
WO2021152566A1 (en) | System and method for shielding speaker voice print in audio signals | |
Pellom et al. | Voice analysis in adverse conditions: the centennial Olympic park bombing 911 call | |
CN112233657A (zh) | 一种基于低频音节识别的语音增强方法 | |
CN116312561A (zh) | 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置 | |
Nijhawan et al. | A new design approach for speaker recognition using MFCC and VAD | |
CN113380226A (zh) | 一种极短语音语种识别特征提取方法 | |
KR20090116055A (ko) | 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치 | |
Upadhyay et al. | Robust recognition of English speech in noisy environments using frequency warped signal processing | |
Sorin et al. | The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation | |
JP2006215228A (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
Alam et al. | Speech recognition using regularized minimum variance distortionless response spectrum estimation-based cepstral features | |
Kumar et al. | Effective preprocessing of speech and acoustic features extraction for spoken language identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |