CN115116446A - 一种噪声环境下说话人识别模型构建方法 - Google Patents
一种噪声环境下说话人识别模型构建方法 Download PDFInfo
- Publication number
- CN115116446A CN115116446A CN202210734918.3A CN202210734918A CN115116446A CN 115116446 A CN115116446 A CN 115116446A CN 202210734918 A CN202210734918 A CN 202210734918A CN 115116446 A CN115116446 A CN 115116446A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- voice
- noise
- speaker recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims abstract description 46
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 230000003595 spectral effect Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 238000011410 subtraction method Methods 0.000 abstract description 5
- 238000011478 gradient descent method Methods 0.000 abstract description 3
- 239000013598 vector Substances 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种噪声环境下说话人识别模型构建方法,在说话人识别网络前端增加一个去噪模块,使用改进的谱减法对带噪语音进行去噪。针对谱减法的两个参数(过减因子α和谱下限参数β),使用梯度下降的方法由神经网络动态调整两个参数的值,保留更符合说话人识别任务的语音信息,从而提高了噪声环境下说话人识别的准确率。带噪语音信号选择变窗长的窗函数进行短时傅里叶变换,可以防止频谱泄露说话人识别任务需要的说话人信息。
Description
技术领域
本发明涉及声纹识别领域,特别是一种噪声环境下说话人识别模型构建方法。
背景技术
声纹识别作为生物特征识别的重要组成部分,广泛地应用于安全领域、医疗领域、金融领域以及智能家居中。目前,在安静的实验室环境下以及语音数据充足的条件下,说话人识别技术已经达到令人满意的效果。然而,实际应用环境无法预测,导致说话人识别系统鲁棒性差。在现实应用中,受到环境中不同噪声影响,系统性能对比纯净环境明显降低,严重阻碍了说话人识别技术的应用发展。
目前大多语音去噪的方案都是基于深度神经网络来进行,体积大,计算量高,不利于加入到具体的语音识别、声纹识别等任务中。因此,目前的声纹识别算法无法很好地满足真实场景下带噪声的说话人识别的需求,其识别准确率有待提高。
发明内容
本发明的目的是提供一种噪声环境下说话人识别模型构建方法。
实现本发明目的的技术方案如下:
一种噪声环境下说话人识别模型构建方法,所述说话人识别模型包括去噪模块、语音特征提取模块和神经网络;
所述去噪模块为:
1.1将输入语音分帧进行短时傅里叶变换,抽取语音在窗函数长度T下的线性频谱Py(ω);
1.2噪声估计,得到噪声的线性频谱Pe(ω);
1.3将语音的线性频谱Py(ω)和噪声的线性频谱Pe(ω)分别转换为语音的能量谱PY(ω)和噪声的能量谱PE(ω),再进行谱减,得到干净语音的能量谱PX(ω),即:
PY(ω)=|Py(ω)|2,
PE(ω)=|Pe(ω)|2,
其中,α为过减因子,β为谱下限参数,γ为谱系数,γ=1;
1.4平滑处理干净语音的能量谱PX(ω);
1.5使用傅里叶反变换恢复干净语音;
训练所述说话人识别模型:将语音训练集输入去噪模块得到干净语音,使用语音特征提取模块提取语音特征后,放入神经网络进行训练;训练过程中,去噪模块的过减因子α和谱下限参数β通过梯度下降的方法更新梯度,反向传播与神经网络的其它参数一起更新。
进一步的技术方案,所述窗函数长度T,在所述说话人识别模型的训练过程中自适应调整:可选择的长度为256、512、1024和2048,默认为256,当训练轮数超过40轮后,最低的等错误率超过10轮未变化时调整窗函数的长度,窗函数的长度在四个值中依次选择。
优选的,所述语音特征提取模块提取的语音特征为梅尔谱图、MFCC或者PLP;所述神经网络为ECAPA-TDNN、ResNet或者LSTM。
优选的,所述语音特征提取模块提取的语音特征为梅尔谱图;所述神经网络为ECAPA-TDNN。
本发明在说话人识别网络前端增加一个去噪模块,使用改进的谱减法对带噪语音进行去噪。针对谱减法的两个参数(过减因子α和谱下限参数β),使用梯度下降的方法由神经网络动态调整两个参数的值,保留更符合说话人识别任务的语音信息,从而提高了噪声环境下说话人识别的准确率。带噪语音信号选择变窗长的窗函数进行短时傅里叶变换,可以防止频谱泄露说话人识别任务需要的说话人信息。
附图说明
图1为具体实施例的结构图。
图2为梅尔滤波器组示意图。
图3为不添加语音去噪模块与添加语音去噪模块的等错误率变换曲线图。
图4为ECAPA-TDNN网络结构图。
具体实施方式
以下结合附图和具体实施例对本发明进一步说明。
具体实施例如图1所示,包括以下步骤:
1、加载原始音频,对原始语音数据进行读取,本实施例中语音的采样频率为16000Hz。
2、将读取后的语音数据送入去噪模块进行语音去噪,具体步骤如下:
A1:将输入语音进行短时傅里叶变换,抽取语音信号进行分帧,在变窗长下短时傅里叶变换(STFT)的线性频谱特征。其公式可表示为:
y(t)=x(t)·ω(t),0≤t≤T-1 (1)
式中,x(t)为t时刻的信号,ω(t-τ)为窗函数。对应到离散场景中,STFT(ω,τ)就是一个二维矩阵,每一列代表了在不同位置对信号加窗,对得到的分段进行傅里叶变换后的结果序列。
窗函数长度T在训练时由说话人识别网络自适应调整,对语音信号进行处理得到语音信号的线性谱图Py(ω)。
A2:取没有语音,只有噪音的那一段时间进行噪声估计。本实施例,取前N帧进行噪声估计,0<N≤30。这里默认取N=5,获取噪音的线性频谱Pe(ω)。将这N帧中的噪音强度取平均值,作为估计出来的噪音。
A3:对线性谱的模取平方,将线性频谱转换成能量谱,进行谱减,使用语音的能量谱PY(ω)减去噪音的能量谱PE(ω),得到干净语音的能量谱PX(ω),其原理可表示为:
PY(ω)=|Py(ω)|2 (3)
PE(ω)=|Pe(ω)|2 (4)
PX(ω)=PY(ω)-PE(ω) (5)
针对谱减法的两个参数α(过减因子)和β(谱下限参数),使用神经网络动态调整两个参数的值,保留更符合说话人识别任务的语音信息。γ为谱系数,当γ等于1时相当于使用两个能量谱相减,等于0.5时相当于先使用两个幅度谱相减,再将结果平方得到能量谱。这里γ的值取1。
A4:对谱减后的频谱进行平滑处理;
计算最大噪声残差:
Pe(ω)为初始噪声估计,由前N帧中的噪音强度取平均值得到,Pt(ω)为N帧中的第t帧的噪声频谱,maxP(ω)为计算出的最大噪声残差,对小于最大残差的部分用相邻帧的最小值取代:
k为时间间隔,当噪声频谱小于最大残差的部分时,则选用相邻的t+k帧到t-k帧中的最小值取代,使语音过渡更加平滑。
A5:使用傅里叶反变换对信号进行恢复。
3、将去噪后的语音提取梅尔谱图Mel(X,Y),梅尔刻度和频率的关系如下所示:
Fmel是以Mel为单位的感知频率,f是以Hz为单位的实际频率。梅尔滤波器组如图2所示。
4、将谱图特征放入ECAPA-TDNN网络训练,得到说话人特征向量谱减法的两个参数通过梯度下降的方法计算更新梯度,反向传播与神经网络的其他参数一起更新,使用梯度下降的优化方法更新参数使得损失函数最小化,去噪模块使用更新后的过减因子α和谱下限参数β继续去噪。针对窗函数的长度T,可选择的长度为256、512、1024和2048,默认为256,当训练轮数超过40轮后,最低的等错误率超过十轮未变化时,调整窗函数的长度,窗函数的长度在四个值中依次选择。其中,ECAPA-TDNN网络的结构如图4所示。
其中,d为余弦距离,根据d与阈值的大小来判定出说话人。
仿真实验:
本方法使用的说话人数据集为Free ST Chinese Mandarin Corpus中文数据集,噪声数据集为Noise92噪音数据集,Free ST Chinese Mandarin Corpus中文数据集本身为干净的语音数据集,选择Noise92噪音数据集中的factory工厂噪声与Free ST ChineseMandarin Corpus数据集合成信噪比为5dB的含噪声数据集。Free ST Chinese MandarinCorpus数据集中共包含855人,每人120条语音,使用855人中的90%作为训练集,10%作为测试集。使用本方法后的测试结果等错误率达到了2.30%,相对于不添加去噪模块提升了7%,其等错误率变换曲线如图3所示。对于其他语音特征,如MFCC、PLP等,以及其他的神经网络,如ResNet,LSTM等,本实施例中的语音特征和网络的组合得出的实验效果最优。
Claims (4)
1.一种噪声环境下说话人识别模型构建方法,其特征在于,所述说话人识别模型包括去噪模块、语音特征提取模块和神经网络;
所述去噪模块为:
1.1将输入语音分帧进行短时傅里叶变换,抽取语音在窗函数长度T下的线性频谱Py(ω);
1.2噪声估计,得到噪声的线性频谱Pe(ω);
1.3将语音的线性频谱Py(ω)和噪声的线性频谱Pe(ω)分别转换为语音的能量谱PY(ω)和噪声的能量谱PE(ω),再进行谱减,得到干净语音的能量谱PX(ω),即:
PY(ω)=|Py(ω)|2,
PE(ω)=|Pe(ω)|2,
其中,α为过减因子,β为谱下限参数,γ为谱系数,γ=1;
1.4平滑处理干净语音的能量谱PX(ω);
1.5使用傅里叶反变换恢复干净语音;
训练所述说话人识别模型:将语音训练集输入去噪模块得到干净语音,使用语音特征提取模块提取语音特征后,放入神经网络进行训练;训练过程中,去噪模块的过减因子α和谱下限参数β通过梯度下降的方法更新梯度,反向传播与神经网络的其它参数一起更新。
2.如权利要求1所述的一种噪声环境下说话人识别模型构建方法,其特征在于,所述窗函数长度T,在所述说话人识别模型的训练过程中自适应调整:可选择的长度为256、512、1024和2048,默认为256,当训练轮数超过40轮后,最低的等错误率超过10轮未变化时调整窗函数的长度,窗函数的长度在四个值中依次选择。
3.如权利要求1所述的一种噪声环境下说话人识别模型构建方法,其特征在于,所述语音特征提取模块提取的语音特征为梅尔谱图、MFCC或者PLP;所述神经网络为ECAPA-TDNN、ResNet或者LSTM。
4.如权利要求1所述的一种噪声环境下说话人识别模型构建方法,其特征在于,所述语音特征提取模块提取的语音特征为梅尔谱图;所述神经网络为ECAPA-TDNN。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210734918.3A CN115116446A (zh) | 2022-06-21 | 2022-06-21 | 一种噪声环境下说话人识别模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210734918.3A CN115116446A (zh) | 2022-06-21 | 2022-06-21 | 一种噪声环境下说话人识别模型构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115116446A true CN115116446A (zh) | 2022-09-27 |
Family
ID=83329878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210734918.3A Pending CN115116446A (zh) | 2022-06-21 | 2022-06-21 | 一种噪声环境下说话人识别模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115116446A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114038469A (zh) * | 2021-08-03 | 2022-02-11 | 成都理工大学 | 一种基于多类谱图特征注意力融合网络的说话人识别方法 |
CN116072125A (zh) * | 2023-04-07 | 2023-05-05 | 成都信息工程大学 | 一种噪声环境下的自监督说话人识别模型构建方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110191101A1 (en) * | 2008-08-05 | 2011-08-04 | Christian Uhle | Apparatus and Method for Processing an Audio Signal for Speech Enhancement Using a Feature Extraction |
CN109714692A (zh) * | 2018-12-26 | 2019-05-03 | 天津大学 | 基于个人数据与人工神经网络的助听器降噪方法 |
US20200051549A1 (en) * | 2017-11-24 | 2020-02-13 | Tencent Technology (Shenzhen) Company Limited | Speech signal processing model training method, electronic device and storage medium |
CN111261146A (zh) * | 2020-01-16 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 语音识别及模型训练方法、装置和计算机可读存储介质 |
CN112331216A (zh) * | 2020-10-29 | 2021-02-05 | 同济大学 | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 |
CN112562716A (zh) * | 2020-12-03 | 2021-03-26 | 兰州交通大学 | 基于神经网络的语音增强方法、装置、终端和介质 |
CN112885368A (zh) * | 2021-01-25 | 2021-06-01 | 西安邮电大学 | 基于改进胶囊网络的多频带谱减法振动信号去噪方法 |
CN113113022A (zh) * | 2021-04-15 | 2021-07-13 | 吉林大学 | 一种基于说话人声纹信息的自动识别身份的方法 |
CN113539294A (zh) * | 2021-05-31 | 2021-10-22 | 河北工业大学 | 一种生猪异常状态声音采集及识别方法 |
CN114283816A (zh) * | 2021-12-27 | 2022-04-05 | 思必驰科技股份有限公司 | 说话人验证方法及系统 |
-
2022
- 2022-06-21 CN CN202210734918.3A patent/CN115116446A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110191101A1 (en) * | 2008-08-05 | 2011-08-04 | Christian Uhle | Apparatus and Method for Processing an Audio Signal for Speech Enhancement Using a Feature Extraction |
US20200051549A1 (en) * | 2017-11-24 | 2020-02-13 | Tencent Technology (Shenzhen) Company Limited | Speech signal processing model training method, electronic device and storage medium |
CN109714692A (zh) * | 2018-12-26 | 2019-05-03 | 天津大学 | 基于个人数据与人工神经网络的助听器降噪方法 |
CN111261146A (zh) * | 2020-01-16 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 语音识别及模型训练方法、装置和计算机可读存储介质 |
CN112331216A (zh) * | 2020-10-29 | 2021-02-05 | 同济大学 | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 |
CN112562716A (zh) * | 2020-12-03 | 2021-03-26 | 兰州交通大学 | 基于神经网络的语音增强方法、装置、终端和介质 |
CN112885368A (zh) * | 2021-01-25 | 2021-06-01 | 西安邮电大学 | 基于改进胶囊网络的多频带谱减法振动信号去噪方法 |
CN113113022A (zh) * | 2021-04-15 | 2021-07-13 | 吉林大学 | 一种基于说话人声纹信息的自动识别身份的方法 |
CN113539294A (zh) * | 2021-05-31 | 2021-10-22 | 河北工业大学 | 一种生猪异常状态声音采集及识别方法 |
CN114283816A (zh) * | 2021-12-27 | 2022-04-05 | 思必驰科技股份有限公司 | 说话人验证方法及系统 |
Non-Patent Citations (4)
Title |
---|
DESPLANQUES: ""Ecapa-tdnn: Emphasized channel attention, propagation and aggregation in tdnn based speaker verification"", 《ARXIV PREPRINT》, 31 December 2020 (2020-12-31) * |
M. BEROUTI: ""Enhancement of speech corrupted by acoustic noise"", 《ICASSP》, 31 December 1979 (1979-12-31) * |
吴卫鹏: ""基于改进谱减的语音增强算法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 February 2020 (2020-02-15) * |
齐立萍: ""基于参数自适应的改进谱减法"", 《科学技术与工程》, 31 December 2016 (2016-12-31) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114038469A (zh) * | 2021-08-03 | 2022-02-11 | 成都理工大学 | 一种基于多类谱图特征注意力融合网络的说话人识别方法 |
CN114038469B (zh) * | 2021-08-03 | 2023-06-20 | 成都理工大学 | 一种基于多类谱图特征注意力融合网络的说话人识别方法 |
CN116072125A (zh) * | 2023-04-07 | 2023-05-05 | 成都信息工程大学 | 一种噪声环境下的自监督说话人识别模型构建方法及系统 |
CN116072125B (zh) * | 2023-04-07 | 2023-10-17 | 成都信息工程大学 | 一种噪声环境下的自监督说话人识别模型构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN103236260B (zh) | 语音识别系统 | |
EP0689194B1 (en) | Method of and apparatus for signal recognition that compensates for mismatching | |
US5590242A (en) | Signal bias removal for robust telephone speech recognition | |
WO2016197811A1 (zh) | 一种噪声抑制方法、装置及系统 | |
CN115116446A (zh) | 一种噪声环境下说话人识别模型构建方法 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN111653288A (zh) | 基于条件变分自编码器的目标人语音增强方法 | |
CN109192200A (zh) | 一种语音识别方法 | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
US8423360B2 (en) | Speech recognition apparatus, method and computer program product | |
Deligne et al. | Audio-visual speech enhancement with AVCDCN (audio-visual codebook dependent cepstral normalization) | |
CN112185405B (zh) | 一种基于差分运算和联合字典学习的骨导语音增强方法 | |
Katsir et al. | Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation | |
Poovarasan et al. | Speech enhancement using sliding window empirical mode decomposition and hurst-based technique | |
KR20080077874A (ko) | 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법 | |
KR100784456B1 (ko) | Gmm을 이용한 음질향상 시스템 | |
CN103971697A (zh) | 基于非局部均值滤波的语音增强方法 | |
KR100571427B1 (ko) | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 | |
CN101533642B (zh) | 一种语音信号处理方法及装置 | |
Joshi et al. | Sub-band based histogram equalization in cepstral domain for speech recognition | |
CN113066483B (zh) | 一种基于稀疏连续约束的生成对抗网络语音增强方法 | |
Choi | Noise robust front-end for ASR using spectral subtraction, spectral flooring and cumulative distribution mapping | |
Fu et al. | A novel speech enhancement system based on wavelet denoising | |
CN108766430B (zh) | 一种基于巴氏距离的语音特征映射方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |