CN115116446A - 一种噪声环境下说话人识别模型构建方法 - Google Patents

一种噪声环境下说话人识别模型构建方法 Download PDF

Info

Publication number
CN115116446A
CN115116446A CN202210734918.3A CN202210734918A CN115116446A CN 115116446 A CN115116446 A CN 115116446A CN 202210734918 A CN202210734918 A CN 202210734918A CN 115116446 A CN115116446 A CN 115116446A
Authority
CN
China
Prior art keywords
spectrum
voice
noise
speaker recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210734918.3A
Other languages
English (en)
Inventor
张葛祥
陈柯屹
董建平
方祖林
肖东洋
罗标
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Univeristy of Technology
Original Assignee
Chengdu Univeristy of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Univeristy of Technology filed Critical Chengdu Univeristy of Technology
Priority to CN202210734918.3A priority Critical patent/CN115116446A/zh
Publication of CN115116446A publication Critical patent/CN115116446A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种噪声环境下说话人识别模型构建方法,在说话人识别网络前端增加一个去噪模块,使用改进的谱减法对带噪语音进行去噪。针对谱减法的两个参数(过减因子α和谱下限参数β),使用梯度下降的方法由神经网络动态调整两个参数的值,保留更符合说话人识别任务的语音信息,从而提高了噪声环境下说话人识别的准确率。带噪语音信号选择变窗长的窗函数进行短时傅里叶变换,可以防止频谱泄露说话人识别任务需要的说话人信息。

Description

一种噪声环境下说话人识别模型构建方法
技术领域
本发明涉及声纹识别领域,特别是一种噪声环境下说话人识别模型构建方法。
背景技术
声纹识别作为生物特征识别的重要组成部分,广泛地应用于安全领域、医疗领域、金融领域以及智能家居中。目前,在安静的实验室环境下以及语音数据充足的条件下,说话人识别技术已经达到令人满意的效果。然而,实际应用环境无法预测,导致说话人识别系统鲁棒性差。在现实应用中,受到环境中不同噪声影响,系统性能对比纯净环境明显降低,严重阻碍了说话人识别技术的应用发展。
目前大多语音去噪的方案都是基于深度神经网络来进行,体积大,计算量高,不利于加入到具体的语音识别、声纹识别等任务中。因此,目前的声纹识别算法无法很好地满足真实场景下带噪声的说话人识别的需求,其识别准确率有待提高。
发明内容
本发明的目的是提供一种噪声环境下说话人识别模型构建方法。
实现本发明目的的技术方案如下:
一种噪声环境下说话人识别模型构建方法,所述说话人识别模型包括去噪模块、语音特征提取模块和神经网络;
所述去噪模块为:
1.1将输入语音分帧进行短时傅里叶变换,抽取语音在窗函数长度T下的线性频谱Py(ω);
1.2噪声估计,得到噪声的线性频谱Pe(ω);
1.3将语音的线性频谱Py(ω)和噪声的线性频谱Pe(ω)分别转换为语音的能量谱PY(ω)和噪声的能量谱PE(ω),再进行谱减,得到干净语音的能量谱PX(ω),即:
PY(ω)=|Py(ω)|2
PE(ω)=|Pe(ω)|2
Figure BDA0003704405400000021
Figure BDA0003704405400000022
其中,α为过减因子,β为谱下限参数,γ为谱系数,γ=1;
1.4平滑处理干净语音的能量谱PX(ω);
1.5使用傅里叶反变换恢复干净语音;
训练所述说话人识别模型:将语音训练集输入去噪模块得到干净语音,使用语音特征提取模块提取语音特征后,放入神经网络进行训练;训练过程中,去噪模块的过减因子α和谱下限参数β通过梯度下降的方法更新梯度,反向传播与神经网络的其它参数一起更新。
进一步的技术方案,所述窗函数长度T,在所述说话人识别模型的训练过程中自适应调整:可选择的长度为256、512、1024和2048,默认为256,当训练轮数超过40轮后,最低的等错误率超过10轮未变化时调整窗函数的长度,窗函数的长度在四个值中依次选择。
优选的,所述语音特征提取模块提取的语音特征为梅尔谱图、MFCC或者PLP;所述神经网络为ECAPA-TDNN、ResNet或者LSTM。
优选的,所述语音特征提取模块提取的语音特征为梅尔谱图;所述神经网络为ECAPA-TDNN。
本发明在说话人识别网络前端增加一个去噪模块,使用改进的谱减法对带噪语音进行去噪。针对谱减法的两个参数(过减因子α和谱下限参数β),使用梯度下降的方法由神经网络动态调整两个参数的值,保留更符合说话人识别任务的语音信息,从而提高了噪声环境下说话人识别的准确率。带噪语音信号选择变窗长的窗函数进行短时傅里叶变换,可以防止频谱泄露说话人识别任务需要的说话人信息。
附图说明
图1为具体实施例的结构图。
图2为梅尔滤波器组示意图。
图3为不添加语音去噪模块与添加语音去噪模块的等错误率变换曲线图。
图4为ECAPA-TDNN网络结构图。
具体实施方式
以下结合附图和具体实施例对本发明进一步说明。
具体实施例如图1所示,包括以下步骤:
1、加载原始音频,对原始语音数据进行读取,本实施例中语音的采样频率为16000Hz。
2、将读取后的语音数据送入去噪模块进行语音去噪,具体步骤如下:
A1:将输入语音进行短时傅里叶变换,抽取语音信号进行分帧,在变窗长下短时傅里叶变换(STFT)的线性频谱特征。其公式可表示为:
y(t)=x(t)·ω(t),0≤t≤T-1 (1)
Figure BDA0003704405400000031
式中,x(t)为t时刻的信号,ω(t-τ)为窗函数。对应到离散场景中,STFT(ω,τ)就是一个二维矩阵,每一列代表了在不同位置对信号加窗,对得到的分段进行傅里叶变换后的结果序列。
窗函数长度T在训练时由说话人识别网络自适应调整,对语音信号进行处理得到语音信号的线性谱图Py(ω)。
A2:取没有语音,只有噪音的那一段时间进行噪声估计。本实施例,取前N帧进行噪声估计,0<N≤30。这里默认取N=5,获取噪音的线性频谱Pe(ω)。将这N帧中的噪音强度取平均值,作为估计出来的噪音。
A3:对线性谱的模取平方,将线性频谱转换成能量谱,进行谱减,使用语音的能量谱PY(ω)减去噪音的能量谱PE(ω),得到干净语音的能量谱PX(ω),其原理可表示为:
PY(ω)=|Py(ω)|2 (3)
PE(ω)=|Pe(ω)|2 (4)
PX(ω)=PY(ω)-PE(ω) (5)
针对谱减法的两个参数α(过减因子)和β(谱下限参数),使用神经网络动态调整两个参数的值,保留更符合说话人识别任务的语音信息。γ为谱系数,当γ等于1时相当于使用两个能量谱相减,等于0.5时相当于先使用两个幅度谱相减,再将结果平方得到能量谱。这里γ的值取1。
Figure BDA0003704405400000041
Figure BDA0003704405400000042
A4:对谱减后的频谱进行平滑处理;
计算最大噪声残差:
Figure BDA0003704405400000043
Pe(ω)为初始噪声估计,由前N帧中的噪音强度取平均值得到,Pt(ω)为N帧中的第t帧的噪声频谱,maxP(ω)为计算出的最大噪声残差,对小于最大残差的部分用相邻帧的最小值取代:
Figure BDA0003704405400000051
k为时间间隔,当噪声频谱小于最大残差的部分时,则选用相邻的t+k帧到t-k帧中的最小值取代,使语音过渡更加平滑。
A5:使用傅里叶反变换对信号进行恢复。
3、将去噪后的语音提取梅尔谱图Mel(X,Y),梅尔刻度和频率的关系如下所示:
Figure BDA0003704405400000052
Fmel是以Mel为单位的感知频率,f是以Hz为单位的实际频率。梅尔滤波器组如图2所示。
4、将谱图特征放入ECAPA-TDNN网络训练,得到说话人特征向量
Figure BDA0003704405400000057
谱减法的两个参数通过梯度下降的方法计算更新梯度,反向传播与神经网络的其他参数一起更新,使用梯度下降的优化方法更新参数使得损失函数最小化,去噪模块使用更新后的过减因子α和谱下限参数β继续去噪。针对窗函数的长度T,可选择的长度为256、512、1024和2048,默认为256,当训练轮数超过40轮后,最低的等错误率超过十轮未变化时,调整窗函数的长度,窗函数的长度在四个值中依次选择。其中,ECAPA-TDNN网络的结构如图4所示。
5、应用时,使用已训练的说话人识别模型得到说话人的特征向量,将说话人特征向量
Figure BDA0003704405400000053
与数据库中已有的特征向量
Figure BDA0003704405400000054
Figure BDA0003704405400000055
进行余弦相似度计算,如下式所示:
Figure BDA0003704405400000056
其中,d为余弦距离,根据d与阈值的大小来判定出说话人。
仿真实验:
本方法使用的说话人数据集为Free ST Chinese Mandarin Corpus中文数据集,噪声数据集为Noise92噪音数据集,Free ST Chinese Mandarin Corpus中文数据集本身为干净的语音数据集,选择Noise92噪音数据集中的factory工厂噪声与Free ST ChineseMandarin Corpus数据集合成信噪比为5dB的含噪声数据集。Free ST Chinese MandarinCorpus数据集中共包含855人,每人120条语音,使用855人中的90%作为训练集,10%作为测试集。使用本方法后的测试结果等错误率达到了2.30%,相对于不添加去噪模块提升了7%,其等错误率变换曲线如图3所示。对于其他语音特征,如MFCC、PLP等,以及其他的神经网络,如ResNet,LSTM等,本实施例中的语音特征和网络的组合得出的实验效果最优。

Claims (4)

1.一种噪声环境下说话人识别模型构建方法,其特征在于,所述说话人识别模型包括去噪模块、语音特征提取模块和神经网络;
所述去噪模块为:
1.1将输入语音分帧进行短时傅里叶变换,抽取语音在窗函数长度T下的线性频谱Py(ω);
1.2噪声估计,得到噪声的线性频谱Pe(ω);
1.3将语音的线性频谱Py(ω)和噪声的线性频谱Pe(ω)分别转换为语音的能量谱PY(ω)和噪声的能量谱PE(ω),再进行谱减,得到干净语音的能量谱PX(ω),即:
PY(ω)=|Py(ω)|2
PE(ω)=|Pe(ω)|2
Figure FDA0003704405390000011
Figure FDA0003704405390000012
其中,α为过减因子,β为谱下限参数,γ为谱系数,γ=1;
1.4平滑处理干净语音的能量谱PX(ω);
1.5使用傅里叶反变换恢复干净语音;
训练所述说话人识别模型:将语音训练集输入去噪模块得到干净语音,使用语音特征提取模块提取语音特征后,放入神经网络进行训练;训练过程中,去噪模块的过减因子α和谱下限参数β通过梯度下降的方法更新梯度,反向传播与神经网络的其它参数一起更新。
2.如权利要求1所述的一种噪声环境下说话人识别模型构建方法,其特征在于,所述窗函数长度T,在所述说话人识别模型的训练过程中自适应调整:可选择的长度为256、512、1024和2048,默认为256,当训练轮数超过40轮后,最低的等错误率超过10轮未变化时调整窗函数的长度,窗函数的长度在四个值中依次选择。
3.如权利要求1所述的一种噪声环境下说话人识别模型构建方法,其特征在于,所述语音特征提取模块提取的语音特征为梅尔谱图、MFCC或者PLP;所述神经网络为ECAPA-TDNN、ResNet或者LSTM。
4.如权利要求1所述的一种噪声环境下说话人识别模型构建方法,其特征在于,所述语音特征提取模块提取的语音特征为梅尔谱图;所述神经网络为ECAPA-TDNN。
CN202210734918.3A 2022-06-21 2022-06-21 一种噪声环境下说话人识别模型构建方法 Pending CN115116446A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210734918.3A CN115116446A (zh) 2022-06-21 2022-06-21 一种噪声环境下说话人识别模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210734918.3A CN115116446A (zh) 2022-06-21 2022-06-21 一种噪声环境下说话人识别模型构建方法

Publications (1)

Publication Number Publication Date
CN115116446A true CN115116446A (zh) 2022-09-27

Family

ID=83329878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210734918.3A Pending CN115116446A (zh) 2022-06-21 2022-06-21 一种噪声环境下说话人识别模型构建方法

Country Status (1)

Country Link
CN (1) CN115116446A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114038469A (zh) * 2021-08-03 2022-02-11 成都理工大学 一种基于多类谱图特征注意力融合网络的说话人识别方法
CN116072125A (zh) * 2023-04-07 2023-05-05 成都信息工程大学 一种噪声环境下的自监督说话人识别模型构建方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110191101A1 (en) * 2008-08-05 2011-08-04 Christian Uhle Apparatus and Method for Processing an Audio Signal for Speech Enhancement Using a Feature Extraction
CN109714692A (zh) * 2018-12-26 2019-05-03 天津大学 基于个人数据与人工神经网络的助听器降噪方法
US20200051549A1 (en) * 2017-11-24 2020-02-13 Tencent Technology (Shenzhen) Company Limited Speech signal processing model training method, electronic device and storage medium
CN111261146A (zh) * 2020-01-16 2020-06-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
CN112331216A (zh) * 2020-10-29 2021-02-05 同济大学 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法
CN112562716A (zh) * 2020-12-03 2021-03-26 兰州交通大学 基于神经网络的语音增强方法、装置、终端和介质
CN112885368A (zh) * 2021-01-25 2021-06-01 西安邮电大学 基于改进胶囊网络的多频带谱减法振动信号去噪方法
CN113113022A (zh) * 2021-04-15 2021-07-13 吉林大学 一种基于说话人声纹信息的自动识别身份的方法
CN113539294A (zh) * 2021-05-31 2021-10-22 河北工业大学 一种生猪异常状态声音采集及识别方法
CN114283816A (zh) * 2021-12-27 2022-04-05 思必驰科技股份有限公司 说话人验证方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110191101A1 (en) * 2008-08-05 2011-08-04 Christian Uhle Apparatus and Method for Processing an Audio Signal for Speech Enhancement Using a Feature Extraction
US20200051549A1 (en) * 2017-11-24 2020-02-13 Tencent Technology (Shenzhen) Company Limited Speech signal processing model training method, electronic device and storage medium
CN109714692A (zh) * 2018-12-26 2019-05-03 天津大学 基于个人数据与人工神经网络的助听器降噪方法
CN111261146A (zh) * 2020-01-16 2020-06-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
CN112331216A (zh) * 2020-10-29 2021-02-05 同济大学 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法
CN112562716A (zh) * 2020-12-03 2021-03-26 兰州交通大学 基于神经网络的语音增强方法、装置、终端和介质
CN112885368A (zh) * 2021-01-25 2021-06-01 西安邮电大学 基于改进胶囊网络的多频带谱减法振动信号去噪方法
CN113113022A (zh) * 2021-04-15 2021-07-13 吉林大学 一种基于说话人声纹信息的自动识别身份的方法
CN113539294A (zh) * 2021-05-31 2021-10-22 河北工业大学 一种生猪异常状态声音采集及识别方法
CN114283816A (zh) * 2021-12-27 2022-04-05 思必驰科技股份有限公司 说话人验证方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DESPLANQUES: ""Ecapa-tdnn: Emphasized channel attention, propagation and aggregation in tdnn based speaker verification"", 《ARXIV PREPRINT》, 31 December 2020 (2020-12-31) *
M. BEROUTI: ""Enhancement of speech corrupted by acoustic noise"", 《ICASSP》, 31 December 1979 (1979-12-31) *
吴卫鹏: ""基于改进谱减的语音增强算法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 February 2020 (2020-02-15) *
齐立萍: ""基于参数自适应的改进谱减法"", 《科学技术与工程》, 31 December 2016 (2016-12-31) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114038469A (zh) * 2021-08-03 2022-02-11 成都理工大学 一种基于多类谱图特征注意力融合网络的说话人识别方法
CN114038469B (zh) * 2021-08-03 2023-06-20 成都理工大学 一种基于多类谱图特征注意力融合网络的说话人识别方法
CN116072125A (zh) * 2023-04-07 2023-05-05 成都信息工程大学 一种噪声环境下的自监督说话人识别模型构建方法及系统
CN116072125B (zh) * 2023-04-07 2023-10-17 成都信息工程大学 一种噪声环境下的自监督说话人识别模型构建方法及系统

Similar Documents

Publication Publication Date Title
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN103236260B (zh) 语音识别系统
EP0689194B1 (en) Method of and apparatus for signal recognition that compensates for mismatching
US5590242A (en) Signal bias removal for robust telephone speech recognition
WO2016197811A1 (zh) 一种噪声抑制方法、装置及系统
CN115116446A (zh) 一种噪声环境下说话人识别模型构建方法
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN111653288A (zh) 基于条件变分自编码器的目标人语音增强方法
CN109192200A (zh) 一种语音识别方法
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
US8423360B2 (en) Speech recognition apparatus, method and computer program product
Deligne et al. Audio-visual speech enhancement with AVCDCN (audio-visual codebook dependent cepstral normalization)
CN112185405B (zh) 一种基于差分运算和联合字典学习的骨导语音增强方法
Katsir et al. Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation
Poovarasan et al. Speech enhancement using sliding window empirical mode decomposition and hurst-based technique
KR20080077874A (ko) 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
CN103971697A (zh) 基于非局部均值滤波的语音增强方法
KR100571427B1 (ko) 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
CN101533642B (zh) 一种语音信号处理方法及装置
Joshi et al. Sub-band based histogram equalization in cepstral domain for speech recognition
CN113066483B (zh) 一种基于稀疏连续约束的生成对抗网络语音增强方法
Choi Noise robust front-end for ASR using spectral subtraction, spectral flooring and cumulative distribution mapping
Fu et al. A novel speech enhancement system based on wavelet denoising
CN108766430B (zh) 一种基于巴氏距离的语音特征映射方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination