CN113053398B - 基于mfcc和bp神经网络的说话人识别系统及方法 - Google Patents
基于mfcc和bp神经网络的说话人识别系统及方法 Download PDFInfo
- Publication number
- CN113053398B CN113053398B CN202110266020.3A CN202110266020A CN113053398B CN 113053398 B CN113053398 B CN 113053398B CN 202110266020 A CN202110266020 A CN 202110266020A CN 113053398 B CN113053398 B CN 113053398B
- Authority
- CN
- China
- Prior art keywords
- neural network
- speaker
- mel
- frame
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 140
- 238000000034 method Methods 0.000 title claims description 37
- 238000012549 training Methods 0.000 claims abstract description 92
- 238000001228 spectrum Methods 0.000 claims abstract description 50
- 230000003595 spectral effect Effects 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000001914 filtration Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 238000010183 spectrum analysis Methods 0.000 claims abstract description 19
- 238000009432 framing Methods 0.000 claims abstract description 13
- 230000009466 transformation Effects 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims description 50
- 239000011159 matrix material Substances 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 19
- 238000003062 neural network model Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000012952 Resampling Methods 0.000 claims description 2
- 238000013178 mathematical model Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000001755 vocal effect Effects 0.000 description 11
- 230000008451 emotion Effects 0.000 description 8
- 210000001260 vocal cord Anatomy 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了基于MFCC和BP神经网络的说话人识别系统,它的语音信号预处理模块依次对语音信号进行分帧、选帧和预加重的信号预处理,语音信号加窗处理模块对预处理后的语音信号进行加窗处理,频谱分析模块对加窗处理后的语音信号进行频谱分析,滤波模块对语音信号各帧频谱的谱线能量进行美尔滤波处理,离散余弦变换模块用于对美尔滤波后的语音信号各帧频谱进行离散余弦变换;BP神经网络模块生成BP神经网络训练数据集,并为每个说话人分别建立对应的BP神经网络,对各个BP神经网络进行训练。本发明提高了说话人识别的可靠性和准确性。
Description
技术领域
本发明涉及语音识别技术领域,具体地指一种基于MFCC和BP 神经网络的说话人识别系统及方法。
背景技术
说话人识别,又称声纹识别,区别于语音识别。语音识别是要 确定语音的语义信息,而说话人识别是利用说话人的语音特征对说话 人的身份进行辨认或确认。
按照不同的应用目的,说话人识别可以分为说话人辨识和说话 人确认两种。说话人辨认用来确定待识别的语音是哪一位注册过的说 话人说的,而说话人确认用来确定待识别的语音是不是说话人所宣称 的那个人说的。本专利属于说话人辨认一类。
根据识别方式,说话人识别分为与文本有关和与文本无关两种 方式。前者要求在识别时,说话人提供与训练语音文本相同的关键词 串或者语句,而后者则没有这样的要求,说话人说话内容是任意的。 本专利属于与文本无关的说话人识别。
日常生活中,人们能根据语音判定出是哪个人在说话,这说明 每个人的语音有区别于其他人的特征。MFCC参数可以很好的描述这 个特征。MFCC(Mel Frequency CepstrumCoefficient,美尔频率倒谱 系数),Mel(美尔)是主观音高的单位,而Hz(赫兹)则是客观音高的单位。Mel频率是基于人耳听觉特性提出来的,它与赫兹频率是 非线性关系。美尔频率倒谱系数是利用它们之间的这种关系,计算得 到的倒谱特征。
专利《基于情感补偿的声纹识别方法》(专利号:CN101226742A) 公开了一种基于情感补偿的声纹识别方法,所提出的情感补偿包括情 感检测、特征补偿、情感拓展三块,拟依据情感检测技术计算语音情 感因子,分别从特征与模型两个层面对情感变化所引起的语音变化进 行补偿,最终提高声纹识别技术对情感变化的鲁棒性。
该专利未通过分析语音发生机理和语音特征,对语音信号进行 选帧处理,从而减少训练样本量。该专利未建立识别结果的可靠性指 标。
发明内容
本发明的目的就是要提供一种基于MFCC和BP神经网络的说话 人识别系统及方法,本发明通过分析语音发生机理和语音特征,提取 了更有效的能反映个体声道差异的训练样本,避免了训练样本量过大 导致的BP神经网络训练时间过长乃至无法进行进行训练的弊端。
为实现此目的,本发明所设计的基于MFCC和BP神经网络的说 话人识别系统,它包括语音信号预处理模块、语音信号加窗处理模块、 频谱分析模块、滤波模块、离散余弦变换模块、BP神经网络模块和 实际场景说话人识别模块,所述语音信号预处理模块用于依次对语音 信号进行分帧、选帧和预加重的信号预处理,语音信号加窗处理模块 用于对预处理后的语音信号进行加窗处理,频谱分析模块用于对加窗 处理后的语音信号进行频谱分析得到语音信号各帧的频谱,滤波模块 用于对语音信号各帧频谱的谱线能量进行美尔滤波处理,离散余弦变 换模块用于对美尔滤波后的语音信号各帧频谱进行离散余弦变换得 到语音信号的美尔频率倒谱系数;
BP神经网络模块用于将所有需要身份识别的说话人语音数据分 为训练集和测试集,利用训练集中说话人语音数据的美尔频率倒谱系 数生成BP神经网络训练数据集,并为每个说话人分别建立对应的BP 神经网络,利用BP神经网络训练集对各个BP神经网络进行训练;
实际场景说话人识别模块用于将实际场景中采集到的语音信号 的美尔频率倒谱系数输入到已完成训练的各个对应BP神经网络中进 行实际场景说话人识别。
本发明的有益效果:
本发明通过分析语音发生机理和语音特征,提取了更有效的能反 映个体声道差异的训练样本,避免了训练样本量过大导致的BP神经 网络训练时间过长乃至无法进行进行训练的弊端,同时提升了说话人 识别系统的识别率。另一方面,该方法通过分别为每个说话人建立独 立的BP神经网络训练系统,对所有训练样本进行了更简洁有效、更 有针对性的训练,缩短了训练时间,提升了说话人识别系统的识别率。 最后,该方法建立了说话人识别系统可靠性指标,使说话人识别系统 的可靠性得以量化,为说话人识别系统识别率的进一步提升和优化奠 定了基础。
附图说明
图1为本发明的结构示意图;
图2为本发明的流程示意图;
图3为清音信号和浊音信号的频谱图;
图4为Mel三角滤波器组图形;
图5为BP神经网络结构简图。
其中,1—语音信号预处理模块、2—语音信号加窗处理模块、3 —频谱分析模块、4—滤波模块、5—离散余弦变换模块、6—BP神经 网络模块、7—说话人识别测试模块、8—实际场景说话人识别模块。
具体实施方式
以下结合附图和具体实施例对本发明作进一步的详细说明:
如图1所示基于MFCC和BP神经网络的说话人识别系统,它包 括语音信号预处理模块1、语音信号加窗处理模块2、频谱分析模块3、滤波模块4、离散余弦变换模块5、BP神经网络模块6和实际场 景说话人识别模块8,所述语音信号预处理模块1用于依次对语音信 号进行分帧、选帧和预加重的信号预处理,语音信号加窗处理模块2 用于对预处理后的语音信号进行加窗处理,频谱分析模块3用于对加 窗处理后的语音信号进行频谱分析得到语音信号各帧的频谱,滤波模 块4用于对语音信号各帧频谱的谱线能量进行美尔滤波处理,离散余 弦变换模块5用于对美尔滤波后的语音信号各帧频谱进行离散余弦 变换得到语音信号的美尔频率倒谱系数;
BP神经网络模块6用于将所有需要身份识别的说话人语音数据 分为训练集和测试集,利用训练集中说话人语音数据的美尔频率倒谱 系数生成BP神经网络训练数据集,并为每个说话人分别建立对应的 BP神经网络,利用BP神经网络训练集对各个BP神经网络进行训练;
实际场景说话人识别模块8用于将实际场景中采集到的语音信 号的美尔频率倒谱系数输入到已完成训练的各个对应BP神经网络中 进行实际场景说话人识别。
上述技术方案中,它还包括说话人识别测试模块7,所述说话人 识别测试模块7用于将测试集中说话人语音数据的美尔频率倒谱系 数输入到已完成训练的各个对应BP神经网络中进行BP神经网络识 别率和可靠性测试。
上述技术方案中,语音信号预处理模块1对语音信号进行分帧处 理的具体过程为:将经过重采样和语音端点检测后的语音信号记为 {s0(i)},i=1,2……,L,其中,L为语音信号长度,s0(i)为语音信号 的第i个数据;
分帧前,先对语音信号进行归一化处理;
将语音信号{s0(i)}做如下处理:
{s1(i)}={s0(i)}/max(abs({s0(i)}))i=1,2……,L,其中,max(abs({s0(i)}))表示先对语音信号{s0(i)}取绝对值,再对数据序列取 最大值;
分帧时,以N为数据长度对语音信号{s1(i)}进行截取,第j帧数 据为x0(j)={s1((j-1)*N+1)~s1(j*N)},N为帧长;分帧的目的是保证 语音信号分析有足够高的时间分辨率,将N个连续采样点集合成一个 数据分析单位,称为帧,N即为帧长;
所述语音信号预处理模块(1)对语音信号进行选帧处理的过程 为:
选帧前,先求出各数据帧短时幅度(各帧语音信号幅值绝对值之 和),计算公式如下:
其中,frame_L为帧的数量,amp(j)为第j帧短时幅度,s1j(m0)为 第j帧数据x0(j)={s1((j-1)*N+1)~s1(j*N)}中的第m0个数据,||表示 取绝对值;
对{amp(j)}取最大值(max({amp(j)})),记为amp_max;
采用如下方式对语音信号进行选帧:
valid_frame_no={j|amp(j)>δ*amp_max,j=1,2……,frame_L}
其中,valid_frame_no为被选中帧序号的集合,δ的取值为0<δ<1, δ可根据实际情况进行调整,当BP神经网络训练样本过多时,为避 免BP神经网络训练时间过长甚至无法进行进行训练,提升说话人识 别率,可适当增大δ;当训练样本太少时,为提升说话人识别率,可 适当减小δ。
选帧的目的是挑选出更有效的能反映说话人语音个体差异的数 据帧,减小BP神经网络训练样本数量,提升说话人识别率;
下面说明对语音信号进行选帧处理,为何能挑选出更有效的能反 映说话人语音个体差异的数据帧,从而减小BP神经网络训练样本数 量,提升说话人识别率:
每个人的语音有区别于其他人的特征,这个特征与语音发声机理 密切相关。大体上,语音的产生有两种情况,经声带振动和不经声带 振动。经声带振动产生的语音统称为浊音,不经声带振动产生的语音 统称为清音。浊音比清音的幅值大得多。
声音产生后,便沿着声道进行传播。声道是声带至嘴唇的所有器 官,由咽、口腔和鼻腔组成。它是一根从声带延伸至口唇的声管,其 形状是时间的函数,发不同音时其形状是不同的。声道可以看成一根 具有非均匀截面的声管,在发声时起着共鸣器的作用,它有一组共振 频率,称为共振峰频率,简称共振峰,是声道的重要声学特性。共振 峰及其带宽取决于声道的形状和尺寸,一种形状和尺寸对应着一组共 振峰。不同的语音有着不同的共振峰,不同的人对应不同的共振峰。 即使是语音相同,但因说话者不同,共振峰也不同。
声音进入声道后,其频谱会受到声道的共振特性的影响,在某些 频率处形成谐振。图3为清音信号和浊音信号的频谱,从图中看出, 浊音信号的频谱在谐振频率处其谱线包络产生峰值,即为共振峰;而 清音信号的共振峰特性不明显。
语音信号频谱的包络与声道特性(共振峰)密切相关。浊音信号 的共振峰明显,清音不明显。因此,挑选出只包含浊音信号的帧,便 可准确、有效地提取说话人特有的声道特征。而浊音比清音的幅值大 得多,因此,只需挑选出幅值较大的帧,这便是选帧的目的和意义。
以往的说话人识别系统,是没有选帧这一步骤的。本专利中通过 分析语音发生机理和语音特征,新增了选帧这一步骤,大幅缩减了训 练样本数量,避免了同类型说话人识别系统均存在的训练样本量过大 导致的训练时间过长乃至无法进行进行训练的弊端;同时,提取了更 有效的能反映个体声道差异的训练样本,剔除了无用的、带有噪声的 训练样本,提升了说话人识别系统的识别率。
所述语音信号预处理模块1对语音信号进行预加重处理的过程 为:
预加重用数字滤波器实现:
s2(q1)=s1(q1+1)-μ*s1(q1)q1=1,2……,L-1,其中,L 为语音信号{s1(i)}长度,μ为常数,μ的取值介于0.9~1.0之间,通常 取0.97,s1(q1)为语音信号{s1(i)}的第q1个数据,{s2(q1)}为预加重 后得到的信号;
预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于 进行频谱分析及声道参数分析。
上述技术方案中,语音信号加窗处理模块2对预处理后的语音信 号进行加窗处理的过程为:
对预处理后的语音信号施加汉明窗(hamming)函数,汉明窗函 数表达式为:
w=0.54-0.46*cos(2*π*p/P)0≤p≤P
其中,p和P为整数,p为自变量,w为因变量,为窗函数的幅 度,P为常数,窗函数的总长度Lw=P+1,Lw等于帧长N;
对信号{s2(q1)}以N为数据长度进行分帧处理,得到语音帧序列 {x1(j)};
对{x1(j)}进行如下处理:
x={x1(j).*w|j∈valid_frame_no,j=1,2……,frame_L}
其中,.*为数量乘积,即x1(j)与w各对应元素相乘,x为经过加 窗处理后的语音帧序列,上式的含义是为减少数据处理量,只对选帧 中挑选出的帧进行加窗处理,加窗(施加窗函数)的目的是减少频谱 泄露。
上述技术方案中,频谱分析模块3对加窗处理后的语音信号进行 频谱分析的具体方法为:
对各帧数据进行FFT变换(快速傅立叶变换),得到各帧的频谱:
X(i1,k)=fft[x(i1)]
其中,x(i1)表示经过加窗处理后的语音序列{x(r)}(r=1,2……, valid_frame_L)第i1帧数据,valid_frame_L为经选帧处理后帧的数量, 即集合valid_frame_no中的元素个数,X(i1,k)表示第i1帧频谱数据中 第k条谱线的频谱;
频谱为复数,对其取模,得到幅值谱:
A(i1,k)=|X(i1,k)|
A(i1,k)表示第i1帧频谱数据中第k条谱线的幅值;
对A(i1,k)取平方,得到数据的能量谱:
E(i1,k)=|X(i1,k)|2
E(i1,k)表示第i1帧频谱数据中第k条谱线的能量。
上述技术方案中,滤波模块(4)对语音信号各帧频谱的谱线能 量进行美尔滤波处理的过程为:
首先,计算Mel三角滤波器组数据;
Mel(美尔)是主观音高的单位,而Hz(赫兹)则是客观音高的 单位,人耳对声音的感知程度,与赫兹(Hz)频率不成线性关系,但在 Mel频率上,人对音调的主观感知与Mel刻度则为线性关系,Mel频 率是基于人耳听觉特性提出来的,美尔与赫兹频率的非线性关系,如 下式所示:
mel=2595*log10(1+f0/700)
其中,f0为频率Hz,mel为美尔频率,由上式看出,Mel刻度在 低频(Hz)部分的分辨率高,在高频(Hz)的分辨率低,与人耳的 听觉特性是相符的,同时,结合人耳的掩蔽效应,人们设计了Mel 三角滤波器组,这些滤波器在低频段较密集,在高频段较稀疏;
第m个三角滤波器的传递函数为:
其中,1≤m≤M,M为滤波器个数;Hm(k)为第m个三角滤波器第 k条谱线的幅值;f(m)为第m个滤波器的中心频率所对应的谱线序号, f(m-1)为第m-1个滤波器的中心频率所对应的谱线序号,f(m+1)为第 m+1个滤波器的中心频率所对应的谱线序号,k表示谱线序号
Mel三角滤波器组各滤波器的端点频率及中心频率所对应的谱 线序号f(m)依照如下方式计算:
依据香农采样定理得到分析频率上限(语音信号采样频率为 8000Hz,依据香农采样定理,其分析频率上限为8000/2=4000Hz), 并求出其mel值,记为mel_max;
选定所关注语音信号的频率下限,如0Hz,求出其mel值,记为 mel_min;
在Mel刻度上,将区间[mel_min,mel_max]均匀分成M+1段,段 长mel_step为:
mel_step=(mel_max-mel_min)/(M+1)
m1(u)=mel_min+u*mel_step 0≤u≤(M+1)
其中,m1(u)为Mel刻度上Mel三角滤波器组的第u个端点频率;
f0与mel的关系式为:
将m1(u)(0≤u≤(M+1))代入上式中的mel,得到f1(u),0≤u≤(M+1);
将f1(u)乘以N/fs,得f(u),即:
f(u)=f1(u)*N/fs,0≤u≤(M+1)
其中,N为帧长,fs为语音信号采样频率;
则第u个滤波器的中心频率所对应的谱线序号为f(u),左端点频率 所对应的谱线序号为f(u-1),右端点频率所对应的谱线序号为f(u+1);
图4为频率范围为[0,4000](Hz),M=24的Mel三角滤波器组图形;
然后,对能量谱进行Mel滤波处理;
通过Mel三角滤波器组后的频谱数据为能量谱E(k)与Mel三角 滤波器组传递函数Hm(k)的乘积和:
F(m)=∑kE(k)*Hm(k),1≤m≤M
其中,M为滤波器个数,k表示谱线序号;
离散余弦变换模块(5)对美尔滤波后的语音信号各帧频谱进行 离散余弦变换得到语音信号的美尔频率倒谱系数的具体过程为:
对滤波后的数据求对数,进行离散余弦变换;
t=1,2……M
其中,M为滤波器个数;C为美尔 频率倒谱系数,C(t)为第t个美尔频率倒谱系数(t为整数,为离散余 弦变换变量,作用如同FFT中的谱线数k),F(m)为能量谱E(k)进行 Mel滤波处理后的数据,t为整数,为离散余弦变换变量,m为MEL滤波器序号,即第m个MEL滤波器。对于语音信号来说,通常取C 的前14个系数作为语音信号的MFCC,代表说话人的声道特征参数。
上述技术方案中,BP神经网络模块6生成BP神经网络训练数 据集的具体过程为:
获取所有需要进行身份识别的说话人的语音数据,每个说话人的 语音数据分为两部分,一部分为训练集,一部分为测试集,一般来说, 训练集中的语音数据时长要远大于测试集中的语音数据时长,典型的, 训练集语音数据时长/测试集语音数据时长>8,测试集语音数据时 长>3s;
设所有需要进行身份识别的说话人的数量为R,按照说话人顺序 获取R份语音训练集,对这R份语音训练集分别提取美尔频率倒谱 系数,得A(14)行S列矩阵,该矩阵为BP神经网络的训练样本输 入数据train_input_mat,每一列代表某帧语音信号的A个Mel倒谱系数,S为R份语音训练集的帧数之和;
为每个说话人都建立一个BP神经网络模型,每个说话人的BP 神经网络的训练样本输入数据都是相同的,均为train_input_mat;每 个说话人的BP神经网络的训练样本输出数据都是不同的,需要分别 构造,具体来说,构造第i2个说话人训练样本输出数据train_output_mat(i2)(一个矩阵),针对train_input_mat的每一列, 若当列对应的帧属于第i2个说话人,则train_output_mat(i2)该列 赋值为1,否则为0,train_output_mat(i2)的维数为1行S列;
train_input_mat为第i2个说话人的BP神经网络的训练样本输入 数据,train_output_mat(i2)为其训练样本输出数据;
BP神经网络模块(6)建立对应的BP神经网络的具体过程为:
每个说话人的BP神经网络模型结构都是相同的,由三层组成, 第一层为输入层,共n1个节点,对应了表示n1个输入参数,第二层 为隐含层,共n2个节点,第三层为输出层,共n3个节点,由BP神 经网络系统实际需要输出的响应确定;
该网络的数学模型为:
输入向量net_x=(net_x1,net_x2,...,net_xn1)T
中间层向量net_y=(net_y1,net_y2,...,net_yn2)T
输出向量net_o=(net_o1,net_o2,...,net_on3)T
输入向量与输出向量的函数关系为:
net_o=F2(H1*F1(W1*net_x+b1)+b2)
其中,net_x,net_o即为输入向量和输出向量,中间层向量net_y 的表达式为:
net_y=W1*net_x+b1
其中,W1,H1分别为输入层与中间层(隐藏层)、中间层与输 出层之间的权重系数矩阵;b1,b2分别为输入层与中间层(隐藏层)、 中间层与输出层之间的偏置矩阵。
F1()为BP神经网络中间层激活函数,F2()为BP神经网络输 出层激活函数,一般采用sigmoid函数;
输入层节点数n1等于语音信号MFCC的参数个数,本实施例为 14;
输出层节点数n3=1(若第i2个说话人的BP神经网络的美尔频率 倒谱系数输入属于第i2个说话人,则BP神经网络的输出为1,否则 为0).。
隐藏层节点数n2在BP神经网络进行训练时确定;
图5为BP神经网络结构简图;
第i2个说话人的BP神经网络输入信号为训练数据集的输入矩阵 train_input_mat;
第i2个说话人的BP神经网络输出信号为训练数据集的输出矩阵 train_output_mat(i2);
以往的基于BP神经网络的说话人识别系统,其BP神经网络模 型有两种。第一种,为所有的说话人建立一个BP神经网络,其输出 节点有多个,输出节点值的组合代表不同的说话人。这种模型结构复 杂,系统难于训练,识别效果比较差。第二种,为每个说话人均建立 一个BP神经网络,但每个说话人的BP神经网络的训练集只包含自 己的语音训练集,不包含其他说话人的。很显然,这种识别模型对其 他说话人的语音训练集训练不充分,其识别效果必定不理想。本专利 的BP神经网络模型与上述两种均不同,它为每个说话人均建立一个 BP神经网络,其训练数据集的输入数据均是相同的,包含了所有的 说话人的语音训练集;其输出节点只有一个,每个网络只是完成一个 二元分类任务,其结构简单,系统训练时间短,识别效果好;
BP神经网络模块6对各个BP神经网络进行训练的具体过程为:
针对第i2个说话人的BP神经网络,设定输入节点i3和隐含层 节点j3之间的连接权值W1i3j3,隐层节点j3和输出层节点k3之间的 连接权值H1j3k3,隐层节点j3的偏置值b1j3,输出层节点k3的偏置值 b2k3这4个矩阵的初始值,其均为-1~1之间的随机数;
根据输入向量net_x,连接权值W1i3j3,偏置值b1j3,计算得到中 间层向量net_y;
根据中间层向量net_y,连接权值H1j3k3,偏置值b2k3,计算得到 输出向量net_o;
计算输出向量net_o与输出矩阵train_output_mat(i2)相应值之 间的偏差,根据这个偏差,运用误差反向传播算法(BP算法),不断 修正W1i3j3和H1j3k3的值,直至BP神经网络系统误差小于等于设定 的输出误差限值时,保存W1i3j3,H1j3k3,b1j3,b2k3四个参数的值, 完成BP神经网络的训练过程,每个说话人的BP神经网络的W1i3j3, H1j3k3,b1j3,b2k3四个参数均是不同的。
上述技术方案中,所述实际场景说话人识别模块8将实际场景中 采集到的语音信号的美尔频率倒谱系数输入到已完成训练的各个对 应BP神经网络中进行实际场景说话人识别的具体过程为:
将实际场景中采集到的语音信号的美尔频率倒谱系数输入到已 完成训练的各个对应BP神经网络中,设第i2个BP神经网络输出数 据为net_output(i2)(一个1行Q列的矩阵,Q为待识别语音的帧数), 其第k4个数值为net_output(i2,k4),按下式计算方差和se1(i2):
各BP神经网络输出数据的个数都是相同的,均为Q,Q为待识 别语音的帧数;
对se1(i2)(i2=1,2……,R)取最小值,最小值对应的序号为识别结 果。表达式如下:
result={k5|se1(k5)=min(se1(i2)),i2=1,2……,R}
其中,result为识别结果,k5为表示识别结果,即se1(i2)的最小 值所对应的序号,R为身份识别的说话人的数量。
上述技术方案中,所述说话人识别测试模块(7)用于将测试集 中说话人语音数据的美尔频率倒谱系数输入到已完成训练的各个对 应BP神经网络中进行BP神经网络识别率和可靠性测试的具体方法 为:针对第i2个说话人的测试矩阵test_sample_individual(i2), (test_sample_individual(i2)是test_sample的子矩阵),设其语音帧数 为U(i2),则test_sample_individual(i2)的维数为14行U(i2)列,将 test_sample_individual(i2)分别输入到已完成训练的所有BP神经网络 中,设第j4个BP神经网络的输出为output_for_test(j4),其第k6个 元素记为output_for_test(j4,k6),计算output_for_test(j4)与1的方差和 se(i2,j4),公式如下:
将所有说话人测试矩阵的输出数据得方差和组合起来,即形成方 差和矩阵se,它是一个方阵,行数和列数均为R(说话人的数量R), se(i2,j4)表示第i2个说话人测试矩阵输入到第j4个说话人BP神经网 络所产生的输出数据的方差和;
针对第i2个说话人,取se(i2,j4)(i2固定,j4=1,2,……R)的最 小值(即取矩阵se第i2行的最小值),设其对应的序号(矩阵的列序 号)为min_no,若min_no=i2,表示第i2个说话人识别正确,否则 识别错误;
依据上述说话人识别判定流程,可得到说话人识别系统的识别率, 公式如下:
识别率=说话人识别正确的数量/说话人的数量R
说话人识别系统可靠性(即判断某段语音属于某个说话人的可信 程度),计算流程如下:
针对矩阵se的第i2行数据,求解如下方程中的变量v:
得到v后,按照下式计算可靠性:
rety(i2)=v-se(i2,i2),se是一个方阵,行数和列数均为R(说 话人的数量),se(i2,j4)表示第i2个说话人测试矩阵输入到第j4个说 话人BP神经网络所产生的输出数据的方差和,se(i2,i2)为方阵上主 对角线的值,即第i2个说话人测试矩阵输入到第i2个说话人BP神 经网络所产生的输出数据的方差和,rety(i2)为测试流程中第i2个说 话人的识别可靠性。
更一般的,可直接从典型值范围[1.1,3]内取一v值,按照下式计 算可靠性:
可靠性的另一种计算方式为:
以往的说话人识别系统,是没有可靠性这一指标的。本专利在分 析说话人识别系统匹配法则的基础上,建立了说话人识别系统可靠性 指标,并对其进行量化,为说话人识别系统识别率的进一步提升和优 化奠定了基础(即说话人识别系统不但要追求高识别率,还要求有高 可靠性)。
一种基于MFCC和BP神经网络的说话人识别方法,它包括如下 步骤:
步骤1:对语音信号依次进行分帧、选帧和预加重的信号预处理;
步骤2:预处理后的语音信号进行加窗处理;
步骤3:对加窗处理后的语音信号进行频谱分析得到语音信号各 帧的频谱;
步骤4:对语音信号各帧频谱的谱线能量进行美尔滤波处理;
步骤5:对美尔滤波后的语音信号各帧频谱进行离散余弦变换得 到语音信号的美尔频率倒谱系数;
步骤6:将所有需要身份识别的说话人语音数据分为训练集和测 试集,利用训练集中说话人语音数据的美尔频率倒谱系数生成BP神 经网络训练数据集,并为每个说话人分别建立对应的BP神经网络, 利用BP神经网络训练集对各个BP神经网络进行训练;
将测试集中说话人语音数据的美尔频率倒谱系数输入到已完成 训练的各个对应BP神经网络中进行BP神经网络识别率和可靠性测 试
步骤7:将实际场景中采集到的语音信号的美尔频率倒谱系数输 入到已完成训练的各个对应BP神经网络中进行实际场景说话人识别。
本说明书未作详细描述的内容属于本领域专业技术人员公知的 现有技术。
Claims (9)
1.一种基于MFCC和BP神经网络的说话人识别系统,其特征在于:它包括语音信号预处理模块(1)、语音信号加窗处理模块(2)、频谱分析模块(3)、滤波模块(4)、离散余弦变换模块(5)、BP神经网络模块(6)和实际场景说话人识别模块(8),所述语音信号预处理模块(1)用于依次对语音信号进行分帧、选帧和预加重的信号预处理,语音信号加窗处理模块(2)用于对预处理后的语音信号进行加窗处理,频谱分析模块(3)用于对加窗处理后的语音信号进行频谱分析得到语音信号各帧的频谱,滤波模块(4)用于对语音信号各帧频谱的谱线能量进行美尔滤波处理,离散余弦变换模块(5)用于对美尔滤波后的语音信号各帧频谱进行离散余弦变换得到语音信号的美尔频率倒谱系数;
BP神经网络模块(6)用于将所有需要身份识别的说话人语音数据分为训练集和测试集,利用训练集中说话人语音数据的美尔频率倒谱系数生成BP神经网络训练数据集,并为每个说话人分别建立对应的BP神经网络,利用BP神经网络训练集对各个BP神经网络进行训练;
实际场景说话人识别模块(8)用于将实际场景中采集到的语音信号的美尔频率倒谱系数输入到已完成训练的各个对应BP神经网络中进行实际场景说话人识别;
语音信号预处理模块(1)对语音信号进行分帧处理的具体过程为:将经过重采样和语音端点检测后的语音信号记为{s0(i)},i=1,2……,L,其中,L为语音信号长度,s0(i)为语音信号的第i个数据;
分帧前,先对语音信号进行归一化处理;
将语音信号{s0(i)}做如下处理:
{s1(i)}={s0(i)}/max(abs({s0(i)})),i=1,2……,L,其中,max(abs({s0(i)}))表示先对语音信号{s0(i)}取绝对值,再对数据序列取最大值;
分帧时,以N为数据长度对语音信号{s1(i)}进行截取,第j帧数据为x0(j)={s1((j-1)*N+1)~s1(j*N)},N为帧长;
所述语音信号预处理模块(1)对语音信号进行选帧处理的过程为:
选帧前,先求出各数据帧短时幅度,计算公式如下:
其中,frame_L为帧的数量,amp(j)为第j帧短时幅度,s1j(m0)为第j帧数据x0(j)={s1((j-1)*N+1)~s1(j*N)}中的第m0个数据,||表示取绝对值;
对{amp(j)}取最大值max({amp(j)}),记为amp_max;
采用如下方式对语音信号进行选帧:
valid_frame_no={j|amp(j)>δ*amp_max,j=1,2……,frame_L}
其中,valid_frame_no为被选中帧序号的集合,δ的取值为0<δ<1;
所述语音信号预处理模块(1)对语音信号进行预加重处理的过程为:
预加重用数字滤波器实现:
s2(q1)=s1(q1+1)-μ*s1(q1),q1=1,2……,L-1,其中,L为语音信号{s1(i)}长度,μ为常数,μ的取值介于0.9~1.0之间,s1(q1)为语音信号{s1(i)}的第q1个数据,{s2(q1)}为预加重后得到的信号。
2.根据权利要求1所述的基于MFCC和BP神经网络的说话人识别系统,其特征在于:它还包括说话人识别测试模块(7),所述说话人识别测试模块(7)用于将测试集中说话人语音数据的美尔频率倒谱系数输入到已完成训练的各个对应BP神经网络中进行BP神经网络识别率和可靠性测试。
3.根据权利要求1所述的基于MFCC和BP神经网络的说话人识别系统,其特征在于:语音信号加窗处理模块(2)对预处理后的语音信号进行加窗处理的过程为:
对预处理后的语音信号施加汉明窗函数,汉明窗函数表达式为:
w=0.54-0.46*cos(2*π*p/P),0≤p≤P
其中,p和P为整数,p为自变量,w为因变量,为窗函数的幅度,P为常数,窗函数的总长度Lw=P+1,Lw等于帧长N;
对信号{s2(q1)}以N为数据长度进行分帧处理,得到语音帧序列{x1(j)};
对{x1(j)}进行如下处理:
x={x1(j).*w|j∈valid_frame_no,j=1,2……,frame_L}
其中,.*为数量乘积,即x1(j)与w各对应元素相乘,x为经过加窗处理后的语音帧序列。
4.根据权利要求1所述的基于MFCC和BP神经网络的说话人识别系统,其特征在于:频谱分析模块(3)对加窗处理后的语音信号进行频谱分析的具体方法为:
对各帧数据进行FFT变换,得到各帧的频谱:
X(i1,k)=fft[x(i1)]
其中,x(i1)表示经过加窗处理后的语音序列{x(r)}第i1帧数据,r=1,2……,valid_frame_L,valid_frame_L为经选帧处理后帧的数量,X(i1,k)表示第i1帧频谱数据中第k条谱线的频谱;
频谱为复数,对其取模,得到幅值谱:
A(i1,k)=|X(i1,k)|
A(i1,k)表示第i1帧频谱数据中第k条谱线的幅值;
对A(i1,k)取平方,得到数据的能量谱:
E(i1,k)=|X(i1,k)|2
E(i1,k)表示第i1帧频谱数据中第k条谱线的能量。
5.根据权利要求1所述的基于MFCC和BP神经网络的说话人识别系统,其特征在于:滤波模块(4)对语音信号各帧频谱的谱线能量进行美尔滤波处理的过程为:
首先,计算Mel三角滤波器组数据;
美尔与赫兹频率的非线性关系,如下式所示:
mel=2595*log10(1+f0/700)
其中,f0为频率Hz,mel为美尔频率;
第m个三角滤波器的传递函数为:
其中,1≤m≤M,M为滤波器个数;Hm(k)为第m个三角滤波器第k条谱线的幅值;f(m)为第m个滤波器的中心频率所对应的谱线序号,f(m-1)为第m-1个滤波器的中心频率所对应的谱线序号,f(m+1)为第m+1个滤波器的中心频率所对应的谱线序号,k表示谱线序号;
Mel三角滤波器组各滤波器的端点频率及中心频率所对应的谱线序号f(m)依照如下方式计算:
依据香农采样定理得到分析频率上限,并求出其mel值,记为mel_max;
选定所关注语音信号的频率下限,求出其mel值,记为mel_min;
将区间[mel_min,mel_max]均匀分成M+1段,段长mel_step为:
mel_step=(mel_max-mel_min)/(M+1)
m1(u)=mel_min+u*mel_step,0≤u≤(M+1)
其中,m1(u)为Mel刻度上Mel三角滤波器组的第u个端点频率;
f0与mel的关系式为:
将m1(u)代入上式中的mel,得到f1(u),0≤u≤(M+1);
将f1(u)乘以N/fs,得f(u),即:
f(u)=f1(u)*N/fs,0≤u≤(M+1)
其中,N为帧长,fs为语音信号采样频率;
则第u个滤波器的中心频率所对应的谱线序号为f(u),左端点频率所对应的谱线序号为f(u-1),右端点频率所对应的谱线序号为f(u+1);
然后,对能量谱进行Mel滤波处理;
通过Mel三角滤波器组后的频谱数据为能量谱E(k)与Mel三角滤波器组传递函数Hm(k)的乘积和:
F(m)=∑kE(k)*Hm(k),1≤m≤M
其中,M为滤波器个数,k表示谱线序号;
离散余弦变换模块(5)对美尔滤波后的语音信号各帧频谱进行离散余弦变换得到语音信号的美尔频率倒谱系数的具体过程为:
对滤波后的数据求对数,进行离散余弦变换;
6.根据权利要求1所述的基于MFCC和BP神经网络的说话人识别系统,其特征在于:BP神经网络模块(6)生成BP神经网络训练数据集的具体过程为:
获取所有需要进行身份识别的说话人的语音数据,每个说话人的语音数据分为两部分,一部分为训练集,一部分为测试集;
设所有需要进行身份识别的说话人的数量为R,按照说话人顺序获取R份语音训练集,对这R份语音训练集分别提取美尔频率倒谱系数,得A行S列矩阵,该矩阵为BP神经网络的训练样本输入数据train_input_mat,每一列代表某帧语音信号的A个Mel倒谱系数,S为R份语音训练集的帧数之和;
为每个说话人都建立一个BP神经网络模型,每个说话人的BP神经网络的训练样本输入数据都是相同的,均为train_input_mat;每个说话人的BP神经网络的训练样本输出数据都是不同的,需要分别构造,构造第i2个说话人训练样本输出数据train_output_mat(i2),针对train_input_mat的每一列,若当列对应的帧属于第i2个说话人,则train_output_mat(i2)该列赋值为1,否则为0,train_output_mat(i2)的维数为1行S列;
train_input_mat为第i2个说话人的BP神经网络的训练样本输入数据,train_output_mat(i2)为其训练样本输出数据;
BP神经网络模块(6)建立对应的BP神经网络的具体过程为:
每个说话人的BP神经网络模型结构都是相同的,由三层组成,第一层为输入层,共n1个节点,对应了表示n1个输入参数,第二层为隐含层,共n2个节点,第三层为输出层,共n3个节点,由BP神经网络系统实际需要输出的响应确定;
该网络的数学模型为:
输入向量net_x=(net_x1,net_x2,...,net_xn1)T
中间层向量net_y=(net_y1,net_y2,...,net_yn2)T
输出向量net_o=(net_o1,net_o2,...,net_on3)T
输入向量与输出向量的函数关系为:
net_o=F2(H1*F1(W1*net_x+b1)+b2)
其中,net_x,net_o即为输入向量和输出向量,中间层向量net_y的表达式为:
net_y=W1*net_x+b1
其中,W1,H1分别为输入层与中间层、中间层与输出层之间的权重系数矩阵;b1,b2分别为输入层与中间层、中间层与输出层之间的偏置矩阵;
F1()为BP神经网络中间层激活函数,F2()为BP神经网络输出层激活函数;
输入层节点数n1等于语音信号MFCC的参数个数;
输出层节点数n3=1,若第i个说话人的BP神经网络的美尔频率倒谱系数输入属于第i个说话人,则BP神经网络的输出为1,否则为0;
隐藏层节点数n2在BP神经网络进行训练时确定;
第i2个说话人的BP神经网络输入信号为训练数据集的输入矩阵train_input_mat;
第i2个说话人的BP神经网络输出信号为训练数据集的输出矩阵train_output_mat(i2);
BP神经网络模块(6)对各个BP神经网络进行训练的具体过程为:
针对第i2个说话人的BP神经网络,设定输入节点i3和隐含层节点j3之间的连接权值W1i3j3,隐层节点j3和输出层节点k3之间的连接权值H1j3k3,隐层节点j3的偏置值b1j3,输出层节点k3的偏置值b2k3这4个矩阵的初始值;
根据输入向量net_x,连接权值W1i3j3,偏置值b1j3,计算得到中间层向量net_y;
根据中间层向量net_y,连接权值H1j3k3,偏置值b2k3,计算得到输出向量net_o;
计算输出向量net_o与输出矩阵train_output_mat(i2)相应值之间的偏差,根据这个偏差,运用误差反向传播算法,不断修正W1i3j3和H1j3k3的值,直至BP神经网络系统误差小于等于设定的输出误差限值时,保存W1i3j3,H1j3k3,b1j3,b2k3四个参数的值,完成BP神经网络的训练过程。
7.根据权利要求1所述的基于MFCC和BP神经网络的说话人识别系统,其特征在于:所述实际场景说话人识别模块(8)将实际场景中采集到的语音信号的美尔频率倒谱系数输入到已完成训练的各个对应BP神经网络中进行实际场景说话人识别的具体过程为:
将实际场景中采集到的语音信号的美尔频率倒谱系数输入到已完成训练的各个对应BP神经网络中,设第i2个BP神经网络输出数据为net_output(i2),其第k4个数值为net_output(i2,k4),按下式计算方差和se1(i2):
各BP神经网络输出数据的个数都是相同的,均为Q,Q为待识别语音的帧数;
对se1(i2)取最小值,i2=1,2……,R,最小值对应的序号为识别结果。
8.根据权利要求2所述的基于MFCC和BP神经网络的说话人识别系统,其特征在于:所述说话人识别测试模块(7)用于将测试集中说话人语音数据的美尔频率倒谱系数输入到已完成训练的各个对应BP神经网络中进行BP神经网络识别率和可靠性测试的具体方法为:针对第i2个说话人的测试矩阵test_sample_individual(i2),设其语音帧数为U(i2),将test_sample_individual(i2)分别输入到已完成训练的所有BP神经网络中,设第j4个BP神经网络的输出为output_for_test(j4),其第k6个元素记为output_for_test(j4,k6),计算output_for_test(j4)与1的方差和se(i2,j4),公式如下:
将所有说话人测试矩阵的输出数据得方差和组合起来,即形成方差和矩阵se,它是一个方阵,行数和列数均为R,se(i2,j4)表示第i2个说话人测试矩阵输入到第j4个说话人BP神经网络所产生的输出数据的方差和;
针对第i2个说话人,取se(i2,j4)的最小值,i2固定,j4=1,2,……R,设其对应的序号为min_no,若min_no=i2,表示第i2个说话人识别正确,否则识别错误;
依据上述说话人识别判定流程,可得到说话人识别系统的识别率,公式如下:
识别率=说话人识别正确的数量/说话人的数量R
说话人识别系统可靠性,计算流程如下:
针对矩阵se的第i2行数据,求解如下方程中的变量v:
得到v后,按照下式计算可靠性:
rety(i2)=v-se(i2,i2),se是一个方阵,行数和列数均为R,se(i2,j4)表示第i2个说话人测试矩阵输入到第j4个说话人BP神经网络所产生的输出数据的方差和,se(i2,i2)为方阵上主对角线的值,即第i2个说话人测试矩阵输入到第i2个说话人BP神经网络所产生的输出数据的方差和,rety(i2)为测试流程中第i2个说话人的识别可靠性。
9.一种根据权利要求1所述系统的基于MFCC和BP神经网络的说话人识别方法,其特征在于,它包括如下步骤:
步骤1:对语音信号依次进行分帧、选帧和预加重的信号预处理;
步骤2:预处理后的语音信号进行加窗处理;
步骤3:对加窗处理后的语音信号进行频谱分析得到语音信号各帧的频谱;
步骤4:对语音信号各帧频谱的谱线能量进行美尔滤波处理;
步骤5:对美尔滤波后的语音信号各帧频谱进行离散余弦变换得到语音信号的美尔频率倒谱系数;
步骤6:将所有需要身份识别的说话人语音数据分为训练集和测试集,利用训练集中说话人语音数据的美尔频率倒谱系数生成BP神经网络训练数据集,并为每个说话人分别建立对应的BP神经网络,利用BP神经网络训练集对各个BP神经网络进行训练;
步骤7:将实际场景中采集到的语音信号的美尔频率倒谱系数输入到已完成训练的各个对应BP神经网络中进行实际场景说话人识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110266020.3A CN113053398B (zh) | 2021-03-11 | 2021-03-11 | 基于mfcc和bp神经网络的说话人识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110266020.3A CN113053398B (zh) | 2021-03-11 | 2021-03-11 | 基于mfcc和bp神经网络的说话人识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113053398A CN113053398A (zh) | 2021-06-29 |
CN113053398B true CN113053398B (zh) | 2022-09-27 |
Family
ID=76511489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110266020.3A Active CN113053398B (zh) | 2021-03-11 | 2021-03-11 | 基于mfcc和bp神经网络的说话人识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113053398B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10143193A (ja) * | 1996-11-08 | 1998-05-29 | Matsushita Electric Ind Co Ltd | 音声信号処理装置 |
JP2003036087A (ja) * | 2001-07-25 | 2003-02-07 | Sony Corp | 情報検出装置及び方法 |
KR20040067573A (ko) * | 2003-01-24 | 2004-07-30 | 학교법인 영남학원 | 문맥독립형 화자식별방법 |
CN103854662A (zh) * | 2014-03-04 | 2014-06-11 | 中国人民解放军总参谋部第六十三研究所 | 基于多域联合估计的自适应语音检测方法 |
CN104008751A (zh) * | 2014-06-18 | 2014-08-27 | 周婷婷 | 一种基于bp神经网络的说话人识别方法 |
WO2014153800A1 (zh) * | 2013-03-29 | 2014-10-02 | 京东方科技集团股份有限公司 | 语音识别系统 |
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
US10008209B1 (en) * | 2015-09-25 | 2018-06-26 | Educational Testing Service | Computer-implemented systems and methods for speaker recognition using a neural network |
CN108847244A (zh) * | 2018-08-22 | 2018-11-20 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于mfcc和改进bp神经网络的声纹识别方法及系统 |
AU2019101222A4 (en) * | 2019-10-05 | 2020-01-16 | Feng, Yuyao MR | A Speaker Recognition System Based on Deep Learning |
-
2021
- 2021-03-11 CN CN202110266020.3A patent/CN113053398B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10143193A (ja) * | 1996-11-08 | 1998-05-29 | Matsushita Electric Ind Co Ltd | 音声信号処理装置 |
JP2003036087A (ja) * | 2001-07-25 | 2003-02-07 | Sony Corp | 情報検出装置及び方法 |
KR20040067573A (ko) * | 2003-01-24 | 2004-07-30 | 학교법인 영남학원 | 문맥독립형 화자식별방법 |
WO2014153800A1 (zh) * | 2013-03-29 | 2014-10-02 | 京东方科技集团股份有限公司 | 语音识别系统 |
CN103854662A (zh) * | 2014-03-04 | 2014-06-11 | 中国人民解放军总参谋部第六十三研究所 | 基于多域联合估计的自适应语音检测方法 |
CN104008751A (zh) * | 2014-06-18 | 2014-08-27 | 周婷婷 | 一种基于bp神经网络的说话人识别方法 |
US10008209B1 (en) * | 2015-09-25 | 2018-06-26 | Educational Testing Service | Computer-implemented systems and methods for speaker recognition using a neural network |
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
CN108847244A (zh) * | 2018-08-22 | 2018-11-20 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于mfcc和改进bp神经网络的声纹识别方法及系统 |
AU2019101222A4 (en) * | 2019-10-05 | 2020-01-16 | Feng, Yuyao MR | A Speaker Recognition System Based on Deep Learning |
Non-Patent Citations (4)
Title |
---|
Accuracy Improvement of MFCC Based Speech Recognition by Preventing DFT Leakage Using Pitch Segmentation;Sopon Wiriyarattanakul等;《Journal of Telecommunication, Electronic and Computer Engineering》;20180215;全文 * |
声纹识别中语音特征参数提取方法的研究;倪纪伟;《中国优秀硕士学位论文全文数据库信息科技辑》;20191015;全文 * |
说话人识别中特征参数的提取及优化研究;朱建伟;《中国优秀硕士学位论文全文数据库信息科技辑》;20120215;全文 * |
说话人识别中语音参数提取方法的研究;胡政权;《中国优秀硕士学位论文全文数据库信息科技辑》;20140215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113053398A (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm | |
CN107610715B (zh) | 一种基于多种声音特征的相似度计算方法 | |
Jankowski et al. | A comparison of signal processing front ends for automatic word recognition | |
US20040236573A1 (en) | Speaker recognition systems | |
Aida-Zade et al. | Investigation of combined use of MFCC and LPC features in speech recognition systems | |
Sithara et al. | Study of MFCC and IHC feature extraction methods with probabilistic acoustic models for speaker biometric applications | |
CN106997765B (zh) | 人声音色的定量表征方法 | |
CN110827857A (zh) | 基于谱特征和elm的语音情感识别方法 | |
Ghitza | Robustness against noise: The role of timing-synchrony measurement | |
CN116052689A (zh) | 一种声纹识别方法 | |
CN112397074A (zh) | 基于mfcc和向量元学习的声纹识别方法 | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
Shahnawazuddin et al. | Pitch-normalized acoustic features for robust children's speech recognition | |
Sandhu et al. | A comparative study of mel cepstra and EIH for phone classification under adverse conditions | |
Molla et al. | On the effectiveness of MFCCs and their statistical distribution properties in speaker identification | |
Tolba et al. | Auditory-based acoustic distinctive features and spectral cues for automatic speech recognition using a multi-stream paradigm | |
CN113053398B (zh) | 基于mfcc和bp神经网络的说话人识别系统及方法 | |
CN111091816B (zh) | 一种基于语音评测的数据处理系统及方法 | |
Nwe et al. | Stress classification using subband based features | |
Koolagudi et al. | Spectral features for emotion classification | |
CN114038469A (zh) | 一种基于多类谱图特征注意力融合网络的说话人识别方法 | |
Sahoo et al. | Detection of speech-based physical load using transfer learning approach | |
Abdallah et al. | Improved closed set text independent speaker identification system using Gammachirp Filterbank in noisy environments | |
Islam | Modified mel-frequency cepstral coefficients (MMFCC) in robust text-dependent speaker identification | |
Selouani et al. | Auditory-based acoustic distinctive features and spectral cues for robust automatic speech recognition in low-snr car environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |