CN108492821A - 一种减弱语音识别中说话人影响的方法 - Google Patents
一种减弱语音识别中说话人影响的方法 Download PDFInfo
- Publication number
- CN108492821A CN108492821A CN201810257420.6A CN201810257420A CN108492821A CN 108492821 A CN108492821 A CN 108492821A CN 201810257420 A CN201810257420 A CN 201810257420A CN 108492821 A CN108492821 A CN 108492821A
- Authority
- CN
- China
- Prior art keywords
- speaker
- parameter
- training
- speech recognition
- information extractor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000007423 decrease Effects 0.000 title description 7
- 238000012549 training Methods 0.000 claims abstract description 60
- 230000003313 weakening effect Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 29
- 238000012795 verification Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 12
- 230000000717 retained effect Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 239000000654 additive Substances 0.000 claims description 2
- 230000000996 additive effect Effects 0.000 claims description 2
- 230000003542 behavioural effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000009897 systematic effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种减弱语音识别中说话人影响的方法,具体步骤为:(1)获取实验数据,对实验数据按照提供的默认划分方式进行划分;(2)对数据进行基本声学特征提取;(3)对步骤(2)所得的最终特征进行基准语音识别系统训练;(4)对步骤(2)得到的最终特征进行说话人扰动信息提取器的训练;(5)进行带说话人扰动信息提取器的语音识别系统的训练;(6)获取实验结果。本发明无需收集用户样本就能提升基准系统的识别性能,而且本发明对任一用户都能保持一致的识别性能提升。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种减弱语言识别中说话人影响的方法。
背景技术
语音信号是一种复杂的信号,即使同一个人重复说同样一句话,表现出来的声学特性也会有所差异;而不同说话人说同一句话,表现出来的声学特性的差异往往会更大;而这往往会降低语音识别系统的性能,而且,当用户的语音样本未出现在语音识别系统的训练集中时,识别性能往往会进一步降低;所以,在语音识别任务中,SI(说话人无关)系统的识别性能往往不如SD(说话人相关)系统的识别性能;而要建一个真正意义上的SD系统,则需要特定说话人的大量语音样本,这往往是不现实的;因此,减弱说话人的影响是提升语音识别系统性能的有效手段。
目前,主流的方法是先建一个SI系统,在收集用户的一些语音样本后,使用SA(说话人自适应)技术来调整SI系统的参数,以适应该用户,提升系统对该用户的识别性能;其中,SA技术主要包括MLLR(Maximum Likelihood Linear Regression)和EIGENVOICES技术。但是,该方法存在着两大局限:1、需要先收集用户的一些语音样本,而这会降低用户体验;2、在现实生活中,往往很难保证系统的使用者只有一个人;当使用SA技术对用户A进行适应后,系统对用户B的识别性能往往会下降;若对每个用户都采用SA技术进行适应,则会有多套系统参数,一方面将增加系统存储,另一方面,还需要搭建一个说话人识别系统来判断当前使用者是哪个用户,以选择相应的系统参数,这会使整个系统变得很复杂,而且说话人识别系统也不能做到100%的识别准确率。
发明内容
本发明的目的在于提供一种减弱语音识别中说话人影响的方法,本发明通过神经网络来搭建一个iEx(说话人扰动信息的提取器),从语音中提取出说话人扰动信息后,直接减去该扰动信息,以此来减弱说话人的影响,提升系统的识别性能。
一种减弱语音识别中说话人影响的方法,具体步骤包括:
(1)获取实验数据,对实验数据按照提供的默认划分方式进行划分;
(2)对数据进行基本声学特征提取;
(3)对步骤(2)所得的最终特征进行baseSys(基准语音识别系统)训练,具体为:
(3.1)利用卷积神经网络和门控循环神经网络搭建baseSys;
(3.2)将步骤(2)所得的最终特征送入baseSys进行模型训练;
(4)将步骤(2)所得的最终特征进行iEx的训练;
(5)将步骤(2)所得的最终特征进行finalSys(带说话人扰动信息提取器的语音识别系统)的训练;
(6)获取最终实验结果。
进一步地,所述步骤(1)的数据划分采用数据提供的默认划分方式进行划分,其中验证集和测试集各占全部数据的10%左右,剩下的80%作为训练集。
进一步地,所述步骤(2)的具体步骤包括:
(2.1)采用melspectrogram函数提取fbank(梅尔滤波器组)特征,设置函数参数;
(2.2)对fbank特征取自然对数以进行同态信号处理,即把特征中的乘性分量转化为加性分量;
(2.3)使用delta函数提取fbank-delta(梅尔滤波器组的一阶动态特征),设置函数参数;
(2.4)使用delta函数处理fbank-delta,提取fbank-delta-delta(梅尔滤波器组的二阶动态特征),设置函数参数;
(2.5)将fbank、fbank-delta、fbank-delta-delta这三个特征组合成一个三通道的特征图,作为最终的特征;
进一步地,所述步骤(4)的具体步骤包括:
(4.1)对步骤(1)得到的训练集进行初步筛选,从每个说话人的语音样本中随机调出20%样本作为验证集,剩下的样本作为训练集;
(4.2)利用卷积神经网络和门控循环神经网络搭建一个sreSys(说话人识别系统)来完成iEx的训练;
(4.3)将步骤(2)所提取的最终特征送入sreSys进行模型训练,将保留在验证集上取得最高识别率时的参数作为sreSys的最终参数;
(4.4)对sreSys的训练结束后,从sreSys中去掉最后两层,获得iEx;
进一步地,所述步骤(5)的具体步骤包括:
(5.1)利用baseSys和iEx构建finalSys,使用baseSys中的subNet1的参数来初始化finalSys中的subNet3的参数;
(5.2)将步骤(2)所提取的最终特征送入finalSys进行模型训练,保留在验证集上取得最高识别率时的参数作为finalSys的最终参数;
本发明相较于现有技术,具有以下的有益效果:
1、无需收集用户样本便能提升基准系统的识别性能,用户体验更佳;
2、模型参数没有偏向任何一个用户,当用户不止一个时,对任一用户都能保持一致的识别性能提升。
附图说明
图1为本发明一种减弱语音识别中说话人影响的方法的流程图;
图2为baseSys的模型示意图;
图3为baseSys的训练过程示意图;
图4为sreSys以及iEx的模型示意图;
图5为sreSys的训练过程示意图;
图6为finalSys的模型示意图;
图7为finalSys的训练过程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示为一种减弱语音识别中说话人影响的方法的流程图,所述方法的具体步骤包括:
(1)获取实验数据,对实验数据按照提供的默认划分方式进行划分。
在本实施例中,所述步骤(1)中所使用的实验数据从Google发布的SpeechCommandsDataset数据集中获取,数据划分采用数据提供的默认划分方式进行划分,其中验证集(包含189个说话人)和测试集(包含189个说话人)各占全部数据的10%左右,剩下的80%作为训练集。
(2)对数据进行基本声学特征提取,具体为:
(2.1)在本实施例中,采用librosa音频工具包中的melspectrogram函数提取fbank特征,设置函数参数;
优选地,melspectrogram函数设置为:采样率16k、帧长25ms、帧移10ms、梅尔滤波器组最大与最小频率分别设置为8kHz和20Hz;其他参数采用默认值。
(2.2)对fbank特征取自然对数;
(2.3)在本实施例中,采用librosa音频工具包中的delta函数提取fbank-delta;
优选地,步骤(2.3)中的delta函数设置为:窗口宽度为5;其他参数采用默认值。
(2.4)在本实施例中,使用librosa音频工具包中的delta函数处理fbank-delta,提取fbank-delta-delta,设置函数;
优选地,步骤(2.4)中的delta函数设置为:窗口宽度为5;其他参数采用默认值。
(2.5)将fbank、fbank-delta以及fbank-delta-delta这三个特征组合成一个三通道的特征图,作为最终的特征;
(3)对步骤(2)所得的最终特征进行baseSys训练,具体为:
(3.1)利用卷积神经网络和门控循环神经网络搭建baseSys模型;
具体地,所搭建的baseSys模型如图2所示,该baseSys模型采用了激活函数tanh、relu、softmax,上述函数的具体计算方法分别为:
relu(x)=max(x,0) (2)
其中,x表示输入,公式(2)中max表示取数值大的那一个数,如max(2,0)=2,C表示x中元素的个数,xi、xj则分别表示x中的第i个、第j个元素。
所述baseSys的参数如表1所示。
表1 baseSys参数设置
(3.2)将步骤(2)所得的最终特征送入baseSys进行模型训练;
具体地,目标函数为交叉熵损失函数,使用RMSprop算法进行参数的更新优化。
更进一步地,所述baseSys模型训练过程具体为:学习率设置为0.001、batch数目为64、整个训练集循环30次;每循环一次训练集,就对验证集进行一次评测,一旦验证集上的交叉熵值连续3次没有发生大于0.01的下降,就将学习率乘以0.2,最终将保留在验证集上取得最高识别率时的参数作为baseSys的最终参数。baseSys的训练过程如图3所示,图中直观地展示了baseSys在训练集和验证集上的识别率。
(4)对步骤(2)所得的最终特征进行iEx的训练。
(4.1)对步骤(1)得到的训练集进行初步筛选,从每个说话人的语音样本中随机调出20%样本作为验证集,剩下的样本作为训练集;
优选地,从步骤(1)得到的训练集中剔除发音样本最少的300个说话人,从剩下的说话人中随机挑选出500个说话人,共18732个样本;从每个说话人的语音样本中随机调出20%左右的样本作为验证集,共3759条样本;剩下的14973条样本作为训练集。
(4.2)利用卷积神经网络和门控循环神经网络搭建一个sreSys来完成iEx的训练;
具体地,除了最后两层的神经元数目不同,sreSys的模型结构基本与baseSys的模型结构一致;从sreSys中去掉最后两层即为iEx。如图4所示为sreSys以及iEx的模型示意图。所述sreSys以及iEx的参数设置均如表2所示。
表2 sreSys与iEx参数设置
(4.3)将步骤(2)所得的最终特征送入sreSys进行模型训练,将保留在验证集上取得最高识别率时的参数作为sreSys的最终参数;如图5所示为sreSys的训练过程示意图,图中直观地展示了sreSys在训练集和验证集上的识别率。
具体地,进行sreSys模型训练的目标函数为交叉熵损失函数,使用RMSprop算法进行参数的更新优化,所述sreSys模型训练的具体训练过程与步骤(3.2)中baseSys模型训练的具体训练过程保持一致。
(4.4)从sreSys中去掉最后两层,获得iEx;
(5)将步骤(2)所得的最终特征进行finalSys的训练。
(5.1)利用baseSys和iEx构建finalSys。所述finalSys的模型如图6所示。使用baseSys中的subNet1的参数初始化带finalSys中的subNet3的参数;所述finalSys的参数设置如表3所示。
表3 finalSys参数设置
具体地,所述步骤(5.1)具体为:
采用步骤(4)所得到的iEx,固定iEx模型的参数,使所述参数在finalSys的训练过程中不变;使用baseSys中的subNet1的参数来初始化finalSys中的subNet3的参数;finalSys中的subNet2部分是用来减弱说话人的影响。因为扰动有正有负,因此需要进行求和操作和求差操作,使得subNet3的输出中消去说话人不同带来的扰动,具体计算公式为:
p1=tanh(W1·iEx(x)+b1) (4)
p2=W2·p1+b2 (5)
df=subNet3(x)-p2 (6)
sm=subNet3(x)+p2 (7)
y1=relu(df) (8)
y2=relu(sm) (9)
y3=Concatenate(y1,y2) (10)
y4=W3·y3+b3 (11)
y=BN(y4) (12)
其中,x表示步骤(2)所提取的最终特征,即模型的输入;iEx(x)和subNet3(x)分别表示模型中iEx部分的输出和subNet3部分的输出;BN即Batch Normalization,用以进行0均值1标准差的标准化处理;{W1,b1}、{W2,b2}、{W3,b3}分别是finalSys中TDense2、TDense3、TDense4的参数,用来进行特征变换;relu函数的计算如公式(2)所示,Concatenate函数表示进行向量拼接,如y1=[1,2],y2=[3,4],Concatenate(y1,y2)=[1,2,3,4]。
(5.2)将步骤(2)所得的最终特征送入finalSys进行模型训练,保留在验证集上取得最高识别率时的参数作为finalSys的最终参数。如图7所示为finalSys的训练过程,图中直观地展示了finalSys在训练集和验证集上的识别率。
具体地,进行finalSys模型训练的目标函数为交叉熵损失函数,使用RMSprop算法进行参数的更新优化,所述finalSys模型训练的具体训练过程与步骤(3.2)中baseSys模型训练的具体训练过程保持一致。
(6)获取最终实验结果。
baseSys和finalSys的识别性能比较如表4所示。从表中可以得出,finalSys的平均识别错误率相较于baseSys降低了9.2%。充分表明本发明能够有效地提升语音识别系统的识别性能。
表4 baseSys和finalSys的性能比较
baseSys | finalSys | |
验证集准确率 | 95.88% | 96.20% |
测试集准确率 | 95.61% | 96.08% |
平均准确率 | 95.75% | 96.14% |
平均错误率 | 4.25% | 3.86% |
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种减弱语音识别中说话人影响的方法,其特征在于,具体步骤包括:
(1)获取实验数据,对实验数据按照提供的默认划分方式进行划分;
(2)对数据进行基本声学特征提取;
(3)对步骤(2)所得的最终特征进行基准语音识别系统训练,具体为:
(3.1)利用卷积神经网络和门控循环神经网络搭建基准语音识别系统;
(3.2)将步骤(2)所得的最终特征送入基准语音识别系统进行模型训练;
(4)将步骤(2)所得的最终特征进行说话人扰动信息提取器的训练;
(5)将步骤(2)所得的最终特征进行带说话人扰动信息提取器的语音识别系统的训练;
(6)获取最终的实验结果。
2.根据权利要求1所述的一种减弱语音识别中说话人影响的方法,其特征在于,所述数据划分方式,具体为:数据划分采用数据提供的默认划分方式进行划分,其中验证集和测试集各占全部数据的10%,剩下的80%作为训练集。
3.根据权利要求1所述的一种减弱语音识别中说话人影响的方法,其特征在于,所述步骤(2)具体包括:
(2.1)采用melspectrogram函数提取梅尔滤波器组特征,设置函数参数;
(2.2)对梅尔滤波器组特征取自然对数以进行同态信号处理,即把特征中的乘性分量转化为加性分量;
(2.3)使用delta函数提取梅尔滤波器组的一阶动态特征,设置函数参数;
(2.4)使用delta函数处理梅尔滤波器组的一阶动态特征,提取梅尔滤波器组的二阶动态特征,设置函数参数;
(2.5)将梅尔滤波器组的特征、一阶动态特征以及二阶动态特征组合成一个三通道的特征图,作为最终的特征。
4.根据权利要求1所述的一种减弱语音识别中说话人影响的方法,其特征在于,所述步骤(4)具体包括:
(4.1)对步骤(1)得到的训练集进行初步筛选,从每个说话人的语音样本中随机调出20%样本作为验证集,剩下的样本作为训练集;
(4.2)利用卷积神经网络和门控循环神经网络搭建一个说话人识别系统来完成说话人扰动信息提取器的训练;
(4.3)将步骤(2)所提取的最终特征送入说话人识别系统进行模型训练,将保留在验证集上取得最高识别率时的参数作为说话人识别系统的最终参数;
(4.4)对说话人识别系统的训练结束后,从说话人识别系统中去掉最后两层,获得说话人扰动信息提取器。
5.根据权利要求1所述的一种减弱语音识别中说话人影响的方法,其特征在于,所述步骤(5)具体包括:
(5.1)利用基准语音识别系统和说话人扰动信息提取器构建带说话人扰动信息提取器的语音识别系统,使用基准语音识别系统中的subNet1的参数来初始化带说话人扰动信息提取器的语音识别系统中的subNet3的参数;
(5.2)将步骤(2)所提取的最终特征送入带说话人扰动信息提取器的语音识别系统进行模型训练,保留在验证集上取得最高识别率时的参数作为带说话人扰动信息提取器的语音识别系统的最终参数。
6.根据权利要求1所述的一种减弱语音识别中说话人影响的方法,其特征在于,步骤(3.1)中所述基准语音识别系统所采用的激活函数分别为tanh、relu、softmax,具体计算公式如下所示:
relu(x)=max(x,0) (2)
其中,x表示输入,max表示取数值大的那一个数,C表示x中元素的个数,xi、xj则分别表示x中的第i个、第j个元素。
7.根据权利要求5所述的一种减弱语音识别中说话人影响的方法,其特征在于,所述步骤(5.1)具体为:
采用步骤(4)所得到的说话人扰动信息提取器,固定说话人扰动信息提取器的参数,使所述参数在带说话人扰动信息提取器的语音识别系统的训练过程中不变;使用基准语音识别系统中的subNet1的参数来初始化带说话人扰动信息提取器的语音识别系统中的subNet3的参数;带说话人扰动信息提取器的语音识别系统中的subNet2部分是用来减弱说话人的影响;因为扰动有正有负,因此需要进行求和操作和求差操作,使得subNet3的输出中消去说话人不同带来的扰动,具体计算公式为:
p1=tanh(W1·iEx(x)+b1) (4)
p2=W2·p1+b2 (5)
df=subNet3(x)-p2 (6)
sm=subNet3(x)+p2 (7)
y1=relu(df) (8)
y2=relu(sm) (9)
y3=Concatenate(y1,y2) (10)
y4=W3·y3+b3 (11)
y=BN(y4) (12)
其中,x表示步骤(2)所提取的最终特征,即模型的输入;iEx(x)和subNet3(x)分别表示模型中说话人扰动信息提取器部分的输出和subNet3部分的输出;BN即BatchNormalization,用以进行0均值1标准差的标准化处理;{W1,b1}、{W2,b2}、{W3,b3}分别是finalSys中TDense2、TDense3、TDense4的参数;Concatenate函数表示进行向量拼接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810257420.6A CN108492821B (zh) | 2018-03-27 | 2018-03-27 | 一种减弱语音识别中说话人影响的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810257420.6A CN108492821B (zh) | 2018-03-27 | 2018-03-27 | 一种减弱语音识别中说话人影响的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108492821A true CN108492821A (zh) | 2018-09-04 |
CN108492821B CN108492821B (zh) | 2021-10-22 |
Family
ID=63337732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810257420.6A Expired - Fee Related CN108492821B (zh) | 2018-03-27 | 2018-03-27 | 一种减弱语音识别中说话人影响的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108492821B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390937A (zh) * | 2019-06-10 | 2019-10-29 | 南京硅基智能科技有限公司 | 一种基于ArcFace loss算法的跨信道声纹识别方法 |
CN111833851A (zh) * | 2020-06-16 | 2020-10-27 | 杭州云嘉云计算有限公司 | 一种自动学习优化声学模型的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120130716A1 (en) * | 2010-11-22 | 2012-05-24 | Samsung Electronics Co., Ltd. | Speech recognition method for robot |
CN103514878A (zh) * | 2012-06-27 | 2014-01-15 | 北京百度网讯科技有限公司 | 声学建模方法及装置和语音识别方法及装置 |
CN104217713A (zh) * | 2014-07-15 | 2014-12-17 | 西北师范大学 | 汉藏双语语音合成方法及装置 |
CN105070300A (zh) * | 2015-08-12 | 2015-11-18 | 东南大学 | 一种基于说话人标准化变换的语音情感特征选择方法 |
US9721559B2 (en) * | 2015-04-17 | 2017-08-01 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
CN107093422A (zh) * | 2017-01-10 | 2017-08-25 | 上海优同科技有限公司 | 一种语音识别方法和语音识别系统 |
-
2018
- 2018-03-27 CN CN201810257420.6A patent/CN108492821B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120130716A1 (en) * | 2010-11-22 | 2012-05-24 | Samsung Electronics Co., Ltd. | Speech recognition method for robot |
CN103514878A (zh) * | 2012-06-27 | 2014-01-15 | 北京百度网讯科技有限公司 | 声学建模方法及装置和语音识别方法及装置 |
CN104217713A (zh) * | 2014-07-15 | 2014-12-17 | 西北师范大学 | 汉藏双语语音合成方法及装置 |
US9721559B2 (en) * | 2015-04-17 | 2017-08-01 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
CN105070300A (zh) * | 2015-08-12 | 2015-11-18 | 东南大学 | 一种基于说话人标准化变换的语音情感特征选择方法 |
CN107093422A (zh) * | 2017-01-10 | 2017-08-25 | 上海优同科技有限公司 | 一种语音识别方法和语音识别系统 |
Non-Patent Citations (4)
Title |
---|
NAOYUKI KANDA: "Elastic spectral distortion for low resource speech recognition with deep neural networks", 《2013 IEEE WORKSHOP ON AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING》 * |
OSSAMA ABDEL-HAMID: "Convolutional neural networks for speech recognition", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING 》 * |
宁更新: "抗噪声语音识别新技术的研究", 《中国博士学位论文全文数据库》 * |
张德良: "深度神经网络在中文语音识别系统中的实现", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390937A (zh) * | 2019-06-10 | 2019-10-29 | 南京硅基智能科技有限公司 | 一种基于ArcFace loss算法的跨信道声纹识别方法 |
CN110390937B (zh) * | 2019-06-10 | 2021-12-24 | 南京硅基智能科技有限公司 | 一种基于ArcFace loss算法的跨信道声纹识别方法 |
CN111833851A (zh) * | 2020-06-16 | 2020-10-27 | 杭州云嘉云计算有限公司 | 一种自动学习优化声学模型的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108492821B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564942B (zh) | 一种基于敏感度可调的语音情感识别方法及系统 | |
CN109326299B (zh) | 基于全卷积神经网络的语音增强方法、装置及存储介质 | |
WO2019232829A1 (zh) | 声纹识别方法、装置、计算机设备及存储介质 | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
DE60004331T2 (de) | Sprecher-erkennung | |
CN108648759A (zh) | 一种文本无关的声纹识别方法 | |
CN110379441B (zh) | 一种基于对抗型人工智能网络的语音服务方法与系统 | |
CN107146624A (zh) | 一种说话人确认方法及装置 | |
CN110767239A (zh) | 一种基于深度学习的声纹识别方法、装置及设备 | |
CN111916111A (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
CN110570853A (zh) | 基于语音数据的意图识别方法和装置 | |
CN110136696B (zh) | 音频数据的监控处理方法和系统 | |
CN110853654A (zh) | 一种模型生成方法、声纹识别方法及对应装置 | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
US20180308501A1 (en) | Multi speaker attribution using personal grammar detection | |
CN107039036A (zh) | 一种基于自动编码深度置信网络的高质量说话人识别方法 | |
CN108986798A (zh) | 语音数据的处理方法、装置及设备 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN113870840B (zh) | 语音识别方法、装置及相关设备 | |
CN114299995A (zh) | 一种用于情绪评估的语言情感识别方法 | |
CN112992191B (zh) | 语音端点检测方法、装置、电子设备及可读存储介质 | |
CN108877812B (zh) | 一种声纹识别方法、装置及存储介质 | |
CN110570871A (zh) | 一种基于TristouNet的声纹识别方法、装置及设备 | |
CN116052689A (zh) | 一种声纹识别方法 | |
CN108492821A (zh) | 一种减弱语音识别中说话人影响的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211022 |
|
CF01 | Termination of patent right due to non-payment of annual fee |