CN107146624A - 一种说话人确认方法及装置 - Google Patents
一种说话人确认方法及装置 Download PDFInfo
- Publication number
- CN107146624A CN107146624A CN201710214666.0A CN201710214666A CN107146624A CN 107146624 A CN107146624 A CN 107146624A CN 201710214666 A CN201710214666 A CN 201710214666A CN 107146624 A CN107146624 A CN 107146624A
- Authority
- CN
- China
- Prior art keywords
- feature
- voice
- sonograph
- speaker
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 47
- 238000000605 extraction Methods 0.000 claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 238000012790 confirmation Methods 0.000 claims abstract description 12
- 230000009467 reduction Effects 0.000 claims description 41
- 238000012795 verification Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 3
- 210000004218 nerve net Anatomy 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 7
- 230000007935 neutral effect Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 230000001934 delay Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种说话人确认方法及装置,包括:获取第二语音;将预先获取的第一语音和所述第二语音转换成对应的第一声谱图和第二声谱图;使用卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取,获取对应的第一特征和第二特征;使用时延神经网络对所述第一特征和所述第二特征进行特征提取,获取对应的第三特征和第四特征;根据所述第三特征和所述第四特征对说话人进行确认。本发明通过将卷积神经网络和时延神经网络相结合,对所述第一语音和所述第二语音进行两次特征提取,将最终提取的第三特征和第四特征进行比较,从而实现对说话人的确认,本发明计算简单,鲁棒性强,能达到很好的识别效果。
Description
技术领域
本发明涉及语音识别领域,更具体地,涉及一种说话人确认方法及装置。
背景技术
说话人确认是通过声音特征对说话人进行身份验证的方法。在进行说话人确认时,用户先预留一段声音,然后输入验证语音。将验证语音与系统预留语音进行对比,即可判断该用户是否存在。
目前,说话人确认方法以统计模型为主,性能较好的说话人确认方法一般基于i-vector模型和PLDA模型。i-vector模型对语音信号建立如下线性模型:
X=Tw+v
其中,X为语音信号的MFCC特征,T为一个低秩矩阵,w为句子向量,即i-vector,v为高斯噪声。该模型事实上是一个概率PCA模型。实际应用中,一般将语音空间分成若干区域,对每个区域进行上述线性建模。所有区域共享句子向量w。w是一个低维向量,包含说话人、说话内容、信道等信息。为提高对说话人的区分性,引入PLDA模型:
w=Hu+Kc+n
其中u为说话人向量,c为表达向量,包括发音方式,信道等,n为高斯噪声。PLDA将说话人特征和表达特征区分开。
上述模型基于通用的MFCC特征,通过模型将说话人信息分离出来。该方法基于信号的分布状态建模,因此需要较多的数据才能得到较好的结果,而且计算量较大,且容易受到信道、噪声和时变的影响。
发明内容
为克服上述需要数据多、计算量大且鲁棒性差的问题或者至少部分地解决上述问题,本发明提供一种说话人确认方法及装置。
根据本发明的一个方面,提供一种说话人确认方法,包括:
获取第二语音;
将预先获取的第一语音和所述第二语音转换成对应的第一声谱图和第二声谱图;
使用卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取,获取对应的第一特征和第二特征;
使用时延神经网络对所述第一特征和所述第二特征进行特征提取,获取对应的第三特征和第四特征;
根据所述第三特征和所述第四特征对说话人进行确认。
具体地,在使用卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取之前,还包括:
对所述卷积神经网络和所述时延神经网络进行训练。
具体地,在使用时延神经网络对所述第一特征和所述第二特征进行特征提取之前,还包括:
对所述第一特征和所述第二特征进行降维。
具体地,所述使用时延神经网络对所述第一特征和所述第二特征进行特征提取,获取对应的第三特征和第四特征,包括:
分别对所述第一语音和所述第二语音中的帧进行拼接;
对所述第一语音中拼接后的帧对应的所述第一特征和所述第二语音中拼接后的帧对应的所述第二特征进行降维;
对降维后的所述第一特征和第二特征进行线性变换,获取对应的第三特征和第四特征。
具体地,对所述卷积神经网络和所述时延神经网络进行训练,包括:
使用交叉熵函数作为目标函数对所述卷积神经网络和所述时延神经网络进行训练。
根据本发明的另一个方面,提供一种说话人确认装置,包括:
获取单元,用于获取第二语音;
转换单元,用于将预先获取的第一语音和所述第二语音转换成对应的第一声谱图和第二声谱图;
第一提取单元,用于使用卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取,获取对应的第一特征和第二特征;
第二提取单元,用于使用时延神经网络对所述第一特征和所述第二特征进行特征提取,获取对应的第三特征和第四特征;
确认单元,用于根据所述第三特征和所述第四特征对说话人进行确认。
具体地,还包括:
训练单元,用于对所述卷积神经网络和所述时延神经网络进行训练。
具体地,还包括:
第一降维单元,用于对所述第一特征和所述第二特征进行降维。
具体地,所述第二提取单元包括:
拼接子单元,用于分别对所述第一语音和所述第二语音中的帧进行拼接;
第二降维子单元,用于对所述第一语音中拼接后的帧对应的所述第一特征和所述第二语音中拼接后的帧对应的所述第二特征进行降维;
变换子单元,用于对降维后的所述第一特征和第二特征进行线性变换,获取对应的第三特征和第四特征。
具体地,所述训练单元具体用于:
使用交叉熵函数作为目标函数对所述卷积神经网络和所述时延神经网络进行训练。
本发明提出一种说话人确认方法及装置,通过将卷积神经网络和时延神经网络相结合,对所述第一语音和所述第二语音进行两次特征提取,将最终提取的第三特征和所述第四特征进行比较,从而实现对说话人的确认,本发明计算简单,鲁棒性强,能达到很好的识别效果。
附图说明
图1为本发明实施例提供的说话人确认方法流程图;
图2为所述卷积神经网络和所述时延神经网络模型结构图;
图3为本发明实施例提供的说话人确认装置结构图;
图4为本发明又一实施例提供的说话人确认装置结构图;
图5为本发明又一实施例提供的说话人确认装置结构图;
图6为本发明又一实施例提供的说话人确认装置结构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明实施例提供的说话人确认方法流程图,包括:S1,获取第二语音;S2,将预先获取的第一语音和所述第二语音转换成对应的第一声谱图和第二声谱图;S3,使用卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取,获取对应的第一特征和第二特征;S4,使用时延神经网络对所述第一特征和所述第二特征进行特征提取,获取对应的第三特征和第四特征;S5,根据所述第三特征和所述第四特征对说话人进行确认。
具体地,S1中,获取所述第二语音,所述第二语音为说话人新录入的语音,是需要验证的语音。S2中,所述第一语音为说话人预先录入的语音,每一条第一语音对应有一个说话人标签,根据所述说话人标签能唯一确认说话人。所述第一语音可以包括多个说话人的语音,每个说话人可以对应有一条或多条第一语音。将所有的所述第一语音转换成第一声谱图,将所述第二语音转换成第二声谱图。所述第一声谱图和所述第二声谱图的横轴表示时间,纵轴表示频率,颜色或亮度表示幅度。
S3中,使用卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取。所述卷积网络可以包括多个卷积层。每个卷积层的卷积核的个数和大小可以根据需要进行调整。在使用每个卷积核对所述第一声谱图和所述第二声谱图进行卷积时,都会生成一个特征平面。每个卷积层后可以接一个池化层。所述池化层可以为最大池化层或平均池化层。所述池化层的窗口可以重叠,也可以不重叠。所述池化层的窗口大小可以根据需要进行调整。可以使用低阶矩阵对第二个所述池化层得到的特征平面进行降维,但不限于此种降维方式。
S4中,所述时延网络可以包括多个时延层,每个时延层分别对所述第一语音和所述第二语音中的帧进行拼接,并对所述第一语音中拼接后的帧对应的所述第一特征和所述第二语音中拼接后的帧对应的所述第二特征进行降维。本发明不限于降维的方法。然后对降维后的所述第一特征和第二特征进行线性变换,获取对应的第三特征和第四特征。由于所述第一特征和所述第二特征也为声谱图,声谱图的横坐标表示时间,所述第一语音和所述第二语音中的每一帧也有对应的时间。因此,所述第一语音中拼接后的帧对应的所述第一特征为所述第一语音中从拼接后的帧中的第一帧到最后一帧时间段内的第一特征,所述第二语音中拼接后的帧对应的所述第二特征为所述第二语音中从拼接后的帧中的第一帧到最后一帧时间段内的第二特征。
S5中,将所述验证语音通过所述神经网络进行前向计算,提取所述第一语音和所述第二语音中每一帧的特征。可以根据每一帧的特征使用任何统计模型对说话人进行确认。如分别计算所述第一语音和所述第二语音中每一帧的特征的平均值,计算所述第二语音中每一帧的特征的平均值和每条所述第一语音中每一帧的平均值之间的距离。所述距离可以为余弦相似度。但不限于此种距离。当计算出的余弦相似度大于预设阈值时,则根据所述第一语音对应的说话人标签确认当前说话人。
本实施例通过将卷积神经网络和时延神经网络相结合,对所述第一语音和所述第二语音进行两次特征提取,将最终提取的第三特征和所述第四特征进行比较,从而实现对说话人的确认,本发明计算简单,鲁棒性强,能达到很好的识别效果。
图2为所述卷积神经网络和所述卷积神经网络的结构图,如图2所示,所示卷积神经网络的输入为频谱图。所述卷积神经网络有两个卷积层,第一个卷积层的卷积核为128个,每个卷积核的大小为6x33;第一个池化层的池化窗口大小为3x11。第二个卷积层的卷积核为256个,每个卷积核的大小为2x8。第二个池化层的池化窗口大小为2x4。对第二个池化层得到的256个特征平面进行降维,降维成512个特征,对应512个神经元。所述时延网络有两个时延层,每个时延层通过时序拼接对上下文信息进行扩展。第一个时延层拼接前后各2帧信号,第二个时延层拼接前后各4帧信号。每个时延层后接一个降维层。每个降维层将延时层进行降维,输出400个特征。对所述第二个时延层的降维层的输出的400个特征进行线性变换。
在上述实施例的基础上,本实施中在使用卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取之前,还包括对所述卷积神经网络和所述时延神经网络进行训练。
具体地,在训练前,获取需要确认的说话人的语音,将需要确认的说话人的语音作为训练集。在进行训练时,将所述语音中的每一个帧作为学习样本,经过所述卷积神经网络和所述卷积神经网络两次特征提取后,计算所述两次特征提取前后该帧的特征之间的距离,确认该帧的说话人是否为该帧对应的说话人标签,使用说话人确认的误差信息反向调整所述卷积神经网络和所述卷积神经网络中的参数。目标函数为交叉熵函数。训练时使用的后向反馈算法可以为NSGD(Natural Stochastic Gradient Descent,自然随机梯度下降)算法或任何深度神经网络训练方法。
本实施例中,使用语音中的每一个帧作为学习样本对所述卷积神经网络和所述卷积神经网络进行训练,调整所述卷积神经网络和所述卷积神经网络中的参数,该种训练方法需要的数据少,使用优化的参数能提高说话人确认的准确性。
图3为本发明实施例提供的说话人确认装置结构图,如图3所示,包括获取单元1、转换单元2、第一提取单元3、第二提取单元4和确认单元5,其中:
所述获取单元1用于获取第二语音;所述转换单元2用于将预先获取的第一语音和所述第二语音转换成对应的第一声谱图和第二声谱图;所述第一提取单元3用于使用卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取,获取对应的第一特征和第二特征;所述第二提取单元4用于使用时延神经网络对所述第一特征和所述第二特征进行特征提取,获取对应的第三特征和第四特征;所述确认单元5用于根据所述第三特征和所述第四特征对说话人进行确认。
具体地,所述获取单元1获取所述第二语音。所述第二语音为说话人新录入的语音,是需要验证的语音。所述转换单元2将所有的所述第一语音转换成第一声谱图,将所述第二语音转换成第二声谱图。所述第一语音为说话人预先录入的语音,每一条第一语音对应有一个说话人标签,根据所述说话人标签能唯一确认说话人。所述第一语音可以包括多个说话人的语音,每个说话人可以对应有一条或多条第一语音。所述第一声谱图和所述第二声谱图的横轴表示时间,纵轴表示频率,颜色或亮度表示幅度。
所述第一提取单元3使用卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取。所述卷积网络可以包括多个卷积层。每个卷积层的卷积核的个数和大小可以根据需要进行调整。在使用每个卷积核对所述第一声谱图和所述第二声谱图进行卷积时,都会生成一个特征平面。每个卷积层后可以接一个池化层。所述池化层可以为最大池化层或平均池化层。所述池化层的窗口可以重叠,也可以不重叠。所述池化层的窗口大小可以根据需要进行调整。
所述时延网络可以包括多个时延层,所述时延网络包括多个全连接的时延层,每个时延层中的所述第二提取单元4通过拼接前后各帧对上下文信息进行扩展。拼接前后各帧的数目可以根据需要进行设置。
所述确认单元5将所述验证语音通过所述神经网络进行前向计算,提取所述第一语音和所述第二语音中每一帧的特征。可以根据每一帧的特征使用任何统计模型对说话人进行确认。如分别计算所述第一语音和所述第二语音中每一帧的特征的平均值,计算所述第二语音中每一帧的特征的平均值和每条所述第一语音中每一帧的平均值之间的距离。所述距离可以为余弦相似度。但不限于此种距离。当计算出的余弦相似度大于预设阈值时,则根据所述第一语音对应的说话人标签确认当前说话人。
本实施例通过将卷积神经网络和时延神经网络相结合,对所述第一语音和所述第二语音进行两次特征提取,将最终提取的第三特征和所述第四特征进行比较,从而实现对说话人的确认,本发明计算简单,鲁棒性强,能达到很好的识别效果。
图4为本发明实施例提供的说话人确认装置结构图,如图4所示,在上述实施例的基础上,还包括:训练单元6,用于对所述卷积神经网络和所述时延神经网络进行训练。
具体地,在训练前,获取需要确认的说话人的语音,将需要确认的说话人的语音作为训练集。在进行训练时,所述训练单元6,将所述语音中的每一个帧作为学习样本,经过所述卷积神经网络和所述卷积神经网络两次特征提取后,计算所述两次特征提取前后该帧的特征之间的距离,确认该帧的说话人是否为该帧对应的说话人标签,使用说话人确认的误差信息反向调整所述卷积神经网络和所述卷积神经网络中的参数。目标函数为交叉熵函数。训练时使用的后向反馈算法可以为NSGD(Natural Stochastic Gradient Descent,自然随机梯度下降)算法或任何深度神经网络训练方法。
本实施例中,使用语音中的每一个帧作为学习样本对所述卷积神经网络和所述卷积神经网络进行训练,调整所述卷积神经网络和所述卷积神经网络中的参数,该种训练方法需要的数据少,使用优化的参数能提高说话人确认的准确性。
图5为本发明实施例提供的说话人确认装置结构图,如图5所示,在上述各实施例的基础上,还包括:第一降维子单元7,用于对所述第一特征和所述第二特征进行降维。
具体地,使用所述卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取时,每个卷积核生成一张特征平面。当卷积核的数量很多时,会生成很多张特征平面,每张平面上有很多特征,虽然每个卷积层后接一个池化层,但特征数量依然很多,会大大降低计算速度。所以需要对所述卷积神经网络提取的所述第一特征或所述第二特征进行降维。可以使用低阶矩阵进行降维,本实施例不限于降维的方法。本实施例通过对所述第一特征和所述第二特征进行降维,大大提高了计算速度。
图6为本发明实施例提供的说话人确认装置结构图,如图6所示,在上述各实施例的基础上,所述第二提取单元4包括拼接子单元41、第二降维子单元42和变换子单元43,其中:
所述拼接子单元41用于分别对所述第一语音和所述第二语音中的帧进行拼接;所述第二降子维单元42用于对所述第一语音中拼接后的帧对应的所述第一特征和所述第二语音中拼接后的帧对应的所述第二特征进行降维;所述变换子单元43用于对降维后的所述第一特征和第二特征进行线性变换,获取对应的第三特征和第四特征。
具体地,每个延时层中所述拼接子单元41拼接的帧的数目相同,不同延时层中所述拼接子单元41拼接的帧的数目可以不同。拼接窗口可以重叠。所述第二降维子单元42对每个时延层中拼接的帧对应的特征平面进行降维。由于所述第一特征和所述第二特征也为声谱图,声谱图的横坐标表示时间,所述第一语音和所述第二语音中的每一帧也有对应的时间。因此,所述第一语音中拼接后的帧对应的所述第一特征为所述第一语音中从拼接后的帧中的第一帧到最后一帧时间段内的第一特征,所述第二语音中拼接后的帧对应的所述第二特征为所述第二语音中从拼接后的帧中的第一帧到最后一帧时间段内的第二特征。可以对所述第一特征和所述第二特征上的平移窗口中的特征取平均值,用一个特征值为所述平均值的特征替代所述平移窗口中的特征,从而实现降维。本发明不限于对所述特征平面进行降维的方法。所述变换子单元43对降维后的特征进行线性变换。可以用逻辑斯蒂回归模型进行线性变换。
本发明实施例使用时延神经网络对所述第一特征和所述第二特征进行特征提取,获取对应的第三特征和第四特征,所述时延神经网络对特征具有较强的提取能力,为说话人的准确确认奠定基础。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种说话人确认方法,其特征在于,包括:
获取第二语音;
将预先获取的第一语音和所述第二语音转换成对应的第一声谱图和第二声谱图;
使用卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取,获取对应的第一特征和第二特征;
使用时延神经网络对所述第一特征和所述第二特征进行特征提取,获取对应的第三特征和第四特征;
根据所述第三特征和所述第四特征对说话人进行确认。
2.根据权利要求1所述的说话人确认方法,其特征在于,在使用卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取之前,还包括:
对所述卷积神经网络和所述时延神经网络进行训练。
3.根据权利要求1所述的说话人确认方法,其特征在于,在使用时延神经网络对所述第一特征和所述第二特征进行特征提取之前,还包括:
对所述第一特征和所述第二特征进行降维。
4.根据权利要求1-3任一项所述的说话人确认方法,其特征在于,所述使用时延神经网络对所述第一特征和所述第二特征进行特征提取,获取对应的第三特征和第四特征,包括:
分别对所述第一语音和所述第二语音中的帧进行拼接;
对所述第一语音中拼接后的帧对应的所述第一特征和所述第二语音中拼接后的帧对应的所述第二特征进行降维;
对降维后的所述第一特征和第二特征进行线性变换,获取对应的第三特征和第四特征。
5.根据权利要求2所述的说话人确认方法,其特征在于,对所述卷积神经网络和所述时延神经网络进行训练,包括:
使用交叉熵函数作为目标函数对所述卷积神经网络和所述时延神经网络进行训练。
6.一种说话人确认装置,其特征在于,包括:
获取单元,用于获取第二语音;
转换单元,用于将预先获取的第一语音和所述第二语音转换成对应的第一声谱图和第二声谱图;
第一提取单元,用于使用卷积神经网络对所述第一声谱图和所述第二声谱图进行特征提取,获取对应的第一特征和第二特征;
第二提取单元,用于使用时延神经网络对所述第一特征和所述第二特征进行特征提取,获取对应的第三特征和第四特征;
确认单元,用于根据所述第三特征和所述第四特征对说话人进行确认。
7.根据权利要求6所述的说话人确认装置,其特征在于,还包括:
训练单元,用于对所述卷积神经网络和所述时延神经网络进行训练。
8.根据权利要求6或7所述的说话人确认装置,其特征在于,还包括:
第一降维单元,用于对所述第一特征和所述第二特征进行降维。
9.根据权利要求6或7所述的说话人确认装置,其特征在于,所述第二提取单元包括:
拼接子单元,用于分别对所述第一语音和所述第二语音中的帧进行拼接;
第二降维子单元,用于对所述第一语音中拼接后的帧对应的所述第一特征和所述第二语音中拼接后的帧对应的所述第二特征进行降维;
变换子单元,用于对降维后的所述第一特征和第二特征进行线性变换,获取对应的第三特征和第四特征。
10.根据权利要求7所述的说话人确认装置,其特征在于,所述训练单元具体用于:
使用交叉熵函数作为目标函数对所述卷积神经网络和所述时延神经网络进行训练。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710214666.0A CN107146624B (zh) | 2017-04-01 | 2017-04-01 | 一种说话人确认方法及装置 |
JP2019553913A JP6954680B2 (ja) | 2017-04-01 | 2017-12-01 | 話者の確認方法及び話者の確認装置 |
PCT/CN2017/114293 WO2018176894A1 (zh) | 2017-04-01 | 2017-12-01 | 一种说话人确认方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710214666.0A CN107146624B (zh) | 2017-04-01 | 2017-04-01 | 一种说话人确认方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107146624A true CN107146624A (zh) | 2017-09-08 |
CN107146624B CN107146624B (zh) | 2019-11-22 |
Family
ID=59773613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710214666.0A Expired - Fee Related CN107146624B (zh) | 2017-04-01 | 2017-04-01 | 一种说话人确认方法及装置 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6954680B2 (zh) |
CN (1) | CN107146624B (zh) |
WO (1) | WO2018176894A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107464568A (zh) * | 2017-09-25 | 2017-12-12 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
CN108461092A (zh) * | 2018-03-07 | 2018-08-28 | 燕山大学 | 一种对帕金森病语音分析的方法 |
WO2018176894A1 (zh) * | 2017-04-01 | 2018-10-04 | 清华大学 | 一种说话人确认方法及装置 |
CN108648759A (zh) * | 2018-05-14 | 2018-10-12 | 华南理工大学 | 一种文本无关的声纹识别方法 |
CN108877812A (zh) * | 2018-08-16 | 2018-11-23 | 桂林电子科技大学 | 一种声纹识别方法、装置及存储介质 |
CN109065033A (zh) * | 2018-09-19 | 2018-12-21 | 华南理工大学 | 一种基于随机深度时延神经网络模型的自动语音识别方法 |
CN110299142A (zh) * | 2018-05-14 | 2019-10-01 | 桂林远望智能通信科技有限公司 | 一种基于网络融合的声纹识别方法及装置 |
WO2020073694A1 (zh) * | 2018-10-10 | 2020-04-16 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
CN111128222A (zh) * | 2018-10-30 | 2020-05-08 | 富士通株式会社 | 语音分离方法、语音分离模型训练方法和计算机可读介质 |
WO2021127990A1 (zh) * | 2019-12-24 | 2021-07-01 | 广州国音智能科技有限公司 | 一种基于语音降噪的声纹识别方法和相关装置 |
CN113113022A (zh) * | 2021-04-15 | 2021-07-13 | 吉林大学 | 一种基于说话人声纹信息的自动识别身份的方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11031017B2 (en) * | 2019-01-08 | 2021-06-08 | Google Llc | Fully supervised speaker diarization |
CN111048097B (zh) * | 2019-12-19 | 2022-11-29 | 中国人民解放军空军研究院通信与导航研究所 | 一种基于3d卷积的孪生网络声纹识别方法 |
CN111833885B (zh) * | 2020-07-08 | 2023-08-01 | 太原科技大学 | 一种基于卷积模糊神经网络的音源识别方法 |
CN111951823A (zh) * | 2020-08-07 | 2020-11-17 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、设备及介质 |
CN113178196B (zh) * | 2021-04-20 | 2023-02-07 | 平安国际融资租赁有限公司 | 音频数据提取方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102201236A (zh) * | 2011-04-06 | 2011-09-28 | 中国人民解放军理工大学 | 一种高斯混合模型和量子神经网络联合的说话人识别方法 |
CN104732978A (zh) * | 2015-03-12 | 2015-06-24 | 上海交通大学 | 基于联合深度学习的文本相关的说话人识别方法 |
EP2897076A1 (en) * | 2014-01-17 | 2015-07-22 | Agnitio | Tamper-resistant element for use in speaker recognition |
CN104903954A (zh) * | 2013-01-10 | 2015-09-09 | 感官公司 | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 |
CN106326939A (zh) * | 2016-08-31 | 2017-01-11 | 深圳市诺比邻科技有限公司 | 卷积神经网络的参数优化方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146624B (zh) * | 2017-04-01 | 2019-11-22 | 清华大学 | 一种说话人确认方法及装置 |
-
2017
- 2017-04-01 CN CN201710214666.0A patent/CN107146624B/zh not_active Expired - Fee Related
- 2017-12-01 WO PCT/CN2017/114293 patent/WO2018176894A1/zh active Application Filing
- 2017-12-01 JP JP2019553913A patent/JP6954680B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102201236A (zh) * | 2011-04-06 | 2011-09-28 | 中国人民解放军理工大学 | 一种高斯混合模型和量子神经网络联合的说话人识别方法 |
CN104903954A (zh) * | 2013-01-10 | 2015-09-09 | 感官公司 | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 |
EP2897076A1 (en) * | 2014-01-17 | 2015-07-22 | Agnitio | Tamper-resistant element for use in speaker recognition |
CN104732978A (zh) * | 2015-03-12 | 2015-06-24 | 上海交通大学 | 基于联合深度学习的文本相关的说话人识别方法 |
CN106326939A (zh) * | 2016-08-31 | 2017-01-11 | 深圳市诺比邻科技有限公司 | 卷积神经网络的参数优化方法及系统 |
Non-Patent Citations (2)
Title |
---|
PEGAH GHAHREMANI等: "Acoustic modeling from the signal domain using CNNs", 《INTERSPEECH 2016》 * |
胡青等: "基于卷积神经网络分类的说话人识别算法", 《信息网络安全》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018176894A1 (zh) * | 2017-04-01 | 2018-10-04 | 清华大学 | 一种说话人确认方法及装置 |
CN107464568A (zh) * | 2017-09-25 | 2017-12-12 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
CN107464568B (zh) * | 2017-09-25 | 2020-06-30 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
CN108461092A (zh) * | 2018-03-07 | 2018-08-28 | 燕山大学 | 一种对帕金森病语音分析的方法 |
CN108461092B (zh) * | 2018-03-07 | 2022-03-08 | 燕山大学 | 一种对帕金森病语音分析的方法 |
CN108648759A (zh) * | 2018-05-14 | 2018-10-12 | 华南理工大学 | 一种文本无关的声纹识别方法 |
CN110299142A (zh) * | 2018-05-14 | 2019-10-01 | 桂林远望智能通信科技有限公司 | 一种基于网络融合的声纹识别方法及装置 |
CN110299142B (zh) * | 2018-05-14 | 2021-11-19 | 桂林远望智能通信科技有限公司 | 一种基于网络融合的声纹识别方法及装置 |
CN108877812A (zh) * | 2018-08-16 | 2018-11-23 | 桂林电子科技大学 | 一种声纹识别方法、装置及存储介质 |
CN109065033A (zh) * | 2018-09-19 | 2018-12-21 | 华南理工大学 | 一种基于随机深度时延神经网络模型的自动语音识别方法 |
CN109065033B (zh) * | 2018-09-19 | 2021-03-30 | 华南理工大学 | 一种基于随机深度时延神经网络模型的自动语音识别方法 |
WO2020073694A1 (zh) * | 2018-10-10 | 2020-04-16 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
US11508381B2 (en) | 2018-10-10 | 2022-11-22 | Tencent Technology (Shenzhen) Company Limited | Voiceprint recognition method, model training method, and server |
CN111128222A (zh) * | 2018-10-30 | 2020-05-08 | 富士通株式会社 | 语音分离方法、语音分离模型训练方法和计算机可读介质 |
CN111128222B (zh) * | 2018-10-30 | 2023-09-08 | 富士通株式会社 | 语音分离方法、语音分离模型训练方法和计算机可读介质 |
WO2021127990A1 (zh) * | 2019-12-24 | 2021-07-01 | 广州国音智能科技有限公司 | 一种基于语音降噪的声纹识别方法和相关装置 |
CN113113022A (zh) * | 2021-04-15 | 2021-07-13 | 吉林大学 | 一种基于说话人声纹信息的自动识别身份的方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6954680B2 (ja) | 2021-10-27 |
JP2020515905A (ja) | 2020-05-28 |
WO2018176894A1 (zh) | 2018-10-04 |
CN107146624B (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107146624A (zh) | 一种说话人确认方法及装置 | |
CN108305641B (zh) | 情感信息的确定方法和装置 | |
CN107492382B (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN104732978B (zh) | 基于联合深度学习的文本相关的说话人识别方法 | |
CN108305643B (zh) | 情感信息的确定方法和装置 | |
CN110310647B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
CN105161092B (zh) | 一种语音识别方法和装置 | |
CN106611604B (zh) | 一种基于深度神经网络的自动语音叠音检测方法 | |
CN105096941A (zh) | 语音识别方法以及装置 | |
CN108417201B (zh) | 单信道多说话人身份识别方法及系统 | |
CN107146601A (zh) | 一种用于说话人识别系统的后端i‑vector增强方法 | |
CN105989849B (zh) | 一种语音增强方法、语音识别方法、聚类方法及装置 | |
CN110390955A (zh) | 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法 | |
CN106297773A (zh) | 一种神经网络声学模型训练方法 | |
CN106683666B (zh) | 一种基于深度神经网络的领域自适应方法 | |
CN107146615A (zh) | 基于匹配模型二次识别的语音识别方法及系统 | |
CN110570853A (zh) | 基于语音数据的意图识别方法和装置 | |
Mansour et al. | Voice recognition using dynamic time warping and mel-frequency cepstral coefficients algorithms | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN107818797A (zh) | 语音质量评价方法、装置及其系统 | |
CN105280181A (zh) | 一种语种识别模型的训练方法及语种识别方法 | |
CN104778948B (zh) | 一种基于弯折倒谱特征的抗噪语音识别方法 | |
CN105023570A (zh) | 一种实现声音转换的方法及系统 | |
CN108877835A (zh) | 评价语音信号的方法及系统 | |
CN110111769A (zh) | 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191122 |