CN116844554A - 一种基于Transformer和CNN长时语音的声纹识别方法 - Google Patents
一种基于Transformer和CNN长时语音的声纹识别方法 Download PDFInfo
- Publication number
- CN116844554A CN116844554A CN202310813399.4A CN202310813399A CN116844554A CN 116844554 A CN116844554 A CN 116844554A CN 202310813399 A CN202310813399 A CN 202310813399A CN 116844554 A CN116844554 A CN 116844554A
- Authority
- CN
- China
- Prior art keywords
- voice
- long
- voiceprint
- recognition
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007774 longterm Effects 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012795 verification Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 4
- 230000000694 effects Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明提供的是一种结合Transformer和CNN的一种长时语音的声纹识别方法,涉及音频识别技术领域。该方法步骤包括:S1,输入长时语音信号;S2,对长时语音进行预处理;S3,进行Fbank特征的提取;S4,进行声纹识别模型的训练;S5,特征匹配与识别;S6,输出识别结果;本发明在长时语音的声纹识别上准确率,解码速度更快,在多个数据集上验证后等错率达到了1.2%,其中在Sitw数据集上最好达到了0.9%的等错率。
Description
技术领域
本发明涉及声纹识别技术领域,特别是一种基于Transformer和CNN的一种长时语音的声纹识别方法。
背景技术
声纹识别是一种生物特征识别技术,通过分析人的语音特征来识别和验证个体身份。但是大部分的声纹识别关注的语音时长为10-30s,对于30s以上语音时长的场景的研究还比较少。长时语音声纹识别是指通过分析人的声音特征来进行身份验证和辨识的技术。与传统的短时声纹识别相比,长时语音声纹识别更具挑战性,因为它需要在长时间的语音输入中准确地提取和比对声音特征。
传统的声纹识别系统通常使用基于高斯混合模型(GMM)的特征提取和匹配方法。随着深度学习技术的引入使得长时语音声纹识别实现了更好的性能。使用深度神经网络(DNN)和卷积神经网络(CNN)等模型进行声纹特征的提取和建模可以取得比传统模型更好的识别准确率,但是其识别准确率以及推理速度还有很大的提升空间。
因此,有必要提供一种基于Transformer和CNN长时语音的声纹识别算法来解决上述技术问题。
发明内容
为解决上述技术问题,本发明提出的一种基于Transformer和CNN长时语音的声纹识别算法,包括输入长时语音信号、预处理、Fank特征提取、识别模型训练、特征匹配与识别、输出识别结果步骤。
输入长时语音信号步骤:通过收声设备采集用户的初始音频数据,并获取用户对应身份信息。
预处理步骤:在声纹识别之前,需要对原始语音数据进行预处理以提高声纹特征的质量。包括语音切割、噪声去除步骤:
Fank特征提取步骤:先对语音信号预加重,再通过一个固定的10ms帧位移的25ms汉明窗口进行分析,并利用80个梅尔滤波器组提取80维的取对数后的梅尔滤波器Fbank特征。
声纹识别模型训练步骤:将提取到的Fank特征输入至神经网络模型中进行相关模型训练,将满足识别精度的模型进行输出,得到声纹识别模型。
特征匹配与识别步骤:通过与声纹数据标记步骤相同的收声设备采集验证音频数据,并将验证音频数据和声纹注册数据进行基于帧级别特征相似度对比和基于神经网络的相似度对比,判断验证音频数据与声纹注册数据之间的相似度是否满足阈值需求;若满足,则声纹验证成功;否则声纹验证失败。
输出识别结果步骤:声纹验证成功,输出说话人的身份。
作为更进一步的解决方案,所述使用收声设备所收集的音频数据内容均为超过60s的长时语音。
作为更进一步的解决方案,所述语音切割,将采集到的语音信号切割成较小的帧或片段。
作为更进一步的解决方案,所述特征在于噪声去除,通过噪声估计和去噪算法,降低背景噪声对声纹特征的影响。
作为更进一步的解决方案,所述特征Fank特征提取的数据为带有身份标记信息。
作为更进一步的解决方案,所述声纹识别模型训练步骤通过如下具体步骤进行:
步骤A1:输入提取到的Fank特征。
步骤A2:将Fank特征进行卷积(Convolution)和下采样(Subsampling)的操作。
步骤A3:使用线性Dropout(Linear Dropout)进行正则化减少神经网络的过拟合现象。
步骤A4:进入5个t-cblock模块的步骤。
步骤A5:进入Concat(Concatenate)环节将两个或多个张量拼接在一起。
步骤A6:进行Layer normalization(层归一化)对神经网络层的激活进行归一化处理,使其在特征维度上具有相似的分布。
步骤A7:进行Attentive Statistic Pooling(ASP,注意力统计池化),对从序列或特征图中提取有关重要信息的汇总表示。
步骤A8:进行Linear Batch Norm(线性批归一化):有助于加速训练过程,并提高神经网络的鲁棒性和泛化能力。
步骤A9:得到说话人的嵌入码(Speaker Embedding)。
作为更进一步的解决方案,所述声纹识别模型的t-cblock模块通过如下具体步骤进行:
步骤B1:线性Dropout之后进入前向传播模块,同时与下一步骤之间有残差计算。
步骤B2:在前向传播模块之后transformer模型的多头自注意力模块(Multi-HeadSelfAttention Module),同时与下一步骤之间有残差计算。
步骤B3:多头自注意力模块之后进入CNN模型的卷积模块(Convolution Module),同时与下一步骤之间有残差计算。
步骤B4:再次进入前向传播模块(Feed Forward Module),同时与下一步骤之间有残差计算。
步骤B5:进行层归一化(Layer normalization)处理,使其在特征维度上具有相似的分布。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种基于Transformer和CNN长时语音的声纹识别算法的步骤流程图。
图2是一种基于Transformer和CNN长时语音的声纹识别算法的模型训练的步骤流程图。
图3是一种基于Transformer和CNN长时语音的声纹识别算法的t-cblock块的步骤流程图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施条例的各种方面,但是除非特别指出,不必按比例绘制附图。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
如图1、图2、图3所示,本发明提供的一种基于Transformer和CNN长时语音的声纹识别算法,包括输入长时语音信号、预处理、Fank特征提取、识别模型训练、特征匹配与识别、输出识别结果步骤;
输入长时语音信号步骤:通过收声设备采集用户的初始音频数据,并获取用户对应身份信息。
预处理步骤:在声纹识别之前,需要对原始语音数据进行预处理以提高声纹特征的质量,包括语音切割、噪声去除步骤。
Fank特征提取步骤:先对语音信号预加重,再通过一个固定的10ms帧位移的25ms汉明窗口进行分析,并利用80个梅尔滤波器组提取256维的取对数后的梅尔滤波器Fbank特征、
声纹识别模型训练步骤:将提取到的Fank特征输入至神经网络模型中进行相关模型训练,将满足识别精度的模型进行输出,得到声纹识别模型。
特征匹配与识别步骤:通过与声纹数据标记步骤相同的收声设备采集验证音频数据,并将验证音频数据和声纹注册数据进行基于帧级别特征相似度对比和基于神经网络的相似度对比,判断验证音频数据与声纹注册数据之间的相似度是否满足阈值需求;若满足,则声纹验证成功;否则声纹验证失败。
输出识别结果步骤:声纹验证成功,输出说话人的身份。
作为更进一步的解决方案,所述使用收声设备所收集的音频数据内容均为超过60s的长时语音。
作为更进一步的解决方案,所述语音切割,将采集到的语音信号切割成较小的帧或片段。
作为更进一步的解决方案,所述特征在于噪声去除,通过噪声估计和去噪算法,降低背景噪声对声纹特征的影响。
作为更进一步的解决方案,所述特征Fank特征提取的数据为带有身份标记信息。
作为更进一步的解决方案,所述声纹识别模型训练步骤通过如下具体步骤进行:
步骤A1:输入提取到的Fank特征。
步骤A2:将Fank特征进行卷积(Convolution)和下采样(Subsampling)的操作。
步骤A3:使用线性Dropout(Linear Dropout)进行正则化减少神经网络的过拟合现象。
步骤A4:进入5个t-cblock模块的步骤。
步骤A5:进入Concat(Concatenate)环节将两个或多个张量拼接在一起。
步骤A6:进行Layer normalization(层归一化)对神经网络层的激活进行归一化处理,使其在特征维度上具有相似的分布。
步骤A7:进行Attentive Statistic Pooling(ASP,注意力统计池化),对从序列或特征图中提取有关重要信息的汇总表示。
步骤A8:进行Linear Batch Norm(线性批归一化):有助于加速训练过程,并提高神经网络的鲁棒性和泛化能力。
步骤A9:得到说话人的嵌入码(Speaker Embedding)。
作为更进一步的解决方案,所述声纹识别模型的t-cblock模块通过如下具体步骤进行:
步骤B1:线性Dropout之后进入前向传播模块,同时与下一步骤之间有残差计算。
步骤B2:在前向传播模块之后transformer模型的多头自注意力模块(Multi-HeadSelfAttention Module),同时与下一步骤之间有残差计算。
步骤B3:多头自注意力模块之后进入CNN模型的卷积模块(Convolution Module),同时与下一步骤之间有残差计算。
步骤B4:再次进入前向传播模块(Feed Forward Module),同时与下一步骤之间有残差计算。
步骤B5:进行层归一化(Layer normalization)处理,使其在特征维度上具有相似的分布。
Claims (7)
1.一种基于Transformer和CNN长时语音的声纹识别方法,其特征在于,包括输入长时语音信号、预处理、Fank特征提取、识别模型训练、特征匹配与识别、输出识别结果步骤;
输入长时语音信号步骤:通过收声设备采集用户的初始音频数据,并获取用户对应身份信息;
预处理步骤:在声纹识别之前,需要对原始语音数据进行预处理以提高声纹特征的质量。包括语音切割、噪声去除步骤:
Fank特征提取步骤:先对语音信号预加重,再通过一个固定的10ms帧位移的25ms汉明窗口进行分析,并利用80个梅尔滤波器组提取80维的取对数后的梅尔滤波器Fbank特征;
声纹识别模型训练步骤:将提取到的Fank特征输入至神经网络模型中进行相关模型训练,将满足识别精度的模型进行输出,得到声纹识别模型;
特征匹配与识别步骤:通过与声纹数据标记步骤相同的收声设备采集验证音频数据,并将验证音频数据和声纹注册数据进行基于帧级别特征相似度对比和基于神经网络的相似度对比,判断验证音频数据与声纹注册数据之间的相似度是否满足阈值需求;若满足,则声纹验证成功;否则声纹验证失败。
输出识别结果步骤:声纹验证成功,输出说话人的身份。
2.根据权利要求1所述的一种基于Transformer和CNN长时语音的声纹识别方法,其特征在于,所述使用收声设备所收集的音频数据内容均为超过60s的长时语音。
3.根据权利要求1所述的一种基于Transformer和CNN长时语音的声纹识别方法,其特征在于,所述语音切割,将采集到的语音信号切割成较小的帧或片段。
4.根据权利要求1所述的一种基于Transformer和CNN长时语音的声纹识别方法,其特征在于,所述特征在于噪声去除,通过噪声估计和去噪方法,降低背景噪声对声纹特征的影响。
5.根据权利要求1所述的一种基于Transformer和CNN长时语音的声纹识别方法,其特征在于,所述特征Fank特征提取的数据为带有身份标记信息。
6.根据权利要求1所述的一种基于Transformer和CNN长时语音的声纹识别方法,其特征在于,所述声纹识别模型训练步骤通过如下具体步骤进行:
步骤A1:输入提取到的Fank特征;
步骤A2:将Fank特征进行卷积(Convolution)和下采样(Subsampling)的操作;
步骤A3:使用线性Dropout(Linear Dropout)进行正则化减少神经网络的过拟合现象;
步骤A4:进入5个t-cblock模块的步骤;
步骤A5:进入Concat(Concatenate)环节将两个或多个张量拼接在一起;
步骤A6:进行Layer normalization(层归一化)对神经网络层的激活进行归一化处理,使其在特征维度上具有相似的分布。
步骤A7:进行Attentive Statistic Pooling(ASP,注意力统计池化),对从序列或特征图中提取有关重要信息的汇总表示;
步骤A8:进行Linear Batch Norm(线性批归一化):有助于加速训练过程,并提高神经网络的鲁棒性和泛化能力;
步骤A9:得到说话人的嵌入码(Speaker Embedding)。
7.根据权利要求1所述的一种基于Transformer和CNN长时语音的声纹识别方法,其特征在于,所述声纹识别模型的t-cblock模块通过如下具体步骤进行:
步骤B1:线性Dropout之后进入前向传播模块,同时与下一步骤之间有残差计算;
步骤B2:在前向传播模块之后transformer模型的多头自注意力模块(Multi-HeadSelf Attention Module),同时与下一步骤之间有残差计算;
步骤B3:多头自注意力模块之后进入CNN模型的卷积模块(Convolution Module),同时与下一步骤之间有残差计算;
步骤B4:再次进入前向传播模块(Feed Forward Module),同时与下一步骤之间有残差计算;。
步骤B5:进行层归一化(Layer normalization)处理,使其在特征维度上具有相似的分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310813399.4A CN116844554A (zh) | 2023-07-04 | 2023-07-04 | 一种基于Transformer和CNN长时语音的声纹识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310813399.4A CN116844554A (zh) | 2023-07-04 | 2023-07-04 | 一种基于Transformer和CNN长时语音的声纹识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116844554A true CN116844554A (zh) | 2023-10-03 |
Family
ID=88173888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310813399.4A Pending CN116844554A (zh) | 2023-07-04 | 2023-07-04 | 一种基于Transformer和CNN长时语音的声纹识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116844554A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079655A (zh) * | 2023-10-16 | 2023-11-17 | 华南师范大学 | 一种音频分析方法、装置、设备和可读存储介质 |
-
2023
- 2023-07-04 CN CN202310813399.4A patent/CN116844554A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079655A (zh) * | 2023-10-16 | 2023-11-17 | 华南师范大学 | 一种音频分析方法、装置、设备和可读存储介质 |
CN117079655B (zh) * | 2023-10-16 | 2023-12-22 | 华南师范大学 | 一种音频分析方法、装置、设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648748B (zh) | 医院噪声环境下的声学事件检测方法 | |
CN111524525B (zh) | 原始语音的声纹识别方法、装置、设备及存储介质 | |
US7245767B2 (en) | Method and apparatus for object identification, classification or verification | |
CN110718228B (zh) | 语音分离方法、装置、电子设备及计算机可读存储介质 | |
CN112053695A (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
CN106128465A (zh) | 一种声纹识别系统及方法 | |
CN110767239A (zh) | 一种基于深度学习的声纹识别方法、装置及设备 | |
CN116844554A (zh) | 一种基于Transformer和CNN长时语音的声纹识别方法 | |
CN114495948B (zh) | 一种声纹识别方法及装置 | |
CN111816185A (zh) | 一种对混合语音中说话人的识别方法及装置 | |
CN113886792A (zh) | 一种声纹识别和人脸识别相结合的印控仪应用方法和系统 | |
CN115101076B (zh) | 一种基于多尺度通道分离卷积特征提取的说话人聚类方法 | |
CN111613230A (zh) | 声纹验证方法、装置、设备及存储介质 | |
CN112992155B (zh) | 一种基于残差神经网络的远场语音说话人识别方法及装置 | |
CN114530156A (zh) | 用于短语音说话人确认的生成对抗网络优化方法及系统 | |
CN111429919B (zh) | 基于会议实录系统的防串音方法、电子装置及存储介质 | |
CN116844567A (zh) | 一种基于多特征重建融合的深度合成音频检测方法及系统 | |
CN116741155A (zh) | 语音识别方法、语音识别模型的训练方法、装置及设备 | |
CN111326161B (zh) | 一种声纹确定方法及装置 | |
CN115312080A (zh) | 一种基于互补声学表征的语音情绪识别模型以及方法 | |
CN113948089B (zh) | 声纹模型训练和声纹识别方法、装置、设备及介质 | |
EP3613040B1 (en) | Speaker recognition method and system | |
CN106971725B (zh) | 一种具有优先级的声纹识方法和系统 | |
CN114724547A (zh) | 一种用于口音英语的识别方法及系统 | |
Ganoun et al. | Performance analysis of spoken arabic digits recognition techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |