CN117935813A - 一种声纹识别方法及系统 - Google Patents

一种声纹识别方法及系统 Download PDF

Info

Publication number
CN117935813A
CN117935813A CN202410328675.2A CN202410328675A CN117935813A CN 117935813 A CN117935813 A CN 117935813A CN 202410328675 A CN202410328675 A CN 202410328675A CN 117935813 A CN117935813 A CN 117935813A
Authority
CN
China
Prior art keywords
feature
voice
layer
recognized
voiceprint recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410328675.2A
Other languages
English (en)
Other versions
CN117935813B (zh
Inventor
张华军
王淑琪
邓小涛
王征华
苏义鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Dashengji Technology Co ltd
Wuhan University of Technology WUT
Original Assignee
Wuhan Dashengji Technology Co ltd
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Dashengji Technology Co ltd, Wuhan University of Technology WUT filed Critical Wuhan Dashengji Technology Co ltd
Priority to CN202410328675.2A priority Critical patent/CN117935813B/zh
Publication of CN117935813A publication Critical patent/CN117935813A/zh
Application granted granted Critical
Publication of CN117935813B publication Critical patent/CN117935813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供了一种声纹识别方法及系统,其方法包括:获取包括环境声音的待识别语音,并基于最小均方自适应滤波器对待识别语音进行降噪处理,获得降噪语音;基于小波倒谱熵算法对降噪语音进行特征提取,获得特征向量;将特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果。本发明通过基于最小均方自适应滤波器对待识别语音进行降噪处理,可滤除环境中的大部分噪音,实现对待识别语音进行准确识别的技术效果。并且,通过设置声纹识别模型的结构,可增强提取的特征的表现力和准确性,从而进一步提高了声纹识别模型对带有环境声音的待识别语音的识别准确性。

Description

一种声纹识别方法及系统
技术领域
本发明涉及声音识别技术领域,具体涉及一种声纹识别方法及系统。
背景技术
在当今数字化时代,生物识别技术不断演进,为身份验证和安全性提供了新的前景。声音是一种极富个性化的生物特征,每个人都有独特的发音方式、音调、语速和口音。这种独特性为声纹识别提供了一种便捷、非侵入性的身份验证方式,可以应用于各种领域,如手机解锁、云服务访问、电话客服等。
然而,声音的独特性并不仅仅来源于说话者自身,环境因素也可以在声音中留下痕迹。例如,办公室谈话声、街道鸣笛声、喧闹声等都会对声纹识别产生影响。然而,传统的声纹识别方法通常只关注说话者的声音特征,而忽略了环境因素可能对声音产生的影响,导致对噪声场景中的声纹识别准确性较低的问题。
因此,亟需提供一种声纹识别方法及系统,用于解决上述技术问题。
发明内容
有鉴于此,有必要提供一种声纹识别方法及系统,用以解决现有技术中存在的对噪声场景中的声纹识别准确性较低的技术问题。
一方面,本发明提供了一种声纹识别方法,包括:
获取包括环境声音的待识别语音,并基于最小均方自适应滤波器对所述待识别语音进行降噪处理,获得降噪语音;
基于小波倒谱熵算法对所述降噪语音进行特征提取,获得特征向量;
将所述特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果;
其中,所述声纹识别模型包括第一时延神经网络层、选择核心特征提取层、第二时延神经网络层、带有多头注意力的时序池化层、线性变换层以及损失函数层。
在一些可能的实现方式中,所述待识别语音包括多帧待识别语音帧;则所述基于最小均方自适应滤波器对所述待识别语音进行降噪处理,获得降噪语音,包括:
获取第一帧待识别语音帧以及所述第一帧待识别语音帧对应的参考语音帧;
获取所述最小均方自适应滤波器的初始滤波器系数,并基于所述初始滤波器系数确定所述第一帧待识别语音帧的估计语音帧;
基于所述参考语音帧和所述估计语音帧对所述初始滤波器系数进行调整,获得调整滤波器系数,并基于所述调整滤波器系数确定除所述第一帧待识别语音帧之外的其他帧待识别语音帧对应的关联滤波器系数;
基于所述调整滤波器系数对所述第一帧待识别语音帧进行降噪处理,并基于所述关联滤波器系数对其他帧待识别语音帧进行降噪处理,获得所述降噪语音。
在一些可能的实现方式中,所述基于小波倒谱熵算法对所述降噪语音进行特征提取,获得特征向量,包括:
基于预设步长对所述降噪语音进行分段,获得多个降噪语音片段;
对各所述降噪语音片段进行小波变换,获得所述降噪语音片段的频率谱;
确定所述频率谱的倒谱,并将所述倒谱的对数值作为幅度谱;
将所述幅度谱进行傅里叶逆变换,获得小波倒谱系数;
将所述小波倒谱系数进行非归一化香农熵处理,获得熵系数,并将所述多个降噪语音片段的所述熵系数进行拼接,获得所述特征向量。
在一些可能的实现方式中,所述特征向量为:
式中,为特征向量;/>为第k个降噪语音片段的小波倒谱系数;n为降噪语音片段的总个数;/>第k个降噪语音片段的熵系数;/>为绝对值运算符;/>为傅里叶逆变换表示符;/>为幅度谱;/>为频率谱。
在一些可能的实现方式中,所述将所述特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果,包括:
基于所述第一时延神经网络层对所述特征向量进行局部特征提取,获得第一特征;
基于所述选择核心特征提取层对所述第一特征进行多通道变换和加权处理,获得第二特征;
基于所述第二时延神经网络层对所述第一特征和所述第二特征进行多特征拼接,获得拼接特征;
基于所述带有多头注意力的时序池化层对所述拼接特征进行特征提取,获得第三特征;
基于所述线性变换层对所述第三特征进行线性变化,获得目标特征;
基于所述损失函数层对所述目标特征进行分类,获得所述识别结果。
在一些可能的实现方式中,所述第一时延神经网络层包括第一一维卷积层、第一激活函数层和第一批量归一化层;所述基于所述第一时延神经网络层对所述特征向量进行局部特征提取,获得第一特征,包括:
基于所述第一一维卷积层对所述特征向量进行局部特征提取,获得初始特征;
基于所述第一激活函数层对所述初始特征进行非线性变换,获得非线性特征;
基于所述第一批量归一化层对所述非线性特征进行归一化处理,获得所述第一特征。
在一些可能的实现方式中,所述选择核心特征提取层包括第二一维卷积层、多尺度特征提取层、第三一维卷积层以及选择核心单元;所述基于所述选择核心特征提取层对所述第一特征进行多通道变换和加权处理,获得第二特征,包括:
基于所述第二一维卷积层对所述第一特征进行通道变换,获得第一通道特征、第二通道特征、第三通道特征和第四通道特征;
基于所述多尺度特征提取层将所述第二通道特征进行卷积操作,获得第二卷积特征,将所述第二卷积特征与所述第三通道特征进行叠加,获得第一叠加特征,将所述第一叠加特征进行卷积操作,获得第三卷积特征,将所述第三卷积特征与所述第四通道特征进行叠加,获得第二叠加特征,并将所述第二叠加特征进行卷积操作,获得第四卷积特征;
基于所述第三一维卷积层对所述第一通道特征、所述第二卷积特征、所述第三卷积特征以及所述第四卷积特征进行融合,获得融合特征;
基于所述选择核心单元对所述融合特征进行自适应加权处理,获得所述第二特征。
在一些可能的实现方式中,所述带有多头注意力的时序池化层包括四个注意力单元,则所述基于所述带有多头注意力的时序池化层对所述拼接特征进行特征提取,获得第三特征,包括:
确定各所述注意力单元的注意力权重;
将所述拼接特征进行划分为与所述四个注意力单元对应的四个拼接子特征;
基于所述注意力权重对所述四个拼接子特征进行加权处理,获得所述第三特征。
在一些可能的实现方式中,所述损失函数层的损失函数为:
式中,为损失函数的损失值;N为样本总数;s为特征尺度参数;m为角裕度参数;/>为第i个声音样本与第i个声音样本的识别结果/>的夹角值;/>为第i个声音样本与第i个声音样本的类别标签/>的夹角值;/>为第j个声音样本的第k个中心点的特征向量;K为第j个声音样本的中心点总数量;/>为第i个人的平均特征向量。
另一方面,本发明还提供了一种声纹识别系统,包括:
语音降噪单元,用于获取包括环境声音的待识别语音,并基于最小均方自适应滤波器对所述待识别语音进行降噪处理,获得降噪语音;
特征向量获取单元,用于基于小波倒谱熵算法对所述降噪语音进行特征提取,获得特征向量;
识别单元,用于将所述特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果;
其中,所述声纹识别模型包括第一时延神经网络层、选择核心特征提取层、第二时延神经网络层、带有多头注意力的时序池化层、线性变换层以及损失函数层。
采用上述实现方式的有益效果是:本发明提供的声纹识别方法,通过基于最小均方自适应滤波器对待识别语音进行降噪处理,可滤除环境中的大部分噪音,实现了即使待识别语音中包括大量环境噪声,也可对待识别语音进行准确识别的技术效果。进一步地,本发明通过设置声纹识别模型包括选择核心特征提取层,可自适应调节不同大小的感受野,从而增强特征的表示能力,有助于提取更丰富、更准确的特征信息,提高了声纹识别模型对带有环境声音的待识别语音的识别准确性,并且,通过设置带有多头注意力的时序池化层,可增强对重要特征的关注并抑制对不重要特征的影响,从而提高了声纹识别模型的表现力和准确性,进而进一步提高了声纹识别模型对带有环境声音的待识别语音的识别准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的声纹识别方法的一个实施例流程示意图;
图2为本发明提供的声纹识别模型的一个实施例流程示意图;
图3为本发明图1中步骤S101的一个实施例流程示意图;
图4为本发明图1中步骤S102的一个实施例流程示意图;
图5为本发明图1中步骤S103的一个实施例流程示意图;
图6为本发明提供的第一时延神经网络层的一个实施例结构示意图;
图7为本发明图5中步骤S501的一个实施例流程示意图;
图8为本发明提供的选择核心特征提取层的一个实施例结构示意图;
图9为本发明图5中步骤S502的一个实施例流程示意图;
图10为本发明图5中步骤S504的一个实施例流程示意图;
图11为本发明提供的声纹识别系统的一个实施例结构示意图;
图12为本发明提供的声纹识别设备的一个实施例结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,示意性的附图并未按实物比例绘制。本发明中使用的流程图示出了根据本发明的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本发明内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器系统和/或微控制器系统中实现这些功能实体。
本发明实施例中所涉及的“第一”“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”“第二”的技术特征可以明示或者隐含地包括至少一个该特征。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其他实施例相结合。
本发明提供了一种声纹识别方法及系统,以下分别进行说明。
图1为本发明提供的声纹识别方法的一个实施例流程示意图,如图1所示,声纹识别方法包括:
S101、获取包括环境声音的待识别语音,并基于最小均方(Least Mean Square,LMS)自适应滤波器对待识别语音进行降噪处理,获得降噪语音;
S102、基于小波倒谱熵算法对降噪语音进行特征提取,获得特征向量;
S103、将特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果。
其中,如图2所示,声纹识别模型包括第一时延神经网络层、选择核心特征提取层、第二时延神经网络层、带有多头注意力的时序池化层、线性变换层以及损失函数层。
与现有技术相比,本发明实施例提供的声纹识别方法,通过基于最小均方自适应滤波器对待识别语音进行降噪处理,可滤除环境中的大部分噪音,实现了即使待识别语音中包括大量环境噪声,也可对待识别语音进行准确识别的技术效果。进一步地,本发明实施例通过设置声纹识别模型包括选择核心特征提取层,可自适应调节不同大小的感受野,从而增强特征的表示能力,有助于提取更丰富、更准确的特征信息,提高了声纹识别模型对带有环境声音的待识别语音的识别准确性,并且,通过设置带有多头注意力的时序池化层,可增强对重要特征的关注并抑制对不重要特征的影响,从而提高了声纹识别模型的表现力和准确性,进而进一步提高了声纹识别模型对带有环境声音的待识别语音的识别准确性。
其中,步骤S101中获取包括环境声音的待识别语音的具体方式可为:基于语音获取设备实时采集获得待识别语音,也可为从存储有待识别语音的存储设备中调用获得待识别语音。
在本发明的一些实施例中,待识别语音包括多帧待识别语音帧,则如图3所示,步骤S101包括:
S301、获取第一帧待识别语音帧以及第一帧待识别语音帧对应的参考语音帧;
S302、获取最小均方自适应滤波器的初始滤波器系数,并基于初始滤波器系数确定第一帧待识别语音帧的估计语音帧;
S303、基于参考语音帧和估计语音帧对初始滤波器系数进行调整,获得调整滤波器系数,并基于调整滤波器系数确定除第一帧待识别语音帧之外的其他帧待识别语音帧对应的关联滤波器系数;
S304、基于调整滤波器系数对第一帧待识别语音帧进行降噪处理,并基于关联滤波器系数对其他帧待识别语音帧进行降噪处理,获得降噪语音。
其中,步骤S303具体为:
参考语音帧为y(n),估计语音帧为,则误差e(n)为:
最小均方自适应滤波器的目标函数为使误差e(n)的均方误差最小,即:误差平方的期望为:
通过调节滤波器系数使得误差平方最小,这里使用梯度下降法,得到下式:
令上式等于0,可以得到:
则最小均方自适应滤波器对第一帧待识别语音帧的滤波器系数为:
其中,关联滤波器系数的计算公式为:
式中,为第k帧待识别语音帧的滤波器系数;/>为第k+1帧待识别语音帧的滤波器系数;/>为第k帧待识别语音帧的误差;/>第k帧待识别语音帧;/>为收敛因子。
在本发明的一些实施例中,如图4所示,步骤S102包括:
S401、基于预设步长对降噪语音进行分段,获得多个降噪语音片段;
S402、对各降噪语音片段进行小波变换,获得降噪语音片段的频率谱;
S403、确定频率谱的倒谱,并将倒谱的对数值作为幅度谱;
S404、将幅度谱进行傅里叶逆变换,获得小波倒谱系数;
S405、将小波倒谱系数进行非归一化香农熵处理,获得熵系数,并将多个降噪语音片段的熵系数进行拼接,获得特征向量。
在本发明的具体实施例中,步骤S401中的预设步长为50ms。步骤S402中的小波变换的层数为7层。
其中,步骤S402中小波变换的具体过程为:将降噪语音片段分解为低频部分和高频部分,并将高频部分剪枝,然后继续将低频部分分解为低频部分和高频部分,同样对高频部分进行剪枝,执行7次,最终将所有保留下来的低频部分进行拼接,获得频率谱。
在本发明的一些实施例中,特征向量为:
式中,为特征向量;/>为第k个降噪语音片段的小波倒谱系数;n为降噪语音片段的总个数;/>第k个降噪语音片段的熵系数;/>为绝对值运算符;/>为傅里叶逆变换表示符;/>为幅度谱;/>为频率谱。
在本发明的一些实施例中,如图2和图5所示,步骤S103包括:
S501、基于第一时延神经网络(Time Delay Neural Network,TDNN)层对特征向量进行局部特征提取,获得第一特征;
S502、基于选择核心特征提取层对第一特征进行多通道变换和加权处理,获得第二特征;
S503、基于第二时延神经网络层对第一特征和第二特征进行多特征拼接,获得拼接特征;
S504、基于带有多头注意力的时序池化层对拼接特征进行特征提取,获得第三特征;
S505、基于线性变换层对第三特征进行线性变化,获得目标特征;
S506、基于损失函数层对目标特征进行分类,获得识别结果。
本发明实施例通过选择核心特征提取层对第一特征进行多通道变换处理,可增强特征的表示能力,有助于提取更丰富、更准确的特征信息,且通过选择核心特征提取层对第一特征进行加权处理,可自适应地调整特征中不同通道的权重,使得训练完备的声纹识别模型能够更好地适应不同类别之间的差异,从而提高了模型的泛化能力,进而提高了对待识别语音的识别准确性。并且,本发明实施例通过基于带有多头注意力的时序池化层对拼接特征,实现了对经过核心特征提取层的第二特征和未经过核心特征提取层的第一特征进行注意力处理,可进一步提升声纹识别模型识别待识别语音的准确性。
在本发明的一些实施例中,如图6所示,第一时延神经网络层包括第一一维卷积层、第一激活函数层和第一批量归一化层;则如图7所示,步骤S501包括:
S701、基于第一一维卷积层对特征向量进行局部特征提取,获得初始特征;
S702、基于第一激活函数层对初始特征进行非线性变换,获得非线性特征;
S703、基于第一批量归一化(Batch Normalize,BN)层对非线性特征进行归一化处理,获得第一特征。
本发明实施例通过第一一维卷积层对特征向量进行局部特征提取,有助于捕获待识别语音中的结构信息,帮助第一时延神经网络层学习到待识别语音在时间维度上的特征表示。
进一步地,第一激活函数层的激活函数为ReLU函数,将负数部分置零,保持正数部分不变,引入非线性因素,有助于第一时延神经网络层学习复杂的非线性关系。
更进一步地,通过BN层对非线性特征进行归一化处理,有助于加速声纹识别模型的训练收敛过程,减少梯度消失问题,提高声纹识别模型的稳定性和泛化能力。
需要说明的是:第二时延神经网络层与第一时延神经网络层的结构和工作原理都相同,在此不作赘述。
在本发明地一些实施例中,如图8所示,选择核心特征提取层包括第二一维卷积层、多尺度特征提取层、第三一维卷积层以及选择核心单元;则如图9所示,步骤S502包括:
S901、基于第二一维卷积层对第一特征进行通道变换,获得第一通道特征X1/Y1、第二通道特征X2、第三通道特征X3和第四通道特征X4;
S902、基于多尺度特征提取层将第二通道特征进行卷积操作,获得第二卷积特征,将第二卷积特征与第三通道特征进行叠加,获得第一叠加特征,将第一叠加特征进行卷积操作,获得第三卷积特征,将第三卷积特征与第四通道特征进行叠加,获得第二叠加特征,并将第二叠加特征进行卷积操作,获得第四卷积特征;
S903、基于第三一维卷积层对第一通道特征X1/Y1、第二卷积特征Y2、第三卷积特征Y3以及第四卷积特征Y4进行融合,获得融合特征;
S904、基于选择核心单元对融合特征进行自适应加权处理,获得第二特征。
本发明实施例通过多尺度特征提取层可获得不同感受野下的特征,小感受野能够看到更多物体细节,大感受野可以感受到物体的整体结构,将不同感受野下的特征进行融合,可得到具有清晰边界的物体信息,即:可确保对待识别语音的识别准确性。
其中,步骤S902中的卷积操作为通过3×3的卷积核进行卷积操作。
其中,步骤S904具体为:使用多个卷积核对融合特征进行卷积,以形成多个通道特征,然后自适应调整各通道特征的权重,使得声纹识别模型可适应不同类别之间的差异,进一步提高了声纹识别模型的泛化能力。
在本发明的一些实施例中,带有多头注意力的时序池化层包括四个注意力单元,则如图10所示,步骤S504包括:
S1001、确定各注意力单元的注意力权重;
S1002、将拼接特征进行划分为与四个注意力单元对应的四个拼接子特征;
S1003、基于注意力权重对四个拼接子特征进行加权处理,获得第三特征。
本发明实施例通过将拼接特征进行划分为与四个注意力单元对应的四个拼接子特征,可使各注意力单元关注到不同的信息,以增强其对重要特征的关注并抑制对不重要特征的影像,提高了声纹识别模型的表现力和准确性。
其中,步骤S1002具体为:
步骤一、对四个拼接子特征进行n次卷积处理,并进行n-1次第一类激活处理,进行一次第二类激活处理,获得四个注意力分数;
步骤二、确定四个注意力分数的均值和方差,将各拼接子特征、各注意力分数与均值进行融合,获得第一融合分数,将各拼接子特征、各注意力分数与方差进行融合,获得第二融合分数,并将第一融合分数和第二融合分数进行加和,获得总融合分数;
步骤三、重复执行q次步骤一-步骤二,获得各注意力单元的权重。
其中,第一类激活处理为tanh激活函数处理,第二类激活处理为softmax激活函数处理。
在本发明的一些实施例中,线性变换层包括全连接层和第二批量归一化层。全连接层用于进行最终的特征映射,而第二批量归一化层则用于加速模型的训练过程、提高模型的泛化能力和抑制过拟合。
在本发明的一些实施例中,损失函数层的损失函数为:
式中,为损失函数的损失值;N为样本总数;s为特征尺度参数;m为角裕度参数;/>为第i个声音样本与第i个声音样本的识别结果/>的夹角值;/>为第i个声音样本与第i个声音样本的类别标签/>的夹角值;/>为第j个声音样本的第k个中心点的特征向量;K为第j个声音样本的中心点总数量;/>为第i个人的平均特征向量。
为了更好实施本发明实施例中的声纹识别方法,在声纹识别方法基础之上,对应的,本发明实施例还提供了一种声纹识别系统,如图11所示,声纹识别系统1100包括:
语音降噪单元1101,用于获取包括环境声音的待识别语音,并基于最小均方自适应滤波器对待识别语音进行降噪处理,获得降噪语音;
特征向量获取单元1102,用于基于小波倒谱熵算法对降噪语音进行特征提取,获得特征向量;
识别单元1103,用于将特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果;
其中,声纹识别模型包括第一时延神经网络层、选择核心特征提取层、第二时延神经网络层、带有多头注意力的时序池化层、线性变换层以及损失函数层。
上述实施例提供的声纹识别系统1100可实现上述声纹识别方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述声纹识别方法实施例中的相应内容,此处不再赘述。
如图12所示,本发明还相应提供了一种声纹识别设备1200。该声纹识别设备1200包括处理器1201、存储器1202及显示器1203。图12仅示出了声纹识别设备1200的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
处理器1201在一些实施例中可以是中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器1202中存储的程序代码或处理数据,例如本发明中的声纹识别方法。
在一些实施例中,处理器1201可以是单个服务器或服务器组。服务器组可为集中式或分布式的。在一些实施例中,处理器1201可为本地的或远程的。在一些实施例中,处理器1201可实施于云平台。在一实施例中,云平台可包括私有云、公共云、混合云、社区云、分布式云、内部云、多重云等,或以上的任意组合。
存储器1202在一些实施例中可以是声纹识别设备1200的内部存储单元,例如声纹识别设备1200的硬盘或内存。存储器1202在另一些实施例中也可以是声纹识别设备1200的外部存储设备,例如声纹识别设备1200上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,存储器1202还可既包括声纹识别设备1200的内部储存单元也包括外部存储设备。存储器1202用于存储安装声纹识别设备1200的应用软件及各类数据。
显示器1203在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器1203用于显示在声纹识别设备1200的信息以及用于显示可视化的用户界面。声纹识别设备1200的部件1201-1203通过系统总线相互通信。
在一实施例中,当处理器1201执行存储器1202中的声纹识别程序时,可实现以下步骤:
获取包括环境声音的待识别语音,并基于最小均方自适应滤波器对待识别语音进行降噪处理,获得降噪语音;
基于小波倒谱熵算法对降噪语音进行特征提取,获得特征向量;
将特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果;
其中,声纹识别模型包括第一时延神经网络层、选择核心特征提取层、第二时延神经网络层、带有多头注意力的时序池化层、线性变换层以及损失函数层。
应当理解的是:处理器1201在执行存储器1202中的声纹识别程序时,除了上面的功能之外,还可实现其他功能,具体可参见前面相应方法实施例的描述。
进一步地,本发明实施例对提及的声纹识别设备1200的类型不做具体限定,声纹识别设备1200可以为手机、平板电脑、个人数字助理(personaldigital assistant,PDA)、可穿戴设备、膝上型计算机(laptop)等便携式声纹识别设备。便携式声纹识别设备的示例性实施例包括但不限于搭载IOS、android、microsoft或者其他操作系统的便携式声纹识别设备。上述便携式声纹识别设备也可以是其他便携式声纹识别设备,诸如具有触敏表面(例如触控面板)的膝上型计算机(laptop)等。还应当理解的是,在本发明其他一些实施例中,声纹识别设备1200也可以不是便携式声纹识别设备,而是具有触敏表面(例如触控面板)的台式计算机。
相应地,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质用于存储计算机可读取的程序或指令,程序或指令被处理器执行时,能够实现上述各方法实施例提供的声纹识别方法中的步骤或功能。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件(如处理器,控制器等)来完成,计算机程序可存储于计算机可读存储介质中。其中,计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上对本发明所提供的声纹识别方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种声纹识别方法,其特征在于,包括:
获取包括环境声音的待识别语音,并基于最小均方自适应滤波器对所述待识别语音进行降噪处理,获得降噪语音;
基于小波倒谱熵算法对所述降噪语音进行特征提取,获得特征向量;
将所述特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果;
其中,所述声纹识别模型包括第一时延神经网络层、选择核心特征提取层、第二时延神经网络层、带有多头注意力的时序池化层、线性变换层以及损失函数层;
所述将所述特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果,包括:
基于所述第一时延神经网络层对所述特征向量进行局部特征提取,获得第一特征;
基于所述选择核心特征提取层对所述第一特征进行多通道变换和加权处理,获得第二特征;
基于所述第二时延神经网络层对所述第一特征和所述第二特征进行多特征拼接,获得拼接特征;
基于所述带有多头注意力的时序池化层对所述拼接特征进行特征提取,获得第三特征;
基于所述线性变换层对所述第三特征进行线性变化,获得目标特征;
基于所述损失函数层对所述目标特征进行分类,获得所述识别结果;
所述损失函数层的损失函数为:
式中,为损失函数的损失值;N为样本总数;s为特征尺度参数;m为角裕度参数;为第i个声音样本与第i个声音样本的识别结果/>的夹角值;/>为第i个声音样本与第i个声音样本的类别标签/>的夹角值;/>为第j个声音样本的第k个中心点的特征向量;K为第j个声音样本的中心点总数量;/>为第i个人的平均特征向量。
2.根据权利要求1所述的声纹识别方法,其特征在于,所述待识别语音包括多帧待识别语音帧;则所述基于最小均方自适应滤波器对所述待识别语音进行降噪处理,获得降噪语音,包括:
获取第一帧待识别语音帧以及所述第一帧待识别语音帧对应的参考语音帧;
获取所述最小均方自适应滤波器的初始滤波器系数,并基于所述初始滤波器系数确定所述第一帧待识别语音帧的估计语音帧;
基于所述参考语音帧和所述估计语音帧对所述初始滤波器系数进行调整,获得调整滤波器系数,并基于所述调整滤波器系数确定除所述第一帧待识别语音帧之外的其他帧待识别语音帧对应的关联滤波器系数;
基于所述调整滤波器系数对所述第一帧待识别语音帧进行降噪处理,并基于所述关联滤波器系数对其他帧待识别语音帧进行降噪处理,获得所述降噪语音。
3.根据权利要求1所述的声纹识别方法,其特征在于,所述基于小波倒谱熵算法对所述降噪语音进行特征提取,获得特征向量,包括:
基于预设步长对所述降噪语音进行分段,获得多个降噪语音片段;
对各所述降噪语音片段进行小波变换,获得所述降噪语音片段的频率谱;
确定所述频率谱的倒谱,并将所述倒谱的对数值作为幅度谱;
将所述幅度谱进行傅里叶逆变换,获得小波倒谱系数;
将所述小波倒谱系数进行非归一化香农熵处理,获得熵系数,并将所述多个降噪语音片段的所述熵系数进行拼接,获得所述特征向量。
4.根据权利要求3所述的声纹识别方法,其特征在于,所述特征向量为:
式中,为特征向量;/>为第k个降噪语音片段的小波倒谱系数;n为降噪语音片段的总个数;/>第k个降噪语音片段的熵系数;/>为绝对值运算符;/>为傅里叶逆变换表示符;/>为幅度谱;/>为频率谱。
5.根据权利要求1所述的声纹识别方法,其特征在于,所述第一时延神经网络层包括第一一维卷积层、第一激活函数层和第一批量归一化层;所述基于所述第一时延神经网络层对所述特征向量进行局部特征提取,获得第一特征,包括:
基于所述第一一维卷积层对所述特征向量进行局部特征提取,获得初始特征;
基于所述第一激活函数层对所述初始特征进行非线性变换,获得非线性特征;
基于所述第一批量归一化层对所述非线性特征进行归一化处理,获得所述第一特征。
6.根据权利要求1所述的声纹识别方法,其特征在于,所述选择核心特征提取层包括第二一维卷积层、多尺度特征提取层、第三一维卷积层以及选择核心单元;所述基于所述选择核心特征提取层对所述第一特征进行多通道变换和加权处理,获得第二特征,包括:
基于所述第二一维卷积层对所述第一特征进行通道变换,获得第一通道特征、第二通道特征、第三通道特征和第四通道特征;
基于所述多尺度特征提取层将所述第二通道特征进行卷积操作,获得第二卷积特征,将所述第二卷积特征与所述第三通道特征进行叠加,获得第一叠加特征,将所述第一叠加特征进行卷积操作,获得第三卷积特征,将所述第三卷积特征与所述第四通道特征进行叠加,获得第二叠加特征,并将所述第二叠加特征进行卷积操作,获得第四卷积特征;
基于所述第三一维卷积层对所述第一通道特征、所述第二卷积特征、所述第三卷积特征以及所述第四卷积特征进行融合,获得融合特征;
基于所述选择核心单元对所述融合特征进行自适应加权处理,获得所述第二特征。
7.根据权利要求1所述的声纹识别方法,其特征在于,所述带有多头注意力的时序池化层包括四个注意力单元,则所述基于所述带有多头注意力的时序池化层对所述拼接特征进行特征提取,获得第三特征,包括:
确定各所述注意力单元的注意力权重;
将所述拼接特征进行划分为与所述四个注意力单元对应的四个拼接子特征;
基于所述注意力权重对所述四个拼接子特征进行加权处理,获得所述第三特征。
8.一种声纹识别系统,其特征在于,包括:
语音降噪单元,用于获取包括环境声音的待识别语音,并基于最小均方自适应滤波器对所述待识别语音进行降噪处理,获得降噪语音;
特征向量获取单元,用于基于小波倒谱熵算法对所述降噪语音进行特征提取,获得特征向量;
识别单元,用于将所述特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果;
其中,所述声纹识别模型包括第一时延神经网络层、选择核心特征提取层、第二时延神经网络层、带有多头注意力的时序池化层、线性变换层以及损失函数层;
所述将所述特征向量输入至训练完备的声纹识别模型中进行识别,获得识别结果,包括:
基于所述第一时延神经网络层对所述特征向量进行局部特征提取,获得第一特征;
基于所述选择核心特征提取层对所述第一特征进行多通道变换和加权处理,获得第二特征;
基于所述第二时延神经网络层对所述第一特征和所述第二特征进行多特征拼接,获得拼接特征;
基于所述带有多头注意力的时序池化层对所述拼接特征进行特征提取,获得第三特征;
基于所述线性变换层对所述第三特征进行线性变化,获得目标特征;
基于所述损失函数层对所述目标特征进行分类,获得所述识别结果;
所述损失函数层的损失函数为:
式中,为损失函数的损失值;N为样本总数;s为特征尺度参数;m为角裕度参数;为第i个声音样本与第i个声音样本的识别结果/>的夹角值;/>为第i个声音样本与第i个声音样本的类别标签/>的夹角值;/>为第j个声音样本的第k个中心点的特征向量;K为第j个声音样本的中心点总数量;/>为第i个人的平均特征向量。
CN202410328675.2A 2024-03-21 2024-03-21 一种声纹识别方法及系统 Active CN117935813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410328675.2A CN117935813B (zh) 2024-03-21 2024-03-21 一种声纹识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410328675.2A CN117935813B (zh) 2024-03-21 2024-03-21 一种声纹识别方法及系统

Publications (2)

Publication Number Publication Date
CN117935813A true CN117935813A (zh) 2024-04-26
CN117935813B CN117935813B (zh) 2024-06-14

Family

ID=90752341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410328675.2A Active CN117935813B (zh) 2024-03-21 2024-03-21 一种声纹识别方法及系统

Country Status (1)

Country Link
CN (1) CN117935813B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120209612A1 (en) * 2011-02-10 2012-08-16 Intonow Extraction and Matching of Characteristic Fingerprints from Audio Signals
CN106782504A (zh) * 2016-12-29 2017-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN108154888A (zh) * 2017-12-26 2018-06-12 四川沐迪圣科技有限公司 一种基于语音特征的可穿戴设备监测心理健康方法
CN110164425A (zh) * 2019-05-29 2019-08-23 北京声智科技有限公司 一种降噪方法、装置及可实现降噪的设备
CN112036467A (zh) * 2020-08-27 2020-12-04 循音智能科技(上海)有限公司 基于多尺度注意力神经网络的异常心音识别方法及装置
CN113763966A (zh) * 2021-09-09 2021-12-07 武汉理工大学 一种端到端的文本无关声纹识别方法及系统
CN115602188A (zh) * 2022-10-19 2023-01-13 东南大学(Cn) 一种基于卷积和循环融合网络的语音增强方法
WO2023168713A1 (zh) * 2022-03-11 2023-09-14 华为技术有限公司 交互语音信号处理方法、相关设备及系统
CN116884415A (zh) * 2023-06-29 2023-10-13 江南大学 一种基于DV-Softmax损失函数的声纹识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120209612A1 (en) * 2011-02-10 2012-08-16 Intonow Extraction and Matching of Characteristic Fingerprints from Audio Signals
CN106782504A (zh) * 2016-12-29 2017-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
US20180190280A1 (en) * 2016-12-29 2018-07-05 Baidu Online Network Technology (Beijing) Co., Ltd. Voice recognition method and apparatus
CN108154888A (zh) * 2017-12-26 2018-06-12 四川沐迪圣科技有限公司 一种基于语音特征的可穿戴设备监测心理健康方法
CN110164425A (zh) * 2019-05-29 2019-08-23 北京声智科技有限公司 一种降噪方法、装置及可实现降噪的设备
CN112036467A (zh) * 2020-08-27 2020-12-04 循音智能科技(上海)有限公司 基于多尺度注意力神经网络的异常心音识别方法及装置
CN113763966A (zh) * 2021-09-09 2021-12-07 武汉理工大学 一种端到端的文本无关声纹识别方法及系统
WO2023168713A1 (zh) * 2022-03-11 2023-09-14 华为技术有限公司 交互语音信号处理方法、相关设备及系统
CN115602188A (zh) * 2022-10-19 2023-01-13 东南大学(Cn) 一种基于卷积和循环融合网络的语音增强方法
CN116884415A (zh) * 2023-06-29 2023-10-13 江南大学 一种基于DV-Softmax损失函数的声纹识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
林浩文;张正道;张明馨;高超宏;: "一种婴儿哭声识别优化算法的研究", 测控技术, no. 12, 18 December 2019 (2019-12-18) *
陶佳佳等: "基于并行卷积和双重注意力机制的说话人识别", 微电子学与计算机, 20 March 2024 (2024-03-20), pages 1 - 7 *

Also Published As

Publication number Publication date
CN117935813B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
CN107527620B (zh) 电子装置、身份验证的方法及计算机可读存储介质
CN109583332B (zh) 人脸识别方法、人脸识别系统、介质及电子设备
CN110956966B (zh) 声纹认证方法、装置、介质及电子设备
CN112949708B (zh) 情绪识别方法、装置、计算机设备和存储介质
CN112071322B (zh) 一种端到端的声纹识别方法、装置、存储介质及设备
CN107545241A (zh) 神经网络模型训练及活体检测方法、装置及存储介质
CN112233698A (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN108417207B (zh) 一种深度混合生成网络自适应方法及系统
Noroozi et al. Supervised vocal-based emotion recognition using multiclass support vector machine, random forests, and adaboost
CN113298152B (zh) 模型训练方法、装置、终端设备及计算机可读存储介质
CN108962231A (zh) 一种语音分类方法、装置、服务器及存储介质
CN110473552A (zh) 语音识别认证方法及系统
CN111862962A (zh) 一种语音识别方法及系统
CN114913859B (zh) 声纹识别方法、装置、电子设备和存储介质
CN113223536A (zh) 声纹识别方法、装置及终端设备
CN109545226A (zh) 一种语音识别方法、设备及计算机可读存储介质
CN114333881A (zh) 基于环境自适应的音频传输降噪方法、装置、设备及介质
CN115565548A (zh) 异常声音检测方法、装置、存储介质及电子设备
Liu et al. Golden gemini is all you need: Finding the sweet spots for speaker verification
CN113436633B (zh) 说话人识别方法、装置、计算机设备及存储介质
US20190115044A1 (en) Method and device for audio recognition
CN117423341A (zh) 声纹识别方法、声纹模型训练方法、装置、设备及介质
CN108847251A (zh) 一种语音去重方法、装置、服务器及存储介质
CN117935813B (zh) 一种声纹识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant