CN116229986B - 一种针对声纹鉴定任务的语音降噪方法及装置 - Google Patents
一种针对声纹鉴定任务的语音降噪方法及装置 Download PDFInfo
- Publication number
- CN116229986B CN116229986B CN202310492167.3A CN202310492167A CN116229986B CN 116229986 B CN116229986 B CN 116229986B CN 202310492167 A CN202310492167 A CN 202310492167A CN 116229986 B CN116229986 B CN 116229986B
- Authority
- CN
- China
- Prior art keywords
- voice
- sample
- noise reduction
- frequency domain
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 138
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 191
- 238000012549 training Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 25
- 238000001228 spectrum Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Collating Specific Patterns (AREA)
Abstract
本公开提供了一种针对声纹鉴定任务的语音降噪方法及装置,通过获取样本含噪语音与样本净语音;确定样本含噪语音的说话人对应的第一身份认证矢量,以及样本净语音的说话人对应的第二身份认证矢量;针对样本含噪语音与样本净语音中的每一帧,确定该帧样本含噪语音对应的第一频域向量,以及该帧样本净语音对应的第二频域向量;根据第一身份认证矢量、第二身份认证矢量、第一频域向量以及第二频域向量训练预设的语音降噪模型;获取待降噪语音,将待降噪语音输入至训练好的语音降噪模型中,确定待降噪语音对应的目标降噪语音。可以在减少噪音影响的同时,保留了语音的身份特征信息,从而有效提升声纹鉴定任务性能的效果。
Description
技术领域
本公开涉及语音处理技术领域,具体而言,涉及一种针对声纹鉴定任务的语音降噪方法及装置。
背景技术
在声纹鉴定任务中,鉴定的性能会受到噪声的影响。现在有主流做法是,训练神经网络用于降噪,然后将降噪后的语音用于做声纹鉴定,包括降噪神经网络的训练和应用,以及身份特征的抽取和声纹鉴定。用于降噪的神经网络,大多以增加信号的信噪比(Signal-to-Noise Ratio,SNR) 为训练目标。SNR 指的是信号与噪声的比值,通常用分贝(dB)表示。在语音处理中,噪声可能来自于不同的来源,例如背景噪声、麦克风噪声,通信噪声等。
但是在声纹鉴定任务中,相比于提升语音质量,获得准确的内容信息,需要更加关注语音所包含的身份信息。包括说话人的声音特征、语调、音量、发音等方面的信息;而另一方面,即使是同一个人的声音,在不同传输条件下,不同背景噪音条件下,也有很多差异。因此,传统的降噪技术虽然可以提升语音的清晰度,但是在降噪过程中也会丢失一些身份信息,对声纹鉴定任务造成一定的负面影响,在大部分情况下,降噪后的语音反而会降低声纹鉴定任务的性能。
发明内容
本公开实施例至少提供一种针对声纹鉴定任务的语音降噪方法及装置,可以在减少噪音影响的同时,保留了语音的身份特征信息,从而有效提升声纹鉴定任务性能的效果。
本公开实施例提供了一种针对声纹鉴定任务的语音降噪方法,包括:
获取样本含噪语音与样本净语音;
确定所述样本含噪语音的说话人对应的第一身份认证矢量,以及所述样本净语音的说话人对应的第二身份认证矢量;
针对所述样本含噪语音与所述样本净语音中的每一帧,分别确定该帧所述样本含噪语音对应的第一频域向量,以及该帧所述样本净语音对应的第二频域向量;
根据所述第一身份认证矢量、所述第二身份认证矢量、所述第一频域向量以及所述第二频域向量训练预设的语音降噪模型;
获取待降噪语音,将所述待降噪语音输入至训练好的所述语音降噪模型中,确定所述待降噪语音对应的目标降噪语音。
一种可选的实施方式中,根据所述第一身份认证矢量、所述第二身份认证矢量、所述第一频域向量以及所述第二频域向量训练预设的语音降噪模型,具体包括:
以所述语音降噪模型处理所述第一频域向量后得到的样本降噪频谱、所述第二频域向量,以及所述第一身份认证矢量、所述第二身份认证矢量作为参数,构建所述语音降噪模型对应的损失函数;
将每帧所述样本含噪语音对应的所述第一频域向量输入至所述语音降噪模型,确定使所述损失函数最小化时,所述语音降噪模型对应的目标模型参数;
根据所述目标模型参数更新所述语音降噪模型。
一种可选的实施方式中,所述针对所述样本含噪语音与所述样本净语音中的每一帧,分别确定该帧所述样本含噪语音对应的第一频域向量,以及该帧所述样本净语音对应的第二频域向量,具体包括:
将所述样本含噪语音进行分帧处理,针对所述样本含噪语音中的每一帧进行快速傅里叶变换,将快速傅里叶变换后,实部与虚部的绝对值,确定为所述第一频域向量;
将所述样本净语音进行分帧处理,针对所述样本净语音中的每一帧进行快速傅里叶变换,将快速傅里叶变换后,实部与虚部的绝对值,确定为所述第二频域向量。
一种可选的实施方式中,所述获取待降噪语音,将所述待降噪语音输入至训练好的所述语音降噪模型中,确定所述待降噪语音对应的目标降噪语音,具体包括:
针对所述待降噪语音进行分帧处理,将所述待降噪语音中的每一帧输入至训练好的所述语音降噪模型中,确定每帧所述待降噪语音对应的降噪频谱;
针对每个所述降噪频谱进行傅里叶逆变换,确定该降噪频谱对应的降噪语音片段;
针对所述降噪语音片段进行加窗处理后,拼接形成所述目标降噪语音。
一种可选的实施方式中,基于以下公式构建所述损失函数:
其中,代表所述损失函数;/>代表所述语音降噪模型处理所述第一频域向量后得到的样本降噪频谱;/>代表所述第二频域向量;i代表所述第一身份认证矢量;i’代表所述第二身份认证矢量;t代表每一帧对应的时间索引号。
本公开实施例还提供一种针对声纹鉴定任务的语音降噪装置,包括:
获取模块,用于获取样本含噪语音与样本净语音;
身份认证矢量确定模块,用于确定所述样本含噪语音的说话人对应的第一身份认证矢量,以及所述样本净语音的说话人对应的第二身份认证矢量;
频域向量确定模块,用于针对所述样本含噪语音与所述样本净语音中的每一帧,确定该帧所述样本含噪语音对应的第一频域向量,以及该帧所述样本净语音对应的第二频域向量;
模型训练模块,用于根据所述第一身份认证矢量、所述第二身份认证矢量、所述第一频域向量以及所述第二频域向量训练预设的语音降噪模型;
语音降噪模块,用于获取待降噪语音,将所述待降噪语音输入至训练好的所述语音降噪模型中,确定所述待降噪语音对应的目标降噪语音。
一种可选的实施方式中,所述模型训练模块具体用于:
以所述语音降噪模型处理所述第一频域向量后得到的样本降噪频谱、所述第二频域向量,以及所述第一身份认证矢量、所述第二身份认证矢量作为参数,构建所述语音降噪模型对应的损失函数;
将每帧所述样本含噪语音对应的所述第一频域向量输入至所述语音降噪模型,确定使所述损失函数最小化时,所述语音降噪模型对应的目标模型参数;
根据所述目标模型参数更新所述语音降噪模型。
一种可选的实施方式中,所述频域向量确定模块具体用于:
将所述样本含噪语音进行分帧处理,针对所述样本含噪语音中的每一帧进行快速傅里叶变换,将快速傅里叶变换后,实部与虚部的绝对值,确定为所述第一频域向量;
将所述样本净语音进行分帧处理,针对所述样本净语音中的每一帧进行快速傅里叶变换,将快速傅里叶变换后,实部与虚部的绝对值,确定为所述第二频域向量。
本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述针对声纹鉴定任务的语音降噪方法,或上述针对声纹鉴定任务的语音降噪方法中任一种可能的实施方式中的步骤。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述针对声纹鉴定任务的语音降噪方法,或上述针对声纹鉴定任务的语音降噪方法中任一种可能的实施方式中的步骤。
本公开实施例还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序、指令被处理器执行时实现上述针对声纹鉴定任务的语音降噪方法,或上述针对声纹鉴定任务的语音降噪方法中任一种可能的实施方式中的步骤。
本公开实施例提供的一种针对声纹鉴定任务的语音降噪方法及装置,通过获取样本含噪语音与样本净语音;确定所述样本含噪语音的说话人对应的第一身份认证矢量,以及所述样本净语音的说话人对应的第二身份认证矢量;针对所述样本含噪语音与所述样本净语音中的每一帧,确定该帧所述样本含噪语音对应的第一频域向量,以及该帧所述样本净语音对应的第二频域向量;根据所述第一身份认证矢量、所述第二身份认证矢量、所述第一频域向量以及所述第二频域向量训练预设的语音降噪模型;获取待降噪语音,将所述待降噪语音输入至训练好的所述语音降噪模型中,确定所述待降噪语音对应的目标降噪语音。可以在减少噪音影响的同时,保留了语音的身份特征信息,从而有效提升声纹鉴定任务性能的效果。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种针对声纹鉴定任务的语音降噪方法的流程图;
图2示出了本公开实施例所提供的一种语音降噪模型的训练方法的流程图;
图3示出了本公开实施例所提供的一种针对声纹鉴定任务的语音降噪装置的示意图;
图4示出了本公开实施例所提供的一种电子设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
经研究发现,在声纹鉴定任务中,鉴定的性能会受到噪声的影响。现在有主流做法是,训练神经网络用于降噪,然后将降噪后的语音用于做声纹鉴定,包括降噪神经网络的训练和应用,以及身份特征的抽取和声纹鉴定。但是,传统的降噪技术虽然可以提升语音的清晰度,但是在降噪过程中也会丢失一些身份信息,对声纹鉴定任务造成一定的负面影响,在大部分情况下,降噪后的语音反而会降低声纹鉴定任务的性能。
基于上述研究,本公开提供了一种针对声纹鉴定任务的语音降噪方法及装置,通过获取样本含噪语音与样本净语音;确定所述样本含噪语音的说话人对应的第一身份认证矢量,以及所述样本净语音的说话人对应的第二身份认证矢量;针对所述样本含噪语音与所述样本净语音中的每一帧,分别确定该帧所述样本含噪语音对应的第一频域向量,以及该帧所述样本净语音对应的第二频域向量;根据所述第一身份认证矢量、所述第二身份认证矢量、所述第一频域向量以及所述第二频域向量训练预设的语音降噪模型;获取待降噪语音,将所述待降噪语音输入至训练好的所述语音降噪模型中,确定所述待降噪语音对应的目标降噪语音。可以在减少噪音影响的同时,保留了语音的身份特征信息,从而有效提升声纹鉴定任务性能的效果。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种针对声纹鉴定任务的语音降噪方法进行详细介绍,本公开实施例所提供的针对声纹鉴定任务的语音降噪方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该针对声纹鉴定任务的语音降噪方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例提供的一种针对声纹鉴定任务的语音降噪方法的流程图,所述方法包括步骤S101~S105,其中:
S101、获取样本含噪语音与样本净语音。
在具体实施中,获取含有噪声的含噪语音以及不含噪声的净语音作为语音降噪模型的训练样本。
需要说明的是,样本净语音的语音长度与样本含噪语音的语音长度相同。
S102、确定所述样本含噪语音的说话人对应的第一身份认证矢量,以及所述样本净语音的说话人对应的第二身份认证矢量。
在具体实施中,将样本含噪语音输入至预先训练好的身份认证矢量提取模型,提取用于标示样本含噪语音中说话人身份特征的第一身份认证矢量;将样本净语音输入至预先训练好的身份认证矢量提取模型,提取用于标示样本净语音中说话人身份特征的第二身份认证矢量。
这里,第一身份认证矢量与第二身份认证矢量是代表样本含噪语音与样本净语音中说话人的向量,可以为身份认证矢量(i-vector)。
其中,身份认证矢量提取模型可以采用通用背景模型(Universal BackgroundModel,UBM),UBM用于代表说话人特征分布的混合高斯分布,分别由高斯分布的因子,平均值以及标准差组成。
进一步的,在通过UBM提取身份认证矢量的过程中,身份认证矢量可以被认为是样本含噪语音与样本净语音中的说话人在全信道模型T中的投影,通过将多个说话人的语音信号进行聚类,建立起一个可以表示所有说话人空间的模型,这个模型用通过矩阵表示,然后对每个说话人的语音在这个模型的空间上进行投影,得到对应的身份认证矢量。
这里,全信道模型T是一个M×N的只表征说话人变化,不带有信道与噪声变化的映射矩阵,用于代表说话人的截荷空间,可以把高维统计量映射到低维身份认证矢量,起到降维作用。
其中,全信道模型T的M×N维度中,M与UBM的高斯数相同,N是身份认证矢量的维度。
需要说明的是,针对UBM的训练过程可以采用现有训练方法进行训练,在此不做具体限制。
S103、针对所述样本含噪语音与所述样本净语音中的每一帧,确定该帧所述样本含噪语音对应的第一频域向量,以及该帧所述样本净语音对应的第二频域向量。
在具体实施中,针对样本含噪语音中的每一帧,确定该帧样本含噪语音对应的第一频域向量;针对样本净语音中的每一帧,确定该帧样本净语音对应的第二频域向量。
具体的,可以通过如下步骤S1031-步骤S1032确定第一频域向量与第二频域向量:
S1031、将样本含噪语音进行分帧处理,针对样本含噪语音中的每一帧进行快速傅里叶变换,将快速傅里叶变换后,实部与虚部的绝对值,确定为第一频域向量。
S1032、将样本净语音进行分帧处理,针对样本净语音中的每一帧进行快速傅里叶变换,将快速傅里叶变换后,实部与虚部的绝对值,确定为第二频域向量。
这里,分别将样本含噪语音与样本净语音进行分帧处理,针对每一帧进行快速傅里叶变换(Fast Fourier Transform,FFT),将变换后的实部与虚部求绝对值,获取该帧样本含噪语音在频域范围内的第一频域向量、该帧样本净语音在频域范围内的第二频域向量。
S104、根据所述第一身份认证矢量、所述第二身份认证矢量、所述第一频域向量以及所述第二频域向量训练预设的语音降噪模型。
在具体实施中,采用第一身份认证矢量、第二身份认证矢量、第一频域向量以及第二频域向量训练预设的语音降噪模型,直至语音降噪模型被训练完成可以满足语音降噪任务。
这里,语音降噪模型为深层学习模型,语音降噪模型的输入为语音帧或该语音帧对应的频域向量,输出为该语音帧对应的频谱。
可选的,可以采用自编码器结构(au-toencoder)构建语音降噪模型。
示例性的,语音降噪模型可以为层状结构,第一层参数为一个维度为d×e0的矩阵,和一个维度为d的偏差向量,其中d为输入数据的维度,输出维度为e0。第二层参数为e0×(e1+1)个,输入e0维度,输出 e1维度,之后各层以此类推。直至最后一层,第f层,输入ef −2维度,输出d维度,与第一层的输入维度相同。
作为一种可能的实施方式,针对语音降噪模型的训练方法,参见图2所示,为本公开实施例提供的一种语音降噪模型的训练方法的流程图,所述方法包括步骤S1041~S1043,其中:
S1041、以所述语音降噪模型处理所述第一频域向量后得到的样本降噪频谱、所述第二频域向量,以及所述第一身份认证矢量、所述第二身份认证矢量作为参数,构建所述语音降噪模型对应的损失函数。
在具体实施中,将语音降噪模型在输入第一频域向量后得到的样本降噪频谱、第二频域向量,以及第一身份认证矢量、第二身份认证矢量作为参数,构建语音降噪模型对应的损失函数。
具体的,可以基于以下公式构建语音降噪模型对应的损失函数:
其中,代表损失函数;/>代表语音降噪模型处理第一频域向量后得到的样本降噪频谱;/>代表第二频域向量;i代表第一身份认证向量;i’代表第二身份认证矢量;t代表每一帧对应的时间索引号。
S1042、将每帧所述样本含噪语音对应的所述第一频域向量输入至所述语音降噪模型,确定使所述损失函数最小化时,所述语音降噪模型对应的目标模型参数。
S1043、根据所述目标模型参数更新所述语音降噪模型。
在具体实施中,将每一帧样本含噪语音对应的第一频域向量输入至待训练的语音降噪模型,求解使损失函数最小化时,语音降噪模型对应的目标模型参数,根据该目标模型参数更新语音降噪模型。
这里,该目标函数中包含样本降噪频谱、第二频域向量的项,可以约束样本含噪语音与样本净语音的功率谱差最小,从而获得高信噪比的部分。而包含第一身份认证矢量、第二身份认证矢量的项则约束样本含噪语音与样本净语音的身份认证矢量间的距离最小,从而获得身份特征的最大保留。
S105、获取待降噪语音,将所述待降噪语音输入至训练好的所述语音降噪模型中,确定所述待降噪语音对应的目标降噪语音。
在具体实施中,获取用于进行声纹鉴定任务的待降噪语音,将该待降噪语音输入至训练好的语音降噪模型,由语音降噪模型输出经过降噪处理后的目标降噪语音。
具体的,针对待降噪语音进行分帧处理,将待降噪语音中的每一帧输入至训练好的语音降噪模型中,确定每帧待降噪语音对应的降噪频谱;针对每个降噪频谱进行傅里叶逆变换,确定该降噪频谱对应的降噪语音片段;针对降噪语音片段进行加窗处理后,拼接形成目标降噪语音。
这里,利用训练好的语音降噪模型处理待降噪语音中的每一帧,获得针对该帧进行降噪后并且保留身份信息的降噪频谱,将降噪频谱进行傅里叶逆变换获得目标降噪语音在相同时间处的对应降噪语音片段,针对该帧降噪语音片段采用加窗函数进行处理,拼接形成目标降噪语音。
其中,在本申请实施例中将目标降噪语音应用于声纹鉴定任务中。
本公开实施例提供的一种针对声纹鉴定任务的语音降噪方法,通过获取样本含噪语音与样本净语音;确定所述样本含噪语音的说话人对应的第一身份认证矢量,以及所述样本净语音的说话人对应的第二身份认证矢量;针对所述样本含噪语音与所述样本净语音中的每一帧,分别确定该帧所述样本含噪语音对应的第一频域向量,以及该帧所述样本净语音对应的第二频域向量;根据所述第一身份认证矢量、所述第二身份认证矢量、所述第一频域向量以及所述第二频域向量训练预设的语音降噪模型;获取待降噪语音,将所述待降噪语音输入至训练好的所述语音降噪模型中,确定所述待降噪语音对应的目标降噪语音。可以在减少噪音影响的同时,保留了语音的身份特征信息,从而有效提升声纹鉴定任务性能的效果。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与针对声纹鉴定任务的语音降噪方法对应的针对声纹鉴定任务的语音降噪装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述针对声纹鉴定任务的语音降噪方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图3,图3为本公开实施例提供的一种针对声纹鉴定任务的语音降噪装置的示意图。如图3中所示,本公开实施例提供的针对声纹鉴定任务的语音降噪装置300包括:
获取模块310,用于获取样本含噪语音与样本净语音。
身份认证矢量确定模块320,用于确定所述样本含噪语音的说话人对应的第一身份认证矢量,以及所述样本净语音的说话人对应的第二身份认证矢量。
频域向量确定模块330,用于针对所述样本含噪语音与所述样本净语音中的每一帧,确定该帧所述样本含噪语音对应的第一频域向量,以及该帧所述样本净语音对应的第二频域向量。
模型训练模块340,用于根据所述第一身份认证矢量、所述第二身份认证矢量、所述第一频域向量以及所述第二频域向量训练预设的语音降噪模型。
语音降噪模块350,用于获取待降噪语音,将所述待降噪语音输入至训练好的所述语音降噪模型中,确定所述待降噪语音对应的目标降噪语音。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本公开实施例提供的一种针对声纹鉴定任务的语音降噪方法,通过获取样本含噪语音与样本净语音;确定所述样本含噪语音的说话人对应的第一身份认证矢量,以及所述样本净语音的说话人对应的第二身份认证矢量;针对所述样本含噪语音与所述样本净语音中的每一帧,分别确定该帧所述样本含噪语音对应的第一频域向量,以及该帧所述样本净语音对应的第二频域向量;根据所述第一身份认证矢量、所述第二身份认证矢量、所述第一频域向量以及所述第二频域向量训练预设的语音降噪模型;获取待降噪语音,将所述待降噪语音输入至训练好的所述语音降噪模型中,确定所述待降噪语音对应的目标降噪语音。可以在减少噪音影响的同时,保留了语音的身份特征信息,从而有效提升声纹鉴定任务性能的效果。
对应于图1与图2中的针对声纹鉴定任务的语音降噪方法,本公开实施例还提供了一种电子设备400,如图4所示,为本公开实施例提供的电子设备400结构示意图,包括:
处理器41、存储器42、和总线43;存储器42用于存储执行指令,包括内存421和外部存储器422;这里的内存421也称内存储器,用于暂时存放处理器41中的运算数据,以及与硬盘等外部存储器422交换的数据,处理器41通过内存421与外部存储器422进行数据交换,当所述电子设备400运行时,所述处理器41与所述存储器42之间通过总线43通信,使得所述处理器41执行图1与图2中的针对声纹鉴定任务的语音降噪方法的步骤。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的针对声纹鉴定任务的语音降噪方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品包括有计算机指令,所述计算机指令被处理器执行时可以执行上述方法实施例中所述的针对声纹鉴定任务的语音降噪方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种针对声纹鉴定任务的语音降噪方法,其特征在于,包括:
获取样本含噪语音与样本净语音;
确定所述样本含噪语音的说话人对应的第一身份认证矢量,以及所述样本净语音的说话人对应的第二身份认证矢量;
针对所述样本含噪语音与所述样本净语音中的每一帧,确定该帧所述样本含噪语音对应的第一频域向量,以及该帧所述样本净语音对应的第二频域向量;
根据所述第一身份认证矢量、所述第二身份认证矢量、所述第一频域向量以及所述第二频域向量训练预设的语音降噪模型;
获取待降噪语音,将所述待降噪语音输入至训练好的所述语音降噪模型中,确定所述待降噪语音对应的目标降噪语音;
基于以下步骤训练所述语音降噪模型:
以所述语音降噪模型处理所述第一频域向量后得到的样本降噪频谱、所述第二频域向量,以及所述第一身份认证矢量、所述第二身份认证矢量作为参数,构建所述语音降噪模型对应的损失函数;
将每帧所述样本含噪语音对应的所述第一频域向量输入至所述语音降噪模型,确定使所述损失函数最小化时,所述语音降噪模型对应的目标模型参数;
根据所述目标模型参数更新所述语音降噪模型;
基于以下公式构建所述损失函数:
其中,代表所述损失函数;/>代表所述语音降噪模型处理所述第一频域向量后得到的样本降噪频谱;/>代表所述第二频域向量;i代表所述第一身份认证矢量;i’代表所述第二身份认证矢量;t代表每一帧对应的时间索引号。
2.根据权利要求1所述的方法,其特征在于,所述针对所述样本含噪语音与所述样本净语音中的每一帧,分别确定该帧所述样本含噪语音对应的第一频域向量,以及该帧所述样本净语音对应的第二频域向量,具体包括:
将所述样本含噪语音进行分帧处理,针对所述样本含噪语音中的每一帧进行快速傅里叶变换,将快速傅里叶变换后,实部与虚部的绝对值,确定为所述第一频域向量;
将所述样本净语音进行分帧处理,针对所述样本净语音中的每一帧进行快速傅里叶变换,将快速傅里叶变换后,实部与虚部的绝对值,确定为所述第二频域向量。
3.根据权利要求1所述的方法,其特征在于,所述获取待降噪语音,将所述待降噪语音输入至训练好的所述语音降噪模型中,确定所述待降噪语音对应的目标降噪语音,具体包括:
针对所述待降噪语音进行分帧处理,将所述待降噪语音中的每一帧输入至训练好的所述语音降噪模型中,确定每帧所述待降噪语音对应的降噪频谱;
针对每个所述降噪频谱进行傅里叶逆变换,确定该降噪频谱对应的降噪语音片段;
针对所述降噪语音片段进行加窗处理后,拼接形成所述目标降噪语音。
4.一种针对声纹鉴定任务的语音降噪装置,其特征在于,包括:
获取模块,用于获取样本含噪语音与样本净语音;
身份认证矢量确定模块,用于确定所述样本含噪语音的说话人对应的第一身份认证矢量,以及所述样本净语音的说话人对应的第二身份认证矢量;
频域向量确定模块,用于针对所述样本含噪语音与所述样本净语音中的每一帧,确定该帧所述样本含噪语音对应的第一频域向量,以及该帧所述样本净语音对应的第二频域向量;
模型训练模块,用于根据所述第一身份认证矢量、所述第二身份认证矢量、所述第一频域向量以及所述第二频域向量训练预设的语音降噪模型;
语音降噪模块,用于获取待降噪语音,将所述待降噪语音输入至训练好的所述语音降噪模型中,确定所述待降噪语音对应的目标降噪语音;
所述模型训练模块具体用于:
以所述语音降噪模型处理所述第一频域向量后得到的样本降噪频谱、所述第二频域向量,以及所述第一身份认证矢量、所述第二身份认证矢量作为参数,构建所述语音降噪模型对应的损失函数;
将每帧所述样本含噪语音对应的所述第一频域向量输入至所述语音降噪模型,确定使所述损失函数最小化时,所述语音降噪模型对应的目标模型参数;
根据所述目标模型参数更新所述语音降噪模型;
基于以下公式构建所述损失函数:
其中,代表所述损失函数;/>代表所述语音降噪模型处理所述第一频域向量后得到的样本降噪频谱;/>代表所述第二频域向量;i代表所述第一身份认证矢量;i’代表所述第二身份认证矢量;t代表每一帧对应的时间索引号。
5.根据权利要求4所述的装置,其特征在于,所述频域向量确定模块具体用于:
将所述样本含噪语音进行分帧处理,针对所述样本含噪语音中的每一帧进行快速傅里叶变换,将快速傅里叶变换后,实部与虚部的绝对值,确定为所述第一频域向量;
将所述样本净语音进行分帧处理,针对所述样本净语音中的每一帧进行快速傅里叶变换,将快速傅里叶变换后,实部与虚部的绝对值,确定为所述第二频域向量。
6.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至3中任一项所述的针对声纹鉴定任务的语音降噪方法的步骤。
7.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至3中任一项所述的针对声纹鉴定任务的语音降噪方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310492167.3A CN116229986B (zh) | 2023-05-05 | 2023-05-05 | 一种针对声纹鉴定任务的语音降噪方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310492167.3A CN116229986B (zh) | 2023-05-05 | 2023-05-05 | 一种针对声纹鉴定任务的语音降噪方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116229986A CN116229986A (zh) | 2023-06-06 |
CN116229986B true CN116229986B (zh) | 2023-07-21 |
Family
ID=86585853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310492167.3A Active CN116229986B (zh) | 2023-05-05 | 2023-05-05 | 一种针对声纹鉴定任务的语音降噪方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116229986B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712628A (zh) * | 2019-03-15 | 2019-05-03 | 哈尔滨理工大学 | 一种基于rnn的语音降噪方法及语音识别方法 |
CN113241081A (zh) * | 2021-04-25 | 2021-08-10 | 华南理工大学 | 一种基于梯度反转层的远场说话人认证方法及系统 |
CN113539290A (zh) * | 2020-04-22 | 2021-10-22 | 华为技术有限公司 | 语音降噪方法和装置 |
CN113571078A (zh) * | 2021-01-29 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 噪声抑制方法、装置、介质以及电子设备 |
CN114898762A (zh) * | 2022-05-07 | 2022-08-12 | 北京快鱼电子股份公司 | 基于目标人的实时语音降噪方法、装置和电子设备 |
WO2022253003A1 (zh) * | 2021-05-31 | 2022-12-08 | 华为技术有限公司 | 语音增强方法及相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9691392B1 (en) * | 2015-12-09 | 2017-06-27 | Uniphore Software Systems | System and method for improved audio consistency |
-
2023
- 2023-05-05 CN CN202310492167.3A patent/CN116229986B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712628A (zh) * | 2019-03-15 | 2019-05-03 | 哈尔滨理工大学 | 一种基于rnn的语音降噪方法及语音识别方法 |
CN113539290A (zh) * | 2020-04-22 | 2021-10-22 | 华为技术有限公司 | 语音降噪方法和装置 |
CN113571078A (zh) * | 2021-01-29 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 噪声抑制方法、装置、介质以及电子设备 |
CN113241081A (zh) * | 2021-04-25 | 2021-08-10 | 华南理工大学 | 一种基于梯度反转层的远场说话人认证方法及系统 |
WO2022253003A1 (zh) * | 2021-05-31 | 2022-12-08 | 华为技术有限公司 | 语音增强方法及相关设备 |
CN114898762A (zh) * | 2022-05-07 | 2022-08-12 | 北京快鱼电子股份公司 | 基于目标人的实时语音降噪方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116229986A (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10580430B2 (en) | Noise reduction using machine learning | |
CN110956957B (zh) | 语音增强模型的训练方法及系统 | |
CN108877823B (zh) | 语音增强方法和装置 | |
WO2022141868A1 (zh) | 一种提取语音特征的方法、装置、终端及存储介质 | |
CN110556125B (zh) | 基于语音信号的特征提取方法、设备及计算机存储介质 | |
JP7486266B2 (ja) | 深層フィルタを決定するための方法および装置 | |
CN108806707A (zh) | 语音处理方法、装置、设备及存储介质 | |
CN114203163A (zh) | 音频信号处理方法及装置 | |
CN108922517A (zh) | 训练盲源分离模型的方法、装置及存储介质 | |
CN108922514B (zh) | 一种基于低频对数谱的鲁棒特征提取方法 | |
CN113838471A (zh) | 基于神经网络的降噪方法、系统、电子设备及存储介质 | |
CN114242043A (zh) | 语音处理方法、设备、存储介质及程序产品 | |
CN111226277B (zh) | 语音增强方法及装置 | |
CN116229986B (zh) | 一种针对声纹鉴定任务的语音降噪方法及装置 | |
CN111667842B (zh) | 音频信号处理方法及装置 | |
CN116564329A (zh) | 实时通话声纹降噪方法及电子设备和存储介质 | |
CN114220451A (zh) | 音频消噪方法、电子设备和存储介质 | |
Upadhyay et al. | Robust recognition of English speech in noisy environments using frequency warped signal processing | |
CN114220449A (zh) | 一种语音信号降噪处理方法、装置和计算机可读介质 | |
Lu et al. | Temporal modulation normalization for robust speech feature extraction and recognition | |
CN113611319A (zh) | 基于语音成分实现的风噪抑制方法、装置、设备及系统 | |
CN118571212B (zh) | 一种智能耳机的语音识别方法、装置、电子设备及存储介质 | |
CN110648681A (zh) | 语音增强的方法、装置、电子设备及计算机可读存储介质 | |
CN111724808A (zh) | 音频信号处理方法、装置、终端及存储介质 | |
CN117877506B (zh) | 一种对语音内容进行增强的对抗性攻击方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |