CN116189698A - 语音增强模型的训练方法及装置、存储介质及设备 - Google Patents
语音增强模型的训练方法及装置、存储介质及设备 Download PDFInfo
- Publication number
- CN116189698A CN116189698A CN202111427538.7A CN202111427538A CN116189698A CN 116189698 A CN116189698 A CN 116189698A CN 202111427538 A CN202111427538 A CN 202111427538A CN 116189698 A CN116189698 A CN 116189698A
- Authority
- CN
- China
- Prior art keywords
- ith
- training
- impulse response
- room impulse
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000004044 response Effects 0.000 claims abstract description 152
- 238000005070 sampling Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 11
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
本申请提供了一种语音增强模型的训练方法及装置、存储介质及设备,涉及语音增强技术领域。该方法包括:获取N组训练样本,第i组训练样本包括:第i训练数据和第i目标数据;通过N组训练样本训练语音增强模型;获取第i组训练样本包括:获取第i房间冲激响应以及第i纯净语音数据,对第i房间冲激响应以及第i纯净语音数据进行处理,得到第i组训练样本中的第i训练数据;根据第i房间冲激响应确定第i控制曲线,将第i控制曲线与第i房间冲激响应相乘,得到第i’房间冲激响应;第i纯净语音数据与第i’房间冲激响应进行卷积,得到第i组训练样本中的第i目标数据。本申请能够减小信号处理后的失真以及解决训练数据和目标数据的对齐问题。
Description
技术领域
本公开涉及语音增强技术领域,尤其涉及一种语音增强模型的训练方法及装置、可读存储介质及电子设备。
背景技术
语音增强的目的是藉由各种演算方法来提高语音质量,从含有干扰声的语音信号中尽可能提取纯净的语音信号。常用的语音增强算法有如下几种:基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强模型的训练方法、基于独立分量分析的语音增强模型的训练方法、基于神经网络的语音增强模型的训练方法。
而在利用神经网络进行语音增强模型的训练时,会不可避免地对语音信号造成较多的损伤,从而语音质量下降。此外,当使用纯净语音信号与房间冲击响应生成训练数据时,会导致目标信号超前输入信号,最终可能就会导致模型变得不可实现从而无法训练。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种语音增强模型的训练方法及装置、可读存储介质及电子设备,至少在一定程度上克服由于相关技术中去混响时没有保留早期混响,且模型复杂度较高,对语音损伤较大的缺点。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一个方面,提供一种语音增强模型的训练方法,上述方法包括:获取N组训练样本,其中,第i组训练样本包括:第i训练数据和第i目标数据,其中,N为正整数,i为不大于N的正整数;通过上述N组训练样本训练语音增强模型;其中,获取上述第i组训练样本,包括:获取第i房间冲激响应以及第i纯净语音数据,对上述第i房间冲激响应以及上述第i纯净语音数据进行处理,得到上述第i组训练样本中的第i训练数据;根据上述第i房间冲激响应确定第i控制曲线,将上述第i控制曲线与上述第i房间冲激响应相乘,得到第i’房间冲激响应,其中,i’为不大于N的正整数;上述第i纯净语音数据与上述第i’房间冲激响应进行卷积,得到上述第i组训练样本中的第i目标数据。
在本公开的一个实施例中,上述第i房间冲激响应中包括多个采样点;上述第i控制曲线包括多个控制值,上述控制值的个数与上述第i房间冲激响应的采样点的个数相同;上述第i’房间冲激响应,当尾部的采样点值为零或绝对值很小时,可选择进行尾部截断处理。
在本公开的一个实施例中,上述根据上述第i房间冲激响应确定第i控制曲线,包括:确定上述第i房间冲激响应中,上述每个采样点的绝对值,其中上述绝对值中包含多个数值相等的最大值;在上述第i房间冲激响应中,将上述绝对值中的第一个最大值所对应的采样点,确定为峰值位置点;将上述第i控制曲线中与上述第i房间冲激响应的峰值位置点对应的控制值,确定为上述第i控制曲线的主控制值。
在本公开的一个实施例中,上述根据上述第i房间冲激响应确定第i控制曲线,上述方法还包括:通过参数调整上述第i控制曲线的控制值,以确定上述第i控制曲线;其中,除上述主控制值外的其他控制值均不大于上述主控制值。
在本公开一个实施例中,上述对上述第i房间冲激响应以及上述第i纯净语音数据进行处理,得到上述第i组训练样本中的第i训练数据,包括:将第i纯净语音数据与第i房间冲激响应进行卷积,得到第i组训练样本中的第i训练数据。
在本公开一个实施例中,上述对上述第i房间冲激响应以及上述第i纯净语音数据进行处理,得到上述第i组训练样本中的第i训练数据,包括:将第i纯净语音数据与第i房间冲激响应进行卷积,并与噪声数据相加,得到第i组训练样本中的第i训练数据。
在本公开一个实施例中,上述对上述第i房间冲激响应以及上述第i纯净语音数据进行处理,得到上述第i组训练样本中的第i训练数据,包括:将第i纯净语音数据与噪声数据相加,并与第i房间冲激响应进行卷积,得到第i组训练样本中的第i训练数据。
根据本公开的第二个方面,提供一种语音增强模型的训练装置,上述装置包括:获取模块,用于:获取N组训练样本,其中,第i组训练样本包括:第i训练数据和第i目标数据,其中,N为正整数,i为不大于N的正整数;训练模块,用于:通过上述N组训练样本训练语音增强模型;其中,上述获取模块,具体用于:获取第i房间冲激响应以及第i纯净语音数据,对上述第i房间冲激响应以及上述第i纯净语音数据进行处理,得到上述第i训练数据;根据上述第i房间冲激响应确定第i控制曲线,将上述第i控制曲线与上述第i房间冲激响应相乘,得到第i’房间冲激响应,其中,i’为不大于N的正整数;上述第i纯净语音数据与上述第i’房间冲激响应进行卷积,得到上述第i组训练样本中的第i目标数据。
根据本公开的第三个方面,提供一种终端,包括:存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现所述第一个方面的语音增强模型的训练方法。
根据本公开的第四个方面,提供一种可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现所述第一个方面的语音增强模型的训练方法。
本公开的实施例所提供的语音增强模型的训练方法及装置、可读存储介质及电子设备,具备以下技术效果:
在本公开实施例提供的语音增强模型的训练过程中,获取N组训练样本,第i组训练样本包括:第i训练数据和第i目标数据;通过N组训练样本训练语音增强模型;获取第i组训练样本包括:获取第i房间冲激响应以及第i纯净语音数据,对第i房间冲激响应以及第i纯净语音数据进行处理,得到第i组训练样本中的第i训练数据;根据第i房间冲激响应确定第i控制曲线,将第i控制曲线与第i房间冲激响应相乘,得到第i’房间冲激响应,其中,i’为不大于N的正整数;第i纯净语音数据与第i’房间冲激响应进行卷积,得到第i组训练样本中的第i目标数据。本申请能够减小信号处理后的失真以及解决训练数据和目标数据的对齐问题,且能保留早期混响。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了本公开实施例提供一种语音增强模型的训练方法的流程图;
图2示出了语音增强模型的示意图;
图3示出了控制曲线的示意图;
图4示出了第i房间冲激响应的示意图;
图5示出了第i’房间冲激响应的示意图;
图6示意性示出了本公开一实施例提供的语音增强模型的训练装置的结构图;
图7示意性示出了本公开一实施例提供的一种电子设备的框图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施例方式作进一步地详细描述。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本公开中的具体含义。此外,在本公开的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面,将结合附图及实施例对本示例实施方式中的语音增强模型的训练方法的各个步骤进行更详细的说明。
其中,图1示意性示出了根据本公开一示例性的实施例中语音增强模型的训练方法的流程图。参考图1,该方法包括以下步骤:
S101,获取第i组训练样本,共得到N组训练样本,其中,第i组训练样本包括:第i训练数据和第i目标数据,其中,N为正整数,i为不大于N的正整数。
S102,通过N组训练样本训练语音增强模型。
S11,其中,获取第i组训练样本,包括:获取第i房间冲激响应以及第i纯净语音数据,对第i房间冲激响应以及第i纯净语音数据进行处理,得到第i组训练样本中的第i训练数据。
S12,根据第i房间冲激响应确定第i控制曲线,将第i控制曲线与第i房间冲激响应相乘,得到第i’房间冲激响应,其中,i’为不大于N的正整数;第i纯净语音数据与第i’房间冲激响应进行卷积,得到第i组训练样本中的第i目标数据。
其中,上述第i控制曲线与上述第i房间冲激响应相乘,是指用第i控制曲线中的每个控制点的控制值,去乘以第i房间冲激响应中对应的采样点。显而易见的,对上述第i控制曲线中控制值为1的控制点,可以选择省掉相乘的操作。同理,对上述第i房间冲激响应中没有做操作或不需要做操作的采样点,对应的控制点的控制值可视为1。在实现时,控制值为1的控制点可以选择省略,即上述第i控制曲线的点数和上述第i房间冲激响应的样本数不一定严格相等,只是广义上的相等。
根据卷积定理,上述第i’房间冲激响应,当尾部的采样点值为零或绝对值很小时,可选择进行尾部截断处理,尾部截断后其采样点数相应减少。显而易见的,当使用对第i房间冲激响应做尾部截断处理的方法得到第i’房间冲激响时,可视为将第i控制曲线中对应的尾部控制点的控制值置为0。
在图1所示实施例提供的语音增强模型的训练过程中,获取N组训练样本,第i组训练样本包括:第i训练数据和第i目标数据,其中,N为正整数,i为不大于N的正整数;通过N组训练样本训练语音增强模型;获取第i组训练样本包括:获取第i房间冲激响应以及第i纯净语音数据,对第i房间冲激响应以及第i纯净语音数据进行处理,得到第i组训练样本中的第i训练数据;根据第i房间冲激响应确定第i控制曲线,将第i控制曲线与第i房间冲激响应相乘,得到第i’房间冲激响应,其中,i’为不大于N的正整数;第i纯净语音数据与第i’房间冲激响应进行卷积,得到第i组训练样本中的第i目标数据。本申请能够减小信号处理后的失真以及解决训练数据和目标数据的对齐问题,且能根据需要保留一定程度的早期混响。
图2示出了语音增强模型的示意图。以下结合图2对图1所示实施例所包含的各个步骤的具体实施方式进行详细介绍。本实施例提供了一种语音增强模型的训练方法,具体实施方法如下:
在S101中,获取第i组训练样本,得到N组训练样本,其中,第i组训练样本包括:第i训练数据和第i目标数据,其中,N为正整数,i为不大于N的正整数。
在S102中,通过N组训练样本训练语音增强模型。
在S11中,其中,获取第i组训练样本,包括:获取第i房间冲激响应以及第i纯净语音数据,对第i房间冲激响应以及第i纯净语音数据进行处理,得到第i组训练样本中的第i训练数据。
在示例性的实施例中,如图2所示,在样本库中随机获取第i纯净语音数据和第i房间冲激响应,并对第i纯净语音数据和第i房间冲激响应进行卷积处理,可得到第i训练数据。第i训练数据与下述实施例所得到的第i目标数据将一起作为第i组训练样本。
在S12中,根据第i房间冲激响应确定第i控制曲线,将第i控制曲线与第i房间冲激响应相乘,得到第i’房间冲激响应,其中,i’为不大于N的正整数;第i纯净语音数据与第i’房间冲激响应进行卷积,得到第i组训练样本中的第i目标数据。
在示例性的实施例中,首先获取第i组训练样本,第i组训练样本包括第i训练数据和第i目标数据,多个第i组训练样本形成N组训练样本。其中,获取第i目标数据的方法如下:如图2所示,获取到第i纯净语音数据和第i房间冲激响应后,执行S12。具体执行方法参照下述实施例:
在示例性的实施例中,获取上述第i纯净语音数据以及第i房间冲激响应后,确定第i房间冲激响应中第一个绝对值最大的采样点,即为峰值位置点,第i控制曲线中也需要存在一个峰值点与之对应,因此,将第i控制曲线中,与第i房间冲激响应的峰值位置点对应的控制值点记为主控制点p,主控制点p对应的控制值记为主控制值。
混响包括早期反射声和晚期反射声。在去除混响的过程中,早期反射声可以起到增强语音信号的效果,因此可以对其进行保留。因此,可以通过参数来控制房间冲激响应中混响的时长以及强度,以对不同阶段的混响进行有选择地保留。
在示例性的实施例中,可以通过预设的参数生成第i控制曲线,乘以第i房间冲激响应中各采样点的值来生成一个只有直达声和/或只有早期混响的第i’房间冲激响应。由于声音传播需要一定时间,且直达声和早期反射声的强度比晚期反射声的强度大,因此,起初第i’房间冲激响应的采样点幅度为零或非常小,之后迅速增大,在直达声和/或早期反射声时期幅度达到最大值,在晚期反射声时期幅度又逐渐减小。因此,第i控制曲线的控制值也可以按此规律变化,上述主控制点p即位于直达声或早期反射声附近,第i控制曲线中的控制值均不大于主控制点p。
在示例性的实施例中,可以通过参数来调整上述第i控制曲线中的控制值,以达到控制第i’房间冲激响应中直达声、早期混响、晚期混响的幅度、位置和时长。在调整时,可以根据需求来对第i控制曲线中的控制值进行调整,即第i控制曲线的形状可以随意变化,本实施例中不做限制,下面仅举其中二三例来做示例性的说明,并不代表全部的可行方案,例如还可以使用类似正态分布或高斯分布的钟形曲线。
图3示出了控制曲线的示意图。在示例性的实施例中,由于起初第i’房间冲激响应的采样点幅度为零或非常小,因此可以忽略不计,对于此部分可以将控制值设置为0,如图3所示的左侧虚线部分。主控制点p之前的第i’房间冲激响应的幅度呈快速上升趋势,控制此段时,可以将第i控制曲线记为m,将m中的一段记为m1,对控制值参数进行调整,例如将m1预设为一段指数上升的曲线,如图3所示。之后,第i’房间冲激响应进入直达声和早期反射声的较早阶段,将控制曲线m中的一段曲线记为m2,可对第i’房间冲激响应的这一段幅度不做改变,即将m2段的控制点的控制值全部设置为1,此时m2为一条直线,如图3所示。
在示例性的实施例中,在主控制点p之后,第i控制曲线用来控制早期混响及晚期混响。将第i控制曲线中控制早期混响的这段曲线记为m3,也对m3的幅度不做改变,即将m3段控制点的控制值全部设置为1,此时m3为一条直线,如图3所示。将第i控制曲线中控制晚期混响的一段曲线记为m4,同样可对控制参数进行调整,例如将m4预设为一段指数衰减的曲线,如图3所示。对于m3的持续时间长度,可设置为需要保留的早期混响的时间长度,m4的持续时间长度,可设置为需要的混响时间长度,例如T60。在m4后,对应于第i’房间冲激响应的幅度逐渐衰减为0的部分,可将控制曲线中对应的控制值参数直接设置为0,如图3所示的右侧虚线部分。根据上述实施例,生成如图3所示的曲线。
在示例性的实施例中,m1段的参数也可以设置为全0(或设置m1段的时长为0),或者将m1变为呈线性变化的直线。m4段的参数也可以设置为全0(或设置m4段的时长为0),或者将m4变为线性衰减的直线。m2段和m3段也可以设置为呈线性变化的直线,或者设置为指数曲线。
在示例性的实施例中,除上述示例外,对于m1、m2、m3、m4的形状与长度(即对第i’房间冲激响应不同阶段的幅度与时长的控制)可以视实际情况进行调整,并无既定规则。但为保证语音增强的效果,主控制点p所对应的控制值仍需保持为第i控制曲线中的最大值,其余控制点的控制值均不大于主控制值。另外,对第i控制曲线的分段并非局限于m1、m2、m3、m4四段,可以任意增加或减少段数,在此不作限制。
在示例性的实施例中,生成第i控制曲线后,将上述第i控制曲线中控制点对应的控制值,与第i房间冲激响应中对应采样点的值相乘,得到控制后的第i’房间冲激响应。
在示例性的实施例中,得到第i’房间冲激响应后,可以将尾部样本值幅度为零或幅度非常小的部分样本进行删去截断处理,处理后第i’房间冲激响应的样本数相应的变少。根据卷积定理,这样的处理不会影响卷积的结果,且可以节省存储和计算资源。
图4示出了第i房间冲激响应的示意图,图5示出了第i’房间冲激响应的示意图。如图4所示的第i房间冲激响应,其混响持续时间较长,且头部和尾部存在一定的噪声。利用上述实施例所述的方法,可对第i房间冲激响应中的晚期混响进行去除,保留早期混响。利用第i控制曲线对第i房间冲激响应进行处理后,得到的第i’房间冲激响应如图5所示,第i’房间冲激响应中仅保留了直达声和早期混响,并去除了第i房间冲激响应中头部和尾部的噪声。
在示例性的实施例中,将上述第i纯净语音数据与第i’房间冲激响应进行卷积,即得到第i目标数据。第i目标数据为语音增强模型训练时的目标标签数据。
在示例性的实施例中,将第i纯净语音数据和第i房间冲激响应进行卷积,得到上述第i组训练样本中的第i训练数据,与第i目标数据一同作为神经网络的第i组训练样本,输入至神经网络中,如图2所示。由此利用第i组训练样本不断训练语音增强模型,直到模型的输出能够达到优良的语音增强结果。
在示例性的实施例中,对于输入至神经网络的第i训练数据,除了带有加了房间冲激响应的混响语音外,还可加入噪声。例如在上述实施例中,第i组训练样本中的第i训练数据还包括:将第i纯净语音数据与第i房间冲激响应进行卷积,并与噪声数据相加,得到第i训练数据;或者,将第i纯净语音数据与噪声数据相加,并与第i房间冲激响应进行卷积,得到第i训练数据。是否需要加入噪声根据模型是否需要降噪能力而定。除此之外,为了使训练样本更加丰富,还可以对第i纯净语音数据与噪声数据进行幅度的随机缩放。
在示例性的实施例中,在对混响和噪声进行去除处理时,对所使用的信号增强方式不做限定,例如,可以是理想二值掩模(Ideal Binary Mask,IBM)、理想比值掩模(IdealRatio Mask,IRM)、理想幅度掩模(Ideal Amplitude Mask,IAM)、相移掩模(Phase-Shifting Mask,PSM)、复数理想比例掩模(Complex Ideal Ratio Mask,CIRM)等任意一种方式。
在示例性的实施例中,上述神经网络可以是深度神经网络(Deep NeuralNetworks,DNN)、卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Networks,RNN)、长短期记忆神经网络(Long Short-Term Networks,LSTM)等等,在此不做限制。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
其中,图6示出了根据本公开一示例性的实施例中语音增强模型的训练装置的结构图。请参见图6,该图所示的语音增强模型的训练装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分,还可以作为独立的模块集成于服务器上。
在示例性的实施例中,上述语音增强模型的训练装置600包括:获取模块601以及训练模块602,其中:
获取模块601,用于:获取N组训练样本,其中,第i组训练样本包括:第i训练数据和第i目标数据,其中,N为正整数,i为不大于N的正整数;
训练模块602,用于:通过N组训练样本训练语音增强模型;
其中,获取模块601,具体用于:获取第i房间冲激响应以及第i纯净语音数据,对第i房间冲激响应以及第i纯净语音数据进行处理,得到第i组训练样本中的第i训练数据;根据第i房间冲激响应确定第i控制曲线,将第i控制曲线与第i房间冲激响应相乘,得到第i’房间冲激响应;其中,i’为不大于N的正整数;第i纯净语音数据与第i’房间冲激响应进行卷积,得到第i组训练样本中的第i目标数据。
需要说明的是,上述实施例提供的数据同步装置在语音增强模型的训练方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音增强模型的训练装置与语音增强模型的训练方法的实施例属于同一构思,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的语音增强模型的训练方法的实施例,这里不再赘述。
上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
本公开实施例还提供了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一实施例方法的步骤。其中,可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
本公开实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一实施例方法的步骤。
图7示意性示出了根据本公开一示例性的实施例中电子设备的结构图。请参见图7所示,电子设备700包括有:处理器701和存储器702。
本公开实施例中,处理器701为计算机系统的控制中心,可以是实体机的处理器,也可以是虚拟机的处理器。处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable GateArray,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。
在本公开实施例中,上述处理器701具体用于:
获取N组训练样本,其中,第i组训练样本包括:第i训练数据和第i目标数据,其中,N为正整数,i为不大于N的正整数;通过上述N组训练样本训练语音增强模型;其中,获取上述第i组训练样本,包括:获取第i房间冲激响应以及第i纯净语音数据,对上述第i房间冲激响应以及上述第i纯净语音数据进行处理,得到上述第i组训练样本中的第i训练数据;根据上述第i房间冲激响应确定第i控制曲线,将上述第i控制曲线与上述第i房间冲激响应相乘,得到第i’房间冲激响应,其中,i’为不大于N的正整数;上述第i纯净语音数据与上述第i’房间冲激响应进行卷积,得到上述第i组训练样本中的第i目标数据。
进一步地,在本公开一个实施例中,上述第i房间冲激响应中包括多个采样点;上述第i控制曲线包括多个控制值,上述控制值的个数与上述第i房间冲激响应的采样点的个数相同;上述第i’房间冲激响应,当尾部的采样点值为零或绝对值很小时,可选择进行尾部截断处理。
可选的,上述第i控制曲线中,上述根据上述第i房间冲激响应确定第i控制曲线,包括:确定上述第i房间冲激响应中,上述每个采样点的绝对值,其中上述绝对值中包含多个数值相等的最大值;在上述第i房间冲激响应中,将上述绝对值中的第一个最大值所对应的采样点,确定为峰值位置点;将上述第i控制曲线中与上述第i房间冲激响应的峰值位置点对应的控制值,确定为上述第i控制曲线的主控制值。
可选的,上述根据上述第i房间冲激响应确定第i控制曲线,上述方法还包括:通过参数调整上述第i控制曲线的控制值,以确定上述第i控制曲线;其中,除上述主控制点外,其他上述控制点对应的控制值均不大于上述主控制值。
可选的,上述对上述第i房间冲激响应以及上述第i纯净语音数据进行处理,得到上述第i组训练样本中的第i训练数据,包括:将上述第i纯净语音数据与上述第i房间冲激响应进行卷积,得到第i组训练样本中的第i训练数据。
可选的,上述对上述第i房间冲激响应以及上述第i纯净语音数据进行处理,得到上述第i组训练样本中的第i训练数据,包括:将上述第i纯净语音数据与上述第i房间冲激响应进行卷积,并与噪声数据相加,得到上述第i组训练样本中的第i训练数据。
可选的,上述对上述第i房间冲激响应以及上述第i纯净语音数据进行处理,得到上述第i组训练样本中的第i训练数据,包括:将上述第i纯净语音数据与噪声数据相加,并与上述第i房间冲激响应进行卷积,得到上述第i组训练样本中的第i训练数据。
存储器702可以包括一个或多个可读存储介质,该可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在本公开的一些实施例中,存储器702中的非暂态的可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本公开实施例中的方法。
一些实施例中,电子设备700还包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:显示屏704、摄像头707和音频电路706中的至少一种。
外围设备接口703可被用于将输入/输出(Input/Output,I/O)相关的至少一个外围设备连接到处理器701和存储器702。在本公开的一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在本公开的一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现。本公开实施例对此不作具体限定。
显示屏704用于显示用户界面(UserInterface,UI)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏704是触摸显示屏时,显示屏704还具有采集在显示屏704的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏704还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在本公开的一些实施例中,显示屏704可以为一个,设置电子设备700的前面板;在本公开的另一些实施例中,显示屏704可以为至少两个,分别设置在电子设备700的不同表面或呈折叠设计;在本公开的再一些实施例中,显示屏704可以是柔性显示屏,设置在电子设备700的弯曲表面上或折叠面上。甚至,显示屏704还可以设置成非矩形的不规则图形,也即异形屏。显示屏704可以采用液晶显示屏(Liquid CrystalDisplay,LCD)、有机发光二极管(OrganicLight-EmittingDiode,OLED)等材质制备。
摄像头707用于采集图像或视频。可选地,摄像头707包括前置摄像头和后置摄像头。通常,前置摄像头设置在电子设备的前面板,后置摄像头设置在电子设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(VirtualReality,VR)拍摄功能或者其它融合拍摄功能。在本公开的一些实施例中,摄像头707还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路706可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。
电源707用于为电子设备700中的各个组件进行供电。电源707可以是交流电、直流电、一次性电池或可充电电池。当电源707包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
本公开实施例中示出的电子设备结构框图并不构成对电子设备700的限定,电子设备700可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在本公开中,术语“第一”、“第二”等仅用于描述的目的,而不能理解为指示或暗示相对重要性或顺序;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
本公开的描述中,需要理解的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本公开和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本公开的限制。
以上上述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,依本公开权利要求所作的等同变化,仍属本公开所涵盖的范围。
Claims (10)
1.一种语音增强模型的训练方法,其特征在于,包括:
获取N组训练样本,其中,第i组训练样本包括:第i训练数据和第i目标数据,其中,N为正整数,i为不大于N的正整数;
通过所述N组训练样本训练语音增强模型;
其中,获取所述第i组训练样本,包括:
获取第i房间冲激响应以及第i纯净语音数据,对所述第i房间冲激响应以及所述第i纯净语音数据进行处理,得到所述第i组训练样本中的第i训练数据;
根据所述第i房间冲激响应确定第i控制曲线,将所述第i控制曲线与所述第i房间冲激响应相乘,得到第i’房间冲激响应,其中,i’为不大于N的正整数;所述第i纯净语音数据与所述第i’房间冲激响应进行卷积,得到所述第i组训练样本中的第i目标数据。
2.根据权利要求1所述的语音增强模型的训练方法,其特征在于,
所述第i房间冲激响应包括多个采样点;
所述第i控制曲线包括多个控制值,所述控制值的个数与所述第i房间冲激响应的采样点的个数相同;
所述第i’房间冲激响应,当尾部的采样点值为零或绝对值很小时,可选择进行尾部截断处理。
3.根据权利要求2所述的语音增强模型的训练方法,其特征在于,所述根据所述第i房间冲激响应确定第i控制曲线,包括:
确定所述第i房间冲激响应中,所述每个采样点的绝对值,其中所述绝对值中包含多个数值相等的最大值;
在所述第i房间冲激响应中,将所述绝对值中的第一个最大值所对应的采样点,确定为峰值位置点;
将所述第i控制曲线中与所述第i房间冲激响应的峰值位置点对应的控制值,确定为所述第i控制曲线的主控制值。
4.根据权利要求3所述的语音增强模型的训练方法,其特征在于,所述根据所述第i房间冲激响应确定第i控制曲线,所述方法还包括:
通过参数调整所述第i控制曲线的控制值,以确定所述第i控制曲线;其中,除所述主控制值外的其他控制值均不大于所述主控制值。
5.根据权利要求1所述的语音增强模型的训练方法,其特征在于,所述对所述第i房间冲激响应以及所述第i纯净语音数据进行处理,得到所述第i组训练样本中的第i训练数据,包括:
将所述第i纯净语音数据与所述第i房间冲激响应进行卷积,得到第i组训练样本中的第i训练数据。
6.根据权利要求5所述的语音增强模型的训练方法,其特征在于,所述对所述第i房间冲激响应以及所述第i纯净语音数据进行处理,得到所述第i组训练样本中的第i训练数据,包括:
将所述第i纯净语音数据与所述第i房间冲激响应进行卷积,并与噪声数据相加,得到所述第i组训练样本中的第i训练数据。
7.根据权利要求5所述的语音增强模型的训练方法,其特征在于,所述对所述第i房间冲激响应以及所述第i纯净语音数据进行处理,得到所述第i组训练样本中的第i训练数据,包括:
将所述第i纯净语音数据与噪声数据相加,并与所述第i房间冲激响应进行卷积,得到所述第i组训练样本中的第i训练数据。
8.一种语音增强模型的训练装置,其特征在于,包括:
获取模块,用于:获取N组训练样本,其中,第i组训练样本包括:第i训练数据和第i目标数据,其中,N为正整数,i为不大于N的正整数;
训练模块,用于:通过所述N组训练样本训练语音增强模型;
其中,所述获取模块,具体用于:获取第i房间冲激响应以及第i纯净语音数据,对所述第i房间冲激响应以及所述第i纯净语音数据进行处理,得到所述第i组训练样本中的第i训练数据;根据所述第i房间冲激响应确定第i控制曲线,将所述第i控制曲线与所述第i房间冲激响应相乘,得到第i’房间冲激响应,其中,i’为不大于N的正整数;所述第i纯净语音数据与所述第i’房间冲激响应进行卷积,得到所述第i组训练样本中的第i目标数据。
9.一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的语音增强模型的训练方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音增强模型的训练方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111427538.7A CN116189698A (zh) | 2021-11-25 | 2021-11-25 | 语音增强模型的训练方法及装置、存储介质及设备 |
PCT/CN2022/129232 WO2023093477A1 (zh) | 2021-11-25 | 2022-11-02 | 语音增强模型的训练方法及装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111427538.7A CN116189698A (zh) | 2021-11-25 | 2021-11-25 | 语音增强模型的训练方法及装置、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116189698A true CN116189698A (zh) | 2023-05-30 |
Family
ID=86431208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111427538.7A Pending CN116189698A (zh) | 2021-11-25 | 2021-11-25 | 语音增强模型的训练方法及装置、存储介质及设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116189698A (zh) |
WO (1) | WO2023093477A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9420393B2 (en) * | 2013-05-29 | 2016-08-16 | Qualcomm Incorporated | Binaural rendering of spherical harmonic coefficients |
US9761223B2 (en) * | 2014-10-13 | 2017-09-12 | Ford Global Technologies, Llc | Acoustic impulse response simulation |
CN110930991B (zh) * | 2018-08-30 | 2023-08-25 | 阿里巴巴集团控股有限公司 | 一种远场语音识别模型训练方法及装置 |
CN111341303B (zh) * | 2018-12-19 | 2023-10-31 | 北京猎户星空科技有限公司 | 一种声学模型的训练方法及装置、语音识别方法及装置 |
CN109523999B (zh) * | 2018-12-26 | 2021-03-23 | 中国科学院声学研究所 | 一种提升远场语音识别的前端处理方法和系统 |
EP4008002A1 (en) * | 2019-08-01 | 2022-06-08 | Dolby Laboratories Licensing Corporation | System and method for enhancement of a degraded audio signal |
CN111933164B (zh) * | 2020-06-29 | 2022-10-25 | 北京百度网讯科技有限公司 | 语音处理模型的训练方法、装置、电子设备和存储介质 |
-
2021
- 2021-11-25 CN CN202111427538.7A patent/CN116189698A/zh active Pending
-
2022
- 2022-11-02 WO PCT/CN2022/129232 patent/WO2023093477A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023093477A1 (zh) | 2023-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11393154B2 (en) | Hair rendering method, device, electronic apparatus, and storage medium | |
CN109961780B (zh) | 一种人机交互方法、装置、服务器和存储介质 | |
CN107220990B (zh) | 一种基于深度学习的头发分割方法 | |
JP2019128939A (ja) | ジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体 | |
CN111063342B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN111062981B (zh) | 图像处理方法、装置及存储介质 | |
CN110400575A (zh) | 通道间特征提取方法、音频分离方法和装置、计算设备 | |
AU2013273830A1 (en) | Post-processed bokeh rendering using asymmetric recursive Gaussian filters | |
CN109887494B (zh) | 重构语音信号的方法和装置 | |
EP3759692A1 (en) | Automatic rig creation process | |
CN105141587A (zh) | 一种虚拟玩偶互动方法及装置 | |
CN110827843A (zh) | 音频处理方法、装置、存储介质及电子设备 | |
WO2022042290A1 (zh) | 一种虚拟模型处理方法、装置、电子设备和存储介质 | |
EP2973427A1 (en) | Continuous interaction learning and detection in real-time | |
EP4254408A1 (en) | Speech processing method and apparatus, and apparatus for processing speech | |
JP2021517282A (ja) | ネットワークモジュール、割り当て方法及び装置、電子機器並びに記憶媒体 | |
WO2017112261A1 (en) | Technologies for robust crying detection using temporal characteristics of acoustic features | |
WO2020020375A1 (zh) | 语音处理方法、装置、电子设备及可读存储介质 | |
CN110047468A (zh) | 语音识别方法、装置及存储介质 | |
CN109955257A (zh) | 一种机器人的唤醒方法、装置、终端设备和存储介质 | |
CN111325220B (zh) | 图像生成方法、装置、设备及存储介质 | |
JP2021167977A (ja) | 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体 | |
CN115620727A (zh) | 音频处理方法、装置、存储介质及智能眼镜 | |
CN111045732A (zh) | 数据处理方法、芯片、设备及存储介质 | |
CN116189698A (zh) | 语音增强模型的训练方法及装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |