CN115035911B - 噪声生成模型训练方法、装置、设备及介质 - Google Patents
噪声生成模型训练方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115035911B CN115035911B CN202210614008.1A CN202210614008A CN115035911B CN 115035911 B CN115035911 B CN 115035911B CN 202210614008 A CN202210614008 A CN 202210614008A CN 115035911 B CN115035911 B CN 115035911B
- Authority
- CN
- China
- Prior art keywords
- noise
- category
- expected
- future
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 title claims abstract description 43
- 230000004927 fusion Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 abstract description 14
- 230000000875 corresponding effect Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 238000005070 sampling Methods 0.000 description 11
- 238000009792 diffusion process Methods 0.000 description 9
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 8
- 230000001364 causal effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本申请实施例公开了一种噪声生成模型训练方法、装置、设备及介质。该方法包括:获取预设时间步长的参考噪声数据和期望噪声类别;将参考噪声数据和期望噪声类别输入至预设的噪声生成模型,以根据预设时间步长和期望噪声类别,生成期望类别特征,并提取参考噪声数据中的预测噪声特征,且根据期望类别特征和预测噪声特征,生成预设时间步长对应未来时刻的未来噪声数据;根据未来时刻的标准噪声数据和未来噪声数据,调整噪声生成模型中的待训练参数。本申请实施例提高了生成噪声的准确度,以及实现了对车辆行驶过程中噪声场景的全面覆盖。
Description
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种噪声生成模型训练方法、装置、设备及介质。
背景技术
车载场景下,噪声环境复杂多变,为了提高车载语音识别的准确率和模型的鲁棒性,需要对训练的语音数据添加噪声。
现有的噪声获取方式通常由人工采集不同场景、不同参数的纯噪声数据,经过复制、填充后添加到语音信号中,进行数据增广,以扩大语音识别、语音唤醒、降噪等模型的训练数据量。然而,这种方式收集的噪声种类有限,噪声样本数据特征局限性大,准确度低,且不能最大程度覆盖汽车行驶过程产生的各种噪声,从而导致语音识别模型的鲁棒性较低,进而导致语音识别模型的识别率下降。
发明内容
本申请提供一种噪声生成模型训练方法、装置、设备及介质,以实现对车辆行驶过程中噪声场景的全面覆盖。
根据本申请的一方面,提供了一种噪声生成模型训练方法,该方法包括:
获取预设时间步长的参考噪声数据和期望噪声类别;
将所述参考噪声数据和所述期望噪声类别输入至预设的噪声生成模型,以根据所述预设时间步长和所述期望噪声类别,生成期望类别特征,并提取所述参考噪声数据中的预测噪声特征,且根据所述期望类别特征和所述预测噪声特征,生成所述预设时间步长对应未来时刻的未来噪声数据;
根据所述未来时刻的标准噪声数据和所述未来噪声数据,调整所述噪声生成模型中的待训练参数。
根据本申请的另一方面,提供了一种噪声生成模型训练装置,其特征在于,包括:
噪声数据获取模块,用于获取预设时间步长的参考噪声数据和期望噪声类别;
噪声数据生成模块,用于将所述参考噪声数据和所述期望噪声类别输入至预设的噪声生成模型,以根据所述预设时间步长和所述期望噪声类别,生成期望类别特征,并提取所述参考噪声数据中的预测噪声特征,且根据所述期望类别特征和所述预测噪声特征,生成所述预设时间步长对应未来时刻的未来噪声数据;
参数调整模块,用于根据所述未来时刻的标准噪声数据和所述未来噪声数据,调整所述噪声生成模型中的待训练参数。
根据本申请的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例所述的噪声生成模型训练方法或噪声生成方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本申请任一实施例所述的噪声生成模型训练方法或噪声生成方法。
本申请实施例方案通过将参考噪声数据和期望噪声类别输入至预设的噪声生成模型,以根据预设时间步长和期望噪声类别,生成期望类别特征,并提取参考噪声数据中的预测噪声特征,且根据期望类别特征和所述预测噪声特征,生成预设时间步长对应未来时刻的未来噪声数据;根据未来时刻的标准噪声数据和未来噪声数据,调整噪声生成模型中的待训练参数。上述方案通过基于参考噪音数据进行建模,利用不同场景下噪声得到期望噪声类别,以训练噪声生成模型,提高了训练得到的噪声生成模型的准确度。实现了噪声样本数据特征多样性,从而实现了在后续使用该噪声生成模型时,能够最大程度覆盖汽车行驶过程产生的各种噪声,从而便于后续应用在语音识别模型中时,能够提高语音识别模型的鲁棒性,进而提高语音识别模型的识别率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是根据本申请实施例一提供的一种噪声生成模型训练方法的流程图;
图1B是根据本申请实施例一提供的一种基于噪声生成的WaveNet神经网络模型的结构示意图;
图1C是根据本申请实施例一提供的一种修正后的WaveNet神经网络模型的结构示意图;
图1D是根据本申请实施例一提供的一种因果卷积层的结构示意图;
图1E是根据本申请实施例一提供的一种扩散卷积层的结构示意图;
图2是根据本申请实施例二提供的一种噪声生成方法的流程图;
图3是根据本申请实施例三提供的一种噪声生成模型训练装置的结构示意图;
图4是根据本申请实施例四提供的一种噪声生成装置的结构示意图;
图5是根据本申请实施例五提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1A为本申请实施例一提供了一种噪声生成模型训练方法的流程图,本实施例可适用于对各种类别噪声的生成进行模型训练的情况,该方法可以由噪声生成模型训练装置来执行,该噪声生成模型训练装置可以采用硬件和/或软件的形式实现,该噪声生成模型训练装置可配置于电子设备中。如图1A所示,该方法包括:
S110、获取预设时间步长的参考噪声数据和期望噪声类别。
其中,预设时间步长的参考噪声数据可以是在不同采样点下获取的噪声幅度数据。例如,预设时间步长为T,则参考噪声数据可以是T时间范围内,不同采样点对应的噪声幅值。若预设时间步长T内存在t个采样点,每个采样点分别对应噪声幅值,则参考噪声数据可以是1*t维度的噪声幅值数据,例如,参考噪声数据可以是(A1,A2,……,At),其中,A1,A2,……,At分别表示在1~t采样点下的噪声幅值。
其中,期望噪声类别可以是车辆行驶过程中,基于不同车载噪声场景下的分类类别。期望噪声类别可以由相关技术人员进行预先设定,为不同车载噪声场景赋予不同的期望噪声类别。例如,期望噪声类别可以如表1所示。
表1
示例性的,参考噪声数据的获取方式可以是在指定的代表车型上,通过音频采集器采集不同期望噪声类别下的噪声。噪声的采集要求可以是每段噪声时长不短于30分钟,采集频率为48K,采集深度为16bit。其中,参考噪声数据可以是原始采集得到的噪声数据,也可以是升维处理后的噪声数据;相应的,期望噪声类别可以是直接采集得到的噪声类别,也可以是对采集得到的噪声进行升维处理后的噪声类别。
S120、将参考噪声数据和期望噪声类别输入至预设的噪声生成模型,以根据预设时间步长和期望噪声类别,生成期望类别特征,并提取参考噪声数据中的预测噪声特征,且根据期望类别特征和预测噪声特征,生成预设时间步长对应未来时刻的未来噪声数据。
其中,噪声生成模型可以是能够进行噪声生成的网络模型,具体可以由相关技术人员进行预先设定。例如,噪声生成模型可以采用WaveNet神经网络模型。
WaveNet神经网络模型是一种能够生成原始音频波形的深度神经网络,其是一个完全的概率自回归模型,即基于之前已经生成的所有噪声样本,来预测当前噪声样本的概率分布,每一个噪声样本都依赖于之前时间步的所有噪声样本。其中,概率自回归模型如下:
其中,xt表示待预测的未来噪声样本,x1,…,xt-1表示已有的噪声样本。需要说明的是,在训练模型的过程中,未来噪声样本是已知的,即若存在噪声样本数据x1,…,xt-1,xt,则可以将xt作为未来噪声样本。其中,C为期望噪声类别。
如图1B所示的基于噪声生成的WaveNet神经网络模型的结构示意图。其中,升维模块可以是对期望噪声类别和/或参考噪声数据进行上采样操作,具体可以是将一维数据转换为多维数据。示例性的,若噪声生成模型输入的参考噪声数据维度为1*8192,则经过升维模块处理后的数据维度可以为512*8192。若模型输入的参考噪声数据维度为1*1,则经过升维模块处理后的数据维度可以为512*1。
需要说明的是,期望噪声类别在输入至升维模块进行升维之前,需要进行编码操作,以实现对期望噪声类别的文本特征的特征提取。例如,可以采用One-Hot独热编码的方式,对期望噪声类别进行编码,并将编码后的期望噪声类别输入至升维模块进行上采样操作。
可以理解的是,由于期望噪声类别为全局条件,在噪声生成模型训练和模型预测过程中,对同一类别噪音信息是保持稳定的,不会随着输入数据的变化而变化,即在模型训练阶段对于未来的噪声数据是已知的。因此,One-hot编码的期望噪声类别,经过升维模块将维度扩展到与输入的参考噪声数据维度相同后,可以无需经过期望类别特征提取模块进行特征提取,从而在模型拟合效果不变的情况下,提高噪声生成模型的训练效率,减少模型复杂度,加快模型收敛速度。
在一个可选实施例中,根据预设时间步长和期望噪声类别,生成期望类别特征,包括:将预设时间步长数量个期望噪声类别组合,得到期望类别特征。
复制预设时间步长个升维后的期望噪声类别,得到期望类别特征。修正后的WaveNet神经网络模型的结构示意图可以如图1C所示。将原始的WaveNet神经网络模型中的期望类别特征提取模块进行剔除,即不再对期望噪声类别进行特征提取,而是直接将预设时间步长数量个期望噪声类别进行复制至残差块,得到期望类别特征。
本可选实施例通过采用预设时间步长数量个期望噪声类别组合,得到期望类别特征,无需经过期望类别特征提取模块进行特征提取,实现了在模型拟合效果不变的情况下,提高了模型训练效率,减少了模型复杂度,加快了模型收敛速度。
其中,预测噪声特征提取模块的作用在于对升维后的参考噪声数据进行特征提取,具体可以是提取噪声数据中的携带的未来噪声数据的特征。预测噪声特征提取模块可以是扩张的因果卷积层(Dilated Casual Convolutions)。通过使用因果卷积,可以确保模型在对数据建模的时候不会颠倒数据的顺序。
噪声生成模型在t时刻输出的预测p(xt+1|x1,…,xt),不会依赖任何一个未来时刻的噪声数据xt+1,xt+2,……,xT,如图1D所示的因果卷积层的结构示意图。在训练阶段,由于真实的噪声数据x的所有时间步都是已知的,因此可以并行的进行所有时间步的条件概率预测。在模型生成阶段(测试阶段),所预测结果是顺序串行的。当每一个样本被预测后,其被传回网络用于下一个样本的预测。因果卷积存在的一个问题是它需要很多层,或者需要很大的卷积核来增大其感受野。因此,本实施例使用扩大卷积(dilated convolution)使感受野增大几个数量级,同时不会显著增加计算成本。
扩散卷积(也称为带洞卷积),是卷积核在应用于面积比自身长度大的数据上进行卷积时跳过输入值的卷积方法。这与通过扩大卷积核并且用零补齐的效果相同,但是扩散卷积方式效率更高。相比于正常卷积,扩散卷积可以有效地使网络执行粗粒度的卷积操作。这与下采样或者跳步卷积类似,只是这里的输出保持与输入同样大小。作为特例,扩散因子为1时就是标准卷积。
如图1E所示的扩散卷积的结构示意图,图1E绘制了扩散因子为1,2,4的扩散因果卷积。其中,X0,X1,……,XT为输入的T时间步长下的不同采样点对应的噪声数据。扩散因子随着深度增加而指数增长,使感受野呈指数级放大。例如每一组1,2,4,…,512这样的卷积模块都拥有1024大小的感受野,可视为一个与1*1024卷积等价的更高效的判别式卷积操作,将多组这样的卷积模块堆叠起来会进一步增大模型容量和感受野大小。
通过预测噪声特征提取模块提取到期望类别特征,通过复制模块组合预设时间步长数量的期望噪声类别从而得到期望类别特征后,根据期望类别特征和预测噪声特征,生成预设时间步长对应未来时刻的未来噪声数据。
在一个可选实施例中,根据期望类别特征和预测噪声特征,生成预设时间步长对应未来时刻的未来噪声数据,包括:提取预测噪声特征中与期望类别特征相关的类别关联特征;根据类别关联特征,生成预设时间步长对应未来时刻的未来噪声数据。
其中,类别关联特征可以是预测噪声特征和期望类别特征中的具有相关性的特征。未来时刻的未来噪声数据可以是期望的得到的噪声数据。
示例性的,可以从预测噪声特征中提取与期望类别特征的至少一中特征相关的数据,作为类别关联特征。通过激活模块将类别关联特征进行激活处理,并由卷及处理模块进行卷积后输出至预测模块。其中,预测模块用于对未来时刻的未来噪声数据进行预测。
需要说明的是,噪声生成模型中残差块的数量可以为至少一个。若噪声生成模型中的残差块数量有且仅有一个,则类别关联特征进行卷积后可以直接输出至预测模块,从而由预测模块对未来时刻的未来噪声数据进行预测。若噪声生成模型中的残差块数量为至少两个,则类别关联特征在当前残差块进行进行卷积处理后,输入至下一个残差块,同时输出值预测模块,且下一个残差块将其输出结果同样输出至预测模块,由预测模块对至少两个残差块的输出结果进行加权处理,从而对未来时刻的未来噪声数据进行预测。
本可选实施例通过提取预测噪声特征中与期望类别特征相关的类别关联特征,在对未来噪声数据预测的过程中考虑类别关联特性,并根据类别关联特征,生成预设时间步长对应未来时刻的未来噪声数据,提高了生成的未来噪声数据的准确定。
在一个可选实施例中,提取预测噪声特征中与期望类别特征相关的类别关联特征,包括:将预测噪声特征和期望类别特征融合,得到类别噪声融合特征;提取类别噪声融合特征中与期望类别特征相关的类别关联特征。
示例性的,可以将预测噪声特征和期望类别特征中相同的特征进行融合,得到类别噪声融合特征。通过激活模块提取类别噪声融合特征中与期望类别特征相关的类别关联特征。其中,预测噪声特征和期望类别特征的特征数量可以为至少两个。
在一个可选实施例中,类别噪声融合特征包括至少两个类别噪声融合特征分量;相应的,将预测噪声特征和期望类别特征融合,得到类别噪声融合特征,包括:依通道将预测噪声特征等量拆分为至少两个预测噪声特征分量,以及,依通道将期望类别特征等量拆分为至少两个期望类别特征分量;其中,预测噪声特征分量的数量与期望类别特征分量相同;将相同通道的预测噪声特征分量与期望类别特征分量融合,得到相应类别噪声融合特征分量。
示例性的,预测噪声特征可以等量拆分为至少两个预测噪声特征分量,期望类别特征可以等量拆分为至少两个期望类别特征分量。并且,预测噪声特征分量的数量与期望类别特征分量相同。如图1B所示的基于噪声生成的WaveNet神经网络模型的结构示意图中,期望类别特征被等量拆分成期望特征a和期望特征b。预测噪声特征被等量拆分成噪声特征a和噪声特征b。
示例性的,若预测噪声特征的维度为512*8192,则等量拆分得到的噪声特征a的维度为256*8192,等量拆分得到的噪声特征b的维度为256*8192。同理,若期望类别特征的维度为512*1,则等量拆分得到的期望特征a的维度为256*1,等量拆分得到的期望特征b的维度为256*1。
将具有关联性的,相同通道的期望类别特征分量和预测噪声特征分量进行融合,得到相应类别噪声融合特征分量。例如,延续前例,将期望特征a和噪声特征a进行融合,得到a类别噪声融合特征分量;将期望特征b和噪声特征v进行融合,得到b类别噪声融合特征分量。
本可选实施例通过依通道将预测噪声特征等量拆分为至少两个预测噪声特征分量,以及将期望类别特征等量拆分为至少两个期望类别特征分量,并将相同通道的预测噪声特征分量与期望类别特征分量融合,得到相应类别噪声融合特征分量,实现了对类别噪声融合特征分量的确定,提高了对类别噪声融合特征的确定准确度,从而提高了对未来噪声预测数据的生成准确度。
S130、根据未来时刻的标准噪声数据和未来噪声数据,调整噪声生成模型中的待训练参数。
待训练参数可以包括噪声生成模型训练过程中生成的期望类别特征参数和预测噪声特征参数等。示例性的,可以根据未来时刻的标准噪声数据和未来噪声数据,基于预设的损失函数,调整噪声生成模型中的待训练参数。通过预设的损失函数,减小模型未来噪声数据与未来时刻的标准噪声数据的差距,从而使得模型预测值逐渐逼近预测值,达到模型训练效果较优的目的。
可选的,在噪声生成模型的待训练参数调整过程中,还可以通过动态调整学习率的方式,调整噪声生成模型的模型训练效果。
本申请实施例方案通过将参考噪声数据和期望噪声类别输入至预设的噪声生成模型,以根据预设时间步长和期望噪声类别,生成期望类别特征,并提取参考噪声数据中的预测噪声特征,且根据期望类别特征和所述预测噪声特征,生成预设时间步长对应未来时刻的未来噪声数据;根据未来时刻的标准噪声数据和未来噪声数据,调整噪声生成模型中的待训练参数。上述方案通过基于参考噪音数据进行建模,利用不同场景下噪声得到期望噪声类别,以训练噪声生成模型,提高了训练得到的噪声生成模型的准确度。实现了噪声样本数据特征多样性,从而实现了在后续使用该噪声生成模型时,能够最大程度覆盖汽车行驶过程产生的各种噪声,从而便于后续应用在语音识别模型中时,能够提高语音识别模型的鲁棒性,进而提高语音识别模型的识别率。
实施例二
图2为本申请实施例二提供了一种噪声生成方法的流程图,本实施例可适用于对各种类别噪声的进行生成的情况,该方法可以由噪声生成装置来执行,该噪声生成装置可以采用硬件和/或软件的形式实现,该噪声生成装置可配置于电子设备中。如图2所示,该方法包括:
S210、获取预设时间步长的参考噪声数据和期望噪声类别。
其中,预设时间步长的参考噪声数据可以是在不同采样点下获取的噪声幅度数据。例如,预设时间步长为T,则参考噪声数据可以是T时间范围内,不同采样点对应的噪声幅值。若预设时间步长T内存在t个采样点,每个采样点分别对应噪声幅值,则参考噪声数据可以是1*t维度的噪声幅值数据,例如,参考噪声数据可以是(A1,A2,……,At),其中,A1,A2,……,At分别表示在1~t采样点下的噪声幅值。
其中,期望噪声类别可以是车辆行驶过程中,基于不同车载噪声场景下的分类类别。期望噪声类别可以由相关技术人员进行预先设定,为不同车载噪声场景赋予不同的期望噪声类别。
示例性的,可以获取至少一组预设时间补偿的参考噪声数据,每组参考噪声数据对应的期望噪声类别可以相同,也可以不同。
S220、将期望噪声类别作为期望类别特征,并提取参考噪声数据中的预测噪声特征。
将获取预设时间步长的参考噪声数据和期望噪声类别输入至训练好的噪声生成模型中;噪声生成模型对参考噪声数据和期望噪声类别进行升维处理后,将升维后的期望噪声类别通过复制模块,得到期望类别特征,并根据期望类别特征,从升维后的参考噪声数据中提取预测噪声特征。
示例性的,将预设时间步长数量个期望噪声类别组合,得到期望类别特征;对参考噪声数据中与期望类别特征相关的预测噪声特征进行提取。
S230、根据期望类别特征和预测噪声特征,生成预设时间步长对应未来时刻的未来噪声数据。
示例性的,将预测噪声特征和期望类别特征融合,得到类别噪声融合特征;提取类别噪声融合特征中与期望类别特征相关的类别关联特征;根据类别关联特征,生成预设时间步长对应未来时刻的未来噪声数据。
本申请实施例获取预设时间步长的参考噪声数据和期望噪声类别;将期望噪声类别作为期望类别特征,并提取参考噪声数据中的预测噪声特征;根据期望类别特征和预测噪声特征,生成预设时间步长对应未来时刻的未来噪声数据。上述方案通过采用噪声生成模型对未来噪声数据进行生成,实现了对不同车载场景下噪声的生成,且生成的噪声能够最大程度覆盖汽车行驶过程的各种噪声场景,从而便于后续更好的将生成的噪声数据应用在各语音识别模型中。
实施例三
图3为本申请实施例三提供的一种噪声生成模型训练装置的结构示意图。如图3所示,本申请实施例所提供的一种噪声生成模型训练装置,该装置可适用于对各种类别噪声的生成进行模型训练的情况,该装置可采用软件和/或硬件的方式实现。如图3所示,该装置具体包括:噪声数据获取模块301、噪声数据生成模块302和参数调整模块303。其中,
噪声数据获取模块301,用于获取预设时间步长的参考噪声数据和期望噪声类别;
噪声数据生成模块302,用于将所述参考噪声数据和所述期望噪声类别输入至预设的噪声生成模型,以根据所述预设时间步长和所述期望噪声类别,生成期望类别特征,并提取所述参考噪声数据中的预测噪声特征,且根据所述期望类别特征和所述预测噪声特征,生成所述预设时间步长对应未来时刻的未来噪声数据;
参数调整模块303,用于根据所述未来时刻的标准噪声数据和所述未来噪声数据,调整所述噪声生成模型中的待训练参数。
本申请实施例方案通过将参考噪声数据和期望噪声类别输入至预设的噪声生成模型,以根据预设时间步长和期望噪声类别,生成期望类别特征,并提取参考噪声数据中的预测噪声特征,且根据期望类别特征和所述预测噪声特征,生成预设时间步长对应未来时刻的未来噪声数据;根据未来时刻的标准噪声数据和未来噪声数据,调整噪声生成模型中的待训练参数。上述方案通过基于参考噪音数据进行建模,利用不同场景下噪声得到期望噪声类别,以训练噪声生成模型,提高了训练得到的噪声生成模型的准确度。实现了噪声样本数据特征多样性,从而实现了在后续使用该噪声生成模型时,能够最大程度覆盖汽车行驶过程产生的各种噪声,从而便于后续应用在语音识别模型中时,能够提高语音识别模型的鲁棒性,进而提高语音识别模型的识别率。
可选的,所述噪声数据生成模块302,包括:
类别特征确定单元,用于将所述预设时间步长数量个期望噪声类别组合,得到所述期望类别特征。
可选的,所述噪声数据生成模块302,包括:
关联特征提取单元,用于提取所述预测噪声特征中与所述期望类别特征相关的类别关联特征;
噪声数据生成单元,用于根据所述类别关联特征,生成所述预设时间步长对应未来时刻的未来噪声数据。
可选的,关联特征提取单元,包括:
融合特征确定子单元,用于将所述预测噪声特征和所述期望类别特征融合,得到类别噪声融合特征;
关联特征提取子单元,用于提取所述类别噪声融合特征中与所述期望类别特征相关的类别关联特征。
可选的,所述类别噪声融合特征包括至少两个类别噪声融合特征分量;
相应的,融合特征确定子单元,具体用于:
依通道将所述预测噪声特征等量拆分为至少两个预测噪声特征分量,以及,依通道将所述期望类别特征等量拆分为至少两个期望类别特征分量;其中,所述预测噪声特征分量的数量与所述期望类别特征分量相同;
将相同通道的预测噪声特征分量与期望类别特征分量融合,得到相应类别噪声融合特征分量。
上述噪声生成模型训练装置可执行本申请任意实施例所提供的噪声生成模型训练方法,具备执行各噪声生成模型训练方法相应的功能模块和有益效果。
实施例四
图4为本申请实施例四提供的一种噪声生成装置的结构示意图。如图4所示,本申请实施例所提供的一种噪声生成装置,该装置可适用于对各种类别噪声的进行生成的情况,该装置可采用软件和/或硬件的方式实现。如图4所示,该装置具体包括:噪声数据获取模块401、噪声特征提取模块402和噪声数据生成模块403。
本申请实施例获取预设时间步长的参考噪声数据和期望噪声类别;将期望噪声类别作为期望类别特征,并提取参考噪声数据中的预测噪声特征;根据期望类别特征和预测噪声特征,生成预设时间步长对应未来时刻的未来噪声数据。上述方案通过采用噪声生成模型对未来噪声数据进行生成,实现了对不同车载场景下噪声的生成,且生成的噪声能够最大程度覆盖汽车行驶过程的各种噪声场景,从而便于后续更好的将生成的噪声数据应用在各语音识别模型中。
上述噪声生成装置可执行本申请任意实施例所提供的噪声生成方法,具备执行各噪声生成方法相应的功能模块和有益效果。
实施例五
图5示出了可以用来实施本申请的实施例的电子设备50的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,电子设备50包括至少一个处理器51,以及与至少一个处理器51通信连接的存储器,如只读存储器(ROM)52、随机访问存储器(RAM)53等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器51可以根据存储在只读存储器(ROM)52中的计算机程序或者从存储单元58加载到随机访问存储器(RAM)53中的计算机程序,来执行各种适当的动作和处理。在RAM 53中,还可存储电子设备50操作所需的各种程序和数据。处理器51、ROM 52以及RAM 53通过总线54彼此相连。输入/输出(I/O)接口55也连接至总线54。
电子设备50中的多个部件连接至I/O接口55,包括:输入单元56,例如键盘、鼠标等;输出单元57,例如各种类型的显示器、扬声器等;存储单元58,例如磁盘、光盘等;以及通信单元59,例如网卡、调制解调器、无线通信收发机等。通信单元59允许电子设备50通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器51可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器51的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器51执行上文所描述的各个方法和处理,例如噪声生成模型训练方法或噪声生成方法。
在一些实施例中,噪声生成模型训练方法或噪声生成方法方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元58。在一些实施例中,计算机程序的部分或者全部可以经由ROM 52和/或通信单元59而被载入和/或安装到电子设备50上。当计算机程序加载到RAM 53并由处理器51执行时,可以执行上文描述的噪声生成模型训练方法或噪声生成方法方法的一个或多个步骤。备选地,在其他实施例中,处理器51可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行噪声生成模型训练方法或噪声生成方法方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (9)
1.一种噪声生成模型训练方法,其特征在于,包括:
获取预设时间步长的参考噪声数据和期望噪声类别;
将所述参考噪声数据和所述期望噪声类别输入至预设的噪声生成模型,以根据所述预设时间步长和所述期望噪声类别,生成期望类别特征,并提取所述参考噪声数据中的预测噪声特征,且根据所述期望类别特征和所述预测噪声特征,生成所述预设时间步长对应未来时刻的未来噪声数据;其中,所述预测噪声特征为对参考噪声数据中携带未来噪声数据进行提取的特征;所述根据所述期望类别特征和所述预测噪声特征,生成所述预设时间步长对应未来时刻的未来噪声数据,包括:提取所述预测噪声特征中与所述期望类别特征相关的类别关联特征;根据所述类别关联特征,生成所述预设时间步长对应未来时刻的未来噪声数据;
根据所述未来时刻的标准噪声数据和所述未来噪声数据,调整所述噪声生成模型中的待训练参数。
2.根据权利要求1所述的方法,所述根据所述预设时间步长和所述期望噪声类别,生成期望类别特征,包括:
将所述预设时间步长数量个期望噪声类别组合,得到所述期望类别特征。
3.根据权利要求1所述的方法,其特征在于,所述提取所述预测噪声特征中与所述期望类别特征相关的类别关联特征,包括:
将所述预测噪声特征和所述期望类别特征融合,得到类别噪声融合特征;
提取所述类别噪声融合特征中与所述期望类别特征相关的类别关联特征。
4.根据权利要求3所述的方法,其特征在于,所述类别噪声融合特征包括至少两个类别噪声融合特征分量;
相应的,所述将所述预测噪声特征和所述期望类别特征融合,得到类别噪声融合特征,包括:
依通道将所述预测噪声特征等量拆分为至少两个预测噪声特征分量,以及,依通道将所述期望类别特征等量拆分为至少两个期望类别特征分量;其中,所述预测噪声特征分量的数量与所述期望类别特征分量相同;
将相同通道的预测噪声特征分量与期望类别特征分量融合,得到相应类别噪声融合特征分量。
5.一种噪声生成方法,其特征在于,包括:
获取预设时间步长的参考噪声数据和期望噪声类别;
将所述期望噪声类别作为期望类别特征,并提取所述参考噪声数据中的预测噪声特征;其中,所述预测噪声特征为对参考噪声数据中携带未来噪声数据进行提取的特征;
根据所述期望类别特征和所述预测噪声特征,生成所述预设时间步长对应未来时刻的未来噪声数据,包括:提取所述预测噪声特征中与所述期望类别特征相关的类别关联特征;根据所述类别关联特征,生成所述预设时间步长对应未来时刻的未来噪声数据。
6.一种噪声生成模型训练装置,其特征在于,包括:
噪声数据获取模块,用于获取预设时间步长的参考噪声数据和期望噪声类别;
噪声数据生成模块,用于将所述参考噪声数据和所述期望噪声类别输入至预设的噪声生成模型,以根据所述预设时间步长和所述期望噪声类别,生成期望类别特征,并提取所述参考噪声数据中的预测噪声特征,且根据所述期望类别特征和所述预测噪声特征,生成所述预设时间步长对应未来时刻的未来噪声数据;其中,所述预测噪声特征为对参考噪声数据中携带未来噪声数据进行提取的特征;所述噪声数据生成模块,包括:关联特征提取单元,用于提取所述预测噪声特征中与所述期望类别特征相关的类别关联特征;噪声数据生成单元,用于根据所述类别关联特征,生成所述预设时间步长对应未来时刻的未来噪声数据;
参数调整模块,用于根据所述未来时刻的标准噪声数据和所述未来噪声数据,调整所述噪声生成模型中的待训练参数。
7.一种噪声生成装置,其特征在于,包括:
噪声数据获取模块,用于获取预设时间步长的参考噪声数据和期望噪声类别;
噪声特征提取模块,用于将所述期望噪声类别作为期望类别特征,并提取所述参考噪声数据中的预测噪声特征;其中,所述预测噪声特征为对参考噪声数据中携带未来噪声数据进行提取的特征;
噪声数据生成模块,用于根据所述期望类别特征和所述预测噪声特征,生成所述预设时间步长对应未来时刻的未来噪声数据,包括:提取所述预测噪声特征中与所述期望类别特征相关的类别关联特征;根据所述类别关联特征,生成所述预设时间步长对应未来时刻的未来噪声数据。
8. 一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的噪声生成模型训练方法或权利要求5所述的噪声生成方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-4中任一项所述的噪声生成模型训练方法或权利要求5所述的噪声生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210614008.1A CN115035911B (zh) | 2022-05-31 | 2022-05-31 | 噪声生成模型训练方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210614008.1A CN115035911B (zh) | 2022-05-31 | 2022-05-31 | 噪声生成模型训练方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115035911A CN115035911A (zh) | 2022-09-09 |
CN115035911B true CN115035911B (zh) | 2023-05-02 |
Family
ID=83123020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210614008.1A Active CN115035911B (zh) | 2022-05-31 | 2022-05-31 | 噪声生成模型训练方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115035911B (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1996759A (zh) * | 2006-01-05 | 2007-07-11 | 横河电机株式会社 | 频率合成器 |
CN109344751B (zh) * | 2018-09-20 | 2021-10-08 | 上海工程技术大学 | 一种车内噪声信号的重构方法 |
CN109616100B (zh) * | 2019-01-03 | 2022-06-24 | 百度在线网络技术(北京)有限公司 | 语音识别模型的生成方法及其装置 |
US11335329B2 (en) * | 2019-08-28 | 2022-05-17 | Tata Consultancy Services Limited | Method and system for generating synthetic multi-conditioned data sets for robust automatic speech recognition |
CN111313985B (zh) * | 2020-03-05 | 2022-05-13 | 北京振中电子技术有限公司 | 宽带电力线载波通信模拟噪声生成方法、装置及电子设备 |
CN111667428A (zh) * | 2020-06-05 | 2020-09-15 | 北京百度网讯科技有限公司 | 基于自动搜索的噪声生成方法和装置 |
CN113409798A (zh) * | 2021-06-22 | 2021-09-17 | 科大讯飞股份有限公司 | 车内含噪语音数据生成方法、装置以及设备 |
CN113822321B (zh) * | 2021-07-12 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 生成模型训练方法和装置、噪声尺度生成方法和计算设备 |
-
2022
- 2022-05-31 CN CN202210614008.1A patent/CN115035911B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115035911A (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378784B (zh) | 视频标签推荐模型的训练方法和确定视频标签的方法 | |
JP2023531350A (ja) | サンプル画像を増分する方法、画像検出モデルの訓練方法及び画像検出方法 | |
CN115409855B (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN110633717A (zh) | 一种目标检测模型的训练方法和装置 | |
JP2023535108A (ja) | ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN114792355B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN114495977B (zh) | 语音翻译和模型训练方法、装置、电子设备以及存储介质 | |
CN115170815A (zh) | 视觉任务处理及模型训练的方法、装置、介质 | |
CN114913325A (zh) | 语义分割方法、装置及计算机程序产品 | |
CN111931494B (zh) | 用于生成预测信息的方法、装置、电子设备和介质 | |
CN115035911B (zh) | 噪声生成模型训练方法、装置、设备及介质 | |
CN117056728A (zh) | 一种时间序列生成方法、装置、设备和存储介质 | |
CN116230001A (zh) | 一种混合语音分离方法、装置、设备及存储介质 | |
CN113240780B (zh) | 生成动画的方法和装置 | |
CN115578261A (zh) | 图像处理方法、深度学习模型的训练方法、装置 | |
CN114862720A (zh) | 画布还原方法、装置、电子设备和计算机可读介质 | |
CN113610856A (zh) | 训练图像分割模型和图像分割的方法和装置 | |
CN114501112B (zh) | 用于生成视频笔记的方法、装置、设备、介质和产品 | |
CN116776926B (zh) | 一种对话模型的优化部署方法、装置、设备及介质 | |
CN111526054B (zh) | 用于获取网络的方法及装置 | |
CN117934646A (zh) | 一种图像生成方法、装置、设备及存储介质 | |
CN116361658A (zh) | 模型训练方法、任务处理方法、装置、电子设备及介质 | |
CN115206296A (zh) | 语音识别的方法和装置 | |
CN116386657A (zh) | 一种音频信号的分离方法、装置、设备及存储介质 | |
CN118035557A (zh) | 资源推送方法、装置、电子设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |