CN112652315A - 基于深度学习的汽车引擎声实时合成系统及方法 - Google Patents
基于深度学习的汽车引擎声实时合成系统及方法 Download PDFInfo
- Publication number
- CN112652315A CN112652315A CN202010767178.4A CN202010767178A CN112652315A CN 112652315 A CN112652315 A CN 112652315A CN 202010767178 A CN202010767178 A CN 202010767178A CN 112652315 A CN112652315 A CN 112652315A
- Authority
- CN
- China
- Prior art keywords
- engine
- sound
- real
- synthesized
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 35
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 35
- 238000013135 deep learning Methods 0.000 title abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 230000005236 sound signal Effects 0.000 claims abstract description 13
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 2
- 230000015654 memory Effects 0.000 claims description 2
- 238000001308 synthesis method Methods 0.000 abstract description 3
- 238000001228 spectrum Methods 0.000 description 25
- 238000012549 training Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000001343 mnemonic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本发明提供了一种基于深度学习的汽车引擎声实时合成系统及方法,以及能够实时合成引擎声的汽车。汽车引擎声实时合成方法可包括:采集实时引擎转速数据和油门踏板压力数据;将采集的实时引擎转速数据和油门踏板压力数据作为预训练的基于神经网络的能量预测模型的输入,分别预测与待合成的引擎相关联的多个声音频率的能量值;以及基于多个声音频率的预测能量值还原音频信号的相位以合成引擎声。可选地,方法进一步包括在合成的引擎声上叠加环境噪声。
Description
技术领域
本发明涉及汽车领域,更具体地,涉及一种基于深度学习的汽车引擎声实时合成系统及方法。
背景技术
引擎声是汽车上一个非常重要的特征,许多人在购买车辆时将引擎声作为需要考虑的一个方面。此外,引擎声还可以向驾驶员提示车辆的状态,许多有经验的驾驶员依靠引擎声就可以知道路况以及车辆的速度,并且可以依靠引擎声来维持稳定的车辆速度,有些经验丰富的司机甚至可以根据引擎的声音来切换档位。
近年来,随着电动汽车和混动汽车的发展,越来越多的人考虑购买更加环保的新能源汽车。然而,这些车辆没有传统汽车的汽油发动机或柴油发动机,即使有些新能源汽车车型也有着较为出色的加速性能,但却没有与之对应的、能让人兴奋的引擎声。这对人们的日常生活会造成一定的影响。一方面,驾驶员缺乏了引擎声音的指示,在某些情况下可能会误操作。一些研究也指出,缺乏引擎声反馈的驾驶员通常会低估汽车的速度。另一方面,没有声音的引擎对行人和其他车辆也会造成一定的影响,增加了发生交通事故的风险,尤其是对于有视觉障碍的病人。此外,缺乏了传统意义上的引擎声,会使得一部分驾驶员在驾驶电动汽车的时候缺乏驾驶传统汽油机或柴油机汽车时的激情和兴奋,进而也会对新能源汽车的销售前景和用户体验带来负面影响。
为了降低交通事故的风险,有些公司采用了主动发声系统(Active SoundDesign,ASD)来产生引擎声。这类系统首先通过降噪技术消除原始的电动引擎声,再通过车载音响播放出预先录制的引擎声。这类方案的缺点是预先录制的引擎声无法对应于汽车所处的各种实时状态,因此会显得不真实。况且,即使如此,这类传统方法要合成出一种引擎在不同状态和转速下的声音往往需要大量的经济成本和专业人工经验。
发明内容
提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
本发明旨在解决上述现有技术存在的问题,提出了一种基于深度学习的引擎声实时合成方法及系统,其能够实时合成引擎声,并且声音与原始引擎真实数据相似,扩大了引擎声合成的应用范围。
根据本发明的一个方面,提供了一种用于实时合成引擎声的方法,其中所述方法包括:
采集实时引擎转速数据和油门踏板压力数据;
将采集的实时引擎转速数据和油门踏板压力数据作为预训练的基于神经网络的能量预测模型的输入,分别预测与待合成的引擎相关联的多个声音频率的能量值;以及
基于所述多个声音频率的预测能量值还原音频信号的相位以合成引擎声。
根据本发明的一个实施例,所述方法还包括:在合成的引擎声上叠加环境噪声。
根据本发明的进一步实施例,所述多个声音频率至少包括:待合成的引擎的基频、半基频以及2倍基频。
根据本发明的进一步实施例,所述能量预测模型基于循环神经网络RNN,其中针对所述多个声音频率中的每一个频率,构建一个由一个长短时记忆LSTM层以及若干个完全连接的层的RNN。
根据本发明的进一步实施例,所述能量预测模型基于循环神经网络RNN,其中针对所述多个声音频率,构建一个具有相应数量个层级联的长短时记忆LSTM层的RNN。
根据本发明的进一步实施例,还原音频信号的相位基于改进的Griffin-Lim算法,其逐帧地执行Griffin-Lim算法,并且只计算频谱能量非0处对应频率的相位。
根据本发明的另一方面,提供了一种用于实时合成引擎声的系统,其中所述系统包括:
采集模块,所述采集模块被配置成采集实时引擎转速数据和油门踏板压力数据;
能量预测模块,所述能量预测模块被配置成将采集的实时引擎转速数据和油门踏板压力数据作为预训练的基于神经网络的能量预测模型的输入,分别预测与待合成的引擎相关联的多个声音频率的能量值;以及
合成模块,所述合成模块被配置成基于所述多个声音频率的预测能量值还原音频信号的相位以合成引擎声。
根据本发明的一个实施例,所述系统还包括:背景噪声模块,所述背景噪声模块被配置成在合成的引擎声上叠加环境噪声。
根据本发明的又一方面,提供了一种汽车,其中所述汽车包括:
一个或多个传感器,所述一个或多个传感器被配置成收集所述汽车的运行状态信息和数据,所述汽车的运行状态信息和数据至少包括实时引擎转速数据和油门踏板压力数据;
引擎声合成系统,所述引擎声合成系统被配置成:
将采集的实时引擎转速数据和油门踏板压力数据作为预训练的基于神经网络的能量预测模型的输入,分别预测与待合成的引擎相关联的多个声音频率的能量值;以及
基于所述多个声音频率的预测能量值还原音频信号的相位以合成引擎声;以及
车载系统,所述车载系统被配置成播放所述引擎声合成系统所合成的引擎声。
根据本发明的一个实施例,所述车载系统进一步包括人机交互设备,所述人机交互设备被配置成从用户处接收对于待合成的引擎的具体型号的选择,并且所述引擎声合成系统被进一步配置成本地或远程地获取与用户所选择的具体型号的引擎相对应的能量预测模型。
与现有技术中的方案相比,本发明所提供的基于深度学习的引擎声实时合成方法及系统至少具有以下优点:
(1)本发明的解决方案轻便、简洁,采用几小时的数据即可训练处一个引擎声合成系统;
(2)相比于传统的手工设计装置,本发明的系统只需要采集目标引擎的音频以及对应的有限几个车载动力系统关键信息,就可以在数小时内训练出一个目标引擎声的实时合成模型及装置,并且合成的引擎声带有原始引擎声的声音特征。
通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
为了能详细地理解本发明的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附图仅示出了本发明的某些典型方面,故不应被认为限定其范围,因为该描述可以允许有其它等同有效的方面。
图1是根据本发明的一个实施例的基于深度学习的实时合成引擎声的方法的示意流程图。
图2示出了引擎声录音的能量频谱的示例。
图3示出了与图2的声音片段相对应的引擎转速和油门踏板压力。
图4示出了根据本发明的一个实施例的预测的合成引擎声频谱。
图5示出了可用于本发明的能量预测模型的神经网络结构的一个示例。
图6示出了可用于本发明的能量预测模型的神经网络结构的另一示例。
图7示出了根据本发明的一个实施例的用于实时合成汽车引擎声的系统的示例结构图。
图8解说了根据本发明的实施例的汽车的示例结构图。
具体实施方式
下面结合附图详细描述本发明,本发明的特点将在以下的具体描述中得到进一步的显现。
在本说明书中,“汽车”泛指任何类型的由动力驱动的非轨道承载的车辆,包括小型乘用车(轿车)、客车、卡车、货车等等。“电动汽车”泛指纯电力驱动汽车或混合动力驱动汽车。
图1是根据本发明的一个实施例的基于深度学习的实时合成引擎声的方法100的示意流程图。
方法100开始于步骤102,采集实时引擎转速数据和油门踏板压力数据。例如,可通过安装在电动汽车上的传感器来采集当前引擎的转速以及驾驶员的脚在油门踏板上施加的压力。
接着,在步骤104,将采集的实时引擎转速数据和油门踏板压力数据作为预训练的基于神经网络的能量预测模型的输入,分别预测与待合成的引擎相关联的多个声音频率的能量值。
引擎声合成在某些方面与语音合成有一定相似,因而一些语音处理技术可应用于引擎声合成。深度学习法在语音合成中得到了广泛的应用,然而,传统的用于语音合成的深度模型过于复杂,无法用于车辆的音频系统。实际上,引擎的声音不像人类语音那么复杂,因此本发明提供了一种简单的深度模型来合成引擎音。更具体地,本发明的深度模型基于先验知识,例如基本频率(以下简称“基频”)和引擎转速RPM之间的关系,一个四冲程引擎的声音的基本频率F0可以按公式(1)来计算:
图2示出了一段时长为1分30秒的引擎声录音的能量频谱。如图2中所示,较亮的线代表了半基频、基频F0及其谐波的幅度,其中基频F0的幅度是最大的。图3示出了与该段声音相对应的引擎转速RPM和油门踏板压力POP。对比图2和图3,可以发现引擎转速RPM和油门踏板压力POP(尤其是引擎转速RPM)与基频F0的幅度之间的关系。
利用引擎声音信号的上述特点,本发明提供了一种可用于预测在不同条件下引擎声的音频信号频率能量的基于神经网络的深度模型。作为一个示例,本发明的深度模型以引擎转速RPM和油门踏板压力POP作为输入,输出半基频、基频以及2倍基频上的预测能量。然而,本领域技术人员应当理解,以上将引擎转速RPM和油门踏板压力POP作为输入仅仅是示例,可以根据需要选择其他的车辆实时状态信息(例如车速)作为补充或替代。类似地,将半基频、基频以及2倍基频上的预测能量作为输出也仅仅是示例,可以根据需要增加其他频率上的预测能量作为补充或替代。上述深度模型的训练方法将在下文中更详细地描述。
回到图1,在步骤106,基于能量预测模型所输出的各频率上的预测能量还原音频信号的相位以合成引擎声。作为一个示例,可将能量预测模块得到的能量置于对应的频带上,例如将分别对应于半基频、基频以及2倍基频的预测能量放置在相应的频带上。同时,作为一个示例,对于半基频、基频以及2倍基频以外的倍频,其能量可被赋值为真实数据的平均值。根据本发明的一个实施例,共使用了12条基频,从半基频到6倍基频)。图4示出了根据本发明的一个实施例的预测的合成引擎声频谱。
Griffin-Lim算法是一种可在已知幅度谱(或能量谱)、未知相位谱的情况下,通过迭代生成相位谱,并用已知的幅度谱和计算得出的相位谱重建语音波形的方法,其可通过帧与帧之间的关系估计相位信息,从而重建声音波形。
对于一个需要恢复相位的信号x(n),可先提取其STFT特征:
其中,m是STFT帧的索引,S是步长大小,ω是窗函数。
根据Griffin-Lim算法,迭代地用最初的信号x0(n)来更新xi(n)。x(n)是原始信号,X(mS,ω)是其STFT,而|X(mS,ω)|是其STFT的幅度。此外,xi(n)是其估计的信号,Xi(mS,ω)是其STFT,而|Xi(mS,ω)|是其STFT的幅度。
接着,可以用如下公式更新信号xi+1(n):
其中,
Griffin-Lim算法的目的是使得x(n)和xi(n)之间的距离尽可能的小。经过试验,若采用传统的Griffin-Lim算法来进行预测,大约在30次迭代后,xi(n)声音稳定,在约50次迭代之后,Griffin-Lim算法收敛,此时就可以得到一个具有完整相位的信号。然而,考虑到本发明将被应用于实时合成引擎声,这一迭代过程需要对整段频谱做操作,造成系统具有很高的延迟,另外计算量也太大,不符合实时要求。因此本发明采用的方法对传统Griffin-Lim算法进行了修改。
更具体地,传统的Griffin-Lim算法在一次迭代中将若干帧信号xi(n)作为输入并产生xi+1(n)。该传统Griffin-Lim算法通常是对一段语音进行相位的恢复,其使用STFT计算频谱,然后估计相位,再使用iSTFT将频谱还原成语音,该过程需要对整段语音反复迭代30~50次,结果才会收敛,从而得到包含完整相位的整段音频。然而,该方法每次只能合成一段语音(几十或者上百帧),在车载系统中带来高延迟,同时实时率也很难保证,并且每一段独立合成的音频时间域信号如果直接将其拼接在一起播放,拼接处会因为相位不连续而产生额外的阶跃噪声,听起来有卡顿感。
为了更自然地实时合成引擎声,本发明逐帧地执行Griffin-Lim算法。本发明的方法是对每一帧进行相位的恢复,且当前帧初始相位与上一帧的相位连续,每次只合成一帧。在相位估计步骤中,本发明只需计算少数几个谐波的相位,而不需要计算全频率的相位,也就是修改后的算法只计算频谱能量非0处对应频率的相位,这使得在每一个帧级别迭代中可减少数千次的计算。虽然同样要迭代几十次,但是由于优化后一帧的计算量非常小,可以实时合成,即在播放上一帧的时候就能合成下一帧的音频。另外,在完成一帧的迭代后,每一帧在拼接时会注意保证相位的连续,即下一帧合成完的时域信号的第一个点与上一帧合成完的最后一个点在时间域上是连续的,从而使得音频播放起来毫无卡顿感。
经过步骤106后,就能够得到一个较为干净的汽车引擎声,该汽车引擎声可随实时的引擎转速和油门踏板力度而实时合成。
作为一个可选实施例,方法100还可包括可选步骤108,在合成的引擎声上叠加环境噪声。虽然步骤106中合成的引擎声能够尽可能地还原干净的引擎声,但是对于驾驶员来说,其在驾驶舱内听到的引擎声往往并不是单纯的引擎发出的声音,而是会混杂许多环境噪声。通过分析发现,干净的引擎声与用户一般听到的引擎声相比,在声音信号的声音特征方面合成的引擎声缺乏高频部分的能量以及环境噪声。因此,本发明可通过在合成的引擎声上在时域上叠加环境噪声来获得更加自然、饱满的引擎声。
以下将描述可用于训练本发明的能量预测模型的示例方法。可通过控制油门踏板压力和引擎转速,记录下不同的引擎转速数据和油门踏板数据,以及与引擎转速数据和油门踏板数据对应的真实引擎音频数据。将半基频、基频以及2倍基频上的频谱能量作为神经网络的输出标签,将转速和踏板数据作为神经网络的输入,从而构成训练数据。
作为一个示例,引擎的音频可被降采样至4000Hz,对其作短时傅里叶变换(Short-time Fourier Transform,STFT)得到STFT特征序列,并将对应的转速和踏板数据进行归一化。作为一个示例,每一个音频的STFT特征序列的帧大小为1024,偏移为256。将所有的特征分为若干个帧,并使用滑动窗。作为一个示例,窗口大小可以为11帧。因此,每一个输入特征的帧大小为11×4,包括RPM、POP以及RPM和POP的增量。
就神经网络的结构而言,深度神经网络(DNN)和循环神经网络(RNN)都可被用来预测能量幅度。DNN是一种简单的深度模型,其仅仅由若干个完全连接的层组成。由于其简单的结构和较少的参数,因此可以在服务器上使用DNN而仅需要很低的资源。虽然DNN对于静态数据来说是一种很好的分类器,但它们不是为有序数据设计的。RNN则被预期解决这类问题,诸如机器翻译、文本到语音以及语音识别。因此,作为本发明的一个实施例,采用具有一个长短时记忆(LSTM)层以及若干个完全连接的层的RNN来预测能量幅度。图5示出了一个基本RNN结构,其由一个LSTM层和两个完全连接的层构成。针对本发明的应用场景,可3个这样的RNN来分别预测对应的半基频、基频以及两倍基频的能量值。
作为另一替代实施例,考虑到在每一个谐波之间仍然存在一些关系,而基本RNN并未提取这一信息,因此为了反映这些谐波之间的关系,本发明还可以采用另一种具有堆栈的LSTM层的RNN结构。图6示出了这一替代RNN的示例结构。如图6中所示,该RNN是一个具有3层级联的LSTM神经网络,其每一层分别输出对应的半基频、基频以及两倍基频的能量值。其中,第一层输出为半基频的能量值,该输出作为第二层的输入,来预测基频的能量值。随后,第二层输出的基频能量值,又可作为第三层的输入,来预测两倍基频上的能量值。这样,使用一个网络就可以预测不同的频率上的能量值,大大提高了效率。
通过以上的示例方式构造的神经网络经过训练可以得到与原始声音十分相似的预测结果。以下提供了对于本发明的能量预测模型的预测结果的评估方式,其中采用了均方误差(Mean Square Error,MSE)和相关系数(Correlation Coefficient)来评估神经网络的预测结果,并使用梅尔倒谱失真(Mel-cepstrum distortion,MCD)来评估最后预测的声音与原始声音的相似程度。
表1显示了神经网络预测的能量与真实值相比的均方误差和相关系数。
表1能量预测结果
表2显示了合成声音与原始声音相比较所得到的相似度结果,其中测量方法为梅尔倒谱失真(Mel-cepstrum Distortion,MCD),值越小表明相似度越接近。表2同样还显示了每个实施例所预测一帧需要花费的时间。从结果可以发现,两个实施例预测的结果相差不大,但是时间花费相差了接近一倍。
表2 MCD以及预测一帧的时间
可以理解的,针对不同汽车厂商的不同车型所采用的不同引擎,可训练不同的模型。因此,由于本发明所设计的深度模型在训练时的资源消耗量和花费时间方面都被很好地控制,若需要针对一个新的要模拟的引擎训练一个新的模型,一般声音采集过程和数据训练过程都只需几个小时,因此只需花费不到1天的时间就可以训练完成。
图7示出了根据本发明的一个实施例的用于实时合成汽车引擎声的系统700的示例结构图。如图7中所示,系统700包括采集模块702、能量预测模块704、以及合成模块706。
采集模块702可被配置成实时采集引擎的转速数据以及油门踏板的压力数据。作为一个示例,采集模块702可从车载系统中采集车辆的各种运行状态信息和数据,包括但不限于引擎转速、汽车车速、踏板压力、油耗等信息。
能量预测模块704可被配置成实时预测引擎声的能量。如之前所描述的,能量预测模块704可基于由采集模块702采集的实时引擎转速数据和油门踏板数据,将其作为预训练的能量预测模型的输入,并输出与该输入数据相对应的预测频谱能量。可选地,能量预测模块704中可包括针对不同车型和不同引擎的多个预训练模型,使得可以根据用户想要模拟的特定引擎加载相应的模型,从而给出相应的预测。
合成模块706可被配置成实时合成引擎声的相位并输出纯净的引擎声。如之前所描述的,合成模块706可使用改进的Griffin-Lim算法将能量预测模块输出的预测频谱能量作为输入,重建每一时刻频率对应的相位信息,并合成出引擎声音的波形信号。例如,合成模块706可在得到相位后,可以直接将频谱还原成时域信号,从而得到连续纯净的引擎声。
可选地,系统700还可包括背景噪声模块708,用于在合成的引擎声上叠加背景噪声,使得引擎声更加饱满。作为一个示例,背景噪声模块708可使用采集模块702中所采集的数据作为输入,根据车载信号的变化率,在时域上重建背景噪声。具体地,训练数据中怠速时的一小段音频主要包含两个部分,一是怠速引擎声,二是其他背景噪声。在实时合成的测试阶段,可把事先截取好的一段训练数据中的怠速音频片段,根据测试时实际的引擎转速与怠速时的引擎转速的比值来对怠速音频片段进行重采样,达到频谱整体搬移的效果,从而使怠速音频片段中的基频与当前转速下的基频匹配。不过,这样频谱搬移后的噪声同时包含了原有怠速条件下引擎声和其他噪声的频谱搬移版本,由于本发明已经通过神经网络更为准确地预测了当前条件下的引擎声,因此不能直接把频谱搬移后的怠速噪声与神经网络合成后的纯引擎声直接相加。作为一个示例,可将频谱搬移后的噪声通过STFT转换到频谱,也把神经网络和Griffin-Lim算法合成的纯引擎声转换到频谱,在频谱上把后者能量非0所对应的频率位置(即半频、基频、倍频等频率点)的能量在相同位置替换到前者的频谱上,再将其转换为音频,使得最终的引擎声更为饱满。
图8解说了根据本发明的实施例的汽车800的示例结构图。汽车800可以是诸如纯电动汽车或混合动力汽车之类的新能源汽车。汽车800可包括引擎声合成系统802。引擎声合成系统802可以是诸如图7中所描述的用于实时合成汽车引擎声的系统700。汽车800可进一步包括一个或多个传感器804,其被配置为收集车辆的各种运行状态信息和数据,包括但不限于引擎声合成系统802实时合成引擎声所需要获取的数据,包括但不限于引擎转速和油门踏板压力等信息。汽车800还包括车载系统806,用于播放引擎声合成系统802输出的引擎声,例如可经由车载的扬声器系统来播放实时合成的引擎声。
另外,车载系统806还进一步包括人机交互设备,可用于例如经由中控屏告知用户能够选择其想要模拟的引擎的具体型号并接收其选择结果,类似地,这一选择过程也可以通过语音智能助手的形式来实现。用户的选择将被提供给引擎声合成系统802,使其本地或远程地加载与用户选择的引擎的具体型号相应的能量预测模型。
此外,本领域技术人员可以理解,虽然在图8中将引擎声合成系统802与车载系统806示为不同组件,但也可以将引擎声合成系统802实现为车载系统806的一部分。
本领域技术人员还可以理解,虽然以上描述的用于实时合成汽车引擎的方法被描述为适用于在诸如电动汽车之类的不具备传统引擎的汽车上进行引擎声音的合成和模拟,但本发明的方法并不仅限于此,而是可适用于需要模拟汽车引擎声音的任何场合。例如,在涉及汽车驾驶的电子游戏或汽车驾驶模拟教学软件中,同样可以通过实时采集的引擎转速、油门踏板压力、车速等数据作为预测模型的输入来实时合成模拟引擎声音。
以上所已经描述的内容包括所要求保护主题的各方面的示例。当然,出于描绘所要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的,但本领域内的普通技术人员应该认识到,所要求保护主题的许多进一步的组合和排列都是可能的。从而,所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。
Claims (10)
1.一种用于实时合成引擎声的方法,其特征在于,所述方法包括:
采集实时引擎转速数据和油门踏板压力数据;
将采集的实时引擎转速数据和油门踏板压力数据作为预训练的基于神经网络的能量预测模型的输入,分别预测与待合成的引擎相关联的多个声音频率的能量值;以及
基于所述多个声音频率的预测能量值还原音频信号的相位以合成引擎声。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
在合成的引擎声上叠加环境噪声。
3.如权利要求1所述的方法,其特征在于,所述多个声音频率至少包括:
待合成的引擎的基频、半基频以及2倍基频。
4.如权利要求1所述的方法,其特征在于,所述能量预测模型基于循环神经网络RNN,其中针对所述多个声音频率中的每一个频率,构建一个由一个长短时记忆LSTM层以及若干个完全连接的层的RNN。
5.如权利要求1所述的方法,其特征在于,所述能量预测模型基于循环神经网络RNN,其中针对所述多个声音频率,构建一个具有相应数量个层级联的长短时记忆LSTM层的RNN。
6.如权利要求1所述的方法,其特征在于,还原音频信号的相位基于改进的Griffin-Lim算法,其逐帧地执行Griffin-Lim算法,并且只计算频谱能量非0处对应频率的相位。
7.一种用于实时合成引擎声的系统,其特征在于,所述系统包括:
采集模块,所述采集模块被配置成采集实时引擎转速数据和油门踏板压力数据;
能量预测模块,所述能量预测模块被配置成将采集的实时引擎转速数据和油门踏板压力数据作为预训练的基于神经网络的能量预测模型的输入,分别预测与待合成的引擎相关联的多个声音频率的能量值;以及
合成模块,所述合成模块被配置成基于所述多个声音频率的预测能量值还原音频信号的相位以合成引擎声。
8.如权利要求7所述的系统,其特征在于,所述系统还包括:
背景噪声模块,所述背景噪声模块被配置成在合成的引擎声上叠加环境噪声。
9.一种汽车,其特征在于,所述汽车包括:
一个或多个传感器,所述一个或多个传感器被配置成收集所述汽车的运行状态信息和数据,所述汽车的运行状态信息和数据至少包括实时引擎转速数据和油门踏板压力数据;
引擎声合成系统,所述引擎声合成系统被配置成:
将采集的实时引擎转速数据和油门踏板压力数据作为预训练的基于神经网络的能量预测模型的输入,分别预测与待合成的引擎相关联的多个声音频率的能量值;以及
基于所述多个声音频率的预测能量值还原音频信号的相位以合成引擎声;以及
车载系统,所述车载系统被配置成播放所述引擎声合成系统所合成的引擎声。
10.如权利要求9所述的汽车,其特征在于,所述车载系统进一步包括人机交互设备,所述人机交互设备被配置成从用户处接收对于待合成的引擎的具体型号的选择,并且
所述引擎声合成系统被进一步配置成本地或远程地获取与用户所选择的具体型号的引擎相对应的能量预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010767178.4A CN112652315B (zh) | 2020-08-03 | 2020-08-03 | 基于深度学习的汽车引擎声实时合成系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010767178.4A CN112652315B (zh) | 2020-08-03 | 2020-08-03 | 基于深度学习的汽车引擎声实时合成系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112652315A true CN112652315A (zh) | 2021-04-13 |
CN112652315B CN112652315B (zh) | 2024-08-16 |
Family
ID=75346050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010767178.4A Active CN112652315B (zh) | 2020-08-03 | 2020-08-03 | 基于深度学习的汽车引擎声实时合成系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112652315B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102021122094A1 (de) | 2021-08-26 | 2023-03-02 | Ford Global Technologies, Llc | Verfahren zum Betrieb eines Kraftfahrzeugs |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005128262A (ja) * | 2003-10-23 | 2005-05-19 | Yamaha Motor Co Ltd | エンジン模擬音形成装置 |
JP2014202856A (ja) * | 2013-04-03 | 2014-10-27 | パイオニア株式会社 | エンジン音出力装置及びエンジン音出力方法 |
CN104715750A (zh) * | 2013-12-16 | 2015-06-17 | 哈曼贝克自动系统股份有限公司 | 包括引擎声音合成器的声音系统 |
US20150302845A1 (en) * | 2012-08-01 | 2015-10-22 | National Institute Of Advanced Industrial Science And Technology | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system |
KR101628692B1 (ko) * | 2014-12-15 | 2016-06-10 | 현대오트론 주식회사 | 차량의 가상 엔진음 발생 장치 및 방법 |
CN107097718A (zh) * | 2017-06-15 | 2017-08-29 | 北京普瑞众创科技有限公司 | 主动声音合成装置及交通工具 |
US20190049267A1 (en) * | 2018-03-28 | 2019-02-14 | Intel Corporation | Safety enhanced computer assisted driving method and apparatus |
CN109671422A (zh) * | 2019-01-09 | 2019-04-23 | 浙江工业大学 | 一种获取纯净语音的录音方法 |
US20190304480A1 (en) * | 2018-03-29 | 2019-10-03 | Ford Global Technologies, Llc | Neural Network Generative Modeling To Transform Speech Utterances And Augment Training Data |
WO2020010338A1 (en) * | 2018-07-05 | 2020-01-09 | Dts, Inc. | Hybrid audio synthesis using neural networks |
US20200082807A1 (en) * | 2018-01-11 | 2020-03-12 | Neosapience, Inc. | Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium |
-
2020
- 2020-08-03 CN CN202010767178.4A patent/CN112652315B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005128262A (ja) * | 2003-10-23 | 2005-05-19 | Yamaha Motor Co Ltd | エンジン模擬音形成装置 |
US20150302845A1 (en) * | 2012-08-01 | 2015-10-22 | National Institute Of Advanced Industrial Science And Technology | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system |
JP2014202856A (ja) * | 2013-04-03 | 2014-10-27 | パイオニア株式会社 | エンジン音出力装置及びエンジン音出力方法 |
CN104715750A (zh) * | 2013-12-16 | 2015-06-17 | 哈曼贝克自动系统股份有限公司 | 包括引擎声音合成器的声音系统 |
KR101628692B1 (ko) * | 2014-12-15 | 2016-06-10 | 현대오트론 주식회사 | 차량의 가상 엔진음 발생 장치 및 방법 |
CN107097718A (zh) * | 2017-06-15 | 2017-08-29 | 北京普瑞众创科技有限公司 | 主动声音合成装置及交通工具 |
US20200082807A1 (en) * | 2018-01-11 | 2020-03-12 | Neosapience, Inc. | Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium |
US20190049267A1 (en) * | 2018-03-28 | 2019-02-14 | Intel Corporation | Safety enhanced computer assisted driving method and apparatus |
US20190304480A1 (en) * | 2018-03-29 | 2019-10-03 | Ford Global Technologies, Llc | Neural Network Generative Modeling To Transform Speech Utterances And Augment Training Data |
WO2020010338A1 (en) * | 2018-07-05 | 2020-01-09 | Dts, Inc. | Hybrid audio synthesis using neural networks |
CN109671422A (zh) * | 2019-01-09 | 2019-04-23 | 浙江工业大学 | 一种获取纯净语音的录音方法 |
Non-Patent Citations (1)
Title |
---|
GRIFFIN D ET, AL.: "《Signal estimation from modified short-time Fourier transform》", 《IEEE TRANS. ACOUST. SPEECH SIGNAL PROCESS》, vol. 32, no. 2, 31 December 1984 (1984-12-31), pages 236 - 243 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102021122094A1 (de) | 2021-08-26 | 2023-03-02 | Ford Global Technologies, Llc | Verfahren zum Betrieb eines Kraftfahrzeugs |
Also Published As
Publication number | Publication date |
---|---|
CN112652315B (zh) | 2024-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Angkititrakul et al. | Modeling and adaptation of stochastic driver-behavior model with application to car following | |
Cevher et al. | Vehicle speed estimation using acoustic wave patterns | |
EP2685448B1 (en) | Engine sound synthesis | |
KR101744716B1 (ko) | 차량 및 그 제어방법 | |
CN110197670A (zh) | 音频降噪方法、装置及电子设备 | |
CN112149498B (zh) | 一种面向汽车复杂部件异响的在线智能识别系统及方法 | |
US11556792B2 (en) | Method and apparatus for predicting performance of vehicle NVH system based on deep learning | |
KR20210088240A (ko) | 무빙계 부품의 상태 진단 장치 및 방법 | |
CN208715080U (zh) | 一种模拟发动机排气声音的发声系统 | |
CN112652315B (zh) | 基于深度学习的汽车引擎声实时合成系统及方法 | |
Nor et al. | Driver identification and driver's emotion verification using KDE and MLP neural networks | |
WO2014042718A2 (en) | Methods, systems, and computer readable media for synthesizing sounds using estimated material parameters | |
Bu et al. | Adversarial signal augmentation for CNN-LSTM to classify impact noise in automobiles | |
JP2003345233A (ja) | 模擬振動発生装置及び方法 | |
Chang et al. | Personalized EV Driving Sound Design Based on the Driver's Total Emotion Recognition | |
CN213422401U (zh) | 发动机噪声采集系统 | |
Miner et al. | Using wavelets to synthesize stochastic-based sounds for immersive virtual environments | |
Rabaoui et al. | Automatic environmental noise recognition | |
CN112061046A (zh) | 一种模拟燃油车噪声分解及合成系统 | |
Chen et al. | Synthesising the sound of a car engine based on envelope decomposition and overlap smoothing | |
Falchi | Engine sound enhancement and customization based on granular synthesis | |
Khalid et al. | Real time driving data collection and driver verification using CMAC-MFCC | |
Pagi et al. | An acoustic approach for multiple fault diagnosis in motorcycles | |
Sarrazin et al. | Synthesis techniques for wind and tire-road noise | |
Koch et al. | Real-Time Capable Wind and Rolling Noise Synthesis for a More Realistic Vehicle Simulator Experience |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231120 Address after: 215316 No.8 Duke Avenue, Kunshan City, Suzhou City, Jiangsu Province Applicant after: DUKE KUNSHAN University Address before: 215300 2503, building 14, Lanting Yuyuan, Yushan Town, Kunshan City, Suzhou City, Jiangsu Province Applicant before: Li Hao Applicant before: Li Ming |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |