CN109671440B - 一种模拟音频失真方法、装置、服务器及存储介质 - Google Patents
一种模拟音频失真方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN109671440B CN109671440B CN201910021441.2A CN201910021441A CN109671440B CN 109671440 B CN109671440 B CN 109671440B CN 201910021441 A CN201910021441 A CN 201910021441A CN 109671440 B CN109671440 B CN 109671440B
- Authority
- CN
- China
- Prior art keywords
- audio
- features
- distorted
- data
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000000605 extraction Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004088 simulation Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种模拟音频失真方法、装置、服务器及存储介质,属于数据处理技术领域。模拟音频失真方法包括:对原始音频文件进行解码,并从解码所得到的数据中获取音频数据特征;对所述音频数据特征进行稀疏性扩展,获得目标数据特征;利用事先训练的网络模型对所述目标数据特征进行处理,获得失真音频特征;对所述失真音频特征进行编码,获得失真音频文件。通过该方法,可以在不录音的情况下,基于原始音频文件快速生成大量的失真音频文件,提高了失真音频文件获取的效率,进而节约了人力资源成本。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种模拟音频失真方法、装置、服务器及存储介质。
背景技术
在物理环境下录音会导致音频失真,即录音后的音频信号波形与原音频信号波形略有不同。失真的地方主要表现在以下几个部分:在音频播放设备上(如音响)播放一段音频,从数字信号转换到模拟信号会导致波形失真;音频信号在空气中传播,会受到环境噪音、障碍物导致的回音、其它声音的干扰导致失真;音频信号在录音时(比如麦克风)会通过电容、电感、运算放大器等电子元件滤波,以及模数转换和采样导致失真。
在人工智能这类需要模型训练的场合,在模型训练时,会需要大量的音频失真数据作为训练数据。目前,音频失真数据的收集,大都还是通过传统的录音方式来收集,也即通过硬件设备不断播放音频并录制音频来收集。
发明内容
鉴于此,本发明实施例在于提供一种模拟音频失真方法、装置、服务器及存储介质,以有效地改善上述问题。
本发明的实施例是这样实现的:
第一方面,本发明实施例提供了一种模拟音频失真方法,包括:对原始音频文件进行解码,并从解码所得到的数据中获取音频数据特征;对所述音频数据特征进行稀疏性扩展,获得目标数据特征;利用事先训练的网络模型对所述目标数据特征进行处理,获得失真音频特征;对所述失真音频特征进行编码,获得失真音频文件。
本申请实施例中,通过对原始音频文件进行解码,并从解码所得到的数据中获取音频数据特征,然后对音频数据特征进行稀疏性扩展,得到目标数据特征,再将目标数据特征输入到事先训练的网络模型中,在该网路模型的作用下得到失真音频特征,最后再对该失真音频特征进行编码,获得失真音频文件。通过该方法能快速模拟失真音频文件,可广泛应用于数据分析、人工智能建模、信号模拟等领域,相比于传统采用录音的方式获得失真音频文件,该方法极大的提高工作效率,进而节约了人力资源成本。同时在将音频数据特征输入到网络模型之前,先进行稀疏性扩展以提高网络模型的仿真能力,使其模拟出来的失真音频文件与通过播放原音频文件,并在一定距离采用麦克风录音后得到的失真音频文件的信号波形一致。
结合第一方面实施例的一种可能的实施方式,所述网络模型包括:特征提取层和输出层;利用事先训练的网络模型对所述目标数据特征进行非线性处理,包括:通过所述特征提取层对所述目标数据特征进行特征提取,得到第一数据特征;将所述第一数据特征中的信号点输入所述输出层进行非线性拟合处理。
结合第一方面实施例的一种可能的实施方式,所述通过所述特征提取层对所述目标数据特征进行特征提取,包括:通过所述特征提取层对所述目标数据特征进行多次第一处理,其中,所述第一处理包括依次进行卷积处理和池化处理。
结合第一方面实施例的一种可能的实施方式,在对原始音频文件进行解码并从中获取音频数据特征之后,所述方法还包括:利用梅尔频率倒谱系数将所述音频数据特征转换为梅尔特征;相应的,所述对所述音频数据特征进行稀疏性扩展,获得目标数据特征,包括:对所述梅尔特征进行稀疏性扩展,获得目标数据特征。本申请实施例中,在对音频数据特征进行稀疏性扩展之前,先利用梅尔频率倒谱系数将其转换为梅尔特征,以调高运算速度,进一步提高工作效率。
结合第一方面实施例的一种可能的实施方式,通过以下方法训练所述网络模型:对训练的样本音频文件进行预处理,获得样本目标数据特征,其中,所述预处理包括对所述样本音频文件进行解码,并对从解码所得到的数据中获取到的样本音频数据特征进行稀疏性扩展;将所述样本目标数据特征输入到初始网络模型中,获得样本失真音频特征;根据所述样本失真音频特征、所述样本音频文件对应的参考失真音频特征以及损失函数训练所述初始网络模型,直至所述损失函数的输出值小于阈值结束,其中,所述损失函数的输出值表征所述样本失真音频特征与所述参考失真音频特征的差异度。本申请实施例中,将初始网络模型输出的样本失真音频特征、样本音频文件对应的参考失真音频特征以及损失函数训练所述初始网络模型,使其其能自动学习原音频信号与失真信号的关系,以便最终输入一个原音频信号,根据其对应的关系,便可得到对应的失真音频信号,保证了网络模型的仿真能力,使其模拟出来的失真音频文件与通过播放原音频文件,并在一定距离采用麦克风录音后得到的失真音频文件的信号波形一致。
结合第一方面实施例的一种可能的实施方式,通过以下方法获取所述样本音频文件对应的参考失真音频特征:获取所述样本音频文件的参考失真音频文件;对所述参考失真音频文件进行解码,并从解码所得到的数据中获得参考数据特征;利用对齐算法对所述参考数据特征进行平移,使其与所述样本音频数据特征对齐,得到所述参考失真音频特征。本申请实施例中,通过对齐算法对参考数据特征进行平移,使其与所述样本音频数据特征对齐,以消除误差,进而提高在计算样本失真音频特征与所述参考失真音频特征的差异度时的可靠性。
第二方面,本发明实施例还提供了一种模拟音频失真装置,包括:解码获取模块、扩展模块、处理模块以及编码模块;解码获取模块,用于对原始音频文件进行解码,并从解码所得到的数据中获取音频数据特征;扩展模块,用于对所述音频数据特征进行稀疏性扩展,获得目标数据特征;处理模块,用于利用事先训练的网络模型对所述目标数据特征进行处理,获得失真音频特征;编码模块,用于对所述失真音频特征进行编码,获得失真音频文件。
结合第二方面实施例的一种可能的实施方式,所述网络模型包括:特征提取层和输出层;所述处理模块,还用于:通过所述特征提取层对所述目标数据特征进行特征提取,得到第一数据特征;将所述第一数据特征中的信号点输入所述输出层进行非线性拟合处理。
结合第二方面实施例的一种可能的实施方式,所述处理模块,还用于:通过所述特征提取层对所述目标数据特征进行多次第一处理,其中,所述第一处理包括依次进行卷积处理和池化处理。
结合第二方面实施例的一种可能的实施方式,所述装置还包括:转换模块,用于利用梅尔频率倒谱系数将所述音频数据特征转换为梅尔特征;相应的,所述扩展模块,还用于对所述梅尔特征进行稀疏性扩展,获得目标数据特征。
第三方面,本发明实施例还提供了一种服务器,包括:存储器和处理器,所述存储器和所述处理器连接;所述存储器用于存储程序;所述处理器用于调用存储于所述存储器中的程序以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。
第四方面,本发明实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本发明的主旨。
图1示出了本发明实施例提供的一种服务器的结构示意图。
图2示出了本发明实施例提供的一种训练网络模型的流程图。
图3示出了本发明实施例提供的一种模拟音频失真方法的流程图。
图4示出了本发明实施例提供的图3中的步骤S203的流程图。
图5示出了本发明实施例提供的模拟音频失真装置的模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。再者,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
如图1所示,图1示出了本发明实施例提供的一种服务器100的结构框图。所述服务器100包括:模拟音频失真装置110、存储器120、存储控制器130和处理器140。其中,在本发明实施例中,所述服务器100可以是,但不限于网络服务器、数据库服务器、云端服务器等。
所述存储器120、存储控制器130、处理器140各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述模拟音频失真装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述服务器100的操作系统(operatingsystem,OS)中的软件功能模块。所述处理器140用于执行存储器120中存储的可执行模块,例如所述模拟音频失真装置110包括的软件功能模块或计算机程序。
其中,存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read OnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只读存储器(Erasable ProgrammableRead-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器120用于存储程序,所述处理器140在接收到执行指令后,执行所述程序,后述本发明实施例任一实施例揭示的流程定义的服务器100所执行的方法可以应用于处理器140中,或者由处理器140实现。
处理器140可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
通过硬件设备不断播放音频并录制音频来收集大量音频失真数据,由于比较耗时,因此,本实施例中,利用事先训练的网络模型对原始音频文件进行处理,从而快速产生对应的失真信号,也即如果需要模拟某音频信号的失真情况,可以将其作为网络模型输入即可。也就是说,要想得到原始音频文件对应的音频失真文件,就得对网络模型进行训练,使其能自动学习原音频信号与失真信号的关系,鉴于此,可以以图2所示的方式来训练网络模型。
步骤S101:对训练的样本音频文件进行预处理,获得样本目标数据特征。
要对网络模型进行训练,需要先获取训练数据,其中,训练数据包括样本音频文件和该样本音频文件对应的失真音频文件(对播放的样本音频文件进行录音后得到的音频文件)。例如,通过收集不同环境、不同距离、不同音量、不同内容的大量音频文件与录音后对应的失真音频文件为训练集。
在得到训练的样本音频文件后,对其进行预处理,获得样本目标数据特征。其中,预处理包括对样本音频文件进行解码,并对从解码所得到的数据中获取到的样本音频数据特征进行稀疏性扩展,也即先对样本音频文件进行解码,然后,从解码所得到的数据中获取样本音频数据特征,最后再对样本音频数据特征进行稀疏性扩展,即可得到样本目标数据特征。
作为一种实施方式,采用全连接神经网络来对样本音频数据特征进行稀疏性扩展,获得样本目标数据特征,其中,所述样本目标数据特征中的信号点多于所述样本音频数据特征中的信号点。其中,全连接神经网络的输出大于输入,例如,采用输出为输入的2-10倍的神经节点来对样本音频数据特征进行稀疏性扩展。
步骤S102:将所述样本目标数据特征输入到初始网络模型中,获得样本失真音频特征。
在得到样本目标数据特征后,将所述样本目标数据特征输入到初始网络模型中,获得样本失真音频特征,也即将该样本目标数据特征作为初始网络模型的输入,在该初始网络模型的作用下,便可输出样本失真音频特征。其中,该初始网络模型可以是但不限于全连接网络、卷积网络、自编码网络、循环网络等深度神经网络结构。
其中,作为一种可选的实施方式,该初始网络模型包括:特征提取层和输出层,其中,特征提取层用于对所述样本目标数据特征进行特征提取,得到第一样本目标数据特征,所述输出层用于对所述第一样本目标数据特征中的信号进行非线性拟合处理,得到样本失真音频特征。
其中,该特征提取层可以是卷积层、全连接层、卷积层+池化等。其中,特征提取层可以也可以为多层结构,例如,包含多个全连接层,且这多个全连接层的输出逐层递减;又例如,包含多个卷积层,且这多个卷积层的卷积核尺寸逐层递减。不同结构的特征提取层,所得到的第一数据特征不同。
其中,输出层为全连接层,神经元个数与输入维度相同,也即样本音频数据特征中的信号点的数量与样本失真音频特征中的信号点的数量相同。
步骤S103:根据所述样本失真音频特征、所述样本音频文件对应的参考失真音频特征以及损失函数训练所述网络模型,直至所述损失函数的输出值小于阈值结束。
在得到样本失真音频特征后,根据所述样本失真音频特征、所述样本音频文件对应的参考失真音频特征以及损失函数训练所述初始网络模型,直至所述损失函数的输出值小于阈值结束,其中,所述损失函数的输出值表征所述样本失真音频特征与所述参考失真音频特征的差异度。
也即,将样本失真音频特征和对应的参考失真音频特征输入损失函数中,计算两者的差异度,若两者的差异度小于阈值时,说明该初始网络模型训练好了,若两者的差异度不小于阈值时,则通过调整该初始网络模型的参数,直至两者的差异度小于阈值为止,理论上两者的差值可以无限小,甚至为零,但是在现实中,一般不会追求到绝对的0,只要足够小即可。
其中,作为一种可选的实施方式,在计算两者的差异度时,可以是计算均方差,也即计算将样本失真音频特征和参考失真音频特征这两个音频中对应的信号点差值的平方之和,再除以总信号点的大小,其计算公式为:其中,n为总的信号点数量,例如为8000,xi为样本失真音频特征中的第i个信号点,yi为参考失真音频特征中的第i个信号点。
其中,可以通过以下方法获取所述样本音频文件对应的参考失真音频特征:获取所述样本音频文件的参考失真音频文件;对所述参考失真音频文件进行解码,并从解码所得到的数据中获得参考数据特征;利用对齐算法对所述参考数据特征进行平移,使其与所述样本目标数据特征对齐,得到所述参考失真音频特征。也即首先获取样本音频文件的参考失真音频文件(对播放的样本音频文件进行录音后得到的音频文件),然后对所述参考失真音频文件进行解码,并从解码所得到的数据中获得参考数据特征。
由于在录制参考失真音频文件时,参考失真音频信号与原音频信号之间会存在两个不一样的地方,一个是起始位置不同(这个与录音的时间节点息息相关),另一个是波形有些微小差别(这个是由于失真导致)。其中,起始位置不同,与录音的时机有关系,如果录早了,参考失真音频信号就会向右偏移,录迟了,就会向左偏移且有可能有些声音没有录到。因此一般是至少要保证早录,录制时间匹配非常准确那更好,但一般难以实现。因此,可以利用对齐算法对所述参考数据特征进行平移,使其与所述样本目标数据特征对齐,得到所述参考失真音频特征,其中,参考失真音频特征即为平移后的参考数据特征。在平移时,从左到右在原音频中寻找第一个有效信号的点(超过录制现场噪音的强度),同样在录制的失真音频中寻找第一个有效信号的点。以该两个点为对齐点,之间的差值为录制的失真音频整体需要位移的点数。
通过对齐算法计算后得到的音频特征。波形图的位置和原音频的音频特征的位置保持一致。
通过上述方法即可实现对初始网络模型的训练,进而得到训练好的网路模型。在使用时,利用事先训练的网络模型对原始音频文件进行处理,从而便可快速产生对应的失真信号,也即如果需要模拟某音频信号的失真情况,可以将其作为网络模型输入即可。其具体的实现过程,请参阅图3,为本发明实施例提供的一种应用于上述服务器100的模拟音频失真方法,下面将结合图3对其所包含的步骤进行说明。
步骤S201:对原始音频文件进行解码,并从解码所得到的数据中获取音频数据特征。
若想获得原始音频文件对应的音频失真信号,除了通过硬件设备来录音不断播放的原始音频文件外,作为一种可选的实施方式,还可以利用事先训练的网络模型对原始音频文件进行处理,从而快速产生对应的失真信号,在将原始音频文件作为网络模型的输入之前,需要先对原始音频文件进行解码,从解码所得到的数据中获取音频数据特征(也即音频数据信号,具体为电信号)。
其中,上述的原始音频文件的格式可以是wav、mp3等的音频文件。
步骤S202:对所述音频数据特征进行稀疏性扩展,获得目标数据特征,其中,所述目标数据特征中的信号点多于所述音频数据特征中的信号点。
在从解码后的原始音频文件中获取到音频数据特征后,为了提高网络模型对每个输入点的拟合能力,需要对其进行稀疏性扩展,作为一种实施方式,采用全连接神经网络来对音频数据特征进行稀疏性扩展,获得目标数据特征,其中,所述目标数据特征中的信号点多于所述音频数据特征中的信号点,也即进行稀疏性扩展后的音频数据特征即为目标数据特征。其中,全连接神经网络的输出大于输入,例如,设置输出为输入10倍的神经节点。
为了便于理解,下面举例进行说明,假设原始音频文件的采样率为8KHz,即每秒种采集8000个电压值,那么1秒的音频数据有8000个信号点,也即音频数据特征包括8000个信号点。采用输出大于输入的全连接神经网络节点将8000个信号点扩充至80000个信号点,也即设置输出为输入10倍的神经节点,其中,每个节点输出一个数据。这样便实现了对音频数据特征的稀疏性扩展。其中,需要说明的是,上述的示例仅仅是为了便于理解稀疏性扩展的过程,并不能将其理解成是对本申请的限制,具体需要扩展多少倍取决于具体的实际需求,通常为2-10倍。
为了加快运算速度,提高效率,作为一种可选的实施方式,也可以是在获取到音频数据特征后,利用梅尔频率倒谱系数(MFCC)将该音频数据特征转换为梅尔特征,然后再采用诸如全连接神经网络来对梅尔特征进行稀疏性扩展,获得目标数据特征。
步骤S203:利用事先训练的网络模型对所述目标数据特征进行处理,获得失真音频特征。
在获取到目标数据特征后,利用事先训练的网络模型对所述目标数据特征进行处理,获得失真音频特征。
作为一种可选的实施方式,该网络模型包括:特征提取层和输出层,此时,利用事先训练的网络模型对所述目标数据特征进行处理的过程,可以参阅图4所示的方式,下面结合图4进行说明。
步骤S301:通过所述特征提取层对所述目标数据特征进行特征提取,得到第一数据特征。
在得到目标数据特征后,通过所述特征提取层对所述目标数据特征进行特征提取,得到第一数据特征,也即将该目标数据特征输入至特征提取层,在特征提取层的作用下,输出第一数据特征。其中,所述第一数据特征中的信号点数量介于所述音频数据特征中的信号点数量与所述目标数据特征中的信号点数量之间。为了便于理解以上述的8000和80000为例,也即此时,第一数据特征中的信号点介于8000与80000之间,如为20000。
其中,该特征提取层可以是卷积层、全连接层、卷积层+池化等。其中,特征提取层可以也可以为多层结构,例如,包含多个全连接层,且这多个全连接层的输出逐层递减;又例如,包含多个卷积层,且这多个卷积层的卷积核尺寸逐层递减;又例如,包含多个卷积层+池化,此时,对应的特征提取的过程为,通过所述特征提取层对所述目标数据特征进行多次第一处理,其中,所述第一处理包括依次进行卷积处理和池化处理。不同结构的特征提取层,所得到的第一数据特征不同。
步骤S302:将所述第一数据特征中的信号点输入所述输出层进行非线性拟合处理。
在利用特征提取层对所述目标数据特征进行特征提取,得到第一数据特征后,将第一数据特征中的信号点输入该输出层进行非线性拟合处理,在输出层的作用下,即可输出失真音频特征,其中,该失真音频特征中的信号点和原始音频文件对应的音频数据特征中的信号点数量相同,例如,均为8000点。其中,输出层为全连接层,神经元个数与输入维度相同。
其中,需要说明的是,该网络模型的目的是做回归,也即训练后,模型根据原音频信号与失真信号的映射关系,输入一个原始音频文件对应的数据特征,便能预测出一个对应的音频信号输出。因此,输出层不应包括用于分类的算法,例如,不应包含Softmax算法。
步骤S204:对所述失真音频特征进行编码,获得失真音频文件。
在利用事先训练的网络模型对所述目标数据特征中的信号点进行非线性拟合处理,获得失真音频特征后,通过对该失真音频特征进行编码,即可得到原始音频文件对应的失真音频文件。
其中,失真音频文件的格式可以是wav、mp3等的音频文件。该过程与前面的对原始音频文件进行解码并从中获取音频数据特征的过程为一个逆过程。
通过该方法,能在不录音的情况下,快速生成原音频对应的失真音频,可广泛应用于数据分析、人工智能建模、信号模拟等领域。
本发明实施例还提供了一种模拟音频失真装置110,如图5所示。该模拟音频失真装置110包括:解码获取模块111、扩展模块112、处理模块113以及编码模块114。
解码获取模块111,用于对原始音频文件进行解码,并从解码所得到的数据中获取音频数据特征。
扩展模块112,用于对所述音频数据特征进行稀疏性扩展,获得目标数据特征。
处理模块113,用于利用事先训练的网络模型对所述目标数据特征进行处理,获得失真音频特征。
编码模块114,用于对所述失真音频特征进行编码,获得失真音频文件。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例所提供的模拟音频失真装置110,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本申请实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法实施例所述的方法,也即执行模拟音频失真方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,笔记本电脑,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种模拟音频失真方法,其特征在于,包括:
对原始音频文件进行解码,并从解码所得到的数据中获取音频数据特征;
对所述音频数据特征进行稀疏性扩展,获得目标数据特征;
利用事先训练的网络模型对所述目标数据特征进行处理,获得失真音频特征;
对所述失真音频特征进行编码,获得失真音频文件,
其中,所述网络模型包括:特征提取层和输出层;利用事先训练的网络模型对所述目标数据特征进行非线性处理,包括:
通过所述特征提取层对所述目标数据特征进行特征提取,得到第一数据特征;
将所述第一数据特征中的信号点输入所述输出层进行非线性拟合处理。
2.根据权利要求1所述的方法,其特征在于,所述通过所述特征提取层对所述目标数据特征进行特征提取,包括:
通过所述特征提取层对所述目标数据特征进行多次第一处理,其中,所述第一处理包括依次进行卷积处理和池化处理。
3.根据权利要求1所述的方法,其特征在于,在对原始音频文件进行解码并从中获取音频数据特征之后,所述方法还包括:
利用梅尔频率倒谱系数将所述音频数据特征转换为梅尔特征;
相应的,所述对所述音频数据特征进行稀疏性扩展,获得目标数据特征,包括:
对所述梅尔特征进行稀疏性扩展,获得目标数据特征。
4.根据权利要求1所述的方法,其特征在于,通过以下方法训练所述网络模型:
对训练的样本音频文件进行预处理,获得样本目标数据特征,其中,所述预处理包括对所述样本音频文件进行解码,并对从解码所得到的数据中获取到的样本音频数据特征进行稀疏性扩展;
将所述样本目标数据特征输入到初始网络模型中,获得样本失真音频特征;
根据所述样本失真音频特征、所述样本音频文件对应的参考失真音频特征以及损失函数训练所述初始网络模型,直至所述损失函数的输出值小于阈值结束,其中,所述损失函数的输出值表征所述样本失真音频特征与所述参考失真音频特征的差异度。
5.根据权利要求4所述的方法,其特征在于,通过以下方法获取所述样本音频文件对应的参考失真音频特征:
获取所述样本音频文件的参考失真音频文件;
对所述参考失真音频文件进行解码,并从解码所得到的数据中获得参考数据特征;
利用对齐算法对所述参考数据特征进行平移,使其与所述样本音频数据特征对齐,得到所述参考失真音频特征。
6.一种模拟音频失真装置,其特征在于,包括:
解码获取模块,用于对原始音频文件进行解码,并从解码所得到的数据中获取音频数据特征;
扩展模块,用于对所述音频数据特征进行稀疏性扩展,获得目标数据特征;
处理模块,用于利用事先训练的网络模型对所述目标数据特征进行处理,获得失真音频特征,其中,所述网络模型包括:特征提取层和输出层;处理模块,还用于通过所述特征提取层对所述目标数据特征进行特征提取,得到第一数据特征;将所述第一数据特征中的信号点输入所述输出层进行非线性拟合处理;
编码模块,用于对所述失真音频特征进行编码,获得失真音频文件。
7.一种服务器,其特征在于,包括:存储器和处理器,所述存储器和所述处理器连接;
所述存储器用于存储程序;
所述处理器用于调用存储于所述存储器中的程序以执行如权利要求1-5中任一项所述的方法。
8.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910021441.2A CN109671440B (zh) | 2019-01-09 | 2019-01-09 | 一种模拟音频失真方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910021441.2A CN109671440B (zh) | 2019-01-09 | 2019-01-09 | 一种模拟音频失真方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109671440A CN109671440A (zh) | 2019-04-23 |
CN109671440B true CN109671440B (zh) | 2020-08-14 |
Family
ID=66149308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910021441.2A Active CN109671440B (zh) | 2019-01-09 | 2019-01-09 | 一种模拟音频失真方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109671440B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294952A (zh) * | 2022-05-23 | 2022-11-04 | 神盾股份有限公司 | 音频处理方法及装置、非瞬时性计算机可读存储介质 |
CN116452709A (zh) * | 2023-06-13 | 2023-07-18 | 北京好心情互联网医院有限公司 | 动画生成方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013057735A (ja) * | 2011-09-07 | 2013-03-28 | National Institute Of Information & Communication Technology | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 |
CN107358966A (zh) * | 2017-06-27 | 2017-11-17 | 北京理工大学 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
-
2019
- 2019-01-09 CN CN201910021441.2A patent/CN109671440B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013057735A (ja) * | 2011-09-07 | 2013-03-28 | National Institute Of Information & Communication Technology | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 |
CN107358966A (zh) * | 2017-06-27 | 2017-11-17 | 北京理工大学 | 基于深度学习语音增强的无参考语音质量客观评估方法 |
Non-Patent Citations (2)
Title |
---|
参量阵扬声器谐波失真补偿算法研究;卢梦明;《中国优秀硕士学位论文全文数据库信息科技辑》;20170215;第I135卷(第2017/02期);第1页第3、5段,第6页第7-10段,第35页第4-5段,第36页第4段,第37页第1段,图3-13 * |
混合音频信号的压缩与重建方法研究;蒋三新;《中国博士学位论文全文数据库信息科技辑》;20170215;第I136卷(第2017/02期);第I页第1段,第1页第2段,第2页第1段,图1-1 * |
Also Published As
Publication number | Publication date |
---|---|
CN109671440A (zh) | 2019-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10937438B2 (en) | Neural network generative modeling to transform speech utterances and augment training data | |
CN110136744B (zh) | 一种音频指纹生成方法、设备及存储介质 | |
CN110197658B (zh) | 语音处理方法、装置以及电子设备 | |
CN110335587B (zh) | 语音合成方法、系统、终端设备和可读存储介质 | |
US11514925B2 (en) | Using a predictive model to automatically enhance audio having various audio quality issues | |
Pires et al. | Recognition of activities of daily living based on environmental analyses using audio fingerprinting techniques: A systematic review | |
CN113488060B (zh) | 一种基于变分信息瓶颈的声纹识别方法及系统 | |
WO2019220620A1 (ja) | 異常検出装置、異常検出方法及びプログラム | |
CN109671440B (zh) | 一种模拟音频失真方法、装置、服务器及存储介质 | |
CN111357051A (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
WO2019138897A1 (ja) | 学習装置および方法、並びにプログラム | |
Ji et al. | Dictionary-based active learning for sound event classification | |
Vanhatalo et al. | A review of neural network-based emulation of guitar amplifiers | |
Benamer et al. | Database for arabic speech commands recognition | |
CN114510609A (zh) | 结构数据的生成方法、装置、设备、介质及程序产品 | |
Zhang et al. | Enhanced-Deep-Residual-Shrinkage-Network-Based Voiceprint Recognition in the Electric Industry | |
KR20220032322A (ko) | 음악지문 생성을 위한 장치 및 방법 | |
Wu et al. | Y-net: A dual path model for high accuracy blind source separation | |
CN113707172B (zh) | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 | |
Virtanen et al. | Proceedings of the Detection and Classification of Acoustic Scenes and Events 2017 Workshop (DCASE2017) | |
JP7205546B2 (ja) | 音声処理装置、音声処理方法、及びプログラム | |
CN115457436A (zh) | 视频热度预测方法及装置 | |
WO2020262316A1 (ja) | データ分析システム、データ分析方法及びプログラム | |
CN114512111A (zh) | 模型训练方法、装置、终端设备及计算机可读存储介质 | |
Zhipeng et al. | Voiceprint recognition based on BP Neural Network and CNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |