CN111627413B - 音频生成方法、装置及终端 - Google Patents
音频生成方法、装置及终端 Download PDFInfo
- Publication number
- CN111627413B CN111627413B CN202010458927.5A CN202010458927A CN111627413B CN 111627413 B CN111627413 B CN 111627413B CN 202010458927 A CN202010458927 A CN 202010458927A CN 111627413 B CN111627413 B CN 111627413B
- Authority
- CN
- China
- Prior art keywords
- sequence
- fitting
- audio
- processing
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/471—General musical sound synthesis principles, i.e. sound category-independent synthesis methods
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本申请公开了一种音频生成方法、装置、终端及存储介质。其中方法包括:确定待续写处理的原音频片段的主旋律;对主旋律进行序列化转换,得到自然数序列;将自然数序列归一化处理为数据序列;依据预定义的正弦函数拟合算法,对数据序列进行多次拟合来确定预测模型,并依据预测模型得到输出序列;将输出序列进行音频转换处理,得到针对原音频片段的续写音频片段。本申请通过多次拟合的方式既降低了现有技术中自动化续写音频的成本,加快了自动化续写音频的时间,还提高了续写的音频与原音频片段的相似度,避免因续写音频片段原音频片段相似度差,导致的音频质量低的问题,提高了自动化音频生成的效率。
Description
技术领域
本申请涉及通信技术领域,具体涉及一种音频生成方法、装置及终端。
背景技术
音乐是人类艺术生活的重要组成部分,已与人们的生活紧密相连。而目前音乐的创作续写大多是由音乐家歌手等,较少用计算机相关算法来完成。近年来,随着神经网络的不断发展,逐渐出现了利用神经网络来合成音乐的迹象。但是,利用神经网络生成音乐需要大量的训练数据,训练的代价很高,并且较难保证所生成音乐的质量。
发明内容
为了解决上述至少一个技术问题,本申请提供一种音频生成方法、装置及终端。
根据本申请的第一方面,提供了一种音频生成方法,该方法包括:
获取待续写处理的原音频片段的主旋律;
将主旋律转换为自然数序列;
对自然数序列进行归一化处理,得到归一化后的数据序列;
依据预定义的正弦函数拟合算法对数据序列进行多次拟合处理,确定拟合相关信息;
将拟合相关信息与预定条件进行比较,并依据比较结果确定多个正弦函数;
基于多个正弦函数,确定预测模型;
依据预测模型,确定预定续写长度的输出序列;
将输出序列进行音频转换处理,得到针对原音频片段的续写音频片段。
根据本申请的第二方面,提供了一种音频生成装置,该装置包括:
主旋律获取模块,用于获取待续写处理的原音频片段的主旋律;
序列转换模块,用于将主旋律转换为自然数序列;
序列归一化模块,用于对自然数序列进行归一化处理,得到归一化后的数据序列;
正弦函数拟合模块,用于依据预定义的正弦函数拟合算法对数据序列进行多次拟合处理,确定拟合相关信息;
正弦函数确定模块,用于将拟合相关信息与预定条件进行比较,并依据比较结果确定多个正弦函数;
预测模型确定模块,用于基于多个正弦函数,确定预测模型;
输出序列确定模块,用于依据预测模型,确定预定续写长度的输出序列;
续写音频生成模块,用于将输出序列进行音频转换处理,得到针对原音频片段的续写音频片段。
根据本申请的第三方面,提供了一种终端,该终端包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时以实现上述音频生成方法。
根据本申请的第四方面,提供了一种计算机可读存储介质,该介质存储有计算机可执行指令,该计算机可执行指令用于以执行上述音频生成方法。
本申请实施例通过确定待续写处理的原音频片段的主旋律,并将主旋律转换为自然数序列,以便将自然数序列归一化处理为数据序列,从而依据正弦函数拟合算法对数据序列进行多次拟合,得到拟合相关信息,并通过将拟合相关信息和预定条件的比较,来确定多个正弦函数,通过多个正弦函数来得到预测模型,进而通过预测模型来得到预续写长度对应的输出序列,将输出序列进行音频转换得到续写音频片段,这种通过多次拟合的方式来获取续写音频的方式,既降低了现有技术中自动化续写音频的成本,加快了自动化续写音频的时间,还提高了续写的音频与原音频片段的相似度,避免因续写音频片段原音频片段相似度差,导致的音频质量低的问题,提高了自动化音频生成的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种音频生成方法的流程示意图;
图2为本申请实施例提供的一种音频生成方法一个实施例的自然数序列的示意图;
图3为本申请实施例提供的一种音频生成方法中拟合次数与均方根误差的关系的示意图;
图4为本申请实施例提供的一种音频生成方法一个实施例中续写音频片段与原音频片段的对比示意图;
图5为本申请实施例提供的一种音频生成方法一个实施例中预定续写长度的续写音频片段与原音频片段的对比示意图;
图6为本申请实施例提供的一种音频生成装置的框图结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
根据本申请的一个实施例,提供了一种音频生成方法,如图1所示,该方法包括:步骤S101至步骤S108。
步骤S101:获取待续写处理的原音频片段的主旋律。
具体地,旋律是音乐的主线,它决定了音乐的调性、曲式和进程,是音乐的主导因素。音频中一般包括主旋律、用于哄托主旋律的和声。其中,主旋律一般是歌唱或由旋律乐器演奏,如钢琴、电子琴、小提琴乃至二胡、笛子等等。
具体地,电子设备获取待续写处理的原音频片段的主旋律。更具体地,可以直接将导入电子设备的音频乐谱中提取主旋律;或者在导入音频片段后,通过预配置的交互界面来检测到对该音频片段的截取操作,依据该截取操作来确定待续写处理的原音频片段。
具体地,可以通过预设的音频旋律提取算法来确定待续写处理的原音频片段的主旋律。
步骤S102:将主旋律转换为自然数序列。
本申请实施例中,序列化转换的目的是将主旋律的转换为机器可处理的字符表征方式。
具体地,可以参照预存储的MIDI音符编码表,来对主旋律进行序列号转换。其中,MIDI音符编码表一般包括音符代码、所在音阶、音调,通过查询主旋律中的这三个因素,来确定对应的结果,实现自然数序列的转换。
步骤S103:对自然数序列进行归一化处理,得到归一化后的数据序列。
具体地,可以通过确定自然数序列的几个极值,并依据确定的极值来进行归一化处理。例如,确定自然数序列的极值包括平均值、最大值和最小值。
本申请实施例通过对自然数序列的归一化处理,提供了统一形式的序列,为后续拟合处理提供了准备。
步骤S104:依据预定义的正弦函数拟合算法对数据序列进行多次拟合处理,确定拟合相关信息。
本申请实施例中,拟合相关信息用于表征拟合处理的结果。具体地,拟合处理的结果可以包括多次拟合分别输出的序列与数据序列的均方根误差、多次拟合分别输出的序列与数据序列的均方根误差的变化趋势、多次拟合采用的正弦函数的数量。
步骤S105:将拟合相关信息与预定条件进行比较,并依据比较结果确定多个正弦函数。
本申请实施例通过预定条件来判断拟合相关信息是否符合需求,从而确定是否继续进行拟合处理,即提供了根据拟合相关信息来确定停止拟合处理的条件。
具体地,若拟合相关信息符合预定条件,则停止拟合处理;若拟合相关信息不符合预定条件,则继续拟合处理。例如,若拟合相关信息为均方根误差,那么停止拟合处理的条件为均方根误差小于均方根误差阈值;若拟合相关信息为均方根误差的变化趋势,那么停止拟合处理的条件为均方根误差变化趋势发生变化,如后一次拟合的均方根误差大于前一次拟合的均方根误差;若拟合相关信息为多次拟合采用的正弦函数的数量,那么停止拟合处理的条件为采用的正弦函数的数量大于预定的采用的正弦函数的数量。
步骤S106:基于多个正弦函数,确定预测模型。
具体地,可以将多个正弦函数进行相加,实现多个正弦函数的融合,得到预测模型。
步骤S107:依据预测模型,确定预定续写长度的输出序列。
本申请实施例中,输出序列用于表征预测模型按照续写长度(即预定续写长度)进行处理,输出的序列。具体地,预定续写长度可以预先设置,也可以在实时调整。
步骤S108:将输出序列进行音频转换处理,得到针对原音频片段的续写音频片段。
本申请实施例通过确定待续写处理的原音频片段的主旋律,并将主旋律转换为自然数序列,以便将自然数序列归一化处理为数据序列,从而依据正弦函数拟合算法对数据序列进行多次拟合,得到拟合相关信息,并通过将拟合相关信息和预定条件的比较,来确定多个正弦函数,通过多个正弦函数来得到预测模型,进而通过预测模型来得到预续写长度对应的输出序列,将输出序列进行音频转换得到续写音频片段,这种通过多次拟合的方式来获取续写音频的方式,既降低了现有技术中自动化续写音频的成本,加快了自动化续写音频的时间,还提高了续写的音频与原音频片段的相似度,避免因续写音频片段原音频片段相似度差,导致的音频质量低的问题,提高了自动化音频生成的效率。
在一些实施例中,步骤S104进一步包括:步骤S1041、步骤S1042和步骤 S10439(图中未示出)。
步骤S1041:基于多次拟合处理,确定多个拟合序列。
步骤S1042:计算多个拟合序列与数据序列的误差序列。
步骤S1043:依据多个拟合序列与数据序列的误差序列,确定多次拟合分别输出的序列与数据序列的均方根误差、多次拟合分别输出的序列与数据序列的均方根误差的变化趋势、多次拟合采用的正弦函数的数量。
具体地,多个拟合序列分别表征多次拟合处理各自得到的序列,即通过正弦函数拟合算法对数据序列的每次拟合处理,均能拟合得到一个序列。
本申请实施例中,均方根误差用于表征当次得到的拟合序列与数据序列的各个位置的误差。
本申请实施例确定多次拟合得到的多个拟合序列,为确定各自拟合处理分别对应的误差序列提供的数据基础,进而通过确定拟合相关信息,为确定停止拟合处理提供了判断集成。
在一些实施例中,步骤S105进一步包括:
若预定条件为预设的均方根误差阈值,且若任一次拟合处理输出的拟合序列与数据序列的均方根误差小于预设的均方根误差阈值,则依据该任一次拟合处理,确定多个正弦函数;
若预定条件为预定变化趋势呈上升,且若任一次拟合处理输出的拟合与数据序列的均方根误差大于前一次拟合处理输出的拟合序列与数据序列的均方根误差时,则依据该任一次拟合处理,确定多个正弦函数;
若预定条件为预定正弦函数数量阈值,且若任一次拟合处理采用的正弦函数的数量大于预定正弦函数数量阈值时,则依据该任一次拟合处理,确定多个正弦函数。
本申请通过提供不同类型预设条件,实现了依据不同的拟合相关信息来执行停止拟合处理的目的。具体地,预设条件可以根据实际需要进行设定。
例如,假设均方根误差为ERMSE,当ERMSE<ε,或ERMSE上升(即大于前一次拟合的均方根误差)时,退出学习过程,其中ε是学习误差的指定阈值 。
在一些实施例中,步骤S107进一步包括:
将数据序列输入至预测模型,并依据预定的续写长度,得到输出序列。
具体地,将数据序列的各个位置的值与预定的续写长度进行加和处理,从而得到输出序列,即实现了通过预测模型数据序列的各个位置进行拉伸或缩放处理的目的。
在一些实施例中,步骤S108进一步包括:
步骤S1051(图中未示出):将输出序列进行反归一化处理,得到反归一化序列;
步骤S1052(图中未示出):对反归一化序列进行音符转换处理,得到音符序列;
步骤S1083:将音符序列合成为续写音频片段。
本申请实施例通过反归一化处理,将得到的反归一化序列转换为音符,从而将转换得到的音频进行音频处理,从而得到声场的音频。
具体地,反归一化处理的算法依据步骤S103中采用的归一化算法进行确定。
具体地,可以根据预存储的MIDI音符编码表,将对反归一化序列进行音符转换处理,得到对应的音符序列,即采用步骤S102采用的MIDI音符编码表。
在一些实施例中,步骤S1051将输出序列进行反归一化处理,包括:
确定数据序列对应的多个极值;
依据数据序列对应的多个极值,对输出序列进行反归一化处理。
具体地,多个极值一般包括平均值、最大值和最小值。
具体地,可以通过预设的反归一化算法,并结合数据序列对应的多个极值进行处理。
例如,假设反归一化算法的公式为:f'=round(clip(f,0,M+))。该算法公式中,通过该公式对得到的F(即输出序列) 进行反归一化。由于0≤mi≤M+,mi为输出序列中任一点,因此,f的值到 [0,M+]的区间内。故f'=round(clip(f,0,M+)),接着通过简单的音频处理,就可以将f'转换成音乐,即为多正弦函数续写出来的音乐。其中round()表示进行四舍五入的操作,clip函数是上下幅值截断操作,其定义如下:
在一些实施例中,步骤S106进一步包括:
将多个正弦函数进行求和相加处理,得到预测模型。
为了详细说明本申请提供的方法,下面以“献给爱丽丝”这首歌的钢琴曲为例进行说明。
首先,将输入的“献给爱丽丝”转换成自然数序列M,如图2所示。然后在对M按照归一化公式做归一化处理,进而得到归一化的数据序列N。其中Ni为数据序列N的第i个数据,m+和m-分别是音乐序列M的平均值,最大值和最小值。
接着,先用正弦函数S1(t)对归一化后的序列N进行学习:
S1(t)=α1sin(β1t+γ1),其中,α1、β1和γ1通过最小二乘的原则确定。
记第一次学习所得的序列为S1(t),用E1表示第一次学习后的误差序列,则有
E1=N-S1(t);
然后,用第二个正弦函数S2(t)进行学习,得到第二次学习后的误差序列:
以此类推,直到学习误差Ei小于指定阈值 ε或Ei>Ei-1或正弦函数数量n 大于等于指定数量阈值 ,最终得到学习序列Y和n个正弦函数,则N与Y的关系为:
本申请采用均方根误差(RMSE)来评价学习效果。ERMSE描述了学习序列对原序列的总体学习精度的偏差。设音乐序列的有效个数为m,则有: 因此,随着函数数量的增加,均方根误差(RMSE)在不断减小,其正弦函数合成次数和均方根误差(root-mean-square error,RMSE)的关系图可参见图3。
在完成上述学习后,将分解得到的n个正弦函数{Si(t),i=1,2,…,n}进行相加,即可得到数据预测模型Y(t)=F,t=L0+1,L0+2,L0+3,......,L0+L1,其中,L1是续写乐谱的长度,F为学习后外推得到的序列,因此,利用F来续写音乐;
因为0≤mi≤M+,因此我们需要调整f的值到[0,M+]的区间内。故f'= round(clip(f,0,M+)),接着通过简单的音频处理,就可以将f'转换成音乐,即为多正弦函数续写出来的音乐。其中round(x)是对x进行四舍五入操作,clip 函数是上下幅值截断操作。
多正弦函数合成模型使用的正弦函数个数为100时,其学习效果如图3,图4所示。可以看到学习效果很好,其均方误差很小。
我们使用得到的学习模型续写音乐,其续写效果可参见图4。最终我们将该序列重新转换成音符,并合成MIDI音乐,试听效果不错。对比起原音乐序列,我们可以发现我们学习到原音乐的大致旋律,并且生成的音乐对比原音乐序列具有一定的变化性和灵活性。值得一提的是,当音乐序列变得更加长的时候,我们需要更多的正弦函数合成来学习,参见图5可知,多正弦函数合成模型在音乐序列更长的情况下学习得较好。
本申请的又一实施例提供了一种音频生成装置,如图6所示,该装置包括:主旋律获取模块601、序列转换模块602、序列归一化模块603、正弦函数拟合模块604、正弦函数确定模块605、预测模型确定模块606、输出序列确定模块 607以及续写音频生成模块608。
主旋律获取模块601,用于获取待续写处理的原音频片段的主旋律;
序列转换模块602,用于将主旋律转换为自然数序列;
序列归一化模块603,用于对自然数序列进行归一化处理,得到归一化后的数据序列;
正弦函数拟合模块604,用于依据预定义的正弦函数拟合算法对数据序列进行多次拟合处理,确定拟合相关信息;
正弦函数确定模块605,用于将拟合相关信息与预定条件进行比较,并依据比较结果确定多个正弦函数;
预测模型确定模块606,用于基于多个正弦函数,确定预测模型;
输出序列确定模块607,用于依据预测模型,确定预定续写长度的输出序列;
续写音频生成模块608,用于将输出序列进行音频转换处理,得到针对原音频片段的续写音频片段。
本申请实施例通过确定待续写处理的原音频片段的主旋律,并将主旋律转换为自然数序列,以便将自然数序列归一化处理为数据序列,从而依据正弦函数拟合算法对数据序列进行多次拟合,得到拟合相关信息,并通过将拟合相关信息和预定条件的比较,来确定多个正弦函数,通过多个正弦函数来得到预测模型,进而通过预测模型来得到预续写长度对应的输出序列,将输出序列进行音频转换得到续写音频片段,这种通过多次拟合的方式来获取续写音频的方式,既降低了现有技术中自动化续写音频的成本,加快了自动化续写音频的时间,还提高了续写的音频与原音频片段的相似度,避免因续写音频片段原音频片段相似度差,导致的音频质量低的问题,提高了自动化音频生成的效率。
进一步地,正弦函数拟合模块用于:
基于多次拟合处理,确定多个拟合序列;
计算多个拟合序列分别与数据序列的误差序列;
依据多个拟合序列分别与数据序列的误差序列,确定多次拟合处理分别输出的序列与数据序列的均方根误差、多次拟合分别输出的序列与数据序列的均方根误差的变化趋势、多次拟合采用的正弦函数的数量中至少一项;
将多次拟合处理分别输出的序列与数据序列的均方根误差、多次拟合分别输出的序列与数据序列的均方根误差的变化趋势、多次拟合采用的正弦函数的数量中至少一项,作为拟合相关信息。
进一步地,正弦函数确定模块用于:
若预定条件为预设的均方根误差阈值,且若任一次拟合处理输出的拟合序列与数据序列的均方根误差小于预设的均方根误差阈值,则依据该任一次拟合处理,确定多个正弦函数;
若预定条件为预定变化趋势呈上升,且若任一次拟合处理输出的拟合与数据序列的均方根误差大于前一次拟合处理输出的拟合序列与数据序列的均方根误差时,则依据该任一次拟合处理,确定多个正弦函数;
若预定条件为预定正弦函数数量阈值,且若任一次拟合处理采用的正弦函数的数量大于预定正弦函数数量阈值时,则依据该任一次拟合处理,确定多个正弦函数。
进一步地,输出序列确定模块用于:
依据预测模型,按照预定的续写长度对数据序列进行加和处理,得到输出序列。
进一步地,续写音频生成模块用于:
将输出序列进行反归一化处理,得到反归一化序列;
对反归一化序列进行音符转换处理,得到音符序列;
将音符序列合成为续写音频片段。
更进一步地,续写音频生成模块用于:
确定数据序列的多个极值;
依据多个极值,对输出序列进行反归一化处理。
进一步地,预测模型确定模块用于:
将多个正弦函数进行融合处理,得到预测模型。
本实施例的音频生成装置可执行本申请实施例提供的音频生成方法,其实现原理相类似,此处不再赘述。
本申请又一实施例提供了一种终端,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时以实现上述音频生成方法。
具体地,处理器可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
具体地,处理器通过总线与存储器连接,总线可包括一通路,以用于传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。
存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备, RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、 CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器用于存储执行本申请方案的计算机程序的代码,并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码,以实现图6所示实施例提供的音频生成装置的动作。
本申请实施例通过确定待续写处理的原音频片段的主旋律,并将主旋律转换为自然数序列,以便将自然数序列归一化处理为数据序列,从而依据正弦函数拟合算法对数据序列进行多次拟合,得到拟合相关信息,并通过将拟合相关信息和预定条件的比较,来确定多个正弦函数,通过多个正弦函数来得到预测模型,进而通过预测模型来得到预续写长度对应的输出序列,将输出序列进行音频转换得到续写音频片段,这种通过多次拟合的方式来获取续写音频的方式,既降低了现有技术中自动化续写音频的成本,加快了自动化续写音频的时间,还提高了续写的音频与原音频片段的相似度,避免因续写音频片段原音频片段相似度差,导致的音频质量低的问题,提高了自动化音频生成的效率。
本申请又一实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行上述图1所示的音频生成方法。
本申请实施例通过确定待续写处理的原音频片段的主旋律,并将主旋律转换为自然数序列,以便将自然数序列归一化处理为数据序列,从而依据正弦函数拟合算法对数据序列进行多次拟合,得到拟合相关信息,并通过将拟合相关信息和预定条件的比较,来确定多个正弦函数,通过多个正弦函数来得到预测模型,进而通过预测模型来得到预续写长度对应的输出序列,将输出序列进行音频转换得到续写音频片段,这种通过多次拟合的方式来获取续写音频的方式,既降低了现有技术中自动化续写音频的成本,加快了自动化续写音频的时间,还提高了续写的音频与原音频片段的相似度,避免因续写音频片段原音频片段相似度差,导致的音频质量低的问题,提高了自动化音频生成的效率。
以上所描述的装置实施例仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、 EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (8)
1.一种音频生成方法,其特征在于,包括:
获取待续写处理的原音频片段的主旋律;
将所述主旋律转换为自然数序列;
对所述自然数序列进行归一化处理,得到归一化后的数据序列;
依据预定义的正弦函数拟合算法对所述数据序列进行多次拟合处理,确定拟合相关信息;
所述依据预定义的正弦函数拟合算法对所述数据序列进行多次拟合处理,包括:
基于多次拟合处理,确定多个拟合序列;
计算多个所述拟合序列分别与所述数据序列的误差序列;
依据多个所述拟合序列分别与所述数据序列的误差序列,确定多次拟合处理分别输出的序列与所述数据序列的均方根误差、多次拟合分别输出的序列与所述数据序列的均方根误差的变化趋势、多次拟合采用的正弦函数的数量中至少一项;
将多次拟合处理分别输出的序列与所述数据序列的均方根误差、多次拟合分别输出的序列与所述数据序列的均方根误差的变化趋势、多次拟合采用的正弦函数的数量中至少一项,作为所述拟合相关信息;
将所述拟合相关信息与预定条件进行比较,并依据比较结果确定多个正弦函数;
所述将所述拟合相关信息与预定条件进行比较,并依据比较结果确定多个正弦函数,包括:
若所述预定条件为预设的均方根误差阈值,且若任一次拟合处理输出的拟合序列与数据序列的均方根误差小于预设的均方根误差阈值,则依据该任一次拟合处理,确定多个正弦函数;
若所述预定条件为预定变化趋势呈上升,且若任一次拟合处理输出的拟合与数据序列的均方根误差大于前一次拟合处理输出的拟合序列与数据序列的均方根误差时,则依据该任一次拟合处理,确定多个正弦函数;
若所述预定条件为预定正弦函数数量阈值,且若任一次拟合处理采用的正弦函数的数量大于预定正弦函数数量阈值时,则依据该任一次拟合处理,确定多个正弦函数;
基于多个所述正弦函数,确定预测模型;
依据所述预测模型,确定预定续写长度的输出序列;
将所述输出序列进行音频转换处理,得到针对所述原音频片段的续写音频片段。
2.根据权利要求1所述的方法,其特征在于,所述依据所述预测模型,确定预定续写长度的输出序列,包括:
依据所述预测模型,按照预定的续写长度对所述数据序列进行加和处理,得到所述输出序列。
3.根据权利要求1所述的方法,其特征在于,所述将所述输出序列进行音频转换处理,包括:
将所述输出序列进行反归一化处理,得到反归一化序列;
对所述反归一化序列进行音符转换处理,得到音符序列;
将所述音符序列合成为所述续写音频片段。
4.根据权利要求3所述的方法,其特征在于,所述将所述输出序列进行反归一化处理,包括:
确定所述数据序列的多个极值;
依据多个所述极值,对所述输出序列进行反归一化处理。
5.根据权利要求1所述的方法,其特征在于,所述基于多个所述正弦函数,确定预测模型,包括:
将多个所述正弦函数进行融合处理,得到所述预测模型。
6.一种音频生成装置,用于实现权利要求1所述的方法,其特征在于,包括:
主旋律获取模块,用于获取待续写处理的原音频片段的主旋律;
序列转换模块,用于将所述主旋律转换为自然数序列;
序列归一化模块,用于对所述自然数序列进行归一化处理,得到归一化后的数据序列;
正弦函数拟合模块,用于依据预定义的正弦函数拟合算法对所述数据序列进行多次拟合处理,确定拟合相关信息;
正弦函数确定模块,用于将所述拟合相关信息与预定条件进行比较,并依据比较结果确定多个正弦函数;
预测模型确定模块,用于基于多个所述正弦函数,确定预测模型;
输出序列确定模块,用于依据所述预测模型,确定预定续写长度的输出序列;
续写音频生成模块,用于将所述输出序列进行音频转换处理,得到针对所述原音频片段的续写音频片段。
7.一种终端,包括:存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至5中任一项所述的方法。
8.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010458927.5A CN111627413B (zh) | 2020-05-27 | 2020-05-27 | 音频生成方法、装置及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010458927.5A CN111627413B (zh) | 2020-05-27 | 2020-05-27 | 音频生成方法、装置及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111627413A CN111627413A (zh) | 2020-09-04 |
CN111627413B true CN111627413B (zh) | 2023-02-28 |
Family
ID=72273093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010458927.5A Active CN111627413B (zh) | 2020-05-27 | 2020-05-27 | 音频生成方法、装置及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627413B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103885359A (zh) * | 2014-02-26 | 2014-06-25 | 中山大学 | 一种基于嵌入式arm的智能车载终端 |
CN109326270A (zh) * | 2018-09-18 | 2019-02-12 | 平安科技(深圳)有限公司 | 音频文件的生成方法、终端设备及介质 |
CN109920397A (zh) * | 2019-01-31 | 2019-06-21 | 李奕君 | 一种物理学中音频函数制作系统及制作方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10628435B2 (en) * | 2017-11-06 | 2020-04-21 | Adobe Inc. | Extracting seasonal, level, and spike components from a time series of metrics data |
-
2020
- 2020-05-27 CN CN202010458927.5A patent/CN111627413B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103885359A (zh) * | 2014-02-26 | 2014-06-25 | 中山大学 | 一种基于嵌入式arm的智能车载终端 |
CN109326270A (zh) * | 2018-09-18 | 2019-02-12 | 平安科技(深圳)有限公司 | 音频文件的生成方法、终端设备及介质 |
CN109920397A (zh) * | 2019-01-31 | 2019-06-21 | 李奕君 | 一种物理学中音频函数制作系统及制作方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111627413A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112382257B (zh) | 一种音频处理方法、装置、设备及介质 | |
US20220101869A1 (en) | System and Method for Hierarchical Audio Source Separation | |
EP3929921A1 (en) | Melody detection method for audio signal, device, and electronic apparatus | |
Cogliati et al. | Context-dependent piano music transcription with convolutional sparse coding | |
JP2007333895A (ja) | 和音推定装置及び方法 | |
WO2023040332A1 (zh) | 一种曲谱生成方法、电子设备及可读存储介质 | |
CN112289300A (zh) | 音频处理方法、装置及电子设备和计算机可读存储介质 | |
US20210366454A1 (en) | Sound signal synthesis method, neural network training method, and sound synthesizer | |
CN111627413B (zh) | 音频生成方法、装置及终端 | |
CN111667803A (zh) | 一种音频处理方法及相关产品 | |
CN111863030A (zh) | 音频检测方法及装置 | |
US20210350778A1 (en) | Method and system for processing audio stems | |
US20220383843A1 (en) | Arrangement generation method, arrangement generation device, and generation program | |
US7230176B2 (en) | Method and apparatus to modify pitch estimation function in acoustic signal musical note pitch extraction | |
Li et al. | An approach to score following for piano performances with the sustained effect | |
CN112992110B (zh) | 音频处理方法、装置、计算设备以及介质 | |
US20210350783A1 (en) | Sound signal synthesis method, neural network training method, and sound synthesizer | |
Benetos et al. | Multiple-F0 estimation and note tracking for Mirex 2015 using a sound state-based spectrogram factorization model | |
US11942106B2 (en) | Apparatus for analyzing audio, audio analysis method, and model building method | |
Tang et al. | Melody Extraction from Polyphonic Audio of Western Opera: A Method based on Detection of the Singer's Formant. | |
JP7293653B2 (ja) | 演奏補正方法、演奏補正装置およびプログラム | |
JP6604307B2 (ja) | コード検出装置、コード検出プログラムおよびコード検出方法 | |
CN113470699B (zh) | 一种音频处理方法、装置、电子设备及可读存储介质 | |
CN113744760B (zh) | 一种音高识别方法、装置、电子设备及存储介质 | |
JP2020046533A (ja) | 情報処理方法および情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |