CN113314093A - 音频合成方法、装置、终端及存储介质 - Google Patents
音频合成方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN113314093A CN113314093A CN202110609881.7A CN202110609881A CN113314093A CN 113314093 A CN113314093 A CN 113314093A CN 202110609881 A CN202110609881 A CN 202110609881A CN 113314093 A CN113314093 A CN 113314093A
- Authority
- CN
- China
- Prior art keywords
- note
- pitch
- value
- pitch value
- updated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 106
- 238000000034 method Methods 0.000 claims abstract description 25
- 230000003247 decreasing effect Effects 0.000 claims abstract description 15
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 14
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 71
- 230000002194 synthesizing effect Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 abstract description 13
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000002093 peripheral effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本申请实施例提供一种音频合成方法、装置、终端及存储介质,涉及音频合成技术领域。该方法包括:获取目标歌曲中音符的音高值;采用滑音生成函数对音符的音高值进行更新,得到音符的第一更新后音高值,滑音生成函数用于使音符中采样点的音高值呈现递增趋势或递减趋势;基于音符的第一更新后音高值合成目标歌曲。本申请实施例提供的技术方案,通过在歌曲合成时,通过滑音生成函数对第一目标音符的音高值进行更新,后续歌曲合成时,基于第一目标音符的更新后音高值所生成的歌曲片段能模拟出人唱歌时具有的滑音效果,使得生成的歌曲片段更为真实。
Description
技术领域
本申请实施例涉及数据处理技术领域,特别涉及一种音频合成方法、装置、终端及存储介质。
背景技术
音高是指音的高度,其基于声波的频率决定。音高是音频合成中的一项重要特征。
相关技术中,终端通过音高生成模型生成目标歌曲的各个音符的音高值,之后上述各个音符的音高值通过声学模型处理得到声学特征,最终基于声学特征生成目标歌曲。
相关技术中,通过音高生成模型生成的音高值不自然,使得基于音高值生成的目标歌曲不够真实。
发明内容
本申请实施例提供一种音频合成方法、装置、终端及存储介质,使得基于音高合成的歌曲能模拟人类歌唱时的滑音效果,使得合成的歌声更真实。所述技术方案包括如下几方面。
一方面,本申请实施例提供一种音频合成方法,所述方法包括如下步骤:
获取目标歌曲中音符的音高值;
采用滑音生成函数对所述音符的音高值进行更新,得到所述音符的第一更新后音高值,所述滑音生成函数用于使所述音符中采样点的音高值呈现递增趋势或递减趋势;
基于所述音符的第一更新后音高值合成所述目标歌曲。
另一方面,本申请实施例提供一种音频合成装置,所述装置包括:
音高值获取模块,用于获取目标歌曲中音符的音高值;
第一更新模块,用于采用滑音生成函数对所述音符的音高值进行更新,得到所述音符的第一更新后音高值,所述滑音生成函数用于使所述音符中采样点的音高值呈现递增趋势或递减趋势;
歌曲合成模块,用于基于所述音符的第一更新后音高值合成所述目标歌曲。
又一方面,本申请实施例提供了一种终端,所述终端包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如一方面所述的音频合成方法。
又一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如一方面所述的音频合成方法。
又一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述音频合成方法。
本申请实施例提供的技术方案可以带来的有益效果至少包括:
通过在歌曲合成时,通过滑音生成函数对音符的音高值进行更新,使得音符中采样点的音高值呈现递增趋势或者递减趋势,后续歌曲合成时,基于音符的第一更新后音高值所生成的歌曲片段能模拟出人唱歌时具有的滑音效果,使得生成的歌曲片段更为真实。
附图说明
图1是本申请一个实施例提供的应用场景的示意图;
图2是本申请一个实施例提供的音频合成方法的流程图;
图3是本申请另一个实施例提供的音频合成方法的流程图;
图4是本申请另一个实施例提供的音频合成方法的流程图;
图5是本申请一个实施例提供的音频合成装置的框图;
图6是本申请一个实施例示出的终端的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请实施例涉及的相关名词进行介绍。
音高:音的高度,基于声波的频率决定,单位是Hz(赫兹)。声速一定时,频率高,波长短,则音高较高,反之,频率低,波长长,则音高较低。
滑音:一种音乐术语以及语音学术语。在音乐术语中通常指一种装饰音和演奏指法。在语音学术语中指发音器官移向或移离某一发音动作的过渡音。
颤音:一种音乐术语,是指是指歌声呈波浪式的活动,又称为音波。当气息通过声带发出声音,歌唱者有意识地将之震动,便会形成颤音。
本申请实施例提供的技术方案,通过在歌曲合成时,通过滑音生成函数对音符的音高值进行更新,使得音符中采样点的音高值呈现递增趋势或者递减趋势,后续歌曲合成时,基于音符的第一更新后音高值所生成的歌曲片段能模拟出人唱歌时具有的滑音效果,使得生成的歌曲片段更为真实。
本申请实施例提供的技术方案,各步骤的执行主体可以是计算机设备。在一种可能的实现方式中,该计算机设备是智能手机、平板电脑、个人计算机之类的终端设备。在另一种可能的实现方式中,该计算机设备是智能音箱。
本申请实施例提供的技术方案,可以应用在虚拟偶像场景。下面对这一场景进行介绍。
虚拟偶像场景:参见图1,计算机设备设置有虚拟偶像11,用户设置期望虚拟偶像11演唱的歌曲,计算机设备获取乐谱信息,并采用滑音生成函数以及颤音生成函数对音频信息中音符的音高信息进行更新,得到更新后音高信息,之后上述更新后音高信息通过声学模型处理得到声学特征,最后基于上述声学特征合成歌曲,控制虚拟偶像11歌唱该歌曲。
图2示出了本申请一个实施例提供的音频合成方法的流程图。该方法包括如下步骤。
步骤201,获取目标歌曲中的音符的音高值。
目标歌曲是指待合成的歌曲。可选地,终端获取目标歌曲的乐谱,从该乐谱中获取音符的音高值。其中,该乐谱包括目标歌曲的各个音符的音高值。
在一种可能的实现方式中,终端获取目标歌曲中全部音符的音高值。在另一种可能的实现方式中,终端获取目标歌曲中的部分音符的音高值,该部分音符是指存在音高值更新需求的音符。在一种可能的实现方式中,存在音高值更新需求的音符是指采样点数量大于第一门限的音符,第一门限根据实际需求设定,示例性地,第一门限为15。
音符包括的采样点数量也即是音符长度。音符包括的采样点数量越多,音符长度越长,音符包括的采样点数量越少,音符长度越短。可选地,乐谱还包括目标歌曲的各个音符的音符长度,终端从乐谱中获取各个音符的音符长度。
步骤202,采用滑音生成函数对音符的音高值进行更新,得到音符的第一更新后音高值。
滑音生成函数用于使音符中采样点的音高值呈现递增趋势或递减趋势,以使得基于音符的第一更新后音高值生成的目标歌曲具有滑音效果。可选地,终端采用滑音生成函数对采样点数量大于第一门限的音符进行更新,得到音符的第一更新后音高值。第一门限根据实验或经验设定,示例性地,第一门限为15。
在本申请实施例中,通过滑音生成函数对音符的音高值进行更新,以使得音符中采样点的音高值呈现递增趋势或递减趋势,后续歌曲合成时,基于音符的第一更新后音高值所生成的歌曲片段能模拟出人唱歌时具有的滑音效果,使得生成的歌曲片段更为真实。
步骤203,基于音符的第一更新后音高值合成目标歌曲。
可选地,上述音符的第一更新后音高值通过声学模型处理得到声学特征,之后通过合成函数将声学特征合成为目标歌曲。在一种可能的实现方式中,声学特征包括梅尔谱特征。在另一种可能的实现方式中,声学特征包括噪声特征、声道特征以及声门特征。
综上所述,本申请实施例提供的技术方案,通过在歌曲合成时,通过滑音生成函数对音符的音高值进行更新,使得音符中采样点的音高值呈现递增趋势或者递减趋势,后续歌曲合成时,基于音符的第一更新后音高值所生成的歌曲片段能模拟出人唱歌时具有的滑音效果,使得生成的歌曲片段更为真实。
下面对通过滑音生成函数来进行音高值更新的方法进行讲解。
在基于图2所示实施例提供的可选实施例中,步骤202实现为:若音符满足预设条件,则采用第一滑音生成函数对音符中至少一个第一采样点的音高值进行更新,得到第一采样点的更新后音高值。
预设条件包括:音符对应的歌词文本的声母为清音声母,或者音符对应的歌词文本的声母不为清音声母且音符对应的歌词文本为目标歌曲中歌词段落的第一个歌词文本。清音声母包括且不限于:‘g’、‘z’、‘b’、‘t’、‘j’、‘ch’、‘f’、‘x’、‘h’、‘p’、‘d’、‘sh’、‘q’、‘s’、‘zh’、‘k’、‘c’。
可选地,终端按照第一滑音生成函数对第一采样点的序号、音符的音高值、初始值进行运算,得到第一采样点的更新后音高值。
第一采样点根据实验或经验设定。可选地,第一采样点是指音符中前半个音符的采样点。例如,音符包括2*i个采样点时,则对音符的前i个采样点的音高值进行更新。
第一采样点的更新后音高值与第一采样点的序号呈正相关关系。也即,第一采样点的序号越小,则第一采样点的更新后音高值越小;第一采样点的序号越大,则第一采样点的更新后音高值越大。
第一采样点的更新后音高值与第一差值呈正相关关系。也即,第一差值越大,第一采样点的更新后音高值越大;第一差值越小,第一采样点的更新后音高值越小。第一差值是音符的音高值与初始值之间的差值,初始值基于音符的音高值设定。初始值根据实验或经验设定。可选地,初始值b通过如下公式来表示。
b=a*(2(-2/12))。
其中,a是音符的音高值。
可选地,终端按照第一滑音生成函数对第一采样点的序号、音符的音高值、初始值进行运算,得到第一采样点的更新后音高值包括如下子步骤:
(1)基于自然常数和第一采样点的序号获取第一中间值;
(2)获取第一差值;
(3)获取第一中间值与第一差值的第一乘积;
(4)将第一乘积与初始值的和,确定为第一采样点的更新后音高值。
可选地,终端通过如下公式(也即第一滑音生成函数)对第一采样点的音高值进行更新。
在基于图2所示实施例提供的可选实施例中,步骤202实现为:若第一目标音符的音高值不满足预设条件,则采用第二滑音生成函数对音符中至少一个第二采样点的音高值,并对音符的前一音符中至少一个第二采样点的音高值进行更新,得到第二采样点的更新后音高值。
可选地,终端采用第二滑音生成函数对音符中至少一个第二采样点的音高值,并对音符的前一音符中至少一个第二采样点的音高值进行更新,得到第二采样点的更新后音高值,包括:按照第二滑音生成函数对第二采样点的序号、音符的音高值、前一音符的音高值进行运算,得到第二采样点的更新后音高值。
第二采样点根据实验或经验设定。可选地,第二采样点是指音符中前半个音符的采样点。可选地,第二采样点是音符的前一音符中后半个音符的采样点。
第二采样点的更新后音高值与第二采样点的序号呈正相关关系。也即,第二采样点的序号越小,则第二采样点的更新后音高值越小;第二采样点的序号越大,则第二采样点的更新后音高值越大。
第二采样点的更新后音高值与第二差值呈正相关关系。也即,第二差值越大,第二采样点的更新后音高值越大;第二差值越小,第二采样点的更新后音高值越小。第二差值是音符的音高值与前一音符的音高值之间的差值,或者,第二差值是前一音符的音高值与音符的音高值之间的差值。
在一种可能的实现方式中,按照第二滑音生成函数对第二采样点的序号、音符的音高值、前一音符的音高值进行运算,得到第二采样点的更新后音高值包括如下子步骤:
(1)若音符的音高值大于前一音符的音高值,则将音符的音高值与前一音符的音高值之间的差值确定为第二差值;
(2)基于自然常数和第二采样点的序号获取第二中间值;
(3)获取第二中间值与第二差值之间的第二乘积;
(4)将第二乘积与前一音符的音高值的和,确定为第二采样点的更新后音高值。
在该种实现方式中,若音符的音高值大于前一音符的音高值,则通过如下第一公式(也即第二滑音生成函数)对第二采样点的音高值进行更新。
x是指采样点的序号,其取值是-i到i-1。示例性地,x的取值为-1时,其表示音符的前一音符的最后一个采样点,x的取值为-2时,其表示音符的前一音符的倒数第二个采样点。X的取值为0时,其表示音符的第一个采样点。c是指音符的音高值,d是指音符的前一音符的音高值。是第二中间值,(c-d)是第二差值。是第二乘积。
在另一种可能的实现方式中,按照第二滑音生成函数对第二采样点的序号、音符的音高值、前一音符的音高值进行运算,得到第二采样点的更新后音高值包括如下子步骤:
(1)若音符的音高值小于前一音符的音高值,则将前一音符的音高值与音符的音高值之间的差值确定为第二差值;
(2)基于第二采样点的序号获取第二中间值;
(3)获取第二中间值与第二差值之间的第二乘积;
(4)将前一音符的音高值与第二乘积之间的差值,确定为第二采样点的更新后音高值。
在该种实现方式中,若音符的音高值小于前一音符的音高值,则通过如下第二公式(也即第二滑音生成函数)对第二采样点的音高值进行更新。
在其他可能的实现方式中,若音符的音高值等于前一音符的音高值,可以按照第一公式对音符的音高值进行更新,也可以按照第二公式对音符的音高值进行更新,还可以不执行音符的音高值更新步骤。
在基于图2所示实施例提供的可选实施例中,参考图3,该音频合成方法还包括如下步骤。
步骤301,获取目标歌曲中的音符的音高值。
在一种可能的实现方式中,终端获取目标歌曲中全部音符的音高值。在另一种可能的实现方式中,终端获取目标歌曲中的部分音符的音高值,该部分音符是指存在音高值更新需求的音符。在一种可能的实现方式中,存在音高值更新需求的音符是指采样点数量大于第二门限的音符,第二门限根据实际需求设定。
步骤302,采用颤音生成函数对音符的音高值进行更新,得到音符的第二更新后音高值。
颤音生成函数用于使音符中采样点的音高值呈现波动趋势,以使得基于音符的第二更新后音高值生成目标歌曲具有颤音效果。
可选地,终端采用颤音生成函数对采样点数量大于第二门限的音符进行更新,得到音符的第二更新后音高值。第二门限根据实验或经验设定,示例性地,第二门限为20。第二门限与第一门限可以相同,也可以不相同。
在本申请实施例中,通过颤音生成函数对音符的音高值进行更新,使得音符中采样点的音高值呈现波动趋势,后续歌曲合成时,基于音符的第二更新后音高值所生成的歌曲片段能模拟出人唱歌时具有的颤音效果,使得生成的歌曲片段更为真实。
可选地,终端采用颤音生成函数对第二目标音符的音高值进行更新,得到第二目标音符的更新后音高值,包括:
步骤302a,基于颤音振动频率与采样点间隔周期,确定目标频率。
颤音振动频率的一般范围是是3-8Hz,其具体数值根据实验设定,在一个示例中,颤音振动频率为4.5Hz。采样点间隔周期根据实际需求设定,示例性地,采样点间隔周围为0.01s。可选地,目标频率f通过如下公式生成。
f=2*π*v1*v2。
其中,v1是颤音震动频率,v2是采样点间隔周期。以v1为4.5Hz,v2是0.01s为例,此时计算出f为0.28。
步骤302b,获取目标频率与第三采样点的序号之间的第三乘积。
第三采样点根据实验或经验设定。可选地,第三采样点是指音符中三分之二到结尾处的采样点。例如,音符包括3*i个采样点时,则对音符的后i个采样点的音高值进行更新。
步骤302c,基于第三乘积与预设常数,获取第三中间值。
步骤302d,将第三中间值与第三采样点的音高值之和,确定为音符中第三采样点的音高值。
可选地,终端通过如下公式对第三采样点的音高值进行更新。
pj=pj+g*sin(f*j)。
j是第三采样点的序号。例如,若音符的采样点通过0到3*i-1来表示,则j的取值为2*i到3*i-1。g是预设常数。示例性地,g为0.005。(f*j)是第三乘积。g*sin(f*j)是第三中间值。
步骤303,基于音符的第二更新后音高值合成目标歌曲。
可选地,上述音符的第二更新后音高值通过声学模型处理得到声学特征,之后通过合成函数将声学特征合成为目标歌曲。在一种可能的实现方式中,声学特征包括梅尔谱特征。在另一种可能的实现方式中,声学特征包括噪声特征、声道特征以及声门特征。
综上所述,本申请实施例提供的技术方案,通过在歌曲合成时,通过颤音生成函数对音符的音高值进行更新,使得音符中采样点的音高值呈现波动趋势,后续歌曲合成时,基于音符的第二更新后音高值所生成的歌曲片段能模拟出人唱歌时具有的颤音效果,使得生成的歌曲片段更为真实。
图4是本申请实施例提供的一个音频合成方法的流程图。该方法包括如下步骤。
步骤401,获取目标歌曲中音符的音高值。
若音符满足预设条件,则执行步骤402,若音符不满足预设条件,则执行步骤403。预设条件包括:音符对应的歌词文本的声母为清音声母,或者音符对应的歌词文本的声母不为清音声母且音符对应的歌词文本为目标歌曲中歌词段落的第一个歌词文本。
步骤402,采用第一滑音生成函数对音符中至少一个第一采样点的音高值进行更新,得到第一采样点的更新后音高值。
第一滑音生成函数用于使音符中采样点的音高值呈现递增趋势或递减趋势。
步骤403,采用第二滑音生成函数对音符中至少一个第二采样点的音高值,并对音符的前一音符中至少一个第二采样点的音高值进行更新,得到第二采样点的更新后音高值。
第一滑音生成函数用于使音符中采样点的音高值呈现递增趋势或递减趋势。
步骤404,采用颤音生成函数对音符的音高值进行更新,得到音符的第二更新后音高值。
颤音生成函数用于使音符中采样点的音高值呈现波动趋势。
步骤405,基于第一采样点的更新后音高值、第二采样点的更新后音高值和第二更新后音高值合成目标歌曲。
综上所述,本申请实施例提供的技术方案,通过在歌曲合成时,通过滑音生成函数对音符的音高值进行更新,使得音符中采样点的音高值呈现递增趋势或者递减趋势,以及通过颤音生成函数对音符的音高值进行更新,使得音符中采样点的音高值呈现波动趋势,后续歌曲合成时,基于音符的第一更新后音高值和音符的第二更新后音高值所生成的歌曲片段,模拟出人唱歌时具有的滑音效果和颤音效果,使得生成的歌曲片段更为真实。
以下为本申请装置实施例,对于装置实施例中未详细阐述的部分,可以参考上述方法实施例中公开的技术细节。
请参考图5,其示出了本申请一个示例性实施例提供的音频合成装置的框图。该音频合成装置可以通过软件、硬件或者两者的组合实现成为终端的全部或一部分。该音频合成装置包括如下模块。
音高值获取模块501,用于获取目标歌曲中音符的音高值。
第一更新模块502,用于采用滑音生成函数对所述音符的音高值进行更新,得到所述音符的第一更新后音高值,所述滑音生成函数用于使所述音符中采样点的音高值呈现递增趋势或递减趋势。
音频合成模块503,用于基于所述音符的第一更新后音高值合成所述目标歌曲。
综上所述,本申请实施例提供的技术方案,通过在歌曲合成时,通过滑音生成函数对音符的音高值进行更新,使得音符中采样点的音高值呈现递增趋势或者递减趋势,后续歌曲合成时,基于音符的第一更新后音高值所生成的歌曲片段能模拟出人唱歌时具有的滑音效果,使得生成的歌曲片段更为真实。
在基于图5所示实施例提供的可选实施例中,所述第一更新模块502,用于:
若所述音符满足预设条件,则采用第一滑音生成函数对所述音符中至少一个第一采样点的音高值进行更新,得到所述第一采样点的更新后音高值;
其中,所述预设条件包括:所述音符对应的歌词文本的声母为清音声母,或者所述音符对应的歌词文本的声母不为清音声母且所述音符对应的歌词文本为所述目标歌曲中歌词段落的第一个歌词文本。
可选地,所述第一更新模块502,用于:
按照所述第一滑音生成函数对所述第一采样点的序号、所述音符的音高值、初始值进行运算,得到所述第一采样点的更新后音高值;
其中,所述第一采样点的更新后音高值与所述第一采样点的序号呈正相关关系,所述第一采样点的更新后音高值与第一差值呈正相关关系,所述第一差值是所述音符的音高值与所述初始值之间的差值,所述初始值基于所述音符的音高值设定。
可选地,所述第一更新模块502,用于:
基于自然常数和所述第一采样点的序号获取第一中间值;
获取所述第一差值;
获取所述第一中间值与所述第一差值的第一乘积;
将所述第一乘积与所述初始值的和,确定为所述第一采样点的更新后音高值。
在基于图5所示实施例提供的可选实施例中,所述第一更新模块502,用于:
若所述音符不满足预设条件,则采用第二滑音生成函数对所述音符中至少一个第二采样点的音高值,并对所述音符的前一音符中至少一个第二采样点的音高值进行更新,得到所述第二采样点的更新后音高值。
可选地,所述第一更新模块502,用于:
按照所述第二滑音生成函数对所述第二采样点的序号、所述音符的音高值、所述前一音符的音高值进行运算,得到所述第二采样点的更新后音高值;
其中,所述第二采样点的更新后音高值与所述第二采样点的序号呈正相关关系;所述采样点的更新后音高值与第二差值呈正相关关系;所述第二差值是所述音符的音高值与所述前一音符的音高值之间的差值,或者,所述第二差值是所述前一音符的音高值与所述音符的音高值之间的差值。
可选地,所述第一更新模块502,用于:
若所述音符的音高值大于所述前一音符的音高值,则将所述音符的音高值与所述前一音符的音高值之间的差值确定为所述第二差值;
基于自然常数和所述第二采样点的序号获取第二中间值;
获取所述第二中间值与所述第二差值之间的第二乘积;
将所述第二乘积与所述前一音符的音高值的和,确定为所述第二采样点的更新后音高值。
可选地,所述第一更新模块502,用于:
若所述音符的音高值小于所述前一音符的音高值,则将所述前一音符的音高值与所述音符的音高值之间的差值确定为所述第二差值;
基于所述第二采样点的序号获取第二中间值;
获取所述第二中间值与所述第二差值之间的第二乘积;
将所述前一音符的音高值与所述第二乘积之间的差值,确定为所述第二采样点的更新后音高值。
在基于图5所示实施例提供的可选实施例中,所述装置还包括:第二更新模块(图5未示出)。
第二更新模块,用于采用颤音生成函数对所述音符中的音高值进行更新,得到所述音符的第二更新后音高值,所述颤音生成函数用于使所述音符中采样点的音高值呈现波动趋势。
可选地,所述第二更新模块,用于:基于颤音震动频率与采样点间隔周期,确定目标频率;
获取所述目标频率与第三采样点的序号之间的第三乘积;
基于所述第三乘积与预设常数,获取第三中间值;
将所述第三中间值与所述第三采样点的音高值之和,确定为所述音符中所述第三采样点的音高值。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6示出了本申请一个示例性实施例提供的计算机设备600的结构框图。该计算机设备600可以是:智能手机、平板电脑、笔记本电脑或台式电脑。计算机设备600还可能被称为用户设备、便携式计算机设备、膝上型计算机设备、台式计算机设备等其他名称。
通常,计算机设备600包括有:处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、6核心处理器等。处理器601可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储计算机程序,该计算机程序用于被处理器601所执行以实现本申请中方法实施例提供的音频合成方法。
在一些实施例中,计算机设备600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、触摸显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。
本领域技术人员可以理解,图6中示出的结构并不构成对计算机设备600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由终端的处理器加载并执行以实现上述方法实施例中的音频合成方法。
可选地,上述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面或者一方面的各种可选实现方式中提供的音频合成方法。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (13)
1.一种音频合成方法,其特征在于,所述方法包括:
获取目标歌曲中音符的音高值;
采用滑音生成函数对所述音符的音高值进行更新,得到所述音符的第一更新后音高值,所述滑音生成函数用于使所述音符中采样点的音高值呈现递增趋势或递减趋势;
基于所述音符的第一更新后音高值合成所述目标歌曲。
2.根据权利要求1所述的方法,其特征在于,所述采用滑音生成函数对至少一个所述音符的音高值进行更新,得到所述音符的第一更新后音高值,包括:
若所述音符满足预设条件,则采用第一滑音生成函数对所述音符中至少一个第一采样点的音高值进行更新,得到所述第一采样点的更新后音高值;
其中,所述预设条件包括:所述音符对应的歌词文本的声母为清音声母,或者所述音符对应的歌词文本的声母不为清音声母且所述音符对应的歌词文本为所述目标歌曲中歌词段落的第一个歌词文本。
3.根据权利要求2所述的方法,其特征在于,所述采用第一滑音生成函数对所述音符中至少一个第一采样点的音高值进行更新,得到所述第一采样点的更新后音高值,包括:
按照所述第一滑音生成函数对所述第一采样点的序号、所述音符的音高值、初始值进行运算,得到所述第一采样点的更新后音高值;
其中,所述第一采样点的更新后音高值与所述第一采样点的序号呈正相关关系,所述第一采样点的更新后音高值与第一差值呈正相关关系,所述第一差值是所述音符的音高值与所述初始值之间的差值,所述初始值基于所述音符的音高值设定。
4.根据权利要求3所述的方法,其特征在于,所述按照所述第一滑音生成函数对所述第一采样点的序号、所述音符的音高值、初始值进行运算,得到所述第一采样点的更新后音高值,包括:
基于自然常数和所述第一采样点的序号获取第一中间值;
获取所述第一差值;
获取所述第一中间值与所述第一差值的第一乘积;
将所述第一乘积与所述初始值的和,确定为所述第一采样点的更新后音高值。
5.根据权利要求1所述的方法,其特征在于,所述采用滑音生成函数对至少一个所述音符的音高值进行更新,包括:
若所述音符不满足预设条件,则采用第二滑音生成函数对所述音符中至少一个第二采样点的音高值,并对所述音符的前一音符中至少一个第二采样点的音高值进行更新,得到所述第二采样点的更新后音高值。
6.根据权利要求5所述的方法,其特征在于,所述采用第二滑音生成函数对所述音符中至少一个第二采样点的音高值,以及所述音符的前一音符中至少一个第二采样点的音高值进行更新,得到所述第二采样点的更新后音高值,包括:
按照所述第二滑音生成函数对所述第二采样点的序号、所述音符的音高值、所述前一音符的音高值进行运算,得到所述第二采样点的更新后音高值;
其中,所述第二采样点的更新后音高值与所述第二采样点的序号呈正相关关系;所述第二采样点的更新后音高值与第二差值呈正相关关系;所述第二差值是所述音符的音高值与所述前一音符的音高值之间的差值,或者,所述第二差值是所述前一音符的音高值与所述音符的音高值之间的差值。
7.根据权利要求6所述的方法,其特征在于,所述按照所述第二滑音生成函数对所述第二采样点的序号、所述音符的音高值、所述前一音符的音高值进行运算,得到所述第二采样点的更新后音高值,包括:
若所述音符的音高值大于所述前一音符的音高值,则将所述音符的音高值与所述前一音符的音高值之间的差值确定为所述第二差值;
基于自然常数和所述第二采样点的序号获取第二中间值;
获取所述第二中间值与所述第二差值之间的第二乘积;
将所述第二乘积与所述前一音符的音高值的和,确定为所述第二采样点的更新后音高值。
8.根据权利要求6所述的方法,其特征在于,所述按照所述第二滑音生成函数对所述第二采样点的序号、所述音符的音高值、所述前一音符的音高值进行运算,得到所述第二采样点的更新后音高值,包括:
若所述音符的音高值小于所述前一音符的音高值,则将所述前一音符的音高值与所述音符的音高值之间的差值确定为所述第二差值;
基于所述第二采样点的序号获取第二中间值;
获取所述第二中间值与所述第二差值之间的第二乘积;
将所述前一音符的音高值与所述第二乘积之间的差值,确定为所述第二采样点的更新后音高值。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述方法还包括:
采用颤音生成函数对所述音符的音高值进行更新,得到所述音符的第二更新后音高值,所述颤音生成函数用于使所述音符中采样点的音高值呈现波动趋势。
10.根据权利要求9所述的方法,其特征在于,所述采用颤音生成函数对至少一个所述音符中的音高值进行更新,得到所述音符的第二更新后音高值,包括:
基于颤音震动频率与采样点间隔周期,确定目标频率;
获取所述目标频率与第三采样点的序号之间的第三乘积;
基于所述第三乘积与预设常数,获取第三中间值;
将所述第三中间值与所述第三采样点的音高值之和,确定为所述音符中所述第三采样点的音高值。
11.一种音频合成装置,其特征在于,所述装置包括:
音高值获取模块,用于获取目标歌曲中音符的音高值;
第一更新模块,用于采用滑音生成函数对所述音符的音高值进行更新,得到所述音符的第一更新后音高值,所述滑音生成函数用于使所述音符中采样点的音高值呈现递增趋势或递减趋势;
歌曲合成模块,用于基于所述音符的第一更新后音高值合成所述目标歌曲。
12.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行如权利要求1至10任一项所述的音频合成方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至10任一项所述的音频合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110609881.7A CN113314093B (zh) | 2021-06-01 | 2021-06-01 | 音频合成方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110609881.7A CN113314093B (zh) | 2021-06-01 | 2021-06-01 | 音频合成方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113314093A true CN113314093A (zh) | 2021-08-27 |
CN113314093B CN113314093B (zh) | 2024-04-12 |
Family
ID=77377039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110609881.7A Active CN113314093B (zh) | 2021-06-01 | 2021-06-01 | 音频合成方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113314093B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4442751A (en) * | 1981-07-02 | 1984-04-17 | Kabushiki Kaisha Kawai Gakki Seisakusho | Effect generating system for an electronic musical instrument |
JP2003108177A (ja) * | 2001-09-27 | 2003-04-11 | Roland Corp | 音声合成方法および子音音素片データの作成方法 |
CN108766452A (zh) * | 2018-04-03 | 2018-11-06 | 北京小唱科技有限公司 | 修音方法及装置 |
CN111785238A (zh) * | 2020-06-24 | 2020-10-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频校准方法、装置及存储介质 |
CN112270913A (zh) * | 2020-10-27 | 2021-01-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 音高调节方法、装置及计算机存储介质 |
-
2021
- 2021-06-01 CN CN202110609881.7A patent/CN113314093B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4442751A (en) * | 1981-07-02 | 1984-04-17 | Kabushiki Kaisha Kawai Gakki Seisakusho | Effect generating system for an electronic musical instrument |
JP2003108177A (ja) * | 2001-09-27 | 2003-04-11 | Roland Corp | 音声合成方法および子音音素片データの作成方法 |
CN108766452A (zh) * | 2018-04-03 | 2018-11-06 | 北京小唱科技有限公司 | 修音方法及装置 |
CN111785238A (zh) * | 2020-06-24 | 2020-10-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频校准方法、装置及存储介质 |
CN112270913A (zh) * | 2020-10-27 | 2021-01-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 音高调节方法、装置及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113314093B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Heidemann | A System for Describing Vocal Timbre in Popular Song. | |
CN108806656B (zh) | 歌曲的自动生成 | |
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
CN109785820B (zh) | 一种处理方法、装置及设备 | |
US5704007A (en) | Utilization of multiple voice sources in a speech synthesizer | |
KR101274961B1 (ko) | 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템 | |
US5930755A (en) | Utilization of a recorded sound sample as a voice source in a speech synthesizer | |
KR20150016225A (ko) | 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환 | |
CN108986841B (zh) | 音频信息处理方法、装置及存储介质 | |
US20110054902A1 (en) | Singing voice synthesis system, method, and apparatus | |
CN103366730B (zh) | 声音合成设备 | |
CN111418006B (zh) | 声音合成方法、声音合成装置及记录介质 | |
Feugère et al. | Cantor Digitalis: chironomic parametric synthesis of singing | |
JP2016509384A (ja) | コーディネートされた、ユーザ選択可能な音響及びビデオ効果フィルタを有する音響視覚取得及び共有フレームワーク | |
JP2010014913A (ja) | 声質変換音声生成装置および声質変換音声生成システム | |
CN111477210A (zh) | 语音合成方法和装置 | |
JP6790959B2 (ja) | 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム | |
CN113314093B (zh) | 音频合成方法、装置、终端及存储介质 | |
JP6044284B2 (ja) | 音声合成装置 | |
JP5157922B2 (ja) | 音声合成装置、およびプログラム | |
Loscos | Spectral processing of the singing voice. | |
WO2019239971A1 (ja) | 情報処理方法、情報処理装置およびプログラム | |
Howard | The vocal tract organ and the vox humana organ stop | |
CN113421544B (zh) | 歌声合成方法、装置、计算机设备及存储介质 | |
CN112802449B (zh) | 音频合成方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |