CN115602182A - 声音变换方法、系统、计算机设备及存储介质 - Google Patents
声音变换方法、系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115602182A CN115602182A CN202211594724.4A CN202211594724A CN115602182A CN 115602182 A CN115602182 A CN 115602182A CN 202211594724 A CN202211594724 A CN 202211594724A CN 115602182 A CN115602182 A CN 115602182A
- Authority
- CN
- China
- Prior art keywords
- frequency
- amplitude
- audio signal
- tone
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000005236 sound signal Effects 0.000 claims abstract description 141
- 230000004044 response Effects 0.000 claims description 30
- 241001465754 Metazoa Species 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000271566 Aves Species 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 206010041235 Snoring Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明涉及一种声音变换方法、系统、计算机设备及存储介质,其技术方案要点是:接收第一音频信号和用户选定的目标音色;对所述第一音频信号进行分解和重构得到第二音频信号;根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号;本申请具有灵活变声,更便于音乐创作的效果。
Description
技术领域
本发明涉及声音处理技术领域,更具体地说,它涉及一种声音变换方法、系统、计算机设备及存储介质。
背景技术
现有的变声或k歌应用中,如唱吧应用,可以切换演唱的场景模式,用户可选择ktv、演唱会等模式,但是在演唱或哼唱的过程中,难以实现对声音音色转换,使得用户的演唱或音乐创作难以达到较好的效果。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种声音变换方法、系统、计算机设备及存储介质,具有灵活变声,更便于音乐创作的功能优点。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种声音变换方法,包括:
接收第一音频信号和用户选定的目标音色;
对所述第一音频信号进行分解和重构得到第二音频信号;
根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。
可选的,所述对所述第一音频信号进行分解和重构得到第二音频信号,包括:
采用小波变换的方法对所述第一音频信号进行分解和重构,得到20-20000Hz频段的信号,即第二音频信号。
可选的,所述根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值,包括:
对所述第二音频信号进行快速傅里叶变换,得到第二音频信号的幅频响应曲线;
对所述幅频响应曲线进行波峰检测,提取出该幅频响应曲线的最大峰值点,该峰值点的频率和幅值为该第二音频信号的基频的频率和幅值;
根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值;
判断所有所述倍频中是否有幅值小于预设阈值的倍频,若是,则从所有倍频中剔除幅值小于预设阈值的倍频得到至少一有效倍频,若否,则所有倍频均为有效倍频。
可选的,所述根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值包括:
根据整数倍频率确定所述基频的所有倍频的频率;
根据所述幅频响应曲线确定所有倍频的幅值。
可选的,所述音色转换模型包括:乐器音色转换模型、人声音色转换模型、动物音色转换模型和自然音色转换模型中的任一种或多种。
可选的,所述第一音频信号为人声哼唱音频信号;所述目标音色为乐器音色;所述声音变换方法还包括:根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱。
可选的,所述音色转换模型的构建方法包括:
收集目标的样本音频信号;
利用所述样本音频信号对预先基于多个目标的样本音频信号构建的通用转换模型进行自适应训练,得到对应所述目标的音色转换模型。
一种声音变换系统,包括:
接收模块,用于接收第一音频信号和用户选定的目标音色;
处理模块,用于对所述第一音频信号进行分解和重构得到第二音频信号;
提取模块,用于根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
确定模块、用于根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
转换模块,用于将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。
一种计算机设备, 包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
综上所述,本发明具有以下有益效果:用户可选定需转换的音色,也就是选定目标音色,本申请可以将人声的哼唱转变成如钢琴、吉他、小提琴、古筝演奏的乐器声,在条件有限(如无乐器)的情况下,实现与乐器伴奏相同的效果,也可以将人声的哼唱转变成动物声和自然声,使得用户在进行音乐创作的情况下,无需采集动物声和自然声,通过本申请的转换方法就能得到用户需要的动物声和自然声,具有灵活变声的优点,更便于用户进行音乐创作。
附图说明
图1是本发明提供的声音变换方法的流程示意图;
图2是本发明提供的声音变换系统的结构框图;
图3是本发明实施例中计算机设备的内部结构图。
具体实施方式
为使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。
在本发明中,除非另有明确的规定和限定,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
下面结合附图和实施例,对本发明进行详细描述。
本发明提供了一种声音变换方法,如图1所示,包括:
步骤100、接收第一音频信号和用户选定的目标音色;
步骤200、对所述第一音频信号进行分解和重构得到第二音频信号;
步骤300、根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
步骤400、根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
步骤500、将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。
在实际应用中,可通过麦克风根据奈奎斯特采样定理对声音进行采集得到第一音频信号,所述声音包括但不限于人声(说话、鼾声、咳嗽声、歌声等),动物声(虫鸟鱼兽的声音等),环境声(汽车或施工噪声等),自然声(风声、水声、海浪声等),乐器声(电子乐器、传统乐器等),可通过采用单片机实现对第一音频信号的分解和重构得到第二音频信号,以及根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值,然后通过蓝牙模块将基频的频率和幅值、及至少一有效倍频的频率和幅值传输给用户终端,用户可通过安装在用户终端上的应用选定需转换的音色,也就是选定目标音色,在用户终端或云端服务器上进行第三音频信号的合成。
另外,本申请可以将人声的哼唱转变成如钢琴、吉他、小提琴、古筝演奏的乐器声,在条件有限(如无乐器)的情况下,实现与乐器伴奏相同的效果,也可以将人声的哼唱转变成动物声和自然声,使得用户在进行音乐创作的情况下,无需采集动物声和自然声,通过本申请的转换方法就能得到用户需要的动物声和自然声,更便于用户进行音乐创作。
进一步地,所述对所述第一音频信号进行分解和重构得到第二音频信号,包括:
采用小波变换的方法对所述第一音频信号进行分解和重构,由于人的听觉范围为20-20000Hz,因此,本申请中去除无关频段的信号,选择得到20-20000Hz频段的信号,即第二音频信号,以减少超声波或次声波对后续音频信号处理的影响。
进一步地,所述根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值,包括:
对所述第二音频信号进行快速傅里叶变换,得到第二音频信号的幅频响应曲线;
对所述幅频响应曲线进行波峰检测,提取出该幅频响应曲线的最大峰值点,该峰值点的频率和幅值为该第二音频信号的基频的频率和幅值;
根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值;
判断所有所述倍频中是否有幅值小于预设阈值的倍频,若是,则从所有倍频中剔除幅值小于预设阈值的倍频得到至少一有效倍频,若否,则所有倍频均为有效倍频。
在实际应用中,将基频的频率和幅值还有有效倍频的频率和幅值输入到目标音色对应的音色转换模型中,音色转换模型能够根据基频的频率和幅值以及有效倍频的频率和幅值合成带有目标音色的第三音频信号,如将人声的哼唱转换成乐器声、动物声或自然声的伴奏,达到更好的演奏效果。
进一步地,所述根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值包括:
根据整数倍频率确定所述基频的所有倍频的频率;
根据所述幅频响应曲线确定所有倍频的幅值。
在实际应用中,乐音主要由音高、音强、音色、时值4种元素构成,根据基频的频率和倍频的频率能够确定乐音的音高,根据基频的幅值和倍频的幅值能够确定乐音的音强,根据用户选定的目标音色确定乐音的音色,通过记录人声基频的产生时长,并根据该时长确定乐音的时值,将基频的频率和幅值、倍频的频率和幅值、目标音色和基频的时长进行合成,使得输出声音(也就是第三音频信号)的轻重缓急和持续时长也跟随输入声音(也就是第一音频信号)变化。
进一步地,所述音色转换模型包括:乐器音色转换模型、人声音色转换模型、动物音色转换模型和自然音色转换模型中的任一种或多种。具体的,在第一音频信号为乐器演奏声、动物声或自然声的情况下,在将第一音频信号经过小波变换和快速傅里叶变换得到基频的频率和幅值以及倍频的频率和幅值后,能够将基频的频率和幅值以及倍频的频率和幅值输入到人声音色转换模型中转变成人声的哼唱。
进一步地,所述第一音频信号为人声哼唱音频信号;所述目标音色为乐器音色;所述声音变换方法还包括:根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱。
在第一音频信号为人声哼唱音频信号,目标音色为乐器音色,在得到基频的频率以及倍频的频率的情况下,能够根据国际标准音高与频率对照表确定音高,然后根据基频的幅值和倍频的幅值确定音强,根据基频的产生时长确定时值,在得到音高、音强、和时值的情况下,能够生成音谱,便于在人声哼唱的情况下,能够自动记录并生成乐谱,从而更便于音乐创作。
在第一音频信号为乐器声,目标音色为人声的情况下,得到乐器声基频的频率和幅值以及倍频的频率和幅值后,结合选定人声音色和声音内容进行合成和声音输出,所述人声音色可以是合成音色,输出声音的轻重缓急和持续时长也跟随输入声音变化。
进一步地,所述音色转换模型的构建方法包括:
收集目标的样本音频信号;根据目标的不同,收集各个目标的音频信号作为样本音频信号,如,若目标为钢琴,则收集钢琴的音频信号作为样本音频信号,若目标为人声,则收集人声的音频信号作为样本音频信号;
利用所述样本音频信号对预先基于多个目标的样本音频信号构建的通用转换模型进行自适应训练,得到对应所述目标的音色转换模型。
在本申请中各个目标均具有对应的通用转换模型,通用转换模型为神经网络模型,对于各个目标,创建该目标的通用转换模型,然后通过大量的该目标的样本音频信号对该目标的通用转换模型进行训练得到该目标的音色转换模型。
本发明的声音变换方法,用户可选定需转换的音色,也就是选定目标音色,本申请可以将人声的哼唱转变成如钢琴、吉他、小提琴、古筝演奏的乐器声,在条件有限(如无乐器)的情况下,实现与乐器伴奏相同的效果,也可以将人声的哼唱转变成动物声和自然声,使得用户在进行音乐创作的情况下,无需采集动物声和自然声,通过本申请的转换方法就能得到用户需要的动物声和自然声,具有灵活变声的优点,更便于用户进行音乐创作。
如图2所示,本发明还提供了一种声音变换系统,包括:
接收模块10,用于接收第一音频信号和用户选定的目标音色;
处理模块20,用于对所述第一音频信号进行分解和重构得到第二音频信号;
提取模块30,用于根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
确定模块40、用于根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
转换模块50,用于将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。
关于声音变换系统的具体限定可以参见上文中对于声音变换方法的限定,在此不再赘述。上述声音变换系统的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种声音变换方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备, 包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行计算机程序时实现以下步骤:
接收第一音频信号和用户选定的目标音色;
对所述第一音频信号进行分解和重构得到第二音频信号;
根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。
在一个实施例中,所述对所述第一音频信号进行分解和重构得到第二音频信号,包括:
采用小波变换的方法对所述第一音频信号进行分解和重构,得到20-20000Hz频段的信号,即第二音频信号。
在一个实施例中,所述根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值,包括:
对所述第二音频信号进行快速傅里叶变换,得到第二音频信号的幅频响应曲线;
对所述幅频响应曲线进行波峰检测,提取出该幅频响应曲线的最大峰值点,该峰值点的频率和幅值为该第二音频信号的基频的频率和幅值;
根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值;
判断所有所述倍频中是否有幅值小于预设阈值的倍频,若是,则从所有倍频中剔除幅值小于预设阈值的倍频得到至少一有效倍频,若否,则所有倍频均为有效倍频。
在一个实施例中,所述根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值包括:
根据整数倍频率确定所述基频的所有倍频的频率;
根据所述幅频响应曲线确定所有倍频的幅值。
在一个实施例中,所述音色转换模型包括:乐器音色转换模型、人声音色转换模型、动物音色转换模型和自然音色转换模型中的任一种或多种。
在一个实施例中,所述第一音频信号为人声哼唱音频信号;所述目标音色为乐器音色;所述声音变换方法还包括:根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱。
在一个实施例中,所述音色转换模型的构建方法包括:
收集目标的样本音频信号;
利用所述样本音频信号对预先基于多个目标的样本音频信号构建的通用转换模型进行自适应训练,得到对应所述目标的音色转换模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
接收第一音频信号和用户选定的目标音色;
对所述第一音频信号进行分解和重构得到第二音频信号;
根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。
在一个实施例中,所述对所述第一音频信号进行分解和重构得到第二音频信号,包括:
采用小波变换的方法对所述第一音频信号进行分解和重构,得到20-20000Hz频段的信号,即第二音频信号。
在一个实施例中,所述根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值,包括:
对所述第二音频信号进行快速傅里叶变换,得到第二音频信号的幅频响应曲线;
对所述幅频响应曲线进行波峰检测,提取出该幅频响应曲线的最大峰值点,该峰值点的频率和幅值为该第二音频信号的基频的频率和幅值;
根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值;
判断所有所述倍频中是否有幅值小于预设阈值的倍频,若是,则从所有倍频中剔除幅值小于预设阈值的倍频得到至少一有效倍频,若否,则所有倍频均为有效倍频。
在一个实施例中,所述根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值包括:
根据整数倍频率确定所述基频的所有倍频的频率;
根据所述幅频响应曲线确定所有倍频的幅值。
在一个实施例中,所述音色转换模型包括:乐器音色转换模型、人声音色转换模型、动物音色转换模型和自然音色转换模型中的任一种或多种。
在一个实施例中,所述第一音频信号为人声哼唱音频信号;所述目标音色为乐器音色;所述声音变换方法还包括:根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱。
在一个实施例中,所述音色转换模型的构建方法包括:
收集目标的样本音频信号;
利用所述样本音频信号对预先基于多个目标的样本音频信号构建的通用转换模型进行自适应训练,得到对应所述目标的音色转换模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
Claims (10)
1.一种声音变换方法,其特征在于,包括:
接收第一音频信号和用户选定的目标音色;
对所述第一音频信号进行分解和重构得到第二音频信号;
根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。
2.根据权利要求1所述的声音变换方法,其特征在于,所述对所述第一音频信号进行分解和重构得到第二音频信号,包括:
采用小波变换的方法对所述第一音频信号进行分解和重构,得到20-20000Hz频段的信号,即第二音频信号。
3.根据权利要求1所述的声音变换方法,其特征在于,所述根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值,包括:
对所述第二音频信号进行快速傅里叶变换,得到第二音频信号的幅频响应曲线;
对所述幅频响应曲线进行波峰检测,提取出该幅频响应曲线的最大峰值点,该峰值点的频率和幅值为该第二音频信号的基频的频率和幅值;
根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值;
判断所有所述倍频中是否有幅值小于预设阈值的倍频,若是,则从所有倍频中剔除幅值小于预设阈值的倍频得到至少一有效倍频,若否,则所有倍频均为有效倍频。
4.根据权利要求3所述的声音变换方法,其特征在于,所述根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值包括:
根据整数倍频率确定所述基频的所有倍频的频率;
根据所述幅频响应曲线确定所有倍频的幅值。
5.根据权利要求1所述的声音变换方法,其特征在于,所述音色转换模型包括:乐器音色转换模型、人声音色转换模型、动物音色转换模型和自然音色转换模型中的任一种或多种。
6.根据权利要求5所述的声音变换方法,其特征在于,所述第一音频信号为人声哼唱音频信号;所述目标音色为乐器音色;所述声音变换方法还包括:根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱。
7.根据权利要求1-6任一项所述的声音变换方法,其特征在于,所述音色转换模型的构建方法包括:
收集目标的样本音频信号;
利用所述样本音频信号对预先基于多个目标的样本音频信号构建的通用转换模型进行自适应训练,得到对应所述目标的音色转换模型。
8.一种声音变换系统,其特征在于,包括:
接收模块,用于接收第一音频信号和用户选定的目标音色;
处理模块,用于对所述第一音频信号进行分解和重构得到第二音频信号;
提取模块,用于根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
确定模块、用于根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
转换模块,用于将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。
9.一种计算机设备, 包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211594724.4A CN115602182B (zh) | 2022-12-13 | 2022-12-13 | 声音变换方法、系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211594724.4A CN115602182B (zh) | 2022-12-13 | 2022-12-13 | 声音变换方法、系统、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115602182A true CN115602182A (zh) | 2023-01-13 |
CN115602182B CN115602182B (zh) | 2023-04-07 |
Family
ID=84853849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211594724.4A Active CN115602182B (zh) | 2022-12-13 | 2022-12-13 | 声音变换方法、系统、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115602182B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09146545A (ja) * | 1995-11-22 | 1997-06-06 | Sony Corp | 音声自動採譜装置 |
TW454173B (en) * | 1999-12-24 | 2001-09-11 | Gu Hung Yan | Semi-automatic human voice dubbing method |
WO2009034167A1 (en) * | 2007-09-13 | 2009-03-19 | Universitat Pompeu Fabra | Audio signal transforming |
RU2393548C1 (ru) * | 2008-11-28 | 2010-06-27 | Общество с ограниченной ответственностью "Конвент Люкс" | Устройство для изменения входящего голосового сигнала в выходящий голосовой сигнал в соответствии с целевым голосовым сигналом |
JP2011237602A (ja) * | 2010-05-11 | 2011-11-24 | Dainippon Printing Co Ltd | 符号化音声データの音高変換装置 |
CN106453918A (zh) * | 2016-10-31 | 2017-02-22 | 维沃移动通信有限公司 | 一种音乐搜索方法及移动终端 |
CN107195289A (zh) * | 2016-05-28 | 2017-09-22 | 浙江大学 | 一种可编辑的多级音色合成系统及方法 |
CN109817197A (zh) * | 2019-03-04 | 2019-05-28 | 天翼爱音乐文化科技有限公司 | 歌声生成方法、装置、计算机设备和存储介质 |
CN112037766A (zh) * | 2020-09-09 | 2020-12-04 | 广州华多网络科技有限公司 | 一种语音音色转换方法及相关设备 |
CN112331222A (zh) * | 2020-09-23 | 2021-02-05 | 北京捷通华声科技股份有限公司 | 一种转换歌曲音色的方法、系统、设备及存储介质 |
CN112466275A (zh) * | 2020-11-30 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音转换及相应的模型训练方法、装置、设备及存储介质 |
CN114242093A (zh) * | 2021-12-16 | 2022-03-25 | 游密科技(深圳)有限公司 | 语音音色转换方法、装置、计算机设备和存储介质 |
CN115171644A (zh) * | 2022-06-28 | 2022-10-11 | 上海喜马拉雅科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
CN115273831A (zh) * | 2022-08-01 | 2022-11-01 | 北京达佳互联信息技术有限公司 | 语音转换模型训练方法、语音转换方法和装置 |
-
2022
- 2022-12-13 CN CN202211594724.4A patent/CN115602182B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09146545A (ja) * | 1995-11-22 | 1997-06-06 | Sony Corp | 音声自動採譜装置 |
TW454173B (en) * | 1999-12-24 | 2001-09-11 | Gu Hung Yan | Semi-automatic human voice dubbing method |
WO2009034167A1 (en) * | 2007-09-13 | 2009-03-19 | Universitat Pompeu Fabra | Audio signal transforming |
RU2393548C1 (ru) * | 2008-11-28 | 2010-06-27 | Общество с ограниченной ответственностью "Конвент Люкс" | Устройство для изменения входящего голосового сигнала в выходящий голосовой сигнал в соответствии с целевым голосовым сигналом |
JP2011237602A (ja) * | 2010-05-11 | 2011-11-24 | Dainippon Printing Co Ltd | 符号化音声データの音高変換装置 |
CN107195289A (zh) * | 2016-05-28 | 2017-09-22 | 浙江大学 | 一种可编辑的多级音色合成系统及方法 |
CN106453918A (zh) * | 2016-10-31 | 2017-02-22 | 维沃移动通信有限公司 | 一种音乐搜索方法及移动终端 |
CN109817197A (zh) * | 2019-03-04 | 2019-05-28 | 天翼爱音乐文化科技有限公司 | 歌声生成方法、装置、计算机设备和存储介质 |
CN112037766A (zh) * | 2020-09-09 | 2020-12-04 | 广州华多网络科技有限公司 | 一种语音音色转换方法及相关设备 |
CN112331222A (zh) * | 2020-09-23 | 2021-02-05 | 北京捷通华声科技股份有限公司 | 一种转换歌曲音色的方法、系统、设备及存储介质 |
CN112466275A (zh) * | 2020-11-30 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音转换及相应的模型训练方法、装置、设备及存储介质 |
CN114242093A (zh) * | 2021-12-16 | 2022-03-25 | 游密科技(深圳)有限公司 | 语音音色转换方法、装置、计算机设备和存储介质 |
CN115171644A (zh) * | 2022-06-28 | 2022-10-11 | 上海喜马拉雅科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
CN115273831A (zh) * | 2022-08-01 | 2022-11-01 | 北京达佳互联信息技术有限公司 | 语音转换模型训练方法、语音转换方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115602182B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Amatriain et al. | Spectral processing | |
Klapuri et al. | Robust multipitch estimation for the analysis and manipulation of polyphonic musical signals | |
CN103109317B (zh) | 掩蔽声音输出装置和掩蔽声音输出方法 | |
CN111383646B (zh) | 一种语音信号变换方法、装置、设备和存储介质 | |
CN111542875B (zh) | 声音合成方法、声音合成装置及存储介质 | |
US8716586B2 (en) | Process and device for synthesis of an audio signal according to the playing of an instrumentalist that is carried out on a vibrating body | |
JP4815436B2 (ja) | 可変分解能により情報信号をスペクトル表現に変換する装置および方法 | |
CN108831437A (zh) | 一种歌声生成方法、装置、终端和存储介质 | |
US20050049876A1 (en) | Method and apparatus for automatically identifying animal species from their vocalizations | |
EP3121808B1 (en) | System for modeling characteristics of an electronic musical instrument | |
Ramírez et al. | A general-purpose deep learning approach to model time-varying audio effects | |
CN110910895B (zh) | 一种声音处理的方法、装置、设备和介质 | |
CN115602182B (zh) | 声音变换方法、系统、计算机设备及存储介质 | |
CN112216260A (zh) | 一种电子二胡系统 | |
CN113539215B (zh) | 音乐风格转换方法、装置、设备及存储介质 | |
Arroabarren et al. | Instantaneous frequency and amplitude of vibrato in singing voice | |
Dixon | Multiphonic note identification | |
Davies et al. | An adaptive technique for automated recognition of musical tones | |
CN113571084B (zh) | 音频处理方法、装置、设备及存储介质 | |
Voinov et al. | Implementation and Analysis of Algorithms for Pitch Estimation in Musical Fragments | |
Wang et al. | Harmonics Based Representation in Clarinet Tone Quality Evaluation | |
CN115331649A (zh) | 一种乐器音色建模方法、装置、音源器和存储介质 | |
Mercado III | Computational models of sound production and reception in the humpback whale | |
Middleton | A matching filter and envelope system for timbral blending of the bass guitar | |
JP2003241777A (ja) | 楽音のフォルマント抽出方法、記録媒体及び楽音のフォルマント抽出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |