CN115602182B - 声音变换方法、系统、计算机设备及存储介质 - Google Patents

声音变换方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN115602182B
CN115602182B CN202211594724.4A CN202211594724A CN115602182B CN 115602182 B CN115602182 B CN 115602182B CN 202211594724 A CN202211594724 A CN 202211594724A CN 115602182 B CN115602182 B CN 115602182B
Authority
CN
China
Prior art keywords
frequency
amplitude
audio signal
tone
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211594724.4A
Other languages
English (en)
Other versions
CN115602182A (zh
Inventor
林晓雪
钟广雄
李文胜
成伟
刘智源
刘建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ganyin Technology Co ltd
Original Assignee
Guangzhou Ganyin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ganyin Technology Co ltd filed Critical Guangzhou Ganyin Technology Co ltd
Priority to CN202211594724.4A priority Critical patent/CN115602182B/zh
Publication of CN115602182A publication Critical patent/CN115602182A/zh
Application granted granted Critical
Publication of CN115602182B publication Critical patent/CN115602182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明涉及一种声音变换方法、系统、计算机设备及存储介质,其技术方案要点是:接收第一音频信号和用户选定的目标音色;对所述第一音频信号进行分解和重构得到第二音频信号;根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号;本申请具有灵活变声,更便于音乐创作的效果。

Description

声音变换方法、系统、计算机设备及存储介质
技术领域
本发明涉及声音处理技术领域,更具体地说,它涉及一种声音变换方法、系统、计算机设备及存储介质。
背景技术
现有的变声或k歌应用中,如唱吧应用,可以切换演唱的场景模式,用户可选择ktv、演唱会等模式,但是在演唱或哼唱的过程中,难以实现对声音音色转换,使得用户的演唱或音乐创作难以达到较好的效果。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种声音变换方法、系统、计算机设备及存储介质,具有灵活变声,更便于音乐创作的功能优点。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种声音变换方法,包括:
接收第一音频信号和用户选定的目标音色;
对所述第一音频信号进行分解和重构得到第二音频信号;
根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。
可选的,所述对所述第一音频信号进行分解和重构得到第二音频信号,包括:
采用小波变换的方法对所述第一音频信号进行分解和重构,得到20-20000Hz频段的信号,即第二音频信号。
可选的,所述根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值,包括:
对所述第二音频信号进行快速傅里叶变换,得到第二音频信号的幅频响应曲线;
对所述幅频响应曲线进行波峰检测,提取出该幅频响应曲线的最大峰值点,该峰值点的频率和幅值为该第二音频信号的基频的频率和幅值;
根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值;
判断所有所述倍频中是否有幅值小于预设阈值的倍频,若是,则从所有倍频中剔除幅值小于预设阈值的倍频得到至少一有效倍频,若否,则所有倍频均为有效倍频。
可选的,所述根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值包括:
根据整数倍频率确定所述基频的所有倍频的频率;
根据所述幅频响应曲线确定所有倍频的幅值。
可选的,所述音色转换模型包括:乐器音色转换模型、人声音色转换模型、动物音色转换模型和自然音色转换模型中的任一种或多种。
可选的,所述第一音频信号为人声哼唱音频信号;所述目标音色为乐器音色;所述声音变换方法还包括:根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱。
可选的,所述音色转换模型的构建方法包括:
收集目标的样本音频信号;
利用所述样本音频信号对预先基于多个目标的样本音频信号构建的通用转换模型进行自适应训练,得到对应所述目标的音色转换模型。
一种声音变换系统,包括:
接收模块,用于接收第一音频信号和用户选定的目标音色;
处理模块,用于对所述第一音频信号进行分解和重构得到第二音频信号;
提取模块,用于根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
确定模块、用于根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
转换模块,用于将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。
一种计算机设备, 包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
综上所述,本发明具有以下有益效果:用户可选定需转换的音色,也就是选定目标音色,本申请可以将人声的哼唱转变成如钢琴、吉他、小提琴、古筝演奏的乐器声,在条件有限(如无乐器)的情况下,实现与乐器伴奏相同的效果,也可以将人声的哼唱转变成动物声和自然声,使得用户在进行音乐创作的情况下,无需采集动物声和自然声,通过本申请的转换方法就能得到用户需要的动物声和自然声,具有灵活变声的优点,更便于用户进行音乐创作。
附图说明
图1是本发明提供的声音变换方法的流程示意图;
图2是本发明提供的声音变换系统的结构框图;
图3是本发明实施例中计算机设备的内部结构图。
具体实施方式
为使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。
在本发明中,除非另有明确的规定和限定,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
下面结合附图和实施例,对本发明进行详细描述。
本发明提供了一种声音变换方法,如图1所示,包括:
步骤100、接收第一音频信号和用户选定的目标音色;
步骤200、对所述第一音频信号进行分解和重构得到第二音频信号;
步骤300、根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
步骤400、根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
步骤500、将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。
在实际应用中,可通过麦克风根据奈奎斯特采样定理对声音进行采集得到第一音频信号,所述声音包括但不限于人声(说话、鼾声、咳嗽声、歌声等),动物声(虫鸟鱼兽的声音等),环境声(汽车或施工噪声等),自然声(风声、水声、海浪声等),乐器声(电子乐器、传统乐器等),可通过采用单片机实现对第一音频信号的分解和重构得到第二音频信号,以及根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值,然后通过蓝牙模块将基频的频率和幅值、及至少一有效倍频的频率和幅值传输给用户终端,用户可通过安装在用户终端上的应用选定需转换的音色,也就是选定目标音色,在用户终端或云端服务器上进行第三音频信号的合成。
另外,本申请可以将人声的哼唱转变成如钢琴、吉他、小提琴、古筝演奏的乐器声,在条件有限(如无乐器)的情况下,实现与乐器伴奏相同的效果,也可以将人声的哼唱转变成动物声和自然声,使得用户在进行音乐创作的情况下,无需采集动物声和自然声,通过本申请的转换方法就能得到用户需要的动物声和自然声,更便于用户进行音乐创作。
进一步地,所述对所述第一音频信号进行分解和重构得到第二音频信号,包括:
采用小波变换的方法对所述第一音频信号进行分解和重构,由于人的听觉范围为20-20000Hz,因此,本申请中去除无关频段的信号,选择得到20-20000Hz频段的信号,即第二音频信号,以减少超声波或次声波对后续音频信号处理的影响。
进一步地,所述根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值,包括:
对所述第二音频信号进行快速傅里叶变换,得到第二音频信号的幅频响应曲线;
对所述幅频响应曲线进行波峰检测,提取出该幅频响应曲线的最大峰值点,该峰值点的频率和幅值为该第二音频信号的基频的频率和幅值;
根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值;
判断所有所述倍频中是否有幅值小于预设阈值的倍频,若是,则从所有倍频中剔除幅值小于预设阈值的倍频得到至少一有效倍频,若否,则所有倍频均为有效倍频。
在实际应用中,将基频的频率和幅值还有有效倍频的频率和幅值输入到目标音色对应的音色转换模型中,音色转换模型能够根据基频的频率和幅值以及有效倍频的频率和幅值合成带有目标音色的第三音频信号,如将人声的哼唱转换成乐器声、动物声或自然声的伴奏,达到更好的演奏效果。
进一步地,所述根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值包括:
根据整数倍频率确定所述基频的所有倍频的频率;
根据所述幅频响应曲线确定所有倍频的幅值。
在实际应用中,乐音主要由音高、音强、音色、时值4种元素构成,根据基频的频率和倍频的频率能够确定乐音的音高,根据基频的幅值和倍频的幅值能够确定乐音的音强,根据用户选定的目标音色确定乐音的音色,通过记录人声基频的产生时长,并根据该时长确定乐音的时值,将基频的频率和幅值、倍频的频率和幅值、目标音色和基频的时长进行合成,使得输出声音(也就是第三音频信号)的轻重缓急和持续时长也跟随输入声音(也就是第一音频信号)变化。
进一步地,所述音色转换模型包括:乐器音色转换模型、人声音色转换模型、动物音色转换模型和自然音色转换模型中的任一种或多种。具体的,在第一音频信号为乐器演奏声、动物声或自然声的情况下,在将第一音频信号经过小波变换和快速傅里叶变换得到基频的频率和幅值以及倍频的频率和幅值后,能够将基频的频率和幅值以及倍频的频率和幅值输入到人声音色转换模型中转变成人声的哼唱。
进一步地,所述第一音频信号为人声哼唱音频信号;所述目标音色为乐器音色;所述声音变换方法还包括:根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱。
在第一音频信号为人声哼唱音频信号,目标音色为乐器音色,在得到基频的频率以及倍频的频率的情况下,能够根据国际标准音高与频率对照表确定音高,然后根据基频的幅值和倍频的幅值确定音强,根据基频的产生时长确定时值,在得到音高、音强、和时值的情况下,能够生成音谱,便于在人声哼唱的情况下,能够自动记录并生成乐谱,从而更便于音乐创作。
在第一音频信号为乐器声,目标音色为人声的情况下,得到乐器声基频的频率和幅值以及倍频的频率和幅值后,结合选定人声音色和声音内容进行合成和声音输出,所述人声音色可以是合成音色,输出声音的轻重缓急和持续时长也跟随输入声音变化。
进一步地,所述音色转换模型的构建方法包括:
收集目标的样本音频信号;根据目标的不同,收集各个目标的音频信号作为样本音频信号,如,若目标为钢琴,则收集钢琴的音频信号作为样本音频信号,若目标为人声,则收集人声的音频信号作为样本音频信号;
利用所述样本音频信号对预先基于多个目标的样本音频信号构建的通用转换模型进行自适应训练,得到对应所述目标的音色转换模型。
在本申请中各个目标均具有对应的通用转换模型,通用转换模型为神经网络模型,对于各个目标,创建该目标的通用转换模型,然后通过大量的该目标的样本音频信号对该目标的通用转换模型进行训练得到该目标的音色转换模型。
本发明的声音变换方法,用户可选定需转换的音色,也就是选定目标音色,本申请可以将人声的哼唱转变成如钢琴、吉他、小提琴、古筝演奏的乐器声,在条件有限(如无乐器)的情况下,实现与乐器伴奏相同的效果,也可以将人声的哼唱转变成动物声和自然声,使得用户在进行音乐创作的情况下,无需采集动物声和自然声,通过本申请的转换方法就能得到用户需要的动物声和自然声,具有灵活变声的优点,更便于用户进行音乐创作。
如图2所示,本发明还提供了一种声音变换系统,包括:
接收模块10,用于接收第一音频信号和用户选定的目标音色;
处理模块20,用于对所述第一音频信号进行分解和重构得到第二音频信号;
提取模块30,用于根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
确定模块40、用于根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
转换模块50,用于将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。
关于声音变换系统的具体限定可以参见上文中对于声音变换方法的限定,在此不再赘述。上述声音变换系统的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种声音变换方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备, 包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行计算机程序时实现以下步骤:
接收第一音频信号和用户选定的目标音色;
对所述第一音频信号进行分解和重构得到第二音频信号;
根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。
在一个实施例中,所述对所述第一音频信号进行分解和重构得到第二音频信号,包括:
采用小波变换的方法对所述第一音频信号进行分解和重构,得到20-20000Hz频段的信号,即第二音频信号。
在一个实施例中,所述根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值,包括:
对所述第二音频信号进行快速傅里叶变换,得到第二音频信号的幅频响应曲线;
对所述幅频响应曲线进行波峰检测,提取出该幅频响应曲线的最大峰值点,该峰值点的频率和幅值为该第二音频信号的基频的频率和幅值;
根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值;
判断所有所述倍频中是否有幅值小于预设阈值的倍频,若是,则从所有倍频中剔除幅值小于预设阈值的倍频得到至少一有效倍频,若否,则所有倍频均为有效倍频。
在一个实施例中,所述根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值包括:
根据整数倍频率确定所述基频的所有倍频的频率;
根据所述幅频响应曲线确定所有倍频的幅值。
在一个实施例中,所述音色转换模型包括:乐器音色转换模型、人声音色转换模型、动物音色转换模型和自然音色转换模型中的任一种或多种。
在一个实施例中,所述第一音频信号为人声哼唱音频信号;所述目标音色为乐器音色;所述声音变换方法还包括:根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱。
在一个实施例中,所述音色转换模型的构建方法包括:
收集目标的样本音频信号;
利用所述样本音频信号对预先基于多个目标的样本音频信号构建的通用转换模型进行自适应训练,得到对应所述目标的音色转换模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
接收第一音频信号和用户选定的目标音色;
对所述第一音频信号进行分解和重构得到第二音频信号;
根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。
在一个实施例中,所述对所述第一音频信号进行分解和重构得到第二音频信号,包括:
采用小波变换的方法对所述第一音频信号进行分解和重构,得到20-20000Hz频段的信号,即第二音频信号。
在一个实施例中,所述根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值,包括:
对所述第二音频信号进行快速傅里叶变换,得到第二音频信号的幅频响应曲线;
对所述幅频响应曲线进行波峰检测,提取出该幅频响应曲线的最大峰值点,该峰值点的频率和幅值为该第二音频信号的基频的频率和幅值;
根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值;
判断所有所述倍频中是否有幅值小于预设阈值的倍频,若是,则从所有倍频中剔除幅值小于预设阈值的倍频得到至少一有效倍频,若否,则所有倍频均为有效倍频。
在一个实施例中,所述根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值包括:
根据整数倍频率确定所述基频的所有倍频的频率;
根据所述幅频响应曲线确定所有倍频的幅值。
在一个实施例中,所述音色转换模型包括:乐器音色转换模型、人声音色转换模型、动物音色转换模型和自然音色转换模型中的任一种或多种。
在一个实施例中,所述第一音频信号为人声哼唱音频信号;所述目标音色为乐器音色;所述声音变换方法还包括:根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱。
在一个实施例中,所述音色转换模型的构建方法包括:
收集目标的样本音频信号;
利用所述样本音频信号对预先基于多个目标的样本音频信号构建的通用转换模型进行自适应训练,得到对应所述目标的音色转换模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (8)

1.一种声音变换方法,其特征在于,包括:
接收第一音频信号和用户选定的目标音色;
对所述第一音频信号进行分解和重构得到第二音频信号;
根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号;
所述音色转换模型包括:乐器音色转换模型;
所述第一音频信号为人声哼唱音频信号;所述目标音色为乐器音色;所述声音变换方法还包括:根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱;所述根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱,包括:根据国际标准音高与频率对照表确定音高,根据基频的幅值和倍频的幅值确定音强,根据基频的产生时长确定时值,在得到音高、音强、和时值的情况下,生成乐谱。
2.根据权利要求1所述的声音变换方法,其特征在于,所述对所述第一音频信号进行分解和重构得到第二音频信号,包括:
采用小波变换的方法对所述第一音频信号进行分解和重构,得到20-20000Hz频段的信号,即第二音频信号。
3.根据权利要求1所述的声音变换方法,其特征在于,所述根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值,包括:
对所述第二音频信号进行快速傅里叶变换,得到第二音频信号的幅频响应曲线;
对所述幅频响应曲线进行波峰检测,提取出该幅频响应曲线的最大峰值点,该峰值点的频率和幅值为该第二音频信号的基频的频率和幅值;
根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值;
判断所有所述倍频中是否有幅值小于预设阈值的倍频,若是,则从所有倍频中剔除幅值小于预设阈值的倍频得到至少一有效倍频,若否,则所有倍频均为有效倍频。
4.根据权利要求3所述的声音变换方法,其特征在于,所述根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值包括:
根据整数倍频率确定所述基频的所有倍频的频率;
根据所述幅频响应曲线确定所有倍频的幅值。
5.根据权利要求1-4任一项所述的声音变换方法,其特征在于,所述音色转换模型的构建方法包括:
收集目标的样本音频信号;
利用所述样本音频信号对预先基于多个目标的样本音频信号构建的通用转换模型进行自适应训练,得到对应所述目标的音色转换模型。
6.一种声音变换系统,其特征在于,包括:
接收模块,用于接收第一音频信号和用户选定的目标音色;
处理模块,用于对所述第一音频信号进行分解和重构得到第二音频信号;
提取模块,用于根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值;
确定模块、用于根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型;
转换模块,用于将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号;
所述音色转换模型包括:乐器音色转换模型;
所述第一音频信号为人声哼唱音频信号;所述目标音色为乐器音色;所述转换模块还包括:用于根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱;所述根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱,包括:根据国际标准音高与频率对照表确定音高,根据基频的幅值和倍频的幅值确定音强,根据基频的产生时长确定时值,在得到音高、音强、和时值的情况下,生成乐谱。
7. 一种计算机设备, 包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202211594724.4A 2022-12-13 2022-12-13 声音变换方法、系统、计算机设备及存储介质 Active CN115602182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211594724.4A CN115602182B (zh) 2022-12-13 2022-12-13 声音变换方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211594724.4A CN115602182B (zh) 2022-12-13 2022-12-13 声音变换方法、系统、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN115602182A CN115602182A (zh) 2023-01-13
CN115602182B true CN115602182B (zh) 2023-04-07

Family

ID=84853849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211594724.4A Active CN115602182B (zh) 2022-12-13 2022-12-13 声音变换方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115602182B (zh)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146545A (ja) * 1995-11-22 1997-06-06 Sony Corp 音声自動採譜装置
TW454173B (en) * 1999-12-24 2001-09-11 Gu Hung Yan Semi-automatic human voice dubbing method
US8706496B2 (en) * 2007-09-13 2014-04-22 Universitat Pompeu Fabra Audio signal transforming by utilizing a computational cost function
RU2393548C1 (ru) * 2008-11-28 2010-06-27 Общество с ограниченной ответственностью "Конвент Люкс" Устройство для изменения входящего голосового сигнала в выходящий голосовой сигнал в соответствии с целевым голосовым сигналом
JP5560888B2 (ja) * 2010-05-11 2014-07-30 大日本印刷株式会社 符号化音声データの音高変換装置
CN107195289B (zh) * 2016-05-28 2018-06-22 浙江大学 一种可编辑的多级音色合成系统及方法
CN106453918B (zh) * 2016-10-31 2019-11-15 维沃移动通信有限公司 一种音乐搜索方法及移动终端
CN109817197B (zh) * 2019-03-04 2021-05-11 天翼爱音乐文化科技有限公司 歌声生成方法、装置、计算机设备和存储介质
CN112037766B (zh) * 2020-09-09 2022-03-04 广州方硅信息技术有限公司 一种语音音色转换方法及相关设备
CN112331222A (zh) * 2020-09-23 2021-02-05 北京捷通华声科技股份有限公司 一种转换歌曲音色的方法、系统、设备及存储介质
CN112466275B (zh) * 2020-11-30 2023-09-22 北京百度网讯科技有限公司 语音转换及相应的模型训练方法、装置、设备及存储介质
CN114242093A (zh) * 2021-12-16 2022-03-25 游密科技(深圳)有限公司 语音音色转换方法、装置、计算机设备和存储介质
CN115171644A (zh) * 2022-06-28 2022-10-11 上海喜马拉雅科技有限公司 语音合成方法、装置、电子设备和存储介质
CN115273831A (zh) * 2022-08-01 2022-11-01 北京达佳互联信息技术有限公司 语音转换模型训练方法、语音转换方法和装置

Also Published As

Publication number Publication date
CN115602182A (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
Bader Nonlinearities and synchronization in musical acoustics and music psychology
CN111542875B (zh) 声音合成方法、声音合成装置及存储介质
US8716586B2 (en) Process and device for synthesis of an audio signal according to the playing of an instrumentalist that is carried out on a vibrating body
Kim et al. Neural music synthesis for flexible timbre control
CN111383646B (zh) 一种语音信号变换方法、装置、设备和存储介质
CN108831437A (zh) 一种歌声生成方法、装置、终端和存储介质
CN103109317A (zh) 掩蔽声音输出装置和掩蔽声音输出方法
CN109817191B (zh) 颤音建模方法、装置、计算机设备及存储介质
EP3121808B1 (en) System for modeling characteristics of an electronic musical instrument
JP2008502927A (ja) 可変分解能により情報信号をスペクトル表現に変換する装置および方法
Ramírez et al. A general-purpose deep learning approach to model time-varying audio effects
Masuda et al. Improving semi-supervised differentiable synthesizer sound matching for practical applications
CN115602182B (zh) 声音变换方法、系统、计算机设备及存储介质
JP7359164B2 (ja) 音信号合成方法およびニューラルネットワークの訓練方法
JP7331588B2 (ja) 情報処理方法、推定モデル構築方法、情報処理装置、推定モデル構築装置およびプログラム
CN112216260A (zh) 一种电子二胡系统
CN113539215B (zh) 音乐风格转换方法、装置、设备及存储介质
Mouchtaris et al. Virtual microphones for multichannel audio resynthesis
JP2010169766A (ja) 電子透かし情報の埋め込みおよび抽出を行うための装置およびプログラム
WO2020158891A1 (ja) 音信号合成方法およびニューラルネットワークの訓練方法
CN113571084B (zh) 音频处理方法、装置、设备及存储介质
Wiggins et al. A Differentiable Acoustic Guitar Model for String-Specific Polyphonic Synthesis
Davies et al. An adaptive technique for automated recognition of musical tones
Wang et al. Harmonics Based Representation in Clarinet Tone Quality Evaluation
US7211721B2 (en) System and methods for memory-constrained sound synthesis using harmonic coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant