CN114005461A - 音乐伴奏的分离方法和装置 - Google Patents

音乐伴奏的分离方法和装置 Download PDF

Info

Publication number
CN114005461A
CN114005461A CN202111262479.2A CN202111262479A CN114005461A CN 114005461 A CN114005461 A CN 114005461A CN 202111262479 A CN202111262479 A CN 202111262479A CN 114005461 A CN114005461 A CN 114005461A
Authority
CN
China
Prior art keywords
accompaniment
musical instrument
music
network
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111262479.2A
Other languages
English (en)
Inventor
徐焕芬
周跃兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aimyunion Technology Ltd
Original Assignee
Aimyunion Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aimyunion Technology Ltd filed Critical Aimyunion Technology Ltd
Priority to CN202111262479.2A priority Critical patent/CN114005461A/zh
Publication of CN114005461A publication Critical patent/CN114005461A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本申请涉及一种音乐伴奏的分离方法、装置、计算机设备以及计算机可读存储介质;所述方法包括:获取导入音乐,并将导入音乐转换为音乐频谱;将音乐频谱分别输入人声网络、伴奏网络和乐器网络,获得人声频谱、初始伴奏频谱和各种乐器对应的乐器伴奏频谱;根据人声频谱、初始伴奏频谱和乐器伴奏频谱分别获取人声文件、初始伴奏文件和各种乐器对应的乐器伴奏文件;根据乐器伴奏文件获取各个乐器的乐器曲特征,并根据乐器曲特征对初始伴奏文件进行重塑得到高保真伴奏文件;该技术方案,先进行盲源分离得到初步伴奏分离工作,然后对每个乐器进行重塑从而得到高保真伴奏文件,有效提高了分离的伴奏质量,能够对导入音乐实现高度保真的分离音乐伴奏。

Description

音乐伴奏的分离方法和装置
技术领域
本申请涉及音乐处理技术领域,尤其是一种音乐伴奏的分离方法、装置、计算机设备以及计算机可读存储介质。
背景技术
在演唱的过程中,往往需要对歌曲进行不断的回放,创作,演绎,这就需要伴奏来配合,随着人们的精神追求不断的提升,越来越多的音乐爱好者开始不满足于跟着歌手来演唱歌曲,而是希望像歌手一样,听着悦耳的伴奏,随着伴奏一起演唱,仿佛自己在开个人演唱会的沉浸式体验,这就需要有一份质量较好的伴奏曲,但是纯乐器伴奏的成本较高,一份优质伴奏曲需要由多个乐器师共同演奏,价格昂贵,用户个人很难获取,而当前市面上大多采用软件分离的方式,将一首完整的带伴奏的歌曲分离成人声和伴奏,但现有技术容易出现人声和伴奏失真的情况,大大影响了创作者的创作热情。
例如,目前有技术是采用伴奏人声提取模型中的编码模块对混合音频数据进行编码处理,得到编码后的音频特征,分别通过伴奏人声的解码进行卷积处理得到目标人声和伴奏;该技术中需要使用大量的歌曲数据进行训练才能训练出一个较好的编码器,用于分离人声和伴奏,否则将会大大降低人声和伴奏的质量。
又如,有技术是对左右声道信号相应频点对的均值信号加权人声增益,人声增益与当前频点对的归一化互相关值成正比例取值,将加权人声增益后的左声道和右声道的均值信号由频域转换为时域提取出人声;该技术主要对立体声进行人声伴奏分离,但对于单声道的歌曲则无法实现歌曲分离,使用范围受限明显。
再如,有技术采用通过提取音频的声纹信息,根据声纹特征在预先建立的音乐数据库中查找匹配的歌曲信息;提取对应歌曲信息的伴奏音乐;该技术采用声纹识别,识别后查找库存内所存在的伴奏,但是需要庞大的伴奏库,且会存在没有该歌曲伴奏的情况,难以满足用户需求。
综上所述,现有技术过于依赖庞大的歌曲库的情况下有效提高分离的伴奏质量,而且无法做到高度保真的分离音乐伴奏。
发明内容
针对于上述技术缺陷之一,本申请提供一种音乐伴奏的分离方法、装置、计算机设备以及计算机可读存储介质,可以有效提高分离的伴奏质量,实现高度保真的分离音乐伴奏。
一种音乐伴奏的分离方法,包括:
获取导入音乐,并将所述导入音乐转换为音乐频谱;
将所述音乐频谱分别输入所述人声网络、伴奏网络和乐器网络,获得人声频谱、初始伴奏频谱和各种乐器对应的乐器伴奏频谱;
根据所述人声频谱、初始伴奏频谱和乐器伴奏频谱分别获取人声文件、初始伴奏文件和各种乐器对应的乐器伴奏文件;
根据所述乐器伴奏文件获取各个乐器的乐器曲特征,并根据所述乐器曲特征对所述初始伴奏文件进行重塑得到高保真伴奏文件。
在一个实施例中,所述的音乐伴奏的分离方法,还包括:
基于盲源分离技术构建人声网络、伴奏网络和乐器网络;
利用歌曲库中带伴奏的样本音乐输入人声网络、伴奏网络和乐器网络,并利用歌曲库中的纯人声、纯伴奏和纯乐器音色分别对人声网络、伴奏网络和乐器网络的输出进行比对;
根据比对结果优化所述人声网络、伴奏网络和乐器网络。
在一个实施例中,所述利用歌曲库中带伴奏的样本音乐输入人声网络、伴奏网络和乐器网络,并利用歌曲库中的纯人声、纯伴奏和纯乐器音色分别对人声网络、伴奏网络和乐器网络的输出进行比对,包括:
将歌曲库中带伴奏的样本音乐、纯人声、纯伴奏和纯乐器音色分别进行STFT转换得到相应的样本音乐对数梅尔频谱、人声对数梅尔频谱、伴奏对数梅尔频谱和乐器对数梅尔频谱,并分别进行小波分析;
将所述样本音乐对数梅尔频谱通过所述人声网络、伴奏网络和乐器网络进行分析,得到相应的人声音轨幅度谱、伴奏音轨幅度谱和乐器音轨幅度谱;
对所述纯乐器音色进行ADSR分析,得到各种类型的乐器对应的包络特征,并依据所述包络特征修正所述乐器音轨幅度谱;
所述根据比对结果持续优化所述人声网络、伴奏网络和乐器网络,包括:
分别计算所述人声音轨幅度谱、伴奏音轨幅度谱和乐器音轨幅度谱与所述人声对数梅尔频谱、伴奏对数梅尔频谱和乐器对数梅尔频谱之间的曼哈顿距离;
以所述曼哈顿距离均值为所述人声网络、伴奏网络和乐器网络的损失函数,并依据所述曼哈顿距离调整优化所述损失函数。
在一个实施例中,所述将所述导入音乐转换为音乐频谱,包括:
对所述导入音乐进行STFT频谱分析,并进行对数梅尔频谱转化得到导入音乐对数梅尔频谱;
所述根据所述人声频谱、初始伴奏频谱和乐器伴奏频谱分别获取人声文件、初始伴奏文件和各种乐器对应的乐器伴奏文件,包括:
将所述导入音乐对数梅尔频谱特分别输入人声网络、伴奏网络和乐器网络,获得人声频谱、伴奏频谱和乐器频谱;
分别计算所述人声谱和伴奏频谱在整体音乐频谱中所占的第一比例和第二比例,以及所述乐器频谱在所述伴奏频谱中所占的第三比例;其中,所述整体音乐频谱为人声频谱与伴奏频谱频率范围;
将所述第一比例与所述导入音乐对数梅尔频谱进行乘积得到人声对数梅尔频谱;将所述第二比例与所述导入音乐对数梅尔频谱进行乘积得到伴奏对数梅尔频谱;
将所述第三比例与所述伴奏对数梅尔频谱进行乘积得到乐器对数梅尔频谱;
所述根据所述人声频谱、初始伴奏频谱和乐器伴奏频谱分别获取人声文件、初始伴奏文件和各种乐器对应的乐器伴奏文件,包括:
分别对所述人声对数梅尔频谱、伴奏对数梅尔频谱和乐器对数梅尔频谱进行ISFTF分析得到人声文件、初始伴奏文件和各种乐器对应的乐器伴奏文件。
在一个实施例中,所述根据所述乐器伴奏文件获取各个乐器的乐器曲特征,并根据所述乐器曲特征对所述初始伴奏文件进行重塑得到高保真伴奏文件,包括:
分别从各个发声乐器的乐器伴奏文件中提取出乐器曲特征;其中,所述乐器曲特征包括当前音符及其持续时间和强度值;
从乐器音色库中搜索出一致的目标乐器,并利用所述目标乐器的乐器曲特征来对所述初始伴奏文件进行重构,得到高保真伴奏文件。
在一个实施例中,所述从乐器音色库中搜索出一致的目标乐器,并利用所述目标乐器的乐器曲特征来对所述初始伴奏文件进行重构,得到高保真伴奏文件,包括:
计算发声乐器的音符的ADSR值,从乐器音色库中搜索与所述ADSR值最接近的乐器作为目标乐器;
计算所述发声乐器与目标乐器的音高比率;
根据所述音高比率计算发声乐器的音符的动态增益值;
根据所述动态增益值获取对应的波表值,并对波表值进行低通滤波;
获取所述低通滤波输出的伴奏信号,分别将各个乐器对应的伴奏信号进行多乐器混音,得到高保真伴奏文件。
在一个实施例中,所述根据所述乐器伴奏文件获取各个乐器的乐器曲特征,并根据所述乐器曲特征对所述初始伴奏文件进行重塑得到高保真伴奏文件,包括:
分别从各个发声乐器的乐器伴奏文件中提取出乐器曲特征;其中,所述乐器曲特征包括当前音符及其持续时间和强度值;
对发声乐器的乐器伴奏文件的音符段进行分割,并从乐器音色库中查找对应目标乐器,生成频率响应曲线与目标乐器的音符段对比,计算最优EQ参数;
根据所最优EQ参数对所述初始伴奏文件的每段音符进行EQ补偿得到高保真伴奏文件。
在一个实施例中,所述对发声乐器的乐器伴奏文件的音符段进行分割,并从乐器音色库中查找对应目标乐器,生成频率响应曲线与目标乐器的音符段对比,计算最优EQ参数,包括:
根据每个乐器的音符段划分单音符或多音符;
把发声乐器的乐器伴奏文件的每个音符段使用STFT计算出频率响应曲线;
采用遗传算法获得所述发声乐器的频率响应曲线的最优EQ参数;
所述根据所最优EQ参数对所述初始伴奏文件的每段音符进行EQ补偿得到高保真伴奏文件,包括:
根据各个乐器的同一时间的各个音符段对所述初始伴奏文件的每一段音符段一一进行EQ补偿,得到高保真伴奏文件。
在一个实施例中,所述乐器音色库中包括多种音色;其中,每种音色设置不同数量的音符以及每个音符设置有对应的ADSR值、低通滤波器频率f及Q值、采样率以及LFO低频震荡调制器。
一种音乐伴奏的分离装置,包括:
频谱转换模块,用于获取导入音乐,并将所述导入音乐转换为音乐频谱;
盲源分离模块,用于将所述音乐频谱分别输入所述人声网络、伴奏网络和乐器网络,获得人声频谱、初始伴奏频谱和各种乐器对应的乐器伴奏频谱;
文件转换模块,用于根据所述人声频谱、初始伴奏频谱和乐器伴奏频谱分别获取人声文件、初始伴奏文件和各种乐器对应的乐器伴奏文件;
伴奏重构模块,用于根据所述乐器伴奏文件获取各个乐器的乐器曲特征,并根据所述乐器曲特征对所述初始伴奏文件进行重塑得到高保真伴奏文件。
一种计算机设备,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行上述的音乐伴奏的分离方法。
一种计算机可读存储介质,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行上述的音乐伴奏的分离方法。
上述音乐伴奏的分离方法、装置、计算机设备以及计算机可读存储介质,首先将导入音乐转换为音乐频谱,基于盲源分离技术输入人声网络、伴奏网络和乐器网络获得对应的乐器伴奏频谱,以此获取人声文件、初始伴奏文件和各种乐器对应的乐器伴奏文件;此后根据乐器伴奏文件获取各个乐器的乐器曲特征,并根据乐器曲特征对初始伴奏文件进行重塑得到高保真伴奏文件;该技术方案,先根据盲源分离法进行模型预测以实现初步的伴奏分离工作,然后根据乐器网络预测的各个乐器音乐频谱对每个乐器进行重塑从而得到高保真伴奏文件,有效提高了分离的伴奏质量,能够对导入音乐实现高度保真的分离音乐伴奏。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是一个示例的盲分离模型训练流程图;
图2是一个示例的损失函数优化流程图;
图3是一个示例的音乐伴奏的分离方法流程图;
图4是一个示例的频谱生成流程图;
图5是一个示例的初步分离流程图;
图6是一个示例的重构伴奏流程图;
图7是一个示例的EQ补偿过程的流程图;
图8是还原原始高音质音乐流程示意图;
图9是一个示例的音乐伴奏的分离装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作。
本申请的音乐伴奏的分离方案,可以应用于任意终端设备上,比如智能音箱、智能手机、平板、个人电脑等等,该终端设备可以通过网络连接到乐器音色库。本申请首先根据盲源分离法构建盲分离模型,然后利用盲分离模型来瞬间分离人声、伴奏及其对应的各种乐器伴音文件;因此,对于本实施例的人声分离技术,下面结合一些实施例进行阐释。
在一个实施例中,盲分离模型训练过程,可以基于盲源分离技术构建了包括人声网络、伴奏网络和乐器网络的盲分离模型,然后利用歌曲库中带伴奏的样本音乐输入人声网络、伴奏网络和乐器网络,并利用歌曲库中的纯人声、纯伴奏和纯乐器音色分别对人声网络、伴奏网络和乐器网络的输出进行比对,再根据比对结果优化所述人声网络、伴奏网络和乐器网络。
在一个实施例中,参考图1,图1是一个示例的盲分离模型训练流程图,该技术方案主要包括如下步骤:
S101,基于盲源分离技术构建人声网络、伴奏网络和乐器网络。
可以利用已有的歌曲库进行模型训练,如目前使用的歌曲库存储音乐10万首,将歌曲库中的人声和伴奏及其对应的乐器音色库,分别构建人声网络、伴奏网络和乐器网络(目前可支持128种乐器声音的演奏)。
如上所述,本实施例采用歌曲库的乐器音色库,其为采用高音质音色所构建的乐器音色库,包含常用的128种音色(长笛Flute TB,管弦乐Orchestra,吉他和声GuitarHarmonics,失真音吉他Distortion Guitar过载音吉他Overdrive Guitar,钢琴piano,大键琴Harpsichord等),此外还有包括专业录音房录音音质较高的钢琴、大提琴、古筝、长笛、吉他、管风琴等。
乐器音色库的功能可以包括:
(1)提供各种乐器的音色,用于波表合成,合成乐器发声器;
(2)对每个音色,可用于鉴别伴奏中存在哪种类型的乐器,根据其ADSR的音色特性;
(3)可用于多种乐器分离技术,在混合伴奏中,通过每个音色各自的特点,可分离出每个乐器单独的乐曲。
乐器音色库具有如下特点:
每个音色拥有不同数量的音符数量,如钢琴有88个键,即88个音符,每个音符有各自的ADSR值,低通滤波器频率f及Q值,采样率,LFO低频震荡调制器等,用于控制每个音符所特有的音色。
乐器音色库的参数具有如下性质:
(1)ADSR分别代表按键按下时的启动时间ATTACK,衰减时间DECAY,维持时间SUSTAIN和释放时间RELEASE,并不是所有的乐器都有该三个参数,有如钢琴音,只有启动时间,衰减时间和释放时间三个参数;
(2)低频震荡调制器,由调制频率控制,营造一种声音”抖动”的运动感觉,模拟弹奏过程中的抖音效果;
(3)为了防止多个音色混音后产生的高频噪声,采用超高频低通滤波器进行干预。
S102,将歌曲库中带伴奏的样本音乐、纯人声、纯伴奏和纯乐器音色分别进行STFT(Short-Time Fourier Transform,短时傅立叶变换)转换得到相应的样本音乐对数梅尔频谱、人声对数梅尔频谱、伴奏对数梅尔频谱和乐器对数梅尔频谱,并分别进行小波分析。
分别对带伴奏的样本音乐、纯人声、纯伴奏、纯乐器音色四种类型的素材进行STFT分析,由于人声在梅尔频带上更能体现出人声的特点,因此,每种类型的素材均由对数梅尔滤波器组进行转化可凸显人声特征,使人声分离损失度降低。
进一步的,分别对样本音乐、纯人声、纯伴奏、纯乐器音色四种类型的素材进行小波分析,补偿了STFT在信号非平稳性的分析上的缺陷,并过滤掉不相关噪声部分,增强每种类型的基频稀疏性,有助于在盲源分离算法下提升人声的特征提取,提高还原质量。
S103,将所述样本音乐对数梅尔频谱通过所述人声网络、伴奏网络和乐器网络进行分析,得到相应的人声音轨幅度谱、伴奏音轨幅度谱和乐器音轨幅度谱。
S104,对所述纯乐器音色进行ADSR分析,得到各种类型的乐器对应的包络特征,并依据所述包络特征修正所述乐器音轨幅度谱。
对乐器音色库进行ADSR分析,由于每个乐器音色库中的每个乐器都有不同的发声包络,其对应的音色也大不相同,其主要存在于ADSR(attack、decay、sustain、release)中,构成音色的主要成分,该特征也可以用于分析伴奏中的乐器类型,进一步进行乐器分离,实现用户个性化乐器背景创作歌曲的功能。
包络提取公式如下:
Figure BDA0003326258730000101
S105,分别计算所述人声音轨幅度谱、伴奏音轨幅度谱和乐器音轨幅度谱与所述人声对数梅尔频谱、伴奏对数梅尔频谱和乐器对数梅尔频谱之间的曼哈顿距离。
S106,以所述曼哈顿距离均值为所述人声网络、伴奏网络和乐器网络的损失函数,并依据所述曼哈顿距离调整优化所述损失函数,得到盲分离模型。
采用曼哈顿距离计算二者之间的相似度,并采用取均值的方式来作为损失函数,不断优化,调节盲分离的参数;对于损失函数,公式表示如下:
Distance=Σ|xi-yi|
mean=0.5*(∑(ai*Distancei)+Σaj*Distancej))
上式中,Distance为曼哈顿距离,mean为损失函数。
对于损失函数优化过程,参考图2所示,图2是一个示例的损失函数优化流程图,通过不断优化损失函数从而得到精准的人声网络、伴奏网络和乐器网络,在构建了盲分离模型后,基于该盲分离模型可以进行人声伴奏的分离过程。
参考图3所示,图3是一个示例的音乐伴奏分离方法流程图,主要包括初步分离环节和伴奏重塑环节,具体如下步骤:
步骤S20:获取导入音乐,并将所述导入音乐转换为音乐频谱。
本实施例中,为了使用盲分离模型进行初步分离,先对输入的音乐信号进行STFT频谱分析,并进行对数梅尔频谱转化得到导入音乐对数梅尔频谱,获取与盲分离模型训练时相同的信号特征。
步骤S30:将所述音乐频谱分别输入所述人声网络、伴奏网络和乐器网络,获得人声频谱、初始伴奏频谱和各种乐器对应的乐器伴奏频谱。
在一个实施例中,参考图4,图4是一个示例的频谱生成流程图,步骤S30的频谱生成过程可以包括如下:
S301,将所述导入音乐对数梅尔频谱特分别输入人声网络、伴奏网络和乐器网络,获得人声频谱、伴奏频谱和乐器频谱。
S302,分别计算所述人声谱和伴奏频谱在整体音乐频谱中所占的第一比例和第二比例,以及所述乐器频谱在所述伴奏频谱中所占的第三比例;其中,所述整体音乐频谱为人声频谱与伴奏频谱频率范围。
S303,将所述第一比例与所述导入音乐对数梅尔频谱进行乘积得到人声对数梅尔频谱;将所述第二比例与所述导入音乐对数梅尔频谱进行乘积得到伴奏对数梅尔频谱。
S304,将所述第三比例与所述伴奏对数梅尔频谱进行乘积得到乐器对数梅尔频谱;
步骤S40:根据所述人声频谱、初始伴奏频谱和乐器伴奏频谱分别获取人声文件、初始伴奏文件和各种乐器对应的乐器伴奏文件。
在一个实施例中,分别对所述人声对数梅尔频谱、伴奏对数梅尔频谱和乐器对数梅尔频谱进行ISFTF分析得到人声文件、初始伴奏文件和各种乐器对应的乐器伴奏文件。
示例性的,参考图5,图5是一个示例的初步分离流程图,可以对对数梅尔频谱分别输入人声网络、伴奏网络和乐器网络,从而获得对应的频谱信息,对频谱信息进行平方;再根据频谱信息计算人声频谱在整个音乐频中所占的比例以及伴奏频谱获得伴奏在整个音乐频谱中所占的比例,根据该比例与音乐频谱进行乘积,即可获得人声频谱和伴奏频谱。然后对人声频谱和伴奏频谱进行ISFTF将频谱转化为人声文件和初始伴奏文件,并保存成对应的wav等格式,为用户创作提供伴奏素材和人声素材4;另外,可以采用同样的计算方式计算初始伴奏文件中存在的各种乐器音乐信号谱,并保存成对应的WAV,midi等格式,为用户创造歌曲提供单独的乐器伴奏文件。
步骤S50:根据所述乐器伴奏文件获取各个乐器的乐器曲特征,并根据所述乐器曲特征对所述初始伴奏文件进行重塑得到高保真伴奏文件。
示例性的,本实施例可以对初始伴奏文件的每个乐器进行重构或对初始伴奏文件进行自动EQ调整方式来获得高保真伴奏文件。
在一个实施例中,上述对初始伴奏文件采用每个乐器进行重构的方式来得到高保真伴奏文件,参考图6所示,图6是一个示例的重构伴奏流程图,可以包括如下:
S511,分别从各个发声乐器的乐器伴奏文件中提取出乐器曲特征;其中,所述乐器曲特征包括当前音符及其持续时间和强度值。
具体的,在人声伴奏分离后,可以得到人声文件和初始伴奏文件,可以获取各个发声乐器的乐器曲特征,如justin bieber的<baby>,有吉他和架子鼓,采用STFT计算当前音符,当前音符的时长采用持续时间来判定,音符持续时间Y(w,t-jP)为基音频率点为w所持续的能量值,以此来判定当前音符持续时间的长度time,公式如下:
Figure BDA0003326258730000121
按照12个音阶(C、C#、D、D#、E、F、F#、G、G#、A、A#、B),把全谱所有基音对应音阶放置在一个b矩阵(亦称为色度矩阵)中,若所对应的音阶数量最多,且该音阶以后的基音数量也相对较多,则认为该音阶即为该歌曲的调号;根据常用拍号(4/4,6/8,3/8)和计算所得的节拍持续时间,把连拍时间换算成1000的duration值,分别采用多种连拍组合(750+250,500+250+250,333+333+333,333+666,165+165+165+165+165+165(8分音符),165+165+333+333(16分音符),165+165+666),若计算所得duration值不在该值范围内,则映射到该范围内。
强度采用平滑的有效电平值决定(RMS),用于代表该音符的力度参数,有效电平值计算公式如下:
RMS=20*log10(xi2*β+(1-β)*RMSold)
通过当前音符持续时间的长度和音符的力度参数,找出音符位置及其开始位置和结束位置,并标注其强度大小。
S512,从乐器音色库中搜索出一致的目标乐器,并利用所述目标乐器的乐器曲特征来对所述初始伴奏文件进行重构,得到高保真伴奏文件。主要包括如下步骤:
(a)计算发声乐器的音符的ADSR值,从乐器音色库中搜索与所述ADSR值最接近的乐器作为目标乐器;
根据乐器类型搜索乐器音色库,截取同一音符(单音)的不同音色进行相似度计算,主要是通过音符的ADSR值进行相似度计算,由能量包络中每段(启动阶段、衰减阶段、稳定阶段和释放阶段)趋势的阈值决定,以最贴近的乐器音色库中的音色的ADSR值来确定最终用于伴奏重塑的目标乐器;如吉他和架子鼓;乐器曲中每个音符及其响度大小、持续时间与乐器库中的ADSR(attack启动时间、decay衰减时间、sustain维持时间、release释放时间),模拟琴被按压和释放的过程。
(b)计算所述发声乐器与目标乐器的音高比率。
具体的,通过已知的乐器音色库对应音符及其持续时间、力度参数等计算音高比率:
Figure BDA0003326258730000131
其中,pitchcenter为每个音色库中的每个音符所携带的标准中心音高,每个标准中心音高的偏移都会产生不同的频率,note代表的是音符的位置;如钢琴上的音符在0-88,乐器音色库最小设置是27,即总范围为27~116,pitchtrack代表对该音符范围的跟踪值,根据其音符位置会有一点的偏差,用于修正频率比率;wavetablesamplerate代表乐器音色库在建立时的采样率,outputsamplerate代表伴奏输出时的采样率。
(c)根据所述音高比率计算发声乐器的音符的动态增益值。
具体的,计算发声乐器此时的音符增益值,用于控制当前状态下声音大小,制作出与真实的乐器按键所发出声音的包络相类似的声音以及模拟出ADSR的包络,增益计算公式如下:
Figure BDA0003326258730000141
其中,wavetableattenuation代表固定衰减量,即当前音色的音符所特有的固定衰减量,velocity代表按压力度(也称为按压速度),amplever代表ADSR值的四个时间段的增益水平。
(d)根据所述动态增益值获取对应的波表值,并对波表值进行低通滤波。
根据计算的增益参数,获取对应的波表值,并对该值采用低通滤波器过滤其高频噪声,如采用一阶巴特沃斯低统滤波器:
y=b1×x+b2×x1-a1×y1
其中,a1、b1、b2为一阶巴特沃斯滤波器系数,x为当前输入值,x1为x的前一个值y1为y的前一个值。
(e)获取所述低通滤波输出的伴奏信号,分别将各个乐器对应的伴奏信号进行多乐器混音,得到高保真伴奏文件;具体的,当伴奏是由多种乐器构成时,则分别输出对应乐器的伴奏信号,然后进行多乐器混音。
在另一个实施例中,上述对初始伴奏文件采用自动EQ调整方式来得到高保真伴奏文件,可以包括如下:
S521,分别从各个发声乐器的乐器伴奏文件中提取出乐器曲特征;其中,所述乐器曲特征包括当前音符及其持续时间和强度值。
S522,对发声乐器的乐器伴奏文件的音符段进行分割,并从乐器音色库中查找对应目标乐器,生成频率响应曲线与目标乐器的音符段对比,计算最优EQ参数。
(a)根据每个乐器的音符段划分单音符或多音符。
根据人声伴奏分离出初始伴奏文件,乐器伴奏文件;由此可知伴奏中包含的各种乐器类型,如justin bieber的<baby>,有吉他和架子鼓等;根据每种乐器的音符段划分单音和多音符(如吉他和架子鼓两个音色都弹奏了C音)。
(b)把发声乐器的乐器伴奏文件的每个音符段使用STFT计算出频率响应曲线。
把初始伴奏文件的每个音符段使用STFT计算出频率响应曲线,与乐器音色库中同样的目标乐器的组合音符或单音符的频率响应曲线对比,确定所述发声乐器的乐器伴奏文件中缺失的音色。
(c)采用遗传算法获得所述发声乐器的频率响应曲线的最优EQ参数。
具体的,采用遗传算法,设置频率点为13个,每个EQ一个Q值,即十三段EQ,其目标函数为:
Figure BDA0003326258730000151
遗传算法中采用算术交叉算子和两点交叉算子,算术交叉算子通过与其他种群中较为优质的个体交叉交换信息的方式,产生新的个体,丰富了多样性.两点交叉算子则加速了算法的收敛效果,X=(fs,Q)值,每个X代表一个EQ滤波器:
X′i=r·Xi+(1-r)·Xj
Xi″=(1-r)·Xi+r·Xj.
Figure BDA0003326258730000152
Figure BDA0003326258730000153
S523,根据所最优EQ参数对所述初始伴奏文件的每段音符进行EQ补偿得到高保真伴奏文件。
具体的,经过遗传算法所获得的最佳EQ参数后,根据各个乐器的同一时间的各个音符段对所述初始伴奏文件的每一段音符段一一进行EQ补偿,得到高保真伴奏文件。
参考图7所示,图7是一个示例的EQ补偿过程的流程图,通过采用动态EQ补偿技术,对每一音符段进行对应EQ补偿,13段EQ控制每个音符段所缺失或过高的增益。
上述实施例阐述了本申请提供的音乐伴奏的分离方案,基于本申请提供的音乐伴奏的分离方法,可以用于对歌曲库中的音乐进行重建还原出原始高音质音乐,从而极大节约重新弹奏的成本;参考图8所示,图8是还原原始高音质音乐流程示意图,其可以包括如下:
(1)导入歌曲,如justinbieber的<baby>,该歌曲采用吉他和架子鼓演奏,根据本申请提供的人声分离方法,把纯人声、纯伴奏曲、纯乐器曲(吉他和架子鼓曲)提取后,对每个乐器进行乐器曲特征分析(音符、音符持续时间、音符强度、节奏等)。
(2)根据乐器曲的全谱段的音高pitch,节奏tempo,音符note,音符时长等特征生成对应MIDI文件,通过乐器音色库查找最相似的乐器,重新生成高清音乐伴奏文件,如歌曲乐器为贝斯,结合歌曲的节奏、音符、音高信息模拟歌曲弹奏过程,自动生成对应的伴奏文件,进而结合人声还原成原始歌曲,生成24bit、采样率96K或192K的wav、flac、ape、wave、aiff等格式的文件。
另外,也可以根据歌曲中的乐器信息,采用自动均衡技术对歌曲声音频段进行补偿,生成高清伴奏文件,如每首音乐伴奏均由一种或多种乐器组合而,利用歌曲库拥有的高音质的乐器音色库,经过一种或多种的串联组合形成对应的频率响应曲线,根据频率响应曲线的对比可知对应缺失的音色,根据对应频率进行EQ补偿,采用遗传算法计算最优Q值和频率值f,及EQ组合个数,用于后续使用,从而达到重塑歌曲伴奏的目的。
综上所述,通过伴奏重塑技术,采用乐器音色库对音乐的伴奏进行重新还原,可以模拟演奏现场,有效地实现高品质的歌曲伴奏合成;相对于常用技术中依赖众多的歌曲库进行模型训练以获得最佳的分离模型往往需要大量的歌曲作为训练集不同,采用本申请的技术方案,可以在歌曲库不足的情况下,仍然能够对歌曲伴奏进行还原和补偿,以达到高保真的目的。
下面阐述音乐伴奏的分离装置的实施例。
参考图8所示,图8是一个示例的音乐伴奏的分离装置的结构示意图,包括:
频谱转换模块20,用于获取导入音乐,并将所述导入音乐转换为音乐频谱;
盲源分离模块30,用于将所述音乐频谱分别输入所述人声网络、伴奏网络和乐器网络,获得人声频谱、初始伴奏频谱和各种乐器对应的乐器伴奏频谱;
文件转换模块40,用于根据所述人声频谱、初始伴奏频谱和乐器伴奏频谱分别获取人声文件、初始伴奏文件和各种乐器对应的乐器伴奏文件;
伴奏重构模块50,用于根据所述乐器伴奏文件获取各个乐器的乐器曲特征,并根据所述乐器曲特征对所述初始伴奏文件进行重塑得到高保真伴奏文件。
本实施例的音乐伴奏的分离装置可执行本公开的实施例所提供的一种音乐伴奏的分离方法,其实现原理相类似,本公开各实施例中的音乐伴奏的分离装置中的各模块所执行的动作是与本公开各实施例中的音乐伴奏的分离方法中的步骤相对应的,对于音乐伴奏的分离装置的各模块的详细功能描述具体可以参见前文中所示的对应的音乐伴奏的分离方法中的描述,此处不再赘述。
下面阐述本申请的计算机设备的实施例,该计算机设备,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据上述任意实施例的音乐伴奏的分离方法。
下面阐述本申请的计算机可读存储介质的实施例,,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行上述任意实施例的的音乐伴奏的分离方法。
上述音乐伴奏的分离装置、计算机设备以及计算机可读存储介质的技术方案中,先根据盲源分离法进行模型预测以实现初步的伴奏分离工作,然后根据乐器网络预测的各个乐器音乐频谱对每个乐器进行重塑从而得到高保真伴奏文件,有效提高了分离的伴奏质量,能够对导入音乐实现高度保真的分离音乐伴奏。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种音乐伴奏的分离方法,其特征在于,包括:
获取导入音乐,并将所述导入音乐转换为音乐频谱;
将所述音乐频谱分别输入所述人声网络、伴奏网络和乐器网络,获得人声频谱、初始伴奏频谱和各种乐器对应的乐器伴奏频谱;
根据所述人声频谱、初始伴奏频谱和乐器伴奏频谱分别获取人声文件、初始伴奏文件和各种乐器对应的乐器伴奏文件;
根据所述乐器伴奏文件获取各个乐器的乐器曲特征,并根据所述乐器曲特征对所述初始伴奏文件进行重塑得到高保真伴奏文件。
2.根据权利要求1所述的音乐伴奏的分离方法,其特征在于,还包括:
基于盲源分离技术构建人声网络、伴奏网络和乐器网络;
利用歌曲库中带伴奏的样本音乐输入人声网络、伴奏网络和乐器网络,并利用歌曲库中的纯人声、纯伴奏和纯乐器音色分别对人声网络、伴奏网络和乐器网络的输出进行比对;
根据比对结果优化所述人声网络、伴奏网络和乐器网络。
3.根据权利要求2所述的音乐伴奏的分离方法,其特征在于,所述利用歌曲库中带伴奏的样本音乐输入人声网络、伴奏网络和乐器网络,并利用歌曲库中的纯人声、纯伴奏和纯乐器音色分别对人声网络、伴奏网络和乐器网络的输出进行比对,包括:
将歌曲库中带伴奏的样本音乐、纯人声、纯伴奏和纯乐器音色分别进行STFT转换得到相应的样本音乐对数梅尔频谱、人声对数梅尔频谱、伴奏对数梅尔频谱和乐器对数梅尔频谱,并分别进行小波分析;
将所述样本音乐对数梅尔频谱通过所述人声网络、伴奏网络和乐器网络进行分析,得到相应的人声音轨幅度谱、伴奏音轨幅度谱和乐器音轨幅度谱;
对所述纯乐器音色进行ADSR分析,得到各种类型的乐器对应的包络特征,并依据所述包络特征修正所述乐器音轨幅度谱;
所述根据比对结果持续优化所述人声网络、伴奏网络和乐器网络,包括:
分别计算所述人声音轨幅度谱、伴奏音轨幅度谱和乐器音轨幅度谱与所述人声对数梅尔频谱、伴奏对数梅尔频谱和乐器对数梅尔频谱之间的曼哈顿距离;
以所述曼哈顿距离均值为所述人声网络、伴奏网络和乐器网络的损失函数,并依据所述曼哈顿距离调整优化所述损失函数。
4.根据权利要求3所述的音乐伴奏的分离方法,其特征在于,所述将所述导入音乐转换为音乐频谱,包括:
对所述导入音乐进行STFT频谱分析,并进行对数梅尔频谱转化得到导入音乐对数梅尔频谱;
所述将所述音乐频谱分别输入所述人声网络、伴奏网络和乐器网络,获得人声频谱、初始伴奏频谱和各种乐器对应的乐器伴奏频谱,包括:
将所述导入音乐对数梅尔频谱特分别输入人声网络、伴奏网络和乐器网络,获得人声频谱、伴奏频谱和乐器频谱;
分别计算所述人声谱和伴奏频谱在整体音乐频谱中所占的第一比例和第二比例,以及所述乐器频谱在所述伴奏频谱中所占的第三比例;其中,所述整体音乐频谱为人声频谱与伴奏频谱频率范围;
将所述第一比例与所述导入音乐对数梅尔频谱进行乘积得到人声对数梅尔频谱;将所述第二比例与所述导入音乐对数梅尔频谱进行乘积得到伴奏对数梅尔频谱;
将所述第三比例与所述伴奏对数梅尔频谱进行乘积得到乐器对数梅尔频谱;
所述根据所述人声频谱、初始伴奏频谱和乐器伴奏频谱分别获取人声文件、初始伴奏文件和各种乐器对应的乐器伴奏文件,包括:
分别对所述人声对数梅尔频谱、伴奏对数梅尔频谱和乐器对数梅尔频谱进行ISFTF分析得到人声文件、初始伴奏文件和各种乐器对应的乐器伴奏文件。
5.根据权利要求1-4任一项所述的音乐伴奏的分离方法,其特征在于,所述根据所述乐器伴奏文件获取各个乐器的乐器曲特征,并根据所述乐器曲特征对所述初始伴奏文件进行重塑得到高保真伴奏文件,包括:
分别从各个发声乐器的乐器伴奏文件中提取出乐器曲特征;其中,所述乐器曲特征包括当前音符及其持续时间和强度值;
从乐器音色库中搜索出一致的目标乐器,并利用所述目标乐器的乐器曲特征来对所述初始伴奏文件进行重构,得到高保真伴奏文件。
6.根据权利要求5所述的音乐伴奏的分离方法,其特征在于,所述从乐器音色库中搜索出一致的目标乐器,并利用所述目标乐器的乐器曲特征来对所述初始伴奏文件进行重构,得到高保真伴奏文件,包括:
计算发声乐器的音符的ADSR值,从乐器音色库中搜索与所述ADSR值最接近的乐器作为目标乐器;
计算所述发声乐器与目标乐器的音高比率;
根据所述音高比率计算发声乐器的音符的动态增益值;
根据所述动态增益值获取对应的波表值,并对波表值进行低通滤波;
获取所述低通滤波输出的伴奏信号,分别将各个乐器对应的伴奏信号进行多乐器混音,得到高保真伴奏文件。
7.根据权利要求1-4任一项所述的音乐伴奏的分离方法,其特征在于,所述根据所述乐器伴奏文件获取各个乐器的乐器曲特征,并根据所述乐器曲特征对所述初始伴奏文件进行补偿得到高保真伴奏文件,包括:
分别从各个发声乐器的乐器伴奏文件中提取出乐器曲特征;其中,所述乐器曲特征包括当前音符及其持续时间和强度值;
对发声乐器的乐器伴奏文件的音符段进行分割,并从乐器音色库中查找对应目标乐器,生成频率响应曲线与目标乐器的音符段对比,计算最优EQ参数;
根据所最优EQ参数对所述初始伴奏文件的每段音符进行EQ补偿得到高保真伴奏文件。
8.根据权利要求7所述的音乐伴奏的分离方法,其特征在于,所述对发声乐器的乐器伴奏文件的音符段进行分割,并从乐器音色库中查找对应目标乐器,生成频率响应曲线与目标乐器的音符段对比,计算最优EQ参数,包括:
根据每个乐器的音符段划分单音符或多音符;
把发声乐器的乐器伴奏文件的每个音符段使用STFT计算出频率响应曲线;
采用遗传算法获得所述发声乐器的频率响应曲线的最优EQ参数;
所述根据所最优EQ参数对所述初始伴奏文件的每段音符进行EQ补偿得到高保真伴奏文件,包括:
根据各个乐器的同一时间的各个音符段对所述初始伴奏文件的每一段音符段一一进行EQ补偿,得到高保真伴奏文件。
9.根据权利要求6所述的音乐伴奏的分离方法,其特征在于,所述乐器音色库中包括多种音色;其中,每种音色设置不同数量的音符以及每个音符设置有对应的ADSR值、低通滤波器频率f及Q值、采样率以及LFO低频震荡调制器。
10.一种音乐伴奏的分离装置,其特征在于,包括:
频谱转换模块,用于获取导入音乐,并将所述导入音乐转换为音乐频谱;
盲源分离模块,用于将所述音乐频谱分别输入所述人声网络、伴奏网络和乐器网络,获得人声频谱、初始伴奏频谱和各种乐器对应的乐器伴奏频谱;
文件转换模块,用于根据所述人声频谱、初始伴奏频谱和乐器伴奏频谱分别获取人声文件、初始伴奏文件和各种乐器对应的乐器伴奏文件;
伴奏重构模块,用于根据所述乐器伴奏文件获取各个乐器的乐器曲特征,并根据所述乐器曲特征对所述初始伴奏文件进行重塑得到高保真伴奏文件。
CN202111262479.2A 2021-10-28 2021-10-28 音乐伴奏的分离方法和装置 Pending CN114005461A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111262479.2A CN114005461A (zh) 2021-10-28 2021-10-28 音乐伴奏的分离方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111262479.2A CN114005461A (zh) 2021-10-28 2021-10-28 音乐伴奏的分离方法和装置

Publications (1)

Publication Number Publication Date
CN114005461A true CN114005461A (zh) 2022-02-01

Family

ID=79924554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111262479.2A Pending CN114005461A (zh) 2021-10-28 2021-10-28 音乐伴奏的分离方法和装置

Country Status (1)

Country Link
CN (1) CN114005461A (zh)

Similar Documents

Publication Publication Date Title
JP7243052B2 (ja) オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム
US5792971A (en) Method and system for editing digital audio information with music-like parameters
US6191349B1 (en) Musical instrument digital interface with speech capability
US8735709B2 (en) Generation of harmony tone
CN112382257B (zh) 一种音频处理方法、装置、设备及介质
JPH11513820A (ja) 音声合成のための制御構造
Lerch Software-based extraction of objective parameters from music performances
CN108369800B (zh) 声处理装置
CN114005461A (zh) 音乐伴奏的分离方法和装置
Kitahara et al. Instrogram: A new musical instrument recognition technique without using onset detection nor f0 estimation
JP6406273B2 (ja) カラオケ装置,及びプログラム
Yasuraoka et al. Changing timbre and phrase in existing musical performances as you like: manipulations of single part using harmonic and inharmonic models
WO2021175460A1 (en) Method, device and software for applying an audio effect, in particular pitch shifting
JP5413380B2 (ja) 楽曲データ修正装置
JP3958841B2 (ja) 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体
JP5569307B2 (ja) プログラム、及び編集装置
JP6793422B1 (ja) 音声補正装置、歌唱システム、音声補正方法、およびプログラム
Arthi et al. Multi-loudspeaker rendering of musical ensemble: Role of timbre in source width perception
JP2889841B2 (ja) 電子楽器自動伴奏時のコード変化処理方法
Sarkar Time-domain music source separation for choirs and ensembles
Williams Towards a timbre morpher
Molina et al. Dissonance reduction in polyphonic audio using harmonic reorganization
Saranya et al. Orchestrate-A GAN Architectural-Based Pipeline for Musical Instrument Chord Conversion
Thompson Note Detection and Multiple Fundamental Frequency Estimation in Piano Recordings
CN112185325A (zh) 音频播放风格调节方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination