CN117594057A - 一种伴奏与人声分离方法、系统、编码器、介质及设备 - Google Patents
一种伴奏与人声分离方法、系统、编码器、介质及设备 Download PDFInfo
- Publication number
- CN117594057A CN117594057A CN202311563892.1A CN202311563892A CN117594057A CN 117594057 A CN117594057 A CN 117594057A CN 202311563892 A CN202311563892 A CN 202311563892A CN 117594057 A CN117594057 A CN 117594057A
- Authority
- CN
- China
- Prior art keywords
- accompaniment
- spectrum
- mixed
- training
- human voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 45
- 238000001228 spectrum Methods 0.000 claims abstract description 158
- 230000003595 spectral effect Effects 0.000 claims abstract description 92
- 238000000034 method Methods 0.000 claims abstract description 79
- 230000005236 sound signal Effects 0.000 claims abstract description 79
- 238000007667 floating Methods 0.000 claims abstract description 72
- 230000008569 process Effects 0.000 claims abstract description 44
- 238000003062 neural network model Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 8
- 238000006243 chemical reaction Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011151 fibre-reinforced plastic Substances 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
本申请公开了一种伴奏与人声分离方法、系统、编码器、介质及设备,属于音频编解码技术领域,该方法包括:对混合音频信号中的音频帧进行编码的过程中,确定音频帧对应的混合幅度谱;将混合幅度谱输入到预训练神经网络模型中进行处理,得到对应的谱系数浮值掩膜;根据谱系数浮值掩膜对音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数;对伴奏谱系数或人声谱系数继续进行编码,得到对应的伴奏码流或人声码流。本申请利用神经网络模型对音频信号进行伴奏和人声的分离,保证音质效果;同时利用现有编码过程的时频变换和重叠相加过程,避免了增加算法延时,提高用户使用体验。
Description
技术领域
本申请涉及音频编解码技术领域,特别涉及一种伴奏与人声分离方法、系统、编码器、介质及设备。
背景技术
无线K歌已成为一种流行的娱乐方式,特别是基于蓝牙的K歌系统,因其低成本、低功耗的特性,使用特别广泛,是LE Audio中的基本应用。现有技术中,获取无线K歌的伴奏的一种方法是,在发射端(譬如手机、平板等设备)的K歌软件库里面搜索相应的伴奏音乐并通过无线蓝牙发送到接收端无线(蓝牙)麦克风。如果相应的歌曲没有伴奏音乐,则获取无线K歌伴奏的方法有:将原始歌曲发送到麦克风,部分蓝牙麦克风具有消除原声的功能。在现有技术的伴奏和人声分离的方法包括:使用左、右声道相减的一般处理方式;将音乐信号的左右声道信号先变换至频域,再使用主成分分析(PCA)的方法先求出人声和立体音乐,再对人声进行去除。其中上述第一种方法是假定人声在声像的中间而左右声道的伴奏在两边,换句话说,人声在左右声道中的强度相似,而伴奏在两个声道中的强度有明显不同,但实际情形未必所有的歌曲都能满足此要求,导致实际应用时性能不稳定;上述第二种方法是比较传统的方法,计算量较大且性能一般,很难将人声去除干净,且将信号变换到频域处理的方法,为了确保重建后的音频平滑,通常会引入重叠相加,这就导致引入了额外的算法时延,降低了用户体验。另外,现有的深度学习网络的处理方法难以在LE Audio的实时场景应用;神经网络过于复杂,典型的层数为12层,远远大于一般应用于嵌入式系统的神经网络(3~6层),其运算量过大导致难以在嵌入式系统中进行部署。
发明内容
针对现有技术中,在进行伴奏和人声分离时存在的分离效果一般,同时现有的方法会增加算法延迟,从而降低用户体验以及无法适用低功耗蓝牙和嵌入式系统的问题,本申请提出一种伴奏与人声分离方法、系统、编码器、介质及设备。
第一方面,本申请提出一种伴奏与人声分离方法,包括:对混合音频信号中的音频帧进行编码的过程中,确定音频帧对应的混合幅度谱;将混合幅度谱输入到预训练神经网络模型中进行处理,得到对应的谱系数浮值掩膜;根据谱系数浮值掩膜对音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数;对伴奏谱系数或人声谱系数继续进行编码,得到对应的伴奏码流或人声码流。
可选的,预训练神经网络模型的训练过程包括:获取训练用伴奏音频信号和训练用混合音频信号;分别对训练用伴奏音频信号和训练用混合音频信号进行特征提取,得到伴奏音频幅度谱和混合音频幅度谱;根据伴奏音频幅度谱和混合音频幅度谱计算得到谱系数浮值掩膜真值;根据混合音频幅度谱和谱系数浮值掩膜真值对神经网络进行训练,输出谱系数浮值掩膜估计值,其中通过对神经网络进行训练,使得谱系数浮值掩膜估计值与谱系数浮值掩膜真值之间的误差在预设范围内。
可选的,获取训练用伴奏音频信号和训练用混合音频信号,包括:获取纯净人声信号;将训练用伴奏音频信号与纯净人声信号按帧进行叠加,得到训练用混合音频信号。
可选的,对混合音频信号中的音频帧进行编码的过程中,确定音频帧对应的混合幅度谱,包括:对音频帧分别进行离散余弦变换和离散正弦变换,得到相应的第一谱系数和第二谱系数;根据第一谱系数和第二谱系数确定音频帧对应的混合幅度谱。
可选的,根据谱系数浮值掩膜对音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数,包括:将谱系数浮值掩膜与混合谱系数进行点乘,得到伴奏谱系数。第二方面,本申请提出一种伴奏与人声分离系统,包括:用于对混合音频信号中的音频帧进行编码的过程中,确定音频帧对应的混合幅度谱的模块;用于将混合幅度谱输入到预训练神经网络模型中进行处理,得到对应的谱系数浮值掩膜的模块;用于根据谱系数浮值掩膜对音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数的模块;用于对伴奏谱系数或人声谱系数继续进行编码,得到对应的伴奏码流或人声码流的模块。
第三方面,本申请提出一种音频编码器,包括方案二中的伴奏与人声分离系统。
第四方面,本申请提供一种计算机可读存储介质,其存储有计算机程序,其中计算机程序被操作以执行方案一中的伴奏与人声分离方法。
第五方面,本申请提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机程序,其中处理器操作计算机程序以执行方案一中的伴奏与人声分离方法。
本申请利用神经网络模型对音频信号进行伴奏和人声的分离,保证分离后的音质效果;同时利用现有编码过程的时频变换和重叠相加过程,避免增加算法延时,提高用户使用体验。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图示例性的示出了本申请的一些实施例。
图1是本申请伴奏与人声分离方法的一个实施方式的示意图;
图2是本申请预训练神经网络模型离线训练和在线推理的一个实例的示意图;
图3是本申请伴奏与人声分离的一个实例的示意图;
图4是本申请伴奏与人声分离方法的一个实例的示意图;
图5是本申请伴奏与人声分离系统的一个实施方式的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
无线K歌已成为一种流行的娱乐方式,特别是基于蓝牙的K歌系统,因其低成本、低功耗的特性,使用特别广泛,是LE Audio中的基本应用。现有技术中,获取无线K歌的伴奏的一种方法是,在发射端(譬如手机、平板等设备)的K歌软件库里面搜索相应的伴奏音乐并通过无线蓝牙发送到接收端无线(蓝牙)麦克风。如果相应的歌曲没有伴奏音乐,则获取无线K歌伴奏的方法有:将原始歌曲发送到麦克风,部分蓝牙麦克风具有消除原声的功能。在现有技术的伴奏和人声分离的方法包括:使用左、右声道相减的一般处理方式;将音乐信号的左右声道信号先变换至频域,再使用主成分分析(PCA)的方法先求出人声和立体音乐,再对人声进行去除。其中上述第一种方法是假定人声在声像的中间而左右声道的伴奏在两边,换句话说,人声在左右声道中的强度相似,而伴奏在两个声道中的强度有明显不同,但实际情形未必所有的歌曲都能满足此要求,导致实际应用时性能不稳定;上述第二种方法是比较传统的方法,计算量较大且性能一般,很难将人声去除干净,且将信号变换到频域处理的方法,为了确保重建后的音频平滑,通常会引入重叠相加,这就导致引入了额外的算法时延,降低了用户体验。另外,现有的深度学习网络的处理方法难以在LE Audio的实时场景应用;神经网络过于复杂,典型的层数为12层,远远大于一般应用于嵌入式系统的神经网络(3~6层),其运算量过大导致难以在嵌入式系统中进行部署。
针对上述问题,本申请提出一种伴奏与人声分离方法、系统、编码器、介质及设备,该方法包括:对混合音频信号中的音频帧进行编码的过程中,确定音频帧对应的混合幅度谱;将混合幅度谱输入到预训练神经网络模型中进行处理,得到对应的谱系数浮值掩膜;根据谱系数浮值掩膜对音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数;对伴奏谱系数或人声谱系数继续进行编码,得到对应的伴奏码流或人声码流。
本申请利用神经网络模型对音频信号进伴奏和人声的分离,保证音质效果;同时利用现有编码过程的时频变换和重叠相加过程,避免了增加算法延时,提高用户使用体验。
下面,以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面述及的具体的实施例可以相互结合形成新的实施例。对于在一个实施例中描述过的相同或相似的思想或过程,可能在其他某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。其中为了叙述方便,本申请以LC3编码器为例,对本申请的技术方案进行说明。
图1是本申请伴奏与人声分离方法的一个实施方式的示意图。
在图1所示的实施方式中,本申请的伴奏与人声分离方法包括过程S101,对混合音频信号中的音频帧进行编码的过程中,确定音频帧对应的混合幅度谱。
在该实施方式中,在对混合音频信号进行编码的过程中,对音频帧进行特征提取,获取音频帧对应的混合幅度谱。
可选的,对混合音频信号中的音频帧进行编码的过程中,确定音频帧对应的混合幅度谱,包括:对音频帧分别进行离散余弦变换和离散正弦变换,得到相应的第一谱系数和第二谱系数;根据第一谱系数和第二谱系数确定音频帧对应的混合幅度谱。
在该可选实施例中,在对混合音频信号中的音频帧进行编码的过程中,对音频帧进行低延迟改进型离散余弦变换,得到对应的第一谱系数;同时对音频帧进行低延迟改进型离散正弦变换,得到第二谱系数,最后根据第一谱系数和第二谱系数得到音频帧对应的混合幅度谱。
具体的,在对混合音频信号进行编码时,对混合音频信号进行分帧,然后对音频帧进行低延迟改进型离散余弦变换,输出第一谱系数Xmdct(k);同时对音频帧执行低延迟改进型离散正弦变换,输出第二谱系数Xmdst(k),然后计算混合幅度谱,其中混合幅度谱的计算公式如下:
在图1所示的实施方式中,本申请的伴奏与人声分离方法包括过程S102,将混合幅度谱输入到预训练神经网络模型中进行处理,得到对应的谱系数浮值掩膜。
在该实施方式中,在得到音频帧对应的幅度谱后,将幅度谱输入到经过训练的神经网络模型中进行处理,通过神经网络模型输出音频帧对应的谱系数浮值掩膜。其中,谱系数浮值掩膜用以后续对音频帧对应的混合谱系数进行分离。
可选的,预训练神经网络的训练过程包括:获取训练用伴奏音频信号和训练用混合音频信号;分别对训练用伴奏音频信号和训练用混合音频信号进行特征提取,得到伴奏音频幅度谱和混合音频幅度谱;根据伴奏音频幅度谱和混合音频幅度谱计算得到谱系数浮值掩膜真值;根据混合音频幅度谱和谱系数浮值掩膜真值对神经网络进行训练,得到谱系数浮值掩膜估计值,其中通过对神经网络进行训练,使得谱系数浮值掩膜估计值与谱系数浮值掩膜真值之间的误差在预设范围内。
在该可选实施例中,需要预先对神经网络进行训练,在训练前首先要获取训练用伴奏音频信号和训练用混合音频信号。其中伴奏音频信号是纯净伴奏音频,混合音频信号是伴奏与人声混合的音频信号。
可选的,获取训练用伴奏音频信号和训练用混合音频信号,包括:获取纯净人声信号;将训练用伴奏音频信号与纯净人声信号按帧进行叠加,得到训练用混合音频信号。
在该可选实施例中,获取纯净人声信号,然后将纯净人声信号与伴奏音频信号进行叠加,得到训练用混合音频信号。
具体的,伴奏音频信号表示为:xmusic(m),纯净人声信号表示为:xvoice(m),两者按帧叠加后得到混合音频信号xmix(m),其中具体叠加公式表示为:
xmix(m)=xmusic(m)+xvoice(m),m=0,1,…,NF-1
然后对训练用伴奏音频信号和训练用混合音频信号分别进行特征提取,分别计算两者的低延迟改进型离散余弦变换谱系数和低延迟改进型离散正弦变换谱系数,进而计算两者分别对应的幅度谱。
具体的,计算低延迟改进型离散余弦变换谱系数MDCT和低延迟改进型离散余弦变换谱系数MDFT的计算过程如下:
t(n)=xvoice(Z-NF+n),for n=0…2·NF-1-Z
t(2NF-Z+n)=0,for n=0…Z-1
for k=0…NF-1
其中xvoice(n)是输入人声信号,wNms_NF是LC3中的分析窗,Xmdct(k)是第一谱系数,即MDCT谱系数,Xmdst是第二谱系数,即MDST谱系数。
同样的方法可以计算训练用混合音频信号xmix对应的谱系数,分别记为Ymdct(k)和Ymdst(k)。
然后构建MDFT信号及MDFT幅度谱,其中构建对应的MDFT信号,表示如下:
Xmdft(k)=Xmdct(k)+jXmdst(k)
Ymdft(k)=Ymdct(k)+jYmdst(k)
对应的幅度谱表示如下:
其中,|Xmdft(k)|表示伴奏音频幅度谱,|Ymdft(k)|表示混合音频幅度谱。
现有技术中,音频信号处理的深度学习中,通常基于FFT并以幅度谱为主要学习目标(忽略相位的影响),在重建信号时以处理之前的信号相位代替实际的相位,这导致信号的音质受到影响。为了兼顾相位,近年来,也有以复数谱为学习目标,可以兼顾幅度和相位,取得了较好的音质,其缺点是特征数量增加了一倍,导致复杂度上升。上述构建的MDFT信号,既有实部也有虚部,本申请以MDFT域的浮值掩膜为学习目标,不仅能同时兼顾幅度和相位,而且特征数量与FFT的实数谱和复数谱相比都大大减少。
然后根据伴奏音频幅度谱和混合音频幅度谱计算得到谱系数浮值掩膜真值,具体公式表示为:其中,Ratio Mask,简称RM,neural network,简称NN,表示此浮值掩膜是神经网络输出。
接着根据混合音频幅度谱和谱系数浮值掩膜真值对神经网络进行训练,得到谱系数浮值掩膜估计值,通过不断的调整神经网络的参数,不断优化神经网络,最终使得谱系数浮值掩膜估计值与谱系数浮值掩膜真值之间的误差在预设范围内,当损失水平达到预期时冻结神经网络,从而完成神经网络的训练,得到预训练神经网络模型。
具体的,神经网络的选择本发明并不限制,考虑到语音帧的前后相关特性,优先选取循环神经网络(Recurrent Neural Network,RNN)。
神经网络的输入为上述MDFT信号的幅度谱,输出为估计的谱系数浮值掩膜RMnn,mdft(k)。反向传播时使用的损失函数定义为:
在图1所示的实施方式中,本申请的伴奏与人声分离方法包括S103:根据谱系数浮值掩膜对音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数。
在该实施方式中,通过将谱系数浮值掩膜与混合谱系数执行点乘,从而得到分离的伴奏谱系数及对应的人声谱系数。
可选的,根据谱系数浮值掩膜对音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数,包括:将谱系数浮值掩膜与混合谱系数进行点乘,得到伴奏谱系数。
具体的,如果期望输出伴奏音乐得到伴奏谱系数,则将混合谱系数与谱系数浮值掩膜进行点乘,如下:
Xmusic,sep(k)=X(k)·RMnn,mdft(k)
如果期望输出人声得到人声谱系数,则将混合谱系数与1减去系数浮值掩膜的差值进行点乘,如下:
Xvoice,sep(k)=X(k)·(1-RMnn,mdft(k))
在图1所示的实施方式中,本申请的伴奏与人声分离方法包括S104,对伴奏谱系数或人声谱系数继续进行编码,得到对应的伴奏码流或人声码流。
在该实施方式中,根据得到伴奏谱系数或人声谱系数继续进行后续的编码过程,包括:变换域噪声整形、时域噪声整形、量化、噪声电平估计和算术与残差编码、码流封装等,最后输出伴奏或人声对应的码流。
具体的,图2是本申请预训练神经网络模型离线训练和在线推理的一个实例的示意图。
如图2所示,离线线训练部分是图中虚线以上所示,通常在PC或服务器上基于大量的伴奏音乐和纯净歌声训练神经网络,得到相关的网络模型和参数,再进行量化以便部署到嵌入式平台;在线推理部分为图中虚线以下所示,通常应用在算力和存储资源都有限的嵌入式设备,如具有蓝牙收发功能的设备,包括:手机、电脑、平板、蓝牙发射器、蓝牙收发一体设备等。
在离线训练阶段,通过将人声和伴奏进行混合,得到混合音频信号。分别对伴奏音频信号和混合音频信号进行特征提取,得到对应的幅度谱,进一步确定谱系数浮值掩膜真值,然后利用混合音频幅度谱和谱系数浮值掩膜真值对神经网络进行训练,最终确定网络模型及其对应的参数。在线推理阶段,在对混合音频信号进行编码的过程中,对混合音频信号进行特征提取,得到其对应的混合幅度谱。然后利用预训练神经网络模型进行处理,得到对应的谱系数浮值掩膜。再利用得到的谱系数浮值掩膜与混合音频信号的谱系数进行点乘,得到伴奏谱系数。然后利用伴奏谱系数通过其余编码模块进行后续的编码过程,得到伴奏码流,并传输到蓝牙通信模块中。
具体的,图3是本申请伴奏与人声分离的一个实例的示意图。
如图3所示是音频编码过程的一个示意图。其中伴奏与人声分离模块和点乘模块是新增加的模块。在音频编码过程中,在输入音频数据信号后进行低延迟改进型离散余弦变换过程,得到音频数据对应的谱系数以及幅度谱。将幅度谱输入到伴奏与人声分离模块中,利用预训练神经网络模型进行处理,得到谱系数浮值掩膜;将谱系数浮值掩膜与音频数据对应的谱系数进行点乘,得到分离后的伴奏谱系数或人声谱系数。然后对伴奏谱系数或人声谱系数继续进行后续的编码过程,最终得到相应的码流。
图4是本申请伴奏与人声分离方法的一个实例的示意图。
如图4所示,本申请的技术方案实际应用时,首先搜索伴奏音乐:当用户启动K歌时,如果需要消除原声,首先在曲库中搜索对应的伴奏音乐;如果搜索成功,则直接对伴奏音乐使用普通编码模式,编码压缩后发给蓝牙麦克风;如果搜索不成功,则对混合音乐(即人声和伴奏的混合)执行伴奏分离编码模式;将编码后的伴奏码流(或者人声码流,依据应用需求)发送到蓝牙麦克风。普通编码模式即符合标准的LC3编码。
本申请利用神经网络模型对音频信号进行处理,进行伴奏和人声的分离,保证音质效果;同时利用现有编码过程的时频变换和重叠相加过程,避免了增加算法延时,提高用户使用体验。本申请既可以用于低功耗蓝牙,也可以用于经典蓝牙;深度学习过程中,以MDFT为基础计算的浮值掩膜,同时学习到幅度和相位,确保了音质。本申请在训练时可以兼顾幅度和相位的MDFT、在推理时基于MDFT幅度谱经过神经网络输出浮值掩膜、最后将浮值掩膜应用于MDCT谱系数避免了处理相位,在蓝牙发射端,对歌曲进行伴奏人声分离,达到提高分离音质、降低分离时延的效果。
图5是本申请伴奏与人声分离系统的一个实施方式的示意图。
如图5所示,本申请的伴奏与人声分离系统包括:用于对混合音频信号中的音频帧进行编码的过程中,确定音频帧对应的混合幅度谱的模块501;用于将混合幅度谱输入到预训练神经网络模型中进行处理,得到对应的谱系数浮值掩膜的模块502;用于根据谱系数浮值掩膜对音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数的模块503;用于对伴奏谱系数或人声谱系数继续进行编码,得到对应的伴奏码流或人声码流的模块504。
可选的,预训练神经网络模型的训练过程包括:获取训练用伴奏音频信号和训练用混合音频信号;分别对训练用伴奏音频信号和训练用混合音频信号进行特征提取,得到伴奏音频幅度谱和混合音频幅度谱;根据伴奏音频幅度谱和混合音频幅度谱计算得到谱系数浮值掩膜真值;根据混合音频幅度谱和谱系数浮值掩膜真值对神经网络进行训练,输出谱系数浮值掩膜估计值,其中通过对神经网络进行训练,使得谱系数浮值掩膜估计值与谱系数浮值掩膜真值之间的误差在预设范围内。
可选的,获取训练用伴奏音频信号和训练用混合音频信号,包括:获取纯净人声信号;将训练用伴奏音频信号与纯净人声信号按帧进行叠加,得到训练用混合音频信号。
可选的,对混合音频信号中的音频帧进行编码的过程中,确定音频帧对应的混合幅度谱,包括:对音频帧分别进行离散余弦变换和离散正弦变换,得到相应的第一谱系数和第二谱系数;根据第一谱系数和第二谱系数确定音频帧对应的混合幅度谱。
可选的,根据谱系数浮值掩膜对音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数,包括:将谱系数浮值掩膜与混合谱系数进行点乘,得到伴奏谱系数。本申请利用神经网络模型对音频信号进行处理,进行伴奏和人声的分离,保证音质效果;同时利用现有编码过程的时频变换和重叠相加过程,避免了增加算法延时,提高用户使用体验。本申请既可以用于低功耗蓝牙,也可以用于经典蓝牙;深度学习过程中,以MDFT为基础计算的浮值掩膜,同时学习到幅度和相位,确保了音质。
在本申请的一个实施方式中,本申请提供一种音频编码器,其包括上述任一实施例描述的伴奏与人声分离系统。
在本申请的一个实施方式中,一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行任一实施例描述的伴奏与人声分离方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中:处理器操作计算机指令以执行任一实施例描述的伴奏与人声分离方法。
在本申请所提供的实施方式中,应该理解到,所揭露的装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种伴奏与人声分离方法,其特征在于,包括:
对混合音频信号中的音频帧进行编码的过程中,确定所述音频帧对应的混合幅度谱;
将所述混合幅度谱输入到预训练神经网络模型中进行处理,得到对应的谱系数浮值掩膜;
根据所述谱系数浮值掩膜对所述音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数;
对所述伴奏谱系数或人声谱系数继续进行编码,得到对应的伴奏码流或人声码流。
2.根据权利要求1所述的伴奏与人声分离方法,其特征在于,所述预训练神经网络模型的训练过程包括:
获取训练用伴奏音频信号和训练用混合音频信号;
分别对所述训练用伴奏音频信号和所述训练用混合音频信号进行特征提取,得到伴奏音频幅度谱和混合音频幅度谱;
根据所述伴奏音频幅度谱和所述混合音频幅度谱计算得到谱系数浮值掩膜真值;
根据所述混合音频幅度谱和所述谱系数浮值掩膜真值对神经网络进行训练,输出谱系数浮值掩膜估计值,其中通过对所述神经网络进行训练,使得所述谱系数浮值掩膜估计值与所述谱系数浮值掩膜真值之间的误差在预设范围内。
3.根据权利要求2所述的伴奏与人声分离方法,其特征在于,所述获取训练用伴奏音频信号和训练用混合音频信号,包括:
获取纯净人声信号;
将所述训练用伴奏音频信号与所述纯净人声信号按帧进行叠加,得到所述训练用混合音频信号。
4.根据权利要求1-3任一所述的伴奏与人声分离方法,其特征在于,所述对混合音频信号中的音频帧进行编码的过程中,确定所述音频帧对应的混合幅度谱,包括:
对所述音频帧分别进行离散余弦变换和离散正弦变换,得到相应的第一谱系数和第二谱系数;
根据所述第一谱系数和第二谱系数确定所述音频帧对应的所述混合幅度谱。
5.根据权利要求1-3任一所述的伴奏与人声分离方法,其特征在于,所述根据所述谱系数浮值掩膜对所述音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数,包括:
将所述谱系数浮值掩膜与所述混合谱系数进行点乘,得到所述伴奏谱系数。
6.一种伴奏与人声分离系统,其特征在于,包括:
用于对混合音频信号中的音频帧进行编码的过程中,确定所述音频帧对应的混合幅度谱的模块;
用于将所述混合幅度谱输入到预训练神经网络模型中进行处理,得到对应的谱系数浮值掩膜的模块;
用于根据所述谱系数浮值掩膜对所述音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数的模块;
用于对所述伴奏谱系数或人声谱系数继续进行编码,得到对应的伴奏码流或人声码流的模块。
7.根据权利要求6所述的伴奏与人声分离系统,其特征在于,所述预训练神经网络的训练过程包括:
获取训练用伴奏音频信号和训练用混合音频信号;
分别对所述训练用伴奏音频信号和所述训练用混合音频信号进行特征提取,得到伴奏音频幅度谱和混合音频幅度谱;
根据所述伴奏音频幅度谱和所述混合音频幅度谱计算得到谱系数浮值掩膜真值;
根据所述混合音频幅度谱和所述谱系数浮值掩膜真值对神经网络进行训练,输出谱系数浮值掩膜估计值,其中通过对所述神经网络进行训练,使得所述谱系数浮值掩膜估计值与所述谱系数浮值掩膜真值之间的误差在预设范围内。
8.一种音频编码器,其特征在于包括如权利要求6-7任一项所述的伴奏与人声分离系统。
9.一种计算机可读存储介质,其存储有计算机程序,其中所述计算机程序被操作以执行权利要求1-7中任一项所述的伴奏与人声分离方法。
10.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机程序,其中所述处理器操作所述计算机程序以执行权利要求1-7中任一项所述的伴奏与人声分离方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311563892.1A CN117594057A (zh) | 2023-11-22 | 2023-11-22 | 一种伴奏与人声分离方法、系统、编码器、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311563892.1A CN117594057A (zh) | 2023-11-22 | 2023-11-22 | 一种伴奏与人声分离方法、系统、编码器、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117594057A true CN117594057A (zh) | 2024-02-23 |
Family
ID=89921343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311563892.1A Pending CN117594057A (zh) | 2023-11-22 | 2023-11-22 | 一种伴奏与人声分离方法、系统、编码器、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117594057A (zh) |
-
2023
- 2023-11-22 CN CN202311563892.1A patent/CN117594057A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101183527B (zh) | 用于对高频信号进行编码和解码的方法和设备 | |
WO2017157319A1 (zh) | 音频信息处理方法及装置 | |
CN104978970B (zh) | 一种噪声信号的处理和生成方法、编解码器和编解码系统 | |
CN114333865B (zh) | 一种模型训练以及音色转换方法、装置、设备及介质 | |
CN113140225A (zh) | 语音信号处理方法、装置、电子设备及存储介质 | |
WO2007088853A1 (ja) | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 | |
Kuo et al. | Variational recurrent neural networks for speech separation | |
CN114550732B (zh) | 一种高频音频信号的编解码方法和相关装置 | |
CN113921023B (zh) | 一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备 | |
WO2024055752A1 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
CN114863942B (zh) | 音质转换的模型训练方法、提升语音音质的方法及装置 | |
CN112908293B (zh) | 一种基于语义注意力机制的多音字发音纠错方法及装置 | |
CN115083429A (zh) | 语音降噪的模型训练方法、语音降噪方法、装置及介质 | |
CN112289343A (zh) | 音频修复方法、装置及电子设备和计算机可读存储介质 | |
CN113314132B (zh) | 交互式音频系统中的音频对象编码方法、解码方法及装置 | |
CN117672254A (zh) | 语音转换方法、装置、计算机设备及存储介质 | |
CN117594057A (zh) | 一种伴奏与人声分离方法、系统、编码器、介质及设备 | |
CN114203151A (zh) | 语音合成模型的训练的相关方法以及相关装置、设备 | |
Zheng et al. | Bandwidth extension WaveNet for bone-conducted speech enhancement | |
CN112164387A (zh) | 音频合成方法、装置及电子设备和计算机可读存储介质 | |
Fourer et al. | Informed spectral analysis: audio signal parameter estimation using side information | |
CN118155592A (zh) | 基于深度学习的伴奏提取方法、系统、存储介质及设备 | |
CN117594051B (zh) | 用于语音转换的可控说话者音频表示的方法及装置 | |
CN114582367B (zh) | 一种音乐混响强度估计方法、装置及电子设备 | |
CN116110424A (zh) | 一种语音带宽扩展方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |