CN115910009A - 电子设备、方法和计算机程序 - Google Patents

电子设备、方法和计算机程序 Download PDF

Info

Publication number
CN115910009A
CN115910009A CN202210968636.XA CN202210968636A CN115910009A CN 115910009 A CN115910009 A CN 115910009A CN 202210968636 A CN202210968636 A CN 202210968636A CN 115910009 A CN115910009 A CN 115910009A
Authority
CN
China
Prior art keywords
signal
audio
user
electronic device
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210968636.XA
Other languages
English (en)
Inventor
乔治·法布罗
斯特凡·乌利希
迈克尔·埃嫩克尔
托马斯·肯普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN115910009A publication Critical patent/CN115910009A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H3/00Instruments in which the tones are generated by electromechanical means
    • G10H3/12Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
    • G10H3/125Extracting or recognising the pitch or fundamental frequency of the picked up signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/281Reverberation or echo
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/311Distortion, i.e. desired non-linear audio processing to change the tone color, e.g. by adding harmonics or deliberately distorting the amplitude of an audio waveform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

一种电子设备、方法和计算机程序,该电子设备包括电路,该电路被配置为对音频信号执行源分离以获得分离源和残差信号,对分离源执行特征提取以获得一个或多个处理参数,以及基于一个或多个处理参数对捕获的音频信号执行音频处理以获得经调整的分离源。

Description

电子设备、方法和计算机程序
技术领域
本公开通常涉及音频处理领域,特别涉及用于音频回放的设备、方法和计算机程序。
背景技术
有许多可用的音频内容,例如,以光盘(CD)、磁带、可从互联网下载的音频数据文件的形式,但也可以以视频声音音轨的形式,例如存储在数字视频光盘等上,等等。
当音乐播放器播放现有音乐数据库中的歌曲时,听众可能想跟着唱。卡拉OK设备通常由音乐播放器、麦克风输入、改变所播放音乐的基音的设备和音频输出组成。卡拉OK和伴奏(play-along,跟播)系统提供了在回放歌曲中删除原始人声的技术。
尽管通常存在用于音频回放的技术,但通常希望改进用于音频内容回放的方法和装置。
发明内容
根据第一方面,本公开提供了一种电子设备,包括:电路,该电路被配置为对音频信号执行源分离以获得分离源和残差信号;对分离源执行特征提取以获得一个或多个处理参数;以及基于一个或多个处理参数对捕获的音频信号执行音频处理以获得调整的分离源。
根据第二方面,本公开提供了一种方法,包括:对音频信号执行源分离以获得分离源和残差信号;对分离源进行特征提取,以获得一个或多个处理参数;以及基于所述一个或多个处理参数对捕获的音频信号执行音频处理,以获得经调整的分离源。
根据第三方面,本发明提供了一种计算机程序,包括指令,当计算机执行该程序时,指令使计算机对音频信号执行源分离,以获得分离源和残差信号;对分离源进行特征提取以获得一个或多个处理参数;以及基于所述一个或多个处理参数对捕获的音频信号执行音频处理,以获得经调整的分离源。
在从属权利要求、下面的描述和附图中阐述了进一步的方面。
附图说明
参照附图通过实例的方式说明实施方式,其中:
图1示意性地示出了通过盲源分离(BSS)(如音乐源分离(MSS))进行音频混合的通常方法;
图2示意性地示出了基于源分离和特征提取的跟唱处理的实施方式,其从分离的人声音轨中提取有用信息,以改善跟唱体验;
图3示意性地示出特征提取处理的实施方式,其中基音分析作为上面图2中描述的特征提取来执行,以便估计原始表现的基音;
图4示意性地示出了音频处理处理的实施方式,其中基音分析、人声基音比较和人声混合作为上面图2中描述的音频处理来执行,以便获得用户的表现和经调整的人声;
图5更详细地示出了在如上面图3和图4所述的特征提取和音频处理处理中执行的基音分析处理以便获得原始表演和用户表现的基音的实施方式;
图6a在图表中示出了增益对基音比较结果的线性依赖关系;
图6b在图中示出了增益对基音比较结果的依赖关系,其中增益的值是二进制值;
图7示意性地示出特征提取处理的实施方式,其中混响估计作为上面图2中描述的特征提取来执行,以便给用户与原始歌唱者在同一空间中的印象;
图8示意性地示出了音频处理处理的实施方式,其中混响作为上面图2中描述的音频处理来执行,以便给用户与原始歌唱者在同一空间中的印象;
图9示意性地示出特征提取处理的实施方式,其中音色分析作为上面图2中描述的特征提取来执行,以便使用户的人声听起来像原始歌唱者;
图10示意性地示出了基于源分离和特征提取的伴奏处理的实施方式,其中失真估计作为特征提取来执行,以便从吉他信号中提取有用信息,这允许用户以原始吉他效果播放他的吉他音轨;
图11示出了用于基于源分离和特征提取以获得混合音频信号的通用伴奏/跟唱处理的方法的可视化流程图;以及
图12示出描述可基于使能信号和音频处理来实现音频混合处理的电子设备的实施方式的框图。
具体实施方式
在参考图1至图12详细描述实施例之前,进行一些一般的解释。
如开始提到的,通常,伴奏系统,例如卡拉OK系统,在伴奏歌曲期间使用音频源分离来删除原始人声。典型的卡拉OK系统是将人声从所有其他乐器(即乐器信号)中分离出来,将乐器信号与用户的人声信号相加,并将混合后的信号回放。还认识到,例如,从原始人声的音频信号中提取信息并将其应用于用户的人声信号可能有助于获得增强的混合音频信号,从而增强用户的跟唱/演奏体验。
因此,下面更详细描述的实施方式涉及一种电子设备,该电子设备包括电路,该电路被配置为对音频信号执行源分离以获得分离源和残差信号;对分离源执行特征提取以获得一个或多个处理参数;以及基于所述一个或多个处理参数对捕获的音频信号执行音频处理以获得调整的分离源。
根据实施方式,通过执行不丢弃原始人声信号的特征提取,考虑了可以用于增强用户体验的信息。
电子设备的电路可以包括处理器(例如CPU)、内存(RAM、ROM等)、存储器、接口等。电路还可以包括输入装置(鼠标、键盘、摄像头等)、输出装置(显示器(例如液晶、(有机)发光二极管等)、扬声器等、(无线)接口等,这对于电子设备(计算机、智能手机等)来说是普遍所知的。此外,电路可包括或可以与用于感测静止图像或视频图像数据的传感器(图像传感器、相机传感器、视频传感器等)、用于感测环境参数等的传感器连接。
在音频源分离中,包括多个源(例如,乐器、声音等)的音频信号被分解成多个分离部分。音频源分离可以是无监督的(称为“盲源分离”,BSS)或部分监督的。“盲”是指盲源分离不一定有关于原始源的信息。例如,它可能不一定知道原始信号包含多少个源,或者输入信号的哪些声音信息属于哪个原始源。盲源分离的目的是在不知道信号分离信息的情况下,对原始信号分离信息进行分解。盲源分离单元可以使用本领域技术人员已知的任何盲源分离技术。在(盲)源分离中,可以搜索在概率论或信息论意义上最小相关或最大独立的源信号,或者基于非负矩阵因式分解,可以找到对音频源信号的结构约束。用于执行(盲)源分离的方法是本领域技术人员已知的,并且基于例如主分量分析、奇异值分解、(独立或)相关分量分析、非负矩阵分解、人工神经网络等。例如,音频源分离可以使用诸如深度神经网络(DNN)的人工神经网络来执行,在这方面不限制本公开。
另外,音频源分离可以使用常规的卡拉OK和/或跟唱/伴奏技术来执行,诸如异相立体声(OOPS)技术等。例如,作为音频技术的OOPS操纵立体声音轨的相位,以隔离或移除立体声混音的某些分量,其中执行相位消除。在相位对消中,两个相同但相反的波形相加,使其中一个抵消另一个。以这种方式,人声信号例如被隔离并从混音中移除。
尽管一些实施方式使用盲源分离来产生分离的音频源信号,但本公开不限于不使用进一步的信息来分离音频源信号的实施方式,而是在一些实施方式中,进一步的信息用于产生分离的音频源信号。这种进一步的信息可以是例如关于混合处理的信息、关于包括在输入音频内容中的音频源的类型的信息、关于包括在输入音频内容中的音频源的空间位置的信息等。
音频信号可以是任何类型的音频信号。它可以是模拟信号、数字信号的形式,它可以来自光盘、数字视频盘等,它可以是数据文件,例如波形文件、MP3文件等,并且本公开不限于输入音频内容的特定格式。输入音频内容可以例如是具有第一声道输入音频信号和第二声道输入音频信号的立体声音频信号,而本发明不限于具有两个音频通道的输入音频内容。在其他实施方式中,输入音频内容可以包括任何数目的通道,例如5.1音频信号的重混合等。
音频信号可以包括一个或多个源信号。特别地,音频信号可以包括几个音频源。音频源可以是产生声波的任何实体,例如音乐乐器、声音、语音、人声、人工产生的声音,例如来自合成器等。
输入音频内容可以表示或包括混合音频源,这意味着声音信息对于输入音频内容的所有音频源不是单独可用的,而是对于不同音频源的声音信息,例如至少部分地重叠或混合。
通过从音频信号中分离源而产生的分离源可以例如包括“人声”分离、“低音”分离、“鼓声”分离和“其他”分离。在“人声”分离中,可以包括属于人声的所有声音,在“低音”分离中,可以包括低于预定阈值频率的所有噪声,在“鼓”分离中,可以包括属于歌曲/音乐作品中的“鼓声”的所有噪声,并且在“其他”分离中,可以包括所有剩余的声音。
在分离源是“人声”的情况下,残余信号可以是“伴奏”,而不在这方面限制本公开。或者,可以获得其他类型的分离源,例如,在乐器分离情况下,分离源可以是“吉他”,残余信号可以是“人声”、“低音”、“鼓声”、“其他”等。
由音乐源分离(MSS)系统获得的源分离可能导致诸如干扰、串扰或噪声之类的伪影。
通过对分离源执行特征提取,例如对原始人声信号进行特征提取,可以从原始人声信号中提取有用信息,例如一个或多个处理参数,因此,可以使用卡拉OK系统、回放系统、伴奏/跟唱系统等来增强用户的跟唱/伴奏体验。
处理参数可以是一个或多个处理参数。例如,一个或多个处理参数可以是一组处理参数。此外,一个或多个处理参数可以彼此独立,并且可以单独实施,或者可以组合为多个特征。一个或多个处理参数可以是混响信息、基音估计、音色信息、典型效果链参数,例如压缩器、均衡器、效果器、合唱、延迟、声码器等、失真、延迟等,而不在这方面限制本公开。技术人员可以根据特定用例的需要选择要提取的处理参数。
可以使用实时的用户捕获的音频信号的算法对捕获的音频信号执行音频处理。所捕获的音频信号可以是用户的信号,例如用户的人声信号、用户的吉他信号等。可以基于一个或多个处理参数对所捕获的音频信号,例如用户的人声信号执行音频处理,以获得经调整的分离源,而在这方面不限制本公开。可选地,可以基于分离源,例如原始人声信号,并基于一个或多个处理参数,例如人声基音,对捕获的音频信号,例如用户的人声信号执行音频处理,以获得经调整的分离源,例如经调整的人声。
经调整的分离源可以基于一个或多个处理参数通过增益因子等来调整,然后与残差信号混合,从而获得混合音频信号。可基于一个或多个处理参数通过增益因子等调整捕获音频信号,以获得经调整的捕获音频信号,即经调整的分离源。例如,如果分离源是原始人声信号并且捕获的音频信号是用户的人声信号,则经调整的分离源可以是人声信号,在这方面不限制本公开。或者,如果分离源是原始吉他信号并且捕获的音频信号是用户的吉他信号,则经调整的分离源可以是吉他信号,在这方面不限制本公开。
在一些实施方式中,该电路可进一步被配置为执行经调整的分离源与残差信号的混合,以获得混合音频信号。混合音频信号可以是包括经调整的分离源和残差信号的信号。
在下面,术语可以指分离的音频源信号的混合。因此,分离的音频源信号的“混合”可以导致输入音频内容的混合音频源的“重混合”、“上混合”或“下混合”。术语重混合、上混音和下混音可以指在源自混合输入音频内容的分离音频源信号的基础上生成输出音频内容的整个处理。
混合可以被配置为执行分离源的重混合或上混音,例如人声和伴奏、吉他和剩余信号等,以产生混合音频信号,该混合音频信号可以被发送到电子设备的扬声器系统,并因此被回放给用户。以这种方式,可以增加用户性能的真实感,因为用户表现可以类似于原始表现。
源分离、特征提取、音频处理和混合的处理可以实时地执行,并且因此,所应用的效果可以随着时间而改变,因为它们跟随来自记录的原始效果,并且因此,可以改善跟唱/伴奏体验。
在一些实施方式中,电路可以被配置为基于分离源和一个或多个处理参数对所捕获的音频信号执行音频处理,以获得经调整的分离源。例如,可以基于一个或多个处理参数通过增益因子等调整捕获音频信号,例如用户的人声信号,以获得经调整的捕获音频信号,然后与分离源,例如原始人声信号混合,以获得经调整的分离源。然后将经调整的分离源与残差信号混合,从而获得混合音频信号。
在一些实施方式中,分离源包括原始人声信号,残余信号包括伴奏,捕获的音频信号包括用户的人声信号。
伴奏可以是从音频输入信号中分离人声信号而产生的残差信号。例如,音频输入信号可以是包括人声、吉他、键盘和鼓的音乐片段,伴奏信号可以是包括吉他、键盘和鼓的信号,作为从音频输入信号中分离出人声后的残差,在这方面不限制本公开。或者,音频输入信号可以是包括人声、吉他、键盘和鼓的音乐片段,伴奏信号可以是包括人声、键盘和鼓的信号,作为从音频输入信号中分离吉他之后的残差,在这方面不限制本公开。分离源和伴奏的任何组合都是可能的。
在一些实施方式中,电路还可以被配置为对原始人声信号执行基音分析,以获得原始人声基音作为处理参数,并对用户的人声信号执行基音分析以获得用户的人声基音。例如,通过对原始人声信号执行基音分析,电子设备可以识别用户是在演唱主旋律还是在对原始旋律进行和声,并且在用户正在和声的情况下,电子设备可以恢复原始分离源信号,例如原始人声信号、原始吉他信号等。
此外,通过基于用户是否在和声执行或不执行原始分离源信号的抑制,可以改善用户与电子设备的交互。
在一些实施方式中,电路还可以被配置为基于用户的人声基音和基于原始人声基音执行人声基音比较,以获得基音比较结果。
在一些实施方式中,所述电路还可被配置为基于基音比较结果执行原始人声信号与用户的人声信号的人声混合,以获得经调整的人声信号。基于基音比较结果,增益可以应用于用户的人声信号,例如所捕获的音频信号。增益可以对基音比较结果具有线性依赖性,在这方面不限制本实施例。或者,基音比较结果可以用作“打开”和“关闭”增益的触发器,而在这方面不限制本实施例。
在一些实施方式中,电路可进一步配置为对原始人声信号执行混响估计,以获得混响时间作为处理参数。混响估计可以使用脉冲响应估计算法来实现。
在一些实施方式中,该电路可进一步被配置为基于混响时间对用户的人声信号执行混响以获得经调整的人声信号。可以使用例如简单卷积算法将音频处理实现为混响。混合信号可以给用户与原歌唱者处于同一空间的印象。
在一些实施方式中,该电路可以进一步被配置为对原始人声信号执行音色分析,以获得音色信息作为处理参数。
在一些实施方式中,该电路还可以被配置为基于所述音色信息对所述用户的人声信号执行音频处理以获得所述经调整的人声信号。
在一些实施方式中,该电路可进一步被配置为对原始人声信号执行效果链分析,以获得链效果参数作为处理参数。链效果参数可以是压缩器、均衡器、效果器、合唱、延迟、声码器等。
在一些实施方式中,该电路可以进一步配置为基于链效果参数对用户的人声信号执行音频处理以获得经调整的人声信号。
在一些实施方式中,该电路可以进一步配置为将用户的信号与分离源进行比较,以获得质量分数估计,并基于质量分数估计向用户提供质量分数作为反馈。该比较可以是用户的表现与原始人声信号之间的简单比较,并且可以使用评估用户表现的评分算法。在这种情况下,可以不执行特征提取处理和音频处理,从而可以不修改这两个信号。
在一些实施方式中,所捕获的音频信号可以由麦克风或乐器拾取器获取。乐器拾取器是例如拾取或感测乐器(如电吉他等)产生的机械振动的换能器。
在一些实施方式中,麦克风可以是诸如智能手机、耳机、电视机、蓝光播放器等设备的麦克风。
在一些实施方式中,混合音频信号可以被输出到扬声器系统。
在一些实施方式中,分离源包括吉他信号,残差信号包括剩余信号,捕获的音频信号包括用户的吉他信号。音频信号可以是包括多个乐器的音频信号。分离源可以是任何乐器,例如吉他、贝斯、鼓等,并且残差信号可以是将分离源的信号与输入到源分离器的音频信号分离后的剩余信号。
在一些实施方式中,所述电路还可以被配置为对所述吉他信号执行失真估计,以获得失真参数作为处理参数,并基于吉他信号和失真参数对用户的吉他信号执行吉他处理,以获得经调整的吉他信号。本公开不限于失真参数。或者,可以提取诸如关于延迟、压缩器、混响等的信息的参数。
实施例还公开了一种方法,包括:对音频信号执行源分离以获得分离源和残差信号;对分离源进行特征提取,以获得一个或多个处理参数;以及基于一个或多个处理参数对捕获的音频信号执行音频处理,以获得经调整的分离源。
实施方式还公开了一种计算机程序,包括指令,当计算机执行该程序时,指令使计算机对音频信号执行源分离,以获得分离源和残差信号;对分离出的源进行特征提取以获得一个或多个处理参数;以及基于一个或多个处理参数对捕获的音频信号执行音频处理,以获得经调整的分离源。
实施方式还公开了在存储有计算机程序产品的非暂时性计算机可读记录介质,计算机程序产品当由处理器执行时,使得对音频信号执行源分离以获得分离源和残差信号,对分离源执行特征提取以获得一个或多个处理参数,以及基于一个或多个处理参数对捕获的音频信号执行音频处理以获得经调整的分离源。
当在计算机和/或处理器上执行时,在此描述的方法还在一些实施方式中被实现为使计算机和/或处理器执行该方法的计算机程序。在一些实施方式中,还提供了一种存储有计算机程序产品的非暂时性计算机可读记录介质,该计算机程序产品当由诸如上述处理器的处理器执行时,使得执行本文所述的方法。
声源分离
图1示意性地示出了通过盲源分离(BSS)(如音乐源分离(MSS))进行音频混合的一般方法。
首先,执行源分离(也称为“解混”),其将包括多个通道I和来自多个音频源源1、源2、…源K(例如,乐器、声音等)的音频的源音频信号1分解成“分离”,这里针对每个通道i分解为源估计2a-2d,其中K是整数并表示音频源的数目。在这里的实施方式中,源音频信号1是具有两个通道i=1和i=2的立体声信号。由于音频源信号的分离可能是不完美的,例如,由于音频源的混合,除了分离的音频源信号2a-2d之外,还生成残差信号3(r(n))。残差信号例如可以表示输入音频内容与所有分离的音频源信号之和之间的差。由每个音频源发出的音频信号在输入音频内容1中由其各自记录的声波表示。对于具有一个以上音频通道的输入音频内容,例如立体声或环绕声输入音频内容,音频源的空间信息通常也由输入音频内容包括或表示,例如通过不同音频通道中包含的音频源信号的比例。基于盲源分离或能够分离音频源的其他技术,将输入音频内容1分离成分离的音频源信号2a-2d和残差3。
在第二步骤中,分离2a-2d和可能的残差3被重新混合并呈现为新的扬声器信号4,这里是包括五个通道4a-4e的信号,即5.0通道系统。基于分离的音频源信号和残差信号,通过考虑空间信息将分离的音频源信号和残差信号混合来生成输出音频内容。输出音频内容在图1中被示例性地示出并用参考数字4表示。
在下面,输入音频内容的音频通道的数目被指为Min,输出音频内容的音频通道数目被指为Mout.。由于图1的示例中的输入音频内容1具有两个通道i=1和i=2,而图1的示例中的输出音频内容4具有五个通道4a-4e,Min=2和Mout=5。图1中的方法通常被称为重混合,特别是在Min<Mout。的情况下被称为上混合。在图1的示例中,输入音频内容1的音频通道的数目Min=2小于输出音频内容4的音频通道数Mout=5,因此,这是从立体声输入音频内容1到5.0环绕声输出音频内容4的上混合。
关于上面图1中描述的源分离处理的技术细节对于技术人员是已知的。用于执行盲源分离的示例性技术例如公开于欧洲专利申请EP3201917中,或由Uhlich,Stefan等人公开的“Improving music source separation based on deep neural networks throughdata augmentation and network blending”于2017年IEEE声学、语音和信号处理国际会议(ICASP).IEEE,2017。也存在用于执行盲源分离的编程工具包,如Open-Unmix、DEMUCS、Spleeter、Asteroid等,它们允许技术人员执行如上面图1所述的源分离处理。
基于源分离和特征提取的跟唱处理
图2示意性地示出了基于源分离和特征提取的跟唱处理的实施方式,其从分离的人声音轨中提取有用信息,以改善跟唱体验。
音频201,即包含多个源(参见图1中的源1、2、…、K)的音频信号(参见图1中的1),具有例如多个通道(例如Min=2),例如音乐片段被输入到源分离202,例如音频源分离,并如上面关于图1所描述的那样被分解成分离(参见图1中的分离源2a-2d和剩余信号3)。在本实施方式中,音频201被分解成一个分离源2,即原始人声203,以及残差信号3,即伴奏204,起包括除原始人声203之外的音频信号的剩余源。对可以是人声音频波形的原始人声203执行特征提取205,以获得处理参数206。基于处理参数206和原始人声203,对由麦克风接收的用户的人声208执行音频处理207,以获得经调整的人声209。混合器210将经调整的人声209与伴奏204混合,以获得混合音频211。
在图2的实施方式中,音频201表示音频信号,原始人声203表示音频信号的人声信号,伴奏204表示伴奏信号,例如乐器信号,经调整的人声209表示经调整的人声信号,混合音频211表示混合音频信号。处理参数206是包括从分离源(这里是原始人声203)提取的信息的参数集。然而,本领域技术人员可以根据特定用例的需要选择任何数目的要提取的参数,例如一个或多个处理参数。
处理参数206可以是例如混响信息、基音信息、音色信息、典型效果链的参数等。混响信息可以是例如从原始人声提取的混响时间RT/T60,以便给用户与原始歌唱者在同一空间中的印象。当使用例如声音克隆算法将原始歌唱者的声音的音色信息应用到用户的声音时,使用户的声音听起来像原始歌唱者的声音。典型效果链的参数,例如关于压缩器、均衡器、效果器、合唱、延迟、声码器等的信息,被应用于用户的声音,以匹配原始录音的处理。
在图2的实施方式中,音频201是包括所有乐器的原始歌曲,通常称为混合。该混合物包括例如人声和其他乐器,如贝斯、鼓、吉他等。特征提取处理用于从人声中提取有用信息,其中使用提取的信息实现算法以实时改变(调整)用户的声音。改变的用户的声音,这里经调整的声音与伴奏相加,并且通过扬声器,例如耳机、音箱或类似的扬声器将所获得的混合音频信号回放给用户。上述提取的特征可以相互独立地应用于分离源,这里是人声,或者可以组合为多个特征。
在图2的实施方式中,基于处理参数206并基于原始人声203对用户的人声208执行音频处理207,以获得经调整的人声209,在这方面不限制本实施方式。或者,可以基于处理参数206对用户的人声208执行音频处理207,以获得经调整的人声209。
应当注意,所有上述处理,即源分离202和特征提取205,可以实时地、例如“在线”地以某种等待时间来执行。例如,它们可以直接在用户的智能手机、智能手表/耳机、蓝牙设备或类似设备上运行。
源分离202处理例如可以如在Uhlich,Stefan等已发表的论文中更详细描述的那样实现,“Improving music source separation based on deep neural networksthrough data augmentation and network blending”于2017年IEEE声学、语音和信号处理国际会议(ICASP).IEEE,2017。也存在用于执行盲源分离的编程工具包,如Open-Unmix、DEMUCS、Spleeter、Asteroid等,它们允许技术人员执行如上面图1所述的源分离处理。
应当注意,音频201可以是包括多个乐器的音频信号,并且可以对音频信号执行源分离202处理以将其分离为吉他和剩余信号,如下面的图8所述。因此,用户可以用原始的吉他效果播放他的吉他音轨。
应当进一步注意,用户的人声208可以是由麦克风捕获的用户的人声信号,例如,包括在麦克风阵列中的麦克风(参见图12中的1210)。也就是说,用户的人声信号可以是捕获的音频信号。
还应注意,可以存在来自特征提取205和音频处理207的预期等待时间,例如时间延迟Δt。预期时间延迟是已知的预限定参数,可将其应用于伴奏信号204以获得延迟伴奏信号,然后由混合器210将该延迟伴奏信号与经调整的人声信号209混合以获得混合音频信号211。
更进一步地,应当注意,伴奏204和/或混合音频211可以输出到扬声器系统(参见图12中的1209),例如耳挂式(on-ear)、入耳式、耳罩式(over-ear)、无线耳机等,和/或可以记录到记录介质,例如CD等,或存储在电子设备(参见图12中的1200)的存储器(参见图12中的1202)等上。例如,伴奏204被输出到用户的耳机,使得用户可以与回放音频一起唱。
可选地,例如,通过在用户的表现和原始人声信号之间运行简单的比较,可以对用户的表现计算质量分数,以便在歌曲结束后作为反馈提供给用户。在这种情况下,不执行特征提取处理,例如,它输出输入信号,而音频处理可以输出用户的人声信号而不修改它。音频处理还可以比较原始人声信号和用户的人声信号,并且可以实现评估用户表现的评分算法,从而将分数作为由电子设备(参见图12中的1200)的扬声器系统(参见图12中的1209)输出的声反馈提供给用户,或作为由电子设备的显示单元(见图12中的1200)显示的视觉反馈,或由外部电子设备的显示器显示的视觉回馈,其中外部电子设备通过以太网接口(见图12中的1206)、蓝牙接口(见图12中的1204)或包含在电子设备(参见图12中的1200)中的WLAN接口(参见图12中的1205)与电子设备进行通信。
从分离的人声音轨中提取基音信息的跟唱处理
图3示意性地示出特征提取处理的实施方式,其中基音分析作为上面图2中描述的特征提取来执行,以便估计原始性能的基音。
对原始人声203执行基音分析301以获得原始人声基音302。基音分析301处理在下面的图5中更详细地描述。图2的特征提取205处理在这里被实现为基音分析处理,其中对音频(图2中的201)执行的源分离(图2中的202)将音频分解为原始人声203和伴奏(图2中的204)。
在执行基音分析作为特征提取之前,可以识别用户是在演唱该音频的主旋律还是在对原始音频进行和声。在用户进行和声的情况下,可以恢复原始人声,然后执行基音分析以估计原始人声的基音。
图4示意性地示出了音频处理过程的实施方式,其中基音分析、人声基音比较和人声混合作为上面图2中描述的音频处理来执行,以便获得用户的表现和经调整的人声。
对用户的人声208执行基音分析301以获得用户的人声基音402。基音分析301处理在下面的图5中更详细地描述。基于用户的人声基音402和原始人声基音302,执行人声基音比较401,以获得基音比较结果403。将用户的人声基音402和原始人声基音302相互比较,如果它们不匹配,则将原始人声混合到回放信号中。基于基音比较结果403,执行用户的人声208与原始人声203的人声混合404,以获得经调整的人声209。
例如,如果在用户的人声基音402和原始人声基音302之间的差RP大于阈值th,即如果RP>th,然后,对原始人声203和用户的人声208执行人声混合处理404,以获得经调整的人声209,然后将其与伴奏混合到回放信号中。差RP的值可以用作“打开”或“关闭”人声混音404的触发器。在这种情况下,应用于原始人声203的增益具有两个值,即“0”和“1”,其中增益值“0”指示未执行声音混音404,而增益值“1”指示执行声音混音404,如下面图6b中更详细描述的那样。
或者,在用户的人声基音402和原始人声基音302之间的差RP的值可以具有与应用于原始人声203的增益的线性依赖性,如下面的图6a中更详细地描述的。在对原始人声203施加合适的增益之后,与用户的人声208和伴奏混合到回放信号中。
图5更详细地示出了在如上面图3和图4所述的特征提取和音频处理处理中执行的基音分析处理的实施方式,以便获得原始表现和用户表现的基音。
如图3和图4所述,对人声501,即对人声信号s(n)执行基音分析301,以获得基音分析结果ωf,这里的人声基音505。人声501表示用户的人声(参见图2和图3中的208)和原始人声(参见图3和图4中的203)。具体地,对人声501,即对声音信号s(n)执行信号成帧502的处理,以获得成帧的人声Sn(i)。对成帧的人声Sn(i)执行快速傅里叶变换(FFT)谱分析503的处理获取FFT谱Sω(n)。对FFT谱Sω(n)执行基音测量分析504以获得505的人声基音。
在信号成帧502处,可以通过以下方式获得加窗帧,如成帧的人声Sn(i)可以通过以下方式获得:
Sn(i)=s(n+i)h(i)
其中s(n+i)表示偏移n个样本的离散化音频信号(i表示样本数目并因此表示时间),h(i)是时间nn(分别为样本nn)附近的成帧函数,例如本领域技术人员熟知的汉明函数。
在FFT频谱分析503处,每个成帧的人声被转换成相应的短期功率谱。短期功率谱S(ω)如在离散傅里叶变换中获得的,也称为短期FFT的幅度,其可以通过以下方式获得:
Figure BDA0003795820830000161
其中Sn(i)是加窗帧中的信号,如上文限定的成帧的人声Sn(i),ω是频域中的频率,|Sω(n)|是短期功率谱S(ω)的分量,并且N是加窗帧中的样本数目,例如每个成帧的人声中的样本数目。
基音测量分析504例如可以如在IEEE语音和音频处理交易卷9,第6期,第609-621页,2001年9月出版的Der Jenq Liu和Chin Teng Lin的论文,“Fundamental frequencyestimation based on the joint time-frequency analysis of harmonic spectralstructure”中所述实施:
用于帧窗口Sn的基音分析结果
Figure BDA0003795820830000162
(即人声基音505)根据以下方式获得:
Figure BDA0003795820830000163
其中
Figure BDA0003795820830000164
是窗口S(n)的基频,以及RPf)是通过基音测量分析504获得的基频候选ωf的基音测量。
样本n处的基频
Figure BDA0003795820830000165
作为样本指表示人声信号s(n)中样本n处的基音。
如上面关于图5所述的基音分析处理对用户的人声208执行以获得用户的人声基音402,并对原始人声203执行以获得原始人声基音302。
在图5的实施方式中,建议基于FFT谱执行基音测量分析,例如基音测量分析504,以估计基频ωf,。备选地,基频ωf可以基于快速自适应表示(FAR)谱算法来估计,而不将本公开限于这方面。
图6a在图表中示出了增益对基音比较结果RP的线性依赖关系。横坐标显示基音比较结果403的值,即在用户的人声基音402和原始人声基音302之间的差RP。纵坐标显示间隔0到100%的增益值。在图6a中,水平虚线表示应用于原始人声的增益的最大值。
特别地,在执行基音比较之前,增益被预置为0。等于0的增益值指示原始人声信号没有混合到分离源,这里是到用户的人声信号(即,捕获的音频信号)的混合。增益值随在用户的人声基音和原始人声基音之间的差RP的值从0到100%线性增加,即,基音比较结果(参见图4中的403)增加。在获得基音比较结果的音频处理期间,基于在用户的人声基音和原始人声之间的差RP的值将增益应用于原始人声信号。即随着用户的人声基音和原始人声之间的差RP变大,更多的原始人声信号被混合到用户的人声信号中。
图6b在图中示出了增益对基音比较结果RP的依赖性,其中所述增益的值是二进制值。横坐标显示基音比较结果的值,即在用户的人声基音和原始人声基音之间的差RP的值。纵坐标显示增益值,即“0”和“1”。在图6b中,水平虚线表示增益的最大值,即“1”,并且竖直虚线表示阈值th的值。差RP的值可以用作开关“打开”或“关闭”人声混音(见图4中的404)的触发器。在图6b的实施方式中,应用于原始人声的增益有两个值,即“0”和“1”,其中增益值“0”表示未进行人声混音,增益值“1”表示进行了人声混音。
应当注意,在上述图6a和图6b的实施例中描述的基音比较结果对增益的依赖性并不限制本公开在这方面的内容。根据特定用例的需要,本领域技术人员可以使用基音比较结果对增益的任何其他依赖性。
从分离人声音轨中提取混响信息的跟唱处理
图7示意性地示出特征提取处理的实施方式,其中混响估计作为上面图2中描述的特征提取来执行,以便给用户与原始歌唱者在同一空间中的印象。
对原始人声203执行混响估计601,以获得混响时间702。图2的特征提取205处理在这里被实现为混响估计处理,其中对音频执行(见图2中的201)的源分离(见图2中的202)分解原始人声203和伴奏(见图2中的204)中的音频。
混响时间是指声源停止后,声音在封闭区域内“消失”所需的时间。混响时间例如可以定义为声音消退到比其原始电平低60dB的的时间(T60时间)。
混响估计601例如可以如Ratnam R、Jones DL、Wheeler BC、O'Brien WD Jr、Lansing CR、Feng AS,已发表的论文“Blind estimation of reverberation time”2003年11月;114(5):2877-92中所述进行估计:
混响时间T60(以秒为单位)由以下方式获得:
T60=6/log10(e-1)loge(ad)=-6τd/log10(e-1)=13.82τd
其中,τd是积分脉冲响应曲线的衰减率,ad是与衰减率τd相关的几何比,ad=exp(-1/τd)。
或者,混响时间RT/T60可以如J.Y.C.Wen,E.A.P.Habets和P.A.Naylor发表的论文,“Blind estimation of reverberation time based on the distribution of signaldecay rates”,2008IEEE声学、语音和信号处理国际会议,2008年,第329-332页中的描述进行估计:
混响时间RT由以下方式获得:
RT=3ln10/δ
其中,δ是与混响时间相关的阻尼常数RT。
如上所述,从原始人声中提取混响时间作为混响信息,以便给用户与原始歌唱者在同一空间中的印象。在这种情况下,混响估计701处理实现如上所述的脉冲响应估计算法,然后人声处理(参见图8中的801)可以执行卷积算法,在原始歌曲例如在音乐会中现场录制的情况下,卷积算法可以具有有效和逼真的结果。
然而,可选地,在房间尺寸已知的情况下,混响时间T60可以由Sabine方程确定:
Figure BDA0003795820830000191
其中,c20是房间内的声速(20摄氏度),V是房间体积(m3),S是房间总表面积(m2),a是房间表面的平均吸收系数,以及乘积Sa是总吸收。也就是说,在参数V,S,,a在已知的情况下(例如,在记录情况下),可以如上所述确定T60时间。
仍然可选地,混响时间可以从关于产生输入信号的音频处理链的知识中获得(例如,混响时间可以是在混响处理器中的预定义参数集,例如,在处理链中使用的算法或卷积混响)。
图8示意性地示出了音频处理处理的实施方式,其中混响作为上面图2中描述的音频处理来执行,以便给用户与原歌唱者在同一空间中的印象。
基于混响时间702对用户的人声208执行混响801,以获得经调整的人声209。混响801执行卷积算法,例如算法混响或卷积混响,其在原始歌曲例如在音乐会中现场录制的情况下可以具有有效和逼真的结果。
从分离人声音轨中提取音色信息的跟唱处理
图9示意性地示出特征提取处理的实施方式,其中音色分析作为上面图2中描述的特征提取来执行,以便使用户的人声听起来像原始歌唱者。在图9的实施方式中,扬声器编码器901对原始人声信号203执行音色分析,以获得音色信息902。
原始人声203,即,话语
Figure BDA0003795820830000192
被输入到说话人编码器,说话人编码器对原始人声203执行音色分析901以获得音色信息902,例如说话人身份z。音色信息902,即说话人身份z输入到生成器904。用户的人声208,即,话语x被输入到内容编码器903以获得语音内容c。语音内容c被输入到生成器904。基于语音内容c和说话人身份z,生成器904将内容和说话人嵌入映射回原始音频,即,映射回经调整的人声209。
如Bac Nguyen,Fabien Cardinaux已发表论文NVC-Net:End-to-End AdversarialVoice Conversion”,arXiv:2016.00992中所述,为了将说话人y(此处为用户)中的话语x转换为具有话语
Figure BDA0003795820830000201
的说话人
Figure BDA0003795820830000202
如上所述,通过内容编码器c=Ec(x)将话语x映射到内容嵌入中。根据内容嵌入c生成原始音频,这里是经调整的人声209,以目标说话人嵌入
Figure BDA0003795820830000203
(即
Figure BDA0003795820830000204
)为条件。内容编码器是全卷积神经网络(参见图12中的CNN1207),可以应用于任何输入序列长度。它将原始音频波形映射到编码的内容表示。说话人编码器从话语产生编码的说话人表示,其中从音频信号中提取Mel频谱图并将其用作说话人编码器的输入。生成器将内容和扬声器嵌入映射回原始音频。上述CNN可以是NVC网络。
作为上述图2中所述的特征提取而执行的音色分析901和基于音色信息902对用户的人声信号执行的音频处理可以如Bac Nguyen,Fabien Cardinaux已发表的论文“NVC-Net:End-to-End Adversarial Voice Conversion”,arXiv:2106.00992中所述来实现。
音色信息902例如是描述原始歌唱者的声音(即原始人声203)的音色参数集。图2的特征提取205处理在这里被实现为例如由说话人编码器执行的音色分析901处理,其中对音频(参见图2中的201)执行的源分离(参见图2中的202)分解原始人声203和伴奏(参见图2中的204)中的音频。
然后将所提取的音色信息902应用于用户的人声信号以获得经调整的人声(参见图2中的209)。以这种方式,经调整的人声听起来像原始歌唱者的人声(原始人声)。所提取的音色信息可以使用例如声音克隆算法等应用于用户的人声。然后将经调整的人声与伴奏混合,以获得混合音频,如上面图2中更详细地描述的那样。
应该注意的是,特征提取处理(参见图2中的205)可以提取除上面图3到图9中更详细描述的特征之外的其他特征。例如,作为提取的特征,可以通过对分离源例如原始人声执行特征提取来提取典型效果链的参数,例如压缩器、均衡器、效果器、合唱、延迟、声码器等。这些提取的参数(可以是用于常规音频效果的参数)被应用于用户的信号,例如用户的人声,以匹配原始信号,例如原始人声信号。
从分离的人声音轨中提取失真信息的伴奏处理
图10示意性地示出了基于源分离和特征提取的伴奏处理的实施方式,其中执行失真估计作为特征提取,以便从吉他信号中提取有用信息,这允许用户以原始吉他效果播放他的吉他音轨。
音频1001,即包含多个源(参见图1中的1、2、…、K)的音频信号(参见图1中的1),例如具有多个通道(例如Min=2),例如音乐片段被输入到源分离1002,例如音频源分离,并如上面关于图1所描述的那样被分解成分离(参见图1中的分离源2a-2d和残差信号3)。在本实施方式中,音频1001被分解成一个分离源2,即吉他1003,以及分解成除吉他信号1003之外的包括音频信号的剩余源的残差信号3,即剩余信号1004。对可以是吉他的音频波形的吉他信号1003执行失真估计1005,以获得失真参数1006。基于失真参数1006和吉他信号1003,对由麦克风接收的用户的吉他信号执行吉他处理1007,以获得经调整的吉他1009。混合器1010将经调整的吉他1009与剩余信号1004混合,以获得混合音频1011。
失真参数例如可以包括描述施加到干净吉他信号的失真量(称为“驱动”)的参数,范围从0(干净信号)到1(最大失真)。
在图10的实施方式中,分离源2是吉他信号,残余信号3是剩余信号,在这方面不限制本实施例。或者,分离源2可以是低音信号,而残差信号3可以是除低音之外的音频信号的剩余源。仍然可选地,分离源2可以是鼓信号,而残差信号3可以是除鼓之外的音频信号的剩余源。
应当注意,可以提取失真参数1006以外的其他参数。例如,可以提取关于已经应用于原始吉他信号的其他效果的信息,例如关于延迟、压缩器、混响等的信息。技术人员可以根据特定用例的需要选择任何要提取的参数。此外,本领域技术人员可以根据特定用例的需要选择任何数目的要提取的参数,例如一个或多个处理参数。
应当进一步注意的是,所有上述处理,即源分离1002和失真估计1005,可以实时地、例如“在线”地以某种等待时间来执行。例如,它们可以直接在用户的智能手机、智能手表/耳机、蓝牙设备或类似设备上运行。
应当注意,用户的吉他信号1008可以是由乐器拾取器捕获的捕获音频信号,乐器拾取器例如捕获或感测注入电吉他等的乐器产生的机械振动的换能器。
还应注意,在图2至图10的实施例中描述的音频混合处理之后,例如,可以通过在用户信号和原始信号(例如,用户的人声和原始人声信号(参见图2至图9中的203和208),或者用户的吉他信号和原始吉他信号(参见图10中的1003和1008)之间运行简单的比较来计算关于用户表现的质量分数,以在歌曲结束后作为反馈向用户提供。在这种情况下,不执行特征提取处理,例如,它输出输入信号,而音频处理可以输出用户的信号而不修改它。音频处理还可以比较原始信号,例如,原始人声信号和用户的信号,例如用户的人声信号,并且可以实现评估用户表现的评分算法,从而将分数作为由电子设备(参见图12中的1200)的扬声器系统(参见图12中的1209)输出的声反馈提供给用户,或作为由电子设备的显示单元(见图12中的1200)显示的视觉反馈,或由外部电子设备的显示器显示的视觉回馈,其中外部电子设备通过以太网接口(见图12中的1206)、蓝牙接口(见图12中的1204)或包含在电子设备(参见图12中的1200)中的WLAN接口(参见图12中的1205)与电子设备进行通信。
通用伴奏/跟唱处理流程图
图11示出了用于基于源分离和特征提取以获得混合音频信号的通用伴奏/跟唱过程的方法的可视化流程图。
在1101,源分离器(参见图2和图10中的202、1002)接收音频信号(参见图2和10中的201、1001)。在1102,对接收的音频信号(参见图2和10中的201、1001)执行源分离(参见图2和图10中的202、1002),以获得分离源(参见图2、3、7和10中的203、1003)和残差信号(参见图2和图10中的204、1004)。在1103,对分离源(参见图2、3、7和10中的203、1003)执行特征提取(参见图2、3、7和10中的205、301、701和1005),以获得一个或多个处理参数(参见图2、3、7和10中的206、302、702和1006)。在1104,音频处理(参见图2、4、8和10中的207、401、801和1007)接收捕获的音频信号(参见图2、6、8和10中的208、1008),并且在1105,基于分离源和一个或多个提取的处理参数对捕获的音频信号执行音频处理(参见图2、4、8和10中的207、401、404、801和1007),例如人声处理、吉他处理等,以获得经调整的分离源(参见图2、6、8和10中的209、1009)。在1106,混合器(参见图2和10中的210、1010)执行经调整的分离源(参见图2、6、8和10中的209、1009)与残差信号(参见图2和图10中的204、1004)的混合,以获得混合音频信号(参见图2和图10中的211、1011)。混合音频和/或经处理的音频可以输出到智能手机、智能手表、蓝牙等的扬声器系统,如耳机等。
如这里所讨论的,源分离可以将音频信号分解为分离源和残差信号,即分解为人声和伴奏,而不在这方面限制本实施方式。可选地,分离源可以是吉他、鼓、贝斯等,并且残差信号可以是除分离源之外被输入到源分离的音频信号的剩余源。捕获的音频信号在分离源是人声的情况下可以是用户的人声,或者在分离源是吉他信号的情况下可以是用户的吉他信号,等等。
实施方式
图12示出描述可基于使能信号和音频处理来实现音频混合处理的电子设备的实施方式的框图。电子设备1200包括作为处理器的CPU 1201。电子设备1200还包括连接到处理器1201的麦克风阵列1210、扬声器阵列1209和卷积神经网络单元1207。处理器1201例如可以实现混合器210、404和1011,其更详细地实现关于图2、4和10描述的处理。CNN 1207例如可以是硬件中的人工神经网络,例如GPU上的神经网络或专门用于实现人工神经网络的任何其他硬件。例如,CNN 1207可以实现源分离301、特征提取205、音频处理207,其更详细地实现关于图2、3、4、5、7、8、9和10描述的处理。扬声器阵列1209可以是耳机,例如耳挂式、入耳式、耳罩式、无线耳机等,或者可以由分布在预定义空间上的一个或多个扬声器组成,并被配置为呈现任何种类的音频,例如3D音频。麦克风阵列1210可以被配置为例如当用户签名歌曲或演奏乐器时接收语音(声音)、人声(歌唱者的声音)、乐器声音等(参见图2和10中的音频201)。麦克风阵列1210可以被配置为经由自动语音识别接收语音(话音)命令以操作电子设备1200。电子设备1200还包括连接到处理器1201的用户接口1208。该用户接口1208充当人机接口,并且使得能够在管理员和电子设备之间进行对话。例如,管理员可以使用该用户接口1208对系统进行配置。电子设备1200还包括以太网接口1306、蓝牙接口1204和WLAN接口1205。这些单元1204、1205、1206充当用于与外部设备进行数据通信的I/O接口。例如,具有以太网、WLAN或蓝牙连接的附加扬声器、麦克风和摄像机可以经由这些接口1204、1205和1206耦合到处理器1201。
电子设备1200还包括数据存储器1202和数据内存1203(这里是RAM)。数据内存1203被布置成临时存储或高速缓存数据或计算机指令以供处理器1201处理。数据存储器1202被布置为长期存储器,例如,用于记录从麦克风阵列1210获得的传感器数据。数据存储器1202还可以存储表示音频消息的音频数据,电子设备可以将音频消息输出给用户用于指导或帮助。
应当注意,以上描述仅是示例配置。替代配置可通过附加或其他传感器、存储设备、接口等实现。
应当认识到,实施方式描述了具有方法步骤的示例性排序的方法。然而,方法步骤的具体顺序只是为了说明目的而给出的,不应被解释为具有约束力。
还应注意,将图12的电子设备划分为单元仅用于说明目的,并且本公开不限于特定单元中的任何特定功能划分。例如,电路的至少部分可以由分别编程的处理器、现场可编程门阵列(FPGA)、专用电路等来实现。
在本说明书中描述的和在所附权利要求中要求的所有单元和实体,如果没有另作说明,可以实现为集成电路逻辑,例如在芯片上,并且如果没有另作说明,可以通过软件实现由这些单元和实体提供的功能。
就上述公开的实施方式而言,至少部分地使用软件控制的数据处理装置来实现,应当理解,提供这种软件控制的计算机程序以及通过以下方式的传输、存储或其他介质提供这样的计算机程序是被设想为本公开的方面的。
当在计算机和/或处理器上执行时,在此描述的方法还在一些实施方式中被实现为使计算机和/或处理器执行该方法的计算机程序。在一些实施方式中,还提供了一种存储有计算机程序产品的非暂时性计算机可读记录介质,该计算机程序产品当由诸如上述处理器的处理器执行时,使得执行本文所述的方法。
注意,本技术也可以如下所述配置。
(1)一种电子设备,包括电路,该电路被配置为:
对音频信号(201;1001)进行源分离(202;1002),以获得分离源(2)和残差信号(3);
对分离源(2)执行特征提取(205;1005),以获得一个或多个处理参数(206;1006);以及
基于所述一个或多个处理参数(206;1006)对捕获的音频信号(208;1008)执行音频处理(207;1007),以获得经调整的分离源(209;1009)。
(2)如(1)所述的电子设备,其中,所述电路进一步被配置为执行所述经调整的分离源(209;1009)与所述残差信号(3)的混合(210;1010),以获得混合音频信号(211,1011)。
(3)如(1)或(2)所述的电子设备,其中,所述电路被配置为基于所述分离源(2)和所述一个或多个处理参数(206;1006)对所捕获的音频信号(208;1008)执行音频处理(207;1007),以获得经调整的分离源(209;1009)。
(4)如(1)至(3)中任一项所述的电子设备,其中,所述分离源(2)包括原始人声信号(203),所述残差信号(3)包括伴奏(204),并且所捕获的音频信号(208;1008)包括用户的人声信号(208)。
(5)如(4)所述的电子设备,其中,所述电路进一步配置为:
对原始人声信号(203)进行基音分析(301),以获得原始人声基音(302)作为处理参数;以及
对用户的人声信号(208)执行基音分析(301),以获得用户的人声基音(402)。
(6)如(5)所述的电子设备,其中,所述电路进一步被配置为基于用户的人声基音(402)和原始人声基音(302)执行人声基音比较(401),以获得基音比较结果(403)。
(7)如(6)所述的电子设备,其中,所述电路进一步被配置为基于基音比较结果(403)执行原始人声信号(203)与用户的人声信号(208)的人声混合(404),以获得经调整的人声信号(209)。
(8)如(4)所述的电子设备,其中,所述电路进一步被配置为对所述原始人声信号(203)执行混响估计(701),以获得混响时间(702)作为处理参数。
(9)如(8)所述的电子设备,其中,所述电路进一步被配置为基于混响时间(702)对用户的人声信号(208)执行混响(801),以获得经调整的声音信号(209)。
(10)如(4)所述的电子设备,其中,所述电路进一步被配置为对所述原始人声信号(203)执行音色分析(901),以获得音色信息(902)作为处理参数。
(11)如(10)所述的电子设备,其中,所述电路进一步被配置为基于所述音色信息(902)对所述用户的人声信号(208)执行音频处理,以获得经调整的人声信号(209)。
(12)如(4)所述的电子设备,其中,所述电路进一步被配置为对所述原始人声信号(203)执行效果链分析,以获得作为处理参数的链效果参数。
(13)如(12)所述的电子设备,其中,所述电路进一步被配置为基于所述链效果参数对所述用户的人声信号(208)执行音频处理,以获得所述经调整的人声信号(209)。
(14)如(1)至(13)中任一项所述的电子设备,其中,所述电路进一步被配置为将所捕获的音频信号(208;1008)与分离源(2)进行比较,以获得质量分数估计,并基于所述质量分数估计将质量分数作为反馈提供给用户。
(15)如(1)至(14)中任一项所述的电子设备,其中,所捕获的音频信号(208;1008)由麦克风或乐器拾取器获取。
(16)如(15)所述的电子设备,其中,所述麦克风是诸如智能手机、耳机、电视机、蓝光播放器等设备(1200)的麦克风。
(17)如(2)至(16)中任一项所述的电子设备,其中,所述混合音频信号(211,1011)被输出到扬声器系统(1209)。
(18)如(1)至(17)中任一项所述的电子设备,其中,分离源(2)包括吉他信号(1003),残差信号(3)包括剩余信号(1004),并且捕获的音频信号(208;1008)包括用户的吉他信号(1008)。
(19)如(18)所述的电子设备,其中,所述电路进一步被配置为对所述吉他信号(1003)执行失真估计(1005),以获得失真参数(1006)作为处理参数,并基于所述吉他信号(1003)和所述失真参数(1006)对所述用户的吉他信号(1008)执行吉他处理(1007),以获得经调整的吉他信号(1009)。
(20)一种方法,包括:
对音频信号(201;1001)执行源分离(202;1002),以获得分离源(2)和残差信号(3);
对分离源(2)执行特征提取(205;1005),以获得一个或多个处理参数(206;1006);以及
基于所述一个或多个处理参数(206;1006)对捕获的音频信号(208;1008)执行音频处理(207;1007),以获得经调整的分离源(209;1009)。
(21)一种包括指令的计算机程序,当计算机执行该程序时,该指令使计算机执行(20)所述的方法。

Claims (21)

1.一种电子设备,包括电路,所述电路被配置为:
对音频信号进行源分离,以获得分离源和残差信号;
对所述分离源进行特征提取,以获得一个或多个处理参数;以及
基于所述一个或多个处理参数对捕获的音频信号执行音频处理,以获得经调整的分离源。
2.根据权利要求1所述的电子设备,其中,所述电路进一步被配置为执行所述经调整的分离源与所述残差信号的混合,以获得混合音频信号。
3.根据权利要求1所述的电子设备,其中,所述电路被配置为基于所述分离源和所述一个或多个处理参数对所述捕获的音频信号执行音频处理,以获得所述经调整的分离源。
4.根据权利要求1所述的电子设备,其中,所述分离源包括原始人声信号,所述残差信号包括伴奏,并且所述捕获的音频信号包括用户的人声信号。
5.根据权利要求4所述的电子设备,其中,所述电路进一步被配置为:
对所述原始人声信号进行基音分析,以获得原始人声基音作为处理参数;以及
对所述用户的人声信号执行基音分析,以获得用户的人声基音。
6.根据权利要求5所述的电子设备,其中,所述电路进一步被配置为基于所述用户的人声基音和所述原始人声基音执行人声基音比较,以获得基音比较结果。
7.根据权利要求6所述的电子设备,其中,所述电路进一步被配置为基于所述基音比较结果执行所述原始人声信号与所述用户的人声信号的人声混合,以获得经调整的人声信号。
8.根据权利要求4所述的电子设备,其中,所述电路进一步被配置为对所述原始人声信号执行混响估计,以获得混响时间作为处理参数。
9.根据权利要求8所述的电子设备,其中,所述电路进一步被配置为基于所述混响时间对所述用户的人声信号执行混响,以获得经调整的人声信号。
10.根据权利要求4所述的电子设备,其中,所述电路进一步被配置为对所述原始人声信号执行音色分析,以获得音色信息作为处理参数。
11.根据权利要求10所述的电子设备,其中,所述电路进一步被配置为基于所述音色信息对所述用户的人声信号执行音频处理,以获得经调整的人声信号。
12.根据权利要求4所述的电子设备,其中,所述电路进一步被配置为对所述原始人声信号执行效果链分析,以获得链效果参数作为处理参数。
13.根据权利要求12所述的电子设备,其中,所述电路进一步被配置为基于所述链效果参数对所述用户的人声信号执行音频处理,以获得经调整的人声信号。
14.根据权利要求1所述的电子设备,其中,所述电路进一步被配置为将所述捕获的音频信号与所述分离源进行比较,以获得质量分数估计,并基于所述质量分数估计将质量分数作为反馈提供给用户。
15.根据权利要求1所述的电子设备,其中,所述捕获的音频信号由麦克风或乐器拾取器获取。
16.根据权利要求15所述的电子设备,其中,所述麦克风是诸如智能手机、耳机、电视机、蓝光播放器的设备的麦克风。
17.根据权利要求2所述的电子设备,其中,所述混合音频信号被输出到扬声器系统。
18.根据权利要求1所述的电子设备,其中,所述分离源包括吉他信号,所述残差信号包括剩余信号,所述捕获的音频信号包括用户的吉他信号。
19.根据权利要求18所述的电子设备,其中,所述电路进一步被配置为对所述吉他信号执行失真估计,以获得失真参数作为处理参数,并基于所述吉他信号和所述失真参数对所述用户的吉他信号执行吉他处理,以获得经调整的吉他信号。
20.一种方法,包括:
对音频信号进行源分离,以获得分离源和残差信号;
对所述分离源进行特征提取,以获得一个或多个处理参数;以及
基于所述一个或多个处理参数对捕获的音频信号执行音频处理,以获得经调整的分离源。
21.一种计算机程序,包括指令,当所述程序由计算机执行时,指令使所述计算机执行根据权利要求20所述的方法。
CN202210968636.XA 2021-08-19 2022-08-12 电子设备、方法和计算机程序 Pending CN115910009A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP21192234.9 2021-08-19
EP21192234 2021-08-19

Publications (1)

Publication Number Publication Date
CN115910009A true CN115910009A (zh) 2023-04-04

Family

ID=77411677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210968636.XA Pending CN115910009A (zh) 2021-08-19 2022-08-12 电子设备、方法和计算机程序

Country Status (2)

Country Link
US (1) US20230057082A1 (zh)
CN (1) CN115910009A (zh)

Also Published As

Publication number Publication date
US20230057082A1 (en) 2023-02-23

Similar Documents

Publication Publication Date Title
JP7243052B2 (ja) オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム
Corey Audio production and critical listening: Technical ear training
KR20130112898A (ko) 시간 변화 정보를 갖는 기저 함수를 사용한 음악 신호의 분해
JP4645241B2 (ja) 音声処理装置およびプログラム
US11146907B2 (en) Audio contribution identification system and method
KR20130108391A (ko) 다중 채널 오디오 신호를 분해하는 방법, 장치 및 머신 판독가능 저장 매체
US11727949B2 (en) Methods and apparatus for reducing stuttering
Thery et al. Anechoic audio and 3D-video content database of small ensemble performances for virtual concerts
US20230186782A1 (en) Electronic device, method and computer program
WO2022248729A1 (en) Stereophonic audio rearrangement based on decomposed tracks
CN115668367A (zh) 音频源分离和音频配音
CN113287169A (zh) 用于盲源分离和再混音的装置、方法和计算机程序
US20230057082A1 (en) Electronic device, method and computer program
US20220076687A1 (en) Electronic device, method and computer program
Canfer Music Technology in Live Performance: Tools, Techniques, and Interaction
US20230215454A1 (en) Audio transposition
Dony Armstrong et al. Pedal effects modeling for stringed instruments by employing schemes of dsp in real time for vocals and music
WO2022200136A1 (en) Electronic device, method and computer program
WO2022023130A1 (en) Multiple percussive sources separation for remixing.
Woszczyk et al. Creating mixtures: The application of auditory scene analysis (ASA) to audio recording
JP2010160289A (ja) 音程を自動で修正するmidiカラオケシステム
Anderson The amalgamation of acoustic and digital audio techniques for the creation of adaptable sound output for musical theatre
Anderson A Research Dissertation Submitted in Partial Fulfilment of the Requirements for the Degree of Master of Music in Music Technology
JP6182894B2 (ja) 音響処理装置および音響処理方法
KR100891669B1 (ko) 믹스 신호의 처리 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination