CN114631142A - 电子设备、方法和计算机程序 - Google Patents

电子设备、方法和计算机程序 Download PDF

Info

Publication number
CN114631142A
CN114631142A CN202080076969.0A CN202080076969A CN114631142A CN 114631142 A CN114631142 A CN 114631142A CN 202080076969 A CN202080076969 A CN 202080076969A CN 114631142 A CN114631142 A CN 114631142A
Authority
CN
China
Prior art keywords
electronic device
time
circuitry
audio
stereo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080076969.0A
Other languages
English (en)
Inventor
弗兰克·吉龙
埃尔克·舍希特勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN114631142A publication Critical patent/CN114631142A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Abstract

一种包括电路的电子设备,所述电路被配置为分析立体声或多声道源分离的结果,以确定一个或多个时变参数,并基于所述一个或多个时变参数创建空间动态音频对象。

Description

电子设备、方法和计算机程序
技术领域
本公开总体上涉及音频处理领域,具体涉及用于源分离和混合的设备、方法和计算机程序。
背景技术
有许多音频内容是可用的,例如,以光盘(CD)、磁带、可以从互联网下载的音频数据文件的形式,但是也可以以例如存储在数字视频盘等上的视频的音轨的形式。通常,音频内容已经混合,例如,对于单声道或立体声设置,而没有保留来自已经用于音频内容制作的原始音频源的原始音频源信号。然而,存在设想混合音频内容的情况或应用。
随着面向空间音频对象的系统(例如,DolbyAtmos、DTS-X或最近的Sony 360RA)的出现,需要找到一些方法来欣赏大量的旧版内容,这些内容最初没有与考虑到的面向音频的对象的概念混合在一起。一些现有的上混系统试图提取一些基于频谱的特征,或者添加一些外部效果,以在空间上呈现旧版内容。因此,尽管通常存在用于混合音频内容的技术,但是通常期望改进用于混合音频内容的设备和方法。
发明内容
根据第一方面,本公开提供一种包括电路的电子设备,所述电路被配置为分析立体声或多声道源分离的结果,以确定一个或多个时变参数,并基于所述一个或多个时变参数创建空间动态音频对象。
根据另一方面,本公开提供了一种方法,包括分析立体声或多声道源分离的结果,以确定一个或多个时变参数,并基于所述一个或多个时变参数创建空间动态音频对象。
在从属权利要求、以下描述和附图中阐述了进一步的方面。
附图说明
参考附图,通过示例来解释实施例,其中:
图1示意性地示出了通过盲源分离(BSS)(例如,音乐源分离(MSS))进行音频上混/再混的一般方法;
图2示意性地示出了分离源的自动时间相关的空间上混的处理,其中,基于计算的边中比来执行放置单极;
图3示出了图2中描述的分离源的空间上混的处理的详细示例性实施例;
图4a示意性地描述了对原始立体声信号执行的如图3中所描述的节拍检测过程的实施例;
图4b示意性地描述了在图3中描述的分离源的空间上混过程中执行的节拍检测过程的实施例;
图5a示意性地描述了在图3中描述的分离源的空间上混过程中执行的边中比计算的实施例;
图5b示出了图5a中描述的边中比计算的示例性结果;
图5c示意性地描述了可以在图5a中描述的分离源的边中比计算过程期间执行的静音抑制过程的实施例;
图6a示意性地描述了在图3中描述的分离源的空间上混过程中执行的分割过程的实施例;
图6b示出了包括在参考图6a描述的分割过程中的每拍边中比的聚类过程;
图6c提供了可以应用于分割分离源的聚类过程的实施例;
图6d示出了在图6a的参考下描述的片段中聚类的每拍边中比;
图7a示意性地示出了时间平滑过程,其中,在分离源的片段上对分离源的边中比rat进行平均;
图7b示出了平滑过程的示例,由图6a的分割过程识别的第一片段S1与平滑的边中比相关联;
图8a示出了位置映射的示例性实施例,该位置映射确定用于呈现分离源的单极的位置;
图8b示出了位置映射的另一示例性实施例,该位置映射确定用于呈现分离源的单极的位置;
图8c示出了位置映射的另一示例性实施例,该位置映射确定用于呈现分离源的单极的位置;
图9示出了位置映射如何与用于呈现分离源的左和右立体声声道的两个单极的指定位置相关联;
图10提供了基于数字化单极合成算法的3D音频呈现的实施例;
图11示意性地示出了四个分离源的自动时间相关的空间上混的过程的实施例;
图12示出了可视化用于执行分离源的时间相关的空间上混的方法的流程图;
图13示意性地描述了可以实现分离源的自动时间相关的空间上混的过程的电子设备的实施例。
具体实施方式
在参照图1至图11详细描述实施例之前,进行一些一般性说明。
实施例公开了一种包括电路的电子设备,所述电路被配置为分析立体声或多声道源分离的结果,以确定一个或多个时变参数,并基于所述一个或多个时变参数创建空间动态音频对象。
因此,电子设备可以提供具有面向空间音频对象的音频内容,与传统的立体声音频内容相比,该音频内容包含或创建更自然的声音。通过将时变参数考虑在内,可以通过分析多声道(源)分离的结果并创建空间动态音频对象来实现时间相关的空间上混,该空间上混例如保存内容的原始平衡。
电子设备的电路可以包括处理器,例如,可以是众所周知用于电子设备(计算机、智能手机等)的CPU、存储器(RAM、ROM等)和/或存储装置、接口等。电路还可以包括输入装置(鼠标、键盘、相机等)、输出装置(显示器(例如,液晶、(有机)发光二极管等))、扬声器、(无线)接口等,或者可以与其连接。此外,电子设备可以是支持音频的产品,该产品生成某种多声道空间呈现。电子设备可以是电视、条形音箱、多声道(回放)系统、耳机上的虚拟器、双耳耳机等。
如开头所述,有许多音频内容已经混合为立体声音频内容信号,该信号具有两个音频声道。具体地,对于传统的立体声,音频信号的每个声音都是固定的,具有特定的声道。例如,在一个声道中可以是吉他、鼓等固定的乐器,而在另一个声道中可以是吉他、声乐等固定的乐器。因此,每个声道的声音都与特定的扬声器相关联。
因此,该电路可以被配置为将描述分离的声道之间的信号电平响度的参数、和/或频谱平衡参数、和/或主环境指示符、和/或干湿指示符、和/或描述冲击谐波内容的参数确定为时变参数。
此外,位置映射可以包括音频对象定位,该音频对象定位例如可以是与风格相关的,或者可以基于不同索引的组合来动态计算。位置映射可以例如使用以下实施例中描述的算法来实现。例如,可以使用干/湿主/环境指示符,或者可以将其与任何分离源的比率相结合,以修改音频对象的参数,例如,单极合成中的扩展,这可以创建更具包络性的声场等。
当执行上混时,电子设备可以修改原始内容,并且可以考虑其特殊性,特别是在立体声内容的情况下考虑乐器的平衡。
具体而言,该电路可以被配置为将描述立体声内容中的乐器平衡的参数确定为时变参数,并且基于立体声内容中的乐器平衡来创建空间动态音频对象。
该电路可以被配置为将分离源的边中比确定为时变参数,并且基于边中比创建空间动态音频对象。
以这种方式,电子设备可以创建与内容相关的空间混合,并且更自然且直观地匹配混合工程师或作曲家的原始意图。导出的元数据也可以用作音频工程师创建新的空间混合的起点。
该电路可以被配置为基于从立体声或多声道源分离的结果获得的一个或多个时变参数来确定音频对象的空间定位参数。
确定空间定位参数可以包括基于定位索引执行位置映射。位置索引可以允许从可能位置的阵列中选择音频对象的位置。此外,执行位置映射可以导致根据对现有多声道内容等的分析来自动创建空间对象音频混合。
在一些实施例中,电路可以进一步被配置为基于边中比执行分割,以获得分离源的片段。
在一些实施例中,边中比计算可以包括静音抑制过程。静音抑制过程可以包括立体声声道中的静音检测。在分离源上存在静音部分的情况下,边中比可以被设置为零。
该电路可以被配置为动态地适配音频对象的定位参数。空间定位参数例如可以是定位索引、定位索引阵列、位置向量、位置阵列等。一些实施例可以使用取决于音乐声源分离过程的分离声道之间的原始平衡的定位索引,而不将本公开限制于此。
导出空间定位参数可以导致空间混合,其中,可以单独处理每个分离的(乐器)源。空间混合可以是内容相关的,并且可以自然且直观地匹配用户的原始混合意图。导出的内容可以是导出的元数据,其可以用作创建新的空间混合的起点等。
该电路可以被配置为通过单极合成来创建空间动态音频对象。例如,该电路可以被配置为动态地适配单极合成中的扩展。具体地,空间动态音频对象可以是单极的。
该电路可以被配置为基于所述一个或多个时变参数,动态地创建用于呈现分离源的左声道的第一单极以及用于呈现分离源的右声道的第二单极。
该电路可以被配置为根据多声道源分离的结果来创建时间相关的空间上混,所述空间上混保持内容的原始平衡。
该电路可以被配置为基于时变参数执行分割过程,以获得分离源的片段。
在一些实施例中,自动时间相关的空间上混基于多声道内容的相似性分析的结果。自动时间相关的空间上混可以例如使用在以下实施例中描述的算法来实现。
该电路可以被配置为基于时变参数执行聚类检测。可以使用在以下实施例中描述的算法来实现聚类检测。
该电路可以被配置为对分离源的片段执行平滑处理。
该电路可以被配置为执行节拍检测过程,以分析多声道源分离的结果。
可以针对分离源的每个节拍、每个窗口或每个帧来确定所述时变参数。
实施例还公开了一种方法,包括分析立体声或多声道源分离的结果,以确定一个或多个时变参数,并基于所述一个或多个时变参数创建空间动态音频对象。
这些实施例还公开了一种包括指令的计算机程序,当由计算机执行所述程序时,所述指令使得计算机执行上面和下面的实施例中描述的方法和过程。
现在参考附图描述实施例。
下面更详细描述的实施例的过程从(音乐)源分离方法开始(参见图1和相应的描述),例如,使用立体声内容。在源分离之后,左声道和右声道的能量相互比较,具体是使用边/中比计算(参见图5a、图5c、图5d和相应的描述)。然后,该比率用于导出时变索引(参见图8a、图8b、图8c、图8d和相应的描述),其指向(预定义的)位置阵列。这些位置最终与基于音频对象的呈现方法(图9的特定实施例中的单极合成)结合使用。为了防止不自然的、令人不愉快的或太快的位置变化(例如,时间上的空间跳跃),该比率可以预先被分段(参见图6a、图6b、图6c、图6d和相应的描述)并且在时间簇中平均化(参见图7a、图7b和相应的描述),这取决于音乐节拍,但是该步骤也是可选的,并且可以由任何其他时间平滑方法代替。
通过盲源分离(BSS)进行音频上混/再混
图1示意性地示出了通过盲源分离(BSS)(例如,音乐源分离(MSS))进行音频上混/再混的一般方法。执行源分离(也称为“去混合”),该源分离将包括多个声道I的源音频信号1和来自多个音频源源1、源2、…、源K(例如,乐器、语音等)的音频分解成“分离”,在此处分解成每个声道i的源估计2a-2d,其中,K是整数,表示音频源的数量。在此处的实施例中,源音频信号1是具有两个声道i=1和i=2的立体声信号。由于音频源信号的分离可能是不完美的,例如,由于音频源的混合,除了分离的音频源信号2a-2d之外,还生成残余信号3(r(n))。残余信号可以例如表示输入音频内容和所有分离的音频源信号的总和之间的差异。在输入音频内容1中由其相应记录的声波来表示由每个音频源发出的音频信号。对于具有多于一个音频声道的输入音频内容,例如,立体声或环绕声输入音频内容,音频源的空间信息通常也由输入音频内容包括或表示,例如,由不同音频声道中包括的音频源信号的比例包括或表示。基于盲源分离或能够分离音频源的其他技术,将输入音频内容1分离成分离的音频源信号2a-2d和残余信号3。
在第二步骤中,分离源2a-2d和可能的残余3再混合并呈现为新的扬声器信号4,此处是包括五个声道4a-4e的信号,即5.0声道系统。基于分离的音频源信号和残余信号,通过基于空间信息混合分离的音频源信号和残余信号来生成输出音频内容。在图1中用附图标记4示例性地示出和表示输出音频内容。
在下文中,输入音频内容的音频声道的数量被称为Min,输出音频内容的音频声道的数量被称为Mout。因为图1的示例中的输入音频内容1具有两个声道i=1和i=2,并且图1的示例中的输出音频内容4具有五个声道4a-4e,Min=2和Mout=5。图1中的方法通常被称为再混合,具体是当Min<Mout时被称为上混合。在图1的示例中,输入音频内容1的音频声道数量Min=2小于输出音频内容4的音频声道数量Mout=5,因此,这是从立体声输入音频内容1到5.0环绕声输出音频内容4的上混。
在音频源分离中,包括多个源(例如,乐器、声音等)的输入信号被分解成分离。音频源分离可以是无监督的(称为“盲源分离”BSS)或部分监督的。“盲”意味着盲源分离不一定具有关于原始源的信息。例如,可能不一定知道原始信号包含多少个源,或者输入信号的哪些声音信息属于哪个原始源。盲源分离的目的是在事先不知道原始信号分离的情况下分解原始信号分离。盲源分离单元可以使用技术人员已知的任何盲源分离技术。在(盲)源分离中,可以搜索在概率或信息论意义上或基于非负矩阵分解最小相关或最大独立的源信号,可以找到对音频源信号的结构约束。执行(盲)源分离的方法是技术人员已知的,并且基于例如主成分分析、奇异值分解、(独立)相关成分分析、非负矩阵分解、人工神经网络等。
尽管一些实施例使用盲源分离来生成分离的音频源信号,但是本公开不限于不使用更多信息来分离音频源信号的实施例,而是在一些实施例中,使用更多信息来生成分离的音频源信号。这种进一步的信息可以是例如关于混合过程的信息、关于包括在输入音频内容中的音频源的类型的信息、关于包括在输入音频内容中的音频源的空间位置的信息等。
输入音频信号可以是任何类型的音频信号。可以是模拟信号、数字信号的形式,可以源自录音机、光盘、数字视频盘等,可以是数据文件,例如,波形文件、mp3文件等,并且本公开不限于特定格式的输入音频内容。输入音频内容例如可以是具有第一声道输入音频信号和第二声道输入音频信号的立体声音频信号,而本公开不限于具有两个音频声道的输入音频内容。输入音频信号可以是多声道内容信号。例如,在其他实施例中,输入音频内容可以包括任意数量的声道,例如,5.1音频信号的再混合等。输入信号可以包括一个或多个源信号。具体地,输入信号可以包括几个音频源。音频源可以是产生声波的任何实体,例如,乐器、语音、声乐、人工生成的声音(例如,来自合成器的声音)等。
输入音频内容可以表示或包括混合的音频源,这意味着声音信息不能单独用于输入音频内容的所有音频源,但是不同音频源的声音信息例如至少部分重叠或混合。
由盲源分离从输入信号中产生的分离可以例如包括声乐分离、低音分离、鼓分离和另一种分离。在声乐分离中,可以包括属于人声的所有声音,在低音分离中,可以包括低于预定阈值频率的所有噪声,在鼓分离中,可以包括歌曲/音乐片段中属于鼓的所有噪声,而在其他分离中,可以包括所有剩余的声音。通过音乐源分离(MSS)系统获得的源分离可能导致诸如干扰、串扰或噪声的假象。
动态声音对象的时间相关的空间上混
根据下面更详细描述的实施例,从分离源获得的边中比参数用于修改用于呈现分离源的虚拟声音系统的音频对象的参数。具体地,单极合成中的扩展(即用于呈现分离源的单极的位置)受到影响。这就创建了更具包络性的声场。
图2示意性地示出了分离源的自动时间相关的空间上混的过程,其中,基于计算的边中比来放置单极。立体声文件1包含多个源(参见图1中的源1,源2,...源K),具有两个声道(即Min=2),即左声道和右声道,被输入到源分离2(如上面关于图1所描述的)。源分离2的过程将立体声文件1分解成分离,即“低音”分离2a、“鼓”分离2b、“其他”分离2c和“声乐”分离2d。“低音”、“鼓”和“声乐”分离2a、2b、2d反映了立体声文件1中包含的混合中相应的“乐器”,而“其他”分离2c反映了残余。每个分离2a、2b、2c、2d也是由源分离2的过程输出的立体声文件。
使用边中比计算5来处理“低音”分离2a,以便确定低音分离的边中比。边中比计算5过程将表示低音分离的立体声文件的左声道的能量与右声道的能量进行比较,以确定边中比,并且将在下面的图5a和图5b中更详细地描述。基于所计算的低音分离的边中比来执行位置映射6a,以导出用于利用音频呈现系统来呈现低音分离2a的单极7a的位置。为了确定鼓分离的边中比,使用边中比计算5b来处理“鼓”分离2b。基于所计算的边中比来执行位置映射6b,以导出用于利用音频呈现系统来呈现鼓分离2b的单极7b的位置。使用边中比计算5c来处理“其他”分离2c,以便确定其他分离的边中比。基于所计算的其他分离的边中比来执行位置映射6c,以导出用于利用音频呈现系统来呈现其他分离2c的单极7c的位置。使用边中比计算5d来处理“声乐”分离2d,以便确定声乐分离的边中比。基于所计算的声乐分离的边中比来执行位置映射6d,以导出用于利用音频呈现系统呈现声乐分离2d的单极7d的位置。
在上述实施例中,源分离过程将立体声文件分解成分离“低音”、“鼓”、“其他”和“声乐”。这些类型的分离仅仅出于说明的目的,但是可以由作为乐器的类型代替,因为已经用DNN进行了训练。
在上述实施例中,对包括两个声道的立体声文件执行音频上混。然而,实施例不限于立体声文件。输入音频内容也可以是多声道内容,例如,5.0音频文件、5.1音频文件等。
图3示出了上面图2中描述的分离源的空间上混过程的详细示例性实施例。对源分离2a-2d(例如,低音、鼓、其他或声乐分离)执行节拍检测8的过程,或者可替换地,对原始立体声文件(图2中的立体声文件1)执行节拍检测的过程,以便将音频信号划分为节拍。使用计算边中比5处理分离源,以获得每拍的边中比。在图5a和图5b以及下面的等式1中更详细地描述了计算边中比5的该过程的实施例。基于边中比执行分割过程9,以获得分离源的片段。分割过程9例如包括执行如参考图6a-图6c更详细描述的每个节拍边中比的聚类。对于每个片段,对边中比执行平滑10,以获得每个片段的边中比。对每个片段的边中比执行位置映射6,以导出最终单极7的位置,也就是说,将每个片段的边中比映射到用于呈现分离源2a-2d的最终单极7应该放置的多个可能位置之一。
应当理解,单极仅是可以根据图3所示的示例过程的原理来定位的音频对象的一个示例。以同样的方式,可以根据示例过程的原理来定位其他音频对象。
此外,应当理解,这仅仅是可能实施例的一个示例,但是每个步骤都可以由其他分析方法来代替,并且音频对象定位也可以例如依赖于类型或者基于不同索引的组合来动态计算。例如,也可以使用干/湿或主/环境指示符来代替边/中比,或者与侧/中比相结合,以修改音频对象的参数,例如,单极合成中的扩展,这将创建更具包络性的声场。
节拍检测
对原始立体声信号(图4a的实施例)执行节拍检测过程,或者可替换地,对分离源(图4b的实施例)执行节拍检测过程,以便将音频信号分成小的部分(时间窗口)。
图4a示意性地更详细地描述了在上面图3中描述的分离源的空间上混的过程中执行的节拍检测过程的实施例,其中,对原始立体声信号(图2中的立体声文件1)执行节拍检测,以便将立体声信号划分为节拍。
在图4a的这个实施例中,对原始立体声信号执行节拍检测8的过程,以便将音频信号分成小的部分(时间窗口)。节拍检测是一种窗口化过程,具体适用于表示音乐内容的音频信号。
通过节拍检测,原始立体声信号(图2中的立体声文件1)的音频信号被划分为特定长度的时间窗口。在某些音乐类型中,音乐的节奏(通常以每分钟节拍数bpm来衡量)相当恒定,因此节拍基本上具有固定的长度。然而,节奏可能发生变化,使得由节拍定义的窗口长度可能随着音乐片段从一个部分前进到下一个部分而变化。本领域技术人员已知的任何节拍检测过程都可以用于实现图4的节拍检测过程8,例如,EP1377959Bl中公开的bpm确定方法、US2686294A中公开的节拍检测器电路、US 8,952,233中公开的用于计算音乐节奏的系统等。节拍检测过程通常产生一组时间标记,每个时间标记指示相应节拍的开始。这些时间标记将音频信号划分成小的部分(时间窗口),这些小的部分可以用作音频信号的细分,用于对音频信号进行进一步处理(例如,确定音频特性,例如,下面关于图5a至图4d描述的边/中比)。
图4b示意性地更详细地描述了在上面图3中描述的分离源的空间上混过程中执行的节拍检测过程的替换实施例。在该实施例中,在分离源2a-2d上执行节拍检测,以便将分离源信号划分为节拍,从而获得每节拍分离源。
如上参考图4a所述,对分离源2a-2d执行节拍检测过程,以便将分离源信号划分为节拍,从而获得每节拍分离源。如上所述,通过节拍检测,分离源2a-2d的音频信号被划分为特定长度的时间窗口。在某些音乐类型中,音乐的节奏(通常以每分钟节拍数bpm来衡量)相当恒定,因此节拍基本上具有固定的长度。
节拍检测是一种窗口过程,具体适用于表示音乐内容的音频信号。作为节拍检测的替代,可以基于预定义的恒定窗口大小以及基于预定义的“跳跃距离”(以样本为单位)来执行窗口化过程(或成帧过程)。可以任意选择窗口大小(例如,以样本为单位,例如,每个窗口128个样本、每个窗口512个样本等)。跳跃距离可以例如选择为等于窗口长度,或者可以选择重叠的窗口/帧。
在其他实施例中,不应用节拍检测或窗口化过程,而是逐个样本地处理例如边中比(对应于一个样本的窗口大小)。
边中处理
图5a示意性地描述了在上面图3中描述的分离源的空间上混过程中执行的边中比计算的实施例。对分离源2a-2d执行中/边处理5a(也称为M/S处理),以便获得分离源2a-2d的中信号mid和边信号side。对于分离源2a-2d的每个节拍,通过确定中信号和边信号的能量的比率rat,中信号mid和边信号side彼此相关。
使用等式1计算边信号和中信号:
side=0.5·(L-R)
mid=0.5·(L+R) (等式1)。
通过将分离源2a-2d的左信号L和右信号R相加,然后将计算的和乘以归一化因子0.5(为了保存响度),来计算中信号mid。通过从分离源2a-2d的左声道的信号L中减去分离源2a-2d的右声道的信号R,然后将计算的差乘以归一化因子0.5,来计算边信号side。
对于分离源2a-2d的每个节拍,通过使用等式2确定中信号mid和边信号side的能量的比率rat,中信号mid和边信号side彼此相关:
Figure BDA0003621513870000131
在此处,side2是通过对边信号side进行采样平方来计算的边信号side的能量side2,mid2是通过对中信号mid进行采样平方来计算的中信号mid的能量。通过对一个节拍上的边信号side的能量side2进行平均,以获得该节拍的边能量的平均值mean(side2),通过对同一节拍上的中信号mid的能量mid2进行平均,以获得该节拍的中能量的平均值mean(mid2),并将边能量的平均值mean(side2)除以中能量的平均值mean(mid2),来计算中信号mid和边信号side的能量比rat。
信号的能量与信号的幅度相关,并且可以例如作为短时能量如下获得:
Figure BDA0003621513870000132
其中,x(t)是音频信号,在此处具体是左声道L或右声道R。
在该实施例中,每个节拍计算边中比,因此导致更平滑的值(与固定窗口长度相比)。如以上关于图4所述,基于输入立体声文件来计算节拍。
在上述实施例中,边信号的能量side2和中信号的能量mid2用于确定时变参数rat,以基于时变参数创建空间动态音频对象。然而,没有必要使用能量来计算时变参数。例如,在替代实施例中,幅度差的比率|L-R|/|L+R|可以用于确定时间相关因子。
此外,在上述实施例中,预见了归一化因子0.5。然而,仅仅是出于惯例的原因而提供这种归一化因子。这不是必要的,因为它不影响定量,因此也可以忽略不计。
图5b示出了图5a中描述的边中比计算的示例性结果。在这个示例中,显示了对于“其他”分离2c获得的边中比。其他分离2c的边中比与其他分离2c的信号12一起由曲线11表示。
分离源中的静音部分可能仍然包含几乎察觉不到的伪像。因此,在分离源2a-2d的静音部分中,边中比可以自动设置为零,以便最小化这种假象,如下面关于图5c的实施例所示。
可以例如通过将左和右立体声声道的能量L2和R2分别与相应的预定阈值水平进行比较(或者通过将两个立体声声道中的总能量L2+R2与预定阈值水平进行比较),来识别分离源2a-2d的静音部分。
图5c示意性地描述了可以在以上图5a中描述的分离源的边中比计算过程期间执行的静音抑制过程的实施例。执行左立体声声道L和右立体声声道R的总能量L2+R2的确定5c。基于在两个立体声声道中检测到的总能量L2+R2来执行静音检测5d。将总能量L2+R2与预定阈值水平thr进行比较。在总能量L2+R2小于预定阈值水平thr的情况下(这表示在分离源2a-2d上存在静音部分),边中比rat被自动设置为零(rat=0)。在总能量L2+R2大于预定阈值水平thr的情况下,边中比rat保持不变(rat=rat)。
在上述实施例中,此处描述了作为时变参数的示例的边/中比的推导。在其他实施例中,时变参数例如也可以是分离的声道之间的信号电平/响度、频谱平衡、主/环境、干/湿、冲击/谐波内容或可以从信息检索方法中的音乐中导出的其他参数,而不将本公开限制于此。
分割(聚类检测)
为了防止不自然的、令人不愉快的或过快的位置变化,例如,时间上的快速空间跳跃等,边中比可以在节拍中分割,并且使用时间平滑方法来平滑。例如,描述了示例性分割过程的实施例,其中,边中比被分割,这将在下面的图6a-图6c中详细描述。以这种方式,可以分析来自分离源的导出内容的相似性。
图6a示意性地描述了在上面图3中描述的分离源的空间上混过程中执行的分割过程的实施例。基于边中比执行分割过程9,以获得分离源的片段。分割过程9例如包括执行每拍(或每窗口)边中比的聚类。也就是说,对每拍(或每窗口)边中比执行分割过程9,以获得在片段中聚类的每拍(或每窗口)边中比。如上所述,分割9的目标是在分离源中找到同类片段,并将分离源分成同类片段。期望在边中比中被识别为同类的每个片段与具有特定共同特征的一段音乐的特定部分相关。例如,背景唱诗班(或例如吉他独奏)的开始和结束可以分别标记一段音乐的特定部分的开始和结束。通过识别分离源的特征部分(此处称为“片段”),通过重新定位用于呈现分离源的虚拟单极,音频呈现的变化可以被限制为从一个部分过渡到下一个部分。以这种方式,自动时间相关的空间上混可以基于多声道内容的相似性分析的结果。
应当注意,在上述实施例中,基于边中比(或其他时变参数)发生分割,这为各个分离源(乐器)提供了不同的结果。然而,聚类过程的分割的时间标记(检测到的节拍)对于所有分离的信号是共同的。分割是与原始立体声信号的节拍同步完成的,原始立体声信号下混合成单声道信号。在连续的节拍之间,为每个分离的信号计算时变参数,例如,边中比的每拍平均值。
图6b示出了包括在如上面参考图6a所述的分割过程中的每拍边中比的聚类过程。音频源(此处是分离源2a-2d)包括数量为B的节拍,这些节拍在时间轴(x轴)上示出。节拍B(分别是每个节拍的时间长度)已经由上面在图4中描述的过程识别。根据上面在图5a中描述的过程,对于通过图4的节拍检测过程获得的这组节拍B中的每个节拍i,获得边中比rat(i)。
在图6b中,每拍边中比rat呈现在y轴上。一组节拍B中每个相应节拍i的每个边中比rat(i)被表示为一个点。在图6b中,表示节拍B的边中比rat(i)的点被映射到y轴。如在图6b中可以看到的,边中比rat(i)示出了在两个集群C1和C2中的聚类。也就是说,具有相似边中比值的节拍可以在集群C1或C2中相关联。集群C1识别分离源的第一片段S1。集群C2识别分离源的第二片段S2
如上所述,音频聚类的目标是识别所有节拍并将其分组在一起,这些节拍具有相同的每拍边中比。具有不同每拍边中比分类的音频节拍被聚类在不同的片段中。本领域技术人员已知的任何聚类算法,例如,K均值算法、凝聚聚类(如https://en.wikipedia.org/wiki/Hierar-chical_clustering中所描述的)等,可以用于识别指示音频信号的片段的边中比集群。
图6c提供了聚类过程的实施例,其可以应用于分割分离源。最初,每个节拍被视为一个集群。下面的方法迭代地应用于集群。在61,该算法计算距离矩阵,此处是所有集群的贝叶斯信息标准BIC。考虑两个较近的集群加入新的集群。为此,在62,确定BIC是否<0。如果在62确定BIC<0,则这两个集群结合在一起,C={C1,C2}。如果在62确定BIC≥0,则两个集群不结合在一起。以这种方式,集群被链接在一起,直到距离超过预定义的值。此时,聚类结束。
当使用BIC比较两个集群时的距离度量可以被陈述为模型选择标准,其中,一个模型由两个分离的集群C1和C2表示,而另一个模型表示结合在一起的集群C={C1,C2}。BIC表达式可以如下给出:
BIC=nlog|∑|-n1log|∑1|-n2log|∑2|-λP (等式4)。
其中,n=n1+n2是数据大小(节拍、窗口等的总数),Σ是集群C={C1,C2}的协方差矩阵,Σ1和Σ2分别是集群C1和集群C2的协方差矩阵,P是与模型中的参数数量相关的惩罚因子,λ是惩罚权重。协方差矩阵Σ由等式5给出:
Figure BDA0003621513870000171
其中,Σ1ij是协方差矩阵的ij元素,运算符E表示期望值(平均值)。
图6d示出了已被分割的分离源,如上面参考图6a所述。由图6a的分割过程识别的第一片段S1开始于时刻t0,结束于时刻t1。随后第二片段S2开始于时刻t1,结束于时刻t2。类似地,第N个片段开始于时刻tN-1,结束于时刻tN。在图6d中由垂直的黑色实线表示的时刻t1....tN表示片段的边界。
图7a示意性地示出了时间平滑过程,其中,在分离源的片段上对分离源的边中比rat进行平均。
在图7a中,基于从上面参考图6a描述的分割过程9获得的片段Sn,对分离源的每拍边中比rat(i)执行平滑过程10,以获得每个片段Sn的平滑边中比
Figure BDA0003621513870000172
通过图6a中描述的分割过程,从节拍检测获得的这组节拍B被分成多个片段Sn。每个片段Sn包括由图4的节拍检测过程获得的多个节拍。根据上面在图5a中描述的过程,对于片段Sn中的每个节拍i获得边中比rat(i)。对于片段Sn,可以通过对片段Sn中所有节拍i获得的边中比rat(i)进行平均,来获得平滑的边中比
Figure BDA0003621513870000173
Figure BDA0003621513870000174
其中,
Figure BDA0003621513870000175
是片段Sn中的节拍数。
图7b示出了平滑过程的示例。由图6a的分割过程识别的第一片段S1与平滑的边中比
Figure BDA0003621513870000176
相关联。第二片段S2与平滑的边中比
Figure BDA0003621513870000177
相关联。类似地,第N片段与平滑的边中比
Figure BDA0003621513870000178
相关联。在图7d中由垂直的黑色实线指示的时刻t1....tN表示片段的边界。在图7d中,通过相应的水平黑色实线来指示平滑的边中比
Figure BDA0003621513870000179
根据此处更详细描述的实施例,基于边中比确定最终单极的位置,具体是基于平滑的边中比,平滑的边中比将边中比归属于音频信号的每个片段。
位置映射
图8a示出了位置映射的示例性实施例,该位置映射确定用于呈现分离源的单极的位置。图8a的这个实施例具体使用取决于音乐声源分离过程的分离的声道之间的原始平衡的定位索引(例如,边中比或平滑的边中比,如上面更详细描述的),但是可以扩展到其他分离技术。
图8a以示例性方式示出了位置映射如何基于从分离源确定的边中比来确定单极的位置。在图8a的左侧,示出了由图6a至图6d中描述的分割过程和由图7a和图7b中描述的平滑过程识别的分离源的几个片段Sn的平滑边中比
Figure BDA0003621513870000181
在图8a的右侧,示出了分别用于呈现分离源的左和右立体声声道的两个单极的可能位置。两个单极的可能位置m=1,…M由小圆圈表示。在图8a的示例中,左立体声声道的17个可能位置(M=17)被预见为位置m=1,…M,它们排列在收听者左侧的半圆中。右立体声声道的17个额外可能位置被预见为位置m=1,…M,它们排列在收听者右侧的半圆中。黑色圆圈(在m=1和m=M处)定义了用于呈现(虚拟)单极的四个(物理)扬声器SP1、SP2、SP3和SP4的位置。第一扬声器SP1位于左前,第二扬声器SP2位于右前,第三扬声器SP3位于左后,第四扬声器SP4位于左后。具有虚线或点状图案的圆圈指示由扬声器SP1、SP2、SP3、SP4呈现的虚拟扬声器的可能位置。如点划线所示,片段Sn的平滑边中比
Figure BDA0003621513870000182
通过映射过程分别映射到分离源的左立体声声道和右立体声声道的特定单极位置PL和PR
应当注意,难以在物理扬声器的位置或者非常靠近物理扬声器的位置直接呈现虚拟单极。因此,靠近扬声器SP1、SP2、SP3、SP4之一的可能的单极位置用点状图案标记,而所有其他可能的位置用虚线图案标记。
在上述图8a的实施例中,可能位置的数量是每半个圆十七个,然而可能位置的数量可以是任何其他数量,例如,每半个圆二十七个等。
此外,在图8b的实施例中,使用四个物理扬声器来呈现单极。然而,在替代实施例中,具有不同数量扬声器的扬声器系统可以用于呈现虚拟单极,例如,5.1扬声器系统、音棒、双耳耳机、具有许多扬声器的扬声器墙等。
图8b示出了位置映射的另一示例性实施例,该位置映射确定用于呈现分离源的单极的位置。图8b类似于图8a。然而,点划线指示将片段S3的平滑边中比
Figure BDA0003621513870000191
映射到分离源的左立体声声道和右立体声声道的特定单极位置PL和PR。根据此处参照图8a和图8b描述的实施例,平滑边中比
Figure BDA0003621513870000192
越低,分离源的左立体声声道和右立体声声道选择的单极位置就越接近两个前(物理)扬声器SP1和SP2的位置。边中比rat(n)越高,因此平滑的边中比
Figure BDA0003621513870000193
就越高,分离源的左立体声声道和右立体声声道选择的单极位置就越接近两个后(物理)扬声器SP3和SP4的位置。
图8c示出了分别针对分离源的最大边中比和最小边中比执行的位置映射。在图8c的左侧,ratmax示出了从由虚线指示的分离源确定的最大边中比以及由双虚线指示的边中比rat=0。在图8b的右侧,示出了用于呈现分离源的左立体声声道和右立体声声道的两个单极的可能位置,如上面图8a和图8b中所述。如虚线所示,通过映射过程,最大边中比ratmax被映射到对应于两个后扬声器SP2和SP3的位置的单极位置m=M。如双虚线所示,边中比值rat=0被映射到两个前扬声器SP1和SP2的单极位置m=1。
平滑边中比
Figure BDA0003621513870000194
和位置之间的映射可以例如是该比率到预定离散数量的位置的任意映射,如图8a和图8b所示。
例如,可以如下执行映射过程:
Figure BDA0003621513870000195
其中,
Figure BDA0003621513870000201
是片段Sn的平滑边中比,m(n)∈{1,...,M}是
Figure BDA0003621513870000202
映射到的单极位置索引,M是单极可能位置的总数,而floor是取实数x作为输入并给出小于或等于x的最大整数作为输出的函数。
图8a、图8b和图8c示出了特定分离源的位置如何根据边中比在圆的一部分上移动。当边中比低时(见图8a),左声道和右声道非常相似(在极端情况下,见图8c,单声道)。在这种情况下,立体声图像的感知宽度将变窄。因此,源在空间混合中保持在它们的原始位置,就像在到左前和右前声道的传统5.1混合中那样。当边中比高时(见图8a),左声道和右声道非常不同(在极端情况下,每个声道具有完全不同的内容)。立体声图像的感知宽度将会很宽。因此,源在空间混合中向更极端的位置移动,例如,在靠近左后声道和右后声道的传统5.1混合中。边中比特征与感知的立体声宽度的直接链接使得系统能够在重新定位期间保持原始立体声内容的混合美感。
图9可视化了位置映射如何与用于呈现分离源的左立体声声道和右立体声声道的两个单极的指定位置相关,该位置映射基于从分离源确定的边中比来确定单极的位置。对于每个单极位置索引m(n),左立体声声道的相应位置坐标对(x,y)L被预存储在表中,右立体声声道的相应位置坐标对(x,y)R被预存储在表中。在图9的左侧,示出了位置映射选择位置索引m=9,作为用于分别呈现分离源的左立体声声道和右立体声声道的两个单极的位置,如参考图8a、图8b和图8c所描述的。在图9的右侧,可以看到这个特定的单极位置索引m=9如何被转换成单极位置坐标(x,y)L和单极位置坐标(x,y)R,用于通过虚拟声音呈现系统(或3D声音呈现系统)来分别呈现分离源的左立体声声道和右立体声声道,例如,下面在图10中更详细描述的单极合成技术、双耳耳机技术等。
在上述映射过程中,边中比
Figure BDA0003621513870000203
(或者可替换的rat(i))被映射到离散数量的可能位置。或者,也可以使用非离散的方式来执行位置映射,例如,算法过程,其中,边中比
Figure BDA0003621513870000211
(或者可替换的rat(i))被直接映射到相应的位置坐标(x,y)L和(x,y)R
此外,在上述实施例中,描述了左立体声声道和右立体声声道分别发生位置映射。然而,在替代实施例中,可以仅针对一个立体声声道(例如,左声道)来执行如上所述的位置映射,并且可以通过镜像映射的立体声声道(例如,左声道)的位置,来获得针对另一个立体声声道(例如,右声道)的单极位置。
在上述实施例中,用于执行呈现分离源的立体声信号的单极位置的确定基于从分离源获得的边中比参数。然而,在替代实施例中,可以选择分离源的其他参数,来确定用于呈现立体声信号的单极位置。例如,干/湿或主/环境指示符也可以用于修改音频对象的参数,例如,单极合成中的扩展,这将产生更具包络性的声场。这些参数的组合也可以用来修改音频对象的参数。
单极合成
图10提供了基于数字化单极合成算法的3D音频呈现的实施例。该技术的理论背景在专利申请US2016/0037282A1中有更详细的描述,其通过引用结合于此。
在US2016/0037282A1的实施例中实现的技术在概念上类似于波场合成,其使用有限数量的声学外壳来生成限定的声场。然而,实施例的生成原理的基本基础是特定的,因为合成并不试图精确地建模声场,而是基于最小二乘法。
目标声场被建模为放置在限定的目标位置的至少一个目标单极。在一个实施例中,目标声场被建模为单个目标单极。在其他实施例中,目标声场被建模为放置在相应限定的目标位置的多个目标单极。例如,每个目标单极可以表示位于空间内特定位置的一组多个噪声消除源中包括的噪声消除源。目标单极的位置可能正在移动。例如,目标单极可以适应要衰减的噪声源的运动。如果使用多个目标单极来表示目标声场,则如下所述基于一组限定的合成单极来合成目标单极的声音的方法可以独立地应用于每个目标单极,并且可以对每个目标单极获得的合成单极的贡献进行求和,以重建目标声场。
源信号x(n)被馈送到标记为
Figure BDA0003621513870000221
的延迟单元和放大单元ap,其中,p=1,…,N是用于合成目标单极信号的相应合成单极的索引。根据该实施例的延迟和放大单元可以应用参考文献US2016/0037282A1的等式(117)来计算用于合成目标单极信号的结果信号yp(n)=sp(n)。结果信号sp(n)被功率放大并被馈送到扬声器Sp
在这个实施例中,因此,以源信号x的延迟和放大分量的形式执行合成。
根据该实施例,对于目标单极ro和发生器rp之间的欧几里德距离r=Rpo=|rp-r0|,索引为p的合成单极的延迟np对应于声音的传播时间。
此外,根据该实施例,放大系数
Figure BDA0003621513870000222
与距离r=Rpo成反比。
在系统的替代实施例中,可以使用根据参考文献US2016/0037282A1的等式(118)的修正放大因子。
立体声内容的空间上混的示例过程
图11示意性地示出了分离源的时间相关的空间上混的过程的实施例。使用源分离过程(例如,BSS)、环境分析、音乐信息检索等来处理立体声内容(参见图2中的1),以获得分离的声道和/或导出的内容。执行导出内容的相似性分析,以获得时间上的指示符(例如,边中比rat等),以便确定具有相似特征的片段(例如,如上文关于图6a至图6d所述)。基于导出的源分离内容在时间上的相似性,获得时变相似性索引(例如,在图8a、图8b、图8c中,m=1;…;M),然后,时变索引用于导出用于位置映射的空间索引。时变参数可以是分离的声道之间的信号电平/响度、频谱平衡、主/环境、干/湿、冲击/谐波内容等。空间索引是定位索引的向量/数组,指向位置的向量/数组和呈现参数的计算。音频对象呈现系统将音频信号呈现给扬声器,该音频对象呈现系统可以是多声道回放系统,例如,双耳耳机、条形音箱等。
图12示出了可视化用于执行分离源(即低音2a、鼓2b、其他2c和声乐2d)的时间相关的空间上混的示例性方法的流程图。在90,源分离2(见图2和图3)接收输入音频信号(见图2中的立体声文件1)。在91,对输入音频信号执行源分离2,以获得分离源2a-2d(见图2)。在92,对每个分离源执行边中比计算,以获得边中比(参见图5a-图5b)。在93,对边中比执行分割9,以获得片段(参见图6a-图6b)。在94,基于片段对边中比执行平滑9,以获得平滑的边中比(参见图7a-图7b)。在95,基于平滑的边中比执行位置映射(参见图8a-图8c)。在位置映射期间,导出空间定位参数,这些参数取决于在源分离期间获得的时变参数。基于位置映射6(参见图3、图8a-图8c和图9),从多个最终单极7中为每个分离源2a-2d(参见图2)确定单极对。在96,基于位置映射6呈现音频信号。
实时处理
可以对音频源文件执行上述通过动态地确定要由例如3D音频呈现过程呈现的音频对象的参数来进行上混/再混的过程,作为后处理步骤,分别对通过源分离过程从音频源文件获得的分离源执行该过程。在这样的后处理场景中,整个音频文件可用于处理。因此,如图5a至图5c所述,可以为分离源的所有节拍/窗口/帧确定边中比,并且如图6a至图6d所述的分割过程可以应用于整个音频文件。
然而,上述过程也可以实现为实时系统。例如,可以对接收到的音频流实时执行立体声文件的上混/再混。在实时处理音频信号的情况下,仅在接收到完整的音频文件(音乐片段等)之后确定音频流的片段是不合适的。然而,在流式传输过程中,应该“即时”检测音频特征或片段边界的变化,从而在音频文件的流式传输过程中,在检测到改变之后,可以立即改变音频对象呈现参数。
例如,可以通过连续确定参数(例如,边中比),并通过连续确定该参数的标准偏差σ,来执行平滑。参数的当前变化可以与标准偏差σ相关。如果参数的当前变化相对于标准偏差较大,则系统可以确定音频特性有显著变化。例如,当信号中的后续参数之间的差值(例如,每拍边中比)高于阈值时,例如,当该差值等于2σ等时,可以检测到音频信号中的显著变化(跳跃),而不在这方面限制本公开。
可以像上述实施例中描述的分段边界一样处理这种即时检测到的音频特征的显著变化。也就是说,音频特征的显著变化可能触发3D音频呈现过程的参数的重新配置,例如,单极合成中使用的单极位置的重新定位。
实施方式
图13示意性地描述了电子设备的实施例,该电子设备可以实现如上所述的分离源的自动时间相关的空间上混的过程,即分离。电子设备700包括作为处理器的CPU 701。电子设备700还包括连接到处理器701的麦克风阵列711和扬声器阵列710。处理器701可以例如实现源分离2、边中比计算5和位置映射6,这些实现了在图2、图3、图8a-图8c和图9中更详细描述的过程。扬声器阵列710由分布在预定义空间上的一个或多个扬声器组成,并且被配置为呈现3D音频。电子设备700还包括连接到处理器701的音频接口706。音频接口706充当输入接口,用户能够经由该输入接口输入音频信号,例如,音频接口可以是USB音频接口等。此外,电子设备700还包括连接到处理器701的用户接口709。该用户接口709充当人机接口,并实现管理员和电子系统之间的对话。例如,管理员可以使用该用户接口709对系统进行配置。电子设备701还包括以太网接口707、蓝牙接口704和WLAN接口705。这些单元704、705充当数据的I/O接口,用于与外部设备进行数据通信。例如,具有以太网、WLAN或蓝牙连接的额外扬声器、麦克风和摄像机可以经由这些接口707、704和705耦合到处理器701。
电子系统700还包括数据存储装置702和数据存储器703(此处是RAM)。数据存储器703被设置为临时存储或缓存数据或计算机指令,以供处理器701处理。数据存储装置702被设置为长期存储器,例如,用于记录从麦克风阵列710获得的传感器数据。数据存储装置702还可以存储表示音频消息的音频数据,公共广播系统可以将该音频数据传送给在预定义空间中移动的人。
应当注意,上面的描述仅仅是示例配置。可替换的配置可以用额外的或其他的传感器、存储设备、接口等来实现。
***
应当认识到,实施例描述了具有方法步骤的示例性排序的方法。然而,仅仅是出于说明的目的而给出方法步骤的特定顺序,不应该被解释为具有约束力。
还应注意,将图13的电子系统划分成单元仅出于说明目的,且本公开不限于特定单元中的任何特定功能划分。例如,至少部分电路可以由分别编程的处理器、现场可编程门阵列(FPGA)、专用电路等来实现。
如果没有另外说明,在本说明书中描述的和在所附权利要求中要求保护的所有单元和实体可以被实现为例如芯片上的集成电路逻辑,并且如果没有另外说明,由这样的单元和实体提供的功能可以由软件实现。
就至少部分使用软件控制的数据处理设备来实现上述公开的实施例而言,将会理解,提供这种软件控制的计算机程序以及提供这种计算机程序的传输、存储或其他介质被设想为本公开的方面。
注意,本技术也可以如下所述进行配置。
(1)一种包括电路的电子设备,所述电路被配置为分析立体声或多声道源分离的结果,以确定一个或多个时变参数,并基于所述一个或多个时变参数创建空间动态音频对象。
(2)根据(1)所述的电子设备,其中,所述电路被配置为将描述分离的声道之间的相对信号电平响度的参数、和/或频谱平衡参数、和/或主环境指示符、和/或干湿指示符、和/或描述冲击-谐波内容的参数确定为时变参数。
(3)根据(1)或(2)所述的电子设备,其中,所述电路被配置为将描述立体声内容中的乐器平衡的参数确定为时变参数,并且基于所述立体声内容中的所述乐器平衡来创建所述空间动态音频对象。
(4)根据(1)至(3)中任一项所述的电子设备,其中,所述电路被配置为将分离源的边中比确定为时变参数,并且基于所述边中比创建所述空间动态音频对象。
(5)根据(1)至(4)中任一项所述的电子设备,其中,所述电路被配置为基于从所述立体声或多声道源分离的结果获得的所述一个或多个时变参数来确定所述音频对象的空间定位参数。
(6)根据(1)至(5)中任一项所述的电子设备,其中,所述电路被配置为动态地适配所述音频对象的定位参数。
(7)根据(1)至(6)中任一项所述的电子设备,其中,所述电路被配置为通过单极合成来创建所述空间动态音频对象。
(8)根据(1)至(7)中任一项所述的电子设备,其中,所述电路被配置为动态地适配单极合成中的扩展。
(9)根据(1)至(8)中任一项所述的电子设备,其中,所述空间动态音频对象是单极。
(10)根据(1)至(9)中任一项所述的电子设备,其中,所述电路被配置为基于所述一个或多个时变参数,动态地创建用于呈现分离源的左声道的第一单极以及用于呈现所述分离源的右声道的第二单极。
(11)根据(1)至(10)中任一项所述的电子设备,其中,所述电路被配置为根据所述多声道源分离的结果来创建时间相关的空间上混,所述空间上混保持所述内容的原始平衡。
(12)根据(1)至(11)中任一项所述的电子设备,其中,所述电路还被配置为基于所述时变参数执行分割过程,以获得分离源的片段。
(13)根据(1)至(12)中任一项所述的电子设备,其中,所述电路被配置为基于所述时变参数执行聚类检测。
(14)根据(1)至(13)中任一项所述的电子设备,其中,所述电路被配置为基于多声道内容的相似性分析的结果来执行自动时间相关的空间上混。
(15)根据(1)至(14)中任一项所述的电子设备,其中,所述电路被配置为对所述分离源的所述片段执行平滑处理。
(16)根据(1)至(15)中任一项所述的电子设备,其中,所述电路被配置为执行节拍检测过程,以分析所述多声道源分离的所述结果。
(17)根据(1)至(16)中任一项所述的电子设备,其中,针对分离源或原始内容的每个节拍、每个窗口或每个帧来确定所述时变参数。
(18)一种方法,包括分析立体声或多声道源分离的结果,以确定一个或多个时变参数,并基于所述一个或多个时变参数创建空间动态音频对象。
(19)一种包括指令的计算机程序,当由计算机执行所述程序时,所述指令使得计算机执行根据(18)的方法。

Claims (19)

1.一种包括电路的电子设备,所述电路被配置为分析立体声或多声道源分离的结果,以确定一个或多个时变参数,并基于所述一个或多个时变参数创建空间动态音频对象。
2.根据权利要求1所述的电子设备,其中,所述电路被配置为将描述分离的声道之间的相对信号电平响度的参数、和/或频谱平衡参数、和/或主环境指示符、和/或干湿指示符、和/或描述冲击-谐波内容的参数确定为所述时变参数。
3.根据权利要求1所述的电子设备,其中,所述电路被配置为将描述立体声内容中的乐器平衡的参数确定为所述时变参数,并且基于所述立体声内容中的所述乐器平衡来创建所述空间动态音频对象。
4.根据权利要求1所述的电子设备,其中,所述电路被配置为将分离源的边中比确定为所述时变参数,并且基于所述边中比创建所述空间动态音频对象。
5.根据权利要求1所述的电子设备,其中,所述电路被配置为基于从所述立体声或多声道源分离的结果获得的所述一个或多个时变参数来确定所述音频对象的空间定位参数。
6.根据权利要求1所述的电子设备,其中,所述电路被配置为动态地适配所述音频对象的定位参数。
7.根据权利要求1所述的电子设备,其中,所述电路被配置为通过单极合成来创建所述空间动态音频对象。
8.根据权利要求1所述的电子设备,其中,所述电路被配置为动态地适配单极合成中的扩展。
9.根据权利要求1所述的电子设备,其中,所述空间动态音频对象是单极。
10.根据权利要求1所述的电子设备,其中,所述电路被配置为基于所述一个或多个时变参数,动态地创建用于呈现分离源的左声道的第一单极以及用于呈现所述分离源的右声道的第二单极。
11.根据权利要求1所述的电子设备,其中,所述电路被配置为根据所述多声道源分离的结果来创建时间相关的空间上混,所述时间相关的空间上混保持内容的原始平衡。
12.根据权利要求1所述的电子设备,其中,所述电路还被配置为基于所述时变参数执行分割过程,以获得分离源的片段。
13.根据权利要求1所述的电子设备,其中,所述电路被配置为基于所述时变参数执行聚类检测。
14.根据权利要求1所述的电子设备,其中,所述电路被配置为基于多声道内容的相似性分析的结果来执行自动时间相关的空间上混。
15.根据权利要求1所述的电子设备,其中,所述电路被配置为对分离源的片段执行平滑处理。
16.根据权利要求1所述的电子设备,其中,所述电路被配置为执行节拍检测处理,以分析所述多声道源分离的结果。
17.根据权利要求1所述的电子设备,其中,针对分离源或原始内容的每个节拍、每个窗口或每个帧来确定所述时变参数。
18.一种方法,包括分析立体声或多声道源分离的结果以确定一个或多个时变参数,并基于所述一个或多个时变参数创建空间动态音频对象。
19.一种包括指令的计算机程序,当由计算机执行所述程序时,所述指令使得计算机执行根据权利要求18所述的方法。
CN202080076969.0A 2019-11-05 2020-11-03 电子设备、方法和计算机程序 Pending CN114631142A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19207275 2019-11-05
EP19207275.9 2019-11-05
PCT/EP2020/080819 WO2021089544A1 (en) 2019-11-05 2020-11-03 Electronic device, method and computer program

Publications (1)

Publication Number Publication Date
CN114631142A true CN114631142A (zh) 2022-06-14

Family

ID=68470274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080076969.0A Pending CN114631142A (zh) 2019-11-05 2020-11-03 电子设备、方法和计算机程序

Country Status (4)

Country Link
US (1) US20220392461A1 (zh)
JP (1) JP2023500265A (zh)
CN (1) CN114631142A (zh)
WO (1) WO2021089544A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023162508A1 (ja) * 2022-02-25 2023-08-31 ソニーグループ株式会社 信号処理装置および信号処理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2686294A (en) 1946-04-03 1954-08-10 Us Navy Beat detector circuit
US6518492B2 (en) 2001-04-13 2003-02-11 Magix Entertainment Products, Gmbh System and method of BPM determination
US9119011B2 (en) * 2011-07-01 2015-08-25 Dolby Laboratories Licensing Corporation Upmixing object based audio
US8952233B1 (en) 2012-08-16 2015-02-10 Simon B. Johnson System for calculating the tempo of music
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
US9749769B2 (en) 2014-07-30 2017-08-29 Sony Corporation Method, device and system

Also Published As

Publication number Publication date
US20220392461A1 (en) 2022-12-08
WO2021089544A1 (en) 2021-05-14
JP2023500265A (ja) 2023-01-05

Similar Documents

Publication Publication Date Title
JP5957446B2 (ja) 音響処理システム及び方法
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
KR101984356B1 (ko) 오디오 장면 장치
EP3923269A1 (en) Server-based processing and distribution of multimedia content of a live musical performance
JP5654692B2 (ja) ダウンミキサーを用いて入力信号を分解する装置および方法
JP5284360B2 (ja) 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム
CN112205006B (zh) 音频内容的自适应再混合
KR101521368B1 (ko) 다중 채널 오디오 신호를 분해하는 방법, 장치 및 머신 판독가능 저장 매체
US11915725B2 (en) Post-processing of audio recordings
GB2543275A (en) Distributed audio capture and mixing
Gonzalez et al. Automatic mixing: live downmixing stereo panner
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
US20220386062A1 (en) Stereophonic audio rearrangement based on decomposed tracks
CN114631142A (zh) 电子设备、方法和计算机程序
WO2018193162A2 (en) Audio signal generation for spatial audio mixing
Terrell et al. An offline, automatic mixing method for live music, incorporating multiple sources, loudspeakers, and room effects
US11935552B2 (en) Electronic device, method and computer program
EP3613043A1 (en) Ambience generation for spatial audio mixing featuring use of original and extended signal
Barry Real-time sound source separation for music applications
Evangelista et al. Sound source separation
WO2021124919A1 (ja) 情報処理装置および方法、並びにプログラム
WO2022200136A1 (en) Electronic device, method and computer program
WO2023161290A1 (en) Upmixing systems and methods for extending stereo signals to multi-channel formats
WO2023174951A1 (en) Apparatus and method for an automated control of a reverberation level using a perceptional model
WO2017188141A1 (ja) オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination