CN102907120B - 用于声音处理的系统和方法 - Google Patents

用于声音处理的系统和方法 Download PDF

Info

Publication number
CN102907120B
CN102907120B CN201180027194.9A CN201180027194A CN102907120B CN 102907120 B CN102907120 B CN 102907120B CN 201180027194 A CN201180027194 A CN 201180027194A CN 102907120 B CN102907120 B CN 102907120B
Authority
CN
China
Prior art keywords
signal
stereo
signal segment
section
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201180027194.9A
Other languages
English (en)
Other versions
CN102907120A (zh
Inventor
A.S.赫尔梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN102907120A publication Critical patent/CN102907120A/zh
Application granted granted Critical
Publication of CN102907120B publication Critical patent/CN102907120B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

一种声音处理系统接收立体声信号,该立体声信号被分段器(109)分割成立体声时间-频率信号段,其中每个段可以对应于给定时间段中的频域样本。分解器(111)通过针对每对立体声时间-频率信号段执行以下步骤来分解时间频率信号段:确定指示立体声时间频率信号段的相似程度的相似性度量;生成总的时间-频率信号段作为各立体声时间-频率信号段的总和;以及响应于相似性度量,根据所述总的时间频率信号段生成中心时间-频率信号段并且根据所述立体声时间频率信号段对生成一对侧立体声时间-频率段。然后,信号发生器(113)生成多信道信号,其包括根据所述总时间-频率信号段生成的中心信号和根据所述侧立体声时间-频率段生成的侧信号。

Description

用于声音处理的系统和方法
技术领域
本发明涉及用于声音处理的系统和方法,且具体地但非排他地涉及立体声信号到三通道信号的上混。
背景技术
通常,大量的音频内容被提供为立体声内容。这样的立体声内容可以包括具有非常不同的空间特性的多种信号源。例如,对于立体声音乐内容,声乐和背景乐器的期望的空间重现可能是非常不同的。典型地,歌手应当被空间良好定位地感知,而背景乐器优选地可能更广泛地被感知到以提供宽广的声像。
近年来,具有多于两个通道的多通道声音重现已经变得越来越流行和普遍。相应地,可能越来越多地使用多通道重现系统、比如使用环绕声音系统来重现立体声内容。
相应地,已经提出了用于将立体声信号上混成具有多于两个通道的多通道信号的方法和过程。在美国专利公布US20090198356A1中公开了这种系统的一个示例。诸如在US20090198356A1中公开的系统之类的系统设法通过从所接收的信号提取主体(principal)信号分量而将信号分割成主要(primary)信号和环境信号。因此,这样的系统适合用于识别声像中某处的主导(dominant)信号并且随后提取这些信号。该手段倾向于并非在所有场景中都提供最佳倾听体验。例如,它可以为一些内容提取主导信号,然而这些主导信号不能理想地被感知为空间定义良好的声音对象,而相反地它是提供对宽广的立体声像的感知的部分。而且,该手段可以导致最适合被感知为空间定义良好的信号分量可能不是这样。例如,对于包括不是主导声音源的语音源的立体声信号,语音信号可以被再现为更扩散的声音,而主导信号源(例如是环境声音环境的一部分)可以被空间更良好定义地再现。
而且,这样的手段可能经常导致一些空间失真,这些空间失真是由导致声音源被空间移位或散布的处理引入的。事实上,再现系统可以适于再现在声像中识别的位置处的主导或主体信号分量。然而,再现系统对于再现这样的位置而言可能不是理想的,并且可能因此导致次优性能。
因此,基于这样的主导或主体信号分析的上混常常可能导致引入空间失真或退化。这可以例如导致由多通道再现系统表示的空间声像,其不同于由原始立体声信号的创建者最初预期的空间声像。
因而,改进的系统处理系统将是有利的,并且具体而言,允许增加的灵活性、减少的复杂性、改进的空间感知、改进的空间上混和/或改进的性能的系统将是有利的。特别地,允许立体声信号的上混与立体声信号的空间特性的改进维护的处理系统将是有利的。
发明内容
相应地,本发明优选地设法单独或以任何组合方式减轻、缓和或消除上面所提及的缺点中的一个或多个。
根据本发明的一个方面,提供声音处理系统,包括:接收器,用于接收立体声信号;分段器,用于将立体声信号分割成立体声时间-频率信号段;分解器,其被布置成通过针对每对立体声时间-频率信号段进行下述操作来分解立体声时间-频率信号段:确定指示所述对立体声时间频率信号段的相似程度的相似性度量;生成总的时间-频率信号段作为这对立体声时间-频率信号段的总和;响应于相似性度量,根据所述总的时间-频率信号段生成中心时间-频率信号段;响应于相似性度量,根据所述对立体声时间-频率信号段生成一对侧(side)立体声时间-频率段;以及信号发生器,其用于生成多通道信号,该多通道信号包括根据所述中心时间-频率信号段生成的中心信号和根据所述侧立体声时间-频率段生成的侧信号。
本发明可以允许立体声信号的改进的上混且可以具体地允许经上混的信号的改进的空间特性。在许多场景中,本发明可以允许生成具有更紧密地对应于立体声信号的空间特性的空间特性的经上混的信号。具体地,声音源的位置可以更靠近立体声信号的位置,并且可能是立体声信号的创建者所预期的。
本发明可以允许高效的实现方式,并且可以自动适应于信号的特性。具体地,本发明可以允许立体声信号灵活分解成包括中心信号的三个通道。
该手段特别地可以提取置于中心的声音源,而不是提取可能位于声像中不同方位的主导声音源。通过使上混基于固定的空间考虑而不是基于对主导或主体信号分量的估计,实现了改进的空间一致性。具体地,本发明可以确保经上混的中心通道仅包括在原始立体声像中也置于中心的信号分量。
每个时间-频率信号段可以包括一个(典型地复杂的)样本。每个时间-频率信号段可以对应于时间段中的频域样本。立体声通道可以是多通道信号的一部分,比如环绕声信号的左和右前通道。声音处理装置可以被布置成生成包括比中心信号和侧信号更多的信号的上混。例如,声音处理装置可以被布置成将立体声信号上混成包括除中心和侧通道之外的例如若干个后或侧环绕通道的环绕声信号。附加的通道可以响应于相似性度量而生成,或者可以是与其无关的。
根据本发明的可选特征,分解器被布置成通过缩放所述总的时间-频率信号段来生成中心时间-频率信号段,该缩放取决于相似性度量。
这可以在许多场景中提供改进的上混。具体地,它可以允许改进的分解。该手段可以提供低复杂度却高质量的分解和上混。
根据本发明的可选特征,分解器被布置成通过缩放立体声时间-频率信号段对来生成侧立体声时间-频率段对,该缩放取决于相似性度量。
这可以在许多场景中提供改进的上混。具体地,它可以允许改进的分解。
根据本发明的可选特征,分解器被布置成响应于所述对立体声时间-频率信号段的相关值来确定相似性度量。
这可以提供特别适合的相似性度量并且可以导致经上混的信号的改进的性能和音频质量。该相关值可以是平均的相关值,其中该平均是在时间和/或频率上进行的。
相关值可以是取决于这对立体声时间-频率信号段之间的振幅差和相位差二者的值。
特别地,相关值可以被确定为复相关值的实部或虚部,该负相关值例如可以被确定为这对立体声时间-频率信号段中的一个段与这对立体声时间-频率信号段中的另一个段的复共轭的乘法。
这种手段在许多场景中可以提供导致改进的上混和音频质量的改进的相似性度量。
根据本发明的可选特征,分解器被布置成响应于这对立体声时间-频率信号段的相关值相对于这对立体声时间-频率信号段中至少一个的功率度量来确定相似性度量。
这可以在许多场景中提供改进的上混。具体地,它可以允许改进的分解和/或视频质量。该手段可以例如提供绝对水平的增加的独立性。
在一些实施例中,可以通过响应于这对立体声时间-频率信号段的相关值相对于这对立体声时间-频率信号段中二者的功率度量确定相似性度量来实现特别有利的性能。功率度量可以是平均的功率度量,例如在时域或频域(或二者)中的平均的功率度量。
根据本发明的可选特征,分解器被布置成响应于所述对立体声时间-频率信号段中的一个的功率度量相对于这对立体声时间-频率信号段中的另一个的功率度量来确定相似性度量。
这可以在许多场景中提供改进的上混。具体地,它可以允许改进的分解和/或音频质量。
根据本发明的可选特征,分解器被布置成响应于这对立体声时间-频率信号段之间的水平差确定相似性度量。
这可以在许多场景中提供改进的上混。具体地,它可以允许改进的分解和/或音频质量。
根据本发明的可选特征,分解器被布置成生成中心时间-频率信号段和侧立体声时间-频率段对,作为包括立体声时间-频率段对的向量的矩阵乘法的结果向量,并且其中该矩阵乘法的至少一些系数取决于相似性度量。
这可以在保持低复杂度的同时提供高性能。
根据本发明的可选特征,声音处理系统进一步包括用于重现多通道信号的再现器(renderer),其中中心信号的再现不同于侧信号的再现。
本发明可以允许改进的再现,其适于声像的不同部分的特定特性。
再现器被布置成将立体声加宽应用到多通道信号,其中应用于中心信号的立体声加宽的程度小于应用于侧信号的立体声加宽的程度。
这可以提供改进的再现并且可以在许多实施例中提供改进的空间体验。
根据本发明的可选特征,接收器被布置成仅针对立体声信号的频率间隔生成中心时间-频率信号段,该频率间隔仅是立体声信号的带宽的一部分。
这可以在维持高音频质量的同时减少复杂度。频率间隔可以例如对应于典型的音频或语音频带。例如,在许多实施例中,该间隔的较低的3dB频率可以处在[100Hz;400Hz]的间隔中,并且该间隔的较高3dB频率可以处在[2kHz;6kHz]的间隔中。
根据本发明的可选特征,声音处理系统进一步包括语音检测器,其被布置成生成针对中心信号的语音存在估计;并且其中分解器被进一步布置成响应于语音存在估计生成中心信号。
这可以在许多实施例中允许改进的性能和改进的音频体验。
根据本发明的一个方面,提供一种声音处理系统的方法,包括:接收立体声信号;将立体声信号分割成立体声时间-频率信号段;通过针对每对立体声时间-频率信号段进行下述操作来分解立体声时间-频率信号段:确定指示这对立体声时间频率信号段的相似程度的相似性度量;生成总的时间-频率信号段作为这对立体声时间-频率信号段的总和;响应于相似性度量,根据所述总的时间-频率信号段生成中心时间-频率信号段;响应于相似性度量,根据所述对立体声时间-频率信号段生成一对侧立体声时间-频率段;以及生成多通道信号,该多通道信号包括根据所述中心时间-频率信号段生成的中心信号和根据所述侧立体声时间-频率段生成的侧信号。
本发明的这些和其他方面、特征和优点将根据下面描述的(多个)实施例而清楚明白并且参照这些实施例而被阐明。
附图说明
本发明的实施例将仅通过实例方式、参照附图来描述,在附图中
图1图示了根据本发明的一些实施例的声音重现系统的示例;
图2图示了音乐文件的样本的声音源方位的直方图的示例;
图3图示了用于根据本发明的一些实施例的声音重现系统的信号分解器的示例;以及
图4图示了根据本发明的一些实施例的声音重现系统的示例。
具体实施方式
图1图示了根据本发明的一些实施例的声音重现系统的示例。该声音重现系统接收立体声信号并且将该信号上混成三通道信号,该三通道信号然后从三个不同扬声器101、103、105再现。
该上混手段在许多场景中可以允许改进的质量,因为它可以允许信号分量的再现适应于这些场景的特定特性。例如,中心扬声器可以从置于中心的扬声器103提取并再现,而环境信号分量从置于倾听方位前面的扬声器101、105再现。
在图1的示例中,上混通过将立体声信号分解成中心信号和立体声信号来执行。分解基于时间-频率信号段,并且对于每个立体声对段,相似性度量被用于估计对应的信号分量如何集中放置在立体声像中。时间-频率信号段对应于给定时间间隔和频率间隔中信号的表示。典型地,时间-频率信号段将对应于针对给定的时间段生成的(复杂的)频率样本。因此,每个时间-频率信号段可以是通过将FFT应用于对应的段而生成的FFT二进制(bin)值。在下文中,术语时间-频率片(tile)将用于意指时间-间隔和频率间隔组合,即意指在时间-频率域中的方位。因此,术语片意指所述方位,而术语信号段意指(多个)信号值。
所生成的立体信号段对然后根据相似性度量而被分配到中心通道和侧通道。该手段没有估计主导信号分量的方位或执行分离成主要和残余(或环境)信号,而是取决于针对该段的特定时间-频率片定位在中心的声音源的支配性来提取在中心定位的声音源。
因此,图1的系统使用信号处理方法,其中立体声内容被分解成三个新信号,其中一个信号主要包含主导中心源,比如典型地在音乐中的歌唱者,并且另外两个信号对应于(可能增强的)立体声信号,该立体声信号不包含主导中心源,或者其中该源的水平显著衰减。然后可以使用可以提供清楚定位的中心像的适当方法来重现/再现中心源信号,而更扩散和较不在中心的再现用于其他信号。具体地,空间加宽算法可以被应用于所得到的立体声信号。
该系统设法将从作为整体的信号中分离放置在中心或非常接近中心放置的声音源。而且,该分离是动态的自适应分离,其自动被调节以反映该信号的特性并且具体地反映这种主导信号是否确实存在于中心空间方位处。
使用中心提取而非分离成主要/主导和残留信号的优点之一是它允许系统维持原始立体声信号的空间组织和布置。
而且,对于许多实践应用,主导源被置于中心是合理的假设。事实上,对于绝大多数音乐录音,存在被精确地平移到中心方位的主导源。例如,图2图示了在来自不同的音乐流派的大约1400首歌曲中用于中心声乐谱区域的平移方向的直方图的示例。如图所示,主导内容典型地被平移到空间像的中心。
图1的声音重现系统包括接收立体声信号的接收器107。该立体声信号可以从任何适当的内部或外部源接收,并且可以是多通道信号的一部分,比如环绕声信号。例如,立体声信号可以是环绕声信号的前侧通道。
接收器107耦合到分段器109,其继续将立体声信号分割成时间-频率信号段。具体地,两个立体声信号中的每一个被分割成对应于特定时间间隔中特定频率间隔的信号样本。
更详细地,到来的立体声信号被分割成时间段并且每个时间段中的信号被变换到频域中以生成时间-频率段。
特别地,两个立体声信号通过在重叠的短时间段中应用窗口函数(例如使用Hanning窗口函数)而被分段成时间段。在每个时间段中,快速傅立叶变换(FFT)然后被应用以生成该段的频域表示。因此,获得了时间-频率信号段,并且特别地,每个时间-频率信号段包括一个样本(对于每个通道,即立体声时间-频率信号段将包括用于每个通道的一个样本)。所生成的时间-频率信号段可以由对应于窗口化段n和频率变量ω的两个输入信号的谱向量X0(n,ω)和X1(n,ω)来表示。为了便于记录,我们移动到矩阵表示,其中
[X(n,ω)]=[X0(n,ω),X1(n,ω)]。
因此,分段器109将输入立体声信号分割成时间-频率信号段。这些立体声时间-频率信号段然后被馈送到与分段器109耦合的分解器111。
分解器111被布置成将输入立体声时间-频率信号段分解成中心时间-频率信号段和两个侧立体声时间-频率段。特别地,对于每对立体声样本(对应于立体声时间-频率段),分解器111生成对应于中心定位的声音源的一个样本以及对应于在针对中心源的提取的补偿之后所得的立体声信号的一对样本。
中心时间-频率信号段特别地根据用于立体声信号的两个通道的时间-频率信号段的总和而生成,并且因此表示在对应于空间中心方位的两个通道中共同的信号分量。分解器111因此不将立体声信号分解成主要或主导信号和环境信号,而是相反地将立体声信号分解成中心信号分量和侧分量。
分解器111耦合到接收总的时间-频率信号段并且将这些组合成中心信号的信号发生器113。此外,信号发生器113接收侧立体声时间-频率段并将这些组合成两个侧信号。中心信号和两个侧信号然后可以被分别馈送到中心扬声器103和两个侧扬声器101、105。信号发生器113可以特别地核对(collate)每个时间段中的适当的时间-频率段并且执行如技术人员将会知道的逆FFT。
因此,该手段将输入立体声信号分解成对应于在输入信号的声像中的中心方位的信号和对应于侧方位的两个侧信号。该分解在时间-频率片中执行,其中输入立体声信号分配到不同的通道对于每个时间-频率片而言取决于该时间-频率片中输入立体声通道的相似性度量。
图3更详细地图示了图1的分解器111。立体声时间-频率信号段对X0(n,ω)和X1(n,ω)被馈送到相似性处理器301,其被布置成为每对时间-频率信号段生成相似性度量。相似性度量指示时间-频率信号段对的时间-频率片之间的相似程度,即信号在该时间和频率间隔中多么靠近的程度。相似性度量可以是平均的相似性度量,例如通过度量本身在时间和/或频率上被取平均或通过在计算该度量的过程中使用的一个或多个值在时间和/或频率上被取平均。因此,用于一个时间-频率片的相似性可以根据在时域和/或频域中的多个时间-频率片上取平均来确定。
而且,立体声时间-频率信号段对X0(n,ω)和X1(n,ω)被馈送到和处理器303,其被布置成生成总的时间-频率信号段作为立体声时间-频率信号段的总和。因此,对于每个时间-频率片,通过将该时间-频率片的立体声时间-频率信号段对的两个段相加而生成总的时间-频率信号段。因为总和段被生成为固定的非加权求和,它表示空间段中的中心方位并且因此总和信号可以被视为时间-频率片对处于像中心的声音源的贡献。
而且,立体声时间-频率信号段对X1(n,ω)和X0(n,ω)被馈送到上混处理器305,其另外耦合到和处理器303和相似性处理器301。上混处理器305被布置成根据两个输入时间-频率信号段X0(n,ω)和X1(n,ω)和总的时间-频率信号段生成三个输出时间-频率段。特别地,响应于相似性度量,根据总的时间-频率信号段生成中心时间-频率信号段。具体地,相似性度量越高,总和信号被加权得越高,并且因此所得的中心时间-频率信号段的振幅越高。类似地,响应于相似性度量,根据所述立体声时间-频率信号段对生成一对侧立体声时间-频率段。具体地,相似性度量越低,立体声时间-频率段被加权得越高,并且因此所得的侧时间-频率信号段的振幅越高。因此,上混器205被布置成从立体声时间-频率信号段中的第一个通过取决于相似性度量加权该第一个立体声时间-频率信号段而生成第一侧时间-频率信号段,从立体声时间-频率信号段中的第二个通过取决于相似性度量加权该第二个立体声时间-频率信号段而生成第二侧时间-频率信号段,以及从总的时间-频率信号段通过取决于相似性度量加权该总的时间-频率信号段生成中心时间-频率信号段。
在该示例中,信号段的加权通过低复杂度缩放这些信号段的来执行,其中缩放值取决于相似性度量。在该示例中,分解器111特别地被布置成将中心时间-频率信号段和侧立体声时间-频率段对生成为包括立体声时间-频率段对的向量的矩阵乘法的结果向量,其中矩阵乘法的系数的取决于相似性度量。而且,总和信号的生成被实现为该矩阵运算的一部分(例如,可以看到图2的和处理器303和上混处理器305要被组合)。
因此,分解器111可以实现两个输入时间-频率信号段
[X(n,ω)]=[X0(n,ω),X1(n,ω)]
到输出向量Y(n,ω)的映射,该输出向量包括三个时间-频率信号段,即中心时间-频率信号段和两个侧时间-频率信号段,该映射根据以下矩阵运算实现:
Y(n,ω)=G(n,ω)X(n,ω)
其中上混矩阵G(n,ω)由下式给出:
其中g(n,ω)表示范围为[0,1]的相似性度量,其中1指示所述输入对立体声时间-频率信号段是相同的,而0指示所述输入对立体声时间-频率信号段是截然不同的、独立的或不相关的。
因此,当相似性度量的值接近1时,在频率指数ω处表示的信号(即立体声时间-频率信号段输入对)被路由到中心信号作为总和信号,并且如果它接近零,两个立体声信号被直接路由到两个侧输出信号。
因此,图1的系统从声像提取在中心空间位置处的信号分量,并且将该信号分量生成为可以随后被独立重现的单独通道。此外,随着该中心方位信号源移除(或至少衰减)生成侧通道。而且,该分解被调适,以使得在每个时间-频率片中它取决于中心空间方位相对于其他方位的支配性。结果,所提取的中心信号不仅仅是位于中心的声音信号,而且是位于中心方位处的特定的重要声音源。因此,该手段可以导致单个中心声音源被提取,同时允许位于中心的较低水平背景声音源保持在侧通道中。例如,系统可以允许中心语音被提取,同时允许例如高或低频率背景噪声保持在侧通道中以与非中心背景噪声一起被处理。
提取中心声音源而非仅仅主导或主体声音源的手段确保了所生成的中心信号的空间特性被精确地知道并且因此可以被精确地再现。特别地,中心信号可以例如由单独的扬声器来直接在该中心重现。因此,系统没有引入空间变化并且可以从(多于2个)多通道重现系统更精确地重现创建者预期的声像。
该手段为具有在中心定位的重要声音源的立体声内容提供了非常有利的结果。特别地,对于其中在感知上主导声音(例如,音乐中的领唱)被精确地平移到空间像的中心的立体声内容,已经发现特别有利的声音重现要被实现。然而,如图2所指示,这样的情形在实践中经常发生。
可以在不同的实施例中使用不同的相似性度量。例如,在一些实施例中相似性度量可以被生成作为来自立体声时间-频率信号段对中的一个的功率度量相对于该立体声时间-频率信号段对中的另一个的功率度量和/或该立体声时间-频率信号段对的水平差的贡献的指示或包括该贡献。
例如,可以使用能量比:
其中En表示输入立体声信号的通道n的能量或功率。
作为更实用的示例,相似性值可以根据下式生成:
典型地,考虑到多个时间-频率片而确定相似性值。因此,相似性值可以是平均值,通过对相似性值的直接取平均或通过对用于计算相似性值的一个或多个值取平均。该平均可以在时间值n、频率指数ω的序列或这二者上进行。
在下文中,将描述特别有利的相似性值,其基于立体声时间-频率信号段对的相关值。在特定示例中,生成度量,该度量涉及相对于立体声时间-频率信号段对中的至少一个段的功率度量的相关值。事实上,相似性度量被生成以包括来自相关值与立体声时间-频率信号段对中的一个段的功率度量之间的比率的贡献以及来自相关值与立体声时间-频率信号段对中的两个段的功率度量之间的比率的贡献。这两个贡献可以提供水平差与相似性值之间的不同关系,并且每个的相对加权可以取决于各实施例的特定特性。
更特别地,在频率指数ω处两个立体声信号之间的互相关由下式给出:
其中<>是期望,而星号*表示复共轭。
在特定实施例中,通过在时间窗口上利用滑动积分器对相关值取平均来生成期望值。具体地,一阶积分器可以被使用:
其中积分参数γ是典型地被选择为接近1(例如0.8)的值。
其次,在输入立体声信号的通道M的频率ω处信号的功率/能量的期望由下式给出
这也可以使用滑动积分器来计算,使得
可以通过确定缩放一个信号以便与另一个信号相同所需的值来生成相似性值。在此情况下,可以通过最小化下述成本函数来获得增益系数
Q的最小化产生:
水平差b在实践中以对数形式表达。因此,复值的相关项典型地可以由其绝对值或该项的实部的绝对值来取代。
这导致由下式给出的相似性值:
其中M表示输入立体声通道之一(即M=1或2)。在一些实施例中,该值可以针对两个通道(即针对M=1和M=2二者)来确定。
使用相关性的真实值而非相关性本身或相关性的绝对值确保了相关值也反映各时间-频率信号段之间的相位差。
在一些情况下,可以生成将使相关值与两个立体声信号的能量关联的相似性值。例如,相似性值可以被生成为:
该相似性度量可以根据这些相似性值中的一个或多个生成。
特别地,下述相似性值可以被计算:
其中参数μ和θ可以用于通过对所提供的希望的性能加权不同的相似性值贡献来控制分解的性能。典型地,用于典型的立体声音频材料的适当值可以约为μ=θ=0.4。注意到,二元高斯函数的使用在这里是产生具有两个度量的某个组合或某些组合的最大值(1)和用于值的所有其他组合的较小值(≥0)的函数的示例。应当领会,存在具有相同属性的许多可替代的函数,并且可以例如使用任何这样的函数。
所计算的相似性值S(n,w)在信号相似时接近1,而在它们不相似时接近零。因此,在一些实施例中,该值可以直接被用作相似性度量:
在一些实施例中,可能存在使用例如类似于上面针对EM(ω)使用的积分器的漏积分器而对参数值的附加的时间平滑。
因此,该手段从输入立体声信号生成三个上混的信号。这三个输出信号然后可以被再现,并且特别地,与侧信号相比,不同的再现可以被应用于中心信号。
例如,中心信号可以由例如在图1的示例中的不同的扬声器再现。可替代地或附加地,与对于侧信号相比,不同的信号处理可以应用于中心信号。具体地,立体声加宽可以应用于侧信号,而不是应用到中心信号。这可以导致声像利用增强的加宽的声像来再现,而同时维持对在中心的空间上良好定义的声音源的感知。
图4图示了声音处理或重现系统的示例,其中与针对侧信号中的任意一个相比,针对中心信号使用可用的扬声器的不同的子集。此外,系统将立体声加宽应用到经上混的侧信号,而不应用到中心信号。
图4图示了上混器401,其实现了参照图1描述的信号处理,并且因此生成中心信号C和两个侧信号L、R。侧信号L、R被馈送到立体声加宽器403,其执行立体声加宽。应当领会,可以应用任何适当的立体声加宽并且各种算法对技术人员而言将是已知的。立体声加宽的信号被馈送到重现混合器405,其还接收中心信号。重现混合器405耦合到一组扬声器407,在该示例中这组扬声器包括四个扬声器。重现混合器405针对每个信号使用不同的扬声器子集来重现输入信号。特别地,左侧信号和右侧信号分别仅由左和右扬声器重现,而中心通道由所有扬声器重现。
应当领会,在一些实施例中,中心信号还可以经历一些某种空间加宽(例如与侧信号之一一起)。然而,在这样的场景中,加宽的程度可能在涉及中心信号时比在仅涉及侧信号时更小。
在一些实施例中,所描述的上混可以仅应用到输入立体声信号的频率间隔。例如,中心信号的生成可能仅在频率间隔中执行,比如仅针对音频频带,比如从200Hz到5kHz。因此,在这样的实施例中,立体声中心时间-频率信号段可以仅通过在有限的频率间隔中描述的过程来生成,并且相应地,所得的中心信号可以被限于有限的频率间隔。然而,在许多实施例中,中心声音源可以被限制在频域中并且因此该手段可以仅引入有限的退化,同时实现所需的计算资源的显著减少。
例如,对于语音处理系统,语音处理的计算复杂度可以在它仅在人类语音的谱能量主要集中于其中的频带处应用的情况下得到显著降低。该区域近似地为从150Hz到5kHz。在一些实施例中,通过将输入信号分解成三个或更多子频带(subband)来执行频率特定处理,这些子频带然后被下采样到对应于该频带的带宽的额定速率。
这种子频带分解可以例如基于正交镜像滤波器结构,比如图5中所图示的滤波器。这组分析滤波器将信号分成三个子频带。对应地,在处理之后,合成滤波器组可以用于重构信号。
在一些语音处理实施例中,系统可以进一步包括语音检测器,其生成针对中心信号的语音存在估计。该语音存在估计可以指示所生成的中心信号对应于语音信号的可能性。应当领会,可以使用用于生成语音存在(或活动性)估计的任何适当算法而不脱离本发明,并且技术人员将认识到许多适当算法。
在这样的实施例中,系统然后可以被布置成响应于语音存在估计而生成中心信号。这可以例如通过使得取决于语音存在估计根据总的时间-频率信号段生成时间-频率信号段来完成。例如,如果语音存在估计指示当前提取的中心信号不包含(或不太可能包含)语音,则它可以减小值g(n,ω),使得信号中的更多保持在对应于原始立体声信号的侧信号中。
作为示例,在一些实施例中,语音检测算法可以用于分析分离的语音中心通道中的内容,并且增益可以被控制以使得中心通道仅在所提取的信号包含人类语音的情况下被分离。
应当领会,为了清楚起见,上面的说明书已经参照不同的功能电路、单元和处理器描述了本发明的实施例。然而,明显的将是,可以使用在不同功能电路、单元或处理器之间功能的任何适当分配,而不脱离本发明。例如,所图解说明的由单独的处理器或控制器执行的功能可以由相同的处理器或控制器执行。因此,对特定功能单元或电路的引用仅被视为对用于提供所描述的功能的适当装置的引用,而非指示严格的逻辑或物理结构或组织。
本发明可以以包括硬件、软件、固件或这些的任意组合的任何适当形式实现。本发明可以可选地至少部分地实现为运行在一个或多个数据处理器和/或数字信号处理器上的计算机软件。本发明的实施例的元件和组件可以以任何适当方式物理地、功能地和逻辑地实现。事实上,功能可以在单个单元中、在多个单元中或作为其他功能单元的一部分而实现。同样,本发明可以在单个单元中实现或可以物理地和功能地分布在不同单元、电路和处理器之间。
尽管已经结合一些实施例描述了本发明,但是本发明不旨在被限于这里所阐述的特定形式。相反,本发明的范围仅由所附权利要求限定。此外,尽管特征可以表现为结合具体实施例而被描述,但是本领域技术人员将会认识到所描述的实施例的各种特征可以根据本发明组合。在权利要求中,术语包括不排除其他元件或步骤的存在。
而且,尽管单独列出,但是多个装置、元件、电路或方法步骤可以例如由单个电路、单元或处理器实现。此外,尽管各个特征可以包括在不同的权利要求中,但是这些特征可以可能地被有利地组合,并且包括在不同的权利要求中并不暗示特征的组合是不可行的和/或不是有利的。同样,特征包括在一类权利要求中并不暗示对该类别的限制,而是指示在适当的情况下该特征同样适用于其他权利要求类。而且,权利要求中的特征的顺序并不暗示这些特征必须按其工作的任何特定顺序,并且具体地,方法权利要求中的各个步骤的顺序并不暗示这些步骤必须以此顺序来执行。相反,这些步骤可以以任何适当顺序执行。此外,单数引用不排除多个。因此对“一”、“一个”、“第一”、“第二”等的引用不排除多个。在权利要求中的附图标记仅被提供为澄清示例,而不会被解释为以任何方式限制权利要求的范围。

Claims (14)

1.一种声音处理系统,包括:
接收器(107),其用于接收双通道立体声信号;
分段器(109),其用于将双通道立体声信号分割成立体声时间-频率信号段对;
分解器(111),其被布置成针对每对立体声时间-频率信号段通过下述操作来分解立体声时间-频率信号段:
-确定指示所述立体声时间-频率信号段对的相似程度的相似性度量,
-生成总的时间-频率信号段作为所述立体声时间-频率信号段对的总和,
-响应于所述相似性度量,根据所述总的时间-频率信号段生成中心时间-频率信号段,以及
-响应于所述相似性度量,根据所述立体声时间-频率信号段对生成一对侧立体声时间-频率段;以及
信号发生器(113),其用于生成多通道信号,该多通道信号包括根据所述中心时间-频率信号段生成的中心信号和根据所述侧立体声时间-频率段生成的侧信号;
立体声加宽器,其用于将立体声加宽应用到多通道信号,其中应用到所述中心信号的立体声加宽的程度小于应用到所述侧信号的立体声加宽的程度。
2.权利要求1的声音处理系统,其中所述分解器(111)被布置成通过缩放所述总的时间-频率信号段来生成中心时间-频率信号段,该缩放取决于所述相似性度量。
3.权利要求1的声音处理系统,其中所述分解器(111)被布置成通过缩放所述立体声时间-频率信号段对来生成所述侧立体声时间-频率段对,该缩放取决于所述相似性度量。
4.权利要求1的声音处理系统,其中所述分解器(111)被布置成响应于所述立体声时间-频率信号段对的相关值来确定所述相似性度量。
5.权利要求4的声音处理系统,其中所述相关值是取决于所述立体声时间-频率信号段对的振幅差和相位差二者的值。
6.权利要求4的声音处理系统,其中所述分解器(111)被布置成响应于所述立体声时间-频率信号段对的相关值相对于这对立体声时间-频率信号段中至少一个的功率度量来确定所述相似性度量。
7.权利要求4的声音处理系统,其中所述分解器(111)被布置成响应于所述立体声时间-频率信号段对中的一个的功率度量相对于这对立体声时间-频率信号段中的另一个的功率度量来确定所述相似性度量。
8.权利要求4的声音处理系统,其中所述分解器(111)被布置成响应于所述立体声时间-频率信号段对之间的水平差确定所述相似性度量。
9.权利要求1的声音处理系统,其中所述分解器(111)被布置成生成所述中心时间-频率信号段和所述侧立体声时间-频率段对,作为包括所述立体声时间-频率段对的向量的矩阵乘法的结果向量,并且其中该矩阵乘法的至少一些系数取决于所述相似性度量。
10.权利要求1的声音处理系统,进一步包括再现器(403,405,407),其用于重现多通道信号,其中所述中心信号的再现不同于所述侧信号的再现。
11.权利要求10的声音处理系统,其中所述再现器(403,405,407)被布置成使用一组扬声器(407)再现所述多通道信号;并且这组扬声器(407)中的用于再现中心信号的子集不同于这组扬声器(407)中的用于再现侧信号的子集。
12.权利要求1的声音处理系统,其中所述接收器(107)被布置成仅针对双通道立体声信号的频率间隔生成中心时间-频率信号段,该频率间隔仅是双通道立体声信号的带宽的一部分。
13.权利要求1的声音处理系统,进一步包括语音检测器,其被布置成生成针对中心信号的语音存在估计;并且其中所述分解器(111)被进一步布置成响应于所述语音存在估计生成中心信号。
14.一种声音处理系统的方法,包括:
接收双通道立体声信号;
将双通道立体声信号分割成立体声时间-频率信号段对;
针对每对立体声时间-频率信号段,通过下述操作来分解所述立体声时间-频率信号段:
-确定指示所述立体声时间-频率信号段对的相似程度的相似性度量,
-生成总的时间-频率信号段作为所述立体声时间-频率信号段对的总和,
-响应于相似性度量,根据所述总的时间-频率信号段生成中心时间-频率信号段,以及
-响应于相似性度量,根据所述立体声时间-频率信号段对生成一对侧立体声时间-频率段;以及
-生成多通道信号,该多通道信号包括根据所述中心时间-频率信号段生成的中心信号和根据所述侧立体声时间-频率段生成的侧信号;
-将立体声加宽应用到多通道信号,其中应用到所述中心信号的立体声加宽的程度小于应用到所述侧信号的立体声加宽的程度。
CN201180027194.9A 2010-06-02 2011-05-30 用于声音处理的系统和方法 Expired - Fee Related CN102907120B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP10164679 2010-06-02
EP10164679.2 2010-06-02
PCT/IB2011/052356 WO2011151771A1 (en) 2010-06-02 2011-05-30 System and method for sound processing

Publications (2)

Publication Number Publication Date
CN102907120A CN102907120A (zh) 2013-01-30
CN102907120B true CN102907120B (zh) 2016-05-25

Family

ID=44477668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180027194.9A Expired - Fee Related CN102907120B (zh) 2010-06-02 2011-05-30 用于声音处理的系统和方法

Country Status (6)

Country Link
US (1) US20130070927A1 (zh)
EP (1) EP2578000A1 (zh)
JP (1) JP5957446B2 (zh)
CN (1) CN102907120B (zh)
RU (1) RU2551792C2 (zh)
WO (1) WO2011151771A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2464145A1 (en) 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a downmixer
US20140226842A1 (en) * 2011-05-23 2014-08-14 Nokia Corporation Spatial audio processing apparatus
JP6078556B2 (ja) * 2012-01-23 2017-02-08 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ・レンダリング・システムおよびそのための方法
EP2733964A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup
WO2014122550A1 (en) 2013-02-05 2014-08-14 Koninklijke Philips N.V. An audio apparatus and method therefor
EP2830336A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix
WO2015010865A1 (en) 2013-07-22 2015-01-29 Harman Becker Automotive Systems Gmbh Automatic timbre control
EP3025516B1 (en) * 2013-07-22 2020-11-04 Harman Becker Automotive Systems GmbH Automatic timbre, loudness and equalization control
CN105989851B (zh) 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
WO2016169608A1 (en) * 2015-04-24 2016-10-27 Huawei Technologies Co., Ltd. An audio signal processing apparatus and method for modifying a stereo image of a stereo signal
US10225657B2 (en) 2016-01-18 2019-03-05 Boomcloud 360, Inc. Subband spatial and crosstalk cancellation for audio reproduction
JP6479287B1 (ja) * 2016-01-18 2019-03-06 ブームクラウド 360 インコーポレイテッド オーディオ再生のためのサブバンド空間クロストークキャンセル
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US10764704B2 (en) 2018-03-22 2020-09-01 Boomcloud 360, Inc. Multi-channel subband spatial processing for loudspeakers
GB2579348A (en) * 2018-11-16 2020-06-24 Nokia Technologies Oy Audio processing
US10841728B1 (en) 2019-10-10 2020-11-17 Boomcloud 360, Inc. Multi-channel crosstalk processing
EP3971892A1 (en) * 2020-09-18 2022-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for combining repeated noisy signals
CN112685592B (zh) * 2020-12-24 2023-05-26 上海掌门科技有限公司 生成运动视频配乐的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1600046A (zh) * 2001-12-05 2005-03-23 皇家飞利浦电子股份有限公司 用于增强立体声信号的电路和方法
CN1937854A (zh) * 2005-09-22 2007-03-28 三星电子株式会社 用于再现双声道虚拟声音的装置和方法
CN1941073A (zh) * 2005-09-26 2007-04-04 三星电子株式会社 用于消除音频信号中的人声分量的设备和方法
CN101065988A (zh) * 2004-11-23 2007-10-31 皇家飞利浦电子股份有限公司 处理音频数据的设备和方法,计算机程序单元和计算机可读介质
CN101502131A (zh) * 2006-08-10 2009-08-05 皇家飞利浦电子股份有限公司 处理音频信号的装置和方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05191898A (ja) * 1992-01-13 1993-07-30 Toshiba Corp 音像拡大装置
US5661808A (en) * 1995-04-27 1997-08-26 Srs Labs, Inc. Stereo enhancement system
DE60028089D1 (de) * 2000-02-18 2006-06-22 Bang & Olufsen As Multikanaltonwiedergabesystem für stereophonische signale
US7257231B1 (en) * 2002-06-04 2007-08-14 Creative Technology Ltd. Stream segregation for stereo signals
US7813513B2 (en) * 2004-04-05 2010-10-12 Koninklijke Philips Electronics N.V. Multi-channel encoder
WO2006103586A1 (en) * 2005-03-30 2006-10-05 Koninklijke Philips Electronics N.V. Audio encoding and decoding
EP1761110A1 (en) * 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
JP4351662B2 (ja) * 2005-09-14 2009-10-28 日本電信電話株式会社 ステレオ再生方法及びステレオ再生装置
DE602007007457D1 (de) * 2006-03-13 2010-08-12 Dolby Lab Licensing Corp Ableitung von mittelkanalton
US9014377B2 (en) * 2006-05-17 2015-04-21 Creative Technology Ltd Multichannel surround format conversion and generalized upmix
EP2064915B1 (en) * 2006-09-14 2014-08-27 LG Electronics Inc. Controller and user interface for dialogue enhancement techniques
JP2008092411A (ja) * 2006-10-04 2008-04-17 Victor Co Of Japan Ltd 音響信号生成装置
KR101540911B1 (ko) * 2007-10-03 2015-07-31 코닌클리케 필립스 엔.브이. 헤드폰 재생 방법, 헤드폰 재생 시스템, 컴퓨터 프로그램 제품
US8103005B2 (en) 2008-02-04 2012-01-24 Creative Technology Ltd Primary-ambient decomposition of stereo audio signals using a complex similarity index
JP5302980B2 (ja) * 2008-03-04 2013-10-02 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 複数の入力データストリームのミキシングのための装置
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1600046A (zh) * 2001-12-05 2005-03-23 皇家飞利浦电子股份有限公司 用于增强立体声信号的电路和方法
CN101065988A (zh) * 2004-11-23 2007-10-31 皇家飞利浦电子股份有限公司 处理音频数据的设备和方法,计算机程序单元和计算机可读介质
CN1937854A (zh) * 2005-09-22 2007-03-28 三星电子株式会社 用于再现双声道虚拟声音的装置和方法
CN1941073A (zh) * 2005-09-26 2007-04-04 三星电子株式会社 用于消除音频信号中的人声分量的设备和方法
CN101502131A (zh) * 2006-08-10 2009-08-05 皇家飞利浦电子股份有限公司 处理音频信号的装置和方法

Also Published As

Publication number Publication date
RU2012157193A (ru) 2014-07-20
EP2578000A1 (en) 2013-04-10
WO2011151771A1 (en) 2011-12-08
JP2013527727A (ja) 2013-06-27
JP5957446B2 (ja) 2016-07-27
RU2551792C2 (ru) 2015-05-27
CN102907120A (zh) 2013-01-30
US20130070927A1 (en) 2013-03-21

Similar Documents

Publication Publication Date Title
CN102907120B (zh) 用于声音处理的系统和方法
EP3320692B1 (en) Spatial audio processing apparatus
CN101842834B (zh) 包括语音信号处理在内的生成多声道信号的设备和方法
EP1741313B1 (en) A method and system for sound source separation
CN105284133B (zh) 基于信号下混比进行中心信号缩放和立体声增强的设备和方法
US11979723B2 (en) Content based spatial remixing
EP2268064A1 (en) Device and method for converting spatial audio signal
Stefanakis et al. Foreground suppression for capturing and reproduction of crowded acoustic environments
Kraft et al. Low-complexity stereo signal decomposition and source separation for application in stereo to 3D upmixing
WO2022132197A1 (en) Systems and methods for audio upmixing
Cobos et al. Stereo to wave-field synthesis music up-mixing: An objective and subjective evaluation
Madmoni et al. The effect of partial time-frequency masking of the direct sound on the perception of reverberant speech
Cobos et al. Resynthesis of sound scenes on wave-field synthesis from stereo mixtures using sound source separation algorithms
Hsu et al. Array configuration-agnostic personalized speech enhancement using long-short-term spatial coherence
Barry Real-time sound source separation for music applications
Barry et al. Localization quality assessment in source separation-based upmixing algorithms
Niwa et al. Selective listening point audio based on blind signal separation and stereophonic technology
WO2017188141A1 (ja) オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム
Cobos Serrano Application of sound source separation methods to advanced spatial audio systems
Zhu et al. The Conversion from Stereo Signal to Multichannel Audio Signal Based on the DMS System
WO2023160782A1 (en) Upmixing systems and methods for extending stereo signals to multi-channel formats
Goodwin Primary-ambient decomposition and dereverberation of two-channel and multichannel audio
Gaddipati Data-Adaptive Source Separation for Audio Spatialization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160525

Termination date: 20170530

CF01 Termination of patent right due to non-payment of annual fee