CN114303392A - 多声道音频信号的声道标识 - Google Patents

多声道音频信号的声道标识 Download PDF

Info

Publication number
CN114303392A
CN114303392A CN202080060506.5A CN202080060506A CN114303392A CN 114303392 A CN114303392 A CN 114303392A CN 202080060506 A CN202080060506 A CN 202080060506A CN 114303392 A CN114303392 A CN 114303392A
Authority
CN
China
Prior art keywords
channel
channels
pair
lfe
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080060506.5A
Other languages
English (en)
Inventor
国雁萌
李凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN114303392A publication Critical patent/CN114303392A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/03Connection circuits to selectively connect loudspeakers or headphones to amplifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)

Abstract

提供了一种用于对包括X>1个声道的多声道音频信号进行声道标识的方法。所述方法包括以下步骤:在所述X个声道中标识任何空声道,从而产生具有Y≤X个非空声道的子集;确定在所述Y个声道中是否存在低频效果(LFE)声道,并且在确定存在LFE声道时,将所述Y个声道中的所确定的声道标识为所述LFE声道;通过匹配对称声道来将所述Y个声道中未被标识为所述LFE声道的剩余声道划分为任何数量的声道对;以及将所述Y个声道中未被标识为所述LFE声道或被划分为对的任何剩余未配对声道标识为中央声道。

Description

多声道音频信号的声道标识
相关申请的交叉引用
本申请要求2019年8月30日提交的PCT专利申请号PCT/CN2019/103813、2019年10月8日提交的美国临时专利申请号62/912,279和2019年10月22日提交的欧洲专利申请号19204516.9的优先权,其中每个申请均通过引用以其全文并入本文。
技术领域
本公开涉及声道标识领域,并且具体地涉及用于环绕声系统的声道标识方法、设备和软件。
背景技术
音频信号在到达多声道系统之前通常要经过多次转换。在这些转换期间,声道可能会被交换或损坏。环绕声过程通常不包含用于进行声道标识、异常声道检测或声道交换检测的功能,并且通常使用默认布局设置。如果输入的声音数据的声道布局与处理时的设置不匹配,则声道被交换。
当前的标准会将交换后的声道索引作为元数据保存到环绕声数据中,这使得元数据不可靠并且对后续的过程有害。如果环绕声包含一些异常声道,则可能检测不到错误,因此错误可能会被传递到下一个过程。
因此,需要在这方面进行改进。
发明内容
鉴于上文,因此本发明的目的是克服或减轻上文所讨论的问题中的至少一些问题。具体地,本公开的目的是提供基于声道的音频信号的声道布局标识,而不是基于由声音编解码器添加的元数据的声道布局标识。这种特征可以使标识独立于编码格式或声道数量并且不受不匹配的元数据的影响。空间听觉印象对于多声道环绕声很重要,并且通常是通过混音来平移声源生成的。本文所描述的声道标识方法提取空间信息以恢复声道布局。本发明的进一步和/或替代性目的对于本公开的读者来说将是清楚的。
根据本发明的第一方面,提供了一种用于对包括X>1个声道的多声道音频信号进行声道标识的方法,所述方法包括以下步骤:在X个声道中标识任何空声道,从而产生具有Y≤X个非空声道的子集;确定在所述Y个声道中是否存在低频效果(LFE)声道,并且在确定存在LFE声道时,将所述Y个声道中的所确定的声道标识为所述LFE声道;通过匹配对称声道来将所述Y个声道中未被标识为所述LFE声道的剩余声道划分为任何数量的声道对;以及将所述Y个声道中未被标识为所述LFE声道或被划分为对的任何剩余未配对声道标识为中央声道。
在本说明书的上下文中,术语“声道标识”应该理解为当音频信号的声道被交换和/或损坏时,声道标识可以用于找到音频信号的正确设置以将音频信号恢复到其原始意图。术语“声道标识”包括如异常声道检测和/或声道交换检测等功能。
在本说明书的上下文中,术语“多声道音频信号”应该理解为具有至少两个音频声道的音频信号。一个音频声道是声音信号的序列,优选地与多声道音频信号的至少另一个声道不同。音频信号可以是例如音频文件、音频剪辑或音频流的格式。
在本说明书的上下文中,术语“空声道”应该理解为声音信号内容低于特定阈值的音频声道。阈值可以例如是总能量内容阈值或平均能量内容阈值。
在本说明书的上下文中,术语“低频效果(LFE)声道”应该理解为声音信号内容基本上、主要或仅包括低于频率阈值(如200Hz)的能量的音频声道。
在本说明书的上下文中,术语“对称声道”应该理解为具有足够相似和/或对称声音信号内容的音频声道。对称声音信号内容可以例如分别包括相似背景声音和不同前景声音、相似基音(例如低频)和不同高音(例如高频),或者反之亦然。对称声音信号内容可以进一步包括同步声音,如单个和弦的不同部分或者在一个声道中开始并在另一个声道中结束的声音。
在本说明书的上下文中,术语“中央声道”应该理解为基本上独立于其他声道的音频声道,其包括其他音频声道的最一般内容。本公开集中于仅具有一个中央声道的实施例,其是多声道音频信号的当前标准,然而如果当前标准进一步发展,则可以相应地调整根据第一方面的方法。
发明人已经意识到,中央声道的标识比许多其他步骤更困难。因此,可以通过将中央声道标识步骤作为声道标识方法中的最后一步执行来节省计算能力,从而将计算减少为在已经标识所有其他声道之后找到剩余声道并可选地将其验证为中央声道。
将针对具体实施例讨论与排序(即本文所描述的声道标识方法的步骤的特定顺序)相关的相似的效率,然而其中许多通常适用于大多数实施例。
除了节省计算能力之外,排序可以进一步用于通过从最可靠的方法开始来提高方法的可靠性。
在优选实施例中,排序可以用于节省计算能力和增加方法的可靠性两者。
根据一些实施例,所述方法进一步包括在前对、侧对、后对和/或任何其他位置对之间区分被划分为对的声道的步骤,其中,所述声道对区分步骤包括计算每两对之间的对间级别差;所述对间级别差与每对的子带声能之和的分贝差成比例;其中,具有相对最高级别的对被区分为所述前对。
许多多声道音频信号包括多于一个声道对;如5.1,其包括前对和后对。因此,用于声道标识的方法能够在位置对之间进行区分并正确地标识所述位置对是有益的。对间级别差是用于在位置对之间进行区分的有效且准确的度量。
根据一些实施例,所述声道对区分步骤进一步包括为其中绝对对间级别差高于绝对阈值的每对中的每个声道选择所述信号的一个或多个片段;以及仅使用这些片段来计算所述对的对间级别差,其中,如果相对最高的平均对间级别差低于级别阈值,则以较高绝对阈值重复计算所述对的对间级别差的步骤。
对之间的级别差并不总是足够高,因为低于例如2dB的差可能无法提供信息。因此,选择具有可能在对之间产生较大级别差的内容的信号的片段是有益的。如果片段的选择没有导致足够高的平均对间级别差,则具有更高绝对阈值的选择可以实现这一点。
在这些实施例中逐点检查绝对对间级别差,因此所选片段可以包含一些孤立的帧。
在其他实施例中,分段检查绝对值,将最大绝对对间级别差与绝对阈值进行比较或者将平均绝对对间级别差与绝对阈值进行比较。这导致所选片段被所检查的片段长度量化。
根据一些实施例,如果所述相对最高的平均对间级别差低于级别阈值并且所述绝对阈值高于最大阈值,则具有相对最高的方向一致性的对被区分为所述前对,其中,所述方向一致性是时域中两个声道的相似性的度量,所述方向一致性与声像方向相关,所述声像方向进而意味着所述声道之间的相位差。
在这些实施例中,片段的选择未能产生足够高的平均对间级别差。因此,方向一致性被替代地用于区分这些对。具有最高方向一致性的对被区分为前对。前对中的信号通常是时间对准的以表示方向声源,因此其具有更高的相关性和更低的延迟,从而具有更高的方向一致性。这意味着与后对相比,前对中有更多相同的分量。
片段的选择失败,因为最高的平均对间级别差没有达到足够高的级别而无法超过级别阈值,并且绝对阈值太高以至于超过绝对阈值的片段不够长而无法计算对间级别差。如果所选片段的总长度短于例如非静音信号长度的20%(或任何其他定义的百分比)或者短于例如1分钟(或任何其他定义的长度),则有用的信号可能被认为太短。
方向一致性通过将时域中不同点处的样本值进行比较来度量信号中相同分量的比例。两个声道中信号之间的更高相似性意味着更高的相关性和更低的延迟。成对声道通常具有相关的信号,并且前对中的信号通常是时间对准的以表示方向声源。
作为替代方案,可以使用与所标识的中央声道的组合的方向一致性来区分这些对。方向最接近中央声道的对也最接近中央声道(即被标识为前对的对)。
根据一些实施例,空声道标识步骤进一步包括测量所述X个声道中的每个声道中的声能,其中,如果声道的总声能低于能量阈值,则所述声道被标识为空。
声能通常是使用每个声道的子带通过对每个子带中每个频率的振幅求和来测量的。这产生了标识空声道的高效方式,即使空声道中可能存在由于编码或其他原因导致的噪声。
能量阈值可以例如为-80dB至-60dB,优选地,-70dB。作为测量总声能的替代或补充,还可以测量时间片段中的平均声能,其中,时间片段可以在1秒到10秒之间。
空声道可能是例如异常设备、多声道电视节目期间的立体声广告时段以及从原始立体声或单声道声音上混产生的多声道环绕声的结果。
根据一些实施例,如果声道的低频区域、即低于200Hz的任何子带中的子带声能之和显著高于该声道中所有其他频率区域中的子带声能之和,则确定在所述Y个声道中存在LFE声道。
这是有益的,因为不太可能错过LFE声道。200Hz是低频区域的截止频率,旨在确保不会错过LFE声道同时还减少错误性肯定。通常,阈值为120Hz,但是所述阈值可以优选地被设置为更高的值,因为正常声道在更宽的频带中传送信号。
根据一些实施例,声道对划分步骤中的对称声道的匹配进一步包括使用每个声道的计算出的声能分布和方差来计算所述声道之间的声道间频谱距离;所述声道间频谱距离是针对多个子带进行求和的、每个声道中的两个匹配声能子带之间的距离的归一化成对度量;以及将彼此距离最短的所述声道匹配成对。
声道间频谱距离是简单且准确的对称性度量。数学距离是可以用各种方式加权的相似性度量。所用距离度量可以是欧几里得距离、曼哈顿距离和/或闵可夫斯基距离。
根据一些实施例,所述声道对划分步骤继续对所述Y个声道中未被标识为所述LFE声道的任何未配对声道进行配对,直到剩余的声道少于两个。
可能有多于两对的声道,如前对和后对。因此,如果剩余的声道多于两个,则其中可能有更多的声道对,并且可能有更多的对要划分。
根据一些实施例,声道对划分步骤进一步包括将每对中多声道音频信号的第一接收到的声道分配为左声道并且将每对中最后列出的声道分配为右声道。
在多声道音频信号中,习惯上将每对中的左声道列在右声道之前,因此通过假设总是如此,这种方法更高效。
根据一些实施例,所述方法进一步包括计算所述方法的步骤的任何结果的置信度得分,所述置信度得分是对结果的可靠性的度量,其中,如果所述多声道音频信号的持续时间低于特定持续时间阈值,则将所述置信度得分乘以小于一的权重因子,使得小于所述持续时间阈值的持续时间产生不太可靠的结果。
为了诊断出错误或衡量改进,了解所述方法的步骤的每个结果的可靠程度可能是有用的。如果多声道音频信号的持续时间太短,则所做的标识是不可靠的,因为可以在计算中使用的数据太少。因此,可以使用权重因子。
根据一些实施例,所述方法进一步包括显示步骤,其中,将计算出的置信度得分显示在显示器上;并且其中,如果所述计算出的置信度得分低于置信度阈值和/或如果所标识的声道布局与用户的设置布局不同,则显示警告。
显示是有益的,因为用户可以接收关于所述方法的可靠性的反馈。这允许用户做出关于所述方法的标识是否比当前设置更可靠的明智决定。警告是有益的,因为它可以提醒用户采取行动,以便例如停止所述方法、重做所述方法或通过例如增加比特流速率和/或修复上游干扰来改进所述方法。如果所标识的声道布局与用户的设置布局不同,则设置和/或所标识的声道布局可能不正确,这可能需要例如由设备或用户采取行动。
根据一些实施例,所述方法进一步包括将所标识的声道布局应用于多声道音频信号的步骤。
应用步骤可以包括:改变多声道音频信号的声道顺序;将声道重新导向至所标识的回放源,即,使得左声道由左扬声器输出;或者多声道音频信号的任何其他物理和/或数字操纵,以符合作为声道标识方法的结果的所标识的布局。
根据一些实施例,当所述多声道音频信号被流式传输到扬声器系统时,将通过所述方法标识的声道布局实时应用于所述多声道音频信号。
由于所提出的方法在计算上非常高效,因此可以实时应用所述方法而不会对回放造成任何显著的延迟。
第一结果可能不准确,并且置信度得分低,并且然后随着音频信号播放而获取更多的数据,所述置信度得分增加。
根据一些实施例,所述方法的步骤中的至少一个步骤使用基于机器学习的方法,其中,所述基于机器学习的方法是决策树、Adaboost(提升方法)、GMM、SVM、HMM、DNN、CNN和/或RNN。
机器学习可以用于进一步改进所述方法的效率和/或可靠性。
根据本发明的第二方面,提供了一种被配置用于标识多声道音频信号的声道的设备,所述设备包括电路,所述电路被配置为执行根据本发明的第一方面的方法。
根据本发明的第三方面,提供了一种计算机程序产品,所述计算机程序产品包括具有指令的非暂态计算机可读存储介质,所述指令被适配成当由具有处理能力的设备执行时执行根据本发明的第一方面的方法。
第二方面和第三方面通常可以具有与第一方面相同的特征和优点。
进一步应当注意的是,除非另有明确说明,否则本发明涉及所有可能的特征组合。
附图说明
通过以下参考附图对本发明的优选实施例进行的说明性和非限制性详细描述,将更好地理解上文以及本发明的另外的目的、特征和优点,其中相同的附图标记将用于相似的元件,在附图中:
图1示出了根据一些实施例的不同格式的环绕声的菜单,
图2示出了根据一些实施例的5.1环绕声系统的声道布局,
图3示出了根据一些实施例的声音广播链的流程图,
图4示出了根据一些实施例的用于声道标识的方法的步骤的图,
图5示出了根据一些实施例的用于声道标识的方法的步骤的图,
图6示出了根据一些实施例的用于声道标识的方法的步骤的图,
图7A至图7B示出了根据一些实施例的用于声道标识的方法的步骤的流程图,
图8示出了根据一些实施例的声道顺序检测器的系统架构,
图9示出了根据一些实施例的用于声道标识的方法的步骤的图,
图10示出了根据一些实施例的声道对划分步骤的流程图,以及
图11示出了根据一些实施例的声道对位置区分步骤的流程图。
具体实施方式
现在将在下文中参考附图对本发明进行更全面的描述,在附图中,示出了本发明的实施例。本文所公开的系统和设备将在操作期间进行描述。
本公开总体上涉及多声道音频信号的交换的或损坏的声道的问题。为了将声道恢复到其预期状态,发明人发现可以使用声道标识。在下文中,多声道音频信号是5.1音频信号。然而,这仅仅是作为示例,并且本文所描述的方法和系统可以用于任何多声道音频信号(例如7.1)的声道标识。
图1示意性地示出了用于多声道声音处理的工作站的菜单。这是广泛使用的5.1声道的不同格式的示例。
当前标准做法涉及简单地选择默认格式并且如果输入声音数据的声道布局与处理时的设置不匹配,则声道将被交换。交换后的声道索引可以作为元数据保存到环绕声数据中,使得这些声道被不断地正确地交换。但是,如果未来的系统使用不同的默认值,则元数据将变得不可靠并且对未来过程有害。
如果多声道音频信号进一步包括损坏声道,当前标准未检测到这种异常,因此错误将传播到未来的系统。
图2示出了5.1环绕声系统的典型布局。如果该系统的任何扬声器的内容被交换或者任何声道被损坏或清空,则听众体验到的音频与原始意图不同。例如,如果前R扬声器内容和环绕R扬声器内容被交换,则扬声器对的对称性被破坏,或者如果前L扬声器内容是空的,则整个声像的重要部分可能会丢失。原始环绕声数据中的声像无法再现,并且空间印象混乱并且变得令听众厌烦。
可能会检测到(多个)异常声道,因为其索引或整个布局可能看起来异常。通过将检测到的声道布局与用户设置中的声道布局进行比较,还可以找到任何交换后的声道。
贯穿本公开,术语“环绕对”和“后对”将互换使用,以便概括本公开用于进一步可能的位置对,如在环绕对被侧对和后对代替的7.1环绕声系统中。
图3示出了典型广播链的高级声音系统的示例。该示例示出了典型广播链中的环绕声数据流,并且意味着环绕声在回放之前在典型工作流程期间被转换数次。如先前关于图1所讨论的,元数据中的错误可能通过这种工作流程传播。进一步地,声道可能在工作流程的每个过程中被交换或损坏。
流程从制作开始,所述制作包括基于声道的内容、基于对象的内容和/或基于场景的内容,这些内容构成了高级声音文件格式。高级声音文件格式由制作输出并输入到发行中。
发行包括将高级声音文件格式发行适配成高级声音格式。高级声音格式由发行输出并输入到广播中。
广播包括高带宽广播与低带宽广播之间的分叉。低带宽广播的广播将高级声音格式渲染为传统流格式。传统流格式由广播输出并输入到低带宽连接/传统广播中。
低带宽连接/传统广播包括对传统设备的直接再现。
高带宽广播的广播将高级声音格式适配为广播流格式。广播流格式由广播输出并输入到高带宽连接/广播中。
高带宽连接/广播包括渲染为Hi-Fi、TV、电话、平板计算机等的扬声器布局或双耳布局的设备。
由于元数据不可靠,发明人已经发现仅依赖多声道音频信号的音频内容来检测异常声道的声道标识方法。检测器可以基于所有可用数据来检测声道的布局,并且可以进一步为估计的声道索引提供置信度得分以显示可靠性。可能会检测到(多个)异常声道,因为其索引或整个布局可能看起来异常。通过将检测到的声道布局与用户设置中的声道布局进行比较,还可以找到任何声道交换。
通常,音频数据包括:来自中央声道和可能的前声道对的前声像,其中,方向稳定性在大部分持续时间内保持不变;携带平衡声音信息的左、右声道,并且声道可以成对处理;后声道携带可以增强整个声像的信息。音频数据可以进一步包括单独的低频声道以用低频使声像完整。如果多声道环绕声伴随视频或图像,则声像优选与视觉图像和设计的收听区域重合。
通过使声道标识基于音频数据,标识独立于编码格式或声道数量并且不受不匹配元数据的影响。空间听觉印象对于多声道环绕声很重要,并且通常是通过混音来平移声源生成的。声道标识提取空间信息以恢复声道布局。
图4示出了声道布局标识方法100的实施例的示意图。方法100包括五个步骤,其以特定顺序执行以便最小化所需的计算。
方法100从包括X>1个未标识的声道的多声道音频信号开始。第一步骤是空声道标识步骤110,因为该空声道标识步骤是计算要求最低的步骤。
空声道标识步骤110包括测量X个声道中的每个声道中的声能以便标识任何空声道,从而产生具有Y≤X个非空声道的子集。
X个声道中的每个声道中的声能可以在短期、中期和/或长期持续时间内测量并且可以在时域、谱域、小波域和/或听觉域中测量。
取决于声道的内容,不同的术语可以是有用的。
时域包括关于不同时间点的声压值的信息。谱域包括频谱分量中的频率信息,通过变换声道的内容来达到。小波域包括小波多分辨率分解中的时间和频率信息,通过变换声道的内容来达到。听觉域是包括关于由听到信号引起的听觉神经响应的信息的正常的、未变换的域。
听觉域可以用于声道标识。例如,可以在每个方法步骤中使用基于听觉滤波器的分解,如mel/bark滤波器组。在这种实施例中,使用每个临界频带的特定响度来代替等式1中的子频带能量。
小波变换也适用于信号分解,并且可以为随后的方法步骤提供时频特征。
如果满足以下条件,则声道被标识为空:其总声能低于能量阈值;或者其每个子带声能低于能量阈值。子带是能量的范围。
子带能量的一个定义是:
Figure BDA0003521366370000091
其中,
Figure BDA0003521366370000092
是帧l(l=1..L)的频带b中的声道c的子带能量,L是总帧数,Xc(k,l)是声道c的帧l中的频率索引k的频谱振幅,并且fl、fh分别是频带b的频率仓的最低索引和最高索引。
该定义是在短期内测量的。对于一帧或几帧的时间块,计算Eb,c(l)的平均值和标准方差两者。如果所有时间块的平均值和方差两者低于特定阈值,则声道c的子带b被检测为空。
替代方案包括与频谱相关的测量,如带通滤波信号和听觉速率图。
可以使用元数据来存储空声道的标识。
接下来是LFE确定步骤120并且其包括确定在Y个声道中是否存在低频效果(LFE)声道,并且在确定存在LFE声道时,将在Y个声道中确定的声道标识为LFE声道。
LFE确定步骤120可以进一步包括使用在空声道标识步骤110中测量的Y个声道中的每个声道中的声能来确定是否存在LFE声道。这节省了计算工作量。
LFE确定步骤120可以进一步包括测量Y个声道中的每个声道中的存在高于能量阈值的声能的频带。这不需要在空声道标识步骤110中测量声能。
Y个声道中的每个声道中存在高于能量阈值的声能的频带可以在短期、中期和/或长期持续时间内测量。
确定在Y个声道中存在LFE声道可以包括检查声道的低频区域中的子带声能之和是否显著高于该声道中所有其他频率区域中的子带声能之和。这是有益的,因为不太可能错过LFE声道。
作为对子带声能求和的替代方案,可以使用例如平均值和/或最大值。
任何这种声道可以被标识为LFE声道。低频区域可以是例如低于400Hz、300Hz、200Hz、120Hz、100Hz或50Hz的任何子带。可以基于音频信号的内容来确定低频区域。
实际上,取决于实施例,200Hz与2000Hz之间的任何频率可以属于低频区域或高频区域。因此,可以基于特定实施例来确定低频区域。替代性地,仅查看低于200Hz和高于2000Hz的子带可能是有益的。
信号的最高频率可以取决于信号的采样率。因此,仅查看2000Hz与一半采样率之间的子带可能是有益的。
确定在Y个声道中存在LFE声道可以包括检查声道在低于频率阈值的频率区域中是否仅包括高于能量阈值的子带声能。这是有益的,因为可能检测不到LFE声道之外的任何声道,然而,如果例如包含噪声或者具有与预期不同的低频区域,则可能检测不到LFE声道。在一些实施例中,仅任何这样的声道被标识为LFE声道。
频率阈值可以为例如2000Hz、1000Hz、500Hz、400Hz、300Hz、200Hz、120Hz、100Hz或50Hz,或者可以基于音频信号的内容来确定。
如果确定在Y个声道中存在几个LFE声道,则根据用于确定是否存在LFE声道的(多个)特征的层级,可以仅一个LFE声道被标识为LFE声道。
由于大多数多声道音频信号仅具有最多一个LFE声道,所以可以使用层级来确定几个可能的LFE声道中的哪一个声道被标识为LFE声道。层级可以例如包括较硬阈值或者低频区域与其他频率区域之间的子带声能的最大差。
可以使用元数据来存储所标识的LFE声道。
接下来是声道对划分步骤130并且其包括通过匹配对称声道来将Y个声道中未被标识为LFE声道的剩余声道划分为任何数量的声道对。将结合图10进一步讨论声道对划分步骤130。
接下来是中央声道标识步骤140并且其包括将Y个声道中未被标识为LFE声道或被划分为对的任何剩余未配对声道标识为中央声道。
中央声道标识步骤140可以进一步包括计算Y个声道中未被标识为LFE声道或被划分为对的任何剩余未配对声道与Y个声道中的其他声道相比的独立性和/或不相关性,并且将中央声道标识为最独立和/或不相关的声道。
这可以例如基于在例如时域、谱域、小波域和/或听觉域中测量不同声道的内容来计算。
可以仅与被划分为对的声道相比计算Y个声道中未被标识为LFE声道或被划分为对的任何剩余未配对声道的独立性和/或不相关性的计算。这是因为中央声道通常是最独立和/或与成对声道最不相关的。
在另一个实施例中,中央声道标识步骤140发生在声道对区分步骤150之后,并且仅与被区分为前对的声道相比计算独立性和/或不相关性的计算。
这是因为中央声道通常是最不独立和/或与前对声道最小不相关的,然而仍然是独立和/或不相关的。因此,如果发现独立性和/或不相关性,则中央声道的标识是高度可靠的,因为错误性肯定的可能性降低了。将中央声道与所有对进行比较会更可靠,但是会消耗更多资源。
这些实施例中的任一个都是有益的,因为它们是高度可靠的;然而,这些实施例可能需要大量的计算。因此,在有益的实施例中,任何剩余声道在没有验证的情况下被标识为中央声道。
如果剩余的声道多于一个,则所有声道都可能被标识为中央声道,或者可以假设出现错误从而重新开始声道标识方法。可以重新执行所有步骤或者仅执行被确定为可能出错的步骤。
如果剩余偶数个声道,则重复的步骤可以例如总是空声道标识步骤110和/或LFE声道确定步骤120,因为这些偶数个声道可能导致不同的奇偶性,并且如果剩余不同于一的奇数个声道,则重复的步骤可以例如总是声道对划分步骤130和/或声道对区分步骤150,因为这些奇数个声道将导致相同的奇偶性。
重复的步骤可以另外地或替代性地与步骤的置信度得分相关,这将结合图6进一步解释。
可以使用元数据来存储中央声道的标识。
图5示出了用于声道标识的方法的步骤。该实施例进一步包括显示步骤160和应用步骤170,所述步骤将分别结合图8至图9进一步讨论。由于通过重用先前结果实现了效率,所以图5中所示的序列是优选的顺序,然而任何序列都是可能的。
图6示出了用于声道标识的方法的步骤。当检测到每个声道时,例如在方法的每个步骤之后,将它们与系统的设置(例如由用户选择的声道索引)进行比较210。如果检测到任何不匹配,则可以发出警告160。
在一个实施例中,不匹配是自动固定的。在另一个实施例中,不匹配是不固定的,除非用户例如在接收到警告之后对其进行确认。
在一些实施例中,所述方法进一步包括计算所述方法的步骤的任何结果的置信度得分,置信度得分是对结果可靠性的度量。
这可以作为警告的一部分显示给用户,以允许用户做出关于所述方法的标识是否比当前设置更可靠的明智决定。
如果多声道音频信号的持续时间低于特定持续时间阈值,则置信度得分可以乘以小于一的权重因子,使得小于持续时间阈值的持续时间产生不太可靠的结果。
权重因子可以与持续时间除以持续时间阈值成比例,使得相对较长的持续时间产生更可靠的结果。这增加了权重因子的准确性。
在一个实施例中,如果持续时间比持续时间阈值长,则不应用权重因子或权重因子等于一。这增加了权重因子的准确性。
可以根据以下等式来计算权重:
Figure BDA0003521366370000121
其中,L是进行声道标识所基于的数据长度,并且Lthd是持续时间阈值。这意味着如果数据低于持续时间阈值,则标识是不可靠的。
在大多数实施例中,相对更可靠结果具有相对更高的置信度得分。
持续时间阈值可以常数,例如1-60分钟、5-30分钟、10-20分钟之间或15分钟。持续时间阈值可以替代地为相对长度,如数据长度的五十分之一、二十分之一、十分之一、五分之一、三分之一或二分之一。
空声道标识步骤110的置信度得分可以与所标识的空声道的声能成比例,使得相对较低的声能产生更可靠的结果。
在声能低于能量阈值的声道可以被标识为空声道的实施例中,这种标识的可靠性将取决于声能低于能量阈值的程度。因此,相对较低的声能产生更可靠的结果。
由于空声道的数量是未知的,因此低于置信度阈值的置信度得分可能导致空声道标识步骤110的结果例如在短期存储器中或作为元数据被标记为不可靠。如果检测到不匹配,或者如果标识了错误数量的LFE声道和/或中央声道,则这可能导致向用户显示警告和/或例如直接重新执行空声道标识步骤110。
LFE声道确定步骤120的置信度得分可以与所确定的LFE声道的低频区域中的子带声能与所有其他频率区域中的子带声能之间的差成比例,使得相对较大的差产生更可靠的结果。
与所有其他频率区域相比,LFE声道应该在低频区域中包括基本上更大部分的子带声能,因此大的差将更可靠。
可以通过将不同频率区域中的子带声能之和进行比较来计算子带声能之间的差。
(多个)总和可以分别进一步针对每个频率区域的大小进行归一化。
替代性地,可以通过将不同频率区域中的子带声能的平均值或归一化平均值进行比较来计算子带声能之间的差。
归一化平均值将优选地针对每个频率区域的大小进行归一化。
总和是优选的,因为该总和会导致更大的差,从而产生更标准化的置信度得分。
低频区域可以是例如低于400Hz、300Hz、200Hz、120Hz、100Hz或50Hz的任何子带。可以基于音频信号的内容来确定低频区域。
在进一步的实施例中,LFE声道确定步骤120的置信度得分与所确定的LFE声道在高于频率阈值的频率区域中的子带声能之和成比例,使得相对较低的总和产生更可靠的结果。
在该实施例中,在确定置信度得分时不使用低频区域中的内容。取决于实施例,这可能是有益的。
在一个实施例中,LFE声道确定步骤120的置信度得分与以下各项成比例:所确定的LFE声道的低频区域中的子带声能与所有其他频率区域中的子带声能之间的差,使得相对较大的差产生更可靠的结果;以及所确定的LFE声道在高于频率阈值的频率区域中的子带声能之和,使得相对较低的总和产生更可靠的结果。
在该实施例中,被认为最有用的两种度量结合使用,可能以不同方式进行加权,以便产生高度可靠的置信度得分。
频率阈值可以为例如2000Hz、1000Hz、500Hz、400Hz、300Hz、200Hz、120Hz、100Hz或50Hz,或者可以基于音频信号的内容来确定。
在一些实施例中,LFE声道确定步骤120的置信度得分与所确定的LFE声道中存在的最高频率信号成比例,使得相对较低的最高频率信号产生更可靠的结果。
可以基于能量阈值来确定是否存在LFE声道。能量阈值可以被适配成忽略噪声或者可以低到基本上不存在,因此任何存在的信号都会影响置信度得分。
在这些实施例中,在确定置信度得分时仅使用最大截止频率。取决于实施例,这可能是有益的。
由于LFE声道的存在是未知的,因此低于置信度阈值的置信度得分可能导致LFE声道确定步骤120的结果例如在短期存储器中或作为元数据被标记为不可靠。如果检测到不匹配,或者如果标识了错误数量(例如多于一个)的中央声道和/或LFE声道(甚至可能在后面的步骤中),则这可能导致向用户显示警告和/或例如直接重新执行LFE声道确定步骤120。
中央声道标识步骤140的置信度得分可以与所标识的中央声道与Y个声道中未被标识为LFE声道的声道相比的独立性和/或不相关性成比例,使得相对高的独立性和/或不相关性产生更可靠的结果。
与Y个声道中未被标识为LFE声道的声道相比,中央声道应该是独立和/或不相关的,因此高度独立性和/或不相关性将更可靠。
如果方法的特定步骤的置信度得分的多个计算选项可用,则其可以在层级中应用。
可以使用元数据来存储置信度得分。
通常,置信度得分低于置信度阈值的结果(对于标识步骤110-150中的任何一个标识步骤)可能导致例如使用更大的数据长度重新开始声道标识方法100。
图7A至图7B示出了用于声道标识的方法的步骤的流程图。示出了为了最小化计算以何种顺序执行哪些检查和方法步骤的排序优化。在该实施例中假设了5.1环绕声音文件格式,然而,稍加改变的其他格式也是可能的。
第一步骤是空声道标识步骤110。该步骤的结果允许方法将多声道音频信号的可能配置的数量减少到一个或两个选项,其在空声道标识步骤110的结果之后列出。
所示出的实施例具有六个声道,然而,在调整空声道数量的结果时任何其他数量都是可能的。
如果空声道标识步骤110的结果是空声道的数量为五,则最后一个空声道将被自动标识为中央声道并且然后进行输出。
如果空声道标识步骤110的结果是空声道的数量为三,则输出所标识的空声道并且假设剩余声道是L、R、C。使用声道对划分步骤130找到对,并且剩余声道将被自动标识为中央声道并且然后与所述对一起输出。
如果空声道标识步骤110的结果是空声道的数量为一,则使用LFE声道标识步骤120再次检查空声道是否被误认为是LFE声道。如果检测到LFE声道,则输出所述LFE声道,否则输出空声道。使用声道对划分步骤130从五个剩余声道中找到两个对,并且剩余声道将被自动标识为中央声道并且然后与所述对一起输出。
如果空声道标识步骤110的结果是空声道的数量为零,则LFE声道必须存在,如果输入是根据5.1环绕声格式化的。在例如7.1格式化是可能的实施例中,六个剩余声道可以例如是三个对。通过使用LFE声道标识步骤120来标识LFE声道并将其输出。使用声道对划分步骤130从五个剩余声道中找到两个对,并且剩余声道将被自动标识为中央声道并且然后与所述对一起输出。
如果空声道标识步骤110的结果是空声道的数量为二,则输出所标识的空声道并且剩余声道可以是L、R、C、LFE或者L、R、Ls、Rs。由于LFE声道标识步骤120是相对高效的,因此接下来使用它。如果检测到LFE声道,则输出所述LFE声道,并且剩余声道是L、R、C。否则,剩余声道是L、R、Ls、Rs。使用声道对划分步骤130从三个或四个剩余声道中找到一个或两个对,并且任何剩余声道将被自动标识为中央声道。无论哪种方式,然后输出所标识的声道。
如果空声道标识步骤110的结果是空声道的数量为四,则输出所标识的空声道并且剩余声道可以是L、R或者C、LFE。由于LFE声道标识步骤120是相对高效的,因此接下来使用它。如果检测到LFE声道,则剩余声道将被自动标识为中央声道并且然后与LFE声道一起输出。如果未检测到LFE声道,则剩余声道是L、R对。可以直接输出所述对,或者声道对划分步骤130可以用作输出经划分的对之前的预防措施。
如果空声道标识步骤110的结果是空声道的数量为六,则所有声道都是空的。在这种情况下,输出空声道,并且方法结束。
所示出的实施例不包括声道对区分步骤150。如果包括,则所述声道对区分步骤150将发生在“输出L、R、C、(Ls,Rs)”结果之前。
所示出的实施例不包括将任何单个剩余声道标识为中央声道之外的中央声道标识步骤140,然而对于本领域技术人员来说,根据先前所讨论的实施例对其进行修改是很简单的。进一步假设任何单个剩余声道是C而不是LFE,因为这更常见,然而可以在不假设这一点的其他实施例中执行LFE声道确定步骤120和/或中央声道标识步骤140。
图8示出了声道顺序检测器1的系统架构。声道顺序检测器应用根据本发明的用于声道标识的方法以便检测声道的顺序。
声道顺序检测器1可以被适配成执行根据计算机程序产品的方法。计算机程序产品包括具有指令的非暂态计算机可读存储介质,所述指令被适配成当由具有处理能力的设备(如声道顺序检测器)执行时执行根据本发明的方法。
包括X>1个声道的多声道音频信号被输入801到声道顺序检测器中。音频信号的片段长度802可以从音频信号分析或者单独输入。片段长度802与输入数据的总长度(以分钟为单位)相对应。因此,如果输入音频文件,则片段长度802与该文件的音频信号的总长度相对应。
用于声道标识的方法产生所标识的声道。顺序检测器然后可以使用所标识的声道来输出声道标签的有序阵列810。
也可以输出与方法的结果的可靠性相关的任何数量的如先前所讨论的置信度得分820。置信度得分可以被归一化到0至1,其中,置信度得分0表示不可靠的,并且1表示可靠的,或反之亦然。
回放系统可以使用检测到的标签的输出阵列来将多个声道正确地匹配到多个声源,使得例如中央声道从中心扬声器出来,依此类推。
包括声道顺序检测器的系统可以进一步包括显示器。所述方法可以包括显示步骤160,其中,将(多个)计算出的置信度得分显示在显示器60上。
显示器60是有益的,因为用户可以接收关于所述方法的可靠性的反馈。
显示步骤160可以进一步包括如果计算出的置信度得分低于置信度阈值,则显示警告。
警告是有益的,因为它可以提醒用户采取行动,以便例如停止所述方法、重做所述方法或通过例如增加比特流速率和/或修复上游干扰(glitch)来改进所述方法。
可以在显示步骤160中显示所标识的声道布局(参见图5)。这可以为用户提供更相关的反馈。
在一些实施例中,显示步骤160进一步包括等待用户使用如按钮或触摸屏等用户界面进行输入。显示器60因此可以包括用于接收这种用户输入的(多个)界面。
这阻止了在用户不可能分析结果并提供反馈的情况下继续进行所述方法。
所标识的声道布局在应用于多声道音频信号之前由用户批准。这降低了应用任何错误的风险。
可以不提示用户批准与用户的设置布局相同的所标识的声道布局。由于这种场景不需要对回放系统进行任何改变,因此这节省了时间并减少了用户的要求。
显示步骤160可以进一步包括如果所标识的声道布局与用户的设置布局不同,则显示警告。由于这可能需要和/或强制改变设置布局,因此用户可能希望在此发生之前就知道。
警告等级可以与(多个)计算出的置信度得分成比例。指示不可靠结果的置信度得分可以例如保证:更容易注意到的警告,使得用户可以停止方法、重新执行方法和/或改进方法;或者不太容易注意到的警告,使得用户忽略可能的错误警告。
显示步骤160可以进一步包括允许用户操纵所显示的数据。用户可能具有超出方法可用范围的信息,并且可以添加和/或改变方法可用的数据。
经操纵的数据可以在方法的声道标识步骤中使用。这意味着当方法运行时所做的改变可以用于改进发生的声道标识步骤。经操纵的数据可以另外地或替代性地用于方法的后续运行。
显示步骤160可以进一步包括允许用户选择信号的要忽略的至少一个片段。这允许用户例如标识音频信号中的干扰方法的缺陷并将其去除。
图9示出了用于声道标识的方法的步骤的图。所示出的实施例示出了在不同域中执行的方法的不同步骤。在该实施例中,空声道标识步骤110、LFE确定步骤120、声道对划分步骤130和中央声道标识步骤140发生在如小波域等时频域中;而声道对区分步骤150发生在空间域中。这是通过例如在特定步骤之前对多声道音频信号进行变换910、920以提取特定域中的特征并在执行这些步骤之后进行逆变换来实现的。
这仅仅是一个可能的实施例,在其他实施例中,与所示步骤不同的方法步骤在与所示域不同的域中执行,或者例如整个方法在一个域中执行。
方法100可以进一步包括将所标识的声道布局应用170于多声道音频信号的步骤。该步骤可以包括:改变多声道音频信号的声道顺序;将声道重新导向至所标识的回放源,即,使得左声道由左扬声器输出;或者多声道音频信号的任何其他物理和/或数字操纵,以符合作为声道标识方法的结果的所标识的布局。
在一些实施例中,仅当(多个)计算出的置信度得分超过置信度阈值时才应用所标识的声道布局。
如果所标识的声道布局不可靠,则应用所述所标识的声道布局可能会使投影的声像变差,因此可以使用置信度阈值来防止这种情况。
应用步骤170可以包括使用任何当前元数据将所标识的声道布局应用于多声道音频信号。元数据可以使应用步骤170更加有效并且可以由广播链中的任何另外的系统使用。
当多声道音频信号被流式传输到扬声器系统时,可以将通过所述方法标识的声道布局实时应用于所述多声道音频信号。
由于所提出的方法在计算上非常高效,因此可以实时应用所述方法而不会对回放造成任何显著的延迟。
第一结果可能不准确,并且置信度得分低,并且然后随着音频信号播放而获取更多的数据,所述置信度得分增加。
所述方法的实时实施例可以包括:初始化,用于清除所有数据缓冲并得到声道数量。在获取一些新数据后,可以对所有可用数据进行声道标识。先前数据的特征可以用于保持低消耗复杂性。也可以接受不一致的数据。如果无法基于可用数据对特定声道做出判定,则这些声道可以被标记为未知,并且置信度得分为0。一开始,由于全局权重因子,所有声道的置信度得分都低。在接收到足够的数据之后,标识保持不变并且置信度得分可能会略有波动。
多声道音频信号可以是用于内容创建、分析、变换和回放系统的多声道环绕声音文件或流。这些系统受声道布局的影响很大。
所述方法的至少一个步骤可以使用基于机器学习的方法。基于机器学习的方法可以是决策树、Adaboost、GMM、SVM、HMM、DNN、CNN和/或RNN。
机器学习可以用于进一步改进所述方法的效率和/或可靠性。
用于声道对检测的SVM可以作为示例。将帧l中的声道i与j之间的声道间频谱距离表示为Di,j(l),如公式3所示。然后将整个频带划分为1、2、...或K个不同的频带,并且计算声道间频谱距离,从而分别得到平均声道间频谱距离
Figure BDA0003521366370000181
然后可以将
Figure BDA0003521366370000182
的K个值分组为声道i和j的声道距离向量。对于未被检测为LFE或空的所有声道,计算其每个可能的对之间的声道距离向量。如果声道i和j属于一对,则该向量的标签为1,否则为0。可以基于标记的训练数据库来训练支持向量机,并且然后将其用于检测声道对。
图10示出了声道对划分步骤130的流程图。为了更高效,通常在非空和非LFE声道上执行声道对检测。如果未知声道的数量为两个或更多个,则可以检测到声道对。
声道对划分步骤130中的对称声道的匹配可以进一步包括将时间特征、频谱特征、听觉特征和/或其他域中的特征进行比较以计算每个声道的音频信号之间的声能分布和方差,并将最对称的声道匹配成对。
通过分析声能分布和方差来寻找对称声道作为具有基本上相似和/或对称声音信号内容的音频声道。对称声音信号内容可以例如分别包括相似背景声音和不同前景声音、相似基音和不同高音,或者反之亦然。对称声音信号内容可以进一步包括同步声音,如单个和弦的不同部分或者在一个声道中开始并在另一个声道中结束的声音。
如果两个声道的特征非常接近而与其他声道的特征非常不同,或者如果两个声道之间的相关性高于其他声道,则这两个声道可以被划分为声道对。
声道对划分步骤130中的对称声道的匹配可以进一步包括使用每个声道在短期、中期和/或长期持续时间内的计算出的声能分布和方差来计算1010声道之间的声道间频谱距离;所述声道间频谱距离是针对多个子带进行求和的、每个声道中的两个匹配声能子带之间的距离的归一化成对度量;以及将彼此距离最短的所述声道匹配成对。
所用距离度量可以是欧几里得距离、曼哈顿距离和/或闵可夫斯基距离。
以下所有示例都在频域中,然而其他域也是可能的。除了具有时频特征的实施例之外,从信号变换或信号分析理论等其他方式得到的特征也可以用于进行例如对检测和/或置信度得分估计。除了上述基于启发式规则的方法之外,如回归、决策树、adaboost、GMM、HMM或DNN等基于机器学习的方法也可以用于例如对检测和/或置信度得分估计。
在一个实施例中,帧l中的声道i与j之间的距离根据下式计算:
Figure BDA0003521366370000191
其中,i,j在[1,C]的范围内并且i≠j,C是声道的数量,B是频带的数量,b=1..B是频带的索引,l=1..L是帧的索引,并且Eb,i(l)和Eb,i(l)是声道i和j的频带b中的时频能量。
计算出的声道间频谱距离随时间的平均值可以被计算并用于将彼此间平均距离最短的声道匹配成对。该随时间的平均值用于测量声道之间的长期相似性。
在一个实施例中,声道i与j之间的平均声道间距离根据下式计算:
Figure BDA0003521366370000201
其中,i,j在[1,C]的范围内并且i≠j,l在[1,L]的范围内,C是声道的数量,并且L是帧的数量。
可以使用最低和/或最高声道间距离作为平均距离的替代或补充。然而,平均值是优选的,因为虽然成对声道平均而言是相似的,但是不一定在例如每个帧上都是相似的。
在具有声道间频谱距离的实施例中,中央声道标识步骤140可以进一步包括分析Y个声道中未被标识为LFE声道或被划分为对的任何剩余未配对声道的计算出的声道间频谱距离以标识中央声道。这将进一步增加中央声道标识步骤140的准确性。
中央声道标识步骤140的置信度得分可以与所标识的中央声道与Y个声道中未被标识为LFE声道的其他声道之间的计算出的声道间频谱距离成比例,使得相对对称距离产生更可靠的结果。
中央声道优选地具有与未被标识为LFE声道的其他声道(即成对声道)的对称距离,因此相对对称距离产生更可靠的结果。
中央声道标识步骤140的置信度得分可以与声道对划分步骤130(如果存在的话)的置信度得分成正比。
如果例如中央声道标识步骤140仅包括标识任何剩余声道,则中央声道标识步骤140的可靠性与声道对划分步骤130的可靠性成正比。甚至在其他实施例中,所述对的匹配的可靠性可能直接影响中央声道标识步骤140的可靠性,因为这可能影响要被标识为中央声道的可用声道。
声道对划分步骤130中的对称声道的匹配可以进一步包括将每个声道的声能分布的相关性进行比较并将最相关的声道匹配成对。这是简单且高效的计算;然而,这仅在一些实施例中起作用。
所用相关性度量可以是余弦相似性、皮尔逊相关性系数和/或相关矩阵。
声道对划分步骤130可以进一步包括,对于Y个声道中未被标识为LFE声道的每个声道,测量和/或从先前测量结果(如果有的话)导入用于将声道匹配成对的计算的至少一个参数。
测量结果可以例如是在空声道标识步骤110或LFE声道确定步骤120中测量的声能。这提高了方法100的效率。
如果根据用于匹配声道对的(多个)特征来不同地匹配所述声道对,则可以使用(多个)特征的层级来确定要应用哪些配对。
层级可以例如是优于另一种度量的度量类型,如平均声道间频谱距离优于最大声道间频谱距离或声能分布的相关性。
声道对划分步骤130可以继续对Y个声道中未被标识为LFE声道的任何未配对声道进行配对,直到剩余的声道少于两个。
可能有多于两对的声道,如5.1音频格式的前对和后对。因此,如果剩余的声道多于两个,则其中可能有更多的声道对,并且可能有更多的对要划分。
声道对划分步骤130可以进一步包括将每对中多声道音频信号的第一接收到的声道分配为左声道并且将每对中最后列出的声道分配为右声道。
在多声道音频信号中,习惯上将每对中的左声道列出在右声道之前,因此通过假设总是如此,方法100更高效。
可以使用元数据来存储声道对的划分和/或左、右声道的分配(如果有的话)。
声道对划分步骤130的置信度得分可以与(多个)经匹配的对的对称性度量成比例,使得相对高的对称性度量产生更可靠的结果。
正确匹配的对优选地具有高对称性,因此如果声道对划分步骤130的结果具有相对高对称性的对,则该结果是相对可靠的。
声道对划分步骤130的置信度得分可以与(多个)经匹配的对之间的计算出的声道间频谱距离成比例,使得相对较短的距离产生更可靠的结果。
正确匹配的对优选地彼此之间距离较短,因此如果声道对划分步骤140的结果具有相对短距离的对,则该结果是相对可靠的。
声道对划分步骤140的置信度得分可以与(多个)经匹配的对中的每个声道与Y个声道中未被标识为LFE声道或者被匹配的声道的其他声道之间的计算出的声道间频谱距离成比例,使得相对长的距离产生更可靠的结果。
正确匹配的对优选地到其他声道的距离较长,因此如果声道对划分步骤140的结果具有到其他声道距离相对较长的对,则该结果是相对可靠的。
如果声道对划分步骤的置信度得分低于置信度阈值1030,则当计算声道间频谱距离时可以用不同的子带划分来重新执行1040声道对划分步骤的至少一部分。
通过改变子带划分,可以实现更可靠的结果。在一些实施例中,子带划分被改变,直到例如通过置信度阈值或配对得分阈值1030实现声道对划分步骤140的令人满意的可靠性。
配对得分是用于比较对的成员可能被分组到其他对中的可能性的度量。配对得分阈值是(多个)配对得分的预定阈值。如果(多个)配对得分高于配对得分阈值,则声道对划分步骤140的结果足够可靠。
该版本在图10的流程图中示出。首先,为每个可能的对计算平均声道间频谱距离。然后,为具有最低声道间频谱距离的对计算1020配对得分。如果配对得分对于作出决策来说不够高,则可以使用不同的时频分段来获得新的平均声道间频谱距离和对应的配对得分。可以执行试验,直到所有声道都配对或者满足一些终止条件。如果有两个以上的声道仍未被检测到,则将其置信度得分都设置为0。
置信度得分可以进一步由用于占数据总长度的全局权重因子加权。对所有未知声道进行声道对检测,直到仅剩下一个声道。
配对得分可以用作置信度得分或者置信度得分的一部分。
在一个实施例中,声道i和j的对的配对得分根据下式计算:
Figure BDA0003521366370000221
其中,Mq,i(l)是其中Dq,i(l)<Di,j(l)的帧的数量,其中,q是声道索引,q≠i,q≠j。Mq,i(l)的范围为[0,L]。
可以为任何可能的对或者仅为具有最低平均声道间频谱距离的两个声道(即,上述等式中的声道i和j)计算配对得分。配对得分是将其划分为声道对的置信度的度量。
配对得分将候选声道对i,j与其他声道中的每个声道之间的声道间频谱声道距离进行比较,并确保这两个声道彼此相似而与任何其他声道不同。如果存在也类似于声道i或j的其他声道,则Pi,j将比1小得多并且因此表示低可靠性。
图11示出了声道对位置区分步骤150的流程图。声道对区分步骤150包括在前对、侧对、后对和/或任何其他位置对之间区分被划分为对的声道。
声道对区分步骤150是用于声道标识的方法的一部分,优选地在声道对划分步骤130之后执行。
许多多声道音频信号包括多于一个声道对;如5.1,其包括前对和后对。因此,用于声道标识的方法能够在位置对之间进行区分并照此正确地标识所述位置对是有益的。
前声像的方向稳定性通常在大部分持续时间内保持,并且后声道通常携带可以增强整个声像的信息。
声道对区分步骤150可以包括计算1120每对的对间级别差;所述对间级别差与每对的子带声能之和的分贝差成比例;其中,具有相对最高级别的对被区分为所述前对。
替代性地或另外地,振幅平移可以结合对间级别差的计算发生。振幅平移包括生成虚拟声源。
大多数虚拟声源可以被生成为从正面出现。这将导致前对具有比其他位置对相对更高的振幅,因此具有最高振幅的对可以被区分为前对。
平移方法可以进一步包括使后对异相。因此,相对异相的对可以被区分为后对。
前对传统上是具有相对最高级别的对1140,因为最高级别应该最接近中央声道。
在一个实施例中,对于每个时频片,频带b的声道对i和j与另一个声道对m和n之间的对间级别差根据下式计算:
Figure BDA0003521366370000231
其中,Eb,i(l)+Eb,j(l)和Eb,m(l)+Eb,n(l)分别是帧l中的频带b上的对(i,j)和对(m,n)的子带能量,Eb,i(l)、Eb,j(l)、Eb,m(l)和Eb,n(l)分别是帧l中的声道i、j、m、n的频带b的子带能量,其中,i、j、m、n是[1,C]范围内的不等整数,其中,C是声道的数量;b=1..B,其中,B是频带的数量,并且l=1..L,其中,L是帧的数量。
对之间的对间级别差并不总是足够高,因为低于2dB的差可能无法提供信息。因此,可以选择具有可能在对之间产生较大对间级别差的内容的信号片段。
因此,声道对区分步骤150可以进一步包括为其中信号的子带声能高于能量阈值的每对中的每个声道选择信号的一个或多个片段;以及仅使用这些片段来计算声道的对间级别差。
通过选择具有超过能量阈值的子带声能形式的大量信息的片段,对间级别差可以增加。
声道对区分步骤150可以进一步包括为其中绝对对间级别差高于绝对阈值的每对选择1150信号的一个或多个片段;以及仅使用这些片段来计算声道的对间级别差。
通过选择具有高阈值的片段,平均对间级别差可以增加。许多多声道音频信号在部分信号期间在多于一个声道中具有相似的输出。这些部分不会造成对间级别差并且因此可以安全地忽略。
作为测量绝对对间级别差的补充,也可以使用或替代地使用与信号的总长度相比相对较小的片段中的平均对间级别差。
如果片段的选择没有导致足够高的平均对间级别差,则具有更高绝对阈值的选择可以实现这一点。
因此,如果相对最高平均对间级别差低于级别阈值(在步骤1130中确定),则可以用更高绝对阈值1150重复计算声道的对间级别差的步骤,直到平均对间级别差足够高。
替代性地或另外地,如果相对最高平均对间级别差低于级别阈值,则具有与所标识的中央声道相对最高的组合的方向一致性的对可以被区分为前对。
在一个实施例中,片段的选择被放弃并且可以替代地使用与所标识的中央声道的方向一致性来区分这些对。方向最接近中央声道的对也最接近中央声道。
方向一致性是时域中两个声道的相似性的度量,所述方向一致性与声像方向相关,所述声像方向进而意味着声道之间的相位差。
方向差可以用来测量两个声道之间的主要声源的方向一致性。根据实施例的方向一致性的简化测量如下:
Figure BDA0003521366370000241
其中,Si(n)是时域中的声道i的第n个样本值,使得Si(n)的每个值与波形上的一个点相对应,并且总样本值为T。其意味着两个声道之间的相位差。
前对传统上应该具有比其他位置对相对更高的彼此方向一致性,并且后对传统上应该具有比其他位置对相对更低的彼此方向一致性。
前对中的信号通常是时间对准的以表示方向声源,因此其具有更高的相关性和更低的延迟。这意味着与后对相比,前对中有更多相同的分量。如等式7中所例示的,方向差就是用来衡量这一点的。如果声道i和j中的信号相同,则这意味着这两个声道同相并且然后X=1,否则,X<1。如果两个声道异相,则X=0。
在另一个实施例中,如果相对最高平均对间级别差低于级别阈值并且绝对阈值高于最大阈值1160,则具有与所标识的中央声道1170相对最高的组合的方向一致性的对被区分为前对1180。
该实施例在图11中示出。在该实施例中,首先选择1110所有信号,然而平均对间级别差没有达到足够高的级别而无法超过级别阈值,并且片段的选择未能产生足够高的平均对间级别差。因此,可以替代地使用与所标识的中央声道的方向一致性来区分这些对。
片段的选择失败,因为平均对间级别差没有达到足够高的级别而无法超过级别阈值,并且绝对阈值太高以至于超过该绝对阈值的片段不够长而无法计算对间级别差。
级别阈值可以是2-3dB之间的常数。绝对阈值的最大阈值可以是2dB和/或导致所选片段的总长度短于例如非静音信号长度的20%或短于例如1分钟的任何阈值。
绝对阈值的最大阈值涉及当其中平均声道间频谱距离高于距离阈值的每对中的每个声道的信号的所选一个或多个片段不再足够长而无法计算声道间级别差时的情况。如果所选片段的总长度短于非静音信号长度的20%或短于例如1分钟,则有用信号太短。
位置对之间的区分可以基于这些位置对与所标识的中央声道的相似性。在这种情况下,与所标识的中央声道最相似的对可以被区分为前对,并且与所标识的中央声道最不相似的对可以被区分为后对。
习惯上中央声道是声像的前面,因此前对应该例如比后对更像中央声道。
与所标识的中央声道的相似性可以基于时频特征、空间特征、声像方向、声道之间的相位差和/或声道对间级别差。
替代性地或另外地,可以使用延迟平移来计算与所标识的中央声道的相似性,其中,与中央声道具有最高方向一致性的对被区分为前对。
首先检查时频特征,然后检查空间特征,因为振幅平移是最常用的并且时频特征的计算不是很耗时。
可以生成声道的方向模式来比较声道对的中心到对的距离。然后,更接近中央声道的声道对被检测为前对。
如果根据用于进行区分的特征将不同的对区分为相同的位置对,则可以根据层级对所述特征进行优先级排序。
层级可以取决于例如置信度得分、所用度量或所用阈值。
可以使用元数据来存储声道对的区分。
可以为声道对区分步骤150的结果计算置信度得分。
声道对区分步骤150的置信度得分可以与所标识的中央声道与Y个声道中未被标识为LFE声道的成对声道之间的计算出的声道间频谱距离成比例,使得前对与中央声道之间相对小的声道间频谱距离产生更可靠的结果。
最接近所标识的中央声道的对应该被区分为前对,并且与所标识的中央声道最不相似的对应该被区分为后对,并且该度量反映了这一点。
声道对区分步骤150的置信度得分可以与经划分的对的声道的方向性成比例,使得方向性之间相对大的差产生更可靠的结果。
方向更接近中央声道的对也更接近中央声道,因此是前对。因此,大的差产生更可靠的区分。可以使用不同对的绝对差和/或比率。
出于类似的原因,声道对区分步骤150的置信度得分可以与所标识的中央声道和经划分的对的声道的方向性成比例,使得中央声道与所述对之一的方向性之间相对小的差产生更可靠的结果。
声道对区分步骤150的置信度得分可以与成对声道的计算出的对间级别差成比例,使得相对高的平均级别差产生更可靠的结果。
高于2dB的平均对间级别差提供有用信息,并且平均对间级别差越高,提供的有用信息就越多。更多的信息产生更可靠的结果。
声道对区分步骤150的置信度得分可以与声道对划分步骤130和/或中央声道标识步骤140(如果存在)的置信度得分成正比。
如果声道对划分步骤130不可靠,则声道对区分步骤150也将不可靠。进一步地,声道对区分步骤150的许多可能的置信度得分计算取决于中央声道标识步骤140。因此,为了节省计算,可以重新使用先前为声道对划分步骤130和/或中央声道标识步骤140计算的置信度得分。
声道对区分步骤150的置信度得分可以与信号的所选一个或多个片段的长度成比例,使得相对长的一个或多个片段产生更可靠的结果。
所选片段的短的长度将使对间级别差的计算不可靠。可以使用所选片段的绝对长度和/或所选片段的长度与数据的总长度的比率。
如果声道对区分步骤150的置信度得分低于置信度阈值,则可以用不同数据片段来重新执行声道对区分步骤150的至少一部分。
这保证了声道对区分步骤150的结果是可靠的。
在研究了以上描述之后,本公开的进一步实施例对于本领域技术人员将变得显而易见。尽管本说明书和附图公开了实施例和示例,但是本公开不限于这些具体示例。在不脱离由所附权利要求限定的本公开的范围的情况下,可以做出许多修改和变化。在权利要求中出现的任何附图标记不应被理解为限制其范围。
另外地,通过对附图、本公开和所附权利要求的研究,本领域技术人员在实施本公开时可以理解和实现所公开的实施例的变型。在权利要求中,词语“包括”并不排除其他要素或步骤,并且不定冠词“一个(a)”或“一种(an)”并不排除复数。在相互不同的从属权利要求中陈述某些措施的简单事实并不表明这些措施的组合不能被有利地利用。
上文所公开的系统和方法可以被实施为软件、固件、硬件或其组合。例如,本申请的各方面可以至少部分地体现在装置、包括多于一个设备的系统、方法、计算机程序产品等中。在硬件实施方式中,以上描述中所提及的功能单元之间的任务划分不一定对应于物理单元的划分;相反,一个物理部件可以具有多个功能,并且一个任务可以由若干个物理部件协作地执行。某些部件或所有部件可以被实施为由数字信号处理器或微处理器执行的软件或者被实施为硬件或专用集成电路。这种软件可以分布在计算机可读介质上,所述计算机可读介质可以包括计算机存储介质(或非暂态介质)和通信介质(或暂态介质)。如本领域技术人员所熟知的,术语计算机存储介质包括以用于存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除的介质。计算机存储介质包括但不限于:RAM、ROM、EEPROM、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光盘存储设备、磁带盒、磁带、磁盘存储或其他磁性存储设备、或可以用于存储期望信息并且可以被计算机访问的任何其他介质。进一步地,本领域技术人员所熟知的是,通信介质通常以如载波等经调制数据信号或其他传输机制的形式来实施计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息传递介质。
可以从以下枚举的示例实施例(EEE)中理解本发明的各个方面:
EEE 1.一种用于对包括X>1个声道的多声道音频信号进行声道标识的方法,所述方法(100)包括以下步骤:
在所述X个声道中标识(110)任何空声道,从而产生具有Y≤X个非空声道的子集;
确定(120)在所述Y个声道中是否存在低频效果(LFE)声道,并且在确定存在LFE声道时,将所述Y个声道中的所确定的声道标识为所述LFE声道;
通过匹配对称声道来将所述Y个声道中未被标识为所述LFE声道的剩余声道划分(130)为任何数量的声道对;以及
将所述Y个声道中未被标识为所述LFE声道或被划分为对的任何剩余未配对声道标识(140)为中央声道。
EEE 2.根据EEE 1所述的方法,进一步包括在前对、侧对、后对和/或任何其他位置对之间区分(150)被划分为对的所述声道的步骤。
EEE 3.根据EEE 2所述的方法,其中,所述声道对区分步骤包括计算所述对之间的对间级别差;所述对间级别差与每对的子带声能之和的分贝差成比例;其中,具有相对最高级别的对被区分为所述前对。
EEE 4.根据EEE 3所述的方法,其中,所述声道对区分步骤进一步包括与所述对间级别差的计算结合的振幅平移,振幅平移包括生成虚拟声源。
EEE 5.根据EEE 3或4所述的方法,其中,所述声道对区分步骤进一步包括为其中所述信号的子带声能高于能量阈值的每对选择所述信号的一个或多个片段;以及仅使用这些片段来计算所述对的对间级别差。
EEE 6.根据EEE 3至5中任一项所述的方法,其中,所述声道对区分步骤进一步包括在其中绝对对间级别差高于绝对阈值的每对中选择所述信号的一个或多个片段;以及仅使用这些片段来计算所述对间级别差。
EEE 7.根据EEE 6所述的方法,其中,如果相对最高的平均对间级别差低于级别阈值,则以较高绝对阈值重复计算所述声道的对间级别差的步骤。
EEE 8.根据EEE 3至7中任一项所述的方法,其中,如果所述相对最高的平均对间级别差低于级别阈值,则具有与所标识的中央声道相对最高的组合的方向一致性的对被区分为所述前对。
EEE 9.根据EEE 7所述的方法,其中,如果所述相对最高的平均对间级别差低于级别阈值并且所述绝对阈值高于最大阈值,则具有与所标识的中央声道相对最高的组合的方向一致性的所述对被区分为所述前对。
EEE 10.根据EEE 9所述的方法,其中,所述绝对阈值的最大阈值是2dB。
EEE 11.根据EEE 8至10中任一项所述的方法,其中,所述方向一致性是时域中两个声道的相似性的度量,所述方向一致性与声像方向相关,所述声像方向进而意味着所述声道之间的相位差。
EEE 12.根据EEE 7至11中任一项所述的方法,其中,所述级别阈值是2-3dB之间的常数。
EEE 13.根据EEE 2至12中任一项所述的方法,其中,所述位置对之间的区分基于其与所标识的中央声道的相似性。
EEE 14.根据EEE 13所述的方法,其中,与所标识的中央声道最相似的对被区分为所述前对,并且与所标识的中央声道最不相似的对被区分为所述后对。
EEE 15.根据EEE 13或14所述的方法,其中,与所标识的中央声道的相似性基于时频特征、空间特征、声像方向、所述声道之间的相位差和/或对间级别差。
EEE 16.根据EEE 13至15中任一项所述的方法,其中,与所标识的中央声道的相似性是使用延迟平移来计算的,其中,与所述中央声道具有最高方向一致性的对被区分为所述前对。
EEE 17.根据EEE 13至16中任一项所述的方法,其中,与所标识的中央声道的相似性是通过生成所述声道的方向模式以比较所述声道对的中心到对的距离来计算的,其中,更接近中央声道的对被区分为所述前对。
EEE 18.根据EEE 2至17中任一项所述的方法,其中,如果取决于用于进行区分的特征将不同的对区分为相同的位置对,则根据层级对所述特征进行优先级排序。
EEE 19.根据EEE 2至18中任一项所述的方法,其中,使用元数据来存储所述声道对的区分。
EEE 20.根据前述EEE中任一项所述的方法,其中,所述空声道标识步骤进一步包括测量所述X个声道中的每个声道中的声能。
EEE 21.根据EEE 20所述的方法,其中,所述X个声道中的每个声道中的所述声能是在短期、中期和/或长期持续时间中测量的。
EEE 22.根据EEE 20或21所述的方法,其中,如果声道的总声能低于能量阈值,则所述声道被标识为空。
EEE 23.根据EEE 20至22中任一项所述的方法,其中,如果声道的每个子带声能低于能量阈值,则所述声道被标识为空。
EEE 24.根据EEE 20至23中任一项所述的方法,其中,所述声能是在时域、谱域、小波域和/或听觉域中测量的。
EEE 25.根据前述EEE中任一项所述的方法,其中,使用元数据来存储空声道的标识。
EEE 26.根据EEE 20至25中任一项所述的方法,其中,LFE声道确定步骤进一步包括使用在所述Y个声道中的每个声道中测量的声能来确定是否存在LFE声道。
EEE 27.根据前述EEE中任一项所述的方法,其中,所述LFE声道确定步骤进一步包括测量所述Y个声道中的每个声道中存在高于能量阈值的声能的频带。
EEE 28.根据EEE 27所述的方法,其中,所述Y个声道中的每个声道中存在高于能量阈值的声能的所述频带是在短期、中期和/或长期持续时间中测量的。
EEE 29.根据EEE 26至28中任一项所述的方法,其中,如果声道的低频区域中的子带声能之和显著高于该声道中所有其他频率区域中的子带声能之和,则确定在所述Y个声道中存在LFE声道。
EEE 30.根据EEE 29所述的方法,其中,每个频率区域中的子带声能之和分别按照每个频率区域的大小进一步归一化。
EEE 31.根据EEE 29或30所述的方法,其中,任何这样的声道都被标识为所述LFE声道。
EEE 32.根据EEE 29至31中任一项所述的方法,其中,所述低频区域包括低于200Hz的任何子带。
EEE 33.根据EEE 26至32中任一项所述的方法,其中,如果声道在低于频率阈值的频率区域中仅包括高于能量阈值的子带声能,则确定在所述Y个声道中存在LFE声道。
EEE 34.根据EEE 33所述的方法,其中,仅任何这样的声道被标识为所述LFE声道。
EEE 35.根据EEE 33或34所述的方法,其中,所述频率阈值为200Hz或更高。
EEE 36.根据EEE 26至35中任一项所述的方法,其中,如果确定在所述Y个声道中存在几个LFE声道,则根据用于确定是否存在LFE声道的(多个)特征的层级,仅一个LFE声道被标识为所述LFE声道。
EEE 37.根据前述EEE中任一项所述的方法,其中,使用元数据来存储所述LFE声道的标识。
EEE 38.根据前述EEE中任一项所述的方法,其中,所述声道对划分步骤中的对称声道的匹配进一步包括将时间特征、频谱特征、听觉特征和/或其他域中的特征进行比较以计算每个声道的音频信号之间的声能分布和方差,并将最对称的声道匹配成对。
EEE 39.根据EEE 38所述的方法,其中,所述声道对划分步骤中的对称声道的匹配进一步包括使用每个声道在短期、中期和/或长期持续时间中计算出的声能分布和方差来计算所述声道之间的声道间频谱距离;所述声道间频谱距离是针对多个子带进行求和的、每个声道中的两个匹配声能子带之间的距离的归一化成对度量;以及将彼此距离最短的所述声道匹配成对。
EEE 40.根据EEE 39所述的方法,其中,所用距离度量是欧几里得距离、曼哈顿距离和/或闵可夫斯基距离。
EEE 41.根据EEE 38或40所述的方法,其中,所述计算出的声道间频谱距离随时间的平均值可以被计算并用于将彼此具有最短平均距离的声道匹配成对。
EEE 42.根据EEE 39至41中任一项所述的方法,其中,所述中央声道标识步骤进一步包括分析所述Y个声道中未被标识为所述LFE声道或被划分为对的任何剩余未配对声道的所述计算出的声道间频谱距离以标识所述中央声道。
EEE 43.根据前述EEE中任一项所述的方法,其中,所述声道对划分步骤中的对称声道的匹配进一步包括将每个声道的声能分布的相关性进行比较并将最相关的声道匹配成对。
EEE 44.根据EEE 43所述的方法,其中,所用相关性度量是余弦相似性、皮尔逊相关性系数和/或相关矩阵。
EEE 45.根据EEE 38至44中任一项所述的方法,其中,所述声道对划分步骤进一步包括,对于所述Y个声道中未被标识为所述LFE声道的每个声道,测量和/或从先前测量结果(如果有的话)导入用于将所述声道匹配成对的所述计算的至少一个参数。
EEE 46.根据EEE 38至45中任一项所述的方法,其中,如果根据用于匹配所述声道对的(多个)特征不同地匹配所述声道对,则所使用的(多个)特征的层级确定要应用哪些配对。
EEE 47.根据前述EEE中任一项所述的方法,其中,所述声道对划分步骤继续对所述Y个声道中未被标识为所述LFE声道的任何未配对声道进行配对,直到剩余的声道少于两个。
EEE 48.根据前述EEE中任一项所述的方法,其中,所述声道对划分步骤进一步包括将每对中所述多声道音频信号的第一接收到的声道分配为左声道并且将每对中最后列出的声道分配为右声道。
EEE 49.根据前述EEE中任一项所述的方法,其中,使用元数据来存储声道对的划分和/或左、右声道的分配(如果有的话)。
EEE 50.根据前述EEE中任一项所述的方法,其中,所述中央声道标识步骤进一步包括计算所述Y个声道中未被标识为所述LFE声道或被划分为对的任何剩余未配对声道与所述Y个声道中的其他声道相比的独立性和/或不相关性,并且将所述中央声道标识为最独立和/或不相关的声道。
EEE 51.根据EEE 50所述的方法,其中,仅与被划分为对的声道相比计算所述Y个声道中未被标识为所述LFE声道或被划分为对的任何剩余未配对声道的独立性和/或不相关性的计算。
EEE 52.根据从属于EEE 2至19中至少一项的EEE 50或51所述的方法,其中,所述中央声道标识步骤发生在所述声道对区分步骤之后,并且仅与被区分为所述前对的声道相比计算所述Y个声道中未被标识为所述LFE声道或被划分为对的任何剩余未配对声道的独立性和/或不相关性的计算。
EEE 53.根据前述EEE中任一项所述的方法,其中,使用元数据来存储所述中央声道的标识。
EEE 54.根据前述EEE中任一项所述的方法,进一步包括计算所述方法的步骤的任何结果的置信度得分,所述置信度得分是对结果的可靠程度的度量。
EEE 55.根据EEE 54所述的方法,其中,如果所述多声道音频信号的持续时间低于特定持续时间阈值,则将所述置信度得分乘以小于一的权重因子,使得小于所述持续时间阈值的持续时间产生不太可靠的结果。
EEE 56.根据EEE 55所述的方法,其中,所述权重因子与所述持续时间除以所述持续时间阈值成比例,使得相对较长的持续时间产生更可靠的结果。
EEE 57.根据EEE 55或56所述的方法,其中,如果所述持续时间比所述持续时间阈值长,则不应用所述权重因子或者所述权重因子等于一。
EEE 58.根据EEE 55至57中任一项所述的方法,其中,所述持续时间阈值是5-30分钟之间的常数。
EEE 59.根据EEE 54至58中任一项所述的方法,其中,所述空声道标识步骤的置信度得分与所标识的空声道的声能成比例,使得相对较低的声能产生更可靠的结果。
EEE 60.根据EEE 54至59中任一项所述的方法,其中,所述LFE声道确定步骤的置信度得分与所确定的LFE声道的所述低频区域中的所述子带声能与所有其他频率区域中的所述子带声能之间的差成比例,使得相对较大的差产生更可靠的结果。
EEE 61.根据EEE 60所述的方法,其中,所述子带声能之间的差是通过将不同频率区域中的所述子带声能之和进行比较来计算的。
EEE 62.根据EEE 60或61所述的方法,其中,所述低频区域包括低于200Hz的任何子带。
EEE 63.根据EEE 54至62中任一项所述的方法,其中,所述LFE声道确定步骤的置信度得分与所确定的LFE声道在高于频率阈值的频率区域中的所述子带声能之和成比例,使得相对较低的总和产生更可靠的结果。
EEE 64.根据EEE 63所述的方法,其中,所述频率阈值为200Hz或更高。
EEE 65.根据EEE 54至64中任一项所述的方法,其中,所述LFE声道确定步骤的置信度得分与所确定的LFE声道中存在的最高频率信号成比例,使得相对较低的最高频率信号产生更可靠的结果。
EEE 66.根据EEE 54至65中任一项所述的方法,其中,所述声道对划分步骤的置信度得分与(多个)经匹配的对的对称性度量成比例,使得相对高的对称性度量产生更可靠的结果。
EEE 67.根据EEE 54至66中任一项所述的方法,其中,所述声道对划分步骤的置信度得分与所述(多个)经匹配的对之间的计算出的声道间频谱距离成比例,使得相对较短的距离产生更可靠的结果。
EEE 68.根据EEE 54至67中任一项所述的方法,其中,所述声道对划分步骤的置信度得分与所述(多个)经匹配的对中的每个声道与所述Y个声道中未被标识为所述LFE声道或者被匹配的声道的所述其他声道之间的计算出的声道间频谱距离成比例,使得相对长的距离产生更可靠的结果。
EEE 69.根据EEE 66至68中任一项所述的方法,其中,如果所述声道对划分步骤的置信度得分低于置信度阈值,则当计算声道间频谱距离时用不同的子带划分来重新执行所述声道对划分步骤的至少一部分。
EEE 70.根据EEE 54至69中任一项所述的方法,其中,所述中央声道标识步骤的置信度得分与所标识的中央声道与所述Y个声道中未被标识为所述LFE声道的所述声道相比的独立性和/或不相关性成比例,使得相对高的独立性和/或不相关性产生更可靠的结果。
EEE 71.根据EEE 54至70中任一项所述的方法,其中,所述中央声道标识步骤的置信度得分与所标识的中央声道与所述Y个声道中未被标识为所述LFE声道的所述其他声道之间的计算出的声道间频谱距离成比例,使得相对对称的距离产生更可靠的结果。
EEE 72.根据EEE 54至71中任一项所述的方法,其中,所述中央声道标识步骤的置信度得分与所述声道对划分步骤(如果存在的话)的置信度得分成正比。
EEE 73.根据从属于EEE 2至19中至少一项的EEE 54至72中任一项所述的方法,其中,为所述声道对区分步骤的结果计算置信度得分。
EEE 74.根据EEE 73所述的方法,其中,所述声道对区分步骤的置信度得分与所标识的中央声道与所述Y个声道中未被标识为所述LFE声道的成对声道之间的计算出的声道间频谱距离成比例,使得所述前对与所述中央声道之间相对小的声道间频谱距离产生更可靠的结果。
EEE 75.根据EEE 73或74所述的方法,其中,所述声道对区分步骤的置信度得分与经划分的对的所述声道的方向性成比例,使得所述方向性之间相对大的差产生更可靠的结果。
EEE 76.根据EEE 73至75中任一项所述的方法,其中,所述声道对区分步骤的置信度得分与所标识的中央声道和所述经划分的对的声道的方向性成比例,使得所述中央声道与所述对之一的方向性之间相对小的差产生更可靠的结果。
EEE 77.根据EEE 73至76中任一项所述的方法,其中,所述声道对区分步骤的置信度得分与所述声道对的计算出的对间级别差成比例,使得相对高的平均级别差产生更可靠的结果。
EEE 78.根据EEE 73至77中任一项所述的方法,其中,所述声道对区分步骤的置信度得分与所述声道对划分步骤和/或所述中央声道标识步骤(如果存在)的置信度得分成正比。
EEE 79.根据至少从属于EEE 4或5的EEE 73至78中任一项所述的方法,其中,所述声道对区分步骤的置信度得分与所述信号的所选一个或多个片段的长度成比例,使得相对长的一个或多个片段产生更可靠的结果。
EEE 80.根据EEE 73至79中任一项所述的方法,其中,如果所述声道对区分步骤的置信度得分低于置信度阈值,则用不同数据片段来重新执行所述声道对区分步骤的至少一部分。
EEE 81.根据EEE 54至80中任一项所述的方法,其中,如果所述方法的特定步骤的置信度得分的多个计算选项可用,则以层级应用所述计算选项。
EEE 82.根据EEE 54至81中任一项所述的方法,其中,使用元数据来存储所述置信度得分。
EEE 83.根据EEE 54至82中任一项所述的方法,进一步包括显示步骤(160),其中,(多个)计算出的置信度得分显示在显示器(60)上。
EEE 84.根据EEE 83所述的方法,其中,所述显示步骤进一步包括如果所述计算出的置信度得分低于置信度阈值,则显示警告。
EEE 85.根据前述EEE中任一项所述的方法,进一步包括显示步骤,其中,显示所标识的声道布局。
EEE 86.根据EEE 83至85中任一项所述的方法,其中,所述显示步骤进一步包括等待用户使用如按钮或触摸屏等用户界面进行输入。
EEE 87.根据EEE 85和86所述的方法,其中,所标识的声道布局在被应用于所述多声道音频信号之前由所述用户批准。
EEE 88.根据EEE 87所述的方法,其中,不提示所述用户批准与所述用户的设置布局相同的所标识的声道布局。
EEE 89.根据EEE 83至88中任一项所述的方法,其中,所述显示步骤进一步包括如果所标识的声道布局与所述用户的设置布局不同,则显示警告。
EEE 90.根据从属于EEE 54至82中任一项的EEE 89所述的方法,其中,警告级别与(多个)所述计算出的置信度得分成比例。
EEE 91.根据EEE 83至90中任一项所述的方法,其中,所述显示步骤进一步包括允许用户操纵所显示的数据。
EEE 92.根据EEE 91所述的方法,其中,在所述方法的声道标识步骤中使用经操纵的数据。
EEE 93.根据EEE 83至92中任一项所述的方法,其中,所述显示步骤进一步包括允许用户选择信号的要忽略的至少一个片段。
EEE 94.根据前述EEE中任一项所述的方法,进一步包括将所标识的声道布局应用(170)于所述多声道音频信号的步骤。
EEE 95.根据从属于EEE 54至82中任一项的EEE 94所述的方法,其中,仅当(多个)所述计算出的置信度得分超过置信度阈值时才应用所标识的声道布局。
EEE 96.根据EEE 94或95所述的方法,其中,所述应用步骤包括使用任何当前元数据将所标识的声道布局应用于所述多声道音频信号。
EEE 97.根据前述EEE中任一项所述的方法,其中,当所述多声道音频信号被流式传输到扬声器系统时,将通过所述方法标识的声道布局实时应用于所述多声道音频信号。
EEE 98.根据前述EEE中任一项所述的方法,其中,所述多声道音频信号是用于内容创建、分析、变换和回放系统的多声道环绕声音文件或流。
EEE 99.根据前述EEE中任一项所述的方法,其中,所述方法的步骤中的至少一个步骤使用基于机器学习的方法。
EEE 100.根据EEE 99所述的方法,其中,所述基于机器学习的方法是决策树、Adaboost、GMM、SVM、HMM、DNN、CNN和/或RNN。
EEE 101.一种被配置用于标识多声道音频信号的声道的设备,所述设备(1)包括电路,所述电路被配置为执行根据前述权利要求中任一项所述的方法(100)。
EEE 102.一种计算机程序产品,所述计算机程序产品包括具有指令的非暂态计算机可读存储介质,所述指令被适配成当由具有处理能力的设备(1)执行时执行如EEE 1至EEE 100中任一项所述的方法。

Claims (15)

1.一种用于对包括X>1个声道的多声道音频信号进行声道标识的方法,所述方法(100)包括以下步骤:
在所述X个声道中标识(110)任何空声道,从而产生具有Y≤X个非空声道的子集;
确定(120)在所述Y个声道中是否存在低频效果(LFE)声道,并且在确定存在LFE声道时,将所述Y个声道中的所确定的声道标识为所述LFE声道;
通过匹配对称声道来将所述Y个声道中未被标识为所述LFE声道的剩余声道划分(130)为任何数量的声道对;以及
将所述Y个声道中未被标识为所述LFE声道或被划分为对的任何剩余未配对声道标识(140)为中央声道。
2.根据权利要求1所述的方法,进一步包括将被划分为对的声道在前对、侧对、后对和/或任何其他位置对之间进行区分(150)的步骤,其中,声道对区分步骤包括计算每两对之间的对间级别差;所述对间级别差与每对的子带声能之和的分贝差成比例;其中,具有相对最高级别的对被区分为所述前对。
3.根据权利要求2所述的方法,其中,所述声道对区分步骤进一步包括:为其中绝对对间级别差高于绝对阈值的每对中的每个声道选择所述信号的一个或多个片段;以及仅使用这些片段来计算所述声道的所述对间级别差,其中,如果相对最高的平均对间级别差低于级别阈值,则以更高的绝对阈值重复进行计算所述声道的所述对间级别差的步骤。
4.根据权利要求3所述的方法,其中,如果所述相对最高的平均对间级别差低于级别阈值并且所述绝对阈值高于最大阈值,则具有相对最高的方向一致性的对被区分为所述前对,其中,所述方向一致性是时域中两个声道的相似性的度量,所述方向一致性与声像方向相关,所述声像方向进而意味着所述声道之间的相位差。
5.根据前述权利要求中任一项所述的方法,其中,空声道标识步骤进一步包括测量所述X个声道中的每个声道中的声能,其中,如果声道的总声能低于能量阈值,则所述声道被标识为空。
6.根据前述权利要求中任一项所述的方法,其中,如果声道的低频区域、即低于200Hz的任何子带中的子带声能之和显著高于所述声道中所有其他频率区域中的子带声能之和,则确定在所述Y个声道中存在LFE声道。
7.根据前述权利要求中任一项所述的方法,其中,声道对划分步骤中的所述对称声道的匹配进一步包括:使用每个声道的计算出的声能分布和方差来计算所述声道之间的声道间频谱距离;所述声道间频谱距离是针对多个子带进行求和的、每个声道中的两个匹配声能子带之间的距离的归一化成对度量;以及将彼此距离最短的所述声道匹配成对。
8.根据前述权利要求中任一项所述的方法,其中,声道对划分步骤继续对所述Y个声道中未被标识为所述LFE声道的任何未配对声道进行配对,直到剩余的声道少于两个。
9.根据前述权利要求中任一项所述的方法,进一步包括:计算所述方法的步骤的任何结果的置信度得分,所述置信度得分是对所述结果的可靠程度的度量,其中,如果所述多声道音频信号的持续时间低于特定持续时间阈值,则将所述置信度得分乘以小于一的权重因子,使得小于所述持续时间阈值的持续时间产生更不可靠的结果。
10.根据权利要求9所述的方法,进一步包括显示步骤(160),其中,将计算出的置信度得分显示在显示器(60)上;并且其中,如果所述计算出的置信度得分低于置信度阈值和/或如果所标识的声道布局与用户的设置布局不同,则显示警告。
11.根据前述权利要求中任一项所述的方法,进一步包括将所标识的声道布局应用(170)于所述多声道音频信号的步骤。
12.根据前述权利要求中任一项所述的方法,其中,当所述多声道音频信号被流式传输到扬声器系统时,将通过所述方法标识的声道布局实时应用于所述多声道音频信号。
13.根据前述权利要求中任一项所述的方法,其中,所述方法的步骤中的至少一个步骤使用基于机器学习的方法,其中,所述基于机器学习的方法是决策树、Adaboost、GMM、SVM、HMM、DNN、CNN和/或RNN。
14.一种被配置用于标识多声道音频信号的声道的设备,所述设备(1)包括电路,所述电路被配置为执行根据前述权利要求中任一项所述的方法(100)。
15.一种计算机程序产品,所述计算机程序产品包括具有指令的非暂态计算机可读存储介质,所述指令被适配成当由具有处理能力的设备(1)执行时,执行如权利要求1至13中任一项所述的方法(100)。
CN202080060506.5A 2019-08-30 2020-08-27 多声道音频信号的声道标识 Pending CN114303392A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CN2019103813 2019-08-30
CNPCT/CN2019/103813 2019-08-30
US201962912279P 2019-10-08 2019-10-08
US62/912,279 2019-10-08
EP19204516 2019-10-22
EP19204516.9 2019-10-22
PCT/US2020/048128 WO2021041623A1 (en) 2019-08-30 2020-08-27 Channel identification of multi-channel audio signals

Publications (1)

Publication Number Publication Date
CN114303392A true CN114303392A (zh) 2022-04-08

Family

ID=72381169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080060506.5A Pending CN114303392A (zh) 2019-08-30 2020-08-27 多声道音频信号的声道标识

Country Status (5)

Country Link
US (1) US20220319526A1 (zh)
EP (1) EP4022606A1 (zh)
JP (1) JP2022545709A (zh)
CN (1) CN114303392A (zh)
WO (1) WO2021041623A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230049238A (ko) * 2021-10-06 2023-04-13 삼성전자주식회사 마이크 어레이의 이상 채널 검출 및 보상 신호 생성 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101816040A (zh) * 2005-04-15 2010-08-25 弗劳恩霍夫应用研究促进协会 生成多声道合成器控制信号的设备和方法及多声道合成的设备和方法
US20120195433A1 (en) * 2011-02-01 2012-08-02 Eppolito Aaron M Detection of audio channel configuration
US20140355769A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
WO2016036637A2 (en) * 2014-09-04 2016-03-10 Dolby Laboratories Licensing Corporation Generating metadata for audio object
CN107113526A (zh) * 2014-12-22 2017-08-29 杜比实验室特许公司 从音频内容基于投影提取音频对象

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100745688B1 (ko) * 2004-07-09 2007-08-03 한국전자통신연구원 다채널 오디오 신호 부호화/복호화 방법 및 장치
US8694306B1 (en) * 2012-05-04 2014-04-08 Kaonyx Labs LLC Systems and methods for source signal separation
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101816040A (zh) * 2005-04-15 2010-08-25 弗劳恩霍夫应用研究促进协会 生成多声道合成器控制信号的设备和方法及多声道合成的设备和方法
US20120195433A1 (en) * 2011-02-01 2012-08-02 Eppolito Aaron M Detection of audio channel configuration
US20140355769A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
WO2016036637A2 (en) * 2014-09-04 2016-03-10 Dolby Laboratories Licensing Corporation Generating metadata for audio object
CN107113526A (zh) * 2014-12-22 2017-08-29 杜比实验室特许公司 从音频内容基于投影提取音频对象

Also Published As

Publication number Publication date
WO2021041623A1 (en) 2021-03-04
JP2022545709A (ja) 2022-10-28
US20220319526A1 (en) 2022-10-06
EP4022606A1 (en) 2022-07-06

Similar Documents

Publication Publication Date Title
US11289072B2 (en) Object recognition method, computer device, and computer-readable storage medium
US20220335959A1 (en) Multi-mode audio recognition and auxiliary data encoding and decoding
US11935548B2 (en) Multi-channel signal encoding method and encoder
US10026410B2 (en) Multi-mode audio recognition and auxiliary data encoding and decoding
US10127915B2 (en) Managing silence in audio signal identification
EP2979359B1 (en) Equalizer controller and controlling method
CN1264137C (zh) 使用基于听觉事件的特征化的时间对准音频信号的方法
EP3190702B1 (en) Volume leveler controller and controlling method
US9313359B1 (en) Media content identification on mobile devices
JP4952698B2 (ja) 音声処理装置、音声処理方法およびプログラム
US8612237B2 (en) Method and apparatus for determining audio spatial quality
JP5957446B2 (ja) 音響処理システム及び方法
EP2896040B1 (en) Multi-channel audio content analysis based upmix detection
US20140350923A1 (en) Method and device for detecting noise bursts in speech signals
AU2006233504A1 (en) Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US20190387273A1 (en) Media Content Identification on Mobile Devices
US9936328B2 (en) Apparatus and method for estimating an overall mixing time based on at least a first pair of room impulse responses, as well as corresponding computer program
JP2022177253A (ja) 方向性音量マップベースのオーディオ処理
CN109997186B (zh) 一种用于分类声环境的设备和方法
CN114303392A (zh) 多声道音频信号的声道标识
US9445210B1 (en) Waveform display control of visual characteristics
Lopatka et al. Improving listeners' experience for movie playback through enhancing dialogue clarity in soundtracks
CN111028860A (zh) 音频数据处理方法、装置、计算机设备以及存储介质
CN114400024A (zh) 利用音频判别模型对音频进行判别的判别设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination