CN103548077B - 参数化音频编译码方案的取证检测 - Google Patents

参数化音频编译码方案的取证检测 Download PDF

Info

Publication number
CN103548077B
CN103548077B CN201280024357.2A CN201280024357A CN103548077B CN 103548077 B CN103548077 B CN 103548077B CN 201280024357 A CN201280024357 A CN 201280024357A CN 103548077 B CN103548077 B CN 103548077B
Authority
CN
China
Prior art keywords
signal
band
subband signal
frequency
subband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201280024357.2A
Other languages
English (en)
Other versions
CN103548077A (zh
Inventor
H·H·蒙特
A·比斯沃斯
R·拉达克里希南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Dolby Laboratories Licensing Corp
Original Assignee
Dolby International AB
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB, Dolby Laboratories Licensing Corp filed Critical Dolby International AB
Publication of CN103548077A publication Critical patent/CN103548077A/zh
Application granted granted Critical
Publication of CN103548077B publication Critical patent/CN103548077B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Abstract

本申请涉及音频取证,尤其是参数化音频编码/解码的踪迹的盲检测。具体地讲,本申请涉及从未压缩波形(诸如PCM(脉冲代码调制)编码的波形)对参数化频率扩展音频编译码(诸如频带复制(SBR)或频谱扩展(SPX))的检测。描述了一种用于检测时域音频信号中的频率扩展编译码历史的方法。该方法可以包括:将时域音频信号变换到频域中,从而产生包括低频子带和高频子带的相应的多个子带中的多个子带信号;确定低频子带中的子带信号与高频子带中的子带信号之间的关系程度;其中,基于所述多个子带信号确定关系程序;如果关系程度大于关系阈值,则确定频率扩展编译码历史。

Description

参数化音频编译码方案的取证检测
相关申请的交叉引用
本申请要求于2011年5月19日提交的美国专利临时申请No.61/488,122的优先权,该申请的全部内容通过引用并入此。
技术领域
本申请涉及音频取证(forensic),尤其是音频信号中的参数化音频编码/解码的踪迹的盲检测。具体地讲,本申请涉及从未压缩波形(诸如PCM(脉冲码调制)编码的波形)对参数化立体声编译码(coding)的检测和/或对参数化频率扩展音频编译码(诸如谱带复制(SBR)或频谱扩展(SPX))的检测。
背景技术
HE-AAC(高效率——高级音频编译码)是低比特率和适中比特率(例如,对于立体声内容,24-96kb/s)的、高效率的音乐音频编解码器。在HE-AAC中,以因子2对音频信号进行下采样,并且所得的低频带信号被进行AAC波形编译码。以低的附加比特率(典型地,每一音频通道3kb/s)使用SBR来对被去除的高频进行参数化编译码。结果,在音频信号的整个频带上,与普通AAC波形编译码相比,总比特率可被显著地降低。
所发送的SBR参数描述了从AAC解码的低频带输出产生更高频带的方式。高频带的这种产生处理包括从低频带信号到高频带的补丁(patch)的拷贝粘贴或向上拷贝(copy-up)处理。在HE-AAC中,补丁描述了被向上拷贝到更高频以便重新创建没有被AAC编码的高频内容的一组相邻子带。典型地,根据编译码比特率状况,应用2-3个补丁。通常,对于一种编译码比特率状况,补丁参数不随时间改变。然而,MPEG标准允许随时间改变补丁参数。基于在编码的比特流内发送的包络参数对人工产生的更高频带的频谱包络进行修改。作为向上拷贝处理和包络调整的结果,可以在感知上保持原始音频信号的特性。
SBR编译码可以使用其他SBR参数,以便通过噪声和/或音调添加/去除来进一步调整扩展的频率范围中的信号(即,调整高带信号)。
本申请提供了估计是否已经通过使用参数化频率扩展音频编译码(诸如MPEGSBR技术)(例如,使用HE-AAC)对PCM音频信号进行了编译码(编码和解码)的手段。换句话讲,本申请提供了用于分析在未压缩的域中的给定的音频信号并且确定该给定的音频信号先前是否已经受到参数化频率扩展音频编译码的手段。换句话讲,给定(解码的)音频信号(例如,PCM格式),可能希望的是知道先前是否已经使用某一编码/解码方案对该音频信号进行了编码。特别地,可能希望的是知道是否通过频谱带宽复制处理产生了音频信号的高频频谱分量。另外,可能希望的是知道是否基于所发送的单声信号创建了立体声信号或者立体声信号的某些时间/频率区域是否来源于同一单声信号的时间/频率数据。
应当指出,即使本申请中所概述的方法是在音频编译码的上下文下进行描述的,但是它们可应用于结合时间/频率数据的副本(duplication)的任何形式的音频处理。特别地,这些方法可应用于盲SBR的上下文,盲SBR是音频编译码中不发送SBR参数的特殊情况。
可能的使用情况可以是SBR相关知识产权的保护,例如,MPEGSBR技术或基础上基于SBR的任何其他新型的参数化频率扩展编译码工具(例如,MPEG-D通用语音和音频编解码器(USAC)中的增强SBR(eSBR))的未授权使用的监视。此外,当除了(解码的)PCM音频信号之外没有其它的信息可用时,可改进转码和/或重新编码。举例来说,如果知道已经通过带宽扩展处理产生了解码的PCM音频信号的高频频谱分量,则当重新对该音频信号进行编码时,可以使用该信息。特别地,重新编码器的参数(例如,交越频率(cross-overfrequency)和补丁参数)可以被设置为使得高频频谱分量被进行SBR编码,而低频带信号被进行波形编码。这将导致与普通波形编译码相比节省了比特率并实现更高质量的带宽扩展。此外,关于(解码的)音频信号的编码历史的了解可被用于高比特率波形编码的(例如,AAC或DolbyDigital)内容的质量保证。这可以通过确保SBR编译码或不是透明编译码方法的一些其他参数化编译码方案在过去没有被应用于(解码的)音频信号来实现。另外,关于编码历史的了解可以是例如通过考虑在(解码的)音频信号内检测到的SBR补丁的数量和大小来对(解码的)音频信号的声音质量进行评估的基础。
因而,本申请涉及PCM编码的波形中的参数化音频编译码方案的检测。该检测可以通过对频率和/或音频通道上的重复图案进行分析来进行。被标识的参数化编译码方案可以是HE-AACv1或v2中的MPEG频带复制(SBR)、HE-AAVv2中的参数化立体声(PS)、DolbyDigitalPlus中的频谱扩展(SPX)、以及DolbyDigital或DolbyDigitalPlus中的耦合。因为分析可能基于信号相位信息,所以所提出的方法相对于参数化音频编译码中典型地所应用的幅度修改而言是鲁棒的。在SBR编译码方案中,在音频解码器中通过将低频子带拷贝到更高频区域中并且就感知而言调整能量包络来产生高频内容。在参数化空间音频编译码方案(例如,PS、耦合)中,可以从所发送的仅与单个音频通道相关的数据产生多个音频通道中的数据。可以通过对频率子带中的相位信息进行分析来从PCM波形鲁棒地追溯数据的副本。
发明内容
根据一方面,描述了一种用于检测音频信号(例如,时域音频信号)的编译码历史中的频率扩展编译码的方法。换句话讲,本申请中所描述的方法可以应用于时域音频信号(例如,脉冲码调制的音频信号)。该方法可以确定(时域)音频信号在过去是否已经经受了频率扩展编码/解码方案。这样的频率扩展编译码/解码方案的例子在HE-AAC和DD+编解码器中能够实现。
该方法可以包括将时域音频信号变换到频域,从而产生相应的多个子带中的多个子带信号。可替换地,可以提供多个子带信号,也就是说,该方法可以在不必须应用变换的情况下获得多个子带信号。所述多个子带可以包括低频子带和高频子带。为了这个目的,该方法可以应用声音编码器中典型地采用的时域到频域的变换,诸如正交镜像滤波器(QMF)组、修改的离散余弦变换和/或快速傅立叶变换。作为这样的变换的结果,可以获得多个子带信号,其中,每个子带信号可以对应于音频信号的频谱的不同选段(excerpt),即,不同子带。特别地,子带信号可以归因于低频子带或者可替代地归因于高频子带。低频子带中的多个子带信号中的子带信号可以包括或者可以对应于等于或低于交越频率的频率,而高频子带中的多个子带信号中的子带信号可以包括或者可以对应于高于交越频率的频率。换句话讲,交越频率可以是频率扩展编译码器内所限定的频率,而音频信号的高于交越频率的频率分量是从音频信号的等于或低于交越频率的频率分量产生的。
因此,可以使用包括多个滤波器的滤波器组来产生多个子带信号。为了正确地识别频率扩展方案的补丁参数,滤波器组可以具有与频率扩展编译码器的解码器中所使用的滤波器组(例如,用于HE-AAC的64个奇堆叠滤波器(oddlystackedfilter)和用于DD+的256个奇堆叠滤波器)相同的频率特性(例如,相同的通道数量、相同的中心频率和带宽)。为了增强补丁分析的鲁棒性,可能有益的是通过增大阻带衰减来使到相邻带中的泄漏最小。这可以通过例如用与解码器中所使用的原始滤波器组相比更高的滤波器阶数(例如,滤波器阶数的两倍)来实现。换句话讲,为了确保滤波器组的高程度的频率选择性,滤波器组的每个滤波器对于位于各自滤波器的阻带内的频率可以具有超过预定滚降阈值的滚降(roll-off)。举例来说,不是使用具有大约60dB的阻带衰减的滤波器(如HE-AAC中所使用的滤波器的情况),而是可以将用于检测音频扩展编译码的滤波器的阻带衰减增大到70或80dB,从而提高检测性能。这意味着滚降阈值可以对应于70或80dB衰减。因而,可以确保滤波器组的选择性足以将不同的子带信号内的音频信号的不同频率分量隔离。高程度的选择性可以通过使用包括最少数量的滤波器系数的滤波器来实现。举例来说,所述多个滤波器中的滤波器可以包括M个滤波器系数,其中,M可以大于640。
应当指出,音频信号可以包括多个音频通道,例如,音频信号可以是立体声音频信号或多通道音频信号,诸如5.1或7.1音频信号。所述方法可以应用于音频通道中的一个或多个。可替换地或者附加地,所述方法可以包括对所述多个音频通道进行下混以确定下混时域音频信号的步骤。就这一点而论,所述方法可以应用于下混时域音频信号。具体地讲,可以从下混时域音频信号产生多个子带信号。
所述方法可以包括确定音频信号的最大频率。换句话讲,所述方法可以包括确定时域音频信号的带宽的步骤。可以通过在频域中对音频信号的功率谱进行分析来确定音频信号的最大频率。最大频率可以被确定为使得对于大于最大频率的所有频率,功率谱低于功率阈值。作为音频信号的带宽的确定结果,用于检测编译码历史的方法可以限于音频信号的高达最大频率的频谱。就这一点而论,所述多个子带信号可以仅包括等于或低于最大频率的频率。
所述方法可以包括确定低频子带中的子带信号与高频子带中的子带信号之间的关系程度(degreeofrelationship)。可以基于多个子带信号来确定关系程度。举例来说,关系程度可以指示低频子带中的一组子带信号与高频子带中的一组子带信号之间的相似性。可以通过音频信号的分析和/或通过使用从具有频率扩展编译码历史的音频信号的训练集合推导得出的概率模型来确定这样的关系程度。
应当指出,所述多个子带信号可以是复数值,即,所述多个子带信号可以对应于多个复数子带信号。就这一点而论,所述多个子带信号可以分别包括相应的多个相位信号和/或相应的多个幅值信号。在这样的情况下,可以基于多个相位信号来确定关系程度。另外,可以不基于多个幅值信号来确定关系程度。已经发现,对于参数化编译码方案,对相位信号进行分析是有益的。此外,复数波形信号给出有用的信息。特别地,从复数和相位数据得到的信息可以组合地使用以提高检测方案的鲁棒性。参数化编译码方案涉及沿着频率向上拷贝幅值数据的处理(诸如,在调制频谱编解码器中)的情况尤其是这样。
此外,确定关系程度的步骤可以包括确定已经从低频子带中的一组子带信号产生的高频子带中的一组子带信号。这样的一组子带信号可以包括来自连续子带(即,直接相邻的子带)的子带信号。
所述方法可以包括:如果关系程度大于关系阈值,则确定频率扩展编译码历史。可以通过实验确定关系阈值。特别地,可以从具有频率扩展编译码历史的一组音频信号和/或不具有频率扩展编译码历史的另一组音频信号确定关系阈值。
确定关系程度的步骤可以包括确定多个子带信号之间的一组互相关值。第一子带信号与第二子带信号之间的相关值可以被确定为第一子带信号和第二子带信号的具有预定时滞的相应采样的乘积的时间上的平均值。预定时滞可以是零。换句话讲,可以将第一子带信号和第二子带信号在给定时刻(以及具有预定时滞)的相应采样相乘,从而得到给定时刻的乘法结果。可以在某一时间间隔上计算乘法结果的平均值,从而得到可以用于确定互相关值的平均乘法结果。
应当指出,在多通道信号(例如,立体声或5.1/7.1信号)的情况下,可以对该多通道信号进行下混,并且可以对于下混音频信号确定互相关值集合。可替换地,可以对于多通道信号的一些或全部通道确定不同的互相关值集合。可以计算不同的互相关值集合的平均值以确定可以用于检测向上拷贝补丁的互相关值的平均集合。特别地,所述多个子带信号可以包括K个子带信号,K>0(例如,K>1,K小于或等于64)。参数K可以等于如频率扩展编解码器的解码器中用于产生丢失的高频子带的通道的数量。为了仅检测频谱扩展,64个频带可以是足够的(在64个通道的情况下,频率补丁通常比带宽宽)。为了进行DD+中的SPX的补丁的正确识别,可以使用数量增加的K个子带(例如,K=256)。就这一点而论,互相关值集合可以包括与来自所述多个子带信号的不同子带信号的所有组合相应的(K-1)!个互相关值。确定音频信号中的频率扩展编译码历史的步骤可以包括确定来自互相关值集合的至少一个极大互相关值超过关系阈值。
应当指出,本申请中所概述的分析方法可被以时间相关的方式执行。如以上所指示的,频率扩展编解码器典型地使用时间无关的补丁参数。然而,频率扩展编解码器可以被配置为随时间改变补丁参数。这可以通过对音频信号的窗口进行分析来加以考虑。音频信号的窗口可以具有预定长度(例如,10-20秒或更短)。在不随时间改变的补丁参数的情况下,可以通过对针对音频信号的不同窗口获得的互相关值集合进行平均来提高本申请中所描述的分析方法的鲁棒性。为了降低分析方法的复杂度,对音频信号的不同窗口(即,音频信号的不同段)求平均可以在基于经平均的音频信号的窗口确定互相关值集合之前进行。
互相关值集合可以按对称的K×K相关矩阵布置。相关矩阵的主对角线可以具有任意值,例如,与零相应的值或者与所述多个子带信号的自相关(auto-correlation)值相应的值。相关矩阵可以被认为是可以从其确定特定结构或图案的图像。这些图案可以提供关于所述多个子带信号之间的关系程度的指示。鉴于相关矩阵对称的事实,可能仅需要对相关矩阵的一个“三角形”(主对角线下方或上方)进行分析。就这一点而论,本申请中所描述的方法步骤可以仅应用于相关矩阵的一个这样的“三角形”。
如以上所指示的,相关矩阵可以被认为是包括指示低频子带与高频子带之间的关系的图案的图像。将被检测的图案可以是平行于相关矩阵的主对角线的局部增大的相关性的对角线。为了强调相关矩阵中的局部极大互相关值的一个或多个这样的对角线,可以将线增强方案(lineenhancementscheme)应用于相关矩阵(或相关矩阵的倾斜版本,其中,可以倾斜相关矩阵以使得对角线结构变为垂直或水平结构)。示例线增强方案可以包括将相关矩阵与增强矩阵 h = 1 6 2 - 1 - 1 - 1 2 - 1 - 1 - 1 2 进行卷积,从而得到增强的相关矩阵。如果线增强或任何其他图案增强技术被应用,则确定频率扩展编译码历史的步骤可以包括确定来自增强的相关矩阵(不包括主对角线)的至少一个极大互相关值超过关系阈值。换句话讲,关系程度的确定可以基于增强的相关矩阵(以及增强的互相关值集合)。
所述方法可以被配置为确定已经应用于时域音频信号的频率扩展编译码方案的特定参数。这样的参数可以是例如与频率扩展编译码方案的子带向上拷贝处理相关的参数。特别地,可以确定低频子带(源子带)中的哪些子带信号已经被向上拷贝到高频子带(目标子带)中的子带信号。该信息可以被称为修补信息(patchinginformation),并且可以从相关矩阵内的局部极大互相关值的对角线确定。
就这一点而论,所述方法可以包括对相关矩阵进行分析以检测局部极大互相关值的一个或多个对角线。为了检测这样的一个或多个对角线,可以应用以下标准中的一个或多个:局部极大互相关值的对角线可以不位于相关矩阵的主对角线上;和/或局部极大互相关值的对角线可以或应当包括多于一个的局部极大互相关值,其中,所述多于一个的局部极大互相关值中的每个均超过最小相关性阈值。最小相关性阈值典型地小于关系阈值。
如果多于一个的局部极大互相关值以平行于相关矩阵的主对角线的对角线方式布置;和/或如果对于相关矩阵的给定行中的多于一个的局部极大互相关值中的每个,同一行且直接相邻的左侧列中的互相关值等于或低于最小相关性阈值、和/或如果同一行且直接相邻的右侧列中的互相关值等于或低于最小相关性阈值,则可以检测对角线。
如以上所概述的,相关矩阵的分析可以仅限于相关矩阵的一个“三角形”。可能想到的是,在主对角线上方或下方检测到局部极大互相关值的多于一个的对角线。这可以是在频率扩展编译码方案中已经应用了多个向上拷贝补丁的指示。另一方面,如果检测到局部极大互相关值的多于两个的对角线,则所述多于两个的对角线中的至少一个可以指示向上拷贝补丁之间的相关性。这样的对角线不指示向上拷贝补丁,并且应当被识别。这样的补丁间的相关性可以用于提高检测方案的鲁棒性。
相关矩阵可以被布置为使得相关矩阵的行指示源子带,相关矩阵的列指示目标子带。应当指出,相关矩阵的列指示源子带和相关矩阵的行指示目标子带的布置同样是可能的。在这种情况下,可以通过交换“行”和“列”来应用所述方法。
为了隔离合适的向上拷贝补丁,所述方法可以包括检测对于相关矩阵的相同源子带具有局部极大互相关值的至少两个冗余对角线。具有各自的最低目标子带的所述至少两个冗余对角线的对角线可以被识别为从多个源子带到多个目标子带的可信的向上拷贝补丁。其他对角线可以指示不同的向上拷贝补丁之间的相关性。
识别了向上拷贝对角线之后,对角线的源子带和目标子带对指示已经被向上拷贝到高频子带的低频子带。
可以观察到,向上拷贝对角线的边缘(即,它们的起始点和/或结束点)与该对角线的其他相关点相比具有减小的极大互相关值。这可能是由于以下事实而导致的,即用于确定多个子带信号的变换具有与在应用于时域音频信号的频率扩展编译码方案内所使用的变换不同的频率分辨率。就这一点而论,对角线的“弱”边缘的检测可以指示滤波器组特性的不匹配(即,子带数量的不匹配、中心频率的不匹配和/或子带的带宽的不匹配),因此,可以提供关于已经应用于时域音频信号的频率扩展编译码方案的类型的信息。
为了利用以上所提及的观察,所述方法可以包括以下步骤:检测到被检测对角线的在该被检测对角线的起始点和/或结束点处的局部极大互相关值低于模糊阈值(blurringstep)。模糊阈值典型地高于最小相关性阈值。所述方法可以继续将该变换步骤的参数与用于多种频率扩展编译码方案的变换步骤的参数进行比较。特别地,可以将变换阶数(即,子带的数量)进行比较。基于比较步骤,可以从多种频率扩展编译码方案确定已经应用于音频信号的频率扩展编译码方案。举例来说,当使用具有大量子带(或通道)的滤波器组时,如果补丁边界没有恰好落在HE-AAC中所使用的滤波器组的网格上,则可以断定频率扩展编译码方案不是HE-AAC。
为了检测频率扩展编译码方案所应用的特定解码模式,可以对相关矩阵进行分析。这例如适用于允许低功率(LP)或高质量(HQ)解码的HE-AAC。为了这个目的,可以定义各种相关性阈值。特别地,可以确定互相关值集合的极大互相关值低于或高于解码模式阈值,从而检测应用于音频信号的频率扩展编译码方案的解码模式。解码模式阈值可以大于最小相关性阈值。此外,解码模式阈值可以大于关系阈值。在LP或HQ解码的情况下,如果极大互相关值低于解码模式阈值(但是高于关系阈值),则可以检测到LP解码。如果极大互相关值高于解码模式阈值,则可以检测到HQ解码。
如以上所指示的,低频子带中的子带信号与高频子带中的子带信号之间的关系程度可以涉及概率模型的使用。就这一点而论,所述方法可以包括提供从训练矢量集合确定的概率模型的步骤,该训练矢量集合被从具有频率扩展编译码历史的训练音频信号推导得到。该概率模型可以描述多个高频子带和低频子带所跨越的矢量空间中的矢量之间的概率关系。假设所述多个子带包括K个子带,则矢量空间可以具有K个维度。可替换地或者附加地,该概率模型可以描述多个子带和低频子带所跨越的矢量空间中的矢量之间的概率关系。假设所述多个子带包括其中有Kl个低频子带的K个子带,则矢量空间可以具有K+Kl个维度。以下,更详细地描述后一种概率模型。然而,所述方法同样地可应用于第一概率模型。
概率模型可以是高斯混合模型。特别地,概率模型可以包括多个混合分量,每个混合分量具有在矢量空间中的均值矢量μ和在矢量空间中的协方差矩阵C。第i混合分量的均值矢量μi可以表示矢量空间中的群集的形心(centroid);第i混合分量的协方差矩阵Ci可以表示矢量空间中的不同维度之间的相关性。可以使用矢量空间中的训练矢量集合来确定均值矢量μi和协方差矩阵Ci(即,概率模型的参数),其中,训练矢量可以从具有频率扩展编译码历史的训练音频信号集合确定。
所述方法可以包括在低频子带中的子带信号被给定的情况下提供多个子带信号的估计值的步骤。可以基于概率模型来确定估计值。特别地,可以基于概率模型的均值矢量μi和协方差矩阵Ci来确定该估计值。甚至更特别地,估计值可以被确定为:
F ( x ) = E [ y | x ] = Σ i = 1 Q h i ( x ) [ μ i y + C i yx C i xx - 1 ( x - μ i x ) ] ,
其中,E[y|x]是在低频子带中的子带信号x被给定的情况下的多个子带信号的估计值,hi(x)指示在子带信号x被给定的情况下的高斯混合模型的第i混合分量的关联性(relevance),是均值矢量μi的与所述多个子带的子空间相应的分量,是均值矢量μi的与低频子带的子空间相应的分量,Q是高斯混合模型的分量的数量,是来自协方差矩阵Ci的子矩阵。关联性指示符hi(x)可以被确定为低频子带中的子带信号x落在高斯混合模型的第i混合分量内的概率,即,被确定为:
h i ( x ) = α i ( 2 π ) n / 2 | C i xx | 1 / 2 exp [ - 1 2 ( x - μ i x ) T C i xx - 1 ( x - μ i x ) ] Σ j = 1 Q α j ( 2 π ) n / 2 | C j xx | 1 / 2 exp [ - 1 2 ( x - μ j x ) T C j xx - 1 ( x - μ j x ) ] ,
其中, Σ i = 1 Q α i = 1 , α i ≥ 0 .
在提供估计值之后,可以基于从所述多个子带信号的估计值和所述多个子带信号推导得出的估计误差来确定关系程度。估计值可以是均方误差。
音频信号可以是例如包括第一通道和第二通道的多通道信号。第一通道和第二通道分别可以是左通道和右通道。在这种情况下,可能希望的是确定应用于多通道信号的特定参数化编码方案,诸如MPEG参数化立体声编码或如DD(+)(或MPEG强度立体声)所使用的耦合。可以从第一通道和第二通道的多个子带信号检测到该信息。为了确定第一通道和第二通道的多个子带信号,所述方法可以包括将第一通道和第二通道变换到频域中,从而产生多个第一子带信号和多个第二子带信号。第一子带信号和第二子带信号可以是复数值,并且可以分别包括第一相位信号和第二相位信号。因此,多个相位差子带信号可以被确定为相应的第一子带信号和第二子带信号的差值。
所述方法可以继续确定多个相位差值,其中,每个相位差值可以被确定为相应的相位差子带信号的采样的时间上的平均值。可以通过检测多个相位差值内的周期性结构来确定音频信号的编译码历史中的参数化立体声编码。特别地,周期性结构可以包括相邻子带的相位差值在正相位差值与负相位差值之间的振荡,其中,振荡相位差值的幅值超过振荡阈值。
为了在通常的多通道信号的情况下检测第一通道和第二通道的耦合或多个通道之间的耦合,所述方法可以包括如下步骤:对于每个相位差子带信号,确定具有比相位差阈值小的相位差的采样的份额(fraction)。当检测到特别是对于高频子带中的子带信号,该份额超过份额阈值时,可以确定音频信号的编译码历史中的第一通道和第二通道的耦合。
根据另一方面,描述了一种用于检测音频信号的编译码历史中的参数化音频编译码工具(例如,参数化立体声编译码或耦合)的使用的方法。音频信号可以是包括第一通道和第二通道(例如,包括左通道和右通道)的多通道信号。所述方法可以包括提供多个第一子带信号和多个第二子带信号的步骤。所述多个第一子带信号可以对应于多通道信号的第一通道的时域/频域表示。所述多个第二子带信号可以对应于多通道信号的第二通道的时域/频域表示。就这一点而论,所述多个第一子带信号和所述多个第二子带信号可能已经使用时域到频域的变换(例如,QMF)被产生。所述多个第一子带信号和所述多个第二子带信号可以是复数值,并且可以分别包括多个第一相位信号和多个第二相位信号。
所述方法可以包括将多个相位差子带信号确定为来自所述多个第一相位信号和所述多个第二相位信号的相应的第一相位信号和第二相位信号的差值。可以从所述多个相位差子带信号检测到音频信号的编译码历史中的参数化音频编译码工具的使用。
特别地,所述方法可以包括确定多个相位差值的步骤,其中,每个相位差值可以被确定为相应的相位差子带信号的采样的时间上的平均值。可以通过检测所述多个相位差值内的周期性结构来检测音频信号的编译码历史中的参数化立体声编码。
可替换地或者附加地,所述方法可以包括对于每个相位差子带信号确定具有比相位差阈值小的相位差的采样的份额。可以通过对于频率高于交越频率(在耦合的上下文下,也被称为耦合开始频率)的子带信号(例如,对于高频子带中的子带信号)检测该份额超过份额阈值,来检测音频信号的编译码历史中的第一通道和第二通道的耦合。
根据另一方面,描述了一种软件程序,该软件程序适于在处理器上执行并且适于用于当在计算设备上执行时执行本申请中所概述的方法步骤。
根据另一方面,描述了一种存储介质,该存储介质包括适于在处理器上执行并且适于用于当在计算设备上实行时执行本申请中所概述的方法步骤的软件程序。
根据另一方面,描述了一种计算机程序产品,该计算机程序产品包括用于当在计算机上实行时执行本申请中所概述的方法的可执行指令。
应当指出,包括如本申请中所概述的其优选实施例的方法和系统可以独立使用,或者与本申请中所公开的其他方法和系统组合使用。此外,本申请中所概述的方法和系统的所有方面可以任意组合。特别地,权利要求的特征可被以任意的方式彼此组合。
附图说明
以下以解释性的方式参照附图来解释本发明,其中:
图1a-1f示出示例性的使用幅值、复数和/或相位数据的基于相关性的分析;
图2a、2b、2c和2d显示示例性的极大互相关值以及基于复数数据和仅相位数据的概率密度函数;
图3示出可被用于基于相关性的分析的原型滤波器的示例性频率响应;
图4a和4b示出使用不同的分析滤波器组确定的示例性相似矩阵之间的比较;
图5显示使用不同的分析滤波器组确定的示例性极大互相关值;
图6a、6b和6c显示使用不同的分析滤波器组确定的示例性概率密度函数;
图7示出用于补丁检测的示例性歪斜相似矩阵;
图8显示根据表1的编译码状况6的HE-AAC重新编码的数据的示例性相似矩阵;
图9示出具有SPX的DD+编码的数据的示例性相似矩阵;和
图10a和10b示出用于参数化立体声和耦合检测的示例性相位差曲线图。
具体实施方式
如以上所概述的,在MPEGSBR编码中,以降低的采样速率和带宽对音频信号进行波形编码。在解码器中通过使用所发送的附带信息(sideinformation)将低频部分拷贝到高频部分来重构丢失的较高频。所发送的附带信息(例如,频谱包络参数、噪声参数、音调添加/去除参数)被应用于来自低频带信号的补丁,其中,这些补丁已经被向上拷贝或调换到更高频。作为这个向上拷贝处理的结果,在低频带信号的某些频谱部分与被向上拷贝的高频带信号的频谱部分之间应当存在相关性。这些相关性可以是用于检测解码的音频信号内的基于频带复制的编码的基础。
可能已经通过将附带信息(即,SBR参数)应用于向上拷贝的补丁,降低或去除低频带信号的频谱部分与高带信号的频谱部分之间的相关性。然而,已经观察到,将SBR参数应用于向上拷贝的补丁不显著地影响向上拷贝的补丁的相位特性(即,复数值的子带系数的相位)。换句话讲,向上拷贝的低频带的相位特性大部分被保留在更高频带中。保留的程度典型地取决于编码的信号的比特率和编码的音频信号的特性。就这一点而论,(解码的)音频信号的频谱部分中的相位数据的相关性可以用于追溯在SBR编码的上下文下执行的频率修补操作。
以下,描述几种基于相关性的PCM波形的分析方法。这些方法可以用于检测利用参数化频率扩展工具(诸如MPEGHE-AAC中的SBR或DolbyDigitalPlus(DD+)的SPX)的音频编译码的残余部分。另外,可以提取特定参数(具体地讲,频率扩展处理的修补信息)。该信息对于高效率的重新编码可以是有用的。而且,描述了指示如HE-AACv2中所使用的MPEG参数化立体声(PS)的存在和如DD(+)中所使用的耦合的存在的附加度量。
应当指出,如DD+中所使用的带宽扩展的基本原理类似于MPEGSBR。因此,在本申请中在MPEGSBR编码的音频信号的上下文下概述的分析技术同样地可应用于之前已经被DD+编码的音频信号。这意味着即使分析方法是在HE-AAC的上下文下进行概述的,但是这些方法还可应用于其他的基于带宽扩展的编码器,诸如DD+。
音频信号分析方法应当能够针对音频编码器/解码器的各种操作模式进行操作。此外,分析方法应当能够区分这些不同的操作模式。举例来说,HE-AAC编解码器利用两种不同的HE-AAC解码模式:高质量(HQ)和低功率(LP)解码。在LP模式下,与HQ模式下所使用的复数过采样滤波器组相比,通过使用实数值临界采样滤波器组来降低解码器复杂度。通常,小的听不见的混叠生成物可能存在于已经通过使用LP模式而被解码的音频信号中。这些混叠生成物可能影响音频质量,因此,希望的是检测已经用于对被分析的PCM音频信号进行解码的解码模式。以类似的方式,还应当在其他频率扩展编解码器(诸如基于SBR的USAC)中识别不同的解码模式或复杂度模式。
对于应用PS(参数化立体声)的HE-AACv2,解码器典型地使用HQ模式。PS使得能够在低比特率(诸如20-32kb/s)实现改进的音频质量,然而,它通常不能与更高比特率(诸如64kb/s)的HE-AACv1的立体声质量竞争。HE-AACv1在32与96kb/s之间的比特率是最高效的,然而,它对于更高比特率不是透明的。换句话讲,64kb/s的PS(HE-AACc2)典型地提供比64kb/s的HE-AACv1差的音频质量。另一方面,32kb/s的PS通常将比64kb/s的HE-AACv1仅稍差一点,但是比32kb/s的HE-AACv1好得多。因此,关于实际编译码状况的了解对于提供(解码的)音频信号的粗略的音频质量评估可以是有用的指示符。
例如DolbyDigital(DD)和DD+中所使用的耦合利用高频下的听力相位不灵敏性。从概念上讲,耦合涉及MPEG强度立体声(IS)工具,在该工具中,仅单个音频通道(或与仅一个音频通道的尺度因子带相关的系数)在比特流中与通道间水平差异参数一起发送。由于这些参数的时间/频率共享,可以显著地降低编码的比特流的比特率,对于多通道音频尤其如此。就这一点而论,重构的音频通道的频率区间(bin)对于共享的附带水平信息相互关联,并且为了检测利用耦合的音频编解码器,可以使用该信息。
在第一种方法中,可以使用分析滤波器组将(解码的)音频信号(例如,PCM波形信号)变换到时域/频域中。在实施例中,分析滤波器组是与HE-AAC编码器中所使用的分析滤波器组相同的分析滤波器组。举例来说,64带复值滤波器组(其被进行因子为2的过采样)可以用于将音频信号变换到时域/频域中。在多通道音频信号的情况下,为了得到下混音频信号,可以在滤波器组分析之前对多个通道进行下混。就这一点而论,可以对下混音频信号执行滤波器组分析(例如,通过使用QMF滤波器组)。可替换地,可以对多个通道中的一些或全部执行滤波器组分析。
作为滤波器组分析的结果,对于多个滤波器组子带,获得多个复数子带信号。该多个复数子带信号可以是音频信号分析的基础。特别地,可以确定多个复数QMF区间或多个复数子带信号的相位角。
此外,可以使用功率谱分析从多个复数子带信号确定音频信号的带宽。举例来说,可以确定每个子带内的平均能量。随后,可以将截止子带确定为这样的子带,对于该子带,频率更高的所有子带具有低于预定的能量阈值的平均能量。这将提供音频信号的带宽的度量。此外,音频信号的子带之间的相关性的分析可以限于频率等于或低于截止子带的子带(以下将对这进行描述)。
另外,可以确定在分析时间范围上所有QMF带之间的在时滞为零的情况下的互相关性,从而提供自相似矩阵(self-similaritymatrix)。换句话讲,可以确定所有子带信号对之间的互相关性(在时滞为零的情况下)。这导致例如在64个QMF带的情况下为64×64矩阵的形式的对称的自相似矩阵。该自相似矩阵可以用于在频域中检测重复结构。特别地,自相似矩阵内的一个极大相关值(或多个极大相关值)可以用于检测音频信号内的频带复制。为了确定一个或多个极大相关值,应当排除主对角线内的自相关值(因为自相关值不提供不同子带之间的相关性的指示)。此外,极大值的确定可以限于之前确定的音频带宽的限值,也就是说,自相似矩阵的确定可以限于截止子带和频率更低的子带。
应当指出,在多通道音频信号的情况下,以上过程可以独立地应用于多通道音频信号的所有通道。在这种情况下,可以对于多通道信号的每个通道确定自相似矩阵。所有音频通道上的极大相关值可以被取作多通道音频信号内的基于SBR的编码的存在的指示符。特别地,如果极大互相关值超过预定的相关性阈值,则波形信号可以被分类为被频率扩展工具编译码。
应当指出,以上过程还可以基于复数或幅值QMF数据(与相位角QMF数据相反)。然而,因为在频率扩展编译码中,根据原始的高频数据修改被修补的子带信号的幅值包络,所以当使分析基于幅值数据时,可以预期相关性降低。
在图1a-1f中,对于已经被提交到HE-AAC(左列)和普通AAC(右列)编解码器的音频信号,检查自相似矩阵。所有图像被定标在0与1之间,其中,1对应于黑色,0对应于白色。图1中的矩阵的x轴和y轴对应于子带索引。这些图像中的主对角线对应于特定QMF带的自相关。最大的被分析的QMF带对应于所估计的对于HE-AAC状况典型地比对于普通AAC状况更高的音频带宽。换句话讲,可以例如基于功率谱分析来估计(解码的)音频信号的带宽或截止频率。音频信号的高于截止频率的频带典型地将包括大量噪声,使得用于高于截止频率的频带的互相关系数典型地将得不到能感觉得到的结果。在所示的例子中,对于HE-AAC编码的信号,对64个QMF带中的62个进行分析,其中,对于AAC编码的信号,对64个QMF带中的50个进行分析。
平行于主对角线的高相关性的线指示QMF带之间的高程度的相关性或相似性,因此潜在地指示频率补丁。这些线的存在暗示频率扩展工具已经被应用于(解码的)音频信号。
在图1a-1b中,示出了已经基于复数QMF子带信号的幅值信息被确定的自相似矩阵100、101。可以看出,仅基于QMF子带的幅值的分析得到具有相对小的动态范围(换句话讲,具有低对比度的图像)的相关性系数。因此,仅幅值分析可能不能很好地适合于鲁棒的频率扩展分析。然而,当仅使用QMF子带的幅值确定自相似矩阵时,HE-AAC补丁信息(用沿着中心对角线的侧边的对角线示出)是可见的。
可以看出,用于基于相位的分析的动态范围(图1c-1d的中间行)更高,因此更好地适合于频率扩展的分析。特别地,分别针对HE-AAC和AAC编码的音频信号显示了仅基于相位的自相似矩阵110和111。主对角线115指示QMF子带的相位值的自相关系数。此外,对角线112和113分别指示具有11至28的范围内的子带索引的低频带与具有29至46和47至60的范围内的索引的高频带之间的提高的相关性。对角线112和113指示从具有大约11至28的索引的低频带到具有大约29至46的索引的高带的向上拷贝补丁(标号112)、以及从具有大约15至28的索引的低频带到具有大约47至60的索引的高带的向上拷贝补丁(标号113)。然而,应当指出,第二HE-AAC补丁113的相关值相对弱。此外,应当指出,对角线114不识别音频信号内的向上拷贝补丁。对角线114反而示出了两个向上拷贝补丁112与113之间的相似性或相关性。
已经使用复数QMF子带数据(即,幅值和相位信息)确定了图1d-1e中的自相似矩阵120、121。可以观察到,所有HE-AAC补丁清楚可见,然而,指示高相关性的线略为模糊,并且总体动态范围小于矩阵110、111中所示的仅基于相位的分析中的总体动态范围。
为了进一步估计上述分析方法,已经针对160个音乐文件和13种不同的编译码状况,绘制了从自相似矩阵110、111、120、121推导得出的极大互相关值。13种不同的编译码状况包括如表1中所列出的具有参数化频率扩展(SBR/SPX)工具的和不具有该工具的编译码器。
表1
表1显示了已经被分析的不同编译码状况。观察到,可以以合理的确定程度检测到向上拷贝补丁并继而检测到基于频率扩展的编译码。这还可以在图2a和2d中被看出,在图2a和2d中,针对表1中所列出的音频状况1至13,示出了极大相关值200、220和概率密度函数210、230。当适当地选择如图5b和6b的上下文下所示的检测阈值时,参数化频率扩展编译码的使用的总体检测可靠性接近100%。
图2a-2b中所示的分析结果基于复数子带数据(即,相位和幅值),而图2c-2d中所示的分析结果仅基于QMF子带的相位。从示图200可以看出,已经经受了基于参数化频率扩展的编码(SBR或S{X)方案(编解码器Nr.1至8和Nr.12)的音频信号具有比已经经受了不包含任何参数化频率扩展编码的编码方案(编解码器Nr.9至11和Nr.13)的音频信号更高的极大相关值201(参见标号202)。这还在示图210中的概率密度函数211(针对基于SBR/SPX的编解码器Nr.1至8和Nr.12)和212(针对不基于SBR/SPX的编解码器Nr.9至11和Nr.13)中被显示。对于图2c-2d中所示的仅相位的分析,获得类似的结果(示图220示出极大相关值221和222;示图230示出用于基于SBR/SPX的编解码器和不基于SBR的编解码器的概率密度函数231、232)。
可以通过各种措施(诸如选择适当的分析滤波器组)来改进基于相关性的分析方法的鲁棒性。来自(修改的)相邻的QMF带的泄漏可以改变原始的低频带相位特性。这可能对可在不同QMF带的相位之间确定的相关性程度具有影响。就这一点而论,可能有益的是选择提供清晰的频率分离的分析滤波器组。可以通过使用长度增大的原型滤波器设计调制的分析滤波器组来使分析滤波器组的频率分离变得清晰。在例子中,设计并实现了具有1280个采样长度(与用于图2a-2d的结果的滤波器的640个采样长度相比)的原型滤波器。在图3中显示了更长的原型滤波器302的频率响应和原始的原型滤波器301的频率响应。新的滤波器302的增大的阻带衰减清晰可见。
图4a和4b示出了已经基于QMF子带的仅相位数据被确定的自相似矩阵400和410。对于矩阵400,使用较短的滤波器301,而对于矩阵410,使用较长的滤波器302。第一频率补丁401被用从QMF带3开始的对角线指示(x轴),并且覆盖从带索引20至35的目标QMF带(y轴)。对于用于矩阵410的选择性更高的滤波器,第二频率补丁412从QMF带Nr.8开始变得可见。该第二频率补丁412在使用原始滤波器310推导得出的矩阵400中没有被识别出。
应当指出,可以从x轴上的从QMF带25开始的对角线403推断第二补丁412的存在。然而,因为带25是第一补丁的目标QMF带,所以对角线403指示两个补丁中所利用的QMF源带的补丁间的相似性。还应当指出,QMF源带区域可以重叠,但是目标QMF带区域可以不重叠。这意味着QMF源带可以被修补到多个目标QMF带,然而,典型地,每一个目标QMF带具有唯一的相应的QMF源带。还可以观察到,通过使用高分离性的分析滤波器组302,与图4a中的相似性指示线401(其已经通过使用选择性较低的分析滤波器组301而被确定)相比,图4b的相似性指示线401、412具有增大的对比度和增大的清晰度。
已经针对如图5a和5b中所示基于仅相位数据的分析和基于复数数据的分析,对高选择性的原型滤波器302进行了估计。基于复数数据的极大相关值500类似于使用选择性较低的原始滤波器301确定的相关值200(参见图2a)。然而,仅基于相位的极大相关值501被清楚地分为两个群集502和503,群集502指示已经通过频率扩展进行编码的音频信号,群集503指示在没有频率扩展的情况下被编码的音频信号。另外,低功率SBR解码(编译码状况2、4)的使用可以区别于高质量SBR解码(编译码状况1、3、5)的使用。这至少是当随后不执行重新编码(如编译码状况6、7、8中那样)时的情况。
在图6a和6b中分别示出了与基于复数数据和基于仅相位数据确定的极大相关值相应的概率密度函数600和610。此外,为了示出HQSBR解码(附图标记621)和LQSBR解码(附图标记622)的可能的检测,图6c显示了图6b的选段620。可以看出,当使用复数数据时,用于不具有频率扩展的编译码方案的概率密度函数602与用于具有频率扩展的编译码方案的概率密度函数601部分重叠。另一方面,当使用仅相位数据时,概率密度函数612(不具有频率扩展的编译码方案)和611(具有频率扩展的编译码方案)不重叠,从而使得能够实现对于SBR/SPX编码的鲁棒的检测方案。此外,从图6c可以看出,仅相位分析方法使得能够区分特定编译码模式。特别地,仅相位分析方法使得能够区分LP解码(附图标记622)和HQ解码(附图标记621)。
就这一点而论,高选择性的分析滤波器组的使用可以改进基于相似矩阵的频率扩展检测方案的鲁棒性。可替换地或者附加地,为了更清楚地在相似矩阵内隔离对角线结构(即,对于频率补丁的指示符),可以应用线增强方案。示例性线增强方案可以将增强矩阵h应用于相似矩阵C,例如,
h = 1 6 2 - 1 - 1 - 1 2 - 1 - 1 - 1 2
其中,可以通过将增强矩阵h与像素矩阵C进行卷积来确定经线增强的相似矩阵。经线增强的相似矩阵的极大值可以被取作音频信号内的频率扩展的存在的指示符。
包括子带之间的互相关系数的自相似矩阵可以用于确定频率扩展参数,即,当对音频信号进行编码时用于频率扩展的参数。特定频率修补参数的提取可以基于自相似矩阵中的线检测方案。特别地,可以确定已经被修补到高带的低频带。因为可以使用低频带与高频带之间的相同的或类似的对应关系,所以该对应信息对于重新编码可能是有用的。
考虑作为灰度级图像的自相似矩阵(例如,矩阵410),可以应用从图像处理知道的任何线检测方法(例如,Hough变换之后的边缘检测)。为了说明的目的,已经实现了用于如图7所示的估计的示例性方法。
为了设计合适的线检测方案,可以使用编解码器特定信息,以便使分析方法更加鲁棒。例如,可以假设较低频带用于修补较高频带,但反之则不然。此外,可以假设被修补的QMF带可以仅来源于一个源带(也就是说,可以假设补丁不重叠)。另一方面,在多个补丁中可以使用同一QMF源带。这可以导致被修补的高频带之间的相关性提高(如例如图4b中的对角线403那样)。因此,所述方法应当被配置为区分实际补丁和补丁间的相似性。作为进一步的假设,可以假设对于标准的双速率(非过采样的)SBR,QMF源带在子带索引1-32的范围内。
通过使用以上假设中的一些或全部,示例性线检测方案可以应用以下步骤中的任何一个:
·计算QMF域中仅基于相位的自相似矩阵410(例如,使用高选择性的滤波器302);
·倾斜相似矩阵410以使得平行于主对角线的每一个线由垂直线表示;结果,x轴对应于为了确定相应的目标QMF带而被应用于源QMF带(y轴)的频率偏移(作为子带的数量);
·去除指示补丁到补丁的相似性的线;这可以通过应用关于源带的范围的了解来实现;
·去除音频带宽之外的线;这可以通过例如使用功率谱分析确定音频信号的带宽来实现;
·去除主对角线(即,自相关);在倾斜相似矩阵410之后,主对角线对应于x=0处(即,没有频率偏移)的垂直线;
·检测水平方向上的一个或多个局部极大值,并将倾斜的矩阵内的所有其他相关值设置为零;
·将低于(自适应)阈值的所有相关值设置为零;
·检测垂直线(即,相关值大于阈值并且长于一个带的线)。
图7分别示出了线处理之前的歪斜相似矩阵(附图标记700)和线处理之后的歪斜相似矩阵(附图标记710)。可以看出,可以通过使用以上方案来清楚地隔离模糊的垂直补丁线701和702,从而分别得到补丁线711和712。
通过使用以上方案(或类似的线检测方案),可以执行补丁检测。特别地,已经针对表1中所列出的HE-AAC编译码(编译码状况1-8),对以上方法进行了估计。检测性能可以被确定为所有补丁参数已经被正确地识别的音频文件的百分数。已经观察到,对于非重新编码的HE-AAC(编译码状况1-5),基于仅相位数据的分析得到的检测结果比基于复数数据的分析明显好得多。对于这些编译码状况,可以以高可靠性程度确定修补参数(尤其是源带与目标带之间的映射)。就这一点而论,当对音频信号进行重新编码时,可以使用所估计的修补参数,从而避免或减小由于重新编码处理而导致的进一步的信号劣化。
对于LP-SBR解码的信号,与HQ-SBR解码的信号相比,补丁参数检测速率降低。对于AAC重新编码的信号(编译码状况6-8),检测速率对于两种方法(基于仅相位数据的方法和基于复数数据的方法)显著地降至低水平。已经更详细地对这进行了分析。对于状况6,在图8中显示了相似矩阵800。可以看出,第一补丁801相当突出,可以通过上述线检测方案而被正确地识别。另一方面,第二补丁802没有那么突出。对于第二补丁802,源QMF带和目标QMF带已经被正确地检测,但是通过线检测方案确定的QMF带的数量太少。在图8中可以看出,这可能是由于相关性朝向更高带降低而导致的。可能不能通过以上所概述的基于阈值的算法来很好地检测这样的衰落线。然而,自适应阈值线检测方法(例如,NoboyukiOsut的IEEETransactionsonSystems,ManandCybernetics1979年1月第SMC-9卷第1期第62-66页的“AThresholdSelectionMethodfromGray-LevelHistograms”中所描述的方法(用于将灰度图像转换为二值图像))可以用于提高补丁参数确定方案的鲁棒性。以上文档通过引用被并入。
如以上已经指示的,本申请中所描述的方法可以应用于各种频率扩展方案,包括SPX编码。就这一点而论,可以基于不必需与在已经应用于音频信号的频带方案内使用的滤波器组分辨率相应的分析滤波器组分辨率来确定相似矩阵。这在图9中被示出。已经基于已经经受DD+编译码的音频信号的64带复数QMF分析确定了相似矩阵900的例子。频率补丁901清楚可见。然而,补丁起始点和结束点不容易被检测到。这可能是由于DD+中所使用的SPX方案利用具有比用于确定相似矩阵900的64带QMF更精细的分辨率的滤波器组的事实而导致的。可以通过使用具有更多通道的滤波器组(例如,256带QMF组(其将根据DD/DD+中所使用的256系数MDCT))来实现更精确的结果。换句话讲,当使用与频率扩展编译码方案的通道的数量相应的通道数量时,可以实现更精确的结果。
总的来讲,可以指出,当使用频率分辨率提高(例如,等于或高于用于频率扩展编译码的滤波器组的频率分辨率的频率分辨率)的分析滤波器组时,可以实现更精确的分析结果(既相对于频率扩展编译码的实际检测而言,又相对于补丁参数的确定而言)。
如以上所指出的,DD+编译码将与HE-AAC不同的频率分辨率用于频率扩展。已经表明,当将与实际上已用于频率扩展的频率分辨率不同的频率分辨率用于频率扩展检测时,可以使补丁边界(即,补丁的最低频带和/或最高频带)模糊。该信息可以用于确定关于应用于音频信号的编译码系统的信息。换句话讲,通过对频率补丁边界进行估计,可以确定编译码方案。举例来说,如果补丁边界没有恰好落在用于确定相似矩阵的64QMF带网格上,则可以断定编译码方案不是HE-AAC。
可能更希望的是提供用于检测HE-AACv2中的参数化立体声(PS)编码的使用和DD/DD+中的耦合的使用的度量。PS仅与立体声内容相关,而耦合应用于立体声和多通道音频中。在两个工具的情况下,在比特流中仅将根据单个通道的数据与少量附带信息一起发送,该附带信息在解码器中使用以便从发送的通道产生其他通道(即,第二立体声通道或多通道)。尽管PS在整个音频带宽上工作,但是耦合仅应用于较高频率。耦合与强度立体声(IS)编译码的概念相关,并且可以从通道间的相关性分析或者通过比较左通道和右通道中的相位信息被检测。PS通过解相关方案来保持原始信号的通道间相关特性,因此,PS中的左通道与右通道之间的相位关系复杂。然而,PS解相关留下了如图10a中所示的平均通道间相位差中的特性指纹。这个特性指纹可被检测到。
用于检测PS编码的使用的示例性方法可以应用以下步骤中的任何一个:
·执行(解码的)音频信号的两个通道的复数64带QMF分析;
·对于每一个QMF区间,计算左到右的相位角度差;换句话讲,对QMF区间内的复数采样的相位进行估计;特别地,确定右通道和左通道中的相应采样的相位差;
·确定所有QMF帧上的平均相位角度差;在图10a中示出了对于不同编码的信号的示例性平均相位角度差1000;
·PS在高频表现出特征周期性结构1001;可以例如通过峰值滤波和能量计算来检测该特征结构。
用于检测耦合的使用(在立体声内容的情况下)的示例性方法可以应用于以下步骤中的任何一个:
·执行(解码的)音频信号的两个通道的复数64带QMF分析;
·对于每一个QMF区间,计算左到右的相位角差;
·对于每一个QMF区间,计算对于每一个QMF带具有低相位角度差(即,具有低于预定阈值的相位角度差(典型地,相位角度差<π/100))的采样的数量;在图10b中示出了对于不同编码的信号的、具有低相位角度差1010的子带采样的示例性份额/百分数1010;
·如图10b中的曲线图1011所示的沿着QMF带的大幅增大可以指示耦合的使用。
如以上所概述的,频谱带宽复制方法基于关于低频系数的信息来产生高频系数。这暗示带宽复制方法引入了低频系数与高频系数之间的特定关系或相关性。以下,描述用于检测(解码的)音频信号已经经受频谱带宽复制的另一方法。在该方法中,构建捕捉低频系数与高频系数之间的特定关系的概率模型。
为了捕捉低频系数与高频系数之间的关系,可以创建包括N个频谱低频带矢量{x1,x2…xN}的训练数据集合。低频带矢量{x1,x2…xN}是可以从具有预定最大频率Fnarrow(例如,8kHz)的音频信号计算的频谱矢量。也就是说,{x1,x2…xN}是从采样速率为例如16kHz的音频计算的频谱矢量。可以基于例如HE-AAC或MPEGSBR编码的音频信号的(即,具有频率扩展编译码历史的音频信号的)低频带确定低频带矢量。
此外,可以使用带宽复制方法(例如,MPEGSBR)来确定这些N个频谱矢量{x1,x2…xN}的带宽扩展版本。矢量{x1,x2…xN}的带宽扩展版本可以被称为{y1,y2…yN}。{y1,y2…yN}中的最大频率内容可以是预定的最大频率Fwide(例如,16kHz)。这暗示Fnarrow(例如,8kHz)与Fwide(例如,16kHz)之间的频率系数基于{x1,x2…xN}而产生。
在这个训练数据集被给定的情况下,矢量集合{z1,z2…zN}(其中,zj={xjyj})的联合密度(即,窄带频谱矢量和宽带频谱矢量的串接)可以被确定为:
p ( z | &lambda; ) = &Sigma; i = 1 Q &alpha; i ( 2 &pi; ) n | C i | 1 / 2 exp [ - 1 2 ( z - &mu; i ) T C i - 1 ( z - &mu; i ) ] , &Sigma; i = 1 Q &alpha; i = 1 , &alpha; i &GreaterEqual; 0 - - - ( 1 )
其中,n是矢量zi的维数。Q是用于逼近联合密度p(z|λ)的高斯混合模型(GMM)中的分量的数量,μi是第i混合分量的均值,Ci是GMM中的第i混合分量的协方差。
指出,z的协方差矩阵(即,Ci)可以被写为:
C i = C i xx C i xy C i yx C i yy
其中,是指低频带频谱矢量的协方差矩阵,是指宽带频谱矢量的协方差矩阵,是指低频带与宽带频谱矢量之间的互协方差矩阵。
类似地,z(μi)的均值矢量可以被写为:
&mu; i = &mu; i x &mu; i y
其中,是第i混合分量的低频带频谱矢量的均值,是第i混合分量的宽带频谱矢量的均值。
基于联合密度,也就是说,基于所确定的均值矢量μi和协方差矩阵Ci,可以定义将低频带频谱矢量(xi)映射到宽频带频谱矢量(yi)的函数F(x)。在本例子中,F(x)被选择为使得它使原始宽带频谱矢量与重构的频谱矢量之间的均方差最小。在这个假设下,F(x)可以被确定为:
F ( x ) = E [ y | x ] = &Sigma; i = 1 Q h i ( x ) [ &mu; i y + C i yx C i xx - 1 ( x - &mu; i x ) ] - - - ( 2 )
这里,E[y|x]指的是在所观测的低频带频谱矢量x被给定的情况下的y的条件期望值。项hi(x)是指从所估计的GMM的第i混合分量产生所观测的低频带频谱矢量x的概率(参见方程(1))。
可以如下计算项hi(x):
h i ( x ) = &alpha; i ( 2 &pi; ) n / 2 | C i xx | 1 / 2 exp [ - 1 2 ( x - &mu; i x ) T C i xx - 1 ( x - &mu; i x ) ] &Sigma; j = 1 Q &alpha; j ( 2 &pi; ) n / 2 | C j xx | 1 / 2 exp [ - 1 2 ( x - &mu; j x ) T C j xx - 1 ( x - &mu; j x ) ] .
通过使用上述统计模型,可以如下描述SBR检测方案。基于方程(1)和(2),可以使用包括低频带频谱矢量和它们相应的宽带频谱矢量的训练数据集合来计算低频分量与高频分量之间的关系。
在从新的(解码的)音频信号确定的新的宽带频谱矢量(μ)被给定的情况下,统计模型可以用于确定(解码的)音频信号的高频频谱分量是否是基于带宽复制方法产生的。为了检测是否执行了带宽复制,可以执行以下步骤。
可以将输入的宽带频谱矢量(μ)划分为两个部分μ=[μxμhi],其中,μx对应于低频带频谱矢量,μhi对应于音频信号的频谱的高频部分,其可能通过带宽复制方法被创建或者可能没有通过带宽复制方法创建。
通过使用该概率模型,特别是通过使用方程(2),可以基于ux来估计宽带矢量F(ux)。如果根据方程(1)中的概率模型产生了高频分量,则预测误差||μ-F(ux)||将小。否则,预测误差将大,表明高频分量不是通过带宽复制方法而产生的。因此,通过将预测误差||μ-F(ux)||与合适的误差阈值进行比较,可以检测是否对输入的矢量“μ”执行了SBR,也就是说,(解码的)音频信号是否已经经受了SBR处理。
应当指出,可以可替换地使用低频带矢量{x1,x2…xN}和相应的高频带矢量{y1,y2…yN}来确定以上统计模型,其中,已经使用带宽复制方法(例如,MPEGSBR)从{x1,x2…xN}确定了高频带矢量{y1,y2…yN}。这意味着矢量{y1,y2…yN}仅包括使用带宽复制方法产生的高频带分量,而不包括从其产生这些高频带分量的低频带分量。矢量集合{z1,z2…zN}(其中,zj={xjyj})被确定为低频带频谱矢量和高带频谱矢量的串接。通过这样做,可以减少高斯混合模型(GMM)的维度,从而降低总体复杂度。应当指出,上述方程还可应用于{y1,y2…yN}是高频带矢量的情况。
在本申请中,已经描述了用于对(解码的)音频信号进行分析的方法和系统。这些方法和系统可以用于确定音频信号是否已经经受基于频率扩展的编解码,诸如HE-AAC或DD+。此外,这些方法和系统可以用于检测基于频率扩展的编解码所使用的特定参数,诸如低频子带和高频子带的相应对、解码模式(LP或HQ解码)、参数化立体声编码的使用、耦合的使用等。所描述的方法和系统适于仅从(解码的)音频信号(即,在没有关于(解码的)音频信号(例如,PCM音频信号)的历史的任何进一步的信息的情况下)确定以上所提及的信息。
本申请中所描述的方法和系统可以被实现为软件、固件和/或硬件。某些组件可以例如被实现为在数字信号处理器或微处理器上运行的软件。其他组件可以例如被实现为硬件和/或被实现为专用集成电路。

Claims (62)

1.一种用于检测音频信号的编译码历史中的频率扩展编译码的方法,所述方法包括:
-提供包括低频子带和高频子带的相应的多个子带中的多个子带信号;其中,所述多个子带信号对应于音频信号的时域/频域表示;
-确定低频子带中的子带信号与高频子带中的子带信号之间的关系程度;其中,所述关系程度是基于所述多个子带信号确定的;
-其中,确定关系程度包括确定所述多个子带信号之间的互相关值集合;
-其中,确定第一子带信号与第二子带信号之间的相关值包括确定时滞为零的第一子带信号和第二子带信号的相应采样的乘积的时间上的平均值;和
-如果所述关系程度大于关系阈值,则确定频率扩展编译码历史。
2.根据权利要求1所述的方法,其中,使用以下之一来产生所述多个子带信号:
-复值的伪正交镜像滤波器组;
-修改的离散余弦变换;
-修改的离散正弦变换;
-离散傅立叶变换;
-调制重叠变换;
-复调制重叠变换;或
-快速傅立叶变换。
3.根据权利要求1所述的方法,其中,使用包括多个滤波器的滤波器组产生所述多个子带信号,每个滤波器对于位于各自滤波器的阻带内的频率具有超过预定滚降阈值的滚降。
4.根据权利要求3所述的方法,其中,所述多个滤波器中的滤波器包括M个滤波器系数,其中,M大于将被检测的频率扩展编译码所使用的滤波器系数的数量。
5.根据权利要求1所述的方法,其中,
-音频信号包括多个音频通道;
-所述方法包括对所述多个音频通道进行下混以确定下混时域音频信号;和
-从下混时域音频信号产生所述多个子带信号。
6.根据权利要求1所述的方法,还包括确定音频信号的最大频率;其中,所述多个子带信号仅包括等于或低于最大频率的频率。
7.根据权利要求6所述的方法,其中,确定最大频率包括:
-在频域中对音频信号的功率谱进行分析;和
-确定最大频率以使得对于大于最大频率的所有频率,功率谱低于功率阈值。
8.根据权利要求1所述的方法,其中,
-所述多个子带信号是分别包括多个相位信号和相应的多个幅值信号的多个复数子带信号;和
-基于所述多个相位信号,而不基于所述多个幅值信号来确定关系程度。
9.根据权利要求1所述的方法,其中,确定关系程度包括确定已从低频子带中的一组子带信号产生的高频子带中的一组子带信号。
10.根据权利要求1至9中的任何一个所述的方法,其中,
-所述多个子带信号包括K个子带信号;和
-所述互相关值集合包括与来自所述多个子带信号的不同子带信号的所有组合相应的(K-1)!个互相关值。
11.根据权利要求1至9中的任何一个所述的方法,其中,确定频率扩展编译码历史包括确定来自所述互相关值集合的至少一个极大互相关值超过关系阈值。
12.根据权利要求10所述的方法,其中,所述互相关值集合被布置为对称K×K相关矩阵(410),所述对称K×K相关矩阵(410)的主对角线具有任意值。
13.根据权利要求12所述的方法,还包括:
-对于相关矩阵(410)应用线增强以便强调相关矩阵(410)中的局部极大互相关值的一个或多个对角线。
14.根据权利要求13所述的方法,其中,所述线增强包括将相关矩阵与增强矩阵 h = 1 6 2 - 1 - 1 - 1 2 - 1 - 1 - 1 2 进行卷积,从而得到增强的相关矩阵。
15.根据权利要求14所述的方法,其中,确定频率扩展编译码历史包括确定来自增强的相关矩阵的不包括主对角线的至少一个极大互相关值超过关系阈值。
16.根据权利要求12至15中的任何一个所述的方法,还包括对相关矩阵进行分析以检测局部极大互相关值的一个或多个对角线,其中,
-局部极大互相关值的对角线不位于相关矩阵的主对角线上;
-局部极大互相关值的对角线包括多于一个的局部极大互相关值,其中,所述多于一个的局部极大互相关值中的每个均超过最小相关阈值;
-所述多于一个的局部极大互相关值以平行于相关矩阵的主对角线的对角线的方式布置;和
-对于所述多于一个的局部极大互相关值中的在相关矩阵的给定行中的每一个,同一行且直接相邻的左侧列中的互相关值等于或低于最小相关阈值、和/或同一行且直接相邻的右侧列中的互相关值等于或低于最小相关阈值。
17.根据权利要求16所述的方法,其中,在主对角线上方或下方检测到局部极大互相关值的多于两个对角线;其中,相关矩阵的行指示源子带,相关矩阵的列指示目标子带;并且其中,所述方法还包括:
-对于相关矩阵的同一源子带,检测具有局部极大互相关值的至少两个冗余对角线;和
-将所述至少两个冗余对角线中的具有各自最低目标子带的对角线识别为从多个源子带到多个目标子带的向上拷贝补丁。
18.根据权利要求16所述的方法,还包括:
-检测到被检测的对角线的在该被检测的对角线的起始点和/或结束点处的局部极大互相关值低于模糊阈值;
-将用于提供所述多个子带信号的变换步骤的参数与用于多种频率扩展编译码方案的变换步骤的参数进行比较;和
-基于比较步骤,确定所述多种频率扩展编译码方案中的已经应用于音频信号的频率扩展编译码方案。
19.根据权利要求1所述的方法,还包括:
-确定来自互相关值集合的极大互相关值低于或高于解码模式阈值,从而检测应用于音频信号的频率扩展编译码方案的解码模式。
20.根据权利要求1所述的方法,其中,所述音频信号是包括第一通道和第二通道的多通道信号,并且其中,所述方法还包括:
-将第一通道和第二通道变换到频域中,从而产生多个第一子带信号和多个第二子带信号;其中,第一子带信号和第二子带信号是复数值的,并且分别包括第一相位信号和第二相位信号;和
-将多个相位差子带信号确定为相应的第一子带信号和第二子带信号的差值。
21.根据权利要求20所述的方法,还包括:
-确定多个相位差值,其中,每个相位差值被确定为相应的相位差子带信号的采样的时间上的平均值;和
-检测所述多个相位差值内的周期性结构,从而检测音频信号的编译码历史中的参数化立体声编码。
22.根据权利要求21所述的方法,其中,所述周期性结构包括相邻子带的相位差值在正相位差值与负相位差值之间的振荡;其中,振荡的相位差值的幅值超过振荡阈值。
23.根据权利要求20至22中的任何一个所述的方法,还包括:
-对于每个相位差子带信号,确定具有比相位差阈值小的相位差的采样的份额;
-检测到对于高频子带中的子带信号,所述份额超过份额阈值,从而检测音频信号的编译码历史中的第一通道和第二通道的耦合。
24.根据权利要求12所述的方法,其中,所述任意值为相应的或与用于所述多个子带信号的自相关值相应的值。
25.一种用于检测音频信号的编译码历史中的频率扩展编译码的方法,所述方法包括:
-提供包括低频子带和高频子带的相应的多个子带中的多个子带信号;其中,所述多个子带信号对应于音频信号的时域/频域表示;
-确定低频子带中的子带信号与高频子带中的子带信号之间的关系程度;其中,所述关系程度是基于所述多个子带信号确定的;
-其中,确定关系程度包括:
-提供从训练矢量集合确定的概率模型,所述训练矢量集合从具有频率扩展编译码历史的训练音频信号推导得到;其中,所述概率模型描述了多个高频子带和低频子带所跨越的矢量空间中的矢量之间的概率关系;
-在低频子带中的子带信号被给定的情况下提供高频子带中的多个子带信号的估计值;其中,基于所述概率模型确定估计值;和
-基于从高频子带中的多个子带信号的估计值和高频子带中的所述多个子带信号推导得到的估计误差来确定关系程度;以及
-如果所述关系程度大于关系阈值,则确定频率扩展编译码历史。
26.根据权利要求25所述的方法,其中,
-所述概率模型描述了所述多个子带和低频子带所跨越的矢量空间中的矢量之间的概率关系;
-在低频子带中的子带信号被给定的情况下,提供所述多个子带信号的估计值;和
-基于从所述多个子带信号的估计值和所述多个子带信号推导得到的估计误差来确定关系程度。
27.根据权利要求26所述的方法,其中,所述概率模型是高斯混合模型。
28.根据权利要求27所述的方法,其中,所述概率模型包括多个混合分量,每个混合分量具有在矢量空间中的均值矢量μ和在矢量空间中的协方差矩阵C。
29.根据权利要求28所述的方法,其中,
-第i混合分量的均值矢量μi表示矢量空间中的群集的形心;和
-第i混合分量的协方差矩阵Ci表示矢量空间中的不同维度之间的相关性。
30.根据权利要求29所述的方法,其中,所述估计值被确定为:
F ( x ) = E &lsqb; y | x &rsqb; = &Sigma; i = 1 Q h i ( x ) &lsqb; &mu; i y + C i y x C i x x - 1 ( x - &mu; i x ) &rsqb;
其中,E[y|x]是在低频子带中的子带信号x被给定的情况下的多个子带信号y的估计值,hi(x)指示在子带信号x被给定的情况下的高斯混合模型的第i混合分量的关联性,是均值矢量μi的与所述多个子带的子空间相应的分量,是均值矢量μi的与所述低频子带的子空间相应的分量,Q是高斯混合模型的分量的数量,并且是来自协方差矩阵Ci的子矩阵。
31.根据权利要求30所述的方法,其中,hi(x)是低频子带中的子带信号x落在高斯混合模型的第i混合分量内的概率:
h i ( x ) = &alpha; i ( 2 &pi; ) n / 2 | C i x x | 1 / 2 exp &lsqb; - 1 2 ( x - &mu; i x ) T C i x x - 1 ( x - &mu; i x ) &rsqb; &Sigma; j = 1 Q &alpha; j ( 2 &pi; ) n / 2 | C j x x | 1 / 2 exp &lsqb; - 1 2 ( x - &mu; j x ) T C j x x - 1 ( x - &mu; j x ) &rsqb;
其中, &Sigma; i = 1 Q &alpha; i = 1 , &alpha; i &GreaterEqual; 0 , 并且
其中,n是高斯混合模型的混合分量的维数。
32.一种用于检测音频信号的编译码历史中的频率扩展编译码的系统,所述系统包括:
-用于提供包括低频子带和高频子带的相应的多个子带中的多个子带信号的装置;其中,所述多个子带信号对应于音频信号的时域/频域表示;
-用于确定低频子带中的子带信号与高频子带中的子带信号之间的关系程度的装置;其中,所述关系程度是基于所述多个子带信号确定的;
-其中,用于确定关系程度的装置包括用于确定所述多个子带信号之间的互相关值集合的装置;
-其中,确定第一子带信号与第二子带信号之间的相关值包括确定时滞为零的第一子带信号和第二子带信号的相应采样的乘积的时间上的平均值;和
-用于如果所述关系程度大于关系阈值,则确定频率扩展编译码历史的装置。
33.根据权利要求32所述的系统,其中,使用以下之一来产生所述多个子带信号:
-复值的伪正交镜像滤波器组;
-修改的离散余弦变换;
-修改的离散正弦变换;
-离散傅立叶变换;
-调制重叠变换;
-复调制重叠变换;或
-快速傅立叶变换。
34.根据权利要求32所述的系统,其中,使用包括多个滤波器的滤波器组产生所述多个子带信号,每个滤波器对于位于各自滤波器的阻带内的频率具有超过预定滚降阈值的滚降。
35.根据权利要求34所述的系统,其中,所述多个滤波器中的滤波器包括M个滤波器系数,其中,M大于将被检测的频率扩展编译码所使用的滤波器系数的数量。
36.根据权利要求32所述的系统,其中,
-音频信号包括多个音频通道;
-所述系统包括用于对所述多个音频通道进行下混以确定下混时域音频信号的装置;和
-从下混时域音频信号产生所述多个子带信号。
37.根据权利要求32所述的系统,还包括用于确定音频信号的最大频率的装置;其中,所述多个子带信号仅包括等于或低于最大频率的频率。
38.根据权利要求37所述的系统,其中,用于确定最大频率的装置包括:
-用于在频域中对音频信号的功率谱进行分析的装置;和
-用于确定最大频率以使得对于大于最大频率的所有频率,功率谱低于功率阈值的装置。
39.根据权利要求32所述的系统,其中,
-所述多个子带信号是分别包括多个相位信号和相应的多个幅值信号的多个复数子带信号;和
-基于所述多个相位信号,而不基于所述多个幅值信号来确定关系程度。
40.根据权利要求32所述的系统,其中,用于确定关系程度的装置包括用于确定已从低频子带中的一组子带信号产生的高频子带中的一组子带信号的装置。
41.根据权利要求32至40中的任何一个所述的系统,其中,
-所述多个子带信号包括K个子带信号;和
-所述互相关值集合包括与来自所述多个子带信号的不同子带信号的所有组合相应的(K-1)!个互相关值。
42.根据权利要求32至40中的任何一个所述的系统,其中,用于确定频率扩展编译码历史的装置包括用于确定来自所述互相关值集合的至少一个极大互相关值超过关系阈值的装置。
43.根据权利要求41所述的系统,其中,所述互相关值集合被布置为对称K×K相关矩阵(410),所述对称K×K相关矩阵(410)的主对角线具有任意值。
44.根据权利要求43所述的系统,还包括:
-用于对于相关矩阵(410)应用线增强以便强调相关矩阵(410)中的局部极大互相关值的一个或多个对角线的装置。
45.根据权利要求44所述的系统,其中,所述线增强包括将相关矩阵与增强矩阵 h = 1 6 2 - 1 - 1 - 1 2 - 1 - 1 - 1 2 进行卷积,从而得到增强的相关矩阵。
46.根据权利要求45所述的系统,其中,用于确定频率扩展编译码历史的装置包括用于确定来自增强的相关矩阵的不包括主对角线的至少一个极大互相关值超过关系阈值的装置。
47.根据权利要求43至46中的任何一个所述的系统,还包括用于对相关矩阵进行分析以检测局部极大互相关值的一个或多个对角线的装置,其中,
-局部极大互相关值的对角线不位于相关矩阵的主对角线上;
-局部极大互相关值的对角线包括多于一个的局部极大互相关值,其中,所述多于一个的局部极大互相关值中的每个均超过最小相关阈值;
-所述多于一个的局部极大互相关值以平行于相关矩阵的主对角线的对角线的方式布置;和
-对于所述多于一个的局部极大互相关值中的在相关矩阵的给定行中的每一个,同一行且直接相邻的左侧列中的互相关值等于或低于最小相关阈值、和/或同一行且直接相邻的右侧列中的互相关值等于或低于最小相关阈值。
48.根据权利要求47所述的系统,其中,在主对角线上方或下方检测到局部极大互相关值的多于两个对角线;其中,相关矩阵的行指示源子带,相关矩阵的列指示目标子带;并且其中,所述系统还包括:
-用于对于相关矩阵的同一源子带,检测具有局部极大互相关值的至少两个冗余对角线的装置;和
-用于将所述至少两个冗余对角线中的具有各自最低目标子带的对角线识别为从多个源子带到多个目标子带的向上拷贝补丁的装置。
49.根据权利要求47所述的系统,还包括:
-用于检测到被检测的对角线的在该被检测的对角线的起始点和/或结束点处的局部极大互相关值低于模糊阈值的装置;
-用于将用于提供所述多个子带信号的变换的参数与用于多种频率扩展编译码方案的变换的参数进行比较的装置;和
-用于基于比较,确定所述多种频率扩展编译码方案中的已经应用于音频信号的频率扩展编译码方案的装置。
50.根据权利要求32所述的系统,还包括:
-用于确定来自互相关值集合的极大互相关值低于或高于解码模式阈值,从而检测应用于音频信号的频率扩展编译码方案的解码模式的装置。
51.根据权利要求32所述的系统,其中,所述音频信号是包括第一通道和第二通道的多通道信号,并且其中,所述系统还包括:
-用于将第一通道和第二通道变换到频域中,从而产生多个第一子带信号和多个第二子带信号的装置;其中,第一子带信号和第二子带信号是复数值的,并且分别包括第一相位信号和第二相位信号;和
-用于将多个相位差子带信号确定为相应的第一子带信号和第二子带信号的差值的装置。
52.根据权利要求51所述的系统,还包括:
-用于确定多个相位差值的装置,其中,每个相位差值被确定为相应的相位差子带信号的采样的时间上的平均值;和
-用于检测所述多个相位差值内的周期性结构,从而检测音频信号的编译码历史中的参数化立体声编码的装置。
53.根据权利要求52所述的系统,其中,所述周期性结构包括相邻子带的相位差值在正相位差值与负相位差值之间的振荡;其中,振荡的相位差值的幅值超过振荡阈值。
54.根据权利要求51至53中的任何一个所述的系统,还包括:
-用于对于每个相位差子带信号,确定具有比相位差阈值小的相位差的采样的份额的装置;
-用于检测到对于高频子带中的子带信号,所述份额超过份额阈值,从而检测音频信号的编译码历史中的第一通道和第二通道的耦合的装置。
55.根据权利要求43所述的系统,其中,所述任意值为与零相应的或与用于所述多个子带信号的自相关值相应的值。
56.一种用于检测音频信号的编译码历史中的频率扩展编译码的系统,所述系统包括:
-用于提供包括低频子带和高频子带的相应的多个子带中的多个子带信号的装置;其中,所述多个子带信号对应于音频信号的时域/频域表示;
-用于确定低频子带中的子带信号与高频子带中的子带信号之间的关系程度的装置;其中,所述关系程度是基于所述多个子带信号确定的;
-其中,用于确定关系程度的装置包括:
-用于提供从训练矢量集合确定的概率模型的装置,所述训练矢量集合从具有频率扩展编译码历史的训练音频信号推导得到;其中,所述概率模型描述了多个高频子带和低频子带所跨越的矢量空间中的矢量之间的概率关系;
-用于在低频子带中的子带信号被给定的情况下提供高频子带中的多个子带信号的估计值的装置;其中,基于所述概率模型确定估计值;和
-用于基于从高频子带中的多个子带信号的估计值和高频子带中的所述多个子带信号推导得到的估计误差来确定关系程度的装置;以及
-用于如果所述关系程度大于关系阈值,则确定频率扩展编译码历史的装置。
57.根据权利要求56所述的系统,其中,
-所述概率模型描述了所述多个子带和低频子带所跨越的矢量空间中的矢量之间的概率关系;
-在低频子带中的子带信号被给定的情况下,提供所述多个子带信号的估计值;和
-基于从所述多个子带信号的估计值和所述多个子带信号推导得到的估计误差来确定关系程度。
58.根据权利要求57所述的系统,其中,所述概率模型是高斯混合模型。
59.根据权利要求58所述的系统,其中,所述概率模型包括多个混合分量,每个混合分量具有在矢量空间中的均值矢量μ和在矢量空间中的协方差矩阵C。
60.根据权利要求59所述的系统,其中,
-第i混合分量的均值矢量μi表示矢量空间中的群集的形心;和
-第i混合分量的协方差矩阵Ci表示矢量空间中的不同维度之间的相关性。
61.根据权利要求60所述的系统,其中,所述估计值被确定为:
F ( x ) = E &lsqb; y | x &rsqb; = &Sigma; i = 1 Q h i ( x ) &lsqb; &mu; i y + C i y x C i x x - 1 ( x - &mu; i x ) &rsqb;
其中,E[y|x]是在低频子带中的子带信号x被给定的情况下的多个子带信号y的估计值,hi(x)指示在子带信号x被给定的情况下的高斯混合模型的第i混合分量的关联性,是均值矢量μi的与所述多个子带的子空间相应的分量,是均值矢量μi的与所述低频子带的子空间相应的分量,Q是高斯混合模型的分量的数量,并且是来自协方差矩阵Ci的子矩阵。
62.根据权利要求61所述的系统,其中,hi(x)是低频子带中的子带信号x落在高斯混合模型的第i混合分量内的概率:
h i ( x ) = &alpha; i ( 2 &pi; ) n / 2 | C i x x | 1 / 2 exp &lsqb; - 1 2 ( x - &mu; i x ) T C i x x - 1 ( x - &mu; i x ) &rsqb; &Sigma; j = 1 Q &alpha; j ( 2 &pi; ) n / 2 | C j x x | 1 / 2 exp &lsqb; - 1 2 ( x - &mu; j x ) T C j x x - 1 ( x - &mu; j x ) &rsqb;
其中, &Sigma; i = 1 Q &alpha; i = 1 , &alpha; i &GreaterEqual; 0 , 并且
其中,n是高斯混合模型的混合分量的维数。
CN201280024357.2A 2011-05-19 2012-04-30 参数化音频编译码方案的取证检测 Expired - Fee Related CN103548077B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161488122P 2011-05-19 2011-05-19
US61/488,122 2011-05-19
PCT/US2012/035785 WO2012158333A1 (en) 2011-05-19 2012-04-30 Forensic detection of parametric audio coding schemes

Publications (2)

Publication Number Publication Date
CN103548077A CN103548077A (zh) 2014-01-29
CN103548077B true CN103548077B (zh) 2016-02-10

Family

ID=46149720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280024357.2A Expired - Fee Related CN103548077B (zh) 2011-05-19 2012-04-30 参数化音频编译码方案的取证检测

Country Status (6)

Country Link
US (1) US9117440B2 (zh)
EP (1) EP2710588B1 (zh)
JP (1) JP5714180B2 (zh)
KR (1) KR101572034B1 (zh)
CN (1) CN103548077B (zh)
WO (1) WO2012158333A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11967331B2 (en) 2015-03-13 2024-04-23 Dolby International Ab Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2549953T3 (es) * 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
RU2622872C2 (ru) 2013-04-05 2017-06-20 Долби Интернэшнл Аб Аудиокодер и декодер для кодирования по форме волны с перемежением
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830056A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
CN111312279B (zh) 2013-09-12 2024-02-06 杜比国际公司 基于qmf的处理数据的时间对齐
KR101782916B1 (ko) * 2013-09-17 2017-09-28 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
KR101804745B1 (ko) 2013-10-22 2017-12-06 한국전자통신연구원 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치
EP3697109B1 (en) 2013-12-23 2021-08-18 Wilus Institute of Standards and Technology Inc. Audio signal processing method and parameterization device for same
US9832585B2 (en) 2014-03-19 2017-11-28 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and apparatus
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
US9848275B2 (en) 2014-04-02 2017-12-19 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and device
US9306606B2 (en) * 2014-06-10 2016-04-05 The Boeing Company Nonlinear filtering using polyphase filter banks
EP2963645A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Calculator and method for determining phase correction data for an audio signal
EP2963948A1 (en) * 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
TW202242853A (zh) * 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
KR102051436B1 (ko) 2015-04-30 2019-12-03 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 신호 처리 장치들 및 방법들
EP3223279B1 (en) * 2016-03-21 2019-01-09 Nxp B.V. A speech signal processing circuit
CN106097317A (zh) * 2016-06-02 2016-11-09 南京康尼机电股份有限公司 一种基于离散余弦相位信息的多光斑检测和定位方法
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
CN107767860B (zh) * 2016-08-15 2023-01-13 中兴通讯股份有限公司 一种语音信息处理方法和装置
US10803119B2 (en) * 2017-01-02 2020-10-13 Gracenote, Inc. Automated cover song identification
EP3382702A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
US10733998B2 (en) * 2017-10-25 2020-08-04 The Nielsen Company (Us), Llc Methods, apparatus and articles of manufacture to identify sources of network streaming services
US11049507B2 (en) 2017-10-25 2021-06-29 Gracenote, Inc. Methods, apparatus, and articles of manufacture to identify sources of network streaming services
US10629213B2 (en) 2017-10-25 2020-04-21 The Nielsen Company (Us), Llc Methods and apparatus to perform windowed sliding transforms
US10740889B2 (en) * 2017-12-29 2020-08-11 Huizhou China Star Optoelectronics Technology Co., Ltd. Method and system for detection of in-panel mura based on hough transform and gaussian fitting
CN108074238B (zh) * 2017-12-29 2020-07-24 惠州市华星光电技术有限公司 基于霍夫变换及高斯拟合的面内mura检测方法及检测系统
US20200042825A1 (en) * 2018-08-02 2020-02-06 Veritone, Inc. Neural network orchestration
CN109584890A (zh) * 2018-12-18 2019-04-05 中央电视台 音频水印嵌入、提取、电视节目互动方法及装置
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
CN113409804A (zh) * 2020-12-22 2021-09-17 声耕智能科技(西安)研究院有限公司 一种基于变张成广义子空间的多通道频域语音增强算法
US11568884B2 (en) * 2021-05-24 2023-01-31 Invictumtech, Inc. Analysis filter bank and computing procedure thereof, audio frequency shifting system, and audio frequency shifting procedure

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1318611A1 (en) * 2001-12-06 2003-06-11 Deutsche Thomson-Brandt Gmbh Method for retrieving a sensitive criterion for quantized spectra detection
CN1765072A (zh) * 2003-04-30 2006-04-26 诺基亚公司 多声道音频扩展支持
CN101140759A (zh) * 2006-09-08 2008-03-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0149759B1 (ko) 1995-11-20 1998-11-02 김광호 디지탈신호 처리칩을 이용한 디티엠프 검출기 및 구현방법
DE10000934C1 (de) 2000-01-12 2001-09-27 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Bestimmen eines Codierungs-Blockrasters eines decodierten Signals
JP3511502B2 (ja) 2000-09-05 2004-03-29 インターナショナル・ビジネス・マシーンズ・コーポレーション データ加工検出システム、付加情報埋め込み装置、付加情報検出装置、デジタルコンテンツ、音楽コンテンツ処理装置、付加データ埋め込み方法、コンテンツ加工検出方法、記憶媒体及びプログラム伝送装置
SE0004163D0 (sv) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
SE0004818D0 (sv) 2000-12-22 2000-12-22 Coding Technologies Sweden Ab Enhancing source coding systems by adaptive transposition
AU2002352182A1 (en) 2001-11-29 2003-06-10 Coding Technologies Ab Methods for improving high frequency reconstruction
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
KR100462615B1 (ko) 2002-07-11 2004-12-20 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
BRPI0311601B8 (pt) 2002-07-19 2018-02-14 Matsushita Electric Ind Co Ltd "aparelho e método decodificador de áudio"
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
WO2004093494A1 (en) 2003-04-17 2004-10-28 Koninklijke Philips Electronics N.V. Audio signal generation
JP4767687B2 (ja) 2003-10-07 2011-09-07 パナソニック株式会社 スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法
US20080260048A1 (en) 2004-02-16 2008-10-23 Koninklijke Philips Electronics, N.V. Transcoder and Method of Transcoding Therefore
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
KR100657916B1 (ko) * 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
JP5224017B2 (ja) 2005-01-11 2013-07-03 日本電気株式会社 オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム
DE602006021402D1 (de) 2005-02-24 2011-06-01 Panasonic Corp Datenwiedergabevorrichtung
KR100818268B1 (ko) 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
CN101288117B (zh) 2005-10-12 2014-07-16 三星电子株式会社 对音频数据和扩展数据进行编码/解码的方法和设备
US8199827B2 (en) 2005-10-13 2012-06-12 Lg Electronics Inc. Method of processing a signal and apparatus for processing a signal
AU2006300102B2 (en) 2005-10-13 2010-09-16 Lg Electronics Inc. Method and apparatus for signal processing
KR100717058B1 (ko) 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
US8036903B2 (en) 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
US20080243518A1 (en) 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
JP4967618B2 (ja) 2006-11-24 2012-07-04 富士通株式会社 復号化装置および復号化方法
JP5377974B2 (ja) 2006-11-30 2013-12-25 パナソニック株式会社 信号処理装置
US8015368B2 (en) 2007-04-20 2011-09-06 Siport, Inc. Processor extensions for accelerating spectral band replication
US20100274555A1 (en) 2007-11-06 2010-10-28 Lasse Laaksonen Audio Coding Apparatus and Method Thereof
CN101868821B (zh) * 2007-11-21 2015-09-23 Lg电子株式会社 用于处理信号的方法和装置
CN101471072B (zh) 2007-12-27 2012-01-25 华为技术有限公司 高频重建方法、编码装置和解码装置
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
ES2539304T3 (es) 2008-07-11 2015-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Un aparato y un método para generar datos de salida por ampliación de ancho de banda
RU2443028C2 (ru) 2008-07-11 2012-02-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра
AU2009267525B2 (en) 2008-07-11 2012-12-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal synthesizer and audio signal encoder
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
EP2224433B1 (en) 2008-09-25 2020-05-27 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
EP4231291B1 (en) 2008-12-15 2023-11-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension decoder, corresponding method and computer program
JP5232121B2 (ja) * 2009-10-02 2013-07-10 株式会社東芝 信号処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1318611A1 (en) * 2001-12-06 2003-06-11 Deutsche Thomson-Brandt Gmbh Method for retrieving a sensitive criterion for quantized spectra detection
CN1765072A (zh) * 2003-04-30 2006-04-26 诺基亚公司 多声道音频扩展支持
CN101140759A (zh) * 2006-09-08 2008-03-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11967331B2 (en) 2015-03-13 2024-04-23 Dolby International Ab Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element

Also Published As

Publication number Publication date
US9117440B2 (en) 2015-08-25
JP5714180B2 (ja) 2015-05-07
KR20140023389A (ko) 2014-02-26
JP2014513819A (ja) 2014-06-05
WO2012158333A1 (en) 2012-11-22
US20140088978A1 (en) 2014-03-27
CN103548077A (zh) 2014-01-29
KR101572034B1 (ko) 2015-11-26
EP2710588A1 (en) 2014-03-26
EP2710588B1 (en) 2015-09-09

Similar Documents

Publication Publication Date Title
CN103548077B (zh) 参数化音频编译码方案的取证检测
KR102117051B1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
KR100958144B1 (ko) 오디오 압축
TWI585748B (zh) 訊框錯誤隱藏方法以及音訊解碼方法
KR101256808B1 (ko) 외적 향상 고조파 전치
CN112216289B (zh) 用于音频信号的时域数据包丢失隐藏的方法
CN101471072B (zh) 高频重建方法、编码装置和解码装置
CN105518777A (zh) 在频谱域中使用智能间隙填充对音频信号进行编码或解码的设备及方法
CN103155033A (zh) 高频重建期间的音频信号处理
RU2010140365A (ru) Способ и устройство для обработки аудиосигнала
CN103366749B (zh) 一种声音编解码装置及其方法
CN105719655A (zh) 用于高频带宽扩展的对信号进行编码和解码的设备和方法
Umapathy et al. Audio signal processing using time-frequency approaches: coding, classification, fingerprinting, and watermarking
CN107221334B (zh) 一种音频带宽扩展的方法及扩展装置
JP6790114B2 (ja) 音声スペクトログラムに基づく構造テンソルを使用して位相情報を復元することによるエンコーディング
CN104919524A (zh) 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备
CN103366750A (zh) 一种声音编解码装置及其方法
CN103366751B (zh) 一种声音编解码装置及其方法
Hendriks et al. Perceptual linear predictive noise modelling for sinusoid-plus-noise audio coding
RU2409874C9 (ru) Сжатие звуковых сигналов
Radfar et al. A novel low complexity VQ-based single channel speech separation technique
Hosoda et al. Speech bandwidth extension using data hiding based on discrete hartley transform domain
BR112014032265B1 (pt) Dispositivo e método para mudanças de frequência livremente selecionáveis no domínio de sub-banda

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160210

Termination date: 20170430