CN102789782A - 对输入数据流进行混合以及从中产生输出数据流 - Google Patents

对输入数据流进行混合以及从中产生输出数据流 Download PDF

Info

Publication number
CN102789782A
CN102789782A CN2012102326088A CN201210232608A CN102789782A CN 102789782 A CN102789782 A CN 102789782A CN 2012102326088 A CN2012102326088 A CN 2012102326088A CN 201210232608 A CN201210232608 A CN 201210232608A CN 102789782 A CN102789782 A CN 102789782A
Authority
CN
China
Prior art keywords
frame
spectrum
input
output
input traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102326088A
Other languages
English (en)
Other versions
CN102789782B (zh
Inventor
马库斯·施内尔
曼弗雷德·卢茨基
马库斯·马特拉斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN102789782A publication Critical patent/CN102789782A/zh
Application granted granted Critical
Publication of CN102789782B publication Critical patent/CN102789782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Paper (AREA)
  • Television Systems (AREA)
  • Communication Control (AREA)
  • Image Processing (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Amplifiers (AREA)
  • Telephone Function (AREA)

Abstract

描述了一种用于对多个输入数据流(510)进行混合的设备(500),其中输入数据流(510)各包括频谱域中的音频数据的帧(540),输入数据流(510)的帧(540)包括针对多个频谱分量的频谱信息。所述设备(500)包括:处理单元(520),适于比较多个输入数据流(510)的帧(540);基于所述比较,针对输出数据流(530)的输出帧(550)的频谱分量,确定多个输入数据流(510)的正好一个输入数据流(510);通过拷贝确定的输入数据流(510)的帧的对应频谱分量的信息中的至少一部分,以描述输出数据流(530)的输出帧(550)的频谱分量,来产生输出数据流。

Description

对输入数据流进行混合以及从中产生输出数据流
本申请是申请日为2009年3月4日的中国专利申请No.200980116080.4(发明名称:“对输入数据流进行混合以及从中产生输出数据流”)的分案申请。 
技术领域
根据本发明的实施例涉及对多个输入数据流进行混合以获得输出数据流,并且相应地通过对第一和第二输入数据流进行混合来产生输出数据流。输出数据流例如可以在包括视频会议系统和电话会议系统在内的会议系统领域中使用。 
背景技术
在许多应用中,要以以下方式来处理多于一个音频信号:根据多个音频信号,要产生一个信号或至少减小数目的信号,这通常称为“混合”。因此,混合音频信号的过程可以称为将多个单独音频信号捆绑为生成信号。例如在创建音乐用于致密光盘(“配音”)时,使用这一过程。在这种情况下,典型地,将不同乐器的不同音频信号与包括声乐表演(歌唱)的一个或多个音频信号混合为歌曲。 
混合处理扮演重要角色的其他应用领域是视频会议系统和电话会议系统。典型地,这种系统能够通过采用中心服务器来对会议中的多个在空间上分散的参与者进行连接,中心服务器对注册参与者的输入视频和音频数据进行适当混合,并将生成信号返回发送给每个参与者。该生成信号或输出信号包括所有其他会议参与者的音频信号。 
在现代数字会议系统中,多个部分矛盾的目标和方面互相竞争。必须考虑重构音频信号的质量,以及针对不同类型音频信号(例如话音信号相比于一般音频信号和音乐信号),一些编码和解码技术的实用性和有效性。在设计和实现会议系统时还要考虑的其他方面是可用带 宽和延迟问题。 
例如,在对一方面质量和另一方面带宽进行平衡时,在多数情况下,折衷不可避免。然而,可以通过实现现代编码和解码技术,如AAC-ELD技术(AAC=高级音频编解码;ELD=增强低延迟),来实现与质量相关的改进。然而,可实现的质量可能以更多的基本问题和方面对采用这种现代技术的系统造成负面影响。 
仅列出要满足的一个挑战,所有数字信号传输面临所需量化的问题,至少在原理上,该问题在无噪声的模拟系统中的理想环境下是可避免的。由于量化过程,不可避免地将特定量的量化噪声引入要处理的信号。为了对抗可能和可听的失真,可能尝试增加量化级的数目,从而相应提高了量化分辨率。然而,这导致要发送更大数目的信号值,从而导致要发送的数据量增大。换言之,通过减小由量化噪声引入的可能失真来提高质量,在特定环境下将增大要发送的数据量,并且可能最终违反施加于传输系统上的带宽限制。 
在会议系统的情况下,由于典型地要处理多于一个输入音频信号,因此对质量、可用带宽和其他参数之间的权衡进行改进的挑战甚至更加复杂。因此,在产生由会议系统产生的输出信号或生成信号时,必须考虑多于一个音频信号所施加的边界条件。 
尤其是考虑到实现具有充分低延迟的会议系统的另一挑战:在不引入参与者认为不可接受的实质延迟的情况下,实现会议参与者之间的直接通信,这种挑战进一步提升。 
在会议系统的低延迟实现中,典型地在延迟源的数目方面对其进行限制,另一方面,这可能导致在通过叠加或添加相应信号可以实现音频信号混合的时域之外处理数据的挑战。 
一般而言,赞成仔细选择适合于会议系统的质量、可用带宽与其他参数之间的权衡,以便应对用于实时混合的处理开销、降低所需的硬件数量、并且保持硬件以及不包括音频质量的合理传输开销的成本。 
为了减少传输的数据量,现代音频编解码器通常利用高复杂度工具来描述与相应音频信号的频谱分量有关的频谱信息。通过利用这种基于心理声学现象和检查结果的工具,可以实现部分矛盾参数与边界 条件(例如,根据传输数据的重构音频信号的质量、计算复杂度、比特率、以及其他参数)之间改进的权衡。 
例如,针对这种工具的示例是感知噪声替换(PNS)、时间噪声成形(TNS)、以及频谱带复制(SBR),仅列举少数。所有这些技术基于描述具有与不使用这些工具所基于的数据流相比减少比特数目的频谱信息的至少一部分,可以将更多比特分配给频谱中频谱的重要部分。因此,在保持比特率的同时,可以通过使用这样的工具来提高质量感知级。当然,可以选择不同权衡,从而减少音频信号的每帧传输的比特数目,同时保持总音频印象。还可以同样极好地实现这两个极端之间的不同权衡。 
这些工具也可以使用在电信应用中。然而,当在这种通信情况下存在多于两个参与者时,采用会议系统用于混合多于两个参与者的两个或多个比特流是有利的。类似于上述的情况出现在纯基于音频的或电话会议情况以及视频会议情况。 
例如,在US 2008/0097764A1中描述了一种在频域中工作的会议系统,该系统执行频域中的实际混合,并从而省略将输入音频信号重变换到时域中的操作。
然而,这里所描述的会议系统不考虑如上所述实现以更紧缩的方式对至少一个频谱分量的频谱信息进行描述的工具的可能性。因此,这样的会议系统需要额外的变换步骤来将被提供给会议系统的音频信号至少重构到以下程度:相应音频信号存在于频域中。此外,还需要基于上述附加工具对生成的混合音频信号进行重新变换。然而,这些重新变换和变换步骤要求复杂算法的应用,这会导致计算复杂度的增加,例如,在便携式、能量方面要求严格的应用中,导致增加的能量消耗,并因此导致受限的操作时间。 
因此,根据本发明的实施例要解决的问题是,实现一种适合于会议系统的质量、可用带宽和其他参数之间的改进权衡,或者实现如上所述会议系统中所需计算复杂度的降低。 
发明内容
该目的可以通过一种根据权利要求1或12所述的设备、一种根据权利要求10或26所述用于对多个输入数据流进行混合的方法、或者一种根据权利要求11或27所述的计算机程序来实现。 
根据第一方面,根据本发明的实施例基于以下发现:当混合多个输入数据流时,通过基于比较来确定输入数据流并且将至少部分频谱信息从确定的输入数据流中拷贝到输出数据流中,上述参数与目标之间的改进权衡是可实现的。通过从一个输入数据流中拷贝至少一部分频谱信息,可以省略重新量化,并从而消除了与重新量化相关联的重新量化噪声。在不可确定主导输入流的频谱信息情况下,在频域中混合相应频谱信息可以由根据本发明的实施例来执行。 
例如,比较可以基于心理声学模型。比较还可以涉及与来自至少两个不同输入数据流的公共频谱分量(例如,频率或频带)相对应的频谱信息。因此,该比较可以是声道间比较。在比较基于心理声学模型的情况下,从而可以考虑声道间掩蔽来描述比较。 
根据第二方面,根据本发明的实施例基于以下发现:在混合第一输入数据流和第二输入数据流以产生输出数据流期间所执行的操作复杂度可以通过考虑与相应输入数据流的有效载荷数据相关联的控制值来降低,其中,控制值指示有效载荷数据表示相应音频信号的相应频谱信息或频谱域的至少一部分的方式。在两个输入数据流的控制值相等的情况下,可以省略输出数据流的相应帧处的频谱域的方式的新判定,取而代之,输出流产生可以仅依赖于已经存在的判定,并且统一由输入数据流的编码器来确定,即,采用输入数据流的控制值。根据控制值所指示的方式,甚至能够且优选地避免将相应有效载荷数据重新变换回到表示频谱域的另一方式(例如,具有每时间/空间采样一个频谱值的正常或普通方式)。在后一种情况下,对有效载荷数据直接进行处理以获得输出数据流的相应效载荷数据,以及等于第一和第二输入数据流的控制值的控制值可以例如通过PNS或以下更详细描述的类似音频特征,利用意味着“不改变表示频谱域的方式”的“方向性”来产生。 
在根据本发明实施例的实施例中,控制值仅与至少一个频谱分量有关。此外,在根据本发明的实施例中,当第一输入数据流和第二数据数据流的帧与关于两个输入数据流的适当帧序列的公共时间索引相对应时,可以执行这样的操作。 
在第一和第二数据流的控制值不相等的情况下,根据本发明的实施例可以执行以下步骤:将第一和第二输入数据流之一的一个帧的有效载荷数据进行变换,以获得另一个输入数据流的帧的有效载荷数据的表示。然后可以基于变换后的有效载荷数据和其他两个流的有效载荷数据,产生输出数据流的有效载荷数据。在一些情况下,根据本发明实施例,可以直接执行将一个输入数据流的帧的有效载荷数据变换成其他输入数据流的帧的有效载荷数据的表示,而无需将相应音频信号变换回到普通(plain)频域。 
附图说明
以下,参考以下附图来描述根据本发明的实施例。 
图1示出了会议系统的框图; 
图2示出了基于一般音频编解码器的会议系统的框图; 
图3示出了使用比特流混合技术,在频域中操作的会议系统的框图; 
图4示出了包括多个帧在内的数据流的示意图; 
图5示意了频谱分量和频谱数据或信息的不同形式; 
图6更详细示出了根据本发明实施例的用于对多个输入数据流进行混合的设备; 
图7示出了根据本发明实施例的图6的设备的操作模式; 
图8示出了在会议系统环境中根据本发明另一实施例用于对多个输入数据流进行混合的设备的框图; 
图9示出了根据本发明实施例的用于产生输出数据流的设备的简要框图; 
图10示出了根据本发明实施例的用于产生输出数据流的设备的更详细框图; 
图11示出了在会议系统环境中根据本发明另一实施例的用于从多个输入数据流产生输出数据流的设备的框图; 
图12a示出了用于PNS实现的根据本发明实施例的输出数据流产生的操作; 
图12b示出了用于SBR实现的根据本发明实施例的输出数据流产生设备的操作;以及 
图12c示出了用于M/S实现的根据本发明实施例的输出数据流产生设备的操作。 
具体实施方式
参照图4至12C,更详细描述根据本发明的不同实施例。然而,在更详细描述这些实施例之前,首先参照图1至3,考虑在会议系统的框架中可能变得重要的挑战和需求,来给出简要介绍。 
图1示出了会议系统100的框图,会议系统100也可以称为多点控制单元(MCU)。从与其功能相关的描述中变得显而易见,如图1所示,会议系统100是在时域中操作的系统。 
如图1所示,会议系统100适于经由合适数目的输入110-1,110-2,110-3,...(图1中仅示出其中3个)来接收多个输入数据流。每个输入110耦合至相应解码器120。更准确地,针对第一输入数据流的输入110-1耦合至第一解码器120-1,而第二输入110-2耦合至第二解码器120-2,第三输入110-3耦合至第三解码器120-3。 
会议系统100还包括合适数目的加法器130-1,130-2,130-3,...图1仍示出了其中3个。每个加法器与会议系统100的输入110之一相关联。例如,第一加法器130-1与第一输入110-1和对应的解码器120-1相关联。 
每个加法器130耦合至所有解码器120的输出,但是输入110所耦合的解码器120除外。换言之,第一加法器130-1耦合至所有解码器120,但第一解码器120-1除外。相应地,第二加法器130-2耦合至所有解码器120,但第二解码器120-2除外。 
每个加法器130还包括耦合至一个编码器140的输出。因此,第一加法器130-1输出耦合至第一编码器140-1。相应地,第二和第三加法 器130-2、130-3也分别耦合至第二和第三编码器140-2、140-3。 
继而,每个编码器140耦合至相应输出150。换言之,例如第一编码器耦合至第一输出150-1。第二和第三编码器140-2、140-3也分别耦合至第二和第三输出150-2、150-3。 
为了能够更详细地描述图1所示的会议系统100的操作,图1还示出了第一参与者的会议终端160。会议终端160例如可以是数字电话(例如ISDN电话(ISDN=综合业务数字网))、包括IP语音基础设施的系统、或类似终端。 
会议终端160包括编码器170,编码器170耦合至会议系统100的第一输入110-1。会议终端160还包括解码器180,解码器180耦合至会议系统100的第一输出150-1。 
在其他参与者的站点处还可以有类似的会议终端160。仅为了简单起见,图1中未示出这些会议终端。还应当注意,会议系统100和会议终端160目前不需要在物理上彼此紧邻。会议终端160和会议系统100可以布置在不同站点,例如可以仅通过WAN技术(WAN=广域网)连接。 
会议终端160还可以包括或连接至附加组件,如麦克风、放大器和扬声器或耳机,以实现以更全面的方式与人类用户交换音频信号。仅为了简单起见,图1中未示出这些。 
如上所述,图1中示出的会议系统100是在时域中操作的系统。例如,当第一参与者对麦克风(图1中未示出)说话时,会议终端160的编码器170将相应音频信号编码为对应比特流,并将比特流发送至会议系统100的第一输入110-1。 
在会议系统100内,比特流由第一解码器120-1解码,并变换回时域。由于第一解码器120-1耦合至第二和第三混合器130-1、130-3,因此通过简单地将重构的音频信号与分别来自第二和第三参与者的其他重构音频信号相加,在时域中对第一参与者产生的音频信号进行混合。 
对于分别由第二和第三输入110-2、110-3接收并由第二和第三解码器120-2、120-3处理的、由第二和第三参与者提供的音频信号而言,也同样如此。然后,将第二和第三参与者的这些重构音频信号提供给 第一混合器130-1,第一混合器130-1继而将时域中的相加后的音频信号提供给第一编码器140-1。编码器140-1对相加后的音频信号进行重新编码,以形成比特流,并在第一输出150-1处将其提供给第一参与者会议终端160。 
类似地,第二和第三编码器140-2、140-3也对分别从第二和第三加法器130-2、130-3接收到的时域中相加后的音频信号进行编码,并分别经由第二和第三输出150-2、150-3将编码的数据发送回相应参与者。 
为了执行实际混合,以非压缩形式对音频信号进行完全解码并相加。此后,可选地,可以通过对相应输出信号进行压缩来执行等级调整,以防止限幅效应(即超过允许值范围)。当单采样值升至允许值范围以上或降至允许值范围以下,使得对应值被截止(限幅)时,可能出现限幅。在16比特量化的情况下(如在CD情况下所采用的),针对每采样值,-32768与32767之间的整数值范围可用。 
为了对抗对信号的可能的过度操作或操作不足,采用压缩算法。这些算法限制了特定阈值以上或以下的发展,以将采样值保持在可允许的值范围内。 
在会议系统(如图1所示的会议系统100)中对音频数据进行编码时,接受一些缺点,从而以最容易可实现的方式,在未编码状态下执行混合。此外,附加地,编码的音频信号的数据速率被限制在所传输频率的较小范围,因为根据奈奎斯特-仙农采样定理,较小的带宽允许较低的采样频率,从而允许较少的数据。奈奎斯特-仙农采样定理指出,采样频率取决于采样信号的带宽并且大小需要(至少)为该带宽的2倍。 
国际电信联盟(ITU)及其电信标准化部门(ITU-T)已经开发了针对多媒体会议系统的多个标准。H.320是针对ISDN的标准会议协议。H.323定义了针对基于分组的网络(TCP/IP)的标准会议系统。H.324定义了针对模拟电话网络和无线通信系统的会议系统。 
在这些标准内,不仅定义了信号的传输,还定义了音频数据的编码和处理。由一个或多个服务器,根据标准H.321的所谓多点控制单元 (MCU)来进行会议的管理。多点控制单元还负责多个参与者的视频和音频数据的处理和分发。 
为了实现这一点,多点控制单元向每个参与者发送包括所有其他参与者的音频数据在内的混合输出或生成信号,并将该信号提供给相应参与者。图1不仅示出了会议系统100的框图,还示出了这种会议情形下的信号流。 
在H.323和H.320标准的框架中,定义了G.7xx类别的音频编解码器以在相应会议系统中操作。标准G.711用于线缆绑定的电话系统中的ISDN传输。在8kHz的采样频率处,G.711标准覆盖300至3400Hz之间的音频带宽,需要8比特(量化)深度的64Kbit/s的比特率。该编码由产生仅0.125ms的非常低延迟的、称为μ律或A律的简单对数编码形成。 
G.722标准以16kHz的采样频率,对从50至7000Hz的较大音频带宽进行编码。因此,以1.5ms的延迟,在比特率48、56或64Kbit/s处,与频带更窄的G.7xx音频编解码器相比,该编解码器实现了更好的质量。此外,存在两个其他改进:G.722.1和G.722.2,在甚至更低的比特率提供了可比的话音质量。G722.2允许以25ms的延迟,在6.6kbit/s与23.85kbit/s之间进行比特率选择。 
G.729标准典型用于IP电话通信(也称为IP语音通信(VoIP))的情况。该编解码器针对话音进行了优化,并发送分解的话音参数的集合,以便随后与误差信号一起进行合成。因此,与G.711标准相比,G.729标准以可比的采样率和音频带宽,实现了近似8kbit/s的明显更好的编码。然而,这种更加复杂的算法造成了近似15ms的延迟。 
作为缺点,G.7xx编解码器是针对话音编码进行优化的,除了较窄的频率带宽之外,在对音乐与话音一起或者纯音乐进行编码时,表现出明显的问题。 
因此,尽管在发送和处理话音信号时,如图1所示的会议系统100可以用于可接受的质量,但是在采用针对话音优化的低延迟编解码器时,不能令人满意地处理一般音频信号。 
换言之,采用用于对话音信号进行编码和解码的编解码器来处理一般音频信号,包括例如具有音乐的音频信号,在质量方面不能产生 满意的结果。如图1所示,通过在会议系统100的框架中采用用于对一般音频信号进行编码和解码的音频编解码器,能够提高质量。然而,如在图2的上下文中更详细阐述的,在这种会议系统中采用一般音频编解码器可能导致其他不利效果,例如增大延迟(仅列出一项)。 
然而,在更详细地描述图2之前,应当注意,在本描述中,当对象在实施例或附图中出现多于一次,或者在多个实施例或附图中出现时,使用相同或相似的参考标记来表示相应对象。除非另外进行显式或隐式表示,使用相同或相似参考标记来表示的对象可以以相似或相等的方式来实现,例如在其电路、编程、特征或其他参数方面。因此,在附图的多个实施例中出现并且使用相同或相似的参考标记来表示的对象可以被实现为具有相同的规格、参数和特征。自然,也可以实现改变和适配,例如在边界条件或其他参数根据不同附图或根据不同实施例而改变的情况下。 
此外,在以下概括中,参考标记将用于表示一组或一类对象,而不是单个对象。在图1的框架中已经这样做,例如在将第一输入表示为110-1,将第二输入表示为110-2,将第三输入表示为110-3时,已经仅以概括参考标记110的方式讨论了这些输入。换言之,除非另外显式注明,与使用概括参考标记来表示的对象相关的描述的部分也与具有相应单独参考标记的其他对象相关。 
由于对于使用相同或相似参考标记来表示的对象而言也是如此,这些措施有助于缩短描述并以更清楚和简要的方式来描述其中公开的实施例。 
图2示出了另一会议系统100以及会议终端160的框图,两者都与图1中所示的类似。图2中示出的会议系统100还包括:输入110、解码器120、加法器130、编码器140和输出150,这些以与图1所示的会议系统100同样的方式进行互连。图2中所示的会议终端160也包括编码器170和解码器180。因此,参照图1所示的会议系统100的描述。 
然而,图2所示的会议系统100,以及图2所示的会议终端160适于使用一般音频编解码器(编码器-解码器)。因此,编码器140、170中的每一个包括在量化器/编码器200之前耦合的时间/频率转换器190的 串联连接。时间/频率转换器190在图2中也示意为“T/F”,而图2中将量化器/编码器200标记为“Q/C”。 
解码器120、180均包括解码器/解量化器210(图2中称为“Q/C-1”),与频率/时间转换器220(图2中称为“T/F-1”)串联连接。仅为了简单起见,仅在编码器140-3和解码器120-3的情况下,将时间/频率转换器190、量化器/编码器200和解码器/解量化器210以及频率/时间转换器220如此标记。然而,以下描述也涉及其他这种元件。 
从编码器开始,如编码器140或编码器170,转换器190将提供给时间/频率转换器190的音频信号从时域转换至频域或频率相关域。此后,在时间/频率转换器190产生的频谱表示中,对转换后的音频数据进行量化和编码,以形成比特流,然后例如在编码器140的情况下,将比特流提供给会议系统100的输出150。 
对于解码器,如解码器120或解码器180,首先对提供给解码器的比特流进行解码和重新量化,以形成至少一部分音频信号的频谱表示,然后,频率/时间转换器220将频谱表示转换回时域。 
因此,时间/频率转换器190,以及反转元件,频率/时间转换器220,分别适于产生向其提供的至少一段音频信号的频谱表示和将频谱表示重新变换为时域中的音频信号的对应部分。 
再将音频信号从时域转换为频域、以及从频域转换回时域的过程中,可能出现偏差,使得重新建立的、重构的、或解码的音频信号可能不同于原始或源音频信号。在量化器编码器200和重新编码器210的框架中执行的量化和解量化的附加步骤可能加入另外的伪像。换言之,原始音频信号,以及重新建立的音频信号,可能互不相同。 
例如,时间/频率转换器190,以及频率/时间转换器220可以基于MDCT(修正离散余弦变换)、MDST(修正离散正弦变换)、基于FFT的转换器(FFT=快速傅立叶变换)或另一基于傅立叶的转换器来实现。在量化器/编码器200和解码器/解量化器210的框架中的量化和重新量化可以例如基于线性量化、对数量化、或另一更复杂的量化算法(例如更具体地考虑人类的听觉特性)来实现。量化器/编码器200和解码器/解量化器210的编码器和解码器部分可以例如通过采用霍夫曼编码 或霍夫曼解码方案来工作。 
然而,在这里描述的不同实施例和系统中,也可以采用更复杂的时间/频率和频率/时间转换器190、220以及更复杂的量化器/编码器和解码器/解量化器200、210,作为例如AAC-ELD编码器(作为编码器140、170)和AAC-ELD解码器(作为解码器120、180)的一部分或形成AAC-ELD编码器和AAC-ELD解码器。 
不言自明,在会议系统100和会议终端160的框架中,实现相同或至少兼容的编码器170、140和解码器180、120是可取的。 
如图2所示,基于一般音频信号编码和解码方案的会议系统100还在时域中执行音频信号的实际混合。向加法器130提供时域中的重构音频信号,以执行叠加并向后续编码器140的时间/频率转换器190提供时域中的混合信号。因此,会议系统再次包括解码器120和编码器140的串联连接,这是如图1和2所示的会议系统100典型地被称为“串联编码系统”的原因。 
串联(tandem)编码系统通常表现出高复杂度的缺点。混合的复杂度高度依赖于所采用的解码器和编码器的复杂度,并且在多个音频输入和音频输出信号的情况下可能明显倍增。此外,由于多数编码和解码方案是无损的事实,在图1和2所示的会议系统100中采用的串联编码方案典型地造成对质量的负面影响。 
作为另一缺点,解码和编码的重复步骤也加大了会议系统的输入110和输出150之间的总体延迟(也称为端到端延迟)。根据所使用的解码器和编码器的初始延迟,会议系统100本身可能将延迟增大至使得在会议系统的框架中的使用变得没有吸引力(如果不是恼人或甚至不可能的话)的程度。通常,50ms的延迟被认为是会话中参与者可以接受的最大延迟。 
作为延迟的主要来源,时间/频率转换器190以及频率/时间转换器220对会议系统110的端到端延迟负责,附加延迟由会议终端160施加。其他元件,即量化器/编码器200和解码器/解量化器210造成的延迟相对次要,因为与时间/频率转换器和频率/时间转换器190、220相比,这些组件可以在更高得多的频率上操作。多数时间/频率转换器和频率 /时间转换器190、220是块操作或帧操作的,这意味着,在许多情况下,必须考虑作为时间量的最小延迟,该最小延迟等于填充具有块的帧的长度的缓冲器或存储器所需的时间。然而该时间受到采样频率的显著影响,采样频率典型地在几kHz至几十kHz的范围内;而量化器/编码器200以及解码器/解量化器210的操作速度主要由基础系统的时钟频率确定。这典型地要更大至少2、3、4或更多个数量级。 
因此,在采用一般音频信号编解码器的会议系统中,已经引入了所谓比特流混合技术。例如,比特流混合方法可以基于MPEG-4AAC-ELD编解码器来实现,该编解码器提供了避免上述由串联编码引入的至少一些缺陷的可能性。 
然而,应当注意,原则上,如图2所示的会议系统100还可以基于与先前描述的G.7xx编解码器族的基于话音的码相比具有类似比特率和明显更大频率带宽的MPEG-4AAC-ELD编解码器来实现。这直接还意味着,可以以明显增大的比特率为代价,能够实现针对所有信号类型的明显更好的音频质量。尽管MPEG-4AAC-ELD提供了在G.7xx编解码器延迟范围内的延迟,但是,在图2所示的会议系统的框架中实现MPEG-4AAC-ELD可能不能产生实际会议系统100。以下将关于图3来概述基于前述所谓比特流混合的更实际的系统。 
应当理解,仅为了简单起见,将主要关注MPEG-4AAC-ELD编解码器及其数据流和比特流。然而,在如图3中示意和示出的会议系统100的环境中,也可以采用其他编码器和解码器。 
图3示出了如在图2的上下文中描述的根据比特流混合原理来工作的会议系统100以及会议终端160的框图。会议系统100本身是图2中示出的会议系统100的简化版本。更精确地,图2中的会议系统100的解码器120已经由图3中示出的解码器/解量化器220-1,220-2,210-3,...所取代。换言之,与图2和3中示出的会议系统100相比,已经去除了解码器120的频率/时间转换器120。类似地,图2的会议系统100的编码器140已经由量化器/编码器200-1,200-2,200-3所取代。因此,与图2和3中示出的会议系统100相比,已经去除了编码器140的时间/频率转换器190。 
因此,加法器130不再在时域中操作,而是由于缺少频率/时间转换器220和时间/频率转换器190而在频域或频率相关域中操作。 
例如,在MPEG-4AAC-ELD编解码器的情况下,仅在会议终端160中出现的时间/频率转换器190和频率/时间转换器220基于MDCT变换。因此,在会议系统100内,混合器130直接在MDCT频率表示中的音频信号成分处。 
由于在图2所示的会议系统100的情况下,转换器190、220表示了延迟的主要来源,因此通过去除这些转换器190、220,明显减小了延迟。此外,还明显减小了会议系统100内由两个转换器190、220引入的复杂度。例如,在MPEG-2AAC解码器的情况下,在频率/时间转换器220的框架中执行的逆MDCT变换占总复杂度的近似20%。由于MPEG-4转换器也是基于类似变换,因此,通过从会议系统100中仅去除频率/时间转换器220,可以去除总复杂度中并非无关紧要的成分。 
由于在MDCT变换的情况下或在类似的基于傅立叶的变换的情况下,这些变换是线性变换,因此可以在MDCT域或另一频域中混合音频信号。因此,这些变换具有数学加性属性,即: 
f(x+y)=f(x)+f(y),(1) 
以及数学同质性,即: 
f(a·x)=a·f(x),(2) 
其中f(x)是变换函数,x和y是其适当自变量,a是实值或复值常数。 
MDCT变换或另一基于傅立叶的变换的这两种特征允许以在时域中混合相似的方式,在相应频域中进行混合。因此,可以同样地基于频谱值来执行所有计算。不需要将数据变换至时域。 
在一些情况下,可能要满足另一条件。针对所有相关频谱分量,在混合过程中,所有相关频谱数据就其时间索引而言应当相等。如果在变换期间采用所谓块切换技术,使得会议终端160的编码器可以根据特定条件在不同块长度之间自由切换,则最终可能不满足上述条件。由于在不同块长度和对应的MDCT窗长度之间进行切换,除非要混合的数据已经以相同的窗进行处理,否则块切换可能危及将各个频谱值唯一分配给时域中的采样的可能性。由于在具有分布式会议终端160 的一般系统中,这可能最终得不到保证,因此可能需要复杂的插值,这继而可能造成附加延迟和复杂度。因此,最终不基于块长度切换来实现比特流混合过程可能是可取的。 
相反,AAC-ELD编解码器基于单一块长度,因此能够更容易地保证上述分配或频率数据的同步,从而可以更容易地实现混合。换言之,图3中所示的会议系统100是一种能够在变换域或频域中执行混合的系统。 
如上所述,为了消除图2所示的会议系统100中的转换器190、200所引入的附加延迟,在会议终端160中使用的编解码器使用具有固定长度和形状的窗。这使得在不将音频流变换回时域的情况下,能够直接实现所描述的混合处理。这种方式能够限制额外引入的算法延迟量。此外,由于解码器中不存在逆变换步骤,编码器中不存在正变换步骤,因此降低了复杂度。 
然而,同样在如图3所示的会议系统100的框架中,可能需要在加法器130进行混合之后对音频数据进行重新量化,这可能引入附加的量化噪声。例如,由于提供给会议系统100的不同音频信号的不同量化步长,可能造成附加量化噪声。因此,例如在非常低比特率传输的情况下(其中量化步长的数目已经有限),在频域或变换域中混合两个音频信号的过程可能导致所产生的信号中不期望的附加噪声量或其他失真。 
在以用于对多个输入数据流进行混合的设备的形式来描述根据本发明的第一实施例之前,关于图4来简要描述数据流或比特流以及其中包括的数据。 
图4示意性示出了比特流或数据流250,比特流或数据流250包括频谱域中的至少一个(或者更经常多于一个)音频数据帧260。更准确地,图4示出了频谱域中的3个音频数据帧260-1、260-2和260-3。此外,数据流250还可以包括附加信息或附加信息块270,例如指示音频数据的编码方式的控制值、其他控制值或与时间索引或其他相关数据有关的信息。自然,图4中所示的数据流250还可以包括附加帧,或者帧260可以包括对于一个声道的音频数据。例如,在立体声音频信号的情况 下,每个帧260可以例如包括来自左声道、右声道的音频数据,从左和右声道导出的音频数据、或上述数据的任何组合。 
因此,图4示意了数据流250可以不仅包括频谱域中的音频数据帧,还包括附加控制信息、控制值、状态值、状态信息、协议相关值(例如校验和)等等。 
根据如图1至3的上下文所述的会议系统的具体实现,或者根据如下所述依照本发明实施例的设备的具体实现,具体地,根据关于图9至12C描述的那些具体实现,指示帧的关联有效载荷数据表示音频信号的频谱域或频谱信息的至少一部分的方式的控制值可以同样包括在帧260本身中,或者包括在附加信息的关联块270中。在控制值与频谱分量有关的情况下,可以将控制值编码到帧260本身中。然而,如果控制值与整个帧有关,则该控制值同样可以包括在附加信息的块270中。然而,如上所述,包括控制值的上述位置不需要包括在帧260或附加块的块270中。在控制值仅与单个或几个频谱分量有关的情况下,该控制值同样可以包括在块270中。另一方面,与整个帧260有关的控制值也可以包括在帧260中。 
图5示意性示出了例如数据流250的帧260中包括的与频谱分量有关的(频谱)信息。更准确地,图5示出了帧260的单一声道的频谱域中的信息的简化图。在频谱域中,音频数据帧可以例如以其强度值I(作为频率f的函数)来描述。在离散系统(例如数字系统)中,频率分辨率也是离散的,使得频谱信息典型地仅针对特定频谱分量(如单独频率或窄带或子带)而存在。单独频率或窄带以及子带被称为频谱分量。 
图5示意性示出了针对6个单独频率300-1,...,300-6以及在图5所示的情况下包括4个单独频率的频带或子带310的强度分布。单独频率或对应窄带300以及子带或频带310形成频谱分量,对于所述频谱分量,帧包括与频谱域中的音频数据有关的信息。 
与子带310有关的信息可以例如是总体强度或平均强度值。除了强度或其他与能量有关的值(如幅度)之外,相应频谱分量本身的能量,或从能量或幅度、相位信息和其他信息导出的另一值也可以包括 在帧中,从而被视为与频谱分量有关的信息。 
在描述了会议系统中所涉及的一些问题以及一些背景之后,对根据本发明第一方面的实施例进行描述,根据实施例,基于比较来确定输入数据流,以便将至少部分频谱信息从所确定的输入数据流拷贝到输出数据流,从而使得能够省略重新量化,并因此消除了与重新量化相关联的重新量化噪声。 
图6示出了用于对多个输入数据流510进行混合的设备500的框图,示出了其中的两个输入数据流510-1、510-2。设备500包括适于接收数据流510并产生输出数据流530的处理单元520。输入数据流510-1、510-2中的每一个分别包括类似于图5的上下文中图4所示的帧260的帧540-1、540-2,包括频谱域中的音频数据。这再次通过图6所示的坐标系统来示意,在横坐标上,示出了音频数据的频率f,在纵坐标上示出了音频数据的强度I。输出数据流530还包括输出帧550,输出帧550包括频谱域中的音频数据,并同样由对应的坐标系统来示意。 
处理单元520适于将多个输入数据流510的帧540-1、540-2进行比较。如以下更详细概括,该比较例如可以基于心理声学模型,考虑掩蔽效应以及人类听力特性的其他属性。基于该比较结果,处理单元520还适于至少针对同时存在于两个帧540-1、540-2中的一个频谱分量(例如图6所示的频谱分量560),精确确定多个数据流510中的一个数据流。然后,处理单元520可以适于产生包括输出帧550在内的输出数据流530,使得从相应输入数据流510的确定的帧540拷贝与频谱分量560有关的信息。 
为了更精确,处理单元520适于对多个输入数据流510的帧540的比较基于至少两个信息段:强度值是有关的能量值的信息、与两个不同输入数据流510的帧540中相同频谱分量560相对应的信息。 
为了进一步示意上述,图7示意性示出了与频谱分量560相对应的信息段(强度I)的情况,这里假定频谱分量560是第一输入数据流510-1的帧540-1的频率或窄频带。将该信息与对应的强度值I进行比较,对应的强度值I是与第二输入数据流510-2 的帧540-2的频谱分量560有关的信息段。例如,可以基于仅包括一些输入流的混合信号与完整混合信号之间的能量比值的评估来进行比较。例如,这可以根据以下等式来实现: 
E c = Σ n = 1 N E n - - - ( 3 )
以及 
E f ( n ) = Σ n = 1 n ≠ 1 N E i - - - ( 4 )
根据以下等式来计算比值r(n): 
r ( n ) = 20 · log E f ( n ) E c - - - ( 5 )
其中n是输入数据流的索引,N是所有或有关输入数据流的数目。如果比值r(n)足够高,则可以认为输入数据流510的次要声道或次要帧被主要声道或主要帧所掩蔽。因此,可以处理不相关性减小,意即仅包括流中完全可察觉的频谱分量,而丢弃其他流。 
在等式(3)至(5)的框架中要考虑的能量值可以例如通过计算相应强度值的平方而从图6所示强度值导出。在与频谱分量有关的信息可以包括其他值的情况下,可以根据帧510中包括的信息的形式来执行类似计算。例如,在复值信息的情况下,可能必须执行:计算组成与频谱分量有关的信息的各个值的实部和虚部的模。 
除了各个频率之外,针对根据等式(3)至(5)的心理声学模型的应用,等式(3)和(4)中的和值可以包括多于一个频率。换言之,在等式(3)和(4)中,可以使用与多个单独频率相对应的总能量值(频带的能量)来代替相应能量值En,或者更一般而言,可以使用与一个或多个频谱分量有关的单一频谱信息或多个频谱信息来代替相应能量值En。 
例如,由于AAC-ELD以逐频带方式对频谱线进行操作,与人类听觉系统同时处理的频率组相似,可以以类似方式执行不相关性估计或心理声学模型。通过以这种方式来应用心理声学模型,可以在必要时仅去除或取代单一频带的信号的部分。 
如心理声学实验已经表明,信号被另一信号掩蔽取决于相应信号类型。可以应用最坏情况场景作为不相关性确定的最小阈值。例如, 
为了使用正弦或另一独特而良好定义的声音来掩蔽噪声,典型地需要21至28dB的差值。测试已经表明,近似28.5dB的阈值得到良好的替代结果。还考虑所考虑的实际频带,可以最终改进该值。 
因此,在心理声学评估或者基于所考虑的频谱分量的不相关性评估方面,根据等式(5)大于-28.5dB的值r(n)可以被认为不相关。对于不同的频谱分量,可以使用不同的值。因此,对于所考虑的帧,使用10dB至40dB、20dB至30dB、或25dB至30dB的阈值作为输入数据流的心理声学不相关性的指示符可以被认为是有用的。 
在图7所示的情况下,这意味着关于频谱分量560,确定第一输入数据流510-1,而关于频谱分量560丢弃第二输入数据流510-2。因此,至少部分将与频谱分量560相关的信息段从第一输入数据流510-1的帧540-1拷贝到输出数据流530的输出帧550。这如图7中的箭头570所示。同时,如虚线580所示,省略与其他输入数据流510的帧540(即,在图7中输入数据流510-2的帧540-2)的频谱分量560相关的信息。 
换言之,例如可以用作MCU或会议系统100的设备500适于,与其输出帧550一起产生输出数据流530,使得仅从确定的输入数据流510-1的帧540-1拷贝对输出数据流530的输出帧550的频谱分量560加以描述的对应频谱分量的信息。自然地,设备500还可以适于,从输入数据流拷贝与多于一个频谱分量相关的信息,省略至少关于这些频谱分量的其他输入数据流。此外,设备500或其处理单元520适于,使得对于不同的频谱分量,确定不同的输入数据流510。输出数据流530的相同输出帧550可以包括与来自不同输入数据流510的不同频谱分量相关的拷贝频谱信息。自然,实现设备,使得在输入数据流510中的帧序列540的情况下,在比较和确定期间仅考虑与相似或相同的时间索引相对应的帧540是可取的。 
换言之,图7示出了根据实施例的用于对如上所述多个输入数据流进行混合的设备的操作原理。如上所述,在对所有输入流进行解码 的情况下,以直接方式进行混合,这包括到时域的逆变换、混合以及再次对信号进行重新编码。 
图6至8的实施例基于在相应编解码器的频域中进行的混合。可能的编解码器应当是AAC-ELD编解码器,或者具有均匀变换窗的任何其他编解码器。在这样的情况下,不需要时间/频率变换以能够混合相应数据。根据本发明实施例的实施例利用以下事实:能够访问所有比特流参数,例如量化步长和其他参数,以及可以使用这些参数来产生混合的输出比特流。 
图6至8的实施例利用以下事实:可以通过源频谱线或频谱信息的加权求和来执行与频谱分量相关的频谱线或频谱信息的混合。加权因子可以是0或1,或者原则上,可以是0和1之间的任何值。0值意味着将源视为无关并且根本不使用源。诸如频带或缩放因子频带之类的线组可以使用相同加权因子。然而,如上所述,加权因子(例如,0和1的分布)可以针对单个输入数据流510的单个帧540的频谱分量而变化。此外,在混合频谱信息时不必专门使用加权因子0或1。可以是以下情况:不针对输入数据流510的帧540的总体频谱信息中的单一一个频谱信息,而是针对多个频谱信息,相应加权因子可以不同于0或1。 
一种具体情况是,将一个源(输入数据流510)的所有频带或频谱分量设置为因子1,将其他源的所有因子设置为0。在这种情况下,一个参与者的完整输入比特流相同地被拷贝为最后混合比特流。可以逐帧地计算加权因子,但是也可以基于较长帧组或帧序列来计算。自然,甚至在这样的帧序列内或者单个帧内,如上所述,加权因子也可以针对不同频谱分量而不同。可以根据心理声学模型的结果来计算或确定加权因子。 
已经利用等式(3)、(4)和(5)在上文中描述了心理声学模型的示例。心理声学模型或相应模型计算仅包括一些输入流来产生能量值Ef的混合信号与具有能量值EC的完整混合信号之间的能量比值r(n)。然后,将能量比值r(n)计算为Ef除以Ec的对数的20倍。 
如果该比值足够高,则可以认为主要声道掩蔽了次要声道。因此,处理不相关性减小,意味着仅包括完全不可察觉的、具有加权因子1 的流,而所有其他流(一个频谱分量的至少一个频谱信息)被丢弃。换言之,使这些流具有加权因子0。 
可以得到以下优点:由于重新量化步长的数目减少,串联编码的效应较少出现或不出现。由于每个量化步长表现出减小附加量化噪声的显著风险,因此可以通过采用用于对多个输入数据流进行混合的设备的形式的根据本发明的实施例来提高音频信号的总体质量。这可以是以下情况,当如图6所示的设备500的处理单元520适于产生输出数据流530,以便维持与确定的输入流或输入流的一部分的帧的量化级分布可比的量化等分布。换言之,通过拷贝并因此通过重新使用相应数据,而不对频谱信息进行重新编码,可以忽略附加量化噪声的引入。 
此外,会议系统,例如具有多于两个参与者采用以上关于图6至8描述的任何实施例的电视/视频会议系统,可以提供与时域混合相比复杂度较低的优点,这是由于可以省略时间-频率变换步骤和重新编码步骤。此外,与时域中进行混合相比,由于不存在滤波器组延迟,这些组件未造成另外的延迟。 
总之,例如,上述实施例可以适于,使得不对与完全从一个源获取的频谱分量相对应的频带或频谱信息进行重新量化。因此,仅对被混合的频带或频谱信息进行重新量化,这减少了附加量化噪声。因此,上述实施例也可以在不同应用中使用,例如感知噪声替换(PNS)、时间噪声成形(TNS)、频谱带复制(SBR)、和立体声编码模式。在描述能够处理PNS参数、TNS参数、SBR参数或立体声编码参数中的至少一个的设备的操作之前,将参照图8对这种实施例进行更详细描述。 
图8示出了用于对多个输入数据流进行混合的设备500的示意框图,设备500包括处理单元520。更准确地,图8示出了一种高灵活性的设备500,能够处理输入数据流(比特流)中编码的差异较大的音频信号。因此,以下将描述的一些组件是可选组件,不需要在所有情况下都实现。 
针对处理单元520要处理的每个输入数据流或编码的音频比特流,处理单元520包括比特流解码器700。仅为了简单起见,图8仅示出了两个比特流解码器700-1、700-2。自然,根据要处理的输入数据流 的数目,可以实现更多数目或更少数目的比特流解码器700(如果例如比特流解码器700能够顺序处理多于一个输入数据流)。 
比特流解码器700-1以及其他比特流解码器700-2,...均包括比特流读取器710,比特流读取器710适于接收信号并处理接收的信号,以及隔离和提取比特流中包括的数据。例如,比特流读取器710可以适于将输入数据与内部时钟同步,还可以适于将输入比特流分离为合适的帧。 
比特流解码器700还包括:Huffman解码器720,耦合至比特流读取器710的输出以从比特流读取器710接收隔离的数据。Huffman解码器720的输出耦合至解量化器730(也称为反量化器)。耦合在Huffman解码器720之后的解量化器730后接缩放器740。Huffman解码器720、解量化器730和缩放器740形成第一单元750,在第一单元750的输出处,相应输入数据流的音频信号的至少一部分在参与者的编码器(图8中未示出)所操作的频域或频率相关域中可用。 
比特流解码器700还包括:第二单元760,按数据耦合在第一单元750之后。第二单元760包括:立体声解码器770(M/S模块),其后耦合有PNS解码器。PNS解码器780按数据后接TNS解码器790,TNS解码器790与PNS解码器780一起在立体声解码器770处形成第二单元760。 
除了所描述的音频数据的流程之外,比特流解码器700还包括与控制数据有关的不同模块之间的多个连接。更准确地,比特流读取器710也耦合至Huffman解码器720以接收合适的控制数据。此外,Huffman解码器720直接耦合至缩放器740以向缩放器740发送缩放信息。立体声解码器770、PNS解码器780和TNS解码器790也均耦合至比特流读取器710以接收合适的控制数据。 
处理单元520还包括混合单元800,混合单元800继而包括频谱混合器810,频谱混合器810按输入耦合至比特流解码器700。频谱混合器810可以例如包括一个或多个加法器,以在频域中执行实际混合。此外,频谱混合器810还可以包括乘法器,以允许比特流解码器700提供的频谱信息的任意线性组合。 
混合单元800还包括:优化模块820,按数据耦合至频谱混合器810 的输出。然而,优化模块820还耦合至频谱混合器810以向频谱混合器810提供控制信息。优化模块820按数据表示混合单元800的输出。 
混合单元800还包括:SBR混合器830,直接耦合至不同比特流解码器700的比特流读取器710的输出。SBR混合器830的输出形成混合单元800的另一输出。 
处理单元520还包括:比特流编码器850,耦合至混合单元800。比特流编码器850包括第三单元860,第三单元860包括TNS编码器870、PNS编码器880和立体声编码器890(以所描述的顺序串联耦合)。因此,第三单元860形成比特流解码器700的第一单元750的反单元。 
比特流编码器850还包括第四单元900,第四单元900包括缩放器910、量化器920和Huffman编码器930(形成第四单元的输入与其输出之间的串联连接)。因此,第四单元900形成第一单元750的反模块。相应地,缩放器910直接耦合至Huffman编码器930,以向Huffman编码器930提供相应控制数据。 
比特流编码器850还包括:比特流写入器940,耦合至Huffman编码器930的输出。此外,比特流写入器940还耦合至TNS编码器870、PNS编码器gg0、立体声编码器890和Huffman编码器930,以从这些模块接收控制数据和信息。比特流写入器940的输出形成处理单元520的输出和设备500的输出。 
比特流编码器850还包括:心理声学模块950,也耦合至混合单元800的输出。比特流编码器850适于向第三单元860的模块提供合适的控制信息,例如指示在第三单元860的单元的框架中,哪个单元可以用于对混合单元800输出的音频信号进行编码。 
因此,原则上,在第二单元760的输出直至第三单元860的输入处,如发送方侧使用的编码器所定义的,可以在频谱域中处理音频信号。然而,如上所述,如果例如输入数据流之一的帧的频谱信息是主要的,则最终可以不需要完整的解码、解量化、解缩放和另外的处理步骤。然后将相应频谱分量的频谱信息的至少一部分拷贝至输出数据流的相应帧的频谱分量。 
为了允许这种处理,设备500和处理单元520包括另外的信号线来 进行优化的数据交换。为了在图8所示的实施例中允许这种处理,Huffman解码器720的输出,以及缩放器740、立体声解码器770和PNS解码器780的输出,与其他比特流读取器710的相应组件一起,耦合至混合单元g00的优化模块820,以进行相应处理。 
在相应处理之后,为了便于比特流编码器850内的相应数据流,还实现了针对优化数据流的对应数据线。更准确地,优化模块820的输出耦合至PNS编码器780的输入,立体声编码器890、第四单元900的输入和缩放器910,以及Huffman编码器930的输入。此外,优化模块820的输出还直接耦合至比特流写入器940。 
如上所述,几乎所有上述模块都是可选模块,不必需实现这些可选模块。例如,在音频数据流仅包括单一声道的情况下,可以省去立体声编码和解码单元770、890。相应地,在没有基于PNS的信号要处理的情况下,也可以省去对应的PNS解码器和PNS编码器780、880。在要处理的信号和要输出的信号不基于TNS数据的情况下,还可以省去TNS模块790、870。在第一和第四单元750、900内,还可以最终省去反量化器730、缩放器740、量化器920以及缩放器910。Huffman解码器720和Huffman编码器930可以以不同方式实现,使用不同算法,或者完全省略。 
例如,如果不存在数据的SBR参数,则最终也可以省略SBR混合器830。此外,可以以不同方式实现频谱混合器810,以与优化模块820和心理声学模块860协作。因此,认为这些模块也是可选组件。 
对于设备500以及其中包括的处理单元520的操作模式,比特流读取器710首先读取输入的输入数据流并将其分离为合适的信息。在Huffman解码之后,最终,得到的频谱的信息可以由解量化器730重新量化,并由解缩放器740进行合适缩放。 
此后,根据输入数据流中包括的控制信息,在立体声解码器770的框架中,可以将输入数据流中编码的音频信号分解为两个或多个声道的音频信号。如果例如音频信号包括中声道(M)和侧声道(S),则通过将中声道和侧声道数据相加或相减,可以获得对应的左声道和右声道数据。在许多实现中,中声道与左声道和右声道音频数据之和 成比例,而侧声道与左声道(L)与右声道(R)之差成比例。根据实现方式,可以考虑因子1/2来对上述声道进行相加和/或相减,以防止限幅效应。一般而言,线性组合可以处理不同声道以产生对应声道。 
换言之,在立体声解码器770之后,如果合适,可以将音频数据分解为两个单独的声道。自然,立体声解码器770还可以执行反解码。如果例如比特流读取器710接收的音频信号包括左和右声道,则立体声解码器770同样可以计算或确定合适的中声道和侧声道数据。 
不仅根据设备500的实现,还根据提供相应输入数据流的参与者的编码器的实现,相应数据流可以包括PNS参数(PNS=感知噪声替换)。PNS基于以下事实:在有限的频率范围或频谱分量(如频带或单独的频率)中,人耳很可能无法将类似噪声的声音与合成产生的噪声区分开。因此,PNS将音频信号中实际类似噪声的成分替换为指示要合成引入相应频谱分量的噪声电平并忽略实际音频信号的能量值。换言之,PNS解码器780可以在一个或多个频谱分量中,基于输入数据流中包括的PNS参数,来产生实际类似噪声的音频信号成分。 
对于TNS解码器790和TNS编码器870,可能必须将相应音频信号变换回相对于在发送方侧操作的TNS模块而言未修改的版本。时间噪声成形(TNS)是用于减小量化噪声导致的预回声伪像的手段,该伪像可能存在于音频信号帧中类似瞬变的信号的情况下。为了对抗这种瞬变,从频谱的低侧、频谱的高侧或者频谱的两侧开始,对频谱信息应用至少一个自适应预测滤波器。可以对预测滤波器的长度以及应用相应滤波器的频率范围进行适配。 
换言之,TNS模块的操作基于计算一个或多个自适应IIR滤波器(IIR=无限冲激响应),并通过编码和发送对预测和实际音频信号之间的差值进行描述的误差信号以及预测滤波器的滤波器系数来进行。因此,可以提高音频质量,同时通过在频域中应用预测滤波器来处理类似瞬变的信号,以减小其余误差信号的幅度(然后,可以使用与以类似的量化噪声对类似瞬变的音频信号进行直接编码相比较少的量化步长来对其余误差信号进行编码),从而维持发送方数据流的比特率。 
对于TNS应用,在一些情况下采用TNS解码器760的功能来对输入 数据流的TNS部分进行解码,以达到所使用的编解码器所确定的、频谱域中的“纯”表示是可取的。如果不能基于TNS参数中包括的预测滤波器的滤波器系数已经估计出心理声学模型(例如应用于心理声学模块950中的心理声学模型)的估计,则应用TNS解码器790的功能是有用的。在至少一个输入数据流使用TNS而另一个不使用TNS的情况下,这尤其重要。 
当处理单元基于输入数据流的帧的比较确定要使用来自使用TNS的输入数据流的帧的频谱信息时,TNS参数可以用于输出数据的帧。如果例如出于不兼容性的原因,输出数据流的接收者不能解码TNS数据,则不拷贝误差信号的相应频谱数据以及和另外的TNS参数,而根据TNS相关数据来处理重构数据以获得频谱域中的信息,并且不使用TNS编码器870可能是有用的。这再次示意了,不需要实现图8中所示的组件或模块的部分,但可选地可以保留。 
在对PNS数据进行比较的至少一个音频输入流的情况下,可以应用类似的策略。如果在针对输入数据流的频谱分量对帧进行的比较中表明一个输入数据流在其当前帧和相应频谱分量方面是主导的,则也可以将相应PNS参数(即相应能量值)直接拷贝至输出帧的相应频谱分量。然而,如果接收者不能接受PNS参数,则可以通过使用相应能量值指示的合适的能量等级来产生噪声,从而根据相应频谱分量的PNS参数来重构频谱信息。然后,可以在频谱域中相应地处理噪声数据。 
如上所述,发送的数据还包括SBR数据,可以在SBR混合器830中处理该SBR数据。频谱带复制(SBR)是一种基于相同频谱的贡献和较低部分来复制音频信号的频谱的一部分的技术。因此不需要传输频谱的较高部分,除了通过采用适当的时间/频率栅格以频率相关和时间相关方式描述能量值的SBR参数以外。因此,根本不需要传输频谱的较高部分。为了能够进一步提高重构信号的质量,可以在频谱的较高部分中添加附加的噪声贡献和正弦波贡献。 
更具体地,对于交叉频率fx之上的频率,根据创建了特定数目的子带信号(例如,32个子带信号)的QMF滤波器组(QMF=正交镜像 滤波器)来分析音频信号,这些子带信号具有通过等于或与QMF滤波器组子带数目(例如,32或64)成比例的因子所降低的时间分辨率。因此,可以确定时间/频率栅格,时间/频率栅格在时间轴上包括两个或多个所谓的包封,并且对于每个包封,包括描述频谱的相应较高部分的7到16个能量值。 
此外,SBR参数可以包括与附加噪声和正弦波相关的信息,然后这些附加噪声和正弦波通过上述时间频率栅格,在强度方面被衰减或确定。 
在基于SBR的输入数据流相对于当前帧是主要输入数据流的情况下,可以执行将相应SBR参数连同频谱分量一同拷贝。再次,如果接收方不能对基于SBR的信号进行解码,则可以执行到频域中的相应重构,然后根据接收方的需要对重构信号进行编码。由于SBR允许两个编码立体声声道,对左声道和右声道单独编码,以及在耦合声道(C)方面对左声道和右声道进行编码,因此,根据本发明的实施例,对相应SBR参数或至少其部分进行拷贝可以包括根据比较结果和确定结果,将SBR参数的C元素拷贝至要确定和发送的SBR参数的左和右元素,或者反之。 
此外,由于在本发明的不同实施例中,输入数据流可以分别包括单声道以及包括一个和两个单独声道的立体声音频信号,因此,在产生输出数据流的帧的相对频谱分量的信息的一部分时,可以附加地执行单声道至立体声上混或立体声至单声道下混。 
如之前的描述所示,对与频谱分量和频谱信息相关的频谱信息和/或相应参数(例如,TNS参数、SBR参数、PNS参数)进行拷贝的程度可以基于不同数目的要拷贝数据,并且可以确定是否还需要拷贝基本频谱信息或基础频谱信息中的频谱信息。例如,以下操作是可取的:在拷贝SBR数据的情况下,拷贝相应数据流的整个帧,以防止针对不同频谱分量的频谱信息的复杂混合。混合这些信息需要实际上可以减少量化噪声的重新量化。 
在TNS参数方面,拷贝相应TNS参数以及从主要输入数据流至输出数据流的整个帧的频谱信息,以防止重新量化是可取的。 
在基于PNS的频谱信息的情况下,拷贝各个能量值而不对作为基础频谱分量进行拷贝是可行的方式。此外,在这种情况下,通过仅将相应PNS参数从多个输入数据流的帧的主要频谱分量拷贝至输出数据流的输出帧的对应频谱分量,不引入附加的量化噪声。应当注意,同样通过对PNS参数形式的能量值的重新量化,不会引入附加量化噪声。 
如上所述,上述实施例还可以通过以下来实现:在比较多个输入数据流的帧之后,以及在基于所述比较,针对输出数据流的输出帧的频谱分量,确定正好一个数据流为频谱信息的源之后,简单地拷贝与频谱分量相关的频谱信息。 
在心理声学模块950的框架中执行的替换算法检查与生成的信号的基础频谱分量(例如频带)相关的每个频谱信息,以标识仅具有单一有效分量的频谱分量。对于这些频带,可以从编码器拷贝输入比特流的相应输入数据流的量化值,而不对指定频谱分量的相应频谱数据进行重新编码或重新量化。在一些情况下,所有量化数据可以从单一有效输入信号取得,以形成输出比特流或者输出数据流,使得对于设备500而言能够实现输入数据流的无损编码。 
此外,可以省略编码器内如心理声学分析之类的处理步骤。这允许缩短编码过程,从而降低计算复杂度,因为原则上仅将数据从一个比特流拷贝入另一比特流必须在特定情况下执行。 
例如,在PNS的情况下,可以执行替换,因为PNS编码的频带的噪声因子可以从输出数据流之一拷贝至输出数据流。可以使用合适的PNS参数来替换各个频谱分量,因为PNS参数是针对频谱分量指定的,或者换言之,是互相独立的非常好的近似。 
然而,可能出现以下情况:所描述的算法的两个有力应用可能得到退化的收听体验或者不利的质量降低。因此,将替换限制在各个帧,而不是与各个频谱分量相关的频谱信息,是可取的。在这种操作模式中,可以不变地执行不相关性估计或不相关性确定以及替换分析。然而,在这种操作模式中,仅当有效帧内的所有或至少大量频谱分量可替换时,才执行替换。 
尽管这可能导致较少次数的替换,在一些情况下,可以改进频谱 信息的内在强度,得到甚至略微改进的质量。 
在下文中,根据本发明第二方面的实施例可以根据以下来描述:考虑那些与相应输入数据流的有效载荷数据相关联的控制值,控制值指示有效载荷数据表示相应音频信号的相对频谱信息或频谱域的至少一部分的方式,其中,在两个输入数据流的控制值相等的情况下,可以避免对输出数据流的相应帧处的频谱域的方式的新判定,取而代之,输出流产生依赖于输入数据流的编码器已经确定的判定。根据以下描述的一些实施例,可以避免将相应有效载荷数据重新变换回到表示频谱域的另一种方式(例如,具有每时间/频谱采样一个频谱值的正常或普通方式)。 
如上所述,根据本发明的实施例基于在所有输入流被解码的意义上以直接的方式进行的混合,这包括反变换至时域、混合和再次对信号重新编码。根据本发明的实施例基于在相应编解码器的频域中进行的混合。一种可能的编解码器可以是AAC-ELD编解码器,或者具有均匀变换窗的任何其他编解码器。在这种情况下,不需要时间/频率变换以能够对相应数据进行混合。此外,可以访问所有比特流参数,如量化步长和其他参数,可以使用这些参数来产生混合的输出比特流。 
此外,与频谱分量相关的频谱线或频谱信息的混合可以通过源频谱线或频谱信息的加权和来执行。加权因子可以是0或1,或者原则上可以是0和1之间的任何值。0值意味着将源视为不相关并且将完全不使用。线组,如频带或缩放因子频带,可以使用相同的加权因子。针对单一输入数据流的单一帧的频谱分量,加权因子(例如0和1的分布)可以改变。此外,以下描述的实施例在混合频谱信息时,不需要排他地使用0或1的加权因子。可以有如下情况:在一些情况下,不是针对单一情况,而是针对输入数据流的帧的多个总体频谱信息,相应加权因子可以不同于0或1。一种特殊情况在于,一个源(输入数据流)的所有频带或频谱分量被设置为因子1,而其他源的所有因子被设置为0。在这种情况下,一个参与者的完整输入比特流被相同地拷贝为最终混合比特流。可以逐帧计算加权因子,但是可以基于更长的帧组或序列来计算或确定加权因子。自然,如上所述,即使在这种帧序列之内或 者在单一帧之内,加权因子也可以针对不同频谱分量而不同。在一些实施例中,可以根据心理声学模型的结果来计算或确定加权因子。 
例如,这样的比较可以基于其中仅包括一些输入流的混合信号与完整混合信号之间的能量比值的评估。例如,这可以如关于等式(3)至(5)所描述的来实现。换言之,心理声学模型可以计算仅包括一些输入流以得到能量值Ef的混合信号与具有能量值Ec的完整混合信号之间的能量比值r(n)。然后,将能量比值r(n)计算为Ef除以Ec的对数的20倍。 
相应地,类似于关于图6至8的上述实施例描述,如果该比值足够高,则可以认为主要声道掩蔽了次要声道。因此,处理不相关性减小,意味着仅包括完全不可察觉的、具有加权因子1的流,而所有其他流(一个频谱分量的至少一个频谱信息)被丢弃。换言之,使这些流具有加权因子0。 
可以得到以下优点:由于重新量化步长的数目减少,串联编码的效应较少出现或不出现。由于每个量化步长表现出减小附加量化噪声的显著风险,因此可以提高音频信号的总体质量。 
类似于图6至8的上述实施例,以下描述的实施例可以与会议系统(例如具有多于两个参与者的电话/视频会议系统)一同使用,并且与时域混合相比,这种会议系统可以提供较低复杂度的优点,因为可以省略时间-视频变换步骤和重新编码步骤。此外,与在时域中进行混合相比,由于不存在滤波器组延迟,这些组件未造成另外的延迟。 
图9示出了根据本发明实施例的用于对输入数据流进行混合的设备500的简要框图。采用了图6至8的实施例中的多数附图标记,以便容易理解并避免重复描述。其他附图标记大于1000,以便表示与以上图6至8的实施例相比,以不同方式定义的相同功能,附加功能或备选功能,但是具有可比较的相应元件的一般功能。 
基于第一输入数据流510-1、和第二输入数据流510-2,包括在设备1500中的处理单元1520适于产生输出数据流1530。第一和第二输入数据流510分别包括帧541-1、540-2,相应地帧541-1、541-2分别包括控制值1541-1、1541-2,控制值1541-1、1541-2分别指示帧540的有效 载荷数据表示音频信号的频谱域或频谱信息的至少一部分的方式。 
输出数据流530还包括具有控制值555的输出帧1550,控制值555以类似的方式指示输出帧550的有效载荷数据表示在输出数据流530中编码的音频信号的频谱域中的频谱信息的方式。 
设备1500的处理器单元1520适于,将第一输入数据流510-1的帧540-1的控制值1541-1与第二输入数据流510-2的帧540-2的控制值1542-2进行比较,以获得比较结果。基于该比较结果,处理器单元1520还适于产生包括输出帧550在内的输出数据流530,使得当比较结果指示第一和第二输入数据510的帧540的控制值1541等同或相等时,输出帧550包括等于两个输入数据流510的帧540的控制值1545的值作为控制值1550。通过在频谱域中进行的处理(即,不访问时域),针对帧540的相同控制值1545,从帧540的对应有效载荷数据中导出输出帧550中包括的有效载荷数据。 
例如,如果控制值1545指示一个或多个频谱分量(例如,PNS数据)的频谱信息的专用编码,并且两个输入数据流的相应控制值1545相同,则可以通过直接对频谱域中的对应有效载荷数据进行处理(即,不离开频谱域的表示类型),来获得输出帧550中与相同频谱分量相对应的对应频谱信息。如下所述,在基于PNS频谱表示的情况下,这可以通过以下来实现:对相应PNS数据进行求和,可选地,通过归一化处理来完成。即,均不将两个输入数据流的PNS数据转换回到具有每频谱采样一个值的普通表示中。 
图10示出了主要针对处理单元1520的内部结构不同于图9的设备1500的更详细框图。为了更具体,处理单元1520包括比较器1560,比较器1560耦合至针对第一和第二输入数据流510的适当输入,并且适于将它们的相应帧540的控制值1545进行比较。此外,将输入数据流提供至针对两个输入数据流510中的每一个的可选变换器1570-1、1570-2。比较器1560还耦合至可选变换器1570,以向可选变换器1570提供比较结果。 
处理单元1520还包括混合器1580,混合器1580按输入耦合至可选变换器1570,或者在没有实现一个或多个变换器1570的情况下,耦合 至输入数据流510的对应输入。混合器1580的输出耦合至可选归一化器1590,如果实现了归一化器1590,则归一化器1590与处理器单元1520的输出和设备1500的输出耦合,以提供输出数据流530。 
如上所述,比较器1560适于将两个输入数据流510的帧1540的控制值进行比较。比较器1560向变换器1570(如果实现)提供对相应帧540的控制值1545是否相同加以指示的信号。如果表示比较结果的信息指示两个控制值1545至少相对于一个频谱分量是相同或相等的,则变换器1570不对帧540中所包括的相应有效载荷数据进行变换。 
然后包括在输入数据流510的帧540中的有效载荷数据由混合器1580进行混合,并且向归一化器1590(如果实现)输出,以执行归一化步骤,从而确保生成的值高于或低于允许的值范围。以下在图12a至12c的上下文中更详细描述对有效载荷数据进行混合的示例。 
可以将归一化器1590实现为适于根据有效载荷数据的相应值分别对有效载荷数据进行重新量化的量化器,备选地,归一化器1590还适于根据其具体实现仅改变指示量化步骤的分布缩放因子,或最小或最大量化级的绝对值。 
在比较器1560指示控制值1545至少相对于一个或多个频谱分量是不同的情况下,比较器1560可以向变换器1570中的一个或两个变换器1570提供相应控制信号,该相应控制信号指示相应变换器1570将输入数据流510中的至少一个的有效载荷数据变换成其他输入数据流的有效载荷数据。在这种情况下,变换器可以适于同时改变变换后的帧的控制值,使得混合器1580能够产生输出数据流530的输出帧550,该输出帧550具有等于两个输入数据流中没有变换的帧540的控制值的控制值1555,或者具有两个帧540的有效载荷数据的公共值。 
以下在分别针对不同应用(例如,PNS实现、SBR实现和M/S实现)的图12a至12c的上下文中描述更详细示例。 
应当指出,图9至图12C的实施例不限于图9、10和即将描述的图11中所示的两个输入数据流1510-1、1510-2。而是,这些实施例可以适于对包括多于两个输入数据流510的多个输入数据流进行处理。在这种情况下,例如,比较器1560可以适于将适当数目的输入数据流510 进行比较,以及将输入数据流510中包括的帧540进行比较。此外,根据具体实现,也可以实现适当数目的变换器1570。混合器1580连同可选归一化器1590一起可以最终适于增加数目的要处理数据流。 
在仅多于两个输入数据流510的情况下,比较器1560可以适于将输入数据流510的所有相关控制值进行比较,以判断是否通过一个或多个可选实现的变换器1570来执行变换步骤。备选或附加地,比较器1560还可以适于,在比较结果指示至有效载荷数据的表示的通常方式的变换是可实现的情况下,确定要由变换器1570变换的输入数据流集合。例如,除非所涉及的有效载荷数据的不同表示需要特定表示,否则比较器例如可以适于,以使总复杂度最小化的方式来激活变换器1570。例如,这可以基于存储在比较器1560内或者以不同方式可用于比较器1560的复杂度值的预定估计。 
此外,应当注意,例如当可选地根据需要通过混合器1580执行到频域的变换时,变换器1570最终是可省略的。备选或附加地,变换器1570的功能也可以合并到混合器1580中。 
此外,应当注意,帧540可以包括多于一个控制值,例如,感知噪声替换(PNS)、时间噪声成形(TNS)、和立体声编码模式。在描述能够处理PNS参数、TNS参数或立体声编码参数中的至少一个的设备的操作之前,参照图11,图11与图8相同,但是其中用附图标记1500和1520分别代替500和520,以便示出图8已经示出了用于根据第一和第二输入数据流产生输出数据流的实施例,其中,处理单元520和1520还可以分别适于执行关于图9和10描述的功能。具体地,在处理单元1520内,包括频谱混合器810、优化模块820和SBR混合器830的混合单元800执行关于图9和10提出的上述功能。如上所述,包括在输入数据流的帧中的控制值同样可以是PNS参数、SBR参数或与立体声编码相关的控制数据,换言之,M/S参数。在相应控制值相等或等同的情况下,混合单元800可以对有效载荷数据进行处理,来产生要进一步处理以包括在输出数据流的输出帧中的对应有效载荷数据。关于这一点,如上所述,由于SBR允许针对两个编码立体声声道,来分别对左声道和右声道进行编码,以及在耦合声道(C)方面对左声道和右声道进 行编码,因此,根据本发明的实施例,对相应SBR参数或至少其部分进行拷贝可以包括根据比较结果和确定结果,将SBR参数的C元素拷贝至要确定和发送的SBR参数的左和右元素,或者反之。类似的,对与频谱分量相关的频谱信息和/或相应参数(例如,TNS参数、SBR参数、PNS参数)进行处理的程度可以基于不同数目的要处理数据,并且可以确定是否还需要对基本频谱信息或基础频谱信息中的频谱信息进行解码。例如,在拷贝SBR数据的情况下,对相应数据流的整个帧进行处理,以防止针对不同频谱分量的频谱信息的复杂混合是可取的。混合这些信息需要实际上可以减少量化噪声的重新量化。在TNS参数方面,将相应TNS参数以及整个帧的频谱信息从主要输入数据流分解至输出数据流,以防止重新量化是可取的。在基于PNS的频谱信息的情况下,对各个能量值进行处理而不对基础频谱分量进行拷贝是可行的方式。此外,在这种情况下,通过仅处理从多个输入数据流的帧的主要频谱分量至输出数据流的输出帧的对应频谱分量的相应PNS参数,不引入附加的量化噪声。应当注意,同样通过对PNS参数形式的能量值的重新量化,不会引入附加量化噪声。 
关于图12A至12C,将更详细描述基于相应控制值的比较对有效载荷数据进行混合的三种不同模式。图12a示出了根据本发明实施例的设备500的基于PNS的实现的示例,而图12b示出了设备500的类似SBR实现,图12c示出了设备500的M/S实现。 
图12a示出了具有第一和第二输入数据流510-1、510-2的示例,第一和第二输入数据流510-1、510-2分别具有适当输入帧540-1、540-2以及相应控制值545-1、545-2。如图11a中的箭头所示,输入数据流510的帧540的控制值1545指示,没有在频谱信息方面间接描述频谱分量,但是在噪声源的能量值方面(换言之,通过适当PNS参数)描述频谱分量。更具体地,图12a示出了第一PNS参数2000-1和包括PNS参数2000-2的第二输入数据流510-2的帧540-2。 
关于图12a,由于假定两个输入数据流510的两个帧540的控制值1545指示特定频谱分量要其相应PNS参数2000来代替,如上所述,处理单元1520和设备1500能够对两个PNS参数2000-1、2000-2进行混合, 以获得要包括在输出数据流530中的输出帧550的PNS参数2000-3。输出帧550的相应控制值1555实质上还指示,相应频谱分量要由混合后的PNS参数2000-3来代替。通过示出PNS参数2000-2,在图12a中示出了该混合过程,PNS参数2000-2是相应帧540-1、540-2的组合的PNS参数2000-1、2000-2。 
然而,PNS参数2000-3(也被称作PNS输出参数)的确定也可以基于线性组合根据以下等式来实现: 
PNS = Σ i = 1 N a i · PNS ( i ) - - - ( 6 )
其中PNS(i)是输入数据流i的相应PNS参数,N是要混合的输入数据流的数目,ai是适当的加权因子。根据具体实现,可以选择加权因子ai等于: 
a1=...=aN    (7) 
图12a所示的直接实现可以是在所有加权参数ai等于1的情况下的实现,换言之, 
a1=...=aN=1 (8) 
在要省略图10所示的归一化器1590的情况下,同样可以将加权因子定义为等于1/N,使得以下等式成立: 
a 1 = . . . a N = 1 N - - - ( 9 )
这里参数N是要混合的输入数据流的数目,提供至设备1500的输入数据流的数目是类似的数目。为了简要起见,应当注意,同样可以在加权因子ai的方面实现不同的归一化。 
换言之,在激活的PNS工具在参与方侧的情况下,噪声能量因子代替适当的缩放因子,以及频谱分量(例如,频谱带)中的量化数据。除了该因子以外,PNS工具不会将其他数据提供到输出数据流中。在混合PNS频谱分量的情况下,会出现两种不同的情况。 
如上所述,当相关输入数据流的所有帧540的相应频谱分量分别按照PNS参数来表达时,由于频率分量(例如,频带)的PNS相关描 述的频率数据可以直接从噪声能量因子(PNS参数)中导出,因此可以通过简单加入相应值来混合适当因子。然后,混合后的PNS参数在接收方侧上的PNS解码器内产生要与其他频谱分量的纯频谱值混合的相同频率分辨率。在混合期间使用归一化过程的情况下,能够有助于按照加权因子ai实现类似的归一化因子。例如,当利用与1/N成比例的因子进行归一化时,可以根据等式(9)来选择加权因子ai。 
在至少一个输入数据流510的控制值1545相对于频谱分量而不同的情况下,并且如果由于低能量级而不能丢弃相应输入数据流,对于图11所示的PNS解码器,以下是可取的:基于PNS参数产生频谱信息或频谱数据以及在混合单元的频谱混合器810的框架中混合相应数据,而不在优化模块820的框架中混合PNS参数。 
由于PNS频谱分量彼此无关,并且相对于输出数据流以及输入数据流的全局定义参数无关,因此可以基于频带方式改变混合方法的选择。在这样的情况下,基于PNS的混合是不可能的,考虑在频谱域中进行混合之后通过PNS编码器1880对相应频谱分量进行重新编码是可取的。 
图12b示出了根据本发明实施例的实施例的操作原理的另一示例。为了更加精确,图12b示出了具有适当帧540-1、540-2及其控制值1545-1、1545-2的两个输入数据流510-1、510-2的情况。帧540包括针对在所谓的交叉频率fx之上的频谱分量的SBR数据。控制值1545包括是否完全使用SBR参数的信息,以及与实际帧栅格或时间/频率栅格相关的信息。 
如上所述,SBR工具通过复制以不同方式编码的频谱的较低部分,来在交叉频率fx之上的较高频谱带中复制频谱的一部分。SBR工具确定每个SBR帧的时隙的数目,每个SBR帧等同于还包括其他频谱信息在内的输入数据流510的帧540。时隙以较小等间隔频带或频谱分量分开SBR工具的频率范围。SBR帧中这些频带的数目可以在编码之前由发送方或SBR工具来确定。在MPEG-4AAC-ELC的情况下,时隙的数目固定为16。 
现在,时隙包括在所谓的包封中,使得每个包封包括形成相应组 的至少两个或多个时隙。每个包封归因于SBR频率数据的数目。在帧栅格或时间/频率栅格中,存储了各个单独包封的时隙的数目和单位长度。 
各个单独包封的频率分辨率确定针对包封计算并相对于包封存储多少个SBR能量数据。SBR工具仅在高和低分辨率之间是不同的,其中,包括高分辨率的包封包括具有低分辨率的包封所包括的那么多值的二倍。包括高或低分辨率的包封的频率或频谱分量的数目取决于诸如比特率、采样频率等编码器其他参数。 
在MPEG-4ACC ELC的上下文中,SBR工具针对具有高分辨率的包封通常使用16到14个值。 
由于相对于频率具有适当数目能量值的帧540的动态划分,可以考虑瞬变。在帧中存在瞬变的情况下,SBR编码器以适当数目的包封划分相应帧。该分布在于ACC ELD编解码器一起使用的SBR工具的情况下是标准化的,并且取决于时隙单位中瞬变transpose的位置。在一些情况下,生成的栅格帧或时间/频率栅格在存在瞬变的情况下包括三个包封。第一包封,即开始包封,包括帧的开始直至接收到时隙索引从0至transpose-1的瞬变的时隙。第二包封包括两个时隙的长度,这两个时隙包围时隙索引从transpose至transpose+2的包封。第三包封包括所有后续时隙(时隙索引为transpose+3至16)。 
然而,包封的长度是两个时隙。因此,包括接近帧边界的瞬变的帧可能最后仅包括两个包封。在帧中不存在瞬变的情况下,时隙在等长包封上分布。 
图12b示出了帧540中的这样的时间/频率栅格或帧栅格。在控制值1545指示在两个帧540-1、540-2中存在相同的SBR时间栅格或时间/频率栅格的情况下,可以类似于在以上等式(6)至(9)的上下文中描述的方法,对相应SBR数据进行拷贝。换言之,在这样的情况下,SBR混合工具或如图11所示的SBR混合器830可以将相应输入帧的时间/频率栅格或帧栅格拷贝至输出帧550,并且类似于等式(6)至(9)计算相应能量值。换言之,帧栅格的SBR能量数据可以通过对相应数据进行简单求和、以及可选地通过对相应数据进行归一化,来混合。 
图12c示出了根据本发明实施例的操作模式的另一示例。为了更加精确,图12c示出了M/S实现。图12c再次示出了两个输入数据流520和两个帧540以及关联的控制值545,关联的控制值545指示至少针对有效载荷数据帧540的至少一个频谱分量表示有效载荷数据帧540的方式。 
每个帧540包括两个声道(第一声道2020和第二声道2030)的音频数据或频谱信息。根据相应帧540的控制值1545,例如第一声道2020可以是左声道或中间声道,而第二声道2030可以是立体声的右声道或侧声道。编码模式中的第一编码模式通常被称作LR模式,而第二模式通常被称作M/S模式。 
在有时被称作联合立体声的M/S模式中,将中间声道(M)定义为与左声道(L)和右声道(R)之和成比例。通常,在定义中包括附加因子1/2,使得中间声道在时域和频域中包括两个立体声声道的平均值。 
典型地,将侧声道定义为与两个立体声声道的差值成比例,即,与左声道(L)和右声道(R)的差值成比例。有时还包括附加因子1/2,使得侧声道实质上表示立体声信号的两个声道之间的偏差值,或者与中间声道的偏差。相应地,可以通过对中间声道和侧声道进行求和来重构左声道,而可以通过从中间声道中减去侧声道来获得右声道。 
在对于帧540-1、540-2使用相同立体声编码(L/R或M/S)的情况下,可以省略帧所包括的声道的重新变换,允许在相应L/R或M/S编码域中进行直接混合。 
在这种情况下,可以直接在频域中再次执行混合,产生包括在输出数据流530中具有相应控制值1555的帧550,相应控制值1555具有等于两个帧540的控制值1545-1、1545-2的值。输出帧550相应地包括从输入数据流的帧的第一和第二声道导出的两个声道2020-3、2030-3。 
在两个帧540的控制值1545-1、1545-2不相等的情况下,基于上述过程将帧中的一个变换成其他标识是可取的。相应地,可以将输出帧550的控制值1555设置为指示变换后的帧的值。 
根据本发明的实施例,控制值1545、1555能够分别指示整个帧 540、550的表示,或者相应控制值是针对频率分量而指定的。而在第一种情况下,通过特定方法之一在整个帧上对声道2020、2030进行编码,在第二种情况下,原则上,可以以不同方式对针对频谱分量的每个频谱信息进行编码。自然,也可以通过控制值1545之一对频谱分量的子组进行描述。 
附加地,可以在心理声学模块950的框架中执行的替换算法,检查与生成的信号的基础频谱分量(例如频带)相关的每个频谱信息,以标识仅具有单一有效分量的频谱分量。对于这些频带,可以从编码器拷贝输入比特流的相应输入数据流的量化值,而不对指定频谱分量的相应频谱数据进行重新编码或重新量化。在一些情况下,所有量化数据可以从单一有效输入信号取得,以形成输出比特流或者输出数据流,使得对于设备500而言能够实现输入数据流的无损编码。 
此外,可以省略编码器内如心理声学分析之类的处理步骤。这允许缩短编码过程,从而降低计算复杂度,因为原则上仅将数据从一个比特流拷贝入另一比特流必须在特定情况下执行。 
例如,在PNS的情况下,可以执行替换,因为PNS编码的频带的噪声因子可以从输出数据流之一拷贝至输出数据流。可以使用合适的PNS参数来替换各个频谱分量,因为PNS参数是针对频谱分量指定的,或者换言之,是互相独立的非常好的近似。 
然而,可能出现以下情况:所描述的算法的两个有力应用可能得到退化的收听体验或者不利的质量降低。因此,将替换限制在各个帧,而不是与各个频谱分量相关的频谱信息,是可取的。在这种操作模式中,可以不变地执行不相关性估计或不相关性确定以及替换分析。然而,在这种操作模式中,仅当有效帧内的所有或至少大量频谱分量可替换时,才执行替换。 
尽管这可能导致较少次数的替换,在一些情况下,可以改进频谱信息的内在强度,得到甚至略微改进的质量。 
自然,上述实施例针对它们实现方式而不同。尽管在前述实施例中,将Huffman解码和编码描述为单一熵编码方案,但是也可以使用其他熵编码方案。此外,目前不需要实现熵编码器或熵解码器。相应 地,尽管先前实施例的描述主要关注ACC-ELD编解码器,但是也可以使用其他编解码器来提供输入数据流和对参与者侧的输出数据流进行解码。例如,可以采用基于例如无块长度切换的单一窗口的任何编解码器。 
如图8和11所示的实施例的先前描述也已经示出,其中描述的模块不是强制必需的。例如,根据本发明实施例的设备可以简单地通过对帧的频谱信息进行操作来实现。 
还应当注意,根据图6至12C描述的实施例可以以非常不同的方式来实现。例如,可以基于分立的电学和电子器件(如电阻器、晶体管、电感器等等)来实现用于对多个输入数据流进行混合的设备500/1500及其处理单元520/1520。此外,还可以仅基于集成电路,例如以SOC(SOC=片上系统)、如CPU(CPU=中央处理单元)、GPU(GPU=图形处理单元)之类的处理器以及如专用集成电路(ASIC)之类的其他集成电路(IC),来实现根据本发明的实施例。 
还应当注意,在实现根据本发明实施例的设备的整个过程中,作为离散实现的一部分或作为集成电路的一部分的电学设备可以用于不同目的和不同功能。自然,还可以使用基于集成电路和分立电路的电路的组合来实现根据本发明的实施例。 
基于处理器,根据本发明的实施例还可以基于计算机程序、软件程序或在处理器上执行的程序来实现。 
换言之,根据本发明方法的实施例的特定实现要求,本发明方法的实施例可以以硬件或软件来实现。可以使用数字存储介质,尤其是盘、CD或DVD来执行实现,所述数字存储介质上存储有电子可读信号,与可编程计算机或处理器协作,以执行本发明方法的实施例。因此,一般地,本发明的实施例是一种计算机程序产品,具有在机器可读载体上存储的程序代码,当计算机程序产品在计算机或处理器上运行时,所述程序代码操作用于执行本发明方法的实施例。再换言之,因此,本发明方法的实施例是一种具有程序代码的计算机程序,当计算机程序在计算机或处理器上运行时,程序代码用于执行本发明方法的至少一个实施例。可以由计算机、芯片卡、智能卡、专用集成电路、 片上系统(SOC)或集成电路(IC)来形成处理器。 
参考标记列表 
100会议系统 
110输入 
120解码器 
130加法器 
140编码器 
150输出 
160会议终端 
170编码器 
180解码器 
190时间/频率转换器 
200量化器/编码器 
210解码器/解量化器 
220频率/时间转换器 
250数据流 
260帧 
270附加信息块 
300频率 
310频带 
500设备 
510输入数据流 
520处理单元 
530输出数据流 
540帧 
550输出帧 
560频谱分量 
570箭头 
580虚线 
700比特流解码器 
710比特流读取器 
720Huffman编码器 
730解量化器 
740缩放器 
750第一单元 
760第二单元 
770立体声解码器 
780PNS解码器 
790TNS解码器 
800混合单元 
810频谱混合器 
820优化模块 
830SBR混合器 
850比特流编码器 
860第三单元 
870TNS编码器 
880PNS编码器 
890立体声编码器 
900第四单元 
910缩放器 
920量化器 
930Huffman编码器 
940比特流写入器 
950心理声学模块 
1500设备 
1520处理单元 
1545控制值 
1550输出帧 
1555控制值。 

Claims (11)

1.一种用于对多个输入数据流进行混合的设备(500),其中输入数据流(510)各包括频谱域中的音频数据的帧,输入数据流(510)的帧(540)包括针对多个频谱分量的频谱信息,
所述设备(500)包括:
处理单元(520),适于基于心理声学模型,考虑声道间掩蔽,比较多个输入数据流(510)的帧,
其中,处理单元(520)还适于基于所述比较,针对输出数据流(530)的输出帧(550)的频谱分量,确定多个输入数据流(510)的正好一个输入数据流(510);
其中,处理单元(520)还适于通过拷贝确定的输入数据流(510)的帧(540)的对应频谱分量的信息中的至少一部分,以描述输出数据流(530)的输出帧(550)的频谱分量,来产生输出数据流。
2.根据权利要求1所述的设备(500),其中,处理单元(520)适于使得对多个输入数据流(510)的帧的比较是基于与两个不同输入数据流(510)的帧(540)的相同频谱分量相对应的至少两个频谱信息的。
3.根据权利要求1所述的设备,其中,设备(500)适于使得多个频谱分量中的频谱分量与频率或频带相对应。
4.根据权利要求1所述的设备(500),其中,处理单元(520)适于使得产生输出数据流包括:仅从确定的输入数据流(510)的帧拷贝对应频谱分量的信息中的至少一部分,以描述输出数据流(530)的输出帧(550)的频谱分量。
5.根据权利要求1所述的设备(500),其中,处理单元(520)适于使得产生输出数据流包括:从确定的输入数据流(510)的帧拷贝频谱域中与频谱分量相对应的音频数据。
6.根据权利要求1所述的设备(500),其中,多个输入数据流(510)的输入数据流(510)各包括关于时间的频谱域中的音频数据的帧序列,其中,处理单元(520)适于使得对帧(540)的比较基于仅与帧序列的公共时间索引相对应的帧。
7.根据权利要求1所述的设备(500),其中,处理单元(520)适于使得产生输出数据流(530)保持与确定的输入流(510)的帧的对应频谱分量的信息中的至少一部分的量化级分布可比的量化级分布。
8.根据权利要求1所述的设备(500),其中,对应频谱分量的信息中的至少一部分包括:与量化级、感知噪声替换(PNS)参数、时间噪声替换(TNS)参数或频谱带复制(SBR)参数有关的信息。
9.根据权利要求1所述的设备(500),
其中,
处理单元(520)还适于基于比较来执行确定,以使得针对不同频谱分量中的每一个,确定多个输入数据流(510)的正好一个输入数据流(510),以及
其中,处理单元(520)还适于通过以下操作来产生输出数据流:针对不同频谱分量中的每一个,拷贝确定后的输入数据流(510)的帧(540)的相应频谱分量的信息中的至少一部分,以描述输出数据流(530)的输出帧(550)的相应频谱分量,使得输出数据流(530)的输出帧已经在其中拷贝了来自多个输入数据流中的不同输入数据流的相应频谱分量的信息中的至少一部分,
或者,其中,
处理单元(520)还适于基于比较来执行确定,以使得针对第一频谱分量,确定多个输入数据流(510)的正好一个输入数据流(510),并且针对第二频谱分量不确定主导输入数据流,以及
处理单元(520)还适于通过以下操作来产生输出数据流:针对第一频谱分量,拷贝确定后的输入数据流(510)的帧(540)的相应频谱分量的信息中的至少一部分,以描述输出数据流(530)的输出帧(550)的第一频谱分量,使得输出数据流(530)的输出帧已经在其中拷贝了来自确定后的输入数据流的第一频谱分量的信息中的至少一部分,并且混合频谱域中的多个数据输入流的第二频谱分量,以描述输出数据流(530)的输出帧(550)的第二频谱分量。
10.一种用于对多个输入数据流(510)进行混合的方法,其中,输入数据流(510)各包括频谱域中的音频数据的帧(540),输入数据流(510)的帧(540)包括多个频谱分量,
所述方法包括:
基于心理声学模型,考虑声道间掩蔽,比较多个输入数据流(510)的帧(540),
基于所述比较,针对输出数据流(530)的输出帧(550)的频谱分量,确定多个输入数据流(510)的正好一个输入数据流(510);
通过拷贝确定的输入数据流(510)的帧的对应频谱分量的信息中的至少一部分,来描述输出数据流(530)的输出帧的频谱分量,来产生输出数据流(530)。
11.一种计算机程序,当在处理器上运行时,执行根据权利要求10所述的用于对多个输入数据流(510)进行混合的方法。
CN201210232608.8A 2008-03-04 2009-03-04 对输入数据流进行混合以及从中产生输出数据流 Active CN102789782B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US3359008P 2008-03-04 2008-03-04
US61/033,590 2008-03-04
CN200980116080.4A CN102016985B (zh) 2008-03-04 2009-03-04 对输入数据流进行混合以及从中产生输出数据流

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN200980116080.4A Division CN102016985B (zh) 2008-03-04 2009-03-04 对输入数据流进行混合以及从中产生输出数据流

Publications (2)

Publication Number Publication Date
CN102789782A true CN102789782A (zh) 2012-11-21
CN102789782B CN102789782B (zh) 2015-10-14

Family

ID=41053617

Family Applications (3)

Application Number Title Priority Date Filing Date
CN200980116080.4A Active CN102016985B (zh) 2008-03-04 2009-03-04 对输入数据流进行混合以及从中产生输出数据流
CN200980114170XA Active CN102016983B (zh) 2008-03-04 2009-03-04 用于对多个输入数据流进行混合的设备
CN201210232608.8A Active CN102789782B (zh) 2008-03-04 2009-03-04 对输入数据流进行混合以及从中产生输出数据流

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN200980116080.4A Active CN102016985B (zh) 2008-03-04 2009-03-04 对输入数据流进行混合以及从中产生输出数据流
CN200980114170XA Active CN102016983B (zh) 2008-03-04 2009-03-04 用于对多个输入数据流进行混合的设备

Country Status (15)

Country Link
US (2) US8290783B2 (zh)
EP (3) EP2378518B1 (zh)
JP (3) JP5302980B2 (zh)
KR (3) KR101178114B1 (zh)
CN (3) CN102016985B (zh)
AT (1) ATE528747T1 (zh)
AU (2) AU2009221444B2 (zh)
BR (2) BRPI0906078B1 (zh)
CA (2) CA2716926C (zh)
ES (3) ES2665766T3 (zh)
HK (1) HK1149838A1 (zh)
MX (1) MX2010009666A (zh)
PL (1) PL2250641T3 (zh)
RU (3) RU2473140C2 (zh)
WO (2) WO2009109373A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106031141A (zh) * 2014-02-28 2016-10-12 杜比实验室特许公司 会议中使用改变视盲的感知连续性
CN109243475A (zh) * 2015-03-13 2019-01-18 杜比国际公司 解码在填充元素中具有增强频谱带复制元数据的音频位流
CN113728314A (zh) * 2019-04-19 2021-11-30 Emc Ip控股有限公司 生成具有可配置共性的数据流

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101479011B1 (ko) * 2008-12-17 2015-01-13 삼성전자주식회사 다중 대역 스케쥴링 방법 및 이를 이용한 방송 서비스 시스템
EP2360687A4 (en) * 2008-12-19 2012-07-11 Fujitsu Ltd VOICE BAND EXTENSION DEVICE AND VOICE BAND EXTENSION METHOD
US8775170B2 (en) * 2009-04-30 2014-07-08 Panasonic Corporation Digital voice communication control device and method
EP2489038B1 (en) * 2009-11-20 2016-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
CN102667920B (zh) * 2009-12-16 2014-03-12 杜比国际公司 Sbr比特流参数缩混
US20110197740A1 (en) * 2010-02-16 2011-08-18 Chang Donald C D Novel Karaoke and Multi-Channel Data Recording / Transmission Techniques via Wavefront Multiplexing and Demultiplexing
BR122019013299B1 (pt) * 2010-04-09 2021-01-05 Dolby International Ab aparelho e método para emitir um sinal de áudio esterofônico possuindo um canal esquerdo e um canal direito e meio legível por computador não transitório
MY194835A (en) * 2010-04-13 2022-12-19 Fraunhofer Ges Forschung Audio or Video Encoder, Audio or Video Decoder and Related Methods for Processing Multi-Channel Audio of Video Signals Using a Variable Prediction Direction
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US20130070927A1 (en) * 2010-06-02 2013-03-21 Koninklijke Philips Electronics N.V. System and method for sound processing
CN102568481B (zh) * 2010-12-21 2014-11-26 富士通株式会社 用于实现aqmf处理的方法、和用于实现sqmf处理的方法
CA2827277C (en) 2011-02-14 2016-08-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Linear prediction based coding scheme using spectral domain noise shaping
KR101699898B1 (ko) 2011-02-14 2017-01-25 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스펙트럼 영역에서 디코딩된 오디오 신호를 처리하기 위한 방법 및 장치
CN103493129B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
SG185519A1 (en) * 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
JP5800915B2 (ja) 2011-02-14 2015-10-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号のトラックのパルス位置の符号化および復号化
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
EP2707873B1 (en) 2011-05-09 2015-04-08 Dolby International AB Method and encoder for processing a digital stereo audio signal
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
JP6155274B2 (ja) * 2011-11-11 2017-06-28 ドルビー・インターナショナル・アーベー 過剰サンプリングされたsbrを使ったアップサンプリング
US8615394B1 (en) * 2012-01-27 2013-12-24 Audience, Inc. Restoration of noise-reduced speech
WO2013142726A1 (en) 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Determining a harmonicity measure for voice processing
CN103325384A (zh) 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
US9905236B2 (en) 2012-03-23 2018-02-27 Dolby Laboratories Licensing Corporation Enabling sampling rate diversity in a voice communication system
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
CN104781877A (zh) * 2012-10-31 2015-07-15 株式会社索思未来 音频信号编码装置以及音频信号解码装置
KR101998712B1 (ko) 2013-03-25 2019-10-02 삼성디스플레이 주식회사 표시장치, 표시장치를 위한 데이터 처리 장치 및 그 방법
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
EP2838086A1 (en) 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP2830056A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain
US9553601B2 (en) * 2013-08-21 2017-01-24 Keysight Technologies, Inc. Conversion of analog signal into multiple time-domain data streams corresponding to different portions of frequency spectrum and recombination of those streams into single-time domain stream
JP6001814B1 (ja) 2013-08-28 2016-10-05 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイブリッドの波形符号化およびパラメトリック符号化発話向上
US9866986B2 (en) 2014-01-24 2018-01-09 Sony Corporation Audio speaker system with virtual music performance
JP6243770B2 (ja) * 2014-03-25 2017-12-06 日本放送協会 チャンネル数変換装置
DE112015004185T5 (de) 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
US10015006B2 (en) 2014-11-05 2018-07-03 Georgia Tech Research Corporation Systems and methods for measuring side-channel signals for instruction-level events
DE112016000545B4 (de) 2015-01-30 2019-08-22 Knowles Electronics, Llc Kontextabhängiges schalten von mikrofonen
CN104735512A (zh) * 2015-03-24 2015-06-24 无锡天脉聚源传媒科技有限公司 一种同步音频数据的方法、设备及系统
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
CN105261373B (zh) * 2015-09-16 2019-01-08 深圳广晟信源技术有限公司 用于带宽扩展编码的自适应栅格构造方法和装置
CN107924683B (zh) * 2015-10-15 2021-03-30 华为技术有限公司 正弦编码和解码的方法和装置
EP3405950B1 (en) 2016-01-22 2022-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Stereo audio coding with ild-based normalisation prior to mid/side decision
US9826332B2 (en) * 2016-02-09 2017-11-21 Sony Corporation Centralized wireless speaker system
US9924291B2 (en) 2016-02-16 2018-03-20 Sony Corporation Distributed wireless speaker system
US9826330B2 (en) 2016-03-14 2017-11-21 Sony Corporation Gimbal-mounted linear ultrasonic speaker assembly
US10824629B2 (en) 2016-04-01 2020-11-03 Wavefront, Inc. Query implementation using synthetic time series
US10896179B2 (en) 2016-04-01 2021-01-19 Wavefront, Inc. High fidelity combination of data
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
EP3246923A1 (en) * 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a multichannel audio signal
US9794724B1 (en) 2016-07-20 2017-10-17 Sony Corporation Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating
US9854362B1 (en) 2016-10-20 2017-12-26 Sony Corporation Networked speaker system with LED-based wireless communication and object detection
US10075791B2 (en) 2016-10-20 2018-09-11 Sony Corporation Networked speaker system with LED-based wireless communication and room mapping
US9924286B1 (en) 2016-10-20 2018-03-20 Sony Corporation Networked speaker system with LED-based wireless communication and personal identifier
US20180302454A1 (en) * 2017-04-05 2018-10-18 Interlock Concepts Inc. Audio visual integration device
IT201700040732A1 (it) * 2017-04-12 2018-10-12 Inst Rundfunktechnik Gmbh Verfahren und vorrichtung zum mischen von n informationssignalen
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
CN109559736B (zh) * 2018-12-05 2022-03-08 中国计量大学 一种基于对抗网络的电影演员自动配音方法
US11443737B2 (en) 2020-01-14 2022-09-13 Sony Corporation Audio video translation into multiple languages for respective listeners
CN111402907B (zh) * 2020-03-13 2023-04-18 大连理工大学 一种基于g.722.1的多描述语音编码方法
US11662975B2 (en) * 2020-10-06 2023-05-30 Tencent America LLC Method and apparatus for teleconference
CN113468656B (zh) * 2021-05-25 2023-04-14 北京临近空间飞行器系统工程研究所 基于pns计算流场的高速边界层转捩快速预示方法和系统

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69031737T2 (de) * 1989-01-27 1998-04-09 Dolby Lab Licensing Corp Transformationscodierer, -decodierer und Codierer/Decodierer mit niedriger Bitrate für Audio-Anwendungen hoher Qualität
US5463424A (en) * 1993-08-03 1995-10-31 Dolby Laboratories Licensing Corporation Multi-channel transmitter/receiver system providing matrix-decoding compatible signals
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
JP3387084B2 (ja) * 1998-11-16 2003-03-17 日本ビクター株式会社 記録媒体、音声復号装置
JP3344575B2 (ja) * 1998-11-16 2002-11-11 日本ビクター株式会社 記録媒体、音声復号装置
JP3173482B2 (ja) * 1998-11-16 2001-06-04 日本ビクター株式会社 記録媒体、及びそれに記録された音声データの音声復号化装置
JP3344574B2 (ja) * 1998-11-16 2002-11-11 日本ビクター株式会社 記録媒体、音声復号装置
JP3344572B2 (ja) * 1998-11-16 2002-11-11 日本ビクター株式会社 記録媒体、音声復号装置
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US20030028386A1 (en) 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
EP1423847B1 (en) * 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
WO2003085643A1 (en) * 2002-04-10 2003-10-16 Koninklijke Philips Electronics N.V. Coding of stereo signals
US7039204B2 (en) 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
CN1669358A (zh) * 2002-07-16 2005-09-14 皇家飞利浦电子股份有限公司 音频编码
US8311809B2 (en) * 2003-04-17 2012-11-13 Koninklijke Philips Electronics N.V. Converting decoded sub-band signal into a stereo signal
US7349436B2 (en) 2003-09-30 2008-03-25 Intel Corporation Systems and methods for high-throughput wideband wireless local area network communications
RU2374703C2 (ru) * 2003-10-30 2009-11-27 Конинклейке Филипс Электроникс Н.В. Кодирование или декодирование аудиосигнала
US20080260048A1 (en) 2004-02-16 2008-10-23 Koninklijke Philips Electronics, N.V. Transcoder and Method of Transcoding Therefore
US8423372B2 (en) * 2004-08-26 2013-04-16 Sisvel International S.A. Processing of encoded signals
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
JP2006197391A (ja) 2005-01-14 2006-07-27 Toshiba Corp 音声ミクシング処理装置及び音声ミクシング処理方法
KR100818268B1 (ko) * 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
KR100791846B1 (ko) * 2006-06-21 2008-01-07 주식회사 대우일렉트로닉스 오디오 복호기
JP5134623B2 (ja) * 2006-07-07 2013-01-30 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 複数のパラメータ的に符号化された音源を合成するための概念
US8036903B2 (en) 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
JP2008219549A (ja) * 2007-03-06 2008-09-18 Nec Corp 信号処理の方法、装置、及びプログラム
US7983916B2 (en) * 2007-07-03 2011-07-19 General Motors Llc Sampling rate independent speech recognition
CN101889306A (zh) * 2007-10-15 2010-11-17 Lg电子株式会社 用于处理信号的方法和装置
US8363809B2 (en) * 2007-10-26 2013-01-29 Panasonic Corporation Teleconference terminal apparatus, relaying apparatus, and teleconferencing system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106031141A (zh) * 2014-02-28 2016-10-12 杜比实验室特许公司 会议中使用改变视盲的感知连续性
CN106031141B (zh) * 2014-02-28 2017-12-29 杜比实验室特许公司 会议中使用改变视盲的感知连续性
US9876913B2 (en) 2014-02-28 2018-01-23 Dolby Laboratories Licensing Corporation Perceptual continuity using change blindness in conferencing
CN109243475A (zh) * 2015-03-13 2019-01-18 杜比国际公司 解码在填充元素中具有增强频谱带复制元数据的音频位流
CN109243475B (zh) * 2015-03-13 2022-12-20 杜比国际公司 解码在填充元素中具有增强频谱带复制元数据的音频位流
US11664038B2 (en) 2015-03-13 2023-05-30 Dolby International Ab Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element
CN113728314A (zh) * 2019-04-19 2021-11-30 Emc Ip控股有限公司 生成具有可配置共性的数据流
CN113728314B (zh) * 2019-04-19 2023-10-31 Emc Ip控股有限公司 生成具有可配置共性的数据流

Also Published As

Publication number Publication date
AU2009221443A1 (en) 2009-09-11
KR20100125382A (ko) 2010-11-30
CN102789782B (zh) 2015-10-14
CN102016985A (zh) 2011-04-13
EP2260487A2 (en) 2010-12-15
US8116486B2 (en) 2012-02-14
AU2009221444B2 (en) 2012-06-14
BRPI0906079B1 (pt) 2020-12-29
KR101192241B1 (ko) 2012-10-17
BRPI0906079A2 (pt) 2015-10-06
CA2717196A1 (en) 2009-09-11
ES2753899T3 (es) 2020-04-14
RU2473140C2 (ru) 2013-01-20
PL2250641T3 (pl) 2012-03-30
RU2012128313A (ru) 2014-01-10
KR20120039748A (ko) 2012-04-25
ES2665766T3 (es) 2018-04-27
AU2009221444A1 (en) 2009-09-11
WO2009109374A3 (en) 2010-04-01
ATE528747T1 (de) 2011-10-15
EP2378518B1 (en) 2018-01-24
RU2010136360A (ru) 2012-03-10
KR101178114B1 (ko) 2012-08-30
JP5302980B2 (ja) 2013-10-02
MX2010009666A (es) 2010-10-15
EP2378518A3 (en) 2012-11-21
CA2717196C (en) 2016-08-16
HK1149838A1 (en) 2011-10-14
EP2260487B1 (en) 2019-08-21
RU2010136357A (ru) 2012-03-10
JP2011513780A (ja) 2011-04-28
RU2562395C2 (ru) 2015-09-10
BRPI0906078B1 (pt) 2020-12-29
KR101253278B1 (ko) 2013-04-11
CA2716926C (en) 2014-08-26
ES2374496T3 (es) 2012-02-17
WO2009109373A3 (en) 2010-03-04
JP2011518342A (ja) 2011-06-23
EP2378518A2 (en) 2011-10-19
CN102016983B (zh) 2013-08-14
WO2009109374A2 (en) 2009-09-11
JP5654632B2 (ja) 2015-01-14
US8290783B2 (en) 2012-10-16
KR20100125377A (ko) 2010-11-30
BRPI0906078A2 (pt) 2015-07-07
EP2250641B1 (en) 2011-10-12
CN102016983A (zh) 2011-04-13
US20090228285A1 (en) 2009-09-10
AU2009221443B2 (en) 2012-01-12
CN102016985B (zh) 2014-04-02
EP2250641A2 (en) 2010-11-17
WO2009109373A2 (en) 2009-09-11
RU2488896C2 (ru) 2013-07-27
JP5536674B2 (ja) 2014-07-02
CA2716926A1 (en) 2009-09-11
JP2013190803A (ja) 2013-09-26
US20090226010A1 (en) 2009-09-10

Similar Documents

Publication Publication Date Title
CN102016985B (zh) 对输入数据流进行混合以及从中产生输出数据流
CN100559465C (zh) 保真度优化的可变帧长编码
CN102084418B (zh) 用于调整多通道音频信号的空间线索信息的设备和方法
CN101115051B (zh) 音频信号处理方法、系统以及音频信号收发装置
CN101802907A (zh) 多信道音频的联合增强
CN101553870A (zh) 后处理谱值的设备和方法及音频信号的编码器和解码器
CN101506875B (zh) 用于组合多个参数编码的音频源的设备和方法
CN102055974B (zh) 数据压缩、解压缩方法、装置及系统
US20190096410A1 (en) Audio Signal Encoder, Audio Signal Decoder, Method for Encoding and Method for Decoding
CA2821325C (en) Mixing of input data streams and generation of an output data stream therefrom
AU2012202581B2 (en) Mixing of input data streams and generation of an output data stream therefrom
Gbur et al. Realtime implementation of an ISO/MPEG layer 3 encoder on Pentium PCs
Chiang et al. Efficient AAC Single Layer Transcoer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant