CN105191269B - 使用隐写地嵌入的音频数据的远程会议 - Google Patents

使用隐写地嵌入的音频数据的远程会议 Download PDF

Info

Publication number
CN105191269B
CN105191269B CN201480008134.6A CN201480008134A CN105191269B CN 105191269 B CN105191269 B CN 105191269B CN 201480008134 A CN201480008134 A CN 201480008134A CN 105191269 B CN105191269 B CN 105191269B
Authority
CN
China
Prior art keywords
data stream
subflow
audio data
mixing
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201480008134.6A
Other languages
English (en)
Other versions
CN105191269A (zh
Inventor
斯特凡那·皮埃尔·维莱特
丹尼尔·J·辛德尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN105191269A publication Critical patent/CN105191269A/zh
Application granted granted Critical
Publication of CN105191269B publication Critical patent/CN105191269B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

多方控制单元MCU基于表示与终端装置相关联的声音的音频数据流而产生混合音频数据流。另外,所述MCU修改混合单声道音频数据以隐写地嵌入包含所述单声道音频数据流的表示的子流。终端装置接收所述经修改的混合音频数据流。在所述终端装置经配置以用于立体声回放时,所述终端装置执行反向隐写过程以从所述混合音频数据流提取所述子流。所述终端装置基于所述所提取的子流及所述混合音频数据流而产生及输出多声道音频数据。在所述终端装置未经配置以用于立体声回放时,所述终端装置基于所述混合音频数据流而输出声音,而不提取所述嵌入的子流。

Description

使用隐写地嵌入的音频数据的远程会议
技术领域
本发明涉及音频数据的处理,并且具体来说,涉及用于远程会议的音频数据的处理。
背景技术
远程会议一般涉及建立与由远程会议的参与者使用的三个或更多个终端装置的电信连接。为了易于解释,所述终端装置可标示为终端装置A、B及C。通常,参与者中的一者(例如终端装置A的用户)通过在另一参与者(例如终端装置B及C的用户)举行会议而起始远程会议。会议管理装置管理所述会议。所述会议管理装置也可被称作多方控制单元(MCU)或,替代地,称作混合桥。所述MCU可位于代管远程会议的服务提供商网络中。
MCU可解码在MCU处从终端装置所接收的音频数据流,且对由三个所接收的音频数据流中的两者表示音频波形求和以产生混合单声(即,单声道)音频波形。MCU可编码所述混合单声音频波形以产生混合单声道数据流,将所述混合单声道数据流发射到终端装置中的相应者。
例如,MCU可从终端装置A、B及C接收音频数据流且解码所述音频数据流。MCU基于所接收的音频数据流而产生三个混合音频数据流。第一混合音频数据流表示由终端装置A及B(即,A+B)检测到的声音的单声混合。第二混合音频数据流表示由终端装置A及C(即,A+C)检测到的声音的单声混合。第三混合音频数据流表示由终端装置B及C(即,B+C)检测到的声音的单声混合。MCU将第一混合音频数据流发射到终端装置C、将第二混合音频数据流发射到终端装置B,且将第三混合音频数据流发射到终端装置A。终端装置A、B及C解码混合音频数据流且基于所述混合音频数据流而产生声音(即,回放)。
最近,已经开发出在远程会议中支持三维(3D)音频的MCU及终端装置。在3D音频中,MCU处理从终端装置接收的音频数据流以产生混合立体声音频数据流。所述混合音频立体声数据流中的每一者可表示具有两个或更多个(例如,左及右)声道的声音。MCU可将这些混合立体声音频数据流发射到终端装置中的适当一者。所述终端装置中的每一者可在两个或更多个扬声器上回放所述混合立体声音频数据流。因为由MCU应用于立体声音频数据流的头相关传递函数(HRTF),所以终端装置的用户可感知其它终端装置的用户的语音来自空间中的各种点。例如,终端装置A的用户可感知终端装置B的用户的语音来自空间中在终端装置A的用户的左边的点且可感知终端装置C的用户的语音来自空间中在终端装置A的用户的右边的点。以此方式在空间上分离用户的话音可帮助用户确定谁在远程会议期间说话,进而促进3D音频远程会议的参与者之间的通信。
发明内容
一般来说,本发明描述用于处理用于远程会议的音频数据的技术。多方控制单元(MCU)从参与远程会议的终端装置接收传入的音频数据流。所述传入的音频数据流中的每一者可包括由终端装置的相应一者检测到的声音的单声表示。对于终端装置中的每一者,MCU可产生包括由终端装置中的其它者检测到的声音的混合的单声表示的混合音频数据流。另外,MCU可在混合音频数据流中隐写内嵌由终端装置检测到的声音的表示。为了易于解释,由终端装置检测到的声音的表示可在本文中被称作子流。MCU将混合音频数据流输出到参与远程会议的终端装置。
如果终端装置经配置以用于立体声回放,那么终端装置执行反向隐写过程以从混合音频数据流提取嵌入的子流。终端装置基于所提取的子流及混合音频数据流而产生及输出多声道音频数据流。终端装置可基于多声道音频数据流而输出声音。如果终端装置未经配置以用于立体声回放,那么所述终端装置基于混合音频数据流而输出声音,而不提取嵌入的子流。在此意义上,通过使用隐写术嵌入子流,所述技术可实现对混合音频数据流的多声道回放及对混合音频数据流的单声回放两者。
在一个实例中,本发明描述一种方法,其包括:至少部分基于第一音频数据流及第二音频数据流而产生混合音频数据流,所述音频数据流表示与参与远程会议的第一终端装置相关联的声音,所述第二音频数据流表示与参与所述远程会议的第二终端装置相关联的声音。所述方法还包括至少部分通过将第一子流及第二子流隐写地嵌入到所述混合音频数据流中而产生经修改的混合音频数据流,以使得所述经修改的混合音频数据流支持单声道音频回放及立体声音频回放两者,所述第一子流包含与所述第一终端装置相关联的所述声音的表示,所述第二子流包含与所述第二终端装置相关联的所述声音的表示。另外,所述方法包括将所述经修改的单声道音频数据流输出到参与所述远程会议的第三终端装置。
在另一实例中,本发明描述一种方法,其包括执行反向隐写过程以从混合音频数据流提取第一子流,其中所述第一子流与参与远程会议的第一终端装置相关联。所述方法还包括执行反向隐写过程以从所述混合音频数据流提取第二子流,其中所述第二子流与参与所述远程会议的第二终端装置相关联。另外,所述方法包括至少部分基于所述混合音频数据流、所述第一子流及所述第二子流而产生多声道音频数据流。
在另一实例中,本发明描述一种装置,其包括一或多个处理器,所述一或多个处理器经配置以至少部分基于第一音频数据流及第二音频数据流而产生混合音频数据流,所述第一音频数据流表示与参与远程会议的第一终端装置相关联的声音,所述第二音频数据流表示与参与所述远程会议的第二终端装置相关联的声音。所述一或多个处理器还经配置以至少部分通过将第一子流及第二子流隐写地嵌入到所述混合音频数据流中而产生经修改的混合音频数据流,以使得所述经修改的混合音频数据流支持单声道音频回放及立体声音频回放两者,所述第一子流包含与所述第一终端装置相关联的所述声音的表示,所述第二子流包含与所述第二终端装置相关联的所述声音的表示。此外,所述一或多个处理器经配置以将所述经修改的单声道音频数据流输出到参与所述远程会议的第三终端装置。
在另一实例中,本发明描述包括一或多个处理器的终端装置,所述一或多个处理器经配置以执行反向隐写过程以从混合音频数据流提取第一子流。所述第一子流与参与远程会议的第一终端装置相关联。所述一或多个处理器还经配置以执行反向隐写过程以从所述混合音频数据流提取第二子流。所述第二子流与参与所述远程会议的第二终端装置相关联。所述一或多个处理器还经配置以至少部分基于所述混合音频数据流、所述第一子流及所述第二子流而产生多声道音频数据流。
在另一实例中,本发明描述一种装置,其包括用于至少部分基于第一音频数据流及第二音频数据流而产生混合音频数据流的装置,所述第一音频数据流表示与参与远程会议的第一终端装置相关联的声音,所述第二音频数据流表示与参与所述远程会议的第二终端装置相关联的声音。所述装置还包括用于以下操作的装置:至少部分通过将第一子流及第二子流隐写地嵌入到所述混合音频数据流中而产生经修改的混合音频数据流,以使得所述经修改的混合音频数据流支持单声道音频回放及立体声音频回放两者,所述第一子流包含与所述第一终端装置相关联的所述声音的表示,所述第二子流包含与所述第二终端装置相关联的所述声音的表示。另外,所述装置包括用于将所述经修改的单声道音频数据流输出到参与所述远程会议的第三终端装置的装置。
在另一实例中,本发明描述终端装置,所述终端装置包括用于执行反向隐写过程以从混合音频数据流提取第一子流的装置。所述第一子流与参与远程会议的第一终端装置相关联。所述终端装置还包括用于执行反向隐写过程以从所述混合音频数据流提取第二子流的装置,其中所述第二子流与参与所述远程会议的第二终端装置相关联。另外,所述终端装置包括用于至少部分基于所述混合音频数据流、所述第一子流及所述第二子流而产生多声道音频数据流的装置。
在另一实例中,本发明描述一种存储指令的计算机可读存储媒体,所述指令在由装置的一或多个处理器执行时配置所述装置以至少部分基于第一音频数据流及第二音频数据流而产生混合音频数据流,所述第一音频数据流表示与参与远程会议的第一终端装置相关联的声音,所述第二音频数据流表示与参与所述远程会议的第二终端装置相关联的声音。所述指令还配置所述装置以至少部分通过将第一子流及第二子流隐写地嵌入到所述混合音频数据流中而产生经修改的混合音频数据流,以使得所述经修改的混合音频数据流支持单声道音频回放及立体声音频回放两者,所述第一子流包含与所述第一终端装置相关联的所述声音的表示,所述第二子流包含与所述第二终端装置相关联的所述声音的表示。此外,所述指令配置所述装置以将所述经修改的单声道音频数据流输出到参与所述远程会议的第三终端装置。
在另一实例中,本发明描述一种存储指令的计算机可读存储媒体,所述指令在由装置的一或多个处理器执行时配置所述装置以执行反向隐写过程以从混合音频数据流提取第一子流。所述第一子流与参与远程会议的第一终端装置相关联。所述指令还配置所述装置以执行反向隐写过程以从所述混合音频数据流提取第二子流。所述第二子流与参与所述远程会议的第二终端装置相关联。另外,所述指令配置所述装置以至少部分基于所述混合音频数据流、所述第一子流及所述第二子流而产生多声道音频数据流。
在附图和下文描述中阐述本发明的一或多个实例的细节。其它特征、目标和优点将从所述描述、图式以及权利要求书而显而易见。
附图说明
图1是说明可利用本发明中描述的技术的实例性远程会议系统的框图。
图2是说明可执行本发明中描述的技术的各种方面的实例性多方控制单元(MCU)的框图。
图3是说明在执行本发明中描述的技术的各种方面中的实例性终端装置的框图。
图4是说明在执行本发明中描述的技术的各种方面中的实例性音频解码器的框图。
图5是说明在执行本发明中描述的技术的各种方面中的MCU的实例性操作的流程图。
图6是说明在执行本发明中描述的技术的各种方面中的音频解码器的实例性操作的流程图。
具体实施方式
远程会议使得三个或更多个方能够使用终端装置彼此交谈以俘获音频数据(常常是语音音频数据)及回放由其它终端装置俘获的音频数据两者。参与远程会议的用户通常与例如电话或专用远程会议设备等单独的终端装置相关联。此外,远程会议系统可包含多方控制单元(MCU)。所述终端装置基于由终端装置的一或多个麦克风检测到的声音而产生音频数据流。所述终端装置将所述所产生的音频数据流发射到MCU。MCU可混合由所述音频数据流表示的声音且编码所得的声音以产生多个混合音频数据流。在MCU经配置以用于三维(3D)音频远程会议时,所述MCU可产生立体声混合音频数据流,其中的每一者可包含左音频声道及右音频声道。
虽然远程会议中的3D音频可改进参与用户的主观音频质量且潜在地改进远程会议体验,但3D音频远程会议可需要较高的位速率以提供多声道(例如,左声道及右声道)音频数据流。因此,MCU可需要在3D音频用于远程会议中时比在常规的非3D音频用于远程会议中时将显著更多的数据发射到终端装置。此外,混合立体声音频数据流可不向后兼容。即,旧式仅单声道终端装置可不能够回放混合立体声音频数据流。因此,在参与3D音频远程会议时仅可使用特别针对3D音频设计的终端装置。给定支持3D音频远程会议的终端装置的费用及低可用性,与远程会议体验中的改进相比,给定与升级终端装置及MCU以支持3D音频远程会议相关联的潜在高成本,3D音频远程会议的采用已经受到限制。
本发明的技术可通过在嵌入实现3D音频远程会议的子流的同时还通过支持旧式仅单声道终端装置来维持向后兼容性,而在不显著增加升级成本的情况下促进3D音频远程会议的采用。根据本发明的技术,MCU可接收包含由参与远程会议的终端装置(例如,相关联)检测到的声音的单声表示的音频数据流。所述MCU可产生用于终端装置中的每一者的高品质混合音频数据流。用于特定终端装置的高品质混合音频数据流可包含由除将向其发送混合音频数据流的特定终端装置之外的终端装置检测到的声音的混合的单声表示。此外,MCU可执行一种形式的隐写术(其可通常被称为“水印”)以在高质量混合音频数据流中嵌入由其它终端装置检测到的声音的低质量表示。为了易于解释,由终端装置检测到的声音的低质量表示可在本文中被称作子流。在一些实例中,MCU可在不增加高质量混合音频数据流的位速率的情况下将所述子流嵌入到高质量混合音频数据流中。执行隐写术通常涉及以给定量的数据修改可被视为冗余数据的东西以无缝地“隐藏”额外数据,以使得原始数据的大小不增加或甚至归因于人类视觉或听觉系统中的限制而不影响由观看者或(在此情况下)收听者感知的原始数据。
MCU将高质量混合音频数据流输出到参与所述远程会议的终端装置。在参与所述远程会议的终端装置经配置以用于多声道3D音频回放(例如立体声音频回放)时,终端装置可执行反向隐写过程以从高质量混合音频数据流提取隐写地嵌入的子流。终端装置可基于所提取的子流及高质量混合音频数据流而产生空间化(其可被称为“三维”或“3D”)的多声道(例如,立体声)音频数据。所述终端装置可基于空间化的多声道音频数据而产生多声道(例如,立体声)声音。
在参与所述远程会议的终端装置未经配置以用于多声道回放时,终端装置可基于混合音频数据流而产生单声道声音,而不从混合音频数据流提取子流。因为子流被隐写地嵌入混合音频数据流中,所以不支持多声道音频回放的终端装置的用户可不能够确定子流嵌入混合音频数据流中。同样,子流使用隐写术被“隐藏”而不让不支持多声道音频回放的这些终端装置看到,而不损害混合音频数据流的完整性(从收听者的角度)。在一些情况下,3D音频可需要无汇接操作(TFO)/无转码器操作(TrFO)网络,否则质量可掉回到旧式单声道。
以此方式,MCU可产生能够多声道音频回放且与不支持多声道音频回放的终端装置向后兼容的音频数据流。换句话说,混合音频数据流与经配置以用于单声回放且未经配置以用于多声道(例如,立体声)回放的终端装置兼容。此外,本发明的技术可使得终端装置能够确定与声音相关联的来源(例如,终端装置),甚至在混合音频数据流同时包含来自多个来源的声音时也如此。举例来说,与第一终端装置相关联的声音可包含和与第二终端装置相关联的语音并发的语音。
附图说明若干实例。由附图中的参考数字指示的元件对应于在以下描述中由相同参考数字指示的元件。在本发明中,名称以序数词(例如,“第一”、“第二”、“第三”等)开始的元件未必暗示所述元件具有特定次序。实际上,此些序数词可仅指代相同或类似类型的不同元件。
图1是说明可执行本发明中描述的技术的实例性远程会议系统10的框图。如图1中所示,远程会议系统10包含多方控制单元(MCU)12。另外,会议系统10包含多个终端装置14A到14C(统称为“终端装置14”)。出于易于说明的目的,图1的实例仅展示三个终端装置。然而,其它实例性远程会议系统可包含三个以上终端装置,且本发明的技术可由包含三个或更多个终端装置的远程会议系统执行。
MCU 12可包括各种类型的装置。例如,MCU 12可包括专用MCU装置、服务器计算机、个人计算机或另一种类型的装置。同样,终端装置14可包括各种类型的装置。例如,终端装置14中的一或多者可包括移动或陆线电话、桌上型计算机、移动计算装置、笔记本(例如,膝上型)计算机、平板计算机、电视机顶盒、视频游戏控制台、车内计算机、专用音频及/或视频会议设备,或经配置以用于远程会议的其它类型的装置。在一些实例中,MCU 12物理上位于代管远程会议的服务提供商的网络中。终端装置14可在各种位置处,例如在用户的办公室、家或车辆中。在一些实例中,终端装置14可为移动装置。
MCU 12可与终端装置14中的每一者通信。在各种实例中,MCU 12以各种方式与终端装置14传送数据。例如,MCU 12可经由通信网络与终端装置14中的一或多者传送数据,所述通信网络例如为因特网、局域网(LAN)、普通老式电话系统(POTS)网络、蜂窝式或移动网络、蜂窝式数据网络或其组合。在一些实例中,MCU 12可经由有线及/或无线通信媒体而终端装置14通信。
一或多个用户可使用终端装置14中的每一者参与远程会议。在所述远程会议期间,参与用户可彼此口头交谈。例如,三个用户A、B及C可分别使用终端装置14A、14B及14C参与远程会议。在此实例中,终端装置14A可俘获由用户A产生的呈音频数据形式的声音(例如,语音)且可重现由终端装置14B及14C俘获的声音(例如,语音)。终端装置14B可俘获由用户B产生的声音且可重现由终端装置14A及14C俘获的声音。终端装置14C可俘获由用户C产生的声音且可重现由终端装置14A和14B俘获的声音。
终端装置14可基于由终端装置14俘获的声音而产生音频数据流。举例来说,终端装置14可产生包含由终端装置14检测及俘获的声音的单声表示的音频数据流。终端装置14可将所述音频数据流发射到MCU 12。在图1的实例中,箭头16A、16B及16C分别指示从终端装置14A、14B及14C发射到MCU 12的音频数据流。音频数据流是随时间提供的音频数据的流。举例来说,终端装置14可在终端装置14检测、俘获及编码声音(其同样通常呈语音的形式)时准实时地将音频数据流发射到MCU 12。终端装置14可各自包含话音或语音编码器(其通常被称为“声码器”)以编码语音且进而产生音频数据流。声码器可表示以经修裁以用于编码语音的编码过程为特征的编码器。
MCU 12接收由终端装置14发射的音频数据流。在MCU 12接收音频数据流时,MCU12可产生多个混合音频数据流。MCU 12可将不同的混合音频数据流发射到不同终端装置14。在图1的实例中,MCU 12可将第一混合音频数据流发射到终端装置14A、将第二混合音频数据流发射到终端装置14B,且将第三混合音频数据流发射到终端装置14C。在图1的实例中,箭头18A、18B及18C分别指示发射到终端装置14A、14B及14C的混合音频数据流。
用于特定终端装置的混合音频数据流可包含由参与所述远程会议的其它终端装置俘获的声音的混合。在一些实例中,MCU 12可通过添加在从其它终端装置接收的音频数据流中指示的对应(例如,并发)音频样本而混合由其它终端装置俘获的声音。例如,MCU 12通过将第一音频数据流的音频样本添加到第二音频数据流的对应音频样本而混合由其它终端装置检测到的声音。
除了产生混合音频数据流之外,根据本发明的技术,MCU 12可产生多个子流。所述子流中的每一者可包含由终端装置14中的不同一者俘获的声音的表示。包含由特定终端装置俘获的声音的表示的子流可在本文中被称作与所述特定终端装置相关联的子流。
在一些实例中,所述子流具有比由MCU 12接收的对应音频数据流更低的位速率。举例来说,与终端装置14A相关联的子流可具有比由终端装置14A发射到MCU 12的音频数据流更低的位速率。同样,与终端装置14B相关联的子流可具有比由MCU 12由终端装置14B发射的音频数据流更低的位速率。在一些实例中,所述子流可具有非常低的位速率,例如1kb/s到2kb/s。此外,在一些实例中,子流可包含具有小于由终端装置14发射的音频数据流中的对应音频样本的位深度的位深度的经译码音频样本。
此外,为了产生用于发射到特定终端装置的混合音频数据流,根据本发明的技术,MCU 12可通过将与其它终端装置相关联的子流隐写地嵌入到混合音频数据流中来修改所述混合音频数据流。MCU 12可将所得的经修改的混合音频数据流发射到终端装置14中的特定一者。在一些实例中,与经修改混合音频数据相关联的音频失真的量及与未经修改混合音频数据相关联的音频失真的量之间的差异小于检测阈值。检测阈值可为典型的人类听觉系统可注意到的失真的量。此外,在一些实例中,经修改混合音频数据的位速率不大于在嵌入子流之前的混合音频数据的位速率。MCU 12可能够在标准经译码语音流中隐藏显著量的数据。举例来说,MCU 12可能够在相对极少降级的情况下将至多2kb/s嵌入到12.2kb/s增强型全速率(EFR)位流中。
MCU 12可以各种方式将子流隐写地嵌入到混合音频数据流中。例如,混合音频数据流可将声音表示为一连串经编码音频样本。所述音频样本中的每一者可由固定数目的位组成。人类收听者可不能够感知由音频样本的最低有效位(LSB)的改变而引起的声音中的改变。因此,MCU 12可通过改变混合音频数据流中的音频样本的LSB中的一或多者而将子流隐写地嵌入到混合音频数据流中,以使得音频样本的LSB表示子流的数据。即,MCU 12可修改混合单声道音频数据的音频样本的最低有效位以指示第一和第二子流。
在另一实例中,如果混合音频数据流的取样速率充分高,那么人类收听者可不能够感知由于使用来自子流的样本对混合音频数据流中的音频样本的周期性替代而引起的声音中的改变。因此,在此实例中,MCU 12可通过使用子流的音频样本或其它数据周期性地取代混合音频数据流中的音频样本而将子流隐写地嵌入到混合音频数据流中。
在另一实例中,MCU 12可通过隐藏代数码激发线性投影(ACELP)译码器(例如,自适应多速率窄带(“AMR-NB”))的固定码簿(FCB)上的位通过每一FCB轨道隐藏固定数目的位而将子流隐写地嵌入到混合音频数据流中。通过约束所允许的脉冲组合的数目而隐藏所述位。在AMR-NB的情况下,其中每一轨道存在两个脉冲,一种方法包含约束脉冲位置以使得给定轨道上的两个脉冲位置的异或(XOR)等于要发射的水印。可此方式发射每一轨道一个或两个位。
在另一实例中,水印是自适应的。作为如描述于前一实例中的每一脉冲轨道嵌入固定数目的位(例如,一个或两个)的替代,MCU 12确定哪些轨道在感知上是最重要的。在一些实例中,MCU 12可使用已经存在于编码器及解码器两者处的信息来完成此,以使得不需要另外或单独地发射指示哪些轨道在感知上是最重要的信息。在一个配置中,可以使用长期预测(LTP)贡献来保护最重要的轨道不受水印影响。举例来说,LTP贡献通常在主间距脉冲处显现清楚峰值,且可能已经在编码器及解码器两者处可用。在此实例中,可使用AMR-NB。替代地,在此实例中,可使用eAMR。eAMR可具有输送隐藏在窄带位流内的宽带信息的“薄”层的能力。美国专利申请案13/275,997描述在水印中使用eAMR,所述申请案的全部内容以引用的方式并入本文中。
以此方式,MCU 12可接收第一音频数据流。所述第一音频数据流可表示由参与远程会议的第一终端装置(例如,终端装置14A)俘获(即,相关联)的声音。另外,MCU 12可接收第二音频数据流。所述第二音频数据流可表示由参与所述远程会议的第二终端装置(例如,终端装置14B)俘获(即,相关联)的声音。MCU 12可至少部分基于所述第一音频数据流及所述第二音频数据流而产生混合音频数据流。此外,MCU 12可至少部分通过将第一子流及第二子流隐写地嵌入到混合音频数据流中而产生经修改的混合音频数据流,以使得所述经修改的混合音频数据流支持单声道音频回放及立体声音频回放两者。所述第一子流包含与第一终端装置相关联的声音的表示。所述第二子流包含与第二终端装置相关联的声音的表示。MCU 12可将所述经修改的混合音频数据流输出到参与所述远程会议的第三终端装置(例如,终端装置14C)。
终端装置14C可从MCU 12接收混合音频数据流。如果终端装置14C未经配置以用于多流音频回放,那么终端装置14C可解码混合音频数据流且使用单声声道回放所述混合音频数据流。
然而,如果终端装置14C经配置以用于多声道音频回放,那么终端装置14C可执行反向隐写过程以从混合音频数据流提取子流。终端装置14C可解码混合音频数据流及所提取的子流。此外,终端装置14C可基于所述子流确定与除终端装置14C之外的终端装置相关联(例如,起初由其检测到)的混合音频数据流中的声音。例如,终端装置14C可基于第一子流确定与第一终端装置(例如,终端装置14A)相关联的混合音频数据流的部分,且可基于第二子流确定与第二终端装置(例如,终端装置14B)相关联的混合音频数据流的部分。在一些情况下,与第一终端装置及与第二终端装置相关联的混合音频数据流的部分重叠,例如在使用终端装置14A和14B的参与者同时(或彼此并发)讲话时。
终端装置14C可基于与其它终端装置相关联的声音将头相关传递函数(HRTF)应用于混合音频数据流的副本。HRTF是表征耳朵如何从空间中的点接收声音的响应。终端装置14C可使用用于两个耳朵的一对HRTF以合成似乎来自空间中的特定点的双声声音。举例来说,终端装置14C可将HRTF应用于左音频声道的混合音频数据流的副本以合成似乎来自空间中在终端装置14C的用户的左边的点的双声声音。类似地,终端装置14C可将HRTF应用于右音频声道的混合音频数据流的副本以合成似乎来自空间中在终端装置14C的用户的右边的点的双声声音。各种HRTF在此项技术中已知的。
终端装置14C可基于通过应用HRTF而产生的混合音频数据流的副本而产生多声道音频数据流。例如,终端装置14C可产生空间化的立体声音频数据流,以使得空间化的立体声音频数据流的左声道及右声道是基于通过应用HRTF而产生的混合音频数据流的副本。以此方式,终端装置14C可产生空间化的立体声音频数据流,以使得与第一终端装置(例如终端装置14A)相关联的声音被感知为来自空间中在与终端装置14C相关联的收听者的左边的点,且与第二终端装置(例如,终端装置14B)相关联的声音被感知为来自空间中在收听者的右边的点。终端装置14C(或另一装置)可将空间化的混合立体声音频数据流转换为模拟信号。扬声器可将模拟信号转换为可听声音。
以此方式,终端装置14C可接收混合音频数据流。终端装置14C可执行反向隐写过程以从混合音频数据流提取第一子流。所述第一子流可与参与远程会议的第一终端装置相关联。另外,终端装置14C可执行反向隐写过程以从所述混合音频数据流提取第二子流。所述第二子流可与参与所述远程会议的第二终端装置相关联。此外,终端装置14C可至少部分基于所述混合音频数据流、所述第一子流及所述第二子流而产生多声道音频数据流。上文关于终端装置14C的论述可以适当的改变适用于终端装置14中的任何其它者。
此外,以此方式,MCU 12可产生能够多声道音频回放且与不支持多声道音频回放的终端装置向后兼容的音频数据流。换句话说,混合音频数据流与经配置以用于单声回放且未经配置以用于多声道(例如,立体声)回放的终端装置兼容。此外,本发明的技术可使得终端装置14能够确定与声音相关联的来源(例如,终端装置),甚至在混合音频数据流同时包含来自多个来源的声音时也如此。举例来说,与第一终端装置相关联的声音可包含和与第二终端装置相关联的语音并发的语音。因此,通过使用隐写术嵌入子流,所述技术可实现对混合音频数据流的多声道回放及对混合音频数据流的单声回放两者。
虽然本发明中相对于仅音频远程会议(其可指未伴有视频或其它媒体的远程会议)进行描述,但可相对于视频会议(其可指伴有视频的远程会议)、在线协作式会议(其可指伴有在线呈现或协作式文档编辑及观看的远程会议)或包含来自三个或更多个参与者的音频数据的任何其它类型的会议来执行所述技术。因此,本发明中描述的技术不应在这方面受限于本发明中阐述的实例。
如上文所指示,MCU 12可接收由终端装置14检测及俘获的声音的单声表示。在其它实例中,MCU 12可接收由终端装置14检测及俘获的声音的立体声表示。在此些实例中,MCU 12可将所述立体声表示转换为单声表示且处理所得的单声表示,如上文所描述。
图2是说明执行本发明中描述的技术的各种方面的实例性MCU 12的框图。在图2的实例中,MCU 12包括音频解码器50A、音频解码器50B、求和器52、高质量(HQ)编码器54、低质量(LQ)编码器56A、LQ编码器56B及水印单元58。
音频解码器50A接收及解码来自终端装置的音频数据流。例如,音频解码器50A可接收及解码来自终端装置14A的在图1中由箭头16A指示的音频数据流。音频解码器50B接收及解码来自不同终端装置的音频数据流。例如,音频解码器50B可接收及解码来自终端装置14B的在图1中由箭头16B指示的音频数据流。音频解码器50A及50B可使用各种音频及/或话音译码过程来解码音频数据流。例如,音频解码器50A及/或50B可使用码激励线性预测(CELP)译码、Codec2译码、自适应多速率宽带(AMR-WB)译码、Speex译码或另一形式的话音或音频数据压缩来解码音频数据流。
求和器52可从音频解码器50A及50B接收音频数据流。求和器52可产生混合音频数据流60。混合音频数据流60可包含由所述音频数据流表示的声音的混合的单声表示。在一些实例中,求和器52可通过添加音频数据流的音频样本而产生混合音频数据流60。
HQ编码器54可编码混合音频数据流60。HQ编码器54可编码混合音频数据流60以使得由混合音频数据流表示的声音保持(相当)高保真度(其可涉及质量)。此外,在一些实例中,HQ编码器54将数据压缩应用于混合音频数据流60。举例来说,HQ编码器54可使用CELP译码、Codec2译码、自适应多速率宽带(AMR-WB)译码、Speex译码或另一形式的话音或音频数据压缩来编码混合音频数据流60。
LQ编码器56A可从音频解码器50A接收音频数据流。LQ编码器56A可处理所述音频数据流以产生子流。LQ编码器56A可以各种方式产生子流。例如,LQ编码器56A可产生是音频数据流的(相当)低质量版本的子流。举例来说,在此实例中,LQ编码器56A可部分通过量化音频数据流中的音频样本的值以减小音频样本的位深度而产生所述子流。在另一实例中,LQ编码器56A可减小音频数据流的取样速率。在一些实例中,LQ编码器56A可通过消除音频数据流的音频样本而减小所述取样速率。此外,在一些实例中,LQ编码器56A可将例如CELP译码、Codec2译码或另一形式的话音或音频数据压缩等数据压缩应用于音频数据流。在另一实例中,所述子流可仅指示音频数据流的增益。在一些实例中,LQ编码器56A可与由HQ编码器54产生的高质量混合的参数区别地译码子流的参数。LQ编码器56B可从音频解码器50B接收音频数据流且可以与LQ编码器56A类似的方式处理所述音频数据流。
在图2的实例中,水印单元58从LQ编码器56A及56B接收子流。另外,水印单元58从HQ编码器54接收高质量混合音频数据流。水印单元58可修改所述混合音频数据流以将子流隐写地嵌入到混合音频数据流中。水印单元58可使用上文描述的隐写技术中的任一者或其它技术将所述子流嵌入到混合音频数据流中。水印单元58可输出经修改的混合音频数据流。水印仅是发射子流的个别描述的一种方式。在其它实例中,可在替代性媒体流中发射所述子流。
虽然在图2的实例中未展示,但MCU 12可从一或多个额外终端装置接收音频数据流。例如,MCU 12可从三个或更多个终端装置接收音频数据流。在此实例中,MCU 12可编码来自额外终端装置的单声道音频数据流以产生与所述额外终端装置相关联的子流。另外,MCU 12可将来自所述额外终端装置的单声道音频数据流添加到混合音频数据流中且编码所得的混合音频数据流。MCU 12可随后使用隐写技术将与所述额外终端装置相关联的子流嵌入到经编码混合音频数据流中。
图2仅是实例且MCU 12可以除图2中展示的方式之外的方式实施。举例来说,在其它实例中,MCU 12可包含更多、更少或不同的组件。在图2的实例中,MCU 12包含LQ编码器56A及LQ编码器56B。在其它实例中,终端装置14可提供LQ编码器56A及56B的功能性。换句话说,终端装置14可产生所述子流。在此些实例中,终端装置14可除了将常规质量音频数据流发送到MCU 12之外还将子流发送到MCU 12。在一些实例中,终端装置14可将所述子流隐写地嵌入到所述常规质量音频数据流中。
图3是说明在执行本发明中描述的技术的各种方面中的终端装置14中的一者的实例的框图。终端装置14可表示图1的实例中说明的终端装置14A、14B或14C中的任一者。图3仅是实例且终端装置14可以除图3中展示的方式之外的方式实施。举例来说,在其它实例中,终端装置14可包含更多、更少或不同的组件。
在图3的实例中,终端装置14包括麦克风100、音频编码器102、网络接口104及音频解码器106。终端装置14还包含一组扬声器108A及108B(统称为“扬声器108”)。麦克风100俘获终端装置14附近的声音。例如,麦克风100可检测及俘获用户的话音或语音的声音。麦克风100基于所检测到的声音而产生电信号。音频编码器102将由麦克风100产生的电信号转换为音频数据流110。音频数据流110可为由图1中的箭头16指示的音频数据流中的一者。音频数据流110可包含所检测到的声音的单声表示。在一些实例中,音频编码器102可对音频数据流110执行各种类型的数据压缩以减小音频数据流的位速率。网络接口104可将音频数据流110发射到MCU,例如MCU 12(图1)。
除了将音频数据流110发射到MCU 12之外,网络接口104可从MCU 12接收混合音频数据流112。混合音频数据流112可为由图1中的箭头18指示的混合音频数据流中的一者。网络接口104可将混合音频数据流提供到音频解码器106。音频解码器106可根据本发明中描述的技术来处理混合音频数据流以产生驱动扬声器108重现声音的信号。
图4是说明在执行本发明中描述的技术的各种方面中的音频解码器106的实例的框图。图4仅是实例且音频解码器106可以除图4中展示的方式之外的方式实施。举例来说,在其它实例中,音频解码器106可包含更多、更少或不同的组件。在图4的实例中,音频解码器106包含HQ解码器150、LQ解码器152A、LQ解码器152B、源分离单元154A、源分离单元154B、HRTF单元156A、HRTF单元156B及立体声输出单元158。
HQ解码器150、LQ解码器152A及LQ解码器152B接收混合音频数据流。HQ解码器150可解码混合音频数据流以倒转应用于混合音频数据流的数据压缩。通过解码混合音频数据流,HQ解码器150可产生包括一连串音频样本的经解码混合音频数据流。
LQ解码器152A可执行反向隐写过程以从混合音频数据流提取子流。例如,如果在音频样本的最低有效位中将更低质量子流隐写地嵌入在混合音频数据流中,那么LQ解码器152A可解码混合音频数据流。在此实例中,LQ解码器152A可隔离音频样本的最低有效位以便提取子流。在一些实例中,由LQ解码器152A提取的子流包含在参与远程会议的终端装置中的一者处检测到的声音的单声表示。在一些实例中,LQ解码器152A解码所述子流以倒转应用于所述子流的数据压缩。例如,LQ解码器152A可将所述子流转换为一连串音频样本。LQ解码器152B可执行类似操作以提取第二子流。在一些实例中,由LQ解码器152B提取的子流包含在参与远程会议的终端装置中的另一者处检测到的声音的单声表示。
所述混合音频数据流包含与至少第一终端装置及第二终端装置相关联的声音的混合的单声表示。举例来说,由混合音频数据流表示的波形可为由通过至少第一终端装置及第二终端装置检测到的声音表示的波形的总和。源分离单元154A可从HQ解码器150接收经解码混合音频数据流、从LQ解码器152A接收子流,且从LQ解码器152B接收子流。源分离单元154A可分析经解码混合音频数据流及子流以在混合音频数据流内确定与第一终端装置相关联的声音。
例如,所述子流可指示与由第一终端装置检测到的声音相关联的增益。在此实例中,源分离单元154B可至少部分基于与由第一终端装置检测到的声音相关联的增益而确定由混合音频数据流表示的声音的某些部分可归于由第一终端装置检测到的声音。在另一实例中,所述子流可指示由第一终端装置检测到的声音的波形。在此实例中,源分离单元154A可基于由子流指示的波形而将带通滤波器应用于由混合音频数据流指示的波形。带通滤波器可抑制混合音频数据流的波形中的不对应于由第一终端装置检测到的声音的波形中的频率的频率。在另一实例中,源分离单元154A可除了从HQ解码器150接收经解码混合音频数据流及从LQ解码器152接收子流之外还从LQ解码器152B接收子流。在此实例中,源分离单元154A可使用三个音频数据流来确定与第一终端装置相关联的声音。
在另一实例中,源分离单元154A可基于所述子流且不基于来自HQ解码器150的混合音频数据流而确定与第一终端装置相关联的声音。在另一实例中,源分离单元154A可逐帧地且至少部分基于来自LQ解码器152A的子流对来自LQ解码器152B的子流的规格化的能量比率而确定与第一终端装置相关联的声音。因此,在此实例中,源分离单元154A可计算当前帧的值α。
α=NRG_LQA/(NRG_LQA+NRG_LQB)
在以上等式中,NRG_LQA是来自LQ解码器152A的子流的当前帧的能量,且NRG_LQB是来自LQ解码器152B的子流的当前帧的能量。源分离单元154A可随后至少部分通过将混合音频数据流的当前帧的音频样本乘以α而确定当前帧内的与第一终端装置相关联的声音。可通过将混合音频数据流的当前帧的音频样本乘以(1-α)而确定当前帧内的与第二终端装置相关联的声音。可通过使用所有三个信号而非两个所述信号运行源分离算法来实现更好的性能。在一些实例中,归因于子流的低位速率,所述子流可不含有足够数据以个别地解码子流,而是可仅含有足够旁侧信息来辅助源分离。在另一实例中,源分离单元154A可使用此段落的两个先前实例的组合,例如线性组合。在另一实例中,源分离单元154A可使用此段落的基于频带的实例技术(即,每一频带一个α因子)来确定与第一终端装置相关联的声音。在其它实例中,源分离单元154A可使用间距信息来执行梳状滤波以便确定与第一终端装置相关联的声音。
源分离单元154B可执行类似过程以至少部分基于来自HQ解码器150的经解码混合音频数据流、来自LQ解码器152A的子流及来自LQ解码器152B的子流而确定由混合音频数据流表示的声音的某些部分可归于第二终端装置。源分离单元154B可以类似于源分离单元154A的方式确定可归于第二终端装置的声音。
HRTF单元156A可基于与第一终端装置相关联的声音而将一或多个HRTF应用于混合音频数据流的第一副本。例如,HRTF单元156A可相对于与参与远程会议的其它终端装置相关联的声音而在混合音频数据流的第一副本内增加与第一终端装置相关联的声音的音量。此外,HRTF单元156A可在混合音频数据流的第一副本内在时间上延迟与参与远程会议的其它终端装置相关联的声音。此类音量改变及时间延迟可模仿由用户的左耳及右耳感知的声音的音量及接收时间中的差异。在一些实例中,HRTF单元156A可从源分离单元154B(或音频解码器106的其它源分离单元)接收指示与第二终端装置(或其它终端装置)相关联的声音的数据。在此些实例中,HRTF单元156A可使用此数据将进一步的HRTF应用于混合音频数据流的第一副本。HRTF单元156B可基于与第二终端装置相关联的声音而将一或多个HRTF应用于混合音频数据流的第二副本。HRTF单元156B可将类似HRTF应用于上文描述的那些。
立体声输出单元158可从HRTF单元156A接收混合音频数据流的第一副本且可从HRTF单元156B接收混合音频数据流的第二副本。立体声输出单元158可产生立体声音频数据流,所述立体声音频数据流包含混合音频数据流的第一副本以作为多声道音频数据流的左声道的部分,且可包含混合音频数据流的第二副本以作为多声道音频数据流的右声道的部分。扬声器108A(图3)可输出由左声道上的数据表示的声音。扬声器108B(图3)可输出由右声道上的数据表示的声音。
虽然在图4的实例中未展示,但音频解码器106可提取及处理两个以上子流。例如,在一些实例中,音频解码器106可包含提取第三子流的额外LQ解码器,所述第三子流包含与参与远程会议的第三终端装置相关联的声音的表示。在此实例中,额外源分离单元可基于所述第三子流而确定混合音频数据流内的可归于第三终端装置的声音。额外HRTF单元可基于与第三终端装置相关联的声音而将一或多个HRTF应用于混合音频数据流的第三副本。在此实例中,立体声输出单元158可产生多声道音频数据流,以使得多声道音频数据流的左(或右)声道是基于混合音频数据流的第三副本与混合音频数据流的第一(或第二)副本的总和。
图5是说明在执行本发明中描述的技术的各种方面中的MCU 12的实例性操作200的流程图。在图5的实例中,音频解码器50A及50B接收及解码第一和第二音频数据流(202)。求和器52可基于所述第一和第二音频数据流而产生混合音频数据流(204)。HQ编码器54可编码混合音频数据流(206)。另外,LQ编码器56A产生第一子流(208)。所述第一子流可包含第一音频数据流中表示的声音的更低质量单声表示。在一些实例中,LQ编码器56B可使用语音编码器(声码器)来执行对第一子流的数据压缩。LQ编码器56B产生第二子流(210)。所述第二子流可包含第二音频数据流中表示的声音的更低质量单声表示。在一些实例中,LQ编码器56B可使用声码器对第二子流执行数据压缩。
水印单元58可执行隐写术以将所述第一和第二子流嵌入到混合音频数据流中(212)。举例来说,水印单元58可将所述第一和第二经编码子流隐写地嵌入到经编码混合音频数据流中。MCU 12可输出混合音频数据流的所得版本(214)。
图6是说明在执行本发明中描述的技术的各种方面中的音频解码器106的实例性操作250的流程图。图5和6的流程图是实例。在其它实例中,MCU 12及音频解码器106可执行包含比图5和6的实例中展示的动作更多、更少或不同的动作的操作。
在图6的实例中,音频解码器106接收混合音频数据流(252)。另外,音频解码器106执行反向隐写过程以从所述混合音频数据流提取第一子流(254)。所述第一子流与参与远程会议的第一终端装置相关联。举例来说,所述第一子流可包含由第一终端装置检测到的声音的单声表示。音频解码器106还可执行反向隐写过程以从所述混合音频数据流提取第二子流(256)。所述第二子流与参与所述远程会议的第二终端装置相关联。举例来说,所述第二子流可包含由第二终端装置检测到的声音的单声表示。
在图6的实例中,音频解码器106至少部分基于所述混合音频数据流、所述第一子流及所述第二子流而产生多声道音频数据流(258)。音频解码器106可输出所述多声道音频数据流以用于在两个或更多个扬声器处回放(260)。
在图6的实例中,音频解码器106从混合音频数据流提取两个子流。应了解,在其它实例中,音频解码器106从混合音频数据流提取两个以上子流且基于所述混合音频数据流及所述所提取的子流中的每一者而产生多声道音频数据流。
在一或多个实例中,所描述的功能可以用硬件、软件、固件或其任何组合来实施。如果用软件实施,则所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包括任何促进将计算机程序从一处传送到另一处的媒体(例如,根据通信协议)的通信媒体。以此方式,计算机可读媒体大体上可对应于(1)有形计算机可读存储媒体,其是非暂时性的,或(2)通信媒体,例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用的媒体。计算机程序产品可包括计算机可读媒体。
借助于实例而非限制,此类计算机可读存储媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或任何其它可用来存储呈指令或数据结构的形式的所要的程序代码并且可由计算机存取的媒体。而且,任何连接被适当地称为计算机可读媒体。例如,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对于非暂时性的有形存储媒体。如本文所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各者的组合也应包含在计算机可读媒体的范围内。
指令可以由一或多个处理器执行,所述一或多个处理器例如是一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文所述的功能性可以在经配置用于编码和解码的专用硬件和/或软件模块内提供,或者并入在组合编解码器中。并且,可将所述技术完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示技术的装置的功能方面,但未必需要通过不同硬件单元实现。相反地,如上文所描述,各种单元可结合合适的软件和/或固件组合在编解码器硬件单元中,或者由互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已描述各种实例。这些及其它实例在所附权利要求书的范围内。

Claims (28)

1.一种用于处理音频数据的方法,其包括:
至少部分基于第一音频数据流及第二音频数据流而产生混合音频数据流,所述第一音频数据流表示与参与远程会议的第一终端装置相关联的声音,所述第二音频数据流表示与参与所述远程会议的第二终端装置相关联的声音;
产生是所述第一音频数据流的更低质量单声表示的第一子流,其中产生所述第一子流包括使用声码器对所述第一音频数据流执行数据压缩;
产生是所述第二音频数据流的更低质量单声表示的第二子流,其中产生所述第二子流包括使用所述声码器对所述第二音频数据流执行数据压缩;
至少部分通过将所述第一子流及所述第二子流隐写地嵌入到所述混合音频数据流中而产生经修改的混合音频数据流,以使得所述经修改的混合音频数据流支持单声道音频回放及立体声音频回放两者;及
将所述经修改的混合音频数据流输出到参与所述远程会议的第三终端装置。
2.根据权利要求1所述的方法,
其中与所述经修改的混合音频数据流相关联的音频失真的量和与在嵌入所述第一子流和所述第二子流之前的所述混合音频数据流相关联的音频失真的量之间的差异小于失真阈值;且
其中所述经修改的混合音频数据流的位速率不大于在嵌入所述第一子流和所述第二子流之前的所述混合音频数据流的位速率。
3.根据权利要求1所述的方法,其中产生所述经修改的混合音频数据流包括:
将一种形式的数据压缩应用于所述混合音频数据流;及
将所述第一子流和所述第二子流隐写地嵌入到所述混合音频数据流中。
4.根据权利要求1所述的方法,其中所述第一子流具有比所述第一音频数据流更低的位速率,且所述第二子流具有比所述第二音频数据流更低的位速率。
5.根据权利要求1所述的方法,其中产生所述经修改的混合音频数据流包括修改所述混合音频数据流的音频样本的最低有效位以指示所述第一子流和所述第二子流。
6.一种用于处理音频数据的方法,其包括:
执行反向隐写过程以从混合音频数据流提取第一子流,其中所述第一子流是表示与参与远程会议的第一终端装置相关联的声音的第一音频数据流的更低质量单声表示,其中所述第一子流是使用声码器对所述第一音频数据流执行数据压缩而产生;
执行反向隐写过程以从所述混合音频数据流提取第二子流,其中所述第二子流是表示与参与所述远程会议的第二终端装置相关联的声音的第二音频数据流的更低质量单声表示,其中所述第二子流是使用所述声码器对所述第二音频数据流执行数据压缩而产生;及
至少部分基于所述混合音频数据流、所述第一子流及所述第二子流而产生多声道音频数据流。
7.根据权利要求6所述的方法,其中:
所述混合音频数据流包含与所述第一终端装置相关联的所述声音及与所述第二终端装置相关联的所述声音的混合的单声表示,且
产生所述多声道音频数据流包括产生空间化的立体声音频数据流,以使得与所述第一终端装置相关联的所述声音被感知为来自在收听者的左边的空间点,且与所述第二终端装置相关联的所述声音被感知为来自在所述收听者的右边的空间点。
8.根据权利要求7所述的方法,其中产生所述空间化的立体声音频数据流包括:
至少部分基于所述第一子流而确定与所述第一终端装置相关联的所述声音;
至少部分基于所述第二子流而确定与所述第二终端装置相关联的所述声音;
至少部分基于与所述第一终端装置相关联的所述声音而将头相关传递函数HRTF应用于所述混合音频数据流的第一副本,其中所述空间化的立体声音频数据流的左声道至少部分基于所述混合音频数据流的所述第一副本;及
至少部分基于与所述第二终端装置相关联的所述声音而将所述HRTF应用于所述混合音频数据流的第二副本,其中所述空间化的立体声音频数据流的右声道至少部分基于所述混合音频数据流的所述第二副本。
9.根据权利要求7所述的方法,其中与所述第一终端装置相关联的所述声音包含与和所述第二终端装置相关联的语音并发的语音。
10.根据权利要求6所述的方法,其中所述混合音频数据流的音频样本的最低有效位指示所述第一子流和所述第二子流。
11.根据权利要求6所述的方法,其中所述第一子流和所述第二子流的位速率小于所述混合音频数据流的位速率。
12.根据权利要求6所述的方法,其中所述混合音频数据流与经配置以用于单声回放及未经配置以用于立体声回放的终端装置兼容。
13.一种多方控制单元MCU,其包括:
一或多个处理器,其经配置以:
至少部分基于第一音频数据流及第二音频数据流而产生混合音频数据流,所述第一音频数据流表示与参与远程会议的第一终端装置相关联的声音,所述第二音频数据流表示与参与所述远程会议的第二终端装置相关联的声音;
产生是所述第一音频数据流的更低质量单声表示的第一子流,其中产生所述第一子流包括使用声码器对所述第一音频数据流执行数据压缩;
产生是所述第二音频数据流的更低质量单声表示的第二子流,其中产生所述第二子流包括使用所述声码器对所述第二音频数据流执行数据压缩;
至少部分通过将所述第一子流及所述第二子流隐写地嵌入到所述混合音频数据流中而产生经修改的混合音频数据流,以使得所述经修改的混合音频数据流支持单声道音频回放及立体声音频回放两者;及
将所述经修改的混合音频数据流输出到参与所述远程会议的第三终端装置。
14.根据权利要求13所述的MCU,
其中与所述经修改的混合音频数据流相关联的音频失真的量和与在嵌入所述第一子流和所述第二子流之前的所述混合音频数据流相关联的音频失真的量之间的差异小于失真阈值;且
其中所述经修改的混合音频数据流的位速率不大于在嵌入所述第一子流和所述第二子流之前的所述混合音频数据流的位速率。
15.根据权利要求13所述的MCU,其中所述一或多个处理器经配置以:
将一种形式的数据压缩应用于所述混合音频数据流;及
将所述第一子流和所述第二子流隐写地嵌入到所述混合音频数据流中。
16.根据权利要求13所述的MCU,其中所述第一子流具有比所述第一音频数据流更低的位速率,且所述第二子流具有比所述第二音频数据流更低的位速率。
17.根据权利要求13所述的MCU,其中所述一或多个处理器经配置以至少部分通过修改所述混合音频数据流的音频样本的最低有效位以指示所述第一子流和所述第二子流而产生所述经修改的混合音频数据流。
18.一种终端装置,其包括:
一或多个处理器,其经配置以:
执行反向隐写过程以从混合音频数据流提取第一子流,其中所述第一子流是表示与参与远程会议的第一终端装置相关联的声音的第一音频数据流的更低质量单声表示,其中所述第一子流是使用声码器对所述第一音频数据流执行数据压缩而产生;
执行反向隐写过程以从所述混合音频数据流提取第二子流,其中所述第二子流是表示与参与所述远程会议的第二终端装置相关联的声音的第二音频数据流的更低质量单声表示,其中所述第二子流是使用所述声码器对所述第二音频数据流执行数据压缩而产生;及
至少部分基于所述混合音频数据流、所述第一子流及所述第二子流而产生多声道音频数据流。
19.根据权利要求18所述的终端装置,其中:
所述混合音频数据流包含与所述第一终端装置相关联的所述声音及与所述第二终端装置相关联的所述声音的混合的单声表示,且
所述一或多个处理器经配置以至少部分通过产生空间化的立体声音频数据流而产生所述多声道音频数据流,以使得与所述第一终端装置相关联的所述声音被感知为来自在收听者的左边的空间点,且与所述第二终端装置相关联的所述声音被感知为来自在所述收听者的右边的空间点。
20.根据权利要求19所述的终端装置,其中所述一或多个处理器经配置以:
至少部分基于所述第一子流而确定与所述第一终端装置相关联的所述声音;
至少部分基于所述第二子流而确定与所述第二终端装置相关联的所述声音;
至少部分基于与所述第一终端装置相关联的所述声音而将头相关传递函数HRTF应用于所述混合音频数据流的第一副本,其中所述空间化的立体声音频数据流的左声道至少部分基于所述混合音频数据流的所述第一副本;及
至少部分基于与所述第二终端装置相关联的所述声音而将所述HRTF应用于所述混合音频数据流的第二副本,其中所述空间化的立体声音频数据流的右声道至少部分基于所述混合音频数据流的所述第二副本。
21.根据权利要求19所述的终端装置,其中与所述第一终端装置相关联的所述声音包含与和所述第二终端装置相关联的语音并发的语音。
22.根据权利要求18所述的终端装置,其中所述混合音频数据流的音频样本的最低有效位指示所述第一子流和所述第二子流。
23.根据权利要求18所述的终端装置,其中所述第一子流和所述第二子流的位速率小于所述混合音频数据流的位速率。
24.根据权利要求18所述的终端装置,其中所述混合音频数据流与经配置以用于单声回放及未经配置以用于立体声回放的终端装置兼容。
25.一种用于处理音频数据的装置,其包括:
用于至少部分基于第一音频数据流及第二音频数据流而产生混合音频数据流的装置,所述第一音频数据流表示与参与远程会议的第一终端装置相关联的声音,所述第二音频数据流表示与参与所述远程会议的第二终端装置相关联的声音;
用于产生是所述第一音频数据流的更低质量单声表示的第一子流的装置,其中产生所述第一子流包括使用声码器对所述第一音频数据流执行数据压缩;
用于产生是所述第二音频数据流的更低质量单声表示的第二子流的装置,其中产生所述第二子流包括使用所述声码器对所述第二音频数据流执行数据压缩;
用于以下操作的装置:至少部分通过将所述第一子流及所述第二子流隐写地嵌入到所述混合音频数据流中而产生经修改的混合音频数据流,以使得所述经修改的混合音频数据流支持单声道音频回放及立体声音频回放两者;及
用于将所述经修改的混合音频数据流输出到参与所述远程会议的第三终端装置的装置。
26.一种用于处理音频数据的装置,其包括:
用于执行反向隐写过程以从混合音频数据流提取第一子流的装置,其中所述第一子流是表示与参与远程会议的第一终端装置相关联的声音的第一音频数据流的更低质量单声表示,其中所述第一子流是使用声码器对所述第一音频数据流执行数据压缩而产生;
用于执行反向隐写过程以从所述混合音频数据流提取第二子流的装置,其中所述第二子流是表示与参与所述远程会议的第二终端装置相关联的声音的第二音频数据流的更低质量单声表示,其中所述第二子流是使用所述声码器对所述第二音频数据流执行数据压缩而产生;及
用于至少部分基于所述混合音频数据流、所述第一子流及所述第二子流而产生多声道音频数据流的装置。
27.一种存储指令的计算机可读存储媒体,所述指令在由装置的一或多个处理器执行时配置所述装置以:
至少部分基于第一音频数据流及第二音频数据流而产生混合音频数据流,所述第一音频数据流表示与参与远程会议的第一终端装置相关联的声音,所述第二音频数据流表示与参与所述远程会议的第二终端装置相关联的声音;
产生是所述第一音频数据流的更低质量单声表示的第一子流,其中产生所述第一子流包括使用声码器对所述第一音频数据流执行数据压缩;
产生是所述第二音频数据流的更低质量单声表示的第二子流,其中产生所述第二子流包括使用所述声码器对所述第二音频数据流执行数据压缩;
至少部分通过将所述第一子流及所述第二子流隐写地嵌入到所述混合音频数据流中而产生经修改的混合音频数据流,以使得所述经修改的混合音频数据流支持单声道音频回放及立体声音频回放两者;及
将所述经修改的混合音频数据流输出到参与所述远程会议的第三终端装置。
28.一种存储指令的计算机可读存储媒体,所述指令在由装置的一或多个处理器执行时配置所述装置以:
执行反向隐写过程以从混合音频数据流提取第一子流,其中所述第一子流是表示与参与远程会议的第一终端装置相关联的声音的第一音频数据流的更低质量单声表示,其中所述第一子流是使用声码器对所述第一音频数据流执行数据压缩而产生;
执行反向隐写过程以从所述混合音频数据流提取第二子流,其中所述第二子流是表示与参与所述远程会议的第二终端装置相关联的声音的第二音频数据流的更低质量单声表示,其中所述第二子流是使用所述声码器对所述第二音频数据流执行数据压缩而产生;及
至少部分基于所述混合音频数据流、所述第一子流及所述第二子流而产生多声道音频数据流。
CN201480008134.6A 2013-02-20 2014-01-23 使用隐写地嵌入的音频数据的远程会议 Expired - Fee Related CN105191269B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/771,957 2013-02-20
US13/771,957 US9191516B2 (en) 2013-02-20 2013-02-20 Teleconferencing using steganographically-embedded audio data
PCT/US2014/012788 WO2014130199A1 (en) 2013-02-20 2014-01-23 Teleconferencing using steganographically-embedded audio data

Publications (2)

Publication Number Publication Date
CN105191269A CN105191269A (zh) 2015-12-23
CN105191269B true CN105191269B (zh) 2017-11-21

Family

ID=50102216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480008134.6A Expired - Fee Related CN105191269B (zh) 2013-02-20 2014-01-23 使用隐写地嵌入的音频数据的远程会议

Country Status (5)

Country Link
US (1) US9191516B2 (zh)
EP (1) EP2959669B1 (zh)
JP (1) JP6342429B2 (zh)
CN (1) CN105191269B (zh)
WO (1) WO2014130199A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9407738B2 (en) * 2014-04-14 2016-08-02 Bose Corporation Providing isolation from distractions
EP3018877B1 (en) * 2014-11-10 2018-01-10 Motorola Solutions, Inc. Methods and systems for joining a sub-talkgroup of a first talkgroup
US9596538B2 (en) * 2014-12-12 2017-03-14 Intel Corporation Wearable audio mixing
US20180238994A1 (en) * 2015-02-23 2018-08-23 Universidade Do Porto Positioning system and method with steganographic encoded data streams in audible-frequency audio
US9800972B2 (en) * 2015-04-05 2017-10-24 Nicholaus J. Bauer Distributed audio system
CN105280192B (zh) * 2015-11-23 2019-04-05 北京华夏电通科技有限公司 基于多路声音编码的三方远程通讯中回声消除方法及系统
JP2017168822A (ja) 2016-02-12 2017-09-21 ヴァイアヴィ・ソリューションズ・インコーポレイテッドViavi Solutions Inc. センサデバイスの製造方法
US10419511B1 (en) 2016-10-04 2019-09-17 Zoom Video Communications, Inc. Unique watermark generation and detection during a conference
KR20200035396A (ko) * 2017-08-10 2020-04-03 소니 주식회사 송신 장치, 송신 방법, 수신 장치, 및 수신 방법
US11662975B2 (en) * 2020-10-06 2023-05-30 Tencent America LLC Method and apparatus for teleconference
US20230216897A1 (en) * 2021-12-30 2023-07-06 Harman International Industries, Incorporated In-vehicle communications and media mixing

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6457043B1 (en) * 1998-10-23 2002-09-24 Verizon Laboratories Inc. Speaker identifier for multi-party conference
JP4178647B2 (ja) * 1999-02-15 2008-11-12 松下電器産業株式会社 デジタル情報埋込み・抽出装置および方法並びに当該方法を実行するためのプログラムを記録した記録媒体
US20030035553A1 (en) 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7158624B1 (en) 2002-06-17 2007-01-02 Cisco Technology, Inc. Methods and apparatus for selectively including an audio signal component within an audio output signal
CN100423584C (zh) * 2002-10-03 2008-10-01 皇家飞利浦电子股份有限公司 编码和解码媒体信号
CN1894743A (zh) 2003-12-19 2007-01-10 皇家飞利浦电子股份有限公司 水印嵌入
KR101079066B1 (ko) * 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
JP4804014B2 (ja) * 2005-02-23 2011-10-26 沖電気工業株式会社 音声会議装置
JP4548147B2 (ja) * 2005-02-23 2010-09-22 沖電気工業株式会社 音声会議システム及び話者特定用処理装置
US8090586B2 (en) * 2005-05-26 2012-01-03 Lg Electronics Inc. Method and apparatus for embedding spatial information and reproducing embedded signal for an audio signal
ES2376889T3 (es) * 2006-03-24 2012-03-20 Dolby International Ab Generación de mezclas descendentes espaciales a partir de representaciones paramétricas de señales multicanal
EP2009892B1 (fr) * 2007-06-29 2019-03-06 Orange Positionnement de locuteurs en conférence audio 3D
GB2452021B (en) 2007-07-19 2012-03-14 Vodafone Plc identifying callers in telecommunication networks
TW200945098A (en) 2008-02-26 2009-11-01 Koninkl Philips Electronics Nv Method of embedding data in stereo image
WO2010045869A1 (zh) 2008-10-20 2010-04-29 华为终端有限公司 一种3d音频信号处理的方法、系统和装置
JP2010166425A (ja) * 2009-01-16 2010-07-29 Nec Corp 多地点会議システム、サーバ装置、音声ミキシング装置、及び多地点会議サービス提供方法
WO2010103442A1 (en) * 2009-03-13 2010-09-16 Koninklijke Philips Electronics N.V. Embedding and extracting ancillary data
FR2944403B1 (fr) 2009-04-10 2017-02-03 Inst Polytechnique Grenoble Procede et dispositif de formation d'un signal mixe, procede et dispositif de separation de signaux, et signal correspondant
US8351589B2 (en) 2009-06-16 2013-01-08 Microsoft Corporation Spatial audio for audio conferencing
US9767822B2 (en) 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and decoding a watermarked signal
US8880404B2 (en) 2011-02-07 2014-11-04 Qualcomm Incorporated Devices for adaptively encoding and decoding a watermarked signal
US9767823B2 (en) 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and detecting a watermarked signal
JP5912294B2 (ja) * 2011-05-26 2016-04-27 シャープ株式会社 テレビ会議装置

Also Published As

Publication number Publication date
JP2016514394A (ja) 2016-05-19
JP6342429B2 (ja) 2018-06-13
EP2959669A1 (en) 2015-12-30
CN105191269A (zh) 2015-12-23
WO2014130199A1 (en) 2014-08-28
EP2959669B1 (en) 2019-04-03
US20140233716A1 (en) 2014-08-21
US9191516B2 (en) 2015-11-17

Similar Documents

Publication Publication Date Title
CN105191269B (zh) 使用隐写地嵌入的音频数据的远程会议
Herre et al. MPEG spatial audio object coding—the ISO/MPEG standard for efficient coding of interactive audio scenes
CN101517637B (zh) 音频编解码器 、编解码方法、 集线器、 发送接收器、 发送接收方法、通信系统、 播放设备
JP5646699B2 (ja) マルチチャネル・パラメータ変換のための装置および方法
JP4838361B2 (ja) オーディオ信号のデコーディング方法及びその装置
TWI396187B (zh) 用於將以物件為主之音訊信號編碼與解碼之方法與裝置
CN103649706A (zh) 三维音频音轨的编码及再现
TW200818122A (en) Concept for combining multiple parametrically coded audio sources
Herre et al. From SAC to SAOC—recent developments in parametric coding of spatial audio
KR20220042166A (ko) Ivas 비트스트림들의 인코딩 및 디코딩
CN114600188A (zh) 用于音频编码的装置和方法
EP2359365A1 (en) Apparatus and method for encoding at least one parameter associated with a signal source
EP3948862A1 (en) Audio codec extension
Sen et al. Efficient compression and transportation of scene-based audio for television broadcast
Purnhagen et al. Immersive audio delivery using joint object coding
Engdegård et al. MPEG spatial audio object coding—the ISO/MPEG standard for efficient coding of interactive audio scenes
CN102576531A (zh) 用于处理多信道音频信号的方法、设备和计算机程序
CN111445914A (zh) 可拆解和再编辑音频信号的处理方法及装置
US8838460B2 (en) Apparatus for playing and producing realistic object audio
WO2024052499A1 (en) Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata
WO2024051954A1 (en) Encoder and encoding method for discontinuous transmission of parametrically coded independent streams with metadata
Arnault et al. On-The-Fly Auditory Masking for Scalable VoIP Bridges

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171121

Termination date: 20220123

CF01 Termination of patent right due to non-payment of annual fee