CN102016982A - 结合装置、远程通信系统以及结合方法 - Google Patents
结合装置、远程通信系统以及结合方法 Download PDFInfo
- Publication number
- CN102016982A CN102016982A CN201080001336XA CN201080001336A CN102016982A CN 102016982 A CN102016982 A CN 102016982A CN 201080001336X A CN201080001336X A CN 201080001336XA CN 201080001336 A CN201080001336 A CN 201080001336A CN 102016982 A CN102016982 A CN 102016982A
- Authority
- CN
- China
- Prior art keywords
- mentioned
- stream
- parameter
- charlatan
- website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 51
- 238000004891 communication Methods 0.000 title description 6
- 230000008878 coupling Effects 0.000 claims description 77
- 238000010168 coupling process Methods 0.000 claims description 77
- 238000005859 coupling reaction Methods 0.000 claims description 77
- 230000005540 biological transmission Effects 0.000 claims description 43
- 230000000576 supplementary effect Effects 0.000 claims description 43
- 230000000694 effects Effects 0.000 claims description 21
- 238000013139 quantization Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 21
- 238000001228 spectrum Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 32
- 230000015572 biosynthetic process Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 26
- 238000000605 extraction Methods 0.000 description 13
- 239000000203 mixture Substances 0.000 description 13
- 230000036961 partial effect Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000013461 design Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 230000008929 regeneration Effects 0.000 description 3
- 238000011069 regeneration method Methods 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明的结合装置(305)具备:检测部(501),在规定的时间内,对多个编码比特流(116)中的、作为有效的编码比特流的有效编码比特流进行检测;第一结合部(504),仅对多个降混子流(115)中的、多个有效编码比特流所包含的多个降混子流(115)进行结合,由此生成结合降混子流(121);第二结合部(506),仅对多个参数子流(113)中的、多个有效编码比特流所包含的多个参数子流(113)进行结合,由此生成结合参数子流(122)。
Description
技术领域
本发明涉及结合装置、远程通信系统以及结合方法,尤其关于结合装置,该结合装置将包含有多个音频输入信号被降混(downmix:下行混合)后的降混子流和用于将该降混子流恢复为多个音频输入信号的参数子流并从多个站点的每一个发送的多个编码比特流进行结合。
背景技术
近年,参量编码技术,由于其较高的编码效率以及音像再生的优点,在音频编码领域中非常积极地发展。当与传统的波形编码方法进行比较时,参量编码方法不仅能够扩大人的听觉系统的极限,而且能够通过捕捉声音场景而能够将音频输入信号模型化。在该技术领域中,作为公知技术具有与参量立体声以及MPEG环绕相关联的编码方法。
图1表示典型的参量编码装置100。图1所示的参量编码装置100具有T-F(时间-频率)转换部101、分析器102、F-T(频率-时间)转换部103和降混编码器104。
T-F转换部101将作为时间信号的多个音频输入信号110转换为多个频率信号111。
分析器102通过2种方法对所转换的频率信号111进行分析。该分析器102具备降混部102A和参数提取部102B。
降混部102A根据从多个频率信号111生成非立体声或立体声的中间降混信号112。参数提取部102B从多个频率信号111中提取参数,并输出包含提取的参数的参数子流。
F-T转换部103为,通过将中间降混信号112逆转换到时间域,由此生成降混时间信号114。
降混编码器104对降混时间信号114进行压缩,并输出包含压缩后的信号的降混子流115。
如此,该被参量编码的音频流,包含降混子流115以及与其对应的参数子流113。
另外,实际上这2个子流被复用为单一的音频流。但是,为了使后述的说明容易理解,对于编码器中的复用处理以及解码器中的逆复用处理,省略说明。
图2表示典型的参量译码装置200。该参量译码装置200具备降混解码器201、T-F转换部202、参数合成部203和F-T转换部204。
降混解码器201将接收的降混子流115译码为单声道或立体声的时间信号213。
T-F转换部202通过将时间信号213再次转换到参量分析域,由此生成频率信号214。
参数合成部203按照从接收的参数子流113导出的信息而对频率信号214进行合成,由此生成多个转换信号215。
F-T转换部204将转换信号215逆转换到时间域由此生成多个音频输出信号216。该多个音频输出信号216知觉地表示作为单一的信号输入的相同空间的音像。
上述的编码步骤表示参量编码器的2个特征。即,这2个特征为,从发送信道数的削减得到的较高的编码效率、以及通过空间地关联的参数的合成而实现的真实的有声场景的再构建。
由于这2个特征,参量编码器尤其优选在远程通信系统中采用。这种系统中的各通信站点,将来自多个说话者的多个音频输入信号110作为输入,通常即使在远处也能够期待得到真实的临场感的效果。
图3是表示包括4个远程会议站点301A~301D的远程通信系统300的图。另外,在不特别地区别站点301A~301D的情况下,记为站点301。
在各站点301(例如站点301A)中,采用参量解码器。该站点301将取得的音频输入信号110的全部进行参量编码,由此生成编码比特流116(包含降混子流DmxA以及参数子流ParasA)。并且,所生成的编码比特流116被发送到其他3个站点301B~301D。
另一方面,各站点301对接收的编码比特流116分别进行参量译码(该编码比特流116包含3个降混子流DmxB、DmxC以及DmxD、和3个参数子流ParasB、ParasC以及ParasD)。
但是,一般来说,为了满足设置要求并将发送频带较低地保持为妥当的程度,难以从多个发送站点向单一的接收站点原样地发送多个编码比特流116。因此,各站点301为了可靠地对单一的音频流进行接收、发送,而导入结合装置(多地点连接装置:MCU305)并与所有站点301A~301D连接。
该MCU305,为了各站点301,而通过运算效率较好的方法,将接收的多个编码比特流116与单一的结合比特流124结合。理想上,结合比特流124应该近似与如下的流:来自其他站点301的多个编码比特流116的全部在单一的虚拟站点中被编码。
为了实现该情况,能够设计如图4所示那样的简单的结合方法。图4是表示MCU305的功能构成的框图。如图4所示,MCU305具备3个独立的参量解码器401~403、加法部404以及参量编码器405。
3个参量解码器401~403,为了各站点301(例如站点301A),通过对来自其他站点301(站点301B、301C以及301D)的编码比特流116的全部进行译码,由此生成时间域的译码信号411B、411C以及411D。
加法部404通过对所生成的译码信号411B、411C以及411D进行加法,而生成加法信号412。
参量编码器405通过对加法信号412进行再编码,而生成结合比特流124。
可知在这种简单的事例中,在连接N个站点的远程通信系统中,MCU305也需要进行N个独立的串联参量译码以及编码的过程。结果,MCU305的运算量变多,由此信号传送的延迟量增加。并且,该运算量随着站点数量的增加而线性地增加。因此,在MCU305中,难以执行需要实时处理的应用。
并且,在设计延迟时间较少、运算量较少的MCU305时,需要进一步利用参量编码的优点。即,其音频流格式能够实现的功能为,通过运算上有效的方法将2个以上的流结合成单一的信号流。更详细地,能够将该降混子流在降混编码域中进行结合,并且能够将参数子流在参数分析域中进行结合。
在现有技术中具有多个有效的进行MCU的设计的同样的方法。
例如,专利文献1提出一种将多个参量编码音频信号有效地结合的方法。但是,在专利文献1中,为了追求简洁,而使降混结合与参数结合相独立。并且,在该降混结合方法中,仅示出了使用了非常粗糙的结合方法的不常用的方法。并且,在该参数结合方法中,没有对应使用不同参数分析域时的课题。
专利文献1:美国专利申请公开第2008/0008323号说明书
非专利文献1:S.-W.Huang等,“A low complexity design of psycho-acoustic model for MPEG-2/4 advanced audio coding”,IEEE Trans.on consumer electronics,Nov.2004
非专利文献2:T-H Tsai等,“An MDCT-based psychoacou-stic model co-processor design for MPEG-2/4 AAC audio encoder”,Proc.Of the 7th Int.Conference on digital audio effects,2004
非专利文献3:I.Dimkoviae等,“Fast software implemen-tation of MPEG advanced audio encoder”,14 th Int.Conference on DSP,2002
参量音频编码方法由于其较高的编码效率以及声音场景再生的特征,在实际的通信系统中是优选的。为了实现该提纲,必须组入某个实际的课题。即,将被参量编码的多个音频流尽量以低运算量结合成单一的流。
发明内容
因此,本发明的目的为提供一种能够降低运算量的结合装置。
为了实现上述目的,本发明的一个方式的结合装置为,将从多个站点的每一个发送多个编码比特流进行结合,该编码比特流包含多个音频输入信号被降混的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流,该结合装置的特征为,具备:检测部,在规定的时间内,对上述多个编码比特流中的、作为有效的编码比特流的有效编码比特流进行检测;第一结合部,仅对多个上述降混子流中的、多个上述有效编码比特流所包含的多个上述降混子流进行结合,由此生成结合降混子流;第二结合部,仅对多个上述参数子流中的、多个上述有效编码比特流所包含的多个上述参数子流进行结合,由此生成结合参数子流;以及发送部,将包含上述结合降混子流和上述结合参数子流的结合比特流向上述多个站点发送。
根据该构成,本发明的一个方式的结合装置,对于非活动的编码比特流不进行结合处理。由此,本发明的一个方式的结合装置,通过考虑各站点是否为活动,而能够降低运算量。
并且,也可以为,上述第一结合部具备:译码部,仅对上述多个降混子流中的、上述有效编码比特流所包含的上述降混子流进行译码,由此生成多个译码降混子流;加法部,对上述多个译码降混子流进行加法,由此生成1个以上的中间结合降混子流;以及编码部,对上述1个以上的中间结合降混子流进行编码,由此生成1个以上的上述结合降混子流。
根据该构成,本发明的一个方式的结合装置,对于非活动的编码比特流不进行结合处理。如此,本发明的一个方式的结合装置能够降低运算量。
并且,也可以为,上述第一结合部,对于上述多个站点的每一个,对上述多个有效编码比特流所包含的上述多个降混子流中的、从该站点以外的站点发送的多个降混子流进行结合,由此生成与该站点相对应的结合降混子流;上述第二结合部对于上述多个站点的每一个,对上述多个有效编码比特流所包含的上述多个参数子流中的、从该站点以外的站点发送的多个参数降混子流进行结合,由此生成与该站点相对应的结合参数子流;上述发送部将包含上述结合降混子流以及上述结合参数子流的结合比特流,向对应的站点发送;上述多个编码比特流中的、作为上述有效编码比特流以外的编码比特流的非有效编码比特流的数量为2以上的情况下,(1)上述第一结合部对所有的有效编码比特流所包含的多个降混子流进行结合,由此生成共通结合降混子流;(2)上述第二结合部,对所有的有效编码比特流所包含的多个参数子流进行结合,由此生成共通结合参数子流;(3)上述发送部,将包含上述共通结合降混子流以及上述共通结合参数子流的共通结合比特流,向上述2以上的非有效编码比特流的发送源的站点发送。
根据该构成,本发明的一个方式的结合装置,在存在多个非活动的站点的情况下,对于该多个非活动的站点,发送共通的结合比特流。由此,本发明的一个方式的结合装置,能够削减结合处理的次数,因此能够降低运算量。
并且,也可以为在上述有效编码比特流的数量为2的情况下,上述发送部将上述2个有效编码比特流的一方、即第一编码比特流,原样地向上述2个有效编码比特流的另一方、即第二编码比特流的发送源的站点发送,并将上述第二编码比特流原样地向上述第一编码比特流的发送源的站点发送。
根据该构成,本发明的一个方式的结合装置,在活动站点为2个的情况下,对从该活动站点发送的编码比特流原样地进行发送。由此,本发明的一个方式的结合装置,能够削减结合处理的次数,因此能够降低运算量。
并且,也可以为,在上述有效编码比特流的数量为1的情况下,上述发送部,将上述有效编码比特流原样地向该有效编码比特流的发送源的站点以外的站点发送。
根据该构成,本发明的一个方式的结合装置,在活动站点为1个的情况下,对从该活动站点发送的编码比特流原样地进行发送。由此,本发明的一个方式的结合装置,能够削减结合处理的次数,因此能够降低运算量。
并且,也可以为,上述检测部使用上述多个参数子流所包含的信息,对上述有效编码比特流进行检测。
根据该构成,本发明的一个方式的结合装置,使用参数流所包含的信息,能够容易地检测有效编码比特流。
并且,也可以为,上述第一结合部,对所有的有效编码比特流所包含的多个上述降混子流进行结合,由此生成上述单一的结合降混子流;上述第二结合部,对所有的有效编码比特流所包含的多个上述参数子流进行结合,由此生成上述单一的结合参数子流;上述发送部,将包含上述单一的结合降混子流和上述单一的结合参数子流的单一结合比特流,向上述多个站点的全部发送。
根据该构成,本发明的一个方式的结合装置,仅生成在全部站点共用的单一的结合比特流。由此,本发明的一个方式的结合装置,能够削减结合处理的次数,因此能够进一步降低运算量。
并且,也可以为,上述结合装置还具备辅助信息生成部,该辅助信息生成部对于作为上述有效编码比特流的发送源的活动站点的每一个,生成辅助信息,该辅助信息用于确定上述单一结合比特流的信号成分中、与由该活动站点发送的上述编码比特流相对应的信号成分;上述发送部将多个上述辅助信息的每一个向对应的活动站点发送。
根据该构成,各站点使用由本发明的一个方式的结合装置发送的辅助信息,能够将自站点发送的编码比特流的信号成分除外。
并且,也可以为,上述辅助信息生成部对于上述活动站点的每一个生成上述辅助信息,该辅助信息用于确定上述单一结合参数子流所包含的参数中、与由该活动站点发送的上述参数子流相对应的参数
根据该构成,各站点使用由本发明的一个方式的结合装置发送的辅助信息而对参数进行更新,由此能够将自站点发送的编码比特流的信号成分除外。
并且,也可以为,上述第二结合部具备参数基准统一部,该参数基准统一部在上述多个参数子流由不同的参数表现基准表现的情况下,将该多个参数子流的参数表现基准转换为单一的统一参数表现基准,由此生成多个统一参数;上述第二结合部对上述多个统一参数进行结合,由此生成上述结合参数子流。
根据该构成,本发明的一个方式的结合装置,在多个参数子流由不同的参数表现基准表现的情况下,也能够有效地生成结合参数子流。
并且,也可以为,上述结合装置还具备参数基准选择部,该参数基准选择部根据能够在从该结合装置向上述多个站点的发送中使用的当前的比特率,从多个参数表现基准中选择上述统一参数表现基准。
根据该构成,本发明的一个方式的结合装置,通过考虑比特率,能够将具有不同参数表现基准的参数子流有效地综合。
并且,也可以为,上述结合装置还具备参数基准选择部,该参数基准选择部根据表示上述结合参数子流的比特数的比特成本,从多个参数表现基准中选择上述统一参数表现基准。
根据该构成,本发明的一个方式的结合装置,通过考虑比特成本,能够将具有不同参数表现基准的参数子流有效地综合。
并且,也可以为,在上述多个音频输入信号被降混后,上述降混子流在被转换到频谱域的基础上,被进行编码;上述译码部,对上述降混子流进行译码,由此生成上述频谱域的上述译码降混子流;上述加法部,对上述频谱域的上述多个译码降混子流进行加法,由此生成上述1个以上的中间结合降混子流。
根据该构成,本发明的一个方式的结合装置,不将编码比特流译码到时间域。即,本发明的一个方式的结合装置,不进行时间-频率转换以及其逆转换。由此,本发明的一个方式的结合装置能够降低运算量。
并且,也可以为,上述第一结合部具备缩放部,该缩放部队上述中间结合降混子流进行缩放,以便上述多个译码降混子流的频谱功率被保存在上述中间结合降混子流中;上述编码部对通过上述缩放部所缩放的上述中间结合降混子流进行编码,由此生成上述结合降混子流。
根据该构成,本发明的一个方式的结合装置,能够将多个译码降混子流的频谱功率保存到中间结合降混子流中。
并且,也可以为,上述第二结合部具备:逆量化部,对多个参数子流进行逆量化,由此生成多个逆量化参数;参数结合部,对上述逆量化参数进行结合,由此生成结合参数;参数更新部,对上述结合参数所包含的参数中的一部分参数进行更新,由此生成更新参数;以及量化部,对上述结合参数所包含的参数中的上述一部以外的参数、和上述更新参数进行量化,由此生成上述结合参数子流。
根据该构成,本发明的一个方式的结合装置,对参数中的几个,在参量分析域中进行结合并且进行更新。由此,在本发明的一个方式的结合装置中,参数与降混子流的结合方法一致。
并且,本发明的一个方式的远程通信系统为,包括:多个站点,包括生成编码比特流的编码装置,该编码比特流包含多个音频输入信号被降混的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流;和上述结合装置,对由上述多个站点发送的多个上述编码比特流进行结合,由此生成结合比特流,并将生成的上述结合比特流向上述多个站点发送;上述多个站点的每一个还包括译码装置,该译码装置对上述结合比特流进行译码,由此生成音频输出信号。
根据该构成,本发明的一个方式的远程通信系统,对于非活动的编码比特流不进行结合处理。由此,本发明的一个方式的远程通信系统能够降低结合装置的运算量。
并且,本发明的一个方式的远程通信系统为,包括:多个站点,包括生成编码比特流的编码装置,该编码比特流包含多个音频输入信号被降混的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流;和上述结合装置,对由上述多个站点发送的多个上述编码比特流进行结合,由此生成结合比特流,并将生成的上述结合比特流向上述多个站点发送;上述多个站点的每一个还包括译码装置,该译码装置对上述结合比特流进行译码,由此生成音频输出信号;上述译码装置使用上述辅助信息,生成将上述单一结合比特流的信号成分中、与由具备该译码装置的站点发送的上述编码比特流相对应的信号成分除去了的上述音频输出信号。
根据该构成,在本发明的一个方式的远程通信系统中,各站点使用由结合装置发送的辅助信息,能够将自站点发送的编码比特流的信号成分除外。
另外,本发明不仅能够实现为这种结合装置以及远程通信系统,还能够实现为将结合装置所包括的特征性构件作为步骤的结合方法,或者实现为使计算机执行这种特征性的步骤的程序。并且,这样的程序当然能够经由CD-ROM等记录媒体以及因特网等传送媒体流通。
并且,本发明能够实现为半导体集成电路(LSI),该半导体集成电路能够实现这种结合装置或远程通信系统的功能的一部分或全部。
发明的效果:
根据以上,本发明能够提供一种结合装置,实现较少延迟和较少运算量,并且对多个参量编码音频流进行结合。该特征是在实时地利用将多个站点连接的远程会议系统那样的多个站点间通信系统是非常有魅力的特征。
附图说明
图1是一般的参量编码装置的框图。
图2是一般的参量译码装置的框图。
图3是表示现有的远程通信系统的构成的图。
图4是现有的MCU的框图。
图5是表示本发明实施方式1的远程通信系统的构成的图。
图6是表示本发明实施方式1的参量音频编码的参数表现基准的图。
图7是本发明实施方式1的降混编码器的框图。
图8是本发明实施方式1的MCU的框图。
图9是本发明实施方式1的降混子流结合部的框图。
图10是表示本发明实施方式1的从QMF域向MDCT域的频率匹配方法的图。
图11是本发明实施方式1的参数子流结合部的框图。
图12是表示本发明实施方式1的MCU的处理量的图。
图13是本发明实施方式1的MCU的结合处理的流程图。
图14是表示本发明实施方式1的MCU在活动站点为1个的情况下的动作的图。
图15是表示本发明实施方式1的MCU在活动站点为2个的情况下的动作的图。
图16是表示本发明实施方式1的MCU在活动站点为3个的情况下的动作的图。
图17是本发明实施方式2的MCU的框图。
图18是表示本发明实施方式2的MCU的动作的图。
图19是本发明实施方式2的MCU的结合处理的流程图。
图20是表示本发明实施方式2的MCU的处理量的图。
图21是本发明实施方式2的参量译码装置的框图。
图22A是表示本发明实施方式2的参数基准的一例的图。
图22B是表示本发明实施方式2的参数基准的一例的图。
图23是本发明实施方式3的MCU的框图。
图24是本发明实施方式3的参数子流结合部的框图。
图25A是表示本发明实施方式3的统一参数基准的一例的图。
图25B是表示本发明实施方式3的统一参数基准的一例的图。
图25C是表示本发明实施方式3的统一参数基准的一例的图。
图26A是表示本发明实施方式3的参数基准的图。
图26B是表示本发明实施方式3的参数基准的图。
图27是本发明实施方式4的MCU的框图。
图28是本发明实施方式4的参数子流结合部的框图。
具体实施方式
以下所记载的实施方式是简单例示本发明的各种创造性的原理的方式。此处所记载的详细内容能够多样地变形,可以解释为对于本领域技术人员来说是显而易见的。因此,本发明的范围不由此处所记载的具体且说明的内容、而仅由请求的范围来限定。
以下,以连接4个站点的远程会议系统(远程通信系统)为了对使用了本发明的MCU的方法进行说明。并且,关于进行连接更多站点的远程会议系统的情况下的MCU,能够从该事例简单地一般化。
并且,在以下记载的实施方式中,详细说明通过以往的参量编码方法所编码的音频流的结合。为了使说明简单,使降混信号为AAC编码器编码的单声道信号。另外,以下所示的多个实施方式,为了对其他参量编码比特流格式进行支持,而能够一般化。
(实施方式1)
图5是表示本发明实施方式1的远程通信系统300A的构成的图。
远程通信系统300A例如是远程会议系统。该远程通信系统300A包括4个站点301(301A~301D)和作为多地点连接装置的结合装置(MCU305A)。并且,4个站点301与MCU305经由网络连接。
各站点301分别具备图1所示的编码装置100以及图2所示的译码装置200。
各编码装置100,通过对由与该站点301连接的多个麦克风取得的多个音频输入信号100进行参量编码,而生成包含降混子流115和参数子流113的编码比特流116。降混子流115为多个音频输入信号110被降混的信号,参数子流113为用于将降混子流115恢复为多个音频输入信号的信息。
并且,各编码装置100将生成的编码比特流116向MCU305A发送。
例如,多个音频输入信号110的每一个分别与多个说话者的每一个对应。
MCU305A通过将由多个站点301发送的多个编码比特流116进行结合,而生成结合比特流124。该结合比特流124包含结合降混子流121和结合参数子流122。并且,MCU305A将生成的结合比特流124向多个站点301发送。
具体地说,MCU305A对于各站点301,通过将从该站点301以外的站点发送的编码比特流116进行结合而生成结合比特流124,并将生成的结合比特流124向该站点301发送。
例如,MCU305A对于站点301A,通过对从站点301B~301D发送的编码比特流116进行结合,而生成结合比特流124(包含结合降混子流DmxBCD以及结合参数子流ParasBCD),并将该结合比特流124向站点301A发送。并且,MCU305A对于站点301B,通过对从站点301A、301C以及301D发送的编码比特流116进行结合,而生成结合降混子流DmxACD以及结合参数子流ParasACD,MCU305A对于站点301C,通过对从站点301A、301B以及301D发送的编码比特流116进行结合,而生成结合降混子流DmxABD以及结合参数子流ParasABD,MCU305A对于站点301D,通过对从站点301A、301B以及301C发送的编码比特流116进行结合,而生成结合降混子流DmxABC以及结合参数子流ParasABC。
并且,各站点301的译码装置200,通过对从MCU305A发送的结合比特流124进行译码,而生成多个音频输出信号216。该多个音频输出信号216通过与该站点301连接的多个扬声器输出。
以下详细说明图1所示的编码装置100。
图1所示的编码装置100,通过对多个音频输入信号110进行参量编码,由此生成包含单声道的降混子流115和参数子流113的编码比特流116。
该编码装置100具备T-F(时间-频率)转换部101、分析器102、F-T(频率-时间)转换部103和降混编码器104。
T-F转换部101将时间域的多个音频输入信号110转换成混合域的多个频率信号111。
例如,从站点301A向参量编码装置100输入NA个的音频输入信号110。T-F转换部101使用高效率的非均匀频率析像度,将NA个的音频输入信号110转换为下述(式1)所表示的混合域的NA个的频率信号111。
[数式1]
此处,n是表示时间的时隙索引。并且,k是表示频率的混合带索引。
分析器102通过2种方法对所转换的频率信号111进行分析。该分析器102具备降混部102A和参数提取部102B。
降混部102A从多个频率信号111生成单声道的中间降混信号112。
参数提取部102B从多个频率信号111中提取目标参数。并且,参数提取部102B通过对提取的目标参数进行量化而生成参数子流113。
具体地说,参数提取部102B,以基于听觉心理模型而决定的时间频率解析的析像度,将目标参数作为时间-频率函数进行分析。例如,参数提取部102B,如图6所示那样,将混合域整体组合化为P×Q个的参数格子。并且,为了使其与人的听觉系统的频率析像度近似,对全频率频带进行覆盖的参数带m的数量Q,能够设定为从仅为2、3个(适用低比特率的情况)到28个(进行高品质处理的情况)的任意的数量。并且,为了改善过渡的行动而分离的参数组I,对固定时间分段(大约20~30ms)进行覆盖。
并且,降混部102A按照下述(式2)生成中间降混信号112所包含的每个参数格子(I,m)(I=1,…,P;m=1,…,Q)的降混信号成分。
[数式2]
此处,di(I,m)为用于各音频输入信号110(各频率信号111)而预先决定的比例因子。因子e(I,m)用于调整信号成分的功率。即,中间降混信号112的信号成分的功率,以与缩放完成的全频率信号111的功率大致相同的方式运算。即,以满足下述(式3)的关系的方式决定e(I,m)。
[数式3]
F-T转换部103为,通过将中间降混信号112的全信号成分逆转换到时间域,由此生成降混时间信号114。
降混编码器104对降混时间信号114进行编码,由此生成降混子流115。
并且,参数提取部102B对每个参数格子(I,m),提取目标参数。典型地,该目标参数分别包含以下参数。
(a)目标电平差(OLD):表示多个频率信号111之间的对应的参数格子中的功率比。
(b)绝对能量参数(NRG):表示多个频率信号111中具有最大能量的频率信号111的绝对目标能量。
(c)目标之间的相互相关(IOC):表示多个频率信号之间的对应的参数格子的相似度。
(d)降混增益(DMG):表示将对应的参数格子进行降混处理时的增益。
例如,参数提取部102B使用下述(式5)~(式9)计算出这些参数。
[数式4]
[数式5]
[数式6]
i=1,…,NA;j=i+1,…,NA时 …(式6)
[数式7]
DMGi(l,m)=20log10(di(l,m)+ε)i=1,…,NA时 …(式7)
并且,参数提取部102B,通过将该目标参数与其他头部信息一起量化,而生成参数子流113。
按照同样的编码步骤,其他站点301(站点301B、301C以及301D)也生成与降混子流115以及与其对应的参数子流113。
接着,对降混编码器104的构成进行说明。图7是表示降混编码器104的构成的框图。
如图7所示,降混编码器104具备MDCT(Modified Discrete Cosine Transform)转换部601、编码部602以及控制部603。
MDCT转换部601将时间域的降混时间信号114转换到MDCT域(频谱域)的MDCT系数组611。
控制部603使用音响心理学上的已知规则,计算出依存于实际的时间的已掩码阈值(音响心理学模型)的推测值。
编码部602,以量化噪声被保持为由控制部603计算出的已掩码阈值以下的方式,将MDCT系数组611有效地量化以及编码。由此,编码部602生成降混子流115。
另外,MCU305A为了将多个编码比特流116结合,各站点301A~301D所具备的编码装置100需要满足以下列举的2个增加要求。
(1)将NRG参数向MCU305A发送。
(2)降混子流115通过使用固定的块类型(即、长块类型)的AAC方式进行编码。
另外,作为将降混子流115进行编码的方式说明了使用AAC方式的情况,但是不限于此,也可以使用AAC-LD方式或者HE-AAC方式。并且,此外只要是高效率的立体声/单声道的声音编码方式,也可以使用CELP方式,但是在使用利用了MDCT等直行转换技术的编码方式的情况下,本发明的效率更高。
并且,在此,作为直行转换技术的代表说明了使用MDCT方式的例子,但是当然不限于此,也可以使用FFT方式或者MDST(Modified Discrete Sine Transform)方式。
下面,对本发明实施方式1的MCU305A的构成进行说明。
图8是表示MCU305A的构成的框图。
如图8所示,MCU305A具备检测部501、降混子流结合部504(第一结合部)、参数子流结合部506(第二结合部)以及发送部508。
检测部501为,每隔规定的时间间隔,在该时间间隔内,对多个站点301之中的活动站点以及非活动站点进行检测。此处,所谓活动站点是正在发送有效的编码比特流116的站点,所谓非活动站点是活动站点以外的站点。具体地说,所谓活动站点是当前正发送声音的站点,非活动站点是当前没有发送声音、正进行规定阈值以下的声音信号的交换、或者通过控制信号明确地指定不进行声音信号的交换的站点。例如,由活动站点取得的多个音频输入信号110的最大音量为规定阈值以上,由非活动站点取得的多个音频输入信号110的全部的音量小于规定的阈值。
例如,检测部501,使用多个参数子流113所包含的信息而检测出各站点301是活动站点还是非活动站点。例如,检测部501将NRG参数小于规定值的参数子流113的发送源的站点判定为非活动站点。
另外,检测部501,也可以通过参照其他参数或者降混子流115,来判定断各站点301是活动站点还是非活动站点。例如,检测部501也可以为,在对应的编码比特流116所包含的多个音频输入信号110的最大音量为规定阈值以上的情况下,将该编码比特流116的发送源的站点301判定为活动站点,在对应的编码比特流116所包含的多个音频输入信号110的最大音量小于规定阈值的情况下,将该编码比特流116的发送源的站点301判定为非活动站点。并且,检测部501也可以为,根据对应的编码比特流116所包含的多个音频输入信号110的音量差或者音量的变化率,来判定该编码比特流116的发送源的站点301为活动站点还是非活动站点。
并且,检测部501基于检测结果计算出活动站点的数量以及非活动站点的数量。
降混子流结合部504为,根据由检测部501检测出的活动站点的数量(非活动站点的数量),将多个降混子流115进行结合,由此生成多个结合降混子流121。
具体地说,在存在非活动站点的情况下,降混子流结合部504,仅对从活动站点发送的降混子流115进行结合,由此生成结合降混子流121。
更具体地说,降混子流结合部504,对于多个站点301的各个,对从多个活动站点发送的多个降混子流115中的、从该站点301以外的站点301发送的多个降混子流115进行结合,由此生成与该站点301相对应的结合降混子流121。
参数子流结合部506为,根据由检测部501检测出的活动站点的数量(非活动站点的数量),将多个参数降混子流113进行结合,由此生成多个结合参数子流122。
具体地说,在存在非活动站点的情况下,参数降混子流结合部506,仅对从活动站点发送的参数子流113进行结合,由此生成结合参数子流122。
更具体地说,参数子流结合部506,对于多个站点301的各个,对从多个活动站点发送的多个参数子流113中的、从该站点301以外的站点301发送的多个参数子流113进行结合,由此生成与该站点301相对应的结合参数子流122。
发送部508,将包含结合降混子流121以及结合参数子流122的结合比特流124,向对应的站点301发送。
以下,对降混子流结合部504的构成进行说明。
图9是降混子流结合部504的构成的框图。如图9所示,降混子流结合部504具备译码部700、加法部704、缩放部705以及编码部706。另外,在图9中,表示生成向站点301A发送的1个结合降混子流121的情况。
译码部700为,通过对多个降混子流115(DmxB、DmxC以及DmxD)进行译码(逆编码以及逆量化),由此生成分别相对应的MDCT域(频谱域)的MDCT系数组710(coefB、coefC以及coefD)。此处,所谓逆编码以及逆量化,是由图7所示的编码部602进行的AAC编码的逆运算。并且,译码部700具备对降混子流DmxB、DmxC以及DmxD进行逆编码以及逆量化的逆编码部701~703。
另外,译码部700也可以如图9所示那样具备3个逆编码部701~703,通过该3个逆编码部701~703并列地处理3个降混子流115;并也可以具备1或2个逆编码部,通过时分割来处理3个降混子流115。
并且,译码部700仅对多个降混子流115中从活动站点发送的降混子流115进行译码。
加法部704通过对全部MDCT系数组710(译码降混子流)进行加法,而生成结合MDCT系数组711(中间结合降混子流)。
缩放部705通过对被进行了加法的结合MDCT系数组711进行缩放,由此生成结合MDCT系数组712(coefBCD)。具体地说,缩放部705以将多个MDCT系数组710的频谱功率保存到结合MDCT系数组712中的方式,对结合MDCT系数组711进行缩放。
此处,在本发明中,结合降混子流121随着在不同频率范围中不同的结合增益,得到将全部降混子流115线性结合的结果。
应引起注意的一点为,混合域具有时间-频率析像度,但是MDCT域仅具有频率析像度。结果,在将结合增益使用到MDCT系数组中的情况下,需要使混合域中的值与MDCT域中的值近似。
在本发明中所使用的近似方法为,忽视混合域中的参数组的分离,将参数带分离方法直接映射到MDCT域的方法(另外,关于将不同的参数带的分离方法综合为单一的统一参数带分离方法的方法,将后述)。换言之,如图10所示,如果在参量编码过程中所使用的参数带的数量为Q(参数子流所包含的头部信息),则MDCT频率子组Im的数量为(m=1,2,…,Q),参数带m对子组Im、例如与(qm-,qm+)相同的频率范围进行覆盖。
如果基于上述MDCT频谱分割,则分割降混系数组的结合增益,能够根据不同的应用例而如以下那样灵活地设计。
在实施方式1中,在多个编码音频目标全部为重要的情况下,信号成分的放大和衰减都不优选。在该情况下,采用适用了用于将结合降混系数均匀化的共通比例因子的功率保存技术。
即,结合MDCT系数组coefBCD由下述(式8)表示。
coefBCD(i)=(coefB(i)+coefC(i)+coefD(i))*g(m)…(式8)
[数式8]
此处,i为MDCT系数索引,m为子组索引。即,i成为下述(式9)。
[数式9]
i∈Im …(式9)
并且,上标符号表示对应的参数的站点索引。
并且,结合增益以保存频谱功率的方式,使用下述(式10)计算。
[数式10]
编码部706,通过将结合MDCT系数组coefBCD进行量化以及编码,由此生成发送用的结合降混子流121(DmxBCD)。
另外,一般知觉编码器(例如AAC编码器),按照根据音响心理学的见解而得知的规则,使用根据时间域时序的复FFT导出的音响心理学伪装值(マスカ),对信号之间的无关联性进行验证。但是,在本发明的MCU305A中,为了满足运算量较少、延迟时间较短这种要求事项,降混结合限定为MDCT域而进行。即,MDCT域向时间域的域转换无论如何都不认可。
该课题被多个现有技术解决。例如,在现有技术中,基于运算量较少、高品质的MDCT能够求得音响心理学模型。主要的想法是将复FFT频谱置换为实数的MDCT频谱,以及通过频谱均匀性测定来求得语音性。
关于现有技术例如对上述非专利文献1~3进行详细说明。
按照上述技术,能够设计如下那样的编码部706。首先,在MDCT域中,计算出结合MDCT系数组用的正确的音响心理学伪装值。并且,通过与AAC编码器类似的方法,实施剩余的量化以及目标。输出结果作为结合降混子流121而向站点301A的参量译码装置200发送。同样的步骤对于其他站点也执行。即,该步骤对于连接N个站点的系统执行N次。
下面说明参数子流结合部506的构成。
图11是表示参数子流结合部506的构成的框图。如图11所示,降混子流结合部504具备逆量化部750、参数结合部755、参数更新部756以及量化部757。并且,在图11中仅表示生成向站点301A发送的1个结合参数子流122的构成的情况。
逆量化部750,通过对多个参数子流113(ParasB、ParasC以及ParasD)进行逆量化,由此分别恢复为对应的参数761。此处,所谓逆量化是由图1所示的参数提取部102B进行的量化的逆运算。
参数结合部755通过对全部参数761进行结合而生成结合参数763以及764。
参数更新部756通过对结合参数764进行更新而生成更新参数765。
并且,参数结合部755对于全部参数761使用相同的结合增益进行结合。结果,该降混结合过程不被附加的参数影响。因此,在活动站点为多个的情况下,参数更新部756作为结合参数764而仅更新NRG参数以及OLD参数。
例如,将站点301A、301B以及301D为活动站点的情况为例进行说明。此时,参数子流结合部506将从站点301B以及301D发送的参数子流113进行结合。
更新后的NRG参数为站点k(k=B,D)中的最大NRG参数。即,参数更新部756使用下述(式11)计算出更新后的NRG参数。
[数式11]
并且,参数更新部756对于全部目标使用下述(式12)计算出更新后的OLD参数。另外,所谓目标表示多个音频输入信号110的各自。
[数式12]
此处,目标索引i为i=1,…,NA,NA+1,…,NA+ND。
量化部757通过对结合参数763以及更新参数765进行量化而生成结合参数子流122。
另外,在连接N个站点的远程会议系统中,通常(具有有效地发送的比特率)的活动站点仅为N1个(N1≤N),剩余的(N-N1)个站点为非活动。
并且,在这种系统中,MCU305A需要进行N次局部译码处理、N次结合处理以及N次局部编码处理。但是,在该情况下,向这些非活动站点发布相同的结合降混子流121。即,在通常存在非活动站点的情况下,该结合方法意味着伴随冗长性。
因此,在本发明的实施方式1的MCU305A中,通过在结合以及编码处理之前考虑活动站点的数量,由此进一步削减MCU305A的运算量。
具体地说,发送部508,在活动站点仅为1个或2个时,将接收的编码比特流116原样地向发布目的地站点进行切换发送。由此,能够进一步削减MCU305A的运算量。
更详细地说,在非活动站点的数量为2以上的情况下,降混子流结合部504对从全部活动站点发送的多个降混子流115进行结合,由此对于全部非活动站点生成共通的结合降混子流121。并且,参数子流结合部506,对从全部活动站点发送的多个参数子流113进行结合,由此对于全部非活动站点生成共通的结合参数子流122。并且,发送部508将包含上述共通的结合降混子流121以及共通的结合参数子流122的共通的结合比特流124,向全部非活动站点发送。
在活动站点的数量为2的情况下,发送部508将从2个活动站点之中的一方发送的编码比特流116原样地向2个活动站点的另一方发送。并且,发送部508将从2个活动站点之中的另一方发送的编码比特流116原样地向2个活动站点的一方发送。
在活动站点的数量为1的情况下,发送部508将从活动站点发送的编码比特流116原样地向全部非活动站点发送。
图12是表示本发明的MCU305A以及通常的MCU的运算量的图。并且,图13是MCU305A的结合处理的流程图。
如图13所示,首先,检测部501检测活动站点的数量N1(S101)。
接着,检测部501判定活动站点的数量N1是否为1(S102)。
在活动站点的数量N1为1的情况下(S102:是),发送部508将从活动站点发送的编码比特流116原样地向全部的非活动站点发送(S103)。即,降混子流结合部504以及参数子流结合部506不进行结合处理。并且,发送部508向1个活动站点不发送编码比特流116以及结合比特流124。
在活动站点的数量为0的情况下,发送部508也不发送编码比特流116以及结合比特流124。
如此,在活动站点的数量N1为1的情况下(S102:是),如图12所示,局部译码处理的数量、结合处理的数量以及局部编码处理的数量都为零。
图14是模式地表示4个站点301中仅1个站点301A为活动的情况下的MCU305A的处理的图。如图14所示,在仅站点301A为活动的情况下,MCU305A将从站点301A发送的降混子流DmxA以及参数子流ParasA向非活动的站点301B、301C以及301D发送。
另一方面,在活动站点的数量N1为2以上的情况下(S102:否),降混子流结合部504对从全部活动站点发送的多个降混子流115进行局部译码处理,由此生成多个MDCT系数组710(S104)。
接着,检测部501判定活动站点的数量N1是否为2(S105)。
在活动站点的数量N1为2的情况下(S105:是),降混子流结合部504对与该2个活动站点相对应的MDCT系数组710进行结合以及缩放,由此生成结合MDCT系数组712。接着,降混子流结合部504,通过对生成的结合MDCT系数组712进行编码以及量化,由此生成非活动站点用的1个结合降混子流121。并且,参数子流结合部506对与该2个活动站点相对应的参数子流113进行结合,由此生成非活动站点用的1个结合参数子流122(S106)。
接着,发送部508将在步骤S106中生成的1个结合降混子流121以及结合参数子流122向全部的非活动站点发送(S107)。
并且,发送部508将从2个活动站点中的、一方的活动站点发送的编码比特流116原样地向另一方的活动站点发送,将从另一方的活动站点发送的编码比特流116原样地向一方的活动站点发送(S108)。
如此,在活动站点的数量N1为2的情况下(S105:是),如图12所示,局部译码处理的数量与活动站点的数量N1相同成为2,结合处理的数量以及局部编码处理的数量为1次。即,对于非活动站点的局部译码处理被削减,并且结合处理的数量以及局部编码处理的数量被削减为1次。
图15是模式地表示4个站点301中仅2个站点301A以及301B为活动的情况下的MCU305A的处理的图。如图15所示,在仅站点301A以及301B为活动的情况下,MCU305A将从站点301A发送的降混子流DmxA以及参数子流ParasA向活动的站点301B发送,将从站点301B发送的降混子流DmxB以及参数子流ParasB向活动的站点301A发送。并且,MCU305A将降混子流DmxA以及参数子流ParasA与降混子流DmxB以及参数子流ParasB结合,由此生成结合降混子流DmxAB以及结合参数子流ParasAB,并将该结合降混子流DmxAB以及结合参数子流ParasAB向非活动的站点301C以及301D发送。
另一方面,在活动站点的数量N1为3以上的情况下(S105:否),降混子流结合部504对与该3以上的活动站点相对应的MDCT系数组710全部进行结合以及缩放,由此生成结合MDCT系数组712。接着,降混子流结合部504将生成的结合MDCT系数组712进行编码以及量化,由此生成非活动站点用的1个结合降混子流121。并且,参数子流结合部506,对与该3以上的活动站点相对应的参数子流113进行结合,由此生成非活动站点用的1个结合参数子流122(S109)。
接着,发送部508,将在步骤S109中生成的1个结合降混子流121以及1个结合参数子流,向全部的非活动站点发送(S110)。
接着,MCU305A生成向3个以上的活动站点的各自发送的结合比特流124。
首先,MCU305A从3个以上的活动站点中选择1个活动站点,并生成向选择的活动站点发送的结合比特流124。
具体地说,降混子流结合部504,对与选择的活动站点以外的全部活动站点相对应的MDCT系数组710进行结合以及缩放,由此生成结合MDCT系数组712。接着,降混子流结合部504将生成的结合MDCT系数组712进行编码以及量化,由此生成选择的活动站点用的结合降混子流121。并且,并且,参数子流结合部506,对与选择的活动站点以外的全部活动站点相对应的参数子流113进行结合,由此生成选择的活动站点用的结合参数子流122(S111)。
接着,发送部508,将在步骤S111中生成的结合降混子流121以及结合参数子流,向选择的活动站点发送(S112)。
接着,降混子流结合部504,通过从活动站点的数量N1中减去1,由此计算出新的活动站点的数量N1(S113),在新的活动站点的数量N1大于0的情况下(S114:是),选择下一个活动站点,并对选择的活动站点进行步骤S111以后的处理。即,降混子流结合部504对全部的活动站点重复步骤S111~S114的处理。
如此,在非活动站点存在2个以上、且活动站点的数量N1为3以上的情况下(S105:否),如图12所示,局部译码处理的数量成为活动站点的数量N1,结合处理的数量以及局部编码处理的数量为N1+1次。即,对非活动站点的局部译码处理被削减的同时向非活动站点发送用的结合处理的数量以及局部编码处理的数量被削减。
另外,在不存在非活动站点的情况下,即,在活动站点的数量N1与全部站点数量N相等的情况下,不进行步骤S109以及S110的处理。即,如图12所示,局部译码处理的数量、结合处理的数量以及局部编码处理的数量成为N1次。
图16是模式地表示4个站点301中3个站点301A、301B以及301C为活动的情况下的MCU305A的处理的图。如图16所示,在站点301A、301B以及301C为活动的情况下,MCU305A将降混子流DmxA以及参数子流ParasA、降混子流DmxB以及参数子流ParasB与降混子流DmxC以及参数子流ParasC结合,由此生成结合降混子流DmxABC以及结合参数子流ParasABC,并将该结合降混子流DmxABC以及结合参数子流ParasABC向非活动的站点301发送。
并且,MCU305A将降混子流DmxB以及参数子流ParasB与降混子流DmxC以及参数子流ParasC结合,由此生成结合降混子流DmxBC以及结合参数子流ParasBC,并将该结合降混子流DmxBC以及结合参数子流ParasBC向站点301A发送。
并且,MCU305A将降混子流DmxA以及参数子流ParasA与降混子流DmxC以及参数子流ParasC结合,由此生成结合降混子流DmxAC以及结合参数子流ParasAC,并将该结合降混子流DmxAC以及结合参数子流ParasAC向站点301B发送。
并且,MCU305A将降混子流DmxA以及参数子流ParasA与降混子流DmxB以及参数子流ParasB结合,由此生成结合降混子流DmxAB以及结合参数子流ParasAB,并将该结合降混子流DmxAB以及结合参数子流ParasAB向站点301C发送。
如此,本发明的实施方式1的MCU305A,在活动站点的数量N1为1的情况下,不进行译码处理、结合处理以及编码处理。并且,MCU305A在活动站点的数量N1为2的情况下,不生成向活动站点发送的结合比特流124。由此MCU305A能够削减运算量。
并且,本发明的实施方式1的MCU305A,在存在非活动站点的情况下,不将从该非活动站点发送的编码比特流116结合。具体地说,MCU305A不进行从非活动站点发送的降混子流115的译码处理。由此,MCU305A能够削减运算量。
并且,本发明的实施方式1的MCU305A,在存在多个非活动站点的情况下,对该多个非活动站点生成共通的结合比特流124。由此,MCU305A能够省略向非活动站点发送用的结合比特流124的处理,因此能够削减运算量。
如此,本发明实施方式1的MCU305A,通过考虑活动站点的数量为1或者2这样的特别的事例,能够削减运算量。
例如,为了说明本发明的实施方式1的效果,举出连接多个站点(例如8个)的远程会议系统的例子。实际上,在大部分通信期间中,同时成为活动状态的通信终端最多为3个程度的情况较多。此时,通过采用本发明的MCU305A,与以往的MCU相比能够将运算量削减到15%~40%。
(实施方式2)
在MCU305A进行的处理中,局部编码处理包含音响伪装值的生成处理以及双循环的量化处理,因此运算量最多。因此,实施方式2的MCU305B,在活动站点为多个(N1>2)的情况下,通过仅进行1次局部编码,能够进一步削减运算量。
图17是表示本发明实施方式2的MCU305B的构成的图。
图17所示的MCU305B,相对于实施方式1的MCU305A,降混子流结合部504B以及参数子流结合部506B的处理,与降混子流结合部504以及参数子流结合部506的处理不同。另外,降混子流结合部504B以及参数子流结合部506B的基本构成,与降混子流结合部504以及参数子流结合部506相同。
并且,MCU305B在MCU305A的构成的基础上还具备辅助信息生成部507。
降混子流结合部504B,在活动站点的数量为2以上的情况下,对从全部活动站点发送的降混子流115进行结合,生成单一的结合降混子流121。
具体地说,降混子流结合部504B在对全部的活动站点进行了局部译码处理之后,将所译码的全部MDCT系数组710与单一的结合MDCT系数组712进行结合。接着,降混子流结合部504B对该结合MDCT系数组712进行局部地编码,生成对全部站点发布的单一的结合降混子流121。
参数子流结合部506B,在活动站点的数量为2以上的情况下,对从全部活动站点发送的参数子流113进行结合,生成单一的结合参数子流122。
辅助信息生成部507,生成与活动站点的各自相对应的多个辅助信息123。该辅助信息123是用于对单一的结合降混子流121以及单一的结合参数子流122的信号成分中、与从对应的活动站点发送的编码比特流116相对应的信号成分进行确定的信息。另外,关于辅助信息123将后述。
发送部508,将上述单一的结合降混子流121以及单一的结合参数子流122,向全部的站点301发送。并且,发送部508将多个辅助信息123的各个向对应的活动站点发送。
图18是模式地表示本发明实施方式2的远程通信系统300B的、4个站点301中3个站点301A、301B以及301D为活动的情况下的MCU305B的处理的图。如图18所示,在站点301A、301B以及301D为活动的情况下,MCU305B将降混子流DmxA以及参数子流ParasA、降混子流DmxB以及参数子流ParasB与降混子流DmxD以及参数子流ParasD结合,由此生成结合降混子流DmxABD以及结合参数子流ParasABD,并将该结合降混子流DmxABD以及结合参数子流ParasABD向全部的站点301A~301D发送。
并且,MCU305B向作为活动站点的站点301A、301B以及301D,分别发送辅助信息123A、123B以及123D。另外,辅助信息123A、123B以及123D是分别与站点301A、301B以及301D相对应的辅助信息123。
图19是本发明实施方式2的MCU305B的结合处理的流程图。此外,图20是表示本发明的实施方式1以及实施方式2涉及的MCU305A及305B与通常的MCU的运算量的图。
并且,图19表示的步骤S101~S104的处理与图13相同,省略说明。
在步骤S104之后,降混子流结合部504B通过对与全部的活动站点对应的MDCT系数组710进行结合及缩放,由此生成结合MDCT系数组712.接着,降混子流结合部504B对生成的结合MDCT系数组712进行编码以及量化,由此生成1个结合降混子流121。并且,参数子流结合部506B对从全部活动站点发送的参数子流113进行结合,生成1个结合参数子流122(S205)。
接着,发送部508,将在步骤S205中生成的1个结合降混子流121以及1个结合参数子流122,向全部的站点发送(S206)。
如此,在活动站点的数量N1为2以上的情况下(S102:否),如图20所示,局部译码处理的数量成为活动站点的数量N1,结合处理的数量以及局部编码处理的数量为1次。即,对于非活动站点的局部译码处理被削减,并且结合处理的数量以及局部编码处理的数量被削减为1次。
为了说明本发明的实施方式2的效果,再次参照连接8个站点的远程会议系统的例子。此时,通过采用实施方式2的MCU305B,与通常的MCU相比能够将运算量削减到小于15%。
以下,对辅助信息123进行说明。
MCU305B的目的为,如在实施方式1中说明了的那样,将来自发送目的地的站点以外的其他全部站点的编码比特流116结合为单一的结合比特流124。因此,如实施方式2那样,在结合比特流124将全部的编码比特流116结合了的情况下,各站点301需要除去结合比特流124内的干涉流(自身发送的编码比特流116的成分)。
在本发明中,MCU305B生成包含全部参数信息的共通的结合参数子流122。并且,各站点301使用该共通的结合参数子流122,在参量译码处理中,使结合比特流124内的干涉流无声。由此,本发明的实施方式2的远程通信系统300B在参数域中实现干涉流的除去。
例如,在上述的连接4个站点301的远程会议系统的例子中,活动站点为站点301A、301B以及301D这3个。共通的结合参数子流122通过如下举出的步骤而构建。
(1)目标数量是将站点301A、301B以及301D的目标数量进行合计的数量。即,共通的结合参数子流122所包含的全部目标的数量用Ntotal=NA+NB+ND表示。
(2)所结合的参数按照A、B、D的顺序排列。例如,目标电平差为i=1,…NA,NA+1,…,NA+NB,NA+NB+1,…,Ntotal时,由OLDi(I,m)表示。
并且,共通的结合参数子流122与共通的结合降混子流121一起向各站点发布。各站点中的参量译码的最终目的为,对除去来自本站点的干涉流输入的全部音频输入进行合成(上混)。
通过对描画矩阵进行定制设计,能够实现参量音频译码的最终目的。更详细地说,为了除去来自本站点的干涉目标,应在MCU305B中生成几个新的辅助信息123,并向相应接受站点发送。该辅助信息123例如是干涉目标的索引。各站点具备的译码装置200B通过使用该辅助信息123,能够在参量音频编码的描画矩阵中,对干涉目标设定零增益。结果,如果使干涉目标无声,则是理想的。
具体地说,辅助信息生成部507,对于活动站点的各个,生成用于对单一的结合参数子流122中所包含的参数中、与从相应活动站点发送的参数子流113相对应的参数进行确定的辅助信息123。
更详细地说,辅助信息生成部507,将共通的结合参数子流122所包含的目标数量(NB)以及开始目标索引(NA+1)作为辅助信息123,与结合参数子流122一起向站点301B发送。
图21是表示本发明实施方式2的站点具备的参量译码装置200B的构成的框图。另外,对于与图2相同的要素赋予相同的符号,并省略重复说明。图21所示的译码装置200B,在图2所示的译码装置200的构成的基础上,还具备参数转换部205。
该译码装置200B使用辅助信息123,生成将单一的结合比特流124的信号成分中、与从具备该译码装置200的站点301发送的编码比特流116相对应的信号成分除去了的多个音频输出信号216。
具体地说,参数转换部205为了后续的参量解码,将任意设计的Nspeaker×Ntotal(Nspeaker表示站点301B中的扬声器的数量)尺寸的描画矩阵中、使用辅助信息123从栏NA+1到栏NA+NB为止的矩阵要素设定为零。这意味着,从NA+1到NA+NB的全部目标的增益在Nspeaker个扬声器中为零。结果,站点301B的干涉目标被无声,并根据希望再生来自其他站点的剩余的音频目标。
通过以上,本发明实施方式2的MCU305B,通过仅生成单一的结合降混子流121以及结合参数子流122,能够降低运算量。
并且,本发明实施方式2的MCU305B,按每个活动站点生成辅助信息123。由此,各站点301能够从单一的结合降混子流121将本站点发送的编码比特流116的信号成分除外。
(实施方式3)
在参数的结合时,实际上,来自不同站点的参数子流113也可以具有不同的参数表现基准。其原因为,各站点301能够利用不同的比特率,并表现不同的目标特性。本发明的实施方式3的MCU305C,能够对由不同的参数表现基准表现的参数的结合进行支持。
另外,所谓参数表现基准具体地说使参数格子的分割方法(分割间隔)。
以下,对将2个参数子流113、例如来自站点301B的参数子流ParasB和来自站点301C的参数子流ParasC被输入到MCU305C的例子进行说明。此处,参数子流ParasB对于N1个目标、由合计(P1×Q1)个的参数格子表现,参数子流ParasC对于N2个目标、由合计(P2×Q2)个的参数格子表现。
此处,一般下述(式13)成立。
[数式13]
P1≠P2且 Q1≠Q2…(式13)
其原因为,在2个独立的编码站点中,信号特性以及能够利用的比特率不同。此处,如图22A以及图22B所示,不失普遍性地假设下述(式14)成立。
[数式14]
P1<P2且 Q1>Q2…(式14)
图23是表示本发明实施方式3的MCU305C的构成的框图。另外,对于与图8相同的要素赋予相同的符号,并省略重复的说明。
图23所示的MCU305C为,参数子流结合部506C的构成与图8所示的参数子流结合部506的构成不同。
图24是表示本发明实施方式3的参数子流结合部506C的构成的框图。另外,对于与图11相同的要素赋予相同的符号,并省略重复的说明。并且,在图24中表示对上述参数子流ParasB和ParasC进行结合的情况。
图24所示的参数子流结合部506C为,在图11所示的构成的基础上,还具备参数基准统一部754。
该参数基准统一部754为,在多个参数子流113由不同的参数表现基准表现的情况下,通过将多个参数761的参数表现基准转换为单一的统一参数表现基准,由此生成多个统一参数762。
参数结合部755通过将全部统一参数762进行结合,由此生成结合参数763。
在本发明中,具有这样的混合参数表现基准的流的结合过程,按照以下所述的2个原则设计。
(1)尽可能捕捉过度的动作。
(2)为了不使降混信号的品质劣化,将结合参数子流122的比特消耗保持为妥当的值。
为了利用第二原则,需要导出参数子流113的比特消耗的概算值。对包含对于N1个目标的参数表现的ParasB的例子进行探讨。这种情况下,OLD有(N1×P1×Q1)个、NRG有(P1×Q1)个、IOC有(N1×(N1-1)×P1×Q1/2)个、DMG有(N1×P1×Q1)个。与参数类型无关,相同比特成本适用于该参数。结果,通过忽视头部信息,能够使ParasB的总比特消耗bit-_count1以下述(式15)的方式近似。
[数式15]
…(式15)
因此,对于混合参数表现基准,总比特消耗bit_countorig由下述(式16)表示。
[数式16]
通过同样的方法,对于以下那样由不同构成表现的全部参数,使用下述的(式17)~(式19)能够计算出能考虑到的3个比特成本。
(1)最大比特消耗(精细的参数表现基准)
[数式17]
(2)中间程度的比特消耗(仅将参数组较细地分割时的参数表现基准)
[数式18]
(2)最小比特消耗(粗糙参数表现基准)
[数式19]
为了基于上述内容而将不同的参数表现基准进行统一,提出在参数表现基准之间具备智能开关的3个统一方法。
作为第一统一方法,参数基准统一部754为了将具有混合参数表现基准的参数子流进行综合,能够采用具有参数带Q1以及Q2中精细的参数带Q1、和参数组P1以及P2中精细的参数组P2的精细的参数表现基准。
在该例子中,如图25A所示,参数基准统一部754采用使用(P2×Q1)个的格子的精细的基准来作为统一基准。
作为第二统一方法,参数基准统一部754为了将具有混合参数表现基准的参数子流进行综合,能够采用具有参数带Q1以及Q2中粗糙的参数带Q2、和参数组P1以及P2中精细的参数组P2的中间程度的参数表现基准。
在该例子中,如图25B所示,参数基准统一部754采用使用(P2×Q2)个的格子的中间程度的基准来作为统一基准。
作为第三统一方法,参数基准统一部754为了将具有混合参数表现基准的参数子流进行综合,能够采用具有参数带Q1以及Q2中粗糙的参数带Q2、和参数组P1以及P2中粗糙的参数组P1的粗糙的参数表现基准。
在该例子中,如图25C所示,参数基准统一部754采用使用(P1×Q2)个的格子的粗糙的基准来作为统一基准。
当然,参数基准统一部754将与统一后的基准不同的基准的参数全部放大或者缩小到与统一后的基准相当为止。
参数基准统一部754在放大参数的情况下,将参数表现基准从旧的、较大的参数格子基准、向新的、较小的格子基准、即从图26A向图26B精细化。在旧的格子(I,m)根据(I’,m’)对(I’+ΔI,m’+Δm)的新的格子进行覆盖的情况下,定义为旧的格子的参数被向新的格子复制。例如,参数基准统一部754使用下述(式20)计算出新的OLD。
[数式20]
…(式20)
此处,i为目标索引。
并且,IOC、NRG以及DMG等具有其他参数类型的参数也能够同样地进行精细化。
另一方面,在缩小参数时,将参数表现基准从多个旧的、小的格子向1个新的较大的格子、即从图26B向图26A平均化。此时,不同的参数类型由不同平均化方法平均化。
例如,参数基准统一部754能够使用下述(式21)计算出格子(I,m)上的新的NRG参数。
[数式21]
据此,参数基准统一部754能够使用下述(式22)计算出新的OLD参数。
[数式22]
并且,参数基准统一部754能够使用下述(式23)计算出新的IOC参数。
[数式23]
…(式23)
并且,参数基准统一部754能够使用下述(式24)以及(式25)的某一个计算出新的DMG参数。
[数式24]
或者,在使用加权平均的情况下,参数基准统一部754能够使用下述(式25)计算出新的DMG参数。
[数式25]
此处,S(u,v)表示格子(u,v)的区域。
通过以上,本发明实施方式3的MCU305C能够结合由不同的基准表现的参数。
(实施方式4)
在本发明实施方式4中,对实施方式3的MCU305C的变形例进行说明。本发明的实施方式4的MCU305D具有将被统一的参数表现基准相互作用地进行切换的能力。
图27是表示本发明实施方式4的MCU305D的构成的框图。另外,对于与图23相同的要素赋予相同的符号,并省略重复说明。
图27所示的MCU305D为,在图23的构成的基础上,还具备参数基准选择部502。并且,参数子流结合部506D的构成与图23所示的参数子流结合部506C不同。
参数基准选择部502为,选择多个参数表现基准中的一个,并将表示选择的参数表现基准的选择信号511向参数子流结合部506输出。例如,参数基准选择部502选择图25A~25C所示的3个参数表现基准(详细的参数表现基准、中间程度的参数表现基准以及粗糙的参数表现基准)中的1个。
具体地说,参数基准选择部502,例如根据能够在从MCU305D向多个站点301的发送中使用的当前的比特率510、或者对应的结合参数子流122的比特成本,来决定基准切换的机构。该情况能够通过以下举出的3个步骤来实现。
(1)首先,在MCU305D将结合流向接收站点发布时,在能够利用较高的比特率的情况、或者最大比特消耗为妥当的情况下,参数基准选择部502选择详细的参数表现基准。该情况如下述(式26)那样表示。
[数式26]
br≥b0或
此处,br表示实际的MCU发布比特率,b0表示为了结合流发布而预先定义的高比特率,b1表示预先定义的低比特率,c表示预先定义的阈值、例如1.5~2.0之间的实数。
(2)在不满足上述条件的情况下,参数基准选择部502测试为了MCU发布而认可的比特率条件是否过于严格、或者中间程度的比特消耗是否妥当。即,参数基准选择部502判定是否满足下述(式27)。
[数式27]
br>b1且 …(式27)
在适合上述情况的情况下,参数基准选择部502选择中间程度的参数表现基准。
(3)在不满足上述条件的任意一个的情况下,统一参数表现基准为,参数基准选择部502选择粗糙参数表现基准。
另外,参数基准选择部502也可以基于比特率以及比特成本的双方,选择参数表现基准。也可以仅基于比特率以及比特成本的一方,选择参数表现基准。
图28是表示参数子流结合部506D的构成的图。另外,对于与图24相同的要素赋予相同的符号,并省略重复的说明。并且,在连接4个站点的远程会议系统中,设活动站点为301A、301B以及301D这3个。并且,图28仅表示生成向站点301A发送的1个结合参数子流122的构成。
在图28所示的参数子流结合部506D中,参数基准统一部754D的构成与图24所示参数基准统一部754不同。
参数基准统一部754D,通过以选择信号511所示的参数表现基准,对多个参数761进行变换,而生成统一参数762。
通过以上,本发明实施方式4的MCU305D,通过考虑比特率或者比特成本,能够有效地综合具有不同的参数表现基准的参数子流113。
以上,对本发明实施方式的结合装置以及远程通信系统进行了说明,但是本发明不限于该实施方式。
例如,在上述实施方式1~4中,说明了降混子流结合部504或504B在MDCT域(频谱域)中对多个降混子流115进行结合的例子,但是也可以如图4所示的现有例那样,在时间域中对多个降混子流115进行结合。
并且,上述实施方式1~4的结合装置、编码装置以及译码装置所包括的各处理部,典型地能够实现为集成电路、即LSI。这些处理部也可以单独地1个芯片化,也可以包含一部分或者所有地1个芯片化。
并且,集成电路化不限于LSI,也可以通过专用电路或通用处理器来实现。也可以利用在LSI制造后进行程序的FPGA(Field Programmable Gate Array)、或者能够对LSI内部的电路单元的连接或设定进行重构的可重绘制、处理器。
并且,本发明的实施方式1~4的结合装置、编码装置以及译码装置的功能的一部分或者全部,也可以通过CPU等处理器执行程序来实现。
并且,本发明也可以是上述程序,也可以是记录有上述程序的记录媒体。并且,上述程序当然能够经由因特网等传送媒体流通。
并且,也可以将上述实施方式1~4的远程通信系统、结合装置、编码装置、译码装置以及其变形例的功能至少一部分进行组合。
并且,上述说明中使用的数字,都是为了具体说明本发明而例示的数字,本发明不限定于例示的数字。
并且,基于上述结合装置的结合方法是为了具体说明本发明而例示的方法,本发明的基于上述结合装置的结合方法不限于上述。例如,执行上述步骤的顺序是为了具体说明本发明而例示的顺序,也可以是其他顺序。并且,上述步骤的一部分也可以与其他步骤同时(并行)地执行。
并且,只要不脱离本发明的主旨本领域技术人员对本实施方式实施的能够想到的范围内的变更的各种变形例都包含与本发明。
工业实用性。
本发明能够适用于结合装置。并且,本发明能够适用于使用该结合装置的远程会议系统。
符号说明
100编码装置
101、202T-F转换部
102分析器
102A降混部
102B参数提取部
103、204F-T转换部
104降混编码器
110音频输入信号
111频率信号
112中间降混信号
113ParasA、ParasB、ParasC、ParasD参数子流
114降混时间信号
115DmxA、DmxB、DmxC、DmxD降混子流
116编码比特流
121DmxABC、DmxABD、DmxACD、DmxBCD、DmxAB、DmxAC、DmxBC结合降混子流
122ParasABC、ParasABD、ParasACD、ParasBCD、ParasAB、ParasAC、ParasBC、结合参数子流
123、123A、123B、123D辅助信息
124结合比特流
200、200B译码装置
201降混解码器
203参数合成部
205参数转换部
213时间信号
214频率信号
215转换信号
216音频输出信号
300、300A、300B远程通信系统
301、301A、301B、301C、301D站点
305、305A、305B、305C、305D MCU
401、402、403参量解码器
404、704加法部
405参量编码器
411B、411C、411D译码信号
412加法信号
501检测部
502参数基准选择部
504、504B降混子流结合部
506、506B、506C、506D参数子流结合部
507辅助信息生成部
508发送部
510比特率
511选择信号
601MDCT转换部
602编码部
603控制部
611、710coefB、coefC、coefDMDCT系数组
700译码部
701、702、703逆编码部
705缩放部
706编码部
711、712、coefBCD结合MDCT系数组
750逆量化部
754、754D参数基准统一部
755参数结合部
756参数更新部
757量化部
761参数
762统一参数
763、764结合参数
765更新参数
Claims (20)
1.一种结合装置,将从多个站点的每一个发送的多个编码比特流进行结合,该编码比特流包含多个音频输入信号被降混后的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流,该结合装置的特征为,具备:
检测部,在规定的时间内,对上述多个编码比特流中的、作为有效的编码比特流的有效编码比特流进行检测;
第一结合部,仅对多个上述降混子流中的、多个上述有效编码比特流所包含的多个上述降混子流进行结合,由此生成结合降混子流;
第二结合部,仅对多个上述参数子流中的、多个上述有效编码比特流所包含的多个上述参数子流进行结合,由此生成结合参数子流;以及
发送部,将包含上述结合降混子流和上述结合参数子流的结合比特流向上述多个站点发送。
2.如权利要求1所述的结合装置,其特征在于,
上述第一结合部具备:
译码部,仅对多个上述降混子流中的、上述有效编码比特流所包含的上述降混子流进行译码,由此生成多个译码降混子流;
加法部,对上述多个译码降混子流进行加法,由此生成1个以上的中间结合降混子流;以及
编码部,对上述1个以上的中间结合降混子流进行编码,由此生成1个以上的上述结合降混子流。
3.如权利要求1或2所述的结合装置,其特征在于,
上述第一结合部,对于上述多个站点的每一个,对上述多个有效编码比特流所包含的上述多个降混子流中的、从该站点以外的站点发送的多个降混子流进行结合,由此生成与该站点相对应的结合降混子流;
上述第二结合部,对于上述多个站点的每一个,对上述多个有效编码比特流所包含的上述多个参数子流中的、从该站点以外的站点发送的多个参数降混子流进行结合,由此生成与该站点相对应的结合参数子流;
上述发送部,将包含上述结合降混子流以及上述结合参数子流的结合比特流,向对应的站点发送;
在上述多个编码比特流中的、作为上述有效编码比特流以外的编码比特流的非有效编码比特流的数量为2以上的情况下,
(1)上述第一结合部,对所有的有效编码比特流所包含的多个降混子流进行结合,由此生成共通结合降混子流;
(2)上述第二结合部,对所有的有效编码比特流所包含的多个参数子流进行结合,由此生成共通结合参数子流;
(3)上述发送部,将包含上述共通结合降混子流以及上述共通结合参数子流的共通结合比特流,向2个以上的上述非有效编码比特流的发送源的站点发送。
4.如权利要求1~3中任意一项所述的结合装置,其特征在于,
在上述有效编码比特流的数量为2的情况下,上述发送部将2个上述有效编码比特流的一方即第一编码比特流,原样地向2个上述有效编码比特流的另一方即第二编码比特流的发送源的站点发送,并将上述第二编码比特流原样地向上述第一编码比特流的发送源的站点发送。
5.如权利要求1~4中任意一项所述的结合装置,其特征在于,
在上述有效编码比特流的数量为1的情况下,上述发送部将上述有效编码比特流原样地向该有效编码比特流的发送源的站点以外的站点发送。
6.如权利要求1~5中任意一项所述的结合装置,其特征在于,
上述检测部使用上述多个参数子流所包含的信息,对上述有效编码比特流进行检测。
7.如权利要求1或2所述的结合装置,其特征在于,
上述第一结合部,对所有的有效编码比特流所包含的多个上述降混子流进行结合,由此生成上述单一的结合降混子流;
上述第二结合部,对所有的有效编码比特流所包含的多个上述参数子流进行结合,由此生成上述单一的结合参数子流;
上述发送部,将包含上述单一的结合降混子流和上述单一的结合参数子流的单一结合比特流,向上述多个站点的全部发送。
8.如权利要求7所述的结合装置,其特征在于,
上述结合装置还具备辅助信息生成部,该辅助信息生成部对于作为上述有效编码比特流的发送源的活动站点的每一个生成辅助信息,该辅助信息用于确定上述单一结合比特流的信号成分中、与由该活动站点发送的上述编码比特流相对应的信号成分;
上述发送部将多个上述辅助信息的每一个向对应的活动站点发送。
9.如权利要求8所述的结合装置,其特征在于,
上述辅助信息生成部对于上述活动站点的每一个生成上述辅助信息,该辅助信息用于确定上述单一结合参数子流所包含的参数中、与由该活动站点发送的上述参数子流相对应的参数。
10.如权利要求1~9中任意一项所述的结合装置,其特征在于,
上述第二结合部具备参数基准统一部,该参数基准统一部在上述多个参数子流由不同的参数表现基准表现的情况下,将该多个参数子流的参数表现基准转换为单一的统一参数表现基准,由此生成多个统一参数;
上述第二结合部对上述多个统一参数进行结合,由此生成上述结合参数子流。
11.如权利要求10所述的结合装置,其特征在于,
上述结合装置还具备参数基准选择部,该参数基准选择部根据能够在从该结合装置向上述多个站点的发送中使用的当前的比特率,从多个参数表现基准中选择上述统一参数表现基准。
12.如权利要求10所述的结合装置,其特征在于,
上述结合装置还具备参数基准选择部,该参数基准选择部根据表示上述结合参数子流的比特数的比特成本,从多个参数表现基准中选择上述统一参数表现基准。
13.如权利要求2所述的结合装置,其特征在于,
在上述多个音频输入信号被降混后,上述降混子流在被转换到频谱域的基础上,被进行编码;
上述译码部对上述降混子流进行译码,由此生成上述频谱域的上述译码降混子流;
上述加法部,对上述频谱域的上述多个译码降混子流进行加法,由此生成上述1个以上的中间结合降混子流。
14.如权利要求13所述的结合装置,其特征在于,
上述第一结合部还具备缩放部,该缩放部对上述中间结合降混子流进行缩放,以便上述多个译码降混子流的频谱功率被保存在上述中间结合降混子流中;
上述编码部对通过上述缩放部所缩放的上述中间结合降混子流进行编码,由此生成上述结合降混子流。
15.如权利要求13所述的结合装置,其特征在于,
上述第二结合部具备:
逆量化部,对多个参数子流进行逆量化,由此生成多个逆量化参数;
参数结合部,对上述逆量化参数进行结合,由此生成结合参数;
参数更新部,对上述结合参数所包含的参数中的一部分参数进行更新,由此生成更新参数;以及
量化部,对上述结合参数所包含的参数中的上述一部分参数以外的参数、和上述更新参数进行量化,由此生成上述结合参数子流。
16.一种远程通信系统,其特征在于,包括:
多个站点,该站点包括生成编码比特流的编码装置,该编码比特流包含多个音频输入信号被降混的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流;和
权利要求1所述的结合装置,该结合装置对由上述多个站点发送的多个上述编码比特流进行结合,由此生成结合比特流,并将生成的上述结合比特流向上述多个站点发送;
上述多个站点的每一个还包括译码装置,该译码装置对上述结合比特流进行译码,由此生成音频输出信号。
17.一种远程通信系统,其特征在于,包括:
多个站点,该站点包括生成编码比特流的编码装置,该编码比特流包含多个音频输入信号被降混的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流;和
权利要求8所述的结合装置,该结合装置对由上述多个站点发送的多个上述编码比特流进行结合,由此生成结合比特流,并将生成的上述结合比特流向上述多个站点发送;
上述多个站点的每一个还包括译码装置,该译码装置对上述结合比特流进行译码,由此生成音频输出信号;
上述译码装置使用上述辅助信息,生成将上述单一的结合比特流的信号成分中、与由具备该译码装置的站点发送的上述编码比特流相对应的信号成分除去后的上述音频输出信号。
18.一种结合方法,将从多个站点的每一个发送的多个编码比特流进行结合,该编码比特流包含多个音频输入信号被降混的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流,该结合方法的特征为,具备:
检测步骤,在规定的时间内,对上述多个编码比特流中的、作为有效的编码比特流的有效编码比特流进行检测;
第一结合步骤,仅对多个上述降混子流中的、多个上述有效编码比特流所包含的多个上述降混子流进行结合,由此生成结合降混子流;
第二结合步骤,仅对多个上述参数子流中的、多个上述有效编码比特流所包含的多个上述参数子流进行结合,由此生成结合参数子流;以及
发送步骤,将包含上述结合降混子流和上述结合参数子流的结合比特流向上述多个站点发送。
19.一种程序,其特征在于,
使计算机执行权利要求18所述的结合方法。
20.一种集成电路,将从多个站点的每一个发送的多个编码比特流进行结合,该编码比特流包含多个音频输入信号被降混的降混子流、和用于将该降混子流恢复为多个音频输入信号的参数子流,该集成电路的特征为,具备:
检测部,在规定的时间内,对上述多个编码比特流中的、作为有效的编码比特流的有效编码比特流进行检测;
第一结合部,仅对多个上述降混子流中的、多个上述有效编码比特流所包含的多个上述降混子流进行结合,由此生成结合降混子流;
第二结合部,仅对多个上述参数子流中的、多个上述有效编码比特流所包含的多个上述参数子流进行结合,由此生成结合参数子流;以及
发送部,将包含上述结合降混子流和上述结合参数子流的结合比特流向上述多个站点发送。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009024304 | 2009-02-04 | ||
JP2009-024304 | 2009-02-04 | ||
PCT/JP2010/000666 WO2010090019A1 (ja) | 2009-02-04 | 2010-02-04 | 結合装置、遠隔通信システム及び結合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102016982A true CN102016982A (zh) | 2011-04-13 |
CN102016982B CN102016982B (zh) | 2014-08-27 |
Family
ID=42541928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080001336.XA Expired - Fee Related CN102016982B (zh) | 2009-02-04 | 2010-02-04 | 结合装置、远程通信系统以及结合方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8504184B2 (zh) |
JP (1) | JP5377505B2 (zh) |
CN (1) | CN102016982B (zh) |
WO (1) | WO2010090019A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104756186A (zh) * | 2012-08-03 | 2015-07-01 | 弗兰霍菲尔运输应用研究公司 | 用于使用多声道下混合/上混合情况的参数化概念的多实例空间音频对象编码的解码器及方法 |
TWI560701B (en) * | 2013-07-22 | 2016-12-01 | Fraunhofer Ges Forschung | Apparatus and method for enhanced spatial audio object coding |
US9743210B2 (en) | 2013-07-22 | 2017-08-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
US10249311B2 (en) | 2013-07-22 | 2019-04-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101040086B1 (ko) * | 2009-05-20 | 2011-06-09 | 전자부품연구원 | 오디오 생성방법, 오디오 생성장치, 오디오 재생방법 및 오디오 재생장치 |
CN102844808B (zh) * | 2010-11-03 | 2016-01-13 | 华为技术有限公司 | 用于编码多通道音频信号的参数编码器 |
MX342150B (es) * | 2012-07-09 | 2016-09-15 | Koninklijke Philips Nv | Codificacion y decodificacion de señales de audio. |
ES2595220T3 (es) | 2012-08-10 | 2016-12-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y métodos para adaptar información de audio a codificación de objeto de audio espacial |
WO2014148848A2 (ko) * | 2013-03-21 | 2014-09-25 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 크기 제어 방법 및 장치 |
EP3198594B1 (en) * | 2014-09-25 | 2018-11-28 | Dolby Laboratories Licensing Corporation | Insertion of sound objects into a downmixed audio signal |
CA3076703C (en) * | 2017-10-04 | 2024-01-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6128649A (en) * | 1997-06-02 | 2000-10-03 | Nortel Networks Limited | Dynamic selection of media streams for display |
JP2000174909A (ja) | 1998-12-08 | 2000-06-23 | Nec Corp | 会議端末制御装置 |
US6934906B1 (en) * | 1999-07-08 | 2005-08-23 | At&T Corp. | Methods and apparatus for integrating external applications into an MPEG-4 scene |
US20040024580A1 (en) * | 2002-02-25 | 2004-02-05 | Oak Technology, Inc. | Server in a media system |
EP1427252A1 (en) * | 2002-12-02 | 2004-06-09 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for processing audio signals from a bitstream |
FR2859495B1 (fr) * | 2003-09-09 | 2005-10-07 | Technip France | Methode d'installation et de connexion d'une conduite sous-marine montante |
US20060156531A1 (en) * | 2005-01-14 | 2006-07-20 | Dwileski Mark D Jr | Pipe aligning device and method of use thereof |
EP1851866B1 (en) | 2005-02-23 | 2011-08-17 | Telefonaktiebolaget LM Ericsson (publ) | Adaptive bit allocation for multi-channel audio encoding |
US9626973B2 (en) | 2005-02-23 | 2017-04-18 | Telefonaktiebolaget L M Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
JP4936688B2 (ja) * | 2005-07-19 | 2012-05-23 | パナソニック株式会社 | 中継装置、通信端末装置、信号復号化装置、信号処理方法、および信号処理プログラム |
JP4644813B2 (ja) | 2006-02-27 | 2011-03-09 | 国立大学法人東京農工大学 | 多者間通話システム、多者間通話システムにおける通話端末および通話サーバ、多者間通話方法 |
ES2380059T3 (es) * | 2006-07-07 | 2012-05-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para combinar múltiples fuentes de audio codificadas paramétricamente |
RU2009111270A (ru) | 2006-08-30 | 2010-10-10 | Нек Корпорейшн (Jp) | Способ смешения речи и сервер многоточечной конференции и программа, использующая этот способ |
WO2008039043A1 (en) * | 2006-09-29 | 2008-04-03 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
EP2084901B1 (en) * | 2006-10-12 | 2015-12-09 | LG Electronics Inc. | Apparatus for processing a mix signal and method thereof |
JP5337941B2 (ja) | 2006-10-16 | 2013-11-06 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | マルチチャネル・パラメータ変換のための装置および方法 |
JP5254983B2 (ja) * | 2007-02-14 | 2013-08-07 | エルジー エレクトロニクス インコーポレイティド | オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置 |
JP5291096B2 (ja) * | 2007-06-08 | 2013-09-18 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
EP2164238B1 (en) | 2007-06-27 | 2013-01-16 | NEC Corporation | Multi-point connection device, signal analysis and device, method, and program |
CN102138176B (zh) * | 2008-07-11 | 2013-11-06 | 日本电气株式会社 | 信号分析装置、信号控制装置及其方法 |
-
2010
- 2010-02-04 WO PCT/JP2010/000666 patent/WO2010090019A1/ja active Application Filing
- 2010-02-04 US US12/935,797 patent/US8504184B2/en not_active Expired - Fee Related
- 2010-02-04 JP JP2010532766A patent/JP5377505B2/ja not_active Expired - Fee Related
- 2010-02-04 CN CN201080001336.XA patent/CN102016982B/zh not_active Expired - Fee Related
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104756186B (zh) * | 2012-08-03 | 2018-01-02 | 弗劳恩霍夫应用研究促进协会 | 用于使用多声道下混合/上混合情况的参数化概念的多实例空间音频对象编码的解码器及方法 |
CN104756186A (zh) * | 2012-08-03 | 2015-07-01 | 弗兰霍菲尔运输应用研究公司 | 用于使用多声道下混合/上混合情况的参数化概念的多实例空间音频对象编码的解码器及方法 |
US10176812B2 (en) | 2012-08-03 | 2019-01-08 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases |
US10249311B2 (en) | 2013-07-22 | 2019-04-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
US10659900B2 (en) | 2013-07-22 | 2020-05-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US9788136B2 (en) | 2013-07-22 | 2017-10-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US9699584B2 (en) | 2013-07-22 | 2017-07-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
US9578435B2 (en) | 2013-07-22 | 2017-02-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for enhanced spatial audio object coding |
TWI560701B (en) * | 2013-07-22 | 2016-12-01 | Fraunhofer Ges Forschung | Apparatus and method for enhanced spatial audio object coding |
US10277998B2 (en) | 2013-07-22 | 2019-04-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US9743210B2 (en) | 2013-07-22 | 2017-08-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
US10701504B2 (en) | 2013-07-22 | 2020-06-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
US10715943B2 (en) | 2013-07-22 | 2020-07-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
US11227616B2 (en) | 2013-07-22 | 2022-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
US11330386B2 (en) | 2013-07-22 | 2022-05-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
US11337019B2 (en) | 2013-07-22 | 2022-05-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US11463831B2 (en) | 2013-07-22 | 2022-10-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
US11910176B2 (en) | 2013-07-22 | 2024-02-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US11984131B2 (en) | 2013-07-22 | 2024-05-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
Also Published As
Publication number | Publication date |
---|---|
JPWO2010090019A1 (ja) | 2012-08-09 |
WO2010090019A1 (ja) | 2010-08-12 |
CN102016982B (zh) | 2014-08-27 |
US8504184B2 (en) | 2013-08-06 |
JP5377505B2 (ja) | 2013-12-25 |
US20110029113A1 (en) | 2011-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102016982B (zh) | 结合装置、远程通信系统以及结合方法 | |
CN101160619B (zh) | 音频编码器及相应的编码方法 | |
CN1942928B (zh) | 用于处理音频信号的模块和方法 | |
CN1910655B (zh) | 构造多通道输出信号或生成下混信号的设备和方法 | |
CN102270452B (zh) | 近透明或透明的多声道编码器/解码器方案 | |
US8386269B2 (en) | Multi-channel audio encoding and decoding | |
US7299190B2 (en) | Quantization and inverse quantization for audio | |
CN1926610B (zh) | 合成单声道音频信号的方法、音频解码器和编码系统 | |
RU2466469C2 (ru) | Аудиодекодер | |
CN100571043C (zh) | 一种空间参数立体声编解码方法及其装置 | |
KR101679083B1 (ko) | 2개의 블록 변환으로의 중첩 변환의 분해 | |
CN105164749B (zh) | 多声道音频的混合编码 | |
CN101031961B (zh) | 对编码信号进行处理的方法和装置 | |
CN101896968A (zh) | 音频编码装置及其方法 | |
JPWO2010013450A1 (ja) | 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム | |
WO2007011157A1 (en) | Virtual source location information based channel level difference quantization and dequantization method | |
CA2870884A1 (en) | Systems and methods for implementing efficient cross-fading between compressed audio streams | |
JP2013137563A (ja) | ストリーム合成装置、復号装置、ストリーム合成方法、復号方法、およびコンピュータプログラム | |
CN104704557B (zh) | 用于在空间音频对象编码中适配音频信息的设备和方法 | |
AU2020372899A1 (en) | Bitrate distribution in immersive voice and audio services | |
KR20220042166A (ko) | Ivas 비트스트림들의 인코딩 및 디코딩 | |
Wu et al. | Perceptual Audio Object Coding Using Adaptive Subband Grouping with CNN and Residual Block | |
van Schijndel et al. | Adaptive RD optimized hybrid sound coding | |
Rumsey | Improving Low Bit-Rate Coding | |
CN103733256A (zh) | 音频信号处理方法、音频编码设备、音频解码设备和采用所述方法的终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140827 Termination date: 20200204 |