CN102119413A - 声信号处理系统、声信号解码设备、该系统和设备中的处理方法、以及程序 - Google Patents
声信号处理系统、声信号解码设备、该系统和设备中的处理方法、以及程序 Download PDFInfo
- Publication number
- CN102119413A CN102119413A CN2010800022072A CN201080002207A CN102119413A CN 102119413 A CN102119413 A CN 102119413A CN 2010800022072 A CN2010800022072 A CN 2010800022072A CN 201080002207 A CN201080002207 A CN 201080002207A CN 102119413 A CN102119413 A CN 102119413A
- Authority
- CN
- China
- Prior art keywords
- window
- signal
- frequency
- output
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 186
- 238000003672 processing method Methods 0.000 title 1
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 21
- 239000000203 mixture Substances 0.000 claims description 17
- 238000013519 translation Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 abstract description 19
- 230000009466 transformation Effects 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000013139 quantization Methods 0.000 abstract 1
- 238000000926 separation method Methods 0.000 abstract 1
- 230000015572 biosynthetic process Effects 0.000 description 45
- 238000003786 synthesis reaction Methods 0.000 description 45
- 230000006870 function Effects 0.000 description 18
- 238000007792 addition Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 10
- 230000008878 coupling Effects 0.000 description 8
- 238000010168 coupling process Methods 0.000 description 8
- 238000005859 coupling reaction Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000011002 quantification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
在实现适当的输出声信号的生成的同时,对于从频域到时域的信号变换处理,减小声信号解码设备中的计算量。输出控制单元340从代码串分离单元310接收窗口信息,并且如果所有窗口信息相同,则将输出开关单元351至355的连接切换到频域混合单元510,这些窗口信息包括示出与输入信道的窗口化处理有关的窗口函数类型的窗口形状。基于使输出信道的数目小于输入信道的数目的向下混合信息,频域混合单元510混合从解码/去量化单元320提供的五个信道的频域信号。IMDC/窗口化处理单元521和522将从频域混合单元510输出的两个信道的频域信号变换成时域信号,从而输出这些信号作为两个信道的声信号。
Description
技术领域
本发明涉及一种声信号处理系统,并且具体地涉及对经编码的声信号进行向下混合(downmix)的声信号处理系统、声信号解码设备、该系统和设备中的处理方法、以及使计算机执行该方法的程序。
背景技术
常规地,作为声信号编码设备,通常使用以下设备:该设备通过将多个输入信道的声信号变换到频域并对通过该变换获得的频域信号进行编码来生成经编码的声数据。因此,对经编码的声数据进行解码从而将频域信号变换成时域信号并输出这些信号作为输出声信号的声信号解码设备已经变得普遍。
许多这样的声信号解码设备具有以下功能:基于用于将输出声信号的输出信道的数目减小到输入信道的数目以下的加权系数,输出与小于输入信道的数目的输出信道的数目相对应的输出声信号。例如,已提出了一种编码音频解码设备,其通过在将各输入信道的频域信号变换成时域信号之前利用加权系数执行加权加法来输出与输出信道的数目相对应的经解码的音频(例如参见PTL1)。
在该编码音频解码设备中,基于示出关于各频域信号的变换长度的变换函数选择信息,通过根据其变换长度使输入信道的频域信号彼此相关联来执行加权加法。这是因为,除非对各输入信道的频域信号执行的窗口化处理是相同的,否则无法对输入信道的频域信号执行加权加法(混合)。
引用文献列表
专利文献
PTL1:日本专利第3279228号(图1)
发明内容
技术问题
在上述相关技术中,对频域信号执行加权加法,由此可将频域信号的信道的数目减小到输入信道的数目之下。因此,可减少用于将频域信号变换成时域信号的计算处理。然而,仅根据关于各信道的频域信号的变换长度的类型来确定是否可执行频域上的加权加法,并且因此,如果频域信号的变换长度是相同的,即使施加于频域信号的窗口形状彼此不同,仍可以混合频域信号。
例如,在AAC(高级音频编码)方法中,基于输入声信号的特性,既可改变变换长度,又可改变窗口形状的类型。因此,如果仅基于频域信号的变换长度来确定是否可执行频域上的混合,则可能将具有不同窗口形状的频域信号混合到一起,使得在某些情况下无法生成适当的输出声信号。
鉴于这种情况,做出了本发明,并且其目的是在实现适当的输出声信号的生成的同时,对于从频域到时域的信号变换处理,减少声信号解码设备的计算量。
问题的解决方案
做出了本发明以解决上述问题,并且本发明的第一方面是一种声信号解码设备、用于该设备的处理方法以及使计算机执行该方法的程序,该声信号解码设备包括:输出控制单元,其被配置成基于窗口信息来执行控制以同时输出具有相同窗口信息的频域信号,该窗口信息包括示出窗口函数类型的窗口形状,该窗口函数类型与通过对多个输入信道的声信号执行窗口化处理获得的频域信号有关;频域混合单元,其被配置成基于向下混合信息来混合具有相同窗口信息的输入信道的频域信号,并且输出这些信号作为与小于输入信道的数目的输出信道的数目相对应的频域信号;以及输出声音生成单元,其被配置成通过将从频域混合单元输出的输出信道的频域信号变换成时域信号并通过对通过该变换获得的时域信号执行窗口化处理来生成输出信道的声信号。因此,提供了以下操作:基于向下混合信息,将具有包括示出窗口函数类型的窗口形状的相同窗口信息的频域信号混合,由此将与小于输入信道的数目的输出信道的数目相对应的频域信号变换成时域信号,以生成对应于输出信道的数目的声信号。
另外,在第一方面中,针对多条窗口信息中的各个组合,频域混合单元可以基于向下混合信息来混合输入信道的频域信号,并且输出声音生成单元可以通过将已对其执行窗口化处理的各个组合的时域信号相加来生成输出信道的声信号。因此,提供了以下操作:针对多条窗口信息中的各个组合,由频域混合单元基于向下混合信息将频域信号相加,从而生成输出信道的声信号。在这种情况下,在多条窗口信息中的组合的数目与输出信道的数目的乘积值小于输入信道的数目的情况下,输出控制单元可以将输入信道的频域信号同时输出到频域混合单元。因此,仅在窗口信息中的组合的数目与输出信道的数目的乘积值小于输入信道的数目的情况下,可以基于向下混合信息,通过混合输入信道的频域信号来生成输出信道的频域信号。
另外,在第一方面中,输出控制单元可以基于窗口信息来控制频域信号的输出,该窗口信息是基于输入信道的声信号设置的并且包括示出窗口类型的窗口化形式,并且输出声音生成单元可以基于窗口信息中示出的窗口化形式和窗口函数类型,通过对输出信道的频域信号执行窗口化处理来生成输出信道的声信号。因此,提供了以下操作:基于窗口信息中的窗口化形式和窗口形状的组合来混合各信道的频域信号以生成输出信道的频域信号,将所生成的频域信号变换成时域信号,并且基于窗口信息对这些时域信号执行窗口化处理,从而生成声信号。在这种情况下,输出控制单元可以基于针对窗口化形式中的前半部分和后半部分示出窗口形状的窗口信息来控制频域信号的输出。因此,提供了以下操作:由输出控制单元基于针对窗口化形式中的变换长度的前半部分和后半部分示出窗口形状的窗口信息来切换频域信号的输出。
另外,本发明的第二方面是一种声信号处理系统,其包括声信号编码设备,该声信号编码设备包括:窗口化处理单元,其被配置成对多个输入信道的声信号执行窗口化处理并生成包括示出窗口化处理中的窗口函数类型的窗口形状的窗口信息;以及频率转换单元,其被配置成将从窗口化处理单元输出的声信号变换到频域,从而生成频域信号,并且该声信号处理系统包括声信号解码设备,该声信号解码设备包括:输出控制单元,其被配置成执行控制以同时输出频域信号,这些频域信号是从声信号编码设备输出的并且具有相同的与输入信道的频域信号有关的窗口信息;频域混合单元,其被配置成基于向下混合信息来混合具有相同窗口信息的输入信道的频域信号,并且输出这些信号作为与小于输入信道的数目的输出信道的数目相对应的频域信号;以及输出声音生成单元,其被配置成通过将从频域混合单元输出的输出信道的频域信号变换成时域信号并通过对通过该变换获得的时域信号执行窗口化处理来生成输出信道的声信号。因此,提供了以下操作:将对应于输出信道的数目的频域信号变换成时域信号,这些频域信号是通过基于向下混合信息来混合由声信号编码设备生成的输入信道的频域信号之中的具有相同窗口信息的频域信号而生成的,并且对通过该变换获得的时域信号执行窗口化处理,从而生成输出通道的声信号。
发明的有益效果
根据本发明,能够获得以下有益效果:在实现适当的输出声信号的生成的同时,对于从频域到时域的信号变换处理,可以减小声信号解码设备中的计算量。
附图说明
图1是示出了根据本发明的第一实施例的声信号处理系统的配置示例的框。
图2是示出了根据本发明的第一实施例的声信号编码设备200的配置示例的框图。
图3是示出了由根据本发明的第一实施例的窗口化处理单元211至215生成的窗口信息中的组合的示例的图。
图4是示出了根据本发明的第一实施例的声信号解码设备300的配置示例的框图。
图5是示出了由根据本发明的第一实施例的声信号解码设备300执行的用于对代码串进行解码的方法的处理步骤示例的流程图。
图6是示出了根据本发明的第二实施例的声信号解码设备的配置示例的框图。
图7是示出了由根据本发明的第二实施例的第一至第五输出选择单元711至715选择输出目标的示例的图。
图8是示出了由根据本发明的第二实施例的第一至第十六IMDCT/窗口化处理单元731至733和741至743执行的窗口化处理的示例的图。
图9是示出了由根据本发明的第二实施例的声信号解码设备600执行的用于对代码串进行解码的方法的处理步骤示例的流程图。
图10是示出了根据本发明的第三实施例的声信号解码设备的配置示例的框图。
图11是示出了由根据本发明的第三实施例的声信号解码设备800执行的用于对代码串进行解码的方法的处理步骤示例的流程图。
具体实施方式
在下文中,将描述用于实施本发明的实施例(下文中称作实施例)。将按照以下顺序进行描述。
1.第一实施例(向下混合控制:基于窗口信息,在时域上的向下混合处理与频域上的向下混合处理之间切换的示例)
2.第二实施例(向下混合控制:基于窗口信息,仅利用频域信号执行向下混合处理的示例)
3.第三实施例(向下混合控制:基于窗口信息的组合的数目,在时域上的向下混合处理与频域上的向下混合处理之间切换的示例)
<1.第一实施例>
[声信号编码设备的配置示例]
图1是示出了根据本发明的第一实施例的声信号处理系统的配置示例的框。声信号处理系统100包括:声信号编码设备200,其对与多个输入信道的数目相对应的声信号进行编码;以及声信号解码设备300,其对经编码的声信号进行解码并以小于输入信道的数目的输出信道的数目将其输出。另外,声信号处理系统100包括两个扬声器:以声波形式输出从声信号解码设备300输出的两个信道的声信号的右信道扬声器110和左信道扬声器120。
声信号编码设备200将从输入端子101至105输入的五个信道的声信号变换成数字信号,并且对通过该变换获得的数字信号进行编码。向声信号编码设备200提供来自输入端子101的右环绕信道(Rs)的声信号,提供来自输入端子102的右信道(R)的声信号,并提供来自输入端子103的中央信道(C)的声信号。此外,向声信号编码设备200提供来自输入端子104的左信道(L)的声信号,并提供来自输入端子105的左环绕信道(Ls)的声信号。
声信号编码设备200对从输入端子101至105提供的、输入信道的数目为五的各声信号执行编码。另外,声信号编码设备200复用(multiplex)各经编码的声信号和关于该编码的信息,从而将其作为经编码的声数据经由代码串传输线301提供给声信号解码设备300。
声信号解码设备300对从代码串传输线301提供的经编码的声数据进行解码,从而生成与小于输入信道的数目的输出信道的数目相对应的两个信道的声信号。声信号解码设备300从经编码的声数据中提取经编码的声信号,并且对所提取的五个信道的经编码的声数据进行解码,从而生成两个信道的声信号。
另外,声信号解码设备300经由信号线111将所生成的两个信道的声信号之一(即右信道的声信号)输出到右信道扬声器110。另外,声信号解码设备300经由信号线121将另一信号(即左信道的声信号)输出到左信道扬声器120。
以这种方式,在声信号处理系统100中,由声信号解码设备300对被声信号编码设备200编码的五个信道的声信号进行解码,使得两个信道的声信号输出到扬声器110和120。注意,声信号处理系统100是权利要求中描述的声信号处理系统的示例。
注意,尽管这里在假定输入信道的数目和输出信道的数目分别是五和二的情况下已给出描述作为示例,但是本发明并不局限于此。在本发明的实施例中,输出信道的数目可以小于输入信道的数目。例如,输入信道的数目可以为三,并且输出信道的数目可以为一。接下来,下面将参照附图描述声信号编码设备200的具体配置示例。
[声信号编码设备200的配置示例]
图2是示出了根据本发明的第一实施例的声信号编码设备200的配置示例的框图。这里,作为示例,假定通过AAC标准实现声信号编码设备200。
声信号编码设备200包括窗口化处理单元211至215、MDCT单元231至235、量化单元241至245、代码串生成单元250、以及向下混合信息接收单元260。
根据各输入信道的声信号的特性,窗口化处理单元211至215分别对从输入端子101至105输入的各输入信道的声信号执行窗口化处理。也就是,窗口化处理单元211对右环绕信道的声信号执行窗口化处理,窗口化处理单元212对右信道的声信号执行窗口化处理,并且窗口化处理单元213对中央信道的声信号执行窗口化处理。另外,窗口化单元214对左信道的声信号执行窗口化处理,并且窗口化单元215对左环绕信道的声信号执行窗口化处理。
具体地,窗口化处理单元211至215以特定周期对声信号进行采样,并生成时域信号作为帧,该时域信号是通过该采样获得的2048个样本的离散信号。窗口化处理单元211至215使前一帧位移半帧(1024个样本),以生成下一帧。
也就是,窗口化处理单元211至215生成下一帧,使得前一帧的后半部分(半帧)与下一帧的前半部分重叠。因此,可以抑制在MDCT单元231至235中通过MDCT(修正离散余弦变换)生成的频域信号的数据量。
另外,窗口化处理单元211至215对帧执行窗口化处理,以抑制通过将声信号划分成帧而出现的失真。具体地,根据AAC的规定,基于各信道的时域信号的特性,窗口化处理单元211至215针对一个帧从表示四种窗口类型的窗口化形式之中选择窗口化形式。
窗口化处理单元211至215针对所选择的窗口化形式中的前半部分和后半部分中的每一个,选择表示两种窗口函数类型的窗口形状中的任一个。此时,窗口化处理单元211至215选择与前一帧的后半部分相同的窗口形状作为当前帧的前半部分的窗口形状,以消除当前帧与前一帧之间的连接失真。也就是,窗口化处理单元211至215针对在当前帧与前一帧之间的重叠部分选择相同的窗口形状。
基于所选择的窗口化形式和关于该形式的前半部分和后半部分的窗口形状,窗口化处理单元211至215对时域信号执行窗口化处理,并生成示出窗口化形式和窗口形状的组合的窗口信息。
另外,窗口化处理单元211至215将已对其执行窗口化处理的各时域信号提供给MDCT单元231至235。另外,窗口化处理单元211至215经由窗口信息线221至225将各个输入信道的窗口信息提供给代码串生成单元250,以在声信号解码设备300中生成声信号。注意,窗口化处理单元211至215是权利要求中描述的声信号编码设备中的窗口化处理单元的示例。
MDCT单元231至235将从各个窗口化处理单元211至215提供的时域信号变换成频域信号。也就是,MDCT单元231至235将从窗口化处理单元211至215输出的声信号变换到频域,从而生成频域信号。具体地,MDCT单元231至235利用MDCT处理来变换时域信号,从而生成作为MDCT系数的频域信号(频谱)。
另外,MDCT单元231至235将作为所生成的频域信号的、已对其执行窗口化处理的各个频域信号提供给量化单元241至245。注意,MDCT单元231至235是权利要求中描述的声信号编码设备中的频率转换单元的示例。
量化单元241至245对从MDCT单元231至235提供的、对应于各个输入信道的各个频域信号进行量化。例如,量化单元241至245基于人类的听觉特性来执行量化,并鉴于由该听觉特性引起的遮蔽效应来控制量化噪声。另外,量化单元241至245将各个量化频域信号提供给代码串生成单元250。
向下混合信息接收单元260接收用于使输出信道的数目小于输入信道的数目的向下混合信息。例如,向下混合信息接收单元260接收用于对每个输入信道设置加权系数的向下混合系数的值。向下混合信息接收单元260将所接收的向下混合信息输出到代码串生成单元250。注意,虽然这里描述了在声信号编码设备200中设置向下混合信息的示例,但是可以在声信号解码设备300中设置向下混合信息。
代码串生成单元250对从量化单元241至245提供的量化频域信号、从窗口化处理单元211至215提供的窗口信息、以及从向下混合信息接收单元260提供的向下混合信息进行编码,从而生成一个代码串。代码串生成单元250通过分别对各输入信道的经量化的频域信号进行编码来生成经编码的声数据。
另外,编码串生成单元250将各输入信道的经编码的窗口信息和向下混合信息复用为经编码的声数据,从而将其作为一个代码串(比特流)提供给代码串传输线301。
以这种方式,声信号编码设备200基于各输入信道的声信号,从MDCT变换中的多个组合的窗口化处理之中选择一个窗口化处理,并且对时域信号执行所选择的窗口化处理。另外,声信号编码设备200经由代码串传输线301将经编码的声数据传输到声信号解码设备300,在该经编码的声数据中复用已对其执行窗口化处理的频域信号和关于这些频域信号的窗口信息。现在,下面将参照附图简要描述由各个窗口化处理单元211至215生成的窗口信息的组合。
[由窗口化处理单元211至215生成的窗口信息的示例]
图3是示出了由根据本发明的第一实施例的窗口化处理单元211至215生成的窗口信息中的窗口化形式和窗口形状的组合的示例的图。这里,作为窗口信息270中的组合,示出了窗口化形式271和关于窗口化形式271的前半部分和后半部分的窗口形状272的组合。
窗口化形式271示出了四种窗口化形式(长窗口、开始窗口、短窗口和停止窗口)作为窗口类型。另外,窗口化形式271在概念上表示关于一个帧的窗口化形式。这里,窗口化形式271中的实线部分对应于窗口形状272中的前半部分,并且窗口化形式271中的虚线部分对应于窗口形式272中的后半部分。
在窗口化形式271中,基本上,基于输入信道的声信号的特性来选择长窗口和短窗口中的任一个。窗口化形式271中的长窗口是具有2048个样本的变换长度(作为MDCT的变换区间)的窗口化形式,并且在声信号的水平的波动小的情况下选择该长窗口。
另一方面,窗口化形式271中的短窗口具有256个样本的MDCT的变换长度,并且在声信号的水平突然改变的情况(如在起声(attack sound)中那样)下选择该短窗口。这里,示出了八个短窗口。这是因为在选择短窗口的情况下,利用关于一个帧的八个短窗口生成频域信号。因此,与在长窗口中相比,可以准确地生成输入信道的声信号的频率分量,并且由此甚至在声信号的信号水平急剧改变的帧中也可以抑制听觉噪声。
另外,在窗口化形式271中,选择开始窗口或停止窗口,以根据长窗口与短窗口之间的切换来抑制相邻帧之间的连接失真。窗口化形式271中的开始窗口是具有2048个样本的MDCT的变换长度的窗口化形式,并且当执行从长窗口到短窗口的切换时选择该开始窗口。例如,在检测到起声的情况下,紧接在选择短窗口之前选择开始窗口。
另外,窗口化形式271中的停止窗口是具有2048个样本的MDCT的变换长度的窗口化形式,并且当执行从短窗口到长窗口的切换时选择该停止窗口。也就是,在起声部分结束之后,紧接在选择长窗口之前选择停止窗口。
在窗口形状272中的前半部分和后半部分中,示出两种窗口形状(正弦和KBD),作为施加到窗口化形式的窗口函数类型。对于这里的窗口形状272中的前半部分和后半部分,关于窗口化形式271中的当前变换区间,在时间轴上与前一变换区间重叠的区间是前半部分,并且与下一变换区间重叠的区间是后半部分。
窗口形状272中的正弦表示已选择正弦窗口作为窗口函数。窗口形状272中的KBD表示已选择KBD(Kaiser-Bessel推导)窗口作为窗口函数。另外,在MDCT处理中,对于当前帧中的与前一变换区间重叠的部分(前半部分或后半部分),需要选择与施加到前一变换区间相同的窗口形状,以抑制连接失真。
以这种方式,在窗口信息270中,基于四种窗口化形式和施加到这些窗口化形式中的前半部分和后半部分的两个窗口形状来选择窗口化处理,并且由此存在最大的十六个组合281至296。这里,由于输入信道是五个信道,所以窗口信息270中的组合的数目最大为五。接下来,下面将参照附图描述声信号解码设备300的配置示例。
[声信号解码设备300的配置示例]
图4是示出了根据本发明的第一实施例的声信号解码设备300的配置示例的框图。
声信号解码设备300包括代码串分离单元310、解码/去量化单元320、输出控制单元340、输出开关单元351至355、加法单元361和362、时域合成单元400以及频域合成单元500。另外,时域合成单元400包括IMDCT/窗口化处理单元411至415和时域混合单元420。
此外,频域合成单元500包括频域混合单元510和输出声音生成单元520。输出声音生成单元520包括IMDCT/窗口化处理单元521和522。
代码串分离单元310使从代码串传输线301提供的代码串分离。代码串分离单元310基于从代码串传输线301提供的代码串将代码串分离成输入信道的经编码的声数据、各输入信道的窗口信息以及向下混合信息。
另外,代码串分离单元310将各输入信道的经编码的声数据和窗口信息提供给解码/去量化单元320。也就是,代码串分离单元310将右环绕信道的经编码的声数据提供给信号线321,将右信道的经编码的声数据提供给信号线322,并且将中央信道的经编码的声数据提供给信号线323。此外,代码串分离单元310将左信道的经编码的声数据提供给信号线324,并且将左环绕信道的经编码的声数据提供给信号线325。
此外,代码串分离单元310经由窗口信息线311将各输入信道的窗口信息提供给输出控制单元340。另外,代码串分离单元310经由向下混合信息线312将向下混合信息提供给时域混合单元420和频域混合单元510。
解码/去量化单元320对各输入信道的经编码的声数据进行解码和去量化,从而生成作为MDCT系数的频域信号。解码/去量化单元320根据输出控制单元340的控制将各输入信道的所生成的频域信号和窗口信息提供给时域合成单元400和频域合成单元500中的任一个。
具体地,解码/去量化单元320分别将各输入信道的所生成的频域信号提供给输出开关单元351至355。也就是,解码/去量化单元320将右环绕信道的频域信号提供给信号线331,将右信道的频域信号提供给信号线332,并且将中央信道的频域信号提供给信号线333。此外,解码/去量化单元320将左信道的频域信号提供给信号线334,并且将左环绕信道的频域信号提供给信号线335。
输出开关单元351至355是用于根据输出控制单元340的控制将从信号线331至335提供的频域信号输出到时域合成单元400和频域合成单元500中的任一个的开关。输出开关单元351至355根据输出控制单元340的控制同时将所有输入信道的频域信号输出到IMDCT/窗口化处理单元411至415或频域混合单元510。
输出控制单元340基于包括在从窗口信息线311提供的各输入信道的窗口信息中的窗口化形式和窗口形状来切换输出开关单元351至355的连接。也就是,输出控制单元340基于图3中示出的窗口信息中的窗口化形式与窗口化形式中的前半部分和后半部分的窗口形状的组合来控制输入信道的频域信号的输出目标。
输出控制单元340确定各输入信道的窗口信息是否彼此匹配。于是,如果所有窗口信息匹配,则输出控制单元340控制输出开关单元351至355,以将信号线331至335连接到频域混合单元510。
另一方面,如果所有窗口信息不匹配,则输出控制单元340控制输出开关单元351至355,以将信号线331至335连接到IMDCT/窗口化处理单元411至415。也就是,输出控制单元340基于包括表示窗口函数类型的窗口形状的窗口信息来控制输出开关单元351至355,使得具有相同窗口信息的频域信号同时输出到频域混合单元510。注意,输出控制单元340是权利要求中描述的输出控制单元的示例。
时域合成单元400将输入信道的各频域信号变换成时域信号,并且随后基于从代码串分离单元310提供的向下混合信息将输入信道的时域信号合成为输出信道的时域信号。也就是,时域合成单元400将五个信道的频域信号变换成频域信号,并且然后基于向下混合信息将五个信道的时域信号合成为两个信道的时域信号。
IMDCT/窗口化处理单元411至415基于窗口信息和从信号线331至335提供的频域信号来生成输入信道的时域信号。IMDCT/窗口化处理单元411至415基于包括在窗口信息中的窗口化形式,利用IMDCT(逆MDCT)将各频域信号变换成时域信号。
另外,IMDCT/窗口化处理单元411至415基于从代码串分离单元310提供的窗口信息对通过该变换获得的时域信号执行窗口化处理。另外,IMDCT/窗口化处理单元411至415将已对其执行窗口化处理的各时域信号提供给时域混合单元420。
时域混合单元420基于从代码串分离单元310提供的向下混合信息来混合从IMDCT/窗口化处理单元411至415提供的五个信道的时域信号,从而生成两个信道的时域信号。也就是,时域混合单元420基于从代码串分离单元310提供的向下混合信息和输入信道的时域信号来生成比输入信道少的输出信道的时域信号。
例如,根据AAC的规定,时域混合单元420通过基于以下等式混合五个信道的时域信号来生成两个信道的时域信号。
[数1]
这里,Rs、R、C、L和Ls表示以下输入信道的时域信号:右环绕信道、右信道、中央信道、左信道和左环绕信道。另外,R′和L′表示以下输出信道的时域信号:右信道和左信道。
另外,A是向下混合系数,其选自以下四个值:1/√2、1/2、1/2·√2和0。这里,假定基于包括在经编码的声数据中的信息来设置向下混合系数A。
以这种方式,时域混合单元420基于从代码串分离单元310提供的与等式1有关的向下混合信息对五个信道的时域信号执行加权加法(混合),从而生成比输入信道少的两个信道的时域信号。这里,基于向下混合信息生成与小于输入信道的数目的输出信道的数目对应的信号被称作“向下混合”。
另外,时域混合单元420将两个信道的所生成的时域信号用作两个信道的声信号,输出到加法单元361和362。也就是,时域混合单元420将右信道的声信号输出到加法单元361并将左信道的声信号输出到加法单元362。
频域合成单元500基于从代码串分离单元310提供的向下混合信息将具有相同窗口信息的输入信道的频域信号合成为输出信道的频域信号,并且将所合成的频域信号变换成时域信号。也就是,频域合成单元500基于向下混合信息将五个信道的频域信号合成为两个信道的频域信号,并且将两个信道的频域信号变换成时域信号。
频域混合单元510基于从代码串分离单元310提供的向下混合信息来混合从信号线331至335提供的具有相同窗口信息的五个信道的频域信号,从而生成两个信道的频域信号。频域混合单元510基于从向下混合信息线312提供的与等式1有关的向下混合信息对五个信道的频域信号执行加权加法(混合),从而生成比输入信道少的两个信道的频域信号。因此,要输出到输出声音生成单元520的频域信号可从五个信道减少到两个信道。
另外,频域混合单元510将基于从代码串分离单元310提供的向下混合信息生成的两个输出信道的频域信号输出到输出声音生成单元520。也就是,频域混合单元510基于向下混合信息来混合具有相同的包括窗口形状的窗口信息的输入信道的频域信号,从而将其输出作为与小于输入信道的数目的输出信道的数目相对应的频域信号。频域混合单元510将右信道的频域信号输出到IMDCT/窗口化处理单元521,并且将左信道的频域信号输出到IMDCT/窗口化处理单元522。注意,频域混合单元510是权利要求中描述的频域混合单元的示例。
输出声音生成单元520将从频域混合单元510输出的输出信道的频域信号变换成时域信号,并对通过该变换获得的时域信号执行窗口化处理,从而生成输出信道的声信号。也就是,输出声音生成单元520基于窗口信息中表示的窗口化形式和窗口函数类型对输出信道的频域信号执行窗口化处理,从而生成输出信道的声信号。注意,输出声音生成单元520是权利要求中描述的输出声音生成单元的示例。
IMDCT/窗口化处理单元521和522基于从频域混合单元510输出的窗口信息将输出信道的频域信号变换成时域信号。IMDCT/窗口化处理单元521和522基于从频域混合单元510提供的窗口信息对通过该变换获得的时域信号执行窗口化处理。注意,在包括在窗口信息中的窗口形状不匹配的情况下,不能唯一指定窗口形状,并且由此无法将频域信号适当地变换成时域信号。另外,在包括在窗口信息中的窗口化形式不匹配的情况下,窗口化形式的变换长度不同,并且因此无法将频域信号变换成时域信号。
另外,IMDCT/窗口化处理单元521和522将已对其执行窗口化处理的各个时域信号输出到加法单元361和362,作为输出信道的声信号。也就是,IMDCT/窗口化处理单元521将已对其执行针对右信道的窗口化处理的时域信号输出到加法单元361,作为右信道的声信号。另外,IMDCT/窗口化处理单元522将已对其执行针对左信道的窗口化处理的时域信号输出到加法单元362,作为左信道的声信号。
加法单元361和362输出来自时域合成单元400和频域合成单元500的输出中的任一个。在由输出控制单元340将到信号线331至335的连接切换到时域合成单元400的情况下,加法单元361和362将从时域混合单元420提供的输出信道的声信号输出到信号线111和121。
另外,在由输出控制单元340将到信号线331至335的连接切换到频域合成单元500的情况下,加法单元361和362将从输出声音生成单元520提供的输出信道的声信号输出到信号线111和121。
以这种方式,通过提供输出控制单元340,可以确定输入信道中的包括表示窗口函数类型的窗口形状的窗口信息是否彼此匹配。因此,仅在所有输入信道的窗口信息匹配的情况下,窗口信息匹配的频域信号可以在彼此相关联的同时被输出到频域合成单元500。也就是,可以防止已对其执行不同窗口形状的窗口化处理的频域信号在彼此相关联的同时被输出到频域合成单元500。
因此,在所有窗口信息匹配的情况下,可以由频域混合单元510将频域信号减少为比输入信道少的输出信道的频域信号。因此,与在时域合成单元400中的情形相比,可以减少IMDCT的计算量。
[声信号解码设备300的操作示例]
接下来,将参照附图描述根据本发明的第一实施例的声信号解码设备300的操作。
图5是示出了由根据本发明的第一实施例的声信号解码设备300执行的用于对代码串进行解码的方法的处理步骤示例的流程图。
首先,从代码串传输线301提供的代码串被代码串分离单元310分离成输入信道的经编码的声数据、输入信道的窗口信息、向下混合信息等(步骤S911)。然后,由解码/去量化单元320对输入信道的经编码的声数据进行解码(步骤S912)。随后,由解码/去量化单元320对已被解码的经编码的声数据进行去量化,使得生成频域信号(步骤S913)。
接下来,基于从代码串分离单元310提供的各输入信道的窗口信息中包括的窗口形式和窗口形状,由输出控制单元340确定输入信道的所有窗口信息是否匹配(步骤S914)。然后,如果所有窗口信息匹配,则由输出控制单元340切换输出开关单元351至355的连接,使得输入信道的所有频域信号输出到频域合成单元500(步骤S919)。
也就是,由输出控制单元340基于包括表示窗口函数类型的窗口形状的窗口信息来控制输出开关单元351至355,使得在使其彼此相关联的同时输出具有相同窗口信息的频域信号。注意,步骤S914和S919是权利要求中描述的输出控制步骤的示例。
此后,由频域混合单元510基于从代码串分离单元310提供的向下混合信息来混合对应于输入信道的数目的频域信号,使得生成对应于输出信道的数目的频域信号(步骤S921)。也就是,由频域混合单元510基于向下混合信息来混合输入信道的频域信号,并且输出与小于输入信道的数目的输出信道的数目相对应的频域信号。注意,步骤S921是权利要求中描述的频域混合步骤的示例。
然后,由IMDCT/窗口化处理单元521和522利用IMDCT处理变换两个输出信道的频域信号,使得生成时域信号(步骤S922)。随后,由IMDCT/窗口化处理单元521和522对所生成的时域信号执行窗口化处理,使得输出这些信号作为输出信道的声信号(步骤S923)。
也就是,将从频域混合单元510提供的输出信道的频域信号变换成时域信号,并且由输出声音生成单元520对通过该变换获得的时域信号执行窗口化处理,使得生成输出信道的声信号。注意,步骤S922和S923是权利要求中描述的输出声音生成步骤的示例。
另一方面,如果在步骤S914中所有窗口信息不匹配,则由输出控制单元340切换输出开关单元351至355的连接,使得输入信道的所有频域信号输出到时域合成单元400(步骤S915)。此后,由IMDCT/窗口化处理单元411至415通过IMDCT处理来变换五个输入信道的频域信号,使得生成时域信号(步骤S916)。
随后,由IMDCT/窗口化处理单元411至415对所生成的时域信号执行窗口化处理,并且输出这些信号作为对应于输入信道的数目的时域信号(步骤S917)。然后,由时域混合单元420基于从代码串分离单元310提供的向下混合信息来混合对应于输入信道的数目的时域信号,并且输出这些信号作为输出信道的声信号(步骤S918)。然后,结束用于对代码串进行解码的方法中的处理。
如上所述,在本发明的第一实施例中,在包括在窗口信息中的所有窗口形状和窗口化形式匹配的情况下,混合输入信道的所有频域信号,使得可以生成与小于输入信道的数目的输出信道的数目相对应的频域信号。因此,频域信号的信道的数目减少,并且因此可以减少用于将频域信号变换成时域信号的时域变换(IMDCT)的计算处理。
注意,虽然这里给出了描述,作为在输入信道的所有窗口信息匹配的情况下的混合频域信号的示例,但是甚至在所有窗口信息不匹配的情况下,也可通过将频域信号混合来适当地生成声信号。接下来,下面将参照附图描述如下声信号解码设备的示例作为第二实施例:甚至在所有窗口信息不匹配的情况下,该声信号解码设备在不提供时域合成单元400的情况下也生成输出信道的声信号。
<2.第二实施例>
[声信号解码设备的配置示例]
图6是示出了根据本发明的第二实施例的声信号解码设备的配置示例的框图。声信号解码设备600包括频域合成单元700,来替代图4中示出的声信号解码设备300中的输出控制单元340、输出开关单元351至355、时域合成单元400、频域合成单元500以及加法单元361和362。这里,除了频域合成单元700之外的配置与图4中示出的配置相同,并且由此用与图4中相同的附图标记表示,并且这里将省略其详细描述。
频域合成单元700包括输出控制单元710、第一至第十六频域混合单元721至723以及输出声音生成单元730。另外,输出声音生成单元730包括对应于右信道的第一至第十六IMDCT/窗口化处理单元731至733、对应于左信道的第一至第十六IMDCT/窗口化处理单元741至743、以及加法单元751和752。
根据多个窗口信息中的窗口化形式和窗口形状的组合,输出控制单元710执行控制,以通过将输入信道的频域信号中的每个与对应于这些组合的第一至第十六频域混合单元721至723中的任一个相关联来输出输入信道的频域信号。注意,输出控制单元710是权利要求中描述的输出控制单元的示例。
该输出控制单元710包括对应于各个输入信道的第一至第五输出选择单元711至715。第一至第五输出选择单元711至715基于从代码串分离单元310提供的窗口信息中包括的窗口形状和窗口化形式的组合来选择从解码/去量化单元320提供的输入信道的频域信号的输出目标。例如,第一输出选择单元711基于右环绕信道的窗口信息中的窗口化形式和窗口形状的组合来选择从解码/去量化单元320提供的右环绕信道的频域信号的输出目标。
另外,第一至第五输出选择单元711至715将从解码/去量化单元320提供的每个频域信号提供给基于窗口信息中的组合选择的输出目标,也就是,提供给第一至第十六频域混合单元721至723中对应于该组合的任一个。例如,第一输出选择单元711基于右环绕信道的窗口信息中的组合将右环绕信道的频域信号输出到第一至第十六频域混合单元721至723中对应于该组合的任一个。另外,第一至第五输出选择单元711至715将窗口信息提供给第一至第十六频域混合单元721至723中对应于该组合的任一个。
第一至第十六频域混合单元721至723与图4中示出的频域混合单元510类似。基于经由向下混合信息线312从代码串分离单元310提供的向下混合信息,第一至第十六频域混合单元721至723根据多条窗口信息中的各个组合来混合输入信道的频域信号。第一至第十六频域混合单元721至723以小于输入信道的数目的输出信道的数目将输入信道的经混合的频域信号输出到第一至第十六IMDCT/窗口化处理单元731至733和741至743。
例如,第一频域混合单元721基于从第一至第四输出选择单元711至714提供的频域信号和向下混合信息将右信道和左信道的频域信号分别输出到第一IMDCT/窗口化处理单元731和741。另外,例如,第十六频域混合单元723基于从第五输出选择单元715提供的左环绕信道的频域信号和向下混合信息将左信道的频域信号输出到第十六IMDCT/窗口化处理单元743。
另外,第一至第十六频域混合单元721至723将从输出控制单元710提供的窗口信息输出到第一至第十六IMDCT/窗口化处理单元731至733和741至743。注意,第一至第十六频域混合单元721至723是权利要求中描述的频域混合单元的示例。
输出声音生成单元730将从第一至第十六频域混合单元721至723输出的输出信道的频域信号变换成时域信号,并对通过该变换获得的时域信号执行窗口化处理。输出声音生成单元730针对各个输出信道将已对其执行窗口化处理的时域信号相加,从而生成输出信道的声信号。注意,输出声音生成单元730是权利要求中描述的输出声音生成单元的示例。
第一至第十六IMDCT/窗口化处理单元731至733基于从第一至第十六频域混合单元721至723提供的右信道的频域信号和窗口信息,将输出信道的频域信号变换成时域信号。第一至第十六IMDCT/窗口化处理单元731至733基于从第一至第十六频域混合单元721至723提供的窗口信息对通过该变换获得的时域信号执行窗口化处理。
另外,第一至第十六IMDCT/窗口化处理单元731至733将已对其执行窗口化处理的各个时域信号输出到加法单元751。也就是,第一至第十六IMDCT/窗口化处理单元731至733将已对其执行针对右信道的窗口化处理的时域信号输出到加法单元751。
第一至第十六IMDCT/窗口化处理单元741至743基于从第一至第十六频域混合单元721至723提供的左信道的频域信号和窗口信息,将左信道的频域信号变换成时域信号。第一至第十六IMDCT/窗口化处理单元741至743基于从第一至第十六频域混合单元721至723提供的窗口信息对通过该变换获得的时域信号执行窗口化处理。另外,第一至第十六IMDCT/窗口化处理单元741至743将已对其执行窗口化处理的各个时域信号输出到加法单元752。
加法单元751和752将从第一至第十六IMDCT/窗口化处理单元731至733和741至743输出的时域信号相加,从而生成输出信道的声信号。加法单元751将从第一至第十六IMDCT/窗口化处理单元731至733提供的时域信号相加,从而经由信号线111输出右信道的声信号。加法单元752将从第一至第十六IMDCT/窗口化处理单元741至743提供的时域信号相加,从而经由信号线121输出左信道的声信号。
以这种方式,对应于窗口信息中的组合的第一至第十六频域混合单元721至723被提供为混合输入信道的频域信号,使得可以生成输出信道的声信号。现在,以下将参照附图简要描述由第一至第五输出选择单元711至715选择的输出目标的示例。
[由输出控制单元710选择输出目标的示例]
图7是示出了由根据本发明的第二实施例的第一至第五输出选择单元711至715选择输出目标的示例的图。这里,示出了针对窗口信息761中的每个组合的频域信号输出目标762。
窗口信息761示出了与由声信号编码设备200中的窗口化处理单元211至215执行的窗口化处理有关的窗口化形式和窗口形状的组合。窗口信息761中的组合的数目为十六,如参照图3所述。频域信号输出目标762示出了针对窗口信息761中的各个组合的输入信道的频域信号的输出目标。
在该示例中,当窗口信息中示出的窗口化形式是长窗口时并且当前半部分中和后半部分中的窗口形状是正弦窗口时,第一至第五输出选择单元711至715将频域信号输出到第一频域混合单元721。
以这种方式,针对窗口信息761中的各个组合,由第一至第五输出选择单元711至715选择输出目标,使得具有相同窗口信息的频域信号可以在彼此相关联的同时被输出到第一至第十六频域混合单元721至723。接下来,将参照附图描述该示例中第一至第十六IMDCT/窗口化处理单元731至733和741至743中的窗口化处理的示例。
[每个IMDCT/窗口化处理单元中的窗口化处理的示例]
图8是示出了与由根据本发明的第二实施例的第一至第十六IMDCT/窗口化处理单元731至733和741至743执行的窗口化处理有关的示例的图。这里,假定第一至第五输出选择单元711至715基于图7中示出的窗口信息761与频域信号输出目标762之间的对应关系来选择频域信号的输出目标。
这里,示出了与由第一至第十六IMDCT/窗口化处理单元731至733和741至743执行的窗口化处理有关的窗口化形式771和窗口形状772。在该示例中,第一IMDCT/窗口化处理单元731和741对时域信号执行以下窗口化处理:其应用长窗口的窗口化形式和该窗口化形式中的前半部分和后半部分中的正弦窗口的窗口形状。
以这种方式,第一至第十六IMDCT/窗口化处理单元731至733和741至743基于输入信道的频域信号和从输出控制单元710提供的窗口信息来生成输出信道的频域信号。
[声信号解码设备600的操作示例]
接下来,将参照附图描述根据本发明的第二实施例的声信号解码设备600的操作。
图9是示出了由根据本发明的第二实施例的声信号解码设备600执行的用于对代码串进行解码的方法的处理步骤示例的流程图。
首先,由代码串分离单元310将从代码串传输线301提供的代码示例分离成输入信道的经编码的声数据、输入信道的窗口信息、向下混合信息等(步骤S931)。然后,由解码/去量化单元320对输入信道的经编码的声数据进行解码(步骤S932)。随后,由解码/去量化单元320对已被解码的经编码的声数据进行去量化,使得生成频域信号(步骤S933)。
接下来,基于多条包括窗口形状的窗口信息,由输出控制单元710将窗口信息中的组合相同的频域信号同时输出到对应于各个组合的第一至第十六频域混合单元721至723(步骤S934)。注意,步骤S934是权利要求中描述的输出控制步骤的示例。
此后,基于向下混合信息和输入信道的频域信号,由第一至第十六频域混合单元721至723针对窗口信息中的各个组合生成输出信道的频域信号(步骤S935)。也就是,基于从代码串分离单元310提供的向下混合信息,由第一至第十六频域混合单元721至723混合相同组合的频域信号,从而输出与小于输入信道的数目的输出信道的数目相对应的频域信号。注意,步骤S935是权利要求中描述的频域混合步骤的示例。
然后,由第一至第十六IMDCT/窗口化处理单元731至733和741至744对从第一至第十六频域混合单元721至723提供的输出信道的频域信号执行IMDCT处理(步骤S936)。也就是,由第一至第十六IMDCT/窗口化处理单元731至733通过IMDCT处理来变换从第一至第十六频域混合单元721至723提供的右信道的各频域信号,使得生成时域信号。另外,由第一至第十六IMDCT/窗口化处理单元741至743通过IMDCT处理来变换从第一至第十六频域混合单元721至723提供的左信道的各频域信号,使得生成时域信号。
随后,由各个IMDCT/窗口化处理单元731至733和741至743对所生成的时域信号执行窗口化处理(步骤S937)。然后,由加法单元751和752针对各个输出信道将已由第一至第十六IMDCT/窗口化处理单元731至733对其执行窗口化处理的时域信号相加,使得输出声信号(步骤S938)。
也就是,由输出声音生成单元730将从第一至第十六频域混合单元721至723提供的输出信道的频域信号变换成时域信号,并且对通过该变换获得的时域信号执行窗口化处理,使得生成输出信道的声信号。因此,结束用于对由声信号编码设备生成的代码串进行解码的方法中的处理步骤。注意,步骤S936至S938是权利要求中描述的输出声音生成步骤的示例。
如上所述,在本发明的第二实施例中,基于向下混合信息,混合由输出控制单元710针对窗口信息中的各个组合使其彼此相关联的频域信号。然后,将经混合的频域信号变换成时域信号,并且针对各个输出信道将通过该变换获得的时域信号相加,使得生成输出信道的声信号。因此,与在第一实施例中不同,即使所有窗口信息不匹配,也可以基于输入信道的频域信号和向下混合信息生成输出信道的声信号。
注意,在该示例中,当输入信道的窗口信息中的组合的数目大时,与将输入信道的时域信号向下混合的情况相比,会增加用于IMDCT处理的计算量。例如,当在五个信道的窗口信息之中仅两个信道的窗口信息匹配时,窗口信息中的组合的数目为四,并且从第一至第十六频域混合单元721至723输出的频域信号的数目为八(组合的数目×输出信道的数目)。因此,第一至第十六IMDCT/窗口化处理单元731至733和741至743对八个信道的频域信号执行IMDCT处理。
另一方面,在将时域信号向下混合的情况下,对与输入信道的数目相对应的五个信道的频域信号执行IMDCT处理。因此,当向下混合频域信号时,用于IMDCT处理的计算量较大。与之相对,在第三实施例中,做出了改进,使得用于IMDCT的计算量与将输入信道的时域信号向下混合的情况相比没有增加。
<3.第三实施例>
[声信号解码设备的配置示例]
图10是示出了根据本发明的第三实施例的声信号解码设备的配置示例的框图。声信号解码设备800包括输出控制单元840和图7中示出的频域合成单元700,来替代图4中示出的输出控制单元340和频域合成单元500。这里,除了频域合成单元700和输出控制单元840之外的配置与图4中示出的配置相同,并且由此用相同的附图标记表示,并且这里省略其描述。此外,频域合成单元700的功能与图7中示出的相同,并且因此这里省略其描述。另外,输出控制单元840对应于图4中示出的输出控制单元340。
输出控制单元840基于输入信道的窗口信息中的组合的数目来执行控制,以将从解码/去量化单元320提供的输入信道的所有频域信号输出到时域合成单元400和频域合成单元700之一。输出控制单元840基于从窗口信息线311提供的各输入信道的窗口信息计算窗口信息中的组合的数目。例如,在五条窗口信息之中仅两条窗口信息匹配的情况下,输出控制单元840计算出窗口信息中的组合的数目为四。
另外,输出控制单元840确定计算出的组合的数目与输出信道的数目的乘积值是否小于输入信道的数目。也就是,输出控制单元840确定从窗口信息线311提供的各输入信道的窗口信息中的组合的数目与输出信道的数目的乘积值是否小于输入信道的数目。
然后,如果该乘积值小于输入信道的数目,则输出控制单元840控制输出开关单元351至355,以同时将各输入信道的频域信号输出到频域合成单元700中的输出控制单元710。也就是,输出控制单元840基于输入信道的窗口信息中的组合的数目将窗口信息中的组合相同的输入信道的频域信号在使其彼此相关联的同时输出到第一至第十六频域混合单元721至723。
另一方面,在该乘积值等于或大于输入信道的数目的情况下,输出控制单元840控制输出开关单元351至355,以将各输入信道的频域信号输出到时域合成单元400中的IMDCT/窗口化处理单元411至415。注意,输出控制单元840是权利要求中描述的输出控制单元的示例。
以这种方式,通过提供输出控制单元840,在窗口信息中的组合的数目与输出信道的数目的乘积值等于或大于输入信道的数目的情况下可以执行到时域合成单元400中的向下混合处理的切换。
[声信号解码设备800的操作示例]
接下来,将参照附图描述根据本发明的第三实施例的声信号解码设备800的操作。
图11是示出了由根据本发明的第三实施例的声信号解码设备800执行的用于对代码串进行解码的方法的处理步骤示例的流程图。
首先,由代码串分离单元310将从代码串传输线301提供的代码示例分离成输入信道的编码声数据、输入信道的窗口信息、向下混合信息等(步骤S941)。然后,由解码/去量化单元320对输入信道的经编码的声数据进行解码(步骤S942)。随后,由解码/去量化单元320对已被解码的经编码的声数据进行去量化,使得生成频域信号(步骤S943)。
接下来,由输出控制单元840计算出在从代码串分离单元310提供的各输入信道的窗口信息中包括的窗口化形式和窗口形状的组合的数目N(步骤S944)。随后,确定窗口信息中的组合的数目N与输出信道的数目的乘积值是否小于输入信道(步骤S945)。然后,如果确定了乘积值小于输入信道的数目,则由输出控制单元840切换输出开关单元351至355的连接,以将输入信道的所有频域信号输出到频域合成单元700(步骤S951)。
也就是,由输出控制单元840基于包括示出窗口函数类型的窗口形状的窗口信息来控制输出开关单元351至355,以同时输出具有相同窗口信息的频域信号。因此,将从解码/去量化单元320输出的输入信道的所有频域信号提供给频域合成单元700。注意,步骤S945和S951是权利要求中描述的输出控制步骤的示例。
此后,基于从窗口信息线311提供的窗口信息,由输出控制单元710将窗口信息中的组合相同的频域信号同时输出到对应于各个组合的第一至第十六频域混合单元721至723。然后,基于向下混合信息和输入信道的频域信号,由第一至第十六频域混合单元721至723针对窗口信息中的各个组合生成输出信道的频域信号(步骤S952)。
也就是,基于从代码串分离单元310提供的向下混合信息,由第一至第十六频域混合单元721至723混合相同组合的频域信号,从而输出与小于输入信道的数目的输出信道的数目相对应的频域信号。注意,步骤S952是权利要求中描述的频域混合步骤的示例。
然后,由第一至第十六IMDCT/窗口化处理单元731至733和741至744对从第一至第十六频域混合单元721至723提供的输出信道的频域信号执行IMDCT处理(步骤S953)。也就是,由第一至第十六IMDCT/窗口化处理单元731至733通过IMDCT处理将从第一至第十六频域混合单元721至723提供的右信道的各频域信号变换成时域信号。另外,由第一至第十六IMDCT/窗口化处理单元741至743通过IMDCT处理将从第一至第十六频域混合单元721至723提供的左信道的各频域信号变换成时域信号。
随后,由各个IMDCT/窗口化处理单元731至733和741至743对所生成的时域信号执行窗口化处理(步骤S954)。然后,由加法单元751和752针对各个输出信道将已由第一至第十六IMDCT/窗口化处理单元731至733对其执行窗口化处理的时域信号相加,使得输出声信号(步骤S955)。
也就是,由输出声音生成单元730将从第一至第十六频域混合单元721至723提供的输出信道的频域信号变换成时域信号,并且对通过该变换获得的时域信号执行窗口化处理,使得生成输出信道的声信号。注意,步骤S953至S955是权利要求中描述的输出声音生成步骤的示例。
另一方面,在步骤S945中,如果乘积值小于输入信道的数目,则由输出控制单元840控制输出开关单元351至355,以将输入信道的所有频域信号输出到时域合成单元400(步骤S946)。此后,由IMDCT/窗口化处理单元411至415通过IMDCT处理将五个输入信道的频域信号变换成时域信号(步骤S947)。
随后,由IMDCT/窗口化处理单元411至415对所生成的时域信号执行窗口化处理,使得输出对应于输入信道的数目的时域信号(步骤S948)。然后,基于从代码串分离单元310提供的向下混合信息,由时域混合单元420将对应于输入信道的数目的时域信号混合,并且输出信道的声信号被输出(步骤S949),并且然后用于对代码串进行解码的方法中的处理结束。
如上所述,在本发明的第三实施例中,在用于由频域合成单元700进行的IMDCT处理的计算量比在时域合成单元400中的情形大的情况下,可以执行到由时域合成单元400进行的处理的切换。因此,与本发明的第二实施例相比,可以防止用于IMDCT处理的计算量增加到多于必要的程度。
如上所述,根据本发明的实施例,可以减小用于变换成时域信号的计算处理,并且基于包括窗口形状的窗口信息可以适当地生成输出信道的声信号。
注意,本发明的实施例示出了用于实施本发明的示例,并且本发明的实施例中的事项与权利要求中的本发明的特定事项具有如本发明的实施例中清楚描述的对应关系。同样地,权利要求中的本发明的特定事项和本发明的实施例中的具有相同名称的事项具有对应关系。然而,本发明并不局限于这些实施例,并且在不背离本发明的范围的情况下,可以通过对这些实施例做出各种修改来实施本发明。
另外,在本发明的实施例中描述的处理步骤可以被看作具有系列步骤的方法,或者可以被看作用于使计算机执行系列步骤的程序或存储该程序的记录介质。作为记录介质,例如可以使用CD(致密盘)、MD(微型盘)、DVD(数字多功能盘)、存储卡、蓝光盘(注册商标)等。
附图标记列表
100 声信号处理系统
110 右信道扬声器
120 左信道扬声器
200、600和800 声信号编码设备
211至215 窗口化处理单元
231至235 MDCT单元
241至245 量化单元
250 代码串生成单元
260 向下混合信息接收单元
300 声信号解码设备
310 代码串分离单元
320 解码/去量化单元
340、710和840 输出控制单元
361、362、751和752 加法单元
400 时域合成单元
411至415、521、522、731至733和741至743
IMDCT/窗口化处理单元
420 时域混合单元
500和721至723 频域合成单元
510 频域混合单元
520和730 输出声音生成单元
700 频域合成单元
711至715 输出选择单元
Claims (8)
1.一种声信号解码设备,包括:
输出控制单元,其被配置成基于窗口信息来执行控制以同时输出具有相同的所述窗口信息的频域信号,所述窗口信息包括示出窗口函数类型的窗口形状,所述窗口函数类型与通过对多个输入信道的声信号执行窗口化处理获得的所述频域信号有关;
频域混合单元,其被配置成基于向下混合信息来混合具有相同的所述窗口信息的所述输入信道的频域信号,并且输出所述信号作为与小于所述输入信道的数目的输出信道的数目相对应的频域信号;以及
输出声音生成单元,其被配置成通过将从所述频域混合单元输出的所述输出信道的频域信号变换成时域信号并通过对通过所述变换获得的时域信号执行所述窗口化处理来生成所述输出信道的声信号。
2.根据权利要求1所述的声信号解码设备,
其中,针对所述多条窗口信息中的各个组合,所述频域混合单元基于所述向下混合信息来混合所述输入信道的频域信号,以及
其中,所述输出声音生成单元通过将已对其执行所述窗口化处理的所述各个组合的所述时域信号相加来生成所述输出信道的所述声信号。
3.根据权利要求2所述的声信号解码设备,
其中,在所述多条窗口信息中的所述组合的数目与所述输出信道的数目的乘积值小于所述输入信道的数目的情况下,所述输出控制单元将所述输入信道的所述频域信号同时输出到所述频域混合单元。
4.根据权利要求1所述的声信号解码设备,
其中,所述输出控制单元基于所述窗口信息来控制所述频域信号的输出,所述窗口信息是基于所述输入信道的声信号设置的并且包括示出窗口类型的窗口化形式,以及
其中,所述输出声音生成单元基于所述窗口信息中示出的所述窗口化形式和所述窗口函数类型,通过对所述输出信道的所述频域信号执行所述窗口化处理来生成所述输出信道的所述声信号。
5.根据权利要求4所述的声信号解码设备,
其中,所述输出控制单元基于针对所述窗口化形式中的前半部分和后半部分示出所述窗口形状的所述窗口信息来控制所述频域信号的输出。
6.一种声信号处理系统,包括:
声信号编码设备,其包括:窗口化处理单元,其被配置成对多个输入信道的声信号执行窗口化处理,并生成包括示出所述窗口化处理中的窗口函数类型的窗口形状的窗口信息;以及频率转换单元,其被配置成将从所述窗口化处理单元输出的所述声信号变换到频域从而生成频域信号;以及
声信号解码设备,其包括:输出控制单元,其被配置成执行控制以同时输出所述频域信号,所述频域信号是从所述声信号编码设备输出的并且具有相同的与所述输入信道的所述频域信号有关的所述窗口信息;频域混合单元,其被配置成基于向下混合信息来混合具有相同的所述窗口信息的所述输入信道的频域信号,并且输出所述信号作为与小于所述输入信道的数目的输出信道的数目相对应的频域信号;以及输出声音生成单元,其被配置成通过将从所述频域混合单元输出的所述输出信道的频域信号变换成时域信号并通过对通过所述变换获得的时域信号执行所述窗口化处理来生成所述输出信道的声信号。
7.一种声信号解码方法,包括:
输出控制步骤,其基于窗口信息来执行控制以同时输出具有相同的所述窗口信息的频域信号,所述窗口信息包括示出窗口函数类型的窗口形状,所述窗口函数类型与通过对多个输入信道的声信号执行窗口化处理获得的所述频域信号有关;
频域混合步骤,其基于向下混合信息来混合具有相同的所述窗口信息的所述输入信道的频域信号,并且输出所述信号作为与小于所述输入信道的数目的输出信道的数目相对应的频域信号;以及
输出声音生成步骤,其通过将所述频域混合步骤输出的所述输出信道的频域信号变换成时域信号并通过对通过所述变换获得的时域信号执行所述窗口化处理来生成所述输出信道的声信号。
8.一种程序,使计算机执行:
输出控制步骤,其基于窗口信息来执行控制以同时输出具有相同的所述窗口信息的频域信号,所述窗口信息包括示出窗口函数类型的窗口形状,所述窗口函数类型与通过对多个输入信道的声信号执行窗口化处理获得的所述频域信号有关;
频域混合步骤,其基于向下混合信息来混合具有相同的所述窗口信息的所述输入信道的频域信号,并且输出所述信号作为与小于所述输入信道的数目的输出信道的数目相对应的频域信号;以及
输出声音生成步骤,其通过将所述频域混合步骤输出的所述输出信道的频域信号变换成时域信号并通过对通过所述变换获得的时域信号执行所述窗口化处理来生成所述输出信道的声信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009148220A JP5365363B2 (ja) | 2009-06-23 | 2009-06-23 | 音響信号処理システム、音響信号復号装置、これらにおける処理方法およびプログラム |
JP2009-148220 | 2009-06-23 | ||
PCT/JP2010/059440 WO2010150635A1 (ja) | 2009-06-23 | 2010-06-03 | 音響信号処理システム、音響信号復号装置、これらにおける処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102119413A true CN102119413A (zh) | 2011-07-06 |
CN102119413B CN102119413B (zh) | 2013-03-27 |
Family
ID=43386407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010800022072A Expired - Fee Related CN102119413B (zh) | 2009-06-23 | 2010-06-03 | 声信号处理系统、声信号解码设备、该系统和设备中的处理方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US8825495B2 (zh) |
EP (1) | EP2426662B1 (zh) |
JP (1) | JP5365363B2 (zh) |
KR (1) | KR20120031930A (zh) |
CN (1) | CN102119413B (zh) |
BR (1) | BRPI1004287A2 (zh) |
RU (1) | RU2011104718A (zh) |
TW (1) | TWI447708B (zh) |
WO (1) | WO2010150635A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5903758B2 (ja) * | 2010-09-08 | 2016-04-13 | ソニー株式会社 | 信号処理装置および方法、プログラム、並びにデータ記録媒体 |
US9905236B2 (en) * | 2012-03-23 | 2018-02-27 | Dolby Laboratories Licensing Corporation | Enabling sampling rate diversity in a voice communication system |
AU2013284705B2 (en) | 2012-07-02 | 2018-11-29 | Sony Corporation | Decoding device and method, encoding device and method, and program |
US20150100324A1 (en) * | 2013-10-04 | 2015-04-09 | Nvidia Corporation | Audio encoder performance for miracast |
WO2015173422A1 (de) * | 2014-05-15 | 2015-11-19 | Stormingswiss Sàrl | Verfahren und vorrichtung zur residualfreien erzeugung eines upmix aus einem downmix |
CN113035210A (zh) * | 2021-03-01 | 2021-06-25 | 北京百瑞互联技术有限公司 | 一种lc3音频混合方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5867819A (en) * | 1995-09-29 | 1999-02-02 | Nippon Steel Corporation | Audio decoder |
JP2001265394A (ja) * | 2000-03-17 | 2001-09-28 | Matsushita Electric Ind Co Ltd | 窓処理装置および窓処理方法 |
CN1338104A (zh) * | 1999-01-28 | 2002-02-27 | 多尔拜实验特许公司 | 自适应块长编码系统的数据分帧 |
JP2004206771A (ja) * | 2002-12-24 | 2004-07-22 | Sanyo Electric Co Ltd | 簡易再生方法とこの方法に利用可能な簡易再生装置、復号方法、復号装置 |
JP2006146247A (ja) * | 1995-09-29 | 2006-06-08 | United Module Corp | オーディオ復号装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2710852B2 (ja) | 1990-03-28 | 1998-02-10 | ホーヤ株式会社 | ガラス成形体の製造装置及び製造方法 |
JP3761639B2 (ja) * | 1995-09-29 | 2006-03-29 | ユナイテッド・モジュール・コーポレーション | オーディオ復号装置 |
JP3279228B2 (ja) | 1997-08-09 | 2002-04-30 | 日本電気株式会社 | 符号化音声復号装置 |
RU2374703C2 (ru) * | 2003-10-30 | 2009-11-27 | Конинклейке Филипс Электроникс Н.В. | Кодирование или декодирование аудиосигнала |
US8204261B2 (en) * | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
EP2077550B8 (en) * | 2008-01-04 | 2012-03-14 | Dolby International AB | Audio encoder and decoder |
-
2009
- 2009-06-23 JP JP2009148220A patent/JP5365363B2/ja not_active Expired - Fee Related
-
2010
- 2010-06-01 TW TW099117632A patent/TWI447708B/zh not_active IP Right Cessation
- 2010-06-03 RU RU2011104718/08A patent/RU2011104718A/ru not_active Application Discontinuation
- 2010-06-03 KR KR1020117002948A patent/KR20120031930A/ko not_active Application Discontinuation
- 2010-06-03 BR BRPI1004287A patent/BRPI1004287A2/pt not_active IP Right Cessation
- 2010-06-03 CN CN2010800022072A patent/CN102119413B/zh not_active Expired - Fee Related
- 2010-06-03 US US13/057,219 patent/US8825495B2/en not_active Expired - Fee Related
- 2010-06-03 WO PCT/JP2010/059440 patent/WO2010150635A1/ja active Application Filing
- 2010-06-03 EP EP10791953.2A patent/EP2426662B1/en not_active Not-in-force
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5867819A (en) * | 1995-09-29 | 1999-02-02 | Nippon Steel Corporation | Audio decoder |
JP2006146247A (ja) * | 1995-09-29 | 2006-06-08 | United Module Corp | オーディオ復号装置 |
CN1338104A (zh) * | 1999-01-28 | 2002-02-27 | 多尔拜实验特许公司 | 自适应块长编码系统的数据分帧 |
JP2001265394A (ja) * | 2000-03-17 | 2001-09-28 | Matsushita Electric Ind Co Ltd | 窓処理装置および窓処理方法 |
JP2004206771A (ja) * | 2002-12-24 | 2004-07-22 | Sanyo Electric Co Ltd | 簡易再生方法とこの方法に利用可能な簡易再生装置、復号方法、復号装置 |
Also Published As
Publication number | Publication date |
---|---|
TWI447708B (zh) | 2014-08-01 |
EP2426662B1 (en) | 2017-03-08 |
US20120116780A1 (en) | 2012-05-10 |
WO2010150635A1 (ja) | 2010-12-29 |
JP2011007823A (ja) | 2011-01-13 |
KR20120031930A (ko) | 2012-04-04 |
RU2011104718A (ru) | 2012-08-20 |
JP5365363B2 (ja) | 2013-12-11 |
BRPI1004287A2 (pt) | 2016-02-23 |
CN102119413B (zh) | 2013-03-27 |
US8825495B2 (en) | 2014-09-02 |
TW201123172A (en) | 2011-07-01 |
EP2426662A4 (en) | 2012-12-19 |
EP2426662A1 (en) | 2012-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102119413B (zh) | 声信号处理系统、声信号解码设备、该系统和设备中的处理方法 | |
CN101933086B (zh) | 处理音频信号的方法和设备 | |
AU2007322488B2 (en) | Method for encoding and decoding object-based audio signal and apparatus thereof | |
JP5302977B2 (ja) | オーディオ信号のフィンガープリントを計算するための装置及び方法、同期のための装置及び方法、並びに試験オーディオ信号の特徴付けのための装置及び方法 | |
CN101518083B (zh) | 通过使用带宽扩展和立体声编码对音频信号编码和/或解码的方法和系统 | |
CN111316353B (zh) | 确定空间音频参数编码和相关联的解码 | |
WO1998000837A1 (fr) | Procedes de codage et de decodage de signaux audio, et codeur et decodeur de signaux audio | |
WO2008084427A2 (en) | Audio decoder | |
US8571875B2 (en) | Method, medium, and apparatus encoding and/or decoding multichannel audio signals | |
KR101169280B1 (ko) | 오디오 신호의 디코딩 방법 및 장치 | |
CN102138341B (zh) | 声信号处理设备及其处理方法 | |
US8271291B2 (en) | Method and an apparatus for identifying frame type | |
CN103413553A (zh) | 音频编码方法、音频解码方法、编码端、解码端和系统 | |
CN1969318B (zh) | 音频编码装置、解码装置以及方法 | |
CN101814289A (zh) | 低码率dra数字音频多声道编码方法及其系统 | |
RU2008137596A (ru) | Кодирование и декодирование аудио | |
CN112233682A (zh) | 一种立体声编码方法、立体声解码方法和装置 | |
KR102005929B1 (ko) | 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법 | |
CN101361114B (zh) | 用于处理媒体信号的装置及其方法 | |
KR20080035448A (ko) | 다채널 오디오 신호의 부호화/복호화 방법 및 장치 | |
KR20210027330A (ko) | 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법 | |
KR20140027831A (ko) | 오디오 신호 전송 장치 및 그의 오디오 신호 전송 방법, 그리고 오디오 신호 수신 장치 및 그의 오디오 소스 추출 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130327 Termination date: 20200603 |
|
CF01 | Termination of patent right due to non-payment of annual fee |