CN103229235A - 语音信号编码方法和语音信号解码方法 - Google Patents
语音信号编码方法和语音信号解码方法 Download PDFInfo
- Publication number
- CN103229235A CN103229235A CN2011800566466A CN201180056646A CN103229235A CN 103229235 A CN103229235 A CN 103229235A CN 2011800566466 A CN2011800566466 A CN 2011800566466A CN 201180056646 A CN201180056646 A CN 201180056646A CN 103229235 A CN103229235 A CN 103229235A
- Authority
- CN
- China
- Prior art keywords
- input
- window
- frame
- mdct
- present frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 105
- 238000006243 chemical reaction Methods 0.000 claims description 91
- 238000012986 modification Methods 0.000 claims description 86
- 230000004048 modification Effects 0.000 claims description 86
- 238000005070 sampling Methods 0.000 claims description 33
- 238000006073 displacement reaction Methods 0.000 claims description 5
- 230000010076 replication Effects 0.000 abstract 2
- 230000009466 transformation Effects 0.000 description 37
- 230000008569 process Effects 0.000 description 31
- 230000007704 transition Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 11
- 239000000203 mixture Substances 0.000 description 7
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 240000005373 Panax quinquefolius Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种语音信号编码方法和一种语音信号解码方法。根据本发明的该语音信号编码方法包括以下步骤:从输入信号定义分析帧;基于分析帧生成修改的输入;将窗口应用于修改的输入;对应用了窗口的修改的输入执行修改的离散余弦变换(MDCT),以便生成变换系数;和编码生成的变换系数,其中该修改的输入可以包括分析帧和分析帧的复制或分析帧的一部分的复制。
Description
技术领域
本发明涉及语音信号编码方法和语音信号解码方法,并且更具体地,涉及频率变换和处理语音信号的方法。
背景技术
通常,音频信号包括各种频率的信号,人类可听频率范围从20Hz到20kHz,并且人类语音存在于大约200Hz到3kHz的范围内。输入音频信号可以包括高于7kHz的高频区的分量,在此除了人类语音存在的频带之外几乎不存在人类语音。以这种方法,当适合于窄带(高达大约4kHz)的编码方法应用于宽带信号或者超宽带信号的时候,存在声音质量恶化的问题。
随着近来对于视频通话、视频会议等等的需求增加,编码/解码音频信号(也就是说,语音信号,以便接近于实际的语音)的技术已经越来越引起注意。
频率变换是用于编码/解码语音信号的方法之一,其是使得编码器频率变换语音信号,将变换系数传送给解码器,并且使得解码器逆向地频率变换该变换系数以重建语音信号的方法。
在编码/解码语音信号的技术中,在频域中编码预定的信号的方法被认为是出众的,但是,当在频域中使用用于编码语音信号变换的时候可能出现时间延迟。
因此,需要对于可以防止在编码/解码信号时时间延迟和提高处理速率的方法。
发明内容
技术问题
本发明的一个目的是提供一种方法和设备,其可以在编码/解码语音信号的过程中有效地执行MDCT/IMDCT。
本发明的另一个目的是提供一种方法和装置,其可以防止在执行MDCT/IMDCT时出现的不必要的延迟。
本发明的另一个目的是提供一种方法和装置,其可以通过不使用超前(look-ahead)采样来执行MDCT/IMDCT防止延迟。
本发明的另一个目的是提供一种方法和装置,其可以通过减小在执行MDCT/IMDCT时完美地重建信号所必需的重叠相加部分来降低处理延迟。
技术方案
(1)按照本发明的一个方面,提供了一种语音信号编码方法,包括步骤:在输入信号中指定分析帧;基于分析帧生成修改的输入;将窗口应用于修改的输入;通过对已经应用了窗口的修改的输入执行MDCT(修改的离散余弦变换)来生成变换系数;和编码变换系数,其中修改的输入包括分析帧,和分析帧的全部或者一部分的自我复制。
(2)在按照(1)的语音信号编码方法中,当前帧可以具有N的长度,并且窗口可以具有2N的长度,应用窗口的步骤可以包括通过将该窗口应用于修改的输入的前端来生成第一修改的输入,以及通过将该窗口应用于修改的输入的后端来生成第二修改的输入,生成变换系数的步骤可以包括通过对第一修改的输入执行MDCT来生成第一变换系数,以及通过对第二修改的输入执行MDCT来生成第二变换系数,并且编码变换系数的步骤可以包括编码第一修改的系数和第二修改的系数。
(3)在按照(2)的语音信号编码方法中,分析帧可以包括当前帧和当前帧的先前帧,并且可以修改的输入可以是通过将当前帧的第二半的自我复制添加给到分析帧来配置修改的输入的。
(4)在按照(2)的语音信号编码方法中,分析帧可以包括当前帧,可以通过将当前帧的第一半的M个自我复制添加到分析帧的前端,以及将当前帧的第二半的M个自我复制添加到分析帧的后端,来生成修改的输入,并且修改的输入可以具有3N的长度。
(5)在按照(1)的语音信号编码方法中,该窗口可以具有与当前帧相同的长度,分析帧可以包括当前帧,修改的输入可以是通过将当前帧的第一半的自我复制添加给到分析帧的前端,以及将当前帧的第二半的自我复制添加给到分析帧的后端,来生成修改的输入的,应用窗口的步骤可以包括通过将窗口应用于修改的输入,同时从修改的输入的前端依次地将窗口移位半帧来生成第一修改的输入至第三修改的输入,生成变换系数的步骤可以包括通过对第一修改的输入至第三修改的输入执行MDCT来生成第一变换系数至第三变换系数,并且编码变换系数的步骤可以包括编码第一变换系数至第三变换系数。
(6)在按照(1)的语音信号编码方法中,当前帧可以具有N的长度,窗口可以具有N/2的长度,并且修改的输入可以具有3N/2的长度,应用窗口的步骤可以包括通过将窗口应用于修改的输入,同时从修改的输入的前端依次地将窗口移位四分之一帧来生成第一修改的输入至第五修改的输入,生成变换系数的步骤可以包括通过对第一修改的输入至第五修改的输入执行MDCT来生成第一变换系数至第五变换系数,并且编码变换系数的步骤可以包括编码第一变换系数至第五变换系数。
(7)在按照(6)的语音信号编码方法中,分析帧可以包括当前帧,并且可以通过将当前帧的第一半的前半部的自我复制添加到分析帧的前端,以及将当前帧的第二半的后半部的自我复制添加到分析帧的后端,来生成修改的输入。
(8)在按照(6)的语音信号编码方法中,分析帧可以包括当前帧和当前帧的先前帧,并且可以通过将当前帧的第二半的自我复制添加到分析帧来生成修改的输入。
(9)在按照(1)的语音信号编码方法中,当前帧可以具有N的长度,窗口可以具有2N的长度,并且分析帧可以包括当前帧,并且可以通过将当前帧的自我复制添加到分析帧来生成修改的输入。
(10)在按照(1)的语音信号编码方法中,当前帧可以具有N的长度,并且窗口可以具有N+M的长度,通过将具有M长度的倾斜部分的对称第一窗口应用于当前帧的后续帧和当前帧的具有M长度的第一半来指定分析帧,可以通过自我复制分析帧来生成修改的输入,并且应用窗口的步骤可以包括通过将第二窗口应用于修改的输入的前端来生成第一修改的输入,和通过将第二窗口应用于修改的输入的后端来生成第二修改的输入。
生成变换系数的步骤可以包括通过对第一修改的输入执行MDCT来生成第一变换系数,和通过对第二修改的输入执行MDCT来生成第二变换系数,并且编码变换系数的步骤可以包括编码第一修改的系数和第二修改的系数。
(11)按照本发明的另一个方面,提供了一种语音信号解码方法,包括步骤:通过解码输入信号来生成变换系数序列;通过对变换系数执行IMDCT(修改的离散余弦逆变换)来生成时间系数序列;将预定的窗口应用于时间系数序列;和输出采样,通过使得被应用了窗口的时间系数序列重叠来重建该采样,其中输入信号是编码的变换系数,通过将与该窗口相同的窗口应用于基于语音信号中的预定分析帧而生成的修改的输入,并且对其执行MDCT,来生成该编码的变换系数,并且修改的输入包括分析帧和分析帧的全部或者一部分的自我复制。
(12)在按照(11)的语音信号解码方法中,生成变换系数序列的步骤可以包括生成当前帧的第一变换系数序列和第二变换系数序列,生成时间系数序列的步骤可以包括通过对第一变换系数序列和第二变换系数序列执行IMDCT来生成第一时间系数序列和第二时间系数序列,应用窗口的步骤可以包括将窗口应用于第一时间系数序列和第二时间系数序列,并且输出采样的步骤可以包括以一个帧的间隙对应用了窗口的第一时间系数序列和第二时间系数序列进行重叠相加。
(13)在按照(11)的语音信号解码方法中,生成变换系数序列的步骤可以包括生成当前帧的第一变换系数序列至第三变换系数序列。
生成时间系数序列的步骤可以包括通过对第一变换系数序列至第三变换系数序列执行IMDCT来生成第一时间系数序列至第三时间系数序列,应用窗口的步骤可以包括将窗口应用于第一时间系数序列至第三时间系数序列,并且输出采样的步骤可以包括从先前的或者后续的帧开始以半帧的间隙对应用了窗口的第一时间系数序列至第三时间系数序列进行重叠相加。
(14)在按照(11)的语音信号解码方法中,生成变换系数序列的步骤可以包括生成当前帧的第一变换系数序列至第五变换系数序列。
生成时间系数序列的步骤可以包括通过对第一变换系数序列至第五变换系数序列执行IMDCT来生成第一时间系数序列至第五时间系数序列,应用窗口的步骤可以包括将窗口应用于第一时间系数序列至第五时间系数序列,并且输出采样的步骤可以包括从先前的或者后续的帧开始以四分之一帧的间隙对应用了窗口的第一时间系数序列至第五时间系数序列进行重叠相加。
(15)在按照(11)的语音信号解码方法中,分析帧可以包括当前帧,可以通过将分析帧的自我复制添加到分析帧来生成修改的输入,并且输出采样的步骤可以包括对时间系数序列的第一半和时间系数序列的第二半进行重叠相加。
(16)在按照(11)的语音信号解码方法中,当前帧可以具有N的长度,并且窗口是具有N+M的长度的第一窗口,可以通过将具有M长度的倾斜部分的对称第二窗口应用于当前帧的后续帧和当前帧的具有M长度的第一半,来指定分析帧,可以通过自我复制分析帧来生成修改的输入,并且输出采样的步骤可以包括对时间系数序列的第一半和时间系数序列的第二半进行重叠相加,并且然后将被重叠相加的时间系数的第一半和第二半重叠相加到当前帧的先前帧的重建采样。
有益效果
按照本发明的许多方面,可以在编码/解码语音信号的过程中有效地执行MDCT/IMDCT。
按照本发明的许多方面,可以防止正在执行MDCT/IMDCT的过程中出现不必要的延迟。
按照本发明的许多方面,可以无需使用超前采样通过执行MDCT/IMDCT防止延迟。
按照本发明的许多方面,可以在执行MDCT/IMDCT的过程中通过降低完全重建信号所必需的重叠相加部分来减小处理延迟。
按照本发明的许多方面,由于可以减小在高性能音频编码器中的延迟,所以可以在双向通信中使用MDCT/IMDCT。
按照本发明的许多方面,可以在没有任何额外的延迟的情况下处理高的声音质量的语音编解码器中使用MDCT/IMDCT技术。
按照本发明的许多方面,可以无需修改/改变其它的配置,减小在现有的编码器中与MDCT相关的延迟,并且减小在编解码器中的处理延迟。
附图说明
图1是图示编码语音信号的编码器使用MDCT例子的视图,这里示意地图示了G.711WB的配置。
图2是按照本发明示意地图示在语音信号/编码/解码系统中的编码器的MDCT单元的框图。
图3是按照本发明示意地图示在语音信号/编码/解码系统中的解码器的IMDCT(逆MDCT)单元的框图。
图4是示意地图示当应用MDCT的时候的帧和分析窗口的例子的视图。
图5是示意地图示要应用MDCT的窗口的例子的视图。
图6是示意地图示使用MDCT的重叠相加过程的视图。
图7是示意地图示MDCT和SDFT的视图。
图8是示意地图示IMDCT和ISDFT的视图。
图9是示意地图示可以对于MDCT的应用执行的分析合成结构的例子的视图。
图10是按照本发明示意地图示借助于其语音信号被输入给系统的帧结构的视图。
图11A和11B是按照本发明示意地图示在系统中当前帧经历MDCT/IMDCT,并且通过应用2N的窗口重建的例子的视图。
图12A至12C是按照本发明示意地图示在系统中当前帧经历MDCT/IMDCT,并且通过应用N的窗口重建的例子的视图。
图13A至13E是按照本发明示意地图示在系统中当前帧经历MDCT/IMDCT,并且通过应用N/2的窗口重建的例子的视图。
图14A和14B是按照本发明示意地图示在系统中当前帧经历MDCT/IMDCT,并且通过应用2N的窗口重建的另一个例子的视图。
图15A至15C是按照本发明示意地图示在系统中当前帧经历MDCT/IMDCT,并且通过应用N的窗口重建的另一个例子的视图。
图16A至16E是按照本发明示意地图示在系统中当前帧经历MDCT/IMDCT,并且通过应用N/2的窗口重建的另一个例子的视图。
图17A至17D是按照本发明示意地图示在系统中当前帧经历MDCT/IMDCT,并且通过应用2N的窗口重建的另一个例子的视图。
图18A至18H是按照本发明示意地图示在系统中当前帧经历MDCT/IMDCT,并且通过应用梯形的窗口重建的另一个例子的视图。
图19是按照本发明示意地图示在系统中由编码器执行的变换操作的视图。
图20是按照本发明示意地图示在系统中由解码器执行的逆向变换操作的视图。
具体实施方式
在下文中将参考伴随的附图具体地描述本发明的实施例。当确定在本发明中涉及的已知的配置或者功能的详细说明使本发明的要点难以理解的时候,将不会对其进行详细说明。
如果提及一个单元“连接到”或者“耦合到”另一个单元,则应该理解,再一个单元可能插入在其间,以及该单元可以直接连接或者耦合到另一个单元。
诸如“第一”和“第二”的术语可用于描述各种单元,但是所述单元不必局限于该术语。该术语仅仅用于区别一个单元与另一个单元。
在本发明的实施例中描述的组成的单元独立地示出以表示不同的与众不同的功能。每个组成的单元不通过单独的硬件或者软件单元构成。也就是说,为了解释便利的目的,组成的单元被独立地安排,并且至少两个组成的单元可以合并成单个组成的单元,或者单个组成的单元可以被分成多个组成的单元以执行许多功能。
另一方面,各种编解码技术用于编码/解码语音信号。每个编解码技术可以具有适合于预定的语音信号的特性,并且可以被优化用于对应的语音信号。
使用MDCT(修改的离散余弦变换)的编解码器的例子包括MPEG、G.722.1、G.929.1、G.718、G.711.1、G.722SWB、G.729.1/G718SWB(超宽频带)和G.722SWB的AAC系列。这些编解码器基于通过组合应用了MDCT的滤波器组和心理声学模型(psychoacoustic model)来执行编码操作的感知编码(perceptual coding)方法。MDCT在语音编解码器中被广泛地使用,因为其具有可以使用重叠相加方法有效地重建时域信号的优点。
如上所述,使用MDCT的各种编解码器被使用,并且编解码器可以具有不同的结构以实现要实现的效果。
例如,MPEG的ACC系列通过组合MDCT(滤波器组)和心理声学模型执行编码操作,并且其ACC-ELD使用具有低迟延的MDCT(滤波器组)执行编码操作。
G.722.1对整个频带应用MCDT,并且量化其系数。G.718WB(宽频带)作为具有分层的宽带(WB)编解码器和分层的超宽带(SWB)编解码器的输入使用基础核心的量化误差将编码操作执行为基于MDCT的增强的层。
此外,EVRC(增强的可变速率编解码器)-WB、G.729.1、G.718、G.711.1、G.718/G.729.1SWB等等使用频带分解的信号作为具有分层的宽带编解码器和分层的超宽带编解码器的输入执行编码操作为基于MDCT的增强的层。
图1是示意地图示在用于编码语音信号的编码器使用MDCT的例子中G.711WB的配置的视图。
参考图1,G.711WB的MDCT单元接收较高频带信号作为输入,对其执行MDCT,和输出其系数。MDCT编码器编码MDCT系数和输出比特流。
图2是按照本发明示意地图示在语音信号/编码/解码系统中的编码器的MDCT单元的框图。
参考图2,编码器的MDCT单元200对输入信号执行MDCT,并且输出结果信号。MDCT单元200包括缓冲器210、修改单元220、加窗单元230、正向变换单元240和格式器250。在这里,正向变换单元240也称为分析滤波器组,如图所示。
有关信号长度、窗口类型、比特分配等等的边信息(sideinformation)可以经由辅助路径260传送给MDCT单元200的单元210至250。在此处描述的是单元210至250的操作所必需的边信息可以经由辅助路径260传送,但是,这仅仅意欲为了解释方便起见,并且必要的信息与信号一起可以无需使用特定的辅助路径,按照在图中示出的单元的操作顺序,依次地传送给缓冲器210、修改单元220、加窗单元230、正向变换单元240和格式器250。
缓冲器210接收时域采样作为输入,并且生成对其执行诸如MDCT的处理的信号块。
修改单元220修改从缓冲器210接收到的信号块,以便适合于诸如MDCT的处理,并且生成修改的输入信号。此时,修改单元220可以经由辅助路径260接收修改信号块所必需的边信息,并且生成修改的输入信号。
加窗单元230给修改的输入信号加窗。加窗单元230可以使用梯形的窗口(trapezoidal window)、正弦波的窗口、Kaiser-Bessel驱动的窗口等等给修改的输入信号加窗。加窗单元230可以经由辅助路径260接收加窗所必需的边信息。
正向变换单元240将MDCT应用于修改的输入信号。因此,该时域信号被变换为频率域信号,并且正向变换单元240可以从频域系数中提取频谱信息。正向变换单元240也可以经由辅助路径260接收变换所必需的边信息。
格式器250格式化信息以便适合于传输和存储。格式器250生成包括由正向变换单元240提取的频谱信息的数字信息块。格式器250可以在生成信息块的过程中封装心理声学模型的量化比特。格式器250可以以应用于传输和存储的格式生成信息块,并且可以用信号通知该信息块。格式器250可以经由辅助路径260接收格式化所必需的边信息。
图3是按照本发明示意地图示在语音信号/编码/解码系统中的解码器的IMDCT(逆MDCT)的框图。
参考图3,该解码器的IMDCT单元300包括去格式器310、逆向变换(或者后向变换)单元320、加窗单元330、修改的重叠相加处理器340、输出处理器350。
去格式器310解封(unpack)从编码器传送的信息。通过这个解封,有关输入信号长度、应用的窗口类型、比特分配等等的边信息可以与频谱信息一起被提取。解封的边信息可以经由辅助路径360传送给MDCT单元300的单元310至350。
在此处描述的是单元310至350的操作所必需的边信息可以经由辅助路径360传送,但是这仅仅意欲是为了解释方便起见,并且必要的边信息可以无需使用特定的辅助路径,按照频谱信息的处理顺序,依次地传送给去格式器310、逆向变换单元320、加窗单元330、修改的重叠相加处理器340和输出处理器350。
逆向变换单元320从提取的频谱信息中生成频域系数,并且逆向地变换生成的频域系数。该逆向变换可以取决于在编码器中使用的变换方法而执行。当在编码器中应用MDCT的时候,逆向变换单元320可以将IMDCT(逆MDCT)应用于频域系数。逆向变换单元320可以执行逆向变换操作,也就是说,其可以例如通过IMDCT将频域系数变换为时域信号(例如,时域系数)。逆向变换单元320可以经由辅助路径360接收逆向变换所必需的边信息。
加窗单元330与在编码器中应用的相同的窗口应用于通过逆向变换生成的时域信号(例如,时域系数)。加窗单元330可以经由辅助路径360接收加窗所必需的边信息。
修改的重叠相加处理器340重叠和相加加窗的时域系数(时域信号),并且重建语音信号。修改的重叠相加处理器340可以经由辅助路径360接收加窗所必需的边信息。
输出处理器350输出重叠相加的时域采样。此时,该输出信号可以是重建的语音信号,或者可以是需要额外的后处理的信号。
另一方面,在由编码器的MDCT单元和解码器的IMDCT单元执行的MDCT/IMDCT中,MDCT由数学式1定义。
<数学式1>
在变换编码方法中,MDCT是将时域信号变换为几乎不相关的变换系数的过程。为了实现合理的传输速率,长的窗口被应用于稳定部分的信号,并且执行变换。因此,边信息的量可以减小,并且缓慢变化的信号可以更加有效地被编码。但是,在这种情况下,在MDCT的应用中出现的总的延迟增大。
为了防止总的延迟,由于前回声(pre echo)产生的失真可以位于使用短窗口而不是长窗口的时间掩蔽中,以便不会听觉上听到该失真。但是,在这种情况下,边信息的量增大,并且在传输速率方面的优点被抵消。
因此,可以使用切换长窗口和短窗口,并且自适应地修改应用MDCT的帧部分的窗口的方法(自适应的窗口切换)。缓慢变化的信号和快速变化的信号两者可以使用自适应的窗口切换有效地被处理。
在下面将参考伴随的附图描述MDCT的具体的方法。
MDCT可以使用重叠相加方法通过删除在变换的过程中出现的混叠有效地重建原始信号。
如上所述,MDCT(修改的离散余弦变换)是将时域信号变换为频域信号的变换,并且原始信号(也就是,变换之前的信号)可以使用重叠相加方法完美地重建。
图4是示意地图示当应用MDCT的时候的帧和分析窗口的例子的视图。
具有长度N的当前帧的超前(未来的)帧可用于对具有长度N的当前帧执行MDCT。此时,具有长度2N的分析窗口可以用于加窗处理。
参考图4,具有长度2N的窗口应用于具有长度N的当前帧(第n个帧)和当前帧的超前帧。具有长度2N的窗口可以类似地应用于先前帧(也就是,第(n-1)个帧)和第(n-1)个帧的超前帧。
窗口的长度(2N)取决于分析部分而设置。因此,在图4示出的例子中,分析部分是具有包括当前帧和当前帧的超前帧的长度2N的部分。
为了应用重叠相加方法,分析部分的预定的部分被设置为与先前帧或者后续帧重叠。在图4示出的例子中,分析部分的一半与先前帧重叠。
为了对具有长度N的第(n-1)个帧(“AB”部分)执行MDCT,可以重建包括具有长度N的第n个帧(“CD”部分)的具有长度2N(“ABCD”部分)的部分。执行将分析窗口应用于重建的部分的加窗处理。
就具有长度N的第n个帧(“CD”部分)而论,包括用于MDCT的具有长度N的第(n+1)个帧(“EF”部分)的具有长度2N的分析部分(“CDEF”部分)被重建,并且具有长度2N的窗口应用于分析部分。
图5是示意地图示要应用MDCT的窗口的例子的视图。
如上所述,通过使用重叠相加,MDCT可以在变换之前完美地重建信号。此时,用于给时域信号加窗的窗口应当满足数学式2的条件,以便在应用MDCT之前完美地重建信号。
<数学式2>
ω1=ω4R,ω2=ω3R,
ω1ω1+ω3ω3=ω2ω2+ω4ω4=1.0
在数学式2和图5中,wX(这里X是1、2、3,或者4)表示用于当前帧的分析部分的一块窗口(分析窗口),并且X表示当该分析窗口被分成四块的时候的索引。R表示时间反转。
满足数学式2条件的窗口的例子是对称窗口。对称窗口的例子包括梯形的窗口、正弦波的窗口、Kaiser-Bessel驱动的窗口等等。具有与在编码器中使用的相同形状的窗口用作用于在解码器中合成的合成窗口。
图6是示意地图示使用MDCT的重叠相加过程的视图。
参考图6,编码器可以为具有长度N的帧,也就是说,第(f-1)个帧、第f个帧,和第(f+1)个帧,设置具有长度2N的分析部分(对其应用MDCT)。
具有长度2N的分析窗口应用于分析部分(S610)。如附图所示,应用该分析窗口的分析部分的第一半(the first half)或者第二半(thesecond half)与先前的或者后续的分析部分重叠。因此,在变换之前的信号可以通过后来的重叠相加被完美地重建。
随后,具有长度2N的时域采样通过加窗获得(S620)。
MDCT应用于时域采样以生成N个频域变换系数(S630)。
量化的N个频域变换系数通过量化而创建(S640)。
该频域变换系数与信息块等等一起被传送给解码器。
该解码器从信息块等等中获得频域变换系数,并且通过将IMDCT应用于获得的频域变换系数来生成包括混叠的具有长度2N的时域信号(S650)。
随后,具有长度2N的窗口(合成窗口)被应用于具有长度2N的时域信号(S660)。
对已经应用窗口的时域信号执行相加重叠部分的重叠相加过程(S670)。如图所示,通过添加具有长度N的部分,在该部分中在第(f-1)个帧部分中重建的具有长度2N的重建的信号和在第f个帧部分中重建的具有长度N的重建的信号互相重叠,该混叠可以被删除,并且在变换之前的帧部分的信号(具有长度N)可以被重建。
如上所述,MDCT(修改的离散余弦变换)由在图2示出的MDCT单元200中的正向变换单元(分析滤波器组)240执行。在这里,所描述的是MDCT由正向变换单元执行,但是,这意欲仅仅为了解释方便起见,并且本发明不局限于这个配置。MDCT可以由用于执行时间-频率域变换的模块执行。MDCT可以在图6示出的步骤S630中执行。
具体地,如数学式3所示的结果可以通过对在具有长度2N的帧中包括2N个采样的输入信号ak执行MDCT获得。
<数学式3>
可以通过对校正了混叠分量的加窗输入信号执行SDFT(N+1)/2,1/2来计算MDCT系数。SDFT(滑动离散傅里叶变换)是一种时间-频率变换方法。SDFT是由数学式4定义的。
<数学式4>
SDFTu,y
在这里,u表示预定的采样移位值,并且v表示预定的频率移位值。也就是说,SDFT将移位时间轴和频率轴的采样,同时在时域和频域中执行DFT。因此,SDFT可以理解为DFT的概括。
从数学式3和4的比较中可以看到,可以通过对校正了其混叠分量的加窗输入信号执行SDFT(N+1)/2,1/2计算MDCT系数,如上所述。也就是说,如可以从数学式5中看到的,在加窗的信号和混叠分量经历SDFT(N+1)/2,1/2之后的实部的值是MDCT系数。
<数学式5>
可以在数学式6中使用常规的DFT(离散傅里叶变换)布置SDFT(N+1)/2,1/2。
<数学式6>
在数学式6中,第二指数函数是常规的DFT。第三指数函数表示在时域中移位采样间隔的(N+1)/2。因此,SDFT(N+1)/2,1/2可以被说成是信号的DFT,其被在时域中移位采样间隔的(N+1)/2,在频域中移位频率采样间隔的一半。
因此,MDCT系数是在时域信号经历SDFT之后实部的值。可以在数学式7中使用SDFT布置输入信号ak和MDCT系数αr的相关表示。
<数学式7>
<数学式8>
图7是示意地图示MDCT和SDFT的视图。
参考图7,包括SDFT单元720和实部获取模块730的MDCT单元710是在图2中示出的MDCT单元200的例子,SDFT单元720经由辅助路径260接收边信息,并且对输入信息执行SDFT,实部获取模块730从SDFT结果中提取实部。
另一方面,IMDCT(逆MDCT)可以由在图3中示出的IMDCT单元300的逆向变换单元(分析滤波器组)320执行。在这里,所描述的是IMDCT由逆向变换单元执行,但是这意欲仅仅为了解释方便起见,并且本发明不局限于这个配置。IMDCT可以由在解码器中执行时间-频率域变换的模块执行。IMDCT可以在图6示出的步骤S650中执行。
IMDCT可以由数学式9定义。
<数学式9>
逆向变换(也就是说,IMDCT)具有相对于正向变换(也就是说,MDCT)的相反关系。因此,使用这个关系执行逆向变换。
可以通过对由去格式器310提取的频谱系数执行ISDFT(逆SDFT),并且然后提取其实部来计算时域信号,如数学式10所示。
<数学式10>
在数学式10中,u表示在时域中预定的采样移位值,并且v表示预定的频率偏移值。
图8是示意地图示IMDCT和ISDFT的视图。
参考图8,包括ISDFT单元820和实部获取模块830的IMDCT单元810是在图3中示出的IMDCT单元300的例子,ISDFT单元820经由辅助路径360接收边信息,并且对输入信息执行ISDFT,实部获取模块830从ISDFT结果中提取实部。
<数学式11>
如上所述,与DFT或者DCT不同,当应用MDCT的时候,由于基于MDCT的混叠分量,没有通过逆向变换(IMDCT)完美地重建原始信号,并且通过重叠相加完美地重建原始信号。这是因为与虚部相对应的信息通过提取SDFT(N+1)/2,1/2的实部而被丢失。
图9是示意地图示可以在应用MDCT时执行的分析-合成结构的例子的视图。图9示出的例子中,将参考在图4和5中示出的例子描述分析-合成结构的常规的例子。
为了重建原始信号的“CD”帧部分,“AB”帧部分(其是“CD”帧部分的先前帧部分)和“EF”帧部分(其是“CD”帧部分的超前部分)是必要的。参考图4,可以构成包括第(n-1)个帧和第(n-1)个帧的超前帧的分析帧“ABCD”、以及包括第n个帧和第n个帧的超前帧的分析帧“CDEF”。
通过将在图5中示出的窗口应用于分析帧“ABCD”和分析帧“CDEF”,可以创建在图9中示出的加窗的输入“Aw1至Dw4”和“Cw1至Fw4”。
编码器将MDCT应用于“Aw1至Dw4”和“Cw1至Fw4”,并且解码器将IMDCT应用于已经应用MDCT的“Aw1至Dw4”和“Cw1至Fw4”。
随后,解码器应用窗口以创建部分“Aw1w2-Bw2Rw1,-Aw1Rw2+Bw2w2,Cw3w3+Dw4Rw3,和-Cw3w4+Dw4Rw4”以及部分“Cw1w1-Dw2Rw1,-Cw1Rw2+Dw2w2,Ew3w3+Fw4Rw3,和-Ew3w4+Fw4Rw4”。
然后,通过交叠相加和输出部分“Aw1w2-Bw2Rw1、-Aw1Rw2+Bw2w2、Cw3w3+Dw4Rw3,和-Cw3w4+Dw4Rw4”以及部分“Cw1w1-Dw2Rw1、-Cw1Rw2+Dw2w2、Ew3w3+Fw4Rw3,和-Ew3w4+Fw4Rw4”,“CD”帧部分可以被重建为类似原始的,如图所示。在以上提及的过程中,在时域中的混叠分量和输出信号的值可以按照MDCT和IMDCT的定义而获得。
另一方面,在MDCT/IMDCT变换和重叠相加的过程中,完美地重建“CD”帧部分需要超前帧,并且因此出现与超前帧相对应的延迟。具体地,为了完美地重建当前帧部分“CD”,“CD”(其是在处理先前帧部分“AB”时的超前帧)是必要的,并且“EF”(其是当前帧的超前帧)也是必要的。因此,为了完美地重建当前帧“CD”,“ABCD”部分的MDCT/IMDCT输出和“CDEF”部分的MDCT/IMDCT输出是必要的,并且通过与当前帧“CD”的超前帧相对应的“EF”部分获得出现延迟的结构。
因此,可以考虑一种方法,其可以防止由于超前帧的使用的延迟出现,并且使用如上所述的MDCT/IMDCT提高编码/解码速度。
具体地,包括当前帧或者分析帧的一部分的分析帧被自我复制以创建修改的输入(在下文中,为了解释便利的目的称为“修改的输入”),窗口被应用于修改的输入,并且然后,可以对其执行MDCT/IMDCT。无需基于先前的或者后续的帧的处理结果来编码/解码当前帧,通过应用窗口并且通过帧的自我复制来创建要经历MDCT/IMDCT的目标部分,可以没有延迟迅速地执行MDCT/IMDCT以重建信号。
图10是按照本发明示意地图示在系统中语音信号输入其中的帧结构的视图。通常,当通过应用MDCT/IMDCT和执行重叠相加重建原始信号的时候,当前帧“CD”的先前帧部分“AB”和当前帧“CD”的超前帧“EF”是必要的,并且超前帧应当被处理以重建如上所述的当前帧。因此,与超前帧相对应的延迟出现。
在本发明中,如上所述,通过自我复制当前帧“CD”或者自我复制当前帧“CD”的一部分创建了应用窗口的输入(块)。因此,由于其对处理超前帧以便重建当前帧的信号说来不是必需的,所以处理超前帧所必需的延迟不会出现。
在下文中,将参考伴随的附图详细描述本发明的实施例。
实施例1
图11A和11B是按照本发明示意地图示在系统中当前帧通过应用具有长度2N的窗口利用MDCT/IMDCT处理和重建的例子的视图。
在图11A和11B示出的例子中,使用具有长度2N的分析帧。参考图11A,编码器复制部分“D”,其是在具有长度2N的分析帧“ABCD”中的当前帧“CD”的一部分(子帧),并且创建修改的输入“ABCDDD”。考虑到这个分析帧被修改的事实,该修改的输入可以被认为是“修改的分析帧”部分。
该编码器将用于重建当前帧的窗口(当前帧窗口)应用于修改的输入“ABCDDD”的前面部分“ABCD”和后面部分“CDDD”。
如图所示,当前帧窗口具有长度2N以对应于分析帧的长度,并且包括与该子帧的长度相对应的四个部分。
用于执行MDCT/IMDCT的具有长度2N的当前帧窗口包括每个与该子帧的长度相对应的四个部分。
参考图11B,该编码器创建通过将窗口应用于修改的输入的前面部分而获得的输入“Aw1、Bw2、Cw3、Dw4”,和通过将窗口应用于修改的输入的后面部分而获得的输入“Cw1、Dw2、Dw3、Dw4”,并且将MDCT应用于所创建的两个输入。
在对输入应用MDCT之后,编码器将编码的信息传送给解码器。解码器从接收到的信息中获得已经应用MDCT的输入,并且应用获得的输入。
在图中示出的MDCT/IMDCT结果可以基于以上提及的MDCT和IMDCT的定义通过处理已经应用窗口的输入来获得。
在应用IMDCT之后,解码器创建输出,对该输出应用了与在编码器中应用的相同的窗口。如图所示,该解码器可以通过重叠相加创建的两个输出来最后重建“CD”部分的信号。此时,通过应用如上所述完美的重建所必需的条件(数学式2)删除除“CD”部分以外的信号。
实施例2
图12A至12C是按照本发明示意地图示在该系统中通过应用具有长度N的窗口利用MDCT/IMDCT处理和重建当前帧的例子的视图。
在图12A至12C示出的例子中,使用具有长度N的分析帧。因此,在图12A至12C示出的例子中,当前帧可以用作分析帧。
参考图12A,该编码器复制在具有长度N的分析帧“CD”中的部分“C”和“D”,并且创建修改的输入“CCDD”。此时,子帧部分“C”包括子部分“C1”和“C2”,如图所示,并且该子帧部分“D”包括子部分“D1”和“D2”,如图所示。因此,该修改的输入可以被说成包括“C1C2C1C2D1D2D1D2”。
用于执行MDCT/IMDCT的具有长度N的当前帧窗口包括每个与该子帧的长度相对应的四个部分。
该编码器将具有长度N的当前帧窗口应用于修改的输入“CCDD”的前面部分“CC”的前面部分“CC”(也就是说,“C1C2”),将当前帧窗口应用于中间部分“CD”(也就是说,“C1C2D1D2”),并且对其执行MDCT/IMDCT。该编码器将具有长度N的当前帧窗口应用于修改的输入“CCDD”的前面部分“CC”的中间部分“CD”(也就是说,“C1C2D1D2”),将当前帧窗口应用于后面部分“DD”(也就是说,“D1D2D1D2”),并且对其执行MDCT/IMDCT。
图12B是示意地图示对修改的输入的前面部分和中间部分执行MDCT/IMDCT的例子的视图。参考图12B,该编码器创建通过将窗口应用于修改的输入的前面部分而获得的输入“C1w1、C2w2、C1w3、C2w4”,和通过将窗口应用于修改的输入的中间部分而获得的输入“C1w1、C2w2、D1w3、D2w4”,并且对创建的两个输入应用MDCT。
该编码器在将MDCT应用于输入之后将编码的信息传送给解码器,并且该解码器从接收到的信息中获得已经对其应用MDCT的输入,并且对获得的输入应用IMDCT。
在图12B中示出的MDCT/IMDCT结果可以基于以上提及的MDCT和IMDCT的定义通过处理已经应用窗口的输入来获得。
在应用IMDCT之后,解码器创建输出,对该输出应用与在编码器中应用的相同的窗口。该解码器可以通过重叠相加两个输出最后重建“C”部分的信号,也就是,“C1C2”。此时,通过应用如上所述完美的重建所必需的条件(数学式2)来删除除“C”部分以外的信号。
图12C是示意地图示对修改的输入的中间部分和后面部分执行MDCT/IMDCT的例子的视图。参考图12C,该编码器创建通过将窗口应用于修改的输入的中间部分而获得的输入“C1w1、C2w2、C1w3、C2w4”,和通过将窗口应用于修改的输入的后面部分而获得的输入“D1w1、D2w2、D1w3、D2w4”,并且对创建的两个输入应用MDCT。
该编码器在将MDCT应用于输入之后将编码的信息传送给解码器,并且该解码器从接收到的信息中获得已经应用MDCT的输入,并且对获得的输入应用IMDCT。
在图12C中示出的MDCT/IMDCT结果可以基于以上提及的MDCT和IMDCT的定义通过处理已经应用窗口的输入来获得。
在应用IMDCT之后,解码器创建输出,对该输出应用与在编码器中应用的相同的窗口。该解码器可以通过重叠相加两个输出最后重建“D”部分的信号,也就是,“D1D2”。此时,通过应用如上所述完美的重建所必需的条件(数学式2)删除除“D”部分以外的信号。
因此,该解码器可以最后完美地重建当前帧“CD”,如图12B和12C所示。
实施例3
图13A至13E是按照本发明示意地图示在该系统中通过应用具有长度N/2的窗口利用MDCT/IMDCT处理和重建当前帧的例子的视图。
在图13A至13E示出的例子中,使用具有长度5N/4的分析帧。例如,该分析帧通过将当前帧的先前子帧“B”的子部分“B2”添加给当前帧的前面部分“CD”来构成。
参考图13A,在这个实施例中,可以通过复制在该分析帧中子帧“D”的子部分“D2”,和将复制的子部分添加给其后端来构成修改的输入。
在这里,子帧部分“C”包括子部分“C1”和“C2”,如图所示,并且子帧部分“D”也包括子部分“D1”和“D2”,如图所示。因此,修改的输入是“B2C1C2D1D2D2”。
用于执行MDCT/IMDCT的具有长度N/2的当前帧窗口包括每个与子帧的一半长度相对应的四个部分。修改的输入“B2C1C2D1D2D2”的子部分包括与当前帧窗口的该部分相对应的较小部分。例如,“B2”包括“”B21B22”,“C”’包括“C11C12”,“C2”包括“C21C22”,“D1”包括“D11D12”,并且“D2”包括“D21D22”。
该编码器通过应用具有长度N/2的当前帧窗口对修改的输入的部分“B2C1”和部分“C1C2”执行MDCT/IMDCT。该编码器通过应用具有长度N/2的当前帧窗口对修改的输入的部分“C1C2”和部分“C2D1”执行MDCT/IMDCT。
该编码器通过应用具有长度N/2的当前帧窗口对修改的输入的部分“C2D1”和部分“D1D2”执行MDCT/IMDCT,并且通过应用具有长度N/2的当前帧窗口对修改的输入的部分“D1D2”和部分“D2D2”执行MDCT/IMDCT。
图13B是示意地图示对修改的输入的部分“B2C1”和部分“C1C2”执行MDCT/IMDCT的例子的视图。参考图13B,该编码器创建通过将窗口应用于修改的输入的部分“B2C1”而获得的输入“B21w1、B22w2、C11w3、C12w4”,和通过将窗口应用于修改的输入的部分“C1C2”而获得的输入“C11w1、C12w2、C21w3、C22w4”,并且对创建的两个输入应用MDCT。
该编码器在将MDCT应用于输入之后将编码的信息传送给解码器,并且该解码器从接收到的信息中获得已经对其应用MDCT的输入,并且对获得的输入应用IMDCT。
在图13B中示出的MDCT/IMDCT结果可以基于以上提及的MDCT和IMDCT的定义通过处理已经应用窗口的输入来获得。
在应用IMDCT之后,解码器创建输出,对该输出应用与在编码器中应用的相同的窗口。该解码器可以通过重叠相加两个输出最后重建部分“C1”的信号,也就是说,“C11C12”。此时,通过应用如上所述完美的重建所必需的条件(数学式2)来删除除部分“C1”以外的信号。
图13C是示意地图示对修改的输入的“C1C2”部分和“C2D1”部分执行MDCT/IMDCT的例子的视图。参考图13C,该编码器创建通过将窗口应用于修改的输入的部分“C1C2”而获得的输入“C11w1、C12w2、C21w3、C22w4”,和通过将窗口应用于修改的输入的部分“C2D1”而获得的输入“C21w1、C22w2、D11w3、D12w4”。然后,编码器和解码器可以执行MDCT/IMDCT,并且加窗和重叠相加如参考图13B描述的输出,借此可以重建部分“C2”的信号,也就是说,“C21C22”。此时,通过应用如上所述完美的重建所必需的条件(数学式2)来删除除部分“C2”以外的信号。
图13D是示意地图示对修改的输入的部分“C2D1”和部分“D1D2”执行MDCT/IMDCT的例子的视图。参考图13D,该编码器创建通过将窗口应用于修改的输入的部分“C2D1”而获得的输入“C21w1、C22w2、D11w3、D12w4”,和通过将窗口应用于修改的输入的部分“D1D2”而获得的输入“D12w1、D12w2、D21w3、D22w4”。然后,编码器和解码器可以执行MDCT/IMDCT,并且加窗和重叠相加如参考图13B和13C描述的输出,借此可以重建部分“D1”的信号,也就是说,“D11D12”。此时,通过应用如上所述完美的重建所必需的条件(数学式2)来删除除部分“D1”以外的信号。
图13E是示意地图示对修改的输入的部分“D1D2”和部分“D2D2”执行MDCT/IMDCT的例子的视图。参考图13E,该编码器创建通过将窗口应用于修改的输入的部分“D1D2”而获得的输入“D11w1、D12w2、D21w3、D22w4”,和通过将窗口应用于修改的输入的部分“D2D2”而获得的输入“D21w1、D22w2、D21w3、D22w4”。然后,编码器和解码器可以执行MDCT/IMDCT,并且加窗和重叠相加如参考图13B至13D描述的输出,借此可以重建部分“D2”的信号,也就是说,“D21D22”。此时,通过应用如上所述完美的重建所必需的条件(数学式2)来删除除部分“D2”以外的信号。
因此,编码器/解码器可以通过对许多部分执行MDCT/IMDCT如图13A至13E所示最后完美地重建当前帧“CD”。
实施例4
图14A和14B是按照本发明示意地图示在系统中通过应用具有长度2N的窗口利用MDCT/IMDCT处理和重建当前帧的例子的视图。
在图14A和14B示出的例子中,使用具有长度N的分析帧。例如,当前帧“CD”可以用作该分析帧。
参考图14A,在这个实施例中修改的输入可以通过复制在该分析帧中的子帧“C”、将复制的子帧添加给其前端、复制子帧“D”、将复制的子帧添加给其后端而构成为“CCCDDD”。
用于执行MDCT/IMDCT的具有长度2N的当前帧窗口包括每个与该子帧的长度相对应的四个部分。
该编码器通过将当前帧窗口应用于修改的输入的前面部分和后面部分来对修改的输入的前面部分“CCCD”和修改的输入的后面部分“CDDD”执行MDCT/IMDCT。
图14B是示意地图示对修改的输入的“CCCD”部分和“CDDD”部分执行MDCT/IMDCT的例子的视图。参考图14B,该编码器创建通过将窗口应用于修改的输入的“CCCD”部分而获得的输入“Cw1、Cw2、Cw3、Dw4”,和通过将窗口应用于修改的输入的“CDDD”部分而获得的输入“Cw1、Dw2、Dw3、Dw4”,并且对创建的两个输入应用MDCT。
该编码器在将MDCT应用于输入之后将编码的信息传送给解码器,并且该解码器从接收到的信息中获得已经对其应用MDCT的输入,并且对获得的输入应用IMDCT。
在图14B中示出的MDCT/IMDCT结果可以基于以上提及的MDCT和IMDCT的定义通过处理已经应用窗口的输入来获得。
在应用IMDCT之后,解码器创建应用与在编码器中应用的相同的窗口的输出。该解码器可以通过重叠相加创建的两个输出最后重建当前帧“CD”。此时,通过应用如上所述完美的重建所必需的条件(数学式2)来删除除“CD”部分以外的信号。
实施例5
图15A至15C是按照本发明示意地图示在该系统中通过应用具有长度N的窗口利用MDCT/IMDCT处理和重建当前帧的例子的视图。
在图15A至15C示出的例子中,使用具有长度N的分析帧。因此,在这个实施例中,当前帧“CD”可以用作该分析帧。
参考图15A,在这个实施例中修改的输入可以通过复制在该分析帧中的子帧“C”、将复制的子帧添加给其前端、复制子帧“D”,和将复制的子帧添加给其后端而构成为“CCDD”。此时,子帧部分“C”包括子部分“C1”和“C2”,如图所示,并且该子帧部分“D”包括子部分“D1”和“D2”,如图所示。因此,该修改的输入可以被说成包括“C1C2C1C2D1D2D1D2”。
用于执行MDCT/IMDCT的具有长度N的当前帧窗口包括每个与该子帧的长度相对应的四个部分。
该编码器将具有长度N的当前帧窗口应用于修改的输入的部分“CC”和部分“CD”以对其执行MDCT/IMDCT,并且将具有长度N的当前帧窗口应用于部分“CD”和部分“DD”以对其执行MDCT/IMDCT。
图15B是示意地图示对修改的输入的部分“CC”和部分“CD”执行MDCT/IMDCT的例子的视图。参考图15B,该编码器创建通过将窗口应用于修改的输入的部分“CC”而获得的输入“C1w1、C2w2、C1w3、C2w4”,创建通过将窗口应用于修改的输入的部分“CD”而获得的输入“C1w1、C2w2、D1w3、D2w4”,并且对创建的两个输入应用MDCT。
该编码器在将MDCT应用于输入之后将编码的信息传送给解码器,并且该解码器从接收到的信息中获得已经对其应用MDCT的输入,并且对获得的输入应用IMDCT。
在图15B中示出的MDCT/IMDCT结果可以基于以上提及的MDCT和IMDCT的定义通过处理已经应用窗口的输入获得。
在应用IMDCT之后,解码器创建输出,对该输出应用与在编码器中应用的相同的窗口。该解码器可以通过重叠相加两个输出最后重建“C”部分的信号,也就是说,“C1C2”。此时,通过应用如上所述完美的重建所必需的条件(数学式2)来删除除“C”部分以外的信号。
图15C是示意地图示对修改的输入的部分“CD”和部分“DD”执行MDCT/IMDCT的例子的视图。参考图15C,该编码器创建通过将窗口应用于修改的输入的部分“CD”而获得的输入“C1w1、C2w2、C1w3、C2w4”,和通过将窗口应用于修改的输入的部分“DD”而获得的输入“D1w1、D2w2、D1w3、D2w4”。然后,编码器和解码器可以执行MDCT/IMDCT,并且加窗和重叠相加如参考图15B描述的输出,借此可以重建部分“D”的信号,也就是说,“D1D2”。此时,通过应用如上所述完美的重建所必需的条件(数学式2)来删除除“D”部分以外的信号。
因此,编码器/解码器可以通过对许多部分执行MDCT/IMDCT如图15A至15C所示最后完美地重建当前帧“CD”。
实施例6
图16A至16E是按照本发明示意地图示在该系统中通过应用具有长度N/2的窗口利用MDCT/IMDCT处理和重建当前帧的例子的视图。
在图16A至16E示出的例子中,使用具有长度N的分析帧。因此,当前帧可以用作该分析帧。
参考图16A,在这个实施例中,修改的输入可以通过复制在该分析帧中子帧“C”的子部分“C1”、将复制的子部分添加给其前端、复制在该分析帧中子帧“D”的子部分“D2”、将复制的子部分添加给其后端而构成为“C1C1C2D1D2D2”。
用于执行MDCT/IMDCT的具有长度N/2的当前帧窗口包括每个与子帧的一半长度相对应的四个部分。修改的输入“C1C1C2D1D2D2”的子部分包括与当前帧窗口的该部分相对应的较小部分。例如,“C1”包括“C11C12”,“C2”’包括“C21C22”,“D1”包括“D11D12”,和“D2”包括“D21D22”。
该编码器通过应用具有长度N/2的当前帧窗口对修改的输入的部分“C1C1”和部分“C1C2”执行MDCT/IMDCT。该编码器通过应用具有长度N/2的当前帧窗口对修改的输入的部分“C1C2”和部分“C2D1”执行MDCT/IMDCT。
该编码器通过应用具有长度N/2的当前帧窗口对修改的输入的部分“C2D1”和部分“D1D2”执行MDCT/IMDCT,和通过应用具有长度N/2的当前帧窗口对修改的输入的部分“D1D2”和部分“D2D2”执行MDCT/IMDCT。
图16B是示意地图示对修改的输入的部分“C1C1”和部分“C1C2”执行MDCT/IMDCT的例子的视图。参考图16B,该编码器创建通过将窗口应用于修改的输入的部分“C1C1”而获得的输入“C11w1、C12w2、C11w3、C12w4”,和通过将窗口应用于修改的输入的部分“C1C2”而获得的输入“C11w1、C12w2、C21w3、C22w4”,并且对创建的两个输入应用MDCT。
该编码器在将MDCT应用于输入之后将编码的信息传送给解码器,并且该解码器从接收到的信息中获得已经对其应用MDCT的输入,并且对获得的输入应用IMDCT。
在图16B中示出的MDCT/IMDCT结果可以基于以上提及的MDCT和IMDCT的定义通过处理已经应用窗口的输入来获得。
在应用IMDCT之后,解码器生成输出,对该输出应用与在编码器中应用的相同的窗口。该解码器可以通过重叠相加两个输出最后重建部分“C1”的信号,也就是说,“C11C12”。此时,通过应用如上所述完美的重建所必需的条件(数学式2)来删除除“C1”部分以外的信号。
图16C是示意地图示对修改的输入的“C1C2”部分和“C2D1”部分执行MDCT/IMDCT的例子的视图。参考图16C,该编码器生成通过将窗口应用于修改的输入的部分“C1C2”而获得的输入“C11w1、C12w2、C21w3、C22w4”,和通过将窗口应用于修改的输入的部分“C2D1”而获得的输入“C21w1、C22w2、D11w3、D12w4”。然后,编码器和解码器可以执行MDCT/IMDCT,并且加窗和重叠相加如参考图16B描述的输出,借此可以重建部分“C2”的信号,也就是说,“C21C22”。此时,通过应用如上所述完美的重建所必需的条件(数学式2)来删除除“C2”部分以外的信号。
图16D是示意地图示对修改的输入的“C2D1”部分和“D1D2”部分执行MDCT/IMDCT的例子的视图。参考图16D,该编码器生成通过将窗口应用于修改的输入的部分“C2D1”而获得的输入“C21w1、C22w2、D11w3、D12w4”,和通过将窗口应用于修改的输入的部分“D1D2”而获得的输入“D12w1、D12w2、D21w3、D22w4”。然后,编码器和解码器可以执行MDCT/IMDCT,并且加窗和重叠相加如参考图16B和16C描述的输出,借此可以重建“D1”部分的信号,也就是说,“D11D12”。此时,通过应用如上所述完美的重建所必需的条件(数学式2)来删除除“D1”部分以外的信号。
图16E是示意地图示对修改的输入的部分“D1D2”和部分“D2D2”执行MDCT/IMDCT的例子的视图。参考图16E,该编码器生成通过将窗口应用于修改的输入的部分“D1D2”而获得的输入“D11w1、D12w2、D21w3、D22w4”,和通过将窗口应用于修改的输入的部分“D2D2”而获得的输入“D21w1、D22w2、D21w3、D22w4”。然后,编码器和解码器可以执行MDCT/IMDCT,并且加窗和重叠相加如参考图16B至16D描述的输出,借此可以重建部分“D2”的信号,也就是说,“D21D22”。此时,通过应用如上所述完美的重建所必需的条件(数学式2)来删除除部分“D2”以外的信号。
因此,编码器/解码器可以通过对许多部分执行MDCT/IMDCT如图16A至16E所示最后完美地重建当前帧“CD”。
实施例7
图17A至17D是按照本发明示意地图示在该系统中通过应用具有长度2N的窗口利用MDCT/IMDCT处理和重建当前帧的另一个例子的视图。
在下面将参考图2和3描述执行MDCT/IMDCT的过程。该编码器的MDCT单元200可以经由辅助路径260接收有关分析帧/修改的输入的长度、窗口类型/长度、分配比特等等的边信息。该边信息被传送给缓冲器210、修改单元220、加窗单元230、正向变换单元240和格式器250。
当时域采样作为输入信号被输入的时候,缓冲器210生成输入信号的块或者帧序列。例如,如图17A所示,可以生成当前帧“CD”、先前帧“AB”,和后续帧“EF”的序列。
如图所示,当前帧“CD”的长度是N,并且当前帧“CD”的子帧“C”和“D”的长度是N/2。
在这个实施例中,具有长度N的分析帧如图所示被使用,并且因此,当前帧可以用作该分析帧。
修改单元220可以通过自我复制该分析帧而生成具有长度2N的修改的输入。在这个实施例中,该修改的输入“CDCD”可以通过自我复制该分析帧“CD”、并且将复制的帧添加给该分析帧的前端或者后端来生成。
加窗单元230将具有长度2N的当前帧窗口应用于具有长度2N的修改的输入。当前帧窗口的长度是2N,如图所示,并且包括每个与修改的输入的每个部分(子帧“C”和“D”)的长度相对应的四个部分。当前帧窗口的每个部分满足数学式2的关系。
图17B是示意地图示MDCT应用于具有应用窗口的修改的输入的例子的视图。
加窗单元230输出已经应用窗口的修改的输入1700“Cw1、Dw2、Cw3、Dw4”,如图所示。
正向变换单元240如参考图2描述的将时域信号变换为频域信号。正向变换单元240将MDCT用作变换方法。正向变换单元240输出结果1705,其中MDCT被应用于应用了窗口的修改的输入1700。在经历MDCT的信号中,“-(Dw2)R,-(Cw1)R,(Dw4)R,(Cw3)R”对应于混叠分量1710,如图所示。
格式器250生成包括频谱信息的数字信息。格式器250执行信号压缩操作和编码操作,并且执行比特封装操作。通常,为了存储和传输的目的,在使用编码块压缩时域信号的过程中,频谱信息与边信息一起被二元化以生成数字信号。该格式器可以基于量化方案和心理声学模型执行处理,可以执行比特封装操作,并且可以生成边信息。
解码器的IMDCT单元300的去格式器310执行与解码信号相关联的功能。以二元化的比特编码的参数和边信息(块/帧大小、窗口长度/形状等等)被解码。
该提取的信息的边信息可以经由辅助路径360传送给逆向变换单元320、加窗单元330、修改的重叠相加处理器340,和输出处理器350。
逆向变换单元320从由去格式器310提取的频谱信息中生成频率域系数,并且将该系数逆向地变换为时域信号。此时使用的逆向变换对应于在编码器中使用的变换方法。在本发明中,该编码器使用MDCT,并且解码器使用对应于其的IMDCT。
图17C是示意地图示应用IMDCT,然后应用窗口的过程的视图。如图所示,逆向变换单元320通过逆向变换生成时域信号1715。在执行MDCT/IMDCT的过程中,连续地保持和生成混叠分量1720。
加窗单元330将与在编码器中应用的相同的窗口应用于通过逆向变换(也就是说,IMDCT)生成的时域系数。在这个实施例中,可以如图所示应用包括四个部分w1、w2、w3和w4的具有长度2N的窗口。
如图所示,可以看出在该窗口的应用的结果1725中保持混叠分量1730。
该修改的重叠相加处理器(或者修改单元)350通过重叠相加已经应用窗口的时域系数来重建信号。
图17D是示意地图示在本发明中执行的重叠相加方法的例子的视图。参考图17D,在具有通过将窗口应用于修改的输入而获得的长度2N的结果中,执行MDCT/IMDCT,和再次将窗口应用于该结果,具有长度N的前面部分1750和具有长度N的后面部分1755可以重叠相加以完美地重建当前帧“CD”。
该输出处理器350输出重建的信号。
实施例8
图18A至18H是按照本发明示意地图示在该系统中通过应用梯形的窗口利用MDCT/IMDCT处理和重建当前帧的例子的视图。
在下面将参考图2和3描述执行MDCT/IMDCT的过程。该编码器的MDCT单元200可以经由辅助路径260接收有关分析帧/修改的输入的长度、窗口类型/长度、分配比特等等的边信息。该边信息被传送给缓冲器210、修改单元220、加窗单元230、正向变换单元240和格式器250。
当时域采样被作为输入信号输入的时候,缓冲器210生成输入信号的块或者帧序列。例如,如图18A所示,可以生成当前帧“CD”、先前帧“AB”,和后续帧“EF”的序列。如图所示,当前帧“CD”的长度是N,并且当前帧的子帧“C”和“D”的长度是N/2。
在这个实施例中,具有长度M的超前帧“Epart”被添加给具有长度N的当前帧的后端,并且为正向变换的目的,该结果用作分析帧,如图所示。超前帧“Epart”是在超前帧“EF”中的子帧“E”的一部分。
修改单元220可以通过自我复制该分析帧生成修改的输入。在这个实施例中,该修改的输入“CD EpartCDEpart”可以通过自我复制该分析帧“CDEpart”,并且将复制的帧添加给该分析帧的前端或者后端来生成。此时,具有长度N+M的梯形的窗口可以首先应用于具有长度N+M的分析帧,然后可以执行自我复制。
具体地,如图18A所示,应用了长度N+M的梯形的窗口1800的分析帧1805可以被自我复制,以生成具有长度2N+2M的修改的输入1810。
加窗单元230将具有长度2N+2M的当前帧窗口应用于具有长度2N的修改的输入。当前帧窗口的长度是2N+2M,如图所示,并且包括每个满足数学式2关系的四个部分。
在这里,代替将具有长度2N+2M的当前帧窗口再次应用于通过应用具有长度N+M的梯形的窗口生成的修改的输入,具有梯形的形状的当前帧窗口可以应用一次。例如,具有长度2N+2M的修改的输入可以通过应用具有长度N+M的梯形的窗口、并且然后执行自我复制来生成。该修改的输入可以通过自我复制没有应用窗口的帧部分“CDEpart”本身、并且然后应用连接梯形的形状的长度2N+2M的窗口来生成。
图18B是示意地图示当前帧窗口应用于该修改的输入的例子的视图。如图所示,具有相同长度的当前帧窗口1815应用于具有长度2N+2M的修改的输入1810。为解释便利的目的,与当前帧窗口部分相对应的修改的窗口部分被定义为“Cmodi”和“Dmodi”。
图18C是示意地图示当前帧窗口应用于该修改的输入的结果的视图。如图所示,加窗单元230可以生成窗口的应用的结果1820,也就是说,“Cmodiw1、Dmodiw2、Cmodiw3、Dmodiw4”。
正向变换单元240如参考图2描述的将时域信号变换为频域信号。在本发明中正向变换单元240将MDCT用作变换方法。正向变换单元240输出结果1825,其中MDCT被应用于应用了窗口的修改的输入1820。在经历MDCT的信号中,“-(Dmodiw2)R,-(Cmodiw1)R,(Dmodiw4)R,(Cmodiw3)R”对应于混叠分量1710,如图所示。
格式器250生成包括频谱信息的数字信息。格式器250执行信号压缩操作和编码操作,并且执行比特封装操作。通常,为了存储和传输的目的,在使用编码块压缩时域信号的过程中,频谱信息与边信息一起被二元化以生成数字信号。该格式器可以基于量化方案和心理声学模型执行处理,可以执行比特封装操作,并且可以生成边信息。
解码器的IMDCT单元300的去格式器310执行与解码信号相关联的功能。以二元化的比特编码的参数和边信息(块/帧大小、窗口长度/形状等等)被解码。
该提取的信息的边信息可以经由辅助路径360传送给逆向变换单元320、加窗单元330、修改的重叠相加处理器340,和输出处理器350。
逆向变换单元320从由去格式器310提取的频谱信息中生成频域系数,并且将该系数逆向地变换为时域信号。此时使用的逆向变换对应于在编码器中使用的变换方法。在本发明中,该编码器使用MDCT,并且解码器使用对应于其的IMDCT。
图18E是示意地图示应用IMDCT、并且然后应用窗口的过程的视图。
如图所示,逆向变换单元320通过逆向变换生成时域信号1825。在这个实施例中,对其执行变换的部分的长度是2N+2M,如上所述。在执行MDCT/IMDCT的过程中,连续地保持和生成混叠分量1830。
加窗单元330将与在编码器中应用的相同的窗口应用于通过逆向变换(也就是说,IMDCT)生成的时域系数。在这个实施例中,包括四个部分w1、w2、w3和w4的具有长度2N+2M的窗口可以如图所示应用。
如图18E所示,可以看出在该窗口的应用的结果1725中保持混叠分量1730。
该修改的重叠相加处理器(或者修改单元)350通过重叠相加已经应用窗口的时域系数来重建信号。
图18F是示意地图示在本发明中执行的重叠相加方法的例子的视图。参考图18F,在具有通过将窗口应用于修改的输入而获得的长度2N的结果1840中,执行MDCT/IMDCT,并且再次将窗口应用于该结果,具有长度N的前面部分1850和具有长度N的后面部分1855可以重叠相加以完美地重建当前帧“CmodiDmodi”。此时,通过重叠相加删除该混叠分量1845。
剩余包括在“Cmodi”和“Dmodi”中的分量“Epart”。例如,如图18G所示,重建的“CmodiDmodi”1860变为“CDEpart”1865,其中除了当前帧“CD”之外,部分“Epart”保持。因此,可以看出当前帧与超前帧的一部分一起被完美地重建。
另一方面,图18D至18G示出应用当前帧窗口和MDCT/IMDCT的信号分量,但是,不反映信号的幅值。因此,考虑到该信号的幅值,在图18H中示出的完美的重建过程可以基于梯形窗口的应用的结果执行,如图18A和18B所示。
图18H是示意地图示完美地重建子帧“C”(其通过应用梯形的窗口被部分地重建)方法的视图。
如上所述,甚至当当前帧“CD”被重建时,为解释便利的目的,没有参考图18G描述梯形的窗口的应用,并且因此,子帧部分“C”需要被完美地重建。
如图18H所示,类似于在处理当前帧“CD”的过程中包括的“Epart”,在处理先前帧“AB”的过程中包括的“Cpart”被共同地重建。
因此,通过重叠相加当前重建的梯形的“CDEpart”1870与先前重建的梯形的“Cpart”1875,当前帧“CD”1880可以被完美地重建。此时,为超前帧“EF”重建的目的,与当前帧“CD”一起重建的“Epart”可以存储在存储器中。
该输出处理器350输出重建的信号。
在以上提及的实施例中,由于由格式器和去格式器执行的量化,在编码器中经过MDCT,从格式器和去格式器输出,并且经历IMDCT的信号可以包括误差,但是,为解释便利的目的,假设当误差出现的时候,该误差包括在IMDCT结果中。但是,通过应用如在实施例8中描述的梯形的窗口,和重叠相加该结果,可以减小量化系数的误差。
在实施例1至8中,参考图11至18描述的是使用的窗口是正弦波窗口,但是,这仅仅意欲是为了解释方便起见。如上所述,在该发明中可应用的窗口是对称窗口,并且不局限于正弦波窗口。例如,可以应用不规则四边形窗口、正弦波窗口、Kaiser-Bessel驱动窗口,和梯形的窗口。
因此,在实施例8中,可以使用通过重叠相加能够完美地重建子帧“C”的其它对称窗口代替梯形的窗口。例如,作为具有与在图18A中应用的梯形的窗口相同长度的长度N+M的窗口,可以使用具有对称形状的窗口,其中与长度N-M相对应的部分具有用于保持原始信号幅值的单位大小,并且与2M相对应的两个端部分的总长度在重叠相加的过程中变为原始信号的大小。
图19是按照本发明示意地图示在系统中由编码器执行的变换操作的视图。
该编码器生成作为帧序列的输入信号,并且然后指定分析帧(S1910)。该编码器指定在整个帧序列之外用作该分析帧的帧。除了该帧之外,子帧和该子帧的子子帧(sub-sub-frame)可以包括在该分析帧中。
该编码器生成修改的输入(S1920)。如上在实施例中所述,编码器可以通过自我复制分析帧或者自我复制该分析帧的一部分,并且将复制的帧添加给该分析帧,来生成用于通过MDCT/IMDCT和重叠相加而完美地重建信号的修改的输入。此时,为了生成具有特定形状的修改的输入,具有特定形状的窗口可以在生成修改的输入的过程中应用于该分析帧或者修改的输入。
编码器将窗口应用于修改的输入(S1930)。编码器可以生成处理单元,应当通过对修改的输入的特定部分,例如,对前面部分和后面部分,或者前面部分、中间部分和后面部分应用窗口来对该处理单元执行MDCT/IMDCT。此时,为解释便利的目的,在本说明书中应用的窗口称为当前帧窗口,以便表示其是为处理当前帧的目的而应用的。
编码器应用MDCT(S1940)。MDCT可以由应用当前帧窗口的处理单元执行。MDCT的详情与如上所述相同。
随后,该编码器可以执行将MDCT的应用的结果传送给解码器的过程(S1950)。所示出的编码过程可以作为传送信息给解码器的过程而执行。此时,除了MDCT的应用的结果之外的边信息等等可以传送给解码器。
图20是按照本发明示意地图示在系统中由解码器执行的逆向变换操作的视图。
当解码器从编码器接收语音信号的编码的信息的时候,该解码器对接收到的信息去格式化(S2010)。该编码和传送的信号通过去格式化被解码,并且该边信息被提取。
解码器对从编码器接收到的语音信号执行IMDCT(S2020)。该解码器执行与在编码器中执行的变换方法相对应的逆向变换。在本发明中,该编码器执行MDCT,并且解码器执行IMDCT。IMDCT的详情与如上所述相同。
解码器再次将窗口应用于IMDCT的应用的结果(S2030)。由解码器应用的窗口是与在编码器中应用的相同的窗口,并且指定重叠相加的处理单元。
解码器导致窗口的应用结果互相重叠(重叠相加)(S2040)。经历MDCT/IMDCT的语音信号可以通过重叠相加而被完美地重建。重叠相加的详情与如上所述相同。
为解释便利的目的,信号部分称为“帧”、“子帧”、“子部分”等等。但是,这仅仅是意欲为了解释的方便起见,并且为容易理解的目的,每个部分可以考虑只是作为信号“块”。
虽然在以上提及的示例性的系统中已经基于包括一系列的步骤或者块的流程图描述了多个方法,但是本发明不局限于步骤的顺序,并且某个步骤可以以除如上所述以外的步骤或者顺序执行或者如上所述同时地执行。以上提及的实施例可以包括各种例子。因此,应当理解本发明包括属于所附的权利要求的所有其它的替换、变化和修改。
当如上所述一个单元“连接到”或者“耦合到”另一个单元的时候,应当理解可以在其间插入又一个单元,以及该单元可以直接连接或者耦合到另一个单元。相反地,当其提及一个单元“直接连接到”或者“直接耦合到”另一个单元的时候,应当理解没有在其间插入又一个单元。
Claims (16)
1.一种语音信号编码方法,包括步骤:
在输入信号中指定分析帧;
基于所述分析帧生成修改的输入;
将窗口应用于所述修改的输入;
通过对已经应用了窗口的所述修改的输入执行MDCT(修改的离散余弦变换),来生成变换系数;和
编码所述变换系数,
其中所述修改的输入包括:
所述分析帧,和
所述分析帧的全部或者一部分的自我复制。
2.根据权利要求1所述的语音信号编码方法,其中当前帧具有N的长度,并且所述窗口具有2N的长度,
其中应用窗口的步骤包括通过将所述窗口应用于所述修改的输入的前端来生成第一修改的输入,以及通过将所述窗口应用于所述修改的输入的后端来生成第二修改的输入,
其中生成变换系数的步骤包括通过对所述第一修改的输入执行MDCT来生成第一变换系数,以及通过对所述第二修改的输入执行MDCT生成第二变换系数,并且
其中编码变换系数的步骤包括编码所述第一修改的系数和所述第二修改的系数。
3.根据权利要求2所述的语音信号编码方法,其中所述分析帧包括当前帧和所述当前帧的先前帧,并且
其中通过将所述当前帧的第二半的自我复制添加到所述分析帧来生成所述修改的输入。
4.根据权利要求2所述的语音信号编码方法,其中所述分析帧包括当前帧,
其中通过将所述当前帧的第一半的M个自我复制添加到所述分析帧的前端,并且将所述当前帧的第二半的M个自我复制添加到所述分析帧的后端,来生成所述修改的输入,并且
其中所述修改的输入具有3N的长度。
5.根据权利要求1所述的语音信号编码方法,其中所述窗口具有与当前帧相同的长度,
其中所述分析帧包括所述当前帧,
其中通过将所述当前帧的第一半的自我复制添加到所述分析帧的前端,并且将所述当前帧的第二半的自我复制添加到所述分析帧的后端,来生成所述修改的输入,
其中应用窗口的步骤包括通过将所述窗口应用于所述修改的输入,同时从所述修改的输入的前端依次地将所述窗口移位半帧,来生成第一修改的输入至第三修改的输入,
其中生成变换系数的步骤包括通过对所述第一修改的输入至第三修改的输入执行MDCT来生成第一变换系数至第三变换系数,并且
其中编码变换系数的步骤包括编码所述第一变换系数至第三变换系数。
6.根据权利要求1所述的语音信号编码方法,其中当前帧具有N的长度,所述窗口具有N/2的长度,并且所述修改的输入具有3N/2的长度,
其中应用窗口的步骤包括通过将窗口应用于所述修改的输入,同时从所述修改的输入的前端依次地将所述窗口移位四分之一帧,来生成第一修改的输入至第五修改的输入,
其中生成变换系数的步骤包括通过对所述第一修改的输入至第五修改的输入执行MDCT来生成第一变换系数至第五变换系数,并且
其中编码变换系数的步骤包括编码所述第一变换系数至第五变换系数。
7.根据权利要求6所述的语音信号编码方法,其中所述分析帧包括当前帧,并且
其中通过将所述当前帧的第一半的前半部的自我复制添加到所述分析帧的前端,并且将所述当前帧的第二半的后半部的自我复制添加到所述分析帧的后端,来生成所述修改的输入。
8.根据权利要求6所述的语音信号编码方法,其中所述分析帧包括当前帧和所述当前帧的先前帧,并且
其中通过将所述当前帧的第二半的自我复制添加到所述分析帧来生成所述修改的输入。
9.根据权利要求1所述的语音信号编码方法,其中当前帧具有N的长度,所述窗口具有2N的长度,并且所述分析帧包括所述当前帧,并且
其中通过将所述当前帧的自我复制添加到所述分析帧来生成所述修改的输入。
10.根据权利要求1所述的语音信号编码方法,其中当前帧具有N的长度,并且所述窗口具有N+M的长度,
其中通过将具有M长度的倾斜部分的对称第一窗口应用于所述当前帧的后续帧和所述当前帧的具有M长度的第一半,来生成所述分析帧,
其中通过自我复制所述分析帧来生成所述修改的输入,
其中应用窗口的步骤包括通过将第二窗口应用于所述修改的输入的前端来生成第一修改的输入,以及通过将第二窗口应用于所述修改的输入的后端来生成第二修改的输入,
其中生成变换系数的步骤包括通过对所述第一修改的输入执行MDCT来生成第一变换系数,以及通过对所述第二修改的输入执行MDCT来生成第二变换系数,并且
其中编码变换系数的步骤包括编码所述第一修改的系数和所述第二修改的系数。
11.一种语音信号解码方法,包括步骤:
通过解码输入信号来生成变换系数序列;
通过对变换系数执行IMDCT(修改的离散余弦逆变换)来生成时间系数序列;
将预定的窗口应用于所述时间系数序列;和
输出采样,通过使得被应用了窗口的所述时间系数序列重叠来重建所述采样,
其中所述输入信号是编码的变换系数,通过将与所述窗口相同的窗口应用于基于语音信号中的预定分析帧而生成的修改的输入,并且对其执行MDCT,来生成所述编码的变换系数,并且
其中所述修改的输入包括所述分析帧和所述分析帧的全部或者一部分的自我复制。
12.根据权利要求11所述的语音信号解码方法,其中生成变换系数序列的步骤包括生成当前帧的第一变换系数序列和第二变换系数序列,
其中生成时间系数序列的步骤包括通过对所述第一变换系数序列和所述第二变换系数序列执行IMDCT来生成第一时间系数序列和第二时间系数序列,
其中应用窗口的步骤包括将所述窗口应用于所述第一时间系数序列和所述第二时间系数序列,并且
其中输出采样的步骤包括以一个帧的间隙对应用了所述窗口的所述第一时间系数序列和所述第二时间系数序列进行重叠相加。
13.根据权利要求11所述的语音信号解码方法,其中生成变换系数序列的步骤包括生成当前帧的第一变换系数序列至第三变换系数序列,
其中生成时间系数序列的步骤包括通过对所述第一变换系数序列至第三变换系数序列执行IMDCT,来生成第一时间系数序列至第三时间系数序列,
其中应用窗口的步骤包括将所述窗口应用于所述第一时间系数序列至第三时间系数序列,并且
其中输出采样的步骤包括从先前的或者后续的帧开始以半帧的间隙对应用了所述窗口的所述第一时间系数序列至第三时间系数序列进行重叠相加。
14.根据权利要求11所述的语音信号解码方法,其中生成变换系数序列的步骤包括生成当前帧的第一变换系数序列至第五变换系数序列,
其中生成时间系数序列的步骤包括通过对所述第一变换系数序列至第五变换系数序列执行IMDCT,来生成第一时间系数序列至第五时间系数序列,
其中应用窗口的步骤包括将所述窗口应用于所述第一时间系数序列至第五时间系数序列,并且
其中输出采样的步骤包括从先前的或者后续的帧开始以四分之一帧的间隙对应用了所述窗口的第一时间系数序列至第五时间系数序列进行重叠相加。
15.根据权利要求11所述的语音信号解码方法,其中所述分析帧包括当前帧,
其中通过将所述分析帧的自我复制添加到所述分析帧来生成所述修改的输入,并且
其中输出采样的步骤包括对所述时间系数序列的第一半和所述时间系数序列的第二半进行重叠相加。
16.根据权利要求11所述的语音信号解码方法,其中当前帧具有N的长度,并且所述窗口是具有N+M的长度的第一窗口,
其中通过将具有M长度的倾斜部分的对称第二窗口应用于所述当前帧的后续帧和所述当前帧的具有M长度的第一半,来生成所述分析帧,
其中通过自我复制所述分析帧来生成所述修改的输入,并且
其中输出采样的步骤包括对所述时间系数序列的第一半和所述时间系数序列的第二半进行重叠相加,并且然后将被重叠相加的所述时间系数的第一半和第二半重叠相加到所述当前帧的先前帧的重建采样。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US41721410P | 2010-11-24 | 2010-11-24 | |
US61/417,214 | 2010-11-24 | ||
US201161531582P | 2011-09-06 | 2011-09-06 | |
US61/531,582 | 2011-09-06 | ||
PCT/KR2011/008981 WO2012070866A2 (ko) | 2010-11-24 | 2011-11-23 | 스피치 시그널 부호화 방법 및 복호화 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103229235A true CN103229235A (zh) | 2013-07-31 |
CN103229235B CN103229235B (zh) | 2015-12-09 |
Family
ID=46146303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180056646.6A Expired - Fee Related CN103229235B (zh) | 2010-11-24 | 2011-11-23 | 语音信号编码方法和语音信号解码方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9177562B2 (zh) |
EP (1) | EP2645365B1 (zh) |
KR (1) | KR101418227B1 (zh) |
CN (1) | CN103229235B (zh) |
WO (1) | WO2012070866A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111602195A (zh) * | 2017-11-10 | 2020-08-28 | 弗劳恩霍夫应用研究促进协会 | 用于调制重叠变换的分析/合成窗口化函数 |
CN114007176A (zh) * | 2020-10-09 | 2022-02-01 | 上海又为智能科技有限公司 | 用于降低信号延时的音频信号处理方法、装置及存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105247614B (zh) * | 2013-04-05 | 2019-04-05 | 杜比国际公司 | 音频编码器和解码器 |
KR102547480B1 (ko) * | 2014-12-09 | 2023-06-26 | 돌비 인터네셔널 에이비 | Mdct-도메인 에러 은닉 |
CN115484463B (zh) * | 2018-09-05 | 2024-06-04 | Lg电子株式会社 | 对视频信号进行解码/编码及发送数据的设备 |
US20220232255A1 (en) * | 2019-05-30 | 2022-07-21 | Sharp Kabushiki Kaisha | Image decoding apparatus |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1132877A (zh) * | 1995-04-01 | 1996-10-09 | 现代电子产业株式会社 | 采用语音多路系统的数字音频编码器 |
US5787389A (en) * | 1995-01-17 | 1998-07-28 | Nec Corporation | Speech encoder with features extracted from current and previous frames |
US5848391A (en) * | 1996-07-11 | 1998-12-08 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method subband of coding and decoding audio signals using variable length windows |
US6009386A (en) * | 1997-11-28 | 1999-12-28 | Nortel Networks Corporation | Speech playback speed change using wavelet coding, preferably sub-band coding |
US20010023395A1 (en) * | 1998-08-24 | 2001-09-20 | Huan-Yu Su | Speech encoder adaptively applying pitch preprocessing with warping of target signal |
US20020007273A1 (en) * | 1998-03-30 | 2002-01-17 | Juin-Hwey Chen | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
CN101061533A (zh) * | 2004-10-26 | 2007-10-24 | 松下电器产业株式会社 | 语音编码装置和语音编码方法 |
CN101218768A (zh) * | 2005-10-07 | 2008-07-09 | 株式会社Ntt都科摩 | 调制装置、调制方法、解调装置及解调方法 |
CN101325060A (zh) * | 2007-06-14 | 2008-12-17 | 汤姆逊许可公司 | 频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备 |
CN101496098A (zh) * | 2006-07-31 | 2009-07-29 | 高通股份有限公司 | 用于以与音频信号相关联的帧修改窗口的系统及方法 |
CN101796578A (zh) * | 2007-09-19 | 2010-08-04 | 高通股份有限公司 | 用于语音和音频译码应用的mdct/imdct滤波器组的有效设计 |
US20100217607A1 (en) * | 2009-01-28 | 2010-08-26 | Max Neuendorf | Audio Decoder, Audio Encoder, Methods for Decoding and Encoding an Audio Signal and Computer Program |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
DE10129240A1 (de) * | 2001-06-18 | 2003-01-02 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verarbeiten von zeitdiskreten Audio-Abtastwerten |
US20040064308A1 (en) * | 2002-09-30 | 2004-04-01 | Intel Corporation | Method and apparatus for speech packet loss recovery |
WO2004084181A2 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Simple noise suppression model |
DE10321983A1 (de) * | 2003-05-15 | 2004-12-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Einbetten einer binären Nutzinformation in ein Trägersignal |
US7325023B2 (en) * | 2003-09-29 | 2008-01-29 | Sony Corporation | Method of making a window type decision based on MDCT data in audio encoding |
DE10345996A1 (de) * | 2003-10-02 | 2005-04-28 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten |
CN101273403B (zh) * | 2005-10-14 | 2012-01-18 | 松下电器产业株式会社 | 可扩展编码装置、可扩展解码装置以及其方法 |
EP2002426B1 (en) * | 2006-04-04 | 2009-09-02 | Dolby Laboratories Licensing Corporation | Audio signal loudness measurement and modification in the mdct domain |
US20080103765A1 (en) | 2006-11-01 | 2008-05-01 | Nokia Corporation | Encoder Delay Adjustment |
KR101291193B1 (ko) * | 2006-11-30 | 2013-07-31 | 삼성전자주식회사 | 프레임 오류은닉방법 |
CN101437009B (zh) * | 2007-11-15 | 2011-02-02 | 华为技术有限公司 | 丢包隐藏的方法及其系统 |
WO2011013980A2 (en) * | 2009-07-27 | 2011-02-03 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
-
2011
- 2011-11-23 EP EP11842721.0A patent/EP2645365B1/en not_active Not-in-force
- 2011-11-23 KR KR1020137013582A patent/KR101418227B1/ko not_active IP Right Cessation
- 2011-11-23 US US13/989,196 patent/US9177562B2/en not_active Expired - Fee Related
- 2011-11-23 CN CN201180056646.6A patent/CN103229235B/zh not_active Expired - Fee Related
- 2011-11-23 WO PCT/KR2011/008981 patent/WO2012070866A2/ko active Application Filing
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5787389A (en) * | 1995-01-17 | 1998-07-28 | Nec Corporation | Speech encoder with features extracted from current and previous frames |
CN1132877A (zh) * | 1995-04-01 | 1996-10-09 | 现代电子产业株式会社 | 采用语音多路系统的数字音频编码器 |
US5848391A (en) * | 1996-07-11 | 1998-12-08 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method subband of coding and decoding audio signals using variable length windows |
US6009386A (en) * | 1997-11-28 | 1999-12-28 | Nortel Networks Corporation | Speech playback speed change using wavelet coding, preferably sub-band coding |
US20020007273A1 (en) * | 1998-03-30 | 2002-01-17 | Juin-Hwey Chen | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
US20010023395A1 (en) * | 1998-08-24 | 2001-09-20 | Huan-Yu Su | Speech encoder adaptively applying pitch preprocessing with warping of target signal |
CN101061533A (zh) * | 2004-10-26 | 2007-10-24 | 松下电器产业株式会社 | 语音编码装置和语音编码方法 |
CN101218768A (zh) * | 2005-10-07 | 2008-07-09 | 株式会社Ntt都科摩 | 调制装置、调制方法、解调装置及解调方法 |
CN101496098A (zh) * | 2006-07-31 | 2009-07-29 | 高通股份有限公司 | 用于以与音频信号相关联的帧修改窗口的系统及方法 |
CN101325060A (zh) * | 2007-06-14 | 2008-12-17 | 汤姆逊许可公司 | 频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备 |
CN101796578A (zh) * | 2007-09-19 | 2010-08-04 | 高通股份有限公司 | 用于语音和音频译码应用的mdct/imdct滤波器组的有效设计 |
US20100217607A1 (en) * | 2009-01-28 | 2010-08-26 | Max Neuendorf | Audio Decoder, Audio Encoder, Methods for Decoding and Encoding an Audio Signal and Computer Program |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111602195A (zh) * | 2017-11-10 | 2020-08-28 | 弗劳恩霍夫应用研究促进协会 | 用于调制重叠变换的分析/合成窗口化函数 |
CN111602195B (zh) * | 2017-11-10 | 2023-07-07 | 弗劳恩霍夫应用研究促进协会 | 对信息信号进行编码和解码的方法及设备 |
US12033646B2 (en) | 2017-11-10 | 2024-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
CN114007176A (zh) * | 2020-10-09 | 2022-02-01 | 上海又为智能科技有限公司 | 用于降低信号延时的音频信号处理方法、装置及存储介质 |
WO2022073478A1 (zh) * | 2020-10-09 | 2022-04-14 | 上海又为智能科技有限公司 | 用于降低信号延时的音频信号处理方法、装置及存储介质 |
CN114007176B (zh) * | 2020-10-09 | 2023-12-19 | 上海又为智能科技有限公司 | 用于降低信号延时的音频信号处理方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20130246054A1 (en) | 2013-09-19 |
KR20130086619A (ko) | 2013-08-02 |
EP2645365A2 (en) | 2013-10-02 |
CN103229235B (zh) | 2015-12-09 |
WO2012070866A3 (ko) | 2012-09-27 |
EP2645365A4 (en) | 2015-01-07 |
EP2645365B1 (en) | 2018-01-17 |
WO2012070866A2 (ko) | 2012-05-31 |
KR101418227B1 (ko) | 2014-07-09 |
US9177562B2 (en) | 2015-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7228607B2 (ja) | 全帯域ギャップ充填を備えた周波数ドメインプロセッサと時間ドメインプロセッサとを使用するオーディオ符号器及び復号器 | |
JP7513669B2 (ja) | 符号化されたオーディオ信号を復号するためのデコーダおよびオーディオ信号を符号化するためのエンコーダ | |
KR101187597B1 (ko) | 복소수 값 필터 뱅크들을 사용하는 오디오 신호들의 인코딩및 디코딩 | |
TWI581251B (zh) | 使用頻域處理器、時域處理器及供不斷初始化的跨處理器之音頻編碼器及解碼器 | |
KR101589942B1 (ko) | 외적 향상 고조파 전치 | |
CN103229235B (zh) | 语音信号编码方法和语音信号解码方法 | |
JP3203250B2 (ja) | 低計算複雑性デジタルフィルタバンク | |
JP2018077487A (ja) | オーディオエンコーダ、符号化方法およびコンピュータプログラム | |
JP6457625B2 (ja) | 独立したノイズ充填を用いた強化された信号を生成するための装置および方法 | |
Britanak et al. | Cosine-/Sine-Modulated Filter Banks | |
KR20120009150A (ko) | 다채널 오디오 신호 부호화/복호화 장치 및 방법 | |
AU712719B2 (en) | Analysis/synthesis filtering system with efficient oddly-stacked single-sideband filter bank using time-domain aliasing cancellation | |
JPH10133695A (ja) | 音響信号符号化方法および音響信号復号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20151209 Termination date: 20171123 |
|
CF01 | Termination of patent right due to non-payment of annual fee |