CN103531203A - 编码和解码语音与音频统合信号的方法 - Google Patents
编码和解码语音与音频统合信号的方法 Download PDFInfo
- Publication number
- CN103531203A CN103531203A CN201310487746.5A CN201310487746A CN103531203A CN 103531203 A CN103531203 A CN 103531203A CN 201310487746 A CN201310487746 A CN 201310487746A CN 103531203 A CN103531203 A CN 103531203A
- Authority
- CN
- China
- Prior art keywords
- signal
- coding
- input signal
- audio
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000005070 sampling Methods 0.000 claims abstract description 51
- 238000006243 chemical reaction Methods 0.000 claims description 20
- 230000010354 integration Effects 0.000 claims description 19
- 230000004075 alteration Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 6
- 230000005284 excitation Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- SYXACIGWSSQBAJ-UHFFFAOYSA-N 2-amino-6-ethyl-5-pyridin-4-ylpyridine-3-carbonitrile Chemical compound CCC1=NC(N)=C(C#N)C=C1C1=CC=NC=C1 SYXACIGWSSQBAJ-UHFFFAOYSA-N 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009131 signaling function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
本发明提供了一种用于统合地编码语音信号和音频信号的编码方法,所述编码方法包括:分析输入信号的特征;当所述输入信号是立体声信号时,将所述输入信号降混频为单声道信号,并从所述输入信号中提取立体声声音图像信息;扩展所述输入信号的频带;针对频带扩展的输出信号来转换采样率;当所述输入信号是语音特征信号时,使用语音编码模块将输入信号进行编码;当所述输入信号是音频特征信号时,使用音频编码模块将输入信号进行编码;和使用语音信号编码的输出信号和音频信号编码的输出信号,来生成比特流。
Description
本专利申请是下列专利申请的分案申请:
申请号:200980135678.8
申请日:2009年07月14日
发明名称:编码和解码语音与音频统合信号的设备
技术领域
本发明涉及一种用于统合地编码和解码语音信号与音频信号的设备,更特别是,涉及一种方法和设备,其可包括针对语音信号和音频信号以不同的结构操作的编码模块和解码模块,并可根据输入信号的特征有效地选择内部模块,从而有效地编码语音信号和音频信号。
背景技术
语音信号和音频信号有不同的特征。因此,以往使用语音信号和音频信号的独特特征来独立研究语音信号的语音编解码器和音频信号的音频编解码器。近来广泛使用中的语音编解码器,如自适应多速率宽带加AMR-WB+(Adaptive Multi-Rate Wideband Plus)编解码器,具有代码激励线性预测CELP(Code Excitation Linear Prediction)结构,并可根据语音的语音模型基于线性预测编码LPC(Linear Predictive Code)提取和量化语音参数。广泛使用中的音频编解码器,如高效高级编码版本2HE-AAC V2(High-EfficiencyAdvanced Coding version2)编解码器,可考虑人类在频域的声学特征在心理声学方面最佳量化频率系数。
因此,需要一种编解码器,其可统合音频信号编码器和语音信号的编码器,并可根据信号特征和比特率选择合适的编码体系,从而更有效地执行编码和解码。
发明内容
技术目的
本发明的一个方面,提供一种用于统合地编码和解码语音信号与音频信号的设备与方法,其可根据输入信号的特征有效地选择内部模块,从而在不同的比特率针对语音信号和音频信号提供完美的声音质量。
本发明的另一个方面,还提供一种统合地编码和解码语音信号和音频信号的设备和方法,其可在转换采样率之前扩展频带,从而将频带扩展为更宽的带。
技术方案
跟据本发明的一个方面,提供了一种用于统合地编码语音信号和音频信号的编码设备,所述编码设备包括:输入信号分析器,其分析输入信号的特征;立体声编码器,当所述输入信号是立体声信号时,其将所述输入信号降混频(down mix降混频)为单声道信号(mono单声道signal),并从所述输入信号中提取立体声声音图像信息;频带扩展器,其扩展所述输入信号的频带;采样率转换器,其针对频带扩展器的输出信号来转换采样率;语音信号编码器,当所述输入信号是语音特征信号时,其使用语音编码模块将输入信号进行编码;音频信号编码器,当所述输入信号是音频特征信号时,其使用音频编码模块将输入信号进行编码;比特流生成器,其使用语音信号编码器的输出信号和音频信号编码器的输出信号,来生成比特流。
在这种情况下,所述输入信号分析器,可使用输入信号的过零率ZCR(Zero Crossing Rate)、相关性、帧单位的能量中的至少一个来分析输入信号。
此外,所述立体声声音图像信息可包括:左声道和右声道间的相关性与左声道和右声道间的级别差异中的至少一个。
此外,所述频带扩展器,可在采样率的转换之前将输入信号扩展至高频带信号。
此外,所述采样率转换器,可将输入信号的采样率转换为语音信号编码器或音频信号编码器所要求的采样率。
此外,所述采样率转换器可包括:第一降采样器(down sampler),其将输入信号降采样(down sample)1/2;和第二降采样器,其将第一降采样器的输出信号降采样1/2。
此外,当输入信号在语音特征信号和音频特征信号之间变化时,比特流生成器可在比特流中存储与用于帧单位改变的补偿相关的信息。
此外,所述与用于帧单位改变的补偿相关的信息可包括:时间/频率转换体系与时间/频率转换大小中的至少一个。
根据本发明的另一个方面,提供了一种用于统合地解码语音信号和音频信号的解码设备,所述解码设备包括:比特流分析器,其分析输入比特流信号;语音信号解码器,当所述比特流信号与语音特征信号相关时,其使用语音解码模块将比特流信号进行解码;音频信号解码器,当所述比特流信号与音频特征信号相关时,其使用音频解码模块将比特流信号进行解码;信号补偿单元,当语音特征信号与音频特征信号之间的转换被执行时,其补偿输入比特流信号;采样率转换器,其转换比特流信号的采样率;频带扩展器,其使用解码的低频带信号生成高频带信号;立体声解码器,其使用立体声扩展参数生成立体声信号。
具体来讲,按照本发明一个方面,提供了一种用于统合地编码语音信号和音频信号的编码方法,所述编码方法包括:分析输入信号的特征;当所述输入信号是立体声信号时,将所述输入信号降混频为单声道信号,并从所述输入信号中提取立体声声音图像信息;扩展所述输入信号的频带;针对频带扩展的输出信号来转换采样率;当所述输入信号是语音特征信号时,使用语音编码模块将输入信号进行编码;当所述输入信号是音频特征信号时,使用音频编码模块将输入信号进行编码;和使用语音信号编码的输出信号和音频信号编码的输出信号,来生成比特流。
按照本发明另一方面,提供了一种用于统合地解码语音信号和音频信号的解码方法,所述解码方法包括:分析输入比特流信号;当所述比特流信号与语音特征信号相关时,使用语音解码模块将比特流信号进行解码;当所述比特流信号与音频特征信号相关时,使用音频解码模块将比特流信号进行解码;当语音特征信号与音频特征信号之间的转换被执行时,补偿输入比特流信号;转换比特流信号的采样率;使用解码的低频带信号生成高频带信号;和使用立体声扩展参数生成立体声信号。
技术效果
根据示例性实施例,提供一种用于统合地编码和解码语音信号与音频信号的设备与方法,其可根据输入信号的特征有效地选择内部模块,从而在不同的比特率针对语音信号和音频信号提供完美的声音质量。
根据示例性实施例,提供一种统合地编码和解码语音信号和音频信号的设备和方法,其可在转换采样率之前扩展频带,从而将频带扩展为更宽的带。
附图说明
图1是示出根据本发明一个实施例的用于统合地编码语音信号和音频信号的编码设备的框图;
图2是示出图1的采样率转换器的一个例子的示图;
图3是示出根据本发明一个实施例的频带扩展器的开始频带(startfrequency band)和结束频带(end frequency band)的表;
图4是示出根据本发明一个实施例的基于比特率的每个模块的操作的表;
图5是示出根据本发明一个实施例的用于统合地解码语音信号和音频信号的解码设备的框图。
具体实施方式
现在将参照附图对本发明的实施例进行详细描述,所述实施例的示例在附图中被示出,其中相同的参考数字始终表示相同的元素。下面将参照数字描述实施例以对本发明进行说明。
图1是示出根据本发明一个实施例的用于统合地编码语音信号和音频信号的编码设备100的框图。
参照图1,编码设备100可包括输入信号分析器110、立体声编码器120、频带扩展器130、采样率转换器140、语音信号编码器150、音频信号编码器160、和比特流生成器170。
输入信号分析器110可分析输入信号的特征。具体来说,输入信号分析器110可分析输入信号的特征来把输入信号分离成语音特征信号和音频特征信号。在这种情况下,输入信号分析器110可使用输入信号的过零率ZCR(ZeroCrossing Rate)、相关性、帧单位的能量中的至少一个来分析输入信号。
立体声编码器120可将所述输入信号降混频(down mix降混频)为单声道信号(mono单声道signal),并从所述输入信号中提取立体声声音图像信息。所述立体声声音图像信息可包括:左声道与右声道间的相关性和左声道与右声道间的级别差异中的至少一个。
频带扩展器130可扩展所述输入信号的频带。所述频带扩展器130,可在采样率的转换之前将输入信号扩展至高频带信号。下文中,将参照图3的细节进一步描述频带扩展器130的操作。
图3是示出根据本发明一个实施例的频带扩展器130的开始频带和结束频带的表300。
参照表300,当单声道降混频的信号是音频特征信号时,频带扩展器130可根据比特率来提取信息以生成高频带信号。例如,当输入音频信号的采样率是48kHz时,语音特征信号的开始频带可固定在6kHz,并可将与音频特征信号的停止频带相同的值用于语音特征信号的停止频带。在这里,语音特征信号的开始频带,可根据在语音特征信号编码模块中使用的编码模块的设置具有各种值。此外,在频带扩展器中使用的停止频带可根据输入信号或设置比特率的采样率被设置为各种值。频带扩展器130可使用音调、块单位的能量值等信息。此外,与频带扩展相关的信息,随特征信号是用于语音还是用于音频而不同。当执行语音特征信号和音频特征信号之间的转换时,与频带扩展相关的信息可存储在比特流中。
再次参照图1,采样率转换器140可转换输入信号的采样率。所述过程可对应编码输入信号之前将输入信号预处理的过程。因此,要根据输入比特率改变核心频带(core band)的频带,采样率转换器140可将输入音频信号的采样率转换。在这种情况下,采样率转换可在扩展频带之后执行。通过这一点,频带可进一步被扩展到更宽的频带中,而不是被固定在在核心频带中使用的采样率。
下文中,将参照图2的细节进一步对采样率转换器140进行说明。
图2是示出图1的采样率转换器140的一个例子的示图。
第一降采样器210可将输入信号降采样(down sample)1/2。例如,当音频编码模块是基于高级音频编码AAC(advanced audio coding(AAC)-based)的编码模块时,所述第一降采样器210执行1/2降采样。
第二降采样器220可将第一降采样器210的输出信号降采样1/2。例如,当语音编码模块是基于自适应多速率宽带加AMR-WB+(Adaptive Multi-RateWideband Plus)的编码模块时,所述第二降采样器220执行所述第一降采样器210的输出信号的1/2降采样。
因此,当音频信号编码器160使用基于AAC的编码模块时,采样率转换器140可生成被1/2降采样的信号。当语音信号编码器150使用基于MR-WB+的编码模块时,采样率转换器140可执行1/4降采样。因此,采样率转换器140可在语音信号编码器150和音频信号编码器160之前被提供。通过这样,当语音信号编码模块处理的采样率不同于音频信号编码模块处理的采样率时,采样率可被采样率转换器140初步处理,随后被输入进语音信号编码模块或音频信号编码模块。
此外,采样率转换器140可将输入信号的采样率转换为语音信号编码器150或音频信号编码器160要求的采样率。
再次参照图1,当输入信号为语音特征信号时,语音信号编码器150可使用语音编码模块编码输入信号。当输入信号是语音特征信号时,语音特征信号编码模块可执行频带扩展未被执行的核心频带的编码。语音信号编码器150可使用基于CELP的语音编码模块。
当输入信号是音频特征信号时,音频信号编码器160可使用音频编码模块将输入信号进行编码。当输入信号是音频特征信号时,音频特征信号编码模块可执行频带扩展未被执行的核心频带的编码。
音频信号编码器160可基于时间/频率的音频编码模块。
比特流生成器170可使用语音信号编码器150的输出信号和音频信号编码器160的输出信号来生成比特流。当输入信号在语音特征信号和音频特征信号之间变化时,比特流生成器170在比特流中存储与用于帧单位改变的补偿相关的信息。所述用于帧单位改变的补偿相关的信息可包括:时间/频率转换体系与时间/频率转换大小中的至少一个。此外,解码器可使用与帧单位变化补偿相关的信息,执行语音特征信号的帧和音频特征信号的帧之间的转换。
下文中,将参照图4的细节,对根据目标比特率统合地编码语音信号和音频信号的编码设备100的操作进行描述。
图4是示出根据本发明一个实施例的基于比特率的每个模块的操作的表。
参照该表,当输入信号是单声道信号时,所有的立体声编码模块可被设置为关闭。当比特率被设置为12kbps或16kbps时,音频特征信号编码模块可被设置为关闭。将音频特征信号编码模块设置为关闭的理由在于,使用基于CELP的音频编码模块编码音频特征信号,与使用音频编码模块的编码音频特征信号相比,呈现增强的声音质量。因此,当比特率被设置在12kbps或16kbps时,可在设置音频编码模块、立体声编码模块和输入信号分析模块为关闭之后,只使用编码模块和频带扩展模块将输入单声道信号编码。
当比特率被设置在20kbps、24kbps或32kbps时,语音信号编码模块和音频信号编码模块可根据输入信号是语音特征信号还是音频特征信号被交替使用。具体来说,当作为输入信号分析模块的分析结果,输入信号是语音特征信号时,可使用语音编码模块将输入信号编码。当输入信号是音频特征信号时,输入信号可使用音频编码模块进行编码。
当比特率被设置在64Kbps时,由于足够数量的比特可用,所以基于时间/频率转换的音频编码模块的性能可得到加强。因此,当比特率被设置在64kbps时,可在将语音编码模块和输入信号分析模块设置为关闭之后,同时使用音频编码模块和频带扩展模块来编码输入信号。
当输入信号是立体声信号时,立体声编码模块可被进行操作。当在12kbps、16kbps或20kbps的比特率编码输入信号时,可在把音频编码模块和输入信号分析模块设置为关之后,使用立体声编码模块、频带扩展模块、语音编码模块来编码输入信号。立体声编码模块一般可使用小于4kbps的比特率。因此,当在20Kbps编码立体声输入信号时,需要将被降混频至16kbps的单声道信号进行编码。在该频带中,语音编码模块与音频编码模块相比呈现进一步增强的性能。因此,在把输入信号分析模块设置为关之后,可使用语音编码模块执行所有输入信号的编码。
当在24kbps或32kbps比特率编码输入立体声信号时,可根据输入信号分析模块的分析结果,使用语音编码模块来编码语音特征信号并使用音频编码模块来编码音频特征信号。
当在64kbps的比特率编码立体声信号时,由于大量比特可用,从而可只使用音频特征信号编码模块来编码输入信号。
例如,当使用基于AMR-WB+的语音编码器和基于高效高级编码版本2HE-AAC V2的音频编码器来构建编码设备100时,由于使用AMR-WB+的立体声模块和频带扩展模块的性能不完美,所以可使用HE-AAC V2的参数立体声P(Parametric Stereo)S模块和频带复制SBR(Spectral Band Replication)模块来执行立体声信号和频带扩展的处理。
由于基于CELP的AMR-WB+对12kbps或16kbps的单声道信号性能优良,所以可利用使用AMR-WB+的代数代码激励线性预测ACELP(AlgebraicCode Excited Linear Prediction)/变换编码激励TCX(Transform Coded Excitation)模块来进行核心频带的编码。HE-ACC V2的SBR模块可被利用于频带扩展。
当作为在20kbps,24kbps或32kbps输入信号的分析结果,输入信号是语音特征信号时,可利用使用AMR-WB+的ACEP模块和TCX模块来编码核心频带。当输入信号是音频特征信号时,可利用HE-AAC V2的AAC模式来编码核心频带,并利用HE-AAC V2的SBR执行频带扩展。
当比特率被设置在64kbps时,可仅利用HE-AAC V2的AAC模块来编码核心频带。
可利用HE-AAC V2的PS模块进行立体声编码用于立体声输入。此外,可根据模式,通过选择性地利用ARM-WB+的TCX模块和ACELP模块及HE-AAC V2的AAC模块来编码核心频带。
如上所述,可基于输入信号的特征,通过有效选择内部模块,针对不同比特率的语音信号和音频信号提供完美的声音质量。此外,通过在转换采样率之前扩展频带,频带可被进一步扩展至更宽的频带。
图5是示出根据本发明一个实施例的用于统合地解码语音信号和音频信号的解码设备500的框图。
参照图5,解码器500可包括:比特流分析器510、语音信号解码器520、音频信号解码器530、信号补偿单元540、采样率转换器550、频带扩展器560、立体声解码器570。
比特流分析器510可分析输入比特流信号。
当所述比特流信号与语音特征信号相关时,语音信号解码器520使用语音解码模块将比特流信号进行解码。
当所述比特流信号与音频特征信号相关时,音频信号解码器530使用音频解码模块将比特流信号进行解码。
当语音特征信号与音频特征信号之间的转换被执行时,信号补偿单元540补偿输入比特流信号。具体来说,当语音特征信号与音频特征信号之间的转换被执行时,信号补偿单元540可使用每个特征的转换信息顺利处理转换。
采样率转换器550可转换比特流信号的采样率。由此,采样率转换器550可将在核心频带中被转换并被使用的采样率,重新转换为原始采样率,由此来生成要在频带扩展模块或立体声编码模块中使用的信号。具体来说,采样率转换器550可通过将在核心频带中被使用的采样率重新转换成之前的采样率,来生成要在频带扩展模块或立体声编码模块中使用的信号。
频带扩展器560可使用解码的低频带信号生成高频带信号。
立体声解码器570可使用立体声扩展参数生成立体声信号。
虽然本发明一些实施例已被展示和描述,但是本发明不仅限于所描述的实施例。相反,本技术领域的技术人员应当明白,在不脱离本发明的原则和精神范围内,可对实施例进行改变,其范围由权利要求书及其等同物定义。
Claims (14)
1.一种用于统合地编码语音信号和音频信号的编码方法,所述编码方法包括:
分析输入信号的特征;
当所述输入信号是立体声信号时,将所述输入信号降混频为单声道信号,并从所述输入信号中提取立体声声音图像信息;
扩展所述输入信号的频带;
针对频带扩展的输出信号来转换采样率;
当所述输入信号是语音特征信号时,使用语音编码模块将输入信号进行编码;
当所述输入信号是音频特征信号时,使用音频编码模块将输入信号进行编码;和
使用语音信号编码的输出信号和音频信号编码的输出信号,来生成比特流。
2.如权利要求1所述的编码方法,其中,所述分析输入信号的特征的步骤包括:使用输入信号的过零率ZCR、相关性、帧单位的能量中的至少一个来分析输入信号。
3.如权利要求1所述的编码方法,其中,所述立体声声音图像信息包括:左声道与右声道间的相关性和左声道与右声道间的级别差异中的至少一个。
4.如权利要求1所述的编码方法,其中,所述扩展所述输入信号的频带的步骤包括:在采样率的转换之前将输入信号扩展至高频带信号。
5.如权利要求1所述的编码方法,其中,所述针对频带扩展的输出信号来转换采样率的步骤包括:将输入信号的采样率转换为语音信号编码或音频信号编码所要求的采样率。
6.如权利要求1所述的编码方法,其中,所述针对频带扩展的输出信号来转换采样率的步骤包括:
将输入信号降采样1/2;和
将1/2降采样的输出信号降采样1/2。
7.如权利要求6所述的编码方法,其中,当所述音频编码模块是基于高级音频编码AAC的编码模块时,执行1/2降采样。
8.如权利要求6所述的编码方法,其中,当所述语音编码模块是基于自适应多速率宽带加AMR-WB+的编码模块时,执行1/2降采样的输出信号的1/2降采样。
9.如权利要求1所述的编码方法,其中,所述使用语音编码模块将输入信号进行编码的步骤包括:使用基于代码激励线性预测CELP的语音编码模块将输入信号进行编码。
10.如权利要求1所述的编码方法,其中,所述使用音频编码模块将输入信号进行编码的步骤包括:使用基于时间/频率的音频编码模块将输入信号进行编码。
11.如权利要求1所述的编码方法,其中,所述使用语音信号编码的输出信号和音频信号编码的输出信号,来生成比特流的步骤包括:当输入信号在语音特征信号和音频特征信号之间变化时,在比特流中存储与用于帧单位改变的补偿相关的信息。
12.如权利要求11所述的编码方法,其中,所述用于帧单位改变的补偿相关的信息包括:时间/频率转换体系与时间/频率转换大小中的至少一个。
13.一种用于统合地解码语音信号和音频信号的解码方法,所述解码方法包括:
分析输入比特流信号;
当所述比特流信号与语音特征信号相关时,使用语音解码模块将比特流信号进行解码;
当所述比特流信号与音频特征信号相关时,使用音频解码模块将比特流信号进行解码;
当语音特征信号与音频特征信号之间的转换被执行时,补偿输入比特流信号;
转换比特流信号的采样率;
使用解码的低频带信号生成高频带信号;和
使用立体声扩展参数生成立体声信号。
14.如权利要求13所述的解码方法,其中,所述转换比特流信号的采样率的步骤包括:将在核心频带中被转换并被使用的采样率,重新转换为之前的采样率。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20080068369 | 2008-07-14 | ||
KR10-2008-0068369 | 2008-07-14 | ||
KR10-2008-0134297 | 2008-12-26 | ||
KR20080134297 | 2008-12-26 | ||
KR10-2009-0061608 | 2009-07-07 | ||
KR1020090061608A KR101381513B1 (ko) | 2008-07-14 | 2009-07-07 | 음성/음악 통합 신호의 부호화/복호화 장치 |
CN200980135678.8A CN102150204B (zh) | 2008-07-14 | 2009-07-14 | 编码和解码语音与音频统合信号的设备 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980135678.8A Division CN102150204B (zh) | 2008-07-14 | 2009-07-14 | 编码和解码语音与音频统合信号的设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103531203A true CN103531203A (zh) | 2014-01-22 |
CN103531203B CN103531203B (zh) | 2018-04-20 |
Family
ID=41816651
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310487746.5A Active CN103531203B (zh) | 2008-07-14 | 2009-07-14 | 编码和解码语音与音频统合信号的方法 |
CN200980135678.8A Active CN102150204B (zh) | 2008-07-14 | 2009-07-14 | 编码和解码语音与音频统合信号的设备 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980135678.8A Active CN102150204B (zh) | 2008-07-14 | 2009-07-14 | 编码和解码语音与音频统合信号的设备 |
Country Status (6)
Country | Link |
---|---|
US (6) | US8903720B2 (zh) |
EP (2) | EP3493204B1 (zh) |
JP (3) | JP2011527032A (zh) |
KR (2) | KR101381513B1 (zh) |
CN (2) | CN103531203B (zh) |
WO (1) | WO2010008176A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107017000A (zh) * | 2016-01-27 | 2017-08-04 | 诺基亚技术有限公司 | 用于编码和解码音频信号的装置、方法和计算机程序 |
CN108028046A (zh) * | 2015-06-16 | 2018-05-11 | 弗劳恩霍夫应用研究促进协会 | 缩减解码 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101381513B1 (ko) | 2008-07-14 | 2014-04-07 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
US9062564B2 (en) | 2009-07-31 | 2015-06-23 | General Electric Company | Solvent based slurry compositions for making environmental barrier coatings and environmental barrier coatings comprising the same |
US20110027559A1 (en) | 2009-07-31 | 2011-02-03 | Glen Harold Kirby | Water based environmental barrier coatings for high temperature ceramic components |
JP5565405B2 (ja) * | 2011-12-21 | 2014-08-06 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
JP2014074782A (ja) * | 2012-10-03 | 2014-04-24 | Sony Corp | 音声送信装置、音声送信方法、音声受信装置および音声受信方法 |
RU2625444C2 (ru) * | 2013-04-05 | 2017-07-13 | Долби Интернэшнл Аб | Система обработки аудио |
RU2639952C2 (ru) * | 2013-08-28 | 2017-12-25 | Долби Лабораторис Лайсэнзин Корпорейшн | Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием |
CN117037811A (zh) | 2013-09-12 | 2023-11-10 | 杜比国际公司 | 多声道音频内容的编码 |
FR3017484A1 (fr) * | 2014-02-07 | 2015-08-14 | Orange | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
JP6599368B2 (ja) | 2014-02-24 | 2019-10-30 | サムスン エレクトロニクス カンパニー リミテッド | 信号分類方法及びその装置、並びにそれを利用したオーディオ符号化方法及びその装置 |
CN105023577B (zh) * | 2014-04-17 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 混音处理方法、装置和系统 |
KR102244612B1 (ko) | 2014-04-21 | 2021-04-26 | 삼성전자주식회사 | 무선 통신 시스템에서 음성 데이터를 송신 및 수신하기 위한 장치 및 방법 |
EP3217612A4 (en) * | 2014-04-21 | 2017-11-22 | Samsung Electronics Co., Ltd. | Device and method for transmitting and receiving voice data in wireless communication system |
CN107452390B (zh) * | 2014-04-29 | 2021-10-26 | 华为技术有限公司 | 音频编码方法及相关装置 |
WO2016108655A1 (ko) | 2014-12-31 | 2016-07-07 | 한국전자통신연구원 | 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치 |
KR20160081844A (ko) | 2014-12-31 | 2016-07-08 | 한국전자통신연구원 | 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치 |
EP3288031A1 (en) * | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
CN108269577B (zh) | 2016-12-30 | 2019-10-22 | 华为技术有限公司 | 立体声编码方法及立体声编码器 |
BR112020004883A2 (pt) * | 2017-09-20 | 2020-09-15 | Voiceage Corporation | método e dispositivo para alocar um bit-budget entre subquadros em um codec celp |
CN112509591B (zh) * | 2020-12-04 | 2024-05-14 | 北京百瑞互联技术股份有限公司 | 一种音频编解码方法及系统 |
CN112599138B (zh) * | 2020-12-08 | 2024-05-24 | 北京百瑞互联技术股份有限公司 | 一种lc3音频编码器的多pcm信号编码方法、装置及介质 |
KR20220117019A (ko) | 2021-02-16 | 2022-08-23 | 한국전자통신연구원 | 학습 모델을 이용한 오디오 신호의 부호화 및 복호화 방법과 그 학습 모델의 트레이닝 방법 및 이를 수행하는 부호화기 및 복호화기 |
KR20220158395A (ko) | 2021-05-24 | 2022-12-01 | 한국전자통신연구원 | 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7222070B1 (en) * | 1999-09-22 | 2007-05-22 | Texas Instruments Incorporated | Hybrid speech coding and system |
WO2008060114A1 (en) * | 2006-11-17 | 2008-05-22 | Samsung Electronics Co., Ltd. | Method and apparatus to encode and/or decode audio and/or speech signal |
WO2008072913A1 (en) * | 2006-12-14 | 2008-06-19 | Samsung Electronics Co., Ltd. | Method and apparatus to determine encoding mode of audio signal and method and apparatus to encode and/or decode audio signal using the encoding mode determination method and apparatus |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
JPH0738437A (ja) * | 1993-07-19 | 1995-02-07 | Sharp Corp | コーデック装置 |
JPH0897726A (ja) | 1994-09-28 | 1996-04-12 | Victor Co Of Japan Ltd | サブバンド帯域分割/合成方法およびその装置 |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
JP3017715B2 (ja) * | 1997-10-31 | 2000-03-13 | 松下電器産業株式会社 | 音声再生装置 |
JP3211762B2 (ja) * | 1997-12-12 | 2001-09-25 | 日本電気株式会社 | 音声及び音楽符号化方式 |
DE69926821T2 (de) * | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
JP3327240B2 (ja) | 1999-02-10 | 2002-09-24 | 日本電気株式会社 | 画像・音声符号化装置 |
US7266501B2 (en) * | 2000-03-02 | 2007-09-04 | Akiba Electronics Institute Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
US6351733B1 (en) * | 2000-03-02 | 2002-02-26 | Hearing Enhancement Company, Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
DE60208426T2 (de) * | 2001-11-02 | 2006-08-24 | Matsushita Electric Industrial Co., Ltd., Kadoma | Vorrichtung zur signalkodierung, signaldekodierung und system zum verteilen von audiodaten |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
US7337108B2 (en) * | 2003-09-10 | 2008-02-26 | Microsoft Corporation | System and method for providing high-quality stretching and compression of a digital audio signal |
JP2005099243A (ja) | 2003-09-24 | 2005-04-14 | Konica Minolta Medical & Graphic Inc | 銀塩光熱写真ドライイメージング材料及び画像形成方法 |
JP4679049B2 (ja) * | 2003-09-30 | 2011-04-27 | パナソニック株式会社 | スケーラブル復号化装置 |
KR100614496B1 (ko) | 2003-11-13 | 2006-08-22 | 한국전자통신연구원 | 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법 |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
KR101079066B1 (ko) * | 2004-03-01 | 2011-11-02 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 멀티채널 오디오 코딩 |
WO2005093717A1 (en) * | 2004-03-12 | 2005-10-06 | Nokia Corporation | Synthesizing a mono audio signal based on an encoded miltichannel audio signal |
KR20070001267A (ko) | 2004-04-09 | 2007-01-03 | 닛본 덴끼 가부시끼가이샤 | 음성 통신 방법 및 장치 |
SE0400998D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
JP2006325162A (ja) | 2005-05-20 | 2006-11-30 | Matsushita Electric Ind Co Ltd | バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置 |
US7953605B2 (en) * | 2005-10-07 | 2011-05-31 | Deepen Sinha | Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension |
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
WO2007083931A1 (en) * | 2006-01-18 | 2007-07-26 | Lg Electronics Inc. | Apparatus and method for encoding and decoding signal |
US7953604B2 (en) * | 2006-01-20 | 2011-05-31 | Microsoft Corporation | Shape and scale parameters for extended-band frequency coding |
KR20070077652A (ko) * | 2006-01-24 | 2007-07-27 | 삼성전자주식회사 | 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법 |
US20080004883A1 (en) * | 2006-06-30 | 2008-01-03 | Nokia Corporation | Scalable audio coding |
KR101393298B1 (ko) | 2006-07-08 | 2014-05-12 | 삼성전자주식회사 | 적응적 부호화/복호화 방법 및 장치 |
WO2008035949A1 (en) * | 2006-09-22 | 2008-03-27 | Samsung Electronics Co., Ltd. | Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding |
US9009032B2 (en) * | 2006-11-09 | 2015-04-14 | Broadcom Corporation | Method and system for performing sample rate conversion |
US20080114608A1 (en) * | 2006-11-13 | 2008-05-15 | Rene Bastien | System and method for rating performance |
KR100883656B1 (ko) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
EP2198426A4 (en) * | 2007-10-15 | 2012-01-18 | Lg Electronics Inc | METHOD AND DEVICE FOR PROCESSING A SIGNAL |
US20090164223A1 (en) * | 2007-12-19 | 2009-06-25 | Dts, Inc. | Lossless multi-channel audio codec |
KR101381513B1 (ko) | 2008-07-14 | 2014-04-07 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
-
2009
- 2009-07-07 KR KR1020090061608A patent/KR101381513B1/ko active IP Right Grant
- 2009-07-14 EP EP18215268.6A patent/EP3493204B1/en active Active
- 2009-07-14 US US13/003,979 patent/US8903720B2/en active Active
- 2009-07-14 WO PCT/KR2009/003855 patent/WO2010008176A1/ko active Application Filing
- 2009-07-14 CN CN201310487746.5A patent/CN103531203B/zh active Active
- 2009-07-14 EP EP09798079.1A patent/EP2302624B1/en active Active
- 2009-07-14 JP JP2011517359A patent/JP2011527032A/ja active Pending
- 2009-07-14 CN CN200980135678.8A patent/CN102150204B/zh active Active
-
2012
- 2012-07-13 KR KR1020120076635A patent/KR101565634B1/ko active IP Right Grant
-
2013
- 2013-07-23 JP JP2013152997A patent/JP2013232007A/ja active Pending
-
2014
- 2014-02-10 JP JP2014023744A patent/JP6067601B2/ja active Active
- 2014-11-06 US US14/534,781 patent/US9818411B2/en active Active
-
2017
- 2017-11-13 US US15/810,732 patent/US10403293B2/en active Active
-
2019
- 2019-08-30 US US16/557,238 patent/US10714103B2/en active Active
-
2020
- 2020-07-10 US US16/925,946 patent/US11705137B2/en active Active
-
2023
- 2023-06-21 US US18/212,364 patent/US20240119948A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7222070B1 (en) * | 1999-09-22 | 2007-05-22 | Texas Instruments Incorporated | Hybrid speech coding and system |
WO2008060114A1 (en) * | 2006-11-17 | 2008-05-22 | Samsung Electronics Co., Ltd. | Method and apparatus to encode and/or decode audio and/or speech signal |
WO2008072913A1 (en) * | 2006-12-14 | 2008-06-19 | Samsung Electronics Co., Ltd. | Method and apparatus to determine encoding mode of audio signal and method and apparatus to encode and/or decode audio signal using the encoding mode determination method and apparatus |
Non-Patent Citations (1)
Title |
---|
REDWAN SALAMI等: "Extended AMR-WB for High-Quality Audio on Mobile Devices", 《IEEE COMMUNICATIONS MAGAZINE》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108028046A (zh) * | 2015-06-16 | 2018-05-11 | 弗劳恩霍夫应用研究促进协会 | 缩减解码 |
US11341978B2 (en) | 2015-06-16 | 2022-05-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downscaled decoding |
US11341979B2 (en) | 2015-06-16 | 2022-05-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downscaled decoding |
US11341980B2 (en) | 2015-06-16 | 2022-05-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downscaled decoding |
US11670312B2 (en) | 2015-06-16 | 2023-06-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downscaled decoding |
CN107017000A (zh) * | 2016-01-27 | 2017-08-04 | 诺基亚技术有限公司 | 用于编码和解码音频信号的装置、方法和计算机程序 |
US10783896B2 (en) | 2016-01-27 | 2020-09-22 | Nokia Technologies Oy | Apparatus, methods and computer programs for encoding and decoding audio signals |
Also Published As
Publication number | Publication date |
---|---|
CN102150204A (zh) | 2011-08-10 |
US9818411B2 (en) | 2017-11-14 |
KR101381513B1 (ko) | 2014-04-07 |
US20110119055A1 (en) | 2011-05-19 |
US10403293B2 (en) | 2019-09-03 |
EP2302624B1 (en) | 2018-12-26 |
JP2011527032A (ja) | 2011-10-20 |
US20240119948A1 (en) | 2024-04-11 |
JP6067601B2 (ja) | 2017-01-25 |
EP3493204A1 (en) | 2019-06-05 |
EP2302624A1 (en) | 2011-03-30 |
CN103531203B (zh) | 2018-04-20 |
EP2302624A4 (en) | 2012-10-31 |
EP3493204B1 (en) | 2023-11-01 |
CN102150204B (zh) | 2015-03-11 |
KR20120089222A (ko) | 2012-08-09 |
WO2010008176A1 (ko) | 2010-01-21 |
US8903720B2 (en) | 2014-12-02 |
US10714103B2 (en) | 2020-07-14 |
US11705137B2 (en) | 2023-07-18 |
US20150095023A1 (en) | 2015-04-02 |
KR101565634B1 (ko) | 2015-11-04 |
US20180068667A1 (en) | 2018-03-08 |
KR20100007739A (ko) | 2010-01-22 |
US20200349958A1 (en) | 2020-11-05 |
JP2013232007A (ja) | 2013-11-14 |
US20190385621A1 (en) | 2019-12-19 |
JP2014139674A (ja) | 2014-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102150204B (zh) | 编码和解码语音与音频统合信号的设备 | |
CN105679327B (zh) | 用于对音频信号进行编码和解码的方法及设备 | |
JP5325293B2 (ja) | 符号化されたオーディオ信号を復号化するための装置および方法 | |
CN102099856B (zh) | 具有可切换旁路的音频编码/解码方法及设备 | |
KR100647336B1 (ko) | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 | |
CN102177426B (zh) | 多分辨率切换音频编码/解码方案 | |
MX2011000383A (es) | Esquema de codificacion/decodificacion de audio a baja tasa de bits con pre-procesamiento comun. | |
CN104299618A (zh) | 统合地编码语音信号和音频信号的编码方法和解码方法 | |
MX2011000362A (es) | Esquema de codificacion/decodificacion de audio a baja velocidad binaria y conmutadores en cascada. | |
CN104025189A (zh) | 编码语音信号的方法、解码语音信号的方法,及使用其的装置 | |
CN103548080A (zh) | 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法 | |
Zhang et al. | AVS-M audio: algorithm and implementation | |
Heute | Speech and audio coding-a brief overview | |
KR20090043352A (ko) | 상호 운용성을 지원하는 오디오/스피치 신호의부호화/복호화 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |