CN102150024A - 编码和解码统合的语音与音频信号的设备与方法 - Google Patents
编码和解码统合的语音与音频信号的设备与方法 Download PDFInfo
- Publication number
- CN102150024A CN102150024A CN2009801358425A CN200980135842A CN102150024A CN 102150024 A CN102150024 A CN 102150024A CN 2009801358425 A CN2009801358425 A CN 2009801358425A CN 200980135842 A CN200980135842 A CN 200980135842A CN 102150024 A CN102150024 A CN 102150024A
- Authority
- CN
- China
- Prior art keywords
- signal
- input signal
- encoding
- encoder
- lpc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title abstract description 10
- 230000005236 sound signal Effects 0.000 claims abstract description 31
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 239000004606 Fillers/Extenders Substances 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 6
- 230000010076 replication Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C2207/00—Indexing scheme relating to arrangements for writing information into, or reading information out from, a digital store
- G11C2207/16—Solid state audio
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
本发明提供了一种用于统合地编码和解码语音信号(speech signal)和音频信号(audio signal)的设备与方法。所述编码设备(100)可包括:输入信号分析器(110),其分析输入信号的特征;第一转换编码器(120),当输入信号是音频特征信号时,其将输入信号转换成频域信号,并将输入信号编码;线性预测编码(LPC:Linear Predictive Coding)编码器(130),当输入信号是语音特征信号时,其执行输入信号的LPC编码;和比特流生成器(140),其使用第一转换编码器(120)的输出信号和LPC编码器(130)的输出信号,来生成比特流。
Description
技术领域
本发明涉及一种用于统合地编码和解码语音信号(speech signal)与音频信号(audio signal)的设备与方法。更特别是,本发明涉及一种方法和设备,其可包括针对语音信号和音频信号以不同的结构操作的编码模块和解码模块,并可根据输入信号的特征有效地选择内部模块,从而有效地编码语音信号和音频信号。
背景技术
语音信号和音频信号有不同的特征。因此,以往使用语音信号和音频信号的独特特征来独立研究语音信号的语音编解码器和音频信号的音频编解码器。近来广泛使用中的语音编解码器,如自适应多速率宽带加AMR-WB+(Adaptive Multi-Rate Wideband Plus)编解码器,具有代码激励线性预测CELP(Code Excitation Linear Prediction)结构,并可根据语音的语音模型基于线性预测编码LPC(Linear Predictive Code)提取和量化语音参数。广泛使用中的音频编解码器,如高效高级编码版本2HE-AAC V2(High-Efficiency Advanced Coding version 2)编解码器,可考虑人类在频域的声学特征在心理声学方面最佳量化频率系数。
因此,需要一种技术,其可根据输入信号特征来有效选择内部模块,从而更有效地进行编码和解码。
发明内容
技术目的
如上所述,根据本发明的实施例,可根据输入信号的特征有效地选择内部模块,以在不同的比特率针对语音信号和音频信号提供完美的声音质量。
根据本发明的实施例,本发明的另一个方面,还提供一种统合地编码和解码语音信号和音频信号的设备和方法,其可合适地将语音编码器与音频编码器结合,以在不同的比特率针对语音信号和音频信号提供完美的声音质量。
技术方案
跟据本发明的一个方面,提供了一种用于统合地编码语音信号和音频信号的编码设备,所述编码设备包括:输入信号分析器,其分析输入信号的特征;第一转换编码器,当输入信号是音频特征信号时,其将输入信号转换成频域信号,并将输入信号编码;
线性预测编码(LPC:Linear Predictive Coding)编码器,当输入信号是语音特征信号时,其执行输入信号的LPC编码;和比特流生成器,其使用第一转换编码器的输出信号和LPC编码器的输出信号,来生成比特流。
在这种情况下,所述编码设备可进一步包括:立体声编码器,其将输入信号降混频(down-mix)为单声道信号(mono signal),并提取立体声声音图像信息;和频带扩展器,其将输入信号扩展为高频带信号。
此外,所述立体声编码器,根据输入信号的特征,控制用于立体声编码的参数值。此外,所述频带扩展器,可根据输入信号的特征,选择性地应用至少一个频带复制(SBR:Spectral Band Replication)标准。
此外,所述编码设备可进一步包括:心理声学单元,其使用人类的声学特征,控制第一转换编码器。
此外,所述LPC编码器可包括:时域编码器,当输入信号是语音特征信号时,其执行输入信号的时域编码;和第二转换编码器,当输入信号是音频特征信号时,其执行输入信号的快速傅立叶变换(FFT:fast Fourier transform)编码。
此外,所述输入信号分析器,可将输入信号分类为音频特征信号、语音特征信号、和低能量信号中的任何一种。
此外,所述语音特征信号可被分类为稳定谐波状态、低稳定谐波状态、稳定噪声状态中的任何一种,且所述音频特征信号可被分类为复杂谐波状态、复杂噪声状态中的任何一种。
跟据本发明的另一个方面,提供了一种用于统合地编码语音信号和音频信号的编码设备,所述编码设备包括:输入信号分析器,其分析输入信号的特征;立体声编码器,其将输入信号降混频为单声道信号,并提取立体声声音图像信息;频带扩展器,其生成用于将输入信号扩展为高频带信号的信息;第一转换编码器,当输入信号是音频特征信号时,其将高频带信号转换成频带,并将高频带信号编码;LPC编码器,当输入信号是语音特征信号时,其执行高频带信号的LPC编码;和比特流生成器,其使用所述立体声声音图像信息、所述用于将输入信号扩展为高频带信号的信息、第一转换编码器的输出信号和LPC编码器的输出信号,来生成比特流。
跟据本发明的另一个方面,提供了一种用于统合地解码语音信号和音频信号的解码设备,所解码设备包括:比特流分析器,其分析输入比特流信号;转换解码器,当比特流信号是音频比特流信号时,其将比特流信号转换为频域信号,并将比特流信号解码;LPC解码器,当比特流信号是语音比特流信号时,其执行比特流信号的LPC解码;频带合成器,其合成比特流信号的频带;和立体声解码器,其将比特流信号解码为立体声信号。
技术效果
根据实施例,用于统合地编码和解码语音信号与音频信号的设备与方法,可根据输入信号的特征有效地选择内部模块,以在不同的比特率针对语音信号和音频信号提供完美的声音质量。
根据实施例,用于统合地编码和解码语音信号和音频信号的设备和方法,可合适地将语音编码器与音频编码器结合,以在不同的比特率针对语音信号和音频信号提供完美的声音质量。
附图说明
图1是示出根据本发明一个实施例的用于统合地编码语音信号和音频信号的编码设备的框图;
图2是示出根据本发明另一个实施例的用于统合地编码语音信号和音频信号的编码设备的框图;
图3是示出图2的立体声编码器的一个例子的框图;
图4是示出图2的频带扩展器的一个例子的框图;
图5是示出根据本发明一个实施例的用于统合地解码语音信号和音频信号的解码设备的框图。
具体实施方式
现在将参照附图对本发明的实施例进行详细描述,所述实施例的示例在附图中被示出,其中相同的参考数字始终表示相同的元素。下面将参照数字描述实施例以对本发明进行说明。
图1是示出根据本发明一个实施例的用于统合地编码语音信号和音频信号的编码设备100的框图。
参照图1,编码设备100可包括输入信号分析器110、第一转换编码器120、线性预测编码(LPC)编码器130、和比特流生成器140。
输入信号分析器110可分析输入信号的特征。在这种情况下,输入信号分析器110可分析输入信号的特征来把输入信号分离成音频特征信号、语音特征信号、和无音状态信号(silence state signal)中的任何一种。
在这里,所述语音特征信号可被分类为稳定谐波状态(steady-harmonic state)、低稳定谐波状态(low steady-harmonic state)、稳定噪声状态(steady-noise state)中的任何一种。此外,音频特征信号可被分类为复杂谐波状态(complex-harmonic state)、复杂噪声状态(complex-noisy state)中的任何一种。
输入信号的状态可进一步归类如下。第一,稳定谐波(SH:steady-harmonic)状态:SH状态可对应信号明确并稳定出现的谐波状态的信号区间。例如,该信号区间可包括语音区间。单个(singleton)的正弦信号可分至SH状态。
第二,低稳定谐波(LSH:low steady-harmonic)状态:LSH状态可与SH状态类似,但是,其可以有相对较长的谐波频率,并在低频带中呈现出强劲和稳定的特点。特别是,男性语音的语音区间可对应LSH状态。
第三,稳定噪声(SN:steady-noise)状态:白噪声可对应SN状态。例如,无语音区间可被包含在SN状态中。
第四,复杂谐波(CH:complex-harmonic)状态:其多个单独的成分被混合来构建复杂谐波结构的信号区间,可对应CH状态。一般来说,音频的播放区间可被包含在CH状态中。
第五,复杂噪声(CN:complex-noisy)状态:包含不稳定噪声成分的信号可分类至CN状态中。例如,普通周边噪音、音频播放区间中的攻击信号等,可对应CN状态。
第六,无声(Si:silence)的状态:具有低能量的区间可被分类至Si状态中。
输入信号分析器110的输出结果可用于选择一个第一转换编码器120和LPC编码器130。此外,在执行LPC编码时,输入信号分析器110的输出结果可用于选择一个时域编码器131和第二转换编码器。
当输入信号是音频特征信号时,第一转换编码器120可将输入信号的核心频带转换至频域信号,并将输入信号的核心频带编码。此外,当输入信号是语音特征信号时,LPC编码器130可执行输入信号的核心频带的LPC编码。所述LPC编码器130可包括时域编码器131和第二转换编码器132。
当输入信号是话音特征信号时,时域编码器131可进行输入信号的时域编码。当输入信号是音频特征信号时,第二次转换编码器132执行输入信号的快速傅里叶变换(FFT)编码。
比特流生成器140可使用第一转换编码器120的信息和LPC编码器130的信息生成比特流。
编码设备100可进一步包括立体声编码器(未示出)来将输入信号降混频(down-mix)为单声道信号(mono signal),并提取立体声声音图像信息。立体声编码器可根据输入信号的特征有选择地应用至少一个参数。
此外,编码设备100可进一步包括频带扩展器(未示出),来将输入信号扩展为高频带信号。频带扩展器可根据输入信号的特征,选择性地应用至少一个频带复制(SBR:Spectral Band Replication)标准。
此外,编码设备100可进一步包括心理声学单元(未示出),其使用人类的声学特征,控制第一转换编码器120。
图2是示出根据本发明另一个实施例的用于统合地编码语音信号和音频信号的编码设备200的框图。
参考图2,编码设备200可包括输入信号分析器210、第一转换编码器220、LPC编码器230、比特流生成器240、立体声编码器250、频带扩展器260。
输入信号分析器210可分析输入信号的特征。
立体声编码器250可将输入信号降混频(down-mix)为单声道信号(mono signal),并提取立体声声音图像信息。例如,当输入信号是立体声时,立体声编码器250可将输入信号降混频为单声道信号,并可提取立体声声音图像信息。立体声编码器250的操作将参考图3进一步详细说明。
图3是示出图2的立体声编码器250的一个例子的框图。
参考图3,立体声编码器250可包括:基础处理器351、语音信号处理器352、音频信号处理器353。在这里,立体声编码器250可根据输入信号的特征,利用不同的编码模块。例如,由输入信号分析器210分析的输入信号的信息可被编码器250利用。立体声编码器250中使用的参数,可根据析的输入信号来调整。例如,当输入信号的特征对应复杂的状态,输入信号可具有很强的音频特征。因此,为了更清楚地呈现立体声声音图像,音频信号处理器353可以以高分辨率传送在立体声编码器250中使用的基本参数,还可以传送用于送立体声声音图像的额外信息。例如,当输入信号的特征对应复杂状态,立体声编码器250可使用8级量化将通道间的相关性ICC(Inter-Channel Correlation)的参数扩展为16级参数,由此来传送参数。于此,可提高立体声图像的特征。
当输入信号的特征对应稳定状态,输入信号处理器352可处理语音信号。其它信号可由基础处理器351处理。
频带扩展器260可生成用于将输入信号扩展为高频带信号的信息。频带扩展器260可根据输入信号的特征选择应用至少一种SBR标准。以下将参照图4的细节,对频带扩展器260进行进一步说明。
图4是示出图2的频带扩展器260的一个例子的框图。
参考图4,频带扩展器260可包括:音频信号处理器461、SH处理器462、LSH处理器463。具体来说,输入信号分析器210分析的信息可被频带扩展器260使用。当输入信号的特征对应复杂状态,语音信号处理器461可使用与现有编码体系相同的体系来执行编码。
当输入信号的特征对应复杂噪声状态,它可表明,大量的信息被包含在高频带,由此音频信号处理器461可分配并处理相对大量比特。当输入信号是语音时,大部分高频带信号可能是非嗓音噪声信号。因此在稳定状态的情况下,频带扩展器260可被与复杂状态不同地应用。具体来说,为了较准确地表现白噪声,需要应用频带扩展标准。特别是,由于男性语音的谐波状态显然与女性语的音谐波状态不同,所以男性语音与女性语音相比可能会对高频率信息相对不敏感。因此,SH处理器462可能会针对男性语音削弱白噪声编码,并同时可以设置编码,由此高频域未被预测。LSH处理器463可将输入信号编码为适合女性语音特征的。
当输入信号是音频特征信号时,第一转换编码器220可将高频带信号转换成频域信号,并由此编码高频带信号。当输入信号的特征对应复杂状态时,第一转换编码器220可执行未执行频带扩展的核心频带的编码。例如,第一转换编码器220可使用改进的离散余弦变换MDCT(Modified Discrete Cosine Transform)编码体系。
当输入信号是语音特征信号时,LPC编码器230可执行高频带信号的LPC编码。当输入信号的特点对应稳定状态时,LPC编码器230可执行未执行频带扩展的核心频带的LPC编码。LPC编码器230可包括时域编码器231和第二转换编码器232。
当输入信号是语音特征信号时,时域编码器231可执行输入信号的时域编码。具体来说,根据谐波状态是稳定还是低,例如,根据稳定状态结果,时域编码器231可使用代码激励线性预测CELP体系,针对LPC处理的信号执行时域编码,
当输入信号是音频特征信号时,第二转换编码器232可执行输入信号的FFT编码。具体来说,第二转换编码器232可使用传送输入信号至频域信号的的FFT体系,在频域根据谐波状态执行编码。在这里,第二转换编码器232可基于输入信号的特征构建不同的协议。
比特流生成器240可使用立体声声像信息、用于将输入信号扩展为高频带信号的信息、第一转换编码器信息220的信息和LPC编码器230的信息,生成比特流。
编码器设备200可进一步包括心理声学单元270,其使用人类的声学特征,控制第一转换编码器220。
图5是示出根据本发明一个实施例的用于统合地解码语音信号和音频信号的解码设备500的框图。
参考图5,解码设备500可包括比特流分析器510、第一转换解码器520、LPC解码器530、频带合成器540,和立体声解码器550。
比特流分析器510可分析输入比特流信号。
当比特流信号是音频比特流信号时,第一转换解码器520可将比特流信号转换为频域信号,并将比特流信号解码。
当比特流信号是语音比特流信号时,LPC解码器530可执行比特流信号的LPC解码。
LPC解码器可包括:时域解码器531,用于在时域解码输入比特流;和第二转换解码器532,用于根据输入比特流的特征来在频带解码输入比特流。
频带合成器540,可合成比特流信号的频带。
立体声解码器550可将比特流信号解码为立体声信号
具体来说,解码设备500可执行编码设备100和200的逆运算操作。
如上所述,根据一本发明实施例,通过根据输入信号的特征有效地选择内部模块,可以在不同比特率针对语音信号和音频信号提供极佳的音质。
虽然本发明一些实施例已被展示和描述,但是本发明不仅限于所描述的实施例。相反,本技术领域的技术人员应当明白,在不脱离本发明的原则和精神范围内,可对实施例进行改变,其范围由权利要求书及其等同物定义。
Claims (15)
1.一种用于统合地编码语音信号和音频信号的编码设备,所述编码设备包括:
输入信号分析器,其分析输入信号的特征;
第一转换编码器,当输入信号是音频特征信号时,其将输入信号转换成频域信号,并将输入信号编码;
线性预测编码(LPC)编码器,当输入信号是语音特征信号时,其执行输入信号的LPC编码;和
比特流生成器,其使用第一转换编码器的输出信号和LPC编码器的输出信号,来生成比特流。
2.如权利要求1所述的编码设备,其进一步包括:
立体声编码器,其将输入信号降混频为单声道信号,并提取立体声声音图像信息。
3.如权利要求2所述的编码设备,其中,所述立体声编码器,根据输入信号的特征,控制用于立体声编码的参数值。
4.如权利要求1所述的编码设备,其进一步包括:
频带扩展器,其将输入信号扩展为高频带信号。
5.如权利要求4所述的编码设备,其中,所述频带扩展器,根据输入信号的特征,选择性地应用至少一个频带复制(SBR)标准。
6.如权利要求1所述的编码设备,其进一步包括:
心理声学单元,其使用人类的声学特征,控制第一转换编码器。
7.如权利要求1所述的编码设备,其中,所述LPC编码器包括:
时域编码器,当输入信号是语音特征信号时,其执行输入信号的时域编码;和
第二转换编码器,当输入信号是音频特征信号时,其执行输入信号的快速傅立叶变换(FFT)编码。
8.如权利要求1所述的编码设备,其中,所述输入信号分析器,将输入信号分类为音频特征信号、语音特征信号、和低能量信号中的任何一种。
9.如权利要求8所述的编码设备,其中,语音特征信号被分类为稳定谐波状态、低稳定谐波状态、稳定噪声状态中的任何一种,且音频特征信号被分类为复杂谐波状态、复杂噪声状态中的任何一种。
10.一种用于统合地编码语音信号和音频信号的编码设备,所述编码设备包括:
输入信号分析器,其分析输入信号的特征;
立体声编码器,其将输入信号降混频为单声道信号,并提取立体声声音图像信息;
频带扩展器,其生成用于将输入信号扩展为高频带信号的信息;
第一转换编码器,当输入信号是音频特征信号时,其将高频带信号转换成频带,并将高频带信号编码;
LPC编码器,当输入信号是语音特征信号时,其执行高频带信号的LPC编码;和
比特流生成器,其使用所述立体声声音图像信息、所述用于将输入信号扩展为高频带信号的信息、第一转换编码器的输出信号和LPC编码器的输出信号,来生成比特流。
11.如权利要求10所述的编码设备,其进一步包括:
心理声学单元,其使用人类的声学特征,控制第一转换编码器。
12.如权利要求10所述的编码设备,其中,所述立体声编码器,根据输入信号的特征,控制用于立体声编码的参数值。
13.如权利要求10所述的编码设备,其中,所述频带扩展器,根据输入信号的特征,选择性地应用至少一个SBR标准。
14.如权利要求10所述的编码设备,其中,所述LPC编码器包括:
时域编码器,当输入信号是语音特征信号时,其执行输入信号的时域编码;
第二转换编码器,当输入信号是音频特征信号时,其执行输入信号的FFT编码。
15.一种用于统合地解码语音信号和音频信号的解码设备,所述解码设备包括:
比特流分析器,其分析输入比特流信号;
转换解码器,当比特流信号是音频比特流信号时,其将比特流信号转换为频域信号,并将比特流信号解码;
LPC解码器,当比特流信号是语音比特流信号时,其执行比特流信号的LPC解码;
频带合成器,其合成比特流信号的频带;和
立体声解码器,其将比特流信号解码为立体声信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410479883.9A CN104299618B (zh) | 2008-07-14 | 2009-07-14 | 统合地编码语音信号和音频信号的编码方法和解码方法 |
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20080068369 | 2008-07-14 | ||
KR10-2008-0068369 | 2008-07-14 | ||
KR20080071218 | 2008-07-22 | ||
KR10-2008-0071218 | 2008-07-22 | ||
KR10-2009-0062070 | 2009-07-08 | ||
KR1020090062070A KR101261677B1 (ko) | 2008-07-14 | 2009-07-08 | 음성/음악 통합 신호의 부호화/복호화 장치 |
PCT/KR2009/003861 WO2010008179A1 (ko) | 2008-07-14 | 2009-07-14 | 음성/음악 통합 신호의 부호화/복호화 방법 및 장치 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410479883.9A Division CN104299618B (zh) | 2008-07-14 | 2009-07-14 | 统合地编码语音信号和音频信号的编码方法和解码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102150024A true CN102150024A (zh) | 2011-08-10 |
CN102150024B CN102150024B (zh) | 2014-10-22 |
Family
ID=41816656
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410479883.9A Active CN104299618B (zh) | 2008-07-14 | 2009-07-14 | 统合地编码语音信号和音频信号的编码方法和解码方法 |
CN200980135842.5A Active CN102150024B (zh) | 2008-07-14 | 2009-07-14 | 编码和解码统合的语音与音频信号的设备与方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410479883.9A Active CN104299618B (zh) | 2008-07-14 | 2009-07-14 | 统合地编码语音信号和音频信号的编码方法和解码方法 |
Country Status (5)
Country | Link |
---|---|
US (5) | US8990072B2 (zh) |
EP (2) | EP2302345B1 (zh) |
KR (2) | KR101261677B1 (zh) |
CN (2) | CN104299618B (zh) |
WO (1) | WO2010008179A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104040626A (zh) * | 2012-01-13 | 2014-09-10 | 高通股份有限公司 | 多译码模式信号分类 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101261677B1 (ko) | 2008-07-14 | 2013-05-06 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
US20120095729A1 (en) * | 2010-10-14 | 2012-04-19 | Electronics And Telecommunications Research Institute | Known information compression apparatus and method for separating sound source |
CN103035248B (zh) | 2011-10-08 | 2015-01-21 | 华为技术有限公司 | 音频信号编码方法和装置 |
IN2015MN02784A (zh) | 2013-04-05 | 2015-10-23 | Dolby Int Ab | |
CN103413553B (zh) | 2013-08-20 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 音频编码方法、音频解码方法、编码端、解码端和系统 |
CN106256001B (zh) | 2014-02-24 | 2020-01-21 | 三星电子株式会社 | 信号分类方法和装置以及使用其的音频编码方法和装置 |
FI3751566T3 (fi) | 2014-04-17 | 2024-04-23 | Voiceage Evs Llc | Menetelmiä, kooderi ja dekooderi äänisignaalien lineaariseen ennakoivaan koodaukseen ja dekoodaukseen näytteistystaajuudeltaan erilaisten kehysten välillä siirryttäessä |
DE112015003108B4 (de) | 2014-07-01 | 2021-03-04 | Electronics And Telecommunications Research Institute | Verfahren und Vorrichtung zur Verarbeitung eines Mehrkanal-Audiosignals |
FR3024582A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
KR102398124B1 (ko) | 2015-08-11 | 2022-05-17 | 삼성전자주식회사 | 음향 데이터의 적응적 처리 |
KR20220009563A (ko) | 2020-07-16 | 2022-01-25 | 한국전자통신연구원 | 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기 |
KR20220158395A (ko) | 2021-05-24 | 2022-12-01 | 한국전자통신연구원 | 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE504010C2 (sv) * | 1995-02-08 | 1996-10-14 | Ericsson Telefon Ab L M | Förfarande och anordning för prediktiv kodning av tal- och datasignaler |
US6134518A (en) | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
JP3211762B2 (ja) * | 1997-12-12 | 2001-09-25 | 日本電気株式会社 | 音声及び音楽符号化方式 |
EP0932141B1 (en) * | 1998-01-22 | 2005-08-24 | Deutsche Telekom AG | Method for signal controlled switching between different audio coding schemes |
US7266501B2 (en) * | 2000-03-02 | 2007-09-04 | Akiba Electronics Institute Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
US6658383B2 (en) | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
US7555434B2 (en) * | 2002-07-19 | 2009-06-30 | Nec Corporation | Audio decoding device, decoding method, and program |
JP4445328B2 (ja) * | 2004-05-24 | 2010-04-07 | パナソニック株式会社 | 音声・楽音復号化装置および音声・楽音復号化方法 |
JP4871501B2 (ja) * | 2004-11-04 | 2012-02-08 | パナソニック株式会社 | ベクトル変換装置及びベクトル変換方法 |
DE102005032724B4 (de) * | 2005-07-13 | 2009-10-08 | Siemens Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
KR20080101872A (ko) | 2006-01-18 | 2008-11-21 | 연세대학교 산학협력단 | 부호화/복호화 장치 및 방법 |
KR20070077652A (ko) * | 2006-01-24 | 2007-07-27 | 삼성전자주식회사 | 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법 |
KR101393298B1 (ko) | 2006-07-08 | 2014-05-12 | 삼성전자주식회사 | 적응적 부호화/복호화 방법 및 장치 |
WO2008035949A1 (en) | 2006-09-22 | 2008-03-27 | Samsung Electronics Co., Ltd. | Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding |
US20080114608A1 (en) * | 2006-11-13 | 2008-05-15 | Rene Bastien | System and method for rating performance |
KR101434198B1 (ko) | 2006-11-17 | 2014-08-26 | 삼성전자주식회사 | 신호 복호화 방법 |
CN101512909B (zh) * | 2006-11-30 | 2012-12-19 | 松下电器产业株式会社 | 信号处理装置 |
KR100964402B1 (ko) * | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
KR101411901B1 (ko) * | 2007-06-12 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화/복호화 방법 및 장치 |
KR101261677B1 (ko) * | 2008-07-14 | 2013-05-06 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
CA2985121C (en) * | 2013-01-29 | 2019-03-12 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension |
-
2009
- 2009-07-08 KR KR1020090062070A patent/KR101261677B1/ko active IP Right Grant
- 2009-07-14 EP EP09798082.5A patent/EP2302345B1/en active Active
- 2009-07-14 WO PCT/KR2009/003861 patent/WO2010008179A1/ko active Application Filing
- 2009-07-14 CN CN201410479883.9A patent/CN104299618B/zh active Active
- 2009-07-14 EP EP17173025.2A patent/EP3249373A1/en active Pending
- 2009-07-14 US US13/054,376 patent/US8990072B2/en active Active
- 2009-07-14 CN CN200980135842.5A patent/CN102150024B/zh active Active
-
2012
- 2012-07-13 KR KR1020120076634A patent/KR101565633B1/ko active IP Right Grant
-
2015
- 2015-01-26 US US14/605,006 patent/US9711159B2/en active Active
-
2017
- 2017-06-09 US US15/618,689 patent/US10121482B2/en active Active
-
2018
- 2018-11-02 US US16/179,120 patent/US10777212B2/en active Active
-
2020
- 2020-09-11 US US17/018,295 patent/US11456002B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104040626A (zh) * | 2012-01-13 | 2014-09-10 | 高通股份有限公司 | 多译码模式信号分类 |
CN104040626B (zh) * | 2012-01-13 | 2017-08-11 | 高通股份有限公司 | 多译码模式信号分类 |
Also Published As
Publication number | Publication date |
---|---|
US20170345435A1 (en) | 2017-11-30 |
US20150154974A1 (en) | 2015-06-04 |
CN104299618B (zh) | 2019-07-12 |
CN102150024B (zh) | 2014-10-22 |
KR20120089221A (ko) | 2012-08-09 |
EP2302345A1 (en) | 2011-03-30 |
US9711159B2 (en) | 2017-07-18 |
WO2010008179A1 (ko) | 2010-01-21 |
EP3249373A1 (en) | 2017-11-29 |
CN104299618A (zh) | 2015-01-21 |
US11456002B2 (en) | 2022-09-27 |
KR20100007749A (ko) | 2010-01-22 |
EP2302345B1 (en) | 2017-06-21 |
US8990072B2 (en) | 2015-03-24 |
KR101565633B1 (ko) | 2015-11-13 |
US10121482B2 (en) | 2018-11-06 |
US20200411022A1 (en) | 2020-12-31 |
KR101261677B1 (ko) | 2013-05-06 |
US10777212B2 (en) | 2020-09-15 |
US20190074022A1 (en) | 2019-03-07 |
EP2302345A4 (en) | 2012-10-24 |
US20110112829A1 (en) | 2011-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12205599B2 (en) | Apparatus for encoding and decoding of integrated speech and audio | |
US11456002B2 (en) | Apparatus and method for encoding and decoding of integrated speech and audio utilizing a band expander with a spectral band replication (SBR) to output the SBR to either time or transform domain encoding according to the input signal | |
EP2950308B1 (en) | Bandwidth expansion parameter-generator, encoder, decoder, bandwidth expansion parameter-generating method, encoding method, and decoding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |