CN101202042A - 可扩展的数字音频编码框架及其扩展方法 - Google Patents
可扩展的数字音频编码框架及其扩展方法 Download PDFInfo
- Publication number
- CN101202042A CN101202042A CNA2006101658644A CN200610165864A CN101202042A CN 101202042 A CN101202042 A CN 101202042A CN A2006101658644 A CNA2006101658644 A CN A2006101658644A CN 200610165864 A CN200610165864 A CN 200610165864A CN 101202042 A CN101202042 A CN 101202042A
- Authority
- CN
- China
- Prior art keywords
- signal
- voice
- stream
- module
- pcm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种可扩展的数字音频编码框架,包括:核心编码器,接收PCM流,对所述PCM流中的音频信号或者语音信号进行单声道和编码,并发送;带宽扩展模块,接收PCM流中的噪声信号,所述带宽扩展模块利用噪声信号中的低频分量来重建高频分量,将引导信息加载到编码后的码流中,发送到码流格式器;立体声模块,接收PCM流中的立体声信号,从所述立体声信号中提取立体声参数,形成辅助的比特流,发送到码流格式器;码流格式器,接收核心编码器、带宽扩展模块、立体声模块的信号,形成输出码流。本发明还公开了一种数字音频编码的扩展方法。
Description
技术领域
本发明涉及一种音视频编码技术,具体说,涉及一种可扩展的数字音频编码框架及其扩展方法。
背景技术
AVS标准是“信息技术先进音视频编码”(Audio and Video codingStandard Workgroup of China)系列标准的简称,其核心是把数字视频和音频数据压缩为原来的几十分之一甚至百分之一以下,AVS包括系统、视频、音频等三个主要标准和一致性测试等支撑标准,这是基于我国创新技术和公开技术制定的开放标准,旨在为中国的音视频产业提供完整的信源编码技术方案。无论AVS标准还是其它标准,其物理实现都是一块解码芯片或者编码芯片。
在很多的通用数字音频编码框架中,只定义了单独的音频编码方法,不具备可扩展性,存在通用部分和扩展部分兼容性、统一性不够的问题,特别是在需要进行音频编码框架扩展时,例如从通用音频应用扩展到移动音频应用时,需要定义特定的数字音频编码框架。
发明内容
本发明所解决的技术问题是提供一种可扩展的数字音频编码框架,解决了通用部分和扩展部分兼容性和统一性不够的问题,使得语音和音乐得到较好的编码质量。
技术方案如下:
可扩展的数字音频编码框架包括:
核心编码器,接收PCM流,对所述PCM流中的音频信号或者语音信号进行单声道和编码,并发送;
带宽扩展模块,接收PCM流中的噪声信号,所述带宽扩展模块利用噪声信号中的低频分量来重建高频分量,将引导信息加载到编码后的码流中,发送到码流格式器;
立体声模块,接收PCM流中的立体声信号,从所述立体声信号中提取立体声参数,形成辅助的比特流,发送到码流格式器;
码流格式器,接收核心编码器、带宽扩展模块、立体声模块的信号,形成输出码流。
优选的,所述核心编码器包括:
语音非语音鉴别模块,接收PCM流,鉴别和区分PCM流中的语音信号、音频信号,并将语音信号或者音频信号选择发送;
通用音频编码器,接收所述音频信号,对所述音频信号进行编码并发送;
语音编码器,接收所述语音信号,对所述语音信号进行编码并发送;
第一开关元件,选择导通语音非语音鉴别模块和通用音频编码器,或者选择导通语音非语音鉴别模块和语音编码器;
第二开关元件,选择导通码流格式器和通用音频编码器,或者选择导通码流格式器和语音编码器。
优选的,立体声模块在编码时,立体声信号经左右声道混合得到的单声道信号。
本发明所解决的另一个技术问题是提供一种数字音频编码的扩展方法,使得语音和音乐得到较好的编码质量。
技术方案如下:
数字音频编码的扩展方法包括如下步骤:
(1)在带宽扩展模块中,利用接收到的PCM流中的噪声信号进行带宽扩展,并发送;
(2)在立体声模块中,利用接收到的PCM流中的立体声信号,从所述立体声信号中提取立体声参数,形成辅助的比特流,并发送;
(3)在核心编码器中,将接收到的PCM流中的音频信号或者语音信号进行编码,并发送;
(4)码流格式器接收带宽扩展模块、立体声模块、核心编码器的输入信号,进行组合编码形成输出流。
进一步,步骤(3)具体为:
(31)语音非语音鉴别模块接收PCM流,鉴别和区分PCM流中的语音信号、音频信号,并将语音信号或者音乐信号选择发送;
(32)当语音非语音鉴别模块发送音频信号时,第一开关元件选择导通语音非语音鉴别模块和通用音频编码器;当语音非语音鉴别模块发送语音信号时,第一开关元件选择导通语音非语音鉴别模块和语音编码器;
(33)通用音频编码器对接收到的音频信号进行编码,经第二开关元件发送到所述码流格式器;或者,语音编码器对接收到的语音信号进行编码,经第二开关元件发送到所述码流格式器。
本发明解决了通用部分和扩展部分兼容性和统一性不够的问题,,带宽扩展和立体声技术可以方便的与核心编码器融合,使得语音和音频得到较好的编码质量。同时,继承了通用音频的优点,使得码流的兼容性和统一性得到保证。
附图说明
图1是可扩展的数字音频编码框架的结构框图;
图2是通过复制产生高频的频率-能量曲线图;
图3是对高频部分进行包络调整的频率-能量曲线图;
图4是立体声信号的输入生产波形图。
具体实施方式
下面参照附图,对本发明的优选实施例作详细描述。
如图1所示,可扩展的数字音频编码框架整体上包括核心编码器110、带宽扩展模块120、立体声模块130、码流格式器140。PCM流同时进入核心编码器110、带宽扩展模块120、立体声模块130。
核心编码器110对进入的PCM流中的音乐信号或者语音信号进行单声道和编码,并发送到码流格式器140,在码流格式器140中形成输出码流。核心编码器110包括三个子模块,分别是语音非语音鉴别模块111、通用音频编码器112、语音编码器113。
随着移动通信的发展,语音通信向音频通信发展,音频通信媒体除了语音信号,还有音乐信号。这样,原有的语音通信编解码器不能满足新的需求,同时语音激活检测必须演变成语音/非语音鉴别,即必须能够区分音乐、语音、噪声,以便下一步分别处理。
语音非语音鉴别模块111接收PCM流,鉴别和区分PCM流中的语音信号、音频信号,并将语音信号或者音频信号选择发送到通用音频编码器112或者语音编码器113。
通用音频编码器112和语音编码器113是通用音频扩展框架的核心编码器,用来进行单声道和一定带宽条件下的语音和音频信号编码。按照信号的形式和提供的数据率,能够建立不同的源模型和感觉模型。语言编码方法主要是充分利用了在人类发声中语言产生的特殊模型,任意音频信号的编码方法主要充分利用了人耳的掩蔽效应。
通用音频编码器112接收音频信号,对音频信号进行编码并发送到码流格式器140。语音编码器113接收语音信号,对语音信号进行编码并发送到码流格式器140。
当语音非语音鉴别模块111发送音频信号时,第一开关元件114导通语音非语音鉴别模块111和通用音频编码器112,第二开关元件115选择导通码流格式器140和通用音频编码器112;当语音非语音鉴别模块111发送语音信号时,第一开关元件114导通语音非语音鉴别模块111和语音编码器113,第二开关元件115选择导通码流格式器140和语音编码器113。
如图2和图3所示,带宽扩展模块120将频谱从低频到高频直接复制,然后,利用原来高频包络信息对复制的高频进行调整。
带宽扩展模块120接收音频信号中的噪声信号,带宽扩展模块120利用噪声信号中的低频分量来重建高频分量,将引导信息加载到编码后的码流中,发送到码流格式器140。
在低于每通道64Kbps的码率下,各种感知编码器都不同程度地出现了质量的下降,或产生带限。为克服先前的感知编码器的这一缺陷,带宽扩展模块120改善了在低码率下语音和音频编码器的表现,提高了音频感知编码器在低码率下的带限上限使得其能够达到或超过15KHz,并且能够改进窄带语音编码器的质量使得能够原先只能用于广播语音的通道能够传输12KHz频带范围的音乐。
带宽扩展模块120使得在压缩算法中高效地对音频中的高频部分编码成为可能。带宽扩展模块120利用分析低频分量来重建高频分量,为了能够准确重建,一些引导信息以极低的码率被加载到编码后的码流中。这种高频分量的重建对于谐波和类噪声成分非常有效,并且他还允许进行时域和频域的修整。这样对全频带进行处理,就可以明显地提高几乎两倍的编码器效率。
带宽扩展技术利用分析低频分量来重建高频分量,为了能够准确重建,需要进行以下处理:
立体声模块130接收PCM流中的立体声信号,从立体声信号中提取立体声参数,形成辅助的比特流,发送到所述码流格式器140。
立体声模块130通过提取表述输入信号立体声声像的参数,可以同样提高两倍左右的编码效率。在编码时,只有一个从立体声信号经降混音的单声道信号被编码,从立体声信号中提取的立体声参数和带宽扩展参数一样,嵌入为一个辅助的比特流。在解码时,首先单声道的信号被解码出来,立体声信号通过嵌入的立体声参数来重构。
如图4所示,在编码时,立体声信号经左右声道混合得到单声道信号,从立体声信号中提取立体声参数,嵌入为一个极低的辅助比特流。在解码时,混合单声道的信号首先被解码出来,立体声信号通过立体声参数来重构。
下列指标用来描述立体声声像:
1、通道间强度差异,主要描述左右通道的能量强度差异。
2、通道间互相关,主要描述左右通道的互相关或相干。
3、通道间相位差异,主要描述左右通道的相位差异。
当有PCM流进入可扩展的数字音频编码框架时,工作过程如下:
在带宽扩展模块120中,利用接收到的噪声信号进行带宽扩展,并发送码流格式器115;在立体声模块130中,利用接收到的立体声信号,从立体声信号中提取立体声参数,形成辅助的比特流,并发送到码流格式器115。
在核心编码器110中,将接收到的信号中的音频信号或者语音信号进行编码,并发送到码流格式器115,具体如下:
(1)语音非语音鉴别模块111接收PCM流,鉴别和区分PCM流中的语音信号、音频信号,并将语音信号或者音乐信号选择发送。
(2)当语音非语音鉴别模块111发送音频信号时,第一开关元件114选择导通语音非语音鉴别模块111和通用音频编码器112;当语音非语音鉴别模块发送的音频信号为语音信号时,第一开关元件114选择导通语音非语音鉴别模块111和语音编码器113。
(3)通用音频编码器112对接收到的音频信号进行编码,经第二开关元件115发送到码流格式器140;语音编码器113对接收到的语音信号进行编码,经第二开关元件115发送到码流格式器140。
(4)码流格式器140接收带宽扩展模块、立体声模块、核心编码器的输入信号,进行组合编码形成输出流。
Claims (5)
1.一种可扩展的数字音频编码框架,包括:
核心编码器,接收PCM流,对所述PCM流中的音频信号或者语音信号进行单声道和编码,并发送;
其特征在于,还包括:
带宽扩展模块,接收PCM流中的噪声信号,所述带宽扩展模块利用噪声信号中的低频分量来重建高频分量,将引导信息加载到编码后的码流中,发送到码流格式器;
立体声模块,接收PCM流中的立体声信号,从所述立体声信号中提取立体声参数,形成辅助的比特流,发送到码流格式器;
码流格式器,接收核心编码器、带宽扩展模块、立体声模块的信号,形成输出码流。
2.根据权利要求1所述的可扩展的数字音频编码框架,其特征在于,所述核心编码器包括:
语音非语音鉴别模块,接收PCM流,鉴别和区分PCM流中的语音信号、音频信号,并将语音信号或者音频信号选择发送;
通用音频编码器,接收所述音频信号,对所述音频信号进行编码并发送;
语音编码器,接收所述语音信号,对所述语音信号进行编码并发送;
第一开关元件,选择导通语音非语音鉴别模块和通用音频编码器,或者选择导通语音非语音鉴别模块和语音编码器;
第二开关元件,选择导通码流格式器和通用音频编码器,或者选择导通码流格式器和语音编码器。
3.根据权利要求1所述的可扩展的数字音频编码框架,其特征在于,立体声模块在编码时,立体声信号经左右声道混合得到的单声道信号。
4.一种数字音频编码的扩展方法,包括如下步骤:
(1)在带宽扩展模块中,利用接收到的PCM流中的噪声信号进行带宽扩展,并发送;
(2)在立体声模块中,利用接收到的PCM流中的立体声信号,从所述立体声信号中提取立体声参数,形成辅助的比特流,并发送;
(3)在核心编码器中,将接收到的PCM流中的音频信号或者语音信号进行编码,并发送;
(4)码流格式器接收带宽扩展模块、立体声模块、核心编码器的输入信号,进行组合编码形成输出流。
5.根据权利要求4所述的数字音频编码的扩展方法,其特征在于,步骤(3)具体为:
(31)语音非语音鉴别模块接收PCM流,鉴别和区分PCM流中的语音信号、音频信号,并将语音信号或者音乐信号选择发送;
(32)当语音非语音鉴别模块发送音频信号时,第一开关元件选择导通语音非语音鉴别模块和通用音频编码器;当语音非语音鉴别模块发送语音信号时,第一开关元件选择导通语音非语音鉴别模块和语音编码器;
(33)通用音频编码器对接收到的音频信号进行编码,经第二开关元件发送到所述码流格式器;或者,语音编码器对接收到的语音信号进行编码,经第二开关元件发送到所述码流格式器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006101658644A CN101202042A (zh) | 2006-12-14 | 2006-12-14 | 可扩展的数字音频编码框架及其扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2006101658644A CN101202042A (zh) | 2006-12-14 | 2006-12-14 | 可扩展的数字音频编码框架及其扩展方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101202042A true CN101202042A (zh) | 2008-06-18 |
Family
ID=39517176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006101658644A Pending CN101202042A (zh) | 2006-12-14 | 2006-12-14 | 可扩展的数字音频编码框架及其扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101202042A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074242A (zh) * | 2010-12-27 | 2011-05-25 | 武汉大学 | 语音音频混合分级编码中核心层残差提取系统及方法 |
CN101635145B (zh) * | 2008-07-24 | 2012-06-06 | 华为技术有限公司 | 编解码方法、装置和系统 |
CN102150205B (zh) * | 2008-07-14 | 2013-03-27 | 韩国电子通信研究院 | 用于编码和解码统合的语音与音频的设备 |
CN103873154A (zh) * | 2012-12-13 | 2014-06-18 | 恒银金融科技有限公司 | 一种手机用音频数字签名设备接收数据的方法 |
CN106104685A (zh) * | 2014-03-14 | 2016-11-09 | 瑞典爱立信有限公司 | 音频编码方法和装置 |
CN108234416A (zh) * | 2016-12-21 | 2018-06-29 | 中兴通讯股份有限公司 | 一种用户面数据码流的分析方法及装置 |
CN109448741A (zh) * | 2018-11-22 | 2019-03-08 | 广州广晟数码技术有限公司 | 一种3d音频编码、解码方法及装置 |
CN111583942A (zh) * | 2020-05-26 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 语音会话的编码码率控制方法、装置和计算机设备 |
-
2006
- 2006-12-14 CN CNA2006101658644A patent/CN101202042A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102150205B (zh) * | 2008-07-14 | 2013-03-27 | 韩国电子通信研究院 | 用于编码和解码统合的语音与音频的设备 |
US8959015B2 (en) | 2008-07-14 | 2015-02-17 | Electronics And Telecommunications Research Institute | Apparatus for encoding and decoding of integrated speech and audio |
CN101635145B (zh) * | 2008-07-24 | 2012-06-06 | 华为技术有限公司 | 编解码方法、装置和系统 |
CN102074242A (zh) * | 2010-12-27 | 2011-05-25 | 武汉大学 | 语音音频混合分级编码中核心层残差提取系统及方法 |
CN103873154A (zh) * | 2012-12-13 | 2014-06-18 | 恒银金融科技有限公司 | 一种手机用音频数字签名设备接收数据的方法 |
CN103873154B (zh) * | 2012-12-13 | 2016-05-25 | 恒银金融科技股份有限公司 | 一种手机用音频数字签名设备接收数据的方法 |
CN106104685A (zh) * | 2014-03-14 | 2016-11-09 | 瑞典爱立信有限公司 | 音频编码方法和装置 |
CN106104685B (zh) * | 2014-03-14 | 2019-12-03 | 瑞典爱立信有限公司 | 音频编码方法和装置 |
CN110619884A (zh) * | 2014-03-14 | 2019-12-27 | 瑞典爱立信有限公司 | 音频编码方法和装置 |
CN110619884B (zh) * | 2014-03-14 | 2023-03-07 | 瑞典爱立信有限公司 | 音频编码方法和装置 |
CN108234416A (zh) * | 2016-12-21 | 2018-06-29 | 中兴通讯股份有限公司 | 一种用户面数据码流的分析方法及装置 |
CN109448741A (zh) * | 2018-11-22 | 2019-03-08 | 广州广晟数码技术有限公司 | 一种3d音频编码、解码方法及装置 |
CN111583942A (zh) * | 2020-05-26 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 语音会话的编码码率控制方法、装置和计算机设备 |
CN111583942B (zh) * | 2020-05-26 | 2023-06-13 | 腾讯科技(深圳)有限公司 | 语音会话的编码码率控制方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101202042A (zh) | 可扩展的数字音频编码框架及其扩展方法 | |
CN101789792B (zh) | 多通道音频数据编码/解码方法和设备 | |
Brandenburg et al. | Overview of MPEG audio: Current and future standards for low bit-rate audio coding | |
EP1721489B1 (en) | Frequency-based coding of audio channels in parametric multi-channel coding systems | |
CN100539742C (zh) | 多声道音频信号编解码方法和装置 | |
KR101056325B1 (ko) | 복수의 파라미터적으로 코딩된 오디오 소스들을 결합하는 장치 및 방법 | |
CN101578654B (zh) | 用于恢复多通道音频信号的设备和方法 | |
CN101933086B (zh) | 处理音频信号的方法和设备 | |
CN100571043C (zh) | 一种空间参数立体声编解码方法及其装置 | |
US20060171542A1 (en) | Coding of main and side signal representing a multichannel signal | |
CN101553867A (zh) | 用于处理音频信号的方法和装置 | |
CN102016982B (zh) | 结合装置、远程通信系统以及结合方法 | |
CN1705980A (zh) | 参数音频编码 | |
CN106373583B (zh) | 基于理想软阈值掩模irm的多音频对象编、解码方法 | |
CN102216983B (zh) | 用于编码与信号源相关联的至少一个参数的设备和方法 | |
CN105164749A (zh) | 多声道音频的混合编码 | |
CN103000179A (zh) | 一种多通道音频编解码系统及其方法 | |
JP3103382B2 (ja) | 低サンプリング・レートでデジタル化されたオーディオ信号を符号化する方法 | |
WO2023173941A1 (zh) | 一种多声道信号的编解码方法和编解码设备以及终端设备 | |
CN112752199B (zh) | 一种基于alsa框架的声卡左右声道独立控制装置及方法 | |
CN101361114B (zh) | 用于处理媒体信号的装置及其方法 | |
CN115472172A (zh) | 一种drm音频编码器及音频编码方法 | |
CN103854650A (zh) | 立体声音频编码的方法及装置 | |
Quackenbush et al. | Digital Audio Compression Technologies | |
KR19980013771A (ko) | Mpeg-2 오디오의 에러 검출 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20080618 |