CN1599464A - 嵌入式音视频混合信号同步编码技术 - Google Patents

嵌入式音视频混合信号同步编码技术 Download PDF

Info

Publication number
CN1599464A
CN1599464A CN 200410078873 CN200410078873A CN1599464A CN 1599464 A CN1599464 A CN 1599464A CN 200410078873 CN200410078873 CN 200410078873 CN 200410078873 A CN200410078873 A CN 200410078873A CN 1599464 A CN1599464 A CN 1599464A
Authority
CN
China
Prior art keywords
coefficient
video
matrix
audio
digital audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200410078873
Other languages
English (en)
Other versions
CN1248512C (zh
Inventor
陈贺新
赵岩
齐丽凤
桑爱军
王世刚
付平
王学军
陈绵书
Original Assignee
陈贺新
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 陈贺新 filed Critical 陈贺新
Priority to CN 200410078873 priority Critical patent/CN1248512C/zh
Publication of CN1599464A publication Critical patent/CN1599464A/zh
Application granted granted Critical
Publication of CN1248512C publication Critical patent/CN1248512C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

嵌入式音视频混合信号同步编码技术涉及信号的压缩编码技术,尤其涉及音视频混合信号的同步压缩方法,本发明由数据提取、四维矩阵分割、四维矩阵变换、生成数字音频信号纠错码、数字音频信号嵌入视频、量化编码等步骤实现;本发明将视频信号的伴音信号与视频信号作为整体考虑进行压缩编码,同时利用四维矩阵离散余弦变换,全面去除了彩色视频信号的冗余信息,并考虑了时间、空间和色调的相关及整体性,从而在提高数字视频及其伴音信号压缩比的同时,严格地保证了音视频的同步。

Description

嵌入式音视频混合信号同步编码技术
技术领域:
本发明涉及信号的压缩编码技术,尤其涉及音视频混合信号的同步压缩方法。
背景技术:
目前,在网络视频、VCD、数字电视等视频播放应用中,国际标准以及其它非标准方法都将视频与其伴音信号的压缩编码分开进行。而且音频与视频信号的压缩编码采用了完全不同的方法。研究最广泛、用得最广泛的音频信号编码方法是以线性预测为基础的分析/综合法。而研究用得最广泛的视频信号编码方法则是2D-DCT变换结合运动补偿技术的方法。由此,不可避免地要解决音视频的同步问题,特别是在网络视频应用中,不同时刻网络的吞吐量、传输时延等是不断变化的,这就使传输视频信号的分组与传输其对应伴音的分组很难同时到达接收端,从而使视频信号的播放不能与其伴音同步的问题更加严重,产生“唇音不同步”的结果。
下面主要介绍一下MPEG-2中对音视频同步问题理想的处理方法及实际实现中的困难。MPEG-2的语法是一种分层结构,主要分三层:传输(Transport Stream)层、PES(PacketizedElementary Stream)层和ES(Elementary Stream)层。MPEG-2算法的特点是在空域和时域上都进行压缩编码。在三层码流结构中都带有表示时间的信息。ES中有temporal-reference,PES中有显示时间标签和解码时间标签,而传输层中有节目参考时钟。
视频、音频数据经过编码、压缩后成为ES流。然后ES流被进行一种逻辑意义上的打包,打成PES流。PES是逻辑意义上的打包ES流,原因是进行PES分割的意义并不大。PES流的包是可以任意长度的,甚至是整个序列的长度,所以它只是逻辑上的分割。PES进一步打成传输包,形成传输流。传输包的长度固定为188字节。传输流包中最重要的信息是PID和节目参考时钟。PID用以分开复用的视频、音频、数据流,节目参考时钟用来同步编码、解码端的系统时钟,特别是在实时工作的系统中。一个节目流是由有相同时基的一个或多个基本流组成,也就是说用一个节目参考时钟给各个基本流提供时间信息,而各个基本部分的时间参考都来自于同样的主时钟。传输流可以由一个或多个节目流组成,因为各节目流有各自的时基,所以它们能复用在一起,通过一定容量的信道传送。同样的信道可以传较多的简单节目,也可以传较少的复杂节目。27MHz时钟与视频的扫描速度有关,所以一般都用视频作为27MHz系统时钟的时钟源,其它部分,如音频都要用由这个时钟源得到采样时钟。节目参考时钟是系统时钟的采样值,在MPEG-2码流中,用33bit记录90kHz时钟的基本值,再用9bit来记录7MHz时钟的扩展值,节目参考时钟(PCR)的频率至少为10次/s,整个记录时间超过了24h。计算公式为:PCR(s)=基本值/90×103+扩展值/27×106。如果相邻节目参考时钟之间的码流比特数是n bit,那么第二个节目参考时钟的值等于上一个节目参考时钟值加上n bit传送所需要的时间。27MHz的系统时钟要达到±30ppm,或者说偏差要达到±810Hz。另外节目参考时钟要达到±500ns的精度(不包括由于传送断续带来的影响)。在MPEG-2统模型中,认为每个传输包从编码端到解码端的时间都是一定的,所以在解码端能用软件控制的锁相环来重建系统时钟。节目参考时钟可能频繁到10次/s,所以锁相环(PLL)低通滤波器很窄,只有1Hz,这有好处,也有不利之处。设计得很好的锁相环应该能消除因为断续带来的超出其频宽的影响。只有几个赫芝的频宽能带来稳定的电视信号,但锁相要花很长时间,所以应该自适应地变化环时间参数。一般来说MPEG-2系统做成恒定比特率,对PLL的设计和得到节目参考时钟值时间的精度都带来好处。
在MPEG-2解码中,恢复出来的图像(Picture)被称为PPU(Picture Presentation Unit),解码恢复出来的语音被称为APU(Audio Presentation Unit);它们在码流中的相应部分叫PAU(Picture Access Unit)和AAU(Audio Access Unit)。一般PPU和APU是不同的,或说不相关的帧周期。例如,一个AUDIO序列,每帧有1152个采样,若采样率为44.1kHz,则帧周期为26.1ms;而一个VIDEO序列,如果帧频为29197Hz,则帧周期为33176ms,可见PPU和APU的时间边界并不一样。在编码器中,有一个共同的系统时钟,MPEG-2的系统流(以传输流为例)中,节目参考时钟是这个系统时钟的采样。在系统流中,有Video的显示时间标签(PresentationTime Stamp)和Audio的显示时间标签,表示Picture显示的时间和相应Audio回放的时间。显示时间标签也以这个系统时钟为参考,它是工作于90kHz的计数器的采样值,用33bit表示,可以记录下24h内的任何时钟周期。节目参考时钟和显示时间标签都被编码到码流中,相邻的节目参考时钟和显示时间标签间隔一般小于700ms。解码端可以按照节目参考时钟,通过一个锁相环恢复与编码端一致的本地系统时钟。显示时间标签在MPEG-2中是以一个理想的解码器(Decoder)为基础定出的,这个理想的解码器假设了通道Buffer永不上溢、下溢(对下溢有些特例);对码流的处理是瞬时的、理想的。因此,如果节目参考时钟和显示时间标签在编码端被正确编码,被无错地存储和传送,在解码端被进行正确的解码,而解码端又以节目参考时钟为基础恢复出与编码端一致的系统时钟,并且在正确的显示时间标签时间显示图像、回放声音,则视频和音频达到同步。但是一个实际解码器要比理想的解码器复杂得多。在实际实现中码流可能会出错;解码处理要花时间。实际上解码器视频和音频同步实现的困难之处在于:
(1)被解码的码流不能瞬时地从通道Buffer中读出来;解码过程要花时间;显示和回放要花时间;
(2)基于不同的解码硬件系统,有相应一些同步措施;
(3)显示时间标签和相应的PU在码流中分别处于不同的层中,而系统头信息和基本流的处理在不同的过程中,这在实现中存在着如何找到相配对的显示时间标签和PU的问题;
(4)当解码工作于从模式时,视频同步信号或音频采样频率由外部供给,这时PU的输出实际上并不由解码器主动控制;
(5)码流出错。节目参考时钟和显示时间标签在传送中都可能误码、出错。
发明内容:
本发明的目的在于提供彩色视频与其伴音混合信号的同步压缩方法及相关技术,在保证视频与其伴音信号质量以及高压缩比的前提下,解决音视频信号解码播放达到完全同步的问题。
本发明是通过如下步骤来完成对数字视频与其伴音混合信号同步压缩的:
1.数据提取步骤:提取数字彩色视频信号的连续几个帧,每帧为红、绿、蓝三个单色帧图像,以四维超立方体形数据排列成四维矩阵并存储;提取视频信号对应的数字音频信号并存储;
2.四维矩阵分割步骤:将四维矩阵划分为四维子矩阵;
3.四维矩阵变换步骤:对四维子矩阵进行四维矩阵离散余弦变换,计算出四维系数矩阵;
4.生成数字音频信号纠错码步骤:对每一音频信号的高四位比特进行(7,4)汉明码编码;
5.数字音频信号嵌入视频步骤:根据四维系数矩阵中DC系数(位置在(0,0,0,0)的系数)及DC系数附近的AC系数的绝对值范围,将带有纠错码的数字音频信号码流,按位嵌入四维系数矩阵中相应系数的倒数第4位或第3位;
6.量化编码步骤:对已嵌入数字音频信号码流的四维系数矩阵进行量化编码。
本发明的积极效果在于:由于将视频信号的伴音信号与视频信号作为整体考虑进行压缩编码,同时利用四维矩阵离散余弦变换全面去除了彩色视频信号的冗余信息,并考虑了时间、空间和色调的相关及整体性,从而在提高数字视频及其伴音信号压缩比的同时,严格地保证了音视频的同步。
附图说明:
图1为数字音频和视频混合信号同步压缩编码的流程图
具体实施方式:
本发明的核心内容是:在数字彩色视频信号进行四维矩阵离散余弦变换后嵌入音频信号的技术。在H.261、H.264和MPEG等标准中,综合考虑计算的复杂性和图像的块效应,图像被划分成8×8或可变大小(4×4、4×8、8×4、8×8、8×16、16×8、16×16等)的子块,进行离散余弦变换或类似于离散余弦变换的整数变换,为了与其兼容及利用现有的技术,并充分考虑到方块效应及计算复杂度,本发明采用4×4×3×3的子矩阵分割方法。
四维矩阵及其算法的定义,以及四维矩阵离散余弦变换,量化编码为现有技术。
在上述技术内容中,数字音频信号嵌入视频步骤(单元)的具体方法为:若数字音频码流中的比特为0,则待嵌入的每个4×4×3×3变换系数子矩阵中的DC系数,或AC系数的倒数第4位或第3位为0(覆盖其原值);否则,若数字音频码流中的比特为1,则待嵌入的每个4×4×3×3变换系数子矩阵中的DC系数或AC系数的倒数第4位或第3位为1(覆盖其原值)。
对视频所对应的伴音信息较少的应用,可采用简化的嵌入技术,即:上述技术内容中,生成数字音频信号纠错码步骤(单元)可以省略,而在数字音频信号嵌入视频步骤(单元),直接将数字音频码流嵌入每个4×4×3×3的变换系数子矩阵中的DC系数。具体嵌入方法为:若数字音频码流中的比特为0,则相应的DC系数不变(为正数),否则,若数字音频码流中的比特为1,则相应的DC系数取负(变为负数)。由于视频图象的像素值为0-255的正整数,因此经四维矩阵离散余弦变换后的DC系数均为正数,从而使嵌入音频码流在接收端很容易提取。
具体实施步骤:
1.数据提取步骤:对每幅图像大小为M×N的数字彩色视频信号的连续3个帧,每帧为红、绿、蓝三个单色帧,以四维超立方体形数据排列成M×N×3×3的四维矩阵并存储。其“四维”分别为单帧灰度图像的行、列、彩色图像的RGB三帧、以及视频沿时间方向的连续3个帧;存储以上3帧图象对应的数字音频信号;
2.四维矩阵分割步骤:对上述的四维矩阵划分为4×4×3×3的四维子矩阵;
3.四维矩阵变换步骤:对4×4×3×3的四维子矩阵,利用四维矩阵离散余弦变换或类似于离散余弦变换的整数变换公式进行变换,计算出四维系数子矩阵;
4.生成数字音频信号纠错码步骤:对每一音频信号的高四位比特进行(7,4)汉明码编码;
5.数字音频信号嵌入视频步骤:根据四维系数矩阵中DC系数(位置在(0,0,0,0)的系数)及DC系数附近的AC系数的绝对值范围,将数字音频信号码流按位嵌入四维系数矩阵中相应系数的倒数第4位或第3位;
6.量化编码步骤:对已嵌入数字音频信号码流的四维系数矩阵进行量化编码。

Claims (2)

1.一种音视频混合信号同步压缩方法,其特征在于它由以下步骤组成:
a.数据提取:提取数字彩色视频信号的连续几个帧,每帧为红、绿、蓝三个单色帧图像,以四维超立方体形数据排列成四维矩阵并存储;提取视频信号对应的数字音频信号并存储;
b.四维矩阵分割:将四维矩阵划分为四维子矩阵;
c.四维矩阵变换:对四维子矩阵进行四维矩阵离散余弦变换,计算出四维系数矩阵;
d.生成数字音频信号纠错码:对每一音频信号的高四位比特进行(7,4)汉明码编码;
e.数字音频信号嵌入视频:根据四维系数矩阵中DC系数(位置在(0,0,0,0)的系数)及DC系数附近的AC系数的绝对值范围,将带有纠错码的数字音频信号码流按位嵌入四维系数矩阵中相应系数的倒数第4位或第3位;
f.量化编码:对已嵌入数字音频信号码流的四维系数矩阵进行量化编码。
2.根据权利要求1所述的音、视频混合信号同步压缩方法,其特征在于所述的数字音频信号嵌入视频步骤所采用的具体方法为:若数字音频码流中的比特为0,则待嵌入的每个4×4×3×3变换系数子矩阵中的DC系数或AC系数的倒数第4位或第3位为0(覆盖其原值),否则,若数字音频码流中的比特为1,则待嵌入的每个4×4×3×3变换系数子矩阵中的DC系数或AC系数的倒数第4位或第3位为1(覆盖其原值)。
CN 200410078873 2004-09-26 2004-09-26 嵌入式音视频混合信号同步编码技术 Expired - Fee Related CN1248512C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200410078873 CN1248512C (zh) 2004-09-26 2004-09-26 嵌入式音视频混合信号同步编码技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200410078873 CN1248512C (zh) 2004-09-26 2004-09-26 嵌入式音视频混合信号同步编码技术

Publications (2)

Publication Number Publication Date
CN1599464A true CN1599464A (zh) 2005-03-23
CN1248512C CN1248512C (zh) 2006-03-29

Family

ID=34666945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200410078873 Expired - Fee Related CN1248512C (zh) 2004-09-26 2004-09-26 嵌入式音视频混合信号同步编码技术

Country Status (1)

Country Link
CN (1) CN1248512C (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100413341C (zh) * 2006-07-18 2008-08-20 吉林大学 音视频信号同步方法
CN101004915B (zh) * 2007-01-19 2011-04-06 清华大学 2.4kb/s SELP 低速率声码器抗信道误码保护方法
CN113949866A (zh) * 2021-10-20 2022-01-18 江苏经贸职业技术学院 一种音视频文件存储和传输方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100413341C (zh) * 2006-07-18 2008-08-20 吉林大学 音视频信号同步方法
CN101004915B (zh) * 2007-01-19 2011-04-06 清华大学 2.4kb/s SELP 低速率声码器抗信道误码保护方法
CN113949866A (zh) * 2021-10-20 2022-01-18 江苏经贸职业技术学院 一种音视频文件存储和传输方法

Also Published As

Publication number Publication date
CN1248512C (zh) 2006-03-29

Similar Documents

Publication Publication Date Title
US6567427B1 (en) Image signal multiplexing apparatus and methods, image signal demultiplexing apparatus and methods, and transmission media
CN1254977C (zh) 具有细粒度可调节性的视频系统和方法
US6377309B1 (en) Image processing apparatus and method for reproducing at least an image from a digital data sequence
US8654849B2 (en) Integrated transcoding
US8873871B2 (en) Image processing apparatus and method
CN114747219A (zh) 用于存储和信令传送子样本条目描述的方法和装置
CN103873888A (zh) 一种媒体文件直播方法及直播源服务器
WO2019158821A1 (en) An apparatus, a method and a computer program for volumetric video
CN101878649A (zh) 扩展avc标准以与视频并行地对高分辨率数字静止图片编码
WO2013185517A1 (zh) 一种音视频编码同步方法和系统
US9601156B2 (en) Input/output system for editing and playing ultra-high definition image
CN101662677A (zh) 码流转换系统及方法、码流识别单元和方案确定单元
JP6019520B2 (ja) 立体画像を生成、送信、および、受信するための方法、および関連するデバイス
US10299009B2 (en) Controlling speed of the display of sub-titles
CN1248512C (zh) 嵌入式音视频混合信号同步编码技术
WO2007136930A2 (en) Video/image compression using model plus difference image
US8184660B2 (en) Transparent methods for altering the video decoder frame-rate in a fixed-frame-rate audio-video multiplex structure
US11496795B2 (en) System for jitter recovery from a transcoder
CN100413341C (zh) 音视频信号同步方法
Lorent et al. TICO Lightweight Codec Used in IP Networked or in SDI Infrastructure
KR100970992B1 (ko) 그래픽스 가속을 통한 고화질 영상의 스테레오스코픽 다중화 및 저비율 압축 전송 장치 및 그 방법과 그 프로그램 소스를 저장한 기록매체
KR100371868B1 (ko) 영상 압축/복원 시스템에서 객체 기반 액세스를 위한 객체마스크 추적 장치
JP2006339787A (ja) 符号化装置及び復号装置
CN1732691A (zh) 视频编码和解码方法
KR20050076968A (ko) 디지털방송수신기의 비디오립싱크방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Assignee: Changchun Duowei Information Technology Co., Ltd.

Assignor: Chen Hexin

Contract fulfillment period: 2006.4.28 to 2016.4.28 contract change

Contract record no.: 2009220000020

Denomination of invention: Inserted audio-video mixed signal synchronous coding technique

Granted publication date: 20060329

License type: Exclusive license

Record date: 2009.6.16

LIC Patent licence contract for exploitation submitted for record

Free format text: EXCLUSIVE LICENSE; TIME LIMIT OF IMPLEMENTING CONTACT: 2006.4.28 TO 2016.4.28; CHANGE OF CONTRACT

Name of requester: CHANGCHUN DUOWEI INFORMATION TECHNOLOGY CO.,LTD.

Effective date: 20090616

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060329

Termination date: 20140926

EXPY Termination of patent right or utility model