CN110944197A - 一种图像、音频编码的方法和装置 - Google Patents

一种图像、音频编码的方法和装置 Download PDF

Info

Publication number
CN110944197A
CN110944197A CN201811118489.7A CN201811118489A CN110944197A CN 110944197 A CN110944197 A CN 110944197A CN 201811118489 A CN201811118489 A CN 201811118489A CN 110944197 A CN110944197 A CN 110944197A
Authority
CN
China
Prior art keywords
frame
channel
image
target
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811118489.7A
Other languages
English (en)
Other versions
CN110944197B (zh
Inventor
杨蕾
陈虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201811118489.7A priority Critical patent/CN110944197B/zh
Publication of CN110944197A publication Critical patent/CN110944197A/zh
Application granted granted Critical
Publication of CN110944197B publication Critical patent/CN110944197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种图像、音频编码的方法和装置,用以解决现有技术中在编码方式转换的过程中,图像和声音易失真的问题。图像编码方法包括:当存在待编码转换的视频文件时,获取所述视频文件中的视频流;依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间,针对每个通道,根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理;并根据预设的第一目标分辨率,对进行回归处理后的该帧源图像进行重采样,得到该帧源图像的重采样图像;根据目标编码方式对应的编码参数对每帧重采样图像进行编码,确定目标视频流中的每帧图像。使重采样图像更加贴近源图像,进一步减少图像的失真。

Description

一种图像、音频编码的方法和装置
技术领域
本发明涉及视频转换技术领域,特别涉及一种图像、音频编码的方法和装置。
背景技术
如今,视频文件在各个领域的应用越来越广泛,各个领域对视频文件有不一样的需求,比如,在影视领域常要发布多个版本如普清,高清和蓝光的影片,在游戏行领域,通常使用视频来制作游戏动画和使用图像来进行场景的贴图处理。
在使用视频文件时,需要对视频文件进行解码,获取其中的源数据进行使用。不同的电子设备的解码芯片不同,支持的视频文件的编码方式也不同,因此需要提前对视频文件的编码方式进行转换。
在对视频文件的编码方式进行转换时,实际上是对视频文件中的视频流和音频流中的源数据的编码方式进行转换,则就是对源数据进行重新编码。在对视频文件进行编码方式转换过程中,可能会造成图像的失真和声音的失真,尤其是图像容易失真。
在视频文件的编码方式进行转换过程,如何保证图像和声音不失真,是需要解决的技术问题。
发明内容
本发明实施例公开了一种图像、音频编码的方法和装置,用以解决现有技术中在编码方式转换的过程中,图像和声音易失真的问题。
为达到上述目的,本发明实施例公开了一种图像编码的方法,所述方法包括:
当存在待编码转换的视频文件时,获取所述视频文件中的视频流;
依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间,针对每个通道,根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理;并根据预设的第一目标分辨率,对进行回归处理后的该帧源图像进行重采样,得到该帧源图像的重采样图像;
根据目标编码方式对应的编码参数对每帧重采样图像进行编码,确定目标视频流中的每帧目标图像。
进一步地,在依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间之前,所述方法还包括:
依次针对每帧源图像,采样双三次插值算法将该帧源图像由原始分辨率转换为预设的第二目标分辨率,其中,第二目标分辨率高于原始分辨率。
进一步地,在根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理之前,所述方法还包括:
将该帧源图像按预设的图像块大小进行切分,得到每个图像块;
所述根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理包括:
针对每个图像块,根据预先确定的该通道对应的二维高斯混合模型,对该图像块中每个像素点在该通道上的分量值进行回归处理。
进一步地,预先确定每个通道对应的二维高斯混合模型包括:
针对Y通道,采用4个高斯分布确定Y通道对应的二维高斯混合模型;
针对U通道和V通道,采用2个高斯分布确定U通道和V通道对应的二维高斯混合模型。
本发明实施例提供了一种音频编码的方法,所述方法包括:
当存在待编码转换的视频文件时,获取所述视频文件中的音频流,并解析音频流中的每个音频数据;
按照预设的时间窗口,以及音频流的原始采样率,依次确定每个时间窗口中采集的每组音频数据;
依次针对每组音频数据,采用预先确定的音频数据对应的高斯混合模型对该组音频数据中的每个音频数据的强度值进行回归处理;
根据预设的目标采样率,以及目标编码方式对应的采样数,对回归处理后的每组音频数据进行采样,确定目标音频流中的每帧目标音频数据。
进一步地,预先确定音频数据对应的高斯混合模型的过程包括:
采用4个高斯分布确定音频数据对应的高斯混合模型。
本发明实施例提供了一种电子设备,包括:处理器和存储器;
所述处理器,用于读取所述存储器中的程序,执行下列过程:当存在待编码转换的视频文件时,获取所述视频文件中的视频流;
依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间,针对每个通道,根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理;并根据预设的第一目标分辨率,对进行回归处理后的该帧源图像进行重采样,得到该帧源图像的重采样图像;
根据目标编码方式对应的编码参数对每帧重采样图像进行编码,确定目标视频流中的每帧目标图像。
进一步地,所述处理器,还用于在依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间之前,依次针对每帧源图像,采样双三次插值算法将该帧源图像由原始分辨率转换为预设的第二目标分辨率,其中,第二目标分辨率高于原始分辨率。
进一步地,所述处理器,还用于在根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理之前,将该帧源图像按预设的图像块大小进行切分,得到每个图像块;
所述处理器,具体用于针对每个图像块,根据预先确定的该通道对应的二维高斯混合模型,对该图像块中每个像素点在该通道上的分量值进行回归处理。
进一步地,所述处理器,还用于针对Y通道,采用4个高斯分布确定Y通道对应的二维高斯混合模型;
针对U通道和V通道,采用2个高斯分布确定U通道和V通道对应的二维高斯混合模型。
本发明实施例提供了一种电子设备,包括:处理器和存储器;
所述处理器,用于读取所述存储器中的程序,执行下列过程:当存在待编码转换的视频文件时,获取所述视频文件中的音频流,并解析音频流中的每个音频数据;
按照预设的时间窗口,以及音频流的原始采样率,依次确定每个时间窗口中采集的每组音频数据;
依次针对每组音频数据,采用预先确定的音频数据对应的高斯混合模型对该组音频数据中的每个音频数据的强度值进行回归处理;
根据预设的目标采样率,以及目标编码方式对应的采样数,对回归处理后的每组音频数据进行采样,确定目标音频流中的每帧目标音频数据。
进一步地,所述处理器还用于采用4个高斯分布确定音频数据对应的高斯混合模型。
本发明实施例提供了一种图像编码的装置,所述装置包括:
获取模块,用于当存在待编码转换的视频文件时,获取所述视频文件中的视频流;
转换模块,用于依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间,针对每个通道,根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理;并根据预设的第一目标分辨率,对进行回归处理后的该帧源图像进行重采样,得到该帧源图像的重采样图像;
编码模块,用于根据目标编码方式对应的编码参数对每帧重采样图像进行编码,确定目标视频流中的每帧目标图像。
本发明实施例提供了一种音频编码的装置,所述装置包括:
获取模块,用于当存在待编码转换的视频文件时,获取所述视频文件中的音频流,并解析音频流中的每个音频数据;
转换模块,用于按照预设的时间窗口,以及音频流的原始采样率,依次确定每个时间窗口中采集的每组音频数据;依次针对每组音频数据,采用预先确定的音频数据对应的高斯混合模型对该组音频数据中的每个音频数据的强度值进行回归处理;
编码模块,具体用于根据预设的目标采样率,以及目标编码方式对应的采样数,对回归处理后的每组音频数据进行采样,确定目标音频流中的每帧目标音频数据。
本发明实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述图像编码的方法中任一项所述方法的步骤,或上述音频编码的方法中任一项所述方法的步骤。
本发明实施例提供了一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行上述图像编码的方法中任一项所述方法的步骤,或上述音频编码的方法中任一项所述方法的步骤。
本发明实施例公开了一种图像、音频编码的方法和装置,图像编码方法包括:当存在待编码转换的视频文件时,获取所述视频文件中的视频流;依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间,针对每个通道,根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理;并根据预设的第一目标分辨率,对进行回归处理后的该帧源图像进行重采样,得到该帧源图像的重采样图像;根据目标编码方式对应的编码参数对每帧重采样图像进行编码,确定目标视频流中的每帧图像。由于在本发明实施例中,在获取到每帧源图像后,先对源图像进行高斯回归处理和重采样,然后再进行编码方式的转换,可以减少图像的失真,并且在进行高斯回归处理时,先将源图像转换到YUV颜色空间,针对每个通道,采样对应的二维高斯混合模型进行回归处理,可以使重采样图像更加贴近源图像,进一步减少图像的失真。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图像编码的过程示意图;
图1A为本发明实施例提供的一种将音频数据写入目标音频流的过程示意图;
图2为本发明实施例提供的一种电子设备;
图3为本发明实施例提供的一种图像编码装置结构图;
图4为本发明实施例提供的一种电子设备。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
图1为本发明实施例1提供的一种图像编码的过程示意图,该过程包括以下步骤:
S101:当存在待编码转换的视频文件时,获取所述视频文件中的视频流。
本发明实施例提供的图像编码的方法可以应用于电子设备。
电子设备当识别存在待进行编码转换的视频文件时,可以获取该视频文件中的视频流。
本发明在对图像的编码方式进行转换时,可以采用第三方的开源库FFMPEG来进行,可以采用流信息的函数avformat_find_stream_info()来获取视频文件中的视频流的信息。
在识别到需要转换的视频文件时,可以使用一个合适方法打开它,获取里面的相关的信息,在FFMPEG中,使用函数avformat_open_input()来打开一个视频文件,解析其中的文件头,获取封装在文件头里的相关信息,该相关信息可以包括视频时间长度,名称,视频流的编码方式,码率,帧率等。FFMPEG在解析视频文件的文件头时,需要根据的视频文件后缀,如mp4,avi等,来查找其对应的视频文件头格式并依此解析,获取相关信息。
S102:依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间,针对每个通道,根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理;并根据预设的第一目标分辨率,对进行回归处理后的该帧源图像进行重采样,得到该帧源图像的重采样图像。
在获取到视频文件的视频流后,可以获取视频流中的每帧源图像,具体可以是FFMPEG利用函数av_read_frame()从视频流中一帧一帧地读取每一帧视频数据,直到结束。此时得到的每帧视频数据还是未经解码的,FFMPEG可以使用函数avcodec_find_decoder()来遍历所有支持的解码器,直到找到为止,然后可以经过函数avcodec_decode_video2()解码,来获取里面的每帧视频数据中的源数据,源数据中包括未经压缩的图像信息,即源图像和其他诸如时间戳和关键帧标记等信息。
在获取到每帧源图像后,可以采用二维高斯混合模型的图像插值算法对每帧源图像中的数据进行修改。以下以任一帧源图像为例,具体说明在对该帧源图像中的数据进行修改的过程:
首先,将该帧源图像转换到YUV颜色空间。
然后,针对YUV颜色空间的中的每个通道,识别该帧源图像中的每个像素点在该通道上的分量值。
其次,针对YUV颜色空间中的每个通道,均保存有其对应的二维高斯混合模型,可以识别每个通道对应的二维高斯混合模型。
每个通道对应的二维高斯混合模型可以是相同的,也可以是不同的。例如,Y通道与U通道的二维高斯混合模型相同,均采用2个高斯分布确定,或者U通道与V通道的二维高斯混合模型相同,均采用1个高斯分布确定。
再其次,在识别出每个通道对应的二维高斯混合模型,以及该帧图像中的每个像素点在每个通道上的分量值后,可以针对每个通道,根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理。
最后,预先设置第一目标分辨率,根据该第一分辨率对进行回归处理后的该帧源图像进行重采样,得到该帧源图像的重采样图像。
S103:根据目标编码方式对应的编码参数对每帧重采样图像进行编码,确定目标视频流中的每帧目标图像。
在得到重采样图像后,可以进行图像的重新编码,得到目标图像,目标图像构成了目标视频流,即根据目标编码方式对应的编码参数对每帧重采样图像进行编码,确定目标视频流中的每帧目标图像。
预先设置编码器的编码参数,包括指定编码格式、码率和帧率等,使用函数avcodec_encode_video2(),根据编码器设置的编码参数对重采样图像进行重新编码。
在进行编码格式转换时,开发者设置编码器的编码参数,FFMPEG调用相应的API接口进行编码器初始化的相关工作,并将相关信息写入到目标文件的文件头中。
在对重采样图像进行编码后,获取了目标图像,后续可以用函数av_write_frame()将目标图像写入到目标文件中。当所有的目标图像写入完毕时,可以再写入文件尾,则得到转换好的目标视频流文件,该文件尾中一般包括视频索引信息。
后续还可以释放目标文件占用的内存,以便将该内存资源重新分配给其他程序使用。
由于在本发明实施例中,在获取到每帧源图像后,先对源图像进行高斯回归处理和重采样,然后再进行编码方式的转换,可以减少图像的失真,并且在进行高斯回归处理时,先将源图像转换到YUV颜色空间,针对每个通道,采样对应的二维高斯混合模型进行回归处理,可以使重采样图像更加贴近源图像,进一步减少图像的失真。
实施例2:
该视频文件中的视频流的编码方式称为原始编码方式,在将视频文件中的视频流的原始编码方式转换为目标编码方式之前,原始编码方式的视频流,在进行编码时,已经造成了图像失真,则在解析出源图像后,该源图像的分辨率针对未进行编码过的图像来说,分辨率下降,造化图像失真,为了在二次编码的过程中进一步减少图像的失真,在对每帧源图像中的数据进行修改之前,可以先提高源图像的分辨率,使源图像更加贴近未进行编码过的图像。
可以是预先设置第二目标分辨率,源图像当前的分辨率称为原始分辨率,第二目标分辨率高于原始分辨率。具体可以是,在依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间之前,所述方法还包括:
依次针对每帧源图像,采样双三次插值算法将该帧源图像由原始分辨率转换为预设的第二目标分辨率,其中,第二目标分辨率高于原始分辨率。
可以依次针对每帧源图像,采样双三次插值算法将该帧源图像由原始分辨率转换为预设的第二目标分辨率。
在对源图像中的数据进行转换时,可以调用函数sws_scale()进行图像数据的转换,函数sws_scale()中涉及到了该双三次插值算法。此外,由于不同视频间的时间戳不一样,所以还可以采用函数av_rescale_q_rnd()对时间戳进行重新分配。
实施例3:
为了进一步减少图像的失真,可以将每帧源图像切分为多个图像块后再进行高斯回归处理。可以预先设置图像块的大小,该图像块的大小可以是16*16,或32*32。在针对每帧源图像,将该帧源图像转换到YUV颜色空间之后,在针对每个通道,根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理之前,将该帧源图像按预设的图像块大小进行切分,得到每个图像块;
在根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理时,可以是针对该帧源图像中的每个图像块,根据预先确定的该通道对应的二维高斯混合模型,对该图像块中每个像素点在该通道上的分量值进行回归处理。即完成了对每帧源图像的高斯回归处理。
实施例4:
为了进一步减少图像的失真,在上述各实施例的基础上,在本发明实施例中,在预先确定每个通道对应的二维高斯混合模型时,可以是针对Y通道,采用4个高斯分布确定Y通道对应的二维高斯混合模型;针对U通道和V通道,采用2个高斯分布确定U通道和V通道对应的二维高斯混合模型。
综上,在对源图像帧中的数据进行修改时,具体可以是首先将源图像转换到YUV颜色空间,然后将源图像切分为32*32的图像块。针对每个图像块,使用高斯分布数量为4的二维高斯混合模型对该图像块中的每个像素点在Y通道上的分量值进行回归处理,使用高斯分布数量为2的二维高斯混合模型对该图像块中的每个像素点分别在U、V通道上的分量度值进行回归处理。
实施例5:
本发明实施例提供了一种音频编码的方法,可以应用于电子设备,该方法包括:
当存在待编码转换的视频文件时,获取所述视频文件中的音频流,并解析音频流中的每个音频数据。
与获取视频流类似,采用第三方的开源库FFMPEG来进行,可以采用流信息的函数avformat_find_stream_info()来获取视频文件中的音频流的信息,在FFMPEG中,使用avformat_open_input()这个函数来打开一个视频文件,解析其中的文件头,获取封装在文件头里的相关信息,该相关信息可以包括音频流的编码方式,采样率等。
在解析音频流中的每个音频数据时,可以是先解析出音频流中的每帧音频数据,然后依次在每帧音频数据中解析出该帧音频数据中的每个音频数据。对于不同的音频编码格式,每一帧的采样数是不一样的,每帧采样数即是这一帧音频内音频数据的数量。例如AAC和MP2格式中,每帧音频数据的采样数为1024,MP3格式中,每帧音频数据的采样数为1152。
在对音频流的编码方式进行转换时,为了减少声音的失真,可以对音频数据的强度值进行回归处理。该音频流有其对应的采样率,将该音频流的采样率称为原始采样率,也就是音频流中的每帧音频数据的原始采样率。在进行音频流的编码方式转换时,可以进行如下步骤:
首先,按照预设的时间窗口,以及音频流的原始采样率,依次确定每个时间窗口中采集的每组音频数据,一个时间窗口对应一组音频数据。
其次,依次针对每组音频数据,采用预先确定的音频数据对应的高斯混合模型对该组音频数据中的每个音频数据的强度值进行回归处理。
然后,根据预设的目标采样率,以及目标编码方式对应的采样数,对回归处理后的每组音频数据进行采样,确定目标音频流中的每帧目标音频数据。
在根据预设的目标采样率,以及目标编码方式对应的采样数,对回归处理后的每组音频数据进行采样,确定目标音频流中的每帧目标音频数据时,具体可以是先针对每组音频数据,根据预设的目标采样率,对进行回归处理后的该组音频数据进行重采样,得到该组音频数据的重采样音频;然后,根据目标编码方式对应的采样数,对每组重采样音频组成的音频裸流数据进行采样,确定目标音频流中的每帧音频数据。
在确定音频数据对应的高斯混合模型时,可以是采用2个高斯分布确定,较优地,预先确定音频数据对应的高斯混合模型的过程包括:采用4个高斯分布确定音频数据对应的高斯混合模型。
实施例6:
在本发明实施例中,在FFMPEG中,根据音频流的编码方式,音频流分为平面数据和非平面数据,音频流还可以分为单声道、双声道等,单声道和双声道的保存格式不同。
以一个双声道的脉冲编码调制(Pulse Code Modulation,PCM)音频数据为例,MP3格式的音频流为平面数据,左声道的音频数据和右声道的音频数据分别独立保存,存储格式可能是如下:
plane 0:LLLLLLLLLLLLLLLLLLLLL
plane 1:RRRRRRRRRRRRRRRRRRR
其中L代表左声道,R代表右声道,一个L表示一个音频数据,一个R也表示一个音频数据,左声道和右声道的数据大小相同。
AAC格式的音频流为非平面数据,左声道的音频数据和右声道的音频数据混合保存,其存储格式可能是如下:
data:LRLRLRLRRLLRLRLRLRL
左声道和右声道的数据大小相同。
如果对平面数据的音频流进行修改,可以先确定出音频的通道数,循环将每个通道中的音频数据取出来放到目标缓存区buffer中,即获取左声道的一个音频数据,再获取右声道的一个音频数据,再获取左声道的一个音频数据……。对于非平面数据,直接取出数据,将数据存放到目标buffer中,然后从目标buffer中获取音频数据进行高斯回归处理,以及根据目标采样率,使用函数swr_convert()对buffer中缓存的音频数据进行重新采样,使音频数据重新按编码器指定格式进行编码。
进行完音频重采样,得到音频裸流数据后,可以采用先进先出FIFO算法,依次对音频裸流数据中的每个音频数据进行缓存,当数据量达到目标采样率时,将缓存的这些音频数据作为一帧,写入音频目标文件中,具体过程可以如图1A所示:
依次提取音频裸流数据中的音频数据,写入音频流缓存区中,并判断音频流缓存区中缓存的音频数据的数量是否达到目标采样数,如果否,则继续提取音频裸流数据中的音频数据,写入音频流缓存区中。如果音频流缓存区中缓存的音频数据的数量达到了目标采样数,则提取缓存区缓存的目标采样数的音频数据,将其作为一帧音频数据,写入到目标音频流中,即写入到目标音频文件中。
实施例7:
图2为本发明实施例提供的一种电子设备,包括:处理器21和存储器22;
所述处理器21,用于读取所述存储器22中的程序,执行下列过程:当存在待编码转换的视频文件时,获取所述视频文件中的视频流;
依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间,针对每个通道,根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理;并根据预设的第一目标分辨率,对进行回归处理后的该帧源图像进行重采样,得到该帧源图像的重采样图像;
根据目标编码方式对应的编码参数对每帧重采样图像进行编码,确定目标视频流中的每帧目标图像。
进一步地,所述处理器21,还用于在依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间之前,依次针对每帧源图像,采样双三次插值算法将该帧源图像由原始分辨率转换为预设的第二目标分辨率,其中,第二目标分辨率高于原始分辨率。
进一步地,所述处理器21,还用于在根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理之前,将该帧源图像按预设的图像块大小进行切分,得到每个图像块;
所述处理器21,具体用于针对每个图像块,根据预先确定的该通道对应的二维高斯混合模型,对该图像块中每个像素点在该通道上的分量值进行回归处理。
进一步地,所述处理器21,还用于针对Y通道,采用4个高斯分布确定Y通道对应的二维高斯混合模型;
针对U通道和V通道,采用2个高斯分布确定U通道和V通道对应的二维高斯混合模型。
在上述图2中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器代表的一个或多个处理器和存储器代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。收发机可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器负责管理总线架构和通常的处理,存储器可以存储处理器在执行操作时所使用的数据。
可选的,处理器可以是CPU(中央处埋器)、ASIC(ApplicationSpecificIntegrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)。
实施例8:
本发明实施例提供了一种电子设备,包括:处理器和存储器;
所述处理器,用于读取所述存储器中的程序,执行下列过程:当存在待编码转换的视频文件时,获取所述视频文件中的音频流,并解析音频流中的每个音频数据;
按照预设的时间窗口,以及音频流的原始采样率,依次确定每个时间窗口中采集的每组音频数据;
依次针对每组音频数据,采用预先确定的音频数据对应的高斯混合模型对该组音频数据中的每个音频数据的强度值进行回归处理;
根据预设的目标采样率,以及目标编码方式对应的采样数,对回归处理后的每组音频数据进行采样,确定目标音频流中的每帧目标音频数据。
进一步地,所述处理器还用于采用4个高斯分布确定音频数据对应的高斯混合模型。
实施例9:
图3为本发明实施例提供了一种图像编码的装置,所述装置包括:
获取模块31,用于当存在待编码转换的视频文件时,获取所述视频文件中的视频流;
转换模块32,用于依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间,针对每个通道,根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理;并根据预设的第一目标分辨率,对进行回归处理后的该帧源图像进行重采样,得到该帧源图像的重采样图像;
编码模块33,用于根据目标编码方式对应的编码参数对每帧重采样图像进行编码,确定目标视频流中的每帧目标图像。
实施例10:
本发明实施例提供了一种音频编码的装置,所述装置包括:
获取模块,用于当存在待编码转换的视频文件时,获取所述视频文件中的音频流,并解析音频流中的每个音频数据;
转换模块,用于按照预设的时间窗口,以及音频流的原始采样率,依次确定每个时间窗口中采集的每组音频数据;依次针对每组音频数据,采用预先确定的音频数据对应的高斯混合模型对该组音频数据中的每个音频数据的强度值进行回归处理;
编码模块,具体用于根据预设的目标采样率,以及目标编码方式对应的采样数,对回归处理后的每组音频数据进行采样,确定目标音频流中的每帧目标音频数据。
实施例11:
图4为本发明实施例提供的一种电子设备,包括:处理器41、通信接口42、存储器43和通信总线44,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述图像编码的方法中任一项所述方法的步骤,或上述音频编码的方法中任一项所述方法的步骤。
上述各实施例中的提到的通信总线可以是外设部件互连标准(PeripheralComponent Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustryStandard Architecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口,用于上述设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
实施例12:
本发明实施例提供了一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行上述图像编码的方法中任一项所述方法的步骤,或上述音频编码的方法中任一项所述方法的步骤。
上述实施例中的计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD)等。
对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全应用实施例、或结合应用和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (16)

1.一种图像编码的方法,其特征在于,所述方法包括:
当存在待编码转换的视频文件时,获取所述视频文件中的视频流;
依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间,针对每个通道,根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理;并根据预设的第一目标分辨率,对进行回归处理后的该帧源图像进行重采样,得到该帧源图像的重采样图像;
根据目标编码方式对应的编码参数对每帧重采样图像进行编码,确定目标视频流中的每帧目标图像。
2.如权利要求1所述的方法,其特征在于,在依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间之前,所述方法还包括:
依次针对每帧源图像,采样双三次插值算法将该帧源图像由原始分辨率转换为预设的第二目标分辨率,其中,第二目标分辨率高于原始分辨率。
3.如权利要求1或2所述的方法,其特征在于,在根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理之前,所述方法还包括:
将该帧源图像按预设的图像块大小进行切分,得到每个图像块;
所述根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理包括:
针对每个图像块,根据预先确定的该通道对应的二维高斯混合模型,对该图像块中每个像素点在该通道上的分量值进行回归处理。
4.如权利要求1所述的方法,其特征在于,预先确定每个通道对应的二维高斯混合模型包括:
针对Y通道,采用4个高斯分布确定Y通道对应的二维高斯混合模型;
针对U通道和V通道,采用2个高斯分布确定U通道和V通道对应的二维高斯混合模型。
5.一种音频编码的方法,其特征在于,所述方法包括:
当存在待编码转换的视频文件时,获取所述视频文件中的音频流,并解析音频流中的每个音频数据;
按照预设的时间窗口,以及音频流的原始采样率,依次确定每个时间窗口中采集的每组音频数据;
依次针对每组音频数据,采用预先确定的音频数据对应的高斯混合模型对该组音频数据中的每个音频数据的强度值进行回归处理;
根据预设的目标采样率,以及目标编码方式对应的采样数,对回归处理后的每组音频数据进行采样,确定目标音频流中的每帧目标音频数据。
6.如权利要求5所述的方法,其特征在于,预先确定音频数据对应的高斯混合模型的过程包括:
采用4个高斯分布确定音频数据对应的高斯混合模型。
7.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器,用于读取所述存储器中的程序,执行下列过程:当存在待编码转换的视频文件时,获取所述视频文件中的视频流;
依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间,针对每个通道,根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理;并根据预设的第一目标分辨率,对进行回归处理后的该帧源图像进行重采样,得到该帧源图像的重采样图像;
根据目标编码方式对应的编码参数对每帧重采样图像进行编码,确定目标视频流中的每帧目标图像。
8.如权利要求7所述的电子设备,其特征在于,所述处理器,还用于在依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间之前,依次针对每帧源图像,采样双三次插值算法将该帧源图像由原始分辨率转换为预设的第二目标分辨率,其中,第二目标分辨率高于原始分辨率。
9.如权利要求7或8所述的电子设备,其特征在于,所述处理器,还用于在根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理之前,将该帧源图像按预设的图像块大小进行切分,得到每个图像块;
所述处理器,具体用于针对每个图像块,根据预先确定的该通道对应的二维高斯混合模型,对该图像块中每个像素点在该通道上的分量值进行回归处理。
10.如权利要求7所述的电子设备,其特征在于,所述处理器,还用于针对Y通道,采用4个高斯分布确定Y通道对应的二维高斯混合模型;
针对U通道和V通道,采用2个高斯分布确定U通道和V通道对应的二维高斯混合模型。
11.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器,用于读取所述存储器中的程序,执行下列过程:当存在待编码转换的视频文件时,获取所述视频文件中的音频流,并解析音频流中的每个音频数据;
按照预设的时间窗口,以及音频流的原始采样率,依次确定每个时间窗口中采集的每组音频数据;
依次针对每组音频数据,采用预先确定的音频数据对应的高斯混合模型对该组音频数据中的每个音频数据的强度值进行回归处理;
根据预设的目标采样率,以及目标编码方式对应的采样数,对回归处理后的每组音频数据进行采样,确定目标音频流中的每帧目标音频数据。
12.如权利要求11所述的电子设备,其特征在于,所述处理器还用于采用4个高斯分布确定音频数据对应的高斯混合模型。
13.一种图像编码的装置,其特征在于,所述装置包括:
获取模块,用于当存在待编码转换的视频文件时,获取所述视频文件中的视频流;
转换模块,用于依次针对所述视频流中的每帧源图像,将该帧源图像转换到YUV颜色空间,针对每个通道,根据预先确定的该通道对应的二维高斯混合模型,对该帧源图像中每个像素点在该通道上的分量值进行回归处理;并根据预设的第一目标分辨率,对进行回归处理后的该帧源图像进行重采样,得到该帧源图像的重采样图像;
编码模块,用于根据目标编码方式对应的编码参数对每帧重采样图像进行编码,确定目标视频流中的每帧目标图像。
14.一种音频编码的装置,其特征在于,所述装置包括:
获取模块,用于当存在待编码转换的视频文件时,获取所述视频文件中的音频流,并解析音频流中的每个音频数据;
转换模块,用于按照预设的时间窗口,以及音频流的原始采样率,依次确定每个时间窗口中采集的每组音频数据;依次针对每组音频数据,采用预先确定的音频数据对应的高斯混合模型对该组音频数据中的每个音频数据的强度值进行回归处理;
编码模块,具体用于根据预设的目标采样率,以及目标编码方式对应的采样数,对回归处理后的每组音频数据进行采样,确定目标音频流中的每帧目标音频数据。
15.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1-4任一项或权利要求5-6所述方法的步骤。
16.一种计算机可读存储介质,其特征在于,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行权利要求1-4任一项或权利要求5-6任一项所述方法的步骤。
CN201811118489.7A 2018-09-25 2018-09-25 一种图像、音频编码的方法和装置 Active CN110944197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811118489.7A CN110944197B (zh) 2018-09-25 2018-09-25 一种图像、音频编码的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811118489.7A CN110944197B (zh) 2018-09-25 2018-09-25 一种图像、音频编码的方法和装置

Publications (2)

Publication Number Publication Date
CN110944197A true CN110944197A (zh) 2020-03-31
CN110944197B CN110944197B (zh) 2022-06-07

Family

ID=69905273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811118489.7A Active CN110944197B (zh) 2018-09-25 2018-09-25 一种图像、音频编码的方法和装置

Country Status (1)

Country Link
CN (1) CN110944197B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111478915A (zh) * 2020-04-14 2020-07-31 广州酷狗计算机科技有限公司 直播数据的推流方法、装置、终端及存储介质
CN117061789A (zh) * 2023-10-09 2023-11-14 苏州元脑智能科技有限公司 一种视频传输框架、方法、设备和存储介质
CN112001975B (zh) * 2020-07-10 2024-05-28 浙江大华技术股份有限公司 图像数据转换方法及相关设备、装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854268A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于多核高斯过程回归的图像超分辨重建方法
US20180007373A1 (en) * 2016-06-30 2018-01-04 Intel Corporation Speech and video dual mode gaussian mixture model scoring accelerator
CN107943837A (zh) * 2017-10-27 2018-04-20 江苏理工学院 一种前景目标关键帧化的视频摘要生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854268A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于多核高斯过程回归的图像超分辨重建方法
US20180007373A1 (en) * 2016-06-30 2018-01-04 Intel Corporation Speech and video dual mode gaussian mixture model scoring accelerator
CN107943837A (zh) * 2017-10-27 2018-04-20 江苏理工学院 一种前景目标关键帧化的视频摘要生成方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111478915A (zh) * 2020-04-14 2020-07-31 广州酷狗计算机科技有限公司 直播数据的推流方法、装置、终端及存储介质
CN111478915B (zh) * 2020-04-14 2022-10-14 广州酷狗计算机科技有限公司 直播数据的推流方法、装置、终端及存储介质
CN112001975B (zh) * 2020-07-10 2024-05-28 浙江大华技术股份有限公司 图像数据转换方法及相关设备、装置
CN117061789A (zh) * 2023-10-09 2023-11-14 苏州元脑智能科技有限公司 一种视频传输框架、方法、设备和存储介质
CN117061789B (zh) * 2023-10-09 2024-02-09 苏州元脑智能科技有限公司 一种视频传输框架、方法、设备和存储介质

Also Published As

Publication number Publication date
CN110944197B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN109194960B (zh) 一种图像帧渲染方法、装置及电子设备
CN110944197B (zh) 一种图像、音频编码的方法和装置
US20150117545A1 (en) Layered Video Encoding and Decoding
KR101002886B1 (ko) 멀티-미디어 신호들의 인코딩
US11997314B2 (en) Video stream processing method and apparatus, and electronic device and computer-readable medium
CN105208394B (zh) 一种实时数字图像压缩预测方法与系统
CN104768025A (zh) 一种视频坏帧修复方法及装置
CN111813465A (zh) 一种信息获取方法、装置、介质和设备
JP7067655B2 (ja) 画像コーディング装置、画像デコーディング装置、及び画像処理機器
CN110855645B (zh) 流媒体数据播放方法、装置
CN105554375A (zh) 一种硬盘录像机中视频预览的方法及装置
CN113066140A (zh) 图像编码方法、装置、计算机设备及存储介质
CN112015529A (zh) 数据任务调度方法、系统、电子设备及存储介质
CN113286140B (zh) 一种视频编解码测试方法、装置及存储介质
CN111639055B (zh) 差分包计算方法、装置、设备及存储介质
CN111050179B (zh) 一种视频转码方法及装置
CN109302574A (zh) 一种处理视频流的方法和装置
CN114257840A (zh) 一种用于Matroska格式视频的修复方法和系统
CN108335706B (zh) 一种多媒体文件的无缝播放方法、终端设备及存储介质
TWI552573B (zh) 具有初始化片段之視訊及音訊之寫碼
CN109274902B (zh) 视频文件处理方法和装置
CN109947978B (zh) 一种音频存储、播放方法及装置
CN111405354A (zh) 播放器频道切换的优化方法、系统、存储介质及播放器
CN107277650B (zh) 视频文件切割方法及装置
CN111225210B (zh) 视频编码方法、视频编码装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant