CN117336548A - 一种视频编码的处理方法、装置、设备及存储介质 - Google Patents

一种视频编码的处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117336548A
CN117336548A CN202311337438.4A CN202311337438A CN117336548A CN 117336548 A CN117336548 A CN 117336548A CN 202311337438 A CN202311337438 A CN 202311337438A CN 117336548 A CN117336548 A CN 117336548A
Authority
CN
China
Prior art keywords
image block
target image
region
candidate
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311337438.4A
Other languages
English (en)
Inventor
张娇娇
林可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202311337438.4A priority Critical patent/CN117336548A/zh
Publication of CN117336548A publication Critical patent/CN117336548A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开提供了一种视频编码的处理方法、装置、设备及存储介质,涉及图像处理技术领域。该视频编码的处理方法包括:根据视频帧中目标图像块的领域图像块确定目标图像块是否属于候选字幕区域;在所述目标图像块属于候选字幕区域的情况下,生成目标图像块的像素直方图;根据目标图像块的像素直方图确定目标图像块所属的区域类型;其中,所述区域类型为字幕区域或非字幕区域;根据目标图像块所属的区域类型,为所述目标图像块选择目标编码模式。通过上述技术方案能够提高视频的编码质量。

Description

一种视频编码的处理方法、装置、设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及图像处理技术领域。具体涉及一种视频编码的处理方法、装置、设备及存储介质。
背景技术
线上的各种视频场景中,带有字幕的视频占比非常高,比如影视、综艺等场景,这些字幕包含了视频故事梗概及关键信息,使用户更方便的理解视频内容。因此,在视频播放过程中,字幕往往属于人眼比较感兴趣的区域,该区域编码质量的好坏,非常影响视频的视觉体验。因此,在视频编码过程中,如何提高字幕区域的编码质量十分重要。
发明内容
本公开提供了一种视频编码的处理方法、装置、设备及存储介质。
根据本公开的一方面,提供了一种视频编码的处理方法,包括:
根据视频帧中目标图像块的领域图像块确定目标图像块是否属于候选字幕区域;
在所述目标图像块属于候选字幕区域的情况下,生成目标图像块的像素直方图;
根据目标图像块的像素直方图确定目标图像块所属的区域类型;其中,所述区域类型为字幕区域或非字幕区域;
根据目标图像块所属的区域类型,为所述目标图像块选择目标编码模式。
根据本公开的一方面,提供了一种视频编码的处理装置,包括:
候选字幕模块,用于根据视频帧中目标图像块的领域图像块确定目标图像块是否属于候选字幕区域;
直方图模块,用于在所述目标图像块属于候选字幕区域的情况下,生成目标图像块的像素直方图;
区域类型模块,用于根据目标图像块的像素直方图确定目标图像块所属的区域类型;其中,所述区域类型为字幕区域或非字幕区域;
编码模式模块,用于根据目标图像块所属的区域类型,为所述目标图像块选择目标编码模式。
根据本公开的另一方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任意实施例所提供的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行本公开任意实施例所提供的方法。
根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开任意实施例所提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种视频编码的处理方法的流程图;
图2是根据本公开实施例提供的另一种视频编码的处理方法的流程图;
图3a是根据本公开实施例提供的又一种视频编码的处理方法的流程图;
图3b是根据本公开实施例提供的又一种视频编码的处理方法的流程图;
图4是根据本公开实施例提供的一种视频编码的处理装置的结构示意图;
图5是用来实现本公开实施例的视频编码的处理方法的电子设备的框图。
具体实施方式
图1是根据本公开实施例提供的一种视频编码的处理方法的流程图。该方法适用于对包括字幕的视频帧进行编码优化的情况。该方法可以由视频编码的处理装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成于电子设备中。如图1所示,本实施例的视频编码的处理方法可以包括:
S101,根据视频帧中目标图像块的领域图像块确定目标图像块是否属于候选字幕区域;
S102,在所述目标图像块属于候选字幕区域的情况下,生成目标图像块的像素直方图;
S103,根据目标图像块的像素直方图确定目标图像块所属的区域类型;其中,所述区域类型为字幕区域或非字幕区域;
S104,根据目标图像块所属的区域类型,为所述目标图像块选择目标编码模式。
针对字幕区域的相关编码技术,主要利用块的方差和时域连续性,确定视频帧中的字幕区域,将许多非字幕区域划分为字幕区域,会造成较多的字幕误检情况。本公开实施例通过采用领域图像块得到目标图像块的像素方差均值,并生成目标图像块的像素直方图,结合像素方差均值、像素直方图确定目标图像块是否属于字幕区域,能够提高字幕区域的准确性;后续根据目标图像块所属的区域类型对目标图像块进行编码,还能提升字幕区域的编码质量,兼顾视频帧的编码效率和主观质量,避免造成码率浪费。
在本公开实施例中,基于HEVC(High Efficiency Video Coding,高效视频编码)将视频帧划分为互不重叠的多个图像块,各图像块的尺寸相同。目标图像块为待进行编码的图像块。针对视频帧中的目标图像块,可获取目标图像块的领域图像块,例如可将目标图像块的上、下、左、右相邻的图像块作为领域图像块,采用领域图像块中的像素确定目标图像块是否属于候选字幕区域,在目标图像块属于候选字幕区域的情况下,进一步生成目标图像块的像素直方图,并根据目标图像块的像素直方图确定目标图像块属于字幕区域,还是非字幕区域。
也就是说,通过采用领域图像块对目标图像块是否属于字幕区域进行初筛,在初筛通过的情况下,将目标图像块作为候选字幕区域;生成目标图像块的像素直方图,并根据像素直方图进一步确定目标图像块是否属于字幕区域。通过结合领域块和目标图像块的像素直方图判断目标图像块是否属于字幕区域,相比于相关技术中仅利用图像块的方差和时域连续性确定字幕区域,能够提高字幕区域的筛选准确性,为后续根据所属的区域类型为目标图像块选择目标编码模式奠定基础。需要说明的是,在目标图像块不属于候选字幕区域的情况下,也就是说在目标图像块初筛未通过的情况下,确定目标图像块所属的区域类型为非字幕区域。
本公开实施例提供的技术方案,通过采用领域图像块得到目标图像块的像素方差均值,并生成目标图像块的像素直方图,结合像素方差均值、像素直方图确定目标图像块是否属于字幕区域,能够提高字幕区域的筛选准确性,为后续根据区域类型为目标图像块选择目标编码模式奠定基础。
图2是根据本公开实施例提供的另一种视频编码的处理方法的流程图。参见图2,本实施例的视频编码的处理方法可以包括:
S201,根据视频帧中目标图像块的领域图像块确定目标图像块是否属于候选字幕区域;
S202,在所述目标图像块属于候选字幕区域的情况下,生成目标图像块的像素直方图;
S203,根据目标图像块的像素直方图,确定目标图像块的直方图分布区间;其中,目标图像块中属于直方图分布区间的像素占比大于预设的占比阈值;
S204,确定直方图分布区间的长度;
S205,根据直方图分布区间的长度,确定目标图像块所属的区域类型;其中,所述区域类型为字幕区域或非字幕区域;
S206,根据目标图像块所属的区域类型,为所述目标图像块选择目标编码模式。
其中,像素直方图的横轴表示像素值,从左到右像素值从低到高,像素直方图的纵轴表示像素数量,从下到上表示像素从小到多,像素直方图在某个像素区间的凸起越高表示在这个像素区间内的像素越多。占比阈值可为预设的经验值,例如占比取值可为80%。具体的,对目标图像块的像素直方图进行像素数量统计,得到超过80%像素所集中的像素区间作为直方图分布区间;确定直方图分布区间的长度;根据直方图分布区间的长度,确定目标图像块是否属于字幕区域。通过利用块级的像素直方图确定目标图像块是否属于字幕区域,以充分利用字幕场景的像素集中特性,能够进一步提高字幕区域筛选的准确性。
在一种可选实施方式中,所述根据直方图分布区间的长度,确定目标图像块所属的区域类型,包括:在直方图分布区间的长度小于预设的长度阈值的情况下,确定目标图像块所属的区域类型为字幕区域;在直方图分布区间的长度等于或大于预设的长度阈值的情况下,确定目标图像块所属的区域类型为非字幕区域。
其中,预设的长度阈值可为经验值,例如长度阈值可取30。在目标图像块的直方图分布区间的长度小于预设的长度阈值的情况下,确定目标图像块属于字幕区域;在直方图分布区间的长度等于或大于长度阈值的情况下,确定目标图像块属于非字幕区域。自然场景的像素是离散的,而字幕场景的像素比较集中,例如字幕区域的像素可集中在(220,240)之间。通过基于字幕区域的像素集中性这一特点,确定目标图像块的直方图分布区间的长度,确定长度小于长度阈值的目标图像块属于字幕区域,能够提高字幕区域筛选的准确性。
本公开实施例提供的技术方案,针对视频帧中的候选字幕区域,通过生成候选字幕区域的像素直方图,根据像素直方图确定直方图分布区间的长度,并采用直方图分布区间的长度确定候选字幕区域是否属于字幕区域,能够充分利用字幕区域的像素集中性这一特点,提高字幕区域筛选的准确性,从而提高后续根据区域类型对目标图像块进行编码优化奠定基础。
在一种可选实施方式中,所述根据目标图像块的领域图像块确定目标图像块是否属于候选字幕区域,包括:分别计算各领域图像块的像素方差;对各像素方差求均值得到目标图像块的像素方差均值;在目标图像块的像素方差均值大于预设的方差阈值的情况下,将所述目标图像块作为候选字幕区域。
其中,方差阈值可为经验值。针对视频帧中的每一目标图像块,可获取该目标图像块的领域图像块,分别计算各领域图像块的像素方差;对各像素方差求均值得到目标图像块的像素方差均值;在目标图像块的像素方差均值大于方差阈值的情况下,将目标图像块作为候选字幕区域;在目标图像块的像素方差均值等于或小于方差阈值的情况下,将目标图像块作为非字幕区域。通过结合方差阈值选择像素方差均值较大的图像块作为候选字幕块,将像素方差均值较小的图像块直接作为非字幕区域,通过上述初筛能够减少候选字幕块的数量,从而减少后续采用像素直方图确定字幕区域的计算量,提高字幕区域确定的效率和准确率。
图3a是根据本公开实施例提供的又一种视频编码的处理方法的流程图。参考图3a,本实施例的视频编码的处理方法可以包括:
S301,根据视频帧中目标图像块的领域图像块确定目标图像块是否属于候选字幕区域;
S302,在所述目标图像块属于候选字幕区域的情况下,生成目标图像块的像素直方图;
S303,根据目标图像块的像素直方图确定目标图像块所属的区域类型;其中,所述区域类型为字幕区域或非字幕区域;
S304,在所述目标图像块所属的区域类型为字幕区域的情况下,采用候选编码模式对所述目标图像块进行编码,得到对应的候选编码结果;其中,所述候选编码模式至少包括N×N帧内预测模式;
S305,根据各候选编码模式对应的候选编码结果,为目标图像块选择目标编码模式。
本公开实施例提供了一种针对视频帧中字幕区域的HEVC(High EfficiencyVideo Coding,高效视频编码)的优化方法。基于HEVC可对目标图像块进行帧内预测、帧间预测去除时空冗余信息得到预测图像块。相关的帧内预测可按照目标图像块的大小进行不同方向的处理。其中,N×N帧内预测模式(N为正整数)通过对目标图像块进行细粒度的划分得到目标图像块的子块,对子块进行不同方向的处理,也就是说,N×N帧内预测模式相比于相关的帧内预测粒度更细,复杂度更高。
在目标图像块属于字幕区域的情况下,将N×N帧内预测模式添加到候选编码模式中,也就是说,字幕区域的候选编码模式可包括N×N帧内预测模式、除N×N帧内预测模式之外的其他帧内预测模式、帧间预测模式,采用各候选编码模式分别对目标图像块进行编码得到对应的候选编码结果;为目标图像块选择编码质量较好的候选编码模式作为目标编码模式。其中,编码质量可通过主观评价、客观评级得到;主观评价力求能真实的反映人的视觉感知;客观评价通过借助某种数学模型,客观地表示编码前后的图像失真情况。针对视频帧中的字幕区域,通过将N×N帧内预测模式作为候选编码模式,对字幕区域进行细粒度的编码得到对应的候选编码结果;比较N×N帧内预测模式的候选编码结果和其他候选预测模式的候选编码结果,选择编码质量较好的候选编码模式作为目标编码模式。通过引入细粒度的N×N帧内预测模式对纹理较为复杂的字幕区域进行处理,能够进一步提高目标编码模式与字幕区域之间的适配度,从而提高后续采用目标编码模式对字幕区域进行编码的质量。
在一种可选实施方式中,在所述目标图像块所属的区域类型为非字幕区域的情况下,根据目标图像块和领域图像块确定目标图像块是否满足N×N帧内预测模式的跳过条件;在目标图像块满足N×N帧内预测模式的跳过条件的情况下,从候选编码模式中剔除N×N帧内预测模式;采用候选编码模式对所述目标图像块进行编码,得到对应的候选编码结果;根据候选编码模式对应的候选编码结果,为目标图像块选择目标编码模式。
在目标图像块属于非字幕区域的情况下,根据目标图像块和领域图像块确定目标图像块是否满足N×N帧内预测模式的跳过条件,可采用目标图像块和领域图像块的像素方差确定目标图像块的复杂度,如果复杂度较低则满足N×N帧内预测模式的跳过条件;否则,不满足N×N帧内预测模式的跳过条件。在满足的情况下,无需引入N×N帧内预测模式,仅将除N×N帧内预测模式之外的其他帧内预测模式、帧间预测模式作为非字幕区域的候选编码模式。针对非字幕区域,采用快速算法判断是否跳过N×N帧内预测模式,能够提高对非字幕区域的处理效率。
在一种可选实施方式中,在目标图像块不满足N×N帧内预测模式的跳过条件的情况下,将N×N帧内预测模式保留于候选编码模式中。
针对不满足N×N帧内预测模式的跳过条件的非字幕区域,才将N×N帧内预测模式保留于候选编码模式中,也就是说才将N×N帧内预测模式作为候选编码模式,还能够在非字幕区域的编码效率和编码质量之间保持动态平衡。
本公开实施例提供的技术方案,针对字幕区域,通过引入细粒度的N×N帧内预测模式对纹理较为复杂的字幕区域进行处理,能够进一步提高目标编码模式与字幕区域之间的适配度,从而提高后续采用目标编码模式对字幕区域进行编码的质量;针对非字幕区域,只有在目标图像块不满足N×N帧内预测模式的跳过条件的情况下,才将N×N帧内预测模式保留于候选编码模式中,还能够在非字幕区域的编码效率和编码质量之间保持动态平衡。
在一种可选实施方式中,所述为所述目标图像块选择目标编码模式之后,还包括:在所述目标图像块所属的区域类型为字幕区域的情况下,采用第一偏移量降低目标图像块的量化参数;在所述目标图像块所属的区域类型为非字幕区域的情况下,采用第二偏移量提升目标图像块的量化参数,其中,第一偏移量大于第二偏移量;基于所述目标编码模式,采用经调整的量化参数对所述目标图像块进行编码。
针对字幕区域,可通过如下公式采用第一偏移量降低目标图像块的量化参数:QP1=QP-QP_Offset1
其中,QP、QP1、QP_Offset1依次为目标图像块的原量化参数,经调整的量化参数、第一偏移量。
针对非字幕区域,可通过如下公式可通过如下公式采用第二偏移量提升目标图像块的量化参数:QP2=QP-QP_Offset2
其中,QP、QP2、QP_Offset2依次为目标图像块的原量化参数,经调整的量化参数、第二偏移量;其中,第一偏移量、第二偏移量均为正值,且QP_Offset2大于QP_Offset1
其中,量化参数(Quantization Parameter,QP)用于控制码率以及编码失真,量化参数的取值越大,失真越大,码率越低。通过对字幕区域降低量化参数以提升码率,通过对非字幕区域提升量化参数以降低码率,在提升字幕区域码率的同时,还对人眼不敏感的非字幕区域进行码率降低,能够使得视频帧的整体码率尽可能不提升,从而在整体码率尽可能不提升的情况下提升视频帧的编码质量。
图3b是根据本公开实施例提供的又一种视频编码的处理方法的流程图,参考图3b,针对视频帧中的目标图像块,可根据领域图像块计算目标图像块的像素方差均值;判断目标图像块的像素方差均值是否大于预设的方差阈值,若是,则确定目标图像块属于候选字幕区域,并继续生成目标图像块的像素直方图;计算该像素直方图的直方图分布区间,判断直方图分布区间的长度是否小于预设的长度阈值;若小于,则确定目标图像块属于字幕区域,否则确定目标图像块属于非字幕区域。需要说明的是,若目标图像块的像素方差均值等于小于或预设的方差阈值,则确定目标图像块属于非字幕区域。
在目标图像块为字幕区域的情况下,降低目标图像块的量化参数,并在候选编码模式中引入N×N帧内预测模式,采用各候选编码模式对目标图像块进行编码得到对应的候选编码结果;为目标图像块选择编码质量较好的候选编码模式作为目标编码模式。在目标图像块为非字幕区域的情况下,提升目标图像块的量化参数,判断是否满足N×N帧内预测模式的跳过条件,在满足的情况下,直接跳过N×N帧内预测模式即可,在不满足的情况下才将N×N帧内预测模式作为候选编码模式,采用各候选编码模式对目标图像块进行编码得到对应的候选编码结果,并根据各候选编码结果选择目标编码模式。后续采用目标编码模式对目标图像块进行编码。
图4是根据本公开实施例提供的一种视频编码的处理装置的结构示意图。本实施例适用于对包括字幕的视频帧进行编码优化的情况。该装置可以采用软件和/或硬件的方式实现。如图4所示,本实施例的视频编码的处理装置400可以包括:
候选字幕模块410,用于根据视频帧中目标图像块的领域图像块确定目标图像块是否属于候选字幕区域;
直方图模块420,用于在所述目标图像块属于候选字幕区域的情况下,生成目标图像块的像素直方图;
区域类型模块430,用于根据目标图像块的像素直方图确定目标图像块所属的区域类型;其中,所述区域类型为字幕区域或非字幕区域;
编码模式模块440,用于根据目标图像块所属的区域类型,为所述目标图像块选择目标编码模式。
在一种可选实施方式中,所述区域类型模块430包括:
分布区间单元,用于根据目标图像块的像素直方图,确定目标图像块的直方图分布区间;其中,目标图像块中属于直方图分布区间的像素占比大于预设的占比阈值;
分布长度单元,用于确定直方图分布区间的长度;
区域类型单元,用于根据直方图分布区间的长度,确定目标图像块所属的区域类型。
在一种可选实施方式中,所述区域类型单元包括:
字幕子单元,用于在直方图分布区间的长度小于预设的长度阈值的情况下,确定目标图像块所属的区域类型为字幕区域;
非字幕子单元,用于在直方图分布区间的长度等于或大于预设的长度阈值的情况下,确定目标图像块所属的区域类型为非字幕区域。
在一种可选实施方式中,所述候选字幕模块410包括:
像素方差单元,用于分别计算各领域图像块的像素方差;
方差均值单元,用于对各像素方差求均值得到目标图像块的像素方差均值;
候选字幕单元,用于在目标图像块的像素方差均值大于预设的方差阈值的情况下,将所述目标图像块作为候选字幕区域。
在一种可选实施方式中,所述编码模式模块440,包括:
第一编码单元,用于在所述目标图像块所属的区域类型为字幕区域的情况下,采用候选编码模式对所述目标图像块进行编码,得到对应的候选编码结果;其中,所述候选编码模式至少包括N×N帧内预测模式;
第一模式单元,用于根据各候选编码模式对应的候选编码结果,为目标图像块选择目标编码模式。
在一种可选实施方式中,所述编码模式模块440,包括:
跳过条件单元,用于在所述目标图像块所属的区域类型为非字幕区域的情况下,根据目标图像块和领域图像块确定目标图像块是否满足N×N帧内预测模式的跳过条件;
剔除单元,用于在目标图像块满足N×N帧内预测模式的跳过条件的情况下,从候选编码模式中剔除N×N帧内预测模式;
第二编码单元,用于采用候选编码模式对所述目标图像块进行编码,得到对应的候选编码结果;
第二模式单元,用于根据候选编码模式对应的候选编码结果,为目标图像块选择目标编码模式。
在一种可选实施方式中,所述编码模式模块440还包括:
保留单元,用于在目标图像块不满足N×N帧内预测模式的跳过条件的情况下,将N×N帧内预测模式保留于候选编码模式中。
在一种可选实施方式中,上述视频编码的处理装置400还包括图像编码模块,所述图像编码模块包括:
第一量化参数单元,用于在所述目标图像块所属的区域类型为字幕区域的情况下,采用第一偏移量降低目标图像块的量化参数;
第二量化参数单元,用于在所述目标图像块所属的区域类型为非字幕区域的情况下,采用第二偏移量提升目标图像块的量化参数,其中,第一偏移量大于第二偏移量;
图像编码单元,用于基于所述目标编码模式,采用经调整的量化参数对所述目标图像块进行编码。
本公开实施例的技术方案,通过采用领域图像块得到目标图像块的像素方差均值,并生成目标图像块的像素直方图,结合像素方差均值、像素直方图确定目标图像块是否属于字幕区域,能够提高字幕区域的准确性;以及,通过对字幕区域进行码率提升和编码模式优化,提升字幕区域的编码质量,通过降低非字幕区域的码率,还能够兼顾视频帧的编码效率和主观质量。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图5是用来实现本公开实施例的视频编码的处理方法的电子设备的框图。
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,电子设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储电子设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
电子设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图像处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如视频编码的处理方法。例如,在一些实施例中,视频编码的处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的视频编码的处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行视频编码的处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图像用户界面或者网络浏览器的用户计算机,用户可以通过该图像用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种视频编码的处理方法,包括:
根据视频帧中目标图像块的领域图像块确定目标图像块是否属于候选字幕区域;
在所述目标图像块属于候选字幕区域的情况下,生成目标图像块的像素直方图;
根据目标图像块的像素直方图确定目标图像块所属的区域类型;其中,所述区域类型为字幕区域或非字幕区域;
根据目标图像块所属的区域类型,为所述目标图像块选择目标编码模式。
2.根据权利要求1所述的方法,其中,所述根据目标图像块的像素直方图确定目标图像块所属的区域类型,包括:
根据目标图像块的像素直方图,确定目标图像块的直方图分布区间;其中,目标图像块中属于直方图分布区间的像素占比大于预设的占比阈值;
确定直方图分布区间的长度;
根据直方图分布区间的长度,确定目标图像块所属的区域类型。
3.根据权利要求2所述的方法,其中,所述根据直方图分布区间的长度,确定目标图像块所属的区域类型,包括:
在直方图分布区间的长度小于预设的长度阈值的情况下,确定目标图像块所属的区域类型为字幕区域;
在直方图分布区间的长度等于或大于预设的长度阈值的情况下,确定目标图像块所属的区域类型为非字幕区域。
4.根据权利要求1所述的方法,其中,所述根据目标图像块的领域图像块确定目标图像块是否属于候选字幕区域,包括:
分别计算各领域图像块的像素方差;
对各像素方差求均值得到目标图像块的像素方差均值;
在目标图像块的像素方差均值大于预设的方差阈值的情况下,将所述目标图像块作为候选字幕区域。
5.根据权利要求1-4中任一项所述的方法,其中,所述根据目标图像块所属的区域类型,为所述目标图像块选择目标编码模式,包括:
在所述目标图像块所属的区域类型为字幕区域的情况下,采用候选编码模式对所述目标图像块进行编码,得到对应的候选编码结果;其中,所述候选编码模式至少包括N×N帧内预测模式;
根据各候选编码模式对应的候选编码结果,为目标图像块选择目标编码模式。
6.根据权利要求1-4中任一项所述的方法,其中,所述根据目标图像块所属的区域类型,为所述目标图像块选择目标编码模式,包括:
在所述目标图像块所属的区域类型为非字幕区域的情况下,根据目标图像块和领域图像块确定目标图像块是否满足N×N帧内预测模式的跳过条件;
在目标图像块满足N×N帧内预测模式的跳过条件的情况下,从候选编码模式中剔除N×N帧内预测模式;
采用候选编码模式对所述目标图像块进行编码,得到对应的候选编码结果;
根据候选编码模式对应的候选编码结果,为目标图像块选择目标编码模式。
7.根据权利要求6所述的方法,还包括:
在目标图像块不满足N×N帧内预测模式的跳过条件的情况下,将N×N帧内预测模式保留于候选编码模式中。
8.根据权利要求1-4中任一项所述的方法,所述为所述目标图像块选择目标编码模式之后,还包括:
在所述目标图像块所属的区域类型为字幕区域的情况下,采用第一偏移量降低目标图像块的量化参数;
在所述目标图像块所属的区域类型为非字幕区域的情况下,采用第二偏移量提升目标图像块的量化参数,其中,第一偏移量大于第二偏移量;
基于所述目标编码模式,采用经调整的量化参数对所述目标图像块进行编码。
9.一种视频编码的处理装置,包括:
候选字幕模块,用于根据视频帧中目标图像块的领域图像块确定目标图像块是否属于候选字幕区域;
直方图模块,用于在所述目标图像块属于候选字幕区域的情况下,生成目标图像块的像素直方图;
区域类型模块,用于根据目标图像块的像素直方图确定目标图像块所属的区域类型;其中,所述区域类型为字幕区域或非字幕区域;
编码模式模块,用于根据目标图像块所属的区域类型,为所述目标图像块选择目标编码模式。
10.根据权利要求9所述的装置,其中,所述区域类型模块包括:
分布区间单元,用于根据目标图像块的像素直方图,确定目标图像块的直方图分布区间;其中,目标图像块中属于直方图分布区间的像素占比大于预设的占比阈值;
分布长度单元,用于确定直方图分布区间的长度;
区域类型单元,用于根据直方图分布区间的长度,确定目标图像块所属的区域类型。
11.根据权利要求10所述的装置,其中,所述区域类型单元包括:
字幕子单元,用于在直方图分布区间的长度小于预设的长度阈值的情况下,确定目标图像块所属的区域类型为字幕区域;
非字幕子单元,用于在直方图分布区间的长度等于或大于预设的长度阈值的情况下,确定目标图像块所属的区域类型为非字幕区域。
12.根据权利要求9所述的装置,其中,所述候选字幕模块包括:
像素方差单元,用于分别计算各领域图像块的像素方差;
方差均值单元,用于对各像素方差求均值得到目标图像块的像素方差均值;
候选字幕单元,用于在目标图像块的像素方差均值大于预设的方差阈值的情况下,将所述目标图像块作为候选字幕区域。
13.根据权利要求9-12中任一项所述的装置,其中,所述编码模式模块,包括:
第一编码单元,用于在所述目标图像块所属的区域类型为字幕区域的情况下,采用候选编码模式对所述目标图像块进行编码,得到对应的候选编码结果;其中,所述候选编码模式至少包括N×N帧内预测模式;
第一模式单元,用于根据各候选编码模式对应的候选编码结果,为目标图像块选择目标编码模式。
14.根据权利要求9-12中任一项所述的装置,其中,所述编码模式模块,包括:
跳过条件单元,用于在所述目标图像块所属的区域类型为非字幕区域的情况下,根据目标图像块和领域图像块确定目标图像块是否满足N×N帧内预测模式的跳过条件;
剔除单元,用于在目标图像块满足N×N帧内预测模式的跳过条件的情况下,从候选编码模式中剔除N×N帧内预测模式;
第二编码单元,用于采用候选编码模式对所述目标图像块进行编码,得到对应的候选编码结果;
第二模式单元,用于根据候选编码模式对应的候选编码结果,为目标图像块选择目标编码模式。
15.根据权利要求14所述的装置,所述编码模式模块还包括:
保留单元,用于在目标图像块不满足N×N帧内预测模式的跳过条件的情况下,将N×N帧内预测模式保留于候选编码模式中。
16.根据权利要求9-12中任一项所述的装置,还包括图像编码模块,所述图像编码模块包括:
第一量化参数单元,用于在所述目标图像块所属的区域类型为字幕区域的情况下,采用第一偏移量降低目标图像块的量化参数;
第二量化参数单元,用于在所述目标图像块所属的区域类型为非字幕区域的情况下,采用第二偏移量提升目标图像块的量化参数,其中,第一偏移量大于第二偏移量;
图像编码单元,用于基于所述目标编码模式,采用经调整的量化参数对所述目标图像块进行编码。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
CN202311337438.4A 2023-10-16 2023-10-16 一种视频编码的处理方法、装置、设备及存储介质 Pending CN117336548A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311337438.4A CN117336548A (zh) 2023-10-16 2023-10-16 一种视频编码的处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311337438.4A CN117336548A (zh) 2023-10-16 2023-10-16 一种视频编码的处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117336548A true CN117336548A (zh) 2024-01-02

Family

ID=89282703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311337438.4A Pending CN117336548A (zh) 2023-10-16 2023-10-16 一种视频编码的处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117336548A (zh)

Similar Documents

Publication Publication Date Title
TWI519136B (zh) 一種用以移除編碼視頻數據中的編碼瑕疵之自適應過濾機構的方法、資料處理裝置及系統
US10878543B2 (en) Group management method, terminal, and storage medium
CN113596442B (zh) 视频处理方法、装置、电子设备及存储介质
CN111445424B (zh) 图像处理和移动终端视频处理方法、装置、设备和介质
CN110620924B (zh) 编码数据的处理方法、装置、计算机设备及存储介质
US11197021B2 (en) Coding resolution control method and terminal
US9020283B2 (en) Electronic device and method for splitting image
US20140133768A1 (en) Electronic device and method for splitting image
CN116567246A (zh) Avc编码方法和装置
CN109951706B (zh) 一种视频编码方法、装置及编码器
CN117336548A (zh) 一种视频编码的处理方法、装置、设备及存储介质
CN116668843A (zh) 一种拍摄状态的切换方法、装置、电子设备以及存储介质
CN112907518B (zh) 检测方法、装置、设备、存储介质及程序产品
CN105872538A (zh) 时域滤波方法和时域滤波装置
CN112866693B (zh) 编码单元cu的划分方法、装置、电子设备和存储介质
CN116260973B (zh) 一种时域滤波方法、装置、电子设备及存储介质
CN115661273B (zh) 运动矢量的预测方法、装置、电子设备及存储介质
CN117528141A (zh) 视频编码方法、装置、电子设备、存储介质及程序产品
US20240121439A1 (en) Point cloud attribute information encoding method and apparatus, point cloud attribute information decoding method and apparatus, and related device
CN113259745B (zh) 视频播放页面的处理方法、装置、电子设备和存储介质
CN113438485B (zh) 图像编码方法、装置、电子设备和存储介质
WO2023276128A1 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
CN114040204A (zh) 编码单元的处理方法、装置、设备及存储介质
CN117354526A (zh) 一种图像编码方法、设备和介质
CN116843929A (zh) 用于边缘ai设备的图片去重方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination