CN110248195A - 用于输出信息的方法和装置 - Google Patents

用于输出信息的方法和装置 Download PDF

Info

Publication number
CN110248195A
CN110248195A CN201910646125.4A CN201910646125A CN110248195A CN 110248195 A CN110248195 A CN 110248195A CN 201910646125 A CN201910646125 A CN 201910646125A CN 110248195 A CN110248195 A CN 110248195A
Authority
CN
China
Prior art keywords
video
feature
frame
histogram feature
frame difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910646125.4A
Other languages
English (en)
Other versions
CN110248195B (zh
Inventor
周志超
何栋梁
李甫
邢怀飞
王加良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910646125.4A priority Critical patent/CN110248195B/zh
Publication of CN110248195A publication Critical patent/CN110248195A/zh
Application granted granted Critical
Publication of CN110248195B publication Critical patent/CN110248195B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234309Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4 or from Quicktime to Realvideo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Abstract

本公开的实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:获取待编码的视频和视频的基础特征;将视频分成第一预定数目段视频,并从每段视频中按预定时间间隔抽取第二预定数目的视频帧,得到视频帧集合;从视频帧集合中提取RGB直方图特征、帧差直方图特征、深度学习特征;将RGB直方图特征、帧差直方图特征、深度学习特征与基础特征级联后进行固定码率系数分类,得到视频的固定码率系数并输出。该实施方式利用机器学习算法对视频内容进行智能分析,可以准确高效地预测出视频最佳编码参数,相比现有方法,流程简单,无需人工干预。

Description

用于输出信息的方法和装置
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于输出信息的方法和装置。
背景技术
目前视频已经占据互联网80%以上的网络流量,成为人们获取信息的主要媒介之一。相比于其他多媒体内容,如文字和图像,视频内容往往更加丰富、直观,但与此同时视频的存储和传输也需要更大的存储空间和更高的带宽。如何在保证视频质量的条件下,高效的对视频进行转码压缩,从而节省视频分发带宽,是一个非常值得研究的问题。
当下,主流的视频转码压缩方法,分两个步骤:首先根据视频内容特性(如视频的编码复杂度、主题类别或者分辨率)将视频进行分成不同类别,进而手工设计合适的转码参数来进行转码压缩。
现有方法流程复杂,不仅需要设计合适的方法来得到视频的内容特性,还需要人工设计转码参数,费时费力。
发明内容
本公开的实施例提出了用于输出信息的方法和装置。
第一方面,本公开的实施例提供了一种用于输出信息的方法,包括:获取待编码的视频和视频的基础特征;将视频分成第一预定数目段视频,并从每段视频中按预定时间间隔抽取第二预定数目的视频帧,得到视频帧集合;从视频帧集合中提取RGB直方图特征、帧差直方图特征、深度学习特征;将RGB直方图特征、帧差直方图特征、深度学习特征与基础特征级联后进行固定码率系数分类,得到视频的固定码率系数并输出。
在一些实施例中,RGB直方图特征通过如下步骤提取:对于视频帧集合中的视频帧,计算该视频帧的RGB颜色直方图特征和RGB余弦直方图特征;将每段视频帧集合得到的RGB颜色直方图特征取平均,得到RGB颜色直方图特征序列;将每段视频帧集合得到的RGB余弦直方图特征取平均,得到RGB余弦直方图特征序列。
在一些实施例中,帧差直方图特征通过如下步骤提取:对于视频帧集合中时间间隔为预定时间间隔的预定倍数的两帧图像,计算其帧差图;计算各帧差图的帧差颜色直方图特征和帧差余弦直方图特征;将每段视频帧集合得到帧差图颜色直方图特征取平均,得到帧差图颜色直方图特征序列;将每段视频帧集合得到帧差图余弦直方图特征取平均,得到帧差图余弦直方图特征序列。
在一些实施例中,深度学习特征通过如下步骤提取:从每段视频帧集合中随机抽取出一个视频帧组成RGB图像集;从每段视频帧集合中按预定时间间隔抽取出两个视频帧,计算出帧差图,组成帧差图集;将RGB图像集输入预先训练的第一时序分割网络,得到深度学习RGB特征;将帧差图集输入预先训练的第二时序分割网络,得到深度学习帧差特征。
在一些实施例中,将RGB直方图特征、帧差直方图特征、深度学习特征与基础特征级联后进行固定码率系数分类,包括:将RGB直方图特征、帧差直方图特征、深度学习特征输入预先训练的注意力序列模型,得到融合特征;将融合特征和基础特征级联,利用全连接层和softmax函数进行固定码率系数分类。
在一些实施例中,第一时序分割网络、第二时序分割网络和注意力序列模型的损失函数包括以下至少一项:交叉熵损失、均值损失、方差损失。
在一些实施例中,帧差直方图特征包括不同时间尺度的帧差图特征。
在一些实施例中,基础特征包括以下至少一项:帧率,帧宽,帧高,时长,码率。
第二方面,本公开的实施例提供了一种用于输出信息的装置,包括:获取单元,被配置成获取待编码的视频和视频的基础特征;切分单元,被配置成将视频分成第一预定数目段视频,并从每段视频中按预定时间间隔抽取第二预定数目的视频帧,得到视频帧集合;提取单元,被配置成从视频帧集合中提取RGB直方图特征、帧差直方图特征、深度学习特征;分类单元,被配置成将RGB直方图特征、帧差直方图特征、深度学习特征与基础特征级联后进行固定码率系数分类,得到视频的固定码率系数并输出。
在一些实施例中,提取单元进一步被配置成:对于视频帧集合中的视频帧,计算该视频帧的RGB颜色直方图特征和RGB余弦直方图特征;将每段视频帧集合得到的RGB颜色直方图特征取平均,得到RGB颜色直方图特征序列;将每段视频帧集合得到的RGB余弦直方图特征取平均,得到RGB余弦直方图特征序列。
在一些实施例中,提取单元进一步被配置成:对于视频帧集合中时间间隔为预定时间间隔的预定倍数的两帧图像,计算其帧差图;计算各帧差图的帧差颜色直方图特征和帧差余弦直方图特征;将每段视频帧集合得到帧差图颜色直方图特征取平均,得到帧差图颜色直方图特征序列;将每段视频帧集合得到帧差图余弦直方图特征取平均,得到帧差图余弦直方图特征序列。
在一些实施例中,提取单元进一步被配置成:从每段视频帧集合中随机抽取出一个视频帧组成RGB图像集;从每段视频帧集合中按预定时间间隔抽取出两个视频帧,计算出帧差图,组成帧差图集;将RGB图像集输入预先训练的第一时序分割网络,得到深度学习RGB特征;将帧差图集输入预先训练的第二时序分割网络,得到深度学习帧差特征。
在一些实施例中,分类单元进一步被配置成:将RGB直方图特征、帧差直方图特征、深度学习特征输入预先训练的注意力序列模型,得到融合特征;将融合特征和基础特征级联,利用全连接层和softmax函数进行固定码率系数分类。
在一些实施例中,第一时序分割网络、第二时序分割网络和注意力序列模型的损失函数包括以下至少一项:交叉熵损失、均值损失、方差损失。
在一些实施例中,帧差直方图特征包括不同时间尺度的帧差图特征。
在一些实施例中,基础特征包括以下至少一项:帧率,帧宽,帧高,时长,码率。
第三方面,本公开的实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
本公开的实施例提供的用于输出信息的方法和装置,利用机器学习算法对视频内容进行智能分析,可以准确高效地预测出视频最佳编码参数,相比现有方法,流程简单,无需人工干预。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的用于输出信息的方法的一个实施例的流程图;
图3是根据本公开的用于输出信息的方法的一个应用场景的示意图;
图4是根据本公开的用于输出信息的方法的又一个实施例的流程图;
图5是根据本公开的用于输出信息的装置的一个实施例的结构示意图;
图6是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本申请的用于输出信息的方法或用于输出信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用,例如网页浏览器应用、视频播放器、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持视频播放的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的视频进行处理的视频处理服务器。视频处理服务器可以对接收到的待转码视频等数据进行分析等处理,并将处理结果(例如转码后视频片段)反馈给终端设备。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的用于输出信息的方法一般由服务器105执行,相应地,用于输出信息的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本公开的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法,包括以下步骤:
步骤201,获取待编码的视频和视频的基础特征。
在本实施例中,用于输出信息的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行视频播放的终端接收视频编码请求。视频编码请求中包括了待编码的视频,可直接从待编码的视频中获得视频的基础特征。可选取视频的以下5种属性:帧率fps,帧宽w,帧高h,时长t,码率bpp(Bit PerPixel),构成了视频的基础特征B=fps;w;h;t;bpp。
步骤202,将视频分成第一预定数目段视频,并从每段视频中按预定时间间隔抽取第二预定数目的视频帧,得到视频帧集合。
在本实施例中,考虑到视频帧的冗余性,同时也为了保证视频的处理速度,我们只抽取了部分视频帧进行处理。抽帧过程如下:给定视频v,根据视频时长将其平均分为N段(segment),以固定的时间间隔τ从每段中抽取M帧图像,这样得到视频帧集合G={Iij|i=1,2,...,N.j=1,2,...,M}。从每段视频中抽取时不限定从头开始抽取,只需要抽取连续间隔τ的M帧图像即可,M可以是10。
步骤203,从视频帧集合中提取RGB直方图特征、帧差直方图特征、深度学习特征。
在本实施例中,RGB(Red,Green,Blue,红,绿,蓝)直方图特征可包括RGB颜色直方图特征和RGB余弦直方图特征两种。可采用其中任一种作为RGB直方图特征,也可将两者结合一起作为RGB直方图特征。具体计算过程如下:对视频帧Iij,计算其颜色直方图得到特征记为fij,将每段视频帧集合得到RGB颜色直方图取平均得到的结果作为其该段的RGB颜色直方图特征,这样就得到了视频帧集合G的RGB颜色直方图特征序列其中表示第i段的特征。对视频帧进行DCT(DiscreteCosine Transform,离散余弦变换)变换得到然后计算的颜色直方图特征,记作按照同样的方法可以得到RGB余弦直方图特征序列其中表示第i段的特征。
帧差直方图特征可包括帧差颜色直方图特征和帧差余弦直方图特征两种。可采用其中任一种作为帧差直方图特征,也可将两者结合一起作为帧差直方图特征。具体计算过程如下:对视频时间间隔为α·τ的两帧图像Iij和Ii{j+α},计算其帧差图(将两个图像的灰度相减求得的差值生成帧差图)。由第i段视频集合可以得到M-α帧帧差图。计算帧差图的颜色直方图特征,记作将每段视频帧集合得到帧差图颜色直方图特征取平均,得到帧差图颜色直方图特征序列同样的,可以得到帧差余弦直方图特征序列为了获得更丰富视频的特征表示,我们通过设置不同α值的方式,获得了不同时间尺度的帧差图,从而计算得到了不同尺度的帧差直方图特征序列{Hα,Kα|α=1,2}。
深度学习特征可包括深度学习RGB特征和深度学习帧差特征两种。可采用其中任一种作为深度学习特征,也可将两者结合一起作为深度学习特征。具体计算过程如下:我们以CRF(constant rate factor,恒定质量因子)为目标,以交叉熵损失、均值损失、方差损失为损失函数,以TSN(Temporal Segment Network,时序分割网络)为基础网络,分别将多帧RGB图像和多帧帧差图像作为输入,训练了两个卷积神经网络记作第一时序分割网络和第二时序分割网络。训练时,我们从每段中随机抽取1帧RGB图像构成N帧RGB图像序列,训练第一时序分割网络。从每段中随机抽取时间间隔为τ的两帧RGB图像,计算帧差图,构成N帧帧差图,训练第二时序分割网络。具体地,TSN是一个经典的用于视频分类的CNN模型结构,输入的N帧图像依次通过TSN模型得到对应的N个特征,然后将这些特征取平均得到的单个特征,然后用该特征来进行的分类或者回归。更详细的细节可以参考现有技术的实现方法。在进行特征提取时,我们从每段中抽取第1帧图像构成N帧RGB图像序列,抽取第1帧和第2帧计算帧差图构成N帧帧差图序列,将其分别通过训练好的TSN模型,取倒数第一层全连接层的输出作为该帧图像的特征,最终得到帧差深度学习特征序列和RGB深度学习特征序列其中表示从第i段抽取的RGB图像的深度学习特征,表示从第i段抽取的帧差图的深度学习特征。
越复杂的视频对应的CRF值越小,越简单的视频对应的CRF值越大,CRF各值之间具有很强的相关性,因此可以将CRF的预测同时看作是一个回归问题。我们参考了年龄估计问题中使用的一种经典的损失函数mean-variance(均值-方差损失)。我们的损失函数L由三部分组成:标准的cross-entropy classification loss(交叉熵损失,记为Lc)、mean loss(均值损失,记为Lm)、variance loss(方差损失,记为Lv),这三个loss对应的权重分别为ω1、ω2、ω3。具体的,将CRF分为C个类别,第i个类别对应的CRF值ri。对某个视频片段,假设其对应的实际类别为y,预测模型输出的分类概率分布为P,其对应的损失函数L计算如下:
Lc=-log py (1)
L=ω1·Lc2·Lm+w3·Lv (5)
通过定义这一损失函数,我们的目标是使模型预测的CRF,不仅要尽可能落在groudtruth(正确标注)的类别中,而且预测的CRF分布的期望值尽可能接近groudtruth,同时方差尽可能小。在预测过程中,预测结果为
步骤204,将RGB直方图特征、帧差直方图特征、深度学习特征与基础特征级联后进行固定码率系数分类,得到视频的固定码率系数并输出。
在本实施例中,可预先为不同的特征根据重要性设置权重,然后将各特征的加权和进行固定码率系数分类。可预先训练分类器(例如,softmax),将各特征的加权和输入分类器即可得到固定码率系数分类。可预先为RGB直方图特征、帧差直方图特征、深度学习特征和基础特征设置不同的权重后进行级联。可对关键特征赋予较高的权重,忽略特征序列中的冗余特征,例如,为了忽略帧差直方图特征、深度学习特征,可将帧差直方图特征、深度学习特征的权重设置为0,从而将RGB直方图特征和基础特征级联。其中,可从RGB颜色直方图特征和RGB余弦直方图特征任选一种作为RGB直方图特征,也可将两者结合一起作为RGB直方图特征。可从帧差颜色直方图特征和帧差余弦直方图特征中任选一种作为帧差直方图特征,也可将两者结合一起作为帧差直方图特征。
可选地,将RGB直方图特征、帧差直方图特征、深度学习特征输入预先训练的注意力序列模型,得到融合特征。将融合特征和基础特征级联,利用全连接层和softmax函数进行固定码率系数分类。
为了融合多种类型的序列特征进行CRF预测,我们选用了在视频分类领域表现出众的Attention-cluster(注意力序列)网络结构作为我们的预测模型。Attention-cluster可以接受多种类型的序列特征,而且它能对关键特征赋予较高的权重,忽略特征序列中的冗余特征。训练预测模型时,我们以CRF为目标,以公式1-5为损失函数,以Attention-cluster作为基础网络,将上述多种序列特征{F,G,H,K,E,Q}作为输入,得到对应的紧凑的向量表示其中表示序列X的紧凑向量表示。最后将这些紧凑的表示与基础特征B级联起来,利用全连接层(fully connected layer)和softmax函数进行CRF分类,得到的分类概率分布记为P={pi|i=1,2,...,C},其中pi表示该视频被分为第i类的概率,C表示CRF的类别数量。整个预测模型的结构如图3所示。图3中,左侧的TSN-model为第一时序分割网络,右侧的TSN-model为第二时序分割网络。N*1024表示的是深度学习的特征维度为1024。N*255表示RGB直方图特征、帧差直方图特征的维度为255。6*256表示6种特征,每种特征的维度为256。
训练样本的生成过程如下所示:从网上随机抓取了约10万多个各种类型视频,然后利用ffmpeg的场景切分工具,切分生成时长相等的视频片段,其中一部分视频片段用作训练,另一部分视频片段用作测试。根据经验,我们选取VMAF值为92.5作为我们转码视频的目标质量。为了标注VMAF值为V=92:5时,每个视频片段对应转码参数CRF(记作r★),我们对每个视频片段分别用CRF为[20;40]共21个值作为转码参数进行了转码,并计算转码后得到视频的VMAF值,得到的标注集合为其中vi表示转码参数为ri是对应的VMAF值。据此,r可近似为:
r=ri★ (7)
为标注数据,为了产生标注数据,对一个视频片段,我们会用CRF=20到40,21个值作为编码参数分别对这个片段进行转码,对转码得到21个视频进行质量打分,会得到21个对应的VMAF值。我们的标注数据是在指定VMAF值(92.5)下的CRF值。但是使用20-40的CRF值转码得到VMAF值是离散的,不一定有92.5这个值。我们从21个VMAF选取大于92.5且最接近92.5的那个值对应的CRF为标注数据。
特征抽取过程中各超参数设置如下:视频的分段数根据目标视频片段的时长来确定,例如,最终切成18秒长的视频片段。每段视频的帧数可根据系统处理能力来确定,例如设置为10。抽帧间隔τ可设为0.1秒。在计算直方图特征时,直方图的区间数为255,即得到的单个直方图特征维度均为255维。
在训练TSN和Attention-cluster时,初始learning-rate(学习率)可均设置为0.01。使用随机梯度下降(SGD)进行优化。TSN模型(第一时序分割网络,第二时序分割网络)采用的基础模型均为使用imagenet数据集进行预训练的CNN架构。根据实验经验,损失函数中的权重ω1、ω2、ω3分别设置为0.1,1.0,e-4
为了评价预测CRF预测准确性,可采用绝对平均误差MAE(Mean Average Error)和允许误差为σ的样本平均准确度ACCσ作为评价指标。
进一步参考图4,其示出了用于输出信息的方法的又一个实施例的流程400。该用于输出信息的方法的流程400,包括以下步骤:
步骤401,获取待编码的视频和视频的基础特征。
步骤402,将视频分成第一预定数目段视频,并从每段视频中按预定时间间隔抽取第二预定数目的视频帧,得到视频帧集合。
步骤401-402与步骤201-202基本相同,因此不再赘述。
步骤403,从视频帧集合中提取RGB直方图特征、不同时间尺度的帧差直方图特征、深度学习特征。
在本实施例中,RGB直方图特征、帧差直方图特征、深度学习特征的提取方法与步骤203基本相同,因此不再赘述。与步骤203的区别在于本实施例提取了不同时间尺度的帧差直方图特征。为了获得更丰富视频的特征表示,我们通过设置不同α值的方式,获得了不同时间尺度的帧差图,从而计算得到了不同尺度的帧差直方图特征序列{Hα,Kα|α=1,2}。α=1时,帧差图颜色直方图特征序列表示为H1,帧差余弦直方图特征序列表示为K1。α=2时,帧差图颜色直方图特征序列表示为H2,帧差余弦直方图特征序列表示为K2
步骤404,将RGB直方图特征、不同时间尺度的帧差直方图特征、深度学习特征输入预先训练的注意力序列模型,得到融合特征。
在本实施例中,训练预测模型时,我们以CRF为目标,以公式1-5为损失函数,以Attention-cluster作为基础网络,将上述多种序列特征{F,G,H1,H2,K1,K2,E,Q}作为输入,得到对应的紧凑的向量表示即为融合特征。其中表示序列X的紧凑向量表示。
步骤405,将融合特征和基础特征级联,利用全连接层和softmax函数进行固定码率系数分类。
在本实施例中,最后将融合特征与基础特征B级联起来,利用全连接层(fullyconnected layer)和softmax函数进行CRF分类,得到的分类概率分布记为P={pi|i=1,2,...,C},其中pi表示该视频被分为第i类的概率,C表示CRF的类别数量。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于输出信息的方法的流程400体现了利用不同时间尺度的帧差图,得到不同尺度的特征的步骤。由此,本实施例描述的方案可以引入更丰富的视频特征表示,从而实现更全面的视频编码预测。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种用于输出信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于输出信息的装置500包括:获取单元501、切分单元502、提取单元503和分类单元504。其中,获取单元501,被配置成获取待编码的视频和视频的基础特征;切分单元502,被配置成将视频分成第一预定数目段视频,并从每段视频中按预定时间间隔抽取第二预定数目的视频帧,得到视频帧集合;提取单元503,被配置成从视频帧集合中提取RGB直方图特征、帧差直方图特征、深度学习特征;分类单元504,被配置成将RGB直方图特征、帧差直方图特征、深度学习特征与基础特征级联后进行固定码率系数分类,得到视频的固定码率系数并输出。
在本实施例中,用于输出信息的装置500的获取单元501、切分单元502、提取单元503和分类单元504的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204。
在本实施例的一些可选的实现方式中,提取单元503进一步被配置成:对于视频帧集合中的视频帧,计算该视频帧的RGB颜色直方图特征和RGB余弦直方图特征;将每段视频帧集合得到的RGB颜色直方图特征取平均,得到RGB颜色直方图特征序列;将每段视频帧集合得到的RGB余弦直方图特征取平均,得到RGB余弦直方图特征序列。
在本实施例的一些可选的实现方式中,提取单元503进一步被配置成:对于视频帧集合中时间间隔为预定时间间隔的预定倍数的两帧图像,计算其帧差图;计算各帧差图的帧差颜色直方图特征和帧差余弦直方图特征;将每段视频帧集合得到帧差图颜色直方图特征取平均,得到帧差图颜色直方图特征序列;将每段视频帧集合得到帧差图余弦直方图特征取平均,得到帧差图余弦直方图特征序列。
在本实施例的一些可选的实现方式中,提取单元503进一步被配置成:从每段视频帧集合中随机抽取出一个视频帧组成RGB图像集;从每段视频帧集合中按预定时间间隔抽取出两个视频帧,计算出帧差图,组成帧差图集;将RGB图像集输入预先训练的第一时序分割网络,得到深度学习RGB特征;将帧差图集输入预先训练的第二时序分割网络,得到深度学习帧差特征。
在本实施例的一些可选的实现方式中,分类单元504进一步被配置成:将RGB直方图特征、帧差直方图特征、深度学习特征输入预先训练的注意力序列模型,得到融合特征;将融合特征和基础特征级联,利用全连接层和softmax函数进行固定码率系数分类。
在本实施例的一些可选的实现方式中,第一时序分割网络、第二时序分割网络和注意力序列模型的损失函数包括以下至少一项:交叉熵损失、均值损失、方差损失。
在本实施例的一些可选的实现方式中,帧差直方图特征包括不同时间尺度的帧差图特征。
在本实施例的一些可选的实现方式中,基础特征包括以下至少一项:帧率,帧宽,帧高,时长,码率。
下面参考图6,其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器)600的结构示意图。图6示出的服务器仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待编码的视频和视频的基础特征;将视频分成第一预定数目段视频,并从每段视频中按预定时间间隔抽取第二预定数目的视频帧,得到视频帧集合;从视频帧集合中提取RGB直方图特征、帧差直方图特征、深度学习特征;将RGB直方图特征、帧差直方图特征、深度学习特征与基础特征级联后进行固定码率系数分类,得到视频的固定码率系数并输出。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、切分单元、提取单元和分类单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取待编码的视频和所述视频的基础特征的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (18)

1.一种用于输出信息的方法,包括:
获取待编码的视频和所述视频的基础特征;
将所述视频分成第一预定数目段视频,并从每段视频中按预定时间间隔抽取第二预定数目的视频帧,得到视频帧集合;
从所述视频帧集合中提取RGB直方图特征、帧差直方图特征、深度学习特征;
将所述RGB直方图特征、所述帧差直方图特征、所述深度学习特征与所述基础特征级联后进行固定码率系数分类,得到所述视频的固定码率系数并输出。
2.根据权利要求1所述的方法,其中,所述RGB直方图特征通过如下步骤提取:
对于所述视频帧集合中的视频帧,计算该视频帧的RGB颜色直方图特征和RGB余弦直方图特征;
将每段视频帧集合得到的RGB颜色直方图特征取平均,得到RGB颜色直方图特征序列;
将每段视频帧集合得到的RGB余弦直方图特征取平均,得到RGB余弦直方图特征序列。
3.根据权利要求1所述的方法,其中,所述帧差直方图特征通过如下步骤提取:
对于所述视频帧集合中时间间隔为预定时间间隔的预定倍数的两帧图像,计算其帧差图;
计算各帧差图的帧差颜色直方图特征和帧差余弦直方图特征;
将每段视频帧集合得到帧差图颜色直方图特征取平均,得到帧差图颜色直方图特征序列;
将每段视频帧集合得到帧差图余弦直方图特征取平均,得到帧差图余弦直方图特征序列。
4.根据权利要求1所述的方法,其中,所述深度学习特征通过如下步骤提取:
从每段视频帧集合中随机抽取出一个视频帧组成RGB图像集;
从每段视频帧集合中按所述预定时间间隔抽取出两个视频帧,计算出帧差图,组成帧差图集;
将所述RGB图像集输入预先训练的第一时序分割网络,得到深度学习RGB特征;
将所述帧差图集输入预先训练的第二时序分割网络,得到深度学习帧差特征。
5.根据权利要求4所述的方法,其中,所述将所述RGB直方图特征、所述帧差直方图特征、所述深度学习特征与所述基础特征级联后进行固定码率系数分类,包括:
将所述RGB直方图特征、所述帧差直方图特征、所述深度学习特征输入预先训练的注意力序列模型,得到融合特征;
将所述融合特征和所述基础特征级联,利用全连接层和softmax函数进行固定码率系数分类。
6.根据权利要求5所述的方法,其中,所述第一时序分割网络、所述第二时序分割网络和所述注意力序列模型的损失函数包括以下至少一项:交叉熵损失、均值损失、方差损失。
7.根据权利要求5所述的方法,其中,所述帧差直方图特征包括不同时间尺度的帧差图特征。
8.根据权利要求1-7之一所述的方法,其中,所述基础特征包括以下至少一项:
帧率,帧宽,帧高,时长,码率。
9.一种用于输出信息的装置,包括:
获取单元,被配置成获取待编码的视频和所述视频的基础特征;
切分单元,被配置成将所述视频分成第一预定数目段视频,并从每段视频中按预定时间间隔抽取第二预定数目的视频帧,得到视频帧集合;
提取单元,被配置成从所述视频帧集合中提取RGB直方图特征、帧差直方图特征、深度学习特征;
分类单元,被配置成将所述RGB直方图特征、所述帧差直方图特征、所述深度学习特征与所述基础特征级联后进行固定码率系数分类,得到所述视频的固定码率系数并输出。
10.根据权利要求9所述的装置,其中,所述提取单元进一步被配置成:
对于所述视频帧集合中的视频帧,计算该视频帧的RGB颜色直方图特征和RGB余弦直方图特征;
将每段视频帧集合得到的RGB颜色直方图特征取平均,得到RGB颜色直方图特征序列;
将每段视频帧集合得到的RGB余弦直方图特征取平均,得到RGB余弦直方图特征序列。
11.根据权利要求9所述的装置,其中,所述提取单元进一步被配置成:
对于所述视频帧集合中时间间隔为预定时间间隔的预定倍数的两帧图像,计算其帧差图;
计算各帧差图的帧差颜色直方图特征和帧差余弦直方图特征;
将每段视频帧集合得到帧差图颜色直方图特征取平均,得到帧差图颜色直方图特征序列;
将每段视频帧集合得到帧差图余弦直方图特征取平均,得到帧差图余弦直方图特征序列。
12.根据权利要求9所述的装置,其中,所述提取单元进一步被配置成:
从每段视频帧集合中随机抽取出一个视频帧组成RGB图像集;
从每段视频帧集合中按所述预定时间间隔抽取出两个视频帧,计算出帧差图,组成帧差图集;
将所述RGB图像集输入预先训练的第一时序分割网络,得到深度学习RGB特征;
将所述帧差图集输入预先训练的第二时序分割网络,得到深度学习帧差特征。
13.根据权利要求12所述的装置,其中,所述分类单元进一步被配置成:
将所述RGB直方图特征、所述帧差直方图特征、所述深度学习特征输入预先训练的注意力序列模型,得到融合特征;
将所述融合特征和所述基础特征级联,利用全连接层和softmax函数进行固定码率系数分类。
14.根据权利要求13所述的装置,其中,所述第一时序分割网络、所述第二时序分割网络和所述注意力序列模型的损失函数包括以下至少一项:交叉熵损失、均值损失、方差损失。
15.根据权利要求13所述的装置,其中,所述帧差直方图特征包括不同时间尺度的帧差图特征。
16.根据权利要求9-15之一所述的装置,其中,所述基础特征包括以下至少一项:
帧率,帧宽,帧高,时长,码率。
17.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN201910646125.4A 2019-07-17 2019-07-17 用于输出信息的方法和装置 Active CN110248195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910646125.4A CN110248195B (zh) 2019-07-17 2019-07-17 用于输出信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910646125.4A CN110248195B (zh) 2019-07-17 2019-07-17 用于输出信息的方法和装置

Publications (2)

Publication Number Publication Date
CN110248195A true CN110248195A (zh) 2019-09-17
CN110248195B CN110248195B (zh) 2021-11-05

Family

ID=67892744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910646125.4A Active CN110248195B (zh) 2019-07-17 2019-07-17 用于输出信息的方法和装置

Country Status (1)

Country Link
CN (1) CN110248195B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111107395A (zh) * 2019-12-31 2020-05-05 广州市百果园网络科技有限公司 一种视频转码的方法、装置、服务器和存储介质
CN113766273A (zh) * 2021-01-05 2021-12-07 北京沃东天骏信息技术有限公司 一种处理视频数据的方法和装置
WO2023103200A1 (zh) * 2021-12-10 2023-06-15 深圳市中兴微电子技术有限公司 视频码率控制方法及装置、计算机可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1992898A (zh) * 2005-12-31 2007-07-04 中国科学院计算技术研究所 一种低复杂度的视频码率控制方法
CN101252693A (zh) * 2008-03-24 2008-08-27 北京邮电大学 基于图像直方图的码率控制方法
US20120275514A1 (en) * 2007-09-28 2012-11-01 Dolby Laboratories Licensing Corporation Treating video information
CN103686172A (zh) * 2013-12-20 2014-03-26 电子科技大学 低延迟视频编码可变比特率码率控制方法
CN103826121A (zh) * 2013-12-20 2014-05-28 电子科技大学 低延迟视频编码基于场景切换检测的码率控制方法
WO2015071865A1 (en) * 2013-11-14 2015-05-21 Riversilica Technologies Pvt Ltd Method and system to control bit rate in video encoding
CN106937118A (zh) * 2017-03-13 2017-07-07 西安电子科技大学 一种基于主观感兴趣区域和时空域相结合的码率控制方法
US20170337711A1 (en) * 2011-03-29 2017-11-23 Lyrical Labs Video Compression Technology, LLC Video processing and encoding
CN108174290A (zh) * 2018-01-25 2018-06-15 北京百度网讯科技有限公司 用于处理视频的方法和装置
US20180309995A1 (en) * 2015-04-21 2018-10-25 Vid Scale, Inc. High dynamic range video coding

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1992898A (zh) * 2005-12-31 2007-07-04 中国科学院计算技术研究所 一种低复杂度的视频码率控制方法
US20120275514A1 (en) * 2007-09-28 2012-11-01 Dolby Laboratories Licensing Corporation Treating video information
CN101252693A (zh) * 2008-03-24 2008-08-27 北京邮电大学 基于图像直方图的码率控制方法
US20170337711A1 (en) * 2011-03-29 2017-11-23 Lyrical Labs Video Compression Technology, LLC Video processing and encoding
WO2015071865A1 (en) * 2013-11-14 2015-05-21 Riversilica Technologies Pvt Ltd Method and system to control bit rate in video encoding
CN103686172A (zh) * 2013-12-20 2014-03-26 电子科技大学 低延迟视频编码可变比特率码率控制方法
CN103826121A (zh) * 2013-12-20 2014-05-28 电子科技大学 低延迟视频编码基于场景切换检测的码率控制方法
US20180309995A1 (en) * 2015-04-21 2018-10-25 Vid Scale, Inc. High dynamic range video coding
CN106937118A (zh) * 2017-03-13 2017-07-07 西安电子科技大学 一种基于主观感兴趣区域和时空域相结合的码率控制方法
CN108174290A (zh) * 2018-01-25 2018-06-15 北京百度网讯科技有限公司 用于处理视频的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIMIN WANG ET AL.: "Temporal Segment Networks: Towards Good", 《ARXIV》 *
LIMIN WANG ET AL: "Temporal Segment Networks for Action Recognition in Videos", 《ARXIV》 *
沈晓琳: "HEVC低复杂度编码优化算法研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111107395A (zh) * 2019-12-31 2020-05-05 广州市百果园网络科技有限公司 一种视频转码的方法、装置、服务器和存储介质
CN113766273A (zh) * 2021-01-05 2021-12-07 北京沃东天骏信息技术有限公司 一种处理视频数据的方法和装置
WO2023103200A1 (zh) * 2021-12-10 2023-06-15 深圳市中兴微电子技术有限公司 视频码率控制方法及装置、计算机可读存储介质

Also Published As

Publication number Publication date
CN110248195B (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN109104620A (zh) 一种短视频推荐方法、装置和可读介质
CN109145784A (zh) 用于处理视频的方法和装置
CN109547814A (zh) 视频推荐方法、装置、服务器及存储介质
CN107766940A (zh) 用于生成模型的方法和装置
CN107633218A (zh) 用于生成图像的方法和装置
CN110248195A (zh) 用于输出信息的方法和装置
US11727717B2 (en) Data-driven, photorealistic social face-trait encoding, prediction, and manipulation using deep neural networks
CN109740018A (zh) 用于生成视频标签模型的方法和装置
CN107831903A (zh) 多人参与的人机交互方法及装置
WO2023273769A1 (zh) 视频标签推荐模型的训练方法和确定视频标签的方法
CN109410253B (zh) 用于生成信息的方法、装置、电子设备和计算机可读介质
CN107609506A (zh) 用于生成图像的方法和装置
CN109829432A (zh) 用于生成信息的方法和装置
CN110401844A (zh) 视频直播策略的生成方法、装置、设备及可读介质
CN109815365A (zh) 用于处理视频的方法和装置
CN114580663A (zh) 面向数据非独立同分布场景的联邦学习方法及系统
CN111488815A (zh) 基于图卷积网络和长短时记忆网络的篮球比赛进球事件预测方法
CN109948699A (zh) 用于生成特征图的方法和装置
CN109902763A (zh) 用于生成特征图的方法和装置
US20230080230A1 (en) Method for generating federated learning model
CN109800730A (zh) 用于生成头像生成模型的方法和装置
CN112508118A (zh) 针对数据偏移的目标对象行为预测方法及其相关设备
CN111046757A (zh) 人脸画像生成模型的训练方法、装置及相关设备
JP2023535108A (ja) ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム
CN113962965A (zh) 图像质量评价方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant