CN112565799B

CN112565799B - 视频数据处理方法和装置

Info

Publication number: CN112565799B
Application number: CN202011349572.2A
Authority: CN
Inventors: 邱奎; 曾凡平; 施雪梅
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2022-12-27
Anticipated expiration: 2040-11-26
Also published as: CN112565799A

Abstract

本公开关于视频数据处理方法和装置，所述视频数据处理方法包括：获取视频数据；提取所述视频数据中的目标对象的特征信息；对所述视频数据进行编码，以得到编码后的视频数据；将所述编码后的视频数据和所述特征信息发送到接收端。所述视频数据处理装置包括：视频获取单元，被配置为获取视频数据；特征提取单元，被配置为提取所述视频数据中的目标对象的特征信息；视频编码单元，被配置为对所述视频数据进行编码，以得到编码后的视频数据；视频发送单元，被配置为将所述编码后的视频数据和所述特征信息发送到接收端。

Description

视频数据处理方法和装置

技术领域

本公开涉及通信领域，尤其涉及一种视频数据处理方法和装置。

背景技术

随着网络直播技术的发展，主播与连麦者和观看者通过直播平台进行互动的方式越来越丰富，例如，在直播视频中针对目标对象(诸如，但不限于，人脸等)进行特效应用(例如，给人脸增加魔法表情等)，使得直播视频中出现经特效应用渲染后的画面。

在相关技术中，通常基于从一端推送至另一端的直播视频数据的帧图像中提取的目标对象的特征信息来实现上述特效应用。

然而，这种直播视频数据在目标对象的特征信息的准确性、完整性以及针对目标对象的跟随性低。

另外，在高延时的直播场景下，仅主播端可以使用目标对象的特征信息对其直播视频进行特效应用，而观看端仅可以观看主播端的特效应用的效果，却不可以对目标对象的特征信息进行自我定义与控制。此外，在低延时的直播(诸如，视频通话或视频会议等多人直播连麦)场景下，尽管允许观看端使用目标对象的特征信息对直播视频进行特效应用，但是在网络状况较差的情况下，由于部分视频数据会在推送过程中丢失(诸如，跳帧现象)，导致观看端的画面出现马赛克或花屏现象，因此基于这种直播视频的帧图像来提取目标对象的特征信息会进一步降低目标对象的特征信息的准确性、完整性以及针对目标对象的跟随性。

很显然，相关技术中的关于提取特征信息来实现特效应用的方式亟待改进。

发明内容

本公开提供一种视频数据处理方法和装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

根据本公开实施例的第一方面，提供一种视频数据处理方法，包括：获取视频数据；提取所述视频数据中的目标对象的特征信息；对所述视频数据进行编码，以得到编码后的视频数据；将所述编码后的视频数据和所述特征信息发送到接收端。

可选地，所述将所述编码后的视频数据和所述特征信息发送到接收端，包括：将所述特征信息整合到所述编码后的视频数据中；将整合后的所述编码后的视频数据发送到接收端。

可选地，所述将所述特征信息整合到所述编码后的视频数据中，包括：将所述特征信息封装在所述编码后的视频数据的补充增强信息的负载数据中。

可选地，所述将所述特征信息整合到所述编码后的视频数据中，还包括：在所述编码后的视频数据的补充增强信息中包括用于指示存在所述特征信息的字段，其中，所述字段用于通知接收端从所述补充增强信息的负载数据中解析出所述特征信息。

可选地，所述提取步骤响应于从接收端接收到的针对特征信息的请求而被执行。

可选地，所述视频数据处理方法还包括：对所述特征信息进行编码，以得到编码后的特征信息，其中，所述将所述编码后的视频数据和所述特征信息发送到接收端，包括：将所述编码后的视频数据和所述编码后的特征信息发送到接收端，其中，对所述特征信息进行编码所使用的编码方法具有比对所述视频数据进行编码所使用的编码方法更小的损失。

可选地，所述特征信息被用于在接收端对所述视频数据进行特效处理。

根据本公开实施例的第二方面，提供一种视频数据处理方法，包括：从发送端接收编码后的视频数据和所述视频数据中的目标对象的特征信息；对所述编码后的视频数据进行解码，以获得解码后的视频数据；基于所述特征信息，对所述解码后的视频数据进行特效处理。

可选地，所述特征信息被整合到所述编码后的视频数据中，其中，所述接收所述特征信息，包括：从所述编码后的视频数据中获取所述特征信息。

可选地，所述特征信息被封装在所述编码后的视频数据的补充增强信息的负载数据中，其中，所述从所述编码后的视频数据中获取所述特征信息，包括：从所述编码后的视频数据的补充增强信息的负载数据中解析出所述特征信息。

可选地，所述解析步骤基于所述编码后的视频数据的补充增强信息中包括的用于指示存在所述特征信息的字段而被执行。

可选地，所述特征信息是在向发送端发送针对所述特征信息的请求后从所述发送端获取的。

可选地，所述特征信息是编码后的特征信息，其中，对所述特征信息进行编码所使用的编码方法具有比对所述视频数据进行编码所使用的编码方法更小的损失，其中，所述视频数据处理方法还包括：对所述编码后的特征信息进行解码，其中，所述基于所述特征信息，对所述解码后的视频数据进行特效处理包括：基于所述解码后的特征信息，对所述解码后的视频数据进行特效处理。

可选地，所述基于所述特征信息，对所述解码后的视频数据进行特效处理，包括：将基于所述特征信息所应用的特效合成至所述解码后的视频数据中的所述目标对象并对合成后的视频数据进行渲染和显示。

根据本公开实施例的第三方面，提供一视频数据处理装置，包括：视频获取单元，被配置为获取视频数据；特征提取单元，被配置为提取所述视频数据中的目标对象的特征信息；视频编码单元，被配置为对所述视频数据进行编码，以得到编码后的视频数据；视频发送单元，被配置为将所述编码后的视频数据和所述特征信息发送到接收端。

可选地，所述视频发送单元被进一步配置为将所述特征信息整合到所述编码后的视频数据中，并且将整合后的所述编码后的视频数据发送到接收端。

可选地，所述视频发送单元被进一步配置为将所述特征信息封装在所述编码后的视频数据的补充增强信息的负载数据中。

可选地，所述视频发送单元被进一步配置为在所述编码后的视频数据的补充增强信息中包括用于指示存在所述特征信息的字段，其中，所述字段用于通知接收端从所述补充增强信息的负载数据中解析出所述特征信息。

可选地，所述特征提取单元被进一步配置为响应于从接收端接收到的针对特征信息的请求而执行提取操作。

可选地，所述视频数据处理装置还包括：特征编码单元，被配置为对所述特征信息进行编码，以得到编码后的特征信息，其中，所述视频发送单元被进一步配置为将所述编码后的视频数据和所述编码后的特征信息发送到接收端，其中，对所述特征信息进行编码所使用的编码方法具有比对所述视频数据进行编码所使用的编码方法更小的损失。

根据本公开实施例的第四方面，提供一种视频数据处理装置，包括：视频接收单元，被配置为从发送端接收编码后的视频数据和所述视频数据中的目标对象的特征信息；视频解码单元，被配置为对所述编码后的视频数据进行解码，以获得解码后的视频数据；渲染显示单元，被配置为基于所述特征信息，对所述解码后的视频数据进行特效处理。

可选地，所述特征信息被整合到所述编码后的视频数据中，其中，所述视频接收单元被进一步配置为从所述编码后的视频数据中获取所述特征信息。

可选地，所述特征信息被封装在所述编码后的视频数据的补充增强信息的负载数据中，其中，所述视频接收单元被进一步配置为从所述编码后的视频数据的补充增强信息的负载数据中解析出所述特征信息。

可选地，所述视频接收单元被进一步配置为基于所述编码后的视频数据的补充增强信息中包括的用于指示存在所述特征信息的字段而执行解析操作。

可选地，所述特征信息是编码后的特征信息，其中，对所述特征信息进行编码所使用的编码方法具有比对所述视频数据进行编码所使用的编码方法更小的损失，其中，所述视频数据处理装置还包括：特征解码单元，被配置为对所述编码后的特征信息进行解码，其中，所述渲染显示单元被进一步配置为基于所述解码后的特征信息，对所述解码后的视频数据进行特效处理。

可选地，所述渲染显示单元被进一步配置为将基于所述特征信息所应用的特效合成至所述解码后的视频数据中的所述目标对象并对合成后的视频数据进行渲染和显示。

根据本公开实施例的第五方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的视频数据处理方法。

根据本公开实施例的第六方面，提供一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的视频数据处理方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的视频数据处理方法。

根据本公开实施例的第八方面，提供一种视频数据处理系统，包括：发送端，被配置为：获取视频数据；提取所述视频数据中的目标对象的特征信息；对所述视频数据进行编码，以得到编码后的视频数据；将所述编码后的视频数据和所述特征信息发送到接收端，以及接收端，被配置为：从发送端接收编码后的视频数据和所述视频数据中的目标对象的特征信息；对所述编码后的视频数据进行解码，以获得解码后的视频数据；基于所述特征信息，对所述解码后的视频数据进行特效处理。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的视频数据处理方法和装置采用从源端采集的原始直播视频数据中提取目标对象的特征信息的方式不仅能够从根源上解决如上所述的关于目标对象的特征信息的准确性、完整性以及针对目标对象的跟随性的问题，而且还能够使得提取的目标对象的特征信息在这些特性上达到最优。此外，根据本公开的视频数据处理方法和装置采用将提取的目标对象的特征信息整合到直播视频流中一起推送的方式还有效地确保了目标对象的特征信息与直播视频中的帧图像之间的同步性。此外，通过采用上述方式，即使在低延时场景下因网络抖动而导致直播视频画面出现马赛克或花屏现象的情况下，根据本公开的视频数据处理方法和装置也能够高度地还原和展现针对特征信息的特效应用(例如，给人脸增加魔法表情，即使人脸完全花了，也不会影响魔法表情的效果)。另外，通过采用上述方式，根据本公开的视频数据处理方法和装置还能够使得在高延时场景下的每个观看端都能够根据自己的需求对目标对象的特征信息进行自我定义与控制。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出了根据本公开的示例性实施例的用于直播连麦系统的实施场景示意图。

图2示出了根据本公开的示例性实施例的用于直播连麦系统的连麦流程的时序示意图。

图3示出了根据本公开的示例性实施例的视频数据处理方法的流程图。

图4示出了根据本公开的示例性实施例的编码后的视频数据的补充增强信息的封装协议的示意图。

图5示出了根据本公开的示例性实施例的编码后的视频数据的补充增强信息的负载数据的封装协议的示意图。

图6示出了根据本公开的示例性实施例的视频数据处理系统的整体架构图。

图7示出了根据本公开的示例性实施例的视频数据处理装置的框图。

图8示出了根据本公开的示例性实施例的另一视频数据处理装置的框图。

图9示出了根据本公开的示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

针对前面背景技术中所提及的问题(诸如，目标对象的特征信息的准确性、完整性以及针对目标对象的跟随性低；在高延时场景下观看端不能对目标对象的特征信息进行自我定义与控制；以及在低延时场景下因网络抖动而导致从直播视频数据中提取的目标对象的特征信息的准确性、完整性以及针对目标对象的跟随性进一步降低等)，本公开提出了一种视频数据处理方法及装置，该数据处理方法及装置通过采用从源端采集的原始直播视频数据中提取目标对象的特征信息以及将提取的特征信息整合到编码后的视频数据中一起推送的方式不仅能够从根源上解决如上所述的关于目标对象的特征信息的准确性、完整性以及针对目标对象的跟随性的问题，而且还能够使得提取的目标对象的特征信息在这些特性上达到最优，并且还有效地确保了目标对象的特征信息与直播视频中的帧图像之间的同步性。由于该数据处理方法及装置中的特征信息的提取处理不参与视频编码过程，而是与编码后的视频数据封装在一起传送至接收端进行应用，从而解决了因编码和解码而造成的特征信息损失的问题。此外，该数据处理方法及装置还能够使得在高延时场景(比如，直播场景)下的每个观看端都能够根据自己的需求对目标对象的特征信息进行自我定义与控制(例如，对特征信息做转换或者叠加)，而不是只有主播可以对其效果进行控制，并且即使在低延时场景下因网络抖动而导致直播视频画面出现马赛克或花屏现象的情况下，也能够高度地还原和展现针对特征信息的特效应用，而不依赖于发送端对特征信息的应用。下面，将参照图1至图9详细描述根据本公开的示例性实施例的视频数据处理方法和装置。

图1是示出根据本公开的示例性实施例的用于直播连麦系统100的实施场景示意图。

参照图1，该直播连麦系统100至少包括主播端101、连麦端102、观众端103和直播服务器104。在主播端101和连麦端102建立连麦会话之后，主播端101和连麦端102均可向直播服务器104推流，具体地，主播端101可向直播服务器104推送主播端101的直播视频流，连麦端102可向直播服务器104推送连麦端102的直播视频流。与此同时，主播端101和连麦端102均可从直播服务器104获取到对端的直播视频流，具体地，主播端101可从直播服务器104拉取连麦端102的直播视频流，连麦端102可从直播服务器104拉取主播端101的直播视频流。在此之后，主播端101可在本端设备上对主播端101的直播视频流和连麦端102的直播视频流进行混流处理(即，将二者的视频数据进行画面合成或混叠，以替代主播端101的直播视频流)以供本端设备显示和播放，此外，主播端101还可将混流后的主播端101的直播视频流推送到直播服务器102以供观众端103拉取。类似地，连麦端102可在本端设备上对连麦端102的直播视频流和主播端101的直播视频流进行混流处理(即，将二者的视频数据进行画面合成或混叠，以替代连麦端102的直播视频流)以供本端设备显示和播放。观众端103可从直播服务器104拉取混流后的主播端101的直播视频流和连麦端102的直播视频流以供本端设备显示和播放。

根据本公开的示例性实施例，主播端101可作为发送端并且可被配置为：在按照预定的视频编码格式(诸如，但不限于，H.264、H.265等)对主播端101的直播视频数据中的图像进行编码之前，提取目标对象的特征信息；然后将编码后的视频数据以及先前所提取的目标对象的特征信息一起推送至直播服务器104。可通过标准流媒体传输协议或者其他的网路传输协议将数据从一端传递到其他端。编码后的视频数据和特征信息可以叠加后一起发送，也可以分别发送。

相应地，根据本公开的示例性实施例，连麦端102可作为接收端并且可被配置为：从直播服务器104拉取主播端101推送的主播端101的直播视频数据以及先前在主播端101所提取的目标对象的特征信息；然后在按照预定的视频解码格式(其与预定的视频编码格式对应)对拉取的主播端101的直播视频数据进行解码之后，使用拉取的目标对象的特征信息对通过解码而得到的主播端101的直播视频数据中的图像进行特效渲染和显示。

类似地，根据本公开的示例性实施例，连麦端102可作为发送端并且可被配置为：在按照预定的视频编码格式(诸如，但不限于H.264、H.265等)对连麦端102的直播视频数据中的图像进行编码之前，提取目标对象的特征信息；然后将编码的视频数据以及先前所提取的目标对象的特征信息一起推送至直播服务器104。

相应地，根据本公开的示例性实施例，主播端101可作为接收端并且可被配置为：从直播服务器104拉取连麦端102推送的连麦端102的直播视频流以及先前在连麦端102所提取的目标对象的特征信息；然后在按照预定的视频解码格式(其与预定的视频编码格式对应)对拉取到的连麦端102的直播视频流进行解码之后，使用拉取的目标对象的特征信息对通过解码而得到的连麦端102的直播视频数据中的图像进行特效渲染和显示。

此外，根据本公开的示例性实施例，观众端103可作为接收端并且可被配置为：从直播服务器104拉取主播端101推送的主播端101的直播视频流和先前在主播端101所提取的目标对象的特征信息以及连麦端102推送的连麦端102的直播视频流和先前在连麦端102所提取的目标对象的特征信息；然后在按照预定的视频解码格式(其与预定的视频编码格式对应)对拉取的主播端101的直播视频流和连麦端102的直播视频流进行解码之后，使用拉取到的先前在主播端101所提取的目标对象的特征信息和先前在连麦端102所提取的目标对象的特征信息分别对通过解码而得到的主播端101的直播视频数据中的图像和连麦端102的直播视频数据中的图像进行特效渲染和显示。

图2示出了根据本公开的示例性实施例的用于直播连麦系统的连麦流程200的时序示意图。

参照图2，整个直播连麦流程的整体闭环可拆分为以下四个子环：

加入房间流程：主动发起端，请求客户端后台服务创建并加入连麦房间；客户端后台向多媒体云注册并加入房间；多媒体云会通过与之建立起连接的音视频处理单元同步房间信息，并告知客户端当前的房间信息；将当前连麦房间信息回传到客户端后台服务，最终主动发起端接受到当次请求连麦的响应信息。

推流流程：音视频处理单元与多媒体云建立连接之后；客户端告知音视频处理单元推流请求；开启音视频采集模块以获取摄像头与麦克风采集的音视频数据，从视频数据中提取目标对象的特征信息并且将采集的视频数据送入编码模块进行压缩；发送模块将压缩后的视频数据以及提取的特征信息上传给多媒体云。

拉流流程：有新用户加入后，多媒体云同步给音视频处理单元用户信息；客户端告知音视频处理单元与对应用户连麦；音视频处理单元向多媒体云请求对应用户连麦数据；数据解析模块解析出压缩后的视频数据以及提取的特征信息，并且将缩后的视频数据交给解码模块进行数据还原；渲染模块可使用提取的特征信息对还原的视频数据进行特效渲染以展示给用户。

退出房间流程：客户端请求后台服务断开当前连麦房间；客户端后台请求多媒体云断开与音视频处理单元之间的链接；并将响应结果沿路返回。

上述采用从源端(即，发送端)采集的原始直播视频数据中提取目标对象的特征信息的方式不仅可从根源上解决关于目标对象的特征信息的准确性、完整性以及针对目标对象的跟随性的问题，而且还可使得提取的目标对象的特征信息在这些特性上达到最优。

以下将详细描述上述视频数据处理过程。

图3示出了根据本公开的示例性实施例的视频数据处理方法300的流程图。

参照图3，该方法300的交互主体可包括发送端310(诸如，图1所示的主播端101和连麦端102)、直播服务器104和接收端320(诸如，图1所示的主播端101、连麦端102和观众端102)，其中，发送端310和接收端320可以是诸如手机、电脑、智能电视等各类能够联网并传输信息的电子设备。直播服务器104可以是单个服务器，也可以是由多个服务器(诸如，业务服务器、多媒体云服务器、转发服务器以及存储服务器等)组成的服务器集群，并且直播服务器104可用作直播连麦过程中的直播视频流的中转站以及各个端(诸如，图1所示的主播端101、连麦端102和观众端103)之间的实时交互信息的传送。

在该方法300中，步骤301至步骤304可由发送端310执行，并且这些步骤的具体执行过程如下：

在步骤301，发送端310可获取视频数据。

发送端310可从连接的摄像头获得当前采集的原始直播视频数据，并且在对该直播视频数据进行编码、封装和传输之前执行步骤302。

在步骤302，发送端310可提取视频数据中的目标对象的特征信息。作为示例，该特征信息可以是目标对象的特征点，但不限于此。

当发送端310获取到原始直播视频数据时，发送端310可首先从该原始直播视频数据中的图像识别出目标对象(诸如，但不限于，人脸等)并且提取出该目标对象的特征信息(诸如，但不限于，特征点在帧图像中的位置信息等)，以对目标对象进行特效应用。

根据本公开的示例性实施例，发送端310可响应于从接收端320接收到的针对特征信息的请求而被执行步骤302。

在步骤303，发送端310可对视频数据进行编码，以得到编码后的视频数据。

在步骤304，发送端310可将在步骤303得到的编码后的视频数据和在步骤302提取的特征信息发送到接收端320。

编码后的视频数据和特征信息可被推送至直播服务器104，以供各个接收端320访问和读取。

这里，考虑到在直播过程中将在步骤302提取的目标对象的特征信息作为普通消息(例如，即时通讯消息(IM))发送至接收端320，可能会出现目标对象的特征信息与直播视频中的帧图像不同步的问题(因为消息分发通道和直播通道是两个独立、分开的通信通道)，这将无法确保这两种类型的数据同时到达目的地设备。

为此，根据本公开的示例性实施例，发送端310可将在步骤302提取的特征信息整合到在步骤303得到的编码后的视频数据中，然后将整合后的编码后的视频数据推送至直播服务器104。这样可将提取的特征信息与编码后的视频数据打包在一起经由直播服务器104推送至接收端320，从而确保目标对象的特征信息与直播视频中的帧图像之间的同步性。

关于特征信息的整合，在一个可行的实施方式中，发送端310可将在步骤302提取的特征信息封装到在步骤303得到的编码后的视频数据的补充增强信息(SupplementalEnhancement Information，简称SEI)的负载数据中。在相关技术中，这种补充增强信息通常用于记录用于帮助解码的容错和/或纠错等额外信息并且集成在视频码流中。在此，可利用补充增强信息的这一特性将在步骤302提取的特征信息整合到在步骤303得到的编码后的视频数据中。进一步地，发送端310还可在编码后的视频数据的补充增强信息中包括用于指示存在目标对象的特征信息的字段，该字段用于通知接收端320从接收到的编码后的视频数据的补充增强信息的负载数据中解析出目标对象的特征信息。

图4示出了根据本公开的示例性实施例的编码后的视频数据的补充增强信息的封装协议400的示意图。

参照图4，编码后的视频数据的补充增强信息sei message可包括Type字段、Size字段、sei_payload字段，其中，Type字段可用于指示编码后的视频数据的补充增强信息seimessage中的负载数据类型；Size字段可用于指示编码后的视频数据的补充增强信息seimessage中的负载数据大小；sei_payload字段可用于传输编码后的视频数据的补充增强信息sei message中的负载数据，并且sei_payload字段可包括若干Uuid字段和Data字段，其中，Uuid字段可用于指示编码后的视频数据的补充增强信息sei message中的负载数据唯一标识符；Data字段可用于传输与编码后的视频数据的补充增强信息sei message中的负载数据唯一标识符对应的负载数据。

在一个示例中，可将编码后的视频数据的补充增强信息sei message中的sei_payload字段中的“Type＝5”的字段定义为用于传输特征信息的负载数据字段，但不限于此，例如，根据需要，还可将“Type＝6”的字段定义为所需的用于传输特征信息的负载数据字段。

这里，考虑到“Type＝5”的字段可能会被定义为用于传输其他额外信息(如前面所述的用于帮助解码的容错和/或纠错等额外信息)，因此为了将用于传输特征信息的负载数据字段与用于传输其他额外信息的负载数据字段区分开，在另一示例中，还可对图4所示的Data字段进行进一步的定义，即，将Data字段中的部分字段定义为用于传输特征信息的负载数据字段，以避免因使用相同的负载数据字段而导致数据传输冲突。

以下将参照图5进一步描述上述负载数据字段的区分。

图5示出了根据本公开的示例性实施例的编码后的视频数据的补充增强信息的负载数据的封装协议500的示意图。

参照图5，图5所示的编码后的视频数据的补充增强信息的负载数据sei_payload可对应于图4所示的Data字段的部分字段，并且图5所示的负载数据sei_payload也可包括Type字段、Size字段和Data字段，其中，Type字段可用于指示用户自定义的负载数据类型；Size字段可用于指示用户自定义的负载数据大小；Data字段可用于传输用户自定义的负载数据。

图5所示的Type字段可记录特征信息的数据类型；图5所示的Size字段可记录特征信息的数据大小；图5所示的Data字段可用于传输特征信息。例如，可使用5个可见字符来标识特征信息的数据类型，以将用于传输特征信息的负载数据字段与用于传输其他额外信息的负载字段区分开，但不限于此。

作为示例，发送端310可向采集到的原始直播视频数据中的图像分配唯一帧序号标识，并且对图像进行目标对象的特征信息的提取和编码处理，然后基于该唯一帧序号标识按照图4或图5所示的封装协议将编码后的图像及其目标对象的特征信息的封装在一起，然后经由直播服务器104推送至接收端320。

需要指出的是，尽管图4至图5示出了通过编码后的视频数据的补充增强信息将提取的特征信息整合到编码后的视频数据中的实施方式，但是本公开并不限于该实施方式。

根据本公开的示例性实施例，在另一可行的实施方式中，发送端310还可以以比对视频数据进行编码所使用的编码方法的数据损失更小的编码方法来对目标对象的特征信息进行编码，然后将编码后的视频数据和编码后的特征信息打包在一起经由直播服务器104推送至接收端320。

再次返回到图3，在该方法300中，步骤305至步骤307可由接收端320执行，并且这些步骤的具体执行过程如下：

在步骤305，接收端320可从直播服务器104获取编码后的视频数据和该视频数据中的目标对象的特征信息。作为示例，该特征信息可以是视频数据中的目标对象的特征点。

根据本公开的示例性实施例，接收端320可在向发送端310发送针对特征信息的请求后从发送端310获取特征信息。

根据本公开的示例性实施例，在特征信息被整合到编码后的视频数据中的情况下，接收端320可从编码后的视频数据中获取特征信息。在一个可行的实施方式中，当特征信息被封装在编码后的视频数据的补充增强信息的负载数据中时，接收端320可从编码后的视频数据的补充增强信息的负载数据中解析出特征信息。

根据本公开的示例性实施例，接收端320还可基于编码后的视频数据的补充增强信息中包括的用于指示存在目标对象的特征信息的字段而执行上述解析。

作为示例，接收端320可向直播视频流中的数据分配唯一帧序号标识，并且按照图4或图5所示的封装协议从数据中解析出编码后的图像及其目标对象的特征信息，然后基于该唯一帧序号标识使用图像的目标对象的特征信息对解码后的图像进行特效应用。

在步骤306，接收端320可对编码后的视频数据进行解码，以获得解码后的视频数据中的图像。

在步骤307，接收端320可基于特征信息，对解码后的视频数据进行特效处理。

根据本公开的示例性实施例，在特征信息以比对视频数据进行编码所使用的编码方法的数据损失更小的编码方法被编码的情况下，在另一可行的实施方式中，接收端320可对编码后的特征信息进行解码，然后基于解码后的特征信息对解码后的视频数据进行特效处理。

根据本公开的示例性实施例，接收端320可将基于特征信息所应用的特效合成至解码后的视频数据中的目标对象并对合成后的视频数据进行渲染和显示。

图6示出了根据本公开的示例性实施例的视频数据处理系统600的整体架构图。该视频数据处理系统600可包括音频数据接收端(即，发送端310)、多媒体云(即，直播服务器104)、音频数据发送端(即，接收端320)以及信令控制系统。音频数据发送端和音频数据接收端通过信令控制系统进行通信。在音频数据发送端，对采集的视频数据进行特征信息的提取以获得特征信息，并通过编码单元对采集的视频数据进行编码以获得编码视频数据，通过数据整合单元将编码视频数据和特征信息整合，通过发送单元发送整合后的数据。在音频数据接收端，接收模块通过网络(例如，多媒体云)从音频数据发送端接收数据，通过数据解析模块对接收到的数据进行解析以获得编码视频数据和特征信息，通过解码模块对编码数据进行解析获得解码视频数据，并通过渲染模块基于特征信息对解码视频数据进行渲染并显示。

图7示出了根据本公开的示例性实施例的视频数据处理装置700的框图。该数据处理装置700可应用于发送端310(诸如，图1所示的主播端101、连麦端102)中。

参照图7，数据处理装置700可包括视频获取单元701、特征提取单元702、视频编码单元703和视频发送单元704，其中，视频获取单元701可被配置为获取视频数据；特征提取单元702可被配置为提取视频数据中的目标对象的特征信息；视频编码单元703可被配置为对视频数据进行编码，以得到编码后的视频数据；视频发送单元704可被配置为将编码后的视频数据和特征信息发送到接收端320。

根据本公开的示例性实施例，视频发送单元704可被进一步配置为将特征信息整合到编码后的视频数据中，并且将整合后的编码后的视频数据发送到接收端320。在一个可行的实施方式中，视频发送单元704还可被进一步配置为将特征信息封装在编码后的视频数据的补充增强信息的负载数据中。进一步地，视频发送单元704可被进一步配置为在编码后的视频数据的补充增强信息中包括用于指示存在特征信息的字段，该字段用于通知接收端320从补充增强信息的负载数据中解析出特征信息。

关于特征信息的整合，前文中已对此进行了详细描述，在此不再重复。

根据本公开的示例性实施例，特征提取单元702可被进一步配置为响应于从接收端320接收到的针对特征信息的请求而执行上述提取操作。

根据本公开的示例性实施例，数据处理装置700还可包括特征编码单元(未示出)，特征编码单元可被配置为以比对视频数据进行编码所使用的编码方法的数据损失更小的编码方法对特征信息进行编码，以得到编码后的特征信息。相应地，视频发送单元704可被进一步配置为将编码后的视频数据和编码后的特征信息发送到接收端320。

根据本公开的示例性实施例，上述特征信息可被用于在接收端320对视频数据进行特效处理。

根据本公开的视频数据处理装置，可以在移动设备相机硬件和外接摄像头采集输出的原始视频数据，根据控制信令按需送入特征提取模块。由于最原始的视频数据具有完整的特征信息，使得提取到的特征信息最准确、最完整，从而解决了由于在接收端从解码后的视频数据的图像中提取特征信息而导致提取的特征信息不精准、完整性差的问题。

图8示出了根据本公开的示例性实施例的另一视频数据处理装置800的框图。该数据处理装置800可应用于接收端320(诸如，图1所示的主播端101、连麦端102和观众端103)中。

参照图8，数据处理装置800可包括视频接收单元801、视频解码单元802和渲染显示单元803，其中，视频接收单元801可被配置为从发送端310接收编码后的视频数据和该视频数据中的目标对象的特征信息；视频解码单元802可被配置为对编码后的视频数据进行解码，以获得解码后的视频数据；渲染显示单元803可被配置为基于特征信息对解码后的视频数据进行特效处理。

根据本公开的示例性实施例，在特征信息被整合到编码后的视频数据中的情况下，视频接收单元801可被进一步配置为从编码后的视频数据中获取特征信息。在一个可行的实施方式中，在特征信息被封装在编码后的视频数据的补充增强信息的负载数据中的情况下，视频接收单元801可被进一步配置为从编码后的视频数据的补充增强信息的负载数据中解析出特征信息。进一步地，视频接收单元801可被进一步配置为基于编码后的视频数据的补充增强信息中包括的用于指示存在特征信息的字段而执行上述解析操作。

根据本公开的示例性实施例，数据处理装置800可在向发送端310发送针对特征信息的请求后从发送端310获取特征信息。

根据本公开的示例性实施例，在特征信息以比对视频数据进行编码所使用的编码方法的数据损失更小的编码方法被编码的情况下，在另一可行的实施方式中，视频数据处理装置800还可包括特征解码单元(未示出)，特征解码单元可被配置为对编码后的特征信息进行解码。相应地，渲染显示单元803可被进一步配置为基于解码后的特征信息对解码后的视频数据进行特效处理。

根据本公开的示例性实施例，渲染显示单元803可被进一步配置为将基于特征信息所应用的特效合成至解码后的视频数据中的目标对象并对合成后的视频数据进行渲染和显示。

图9示出了根据本公开的示例性实施例的电子设备900的框图。

参照图9，电子设备900可包括至少一个存储器901和至少一个处理器902，所述至少一个存储器901中可存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器902执行时，可执行根据本公开的示例性实施例的视频数据处理方法的部分或全部。

作为示例，电子设备900可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备900并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备900还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备900中，处理器902可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器902可运行存储在存储器901中的指令或代码，其中，存储器901还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器901可与处理器902集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器901可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器901和处理器902可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器902能够读取存储在存储器中的文件。

此外，电子设备900还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备900的所有组件可经由总线和/或网络而彼此连接。

根据本公开实施例，还提供了一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的视频数据处理方法。

根据本公开实施例，发送端可以自动开启特征信息提取机制，发送端应用特征信息做自主选择的特征信息应用效果或者不应用特征信息，观看端接收特征信息，按自己需求选择是否使用特征信息应用。

在发送端开启特征信息提取之后，可以将特征信息与视频数据封装，并通过信令系统发送信令给观看端，观看端可以根据自己的需求使用接收到的特征信息。再例如，观看端有需要使用特征信息需求的场景下，可以通过信令控制系统发送信令给发送端，使得发送端开启特征提取。在一对多的场景下，每个观看端可以根据自己的需求对特征信息定制应用需求。

作为示例，在网络丢包严重的情况下，视频数据丢失较多，导致跳帧情况下，观看端的画面出现马赛克或者花屏现象，但是特征信息跟着花屏图像数据过来的，可以高度还原特征信息，举例如：给人脸增加魔法表情，哪怕人脸已经完全花了，也不会影响魔法表情的效果。

作为示例，在高延时网络场景下，主播端只负责特征信息的提取，观看端完全控制需要的特征信息应用，提升整个特征信息在大闭环内的性能与有效性和更高的价值展示。

虽然在前面的实施例中，以应视频直播的应用场景为例描述本公开的实施例，但是本公开不限于此，根据本公开的视频数据处理方法和视频数据处理装置也可以用于其他视频数据处理场景，例如，视频点播，视频录播等场景中。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频数据处理方法，其特征在于，所述视频数据处理方法包括：

获取原始视频数据；

提取所述原始视频数据中的目标对象的特征信息；

对所述原始视频数据进行编码，以得到编码后的原始视频数据；

对所述特征信息进行编码，以得到编码后的特征信息；

将所述编码后的原始视频数据和所述编码后的特征信息发送到接收端，

其中，所述特征信息被用于在接收端对所述原始视频数据中的所述目标对象进行特效处理，

其中，对所述特征信息进行编码所使用的编码方法具有比对所述原始视频数据进行编码所使用的编码方法更小的损失。

2.根据权利要求1所述的视频数据处理方法，其特征在于，所述提取步骤响应于从接收端接收到的针对特征信息的请求而被执行。

3.一种视频数据处理方法，其特征在于，所述视频数据处理方法包括：

从发送端接收编码后的原始视频数据和所述原始视频数据中的目标对象的编码后的特征信息，其中，对所述特征信息进行编码所使用的编码方法具有比对所述原始视频数据进行编码所使用的编码方法更小的损失；

对所述编码后的原始视频数据进行解码，以获得解码后的视频数据；

对所述编码后的特征信息进行解码，

基于解码后的所述特征信息，对所述解码后的原始视频数据中的所述目标对象进行特效处理。

4.根据权利要求3所述的视频数据处理方法，其特征在于，所述特征信息是在向发送端发送针对所述特征信息的请求后从所述发送端获取的。

5.根据权利要求3所述的视频数据处理方法，其特征在于，所述基于所述解码后的特征信息，对所述解码后的原始视频数据中的所述目标对象进行特效处理，包括：

将基于所述解码后的特征信息所应用的特效合成至所述解码后的原始视频数据中的所述目标对象并对合成后的视频数据进行渲染和显示。

6.一种视频数据处理装置，其特征在于，所述视频数据处理装置包括：

视频获取单元，被配置为获取原始视频数据；

特征提取单元，被配置为提取所述原始视频数据中的目标对象的特征信息；

视频编码单元，被配置为对所述原始视频数据进行编码，以得到编码后的原始视频数据；

特征编码单元，被配置为对所述特征信息进行编码，以得到编码后的特征信息；

视频发送单元，被配置为将所述编码后的原始视频数据和所述编码后的特征信息发送到接收端，

7.根据权利要求6所述的视频数据处理装置，其特征在于，所述特征提取单元被进一步配置为响应于从接收端接收到的针对特征信息的请求而执行提取操作。

8.一种视频数据处理装置，其特征在于，所述视频数据处理装置包括：

视频接收单元，被配置为从发送端接收编码后的原始视频数据和所述原始视频数据中的目标对象的编码后的特征信息，其中，对所述特征信息进行编码所使用的编码方法具有比对所述原始视频数据进行编码所使用的编码方法更小的损失；

视频解码单元，被配置为对所述编码后的原始视频数据进行解码，以获得解码后的原始视频数据；

特征解码单元，被配置为对所述编码后的特征信息进行解码；

渲染显示单元，被配置为基于解码后的所述特征信息，对所述解码后的原始视频数据中的所示目标对象进行特效处理。

9.根据权利要求8所述的视频数据处理装置，其特征在于，所述特征信息是在向发送端发送针对所述特征信息的请求后从所述发送端获取的。

10.根据权利要求8所述的视频数据处理装置，其特征在于，所述渲染显示单元被进一步配置为将基于解码后的所述特征信息所应用的特效合成至所述解码后的原始视频数据中的所述目标对象并对合成后的视频数据进行渲染和显示。

11.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到5中的任一权利要求所述的视频数据处理方法。

12.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到5中的任一权利要求所述的视频数据处理方法。

13.一种视频数据处理系统，其特征在于，所述视频数据处理系统包括：

发送端，被配置为：获取原始视频数据；提取所述原始视频数据中的目标对象的特征信息；对所述原始视频数据进行编码，以得到编码后的原始视频数据；对所述特征信息进行编码，以得到编码后的特征信息；将所述编码后的原始视频数据和所述编码后的特征信息发送到接收端，其中，所述特征信息被用于在接收端对所述原始视频数据中的所述目标对象进行特效处理，其中，对所述特征信息进行编码所使用的编码方法具有比对所述原始视频数据进行编码所使用的编码方法更小的损失；以及

接收端，被配置为：从发送端接收编码后的原始视频数据和所述原始视频数据中的目标对象的编码后的特征信息；对所述编码后的原始视频数据进行解码，以获得解码后的原始视频数据；对所述编码后的特征信息进行解码；基于解码后的所述特征信息，对所述解码后的原始视频数据中的所述目标对象进行特效处理。