CN112949547A

CN112949547A - 数据传输和显示方法、装置、系统、设备以及存储介质

Info

Publication number: CN112949547A
Application number: CN202110292347.8A
Authority: CN
Inventors: 李展鹏; 赵珂; 孙德乾; 胡超凡
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-06-11

Abstract

本公开提供了一种数据传输和显示方法、装置、系统、设备以及存储介质。该方法包括：获取待处理的视频图像帧；对所述视频图像帧分别进行图像检测以及视频编码操作，以得到目标检测结果以及视频编码帧，其中，所述视频编码帧包含所述视频图像帧的图像信息；将所述目标检测结果融合至所述视频编码帧中，得到目标视频编码帧；向播放设备传输所述目标视频编码帧。本公开实施例通过改善数据传输过程，优化了播放设备输出的目标视频图像帧，从而满足实时性要求较高的人机交互场景。

Description

数据传输和显示方法、装置、系统、设备以及存储介质

技术领域

本公开涉及图像处理的技术领域，具体而言，涉及一种数据传输和显示方法、装置、系统、设备以及存储介质。

背景技术

智能图像采集设备可以向其他设备分别传输视频图像和视频图像的图像检测结果。考虑到现有传输方式中视频图像和相应的图像检测结果是独立传输的，且由于数据传输通道的限制，难以对不同视频图像对应的图像检测结果进行区分，也就影响了视频图像和图像检测结果之间的对齐。

因此，目前亟需一种数据传输方法，以确保视频图像和图像检测结果之间的对齐。

发明内容

本公开实施例至少提供一种数据传输和显示方法、装置、系统、设备以及存储介质。

第一方面，本公开实施例提供了一种数据传输方法，包括：获取待处理的视频图像帧；对所述视频图像帧分别进行图像检测以及视频编码操作，以得到目标检测结果以及视频编码帧，其中，所述视频编码帧包含所述视频图像帧的图像信息；将所述目标检测结果融合至所述视频编码帧中，得到目标视频编码帧；向播放设备传输所述目标视频编码帧。

在本公开实施例中，在获取到视频图像帧之后，将该视频图像帧的目标检测结果融合至该视频图像帧的视频编码帧中，进而将融合之后得到的目标视频编码帧传输至播放设备，可以实现视频图像帧及其目标检测结果的一一对齐，从而确保视频图像帧和目标检测结果的同步传输。也就意味着，本公开提供的技术方案可以通过改善数据传输过程，优化播放设备输出的目标视频图像帧。尤其对于实时性要求较高的人机交互场景而言，该技术方案可以满足高实时性的需求，保证播放设备输出的视频图像帧与目标检测结果相匹配，减少因输出内容不匹配而引发的图像或视频失真，使输出内容更符合实际场景需求。

一种可选的实施方式中，所述将所述目标检测结果融合至所述视频编码帧中，得到目标视频编码帧，包括：在所述视频编码帧中确定目标扩展字段；将所述目标检测结果存储在所述视频编码帧中与所述目标扩展字段相对应的存储区域，得到所述目标视频编码帧。

一种可选的实施方式中，所述目标扩展字段为所述视频编码帧中的自定义信息SEI字段。

通过上述描述可知，通过将目标检测结果存储在视频编码帧中与目标扩展字段相对应的存储区域，能够在不改变视频编码帧的帧结构的情况下，将目标检测结果融合至视频编码帧中，从而实现将目标检测结果和视频图像帧进行一一对齐，以确保视频图像帧和目标检测结果的同步传输。

一种可选的实施方式中，所述方法应用于一种图像处理设备，所述将所述目标检测结果融合至所述视频编码帧中，得到所述目标视频编码帧，包括：获取所述播放设备的设备类型信息，并根据所述设备类型信息确定所述图像处理设备和所述播放设备之间的预设通信协议；按照所述预设通信协议对应的数据格式，对所述目标检测结果进行格式转化，并将格式转化之后的目标检测结果融合至所述视频编码帧中，得到所述目标视频编码帧。

通过上述描述可知，通过自适应的按照图像处理设备和播放设备之间的预设通信协议对目标检测结果进行格式转化，可以扩大图像采集设备和播放设备之间的适用范围，从而使得本公开技术方案能够适用到各类型的图像处理设备和播放设备上，以扩大本公开技术方案的应用领域。

一种可选的实施方式中，在所述将所述目标检测结果融合至所述视频编码帧中，得到目标视频编码帧之前，还包括：在所述目标检测结果满足压缩条件的情况下，对所述目标检测结果进行压缩，并将压缩后的目标检测结果作为融合至所述视频编码帧中的目标检测结果。

通过设置压缩条件，并在目标检测结果满足压缩条件的情况下，对目标检测结果进行压缩融合，可以减小数据传输的数据量，以提高数据传输的质量和效率，避免由于数据量较大导致的数据传输不完整的问题。

一种可选的实施方式中，所述方法应用于一种图像处理设备，所述满足压缩条件包括以下至少之一：所述图像处理设备的数据处理速率小于或者等于预设处理速率；所述图像处理设备向所述播放设备传输历史视频编码帧的数据传输速率小于或者等于预设传输速率；所述目标检测结果的数据量大于或者等于预设数据量。

通过上述描述可知，通过设置多种压缩条件的触发方式，可以实现最大程度的对目标检测结果进行压缩，以节省图像处理设备的内存消耗，提高数据传输的速率和质量。

一种可选的实施方式中，在所述获取待处理的视频图像帧之前，所述方法还包括：获取类别信息，所述类别信息用于指示所述目标检测结果的类别；所述对所述视频图像帧进行图像检测，得到目标检测结果，包括：按照所述类别信息确定所述视频图像帧的图像检测算法，并按照所述图像检测算法对所述视频图像帧进行图像检测，得到所述目标检测结果。

通过上述描述可知，通过类别信息确定相应的图像检测算法，以调用相应的图像检测算法对视频图像帧进行图像检测的方式，可以更针对性的处理不同场景的视频图像帧，在提升目标检测结果与相应视频图像帧的适配性的基础上，满足用户的多种人机交互需求，以扩展技术方案的应用场景。

一种可选的实施方式中，在所述向播放设备传输所述目标视频编码帧之前，所述方法还包括：获取所述视频图像帧的视频描述信息；其中，所述视频描述信息包括如下至少一项：定位序列参数集SPS以及图像参数集PPS；将所述视频描述信息融合至所述目标视频编码帧中，并将融合之后的目标视频编码帧作为向所述播放设备传输的目标视频编码帧。

通过上述描述可知，通过在视频编码帧中设置视频描述信息，可以对每个视频图像帧的采集顺序进行标记，在向播放设备传输的视频编码帧出现乱序的情况下，通过视频描述信息可以重新确定每个视频图像帧的采集顺序，从而保证视频图像帧的正常播放，以进一步缓解数据传输的压力。

第二方面，本公开实施例提供了一种数据显示方法，包括：获取图像处理设备发送的目标视频编码帧，其中，所述目标视频编码帧为所述图像处理设备按照上述第一方面中任意一项所述的方法确定出的视频编码帧；对所述目标视频编码帧进行解码操作，解码得到视频图像帧和目标检测结果。

在本公开实施例中，在获取到目标视频编码帧之后，可以对目标视频编码帧进行解码操作，并对解码得到视频图像帧和目标检测结果进行播放，此时，由于目标视频编码帧中携带视频图像帧的目标检测结果，因此，实现视频图像帧及其目标检测结果的一一对齐，从而确保视频图像帧和目标检测结果的同步传输。也就意味着，本公开提供的技术方案可以通过改善数据传输过程，优化播放设备输出的目标视频图像帧。尤其对于实时性要求较高的人机交互场景而言，该技术方案可以满足高实时性的需求，保证播放设备输出的视频图像帧与目标检测结果相匹配，减少因输出内容不匹配而引发的图像或视频失真，使输出内容更符合实际场景需求。

一种可选的实施方式中，所述方法应用于一种播放设备，在所述解码得到视频图像帧和目标检测结果之后，包括：根据所述目标检测结果确定与所述视频图像帧相匹配的增强现实AR特效的展示位置；按照所述展示位置在所述播放设备的AR展示界面上展示所述AR特效。

通过上述描述可知，在本公开实施例中，可以通过目标检测结果确定AR特效的展示位置并将该AR特效展示在该展示位置上，提高了AR特效和视频图像帧的同步性，从而满足实时性要求较高的人机交互场景。

第三方面，本公开实施例还提供一种数据传输系统，包括：图像处理设备和播放设备；所述图像处理设备，用于获取待处理的视频图像帧，并对所述视频图像帧分别进行图像检测以及视频编码操作，以得到目标检测结果以及视频编码帧，其中，所述视频编码帧包含所述视频图像帧的图像信息；以及将所述目标检测结果融合至所述视频编码帧中，得到目标视频编码帧，并向所述视频图像帧的播放设备传输所述目标视频编码帧；所述播放设备，用于获取图像处理设备发送的目标视频编码帧，并对所述目标视频编码帧进行解码操作，解码得到视频图像帧和目标检测结果。

第四方面，本公开实施例还提供一种数据传输装置，包括：第一获取模块：用于获取待处理的视频图像帧；数据处理模块：用于对所述视频图像帧分别进行图像检测以及视频编码操作，以得到目标检测结果以及视频编码帧，其中，所述视频编码帧包含所述视频图像帧的图像信息；融合模块：用于将所述目标检测结果融合至所述视频编码帧中，得到目标视频编码帧；传输模块：用于向播放设备传输所述目标视频编码帧。

第五方面，本公开实施例还提供一种数据显示装置，包括：第二获取模块：用于获取图像处理设备发送的目标视频编码帧，其中，所述目标视频编码帧为所述图像处理设备按照上述第一方面中任意一项所述的方法确定出的视频编码帧；解码模块：用于对所述目标视频编码帧进行解码操作，解码得到视频图像帧和目标检测结果。

第六方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或者，第二方面中的步骤。

第七方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或者，第二方面中的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种数据传输方法的流程图；

图2示出了本公开实施例所提供的数据传输方法中，视频编码帧的帧结构的示意图；

图3示出了本公开实施例所提供的一种数据显示方法的流程图；

图4示出了本公开实施例所提供的一种数据传输装置的示意图；

图5示出了本公开实施例所提供的一种数据显示装置的示意图；

图6示出了本公开实施例所提供的一种计算机设备的示意图；

图7示出了本公开实施例所提供的另一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，在现有技术中，智能图像采集设备可以同时传输视频图像和视频图像的图像检测结果。然而，智能图像采集设备的现有传输方法为视频图像和图像检测结果分开传输的方式。在对图像检测结果进行传输时，由于数据传输通道的限制，无法对图像检测结果进行区分，从而导致视频图像和图像检测结果不能实现一一对齐，因而，现有的数据传输方法不能满足对实时性和准确性要求较高的应用场合。

基于上述研究，本公开提供了一种数据传输方法，在获取到视频图像帧之后，将该视频图像帧的目标检测结果融合至该视频图像帧的视频编码帧中，进而将融合之后得到的目标视频编码帧传输至播放设备，可以实现视频图像帧及其目标检测结果的一一对齐，从而确保视频图像帧和目标检测结果的同步传输。也就意味着，本公开提供的技术方案可以通过改善数据传输过程，优化播放设备输出的目标视频图像帧。尤其对于实时性要求较高的人机交互场景而言，该技术方案可以满足高实时性的需求，保证播放设备输出的视频图像帧与目标检测结果相匹配，减少因输出内容不匹配而引发的图像或视频失真，使输出内容更符合实际场景需求。

针对现有技术中视频图像和图像检测结果独立传输的技术方案，一种可选地传输方式为将视频图像和图像检测结果按照相同的传输通道依次进行传输；播放设备在依次接收到视频图像和图像检测结果之后，对视频图像和图像检测结果进行对齐处理。然而，在该技术方案中，由于视频图像和图像检测结果是依次传输，因此播放设备在获取视频图像和图像检测结果时存在一定的延时。

本公开所提供的技术方案，通过相同的数据传输通道对视频图像帧及其目标检测结果进行同时传输，相对于上述所描述的技术方案，本公开能够确保视频图像帧和目标检测结果之间的一一对应的同时，减少数据传输的时间，缩短播放设备获取视频图像帧和相对应的目标检测结果的延时时间，从而可以满足实时性要求较高的人机交互场景。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种数据传输方法进行详细介绍，本公开实施例所提供的数据传输方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该数据传输方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

本公开提供的技术方案可以应用于一种数据传输系统，在数据传输系统中至少包括图像处理设备和播放设备。其中，图像处理设备用于对获取的视频图像帧进行相应处理，以得到目标视频编码帧，并向播放设备传输得到的目标视频编码帧。在播放设备接收到目标视频编码帧后，可以基于接收到的目标视频编码帧进行相应处理，以得到视频图像帧及相应的目标检测结果。在实际应用过程中，播放设备可通过显示界面展示视频图像帧以及相应目标检测结果，从而达到同步输出的效果。

需要说明的是，在数据传输系统中还可以包括智能图像采集设备，以实现视频图像帧的获取，具体可以实现为采集视频流/视频片段，并从采集到的视频流/视频片段中进行采样/抽帧等处理，以得到视频图像帧。而后将视频图像帧向图像处理设备传输。

在一种可能的实现方式中，图像采集设备可以集成在图像处理设备中，或是与图像处理设备分别部署。针对图像采集设备与图像处理设备分别部署的情况而言，图像采集设备与图像处理设备之间可以通过诸如蓝牙、互联网等数据传输方式进行视频图像帧的传输。在此对于图像采集设备与图像处理设备的部署方式、数据传输方式等相关内容不予限定，可以包括但不限于上述例举的情况。

在另一种可能的实现方式中，图像处理设备和播放设备可以为单独设置的设备，还可以为集成在一个智能终端设备中，本公开对播放设备和图像设备处理之间的设置方式不作具体限定。此处的图像处理设备可以是集成了图像采集设备的处理设备，或者是未集成图像采集设备的处理设备。

针对集成设置的方式，该智能终端设备可以为智能手机，该图像处理设备可以为该智能手机中的相机模组，该播放设备可以为该智能手机的播放器。

针对独立设置的方式，该智能终端设备可以为智能相机模组和显示器的组合，例如，该显示器可以为能够连接智能相机模组的电视机。此时，智能相机模组为图像处理设备，显示器为播放设备(例如，电视机)。

参见图1所示，为本公开实施例提供的一种数据传输方法的流程图，该方法可以应用于上述的图像处理设备，所述方法包括如下步骤：

S101：获取待处理的视频图像帧。

在本公开实施例中，首先通过图像处理设备获取待处理的视频，该待处理的视频中包含至少一个待处理的视频图像帧。

应理解的是，针对至少一个待处理的视频图像帧中的每个视频图像帧，均可以采用步骤S101至步骤S107所描述的数据传输方法进行数据传输处理。

在本公开下述实施方式中，以单个视频图像帧为例来对上述数据传输方法进行说明，待处理的视频中每个待处理的视频图像帧的处理过程相同，此处不再一一进行赘述。

S103：对所述视频图像帧分别进行图像检测以及视频编码操作，以得到目标检测结果以及视频编码帧，其中，所述视频编码帧包含所述视频图像帧的图像信息。

在获取到视频图像帧之后，可以对视频图像帧分别进行图像检测以及视频编码操作，从而得到该视频图像帧的目标检测结果以及视频编码帧。

图像检测可以理解为对视频图像帧进行人脸检测、手势检测、肢体检测、表情检测等一种或是多种图像检测方式，本公开对图像检测不作具体限定。

若图像检测包括人脸检测，那么该目标检测结果用于表征视频图像帧中是否包含人脸，以及对于包含人脸的情况而言，该目标检测结果还可以包括视频图像帧所包含人脸数量、人脸位置信息等中的一项或多项。

若图像检测包含手势检测，那么该目标检测结果用于表征视频图像帧中是否包含手势，以及对于包含手势的情况而言，该目标检测结果还可以包含手势的类型信息、手势的数量，以及手势位置信息等中的一项或多项。其中，手势的数量可以理解为全部手势的数量，和/或，每种类型的手势所对应的数量。

若图像检测包含肢体检测，那么该目标检测结果用于表征视频图像帧中是否包含肢体动作，以及对于包含肢体动作的情况而言，该目标检测结果还可以包含肢体动作的肢体类型信息、肢体动作在视频图像帧中的位置信息，以及所包含肢体动作的数量等中的一项或多项，其中，肢体动作的数量可以理解为视频图像帧中所包含全部肢体动作的数量，和/或，每种肢体类型所对应的肢体动作的数量。

S105：将所述目标检测结果融合至所述视频编码帧中，得到目标视频编码帧。

在得到目标检测结果和视频编码帧之后，就可以将上述目标检测结果嵌入至视频编码帧中，从而实现将目标检测结果融合到视频编码帧中，以得到包含图像信息和目标检测结果的目标视频编码帧。

S107：向播放设备传输所述目标视频编码帧。

通过上述步骤所描述的处理方式，可以将视频图像帧与相应的目标检测结果同步传输至播放设备。

在获取到视频图像帧之后，将该视频图像帧的目标检测结果融合至该视频图像帧的视频编码帧中，进而将融合之后得到的目标视频编码帧传输至播放设备，可以实现视频图像帧及其目标检测结果的一一对齐，从而确保视频图像帧和目标检测结果的同步传输。也就意味着，本公开提供的技术方案可以通过改善数据传输过程，优化播放设备输出的目标视频图像帧。尤其对于实时性要求较高的人机交互场景而言，该技术方案可以满足高实时性的需求，保证播放设备输出的视频图像帧与目标检测结果相匹配，减少因输出内容不匹配而引发的图像或视频失真，使输出内容更符合实际场景需求。

为了提高目标检测结果的准确性，在执行S101获取待处理的视频图像帧之前，该方法还可以包括：获取类别信息，其中，所述类别信息用于指示所述目标检测结果的类别。相应的，S103中，对所述视频图像帧进行图像检测，得到目标检测结果，可以实现为：按照所述类别信息确定所述视频图像帧的图像检测算法，并调用所述图像检测算法对所述视频图像帧进行图像检测，得到所述目标检测结果。

其中，类别信息可以为人脸检测、手势检测、姿态检测、表情检测、头部检测、五官检测和肢体检测等中的一种或多种。

下面将结合具体的人机交互场景对该获取类别信息的过程进行描述。

人机交互场景一：特效短视频拍摄。

用户可以通过智能终端设备选择要拍摄的特效，智能终端设备的处理器响应于用户的选择指令，并根据用户所选择特效的特效名称确定特效类型。其中，该特效类型用于指示相对应特效在视频图像帧中待展示目标上的展示部位。本公开通过确定特效类型中所指示的展示部位来确定类别信息。

智能终端设备除了包含图像处理设备和播放设备之外，还可以包含用于实现图像处理设备和播放设备之间通信连接的通信接口。

例如，用户所选择特效的特效名称为：超大头特效。其中，该超大头特效所对应的特效类型为：头部特效。此时，就可以根据特效类型确定出类别信息为：头部检测。

又例如，用户所选择特效的特效名称为：大眼萌娃。其中，该大眼萌娃所对应的特效类型为：眼部特效。此时，就可以根据特效类型确定出类别信息为：眼部检测。

在智能终端设备的处理器确定出类别信息之后，可以通过通信接口向图像处理设备发送该类别信息，图像处理设备就可以按照获取到的类别信息确定视频图像帧的图像检测算法，并调用相应的图像检测算法对视频图像帧进行图像检测，得到目标检测结果。

在智能终端设备为智能手机的情况下，用户可以通过智能手机进入到短视频拍摄页面，并在拍摄页面选择要拍摄的特效，进而确定该特效的特效类型，比如，该特效为：超大头特效，那么特效类型相应的可以为：头部特效。此时，可以根据特效类型确定类别信息为：头部检测，即检测视频图像帧中所包含目标的头部信息，该头部信息包含头部类别信息和/或头部位置信息。其中，头部位置信息用于表征识别出的头部在视频图像帧中的位置信息，头部类别信息用于表征识别出头部所属目标的类别信息，例如，该目标的类别信息为人类的头部、猫的头部等信息。

人机交互场景二：试妆场景，该试妆场景可以为美妆试妆，还可以为其他的试妆场景，本公开对此不作具体限定。

用户可以通过智能终端设备选择试装类型，比如，试眼妆，试唇妆，试腮红，试戴帽子等。此时，智能终端设备的处理器响应于用户的选择指令，并根据用户所选择的试妆类型确定试妆部位，进而根据该试妆部位确定类别信息。其中，该试妆部位用于指示视频图像帧中待展示目标上的试妆部位。

例如，用户所选择的试妆类型为：试眼妆。其中，该试妆类型所对应的试妆部位为：眼睛部位。此时，就可以根据试妆部位确定出类别信息为：眼部检测。

又例如，用户所选择的试妆类型为：试唇妆。其中，该试妆类型所对应的试妆部位为：嘴唇部位。此时，就可以根据试妆部位确定出类别信息为：嘴唇检测。

为降低数据传输的压力，在执行S107向播放设备传输所述目标视频编码帧之前，该方法还可以包括：获取视频图像帧的视频描述信息；其中，视频描述信息包括如下至少一项：定位序列参数集SPS(Sequence Parameter Set)以及图像参数集PPS(PictureParameter Set)；然后，将视频描述信息融合至目标视频编码帧中。相应的，步骤S107中，向播放设备传输所述目标视频编码帧，可以实现为：将融合之后的目标视频编码帧作为向播放设备传输的目标视频编码帧。

在获取到待处理的视频图像帧之后，可以按照上述实施方式中所描述的方式对视频图像帧进行图像检测操作，得到目标检测结果，对于图像检测操作的详细过程，此处不再赘述。

同时，还可以确定视频图像帧的视频编码算法，然后，调用确定出的视频编码算法，以根据该视频编码算法对视频图像帧进行视频编码操作，其中，视频编码算法可以选择为H264压缩编码算法或者H265压缩编码算法。

在调用视频编码算法对视频图像帧进行视频编码操作之后，可以得到帧结构如图2所示的视频编码帧。参考图2，视频编码帧中包含视频描述信息字段、图像描述信息字段和目标扩展字段。其中，视频描述信息字段包括：定位序列参数集SPS字段以及图像参数集PPS字段；图像描述信息字段(即，Slice字段)所对应的字段内容为视频图像帧的图像信息；目标扩展字段所对应的字段内容为视频图像帧的目标检测结果。

定位序列参数集SPS包含的是视频编码帧，如标识符seq_parameter_set_id、帧数及POC的约束、参考帧数目、解码图像尺寸和帧场编码模式选择标识等等。图像参数集PPS对应的是视频图像帧的参数，其参数如标识符pic_parameter_set_id、可选的seq_parameter_set_id、熵编码模式选择标识、片组数目、初始量化参数和去方块滤波系数调整标识等。

需要说明的是，可以设置目标扩展字段为自定义信息SEI(SupplementalEnhancement Information)字段，除了SEI字段之外，目标扩展字段还可以为视频编码帧中能够记录该目标检测结果的其他字段，本公开对此不作具体限定。

在得到如图2所示的视频编码帧之后，可以将目标检测结果融合至如图2所示的视频编码帧中，并获取视频图像帧的视频描述信息，然后，将该视频描述信息融合至如图2所示的视频编码帧(即，上述目标视频编码帧)中，并向播放设备发送融合之后的目标视频编码帧。

为了实现视频图像帧和相对应目标检测结果之间的一一对齐，步骤S105中，将目标检测结果融合至视频编码帧中，得到目标视频编码帧，可以实现为以下过程：首先，在视频编码帧中确定目标扩展字段；然后，将目标检测结果存储在所述视频编码帧中与目标扩展字段相对应的存储区域，得到所述目标视频编码帧。

按照上述实施方式中的描述可知，在获取到待处理的视频图像帧之后，可以按照上述实施方式中所描述的方式对视频图像帧进行图像检测操作，得到目标检测结果，对于图像检测操作的详细过程，此处不再赘述。

同时，还可以对视频图像帧进行视频编码操作，得到视频编码帧，例如，可以得到如图2所示的视频编码帧；并在视频编码帧中确定用于存放目标检测结果的目标扩展字段。目标扩展字段为用于存放该视频图像帧的目标检测结果的字段。若视频编码帧为如图2所示的帧结构，那么该目标扩展字段为视频编码帧中的自定义信息SEI字段。

在确定出自定义信息SEI字段之后，就可以将目标检测结果作为该自定义信息SEI字段的字段内容嵌入到视频编码帧中，从而得到上述包含目标检测结果和视频图像帧的图像信息的目标视频编码。之后，就可以向播放设备传输目标视频编码帧。例如，可以通过图像处理设备可以通过通信模块向播放设备传输该目标视频编码。

为了扩大本技术方案中图像处理设备和播放设备的适用范围，在步骤S105中，将所述目标检测结果融合至所述视频编码帧中，得到所述目标视频编码帧，可以实现为以下过程：获取播放设备的设备类型信息，并根据设备类型信息确定图像处理设备和播放设备之间的预设通信协议；然后，按照预设通信协议对应的数据格式，对目标检测结果进行格式转化，并将格式转化之后的目标检测结果融合至视频编码帧中，得到目标视频编码帧。

同时，还可以对视频图像帧进行视频编码操作，得到视频编码帧，例如，可以得到如图2所示的视频编码帧。

在将目标检测结果融合至视频编码帧之前，可以获取播放设备的设备类型信息。播放设备的类型可以为多种，比如，播放设备可以为智能电视、智能手机、平板、计算机等类型的播放设备。不同类型的播放设备和图像处理设备之间的预设通信协议可以是不相同的，其中，该预设通信协议用于确定播放设备和图像处理设备之间能够相互兼容的数据格式。此时，可以先确定播放设备的设备类型信息，比如，可以通过播放设备的设备ID确定设备类型信息。

具体地，可以在图像处理设备中预先设定一个数据表格A，在该数据表格A中包含各个播放设备所对应的设备类型信息。比如，该数据表格A中的数据存储格式为key-value，key表示播放设备的ID，value表示播放设备的设备类型信息。在该图像处理设备中，还可以预先设定一个数据表格B，其中，该数据表格B中用于存储设备类型信息和预设通信协议之间的对应关系。比如，该数据表格B中的数据存储格式为key-value，key表示播放设备的设备类型信息，value表示预设通信协议。

图像处理设备在获取到该播放设备的设备ID之后，可以根据数据表格A确定播放设备的设备类型信息；并根据数据表格B确定该设备类型信息所对应的预设通信协议。

需要说明的是，若根据数据表格A和数据表格B未查找到对应的预设通信协议，则表明播放设备和图像处理设备之间所传输的数据不兼容。

在确定出预设通信协议之后，可以按照预设通信协议对应的数据格式，对目标检测结果进行格式转化，并将格式转化之后的目标检测结果存储在视频编码帧中与目标扩展字段(例如，自定义信息SEI字段)相对应的存储区域，得到目标视频编码帧。

例如，预设通信协议对应的数据格式为二进制格式数据，此时可以将该目标检测结果转化为二进制数据，并将该二进制数据存储在视频编码帧中与目标扩展字段(例如，自定义信息SEI字段)相对应的存储区域，得到目标视频编码帧，进而将该目标视频编码帧传输至播放设备进行解码操作。

为了减小所传输数据的数据量，在执行S105，将目标检测结果融合至视频编码帧中，得到目标视频编码帧之前，该方法还包括：在确定出目标检测结果满足压缩条件的情况下，对目标检测结果进行压缩，并将压缩后的目标检测结果作为融合至视频编码帧中的目标检测结果。

如果确定出目标检测结果满足压缩条件，则对目标检测结果进行压缩，并将压缩后的目标检测结果存储在视频编码帧中与目标扩展字段(例如，自定义信息SEI字段)相对应的存储区域，得到目标视频编码帧。

需要说明的是，在对目标检测结果进行压缩之后，还可以按照图像处理设备和播放设备之间的预设通信协议，对目标检测结果进行格式转化，并将格式转化之后的目标检测结果融合至视频编码帧中，得到目标视频编码帧。

为了提高数据传输的速率和质量，满足压缩条件包括以下至少之一：

(1)、图像处理设备的数据处理速率小于或者等于预设处理速率。

(2)、图像处理设备向播放设备传输历史视频编码帧的数据传输速率小于或者等于预设传输速率。

(3)、目标检测结果的数据量大于或者等于预设数据量。

针对(1)、图像处理设备的数据处理速率小于或者等于预设处理速率。

在本公开实施例中，用户可以通过图像处理设备预先设置一个预设处理速率。

在图像处理设备对视频图像帧进行图像检测处理时，可以获取确定数据处理效率。若检测到数据处理效率小于或者等于该预设处理速率，则表明图像处理设备的内存消耗较大，此时，可以缩小目标检测结果的数据量，以进一步节省图像处理设备的内存消耗，保证视频图像帧的正常处理和目标视频编码帧的正常传输。

数据处理速率可以指示图像处理设备对历史视频图像帧的进行图像检测和视频编码操作的时长。其中，历史视频图像帧为当前时刻待处理的视频图像帧之前的一个或多个图像帧。

针对(2)、图像处理设备向所述播放设备传输历史视频编码帧的数据传输速率小于或者等于预设传输速率。

在本公开实施例中，针对当前时刻待传输的目标视频编码帧，可以获取在目标视频编码帧之前向播放设备传输的历史视频编码帧的数据传输速率。若该数据传输速率小于或者等于预设传输速率，则表明图像处理设备和播放设备之间的数据传输通道出现了拥堵，此时，可以对目标检测结果进行压缩，以缩小要传输数据的数据量，进一步缓解数据速率较慢的问题。

针对(3)、目标检测结果的数据量大于或者等于预设数据量。

在本公开实施例中，在图像处理设备向播放设备传输目标视频编码帧之前，用户可以预先通过图像处理设备设置一个预设数据量。在检测到目标检测结果的数据量大于预设数据量时，则判断满足压缩条件，对目标检测结果进行压缩处理，以节省图像处理设备的内存消耗，保证视频图像帧的正常处理和目标视频编码帧的正常传输。

参见图3所示，为本公开实施例提供的一种数据显示方法的流程图，该方法可以应用于上述的播放设备，所述方法包括如下步骤，其中：

S201：获取图像处理设备发送的目标视频编码帧，其中，所述目标视频编码帧为所述图像处理设备按照上述所描述的数据传输方法中任一实施方式确定出的视频编码帧。

在本公开实施例中，对目标视频编码帧的确定过程如上所数据传输方法部分所述，此处不再详细赘述。

S203：对所述目标视频编码帧进行解码操作，解码得到视频图像帧和目标检测结果。

为了提高AR特效的展示效果，在执行S203解码得到视频图像帧和目标检测结果之后，该方法还可以包括：根据目标检测结果确定与视频图像帧相匹配的增强现实AR特效的展示位置；进而，按照展示位置在播放设备的AR展示界面上展示AR特效。

通过上述描述可知，目标检测结果中可以包含视频图像帧中待检目标的位置信息，例如，脸部位置信息、手势位置信息、头部位置信息、五官位置信息、肢体动作的位置信息等信息。

此时，可以根据目标检测结果中所包含的待检目标的位置信息确定与视频图像帧相匹配的增强现实AR特效的展示位置，进而在播放设备的AR展示界面的展示位置上展示AR特效。

例如，上述AR特效为大眼萌娃，目标检测结果中可以包含待检目标的眼部位置信息，此时，可以根据眼部位置信息在播放设备的AR展示界面上确定AR特效的展示位置，并在该展示位置展示该大眼萌娃的AR特效。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与数据传输方法对应的数据传输装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述数据传输方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图4所示，为本公开实施例提供的一种数据传输装置的示意图，所述装置包括：第一获取模块、数据处理模块、融合模块、传输模块；其中，

第一获取模块：用于获取待处理的视频图像帧；

数据处理模块：用于对所述视频图像帧分别进行图像检测以及视频编码操作，以得到目标检测结果以及视频编码帧，其中，所述视频编码帧包含所述视频图像帧的图像信息；

融合模块：用于将所述目标检测结果融合至所述视频编码帧中，得到目标视频编码帧；

传输模块：用于向播放设备传输所述目标视频编码帧。

一种可能的实施方式中，融合模块，还用于：在所述视频编码帧中确定目标扩展字段；将所述目标检测结果存储在所述视频编码帧中与所述目标扩展字段相对应的存储区域，得到所述目标视频编码帧。

一种可能的实施方式中，融合模块，还用于：所述目标扩展字段为所述视频编码帧中的自定义信息SEI字段。

一种可能的实施方式中，融合模块，还用于：获取所述播放设备的设备类型信息，并根据所述设备类型信息确定所述图像处理设备和所述播放设备之间的预设通信协议；按照所述预设通信协议对应的数据格式，对所述目标检测结果进行格式转化，并将格式转化之后的目标检测结果融合至所述视频编码帧中，得到所述目标视频编码帧。

一种可能的实施方式中，融合模块，还用于：在所述目标检测结果满足压缩条件的情况下，对所述目标检测结果进行压缩，并将压缩后的目标检测结果作为融合至所述视频编码帧中的目标检测结果。

一种可能的实施方式中，所述满足压缩条件包括以下至少之一：所述图像处理设备的数据处理速率小于或者等于预设处理速率；所述图像处理设备向所述播放设备传输历史视频编码帧的数据传输速率小于或者等于预设传输速率；所述目标检测结果的数据量大于或者等于预设数据量。

一种可能的实施方式中，该装置还用于：按照所述类别信息确定所述视频图像帧的图像检测算法，并按照所述图像检测算法对所述视频图像帧进行图像检测，得到所述目标检测结果。

一种可能的实施方式中，传输模块，还用于：获取所述视频图像帧的视频描述信息；其中，所述视频描述信息包括如下至少一项：定位序列参数集SPS以及图像参数集PPS；将所述视频描述信息融合至所述目标视频编码帧中，并将融合之后的目标视频编码帧作为向所述播放设备传输的目标视频编码帧。

参照图5所示，为本公开实施例提供的一种数据显示装置的示意图，所述装置包括：第二获取模块和解码模块；其中，

第二获取模块：用于获取图像处理设备发送的目标视频编码帧，其中，所述目标视频编码帧为所述图像处理设备按照上述数据传输方法中任一实施方式确定出的视频编码帧；

解码模块：用于对所述目标视频编码帧进行解码操作，解码得到视频图像帧和目标检测结果。

一种可能的实施方式中，该装置还用于：根据所述目标检测结果确定与所述视频图像帧相匹配的增强现实AR特效的展示位置；按照所述展示位置在所述播放设备的AR展示界面上展示所述AR特效。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图1中的数据传输方法，本公开实施例还提供了一种计算机设备600，如图6所示，为本公开实施例提供的计算机设备600结构示意图，包括：

处理器61、存储器62、和总线63；存储器62用于存储执行指令，包括内存621和外部存储器622；这里的内存621也称内存储器，用于暂时存放处理器61中的运算数据，以及与硬盘等外部存储器622交换的数据，处理器61通过内存621与外部存储器622进行数据交换，当所述计算机设备600运行时，所述处理器61与所述存储器62之间通过总线63通信，使得所述处理器61执行以下指令：

获取待处理的视频图像帧；对所述视频图像帧分别进行图像检测以及视频编码操作，以得到目标检测结果以及视频编码帧，其中，所述视频编码帧包含所述视频图像帧的图像信息；所述目标检测结果融合至所述视频编码帧中，得到目标视频编码帧；向播放设备传输所述目标视频编码帧。

对应于图3中的数据显示方法，本公开实施例还提供了另一种计算机设备700，如图7所示，为本公开实施例提供的计算机设备700结构示意图，包括：

处理器71、存储器72、和总线73；存储器72用于存储执行指令，包括内存721和外部存储器722；这里的内存721也称内存储器，用于暂时存放处理器71中的运算数据，以及与硬盘等外部存储器722交换的数据，处理器71通过内存721与外部存储器722进行数据交换，当所述计算机设备700运行时，所述处理器71与所述存储器72之间通过总线73通信，使得所述处理器71执行以下指令：

获取图像处理设备发送的目标视频编码帧，其中，所述目标视频编码帧为所述图像处理设备按照上述数据传输方法中任一项实施方式确定出的视频编码帧；对所述目标视频编码帧进行解码操作，解码得到视频图像帧和目标检测结果。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的数据传输方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的数据传输方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据传输方法，其特征在于，包括：

获取待处理的视频图像帧；

对所述视频图像帧分别进行图像检测以及视频编码操作，以得到目标检测结果以及视频编码帧，其中，所述视频编码帧包含所述视频图像帧的图像信息；

将所述目标检测结果融合至所述视频编码帧中，得到目标视频编码帧；

向播放设备传输所述目标视频编码帧。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标检测结果融合至所述视频编码帧中，得到目标视频编码帧，包括：

在所述视频编码帧中确定目标扩展字段；

将所述目标检测结果存储在所述视频编码帧中与所述目标扩展字段相对应的存储区域，得到所述目标视频编码帧。

3.根据权利要求2所述的方法，其特征在于，所述目标扩展字段为所述视频编码帧中的自定义信息SEI字段。

4.根据权利要求1或2所述的方法，其特征在于，所述方法应用于一种图像处理设备，所述将所述目标检测结果融合至所述视频编码帧中，得到所述目标视频编码帧，包括：

获取所述播放设备的设备类型信息，并根据所述设备类型信息确定所述图像处理设备和所述播放设备之间的预设通信协议；

按照所述预设通信协议对应的数据格式，对所述目标检测结果进行格式转化，并将格式转化之后的目标检测结果融合至所述视频编码帧中，得到所述目标视频编码帧。

5.根据权利要求1至4中任一项所述的方法，其特征在于，在所述将所述目标检测结果融合至所述视频编码帧中，得到目标视频编码帧之前，还包括：

在所述目标检测结果满足压缩条件的情况下，对所述目标检测结果进行压缩，并将压缩后的目标检测结果作为融合至所述视频编码帧中的目标检测结果。

6.根据权利要求5所述的方法，其特征在于，所述方法应用于一种图像处理设备，所述满足压缩条件包括以下至少之一：

所述图像处理设备的数据处理速率小于或者等于预设处理速率；

所述图像处理设备向所述播放设备传输历史视频编码帧的数据传输速率小于或者等于预设传输速率；

所述目标检测结果的数据量大于或者等于预设数据量。

7.根据权利要求1所述的方法，其特征在于，在所述获取待处理的视频图像帧之前，所述方法还包括：

获取类别信息，所述类别信息用于指示所述目标检测结果的类别；

所述对所述视频图像帧进行图像检测，得到目标检测结果，包括：

按照所述类别信息确定所述视频图像帧的图像检测算法，并调用所述图像检测算法对所述视频图像帧进行图像检测，得到所述目标检测结果。

8.根据权利要求1所述的方法，其特征在于，在所述向播放设备传输所述目标视频编码帧之前，所述方法还包括：

获取所述视频图像帧的视频描述信息；其中，所述视频描述信息包括如下至少一项：定位序列参数集SPS以及图像参数集PPS；

将所述视频描述信息融合至所述目标视频编码帧中，并将融合之后的目标视频编码帧作为向所述播放设备传输的目标视频编码帧。

9.一种数据显示方法，其特征在于，包括：

获取图像处理设备发送的目标视频编码帧，其中，所述目标视频编码帧为所述图像处理设备按照上述权利要求1至8中任意一项所述的方法确定出的视频编码帧；

对所述目标视频编码帧进行解码操作，解码得到视频图像帧和目标检测结果。

10.根据权利要求9所述的方法，其特征在于，所述方法应用于一种播放设备，在所述解码得到视频图像帧和目标检测结果之后，包括：

根据所述目标检测结果确定与所述视频图像帧相匹配的增强现实AR特效的展示位置；

按照所述展示位置在所述播放设备的AR展示界面上展示所述AR特效。

11.一种数据传输系统，其特征在于，包括：图像处理设备和播放设备；

所述图像处理设备，用于获取待处理的视频图像帧，并对所述视频图像帧分别进行图像检测以及视频编码操作，以得到目标检测结果以及视频编码帧，其中，所述视频编码帧包含所述视频图像帧的图像信息；以及将所述目标检测结果融合至所述视频编码帧中，得到目标视频编码帧，并向所述视频图像帧的播放设备传输所述目标视频编码帧；

所述播放设备，用于获取图像处理设备发送的目标视频编码帧，并对所述目标视频编码帧进行解码操作，解码得到视频图像帧和目标检测结果。

12.一种数据传输装置，其特征在于，包括：

第一获取模块：用于获取待处理的视频图像帧；

传输模块：用于向播放设备传输所述目标视频编码帧。

13.一种数据显示装置，其特征在于，包括：

第二获取模块：用于获取图像处理设备发送的目标视频编码帧，其中，所述目标视频编码帧为所述图像处理设备按照上述权利要求1至8中任意一项所述的方法确定出的视频编码帧；

14.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至8中任一项所述的数据传输方法的步骤，或者，9至10中任一项所述的数据显示方法的步骤。

15.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8中任一项所述的数据传输方法的步骤，或者，9至10中任一项所述的数据显示方法的步骤。