CN107770602A

CN107770602A - 视频图像处理方法和装置

Info

Publication number: CN107770602A
Application number: CN201610694616.2A
Authority: CN
Inventors: 栾青
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2018-03-06
Anticipated expiration: 2036-08-19
Also published as: CN114040239A; CN107770602B

Abstract

本发明实施例提供一种视频图像处理方法和装置。该视频图像处理方法包括：获取视频内容的视频图像以及业务对象的展示信息，所述业务对象的展示信息包括所述业务对象在所述视频图像中的绘制位置的信息，所述业务对象配置有业务内容链接；采用计算机绘图方式在所述视频图像中的绘制位置绘制所述业务对象。本发明实施例有利于节约网络资源和/或客户端的系统资源，可通过在视频画面中添加绘制具有交互功能的业务对象并进行展现，从而丰富了视频画面的内容，具有增强现实的效果；此外，为添加绘制的业务对象提供了融合度高的交互方式，提高了视频内容的收看和互动效果。

Description

视频图像处理方法和装置

技术领域

本发明实施例涉及视频图像处理技术，尤其涉及视频图像处理方法和装置。

背景技术

随着互联网技术的发展，人们越来越多地使用互联网观看视频，由此，互联网视频为许多新的业务提供了商机。因为互联网视频可以成为重要的业务流量入口，因而被认为是广告植入的优质资源。

现有视频广告主要通过植入的方式，在视频播放的某个时间插入固定时长的广告，或在视频播放的区域及其周边区域固定位置放置广告。

但是，一方面，这种视频广告方式不但占用网络资源，也占用客户端的系统资源；另一方面，这种视频广告方式往往打扰观众的正常视频观看体验，引起观众反感，不能达到预想的广告效果。

发明内容

本发明实施例的目的在于，提供了一种视频图像处理方法和装置，以在动态的视频页面中添加绘制具有交互功能的业务相关的图形数据。

根据本发明实施例的一方面，提供一种视频图像处理方法，包括：获取视频内容的视频图像以及业务对象的展示信息，所述业务对象的展示信息包括所述业务对象在所述视频图像中的绘制位置的信息，所述业务对象配置有业务内容链接；采用计算机绘图方式在所述视频图像中的绘制位置绘制所述业务对象。

可选地，所述方法还包括：响应于用户对在播放视频内容的界面上展现的所述业务对象的操作，获取所述业务内容链接指向的业务内容，并且展现所述业务内容。

可选地，所述展现所述业务内容包括：在所述视频内容的播放界面上弹出浮窗，并且在所述浮窗中展现所述业务内容；或者，在所述视频内容的播放界面中展现所述业务内容。

可选地，所述展示信息还包括所述业务对象的位置信息或标识信息；所述方法还包括：根据所述业务对象的位置信息或标识信息获取所述业务对象的图像数据。

可选地，所述获取业务对象在所述视频图像中的展示信息包括：确定所述视频图像中所述业务对象的绘制位置。

可选地，所述确定所述视频图像中所述业务对象的绘制位置包括：使用预定的跟踪方法根据从所述视频图像的在先中确定的业务对象的绘制位置确定所述视频图像中所述业务对象的绘制位置。

可选地，所述确定所述视频图像中所述业务对象的绘制位置包括：从所述视频图像确定目标对象的特征点，根据目标对象的特征点，使用预先训练的、用于确定业务对象在视频图像中的绘制位置的卷积网络模型，确定所述业务对象在所述视频图像中的绘制位置；或，从所述视频图像确定目标对象的类型，并且根据目标对象的类型确定所述业务对象的绘制位置。

可选地，所述根据目标对象的类型确定所述业务对象的绘制位置包括：当所述目标对象的类型为人脸类型时，确定所述业务对象的绘制位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域；和/或，当所述目标对象的类型为背景类型时，确定所述业务对象的绘制位置包括：视频图像中的背景区域；和/或，当所述目标对象的类型为手部类型时，确定所述业务对象的绘制位置包括：视频图像中以手部所在的区域为中心的、设定范围内的区域；和/或，当所述目标对象的类型为动作类型时，确定所述业务对象的绘制位置包括：视频图像中预先设定的区域。

可选地，所述业务对象的图像数据为帧序列，所述采用计算机绘图方式在所述视频图像中的绘制位置绘制所述业务对象包括：从所述图像数据获取与所述视频图像同步的帧数据，采用计算机绘图方式在所述绘制位置绘制所述帧数据。

可选地，所述获取视频内容的视频图像以及待绘制的业务对象的展示信息包括：从所述视频内容的视频码流获取所述视频图像以及所述展示信息。

可选地，所述业务对象为具有语义的特效或广告贴纸。

可选地，所述业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效和粒子特效。

可选地，所述视频码流为基于H264标准的直播视频流，所述展示信息被携带在所述直播视频流的网络抽象层单元中。

根据本发明实施例的另一方面，提供一种视频图像处理装置，包括：数据获取单元，用于获取视频内容的视频图像以及业务对象的展示信息，所述业务对象的展示信息包括所述业务对象在所述视频图像中的绘制位置的信息，所述业务对象配置有业务内容链接；绘制单元，用于采用计算机绘图方式在所述业务对象在所述视频图像中的绘制位置绘制所述业务对象。

可选地，所述装置还包括：操作检测单元，用于检测用户对在播放视频内容的界面上展现的所述业务对象的操作；业务内容展现单元，用于响应于所述操作检测单元检测到的用户对所述业务对象的操作，获取所述业务内容链接指向的业务内容，并且展现所述业务内容。

可选地，所述业务内容展现单元用于在所述视频内容的播放界面上弹出浮窗，并且在所述浮窗中展现所述业务内容，或者在所述视频内容的播放界面中展现所述业务内容。

可选地，所述展示信息还包括所述业务对象的位置信息或标识信息，所述绘制单元还用于根据所述业务对象的位置信息或标识信息获取所述业务对象的图像数据。

可选地，所述数据获取单元用于确定所述视频图像中所述业务对象的绘制位置。

可选地，所述数据获取单元用于使用预定的跟踪方法根据从所述视频图像的在先中确定的业务对象的绘制位置确定所述视频图像中所述业务对象的绘制位置。

可选地，所述数据获取单元用于：从所述视频图像确定目标对象的特征点，根据目标对象的特征点，使用预先训练的、用于确定业务对象在视频图像中的绘制位置的卷积网络模型，确定所述业务对象在所述视频图像中的绘制位置；或，从所述视频图像确定目标对象的类型，并且根据目标对象的类型确定所述业务对象的绘制位置。

可选地，所述数据获取单元用于：当所述目标对象的类型为人脸类型时，确定所述业务对象的绘制位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域；和/或，当所述目标对象的类型为背景类型时，确定所述业务对象的绘制位置包括：视频图像中的背景区域；和/或，当所述目标对象的类型为手部类型时，确定所述业务对象的绘制位置包括：视频图像中以手部所在的区域为中心的、设定范围内的区域；和/或，当所述目标对象的类型为动作类型时，确定所述业务对象的绘制位置包括：视频图像中预先设定的区域。

可选地，所述业务对象的图像数据为帧序列，所述绘制单元用于从所述图像数据获取与所述视频图像同步的帧数据，并且采用计算机绘图方式在所述绘制位置绘制所述帧数据。

可选地，所述数据获取单元用于从所述视频内容的视频码流获取所述视频图像以及所述展示信息。

可选地，所述业务对象为具有语义的特效或广告贴纸。

根据本发明实施例的另一方面，提供一种终端设备，包括一个或多个处理器、存储器、通信接口和通信总线，所述一个或多个处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如前所述的视频图像处理方法对应的操作。

根据本发明实施例提供的视频图像处理方案可通过在视频画面中添加绘制配置有业务内容链接的业务对象并进行展现，从而丰富了视频画面的内容，具有虚实结合的增强现实的效果；此外，通过绘制添加有业务内容链接的业务对象进一步获取和展现与业务对象相关的业务内容，为用户提供了与视频画面融合度高的交互功能，不影响观看者的正常视频观看体验，不易引起观看者反感，提高了视频内容的收看和互动效果。当配置有业务内容链接的业务对象用于展示广告时，与传统的视频广告方式相比，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，有利于节约网络资源和/或客户端的系统资源，还为用户提供了与视频画面融合度高的交互功能，提高了视频内容的收看和互动效果。

附图说明

图1是示出本发明的实施例一的视频图像处理方法的流程图；

图2示出根据本发明实施例二的视频图像处理方法的流程图；

图3示出根据本发明实施例三的视频图像处理装置的结构框图；

图4示出根据本发明实施例四的视频图像处理装置的结构框图；

图5示出根据本发明实施例五的终端设备的结构示意图。

具体实施方式

下面结合附图(若干附图中相同的标号表示相同的元素)和实施例，对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

实施例一

图1是示出本发明的实施例一的视频图像处理方法的流程图。可通过例如图5所示的装置或在包括该装置的终端设备中执行该方法。

参照图1，在步骤S110，获取视频内容的视频图像以及业务对象的展示信息，所述业务对象的展示信息包括所述业务对象在所述视频图像中的绘制位置的信息，所述业务对象配置有业务内容链接。

这里，视频内容可以是待播放的视频内容，如点播视频内容或直播视频内容。

该视频图像可以是例如，从另一终端设备接收到的带播放的视频内容的视频图像，也可以是从预先下载的视频内容解码得到的视频图像。在一种可选的实施方式中，从视频内容的视频码流获取所述视频图像以及该待绘制的业务对象的展示信息。例如，可与视频网站建立连接，接收指定点播或直播视频内容的视频码流，再对视频码流进行解码，获取视频图像以及业务对象的展示信息。也就是说，根据本实施例，提供视频内容的提供方需一同提供视频图像以及与该视频图像相关的展示信息，例如将视频图像以及该展示信息编码到视频码流中。

根据本发明的一种可选实施方式，所述视频码流为基于压缩能力强的H264标准的直播视频流，所述展示信息被携带在所述直播视频流的网络抽象层单元中，以从直播视频流获取视频图像和该展示信息。

根据本发明的实施例，待绘制的业务对象是即将在视频图像中添加绘制的物体，以丰富视频画面的内容。这里，待绘制的业务对象可以是具有语义的特效或广告贴纸。具体地，业务对象可包括，但不限于，包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效和粒子特效等。需要理解，本发明不限于适用特效或广告贴纸作为业务对象的应用场景，而是能够适用于任何添加绘制图像数据的情形。

为了将业务对象较好地融合在视频图像的视频画面中，需要获取该业务对象在视频图像中的绘制位置的信息。在一种可选的实施方式中，可从视频内容的传输流获取包括业务对象在所述视频图像中的绘制位置的信息的展示信息；在另一种可选的实施方式中，可确定所述视频图像中所述业务对象的绘制位置。从视频图像检测业务对象的绘制位置的方式有多种，将在后文中介绍一种视频图像检测业务对象的绘制位置的示例性实施方式。

业务内容链接是与该业务对象相关的业务内容的链接。例如，假设该业务对象是某品牌运动饮料的饮料瓶，相应的业务内容链接可以是售卖该品牌运动饮料的电商的链接或该电商网站上出售该品牌运动饮料的页面的链接。通过该链接，用户可访问该电商的网站或出售该品牌运动饮料的页面。再例如，假设该业务对象是视频图像中的某书籍，相应的业务内容链接可以该书籍的百科页面的链接，也可以是电商网站上出售该书籍的页面的链接。

这里，待绘制的业务对象配置有前述的业务内容链接。例如，在制作业务对象的素材时，可为业务对象的帧序列设置业务内容链接，并且设置用于触发该业务内容链接的访问的脚本代码，从而当用户对绘制的业务对象执行操作时，设置的脚本代码通过该业务内容链接获取相应的业务内容，并且展现该业务内容。

在步骤S120，采用计算机绘图方式在所述视频图像中的绘制位置绘制所述业务对象。

为了在视频画面中持续展现绘制的业务对象，因此可使用帧序列的图像数据来绘制业务对象。具体地，视频内容的视频图像也具有时间序列，因此可根据获取的视频图像的序列号或时间偏移值从帧序列的图像数据获取与当前的视频图像同步的帧数据。

根据本发明的一种可选实施方式，可预先从服务器端下载该业务对象的图像数据，并将该图像数据存储在本机的指定文件夹下。为了绘制该业务对象，可从该指定文件夹读取该图像数据。

根据本发明的另一可选实施方式，在步骤S110获取的展示信息还可包括业务对象的位置信息或标识信息。该位置信息可以是，但不限于，存有该业务对象的图像数据的存储位置信息，如指定文件夹的信息或获取该图像数据的统一资源标识符(URL)等。该标识信息可以是，但不限于，存有图像数据的文件标识(如文件名称)或资源标号等。

相应地，该视频图像处理方法可还包括，根据所述业务对象的位置信息或标识信息获取所述业务对象的图像数据，以用于绘制该业务对象。

具体地，从业务对象的图像数据获取与所述视频图像同步的帧数据，并且采用计算机绘图方式在所述绘制位置绘制所述帧数据，从而在绘制的过程中，带有绘制的业务对象的视频画面得到展现。

可以通过适用的图形图像绘制或渲染方法等绘制业务对象，包括但不限于，基于OpenGL图形绘制引擎进行绘制等。OpenGL定义了一个跨编程语言、跨平台的编程接口规格的专业的图形程序接口，其与硬件无关，可以方便地进行2D或3D图形图像的绘制。通过OpenGL，不仅可以实现2D效果如2D贴纸或特效的绘制，还可以实现3D特效的绘制及粒子特效的绘制等等。

对于业务对象为贴纸(如广告贴纸)情形，在进行业务对象的绘制时，可先获取业务对象的相关信息，如业务对象的标识、大小等。在确定了绘制位置之后，可以根据绘制位置所在区域(如绘制位置的矩形区域)的坐标，对业务对象进行缩放、旋转等调整，进而通过相应的绘图方式如OpenGL方式进行绘制，以使带有绘制的业务对象的视频画面得到展现。在某些情况下，广告还可以以三维特效形式展示，如通过粒子特效方式展示广告的文字或LOGO等等。

需要说明的是，随着互联网直播的兴起，越来越多的视频以直播的方式出现。这类视频具有场景简单、实时、因观众主要在手机等移动终端上观看而视频图像尺寸较小等特点。在此情况下，对于某些业务对象的投放如广告投放来说，一方面，由于移动终端的屏幕展示区域有限，如果以传统的固定位置放置广告，则会占据主要的用户体验区域，不仅容易引起用户反感，还可能导致直播的主播者丢失观众；另一方面，对于主播类直播应用，由于直播的即时性，传统的插入固定时长的广告会明显打扰用户与主播交流的连贯性，影响用户观看体验；再一方面，由于直播的内容时长本来就较短，也给采用传统方式插入固定时长的广告带来了困难。而通过业务对象投放广告，将广告投放与视频直播内容有效融合，方式灵活，效果生动，不仅不影响用户的直播观看体验，且提升了广告的投放效果。对于使用较小的显示屏幕进行业务对象展示，广告投放等场景尤其适用。

在视频播放界面上播放绘制了业务对象、并具有交互功能的视频图像的过程中，当用户例如点击在视频播放界面上绘制的业务对象时，可通过该业务内容链接获取并展现相应的业务内容。

通过本实施例提供的视频图像处理方法，可通过在视频画面中添加绘制配置有业务内容链接的业务对象并进行展现，从而丰富了视频画面的内容，具有虚实结合的增强现实的效果；此外，通过绘制添加有业务内容链接的业务对象进一步获取和展现与业务对象相关的业务内容，为用户提供了与视频画面融合度高的交互功能，不影响观看者的正常视频观看体验，不易引起观看者反感，提高了视频内容的收看和互动效果。当配置有业务内容链接的业务对象用于展示广告时，与传统的视频广告方式相比，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，有利于节约网络资源和/或客户端的系统资源，还为用户提供了与视频画面融合度高的交互功能，提高了视频内容的收看和互动效果。

实施例二

图2示出根据本发明实施例二的视频图像处理方法的流程图。

参照图2，在步骤S210，获取视频内容的视频图像。

该视频图像可以是通过例如摄像机、摄像头等图像采集设备连续采集到的视频内容的视频图像，或者，该视频内容可以是预先录制的视频内容。

在步骤S220，从所述视频图像检测待绘制的业务对象的绘制位置。

如前所述，待绘制的业务对象是即将在视频图像中添加绘制的物体，以丰富视频画面的内容。此外，业务对象配置有前述的业务内容链接。例如，在制作业务对象的素材时，可为业务对象的帧序列设置业务内容链接，并且设置用于触发该业务内容链接的访问的脚本代码，从而当用户对绘制的业务对象执行操作时，设置的脚本代码通过该业务内容链接获取相应的业务内容，并且展现该业务内容。

在本发明实施例中，业务对象的绘制位置可以至少由以下两种方式确定：方式一，从视频中确定目标对象的特征点根据目标对象的特征点，使用预先训练的、用于确定业务对象在视频图像中的绘制位置的卷积网络模型，确定待绘制的业务对象在视频图像中的绘制位置；方式二，从视频中确定目标对象的类型，根据目标对象的特征点，确定目标对象的类型；根据目标对象的类型，确定待绘制的业务对象的绘制位置。

以下，分别对上述两种方式进行详细说明。

方式一

在使用方式一确定待绘制的业务对象在视频图像中的绘制位置时，需要预先训练一个卷积网络模型，训练完成的该卷积网络模型具有确定业务对象在视频图像中的绘制位置的功能；或者，也可以直接使用第三方已训练完成的、具有确定业务对象在视频图像中的绘制位置的功能的卷积网络模型。

需要说明的是，本实施例中，着重对业务对象的训练进行说明对目标对象部分的训练可以参照相关技术实现，本发明实施例对此仅做简要说明。

当需要预先训练卷积网络模型时，一种可行的训练方式包括以下过程：

(1)获取待训练的业务对象样本图像的特征向量。

其中，特征向量中包含有业务对象样本图像中的目标对象的信息，以及，业务对象的位置信息和/或置信度信息。其中，目标对象的信息指示了目标对象的图像信息；业务对象的位置信息指示了业务对象的位置，可以是业务对象中心点的位置信息，也可以是业务对象所在区域的位置信息；业务对象的置信度信息指示了业务对象展示在当前位置时，能够达到的效果(如被关注或被点击或被观看)的概率，该概率可以根据对历史数据的统计分析结果设定，也可以根据仿真实验的结果设定，还可以根据人工经验进行设定。在实际应用中，在对目标对象进行训练的同时，可以根据实际需要，仅对业务对象的位置信息进行训练，也可以仅对业务对象的置信度信息进行训练，还可以对二者均进行训练。对二者均进行训练，能够使得训练后的卷积网络模型更为有效和精准地确定业务对象的位置信息和置信度信息，以便为业务对象的展示提供依据。

卷积网络模型通过大量的样本图像进行训练，本发明实施例中的业务对象样本图像中的业务对象可以被预先标注位置信息，或者置信度信息，或者二种信息都有。当然，在实际应用中，这些信息也可以通过其它途径获取。而通过预先在对业务对象进行相应信息的标注，可以有效节约数据处理的数据和交互次数，提高数据处理效率。

将具有目标对象信息，以及，业务对象的位置信息和/或置信度信息的业务对象样本图像作为训练样本，对其进行特征向量提取，获得包含有目标对象信息，以及业务对象的位置信息和/或置信度信息的特征向量。

其中，对特征向量的提取可以采用相关技术中的适当方式实现，本发明实施例在此不再赘述。

(2)对所述特征向量进行卷积处理，获取特征向量卷积结果。

获取的特征向量卷积结果中包含有目标对象的信息，以及，业务对象的位置信息和/或置信度信息。

对特征向量的卷积处理次数可以根据实际需要进行设定，也即，卷积网络模型中，卷积层的层数根据实际需要进行设置，最终的特征向量卷积结果满足误差在一定范围内(如为图像长或宽的1/20～1/5，优选地，可以为图像长或宽的1/10)的标准即可。

卷积结果是对特征向量进行了特征提取后的结果，该结果能够有效表征视频图像中各相关对象的特征和分类。

本发明实施例中，当特征向量中既包含业务对象的位置信息，又包含业务对象的置信度信息时，也即，对业务对象的位置信息和置信度信息均进行了训练的情况下，该特征向量卷积结果在后续分别进行收敛条件判断时共享，无须进行重复处理和计算，减少了由数据处理引起的资源损耗，提高了数据处理速度和效率。

(3)分别判断特征向量卷积结果中对应的目标对象的信息，以及，业务对象的位置信息和/或置信度信息是否满足收敛条件。

其中，收敛条件由本领域技术人员根据实际需求适当设定。当信息满足收敛条件时，可以认为卷积网络模型中的参数设置适当；当信息不能满足收敛条件时，可以认为卷积网络模型中的参数设置不适当，需要对其进行调整，该调整是一个迭代的过程，直至使用调整后的参数对特征向量进行卷积处理的结果满足收敛条件。

在一种可行方式中，收敛条件可以根据预设的标准位置和/或预设的标准置信度进行设定，如，将特征向量卷积结果中业务对象的位置信息指示的位置与该预设的标准位置之间的距离是否满足一定阈值作为业务对象的位置信息的收敛条件；将特征向量卷积结果中业务对象的置信度信息指示的置信度与该预设的标准置信度之间的差别是否满足一定阈值作为业务对象的置信度信息的收敛条件等。

其中，优选地，预设的标准位置可以是对待训练的业务对象样本图像中的业务对象的位置进行平均处理后获得的平均位置；预设的标准置信度可以是对待训练的业务对象样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。依据待训练的业务对象样本图像中的业务对象的位置和/或置信度设定标准位置和/或标准置信度，因样本图像为待训练样本且数据量庞大，因而设定的标准位置和标准置信度也更为客观和精确。

在具体进行特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件的判断时，一种可行的方式包括：

获取特征向量卷积结果中对应的业务对象的位置信息；使用第一损失函数，计算对应的业务对象的位置信息指示的位置与预设的标准位置之间的第一距离；根据第一距离判断对应的业务对象的位置信息是否满足收敛条件；

和/或，

获取特征向量卷积结果中对应的业务对象的置信度信息；使用第二损失函数，计算对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的第二距离；根据第二距离判断对应的业务对象的置信度信息是否满足收敛条件。

在一种可选的实施方式中，第一损失函数可以为计算对应的业务对象的位置信息指示的位置与预设的标准位置之间的欧式距离的函数；和/或，第二损失函数可以为计算对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的欧式距离的函数。采用欧式距离的方式，实现简单且能够有效指示收敛条件是否被满足。但不限于此，其它方式，如马式距离，巴式距离等也同样适用。

优选地，如前所述，预设的标准位置为对待训练的业务对象样本图像中的业务对象的位置进行平均处理后获得的平均位置；和/或，预设的标准置信度为对待训练的业务对象样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。

对于特征向量卷积结果中的目标对象的信息，对目标对象的信息是否收敛的判断可以参照相关使用卷积网络模型的收敛条件进行判断，在此不再赘述。若目标对象的信息满足收敛条件，则可对目标对象进行分类，明确目标对象的所属类别，以为后续业务对象的绘制位置确定提供参考和依据。

(4)若满足收敛条件，则完成对卷积网络模型的训练；若不满足收敛条件，则根据特征向量卷积结果，调整卷积网络模型的参数并根据调整后的卷积网络模型的参数对卷积网络模型进行迭代训练，直至迭代训练后的特征向量卷积结果满足收敛条件。

通过对卷积网络模型进行上述训练，卷积网络模型可以对基于目标对象进行展示的业务对象的绘制位置进行特征提取和分类，从而具有确定业务对象在视频图像中的绘制位置的功能。其中，当绘制位置包括多个时，通过上述业务对象置信度的训练，卷积网络模型还可以确定出多个绘制位置中的展示效果的优劣顺序，从而确定最优的绘制位置。在后续应用中，当需要展示业务对象时，根据视频中的当前图像即可确定出有效的绘制位置。

此外，在对卷积网络模型进行上述训练之前，还可以预先对业务对象样本图像进行预处理，包括：获取多个业务对象样本图像，其中，每个业务对象样本图像中包含有业务对象的标注信息；根据标注信息确定业务对象的位置，判断确定的业务对象的位置与预设位置的距离是否小于或等于设定阈值；将小于或等于设定阈值的业务对象对应的业务对象样本图像，确定为待训练的业务对象样本图像。其中，预设位置和设定阈值均可以由本领域技术人员采用任意适当方式进行适当设置，如根据数据统计分析结果或者相关距离计算公式或者人工经验等，本发明实施例对此不作限制。

在一种可行方式中，根据标注信息确定的业务对象的位置可以是业务对象的中心位置。在根据标注信息确定业务对象的位置，判断确定的业务对象的位置与预设位置的距离是否小于或等于设定阈值时，可以根据标注信息确定业务对象的中心位置；进而判断该中心位置与预设位置的方差是否小于或等于设定阈值。

通过预先对业务对象样本图像进行预处理，可以过滤掉不符合条件的样本图像，以保证训练结果的准确性。

通过上述过程实现了卷积网络模型的训练，训练完成的该卷积网络模型可以用来确定业务对象在视频图像中的绘制位置。例如，在视频直播过程中，若主播点击业务对象指示进行业务对象展示时，在卷积网络模型获得了直播的视频图像中主播的面部特征点后，可以指示出展示业务对象的最优位置如主播的额头位置，进而移动终端控制直播应用在该位置展示业务对象；或者，在视频直播过程中，若主播点击业务对象指示进行业务对象展示时，卷积网络模型可以直接根据直播的视频图像确定业务对象的绘制位置。

方式二

在方式二中，首先需要根据目标对象的特征点，确定目标对象的类型；再根据目标对象的类型，确定待绘制的业务对象的绘制位置。

其中，目标对象的类型包括但不限于：人脸类型、背景类型、手部类型和动作类型。其中，人脸类型用于指示人脸在视频图像中占据主要部分，背景类型用于指示背景在视频图像中占据较大部分，手部类型用于指示手部在视频图像中占据主要部分，而动作类型则用于指示人物进行了某种动作。

其中，在获取了目标对象的特征点之后，可以采用已有的相关检测、分类或学习方法确定目标对象的类型。在确定了目标对象的类型之后，可以按照设定的规则确定待绘制的业务对象的绘制位置，包括：

当目标对象的类型为人脸类型时，确定待绘制的业务对象的绘制位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域；和/或，

当目标对象的类型为背景类型时，确定待绘制的业务对象的绘制位置包括：视频图像中的背景区域；和/或，

当目标对象的类型为手部类型时，确定待绘制的业务对象的绘制位置包括：视频图像中以手部所在的区域为中心的、设定范围内的区域；和/或，

当目标对象的类型为动作类型时，确定待绘制的业务对象的绘制位置包括：视频图像中预先设定的区域。

其中，视频图像中预先设定的区域可以包括：视频图像中人物之外的任一区域，对于预先设定的区域可以由本领域技术人员根据实际情况适当设置，如，以动作生成部位为中心的设定范围内的区域，或者，动作生成部位以外的设定范围内的区域，或者背景区域等等，本发明实施例对此不作限制。

在一种可选的实施方式中，所述动作类型对应的动作包括以下至少之一：眨眼、张嘴、点头、摇头、亲吻、微笑、挥手、剪刀手、握拳、托手、竖大拇指、摆手枪姿势、摆V字手、摆OK手。

在绘制业务对象时，可以绘制位置的中心点或任一坐标为业务对象的中心点进行业务对象的绘制；再例如，将绘制位置中的某一坐标位置确定为的中心点等，本发明实施例对此不作限制。在本发明实施例中视频图像中预先设定的区域可以包括：视频图像中人物的区域或视频图像中人物之外的任一区域。

此外，在连续采集的视频内容的视频图像之间，任一物体在视频画面中的位置不会产生跳变，也就是说，在当前的视频图像中，任一物体(如参照对象)通常会在前一视频图像所在的位置附近。因此，根据本发明的示例性实施例，使用预定的跟踪方法根据从所述视频图像的在先视频图像(如当前视频图像的前一帧或前两帧等)中确定的业务对象的绘制位置确定所述视频图像中所述业务对象的绘制位置。通过以从在先视频图像检测到的绘制位置来确定当前视频图像中的业务对象的绘制位置的方式，可以无需每次都对视频图像进行全幅检测，减少了运算量，提高了速度和效率。

在步骤S230，采用计算机绘图方式在所述视频图像中的绘制位置绘制所述业务对象，以使带有绘制的业务对象的视频画面得到展现。

步骤S230与前述的步骤S120类似，在此不予赘述。

此后，在视频内容的播放过程中，用户可以在播放视频内容的界面上进行操作，如点击界面的某一位置、在界面上进行滑动、在界面上进行多点缩放等。当检测到用户在播放视频内容的界面上的上述操作后，如果用户对展现的视频图像中的业务对象执行操作，则执行步骤S240。

在步骤S240，响应于用户对在播放视频内容的界面上展现的所述业务对象的操作，获取所述业务内容链接指向的业务内容，并且展现所述业务内容。

具体地，播放视频内容的界面可以是，但不限于，视频播放应用的界面、直播应用的界面等。可在视频内容的播放界面上弹出浮窗，并且在浮窗中展现该业务内容，从而用户在完成查看业务内容后，可返回视频内容的播放界面。或者，也可以在视频内容的播放界面中跳转到该业务内容链接，在该播放界面中展现该业务内容。

本实施例的一个应用场景是，在直播应用中，在直播画面上主播的头部绘制了某品牌的头饰的广告贴纸并且为该头饰的广告贴纸设置了头饰生产商的官网网页的业务内容链接。当用户在观看直播的过程中，点击了直播画面的头饰区域时，通过步骤S240的处理，该直播应用通过业务内容链接获取相应的头饰生产商的官网网页，并且展现该官网网页。

通过本实施例提供的视频图像处理方法，可从要展现的视频内容检测待绘制的业务对象的绘制位置，并且在视频画面中添加绘制各类如广告贴纸或特效的业务对象，丰富了视频画面的内容，具有虚实结合的增强现实的效果；此外，由于绘制的该业务对象配置有相应的业务内容链接，因此，用户可通过对绘制的业务对象的操作进一步获取和展现与业务对象相关的业务内容，为用户提供了与视频画面融合度高的交互功能，不影响观看者的正常视频观看体验，不易引起观看者反感，提高了视频内容的收看和互动效果。当配置有业务内容链接的业务对象用于展示广告时，与传统的视频广告方式相比，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，有利于节约网络资源和/或客户端的系统资源，还为用户提供了与视频画面融合度高的交互功能，提高了视频内容的收看和互动效果。

实施例三

图3示出根据本发明实施例三的视频图像处理装置的结构框图。

参照图3，实施例三的视频图像处理装置包括数据获取单元310和绘制单元320。

数据获取单元310用于获取视频内容的视频图像以及业务对象的展示信息，所述业务对象的展示信息包括所述业务对象在所述视频图像中的绘制位置的信息，所述业务对象配置有业务内容链接。

绘制单元320用于采用计算机绘图方式在所述业务对象在所述视频图像中的绘制位置绘制所述业务对象。

可选地，所述展示信息还包括所述业务对象的位置信息或标识信息，绘制单元320还用于根据所述业务对象的位置信息或标识信息获取所述业务对象的图像数据。

可选地，所述业务对象的图像数据为帧序列，绘制单元320用于从所述图像数据获取与所述视频图像同步的帧数据，并且采用计算机绘图方式在所述视频图像中的绘制位置绘制所述帧数据。

可选地，数据获取单元310用于从所述视频内容的视频码流获取所述视频图像以及所述展示信息。

可选地，所述业务对象为具有语义的特效或广告贴纸。

本实施例视频图像处理装置用于实现前述多个方法实施例中相应的视频图像处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。

此外，本实施例的视频图像处理装置可以设置于适当的终端设备中，包括但不限于移动终端、PC等。

实施例四

图4示出根据本发明实施例四的视频图像处理装置的结构框图。

参照图4，实施例四的视频图像处理装置除包括数据获取单元310和绘制单元320以外，还包括操作检测单元330和业务内容展现单元340。

操作检测单元330用于检测用户对在播放视频内容的界面上展现的所述业务对象的操作。

业务内容展现单元340用于响应于所述操作检测单元检测到的用户对所述业务对象的操作，获取所述业务内容链接指向的业务内容，并且展现所述业务内容。

可选地，业务内容展现单元340用于在所述视频内容的播放界面上弹出浮窗，并且在所述浮窗中展现所述业务内容，或者在所述视频内容的播放界面中展现所述业务内容。

可选地，数据获取单元310用于确定所述视频图像中所述业务对象的绘制位置。

可选地，数据获取单元310用于使用预定的跟踪方法根据从所述视频图像的在先中确定的业务对象的绘制位置确定所述视频图像中所述业务对象的绘制位置。

可选地，数据获取单元310用于：从所述视频图像确定目标对象的特征点，根据目标对象的特征点，使用预先训练的、用于确定业务对象在视频图像中的绘制位置的卷积网络模型，确定所述业务对象在所述视频图像中的绘制位置；或，从所述视频图像确定目标对象的类型，并且根据目标对象的类型确定所述业务对象的绘制位置。

可选地，数据获取单元310用于：当所述目标对象的类型为人脸类型时，确定所述业务对象的绘制位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域；和/或，当所述目标对象的类型为背景类型时，确定所述业务对象的绘制位置包括：视频图像中的背景区域；和/或，当所述目标对象的类型为手部类型时，确定所述业务对象的绘制位置包括：视频图像中以手部所在的区域为中心的、设定范围内的区域；和/或，当所述目标对象的类型为动作类型时，确定所述业务对象的绘制位置包括：视频图像中预先设定的区域。

实施例五

图5示出根据本发明实施例五的终端设备的结构示意图。本发明具体实施例并不对终端设备的具体实现做限定。

如图5所示，该终端设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它设备比如其它客户端或服务器等的网元通信。

处理器502，用于执行程序510，具体可以执行上述方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器510可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路，或者是图形处理器GPU(Graphics Processing Unit)。终端设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU，或者，一个或多个GPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个GPU。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：获取视频内容的视频图像以及业务对象的展示信息，所述业务对象的展示信息包括所述业务对象在所述视频图像中的绘制位置的信息，所述业务对象配置有业务内容链接；采用计算机绘图方式在所述视频图像中的绘制位置绘制所述业务对象。

在一种可选的实施方式中，程序510还用于使得处理器502执行以下操作：响应于用户对在播放视频内容的界面上展现的所述业务对象的操作，获取所述业务内容链接指向的业务内容，并且展现所述业务内容。

在一种可选的实施方式中，程序510具体可以用于使得处理器502执行以下操作：在所述视频内容的播放界面上弹出浮窗，并且在所述浮窗中展现所述业务内容；或者，在所述视频内容的播放界面中展现所述业务内容。

在一种可选的实施方式中，所述展示信息还包括所述业务对象的位置信息或标识信息；程序510还用于使得处理器502根据所述业务对象的位置信息或标识信息获取所述业务对象的图像数据。

在一种可选的实施方式中，程序510具体可以用于使得处理器502执行以下操作：确定所述视频图像中所述业务对象的绘制位置。

在一种可选的实施方式中，程序510具体可以用于使得处理器502执行以下操作：使用预定的跟踪方法根据从所述视频图像的在先中确定的业务对象的绘制位置确定所述视频图像中所述业务对象的绘制位置。

在一种可选的实施方式中，程序510具体可以用于使得处理器502执行以下操作：从所述视频图像确定目标对象的特征点，根据目标对象的特征点，使用预先训练的、用于确定业务对象在视频图像中的绘制位置的卷积网络模型，确定所述业务对象在所述视频图像中的绘制位置；或，从所述视频图像确定目标对象的类型，并且根据目标对象的类型确定所述业务对象的绘制位置。

在一种可选的实施方式中，程序510具体可以用于使得处理器502执行以下操作：当所述目标对象的类型为人脸类型时，确定所述业务对象的绘制位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域；和/或，当所述目标对象的类型为背景类型时，确定所述业务对象的绘制位置包括：视频图像中的背景区域；和/或，当所述目标对象的类型为手部类型时，确定所述业务对象的绘制位置包括：视频图像中以手部所在的区域为中心的、设定范围内的区域；和/或，当所述目标对象的类型为动作类型时，确定所述业务对象的绘制位置包括：视频图像中预先设定的区域。

在一种可选的实施方式中，所述业务对象的图像数据为帧序列，程序510具体可以用于使得处理器502执行以下操作：从所述图像数据获取与所述视频图像同步的帧数据，采用计算机绘图方式在所述绘制位置绘制所述帧数据。

在一种可选的实施方式中，所述业务对象的图像数据为帧序列，程序510具体可以用于使得处理器502执行以下操作：从所述视频内容的视频码流获取所述视频图像以及所述展示信息。

在一种可选的实施方式中，所述业务对象为具有语义的特效或广告贴纸。

在一种可选的实施方式中，所述业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效和粒子特效。

在一种可选的实施方式中，所述视频码流为基于H264标准的直播视频流，所述展示信息被携带在所述直播视频流的网络抽象层单元中。

本实施例视频图像的终端设备用于实现前述多个方法实施例中相应的视频图像处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种视频图像处理方法，包括：

获取视频内容的视频图像以及业务对象的展示信息，所述业务对象的展示信息包括所述业务对象在所述视频图像中的绘制位置的信息，所述业务对象配置有业务内容链接；

采用计算机绘图方式在所述视频图像中的绘制位置绘制所述业务对象。

2.根据权利要求1所述的方法，其中，所述方法还包括：

响应于用户对在播放视频内容的界面上展现的所述业务对象的操作，获取所述业务内容链接指向的业务内容，并且展现所述业务内容。

3.根据权利要求1或2所述的方法，其中，获取业务对象在所述视频图像中的展示信息包括：

确定所述视频图像中业务对象的绘制位置。

4.根据权利要求3所述的方法，其中，所述确定所述视频图像中业务对象的绘制位置包括：

从所述视频图像确定目标对象的特征点，根据目标对象的特征点，使用预先训练的、用于确定业务对象在视频图像中的绘制位置的卷积网络模型，确定所述业务对象在所述视频图像中的绘制位置；

或，

从所述视频图像确定目标对象的类型，并且根据目标对象的类型确定所述业务对象的绘制位置。

5.根据权利要求4所述的方法，其中，所述根据目标对象的类型确定所述业务对象的绘制位置包括：

当所述目标对象的类型为人脸类型时，确定所述业务对象的绘制位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域；和/或，

当所述目标对象的类型为背景类型时，确定所述业务对象的绘制位置包括：视频图像中的背景区域；和/或，

当所述目标对象的类型为手部类型时，确定所述业务对象的绘制位置包括：视频图像中以手部所在的区域为中心的、设定范围内的区域；和/或，

当所述目标对象的类型为动作类型时，确定所述业务对象的绘制位置包括：视频图像中预先设定的区域。

6.根据权利要求1～5中任一项所述的方法，其中，所述业务对象为具有语义的特效或广告贴纸。

7.根据权利要求1～6中任一项所述的方法，其中，所述业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效和粒子特效。

8.一种视频图像处理装置，包括：

数据获取单元，用于获取视频内容的视频图像以及业务对象的展示信息，所述业务对象的展示信息包括所述业务对象在所述视频图像中的绘制位置的信息，所述业务对象配置有业务内容链接；

绘制单元，用于采用计算机绘图方式在所述业务对象在所述视频图像中的绘制位置绘制所述业务对象。

9.根据权利要求8所述的装置，其中，所述装置还包括：

操作检测单元，用于检测用户对在播放视频内容的界面上展现的所述业务对象的操作；

业务内容展现单元，用于响应于所述操作检测单元检测到的用户对所述业务对象的操作，获取所述业务内容链接指向的业务内容，并且展现所述业务内容。

10.根据权利要求8或9所述的装置，其中，所述业务对象为具有语义的特效或广告贴纸。