CN107343211B

CN107343211B - 视频图像处理方法、装置和终端设备

Info

Publication number: CN107343211B
Application number: CN201610694625.1A
Authority: CN
Inventors: 王雷; 栾青; 许亲亲
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2019-04-09
Anticipated expiration: 2036-08-19
Also published as: CN107343211A

Abstract

本发明实施例提供一种视频图像处理方法、装置和终端设备。所述方法包括：从视频图像中检测至少一个目标对象，并确定所述至少一个目标对象的特征点；根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频图像中相应的展示位置；在所述相应的展示位置采用计算机绘图方式分别绘制所述多个关联业务对象。采用本发明实施例，允许保留视频图像中视频主体(如主播)等信息的同时，多角度展示业务对象，从而吸引了观众的注意力，进而提高了业务对象的影响力。并且，节约了网络资源和客户端的系统资源。

Description

视频图像处理方法、装置和终端设备

技术领域

本发明涉及信息处理技术，尤其涉及一种视频图像处理方法、装置和终端设备。

背景技术

随着图像处理和信息处理技术的不断发展，视频直播由于融合了图像、文字和声音等元素，声形并茂，已逐渐成为互联网的主流表达方式。由此，互联网视频已成为重要的业务流量入口，同时被认为是广告植入的优质资源。

现有视频广告主要通过植入的方式，在视频播放之前或者视频播放过程中某个时间插入固定时长的广告，或在视频播放的区域及其周边区域固定位置放置广告。然而，一方面，这种视频广告方式往往打扰观众的正常视频观看体验，引起观众反感，不能达到预想的广告效果；另一方面，这种视频广告方式不但占用网络资源，也占用客户端的系统资源。

发明内容

本发明提供一种视频图像处理的方案。

根据本发明实施例的一方面，提供一种视频图像处理方法。所述方法包括：从视频图像中检测至少一个目标对象，并确定所述至少一个目标对象的特征点；根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频图像中相应的展示位置；在所述相应的展示位置采用计算机绘图方式分别绘制所述多个关联业务对象。其中，所述多个关联业务对象包括以下至少之一：用于展示同一业务对象主题的包含有语义信息的多个特效、包含有语义信息的同一特效的多个展示部分、属于同一业务对象提供者提供的包含有语义信息的多个特效。

根据本发明实施例的一方面，提供一种视频图像处理方法，所述方法包括：从直播的视频中检测至少一个目标对象，并确定所述至少一个目标对象的特征点，所述目标对象包括动作；根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频中相应的展示位置；所述展示位置包括：以动作生成部位为中心的设定范围内的区域，或者，动作生成部位以外的设定范围内的区域；在所述相应的展示位置采用计算机绘图方式分别绘制所述多个关联业务对象。

可选地，所述根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频图像中相应的展示位置，包括：根据所述至少一个目标对象的特征点，使用预先训练的、用于确定业务对象在视频图像中的展示位置的卷积网络模型，确定所述多个待展示的关联业务对象在所述视频图像中相应的展示位置。

可选地，对所述卷积网络模型的预先训练包括：获取待训练的业务对象样本图像的特征向量，其中，所述特征向量中包含有所述业务对象样本图像中的业务对象的位置信息和/或置信度信息；对所述特征向量进行卷积处理，获取特征向量卷积结果；判断所述特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件；若满足，则完成对所述卷积网络模型的训练；若不满足，则根据所述特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息，调整所述卷积网络模型的参数并根据调整后的所述卷积网络模型的参数对所述卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息满足所述收敛条件。

可选地，所述根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频图像中相应的展示位置，包括：根据所述至少一个目标对象的特征点，确定所述至少一个目标对象的类型；根据所述至少一个目标对象的类型，确定所述多个待展示的关联业务对象相应的展示区域；根据所述多个待展示的关联业务对象相应的展示区域，确定所述多个待展示的关联业务对象在所述视频图像中相应的展示位置。

可选地，所述目标对象还包括人脸，所述根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频中相应的展示位置，包括：根据所述人脸的特征点，确定待展示的关联业务对象在所述视频中相应的展示位置包括以下至少之一：视频中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域；和/或，所述目标对象还包括背景，所述根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频中相应的展示位置，包括：根据所述背景的特征点，确定待展示的关联业务对象在所述视频中相应的展示位置包括：视频中的背景区域。

可选地，所述根据所述至少一个目标对象的类型，确定所述多个待展示的关联业务对象相应的展示区域，包括：当所述目标对象的类型为人脸类型时，确定待展示的关联业务对象的展示区域包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域；和/或，当所述目标对象的类型为背景类型时，确定待展示的关联业务对象的展示区域包括：视频图像中的背景区域；和/或，当所述目标对象的类型为手部类型时，确定待展示的关联业务对象的展示区域包括：视频图像中以手部所在的区域为中心的、设定范围内的区域；和/或，当所述目标对象的类型为动作类型时，确定待展示的关联业务对象的展示区域包括：视频图像中预先设定的区域。

可选地，所述根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频图像中相应的展示位置，包括：根据所述至少一个目标对象的特征点和所述多个待展示的关联业务对象的类型，确定所述多个待展示的关联业务对象在所述视频图像中的展示位置。

可选地，所述根据所述至少一个目标对象的特征点和所述多个待展示的关联业务对象的类型，确定所述多个待展示的关联业务对象在所述视频图像中的展示位置，包括：根据所述至少一个目标对象的特征点和所述多个待展示的关联业务对象的类型，获得每个待展示的关联业务对象在所述视频图像中的多个展示位置；分别从所述多个展示位置中选择至少一个展示位置。

可选地，所述关联业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型、背景类型、虚拟宠物类型和虚拟容器类型。

可选地，所述根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频图像中相应的展示位置，包括：从预先存储的目标对象的特征点与展示位置的对应关系中，获取与所述至少一个目标对象的特征点相对应的目标展示位置；将获取的多个所述目标展示位置确定为所述多个待展示的关联业务对象在所述视频图像中相应的展示位置。

可选地，所述特效为包含广告信息的二维贴纸特效、三维特效、粒子特效中任意一种。

可选地，所述相应的展示位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。

根据本发明实施例的另一方面，提供一种视频图像处理装置。所述装置包括：第一确定模块，用于从视频图像中检测至少一个目标对象，并确定所述至少一个目标对象的特征点；第二确定模块，用于根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频图像中相应的展示位置；绘制模块，用于在所述相应的展示位置采用计算机绘图方式分别绘制所述多个关联业务对象。其中，所述多个关联业务对象包括以下至少之一：用于展示同一业务对象主题的包含有语义信息的多个特效、包含有语义信息的同一特效的多个展示部分、属于同一业务对象提供者提供的包含有语义信息的多个特效。

根据本发明实施例的另一方面，提供一种视频图像处理装置，所述装置包括：第一确定模块，用于从直播的视频中检测至少一个目标对象，并确定所述至少一个目标对象的特征点，所述目标对象包括动作；第二确定模块，用于根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频中相应的展示位置；所述展示位置包括：以动作生成部位为中心的设定范围内的区域，或者，动作生成部位以外的设定范围内的区域；绘制模块，用于在所述相应的展示位置采用计算机绘图方式分别绘制所述多个关联业务对象。

可选地，所述第二确定模块，用于根据所述至少一个目标对象的特征点，使用预先训练的、用于确定业务对象在视频图像中的展示位置的卷积网络模型，确定所述多个待展示的关联业务对象在所述视频图像中相应的展示位置。

可选地，所述装置还包括：训练模块，用于对所述卷积网络模型进行预先训练。所述训练模块包括：第一获取单元，用于获取待训练的业务对象样本图像的特征向量，其中，所述特征向量中包含有所述业务对象样本图像中的业务对象的位置信息和/或置信度信息；第二获取单元，用于对所述特征向量进行卷积处理，获取特征向量卷积结果；判断单元，用于判断所述特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件；执行单元，用于若满足，则完成对所述卷积网络模型的训练；若不满足，则根据所述特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息，调整所述卷积网络模型的参数并根据调整后的所述卷积网络模型的参数对所述卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息满足所述收敛条件。

可选地，所述第二确定模块包括：类型确定单元，用于根据所述至少一个目标对象的特征点，确定所述至少一个目标对象的类型；区域确定单元，用于根据所述至少一个目标对象的类型，确定所述多个待展示的关联业务对象相应的展示区域；位置确定单元，用于根据所述多个待展示的关联业务对象相应的展示区域，确定所述多个待展示的关联业务对象在所述视频图像中相应的展示位置。

可选地，所述区域确定单元包括：第一区域确定子单元，用于当所述目标对象的类型为人脸类型时，确定待展示的关联业务对象的展示区域包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域。第二区域确定子单元，用于当所述目标对象的类型为背景类型时，确定待展示的关联业务对象的展示区域包括：视频图像中的背景区域；第三区域确定子单元，用于当所述目标对象的类型为手部类型时，确定待展示的关联业务对象的展示区域包括：视频图像中以手部所在的区域为中心的、设定范围内的区域；第四区域确定子单元，用于当所述目标对象的类型为动作类型时，确定待展示的关联业务对象的展示区域包括：视频图像中预先设定的区域。

可选地，所述目标对象还包括人脸，所述第二确定模块包括：第一区域确定子单元，用于根据所述人脸的特征点，确定多个待展示的关联业务对象在所述视频中相应的展示位置包括以下至少之一：视频中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域；和/或，所述目标对象还包括背景，所述第二确定模块包括：第二区域确定子单元，用于根据所述背景的特征点，确定多个待展示的关联业务对象在所述视频中相应的展示位置包括：视频中的背景区域。

可选地，所述第二确定模块，用于根据所述至少一个目标对象的特征点和所述多个待展示的关联业务对象的类型，确定所述多个待展示的关联业务对象在所述视频图像中的展示位置。

可选地，所述第二确定模块，用于根据所述至少一个目标对象的特征点和所述多个待展示的关联业务对象的类型，获得每个待展示的关联业务对象在所述视频图像中的多个展示位置；分别从所述多个展示位置中选择至少一个展示位置。

可选地，所述第二确定模块，用于从预先存储的目标对象的特征点与展示位置的对应关系中，获取与所述至少一个目标对象的特征点相对应的目标展示位置；将获取的多个所述目标展示位置确定为所述多个待展示的关联业务对象在所述视频图像中相应的展示位置。

根据本发明实施例的又一方面，提供一种终端设备。所述终端设备包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上述提供的视频图像处理方法对应的操作。

根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读取的程序指令，所述程序指令被处理器执行时用于完成本发明任一视频图像处理方法实施例对应的操作。

根据本发明实施例提供的视频图像处理方法、装置和终端设备，首先从视频图像中检测至少一个目标对象并确定至少一个目标对象的特征点，不同的目标对象具有不同的特征点；其次，可以将确定的至少一个目标对象的特征点作为确定待展示的关联业务对象的展示位置的依据，从而有效确定多个待展示的关联业务对象相应的展示位置；进而，在相应的展示位置采用计算机绘图方式分别绘制多个关联业务对象，以进行业务对象的展示。例如，在人脸配合简单背景的视频图像中，可对该视频图像进行检测获得人脸这一目标对象并确定其特征点，包括但不限于对应于眉毛、眼睛、嘴巴、鼻子、脸部轮廓中的部分或全部的特征点，进而，以这些特征点为参考，确定多个待展示的关联业务对象的展示位置，如在眉毛以上的额头部位、嘴巴等位置，用来展示如同一业务对象提供者提供的关联业务对象。当关联业务对象用于展示广告时，与传统的视频广告方式相比，一方面，关联业务对象与视频图像中的目标对象相互衬托、紧密结合，在不影响观众的正常视频观看的同时，多角度展示关联业务对象，可以有效实现预想的效果；另一方面，该关联业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和客户端的系统资源。

附图说明

图1示出是根据本发明实施例一的视频图像处理方法的流程图；

图2示出是根据本发明实施例二的视频图像处理方法的流程图；

图3示出是根据本发明实施例三的视频图像处理方法的流程图；

图4示出是根据本发明实施例四的视频图像处理方法的流程图；

图5示出是根据本发明实施例五的视频图像处理装置的逻辑框图；

图6示出是根据本发明实施例六的视频图像处理装置的逻辑框图；

图7示出是根据本发明实施例七的终端设备的结构示意图。

具体实施方式

下面结合附图详细描述本发明的示例性实施例。

实施例一

图1是示出根据本发明实施例一的视频图像处理方法的流程图。通过包括视频图像处理装置的设备执行所述方法。

参照图1，在步骤S110，从视频图像中检测至少一个目标对象，并确定至少一个目标对象的特征点。

本步骤中，视频图像可以是正在直播的视频中的图像，或者预先完成录制后期播放的视频中的图像等。目标对象是存在于视频图像中的、易被观众查看的对象，包括但不限于：人体(包括人脸和身体部位等)、动作(包括姿势和手势等)、背景等。目标对象一般具有一定数量的特征点，例如人脸中主要包括眼睛、鼻子、嘴巴、脸部轮廓的传统68个特征点，再例如手部主要包括的指尖、指谷和手部轮廓的特征点，再例如背景边界的特征点等等，本发明实施例不对目标对象及目标对象的特征点作具体限制。

以直播视频为例，直播视频大多以主播和主播身后的背景(如主播的家)组成。检测直播视频图像可得到一个目标对象如人脸，或者多个目标对象如人脸、背景、动作等。

在获得视频图像后，通过检测视频图像中的目标对象并确定目标对象的特征点，可以为后续确定待展示的业务对象的展示位置提供依据。例如，若确定了背景的边界特征点后，可以在背景的适当位置展示业务对象，或者，若确定了人脸的特征点，则可以在人脸的适当位置展示业务对象，如额头、脸颊等。其中，在从视频图像中检测目标对象并确定目标对象的特征点的处理可以采用相应的特征提取算法，或者使用神经网络模型如卷积网络模型等实现。

在步骤S120，根据至少一个目标对象的特征点，确定多个待展示的30关联业务对象在视频图像中相应的展示位置。

这里，多个关联业务对象包括但不限于以下至少之一：用于展示同一业务对象主题的包含有语义信息的多个特效、包含有语义信息的同一特效的多个展示部分、属于同一业务对象提供者提供的包含有语义信息的多个特效。所述特效为包含广告信息的二维贴纸特效、三维特效、粒子特效中任意一种。例如，三维形式的广告特效(使用3D特效形式展示的广告)，二维形式的贴纸如二维形式的广告贴纸(使用贴纸行驶展示的广告)。此外，其它形式的业务对象也同样适用本发明实施例提供的视频图像处理方案，如APP或其它应用的文字说明或介绍，或者一定形式的与视频观众交互的对象(如电子宠物)等。例如，可口可乐公司提供的脸颊贴纸特效、额头贴纸特效、背景贴纸特效等。再比如，游戏主题的虚拟头饰贴纸特效、虚拟服装贴纸特效、有关游戏场景的背景贴纸特效等。

其中，根据至少一个目标对象的特征点，确定多个待展示的关联业务对象在视频图像中的展示位置的方式将在后文详细描述，包括但不限于：根据目标对象的特征点，按照设定规则确定展示位置；根据目标对象的特征点，使用训练过的神经网络模型如卷积网络模型确定等。

此外，还可从预先存储的目标对象的特征点与展示位置的对应关系中，获取与至少一个目标对象的特征点相对应的目标展示位置；将获取的多个目标展示位置确定为多个待展示的关联业务对象在视频图像中相应的展示位置。这里，目标对象的特征点与展示位置的对应关系可以映射表等形式存储起来，本发明实施例对对应关系的存储形式不作限制。

在步骤S130，在相应的展示位置采用计算机绘图方式分别绘制多个关联业务对象。

在确定了多个展示位置后，即可在相应的展示位置采用计算机绘图方式进行多个关联业务对象的绘制，以进行关联业务对象展示。具体地，采用计算机绘图方式绘制关联业务对象可以通过适当的计算机图形图像绘制或渲染等方式实现，包括但不限于：基于OpenGL图形绘制引擎进行绘制等。OpenGL定义了一个跨编程语言、跨平台的编程接口规格的专业的图形程序接口，其与硬件无关，可以方便地进行2D或3D图形图像的绘制。通过OpenGL，不仅可以实现2D效果如2D贴纸的绘制，还可以实现3D特效的绘制及粒子特效的绘制等等。但不限于OpenGL，其它方式，如Unity或OpenCL等也同样适用。

当关联业务对象为贴纸，如广告贴纸时，在采用计算机绘图方式进行业务对象的绘制时，可以先获取关联业务对象的相关信息，如关联业务对象的标识、大小等。在确定了展示位置之后，可以根据展示位置所在区域(如展示位置的矩形区域)的坐标，对关联业务对象进行缩放、旋转等调整，进而通过相应的绘图方式如OpenGL方式进行绘制。在某些情况下，广告还可以以三维特效形式展示，如通过粒子特效方式展示广告的文字或LOGO等等。

这里，相应的展示位置可包括但不限于以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。由此，多个待展示的关联业务对象可在同一展示位置上展示，也可以在不同展示位置上展示。

举例来说，假设检测出的目标对象是人脸和背景，确定的三个展示位置是人脸中嘴巴、手部、背景，就可以在嘴巴的展示位置绘制带有某一业务对象提供者(如可口可乐公司)的包含广告信息的多个特效，如在手部的展示位置绘制虚拟容器(如可口可乐的饮料瓶)的贴纸特效，在背景的展示位置绘制如可口可乐公司海报为背景的贴纸特效。

需要说明的是，随着互联网直播的兴起，越来越多的视频以直播的方式出现。这类视频具有场景简单、实时、因观众主要在手机等移动终端上观看而视频图像尺寸较小等特点。在此情况下，对于某些业务对象的投放如广告投放来说，一方面，由于移动终端的屏幕展示区域有限，如果以传统的固定位置放置广告，则会占用主要的用户体验区域，不仅容易引起用户反感，还可能导致直播的主播者丢失观众；另一方面，对于主播类直播应用，由于直播的即时性，传统的插入固定时长的广告会明显打扰用户与主播交流的连贯性，影响用户观看体验；再一方面，由于直播的内容时长本来就较短，也给采用传统方式插入固定时长的广告带来了困难。而通过关联业务对象投放广告，将广告投放与视频直播内容有效融合，方式灵活，效果生动，不仅不影响用户的直播观看体验，且提升了广告的投放效果。对于使用较小的显示屏幕进行业务对象展示，广告投放等场景尤其适用。

通过本实施例提供的视频图像处理方法，首先从视频图像中检测至少一个目标对象并确定至少一个目标对象的特征点，不同的目标对象具有不同的特征点；然后，可以将确定的至少一个目标对象的特征点作为确定待展示的业务对象的展示位置的依据，从而有效确定多个待展示的关联业务对象的展示位置；进而，在确定的多个展示位置采用计算机绘图方式分别绘制关联业务对象，以进行业务对象的展示。当关联业务对象用于展示广告时，与传统的视频广告方式相比，一方面，关联业务对象与视频图像中的目标对象相互衬托、紧密结合，在不影响观众的正常视频观看的同时，多角度展示业务对象，从而吸引了观众的注意力，进而提高了业务对象的影响力；另一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和客户端的系统资源。

实施例二

图2示出是根据本发明实施例二的视频图像处理方法的流程图。本实施例的视频图像处理方法可以由任意具有数据采集、处理和传输功能的设备执行，包括但不限于移动终端和PC等。本实施例以移动终端为例，对本发明实施例提供的视频图像处理方法进行说明，其它设备可参照本实施例执行。

参照图1，在步骤S210，从视频图像中检测至少一个目标对象，并确定至少一个目标对象的特征点。

视频图像可以是视频中的视频数据帧对应的图像，每个图像中都具有一定的目标对象，如人物、手势、背景等。对视频图像中的目标对象进行检测并确定特征点，可以采用任意适当的相关技术中的方式实现，本发明实施例对此不作限制。例如，线性特征提取方式如PCA主成分分析、LDA线性判别分析、ICA独立成分分析等；再例如非线性特征提取方式如Kernel PCA核主成分分析、流形学习等；也可以使用训练完成的神经网络模型如本发明实施例中的卷积网络模型进行目标对象特征点的提取。

另外，在本步骤之前，从直播应用中获取当前正在播放的视频图像，或者，从正在录制的视频中获取视频图像，本发明实施例对视频图像的获取方式不作限制。本实施例中，以对一张视频图像的处理为例，但本领域技术认员应当明了，对于多张视频图像或视频流中的视频图像序列均可参照本发明实施例进行视频图像处理。

在步骤S220，根据至少一个目标对象的特征点，使用预先训练的、用于确定业务对象在视频图像中的展示位置的卷积网络模型，确定多个待展示的关联业务对象在视频图像中相应的展示位置。

在至少一个目标对象的特征点确定后，可以以此为依据，确定每个待展示的关联业务对象在视频图像中的一个或多个展示位置(其中，多个包括两个和两个以上的数量)。

本实施例需要预先训练一个卷积网络模型，训练完成的该卷积网络模型具有确定各个关联业务对象在视频图像中的展示位置的功能；或者，也可以直接使用第三方已训练完成的、具有确定各个关联业务对象在视频图像中的展示位置的功能的卷积网络模型。

这里，关联业务对象首先是业务对象，其次，由于多个业务对象之间具有属于同一主题、业务对象提供商提供等关联关系，因此称之为关联业务对象。因此，本实施例中，需要着重对业务对象的训练进行说明，但本领域技术人员应当明了，该卷积网络模型在对业务对象进行训练的同时，也可以对目标对象进行训练，实现目标对象和业务对象的联合训练。

当需要预先训练卷积网络模型时，一种可行的训练方式包括以下过程：

(1)获取待训练的业务对象样本图像的特征向量。

其中，所述特征向量中包含有业务对象样本图像中的业务对象的位置信息和/或置信度信息。业务对象的位置信息指示了业务对象的位置，可以是业务对象中心点的位置信息，也可以是业务对象所在区域的位置信息；业务对象的置信度信息指示了业务对象展示在当前位置时，能够达到的效果(如被关注或被点击或被观看)的概率，该概率可以根据对历史数据的统计分析结果设定，也可以根据仿真实验的结果设定，还可以根据人工经验进行设定。在实际应用中，可以根据实际需要，仅对业务对象的位置信息进行训练，也可以仅对业务对象的置信度信息进行训练，还可以对二者均进行训练。对二者均进行训练，能够使得训练后的卷积网络模型更为有效和精准地确定业务对象的位置信息和置信度信息，以便为业务对象的展示提供依据。

卷积网络模型通过大量的样本图像进行训练，本发明实施例中，需要使用包含有业务对象的业务对象样本图像对卷积网络模型进行训练，本领域技术人员应当明了的是，用来训练的业务对象样本图像中，除了包含业务对象外，也应当包含前述的目标对象。此外，本发明实施例中的业务对象样本图像中的业务对象可以被预先标注位置信息，或者置信度信息，或者二种信息都有。当然，在实际应用中，这些信息也可以通过其它途径获取。而通过预先在对业务对象进行相应信息的标注，可以有效节约数据处理的数据和交互次数，提高数据处理效率。

将具有业务对象的位置信息和/或置信度信息的业务对象样本图像作为训练样本，对其进行特征向量提取，获得包含有业务对象的位置信息和/或置信度信息的特征向量。

可选地，可以使用相同的卷积网络模型对目标对象和业务对象同时进行训练，在此情况下，业务对象样本图像的特征向量中，也应当包含目标对象的特征。

对特征向量的提取可以采用相关技术中的适当方式实现，本发明实施例在此不再赘述。

(2)对所述特征向量进行卷积处理，获取特征向量卷积结果。

获取的特征向量卷积结果中包含有业务对象的位置信息和/或置信度信息。在对目标对象和业务对象进行联合训练的情况下，特征向量卷积结果中还包含目标对象的信息。

对特征向量的卷积处理次数可以根据实际需要进行设定，也即，卷积网络模型中，卷积层的层数根据实际需要进行设置，在此不再赘述。

卷积结果是对特征向量进行了特征提取后的结果，该结果能够有效表征视频图像中各相关对象的特征和分类。

本发明实施例中，当特征向量中既包含业务对象的位置信息，又包含业务对象的置信度信息时，也即，对业务对象的位置信息和置信度信息均进行了训练的情况下，该特征向量卷积结果在后续分别进行收敛条件判断时共享，无须进行重复处理和计算，减少了由数据处理引起的资源损耗，提高了数据处理速度和效率。

(3)判断特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件。

其中，收敛条件由本领域技术人员根据实际需求适当设定。当信息满足收敛条件时，可以认为第二卷积网络模型中的网络参数设置适当；当信息不能满足收敛条件时，可以认为第二卷积网络模型中的网络参数设置不适当，需要对其进行调整，该调整是一个迭代的过程，直至使用调整后的网络参数对特征向量进行卷积处理的结果满足收敛条件。

一种可行方式中，收敛条件可以根据预设的标准位置和/或预设的标准置信度进行设定，如，将特征向量卷积结果中业务对象的位置信息指示的位置与预设的标准位置之间的距离是否满足一定阈值作为业务对象的位置信息的收敛条件；将特征向量卷积结果中业务对象的置信度信息指示的置信度与预设的标准置信度之间的差别是否满足一定阈值作为业务对象的置信度信息的收敛条件等。

其中，优选地，预设的标准位置可以是对待训练的业务对象样本图像中的业务对象的位置进行平均处理后获得的平均位置；预设的标准置信度可以是对待训练的业务对象样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。因样本图像为待训练样本且数据量庞大，可依据待训练的业务对象样本图像中的业务对象的位置和/或置信度设定标准位置和/或标准置信度，这样设定的标准位置和标准置信度也更为客观和精确。

在具体进行特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件的判断时，一种可行的方式包括：

获取特征向量卷积结果中对应的业务对象的位置信息，通过计算对应的业务对象的位置信息指示的位置与预设的标准位置之间的欧式距离，得到对应的业务对象的位置信息指示的位置与预设的标准位置之间的第一距离，根据第一距离判断对应的业务对象的位置信息是否满足收敛条件；

和/或，

获取特征向量卷积结果中对应的业务对象的置信度信息，计算对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的欧式距离，得到对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的第二距离，根据第二距离判断对应的业务对象的置信度信息是否满足收敛条件。其中，采用欧式距离的方式，实现简单且能够有效指示收敛条件是否被满足。但不限于此，其它方式，如马式距离，巴式距离等也同样适用。

优选地，如前所述，预设的标准位置为对待训练的业务对象样本图像中的业务对象的位置进行平均处理后获得的平均位置；和/或，预设的标准置信度为对待训练的业务对象样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。

(4)若满足收敛条件，则完成对卷积网络模型的训练；若不满足收敛条件，则根据特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息，调整卷积网络模型的参数并根据调整后的卷积网络模型的参数对卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息满足收敛条件。

通过对卷积网络模型进行上述训练，卷积网络模型可以对基于目标对象进行展示的业务对象的展示位置进行特征提取和分类，从而具有确定业务对象在视频图像中的展示位置的功能。其中，当展示位置包括多个时，通过上述业务对象置信度的训练，卷积网络模型还可以确定出多个展示位置中的展示效果的优劣顺序，从而确定最优的展示位置。在后续应用中，当需要展示业务对象时，根据视频中的当前图像即可确定出有效的展示位置。

此外，为了过滤掉不符合条件的样本图像，以保证训练结果的准确性。在对卷积网络模型进行上述训练之前，还可以预先对业务对象样本图像进行预处理，包括：获取多个业务对象样本图像，其中，每个业务对象样本图像中包含有业务对象的标注信息；根据标注信息确定业务对象的位置，判断确定的业务对象的位置与预设位置的距离是否小于或等于设定阈值；将小于或等于设定阈值的业务对象对应的业务对象样本图像，确定为待训练的业务对象样本图像。其中，预设位置和设定阈值均可以由本领域技术人员采用任意适当方式进行适当设置，如根据数据统计分析结果或者相关距离计算公式或者人工经验等，本发明实施例对此不作限定。

通过上述过程实现了卷积网络模型的训练，训练完成的该卷积网络模型可以用来确定业务对象在视频图像中的展示位置。例如，在视频直播过程中，若主播点击业务对象指示进行业务对象展示时，在卷积网络模型获得了直播的视频图像中主播的面部特征点和手部特征点，以及背景特征点后，可以指示出展示业务对象的最优位置包括如主播的额头位置、主播的嘴巴位置、直播视频中背景位置等，进而移动终端控制直播应用在上述多个位置展示关联业务对象(如同一对象主题的的包含有语义信息的多张贴纸)；或者，在视频直播过程中，若主播点击业务对象指示进行业务对象展示时，卷积网络模型可以直接根据直播的视频图像确定业务对象的展示位置。

在步骤S230，在相应的展示位置采用计算机绘图方式分别绘制多个关联业务对象。

在确定了多个展示位置后，在相应的展示位置采用计算机绘图方式分别绘制关联业务对象进行展示。需要说明的是，多个关联业务对象包括但不限于以下至少之一：用于展示同一业务对象主题的包含有语义信息的多个特效、包含有语义信息的同一特效的多个展示部分、属于同一业务对象提供者提供的包含有语义信息的多个特效。所述特效为包含广告信息的二维贴纸特效、三维特效、粒子特效中任意一种。例如，三维形式的广告特效(使用3D特效形式展示的广告)，二维形式的贴纸如二维形式的广告贴纸(使用贴纸行驶展示的广告)。

以二维贴纸特效为例，当多个关联业务对象为用于展示同一业务对象主题的包含广告信息的多个二维贴纸特效，或者包含广告信息的同一二维贴纸特效的多个展示部分，再或者属于同一业务对象提供者提供的包含广告信息的多个二维贴纸特效时，可以使用该多个二维贴纸特效或同一二维贴纸特效的多个展示部分进行广告投放和展示。例如，在直播视频中，通过虚拟瓶盖类型贴纸特效在主播的嘴巴位置展示某一产品的名称，同时通过虚拟容器类型贴纸特效在主播手部位置展示该产品，以及通过背景类型贴纸特效在直播视频的背景展示该产品及其名称，极大地吸引观众的注意力和关注度，提升广告投放和展示趣味性，提高广告投放和展示效率。

在本实施例中，对关联业务对象的采用计算机绘图方式绘制可以通过适当的计算机图形图像绘制或渲染等方式实现，包括但不限于：基于OpenGL图形绘制引擎进行绘制等。OpenGL定义了一个跨编程语言、跨平台的编程接口规格的专业的图形程序接口，其与硬件无关，可以方便地进行2D或3D图形图像的绘制。通过OpenGL，不仅可以实现2D效果如2D贴纸的绘制，还可以实现3D特效的绘制及粒子特效的绘制等等。但不限于OpenGL，其它方式，如Unity或OpenCL等也同样适用。

通过本实施例提供的视频图像处理方法，基于预先训练好的卷积网络模型可以有效实现关联业务对象在视频图像中的展示位置的确定，从而在确定的展示位置采用计算机绘图方式分别绘制多个关联业务对象，进而实现了关联业务对象的投放和展示。多个关联业务对象之间组合展示，以及与视频播放有效结合展示，提高了业务对象的投放和展示效率和效果，也无须额外的数据传输，节约了网络资源和客户端的系统资源。

实施例三

图3示出是根据本发明实施例三的视频图像处理方法的流程图。

参照图3，在步骤S310，从视频图像中检测至少一个目标对象，并确定至少一个目标对象的特征点。

其中，上述步骤S310的步骤内容与上述实施例一中步骤S110的步骤内容相同，在此不再赘述。

在步骤S320，根据至少一个目标对象的特征点，确定至少一个目标对象的类型。

这里，在获取了目标对象的特征点之后，可以采用已有的相关检测、分类或学习方法确定目标对象的类型。其中，目标对象的类型包括但不限于：人脸类型、背景类型、手部类型和动作类型。其中，人脸类型用于指示人脸在视频图像中占据主要部分，背景类型用于指示背景在视频图像中占据较大部分，手部类型用于指示手部在视频图像中占据主要部分，而动作类型则用于指示人物进行了某种动作。

在步骤S330，根据至少一个目标对象的类型，确定多个待展示的关联业务对象相应的展示区域。

具体来说，在确定了目标对象的类型之后，可以按照设定的规则确定多个待展示的关联业务对象相应的展示区域，包括：

当目标对象的类型为人脸类型时，确定待展示的业务对象的展示区域包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域；和/或，

当目标对象的类型为背景类型时，确定待展示的业务对象的展示区域包括：视频图像中的背景区域；和/或，

当目标对象的类型为手部类型时，确定待展示的业务对象的展示区域包括：视频图像中以手部所在的区域为中心的、设定范围内的区域；和/或，

当目标对象的类型为动作类型时，确定待展示的业务对象的展示区域包括：视频图像中预先设定的区域。其中，预先设定的区域由本领域技术人员根据实际情况适当设置，如，以动作生成部位为中心的设定范围内的区域，或者，动作生成部位以外的设定范围内的区域，或者背景区域等等，本发明实施例对此不作限制。

也就是说，上述头发区域、额头区域、背景区域、手部区域等确定的待展示的业务对象的展示区域可以通过组合的方式来展示多个关联业务对象，即在不同的展示位置上展示多个关联业务对象。也可以在同一展示位置(如头发区域)上展示多个待展示的关联业务对象。以主播型直播视频场景为例，该场景通常包括直播和短视频分享的常见场景，该场景的主体常常为一个主要人物(如主播)和简单背景(如主播的家)，人物常常在画面中占比较多。例如，当视频主体为人物时，观众主要关注的区域为主体的脸部区域和肢体动作，为了能够既让观众注意到广告的内容，同时不会影响到视频的主体，可以通过增强现实感效果，给画面中的人物和背景等一些相关区域相应地加上多个有语义的虚拟物品如包含广告信息的二维贴纸特效(即业务对象)。并通过多个虚拟物品上组合的展示效果和信息达到商业价值。通过这种方式，既保留了视频主体的主要形象和动作，同时通过增强现实的特效为视频增加了趣味性，减少了观众对广告投放引起的可能的反感，并能够吸引到观众的注意力，形成商业的价值。

在一种可选的实施方式中，所述动作类型对应的动作包括以下至少之一：眨眼、张嘴、点头、摇头、亲吻、微笑、挥手、剪刀手、握拳、托手、竖大拇指、摆手枪姿势、摆V字手、摆OK手。

在步骤S340，根据多个待展示的关联业务对象相应的展示区域，确定多个待展示的关联业务对象在视频图像中相应的展示位置。

例如，以展示区域的中心点为业务对象的展示位置中心点进行业务对象的展示；再例如，将展示区域中的某一坐标位置确定为展示位置的中心点等，本发明实施例对此不作限制。

在步骤S350，在相应的展示位置采用计算机绘图方式分别绘制多个关联业务对象。

其中，上述步骤S350的步骤内容与上述实施例一中步骤S130的步骤内容相同，在此不再赘述。

通过本实施例提供的视频图像处理方法，按照设定的规则可以有效实现关联业务对象在视频图像中的展示位置的确定，从而在确定的展示位置采用计算机绘图方式分别绘制多个关联业务对象，进而实现了关联业务对象的投放和展示。多个关联业务对象之间组合展示，以及与视频播放有效结合展示，提高了业务对象的投放和展示效率和效果，也无须额外的数据传输，节约了网络资源和客户端的系统资源。

实施例四

图4是示出根据本发明实施例四的视频图像处理方法的流程图。

本实施例仍以多个关联业务对象为同一业务对象主题或属于同一业务对象提供者提供包含有语义信息的多个特效，再或者包含有语义信息的同一特效的多个展示部分。其中，特效具体为包含广告信息的二维贴纸特效为例，对本发明实施例的视频图像处理方案进行说明。

参照图4，在步骤S410，从视频图像中检测至少一个目标对象，并确定至少一个目标对象的特征点。

其中，上述步骤S410的步骤内容与上述实施例一中步骤S110的步骤内容相同，在此不再赘述。

在步骤S420，根据至少一个目标对象的特征点和多个待展示的关联业务对象的类型，确定多个待展示的关联业务对象在视频图像中的展示位置。

与前述实施例不同的是，在多个待展示的关联业务对象在视频图像中的展示位置时，不仅根据至少一个目标对象的特征点，还根据待展示的关联业务对象的类型，确定待展示的关联业务对象在视频图像中的展示位置。其中，关联业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型、背景类型、虚拟宠物类型和虚拟容器类型。但不限于此，关联业务对象的类型还可以为其它适当类型，如虚拟瓶盖类型，虚拟杯子类型、文字类型等等。

由此，根据关联业务对象的类型，可以以目标对象的特征点为参考，为关联业务对象选择适当的展示位置。

此外，在根据至少一个目标对象的特征点和待展示的关联业务对象的类型，获得多个待展示的关联业务对象在视频图像中的相应的展示位置的情况下，可以从多个展示位置中选择至少一个展示位置。例如，对于文字类型的关联业务对象，可以展示在背景区域，也可以展示在人物的额头或身体区域等。

在步骤S430，在相应的展示位置采用计算机绘图方式分别绘制多个关联业务对象。

其中，上述步骤S430的步骤内容与上述实施例一中步骤S130的步骤内容相同，在此不再赘述。

需要说明的是，上述示例中的关联业务对象均可以为文字形式或图片形式或二者结合形式的贴纸。

通过本实施例提供的视频图像处理方法，综合考虑目标对象的特征点和关联业务对象的类型，从而有效实现关联业务对象在视频图像中的展示位置的确定，从而在相应的展示位置采用计算机绘图方式分别绘制多个关联业务对象，进而实现了关联业务对象的投放和展示。多个关联业务对象之间组合展示，以及与视频播放有效结合展示，提高了业务对象的投放和展示效率和效果，也无须额外的数据传输，节约了网络资源和客户端的系统资源。

实施例五

基于相同的技术构思，图5示出是根据本发明实施例五的视频图像处理装置的逻辑框图。参照图5，该视频图像处理装置包括第一确定模块510、第二确定模块520和绘制模块530。

第一确定模块510用于从视频图像中检测至少一个目标对象，并确定所述至少一个目标对象的特征点。

第二确定模块520用于根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频图像中相应的展示位置。

绘制模块530用于在所述相应的展示位置采用计算机绘图方式分别绘制所述多个关联业务对象。

通过本实施例提供的视频图像处理装置，首先从视频图像中检测至少一个目标对象并确定至少一个目标对象的特征点，不同的目标对象具有不同的特征点；然后，可以将确定的至少一个目标对象的特征点作为确定待展示的业务对象的展示位置的依据，从而有效确定多个待展示的关联业务对象的展示位置；进而，在相应的展示位置采用计算机绘图方式分别绘制多个关联业务对象，以进行业务对象的展示。当关联业务对象用于展示广告时，与传统的视频广告方式相比，一方面，关联业务对象与视频图像中的目标对象相互衬托、紧密结合，在不影响观众的正常视频观看的同时，多角度展示业务对象，从而吸引了观众的注意力，进而提高了业务对象的影响力；另一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和客户端的系统资源。

实施例六

基于相同的技术构思，图6是示出根据本发明实施例六的视频图像处理装置的逻辑框图。

参照图6，本实施例的视频图像处理装置包括：第一确定模块510用于从视频图像中检测至少一个目标对象，并确定所述至少一个目标对象的特征点。第二确定模块520用于根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频图像中相应的展示位置。绘制模块530用于在所述相应的展示位置采用计算机绘图方式分别绘制所述多个关联业务对象。

可选地，第二确定模块520用于根据至少一个目标对象的特征点，使用预先训练的、用于确定业务对象在视频图像中的展示位置的卷积网络模型，确定多个待展示的关联业务对象在视频图像中相应的展示位置。

可选地，本实施例中的视频图像处理装置还包括：训练模块540用于对卷积网络模型进行预先训练。

其中，训练模块540包括：第一获取单元5401，用于获取待训练的业务对象样本图像的特征向量，其中，特征向量中包含有业务对象样本图像中的业务对象的位置信息和/或置信度信息；第二获取单元5402，用于对特征向量进行卷积处理，获取特征向量卷积结果；判断单元5403，用于判断特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件；执行单元5404，用于若满足，则完成对卷积网络模型的训练；若不满足，则根据特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息，调整卷积网络模型的参数并根据调整后的卷积网络模型的参数对卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息满足收敛条件。

可选地，第二确定模块520包括：类型确定单元5201，用于根据至少一个目标对象的特征点，确定至少一个目标对象的类型；区域确定单元5202，用于根据至少一个目标对象的类型，确定多个待展示的关联业务对象相应的展示区域；位置确定单元5203，用于根据多个待展示的关联业务对象相应的展示区域，确定多个待展示的关联业务对象在视频图像中相应的展示位置。

可选地，区域确定单元5202包括：第一区域确定子单元52021，用于当目标对象的类型为人脸类型时，确定待展示的关联业务对象的展示区域包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域；第二区域确定子单元52022，用于当目标对象的类型为背景类型时，确定待展示的关联业务对象的展示区域包括：视频图像中的背景区域；第三区域确定子单元52023，用于当目标对象的类型为手部类型时，确定待展示的关联业务对象的展示区域包括：视频图像中以手部所在的区域为中心的、设定范围内的区域；第四区域确定子单元52024，用于当目标对象的类型为动作类型时，确定待展示的关联业务对象的展示区域包括：视频图像中预先设定的区域。

可选地，第二确定模块520，用于根据至少一个目标对象的特征点和多个待展示的关联业务对象的类型，确定多个待展示的关联业务对象在视频图像中的展示位置。

可选地，第二确定模块520，用于根据至少一个目标对象的特征点和多个待展示的关联业务对象的类型，获得每个待展示的关联业务对象在视频图像中的多个展示位置；分别从多个展示位置中选择至少一个展示位置。

可选地，关联业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型、背景类型、虚拟宠物类型和虚拟容器类型。

可选地，第二确定模块520，用于从预先存储的目标对象的特征点与展示位置的对应关系中，获取与至少一个目标对象的特征点相对应的目标展示位置；将获取的多个目标展示位置确定为多个待展示的关联业务对象在视频图像中相应的展示位置。

可选地，多个关联业务对象包括以下至少之一：用于展示同一业务对象主题的包含有语义信息的多个特效、包含有语义信息的同一特效的多个展示部分、属于同一业务对象提供者提供的包含有语义信息的多个特效。

可选地，所述特效为包含广告信息的二维贴纸特效、三维特效、粒子特效中任意一种。20

本实施例视频图像处理装置用于实现前述多个方法实施例中相应的视频图像处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。

此外，本实施例的视频图像处理装置可以设置于适当的终端设备中，包括但不限于移动终端、PC等。

实施例七

参照图7，示出了根据本发明实施例七的终端设备的结构示意图，本发明具体实施例并不对终端设备的具体实现做限定。

如图7所示，该终端设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730、以及通信总线740。

其中：

处理器710、通信接口720、以及存储器730通过通信总线740完成相互间的通信。

通信接口720，用于与其它设备比如其它客户端或服务器等的网元通信。

处理器710，用于执行程序750，具体可以执行上述方法实施例中的相关步骤。

具体地，程序750可以包括程序代码，该程序代码包括计算机操作指令。

处理器710可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路，或者是图形处理器GPU(Graphics Processing Unit)。终端设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU，或者，一个或多个GPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个GPU。

存储器730，用于存放程序750。存储器730可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序750具体可以用于使得处理器710执行以下操作：从视频图像中检测至少一个目标对象，并确定至少一个目标对象的特征点；根据至少一个目标对象的特征点，确定多个待展示的关联业务对象在视频图像中相应的展示位置；在相应的展示位置采用计算机绘图方式分别绘制多个关联业务对象。

在一种可选的实施方式中，程序750还用于使得处理器710在根据至少一个目标对象的特征点，确定多个待展示的关联业务对象在视频图像中相应的展示位置，包括：根据至少一个目标对象的特征点，使用预先训练的、用于确定业务对象在视频图像中的展示位置的卷积网络模型，确定多个待展示的关联业务对象在视频图像中相应的展示位置。

在一种可选的实施方式中，程序750还用于使得处理器710在对卷积网络模型的预先训练包括：获取待训练的业务对象样本图像的特征向量，其中，特征向量中包含有业务对象样本图像中的业务对象的位置信息和/或置信度信息；对特征向量进行卷积处理，获取特征向量卷积结果；判断特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件；若满足，则完成对卷积网络模型的训练；若不满足，则根据特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息，调整卷积网络模型的参数并根据调整后的卷积网络模型的参数对所述卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息满足收敛条件。

在一种可选的实施方式中，程序750还用于使得处理器710在根据至少一个目标对象的特征点，确定多个待展示的关联业务对象在视频图像中相应的展示位置，包括：根据至少一个目标对象的特征点，确定至少一个目标对象的类型；根据至少一个目标对象的类型，确定多个待展示的关联业务对象相应的展示区域；根据多个待展示的关联业务对象相应的展示区域，确定多个待展示的关联业务对象在视频图像中相应的展示位置。

在一种可选的实施方式中，程序750还用于使得处理器710在根据至少一个目标对象的类型，确定多个待展示的关联业务对象相应的展示区域，包括：当目标对象的类型为人脸类型时，确定待展示的关联业务对象的展示区域包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域；和/或，当目标对象的类型为背景类型时，确定待展示的关联业务对象的展示区域包括：视频图像中的背景区域；和/或，当目标对象的类型为手部类型时，确定待展示的关联业务对象的展示区域包括：视频图像中以手部所在的区域为中心的、设定范围内的区域；和/或，当目标对象的类型为动作类型时，确定待展示的关联业务对象的展示区域包括：视频图像中预先设定的区域。

在一种可选的实施方式中，程序750还用于使得处理器710在根据至少一个目标对象的特征点，确定多个待展示的关联业务对象在视频图像中相应的展示位置，包括：根据至少一个目标对象的特征点和多个待展示的关联业务对象的类型，确定多个待展示的关联业务对象在视频图像中的展示位置。

在一种可选的实施方式中，程序750还用于使得处理器710在根据至少一个目标对象的特征点和多个待展示的关联业务对象的类型，确定多个待展示的关联业务对象在视频图像中的展示位置，包括：根据至少一个目标对象的特征点和多个待展示的关联业务对象的类型，获得每个待展示的关联业务对象在视频图像中的多个展示位置；分别从多个展示位置中选择至少一个展示位置。

在一种可选的实施方式中，关联业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型、背景类型、虚拟宠物类型和虚拟容器类型。

在一种可选的实施方式中，程序750还用于使得处理器710在根据至少一个目标对象的特征点，确定多个待展示的关联业务对象在视频图像中相应的展示位置，包括：从预先存储的目标对象的特征点与展示位置的对应关系中，获取与至少一个目标对象的特征点相对应的目标展示位置；将获取的多个目标展示位置确定为多个待展示的关联业务对象在视频图像中相应的展示位置。

在一种可选的实施方式中，多个关联业务对象包括以下之一：用于展示同一业务对象主题的包含有语义信息的多张贴纸、包含有语义信息的同一贴纸的多个展示部分、属于同一业务对象提供者提供的包含有语义信息的多张贴纸。

通过本实施例提供的终端设备，通过对视频图像进行目标对象检测，获得至少一个目标对象，并确定至少一个目标对象的特征点，进一步依据至少一个目标对象的特征点，确定多个待展示的关联业务对象在视频图像中相应的展示位置，进而在相应的展示位置采用计算机绘图方式分别绘制多个关联业务对象。当多个关联业务对象用于展示广告时，与传统的视频广告方式相比，在保留视频图像中视频主体(如主播)的主要形象和动作的同时，多角度展示业务对象，从而吸引了观众的注意力，进而提高了业务对象的影响力。并且，节约了网络资源和客户端的系统资源。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

上述根据本发明的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频图像处理方法，其特征在于，所述方法包括：

从直播的视频中检测至少一个目标对象，并确定所述至少一个目标对象的特征点，所述目标对象包括动作；

根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频中相应的展示位置；所述展示位置包括：以动作生成部位为中心的设定范围内的区域，或者，动作生成部位以外的设定范围内的区域；

在所述相应的展示位置采用计算机绘图方式分别绘制所述多个关联业务对象。

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频中相应的展示位置，包括：

根据所述至少一个目标对象的特征点，使用预先训练的、用于确定业务对象在视频中的展示位置的卷积网络模型，确定所述多个待展示的关联业务对象在所述视频中相应的展示位置。

3.根据权利要求2所述的方法，其特征在于，对所述卷积网络模型的预先训练包括：

获取待训练的业务对象样本图像的特征向量，其中，所述特征向量中包含有所述业务对象样本图像中的业务对象的位置信息和/或置信度信息；

对所述特征向量进行卷积处理，获取特征向量卷积结果；

判断所述特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件；

若满足，则完成对所述卷积网络模型的训练；

若不满足，则根据所述特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息，调整所述卷积网络模型的参数并根据调整后的所述卷积网络模型的参数对所述卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息满足所述收敛条件。

4.根据权利要求1所述的方法，其特征在于，

所述目标对象还包括人脸，所述根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频中相应的展示位置，包括：

根据所述人脸的特征点，确定待展示的关联业务对象在所述视频中相应的展示位置包括以下至少之一：视频中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域；和/或，

所述目标对象还包括背景，所述根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频中相应的展示位置，包括：

根据所述背景的特征点，确定待展示的关联业务对象在所述视频中相应的展示位置包括：视频中的背景区域。

5.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频中相应的展示位置，包括：

根据所述至少一个目标对象的特征点和所述多个待展示的关联业务对象的类型，确定所述多个待展示的关联业务对象在所述视频中的展示位置。

6.根据权利要求5所述的方法，其特征在于，所述根据所述至少一个目标对象的特征点和所述多个待展示的关联业务对象的类型，确定所述多个待展示的关联业务对象在所述视频中的展示位置，包括：

根据所述至少一个目标对象的特征点和所述多个待展示的关联业务对象的类型，获得每个待展示的关联业务对象在所述视频中的多个展示位置；

分别从所述多个展示位置中选择至少一个展示位置。

7.根据权利要求5所述的方法，其特征在于，所述关联业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型、背景类型、虚拟宠物类型和虚拟容器类型。

8.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频中相应的展示位置，包括：

从预先存储的目标对象的特征点与展示位置的对应关系中，获取与所述至少一个目标对象的特征点相对应的目标展示位置；

将获取的多个所述目标展示位置确定为所述多个待展示的关联业务对象在所述视频中相应的展示位置。

9.根据权利要求1～8任一项所述的方法，其特征在于，所述多个关联业务对象包括以下至少之一：用于展示同一业务对象主题的包含有语义信息的多个特效、包含有语义信息的同一特效的多个展示部分、属于同一业务对象提供者提供的包含有语义信息的多个特效。

10.根据权利要求9所述的方法，其特征在于，所述特效为包含广告信息的二维贴纸特效、三维特效、粒子特效中任意一种。

11.一种视频图像处理装置，其特征在于，所述装置包括：

第一确定模块，用于从直播的视频中检测至少一个目标对象，并确定所述至少一个目标对象的特征点，所述目标对象包括动作；

第二确定模块，用于根据所述至少一个目标对象的特征点，确定多个待展示的关联业务对象在所述视频中相应的展示位置；所述展示位置包括：以动作生成部位为中心的设定范围内的区域，或者，动作生成部位以外的设定范围内的区域；

绘制模块，用于在所述相应的展示位置采用计算机绘图方式分别绘制所述多个关联业务对象。

12.根据权利要求11所述的装置，其特征在于，所述第二确定模块，用于根据所述至少一个目标对象的特征点，使用预先训练的、用于确定业务对象在视频中的展示位置的卷积网络模型，确定所述多个待展示的关联业务对象在所述视频中相应的展示位置。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：训练模块，用于对所述卷积网络模型进行预先训练；

所述训练模块包括：

第一获取单元，用于获取待训练的业务对象样本图像的特征向量，其中，所述特征向量中包含有所述业务对象样本图像中的业务对象的位置信息和/或置信度信息；

第二获取单元，用于对所述特征向量进行卷积处理，获取特征向量卷积结果；

判断单元，用于判断所述特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件；

执行单元，用于若满足，则完成对所述卷积网络模型的训练；若不满足，则根据所述特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息，调整所述卷积网络模型的参数并根据调整后的所述卷积网络模型的参数对所述卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息满足所述收敛条件。

14.根据权利要求11所述的装置，其特征在于，

所述目标对象还包括人脸，所述第二确定模块包括：

第一区域确定子单元，用于根据所述人脸的特征点，确定多个待展示的关联业务对象在所述视频中相应的展示位置包括以下至少之一：视频中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域；和/或，

所述目标对象还包括背景，所述第二确定模块包括：

第二区域确定子单元，用于根据所述背景的特征点，确定多个待展示的关联业务对象在所述视频中相应的展示位置包括：视频中的背景区域。

15.根据权利要求11所述的装置，其特征在于，所述第二确定模块，用于根据所述至少一个目标对象的特征点和所述多个待展示的关联业务对象的类型，确定所述多个待展示的关联业务对象在所述视频中的展示位置。

16.根据权利要求15所述的装置，其特征在于，所述第二确定模块，用于根据所述至少一个目标对象的特征点和所述多个待展示的关联业务对象的类型，获得每个待展示的关联业务对象在所述视频中的多个展示位置；分别从所述多个展示位置中选择至少一个展示位置。

17.根据权利要求15所述的装置，其特征在于，所述关联业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型、背景类型、虚拟宠物类型和虚拟容器类型。

18.根据权利要求11所述的装置，其特征在于，所述第二确定模块，用于从预先存储的目标对象的特征点与展示位置的对应关系中，获取与所述至少一个目标对象的特征点相对应的目标展示位置；将获取的多个所述目标展示位置确定为所述多个待展示的关联业务对象在所述视频中相应的展示位置。

19.根据权利要求11～18任一项所述的装置，其特征在于，所述多个关联业务对象包括以下至少之一：用于展示同一业务对象主题的包含有语义信息的多个特效、包含有语义信息的同一特效的多个展示部分、属于同一业务对象提供者提供的包含有语义信息的多个特效。

20.根据权利要求19所述的装置，其特征在于，所述特效为包含广告信息的二维贴纸特效、三维特效、粒子特效中任意一种。

21.一种终端设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1～10任一项所述的视频图像处理方法对应的操作。

22.一种计算机可读存储介质，存储有计算机可读取的程序指令，其特征在于，所述程序指令被处理器执行时用于完成权利要求1至10任意一项所述的视频图像处理方法对应的操作。