CN107343225B - 在视频图像中展示业务对象的方法、装置和终端设备 - Google Patents

在视频图像中展示业务对象的方法、装置和终端设备 Download PDF

Info

Publication number
CN107343225B
CN107343225B CN201610694812.XA CN201610694812A CN107343225B CN 107343225 B CN107343225 B CN 107343225B CN 201610694812 A CN201610694812 A CN 201610694812A CN 107343225 B CN107343225 B CN 107343225B
Authority
CN
China
Prior art keywords
business object
video
information
business
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610694812.XA
Other languages
English (en)
Other versions
CN107343225A (zh
Inventor
石建萍
栾青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201610694812.XA priority Critical patent/CN107343225B/zh
Priority to PCT/CN2017/098027 priority patent/WO2018033137A1/zh
Publication of CN107343225A publication Critical patent/CN107343225A/zh
Priority to US15/847,172 priority patent/US11037348B2/en
Application granted granted Critical
Publication of CN107343225B publication Critical patent/CN107343225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种在视频图像中展示业务对象的方法、装置和终端设备,其中,在视频图像中展示业务对象的方法包括:从视频图像中检测目标对象,并确定所述目标对象的特征点;根据所述目标对象的特征点,确定待展示的业务对象在所述视频图像中的展示位置;在所述展示位置采用计算机绘图方式绘制所述业务对象。通过本发明实施例,节约了网络资源和客户端的系统资源,并且,以一种不打扰观众的方式展示业务对象,不影响观众的正常视频观看体验,不易引起观众反感,可以有效实现预想的效果。

Description

在视频图像中展示业务对象的方法、装置和终端设备
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种在视频图像中展示业务对象的方法、装置和终端设备。
背景技术
随着互联网技术的发展,人们越来越多地使用互联网观看视频,由此,互联网视频为许多新的业务提供了商机。因为互联网视频可以成为重要的业务流量入口,因而被认为是广告植入的优质资源。
现有视频广告主要通过植入的方式,在视频播放的某个时间插入固定时长的广告,或在视频播放的区域及其周边区域固定位置放置广告。
但是,一方面,这种视频广告方式不但占用网络资源,也占用客户端的系统资源;另一方面,这种视频广告方式往往打扰观众的正常视频观看体验,引起观众反感,不能达到预想的广告效果。
发明内容
本发明实施例提供了一种在视频图像中展示业务对象的技术方案。
根据本发明实施例的一个方面,提供了一种在视频图像中展示业务对象的方法,包括:从视频图像中检测目标对象,并确定所述目标对象的特征点;根据所述目标对象的特征点,确定待展示的业务对象在所述视频图像中的展示位置;在所述展示位置采用计算机绘图方式绘制所述业务对象。
根据本发明实施例的一个方面,提供了一种在视频图像中展示业务对象的方法,包括:从直播的视频中检测目标对象,并确定所述目标对象的特征点,所述目标对象包括动作;根据所述目标对象的特征点,确定待展示的业务对象在所述视频中的展示位置;所述展示位置包括:以动作生成部位为中心的设定范围内的区域,或者,以动作生成部位以外的设定范围内的区域;在所述展示位置采用计算机绘图方式绘制所述业务对象,所述业务对象为包含有语义信息的特效。
可选地,根据所述目标对象的特征点,确定待展示的业务对象在所述视频中的展示位置,包括:根据所述目标对象的特征点,使用预先训练的、用于确定业务对象在视频中的展示位置的卷积网络模型,确定待展示的业务对象在所述视频中的展示位置。
可选地,对所述卷积网络模型的预先训练包括:获取待训练的业务对象样本图像的特征向量,其中,所述特征向量中包含有所述业务对象样本图像中的目标对象的信息,以及,业务对象的位置信息和/或置信度信息;对所述特征向量进行卷积处理,获取特征向量卷积结果;分别判断所述特征向量卷积结果中对应的目标对象的信息,以及,业务对象的位置信息和/或置信度信息是否满足收敛条件;若满足,则完成对所述卷积网络模型的训练;若不满足,则根据所述特征向量卷积结果,调整所述卷积网络模型的参数并根据调整后的所述卷积网络模型的参数对所述卷积网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。
可选地,分别判断所述特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件,包括:获取所述特征向量卷积结果中对应的业务对象的位置信息;使用第一损失函数,计算所述对应的业务对象的位置信息指示的位置与预设的标准位置之间的第一距离;根据所述第一距离判断所述对应的业务对象的位置信息是否满足收敛条件;和/或,获取所述特征向量卷积结果中对应的业务对象的置信度信息;使用第二损失函数,计算所述对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的第二距离;根据所述第二距离判断所述对应的业务对象的置信度信息是否满足收敛条件。
可选地,所述第一损失函数为:计算所述对应的业务对象的位置信息指示的位置与预设的标准位置之间的欧式距离的函数;和/或,所述第二损失函数为:计算所述对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的欧式距离的函数。
可选地,所述预设的标准位置为:对所述待训练的业务对象样本图像中的业务对象的位置进行平均处理后获得的平均位置;和/或,所述预设的标准置信度为:对所述待训练的业务对象样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。
可选地,在所述获取待训练的业务对象样本图像的特征向量之前,所述方法还包括:获取多个业务对象样本图像,其中,每个所述业务对象样本图像中包含有业务对象的标注信息;根据所述标注信息确定业务对象的位置,判断确定的所述业务对象的位置与预设位置的距离是否小于或等于设定阈值;将小于或等于所述设定阈值的业务对象对应的业务对象样本图像,确定为待训练的业务对象样本图像。
可选地,根据所述标注信息确定业务对象的位置,判断确定的所述业务对象的位置与预设位置的距离是否小于或等于设定阈值,包括:根据所述标注信息确定业务对象的中心位置;判断所述中心位置与预设位置的方差是否小于或等于所述设定阈值。
可选地,所述目标对象还包括人脸,所述根据所述目标对象的特征点,确定待展示的业务对象在所述视频中的展示位置,包括:根据所述人脸的特征点,确定待展示的业务对象在所述视频中的展示位置包括以下至少之一:视频中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域;和/或,所述目标对象还包括背景,所述根据所述目标对象的特征点,确定待展示的业务对象在所述视频中的展示位置,包括:根据所述背景的特征点,确定待展示的业务对象在所述视频中的展示位置包括:视频中的背景区域。
可选地,所述动作包括以下至少之一:眨眼、张嘴、点头、摇头、亲吻、微笑、挥手、剪刀手、握拳、托手、竖大拇指、摆手枪姿势、摆V字手、摆OK手。
可选地,根据所述目标对象的特征点,确定待展示的业务对象在所述视频中的展示位置,包括:根据所述目标对象的特征点和所述待展示的业务对象的类型,确定待展示的业务对象在所述视频中的展示位置。
可选地,根据所述目标对象的特征点和所述待展示的业务对象的类型,确定待展示的业务对象在所述视频中的展示位置,包括:根据所述目标对象的特征点和所述待展示的业务对象的类型,获得待展示的业务对象在所述视频中的多个展示位置;从所述多个展示位置中选择至少一个展示位置。
可选地,所述业务对象的类型包括以下至少之一:额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。
可选地,所述业务对象包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、三维特效、粒子特效。
根据本发明实施例的另一方面,还提供了一种在视频图像中展示业务对象的装置,包括:第一确定模块,用于从视频图像中检测目标对象,并确定所述目标对象的特征点;第二确定模块,用于根据所述目标对象的特征点,确定待展示的业务对象在所述视频图像中的展示位置;绘制模块,用于在所述展示位置采用计算机绘图方式绘制所述业务对象。
根据本发明实施例的另一方面,还提供了一种在视频图像中展示业务对象的装置,包括:第一确定模块,用于从直播的视频中检测目标对象,并确定所述目标对象的特征点,所述目标对象包括动作;第二确定模块,用于根据所述目标对象的特征点,确定待展示的业务对象在所述视频中的展示位置;所述展示位置包括:以动作生成部位为中心的设定范围内的区域,或者,以动作生成部位以外的设定范围内的区域;绘制模块,用于在所述展示位置采用计算机绘图方式绘制所述业务对象,所述业务对象为包含有语义信息的特效。
可选地,所述第二确定模块用于根据所述目标对象的特征点,使用预先训练的、用于确定业务对象在视频中的展示位置的卷积网络模型,确定待展示的业务对象在所述视频中的展示位置。
可选地,所述装置还包括:训练模块,用于对所述卷积网络模型进行预先训练;所述训练模块包括:第一获取模块,用于获取待训练的业务对象样本图像的特征向量,其中,所述特征向量中包含有所述业务对象样本图像中的目标对象的信息,以及,业务对象的位置信息和/或置信度信息;第二获取模块,用于对所述特征向量进行卷积处理,获取特征向量卷积结果;判断模块,用于分别判断所述特征向量卷积结果中对应的目标对象的信息,以及,业务对象的位置信息和/或置信度信息是否满足收敛条件;执行模块,用于若所述判断模块的判断结果为满足,则完成对所述卷积网络模型的训练;若所述判断模块的判断结果为不满足,则根据所述特征向量卷积结果中,调整所述卷积网络模型的参数并根据调整后的所述卷积网络模型的参数对所述卷积网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。
可选地,所述判断模块包括:第一判断模块,用于获取所述特征向量卷积结果中对应的业务对象的位置信息;使用第一损失函数,计算所述对应的业务对象的位置信息指示的位置与预设的标准位置之间的第一距离;根据所述第一距离判断所述对应的业务对象的位置信息是否满足收敛条件;和/或,第二判断模块,用于获取所述特征向量卷积结果中对应的业务对象的置信度信息;使用第二损失函数,计算所述对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的第二距离;根据所述第二距离判断所述对应的业务对象的置信度信息是否满足收敛条件。
可选地,所述第一损失函数为:计算所述对应的业务对象的位置信息指示的位置与预设的标准位置之间的欧式距离的函数;和/或,所述第二损失函数为:计算所述对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的欧式距离的函数。
可选地,所述预设的标准位置为:对所述待训练的业务对象样本图像中的业务对象的位置进行平均处理后获得的平均位置;和/或,所述预设的标准置信度为:对所述待训练的业务对象样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。
可选地,所述训练模块还包括:预处理模块,用于在所述第一获取模块获取待训练的业务对象样本图像的特征向量之前,获取多个业务对象样本图像,其中,每个所述业务对象样本图像中包含有业务对象的标注信息;根据所述标注信息确定业务对象的位置,判断确定的所述业务对象的位置与预设位置的距离是否小于或等于设定阈值;将小于或等于所述设定阈值的业务对象对应的业务对象样本图像,确定为待训练的业务对象样本图像。
可选地,所述预处理模块在根据所述标注信息确定业务对象的位置,判断确定的所述业务对象的位置与预设位置的距离是否小于或等于设定阈值时:根据所述标注信息确定业务对象的中心位置;判断所述中心位置与预设位置的方差是否小于或等于所述设定阈值。
可选地,所述目标对象还包括人脸,所述第二确定模块包括:第一区域确定模块,用于根据所述人脸的特征点,确定待展示的业务对象在所述视频中的展示位置包括以下至少之一:视频中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域;和/或,所述目标对象还包括背景,所述第二确定模块包括:第二区域确定模块,用于根据所述背景的特征点,确定待展示的业务对象在所述视频中的展示位置包括:视频中的背景区域。
可选地,所述动作包括以下至少之一:眨眼、张嘴、点头、摇头、亲吻、微笑、挥手、剪刀手、握拳、托手、竖大拇指、摆手枪姿势、摆V字手、摆OK手。
可选地,所述第二确定模块,用于根据所述目标对象的特征点和所述待展示的业务对象的类型,确定待展示的业务对象在所述视频中的展示位置。
可选地,所述第二确定模块,用于根据所述目标对象的特征点和所述待展示的业务对象的类型,获得待展示的业务对象在所述视频中的多个展示位置;从所述多个展示位置中选择至少一个展示位置。
可选地,所述业务对象的类型包括以下至少之一:额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。
可选地,所述业务对象包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、或三维特效、粒子特效。
根据本发明实施例的再一方面,还提供了一种终端设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行前述的在视频图像中展示业务对象的方法对应的操作。
根据本发明实施例的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读取的程序指令,所述程序指令被处理器执行时用于完成本发明在视频图像中展示业务对象的方法任一实施例对应的操作。
根据本发明实施例提供的技术方案,首先从视频图像中检测目标对象并确定目标对象的特征点,不同的目标对象具有不同的特征点;然后,可以将确定的目标对象的特征点作为确定待展示的业务对象的展示位置的依据,从而有效确定待展示的业务对象的展示位置;进而,在确定的展示位置采用计算机绘图方式绘制业务对象,以进行业务对象的展示。例如,在人脸加简单背景的视频图像中,可以认为人脸为目标对象,对该视频图像进行检测获得人脸这一目标对象并确定其特征点,包括但不限于对应于眉毛、眼睛、嘴巴、鼻子、脸部轮廓中的部分或全部的特征点,进而,以这些特征点为参考,确定待展示的业务对象的展示位置,如在眉毛以上的额头部位展示业务对象等。当业务对象用于展示广告时,与传统的视频广告方式相比,一方面,该业务对象与视频播放相结合,无须通过网络传输与视频无关的额外广告视频数据,节约了网络资源和客户端的系统资源;另一方面,业务对象与视频图像中的目标对象紧密结合,以一种不打扰观众的方式展示业务对象,不影响观众的正常视频观看体验,不易引起观众反感,可以有效实现预想的效果。
附图说明
图1是根据本发明实施例一的一种在视频图像中展示业务对象的方法的步骤流程图;
图2是根据本发明实施例二的一种在视频图像中展示业务对象的方法的步骤流程图;
图3是根据本发明实施例三的一种在视频图像中展示业务对象的方法的步骤流程图;
图4是根据本发明实施例四的一种在视频图像中展示业务对象的方法的步骤流程图;
图5是根据本发明实施例五的一种在视频图像中展示业务对象的装置的结构框图;
图6是根据本发明实施例六的一种在视频图像中展示业务对象的装置的结构框图;
图7是根据本发明实施例七的一种终端设备的结构示意图。
具体实施方式
下面结合附图(若干附图中相同的标号表示相同的元素)和实施例,对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
实施例一
参照图1,示出了根据本发明实施例一的一种在视频图像中展示业务对象的方法的步骤流程图。
本实施例的在视频图像中展示业务对象的方法包括以下步骤:
步骤S102:从视频图像中检测目标对象,并确定所述目标对象的特征点。
目标对象是存在于视频图像中的、易被观众查看的对象,包括但不限于:人体(包括人脸和身体部位等)、动作(包括姿势和手势等)、背景等。目标对象一般具有一定数量的特征点,例如人脸中主要包括眼睛、鼻子、嘴巴、脸部轮廓的传统68个特征点,再例如手部主要包括的指尖、指谷和手部轮廓的特征点,再例如背景边界的特征点等等,本发明实施例不对目标对象及目标对象的特征点作具体限制。
在获得视频图像后,通过检测视频图像中的目标对象并确定目标对象的特征点,可以为后续确定待展示的业务对象的展示位置提供依据。例如,若确定了背景的边界特征点后,可以在背景的适当位置展示业务对象,或者,若确定了人脸的特征点,则可以在人脸的适当位置展示业务对象,如额头、脸颊等。
本步骤中,在从视频图像中检测目标对象并确定所述目标对象的特征点时,可以采用相应的特征提取算法或者使用神经网络模型如卷积网络模型等实现。
步骤S104:根据目标对象的特征点,确定待展示的业务对象在视频图像中的展示位置。
其中,根据目标对象的特征点,确定待展示的业务对象在视频图像中的展示位置的方式将在后文详细描述,包括但不限于:根据目标对象的特征点,按照设定规则确定展示位置;根据目标对象的特征点,使用训练过的神经网络模型如卷积网络模型确定等。
步骤S106:在展示位置采用计算机绘图方式绘制业务对象。
在确定了展示位置后,即可在该展示位置采用计算机绘图方式进行业务对象绘制,以进行业务对象展示。其中,业务对象包括但不限于:包含有语义信息的特效,其中特效可以是三维形式的特效,如三维形式的广告特效(使用3D特效形式展示的广告),也可以是二维形式的贴纸,如二维形式的广告贴纸特效(使用贴纸形式展示的广告)。但不限于此,其它形式的业务对象也同样适用本发明实施例提供的在视频图像中展示业务对象的方案,如APP或其它应用的文字说明或介绍,或者一定形式的与视频观众交互的对象(如电子宠物)等。
其中,对业务对象的采用计算机绘图方式绘制可以通过适当的计算机图形图像绘制或渲染等方式实现,包括但不限于:基于OpenGL图形绘制引擎进行绘制等。OpenGL定义了一个跨编程语言、跨平台的编程接口规格的专业的图形程序接口,其与硬件无关,可以方便地进行2D或3D图形图像的绘制。通过OpenGL,不仅可以实现2D效果如2D贴纸的绘制,还可以实现3D特效的绘制及粒子特效的绘制等等。但不限于OpenGL,其它方式,如Unity或OpenCL等也同样适用。
通过本实施例提供的在视频图像中展示业务对象的方法,首先从视频图像中检测目标对象并确定目标对象的特征点,不同的目标对象具有不同的特征点;然后,可以将确定的目标对象的特征点作为确定待展示的业务对象的展示位置的依据,从而有效确定待展示的业务对象的展示位置;进而,在确定的展示位置采用计算机绘图方式绘制业务对象,以进行业务对象的展示。当业务对象用于展示广告时,与传统的视频广告方式相比,一方面,该业务对象与视频播放相结合,无须通过网络传输与视频无关的额外广告视频数据,节约了网络资源和客户端的系统资源;另一方面,业务对象与视频图像中的目标对象紧密结合,以一种不打扰观众的方式展示业务对象,不影响观众的正常视频观看体验,不易引起观众反感,可以有效实现预想的效果。
实施例二
参照图2,示出了根据本发明实施例二的一种在视频图像中展示业务对象的方法的步骤流程图。
本实施例的在视频图像中展示业务对象的方法可以由任意具有数据采集、处理和传输功能的设备执行,包括但不限于移动终端和PC等。本实施例以移动终端为例,对本发明实施例提供的在视频图像中展示业务对象的方法进行说明,其它设备可参照本实施例执行。
本实施例的在视频图像中展示业务对象的方法包括以下步骤:
步骤S202:移动终端获取视频图像。
如,从直播应用中获取当前正在播放的视频的视频图像(即直播类视频图像),或者,从正在录制的视频中获取视频图像,本发明实施例对视频图像的获取方式不作限制。
另外,本发明实施例中以对一张视频图像的处理为例,但本领域技术认员应当明了,对于多张视频图像或视频流中的视频图像序列均可参照本发明实施例进行在视频图像中展示业务对象的处理。
步骤S204:移动终端从视频图像中检测目标对象,并确定目标对象的特征点。
本发明实施例中,视频图像可以是视频中的视频数据帧对应的图像,每个图像中都具有一定的目标对象,如人物、手势、背景等。对视频图像中的目标对象进行检测并确定特征点,可以采用任意适当的相关技术中的方式实现,本发明实施例对此不作限制。例如,线性特征提取方式如PCA主成分分析、LDA线性判别分析、ICA独立成分分析等;再例如非线性特征提取方式如Kernel PCA核主成分分析、流形学习等;也可以使用训练完成的神经网络模型如本发明实施例中的卷积网络模型进行目标对象特征点的提取。
例如,移动终端在直播应用进行视频直播的过程中,从直播的视频图像中检测目标对象并确定目标对象的特征点;再例如,移动终端在某一录制的视频的播放过程中,从播放的视频图像中检测目标对象并确定目标对象的特征点;又例如,移动终端在某一视频的录制过程中,从录制的视频图像中检测目标对象并确定目标对象的特征点等等。
步骤S206:移动终端根据目标对象的特征点,确定待展示的业务对象在视频图像中的展示位置。
在目标对象的特征点确定后,可以以此为依据,确定待展示的业务对象在视频图像中的一个或多个展示位置(其中,多个包括两个和两个以上的数量)。
在本实施例中,在根据目标对象的特征点确定待展示的业务对象在视频图像中的展示位置时,可行的实现方式包括:
方式一,根据目标对象的特征点,使用预先训练的、用于确定业务对象在视频图像中的展示位置的卷积网络模型,确定待展示的业务对象在视频图像中的展示位置;方式二,根据目标对象的特征点,确定目标对象的类型;根据目标对象的类型,确定待展示的业务对象的展示区域;根据展示区域,确定待展示的业务对象在视频图像中的展示位置。
以下,分别对上述两种方式进行详细说明。
方式一
在使用方式一确定待展示的业务对象在视频图像中的展示位置时,需要预先训练一个卷积网络模型,训练完成的该卷积网络模型具有确定业务对象在视频图像中的展示位置的功能;或者,也可以直接使用第三方已训练完成的、具有确定业务对象在视频图像中的展示位置的功能的卷积网络模型。
需要说明的是,本实施例中,着重对业务对象的训练进行说明对目标对象部分的训练可以参照相关技术实现,本发明实施例对此仅做简要说明。
当需要预先训练卷积网络模型时,一种可行的训练方式包括以下过程:
(1)获取待训练的业务对象样本图像的特征向量。
其中,所述特征向量中包含有业务对象样本图像中的目标对象的信息,以及,业务对象的位置信息和/或置信度信息。其中,目标对象的信息指示了目标对象的图像信息;业务对象的位置信息指示了业务对象的位置,可以是业务对象中心点的位置信息,也可以是业务对象所在区域的位置信息;业务对象的置信度信息指示了业务对象展示在当前位置时,能够达到的效果(如被关注或被点击或被观看)的概率,该概率可以根据对历史数据的统计分析结果设定,也可以根据仿真实验的结果设定,还可以根据人工经验进行设定。在实际应用中,在对目标对象进行训练的同时,可以根据实际需要,仅对业务对象的位置信息进行训练,也可以仅对业务对象的置信度信息进行训练,还可以对二者均进行训练。对二者均进行训练,能够使得训练后的卷积网络模型更为有效和精准地确定业务对象的位置信息和置信度信息,以便为业务对象的展示提供依据。
卷积网络模型通过大量的样本图像进行训练,本发明实施例中的业务对象样本图像中的业务对象可以被预先标注位置信息,或者置信度信息,或者二种信息都有。当然,在实际应用中,这些信息也可以通过其它途径获取。而通过预先在对业务对象进行相应信息的标注,可以有效节约数据处理的数据和交互次数,提高数据处理效率。
将具有目标对象信息,以及,业务对象的位置信息和/或置信度信息的业务对象样本图像作为训练样本,对其进行特征向量提取,获得包含有目标对象信息,以及业务对象的位置信息和/或置信度信息的特征向量。
其中,对特征向量的提取可以采用相关技术中的适当方式实现,本发明实施例在此不再赘述。
(2)对所述特征向量进行卷积处理,获取特征向量卷积结果。
获取的特征向量卷积结果中包含有目标对象的信息,以及,业务对象的位置信息和/或置信度信息。
对特征向量的卷积处理次数可以根据实际需要进行设定,也即,卷积网络模型中,卷积层的层数根据实际需要进行设置,最终的特征向量卷积结果满足误差在一定范围内(如为图像长或宽的1/20~1/5,优选地,可以为图像长或宽的1/10)的标准即可。
卷积结果是对特征向量进行了特征提取后的结果,该结果能够有效表征视频图像中各相关对象的特征和分类。
本发明实施例中,当特征向量中既包含业务对象的位置信息,又包含业务对象的置信度信息时,也即,对业务对象的位置信息和置信度信息均进行了训练的情况下,该特征向量卷积结果在后续分别进行收敛条件判断时共享,无须进行重复处理和计算,减少了由数据处理引起的资源损耗,提高了数据处理速度和效率。
(3)分别判断特征向量卷积结果中对应的目标对象的信息,以及,业务对象的位置信息和/或置信度信息是否满足收敛条件。
其中,收敛条件由本领域技术人员根据实际需求适当设定。当信息满足收敛条件时,可以认为卷积网络模型中的参数设置适当;当信息不能满足收敛条件时,可以认为卷积网络模型中的参数设置不适当,需要对其进行调整,该调整是一个迭代的过程,直至使用调整后的参数对特征向量进行卷积处理的结果满足收敛条件。
一种可行方式中,收敛条件可以根据预设的标准位置和/或预设的标准置信度进行设定,如,将特征向量卷积结果中业务对象的位置信息指示的位置与该预设的标准位置之间的距离是否满足一定阈值作为业务对象的位置信息的收敛条件;将特征向量卷积结果中业务对象的置信度信息指示的置信度与该预设的标准置信度之间的差别是否满足一定阈值作为业务对象的置信度信息的收敛条件等。
其中,优选地,预设的标准位置可以是对待训练的业务对象样本图像中的业务对象的位置进行平均处理后获得的平均位置;预设的标准置信度可以是对待训练的业务对象样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。依据待训练的业务对象样本图像中的业务对象的位置和/或置信度设定标准位置和/或标准置信度,因样本图像为待训练样本且数据量庞大,因而设定的标准位置和标准置信度也更为客观和精确。
在具体进行特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件的判断时,一种可行的方式包括:
获取特征向量卷积结果中对应的业务对象的位置信息;使用第一损失函数,计算对应的业务对象的位置信息指示的位置与预设的标准位置之间的第一距离;根据第一距离判断对应的业务对象的位置信息是否满足收敛条件;
和/或,
获取特征向量卷积结果中对应的业务对象的置信度信息;使用第二损失函数,计算对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的第二距离;根据第二距离判断对应的业务对象的置信度信息是否满足收敛条件。
在一种可选的实施方式中,第一损失函数可以为计算对应的业务对象的位置信息指示的位置与预设的标准位置之间的欧式距离的函数;和/或,第二损失函数可以为计算对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的欧式距离的函数。采用欧式距离的方式,实现简单且能够有效指示收敛条件是否被满足。但不限于此,其它方式,如马式距离,巴式距离等也同样适用。
优选地,如前所述,预设的标准位置为对待训练的业务对象样本图像中的业务对象的位置进行平均处理后获得的平均位置;和/或,预设的标准置信度为对待训练的业务对象样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。
对于特征向量卷积结果中的目标对象的信息,对目标对象的信息是否收敛的判断可以参照相关使用卷积网络模型的收敛条件进行判断,在此不再赘述。若目标对象的信息满足收敛条件,则可对目标对象进行分类,明确目标对象的所属类别,以为后续业务对象的展示位置确定提供参考和依据。
(4)若满足收敛条件,则完成对卷积网络模型的训练;若不满足收敛条件,则根据特征向量卷积结果,调整卷积网络模型的参数并根据调整后的卷积网络模型的参数对卷积网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足收敛条件。
通过对卷积网络模型进行上述训练,卷积网络模型可以对基于目标对象进行展示的业务对象的展示位置进行特征提取和分类,从而具有确定业务对象在视频图像中的展示位置的功能。其中,当展示位置包括多个时,通过上述业务对象置信度的训练,卷积网络模型还可以确定出多个展示位置中的展示效果的优劣顺序,从而确定最优的展示位置。在后续应用中,当需要展示业务对象时,根据视频中的当前图像即可确定出有效的展示位置。
此外,在对卷积网络模型进行上述训练之前,还可以预先对业务对象样本图像进行预处理,包括:获取多个业务对象样本图像,其中,每个业务对象样本图像中包含有业务对象的标注信息;根据标注信息确定业务对象的位置,判断确定的业务对象的位置与预设位置的距离是否小于或等于设定阈值;将小于或等于设定阈值的业务对象对应的业务对象样本图像,确定为待训练的业务对象样本图像。其中,预设位置和设定阈值均可以由本领域技术人员采用任意适当方式进行适当设置,如根据数据统计分析结果或者相关距离计算公式或者人工经验等,本发明实施例对此不作限制。
在一种可行方式中,根据标注信息确定的业务对象的位置可以是业务对象的中心位置。在根据标注信息确定业务对象的位置,判断确定的业务对象的位置与预设位置的距离是否小于或等于设定阈值时,可以根据标注信息确定业务对象的中心位置;进而判断该中心位置与预设位置的方差是否小于或等于设定阈值。
通过预先对业务对象样本图像进行预处理,可以过滤掉不符合条件的样本图像,以保证训练结果的准确性。
通过上述过程实现了卷积网络模型的训练,训练完成的该卷积网络模型可以用来确定业务对象在视频图像中的展示位置。例如,在视频直播过程中,若主播点击业务对象指示进行业务对象展示时,在卷积网络模型获得了直播的视频图像中主播的面部特征点后,可以指示出展示业务对象的最优位置如主播的额头位置,进而移动终端控制直播应用在该位置展示业务对象;或者,在视频直播过程中,若主播点击业务对象指示进行业务对象展示时,卷积网络模型可以直接根据直播的视频图像确定业务对象的展示位置。
方式二
在方式二中,首先需要根据目标对象的特征点,确定目标对象的类型;再根据目标对象的类型,确定待展示的业务对象的展示区域;然后根据展示区域,确定待展示的业务对象在视频图像中的展示位置。
其中,目标对象的类型包括但不限于:人脸类型、背景类型、手部类型和动作类型。其中,人脸类型用于指示人脸在视频图像中占据主要部分,背景类型用于指示背景在视频图像中占据较大部分,手部类型用于指示手部在视频图像中占据主要部分,而动作类型则用于指示人物进行了某种动作。
其中,在获取了目标对象的特征点之后,可以采用已有的相关检测、分类或学习方法确定目标对象的类型。在确定了目标对象的类型之后,可以按照设定的规则确定待展示的业务对象的展示区域,包括:
当目标对象的类型为人脸类型时,确定待展示的业务对象的展示区域包括以下至少之一:视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域;和/或,
当目标对象的类型为背景类型时,确定待展示的业务对象的展示区域包括:视频图像中的背景区域;和/或,
当目标对象的类型为手部类型时,确定待展示的业务对象的展示区域包括:视频图像中以手部所在的区域为中心的、设定范围内的区域;和/或,
当目标对象的类型为动作类型时,确定待展示的业务对象的展示区域包括:视频图像中预先设定的区域。其中,预先设定的区域由本领域技术人员根据实际情况适当设置,如,以动作生成部位为中心的设定范围内的区域,或者,动作生成部位以外的设定范围内的区域,或者背景区域等等,本发明实施例对此不作限制。
在一种可选的实施方式中,所述动作类型对应的动作包括以下至少之一:眨眼、张嘴、点头、摇头、亲吻、微笑、挥手、剪刀手、握拳、托手、竖大拇指、摆手枪姿势、摆V字手、摆OK手。
在确定了展示区域后,可以进一步确定待展示的业务对象在视频图像中的展示位置。例如,以展示区域的中心点为业务对象的展示位置中心点进行业务对象的展示;再例如,将展示区域中的某一坐标位置确定为展示位置的中心点等,本发明实施例对此不作限制。
在一种优选的实施方案中,在确定待展示的业务对象在视频图像中的展示位置时,不仅根据目标对象的特征点,还根据待展示的业务对象的类型,确定待展示的业务对象在视频图像中的展示位置。其中,业务对象的类型包括以下至少之一:额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。但不限于此,业务对象的类型还可以为其它适当类型,如虚拟瓶盖类型,虚拟杯子类型、文字类型等等。
由此,根据业务对象的类型,可以以目标对象的特征点为参考,为业务对象选择适当的展示位置。
此外,在根据目标对象的特征点和待展示的业务对象的类型,获得待展示的业务对象在视频图像中的多个展示位置的情况下,可以从多个展示位置中选择至少一个展示位置。例如,对于文字类型的业务对象,可以展示在背景区域,也可以展示在人物的额头或身体区域等。
步骤S208:移动终端在展示位置采用计算机绘图方式绘制业务对象。
在确定了展示位置后,在该展示位置采用计算机绘图方式绘制业务对象以进行展示。当业务对象为包含有语义信息的贴纸,可以使用该贴纸进行广告投放和展示,例如,通过虚拟瓶盖类型展示某一产品的名称,吸引观众观看,提升广告投放和展示趣味性,提高广告投放和展示效率。当业务对象为贴纸,如广告贴纸时,在采用计算机绘图方式进行业务对象的绘制时,可以先获取业务对象的相关信息,如业务对象的标识、大小等。在确定了展示位置之后,可以根据展示位置所在区域(如展示位置的矩形区域)的坐标,对业务对象进行缩放、旋转等调整,进而通过相应的绘图方式如OpenGL方式进行绘制。在某些情况下,广告还可以以三维特效形式展示,如通过粒子特效方式展示广告的文字或LOGO等等。
需要说明的是,随着互联网直播的兴起,越来越多的视频以直播的方式出现。这类视频具有场景简单、实时、因观众主要在手机等移动终端上观看而视频图像尺寸较小等特点。在此情况下,对于某些业务对象的投放如广告投放来说,一方面,由于移动终端的屏幕展示区域有限,如果以传统的固定位置放置广告,则会占用主要的用户体验区域,不仅容易引起用户反感,还可能导致直播的主播者丢失观众;另一方面,对于主播类直播应用,由于直播的即时性,传统的插入固定时长的广告会明显打扰用户与主播交流的连贯性,影响用户观看体验;再一方面,由于直播的内容时长本来就较短,也给采用传统方式插入固定时长的广告带来了困难。而通过业务对象投放广告,将广告投放与视频直播内容有效融合,方式灵活,效果生动,不仅不影响用户的直播观看体验,且提升了广告的投放效果。对于使用较小的显示屏幕进行业务对象展示,广告投放等场景尤其适用。
通过本实施例的在视频图像中展示业务对象的方法,可以有效实现业务对象在视频图像中的展示位置的确定,进而在确定的展示位置进行业务对象的投放和展示。业务对象展示与视频播放有效结合,无须额外的数据传输,节约了网络资源和客户端的系统资源,也提高了业务对象的投放和展示效率和效果。
实施例三
参照图3,示出了根据本发明实施例三的一种在视频图像中展示业务对象的方法的步骤流程图。
本实施例以业务对象为包含有语义信息的贴纸,具体为广告贴纸为例,对本发明实施例的在视频图像中展示业务对象的方案进行说明。
本实施例的在视频图像中展示业务对象的方法包括以下步骤:
步骤S302:获取业务对象样本图像并进行预处理,确定待训练的业务对象样本图像。
业务对象样本图像中存在一些不符合卷积网络模型的训练标准的样本图像,需要通过对业务对象样本图像的预处理将这部分样本图像过滤掉。
首先,本实施例中,每个业务对象样本图像中都包含有进行了标注的目标对象和标注的业务对象,且每个业务对象都标注有位置信息和置信度信息。一种可行的实施方案中,将业务对象的中心点的位置信息作为该业务对象的位置信息。本步骤中,仅根据业务对象的位置信息对样本图像进行过滤。获得位置信息指示的位置的坐标,将该坐标与预设的该类型的业务对象的位置坐标进行比对,计算二者的位置方差。若该位置方差小于或等于设定的阈值,则该业务对象样本图像可以作为待训练的样本图像;若该位置方差大于设定的阈值,则过滤掉该业务对象样本图像。其中,预设的位置坐标和设定的阈值均可以由本领域技术人员根据实际情况适当设置,例如,因为一般用于卷积网络模型训练的图像具有相同的大小,因此设定的阈值可以为图像长或宽的1/20~1/5,优选地,可以为图像长或宽的1/10。
此外,还可以对确定的待训练的业务对象样本图像中的业务对象的位置和置信度进行平均,获取平均位置和平均置信度,该平均位置和平均置信度可以作为后续确定收敛条件的依据。
当以业务对象为广告贴纸为实例时,本实施例中用于训练的业务对象样本图像需要标注有最优广告位置的坐标和该广告位的置信度。其中,最优广告位置可以在人脸、手势、前背景等地方标注,因此可以实现面部特征点、手势、前背景等地方的广告位的联合训练,这相对于基于面部、手势等某一项技术单独训练的方案,有利于节省计算资源。置信度的大小表示了这个广告位是最优广告位的概率,例如,如果这个广告位是被遮挡多,则置信度低。
步骤S304:使用确定的待训练的业务对象样本图像,对卷积网络模型进行训练。
本实施例中,一种具体的卷积网络模型结构的简要说明如下:
(1)输入层
例如,可以输入待训练的业务对象样本图像的特征向量,该特征向量中既包含目标对象的信息,也包含业务对象的信息,包括业务对象的位置信息和置信度信息。
(2)卷积层
//第一阶段,对待训练的业务对象样本图像的特征向量进行卷积处理,获得卷积结果并共享卷积层结果。
2.<=1卷积层1_1(3x3x64)
3.<=2非线性响应ReLU层
4.<=3卷积层1_2(3x3x64)
5.<=4非线性响应ReLU层
6.<=5池化层(3x3/2)
7.<=6卷积层2_1(3x3x128)
8.<=7非线性响应ReLU层
9.<=8卷积层2_2(3x3x128)
10.<=9非线性响应ReLU层
11.<=10池化层(3x3/2)
12.<=11卷积层3_1(3x3x256)
13.<=12非线性响应ReLU层
14.<=13卷积层3_2(3x3x256)
15.<=14非线性响应ReLU层
16.<=15卷积层3_3(3x3x256)
17.<=16非线性响应ReLU层
18.<=17池化层(3x3/2)
19.<=18卷积层4_1(3x3x512)
20.<=19非线性响应ReLU层
21.<=20卷积层4_2(3x3x512)
22.<=21非线性响应ReLU层
23.<=22卷积层4_3(3x3x512)
24.<=23非线性响应ReLU层
25.<=24池化层(3x3/2)
26.<=25卷积层5_1(3x3x512)
27.<=26非线性响应ReLU层
28.<=27卷积层5_2(3x3x512)
29.<=28非线性响应ReLU层
30.<=29卷积层5_3(3x3x512)
31.<=30非线性响应ReLU层
32.<=31池化层(3x3/2)
//第二阶段第一训练分支,对第一阶段卷积结果中业务对象即广告贴纸的位置进行回归分析,预测最优广告贴纸的位置坐标。
33.<=32卷积层6_1(1x1x2304)
34.<=33非线性响应ReLU层
35.<=34卷积层6_2(1x1x2)
36.<=35损失层,进行最优广告位坐标回归
//第二阶段第二训练分支,对第一阶段卷积结果中业务对象即广告贴纸的置信度进行回归分析,预测广告贴纸的置信度。
37.<=31池化层(3x3/2)
38.<=37卷积层cls_6_1(1x1x4096)
39.<=38非线性响应ReLU层
40.<=39卷积层cls_6_2(1x1x4096)
41.<=40非线性响应ReLU层
42.<=41卷积层cls_7_1(1x1x1)
43.<=42损失层,进行置信度回归
(3)输出层
本实施例中,输出层的输出可以为35层和42层的预测值。
需要说明的是:
第一,上述第二阶段第一训练分支和第二阶段第二训练分支共享第一阶段的卷积结果,节省了计算资源。
第二,上述第二阶段第一训练分支和第二阶段第二训练分支的训练可以不分先后顺序,也可以并行执行。
第三,本实施例中,第一阶段的卷积结果中可以既包含有目标对象的特征提取和分类结果,也包含有业务对象的特征提取和分类结果,还包含有业务对象的位置信息和置信度信息的特征提取和分类结果。
第四,在第二阶段第一训练分支中,对最优广告贴纸的位置的预测是迭代多次进行的,每完成一次最优广告贴纸的位置的预测,就根据预测结果调整卷积神经网络的网络参数(如卷积核的值、层间输出线性变化的权重,等等),基于参数调整后的网络再进行预测,迭代多次,直至满足收敛条件。具体地,在第一训练分支中,损失层36使用第一损失函数确定第一阶段训练出的广告贴纸的位置是否满足收敛条件,在不满足收敛条件的情况下,卷积网络模型将进行反向传播,调整卷积网络模型的训练参数,实现最优广告贴纸位置的回归计算。其中,本实施例中,第一损失函数使用度量欧式距离的函数min x,y(x–xgt)2+(y–ygt)2,其中,(x,y)为待优化的广告贴纸的坐标,(xgt,ygt)为预设的标准位置的坐标。一种可选的实施方案中,该预设的标准位置可以为步骤S302中获得的对待训练的业务对象样本图像中的业务对象的位置进行平均后的平均位置。
其中,收敛条件例如,待优化的广告贴纸的坐标和预设的标准位置的坐标相同,或者,待优化的广告贴纸的坐标和预设的标准位置的坐标的差异小于一定阈值(如图像长或宽的1/20~1/5,优选为1/10),或者,参数优化的迭代次数达到预定次数(如10~20次)等等。
第五,在第二阶段第二训练分支中,对广告贴纸的置信度的预测是迭代多次进行的,每完成一次广告贴纸的置信度的预测,就根据预测结果调整卷积神经网络的网络参数(如卷积核的值、层间输出线性变化的权重,等等),基于参数调整后的网络再进行预测,迭代多次,直至满足收敛条件。具体地,在第二训练分支中,损失层43使用第二损失函数确定第一阶段训练出的广告贴纸的置信度是否满足收敛条件,在不满足收敛条件的情况下,卷积网络模型将进行反向传播,调整卷积网络模型的训练参数,实现广告贴纸置信度的回归计算。其中,本实施例中,第二损失函数使用度量欧式距离的函数min p(p–pgt)2,其中,p为待优化的广告贴纸的置信度,pgt为预设的标准置信度。一种可选的实施方案中,该预设的标准置信度可以为步骤S302中获得的对待训练的业务对象样本图像中的业务对象的置信度进行平均后的平均置信度。
收敛条件例如,待优化的置信度和预设的标准置信度相同,或者,待优化的置信度和预设的标准置信度的差异小于一定阈值(如小于或等于25%),或者,参数优化的迭代次数达到预定次数(如10~20次)等等。
第六,上述卷积网络结构的说明中,2.<=1表明当前层为第二层,输入为第一层;卷积层后面括号为卷积层参数(3x3x64)表明卷积核大小为3x3,通道数为64;池化层后面括号(3x3/2)表明池化核大小为3x3,间隔为2。其它依此类推,不再赘述。
在上述卷积网络结构中,每个卷积层之后都有一个非线性响应单元,该非线性响应单元采用纠正线性单元ReLU(Rectified Linear Units),通过在卷积层后增加上述纠正线性单元,将卷积层的映射结果尽量稀疏,更接近人的视觉反应,从而使图像处理效果更好。
将卷积层的卷积核设为3x3,能更好的综合局部信息。
设定池化层(Max pooling)的步长stride,使上层特征在不增加计算量的前提下获得更大的视野,同时池化层的步长stride还有增强空间不变性的特征,即允许同样的输入出现在不同的图像位置上,而输出结果响应相同。
但本领域技术人员应当明了的是,上述卷积核的大小、通道数、池化核的大小、间隔以及卷积层的层数数量均为示例性说明,在实际应用中,本领域技术人员可以根据实际需要进行适应性调整,本发明实施例对此不作限制。此外,本实施例中的卷积网络模型中的所有层的组合及参数都是可选的,可以任意组合。
通过本实施例中的卷积网络模型,使用第一训练分支预测最优广告贴纸的位置,使用第二训练分支预测这个位置的置信度,实现了对视频图像中广告贴纸的位置的有效预测。
步骤S306:获取当前视频图像,将当前视频图像作为输入,使用训练后的卷积网络模型确定待展示的业务对象在当前视频图像中的展示位置。
步骤S308:在当前视频图像中的展示位置采用计算机绘图方式绘制待展示的业务对象。
随着互联网直播和短视频分享的兴起,越来越多的视频以直播或者短视频的方式出现。这类视频常常以人物为主角(单一人物或少量人物),以人物加简单背景为主要场景,观众主要在手机等移动终端上观看。在此情况下,对于某些业务对象的投放如广告投放来说,一方面,由于移动终端的屏幕展示区域有限,如果以传统的固定位置放置广告,往往占用主要的用户体验区域,容易引起用户反感;另一方面,对于主播类直播应用,由于直播的即时性,传统的插入固定时长的广告会明显打扰用户与主播交流的连贯性,影响用户观看体验;再一方面,对于短视频广告,由于直播或者短视频的内容时长本来就较短,也给采用传统方式插入固定时长的广告带来了困难。而通过本实施例提供的方案,可以实时对视频播放过程中的视频图像进行检测,给出效果最优的广告投放位置,且不影响用户的观看体验,投放效果更好。当然,除上述场景之外的其它场景也同样适用本发明实施例提供的方案,如视频录制场景等等。
此外,本实施例的在视频图像中展示业务对象的方法可以在任意适当的具有数据采集、处理和传输功能的终端设备如移动终端或PC上实现,本发明实施例对实现设备不作限制。
实施例四
参照图4,示出了根据本发明实施例四的一种在视频图像中展示业务对象的方法的步骤流程图。
本实施例仍以业务对象为包含有语义信息的贴纸,具体为广告贴纸为例,对本发明实施例的在视频图像中展示业务对象的方案进行说明。
本实施例的在视频图像中展示业务对象的方法包括以下步骤:
步骤S402:从视频图像中检测目标对象,并确定目标对象的特征点。
步骤S404:根据目标对象的特征点,确定目标对象的类型。
本实施例中,目标对象的类型包括但不限于:人脸类型、手部类型、动作类型和背景类型。
每个目标对象都有一定的特征点,比如人脸或者手部的特征点,再比如背景的边界点等,在获得了目标对象的特征点后,即可确定目标对象的类型。
步骤S406:根据目标对象的类型,确定待展示的业务对象的展示区域。
包括:
当目标对象的类型为人脸类型时,确定待展示的业务对象的展示区域包括以下至少之一:视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域;和/或,
当目标对象的类型为背景类型时,确定待展示的业务对象的展示区域包括:视频图像中的背景区域;和/或,
当目标对象的类型为手部类型时,确定待展示的业务对象的展示区域包括:视频图像中以手部所在的区域为中心的、设定范围内的区域;和/或,
当目标对象的类型为动作类型时,确定待展示的业务对象的展示区域包括:视频图像中预先设定的区域。
以主播型视频场景为例,该场景通常包括直播和短视频分享的常见场景,该场景的主体常常为一个主要人物加简单背景,人物常常在画面中占比较多。例如,当视频主体为人物时,观众主要关注的区域为主体的脸部区域和肢体动作,为了能够既让观众注意到广告的内容,同时不会影响到视频的主体,可以通过增强现实感效果,给画面人物相关区域加上有语义的虚拟物品如广告贴纸(即业务对象)。并通过虚拟物品上的展示效果和信息达到商业价值。通过这种方式,既保留了视频主体的主要形象和动作,同时通过增强现实的特效为视频增加了趣味性,减少了观众对广告投放引起的可能的反感,并能够吸引到观众的注意力,形成商业的价值。
步骤S408:根据展示区域,确定待展示的业务对象在视频图像中的展示位置。
确定的展示区域可能仅包括一个区域,也可能包括多个区域,可以根据业务对象的类型,从中确定出一个或多个展示区域进行业务对象绘制和展示。
其中,业务对象的类型包括以下至少之一:额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。但不限于此,业务对象的类型还可以为其它适当类型,如虚拟瓶盖类型,虚拟杯子类型、文字类型等等。
例如,当目标对象的类型为人脸类型,而业务对象的类型为额头贴片类型时,则可以确定业务对象在视频图像中的展示区域为相应的额头区域,以额头区域的中心点为中心绘制并展示业务对象。再例如,当目标对象的类型为人脸类型,而业务对象的类型为文字类型时,则业务对象在视频图像中的展示区域可以包括身体区域、额头区域、脸颊区域以及背景区域等,可以从中确定一个或多个区域,以相应的区域的中心点为中心,进行业务对象的绘制和展示。
步骤S410:在展示位置采用计算机绘图方式绘制业务对象并展示。
例如,在视频直播场景中,该场景中主体为人物。其中:一种额头贴片类型的业务对象的展示示例可以是主播额头的区域;一种脸颊贴片类型的业务对象的展示示例可以是主播两侧脸颊的区域;另一种脸颊贴片类型的业务对象的展示示例可以是主播两侧脸颊的区域和背景区域中主播额头上头的区域;一种下巴贴片类型的业务对象的展示示例可以是主播下巴的区域;一种虚拟头饰类型的业务对象的展示示例可以是主播头发及背景中的区域;一种在背景区域展示的业务对象的展示示例可以是在该业务对象在不遮盖背景的情况下进行展示;一种眨眼动作触发展示的业务对象的展示示例可以是主播眼睛处的区域;一种亲吻动作触发展示的业务对象的展示示例可以是主播嘴部处的区域;一种微笑动作触发展示的业务对象的展示示例可以在多个区域展示;一种挥手动作触发展示的业务对象的展示示例可以是主播手部的区域;一种托手动作触发展示的业务对象的展示示例可以是在主播手部上方的区域。
可选地,上述示例中的业务对象均可以为文字形式或图片形式或二者结合形式的贴纸。
通过本实施例的在视频图像中展示业务对象的方法,能够在主播型视频场景中,有效确定合适的广告投放和展示位置,且于视频播放有效融合,无须额外的网络资源和客户端系统资源,在不影响用户视频观看体验的同时,提高了广告投放效果和效率。
实施例五
参照图5,示出了根据本发明实施例五的一种在视频图像中展示业务对象的装置的结构框图。
本实施例的在视频图像中展示业务对象的装置包括:第一确定模块502,用于从视频图像中检测目标对象,并确定目标对象的特征点;第二确定模块504,用于根据目标对象的特征点,确定待展示的业务对象在视频图像中的展示位置;绘制模块506,用于在展示位置采用计算机绘图方式绘制业务对象。
通过本实施例提供的在视频图像中展示业务对象的装置,首先从视频图像中检测目标对象并确定目标对象的特征点,不同的目标对象具有不同的特征点;然后,可以将确定的目标对象的特征点作为确定待展示的业务对象的展示位置的依据,从而有效确定待展示的业务对象的展示位置;进而,在确定的展示位置采用计算机绘图方式绘制业务对象,以进行业务对象的展示。例如,在人脸加简单背景的视频图像中,可以认为人脸为目标对象,对该视频图像进行检测获得人脸这一目标对象并确定其特征点,包括但不限于对应于眉毛、眼睛、嘴巴、鼻子、脸部轮廓中的部分或全部的特征点,进而,以这些特征点为参考,确定待展示的业务对象的展示位置,如在眉毛以上的额头部位展示业务对象等。当业务对象用于展示广告时,与传统的视频广告方式相比,一方面,该业务对象与视频播放相结合,无须通过网络传输与视频无关的额外广告视频数据,节约了网络资源和客户端的系统资源;另一方面,业务对象与视频图像中的目标对象紧密结合,以一种不打扰观众的方式展示业务对象,不影响观众的正常视频观看体验,不易引起观众反感,可以有效实现预想的效果。
实施例六
参照图6,示出了根据本发明实施例六的一种在视频图像中展示业务对象的装置的结构框图。
本实施例的在视频图像中展示业务对象的装置包括:第一确定模块602,用于从视频图像中检测目标对象,并确定目标对象的特征点;第二确定模块604,用于根据目标对象的特征点,确定待展示的业务对象在视频图像中的展示位置;绘制模块606,用于在展示位置采用计算机绘图方式绘制业务对象。
可选地,第二确定模块604用于根据目标对象的特征点,使用预先训练的、用于确定业务对象在视频图像中的展示位置的卷积网络模型,确定待展示的业务对象在视频图像中的展示位置。
可选地,本实施例中的在视频图像中展示业务对象的装置还包括:训练模块608,用于对卷积网络模型进行预先训练。
其中,训练模块608包括:第一获取模块6082,用于获取待训练的业务对象样本图像的特征向量,其中,所述特征向量中包含有业务对象样本图像中的目标对象的信息,以及,业务对象的位置信息和/或置信度信息;第二获取模块6084,用于对所述特征向量进行卷积处理,获取特征向量卷积结果;判断模块6086,用于分别判断特征向量卷积结果中对应的目标对象的信息,以及,业务对象的位置信息和/或置信度信息是否满足收敛条件;执行模块6088,用于若判断模块6086的判断结果为满足,则完成对卷积网络模型的训练;若判断模块6086的判断结果为不满足,则根据特征向量卷积结果,调整卷积网络模型的参数并根据调整后的卷积网络模型的参数对卷积网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足收敛条件。
可选地,判断模块6086包括:第一判断模块60862,用于获取特征向量卷积结果中对应的业务对象的位置信息;使用第一损失函数,计算对应的业务对象的位置信息指示的位置与预设的标准位置之间的第一距离;根据第一距离判断对应的业务对象的位置信息是否满足收敛条件;和/或,第二判断模块60864,用于获取特征向量卷积结果中对应的业务对象的置信度信息;使用第二损失函数,计算对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的第二距离;根据第二距离判断对应的业务对象的置信度信息是否满足收敛条件。
可选地,第一损失函数为:计算对应的业务对象的位置信息指示的位置与预设的标准位置之间的欧式距离的函数;和/或,第二损失函数为:计算对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的欧式距离的函数。
可选地,预设的标准位置为:对待训练的业务对象样本图像中的业务对象的位置进行平均处理后获得的平均位置;和/或,预设的标准置信度为:对待训练的业务对象样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。
可选地,训练模块608还包括:预处理模块60810,用于在第一获取模块6082获取待训练的业务对象样本图像的特征向量之前,获取多个业务对象样本图像,其中,每个业务对象样本图像中包含有业务对象的标注信息;根据标注信息确定业务对象的位置,判断确定的业务对象的位置与预设位置的距离是否小于或等于设定阈值;将小于或等于设定阈值的业务对象对应的业务对象样本图像,确定为待训练的业务对象样本图像。
可选地,预处理模块60810在根据标注信息确定业务对象的位置,判断确定的业务对象的位置与预设位置的距离是否小于或等于设定阈值时:根据标注信息确定业务对象的中心位置;判断中心位置与预设位置的方差是否小于或等于设定阈值。
可选地,第二确定模块604包括:类型确定模块6042,用于根据目标对象的特征点的信息,确定目标对象的类型;区域确定模块6044,用于根据目标对象的类型,确定待展示的业务对象的展示区域;位置确定模块6046,用于根据展示区域,确定待展示的业务对象在视频图像中的展示位置。
可选地,区域确定模块6044包括:第一区域确定模块60442,用于当目标对象的类型为人脸类型时,确定待展示的业务对象的展示区域包括以下至少之一:视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域;和/或,第二区域确定模块60444,用于当目标对象的类型为背景类型时,确定待展示的业务对象的展示区域包括:视频图像中的背景区域;和/或,第三区域确定模块60446,用于当目标对象的类型为手部类型时,确定待展示的业务对象的展示区域包括:视频图像中以手部所在的区域为中心的、设定范围内的区域;和/或,第四区域确定模块60448,用于当目标对象的类型为动作类型时,确定待展示的业务对象的展示区域包括:视频图像中预先设定的区域。
可选地,动作类型对应的动作包括以下至少之一:眨眼、张嘴、点头、摇头、亲吻、微笑、挥手、剪刀手、握拳、托手、竖大拇指、摆手枪姿势、摆V字手、摆OK手。
可选地,第二确定模块604用于根据目标对象的特征点和待展示的业务对象的类型,确定待展示的业务对象在视频图像中的展示位置。
可选地,第二确定模块604用于根据目标对象的特征点和待展示的业务对象的类型,获得待展示的业务对象在视频图像中的多个展示位置;从多个展示位置中选择至少一个展示位置。
可选地,业务对象的类型包括以下至少之一:额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。
可选地,所述业务对象为包含有语义信息的特效;视频图像为直播类视频图像。
可选地,所述业务对象包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、三维特效、粒子特效。
本实施例在视频图像中展示业务对象的装置用于实现前述多个方法实施例中相应的在视频图像中展示业务对象的方法,并具有相应的方法实施例的有益效果,在此不再赘述。
此外,本实施例的在视频图像中展示业务对象的装置可以设置于适当的终端设备中,包括但不限于移动终端、PC等。
实施例七
参照图7,示出了根据本发明实施例七的一种终端设备的结构示意图,本发明具体实施例并不对终端设备的具体实现做限定。
如图7所示,该终端设备可以包括:处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。
其中:
处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。
通信接口704,用于与其它设备比如其它客户端或服务器等的网元通信。
处理器702,用于执行程序710,具体可以执行上述方法实施例中的相关步骤。
具体地,程序710可以包括程序代码,该程序代码包括计算机操作指令。
处理器710可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路,或者是图形处理器GPU(Graphics Processing Unit)。终端设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU,或者,一个或多个GPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个GPU。
存储器706,用于存放程序710。存储器706可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序710具体可以用于使得处理器702执行以下操作:从视频图像中检测目标对象,并确定目标对象的特征点;根据目标对象的特征点,确定待展示的业务对象在视频图像中的展示位置;在展示位置采用计算机绘图方式绘制业务对象。
在一种可选的实施方式中,程序710还用于使得处理器702在根据目标对象的特征点,确定待展示的业务对象在视频图像中的展示位置时:根据目标对象的特征点,使用预先训练的、用于确定业务对象在视频图像中的展示位置的卷积网络模型,确定待展示的业务对象在视频图像中的展示位置。
在一种可选的实施方式中,程序710还用于使得处理器702在对卷积网络模型的预先训练时:获取待训练的业务对象样本图像的特征向量,其中,所述特征向量中包含有业务对象样本图像中的目标对象的信息,以及,业务对象的位置信息和/或置信度信息;对所述特征向量进行卷积处理,获取特征向量卷积结果;分别判断特征向量卷积结果中对应的目标对象的信息,以及,业务对象的位置信息和/或置信度信息是否满足收敛条件;若满足,则完成对卷积网络模型的训练;若不满足,则根据特征向量卷积结果,调整卷积网络模型的参数并根据调整后的卷积网络模型的参数对所述卷积网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足收敛条件。
在一种可选的实施方式中,程序710还用于使得处理器702在分别判断特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件时:获取特征向量卷积结果中对应的业务对象的位置信息;使用第一损失函数,计算对应的业务对象的位置信息指示的位置与预设的标准位置之间的第一距离;根据第一距离判断对应的业务对象的位置信息是否满足收敛条件;和/或,获取特征向量卷积结果中对应的业务对象的置信度信息;使用第二损失函数,计算对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的第二距离;根据第二距离判断对应的业务对象的置信度信息是否满足收敛条件。
在一种可选的实施方式中,第一损失函数为:计算对应的业务对象的位置信息指示的位置与预设的标准位置之间的欧式距离的函数;和/或,第二损失函数为:计算对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的欧式距离的函数。
在一种可选的实施方式中,预设的标准位置为:对待训练的业务对象样本图像中的业务对象的位置进行平均处理后获得的平均位置;和/或,预设的标准置信度为:对待训练的业务对象样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。
在一种可选的实施方式中,程序710还用于使得处理器702在获取待训练的业务对象样本图像的特征向量之前,还获取多个业务对象样本图像,其中,每个业务对象样本图像中包含有业务对象的标注信息;根据标注信息确定业务对象的位置,判断确定的业务对象的位置与预设位置的距离是否小于或等于设定阈值;将小于或等于设定阈值的业务对象对应的业务对象样本图像,确定为待训练的业务对象样本图像。
在一种可选的实施方式中,程序710还用于使得处理器702在根据标注信息确定业务对象的位置,判断确定的业务对象的位置与预设位置的距离是否小于或等于设定阈值时:根据标注信息确定业务对象的中心位置;判断中心位置与预设位置的方差是否小于或等于设定阈值。
在一种可选的实施方式中,程序710还用于使得处理器702在根据目标对象的特征点,确定待展示的业务对象在视频图像中的展示位置时:根据目标对象的特征点,确定目标对象的类型;根据目标对象的类型,确定待展示的业务对象的展示区域;根据展示区域,确定待展示的业务对象在视频图像中的展示位置。
在一种可选的实施方式中,程序710还用于使得处理器702在根据目标对象的类型,确定待展示的业务对象的展示区域时:当目标对象的类型为人脸类型时,确定待展示的业务对象的展示区域包括以下至少之一:视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域;和/或,当目标对象的类型为背景类型时,确定待展示的业务对象的展示区域包括:视频图像中的背景区域;和/或,当目标对象的类型为手部类型时,确定待展示的业务对象的展示区域包括:视频图像中以手部所在的区域为中心的、设定范围内的区域;和/或,当目标对象的类型为动作类型时,确定待展示的业务对象的展示区域包括:视频图像中预先设定的区域。
在一种可选的实施方式中,动作类型对应的动作包括以下至少之一:眨眼、张嘴、点头、摇头、亲吻、微笑、挥手、剪刀手、握拳、托手、竖大拇指、摆手枪姿势、摆V字手、摆OK手。
在一种可选的实施方式中,程序710还用于使得处理器702在根据目标对象的特征点,确定待展示的业务对象在视频图像中的展示位置时:根据目标对象的特征点和待展示的业务对象的类型,确定待展示的业务对象在视频图像中的展示位置。
在一种可选的实施方式中,程序710还用于使得处理器702在根据目标对象的特征点和所述待展示的业务对象的类型,确定待展示的业务对象在视频图像中的展示位置时:根据目标对象的特征点和待展示的业务对象的类型,获得待展示的业务对象在视频图像中的多个展示位置;从多个展示位置中选择至少一个展示位置。
在一种可选的实施方式中,业务对象的类型包括以下至少之一:额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。
在一种可选的实施方式中,所述业务对象为包含有语义信息的特效;视频图像为直播类视频图像。
在一种可选的实施方式中,所述业务对象包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、三维特效、粒子特效。
程序710中各步骤的具体实现可以参见上述实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例提供的终端设备,首先从视频图像中检测目标对象并确定目标对象的特征点,不同的目标对象具有不同的特征点;然后,可以将确定的目标对象的特征点作为确定待展示的业务对象的展示位置的依据,从而有效确定待展示的业务对象的展示位置;进而,在确定的展示位置采用计算机绘图方式绘制业务对象,以进行业务对象的展示。例如,在人脸加简单背景的视频图像中,可以认为人脸为目标对象,对该视频图像进行检测获得人脸这一目标对象并确定其特征点,包括但不限于对应于眉毛、眼睛、嘴巴、鼻子、脸部轮廓中的部分或全部的特征点,进而,以这些特征点为参考,确定待展示的业务对象的展示位置,如在眉毛以上的额头部位展示业务对象等。当业务对象用于展示广告时,与传统的视频广告方式相比,一方面,该业务对象与视频播放相结合,无须通过网络传输与视频无关的额外广告视频数据,节约了网络资源和客户端的系统资源;另一方面,业务对象与视频图像中的目标对象紧密结合,以一种不打扰观众的方式展示业务对象,不影响观众的正常视频观看体验,不易引起观众反感,可以有效实现预想的效果。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。

Claims (30)

1.一种在视频图像中展示业务对象的方法,包括:
从直播的视频中检测目标对象,并确定所述目标对象的特征点,所述目标对象包括动作;
根据所述目标对象的特征点,确定待展示的业务对象在所述视频中的展示位置;所述展示位置包括:以动作生成部位为中心的设定范围内的区域,或者,以动作生成部位以外的设定范围内的区域;
在所述展示位置采用计算机绘图方式绘制所述业务对象,所述业务对象为包含有语义信息的特效。
2.根据权利要求1所述的方法,其中,根据所述目标对象的特征点,确定待展示的业务对象在所述视频中的展示位置,包括:
根据所述目标对象的特征点,使用预先训练的、用于确定业务对象在视频中的展示位置的卷积网络模型,确定待展示的业务对象在所述视频中的展示位置。
3.根据权利要求2所述的方法,其中,对所述卷积网络模型的预先训练包括:
获取待训练的业务对象样本图像的特征向量,其中,所述特征向量中包含有所述业务对象样本图像中的目标对象的信息,以及,业务对象的位置信息和/或置信度信息;
对所述特征向量进行卷积处理,获取特征向量卷积结果;
分别判断所述特征向量卷积结果中对应的目标对象的信息,以及,业务对象的位置信息和/或置信度信息是否满足收敛条件;
若满足,则完成对所述卷积网络模型的训练;
若不满足,则根据所述特征向量卷积结果,调整所述卷积网络模型的参数并根据调整后的所述卷积网络模型的参数对所述卷积网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。
4.根据权利要求3所述的方法,其中,分别判断所述特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件,包括:
获取所述特征向量卷积结果中对应的业务对象的位置信息;使用第一损失函数,计算所述对应的业务对象的位置信息指示的位置与预设的标准位置之间的第一距离;根据所述第一距离判断所述对应的业务对象的位置信息是否满足收敛条件;
和/或,
获取所述特征向量卷积结果中对应的业务对象的置信度信息;使用第二损失函数,计算所述对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的第二距离;根据所述第二距离判断所述对应的业务对象的置信度信息是否满足收敛条件。
5.根据权利要求4所述的方法,其中,
所述第一损失函数为:计算所述对应的业务对象的位置信息指示的位置与预设的标准位置之间的欧式距离的函数;
和/或,
所述第二损失函数为:计算所述对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的欧式距离的函数。
6.根据权利要求4所述的方法,其中,
所述预设的标准位置为:对所述待训练的业务对象样本图像中的业务对象的位置进行平均处理后获得的平均位置;
和/或,
所述预设的标准置信度为:对所述待训练的业务对象样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。
7.根据权利要求3-6任一项所述的方法,其中,在所述获取待训练的业务对象样本图像的特征向量之前,所述方法还包括:
获取多个业务对象样本图像,其中,每个所述业务对象样本图像中包含有业务对象的标注信息;
根据所述标注信息确定业务对象的位置,判断确定的所述业务对象的位置与预设位置的距离是否小于或等于设定阈值;
将小于或等于所述设定阈值的业务对象对应的业务对象样本图像,确定为待训练的业务对象样本图像。
8.根据权利要求7所述的方法,其中,根据所述标注信息确定业务对象的位置,判断确定的所述业务对象的位置与预设位置的距离是否小于或等于设定阈值,包括:
根据所述标注信息确定业务对象的中心位置;
判断所述中心位置与预设位置的方差是否小于或等于所述设定阈值。
9.根据权利要求1所述的方法,其中,
所述目标对象还包括人脸,所述根据所述目标对象的特征点,确定待展示的业务对象在所述视频中的展示位置,包括:根据所述人脸的特征点,确定待展示的业务对象在所述视频中的展示位置包括以下至少之一:视频中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域;和/或,
所述目标对象还包括背景,所述根据所述目标对象的特征点,确定待展示的业务对象在所述视频中的展示位置,包括:根据所述背景的特征点,确定待展示的业务对象在所述视频中的展示位置包括:视频中的背景区域。
10.根据权利要求1所述的方法,其中,所述动作包括以下至少之一:眨眼、张嘴、点头、摇头、亲吻、微笑、挥手、剪刀手、握拳、托手、竖大拇指、摆手枪姿势、摆V字手、摆OK手。
11.根据权利要求1-6任一项所述的方法,其中,根据所述目标对象的特征点,确定待展示的业务对象在所述视频中的展示位置,包括:
根据所述目标对象的特征点和所述待展示的业务对象的类型,确定待展示的业务对象在所述视频中的展示位置。
12.根据权利要求11所述的方法,其中,根据所述目标对象的特征点和所述待展示的业务对象的类型,确定待展示的业务对象在所述视频中的展示位置,包括:
根据所述目标对象的特征点和所述待展示的业务对象的类型,获得待展示的业务对象在所述视频中的多个展示位置;
从所述多个展示位置中选择至少一个展示位置。
13.根据权利要求11所述的方法,其中,所述业务对象的类型包括以下至少之一:额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。
14.根据权利要求1所述的方法,其中,所述业务对象包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、三维特效、粒子特效。
15.一种在视频图像中展示业务对象的装置,包括:
第一确定模块,用于从直播的视频中检测目标对象,并确定所述目标对象的特征点,所述目标对象包括动作;
第二确定模块,用于根据所述目标对象的特征点,确定待展示的业务对象在所述视频中的展示位置;所述展示位置包括:以动作生成部位为中心的设定范围内的区域,或者,以动作生成部位以外的设定范围内的区域;
绘制模块,用于在所述展示位置采用计算机绘图方式绘制所述业务对象,所述业务对象为包含有语义信息的特效。
16.根据权利要求15所述的装置,其中,所述第二确定模块,用于根据所述目标对象的特征点,使用预先训练的、用于确定业务对象在视频中的展示位置的卷积网络模型,确定待展示的业务对象在所述视频中的展示位置。
17.根据权利要求16所述的装置,其中,所述装置还包括:训练模块,用于对所述卷积网络模型进行预先训练;
所述训练模块包括:
第一获取模块,用于获取待训练的业务对象样本图像的特征向量,其中,所述特征向量中包含有所述业务对象样本图像中的目标对象的信息,以及,业务对象的位置信息和/或置信度信息;
第二获取模块,用于对所述特征向量进行卷积处理,获取特征向量卷积结果;
判断模块,用于分别判断所述特征向量卷积结果中对应的目标对象的信息,以及,业务对象的位置信息和/或置信度信息是否满足收敛条件;执行模块,用于若所述判断模块的判断结果为满足,则完成对所述卷积网络模型的训练;若所述判断模块的判断结果为不满足,则根据所述特征向量卷积结果中,调整所述卷积网络模型的参数并根据调整后的所述卷积网络模型的参数对所述卷积网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。
18.根据权利要求17所述的装置,其中,所述判断模块包括:
第一判断模块,用于获取所述特征向量卷积结果中对应的业务对象的位置信息;使用第一损失函数,计算所述对应的业务对象的位置信息指示的位置与预设的标准位置之间的第一距离;根据所述第一距离判断所述对应的业务对象的位置信息是否满足收敛条件;
和/或,
第二判断模块,用于获取所述特征向量卷积结果中对应的业务对象的置信度信息;使用第二损失函数,计算所述对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的第二距离;根据所述第二距离判断所述对应的业务对象的置信度信息是否满足收敛条件。
19.根据权利要求18所述的装置,其中,
所述第一损失函数为:计算所述对应的业务对象的位置信息指示的位置与预设的标准位置之间的欧式距离的函数;
和/或,
所述第二损失函数为:计算所述对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的欧式距离的函数。
20.根据权利要求18所述的装置,其中,
所述预设的标准位置为:对所述待训练的业务对象样本图像中的业务对象的位置进行平均处理后获得的平均位置;
和/或,
所述预设的标准置信度为:对所述待训练的业务对象样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。
21.根据权利要求18-20任一项所述的装置,其中,所述训练模块还包括:
预处理模块,用于在所述第一获取模块获取待训练的业务对象样本图像的特征向量之前,获取多个业务对象样本图像,其中,每个所述业务对象样本图像中包含有业务对象的标注信息;根据所述标注信息确定业务对象的位置,判断确定的所述业务对象的位置与预设位置的距离是否小于或等于设定阈值;将小于或等于所述设定阈值的业务对象对应的业务对象样本图像,确定为待训练的业务对象样本图像。
22.根据权利要求21所述的装置,其中,所述预处理模块在根据所述标注信息确定业务对象的位置,判断确定的所述业务对象的位置与预设位置的距离是否小于或等于设定阈值时:根据所述标注信息确定业务对象的中心位置;判断所述中心位置与预设位置的方差是否小于或等于所述设定阈值。
23.根据权利要求15所述的装置,其中,所述目标对象还包括人脸,所述第二确定模块包括:
第一区域确定模块,用于根据所述人脸的特征点,确定待展示的业务对象在所述视频中的展示位置包括以下至少之一:视频中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域;和/或,
所述目标对象还包括背景,所述第二确定模块包括:
第二区域确定模块,用于根据所述背景的特征点,确定待展示的业务对象在所述视频中的展示位置包括:视频中的背景区域。
24.根据权利要求23所述的装置,其中,所述动作包括以下至少之一:眨眼、张嘴、点头、摇头、亲吻、微笑、挥手、剪刀手、握拳、托手、竖大拇指、摆手枪姿势、摆V字手、摆OK手。
25.根据权利要求15-20任一项所述的装置,其中,所述第二确定模块,用于根据所述目标对象的特征点和所述待展示的业务对象的类型,确定待展示的业务对象在所述视频中的展示位置。
26.根据权利要求15-20任一项所述的装置,其中,所述第二确定模块,用于根据所述目标对象的特征点和所述待展示的业务对象的类型,获得待展示的业务对象在所述视频中的多个展示位置;从所述多个展示位置中选择至少一个展示位置。
27.根据权利要求25所述的装置,其中,所述业务对象的类型包括以下至少之一:额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。
28.根据权利要求15所述的装置,其中,所述业务对象包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、或三维特效、粒子特效。
29.一种终端设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1~14任一项所述的在视频图像中展示业务对象的方法对应的操作。
30.一种计算机可读存储介质,存储有计算机可读取的程序指令,其特征在于,所述程序指令被处理器执行时用于完成权利要求1至14任意一项所述的在视频图像中展示业务对象的方法对应的操作。
CN201610694812.XA 2016-08-19 2016-08-19 在视频图像中展示业务对象的方法、装置和终端设备 Active CN107343225B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610694812.XA CN107343225B (zh) 2016-08-19 2016-08-19 在视频图像中展示业务对象的方法、装置和终端设备
PCT/CN2017/098027 WO2018033137A1 (zh) 2016-08-19 2017-08-18 在视频图像中展示业务对象的方法、装置和电子设备
US15/847,172 US11037348B2 (en) 2016-08-19 2017-12-19 Method and apparatus for displaying business object in video image and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610694812.XA CN107343225B (zh) 2016-08-19 2016-08-19 在视频图像中展示业务对象的方法、装置和终端设备

Publications (2)

Publication Number Publication Date
CN107343225A CN107343225A (zh) 2017-11-10
CN107343225B true CN107343225B (zh) 2019-04-09

Family

ID=60222206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610694812.XA Active CN107343225B (zh) 2016-08-19 2016-08-19 在视频图像中展示业务对象的方法、装置和终端设备

Country Status (1)

Country Link
CN (1) CN107343225B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108294739B (zh) * 2017-12-27 2021-02-09 苏州创捷传媒展览股份有限公司 一种测试用户体验的方法及其装置
CN109993688A (zh) * 2017-12-29 2019-07-09 深圳市优必选科技有限公司 机器人及其照片拍摄和处理方法、存储装置
CN108322788B (zh) * 2018-02-09 2021-03-16 武汉斗鱼网络科技有限公司 一种视频直播中的广告展示方法及装置
CN108810653B (zh) * 2018-05-21 2020-10-16 武汉斗鱼网络科技有限公司 一种水印的展示方法、装置、终端和存储介质
CN109816035B (zh) * 2019-01-31 2022-10-11 北京字节跳动网络技术有限公司 图像处理方法和装置
CN110099283A (zh) * 2019-05-09 2019-08-06 广州虎牙信息科技有限公司 信息推送方法、装置、设备和存储介质
CN112132859A (zh) 2019-06-25 2020-12-25 北京字节跳动网络技术有限公司 贴纸生成方法、装置、介质和电子设备
CN112153483B (zh) * 2019-06-28 2022-05-13 腾讯科技(深圳)有限公司 信息植入区域的检测方法、装置及电子设备
CN111754613A (zh) * 2020-06-24 2020-10-09 北京字节跳动网络技术有限公司 图像装饰方法、装置、计算机可读介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339549A (zh) * 2007-07-03 2009-01-07 周磊 一种广告方法和系统
CN101364368A (zh) * 2008-09-18 2009-02-11 北京聚万传媒科技有限公司 在视频广告系统中嵌入和播放电子地图的方法及实现装置
CN103702211A (zh) * 2013-12-09 2014-04-02 Tcl集团股份有限公司 一种基于电视播放内容的广告推送方法和系统
US8904033B2 (en) * 2010-06-07 2014-12-02 Adobe Systems Incorporated Buffering media content

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9141860B2 (en) * 2008-11-17 2015-09-22 Liveclips Llc Method and system for segmenting and transmitting on-demand live-action video in real-time
US8687946B2 (en) * 2011-11-30 2014-04-01 Nokia Corporation Method and apparatus for enriching media with meta-information
US9532095B2 (en) * 2012-11-29 2016-12-27 Fanvision Entertainment Llc Mobile device with smart gestures

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339549A (zh) * 2007-07-03 2009-01-07 周磊 一种广告方法和系统
CN101364368A (zh) * 2008-09-18 2009-02-11 北京聚万传媒科技有限公司 在视频广告系统中嵌入和播放电子地图的方法及实现装置
US8904033B2 (en) * 2010-06-07 2014-12-02 Adobe Systems Incorporated Buffering media content
CN103702211A (zh) * 2013-12-09 2014-04-02 Tcl集团股份有限公司 一种基于电视播放内容的广告推送方法和系统

Also Published As

Publication number Publication date
CN107343225A (zh) 2017-11-10

Similar Documents

Publication Publication Date Title
CN107343225B (zh) 在视频图像中展示业务对象的方法、装置和终端设备
CN107343211B (zh) 视频图像处理方法、装置和终端设备
CN107341434A (zh) 视频图像的处理方法、装置和终端设备
CN107341435A (zh) 视频图像的处理方法、装置和终端设备
CN107347166B (zh) 视频图像的处理方法、装置和终端设备
CN107340852A (zh) 手势控制方法、装置和终端设备
US10403036B2 (en) Rendering glasses shadows
WO2018033137A1 (zh) 在视频图像中展示业务对象的方法、装置和电子设备
CN108537152A (zh) 用于检测活体的方法和装置
CN108961369A (zh) 生成3d动画的方法和装置
CN106910247A (zh) 用于生成三维头像模型的方法和装置
US10540568B2 (en) System and method for coarse-to-fine video object segmentation and re-composition
KR102491140B1 (ko) 가상 아바타 생성 방법 및 장치
CN108363995A (zh) 用于生成数据的方法和装置
US11521362B2 (en) Messaging system with neural hair rendering
CN108229276A (zh) 神经网络训练及图像处理方法、装置和电子设备
CN108109010A (zh) 一种智能ar广告机
CN102567716A (zh) 一种人脸合成系统及实现方法
CN107742273A (zh) 一种2d发型虚拟试戴方法及装置
CN107770602A (zh) 视频图像处理方法和装置
CN107801061A (zh) 广告数据匹配方法、装置及系统
CN110175505A (zh) 微表情类型的确定方法、装置、存储介质及电子装置
CN115100334B (zh) 一种图像描边、图像动漫化方法、设备及存储介质
CN114283052A (zh) 妆容迁移及妆容迁移网络的训练方法和装置
WO2022257766A1 (zh) 图像处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant