CN107347125B - 视频图像的处理方法、装置和终端设备 - Google Patents

视频图像的处理方法、装置和终端设备 Download PDF

Info

Publication number
CN107347125B
CN107347125B CN201610694601.6A CN201610694601A CN107347125B CN 107347125 B CN107347125 B CN 107347125B CN 201610694601 A CN201610694601 A CN 201610694601A CN 107347125 B CN107347125 B CN 107347125B
Authority
CN
China
Prior art keywords
neural network
network model
convolutional neural
feature vector
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610694601.6A
Other languages
English (en)
Other versions
CN107347125A (zh
Inventor
栾青
石建萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201610694601.6A priority Critical patent/CN107347125B/zh
Priority to PCT/CN2017/098216 priority patent/WO2018033156A1/zh
Publication of CN107347125A publication Critical patent/CN107347125A/zh
Priority to US15/845,802 priority patent/US10580179B2/en
Priority to US16/709,551 priority patent/US10776970B2/en
Application granted granted Critical
Publication of CN107347125B publication Critical patent/CN107347125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/2224Studio circuitry; Studio devices; Studio equipment related to virtual studio applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/40Filling a planar surface by adding surface attributes, e.g. colour or texture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations

Abstract

本发明实施例提供了一种视频图像的处理方法、装置和终端设备,涉及人工智能技术领域,其中,所述方法包括:检测视频图像中的背景区域;确定待显示的业务对象;采用计算机绘图方式在确定出的背景区域绘制所述业务对象,以使所述业务对象覆盖所述视频图像中的背景区域的原始内容。通过本发明实施例,使得业务对象与视频播放相结合,节约了网络资源和/或客户端的系统资源,可以有效实现预想的业务对象投放效果。

Description

视频图像的处理方法、装置和终端设备
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种视频图像的处理方法、装置和终端设备。
背景技术
随着互联网技术的发展,文字、图片和视频等皆可以视频的形式实现在视频直播平台中直播。视频直播平台中的视频通常以人物为主角(单一人物或少量人物),在人物的后方是视频的背景区域。
然而,现有的视频直播平台中视频的背景区域是固定不变的,而且固定不变的背景区域无法吸引观众的注意,甚至会对视频直播的内容产生影响。
发明内容
本发明实施例提供了视频图像的处理技术方案。
根据本发明实施例的一个方面,提供了一种视频图像的处理方法,包括:检测视频图像中的背景区域,所述视频图像为直播类视频图像,所述直播类视频图像的背景区域包括直播类视频图像中除了主播图像之外的区域;确定待显示的业务对象,所述业务对象为目标视频、目标图像和目标特效之一;采用计算机绘图方式在确定出的背景区域绘制所述业务对象,以使所述业务对象覆盖所述视频图像中的背景区域的原始内容。
可选地,所述检测视频图像中的背景区域包括:通过预先训练的卷积神经网络模型检测所述视频图像的背景区域。
可选地,所述对所述卷积神经网络模型的预先训练包括:获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;对所述特征向量进行卷积处理,获取特征向量卷积结果;对所述特征向量卷积结果进行放大处理;判断放大后的所述特征向量卷积结果是否满足收敛条件;若满足,则完成对所述卷积神经网络模型的训练;若不满足,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。
可选地,所述对所述特征向量卷积结果进行放大处理包括:通过对所述特征向量卷积结果进行双线性插值,放大所述特征向量卷积结果。
可选地,所述对所述特征向量卷积结果进行放大处理包括:将所述特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。
可选地,所述判断放大后的所述特征向量卷积结果是否满足收敛条件包括:使用设定的损失函数计算放大后的所述特征向量卷积结果和预定的标准输出特征向量的损失值;根据所述损失值判断放大后的所述特征向量卷积结果是否满足收敛条件。
可选地,所述方法还包括:获取测试样本图像,使用训练后的所述卷积神经网络模型对所述测试样本图像进行前背景区域的预测;检验预测的前背景区域是否正确;若不正确,则使用所述测试样本图像对所述卷积神经网络模型进行再次训练。
可选地,所述使用所述测试样本图像对所述卷积神经网络模型进行再次训练包括:从所述测试样本图像中获取前背景区域预测不正确的样本图像;使用预测不正确的样本图像对所述卷积神经网络模型进行再次训练,其中,对所述卷积神经网络模型进行再次训练的所述预测不正确的样本图像包含有前景信息和背景信息。
可选地,所述获取待训练的样本图像的特征向量之前,所述方法还包括:将包括多帧样本图像的视频流输入所述卷积神经网络模型。
可选地,所述将包括多帧样本图像的视频流输入所述卷积神经网络模型之前,所述方法还包括:确定所述视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。
可选地,所述卷积神经网络模型为全卷积神经网络模型。
可选地,所述方法还包括:获取待显示的所述业务对象。
可选地,所述获取待显示的所述业务对象包括:从预定存储位置获取所述业务对象,或者从视频源接收所述业务对象。
根据本发明实施例的另一个方面,提供了一种视频图像的处理装置,包括:检测模块,用于检测视频图像中的背景区域,所述视频图像为直播类视频图像,所述直播类视频图像的背景区域包括直播类视频图像中除了主播图像之外的区域;确定模块,用于确定待显示的业务对象,所述业务对象为目标视频、目标图像和目标特效之一;绘制模块,用于采用计算机绘图方式在确定出的背景区域绘制所述业务对象,以使所述业务对象覆盖所述视频图像中的背景区域的原始内容。
可选地,所述检测模块,用于通过预先训练的卷积神经网络模型检测所述视频图像的背景区域。
可选地,所述装置还包括:训练模块,用于对所述卷积神经网络模型预先训练。所述训练模块包括:向量获取模块,用于获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;卷积获取模块,用于对所述特征向量进行卷积处理,获取特征向量卷积结果;放大模块,用于对所述特征向量卷积结果进行放大处理;判断模块,用于判断放大后的所述特征向量卷积结果是否满足收敛条件;执行模块,用于若所述判断模块的判断结果为满足收敛条件,则完成对所述卷积神经网络模型的训练;若所述判断模块的判断结果为不满足收敛条件,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。
可选地,所述放大模块,用于通过对所述特征向量卷积结果进行双线性插值,放大所述特征向量卷积结果。
可选地,所述放大模块,用于将所述特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。
可选地,所述判断模块,用于使用设定的损失函数计算放大后的所述特征向量卷积结果和预定的标准输出特征向量的损失值;根据所述损失值判断放大后的所述特征向量卷积结果是否满足收敛条件。
可选地,所述训练模块还包括:预测模块,用于获取测试样本图像,使用训练后的所述卷积神经网络模型对所述测试样本图像进行前背景区域的预测;检验模块,用于检验预测的前背景区域是否正确;再训练模块,用于若所述检验模块的检验结果为不正确,则使用所述测试样本图像对所述卷积神经网络模型进行再次训练。
可选地,所述再训练模块,用于若所述检验模块的检验结果为不正确,则从所述测试样本图像中获取前背景区域预测不正确的样本图像;使用预测不正确的样本图像对所述卷积神经网络模型进行再次训练,其中,对所述卷积神经网络模型进行再次训练的所述预测不正确的样本图像包含有前景信息和背景信息。
可选地,所述训练模块还包括:视频流模块,用于在所述向量获取模块获取待训练的样本图像的特征向量之前,将包括多帧样本图像的视频流输入所述卷积神经网络模型。
可选地,所述训练模块还包括:标注模块,用于在所述视频流模块将包括多帧样本图像的视频流输入所述卷积神经网络模型之前,确定所述视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。
可选地,所述卷积神经网络模型为全卷积神经网络模型。
可选地,所述装置还包括:获取模块,用于获取待显示的所述业务对象。
可选地,所述获取模块用于从预定存储位置获取所述业务对象,或者从视频源接收所述业务对象。
根据本发明实施例的再一方面,还提供了一种终端设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行前述任一所述的视频图像的处理方法对应的操作。
根据本发明实施例的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有:用于检测视频图像中的背景区域的可执行指令;用于确定待显示的业务对象的可执行指令;用于采用计算机绘图方式在确定出的背景区域绘制所述业务对象,以使所述业务对象覆盖所述视频图像中的背景区域的原始内容的可执行指令。
根据本发明实施例提供的技术方案,检测视频图像中的背景区域;确定待显示的业务对象;采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。使得业务对象与视频播放相结合,节约了网络资源和/或客户端的系统资源,可以有效实现预想的业务对象投放效果。
附图说明
图1是根据本发明实施例一的视频图像的处理方法的步骤流程图;
图2是根据本发明实施例二的视频图像的处理方法的步骤流程图;
图3是根据本发明实施例三的视频图像的处理装置的结构框图;
图4是根据本发明实施例四的视频图像的处理装置的结构框图;
图5是根据本发明实施例五的终端设备的结构示意图。
具体实施方式
下面结合附图(若干附图中相同的标号表示相同的元素)和实施例,对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
实施例一
参照图1,示出了根据本发明实施例一的视频图像的处理方法的步骤流程图。可以在例如图3所示的视频图像的处理装置或包括该处理装置的终端设备中执行实施例一的视频图像的处理方法。
本实施例的视频图像的处理方法包括以下步骤。
步骤S100、检测视频图像中的背景区域。
本实施例中,视频图像可以是直播场景中当前正在显示的视频图像;视频图像还可以视频录制场景中当前正在录制的视频图像;视频图像又可以是录制完成的视频中当前播放的视频图像等。本实施例对视频图像的具体场景以及具体形式不做限制。
本实施例中,可以从视频图像中检测视频图像的前景区域和背景区域;或者,可以从视频图像中直接检测视频图像的背景区域;或者可以从视频图像中检测视频图像的前景区域,然后将视频图像的前景区域以外的区域确定为视频图像的背景区域。本实施例对检测视频图像的背景区域的技术手段不做限制。
步骤S102、确定待显示的业务对象。
待显示的业务对象用于在后续绘制的步骤中绘制在视频图像的背景区域,目的是使业务对象覆盖视频图像的背景区域中的原始内容。因此,待显示的业务对象可以包括多种形式,本实施例对业务对象的具体形式不做限制。例如,待显示的业务对象为包含沙滩场景的图片A,视频图像的背景区域中的原始内容为包含室内场景的图片B。
步骤S104、采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。
在确定了背景区域以后,采用计算机绘图方式将业务对象绘制在视频图像的背景区域。需要说明的是,采用计算机绘图方式将业务对象绘制在视频图像的背景区域即采用计算机绘图方式将业务对象绘制在视频图像的整个背景区域。实现绘制业务对象后的背景区域替换背景区域的原始内容。例如,视频图像的背景区域为一幅室内场景图片,业务对象为一幅瀑布图片,绘制业务对象后的背景区域中显示的是一幅瀑布图片,而不是原始的室内场景图片,同时,视频图像的前景区域可以保持不变。
其中,采用计算机绘图方式在确定出的背景区域绘制业务对象可以通过适当的计算机图形图像绘制或渲染等方式实现,包括但不限于:基于OpenGL图形绘制引擎进行绘制等。OpenGL定义了一个跨编程语言、跨平台的编程接口规格的专业的图形程序接口,其与硬件无关,可以方便地进行2D或3D图形图像的绘制。通过OpenGL,不仅可以实现2D效果如2D贴纸的绘制,还可以实现3D特效的绘制及粒子特效的绘制等等。但不限于OpenGL,其它方式,如Unity或OpenCL等也同样适用。
需要说明的是,上述步骤S100和步骤S102之间的执行顺序可以为先执行步骤S100,后执行步骤S102;还可以为先执行步骤S102,后执行步骤S100;或者可以为同时执行步骤S100和步骤S102,本实施例对步骤S100和步骤S102的执行顺序不做限制,本实施例仅以先执行步骤S100,后执行步骤S102为例进行说明。
通过本实施例提供的视频图像的处理方法,检测视频图像中的背景区域;确定待显示的业务对象;采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。使得业务对象与视频播放相结合,节约了网络资源和/或客户端的系统资源,可以有效实现预想的业务对象投放效果。
实施例二
参照图2,示出了根据本发明实施例二的视频图像的处理方法的步骤流程图。可以在例如图4所示的视频图像的处理装置或包括该处理装置的终端设备中执行实施例二的视频图像的处理方法。
本实施例的视频图像处理方法可以由任意具有数据采集、处理和传输功能的设备执行,包括但不限于移动终端和PC等。本实施例以移动终端为例,对本发明实施例提供的视频图像的处理方法进行说明,其它设备可参照本实施例执行。
本实施例重点强调与上述实施例的不同之处,相同之处可以参照上述实施例的介绍和说明,在此不再赘述。
本实施例的视频图像的处理方法包括以下步骤。
步骤S200、获取待显示的业务对象。
待显示的业务对象用于在后续绘制的步骤中绘制在视频图像的背景区域,目的是使业务对象覆盖视频图像的背景区域中的原始内容。因此,待显示的业务对象可以包括多种形式,具体地,业务对象可以为目标视频、目标图像或者目标特效中的任意一种。例如,目标视频可以为景象视频,既可以为录制完毕的景象视频,又可以为正在直播的景象视频;目标视频还可以为体育视频,既可以为录制完毕的体育视频,又可以为正在直播的体育视频。本实施例对目标视频的具体形式和内容不做限制。目标特效可以为包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、三维特效、粒子特效等等。
本步骤中,获取待显示的业务对象包括:从预定存储位置获取业务对象,或者从视频源接收业务对象。例如,业务对象存储在移动终端本地,可以从移动终端本地直接读取业务对象,本地存储的业务对象可以为上述介绍的目标视频、目标图像、目标特效中的任意一种或者几种;当业务对象为目标视频时,可以从视频源接收目标视频,若目标视频为直播视频,则可以从直播摄影机接收直播视频。
步骤S202、通过预先训练的卷积神经网络模型检测视频图像的背景区域。
本实施例中,使用已训练好的、用于分割视频图像中的前景区域和背景区域的卷积神经网络模型,对视频图像进行检测,确定其背景区域。用于分割视频图像中的前景区域和背景区域的卷积神经网络模型通过标注有前景区域和背景区域的样本图像进行训练后,能够准确且高效地确定视频图像中的前景区域和背景区域。
当需要预先训练卷积神经网络模型时,一种可行的训练方式包括以下过程:
(1)获取待训练的样本图像的特征向量。
其中,待训练的样本图像为包含有前景标注信息和背景标注信息的样本图像,也即,待训练的样本图像为已标记了前景区域和背景区域的样本图像。本实施例中,前景区域可以为图像主体所在区域,例如人物所在区域;背景区域可以为除了主体所在区域外的其它区域,可以是其它区域中的全部或者部分。
在一种优选的实施方式中,待训练的样本图像可以包括至少一个视频流的多帧样本图像。因此,在此方式中,在获取待训练的样本图像的特征向量之前,还需要将包括多帧样本图像的视频流输入卷积神经网络模型。在实现时,一种可行方式包括:先确定视频流的多个关键帧的图像为样本图像,对这些样本图像进行前景区域和背景区域的标注;在此基础上,将进行了标注的样本图像进行组合,再将组合后的包括多帧进行了标注的样本图像的视频流输入卷积网络模型。其中,对视频流抽取关键帧,并对抽取的关键帧进行标注均可以由本领域技术人员采用任意适当的方式实现,如通过均匀采样的方式抽取关键帧等。在抽取了关键帧后,可以结合视频上下文对抽取的关键帧标注区分前景和背景,得到精确的标注边界。将进行了标注后的样本图像作为待训练的样本图像,提取其特征向量。
此外,本步骤中,对特征向量的提取可以采用相关技术中的适当方式实现,本实施例在此不再赘述。
(2)对特征向量进行卷积处理,获取特征向量卷积结果。
获取的特征向量卷积结果中包含有用于分辨视频图像的前景区域和背景区域的信息。
对特征向量的卷积处理次数可以根据实际需要进行设定,也即,卷积网络模型中,卷积层的层数根据实际需要进行设置,最终的特征向量卷积结果满足获得的特征能够足够表征区分前景和背景的标准(如交并比大于90%)即可。
卷积结果是对特征向量进行了特征提取后的结果,该结果能够有效表征视频图像中前景区域和背景区域的特征和分类。
(3)对特征向量卷积结果进行放大处理。
一种可行方式中,对特征向量卷积结果的放大可以采用线性插值的方式,包括但不限于线性插值、双线性插值、三线性插值等。其中,具体的线性插值公式可以由本领域技术人员根据实际需要采用适当的公式,本实施例对此不做限制。优选地,可以通过对特征向量卷积结果进行双线性插值来放大特征向量卷积结果。通过对特征向量卷积结果进行放大处理,可以得到与用于训练的原始图像同样大小的输出图像,获得每一个像素点的特征信息,以更为精确地确定图像的前景区域和背景区域。同时,通过对卷积处理后的特征向量的放大处理,卷积神经网络模型可以学习到一个较为准确的放大系数,基于该放大系数和放大后的特征向量,可以减少卷积神经网络模型的参数调整和计算量,降低卷积神经网络模型训练成本,提高训练效率,缩短训练时间。
本实施例中,在获得特征向量卷积结果后,通过线性插值层对特征向量卷积结果进行双线性插值,以放大卷积处理后的图像特征,并得到的原始图像同样大小(图像长宽相同)的输出。需要说明的是,本实施例中对双线性插值的具体实现手段不做限制。
(4)判断放大后的特征向量卷积结果是否满足收敛条件。
其中,收敛条件可以由本领域技术人员根据实际需求适当设定。当满足收敛条件时,可以认为卷积神经网络模型中的参数设置适当;当不能满足收敛条件时,可以认为卷积神经网络模型中的参数设置不适当,需要对其进行调整,该调整是一个迭代的过程,直至使用调整后的参数(如,卷积核的值、层间输出线性变化的权重,等等)对特征向量进行卷积处理的结果满足收敛条件。
本实施例中,在通过线性插值层对特征向量卷积结果进行放大后,在损失层使用损失函数对其进行计算,进而根据计算结果确定是否满足收敛条件。也即,使用设定的损失函数计算放大后的特征向量卷积结果的损失值;根据损失值判断放大后的特征向量卷积结果是否满足收敛条件。其中,损失层和损失函数可以根据实际情况由本领域技术人员适当设定,如通过Softmax函数或者Logistic函数等。通过损失函数对特征向量卷积结果进行计算,获得损失值。在获得损失值后,一种可行方式中,可以根据该损失值确定本次训练结果是否满足收敛条件,如该损失值是否小于或等于设定阈值;另一种可行方式中,可判断对该损失值的计算是否已达到设定次数,也即,在本次训练中对卷积神经网络模型的迭代训练次数是否已达到设定次数,如达到则满足收敛条件。其中,设定阈值可由本领域技术人员根据实际需要适当设置,本发明实施例对此不做限制。
需要说明的是,当输入的是视频流中的多帧图像时,损失层的损失函数也可以同时对该视频流中的多帧图像进行损失值计算,同时输出多帧的结果,使卷积神经网络模型在得到视频上更加稳定的结果的同时,通过多帧图像的并行计算,提升计算效率。
(5)若满足收敛条件,则完成对卷积神经网络模型的训练;若不满足收敛条件,则根据放大后的特征向量卷积结果调整卷积神经网络模型的参数并根据调整后的卷积神经网络模型的参数对卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足收敛条件。
通过对卷积神经网络模型进行上述训练,卷积神经网络模型可以对视频图像的图像特征进行特征提取和分类,从而具有确定视频图像中的前景区域和背景区域的功能。在后续应用中,可以使用该卷积神经网络模型识别出视频图像中的背景区域,进而在该背景区域显示业务对象。
为了使训练的结果更为精准,在一种优选的实施方式中,可以通过测试样本测试该训练出的卷积神经网络模型是否准确,进而根据测试结果决定使用该卷积神经网络模型还是对该卷积神经网络模型进行再训练。在此方式中,在完成了对卷积神经网络模型的初步训练后,还可以获取测试样本图像,使用训练后的卷积神经网络模型对测试样本图像进行前背景区域的预测,其中,测试样本图像为未进行任何标注的样本图像;进而,检验预测的前背景区域是否正确;若不正确,则对卷积神经网络模型进行再次训练;若正确,则可以确定使用该卷积神经网络模型进行视频图像的前背景确定,或者,为了使卷积神经网络模型更为精准,再获取其它测试样本图像进行测试;或者,使用与原训练样本图像不同的样本图像进行再次训练。
当通过测试样本检验到使用卷积神经网络模型预测的前背景区域不正确时,需要对该卷积神经网络模型进行再次训练。在一种再次训练方式中,可以仅使用从测试样本图像中获取的前背景区域预测不正确的样本图像作为再次训练使用的样本图像;然后,使用这些预测不正确的样本图像对卷积神经网络模型进行再次训练。这些进行再次训练的样本在用于首次训练前,进行了前背景信息的标注。如,在这些样本中标注出前景区域和背景区域。通过将预测不正确的样本作为一个新的样本图像集对卷积神经网络进行再训练,不仅使得训练更有针对性,也大大节约了训练成本。当然,不限于此,在实际使用中,也可以使用其它进行了前背景标注的样本图像进行训练。
此外,在一种优选方式中,训练的卷积网络模型为全卷积网络模型,与具有全连接层的卷积网络模型相比,采用全卷积网络模型所需的卷积层参数少,训练速度更快。
本实施例中,一种具体的卷积神经网络模型结构的简要说明如下:
(1)输入层
例如,可以输入待训练的样本图像的特征向量,该特征向量中包含有样本图像的背景区域的信息,或者,该特征向量中包含有样本图像的前景区域的信息和背景区域的信息。
(2)卷积层
//第一阶段,对待训练的样本图像的特征向量进行卷积处理,获得卷积结果。
2.<=1卷积层1_1(3x3x64)
3.<=2非线性响应ReLU层
4.<=3卷积层1_2(3x3x64)
5.<=4非线性响应ReLU层
6.<=5池化层(3x3/2)
7.<=6卷积层2_1(3x3x128)
8.<=7非线性响应ReLU层
9.<=8卷积层2_2(3x3x128)
10.<=9非线性响应ReLU层
11.<=10池化层(3x3/2)
12.<=11卷积层3_1(3x3x256)
13.<=12非线性响应ReLU层
14.<=13卷积层3_2(3x3x256)
15.<=14非线性响应ReLU层
16.<=15卷积层3_3(3x3x256)
17.<=16非线性响应ReLU层
18.<=17池化层(3x3/2)
19.<=18卷积层4_1(3x3x512)
20.<=19非线性响应ReLU层
21.<=20卷积层4_2(3x3x512)
22.<=21非线性响应ReLU层
23.<=22卷积层4_3(3x3x512)
24.<=23非线性响应ReLU层
25.<=24池化层(3x3/2)
26.<=25卷积层5_1(3x3x512)
27.<=26非线性响应ReLU层
28.<=27卷积层5_2(3x3x512)
29.<=28非线性响应ReLU层
30.<=29卷积层5_3(3x3x512)
31.<=30非线性响应ReLU层
//第二阶段,对第一阶段获得的卷积结果进行插值放大,并进行损失函数的计算。
32.<=31线性差值层
33.<=32损失层,进行损失函数的计算
(3)输出层
第一,在通过前31层的处理获得特征向量后,线性插值层通过双线性插值法对前31层处理后的特征向量进行插值,以放大中间层特征,得到和训练的样本图像同样大小(图像长宽一样)的输出图像。
第二,本实施例中,33层的损失层采用Softmax函数进行处理。一种可行的Softmax函数如下:
Figure GDA0001769011450000121
其中,x表示输入的特征,j表示第j类别,y表示输出的类别,K表示总共类别数,k表示第k类别,Wj表示第j类别的分类参数,XT表示X向量的转置,P(y=j|x)表示给定输入x,预测为第j类的概率。
但不限于此,在实际使用中,本领域技术人员也可以采用其它Softmax函数,本发明实施例对此不做限制。
第三,上述卷积层对特征向量进行的处理是迭代多次进行的,每完成一次,就根据损失层计算出的结果调整卷积神经网络模型的参数(如卷积核的值、层间输出线性变化的权重,等等),基于参数调整后的卷积神经网络模型再进行处理,迭代多次,直至满足收敛条件。
第四,本实施例中,收敛条件可以是对卷积神经网络模型进行迭代训练的次数达到最大迭代次数,如10000~20000次。
第五,上述卷积神经网络模型对于视频图像的学习,可以单帧视频图像输入,也可以通过多帧视频图像同时输入,同时输出多帧视频图像的结果。即第一层输入层可以输入一帧视频图像,也可以是一个视频流,这个视频流包含多帧视频图像。
同样,最后一层损失层,可以针对一帧视频图像计算损失函数,也可以对视频流的多帧视频图像计算损失函数。
通过视频流方式的训练和学习,可以使卷积神经网络模型得到视频上更加稳定的结果,同时通过多帧视频图像的并行计算,提升计算效率。
其中,可以通过修改输入层和输出层的feature map的大小实现多帧视频图像的同时输入和输出。
第六,上述卷积网络结构的说明中,2.<=1表明当前层为第二层,输入为第一层;卷积层后面括号为卷积层参数(3x3x64)表明卷积核大小为3x3,通道数为64;池化层后面括号(3x3/2)表明池化核大小为3x3,间隔为2。其它依此类推,不再赘述。
在上述卷积神经网络模型结构中,每个卷积层之后都有一个非线性响应单元,该非线性响应单元采用纠正线性单元ReLU(Rectified Linear Units),通过在卷积层后增加上述纠正线性单元,将卷积层的映射结果尽量稀疏,更接近人的视觉反应,从而使图像处理效果更好。
将卷积层的卷积核设为3x3,能更好的综合局部信息。
设定池化层(Max pooling)的步长stride,使上层特征在不增加计算量的前提下获得更大的视野,同时池化层的步长stride还有增强空间不变性的特征,即允许同样的输入出现在不同的图像位置上,而输出结果响应相同。
线性差值层可以将之前的特征放大到原图大小,得到每个像素的预测值。
综上所述,该全卷积神经网络模型的卷积层可以用于信息归纳和融合,最大池化层(Max pooling)主要进行高层信息的归纳,该卷积神经网络结构可以进行微调来适应不同的性能和效率的权衡。
但本领域技术人员应当明了的是,上述卷积核的大小、通道数、池化核的大小、间隔以及卷积层的层数数量均为示例性说明,在实际应用中,本领域技术人员可以根据实际需要进行适应性调整,本发明实施例对此不做限制。此外,本实施例中的卷积神经网络模型中的所有层的组合及参数都是可选的,可以任意组合。
通过本实施例中的卷积神经网络模型,实现了对视频图像中前背景区域的有效分割。
步骤S204、采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。
在确定了背景区域以后,采用计算机绘图方式将业务对象绘制在视频图像的背景区域。需要说明的是,采用计算机绘图方式将业务对象绘制在视频图像的背景区域即采用计算机绘图方式将业务对象绘制在视频图像的整个背景区域。实现绘制业务对象后的背景区域替换背景区域的原始内容。例如,视频图像的背景区域为一幅室内场景图片,业务对象为一幅瀑布图片,绘制业务对象后的背景区域中显示的是一幅瀑布图片,而不是原始的室内场景图片,同时,视频图像的前景区域可以保持不变。
步骤S206、发送在背景区域绘制了业务对象的视频图像。
例如,上述步骤S200-S204在移动终端A上执行,可以在移动终端A上显示在背景区域绘制了业务对象的视频图像,以及/或者发送在背景区域绘制了业务对象的视频图像至移动终端B、移动终端C、服务器D等等。
除了上述当前设备直接将在背景区域绘制了业务对象的视频图像发送至其他设备以外,还可以直接在其他设备上绘制业务对象。具体可以先获取到待显示的业务对象,可以获取业务对象本身,还可以获取业务对象的属性信息,根据业务对象的属性信息,从业务对象的存储库中获取到业务对象本身;再绘制业务对象在视频图像的背景区域中。其中,业务对象的属性信息可以来源于包括视频图像和业务对象的属性信息的传输流。
需要说明的是,业务对象的存储库可以包括当前设备的业务对象的存储库和其他设备的业务对象的存储库。并且,当前设备的业务对象的存储库和其他设备的业务对象的存储库中的业务对象本身及业务对象的属性信息保持同步。业务对象的属性信息可以用于标识业务对象本身,一个业务对象的属性信息可以对应着唯一一个业务对象本身或者唯一一类业务对象本身。例如,业务对象的属性信息可以为具有唯一标识的编号等等。
上述各步骤可以应用在一种具体的应用场景中,例如,主播终端获取主播直播时的视频图像,其中,视频图像为直播类视频图像。从视频图像检测背景区域,在主播终端本地获取业务对象或者从第三方摄像机实时接收业务对象,采用计算机绘图方式在视频图像的背景区域绘制业务对象,在主播终端上显示绘制业务对象后的视频图像,并将绘制业务对象后的视频图像发送至服务器或者粉丝终端,在服务器进行中转或者存储,在粉丝终端进行显示。其中,直播类视频图像的背景区域包括直播类视频图像中除了主播图像之外的区域。
需要说明的是,上述步骤S200和步骤S202之间的执行顺序可以为先执行步骤S200,后执行步骤S202;还可以为先执行步骤S202,后执行步骤S200;或者可以为同时执行步骤S200和步骤S202,本实施例对步骤S200和步骤S202的执行顺序不做限制,本实施例仅以先执行步骤S200,后执行步骤S202为例进行说明。
通过本实施例提供的视频图像的处理方法,检测视频图像中的背景区域;确定待显示的业务对象;采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。使得业务对象与视频播放相结合,节约了网络资源和/或客户端的系统资源,可以有效实现预想的业务对象投放效果。
业务对象可以为目标视频、目标图像或者目标特效等等,在背景区域绘制业务对象后的视频图像,相对于传统的只包含纯粹为图片形式的背景区域的视频图像,丰富了背景区域的类型。而且,若在视频图像的背景区域绘制接收到的目标视频,实现了在视频图像的背景区域观看视频的效果。若业务对象的内容与视频图像的内容具有相关性,例如,业务对象为目标视频,目标视频为自由女神的介绍视频,主播在视频图像中正在介绍自由女神,则绘制业务对象后的背景区域可以作为视频图像的辅助显示,提升了视频图像的显示效果。
除了将在背景区域绘制了业务对象的视频图像在本地显示之外,还可以将在背景区域绘制了业务对象的视频图像发送至其他设备,例如,移动终端、PC、服务器或者平板电脑等等,可以实现在背景区域绘制了业务对象的视频图像的共享。
实施例三
参照图3,示出了根据本发明实施例三的视频图像的处理装置的结构框图。
本实施例的视频图像的处理装置包括:检测模块300,用于检测视频图像中的背景区域;确定模块302,用于确定待显示的业务对象;绘制模块304,用于采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。
通过本实施例提供的视频图像的处理装置,检测视频图像中的背景区域;确定待显示的业务对象;采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。使得业务对象与视频播放相结合,节约了网络资源和/或客户端的系统资源,可以有效实现预想的业务对象投放效果。
实施例四
参照图4,示出了根据本发明实施例四的视频图像的处理装置的结构框图。
本实施例的视频图像的处理装置包括:检测模块400,用于检测视频图像中的背景区域;确定模块402,用于确定待显示的业务对象;绘制模块404,用于采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。
可选地,检测模块400,用于通过预先训练的卷积神经网络模型检测视频图像的背景区域。
可选地,本实施例的视频图像的处理装置还包括:训练模块406,用于对卷积神经网络模型预先训练。训练模块406包括:向量获取模块4060,用于获取待训练的样本图像的特征向量其中,样本图像为包含有前景标注信息和背景标注信息的样本图像;卷积获取模块4061,用于对特征向量进行卷积处理,获取特征向量卷积结果;放大模块4062,用于对特征向量卷积结果进行放大处理;判断模块4063,用于判断放大后的特征向量卷积结果是否满足收敛条件;执行模块4064,用于若判断模块4063的判断结果为满足收敛条件,则完成对卷积神经网络模型的训练;若判断模块4063的判断结果为不满足收敛条件,则根据放大后的特征向量卷积结果调整卷积神经网络模型的参数并根据调整后的卷积神经网络模型的参数对卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足收敛条件。
可选地,放大模块4062,用于通过对特征向量卷积结果进行双线性插值,放大特征向量卷积结果。
可选地,放大模块4062,用于将特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。
可选地,判断模块4063,用于使用设定的损失函数计算放大后的特征向量卷积结果和预定的标准输出特征向量的损失值;根据损失值判断放大后的特征向量卷积结果是否满足收敛条件。
可选地,训练模块406还包括:预测模块4065,用于获取测试样本图像,使用训练后的卷积神经网络模型对测试样本图像进行前背景区域的预测;检验模块4066,用于检验预测的前背景区域是否正确;再训练模块4067,用于若检验模块4066的检验结果为不正确,则使用测试样本图像对卷积神经网络模型进行再次训练。
可选地,再训练模块4067,用于若检验模块4066的检验结果为不正确,则从测试样本图像中获取前背景区域预测不正确的样本图像;使用预测不正确的样本图像对卷积神经网络模型进行再次训练,其中,对卷积神经网络模型进行再次训练的预测不正确的样本图像包含有前景信息和背景信息。
可选地,训练模块406还包括:视频流模块4068,用于在向量获取模块4060获取待训练的样本图像的特征向量之前,将包括多帧样本图像的视频流输入卷积神经网络模型。
可选地,训练模块406还包括:标注模块4069,用于在视频流模块4068将包括多帧样本图像的视频流输入卷积神经网络模型之前,确定视频流的多个关键帧的图像为样本图像,对样本图像进行前景区域和背景区域的标注。
可选地,卷积神经网络模型为全卷积神经网络模型。
可选地,业务对象包括以下至少之一:目标视频、目标图像、目标特效。
可选地,本实施例的视频图像的处理装置还包括:获取模块408,用于获取待显示的业务对象。
可选地,获取模块408,用于从预定存储位置获取业务对象,或者从视频源接收业务对象。
可选地,视频图像为直播类视频图像。
可选地,直播类视频图像的背景区域包括直播类视频图像中除了主播图像之外的区域。
本实施例的视频图像的处理装置用于实现前述多个方法实施例中相应的视频图像的处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。
此外,本实施例的视频图像的处理装置可以设置于适当的终端设备中,包括但不限于移动终端、PC等。
实施例五
参照图5,示出了根据本发明实施例五的终端设备的结构示意图,本发明具体实施例并不对终端设备的具体实现做限定。
如图5所示,该终端设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它设备比如其它客户端或服务器等的网元通信。
处理器502,用于执行程序510,具体可以执行上述方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器510可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路,或者是图形处理器GPU(Graphics Processing Unit)。终端设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU,或者,一个或多个GPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个GPU。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:检测视频图像中的背景区域;确定待显示的业务对象;采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。
在一种可选的实施方式中,程序510还用于使得处理器502通过预先训练的卷积神经网络模型检测视频图像的背景区域。
在一种可选的实施方式中,程序510还用于使得处理器502获取待训练的样本图像的特征向量,其中,样本图像为包含有前景标注信息和背景标注信息的样本图像;对特征向量进行卷积处理,获取特征向量卷积结果;对特征向量卷积结果进行放大处理;判断放大后的特征向量卷积结果是否满足收敛条件;若满足,则完成对卷积神经网络模型的训练;若不满足,则根据放大后的特征向量卷积结果调整卷积神经网络模型的参数并根据调整后的卷积神经网络模型的参数对卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足收敛条件。
在一种可选的实施方式中,程序510还用于使得处理器502通过对特征向量卷积结果进行双线性插值,放大特征向量卷积结果。
在一种可选的实施方式中,程序510还用于使得处理器502将特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。
在一种可选的实施方式中,程序510还用于使得处理器502使用设定的损失函数计算放大后的特征向量卷积结果和预定的标准输出特征向量的损失值;根据损失值判断放大后的特征向量卷积结果是否满足收敛条件。
在一种可选的实施方式中,程序510还用于使得处理器502获取测试样本图像,使用训练后的卷积神经网络模型对测试样本图像进行前背景区域的预测;检验预测的前背景区域是否正确;若不正确,则使用测试样本图像对卷积神经网络模型进行再次训练。
在一种可选的实施方式中,程序510还用于使得处理器502从测试样本图像中获取前背景区域预测不正确的样本图像;使用预测不正确的样本图像对卷积神经网络模型进行再次训练,其中,对卷积神经网络模型进行再次训练的预测不正确的样本图像包含有前景信息和背景信息。
在一种可选的实施方式中,程序510还用于使得处理器502在获取待训练的样本图像的特征向量之前,将包括多帧样本图像的视频流输入卷积神经网络模型。
在一种可选的实施方式中,程序510还用于使得处理器502在将包括多帧样本图像的视频流输入卷积神经网络模型之前,确定视频流的多个关键帧的图像为样本图像,对样本图像进行前景区域和背景区域的标注。
在一种可选的实施方式中,卷积神经网络模型为全卷积神经网络模型。
在一种可选的实施方式中,业务对象包括以下至少之一:目标视频、目标图像、目标特效。
在一种可选的实施方式中,程序510还用于使得处理器502获取待显示的业务对象。
在一种可选的实施方式中,程序510还用于使得处理器502从预定存储位置获取业务对象,或者从视频源接收业务对象。
在一种可选的实施方式中,视频图像为直播类视频图像。
在一种可选的实施方式中,直播类视频图像的背景区域包括直播类视频图像中除了主播图像之外的区域。
程序510中各步骤的具体实现可以参见上述实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例提供的终端设备,检测视频图像中的背景区域;确定待显示的业务对象;采用计算机绘图方式在确定出的背景区域绘制业务对象,以使业务对象覆盖视频图像中的背景区域的原始内容。使得业务对象与视频播放相结合,节约了网络资源和/或客户端的系统资源,可以有效实现预想的业务对象投放效果。
业务对象可以为目标视频、目标图像或者目标特效等等,在背景区域绘制业务对象后的视频图像,相对于传统的只包含纯粹为图片形式的背景区域的视频图像,丰富了背景区域的类型。而且,若在视频图像的背景区域绘制接收到的目标视频,实现了在视频图像的背景区域观看视频的效果。若业务对象的内容与视频图像的内容具有相关性,例如,业务对象为目标视频,目标视频为自由女神的介绍视频,主播在视频图像中正在介绍自由女神,则绘制业务对象后的背景区域可以作为视频图像的辅助显示,提升了视频图像的显示效果。
除了将在背景区域绘制了业务对象的视频图像在本地显示之外,还可以将在背景区域绘制了业务对象的视频图像发送至其他设备,例如,移动终端、PC、服务器或者平板电脑等等,可以实现在背景区域绘制了业务对象的视频图像的共享。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。

Claims (27)

1.一种视频图像的处理方法,包括:
主播设备本地获取直播类视频,检测直播类视频包括的多帧视频图像中各帧视频图像的背景区域,每帧所述视频图像的背景区域包括该帧视频图像中除了主播图像之外的全部区域;
确定待显示的目标特效,所述目标特效和所述视频图像中主播介绍的内容具有相关性;
采用计算机绘图方式在确定出的背景区域绘制所述目标特效,以使所述目标特效替换所述视频图像中的背景区域的原始内容;
向其他设备发送确定的所述背景区域未绘制所述目标特效的直播类视频和确定的所述目标特效的属性信息,以供所述其他设备采用计算机绘图方式在确定出的背景区域绘制所述属性信息对应的目标特效,所述目标特效替换所述视频图像中的背景区域的原始内容。
2.根据权利要求1所述的方法,其中,所述检测视频图像中的背景区域包括:
通过预先训练的卷积神经网络模型检测所述视频图像的背景区域。
3.根据权利要求2所述的方法,其中,所述对所述卷积神经网络模型的预先训练包括:
获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;
对所述特征向量进行卷积处理,获取特征向量卷积结果;
对所述特征向量卷积结果进行放大处理;
判断放大后的所述特征向量卷积结果是否满足收敛条件;
若满足,则完成对所述卷积神经网络模型的训练;
若不满足,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。
4.根据权利要求3所述的方法,其中,对所述特征向量卷积结果进行放大处理包括:
通过对所述特征向量卷积结果进行双线性插值,放大所述特征向量卷积结果。
5.根据权利要求3所述的方法,其中,对所述特征向量卷积结果进行放大处理包括:
将所述特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。
6.根据权利要求3所述的方法,其中,判断放大后的所述特征向量卷积结果是否满足收敛条件包括:
使用设定的损失函数计算放大后的所述特征向量卷积结果和预定的标准输出特征向量的损失值;
根据所述损失值判断放大后的所述特征向量卷积结果是否满足收敛条件。
7.根据权利要求3所述的方法,其中,所述方法还包括:
获取测试样本图像,使用训练后的所述卷积神经网络模型对所述测试样本图像进行前背景区域的预测;
检验预测的前背景区域是否正确;
若不正确,则使用所述测试样本图像对所述卷积神经网络模型进行再次训练。
8.根据权利要求7所述的方法,其中,所述使用所述测试样本图像对所述卷积神经网络模型进行再次训练包括:
从所述测试样本图像中获取前背景区域预测不正确的样本图像;
使用预测不正确的样本图像对所述卷积神经网络模型进行再次训练,其中,对所述卷积神经网络模型进行再次训练的所述预测不正确的样本图像包含有前景信息和背景信息。
9.根据权利要求3所述的方法,其中,所述获取待训练的样本图像的特征向量之前,所述方法还包括:
将包括多帧样本图像的视频流输入所述卷积神经网络模型。
10.根据权利要求9所述的方法,其中,所述将包括多帧样本图像的视频流输入所述卷积神经网络模型之前,所述方法还包括:
确定所述视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。
11.根据权利要求2所述的方法,其中,所述卷积神经网络模型为全卷积神经网络模型。
12.根据权利要求1-11任一所述的方法,其中,所述方法还包括:获取待显示的所述目标特效。
13.根据权利要求12所述的方法,其中,所述获取待显示的所述目标特效包括:
从预定存储位置获取所述目标特效,或者从视频源接收所述目标特效。
14.一种视频图像的处理装置,所述装置应用于主播设备中;所述装置包括:
检测模块,用于本地获取直播类视频,检测直播类视频包括的多帧视频图像中各帧视频图像的背景区域,每帧所述视频图像的背景区域包括该帧视频图像中除了主播图像之外的全部区域;
确定模块,用于确定待显示的目标特效,所述目标特效和所述视频图像中主播介绍的内容具有相关性;
绘制模块,用于采用计算机绘图方式在确定出的背景区域绘制所述目标特效,以使所述目标特效替换所述视频图像中的背景区域的原始内容;
发送模块,用于向其他设备发送确定的所述背景区域未绘制所述目标特效的直播类视频和确定的所述目标特效的属性信息,以供所述其他设备采用计算机绘图方式在确定出的背景区域绘制所述属性信息对应的目标特效,所述目标特效替换所述视频图像中的背景区域的原始内容。
15.根据权利要求14所述的装置,其中,所述检测模块,用于通过预先训练的卷积神经网络模型检测所述视频图像的背景区域。
16.根据权利要求15所述的装置,其中,所述装置还包括:训练模块,用于对所述卷积神经网络模型预先训练;
所述训练模块包括:
向量获取模块,用于获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;
卷积获取模块,用于对所述特征向量进行卷积处理,获取特征向量卷积结果;
放大模块,用于对所述特征向量卷积结果进行放大处理;
判断模块,用于判断放大后的所述特征向量卷积结果是否满足收敛条件;
执行模块,用于若所述判断模块的判断结果为满足收敛条件,则完成对所述卷积神经网络模型的训练;若所述判断模块的判断结果为不满足收敛条件,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。
17.根据权利要求16所述的装置,其中,所述放大模块,用于通过对所述特征向量卷积结果进行双线性插值,放大所述特征向量卷积结果。
18.根据权利要求16所述的装置,其中,所述放大模块,用于将所述特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。
19.根据权利要求16所述的装置,其中,所述判断模块,用于使用设定的损失函数计算放大后的所述特征向量卷积结果和预定的标准输出特征向量的损失值;根据所述损失值判断放大后的所述特征向量卷积结果是否满足收敛条件。
20.根据权利要求16所述的装置,其中,所述训练模块还包括:
预测模块,用于获取测试样本图像,使用训练后的所述卷积神经网络模型对所述测试样本图像进行前背景区域的预测;
检验模块,用于检验预测的前背景区域是否正确;
再训练模块,用于若所述检验模块的检验结果为不正确,则使用所述测试样本图像对所述卷积神经网络模型进行再次训练。
21.根据权利要求20所述的装置,其中,所述再训练模块,用于若所述检验模块的检验结果为不正确,则从所述测试样本图像中获取前背景区域预测不正确的样本图像;使用预测不正确的样本图像对所述卷积神经网络模型进行再次训练,其中,对所述卷积神经网络模型进行再次训练的所述预测不正确的样本图像包含有前景信息和背景信息。
22.根据权利要求16所述的装置,其中,所述训练模块还包括:
视频流模块,用于在所述向量获取模块获取待训练的样本图像的特征向量之前,将包括多帧样本图像的视频流输入所述卷积神经网络模型。
23.根据权利要求22所述的装置,其中,所述训练模块还包括:
标注模块,用于在所述视频流模块将包括多帧样本图像的视频流输入所述卷积神经网络模型之前,确定所述视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。
24.根据权利要求15所述的装置,其中,所述卷积神经网络模型为全卷积神经网络模型。
25.根据权利要求14-24任一所述的装置,其中,所述装置还包括:
获取模块,用于获取待显示的所述目标特效。
26.根据权利要求25所述的装置,其中,所述获取模块,用于从预定存储位置获取所述目标特效,或者从视频源接收所述目标特效。
27.一种终端设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-13任一所述的视频图像的处理方法对应的操作。
CN201610694601.6A 2016-08-19 2016-08-19 视频图像的处理方法、装置和终端设备 Active CN107347125B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610694601.6A CN107347125B (zh) 2016-08-19 2016-08-19 视频图像的处理方法、装置和终端设备
PCT/CN2017/098216 WO2018033156A1 (zh) 2016-08-19 2017-08-21 视频图像的处理方法、装置和电子设备
US15/845,802 US10580179B2 (en) 2016-08-19 2017-12-18 Method and apparatus for processing video image and electronic device
US16/709,551 US10776970B2 (en) 2016-08-19 2019-12-10 Method and apparatus for processing video image and computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610694601.6A CN107347125B (zh) 2016-08-19 2016-08-19 视频图像的处理方法、装置和终端设备

Publications (2)

Publication Number Publication Date
CN107347125A CN107347125A (zh) 2017-11-14
CN107347125B true CN107347125B (zh) 2020-04-03

Family

ID=60253215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610694601.6A Active CN107347125B (zh) 2016-08-19 2016-08-19 视频图像的处理方法、装置和终端设备

Country Status (1)

Country Link
CN (1) CN107347125B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886131A (zh) * 2017-11-24 2018-04-06 佛山科学技术学院 一种基于卷积神经网络检测电路板元器件极性方法和装置
CN108154518B (zh) * 2017-12-11 2020-09-08 广州华多网络科技有限公司 一种图像处理的方法、装置、存储介质及电子设备
CN110969641A (zh) * 2018-09-30 2020-04-07 北京京东尚科信息技术有限公司 图像处理方法和装置
CN111277816A (zh) * 2018-12-05 2020-06-12 北京奇虎科技有限公司 一种视频检测系统的测试方法和装置
CN110491502B (zh) * 2019-03-08 2021-03-16 腾讯科技(深圳)有限公司 显微镜视频流处理方法、系统、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024479A (zh) * 2012-12-17 2013-04-03 深圳先进技术研究院 视频内容中自适应投放广告的方法及系统
CN103034991A (zh) * 2011-09-29 2013-04-10 联发科技(新加坡)私人有限公司 前景对象检测方法与装置及背景检测方法与装置
CN105426963A (zh) * 2015-12-01 2016-03-23 北京天诚盛业科技有限公司 用于人脸识别的卷积神经网络的训练方法、装置及应用
CN105578255A (zh) * 2015-12-31 2016-05-11 合一网络技术(北京)有限公司 一种广告播放方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101642200B1 (ko) * 2014-12-19 2016-07-22 포항공과대학교 산학협력단 객체의 움직임 분석을 이용한 모션 효과 생성 장치 및 방법
CN105872838A (zh) * 2016-04-28 2016-08-17 徐文波 即时视频的媒体特效发送方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034991A (zh) * 2011-09-29 2013-04-10 联发科技(新加坡)私人有限公司 前景对象检测方法与装置及背景检测方法与装置
CN103024479A (zh) * 2012-12-17 2013-04-03 深圳先进技术研究院 视频内容中自适应投放广告的方法及系统
CN105426963A (zh) * 2015-12-01 2016-03-23 北京天诚盛业科技有限公司 用于人脸识别的卷积神经网络的训练方法、装置及应用
CN105578255A (zh) * 2015-12-31 2016-05-11 合一网络技术(北京)有限公司 一种广告播放方法及装置

Also Published As

Publication number Publication date
CN107347125A (zh) 2017-11-14

Similar Documents

Publication Publication Date Title
US10776970B2 (en) Method and apparatus for processing video image and computer readable medium
US20200250436A1 (en) Video object segmentation by reference-guided mask propagation
CN110176027B (zh) 视频目标跟踪方法、装置、设备及存储介质
CN107347125B (zh) 视频图像的处理方法、装置和终端设备
US10936911B2 (en) Logo detection
US11200424B2 (en) Space-time memory network for locating target object in video content
CN107330439B (zh) 一种图像中物体姿态的确定方法、客户端及服务器
CN108734185B (zh) 图像校验方法和装置
CN107347166B (zh) 视频图像的处理方法、装置和终端设备
CN108229418B (zh) 人体关键点检测方法和装置、电子设备、存储介质和程序
CN110570435A (zh) 用于对车辆损伤图像进行损伤分割的方法及装置
CN114511041B (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
CN111836118B (zh) 视频处理方法、装置、服务器及存储介质
CN112417947B (zh) 关键点检测模型的优化及面部关键点的检测方法及装置
CN111539456B (zh) 一种目标识别方法及设备
CN109709452A (zh) 输电线路的绝缘子检测方法、系统和装置
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
WO2022205329A1 (zh) 对象检测方法、对象检测装置及对象检测系统
CN112070181A (zh) 一种基于图像流的协同检测方法及装置、存储介质
CN110751163B (zh) 目标定位方法及其装置、计算机可读存储介质和电子设备
CN113706636A (zh) 一种用于篡改图像识别的方法与装置
CN116415019A (zh) 虚拟现实vr图像识别方法及装置、电子设备、存储介质
CN115375742A (zh) 生成深度图像的方法及系统
JP2023069083A (ja) 学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援システム、学習支援方法及び学習支援プログラム
CN113971763A (zh) 一种基于目标检测和超分重建的小目标分割方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB02 Change of applicant information

Address after: Room 1101-1117, floor 11, No. 58, Beisihuan West Road, Haidian District, Beijing 100080

Applicant after: BEIJING SENSETIME TECHNOLOGY DEVELOPMENT Co.,Ltd.

Address before: 100084, room 7, floor 3, building 1, No. 710-712, Zhongguancun East Road, Beijing, Haidian District

Applicant before: BEIJING SENSETIME TECHNOLOGY DEVELOPMENT Co.,Ltd.

CB02 Change of applicant information