CN108875900A - 视频图像处理方法和装置、神经网络训练方法、存储介质 - Google Patents
视频图像处理方法和装置、神经网络训练方法、存储介质 Download PDFInfo
- Publication number
- CN108875900A CN108875900A CN201711063311.2A CN201711063311A CN108875900A CN 108875900 A CN108875900 A CN 108875900A CN 201711063311 A CN201711063311 A CN 201711063311A CN 108875900 A CN108875900 A CN 108875900A
- Authority
- CN
- China
- Prior art keywords
- frame
- image
- layer
- neural network
- bottleneck
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001537 neural Effects 0.000 title claims abstract description 132
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000011030 bottleneck Methods 0.000 claims description 317
- 238000000034 method Methods 0.000 claims description 107
- 238000005070 sampling Methods 0.000 claims description 62
- 230000004927 fusion Effects 0.000 claims description 38
- 230000000875 corresponding Effects 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 27
- 210000004218 Nerve Net Anatomy 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 14
- 238000003475 lamination Methods 0.000 description 14
- 238000003709 image segmentation Methods 0.000 description 13
- 230000011218 segmentation Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000006748 scratching Methods 0.000 description 5
- 230000002393 scratching Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002194 synthesizing Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 230000003190 augmentative Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000004380 optic nerve Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Computing arrangements based on biological models using neural network models
- G06N3/04—Architectures, e.g. interconnection topology
- G06N3/0454—Architectures, e.g. interconnection topology using a combination of multiple neural nets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Computing arrangements based on biological models using neural network models
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment ; Cameras comprising an electronic image sensor, e.g. digital cameras, video cameras, TV cameras, video cameras, camcorders, webcams, camera modules for embedding in other devices, e.g. mobile phones, computers or vehicles
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/272—Means for inserting a foreground image in a background image, i.e. inlay, outlay
Abstract
一种基于神经网络的视频图像处理方法和装置、用于视频图像处理的神经网络的训练方法以及计算机可读存储介质。该基于神经网络的视频图像处理方法包括:获取图像组,其中,图像组包括第i帧图像、第i帧概率图和第i+1帧图像,i为正整数;以及利用神经网络对输入的图像组执行图像分割处理以获得第i+1帧图像的第i+1帧概率图。
Description
视频图像处理方法和装置、神经网络训练方法、存储介质
技术领域
[0001] 本公开涉及图像处理领域,更具体地,本公开涉及基于神经网络的视频图像处理 方法和装置、用于视频图像处理的神经网络的训练方法以及计算机可读存储介质。
背景技术
[0002] 视频抠像技术可以用于将一个视频中的人物或者其他前景,通过智能抠像技术抓 取出来,并嵌入合成到另一虚拟的或者其他实际的场景背景中,以形成一段具有特殊效果 的视频。视频抠像技术可以使观看视频的用户感觉到视频中的人物正处在后期合成的场景 中,并可以进一步使人物与场景背景有互动。视频抠像技术可以广泛应用于影视制作、远程 视频会议、虚拟现实、增强现实、数字家庭娱乐等方面。视频抠像技术可以用于对视频中的 人物进行人形抠像。人形抠像技术能够智能识别非纯色复杂背景下的所有人形,从而可以 广泛应用于直播、美图、影视制作等领域。
[0003] 目前,人形抠像系统主要基于单张图片进行训练和使用,然而真实的视频数据主 要包括由摄像头提供的视频数据。仅使用单张图片来做相应的预测推断会使视频数据的时 序信息丢失,从而使人形抠像系统缺乏视频连贯性,从而导致出现画面闪烁、抖动等不良现 象,影响用户体验。另一方面,由于视频数据的连贯性,针对每帧图像进行处理既浪费了运 算力,又浪费了不同帧图像之间的时序信息。
发明内容
[0004] 鉴于上述问题而提出了本公开。本公开提供了一种基于神经网络的视频图像处理 方法和装置、用于视频图像处理的神经网络的训练方法以及计算机可读存储介质。
[0005] 本公开至少一实施例提供一种基于神经网络的视频图像处理方法,包括:获取图 像组,其中,所述图像组包括第i帧图像、第i帧概率图和第i+Ι帧图像,i为正整数;以及利用 所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+Ι帧图像的第i+Ι帧 概率图。
[0006] 例如,在本公开一实施例提供的视频图像处理方法中,所述神经网络包括第一子 神经网络,所述第一子神经网络包括第一卷积层组、第一求和层和第二卷积层组,所述第一 卷积层组包括第一卷积层和第二卷积层。利用所述神经网络对输入的所述图像组执行图像 分割处理以获得所述第i+ι帧图像的第i+ι帧概率图,包括:利用所述第一卷积层分别对所 述第i帧图像和第i+l帧图像执行卷积处理,以得到所述第i帧图像的特征图和第i+l帧图像 的特征图;利用所述第二卷积层对所述第i帧概率图执行卷积处理,以得到所述第i帧概率 图的特征图;利用所述第一求和层对所述第i帧图像的特征图、第i+l帧图像的特征图和所 述第i帧概率图的特征图执行求和处理;以及利用所述第二卷积层组对所述第一求和层的 输出执行卷积处理。
[0007] 例如,在本公开一实施例提供的视频图像处理方法中,所述第一子神经网络还包 括瓶颈层组,所述瓶颈层组包括第一瓶颈层和第二瓶颈层。利用所述神经网络对输入的所 述图像组执行图像分割处理以获得所述第i+ι帧图像的第i+ι帧概率图,还包括:经由所述 第二瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第二瓶 颈层的中间分数图,以及对所述第二瓶颈层的中间分数图执行上采样处理以获得所述第二 瓶颈层的分数图;经由所述第一瓶颈层对所述第二瓶颈层的分数图和所述第i帧概率图执 行求和处理以获得所述第i+Ι帧概率图。
[0008] 例如,在本公开一实施例提供的视频图像处理方法中,所述第一子神经网络还包 括瓶颈层组,所述瓶颈层组包括第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五 瓶颈层。利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+ι帧图 像的第i+ι帧概率图,还包括:经由所述第五瓶颈层对所述第二卷积层组中对应的卷积层的 输出执行卷积计算以获得所述第五瓶颈层的中间分数图,以及对所述第五瓶颈层的中间分 数图执行上采样处理以获得所述第五瓶颈层的分数图;经由所述第四瓶颈层对所述第二卷 积层组中对应的卷积层的输出执行卷积计算以获得所述第四瓶颈层的中间分数图,对所述 第五瓶颈层的分数图和所述第四瓶颈层的中间分数图进行求和处理以获得所述第四瓶颈 层的融合图,以及对所述第四瓶颈层的融合图执行上采样处理以获得所述第四瓶颈层的分 数图;经由所述第三瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获 得所述第三瓶颈层的中间分数图,对所述第四瓶颈层的分数图和所述第三瓶颈层的中间分 数图进行求和处理以获得所述第三瓶颈层的融合图,以及对所述第三瓶颈层的融合图执行 上采样处理以获得所述第三瓶颈层的分数图;经由所述第二瓶颈层对所述第二卷积层组中 对应的卷积层的输出执行卷积计算以获得所述第二瓶颈层的中间分数图,对所述第三瓶颈 层的分数图和所述第二瓶颈层的中间分数图进行求和处理以获得所述第二瓶颈层的融合 图,以及对所述第二瓶颈层的融合图执行上采样处理以获得所述第二瓶颈层的分数图;经 由所述第一瓶颈层对所述第二瓶颈层的分数图和所述第i帧概率图执行求和处理以获得所 述第i+ι帧概率图。
[0009] 例如,在本公开一实施例提供的视频图像处理方法中,所述神经网络包括第一子 神经网络和第二子神经网络,所述第二子神经网络包括光流卷积层组和光流层。利用所述 神经网络对输入的所述图像组执行图像分割处理以获得所述第i+Ι帧图像的第i + Ι帧概率 图,包括:利用所述第一子神经网络对输入的所述图像组执行图像分割处理以获得所述第i +1帧图像的第i+ι帧中间概率图;利用所述光流卷积层组对所述第i帧图像和第i+ι帧图像 执行卷积处理;利用所述光流层对所述光流卷积层组中最后的光流卷积层的输出执行光流 处理以获得第i+ι帧像素偏移图像;根据所述第i+ι帧像素偏移图像对所述第i帧概率图执 行插值处理,以获得第i+ι帧插值概率图;以及对所述第i+ι帧中间概率图和所述第i+ι帧插 值概率图执行相加处理,以获得所述第i+Ι帧概率图。
[0010] 例如,在本公开一实施例提供的视频图像处理方法中,所述第i+l帧像素偏移图像 包括第i+1桢水平像素偏移图像和第i+1桢垂直像素偏移图像。
[0011] 例如,在本公开一实施例提供的视频图像处理方法中,所述神经网络包括第一子 神经网络、第二子神经网络和输出层,所述第二子神经网络包括光流卷积层组和光流层。利 用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+l帧图像的第i+l 帧概率图,包括:利用所述第一子神经网络对输入的所述图像组执行图像分割处理以获得 所述第i+l帧图像的第i+l帧中间概率图;利用所述光流卷积层组对所述第i帧图像和第i+l 帧图像执行卷积处理;利用所述光流层对所述光流卷积层组中最后的光流卷积层的输出执 行光流处理以获得第i+ι帧像素偏移图像;根据所述第i+ι帧像素偏移图像对所述第i帧概 率图执行插值处理,以获得第i+Ι帧插值概率图;对所述第i+Ι帧中间概率图和所述第i+Ι帧 插值概率图执行相加处理,以获得所述第i+Ι帧图像的光流图像;以及利用所述输出层对光 流图像组进行加权平均处理以获得第i+Ι帧概率图,其中,所述光流图像组包括前i+Ι帧图 像的光流图像。
[0012] 例如,在本公开一实施例提供的视频图像处理方法中,所述神经网络还包括输入 层,所述方法还包括:利用所述输入层对所述第i帧图像和所述第i+l帧图像执行颜色格式 变换处理;以及经由所述输入层将所述第i帧图像、所述第i帧概率图和所述第i+l帧图像输 入至所述第一子神经网络。
[0013] 例如,在本公开一实施例提供的视频图像处理方法中,所述神经网络为全卷积神 经网络。
[0014] 本公开至少一实施例还提供一种用于视频图像处理的神经网络的训练方法,其包 括:获取训练图像组,所述训练图像组包括第i帧训练图像、第i帧训练概率图和第i + l帧训 练图像,i为正整数;经由所述神经网络对所述训练图像组执行图像分割处理以获得第i+l 帧训练概率图;根据所述第i+l帧训练概率图调整所述神经网络的参数;以及在所述神经网 络的损失函数满足预定条件时,获得训练好的所述神经网络,在所述神经网络的损失函数 不满足预定条件时,继续输入所述训练图像组以重复执行上述训练过程。
[0015] 例如,在本公开一实施例提供的训练方法中,所述神经网络包括第一子神经网络, 所述第一子神经网络包括第一卷积层组、第一求和层和第二卷积层组,所述第一卷积层组 包括第一卷积层和第二卷积层。经由所述神经网络对所述训练图像组执行图像分割处理以 获得第i+l帧训练概率图包括:利用所述第一卷积层分别对所述第i帧训练图像和第i+l帧 训练图像执行卷积处理,以得到所述第i帧训练图像的训练特征图和第i+l帧训练图像的训 练特征图;利用所述第二卷积层对所述第i帧训练概率图执行卷积处理,以得到所述第i帧 训练概率图的训练特征图;利用所述第一求和层对所述第i帧训练图像的训练特征图、第i+ 1帧训练图像的训练特征图和所述第i桢训练概率图的训练特征图执行求和处理;利用所述 第二卷积层组对所述第一求和层的输出执行卷积处理。
[0016] 例如,在本公开一实施例提供的训练方法中,所述第一子神经网络还包括瓶颈层 组,所述瓶颈层组包括第一瓶颈层和第二瓶颈层。经由所述神经网络对所述训练图像组执 行图像分割处理以获得第i+l帧训练概率图还包括:经由所述第二瓶颈层对所述第二卷积 层组中对应的卷积层输出的训练特征图执行卷积计算以获得所述第二瓶颈层的中间训练 分数图,以及对所述第二瓶颈层的中间训练分数图执行上采样处理以获得所述第二瓶颈层 的训练分数图;经由所述第一瓶颈层对所述第二瓶颈层的训练分数图和所述第i帧训练概 率图执行求和处理以获得第i+l帧训练概率图。
[0017] 例如,在本公开一实施例提供的训练方法中,所述神经网络包括第一子神经网络 和第二子神经网络,所述第二子神经网络包括光流卷积层组和光流层。经由所述神经网络 对所述训练图像组执行图像分割处理以获得第i+l帧训练概率图包括:利用所述第一子神 经网络对输入的所述训练图像组执行图像分割处理以获得所述第i+l帧训练图像的第i+l 帧中间训练概率图;利用所述光流卷积层组对所述第i帧训练图像和第i+l帧训练图像执行 卷积处理;利用所述光流层对所述光流卷积层组中最后的光流卷积层的输出执行光流处理 以获得第i+ι帧训练像素偏移图像;根据所述第i+ι帧训练像素偏移图像对所述第i帧训练 概率图执行插值处理,以获得第i+l帧训练插值概率图;以及对所述第i+l帧中间训练概率 图和所述第i+l帧训练插值概率图执行相加处理,以获得所述第i+l帧训练概率图。
[0018] 本公开至少一实施例还提供一种视频图像处理装置,其包括:图像获取模块,用于 获取第i帧图像和第i+l帧图像,i为正整数;视频图像处理模块,用于利用神经网络对图像 组执行图像处理,其中,所述图像组包括所述第i帧图像、所述第i+l帧图像和第i帧概率图。 所述视频图像处理模块具体用于:利用所述神经网络对输入的所述图像组执行图像分割处 理以获得所述第i+l帧图像的第i+l帧概率图。
[0019] 例如,在本公开一实施例提供的视频图像处理装置中,所述神经网络包括第一子 神经网络,所述第一子神经网络包括第一卷积层组、第一求和层和第二卷积层组,所述第一 卷积层组包括第一卷积层和第二卷积层。所述视频图像处理模块用于:利用所述第一卷积 层分别对所述第i帧图像和第i+l帧图像执行卷积处理,以得到所述第i帧图像的特征图和 第i+l帧图像的特征图;利用所述第二卷积层对所述第i帧概率图执行卷积处理,以得到所 述第i帧概率图的特征图;利用所述第一求和层对所述第i帧图像的特征图、第i+l帧图像的 特征图和所述第i帧概率图的特征图执行求和处理;利用所述第二卷积层组对所述第一求 和层的输出执行卷积处理。
[0020] 例如,在本公开一实施例提供的视频图像处理装置中,所述第一子神经网络还包 括瓶颈层组,所述瓶颈层组包括第一瓶颈层和第二瓶颈层。所述视频图像处理模块用于:经 由所述第二瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述 第二瓶颈层的中间分数图,以及对所述第二瓶颈层的中间分数图执行上采样处理以获得所 述第二瓶颈层的分数图;经由所述第一瓶颈层对所述第二瓶颈层的分数图和所述第i帧概 率图执行求和处理以获得第i+l桢概率图。
[0021] 例如,在本公开一实施例提供的视频图像处理装置中,所述第一子神经网络还包 括瓶颈层组,所述瓶颈层组包括第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五 瓶颈层。所述视频图像处理模块用于:经由所述第五瓶颈层对所述第二卷积层组中对应的 卷积层的输出执行卷积计算以获得所述第五瓶颈层的中间分数图,以及对所述第五瓶颈层 的中间分数图执行上采样处理以获得所述第五瓶颈层的分数图;经由所述第四瓶颈层对所 述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第四瓶颈层的中间分数 图,对所述第五瓶颈层的分数图和所述第四瓶颈层的中间分数图进行求和处理以获得所述 第四瓶颈层的融合图,以及对所述第四瓶颈层的融合图执行上采样处理以获得所述第四瓶 颈层的分数图;经由所述第三瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积 计算以获得所述第三瓶颈层的中间分数图,对所述第四瓶颈层的分数图和所述第三瓶颈层 的中间分数图进行求和处理以获得所述第三瓶颈层的融合图,以及对所述第三瓶颈层的融 合图执行上采样处理以获得所述第三瓶颈层的分数图;经由所述第二瓶颈层对所述第二卷 积层组中对应的卷积层的输出执行卷积计算以获得所述第二瓶颈层的中间分数图,对所述 第三瓶颈层的分数图和所述第二瓶颈层的中间分数图进行求和处理以获得所述第二瓶颈 层的融合图,以及对所述第二瓶颈层的融合图执行上采样处理以获得所述第二瓶颈层的分 数图;经由所述第一瓶颈层对所述第二瓶颈层的分数图和所述第i帧概率图执行求和处理 以获得第i+1桢概率图。
[0022] 例如,在本公开一实施例提供的视频图像处理装置中,所述神经网络包括第一子 神经网络和第二子神经网络,所述第二子神经网络包括光流卷积层组和光流层。所述视频 图像处理模块还用于:利用所述第一子神经网络对输入的所述图像组执行图像分割处理以 获得所述第i+ι帧图像的第i+ι帧中间概率图;利用所述光流卷积层组对所述第i帧图像和 第i+Ι帧图像执行卷积处理;利用所述光流层对所述光流卷积层组中最后的光流卷积层的 输出执行光流处理以获得第i+ι帧像素偏移图像;根据所述第i+ι帧像素偏移图像对所述第 i帧概率图执行插值处理,以获得第i+l帧插值概率图;以及对所述第i+l帧中间概率图和所 述第i+ι帧插值概率图执行相加处理,以获得所述第i+ι帧概率图。
[0023] 例如,在本公开一实施例提供的视频图像处理装置中,所述神经网络包括第一子 神经网络、第二子神经网络和输出层,所述第二子神经网络包括光流卷积层组和光流层。所 述视频图像处理模块还用于:利用所述第一子神经网络对输入的所述图像组执行图像分割 处理以获得所述第i+l帧图像的第i+l帧中间概率图;利用所述光流卷积层组对所述第i帧 图像和第i+l帧图像执行卷积处理;利用所述光流层对所述光流卷积层组中最后的光流卷 积层的输出执行光流处理以获得第i+l帧像素偏移图像;根据所述第i+l帧像素偏移图像对 所述第i帧概率图执行插值处理,以获得第i+l帧插值概率图;对所述第i+l帧中间概率图和 所述第i+l帧插值概率图执行相加处理,以获得所述第i+l帧图像的光流图像;以及利用所 述输出层对光流图像组进行加权平均处理以获得第i+l帧概率图,其中,所述光流图像组包 括前i+l帧图像的光流图像。
[0024] 本公开至少一实施例还提供一种视频图像处理装置,其包括:存储器,用于存储非 暂时性计算机可读指令;以及处理器,用于运行所述计算机可读指令,所述计算机可读指令 被所述处理器运行时可以执行根据上述任一所述的视频图像处理方法。
[0025] 本公开至少一实施例还提供一种计算机可读存储介质,用于存储非暂时性计算机 可读指令,当所述非暂时性计算机可读指令由计算机执行时可以执行根据上述任一所述的 视频图像处理方法。
[0026] 根据本公开实施例的基于神经网络的视频图像处理方法和装置、用于视频图像处 理的神经网络的训练方法以及计算机可读存储介质,其利用神经网络对多帧视频图像进行 处理,融合多帧视频图像之间的特征信息,并结合多帧视频图像之间的时序信息得到视频 图像的分割结果,提升图像的分割精度,提高抠图的准确性,提升抠图的速度,从而实现实 时抠图,提升用户体验。
[0027] 要理解的是,前面的一般描述和下面的详细描述两者都是示例性的,并且意图在 于提供要求保护的技术的进一步说明。
附图说明
[0028] 为了更清楚地说明本公开实施例的技术方案,下面将对实施例的附图作简单地介 绍,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。
[0029] 图1为本公开一实施例提供的一种基于神经网络的视频图像处理方法的示意性流 程图;
[0030] 图2为本公开一实施例提供的一种神经网络的示意性框图;
[0031]图3为图1中步骤SlO的示意性流程图;
[0032]图4A为本公开一实施例提供的一种神经网络中第一子神经网络的一种结构不意 图;
[0033]图4B为本公开一实施例提供的一种神经网络中第一子神经网络的另一种结构不 意图;
[0034] 图4C为本公开一实施例提供的一种神经网络中第一子神经网络的又一种结构示 意图;
[0035] 图5为图1中步骤S20的示意性流程图;
[0036] 图6A为图5中步骤S205的一种示意性流程图;
[0037] 图6B为图5中步骤S205的另一种示意性流程图;
[0038] 图7为本公开一实施例提供的一种第一子神经网络中的瓶颈层组的结构示意图;
[0039] 图8为本公开一实施例提供的另一种基于神经网络的视频图像处理方法的示意性 流程图;
[0040] 图9A为本公开一实施例提供的一种神经网络的第二子神经网络的一种结构示意 图;
[0041] 图9B为本公开一实施例提供的一种神经网络的第二子神经网络的另一种结构示 意图;
[0042] 图10为本公开一实施例提供的又一种基于神经网络的视频图像处理方法的示意 性流程图;
[0043] 图11是本公开一实施例提供的一种用于视频图像处理的神经网络的训练方法的 流程图;
[0044] 图12是本公开一实施例提供的一种视频图像处理装置的示意性框图;
[0045] 图13是本公开一实施例提供的又一种视频图像处理装置的示意性框图;以及
[0046] 图14是本公开一实施例提供的一种计算机可读存储介质的示意图。
具体实施方式
[0047] 为了使得本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实 施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是 本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通 技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范 围。
[0048] 除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具 有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并 不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等 类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件 及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理 的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
[0049] 本公开涉及基于神经网络的视频图像处理方法和装置、用于视频图像处理的神经 网络的训练方法以及计算机可读存储介质。
[0050] 例如,利用神经网络进行视频图像分割处理可以分为两个阶段,S卩训练阶段和图 像分割阶段。所谓训练阶段是指首先需要利用训练图像对神经网络进行训练,以调整神经 网络的参数;所谓图像分割阶段是指利用训练好的神经网络对待进行图像分割处理的图像 进行语义分割。
[0051] 需要说明的是,在本公开下面的描述中,以每个图像组包括两帧视频图像为例进 行说明,但不限于此,本公开实施例提供的视频图像处理方法还可以对多帧(例如三帧、四 帧等)视频图像进行分割处理。
[0052] 下面结合附图详细描述本公开的几个实施例,但是本公开并不限于这些具体的实 施例。
[0053] 首先,参照图1描述根据本公开实施例的基于神经网络的视频图像处理方法,SP神 经网络的图像分割阶段。
[0054] 图1示出了本公开一实施例提供的一种基于神经网络的视频图像处理方法的示意 性流程图。图2示出了本公开一实施例提供的一种神经网络的示意性框图。
[0055] 例如,如图1所示,本公开实施例提供的基于神经网络的视频图像处理方法包括以 下步骤:
[0056] 步骤S10:获取图像组,其中,图像组包括第i帧图像、第i帧概率图和第i+1帧图像;
[0057] 步骤S20:利用神经网络对输入的图像组执行图像分割处理以获得第i+Ι帧图像的 第i+l帧概率图。
[0058] 例如,在步骤SlO中,本公开实施例提供的视频图像处理方法可以对多帧视频图像 进行打包处理得到图像组,从而融合多帧视频图像的特征,提升图像分割精度。多帧视频图 像例如可以为连续多帧视频图像。图像组可以为从视频中截取的至少两帧图像,即第i帧图 像和第i+l帧图像。在本公开的一个实施例中,可以在直播场景中配置能够获取直播场景的 视频数据的摄像头作为图像获取装置。获取图像组包括但不限于,通过图像获取装置采集 第i帧图像和第i+l帧图像。在步骤S20中,视频图像处理装置可以包括神经网络。视频图像 处理装置可以接收第i帧图像和第i+l帧图像,并利用神经网络对第i帧图像和第i+l帧图像 执行图像语义分割处理。
[0059] 例如,在步骤SlO中,i为正整数。
[0060] 例如,图像获取装置可以与视频图像处理装置中的其他模块或组件物理上位于同 一位置甚至位于同一机壳内部。又例如,图像获取装置可以为视频图像处理装置上配置的 摄像头。视频图像处理装置中的其他模块或组件经由内部总线接收从图像获取装置发送的 第i帧图像和第i+l帧图像。
[0061] 例如,第i帧图像和第i+l帧图像可以是图像获取装置从视频中直接采集到的原始 图像,也可以是对原始图像进行预处理之后获得的图像。
[0062] 例如,第i帧图像和第i+l帧图像可以为彩色图像,也可以为灰度图像。
[0063] 例如,第i帧概率图为经过视频图像处理装置对第i_l帧图像和第i帧图像进行分 割处理之后得到图像。若i = l,则第一帧概率图可以为全0矩阵。第i帧概率图中每个像素点 的值表示其属于不同类别的概率。例如,对于人形抠像,在第i帧概率图中,若某个像素点的 值为0.8,即表示该像素点属于人形的概率为0.8,属于背景的概率为0.2。
[0064] 例如,若需要对视频图像进行人形抠图,即从视频图像中分割出人物的形状,则第 i+l帧概率图pi+1可以仅包括一个通道。对于多类物体抠图,则第i+l帧概率图pi+1可以包括 多个通道。例如,若需要对视频图像进行人物、车辆、背景分别进行分类,则第i+l帧概率图 Pi+1可以包括三个通道。
[0065] 需要说明的是,第i帧概率图可以存储在图像获取装置或视频图像处理装置中,从 而在步骤SlO中,直接从图像获取装置或视频图像处理装置获取该第i帧概率图。
[0066] 例如,图像获取装置和视频图像处理装置之间可以通过有线或者无线方式进行通 信。也就是说,第i帧图像和第i+l帧图像可以通过有线或无线的方式从图像获取装置被传 输至视频图像处理装置。
[0067] 例如,如图2所示,在一个实施例中,本公开实施例的用于视频图像处理的神经网 络10可以包括输入层11和第一子神经网络12。输入层11用于对每帧视频图像进行颜色格式 转换,以方便后续第一子神经网络12进行图像分割处理。第一子神经网络12用于对多帧(例 如两帧)视频图像进行图像分割以得到各帧视频图像的概率图。
[0068] 例如,在步骤SlO中,图像组可以被传输至输入层11,并经由输入层11输入至第一 子神经网络12。也就是说,如图3所示,步骤SlO可以包括:
[0069] 步骤S101:获取图像组;
[0070] 步骤SI 02:利用输入层对第i帧图像和第i+l帧图像执行颜色格式变换处理;
[0071] 步骤Sl 03:经由输入层将第i帧图像、第i帧概率图和第i+1帧图像输入至第一子神 经网络。
[0072] 例如,在一个示例中,第i帧图像和第i +1帧图像可以为彩色图像,且第i帧图像和 第i+l帧图像的颜色模式为RGB模式。在步骤SlOl中,输入层11用于将第i帧图像和第i + l帧 图像的颜色模式转换为BGR模式。
[0073]图4A为本公开一实施例提供的一种神经网络中第一子神经网络的一种结构不意 图,图4B为本公开一实施例提供的一种神经网络中第一子神经网络的另一种结构示意图, 图4C为本公开一实施例提供的一种神经网络中第一子神经网络的又一种结构示意图。图4A 至4C所示的第一子神经网络仅为示例性的,而非限制性的。本公开实施例提供的第一子神 经网络还可以具有其他结构,对此不作限制。
[0074] 例如,在一个示例中,神经网络10可以为卷积神经网络(CNN),例如全卷积神经网 络(FCN)。该卷积神经网络的初始参数可以进行随机初始化,也可以利用之前已经训练好的 网络(如VGG、ResNet等)进行初始化。第一子神经网络12包括第一卷积层组100、第一求和层 和第二卷积层组200。第一卷积层组100包括至少两个卷积层,第二卷积层组200可以包括依 次连接的多个卷积层。如图4A所示,在一个示例中,第一子神经网络12包括第一计算节点 121和第二计算节点122,第一计算节点121包括第一卷积层Cll,第二计算节点122包括第二 卷积层C12,且第一卷积层Cll和第二卷积层C12属于第一卷积层组100。第一子神经网络12 还包括四个依次连接的计算节点,即第三计算节点123、第四计算节点124、第五计算节点 125和第六计算节点126。第三计算节点123包括第三卷积层C13,第四计算节点124包括第四 卷积层C14,第五计算节点125包括第五卷积层C15,第六计算节点126包括第六卷积层C16, 且第三卷积层C13、第四卷积层C14、第五卷积层C15和第六卷积层C16属于第二卷积层组 2〇〇。第二卷积层组200中的每个卷积层用于产生并输出特征图。Suml为第一求和层。X1为第 i帧图像,Xi+i为第i+l帧图像,Yi为第i帧概率图。
[0075] 容易理解的是,本公开的范围不限于此,第一子神经网络12可以包括更多层卷积 层,例如10层卷积层等。
[0076] 例如,如图4A所示,第一卷积层组100可以仅提取一些低级特征,例如点、边缘、线 条和角部等特征;随后,第二卷积层组200能从低级特征中迭代提取更复杂的特征,例如,直 线、拐弯、三角形等特征。
[0077] 例如,第一卷积层Cll的卷积核和第二卷积层C12的卷积核具有不同的幅值。
[0078] 需要说明的是,在第一计算节点121中也可以包括多个依次连接的卷积层,在第二 计算节点122中也可以包括多个依次连接的卷积层。本公开对此不作限制。
[0079] 例如,如图5所示,步骤S20可以包括:
[0080] 步骤S201:利用第一卷积层分别对第i帧图像和第i + 1帧图像执行卷积处理,以得 到第i帧图像的特征图和第i+ι帧图像的特征图;
[0081] 步骤S202:利用第二卷积层对第i帧概率图执行卷积处理,以得到第i帧概率图的 特征图;
[0082] 步骤S203:利用第一求和层对第i帧图像的特征图、第i+Ι帧图像的特征图和第i帧 概率图的特征图执行求和处理;
[0083] 步骤S204:利用第二卷积层组对第一求和层的输出执行卷积处理。
[0084] 例如,在步骤S201和步骤S202中,第i帧图像的特征图、第i+Ι帧图像的特征图和第 i帧概率图的特征图可以具有相同的尺寸。
[0085] 例如,在步骤S203中,利用第一求和层Suml对第i帧图像的特征图、第i+1帧图像的 特征图和第i帧概率图执行求和处理,以得到第i + Ι帧图像的融合图,从而第一求和层Suml 可以实现对于待检测的视频中的多帧信息的综合,提升图像的分割精度。例如,“求和处理” 表示对第i帧图像的特征图、第i+Ι帧图像的特征图和第i帧概率图中对应的像素点的值进 行相加处理。
[0086] 例如,第二卷积层组200中的每个卷积层接收相邻上一计算节点的卷积层输出的 特征图并执行卷积处理。如图4A所示,在步骤S203中,第三卷积层C13接收第一求和层Suml 的输出,即第i + Ι帧图像的融合图,并对第i+Ι帧图像的融合图执行卷积处理以得到特征图 F11。第四卷积层C14接收特征图F11,并对特征图Fll执行卷积处理以得到特征图F12。第五 卷积层C15接收特征图F12,并对特征图F12执行卷积处理以得到特征图F13。第六卷积层C16 接收特征图Fl 3,并对特征图Fl 3执行卷积处理以得到特征图Fl 4。
[0087] 需要说明的是,第一子神经网络12还可以包括至少一个第一下采样层。在一个示 例中,第一下采样层的数量例如可以与第一子神经网络12中的卷积层的数量相同,从而在 每个卷积层后可以设置一个第一下采样层,也就是说,第一子神经网络12中的每个计算节 点中还设置一个第一下采样层。由此,第一子神经网络12中的每个计算节点的处理过程还 可以包括下采样处理。如图4C所示,第一计算节点121还包括第一下采样层P11,第二计算节 点122还包括第一下采样层P12。第三计算节点123还包括第一下采样层P13,第四计算节点 124还包括第一下采样层P14,第五计算节点125还包括第一下采样层P15,第六计算节点126 还包括第一下米样层P16。
[0088] 例如,第一下采样层可以为池化层。一方面,池化层可以用于缩减输入的视频图像 的规模,简化计算的复杂度,在一定程度上减小过拟合的现象;另一方面,池化层也可以进 行特征压缩,提取输入的视频图像的主要特征。池化层能够减少特征图像的尺寸,但不改变 特征图像的数量。例如,一个尺寸为12X12的输入图像,通过6X6的滤波器对其进行采样, 那么可以得到2X2的输出图像,这意味着输入图像上的36个像素合并为输出图像中的1个 像素。根据实际需要,每个计算节点中还可以设置一个归一化层,即每个计算节点的处理过 程还可以包括归一化处理(LCN,local constant normalization)等。
[0089] 例如,如图4A所示,第一子神经网络12还包括瓶颈层组300。瓶颈层组300可以减少 神经网络的计算量,提升神经网络的计算速度,提高图像处理的效率。从而,如图5所示,步 骤S20还可以包括:
[0090] 步骤S205:利用瓶颈层组对第二卷积层组的输出执行图像分割处理以获得第i+1 帧概率图。
[0091] 例如,如图4A所示,在一个示例中,瓶颈层组300可以包括第一瓶颈层Ul和第二瓶 颈层U2。从而,如图6A所示,步骤S205可以包括:
[0092] 步骤S2051:经由第二瓶颈层对第二卷积层组中对应的卷积层的输出执行卷积计 算以获得第二瓶颈层的中间分数图,以及对第二瓶颈层的中间分数图执行上采样处理以获 得第二瓶颈层的分数图;
[0093] 步骤S2052:经由第一瓶颈层对第二瓶颈层的分数图和第i帧概率图执行求和处理 以获得第i+1桢概率图。
[0094] 例如,如图4A所示,第二瓶颈层U2可以接收第六卷积层C16输出的特征图F14,并对 特征图F14执行卷积计算和上采样处理以获得第二瓶颈层U2的分数图S1。
[0095] 例如,如图4A至图4C所示,第一子神经网络12还可以包括第七卷积层Cl 7。从而,步 骤S2052可以包括:经由第七卷积层C17对第i帧概率图执行卷积处理以获得特征图F15,其 中,特征图F15与第二瓶颈层U2的分数图Sl具有相同的尺寸;以及经由第一瓶颈层Ul对第二 瓶颈层U2的分数图Sl和第七卷积层C17输出的特征图F15执行融合处理以获得第i+Ι帧概率 图Pi+1,第i+Ι帧概率图Pi+1和第i+Ι帧图像具有相同的尺寸。
[0096] 例如,第七卷积层Cl 7可以包括3 X 3卷积核等。
[0097] 需要说明的是,在图4A所示的示例中,第二瓶颈层U2与第二卷积层组200中的第六 卷积层C16相对应,但不限于此,第二瓶颈层U2也可以与第二卷积层组200中的第三卷积层 C13、第四卷积层C14或第五卷积层C15相对应,也就是说,第二瓶颈层U2也可以对第三卷积 层C13、第四卷积层C14或第五卷积层C15输出的特征图进行处理。
[0098] 例如,如图4B所示,在另一个示例中,瓶颈层组300可以包括五个瓶颈层,即第一瓶 颈层Ul、第二瓶颈层U2、第三瓶颈层U3、第四瓶颈层U4和第五瓶颈层U5。由此,如图6B所示, 步骤S205可以包括:
[0099] 步骤S2053:经由第五瓶颈层对第二卷积层组中对应的卷积层的输出执行卷积计 算以获得第五瓶颈层的中间分数图,以及对第五瓶颈层的中间分数图执行上采样处理以获 得第五瓶颈层的分数图;
[0100] 步骤S2054:经由第四瓶颈层对第二卷积层组中对应的卷积层的输出执行卷积计 算以获得第四瓶颈层的中间分数图,对第五瓶颈层的分数图和第四瓶颈层的中间分数图进 行求和处理以获得第四瓶颈层的融合图,以及对第四瓶颈层的融合图执行上采样处理以获 得第四瓶颈层的分数图;
[0101] 步骤S2055:经由第三瓶颈层对第二卷积层组中对应的卷积层的输出执行卷积计 算以获得第三瓶颈层的中间分数图,对第四瓶颈层的分数图和第三瓶颈层的中间分数图进 行求和处理以获得第三瓶颈层的融合图,以及对第三瓶颈层的融合图执行上采样处理以获 得第三瓶颈层的分数图;
[0102] 步骤S2056:经由第二瓶颈层对第二卷积层组中对应的卷积层的输出执行卷积计 算以获得第二瓶颈层的中间分数图,对第三瓶颈层的分数图和第二瓶颈层的中间分数图进 行求和处理以获得第二瓶颈层的融合图,以及对第二瓶颈层的融合图执行上采样处理以获 得第二瓶颈层的分数图;
[0103] 步骤S2057:经由第一瓶颈层对第二瓶颈层的分数图和第i帧概率图执行求和处理 以获得第i+Ι桢概率图。
[0104] 例如,如图4B所示,第二瓶颈层U2与第二卷积层组200中的第三卷积层C13相对应。 第三瓶颈层U3与第二卷积层组200中的第四卷积层C14相对应。第四瓶颈层U4与第二卷积层 组200中的第五卷积层C15相对应。第五瓶颈层U5与第二卷积层组200中的第六卷积层C16相 对应。
[0105] 由此,步骤S2053可以包括:经由第五瓶颈层U5对第六卷积层C16输出的特征图F14 执行卷积计算以获得第五瓶颈层U5的中间分数图,以及对第五瓶颈层U5的中间分数图执行 上采样处理以获得第五瓶颈层的分数图S4。
[0106] 步骤S2056可以包括:经由第二瓶颈层U2对第三卷积层C13输出的特征图Fll执行 卷积计算以获得第二瓶颈层U2的中间分数图,对第三瓶颈层U3的分数图S2和第二瓶颈层U2 的中间分数图进行求和处理以获得第二瓶颈层U2的融合图,以及对第二瓶颈层U2的融合图 执行上采样处理以获得第二瓶颈层U2的分数图Sl。
[0107] 需要说明的是,在步骤S2054和步骤S2055中,第三瓶颈层U3和第四瓶颈层U4的处 理过程与第二瓶颈层U2类似,不同之处在于:第三瓶颈层U3用于接收并处理第四卷积层C14 输出的特征图F12和第四瓶颈层U4的分数图S3,第四瓶颈层U4用于接收并处理第五卷积层 C15输出的特征图F13和第五瓶颈层U5的分数图S4。在此将省略第三瓶颈层U3和第四瓶颈层 U4的处理过程的重复描述。例如,步骤S2056中的“求和处理”表示对第三瓶颈层U3的分数图 S2和第二瓶颈层U2的中间分数图对应的像素点的值进行相加处理。
[0108] 需要说明的是,图6B所示的示例中的步骤S2057和图6A所示的示例中步骤S2052相 同,重复之处不再赘述。
[0109] 图7为本公开一实施例提供的一种第一子神经网络中的瓶颈层组的结构示意图。
[0110] 例如,瓶颈层组200中的每个瓶颈层可以包括多个通道压缩子层。如图7所示,在一 个示例中,瓶颈层组300中的每个瓶颈层可以包括第一通道压缩子层和第二通道压缩子层。 第一通道压缩子层包括至少一个第一卷积核,第一卷积核例如可以为1X1卷积核。第二通 道压缩子层包括多个第二卷积核,第二卷积核例如可以为3 X 3卷积核、5 X 5卷积核或7 X 7 卷积核等。第一卷积核用于压缩输入的特征图的通道数。第二卷积核用于增大感受野。从 而,瓶颈层组300可以在保证分割精度的情况下,提高计算速度,扩大感受野的范围。
[0111] 例如,如图7所示,除第一瓶颈层Ul外,瓶颈层组300中的每个瓶颈层还可以包括上 采样子层。上采样子层可以采用反卷积算法、插值算法等算法进行上采样。上采样子层用于 增加特征图的各个维度的值,从而增加特征图的数据量。又例如,如图7所示,除第五瓶颈层 U5外,瓶颈层组300中的每个瓶颈层还可以包括求和子层。
[0112] 由此,步骤S2053包括:利用第五瓶颈层U5的第一通道压缩子层和第二通道压缩子 层依次对特征图F14执行卷积处理以获得第五瓶颈层U5的中间分数图;以及利用第五瓶颈 层U5的上采样子层对第五瓶颈层U5的中间分数图执行上采样处理以获得第五瓶颈层U5的 分数图S4。
[0113] 例如,步骤S2056可以包括:利用第二瓶颈层U2的第一通道压缩子层和第二通道压 缩子层依次对特征图Fll执行卷积处理以获得的第二瓶颈层U2的中间分数图;利用第二瓶 颈层U2的求和子层对第三瓶颈层U3的分数图S2和第二瓶颈层U2的中间分数图进行求和处 理以获得第二瓶颈层U2的融合图;利用第二瓶颈层U2的上采样子层对第二瓶颈层U2的融合 图执行上采样处理以获得第二瓶颈层U2的分数图S1。需要说明的是,第三瓶颈层U3和第四 瓶颈层U4的处理过程与第二瓶颈层U2相同。
[0114] 例如,如图7所示,在一个示例中,第一瓶颈层Ul可以包括求和子层。由此,步骤 S2057可以包括:经由第一瓶颈层Ul的求和子层对第二瓶颈层U2的分数图Sl和特征图F15执 行融合处理以获得第i+Ι帧概率图P1+1。
[0115] 例如,根据实际情况,第一瓶颈层Ul还可以包括上采样子层。步骤S2057还可以包 括:利用第一瓶颈层Ul的上采样子层对第一瓶颈层Ul的求和子层的输出执行上采样处理, 以使第i+Ι帧概率图Pi+ι和第i+Ι帧图像Xi+ι具有相同的尺寸。
[0116] 以上,通过参照图1至图7描述了根据本公开一实施例的视频图像处理方法。如上 所述,本公开一实施例的视频图像处理方法通过第一子神经网络对多帧视频图像进行处 理,融合多帧视频图像之间的特征信息,并结合多帧视频图像之间的时序信息,以实现对视 频图像进行分割,提升图像的分割精度和准确性,提升抠图的速度,从而实现实时抠图。
[0117] 例如,如图2所示,在另一个实施例中,神经网络可以包括输入层11、第一子神经网 络12和第二子神经网络13。输入层11用于对每帧视频图像进行颜色格式转换,以方便后续 第一子神经网络12和第二子神经网络13进行图像分割处理。第一子神经网络12用于对多帧 (例如两帧)视频图像进行图像分割以得到各帧视频图像的中间概率图。第二子神经网络13 基于多帧视频图像之间的差异得到各帧视频图像的概率图。第二子神经网络13可以包括光 流卷积层组和光流层。
[0118] 图8为本公开一实施例提供的另一种基于神经网络的视频图像处理方法的示意性 流程图。
[0119] 例如,如图8所示,本公开实施例提供的视频图像处理方法包括:
[0120] 步骤S12:获取图像组,其中,图像组包括第i帧图像、第i帧概率图和第i+1帧图像;
[0121] 步骤S22:利用第一子神经网络对输入的图像组执行图像分割处理以获得第i+Ι帧 图像的第i+Ι帧中间概率图;
[0122] 步骤S30:利用光流卷积层组对第i帧图像和第i+Ι帧图像执行卷积处理;
[0123] 步骤S31:利用光流层对光流卷积层组中最后的光流卷积层的输出执行光流处理 以获得第i+1桢像素偏移图像;
[0124] 步骤S32:根据第i + Ι帧像素偏移图像对第i帧概率图执行插值处理,以获得第i+1 帧插值概率图;以及
[0125] 步骤S33:对第i+Ι帧中间概率图和第i+Ι帧插值概率图执行相加处理,以获得第i+ 1帧概率图。
[0126] 例如,在步骤S22中,第一子神经网络12可以输出第i + 1帧中间概率图Q1+1。关于第 一神经网络12的结构和处理过程可以参看上述实施例中关于第一神经网络12的相关描述, 在此不再赘述。
[0127] 需要说明的是,图8所示的示例中的步骤Sl 2和图1所示的示例中的步骤SI 0相同, 重复之处不再赘述。
[0128] 图9A为本公开一实施例提供的一种神经网络的第二子神经网络的一种结构示意 图。图9B为本公开一实施例提供的一种神经网络的第二子神经网络的另一种结构示意图。
[0129] 例如,如图9A所示,在一个示例中,第二子神经网络13可以包括光流卷积层组400 和光流层0F。第二子神经网络13用于对第i + Ι帧中间概率图和第i帧概率图进行有机融合。 第二子神经网络13包括依次连接的多个计算节点。如图9A所示,多个计算节点可以包括第 七计算节点221、第八计算节点222和第九计算节点223。第七计算节点221可以包括第一光 流卷积层C21,第八计算节点222可以包括第二光流卷积层C22,第九计算节点223可以包括 第三光流卷积层C23,且第一光流卷积层C21、第二光流卷积层C22和第三光流卷积层C23属 于光流卷积层组400。
[0130] 例如,如图2所示,在步骤S12中,第i帧图像和第i + Ι帧图像可以被传输至输入层 11,并经由输入层11输入至第二子神经网络13。
[0131] 由此,步骤S30包括:经由第一光流卷积层C21对第i帧图像执行卷积处理以得到第 i帧图像的特征图F21;经由第二光流卷积层C22对特征图F21执行卷积处理以得到第i帧图 像的特征图F22;以及经由第三光流卷积层C23对特征图F22执行卷积处理以得到第i帧图像 的特征图F23。步骤S30还包括:经由第一光流卷积层C21、第二光流卷积层C22和第三光流卷 积层C23对第i + Ι帧图像执行卷积处理以分别得到第i + Ι帧图像的特征图F31、特征图F32和 特征图F33。在步骤S30中,对第i + Ι帧图像执行的卷积处理与对第i帧图像执行的卷积处理 相同,在此将省略其重复描述。
[0132] 例如,第一光流卷积层C21、第二光流卷积层C22和第三光流卷积层C23的参数可以 分别与第一卷积层C11、第三卷积层C13和第四卷积层C14相同,从而在第二子神经网络13中 可以复用第一卷积层C11、第三卷积层C13和第四卷积层C14,进而简化神经网络的结构。但 不限于此,第一光流卷积层C21、第二光流卷积层C22和第三光流卷积层C23的参数也可以与 第一卷积层Cl 1、第三卷积层C13和第四卷积层C14的参数不相同。
[0133] 例如,在步骤S31中,利用光流层OF对第三光流卷积层C23输出的特征图F23和特征 图F33执行光流处理以获得第i + Ι帧像素偏移图像M (i,j)。第i + Ι帧像素偏移图像M (i,j)为 一个三维张量,且与第i+Ι帧图像的尺寸相同。
[0134] 例如,第i+Ι帧像素偏移图像M (i,j)可以包括第i+Ι帧水平像素偏移图像M (i,j,0) 和第i+Ι帧垂直像素偏移图像M (i,j,1)。第i + Ι帧水平像素偏移图像M (i,j,0)表示第i + Ι帧 图像中(i,j)处的像素点相对于第i帧图像中相应的(i,j)处的像素点的水平偏移量。第i+1 帧垂直像素偏移图像M (i,j,1)表示第i+Ι帧图像中(i,j)处的像素点相对于第i帧图像中相 应的(i,j)处的像素点的垂直偏移量。
[0135] 例如,如图9A所示,第二子神经网络13还可以包括插值层IT。在步骤32中,插值层 IT可以根据第i+Ι帧像素偏移图像M (i,j)对第i帧概率图Yi执行插值运算以获得第i+Ι帧插 值概率图Ti+1。
[0136] 例如,插值运算可以包括内插值、两次立方插值算法(Bicubic Interprolation)、 拉格朗日插值、牛顿插值以及Hermite插值等。
[0137] 例如,如图9A所示,第二子神经网络13还可以包括第二求和层Sum2。在步骤S33中, 第二求和层Sum2可以对第i+Ι帧中间概率图Qi+i和第i+Ι帧插值概率图Ti+i执行相加处理,以 获得第i+Ι帧概率图Pi+i。
[0138] 需要说明的是,第二子神经网络13还可以包括至少一个第二下采样层。在一个示 例中,第二下采样层的数量例如可以与光流卷积层组400中光流卷积层的数量相同,从而在 每个光流卷积层后可以设置一个第二下采样层,也就是说,第二子神经网络13中的每个计 算节点包括一个第二下采样层。由此,第二子神经网络13中的每个计算节点还包括对输入 的特征图执行下采样处理。如图9B所示,第七计算节点221包括第二下采样层P21,第八计算 节点222包括第二下采样层P22,第九计算节点223包括第二下采样层P23。例如,第二下采样 层也可以为池化层。
[0139] 以上,通过参照图8至图9B描述了根据本公开另一实施例的视频图像处理方法。如 上所述,本公开另一实施例的视频图像处理方法通过第二神经子网络对对第i+Ι帧中间概 率图和第i帧概率图进行有机融合,以改善视觉效果,平滑图像分割结果,减弱图像分割的 闪烁效果,提升用户体验。
[0140] 例如,如图2所示,在又一个实施例中,神经网络10可以包括输入层11、第一子神经 网络12、第二子神经网络13和输出层14。输入层11用于对每帧视频图像进行颜色格式转换, 以方便后续第一子神经网络12和第二子神经网络13进行图像分割处理。第一子神经网络12 用于对多帧(例如两帧)视频图像进行图像分割以得到各帧视频图像的中间概率图。第二子 神经网络13基于多帧视频图像之间的差异得到各帧视频图像的光流图像。输出层14用于整 合所有已经处理后的视频图像的光流图像以得到各帧视频图像的概率图。
[0141] 例如,关于第二子神经网络13的结构和处理过程可以参看上述实施例中关于第二 子神经网络13的相关描述,重复之处不再赘述。
[0142] 图10为本公开一实施例提供的又一种基于神经网络的视频图像处理方法的示意 性流程图。如图10所示,本公开实施例提供的视频图像处理方法可以包括:
[0143] 步骤S14:获取图像组,其中,图像组包括第i帧图像、第i帧概率图和第i+1帧图像; [0M4]步骤S24:利用第一子神经网络对输入的图像组执行图像分割处理以获得第i+Ι帧 图像的第i+Ι帧中间概率图;
[0145] 步骤S35:利用光流卷积层组对第i帧图像和第i+Ι帧图像执行卷积处理;
[0146] 步骤S36:利用光流层对光流卷积层组中最后的光流卷积层的输出执行光流处理 以获得第i+1桢像素偏移图像;
[0147] 步骤S37:根据第i + Ι帧像素偏移图像对第i帧概率图执行插值处理,以获得第i+1 帧插值概率图;
[0148] 步骤S40:对第i+Ι帧中间概率图和第i+Ι帧插值概率图执行相加处理,以获得第i+ 1帧图像的光流图像;以及
[0149] 步骤S41:利用输出层对光流图像组进行加权平均处理以获得第i+Ι帧概率图。
[0150] 例如,在步骤S40中,第二子神经网络13可以输出第i+Ι帧图像的光流图像Ri+1,第i +1帧图像的光流图像R1+1融合两帧视频图像的特征信息,其分割结果已经比较精确。为了融 合更多帧视频图像的分割结果,输出层14配置为对多帧视频图像的光流图像进行有机融 合,从而进一步提尚图像分割的精确度。
[0151] 例如,在步骤S41中,光流图像组包括前i+1帧图像的光流图像,也就是说,光流图 像组包括从第1帧图像的光流图像至i+Ι帧图像的光流图像。第i+Ι帧概率图P1+1可以表示如 下:
[0152]
[0153] 其中,P1+1表示第i+Ι帧概率图,Rj表示第j帧图像的光流图像,表示第j帧图像的 光流图像的系数。Φ^Τ以预先设置。例如,在一个示例中,Φ^Τ以表示为:
[0154]
[0155] 又例如,在另一个示例中,对于比较复杂的场景,也可以采用梯度下降等算法学习 出合理的φ」。
[0156] 需要说明的是,图10所示的示例中的步骤S14、步骤S24、步骤S35、步骤S36和步骤 S37分别与图8所示的示例中的步骤S12、步骤S22、步骤S30、步骤S31和步骤S32相同,重复之 处不再赘述。
[0157] 以上,通过参照图10和图11描述了根据本公开又一实施例的视频图像处理方法。 如上所述,本公开另一实施例的视频图像处理方法通过输出层对多帧视频图像的光流图像 进行有机融合,实现了融合更多帧视频图像的分割结果,从而进一步提高图像分割的精确 度和准确性。
[0158] 图11是本公开一实施例提供的一种用于视频图像处理的神经网络的训练方法的 流程图。
[0159] 例如,在一个示例中,神经网络包括第一卷积神经网络。如图11所示,训练方法可 以包括以下步骤:
[0160] 步骤S50:获取训练图像组,训练图像组包括第i帧训练图像、第i帧训练概率图和 第i+Ι帧训练图像;
[0161] 步骤S51:经由神经网络对训练图像组执行图像分割处理以获得第i+Ι帧训练概率 图;
[0162] 步骤S52:根据第i+Ι帧训练概率图调整神经网络的参数;
[0163] 步骤S53:判断神经网络的损失函数是否满足预定条件;
[0164] 在神经网络的损失函数满足预定条件时,执行步骤S54,即获得训练好的神经网 络;
[0165] 在神经网络的损失函数不满足预定条件时,返回到步骤S50,即继续输入训练图像 组以重复执行上述训练过程。
[0166] 例如,在步骤S50中,i为正整数。
[0167] 例如,在一个示例中,预定条件对应于在一定训练图像组输入下神经网络的损失 函数的最小化。在另一个示例中,预定条件为神经网络的训练次数或训练周期达到预定数 目。
[0168] 例如,损失函数表示第i + Ι帧训练概率图与第i + Ι帧训练图像的目标概率图的差 异。
[0169] 例如,在一个实施例中,神经网络包括输入层和第一子神经网络。第一子神经网络 包括第一卷积层组、第一求和层和第二卷积层组。第一卷积层组包括第一卷积层和第二卷 积层。
[0170] 例如,步骤S50的相关处理过程可以参考图1所示的示例中的步骤S10。
[0171] 例如,步骤S51可以包括:首先利用第一卷积层分别对第i帧训练图像和第i+Ι帧训 练图像执行卷积处理,以得到第i帧训练图像的训练特征图和第i+ι帧训练图像的训练特征 图;然后利用第二卷积层对第i帧训练概率图执行卷积处理,以得到第i帧训练概率图的训 练特征图;然后利用第一求和层对第i帧训练图像的训练特征图、第i+ι帧训练图像的训练 特征图和第i帧训练概率图的训练特征图执行求和处理;然后利用第二卷积层组对第一求 和层的输出执行卷积处理。
[0172] 例如,第一子神经网络还包括瓶颈层组。瓶颈层组可以包括第一瓶颈层和第二瓶 颈层。
[0173] 例如,利用第二卷积层组对第一求和层的输出执行卷积处理后,步骤S51还可以包 括:首先经由第二瓶颈层对第二卷积层组中对应的卷积层输出的训练特征图执行卷积计算 以获得第二瓶颈层的中间训练分数图,以及对第二瓶颈层的中间训练分数图执行上采样处 理以获得第二瓶颈层的训练分数图;然后经由第一瓶颈层对第二瓶颈层的训练分数图和第 i帧训练概率图执行求和处理以获得第i+Ι帧训练概率图。
[0174] 需要说明的是,关于第一卷积神经网络的处理过程可以参考上述视频图像处理方 法的实施例中的相关说明。
[0175] 例如,在另一个实施例中,神经网络可以包括输入层、第一子神经网络和第二子神 经网络。第二子神经网络包括光流卷积层组和光流层。
[0176] 例如,步骤S51可以包括:首先利用第一子神经网络对输入的训练图像组执行图像 分割处理以获得第i+Ι帧训练图像的第i+Ι帧中间训练概率图;然后利用光流卷积层组对第 i帧训练图像和第i+Ι帧训练图像执行卷积处理;然后利用光流层对光流卷积层组中最后的 光流卷积层的输出执行光流处理以获得第i+Ι帧训练像素偏移图像;接着根据第i+Ι帧训练 像素偏移图像对第i帧训练概率图执行插值处理,以获得第i+Ι帧训练插值概率图;最后对 第i+Ι帧中间训练概率图和第i+Ι帧训练插值概率图执行相加处理,以获得第i+Ι帧训练概 率图。
[0177] 需要说明的是,关于第二卷积神经网络的处理过程也可以参考上述视频图像处理 方法的实施例中的相关说明。
[0178] 图12是本公开一实施例提供的一种视频图像处理装置的示意性框图。如图12所 示,视频图像处理装置70包括图像获取模块705和视频图像处理模块710。这些组件通过总 线系统和/或其它形式的连接机构(未示出)互连。应当注意,图12所示的视频图像处理装置 70的组件和结构只是示例性的,而非限制性的,根据需要,视频图像处理装置70也可以具有 其他组件和结构。
[0179] 例如,图像获取模块705用于获取第i帧图像和第i+Ι帧图像,i为正整数。视频图像 处理模块710用于利用神经网络7105对图像组执行图像处理,图像组包括第i帧图像、第i+1 帧图像和第i帧概率图。视频图像处理模块710具体用于:利用神经网络7105对输入的图像 组执行图像分割处理以获得第i+ι帧图像的第i+ι帧概率图。
[0180] 例如,第i帧概率图为经过视频图像处理装置710对第i-Ι帧图像和第i帧图像进行 分割处理之后得到图像。
[0181] 例如,图像获取模块705可以包括一个或多个摄像头。例如,图像获取模块705可以 是智能手机的摄像头、平板电脑的摄像头、个人计算机的摄像头、或者甚至可以是网络摄像 头。
[0182] 例如,图像获取模块705可以为硬件、软件、固件以及它们的任意可行的组合。
[0183] 例如,图像获取模块705可以经由有线或者无线方式将第i帧图像和第i + Ι帧图像 传输至视频图像处理模块710。
[0184] 例如,在一个实施例中,神经网络7105包括第一子神经网络,第一子神经网络包括 第一卷积层组、第一求和层和第二卷积层组。第一卷积层组包括第一卷积层和第二卷积层。 视频图像处理模块710还用于:利用第一卷积层分别对第i帧图像和第i+Ι帧图像执行卷积 处理,以得到第i帧图像的特征图和第i+Ι帧图像的特征图;利用第二卷积层对第i帧概率图 执行卷积处理,以得到第i帧概率图的特征图;利用第一求和层对第i帧图像的特征图、第i+ 1帧图像的特征图和第i帧概率图的特征图执行求和处理;利用第二卷积层组对第一求和层 的输出执行卷积处理。
[0185] 例如,第一子神经网络还可以包括瓶颈层组。在一个示例中,瓶颈层组包括第一瓶 颈层和第二瓶颈层。视频图像处理模块710还用于:经由第二瓶颈层对第二卷积层组中对应 的卷积层的输出执行卷积计算以获得第二瓶颈层的中间分数图,以及对第二瓶颈层的中间 分数图执行上采样处理以获得第二瓶颈层的分数图;经由第一瓶颈层对第二瓶颈层的分数 图和第i帧概率图执行求和处理以获得第i+Ι帧概率图。
[0186] 例如,在另一个示例中,瓶颈层组包括第一瓶颈层、第二瓶颈层、第三瓶颈层、第四 瓶颈层和第五瓶颈层。视频图像处理模块710用于:经由第五瓶颈层对第二卷积层组中对应 的卷积层的输出执行卷积计算以获得第五瓶颈层的中间分数图,以及对第五瓶颈层的中间 分数图执行上采样处理以获得第五瓶颈层的分数图;经由第四瓶颈层对第二卷积层组中对 应的卷积层的输出执行卷积计算以获得第四瓶颈层的中间分数图,对第五瓶颈层的分数图 和第四瓶颈层的中间分数图进行求和处理以获得第四瓶颈层的融合图,以及对第四瓶颈层 的融合图执行上采样处理以获得第四瓶颈层的分数图;经由第三瓶颈层对第二卷积层组中 对应的卷积层的输出执行卷积计算以获得第三瓶颈层的中间分数图,对第四瓶颈层的分数 图和第三瓶颈层的中间分数图进行求和处理以获得第三瓶颈层的融合图,以及对第三瓶颈 层的融合图执行上采样处理以获得第三瓶颈层的分数图;经由第二瓶颈层对第二卷积层组 中对应的卷积层的输出执行卷积计算以获得第二瓶颈层的中间分数图,对第三瓶颈层的分 数图和第二瓶颈层的中间分数图进行求和处理以获得第二瓶颈层的融合图,以及对第二瓶 颈层的融合图执行上采样处理以获得第二瓶颈层的分数图;经由第一瓶颈层对第二瓶颈层 的分数图和第i帧概率图执行求和处理以获得第i+Ι帧概率图。
[0187] 例如,在另一个实施例中,神经网络7105可以包括输入层、第一子神经网络和第二 子神经网络。第二子神经网络包括光流卷积层组和光流层。视频图像处理模块710还用于: 利用第一子神经网络对输入的图像组执行图像分割处理以获得第i+Ι帧图像的第i + Ι帧中 间概率图;利用光流卷积层组对第i帧图像和第i + Ι帧图像执行卷积处理;利用光流层对光 流卷积层组中最后的光流卷积层的输出执行光流处理以获得第i+ι帧像素偏移图像;根据 第i+Ι帧像素偏移图像对第i帧概率图执行插值处理,以获得第i+Ι帧插值概率图;以及对第 i+Ι桢中间概率图和第i+Ι桢插值概率图执行相加处理,以获得第i+Ι桢概率图。
[0188] 例如,在又一个实施例中,神经网络7105包括输入层、第一子神经网络、第二子神 经网络和输出层。第二子神经网络包括光流卷积层组和光流层。视频图像处理模块710还用 于:利用第一子神经网络对输入的图像组执行图像分割处理以获得第i+Ι帧图像的第i+Ι帧 中间概率图;利用光流卷积层组对第i帧图像和第i + Ι帧图像执行卷积处理;利用光流层对 光流卷积层组中最后的光流卷积层的输出执行光流处理以获得第i + Ι帧像素偏移图像;根 据第i+Ι帧像素偏移图像对第i帧概率图执行插值处理,以获得第i+Ι帧插值概率图;对第i+ 1帧中间概率图和第i+Ι帧插值概率图执行相加处理,以获得第i+Ι帧图像的光流图像;以及 利用输出层对光流图像组进行加权平均处理以获得第i+Ι帧概率图。例如,光流图像组包括 前i+Ι帧图像的光流图像。
[0189] 图13是本公开一实施例提供的一种视频图像处理装置的示意性框图。如图13所 示,视频图像处理装置80可以包括存储器805和处理器810。存储器805用于存储非暂时性计 算机可读指令;处理器810用于运行所述计算机可读指令,所述计算机可读指令被处理器 810运行时可以执行根据上文所述的视频图像处理方法中的一个或多个步骤。
[0190] 例如,处理器810可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执 行能力的其它形式的处理单元,并且可以控制视频图像处理装置80中的其它组件以执行期 望的功能。
[0191] 例如,存储器805可以包括一个或多个计算机程序产品,所述计算机程序产品可以 包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失 性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易 失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上 可以存储一个或多个计算机可读指令,处理器810可以运行所述计算机可读指令,以实现视 频图像处理装置的各种功能。
[0192] 例如,关于视频图像处理方法的处理过程的详细说明可以参考视频图像处理方法 的实施例中的相关描述,重复之处不再赘述。
[0193] 图14是本公开一实施例提供的一种计算机可读存储介质的示意图。例如,如图14 所示,在计算机可读存储介质900上可以存储一个或多个非暂时性计算机可读指令901。例 如,当所述非暂时性计算机可读指令901由计算机执行时可以执行根据上文所述的视频图 像处理方法中的一个或多个步骤。又例如,当所述非暂时性计算机可读指令901由计算机执 行时还可以执行根据上文所述的视频图像处理的神经网络的训练方法中的一个或多个步 骤。
[0194] 本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图 要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到 的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。
[0195] 以上,参照附图描述了基于神经网络的视频图像处理方法和装置、用于视频图像 处理的神经网络的训练方法以及计算机可读存储介质,其利用神经网络对多帧视频图像进 行处理,融合多帧视频图像之间的特征信息,并结合多帧视频图像之间的时序信息得到视 频图像的分割结果,提升图像的分割精度,提高抠图的准确性,提升抠图的速度,从而实现 实时抠图,提升用户体验。
[0196]以上所述仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,本公 开的保护范围应以所述权利要求的保护范围为准。
Claims (16)
1. 一种基于神经网络的视频图像处理方法,包括: 获取图像组,其中,所述图像组包括第i帧图像、第i帧概率图和第i+ι帧图像,i为正整 数;以及 利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+ι帧图像的 第i+Ι帧概率图。
2. 根据权利要求1所述的视频图像处理方法,其中,所述神经网络包括第一子神经网 络,所述第一子神经网络包括第一卷积层组、第一求和层和第二卷积层组,所述第一卷积层 组包括第一卷积层和第二卷积层, 利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+Ι帧图像的 第i+Ι帧概率图,包括: 利用所述第一卷积层分别对所述第i帧图像和第i+Ι帧图像执行卷积处理,以得到所述 第i帧图像的特征图和第i+Ι帧图像的特征图; 利用所述第二卷积层对所述第i帧概率图执行卷积处理,以得到所述第i帧概率图的特 征图; 利用所述第一求和层对所述第i帧图像的特征图、第i+ι帧图像的特征图和所述第i帧 概率图的特征图执行求和处理; 利用所述第二卷积层组对所述第一求和层的输出执行卷积处理。
3. 根据权利要求2所述的视频图像处理方法,其中,所述第一子神经网络还包括瓶颈层 组,所述瓶颈层组包括第一瓶颈层和第二瓶颈层, 利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+Ι帧图像的 第i+Ι帧概率图,还包括: 经由所述第二瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获 得所述第二瓶颈层的中间分数图,以及对所述第二瓶颈层的中间分数图执行上采样处理以 获得所述第二瓶颈层的分数图; 经由所述第一瓶颈层对所述第二瓶颈层的分数图和所述第i帧概率图执行求和处理以 获得所述第i+Ι桢概率图。
4. 根据权利要求2所述的视频图像处理方法,其中,所述第一子神经网络还包括瓶颈层 组,所述瓶颈层组包括第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五瓶颈层, 利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+Ι帧图像的 第i+Ι帧概率图,还包括: 经由所述第五瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获 得所述第五瓶颈层的中间分数图,以及对所述第五瓶颈层的中间分数图执行上采样处理以 获得所述第五瓶颈层的分数图; 经由所述第四瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获 得所述第四瓶颈层的中间分数图,对所述第五瓶颈层的分数图和所述第四瓶颈层的中间分 数图进行求和处理以获得所述第四瓶颈层的融合图,以及对所述第四瓶颈层的融合图执行 上采样处理以获得所述第四瓶颈层的分数图; 经由所述第三瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获 得所述第三瓶颈层的中间分数图,对所述第四瓶颈层的分数图和所述第三瓶颈层的中间分 数图进行求和处理以获得所述第三瓶颈层的融合图,以及对所述第三瓶颈层的融合图执行 上采样处理以获得所述第三瓶颈层的分数图; 经由所述第二瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获 得所述第二瓶颈层的中间分数图,对所述第三瓶颈层的分数图和所述第二瓶颈层的中间分 数图进行求和处理以获得所述第二瓶颈层的融合图,以及对所述第二瓶颈层的融合图执行 上采样处理以获得所述第二瓶颈层的分数图; 经由所述第一瓶颈层对所述第二瓶颈层的分数图和所述第i帧概率图执行求和处理以 获得所述第i+Ι桢概率图。
5. 根据权利要求1所述的视频图像处理方法,其中,所述神经网络包括第一子神经网络 和第二子神经网络,所述第二子神经网络包括光流卷积层组和光流层, 利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+Ι帧图像的 第i+Ι帧概率图,包括: 利用所述第一子神经网络对输入的所述图像组执行图像分割处理以获得所述第i+Ι帧 图像的第i+Ι帧中间概率图; 利用所述光流卷积层组对所述第i帧图像和第i+Ι帧图像执行卷积处理; 利用所述光流层对所述光流卷积层组中最后的光流卷积层的输出执行光流处理以获 得第i+1桢像素偏移图像; 根据所述第i+ι帧像素偏移图像对所述第i帧概率图执行插值处理,以获得第i+ι帧插 值概率图;以及 对所述第i+ι帧中间概率图和所述第i+ι帧插值概率图执行相加处理,以获得所述第i+ 1帧概率图。
6. 根据权利要求5所述的视频图像处理方法,其中,所述第i+Ι帧像素偏移图像包括第i +1桢水平像素偏移图像和第i+1桢垂直像素偏移图像。
7. 根据权利要求1所述的视频图像处理方法,其中,所述神经网络包括第一子神经网 络、第二子神经网络和输出层,所述第二子神经网络包括光流卷积层组和光流层, 利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+Ι帧图像的 第i+Ι帧概率图,包括: 利用所述第一子神经网络对输入的所述图像组执行图像分割处理以获得所述第i+Ι帧 图像的第i+Ι帧中间概率图; 利用所述光流卷积层组对所述第i帧图像和第i+1帧图像执行卷积处理; 利用所述光流层对所述光流卷积层组中最后的光流卷积层的输出执行光流处理以获 得第i+1桢像素偏移图像; 根据所述第i+ι帧像素偏移图像对所述第i帧概率图执行插值处理,以获得第i+ι帧插 值概率图; 对所述第i+ι帧中间概率图和所述第i+ι帧插值概率图执行相加处理,以获得所述第i+ 1帧图像的光流图像;以及 利用所述输出层对光流图像组进行加权平均处理以获得第i+Ι帧概率图,其中,所述光 流图像组包括前i+1帧图像的光流图像。
8. 根据权利要求2-7任一项所述的视频图像处理方法,其中,所述神经网络还包括输入 层,所述方法还包括: 利用所述输入层对所述第i帧图像和所述第i+ι帧图像执行颜色格式变换处理;以及 经由所述输入层将所述第i帧图像、所述第i帧概率图和所述第i+ι帧图像输入至所述 第一子神经网络。
9. 根据权利要求1-7任一项所述的视频图像处理方法,其中,所述神经网络为全卷积神 经网络。
10. —种用于视频图像处理的神经网络的训练方法,包括: 获取训练图像组,所述训练图像组包括第i帧训练图像、第i帧训练概率图和第i+ι帧训 练图像,i为正整数; 经由所述神经网络对所述训练图像组执行图像分割处理以获得第i+ι帧训练概率图; 根据所述第i+ι帧训练概率图调整所述神经网络的参数;以及 在所述神经网络的损失函数满足预定条件时,获得训练好的所述神经网络,在所述神 经网络的损失函数不满足预定条件时,继续输入所述训练图像组以重复执行上述训练过 程。
11. 根据权利要求10所述的训练方法,其中,所述神经网络包括第一子神经网络,所述 第一子神经网络包括第一卷积层组、第一求和层和第二卷积层组,所述第一卷积层组包括 第一卷积层和第二卷积层, 经由所述神经网络对所述训练图像组执行图像分割处理以获得第i+ι帧训练概率图, 包括: 利用所述第一卷积层分别对所述第i帧训练图像和第i+ι帧训练图像执行卷积处理,以 得到所述第i帧训练图像的训练特征图和第i+ι帧训练图像的训练特征图; 利用所述第二卷积层对所述第i帧训练概率图执行卷积处理,以得到所述第i帧训练概 率图的训练特征图; 利用所述第一求和层对所述第i帧训练图像的训练特征图、第i+ι帧训练图像的训练特 征图和所述第i帧训练概率图的训练特征图执行求和处理; 利用所述第二卷积层组对所述第一求和层的输出执行卷积处理。
12. 根据权利要求11所述的训练方法,其中,所述第一子神经网络还包括瓶颈层组,所 述瓶颈层组包括第一瓶颈层和第二瓶颈层, 经由所述神经网络对所述训练图像组执行图像分割处理以获得第i+Ι帧训练概率图, 还包括: 经由所述第二瓶颈层对所述第二卷积层组中对应的卷积层输出的训练特征图执行卷 积计算以获得所述第二瓶颈层的中间训练分数图,以及对所述第二瓶颈层的中间训练分数 图执行上采样处理以获得所述第二瓶颈层的训练分数图; 经由所述第一瓶颈层对所述第二瓶颈层的训练分数图和所述第i帧训练概率图执行求 和处理以获得第i+Ι帧训练概率图。
13. 根据权利要求10所述的训练方法,其中,所述神经网络包括第一子神经网络和第二 子神经网络,所述第二子神经网络包括光流卷积层组和光流层, 经由所述神经网络对所述训练图像组执行图像分割处理以获得第i+Ι帧训练概率图, 包括: 利用所述第一子神经网络对输入的所述训练图像组执行图像分割处理以获得所述第i +1桢训练图像的第i+Ι桢中间训练概率图; 利用所述光流卷积层组对所述第i帧训练图像和第i+Ι帧训练图像执行卷积处理; 利用所述光流层对所述光流卷积层组中最后的光流卷积层的输出执行光流处理以获 得第i+ι帧训练像素偏移图像; 根据所述第i+ι帧训练像素偏移图像对所述第i帧训练概率图执行插值处理,以获得第 i+Ι帧训练插值概率图;以及 对所述第i+Ι帧中间训练概率图和所述第i+Ι帧训练插值概率图执行相加处理,以获得 所述第i+Ι帧训练概率图。
14. 一种视频图像处理装置,包括: 图像获取模块,用于获取第i帧图像和第i+Ι帧图像,i为正整数; 视频图像处理模块,用于利用神经网络对图像组执行图像处理,其中,所述图像组包括 所述第i帧图像、所述第i+Ι帧图像和第i帧概率图, 所述视频图像处理模块具体用于: 利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+1帧图像的 第i+Ι帧概率图。
15. —种视频图像处理装置,包括: 存储器,用于存储非暂时性计算机可读指令;以及 处理器,用于运行所述计算机可读指令,所述计算机可读指令被所述处理器运行时可 以执行根据权利要求1-9任一所述的视频图像处理方法。
16. —种计算机可读存储介质,用于存储非暂时性计算机可读指令,当所述非暂时性计 算机可读指令由计算机执行时可以执行根据权利要求1-9任一所述的视频图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711063311.2A CN108875900A (zh) | 2017-11-02 | 2017-11-02 | 视频图像处理方法和装置、神经网络训练方法、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711063311.2A CN108875900A (zh) | 2017-11-02 | 2017-11-02 | 视频图像处理方法和装置、神经网络训练方法、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108875900A true CN108875900A (zh) | 2018-11-23 |
Family
ID=64325555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711063311.2A Pending CN108875900A (zh) | 2017-11-02 | 2017-11-02 | 视频图像处理方法和装置、神经网络训练方法、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108875900A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816611A (zh) * | 2019-01-31 | 2019-05-28 | 北京市商汤科技开发有限公司 | 视频修复方法及装置、电子设备和存储介质 |
CN110060264A (zh) * | 2019-04-30 | 2019-07-26 | 北京市商汤科技开发有限公司 | 神经网络训练方法、视频帧处理方法、装置及系统 |
CN111193917A (zh) * | 2018-12-29 | 2020-05-22 | 中科寒武纪科技股份有限公司 | 运算方法、装置及相关产品 |
CN111260679A (zh) * | 2020-01-07 | 2020-06-09 | 广州虎牙科技有限公司 | 图像处理方法、图像分割模型训练方法及相关装置 |
WO2020215644A1 (zh) * | 2019-04-22 | 2020-10-29 | 深圳市商汤科技有限公司 | 视频图像处理方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106204646A (zh) * | 2016-07-01 | 2016-12-07 | 湖南源信光电科技有限公司 | 基于bp神经网络的多运动目标跟踪方法 |
US20170200274A1 (en) * | 2014-05-23 | 2017-07-13 | Watrix Technology | Human-Shape Image Segmentation Method |
CN106952269A (zh) * | 2017-02-24 | 2017-07-14 | 北京航空航天大学 | 近邻可逆的视频前景物体序列检测分割方法及系统 |
-
2017
- 2017-11-02 CN CN201711063311.2A patent/CN108875900A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170200274A1 (en) * | 2014-05-23 | 2017-07-13 | Watrix Technology | Human-Shape Image Segmentation Method |
CN106204646A (zh) * | 2016-07-01 | 2016-12-07 | 湖南源信光电科技有限公司 | 基于bp神经网络的多运动目标跟踪方法 |
CN106952269A (zh) * | 2017-02-24 | 2017-07-14 | 北京航空航天大学 | 近邻可逆的视频前景物体序列检测分割方法及系统 |
Non-Patent Citations (1)
Title |
---|
郑锦等: "视频序列中运动对象检测技术的研究现状与展望", 《计算机应用研究》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111193917A (zh) * | 2018-12-29 | 2020-05-22 | 中科寒武纪科技股份有限公司 | 运算方法、装置及相关产品 |
CN111193917B (zh) * | 2018-12-29 | 2021-08-10 | 中科寒武纪科技股份有限公司 | 运算方法、装置及相关产品 |
CN109816611A (zh) * | 2019-01-31 | 2019-05-28 | 北京市商汤科技开发有限公司 | 视频修复方法及装置、电子设备和存储介质 |
CN109816611B (zh) * | 2019-01-31 | 2021-02-12 | 北京市商汤科技开发有限公司 | 视频修复方法及装置、电子设备和存储介质 |
WO2020215644A1 (zh) * | 2019-04-22 | 2020-10-29 | 深圳市商汤科技有限公司 | 视频图像处理方法及装置 |
CN110060264A (zh) * | 2019-04-30 | 2019-07-26 | 北京市商汤科技开发有限公司 | 神经网络训练方法、视频帧处理方法、装置及系统 |
CN110060264B (zh) * | 2019-04-30 | 2021-03-23 | 北京市商汤科技开发有限公司 | 神经网络训练方法、视频帧处理方法、装置及系统 |
CN111260679A (zh) * | 2020-01-07 | 2020-06-09 | 广州虎牙科技有限公司 | 图像处理方法、图像分割模型训练方法及相关装置 |
WO2021139625A1 (zh) * | 2020-01-07 | 2021-07-15 | 广州虎牙科技有限公司 | 图像处理方法、图像分割模型训练方法及相关装置 |
CN111260679B (zh) * | 2020-01-07 | 2022-02-01 | 广州虎牙科技有限公司 | 图像处理方法、图像分割模型训练方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Robust video super-resolution with learned temporal dynamics | |
CN108875900A (zh) | 视频图像处理方法和装置、神经网络训练方法、存储介质 | |
Liu et al. | Learning temporal dynamics for video super-resolution: A deep learning approach | |
Chen et al. | Fast image processing with fully-convolutional networks | |
Ren et al. | Low-light image enhancement via a deep hybrid network | |
US20210209459A1 (en) | Processing method and system for convolutional neural network, and storage medium | |
CN110751649B (zh) | 视频质量评估方法、装置、电子设备及存储介质 | |
Xu et al. | Fully-coupled two-stream spatiotemporal networks for extremely low resolution action recognition | |
CN111835983B (zh) | 一种基于生成对抗网络的多曝光图高动态范围成像方法及系统 | |
Guo et al. | Dense123'color enhancement dehazing network | |
CN112653899A (zh) | 一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法 | |
KR20200140713A (ko) | 이미지 디테일 향상을 위한 신경 네트워크 모델 학습 방법 및 장치 | |
CN110428382A (zh) | 一种用于移动终端的高效视频增强方法、装置和存储介质 | |
CN110958469A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
WO2022022288A1 (zh) | 一种图像处理方法以及装置 | |
CN108875751A (zh) | 图像处理方法和装置、神经网络的训练方法、存储介质 | |
Cao et al. | Adversarial and adaptive tone mapping operator for high dynamic range images | |
CN113763296A (zh) | 图像处理方法、设备以及介质 | |
CN113065645A (zh) | 孪生注意力网络、图像处理方法和装置 | |
Xiang et al. | An effective network with ConvLSTM for low-light image enhancement | |
WO2021094463A1 (en) | An imaging sensor, an image processing device and an image processing method | |
CN113658091A (zh) | 一种图像评价方法、存储介质及终端设备 | |
CN111079864A (zh) | 一种基于优化视频关键帧提取的短视频分类方法及系统 | |
CN108460768B (zh) | 层次化时域切分的视频关注对象分割方法和装置 | |
CN110020639A (zh) | 视频特征提取方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |