CN112132750A - 一种视频处理方法与装置 - Google Patents

一种视频处理方法与装置 Download PDF

Info

Publication number
CN112132750A
CN112132750A CN202011022341.0A CN202011022341A CN112132750A CN 112132750 A CN112132750 A CN 112132750A CN 202011022341 A CN202011022341 A CN 202011022341A CN 112132750 A CN112132750 A CN 112132750A
Authority
CN
China
Prior art keywords
target object
image
determining
interest
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011022341.0A
Other languages
English (en)
Other versions
CN112132750B (zh
Inventor
崔超
朱珊珊
郭常圳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ape Power Future Technology Co Ltd
Original Assignee
Beijing Ape Power Future Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ape Power Future Technology Co Ltd filed Critical Beijing Ape Power Future Technology Co Ltd
Priority to CN202011022341.0A priority Critical patent/CN112132750B/zh
Publication of CN112132750A publication Critical patent/CN112132750A/zh
Application granted granted Critical
Publication of CN112132750B publication Critical patent/CN112132750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种视频处理方法与装置,其中,所述方法包括:采集对待拼接图形的拼接视频,从所述拼接视频中提取关键帧并对所述关键帧进行预处理;将预处理后的所述关键帧输入实例分割模型,由实例分割模型得到识别结果,其中,所述识别结果中包含识别出的图像块;确定所述识别结果中至少一个目标对象对应的图像块的相对位置,由所述相对位置确定所述至少一个目标对象的拼接结果;在所述至少一个目标对象的拼接结果与预定相对位置相同的情况下,保存所述拼接结果,给出拼接提示。本发明提供的一种视频处理方法,通过对关键帧进行识别,确定所述关键帧中目标对象的相对位置,保证了可以对所述关键帧中的目标对象进行快速、准确的识别。

Description

一种视频处理方法与装置
技术领域
本发明涉及互联网技术领域,特别涉及一种视频处理方法与装置。
背景技术
随着人工智能领域的发展,对图像识别的需求也越来越大。
在现有技术中,对图片处理的方法一般包括:对待识别图像进行平滑处理 和canny算子边沿二值化,接着使用多边形逼近算法得到目标图形的轮廓点集, 在HSV空间中进行颜色识别,判断点集所属图像块的类别。根据上述处理方法, 现有技术中存在着对环境光线要求较高、容易受到环境温度影响,从而导致识 别结果不准确并且识别速度缓慢的问题。并且,如何针对待识别图像中的遮挡 物也没有较好的解决方法。
因此,如何解决上述问题,提高图像识别的准确性与图像识别的速度,成 为了技术人员亟需解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种视频处理方法与装置、计算设备和计 算机可读存储介质,以解决现有技术中存在的技术缺陷。
本实施例公开了一种视频处理方法,所述方法包括:
采集对待拼接图形的拼接视频,从所述拼接视频中提取关键帧并对所述关 键帧进行预处理;
将预处理后的所述关键帧输入实例分割模型,由实例分割模型得到识别结 果,其中,所述识别结果中包含识别出的图像块;
确定所述识别结果中至少一个目标对象对应的图像块的相对位置,由所述 相对位置确定所述至少一个目标对象的拼接结果;
在所述至少一个目标对象的拼接结果与预定相对位置相同的情况下,保存 所述拼接结果,给出拼接提示。
可选地,从所述拼接视频中提取关键帧并对所述关键帧进行预处理,包括:
按照预设的时间间隔从所述拼接视频中提取关键帧,并通过获取所述关键 帧中的每个像素的像素值的方式对所述关键帧进行预处理。
可选地,所述实例分割模型包括主干网络、候选区域网络、兴趣区域联盟 网络、类别层和分割层。
可选地,由实例分割模型得到识别结果,包括:
将预处理后的所述关键帧作为待处理图片输入主干网络得到特征图;
将所述特征图输入候选区域网络进行过滤得到标示出感兴趣区域的第一图 像;
将所述第一图像输入兴趣区域联盟网络对所述感兴趣区域进行处理,得到 第二图像;
将所述第二图像输入类别层进行处理,提取至少一个感兴趣区域,通过所 述类别层确定所述感兴趣区域的类型和所述感兴趣区域的数量,将所述感兴趣 区域的类型作为所述类别层的识别结果;
根据所述感兴趣区域的数量确定所述分割层的数量,将所述感兴趣区域分 别输入对应的分割层,通过所述分割层确定至少一个目标对象的边界和遮挡物 的外接框,得到第三图像;
将所述第三图像和所述类别层的识别结果作为所述实例分割模型的识别结 果,其中,所述实例分割模型的识别结果包括所述待处理图像中的图像块的图 形类别、每个目标对象的顶点坐标信息、目标对象的边界、遮挡物和至少一个 目标对象。
可选地,所述主干网络由卷积层、全连接层与输出层构成;
可选地,所述将预处理后的所述关键帧作为待处理图片输入主干网络得到 特征图,包括:
将所述待处理图片输入卷积层,通过对所述待处理图片进行卷积得到第一 残差图像;
将所述第一残差图像输入全连接层进行映射得到第二残差图像;
将所述第二残差图像输入输出层进行指数归一化处理得到特征图。
可选地,将所述特征图输入候选区域网络进行过滤得到标示出感兴趣区域 的第一图像,包括:
通过卷积核对所述特征图进行滑动扫描,为所述特征图中的每一个目标对 象与遮挡物生成第一矩形锚框并提取所述第一矩形锚框的坐标,通过所述第一 矩形锚框标注出感兴趣区域得到第一图像。
将所述第一图像输入兴趣区域联盟网络进行处理,得到第二图像,包括:
基于所述第一图像中的感兴趣区域,确定感兴趣区域参考矩形锚框;
通过所述兴趣区域联盟网络使用双线性插值方法,将所述第一图像的感兴 趣区域均调整至所述参考矩形锚框大小得到第二图像。
可选地,通过所述分割层确定至少一个目标对象的边界,包括:
根据所述第二图像中的每个像素的像素值确定属于相同类别的像素点组成 至少两个连通域点集;
从所述至少两个连通域点集中确定所述至少一个目标对象的图像块和遮挡 物的图像块;
利用多边形逼近方法确定所述至少一个目标对象的边界。
可选地,在利用多边形逼近方法确定所述至少一个目标对象的边界之后, 还包括:
根据所述遮挡物的图像块为所述遮挡物添加外接框;
通过所述遮挡物的外接框以及所述至少一个目标对象的边界确定所述至少 一个目标对象是否完整显示;
在所述至少一个目标对象未完整显示的情况下,使用第一包络线对所述至 少一个目标对象的边界进行标示;
在所述至少一个目标对象完整显示的情况下,使用第二包络线对所述至少 一个目标对象的边界进行标示。
可选地,通过所述遮挡物的外接框以及所述至少一个目标对象的边界确定 所述至少一个目标对象是否完整显示,包括:
在所述遮挡物外接框与所述至少一个目标对象有重叠区域的情况下,确定 所述至少一个目标对象未完整显示;
在所述遮挡物外接框与所述至少一个目标对象没有重叠区域的情况下,确 定所述至少一个目标对象完整显示。
可选地,在所述至少一个目标对象完整显示的情况下,使用第二包络线对 所述至少一个目标对象进行标示之后,所述方法还包括:
根据所述至少一个目标对象的图像块确定所述至少一个目标对象的图形特 征,根据所述至少一个目标对象的图形特征确定所述至少一个目标对象的顶点 数量;
对第二图像中的至少一个目标对象进行编号;
根据所述至少一个目标对象的包络线确定所述至少一个目标对象每条边的 中点,进而确定所述至少一个目标对象的中心点,根据所述中心点确定所述至 少一个目标对象的顶点与所述中心点的相对位置,根据所述顶点与中心点的相 对位置对所述顶点进行编号,得到每个所述目标对象的顶点编号;
将所述至少一个目标对象的包络线、所述遮挡物的外接界方框包络线、每 个目标对象的编号与该目标对象的顶点编号作为所述感兴趣区域的标示信息。
可选地,确定所述识别结果中至少一个目标对象对应的图像块的相对位置, 由所述相对位置确定所述至少一个目标对象的拼接结果,包括:
根据每个目标对象的顶点坐标信息确定所述顶点与所述边的位置关系为顶 点与顶点相邻、顶点与边相邻或不存在相邻关系其中的一种;
将所述至少一个目标对象与所述预定相对位置的顶点与边的位置关系作为 元素分别存储于不同集合中,使用并查集方法在所述集合中确定拼接结果。
可选地,所述给出拼接提示,包括:
将拼接正确的所述目标对象高亮显示,并播放对应的动画效果,未拼接正 确的所述目标对象用灰色显示。
可选地,所述实例分割模型包括主干网络、候选区域网络、兴趣区域联盟 网络、类别层和分割层;
所述实例分割模型通过如下方法训练得到:
获取样本图片与样本标签,对所述样本图片进行预处理,获取所述样本图 像中的每个像素的像素值和与每个像素对应的样本标签,其中,所述样本标签 包括待处理图像中的样本图像块的样本图形类别、目标对象的预测边界、感兴 趣区域的预测类型、样本遮挡物和至少一个样本目标对象;
将预处理后的所述样本图片作为待处理样本图片输入主干网络得到样本特 征图;
将所述样本特征图输入候选区域网络进行过滤得到标示出感兴趣区域的第 一样本图像;
将所述第一样本图像输入兴趣区域联盟网络对所述感兴趣区域进行处理, 得到第二样本图像;
将所述第二样本图像输入类别层进行处理,提取至少一个感兴趣区域,通 过所述类别层确定所述感兴趣区域的类型和所述感兴趣区域的数量,将所述感 兴趣区域的类型作为所述类别层的识别结果;
根据所述感兴趣区域的数量确定所述分割层的数量,将所述感兴趣区域分 别输入对应的分割层,通过所述分割层确定至少一个样本目标对象的预测边界 和样本遮挡物的预测外接框,得到第三图像;
将所述第三图像和所述类别层的识别结果作为所述实例分割模型的预测结 果,其中,所述实例分割模型的预测结果包括预测的所述待处理图像中的样本 图像块的图形类别、每个目标对象的样本顶点坐标信息、目标对象的预测边界、 样本遮挡物和至少一个样本目标对象;
将所述预测结果与样本标签进行对比得到损失值,基于所述损失值调整所 述实例分割模型中的样本参数,直到达到训练停止条件。
本发明实施例公开了一种视频处理装置,所述装置包括:
采集模块,被配置为采集对待拼接图形的拼接视频,从所述拼接视频中提 取关键帧并对所述关键帧进行预处理;
识别模块,被配置为将预处理后的所述关键帧输入实例分割模型,由实例 分割模型得到识别结果,其中,所述识别结果中包含识别出的图像块;
确定模块,被配置为确定所述识别结果中目标对象对应的图像块的相对位 置,由所述相对位置确定所述目标对象的拼接结果;
提示模块,被配置为在所述目标对象的拼接结果与预定相对位置相同的情 况下,保存所述拼接结果,给出拼接正确的提示。
本发明实施例提供的一种视频处理方法,通过将预处理后的关键帧输入实 例分割模型,根据所述实例分割模型得到识别结果,再由识别结果计算得出目 标对象中图像块的相对位置,保证了可以对所述关键帧中的目标对象进行快速、 准确地识别,具有较强的鲁棒性。
另外,在所述实例分割模型中,根据像素类别对待识别图像中的目标对象、 背景与遮挡物进行分类,有效地避免了环境光线、温度变化较大时对实例分割 模型的识别结果产生的干扰与误差,保证了识别过程迅速、简便的有益效果。
其次,对待处理图像中的遮挡物进行识别,保证了识别结果的准确性,解 决了现有技术中无法处理待识别图片中存在遮挡物的问题。
再次,利用图像块顶点与边的相对位置,使用并查集算法计算图像块的相 对位置,使得最终的拼接结果不需要考虑与预定拼接位置保持的整体角度保持 一致,可以应对拼接图像发生的旋转、倾斜的情况,也保证了对于图像块的相 对位置的判断更加具体,识别结果的准确率更高。
附图说明
图1是本发明实例的计算设备的结构示意图。
图2是本发明一实施例的一种视频处理方法的流程示意图。
图3是本发明一实施例的一种视频处理方法的模型结构示意图。
图4是本发明一实施例的双线性插值算法中像素点坐标示意图。
图5是本发明一实施例图像块边界计算示意图。
图6是本发明一实施例的图像块编号与图像块顶点编号结果示意图。
图7是本发明一实施例的图像块相对位置示意图。
图8是本发明实施例的并查集算法示意图。
图9是本发明一实施例的一种视频处理方法的流程示意图。
图10是本发明一实施例的一种视频处理方法的一种场景应用示意图。
图11是本发明一实施例的一种视频处理方法的一种拼接题目示意图。
图12是本发明一实施例的一种视频处理方法的一种拼接过程示意图。
图13是本发明一实施例的一种视频处理方法的标注图像块与遮挡物效果示 意图。
图14是本发明一实施例的一种视频处理方法的拼接结果显示示意图。
图15是本发明一实施例的一种视频处理方法的展示预定位置的效果示意 图。
图16是本发明一实施例的一种视频处理方法的动画效果示意图。
图17是本发明一实施例的一种视频处理装置的模块示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明 能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背 本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的 目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施 例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多 数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个 实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或 所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二 等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类 型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况 下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境, 如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于 确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
残差网络:ResNet(Residual Neural Network)用于解决由于网络深度加深而 产生的学习效率变低,准确率无法有效提升的问题。
Mask-RCNN模型:MASK-RCNN主要由卷积神经网络构成,通过多分支子 网络并行实现端到端的实例分割。
轮廓检测:轮廓检测指在包含目标和背景的数字图像中,忽略背景和目标 内部的纹理以及噪声干扰的影响,采用一定的技术和方法来实现目标轮廓提取 的过程。它是目标检测、形状分析、目标识别和目标跟踪等技术的重要基础。
实例分割:实例分割是计算机视觉的一个基本任务,是物体检测和语义分 割的发展;语义分割的目标是对图形的每个像素进行分类,确定其类别,但是 对同一类别的不同物体不进行区分。实例分割在语义分割的基础上,要区分同 类别中不同物体对象。实现像素级别识别图像中物体对象轮廓的任务。
双线性插值算法:在计算机视觉以及图像处理领域,双线性插值是一种基 本的重采样技术,图像的双线性插值放大算法中,目标图像中新创造的像素值, 是由原图像位置在它附近的2*2区域4个临近像素的值通过加权平均计算得出 的。
多边形逼近算法:道格拉斯-普克算法,该算法也以Douglas-Peucker算法和 迭代终点拟合算法为名。是将曲线近似表示为一系列点,并减少点的数量的一 种算法。
并查集算法:并查集是一种树型的数据结构,用于处理一些不相交集合的 合并及查询问题,并查集算法也称为联合-查找算法。
归一化指数函数:也以Softmax函数命名,作用为:将所有输出值的范围归 纳到[0-1]之间。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算 设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器 110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经 由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、 局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络 的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网 络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN) 无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB) 接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出 的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设 备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技 术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或 移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计 算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如, 智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的 静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本 发明实施例的一种视频处理方法的示意性流程图,包括步骤S201至步骤S204。
步骤S201:采集对待拼接图形的拼接视频,从所述拼接视频中提取关键帧 并对所述关键帧进行预处理。
具体的,按照预设的时间间隔从所述拼接视频中提取关键帧,并获取所述 关键帧中的每个像素的像素值。
进一步地,从所述关键帧的左上角开始逐个识别每一个像素并提取该像素 的像素值,直到扫描到所述关键帧的右下角的最后一个像素。
对所述关键帧进行预处理,对所述关键帧中的每一个像素进行扫描,有利 于所述实例分割模型对关键帧的进一步处理,提高了实例分割模型识别的准确 性。
步骤S202:将预处理后的所述关键帧输入实例分割模型,由实例分割模型 得到识别结果,其中,所述识别结果中包含识别出的图像块。
进一步地,将经过预处理后的所述关键帧作为待处理图片输入主干网络得 到特征图;
将所述特征图输入候选区域网络进行过滤得到标示出感兴趣区域的第一图 像;
将所述第一图像输入感兴趣区域联盟网络对所述感兴趣区域进行处理,得 到第二图像;
将所述第二图像输入类别层进行处理,提取至少一个感兴趣区域,通过所 述类别层确定感兴趣区域的类型和所述感兴趣区域的数量,将所述感兴趣区域 的类型作为所述类别层的识别结果;
根据所述感兴趣区域的数量确定所述分割层的数量,将所述感兴趣区域分 别输入对应的分割层,通过所述分割层确定至少一个目标对象的边界和遮挡物 的外接框,得到第三图像;
将所述第三图像和所述类别层的识别结果作为所述实例分割模型的识别结 果,所述实例分割模型的识别结果包括所述待处理图像中的图像块的图形类别、 每个目标对象的顶点坐标信息、目标对象的边界、遮挡物和至少一个目标对象。
具体地,如图3所示,图3中部分301为待处理图像,图3中部分303为 第一图像,图3中部分306为为第二图像。
所述实例分割模型的具体结构如下:
图3中部分302为主干网络,所述主干网络为残差网络(ResNet101),作 用为克服由于网络结构加深而产生的的学习效率变低、准确率无法进一步提升 的问题。
图3中部分304为候选区域网络,所述候选区域网络为RPN层(Region ProposalNetwork),作用为将特征图进行过滤处理得到感兴趣区域,所述感兴 趣区域为ROI(Regionofinterest)。
图3中部分305为兴趣区域联盟网络,所述兴趣区域联盟网络为ROIAlign, 通过双线性插值算法得到像素值,并根据像素值对感兴趣区域ROI的大小进行 调整。
图3中部分307为类别层,所述类别层为Lcls层,作用为确定感兴趣区域 ROI的类型分别为目标对象、背景与遮挡物。
图3中部分308为分割层,所述分割层为Lmask层,作用为确定目标对象 的具体图形类别,进而通过多边形逼近算法确定所述目标对象的具体边界、目 标对象的包络线、遮挡物的外接框和目标对象的顶点坐标信息。
图3中部分309为所述实例分割模型的第三图像与所述类别层的识别结果。
图3中部分310为所述实例分割模型的输出结果。
进一步地,所述主干网络由卷积层、全连接层与输出层构成;
所述将预处理后的所述关键帧作为待处理图片输入主干网络得到特征图, 包括:
将所述待处理图片输入卷积层,通过对所述待处理图片进行卷积得到第一 残差图像;
将所述第一残差图像输入全连接层进行映射得到第二残差图像:
将所述第二残差图像输入输出层进行指数归一化处理得到特征图。
具体地,所述主干网络ResNet包括5层卷积层、2层全连接层与1层输出 层,所述输出层使用指数归一化函数(SoftMax)对所述第二残差图像进行处理 得到特征图。
进一步地,将所述特征图输入候选区域网络进行过滤得到标示出感兴趣区 域的第一图像,包括:
通过卷积核对所述特征图进行滑动扫描,为所述特征图中的每一个目标对 象与遮挡物生成第一矩形锚框并提取所述第一矩形锚框的坐标,通过所述第一 矩形锚框标注出感兴趣区域得到第一图像。
具体地,所述卷积核大小可以为3*3,步长为3,通过所述目标对象与遮挡 物对应的像素的像素特征区分目标对象、遮挡物与背景,并为每一个所述目标 对象与所述遮挡物生成矩形锚框并提取所述第一矩形锚框的坐标,进而通过所 述矩形锚框坐标标识出与所述目标对象与所述遮挡物对应的感兴趣区域ROI。
通过残差网络ResNet得到特征图,保证了实例分割模型的识别准确性,减 少了图像识别过程中的误差,提升了图像识别的准确性。
进一步地,将所述第一图像输入兴趣区域联盟网络进行处理,得到第二图 像,包括:
基于所述第一图像中的感兴趣区域,确定感兴趣区域参考矩形锚框;
通过所述兴趣区域联盟网络使用双线性插值方法,将所述第一图像的感兴 趣区域均调整至所述参考矩形锚框大小得到第二图像,并提取所述第二图像中 的每个感兴趣区域的矩形的锚框坐标。
具体地,所述兴趣区域联盟网络(ROIAlign)对所述第一图像中的矩形锚 框坐标通过双线性插值算法根据类别层与分割层的输入要求进行映射,所述输 入要求为感兴趣区域参考矩形锚框,调整所述第一图像中的矩形锚框的大小与 所述感兴趣区域参考矩形锚框保持一致,得到相同大小的ROI。
具体地,图4为所述双线性插值算法中像素点位置示意图,所述双线性插 值算法计算步骤如下所示:
若要计算待确定的像素块P的像素值,根据所述待确定的像素块周围的4 个像素块Q11(x1,y1)、Q12(x1,y2)、Q22(x2,y2)、Q21(x2,y1)的像素值确定与所述像素 块P(x,y)在同一条直线上的两个像素块R1(x,y1)和R2(x,y2)的像素值f(R1)和f(R2), 再根据R1和R2的像素值确定像素块P的像素值f(P)。
R1、R2的像素值通过如下式(1)至(4)得到:
Figure BDA0002701048090000141
where R1=(x,y1) (2)
Figure BDA0002701048090000142
where R2=(x,y2) (4)
P的像素值如公式(5)所示:
Figure BDA0002701048090000143
通过所述兴趣区域联盟网络(ROIAlign)使用双线性插值算法调整ROI的 大小,提升了图像检测的精确度,避免了现有技术中取整计算导致的识别误差。
进一步地,通过所述分割层确定至少一个目标对象的边界,包括:
根据所述第二图像中的每个像素的像素值确定属于相同类别的像素点组成 至少两个连通域点集;
从所述至少两个连通域点集中确定所述至少一个目标对象的图像块和遮挡 物的图像块;
利用多边形逼近方法确定所述至少一个目标对象的边界。
具体地,多边形逼近算法示意图如图5所示,在所述图像块的最外侧像素 点中获取像素点A与像素点B,用直线段连接所述像素点A与所述像素点B, 在弧AB上取与直线段AB距离为d的点C,其中,点C为弧AB上与直线段 AB距离最大的点,若距离d小于阈值X,则保留直线段AB作为目标对象的一 条边;
若距离d大于或等于阈值X,则用直线段连接AC与AB,重复上述步骤直 到距离d小于阈值X,将最终获得的直线段作为目标对象的一条边;
在得到所述目标对象的所有边后,将所有确定边的像素点作为顶点,根据 所述边的位置确定所述目标对象的顶点的坐标信息;
若所述目标对象的顶点数量与根据所述边的位置确定的所述目标对象的顶 点的数量不一致,则调整阈值X重新确定所述目标对象的边,直到所述目标对 象的顶点数量与计算得出的数量一致。
利用多边形逼近算法,可以准确地计算出图像块的具体边界,保障了图像 识别的准确性。
进一步地,在利用多边形逼近方法确定所述至少一个目标对象的边界之后, 还包括:
根据所述遮挡物的图像块为所述遮挡物添加外接框;
通过所述遮挡物的外接框以及所述至少一个目标对象的边界确定所述至少 一个目标对象是否完整显示;
在所述至少一个目标对象未完整显示的情况下,使用第一包络线对所述至 少一个目标对象的边界进行标示;
在所述至少一个目标对象完整显示的情况下,使用第二包络线对所述至少 一个目标对象的边界进行标示。
需要说明的是,在实际应用中,上述根据所述遮挡物的图像块为所述遮挡 物添加外接框这一步骤可以由分割层进行。
通过所述遮挡物的外接框以及所述至少一个目标对象的边界确定所述至少 一个目标对象是否完整显示,包括:
在所述遮挡物外接框与所述至少一个目标对象有重叠区域的情况下,确定 所述至少一个目标对象未完整显示;
在所述遮挡物外接框与所述至少一个目标对象没有重叠区域的情况下,确 定所述至少一个目标对象完整显示。
通过对遮挡物进行标识,有效地提高了图像识别的准确性,克服了现有技 术中无法处理包含遮挡物的场景,对被遮挡物遮挡的目标对象使用虚线包络线 进行标识,提高了被遮挡的目标对象的识别度,有效地对完整显示的目标对象 与未完整的目标对象进行了区分,提高了最终结果的识别度。
进一步地,在所述至少一个目标对象完整显示的情况下,使用第二包络线 对所述至少一个目标对象进行标示之后,所述方法还包括:
所述至少一个目标对象的图像块确定所述至少一个目标对象的图形特征, 根据所述至少一个目标对象的图形特征确定所述至少一个目标对象的顶点数 量;
对第二图像中的至少一个目标对象进行编号;
根据所述至少一个目标对象的包络线确定所述至少一个目标对象每条边的 中点,进而确定所述至少一个目标对象的中心点,根据所述中心点确定所述至 少一个目标对象的顶点与所述中心点的相对位置,根据所述顶点与中心点的相 对位置对所述顶点进行编号,得到每个所述目标对象的顶点编号;
将所述至少一个目标对象的包络线、所述遮挡物的外接界方框包络线、每 个目标对象的编号与该目标对象的顶点编号作为所述感兴趣区域的标示信息。
需要说明的是,在实际应用中,上述确定目标对象的顶点数量、对目标对 象进行编号、获取顶点编号以及获取标示信息的步骤可以由分割层进行。
如图6所示,所述目标对象从0开始进行编号,左侧三角形为第一个进行 编号的目标对象,编号为0,右侧三角形为第二个进行编号的目标对象,编号为 1。
如图6所示,所述目标对象从0开始进行编号,左侧三角形为第一个进行 编号的目标对象,编号为0,中间正方形为第二个进行编号的目标对象,编号为 1,右侧的平行四边形为第三个进行编号的目标对象,编号为2。
根据所述目标对象的包络线确定所述目标对象每条边的中点,进而确定所 述目标对象的中心点,根据所述中心点确定所述目标对象的顶点与所述中心点 的相对位置,根据所述顶点与中心点的相对位置对所述顶点进行编号,得到每 个所述目标对象的顶点编号;
具体地,若所述目标对象为直角三角形,则取所述目标对象包络线其中相 邻的两条边的中点,将所述两条边的中点分别和与其相对的顶点连接得到两条 连接线,将所述两条连接线的交点作为所述目标对象的中心点;
若所述目标对象为正方形或平行四边形,则分别连接两个不相邻的顶点得 到两条连接线,将所述两条连接线的交点作为所述目标对象的中心点。
进一步地,如图6所示,按照预设的顺序对所述目标对象的顶点进行编号。
具体地,编号规则为:
若所述目标对象的形状为直角三角形,如图6中图形0所示,则以直角顶 点开始,顺时针从1至3对顶点依次编号;
若所述目标对象的形状为正方形,如图6中图形1所示,则从相对于中心 点的左上角顶点开始,按照顺时针顺序从1至4对顶点依次编号。
若所述目标对象的形状为平行四边形,如图6中图形2所示,则从相对于 中心点的左上角开始,按照逆时针顺序从1至4对顶点依次编号。
对目标对象进行编号,并按照图形中心点的相对位置对所述目标对象的顶 点进行编号,可以清晰地表示出目标对象的顶点位置,有助于进一步判断目标 对象之间的相对位置,也保证了所述目标对象的顶点编号不会因为编号数字相 同产生混淆。
S203:确定所述识别结果中至少一个目标对象对应的图像块的相对位置, 由所述相对位置确定所述至少一个目标对象的拼接结果。
进一步地,根据所述顶点与所述边的坐标信息确定所述顶点与所述边的位 置关系为顶点与顶点相邻、顶点与边相邻或不存在相邻关系其中的一种;
具体地,所述相对位置关系如图7所示,其中,图形A中的相对位置关系 为点与边相邻,图形B中的相对位置关系为点与点相邻,图形C中的相对位置 关系为不存在相邻关系。
将所述目标对象与所述预定位置的顶点与边的位置关系作为元素分别存储 于不同集合中,使用并查集方法在所述集合中确定拼接结果。
具体地,并查集算法步骤示意图如图8所示,并查集算法的计算步骤如下 所示:
以正方形为主体,将正方形图像块顶点:点1与三角形图像块顶点:点2 的相邻位置关系作为元素存储于集合A中;
以三角形为主体,将正方形图像块顶点:点1与三角形图像块顶点:点2 的相邻位置关系作为元素存储于集合B中;
将预定相对位置中图像块的相邻位置关系作为元素存储于集合C中,查找 集合A与集合B中是否包含属于同一父节点的元素,若有,则将集合A与集合 B合并得到新集合D,对比新集合D与集合C中的元素,若相符,则保存新集 合D,确定所述图像块拼接正确;
将所述新集合D中图像块的相邻位置关系作为拼接结果。
使用并查集算法确定拼接结果,保证了得到最终结果的速度快、准确率高, 也保证了在所述目标对象与预定拼接位置存在旋转、角度偏差但目标对象之前 的相对位置满足预定拼接位置时,也能够正确的识别拼接结果,具有较强的鲁 棒性。
步骤S204:在所述至少一个目标对象的拼接结果与预定相对位置相同的情 况下,保存所述拼接结果,给出拼接提示。
进一步地,将拼接正确的所述目标对象高亮显示,并播放对应的动画效果, 未拼接正确的所述目标对象用灰色显示。
具体地,将符合拼接要求的目标对象使用高亮显示,并在符合拼接要求的 目标对象上显示对应的动画效果,未完成拼接的图像块使用低亮度显示。
进一步地,在所述目标对象拼接的过程中,每完成一个所述目标对象的拼 接,将当前拼接的结果与预定位置进行对比,判断当前所述目标对象的拼接进 度。
如图9所示,本发明一实施例以七巧板的拼接互动游戏为例,对本发明的 实施例提供的视频处理方法进行说明。
需要说明的是,在本实施例中,通过手机显示需要完成的拼接题目,录制 拼接过程、给出拼接正确时的提示并保存识别结果,本实施例中的目标对象为 待拼接的七巧板。
步骤S901:由手机展示拼接题目。
如图10所示,图中部分1001为手机,图中部分10022为反光镜装置,图 中部分1003为手机前置摄像头,部分1004为手机支架,部分1005为七巧板的 拼接区域。
将手机置于支架上,在手机的前置摄像头处添加反光镜装置。
如图11所示,由手机屏幕显示七巧板的拼接题目,所述拼接题目为预定的 拼接位置。
步骤S902:移动七巧板,对七巧板进行拼接,直到与拼接题目中匹配。
具体地,如图12所示,在移动七巧板的过程中,由手机前置摄像头实时录 制拼接视频并采集关键帧,在所述视频中提取关键帧,将所述关键帧输入实例 分割模型中进行识别得到拼接结果。
根据拼接结果判断七巧板的位置是否与拼接题目中的位置匹配,若不匹配, 则继续移动七巧板直到与拼接题目匹配为止。
具体地,按照预设的时间间隔从录制的视频中提取关键帧。例如,手机前 置摄像头按照每隔1秒的时间间隔与每秒3帧提取频率提取所述关键帧。
按照预设的时间间隔提取关键帧,实现了可以与拼接进程同步、即时提取 关键帧的效果,确保了本发明方法的互动性与时效性,也保证了可以快速提取 待识别图像的效果。
具体地,本实施例中利用Mask-RCNN模型对关键帧进行实例分割,其中, 骨干网络由残差网络ResNet101构成。
在移动七巧板的过程中,还包括识别七巧板的形状、顶点数量、顶点编号 与完整状态,还可以根据像素类别对遮挡物进行识别。
如图13所示,图13为一张识别完成的关键帧,包括每一块七巧板的形状、 定点编号、遮挡物、遮挡物的外接框以及七巧板的包络线。
其中,对关键帧中的遮挡物“手”利用外接框进行识别与标注,对于被遮 挡物覆盖的、不能完整显示的七巧板使用虚线包络线标注,未被遮挡物覆盖、 完整的七巧板使用实线包络线标注。
根据像素类别识别关键帧中的遮挡物,保证了识别结果的准确性,解决了 现有技术中无法处理待识别图像中存在遮挡物的问题。
步骤S903:在手机上显示当前七巧板拼接状态。
具体地,如图14所示,已经拼接完成的七巧板使用高亮显示,未拼接完成 的七巧板使用灰度显示。
通过分别按照不同显示效果在终端展示当前的拼接进度,保证了互动性与 实时性,有较好的交互效果。
步骤S904:所有七巧板拼接完成后,保存拼接结果,播放相应的动画效果。
具体地,如图15所示,在确认当前拼接结果与拼接题目能够正确对应后, 保存当前的拼接结果,在手机端高亮显示拼接完成的七巧板。
在保存拼接结果后,如图16所示,在手机端的每一块正确拼接的七巧板上 播放动画效果,未完成拼接的七巧板灰度显示。需要说明的是,本实施例中通 过采用显示特殊动画效果的方式对七巧板进行高亮显示,不对目标对象高亮显 示的方法进行限定。
根据拼接结果展示动画效果,增加了本发明与用户的互动性,保证了在使 用过程中生动、活泼,具有良好的娱乐与教育效果。
残差网络本发明一实施例公开了一种视频处理装置,参见图17,包括:
采集模块1701,被配置为采集对待拼接图形的拼接视频,从所述拼接视频 中提取关键帧并对所述关键帧进行预处理;
识别模块1702,被配置为将预处理后的所述关键帧输入实例分割模型,由 实例分割模型得到识别结果,其中,所述识别结果中包含识别出的图像块;
确定模块1703,被配置为确定所述识别结果中至少一个目标对象对应的图 像块的相对位置,由所述相对位置确定所述至少一个目标对象的拼接结果;
提示模块1704,被配置为在所述至少一个目标对象的拼接结果与预定相对 位置相同的情况下,保存所述拼接结果,给出拼接提示。
可选地,所述采集模块1701包括:
按照预设的时间间隔从所述拼接视频中提取关键帧,并获取所述关键帧中 的每个像素的像素值。
可选地,所述识别模块1702包括:
将预处理后的所述关键帧作为待处理图片输入主干网络得到特征图;
将所述特征图输入候选区域网络进行过滤得到标示出感兴趣区域的第一图 像;
将所述第一图像输入兴趣区域联盟网络对所述感兴趣区域进行处理,得到 第二图像;
将所述第二图像输入类别层进行处理,提取至少一个感兴趣区域,通过所 述类别层确定感兴趣区域的类型和所述感兴趣区域的数量,将所述感兴趣区域 的类型作为所述类别层的识别结果;
根据所述感兴趣区域的数量确定所述分割层的数量,将所述感兴趣区域分 别输入对应的分割层,通过所述分割层确定至少一个目标对象的边界和遮挡物 的外接框,得到第三图像;
将所述第三图像和所述类别层的识别结果作为所述实例分割模型的识别结 果,其中,所述实例分割模型的识别结果包括所述待处理图像中的图像块的图 形类别、每个目标对象的顶点坐标信息、目标对象的边界、遮挡物和至少一个 目标对象。
进一步地,所述主干网络由卷积层、全连接层与输出层构成。
可选地,所述将预处理后的所述关键帧作为待处理图片输入主干网络得到 特征图,包括:
将所述待处理图片输入卷积层,通过对所述待处理图片进行卷积得到第一 残差图像;
将所述第一残差图像输入全连接层进行映射得到第二残差图像;
将所述第二残差图像输入输出层进行指数归一化处理得到特征图。
可选地,将所述特征图输入候选区域网络进行过滤得到标示出感兴趣区域 的第一图像,包括:
通过卷积核对所述特征图进行滑动扫描,为所述特征图中的每一个目标对 象与遮挡物生成第一矩形锚框并提取所述第一矩形锚框的坐标,通过所述第一 矩形锚框标注出感兴趣区域得到第一图像。
可选地,将所述第一图像输入兴趣区域联盟网络进行处理,得到第二图像, 包括:
基于所述第一图像中的感兴趣区域,确定感兴趣区域参考矩形锚框;
通过所述兴趣区域联盟网络使用双线性插值方法,将所述第一图像的感兴 趣区域均调整至所述参考矩形锚框大小得到第二图像。
可选地,通过所述分割层确定至少一个目标对象的边界,包括:
根据所述第二图像中的每个像素的像素值确定属于相同类别的像素点组成 至少两个连通域点集;
从所述至少两个连通域点集中确定所述至少一个目标对象的图像块和遮挡 物的图像块;
利用多边形逼近方法确定所述至少一个目标对象的边界。
可选地,在利用多边形逼近方法确定所述至少一个目标对象的边界之后, 还包括:
根据所述遮挡物的图像块为所述遮挡物添加外接框;
通过所述遮挡物的外接框以及所述至少一个目标对象的边界确定所述至少 一个目标对象是否完整显示;
在所述至少一个目标对象未完整显示的情况下,使用第一包络线对所述至 少一个目标对象的边界进行标示;
在所述至少一个目标对象完整显示的情况下,使用第二包络线对所述至少 一个目标对象的边界进行标示。
可选地,通过所述遮挡物的外接框以及所述至少一个目标对象的边界确定 所述至少一个目标对象是否完整显示,包括:
在所述遮挡物外接框与所述至少一个目标对象有重叠区域的情况下,确定 所述至少一个目标对象未完整显示;
在所述遮挡物外接框与所述至少一个目标对象没有重叠区域的情况下,确 定所述至少一个目标对象完整显示。
可选地,在所述至少一个目标对象完整显示的情况下,使用第二包络线对 所述至少一个目标对象进行标示之后,所述方法还包括:
根据所述至少一个目标对象的图像块确定所述至少一个目标对象的图形特 征,根据所述至少一个目标对象的图形特征确定所述至少一个目标对象的顶点 数量;
对第二图像中的至少一个目标对象进行编号;
根据所述至少一个目标对象的包络线确定所述至少一个目标对象每条边的 中点,进而确定所述至少一个目标对象的中心点,根据所述中心点确定所述至 少一个目标对象的顶点与所述中心点的相对位置,根据所述顶点与中心点的相 对位置对所述顶点进行编号,得到每个所述目标对象的顶点编号;
将所述至少一个目标对象的包络线、所述遮挡物的外接界方框包络线、每 个目标对象的编号与该目标对象的顶点编号作为所述感兴趣区域的标示信息。
可选地,所述确定模块1703包括:
根据每个目标对象的顶点坐标信息确定所述顶点与所述边的位置关系为顶 点与顶点相邻、顶点与边相邻或不存在相邻关系其中的一种;
将所述至少一个目标对象与所述预定相对位置的顶点与边的位置关系作为 元素分别存储于不同集合中,使用并查集方法在所述集合中确定拼接结果。
可选地,所述提示模块1704包括:
将拼接正确的所述目标对象高亮显示,并播放对应的动画效果,未拼接正 确的所述目标对象用灰色显示。
可选地,所述装置还包括训练模块1705。
可选地,所述训练模块1705被配置为:
获取样本图片与样本标签,对所述样本图片进行预处理,获取所述样本图 像中的每个像素的像素值和与每个像素对应的样本标签,其中,所述样本标签 包括待处理图像中的样本图像块的样本图形类别、目标对象的预测边界、感兴 趣区域的预测类型、样本遮挡物和至少一个样本目标对象;
将预处理后的所述样本图片作为待处理样本图片输入主干网络得到样本特 征图;
将所述样本特征图输入候选区域网络进行过滤得到标示出感兴趣区域的第 一样本图像;
将所述第一样本图像输入兴趣区域联盟网络对所述感兴趣区域进行处理, 得到第二样本图像;
将所述第二样本图像输入类别层进行处理,提取至少一个感兴趣区域,通 过所述类别层确定所述感兴趣区域的类型和所述感兴趣区域的数量,将所述感 兴趣区域的类型作为所述类别层的识别结果;
根据所述感兴趣区域的数量确定所述分割层的数量,将所述感兴趣区域分 别输入对应的分割层,通过所述分割层确定至少一个样本目标对象的预测边界 和样本遮挡物的预测外接框,得到第三图像;
将所述第三图像和所述类别层的识别结果作为所述实例分割模型的预测结 果,其中,所述实例分割模型的预测结果包括预测的所述待处理图像中的样本 图像块的图形类别、每个目标对象的样本顶点坐标信息、目标对象的预测边界、 样本遮挡物和至少一个样本目标对象;
将所述预测结果与样本标签进行对比得到损失值,基于所述损失值调整所 述实例分割模型中的样本参数,直到达到训练停止条件。
本发明一实施例提供的一种视频处理装置,通过将预处理后的关键帧输入 实例分割模型,根据所述实例分割模型得到识别结果,再由识别结果计算得出 目标对象中图像块的相对位置,保证了可以对所述关键帧中的目标对象进行快 速、准确地识别。
另外,在所述实例分割模型中,根据像素类别对待识别图像中的目标对象、 背景与遮挡物进行分类,有效地避免了环境光线、温度变化较大时对实例分割 模型的识别结果产生的干扰与误差,保证了识别过程迅速、简便的有益效果, 具有较强的鲁棒性。
其次,对待处理图像中的遮挡物进行识别,保证了识别结果的准确性,解 决了现有技术中无法处理待识别图片中存在遮挡物的问题。
再次,利用图像块顶点与边的相对位置,使用并查集算法计算图像块的相 对位置,使得最终的拼接结果不需要考虑与预定拼接位置保持的整体角度保持 一致,可以应对拼接图像发生的旋转、倾斜的情况,也保证了对于图像块的相 对位置的判断更加具体,识别结果的准确率更高。
本实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令 被处理器执行时实现如前所述的一种视频处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是, 该存储介质的技术方案与上述的一种视频处理方法技术方案属于同一构思,存 储介质的技术方案未详细描述的细节内容,均可以参见上述一种视频处理方法 的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码 形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可 以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、 移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、 随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以 及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据 司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区, 根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述 为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的 动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。 其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施 例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详 述的部分,可以参见其它实施例的相关描述。
以上公开的本发明优选实施例只是用于帮助阐述本发明。可选实施例并没 有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根 据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实 施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术 人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效 物的限制。

Claims (16)

1.一种视频处理方法,其特征在于,所述方法包括:
采集对待拼接图形的拼接视频,从所述拼接视频中提取关键帧并对所述关键帧进行预处理;
将预处理后的所述关键帧输入实例分割模型,由实例分割模型得到识别结果,其中,所述识别结果中包含识别出的图像块;
确定所述识别结果中至少一个目标对象对应的图像块的相对位置,由所述相对位置确定所述至少一个目标对象的拼接结果;
在所述至少一个目标对象的拼接结果与预定相对位置相同的情况下,保存所述拼接结果,给出拼接提示。
2.如权利要求1所述的方法,其特征在于,从所述拼接视频中提取关键帧并对所述关键帧进行预处理,包括:
按照预设的时间间隔从所述拼接视频中提取关键帧,并通过获取所述关键帧中的每个像素的像素值的方式对所述关键帧进行预处理。
3.如权利要求2所述的方法,其特征在于,所述实例分割模型包括主干网络、候选区域网络、兴趣区域联盟网络、类别层和分割层;
由实例分割模型得到识别结果,包括:
将预处理后的所述关键帧作为待处理图片输入主干网络得到特征图;
将所述特征图输入候选区域网络进行过滤得到标示出感兴趣区域的第一图像;
将所述第一图像输入兴趣区域联盟网络对所述感兴趣区域进行处理,得到第二图像;
将所述第二图像输入类别层进行处理,提取至少一个感兴趣区域,通过所述类别层确定所述感兴趣区域的类型和所述感兴趣区域的数量,将所述感兴趣区域的类型作为所述类别层的识别结果;
根据所述感兴趣区域的数量确定所述分割层的数量,将所述感兴趣区域分别输入对应的分割层,通过所述分割层确定至少一个目标对象的边界和遮挡物的外接框,得到第三图像;
将所述第三图像和所述类别层的识别结果作为所述实例分割模型的识别结果,其中,所述实例分割模型的识别结果包括所述待处理图像中的图像块的图形类别、每个目标对象的顶点坐标信息、目标对象的边界、遮挡物和至少一个目标对象。
4.如权利要求3所述的方法,其特征在于,其中,所述主干网络由卷积层、全连接层与输出层构成;
将预处理后的所述关键帧作为待处理图片输入主干网络得到特征图,包括:
将所述待处理图片输入卷积层,通过对所述待处理图片进行卷积得到第一残差图像;
将所述第一残差图像输入全连接层进行映射得到第二残差图像;
将所述第二残差图像输入输出层进行指数归一化处理得到特征图。
5.如权利要求3所述的方法,其特征在于,将所述特征图输入候选区域网络进行过滤得到标示出感兴趣区域的第一图像,包括:
通过卷积核对所述特征图进行滑动扫描,为所述特征图中的每一个目标对象与遮挡物生成第一矩形锚框并提取所述第一矩形锚框的坐标,通过所述第一矩形锚框标注出感兴趣区域得到第一图像。
6.如权利要求3所述的方法,其特征在于,将所述第一图像输入兴趣区域联盟网络进行处理,得到第二图像,包括:
基于所述第一图像中的感兴趣区域,确定感兴趣区域参考矩形锚框;
通过所述兴趣区域联盟网络使用双线性插值方法,将所述第一图像的感兴趣区域均调整至所述参考矩形锚框大小得到第二图像。
7.如权利要求3所述的方法,其特征在于,通过所述分割层确定至少一个目标对象的边界,包括:
根据所述第二图像中的每个像素的像素值确定属于相同类别的像素点组成至少两个连通域点集;
从所述至少两个连通域点集中确定所述至少一个目标对象的图像块和遮挡物的图像块;
利用多边形逼近方法确定所述至少一个目标对象的边界。
8.如权利要求7所述的方法,其特征在于,在利用多边形逼近方法确定所述至少一个目标对象的边界之后,还包括:
根据所述遮挡物的图像块为所述遮挡物添加外接框;
通过所述遮挡物的外接框以及所述至少一个目标对象的边界确定所述至少一个目标对象是否完整显示;
在所述至少一个目标对象未完整显示的情况下,使用第一包络线对所述至少一个目标对象的边界进行标示;
在所述至少一个目标对象完整显示的情况下,使用第二包络线对所述至少一个目标对象的边界进行标示。
9.如权利要求8所述的方法,其特征在于,通过所述遮挡物的外接框以及所述至少一个目标对象的边界确定所述至少一个目标对象是否完整显示,包括:
在所述遮挡物外接框与所述至少一个目标对象有重叠区域的情况下,确定所述至少一个目标对象未完整显示;
在所述遮挡物外接框与所述至少一个目标对象没有重叠区域的情况下,确定所述至少一个目标对象完整显示。
10.如权利要求8所述的方法,其特征在于,在所述至少一个目标对象完整显示的情况下,使用第二包络线对所述至少一个目标对象进行标示之后,所述方法还包括:
根据所述至少一个目标对象的图像块确定所述至少一个目标对象的图形特征,根据所述至少一个目标对象的图形特征确定所述至少一个目标对象的顶点数量;
对第二图像中的至少一个目标对象进行编号;
根据所述至少一个目标对象的包络线确定所述至少一个目标对象每条边的中点,进而确定所述至少一个目标对象的中心点,根据所述中心点确定所述至少一个目标对象的顶点与所述中心点的相对位置,根据所述顶点与中心点的相对位置对所述顶点进行编号,得到每个所述目标对象的顶点编号;
将所述至少一个目标对象的包络线、所述遮挡物的外接界方框包络线、每个目标对象的编号与该目标对象的顶点编号作为所述感兴趣区域的标示信息。
11.如权利要求3所述的方法,其特征在于,确定所述识别结果中至少一个目标对象对应的图像块的相对位置,由所述相对位置确定所述至少一个目标对象的拼接结果,包括:
根据每个目标对象的顶点坐标信息确定所述顶点与所述边的位置关系为顶点与顶点相邻、顶点与边相邻或不存在相邻关系其中的一种;
将所述至少一个目标对象与所述预定相对位置的顶点与边的位置关系作为元素分别存储于不同集合中,使用并查集方法在所述集合中确定拼接结果。
12.如权利要求1所述的方法,其特征在于,所述给出拼接提示,包括:
将拼接正确的所述目标对象高亮显示,并播放对应的动画效果,未拼接正确的所述目标对象用灰色显示。
13.如权利要求1所述的方法,其特征在于,所述实例分割模型包括主干网络、候选区域网络、兴趣区域联盟网络、类别层和分割层;
所述实例分割模型通过如下方法训练得到:
获取样本图片,对所述样本图片进行预处理,获取所述样本图像中的每个像素的像素值和与每个像素对应的样本标签,其中,所述样本标签包括待处理图像中的样本图像块的图形类别、目标对象的预测边界、感兴趣区域的类型、样本遮挡物和至少一个样本目标对象;
将预处理后的所述样本图片作为待处理样本图片输入主干网络得到样本特征图;
将所述样本特征图输入候选区域网络进行过滤得到标示出感兴趣区域的第一样本图像;
将所述第一样本图像输入兴趣区域联盟网络对所述感兴趣区域进行处理,得到第二样本图像;
将所述第二样本图像输入类别层进行处理,提取至少一个感兴趣区域,通过所述类别层确定所述感兴趣区域的类型和所述感兴趣区域的数量,将所述感兴趣区域的类型作为所述类别层的识别结果;
根据所述感兴趣区域的数量确定所述分割层的数量,将所述感兴趣区域分别输入对应的分割层,通过所述分割层确定至少一个样本目标对象的预测边界和样本遮挡物的预测外接框,得到第三图像;
将所述第三图像和所述类别层的识别结果作为所述实例分割模型的预测结果,其中,所述实例分割模型的预测结果包括预测的所述待处理图像中的图像块的图形类别、每个目标对象的样本顶点坐标信息、目标对象的预测边界、遮挡物和至少一个样本目标对象;
将所述预测结果与样本标签进行对比得到损失值,基于所述损失值调整所述实例分割模型中的样本参数,直到达到训练停止条件。
14.一种视频处理装置,其特征在于,所述装置包括:
采集模块,被配置为采集对待拼接图形的拼接视频,从所述拼接视频中提取关键帧并对所述关键帧进行预处理;
识别模块,被配置为将预处理后的所述关键帧输入实例分割模型,由实例分割模型得到识别结果,其中,所述识别结果中包含识别出的图像块;
确定模块,被配置为确定所述识别结果中至少一个目标对象对应的图像块的相对位置,由所述相对位置确定所述至少一个目标对象的拼接结果;
提示模块,被配置为在所述至少一个目标对象的拼接结果与预定相对位置相同的情况下,保存所述拼接结果,给出拼接提示。
15.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-13任意一项所述方法的步骤。
16.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-13任意一项所述方法的步骤。
CN202011022341.0A 2020-09-25 2020-09-25 一种视频处理方法与装置 Active CN112132750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011022341.0A CN112132750B (zh) 2020-09-25 2020-09-25 一种视频处理方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011022341.0A CN112132750B (zh) 2020-09-25 2020-09-25 一种视频处理方法与装置

Publications (2)

Publication Number Publication Date
CN112132750A true CN112132750A (zh) 2020-12-25
CN112132750B CN112132750B (zh) 2024-04-09

Family

ID=73840012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011022341.0A Active CN112132750B (zh) 2020-09-25 2020-09-25 一种视频处理方法与装置

Country Status (1)

Country Link
CN (1) CN112132750B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160257A (zh) * 2021-04-23 2021-07-23 深圳市优必选科技股份有限公司 图像数据标注方法、装置、电子设备及存储介质
CN113256656A (zh) * 2021-05-28 2021-08-13 北京达佳互联信息技术有限公司 图像分割方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378348A (zh) * 2019-07-11 2019-10-25 北京悉见科技有限公司 视频实例分割方法、设备及计算机可读存储介质
CN110443173A (zh) * 2019-07-26 2019-11-12 华中科技大学 一种基于帧间关系的视频实例分割方法及系统
WO2019228267A1 (zh) * 2018-05-28 2019-12-05 广州虎牙信息科技有限公司 短视频的合成方法、装置、设备及存储介质
US20200074222A1 (en) * 2018-08-31 2020-03-05 Alibaba Group Holding Limited System and method for performing image processing based on a damage assessment image judgement model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019228267A1 (zh) * 2018-05-28 2019-12-05 广州虎牙信息科技有限公司 短视频的合成方法、装置、设备及存储介质
US20200074222A1 (en) * 2018-08-31 2020-03-05 Alibaba Group Holding Limited System and method for performing image processing based on a damage assessment image judgement model
CN110378348A (zh) * 2019-07-11 2019-10-25 北京悉见科技有限公司 视频实例分割方法、设备及计算机可读存储介质
CN110443173A (zh) * 2019-07-26 2019-11-12 华中科技大学 一种基于帧间关系的视频实例分割方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宁煜西;周铭;李广强;王宁;: "民航航班跟踪视频关键帧提取方法研究", 空军预警学院学报, no. 03 *
陈雪涛;穆春阳;马行;: "基于SURF和改进RANSAC的视频拼接算法", 现代电子技术, no. 10 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160257A (zh) * 2021-04-23 2021-07-23 深圳市优必选科技股份有限公司 图像数据标注方法、装置、电子设备及存储介质
CN113160257B (zh) * 2021-04-23 2024-01-16 深圳市优必选科技股份有限公司 图像数据标注方法、装置、电子设备及存储介质
CN113256656A (zh) * 2021-05-28 2021-08-13 北京达佳互联信息技术有限公司 图像分割方法和装置

Also Published As

Publication number Publication date
CN112132750B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
CN112348815B (zh) 图像处理方法、图像处理装置以及非瞬时性存储介质
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
CN110866871A (zh) 文本图像矫正方法、装置、计算机设备及存储介质
CN110874594A (zh) 基于语义分割网络的人体外表损伤检测方法及相关设备
US20130223740A1 (en) Salient Object Segmentation
CN107798725B (zh) 基于Android的二维住房户型识别和三维呈现方法
CN110180186A (zh) 一种地形图转换方法及系统
CN112418216A (zh) 一种复杂自然场景图像中的文字检测方法
CN110443235B (zh) 一种智能纸质试卷总分识别方法及系统
CN111178355A (zh) 印章识别方法、装置和存储介质
CN106407978B (zh) 一种结合似物度的无约束视频中显著物体检测方法
CN111652142A (zh) 基于深度学习的题目分割方法、装置、设备和介质
CN112132750B (zh) 一种视频处理方法与装置
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN111027538A (zh) 一种基于实例分割模型的集装箱检测方法
CN111652140A (zh) 基于深度学习的题目精准分割方法、装置、设备和介质
CN113033558A (zh) 一种用于自然场景的文本检测方法及装置、存储介质
CN113591719A (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN115035581A (zh) 面部表情识别方法、终端设备及存储介质
CN112907569A (zh) 头部图像区域的分割方法、装置、电子设备和存储介质
CN109215047B (zh) 基于深海视频的运动目标检测方法和装置
CN109658523A (zh) 利用ar增强现实应用实现车辆各功能使用说明的方法
CN113591850A (zh) 基于计算机视觉鲁棒性目标检测的两阶段商标检测法
CN117541546A (zh) 图像裁剪效果的确定方法和装置、存储介质及电子设备
CN116798041A (zh) 图像识别方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant