CN112132750A

CN112132750A - 一种视频处理方法与装置

Info

Publication number: CN112132750A
Application number: CN202011022341.0A
Authority: CN
Inventors: 崔超; 朱珊珊; 郭常圳
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-12-25
Anticipated expiration: 2040-09-25
Also published as: CN112132750B

Abstract

本发明提供一种视频处理方法与装置，其中，所述方法包括：采集对待拼接图形的拼接视频，从所述拼接视频中提取关键帧并对所述关键帧进行预处理；将预处理后的所述关键帧输入实例分割模型，由实例分割模型得到识别结果，其中，所述识别结果中包含识别出的图像块；确定所述识别结果中至少一个目标对象对应的图像块的相对位置，由所述相对位置确定所述至少一个目标对象的拼接结果；在所述至少一个目标对象的拼接结果与预定相对位置相同的情况下，保存所述拼接结果，给出拼接提示。本发明提供的一种视频处理方法，通过对关键帧进行识别，确定所述关键帧中目标对象的相对位置，保证了可以对所述关键帧中的目标对象进行快速、准确的识别。

Description

一种视频处理方法与装置

技术领域

本发明涉及互联网技术领域，特别涉及一种视频处理方法与装置。

背景技术

随着人工智能领域的发展，对图像识别的需求也越来越大。

在现有技术中，对图片处理的方法一般包括：对待识别图像进行平滑处理和canny算子边沿二值化，接着使用多边形逼近算法得到目标图形的轮廓点集，在HSV空间中进行颜色识别，判断点集所属图像块的类别。根据上述处理方法，现有技术中存在着对环境光线要求较高、容易受到环境温度影响，从而导致识别结果不准确并且识别速度缓慢的问题。并且，如何针对待识别图像中的遮挡物也没有较好的解决方法。

因此，如何解决上述问题，提高图像识别的准确性与图像识别的速度，成为了技术人员亟需解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种视频处理方法与装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本实施例公开了一种视频处理方法，所述方法包括：

采集对待拼接图形的拼接视频，从所述拼接视频中提取关键帧并对所述关键帧进行预处理；

将预处理后的所述关键帧输入实例分割模型，由实例分割模型得到识别结果，其中，所述识别结果中包含识别出的图像块；

确定所述识别结果中至少一个目标对象对应的图像块的相对位置，由所述相对位置确定所述至少一个目标对象的拼接结果；

在所述至少一个目标对象的拼接结果与预定相对位置相同的情况下，保存所述拼接结果，给出拼接提示。

可选地，从所述拼接视频中提取关键帧并对所述关键帧进行预处理，包括：

按照预设的时间间隔从所述拼接视频中提取关键帧，并通过获取所述关键帧中的每个像素的像素值的方式对所述关键帧进行预处理。

可选地，所述实例分割模型包括主干网络、候选区域网络、兴趣区域联盟网络、类别层和分割层。

可选地，由实例分割模型得到识别结果，包括：

将预处理后的所述关键帧作为待处理图片输入主干网络得到特征图；

将所述特征图输入候选区域网络进行过滤得到标示出感兴趣区域的第一图像；

将所述第一图像输入兴趣区域联盟网络对所述感兴趣区域进行处理，得到第二图像；

将所述第二图像输入类别层进行处理，提取至少一个感兴趣区域，通过所述类别层确定所述感兴趣区域的类型和所述感兴趣区域的数量，将所述感兴趣区域的类型作为所述类别层的识别结果；

根据所述感兴趣区域的数量确定所述分割层的数量，将所述感兴趣区域分别输入对应的分割层，通过所述分割层确定至少一个目标对象的边界和遮挡物的外接框，得到第三图像；

将所述第三图像和所述类别层的识别结果作为所述实例分割模型的识别结果，其中，所述实例分割模型的识别结果包括所述待处理图像中的图像块的图形类别、每个目标对象的顶点坐标信息、目标对象的边界、遮挡物和至少一个目标对象。

可选地，所述主干网络由卷积层、全连接层与输出层构成；

可选地，所述将预处理后的所述关键帧作为待处理图片输入主干网络得到特征图，包括：

将所述待处理图片输入卷积层，通过对所述待处理图片进行卷积得到第一残差图像；

将所述第一残差图像输入全连接层进行映射得到第二残差图像；

将所述第二残差图像输入输出层进行指数归一化处理得到特征图。

可选地，将所述特征图输入候选区域网络进行过滤得到标示出感兴趣区域的第一图像，包括：

通过卷积核对所述特征图进行滑动扫描，为所述特征图中的每一个目标对象与遮挡物生成第一矩形锚框并提取所述第一矩形锚框的坐标，通过所述第一矩形锚框标注出感兴趣区域得到第一图像。

将所述第一图像输入兴趣区域联盟网络进行处理，得到第二图像，包括：

基于所述第一图像中的感兴趣区域，确定感兴趣区域参考矩形锚框；

通过所述兴趣区域联盟网络使用双线性插值方法，将所述第一图像的感兴趣区域均调整至所述参考矩形锚框大小得到第二图像。

可选地，通过所述分割层确定至少一个目标对象的边界，包括：

根据所述第二图像中的每个像素的像素值确定属于相同类别的像素点组成至少两个连通域点集；

从所述至少两个连通域点集中确定所述至少一个目标对象的图像块和遮挡物的图像块；

利用多边形逼近方法确定所述至少一个目标对象的边界。

可选地，在利用多边形逼近方法确定所述至少一个目标对象的边界之后，还包括：

根据所述遮挡物的图像块为所述遮挡物添加外接框；

通过所述遮挡物的外接框以及所述至少一个目标对象的边界确定所述至少一个目标对象是否完整显示；

在所述至少一个目标对象未完整显示的情况下，使用第一包络线对所述至少一个目标对象的边界进行标示；

在所述至少一个目标对象完整显示的情况下，使用第二包络线对所述至少一个目标对象的边界进行标示。

可选地，通过所述遮挡物的外接框以及所述至少一个目标对象的边界确定所述至少一个目标对象是否完整显示，包括：

在所述遮挡物外接框与所述至少一个目标对象有重叠区域的情况下，确定所述至少一个目标对象未完整显示；

在所述遮挡物外接框与所述至少一个目标对象没有重叠区域的情况下，确定所述至少一个目标对象完整显示。

可选地，在所述至少一个目标对象完整显示的情况下，使用第二包络线对所述至少一个目标对象进行标示之后，所述方法还包括：

根据所述至少一个目标对象的图像块确定所述至少一个目标对象的图形特征，根据所述至少一个目标对象的图形特征确定所述至少一个目标对象的顶点数量；

对第二图像中的至少一个目标对象进行编号；

根据所述至少一个目标对象的包络线确定所述至少一个目标对象每条边的中点，进而确定所述至少一个目标对象的中心点，根据所述中心点确定所述至少一个目标对象的顶点与所述中心点的相对位置，根据所述顶点与中心点的相对位置对所述顶点进行编号，得到每个所述目标对象的顶点编号；

将所述至少一个目标对象的包络线、所述遮挡物的外接界方框包络线、每个目标对象的编号与该目标对象的顶点编号作为所述感兴趣区域的标示信息。

可选地，确定所述识别结果中至少一个目标对象对应的图像块的相对位置，由所述相对位置确定所述至少一个目标对象的拼接结果，包括：

根据每个目标对象的顶点坐标信息确定所述顶点与所述边的位置关系为顶点与顶点相邻、顶点与边相邻或不存在相邻关系其中的一种；

将所述至少一个目标对象与所述预定相对位置的顶点与边的位置关系作为元素分别存储于不同集合中，使用并查集方法在所述集合中确定拼接结果。

可选地，所述给出拼接提示，包括：

将拼接正确的所述目标对象高亮显示，并播放对应的动画效果，未拼接正确的所述目标对象用灰色显示。

可选地，所述实例分割模型包括主干网络、候选区域网络、兴趣区域联盟网络、类别层和分割层；

所述实例分割模型通过如下方法训练得到：

获取样本图片与样本标签，对所述样本图片进行预处理，获取所述样本图像中的每个像素的像素值和与每个像素对应的样本标签，其中，所述样本标签包括待处理图像中的样本图像块的样本图形类别、目标对象的预测边界、感兴趣区域的预测类型、样本遮挡物和至少一个样本目标对象；

将预处理后的所述样本图片作为待处理样本图片输入主干网络得到样本特征图；

将所述样本特征图输入候选区域网络进行过滤得到标示出感兴趣区域的第一样本图像；

将所述第一样本图像输入兴趣区域联盟网络对所述感兴趣区域进行处理，得到第二样本图像；

将所述第二样本图像输入类别层进行处理，提取至少一个感兴趣区域，通过所述类别层确定所述感兴趣区域的类型和所述感兴趣区域的数量，将所述感兴趣区域的类型作为所述类别层的识别结果；

根据所述感兴趣区域的数量确定所述分割层的数量，将所述感兴趣区域分别输入对应的分割层，通过所述分割层确定至少一个样本目标对象的预测边界和样本遮挡物的预测外接框，得到第三图像；

将所述第三图像和所述类别层的识别结果作为所述实例分割模型的预测结果，其中，所述实例分割模型的预测结果包括预测的所述待处理图像中的样本图像块的图形类别、每个目标对象的样本顶点坐标信息、目标对象的预测边界、样本遮挡物和至少一个样本目标对象；

将所述预测结果与样本标签进行对比得到损失值，基于所述损失值调整所述实例分割模型中的样本参数，直到达到训练停止条件。

本发明实施例公开了一种视频处理装置，所述装置包括：

采集模块，被配置为采集对待拼接图形的拼接视频，从所述拼接视频中提取关键帧并对所述关键帧进行预处理；

识别模块，被配置为将预处理后的所述关键帧输入实例分割模型，由实例分割模型得到识别结果，其中，所述识别结果中包含识别出的图像块；

确定模块，被配置为确定所述识别结果中目标对象对应的图像块的相对位置，由所述相对位置确定所述目标对象的拼接结果；

提示模块，被配置为在所述目标对象的拼接结果与预定相对位置相同的情况下，保存所述拼接结果，给出拼接正确的提示。

本发明实施例提供的一种视频处理方法，通过将预处理后的关键帧输入实例分割模型，根据所述实例分割模型得到识别结果，再由识别结果计算得出目标对象中图像块的相对位置，保证了可以对所述关键帧中的目标对象进行快速、准确地识别，具有较强的鲁棒性。

另外，在所述实例分割模型中，根据像素类别对待识别图像中的目标对象、背景与遮挡物进行分类，有效地避免了环境光线、温度变化较大时对实例分割模型的识别结果产生的干扰与误差，保证了识别过程迅速、简便的有益效果。

其次，对待处理图像中的遮挡物进行识别，保证了识别结果的准确性，解决了现有技术中无法处理待识别图片中存在遮挡物的问题。

再次，利用图像块顶点与边的相对位置，使用并查集算法计算图像块的相对位置，使得最终的拼接结果不需要考虑与预定拼接位置保持的整体角度保持一致，可以应对拼接图像发生的旋转、倾斜的情况，也保证了对于图像块的相对位置的判断更加具体，识别结果的准确率更高。

附图说明

图1是本发明实例的计算设备的结构示意图。

图2是本发明一实施例的一种视频处理方法的流程示意图。

图3是本发明一实施例的一种视频处理方法的模型结构示意图。

图4是本发明一实施例的双线性插值算法中像素点坐标示意图。

图5是本发明一实施例图像块边界计算示意图。

图6是本发明一实施例的图像块编号与图像块顶点编号结果示意图。

图7是本发明一实施例的图像块相对位置示意图。

图8是本发明实施例的并查集算法示意图。

图9是本发明一实施例的一种视频处理方法的流程示意图。

图10是本发明一实施例的一种视频处理方法的一种场景应用示意图。

图11是本发明一实施例的一种视频处理方法的一种拼接题目示意图。

图12是本发明一实施例的一种视频处理方法的一种拼接过程示意图。

图13是本发明一实施例的一种视频处理方法的标注图像块与遮挡物效果示意图。

图14是本发明一实施例的一种视频处理方法的拼接结果显示示意图。

图15是本发明一实施例的一种视频处理方法的展示预定位置的效果示意图。

图16是本发明一实施例的一种视频处理方法的动画效果示意图。

图17是本发明一实施例的一种视频处理装置的模块示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

残差网络：ResNet(Residual Neural Network)用于解决由于网络深度加深而产生的学习效率变低，准确率无法有效提升的问题。

Mask-RCNN模型：MASK-RCNN主要由卷积神经网络构成，通过多分支子网络并行实现端到端的实例分割。

轮廓检测：轮廓检测指在包含目标和背景的数字图像中，忽略背景和目标内部的纹理以及噪声干扰的影响，采用一定的技术和方法来实现目标轮廓提取的过程。它是目标检测、形状分析、目标识别和目标跟踪等技术的重要基础。

实例分割：实例分割是计算机视觉的一个基本任务，是物体检测和语义分割的发展；语义分割的目标是对图形的每个像素进行分类，确定其类别，但是对同一类别的不同物体不进行区分。实例分割在语义分割的基础上，要区分同类别中不同物体对象。实现像素级别识别图像中物体对象轮廓的任务。

双线性插值算法：在计算机视觉以及图像处理领域，双线性插值是一种基本的重采样技术，图像的双线性插值放大算法中，目标图像中新创造的像素值，是由原图像位置在它附近的2*2区域4个临近像素的值通过加权平均计算得出的。

多边形逼近算法：道格拉斯-普克算法，该算法也以Douglas-Peucker算法和迭代终点拟合算法为名。是将曲线近似表示为一系列点，并减少点的数量的一种算法。

并查集算法：并查集是一种树型的数据结构，用于处理一些不相交集合的合并及查询问题，并查集算法也称为联合-查找算法。

归一化指数函数：也以Softmax函数命名，作用为：将所有输出值的范围归纳到[0-1]之间。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器 110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN) 无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB) 接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本发明实施例的一种视频处理方法的示意性流程图，包括步骤S201至步骤S204。

步骤S201：采集对待拼接图形的拼接视频，从所述拼接视频中提取关键帧并对所述关键帧进行预处理。

具体的，按照预设的时间间隔从所述拼接视频中提取关键帧，并获取所述关键帧中的每个像素的像素值。

进一步地，从所述关键帧的左上角开始逐个识别每一个像素并提取该像素的像素值，直到扫描到所述关键帧的右下角的最后一个像素。

对所述关键帧进行预处理，对所述关键帧中的每一个像素进行扫描，有利于所述实例分割模型对关键帧的进一步处理，提高了实例分割模型识别的准确性。

步骤S202：将预处理后的所述关键帧输入实例分割模型，由实例分割模型得到识别结果，其中，所述识别结果中包含识别出的图像块。

进一步地，将经过预处理后的所述关键帧作为待处理图片输入主干网络得到特征图；

将所述第一图像输入感兴趣区域联盟网络对所述感兴趣区域进行处理，得到第二图像；

将所述第二图像输入类别层进行处理，提取至少一个感兴趣区域，通过所述类别层确定感兴趣区域的类型和所述感兴趣区域的数量，将所述感兴趣区域的类型作为所述类别层的识别结果；

将所述第三图像和所述类别层的识别结果作为所述实例分割模型的识别结果，所述实例分割模型的识别结果包括所述待处理图像中的图像块的图形类别、每个目标对象的顶点坐标信息、目标对象的边界、遮挡物和至少一个目标对象。

具体地，如图3所示，图3中部分301为待处理图像，图3中部分303为第一图像，图3中部分306为为第二图像。

所述实例分割模型的具体结构如下：

图3中部分302为主干网络，所述主干网络为残差网络(ResNet101)，作用为克服由于网络结构加深而产生的的学习效率变低、准确率无法进一步提升的问题。

图3中部分304为候选区域网络，所述候选区域网络为RPN层(Region ProposalNetwork)，作用为将特征图进行过滤处理得到感兴趣区域，所述感兴趣区域为ROI(Regionofinterest)。

图3中部分305为兴趣区域联盟网络，所述兴趣区域联盟网络为ROIAlign，通过双线性插值算法得到像素值，并根据像素值对感兴趣区域ROI的大小进行调整。

图3中部分307为类别层，所述类别层为Lcls层，作用为确定感兴趣区域 ROI的类型分别为目标对象、背景与遮挡物。

图3中部分308为分割层，所述分割层为Lmask层，作用为确定目标对象的具体图形类别，进而通过多边形逼近算法确定所述目标对象的具体边界、目标对象的包络线、遮挡物的外接框和目标对象的顶点坐标信息。

图3中部分309为所述实例分割模型的第三图像与所述类别层的识别结果。

图3中部分310为所述实例分割模型的输出结果。

进一步地，所述主干网络由卷积层、全连接层与输出层构成；

所述将预处理后的所述关键帧作为待处理图片输入主干网络得到特征图，包括：

将所述第一残差图像输入全连接层进行映射得到第二残差图像：

具体地，所述主干网络ResNet包括5层卷积层、2层全连接层与1层输出层，所述输出层使用指数归一化函数(SoftMax)对所述第二残差图像进行处理得到特征图。

进一步地，将所述特征图输入候选区域网络进行过滤得到标示出感兴趣区域的第一图像，包括：

具体地，所述卷积核大小可以为3*3，步长为3，通过所述目标对象与遮挡物对应的像素的像素特征区分目标对象、遮挡物与背景，并为每一个所述目标对象与所述遮挡物生成矩形锚框并提取所述第一矩形锚框的坐标，进而通过所述矩形锚框坐标标识出与所述目标对象与所述遮挡物对应的感兴趣区域ROI。

通过残差网络ResNet得到特征图，保证了实例分割模型的识别准确性，减少了图像识别过程中的误差，提升了图像识别的准确性。

进一步地，将所述第一图像输入兴趣区域联盟网络进行处理，得到第二图像，包括：

通过所述兴趣区域联盟网络使用双线性插值方法，将所述第一图像的感兴趣区域均调整至所述参考矩形锚框大小得到第二图像，并提取所述第二图像中的每个感兴趣区域的矩形的锚框坐标。

具体地，所述兴趣区域联盟网络(ROIAlign)对所述第一图像中的矩形锚框坐标通过双线性插值算法根据类别层与分割层的输入要求进行映射，所述输入要求为感兴趣区域参考矩形锚框，调整所述第一图像中的矩形锚框的大小与所述感兴趣区域参考矩形锚框保持一致，得到相同大小的ROI。

具体地，图4为所述双线性插值算法中像素点位置示意图，所述双线性插值算法计算步骤如下所示：

若要计算待确定的像素块P的像素值，根据所述待确定的像素块周围的4 个像素块Q₁₁(x₁,y₁)、Q₁₂(x₁,y₂)、Q₂₂(x₂,y₂)、Q₂₁(x₂,y₁)的像素值确定与所述像素块P(x,y)在同一条直线上的两个像素块R₁(x,y₁)和R₂(x,y₂)的像素值f(R₁)和f(R₂)，再根据R₁和R₂的像素值确定像素块P的像素值f(P)。

R₁、R₂的像素值通过如下式(1)至(4)得到：

where R₁＝(x,y₁) (2)

where R₂＝(x,y₂) (4)

P的像素值如公式(5)所示：

通过所述兴趣区域联盟网络(ROIAlign)使用双线性插值算法调整ROI的大小，提升了图像检测的精确度，避免了现有技术中取整计算导致的识别误差。

进一步地，通过所述分割层确定至少一个目标对象的边界，包括：

利用多边形逼近方法确定所述至少一个目标对象的边界。

具体地，多边形逼近算法示意图如图5所示，在所述图像块的最外侧像素点中获取像素点A与像素点B，用直线段连接所述像素点A与所述像素点B，在弧AB上取与直线段AB距离为d的点C，其中，点C为弧AB上与直线段 AB距离最大的点，若距离d小于阈值X，则保留直线段AB作为目标对象的一条边；

若距离d大于或等于阈值X，则用直线段连接AC与AB，重复上述步骤直到距离d小于阈值X，将最终获得的直线段作为目标对象的一条边；

在得到所述目标对象的所有边后，将所有确定边的像素点作为顶点，根据所述边的位置确定所述目标对象的顶点的坐标信息；

若所述目标对象的顶点数量与根据所述边的位置确定的所述目标对象的顶点的数量不一致，则调整阈值X重新确定所述目标对象的边，直到所述目标对象的顶点数量与计算得出的数量一致。

利用多边形逼近算法，可以准确地计算出图像块的具体边界，保障了图像识别的准确性。

进一步地，在利用多边形逼近方法确定所述至少一个目标对象的边界之后，还包括：

根据所述遮挡物的图像块为所述遮挡物添加外接框；

需要说明的是，在实际应用中，上述根据所述遮挡物的图像块为所述遮挡物添加外接框这一步骤可以由分割层进行。

通过所述遮挡物的外接框以及所述至少一个目标对象的边界确定所述至少一个目标对象是否完整显示，包括：

通过对遮挡物进行标识，有效地提高了图像识别的准确性，克服了现有技术中无法处理包含遮挡物的场景，对被遮挡物遮挡的目标对象使用虚线包络线进行标识，提高了被遮挡的目标对象的识别度，有效地对完整显示的目标对象与未完整的目标对象进行了区分，提高了最终结果的识别度。

进一步地，在所述至少一个目标对象完整显示的情况下，使用第二包络线对所述至少一个目标对象进行标示之后，所述方法还包括：

所述至少一个目标对象的图像块确定所述至少一个目标对象的图形特征，根据所述至少一个目标对象的图形特征确定所述至少一个目标对象的顶点数量；

对第二图像中的至少一个目标对象进行编号；

需要说明的是，在实际应用中，上述确定目标对象的顶点数量、对目标对象进行编号、获取顶点编号以及获取标示信息的步骤可以由分割层进行。

如图6所示，所述目标对象从0开始进行编号，左侧三角形为第一个进行编号的目标对象，编号为0，右侧三角形为第二个进行编号的目标对象，编号为 1。

如图6所示，所述目标对象从0开始进行编号，左侧三角形为第一个进行编号的目标对象，编号为0，中间正方形为第二个进行编号的目标对象，编号为 1，右侧的平行四边形为第三个进行编号的目标对象，编号为2。

根据所述目标对象的包络线确定所述目标对象每条边的中点，进而确定所述目标对象的中心点，根据所述中心点确定所述目标对象的顶点与所述中心点的相对位置，根据所述顶点与中心点的相对位置对所述顶点进行编号，得到每个所述目标对象的顶点编号；

具体地，若所述目标对象为直角三角形，则取所述目标对象包络线其中相邻的两条边的中点，将所述两条边的中点分别和与其相对的顶点连接得到两条连接线，将所述两条连接线的交点作为所述目标对象的中心点；

若所述目标对象为正方形或平行四边形，则分别连接两个不相邻的顶点得到两条连接线，将所述两条连接线的交点作为所述目标对象的中心点。

进一步地，如图6所示，按照预设的顺序对所述目标对象的顶点进行编号。

具体地，编号规则为：

若所述目标对象的形状为直角三角形，如图6中图形0所示，则以直角顶点开始，顺时针从1至3对顶点依次编号；

若所述目标对象的形状为正方形，如图6中图形1所示，则从相对于中心点的左上角顶点开始，按照顺时针顺序从1至4对顶点依次编号。

若所述目标对象的形状为平行四边形，如图6中图形2所示，则从相对于中心点的左上角开始，按照逆时针顺序从1至4对顶点依次编号。

对目标对象进行编号，并按照图形中心点的相对位置对所述目标对象的顶点进行编号，可以清晰地表示出目标对象的顶点位置，有助于进一步判断目标对象之间的相对位置，也保证了所述目标对象的顶点编号不会因为编号数字相同产生混淆。

S203：确定所述识别结果中至少一个目标对象对应的图像块的相对位置，由所述相对位置确定所述至少一个目标对象的拼接结果。

进一步地，根据所述顶点与所述边的坐标信息确定所述顶点与所述边的位置关系为顶点与顶点相邻、顶点与边相邻或不存在相邻关系其中的一种；

具体地，所述相对位置关系如图7所示，其中，图形A中的相对位置关系为点与边相邻，图形B中的相对位置关系为点与点相邻，图形C中的相对位置关系为不存在相邻关系。

将所述目标对象与所述预定位置的顶点与边的位置关系作为元素分别存储于不同集合中，使用并查集方法在所述集合中确定拼接结果。

具体地，并查集算法步骤示意图如图8所示，并查集算法的计算步骤如下所示：

以正方形为主体，将正方形图像块顶点：点1与三角形图像块顶点：点2 的相邻位置关系作为元素存储于集合A中；

以三角形为主体，将正方形图像块顶点：点1与三角形图像块顶点：点2 的相邻位置关系作为元素存储于集合B中；

将预定相对位置中图像块的相邻位置关系作为元素存储于集合C中，查找集合A与集合B中是否包含属于同一父节点的元素，若有，则将集合A与集合 B合并得到新集合D，对比新集合D与集合C中的元素，若相符，则保存新集合D，确定所述图像块拼接正确；

将所述新集合D中图像块的相邻位置关系作为拼接结果。

使用并查集算法确定拼接结果，保证了得到最终结果的速度快、准确率高，也保证了在所述目标对象与预定拼接位置存在旋转、角度偏差但目标对象之前的相对位置满足预定拼接位置时，也能够正确的识别拼接结果，具有较强的鲁棒性。

步骤S204：在所述至少一个目标对象的拼接结果与预定相对位置相同的情况下，保存所述拼接结果，给出拼接提示。

进一步地，将拼接正确的所述目标对象高亮显示，并播放对应的动画效果，未拼接正确的所述目标对象用灰色显示。

具体地，将符合拼接要求的目标对象使用高亮显示，并在符合拼接要求的目标对象上显示对应的动画效果，未完成拼接的图像块使用低亮度显示。

进一步地，在所述目标对象拼接的过程中，每完成一个所述目标对象的拼接，将当前拼接的结果与预定位置进行对比，判断当前所述目标对象的拼接进度。

如图9所示，本发明一实施例以七巧板的拼接互动游戏为例，对本发明的实施例提供的视频处理方法进行说明。

需要说明的是，在本实施例中，通过手机显示需要完成的拼接题目，录制拼接过程、给出拼接正确时的提示并保存识别结果，本实施例中的目标对象为待拼接的七巧板。

步骤S901：由手机展示拼接题目。

如图10所示，图中部分1001为手机，图中部分10022为反光镜装置，图中部分1003为手机前置摄像头，部分1004为手机支架，部分1005为七巧板的拼接区域。

将手机置于支架上，在手机的前置摄像头处添加反光镜装置。

如图11所示，由手机屏幕显示七巧板的拼接题目，所述拼接题目为预定的拼接位置。

步骤S902：移动七巧板，对七巧板进行拼接，直到与拼接题目中匹配。

具体地，如图12所示，在移动七巧板的过程中，由手机前置摄像头实时录制拼接视频并采集关键帧，在所述视频中提取关键帧，将所述关键帧输入实例分割模型中进行识别得到拼接结果。

根据拼接结果判断七巧板的位置是否与拼接题目中的位置匹配，若不匹配，则继续移动七巧板直到与拼接题目匹配为止。

具体地，按照预设的时间间隔从录制的视频中提取关键帧。例如，手机前置摄像头按照每隔1秒的时间间隔与每秒3帧提取频率提取所述关键帧。

按照预设的时间间隔提取关键帧，实现了可以与拼接进程同步、即时提取关键帧的效果，确保了本发明方法的互动性与时效性，也保证了可以快速提取待识别图像的效果。

具体地，本实施例中利用Mask-RCNN模型对关键帧进行实例分割，其中，骨干网络由残差网络ResNet101构成。

在移动七巧板的过程中，还包括识别七巧板的形状、顶点数量、顶点编号与完整状态，还可以根据像素类别对遮挡物进行识别。

如图13所示，图13为一张识别完成的关键帧，包括每一块七巧板的形状、定点编号、遮挡物、遮挡物的外接框以及七巧板的包络线。

其中，对关键帧中的遮挡物“手”利用外接框进行识别与标注，对于被遮挡物覆盖的、不能完整显示的七巧板使用虚线包络线标注，未被遮挡物覆盖、完整的七巧板使用实线包络线标注。

根据像素类别识别关键帧中的遮挡物，保证了识别结果的准确性，解决了现有技术中无法处理待识别图像中存在遮挡物的问题。

步骤S903：在手机上显示当前七巧板拼接状态。

具体地，如图14所示，已经拼接完成的七巧板使用高亮显示，未拼接完成的七巧板使用灰度显示。

通过分别按照不同显示效果在终端展示当前的拼接进度，保证了互动性与实时性，有较好的交互效果。

步骤S904：所有七巧板拼接完成后，保存拼接结果，播放相应的动画效果。

具体地，如图15所示，在确认当前拼接结果与拼接题目能够正确对应后，保存当前的拼接结果，在手机端高亮显示拼接完成的七巧板。

在保存拼接结果后，如图16所示，在手机端的每一块正确拼接的七巧板上播放动画效果，未完成拼接的七巧板灰度显示。需要说明的是，本实施例中通过采用显示特殊动画效果的方式对七巧板进行高亮显示，不对目标对象高亮显示的方法进行限定。

根据拼接结果展示动画效果，增加了本发明与用户的互动性，保证了在使用过程中生动、活泼，具有良好的娱乐与教育效果。

残差网络本发明一实施例公开了一种视频处理装置，参见图17，包括：

采集模块1701，被配置为采集对待拼接图形的拼接视频，从所述拼接视频中提取关键帧并对所述关键帧进行预处理；

识别模块1702，被配置为将预处理后的所述关键帧输入实例分割模型，由实例分割模型得到识别结果，其中，所述识别结果中包含识别出的图像块；

确定模块1703，被配置为确定所述识别结果中至少一个目标对象对应的图像块的相对位置，由所述相对位置确定所述至少一个目标对象的拼接结果；

提示模块1704，被配置为在所述至少一个目标对象的拼接结果与预定相对位置相同的情况下，保存所述拼接结果，给出拼接提示。

可选地，所述采集模块1701包括：

按照预设的时间间隔从所述拼接视频中提取关键帧，并获取所述关键帧中的每个像素的像素值。

可选地，所述识别模块1702包括：

进一步地，所述主干网络由卷积层、全连接层与输出层构成。

可选地，将所述第一图像输入兴趣区域联盟网络进行处理，得到第二图像，包括：

利用多边形逼近方法确定所述至少一个目标对象的边界。

根据所述遮挡物的图像块为所述遮挡物添加外接框；

对第二图像中的至少一个目标对象进行编号；

可选地，所述确定模块1703包括：

可选地，所述提示模块1704包括：

可选地，所述装置还包括训练模块1705。

可选地，所述训练模块1705被配置为：

本发明一实施例提供的一种视频处理装置，通过将预处理后的关键帧输入实例分割模型，根据所述实例分割模型得到识别结果，再由识别结果计算得出目标对象中图像块的相对位置，保证了可以对所述关键帧中的目标对象进行快速、准确地识别。

另外，在所述实例分割模型中，根据像素类别对待识别图像中的目标对象、背景与遮挡物进行分类，有效地避免了环境光线、温度变化较大时对实例分割模型的识别结果产生的干扰与误差，保证了识别过程迅速、简便的有益效果，具有较强的鲁棒性。

本实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述的一种视频处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的一种视频处理方法技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述一种视频处理方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本发明优选实施例只是用于帮助阐述本发明。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，从所述拼接视频中提取关键帧并对所述关键帧进行预处理，包括：

3.如权利要求2所述的方法，其特征在于，所述实例分割模型包括主干网络、候选区域网络、兴趣区域联盟网络、类别层和分割层；

由实例分割模型得到识别结果，包括：

4.如权利要求3所述的方法，其特征在于，其中，所述主干网络由卷积层、全连接层与输出层构成；

将预处理后的所述关键帧作为待处理图片输入主干网络得到特征图，包括：

5.如权利要求3所述的方法，其特征在于，将所述特征图输入候选区域网络进行过滤得到标示出感兴趣区域的第一图像，包括：

6.如权利要求3所述的方法，其特征在于，将所述第一图像输入兴趣区域联盟网络进行处理，得到第二图像，包括：

7.如权利要求3所述的方法，其特征在于，通过所述分割层确定至少一个目标对象的边界，包括：

利用多边形逼近方法确定所述至少一个目标对象的边界。

8.如权利要求7所述的方法，其特征在于，在利用多边形逼近方法确定所述至少一个目标对象的边界之后，还包括：

根据所述遮挡物的图像块为所述遮挡物添加外接框；

9.如权利要求8所述的方法，其特征在于，通过所述遮挡物的外接框以及所述至少一个目标对象的边界确定所述至少一个目标对象是否完整显示，包括：

10.如权利要求8所述的方法，其特征在于，在所述至少一个目标对象完整显示的情况下，使用第二包络线对所述至少一个目标对象进行标示之后，所述方法还包括：

对第二图像中的至少一个目标对象进行编号；

11.如权利要求3所述的方法，其特征在于，确定所述识别结果中至少一个目标对象对应的图像块的相对位置，由所述相对位置确定所述至少一个目标对象的拼接结果，包括：

12.如权利要求1所述的方法，其特征在于，所述给出拼接提示，包括：

13.如权利要求1所述的方法，其特征在于，所述实例分割模型包括主干网络、候选区域网络、兴趣区域联盟网络、类别层和分割层；

所述实例分割模型通过如下方法训练得到：

获取样本图片，对所述样本图片进行预处理，获取所述样本图像中的每个像素的像素值和与每个像素对应的样本标签，其中，所述样本标签包括待处理图像中的样本图像块的图形类别、目标对象的预测边界、感兴趣区域的类型、样本遮挡物和至少一个样本目标对象；

将所述第三图像和所述类别层的识别结果作为所述实例分割模型的预测结果，其中，所述实例分割模型的预测结果包括预测的所述待处理图像中的图像块的图形类别、每个目标对象的样本顶点坐标信息、目标对象的预测边界、遮挡物和至少一个样本目标对象；

14.一种视频处理装置，其特征在于，所述装置包括：

确定模块，被配置为确定所述识别结果中至少一个目标对象对应的图像块的相对位置，由所述相对位置确定所述至少一个目标对象的拼接结果；

提示模块，被配置为在所述至少一个目标对象的拼接结果与预定相对位置相同的情况下，保存所述拼接结果，给出拼接提示。

15.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-13任意一项所述方法的步骤。

16.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-13任意一项所述方法的步骤。