CN113766147B

CN113766147B - 视频中嵌入图像的方法、平面预测模型获取方法和装置

Info

Publication number: CN113766147B
Application number: CN202011004707.1A
Authority: CN
Inventors: 周芳汝; 安山; 杨玫
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2022-11-08
Anticipated expiration: 2040-09-22
Also published as: EP4207745A4; EP4207745A1; US20230368324A1; WO2022062417A1; CN113766147A

Abstract

本公开提出一种视频中嵌入图像的方法、平面预测模型获取方法和装置，涉及图像处理领域。其中的方法包括：将一段视频的视频帧图像输入平面预测模型，获取预测的视频帧图像的平面掩码，其中，所述平面预测模型是利用带有平面检测框和平面掩码的标签的训练图像对深度学习模型训练得到的；将欲嵌入图像嵌入到预测的视频帧图像的平面掩码。通过自动寻找各个视频帧图像中广泛存在的平面掩码，将欲嵌入图像嵌入到平面掩码，不仅使图像自动地和自然地融合到视频中，而且使图像更广泛地融合到视频中。

Description

视频中嵌入图像的方法、平面预测模型获取方法和装置

技术领域

本公开涉及图像处理领域，特别涉及一种视频中嵌入图像的方法、平面预测模型获取方法和装置。

背景技术

视频中的广告是效果较好的宣传手段之一。

视频中插入广告视频，是在原视频中选取一个时刻，把做好的广告视频插入到原视频中。插播广告视频时，用户完全看不到原视频，影响用户的观看体验。

视频中张贴广告图像，是把广告图像张贴到每帧视频图像的角落区域，用户观看原视频时，在视频播放界面的角落弹出一个广告图像。播放广告图像的同时用户可以观看原视频，但弹出的广告图像可能遮挡原视频的关键内容，而且广告图像和视频融合的不自然。

视频中嵌入广告图像，是将广告图像嵌入到视频帧图像中的一定位置，将广告图像与视频融为一体。在一些相关技术中，对视频进行检测，发现其中特定的物体或已经存在的广告等目标，将这些目标替换为广告图像。还有一些相关技术，在一个视频帧图像中标注出广告植入位置，对其他视频帧图像采用特征点匹配的方式，对该广告植入位置进行跟踪，在跟踪到的位置植入广告。

发明人发现，视频中嵌入广告图像的相关技术，其寻找广告图像嵌入位置的限制比较多，造成很多时候在视频中找不到合适的嵌入位置，例如，在视频中难以寻找到特定的可替换目标，或者，在视频中无法跟踪到预先标注的广告植入位置，从而使得广告图像难以嵌入到视频中。

发明内容

本公开实施例通过自动寻找各个视频帧图像中广泛存在的平面掩码，将欲嵌入图像嵌入到平面掩码，不仅使图像自动地和自然地融合到视频中，而且使图像更广泛地融合到视频中。此外，还能自动寻找各个视频帧图像中的平面掩码中的关键点，将欲嵌入图像嵌入到关键点相应的位置区域，提升图像与视频的融合效果。

本公开一些实施例提出一种视频中嵌入图像的方法，包括：

将一段视频的视频帧图像输入平面预测模型，获取预测的视频帧图像的平面掩码，其中，所述平面预测模型是利用带有平面检测框和平面掩码的标签的训练图像对深度学习模型训练得到的；

将欲嵌入图像嵌入到预测的视频帧图像的平面掩码。

在一些实施例中，所述平面预测模型是利用带有平面检测框和平面掩码的标签以及平面掩码中4个关键点的标注信息的训练图像对深度学习模型训练得到的；将一段视频的视频帧图像输入平面预测模型之后，获取预测的视频帧图像的平面掩码以及其中的4个关键点；所述将欲嵌入图像嵌入到预测的视频帧图像的平面掩码包括：将欲嵌入图像的4个顶点与预测的视频帧图像的平面掩码中的4个关键点对齐，并将欲嵌入图像嵌入到预测的视频帧图像的平面掩码中的4个关键点相应的位置区域。

在一些实施例中，训练图像中的平面掩码中4个关键点的标注信息通过以下方法获得：

将训练图像的平面掩码从像素坐标系转换到平面坐标系；

在平面坐标系下确定平面掩码的边界线；

基于平面掩码的边界线，在平面坐标系下确定平面掩码的内接矩形；

将平面掩码的内接矩形的4个顶点从平面坐标系转换到像素坐标系。

在一些实施例中，将训练图像的平面掩码从像素坐标系转换到平面坐标系包括：

将训练图像的平面掩码从像素坐标系转换到世界坐标系；

将训练图像的平面掩码从世界坐标系转换到平面坐标系。

在一些实施例中，在平面坐标系下确定平面掩码的边界线包括：

在平面坐标系下对平面掩码进行边缘检测；

基于检测到的平面掩码的边缘，在平面坐标系下对平面掩码进行霍夫直线检测；

确定检测到的直线是平面掩码的边界线的概率；

基于所述概率，从检测到的直线中确定平面掩码在平面坐标系下的一条边界线。

在一些实施例中，确定检测到的直线是平面掩码的边界线的概率包括：

根据直线两侧对称区域的差异信息，确定检测到的直线是平面掩码的边界线的概率，其中，直线两侧对称区域的差异越大，该直线是平面掩码的边界线的概率越大。

在一些实施例中，从检测到的直线中确定平面掩码在平面坐标系下的一条边界线包括：

从检测到的直线中选择具有垂直关系和平行关系的直线对；

在寻找到直线对的情况下，将概率和最高的直线对中的概率最高的直线，确定为平面掩码在平面坐标系下的一条边界线；

在未寻找到直线对的情况下，将概率最高的直线，确定为平面掩码在平面坐标系下的一条边界线。

在一些实施例中，确定平面掩码在平面坐标系下的边界线还包括以下至少一个步骤：

在边缘检测之前，在平面坐标系下对平面掩码进行中值滤波；

在霍夫直线检测之后，基于直线的斜率对检测到的直线进行合并。

在一些实施例中，在平面坐标系下确定平面掩码的内接矩形包括：在平面坐标系下确定与所述边界线平行的平面掩码的内接矩形，所述内接矩形包括最大内接正方形。

在一些实施例中，所述将欲嵌入图像嵌入到预测的视频帧图像的平面掩码包括：

根据欲嵌入图像的4个顶点与预测的视频帧图像的平面掩码中的4个关键点的映射关系，确定欲嵌入图像到预测的视频帧图像的平面掩码的变换矩阵；

基于所述变换矩阵，将欲嵌入图像的每个前景点变换到预测的视频帧图像的平面掩码中的4个关键点相应的位置区域。

在一些实施例中，所述深度学习模型采用基于标注信息中的4个关键点和进行对齐操作后的预测的4个关键点所确定的损失函数；

其中，对预测的4个关键点进行对齐操作包括：

基于标注信息中的4个关键点和预测的4个关键点，确定变换比例；

根据所述变换比例，对预测的4个关键点进行大小变换；

基于标注信息中的4个关键点，确定第一位置变换信息；

基于预测的4个关键点，确定第二位置变换信息；

将大小变换后的预测的4个关键点分别加上第一位置变换信息并减去第二位置变换信息，以完成对预测的4个关键点的对齐操作。

在一些实施例中，所述深度学习模型包括区域卷积神经网络。

在一些实施例中，所述欲嵌入图像包括企业标识图像、产品图像。

本公开一些实施例提出一种平面预测模型获取方法，包括：

对训练图像中的平面检测框、平面掩码以及平面掩码中4个关键点进行标注；

利用带有平面检测框和平面掩码的标签以及平面掩码中4个关键点的标注信息的训练图像对深度学习模型进行训练；

将训练后的深度学习模型确定为平面预测模型。

在一些实施例中，对训练图像中的平面掩码中4个关键点进行标注包括：

将训练图像的平面掩码从像素坐标系转换到平面坐标系；

在平面坐标系下确定平面掩码的边界线；

本公开一些实施例提出一种视频中嵌入图像的装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行任一个实施例所述的视频中嵌入图像的方法。

本公开一些实施例提出一种平面预测模型获取装置，其特征在于，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行任一个实施例所述的平面预测模型获取方法。

本公开一些实施例提出一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一个实施例所述的视频中嵌入图像的方法或任一个实施例所述的平面预测模型获取方法。

附图说明

下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述，可以更加清楚地理解本公开。

显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开一些实施例的平面预测模型获取方法的流程示意图。

图2示出本公开另一些实施例的平面预测模型获取方法的流程示意图。

图3示出了本公开一些实施例的深度学习模型的示意图。

图4示出本公开一些实施例的对训练图像中的平面掩码中4个关键点进行标注的流程示意图。

图5示出了本公开一些实施例的三个坐标系的示意图。

图6示出本公开一些实施例的视频中嵌入图像的方法的流程示意图。

图7示出本公开另一些实施例的视频中嵌入图像的方法的流程示意图。

图8示出本公开一些实施例的视频中嵌入图像的装置的示意图。

图9示出本公开一些实施例的平面预测模型获取装置的示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。

除非特别说明，否则，本公开中的“第一”“第二”等描述用来区分不同的对象，并不用来表示大小或时序等含义。

本公开实施例通过平面预测模型，自动寻找各个视频帧图像中广泛存在的平面掩码，将欲嵌入图像嵌入到平面掩码，不仅使图像自动地和自然地融合到视频中，而且使图像更广泛地融合到视频中。

图1示出本公开一些实施例的平面预测模型获取方法的流程示意图。该平面预测模型能够预测图像中的平面掩码。

如图1所示，该实施例的方法包括：

在步骤110，对训练图像中的平面检测框、平面掩码进行标注。

可以自行对训练图像中的平面进行检测框和掩码进行标注，也可以获取已经标注好平面的检测框和掩码的训练图像的现成数据集，例如，PlaneRCNN数据集，其不仅可以提供带有平面检测框和平面掩码的标签的训练图像，还可以提供训练图像相关的相机参数，相机坐标系到世界坐标系的旋转平移矩阵(Rotation/translation matrix)。

在步骤120，利用带有平面检测框和平面掩码的标签的训练图像对深度学习模型进行训练，使得深度学习模型具备图像的平面检测框和平面掩码的学习能力。

深度学习模型包括区域卷积神经网络(region-based Convolutional NeuralNetworks，RCNN)，例如为MaskRCNN网络，是RCNN的一种。MaskRCNN网络等深度学习模型包括图像的平面检测框回归的分支和平面掩码回归的分支。平面检测框回归的分支包括平面检测框回归，还可以包括语义类别回归。带有平面检测框的标签的训练图像对平面检测框回归的分支进行训练，带有平面掩码的标签的训练图像对平面掩码回归的分支进行训练。

在训练过程中，根据各个训练图像的标注的平面检测框的标签与模型预测的平面检测框之间的损失以及标注的平面掩码的标签与模型预测的平面掩码之间的损失确定总损失，根据总损失更新深度学习模型的参数，迭代地执行该训练过程，直到满足训练终止条件，例如，达到预设的迭代次数，或者，总损失小于一定的值等。

在步骤130，将训练后的深度学习模型确定为平面预测模型。平面预测模型能够预测图像的平面检测框和平面检测框中的平面掩码。

图2示出本公开另一些实施例的平面预测模型获取方法的流程示意图。该平面预测模型不仅能够预测图像中的平面掩码，还能够预测平面掩码中的4个关键点。

如图2所示，该实施例的方法包括：

在步骤210，对训练图像中的平面检测框、平面掩码以及平面掩码中4个关键点进行标注。

平面掩码中4个关键点例如可以标注在平面掩码的中间部位。后面的图4实施例会具体描述平面掩码中4个关键点的标注方法。

在步骤220，利用带有平面检测框和平面掩码的标签以及平面掩码中4个关键点的标注信息的训练图像对深度学习模型进行训练，使得深度学习模型具备图像的平面检测框、平面掩码及其4个关键点的学习能力。

深度学习模型包括RCNN，例如为MaskRCNN网络，是RCNN的一种。图3示出了深度学习模型的示意图。如图3所示，MaskRCNN网络等深度学习模型包括图像的平面检测框回归的分支、平面掩码回归的分支和关键点回归的分支。平面检测框回归的分支包括平面检测框回归，还可以包括语义类别回归。带有平面检测框的标签的训练图像对平面检测框回归的分支进行训练，带有平面掩码的标签的训练图像对平面掩码回归的分支进行训练，带有4个关键点的标注信息的训练图像对关键点回归的分支进行训练。其中，MaskRCNN网络采用的是RoIAlign(region of interest align,感兴趣区域对齐)方法，从原始图像(originalimage)得到的候选区域(proposal region)。

由于图像嵌入位置在平面上有可移动的特性，只要图像嵌入位置在平面上，并且图像与平面的边界线相互平行，就认为深度学习模型预测的结果是正确的，所以深度学习模型采用的损失函数为关键点对齐后的损失函数，即，基于标注信息中的4个关键点和进行对齐操作后的预测的4个关键点所确定的损失函数。例如，MaskRCNN网络采用关键点对齐后的Smooth_L1损失。

记当前平面标注的关键点标签设为gt∈R^N×4×2，网络预测的关键点坐标设为pre∈R^N×4×2，在维度空间R中，N表示平面的数量，4表示4个关键点，2表示平面的横坐标和纵坐标。经过对齐后的关键点坐标为pre″，网络关键点分支的损失为loss_k，则loss_k的计算方式如下(1-6)。

(1)基于标注信息中的4个关键点和预测的4个关键点，确定变换比例r。

其中，max表示取最大值，min表示取最小值。

(2)根据变换比例，对预测的4个关键点进行大小变换，大小变换后的预测的关键点设为pre′。

pre′＝(pre-min(pre))*r+min(pre)

(3)基于标注信息中的4个关键点，确定第一位置变换信息gt_c。

(4)基于预测的4个关键点，确定第二位置变换信息pre′_c。

(5)将大小变换后的预测的4个关键点分别加上第一位置变换信息并减去第二位置变换信息，以完成对预测的4个关键点的对齐操作，对齐后的关键点设为pre″。

pre″＝pre′+gt_c-pre′_c

(6)网络关键点分支的损失loss_k为：

将4个关键点进行对齐操作，使得4个关键点构成的四边形区域处于平面掩码的中间部位。

在训练过程中，根据各个训练图像的标注的平面检测框的标签与模型预测的平面检测框之间的损失、标注的平面掩码的标签与模型预测的平面掩码之间的损失、以及标注的4个关键点与进行对齐操作后的预测的4个关键点之间的损失确定总损失，根据总损失更新深度学习模型的参数，迭代地执行该训练过程，直到满足训练终止条件，例如，达到预设的迭代次数，或者，总损失小于一定的值等。

在步骤230，将训练后的深度学习模型确定为平面预测模型。平面预测模型能够预测图像的平面检测框、平面检测框中的平面掩码、以及平面掩码中的4个关键点。

如图4所示，该实施例的方法包括：

在步骤410，获取一个含有平面的训练图像。

很多图像中都含有平面，例如，桌面、墙面、柜子的各个表面、地面等，但不限于所举示例。图4中示出了一个柜子的侧表面。

在步骤420，获取训练图像在像素坐标系下的平面掩码。

如前所述，可以通过标注获取训练图像在像素坐标系下的平面掩码，也可以通过现成的PlaneRCNN数据集获取训练图像及其在像素坐标系下的平面掩码。

在步骤430，将训练图像的平面掩码从像素坐标系转换到平面坐标系，包括(1-2)：

(1)根据训练图像相关的相机参数、相机坐标系到世界坐标系的旋转平移矩阵，将训练图像的平面掩码从像素坐标系转换到世界坐标系。

像素坐标系下的坐标：相机拍摄一个场景后得到的图像上的坐标，像素坐标系是一个二维坐标系。

训练图像在像素坐标系下的平面掩码中前景点的坐标设为

训练图像在世界坐标系下的平面掩码中前景点的坐标设为

N表示前景点的个数。

(2)将训练图像的平面掩码从世界坐标系转换到平面坐标系。

平面坐标系下的坐标：相当于相机正对着平面拍摄后得到的图像上的坐标，在平面坐标系下，平面上的每个前景点的深度值都是相同的。平面坐标系是一个二维坐标系。

图5示出了三个坐标系的示意图。从左到右，依次为像素坐标系、世界坐标系和平面坐标系。

在平面坐标系下平面掩码中前景点的坐标设为

在世界坐标系下找到平面掩码中的两个点A＝(x₁,y₁,z₁)∈S_world、B＝(x₂,y₂,z₂)∈S_world，然后在世界坐标系上找到实例上的一个点C＝(x₃,y₃,z₃),使得

以A为原点，

为x轴，

为y轴构造平面坐标系。

计算点C的坐标。

已知实例的法线

偏移量为d，A＝(x₁,y₁,z₁),B＝(x₂,y₂,z₂),因为

且点C所在的平面法线为

则得到如下关系：

若向量

和x轴平行，则(x₃,y₃,z₃)＝(x₁,y₁,z₁+1)；

否则，若向量

和x轴不平行，则：

x₃＝0

从的，得到世界坐标系下的点A＝(x₁,y₁,z₁)、B＝(x₂,y₂,z₂)、C＝(x₃,y₃,z₃)。

由于在平面坐标系下A为原点，且

则点A、B、C在平面坐标系下的坐标分别为：

A′＝(0,0,0)

根据三个点在世界坐标系下和平面坐标系下的坐标，得到世界坐标系和平面坐标系之间的变换矩阵M，根据变换矩阵M可计算

从而，得到

即在平面坐标系下平面掩码的前景点的坐标。

每个平面都有自己的平面坐标系，在平面坐标系下可以更加容易地寻找平面掩码的内接矩形(如最大内接正方形)，其4个顶点作为4个关键点。

在步骤440，在平面坐标系下对平面掩码进行中值滤波，表示为：mask＝MedianFilter(mask)，在＝右侧的mask是滤波前的平面掩码，在＝左侧的mask是滤波后的平面掩码。

中值滤波是一种非线性平滑技术，它将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值。

在步骤450，在平面坐标系下对平面掩码进行边缘检测，表示为：edges＝Edge(mask)。

边缘检测技术可以参考现有技术。

在步骤460，基于检测到的平面掩码的边缘，在平面坐标系下对平面掩码进行霍夫(Hough)直线检测，表示为：lines＝HoughLineDetect(edges)。霍夫直线检测方法可以参考现有技术。

进一步的，从检测到的直线中筛选出像素点大于设定阈值voteThresh的直线keep_lines：keep_lines＝{line_j|line_j(pixel)≥voteThresh,line_j∈lines}，其中，lines_j(pixel)表示平面掩码上检测到的第j条直线包含的像素点数目。

在步骤470，基于直线的斜率对检测到的直线进行合并，表示为：merge_lines＝MergeLine(keep_lines)，其中，MergeLine()表示将斜率相近的直线合并为一条。

在步骤480，确定检测到的直线是平面掩码的边界线的概率，从检测到的直线中选择具有垂直关系和平行关系的直线对，表示为：choose_lines＝ChooseLine(merge_lines)。

根据直线两侧对称区域的差异信息，确定检测到的直线是平面掩码的边界线的概率，表示为：

line_k∈merge_lines

其中region1(line_k)和region2(line_k)分别表示直线line_k两侧的固定宽度的对称区域，N为区域中的像素点数目,valueThresh是设置的阈值。直线两侧对称区域的差异越大，该直线是平面掩码的边界线的概率越大。

在步骤490，在寻找到直线对的情况下，将概率和最高的直线对中的概率最高的直线，确定为平面掩码在平面坐标系下的一条边界线；在未寻找到直线对的情况下，将概率最高的直线，确定为平面掩码在平面坐标系下的一条边界线，从而得到平面掩码在平面坐标系下的边界线，表示为BestLine＝getBestLine(choose_lines)。基于所述边界线，在平面坐标系下确定平面掩码的内接矩形。

在平面坐标系下，确定与所述边界线平行的平面掩码的内接矩形，内接矩形例如为最大内接正方形，表示为：square＝MaxInscribedSquare(mask)，其中，square_edge_i//BestLine，最大内接正方形的四个顶点为

在步骤4100，将平面掩码的内接矩形的4个顶点从平面坐标系转换到像素坐标系。

如前所述，已知训练图像在像素坐标系下的平面掩码中前景点的坐标

以及，在平面坐标系下平面掩码的前景点的坐标

由此得到像素坐标系和平面坐标系的变换矩阵T，即

基于前述确定的在平面坐标系下平面掩码中的内接矩形的4个顶点

确定出训练图像在像素坐标系下的平面掩码中4个关键点的坐标表示为：

自动寻找训练图像中平面掩码中内接的4个关键点，并作为训练数据对模型进行训练，使得模型能够预测视频帧图像中的平面掩码中内接的4个关键点，以便将图像嵌入到频帧图像中的合适的位置，进一步提升图像与视频的融合效果。

如图6所示，该实施例的方法包括：

在步骤610，将一段视频的视频帧图像输入平面预测模型，获取预测的视频帧图像的平面掩码。

其中，平面预测模型是利用带有平面检测框和平面掩码的标签的训练图像对深度学习模型训练得到的，具体参考前述实施例。

在步骤620，将欲嵌入图像嵌入到预测的视频帧图像的平面掩码。

例如，将欲嵌入图像嵌入到平面掩码中的与平面掩码的边界线平行的位置区域。

欲嵌入图像例如包括企业标识图像、产品图像、人物图像、以及广告图像等，但不限于所举示例。

自动寻找各个视频帧图像中广泛存在的平面掩码，将欲嵌入图像嵌入到平面掩码，不仅使图像自动地和自然地融合到视频中，而且使图像更广泛地融合到视频中。

如图7所示，该实施例的方法包括：

在步骤710，将一段视频的视频帧图像输入平面预测模型，获取预测的视频帧图像的平面掩码以及其中的4个关键点。

其中，平面预测模型是利用带有平面检测框和平面掩码的标签以及平面掩码中4个关键点的标注信息的训练图像对深度学习模型训练得到的，具体参考前述实施例。

在步骤720，将欲嵌入图像的4个顶点映射到预测的视频帧图像的平面掩码中的4个关键点，并将欲嵌入图像嵌入到预测的视频帧图像的平面掩码中的4个关键点相应的位置区域。

具体的，根据欲嵌入图像I^ad(其分辨率为w×h)的4个顶点(坐标为(0,0),(w,0),(0,h),(w,h))与预测的视频帧图像I^rgb的平面掩码中的4个关键点pre″的映射关系，确定欲嵌入图像I^ad到预测的视频帧图像I^rgb的平面掩码的变换矩阵M∈R^3*3；基于所述变换矩阵，将欲嵌入图像的每个前景点变换到预测的视频帧图像的平面掩码中的4个关键点相应的位置区域，即，对于I^rgb上4个关键点形成的位置区域的每个像素点p^rgb∈R^1*2,通过[p^ad,1]^T＝M[p^rgb,1]^T，在I^ad上找到p^rgb对应的像素点p^ad∈R^1*2，最后将p^ad的像素值赋值给p^rgb。

自动寻找各个视频帧图像中广泛存在的平面掩码以及平面掩码中的4个关键点，将欲嵌入图像嵌入到该平面掩码中的4个关键点相应的位置区域，不仅使图像自动地自然地广泛地融合到视频中，而且提升图像与视频的融合效果。

如图8所示，该实施例的视频中嵌入图像的装置800包括：存储器810以及耦接至该存储器810的处理器820，处理器820被配置为基于存储在存储器810中的指令，执行前述任意一些实施例中的视频中嵌入图像的方法。

其中，存储器810例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

装置800还可以包括输入输出接口830、网络接口840、存储接口850等。这些接口830，840，850以及存储器810和处理器820之间例如可以通过总线860连接。其中，输入输出接口830为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口840为各种联网设备提供连接接口。存储接口850为SD卡、U盘等外置存储设备提供连接接口。

如图9所示，该实施例的平面预测模型获取装置900包括：存储器910以及耦接至该存储器910的处理器920，处理器920被配置为基于存储在存储器910中的指令，执行前述任意一些实施例中的平面预测模型获取方法。

其中，存储器910例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

装置900还可以包括输入输出接口930、网络接口940、存储接口950等。这些接口930，940，950以及存储器910和处理器920之间例如可以通过总线960连接。其中，输入输出接口930为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口940为各种联网设备提供连接接口。存储接口950为SD卡、U盘等外置存储设备提供连接接口。

视频中嵌入图像的装置800与平面预测模型获取装置900可以是不同的装置，也可以是同一装置。例如，视频中嵌入图像的装置800与平面预测模型获取装置900可以部署在一台计算机上，或者，部署在两台计算机上。

本公开一些实施例提出一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现视频中嵌入图像的方法或平面预测模型获取方法。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机程序代码的非瞬时性计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种视频中嵌入图像的方法，其特征在于，包括：

将一段视频的视频帧图像输入平面预测模型，获取预测的视频帧图像的平面掩码以及其中的4个关键点，所述平面预测模型是利用带有平面检测框和平面掩码的标签以及平面掩码中4个关键点的标注信息的训练图像对深度学习模型训练得到的，能够预测图像的平面检测框、平面检测框中的平面掩码、以及平面掩码中的4个关键点，其中，训练图像中的平面掩码中4个关键点的标注信息根据平面掩码的内接矩形确定；

将欲嵌入图像嵌入到预测的视频帧图像的平面掩码包括：将欲嵌入图像的4个顶点与预测的视频帧图像的平面掩码中的4个关键点对齐，并将欲嵌入图像嵌入到预测的视频帧图像的平面掩码中的4个关键点相应的位置区域。

2.根据权利要求1所述的方法，其特征在于，训练图像中的平面掩码中4个关键点的标注信息通过以下方法获得：

将训练图像的平面掩码从像素坐标系转换到平面坐标系；

在平面坐标系下确定平面掩码的边界线；

3.根据权利要求2所述的方法，其特征在于，将训练图像的平面掩码从像素坐标系转换到平面坐标系包括：

将训练图像的平面掩码从像素坐标系转换到世界坐标系；

将训练图像的平面掩码从世界坐标系转换到平面坐标系。

4.根据权利要求2所述的方法，其特征在于，在平面坐标系下确定平面掩码的边界线包括：

在平面坐标系下对平面掩码进行边缘检测；

确定检测到的直线是平面掩码的边界线的概率；

5.根据权利要求4所述的方法，其特征在于，确定检测到的直线是平面掩码的边界线的概率包括：

6.根据权利要求4所述的方法，其特征在于，从检测到的直线中确定平面掩码在平面坐标系下的一条边界线包括：

从检测到的直线中选择具有垂直关系和平行关系的直线对；

7.根据权利要求4所述的方法，其特征在于，确定平面掩码在平面坐标系下的边界线还包括以下至少一个步骤：

8.根据权利要求2所述的方法，其特征在于，在平面坐标系下确定平面掩码的内接矩形包括：

在平面坐标系下确定与所述边界线平行的平面掩码的内接矩形，所述内接矩形包括最大内接正方形。

9.根据权利要求1所述的方法，其特征在于，所述将欲嵌入图像嵌入到预测的视频帧图像的平面掩码包括：

10.根据权利要求1所述的方法，其特征在于，

所述深度学习模型采用基于标注信息中的4个关键点和进行对齐操作后的预测的4个关键点所确定的损失函数；

其中，对预测的4个关键点进行对齐操作包括：

根据所述变换比例，对预测的4个关键点进行大小变换；

基于标注信息中的4个关键点，确定第一位置变换信息；

基于预测的4个关键点，确定第二位置变换信息；

11.根据权利要求1-10任一项所述的方法，其特征在于，

所述深度学习模型包括区域卷积神经网络；

或者，所述欲嵌入图像包括企业标识图像、产品图像。

12.一种平面预测模型获取方法，其特征在于，包括：

利用带有平面检测框和平面掩码的标签以及平面掩码中4个关键点的标注信息的训练图像对深度学习模型进行训练，其中，训练图像中的平面掩码中4个关键点的标注信息根据平面掩码的内接矩形确定；

将训练后的深度学习模型确定为平面预测模型，能够预测图像的平面检测框、平面检测框中的平面掩码、以及平面掩码中的4个关键点。

13.根据权利要求12所述的方法，其特征在于，对训练图像中的平面掩码中4个关键点进行标注包括：

将训练图像的平面掩码从像素坐标系转换到平面坐标系；

在平面坐标系下确定平面掩码的边界线；

14.一种视频中嵌入图像的装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行权利要求1-11中任一项所述的视频中嵌入图像的方法。

15.一种平面预测模型获取装置，其特征在于，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行权利要求12-13中任一项所述的平面预测模型获取方法。

16.一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-11中任一项所述的视频中嵌入图像的方法或权利要求12-13中任一项所述的平面预测模型获取方法。