CN110232654A

CN110232654A - 图像合成方法、装置、设备及其存储介质

Info

Publication number: CN110232654A
Application number: CN201910337288.4A
Authority: CN
Inventors: 薄涛
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-09-13

Abstract

本申请公开了图像合成方法、装置、设备及其存储介质。该方法包括：该方法包括：从第一图像数据中提取第一时刻的第一目标对象；查找第二图像数据中与第一时刻对应的图像帧，图像帧包括至少一个第二目标对象；根据第一目标对象和第二目标对象运动轨迹预测合成区域；将第一目标对象与合成区域合成，生成合成图像。根据本申请实施例的技术方案，解决了现有技术中仅在图像的固定位置融合图像，产生的视觉不协调问题。

Description

图像合成方法、装置、设备及其存储介质

技术领域

本申请一般涉及图像处理技术领域，尤其涉及图像合成方法、装置、设备及其存储介质。

背景技术

虚拟现实技术为用户提供了高度逼真的三维视觉，使用户可以产生沉浸式的感受虚拟现实的世界。

为了更好地获得沉浸感受，将真实人物与真实视频进行融合处理时，由于真实视频中存在的真实人物或物体本身，处于状态变化的过程，现有是将合成对象设置在图像的某个固定位置，但是这种固定设置导致合成结果并不十分理想。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种图像合成方法、装置、设备及其存储介质，来解决待合成对象与真实视频的合成结果，造成视觉不兼容的问题。

第一方面，本申请实施例提供了一种图像合成方法，该方法包括：

从第一图像数据中提取第一时刻的第一目标对象；

查找第二图像数据中与第一时刻对应的图像帧，图像帧包括至少一个第二目标对象；

根据第一目标对象和第二目标对象运动轨迹预测合成区域；

将所述第一目标对象与合成区域合成，生成合成图像。

第二方面，本申请实施例提供了一种图像合成装置，该装置包括：

提取单元，用于从第一图像数据中提取第一时刻的第一目标对象；

查找单元，用于查找第二图像数据中与第一时刻对应的图像帧，图像帧包括至少一个第二目标对象；

预测单元，用于根据第一目标对象和第二目标对象运动轨迹预测合成区域；

合成单元，用于将第一目标对象与合成区域合成，生成合成图像。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如本申请实施例描述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序用于：

该计算机程序被处理器执行时实现如本申请实施例描述的方法。

本申请实施例提供的图像合成方法和装置，通过提取第一图像数据中的第一目标对象，以及根据第一目标对象同步查找第二图像数据，同步合成第一目标对象与第二图像数据，并通过对第一目标对象和第二目标对象的运动轨迹预测合成区域，以将第一目标对象在合成区域与第二图像数据合成，从而解决了现有技术中仅在图像的固定位置融合图像，产生的视觉不协调问题。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了本申请实施例提供的图像合成方法的流程示意图；

图2示出了本申请实施例提供的步骤103的流程示意图；

图3示出了根据本申请实施例提供的图像合成装置的示例性结构框图；

图4示出了本申请实施例提供的预测单元303的结构示意图；

图5示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关公开，而非对该公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与公开相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

更好地融合真实场景，可以为线上学习的参与者提供较为真实的参与体验。通过摄像头实时采集线上学习的参与者的图像数据。该图像数据可以是图片、视频等数据。该图像数据还可以包括音频数据。从图像数据通过绿幕抠像处理技术，获得目标对象的真实形象。

然后，将抠出的目标对象融合到真实线下场景。或者，将目标对象融合到课程内容中。在将抠出对象融合到真实线下场景时，线下场景可能存在多个其他的目标对象，例如多个参与实体教学的学生、线下场景的教学用具，教师等等。在将目标对象融合到真实的视频数据中时，尽量避免目标对象突兀的出现在图像中，使得观看者产生不协调的感受。

本申请提出一种图像合成方法期望解决该场景存在的问题。

请参考图1，图1示出了本申请实施例提供的图像合成方法的流程示意图。

如图1所示，该方法包括：

步骤101，从第一图像数据中提取第一时刻的第一目标对象。

本申请实施例中，第一图像数据可以是移动终端的摄像头采集的。移动终端是可以通过网络向服务器请求和接收资源(例如，教室实景数据，教学课件数据等)的电子设备。

移动终端可以以各种形式来实施。例如，本申请实施例中描述的移动终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如台式计算机等等的固定终端。

移动终端可以包括无线通信单元、音频视频输入单元、显示单元、存储器、处理器等等。

无线通信单元可以至少包括移动通信模块和无线互联网模块等，其中移动通信模块可以将无线电信号发送到基站(例如，接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。无线互联网模块支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到移动终端。该模块所涉及的无线互联网接入技术可以包括Wi-Fi、无线宽带、Wimax(全球微波互联接入)，以及蓝牙、射频识别(RFID)、超宽带(UWB)等等。

音频视频输入单元用于接收音频或视频信号。音频视频输入单元可以包括摄像头和麦克风。摄像头根据其在移动终端的布局位置，又可以分为前置摄像头或后置摄像头。摄像头主要在视频捕获模式或图像捕获模式中用于捕捉静态图片或视频的图像数据。然后将图像数据经由图像处理器进行处理后得到图像帧，图像帧可以通过显示单元显示。经移动终端的摄像头捕捉的图像帧可以存储在存储器(或其它存储介质)中或者经由无线通信单元进行发送。本申请实施例中，移动终端可以提供两个或更多摄像头。麦克风可以用于采集用户的声音(音频数据)。

显示单元可以显示在移动终端中处理的信息。例如，显示与应用程序相关的操作界面、摄像头捕捉的图像数据、接收服务器发送的图像数据等。当显示单元为触摸屏幕时，显示单元也可以用作输入装置。显示单元例如可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维显示器等等中的至少一种。

存储器可以包括至少一种类型的存储介质，存储介质包括闪存、硬盘、多媒体卡、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，移动终端106还可以与通过网络连接执行存储器的存储功能的网络存储装置协作。

处理器用于执行存储器中存储的一个或多个软件代码(即程序)。处理器可以包括微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑设备(PLD)处理器等。

移动终端在接收到图像采集指令后，触发摄像头采集包含第一目标对象的第一图像数据。该图像数据包括第一目标对象的音频数据、视频数据或者图片等多媒体数据。第一目标对象可以是接受在线教学内容的学习者，例如幼儿、学生、成人等。第一时刻可以是图像采集指令发出的时刻，或者，演示指令发出的时刻，也可以理解需要采集第一目标对象的任意时刻。第一时刻作为同步获取数据的参考值。

移动终端可以对图像数据进行抠像处理，也可以将图像数据发送至服务器，由服务器对图像数据进行抠像处理后，向移动终端返回抠像处理的结果。优选地，可以采用Chroma-Key抠像算法实时地从第一图像数据中获取第一目标对象。

为了更好地实现抠像处理，在图像采集过程中需设置与移动终端配合使用的幕布，该幕布可以是可折叠幕布。幕布的颜色可以是绿色，蓝色。

步骤102，查找第二图像数据中与第一时刻对应的图像帧。图像帧包括至少一个第二目标对象。

本申请实施例中，第二图像数据是通过摄像装置采集的线下教学场景的图像数据。线下教学场景可以是控制终端所在空间，例如教室等空间。第二目标对象是接受线下教学内容的学习者，例如幼儿、学生、成人等。第二目标对象可以是多个，例如教室里的教学者，多个学习者等。第二目标对象还可以包括教学用具。例如早期教育环境中的教学用具，该教学用具可以辅助幼儿训练的器材，例如滑梯、平衡木等。

以第一时刻为起点从第二图像数据中获取预设范围的多个时间连续的图像帧。通过获取多个时间连续的图像帧，可以预测分析第二图像数据中第二目标对象的运动轨迹。例如，某个幼儿在教学场景中运动轨迹。

步骤103，根据第一目标对象和第二目标对象运动轨迹预测合成区域。

本申请实施例中，通过预测分析第二目标对象运动轨迹，来进一步预测合成区域。合成区域是用于将第一目标对象与第二图像数据合成的位置。

根据第二目标对象运动轨迹可以确定第二目标对象的运动范围，在合成图像时，运动范围出现重叠，则可以避免将第一目标对象合成到第二图像数据，产生图像合成的不协调，也避免通过二次调整造成的时间损耗。

步骤104，将第一目标对象与合成区域合成，生成合成图像。

通过图像处理技术，将第一目标对象与合成区域合成，即可以在第二图像数据中生成平滑真实的合成图像，从而提升合成效果，避免了目标对象之间的不可预见的冲突问题。

本申请实施例，通过预测第二目标对象的运动轨迹，以确定第一目标对象在第二图像数据中的合成区域，按照图像处理算法，将第一目标对象融合到第二图像数据中，从而克服在图像数据中固定位置合成图像，导致视觉不协调问题。

如图2所示，图2示出了本申请实施例提供的步骤103的流程示意图。如图2所示，步骤103还可以包括：

步骤201，预先建立第一运动轨迹预测模型和第二运动轨迹预测模型；

步骤202，将第一目标对象的坐标值输入到第一运动轨迹预测模型，得到第一目标对象的第一预测区域；

步骤203，将第二目标对象的坐标值输入到第二运动轨迹预测模型，得到第二目标对象的第二预测区域；

步骤204，以第二目标对象的坐标值为参考位置，在第二图像数据中确定第一预测区域作为合成区域，合成区域与第二预测区域不重叠。

本申请实施例中，通过预先建立运动轨迹预测模型，来预测第一目标对象和第二目标对象的运动范围，将第一目标对象合成到与第二目标对象运动范围不重叠的区域内，即可以获得较好的融合效果。

其中，预先建立运动轨迹预测模型，可以分别采集第一目标对象的历史图像数据，对历史图像数据进行增强处理，例如直方图修正方法。图像的二值化处理，以及平滑轮廓、填充洞孔、连接断裂区域等处理。

通过人工标注历史图像数据中目标对象，提取历史图像数据中的目标对象的人体形状数据，利用目标对象的位置、大小等参数。例如，在线下教育场景中，多个学生或儿童运动时，实时记录儿童在不同时刻的位置信息。每个时刻对应一个位置坐标，例如第一时刻，位置坐标为(X₁，Y₁)，第二时刻，位置坐标为(X₂，Y₂)，依次获得多个时刻的多个位置坐标构成历史运动轨迹。将运动轨迹划分成训练集和测试集，利用基于密度聚类算法，例如，DBSCAN算法进行训练。

以预设帧数的图像帧作为输入特征，预设帧数的行人轨迹为输出标签，按照密度聚类算法构建运动轨迹预测模型，以对第一目标对象或第二目标对象的运动轨迹进行预测，得到多个预测轨迹点构成的区域作为预测区域。

本申请实施例，通过密度聚类算法动态地预测第一目标对象的运动区域，并考虑第二目标对象的运动区域不重叠的情况，在第二图像数据中确定满足第一目标运动区域的位置，作为合成图像的位置，从而解决了现有技术中固定位置合成图像导致的视觉不协调问题。

应当注意，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

请参考图3，图3示出了根据本申请实施例提供的图像合成装置的示例性结构框图。

如图3所示，该装置包括：

提取单元301，用于从第一图像数据中提取第一时刻的第一目标对象。

查找单元302，用于查找第二图像数据中与第一时刻对应的图像帧。图像帧包括至少一个第二目标对象。

预测单元303，用于根据第一目标对象和第二目标对象运动轨迹预测合成区域。

合成单元304，用于将第一目标对象与合成区域合成，生成合成图像。

如图4所示，图4示出了本申请实施例提供的预测单元303的结构示意图。如图4所示，预测单元303还可以包括：

第一预测子单元401，用于将第一目标对象的坐标值输入到预先构建的第一运动轨迹预测模型，得到第一目标对象的第一预测区域；

第二预测子单元402，用于将第二目标对象的坐标值输入到预先构建的第二运动轨迹预测模型，得到第二目标对象的第二预测区域；

确定子单元403，用于以第二目标对象的坐标值为参考位置，在第二图像数据中确定第一预测区域作为合成区域，合成区域与第二预测区域不重叠。

应当理解，装置300中记载的诸单元或模块与参考图1描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置300及其中包含的单元，在此不再赘述。装置300可以预先实现在电子设备的浏览器或其他安全应用中，也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。装置300中的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。

在上文详细描述中提及的若干模块或者单元，这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统400的结构示意图。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图图1描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在机器可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括提取单元、查找单元、预测单元以及合成单元。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，提取单元还可以被描述为“用于从第一图像数据中提取第一时刻的第一目标对象的单元”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序，当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的图像合成方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种图像合成方法，其特征在于，该方法包括：

从第一图像数据中提取第一时刻的第一目标对象；

查找第二图像数据中与所述第一时刻对应的图像帧，所述图像帧包括至少一个第二目标对象；

根据所述第一目标对象和所述第二目标对象运动轨迹预测合成区域；

将所述第一目标对象与所述合成区域合成，生成合成图像。

2.根据权利要求1所述的图像合成方法，其特征在于，根据所述第一目标对象和所述第二目标对象运动轨迹预测合成区域，包括：

预先建立第一运动轨迹预测模型和第二运动轨迹预测模型；

将所述第一目标对象的坐标值输入到所述第一运动轨迹预测模型，得到所述第一目标对象的第一预测区域；

将所述第二目标对象的坐标值输入到所述第二运动轨迹预测模型，得到所述第二目标对象的第二预测区域；

以所述第二目标对象的坐标值为参考位置，在所述第二图像数据中确定所述第一预测区域作为合成区域，所述合成区域与所述第二预测区域不重叠。

3.根据权利要求2所述的图像合成方法，其特征在于，所述预先建立第一运动轨迹预测模型和第二运动轨迹预测模型，包括：

分别获取所述第一目标对象或第二目标对象的运动轨迹历史数据；

分别预处理所述运动轨迹历史数据；

分别构建运动轨迹训练数据集和测试数据集；

分别利用与所述第一目标对象或与所述第二目标对象相关的所述训练数据集和测试数据集按照密度聚类算法训练，以分别构建所述第一运动轨迹预测模型或第二轨迹预测模型。

4.根据权利要求1所述的图像合成方法，其特征在于，从第一图像数据中提取第一时刻的第一目标对象包括：

采用Chroma-Key抠像算法实时地从所述第一图像数据中获取所述第一目标对象。

5.根据权利要求1所述的图像合成方法，其特征在于，查找第二图像数据中与所述第一时刻对应的图像帧包括：

以所述第一时刻为起点，获取所述第二图像数据中预设范围的多个时间连续的图像帧。

6.一种图像合成装置，其特征在于，该装置包括：

查找单元，用于查找第二图像数据中与所述第一时刻对应的图像帧，所述图像帧包括至少一个第二目标对象；

预测单元，用于根据所述第一目标对象和所述第二目标对象运动轨迹预测合成区域；

合成单元，用于将所述第一目标对象与所述合成区域合成，生成合成图像。

7.根据权利要求6所述的图像合成装置，其特征在于，所述预测单元，包括：

第一预测子单元，用于将所述第一目标对象的坐标值输入到预先构建的第一运动轨迹预测模型，得到所述第一目标对象的第一预测区域；

第二预测子单元，用于将所述第二目标对象的坐标值输入到预先建立的第二运动轨迹预测模型，得到所述第二目标对象的第二预测区域；

确定子单元，用于以所述第二目标对象的坐标值为参考位置，在所述第二图像数据中确定所述第一预测区域作为合成区域，所述合成区域与所述第二预测区域不重叠。

8.根据权利要求6所述的图像合成装置，其特征在于，所述提取单元用于采用Chroma-Key抠像算法实时地从所述第一图像数据中获取所述第一目标对象。

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。