CN113949827A

CN113949827A - 一种视频内容融合方法及装置

Info

Publication number: CN113949827A
Application number: CN202111174780.8A
Authority: CN
Inventors: 王传鹏; 张昕玥; 张婷; 孙尔威; 李腾飞; 周惠存; 陈春梅
Original assignee: Anhui Shangquwan Network Technology Co ltd
Current assignee: Anhui Shangquwan Network Technology Co ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-18
Anticipated expiration: 2041-09-30
Also published as: CN113949827B

Abstract

本发明公开了一种视频内容融合方法及装置，该方法包括：获取第一视频片段和第二视频片段两者中的多个视频帧，并将两者中的多个视频帧进行前景和背景的分离，得到两者的各个视频帧的前景和背景；根据预设的背景类型判断两者各相同播放节点的视频帧的背景的关联关系，将两者各相同播放节点的视频帧的背景进行融合，得到融合后的视频背景；采用神经网络模型识别两者各相同播放节点的视频帧的前景内容类别；根据前景内容类别确定两者各相同播放节点的视频帧的前景内容的互动规则，根据互动规则将各类别的前景内容展示在融合后的视频背景中。本发明通过将前景和背景分类并根据识别内容类别确定的前景展示在融合后的背景中，以实现视频内容的自动融合。

Description

一种视频内容融合方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频内容融合方法及装置。

背景技术

随着互联网的发展，越来越多的人开始剪辑视频，采用各种各样的剪辑软件进行剪辑以满足用户的需求。目前，可以将两个视频的内容逐个视频帧进行拼接(例如两个视频段的视频帧左右拼接)并同时播放。但是目前的两个视频段的逐帧拼接的方式是比较机械的，每个视频段各自的视频帧内容不会根据实际需要自行调整变动，并不能满足目前用户的需求。

发明内容

本发明目的在于，提供一种视频内容融合方法，以解决现有技术中对于视频的拼接不能自动识别视频内容进行自动融合的问题。

为实现上述目的，本发明提供一种视频内容融合方法，包括：

获取第一视频片段和第二视频片段；

分别获取所述第一视频片段和所述第二视频片段中的多个视频帧，并将多个所述视频帧进行前景和背景的分离，获取所述第一视频片段的前景和所述第一视频片段的背景，所述第二视频片段的前景和所述第二视频片段的背景；

根据预设的背景类型判断所述两者各相同播放节点的视频帧的背景的关联关系，并根据所述关联关系将所述两者各相同播放节点的视频帧的背景进行融合，得到融合后的视频背景；

采用神经网络模型识别所述两者各相同播放节点的视频帧的前景内容类别；

根据所述前景内容类别确定所述两者各相同播放节点的视频帧的前景内容的互动规则，根据所述互动规则将所述各类别的前景内容展示在融合后的视频背景中。

优选地，所述根据预设的背景类型判断所述两者各相同播放节点的视频帧的背景的关联关系，并根据所述关联关系将所述两者各相同播放节点的视频帧的背景进行融合，得到融合后的视频背景，包括：

根据所述所述两者各同播放节点的视频帧的背景的映射关系，获取融合后的视频背景，其中，所述映射关系包括融合关系、上下衔接关系、左右衔接关系；

若判定所述所述两者各同播放节点的视频帧的背景的映射关系为所述融合关系，将所述所述两者各同播放节点的视频帧的背景进行融合，获取所述融合后的视频背景；

若判定所述所述两者各同播放节点的视频帧的背景的映射关系为所述上下衔接关系，将所述所述两者各同播放节点的视频帧的背景进行上下拼接，获取所述融合后的视频背景；

若判定所述所述两者各同播放节点的视频帧的背景的映射关系为所述左右衔接关系，将所述所述两者各同播放节点的视频帧的背景进行左右拼接，获取所述融合后的视频背景。

优选地，所述采用神经网络模型识别所述两者各相同播放节点的视频帧的前景内容类别，包括：

将所述第一视频片段和所述第二视频片段两者的前景进行视频截帧，获取每一帧的图片；

将所述每一帧的图片输入Efficientnet-b1深度学习网络模型进行识别，获取所述两者各视频帧的前景内容类别。

优选地，所述根据所述前景内容类别确定所述两者各相同播放节点的视频帧的前景内容的互动规则，根据所述互动规则将所述各类别的前景内容展示在融合后的视频背景中，包括：

根据所述两者各相同播放节点的视频帧的前景内容类别，并根据预设的前景内容类别与前景内容的互动规则的映射关系，确定所述两者各相同播放节点的视频帧的前景内容的互动规则；

根据所述互动规则将所述各类别的前景内容展示在融合后的视频背景中。

本发明还提供一种视频内容融合装置，包括：

获取模块，用于获取第一视频片段和第二视频片段；

分类模块，用于分别获取所述第一视频片段和所述第二视频片段中的多个视频帧，并将多个所述视频帧进行前景和背景的分离，获取所述第一视频片段的前景和所述第一视频片段的背景，所述第二视频片段的前景和所述第二视频片段的背景；

融合模块，用于根据预设的背景类型判断所述两者各相同播放节点的视频帧的背景的关联关系，并根据所述关联关系将所述两者各相同播放节点的视频帧的背景进行融合，得到融合后的视频背景；

识别模块，用于采用神经网络模型识别所述两者各相同播放节点的视频帧的前景内容类别；

生成模块，用于根据所述前景内容类别确定所述两者各相同播放节点的视频帧的前景内容的互动规则，根据所述互动规则将所述各类别的前景内容展示在融合后的视频背景中。

优选地，所述融合模块，还用于：

优选地，所述识别模块，还用于：

优选地，所述生成模块，还用于：

本发明还提供一种终端设备，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上任一项所述的视频内容融合方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行实现如上任一项所述的视频内容融合方法。

相对于现有技术，本发明的有益效果在于：

获取第一视频片段和第二视频片段；分别获取所述第一视频片段和所述第二视频片段中的多个视频帧，并将多个所述视频帧进行前景和背景的分离，获取所述第一视频片段的前景和所述第一视频片段的背景，所述第二视频片段的前景和所述第二视频片段的背景；根据预设的背景类型判断所述两者各相同播放节点的视频帧的背景的关联关系，并根据所述关联关系将所述两者各相同播放节点的视频帧的背景进行融合，得到融合后的视频背景；采用神经网络模型识别所述两者各相同播放节点的视频帧的前景内容类别；根据前景内容类别确定互动规则，根据所述互动规则将所述各类别的前景内容展示在融合后的视频背景中。降低了视频处理的工作量以及增加了视频融合的效率，充分实现了视频融合的个性化展示。

进一步的，采用预设的背景类型确定视频前景和背景的融合位置关系，确保融合后的视频背景合理化，提高视频处理的准确度。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明某一实施例提供的视频内容融合方法的流程示意图；

图2是本发明另一实施例提供的视频内容融合方法背景类型的判断的流程示意图；

图3是本发明又一实施例提供的视频内容融合方法背景类型的判断的流程示意图；

图4是本发明某一实施例提供的视频内容融合方法背景类型的判断的流程示意图；

图5是本发明某一实施例提供的视频内容融合装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，本发明某一实施例提供一种视频内容融合方法，包括以下步骤：

S101：获取第一视频片段和第二视频片段。

具体的，采集待处理的视频，将待处理的视频放入视频库中，从视频库中任选两个视频进行处理，分别命名为第一视频片段和第二视频片段，以便后续进行分类识别和处理。

S102：分别获取所述第一视频片段和所述第二视频片段中的多个视频帧，并将多个所述视频帧进行前景和背景的分离，获取所述第一视频片段的前景和所述第一视频片段的背景，所述第二视频片段的前景和所述第二视频片段的背景。

具体的，获取第一视频片段和第二视频片段的视频帧，获取当前帧的前背景分类，分别为第一视频片段的前景和第一视频片段的背景，第二视频片段的前景和第二视频片段的背景，比如海洋和海鸥，将识别出的海鸥作为前景，海洋作为背景，背景即为视频的整个背景。

S103：根据预设的背景类型判断所述两者各相同播放节点的视频帧的背景的关联关系，并根据所述关联关系将所述两者各相同播放节点的视频帧的背景进行融合，得到融合后的视频背景。

具体的，根据第一视频片段的背景和第二视频片段的背景的映射关系，获取融合后的视频背景，其中，映射关系包括但不限于融合关系、上下衔接关系、左右衔接关系。关于背景类型的设定，用户可根据自身的需求将图像中识别出的内容进行分类和确定关系，再根据机器学习进行视频内容预处理，通过聚类进行对前景和背景分类存储，待视频背景进行融合时调用前景内容。

若判定第一视频片段和第二视频片段的背景的关联关系为融合关系，将第一视频片段的背景和第二视频片段的背景进行融合，获取融合后的视频背景。例如第一视频片段的背景为城市，第二视频片段的背景为车流，则根据背景的关联关系，确定城市和车流是融合关系，将此时的第一视频片段和第二视频片段进行融合。

若判定第一视频片段和第二视频片段的背景的关联关系为上下衔接关系，将第一视频片段的背景和第二视频片段的背景进行上下拼接，获取融合后的视频背景。例如第一视频片段的背景为天空，第二视频片段的背景为海洋，则根据背景的关联关系，确定天空和海洋是上下衔接关系，将此时的第一视频片段和第二视频片段进行上下衔接成新的视频片段，将天空和海洋的拼接作为新的视频背景。

若判定第一视频片段和第二视频片段的背景的关联关系为左右衔接关系，将第一视频片段的背景和第二视频片段的背景进行左右拼接，获取融合后的视频背景。例如第一视频片段的背景为树林，第二视频片段的背景为草原，则根据背景的关联关系，确定树林和草原是左右衔接，将此时的第一视频片段和第二视频片段进行左右衔接。

S104：采用神经网络模型识别所述两者各相同播放节点的视频帧的前景内容类别。

具体的，将第一视频片段的前景和第二视频片段的前景进行视频截帧，获取每一帧的图片，将每一帧的图片输入Efficientnet-b1深度学习网络模型进行识别，获取第一视频片段的前景和第二视频片段的前景中的前景内容类别。

将第一视频片段和第二视频片段的视频进行视频截帧，截取的视频帧作为数据集，数据集中包含每一帧的图片信息，将该图片信息传输至Efficientnet-b1 深度学习网络模型中进行训练，得到训练好的分类模型，将需要识别的视频进行截帧，将每一帧的图片传入训练好的模型中进行特征提取和分类，根据预设的前景特征，识别出第一视频片段和第二视频片段的前景内容，将识别出的前景内容进行分类，以便后续融合。

S105：根据所述前景内容类别确定所述两者各相同播放节点的视频帧的前景内容的互动规则，根据所述互动规则将所述各类别的前景内容展示在融合后的视频背景中。

具体的，根据所述两者各相同播放节点的视频帧的前景内容类别，并根据预设的前景内容类别与前景内容的互动规则的映射关系，确定所述两者各相同播放节点的视频帧的前景内容的互动规则；根据所述互动规则将所述各类别的前景内容展示在融合后的视频背景中。具体而言，所述互动规则用于指示所述两者各相同播放节点的视频帧的前景内容展示在的融合后的视频背景(该视频背景所在的视频帧的播放节点，与所述两者的当前前景内容所在的视频帧的播放节点相同)中的展示方式。其中，当获取到所述两者各相同播放节点的视频帧的前景内容类别后，基于预设的前景内容类别与互动规则的映射关系，去找到对应的前景内容的互动规则。为了便于理解，在此进行举例说明，第一视频片段与第二视频片段有很多视频帧，例如都有50个视频帧，其中，第一视频片段与第二视频片段两者的50个视频帧按照播放时间，两者的50个视频帧的播放节点一一对应(即两者的同一播放节点的视频帧，播放时间几乎相同)。其中，第一视频片段的第一个视频帧的视频内容包括人(前景)和海洋(背景)，第二视频片段的第一个视频帧包括热气球(前景)和天空(背景)，在识别到两个视频片段的背景后，将两个视频片段的背景内容进行融合，即将两者的背景海洋和天空融合以后作为融合后的视频背景(即融合后的视频背景的上半部为天空，融合后的视频背景的下半部为海洋)；识别到第一视频片段和第二视频片段的前景内容类别分别为人和热气球，则基于预设的“人和热气球”的前景内容类别与“人和热气球”的互动规则的映射关系，找到“人和热气球”的互动规则为人搭乘在热气球的下方，此时根据“人搭乘在热气球的下方”这一互动规则将前景内容“人”和“热气球”放置在融合后的视频背景中，并得到“人搭乘在热气球的下方”的融合后的视频前景内容。

本实施例根据预设的背景类型作为判断背景的关联关系的依据，以便确定背景的融合类型，再采用神经网络模型识别视频前景的视频内容，根据互动规则确定前景和融合后的视频背景的类型，以便将两个视频片段融合成新的视频片段，个性化的设置，降低了视频处理的成本，提高了视频融合的效率。

在一实施例，根据第一视频片段的背景和第二视频片段的背景的映射关系，获取融合后的视频背景，其中，映射关系包括融合关系、上下衔接关系、左右衔接关系。其中，映射关系包括但不限于融合关系、上下衔接关系、左右衔接关系。

请参阅图2，若判定第一视频片段的背景和第二视频片段的背景的映射关系为融合关系，将第一视频片段的背景和第二视频片段的背景进行融合，获取融合后的视频背景；例如第一视频片段的背景为城市，第二视频片段的背景为车流，则根据背景的关联关系，确定城市和车流是融合关系，将此时的第一视频片段和第二视频片段进行融合。将第一视频片段的前景和第二视频片段的前景进行视频截帧，获取每一帧的图片，将每一帧的图片输入Efficientnet-b1深度学习网络模型进行识别，获取第一视频片段的前景和第二视频片段的前景中的前景内容类别。根据互动规则确定前景和融合后的视频背景的类型，将视频内容进行融合。

请参阅图3，若判定第一视频片段的背景和第二视频片段的背景的映射关系为上下衔接关系，将第一视频片段的背景和第二视频片段的背景进行上下拼接，获取融合后的视频背景；例如第一视频片段的背景为天空，第二视频片段的背景为海洋，则根据背景的关联关系，确定天空和海洋是上下衔接关系，将此时的第一视频片段和第二视频片段进行上下衔接成新的视频片段，将天空和海洋的拼接作为新的视频背景。将第一视频片段的前景和第二视频片段的前景进行视频截帧，获取每一帧的图片，将每一帧的图片输入Efficientnet-b1深度学习网络模型进行识别，获取第一视频片段的前景和第二视频片段的前景中的前景内容类别。根据互动规则确定前景和融合后的视频背景的类型，将视频内容进行融合。

请参阅图4，若判定第一视频片段的背景和第二视频片段的背景的映射关系为左右衔接关系，将第一视频片段的背景和第二视频片段的背景进行左右拼接，获取融合后的视频背景。例如第一视频片段的背景为树林，第二视频片段的背景为草原，则根据背景的关联关系，确定树林和草原是左右衔接，将此时的第一视频片段和第二视频片段进行左右衔接。将第一视频片段的前景和第二视频片段的前景进行视频截帧，获取每一帧的图片，将每一帧的图片输入 Efficientnet-b1深度学习网络模型进行识别，获取第一视频片段的前景和第二视频片段的前景中的前景内容类别。根据互动规则确定前景和融合后的视频背景的类型，将视频内容进行融合。

请参阅图5，本发明另一实施例提供一种视频内容融合装置，包括：

获取模块11，用于获取第一视频片段和第二视频片段。

分类模块12，用于分别获取所述第一视频片段和所述第二视频片段中的多个视频帧，并将多个所述视频帧进行前景和背景的分离，获取所述第一视频片段的前景和所述第一视频片段的背景，所述第二视频片段的前景和所述第二视频片段的背景。

融合模块13，用于根据预设的背景类型判断所述两者各相同播放节点的视频帧的背景的关联关系，并根据所述关联关系将所述两者各相同播放节点的视频帧的背景进行融合，得到融合后的视频背景。

识别模块14，用于采用神经网络模型识别所述两者各相同播放节点的视频帧的前景内容类别。

生成模块15，用于根据所述前景内容类别确定所述两者各相同播放节点的视频帧的前景内容的互动规则，根据所述互动规则将所述各类别的前景内容展示在融合后的视频背景中。

本实施例根据预设的背景类型作为判断背景的关联关系的依据，以便确定背景的融合类型，再采用神经网络模型识别视频前景的视频内容，根据互动规则确定前景和融合后的视频背景的类型，以便将两个视频片段融合成新的视频片段，个性化的设置，降低了视频处理的成本，提高了视频融合的效率

本发明某一实施例提供一种终端设备，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的视频内容融合方法。

处理器用于控制该计算机终端设备的整体操作，以完成上述的视频内容融合方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该计算机终端设备的操作，这些数据例如可以包括用于在该计算机终端设备上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器 (Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

在一示例性实施例中，计算机终端设备可以被一个或多个应用专用集成电路(Application Specific 1ntegrated Circuit，简称AS1C)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的视频内容融合方法，并达到如上述方法一致的技术效果。

在另一示例性实施例中，还提供了一种包括计算机程序的计算机可读存储介质，该计算机程序被处理器执行时实现上述任意一个实施例中的视频内容融合方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器，上述程序指令可由计算机终端设备的处理器执行以完成上述的视频内容融合方法，并达到如上述方法一致的技术效果。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种视频内容融合方法，其特征在于，包括：

获取第一视频片段和第二视频片段；

分别获取所述第一视频片段和所述第二视频片段两者中的多个视频帧，并将两者中的多个所述视频帧进行前景和背景的分离，得到所述两者的各个视频帧的前景和背景；

2.根据权利要求1所述的视频内容融合方法，其特征在于，所述根据预设的背景类型判断所述两者各相同播放节点的视频帧的背景的关联关系，并根据所述关联关系将所述两者各相同播放节点的视频帧的背景进行融合，得到融合后的视频背景，包括：

3.根据权利要求1或权利要求2所述的视频内容融合方法，其特征在于，所述采用神经网络模型识别所述两者各相同播放节点的视频帧的前景内容类别，包括：

4.根据权利要求3所述的视频内容融合方法，其特征在于，所述根据所述前景内容类别确定所述两者各相同播放节点的视频帧的前景内容的互动规则，根据所述互动规则将所述各类别的前景内容展示在融合后的视频背景中，包括：

5.一种视频内容融合装置，其特征在于，包括：

获取模块，用于获取第一视频片段和第二视频片段；

6.根据权利要求5所述的视频内容融合装置，其特征在于，所述融合模块，还用于：

7.根据权利要求5或权利要求6所述的视频内容融合装置，其特征在于，所述识别模块，还用于：

8.根据权利要求7所述的视频内容融合装置，其特征在于，所述生成模块，还用于：

9.一种计算机终端设备，其特征在于，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至4任一项所述的视频内容融合方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的视频内容融合方法。