CN114024944A

CN114024944A - 媒体内容植入方法、装置、电子设备及存储介质

Info

Publication number: CN114024944A
Application number: CN202111289706.0A
Authority: CN
Inventors: 章焱; 刁均威; 程凯常; 吴晓东
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-02-08
Anticipated expiration: 2041-11-02
Also published as: CN114024944B

Abstract

本发明涉及图像处理技术领域，提供一种媒体内容植入方法、装置、电子设备及存储介质。通过根据目标类型的视频流中的多个视频帧获取到目标画面；然后根据获取到的媒体内容和目标画面，在目标画面中确定与媒体内容对应的目标区域；若待定视频帧存在与目标区域匹配的待植入区域，则计算待定视频帧的变换参数，变换参数为待植入区域相对于目标区域的变换参数；最后根据待定视频帧的变换参数，将媒体内容植入到待定视频帧的待植入区域。实现自动植入媒体内容，提高了植入效率，使植入后的视频画面具有良好的显示效果。

Description

媒体内容植入方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种媒体内容植入方法、装置、电子设备及存储介质。

背景技术

目前，在视频流处理方式中可以将媒体内容植入到视频画面中，例如广告内容、特效内容、三维形象等均可以植入到视频中，可以增加媒体内容的曝光度以及提高视频的趣味性。现有技术中通常采用人工植入的方式，其存在媒体内容植入效果差、效率低的问题。

发明内容

有鉴于此，本发明的目的在于提供一种媒体内容植入方法、装置、电子设备及存储介质。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明提供一种媒体内容植入方法，所述方法包括：

根据目标类型的视频流中的多个视频帧获取到目标画面；

根据获取到的媒体内容和所述目标画面，在所述目标画面中确定与所述媒体内容对应的目标区域；

若待定视频帧存在待植入区域，则计算所述待定视频帧的变换参数；所述待植入区域表示与所述目标区域匹配的区域，所述变换参数表示所述待植入区域相对于所述目标区域的变换参数；

根据所述待定视频帧的变换参数，将所述媒体内容植入到所述待定视频帧的待植入区域。

在可选的实施方式中，所述目标画面包括初始关键点；

所述若待定视频帧存在待植入区域，则计算所述待定视频帧的变换参数的步骤，包括：

获取待定关键点；所述待定关键点表示待定视频帧的关键点；

对所述初始关键点和所述待定关键点进行特征匹配，得到目标关键点；所述目标关键点表示所述待定关键点中匹配成功的关键点；

若所述目标关键点的总个数大于预设阈值，则所述待定视频帧存在所述待植入区域；

根据所述目标关键点和目标初始关键点，得到所述待定视频帧的位姿矩阵；所述待定视频帧的位姿矩阵为所述待定视频帧的变换参数；所述目标初始关键点表示所述初始关键点中匹配成功的关键点。

在可选的实施方式中，所述位姿矩阵包括初始旋转分量和初始位移分量；

所述根据所述待定视频帧的变换参数，将所述媒体内容植入到所述待定视频帧的待植入区域的步骤，包括：

根据预设缩放参数和预设内参矩阵，得到所述待定视频帧的初始旋转分量和初始位移分量；

根据所述待定视频帧的初始旋转分量和初始位姿分量，将所述媒体内容植入到所述待定视频帧的待植入区域。

在可选的实施方式中，所述方法还包括：

获取待植入视频帧集合，所述待植入视频帧集合包括设定数目个连续的待植入视频帧，所述待植入视频帧集合中的首个待植入视频帧与所述待定视频帧在时间上连续；

根据所述待定视频帧的变换参数，依次获得每个所述待植入视频帧的变换参数；

根据每个所述待植入视频帧的变换参数，将所述媒体内容植入到每个所述待植入视频帧的待植入区域。

在可选的实施方式中，所述目标画面包括初始关键点；所述变换参数为位姿矩阵；

所述根据所述待定视频帧的变换参数，依次获得每个所述待植入视频帧的变换参数的步骤，包括：

针对任意一个所述待植入视频帧，根据所述待植入视频帧的前一位姿矩阵，对所述待植入视频帧进行透视变换，得到第一视频帧；所述前一位姿矩阵表示所述待植入视频帧的前一个视频帧的位姿矩阵；

对所述初始关键点和所述第一视频帧的关键点进行特征匹配，得到所述第一视频帧的第一位姿矩阵；

根据所述前一位姿矩阵和所述第一位姿矩阵，得到所述待植入视频帧的位姿矩阵；所述待植入视频帧的位姿矩阵为所述待植入视频帧的变换参数；

根据所述待定视频帧的位姿矩阵，对每个所述待植入视频帧进行遍历，依次获得每个所述待植入视频帧的变换参数。

在可选的实施方式中，所述根据所述前一位姿矩阵和所述第一位姿矩阵，得到所述待植入视频帧的位姿矩阵的步骤，包括：

将所述前一位姿矩阵与所述第一位姿矩阵相乘，得到第二位姿矩阵；

根据所述第二位姿矩阵，对所述待植入视频帧进行透视变换，得到第二视频帧；

通过随机抽样一致算法，根据所述初始关键点和第二视频帧的关键点，得到转换矩阵；

将所述第二位姿矩阵与所述转换矩阵相乘，得到所述待植入视频帧的位姿矩阵。

所述根据每个所述待植入视频帧的变换参数，将所述媒体内容植入到每个所述待植入视频帧的待植入区域的步骤，包括：

根据用户输入的偏移参数，得到每个所述待植入视频帧的旋转偏量和位移偏量；

针对任意一个所述待植入视频帧，根据所述待植入视频帧的旋转偏量和位移偏量，对所述待植入视频帧的变换参数进行更新，得到每个所述待植入视频帧的已更新旋转分量和已更新位移分量；

其中，所述待植入视频帧的已更新旋转分量为所述待植入视频帧的初始旋转偏分量与旋转偏量的积；所述待植入视频帧的已更新位移分量为所述待植入视频帧的初始位移分量与位移偏量的和；

根据每个待植入视频帧的已更新旋转分量和已更新位移分量，将所述媒体内容植入到每个所述待植入视频帧的待植入区域。

第二方面，本发明提供一种媒体内容植入装置，所述装置包括：

确定模块，用于根据目标类型的视频流中的多个视频帧获取到目标画面；根据获取到的媒体内容和所述目标画面，在所述目标画面中确定与所述媒体内容对应的目标区域；

计算模块，用于若待定视频帧存在待植入区域，则计算所述待定视频帧的变换参数；所述待植入区域表示与所述目标区域匹配的区域，所述变换参数表示所述待植入区域相对于所述目标区域的变换参数；

植入模块，用于根据所述待定视频帧的变换参数，将所述媒体内容植入到所述待定视频帧的待植入区域。

第三方面，本发明提供一种电子设备，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现前述实施方式中任一项所述的方法。

第四方面，本发明提供一种存储介质，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现前述实施方式中任一项所述的方法。

本发明实施例提供的媒体内容植入方法、装置、电子设备及存储介质，通过根据目标类型的视频流中的多个视频帧获取到目标画面；然后根据获取到的媒体内容和目标画面，在目标画面中确定与媒体内容对应的目标区域；若待定视频帧存在与目标区域匹配的待植入区域，则计算待定视频帧的变换参数，变换参数为待植入区域相对于目标区域的变换参数；最后根据待定视频帧的变换参数，将媒体内容植入到待定视频帧的待植入区域。从而实现自动植入媒体内容，提高了植入效率，并且通过变换参数使媒体内容跟随待植入区域进行相应的变换，可以使植入后的视频画面具有良好的显示效果。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的电子设备方框示意图；

图2示出了本发明实施例提供的媒体内容植入方法的一种流程示意图；

图3示出了本发明实施例提供的媒体内容植入方法的又一种流程示意图；

图4示出了本发明实施例提供的媒体内容植入方法的又一种流程示意图；

图5示出了本发明实施例提供的媒体内容植入方法的一个示例图；

图6示出了本发明实施例提供的媒体内容植入方法的又一个示例图；

图7示出了本发明实施例提供的媒体内容植入方法的又一种流程示意图；

图8示出了本发明实施例提供的媒体内容植入方法的又一种流程示意图；

图9示出了本发明实施例提供的媒体内容植入方法的又一种流程示意图；

图10示出了本发明实施例提供的媒体内容植入方法的又一种流程示意图；

图11示出了本发明实施例提供的媒体内容植入方法的又一个示例图；

图12示出了本发明实施例提供的媒体内容植入装置的一种功能模块图。

图标：110-总线；120-处理器；130-存储器；150-I/O模块；170-通信接口；300-媒体内容植入装置；310-确定模块；330-计算模块；350-植入模块；370-处理模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在视频流中植入媒体内容如广告内容、特效内容、三维形象等，可以增加媒体内容的曝光度以及提高视频的趣味性。现有技术中一般通过人工后期的方式将媒体内容植入到视频画面中，其存在效率低下的问题。同时，媒体内容的植入较为突兀，无法与视频画面较好的融合为一体，存在植入效果差的问题。进而，本发明实施例提供了一种媒体内容的植入方法以解决上述问题。

请参照图1，是本发明实施例提供的一种电子设备的方框示意图。电子设备包括总线110、处理器120、存储器130、I/O模块150、通信接口170。

总线110可以是将上述元件相互连接并在上述元件之间传递通信(例如控制消息)的电路。

处理器120可以通过总线110从上述其它元件(例如存储器130、I/O模块150、通信接口170等)接收命令，可以解释接收到的命令，并可以根据所解释的命令来执行计算或数据处理。

处理器120可能是一种集成电路芯片，具有信号处理能力。该处理器120可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器130可以存储从处理器120或其它元件(例如I/O模块150、通信接口170等)接收的命令或数据或者由处理器120或其它元件产生的命令或数据。

存储器130可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

I/O模块150可以接收经由输入-输出手段(例如，传感器、键盘、触摸屏等)从用户输入的命令或数据，并可以通过总线110向处理器120或存储器130传送接收到的命令或数据。并且用于显示从上述元件接收、存储、处理的各种信息(例如多媒体数据、文本数据)，可以向用户显示视频、图像、数据等。

通信接口170可用于与其他节点设备进行信令或数据的通信。

可以理解的是，图1所示的结构仅为电子设备的结构示意图，电子设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

本发明实施例提供的电子设备可以是智能手机、个人计算机、平板电脑、可穿戴设备、超级移动个人计算机(ultra-mobilepersonalcomputer，UMPC)、上网本、个人数字助理(personaldigitalassistant，PDA)等。本发明实施例对此不作任何限制。

下面将以上述的电子设备作为执行主体，执行本发明实施例提供的各个方法中的各个步骤，并实现对应技术效果。

请参阅图2，图2是本发明实施例提供的一种媒体内容植入方法的流程示意图。

步骤S202，根据目标类型的视频流中的多个视频帧获取到目标画面；

其中，目标类型可以为游戏类型。需要说明的是，目标类型可以按照实际应用设计，本发明实施例不作限定。

可以理解的是，同一种游戏的游戏画面中具有对应的游戏元素。目标类型的视频流可以是游戏类型的视频流，则视频画面中可以包括多种游戏元素。

视频流中包括多个视频帧，每个视频帧均可以包括游戏元素。

可选地，可以从多个视频帧中选取某一个视频帧，将该视频帧作为目标画面，也可以将该视频帧的部分画面作为目标画面。该目标画面中包括游戏元素。

为了达到更好的植入效果，目标画面中可以包括特定的游戏元素，该特定的游戏元素可以是在游戏场景中位置固定的游戏元素，且在目标画面中是显示完整的，没有被其他游戏元素遮挡。该特定的游戏元素可以在后续步骤中提高识别的准确性，即识别视频帧中是否存在与目标画面的目标区域匹配的待植入区域。

步骤S204，根据获取到的媒体内容和目标画面，在目标画面中确定与媒体内容对应的目标区域；

其中，媒体内容可以是广告内容，特效内容，三维形象等其他类型的图像。媒体内容可以理解为是待植入到视频帧中的图像。不同的媒体内容其尺寸大小也不同。

可选地，可以通过用户的选择操作或者默认设置获取到媒体内容，根据该媒体内容的尺寸大小和上述步骤中获得的目标画面，可以在目标画面中确出与媒体内容对应的区域即目标区域。

步骤S206，若待定视频帧存在待植入区域，则计算待定视频帧的变换参数；

其中，待植入区域表示与目标区域匹配的区域；变换参数表示待植入区域相对于目标区域的变换参数。

视频流的处理可以基于时间序列进行逐帧处理，待定视频帧可以理解为多个视频帧中的任意一个视频帧。

游戏画面可能会根据游戏玩家的操作产生视角变化，目标画面中的目标区域也可能相应的产生视角变化。待植入区域可以理解为发生了视角变化的目标区域，变换参数可以理解为用于衡量目标区域与待植入区域之间视角变化的参数。

可选地，若待定视频帧存在待植入区域，可以表示该待定视频帧与目标画面存在视角变化，可以计算出该视频帧的变换参数。

步骤S208，根据待定视频帧的变换参数，将媒体内容植入到待定视频帧的待植入区域。

可选地，基于上述步骤计算得到的待定视频帧的参数，可以将媒体内容进行相应的视角变化，将媒体内容植入到待定视频帧的待植入区域中，以使植入后的视频画面中的媒体内容与待植入区域属于同一视角，具有较良好的融合效果。

可见基于上述设计，通过根据目标类型的视频流中的多个视频帧获取到目标画面；然后根据获取到的媒体内容和目标画面，在目标画面中确定与媒体内容对应的目标区域；若待定视频帧存在与目标区域匹配的待植入区域，则计算待定视频帧的变换参数，变换参数为待植入区域相对于目标区域的变换参数；最后根据待定视频帧的变换参数，将媒体内容植入到待定视频帧的待植入区域。从而实现自动植入媒体内容，提高了植入效率，并且通过变换参数使媒体内容跟从待植入区域进行相应的变换，可以使植入后的媒体内容与待植入区域具有较好的融合度，提升了植入效果。

可选地，变换参数可以采用相机位姿估计中的位姿矩阵，基于变化参数为位姿矩阵，本发明实施例提供了一种可能的实现方式。请参阅图3，其中步骤S206包括以下步骤：

步骤S206-1，获取待定关键点；

其中，待定关键点表示待定视频帧的关键点；

在获取到目标画面后，可以预先对目标画面进行关键点检测，得到目标画面的关键点即初始关键点，这些初始关键点可以用于表示目标区域的特征。

可以理解的是，若待定视频帧包括待植入区域，则表示待定视频帧中包括与目标区域匹配的特征，可以用关键点表示待视频帧中具有的特征。

可选地，可以采用SIFT算法对待定视频帧进行关键点检测，得到待定视频帧的关键点即待定关键点。

需要说明的是，相较于SURF算法或者ORB算法，SIFT算法的精度较高，可以提高特征检测的准确性。SIFT算法是在不同的尺度空间上查找关键点，并计算关键点的方向，其查找到的关键具有突出的特征，去可以避免噪音干扰。

步骤S206-3，对初始关键点和待定关键点进行特征匹配，得到目标关键点；

其中，目标关键点表示待定关键点中匹配成功的关键点；

可选地，可以采用SIFT算法对初始关键点和待定关键点进行特征匹配，得到待定关键点的匹配结果，基于匹配结果，获取待定关键点中匹配成功的关键点即目标关键点。

步骤S206-5，若目标关键点的总个数大于预设阈值，则待定视频帧存在待植入区域；

可选地，若待定关键点中匹配成功的关键点即目标关键点的总个数大于预设阈值，则认为待定视频帧中存在较多与目标区域相似的特征，判定待定视频帧存在待植入区域。媒体内容可以植入到待定视频帧中。

步骤S206-7，根据目标关键点和目标初始关键点，得到待定视频帧的位姿矩阵；

其中，待定视频帧的位姿矩阵为待定视频帧的变换参数；目标初始关键点表示初始关键点中匹配成功的关键点。

初始关键点包括目标区域的特征信息，目标关键点表示待植入区域的特征信息。可以理解的是，目标关键点具有匹配的初始关键点即目标初始关键点。

可选地，可以根据目标关键点与目标初始关键点，得到待定视频帧的位姿矩阵，即待定视频帧的待植入区域相对于目标区域的变换。

可选地，基于上述步骤中得到的待定视频帧的位姿矩阵，本发明实施例提供了一种将媒体内容植入到待定视频帧可能的实现方式。请参阅图4，其中步骤S208可以包括以下步骤：

步骤S208-1，根据预设缩放参数和预设内参矩阵，得到待定视频帧的初始旋转分量和初始位移分量；

其中，基于位姿矩阵是一个三维变换量，其可以分解为旋转分量和平移分量，旋转分量可以用一个3*3的矩阵表示，平移分量为3*1的矩阵表示。

可以理解的是，相机位姿估计通常采用透视投影模型(PerspectiveProjection)。基于透视投影模型，可以采用相机内参矩阵计算出位姿矩阵的旋转分量和平移分量，相机内参矩阵为3*3的矩阵。

在本发明实施例中，相机内参矩阵为预设内参矩阵用N表示，预设缩放参数用α表示，其为实数。预设缩放参数表示媒体内容基于默认尺寸的缩小或放大的倍数。可选地，预设内参矩阵可以通过标定获得，预设缩放参数可以基于用户的交互操作获得。

若得到的位姿矩阵用K表示，旋转分量用R表示，平移分量用T表示。基于以下预设公式组，可以得到初始旋转分量和初始平移分量。

预设公式组：

其中，K表示位姿矩阵；α表示预设缩放参数；N表示预设内参矩阵；

rij表示R矩阵的第i行第j列的元素，tij为T矩阵的第i行第j列元素；R表示旋转分量；R^T旋转分量的转置；I表示单位矩阵。

可选地，基于预设公式组，根据预设缩放参数和预设内参矩阵，采用奇异值分解可以得到待定视频帧的初始旋转分量和初始平移分量。

步骤S208-3，根据待定视频帧的初始旋转分量和初始位姿分量，将媒体内容植入到待定视频帧的待植入区域；

可选地，基于上述步骤得到的待定视频帧的初始旋转分量和初始位姿分量将投影投射，通过渲染引擎如blender、unity3D等，可以将媒体内容植入到待定视频帧的待植入区域，得到植入后的待定视频帧。

基于渲染引擎输出的图像和目标画面，可以根据预设公式得到植入后的待定视频帧。预设公式为：

I₀＝alpha*I_r+(1-alpha)*I；

其中，I₀表示植入后的待定视频帧；I表示目标画面；I_r表示渲染引擎输出的图像；alpha表示权重图，权重图表示图像I_r的透明度，透明度为0至1，值为0表示完全透明，值为1表示完全不透明。

可见基于上述步骤，通过目标画面的初始关键点和待定视频帧的待定关键点进行特征匹配，判定待定视频帧是否存在待植入区域。若存在待植入区域，则计算待定视频帧的位姿矩阵。基于位姿矩阵得到待定视频帧中的待植入区域相对于目标区域得到旋转分量和平移分量，根据该旋转分量和平移分量将媒体内容植入到待定视频帧中，从而实现媒体内容与待植入区域同步变换，进一步提高了媒体内容植入到视频帧的视觉效果。

为了便于理解，下面将以目标类型为游戏类型的视频流为例，对上述步骤进行介绍。

视频流包括多个视频帧，可以基于用户的交互操作获取到目标画面，如用户在多个视频帧中选取某一帧为目标画面。

如图5所示，其为目标画面，是游戏场景中下路二塔的区域。该目标画面中包括特定的游戏元素即下路二塔，该特定游戏元素在游戏场景中为的固定位置，且在目标画面中完整显示，即无如小兵、野怪等其他游戏元素遮挡。可以对目标画面进行关键点检测，获取到初始关键点。

可以根据用户的选择操作获取到媒体内容为旗子，基于旗子和目标画面，可以在目标画面中确定出与旗子对应的目标区域，即为图5中的区域a。

然后，根据视频流的时间序列依次对每个待定视频帧进行检测，通过将每个待定视频帧的关键点和初始关键点进行特征匹配，判断该待定视频帧是否存在待植入区域。例如，获取到视频帧A中匹配成功的关键点的总个数大于预设阈值，则判定视频帧A存在待植入区域。

视频帧A存在待植入区域，基于匹配成功的关键点，计算出视频帧A的位姿矩阵。然后，根据预设缩放参数和预设内参矩阵，基于视频帧A的位姿矩阵得到初始旋转分量和位姿分量。根据该初始旋转分量和位姿分量将旗子植入到视频帧A中，得到植入后的视频帧，如图6所示。

如图6中的区域b为在视频帧A的待植入区域植入的旗子。可以看出，视频帧A相对于目标画面发生了视角变化，植入的媒体内容即旗子也相应地发生了视角变化，使得植入的旗子不突兀，看起来像视频帧中原有的元素，与画面中的其他游戏元素融合为一体，具有良好的显示效果。

可以理解的是，在上述步骤中需要逐帧对视频帧进行判定、计算变换参数，处理速度较慢。当视频帧的分辨率为1080P，处理速度大概在100-200ms之间。进而，本发明实施例提供了一种可能的实现方式，以提升处理速度。请参阅图7，在步骤S208之后，还可以包括以下步骤：

步骤S210，获取待植入视频帧集合；

其中，待植入视频帧集合包括设定数目个连续的待植入视频帧，待植入视频帧集合中的首个待植入视频帧与待定视频帧在时间上连续。

可选地，为了提高处理速度，可以在确定出当前的视频帧不存在待植入区域，判定当前视频帧后时间连续的T个视频帧均不存在待植入区域，直接跳到对当前的视频帧后T+1个视频帧进行处理。T为正整数，可以按照实际应用设计，本发明实施不作限定。

在确定出当前的视频帧存在待植入区域，可以对当前的视频帧后时间连续的M个视频采用精度一般速度较快的算法进行关键点检测，快速判定是否存在待植入区域。也可以判定为当前的视频帧后时间连续的M个视频帧均包括待植入区域。M为设定数目，M为正整数，其可以按照实际应用设计，本发明实施不作限定。

可选地，上述步骤中确定出待定视频帧存在待植入区域，则可以获取待定视频帧后时间上连续的设定数目个待植入视频帧，得到待植入视频帧集合。

步骤S212，根据待定视频帧的变换参数，依次获得每个待植入视频帧的变换参数；

可选地，待定视频帧与设定数目个待植入视频帧时间上连续，则可以认为目标区域基于时间顺序发生了一系列连续的视角变化，则可以基于上述步骤中获取到待定视频帧的变换参数，得到每个待植入视频帧中的待植入区域相对于目标区域的变换参数。

步骤S214，根据每个待植入视频帧的变换参数，将媒体内容植入到每个待植入视频帧的待植入区域；

可选地，获取到每个待植入视频帧的变换参数后，将媒体内容植入到每个待植入视频帧的待植入区域。

可见基于上述步骤，基于确定待定视频帧存在待植入区域，可以获取到待定视频帧后时间连续的多个待植入视频帧，可以基于获得的待定视频帧的变换参数，依次得到每个待植入视频帧的变换参数。可以避免重复对视频帧进行判定，并基于已获得的待定视频帧的变换参数计算后续视频帧的变换参数，从而减少了处理时间，提高了处理速度。

可选地，若待定视频帧的变换参数为位姿矩阵，可以基于待定视频帧的位姿矩阵计算出每个待植入视频帧的位姿矩阵即变换参数。本发明实施例提供了一种可能的实现方式，请参阅图8，步骤S212还可以包括以下步骤：

步骤S212-1，针对任意一个待植入视频帧，根据待植入视频帧的前一位姿矩阵，对待植入视频帧进行透视变换，得到第一视频帧；

其中，前一位姿矩阵表示待植入视频帧的前一个视频帧的位姿矩阵。

可以理解的是，由于待定视频帧与设定数目个待植入视频帧是时间连续的视频帧，这每个视频帧的待植入区域可以认为是目标区域发生的一系列连续的视角变化，且前后连续的两个视频帧具有关联关系，基于这个关联关系可以基于前一个视频帧的位姿矩阵计算后一个视频帧的位姿矩阵。

可选地，采用待植入视频帧的前一个视频帧的位姿矩阵，对待植入视频帧进行透视变换，得到第一视频帧。第一视频帧的可以理解为基于前一个视频帧相对于目标画面的变化量，对待植入视频帧处理后得到的图像。

可以理解的是，若不进行透视变化，将待植入视频帧直接与目标画面进行对比，计算待植入视频帧相对于目标画面的变化量，存在较大的计算量，导致处理速度较低。

步骤S212-3，对初始关键点和第一视频帧的关键点进行特征匹配，得到第一视频帧的第一位姿矩阵；

可选地，可以预先对目标画面进行关键点检测，得到初始关键点。

预先训练一个卷积神经网络，通过该卷积神经网络对第一视频帧进行关键点检测，得到第一视频帧的关键点，且对第一视频帧的关键点和初始关键点进行特征匹配，得到匹配成功的关键点。然后根据匹配成功的关键点得到第一视频帧的第一位姿矩阵。

可选地，卷积神经网络可以采用小型的结构，其计算量小速度快，可以获得较好的关键点匹配结果。

步骤S212-5，根据前一位姿矩阵和第一位姿矩阵，得到待植入视频帧的位姿矩阵；

其中，待植入视频帧的位姿矩阵为待植入视频帧的变换参数。

可选地，可以将前一位姿矩阵与第一位姿矩阵相乘，得到待植入视频帧的位姿矩阵据即待植入视频帧的变换参数。

基于前后视频帧的关联关系计算待植入视频帧的位姿矩阵，可以理解为是将待植入视频帧的位姿矩阵分为两个部分，一部分为前一位姿矩阵即前一个视频帧相对于目标画面的变化量，一部分为第一位姿矩阵，即基于第一视频帧相对于目标画面的变化量，得到的待植入视频帧相对于前一个视频帧的变化量。

步骤S212-7，根据待定视频帧的位姿矩阵，对每个待植入视频帧进行遍历，依次获得每个待植入视频帧的变换参数。

可选地，根据待定视频帧的位姿矩阵，可以计算待定视频帧后第一个待植入视频帧的位姿矩阵，即通过对每个视频帧进行遍历，可以依次获得每个待植入视频帧的位姿矩阵，得到每个待植入视频帧的变换参数。

可见基于上述步骤，基于待定视频帧与待植入视频帧集合在时间上连续，可以认为其待植入区域为目标区域连续的视角变化。可以基于前后两个视频帧的关联关系，由前一个视频帧的位姿矩阵得到后一个视频帧的位姿矩阵，从而进一步提高了处理速度，可以使处理速度达到20帧每秒。

可以理解的是，视频帧之间可能存在抖动，可能会产生误差，为了进一步地提高计算位姿矩阵的准确性，获得更好的植入效果。针对上述步骤S212-5，本发明实施例提供了一种可能的实现方式，请参阅图9，步骤S212-5还可以包括以下步骤：

步骤S212-5-2，将前一位姿矩阵与第一位姿矩阵相乘，得到第二位姿矩阵；

可选地，可以将待植入视频帧的前一个视频帧的位姿矩阵与第一位姿矩阵相乘，得到第二位姿矩阵。

步骤S212-5-4，根据第二位姿矩阵，对待植入视频帧进行透视变换，得到第二视频帧；

可选地，基于上述步骤得的第二位姿矩阵，对待植入视频帧进行透视变化，得到第二视频帧。

步骤S212-5-6，通过随机抽样一致算法，根据初始关键点和第二视频帧的关键点，得到转换矩阵；

可选地，对获得的第二视频帧和目标画面进行密集点跟踪，得到两张图像的大量匹配成功的关键点，再通过随机抽样一致算法即RANSAC(Random sample consensus)算法，计算出转换矩阵。这个转换矩阵可以理解为是用于表示待植入视频帧相对于目标画面更微小的变换量，精度较高。

步骤S212-5-8，将第二位姿矩阵与转换矩阵相乘，得到待植入视频帧的位姿矩阵。

可选地，将第二位姿矩阵与转换矩阵相乘，可以得到待植入视频帧的位姿矩阵。可以理解的是，转换矩阵具有待植入视频帧相对于目标画面更微小的变换量，将其与第二位姿矩阵相乘得到的待植入视频帧的位姿矩阵，误差更小，精度更高。

可选地，基于待植入视频帧的变换参数为位姿矩阵，根据位姿矩阵将媒体内容植入到待植入视频帧可以采用步骤S208-1至步骤S208-3的方式。其基本原理及产生的技术效果和上述实施例相同，为简要描述，可参考上述的实施例中相应内容。

可选地，基于某些业务的需求，媒体内容可以基于待植入区域随时间发生变化，例如三维人物基于多个连续帧实现走动的效果。进而，本发明实施例针对上述步骤S214，提供了一种可能的实现方式。请参阅图10，步骤S214还可以包括以下步骤：

S214-1，根据用户输入的偏移参数，得到每个待植入视频帧的旋转偏量和位移偏量；

可选地，位姿矩阵包括初始旋转分量和初始位移分量。

可以获得到用户输入的偏移参数，该偏移参数可以是预设时长内的旋转偏移参数和位移偏移参数。基于每个待植入视频帧的对应的时长，可以根据用户输入的旋转偏移参数和位移偏移参数，计算出每个视频帧的旋转偏量和位移偏量。

S214-3，针对任意一个待植入视频帧，根据待植入视频帧的旋转偏量和位移偏量，对待植入视频帧的变换参数进行更新，得到每个待植入视频帧的已更新旋转分量和已更新位移分量；

其中，待植入视频帧的已更新旋转分量为待植入视频帧的初始旋转分量与旋转偏量的积；待植入视频帧的已更新位移分量为待植入视频帧的初始位移分量与位移偏量的和；

可选地，每个待植入视频帧的初始旋转分量和初始位移分量，可以根据预设缩放参数和预设内参矩阵得到；然后基于待植入视频帧的旋转偏量和位移偏量进行更新。

针对每个待植入视频帧，可以将待植入视频帧的初始旋转分量与其旋转偏量相乘，得到的积为待植入视频帧的已更新旋转分量；将待植入视频帧的初始位移分量与其位移偏量相加，得到的和为待植入视频帧的已更新位移分量；然后得到每个待植入视频帧的已更新旋转分量和已更新位移分量。

S214-5，根据每个待植入视频帧的已更新旋转分量和已更新位移分量，将媒体内容植入到每个待植入视频帧的待植入区域。

可选地，基于获得的每个待植入视频帧的已更新旋转分量和已更新位移分量，可以将媒体内容植入到每个待植入视频帧的待植入区域，从而实现媒体内容基于待植入区域以动态效果显示，进而提高了视频流的趣味性。

为了便于理解，下面将以上述图6所示的视频帧A作为待定视频帧，以视频帧A后连续的第一个视频帧作为待植入视频帧，对上述步骤进行介绍。

请参阅图6，其为将媒体内容即旗子植入到待定视频帧视频帧A后得到的图像。以视频帧A后连续的第一个视频帧记为视频帧B，将视频帧B作为待植入视频帧。

基于上述实施例中计算出的视频帧A的位姿矩阵，对视频帧B进行透视变换，得到第一视频帧。然后对第一视频帧进行关键点检测，得到第一视频帧的关键点，并对初始关键点和第一视频帧的关键点进行特征匹配，基于匹配成功的关键点，得到第一视频帧的第一位姿矩阵。

可选地，可以将视频帧A的位姿矩阵与第一位姿矩阵相乘，得到视频帧B的位姿矩阵。

也可以将视频帧A的位姿矩阵与第一位姿矩阵相乘，得到第二位姿矩阵。并基于第二位姿矩阵对视频帧B进行透视变换，得到第二视频帧。对第二视频帧和目标画面进行密集点跟踪，并采用随机抽样一致算法，计算出视频帧B的转换矩阵。将第二位姿矩阵与转换矩阵相乘，得到视频帧B的位姿矩阵，以消除视频帧之间的抖动。

根据获得到的视频帧B的位姿矩阵，基于预设缩放参数和预设内参矩阵，计算出视频帧B的初始旋转分量和初始位移分量。根据视频帧B的初始旋转分量和初始位移分量，将媒体内容即旗子植入到视频帧B的待植入区域，得到植入后的视频帧，如图11所示。

图11中的区域c为在视频帧B的待植入区域植入的旗子。可见基于视频帧A的位姿矩阵可以计算出视频帧B的位姿矩阵。对于多个时间连续的待植入视频帧，可以基于前一帧的位姿矩阵，逐帧计算出每个待植入视频帧的位姿矩阵。进而加快了对视频帧的处理，提高了植入效率。

为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种媒体内容植入装置的实现方式。请参阅图12，图12为本发明实施例提供的一种媒体内容植入装置300的功能模块图。需要说明的是，本实施例所提供的媒体内容植入装置300，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该媒体内容植入装置300包括：

确定模块310，用于根据目标类型的视频流中的多个视频帧获取到目标画面；根据获取到的媒体内容和目标画面，在目标画面中确定与媒体内容对应的目标区域；

计算模块330，用于若待定视频帧存在待植入区域，则计算待定视频帧的变换参数；待植入区域表示与目标区域匹配的区域，变换参数表示待植入区域相对于目标区域的变换参数；

植入模块350，用于根据待定视频帧的变换参数，将媒体内容植入到待定视频帧的待植入区域。

可选地，计算模块330还用于：获取待定关键点；待定关键点表示待定视频帧的关键点；对初始关键点和待定关键点进行特征匹配，得到目标关键点；目标关键点表示待定关键点中匹配成功的关键点；若目标关键点的总个数大于预设阈值，则待定视频帧存在待植入区域；根据目标关键点和目标初始关键点，得到待定视频帧的位姿矩阵；待定视频帧的位姿矩阵为待定视频帧的变换参数；目标初始关键点表示初始关键点中匹配成功的关键点。

可选地，植入模块350还用于：根据预设缩放参数和预设内参矩阵，得到待定视频帧的初始旋转分量和初始位移分量；根据待定视频帧的初始旋转分量和初始位姿分量，将媒体内容植入到待定视频帧的待植入区域。

可选地，该媒体内容植入装置300包括处理模块370，处理模块370用于：获取待植入视频帧集合，待植入视频帧集合包括设定数目个连续的待植入视频帧，待植入视频帧集合中的首个待植入视频帧与待定视频帧在时间上连续；根据待定视频帧的变换参数，依次获得每个待植入视频帧的变换参数；根据每个待植入视频帧的变换参数，将媒体内容植入到每个待植入视频帧的待植入区域。

可选地，处理模块370还用于：针对任意一个待植入视频帧，根据待植入视频帧的前一位姿矩阵，对待植入视频帧进行透视变换，得到第一视频帧；前一位姿矩阵表示待植入视频帧的前一个视频帧的位姿矩阵；对初始关键点和第一视频帧的关键点进行特征匹配，得到第一视频帧的第一位姿矩阵；根据前一位姿矩阵和第一位姿矩阵，得到待植入视频帧的位姿矩阵；待植入视频帧的位姿矩阵为待植入视频帧的变换参数；根据待定视频帧的位姿矩阵，对每个待植入视频帧进行遍历，依次获得每个待植入视频帧的变换参数。

可选地，处理模块370还用于：将前一位姿矩阵与第一位姿矩阵相乘，得到第二位姿矩阵；根据第二位姿矩阵，对待植入视频帧进行透视变换，得到第二视频帧；通过随机抽样一致算法，根据初始关键点和第二视频帧的关键点，得到转换矩阵；将第二位姿矩阵与转换矩阵相乘，得到待植入视频帧的位姿矩阵。

可选地，处理模块370还用于：根据用户输入的偏移参数，得到每个待植入视频帧的旋转偏量和位移偏量；针对任意一个待植入视频帧，根据待植入视频帧的旋转偏量和位移偏量，对待植入视频帧的变换参数进行更新，得到每个待植入视频帧的已更新旋转分量和已更新位移分量；其中，待植入视频帧的已更新旋转分量为待植入视频帧的初始旋转分量与旋转偏量的积；待植入视频帧的已更新位移分量为待植入视频帧的初始位移分量与位移偏量的和；根据每个待植入视频帧的已更新旋转分量和已更新位移分量，将媒体内容植入到每个待植入视频帧的待植入区域。

本发明实施例还提供了一种电子设备，包括处理器120和存储器130，存储器130存储有计算机程序，处理器执行计算机程序时，实现上述实施例揭示的媒体内容植入方法。

本发明实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器120执行时实现本发明实施例揭示的媒体内容植入方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种媒体内容植入方法，其特征在于，所述方法包括：

根据目标类型的视频流中的多个视频帧获取到目标画面；

2.根据权利要求1所述的方法，其特征在于，所述目标画面包括初始关键点；

3.根据权利要求2所述的方法，其特征在于，所述位姿矩阵包括初始旋转分量和初始位移分量；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述目标画面包括初始关键点；所述变换参数为位姿矩阵；

6.根据权利要求5所述的方法，其特征在于，所述根据所述前一位姿矩阵和所述第一位姿矩阵，得到所述待植入视频帧的位姿矩阵的步骤，包括：

7.根据权利要求5所述的方法，其特征在于，所述位姿矩阵包括初始旋转分量和初始位移分量；

8.一种媒体内容植入装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现权利要求1至7中任一项所述的方法。