CN110458820A

CN110458820A - 一种多媒体信息植入方法、装置、设备及存储介质

Info

Publication number: CN110458820A
Application number: CN201910723289.2A
Authority: CN
Inventors: 生辉; 黄东波; 陈戈
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-11-15

Abstract

本发明提供了一种多媒体信息植入方法、装置、设备及存储介质；方法包括：获取被植入视频帧，获取待植入多媒体信息的待植入图像；在被植入视频帧中的首帧图像中，确定待植入区域，以及确定在被植入视频帧中的每一帧图像上的追踪区域，追踪区域为被植入视频帧中每一帧图像中的相同追踪对象所在的区域；确定每一帧图像中的追踪区域的位置信息；基于每一帧图像中的追踪区域的位置信息，确定出首帧图像与剩余帧图像之间的偏移量；剩余帧图像为每一帧图像中除首帧图像之外的图像；基于偏移量和待植入区域，对待植入图像进行植入，得到目标视频帧。本发明能够降低多媒体信息植入视频信息中时的抖动，提高多媒体信息植入的视频信息的视频质量。

Description

一种多媒体信息植入方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种多媒体信息植入方法、装置、设备及存储介质。

背景技术

在互联网的视频信息播放场景中，除了播放自身的视频信息，还有展示多媒体信息的需求；一般来说，该多媒体信息的展示形式主要包括植入多媒体信息和弹出多媒体信息两种形式；其中，植入多媒体信息是指在视频信息中的桌面和台面等预设植入实体上植入三维模型或者实物等多媒体信息的形式。

然而，多媒体信息的植入位置一般会选在视频信息中出现的桌面、墙面和相框位置等。一般来说，背景视频(视频信息)中的多媒体信息植入位置在不同帧中是不断偏移的，直接将前景(实物、3D模型和平面广告)植入背景视频会造成前景的抖动，影响播放效果。

发明内容

本发明实施例提供一种多媒体信息植入方法、装置、设备及存储介质，能够降低多媒体信息植入视频信息中时的抖动，提高多媒体信息植入的视频信息的视频质量。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种多媒体信息植入方法，包括：

获取被植入视频帧，以及获取待植入多媒体信息的待植入图像；

在所述被植入视频帧中的首帧图像中，确定待植入区域，以及确定在所述被植入视频帧中的每一帧图像上的追踪区域，其中，所述追踪区域为所述被植入视频帧中每一帧图像中的相同追踪对象所在的区域；

确定所述每一帧图像中的追踪区域的位置信息；

基于所述每一帧图像中的追踪区域的位置信息，确定出所述首帧图像与剩余帧图像之间的偏移量；所述剩余帧图像为所述每一帧图像中除所述首帧图像之外的图像；

基于所述偏移量和所述待植入区域，对所述待植入图像进行植入，得到目标视频帧。

本发明实施例提供一种多媒体信息植入装置，包括：

获取单元，用于获取被植入视频帧，以及获取待植入多媒体信息的待植入图像；

确定单元，用于在所述被植入视频帧中的首帧图像中，确定待植入区域，以及确定在所述被植入视频帧中的每一帧图像上的追踪区域，其中，所述追踪区域为所述被植入视频帧中每一帧图像中的相同追踪对象所在的区域；及确定所述每一帧图像中的追踪区域的位置信息；以及基于所述每一帧图像中的追踪区域的位置信息，确定出所述首帧图像与剩余帧图像之间的偏移量；所述剩余帧图像为所述每一帧图像中除所述首帧图像之外的图像；

植入单元，用于基于所述偏移量和所述待植入区域，对所述待植入图像进行植入，得到目标视频帧。

本发明实施例提供一种多媒体信息植入设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的多媒体信息植入方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的多媒体信息植入方法。

本发明实施例具有以下有益效果：

多媒体信息植入装置可以基于在被植入视频帧中的追踪区域的位置追踪，得到被植入视频帧中的首帧图像与剩余帧图像之间的偏移量，来实现多媒体信息的植入，从而得到目标视频帧，基于偏移量消除了多媒体信息植入时的位置偏移，降低了多媒体信息植入视频信息中时的抖动，使得最终植入的视频信息在播放时视感更和谐，视频质量更好。

附图说明

图1a-1d为本发明实施例提供的示例性的植入多媒体信息的示意图；

图2是本发明实施例提供的多媒体信息植入系统1的一个可选的架构示意图；

图3是本发明实施例提供的信息植入服务器200的结构示意图；

图4为本发明实施例提供的多媒体信息植入方法的另一个可选的流程示意图；

图5为本发明实施例提供的示例性的首帧图像的示意图；

图6为本发明实施例提供的一个示例性的多媒体信息植入的示意图；

图7为本发明实施例提供的多媒体信息植入方法的又一个可选的流程示意图；

图8为本发明实施例提供的示例性的剩余帧图像的一帧图像的追踪区域示意图；

图9为本发明实施例提供的多媒体信息植入方法的再一个可选的流程示意图；

图10为本发明实施例提供的待植入子图像的获取示意图；

图11为本发明实施例提供的多媒体信息植入方法的还一个可选的流程示意图；

图12为本发明实施例提供的另一个示例性的多媒体信息植入的示意图；

图13为本发明实施例提供的多媒体信息植入方法应用在Video-In中的优势示意图；

图14为本发明实施例提供的多媒体信息植入方法应用在Video-In中的市场潜力示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作可选的详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本发明实施例所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明实施例中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本发明实施例提供的多媒体信息植入方法就涉及到了人工智能。

1)、视频信息：当连续的图像变化每秒超过预订数量帧时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，而看上去是平滑连续的视觉效果，这样连续的图像即为视频信息；比如，单独的一个视频文件，或一个视频片段。

2)、视频库：用于存储视频信息的数据库。

3)、镜头：摄像机一次连续拍摄的一段视频，由若干视频帧组成。

4)、视频帧：指视频的最小单位，是一幅静态的图像；比如，在播放视频信息时，定格在任意时刻的画面，即为一个视频帧。

5)、多媒体信息：计算机和视频技术的结合，这里，指用于植入视频帧中的信息；比如，广告图片。

6)、植入实体：视频帧中所呈现的用于植入多媒体信息的现实世界中的实物，比如，视频帧中的桌子和吧台等。

需要说明的是，当在视频信息中展示的多媒体信息为广告时，包括两种展示形式：弹窗广告和植入广告；其中，对于弹窗广告，又称为Video-Out，是一种场景弹窗广告，指基于视频信息中汽车、人脸、目标和场景等视频信息内容，展示与视频信息内容相关的弹窗广告；而对于植入广告，又称为Video-In，是一种软广告形式，指在视频帧的桌面、墙面、相框、吧台和广告牌等位置植入平面或者实物广告。

图1a-1d为本发明实施例提供的示例性的植入广告的示意图，其中，图1a描述了在桌面上植入牛奶盒的场景示意图，左侧图为未植入牛奶盒之前的视频帧a1，右侧图为已植入牛奶盒的视频帧a1；如图1a的左侧图所示，在视频帧a1中摆放有桌子a1-1，且在桌子a1-1上放置有杯子a1-2和盘子a1-3；如图1a的右侧图所示，视频帧a1中的桌子a1-1上除了放置有杯子a1-2和盘子a1-3，还放置了牛奶盒a1-4。

图1b描述了在桌面上植入携带海报的三维模型的场景示意图，左侧图为未植入携带海报的三维模型之前的视频帧a1，右侧图为已植入携带海报的三维模型的视频帧a1；图1b中的左侧图同图1a的左侧图一致，图1b中的右侧图示出了，视频帧a1中的桌子a1-1上除了放置有杯子a1-2和盘子a1-3，还放置了携带海报的三维模型a1-5。

图1c描述了在相框中植入海报的场景示意图，上侧图为未植入海报的视频帧c1，下侧图为已植入海报的视频帧c1；如图1c的上侧图所示，在视频帧c1中摆放有吊灯c1-1，以及墙面c1-2和相框c1-3；如图1c的下侧图所示，在视频帧c1中摆放有吊灯c1-1，以及墙面c1-2和相框c1-3，相框c1-3中还显示有海报c1-4。

图1d描述了在显示屏中植入海报的场景示意图，上侧图为未植入海报的视频帧d1，下侧图为已植入海报的视频帧d1；如图1d的上侧图所示，在视频帧d1中的桌子d1-1摆放有显示屏d1-2；如图1d的下侧图所示，在视频帧d1中，桌子d1-1摆放的显示屏d1-2中还显示有海报d1-3。

针对上述的Video-In植入广告，一般来说，会在视频信息(相当于背景)的内部进行实物、3D模型和平面广告等广告形式(相当于前景)的植入。这些广告的植入位置，一般会选在桌面、墙面和相框位置等植入实体。由于镜头的移动，背景(电视剧、电影和综艺等视频信息)中的植入位置在不同帧中是不断偏移的。若是直接将前景(实物、3D模型和平面广告)植入背景的视频信息中就会造成前景的抖动，从而引起视感的不和谐，植入后的视频信息的质量变差。

基于此，本发明实施例提供一种多媒体信息植入方法、装置、设备和存储介质，能够消除多媒体信息植入后的视频信息中造成视频抖动，下面说明本发明实施例提供的多媒体信息植入设备的示例性应用，本发明实施例提供的设备可以实施为智能手机、平板电脑、笔记本电脑等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为服务器时示例性应用。

参见图2，图2是本发明实施例提供的多媒体信息植入系统1的一个可选的架构示意图，为实现支撑一个视频播放应用(APP)，终端400(示例性示出了终端400-1和终端400-2)通过网络300连接视频服务器100，信息植入服务器200通过网络300连接多媒体服务器500和视频服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

信息植入服务器200，用于从多媒体服务器400中获取至少一个多媒体信息的待植入图像，以及从视频服务器100中获取要植入多媒体信息的被植入视频信息，并在被植入视频帧中的首帧图像中，确定待植入区域，以及确定在被植入视频帧中的每一帧图像上的追踪区域，其中，追踪区域为被植入视频帧中每一帧图像中的相同追踪对象所在的区域；确定每一帧图像中的追踪区域的位置信息；基于每一帧图像中的追踪区域的位置信息，确定出首帧图像与剩余帧图像之间的偏移量；剩余帧图像为每一帧图像中除首帧图像之外的图像；基于偏移量和待植入区域，对待植入图像进行植入，得到目标视频帧。在获取到多个单镜头视频分片中的被植入视频帧的多个目标视频帧之后，将多个目标视频帧融合，得到已植入视频信息，发布已植入视频信息给视频服务器100，由视频服务器100为终端400提供已植入视频信息。

终端400，用于在视频播放应用中，接收到已植入视频信息的播放指令时，在APP界面410(示例性示出了APP界面410-1和APP界面410-2)播放已植入视频信息。

需要说明的是，信息植入服务器200、多媒体服务器400和视频服务器100可以为集成为一体的服务器，也可以为单独的服务器，本发明实施例不作限制。

参见图3，图3是本发明实施例提供的信息植入服务器200的结构示意图，图3所示的信息植入服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的多媒体信息植入装置可以采用软件方式实现，图3示出了存储在存储器250中的多媒体信息植入装置255，其可以是程序和插件等形式的软件，包括以下软件模块：获取单元2551、确定单元2552、植入单元2553、融合单元2554、接收单元2555和播放单元2556，将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的多媒体信息植入设备(即多媒体信息植入装置的实体设备，例如信息植入服务器)可以采用硬件方式实现，作为示例，本发明实施例提供的多媒体信息植入设备可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的多媒体信息植入方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(AS IC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Program mable Logic Device)、现场可编程门阵列(FPGA，Field-ProgrammableGate Array)或其他电子元件。

将结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的多媒体信息植入方法。

参见图4，图4是本发明实施例提供的多媒体信息植入方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。本发明实施例提供的多媒体信息植入方法可以由计算机设备(即多媒体信息植入设备)执行，计算机设备包括终端及服务器。另外，本发明实施例中的执行主体以信息植入服务器为例进行说明。

S101、获取被植入视频帧，以及获取待植入多媒体信息的待植入图像。

S102、在被植入视频帧中的首帧图像中，确定待植入区域，以及确定在被植入视频帧中的每一帧图像上的追踪区域，其中，追踪区域为被植入视频帧中每一帧图像中的相同追踪对象所在的区域。

S103、确定每一帧图像中的追踪区域的位置信息。

S104、基于每一帧图像中的追踪区域的位置信息，确定出首帧图像与剩余帧图像之间的偏移量；剩余帧图像为每一帧图像中除首帧图像之外的图像。

S105、基于偏移量和待植入区域，对待植入图像进行植入，得到目标视频帧。

在本发明实施例中，多媒体信息可以为实体广告、平面广告、3D模型广告等，本发明实施例不作限制。而视频信息中的植入实体可以为桌面，墙面或者相框等实体，本发明实施例在针对墙面或者相框等实体进行多媒体信息植入时，需要结合仿射变化技术和本发明实施例提出的多媒体信息植入方法来实现，而针对桌面等实体进行多媒体信息植入时，则可直接使用本发明实施例提供的多媒体信息植入方法来是实现。

在S101中，在本发明实施例中，当广告商等多媒体投放者在被植入视频信息中进行多媒体信息投放时，信息植入服务器先从被植入视频信息中确定一个要植入多媒体信息且包含可以进行多媒体信息植入的植入实体(或实体场景)的视频帧，即被植入视频帧；由于多媒体信息中的多媒体对象为实物(比如，牛奶盒或者显示有海报的三维模型)，针对一个多媒体对象对应存在不同角度的多个多媒体图像，即一个待植入多媒体信息的多个多媒体图像，先要从多个多媒体图像中的确定出与被植入视频帧中的植入实体的朝向差别最小的多媒体图像，即待植入图像。

可选的，信息植入服务器需获取待植入视频帧中植入实体的朝向信息，即后景倾斜度信息，信息植入服务器从海量前景广告实物图片(多个多媒体图像)中自动筛选出朝向角度与背景和谐程度最高的待植入图像，来实现多媒体信息的植入。

可选的，针对待植入图像，与被植入视频的饱和度、亮度、对比度等多项指标差别度较大。信息植入技术可以先基于自动前景渲染技术，实现对待植入图像的渲染处理，使得二者的饱和度、亮度和对比度等相差少一些，达到图像之间的和谐。

需要说明的是，针对被植入视频帧为被植入视频信息中的任意一组被植入视频帧，其可以为一个单镜头的视频分片，包含有这个视频分片中的多个视频帧。

在本发明实施例中，信息植入服务器针对每个镜头的视频分片中的关键帧，会先进行场景识别，当识别出有植入实体时，就可以将这个镜头对应的视频分片中的视频帧当做被植入视频帧了，也就是说，被植入视频帧中的每个视频帧包含可以进行多媒体信息植入的同一个植入实体的场景。

需要说明的是，待植入视频帧为视频信息中用于植入待植入多媒体信息的一个视频分片，指视频信息中的单镜头对应的多个视频帧；待植入视频帧中包含植入实体，预设植入实体为待植入视频帧中具有承载面的实物对象，比如，桌子或者吧台。

在S102中，在本发明实施例中，被植入视频帧为一个单镜头的视频分片，其中包含多帧视频帧，针对被植入视频帧中的首帧图像，可以确定针对植入实体的待植入区域，以及确定出针对被植入视频帧中每一帧图像中的相同追踪对象所在的区域，及追踪区域。

在本发明实施例中，信息植入服务器可以根据多模态视频植入广告位检测算法，直接输出植入实体对应的待植入区域，其表示形式可以为待选框或者待选区域等，本发明实施例不作限制；信息植入服务器也可以直接根据设计师的经验，直接确定出植入实体对应的待植入区域，本发明实施例不限制待植入区域的确定方式。

需要说明的是，在本发明实施例中，针对被植入视频帧的每一帧的待植入区域的位置是一定的，不变的，因此只需确定出首帧图像的待植入区域即可，这样减少了信息处理的复杂度。当然，也可以针对每一帧图像进行待植入区域的确定，但是采用的方式一样，所以本发明采用首帧图像的处理结果即可。

在本发明的一些实施例中，待植入区域可以由信息植入服务器在被植入视频帧中的任意一帧图像中确定即可，例如在被植入视频帧的关键帧等，本发明实施例不作限制。其中，本发明实施例中的多模态视频植入广告位检测算法是对被植入视频帧中的场景进行检测的算法，详细的如下：

针对桌面场景，采用桌面广告为检测，主要可以基于实例分割mask R-CNN的非中心物件填补算法，和采用基于蒙版内色块聚类和有约束矩形搜索的桌面空白填补算法。其中，基于实例分割mask R-CNN的非中心物件填补算法是在被植入视频帧中的关键帧的首帧图像进行目标识别和分割。当发现桌面时，信息植入服务区判断桌面上放置小物件的位置和尺寸。当有人物时，选择离人物欧氏距离乘积最远的目标为可遮挡目标(非中心物件)，可以使用面积为其倍数(例如8倍)的平面广告牌遮挡，即该算法提供的广告位置，即待植入区域。或者当发现桌面时，基于蒙版内色块聚类和有约束矩形搜索的桌面空白填补算法，信息植入服务器将桌面蒙版中的其他小物件蒙版扣除(茶杯、手机、花瓶和人等)，余留下多块蒙版区域。在这些非连通的蒙版区域内，进行色块聚类和有约束的矩形搜索，就可以找到最大的桌面空白区域。这个最大的桌面空白蒙版区域就是检测出的潜在广告位区域，即待植入区域。

针对墙面场景，基于色块聚类和光流对比的桌面广告位检测算法，信息植入服务器对被植入视频帧中的关键帧的首帧图像，使用色块聚类的算法筛选出单帧的墙面场景(例如，要求连通面积不小于图像尺寸的1/8)。在连续的多帧图像中，信息植入服务器通过光流对比的算法，将帧间形变较大的潜在墙面场景进行删除，保留下的区域，就是潜在的墙面广告区域，即待植入区域。

针对相框或电视框等场景，基于DaSiamRPN算法的相框广告位识别算法，信息植入服务器对被植入视频帧中的关键帧的首帧图像，使用目标识别算法DaSiamRPN算法完成相框的检测和定位。信息植入服务器会在每个关键帧上输出相框置信度和待选框(boundingbox)，选择置信度为预设阈值(例如，0.8)以上的区域为潜在的广告位，即待植入区域。

可以理解的是，信息植入服务器可以自动化的实现植入广告位，即待植入区域的检测，并且相对于人工所需要的视频时长1.5倍的检测时间，上述检测方式可以将时间压缩到0.2倍视频时长，进一步提升了检测的时间效率。

在本发明实施例中，信息植入服务器在进行追踪区域的确定时，可以通过识别算法，识别出被植入视频帧中的每一帧图像中的位置固定不变的实物，并且这个实物是针对植入实体的相对位置不变的。例如，桌子上的杯子等，并且还是每一帧图像中均包含的实物。这样信息植入服务器就可以将这个实物所在的区域作为追踪区域了。

可以理解的是，由于被植入视频帧是针对一个单镜头拆分得到的，那么可以认为被植入视频帧中的每一帧图像针对的场景是一致的，即其中的植入实体是一致的，那么针对植入实体确定的同一个场景中的相同追踪对象是很容易找到的，通过物体识别即可找到。

在本发明的一些实施例中，待植入区域与追踪区域可以是针对每一帧图像中的植入实体的两个不同的区域；还可以将待植入区域直接作为追踪区域来实现，即待植入区域与追踪区域为相同的区域，本发明实施例不作限制。

示例性的，如图5所示，针对被植入视频帧中的首帧图像1，信息植入服务器确定了待植入区域2，以及在桌面3上固定不变的追踪对象-杯子4，杯子4所处的区域就是追踪区域5(虚线框区域)。

在S103中，由于被植入视频帧可能是移动镜头拍摄得到的，那么追踪对象所在的区域在每一帧图像的位置可能存在微小的变化，因此，信息植入服务器在确定了每一帧图像中的追踪区域后，可以确定出每一帧图像中的追踪区域的位置信息，即追踪区域在一帧图像中的坐标信息。

需要说明的是，在本发明实施例中，信息植入服务器可以采用追踪区域中的质心点的像素位置作为追踪区域的位置信息，也可以采用追踪区域中的角点的像素位置作为追踪区域的位置信息，还可以采用追踪区域中的任意一点的像素位置作为追踪区域的位置信息，或者采用围绕某一点的小区域的区域坐标位置作为追踪区域的位置信息等，本发明实施例不作限制。但是，每一帧图像的追踪区域的位置信息的确定是采用相同的原则确定的，例如，均采用追踪区域中的质心点的像素位置作为追踪区域的位置信息，或者均采用追踪区域中的角点的像素位置作为追踪区域的位置信息等。也就是说，每一帧图像的追踪区域都是获取区域中相同一个位置的位置信息，当做其追踪区域的位置信息的。

可选的，信息植入服务器可以基于像素点在图像中的位置信息来获取位置信息。这里的追踪区域的位置信息可以由二维坐标信息表示。

在S104中，由于信息植入服务器获取了每一帧图像中相同实物，即追踪区域的相同位置的位置信息，即追踪区域的位置信息，因此，该信息植入服务器就可以从每一帧图像之间的追踪区域的位置信息的偏移，得到每一帧图像之间的偏移量。信息植入服务器基于每一帧图像中的追踪区域的位置信息，确定出首帧图像与剩余帧图像之间的偏移量；剩余帧图像为每一帧图像中除首帧图像之外的图像。

需要说明的是，由于信息植入服务器对多媒体信息的植入是从被植入视频帧的首帧图像开始的，为了多媒体信息植入的平滑，无抖动，信息植入服务器通过确定出首帧图像与剩余帧图像之间的偏移量，基于偏移量，调整剩余帧图像中的待植入图像的位置，从而实现多媒体信息的植入。

在本发明实施例中，信息植入服务器通过每一帧图像中的追踪区域的位置信息来得到偏移量，详细的可以分别获取首帧图像与剩余帧图像的之间的追踪区域的位置信息的差值来确定偏移量，也可以通过其他算法，得到剩余帧图像对应的偏移量等，本发明实施例不作限制。

需要说明的是，剩余帧图像中也包含有多帧，偏移量是剩余帧图像中的每帧图像都对应一个，即偏移量中也包含多个偏移量，是统称。偏移量为剩余帧图像的每帧图像分别与首帧图像的追踪区域的位置信息的差值。

在本发明的一些实施例中，信息植入服务器针对获取剩余帧图像中当前帧图像，可以通过获取当前帧图像与其前一帧图像的追踪区域的位置信息的差值，作为当前帧图像对应的偏移量，从而得到剩余帧图像中的每帧图像对应的偏移量。

在S105中，信息植入服务器在获取了剩余帧图像与首帧图像之间的偏移量之后，由于待植入区域的位置一定，那么就可以通过偏移量对待植入图像进行微调后，在待植入区域中对微调后的待植入图像进行植入，从而得到与被植入视频帧对应的已经植入了多媒体信息的目标视频帧。

如图6所示，信息植入服务器获取到原始视频片段(被植入视频帧)和待植入图像时，会先确定广告区域(待植入区域)和追踪区域，然后基于追踪区域，确定出三帧图像1、2和3之间的偏移量，基于偏移量对渲染后的广告图进行调整后，植入上述三帧图像1、2和3中，最终生成基于广告位追踪生成的Videoln视频。

需要说明的是，在本发明实施例提供的多媒体信息植入方法中，每一帧视频帧中的待植入区域的位置是一定的，为了消除由于镜头的移动而导致直接植入的多媒体信息的抖动，信息植入服务器不改变待植入区域的位置，而是对待植入图像基于偏移量，实现对应每一帧剩余视频帧的调整，来消除由于位移而造成的抖动，即基于偏移量消除了多媒体信息植入时的位置偏移，降低了多媒体信息植入视频信息中时的抖动，使得最终植入的视频信息在播放时视感更和谐，视频质量更好。

在一些实施例中，参见图7，图7是本发明实施例提供的方法的一个可选的流程示意图，基于图4，S104的实现为S1041，在S103实现可以包括：S1031-1033。如下：

S1031、确定每一帧图像中的追踪区域的单帧质心点位置和置信度。

S1032、从单帧质心点位置中，确定出置信度最高的预设数量的中间质心点位置。

S1033、对预设数量的中间质心点位置进行处理，得到每一帧图像中的追踪区域的最终质心点位置；最终质心点位置表征追踪区域的位置信息。

在本发明实施例中，信息植入服务器确定每一帧图像中的追踪区域的位置信息时，可以采用像素点位置信息来确定，这里采用追踪区域的质心点的像素位置为例进行说明。信息植入服务器针对一帧图像，可以从该一帧图像中确定出追踪区域的质心点位置(即单帧质心点位置)，以及该单帧质心点位置对应的置信度。

需要说明的是，信息植入服务器获取一帧图像的质心点的时候为了准确性，可以在基于质心点的部分进行多个质心点的选取，基于多个质心点来综合判定该追踪区域的位置信息。

在本发明实施例中，信息植入服务器可以采用追踪技术定位追踪区域在每一帧中的质心点位置和置信度。其中，追踪技术可以为约束的模版匹配算法(TM_CCOEFF_NORMED)，本发明实施例不作限制。

也就是说，在本发明实施例中，信息植入服务器在针对每一帧图像，都会获取每一帧图像各自对应的多个单帧质心点位置，一个单帧质心点位置对应一个置信度，置信度表征与其对应的单帧质心点的准确度的。置信度越高，其对应的单帧质心点位置表明越准确。

在本发明实施例中，信息植入服务器针对一帧图像的多个单帧质心点位置，从中选择出置信度最高的预设数量的质心点位置，即中间质心点位置。信息植入服务器从多个置信度中选择出置信度最高的M个(假设M为预设数量，M为大于等于1的正整数)，这M个置信度对应的单帧质心点位置就是中间质心点位置。信息植入服务器在获取了一帧图像的中间质心点位置之后，预设数量为多个时，中间质心点位置也是多个，那么，针对多个中间质心点位置，信息植入服务器可以对预设数量的中间质心点位置进行处理，得到综合的一帧图像的最终质心点位置，采用最终质心点位置作为这一帧图像中的追踪区域的位置信息。

可选的，信息植入服务器还可以通过选出大于等于预设置信度阈值的质心点位置作为中间质心点位置，本发明实施例不限定预设数量的确定方式，可以通过设置得到，也可以通过比较或者选择方式确定出。

在本发明的一些实施例中，针对预设数量的中间质心点位置进行加权平均，得到亚像素级的综合质心点位置，从而得到了一帧图像中的追踪区域的最终质心点位置。

需要说明的是，本发明实施例中，还可以采用平方根和处理等方式来综合得到最终质心点位置，本发明实施例不作限制。

可选的，信息植入服务器针对每一帧图像都是采用上述方式确定追踪区域的位置信息，从而得到每一帧图像中的追踪区域的最终质心点位置。

S1041、将剩余帧图像的追踪区域的最终质心点位置分别与首帧图像的追踪区域的最终质心点位置进行对比，确定出首帧图像分别与剩余帧图像之间的偏移量。

在本发明实施例中，信息植入服务器确定偏移量，就可以将剩余帧图像的追踪区域的最终质心点位置分别与首帧图像的追踪区域的最终质心点位置进行对比，确定出首帧图像分别与剩余帧图像之间的偏移量。

需要说明的是，信息植入服务器将剩余帧图像的每帧图像的追踪区域的最终质心点位置，与首帧图像的追踪区域的最终质心点位置逐帧进行差值，得到每帧图像与首帧图像之间的偏移量。

示例性的，如图8所示，针对剩余帧图像的一帧图像1，追踪区域为2，从该一帧图像的单帧质心点位置(x，y)中，获取了置信度(possibility)最高的前10个中间质心点位置，其单帧质心点位置和对应的置信度为：

最高前10个置信度为：0.991622、0.98087275、0.96703、0.9651034、0.9638867、0.95596486、0.9547862、0.9416384、0.9360774和0.9360774，那么信息植入服务器确定的中间质心点位置为前10个数据的位置，对前10个数据的位置进行加权平均得到最终质心点位置(x，y)为(639.00，853.80)。

可以理解的是，由于位置信息可以由像素点的位置信息来表示，那么信息植入服务器针对多个中间质心点位置进行综合处理，就会出现得到的最终质心点位置不是整数个像素点的情况，即出现亚像素级的最终质心点位置。这样信息植入服务器逐帧演算追踪区域的偏移量，输出的最终质心点位置的偏移量是亚像素级别的，偏移量精度更高，使得整个待植入图像的处理更精准。

在一些实施例中，参见图9，图9是本发明实施例提供的方法的一个可选的流程示意图，基于图4，在S105实现可以包括：S1051-1053。如下：

S1051、对待植入图像进行N倍差值处理，得到插值图像；其中，N为大于等于1的正整数。

S1052、基于偏移量，分别对插值图像中的待插入多媒体信息的像素点进行平移和N倍降采样，得到剩余帧图像对应的待植入子图像。

S1053、在首帧图像的待植入区域植入待植入图像，以及在剩余帧图像的待植入区域，分别对应植入对应的待植入子图像，从而得到目标视频帧。

在本发明实施例中，信息植入服务器在得到了每一帧图像的偏移量的时候(首帧图像与自己的偏移量为0)，信息植入服务器就可以对待植入图像进行调整。于是，信息植入服务器对待植入图像进行N倍差值处理，得到插值图像；然后针对每一帧图像对应的偏移量，对插值图像中的待插入多媒体信息的像素点进行平移该偏移量后，再进行相同倍数，即N倍降采样，就可以得到剩余帧图像对应的待植入子图像了，该待植入子图像了就是基于自己对应的偏移量微调后得到的可以直接进行植入的多媒体信息的图像了。最后，信息植入服务器就可以在首帧图像的待植入区域直接植入待植入图像，而在剩余帧图像的待植入区域，分别对应植入对应的待植入子图像，从而得到被植入视频帧对应的已植入多媒体信息的目标视频帧。

需要说明的是，N可以为16，本发明实施例不限制其数值的大小，有实际情况和实际使用来决定。在本发明实施例中，信息植入服务器可以通过相对待植入图像进行插值，实现图像放大后，再对放大后的图像基于偏移量进行像素平移，最后再对平移后的图像进行图像缩小处理，即下采样从而得到待植入子图像。每一帧图像对应的偏移量不同，所以得到了每一帧图像对应的待植入子图像，只不过首帧图像的待植入子图像与待植入图像是一样的，因此，不用对首帧图像进行待植入图像的调整。

示例性的，如图10所示，信息植入服务器可以逐帧获取待植入子图像，针对一帧图像，信息植入服务器对待植入图像1先进行了图像的16倍插值得到插值图像2，在基于该一帧图像对应的偏移量，进行像素平移，得到平移图像3，最后再对平移图像进行16倍下采样，即图像缩小，得到了待植入子图像4。

在本发明的一些实施例中，信息植入服务器也可以直接对待植入图像直接进行平移偏移量得到待植入子图像，本发明实施了不作限制。

可以理解的是，信息植入服务器在进行图像的放大，再平移，最后再缩小后，得到的待植入子图像的精度更好，植入后的视频帧的质量更好。

例如，假设偏移量△y＝1.7，现有技术中产生的位移误差为error＝│1.7-int(1.7)││7-i，而进行图像的放大，再平移，最后再缩小时产生的位移误差为error＝│1.7*16-int(1.7*16)│/16＝0.0125，误差下降了24倍，0.0125表征本发明实施例提供的多媒体信息植入方法将前景植入后视感抖动几乎完全消除，完成了植入视频的视感和谐化。

在一些实施例中，参见图11，图11是本发明实施例提供的方法的一个可选的流程示意图，基于图4，在S101实现可以包括：S1011-1013。如下：

S1011、获取被植入视频信息。

S1012、对被植入视频信息进行镜头拆分，得到多个单镜头视频分片。

S1013、针对多个单镜头视频分片中的一个单镜头视频分片进行逐帧拆分，得到被植入中间视频帧。

S1014、对被植入中间视频帧中的关键帧进行场景检测，确定出是否允许植入待植入多媒体信息。

S1015、若允许，则将被植入中间视频帧作为被植入视频帧。

在本发明实施例中，信息植入服务器可以从视频服务器中获取待投放或待植入的被植入视频信息，这里的被植入视频信息为将要植入多媒体信息的原始视频数据。

其中，被植入视频信息可以为电影，电视剧或综艺等等，本发明实施例不限制其类型。

信息植入服务器在得到了获取被植入视频信息之后，由于被植入视频信息都是由很多镜头拍摄的视频数据组成，一个单镜头基本上就是拍摄一个场景的，于是，信息植入服务器就可以先将被植入视频信息进行镜头拆分，得到多个单镜头视频分片，这样基于每个单镜头的视频分片进行多媒体信息植入时，就保证了在同一个场景中进行一个或多个多媒体信息植入时的场景识别的统一性，只需对一个单镜头的关键帧进行场景识别即可，不用对每一帧进行识别，减少了复杂度。详细的，信息植入服务器针对多个单镜头视频分片中的一个单镜头视频分片进行逐帧拆分，得到被植入中间视频帧。由于单镜头视频分片中对应的场景不一定是多媒体信息可以进行植入的场景，因此，信息植入服务器需要对单镜头视频分片进行植入时，先要进行场景识别，只有识别出可以植入多媒体信息的场景时，才进行待植入图像的植入，否则，就不进行待植入图像的植入。信息植入服务器通过对被植入中间视频帧中的关键帧进行场景检测，确定出被植入中间视频帧对应的目标场景，若目标场景为桌面场景、墙面场景、相框场景或者电视机场景等可植入多媒体信息场景，则允许植入待植入多媒体信息，否则，为不允许植入待植入多媒体信息。若允许，则信息植入服务器将被植入中间视频帧作为被植入视频帧，进行前述的被植入视频帧中的待植入图像的植入即可。

在一些实施例中，基于图6或图3，在S105之后，还可以执行S106-110。如下：

S106、从被植入视频信息中，获取与被植入视频对应的音频信息。

S107、将音频信息与目标视频帧融合，得到目标音视频信息。

S108、在得到对多个单镜头视频分片对应的多个目标音视频信息后，将多个目标音视频信息进行融合，得到已植入音视频信息。

在本发明实施例中，信息植入服务器在进行被植入视频的植入时，还可以从原始视频数据中，即被植入视频信息中获取与被植入视频对应的音频信息，将音频信息与目标视频帧融合，得到目标音视频信息。继续进行下一个单镜头视频分片的多媒体信息的植入，从而在得到对多个单镜头视频分片对应的多个目标音视频信息后，信息植入服务器就可以将逐帧植入后的图像融合成视频分片(即被植入视频帧)，并融合上原视频分片中的音频信息，从而完成了整个融合，得到被植入视频信息对应的已植入音视频信息。

需要说明的是，由于存在有的单镜头视频分片中没有植入多媒体信息的情况，针对这种情况，直接融合原始单镜头视频分片和其对应的音频信息即可。信息植入服务器是先逐帧进行单镜头视频分片的融合，在进行所有单镜头之间的融合的，最后得到的是与被植入视频信息中具有相同帧数量的已植入音视频信息。

S109、接收播放指令。

S110、响应于播放指令，播放已植入音视频信息。

在本发明实施例中，信息植入服务器可以同时为具有播放功能并兼容视频服务器的情形，针对这种情景，信息植入服务器在视频播放界面中接收到已植入音视频信息的播放指令时，响应于播放指令，播放已植入音视频信息，用户就可以看到已经植入多媒体信息的视频信息了，增加了多媒体信息的曝光。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

如图12所示，信息植入服务器从多媒体服务器中获取至少一个多媒体信息的待植入图像，以及从视频服务器中获取要植入多媒体信息的视频片段(被植入视频信息)，将视频片段进行逐帧拆分(视频逐帧拆分)，将视频级别的视频片段拆分为图像帧级别(视频分片)，在视频分片中的首帧图像中，指定广告位的区域，即待植入区域，以及确定在被植入视频帧中的每一帧图像上的追踪区域(即追踪区域指定)，其中，追踪区域为被植入视频帧中每一帧图像中的相同追踪对象所在的区域；基于TM_CCOEFF_NORMED算法具体的算法实现逐帧演算剩余帧图像与首帧图像的追踪区域之间的亚像素级别的偏移量(即帧偏移量演算)；逐帧将待植入图像基于偏移量进行调整，即将待植入图像放大16倍，然后对偏移量乘以16倍之后取整粘贴，完成后再降采样16倍植入到视频分片中(超分辨率调整)，之后，再进行前后景融合得到目标视频帧，将多个目标视频帧与音频信息进行音频融合，得到已植入视频信息，发布已植入视频信息给视频服务器，由视频服务器为终端提供已植入视频信息。终端在视频播放应用中，接收到已植入视频信息的播放指令时，在视频播放界面播放已植入视频信息。

需要说明的是，信息植入服务器采用本发明实施例提供的多媒体信息植入方法实现广告的植入时，在技术上，相比于传统是直接植入技术，该广告位追踪和植入技术消除了前景的视感抖动，提升了植入视频的视感和谐性。

在收益层面，如图13所示，Video-In是一种软性的植入广告形式。根据2018年广告营销趋势报告显示，“73％的广告主将增加和维持植入等软广告的开支”。相对于传统广告，它具有触达率高、合作风险小和节约预算等优势。尤其在会员(视频VIP)大力拓展的时期，传统的前贴片和中贴片广告流量的增长受到了限制。这种基于后期技术，不受会员触达限制的软性广告形式显得更加有意义。同时，相比于传统的招商形式的广告(在综艺和电视剧拍摄前就需要谈定广告植入)，存在广告主赌剧的情况。有了本发明实施例的Video-In技术，广告主可以根据剧集和综艺的受欢迎程度，在视频中后期植入广告，具有触达率高(广告形式不可跳过，会员可见)、合作风险小(广告主无需赌剧)、节省预算(植入广告也可分人群投放)的优势。

在流量方面，如图14所示的Video-In的市场潜力，根据2019年自制剧(综艺和电视剧)的计划，推演出了通过Video-In方式新增的广告流量。基于此流量，通过视频平台DAI整合系统资源，结合合约广告系统的CPM售卖形式，可以推演出仅自制剧＝约36亿元的市场规模。可见，随着市场对Video-In广告形式的逐渐接受，这种广告形式可以成为广告的重要利润增长点。

下面继续说明本发明实施例提供的多媒体信息植入装置255的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器240的多媒体信息植入装置255中的软件模块可以包括：

获取单元2551，用于获取被植入视频帧，以及获取待植入多媒体信息的待植入图像；

确定单元2552，用于在所述被植入视频帧中的首帧图像中，确定待植入区域，以及确定在所述被植入视频帧中的每一帧图像上的追踪区域，其中，所述追踪区域为所述被植入视频帧中每一帧图像中的相同追踪对象所在的区域；及确定所述每一帧图像中的追踪区域的位置信息；以及基于所述每一帧图像中的追踪区域的位置信息，确定出所述首帧图像与剩余帧图像之间的偏移量；所述剩余帧图像为所述每一帧图像中除所述首帧图像之外的图像；

植入单元2553，用于基于所述偏移量和所述待植入区域，对所述待植入图像进行植入，得到目标视频帧。

在本发明的一些实施例中，所述确定单元2552，还用于确定所述每一帧图像中的追踪区域的单帧质心点位置和置信度；从所述单帧质心点位置中，确定出所述置信度最高的预设数量的中间质心点位置；对所述预设数量的中间质心点位置进行处理，得到所述每一帧图像中的追踪区域的最终质心点位置；所述最终质心点位置表征追踪区域的位置信息。

在本发明的一些实施例中，所述确定单元2552，还用于将所述剩余帧图像的追踪区域的最终质心点位置分别与所述首帧图像的追踪区域的最终质心点位置进行对比，确定出所述首帧图像分别与所述剩余帧图像之间的偏移量。

在本发明的一些实施例中，所述植入单元2553，还用于对所述待植入图像进行N倍差值处理，得到插值图像；其中，N为大于等于1的正整数；基于所述偏移量，分别对所述插值图像中的所述待插入多媒体信息的像素点进行平移和N倍降采样，得到所述剩余帧图像对应的待植入子图像；在所述首帧图像的所述待植入区域植入所述待植入图像，以及在所述剩余帧图像的所述待植入区域，分别对应植入对应的所述待植入子图像，从而得到所述目标视频帧。

在本发明的一些实施例中，所述获取单元2551，还用于获取被植入视频信息；对所述被植入视频信息进行镜头拆分，得到多个单镜头视频分片；针对所述多个单镜头视频分片中的一个单镜头视频分片进行逐帧拆分，得到被植入中间视频帧；对所述被植入中间视频帧中的关键帧进行场景检测，确定出是否允许植入所述待植入多媒体信息；若允许，则将所述被植入中间视频帧作为所述被植入视频帧。

在本发明的一些实施例中，所述装置255还包括：融合单元2554、接收单元2555和播放单元2556；

所述获取单元2551，还用于所述基于所述偏移量和所述待植入区域，对所述待植入图像进行植入，得到目标视频帧之后，从被植入视频信息中，获取与所述被植入视频对应的音频信息；将所述音频信息与所述目标视频帧融合，得到目标音视频信息；

所述融合单元2554，用于在得到对多个单镜头视频分片对应的多个目标音视频信息后，将所述多个目标音视频信息进行融合，得到已植入音视频信息；

所述接收单元2555，用于所述在得到对多个单镜头视频分片对应的多个目标音视频信息后，将所述多个目标音视频信息进行融合，得到已植入音视频信息之后，接收播放指令；

所述播放单元2556，用于响应于所述播放指令，播放所述已植入音视频信息。

可以理解的是，信息植入服务器可以基于在被植入视频帧中的追踪区域的位置追踪，得到被植入视频帧中的首帧图像与剩余帧图像之间的偏移量，来实现多媒体信息的植入，从而得到目标视频帧，基于偏移量消除了多媒体信息植入时的位置偏移，降低了多媒体信息植入视频信息中时的抖动，使得最终植入的视频信息在播放时视感更和谐，视频质量更好。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的方法，例如，如图4、6、8和10示出的多媒体信息植入方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种多媒体信息植入方法，其特征在于，包括：

确定所述每一帧图像中的追踪区域的位置信息；

2.根据权利要求1所述的方法，其特征在于，所述确定所述每一帧图像中的追踪区域的位置信息，包括：

确定所述每一帧图像中的追踪区域的单帧质心点位置和置信度；

从所述单帧质心点位置中，确定出所述置信度最高的预设数量的中间质心点位置；

对所述预设数量的中间质心点位置进行处理，得到所述每一帧图像中的追踪区域的最终质心点位置；所述最终质心点位置表征追踪区域的位置信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述每一帧图像中的追踪区域的位置信息，确定出所述首帧图像与剩余帧图像之间的偏移量，包括：

将所述剩余帧图像的追踪区域的最终质心点位置分别与所述首帧图像的追踪区域的最终质心点位置进行对比，确定出所述首帧图像分别与所述剩余帧图像之间的偏移量。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述基于所述偏移量和所述待植入区域，对所述待植入图像进行植入，得到目标视频帧，包括：

对所述待植入图像进行N倍差值处理，得到插值图像；其中，N为大于等于1的正整数；

基于所述偏移量，分别对所述插值图像中的所述待插入多媒体信息的像素点进行平移和N倍降采样，得到所述剩余帧图像对应的待植入子图像；

在所述首帧图像的所述待植入区域植入所述待植入图像，以及在所述剩余帧图像的所述待植入区域，分别对应植入对应的所述待植入子图像，从而得到所述目标视频帧。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述获取被植入视频帧，包括：

获取被植入视频信息；

对所述被植入视频信息进行镜头拆分，得到多个单镜头视频分片；

针对所述多个单镜头视频分片中的一个单镜头视频分片进行逐帧拆分，得到被植入中间视频帧；

对所述被植入中间视频帧中的关键帧进行场景检测，确定出是否允许植入所述待植入多媒体信息；

若允许，则将所述被植入中间视频帧作为所述被植入视频帧。

6.根据权利要求1所述的方法，其特征在于，所述基于所述偏移量和所述待植入区域，对所述待植入图像进行植入，得到目标视频帧之后，所述方法还包括：

从被植入视频信息中，获取与所述被植入视频对应的音频信息；

将所述音频信息与所述目标视频帧融合，得到目标音视频信息；

在得到对多个单镜头视频分片对应的多个目标音视频信息后，将所述多个目标音视频信息进行融合，得到已植入音视频信息。

7.根据权利要求6所述的方法，其特征在于，所述在得到对多个单镜头视频分片对应的多个目标音视频信息后，将所述多个目标音视频信息进行融合，得到已植入音视频信息之后，所述方法还包括：

接收播放指令；

响应于所述播放指令，播放所述已植入音视频信息。

8.一种多媒体信息植入装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，

所述确定单元，还用于确定所述每一帧图像中的追踪区域的单帧质心点位置和置信度；从所述单帧质心点位置中，确定出所述置信度最高的预设数量的中间质心点位置；对所述预设数量的中间质心点位置进行处理，得到所述每一帧图像中的追踪区域的最终质心点位置；所述最终质心点位置表征追踪区域的位置信息。

10.根据权利要求9所述的装置，其特征在于，

所述确定单元，还用于将所述剩余帧图像的追踪区域的最终质心点位置分别与所述首帧图像的追踪区域的最终质心点位置进行对比，确定出所述首帧图像分别与所述剩余帧图像之间的偏移量。

11.根据权利要求8-10任一项所述的装置，其特征在于，

所述植入单元，还用于对所述待植入图像进行N倍差值处理，得到插值图像；其中，N为大于等于1的正整数；基于所述偏移量，分别对所述插值图像中的所述待插入多媒体信息的像素点进行平移和N倍降采样，得到所述剩余帧图像对应的待植入子图像；在所述首帧图像的所述待植入区域植入所述待植入图像，以及在所述剩余帧图像的所述待植入区域，分别对应植入对应的所述待植入子图像，从而得到所述目标视频帧。

12.根据权利要求8-11任一项所述的装置，其特征在于，

所述获取单元，还用于获取被植入视频信息；对所述被植入视频信息进行镜头拆分，得到多个单镜头视频分片；针对所述多个单镜头视频分片中的一个单镜头视频分片进行逐帧拆分，得到被植入中间视频帧；对所述被植入中间视频帧中的关键帧进行场景检测，确定出是否允许植入所述待植入多媒体信息；若允许，则将所述被植入中间视频帧作为所述被植入视频帧。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：融合单元、接收单元和播放单元；

所述获取单元，还用于所述基于所述偏移量和所述待植入区域，对所述待植入图像进行植入，得到目标视频帧之后，从被植入视频信息中，获取与所述被植入视频对应的音频信息；将所述音频信息与所述目标视频帧融合，得到目标音视频信息；

所述融合单元，用于在得到对多个单镜头视频分片对应的多个目标音视频信息后，将所述多个目标音视频信息进行融合，得到已植入音视频信息；

所述接收单元，用于所述在得到对多个单镜头视频分片对应的多个目标音视频信息后，将所述多个目标音视频信息进行融合，得到已植入音视频信息之后，接收播放指令；

所述播放单元，用于响应于所述播放指令，播放所述已植入音视频信息。

14.一种多媒体信息植入设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至7任一项所述的方法。

15.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至7任一项所述的方法。