CN111741327B

CN111741327B - 一种媒体处理方法及媒体服务器

Info

Publication number: CN111741327B
Application number: CN201910228713.6A
Authority: CN
Inventors: 鞠增伟; 孙航
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2022-09-02
Anticipated expiration: 2039-03-25
Also published as: WO2020192187A1; US12014545B2; CN111741327A; EP3902267A4; US20210383126A1; EP3902267A1

Abstract

一种媒体处理方法及媒体服务器，用以解决现有技术中媒体植入方式，需要人工参与，较不灵活的问题。本申请中，媒体服务器基于第一网络模型，确定第一视频中存在的第一对象，实现对象的自动检测，第一网络模型是根据已确定存在第一对象的样本图像训练生成的；之后，媒体服务器从媒体集合中确定与第一对象匹配的第一媒体，使得可以自动匹配第一媒体，第一对象与确定的第一媒体的内容存在关联；之后，媒体服务器可以将第一媒体覆盖在第一视频的目标区域，生成融合的视频文件，整个处理过程，无需人工参与，且第一媒体的内容与第一对象之间存在关联，可以使得在第一视频中植入的媒体更具有针对性。

Description

一种媒体处理方法及媒体服务器

技术领域

本申请涉及通信技术领域，尤其涉及一种媒体处理方法及媒体服务器。

背景技术

随着网络技术、多媒体技术的进步以及多样化终端设备的广泛使用，视频服务成了所有类型的媒体信息中内容占比较大的一部分，通常在视频播放的过程中，会植入一些媒体，如图片、视频、音频等。

以图片类的媒体植入为例，在视频中植入图片类的媒体的方式有许多种，其中较为传统的是覆盖式植入和插播式植入，但这两种传统方式影响用户观看视频，容易造成用户的反感，目前更加趋向与将图片类的媒体植入到视频内容中，在保证用户可以正常观看视频的同时，也可以浏览到广告内容，可以提高用户体验。

但是目前图片类的媒体植入的方式中，需要人工参与，例如，需要配置专门的工作人员确定视频中的广告位，或者人工标定区域，之后再进行图片类的媒体植入到广告位或标定的区域中。

综上，现有的媒体植入方式，需要人工参与，较不灵活，而且植入效率较低。

发明内容

本申请提供一种媒体处理方法及媒体服务器，用以解决现有技术中媒体植入方式，需要人工参与，植入效率较低的问题。

第一方面，本申请实施例提供了一种媒体处理方法，所述方法包括：首先，媒体服务器基于第一网络模型，确定第一视频中存在的第一对象，所述第一网络模型可以是预先设置的，是根据已确定存在所述第一对象的样本图像训练生成的；之后，所述媒体服务器从媒体集合中确定与所述第一对象匹配的第一媒体，所述第一对象与确定的所述第一媒体的内容存在关联；之后，所述媒体服务器可以将所述第一媒体覆盖在所述第一视频的目标区域，生成融合的视频文件，所述视频文件包括所述第一视频以及所述第一媒体。

通过上述方法，所述媒体服务器可以通过所述第一网络模型自动的检测所述第一对象，并且还可以自动匹配确定所述第一媒体，使得媒体植入的方法能够自动实现，无需人工参与，能够提高媒体植入效率。所述第一媒体的内容与所述第一对象之间存在关联，可以使得在所述第一视频中植入的媒体更具有针对性。

在一种可能的设计中，所述第一网络模型在训练过程中，将样本图像作为输入，将样本图像的标签作为输出，样本图像的标签为预先确定的用于指示样本图像是否存在所述第一对象，标签中不同取值对应存在所述第一对象和不存在所述第一对象的情况；当所述第一网络模型在对所述第一视频进行处理时，以所述第一视频作为输入，示例性的，将所述第一视频的各个图像帧作为输入，所述第一标签作为输出，所述第一标签用于指示所述第一视频中存在所述第一对象，示例性的，指示所述第一视频的图像帧存在所述第一对象。

通过上述方法，通过所述第一网络模型，可以方便的通过所述第一标签来确定所述第一视频中存在所述第一对象，确定过程中无人配置专门的工作人员，进一步，可以提高媒体植入效率和灵活性。

在一种可能的设计中，所述媒体服务器从媒体集合中确定与所述第一对象匹配的第一媒体时，可以先确定所述第一对象对应的特征向量以及所述媒体集合中每个媒体对应的特征向量，所述第一对象对应的特征向量可以表征所述第一对象的属性，媒体对应的特征向量表征该媒体的属性，该属性包括但不限于文字信息、图像信息等。示例性的，所述媒体服务器中可以设置用于输出特征向量的第二网络模型，所述媒体服务器基于第二网络模型，确定所述第一对象对应的特征向量以及所述媒体集合中每个媒体对应的特征向量；之后，所述媒体服务器根据所述第一对象对应的特征向量与所述媒体集合中每个媒体对应的特征向量的距离值，距离值实质上可以表征所述第一对象与媒体的属性之间的相近程度；确定了距离值之后，可以将所述媒体集合中对应的特征向量与所述第一对象对应的特征向量的距离值满足条件的媒体作为所述第一媒体。

通过上述方法，通过设置所述第二网络模型可以较为便捷的确定出所述第一对象以及所述媒体集合中每个媒体之间的相关程度，进而可以精确的确定出所述第一媒体，使得所述第一视频中融合的所述第一媒体更具有针对性。

在一种可能的设计中，所述特征向量为词向量，所述第一对象对应的词向量可以表征所述第一对象的名称，所述媒体集合中每个媒体对应的词向量可以表征媒体的内容，如媒体中的文字信息、关键字、语句或媒体要传达的信息等。

通过上述方法，通过词向量可以更加直观的反映出所述第一对象的名称、以及每个媒体的内容，进而可以较快的确定出内容与所述第一对象相关的所述第一媒体。

在一种可能的设计中，所述条件可以包括下列的部分或全部：距离值最小、距离值处于预设范围。

通过上述方法，距离值较小，或者处于一个较小的范围，可以表征媒体与所述第一对象之间较为相关，能够较好的选择出所述第一媒体。

在一种可能的设计中，所述媒体服务器除了可以针对所述第一对象植入所述第一媒体，还可以确定其他对象，如所述媒体服务器还可以检测所述第一视频中的第二对象，所述第二对象可以是能够显示媒体的展示位；之后，所述媒体服务器将第二媒体覆盖在所述第二对象所在区域上，生成融合的视频文件。

通过上述方法，当所述第一视频中存在能够显示媒体的展示位时，所述媒体服务器可以较为精确的在展示位上融和所述第二媒体；这个过程中，同样无需人工参与，使得媒体处理的效率得到提升。

在一种可能的设计中，所述媒体服务器需要检测所述第一视频中的第二对象，则需要确定所述第一视频中存在所述第二对象的每一个图像帧。示例性的，所述媒体服务器可以检测所述第一视频中任一个图像帧中的所述第二对象，以所述第一视频中任一个图像帧为第一图像帧为例，所述媒体服务器检测所述第一图像帧中的第二对象；之后，通过追踪算法，确定所述第一视频中除第一图像帧外的图像帧中的所述第二对象。

通过上述方法，所述媒体服务器只需确定其中一个图像帧中的所述第二对象，之后可以通过追踪算法较为便捷的确定出所述第一图像中其余存在所述第二对象的图像帧，不需要逐帧确定，能够较快速的确定出所述第一视频中存在所述第二对象的每一个图像帧，使得检测所述第二对象的方式更加高效。

在一种可能的设计中，所述媒体服务器在所述第二对象所在的区域覆盖所述第二媒体时，针对所述第一视频中存在所述第二对象的任一图像帧，所述媒体服务器可以在所述第二对象所在区域上覆盖所述第二媒体。

通过上述方法，可以保证存在所述第二对象的任一图像帧中都可以植入所述第二媒体。

在一种可能的设计中，所述媒体服务器将所述第二媒体覆盖在所述第二对象所在区域后，对所述第二媒体的边缘进行高斯平滑，生成融合的视频文件。

通过上述方法，所述第二媒体的边缘与所述第一视频之间存在过渡，使得最终所述第二媒体的显示效果更好。

第二方面，本申请实施例还提供了一种媒体服务器，有益效果可以参见第一方面的描述此处不再赘述。该装置具有实现上述第一方面的方法实例中行为的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中，所述装置的结构中包括确定单元、匹配单元、融入单元以及检测单元，这些单元可以执行上述第一方面方法示例中的相应功能，具体参见方法示例中的详细描述，此处不做赘述。

第三方面，本申请实施例还提供了一种媒体处理装置，有益效果可以参见第一方面的描述此处不再赘述。所述通信装置的结构中包括处理器和存储器，还可以包括收发器，所述处理器被配置为支持所述终端设备执行上述第一方面方法中相应的功能。所述存储器与所述处理器耦合，其保存所述媒体处理必要的程序指令和数据。所述收发器，用于与其他设备进行通信，还可以包括显示器，用于接收所述处理器的指示，显示图像，如可以显示所述融合文件。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

第五方面，本申请还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

第六方面，本申请还提供一种计算机芯片，所述芯片与存储器相连，所述芯片用于读取并执行所述存储器中存储的软件程序，执行上述各方面所述的方法。

附图说明

图1为的一种媒体植入的位置示意图；

图2为本申请提供的一种媒体处理的方法示意图；

图3为本申请提供的一种第一网络模型的结构示意图；

图4为本申请提供的一种第二网络模型的结构示意图；

图5为本申请提供的一种在第二对象所在区域融合媒体的方法示意图；

图6A为本申请提供的Mask-RCNN模型处理流程示意图；

图6B为本申请提供的第二对象所在区域的示意图；

图6C为本申请提供的第二对象的4角点的示意图；

图6D为本申请提供的在第二对象所在区域覆盖第二媒体的示意图；

图7为本申请提供的一种媒体服务器的结构示意图；

图8为本申请提供的另一种媒体服务器的结构示意图。

具体实施方式

本申请提供了一种媒体处理方法及媒体服务器，用以解决现有技术中媒体植入方式，需要人工参与，植入效率较低的技术问题。

如图1所示，为一个视频的播放界面。为了可以在视频播放过程中植入媒体，如图片、视、音频等，尤其是在广告或海报制作的领域。现有方案首先需要从视频播放界面中选择可以植入媒体的区域；这时候需要人工确认，如人工选择左下角的位置空白处为媒体展示的界面。为了能够更加精确的植入媒体，仍还需要确定出媒体展示的界面的精确坐标。之后，根据需要展示的媒体在确定的位置上融合所述需要展示的媒体。

从上述媒体植入的过程中可以看出，现有方案从确定媒体展示位置到在视频中融合媒体始终需要人工参与，这样的媒体植入方式较不灵活，且耗时较长，其应用范围也受限。

为此本申请实施例提出了一种媒体处理方法以及设备，用于实现可以自动检测视频中的对象、以及自动匹配媒体，并实现媒体与视频的融合。在本申请实施例中，媒体服务器可以已预先设置一个网络模型(在本申请实施例中以第一网络模型为例)，利用所述第一网络模型确定第一视频中存在的能够与媒体的内容存在关联的候选对象(本申请实施例以第一对象为例)；之后，从需要植入的媒体构成的媒体集合中确定与所述第一对象匹配的第一媒体。之后，将所述第一媒体覆盖在所述第一视频的目标区域，生成融合的视频文件。采用本申请实施例的方法，媒体服务器基于预设的网络模型确定对象，并自动从媒体集合中匹配所述第一媒体，之后植入所述第一媒体，无需人工参与，可以改善媒体植入效率。植入的所述第一媒体与所述第一对象是匹配的，可以使得植入的第一媒体更具有针对性。

在本申请实施例中，所述媒体服务器可以是部署在云端的远程服务器，也可以是网络中设置的可以提供业务的服务器，如超多核服务器、部署有图形处理器(graphicsprocessing unit，GPU)集群的计算机、大型的分布式计算机、硬件资源池化的集群计算机等等；本申请实施例并不限定所述媒体服务器的具体形态，凡是可以实现本申请实施例中提及的媒体处理方法的媒体服务器均适用于本申请实施例。

本申请实施例中涉及的媒体，如第一媒体、第二媒体以及媒体集合中的各个媒体，可以是图片、动态图、视频(视频的时长并不限定)等。

下面结合附图，对本申请实施例提供了一种媒体处理方法进行介绍，如图2所示，所述方法包括：

步骤201：媒体服务器基于第一网络模型，确定第一视频中存在的第一对象，其中，所述第一网络模型是预先配置的，是根据已确定存在所述第一对象的样本图像训练生成的。

所述第一对象可以是所述第一视频中能够与一些媒体的内容存在关联的对象，例如，第一对象为所述第一视频中的狗、男人、女人、小孩、老人等等目标对象。

步骤202：所述媒体服务器从媒体集合中确定与所述第一对象匹配的第一媒体，所述第一对象与所述第一媒体的内容存在关联。

例如，所述第一媒体为狗，则所述第一媒体可以是狗粮、宠物广告的音视频、图像等等。

步骤203：所述媒体服务器将所述第一媒体覆盖在所述第一视频的目标区域，生成融合的视频文件。

其中，所述目标区域可以是预先在所述第一视频中标定的用于展示媒体的区域。示例性的，所述目标区域可以是所述第一视频的四个顶角区域的一个或多个，也所述第一视频下半部分的区域。本申请实施例并不限定所述目标区域的具体位置，可以根据所述第一视频的展示内容选择对所述第一视频的播放影响较小的区域作为所述目标区域。

在本申请实施例并不限定所述第一对象的种类和个数，所述媒体服务器可以基于所述第一网络模型，从第一视频中确定出多个不同种类的第一对象，而确定出的第一对象的个数除了与所述第一视频中的图像帧有关，还与所述第一网络模型有关。所述第一网络模型用于识别视频中存在的第一对象，且能够识别的第一对象的个数及种类与所述第一网络模型的训练方式及构成有关，所述第一网络模型可以是神经网络模型。

以所述第一网络模型为神经网络模型，生成所述第一网络模型的设备为所述媒体服务器为例，对训练生成所述第一网络模型的方式进行简要说明。

需要说明的是，本申请实施例并不限定所述第一网络模型的设备，也可以是其他服务器训练生成所述第一网络模型，之后将所述第一网络模型发送给所述媒体服务器。

首先，所述媒体服务器建立样本集合，其中所述样本集合包括多张样本图像。

每张样本图像已标定出该样本图像是否包括所述第一对象，以及包括的所述第一对象的种类。

例如，可以对每张样本图像设置标签(label)，标签可以采用向量的形式，向量中每个元素对应一个种类的第一对象。例如向量中包括三个元素，第一个元素对应的第一对象为人，第二个元素对应的第一对象为狗，第三个元素对应的第一对象为猫；当任一个元素的值为1时，表征该样本图像中存在该元素对应的第一对象，当任一个元素的值为0时，表征该样本图像中不存在该元素对应的第一对象；示例性的，若某一个样本图像的标签为{1，0，0}，则表明给样本图像中有人，没有狗，没有猫。

上述第一对象的种类仅是举例，在具体实施中，还可以根据具体需要细化所述第一对象的分类，如人可以分为青年、成人、学生、儿童、婴儿，狗可以分为金毛、哈士奇、拉布拉多等等。

之后，所述媒体服务器对所述第一网络模型进行训练。

以所述样本集合中样本图像作为所述第一网络模型的输入值，所述样本集合中对应的样本图像的标签作为所述第一网络模型的输出值，采用随机梯度下降法对所述第一网络模型进行训练，确定所述第一网络模型的权重。

需要说明的是，在对所述第一网络模型进行训练的过程中，所述第一网络模型能够识别的第一对象的种类与样本图像上设置的标签有关，标签中包括的元素越多，确定的第一对象的种类越多。

所述第一网络模型训练完成后，就可以用于判断所述第一视频中是否存在第一对象，以所述第一视频作为所述第一网络模型输入。例如，可以将所述第一视频的每个图像帧输入到所述第一网络模型中，第一网络模型的输出为所述第一标签，所述第一标签用于指示所述第一视频中存在的第一对象。具体的，所述第一标签可以指示所述第一视频中的一个或多个图像帧中存在所述第一对象。

在本申请实施例中并不限定所述第一网络模型的构成；例如所述第一网络模型可以是由几个卷积层构成的，也可以是已知结构的神经网络模型，例如SmallerVGGNet网络模型。

下面以所述第一网络模型为SmallerVGGNet网络模型为例，第一网络模型对所述第一视频进行处理的过程进行说明，所述SmallerVGGNet网络模型中包括3个卷积层，2个最大池化层，3个Dropout层，1个Faltten层以及2个全连接层。

SmallerVGGNet网络模型的处理流程如图3所示，其中SmallerVGGNet网络模型中从输入到输出，各层的连接顺序如下：输入层、卷积层(convolutional layer)、最大池化层(max pool layer)、Dropout层、卷积层、卷积层、最大池化层、Dropout层、Faltten层、全连接层(dense)、Dropout层、全连接层、输出层。

其中，卷积层用于提取图像的特征；最大池化层可以保留图像的主要特征，还可以减少处理过程中引入的参数(以达到降维的效果)和计算量，引入最大池化层可以防止神经网络模型的过拟合，还可以提高神经网络模型的泛化能力；Dropout层用于缓解过拟合的发生，在一定程度上达到正则化的效果。

Faltten层用于将卷积层输出的二维(2 dimensional，2D)特征转化为全连接层的一维(1dimensional，1D)结构；全连接层用于进行输出分类。

在本申请实施例中，对于一些视频播放平台如视频网站、电视台等，在视频播放过程中需要针对播放内容展示一些媒体，为了能够针对性的展示一些媒体，所述媒体服务器在对所述第一媒体处理，确定所述第一视频中的第一对象后，需要确定与所述第一对象匹配的第一媒体。

示例性的，可以在本地或其他媒体服务器上配置一个媒体集合；所述媒体集合中可以包括多个待播放的媒体，所述媒体服务器可以从所述媒体集合中确定出匹配的第一媒体。

不同种类的第一对象与所述媒体集合中的媒体的对应关系可以是预先设置的。示例性的，在确定了所述媒体集合后，所述媒体服务器可以预先确定所述媒体集合中每个媒体与第一对象的对应关系。例如所述媒体集合中的母婴类的图片或视频对应的第一对象为婴儿，所述媒体集合中的狗粮类的图片或视频对应的第一对象为金毛、哈士奇、拉布拉多，所述媒体集合中的啤酒类的图片或视频对应的第一对象是足球、篮球。

所述媒体服务器可以根据预配置的第一对象与所述媒体集合中的媒体的对应关系，确定与视频中的第一对象匹配的第一媒体。

上述预先设置不同的第一对象与所述媒体集合中的媒体的对应关系的方式仅是举例，本申请实施例并不限定从所述媒体集合中确定所述第一媒体的其他方式。下面对本申请实施例提供的另一种确定所述第一媒体的方式进行说明：

所述媒体服务器可以配置另一个网络模型(在本申请实施例以第二网络模型为例)，所述第二网络模型可以用于输出特征向量，所述特征向量可以表征所述第二网络模型的输入值的属性。如所述第二网络模型的输入值的文字信息(如输入值的名称、关键词、内容等)、图像信息等；示例性的，所述特征向量为词向量，所述词向量可以表征所述第二网络模型的输入值的文字信息(如输入值的名称、关键词、内容等)。

所述媒体服务器基于所述第二网络模型，确定所述第一对象对应的特征向量以及所述媒体集合中每个广告对应的特征向量；之后确定所述第一对象对应的特征向量与所述媒体集合中每个媒体对应的特征向量的距离值，所述距离值满足条件的媒体为第一媒体。

由于所述第一对象对应的特征向量表征的是所述第一对象的属性，所述媒体集合中每个媒体对应的特征向量表征的是该媒体的属性。所述第一对象对应的特征向量与任一媒体对应的特征向量的距离值可以反映出所述第一对象与任一媒体之间属性的相近程度。若所述第一对象对应的特征向量与某一广告对应的特征向量距离值越小，表明所述第一对象与该媒体之间的属性的相近。示例性的，所述特征向量为词向量。具体的，所述第一对象对应的特征向量用于表征所述第一对象的名称，媒体对应的特征向量用于表征媒体的内容，例如媒体的内容可以是媒体中显示的文字信息、关键字或媒体所传递的信息等。以媒体为图片为例，图片的内容可以是图片中包括的文字，或图片所表达的信息等。所述第一对象对应的词征向量与媒体对应的词向量的距离值就可以反映出所述第一对象与该媒体的内容之间的相关程度，距离值越小，就表明越相关。

所述第一对象的特征向量与所述第一媒体对应的特征向量的距离值需要满足条件可以有多种，示例性的，可以为下列的部分或全部：距离值最小、距离值处于预设范围。

距离值最小表明所述第一媒体为所述媒体集合中内容与所述第一对象最相关的。

针对距离值，也可以设置一个较小的范围作为预设范围。媒体对应的特征向量与所述第一对象对应的特征向量的距离值处于所述预设范围，表明该媒体的内容与所述第一对象较为相关。若所述媒体集合中存在多个媒体应的特征向量与所述第一对象对应的特征向量的距离值处于所述预设范围，所述媒体服务器可以随机从所述多个媒体中选取一个媒体作为所述第一媒体；作为另一种可能的实施方式，所述媒体集合中的媒体也可以设置优先级，所述媒体服务器可以根据所述多个媒体的优先级选择优先级较高的媒体作为所述第一媒体。上述选择所述第一媒体的方式仅是举例说明，本申请实施例并不限定采用其他方式选用所述第一媒体。

在本申请实施例中并不限定所述第二网络模型的构成以及类型，所述第二网络模型可以是神经网络模型。

下面以所述第二网络模型为神经网络模型，生成所述第一网络模型的设备为所述媒体服务器为例，所述第二网络模型确定的特征向量为词向量，对训练生成所述第二网络模型的方式进行简要说明。

需要说明的是，本申请实施例并不限定所述第二网络模型的设备，也可以是其他服务器训练生成所述第二网络模型，之后将所述第二网络模型发送给所述媒体服务器。

首先，所述媒体服务器建立语料库。

所述语料库包括多个样本媒体的文字信息，所述文字信息可以是样本媒体中的语句、关键字、图像中显示的文字等，凡是可以表征媒体的内容的信息均适用于本申请实施例。

本申请实施例并不限定建立所述语料库的方式，例如，可以是在各个视频平台或电视台中搜集媒体，也可以是采用爬虫脚本在各个网站上获取媒体的内容。示例性的，可以在各个网络上获取多种不同的广告的内容。

之后，所述媒体服务器对所述第二网络模型进行训练。

示例性的，该第二网络模型可以Hierarchical softmax框架下的CBOW模型，Hierarchical softmax框架是利用哈弗曼树的词向量模型框架，CBOW模型是网络结构加上哈弗曼树的具体构建词向量的模型。

以所述语料库中文字信息(如语句、关键词)作为所述第二网络模型的输入值，具体的，可以将文字信息按照一定的规则(如排列顺序)转换为一个向量，作为所述第二网络模型的输入值，该媒体对应的特征向量作为所述第二网络模型的输出值，采用学习算法(例如监督学习算法等)进行神经网络模型的训练，确定所述神经网络模型的权重。

训练后的神经网络模型可以达到如下效果：对于任意两个相关的文字信息对应的特征向量的距离值需要大于任意两个不相关的文字信息对应的特征向量的距离值；对于任一媒体，若该媒体与第二媒体的相关程度大于与第三媒体的相关程度，则该媒体与第二媒体的对应的特征向量的距离值需要小于该媒体与第三媒体对应的特征向量的距离值。例如，对于宠物类图片与狗粮类图片对应的特征向量的距离值需要大于健身类图片与母婴类图片对应的特征向量的距离值；对于啤酒类图片与足球类图片对应的特征向量的距离值需要小于啤酒类图片与篮球类图片对应的特征向量的距离值(通常认为看足球比赛时会选择啤酒，而看篮球比赛一般选择碳酸饮料)。

需要说明的是，对于两个特征向量的距离值，可以是两个特征向量的欧式距离，也就是说，特征向量x1(x₁₁,x₁₂,…,x_1n)与特征向量x2(x₂₁,x₂₂,…,x_2n)间的欧氏距离D：

也可以是其他距离值，如反余弦距离，

还可以是其他距离值的计算方式，本申请实施例并不限定。

判断任意两个文字信息是否相关，可以是两个文字信息中存在相似的词语或文字，通过存在相似词语或文字的数量来衡量两个文字信息的相关程度。如无相似的字或词语则认为不相关，存在相似的字或词语占其中一个文字信息的字数的比例表征相关程度。也可以是采用其他神经网络模型的输出结果确定的，可以预先根据以确定的相关程度的文字信息训练其他神经网络模型，之后根据其他神经网络模型的输出结果衡量两个文字信息的相关程度。还可以采用相关函数来确定，本申请实施例并不限定如何判断两个文字信息是否相关，以及相关程度的方式。

在本申请实施例中并不限定所述第二网络模型的构成，例如所述第二网络模型可以是由几个卷积层构成的，也可以是已知结构的神经网络模型，例如CBOW模型。

下面对CBOW模型做简单说明，所述CBOW模型中可以分为三层，分别为输入层、隐层以及输出层，其结构如图4所示。

第一层为输入层，输入值可以为若干词的向量，也就是将词用一个向量的形式进行表征，实质上，输入的若干词的向量也可以看做词向量。将词转换为向量时，可以基于预设的规则实现的，例如可以基于该词在所述语料库中的排列顺序，将词转换为向量，如排序为第一，则转换为第一向量。

中间层为隐层，生成输入层的若干个词向量的累加和。隐层的输出值为一个向量。第三层为输出层，输出层为二叉树。隐层的输出节点与二叉树的所有非叶节点连接；具体的，二叉树可以为霍夫曼树，霍夫曼树中的每个非叶节点可以表征一个词向量，非叶节点所表征的向量并不一个具体的词，而是一个类别的词；每个叶子节点也可以代表一个词向量。输入的若干词向量可以跟霍夫曼树中的一个或多个叶子节点是一样的，而输出层最终输出的词向量可以与输入的词向量相同，也可以不同，仅是在语义相关。霍夫曼树的所有叶子节点可以表征所述语料库中的所有样本媒体的内容，每个叶子节点代表所述语料库中的一个样本媒体的内容(如语句、关键词、词)，每个叶子节点代表的样本媒体可以不同。

对所述第二网络模型训练完成后，所述第二网络模型可以用于输出词向量，在确定所述第一对象对应的词向量时，可以基于预设的规则，将所述第一对象的名称转换为一个向量的形式输入到所述第二网络模型中，将所述第二网络模型的输出值作为所述第一对象对应的词向量；在确定所述媒体集合中的媒体对应的词向量时，可以基于预设的规则，将该媒体的文字信息(如媒体词、关键词等)转换为一个向量的形式输入到所述第二网络模型中，将所述第二网络模型的输出值作为该媒体对应的词向量。

然后，媒体服务器根据所述第一对象对应的词向量与所述媒体集合中的媒体对应的词向量之间的距离值，确定满足条件的第一媒体。

确定了所述第一媒体之后，所述媒体服务器可以在所述第一视频的目标区域覆盖所述第一媒体。

所述第一视频由多个图像帧构成，所述第一视频中的一个或多个图像帧中可以设置预设区域。示例性的，如图像帧中的一个或多个顶角位置为预设区域，或图像帧的下半部分为预设区域。所述第一视频的目标区域为所述第一视频中图像帧中的预设区域。

需要说明的是，本申请实施例并不限定所述第一视频中的每个图像帧中都存在预设区域，允许所述第一视频中的一个或多个图像帧中不存在预设区域，也就是说，所述媒体服务器可以只在所述第一视频中的部分图像帧中的预设区域覆盖所述第一媒体；不同图像帧的预设区域可以相同，也可以不同。示例性的，所述第一视频中的图像帧1的预设区域可以是图像帧1的左下角的矩形区域，所述第一视频中的图像帧2的预设区域可以是图像帧2的右上角的矩形区域。本申请实施例并不限定所述第一视频的目标区域的设置方式，所述第一视频的目标区域可以是预先标定的，也可以是所述媒体服务器检测后确定的。例如所述媒体服务器可以对所述第一视频中的图像帧进行分析，检测各个图像帧中的像素点的亮度以及变化趋势，可以将图像帧中边缘区域，像素点的亮度相同或像素值没有发生明显变化(如相邻像素点的像素值的差值小于阈值)的区域作为该图像帧的设定区域(即目标区域)。

所述媒体服务器在将所述第一媒体覆盖在所述第一视频的目标区域上时，可以根据所述第一视频的目标区域的大小和形状对所述第一媒体做调整；调整到与所述第一视频的目标区域的大小和形状一致后，将调整后的第一媒体覆盖在所述第一视频的目标区域。

此外，第一视频中每一个图像帧中包括的所述第一对象可能不同，例如，对于所述第一视频中连续的图像帧中会存在相同类型的第一对象1，而在所述第一视频中其他连续的图像帧中会存在相同类型的第一对象2；这种情况下，可以在包括第一对象1的图像帧的预设区域覆盖第一对象1匹配的媒体；在包括第一对象2的图像帧的预设区域覆盖第一对象2匹配的媒体。

所述媒体服务器在将所述第一媒体覆盖在所述第一视频的目标区域之后，生成融合的视频文件，所述融合的视频文件为在所述第一视频的目标区域覆盖有所述第一媒体的第一视频的视频文件。

从上述过程中可以看出，第一对象实际上是一种适用于推荐媒体的对象，也就是说只要所述视频中存在所述第一对象，则可以在所述第一视频的目标区域处展示对应的媒体，能够较为针对性的植入媒体。

本申请实施例提供的媒体处理方式，可以应用于多种不同媒体植入场景，例如广告植入、视频插播、视频与图片同步展示等，以广告植入为例，采用本申请实施例的方式，需要播放的视频可能会有多个冠名商或者赞助商，在视频播放过程中可以根据需要播放这些冠名商或赞助商的广告。例如播放的第一视频为宠物电影，若植入母婴广告，并不能起到较好的广告作用；若植入宠物饲料的广告，则有利于吸引观看用户的兴趣。采用本申请实施例的方式，可以从所述第一视频中确定所述第一对象，例如从宠物电影中确定存在的第一对象为狗，之后从多个广告集合中匹配宠物饲料的广告，之后在所述第一视频的目标区域覆盖所述宠物饲料的广告，能够实现自动化的媒体植入、更加灵活高效，也更具有针对性。

而在所述第一视频中除了所述第一对象，还可能存在其他类型对象，例如，第一视频中能够展示媒体的展示位，如墙面、视频中的广告牌、灯牌、展板等等。

在本申请实施例中将视频中的展示位称为第二对象，若所述第一视频中存在所述第二对象，所述媒体服务器也可以在所述第一视频中融合媒体。如图5所示，为所述媒体服务器也在所述第二对象所在区域融合媒体的示意图，该方法包括：

步骤501：所述媒体服务器先检测所述第一视频中的第二对象。

示例性的，所述媒体服务器需要检测所述第一视频中的每一帧图像帧中是否存在第二对象。

步骤502：所述媒体服务器将第二媒体覆盖在所述第二对象所在区域上，生成融合的视频文件。

作为一种可能的实施方式，所述媒体服务器可以先检测第一视频中第一图像帧中的第二对象。所述第一图像帧可以是所述第一视频中的任一帧，也可以是所述第一视频的第一帧(也可以称为首帧)。

本申请实施例并不限定检测第一图像帧中的第二对象的方法。示例性的，所述媒体服务器中可以配置有第三网络模型，所述第三网络模型用于检测视频中的第二对象，还可以用于确定所述第二对象所在区域，例如第二对象所在的区域的坐标。

在本申请实施例中并不限定所述第三网络模型的构成，所述第三网络模型可以是神经网络模。

下面以所述第三网络模型为神经网络模型，生成所述第三网络模型的设备为所述媒体服务器为例，对训练生成所述第三网络模型的方式进行简要说明。

需要说明的是，本申请实施例并不限定所述第三网络模型的设备，也可以是其他服务器训练生成所述第三网络模型，之后将所述第三网络模型发送给所述媒体服务器。

首先，所述媒体服务器建立样本集合。所述样本集合包括多张样本图像，其中每张样本图像已标定出该样本图像是否包括所述第二对象，以及所述第二对象所在区域。例如，可以对每张样本图像设置标识，用于指示该样本图像是否包括所述第二对象，如标识为第一值(如1)，指示该样本图像包括第二对象。对于包括所述第二对象的样本图像还需确定所述第二对象所在区域(如标注区域的坐标等为位置信息)，如标识为第二值(如0)，指示该样本图像不包括第二对象。

之后，所述媒体服务器对所述第三网络模型进行训练。

以所述样本集合中样本图像作为所述第三网络模型的输入值，所述样本集合中对应的样本图像的标识以及所述第二对象所在的区域作为所述第三网络模型的输出值，采用随机梯度下降法对所述第三网络模型进行训练，确定所述第三网络模型的权重。

在本申请实施例中并不限定所述第三网络模型的构成，例如所述第三网络模型可以是由几个卷积层构成的，也可以是已知结构的神经网络模型，例如Mask-RCNN网络模型。

所述第三网络模型可以检测所述第一视频中任一图像帧(如所述第一图像帧)中的第二对象。为了确定所述第一视频中所有图像帧中的第二对象，所述媒体服务器可以对述第一视频中每一个图像帧进检测。

作为另一种可能的实施方式，所述媒体服务器可以基于所述第三网络模型，只检测所述第一视频中的一个图像帧(如第一图像帧)中的第二对象。对于所述第一视频中的其他图像帧，所述媒体服务器可以通过追踪算法，确定所述第一视频中除第一图像帧外的图像帧中的所述第二对象。所述追踪算法可以是LK光流算法，也可以是其他追踪算法。

需要说明的是，若所述第三网络模型为Mask-RCNN模型，所述Mask-RCNN模型确定的所述第二对象所在的区域并不能很好的覆盖所述第二对象。例如，所述Mask-RCNN模型确定的区域还可能会包括有非第二对象的部分。为了能够更加精确的确定出所述第一图像帧中所述第二对象所在的区域，可以采用分水岭算法得到所述第一图像帧中所述第二对象的4角点。

分水岭算法基于图像帧的梯度，用掩膜(mask)覆盖图像帧中的第二对象所在区域，之后通过对图像帧进行漫水，获取mask所覆盖的区域漫水后对应的四边形区域，标定该四边形区域的四个角点，该四边形区域的四个角点即为所述第二对象的4角点。

所述媒体服务器在确定所述第一图像帧中的所述第二对象的所在区域后，可以利用所述追踪算法先对所述第一图像帧中的一个特定区域(该特定区域为所述第一图像帧中的特征点集合的坐标)进行追踪；确定该特定区域从所述第一图像帧到所述第一视频中的第二图像帧的变化趋势，以及在所述第二图像帧的位置(表现为所述第二图像帧中的特征点集合的坐标)。所述媒体服务器可以通过所述第一图像帧中的特征点集合的坐标和所述第二图像帧中的特征点集合的坐标，确定坐标的变化矩阵。之后，基于该变化矩阵，将所述第一图像帧中的所述第二对象的所在区域转换为所述第二图像帧中的所述第二对象的所在区域(也就是说，对所述第一图像帧中的所述第二对象的所在区域的坐标转换为所述第二图像帧中的所述第二对象的所在区域的坐标)。所述第二图像帧为所述第一视频中除所述第一图像帧外的任一图像帧。

本申请实施例中并不限定所述第一图像帧的数量，也就是说，所述媒体服务器可以确定多个第一图像帧中的所述第二对象的所在区域。之后利用所述追踪算法确定各个所述第一图像帧的相邻的图像帧中的所述第二对象的所在区域。采用这种方式能够更加准确的标定所述第一视频中所述第二对象的所在区域。另外，若所述第一视频中展示多个不同的场景，不同场景下的展示位通常不同，在这种情况下，可以在所述第一视频的不同的场景中，分别选用不同的第一图像帧。示例性的，如所述第一视频中存储三个不同的场景，场景1对应的图像帧的序号为1～70，场景2对应的图像帧的序号为71～120，场景3对应的图像帧的序号为121～160。对于场景1，选择图像帧序号为1的作为所述第一图像帧，所述媒体服务器检测序号为1的图像帧中的所述第二对象，并通过追踪算法确定序号为2～70的图像帧中的所述第二对象。对于场景2，与场景1类似，选择图像帧序号为71的作为所述第一图像帧，所述媒体服务器检测序号为71的图像帧中的所述第二对象，并通过追踪算法确定序号为72～120的图像帧中的所述第二对象。对于场景3也类似，此处不再赘述。

在确定了所述第一视频中的第二对象后，可能并不是所述第一视频中的每一个图像帧中均存在所述第二对象。所述媒体服务器在所述第一视频中融合所述第二媒体时，可以只针对所述第一视频中存在所述第二对象的图像帧，确定该图像帧中所述第二对象所在区域。之后将第二媒体覆盖在所述第二对象所在区域上，生成融合的视频文件。

所述媒体服务器可以在不同的图像帧中覆盖的第二媒体可以相同，也可以不同，本申请实施例并不限定。例如，所述媒体服务器可以在第一视频中前N个连续的图像帧中所述第二对象所在区域覆盖所述第二媒体1，所述媒体服务器可以在所述第一视频中第N+1个到第N+M个图像帧中所述第二对象所在区域上可以覆盖所述第二媒体2，N和M为正整数。

所述媒体服务器将所述第二媒体覆盖在所述第二对象所在区域时，可以根据所述第二对象所在区域的大小和形状对所述第二媒体做调整；调整到与所述第二对象所在区域的大小和形状一致后，将调整后的第二媒体覆盖在所述第二对象所在区域。之后，由于所述第二对象所在区域的边缘的像素值与所述第二媒体的边缘的像素值可能存在突变；直接覆盖，会使得所述第二媒体与所述第一视频的图像帧没有较好的过渡，显示效果较差。为了提升显示效果，可以对所述第二媒体的边缘进行高斯平滑，也就是利用高斯滤波器对所述第二媒体的边缘的像素值和所述第二对象所在区域的边缘的像素值做均值处理，获得像素均值，将所述第二媒体的边缘的像素值调整为该像素均值，已达到平滑过渡的效果。

所述媒体服务器在将所述第二媒体覆盖在所述第二对象所在区域、并对所述第二媒体的边缘进行高斯平滑之后，可以生成融合的视频文件。所述融合的视频文件为在所述第一视频的目标区域覆盖有所述第一媒体、以及在所述第二对象所在区域覆盖有所述第二媒体的第一视频的视频文件。

所述第二媒体可以是所述媒体集合中的媒体，也可以是其他媒体，可以是预先设置的图片、视频等。

如图6A～6D所示，以所述第三网络模型为Mask-RCNN模型为例，在第二对象所在区域植入所述第二媒体的流程图。

首先，如6A所示，将所述第一视频中的第一图像帧输入到所述Mask-RCNN模型，在所述Mask-RCNN模型中经过卷积神经网络(convolutional neural networks,CNN)和区域候选网络(region proposal network，RPN)输出特征图像。经过感兴趣区域对齐(ROIAlign)层之后输出特征图的尺寸(如高、宽等)。然后经过一系列的运算以及全连接层，确定所述第一视频中的第一图像帧中存在所述第二对象，对应图6A中的边框回归(boxregression)以及分类算法(classification)的输出。另外，还可以确定所述第二对象所在区域，对应图6A中的掩膜分支(mask branch)的输出。

如图6B所示，通过所述Mask-RCNN模型可以初步识别所述第二对象，并可以粗略的确定所述第二对象所在区域(如图6B中的虚线框所示)。

之后，如图6C所示，通过分水岭算法确定所述第一图像帧中所述第二对象的4角点。4角点为所述第二对象所在区域的四个角点；优化所述第二对象所在区域的区域坐标(如4角点的坐标)。然后，如图6D所示，在优化后的所述第二对象所在区域覆盖所述第二媒体。

基于与方法实施例的同一发明构思，本发明实施例提供一种媒体服务器700，具体用于实现上述方法实施例中所述设备执行的方法，该装置的结构如图7所示，包括确定单元701、匹配单元702和融合单元703：

所述确定单元701，用于基于第一网络模型，确定第一视频中存在的第一对象，所述第一网络模型是根据存在所述第一对象的样本图像训练生成的。

所述匹配单元702，用于从媒体集合中确定与所述第一对象匹配的第一媒体，所述第一对象与所述第一媒体的内容存在关联。

所述融合单元703，用于将所述第一媒体覆盖在所述第一视频的目标区域，生成融合的视频文件。

作为一种可能的实施方式，所述第一网络模型在训练过程中，输入样本图像作为，输出样本图像的标签，样本图像的标签为预先确定的用于指示样本图像是否存在所述第一对象，标签为第一值时，指示存在所述第一对象，标签为第二值时，指示不存在所述第一对象的情况；当所述第一网络模型在对所述第一视频进行处理时，以所述第一视频作为输入，所述第一标签作为输出，所述第一标签用于指示所述第一视频中存在所述第一对象。

作为一种可能的实施方式，所述匹配单元702在从媒体集合中确定与所述第一对象匹配的第一媒体时，可以基于第二网络模型，生成所述第一对象对应的特征向量以及所述媒体集合中每个媒体对应的特征向量；之后，根据所述第一对象对应的特征向量与所述媒体集合中每个媒体对应的特征向量的距离值，确定所述媒体集合中对应的特征向量与所述第一对象对应的特征向量的距离值满足条件的第一媒体。

作为一种可能的实施方式，所述特征向量为词向量，示例性的，所述第一对象对应的词向量可以表征所述第一对象的名称，所述媒体集合中每个媒体对应的词向量可以表征媒体的内容。

作为一种可能的实施方式，所述条件包括下列的至少一项：距离值最小、距离值处于预设范围。

作为一种可能的实施方式，所述装置还包括检测单元704，所述检测单元704，用于检测所述第一视频中的第二对象；所述融合单元703则还可以将第二媒体覆盖在所述第二对象所在区域上，生成融合的视频文件。

作为一种可能的实施方式，所述检测单元704在检测所述第一视频中的第二对象时，可以先检测所述第一视频中第一图像帧中的第二对象；之后，通过追踪算法，确定所述第一视频中除第一图像帧外的图像帧中的所述第二对象。

作为一种可能的实施方式，所述融合单元703在所述第二对象所在的区域覆盖所述第二媒体时，针对所述第一视频中存在所述第二对象的任一图像帧，可以在所述第二对象所在区域上覆盖所述第二媒体。

作为一种可能的实施方式，所述融合单元703还可以在将所述第二媒体覆盖在所述第二对象所在区域后，对所述第二媒体的边缘进行高斯平滑，生成融合的视频文件。

本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能单元可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是个人计算机，手机，或者网络设备等)或处理器(processor)执行本申请各个实施例该方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请实施例中，所述媒体服务器均可以采用集成的方式划分各个功能模块的形式来呈现。这里的“模块”可以指特定ASIC，电路，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。

在一个简单的实施例中，本领域的技术人员可以想到所述媒体服务器可采用图8所示的形式。

如图8所示的装置800，包括至少一个处理器801和存储器803，可选的，还可以包括收发器802。

一种可能的实现方式中，所述装置800还可以包括显示器804。所述显示器804可以用于显示视频。

存储器803可以是易失性存储器，例如随机存取存储器；存储器也可以是非易失性存储器，例如只读存储器，快闪存储器，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器803是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器803可以是上述存储器的组合。

本申请实施例中不限定上述处理器801以及存储器803之间的具体连接介质。

处理器801可以具有数据收发功能，能够与其他设备进行通信，如在本申请实施例中，处理器801可以向所述其他设备发送所述融合文件，或从其他设备接收所述第一视频，在如图8装置中，也可以设置独立的数据收发模块，例如收发器802，用于收发数据；处理器801在与其他设备进行通信时，可以通过收发器802进行数据传输，如在本申请实施例中，处理器801可以通过收发器802向所述其他设备发送所述融合文件，或从其他设备接收所述第一视频。

当所述设备采用图8所示的形式时，图8中的处理器801可以通过调用存储器803中存储的计算机执行指令，使得所述装置可以执行上述任一方法实施例中的所述第一设备执行的方法。

具体的，存储器803中存储有用于实现图7中的确定单元、匹配单元、检测单元和融合单元的功能的计算机执行指令，图7中的确定单元、匹配单元、检测单元和融合单元的功能/实现过程均可以通过图8中的处理器801调用存储器803中存储的计算机执行指令来实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种媒体处理方法，其特征在于，所述方法包括：

媒体服务器基于第一网络模型，确定第一视频中存在的第一对象，所述第一网络模型是根据存在所述第一对象的样本图像训练生成的，所述第一网络模块包括3个卷积层，2个最大池化层，3个Dropout层，1个Faltten层以及2个全连接层；

所述媒体服务器基于第二网络模型，生成所述第一对象对应的特征向量以及所述媒体集合中每个媒体对应的特征向量；

所述媒体服务器从所述第一对象对应的特征向量与所述媒体集合中媒体对应的特征向量的距离值处于预设范围内的多个媒体中选择出优先级最高的第一媒体；

所述媒体服务器将所述第一视频的图像的边缘区域中，相邻像素点的像素值的差值小于阈值的区域确定为所述第一视频的目标区域；所述媒体服务器将所述第一媒体覆盖在所述第一视频的目标区域，生成融合的视频文件。

2.如权利要求1所述的方法，其特征在于，所述第一网络模型以所述第一视频作为输入，所述第一标签作为输出，所述第一标签用于指示所述第一视频中存在所述第一对象。

3.如权利要求1所述的方法，其特征在于，所述特征向量为词向量。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

所述媒体服务器检测所述第一视频中的第二对象；

所述媒体服务器将第二媒体覆盖在所述第二对象所在区域上，生成融合的视频文件。

5.如权利要求4所述的方法，其特征在于，所述媒体服务器检测所述第一视频中的第二对象，包括：

所述媒体服务器检测所述第一视频中第一图像帧中的第二对象；

所述媒体服务器通过追踪算法，确定所述第一视频中除第一图像帧外的图像帧中的所述第二对象。

6.如权利要求4或5所述的方法，其特征在于，所述媒体服务器将第二媒体覆盖在所述第二对象所在区域上，包括：

针对所述第一视频中存在所述第二对象的任一图像帧，所述媒体服务器在所述第二对象所在区域上覆盖所述第二媒体。

7.如权利要求4或5所述的方法，其特征在于，还包括：

所述媒体服务器将所述第二媒体覆盖在所述第二对象所在区域后，对所述第二媒体的边缘进行高斯平滑。

8.一种媒体服务器，其特征在于，所述媒体服务器包括存储器和处理器；

所述存储器，存储有代码指令；

所述处理器，用于调用所述存储器存储的代码指令，执行如权利要求1-7中任一所述的方法。