CN114157881A

CN114157881A - 多媒体处理方法、装置、电子设备及存储介质

Info

Publication number: CN114157881A
Application number: CN202111272832.5A
Authority: CN
Inventors: 磯部駿; 陶鑫; 戴宇荣
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-03-08

Abstract

本公开关于一种多媒体处理方法、装置、电子设备及存储介质。该方法包括：对待处理多媒体进行预设标识的检测处理，得到所述待处理多媒体中包含所述预设标识的目标图像；所述预设标识为预设应用关联的预设图标标识和/或预设文本标识；基于所述目标图像，从所述待处理多媒体中提取目标多媒体片段；对所述待处理多媒体中所述目标多媒体片段进行剪辑处理，得到所述待处理多媒体对应的目标多媒体。根据本公开提供的技术方案，既可以避免彩色广告的漏检，又可以避免多媒体中黑色正常帧的误检。

Description

多媒体处理方法、装置、电子设备及存储介质

技术领域

本公开涉及多媒体技术领域，尤其涉及一种多媒体处理方法、装置、电子设备及存储介质。

背景技术

随着多媒体应用的发展，例如视频应用的发展，各视频应用(视频平台)中的视频业务也越来越多样，例如在视频应用中，可以在用户上传或下载的视频中加入附加内容(广告、宣传标记等)，比如在视频的尾部添加一个广告。但是用户可能会将上传至应用A中的视频或从应用A中下载的的视频再次上传至应用B中，而应用B一般不希望添加有其它应用广告的视频内容在自己的平台中，用户也不希望自己制作的视频内容被添加了附加内容。基于此，相关技术中基于先验假设：附加内容(例如片尾的广告)一般是黑色或接近黑色的图像，选择基于黑色像素的占比来识别多媒体中的附加内容。但是多媒体的正常帧图像也会存在黑色的画面，这导致正常帧被误检为附加内容；以及随着广告中色彩的丰富化，对于彩色的广告，现有的识别方法会出现对彩色广告的漏检，导致附加内容的识别不精准。

发明内容

本公开提供一种多媒体处理方法、装置、电子设备及存储介质，以至少解决相关技术中如何提升目标多媒体片段(广告)的检测精度问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种多媒体处理方法，包括：

对待处理多媒体进行预设标识的检测处理，得到所述待处理多媒体中包含所述预设标识的目标图像；所述预设标识为预设应用关联的预设图标标识和/或预设文本标识；

基于所述目标图像，从所述待处理多媒体中提取目标多媒体片段；

对所述待处理多媒体中所述目标多媒体片段进行剪辑处理，得到所述待处理多媒体对应的目标多媒体。

在一种可能的实现方式中，所述待处理多媒体包含多个图像，所述对待处理多媒体进行预设标识的检测处理，确定所述待处理多媒体中包含所述预设标识的目标图像，包括：

获取预设检测区域，所述预设检测区域在图像中对应的子图像的边缘与图像的边缘之间的距离为预设距离；

基于所述预设检测区域，对所述多个图像进行预设标识的检测处理，得到所述目标图像；所述目标图像的预设标识处于所述目标图像的子图像中。

在一种可能的实现方式中，在所述对待处理多媒体进行预设标识的检测处理，确定所述待处理多媒体中包含所述预设标识的目标图像之前，还包括：

对所述待处理多媒体进行黑色转场图像的检测处理，得到检测结果；

所述对待处理多媒体进行预设标识的检测处理，得到所述待处理多媒体中包含所述预设标识的目标图像，包括：

在所述检测结果为存在黑色转场图像的情况下，对所述待处理多媒体进行预设标识的检测处理，确定所述目标图像。

在一种可能的实现方式中，所述对待处理多媒体进行预设标识的检测处理，得到所述待处理多媒体中包含所述预设标识的目标图像，包括：

从所述待处理多媒体中，获取黑色像素占比大于预设阈值的待检测图像；

对所述待检测图像进行预设标识的检测处理，得到所述目标图像，所述目标图像为所述待检测图像中的至少一个图像。

在一种可能的实现方式中，所述基于所述目标图像，从所述待处理多媒体中确定目标多媒体片段，包括：

从所述目标图像中确定距离结束时间的时长小于预设时长的至少一个图像；所述结束时间为所述待处理多媒体的结束时间，所述预设时长为所述待处理多媒体的总时长与预设比例相乘得到的时长；

从所述待处理多媒体中确定与所述至少一个图像对应的所述目标多媒体片段。

在一种可能的实现方式中，所述方法还包括：

响应于多媒体发布请求，从所述多媒体发布请求中提取出所述待处理多媒体。

在一种可能的实现方式中，所述待处理多媒体包含多个图像，所述预设标识包括所述预设图标标识和所述预设文本标识；所述对待处理多媒体进行预设标识的检测处理，得到所述待处理多媒体中包含所述预设标识的目标图像，包括：

将所述多个图像输入图标检测模型，进行图标检测处理，得到包含所述预设图标标识的第一图像；

将所述多个图像输入文本检测模型，进行文本检测处理，得到包含所述预设文本标识的第二图像；

基于所述第一图像和所述第二图像，得到所述目标图像。

在一种可能的实现方式中，还包括：

获取包含所述预设图标标识的多个第一样本图像、包含所述预设文本标识的多个第二样本图像以及标签信息，所述标签信息包括各第一样本图像中预设图标标识的第一位置信息以及各第二样本图像中预设文本标识的第二位置信息；

将所述多个第一样本图像输入第一网络模型，进行图标检测处理，得到第一预测位置信息；

将所述多个第二样本图像输入第二网络模型，进行文本检测处理，得到第二预测位置信息；

基于所述第一预测位置信息和所述第一位置信息，确定第一损失信息；

基于所述第二预测位置信息和所述第二位置信息，确定第二损失信息；

利用所述第一损失信息训练所述第一网络模型，得到所述图标检测模型；

利用所述第二损失信息训练所述第二网络模型，得到所述文本检测模型。

根据本公开实施例的第二方面，提供一种多媒体处理装置，包括：

检测模块，被配置为执行对待处理多媒体进行预设标识的检测处理，得到所述待处理多媒体中包含所述预设标识的目标图像；所述预设标识为预设应用关联的预设图标标识和/或预设文本标识；

提取模块，被配置为执行基于所述目标图像，从所述待处理多媒体中提取目标多媒体片段；

剪辑模块，被配置为执行对所述待处理多媒体中所述目标多媒体片段进行剪辑处理，得到所述待处理多媒体对应的目标多媒体。

在一种可能的实现方式中，所述待处理多媒体包含多个图像，所述检测模块包括：

预设检测区域获取单元，被配置为执行获取预设检测区域，所述预设检测区域在图像中对应的子图像的边缘与图像的边缘之间的距离为预设距离；

第一检测单元，被配置为执行基于所述预设检测区域，对所述多个图像进行预设标识的检测处理，得到所述目标图像；所述目标图像的预设标识处于所述目标图像的子图像中。

在一种可能的实现方式中，还包括：

黑色转场检测模块，被配置为执行对所述待处理多媒体进行黑色转场图像的检测处理，得到检测结果；

所述检测模块包括：

第二检测单元，被配置为执行在所述检测结果为存在黑色转场图像的情况下，对所述待处理多媒体进行预设标识的检测处理，确定所述目标图像。

在一种可能的实现方式中，所述检测模块包括：

待检测图像获取单元，被配置为执行从所述待处理多媒体中，获取黑色像素占比大于预设阈值的待检测图像；

第三检测单元，被配置为执行对所述待检测图像进行预设标识的检测处理，得到所述目标图像，所述目标图像为所述待检测图像中的至少一个图像。

在一种可能的实现方式中，所述提取模块包括：

尾部图像确定单元，被配置为执行从所述目标图像中确定距离结束时间的时长小于预设时长的至少一个图像；所述结束时间为所述待处理多媒体的结束时间，所述预设时长为所述待处理多媒体的总时长与预设比例相乘得到的时长；

提取单元，被配置为执行从所述待处理多媒体中确定与所述至少一个图像对应的所述目标多媒体片段。

在一种可能的实现方式中，所述装置还包括：

待处理多媒体提取模块，被配置为执行响应于多媒体发布请求，从所述多媒体发布请求中提取出所述待处理多媒体。

在一种可能的实现方式中，所述待处理多媒体包含多个图像，所述预设标识包括所述预设图标标识和所述预设文本标识；所述检测模块包括：

图标检测单元，被配置为执行将所述多个图像输入图标检测模型，进行图标检测处理，得到包含所述预设图标标识的第一图像；

文本检测单元，被配置为执行将所述多个图像输入文本检测模型，进行文本检测处理，得到包含所述预设文本标识的第二图像；

目标图像获取单元，被配置为执行基于所述第一图像和所述第二图像，得到所述目标图像。

在一种可能的实现方式中，还包括：

样本获取模块，被配置为执行获取包含所述预设图标标识的多个第一样本图像、包含所述预设文本标识的多个第二样本图像以及标签信息，所述标签信息包括各第一样本图像中预设图标标识的第一位置信息以及各第二样本图像中预设文本标识的第二位置信息；

第一预测位置信息获取模块，被配置为执行将所述多个第一样本图像输入第一网络模型，进行图标检测处理，得到第一预测位置信息；

第二预测位置信息获取模块，被配置为执行将所述多个第二样本图像输入第二网络模型，进行文本检测处理，得到第二预测位置信息；

第一损失确定模块，被配置为执行基于所述第一预测位置信息和所述第一位置信息，确定第一损失信息；

第二损失确定模块，被配置为执行基于所述第二预测位置信息和所述第二位置信息，确定第二损失信息；

图标检测模型训练模块，被配置为执行利用所述第一损失信息训练所述第一网络模型，得到所述图标检测模型；

文本检测模型训练模块，被配置为执行利用所述第二损失信息训练所述第二网络模型，得到所述文本检测模型。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第一方面中任一所述的方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时，使得计算机执行本公开实施例的第一方面中任一项所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过设置预设标识以用于多媒体中目标图像的定位，在现有多媒体中的附加内容(比如广告)一般包括预设标识的情况下，这种基于预设标识的广告检测既可以避免彩色广告的漏检，又可以避免多媒体中黑色正常帧的误检，提升了目标图像的定位精准度，从而提升了多媒体的处理效果；

并且，通过基于目标图像进行的多媒体剪辑处理，可以得到更加纯净的目标多媒体，这样既可以帮助用户和平台有效且精准的过滤掉预设应用添加至多媒体中的附加内容；也可以在用户将自己制作的原视频上传至预设应用后再下载，能够利用该方法对下载的、已添加附加内容的原视频进行精准地恢复处理，以得到原视频。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用环境的示意图。

图2是根据一示例性实施例示出的一种多媒体处理方法的流程图。

图3是根据一示例性实施例示出的一种基于目标图像，从待处理多媒体中提取目标多媒体片段的方法流程图。

图4是根据一示例性实施例示出的一种对待处理多媒体进行预设标识的检测处理，确定待处理多媒体中包含预设标识的目标图像的方法流程图。

图5是根据一示例性实施例示出的一种预设检测区域的示意图。

图6是根据一示例性实施例示出的一种对待处理多媒体进行预设标识的检测处理，确定待处理多媒体中包含预设标识的目标图像的方法流程图。

图7是根据一示例性实施例示出的一种多媒体处理装置框图。

图8是根据一示例性实施例示出的一种用于多媒体处理的电子设备的框图。

图9是根据一示例性实施例示出的一种用于多媒体处理的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

近年来，随着人工智能技术研究和进步，人工智能技术在多个领域得到广泛应用，本申请实施例提供的方案涉及机器学习/深度学习等技术，具体通过如下实施例进行说明：

请参阅图1，图1是根据一示例性实施例示出的一种应用环境的示意图，如图1所示，该应用环境可以包括服务器01和终端02。

在一个可选的实施例中，服务器01可以用于多媒体的处理。具体的，服务器01可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个可选的实施例中，终端02可以用于下载或发布多媒体。具体的，终端02可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备等类型的电子设备。可选的，电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

此外，需要说明的是，图1所示的仅仅是本公开提供的多媒体处理方法的一种应用环境。还可以是其它应用环境，例如，终端02可以用于多媒体的处理，从而可以将处理得到的、不带附加内容的目标多媒体进行发布，分散了多媒体处理压力。可选地，终端在发布时，可以携带基于该多媒体处理方法的多媒体处理标识，相应地，目标平台的服务器可以判断发布的多媒体是否携带该多媒体处理标识，如果携带，可以直接发布；如果不携带，可以执行该多媒体处理方法。本公开对这些不作限定。

本说明书实施例中，上述服务器01以及终端02可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

需要说明的是，以下图中示出的是一种可能的步骤顺序，实际上并不限定必须严格按照此顺序。有些步骤可以在互不依赖的情况下并行执行。本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、用户行为信息等)和数据(包括但不限于用于展示的数据、训练的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

图2是根据一示例性实施例示出的一种多媒体处理方法的流程图。如图2所示，可以包括以下步骤。

在步骤S201中，对待处理多媒体进行预设标识的检测处理，得到待处理多媒体中包含预设标识的目标图像。

其中，预设标识可以为预设应用关联的预设图标标识和/或预设文本标识，即一个预设图标标识和一个预设文本标识均可以唯一标识一个预设应用，例如预设文本标识可以是对应的预设应用的名称。这里的预设应用可以是目标应用(目标平台)中预先设置的，可选地，预设应用可以是与该目标应用不同的至少一个其它应用。这里的预设应用和目标应用可以是指能够处理多媒体的应用或者实现多媒体交互的应用，例如可以包括多媒体处理平台、网络媒体平台、社交平台等，本公开对此不作限定。待处理多媒体可以包括短视频、长视频、图文媒体等。这里的应用可以是以应用程序APP(application)的方式提供相应功能的，也可以是以网页方式提供相应功能的，本公开对此不作限定。

本说明书实施例中，目标平台为了保证平台中的多媒体是干净的，即为了保证多媒体中不包含其它平台的附加内容(比如广告内容、宣传内容等)，选择对多媒体进行检测处理，以实现对多媒体中的附加内容进行过滤的目的。考虑附加内容中一般会包括预设应用关联的预设图标标识和/或预设应用关联的预设文本标识，基于此，可以选择对待处理多媒体进行预设标识的检测处理，以识别并定位待处理多媒体中的附加内容。在此基础上，可以获取平台中的多媒体作为待处理多媒体，从而可以对待处理多媒体进行预设标识的检测处理，得到待处理多媒体中包含预设标识的目标图像。该目标图像可以是待处理多媒体包含的多个图像中的至少一个。其中，目标图像的内容与待处理多媒体的主题内容不匹配，也就是说，目标图像的内容为附加内容。待处理多媒体包含的多个图像可以是指待处理多媒体中全部帧对应的图像。

在一种可能的实现方式中，可以通过机器学习模型实现检测处理。基于此，在一个示例中，待处理多媒体包含多个图像，预设标识包括预设图标标识和预设文本标识，即需要对预设图标标识和预设文本标识均进行监测的情况下，该步骤S201可以包括：将多个图像输入图标检测模型，进行图标检测处理，得到包含预设图标标识的第一图像；并可以将多个图像输入文本检测模型，进行文本检测处理，得到包含预设文本标识的第二图像；以及基于第一图像和第二图像，得到目标图像，例如可以将第一图像和第二图像中重复的图像作为目标图像。在另一个示例中，在预设标识包括预设图标标识的情况下，可以将多个图像输入图标检测模型，进行图标检测处理，得到包含预设图标标识的第一图像，从而可以将第一图像作为目标图像。在预设标识包括预设文本标识的情况下，可以将多个图像输入文本检测模型，进行文本检测处理，得到包含预设文本标识的第二图像，从而可以将第二图像作为目标图像。对于模型的训练，在下面介绍，在此不再赘述。这里通过机器学习模型实现检测处理，可以提高检测精度和效率。

可选地，预设标识的检测处理也可以是基于图像匹配进行的，例如可以将待处理多媒体中的每一帧图像与预设标识进行匹配处理，得到与预设标识匹配的目标图像。

对于该多媒体处理的应用场景，可以是由终端或服务器触发的，基于此，该步骤S201之前还可以包括以下步骤：响应于多媒体发布请求，从多媒体发布请求中提取出待处理多媒体。以多媒体发布请求由终端触发的为例，该多媒体处理方法可以是在用户向目标平台发布多媒体时，基于此，终端可以将多媒体发布请求发送至目标平台的服务器，该服务器可以接收终端发送的多媒体发布请求；并可以从多媒体发布请求中提取出待处理多媒体。或者在终端触发多媒体发布请求时，终端可以从多媒体发布请求中提取出待处理多媒体。

通过在终端发布多媒体时，执行该多媒体处理方法，可以避免带有预设应用的多媒体被上传至目标平台，在源头保证了目标平台或终端中多媒体的内容纯净度。

在步骤S203中，基于目标图像，从待处理多媒体中提取目标多媒体片段。

本说明书实施例中，可以基于目标图像中各图像在待处理多媒体中的排序，将目标图像划分为至少一个连续的图像集，将从待处理多媒体中提取每个图像集对应的片段，得到目标多媒体片段。该目标多媒体片段可以是指与待处理多媒体的主题内容不匹配或不相关的多媒体片段，比如广告。待处理多媒体的主题内容可以是指未添加附加内容的原多媒体的内容，比如用户A制作了一个视频1，在用户A将视频1上传至应用A的情况下，应用A会在视频1中加入一段广告B形成视频2，那么视频1的内容可以看作是视频2的主题内容。也就是说，对于应用A之外的其它应用来说，应用A中的该原多媒体(视频1)与附加内容(广告B)组成了待处理多媒体(视频2)，这里附加内容的形式可以是视频片段、可以在原多媒体视频帧图像上展示的图文内容等。

在一种可能的实现方式中，附加内容一般处于多媒体的尾部，比如视频的片尾，基于此，如图3所示，图3是根据一示例性实施例示出的一种基于目标图像，从待处理多媒体中提取目标多媒体片段的方法流程图。该步骤S203可以包括：

在步骤S301中，从目标图像中确定距离结束时间的时长小于预设时长的至少一个图像；该结束时间为待处理多媒体的结束时间，该预设时长为待处理多媒体的总时长与预设比例相乘得到的时长。

在一个示例中，预设比例可以为0.3，本公开对此不作限定。以待处理多媒体的总时长为20秒为例，该预设时长＝20*0.3＝6秒。比如目标图像包括处于待处理多媒体中12～13秒直接的图像1～5、处于待处理多媒体中16～20秒之间的图像6～20；基于该步骤S301的处理方式，得到至少一个图像为图像6～20，即得到处于待处理多媒体尾部的图像。其中，该图像6在待处理多媒体中对应的时间可以是指该待处理多媒体的片尾的起始时间。

在步骤S303中，从待处理多媒体中确定与至少一个图像对应的目标多媒体片段。

实际应用中，可以从待处理多媒体中确定与至少一个图像对应的目标多媒体片段，比如可以将至少一个图像按照在待处理多媒体中的排列顺序(比如播放顺序)进行排序，形成目标多媒体片段；或者以上述为例，可以基于目标多媒体片段对应的16～20秒，从待处理多媒体中提取第16～20秒之间的片段，作为目标多媒体片段。

通过预设时长的设置以及判断距离待处理多媒体的结束时间的时长小于预设时长，可以保证目标多媒体片段的确定精准性，即可以提升待处理多媒体的片尾定位精准度。

在步骤S205中，对待处理多媒体中目标多媒体片段进行剪辑处理，得到待处理多媒体对应的目标多媒体。

本说明书实施例中，剪辑处理可以包括删除处理、过滤处理、擦除处理等，本公开对此不作限定。例如，可以将待处理多媒体中的目标多媒体片段删除，得到目标多媒体。该目标多媒体为待处理多媒体中不包括目标多媒体片段的多媒体。或者，可以将待处理多媒体中包括的预设标识进行擦除，使得目标多媒体中不包括预设标识，其它内容可以不变。这种比较适用于目标多媒体片段在待处理多媒体中的时间比较靠前的情况，比如待处理视频的中部为目标视频片段，这时可能预设标识是内嵌在目标视频片段的各帧图像上展示的，此时如果直接删除目标视频片段，会导致原视频的缺失，可以进行预设标识的擦除处理。即可选地，可以基于目标多媒体片段处于待处理多媒体中的位置，进行相应地的剪辑处理。例如，在目标多媒体片段处于待处理多媒体的尾部时，剪辑处理可以为删除处理；在目标多媒体片段处于待处理多媒体的非尾部时，剪辑处理可以为过滤处理或擦除处理，以过滤或擦除预设标识。待处理多媒体的尾部可以是指距离待处理多媒体的结束时间小于预设时长的部分。

可选地，目标多媒体可以被存储在服务器；也可以由终端存储，使得终端的用户可以基于该多媒体处理方法，得到不携带附加内容的纯净多媒体，比如可以帮助用户找到自己制作的原视频，即进行视频恢复。

在一种可能的实现方式中，为了进一步提升目标图像的检测精度以及避免不必要的检测处理。在上述步骤S201之前，该方法还可以包括：对待处理多媒体进行黑色转场图像的检测处理，得到检测结果；其中，黑色转场图像可以是指待处理多媒体中多媒体内容(对应于目标多媒体片段)与附加内容之间的黑色图像，现有多媒体中有附加内容时一般会有这样的黑色转场效果。

相应地，该步骤S201可以包括：在检测结果为存在黑色转场图像的情况下，对待处理多媒体进行预设标识的检测处理，确定目标图像。

可选地，可以对待处理多媒体中处于黑色转场图像之后的图像进行预设标识的检测处理，得到目标图像。这样可以有效避免将内嵌附加内容的图像检测为目标图像，能够避免正常帧被删除。其中，内嵌附加内容的图像可以是指附加内容在原视频的帧中叠加展示的图像。

通过结合黑色转场图像的判断，在有黑色转场效果时，才对待处理多媒体进行预设标识的检测处理，既可以避免附加内容的误检，又可以避免不必要的预设标识检测，降低处理资源。

图4是根据一示例性实施例示出的一种对待处理多媒体进行预设标识的检测处理，确定待处理多媒体中包含预设标识的目标图像的方法流程图。在一种可能的实现方式中，待处理多媒体可以包含多个图像，如图4所示，上述步骤S201可以包括：

在步骤S401中，获取预设检测区域。

其中，该预设检测区域可以是预先设置的，该预设检测区域在图像中对应的子图像的边缘与图像的边缘之间的距离为预设距离；以预设检测区域为预设检测方形框为例，可以如图5所示，其中预设距离可以为d，作为一个示例，该d可以为1厘米。

在步骤S403中，基于预设检测区域，对多个图像进行预设标识的检测处理，得到目标图像；

本说明书实施例中对于检测处理的方式不作限定，只要得到的目标图像的预设标识处于目标图像的子图像中即可，即只要得到的目标图像的预设标识处于目标图像的中心区域即可，该目标图像的子图像可以是预设检测区域在目标图像中对应的部分图像。

在一个示例中，该步骤S403可以包括以下步骤：

分别从待处理多媒体包含的多个图像中获取与预设检测区域对应的子图像；

对各子图像进行预设标识的检测处理，确定目标图像。

本说明书实施例中，可以从多个图像的各图像中截取子图像，比如预设距离为1厘米，以图像H为例，可以将图像H中距离图像H的边缘为0～1厘米之间的像素均剪裁掉，得到处于中心的、与预设检测区域对应的子图像。从而可以对各子图像进行预设标识的检测处理，确定目标图像。该检测处理的方式可以参见上述S201的实现方式，在此不再赘述。由于在子图像中进行的检测处理，保证了目标图像的预设标识处于目标图像的子图像中。

在另一个示例中，该步骤S403可以包括以下步骤：

对待处理多媒体包含的多个图像进行预设标识的检测处理，得到包含预设标识的图像；

将包含预设标识的图像中预设标识处于预设检测区域的图像确定为目标图像，预设检测区域为图像的中心区域。

实际应用中，也可以先对多个图像进行预设标识的检测处理，然后再从检测处理得到的图像中，筛选出预设标识处于预设检测区域的目标图像，从而也可以保证目标图像的预设标识处于目标图像的子图像中。

通过预设检测区域的设置，可以提升目标图像的检测精度，可以避免漏检和错检，从而可以提升多媒体处理的精度。

图6是根据一示例性实施例示出的一种对待处理多媒体进行预设标识的检测处理，确定待处理多媒体中包含预设标识的目标图像的方法流程图。在一种可能的实现方式中，如图6所示，上述步骤S201可以包括：

在步骤S601中，从待处理多媒体中，获取黑色像素占比大于预设阈值的待检测图像；

在步骤S603中，对待检测图像进行预设标识的检测处理，得到目标图像，该目标图像可以为待检测图像中的至少一个图像。

本说明书实施例中，考虑一般附加内容一般是黑色或接近黑色的图像，可以从待处理多媒体中，获取黑色像素占比大于预设阈值的待检测图像；这里的预设阈值可以预设占比信息，该预设占比信息可以是统计得到的。进一步地，可以对待检测图像进行预设标识的检测处理，得到目标图像，该检测处理可以参见步骤S201，在此不再赘述。可选地，对待检测图像进行预设标识的检测处理也可以执行如上述步骤S401和S403的步骤，即可以将步骤S401和S403中的多个图像替换为这里的待检测图像，以利用模型进行检测，从而进一步提升检测精准度和效率。

通过黑色像素占比和预设阈值的设置，实现对待处理多媒体中多个图像的初筛，使得预设标识的检测处理可以在待检测图像中进行，既提升了检测效率，又通过结合黑色像素占比和预设标识一起确定目标图像，使得目标图像的确定更加准确。

在一种可能的实现方式中，模型的训练可以包括以下步骤：

获取包含预设图标标识的多个第一样本图像、包含预设文本标识的多个第二样本图像以及标签信息，该标签信息包括第一样本图像中预设图标标识的第一位置信息以及第二样本图像中预设文本标识的第二位置信息；本说明书实施例中，可以获取多个样本多媒体，从而可以从多个样本多媒体中提取包含预设图标标识的多个第一样本图像、以及从多个样本多媒体中提取包含预设文本标识的多个第二样本图像。

将多个第一样本图像输入第一网络模型，进行图标检测处理，得到第一预测位置信息；

将多个第二样本图像输入第二网络模型，进行文本检测处理，得到第二预测位置信息；

基于第一预测位置信息和第一位置信息，确定第一损失信息；

基于第二预测位置信息和第二位置信息，确定第二损失信息；

利用第一损失信息训练第一网络模型，得到图标检测模型；

利用第二损失信息训练第二网络模型，得到文本检测模型。

其中，第一位置信息和第二位置信息可以为预设标识的检测框信息，可以是预先标注的。本公开对损失信息的确定方式和网络模型(第一网络模型和第二网络模型)均不作限定。训练迭代的结束条件可以是损失信息小于损失阈值，或者可以是损失信息在预设次数内不增加，本公开对此不作限定。

通过该训练得到的图标检测模型和文本检测模型进行预设标识的检测处理，可以提升检测效率和精度。

图7是根据一示例性实施例示出的一种多媒体处理装置框图。参照图7，该装置可以包括：

检测模块701，被配置为执行对待处理多媒体进行预设标识的检测处理，得到所述待处理多媒体中包含所述预设标识的目标图像；所述预设标识为预设应用关联的预设图标标识和/或预设文本标识；

提取模块703，被配置为执行基于所述目标图像，从所述待处理多媒体中提取目标多媒体片段；

剪辑模块705，被配置为执行对所述待处理多媒体中所述目标多媒体片段进行剪辑处理，得到所述待处理多媒体对应的目标多媒体。

在一种可能的实现方式中，所述待处理多媒体包含多个图像，上述检测模块701可以包括：

在一种可能的实现方式中，该装置还包括：

上述检测模块包括：

在一种可能的实现方式中，上述检测模块701可以包括：

在一种可能的实现方式中，上述提取模块703可以包括：

在一种可能的实现方式中，该装置还可以包括：

在一种可能的实现方式中，所述待处理多媒体包含多个图像，所述预设标识包括所述预设图标标识和所述预设文本标识；上述检测模块701可以包括：

在一种可能的实现方式中，还可以包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于多媒体处理的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多媒体处理的方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图9是根据一示例性实施例示出的一种用于多媒体处理的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图9所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多媒体处理的方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的多媒体处理方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的多媒体处理方法。计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的多媒体处理的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种多媒体处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述待处理多媒体包含多个图像，所述对待处理多媒体进行预设标识的检测处理，确定所述待处理多媒体中包含所述预设标识的目标图像，包括：

3.根据权利要求1或2所述的方法，其特征在于，在所述对待处理多媒体进行预设标识的检测处理，确定所述待处理多媒体中包含所述预设标识的目标图像之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述对待处理多媒体进行预设标识的检测处理，得到所述待处理多媒体中包含所述预设标识的目标图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标图像，从所述待处理多媒体中确定目标多媒体片段，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种多媒体处理装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的多媒体处理方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的多媒体处理方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1至6中任一项所述的多媒体处理方法。