CN114866788A

CN114866788A - 视频的处理方法及装置

Info

Publication number: CN114866788A
Application number: CN202110149932.2A
Authority: CN
Inventors: 高占宁; 任沛然; 谢宣松
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2022-08-05

Abstract

本发明公开了一种视频的处理方法及装置。其中，该方法包括：提取待处理视频中的图像序列；对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于所述预设值的第一图像和与预设主题的匹配度小于预设值的第二图像；基于预设的规则集对第一图像进行第二粒度的识别，确定至少一个第一图像对应的事件标签，其中，第二粒度小于第一粒度。本发明解决了现有技术中直播视频需要人为标记导致标记效率低的技术问题。

Description

视频的处理方法及装置

技术领域

本发明涉及图像处理领域，具体而言，涉及一种视频的处理方法及装置。

背景技术

游戏直播平台每天产生海量游戏直播视频数据，需要将海量游戏直播视频数据进行分类标记，以方便根据用户感兴趣的标签向用户推送游戏直播视频。例如，可以将特定的游戏直播视频根据其不同的场景进行分类后向用户推送特定场景的直播视频片段，在多人对战类游戏的直播视频中，可以按照不同的虚拟角色或者不同的地图进行分类，向用户推送与该虚拟角色或地图相关的多个视频的集合。然而，目前对游戏直播视频数据的分类标记，需要由人工完成，面对海量的视频数据，人工分类标记的效率较低，导致无法对游戏直播视频数据进行多维度的分类和运营。

针对上述现有技术中直播视频需要人为标记导致标记效率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频的处理方法及装置，以至少解决现有技术中直播视频需要人为标记导致标记效率低的技术问题。

根据本发明实施例的一个方面，提供了一种视频的处理方法，包括：提取待处理视频中的图像序列；对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像；基于预设的规则集对第一图像进行第二粒度的识别，确定至少一个第一图像对应的事件标签，其中，第二粒度小于第一粒度。

根据本发明实施例的另一方面，还提供了一种视频的处理方法，包括：输入待处理视频、预设主题和规则集，其中，预设主题用于对待处理视频进行第一粒度的识别，确定待处理视频的图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像，规则集用于对待处理视频进行第二粒度的识别，确定至少一个第一图像对应的事件标签，第二粒度小于第一粒度；显示输出的与预设主题的匹配度大于或等于预设值的第一图像，以及第一图像对应的事件标签。

根据本发明实施例的另一方面，还提供了一种视频的处理装置，包括：提取模块，用于提取待处理视频中的图像序列；第一识别模块，用于对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像；第二识别模块，用于基于预设的规则集对第一图像进行第二粒度的识别，确定至少一个第一图像对应的事件标签，其中，第二粒度小于第一粒度。

根据本发明实施例的另一方面，还提供了一种视频的处理装置，包括：输入模块，用于输入待处理视频、预设主题和规则集，其中，预设主题用于对待处理视频进行第一粒度的识别，确定待处理视频的图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像，规则集用于对待处理视频进行第二粒度的识别，确定至少一个第一图像对应的事件标签，第二粒度小于第一粒度；显示模块，用于显示输出的与预设主题的匹配度大于或等于预设值的第一图像，以及第一图像对应的事件标签。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述视频的处理方法。

根据本发明实施例的另一方面，还提供了一种处理器，上述处理器用于运行程序，其中，程序运行时执行上述视频的处理方法。

根据本发明实施例的另一方面，还提供了一种视频的处理方法，包括：接收待处理的游戏视频，并从游戏视频中提取图像序列；对图像序列进行至少第一粒度的识别和第二粒度的识别，其中，第一粒度的识别用于识别出图像序列中包含游戏场景的第一图像，第二粒度的识别用于基于预设的规则集确定第一图像对应的事件标签，其中，第二粒度小于第一粒度；基于第一图像构成游戏视频的视频摘要，并确定第一图像对应的事件标签为视频摘要对应的事件标签；显示视频摘要，以及视频摘要对应的事件标签。

根据本发明实施例的另一方面，还提供了一种视频的处理方法，包括：接收待处理的直播视频，并从直播视频中提取图像序列，其中，直播视频为直播过程中生成的视频；对图像序列进行至少第一粒度的识别和第二粒度的识别，其中，第一粒度的识别用于识别出图像序列中与预设主体的匹配度大于或等于预设值的第一图像，第二粒度的识别用于基于预设的规则集确定第一图像对应的事件标签，其中，第二粒度小于第一粒度；基于第一图像构成直播视频的视频摘要，并确定第一图像对应的事件标签为视频摘要对应的事件标签；显示视频摘要，以及视频摘要对应的事件标签。

在本发明实施例中，通过提取待处理视频中的图像序列，对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像，基于预设的规则集对第一图像进行第二粒度的识别，确定至少一个第一图像对应的事件标签，其中，第二粒度小于第一粒度，实现了对待处理视频在帧级别下的图像识别以及分类标记，且通过基于第一粒度和第二粒度的两种不同精细程度的图像识别，可以对待处理视频标记出丰富的事件标签，解决现有技术中直播视频需要人为标记导致标记效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现图像的生成方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种视频的处理方法的流程图；

图3是根据本申请实施例的一种可选的视频的处理方法的示意图；

图4是根据本申请实施例的一种视频的处理方法的流程图；

图5是根据本申请实施例的一种视频的处理装置的示意图；

图6是根据本申请实施例的一种视频的处理装置的示意图；

图7是根据本申请实施例的一种计算机终端的结构框图；

图8是根据本申请实施例的一种视频的处理方法的流程图；

图9是根据本申请实施例的一种视频的处理方法的流程图；

图10是根据本申请实施例的一种视频的处理装置的示意图；

图11是根据本申请实施例的一种视频的处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

游戏直播视频：指主播通过直播玩游戏所录制的视频内容。

粗粒度识别：在本申请中是一种对图像进行分类的方式，用于对图像的主题进行分类。

细粒度识别：在本申请中是图像的精细化分类，用于对同一主题下的具有微小视觉差异的图像进行精细化分类。

实施例1

根据本发明实施例，还提供了一种视频的处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算设备或者类似的运算装置中执行。图1示出了一种用于实现视频的处理方法的计算设备(或移动设备)的硬件结构框图。如图1所示，计算设备10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的视频的处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备10的通信供应商提供的无线网络。在一个实例中，传输模块106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的视频的处理方法。图2是根据本申请实施例1的视频的处理方法的流程图，如图2所示，该方法包括：

步骤S201，提取待处理视频中的图像序列。

具体的，上述待处理视频可以为需要进行分类或者添加事件标签的视频，上述图像序列可以为待处理视频中连续的多帧图像，或从待处理视频中按照时间轴顺序抽取的多帧图像。

在一种可选的实施例中，待处理视频可以为从直播平台中获取的直播视频，待处理视频可以为完整的直播视频，也可以为从直播视频中截取的一个视频片段。例如，从游戏直播平台获取一个时长为2分钟的游戏直播视频，帧率为20bps，则可从该视频中提取出1200帧图像，1200帧图像即为上述图像序列。

步骤S202，对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像。

上述预设主题是待处理视频中的主要内容，与预设主题的匹配度理解为与预设主题中主要内容关键词的相同或者相关程度，上述预设值为根据与预设主题的匹配度区分第一图像和第二图像阈值，匹配度大于或等于预设值的第一图像可以为与与预设主题相关的图像，匹配度小于预设值的第二图像可以为与预设主题不相关的图像，例如，与预设主题的匹配度大于70％的为相关的第一图像，与预设主题的匹配度小于70％的为第二图像。预设值可以根据用户根据匹配度来区分图像的精细程度确定，对于不同预设主题的图像可以设定不同的取值，此处不作限定。

具体的，第一图像为需要进行更细粒度的分类的图像，第二图像为在当前情况下无需关注的图像。上述预设主题用于对图像序列进行第一粒度的识别，从而得到图像序列中与预设主题相关的第一图像，并可以丢弃与预设主题不相关的第二图像，进而可以在步骤S203中基于第一图像进行第二粒度的识别。

第一粒度的识别可以理解为根据图像序列中图像的特征对图像进行分类，以将图像与预设主题的匹配度进行判断，从而分类得到与预设主题相关的第一图像和与预设主题不相关的第二图像。

上述预设主题可以为视频本身的主题。在一种可选的实施例中，上述待处理视频为游戏直播视频，游戏直播视频中既包括主播的游戏过程，还包括游戏开始前的热场过程以及游戏结束后的讲解过程。预设主题可以为该游戏的主题，可以通过对游戏直播视频中图像序列进行粗粒度识别，确定出包括主播的游戏过程的多帧图像为与游戏主题相关的第一图像，而包含游戏开始前的热场过程以及游戏结束后的讲解过程的多帧图像为与游戏主题不相关的第二图像。

在另一种可选的实施例中，待处理视频为游戏直播视频，游戏直播视频为包含了游戏A、游戏B两个游戏的直播，上述预设主题为游戏A的主题，通过对游戏直播视频中图像序列进行粗粒度识别，确定出包含游戏A的多帧图像为第一图像，包含游戏B的多帧图像为第二图像。

需要说明的是，待处理视频中由多帧连续的第一图像可以组成多段图像序列，多段图像序列可以为连续的推向序列，也可以为不连续的图像序列，例如，在游戏直播视频中，预设主题为游戏A的主题，待处理视频的图像序列的第1至600帧、第1000-2000帧为游戏A的直播视频，第601-999帧可能为插播的广告，则第1至600帧、第1000-2000帧确定为第一图像，第601-999帧确定为第二图像。

步骤S203，基于预设的规则集对第一图像进行第二粒度的识别，确定至少一个第一图像对应的事件标签，其中，第二粒度小于第一粒度。

上述预设的规则集为进行第二粒度识别的规则集，可以为上述预设主题下的细化分类，可以根据用户的需求设定，对于不同的预设主题可以设定不同的规则集。

第二粒度的识别可以理解为在第一粒度识别的基础上，根据第一图像中每一帧图像的特征对图像按照预设的规则集进行进一步的细化分类，并设定事件标签对该细化分类进行标识。例如，上述待处理视频为游戏直播视频，作为第一粒度识别规则的预设主题为游戏A，游戏A的直播视频中可能包括游戏角色执行多个任务，预设的规则集可以为游戏A中的虚拟角色执行的游戏任务D，通过第一粒度识别，确定出包含游戏A的第一图像，进一步对包含游戏A的第一图像经过第二粒度识别，确定出包含虚拟角色执行的游戏任务D的多帧图像，并可以确定对应的事件标签为游戏任务D。

需要说明的是，一个第一图像可能对应多个事件标签，一个事件标签也可能对应多个第一图像，例如，在上述游戏直播视频的实施例中，作为为第一粒度识别规则的预设主题为游戏A，预设的规则集可以包括游戏A的某一虚拟角色的技能以及虚拟角色执行的游戏任务，经过第一粒度识别和第二粒度识别确定出多帧图像事件标签可以包括该虚拟角色、虚拟角色的技能以及游戏任务名称中的一个或者多个。

在一种可选的实施例中，上述第一粒度为粗粒度，第二粒度为细粒度，在获取了待处理视频的图像序列后，对图像序列中的多帧图像根据预设主题进行粗粒度识别并进行分类，确定给出与预设主题的匹配度大于或等于预设值的的多帧第一图像，进一步对多帧第一图像根据预设的规则进行细粒度识别并进行分类，确定出事件标签。例如，上述待处理视频为多人对战类游戏的直播视频，预设主题可以为游戏A，预设的规则集可以设定为与游戏A匹配多个规则，预设的规则集可以包括虚拟角色C执行的游戏任务D、虚拟角色C释放技能一、虚拟角色C阵亡等相关的规则。具体的，对待处理视频的图像序列中的各帧图像的特征进行识别，确定包含游戏A的图像为第一图像，确定待处理视频中包含游戏开始前的热场过程、游戏结束后的讲解过程以及其他游戏的图像为第二图像并丢弃。进一步的，对第一图像中虚拟角色C的动作、图像中的颜色和文字等进行特征识别，确定出包含虚拟角色C执行的游戏任务D时的帧图像并标记两个事件标签“虚拟角色C和“游戏任务D”，确定出包含虚拟角色C释放技能一时的帧图像并标记两个事件标签“虚拟角色C”和“技能一”，确定出包含虚拟角色C阵亡时的帧图像并标记两个事件标签“虚拟角色C”和“阵亡”。通过上述步骤，确定出该多人对战类游戏的直播视频的事件标签包括：“虚拟角色C、“游戏任务D”、“技能一”、“阵亡”，实现了对待处理视频的事件标签的标记，通过对事件标签的搜索，可以快速识别出相应包含该事件标签的图像或者视频片段。

本实施例中，通过提取待处理视频中的图像序列，对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的的第一图像和与预设主题的匹配度小于预设值的第二图像，基于预设的规则集对第一图像进行第二粒度的识别，确定至少一个第一图像对应的事件标签，其中，第二粒度小于第一粒度，实现了对待处理视频在帧级别下的图像识别以及分类标记，且通过基于第一粒度和第二粒度的两种不同精细程度的图像识别，可以对待处理视频标记出丰富的事件标签，解决现有技术中直播视频需要人为标记导致标记效率低的技术问题。

作为一种可选的实施例，在对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像之前，上述方法还包括：对图像序列进行降帧率处理；和/或对图像序列进行降分辨率处理。

需要说明的是，由于本实施例需要对每一帧图像进行第一粒度和第二粒度的识别，待处理视频的帧率越大，需要进行识别的图像数据越多，大量的图像数据会增加计算设备的计算量，导致图像数据处理的效率降低。因此通过对图像序列进行降帧率处理或者降低分辨率，可以减少需要进行第一粒度和第二粒度识别的图像数据的数据量，进而提高了计算设备的数据处理效率。

作为一种可选的实施例，对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像，包括：获取预设主题对应的图像匹配模板；确定图像序列中的图像与图像匹配模板之间的匹配度；根据匹配度确定第一图像和第二图像。

具体的，匹配度可以为各帧图像与预设主题中主要内容中关键词的相同或者相关程度可以基于匹配度算法计算得到图像序列中的图像与图像匹配模板的匹配度，并通过将匹配度与预设值进行对比确定图像序列中的各帧图像为第一图像或者第二图像。

上述图像匹配模板可以为根据预设主题设定的图像模板。在一种可选的实施例中，仍以游戏直播视频为例，预设主题为游戏A，则图像匹配模板为包括游戏A在对战过程中可能出现的各种场景图像。通过将图像序列中的图像与图像匹配模板进行匹配，计算确定出每帧图像的匹配度，设定预设值为70％，图像序列中的各帧图像中，匹配度大于或等于70％的为第一图像，匹配度小于70％的为第二图像。

在另一种可选的实施例中，让在上述场景下，图像匹配模板包括游戏A中各场景的图像特征(例如，游戏A场景的颜色、建筑物、文字特征等)的特征模板，通过将图像序列中的图像的特征与图像匹配模板中的特征进行比对以确定匹配度，进而确定图像序列中的各帧图像为第一图像或者第二图像。

作为一种可选的实施例，对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像，包括：获取预设的识别模型，其中，识别模型用于对图像序列中的图像与预设主题是否相关进行预测；基于识别模型对图像序列进行识别，得到的第一图像和第二图像。

上述识别模型可以为基于深度学习的神经网络模型，可以将已标记的图像作为样本图像使神经网络模型进行学习，以使得该神经网络模型能够对图像序列中的图像是否满足与预设主题的匹配度的要求进行预测。

通过将已确定的事件标签数据输入识别模型中进行学习训练，可以提高识别模型对图像序列与预设主题的匹配度的预测的准确度。

作为一种可选的实施例，基于预设的规则集对第一图像进行第二粒度的识别，确定至少一个第一图像对应的事件标签，包括：获取规则集，其中，规则集包括多个与预设标签对应的规则；使用规则集对第一图像进行匹配，以确定第一图像对应的标签。

规则集为进行第二粒度识别的分类规则集合，可以为用于第一粒度识别的预设主题的细化分类。预设标签为基于第二粒度识别后的事件标签，预设标签根据用户的需求设定，对于不同的预设主题可以设定不同的标签。

通过对待处理视频中的第一图像标记标签，用户可通过对标签进行搜索，快速定位到与标签相关的图像。在一种可选的实施例中，可以将具有相同标签的多个连续的第一图像从待处理视频中提取出来，形成视频片段推送给用户，使得用户可以通过搜索操作仅观看其感兴趣的视频内容。

作为一种可选的实施例，使用规则集对第一图像进行匹配，以确定第一图像对应的标签的步骤包括如下至少一项：对第一图像进行文字识别得到文字信息，基于文字信息与规则集中的文字规则进行匹配，确定第一图像对应的标签，其中，规则集包括文字规则；提取第一图像中的虚拟角色的动作信息，基于动作信息与规则集中的动作规则进行匹配，确定第一图像对应的标签，其中，规则集包括动作规则；提取第一图像中预设区域的子图像，基于子图像与规则集中的图像规则进行匹配，确定第一图像对应的标签，其中，规则集包括图像规则。

规则集中的各规则可以理解为与预设标签相对应的特征规则，当第一图像的图像特征与预设标签相对应的一个或者多个特征规则相匹配时，可以确定出第一图像对应的标签。例如，待处理视频为多人对战类游戏的直播视频，预设主题可以为游戏A的主题，设定预设标签为“虚拟角色C释放技能一”、“虚拟角色C阵亡”等，标签“虚拟角色C释放技能一”的对应规则可以包括虚拟角色C的动作(例如，虚拟角色C释放技能时发生跳跃动作)、技能一释放区域的子图像(例如，虚拟角色C释放技能时技能效果的颜色和图案)、技能一的对应文字(例如，虚拟角色C释放技能时的文字提示)等，通过对图像序列中的各帧图像的图像特征进行识别并与标签“虚拟角色C释放技能一”的对应规则进行匹配，确定出包含虚拟角色C的动作、技能一释放区域的子图像、技能一对应文字图像特征的多帧图像的标签为“虚拟角色C释放技能一”。

需要说明的是，对于同一预设标签对应的文字规则、动作规则以及图像规则均可以包含多个，以匹配属于同一预设标签下多帧图像中不同的特征。例如，在上述“虚拟角色C释放技能一“标签的图像规则中，技能一释放时在连续的多帧图像中存在不同的图案以及颜色(例如，发出的光剑由一个变为三个，则可能第一帧图像中包含一个光剑，第二帧图像包含三个光剑)，因此规则集中对应的图像规则应包括预设标签对应的每一帧图像中的图像特征。

作为一种可选的实施例，在基于预设的规则集对第一图像进行第二粒度的识别，确定至少一个第一图像对应的事件标签之后，方法还包括：提取待处理视频的视频摘要，其中，提取待处理视频的视频摘要的步骤包括：根据第一图像的标签确定视频摘要的第一起始时间和第一终止时间；基于第一起始时间和第一终止时间从待处理视频中截取视频摘要。

视频摘要可理解为在待处理视频中截取视频片段，可作为待处理视频的主题展示，例如，将视频摘要作为视频直播平台上预览界面的预览视频，用户通过观看视频摘要了解视频的主题。也可以将多个对应相同标签的视频摘要集合为一个视频集锦，便于用户对具有同一标签的视频的浏览，例如，多个视频摘要对应的标签为“虚拟角色C释放技能”,则可以将多个视频摘要合并为关于虚拟角色C释放技能的视频集锦。上述用于确定视频摘要的标签可由用户根据需求设定，视频摘要可以根据一个或者多个事件标签来确定。

在视频摘要根据一个事件标签确定的情况下，第一起始时间和第一终止时间可以分别为一个事件标签对应的图像序列的第一帧图像和最后一帧图像在待处理视频的时间轴上的时间，根据第一起始时间和第一终止时间将待处理视频中相应时间段的视频截取出来作为视频摘要。

在视频摘要根据多个事件标签确定的情况下，多个事件标签对应的图像为连续的图像，则确定在待处理视频的时间轴上，多个事件标签对应的首帧图像的时间为第一起始时间，多个事件标签的最后一帧图像的时间为第一终止时间，根据第一起始时间和第一终止时间将待处理视频中相应时间段的视频截取出来作为视频摘要。

在视频摘要根据多个事件标签确定的情况下，多个时间标签对应的图像为不连续的图像，则根据上述一个事件标签情况下的方法分别确定各时间标签对应的图像第一起始时间和第一终止时间，根据多个第一起始时间和第一终止时间从各对应的待处理视频中截取出来多个独立的视频片段，将多个独立的视频片段合并为一个视频后作为视频摘要。

在一种可选的实施例中，视频摘要从具有高帧率的待处理视频中获取，第一起始时间和第一终止时间根据降帧率后的低帧率视频确定的事件标签确定，一方面保证了视频摘要的图像的显示效果，另一方面减小了计算设备在确定事件标签、第一起始时间和第一终止时间的数据计算量。

作为一种可选的实施例，根据第一图像的标签确定视频摘要的第一起始时间和第一终止时间，包括：确定连续多帧标签相同的第一图像为目标图像；确定目标图像中首帧第一图像的时间为第一起始时间，并确定目标图像中尾帧第一图像的时间为第一终止时间。

例如，待处理视频为多人对战类游戏的直播视频，对图像序列中的各帧画面确定了事件标签，事件标签包括“虚拟角色C释放技能”、“虚拟角色C阵亡”、“推塔成功”等，根据用户的需求将“推塔成功”确定为视频摘要对应的事件标签，图像序列中第50帧至第80帧的图像标签为“推塔成功”，则确定第50帧图像在待处理视频的时间轴上的时间为第一起始时间，确定第80帧的图像在待处理视频的时间轴上的时间为第一终止时间，根据第一起始时间和第一终止时间从待处理视频将相应时间段的视频截取出来作为视频摘要。

作为一种可选的实施例，上述方法还包括，对第一起始时间和第一终止时间进行优化处理，其中，对第一起始时间和第一终止时间进行优化处理的步骤包括：提取待处理视频的音频信息，并对音频信息进行分割，得到语音分段；在第一起始时间落入语音分段内的情况下，基于语音分段对起始时间进行调整；在第一终止时间落入语音分段内的情况下，基于语音分段对终止时间进行调整。

具体的，待处理视频的音频信息可以包括视频的背景声音(例如，游戏的背景音乐)以及主播对视频进行讲解的语音信息。对音频信息进行分割包括将待处理视频的音频信息的背景声音和主播的语音信息进行分割，以及对主播的语音信息根据语音分割规则剪切为多个语音分段，语音分割规则可以为根据语音信息中的停顿进行分割，也可以为根据语音信息的语义进行分割。

在一种可选的方案中，主播在对待处理视频进行讲解时，通常在讲解完一句话或一段话后进行短暂的停顿，音频信息可根据该停顿剪切为多个语音分段，具体的，每个语音分段可以包括完整的一句话，也可以包括具有多次停顿的多句话组成的一段语音，不同的语音分段可以具有不同的时长。

在另一种可选的方案中，可以对主播的语音信息的内容进行识别获得语音信息所表达的语义，根据语音信息的内容将主播的语音信息分割为多个语音分段，每个语音分段中包含一个或者多个完整的语义。

第一起始时间落入语音分段内或者第一终止时间落入语音分段内，可以理解为根据第一起始时间和第一终止时间截取的视频摘要，对应的视频摘要的语音并不是完整的语音，例如，在多人对战类游戏的直播视频的视频摘要截取的实施例中，根据“推塔成功”的事件标签，确定第50帧图像在待处理视频的时间轴上的时间为第一起始时间，确定第80帧的图像在待处理视频的时间轴上的时间为第一终止时间，但是游戏主播可能在第48帧图像时已经开始推塔事件的讲解，因此将视频开始截取的时间调整为第48帧图像时对应的时间(即语音分段对起始时间)。视频摘要从完整的语音分段开始，使得视频摘要的镜头拼接更加自然，提高用户在观看视频摘要时的视听体验。

作为一种可选的实施例，在第一起始时间落入语音分段内的情况下，基于语音分段对起始时间进行调整，包括：获取第一起始时间与语音分段的第二起始时间的时间差；在时间差小于预设时间的情况下，将第一起始时间调整为第二起始时间；在时间差大于或等于预设时间的情况下，将第一起始时间调整为语音分段的第二终止时间。

时间差小于预设时间，可理解为根据第一起始时间确定的视频摘要播放时，语音分段的语音刚开始，则为了保证该语音分段语音的完整播放，将视频摘要的开始截取时间提前至语音分段的第二起始时间。时间差大于或等于预设时间，可理解为根据第一起始时间确定的视频摘要播放时，语音分段的语音已经播放了大部分，为了提高视频摘要播放时视听体验，将视频摘要的开始截取时间退后至该语音分段的第二终止时间。

预设时间可以根据用户的体验需求、游戏主播的讲解习惯等因素确定。例如，在多人对战类游戏的直播视频的视频摘要截取的实施例中，根据“推塔成功”的事件标签确定出第一起始时间和第一终止时间，但是在第一起始时间的时间点，游戏主播可能在讲解上一个游戏场景或者在进行开场介绍，上一个游戏场景或者开场介绍的讲解语音结束时间为该语音分段的第二终止时间，可以通过设定合适的预设时间，使时间差大于或等于预设时间，将将视频摘要的开始截取时间退后至该语音分段的第二终止时间，进而避免将与“推塔成功”的事件标签无关的语音加入视频摘要中。

图3为根据本申请实施1的一种可选的视频的处理方法的流程图，上述待处理视频为从直播平台获取的游戏直播视频，游戏直播视频的图像序列可以为视频流，上述第一粒度为粗粒度，第二粒度为细粒度，与预设主题的匹配度大于或等于预设值的图像为相关区域，与预设主题的匹配度小于预设值的图像为不相关区域，如图3所示，该方法包括：

步骤S301，提取游戏直播视频的视频流，对该视频流分别根据步骤S302和S303进行处理。

步骤S302，对该视频流进行降帧率/分辨率处理获得低帧率视频流，以降低计算设备对视频流数据处理的数据量。

步骤S303，从游戏直播视频的视频流中提取音频数据(即上述待处理视频的音频信息)。

步骤S304，对步骤S302中降帧处理得到的低帧率视频流，基于模板匹配或者深度模型进行粗粒度标签识别，确定出与预设主题的相关区域和不相关区域。其中，不相关区域理解为用户不感兴趣的图像区域(即第一图像)，相关区域为用户感兴趣的区域(即第二图像)。

步骤S305，将不相关区域丢弃，即丢弃与预设主题不相关的帧图像。

步骤S306，针对目标游戏设定特定游戏规则集，特定游戏规则集为用于上述细粒度识别的规则集。

步骤S307，根据特定游戏规则集对步骤S304中得到的与预设主题的相关区域进行细粒度标签识别，获得游戏直播视频的事件标签，基于事件标签的用于截取视频摘要的时间起止位置，时间起止位置包括上述第一起始时间和第一终止时间。

步骤S309，将步骤S303中提取的音频数据进行分割，得到多个连续不中断音频语音分段。

步骤S310，根据语音分段对步骤S307获得的起止位置进行优化，使得视频摘要的镜头拼接更加自然。具体的，在第一起始时间落入语音分段内的情况下，基于语音分段对起始时间进行调整；在第一终止时间落入语音分段内的情况下，基于语音分段对终止时间进行调整。

步骤S308，根据步骤S307获得的起止位置或者步骤S310中获得的优化后的起止位置对游戏直播视频的视频流进行截取，获得视频摘要。将多个具有相同事件标签的视频摘要集合在一起，获得用户感兴趣主题的视频集锦。

本实施例中，通过设置用于粗粒度识别的主题以及用于细粒度识别的游戏规则集，对游戏直播视频进行多粒度的视频解析，可快速定位到用户感兴趣的视频区域并进行分析获得事件标签，极大的提升视频数据的分析效率。此外，由于游戏规则集可以根据不同的游戏进行调整，可缩小标签搜索空间，提高了图像的识别精度和识别效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种视频的处理方法的实施例，图4为根据本申请实施例2的一种视频的处理方法的流程图，如图4所示，该处理方法包括如下步骤：

步骤S401，输入待处理视频、预设主题和规则集，其中，预设主题用于对待处理视频进行第一粒度的识别，确定待处理视频的图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题与预设主题的匹配度小于预设值的的第二图像，规则集用于对待处理视频进行第二粒度的识别，确定至少一个第一图像对应的事件标签，第二粒度小于第一粒度。

上述待处理视频可以为需要进行分类或者添加事件标签的视频，上述图像序列可以为待处理视频中连续的多帧图像，或从待处理视频中按照时间轴顺序抽取的多帧图像。

具体的，第一图像为需要进行更细粒度的分类的图像，第二图像为在当前情况下无需关注的图像。上述预设主题用于对图像序列进行第一粒度的识别，从而得到图像序列中与预设主题相的第一图像，并可以丢弃与预设主题不相关的第二图像，进而可以基于第一图像进行第二粒度的识别。

第一粒度的识别可以理解为根据图像序列中图像的特征对图像进行分类，以将图像与预设主题的匹配度进行判断，从而分类得到满足与预设主题匹配度要求的第一图像和与预设主题不匹配的第二图像。

上述预设主题可以为视频本身的主题。在一种可选的实施例中，上述待处理视频为游戏直播视频，游戏直播使用中既包括主播的游戏过程，还包括游戏开始前的热场过程以及游戏结束后的讲解过程。预设主题可以为该游戏的主题，可以通过对游戏直播视频中图像序列进行粗粒度识别，确定出包括主播的游戏过程的多帧图像为与游戏主题相关的第一图像，而包含游戏开始前的热场过程以及游戏结束后的讲解过程的多帧图像为与游戏主题不相关的第二图像。

步骤S402，显示输出的与预设主题的匹配度大于或等于预设值的第一图像，以及第一图像对应的事件标签。

第一图像和第一图像对应的事件标签可以显示于实施例1中的计算设备的显示器上，或者与计算设备通信的具有显示屏的设备上。

在一种可选的实施例中，上述第一粒度为粗粒度，第二粒度为细粒度，在获取了待处理视频的图像序列后，对图像序列中的多帧图像根据预设主题进行粗粒度识别并进行分类，确定给出与预设主题与预设主题的匹配度大于或等于的多帧第一图像，进一步对多帧第一图像根据预设的规则进行细粒度识别并进行分类，确定出事件标签。例如，上述待处理视频为多人对战类游戏的直播视频，预设主题可以为游戏A，预设的规则集可以设定为与游戏A匹配多个规则，预设的规则集可以包括虚拟角色C执行的游戏任务D、虚拟角色C释放技能一、虚拟角色C阵亡等相关的规则。具体的，对待处理视频的图像序列中的各帧图像的特征进行识别，确定包含游戏A的图像为第一图像，确定待处理视频中包含游戏开始前的热场过程、游戏结束后的讲解过程以及其他游戏的图像为第二图像并丢弃。进一步的，对第一图像中虚拟角色C的动作、图像中的颜色和文字等进行特征识别，确定出包含虚拟角色C执行的游戏任务D时的帧图像并标记两个事件标签“虚拟角色C和“游戏任务D”，确定出包含虚拟角色C释放技能一时的帧图像并标记两个事件标签“虚拟角色C”和“技能一”，确定出包含虚拟角色C阵亡时的帧图像并标记两个事件标签“虚拟角色C”和“阵亡”。通过上述步骤，确定出该多人对战类游戏的直播视频的事件标签包括：“虚拟角色C、“游戏任务D、“技能一”、“阵亡”，实现了对待处理视频的事件标签的标记，通过对事件标签的搜索，可以快速识别出相应包含该事件标签的图像或者视频片段。

本实施中，通过提取待处理视频中的图像序列，对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像，基于预设的规则集对第一图像进行第二粒度的识别，确定至少一个第一图像对应的事件标签，其中，第二粒度小于第一粒度，实现了对待处理视频在帧级别下的图像识别以及分类标记，且通过基于第一粒度和第二粒度的两种不同精细程度的图像识别，可以对待处理视频标记出丰富的事件标签，解决现有技术中直播视频需要人为标记导致标记效率低的技术问题。

实施例3

根据本发明实施例，还提供了一种用于实施上述视频的处理方法的装置，图5为根据本申请实施例3的一种视频的处理装置的示意图，如图5所示，该装置包括：

提取模块51，用于提取待处理视频中的图像序列；第一识别模块52，用于对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像；第二识别模块53，用于基于预设的规则集对第一图像进行第二粒度的识别，确定至少一个第一图像对应的事件标签，其中，第二粒度小于第一粒度。

此处需要说明的是，上述提取模块51、第一识别模块52和第二识别模块53对应于实施例1中的步骤S201至步骤S203，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算设备10中。

作为一种可选的实施例，所述装置还包括：降帧模块，用于对图像序列进行降帧率处理；和/或降分辨率模块，用于对图像序列进行降分辨率处理。

作为一种可选的实施例，第一识别模块包括：模板获取子模块，用于获取预设主题对应的图像匹配模板；相关性确定子模块，用于确定图像序列中的图像与图像匹配模板之间的匹配度；图像确定子模块，用于根据匹配度确定第一图像和所述第二图像。

作为一种可选的实施例，第一识别模块包括：模型获取子模块，用于获取预设的识别模型，其中，识别模型用于对图像序列中的图像与预设主题是否相关进行预测；识别子模块，用于基于识别模型对图像序列进行识别，得到的第一图像和第二图像。

作为一种可选的实施例，第二识别模块包括：规则集获取子模块，用于获取规则集，其中，规则集包括多个与预设标签对应的规则；匹配子模块，用于使用规则集对第一图像进行匹配，以确定第一图像对应的标签。

作为一种可选的实施例，上述匹配子模块包括如下至少一项：文字规则匹配子模块，用于对第一图像进行文字识别得到文字信息，基于文字信息与规则集中的文字规则进行匹配，确定第一图像对应的标签，其中，规则集包括文字规则；动作规则匹配子模块，用于提取第一图像中的虚拟角色的动作信息，基于动作信息与规则集中的动作规则进行匹配，确定第一图像对应的标签，其中，规则集包括动作规则；图像规则匹配子模块，用于提取第一图像中预设区域的子图像，基于子图像与规则集中的图像规则进行匹配，确定第一图像对应的标签，其中，规则集包括图像规则。

作为一种可选的实施例，上述装置还包括：摘要提取模块，用于提取待处理视频的视频摘要，其中，摘要提取模块包括：时间确定子模块，用于根据第一图像的标签确定视频摘要的第一起始时间和第一终止时间；截取子模块，用于基于第一起始时间和第一终止时间从待处理视频中截取视频摘要。

作为一种可选的实施例，时间确定子模块，包括：目标图像确定子模块，用于确定连续多帧标签相同的第一图像为目标图像；目标图像时间确定子模块，用于确定目标图像中首帧第一图像的时间为第一起始时间，并确定目标图像中尾帧第一图像的时间为第一终止时间。

作为一种可选的实施例，上述装置还包括，优化模块，用于对第一起始时间和第一终止时间进行优化处理，其中，优化模块包括：音频提取子模块，用于提取待处理视频的音频信息，并对音频信息进行分割，得到语音分段；第一调整子模块，用于在第一起始时间落入语音分段内的情况下，基于语音分段对起始时间进行调整；第二调整子模块，用于在第一终止时间落入语音分段内的情况下，基于语音分段对终止时间进行调整。

作为一种可选的实施例，第一调整子模块包括：时间差获取子模块，用于获取第一起始时间与语音分段的第二起始时间的时间差；第一起始时间调整子模块，用于在时间差小于预设时间的情况下，将第一起始时间调整为第二起始时间；第二起始时间调整子模块，用于在时间差大于或等于预设时间的情况下，将第一起始时间调整为语音分段的第二终止时间。

实施例4

根据本发明实施例，还提供了一种用于实施上述视频的处理方法的装置，图6为根据本申请实施例4的一种视频的处理装置的示意图，如图6所示，该装置包括：

输入模块61，用于输入待处理视频、预设主题和规则集，其中，预设主题用于对待处理视频进行第一粒度的识别，确定待处理视频的图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像，规则集用于对待处理视频进行第二粒度的识别，确定至少一个第一图像对应的事件标签，第二粒度小于第一粒度；显示模块62，用于显示输出的与预设主题的匹配度大于或等于预设值的第一图像，以及第一图像对应的事件标签。

此处需要说明的是，上述输入模块61和显示模块62对应于实施例2中的步骤S401至步骤S402，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例2所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算设备10中。

实施例5

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的视频的处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算设备群中的任意一个计算设备中，或者位于移动终端群中的任意一个移动终端中。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：提取待处理视频中的图像序列；对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像；基于预设的规则集对第一图像进行第二粒度的识别，确定至少一个第一图像对应的事件标签，其中，第二粒度小于第一粒度。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：在对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像之前，上述方法还包括：对图像序列进行降帧率处理；和/或对图像序列进行降分辨率处理。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像，包括：获取预设主题对应的图像匹配模板；确定图像序列中的图像与图像匹配模板之间的匹配度；根据匹配度确定第一图像和第二图像。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像，包括：获取预设的识别模型，其中，识别模型用于对图像序列中的图像与预设主题是否相关进行预测；基于识别模型对图像序列进行识别，得到的第一图像和第二图像。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：基于预设的规则集对第一图像进行第二粒度的识别，确定至少一个第一图像对应的事件标签，包括：获取规则集，其中，规则集包括多个与预设标签对应的规则；使用规则集对第一图像进行匹配，以确定第一图像对应的标签。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：使用规则集对第一图像进行匹配，以确定第一图像对应的标签的步骤包括如下至少一项：对第一图像进行文字识别得到文字信息，基于文字信息与规则集中的文字规则进行匹配，确定第一图像对应的标签，其中，规则集包括文字规则；提取第一图像中的虚拟角色的动作信息，基于动作信息与规则集中的动作规则进行匹配，确定第一图像对应的标签，其中，规则集包括动作规则；提取第一图像中预设区域的子图像，基于子图像与规则集中的图像规则进行匹配，确定第一图像对应的标签，其中，规则集包括图像规则。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：在基于预设的规则集对第一图像进行第二粒度的识别，确定至少一个第一图像对应的事件标签之后，方法还包括：提取待处理视频的视频摘要，其中，提取待处理视频的视频摘要的步骤包括：根据第一图像的标签确定视频摘要的第一起始时间和第一终止时间；基于第一起始时间和第一终止时间从待处理视频中截取视频摘要。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：根据第一图像的标签确定视频摘要的第一起始时间和第一终止时间，包括：确定连续多帧标签相同的第一图像为目标图像；确定目标图像中首帧第一图像的时间为第一起始时间，并确定目标图像中尾帧第一图像的时间为第一终止时间。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：对第一起始时间和第一终止时间进行优化处理，其中，对第一起始时间和第一终止时间进行优化处理的步骤包括：提取待处理视频的音频信息，并对音频信息进行分割，得到语音分段；在第一起始时间落入语音分段内的情况下，基于语音分段对起始时间进行调整；在第一终止时间落入语音分段内的情况下，基于语音分段对终止时间进行调整。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：在第一起始时间落入语音分段内的情况下，基于语音分段对起始时间进行调整，包括：获取第一起始时间与语音分段的第二起始时间的时间差；在时间差小于预设时间的情况下，将第一起始时间调整为第二起始时间；在时间差大于或等于预设时间的情况下，将第一起始时间调整为语音分段的第二终止时间。

实施例6

根据本申请实施例，还提供了一种计算机终端的实施例，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的视频的处理方法中以下步骤的程序代码：提取待处理视频中的图像序列；对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像；基于预设的规则集对第一图像进行第二粒度的识别，确定至少一个第一图像对应的事件标签，其中，第二粒度小于第一粒度。

可选地，图7是根据本申请实施例6的一种计算机终端的结构框图，如图7所示，该计算机终端700可以包括：一个或多个(图中仅示出一个)处理器702、存储器704、以及外设接口706。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的视频插帧方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频的处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端700。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器用于运行程序，可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：提取待处理视频中的图像序列；对图像序列进行第一粒度的识别，确定图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与预设主题的匹配度小于预设值的第二图像；基于预设的规则集对第一图像进行第二粒度的识别，确定至少一个第一图像对应的事件标签，其中，第二粒度小于第一粒度。

本领域普通技术人员可以理解，图7所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，计算机终端700还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图7所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例7

根据本发明实施例，还提供了一种视频的处理方法的实施例，图8为根据本申请实施例7的一种视频的处理方法的流程图，如图8所示，该处理方法包括如下步骤：

步骤S801，接收待处理的游戏视频，并从游戏视频中提取图像序列。

在一种可选的实施例中，计算设备的游戏视频软件可以接受待处理的游戏视频并进行图像提取以及识别。上述待处理的游戏视频可以为需要进行分类或者添加事件标签的游戏视频，上述图像序列可以为待处理的游戏视频中连续的多帧图像，或从待处理的游戏视频中按照时间轴顺序抽取的多帧图像。

步骤S802，对图像序列进行至少第一粒度的识别和第二粒度的识别，其中，第一粒度的识别用于识别出图像序列中包含游戏场景的第一图像，第二粒度的识别用于基于预设的规则集确定第一图像对应的事件标签，其中，第二粒度小于第一粒度。

第一粒度的识别可以理解为根据图像序列中图像特征对图像进行分类，并且将图像特征与游戏场景的匹配度进行判断，确定匹配度大于或等于预设值的为包含游戏场景的第一图像，匹配度小于预设值的图像不包含游戏场景并将不包含游戏场景的图像丢弃。

第二粒度的识别可以理解为在第一粒度识别的基础上，根据第一图像中每一帧图像的特征对图像按照预设的规则集进行进一步的细化分类，并设定事件标签对该细化分类进行标识。

在一种可选的实施例中，游戏视频中既包括主播的游戏过程，还包括游戏开始前的热场过程以及游戏结束后的讲解过程，其中，仅主播的游戏过程的图像包含游戏场景，游戏开始前的热场过程以及游戏结束后的讲解过程可能为游戏平台的界面或者主播的视频图像，通过对游戏视频中图像序列进行第一粒度的识别，确定出包括包含游戏场景的主播游戏过程的多帧图像为第一图像，丢弃游戏开始前的热场过程以及游戏结束后的讲解过程的多帧图像。

在另一种可选的实施例中，待处理的游戏视频为包含了游戏A、游戏B两个游戏，通过对游戏视频中图像序列进行第一粒度的识别，确定出包含游戏A游戏场景的多帧图像为第一图像，丢弃包含游戏B游戏场景的多帧图像。对确定的第一图像进行第二粒度的识别，游戏A的游戏视频中可能包括游戏角色执行多个任务，预设的规则集可以为游戏A中的虚拟角色执行的游戏任务D，确定出包含虚拟角色执行的游戏任务D的多帧图像，并可以确定对应的事件标签为游戏任务D。

步骤S803，基于第一图像构成游戏视频的视频摘要，并确定第一图像对应的事件标签为视频摘要对应的事件标签。

视频摘要可理解为从待处理的游戏视频中截取的视频片段，可作为游戏视频的主题展示。具体的，视频摘要为包含游戏场景的多帧图像，例如，待处理的游戏视频中包含游戏A和游戏B，将包含游戏A的游戏场景的多帧图像作为第一图像，根据第一图像的事件标签，提取出部分视频片段作为视频摘要。在一种可选的实施例中，确定了包含游戏A游戏场景的多帧图像确定为第一图像后，将事件标签为“虚拟角色C释放技能”作为视频摘要对应的事件标签,则可以将关于虚拟角色C释放技能的图像提取出来作为视频摘要。

上述用于确定视频摘要的标签可由用户根据需求设定，视频摘要可以根据一个或者多个事件标签来确定。需要说明的是，一个第一图像可能对应多个事件标签，一个事件标签也可能对应多个第一图像，例如，根据游戏A的游戏场景进行第一粒度识别确定出第一图像，预设的规则集可以包括游戏A的某一虚拟角色的技能以及虚拟角色执行的游戏任务，经过第一粒度识别和第二粒度识别确定出多帧图像事件标签可以包括该虚拟角色、虚拟角色的技能以及游戏任务名称中的一个或者多个。

步骤S804，显示视频摘要，以及视频摘要对应的事件标签。

在游戏视频软件的界面上显示从待处理的游戏视频中截取的视频摘要以及对应的事件标签。在一种可选的实施例中，游戏视频软件的界面上的视频摘要的展示区中可以展示同一游戏视频或者不同游戏视频的多个视频摘要，每个视频摘要对应不同的事件标签，例如，游戏视频软件的界面上展示了游戏A的多个视频摘要，将不同的游戏任务作为事件标签，每个视频摘要对应不同的游戏任务。

本实施例中，基于计算设备的游戏视频软件，通过对待处理的游戏视频进行第一粒度和第二粒度的两种不同精细程度的图像识别，可以对待处理的游戏视频标记出丰富的事件标签并且制作出视频摘要，解决现有技术中直播视频需要人为标记导致标记效率低的技术问题。

实施例8

根据本发明实施例，还提供了一种视频的处理方法的实施例，图9为根据本申请实施例8的一种视频的处理方法的流程图，如图9所示，该处理方法包括如下步骤：

步骤S901，接收待处理的直播视频，并从直播视频中提取图像序列，其中，直播视频为直播过程中生成的视频。

在一种可选的实施例中，计算设备的直播视频软件可以接受待处理的直播视频并进行图像提取以及识别。上述待处理的直播视频可以为需要进行分类或者添加事件标签的直播视频，上述图像序列可以为待处理的直播视频中连续的多帧图像，或从待处理的游戏视频中按照时间轴顺序抽取的多帧图像。

在一种可选的实施例中，待处理的直播视频可以为从直播平台中获取的直播视频，可以为完整的直播视频，也可以为从直播视频中截取的一个视频片段。例如，从直播平台获取一个时长为2分钟的直播视频，帧率为20bps，则可从该视频中提取出1200帧图像，1200帧图像即为上述图像序列。

步骤S902，对图像序列进行至少第一粒度的识别和第二粒度的识别，其中，第一粒度的识别用于识别出图像序列中与预设主题的匹配度大于或等于预设值的第一图像，第二粒度的识别用于基于预设的规则集确定第一图像对应的事件标签，其中，第二粒度小于第一粒度。

上述预设主题是待处理视频中的主要内容，与预设主题的匹配度理解为与预设主题中主要内容关键词的相同或者相关程度，上述预设主题可以为直播视频本身的主题，例如，预设主题可以为购物直播视频或者美食直播视频等。上述预设值为根据与预设主题的匹配度区分第一图像的阈值，匹配度大于或等于预设值的第一图像可以为与预设主题相关的图像，匹配度小于预设值的图像可以为与预设主题不相关的图像，例如，与预设主题的匹配度大于70％的为相关的第一图像。预设值可以根据用户根据匹配度来区分图像的精细程度确定，对于不同预设主题的图像可以设定不同的取值，此处不作限定。

具体的，第一图像为需要进行更细粒度的分类的图像，上述预设主题用于对图像序列进行第一粒度的识别，从而得到图像序列中与预设主题相关的第一图像，并可以丢弃与预设主题不相关的图像。

上述预设的规则集为进行第二粒度识别的规则集，可以为上述预设主题下的细化分类，可以根据用户的需求设定，对于不同的预设主题可以设定不同的规则集。第二粒度的识别可以理解为在第一粒度识别的基础上，根据第一图像中每一帧图像的特征对图像按照预设的规则集进行进一步的细化分类，并设定事件标签对该细化分类进行标识。

在一种可选的实施例中，预设主题可以为购物直播视频，将直播视频的图像中提取的图像特征与购物直播视频(例如，购物直播视频的图像中包含购物车图标等)进行匹配，从待处理的直播视频中确定购物直播视频为第一图像，预设的规则集为包含某一主播，则通过第二粒度的识别，确定购物直播视频中包含某一主播的图像的事件标签确定为“某一主播”。

步骤S903，基于第一图像构成直播视频的视频摘要，并确定第一图像对应的事件标签为视频摘要对应的事件标签。

视频摘要可理解为从待处理的直播视频中截取的视频片段，可作为直播视频的主题展示。例如，将视频摘要作为视频直播平台上预览界面的预览视频，用户通过观看视频摘要了解视频的主题。也可以将多个对应相同标签的视频摘要集合为一个视频集锦，便于用户对具有同一标签的视频的浏览。

步骤S904，显示视频摘要，以及视频摘要对应的事件标签。

在直播视频软件的界面上显示从待处理的直播视频中截取的视频摘要以及对应的事件标签。在一种可选的实施例中，直播视频软件的界面上的视频摘要的展示区中可以展示同一直播视频或者不同直播视频的多个视频摘要，例如，直播视频软件的界面上展示了不同的购物直播视频的多个视频摘要，将某一主播作为事件标签，每个视频摘要可以对应相同的事件标签。

本实施例中，基于计算设备的直播视频软件，通过对待处理的直播视频进行第一粒度和第二粒度的两种不同精细程度的图像识别，可以对待处理的直播视频标记出丰富的事件标签并且制作出视频摘要，解决现有技术中直播视频需要人为标记导致标记效率低的技术问题。

实施例9

根据本发明实施例，还提供了一种用于实施上述视频的处理方法的装置，图10为根据本申请实施例9的一种视频的处理装置1000的示意图，如图10所示，该装置包括：

游戏视频接收模块1001，用于接收待处理的游戏视频，并从游戏视频中提取图像序列；游戏图像识别模块1002，用于对图像序列进行至少第一粒度的识别和第二粒度的识别，其中，第一粒度的识别用于识别出图像序列中包含游戏场景的第一图像，第二粒度的识别用于基于预设的规则集确定第一图像对应的事件标签，其中，第二粒度小于第一粒度；游戏视频摘要构建模块1003，用于基于第一图像构成游戏视频的视频摘要，并确定第一图像对应的事件标签为视频摘要对应的事件标签；游戏视频摘要显示模块1004，用于显示视频摘要，以及视频摘要对应的事件标签。

此处需要说明的是，上述视频接收模块1001、识别模块1002、视频摘要构建模块1003和摘要显示模块1004对应于实施例7中的步骤S801至步骤S804，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例7所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算设备10中。

实施例10

根据本发明实施例，还提供了一种用于实施上述视频的处理方法的装置，图11为根据本申请实施例10的一种视频的处理装置1100的示意图，如图11所示，该装置包括：

直播视频接收模块1101，用于，接收待处理的直播视频，并从直播视频中提取图像序列，其中，直播视频为直播过程中生成的视频；直播图像识别模块1102，用于对图像序列进行至少第一粒度的识别和第二粒度的识别，其中，第一粒度的识别用于识别出图像序列中与预设主体的匹配度大于或等于预设值的第一图像，第二粒度的识别用于基于预设的规则集确定第一图像对应的事件标签，其中，第二粒度小于第一粒度；，直播视频摘要构建模块1103，用于基于第一图像构成直播视频的视频摘要，并确定第一图像对应的事件标签为视频摘要对应的事件标签；直播视频摘要显示模块1004，用于显示视频摘要，以及视频摘要对应的事件标签。

此处需要说明的是，上述直播视频接收模块1101、直播图像识别模块1102、直播视频摘要构建模块1103和直播视频摘要显示模块1004对应于实施例8中的步骤S901至步骤S904，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例8所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算设备10中。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频的处理方法，其特征在于，包括：

提取待处理视频中的图像序列；

对所述图像序列进行第一粒度的识别，确定所述图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与所述预设主题的匹配度小于所述预设值的第二图像；

基于预设的规则集对所述第一图像进行第二粒度的识别，确定至少一个所述第一图像对应的事件标签，其中，所述第二粒度小于所述第一粒度。

2.根据权利要求1所述的方法，其特征在于，在对所述图像序列进行第一粒度的识别，确定所述图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与所述预设主题的匹配度小于所述预设值的第二图像之前，所述方法还包括：

对所述图像序列进行降帧率处理；和/或

对所述图像序列进行降分辨率处理。

3.根据权利要求1所述的方法，其特征在于，对所述图像序列进行第一粒度的识别，确定所述图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与所述预设主题的匹配度小于所述预设值的第二图像，包括：

获取所述预设主题对应的图像匹配模板；

确定所述图像序列中的图像与所述图像匹配模板之间的匹配度；

根据所述匹配度确定所述第一图像和所述第二图像。

4.根据权利要求1所述的方法，其特征在于，对所述图像序列进行第一粒度的识别，确定所述图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与所述预设主题的匹配度小于所述预设值的第二图像，包括：

获取预设的识别模型，其中，所述识别模型用于对所述图像序列中的图像与所述预设主题是否相关进行预测；

基于所述识别模型对所述图像序列进行识别，得到所述的第一图像和所述第二图像。

5.根据权利要求1所述的方法，其特征在于，基于预设的规则集对所述第一图像进行第二粒度的识别，确定至少一个所述第一图像对应的事件标签，包括：

获取所述规则集，其中，所述规则集包括多个与预设标签对应的规则；

使用所述规则集对所述第一图像进行匹配，以确定所述第一图像对应的标签。

6.根据权利要求5所述的方法，其特征在于，使用所述规则集对所述第一图像进行匹配，以确定所述第一图像对应的标签的步骤包括如下至少一项：

对所述第一图像进行文字识别得到文字信息，基于所述文字信息与所述规则集中的文字规则进行匹配，确定所述第一图像对应的标签，其中，所述规则集包括文字规则；

提取所述第一图像中的虚拟角色的动作信息，基于所述动作信息与所述规则集中的动作规则进行匹配，确定所述第一图像对应的标签，其中，所述规则集包括动作规则；

提取所述第一图像中预设区域的子图像，基于所述子图像与所述规则集中的图像规则进行匹配，确定所述第一图像对应的标签，其中，所述规则集包括图像规则。

7.根据权利要求1所述的方法，其特征在于，在基于预设的规则集对所述第一图像进行第二粒度的识别，确定至少一个所述第一图像对应的事件标签之后，所述方法还包括：提取所述待处理视频的视频摘要，其中，提取所述待处理视频的视频摘要的步骤包括：

根据所述第一图像的标签确定所述视频摘要的第一起始时间和第一终止时间；

基于所述第一起始时间和所述第一终止时间从所述待处理视频中截取所述视频摘要。

8.权利要求7所述的方法，其特征在于，根据所述第一图像的标签确定所述视频摘要的第一起始时间和第一终止时间，包括：

确定连续多帧标签相同的第一图像为目标图像；

确定所述目标图像中首帧第一图像的时间为所述第一起始时间，并确定所述目标图像中尾帧第一图像的时间为所述第一终止时间。

9.权利要求8所述的方法，其特征在于，所述方法还包括，对所述第一起始时间和所述第一终止时间进行优化处理，其中，对所述第一起始时间和所述第一终止时间进行优化处理的步骤包括：

提取所述待处理视频的音频信息，并对所述音频信息进行分割，得到语音分段；

在所述第一起始时间落入所述语音分段内的情况下，基于所述语音分段对所述起始时间进行调整；

在所述第一终止时间落入所述语音分段内的情况下，基于所述语音分段对所述终止时间进行调整。

10.根据权利要求9所述的方法，其特征在于，在所述第一起始时间落入所述语音分段内的情况下，基于所述语音分段对所述起始时间进行调整，包括：

获取所述第一起始时间与所述语音分段的第二起始时间的时间差；

在所述时间差小于预设时间的情况下，将所述第一起始时间调整为所述第二起始时间；

在所述时间差大于或等于所述预设时间的情况下，将所述第一起始时间调整为所述语音分段的第二终止时间。

11.一种视频的处理方法，其特征在于，包括：

输入待处理视频、预设主题和规则集，其中，所述预设主题用于对所述待处理视频进行第一粒度的识别，确定所述待处理视频的图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与所述预设主题的匹配度小于所述预设值的第二图像，所述规则集用于对所述待处理视频进行第二粒度的识别，确定至少一个所述第一图像对应的事件标签，所述第二粒度小于所述第一粒度；

显示输出的与所述预设主题的匹配度大于或等于所述预设值的第一图像，以及所述第一图像对应的事件标签。

12.一种视频的处理装置，其特征在于，包括：

提取模块，用于提取待处理视频中的图像序列；

第一识别模块，用于对所述图像序列进行第一粒度的识别，确定所述图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与所述预设主题的匹配度小于所述预设值的第二图像；

第二识别模块，用于基于预设的规则集对所述第一图像进行第二粒度的识别，确定至少一个所述第一图像对应的事件标签，其中，所述第二粒度小于所述第一粒度。

13.一种视频的处理装置，其特征在于，包括：

输入模块，用于输入待处理视频、预设主题和规则集，其中，所述预设主题用于对所述待处理视频进行第一粒度的识别，确定所述待处理视频的图像序列中与预设主题的匹配度大于或等于预设值的第一图像和与所述预设主题的匹配度小于所述预设值的第二图像，所述规则集用于对所述待处理视频进行第二粒度的识别，确定至少一个所述第一图像对应的事件标签，所述第二粒度小于所述第一粒度；

显示模块，用于显示输出的与所述预设主题的匹配度大于或等于所述预设值的第一图像，以及所述第一图像对应的事件标签。

14.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至11中任意一项所述的视频的处理方法。

15.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至11中任意一项所述的视频的处理方法。

16.一种视频的处理方法，其特征在于，包括：

接收待处理的游戏视频，并从所述游戏视频中提取图像序列；

对所述图像序列进行至少第一粒度的识别和第二粒度的识别，其中，所述第一粒度的识别用于识别出所述图像序列中包含游戏场景的第一图像，所述第二粒度的识别用于基于预设的规则集确定所述第一图像对应的事件标签，其中，所述第二粒度小于所述第一粒度；

基于所述第一图像构成所述游戏视频的视频摘要，并确定所述第一图像对应的事件标签为所述视频摘要对应的事件标签；

显示所述视频摘要，以及所述视频摘要对应的事件标签。

17.一种视频的处理方法，其特征在于，包括：

接收待处理的直播视频，并从所述直播视频中提取图像序列，其中，所述直播视频为直播过程中生成的视频；

对所述图像序列进行至少第一粒度的识别和第二粒度的识别，其中，所述第一粒度的识别用于识别出所述图像序列中与预设主体的匹配度大于或等于预设值的第一图像，所述第二粒度的识别用于基于预设的规则集确定所述第一图像对应的事件标签，其中，所述第二粒度小于所述第一粒度；

基于所述第一图像构成所述直播视频的视频摘要，并确定所述第一图像对应的事件标签为所述视频摘要对应的事件标签；

显示所述视频摘要，以及所述视频摘要对应的事件标签。