CN110889012A

CN110889012A - 一种基于抽帧图片生成空镜标签系统的方法

Info

Publication number: CN110889012A
Application number: CN201911176876.0A
Authority: CN
Inventors: 何海林; 徐滢
Original assignee: Chengdu Pinguo Technology Co Ltd
Current assignee: Chengdu Pinguo Technology Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-03-17

Abstract

本发明公开一种基于抽帧图片生成空镜标签系统的方法，包括以下步骤：S1：针对空镜视频文件，进行抽帧，获取抽帧图片；S2：针对抽帧图片进行单张照片的基础标签获取；S3：针对单个空镜的多张抽帧图片的基础标签进行计算，生成最终的空镜标签盘；S4：完成空镜标签的数据持久化。在步骤S1中，采用python‑ffmpeg工具包或者其他第三方服务进行抽帧。在步骤S3中，所述空镜标签包括以下类别：人物、拍摄景别、面部表情、场景状态、场景类别、人物数量以及画面元素。本发明步骤较少，降低了空镜标签的产生难度，方便高效的完成空镜标签，为空镜提供一整套标签构建体系。

Description

一种基于抽帧图片生成空镜标签系统的方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于抽帧图片生成空镜标签系统的方法。

背景技术

空镜作为影视创作的基础素材，可以有效辅助视频构建、交代时间和空间信息、推进剧情和象征、隐喻等功能，是影视创作不可缺少的一部分。在当前短视频类APP中常常会依据照片内容来匹配相关的空镜素材，以便可以更好的将照片和空镜精准的匹配，生成和谐顺畅的视频，进而提高用户体验，更好的以视频方式呈现照片内容。基于标签的匹配，是空镜和照片内容构建完整视频的一种有效途径，大致的实现方式可以理解为，分别对照片和空镜进行图片分析，在同一标签体系下，分别生成各自标签数据，基于机器学习和规则逻辑完成照片和空镜的匹配。照片视频类APP中往往需要大量的空镜素材，构建一整套空镜侧的素材数据及其标签系统，已经成为照片视频类APP的基础能力和要求。

发明内容

本发明旨在提供一种基于抽帧图片，方便高效完成空镜标签系统构建，进而可以在与照片匹配等多个业务场景满足产品需求的方法。

为达到上述目的，本发明是采用以下技术方案实现的：

一种基于抽帧图片生成空镜标签系统的方法，包括以下步骤：S1：针对空镜视频文件，进行抽帧，获取抽帧图片；S2：针对抽帧图片进行单张照片的基础标签获取；S3：针对单个空镜的多张抽帧图片的基础标签进行计算，生成最终的空镜标签；S4：完成空镜标签的数据持久化。

优选的，在步骤S1中，采用python-ffmpeg工具包或者其他第三方服务进行抽帧。

优选的，在步骤S2中，通过AWS Rekognition服务来进行单张照片的基础标签获取。

优选的，在步骤S3中，所述空镜标签包括以下类别：人物、拍摄景别、面部表情、场景状态、场景类别、人物数量以及画面元素。

优选的，在步骤S3中，所述计算为针对所获得抽帧图片标签进行汇总、聚合和规则计算。

优选的，在步骤S4中，数据持久化是指将最终的空镜标签的数据和相关的空镜数据写入到Elastic Search服务中。

优选的，在步骤S1完成后，对抽帧图片进行相应的照片尺寸和质量的压缩。

进一步的，对抽帧图片的压缩是指将其压缩成最大宽边不低于640像素的新照片。

进一步的，对抽帧图片的压缩是指将其压缩成最大宽边为1024像素的新照片。

优选的，在步骤S1完成后，通过基于Akka Actor的异步实现完成对抽帧图片的标签分析。

本发明具有以下有益效果：

1、本发明中基于Akka Actor来处理相关环节，其异步处理的方式高效且简单；

2、针对空镜的抽帧，在完成抽帧图片获取之后进行相应的照片尺寸和质量压缩，使得在后续标签提取的环节，相对单个视频本身分析而言其分析成本大大降低；

3、本发明所提供的技术方案，可以和在线系统的有效融合，将新的空镜视频作为处理对象，通过异步和离线来处理；

4、本发明中针对多张抽帧图片的分析、聚合、汇总和规则计算，具有较大灵活性，在自定义的规则下，能够高效地产生空镜标签。

附图说明

图1为本发明流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细说明。

一种基于抽帧图片生成空镜标签系统的方法，包括以下步骤：

S1：针对空镜视频文件，进行抽帧，获取抽帧图片。对于一般照片视频类APP以及影视艺术要求来说，空镜视频一般的时长大概在1～5秒，可以抽取开头、中间和结尾三个部分照片。为尽量减少主要信息缺失，也可以采取隔秒抽帧，如抽取1、3、5、7四个时间点的帧照片，以便获取较为多的抽帧照片，进行更多次的照片标签后续流程。在步骤S1中，采用python-ffmpeg工具包或者其他第三方服务进行抽帧。完成抽帧后，对抽帧图片进行相应的照片尺寸和质量的压缩。对抽帧图片的压缩是指将其压缩成最大宽边不低于640像素的新照片，相对来说，在具体实施例中，将抽帧图片压缩成最大宽边为1024像素的新照片是较好的选择。

在步骤S1完成后，通过基于Akka Actor的异步实现完成对抽帧图片的标签分析。Akka是一种构建在Java虚拟机上使用异步、非阻塞、高性能的事件驱动编程模型，对并发模型进行高度抽象，而Akka Actor作为其基本的计算单元，基于Actor模型的的并发框架，为构建伸缩性强，有弹性的响应式并发应用提高更好的平台。Actor是解决并发场景的常用和有效解决方案，让我们不必关心底层的实现，只需着重实现业务逻辑。

具体地，同一个空镜无论进行多少次抽帧，每一个抽帧操作都可以使用一个Actor来完成，待多个抽帧操作之后，其父级Actor标记整个抽帧任务完成，继而进行后续照片的标签解析Actor的执行。从使用经验上来看，AWS Rekognition服务在照片宽边低于640像素以及图片压缩比例0.6以下时，相关标签如人脸的置信度会有较大比例下降。

S2：针对抽帧图片进行单张照片的基础标签获取。出于产品需求，一般只需要获取抽帧照片中的人脸、对象、Label等组的标签。其中Label相比人脸和对象来说是有层级关系的，但是没有BoundingBox。第三方服务为AWS Rekognition服务，基于AWS Rekognition服务完成对同一个视频下的抽帧照片进行打标签的操作，这一步是为获取单个图片的基础标签。此处可以是分别封装2个Actor，分别对应(1)人脸、(2)对象和Label这两组标签获取的任务。

S3：针对单个空镜的多张抽帧图片的基础标签进行计算，生成最终的空镜标签。基于产品需求和规则，完成对同一空镜下的所有抽帧照片标签的延伸、聚合和规则计算。由于AWS提供的标签是对照片本身的基础信息的表示。一般来说很难直接使用。所以为了后续能贴合产品，需要对相关标签进行规划和标签延展。所述计算为针对所获得抽帧图片标签进行汇总、聚合和规则计算。

空镜标签包括以下类别：

1)主要人物：标记空镜视频中的主要人物，可能的值有老人、青年、男人、女人、小孩等；

2)拍摄景别：主要基于镜头使用的距离，可能的值包括：远景、中景、近景、特写等；

3)面部表情：主要通过人脸标签，可能的值包括：开心、平静、愤怒等；

4)场景状态：室内、户外等；

5)场景类别：拍摄场景，可能的值包括：城市、农场、树林、草原、山等；

6)人物数量：画面中主要人物的数量；

7)画面元素：包括天空、人、水、食物等。

需要注意的是，空镜标签的类别不限于上述内容。

由于同一个空镜下的抽帧照片有多个，部分标签的值随着不同时间点可能会有不同，从而造成相关标签值有交叉、重叠甚至有冲突的问题出现。为此，需要设计一个完整的规则，解决这些问题。

可能的规则包括以下几个方面：

1)拍摄景别：按时间排序，对于有超过2个不同景别值，取最中间的时间点对于的景别值，而对于类似相同中间的出现偶数个的，取靠后时间点的作为最终的景别值；

2)人物数量：取不同抽帧照片下人物数量最大值；

3)其他类型：取不同抽帧照片对应标签合集后去重列表值。

同样需要注意的是，规则内容不限于上述的内容。

S4：完成空镜标签的数据持久化。数据持久化是指将最终的空镜标签的数据和相关的空镜数据写入到Elastic Search服务中，以便后续业务使用。

具体地，在本具体实施例中，需要启动两个服务，一个服务是空镜抽帧服务，一个是标签解析服务。抽帧服务的主要操作对象是对新增的空镜视频进行抽帧，将抽帧好的照片数据(例如文件系统上照片地址)写入到对应的空镜主体对象上。标签解析服务以空镜为主体，读取已经完成抽帧的空镜上的多个照片地址，将照片数据发送到AWS Rekognition服务，从而获取对应照片的基础标签。相对应地，启动上述两个服务的过程可分为3个步骤，包括：

步骤1：启动空镜抽帧服务。本例中使用Flask完成服务本身的搭建，同时使用python-ffmpeg工具包完成对空镜视频文件的抽帧。抽帧照片可以存储在S3或者本地文件系统下。对于同一个空镜，多个抽帧动作完成之后将标记空镜对象数据的抽帧状态为完成。

步骤2：启动标签解析服务。这个服务包括四个Task：

Task 1：读取空镜表数据，过滤尚未完成标签解析的空镜列表

Task 2：在Task 1的列表中，获取对应的抽帧照片所在地址。读取照片数据进行一次尺寸和质量压缩，在保证AWS Rekognition服务有效解析的前提下，尽量减少照片数据本身大小，减少网络传输消耗。

Task 3：在Task 2的基础上，将获取到的基础标签数据回写一次到空镜对象上，从而为后续可能出现的重复标记冗余一份数据。

Task 4：在Task 3都完成的情况下，汇总所有抽帧照片的标签数据，进行一次分析、汇总、聚合和规则计算，产生最终的空镜标签数据。

步骤3：将步骤2中最终的空镜标签数据回写到空镜主体对象上。以便后续业务使用。

上述具体实施例中的步骤与本发明所提供技术方案之间并非对立关系，应视为同一流程各步骤的不同区分方式。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于抽帧图片生成空镜标签系统的方法，其特征在于，包括以下步骤：

S1：针对空镜视频文件，进行抽帧，获取抽帧图片；

S2：针对抽帧图片进行单张照片的基础标签获取；

S3：针对单个空镜的多张抽帧图片标签进行计算，生成最终的空镜标签；

S4：完成空镜标签的数据持久化。

2.根据权利要求1所述的一种基于抽帧图片生成空镜标签系统的方法，其特征在于：在步骤S1中，采用python-ffmpeg工具包或者其他第三方服务进行抽帧。

3.根据权利要求1所述的一种基于抽帧图片生成空镜标签系统的方法，其特征在于：在步骤S2中，通过AWS Rekognition服务来进行单张照片的基础标签获取。

4.根据权利要求1所述的一种基于抽帧图片生成空镜标签系统的方法，其特征在于：在步骤S3中，所述空镜标签包括以下类别：人物、拍摄景别、面部表情、场景状态、场景类别、人物数量以及画面元素。

5.根据权利要求1所述的一种基于抽帧图片生成空镜标签系统的方法，其特征在于：在步骤S3中，所述计算为针对所获得的抽帧图片标签进行分析、汇总、聚合和规则计算。

6.根据权利要求1所述的一种基于抽帧图片生成空镜标签系统的方法，其特征在于：在步骤S4中，数据持久化是指将最终的空镜标签的数据和相关的空镜数据写入到ElasticSearch服务中。

7.根据权利要求1所述的一种基于抽帧图片生成空镜标签系统的方法，其特征在于：在步骤S1完成后，对抽帧图片进行相应的照片尺寸和质量的压缩。

8.根据权利要求7所述的一种基于抽帧图片生成空镜标签系统的方法，其特征在于：对抽帧图片的压缩是指将其压缩成最大宽边不低于640像素的新照片。

9.根据权利要求8所述的一种基于抽帧图片生成空镜标签系统的方法，其特征在于：对抽帧图片的压缩是指将其压缩成最大宽边为1024像素的新照片。

10.根据权利要求1所述的一种基于抽帧图片生成空镜标签系统的方法，其特征在于：在步骤S1完成后，通过基于Akka actor的异步实现完成对抽帧图片的标签分析。