CN115866355A

CN115866355A - 一种基于图像识别的视频自动生成方法

Info

Publication number: CN115866355A
Application number: CN202211590600.9A
Authority: CN
Inventors: 孟洋; 张琦; 蔡晶
Original assignee: Beijing Cat Eyes Culture Media Co ltd
Current assignee: Beijing Cat Eyes Culture Media Co ltd
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-03-28

Abstract

本发明涉及视频图像识别技术领域，尤其为一种基于图像识别的视频自动生成方法，其方法包括如下步骤：首先应用层的业务方根据需要向下层技术端指定发送特定视频请求，多媒体服务层和底层根据收到的请求，调度分发任务并进行处理，NLP计算集群和CV计算集群接收任务，并根据文本的关键词和主题进行素材的筛选；确定生成视频的时长，进行素材的筛选和排序。本发明具有通过深度学习等技术，实现在无人工干预的情况下，对素材的筛选以及拼接的优点，可以快速、实时、精确的将社会娱乐热点问题视频化，让用户快速的了解相关的新闻事件，与此同时，生成电影、电视剧的宣传以及收视状况短视频，减少了宣传发行的人力成本，同时提高了宣传发行的效率。

Description

一种基于图像识别的视频自动生成方法

技术领域

本发明涉及视频图像识别技术领域，具体为一种基于图像识别的视频自动生成方法。

背景技术

除了网络快速的发展，近些年来，深度学习在音频、图像、自然语言上都取得了巨大的成就，已经成为众多学者以及高校实验室研究的重点和热点。其中卷积神经网络拥有强大的图像特征提取能力，广泛用于图像领域，在ImageNet等公开数据集上取得优异的成绩，分类准确率远远超过利用传统方法实现的分类结果。除此之外，循环神经网络的发展也与日俱进，相较于卷积神经网络无法对时间序列上的变化进行建模，循环神经网络可以满足序列数据的输入，因此广泛应用于文本、图像、音频、序列中，如语音识别、机器翻译、文本生成等。由此可见，深度学习由于其强大的特征提取能力、建模能力以及学习能力被广泛的应用到各个领域。

随着网络技术的快速发展，视频逐渐占据人们日常生活越来越多的时间。相较于简单的文本内容，视频可以更加从视觉、听觉多个纬度给用户带来信息的内容。在短视频平台中，大多视频都是用户或者平台通过人工的手段，人工选择相应的素材，然后通过剪辑软件等拼接素材，添加音频组装成一个完整的视频，缺点十分明显，无论进行素材的涮选，还是视频的拼接，都十分消耗人力。除此之外，效率也是十分低下，制作一个视频要消耗大量的时间，无法跟上社会以及娱乐热点时间的速度。

传统的各个短视频平台的视频大都是基于人工的手段来制作，如相关职业视频剪辑师，通过制作视频的主题，在海量的互联网资源中，挑选需要的素材，然后通过相关剪辑软件来实现对素材的拼接，以及给视频添加特效、字幕、音频等，这种过程无论是素材的选取以及制作视频的工程，都是十分费时耗力的，除此之外，效率也是十分低下，制作一个视频要消耗大量的时间，无法跟上社会以及娱乐热点时间的速度。为此我们提出一种基于图像识别的视频自动生成方法，实现一个自动化的视频生成服务，来提高视频生成的智能化和效率化。

发明内容

本发明的目的在于提供一种基于图像识别的视频自动生成方法，具有通过深度学习等技术，实现在无人工干预的情况下，对素材的筛选以及拼接的优点，解决了目前素材的选取以及制作视频的工程，都是十分费时耗力的，除此之外，效率也是十分低下，制作一个视频要消耗大量的时间，无法跟上社会以及娱乐热点时间的速度的问题。

为实现上述目的，本发明提供如下技术方案：一种基于图像识别的视频自动生成方法，其方法包括如下步骤：

(1)首先应用层的业务方根据需要向下层技术端指定发送特定视频请求；

(2)多媒体服务层和底层根据收到的请求，调度分发任务并进行处理；

(3)NLP计算集群和CV计算集群接收任务，并根据文本的关键词和主题进行素材的筛选；

(4)确定生成视频的时长，进行素材的筛选和排序，将素材组成初始视频；

(5)将初始视频与音频和字幕结合，生成最终完整的视频后，整个流程结束。

优选的，所述步骤(1)中，特定视频请求包括但不限于生成影视剧宣传片或者高播放量电影短视频。

优选的，所述步骤(2)中，底层包括NLP底层和CV底层，且NLP底层和CV底层均含有算法、模型和工具，调度分发任务时将请求下发至NLP处理服务和CV处理服务。

优选的，所述步骤(2)中，请求处理内容包括将传入的文字进行文本分析，并提取出文本的主题、关键词。

优选的，所述步骤(3)中，NLP计算集群的功能单元包括实体提取、话题提取、实体热度、话题热度、相关性分析、SEO搜索引擎优化、传播分析和实体链接。

优选的，所述步骤(3)中，CV计算集群的功能单元包括人脸检测识别、表情识别、动作识别、字幕识别、素材召回、语音生成、图像处理和视频生成。

优选的，所述步骤(3)中，筛选出的素材包括对应关键词和主题的视频素材以及音频素材。

优选的，所述步骤(4)中，视频素材的筛选和排序包括如下步骤方法：

1、基于AI的选择和排序方法；

2、人工标注以及排序的方式。

优选的，所述步骤(4)中，基于筛选、排序获取的多个视频片段生成视频集锦，使得多个视频片段组成初始视频。

优选的，所述步骤(5)中，根据初始视频在不同视频素材的位置，插入的对应的音频内容，接着对字幕的样式以及内容进行编辑，并使字幕内容与音频相匹配。

与现有技术相比，本发明的有益效果如下：

本发明具有通过深度学习等技术，实现在无人工干预的情况下，对素材的筛选以及拼接的优点，可以快速、实时、精确的将社会娱乐热点问题视频化，让用户快速的了解相关的新闻事件，与此同时，生成电影、电视剧的宣传以及收视状况短视频，减少了宣传发行的人力成本，同时提高了宣传发行的效率，解决了目前素材的选取以及制作视频的工程，都是十分费时耗力的，除此之外，效率也是十分低下，制作一个视频要消耗大量的时间，无法跟上社会以及娱乐热点时间的速度的问题，从而达到将社会娱乐热点事件视频化和自动化生成影视剧宣传视频的目的。

附图说明

图1为本发明视频自动生成流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

一种基于图像识别的视频自动生成方法，其方法包括如下步骤：

本实施例中，特定视频请求包括但不限于生成影视剧宣传片或者高播放量电影短视频。

本实施例中，底层包括NLP底层和CV底层，且NLP底层和CV底层均含有算法、模型和工具，调度分发任务时将请求下发至NLP处理服务和CV处理服务。

本实施例中，请求处理内容包括将传入的文字进行文本分析，并提取出文本的主题、关键词。

本实施例中，NLP计算集群的功能单元包括实体提取、话题提取、实体热度、话题热度、相关性分析、SEO搜索引擎优化、传播分析和实体链接。

本实施例中，CV计算集群的功能单元包括人脸检测识别、表情识别、动作识别、字幕识别、素材召回、语音生成、图像处理和视频生成。

本实施例中，筛选出的素材包括对应关键词和主题的视频素材以及音频素材。

本实施例中，视频素材的筛选和排序包括如下步骤方法：

1、基于AI的选择和排序方法；

2、人工标注以及排序的方式。

本实施例中，基于筛选、排序获取的多个视频片段生成视频集锦，使得多个视频片段组成初始视频。

本实施例中，根据初始视频在不同视频素材的位置，插入的对应的音频内容，接着对字幕的样式以及内容进行编辑，并使字幕内容与音频相匹配。

实施例二：

本实施例中，视频素材的筛选和排序包括如下步骤方法：

1、基于AI的选择和排序方法；

2、人工标注以及排序的方式。

本实施例中，NLP底层涉及的算法、模型和工具包括但不限于词法分析、句法分析、命名实体识别、svo提取、bert、bert+LSTM+crf、roberta、sbert、TensorFlow、pytorch、Keras、scikit-learn、LAC、ddparser、networks和beautifullsoup。

本实施例中，CV底层涉及的算法、模型和工具包括但不限于faster-rcnn、颜色直方图、dbscan+maxmin、LSTM、光流法、retinaface、resnet50、注意力模型、HSV、Elasticsearth、OpenCV、Arcface、镜头切分、镜头分析、镜头融合、模型融合。

综上所述，本发明具有通过深度学习等技术，实现在无人工干预的情况下，对素材的筛选以及拼接的优点，可以快速、实时、精确的将社会娱乐热点问题视频化，让用户快速的了解相关的新闻事件，与此同时，生成电影、电视剧的宣传以及收视状况短视频，减少了宣传发行的人力成本，同时提高了宣传发行的效率，解决了目前素材的选取以及制作视频的工程，都是十分费时耗力的，除此之外，效率也是十分低下，制作一个视频要消耗大量的时间，无法跟上社会以及娱乐热点时间的速度的问题，从而达到将社会娱乐热点事件视频化和自动化生成影视剧宣传视频的目的。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于图像识别的视频自动生成方法，其特征在于：其方法包括如下步骤：

2.根据权利要求1所述的一种基于图像识别的视频自动生成方法，其特征在于：所述步骤(1)中，特定视频请求包括但不限于生成影视剧宣传片或者高播放量电影短视频。

3.根据权利要求1所述的一种基于图像识别的视频自动生成方法，其特征在于：所述步骤(2)中，底层包括NLP底层和CV底层，且NLP底层和CV底层均含有算法、模型和工具，调度分发任务时将请求下发至NLP处理服务和CV处理服务。

4.根据权利要求1所述的一种基于图像识别的视频自动生成方法，其特征在于：所述步骤(2)中，请求处理内容包括将传入的文字进行文本分析，并提取出文本的主题、关键词。

5.根据权利要求1所述的一种基于图像识别的视频自动生成方法，其特征在于：所述步骤(3)中，NLP计算集群的功能单元包括实体提取、话题提取、实体热度、话题热度、相关性分析、SEO搜索引擎优化、传播分析和实体链接。

6.根据权利要求1所述的一种基于图像识别的视频自动生成方法，其特征在于：所述步骤(3)中，CV计算集群的功能单元包括人脸检测识别、表情识别、动作识别、字幕识别、素材召回、语音生成、图像处理和视频生成。

7.根据权利要求1所述的一种基于图像识别的视频自动生成方法，其特征在于：所述步骤(3)中，筛选出的素材包括对应关键词和主题的视频素材以及音频素材。

8.根据权利要求1所述的一种基于图像识别的视频自动生成方法，其特征在于：所述步骤(4)中，视频素材的筛选和排序包括如下步骤方法：

1、基于AI的选择和排序方法；

2、人工标注以及排序的方式。

9.根据权利要求1所述的一种基于图像识别的视频自动生成方法，其特征在于：所述步骤(4)中，基于筛选、排序获取的多个视频片段生成视频集锦，使得多个视频片段组成初始视频。

10.根据权利要求1所述的一种基于图像识别的视频自动生成方法，其特征在于：所述步骤(5)中，根据初始视频在不同视频素材的位置，插入的对应的音频内容，接着对字幕的样式以及内容进行编辑，并使字幕内容与音频相匹配。