CN115866355A - 一种基于图像识别的视频自动生成方法 - Google Patents

一种基于图像识别的视频自动生成方法 Download PDF

Info

Publication number
CN115866355A
CN115866355A CN202211590600.9A CN202211590600A CN115866355A CN 115866355 A CN115866355 A CN 115866355A CN 202211590600 A CN202211590600 A CN 202211590600A CN 115866355 A CN115866355 A CN 115866355A
Authority
CN
China
Prior art keywords
video
materials
bottom layer
method comprises
nlp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211590600.9A
Other languages
English (en)
Inventor
孟洋
张琦
蔡晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cat Eyes Culture Media Co ltd
Original Assignee
Beijing Cat Eyes Culture Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cat Eyes Culture Media Co ltd filed Critical Beijing Cat Eyes Culture Media Co ltd
Priority to CN202211590600.9A priority Critical patent/CN115866355A/zh
Publication of CN115866355A publication Critical patent/CN115866355A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及视频图像识别技术领域,尤其为一种基于图像识别的视频自动生成方法,其方法包括如下步骤:首先应用层的业务方根据需要向下层技术端指定发送特定视频请求,多媒体服务层和底层根据收到的请求,调度分发任务并进行处理,NLP计算集群和CV计算集群接收任务,并根据文本的关键词和主题进行素材的筛选;确定生成视频的时长,进行素材的筛选和排序。本发明具有通过深度学习等技术,实现在无人工干预的情况下,对素材的筛选以及拼接的优点,可以快速、实时、精确的将社会娱乐热点问题视频化,让用户快速的了解相关的新闻事件,与此同时,生成电影、电视剧的宣传以及收视状况短视频,减少了宣传发行的人力成本,同时提高了宣传发行的效率。

Description

一种基于图像识别的视频自动生成方法
技术领域
本发明涉及视频图像识别技术领域,具体为一种基于图像识别的视频自动生成方法。
背景技术
除了网络快速的发展,近些年来,深度学习在音频、图像、自然语言上都取得了巨大的成就,已经成为众多学者以及高校实验室研究的重点和热点。其中卷积神经网络拥有强大的图像特征提取能力,广泛用于图像领域,在ImageNet等公开数据集上取得优异的成绩,分类准确率远远超过利用传统方法实现的分类结果。除此之外,循环神经网络的发展也与日俱进,相较于卷积神经网络无法对时间序列上的变化进行建模,循环神经网络可以满足序列数据的输入,因此广泛应用于文本、图像、音频、序列中,如语音识别、机器翻译、文本生成等。由此可见,深度学习由于其强大的特征提取能力、建模能力以及学习能力被广泛的应用到各个领域。
随着网络技术的快速发展,视频逐渐占据人们日常生活越来越多的时间。相较于简单的文本内容,视频可以更加从视觉、听觉多个纬度给用户带来信息的内容。在短视频平台中,大多视频都是用户或者平台通过人工的手段,人工选择相应的素材,然后通过剪辑软件等拼接素材,添加音频组装成一个完整的视频,缺点十分明显,无论进行素材的涮选,还是视频的拼接,都十分消耗人力。除此之外,效率也是十分低下,制作一个视频要消耗大量的时间,无法跟上社会以及娱乐热点时间的速度。
传统的各个短视频平台的视频大都是基于人工的手段来制作,如相关职业视频剪辑师,通过制作视频的主题,在海量的互联网资源中,挑选需要的素材,然后通过相关剪辑软件来实现对素材的拼接,以及给视频添加特效、字幕、音频等,这种过程无论是素材的选取以及制作视频的工程,都是十分费时耗力的,除此之外,效率也是十分低下,制作一个视频要消耗大量的时间,无法跟上社会以及娱乐热点时间的速度。为此我们提出一种基于图像识别的视频自动生成方法,实现一个自动化的视频生成服务,来提高视频生成的智能化和效率化。
发明内容
本发明的目的在于提供一种基于图像识别的视频自动生成方法,具有通过深度学习等技术,实现在无人工干预的情况下,对素材的筛选以及拼接的优点,解决了目前素材的选取以及制作视频的工程,都是十分费时耗力的,除此之外,效率也是十分低下,制作一个视频要消耗大量的时间,无法跟上社会以及娱乐热点时间的速度的问题。
为实现上述目的,本发明提供如下技术方案:一种基于图像识别的视频自动生成方法,其方法包括如下步骤:
(1)首先应用层的业务方根据需要向下层技术端指定发送特定视频请求;
(2)多媒体服务层和底层根据收到的请求,调度分发任务并进行处理;
(3)NLP计算集群和CV计算集群接收任务,并根据文本的关键词和主题进行素材的筛选;
(4)确定生成视频的时长,进行素材的筛选和排序,将素材组成初始视频;
(5)将初始视频与音频和字幕结合,生成最终完整的视频后,整个流程结束。
优选的,所述步骤(1)中,特定视频请求包括但不限于生成影视剧宣传片或者高播放量电影短视频。
优选的,所述步骤(2)中,底层包括NLP底层和CV底层,且NLP底层和CV底层均含有算法、模型和工具,调度分发任务时将请求下发至NLP处理服务和CV处理服务。
优选的,所述步骤(2)中,请求处理内容包括将传入的文字进行文本分析,并提取出文本的主题、关键词。
优选的,所述步骤(3)中,NLP计算集群的功能单元包括实体提取、话题提取、实体热度、话题热度、相关性分析、SEO搜索引擎优化、传播分析和实体链接。
优选的,所述步骤(3)中,CV计算集群的功能单元包括人脸检测识别、表情识别、动作识别、字幕识别、素材召回、语音生成、图像处理和视频生成。
优选的,所述步骤(3)中,筛选出的素材包括对应关键词和主题的视频素材以及音频素材。
优选的,所述步骤(4)中,视频素材的筛选和排序包括如下步骤方法:
1、基于AI的选择和排序方法;
2、人工标注以及排序的方式。
优选的,所述步骤(4)中,基于筛选、排序获取的多个视频片段生成视频集锦,使得多个视频片段组成初始视频。
优选的,所述步骤(5)中,根据初始视频在不同视频素材的位置,插入的对应的音频内容,接着对字幕的样式以及内容进行编辑,并使字幕内容与音频相匹配。
与现有技术相比,本发明的有益效果如下:
本发明具有通过深度学习等技术,实现在无人工干预的情况下,对素材的筛选以及拼接的优点,可以快速、实时、精确的将社会娱乐热点问题视频化,让用户快速的了解相关的新闻事件,与此同时,生成电影、电视剧的宣传以及收视状况短视频,减少了宣传发行的人力成本,同时提高了宣传发行的效率,解决了目前素材的选取以及制作视频的工程,都是十分费时耗力的,除此之外,效率也是十分低下,制作一个视频要消耗大量的时间,无法跟上社会以及娱乐热点时间的速度的问题,从而达到将社会娱乐热点事件视频化和自动化生成影视剧宣传视频的目的。
附图说明
图1为本发明视频自动生成流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
一种基于图像识别的视频自动生成方法,其方法包括如下步骤:
(1)首先应用层的业务方根据需要向下层技术端指定发送特定视频请求;
本实施例中,特定视频请求包括但不限于生成影视剧宣传片或者高播放量电影短视频。
(2)多媒体服务层和底层根据收到的请求,调度分发任务并进行处理;
本实施例中,底层包括NLP底层和CV底层,且NLP底层和CV底层均含有算法、模型和工具,调度分发任务时将请求下发至NLP处理服务和CV处理服务。
本实施例中,请求处理内容包括将传入的文字进行文本分析,并提取出文本的主题、关键词。
(3)NLP计算集群和CV计算集群接收任务,并根据文本的关键词和主题进行素材的筛选;
本实施例中,NLP计算集群的功能单元包括实体提取、话题提取、实体热度、话题热度、相关性分析、SEO搜索引擎优化、传播分析和实体链接。
本实施例中,CV计算集群的功能单元包括人脸检测识别、表情识别、动作识别、字幕识别、素材召回、语音生成、图像处理和视频生成。
本实施例中,筛选出的素材包括对应关键词和主题的视频素材以及音频素材。
(4)确定生成视频的时长,进行素材的筛选和排序,将素材组成初始视频;
本实施例中,视频素材的筛选和排序包括如下步骤方法:
1、基于AI的选择和排序方法;
2、人工标注以及排序的方式。
本实施例中,基于筛选、排序获取的多个视频片段生成视频集锦,使得多个视频片段组成初始视频。
(5)将初始视频与音频和字幕结合,生成最终完整的视频后,整个流程结束。
本实施例中,根据初始视频在不同视频素材的位置,插入的对应的音频内容,接着对字幕的样式以及内容进行编辑,并使字幕内容与音频相匹配。
实施例二:
一种基于图像识别的视频自动生成方法,其方法包括如下步骤:
(1)首先应用层的业务方根据需要向下层技术端指定发送特定视频请求;
本实施例中,特定视频请求包括但不限于生成影视剧宣传片或者高播放量电影短视频。
(2)多媒体服务层和底层根据收到的请求,调度分发任务并进行处理;
本实施例中,底层包括NLP底层和CV底层,且NLP底层和CV底层均含有算法、模型和工具,调度分发任务时将请求下发至NLP处理服务和CV处理服务。
本实施例中,请求处理内容包括将传入的文字进行文本分析,并提取出文本的主题、关键词。
(3)NLP计算集群和CV计算集群接收任务,并根据文本的关键词和主题进行素材的筛选;
本实施例中,NLP计算集群的功能单元包括实体提取、话题提取、实体热度、话题热度、相关性分析、SEO搜索引擎优化、传播分析和实体链接。
本实施例中,CV计算集群的功能单元包括人脸检测识别、表情识别、动作识别、字幕识别、素材召回、语音生成、图像处理和视频生成。
本实施例中,筛选出的素材包括对应关键词和主题的视频素材以及音频素材。
(4)确定生成视频的时长,进行素材的筛选和排序,将素材组成初始视频;
本实施例中,视频素材的筛选和排序包括如下步骤方法:
1、基于AI的选择和排序方法;
2、人工标注以及排序的方式。
本实施例中,基于筛选、排序获取的多个视频片段生成视频集锦,使得多个视频片段组成初始视频。
(5)将初始视频与音频和字幕结合,生成最终完整的视频后,整个流程结束。
本实施例中,根据初始视频在不同视频素材的位置,插入的对应的音频内容,接着对字幕的样式以及内容进行编辑,并使字幕内容与音频相匹配。
本实施例中,NLP底层涉及的算法、模型和工具包括但不限于词法分析、句法分析、命名实体识别、svo提取、bert、bert+LSTM+crf、roberta、sbert、TensorFlow、pytorch、Keras、scikit-learn、LAC、ddparser、networks和beautifullsoup。
本实施例中,CV底层涉及的算法、模型和工具包括但不限于faster-rcnn、颜色直方图、dbscan+maxmin、LSTM、光流法、retinaface、resnet50、注意力模型、HSV、Elasticsearth、OpenCV、Arcface、镜头切分、镜头分析、镜头融合、模型融合。
综上所述,本发明具有通过深度学习等技术,实现在无人工干预的情况下,对素材的筛选以及拼接的优点,可以快速、实时、精确的将社会娱乐热点问题视频化,让用户快速的了解相关的新闻事件,与此同时,生成电影、电视剧的宣传以及收视状况短视频,减少了宣传发行的人力成本,同时提高了宣传发行的效率,解决了目前素材的选取以及制作视频的工程,都是十分费时耗力的,除此之外,效率也是十分低下,制作一个视频要消耗大量的时间,无法跟上社会以及娱乐热点时间的速度的问题,从而达到将社会娱乐热点事件视频化和自动化生成影视剧宣传视频的目的。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种基于图像识别的视频自动生成方法,其特征在于:其方法包括如下步骤:
(1)首先应用层的业务方根据需要向下层技术端指定发送特定视频请求;
(2)多媒体服务层和底层根据收到的请求,调度分发任务并进行处理;
(3)NLP计算集群和CV计算集群接收任务,并根据文本的关键词和主题进行素材的筛选;
(4)确定生成视频的时长,进行素材的筛选和排序,将素材组成初始视频;
(5)将初始视频与音频和字幕结合,生成最终完整的视频后,整个流程结束。
2.根据权利要求1所述的一种基于图像识别的视频自动生成方法,其特征在于:所述步骤(1)中,特定视频请求包括但不限于生成影视剧宣传片或者高播放量电影短视频。
3.根据权利要求1所述的一种基于图像识别的视频自动生成方法,其特征在于:所述步骤(2)中,底层包括NLP底层和CV底层,且NLP底层和CV底层均含有算法、模型和工具,调度分发任务时将请求下发至NLP处理服务和CV处理服务。
4.根据权利要求1所述的一种基于图像识别的视频自动生成方法,其特征在于:所述步骤(2)中,请求处理内容包括将传入的文字进行文本分析,并提取出文本的主题、关键词。
5.根据权利要求1所述的一种基于图像识别的视频自动生成方法,其特征在于:所述步骤(3)中,NLP计算集群的功能单元包括实体提取、话题提取、实体热度、话题热度、相关性分析、SEO搜索引擎优化、传播分析和实体链接。
6.根据权利要求1所述的一种基于图像识别的视频自动生成方法,其特征在于:所述步骤(3)中,CV计算集群的功能单元包括人脸检测识别、表情识别、动作识别、字幕识别、素材召回、语音生成、图像处理和视频生成。
7.根据权利要求1所述的一种基于图像识别的视频自动生成方法,其特征在于:所述步骤(3)中,筛选出的素材包括对应关键词和主题的视频素材以及音频素材。
8.根据权利要求1所述的一种基于图像识别的视频自动生成方法,其特征在于:所述步骤(4)中,视频素材的筛选和排序包括如下步骤方法:
1、基于AI的选择和排序方法;
2、人工标注以及排序的方式。
9.根据权利要求1所述的一种基于图像识别的视频自动生成方法,其特征在于:所述步骤(4)中,基于筛选、排序获取的多个视频片段生成视频集锦,使得多个视频片段组成初始视频。
10.根据权利要求1所述的一种基于图像识别的视频自动生成方法,其特征在于:所述步骤(5)中,根据初始视频在不同视频素材的位置,插入的对应的音频内容,接着对字幕的样式以及内容进行编辑,并使字幕内容与音频相匹配。
CN202211590600.9A 2022-12-20 2022-12-20 一种基于图像识别的视频自动生成方法 Pending CN115866355A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211590600.9A CN115866355A (zh) 2022-12-20 2022-12-20 一种基于图像识别的视频自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211590600.9A CN115866355A (zh) 2022-12-20 2022-12-20 一种基于图像识别的视频自动生成方法

Publications (1)

Publication Number Publication Date
CN115866355A true CN115866355A (zh) 2023-03-28

Family

ID=85672105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211590600.9A Pending CN115866355A (zh) 2022-12-20 2022-12-20 一种基于图像识别的视频自动生成方法

Country Status (1)

Country Link
CN (1) CN115866355A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117709602A (zh) * 2024-02-05 2024-03-15 吉林大学 一种基于社会价值取向的城市智能车辆拟人化决策方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180018508A1 (en) * 2015-01-29 2018-01-18 Unifai Holdings Limited Computer vision systems
US20180249193A1 (en) * 2017-02-28 2018-08-30 Alibaba Group Holding Limited Method and apparatus for generating video data using textual data
CN109992662A (zh) * 2019-04-12 2019-07-09 上海晏鼠计算机技术股份有限公司 一种智能文本自动化生成的创新流程方法
CN113468868A (zh) * 2021-07-07 2021-10-01 西北大学 一种基于nlp的实时网络热点内容分析方法
CN114501105A (zh) * 2022-01-29 2022-05-13 腾讯科技(深圳)有限公司 视频内容的生成方法、装置、设备、存储介质及程序产品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180018508A1 (en) * 2015-01-29 2018-01-18 Unifai Holdings Limited Computer vision systems
US20180249193A1 (en) * 2017-02-28 2018-08-30 Alibaba Group Holding Limited Method and apparatus for generating video data using textual data
CN109992662A (zh) * 2019-04-12 2019-07-09 上海晏鼠计算机技术股份有限公司 一种智能文本自动化生成的创新流程方法
CN113468868A (zh) * 2021-07-07 2021-10-01 西北大学 一种基于nlp的实时网络热点内容分析方法
CN114501105A (zh) * 2022-01-29 2022-05-13 腾讯科技(深圳)有限公司 视频内容的生成方法、装置、设备、存储介质及程序产品

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117709602A (zh) * 2024-02-05 2024-03-15 吉林大学 一种基于社会价值取向的城市智能车辆拟人化决策方法
CN117709602B (zh) * 2024-02-05 2024-05-17 吉林大学 一种基于社会价值取向的城市智能车辆拟人化决策方法

Similar Documents

Publication Publication Date Title
US11769528B2 (en) Systems and methods for automating video editing
CN110941692B (zh) 互联网政治外交类新闻事件抽取方法
CN109165302B (zh) 多媒体文件推荐方法及装置
KR101326897B1 (ko) 텔레비전 시퀀스를 제공하는 장치 및 방법
WO2021190174A1 (zh) 信息确定方法、装置、计算机设备及存储介质
CN111368141B (zh) 视频标签的扩展方法、装置、计算机设备和存储介质
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
Jiang et al. Live: an integrated production and feedback system for intelligent and interactive tv broadcasting
CN111753133A (zh) 视频分类方法、装置及存储介质
Kaushal et al. A framework towards domain specific video summarization
CN106802913A (zh) 一种播放内容推荐方法及其装置
CN103593356A (zh) 基于多媒体信息指纹技术的信息搜索方法、系统和应用
CN115866355A (zh) 一种基于图像识别的视频自动生成方法
Jia Analysis methods for the planning and dissemination mode of radio and television assisted by artificial intelligence technology
Kostiuk et al. Multi-label emotion classification in music videos using ensembles of audio and video features
Lian Innovative Internet video consuming based on media analysis techniques
Matsumoto et al. Music video recommendation based on link prediction considering local and global structures of a network
CN115734024A (zh) 音频数据处理方法、装置、设备及存储介质
Bieda et al. A systematic mapping study on artificial intelligence tools used in video editing
Valdés et al. Efficient video summarization and retrieval tools
CN115442540A (zh) 音乐视频生成方法、装置、计算机设备及存储介质
Jacob et al. Video content analysis and retrieval system using video storytelling and indexing techniques.
Barbosa et al. Browsing videos by automatically detected audio events
Patel et al. Online Meeting Summarization Based on Text and Image Processing
Di Principles of AIGC technology and its application in new media micro-video creation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination