CN112800263A

CN112800263A - 一种基于人工智能的视频合成系统、方法及介质

Info

Publication number: CN112800263A
Application number: CN202110149658.9A
Authority: CN
Inventors: 杨东奇; 林立; 曹烈安; 曹康文
Original assignee: Shanghai Aiqi Information Technology Co Ltd
Current assignee: Shanghai Aiqi Information Technology Co Ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-05-14

Abstract

本发明提供了一种基于人工智能的视频合成系统、方法及介质，包括：模块M1：对选择的图片或视频按照预设要求进行分类，并标注分类标签；模块M2：将选择视频中的语音内容转换成文字并通过语法分析进行断句，将断句后的文字以字幕的形式添加到选择的视频中，并根据分析出的语义加以相匹配的内置特效；模块M3：基于图片或视频的分类标签，通过服务器筛选或内置分类匹配，推荐给用户匹配度最高的配乐、转场和特效；模块M4：将获得的配乐、转场、特效以及字幕添加到选择的视频或图片中合成新的视频。本发明通过一种高效率视频编码帧内快速算法可以快速生成以上特效视频文件，与普通算法相比，在保持质量几乎不变的前提下，提高了30％左右的编码速度。

Description

一种基于人工智能的视频合成系统、方法及介质

技术领域

本发明涉及人工智能技术领域，具体地，涉及一种基于人工智能的视频合成系统、方法及介质。

背景技术

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

专利文献CN110012309A(申请号：201910157183.0)公开了一种智能合拍视频的制作系统和方法包括主素材创建设备、智能合拍视频应用程序、合拍素材创建设备、合拍素材数据库、合拍素材上传界面、智能模块、合拍素材搜索和选择模块和网络，本发明使用人工智能技术自动进行合拍视频素材的选择，自动匹配合拍者与合拍素材，并自动编辑组合合拍视频，真正做到合拍素材找人，无需任何技能，无需寻找和提供任何合拍素材，没有任何限制，非常简单易用，针对不同的合拍者，本发明会根据他的性别、年龄、颜值等等来选择不同的合拍素材，创作出的合拍短视频对合拍者有强烈的针对性和匹配性，可以给合拍者带来强烈的心理上和情感上的满足，实用性更强。本发明与该专利相比，更灵活，不拘泥于合拍视频的制作，真正的达到精准匹配视频内容，制作合成让人满意的视频效果。提高原视频的精美程度，降低高品质视频内容制作门槛，非常简单易操作。

专利文献CN111953910A(申请号：202010800282.9)公开一种基于人工智能的视频处理方法，包括：获取游戏记录数据及对应的游戏视频；从所述游戏记录数据中提取至少一个游戏特征及对应的游戏指令时间；根据所述至少一个游戏特征获取匹配的解说策略模型；基于所述解说策略模型生成对应的解说语音；以及根据所述解说语音及所述游戏视频合成解说视频，使所述解说语音的时间线起点与所述游戏指令时间匹配。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于人工智能的视频合成系统、方法及介质。

根据本发明提供的一种基于人工智能的视频合成系统，包括：

模块M1：对选择的图片或视频按照预设要求进行分类，并标注分类标签；

模块M2：将选择视频中的语音内容转换成文字并通过语法分析进行断句，将断句后的文字以字幕的形式添加到选择的视频中，并根据分析出的语义加以相匹配的内置特效；

模块M3：基于图片或视频的分类标签，通过服务器筛选或内置分类匹配，推荐给用户匹配度最高的配乐、转场和特效；

模块M4：将获得的配乐、转场、特效以及字幕添加到选择的视频或图片中合成新的视频。

优选地，所述步骤M1包括：

模块M1.1：基于视频分类算法按照视频的语义内容将视频片段分类至单个或多个类别，并将视频标注分类标签；

模块M1.2：基于CNN图像分类网络甄别图片所属场景，将图片标注分类标签。

优选地，所述模块M2包括：

模块M2.1：将选中的视频中的语音内容通过HMM算法转化成一段文字；

模块M2.2：通过NLP算法对文字进行语法分析，完成断句，得到处理后的文字；

模块M2.3：将处理后的文字以字幕的形式添加到选中视频中，并根据分析出的语义加以相匹配的内置特效。

优选地，所述模块M2.2中语法分析包括：分词、词性标注和实体识别。

根据本发明提供的一种基于人工智能的视频合成方法，包括：

步骤M1：对选择的图片或视频按照预设要求进行分类，并标注分类标签；

步骤M2：将选择视频中的语音内容转换成文字并通过语法分析进行断句，将断句后的文字以字幕的形式添加到选择的视频中，并根据分析出的语义加以相匹配的内置特效；

步骤M3：基于图片或视频的分类标签，通过服务器筛选或内置分类匹配，推荐给用户匹配度最高的配乐、转场和特效；

步骤M4：将获得的配乐、转场、特效以及字幕添加到选择的视频或图片中合成新的视频。

优选地，所述步骤M1包括：

步骤M1.1：基于视频分类算法按照视频的语义内容将视频片段分类至单个或多个类别，并将视频标注分类标签；

步骤M1.2：基于CNN图像分类网络甄别图片所属场景，将图片标注分类标签。

优选地，所述步骤M2包括：

步骤M2.1：将选中的视频中的语音内容通过HMM算法转化成一段文字；

步骤M2.2：通过NLP算法对文字进行语法分析，完成断句，得到处理后的文字；

步骤M2.3：将处理后的文字以字幕的形式添加到选中视频中，并根据分析出的语义加以相匹配的内置特效。

优选地，所述步骤M2.2中语法分析包括：分词、词性标注和实体识别。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述所述的方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

1、本发明通过多个算法(比如Soft Bag-of-words,Fisher Vectors,NetVLAD,GRUand LSTM)相结合，共同组成视频特征。用一种非线性网络单元Context Gating，用于对特征相关性建模。这样相对于传统的按视频帧提取特征，取它们的极大值或均值来代表视频的特征的方式，更全面更准确的进行分类；

2、本发明通过对视频中音频的分析，利用ASR(自动语音识别)技术将音频快速转换成文字，再通过NLP(自然语言处理)对文字内容进行修饰，帮用户快速生成字幕，并给字幕加以相应的特效，让字幕更生动灵活；

3、本发明通过将视频分类，匹配相对应分类的视频特效，自动生成具有生动过渡效果、唯美的滤镜效果、配以背景音乐。保证了视频内容的质量，节约了视频创作者前期制作视频的时间成本，解决了普通用户制作视频时思路匮乏的问题；

4、本发明通过一种高效率视频编码帧内快速算法可以快速生成以上特效视频文件，与普通算法相比，在保持质量几乎不变的前提下，提高了30％左右的编码速度。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为一种基于人工智能的视频合成方法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1

本发明基于人工智能算法，将图片或者视频按风格分类后，添加配乐、文字、转场、特效，合成具有独特风格的视频。

本发明通过多个算法(比如Soft Bag-of-words,Fisher Vectors,NetVLAD,GRUand LSTM)相结合，共同组成视频特征。用一种非线性网络单元Context Gating，用于对特征相关性建模。克服了现有技术中对视频无法精准分类的问题；

通过对NLP算法针对短视频场景的优化，提高短视频中语音转文字的效率和准确度；

通过改进视频编码帧算法，在编码单元(CU)决策层上，应用一种基于绝对误差和的CU分割前终止方案，同时基于统计的分析，依照各候选模式成为最优预测模式的概率，进一步排除低概率的候选模式。与现行技术比较，在保证视频质量几乎不变得前提下，节省了30％左右的编码时间。

本发明提供的一种基于人工智能的视频美化系统包括：

图片或视频风格分类模块，包括视频分类和图片分类两个方向；所述视频分类方向，是基于视频分类算法(Video Classification)按照视频的语义内容如人类行为和复杂事件等，将视频片段自动分类至单个或多个类别，所述图片分类方向，是基于CNN图像分类网络甄别图片所属场景，将图片打上分类标签。对图片分类的目的是，我们可以将图片转化为视频处理。

语音转文字模块，该模块基于自然语言处理(NLP)算法，首先将用户选中视频中的语音内容通过HMM算法转化成一段文字，通过NLP算法对这段文字进行包括分词、词性标注、实体识别等步骤的语法分析，完成断句。之后将文字以字幕的形式添加到选中视频中，并根据分析出的语义加以相匹配的内置特效。让文字更鲜明生动。

标签匹配模块，基于图片或视频风格分类模块产生的分类标签，通过服务器筛选或内置分类匹配，自动推荐给用户匹配度最高的配乐、转场、特效等。

视频合成模块，基于以上获得到的配乐、转场、特效以及字幕，将其添加到选中视频或图片中，自动合成新的视频。其中配乐为符合分类风格的音乐，转场与特效按相应的分类标签，添加到合成视频中，并导出到本地形成新的视频。

本发明提供的一种基于人工智能的视频美化方法包括：如图1所示，

图片或视频风格分类步骤，包括视频分类和图片分类两个方向；所述视频分类方向，是基于视频分类算法(Video Classification)按照视频的语义内容如人类行为和复杂事件等，将视频片段自动分类至单个或多个类别，所述图片分类方向，是基于CNN图像分类网络甄别图片所属场景，将图片打上分类标签。对图片分类的目的是，我们可以将图片转化为视频处理。

语音转文字步骤，该模块基于自然语言处理(NLP)算法，首先将用户选中视频中的语音内容通过HMM算法转化成一段文字，通过NLP算法对这段文字进行包括分词、词性标注、实体识别等步骤的语法分析，完成断句。之后将文字以字幕的形式添加到选中视频中，并根据分析出的语义加以相匹配的内置特效。让文字更鲜明生动。

标签匹配步骤，基于图片或视频风格分类模块产生的分类标签，通过服务器筛选或内置分类匹配，自动推荐给用户匹配度最高的配乐、转场、特效等。

视频合成步骤，基于以上获得到的配乐、转场、特效以及字幕，将其添加到选中视频或图片中，自动合成新的视频。其中配乐为符合分类风格的音乐，转场与特效按相应的分类标签，添加到合成视频中，并导出到本地形成新的视频。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于人工智能的视频合成系统，其特征在于，包括：

2.根据权利要求1所述的基于人工智能的视频合成系统，其特征在于，所述步骤M1包括：

3.根据权利要求1所述的基于人工智能的视频合成系统，其特征在于，所述模块M2包括：

4.根据权利要求1所述的基于人工智能的视频合成系统，其特征在于，所述模块M2.2中语法分析包括：分词、词性标注和实体识别。

5.一种基于人工智能的视频合成方法，其特征在于，包括：

6.根据权利要求5所述的基于人工智能的视频合成方法，其特征在于，所述步骤M1包括：

7.根据权利要求5所述的基于人工智能的视频合成方法，其特征在于，所述步骤M2包括：

8.根据权利要求5所述的基于人工智能的视频合成方法，其特征在于，所述步骤M2.2中语法分析包括：分词、词性标注和实体识别。

9.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。