CN112800263A - 一种基于人工智能的视频合成系统、方法及介质 - Google Patents

一种基于人工智能的视频合成系统、方法及介质 Download PDF

Info

Publication number
CN112800263A
CN112800263A CN202110149658.9A CN202110149658A CN112800263A CN 112800263 A CN112800263 A CN 112800263A CN 202110149658 A CN202110149658 A CN 202110149658A CN 112800263 A CN112800263 A CN 112800263A
Authority
CN
China
Prior art keywords
video
module
classification
characters
special effect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110149658.9A
Other languages
English (en)
Inventor
杨东奇
林立
曹烈安
曹康文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Aiqi Information Technology Co Ltd
Original Assignee
Shanghai Aiqi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Aiqi Information Technology Co Ltd filed Critical Shanghai Aiqi Information Technology Co Ltd
Priority to CN202110149658.9A priority Critical patent/CN112800263A/zh
Publication of CN112800263A publication Critical patent/CN112800263A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明提供了一种基于人工智能的视频合成系统、方法及介质,包括:模块M1:对选择的图片或视频按照预设要求进行分类,并标注分类标签;模块M2:将选择视频中的语音内容转换成文字并通过语法分析进行断句,将断句后的文字以字幕的形式添加到选择的视频中,并根据分析出的语义加以相匹配的内置特效;模块M3:基于图片或视频的分类标签,通过服务器筛选或内置分类匹配,推荐给用户匹配度最高的配乐、转场和特效;模块M4:将获得的配乐、转场、特效以及字幕添加到选择的视频或图片中合成新的视频。本发明通过一种高效率视频编码帧内快速算法可以快速生成以上特效视频文件,与普通算法相比,在保持质量几乎不变的前提下,提高了30%左右的编码速度。

Description

一种基于人工智能的视频合成系统、方法及介质
技术领域
本发明涉及人工智能技术领域,具体地,涉及一种基于人工智能的视频合成系统、方法及介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
专利文献CN110012309A(申请号:201910157183.0)公开了一种智能合拍视频的制作系统和方法包括主素材创建设备、智能合拍视频应用程序、合拍素材创建设备、合拍素材数据库、合拍素材上传界面、智能模块、合拍素材搜索和选择模块和网络,本发明使用人工智能技术自动进行合拍视频素材的选择,自动匹配合拍者与合拍素材,并自动编辑组合合拍视频,真正做到合拍素材找人,无需任何技能,无需寻找和提供任何合拍素材,没有任何限制,非常简单易用,针对不同的合拍者,本发明会根据他的性别、年龄、颜值等等来选择不同的合拍素材,创作出的合拍短视频对合拍者有强烈的针对性和匹配性,可以给合拍者带来强烈的心理上和情感上的满足,实用性更强。本发明与该专利相比,更灵活,不拘泥于合拍视频的制作,真正的达到精准匹配视频内容,制作合成让人满意的视频效果。提高原视频的精美程度,降低高品质视频内容制作门槛,非常简单易操作。
专利文献CN111953910A(申请号:202010800282.9)公开一种基于人工智能的视频处理方法,包括:获取游戏记录数据及对应的游戏视频;从所述游戏记录数据中提取至少一个游戏特征及对应的游戏指令时间;根据所述至少一个游戏特征获取匹配的解说策略模型;基于所述解说策略模型生成对应的解说语音;以及根据所述解说语音及所述游戏视频合成解说视频,使所述解说语音的时间线起点与所述游戏指令时间匹配。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于人工智能的视频合成系统、方法及介质。
根据本发明提供的一种基于人工智能的视频合成系统,包括:
模块M1:对选择的图片或视频按照预设要求进行分类,并标注分类标签;
模块M2:将选择视频中的语音内容转换成文字并通过语法分析进行断句,将断句后的文字以字幕的形式添加到选择的视频中,并根据分析出的语义加以相匹配的内置特效;
模块M3:基于图片或视频的分类标签,通过服务器筛选或内置分类匹配,推荐给用户匹配度最高的配乐、转场和特效;
模块M4:将获得的配乐、转场、特效以及字幕添加到选择的视频或图片中合成新的视频。
优选地,所述步骤M1包括:
模块M1.1:基于视频分类算法按照视频的语义内容将视频片段分类至单个或多个类别,并将视频标注分类标签;
模块M1.2:基于CNN图像分类网络甄别图片所属场景,将图片标注分类标签。
优选地,所述模块M2包括:
模块M2.1:将选中的视频中的语音内容通过HMM算法转化成一段文字;
模块M2.2:通过NLP算法对文字进行语法分析,完成断句,得到处理后的文字;
模块M2.3:将处理后的文字以字幕的形式添加到选中视频中,并根据分析出的语义加以相匹配的内置特效。
优选地,所述模块M2.2中语法分析包括:分词、词性标注和实体识别。
根据本发明提供的一种基于人工智能的视频合成方法,包括:
步骤M1:对选择的图片或视频按照预设要求进行分类,并标注分类标签;
步骤M2:将选择视频中的语音内容转换成文字并通过语法分析进行断句,将断句后的文字以字幕的形式添加到选择的视频中,并根据分析出的语义加以相匹配的内置特效;
步骤M3:基于图片或视频的分类标签,通过服务器筛选或内置分类匹配,推荐给用户匹配度最高的配乐、转场和特效;
步骤M4:将获得的配乐、转场、特效以及字幕添加到选择的视频或图片中合成新的视频。
优选地,所述步骤M1包括:
步骤M1.1:基于视频分类算法按照视频的语义内容将视频片段分类至单个或多个类别,并将视频标注分类标签;
步骤M1.2:基于CNN图像分类网络甄别图片所属场景,将图片标注分类标签。
优选地,所述步骤M2包括:
步骤M2.1:将选中的视频中的语音内容通过HMM算法转化成一段文字;
步骤M2.2:通过NLP算法对文字进行语法分析,完成断句,得到处理后的文字;
步骤M2.3:将处理后的文字以字幕的形式添加到选中视频中,并根据分析出的语义加以相匹配的内置特效。
优选地,所述步骤M2.2中语法分析包括:分词、词性标注和实体识别。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述所述的方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
1、本发明通过多个算法(比如Soft Bag-of-words,Fisher Vectors,NetVLAD,GRUand LSTM)相结合,共同组成视频特征。用一种非线性网络单元Context Gating,用于对特征相关性建模。这样相对于传统的按视频帧提取特征,取它们的极大值或均值来代表视频的特征的方式,更全面更准确的进行分类;
2、本发明通过对视频中音频的分析,利用ASR(自动语音识别)技术将音频快速转换成文字,再通过NLP(自然语言处理)对文字内容进行修饰,帮用户快速生成字幕,并给字幕加以相应的特效,让字幕更生动灵活;
3、本发明通过将视频分类,匹配相对应分类的视频特效,自动生成具有生动过渡效果、唯美的滤镜效果、配以背景音乐。保证了视频内容的质量,节约了视频创作者前期制作视频的时间成本,解决了普通用户制作视频时思路匮乏的问题;
4、本发明通过一种高效率视频编码帧内快速算法可以快速生成以上特效视频文件,与普通算法相比,在保持质量几乎不变的前提下,提高了30%左右的编码速度。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为一种基于人工智能的视频合成方法流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1
本发明基于人工智能算法,将图片或者视频按风格分类后,添加配乐、文字、转场、特效,合成具有独特风格的视频。
本发明通过多个算法(比如Soft Bag-of-words,Fisher Vectors,NetVLAD,GRUand LSTM)相结合,共同组成视频特征。用一种非线性网络单元Context Gating,用于对特征相关性建模。克服了现有技术中对视频无法精准分类的问题;
通过对NLP算法针对短视频场景的优化,提高短视频中语音转文字的效率和准确度;
通过改进视频编码帧算法,在编码单元(CU)决策层上,应用一种基于绝对误差和的CU分割前终止方案,同时基于统计的分析,依照各候选模式成为最优预测模式的概率,进一步排除低概率的候选模式。与现行技术比较,在保证视频质量几乎不变得前提下,节省了30%左右的编码时间。
本发明提供的一种基于人工智能的视频美化系统包括:
图片或视频风格分类模块,包括视频分类和图片分类两个方向;所述视频分类方向,是基于视频分类算法(Video Classification)按照视频的语义内容如人类行为和复杂事件等,将视频片段自动分类至单个或多个类别,所述图片分类方向,是基于CNN图像分类网络甄别图片所属场景,将图片打上分类标签。对图片分类的目的是,我们可以将图片转化为视频处理。
语音转文字模块,该模块基于自然语言处理(NLP)算法,首先将用户选中视频中的语音内容通过HMM算法转化成一段文字,通过NLP算法对这段文字进行包括分词、词性标注、实体识别等步骤的语法分析,完成断句。之后将文字以字幕的形式添加到选中视频中,并根据分析出的语义加以相匹配的内置特效。让文字更鲜明生动。
标签匹配模块,基于图片或视频风格分类模块产生的分类标签,通过服务器筛选或内置分类匹配,自动推荐给用户匹配度最高的配乐、转场、特效等。
视频合成模块,基于以上获得到的配乐、转场、特效以及字幕,将其添加到选中视频或图片中,自动合成新的视频。其中配乐为符合分类风格的音乐,转场与特效按相应的分类标签,添加到合成视频中,并导出到本地形成新的视频。
本发明提供的一种基于人工智能的视频美化方法包括:如图1所示,
图片或视频风格分类步骤,包括视频分类和图片分类两个方向;所述视频分类方向,是基于视频分类算法(Video Classification)按照视频的语义内容如人类行为和复杂事件等,将视频片段自动分类至单个或多个类别,所述图片分类方向,是基于CNN图像分类网络甄别图片所属场景,将图片打上分类标签。对图片分类的目的是,我们可以将图片转化为视频处理。
语音转文字步骤,该模块基于自然语言处理(NLP)算法,首先将用户选中视频中的语音内容通过HMM算法转化成一段文字,通过NLP算法对这段文字进行包括分词、词性标注、实体识别等步骤的语法分析,完成断句。之后将文字以字幕的形式添加到选中视频中,并根据分析出的语义加以相匹配的内置特效。让文字更鲜明生动。
标签匹配步骤,基于图片或视频风格分类模块产生的分类标签,通过服务器筛选或内置分类匹配,自动推荐给用户匹配度最高的配乐、转场、特效等。
视频合成步骤,基于以上获得到的配乐、转场、特效以及字幕,将其添加到选中视频或图片中,自动合成新的视频。其中配乐为符合分类风格的音乐,转场与特效按相应的分类标签,添加到合成视频中,并导出到本地形成新的视频。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (9)

1.一种基于人工智能的视频合成系统,其特征在于,包括:
模块M1:对选择的图片或视频按照预设要求进行分类,并标注分类标签;
模块M2:将选择视频中的语音内容转换成文字并通过语法分析进行断句,将断句后的文字以字幕的形式添加到选择的视频中,并根据分析出的语义加以相匹配的内置特效;
模块M3:基于图片或视频的分类标签,通过服务器筛选或内置分类匹配,推荐给用户匹配度最高的配乐、转场和特效;
模块M4:将获得的配乐、转场、特效以及字幕添加到选择的视频或图片中合成新的视频。
2.根据权利要求1所述的基于人工智能的视频合成系统,其特征在于,所述步骤M1包括:
模块M1.1:基于视频分类算法按照视频的语义内容将视频片段分类至单个或多个类别,并将视频标注分类标签;
模块M1.2:基于CNN图像分类网络甄别图片所属场景,将图片标注分类标签。
3.根据权利要求1所述的基于人工智能的视频合成系统,其特征在于,所述模块M2包括:
模块M2.1:将选中的视频中的语音内容通过HMM算法转化成一段文字;
模块M2.2:通过NLP算法对文字进行语法分析,完成断句,得到处理后的文字;
模块M2.3:将处理后的文字以字幕的形式添加到选中视频中,并根据分析出的语义加以相匹配的内置特效。
4.根据权利要求1所述的基于人工智能的视频合成系统,其特征在于,所述模块M2.2中语法分析包括:分词、词性标注和实体识别。
5.一种基于人工智能的视频合成方法,其特征在于,包括:
步骤M1:对选择的图片或视频按照预设要求进行分类,并标注分类标签;
步骤M2:将选择视频中的语音内容转换成文字并通过语法分析进行断句,将断句后的文字以字幕的形式添加到选择的视频中,并根据分析出的语义加以相匹配的内置特效;
步骤M3:基于图片或视频的分类标签,通过服务器筛选或内置分类匹配,推荐给用户匹配度最高的配乐、转场和特效;
步骤M4:将获得的配乐、转场、特效以及字幕添加到选择的视频或图片中合成新的视频。
6.根据权利要求5所述的基于人工智能的视频合成方法,其特征在于,所述步骤M1包括:
步骤M1.1:基于视频分类算法按照视频的语义内容将视频片段分类至单个或多个类别,并将视频标注分类标签;
步骤M1.2:基于CNN图像分类网络甄别图片所属场景,将图片标注分类标签。
7.根据权利要求5所述的基于人工智能的视频合成方法,其特征在于,所述步骤M2包括:
步骤M2.1:将选中的视频中的语音内容通过HMM算法转化成一段文字;
步骤M2.2:通过NLP算法对文字进行语法分析,完成断句,得到处理后的文字;
步骤M2.3:将处理后的文字以字幕的形式添加到选中视频中,并根据分析出的语义加以相匹配的内置特效。
8.根据权利要求5所述的基于人工智能的视频合成方法,其特征在于,所述步骤M2.2中语法分析包括:分词、词性标注和实体识别。
9.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202110149658.9A 2021-02-03 2021-02-03 一种基于人工智能的视频合成系统、方法及介质 Pending CN112800263A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110149658.9A CN112800263A (zh) 2021-02-03 2021-02-03 一种基于人工智能的视频合成系统、方法及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110149658.9A CN112800263A (zh) 2021-02-03 2021-02-03 一种基于人工智能的视频合成系统、方法及介质

Publications (1)

Publication Number Publication Date
CN112800263A true CN112800263A (zh) 2021-05-14

Family

ID=75813957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110149658.9A Pending CN112800263A (zh) 2021-02-03 2021-02-03 一种基于人工智能的视频合成系统、方法及介质

Country Status (1)

Country Link
CN (1) CN112800263A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569088A (zh) * 2021-09-27 2021-10-29 腾讯科技(深圳)有限公司 一种音乐推荐方法、装置以及可读存储介质
CN114173067A (zh) * 2021-12-21 2022-03-11 科大讯飞股份有限公司 一种视频生成方法、装置、设备及存储介质
CN115134630A (zh) * 2022-06-02 2022-09-30 江苏网博视界网络科技股份有限公司 一种基于人工智能的视频自动合成方法及其应用

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107172485A (zh) * 2017-04-25 2017-09-15 北京百度网讯科技有限公司 一种用于生成短视频的方法与装置
CN110415706A (zh) * 2019-08-08 2019-11-05 常州市小先信息技术有限公司 一种在视频通话中实时叠加字幕的技术及其应用
CN110704682A (zh) * 2019-09-26 2020-01-17 新华智云科技有限公司 一种基于视频多维特征智能推荐背景音乐的方法及系统
CN110781328A (zh) * 2019-09-09 2020-02-11 天脉聚源(杭州)传媒科技有限公司 基于语音识别的视频生成方法、系统、装置和存储介质
CN111541936A (zh) * 2020-04-02 2020-08-14 腾讯科技(深圳)有限公司 视频及图像处理方法、装置、电子设备、存储介质
CN111935537A (zh) * 2020-06-30 2020-11-13 百度在线网络技术(北京)有限公司 音乐短片视频生成方法、装置、电子设备和存储介质
CN111949805A (zh) * 2020-09-23 2020-11-17 深圳前海知行科技有限公司 基于人工智能的字幕生成方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107172485A (zh) * 2017-04-25 2017-09-15 北京百度网讯科技有限公司 一种用于生成短视频的方法与装置
CN110415706A (zh) * 2019-08-08 2019-11-05 常州市小先信息技术有限公司 一种在视频通话中实时叠加字幕的技术及其应用
CN110781328A (zh) * 2019-09-09 2020-02-11 天脉聚源(杭州)传媒科技有限公司 基于语音识别的视频生成方法、系统、装置和存储介质
CN110704682A (zh) * 2019-09-26 2020-01-17 新华智云科技有限公司 一种基于视频多维特征智能推荐背景音乐的方法及系统
CN111541936A (zh) * 2020-04-02 2020-08-14 腾讯科技(深圳)有限公司 视频及图像处理方法、装置、电子设备、存储介质
CN111935537A (zh) * 2020-06-30 2020-11-13 百度在线网络技术(北京)有限公司 音乐短片视频生成方法、装置、电子设备和存储介质
CN111949805A (zh) * 2020-09-23 2020-11-17 深圳前海知行科技有限公司 基于人工智能的字幕生成方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
娄岩: "《智能医学概论》", 31 October 2018 *
蒋建国: "《计算机技术与应用进展》", 31 July 2008 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569088A (zh) * 2021-09-27 2021-10-29 腾讯科技(深圳)有限公司 一种音乐推荐方法、装置以及可读存储介质
CN114173067A (zh) * 2021-12-21 2022-03-11 科大讯飞股份有限公司 一种视频生成方法、装置、设备及存储介质
CN115134630A (zh) * 2022-06-02 2022-09-30 江苏网博视界网络科技股份有限公司 一种基于人工智能的视频自动合成方法及其应用

Similar Documents

Publication Publication Date Title
CN112562721B (zh) 一种视频翻译方法、系统、装置及存储介质
CN108986186B (zh) 文字转化视频的方法和系统
CN112800263A (zh) 一种基于人工智能的视频合成系统、方法及介质
WO2023197979A1 (zh) 一种数据处理方法、装置、计算机设备及存储介质
Stappen et al. Muse 2020 challenge and workshop: Multimodal sentiment analysis, emotion-target engagement and trustworthiness detection in real-life media: Emotional car reviews in-the-wild
CN114513706B (zh) 视频生成方法和装置、计算机设备、存储介质
CN107122393B (zh) 电子相册生成方法以及装置
CN116958342A (zh) 虚拟形象的动作生成方法、动作库的构建方法及装置
CN116320607A (zh) 智能视频生成方法、装置、设备及介质
CN118283367A (zh) 一种可定制故事剧情的对话式视频剪辑方法、装置及设备
CN116074574A (zh) 一种视频处理方法、装置、设备及存储介质
EP4345814A1 (en) Video-generation system
CN113301268A (zh) 基于风格迁移与语音识别的视频自动生成连环画的方法
CN117319765A (zh) 视频处理方法、装置、计算设备及计算机存储介质
CN117809680A (zh) 一种服务器、显示设备及数字人交互方法
Stappen et al. MuSe 2020--The First International Multimodal Sentiment Analysis in Real-life Media Challenge and Workshop
KR20100102515A (ko) 디지털 액터의 감성을 자동으로 표현하는 방법 및 시스템
CN114328990B (zh) 图像完整性识别方法、装置、计算机设备和存储介质
Zlatintsi et al. Quality evaluation of computational models for movie summarization
Kumar et al. Face Expression and Emotion Detection by using Machine learning and Music Recommendation
CN116647730A (zh) 一种用于将视频转化为描述性音频的方法及系统
Polyzos Critical Examination of the Use of Artificial Intelligence as a Creative Tool in Editing and its Potential as a Creator in its own
CN118338072A (zh) 基于大模型的视频剪辑方法、装置、设备、介质及产品
CN117612255A (zh) 一种唇语识别方法及装置
CN117880443A (zh) 一种基于脚本的多模态特征匹配视频剪辑方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210514

RJ01 Rejection of invention patent application after publication