CN109218629A - 视频生成方法、存储介质和装置 - Google Patents
视频生成方法、存储介质和装置 Download PDFInfo
- Publication number
- CN109218629A CN109218629A CN201811071707.6A CN201811071707A CN109218629A CN 109218629 A CN109218629 A CN 109218629A CN 201811071707 A CN201811071707 A CN 201811071707A CN 109218629 A CN109218629 A CN 109218629A
- Authority
- CN
- China
- Prior art keywords
- picture
- analyzed
- video
- text information
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000004519 manufacturing process Methods 0.000 claims abstract description 23
- 239000000284 extract Substances 0.000 claims abstract description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 description 10
- 230000003068 static effect Effects 0.000 description 4
- 208000001491 myopia Diseases 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供一种视频生成方法、存储介质和装置,该方法包括:步骤11:选定至少一张待分析图片,确定待分析图片的先后次序;步骤13:识别并提取每张待分析图片中的文字信息,或输入每张待分析图片的文字信息,分别执行步骤14和步骤15;步骤14:将每张待分析图片的文字信息转换为音频数据;步骤15:将待分析图片及其文字信息输入生成式对抗网络,生成每张待分析图片对应的子视频;步骤17:根据待分析图片的次序,将每张待分析图片的音频数据和子视频合成为所有待分析图片对应的视频。基于本发明的方法,可以基于单张或多张图片生成其对应的视频,提升用户体验,降低视频制作成本。
Description
技术领域
本发明涉及计算机领域,特别涉及一种视频生成方法、存储介质和装置。
背景技术
相比文字、语音和图片,视频是一种更好的呈现方式,但视频制作依赖人力,成本较高。现存的大量的静态图片,例如绘本,都需要更佳的视频呈现方法。如何将静态图片自动生成视频,是目前急需解决的技术问题。
发明内容
有鉴于此,本发明提供一种视频生成方法、存储介质和装置,以解决如何基于图片自动生成视频的问题。
本发明提供一种视频生成方法,该方法包括:
步骤11:选定至少一张待分析图片,确定待分析图片的先后次序;
步骤13:识别并提取每张待分析图片中的文字信息,或输入每张待分析图片的文字信息,分别执行步骤14和步骤15;
步骤14:将每张待分析图片的文字信息转换为音频数据;
步骤15:将待分析图片及其文字信息输入生成式对抗网络,生成每张待分析图片对应的子视频;
步骤17:根据待分析图片的次序,将每张待分析图片的音频数据和子视频合成为所有待分析图片对应的视频。
本发明还提供一种非瞬时计算机可读存储介质,非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行本发明上述的视频生成方法中的步骤。
本发明还提供一种视频生成装置,包括处理器和上述的非瞬时计算机可读存储介质。
本发明使用对抗式生成网络将静态图片生成连续性的视频,本发明设计生成式对抗网络的输入不仅包括图片,还包括该图片相关的文字信息,使生成式对抗网络可以更好地输出该图片相关的子视频,进而确保本发明的视频生成方法可以产生真正的视频。
附图说明
图1为本发明视频生成方法的流程图;
图2为本发明视频生成装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,本发明的视频生成方法包括:
步骤11:选定至少一张待分析图片,确定待分析图片的先后次序。
其中,确定待分析图片的先后次序可以自动依据图片的生成时间确定,如果图片是绘本,还可以自动依据页码确定先后次序,或用户人工确定图片的先后次序。
步骤13:识别并提取每张待分析图片中的文字信息,或输入每张待分析图片的文字信息,分别执行步骤14和步骤15。
识别文字信息可以利用光学字符识别技术,例如利用现有的CNN+BLSTM+CTC组合模型识别并提取每张待分析图片中的文字信息,其中CNN为卷积神经网络,BLSTM为双向长短时记忆循环神经网络,CTC为时序分类算法。绘本的图片上一般都会附带相关的文字信息。
当图片上没有附带文字信息时,例如照片,则用户可以输入相关的文字作为该图片的文字信息。
步骤14:将每张待分析图片的文字信息转换为音频数据。
步骤15:将待分析图片及其文字信息输入生成式对抗网络,生成每张待分析图片对应的子视频。
现有的生成式对抗网络的输入一般为图片,本发明设计生成式对抗网络的输入不仅包括图片,还包括该图片相关的文字信息,使生成式对抗网络可以更好地输出该图片相关的子视频。
如果待分析图片包含多张图片,可以每次将一张图片及其文字信息输入生成式对抗网络,生成式对抗网络输出该图片相关的子视频,或者一次将所有图片及其文字信息输入生成式对抗网络,生成式对抗网络输出每张图片相关的子视频。一次将所有图片输入生成式对抗网络,有利于生成式对抗网络更好地理解所有图片综合表达的内容。
本发明生成式对抗网络训练方法包括:
步骤201:样本数据准备,从互联网下载视频,将同一场景的视频分割成独立的n个子部分,每个子部分的时长为3-4秒,为每个子部分添加的描述文字;
步骤202:取每个子视频的第一帧备用,通过2D卷积获取该第一帧的特征图向量;将子视频的描述文字转换成向量;并和图像特征向量融合,作为生成式对抗网络的生成器的输入;
步骤203:由生成器预测第一帧后续的数十帧,产生3~4秒的短视频(标准动画的帧率为24fps);
步骤204:生成器产生的短视频作为生成式对抗网络判别器的输入,判别器通过比较子视频(真视频)与短视频(假视频)的偏差来校对生成式对抗网络内的参数。
步骤17:根据待分析图片的次序,将每张待分析图片的音频数据和子视频合成为所有待分析图片对应的视频。
可选地,在步骤14和步骤15之后,以及步骤17之前还包括:
步骤16:比较每张待分析图片的音频数据的时长与其子视频的时长是否相同,如果不同,通过调整待分析图片的子视频的时长和/或调整其音频数据的时长使两者的时长相同。
当每张待分析图片的音频数据的时长与其子视频的时长不同时,可使用ffmpeg调节子视频的播放速度以调整视频时长,或调节音频的比特率来调节音频的时长。考虑到调节比特率会影响音频的播放效果,因此一般采用调节视频时长来匹配音频时长。
在图1中,步骤14的一种实现方式为:
步骤141:通过语音合成TTS(Text To Speech)技术将每张待分析图片的文字信息转换为相应的音频数据。
在图1中,步骤14的另一种实现方式为:
步骤141-1:将每张待分析图片及其文字信息输入CNN+LSTM模型,或将每张待分析图片及其文字信息的关键字输入CNN+LSTM模型,输出每张待分析图片的文字增强描述;
步骤141-2:通过语音合成TTS技术将每张待分析图片的文字增强描述转换为相应的音频数据。
上述CNN+LSTM模型中CNN用于特征提取可采用现有模型。
其中LSTM的训练方法如下:
步骤301:将样本图片输入已经训练好的开源物体检测模型(SSD,YOLO等),开源物体检测模型输出样本图片的多标签属性表;
根据使用场景不同,比如针对动画绘本,可以采集对应的数据集,通过迁移学习微调网络,使得识别效果更出色。
步骤302:识别样本图片所包含的文字信息,并对其进行分词后,匹配上述多标签属性表,如果多标签属性表中的任一标签出现在文字信息中,则增加该标签在多标签属性表中的属性值;比如:文字信息中包含了“鸟”,则将属性表中的“鸟”对应的属性(或称为概率)从0修改为1.0;
步骤303:将多标签属性表输入长短期记忆网络LSTM,LSTM输出该标签属性表的文字增强描述;
步骤304:通过比较文字增强描述和样本图片对应的样本描述之间的差异来训练LSTM。
进一步地,步骤17还包括:将每张图片的文字增强描述以字幕的形式添加到所有待分析图片对应的视频中。
用户在观看合成视频的时候,可以选择是否显示字幕。
本发明的方法可用于儿童绘本,基于绘本图片,将绘本故事转换为视频,用于儿童辅助教育。
本发明的方法还可以用于动画行业,基于少量的画面例如动漫,生成动画,减少动画制作的人力成本。
本发明的方法还用于手机相册的“故事模块”,由用户自己选择,或者根据用户拍摄的时间、地点以及场景的关联性,手动或自动从用户的相册中选取多张图片,然后基于选择的图片生成真实的视频,让“故事模块”可以真正的讲故事,更具趣味性。
本发明的方法还可用于制作社交网站或新闻行业的短视频素材,基于拍摄的原始照片素材,快速生成一段新闻视频。
本发明旨在提供一种新颖的视频生成方式,通过现有的单张或多张静态图片生成其对应的视频,有效提高了信息呈现的可读性,提升用户体验,并减少人力制作视频的成本。
本发明还提供一种非瞬时计算机可读存储介质,非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行本发明上述的视频生成方法中的步骤。
本发明还提供一种视频生成装置,包括处理器和上述的非瞬时计算机可读存储介质。
如图2所示,本发明的视频生成装置包括:
图片输入模块:选定至少一张待分析图片,确定待分析图片的先后次序;
文字信息模块:识别并提取每张待分析图片中的文字信息,或输入每张待分析图片的文字信息,分别执行音频生成模块和音频生成模块;
音频生成模块:将每张待分析图片的文字信息转换为音频数据;
视频生成模块:将待分析图片及其文字信息输入生成式对抗网络,生成每张待分析图片对应的子视频;
音视频合成模块:根据待分析图片的次序,将每张待分析图片的音频数据和子视频合成为待分析图片对应的视频。
可选地,在音频生成模块和视频生成模块之后,以及音视频合成模块之前还包括:
匹配调整模块:比较每张待分析图片的音频数据的时长与其子视频的时长是否相同,如果不同,通过调整待分析图片的子视频的时长和/或调整其音频数据的时长使两者的时长相同。
可选地,在文字信息模块中,识别并提取每张待分析图片中的文字信息包括:基于CNN+BLSTM+CTC模型识别并提取每张待分析图片中的文字信息。
可选地,音频生成模块包括:通过语音合成TTS技术将每张待分析图片的文字信息转换为相应的音频数据。
进一步地,音频生成模块包括:
文字增强模块:将每张待分析图片及其文字信息输入CNN+LSTM模型,或将每张待分析图片及其文字信息的关键字输入CNN+LSTM模型,输出每张待分析图片的文字增强描述;
音频转换模块:通过语音合成TTS技术将每张待分析图片的文字增强描述转换为相应的音频数据。
可选地,音视频合成模块还包括:将每张图片的文字增强描述以字幕的形式添加到待分析图片对应的视频中。
需要说明的是,本发明的视频生成装置的实施例,与视频生成方法的实施例原理相同,相关之处可以互相参照。
以上所述仅为本发明的较佳实施例而已,并不用以限定本发明的包含范围,凡在本发明技术方案的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种视频生成方法,其特征在于,所述方法包括:
步骤11:选定至少一张待分析图片,确定所述待分析图片的先后次序;
步骤13:识别并提取每张待分析图片中的文字信息,或输入每张待分析图片的文字信息,分别执行步骤14和步骤15;
步骤14:将每张待分析图片的文字信息转换为音频数据;
步骤15:将待分析图片及其文字信息输入生成式对抗网络,生成每张待分析图片对应的子视频;
步骤17:根据所述待分析图片的次序,将每张待分析图片的音频数据和子视频合成为所有待分析图片对应的视频。
2.根据权利要求1所述的方法,其特征在于,在所述步骤14和步骤15之后,以及所述步骤17之前还包括:
步骤16:比较每张待分析图片的音频数据的时长与其子视频的时长是否相同,如果不同,通过调整所述待分析图片的子视频的时长和/或调整其音频数据的时长使两者的时长相同。
3.根据权利要求1所述的方法,其特征在于,步骤13中,所述识别并提取每张待分析图片中的文字信息包括:
基于CNN+BLSTM+CTC模型识别并提取每张待分析图片中的文字信息。
4.根据权利要求1所述的方法,其特征在于,所述步骤14包括:
步骤141:通过语音合成TTS技术将每张待分析图片的文字信息转换为相应的音频数据。
5.根据权利要求1所述的方法,其特征在于,所述步骤14包括:
步骤141-1:将每张待分析图片及其文字信息输入CNN+LSTM模型,或将每张待分析图片及其文字信息的关键字输入CNN+LSTM模型,输出每张待分析图片的文字增强描述;
步骤141-2:通过语音合成TTS技术将每张待分析图片的文字增强描述转换为相应的音频数据。
6.根据权利要求5所述的方法,其特征在于,所述步骤17包括:将每张图片的文字增强描述以字幕的形式添加到所有待分析图片对应的视频中。
7.一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,其特征在于,所述指令在由处理器执行时使得所述处理器执行如权利要求1至6中任一所述的视频生成方法中的步骤。
8.一种视频生成装置,其特征在于,包括处理器和如权利要求7所述的非瞬时计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811071707.6A CN109218629B (zh) | 2018-09-14 | 2018-09-14 | 视频生成方法、存储介质和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811071707.6A CN109218629B (zh) | 2018-09-14 | 2018-09-14 | 视频生成方法、存储介质和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109218629A true CN109218629A (zh) | 2019-01-15 |
CN109218629B CN109218629B (zh) | 2021-02-05 |
Family
ID=64983902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811071707.6A Active CN109218629B (zh) | 2018-09-14 | 2018-09-14 | 视频生成方法、存储介质和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109218629B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800730A (zh) * | 2019-01-30 | 2019-05-24 | 北京字节跳动网络技术有限公司 | 用于生成头像生成模型的方法和装置 |
CN110164412A (zh) * | 2019-04-26 | 2019-08-23 | 吉林大学珠海学院 | 一种基于lstm的音乐自动合成方法及系统 |
CN110287848A (zh) * | 2019-06-19 | 2019-09-27 | 北京卡路里信息技术有限公司 | 视频的生成方法及装置 |
CN111343512A (zh) * | 2020-02-04 | 2020-06-26 | 聚好看科技股份有限公司 | 信息获取方法、显示设备及服务器 |
CN111538851A (zh) * | 2020-04-16 | 2020-08-14 | 北京捷通华声科技股份有限公司 | 自动生成演示视频的方法、系统、设备及存储介质 |
CN112037801A (zh) * | 2019-05-15 | 2020-12-04 | 北京字节跳动网络技术有限公司 | 用于生成音频的方法和装置 |
CN112164130A (zh) * | 2020-09-07 | 2021-01-01 | 北京电影学院 | 基于深度对抗网络的视频-动画风格迁移方法 |
CN113207044A (zh) * | 2021-04-29 | 2021-08-03 | 北京有竹居网络技术有限公司 | 视频处理方法、装置、电子设备和存储介质 |
CN113938745A (zh) * | 2020-07-14 | 2022-01-14 | Tcl科技集团股份有限公司 | 一种视频生成方法、终端及存储介质 |
WO2022116487A1 (zh) * | 2020-12-01 | 2022-06-09 | 平安科技(深圳)有限公司 | 基于生成对抗网络的语音处理方法、装置、设备及介质 |
CN117173646A (zh) * | 2023-08-17 | 2023-12-05 | 金陵科技学院 | 高速公路障碍物检测方法、系统、电子设备和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130086277A1 (en) * | 2003-02-05 | 2013-04-04 | Silver Screen Tele-Reality, Inc. | System, method, and computer readable medium for creating a video clip |
CN103650002A (zh) * | 2011-05-06 | 2014-03-19 | 西尔股份有限公司 | 基于文本的视频生成 |
CN104520923A (zh) * | 2012-08-10 | 2015-04-15 | 卡西欧计算机株式会社 | 内容再现控制设备、内容再现控制方法和程序 |
CN105262959A (zh) * | 2015-10-16 | 2016-01-20 | 北京易视通科技有限公司 | 一种基于“互联网+”模式的微视频生成的系统和方法 |
US20180101504A1 (en) * | 2016-10-07 | 2018-04-12 | Joseph DiTomaso | System and method for transposing web content |
US20180109835A1 (en) * | 2016-10-14 | 2018-04-19 | Semiconductor Energy Laboratory Co., Ltd. | Semiconductor device, broadcasting system, and electronic device |
CN107943839A (zh) * | 2017-10-30 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 基于图片和文字生成视频的方法、装置、设备及存储介质 |
CN107968962A (zh) * | 2017-12-12 | 2018-04-27 | 华中科技大学 | 一种基于深度学习的两帧不相邻图像的视频生成方法 |
CN108460104A (zh) * | 2018-02-06 | 2018-08-28 | 北京奇虎科技有限公司 | 一种实现内容定制的方法和装置 |
CN108470036A (zh) * | 2018-02-06 | 2018-08-31 | 北京奇虎科技有限公司 | 一种基于故事文本生成视频的方法和装置 |
-
2018
- 2018-09-14 CN CN201811071707.6A patent/CN109218629B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130086277A1 (en) * | 2003-02-05 | 2013-04-04 | Silver Screen Tele-Reality, Inc. | System, method, and computer readable medium for creating a video clip |
CN103650002A (zh) * | 2011-05-06 | 2014-03-19 | 西尔股份有限公司 | 基于文本的视频生成 |
CN104520923A (zh) * | 2012-08-10 | 2015-04-15 | 卡西欧计算机株式会社 | 内容再现控制设备、内容再现控制方法和程序 |
CN105262959A (zh) * | 2015-10-16 | 2016-01-20 | 北京易视通科技有限公司 | 一种基于“互联网+”模式的微视频生成的系统和方法 |
US20180101504A1 (en) * | 2016-10-07 | 2018-04-12 | Joseph DiTomaso | System and method for transposing web content |
US20180109835A1 (en) * | 2016-10-14 | 2018-04-19 | Semiconductor Energy Laboratory Co., Ltd. | Semiconductor device, broadcasting system, and electronic device |
CN107943839A (zh) * | 2017-10-30 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 基于图片和文字生成视频的方法、装置、设备及存储介质 |
CN107968962A (zh) * | 2017-12-12 | 2018-04-27 | 华中科技大学 | 一种基于深度学习的两帧不相邻图像的视频生成方法 |
CN108460104A (zh) * | 2018-02-06 | 2018-08-28 | 北京奇虎科技有限公司 | 一种实现内容定制的方法和装置 |
CN108470036A (zh) * | 2018-02-06 | 2018-08-31 | 北京奇虎科技有限公司 | 一种基于故事文本生成视频的方法和装置 |
Non-Patent Citations (3)
Title |
---|
C.VONDRICK ET.AL: "Generating videos with Scene Dynamics", 《29TH CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 * |
DONGKUN LEE ET.AL: "Text to Game Characterization:A Starting Point for Generative Adversarial Video Composition", 《18 IEEE INTERNATIONAL CONFERENCE ON BIG DATA AND SMART COMPUTING》 * |
S.TULYAKOV ET.AL: "MoCoGAN:Decomposing Motion and Content for Video Generation", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800730A (zh) * | 2019-01-30 | 2019-05-24 | 北京字节跳动网络技术有限公司 | 用于生成头像生成模型的方法和装置 |
CN110164412A (zh) * | 2019-04-26 | 2019-08-23 | 吉林大学珠海学院 | 一种基于lstm的音乐自动合成方法及系统 |
CN112037801A (zh) * | 2019-05-15 | 2020-12-04 | 北京字节跳动网络技术有限公司 | 用于生成音频的方法和装置 |
CN112037801B (zh) * | 2019-05-15 | 2022-04-29 | 北京字节跳动网络技术有限公司 | 用于生成音频的方法和装置 |
CN110287848A (zh) * | 2019-06-19 | 2019-09-27 | 北京卡路里信息技术有限公司 | 视频的生成方法及装置 |
CN111343512A (zh) * | 2020-02-04 | 2020-06-26 | 聚好看科技股份有限公司 | 信息获取方法、显示设备及服务器 |
CN111538851A (zh) * | 2020-04-16 | 2020-08-14 | 北京捷通华声科技股份有限公司 | 自动生成演示视频的方法、系统、设备及存储介质 |
CN111538851B (zh) * | 2020-04-16 | 2023-09-12 | 北京捷通华声科技股份有限公司 | 自动生成演示视频的方法、系统、设备及存储介质 |
CN113938745A (zh) * | 2020-07-14 | 2022-01-14 | Tcl科技集团股份有限公司 | 一种视频生成方法、终端及存储介质 |
CN112164130A (zh) * | 2020-09-07 | 2021-01-01 | 北京电影学院 | 基于深度对抗网络的视频-动画风格迁移方法 |
CN112164130B (zh) * | 2020-09-07 | 2024-04-23 | 北京电影学院 | 基于深度对抗网络的视频-动画风格迁移方法 |
WO2022116487A1 (zh) * | 2020-12-01 | 2022-06-09 | 平安科技(深圳)有限公司 | 基于生成对抗网络的语音处理方法、装置、设备及介质 |
CN113207044A (zh) * | 2021-04-29 | 2021-08-03 | 北京有竹居网络技术有限公司 | 视频处理方法、装置、电子设备和存储介质 |
CN117173646A (zh) * | 2023-08-17 | 2023-12-05 | 金陵科技学院 | 高速公路障碍物检测方法、系统、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109218629B (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109218629A (zh) | 视频生成方法、存储介质和装置 | |
US20210256051A1 (en) | Theme classification method based on multimodality, device, and storage medium | |
CN109688463B (zh) | 一种剪辑视频生成方法、装置、终端设备及存储介质 | |
CN103488764B (zh) | 个性化视频内容推荐方法和系统 | |
US10299008B1 (en) | Smart closed caption positioning system for video content | |
CN110807126B (zh) | 文章转换成视频的方法、装置、存储介质及设备 | |
CN110446063B (zh) | 视频封面的生成方法、装置及电子设备 | |
CN109803180B (zh) | 视频预览图生成方法、装置、计算机设备及存储介质 | |
CN104735468B (zh) | 一种基于语义分析将图像合成新视频的方法及系统 | |
CN107657056B (zh) | 基于人工智能展示评论信息的方法和装置 | |
US20220392224A1 (en) | Data processing method and apparatus, device, and readable storage medium | |
CN111556332B (zh) | 直播方法、电子设备和可读存储介质 | |
CN109660865B (zh) | 为视频自动打视频标签的方法及装置、介质和电子设备 | |
CN109408672B (zh) | 一种文章生成方法、装置、服务器及存储介质 | |
CN113035199B (zh) | 音频处理方法、装置、设备及可读存储介质 | |
WO2022089170A1 (zh) | 字幕区域识别方法、装置、设备及存储介质 | |
CN112188306B (zh) | 一种标签生成方法、装置、设备及存储介质 | |
CN111160134A (zh) | 一种以人为主体的视频景别分析方法和装置 | |
WO2023045635A1 (zh) | 多媒体文件的字幕处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN108921032A (zh) | 一种新的基于深度学习模型的视频语义提取方法 | |
CN113992973B (zh) | 视频摘要生成方法、装置、电子设备和存储介质 | |
CN117746143A (zh) | 基于aigc的图像描述文本的生成方法及装置、存储介质 | |
US20230326369A1 (en) | Method and apparatus for generating sign language video, computer device, and storage medium | |
CN116977992A (zh) | 文本信息识别方法、装置、计算机设备和存储介质 | |
CN116524906A (zh) | 用于语音识别的训练数据生成方法、系统和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |