CN116977903A - 一种通过文本智能生成短视频的aigc方法 - Google Patents
一种通过文本智能生成短视频的aigc方法 Download PDFInfo
- Publication number
- CN116977903A CN116977903A CN202311020319.6A CN202311020319A CN116977903A CN 116977903 A CN116977903 A CN 116977903A CN 202311020319 A CN202311020319 A CN 202311020319A CN 116977903 A CN116977903 A CN 116977903A
- Authority
- CN
- China
- Prior art keywords
- text
- samples
- features
- vector
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 60
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 230000008451 emotion Effects 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 2
- 230000003068 static effect Effects 0.000 claims description 2
- 238000004817 gas chromatography Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 3
- 238000004088 simulation Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013507 mapping Methods 0.000 abstract description 2
- 230000009471 action Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种通过文本智能生成短视频的AI GC方法,涉及人工智能技术领域。该智能生成短视频的AI GC方法,具体包括以下步骤:步骤1.文本解析获取,步骤2.向量特征关联。通过将给定的文本内容进行最佳相似文本的解析和映射,提供最佳相似语义解析文本和三个相似文本作为参考,从而缩小生成文本和视频内容的语义差异;在文本分析上增加了字、词和字段的情感分析,并进行整句关联模拟,使其更加贴近文本本身情绪内容;同时将给定的文本数据自动生成无音效、模板的短视频,大幅度减少了第三方人工干预,提高了短视频生成的效率,且促使生成的短视频更加灵活和贴近文本本身,保证了生成短视频的质量。
Description
技术领域
本发明涉及人工智能技术领域,具体为一种通过文本智能生成短视频的AI GC方法。
背景技术
随着智能手机和互联网的普及,大量用户通过社交媒体(如微博、抖音、快手等)以文本、短视频等多种方式来发表自己的观点,海量社交媒体数据的形态不再局限于单一的文本模态,更多的是融合了文本、图像、短视频的多模态数据。
随着深度学习技术的发展,基于序列学习的编码器-解码器视频描述方法被不断提出。编码器利用卷积神经网络提取视频特征用于表征视频内容信息,解码器采用长短时记忆神经网络、门控循环单元解码视频特征生成描述视频内容的自然语句。为了捕捉视频中的时序信息,相关工作利用注意力机制、LSTM或分层LSTM处理视频帧特征,其中,相关工作人员提出一种层次循环神经编码器,其将视频划分为多个短视频,将短视频输入低层LSTM得到每个短视频的特征表示,再将短视频特征表示输入高层LSTM用以捕获更长视频时序信息,高层LSTM最后一时间步的隐藏向量作为整个视频的特征表示;另外,提出分层时序模型,通过探索全局和局部的时序结构更好的识别细粒度的目标和动作;为了更好地捕捉长期依赖,研究人员提出基于注意力机制的密集连接长短时记忆网络,将所有先前时刻的隐藏单元连接到当前单元,这使得当前状态的更新直接与先前所有状态相关。
然而,由于文本和视频属于两种不同结构的数据模态,难以将文本语义内容较为准确的转换为视频内容,生成的视频内容存在语义鸿沟。同时传统的视频生成并未将文本作为潜在向量,大多直接从噪声中生成视频,而不是从语义文本中生成视频,导致视频偏差较大。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种通过文本智能生成短视频的AI GC方法,解决了传统方法中难以将文本语义内容较为准确的转换为视频内容,生成的视频内容存在语义鸿沟的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种通过文本智能生成短视频的AI GC方法,具体包括以下步骤:
步骤1.文本解析获取
获取用于制作短视频的文本内容,以字、词和字段为单位进行分词成多个文本单元,每个文本单元作为一个样本,对样本进行情感向量特征、语义向量特征和应用场景向量特征的提取,并从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征;
步骤2.向量特征关联
根据多个文本单元样本提取的情感向量特征、语义向量特征和应用场景向量特征将以字、词和字段为单位进行分词成多个文本单元样本进行向量关联后的语义重构,解析最佳相近语义;
步骤3.向量拼接
利用卷积神经网络提取所述文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征,并将两种特征进行拼接,得到特征表示;
步骤4.模型图像生成
输入步骤3中拼接获取后的特征表示,经过深度图估计模型,输出深度信息后利用步骤2中分析的最佳相近语义进行语构文本模型图像集生成;
步骤5.短视频生成
利用基于图像动态化GAN网络将步骤4中生成的语构文本模型图像集进行一系列图像帧处理,并依照人工配置模板和背景音乐完成最终短视频生成。
优选的,所述步骤1中的情感向量特征包括网络词汇、符号、多字叠用和字义解析,其中语义向量特征包括重要性、限定值和关联词解析。
优选的,所述步骤2中通过自回归模型和随机梯度反向算法进行向量关联重构,并利于函数相似度进行最佳语义归类。
优选的,所述步骤2中的最佳相近是指相似度偏差在0.3以内的语义文本,选择相似度最低的4个答案,其中最低的相似度文本作为目标文本、其他三个作为相似答案文本;相似度的范围是[0,2]。
优选的,所述步骤3中的特征拼接得到的特征表示通过将所述文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征使用一个全连接层压缩到一个较小维度之后,按照特征维度大小并使用l eakyReLU再与噪声向量拼接组合。
优选的,所述步骤4中的所述深度图估计模型为DPT模型,其中DPT模型使用Vi T作为主干网络,提取图像tokens,tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征,即多尺度的图像特征;多尺度的图像特征通过融合模块和上采样,得到深度密集预测结果,即深度信息。
优选的,所述步骤4中的语构文本模型图像集包括整段文本的多个图像的所有动态语义的静态图片册。
优选的,所述步骤5中的图像动态化GAN网络包括生成器和判别器,其中生成器用于接收拼接后的特征表示。
(三)有益效果
本发明提供了一种通过文本智能生成短视频的AI GC方法。具备以下有益效果:
1、本发明提供了一种通过文本智能生成短视频的AI GC方法,通过将给定的文本内容进行最佳相似文本的解析和映射,提供最佳相似语义解析文本和三个相似文本作为参考,从而缩小生成文本和视频内容的语义差异;在文本分析上增加了字、词和字段的情感分析,并进行整句关联模拟,使其更加贴近文本本身情绪内容;同时将给定的文本数据自动生成无音效、模板的短视频,大幅度减少了第三方人工干预,提高了短视频生成的效率,且促使生成的短视频更加灵活和贴近文本本身,保证了生成短视频的质量。
具体实施方式
下面将结合本发明实施例对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
本发明实施例提供一种通过文本智能生成短视频的AIGC方法,具体包括以下步骤:
步骤1.文本解析获取
获取用于制作短视频的文本内容,以字、词和字段为单位进行分词成多个文本单元,每个文本单元作为一个样本,对样本进行情感向量特征、语义向量特征和应用场景向量特征的提取,并从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征;
其中情感向量特征包括网络词汇、符号、多字叠用和字义解析,其中语义向量特征包括重要性、限定值和关联词解析;根据文本中所使用的新型字、词或句进行深度学习,保证其解析后的向量特征提取准确,例如:是是是、对对对、好好好这类带有明显敷衍语义的叠字使用;同时包含如:“草”字的同音字词所附带的特殊语义和可能出现的场景;
步骤2.向量特征关联
根据多个文本单元样本提取的情感向量特征、语义向量特征和应用场景向量特征将以字、词和字段为单位进行分词成多个文本单元样本进行向量关联后的语义重构,解析最佳相近语义;
通过自回归模型和随机梯度反向算法进行向量关联重构,并利于函数相似度进行最佳语义归类;而函数会从结构体中获取搜索结果,包括相似的向量列表、相似度得分列表等;然后,函数会遍历搜索结果,将每个相似向量的和相似度得分封装到数组中;函数会返回封装好的搜索结果,包括相似向量的ID列表、相似度得分列表等。在返回结果前,函数会对每个相似度得分进行归一化处理,确保它们的值在[0,1]范围内,以便于后续的处理和分析;
其中最佳相近是指相似度偏差在0.3以内的语义文本,选择相似度最低的4个答案,其中最低的相似度文本作为目标文本、其他三个作为相似答案文本;相似度的范围是[0,2];
步骤3.向量拼接
利用卷积神经网络提取文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征,并将两种特征进行拼接,得到特征表示;
特征拼接得到的特征表示通过将文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征使用一个全连接层压缩到一个较小维度之后,按照特征维度大小并使用l eaky ReLU再与噪声向量拼接组合,使其作为生成器的整体的输入,输入后根据卷积神经网络进行前后推断生成;
步骤4.模型图像生成
输入步骤3中拼接获取后的特征表示,经过深度图估计模型,输出深度信息后利用步骤2中分析的最佳相近语义进行语构文本模型图像集生成;
深度图估计模型为DPT模型,其中DPT模型使用Vi T作为主干网络,提取图像tokens,tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征,即多尺度的图像特征;多尺度的图像特征通过融合模块和上采样,得到深度密集预测结果,即深度信息;通过DPT模型得到深度信息以后,通过预设的相机参数和图像分辨率计算归一化焦距和中心像素坐标,进一步得到图像对应的三维信息;
具体的,语构文本模型图像集包括整段文本的多个图像的所有动态语义的静态图片册,根据整个文本进行全程动作的图像生成,便于后续短视频的生成组合,提高了短视频生成的效率;
步骤5.短视频生成
利用基于图像动态化GAN网络将步骤4中生成的语构文本模型图像集进行一系列图像帧处理,并依照人工配置模板和背景音乐完成最终短视频生成。
其中图像动态化GAN网络包括生成器和判别器,其中生成器用于接收拼接后的特征表示,生成器通过潜向量控制视频特征,同时结合注入网络的噪声,实现对视频随机属性的控制,判别器区分视频是真实的还是生成器生成的。从而将给定的文本数据自动生成无音效、模板的短视频,大幅度减少了第三方人工干预,并在后续加入配置模板和背景音乐即可最终完成短视频的生成,极大的提高了短视频生成的效率,同时将给定的文本内容进行最佳相似文本的解析和映射,提供最佳相似语义解析文本和三个相似文本作为参考,从而缩小生成文本和视频内容的语义差异;在文本分析上增加了字、词和字段的情感分析,并进行整句关联模拟,使其更加贴近文本本身情绪内容,促使生成的短视频更加灵活和贴近文本本身,保证了生成短视频的质量。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种通过文本智能生成短视频的AIGC方法,其特征在于,具体包括以下步骤:
步骤1.文本解析获取
获取用于制作短视频的文本内容,以字、词和字段为单位进行分词成多个文本单元,每个文本单元作为一个样本,对样本进行情感向量特征、语义向量特征和应用场景向量特征的提取,并从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征;
步骤2.向量特征关联
根据多个文本单元样本提取的情感向量特征、语义向量特征和应用场景向量特征将以字、词和字段为单位进行分词成多个文本单元样本进行向量关联后的语义重构,解析最佳相近语义;
步骤3.向量拼接
利用卷积神经网络提取所述文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征,并将两种特征进行拼接,得到特征表示;
步骤4.模型图像生成
输入步骤3中拼接获取后的特征表示,经过深度图估计模型,输出深度信息后利用步骤2中分析的最佳相近语义进行语构文本模型图像集生成;
步骤5.短视频生成
利用基于图像动态化GAN网络将步骤4中生成的语构文本模型图像集进行一系列图像帧处理,并依照人工配置模板和背景音乐完成最终短视频生成。
2.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法,其特征在于:所述步骤1中的情感向量特征包括网络词汇、符号、多字叠用和字义解析,其中语义向量特征包括重要性、限定值和关联词解析。
3.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法,其特征在于:所述步骤2中通过自回归模型和随机梯度反向算法进行向量关联重构,并利于函数相似度进行最佳语义归类。
4.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法,其特征在于:所述步骤2中的最佳相近是指相似度偏差在0.3以内的语义文本,选择相似度最低的4个答案,其中最低的相似度文本作为目标文本、其他三个作为相似答案文本;相似度的范围是[0,2]。
5.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法,其特征在于:所述步骤3中的特征拼接得到的特征表示通过将所述文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征使用一个全连接层压缩到一个较小维度之后,按照特征维度大小并使用leaky ReLU再与噪声向量拼接组合。
6.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法,其特征在于:所述步骤4中的所述深度图估计模型为DPT模型,其中DPT模型使用ViT作为主干网络,提取图像tokens,tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征,即多尺度的图像特征;多尺度的图像特征通过融合模块和上采样,得到深度密集预测结果,即深度信息。
7.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法,其特征在于:所述步骤4中的语构文本模型图像集包括整段文本的多个图像的所有动态语义的静态图片册。
8.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法,其特征在于:所述步骤5中的图像动态化GAN网络包括生成器和判别器,其中生成器用于接收拼接后的特征表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311020319.6A CN116977903A (zh) | 2023-08-15 | 2023-08-15 | 一种通过文本智能生成短视频的aigc方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311020319.6A CN116977903A (zh) | 2023-08-15 | 2023-08-15 | 一种通过文本智能生成短视频的aigc方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116977903A true CN116977903A (zh) | 2023-10-31 |
Family
ID=88473094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311020319.6A Pending CN116977903A (zh) | 2023-08-15 | 2023-08-15 | 一种通过文本智能生成短视频的aigc方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116977903A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118037898A (zh) * | 2024-04-15 | 2024-05-14 | 南京邮电大学 | 一种基于图像引导视频编辑的文本生成视频方法 |
-
2023
- 2023-08-15 CN CN202311020319.6A patent/CN116977903A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118037898A (zh) * | 2024-04-15 | 2024-05-14 | 南京邮电大学 | 一种基于图像引导视频编辑的文本生成视频方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | One-shot talking face generation from single-speaker audio-visual correlation learning | |
US20230042654A1 (en) | Action synchronization for target object | |
CN113762322B (zh) | 基于多模态表示的视频分类方法、装置和设备及存储介质 | |
Tan et al. | KT-GAN: Knowledge-transfer generative adversarial network for text-to-image synthesis | |
Li et al. | Direct speech-to-image translation | |
CN114390218B (zh) | 视频生成方法、装置、计算机设备和存储介质 | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
CN116721334B (zh) | 图像生成模型的训练方法、装置、设备及存储介质 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
Hou et al. | Textface: Text-to-style mapping based face generation and manipulation | |
Tu et al. | I 2 Transformer: Intra-and inter-relation embedding transformer for TV show captioning | |
Khurram et al. | Dense-captionnet: a sentence generation architecture for fine-grained description of image semantics | |
CN116977903A (zh) | 一种通过文本智能生成短视频的aigc方法 | |
CN117609550A (zh) | 视频标题生成方法和视频标题生成模型的训练方法 | |
Zhang et al. | A survey on multimodal-guided visual content synthesis | |
Huang et al. | Fine-grained talking face generation with video reinterpretation | |
Zeng et al. | Expression-tailored talking face generation with adaptive cross-modal weighting | |
CN117540007A (zh) | 基于相似模态补全的多模态情感分析方法、系统和设备 | |
CN113516972A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN117115310A (zh) | 一种基于音频和图像的数字人脸生成方法及系统 | |
CN114155321B (zh) | 一种基于自监督和混合密度网络的人脸动画生成方法 | |
Echizen et al. | Generation and detection of media clones | |
Zhao et al. | Research on video captioning based on multifeature fusion | |
CN115169472A (zh) | 针对多媒体数据的音乐匹配方法、装置和计算机设备 | |
Guo et al. | Attention-based visual-audio fusion for video caption generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |