CN117478978B - 一种文本生成电影视频片段的方法、系统和设备 - Google Patents

一种文本生成电影视频片段的方法、系统和设备 Download PDF

Info

Publication number
CN117478978B
CN117478978B CN202311430792.1A CN202311430792A CN117478978B CN 117478978 B CN117478978 B CN 117478978B CN 202311430792 A CN202311430792 A CN 202311430792A CN 117478978 B CN117478978 B CN 117478978B
Authority
CN
China
Prior art keywords
text
image
sequence
attention
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311430792.1A
Other languages
English (en)
Other versions
CN117478978A (zh
Inventor
青鸿菁
韩先锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University
Original Assignee
Southwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University filed Critical Southwest University
Priority to CN202311430792.1A priority Critical patent/CN117478978B/zh
Publication of CN117478978A publication Critical patent/CN117478978A/zh
Application granted granted Critical
Publication of CN117478978B publication Critical patent/CN117478978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种文本生成电影视频片段的方法、系统和设备。所述方法包括:连接到服务器的客户端电脑通过输入文字来生成电影视频片段。生成过程涉及一个处理模型,该模型可以根据文本语义生成与之匹配的目标片段的初始帧。在处理模型中,初始帧会接受注意力训练,以使生成的图像与动作相匹配。模型还会生成电影视频片段序列的图像,通过插值网络提高每秒帧数,使用超分辨率网络提升图像的像素和线条精度,最终得到连贯且高精度的电影视频片段。

Description

一种文本生成电影视频片段的方法、系统和设备
技术领域
本发明涉及互联网技术领域,特别是涉及一种文本生成电影视频片段的方法、系统和设备。
背景技术
文本生成电影视频片段旨在从描述文本无需借助图像直接生成与输入描述文本语义匹配且连贯的电影视频片段,是一项跨模态的转换任务,需要结合文本信息,同时生成具有强关联性的电影视频片段,这具有很大的挑战性。目前暂没有根据文本生成电影视频片段的方法,且一般生成的电影视频片段的清晰度和连贯性较低。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种文本生成电影视频片段的方法、系统和设备。
为了实现本发明的上述目的,本发明提供一种文本生成电影视频片段的方法,包括以下步骤:
S1,服务器将接收到的输入内容数据转换为文本信息,得到用于生成目标电影视频片段的描述文本;
S2,将描述文本依次经过数据预处理、语义分割模型和扩散模型,得到与文本语义匹配的电影视频初始帧;
S3,对初始帧进行注意力训练,将生成的图像与动作相匹配,得到初始的电影视频片段;
S4,通过插值网络生成前后两帧画面之间的过渡帧画面,从而将每秒电影视频片段帧数提升,提高了电影视频片段的流畅度。
S5,将序列图像每一帧放入超分辨率网络,进行特征提取、特征对齐和超分重建。通过超分辨率网络提升序列图像的像素及图形线条精度,生成高像素序列图像。
所述超分辨率网络为训练好的卷积神经网络模型(SRGAN),对增强帧率的电影视频片段序列进行超分辨率处理,超分辨率处理可以提高图像的清晰度和细节,并使得电影视频片段更加流畅。
进一步地,所述输入内容数据包括:数字、文字、图像、音频、视频之一或者任意组合。
进一步地,数据预处理包括:将文本数据进行分词、编码操作。
进一步地,对分词后的文本数据,提取文本数据中的关键词:
S01,统计分词的类别、词频以及其情感得分,并筛选出关键词;
情感得分的计算公式如下:
scoree,i=δiWordii
其中δi为第i个词的权重;
ρi为第i个词的调整系数;
Wordi为词级情感指数;
L表示词的总数量;
max()表示取最大值;
关键词计算公式如下:
KEY=α×scoree+β×FRE+γ×FR
其中α、β、γ分别表示词的类别权重、词频权重以及其情感得分权重;
scoree表示词的情感得分;
FRE表示词的类别得分;
FR表示词的词频次数;
按照词的得分进行排名,选择前K个词作为关键词。
进一步地,所述语义分割模型将文本中的语义信息与图像中的像素进行对应,语义分割模型的输入是文本数据,输出是对应图像的语义分割结果;语义分割模型的损失函数为交叉熵损失函数;
所述扩散模型对语义分割结果进行填充和修正,扩散模型的输入是语义分割结果,输出是生成的图像;其目标表示为:
Goal=arg minGmaxDL(G,D)
其中G表示生成器;
D表示判别器;
arg表示反正切函数;
minG表示最小化生成器的损失函数,我们希望它尽可能小,以便生成更真实的数据。
maxD表示最大化判别器的损失函数,我们希望它尽可能大,以便更准确地识别真实和生成的数据。
L(,)是对抗损失函数,通过最小化这个损失函数来训练生成器模型,使其生成的图像尽可能接近真实图像。所述扩散模型优选用二维U型网络的扩散模型,因其为目前生成效果最好的图像生成模型,且能从噪声中生成与语义相符的图像内容。
进一步地,注意力训练包括时间约束模块和空间约束模块,以解决处理文字长序列和全局信息的问题。
S3-1,时间约束模块:在时间维度上对序列图像进行生成并约束,具体为将初始帧依次传入注意力卷积层、池化层、自注意力层、交叉注意力层、前馈层;
首先通过将初始帧作为中间特征值,进行重复操作,生成电影视频片段序列图像;然后利用注意力机制将文本序列中的每个时间步与生成的图像序列中的对应帧进行匹配;具体通过时间注意力层实现,时间注意力层的计算公式为:
其中at,i表示第t个时间步的第j帧的匹配分数;
ht表示第t个时间步的文本特征向量;
hj表示图像序列中的第j帧的特征向量;
T为转置符号;
W、Wv是学习的矩阵参数;
n表示图像序列的总帧数;
y1i为通过时间注意力层第i个元素的输出向量;
S3-2,空间约束模块:在空间维度上对序列图像进行生成并约束;基于初始帧,通过注意力训练将序列图像与文本中的动词进行匹配,生成多张与初始帧关联的电影视频片段序列图像;
首先,对时间约束模块中前馈层输出的图像序列进行输入处理,即将原始文本分词并进行词性标注,提取其中的动词作为关键帧;然后提取图像特征,具体是使用预训练的视觉特征提取器提取每个关键帧的特征向量,并使用自然语言处理模型提取每个动词的文本特征向量;
然后确定图像中物体位置关系,再确定图像帧中动词对齐的部分作为键值特征,最后基于时间约束模块,在空间中对下一帧画面进行扩散处理,对电影视频片段序列图像生成结果进行约束,输出图像特征和视频;
在每个时间步中,将生成的图像划分为一些区域,并把它们与原始文本中的关键词或对象相匹配;所述匹配是通过空间注意力模型来实现,空间注意力模型可以表示为:
其中βi,j是第i个像素对第j个像素的注意力权重;
exp(Vi TWTUj)是第i个像素和第j个像素的特征向量之间的相似度,表示两个像素的特征之间的关联程度;
是归一化因子,表示对所有像素的相似度进行求和;
Vi表示文本序列中的第i个像素的特征向量;
Uj表示图像序列中的第j个像素的特征向量;
Uk表示图像序列中的第k个像素的特征向量;
K是一个常数,表示特征图中的像素的总数;
W、Ww是学习的矩阵参数;
xk表示特征图第k个像素的输入向量;
y2i为空间注意力模型第i个元素的输出向量;
S3-3,注意力加权:将时间注意力层和空间注意力模型结合起来,对生成的图像序列中的每一帧进行注意力加权,以使其与原始文本中的关键词或对象相匹配,使用加权平均实现;
注意力加权后的图像序列可以表示为:
其中I表示生成的图像序列;
Ij表示图像序列中的第j帧;
n表示图像的元素总数量;
S3-4,匹配损失函数:将注意力加权后的生成图像序列与原始动作序列进行比对,计算两个序列之间的相似度,以作为训练的损失函数,使用交叉熵损失进行计算;
损失函数可以表示为:
其中T表示动作序列的长度;
Yt表示第t个时间步的真实值,它表示一个向量或者矩阵;
It表示第t个时间步的预测值,它表示一个向量或者矩阵,它的维度与Yt相同。
//Yt-It//2是t个时间步的误差平方,它表示一个标量,它的值越大,表示模型的预测越偏差。
进一步地,还包括:
若对于生成的图像不满意,可再次通过客户端电脑输入修改后的描述文本和/或初始帧,再次由服务器根据修改后的描述文本和/或初始帧生成新的电影视频片段;若只有修改后的文本,则跳转执行步骤S2;若只有修改后的初始帧或有文本和初始帧,则跳转执行S3;从而生成一个新的电影视频片段序列。
本发明还提出了一种文本生成电影视频片段的系统,包括:
转换模块:用于将接收到的输入内容数据转换为文本信息,得到用于生成目标电影视频片段的描述文本;
初始帧生成模块:用于将描述文本依次经过数据预处理、语义分割模型和扩散模型,得到与文本语义匹配的电影视频初始帧;
电影视频片段生成模块:用于对初始帧进行注意力训练,将生成的图像与动作相匹配,得到初始的电影视频片段;
视频优化模块:用于对初始的电影视频片段进行优化,通过插值网络生成前后两帧画面之间的过渡帧画面,将序列图像每一帧放入超分辨率网络,进行特征提取、特征对齐和超分重建;
视频输出模块:用于输出最终的电影视频片段。
本发明还提出了一种设备,所述设备为计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现方法的步骤。
综上所述,由于采用了上述技术方案,本发明提供了一种跨模态的转换任务方法,能够从描述文本中直接生成与输入描述文本语义匹配且连贯的电影视频片段,避免了对外部图像的依赖。通过处理模型和注意力训练,能够生成与输入文本语义匹配的目标视频片段的初始帧,能够对序列图像进行生成并约束,确保生成的电影视频片段与输入文本中的动词相匹配,增强了电影视频片段的连贯性和关联性。通过对插值网络和超分辨率网络的应用,提高了生成的图像的帧数和分辨率,从而得到高质量的电影视频片段。此外,在生成目标电影视频片段之后,可以响应于对描述文本和/或初始帧的修改操作,并生成新的电影视频片段。这一特性使得用户可以根据需要进行调整和优化,满足个性化的需求。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明提供的电影视频片段生成方法流程图。
图2是本发明具体实施例电影视频片段生成方法流程示意图。
图3是本发明的设备、介质、系统示意图。
图4是本发明具体实施例提供的处理模型架构图。
图5是本发明具体实施例提供的处理模型中注意力训练层的结构示意图。
图6是本发明具体实施例提供的处理模型中插帧网络生成中间帧的结构示意图。
图7是本发明具体实施例提供的处理模型中超分辨率网络结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
针对文本生成电影视频片段方法需要输入辅助图片以及生成电影视频片段质量低的问题,如需要输入初始帧,以及电影视频片段清晰度、帧率低等问题,本发明提供了一种文本生成电影视频片段的方法、系统及存储介质。旨在提供一种仅基于描述文本,生成与描述文本相匹配的目标电影视频片段,具体可以应用于生成影视剧片段、影视剧素材等各类电影视频生成的应用场景。具体如图1~图4所示,是将客户端的输入内容数据发送给服务器,所述输入内容数据为数字、文字、图像、音频、视频之一或者任意组合。然后由服务器生成电影视频片段;最后将电影视频片段发送给客户端。所述客户端为电脑、手机、平板等,所述服务器有存储介质ROM及移动存储介质。客户端与服务器通过总线网络进行数据传输。
其中由服务器生成电影视频片段具体包括以下步骤:
步骤一:服务器将接收到的输入内容数据转换为文本信息,得到用于生成目标电影视频片段的描述文本。
步骤二:将描述文本依次经过数据预处理、语义分割模型和扩散模型,得到与文本语义匹配的电影视频初始帧。
数据预处理:将文本数据进行预处理,包括分词、编码等操作,以便后续的模型输入处理。
对于分词后的文本数据,提取文本数据中的关键词,有助于后续的图像生成。
S01,统计分词的类别、词频以及其情感得分,并筛选出关键词;
情感得分的计算公式如下:
scoree,i=δiWordii
其中δi为第i个词的权重;
ρi为第i个词的调整系数;
Wordi为词级情感指数;
关键词计算公式如下:
KEY=α×scoree+β×FRE+γ×FR
其中α、β、γ分别表示词的类别权重、词频权重以及其情感得分权重;
scoree表示词的情感得分;
FRE表示词的类别得分;
FR表示词的词频次数;
按照词的得分进行排名,选择前K个词作为关键词。
语义分割模型:使用语义分割模型将文本/关键词中的语义信息与图像中的像素进行对应。语义分割模型的输入是文本数据,输出是对应图像的语义分割结果。其交叉熵损失函数可以表示为:
其中N为图像的像素数,M为类别数,C为通道数,Y为真实标签,y为模型预测结果。Yijk为第i个像素的真实标签,第i个像素属于第j个类别和第k个通道;yijk为第i个像素的预测结果,第i个像素属于第j个类别和第k个通道。
扩散模型:在语义分割结果的基础上,使用扩散模型对语义信息进行更加细致的填充和修正。扩散模型可以利用局部上下文关系来生成更加合理的图像细节。扩散模型的输入是语义分割结果,输出是生成的图像。其目标可以表示为最小化以下两个部分之和:
Goal=arg minGmaxDL(G,D)
其中G表示生成器,D表示判别器,L(,)是对抗损失函数,通过最小化这个损失函数来训练生成器模型,使其生成的图像尽可能接近真实图像。所述扩散模型优选用二维U型网络的扩散模型,因其为目前生成效果最好的图像生成模型,且能从噪声中生成与语义相符的图像内容。
步骤三:对初始帧进行注意力训练,将生成的图像与动作相匹配,具体如图5所示。注意力训练包括时间约束模块和空间约束模块,以解决处理文字长序列和全局信息的问题。
时间约束模块:在时间维度上对序列图像进行生成并约束。具体为将初始帧依次传入注意力卷积层、池化层、自注意力层、交叉注意力层、前馈层。
首先通过将初始帧作为中间特征值,进行重复操作,生成电影视频片段序列图像。然后利用注意力机制将文本序列中的每个时间步与生成的图像序列中的对应帧进行匹配。具体通过时间注意力层实现,时间注意力层的计算公式为:
其中at,i表示第t个时间步的第j帧的匹配分数;
ht表示第t个时间步的文本特征向量;
hj表示图像序列中的第j帧的特征向量;
T为转置符号;
W、Wv是学习的矩阵参数;
n表示图像序列的总帧数;
y1i为通过时间注意力层第i个元素的输出向量;
空间约束模块:在空间维度上对序列图像进行生成并约束。基于初始帧,通过注意力训练将序列图像与文本中的动词进行匹配,生成多张与初始帧关联的电影视频片段序列图像。首先,对时间约束模块中前馈层输出的图像序列进行输入处理,即将原始文本分词并进行词性标注,提取其中的动词作为关键帧。然后提取图像特征,具体是使用预训练的视觉特征提取器提取每个关键帧的特征向量,并使用自然语言处理模型提取每个动词的文本特征向量。
然后确定图像中物体位置关系,再确定图像帧中动词对齐的部分作为键值特征,最后基于时间约束模块,在空间中对下一帧画面进行扩散处理,对电影视频片段序列图像生成结果进行约束。输出图像特征和视频;
在每个时间步中,将生成的图像划分为一些区域,并把它们与原始文本中的关键词或对象相匹配。可以使用空间注意力模型(Spatial Attention Model)来实现,并将其嵌入到时间注意力层中。
空间注意力模型可以表示为:
其中βi,j是第i个像素对第j个像素的注意力权重;
exp(Vi TWTUj)是第i个像素和第j个像素的特征向量之间的相似度,表示两个像素的特征之间的关联程度;
是归一化因子,表示对所有像素的相似度进行求和;
Vi表示文本序列中的第i个像素的特征向量;
Uj表示图像序列中的第j个像素的特征向量;
Uk表示图像序列中的第k个像素的特征向量;
K是一个常数,表示特征图中的像素的总数;
W、Ww是学习的矩阵参数;
xk表示特征图第k个像素的输入向量;
y2i为空间注意力模型第i个元素的输出向量;
注意力加权:将时间注意力层和空间注意力模型结合起来,对生成的图像序列(电影视频片段序列)中的每一帧进行注意力加权,以使其与原始文本中的关键词或对象相匹配。使用加权平均实现。
注意力加权后的图像序列可以表示为:
其中I表示生成的图像序列;
Ij表示图像序列中的第j帧;
n表示图像的元素总数量;
匹配损失函数:将注意力加权后的生成图像序列与原始动作序列进行比对,计算两个序列之间的相似度,以作为训练的损失函数,使用交叉熵损失进行计算。
损失函数可以表示为:
其中T表示动作序列的长度;
Yt表示第t个时间步的真实值,它表示一个向量或者矩阵;
It表示第t个时间步的预测值,它表示一个向量或者矩阵,它的维度与Yt相同。
//Yt-It//2是t个时间步的误差平方,它表示一个标量,它的值越大,表示模型的预测越偏差。
步骤四:通过插值网络生成前后两帧画面之间的过渡帧画面,从而将每秒电影视频片段帧数提升,提高了电影视频片段的流畅度。具体如图6所示,(1)特征提取:将起始帧和结束帧分别通过一个特征提取网络,通常是卷积神经网络(CNN),以提取它们的特征表示。这些特征可以包括图像的像素值、纹理信息或其他高层特征。(2)特征对比:通过一个特征对比网络来实现,该网络将起始帧和结束帧的特征作为输入,并学习它们之间的差异。这个过程有助于模型更好地理解帧之间的过渡。(3)3D池化层:在某些插值网络中,还会使用3D池化层来对特征进行池化操作。3D池化是指对时域和空间域进行下采样,以减少计算量和参数数量,同时保持时空上下文信息。通过3D池化层,可以将特征表示降维到更低的维度,从而减少计算量和内存占用。(4)文本特征输入门控模块:在一些插值网络中,还会将文本特征输入到一个门控模块中。这个模块通常是一个循环神经网络(RNN)或Transformer模型,用于处理序列数据。文本特征可以提供关于视频内容的附加信息,帮助模型更好地理解帧之间的过渡。(5)3D转置卷积层:最后,通过一个3D转置卷积层,将特征表示转换回原始的空间域,并生成最终的中间帧。这个过程可以是逐像素的重建,也可以是更复杂的语义级别的插值。通过调整转置卷积层的参数,可以控制生成的中间帧与真实中间帧之间的相似度。
将每个电影视频片段表示为一系列图像帧,其中每个片段包含一个起始帧和一个结束帧。
对于每一对相邻的帧(即起始帧和结束帧之间的帧),使用门控模块和三维转置卷积层生成过渡帧。其中门控模块用来控制过渡帧的生成程度,使其能够在两帧之间平滑过渡。
具体公式为:
Itrans=(1-σ(gt))⊙Istart+σ(gt)⊙Iend
其中Itrans表示生成的过渡帧;
σ是sigmoid函数;
gt是门控模块的输出向量;
Istart和Iend分别表示起始帧和结束帧。
步骤五:将序列图像每一帧放入超分辨率网络,进行特征提取、特征对齐和超分重建。所述超分辨率网络为训练好的卷积神经网络模型(SRGAN),对增强帧率的电影视频片段序列进行超分辨率处理,超分辨率处理可以提高图像的清晰度和细节,并使得电影视频片段更加流畅。
通过超分辨率网络提升序列图像的像素及图形线条精度,生成高像素序列图像。
将每一帧序列图像输入到超分辨率网络中的过程如图7所示:
特征提取:通过卷积神经网络(VGG)从每一帧序列图像中提取特征。这些特征将作为超分辨率网络的输入。
特征对齐:将每一帧的特征与其他帧的特征进行对齐,以保持整个序列的一致性。可以使用光流算法或空间变换网络(Spatial Transformation Network)等方法进行特征对齐。
超分重建:使用超分辨率网络对每一帧的特征进行重建,生成具有高像素的序列图像。
步骤六:输出生成的电影视频片段。将生成的电影视频片段输出给用户,可以输出单独的电影视频片段,也可以将电影视频片段和描述文本一起输出。
若对于生成的图像不满意,可再次通过客户端电脑输入修改后的描述文本和/或初始帧,再次由服务器根据修改后的描述文本和/或初始帧生成新的电影视频片段。若只有修改后的文本,则跳转执行步骤二;若只有修改后的初始帧或有文本和初始帧,则跳转执行步骤三;从而生成一个新的电影视频片段序列。对新的电影视频片段序列进行后期处理,如视频剪辑、色彩调整、音效添加等。
具体公式可能因网络架构而不同,以下是一个示例的图像生成公式:
Inew=G(Z,C)
其中,Inew表示生成的高分辨率、高质量的新初始帧,Z表示噪声向量,C表示条件向量,G表示生成器网络。
此外,对本申请所涉及的名词进行解释:
文本特征提取:指从文本中提取出有意义或代表性的特征。这些特征可以用于各种自然语言处理任务,如情感分析、文本分类等。
语义分割:指将图像按照语义信息进行划分,并为每个区域分配对应的标签。每个像素点都会被分配一个语义类别,从而实现对图像中不同对象的精确定位和分割。
语义匹配:指根据语义信息判断两个文本或句子之间的相似度或相关性。通过比较文本的语义表示,可以评估它们之间的相似程度。
初始帧:在序列图像处理中,指视频或动态图像中的第一帧。
序列图像:指由多个连续帧组成的图像序列。可以是视频、动态图像等。
序列图像帧:指序列图像中的单个静止帧或图像。
扩散模型:指一种模型或算法,用于在图像处理中进行信息传播或扩散。它可以用于增强图像细节、去噪等任务。
稳定扩散模型:是一种改进的扩散模型,能够更准确地保持图像的结构和细节。
单幅图像扩散模型:是一种扩散模型,只基于单幅图像进行信息传播和处理,而不依赖于其他图像或视频。
注意力训练层:在神经网络中,注意力训练层用于学习和提取输入数据中的重要特征,并且可以根据任务的需求自适应地关注不同部分的输入。
全局运动信息:指图像序列中涉及到整体或全局物体运动的信息。例如,两个帧之间的相对位移或变化。
局部运动信息:指图像序列中涉及到局部或局部区域物体运动的信息。例如,物体上某个部分的位移或变化。
注意力卷积层:在神经网络中,注意力卷积层利用注意力机制来调整不同输入通道或特征图之间的权重,以便更加关注重要的特征。
注意力池化层:在神经网络中,注意力池化层通过自学习的方式选择性地聚合或汇总输入特征,以便更有效地捕捉重要的信息。
自注意力层:是一种注意力机制,在处理序列数据时,能够自适应地关注不同位置或时间步骤的输入。
交叉注意力层:是一种注意力机制,用于处理多个输入之间的交叉关系。它可以学习不同输入之间的相关性或依赖关系。
前馈层:在神经网络中,前馈层将输入数据与权重相乘并添加偏置,然后通过激活函数进行非线性变换,从而生成输出。
图像特征提取:指从图像中提取出有意义或代表性的特征。这些特征可以用于图像分类、目标检测等任务。
键值特征:在注意力机制中,键值特征表示输入数据的映射关系,用于计算注意力权重。
插帧网络:是一种网络结构,用于将低分辨率图像插值为高分辨率图像,实现图像超分辨率的任务。
三维池化层:在三维数据(如视频或时间序列数据)处理中,三维池化层用于对输入数据进行降采样或汇聚操作,以减少参数数量并保留重要的特征。
门控模块:在神经网络中,门控模块通过学习权重来控制信息的流动和过滤,以便更好地处理输入数据的特定方面或属性。
三维转置卷积层:是一种反卷积操作,在三维数据中用于将低分辨率特征图还原为高分辨率特征图,常用于图像超分辨率等任务。
过渡帧:在序列图像处理中,过渡帧指在连续帧之间用于平滑过渡的中间帧或图像。
图像超分辨率:是一种图像处理技术,旨在通过增加图像的空间分辨率从而提高图像质量和细节展示能力。
超分辨率网络:是一种网络结构,用于实现图像超分辨率的任务,通过学习输入图像间的映射关系,将低分辨率图像转换为高分辨率图像。
本实施例的方法可以应用于交互界面,在交互界面中实现包含电影视频片段生成功能的人机交互,服务器基于用户输入的一种或多种模态信息确定描述文本,进而生成目标电影视频片段,向用户提供目标电影视频片段,并且支持用户对已生成的目标电影视频片段的修改/编辑操作,丰富了互动场景的交互内容和方式。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均是经过用户授权或者经过各方充分授权的信息和数据。相关数据的收集、使用和处理需要遵守相关法律法规和标准,保证合法合规。同时,在数据收集过程中,会提供相应的操作入口,供用户选择授权或者拒绝。应当尽最大努力保护用户隐私和数据安全,并遵循数据最小化原则,仅收集必要的数据,严格限制数据访问权限,并在必要时对数据进行加密、匿名化等处理,以确保用户数据得到最佳的保护。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (4)

1.一种文本生成电影视频片段的方法,其特征在于,包括以下步骤:
S1,服务器将接收到的输入内容数据转换为文本信息,得到描述文本;所述输入内容数据包括:数字、文字、图像、音频、视频之一或者任意组合;
S2,将描述文本依次经过数据预处理、语义分割模型和扩散模型,得到与文本语义匹配的电影视频初始帧;
所述数据预处理包括:将文本数据进行分词、编码操作;并对分词后的文本数据,提取文本数据中的关键词:
S01,统计分词的类别、词频以及其情感得分,并筛选出关键词;
情感得分的计算公式如下:
scoreei=δiWordii
其中δi为第i个词的权重;
ρi为第i个词的调整系数;
Wordi为词级情感指数;
L表示词的总数量;
max()表示取最大值;
关键词计算公式如下:
KEY=α×scoree+β×FRE+γ×FR
其中α、β、γ分别表示词的类别权重、词频权重以及其情感得分权重;
scoree表示词的情感得分;
FRE表示词的类别得分;
FR表示词的词频次数;
按照词的得分进行排名,选择前K个词作为关键词;
所述语义分割模型将文本中的语义信息与图像中的像素进行对应,语义分割模型的输入是文本数据,输出是对应图像的语义分割结果;语义分割模型的损失函数为交叉熵损失函数;
所述扩散模型对语义分割结果进行填充和修正,扩散模型的输入是语义分割结果,输出是生成的图像;其目标表示为:
Goal=arg minGmaxDL(G,D)
其中G表示生成器;
D表示判别器;
arg表示反正切函数;
minG表示最小化生成器的损失函数;
maxD表示最大化判别器的损失函数;
L(,)是对抗损失函数;
S3,对初始帧进行注意力训练,将生成的图像与动作相匹配,得到初始的电影视频片段;
注意力训练包括时间约束模块和空间约束模块;
S3-1,时间约束模块:在时间维度上对序列图像进行生成并约束,具体为将初始帧依次传入注意力卷积层、池化层、自注意力层、交叉注意力层、前馈层;
首先通过将初始帧作为中间特征值,进行重复操作,生成电影视频片段序列图像;然后利用注意力机制将文本序列中的每个时间步与生成的图像序列中的对应帧进行匹配;具体通过时间注意力层实现,时间注意力层的计算公式为:
其中at,i表示第t个时间步的第j帧的匹配分数;
ht表示第t个时间步的文本特征向量;
hj表示图像序列中的第j帧的特征向量;
T为转置符号;
W、Wv是学习的矩阵参数;
n表示图像序列的总帧数;
y1i为通过时间注意力层第i个元素的输出向量;
S3-2,空间约束模块:在空间维度上对序列图像进行生成并约束;基于初始帧,通过注意力训练将序列图像与文本中的动词进行匹配,生成多张与初始帧关联的电影视频片段序列图像;
首先,对时间约束模块中前馈层输出的图像序列进行输入处理,即将原始文本分词并进行词性标注,提取其中的动词作为关键帧;然后提取图像特征,具体是使用预训练的视觉特征提取器提取每个关键帧的特征向量,并使用自然语言处理模型提取每个动词的文本特征向量;
然后确定图像中物体位置关系,再确定图像帧中动词对齐的部分作为键值特征,最后基于时间约束模块,在空间中对下一帧画面进行扩散处理,对电影视频片段序列图像生成结果进行约束,输出图像特征和视频;
在每个时间步中,将生成的图像划分为一些区域,并把它们与原始文本中的关键词或对象相匹配;所述匹配是通过空间注意力模型来实现,空间注意力模型可以表示为:
其中βi,j是第i个像素对第j个像素的注意力权重;
是第i个像素和第j个像素的特征向量之间的相似度,表示两个像素的特征之间的关联程度;
是归一化因子,表示对所有像素的相似度进行求和;
Vi表示文本序列中的第i个像素的特征向量;
Uj表示图像序列中的第j个像素的特征向量;
Uk表示图像序列中的第k个像素的特征向量;
K是一个常数,表示特征图中的像素的总数;
W、Ww是学习的矩阵参数;
xk表示特征图第k个像素的输入向量;
y2i为空间注意力模型第i个元素的输出向量;
S3-3,注意力加权:将时间注意力层和空间注意力模型结合起来,对生成的图像序列中的每一帧进行注意力加权,以使其与原始文本中的关键词或对象相匹配,使用加权平均实现;
注意力加权后的图像序列可以表示为:
其中I表示生成的图像序列;
Ij表示图像序列中的第j帧;
n表示图像的元素总数量;
S3-4,匹配损失函数:将注意力加权后的生成图像序列与原始动作序列进行比对,计算两个序列之间的相似度,以作为训练的损失函数,使用交叉熵损失进行计算;
损失函数可以表示为:
其中T表示动作序列的长度;
Yt表示第t个时间步的真实值,它表示一个向量或者矩阵;
It表示第t个时间步的预测值,它表示一个向量或者矩阵;
//Yt-It//2是t个时间步的误差平方,它表示一个标量,它的值越大,表示模型的预测越偏差;
S4,通过插值网络生成前后两帧画面之间的过渡帧画面;
S5,将序列图像每一帧放入超分辨率网络,进行特征提取、特征对齐和超分重建;
S6,输出最终的电影视频片段。
2.根据权利要求1所述的一种文本生成电影视频片段的方法,其特征在于,还包括:
若对于生成的图像不满意,可再次通过客户端电脑输入修改后的描述文本和/或初始帧,再次由服务器根据修改后的描述文本和/或初始帧生成新的电影视频片段;若只有修改后的文本,则跳转执行步骤S2;若只有修改后的初始帧或有文本和初始帧,则跳转执行S3;从而生成一个新的电影视频片段序列。
3.一种文本生成电影视频片段的系统,其特征在于,包括:
转换模块:用于将接收到的输入内容数据转换为文本信息,得到用于生成目标电影视频片段的描述文本;
所述输入内容数据包括:数字、文字、图像、音频、视频之一或者任意组合;
初始帧生成模块:用于将描述文本依次经过数据预处理、语义分割模型和扩散模型,得到与文本语义匹配的电影视频初始帧;
所述数据预处理包括:将文本数据进行分词、编码操作;并对分词后的文本数据,提取文本数据中的关键词:
S01,统计分词的类别、词频以及其情感得分,并筛选出关键词;
情感得分的计算公式如下:
scoreei=δiWordii
其中δi为第i个词的权重;
ρi为第i个词的调整系数;
Wordi为词级情感指数;
L表示词的总数量;
max()表示取最大值;
关键词计算公式如下:
KEY=α×scoree+β×FRE+γ×FR
其中α、β、γ分别表示词的类别权重、词频权重以及其情感得分权重;
scoree表示词的情感得分;
FRE表示词的类别得分;
FR表示词的词频次数;
按照词的得分进行排名,选择前K个词作为关键词;
所述语义分割模型将文本中的语义信息与图像中的像素进行对应,语义分割模型的输入是文本数据,输出是对应图像的语义分割结果;语义分割模型的损失函数为交叉熵损失函数;
所述扩散模型对语义分割结果进行填充和修正,扩散模型的输入是语义分割结果,输出是生成的图像;其目标表示为:
Goal=arg minGmaxDL(G,D)
其中G表示生成器;
D表示判别器;
arg表示反正切函数;
minG表示最小化生成器的损失函数;
maxD表示最大化判别器的损失函数;
L(,)是对抗损失函数;
电影视频片段生成模块:用于对初始帧进行注意力训练,将生成的图像与动作相匹配,得到初始的电影视频片段;
注意力训练包括时间约束模块和空间约束模块;
S3-1,时间约束模块:在时间维度上对序列图像进行生成并约束,具体为将初始帧依次传入注意力卷积层、池化层、自注意力层、交叉注意力层、前馈层;
首先通过将初始帧作为中间特征值,进行重复操作,生成电影视频片段序列图像;然后利用注意力机制将文本序列中的每个时间步与生成的图像序列中的对应帧进行匹配;具体通过时间注意力层实现,时间注意力层的计算公式为:
其中at,i表示第t个时间步的第j帧的匹配分数;
ht表示第t个时间步的文本特征向量;
hj表示图像序列中的第j帧的特征向量;
T为转置符号;
W、Wv是学习的矩阵参数;
n表示图像序列的总帧数;
y1i为通过时间注意力层第i个元素的输出向量;
S3-2,空间约束模块:在空间维度上对序列图像进行生成并约束;基于初始帧,通过注意力训练将序列图像与文本中的动词进行匹配,生成多张与初始帧关联的电影视频片段序列图像;
首先,对时间约束模块中前馈层输出的图像序列进行输入处理,即将原始文本分词并进行词性标注,提取其中的动词作为关键帧;然后提取图像特征,具体是使用预训练的视觉特征提取器提取每个关键帧的特征向量,并使用自然语言处理模型提取每个动词的文本特征向量;
然后确定图像中物体位置关系,再确定图像帧中动词对齐的部分作为键值特征,最后基于时间约束模块,在空间中对下一帧画面进行扩散处理,对电影视频片段序列图像生成结果进行约束,输出图像特征和视频;
在每个时间步中,将生成的图像划分为一些区域,并把它们与原始文本中的关键词或对象相匹配;所述匹配是通过空间注意力模型来实现,空间注意力模型可以表示为:
其中βi,j是第i个像素对第j个像素的注意力权重;
是第i个像素和第j个像素的特征向量之间的相似度,表示两个像素的特征之间的关联程度;
是归一化因子,表示对所有像素的相似度进行求和;
Vi表示文本序列中的第i个像素的特征向量;
Uj表示图像序列中的第j个像素的特征向量;
Uk表示图像序列中的第k个像素的特征向量;
K是一个常数,表示特征图中的像素的总数;
W、Ww是学习的矩阵参数;
xk表示特征图第k个像素的输入向量;
y2i为空间注意力模型第i个元素的输出向量;
S3-3,注意力加权:将时间注意力层和空间注意力模型结合起来,对生成的图像序列中的每一帧进行注意力加权,以使其与原始文本中的关键词或对象相匹配,使用加权平均实现;
注意力加权后的图像序列可以表示为:
其中I表示生成的图像序列;
Ij表示图像序列中的第j帧;
n表示图像的元素总数量;
S3-4,匹配损失函数:将注意力加权后的生成图像序列与原始动作序列进行比对,计算两个序列之间的相似度,以作为训练的损失函数,使用交叉熵损失进行计算;
损失函数可以表示为:
其中T表示动作序列的长度;
Yt表示第t个时间步的真实值,它表示一个向量或者矩阵;
It表示第t个时间步的预测值,它表示一个向量或者矩阵;
//Yt-It//2是t个时间步的误差平方,它表示一个标量,它的值越大,表示模型的预测越偏差;
视频优化模块:用于对初始的电影视频片段进行优化,通过插值网络生成前后两帧画面之间的过渡帧画面,将序列图像每一帧放入超分辨率网络,进行特征提取、特征对齐和超分重建;
视频输出模块:用于输出最终的电影视频片段。
4.一种设备,其特征在于,所述设备为计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至2任一项所述的方法的步骤。
CN202311430792.1A 2023-10-31 2023-10-31 一种文本生成电影视频片段的方法、系统和设备 Active CN117478978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311430792.1A CN117478978B (zh) 2023-10-31 2023-10-31 一种文本生成电影视频片段的方法、系统和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311430792.1A CN117478978B (zh) 2023-10-31 2023-10-31 一种文本生成电影视频片段的方法、系统和设备

Publications (2)

Publication Number Publication Date
CN117478978A CN117478978A (zh) 2024-01-30
CN117478978B true CN117478978B (zh) 2024-05-24

Family

ID=89634274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311430792.1A Active CN117478978B (zh) 2023-10-31 2023-10-31 一种文本生成电影视频片段的方法、系统和设备

Country Status (1)

Country Link
CN (1) CN117478978B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117880446A (zh) * 2024-03-12 2024-04-12 武汉橡皮膜网络科技有限公司 一种高连贯性视频合成的稳定扩散模型方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719144A (zh) * 2009-11-04 2010-06-02 中国科学院声学研究所 一种联合字幕和视频图像信息进行场景分割和索引的方法
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN116109978A (zh) * 2023-02-09 2023-05-12 杭州电子科技大学 基于自约束动态文本特征的无监督视频描述方法
CN116662609A (zh) * 2023-06-13 2023-08-29 杭州电子科技大学 基于预训练语言模型适配网络的跨模态视频片段检索方法
CN116955699A (zh) * 2023-07-18 2023-10-27 北京邮电大学 一种视频跨模态搜索模型训练方法、搜索方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI774270B (zh) * 2021-03-12 2022-08-11 瑞昱半導體股份有限公司 電影偵測系統及電影偵測方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719144A (zh) * 2009-11-04 2010-06-02 中国科学院声学研究所 一种联合字幕和视频图像信息进行场景分割和索引的方法
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN116109978A (zh) * 2023-02-09 2023-05-12 杭州电子科技大学 基于自约束动态文本特征的无监督视频描述方法
CN116662609A (zh) * 2023-06-13 2023-08-29 杭州电子科技大学 基于预训练语言模型适配网络的跨模态视频片段检索方法
CN116955699A (zh) * 2023-07-18 2023-10-27 北京邮电大学 一种视频跨模态搜索模型训练方法、搜索方法及装置

Also Published As

Publication number Publication date
CN117478978A (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
Wu et al. Nüwa: Visual synthesis pre-training for neural visual world creation
US11636283B2 (en) Committed information rate variational autoencoders
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
CN112771578B (zh) 使用细分缩放和深度上缩放的图像生成
CN117478978B (zh) 一种文本生成电影视频片段的方法、系统和设备
CN108985370B (zh) 图像标注语句自动生成方法
Chen et al. MICU: Image super-resolution via multi-level information compensation and U-net
US20230401672A1 (en) Video processing method and apparatus, computer device, and storage medium
KR102621355B1 (ko) 미세 구조 마스크를 사용한 다중 스케일 인자 이미지 슈퍼 해상도
CN116563399A (zh) 一种基于扩散模型和生成对抗网络的图像生成方法
CN116402679A (zh) 一种轻量级红外超分辨率自适应重建方法
CN116524307A (zh) 一种基于扩散模型的自监督预训练方法
Dong et al. Hr-prgan: High-resolution story visualization with progressive generative adversarial networks
WO2022205416A1 (zh) 一种基于生成式对抗网络的人脸表情生成方法
CN116980541B (zh) 视频编辑方法、装置、电子设备以及存储介质
CN117576248A (zh) 基于姿态引导的图像生成方法和装置
CN117115713A (zh) 动态图像生成方法及其装置、设备、介质
CN116884004A (zh) 图像处理方法、装置、电子设备和存储介质
US20230409899A1 (en) Computer vision neural networks with learned tokenization
CN111339734A (zh) 一种基于文本生成图像的方法
Peng Super-resolution reconstruction using multiconnection deep residual network combined an improved loss function for single-frame image
KR102526263B1 (ko) 이미지 다중 캡션 자동 생성 방법 및 시스템
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
Xiao et al. Gaze prediction based on long short-term memory convolution with associated features of video frames

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant