CN116320659A - 视频生成方法及装置 - Google Patents
视频生成方法及装置 Download PDFInfo
- Publication number
- CN116320659A CN116320659A CN202310246026.3A CN202310246026A CN116320659A CN 116320659 A CN116320659 A CN 116320659A CN 202310246026 A CN202310246026 A CN 202310246026A CN 116320659 A CN116320659 A CN 116320659A
- Authority
- CN
- China
- Prior art keywords
- sub
- text
- video
- videos
- embedded features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000012549 training Methods 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 62
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种视频生成方法及装置,该方法包括:获取目标文本,并将所述目标文本分为若干子文本;提取所述子文本的嵌入特征,并将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配,得到所述子文本对应的视频;拼接每个所述子文本对应的视频,得到目标视频。本公开根据已知文本检索得到若干视频片段,并拼接生成与已知文本匹配的视频,与相关技术中通过拼接图片生成视频的方案相比,生成的视频的连贯性较好。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种视频生成方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着计算机技术的发展,越来越多的内容以视频的方式呈现,与之相对应的,视频剪辑工作的需求量逐渐增大。
现有技术中,通常采用根据用户输入的文本搜索得到若干图片,再将这些图片拼接起来的技术方案,以实现根据文本自动生成视频的效果。
然而,通过上述方案生成的视频中,图片之间相关性较差,因此,生成的视频的连贯性较差。
发明内容
有鉴于此,本公开的目的在于提出一种视频生成方法及装置。
基于上述目的,本公开示例性实施例提供了一种视频生成方法,包括:
获取目标文本,并将所述目标文本分为若干子文本;
提取所述子文本的嵌入特征,并将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配,得到所述子文本对应的视频;
拼接每个所述子文本对应的视频,得到目标视频。
基于同一发明构思,本公开示例性实施例还提供了一种视频生成装置,包括:
文本获取模块,被配置为获取目标文本,并将所述目标文本分为若干子文本;
视频检索模块,被配置为提取所述子文本的嵌入特征,并将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配,得到所述子文本对应的视频;
视频拼接模块,被配置为拼接每个所述子文本对应的视频,得到目标视频。
基于同一发明构思,本公开示例性实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一项所述的方法。
基于同一发明构思,本公开示例性实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上任一所述方法。
基于同一发明构思,本公开示例性实施例还提供了一种计算机程序产品,包括计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行如上任意一项所述的方法。
从上面所述可以看出,本公开实施例提供的视频生成方法及装置,该方法包括:获取目标文本,并将所述目标文本分为若干子文本;提取所述子文本的嵌入特征,并将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配,得到所述子文本对应的视频;拼接每个所述子文本对应的视频,得到目标视频。本公开根据已知文本检索得到若干视频片段,并拼接生成与已知文本匹配的视频,与相关技术中通过拼接图片生成视频的方案相比,生成的视频的连贯性较好。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的视频生成方法的一种应用场景示意图;
图2为本公开实施例提供的视频生成方法的一种流程示意图;
图3为本公开实施例提供的视频生成方法的另一种流程示意图;
图4为本公开实施例提供的视频生成装置的一种结构示意图;
图5为本公开实施例提供的电子设备的一种结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
参考图1,其为本公开实施例提供的视频生成方法的一种应用场景示意图。
该应用场景包括终端设备101、服务器102和数据存储系统103。其中,终端设备101、服务器102以及数据存储系统103之间均可通过有线或无线的通信网络连接。终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、个人数字助理(personal digital assistant,PDA)或其它能够实现上述功能的电子设备等。服务器102和数据存储系统103均可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
服务器102用于向终端设备101的用户提供视频生成服务,终端设备101中安装有与服务器102通信的客户端,用户可通过该客户端输入目标文本,客户端将目标文本发送给服务器102,服务器102将所述目标文本分为若干子文本;提取所述子文本的嵌入特征,并将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配,得到所述子文本对应的视频;拼接每个所述子文本对应的视频,得到目标视频,将目标视频发送给客户端,客户端向用户展示目标视频。
数据存储系统103中存储有大量视频的嵌入特征及视频本身。
下面结合图1的应用场景,来描述根据本公开示例性实施方式的视频生成方法。需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
参考图2,其为本公开实施例提供的视频生成方法的一种流程示意图。
视频生成方法,包括以下步骤:
步骤S210、获取目标文本,并将所述目标文本分为若干子文本。
在一些示例性实施例中,将目标文本分为子文本的方法,包括:
根据所述目标文本中的标点符号,将所述目标文本分为若干所述子文本。
可选的,目标文本中的标点符号可以是句末点号,句末点号是用于句末的点号,表示句末停顿和句子的语气,例如:句号、问号和叹号等。
在一些示例性实施例中,所述将所述目标文本分为若干所述子文本之后,还包括:
计算所述子文本中字符的数量;
响应于确定所述数量小于预设的第一数量阈值,将所述子文本与相邻的子文本合并,直到合并得到的子文本中字符的数量大于或等于所述第一数量阈值;
响应于确定所述数量大于预设的第二数量阈值,根据所述子文本中的标点符号,将所述子文本拆分为若干子文本,直到拆分得到的子文本中字符的数量小于或等于所述第二数量阈值。
可选的,子文本中的标点符号可以是句内点号,句内点号是用于句内的点号,表示句内各种不同性质的停顿,例如:逗号、顿号、分号和冒号等。
其中,当子文本中字符的数量过少时,提取特征的准确性较低;当子文本中字符的数量过多时,提取特征的效率较低。通过上述实施例,可以将子文本中字符的数量控制在一个合理的范围内,在保证准确性的基础上提高效率。
步骤S220、提取所述子文本的嵌入特征,并将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配,得到所述子文本对应的视频。
在一些示例性实施例中,提取子文本的嵌入特征的方法,包括:
提取所述子文本的关键词,并提取所述关键词的嵌入特征,作为所述子文本的嵌入特征。
可选的,可以通过TF-IDF算法、TextRank算法和LDA(Latent DirichletAllocation,三层贝叶斯概率模型)算法中的至少一种算法提取子文本的关键词,本公开对于提取子文本的关键词的方法不做限定。
可选的,可以通过机器学习算法提取关键词的嵌入特征,作为一个示例,可以通过GPT-2模型提取关键词的嵌入特征。
在一些示例性实施例中,提取视频的嵌入特征的方法,包括:
将所述视频转换为若干图像帧;
将所述图像帧转换为若干子图像帧,并将所述子图像帧映射到嵌入序列,得到所述视频的嵌入特征。
可选的,提取视频的嵌入特征的方法,具体包括:
将视频采样为若干图像帧;
将图像帧转换为若干展平的2D patches;
通过线性patch嵌入层将patches映射到1D嵌入序列,并输入ViT模型,得到ViT模型输出的视频的嵌入特征。
在一些示例性实施例中,匹配子文本的嵌入特征与视频的嵌入特征的方法,包括:
对所述子文本的嵌入特征和所述视频的嵌入特征进行归一化,得到归一化文本嵌入特征和归一化视频嵌入特征;
计算所述归一化文本嵌入特征和所述归一化视频嵌入特征的相似度,将若干所述相似度中值最大的所述相似度对应的视频,作为所述子文本对应的视频。
在一些实施例中,文本和视频的相似度的计算公式如下:
其中,s(vi,tj)表示视频vi和文本tj的相似度,wj表示文本tj的特征,zi表示视频vi的特征。
可选的,相似度的范围在0至1之间,越匹配的文本和视频的相似度越接近1,越不匹配的文本和视频的相似度越接近0。
步骤S230、拼接每个所述子文本对应的视频,得到目标视频。
在一些示例性实施例中,根据每个所述子文本在所述目标文本中的顺序,拼接每个所述子文本对应的视频,得到所述目标视频。
从上面所述可以看出,本公开实施例提供的视频生成方法,包括:获取目标文本,并将所述目标文本分为若干子文本;提取所述子文本的嵌入特征,并将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配,得到所述子文本对应的视频;拼接每个所述子文本对应的视频,得到目标视频。本公开根据已知文本检索得到若干视频片段,并拼接生成与已知文本匹配的视频,与相关技术中通过拼接图片生成视频的方案相比,生成的视频的连贯性较好。
参考图3,其为本公开实施例提供的视频生成方法的另一种流程示意图。
视频生成方法,包括以下步骤:
步骤S210、获取目标文本,并将所述目标文本分为若干子文本。
在一些示例性实施例中,将目标文本分为子文本的方法,包括:
根据所述目标文本中的标点符号,将所述目标文本分为若干所述子文本。
步骤S220、提取所述子文本的嵌入特征,并将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配,得到所述子文本对应的视频。
在一些示例性实施例中,提取子文本的嵌入特征的方法,包括:
提取所述子文本的关键词,并提取所述关键词的嵌入特征,作为所述子文本的嵌入特征。
在一些示例性实施例中,提取视频的嵌入特征的方法,包括:
将所述视频转换为若干图像帧;
将所述图像帧转换为若干子图像帧,并将所述子图像帧映射到嵌入序列,得到所述视频的嵌入特征。
在一些示例性实施例中,匹配子文本的嵌入特征与视频的嵌入特征的方法,包括:
对所述子文本的嵌入特征和所述视频的嵌入特征进行归一化,得到归一化文本嵌入特征和归一化视频嵌入特征;
计算所述归一化文本嵌入特征和所述归一化视频嵌入特征的相似度,将若干所述相似度中值最大的所述相似度对应的视频,作为所述子文本对应的视频。
步骤S230、将所述子文本对应的视频分为若干子视频,并将所述子文本与所述子视频进行匹配,得到所述子文本对应的子视频。
在一些示例性实施例中,将子文本对应的视频分为子视频的方法,包括:
将所述子文本转换为音频,确定所述音频的时长,并根据所述时长将所述视频分为若干所述子视频。
其中,根据子文本对应的音频的时长控制子文本对应的视频的时长,得到的子文本对应的视频更加合理,视听效果更好。
在一些示例性实施例中,将子文本对应的视频分为子视频的方法,包括:
将所述视频转换为若干图像帧;
计算所述子文本与每个所述图像帧的相似度,将若干所述图像帧中所述相似度大于预设的相似度阈值的所述图像帧,作为备选图像帧;
拼接所述备选图像帧,得到若干所述子视频。
可选的,按照备选图像帧原有的时间顺序,拼接得到若干子视频。
其中,对于视频中的图像帧进行初筛,过滤了视频中与子文本关联较弱的图像帧。
需要说明的是,与上述仅按照时长划分得到子视频的方式不同的是,在仅按照时长划分得到子视频的方式中,仍然可能存在与子文本关联较弱的图像帧,这些图像帧会影响最终得到的子视频与文本的相似度,假设在一个子视频中,其中一部分图像帧与文本的相似度极高,但是另一部分图像帧与文本的相似度极低,那么,该子视频可能会因为平均相似度较低而不被选择,这显然是不足的。而在本实施例在,由于预先过滤了与子文本关联较弱的图像帧,则不存在这种情况。
可选的,所述拼接所述备选图像帧,得到若干子视频,包括:
将所述子文本转换为音频,确定所述音频的时长;
根据所述时长拼接所述备选图像帧,得到若干所述子视频。
在一些示例性实施例中,所述将所述子文本与所述子视频进行匹配,得到所述子文本对应的子视频,包括:
计算所述子文本与每个所述子视频的相似度,将所述子视频中所述相似度最高的子视频,作为所述子文本对应的子视频。
在一些实施例中,文本和视频的相似度的计算公式如下:
其中,s(vi,tj)表示视频vi和文本tj的相似度,wj表示文本tj的特征,zi表示视频vi的特征。
在一些示例性实施例中,所述将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配,包括:
基于预先训练的匹配模型,将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配;
所述方法还包括:
获取训练用文本和训练用视频,以及所述训练用文本和所述训练用视频对应的相似度标签;
提取所述训练用文本的嵌入特征和所述训练用视频的嵌入特征;
根据所述训练用文本的嵌入特征和所述训练用视频的嵌入特征,基于预先构建的所述匹配模型,得到所述训练用文本和所述训练用视频对应的相似度预测结果;
根据所述相似度标签和所述相似度预测结果,基于预设的损失函数,训练所述匹配模型。
在一些示例性实施例中,损失函数为:
其中,Lv2t表示第一损失,Lt2v表示第二损失,L表示总损失;vi表示视频,tj表示文本,B表示batch size,s(vi,tj)表示视频vi和文本tj的相似度。
在一些示例性实施例中,所述匹配模型中包含文本特征提取网络和视频特征提取网络;
通过所述文本特征提取网络提取所述训练用文本的嵌入特征;
通过所述视频特征提取网络提取所述训练用视频的嵌入特征。
在一些示例性实施例中,根据上述损失函数,基于反向传播,训练所述文本特征提取网络和所述视频特征提取网络。
在一些示例性实施例中,所述得到所述子文本对应的视频之后,所述方法还包括:
计算相邻所述子文本对应的视频之间的连贯性得分;其中,所述连贯性得分为两个所述视频对应的相似度的乘积;
响应于所述连贯性得分小于连贯性得分阈值,重新确定所述子文本对应的视频。
其中,所述连贯性得分越大,说明两个视频的连贯性越好。
可选的,连贯性得分阈值可以预先配置,也可以根据当前视频的连贯性得分的平均数或者中位数确定。
步骤S240、拼接每个所述子文本对应的子视频,得到所述目标视频。
在一些示例性实施例中,根据每个所述子文本在所述目标文本中的顺序,拼接每个所述子文本对应的子视频,得到所述目标视频。
在一些示例性实施例中,所述得到所述目标视频之后,所述方法还包括:
将所述目标文本嵌入所述目标视频。
可选的,将每个所述子文本嵌入所述子文本对应的视频或者子视频。
在一些示例性实施例中,所述得到所述目标视频之后,所述方法还包括:
检测所述目标视频中是否存在字幕或水印;
响应于确定所述目标视频中存在字幕或水印,去除所述字幕或所述水印。
从上面所述可以看出,本公开实施例提供的视频生成方法,包括:获取目标文本,并将所述目标文本分为若干子文本;提取所述子文本的嵌入特征,并将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配,得到所述子文本对应的视频;拼接每个所述子文本对应的视频,得到目标视频。本公开根据已知文本检索得到若干视频片段,并拼接生成与已知文本匹配的视频,与相关技术中通过拼接图片生成视频的方案相比,生成的视频的连贯性较好。
进一步的,对于初步检索得到的子文本对应的视频进行进一步处理和匹配,进一步提高了已知文本与生成视频的相关性和契合度。
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种视频生成装置。
参考图4,所述视频生成装置,包括:
文本获取模块410,被配置为获取目标文本,并将所述目标文本分为若干子文本;
视频检索模块420,被配置为提取所述子文本的嵌入特征,并将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配,得到所述子文本对应的视频;
视频拼接模块430,被配置为拼接每个所述子文本对应的视频,得到目标视频。
在一些示例性实施例中,所述得到所述子文本对应的视频之后,视频检索模块420,还被配置为:
将所述子文本对应的视频分为若干子视频;
将所述子文本与所述子视频进行匹配,得到所述子文本对应的子视频;
视频拼接模块430,还被配置为:
拼接每个所述子文本对应的子视频,得到所述目标视频。
在一些示例性实施例中,视频检索模块420,还被配置为:
将所述子文本转换为音频,确定所述音频的时长,并根据所述时长将所述视频分为若干所述子视频。
在一些示例性实施例中,视频检索模块420,还被配置为:
将所述视频转换为若干图像帧;
计算所述子文本与每个所述图像帧的相似度,将若干所述图像帧中所述相似度大于预设的相似度阈值的所述图像帧,作为备选图像帧;
拼接所述备选图像帧,得到若干所述子视频。
在一些示例性实施例中,视频检索模块420,还被配置为:
将所述子文本转换为音频,确定所述音频的时长;
根据所述时长拼接所述备选图像帧,得到若干所述子视频。
在一些示例性实施例中,视频检索模块420,还被配置为:
计算所述子文本与每个所述子视频的相似度,将所述子视频中所述相似度最高的子视频,作为所述子文本对应的子视频。
在一些示例性实施例中,视频检索模块420,具体被配置为:
对所述子文本的嵌入特征和所述视频的嵌入特征进行归一化,得到归一化文本嵌入特征和归一化视频嵌入特征;
计算所述归一化文本嵌入特征和所述归一化视频嵌入特征的相似度,将若干所述相似度中值最大的所述相似度对应的视频,作为所述子文本对应的视频。
在一些示例性实施例中,视频检索模块420,还被配置为:
计算相邻所述子文本对应的视频之间的连贯性得分;其中,所述连贯性得分为两个所述视频对应的相似度的乘积;
响应于所述连贯性得分小于连贯性得分阈值,重新确定所述子文本对应的视频。
在一些示例性实施例中,视频检索模块420,还被配置为:
基于预先训练的匹配模型,将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配;
具体被配置为:
获取训练用文本和训练用视频,以及所述训练用文本和所述训练用视频对应的相似度标签;
提取所述训练用文本的嵌入特征和所述训练用视频的嵌入特征;
根据所述训练用文本的嵌入特征和所述训练用视频的嵌入特征,基于预先构建的所述匹配模型,得到所述训练用文本和所述训练用视频对应的相似度预测结果;
根据所述相似度标签和所述相似度预测结果,基于预设的损失函数,训练所述匹配模型。
在一些示例性实施例中,视频检索模块420,还被配置为:
获取视频,并将所述视频转换为若干图像帧;
将所述图像帧转换为若干子图像帧,并将所述子图像帧映射到嵌入序列,得到所述视频的嵌入特征。
在一些示例性实施例中,视频检索模块420,具体被配置为:
提取所述子文本的关键词,并提取所述关键词的嵌入特征,作为所述子文本的嵌入特征。
在一些示例性实施例中,文本获取模块410,具体被配置为:
根据所述目标文本中的标点符号,将所述目标文本分为若干所述子文本。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的视频生成方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的视频生成方法。
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的视频生成方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的视频生成方法。
上述非暂态计算机可读存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上示例性方法部分中任一实施例所述的视频生成方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
本领域技术技术人员知道,本公开的实施方式可以实现为一种系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本公开还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。元素前的冠词“一”或“一个”不排除多个这种元素的存在。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的分也不意味着这些方面中的特征不能组合以进行受益,这种分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。
Claims (15)
1.一种视频生成方法,其特征在于,包括:
获取目标文本,并将所述目标文本分为若干子文本;
提取所述子文本的嵌入特征,并将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配,得到所述子文本对应的视频;
拼接每个所述子文本对应的视频,得到目标视频。
2.根据权利要求1所述的方法,其特征在于,所述得到所述子文本对应的视频之后,所述方法还包括:
将所述子文本对应的视频分为若干子视频;
将所述子文本与所述子视频进行匹配,得到所述子文本对应的子视频;
所述拼接每个所述子文本对应的视频,得到目标视频,包括:
拼接每个所述子文本对应的子视频,得到所述目标视频。
3.根据权利要求2所述的方法,其特征在于,所述将所述子文本对应的视频分为若干子视频,包括:
将所述子文本转换为音频,确定所述音频的时长,并根据所述时长将所述视频分为若干所述子视频。
4.根据权利要求2所述的方法,其特征在于,所述将所述子文本对应的视频分为若干子视频,包括:
将所述视频转换为若干图像帧;
计算所述子文本与每个所述图像帧的相似度,将若干所述图像帧中所述相似度大于预设的相似度阈值的所述图像帧,作为备选图像帧;
拼接所述备选图像帧,得到若干所述子视频。
5.根据权利要求4所述的方法,其特征在于,所述拼接所述备选图像帧,得到若干子视频,包括:
将所述子文本转换为音频,确定所述音频的时长;
根据所述时长拼接所述备选图像帧,得到若干所述子视频。
6.根据权利要求2所述的方法,其特征在于,所述将所述子文本与所述子视频进行匹配,得到所述子文本对应的子视频,包括:
计算所述子文本与每个所述子视频的相似度,将所述子视频中所述相似度最高的子视频,作为所述子文本对应的子视频。
7.根据权利要求1所述的方法,其特征在于,所述将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配,得到所述子文本对应的视频,包括:
对所述子文本的嵌入特征和所述视频的嵌入特征进行归一化,得到归一化文本嵌入特征和归一化视频嵌入特征;
计算所述归一化文本嵌入特征和所述归一化视频嵌入特征的相似度,将若干所述相似度中值最大的所述相似度对应的视频,作为所述子文本对应的视频。
8.根据权利要求7所述的方法,其特征在于,所述得到所述子文本对应的视频之后,所述方法还包括:
计算相邻所述子文本对应的视频之间的连贯性得分;其中,所述连贯性得分为两个所述视频对应的相似度的乘积;
响应于所述连贯性得分小于连贯性得分阈值,重新确定所述子文本对应的视频。
9.根据权利要求1所述的方法,其特征在于,所述将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配,包括:
基于预先训练的匹配模型,将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配;
所述方法还包括:
获取训练用文本和训练用视频,以及所述训练用文本和所述训练用视频对应的相似度标签;
提取所述训练用文本的嵌入特征和所述训练用视频的嵌入特征;
根据所述训练用文本的嵌入特征和所述训练用视频的嵌入特征,基于预先构建的所述匹配模型,得到所述训练用文本和所述训练用视频对应的相似度预测结果;
根据所述相似度标签和所述相似度预测结果,基于预设的损失函数,训练所述匹配模型。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取视频,并将所述视频转换为若干图像帧;
将所述图像帧转换为若干子图像帧,并将所述子图像帧映射到嵌入序列,得到所述视频的嵌入特征。
11.根据权利要求1所述的方法,其特征在于,所述提取所述子文本的嵌入特征,包括:
提取所述子文本的关键词,并提取所述关键词的嵌入特征,作为所述子文本的嵌入特征。
12.一种视频生成装置,其特征在于,包括:
文本获取模块,被配置为获取目标文本,并将所述目标文本分为若干子文本;
视频检索模块,被配置为提取所述子文本的嵌入特征,并将所述子文本的嵌入特征与预先构建的若干视频的嵌入特征进行匹配,得到所述子文本对应的视频;
视频拼接模块,被配置为拼接每个所述子文本对应的视频,得到目标视频。
13.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至11任意一项所述的方法。
14.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至11任一所述方法。
15.一种计算机程序产品,其特征在于,包括计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行如权利要求1至11任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310246026.3A CN116320659A (zh) | 2023-03-08 | 2023-03-08 | 视频生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310246026.3A CN116320659A (zh) | 2023-03-08 | 2023-03-08 | 视频生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116320659A true CN116320659A (zh) | 2023-06-23 |
Family
ID=86802672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310246026.3A Pending CN116320659A (zh) | 2023-03-08 | 2023-03-08 | 视频生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116320659A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095085A (zh) * | 2023-08-24 | 2023-11-21 | 摩尔线程智能科技(北京)有限责任公司 | 视频生成方法和装置、介质和计算机设备 |
-
2023
- 2023-03-08 CN CN202310246026.3A patent/CN116320659A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095085A (zh) * | 2023-08-24 | 2023-11-21 | 摩尔线程智能科技(北京)有限责任公司 | 视频生成方法和装置、介质和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10303768B2 (en) | Exploiting multi-modal affect and semantics to assess the persuasiveness of a video | |
CN109145152B (zh) | 一种基于查询词的自适应智能生成图文视频缩略图方法 | |
US9438850B2 (en) | Determining importance of scenes based upon closed captioning data | |
JP6361351B2 (ja) | 発話ワードをランク付けする方法、プログラム及び計算処理システム | |
CN111918094B (zh) | 视频处理方法、装置、电子设备和存储介质 | |
CN104735468B (zh) | 一种基于语义分析将图像合成新视频的方法及系统 | |
CN109543058B (zh) | 用于检测图像的方法、电子设备和计算机可读介质 | |
US20200134398A1 (en) | Determining intent from multimodal content embedded in a common geometric space | |
WO2018045646A1 (zh) | 基于人工智能的人机交互方法和装置 | |
JP7394809B2 (ja) | ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム | |
CN115082602B (zh) | 生成数字人的方法、模型的训练方法、装置、设备和介质 | |
CN110263340B (zh) | 评论生成方法、装置、服务器及存储介质 | |
WO2020103899A1 (zh) | 用于生成图文信息的方法和用于生成图像数据库的方法 | |
WO2021134524A1 (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN109582825B (zh) | 用于生成信息的方法和装置 | |
CN112703495A (zh) | 利用实体链接和本体数据推断主题 | |
CN112287168A (zh) | 用于生成视频的方法和装置 | |
US20230325611A1 (en) | Video translation platform | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN116320659A (zh) | 视频生成方法及装置 | |
CN112182255A (zh) | 用于存储媒体文件和用于检索媒体文件的方法和装置 | |
CN111126084A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
CN111488450A (zh) | 一种用于生成关键词库的方法、装置和电子设备 | |
CN116978028A (zh) | 视频处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |