CN113641854A - 一种将文字转化为视频的方法及系统 - Google Patents

一种将文字转化为视频的方法及系统 Download PDF

Info

Publication number
CN113641854A
CN113641854A CN202110859406.5A CN202110859406A CN113641854A CN 113641854 A CN113641854 A CN 113641854A CN 202110859406 A CN202110859406 A CN 202110859406A CN 113641854 A CN113641854 A CN 113641854A
Authority
CN
China
Prior art keywords
sentence
video
sequence
neural network
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110859406.5A
Other languages
English (en)
Other versions
CN113641854B (zh
Inventor
吉长江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yingpu Technology Co Ltd
Original Assignee
Shanghai Yingpu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yingpu Technology Co Ltd filed Critical Shanghai Yingpu Technology Co Ltd
Priority to CN202110859406.5A priority Critical patent/CN113641854B/zh
Publication of CN113641854A publication Critical patent/CN113641854A/zh
Application granted granted Critical
Publication of CN113641854B publication Critical patent/CN113641854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/743Browsing; Visualisation therefor a collection of video files or sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种将文字转化为视频的方法及系统,在本申请提供的方法中,先获取待转换文本信息,提取待转换文本信息包含的至少一个语句;再获取各语句对应的特征向量,基于各语句对应的特征向量生成待转换文本信息对应的句子流序列;然后将句子流序列输入预先训练的递归神经网络模型,以通过递归神经网络模型生成与句子流序列对应的视频风格特征参数;最后基于视频风格特征参数生成待转换文本信息对应的语义视频序列。基于本申请提供的一种将文字转化为视频的方法及系统,可提取文本与视频的关键性信息,并通过相似度计算提取视频,最终合成与文本信息相符的视频序列。

Description

一种将文字转化为视频的方法及系统
技术领域
本申请涉及视频处理技术领域,特别是涉及一种将文字转化为视频的方法及系统。
背景技术
随着多媒体信息技术的不断发展,文字、音频、图像、视频的使用和转化与人们生活工作越来越密切,现在开发出许多的技术应用在模态之间的相互转换,可以在社交媒体上将语音转化成文字,还可以在阅读软件上将文字转化成语音,将“看书”转为“听书”。
对于文字转化视频技术,现有技术方案主要依赖于场景分割和字符命名,视频内容变化和场景语义转换之间的基本对应关系还没有得到充分的研究,且大多研究只着眼于单个自然句子和视频之间的关系,并且通常需要大量的手工工作来注释材料内容。因此,文字转化视频不仅仅成为亟待研究的科研领域,而且还是市场需求的新的风向标。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种将文字转化为视频的方法,包括:
获取待转换文本信息,提取所述待转换文本信息包含的至少一个语句;
获取各所述语句对应的特征向量,基于各所述语句对应的特征向量生成所述待转换文本信息对应的句子流序列;
将所述句子流序列输入预先训练的递归神经网络模型,以通过所述递归神经网络模型生成与所述句子流序列对应的视频风格特征参数;
基于所述视频风格特征参数生成所述待转换文本信息对应的语义视频序列。
可选地,所述将所述句子流序列输入预先训练的递归神经网络模型,以通过所述递归神经网络模型循环计算并生成与所述句子流序列对应的视频风格特征参数,包括:
将所述句子流序列输入预先训练的递归神经网络模型,以通过所述递归神经网络模型循环计算出与所述句子流序列对应的视频序列;其中,所述句子流序列的长度与所述视频序列的长度相同;
将所述句子流序列和所述视频序列进行组合,利用目标函数生成与所述句子流序列对应的视频风格特征参数。
可选地,所述将所述句子流序列输入预先训练的递归神经网络模型,以通过所述递归神经网络模型循环计算出与所述句子流序列对应的视频序列,包括:
将所述句子流序列中的第一语句对应的第一特征向量输入所述递归神经网络模型中的循环计算单元,由所述循环计算单元计算输出与所述第一语句对应的第一视频特征参数;
将所述句子流序列中的第二语句对应的第二特征向量和所述第一视频特征参数输入所述循环计算单元,由所述循环计算单元计算输出与所述第二个语句对应的第二视频特征参数;其中,所述第二语句和所述第一语句连续;
将所述句子流序列中的第N语句对应的第N特征向量和第N-1语句对应的第N-1视频特征参数输入所述循环计算单元中,由所述循环计算单元计算输出与所述第N语句对应的第N视频特征参数;
将所述循环计算单元输出与各语句对应的视频特征参数进行组合,生成所述句子流序列对应的视频序列。
可选地,所述将所述句子流序列和所述视频序列进行组合,利用目标函数生成与所述句子流序列对应的视频风格特征参数,包括:
利用对比损失函数对所述句子流序列和所述视频序列进行一致性建模;
采用结构化回归方式在所述句子流序列和所述视频序列之间建立映射关系,并使用密度函数进行连贯性建模;
基于所述一致性建模的结果和所述连贯性建模的结果生成与所述句子流序列对应的视频风格特征参数。
可选地,所述采用结构化回归方式在所述句子流序列和所述视频序列之间建立映射关系,并使用密度函数进行连贯性建模,包括:
基于所述递归神经网络模型提取所述待转换文本信息的文本相似度矩阵;
基于所述句子流序列对应的视频风格特征参数建立视觉相似度矩阵;
通过设定融合权值将所述文本相似度矩阵和所述视觉相似度矩阵进行融合,以计算所述句子流序列和所述视频序列的对偶相似性。
根据本申请的另一个方面,提供了一种将文字转化为视频的系统,包括:
待转换文本信息提取模块,其配置成获取待转换文本信息,提取所述待转换文本信息包含的至少一个语句;
句子流序列生成模块,其配置成获取各所述语句对应的特征向量,基于各所述语句对应的特征向量生成所述待转换文本信息对应的句子流序列;
视频风格特征参数生成模块,其配置成将所述句子流序列输入预先训练的递归神经网络模型,以通过所述递归神经网络模型生成与所述句子流序列对应的视频风格特征参数;
语义视频序列组成模块,其配置成基于所述视频风格特征参数生成所述待转换文本信息对应的语义视频序列。
可选地,所述视频风格特征参数生成模块,其还配置成:
将所述句子流序列输入预先训练的递归神经网络模型,以通过所述递归神经网络模型循环计算出与所述句子流序列对应的视频序列;其中,所述句子流序列的长度与所述视频序列的长度相同;
将所述句子流序列和所述视频序列进行组合,利用目标函数生成与所述句子流序列对应的视频风格特征参数。
可选地,所述视频风格特征参数生成模块,其还配置成:
将所述句子流序列中的第一语句对应的第一特征向量输入所述递归神经网络模型中的循环计算单元,由所述循环计算单元计算输出与所述第一语句对应的第一视频特征参数;
将所述句子流序列中的第二语句对应的第二特征向量和所述第一视频特征参数输入所述循环计算单元,由所述循环计算单元计算输出与所述第二个语句对应的第二视频特征参数;其中,所述第二语句和所述第一语句连续;
将所述句子流序列中的第N语句对应的第N特征向量和第N-1语句对应的第N-1视频特征参数输入所述循环计算单元中,由所述循环计算单元计算输出与所述第N语句对应的第N视频特征参数;
将所述循环计算单元输出与各语句对应的视频特征参数进行组合,生成所述句子流序列对应的视频序列。
可选地,所述视频风格特征参数生成模块,其还配置成:
利用对比损失函数对所述句子流序列和所述视频序列进行一致性建模;
采用结构化回归方式在所述句子流序列和所述视频序列之间建立映射关系,并使用密度函数进行连贯性建模;
基于所述一致性建模的结果和所述连贯性建模的结果生成与所述句子流序列对应的视频风格特征参数。
可选地,所述视频风格特征参数生成模块,其还配置成:
基于所述递归神经网络模型提取所述待转换文本信息的文本相似度矩阵;
基于所述句子流序列对应的视频风格特征参数建立视觉相似度矩阵;
通过设定融合权值将所述文本相似度矩阵和所述视觉相似度矩阵进行融合,以计算所述句子流序列和所述视频序列的对偶相似性。
本申请提供了一种将文字转化为视频的方法及系统,在本申请提供的方法中,先获取待转换文本信息,提取待转换文本信息包含的至少一个语句;再获取各语句对应的特征向量,基于各语句对应的特征向量生成待转换文本信息对应的句子流序列;然后将句子流序列输入预先训练的递归神经网络模型,以通过递归神经网络模型生成与句子流序列对应的视频风格特征参数;最后基于视频风格特征参数生成待转换文本信息对应的语义视频序列。基于本申请提供的将文字转化为视频的方法及系统,通过提取文本与视频的关键性信息,并进行相似度计算后进行提取视频,本申请提供的方法无需手工注释材料内容,能够从文本信息的整体语义出发,最终合成与文本信息相符的最佳视频序列。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请实施例的将文字转化为视频的方法流程示意图;
图2是根据本申请实施例的递归神经网络工作流程示意图;
图3是根据本申请实施例的将文字转化为视频的系统结构示意图;
图4是根据本申请实施例的计算设备示意图;
图5是根据本社情实施例的计算机可读存储介质示意图。
具体实施方式
图1是根据本申请实施例的一种将文字转化为视频的方法流程示意图。参见图1所知,本申请实施例提供的一种将文字转化为视频的方法可以包括:
步骤S101:获取待转换文本信息,提取待转换文本信息包含的至少一个语句;
步骤S102:获取各语句对应的特征向量,基于各语句对应的特征向量生成待转换文本信息对应的句子流序列;
步骤S103:将句子流序列输入预先训练的递归神经网络模型,以通过递归神经网络模型生成与句子流序列对应的视频风格特征参数;
步骤S104:基于视频风格特征参数生成待转换文本信息对应的语义视频序列。
本申请提供了一种将文字转化为视频的方法,在本申请提供的方法中,先获取待转换文本信息,提取待转换文本信息包含的至少一个语句;再获取各语句对应的特征向量,基于各语句对应的特征向量生成待转换文本信息对应的句子流序列;然后将句子流序列输入预先训练的递归神经网络模型,以通过递归神经网络模型生成与句子流序列对应的视频风格特征参数;最后基于视频风格特征参数生成待转换文本信息对应的语义视频序列。视频制作任务是学习生成句子流视频的模型,基于本申请提供的将文字转化为视频的方法,通过提取文本与视频的关键性信息,并进行相似度计算后进行提取视频,本申请提供的方法无需手工注释材料内容,能够从文本信息的整体语义出发,最终合成与文本信息相符的最佳视频序列。下面分别对上述步骤进行详细说明。
在本申请提供的文字转化为视频的方法中,可以先获取待转换的文本信息,本实施例中的待转换文本信息可以是任意一段文本信息,例如是对人物、建筑、景点、故事等相关的文本信息。对于一段文本信息,其可以包含多个语句,因此,在获取到待转换文本信息后,可将待转换文本信息包含的每个语句提取出来,可选地,提取语句时,可以利用TextRank算法或是其他算法从文本信息中提取出重要的语句。本实施例中可以将提取出来的语句的数量设定为N。
参见步骤S102,提取出待转换文本信息中的语句之后,可使用文章向量(Documents vector,简称Doc2Vec)和Bert方法分别获取各语句对应的特征向量,基于各语句对应的特征向量生成待转换文本信息对应的句子流序列。本实施例中,对于语句对应的特征向量可记为x,句子流序列可以是个语句对应的特征向量的组合,此处用T表示句子流序列,记为{x1,...,xN},长度为N。
Doc2Vec的目标是创建文档的向量化表示,而不管其长度如何。doc2vec模型的使用方式是对于训练,它需要一组文档。先为每个单词生成词向量,并为每个文档生成文档向量,同时还训练softmax隐藏层的权重。在推理阶段,可以呈现新文档,并且固定所有权重以计算文档向量。
BERT(Bidirectional Encoder Representations from Transformers),本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。
进一步地,生成句子流序列后,如步骤S103所述,将句子流序列输入预先训练的递归神经网络模型,以通过递归神经网络模型生成与句子流序列对应的视频风格特征参数。
递归神经网络是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络,是深度学习算法之一。递归神经网络具有可变的拓扑结构且权重共享,被用于包含结构关系的机器学习任务,在自然语言处理领域有受到关注。本实施例中的递归神经网络模型可以是预先训练至收敛状态,在训练递归神经网络模型时,可预先收集不同类型的大量的视频数据所建立的视频数据集,对于任一视频文件来讲,可提取出视频文件的视频风格特征参数,同时利用视频文件对应的文本内容生成句子流,从而将句子流序列作为输入数据,视频风格特征参数作为输出数据,以完成递归神经网络模型的训练。其中,递归神经网络模型中具有循环计算单元,通过循环计算单元完成输入数据的处理与计算。循环计算单元(gatedrecurrent unit,简称GRU)是一种常用的门控循环神经网络,可以更好地捕捉时间序列中时间步距离较大的依赖关系。
在本发明可选实施例中,上述步骤S103生成与句子流序列对应的视频风格特征参数可以包括:
S1,将句子流序列输入预先训练的递归神经网络模型,以通过递归神经网络模型循环计算出与句子流序列对应的视频序列;其中,视频序列的长度与句子流序列的长度相同,均为N。
具体地,可以先将句子流序列中的第一语句对应的第一特征向量输入递归神经网络模型中的循环计算单元,由循环计算单元计算输出与第一语句对应的第一视频特征参数。
再将句子流序列中的第二语句对应的第二特征向量和第一视频特征参数输入循环计算单元,由循环计算单元计算输出与第二个语句对应的第二视频特征参数;其中,第二语句和第一语句连续。
依次类推,直至将句子流序列中的第N语句对应的第N特征向量和第N-1语句对应的第N-1视频特征参数输入循环计算单元中,由循环计算单元计算输出与第N语句对应的第N视频特征参数。
最后,将循环计算单元输出与各语句对应的视频特征参数进行组合,生成句子流序列对应的视频序列V,即N个视频的特征向量记为{y1,...,yN}。
因为每一个生成的视频特征都需要准确地描绘出对应句子的主要视觉内容,且所制作的视频序列需要在语义和视觉外观上进行连贯的组织,使用GRU利用句子流{x1,…,xN}作为输入,对每个预测的视频特征进行计算:
Figure BDA0003185288830000071
其中:
Xi表示句子特征;
hi-1表示前一个隐藏输出;
yi-1表示前一个视频特征;
N表示句子流序列和视频序列的长度。
上述视频特征计算公式中,循环神经网络能够体现出输入内容的时序关系,其方法为将之前训练内容的输出结果即隐藏层输出与当下输入同时输入网络进行训练,即公式中的前一个隐藏输出。
S2,将句子流序列T和视频序列V进行组合,利用目标函数生成与句子流序列对应的视频风格特征参数,其具体可包括:
S2-1,利用对比损失函数对句子流序列和视频序列进行一致性建模。
为了生成视频特征并精确描述视觉内容,本申请实施例采用对比损失函数,求解以下边际α的对立排序问题:
Figure BDA0003185288830000072
其中
Figure BDA0003185288830000073
是一个评分函数,这个目标函数限制了生成的视频特征与真实视频特征之间的相似度评分至少要高于对比度对
Figure BDA0003185288830000074
的绝对值α。在训练阶段,从训练集中随机抽取对比项,并对每个时期重新采样。
S2-2,采用结构化回归方式在句子流序列和视频序列之间建立映射关系,并使用密度函数进行连贯性建模。
本申请实施例采用结构化回归来探讨序列中不同视觉对象或语义概念之间的关系,先将从句子流到视频序列的映射视为一个结构化回归问题,并使用密度函数对多模态数据的条件概率分布进行建模:
Figure BDA0003185288830000075
其中:
T表示句子流序列;
V表示视频序列;
E表示能量函数,由一元势和成对势的组合来表示,它将待聚类的事物看成一个系统,事物之间的相异程度看成系统元素间的能量,当能力达到一定程度时,事物就形成一个新的类,表示系统需要重新分类,聚类过程中要求每个事物属于一个类,每个簇中不存在能量大于阙值的系统,不同的簇中不存在能量小于阙值的系统;
Z表示配分函数,是一个平衡态统计物理学中经常应用到的概念,经由计算配分函数可以将微观物理状态与宏观物理量相互联系起来。
能量函数E的具体公式如下:
Figure BDA0003185288830000081
在能量函数中,yp为N×Dy维列向量Y的第p个元素,该列向量Y是通过将所有Dy维视频特征串联在{y1,…,yN}中得到的。
类似地,
Figure BDA0003185288830000082
表示从预测的视频特征
Figure BDA0003185288830000083
的并列向量的第p个元素。Rp,q中的对偶势定义为:
Figure BDA0003185288830000084
其中l(p)表示视频序列V中的视频片段,l(q)表示句子流,S被定义为一个相似矩阵,通过定义Rp,q为0,使得当l(p)不等于l(q)时,只考虑不同视频剪辑特征向量中元素之间的关系。
最终将能量函数简化为:
Figure BDA0003185288830000085
其中A=I+D-R,I是单位矩阵,D是对角矩阵Dpp=∑qRpq。由于A为正定,且Y项为二次项,故配分函数的积分可解析计算为:
Figure BDA0003185288830000086
概率分配函数为:
Figure BDA0003185288830000087
将相干损失定义为负条件对数似然:
Figure BDA0003185288830000091
其中,在计算Rp,q中的对偶势定义时,主要计算两种类型的对偶相似性,以探索句子流T和视频序列V中的连贯模式。
在本申请一可选实施例中,探索连贯模式要先基于递归神经网络模型提取待转换文本信息的文本相似度矩阵;再基于句子流序列对应的视频风格特征参数建立视觉相似度矩阵;然后通过设定融合权值将文本相似度矩阵和视觉相似度矩阵进行融合,以计算句子流序列和所述视频序列的对偶相似性。
对于句子流,本申请实施例提取基于实体的话语表示,可以作为文本局部连贯性的自动评估。对于视频序列,本申请实施例通过计算视频的风格特征,以获取不同于传统视觉内容特征的视觉风格特征。最后,将计算出的两个相似度矩阵进行组合。相似矩阵S的每个元素的计算方法如下:
Figure BDA0003185288830000092
其中,St和Sv表示句子和视频在文本和视觉上的相似性。β为融合权值,在优化过程中可以学习到融合权值。文本和视觉上的相似之处的细节如下所示:
①文本相似度:本申请采用的基于句子递归生成视频特征的GRU模型,能够捕捉文本内容的流动,句子的连贯性反映了话语实体之间的分布信息、句法信息和指称信息,连贯性特征侧重于解决整个句流中话语实体(即核心名词短语)的局部转换模式。
首先为每个句子提取解析树,然后,为每个句子创建一个利用二维数组表示的实体网格,用于捕捉句子中话语实体的分布情况。网格的行对应句子,列对应语篇实体。对于句子中出现的每一个篇章实体,相应的网格单元包含其在给定句子中的语法角色的信息。因此,每个网格列对应于一组类别中的字符串,这些类别反映了实体在句子中的存在或不存在。创建实体网格之后,将四种角色类型即:(主语),(宾语),(主语和宾语都不是)和(在所给句子中不出现)替换为四位数字:0、1、2和3,得到每个句子对应于实体网格的一行的特征向量。最后,利用语篇特征向量计算描述视频句子的相似度:
Figure BDA0003185288830000093
②视觉相似度:为了对生成的视频序列的平滑度建模,本申请基于视频的风格特征来定义视觉相似度矩阵,将一个视频片段的特征表示为
Figure BDA0003185288830000094
其中M表示视频中的帧数。视频中局部帧的特征是高维的,若使用降维的方法减少计算量会导致大量细节的损失,本方案不使用单一的大样式矩阵,而是计算多个小样式矩阵,并将它们组合为一个张量。在不损失通用性的前提下,假设局部帧的特征维度是随机顺序的,并将输入的特征向量划分为S组[F1,F2 ,...,FS],对于每个特性组
Figure BDA0003185288830000101
计算一个独立的样式矩阵
Figure BDA0003185288830000102
该方案可以在不损失大量局部特征信息的情况下,将风格矩阵的宽度和高度降低S倍。所有特征组的样式矩阵组合成一个张量
Figure BDA0003185288830000103
得到样式张量后,进一步转化为样式特征向量
Figure BDA0003185288830000104
通过两个卷积层和一个全连通层,最后,利用风格特征向量计算视频l(p)和l(q)的两两视觉相似度:
Figure BDA0003185288830000105
S2-3,基于一致性建模的结果和连贯性建模的结果生成与句子流序列对应的视频风格特征参数,即将一致性建模的结果和连贯性建模的结果通过最小化目标函数来解决视频制作问题:
Figure BDA0003185288830000106
其中:
Figure BDA0003185288830000107
表示一致性建模中的一致性损失;
Figure BDA0003185288830000108
表示连贯性建模中的相干损失;
λ表示控制一致性损失和相干损失之间的权衡,为正参数。
最后,在获取到句子流序列对应的视频风格特征参数,即可执行步骤S104,基于视频风格特征参数生成待转换文本信息对应的语义视频序列。
上述整体过程可参见图2,即,获取到待转换文本信息后,将待转换文本信息对应的句子流序列并输入递归神经网络模型中,经由递归神经网络中的GRU生成对应待转变文本信息中各句子的视频序列后,生成与待转换文本信息中各并生成句子流序列对应的视频风格特征参数,进而基于视频风格特征参数输出与待转换文本对应的语义视频序列,该语义视频序列可结合视频数据集中对应的视频进行整合后输出最终的视频。
本申请实施例提供的将文本转换为视频的方法,通过提取文本与视频的关键性信息,并进行相似度计算后进行提取视频,本申请提供的方法无需手工注释材料内容,并且,通过建立基于文本相似度的相似度矩阵与基于视频相似度的相似度矩阵,将视频与文本进行关联并输出平滑的视频结果,无需手工注释材料内容,即可合成与文本信息相符的最佳视频序列。
基于同一发明构思,如图3所示,本申请实施例还提供了一种将文字转化为视频的系统,包括:
待转换文本信息提取模块310,其配置成获取待转换文本信息,提取待转换文本信息包含的至少一个语句;
句子流序列生成模块320,其配置成获取各语句对应的特征向量,基于各语句对应的特征向量生成待转换文本信息对应的句子流序列;
视频风格特征参数生成模块330,其配置成将句子流序列输入预先训练的递归神经网络模型,以通过递归神经网络模型生成与句子流序列对应的视频风格特征参数;
语义视频序列组成模块340,其配置成基于视频风格特征参数生成待转换文本信息对应的语义视频序列。
在本申请一可选实施例中,视频风格特征参数生成模块330,其还配置成:
将句子流序列输入预先训练的递归神经网络模型,以通过递归神经网络模型循环计算出与句子流序列对应的视频序列;其中,句子流序列的长度与所述视频序列的长度相同;
将句子流序列和视频序列进行组合,利用目标函数生成与句子流序列对应的视频风格特征参数。
在本申请一可选实施例中,视频风格特征参数生成模块330,其还配置成:
将句子流序列中的第一语句对应的第一特征向量输入递归神经网络模型中的循环计算单元,由循环计算单元计算输出与第一语句对应的第一视频特征参数;
将句子流序列中的第二语句对应的第二特征向量和第一视频特征参数输入循环计算单元,由循环计算单元计算输出与第二个语句对应的第二视频特征参数;其中,第二语句和第一语句连续;
将所述句子流序列中的第N语句对应的第N特征向量和第N-1语句对应的第N-1视频特征参数输入循环计算单元中,由循环计算单元计算输出与第N语句对应的第N视频特征参数;
将循环计算单元输出与各语句对应的视频特征参数进行组合,生成句子流序列对应的视频序列。
在本申请一可选实施例中,视频风格特征参数生成模块330,其还配置成:
利用对比损失函数对句子流序列和视频序列进行一致性建模;
采用结构化回归方式在句子流序列和所述视频序列之间建立映射关系,并使用密度函数进行连贯性建模;
基于一致性建模的结果和连贯性建模的结果生成与句子流序列对应的视频风格特征参数。
在本申请一可选实施例中,视频风格特征参数生成模块330,其还配置成:
基于递归神经网络模型提取待转换文本信息的文本相似度矩阵;
基于句子流序列对应的视频风格特征参数建立视觉相似度矩阵;
通过设定融合权值将文本相似度矩阵和视觉相似度矩阵进行融合,以计算句子流序列和视频序列的对偶相似性。
本申请提供了一种将文字转化为视频的方法及系统,在本申请提供的方法中,先获取待转换文本信息,提取待转换文本信息包含的至少一个语句;再获取各语句对应的特征向量,基于各语句对应的特征向量生成待转换文本信息对应的句子流序列;然后将句子流序列输入预先训练的递归神经网络模型,以通过递归神经网络模型生成与句子流序列对应的视频风格特征参数;最后基于视频风格特征参数生成待转换文本信息对应的语义视频序列。基于本申请提供的一种将文字转化为视频的方法及系统,可提取文本与视频的关键性信息,并通过相似度计算提取视频,最终合成与文本信息相符的视频序列。
本申请实施例为一个完全集成的端到端深度学习系统,适用于真实世界的生产,解决了句子流检索视频序列问题;而且通过语义一致性建模,能够有效地挖掘句子与视频片段之间的对应关系;同时,能够很好地建模视觉连贯性,制作出来的视频在视觉外观上组织连贯。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
本申请实施例还提供了一种计算设备,参照图4,该计算设备包括存储器420、处理器410和存储在所述存储器420内并能由所述处理器410运行的计算机程序,该计算机程序存储于存储器420中的用于程序代码的空间430,该计算机程序在由处理器410执行时实现用于执行任一项根据本发明的方法步骤431。
本申请实施例还提供了一种计算机可读存储介质。参照图5,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序431′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种将文字转化为视频的方法,包括:
获取待转换文本信息,提取所述待转换文本信息包含的至少一个语句;
获取各所述语句对应的特征向量,基于各所述语句对应的特征向量生成所述待转换文本信息对应的句子流序列;
将所述句子流序列输入预先训练的递归神经网络模型,以通过所述递归神经网络模型生成与所述句子流序列对应的视频风格特征参数;
基于所述视频风格特征参数生成所述待转换文本信息对应的语义视频序列。
2.根据权利要求1所述的方法,其特征在于,所述将所述句子流序列输入预先训练的递归神经网络模型,以通过所述递归神经网络模型循环计算并生成与所述句子流序列对应的视频风格特征参数,包括:
将所述句子流序列输入预先训练的递归神经网络模型,以通过所述递归神经网络模型循环计算出与所述句子流序列对应的视频序列;其中,所述句子流序列的长度与所述视频序列的长度相同;
将所述句子流序列和所述视频序列进行组合,利用目标函数生成与所述句子流序列对应的视频风格特征参数。
3.根据权利要求2所述的方法,其特征在于,所述将所述句子流序列输入预先训练的递归神经网络模型,以通过所述递归神经网络模型循环计算出与所述句子流序列对应的视频序列,包括:
将所述句子流序列中的第一语句对应的第一特征向量输入所述递归神经网络模型中的循环计算单元,由所述循环计算单元计算输出与所述第一语句对应的第一视频特征参数;
将所述句子流序列中的第二语句对应的第二特征向量和所述第一视频特征参数输入所述循环计算单元,由所述循环计算单元计算输出与所述第二个语句对应的第二视频特征参数;其中,所述第二语句和所述第一语句连续;
将所述句子流序列中的第N语句对应的第N特征向量和第N-1语句对应的第N-1视频特征参数输入所述循环计算单元中,由所述循环计算单元计算输出与所述第N语句对应的第N视频特征参数;
将所述循环计算单元输出与各语句对应的视频特征参数进行组合,生成所述句子流序列对应的视频序列。
4.根据权利要求2所述的方法,其特征在于,所述将所述句子流序列和所述视频序列进行组合,利用目标函数生成与所述句子流序列对应的视频风格特征参数,包括:
利用对比损失函数对所述句子流序列和所述视频序列进行一致性建模;
采用结构化回归方式在所述句子流序列和所述视频序列之间建立映射关系,并使用密度函数进行连贯性建模;
基于所述一致性建模的结果和所述连贯性建模的结果生成与所述句子流序列对应的视频风格特征参数。
5.根据权利要求4所述的方法,其特征在于,所述采用结构化回归方式在所述句子流序列和所述视频序列之间建立映射关系,并使用密度函数进行连贯性建模,包括:
基于所述递归神经网络模型提取所述待转换文本信息的文本相似度矩阵;
基于所述句子流序列对应的视频风格特征参数建立视觉相似度矩阵;
通过设定融合权值将所述文本相似度矩阵和所述视觉相似度矩阵进行融合,以计算所述句子流序列和所述视频序列的对偶相似性。
6.一种将文字转化为视频的系统,包括:
待转换文本信息提取模块,其配置成获取待转换文本信息,提取所述待转换文本信息包含的至少一个语句;
句子流序列生成模块,其配置成获取各所述语句对应的特征向量,基于各所述语句对应的特征向量生成所述待转换文本信息对应的句子流序列;
视频风格特征参数生成模块,其配置成将所述句子流序列输入预先训练的递归神经网络模型,以通过所述递归神经网络模型生成与所述句子流序列对应的视频风格特征参数;
语义视频序列组成模块,其配置成基于所述视频风格特征参数生成所述待转换文本信息对应的语义视频序列。
7.根据权利要求6所述的系统,其特征在于,所述视频风格特征参数生成模块,其还配置成:
将所述句子流序列输入预先训练的递归神经网络模型,以通过所述递归神经网络模型循环计算出与所述句子流序列对应的视频序列;其中,所述句子流序列的长度与所述视频序列的长度相同;
将所述句子流序列和所述视频序列进行组合,利用目标函数生成与所述句子流序列对应的视频风格特征参数。
8.根据权利要求7所述的系统,其特征在于,所述视频风格特征参数生成模块,其还配置成:
将所述句子流序列中的第一语句对应的第一特征向量输入所述递归神经网络模型中的循环计算单元,由所述循环计算单元计算输出与所述第一语句对应的第一视频特征参数;
将所述句子流序列中的第二语句对应的第二特征向量和所述第一视频特征参数输入所述循环计算单元,由所述循环计算单元计算输出与所述第二个语句对应的第二视频特征参数;其中,所述第二语句和所述第一语句连续;
将所述句子流序列中的第N语句对应的第N特征向量和第N-1语句对应的第N-1视频特征参数输入所述循环计算单元中,由所述循环计算单元计算输出与所述第N语句对应的第N视频特征参数;
将所述循环计算单元输出与各语句对应的视频特征参数进行组合,生成所述句子流序列对应的视频序列。
9.根据权利要求7所述的系统,其特征在于,所述视频风格特征参数生成模块,其还配置成:
利用对比损失函数对所述句子流序列和所述视频序列进行一致性建模;
采用结构化回归方式在所述句子流序列和所述视频序列之间建立映射关系,并使用密度函数进行连贯性建模;
基于所述一致性建模的结果和所述连贯性建模的结果生成与所述句子流序列对应的视频风格特征参数。
10.根据权利要求9所述的系统,其特征在于,所述视频风格特征参数生成模块,其还配置成:
基于所述递归神经网络模型提取所述待转换文本信息的文本相似度矩阵;
基于所述句子流序列对应的视频风格特征参数建立视觉相似度矩阵;
通过设定融合权值将所述文本相似度矩阵和所述视觉相似度矩阵进行融合,以计算所述句子流序列和所述视频序列的对偶相似性。
CN202110859406.5A 2021-07-28 2021-07-28 一种将文字转化为视频的方法及系统 Active CN113641854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110859406.5A CN113641854B (zh) 2021-07-28 2021-07-28 一种将文字转化为视频的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110859406.5A CN113641854B (zh) 2021-07-28 2021-07-28 一种将文字转化为视频的方法及系统

Publications (2)

Publication Number Publication Date
CN113641854A true CN113641854A (zh) 2021-11-12
CN113641854B CN113641854B (zh) 2023-09-26

Family

ID=78418776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110859406.5A Active CN113641854B (zh) 2021-07-28 2021-07-28 一种将文字转化为视频的方法及系统

Country Status (1)

Country Link
CN (1) CN113641854B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114598926A (zh) * 2022-01-20 2022-06-07 中国科学院自动化研究所 一种视频生成方法、装置、电子设备及存储介质
CN114610935A (zh) * 2022-05-12 2022-06-10 之江实验室 一种文本控制图像风格的语义图像合成的方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
US20170098324A1 (en) * 2015-10-05 2017-04-06 Vitthal Srinivasan Method and system for automatically converting input text into animated video
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和系统
CN110019817A (zh) * 2018-12-04 2019-07-16 阿里巴巴集团控股有限公司 一种视频中文字信息的检测方法、装置及电子设备
CN110728203A (zh) * 2019-09-23 2020-01-24 清华大学 基于深度学习的手语翻译视频生成方法及系统
CN111050191A (zh) * 2019-12-30 2020-04-21 腾讯科技(深圳)有限公司 一种视频生成方法、装置、计算机设备和存储介质
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置
KR102117654B1 (ko) * 2019-04-29 2020-06-01 연세대학교 산학협력단 자연어 기반의 비디오 생성 방법 및 장치
WO2020119496A1 (zh) * 2018-12-14 2020-06-18 深圳壹账通智能科技有限公司 基于人工智能的通信方法、装置、设备及可读存储介质
CN111309969A (zh) * 2020-01-16 2020-06-19 湘潭大学 一种匹配文字信息的视频检索方法
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成系统
WO2020177673A1 (zh) * 2019-03-05 2020-09-10 腾讯科技(深圳)有限公司 一种视频序列选择的方法、计算机设备及存储介质
WO2020199904A1 (zh) * 2019-04-02 2020-10-08 腾讯科技(深圳)有限公司 视频描述信息的生成方法、视频处理方法、相应的装置
CN113079328A (zh) * 2021-03-19 2021-07-06 北京有竹居网络技术有限公司 视频生成方法和装置、存储介质和电子设备

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170098324A1 (en) * 2015-10-05 2017-04-06 Vitthal Srinivasan Method and system for automatically converting input text into animated video
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和系统
CN110019817A (zh) * 2018-12-04 2019-07-16 阿里巴巴集团控股有限公司 一种视频中文字信息的检测方法、装置及电子设备
WO2020119496A1 (zh) * 2018-12-14 2020-06-18 深圳壹账通智能科技有限公司 基于人工智能的通信方法、装置、设备及可读存储介质
WO2020177673A1 (zh) * 2019-03-05 2020-09-10 腾讯科技(深圳)有限公司 一种视频序列选择的方法、计算机设备及存储介质
WO2020199904A1 (zh) * 2019-04-02 2020-10-08 腾讯科技(深圳)有限公司 视频描述信息的生成方法、视频处理方法、相应的装置
KR102117654B1 (ko) * 2019-04-29 2020-06-01 연세대학교 산학협력단 자연어 기반의 비디오 생성 방법 및 장치
CN110728203A (zh) * 2019-09-23 2020-01-24 清华大学 基于深度学习的手语翻译视频生成方法及系统
CN111079601A (zh) * 2019-12-06 2020-04-28 中国科学院自动化研究所 基于多模态注意力机制的视频内容描述方法、系统、装置
CN111050191A (zh) * 2019-12-30 2020-04-21 腾讯科技(深圳)有限公司 一种视频生成方法、装置、计算机设备和存储介质
CN111309969A (zh) * 2020-01-16 2020-06-19 湘潭大学 一种匹配文字信息的视频检索方法
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成系统
CN113079328A (zh) * 2021-03-19 2021-07-06 北京有竹居网络技术有限公司 视频生成方法和装置、存储介质和电子设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DOYEON KIM等: "TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary Generator", 《IEEE ACCESS》 *
WHALE52HERTZ: "国外人工智能研究:一种可以通过文本描述直接生成视频的AI模型", Retrieved from the Internet <URL:https://blog.csdn.net/whale52hertz/article/details/95179854> *
YITONG LI等: "Video Generation From Text", 《MULTIMEDIA》 *
于海涛等: "基于多模态输入的对抗式视频生成方法", 《计算机研究与发展》, vol. 57, no. 07 *
芋圆526: "T2I论文阅读笔记——TivGAN 文本生成视频", Retrieved from the Internet <URL:https://blog.csdn.net/qq_26136211/article/details/115049472> *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114598926A (zh) * 2022-01-20 2022-06-07 中国科学院自动化研究所 一种视频生成方法、装置、电子设备及存储介质
CN114598926B (zh) * 2022-01-20 2023-01-03 中国科学院自动化研究所 一种视频生成方法、装置、电子设备及存储介质
CN114610935A (zh) * 2022-05-12 2022-06-10 之江实验室 一种文本控制图像风格的语义图像合成的方法及系统
CN114610935B (zh) * 2022-05-12 2022-08-30 之江实验室 一种文本控制图像风格的语义图像合成的方法及系统

Also Published As

Publication number Publication date
CN113641854B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
WO2023093574A1 (zh) 基于多级图文语义对齐模型的新闻事件搜索方法及系统
Ghosh et al. Contextual lstm (clstm) models for large scale nlp tasks
Mai et al. Multi-fusion residual memory network for multimodal human sentiment comprehension
CN108153864A (zh) 基于神经网络生成文本摘要的方法
Ha et al. Automated construction of visual-linguistic knowledge via concept learning from cartoon videos
CN113641854B (zh) 一种将文字转化为视频的方法及系统
CN111881292B (zh) 一种文本分类方法及装置
Zhang et al. A multi-feature fusion model for Chinese relation extraction with entity sense
Zhao et al. Videowhisper: Toward discriminative unsupervised video feature learning with attention-based recurrent neural networks
CN112818670B (zh) 可分解变分自动编码器句子表示中的切分语法和语义
CN112597296A (zh) 一种基于计划机制和知识图谱引导的摘要生成方法
CN116681810B (zh) 虚拟对象动作生成方法、装置、计算机设备和存储介质
Mai et al. A unimodal representation learning and recurrent decomposition fusion structure for utterance-level multimodal embedding learning
CN117421595A (zh) 一种基于深度学习技术的系统日志异常检测方法及系统
CN115358289A (zh) 一种融合多类型知识库和推理技术的文本生成算法
Wu et al. Image to modern chinese poetry creation via a constrained topic-aware model
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
CN114662659B (zh) 一种基于多阶段迁移学习策略综合的众包文本集成方法
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
Su et al. An improved multimodal dimension emotion recognition based on different fusion methods
Bai et al. Low-rank multimodal fusion algorithm based on context modeling
CN112464673B (zh) 融合义原信息的语言含义理解方法
CN114677631A (zh) 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法
Allawadi et al. Multimedia data summarization using joint integer linear programming

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method and system for converting text into video

Effective date of registration: 20231113

Granted publication date: 20230926

Pledgee: Shanghai Pudong Development Bank Co.,Ltd. Xuhui sub branch

Pledgor: BEIJING MOVIEBOOK SCIENCE AND TECHNOLOGY Co.,Ltd.|Beijing qingmou Management Consulting Co.,Ltd.|Shanghai Yingpu Technology Co.,Ltd.

Registration number: Y2023310000727

PE01 Entry into force of the registration of the contract for pledge of patent right