CN108986186A - 文字转化视频的方法和系统 - Google Patents
文字转化视频的方法和系统 Download PDFInfo
- Publication number
- CN108986186A CN108986186A CN201810924859.XA CN201810924859A CN108986186A CN 108986186 A CN108986186 A CN 108986186A CN 201810924859 A CN201810924859 A CN 201810924859A CN 108986186 A CN108986186 A CN 108986186A
- Authority
- CN
- China
- Prior art keywords
- video
- text
- scene
- description
- matching degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了文字转化视频的方法和系统,输入用自然语言表达的场景表述的文本信息;对视频数据集进行过滤筛选;对过滤后的候选视频片段和输入的场景描述匹配,输出匹配度高的视频片段;利用编码器和解码器,将匹配度高的视频片段进行文本描述;将筛选出的视频片段的文本描述与自然语言表达的场景的文本表述进行相似度的选择和比对,输出内容上符合自然语言表达的场景的输入文本的关键帧集合;在关键帧集合中进行识别和提取对象,生成对象集;依照场景图和对象集最终生成关键帧,生成视频。利用基于自然语言处理的视频检索方法,比关键词相比极大地减少描述的模糊度,从而使系统能够更加的高效进行过滤,找到匹配的视频。
Description
技术领域
本发明涉及跨媒体检索和视频纹理合成技术领域,特别是涉及文字转化视频的方法和系统。
背景技术
随着多媒体信息技术的不断发展,文字,音频,图像,视频的使用和转化与人们生活工作越来越密切。现在开发出许多的技术应用在模态之间的相互转换:可以在社交媒体上将语音转化成文字,还可以在阅读软件上将文字转化成语音将“看书”转为“听书”。
当然,多媒体各个模态在某些程度上各有各的优点和不足。自然语言虽然交流信息时候简单,但当用自然语言描述场景时候,由于交流个体的本身知识理解存在相对差异性,交流具有了天然的隔离性。往往这时候体会到一幅图的展现胜过千言万语的描写,对于图像来说,虽然具有时序稳定性的特点,但是其内容仍然没有呈现出动态性。而视频不仅具有动态性的特点,而且是最容易刺激人们感觉和调动情感的多媒体模态。
对于文字转化视频,目前的研究成果还处于一个相对较少的阶段。但是,对于其需求,从视频获取成本本身来看:为了拍摄合成心仪的视频效果,花费巨额经费进行实景复原取样,有时候还面临着较高的风险性;消失的故乡或者天马行空具有想象力的头脑画面,常常苦恼于抽象而无法展现。
因此,文字转化视频不仅仅成为亟待研究的科研领域,而且还是市场需求的新的风向标。提出一个有技术支撑且高效准确地文字转视频的方法具有非常具有现实意义的研究和实用价值。
发明内容
为了解决现有技术的不足,本发明提供了文字转化视频的方法,可以将文字转化为与其内容对应的视频,处理效果比较精确。
文字转化视频的方法,其特征是,包括:
输入用自然语言表达的场景表述的文本信息;
利用自然语言处理技术对文本信息进行解析并根据解析后的文本信息对视频数据集进行过滤筛选;
对过滤后的候选视频片段和输入的场景描述匹配,并计算匹配度后,根据匹配度进行排序,输出匹配度高的视频片段;
利用编码器和解码器,将匹配度高的视频片段进行文本描述;
将筛选出的视频片段的文本描述与自然语言表达的场景的文本表述进行相似度的选择和比对,输出内容上符合自然语言表达的场景的输入文本的关键帧集合;
在关键帧集合中进行识别和提取对象,生成对象集;
生成了对象集之后,将文本转化为节点代表对象,边代表对象之间的关系的场景图;
依照场景图和对象集最终生成关键帧,生成便于合成视频纹理的连续的关键帧集;
找到关键帧集转化点和确定播放序列,生成视频。
进一步优选的技术方案,针对用自然语言表达的场景表述的文本信息,先用自然语言处理工具对其进行解析,提取文本主要因素;
在自然语言处理工具解析的同时,将预定义过的标签贴在解析识别出的实体上,并将信息填入各个存储单元槽中,最终生成一个包含着承载文本关键信息的关键词槽的描述模板。
进一步优选的技术方案,每一个视频片段入库时,进行细粒度图像识别技术提取视频中的语音信息,字幕信息和图像信息,最后形成文本信息;
视频片段中提取的所有文本信息按句用自然语言处理工具解析并创建一个不含关键词词槽的模板,称其为解析模板。
进一步优选的技术方案,视频数据集中的解析模板里如果不含描述模板中的关键词,则该解析模板与场景表述的文本信息无关,剩下的解析模板代表候选视频片段。
进一步优选的技术方案,候选视频片段和用户输入场景描述进行相关度度量,并按相关度由高到低排列,得到最终的检索结果;
其中,视频片段和用户场景描述之间的相关度与槽匹配度MSS及顺序匹配度SWS相关;
槽匹配度MSS:对比描述模板与一个解析模板分别对应的记录信息的储存单元槽,两者完全匹配时匹配度加2,两者是近义词时匹配度加1.5,两者是包含与被包含关系时匹配度加1;
顺序匹配度SWS:即一个解析模板中同描述模板中同序出现的关键词的个数;
一个解析模板与描述模板的总匹配度TS定义为MSS和SWS两者之和TS=MSS+SWS,在计算得到某个视频片段的所有描述模板与解析模板的匹配度后,存入一个数组,候选视频片段和输入场景描述CPS定义为:
候选视频片段和输入场景描述CPS即为相邻5个解析模板匹配度和的最大值,n1为解析模板的个数,计算得到所有候选视频片段与描述的匹配度后,按各片段匹配度CPS大小由高到低排列视频片段。
进一步优选的技术方案,获取到CPS大小排序的视频集,通过带有调节功能的时间注意力机制的层级LSTM框架来进行选取视频的特定帧,并利用LSTM对视觉信息和语境信息进行建模,然后根据可调节的时间注意力机制来选择解码是依赖于视觉信息还是语境信息,最终将视频描述为具有语境信息的文本。
进一步优选的技术方案,根据描述模板中的包含所有对象的目标集,识别视频帧集后,将对视频帧集进行对象的抠图:对于判断后具有运动行为的对象,抠取连续的对象集,而对于静止对象或者背景,则保持唯一性原则进行抠图;最终提取出生成的所有对象存储生成对象集;
生成了对象集之后,将文本转化为节点代表对象,边代表对象之间的关系的场景图,将场景图输入图像生成模型之后,场景图首先输入到图卷积网络,其按照场景图的边的顺序计算所有对象的嵌入向量后,再将向量发送到对象布局网络中从而进一步得到对象之间的布局,将所有对象布局结合就能形成场景层;然后用一个级联细化网络将布局转换为生成图像;对于文本描述中运动的对象,要获得不同时序组合的关键帧集,用于生成连续运动的场景。
进一步优选的技术方案,确定最终视频场景:将视频帧进行相似度计算后进行子序列的划分,利用缝合线将剖分后的视频帧进行重组,确定好了连续帧集转换点和确定播放序列后,播放确定好的的视频帧序列得到具有动态性和无限播放的视频场景。
本申请还公开了一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行上述方法。
本申请还公开了文字转化视频的系统,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令用于执行上述所述的方法。
与现有技术相比,本发明的有益效果是:
(1)利用基于自然语言处理的视频检索方法,用户可以使用自然语言快速清晰地表达自己的意愿。自然语言提供了上下文环境和情感,比关键词相比极大地减少描述的模糊度,从而使系统能够更加的高效进行过滤,找到匹配的视频。
(2)在描述视频时候,使用一种静态卷积神经网络(CNN)和一种时空三维CNN来建模输入视频剪辑。采用双层STLM来学习如何表达视频帧序列。底层LSTM用来建模输入视频序列的视觉特征,顶层LSTM可以挖掘语境信息,用来捕捉视频段的高层语义特征,来建模最终的表达语言。通过分层的LSTM以及注意力机制的引用,本申请的方法避免了内容识别和句子生成的分离,通过学习将视频直接映射到为人提供完整的句子,同时学习一种以视觉特征为条件的语言模型。
(3)在生成关键帧时,先将文字描述转换成为场景图(节点为对象,边代表对象之间的关系),然后由场景图作为模型的输入,最后生成图像,能够生成多个对象的场景,甚至是同一个对象类型生成多种实例;遵循对象之间的关系,具有生成复杂的图像的能力。
而且,引入GAN(生成对抗网络)框架,在训练过程中,生成模型不断与判别模型进行传输。判别模型尽可能识别真实样本和尽可能的正确的揪出假样本。而生成模型尽可能最小化判别模型揪出它的概率。在训练过程中双方不断优化自己,直到平衡。这样不仅能够处理图结构的输入,而且能够正确的反映出多个物体的空间透视关系,将整个图中的所有物体整合在一起,使看起来自然和谐。
(4)基于深度学习的抠图方案,能够最大程度上处理纹理这样的高阶特性,处理效果比较精确。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是本发明文字转化视频方法的流程图;
图2是本发明文字转化视频方法的描述模板与各个信息存储单元槽结构示意图;
图3是本发明文字转化视频方法的视频描述编码器解码器模型示意图;
图4是本发明文字转化视频方法的文本相似度比较LSTM-DSSM模型示意图;
图5是本发明文字转化视频方法的抠图生成对象的模型示意图;
图6是本发明文字转化视频方法的视频帧的剖分与重组示意图;
图7是本发明文字转化视频方法的重叠区域的缝合过程示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本申请提供了文字转化视频的方法,整体技术构思是:当输入文本信息之后,通过自然语言信息检索视频数据集,输出检索后的视频片段集;将视频片段集中符合文本信息的视频提取语义以及语境,并进行文本描述输出;将生成的文本与输入的文本进行相似度的选择和比对;提取出符合用户输入文本信息的帧素材集,在帧素材集里面提取出对象集;依照场景图和对象集最终生成关键帧,找到转换点和确定播放序列,最终生成视频。
本申请的一种典型的实施方式中,如图1所示,提供了文字转化视频的方法,包括:
(1)输入文本,利用自然语言处理技术,通过自然语言在视频数据集中进行基于内容的信息检索,对过滤后的候选视频片段和用户输入的场景描述匹配,输出匹配度高的视频片段;
(2)利用基于卷积神经网络(CNN)的编码器和基于循环神经网络(RNN)的解码器,将第一步骤计算视频片段与用户场景描述匹配度CPS排序视频片段进行文本描述。
(3)将两个文本进行相似度的选择和比对,输出内容上符合用户输入文本的关键帧集合;
(4)在关键帧集合中进行提取和生成对象,依照场景图和对象集最终生成关键帧,最终生成便于合成视频纹理的连续的关键帧集。
(5)找到连续帧集转换点和确定播放序列,最终生成视频。
具体的,步骤(1):用户在线提交一个用自然语言表达的场景表述后,系统先用自然语言处理工具对其进行解析,提取文本主要因素(对象,地点,时间,行为等)在自然语言处理工具解析的同时,把一些预定义过的标签贴在识别出的实体上(实体如济南泉城广场属于定义的地点标签),将生成信息填入描述模板中的各个对应存储单元槽中,最终生成一个完整的描述模板,如图2所示。
在每一个视频片段入库时,用语音识别技术,光学字符识别技术以及间隔抽取视频帧进行细粒度图像识别技术提取视频中的语音信息,字幕信息和图像信息,最后形成文本信息。和描述模板一样,视频片段中提取的所有文本信息也要按句用自然语言处理工具解析并创建一个和描述模板相似的模板,只是该模板不含关键词词槽,称其为解析模板。然后将该解析模板加入与视频数据集对应的解析模板表中,同时更新关键词索引。
具体的输入文本与视频数据集中的视频匹配分两个阶段完成:
第一阶段:候选片段筛选,利用一定的信息检索技术将大部分明显与用户场景描述无关的解析模板滤掉。一般来说一个解析模板里如果不含描述模板中的关键词,则它与用户场景描述无关,剩下的记录就代表候选视频片段了,进入下个阶段。
第二阶段:用户输入的场景描述和候选视频片段的匹配第二阶段的主要任务就是对每一个过了第一阶段的视频片段和用户输入场景描述相关度度量,并按相关度由高到低排列,得到最终的检索结果。候选视频片段和用户输入场景描述间的相关度由以下因素决定:
槽匹配度(MSS):对比描述模板与一个解析模板对应的模板内记录信息的单元槽,两者完全匹配时匹配度加2,两者是近义词时匹配度加1.5,两者是包含与被包含关系时匹配度加1。
顺序匹配度(SWS):即一个解析模板中同描述模板中同序出现的关键词的个数。
一个解析模板与描述模板的总匹配度TS定义为MSS和SWS两者之和TS=MSS+SWS,在计算得到某个视频片段的所有描述模板与解析模板的匹配度后,把它们存入一个数组,该候选视频片段和用户输入场景描述匹配度CPS定义为:
即相邻5个解析模板匹配度和的最大值,n1为解析模板的个数,计算得到所有候选视频片段与描述的匹配度后,按各片段匹配度CPS大小由高到低排列视频片段,供后续步骤使用。
步骤(2):获取到CPS大小排序的视频集,通过带有调节功能的时间注意力机制的层级LSTM框架来进行选取视频的特定帧,并利用LSTM对视觉信息和语境信息进行建模,然后根据可调节的时间注意力机制来选择解码是依赖于视觉信息还是语境信息,最终将视频描述为具有语境信息的文本。
如图3所示,CNN编码器:这里使用ResNet-152模型来提取frame-level的特征。
RNN解码器:其中包含两层LSTM、两种注意力机制以及一层MLP。
通过层级LSTM框架来对视觉信息和语境信息进行建模。底层的LSTM捕捉低层视觉特征。其状态变量ht,mt根据现有的文本中词语的语义特征和前一时刻的隐含语义状态和以往上下文语义记忆进行更新。顶层的LSTM则主要挖掘语境信息,获取视频段所表达的潜在高层语义特征。其状态变量依照本模型底层LSTM的隐含状态变量ht、前一时刻的隐含状态变量和前一时刻的记忆变量进行目标性更新。时间注意力机制的有益效果的引导关注哪些是关键帧,捕捉关注性强的视觉特征。用动态的权值对时序特征求和,得到数值表示相应视频段的视觉特征。根据视频段视觉特征及底层LSTM时刻t的隐含状态ht,并最终的动态权值。可调节的时间注意力机制的有益效果是判断生成词语依照视觉信息还是语境信息以及进行最后的词语的生成。在该层中,通过添加校正门来控制选取不同信息进行视觉单词和非视觉单词的预测。MLP层则用于最终的词的预测。通过以上编码器和解码器进行视频的描述,得到切合视频内容的文本描述,具体过程如下:
1)底层的LSTM可以高效地解码视觉特征在该层中,时刻t的状态ht,mt根据当前的词语的特征yt、前一时刻的隐含状态h(t-1)和前一时刻的记忆m(t-1)进行更新。初始状态为h0,m0。整个更新过程用公式表示为:
h0,m0=[Wih;Wic]Mean({Vi})
ht,mt=LSTM(yt,ht-1,mt-1)
其中W^ih和W^ic是该层需要学习的参数,Mean(·)表示对给定的视频段特征集{v}进行平均池化的操作。
2)顶层的LSTM则主要挖掘语境信息捕捉视频段的高层语义特征。在该层中,时刻t的状态根据底层LSTM的隐含状态ht、前一时刻的隐含状态和前一时刻的记忆进行更新。同样地,整个更新过程用公式表示为:
3)时间注意力机制用于引导关注哪些重要的帧,捕捉关注的视觉特征。在时刻t中,用动态的权值对时序特征进行求和,得到的特征用来表示每个时刻下视频段的视觉特征。根据视频段特征V(V={Vi})及底层LSTM时刻t的隐含状态ht,经由单层神经网络获取到未归一化的关联分数εt,并采用softmax函数来得到最终的动态权值。整个权值获取的过程用公式可表示为:
其中,n表示视频帧数,WT、Wa、Ua、ba是需要学习的参数。
4)可调节的时间注意力机制是判断采用视觉信息还是语境信息以及最后的词语生成。在该层中,通过添加校正门βt来预测视觉词语和非视觉词语。整个过程用公式表示如下:
βt=sigmoid(Wsht)
其中,Ws是需要学习的参数。
5)MLP层则用于最终的词的预测
通过以上编码器和解码器进行视频的描述,得到切合视频内容的文字描述。
步骤(3)通过LSTM-DSSM文本相似度对比将用户输入的场景文字描述和解码器生成的文字进行对比筛选,输出相似度最高对应的帧集,如图4所示。
LSTM-DSSM是LSTM的一个变种——加入了peephole的LSTM,通过下式可以解释LSTM-DSSM的作用:
ft=σ(Wf·[Ct-1,ht-1,xt]+bf)
it=σ(Wi·[Ct-1,ht-1,xt]+bi)
ot=σ(Wo·[Ct,ht-1,xt]+bo)
传统的LSTM中遗忘门、输入门和输出门只用了ht-1和xt来控制门缝的大小,但是在LSTM-DSSM不仅要考虑ht-1和xt,还需要关注Ct-1和Ct,在此基础上遗忘门和输入门需要关注Ct-1,而输出门关注了Ct。综上,使用LSTM-DSSM用于比较相似性,需要考虑的信息更丰富了。将文本信息进行相似度比对后,提取出与用户描述相似度最高的视频帧集。
步骤(4)根据描述模板中的包含所有对象的目标集,识别视频帧集后,利用基于深度学习的方法来解决图像拼接问题。如图5所示,给定目标集,训练神经网络充分利用数据。该网络由两个阶段组成,第一个阶段是深度卷积编码器-解码器结构。对于编码器的具体操作来说,通过后续的卷积层和最大池层转换为向下采样的特征映射。对于解码器的具体操作来说,使用后续的非池层从而再一次对最大池操作和卷积层进行操作,对特征映射进行向上采样,并获得所需的输出;经过结构一后结果会过于平滑,因此,第二个阶段将进行进一步的细化。这个扩展的网络通常预测更精确的alpha mattes和更锐利的边缘,对于判断后具有运动行为的对象,抠取连续的对象集,而对于静止对象或者背景,则保持唯一性原则进行抠图。最终提取所有对象并存储生成包含描述模板中的目标集的对象集。
生成了对象集之后,将文本转化为节点代表对象,边代表对象之间的关系的场景图。将场景图输入图像生成模型之后,场景图首先输入到图卷积网络,其按照场景图的边的顺序计算所有对象的嵌入向量后,再将向量发送到对象布局网络中从而进一步得到对象之间的布局,将所有对象布局结合就能形成场景层。然后用一个级联细化网络将布局转换为生成图像。对于文本描述中运动的对象,要获得不同时序组合的关键帧集,用于生成连续运动的场景。如图6所示。
步骤(5)为确定最终视频场景。如图7所示,首先,采用L2距离来计算每两帧图象之间的相似度。设ni、nj是不同的两个帧,下式为相似度计算方法:
式中:Ii,Ij为视频帧,Ni,Nj为亮度信息,p,q是对应的像素值,选取和当前帧的相似度最高的帧作为下一帧,从而可以大致确认播放序列。
然后,为缩小帧与帧之间的不连贯性和跳变,进行划分子序列。将相识度小于某一阈值k,就把这两帧图像归为一个子序列。n表示视频帧数,m表示其中的某一帧,Error表示L2距离,阈值k可通过以下式进行计算。
确认周期长度之后,为进一步减少视频的不连贯性,采用Bhat的算法将合成视频进行剖分。采用Efors的方法来解决同一帧内部的不连续性,采用动态规划的方法找到纹理块重叠区域的最佳缝合线,之后用alpha混合沿缝合线找到左右两边最合适的像素点进行填充。完成重叠区域的缝合,输出为无限播放的动态视频场景。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.文字转化视频的方法,其特征是,包括:
输入用自然语言表达的场景表述的文本信息;
利用自然语言处理技术对文本信息进行解析并根据解析后的文本信息对视频数据集进行过滤筛选;
对过滤后的候选视频片段和输入的场景描述匹配,并计算匹配度后,根据匹配度进行排序,输出匹配度高的视频片段;
利用编码器和解码器,将匹配度高的视频片段进行文本描述;
将筛选出的视频片段的文本描述与自然语言表达的场景的文本表述进行相似度的选择和比对,输出内容上符合自然语言表达的场景的输入文本的关键帧集合;
在关键帧集合中进行识别和提取对象,生成对象集;
生成了对象集之后,将文本转化为节点代表对象,边代表对象之间的关系的场景图;
依照场景图和对象集最终生成关键帧,生成便于合成视频纹理的连续的关键帧集;
找到关键帧集转化点和确定播放序列,生成视频。
2.如权利要求1所述的文字转化视频的方法,其特征是,针对用自然语言表达的场景表述的文本信息,先用自然语言处理工具对其进行解析,提取文本主要因素;
在自然语言处理工具解析的同时,将预定义过的标签贴在解析识别出的实体上,并将信息填入各个存储单元槽中,最终生成一个包含着承载文本关键信息的关键词槽的描述模板。
3.如权利要求1所述的文字转化视频的方法,其特征是,每一个视频片段入库时,进行细粒度图像识别技术提取视频中的语音信息,字幕信息和图像信息,最后形成文本信息;
视频片段中提取的所有文本信息按句用自然语言处理工具解析并创建一个不含关键词词槽的模板,称其为解析模板。
4.如权利要求1所述的文字转化视频的方法,其特征是,视频数据集中的解析模板里如果不含描述模板中的关键词,则该解析模板与场景表述的文本信息无关,剩下的解析模板代表候选视频片段。
5.如权利要求4所述的文字转化视频的方法,其特征是,候选视频片段和用户输入场景描述进行相关度度量,并按相关度由高到低排列,得到最终的检索结果;
其中,视频片段和用户场景描述之间的相关度与槽匹配度MSS及顺序匹配度SWS相关;
槽匹配度MSS:对比描述模板与一个解析模板分别对应的记录信息的储存单元槽,两者完全匹配时匹配度加2,两者是近义词时匹配度加1.5,两者是包含与被包含关系时匹配度加1;
顺序匹配度SWS:即一个解析模板中同描述模板中同序出现的关键词的个数;
一个解析模板与描述模板的总匹配度TS定义为MSS和SWS两者之和TS=MSS+SWS,在计算得到某个视频片段的所有描述模板与解析模板的匹配度后,存入一个数组,候选视频片段和输入场景描述CPS定义为:
候选视频片段和输入场景描述CPS即为相邻5个解析模板匹配度和的最大值,n1为解析模板的个数,计算得到所有候选视频片段与描述的匹配度后,按各片段匹配度CPS大小由高到低排列视频片段。
6.如权利要求5所述的文字转化视频的方法,其特征是,获取到CPS大小排序的视频集,通过带有调节功能的时间注意力机制的层级LSTM框架来进行选取视频的特定帧,并利用LSTM对视觉信息和语境信息进行建模,然后根据可调节的时间注意力机制来选择解码是依赖于视觉信息还是语境信息,最终将视频描述为具有语境信息的文本。
7.如权利要求1所述的文字转化视频的方法,其特征是,根据描述模板中的包含所有对象的目标集,识别视频帧集后,将对视频帧集进行对象的抠图:对于判断后具有运动行为的对象,抠取连续的对象集,而对于静止对象或者背景,则保持唯一性原则进行抠图;最终提取出生成的所有对象存储生成对象集;
生成了对象集之后,将文本转化为节点代表对象,边代表对象之间的关系的场景图,将场景图输入图像生成模型之后,场景图首先输入到图卷积网络,其按照场景图的边的顺序计算所有对象的嵌入向量后,再将向量发送到对象布局网络中从而进一步得到对象之间的布局,将所有对象布局结合就能形成场景层;然后用一个级联细化网络将布局转换为生成图像;对于文本描述中运动的对象,要获得不同时序组合的关键帧集,用于生成连续运动的场景。
8.如权利要求1所述的文字转化视频的方法,其特征是,确定最终视频场景:将视频帧进行相似度计算后进行子序列的划分,利用缝合线将剖分后的视频帧进行重组,确定好了连续帧集转换点和确定播放序列后,播放确定好的的视频帧序列得到具有动态性和无限播放的视频场景。
9.一种计算机可读存储介质,其中存储有多条指令,其特征是,所述指令适于由终端设备的处理器加载并执行上述权利要求1-8任一所述的方法。
10.文字转化视频的系统,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征是,所述指令用于执行上述权利要求1-8任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810924859.XA CN108986186B (zh) | 2018-08-14 | 2018-08-14 | 文字转化视频的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810924859.XA CN108986186B (zh) | 2018-08-14 | 2018-08-14 | 文字转化视频的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108986186A true CN108986186A (zh) | 2018-12-11 |
CN108986186B CN108986186B (zh) | 2023-05-05 |
Family
ID=64553457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810924859.XA Active CN108986186B (zh) | 2018-08-14 | 2018-08-14 | 文字转化视频的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108986186B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109688428A (zh) * | 2018-12-13 | 2019-04-26 | 连尚(新昌)网络科技有限公司 | 视频评论生成方法和装置 |
CN109726718A (zh) * | 2019-01-03 | 2019-05-07 | 电子科技大学 | 一种基于关系正则化的视觉场景图生成系统及方法 |
CN109815927A (zh) * | 2019-01-30 | 2019-05-28 | 杭州一知智能科技有限公司 | 利用对抗双向交互网络解决视频时间文本定位任务的方法 |
CN110083741A (zh) * | 2019-04-11 | 2019-08-02 | 中国科学技术大学 | 文本与图像联合建模的面向人物的视频摘要提取方法 |
CN110311956A (zh) * | 2019-06-13 | 2019-10-08 | 北京华峰创业科技有限公司 | 智能的流行台词作为唤醒闹钟的系统和方法 |
CN110489198A (zh) * | 2019-08-22 | 2019-11-22 | 阿里巴巴集团控股有限公司 | 一种工单处理的方法和系统 |
CN110569905A (zh) * | 2019-09-10 | 2019-12-13 | 江苏鸿信系统集成有限公司 | 基于生成对抗网络和注意力网络的细粒度图像分类方法 |
CN110611840A (zh) * | 2019-09-03 | 2019-12-24 | 北京奇艺世纪科技有限公司 | 一种视频生成方法、装置、电子设备及存储介质 |
CN110674790A (zh) * | 2019-10-15 | 2020-01-10 | 山东建筑大学 | 一种视频监控中异常场景处理方法及系统 |
CN110688916A (zh) * | 2019-09-12 | 2020-01-14 | 武汉理工大学 | 一种基于实体关系抽取的视频描述方法与装置 |
CN111160191A (zh) * | 2019-12-23 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 一种视频关键帧提取方法、装置及存储介质 |
CN111259196A (zh) * | 2020-01-10 | 2020-06-09 | 杭州慧川智能科技有限公司 | 一种基于视频大数据的文章转视频的方法 |
CN111259109A (zh) * | 2020-01-10 | 2020-06-09 | 杭州慧川智能科技有限公司 | 一种基于视频大数据的音频转视频的方法 |
CN111274443A (zh) * | 2020-01-10 | 2020-06-12 | 北京百度网讯科技有限公司 | 视频片段描述的生成方法、装置、电子设备及存储介质 |
CN111428730A (zh) * | 2019-01-09 | 2020-07-17 | 中国科学技术大学 | 弱监督细粒度物体分类方法 |
CN111447507A (zh) * | 2020-03-20 | 2020-07-24 | 北京百度网讯科技有限公司 | 视频制作方法和装置、电子设备和存储介质 |
CN111626023A (zh) * | 2020-04-24 | 2020-09-04 | 北京大学 | 可视化图表高亮与注释的自动生成方法、装置及系统 |
CN111640075A (zh) * | 2020-05-23 | 2020-09-08 | 西北工业大学 | 一种基于生成对抗网络的水下图像去遮挡方法 |
CN112423023A (zh) * | 2020-12-09 | 2021-02-26 | 珠海九松科技有限公司 | 一种智能化视频自动混剪的方法 |
CN112995537A (zh) * | 2021-02-09 | 2021-06-18 | 成都视海芯图微电子有限公司 | 一种视频构建方法及系统 |
WO2021174898A1 (zh) * | 2020-03-04 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 合成虚拟对象的动作序列的方法及设备 |
CN113641854A (zh) * | 2021-07-28 | 2021-11-12 | 上海影谱科技有限公司 | 一种将文字转化为视频的方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2807188A1 (fr) * | 2000-03-30 | 2001-10-05 | Vrtv Studios | Equipement pour production automatique en temps reel de sequences audiovisuelles virtuelles a partir d'un message textuel et pour la diffusion de telles sequences |
JP2006155494A (ja) * | 2004-12-01 | 2006-06-15 | Matsushita Electric Ind Co Ltd | アニメーション作成装置およびアニメーション作成方法 |
CN101482975A (zh) * | 2008-01-07 | 2009-07-15 | 丰达软件(苏州)有限公司 | 一种文字转换动画的方法和装置 |
CN101887439A (zh) * | 2009-05-13 | 2010-11-17 | 富士通株式会社 | 生成视频摘要的方法、装置、包含该装置的图像处理系统 |
CN103164403A (zh) * | 2011-12-08 | 2013-06-19 | 深圳市北科瑞声科技有限公司 | 视频索引数据的生成方法和系统 |
CN103200463A (zh) * | 2013-03-27 | 2013-07-10 | 天脉聚源(北京)传媒科技有限公司 | 一种视频摘要生成方法和装置 |
CN104731959A (zh) * | 2015-04-03 | 2015-06-24 | 北京威扬科技有限公司 | 基于文本的网页内容生成视频摘要的方法、装置及系统 |
CN106408623A (zh) * | 2016-09-27 | 2017-02-15 | 宇龙计算机通信科技(深圳)有限公司 | 一种文字展现方法、装置及终端 |
CN107133569A (zh) * | 2017-04-06 | 2017-09-05 | 同济大学 | 基于泛化多标记学习的监控视频多粒度标注方法 |
CN108090940A (zh) * | 2011-05-06 | 2018-05-29 | 西尔股份有限公司 | 基于文本的视频生成 |
CN108228705A (zh) * | 2016-12-09 | 2018-06-29 | 波音公司 | 直播视频反馈中的自动对象和活动跟踪设备、方法及介质 |
-
2018
- 2018-08-14 CN CN201810924859.XA patent/CN108986186B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2807188A1 (fr) * | 2000-03-30 | 2001-10-05 | Vrtv Studios | Equipement pour production automatique en temps reel de sequences audiovisuelles virtuelles a partir d'un message textuel et pour la diffusion de telles sequences |
JP2006155494A (ja) * | 2004-12-01 | 2006-06-15 | Matsushita Electric Ind Co Ltd | アニメーション作成装置およびアニメーション作成方法 |
CN101482975A (zh) * | 2008-01-07 | 2009-07-15 | 丰达软件(苏州)有限公司 | 一种文字转换动画的方法和装置 |
CN101887439A (zh) * | 2009-05-13 | 2010-11-17 | 富士通株式会社 | 生成视频摘要的方法、装置、包含该装置的图像处理系统 |
CN108090940A (zh) * | 2011-05-06 | 2018-05-29 | 西尔股份有限公司 | 基于文本的视频生成 |
CN103164403A (zh) * | 2011-12-08 | 2013-06-19 | 深圳市北科瑞声科技有限公司 | 视频索引数据的生成方法和系统 |
CN103200463A (zh) * | 2013-03-27 | 2013-07-10 | 天脉聚源(北京)传媒科技有限公司 | 一种视频摘要生成方法和装置 |
CN104731959A (zh) * | 2015-04-03 | 2015-06-24 | 北京威扬科技有限公司 | 基于文本的网页内容生成视频摘要的方法、装置及系统 |
CN106408623A (zh) * | 2016-09-27 | 2017-02-15 | 宇龙计算机通信科技(深圳)有限公司 | 一种文字展现方法、装置及终端 |
CN108228705A (zh) * | 2016-12-09 | 2018-06-29 | 波音公司 | 直播视频反馈中的自动对象和活动跟踪设备、方法及介质 |
CN107133569A (zh) * | 2017-04-06 | 2017-09-05 | 同济大学 | 基于泛化多标记学习的监控视频多粒度标注方法 |
Non-Patent Citations (4)
Title |
---|
孙娜: "全程化计算机辅助动画自动生成系统的应用分析", 《成都航空职业技术学院学报》 * |
徐庆等: "基于2-范数匹配的分形图像编码改进算法", 《计算机工程》 * |
聂秀山等: "基于峭度图像的视频指纹算法", 《计算机工程》 * |
陆汝钤等: "从故事到动画片――全过程计算机辅助动画自动生成", 《自动化学报》 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109688428B (zh) * | 2018-12-13 | 2022-01-21 | 连尚(新昌)网络科技有限公司 | 视频评论生成方法和装置 |
CN109688428A (zh) * | 2018-12-13 | 2019-04-26 | 连尚(新昌)网络科技有限公司 | 视频评论生成方法和装置 |
CN109726718A (zh) * | 2019-01-03 | 2019-05-07 | 电子科技大学 | 一种基于关系正则化的视觉场景图生成系统及方法 |
CN109726718B (zh) * | 2019-01-03 | 2022-09-16 | 电子科技大学 | 一种基于关系正则化的视觉场景图生成系统及方法 |
CN111428730A (zh) * | 2019-01-09 | 2020-07-17 | 中国科学技术大学 | 弱监督细粒度物体分类方法 |
CN111428730B (zh) * | 2019-01-09 | 2022-07-08 | 中国科学技术大学 | 弱监督细粒度物体分类方法 |
CN109815927A (zh) * | 2019-01-30 | 2019-05-28 | 杭州一知智能科技有限公司 | 利用对抗双向交互网络解决视频时间文本定位任务的方法 |
CN109815927B (zh) * | 2019-01-30 | 2021-04-23 | 杭州一知智能科技有限公司 | 利用对抗双向交互网络解决视频时间文本定位任务的方法 |
CN110083741B (zh) * | 2019-04-11 | 2022-10-28 | 中国科学技术大学 | 文本与图像联合建模的面向人物的视频摘要提取方法 |
CN110083741A (zh) * | 2019-04-11 | 2019-08-02 | 中国科学技术大学 | 文本与图像联合建模的面向人物的视频摘要提取方法 |
CN110311956A (zh) * | 2019-06-13 | 2019-10-08 | 北京华峰创业科技有限公司 | 智能的流行台词作为唤醒闹钟的系统和方法 |
CN110489198A (zh) * | 2019-08-22 | 2019-11-22 | 阿里巴巴集团控股有限公司 | 一种工单处理的方法和系统 |
CN110611840A (zh) * | 2019-09-03 | 2019-12-24 | 北京奇艺世纪科技有限公司 | 一种视频生成方法、装置、电子设备及存储介质 |
CN110611840B (zh) * | 2019-09-03 | 2021-11-09 | 北京奇艺世纪科技有限公司 | 一种视频生成方法、装置、电子设备及存储介质 |
CN110569905B (zh) * | 2019-09-10 | 2023-04-14 | 中电鸿信信息科技有限公司 | 基于生成对抗网络和注意力网络的细粒度图像分类方法 |
CN110569905A (zh) * | 2019-09-10 | 2019-12-13 | 江苏鸿信系统集成有限公司 | 基于生成对抗网络和注意力网络的细粒度图像分类方法 |
CN110688916A (zh) * | 2019-09-12 | 2020-01-14 | 武汉理工大学 | 一种基于实体关系抽取的视频描述方法与装置 |
CN110674790B (zh) * | 2019-10-15 | 2021-11-23 | 山东建筑大学 | 一种视频监控中异常场景处理方法及系统 |
CN110674790A (zh) * | 2019-10-15 | 2020-01-10 | 山东建筑大学 | 一种视频监控中异常场景处理方法及系统 |
CN111160191B (zh) * | 2019-12-23 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 一种视频关键帧提取方法、装置及存储介质 |
CN111160191A (zh) * | 2019-12-23 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 一种视频关键帧提取方法、装置及存储介质 |
CN111259109A (zh) * | 2020-01-10 | 2020-06-09 | 杭州慧川智能科技有限公司 | 一种基于视频大数据的音频转视频的方法 |
CN111259196A (zh) * | 2020-01-10 | 2020-06-09 | 杭州慧川智能科技有限公司 | 一种基于视频大数据的文章转视频的方法 |
CN111259196B (zh) * | 2020-01-10 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 一种基于视频大数据的文章转视频的方法 |
CN111274443B (zh) * | 2020-01-10 | 2023-06-09 | 北京百度网讯科技有限公司 | 视频片段描述的生成方法、装置、电子设备及存储介质 |
CN111274443A (zh) * | 2020-01-10 | 2020-06-12 | 北京百度网讯科技有限公司 | 视频片段描述的生成方法、装置、电子设备及存储介质 |
US11615140B2 (en) | 2020-01-10 | 2023-03-28 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for detecting temporal action of video, electronic device and storage medium |
CN111259109B (zh) * | 2020-01-10 | 2023-12-05 | 腾讯科技(深圳)有限公司 | 一种基于视频大数据的音频转视频的方法 |
US11978142B2 (en) | 2020-03-04 | 2024-05-07 | Tencent America LLC | Method and device for synthesizing motion sequence of virtual object |
WO2021174898A1 (zh) * | 2020-03-04 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 合成虚拟对象的动作序列的方法及设备 |
CN111447507A (zh) * | 2020-03-20 | 2020-07-24 | 北京百度网讯科技有限公司 | 视频制作方法和装置、电子设备和存储介质 |
CN111447507B (zh) * | 2020-03-20 | 2022-03-22 | 北京百度网讯科技有限公司 | 视频制作方法和装置、电子设备和存储介质 |
CN111626023A (zh) * | 2020-04-24 | 2020-09-04 | 北京大学 | 可视化图表高亮与注释的自动生成方法、装置及系统 |
CN111640075A (zh) * | 2020-05-23 | 2020-09-08 | 西北工业大学 | 一种基于生成对抗网络的水下图像去遮挡方法 |
CN112423023A (zh) * | 2020-12-09 | 2021-02-26 | 珠海九松科技有限公司 | 一种智能化视频自动混剪的方法 |
CN112995537B (zh) * | 2021-02-09 | 2023-02-24 | 成都视海芯图微电子有限公司 | 一种视频构建方法及系统 |
CN112995537A (zh) * | 2021-02-09 | 2021-06-18 | 成都视海芯图微电子有限公司 | 一种视频构建方法及系统 |
CN113641854B (zh) * | 2021-07-28 | 2023-09-26 | 上海影谱科技有限公司 | 一种将文字转化为视频的方法及系统 |
CN113641854A (zh) * | 2021-07-28 | 2021-11-12 | 上海影谱科技有限公司 | 一种将文字转化为视频的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108986186B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108986186A (zh) | 文字转化视频的方法和系统 | |
CN111275085B (zh) | 基于注意力融合的在线短视频多模态情感识别方法 | |
Tang et al. | Dance with melody: An lstm-autoencoder approach to music-oriented dance synthesis | |
KR101855597B1 (ko) | 계층적 회귀 신경망을 이용하여 비디오 문절을 캡셔닝하기 위한 시스템 및 방법 | |
CN109801349A (zh) | 一种声音驱动的三维动画角色实时表情生成方法和系统 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
CN114565808B (zh) | 一种面向无监督视觉表示的双动量对比学习方法 | |
Yang et al. | A comprehensive survey on image aesthetic quality assessment | |
CN116796045A (zh) | 一种多维度图书分级方法、系统及可读介质 | |
Wang et al. | A text-guided generation and refinement model for image captioning | |
CN115129934A (zh) | 一种多模态视频理解方法 | |
Li et al. | Image aesthetics assessment with attribute-assisted multimodal memory network | |
Li et al. | Integrating language guidance into image-text matching for correcting false negatives | |
CN110415261A (zh) | 一种分区域训练的表情动画转换方法及系统 | |
CN115147890A (zh) | 用于创建将用于图像识别的图像数据嵌入的系统、方法和存储介质 | |
CN116432605B (zh) | 融入先验知识的作文评语生成方法及装置 | |
Jishan et al. | Hybrid deep neural network for bangla automated image descriptor | |
Huang et al. | Recent advances in artificial intelligence for video production system | |
CN115169472A (zh) | 针对多媒体数据的音乐匹配方法、装置和计算机设备 | |
Torabi et al. | Action classification and highlighting in videos | |
Miao et al. | Multimodal Aesthetic Analysis Assisted by Styles through a Multimodal co-Transformer Model | |
Chai et al. | An artistic analysis model based on sequence cartoon images for scratch | |
Shi et al. | Auto Image Comment via Deep Attention | |
KHELDOUN et al. | ALGSL89: An Algerian Sign Language Dataset | |
Bongini | Vision and Language tasks: Applications to real scenarios and Image Quality Assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |