CN108986186A

CN108986186A - 文字转化视频的方法和系统

Info

Publication number: CN108986186A
Application number: CN201810924859.XA
Authority: CN
Inventors: 刘弘; 郑尚菲
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2018-12-11
Anticipated expiration: 2038-08-14
Also published as: CN108986186B

Abstract

本发明公开了文字转化视频的方法和系统，输入用自然语言表达的场景表述的文本信息；对视频数据集进行过滤筛选；对过滤后的候选视频片段和输入的场景描述匹配，输出匹配度高的视频片段；利用编码器和解码器，将匹配度高的视频片段进行文本描述；将筛选出的视频片段的文本描述与自然语言表达的场景的文本表述进行相似度的选择和比对，输出内容上符合自然语言表达的场景的输入文本的关键帧集合；在关键帧集合中进行识别和提取对象，生成对象集；依照场景图和对象集最终生成关键帧，生成视频。利用基于自然语言处理的视频检索方法，比关键词相比极大地减少描述的模糊度，从而使系统能够更加的高效进行过滤，找到匹配的视频。

Description

文字转化视频的方法和系统

技术领域

本发明涉及跨媒体检索和视频纹理合成技术领域，特别是涉及文字转化视频的方法和系统。

背景技术

随着多媒体信息技术的不断发展，文字，音频，图像，视频的使用和转化与人们生活工作越来越密切。现在开发出许多的技术应用在模态之间的相互转换：可以在社交媒体上将语音转化成文字，还可以在阅读软件上将文字转化成语音将“看书”转为“听书”。

当然，多媒体各个模态在某些程度上各有各的优点和不足。自然语言虽然交流信息时候简单，但当用自然语言描述场景时候，由于交流个体的本身知识理解存在相对差异性，交流具有了天然的隔离性。往往这时候体会到一幅图的展现胜过千言万语的描写，对于图像来说，虽然具有时序稳定性的特点，但是其内容仍然没有呈现出动态性。而视频不仅具有动态性的特点，而且是最容易刺激人们感觉和调动情感的多媒体模态。

对于文字转化视频，目前的研究成果还处于一个相对较少的阶段。但是，对于其需求，从视频获取成本本身来看：为了拍摄合成心仪的视频效果，花费巨额经费进行实景复原取样，有时候还面临着较高的风险性；消失的故乡或者天马行空具有想象力的头脑画面，常常苦恼于抽象而无法展现。

因此，文字转化视频不仅仅成为亟待研究的科研领域，而且还是市场需求的新的风向标。提出一个有技术支撑且高效准确地文字转视频的方法具有非常具有现实意义的研究和实用价值。

发明内容

为了解决现有技术的不足，本发明提供了文字转化视频的方法，可以将文字转化为与其内容对应的视频，处理效果比较精确。

文字转化视频的方法，其特征是，包括：

输入用自然语言表达的场景表述的文本信息；

利用自然语言处理技术对文本信息进行解析并根据解析后的文本信息对视频数据集进行过滤筛选；

对过滤后的候选视频片段和输入的场景描述匹配，并计算匹配度后，根据匹配度进行排序，输出匹配度高的视频片段；

利用编码器和解码器，将匹配度高的视频片段进行文本描述；

将筛选出的视频片段的文本描述与自然语言表达的场景的文本表述进行相似度的选择和比对，输出内容上符合自然语言表达的场景的输入文本的关键帧集合；

在关键帧集合中进行识别和提取对象，生成对象集；

生成了对象集之后，将文本转化为节点代表对象，边代表对象之间的关系的场景图；

依照场景图和对象集最终生成关键帧，生成便于合成视频纹理的连续的关键帧集；

找到关键帧集转化点和确定播放序列，生成视频。

进一步优选的技术方案，针对用自然语言表达的场景表述的文本信息，先用自然语言处理工具对其进行解析，提取文本主要因素；

在自然语言处理工具解析的同时，将预定义过的标签贴在解析识别出的实体上，并将信息填入各个存储单元槽中，最终生成一个包含着承载文本关键信息的关键词槽的描述模板。

进一步优选的技术方案，每一个视频片段入库时，进行细粒度图像识别技术提取视频中的语音信息，字幕信息和图像信息，最后形成文本信息；

视频片段中提取的所有文本信息按句用自然语言处理工具解析并创建一个不含关键词词槽的模板，称其为解析模板。

进一步优选的技术方案，视频数据集中的解析模板里如果不含描述模板中的关键词，则该解析模板与场景表述的文本信息无关，剩下的解析模板代表候选视频片段。

进一步优选的技术方案，候选视频片段和用户输入场景描述进行相关度度量，并按相关度由高到低排列，得到最终的检索结果；

其中，视频片段和用户场景描述之间的相关度与槽匹配度MSS及顺序匹配度SWS相关；

槽匹配度MSS：对比描述模板与一个解析模板分别对应的记录信息的储存单元槽，两者完全匹配时匹配度加2，两者是近义词时匹配度加1.5，两者是包含与被包含关系时匹配度加1；

顺序匹配度SWS：即一个解析模板中同描述模板中同序出现的关键词的个数；

一个解析模板与描述模板的总匹配度TS定义为MSS和SWS两者之和TS＝MSS+SWS，在计算得到某个视频片段的所有描述模板与解析模板的匹配度后，存入一个数组，候选视频片段和输入场景描述CPS定义为：

候选视频片段和输入场景描述CPS即为相邻5个解析模板匹配度和的最大值，n₁为解析模板的个数，计算得到所有候选视频片段与描述的匹配度后，按各片段匹配度CPS大小由高到低排列视频片段。

进一步优选的技术方案，获取到CPS大小排序的视频集，通过带有调节功能的时间注意力机制的层级LSTM框架来进行选取视频的特定帧，并利用LSTM对视觉信息和语境信息进行建模，然后根据可调节的时间注意力机制来选择解码是依赖于视觉信息还是语境信息，最终将视频描述为具有语境信息的文本。

进一步优选的技术方案，根据描述模板中的包含所有对象的目标集，识别视频帧集后，将对视频帧集进行对象的抠图：对于判断后具有运动行为的对象，抠取连续的对象集，而对于静止对象或者背景，则保持唯一性原则进行抠图；最终提取出生成的所有对象存储生成对象集；

生成了对象集之后，将文本转化为节点代表对象，边代表对象之间的关系的场景图，将场景图输入图像生成模型之后，场景图首先输入到图卷积网络，其按照场景图的边的顺序计算所有对象的嵌入向量后，再将向量发送到对象布局网络中从而进一步得到对象之间的布局，将所有对象布局结合就能形成场景层；然后用一个级联细化网络将布局转换为生成图像；对于文本描述中运动的对象，要获得不同时序组合的关键帧集，用于生成连续运动的场景。

进一步优选的技术方案，确定最终视频场景：将视频帧进行相似度计算后进行子序列的划分，利用缝合线将剖分后的视频帧进行重组，确定好了连续帧集转换点和确定播放序列后，播放确定好的的视频帧序列得到具有动态性和无限播放的视频场景。

本申请还公开了一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述方法。

本申请还公开了文字转化视频的系统，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令用于执行上述所述的方法。

与现有技术相比，本发明的有益效果是：

(1)利用基于自然语言处理的视频检索方法，用户可以使用自然语言快速清晰地表达自己的意愿。自然语言提供了上下文环境和情感，比关键词相比极大地减少描述的模糊度，从而使系统能够更加的高效进行过滤，找到匹配的视频。

(2)在描述视频时候，使用一种静态卷积神经网络(CNN)和一种时空三维CNN来建模输入视频剪辑。采用双层STLM来学习如何表达视频帧序列。底层LSTM用来建模输入视频序列的视觉特征，顶层LSTM可以挖掘语境信息，用来捕捉视频段的高层语义特征，来建模最终的表达语言。通过分层的LSTM以及注意力机制的引用，本申请的方法避免了内容识别和句子生成的分离，通过学习将视频直接映射到为人提供完整的句子，同时学习一种以视觉特征为条件的语言模型。

(3)在生成关键帧时，先将文字描述转换成为场景图(节点为对象，边代表对象之间的关系)，然后由场景图作为模型的输入，最后生成图像，能够生成多个对象的场景，甚至是同一个对象类型生成多种实例；遵循对象之间的关系，具有生成复杂的图像的能力。

而且，引入GAN(生成对抗网络)框架，在训练过程中，生成模型不断与判别模型进行传输。判别模型尽可能识别真实样本和尽可能的正确的揪出假样本。而生成模型尽可能最小化判别模型揪出它的概率。在训练过程中双方不断优化自己，直到平衡。这样不仅能够处理图结构的输入，而且能够正确的反映出多个物体的空间透视关系，将整个图中的所有物体整合在一起，使看起来自然和谐。

(4)基于深度学习的抠图方案，能够最大程度上处理纹理这样的高阶特性，处理效果比较精确。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本发明文字转化视频方法的流程图；

图2是本发明文字转化视频方法的描述模板与各个信息存储单元槽结构示意图；

图3是本发明文字转化视频方法的视频描述编码器解码器模型示意图；

图4是本发明文字转化视频方法的文本相似度比较LSTM-DSSM模型示意图；

图5是本发明文字转化视频方法的抠图生成对象的模型示意图；

图6是本发明文字转化视频方法的视频帧的剖分与重组示意图；

图7是本发明文字转化视频方法的重叠区域的缝合过程示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本申请提供了文字转化视频的方法，整体技术构思是：当输入文本信息之后，通过自然语言信息检索视频数据集，输出检索后的视频片段集；将视频片段集中符合文本信息的视频提取语义以及语境，并进行文本描述输出；将生成的文本与输入的文本进行相似度的选择和比对；提取出符合用户输入文本信息的帧素材集，在帧素材集里面提取出对象集；依照场景图和对象集最终生成关键帧，找到转换点和确定播放序列，最终生成视频。

本申请的一种典型的实施方式中，如图1所示，提供了文字转化视频的方法，包括：

(1)输入文本，利用自然语言处理技术，通过自然语言在视频数据集中进行基于内容的信息检索，对过滤后的候选视频片段和用户输入的场景描述匹配，输出匹配度高的视频片段；

(2)利用基于卷积神经网络(CNN)的编码器和基于循环神经网络(RNN)的解码器，将第一步骤计算视频片段与用户场景描述匹配度CPS排序视频片段进行文本描述。

(3)将两个文本进行相似度的选择和比对，输出内容上符合用户输入文本的关键帧集合；

(4)在关键帧集合中进行提取和生成对象，依照场景图和对象集最终生成关键帧，最终生成便于合成视频纹理的连续的关键帧集。

(5)找到连续帧集转换点和确定播放序列，最终生成视频。

具体的，步骤(1)：用户在线提交一个用自然语言表达的场景表述后，系统先用自然语言处理工具对其进行解析，提取文本主要因素(对象，地点，时间，行为等)在自然语言处理工具解析的同时，把一些预定义过的标签贴在识别出的实体上(实体如济南泉城广场属于定义的地点标签)，将生成信息填入描述模板中的各个对应存储单元槽中，最终生成一个完整的描述模板，如图2所示。

在每一个视频片段入库时，用语音识别技术，光学字符识别技术以及间隔抽取视频帧进行细粒度图像识别技术提取视频中的语音信息，字幕信息和图像信息，最后形成文本信息。和描述模板一样，视频片段中提取的所有文本信息也要按句用自然语言处理工具解析并创建一个和描述模板相似的模板，只是该模板不含关键词词槽，称其为解析模板。然后将该解析模板加入与视频数据集对应的解析模板表中，同时更新关键词索引。

具体的输入文本与视频数据集中的视频匹配分两个阶段完成：

第一阶段：候选片段筛选，利用一定的信息检索技术将大部分明显与用户场景描述无关的解析模板滤掉。一般来说一个解析模板里如果不含描述模板中的关键词，则它与用户场景描述无关，剩下的记录就代表候选视频片段了，进入下个阶段。

第二阶段：用户输入的场景描述和候选视频片段的匹配第二阶段的主要任务就是对每一个过了第一阶段的视频片段和用户输入场景描述相关度度量，并按相关度由高到低排列，得到最终的检索结果。候选视频片段和用户输入场景描述间的相关度由以下因素决定：

槽匹配度(MSS)：对比描述模板与一个解析模板对应的模板内记录信息的单元槽，两者完全匹配时匹配度加2，两者是近义词时匹配度加1.5，两者是包含与被包含关系时匹配度加1。

顺序匹配度(SWS)：即一个解析模板中同描述模板中同序出现的关键词的个数。

一个解析模板与描述模板的总匹配度TS定义为MSS和SWS两者之和TS＝MSS+SWS，在计算得到某个视频片段的所有描述模板与解析模板的匹配度后，把它们存入一个数组，该候选视频片段和用户输入场景描述匹配度CPS定义为：

即相邻5个解析模板匹配度和的最大值，n₁为解析模板的个数，计算得到所有候选视频片段与描述的匹配度后，按各片段匹配度CPS大小由高到低排列视频片段，供后续步骤使用。

步骤(2)：获取到CPS大小排序的视频集，通过带有调节功能的时间注意力机制的层级LSTM框架来进行选取视频的特定帧，并利用LSTM对视觉信息和语境信息进行建模，然后根据可调节的时间注意力机制来选择解码是依赖于视觉信息还是语境信息,最终将视频描述为具有语境信息的文本。

如图3所示，CNN编码器：这里使用ResNet-152模型来提取frame-level的特征。

RNN解码器：其中包含两层LSTM、两种注意力机制以及一层MLP。

通过层级LSTM框架来对视觉信息和语境信息进行建模。底层的LSTM捕捉低层视觉特征。其状态变量h_t,m_t根据现有的文本中词语的语义特征和前一时刻的隐含语义状态和以往上下文语义记忆进行更新。顶层的LSTM则主要挖掘语境信息，获取视频段所表达的潜在高层语义特征。其状态变量依照本模型底层LSTM的隐含状态变量h_t、前一时刻的隐含状态变量和前一时刻的记忆变量进行目标性更新。时间注意力机制的有益效果的引导关注哪些是关键帧，捕捉关注性强的视觉特征。用动态的权值对时序特征求和，得到数值表示相应视频段的视觉特征。根据视频段视觉特征及底层LSTM时刻t的隐含状态h_t，并最终的动态权值。可调节的时间注意力机制的有益效果是判断生成词语依照视觉信息还是语境信息以及进行最后的词语的生成。在该层中，通过添加校正门来控制选取不同信息进行视觉单词和非视觉单词的预测。MLP层则用于最终的词的预测。通过以上编码器和解码器进行视频的描述，得到切合视频内容的文本描述，具体过程如下：

1)底层的LSTM可以高效地解码视觉特征在该层中，时刻t的状态h_t,m_t根据当前的词语的特征y_t、前一时刻的隐含状态h_(t-1)和前一时刻的记忆m_(t-1)进行更新。初始状态为h₀,m₀。整个更新过程用公式表示为：

h₀,m₀＝[W^ih；W^ic]Mean({V_i})

h_t,m_t＝LSTM(y_t,h_t-1,m_t-1)

其中W^ih和W^ic是该层需要学习的参数，Mean(·)表示对给定的视频段特征集{v}进行平均池化的操作。

2)顶层的LSTM则主要挖掘语境信息捕捉视频段的高层语义特征。在该层中，时刻t的状态根据底层LSTM的隐含状态h_t、前一时刻的隐含状态和前一时刻的记忆进行更新。同样地，整个更新过程用公式表示为：

3)时间注意力机制用于引导关注哪些重要的帧，捕捉关注的视觉特征。在时刻t中，用动态的权值对时序特征进行求和，得到的特征用来表示每个时刻下视频段的视觉特征。根据视频段特征V(V＝{V_i})及底层LSTM时刻t的隐含状态h_t，经由单层神经网络获取到未归一化的关联分数ε_t，并采用softmax函数来得到最终的动态权值。整个权值获取的过程用公式可表示为：

其中，n表示视频帧数，W^T、W_a、U_a、b_a是需要学习的参数。

4)可调节的时间注意力机制是判断采用视觉信息还是语境信息以及最后的词语生成。在该层中，通过添加校正门β_t来预测视觉词语和非视觉词语。整个过程用公式表示如下：

β_t＝sigmoid(W_sh_t)

其中，W_s是需要学习的参数。

5)MLP层则用于最终的词的预测

通过以上编码器和解码器进行视频的描述，得到切合视频内容的文字描述。

步骤(3)通过LSTM-DSSM文本相似度对比将用户输入的场景文字描述和解码器生成的文字进行对比筛选，输出相似度最高对应的帧集，如图4所示。

LSTM-DSSM是LSTM的一个变种——加入了peephole的LSTM，通过下式可以解释LSTM-DSSM的作用：

f_t＝σ(W_f·[C_t-1,h_t-1,x_t]+b_f)

i_t＝σ(W_i·[C_t-1,h_t-1,x_t]+b_i)

o_t＝σ(W_o·[C_t,h_t-1,x_t]+b_o)

传统的LSTM中遗忘门、输入门和输出门只用了h_t-1和x_t来控制门缝的大小，但是在LSTM-DSSM不仅要考虑h_t-1和x_t，还需要关注C_t-1和C_t，在此基础上遗忘门和输入门需要关注C_t-1，而输出门关注了C_t。综上，使用LSTM-DSSM用于比较相似性，需要考虑的信息更丰富了。将文本信息进行相似度比对后，提取出与用户描述相似度最高的视频帧集。

步骤(4)根据描述模板中的包含所有对象的目标集，识别视频帧集后，利用基于深度学习的方法来解决图像拼接问题。如图5所示，给定目标集，训练神经网络充分利用数据。该网络由两个阶段组成，第一个阶段是深度卷积编码器-解码器结构。对于编码器的具体操作来说，通过后续的卷积层和最大池层转换为向下采样的特征映射。对于解码器的具体操作来说，使用后续的非池层从而再一次对最大池操作和卷积层进行操作，对特征映射进行向上采样，并获得所需的输出；经过结构一后结果会过于平滑，因此，第二个阶段将进行进一步的细化。这个扩展的网络通常预测更精确的alpha mattes和更锐利的边缘，对于判断后具有运动行为的对象，抠取连续的对象集，而对于静止对象或者背景，则保持唯一性原则进行抠图。最终提取所有对象并存储生成包含描述模板中的目标集的对象集。

生成了对象集之后，将文本转化为节点代表对象，边代表对象之间的关系的场景图。将场景图输入图像生成模型之后，场景图首先输入到图卷积网络，其按照场景图的边的顺序计算所有对象的嵌入向量后，再将向量发送到对象布局网络中从而进一步得到对象之间的布局，将所有对象布局结合就能形成场景层。然后用一个级联细化网络将布局转换为生成图像。对于文本描述中运动的对象，要获得不同时序组合的关键帧集，用于生成连续运动的场景。如图6所示。

步骤(5)为确定最终视频场景。如图7所示，首先，采用L2距离来计算每两帧图象之间的相似度。设n_i、n_j是不同的两个帧，下式为相似度计算方法:

式中：I_i,I_j为视频帧，N_i,N_j为亮度信息，p,q是对应的像素值，选取和当前帧的相似度最高的帧作为下一帧，从而可以大致确认播放序列。

然后，为缩小帧与帧之间的不连贯性和跳变，进行划分子序列。将相识度小于某一阈值k，就把这两帧图像归为一个子序列。n表示视频帧数，m表示其中的某一帧，Error表示L₂距离，阈值k可通过以下式进行计算。

确认周期长度之后，为进一步减少视频的不连贯性，采用Bhat的算法将合成视频进行剖分。采用Efors的方法来解决同一帧内部的不连续性，采用动态规划的方法找到纹理块重叠区域的最佳缝合线，之后用alpha混合沿缝合线找到左右两边最合适的像素点进行填充。完成重叠区域的缝合，输出为无限播放的动态视频场景。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.文字转化视频的方法，其特征是，包括：

输入用自然语言表达的场景表述的文本信息；

在关键帧集合中进行识别和提取对象，生成对象集；

找到关键帧集转化点和确定播放序列，生成视频。

2.如权利要求1所述的文字转化视频的方法，其特征是，针对用自然语言表达的场景表述的文本信息，先用自然语言处理工具对其进行解析，提取文本主要因素；

3.如权利要求1所述的文字转化视频的方法，其特征是，每一个视频片段入库时，进行细粒度图像识别技术提取视频中的语音信息，字幕信息和图像信息，最后形成文本信息；

4.如权利要求1所述的文字转化视频的方法，其特征是，视频数据集中的解析模板里如果不含描述模板中的关键词，则该解析模板与场景表述的文本信息无关，剩下的解析模板代表候选视频片段。

5.如权利要求4所述的文字转化视频的方法，其特征是，候选视频片段和用户输入场景描述进行相关度度量，并按相关度由高到低排列，得到最终的检索结果；

6.如权利要求5所述的文字转化视频的方法，其特征是，获取到CPS大小排序的视频集，通过带有调节功能的时间注意力机制的层级LSTM框架来进行选取视频的特定帧，并利用LSTM对视觉信息和语境信息进行建模，然后根据可调节的时间注意力机制来选择解码是依赖于视觉信息还是语境信息，最终将视频描述为具有语境信息的文本。

7.如权利要求1所述的文字转化视频的方法，其特征是，根据描述模板中的包含所有对象的目标集，识别视频帧集后，将对视频帧集进行对象的抠图：对于判断后具有运动行为的对象，抠取连续的对象集，而对于静止对象或者背景，则保持唯一性原则进行抠图；最终提取出生成的所有对象存储生成对象集；

8.如权利要求1所述的文字转化视频的方法，其特征是，确定最终视频场景：将视频帧进行相似度计算后进行子序列的划分，利用缝合线将剖分后的视频帧进行重组，确定好了连续帧集转换点和确定播放序列后，播放确定好的的视频帧序列得到具有动态性和无限播放的视频场景。

9.一种计算机可读存储介质，其中存储有多条指令，其特征是，所述指令适于由终端设备的处理器加载并执行上述权利要求1-8任一所述的方法。

10.文字转化视频的系统，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征是，所述指令用于执行上述权利要求1-8任一所述的方法。