CN108846887A

CN108846887A - Vr视频的生成方法及装置

Info

Publication number: CN108846887A
Application number: CN201810635482.6A
Authority: CN
Inventors: 邱柯妮; 李鹏; 付则宇; 张梁; 徐远超
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2018-11-20

Abstract

本发明涉及一种视频、音频转化为VR视频的方法，包括：获取音频文件，或者，提取视频中的音频文件；通过语音识别获取音频文件对应的字幕文件；通过自然语言处理获得字幕文件中每一句文本的情感标签和时间戳的差值，并将字幕文件转化为文本文件；通过3D建模工具对视频或音频中的人物进行建模，获得人物模型文件；通过录制设备针对每一句文本的情感标签录制相应的动画文件，或者，通过3D建模工具针对每一句文本的情感标签制作相应的动画文件；通过3D游戏引擎将所述音频文件、所述文本文件、所述人物模型文件和所述动画文件进行语音、字幕和表情动作的匹配，生成三维场景下的VR视频。

Description

VR视频的生成方法及装置

技术领域

本发明涉及虚拟现实技术领域，尤其涉及一种VR视频的生成方法及装置。

背景技术

近年来，随着计算机技术和网络技术的发展网络学习的趋势越来越明显。相比传统教学，网络教学具有很多优势，其不受时间和地域限制、以学生的活动为教学中心、充分地利用丰富的网上教学资源的优势。网络课程视频作为网络学习的主要载体在整个远程教育发展中起着举足轻重的作用，然而网络学习虽然十分方便，但与当面教授相比，通过网络视频的学习方式存在缺陷，主要表现为缺乏身临其境的学习环境，视频和课件的制作水平与演示质量普遍不高，过于依赖机器，弱化了课堂师生之间的交流。

网络教育发展的这些年来，网上存在很多优秀的网络课程视频，但是这些网络课程视频比较枯燥，难以吸引学习者长时间集中精力观看。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供一种VR视频的生成方法及装置。

本申请提供一种VR视频的生成方法，包括：

获取音频文件；

通过语音识别获取所述音频文件对应的字幕文件；

通过自然语言处理获得所述字幕文件中每一句文本的情感标签和时间戳的差值，基于所述情感标签和所述差值将所述字幕文件转化为文本文件；

通过3D建模工具对所述音频中的人物进行建模，获得人物模型文件；

基于所述每一句文本的情感标签生成相应的动画文件；

通过3D游戏引擎将所述音频文件进行语音的匹配，将所述文本文件进行字幕的匹配，将所述人物模型文件和所述动画文件进行表情动作的匹配，生成三维场景下的虚拟现实VR视频。

可选地，所述获取音频文件，包括：

直接获取的音频文件，或者，从视频中提取的音频文件。

可选地，所述将字幕文件转化为文本文件，包括：

将所述字幕文件中的字幕序号、时间轴标签、字幕文本和空行作为处理元素；

对每一个所述处理元素的字幕文本进行自然语言处理，获得所述字幕文本的情感标签；

计算每一个所述处理元素的时间轴标签的时间差值；

将所述情感标签、所述字幕文本和所述时间轴标签的时间差值作为一个元素，组成文本文件中的一行，字幕文件中的每一个处理元素转化为对应文本文件中的一行。

可选地，所述对每一个所述处理元素的字幕文本进行自然语言处理，获得所述字幕文本的情感标签，包括：

将消去停用词后的所述字幕文本中的每一个词和情感词表中的每个词进行对比；

若所述字幕文本中的第一语义词与所述情感词表中的词相匹配，且所述第一语义词之前没有否定词，将所述第一语义词作为该句子的情感标签；

若所述第二语义词与所述情感词表中的词相匹配，且所述第二语义词之前出现否定词，将与所述第二语义词具有相反含义的情感词作为该句子的情感标签。

可选地，所述基于所述每一句文本的情感标签生成相应的动画文件，包括：

通过录制设备针对所述每一句文本的情感标签录制相应的动画文件，或者，通过3D建模工具针对所述每一句文本的情感标签制作相应的动画文件。

可选地，通过3D游戏引擎将所述音频文件进行语音的匹配，将所述文本文件进行字幕的匹配，将所述人物模型文件和所述动画文件进行表情动作的匹配，包括：

通过所述3D游戏引擎的协程机制，初始化出现一条完整的字幕；

利用协程等待预设时间，将程序的控制权交给主线程出现下一条完整的字幕；其中，所述协程等待的预设时间为初始化字幕文本的时间戳差值。

在所述字幕时间差值内，相应的动画要播放完，处理方式包括：

当所述字幕时间差值等于所述动画自身时间长度时，设置动画的播放速度为初始值；

当所述字幕时间差值大于所述动画自身时间长度时,动画播放完进入等待状态；

当所述字幕时间差值小于所述动画自身时间长度时,设置所述动画的播放速度为所述动画自身时间长度与所述字幕时间差值的比值。

本申请提供一种VR视频的生成装置，包括：

音频获取模块，用于获取音频文件；

字幕获取模块，用于获取所述音频文件对应的字幕文件；

文本转化模块，用于通过自然语言处理获得所述字幕文件中每一句文本的情感标签和时间戳的差值，基于所述情感标签和所述差值将所述字幕文件转化为文本文件；

3D建模模块，用于对所述音频文件中的人物进行建模，获取人物模型文件；

动画获取模块，用于基于所述每一句文本的情感标签生成相应的动画文件；

虚拟现实VR视频生成模块，用于通过3D游戏引擎将所述音频文件进行语音的匹配，将所述文本文件进行字幕的匹配，将所述人物模型文件和所述动画文件进行表情动作的匹配，生成三维场景下的虚拟现实VR视频。

可选地，所述文本转化模块具体用于：

计算每一个所述处理元素的时间轴标签的时间差值；

可选地，所述动画获取模块具体用于：

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请的实施例提供的方法包括：获取音频文件；通过语音识别获取所述音频文件对应的字幕文件；通过自然语言处理获得所述字幕文件中每一句文本的情感标签和时间戳的差值，基于所述情感标签和所述差值将所述字幕文件转化为文本文件；通过3D建模工具对所述音频中的人物进行建模，获得人物模型文件；基于所述每一句文本的情感标签生成相应的动画文件；通过3D游戏引擎将所述音频文件进行语音的匹配，将所述文本文件进行字幕的匹配，将所述人物模型文件和所述动画文件进行表情动作的匹配，生成三维场景下的虚拟现实VR视频。采用以上技术方案，针对任意的一段、任意格式的流媒体视频，甚至在只提供一段音频的情况下，都可以很容易的把二维视频转化为三维场景下的VR视频，生成的VR视频生动有趣，具有身临其境的效果，可以吸引学习者的注意力。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一个实施例提供的一种VR视频的生成方法流程图；

图2是本申请一个实施例提供的一种VR视频的生成方法的字幕文件的获取流程图；

图3是本申请一个实施例提供的一种VR视频的生成方法的字幕文件转化为文本文件的方法流程图；

图4是本申请一个实施例提供的一种VR视频的生成装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法的例子。

图1是本申请一个实施例提供的一种VR视频的生成方法，参照图1，该方法包括：

S1、获取音频文件；

具体的，可以直接获取已有的音频文件，或者，获取从视频中提取的音频文件。提取视频中的音频文件有很多方法，本申请中利用格式工厂这款软件获取视频中的音频文件。

S2、通过语音识别获取所述音频文件对应的字幕文件；

目前市面上有很多的商用语音识别软件，如科大讯飞、微软speech sdk等。这些软件都可以很容易的把语音转化为文字，但是本申请中不仅要把语音转为文字，还要获得文字的播放的时间戳信息。因此考虑语音转化文字的准确度、包含时间信息等因素，本申请采用YeeCaption这款智能视频翻译软件。这款软件将繁杂的视频字幕翻译制作最大程度便捷化，成功实现从切分时间轴、字幕(语音)识别，到字幕翻译校对及成品导出的一站式操作。具体步骤如下：

S21把视频加载到YeeCaption软件中，初始化视频。

S22选择YeeCaption软件面板左侧的语音切轴选型，对音频进行语音切轴获取音频的时间戳信息。

S23选择YeeCaption软件面板左侧的语音识别选型，把音频转化为文字，放在对应的时间轴区间内。

S24人工手动、校对、修改语音转化后的文字，并手动调整每一个语音切轴，使语音和文字相一致。

S3、通过自然语言处理获得所述字幕文件中每一句文本的情感标签和时间戳的差值，基于所述情感标签和所述差值将字幕文件转化为文本文件；

自然语音处理技术(NLP,Natural Language Processing)是使用自然语言同计算机进行通讯的技术。目前主要有两类研究方法：一类是基于语法规则的方法，一类是基于统计的机器学习方法。本申请中采用前者基于语法规则的方法对语音转化后的文字进行自然语言处理。它包含一些通用的步骤如下：

1)首先利用NLTK库中的jiaba分词工具对中文字幕文本进行分词处理。

2)调用一个停用词表对分词后的字幕文本进行去停用词处理。

3)拿去停用词后的字幕文本中的每一个词和情感词表中的每个词进行对比，如果情感词表中出现这个词且字幕文本中这个词之前没有否定词，就把这个词的情感类型作为这个句子的情感标签，如果字幕文本在这个情感词之前出现否定词，则把该情感词的非作为这个句子的情感标签；如果有多个词在情感词表中出现，则以第一次出现的情感词作为这个句子的情感标签。

S4、通过3D建模工具对所述音频中的人物进行建模，获得人物模型文件；

S5、基于所述每一句文本的情感标签生成相应的动画文件；

S6、通过3D游戏引擎将所述音频文件进行语音的匹配，将所述文本文件进行字幕的匹配，将所述人物模型文件和所述动画文件进行表情动作的匹配，生成三维场景下的虚拟现实VR视频。

采用以上技术方案，针对任意的一段、任意格式的流媒体视频，甚至在只提供一段音频的情况下，都可以很容易的把二维视频转化为三维场景下的VR视频；并且，最后生成的VR视频是一个包含人物、肢体动作、字幕、音频的完整视频，而且字幕、语言、肢体动作互相匹配，生成的VR视频生动有趣，具有身临其境的效果，可以吸引学习者的注意力。

上述实施例提供的方法中，获得的VR视频是基于现有的视频和音频生成的。也就是说，获得VR视频的方式不是通过原生的方式从零开始去制作，或者用全身动捕装备去录制VR视频，而是基于网络上已有的传统多媒体视频或音频去二次创作，高效、高质量的去生产三维场景下的VR视频。

上述实施例提供的方法中，获取的字幕文件为srt格式，获取的文本文件为txt格式。其中，字幕文件和文本文件也可以是其它格式，使用srt格式和txt格式是为了便于通过本方法来实现VR视频的转化。

如图3所示，上述实施例中，通过python程序实现字幕文件转化为文本文件，具体步骤包括：

S31将所述字幕文件中的字幕序号、时间轴标签、字幕文本和一个空行这四项作为一个处理元素；

S32对每一个处理元素的字幕文本进行自然语言处理，获得字幕文本的情感标签；

S33计算每一个所述处理元素的时间轴标签的时间差值；

需要注意的是，对每一个处理元素的第二项时间轴标签的处理，是以时间轴标签的时间差值作为存储元素，而不是以时间轴标签作为存储元素。

S34将所述情感标签、所述字幕文本和所述时间轴标签的时间差值这三项作为一个元素，组成文本文件中的一行，字幕文件中的每一个处理元素转化为对应文本文件中的一行。

其中，步骤S32：对每一个所述处理元素的字幕文本进行自然语言处理，获得所述字幕文本的情感标签，包括：

上述实施例中，步骤S5：基于所述每一句文本的情感标签生成相应的动画文件，生成的方法包括：

其中，录制设备为HTC vive的tracker组成的全身动捕装备，通过全身动捕设备用于录制一些粗放的用于表达情感的肢体动作，用来与获得的字幕文本的情感标签相匹配；除此之外一些精细的、无法用全身动捕装备录制的动作，采用3D建模工具来制作，这里使用的3D建模工具为3dsMax软件。

上述实施例中，步骤S6：通过3D游戏引擎将所述音频文件进行语音的匹配，将所述文本文件进行字幕的匹配，将所述人物模型文件和所述动画文件进行表情动作的匹配，包括：

其中，这里的协程机制借助Unity来实现，播放音频的同时让Unity的主程序首先调用txt文件出现一行字幕文本，然后调用协程让主程序等待一段时间再去调用txt文件中第二行显示第二段字幕文本，这个协程等待的时间就是txt文件中字幕文本相应行中最后一项的时间差值。与此同时，在主程序等待的这段时间内，调用情感标签和肢体动画文件匹配的算法，使字幕文本的内容和肢体动作相一致。通过以上方法就做到了语音、字幕、肢体动作相匹配的人物，最后生成三维场景下的VR视频。

上述实施例中，最后生成的VR视频是一个包含人物、肢体动作、字幕、音频的完整视频，而且字幕、语言、肢体动作互相匹配。控制动画的播放速度和字幕内容相匹配的方法如下：每条动画制作的时候都有自己的播放时间即动画自身时间长度ClipLength，每一段字幕出现也有一个时间差值WordTime，要求在WordTime时间内，相应的动画要播放完。处理方式有以下三种。

(1)当WordTime＝ClipLength时，动画的播放速度Speed设为初始值，即正常速度1；

(2)当WordTime>ClipLength时,动画播放完进入等待状态；

(3)当WordTime<ClipLength时,Speed＝ClipLength/WordTime,加快动画播放速度。

通过以上三种不同情况的处理，就做到了肢体动作动画和字幕内容相匹配。

图4是本申请的一个实施例提供的一种VR视频的生成装置的结构示意图，参照图4，该装置包括：

音频获取模块101，用于获取音频文件；

字幕获取模块102，用于获取所述音频文件对应的字幕文件；

文本转化模块103，用于通过自然语言处理获得所述字幕文件中每一句文本的情感标签和时间戳的差值，基于所述情感标签和所述差值将所述字幕文件转化为文本文件；

3D建模模块104，用于对所述音频文件中的人物进行建模，获取人物模型文件；

动画获取模块105，用于基于所述每一句文本的情感标签生成相应的动画文件；

虚拟现实VR视频生成模块106，用于通过3D游戏引擎将所述音频文件进行语音的匹配，将所述文本文件进行字幕的匹配，将所述人物模型文件和所述动画文件进行表情动作的匹配，生成三维场景下的虚拟现实VR视频。

进一步地，上述文本转化模块103具体用于：

将字幕文件中的字幕序号、时间轴标签、字幕文本和空行作为处理元素；

对每一个处理元素的字幕文本进行自然语言处理，获得所述字幕文本的情感标签；

计算每一个处理元素的时间轴标签的时间差值；

其中，动画获取模块105具体用于：

通过录制设备针对每一句文本的情感标签录制相应的动画文件，或者，通过3D建模工具针对每一句文本的情感标签制作相应的动画文件。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种VR视频的生成方法，其特征在于，包括：

获取音频文件；

通过语音识别获取所述音频文件对应的字幕文件；

基于所述每一句文本的情感标签生成相应的动画文件；

2.根据权利要求1所述的方法，其特征在于，所述获取音频文件，包括：

直接获取的音频文件，或者，从视频中提取的音频文件。

3.根据权利要求1所述的方法，其特征在于，所述将字幕文件转化为文本文件，包括：

计算每一个所述处理元素的时间轴标签的时间差值；

4.根据权利要求3所述的方法，其特征在于，所述对每一个所述处理元素的字幕文本进行自然语言处理，获得所述字幕文本的情感标签，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述每一句文本的情感标签生成相应的动画文件，包括：

6.根据权利要求1所述的方法，其特征在于，通过3D游戏引擎将所述音频文件进行语音的匹配，将所述文本文件进行字幕的匹配，将所述人物模型文件和所述动画文件进行表情动作的匹配，包括：

7.根据权利要求1所述的方法，其特征在于，通过3D游戏引擎将所述音频文件进行语音的匹配，将所述文本文件进行字幕的匹配，将所述人物模型文件和所述动画文件进行表情动作的匹配，包括：

8.一种VR视频的生成装置，其特征在于，包括：

音频获取模块，用于获取音频文件；

字幕获取模块，用于获取所述音频文件对应的字幕文件；

9.根据权利要求8所述的装置，其特征在于，所述文本转化模块具体用于：

计算每一个所述处理元素的时间轴标签的时间差值；

10.根据权利要求8所述的装置，其特征在于，所述动画获取模块具体用于：