CN108846887A - Vr视频的生成方法及装置 - Google Patents
Vr视频的生成方法及装置 Download PDFInfo
- Publication number
- CN108846887A CN108846887A CN201810635482.6A CN201810635482A CN108846887A CN 108846887 A CN108846887 A CN 108846887A CN 201810635482 A CN201810635482 A CN 201810635482A CN 108846887 A CN108846887 A CN 108846887A
- Authority
- CN
- China
- Prior art keywords
- file
- subtitle
- text
- animation
- affective tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000003058 natural language processing Methods 0.000 claims abstract description 19
- 230000008921 facial expression Effects 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 37
- 230000008451 emotion Effects 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000009471 action Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及一种视频、音频转化为VR视频的方法,包括:获取音频文件,或者,提取视频中的音频文件;通过语音识别获取音频文件对应的字幕文件;通过自然语言处理获得字幕文件中每一句文本的情感标签和时间戳的差值,并将字幕文件转化为文本文件;通过3D建模工具对视频或音频中的人物进行建模,获得人物模型文件;通过录制设备针对每一句文本的情感标签录制相应的动画文件,或者,通过3D建模工具针对每一句文本的情感标签制作相应的动画文件;通过3D游戏引擎将所述音频文件、所述文本文件、所述人物模型文件和所述动画文件进行语音、字幕和表情动作的匹配,生成三维场景下的VR视频。
Description
技术领域
本发明涉及虚拟现实技术领域,尤其涉及一种VR视频的生成方法及装置。
背景技术
近年来,随着计算机技术和网络技术的发展网络学习的趋势越来越明显。相比传统教学,网络教学具有很多优势,其不受时间和地域限制、以学生的活动为教学中心、充分地利用丰富的网上教学资源的优势。网络课程视频作为网络学习的主要载体在整个远程教育发展中起着举足轻重的作用,然而网络学习虽然十分方便,但与当面教授相比,通过网络视频的学习方式存在缺陷,主要表现为缺乏身临其境的学习环境,视频和课件的制作水平与演示质量普遍不高,过于依赖机器,弱化了课堂师生之间的交流。
网络教育发展的这些年来,网上存在很多优秀的网络课程视频,但是这些网络课程视频比较枯燥,难以吸引学习者长时间集中精力观看。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供一种VR视频的生成方法及装置。
本申请提供一种VR视频的生成方法,包括:
获取音频文件;
通过语音识别获取所述音频文件对应的字幕文件;
通过自然语言处理获得所述字幕文件中每一句文本的情感标签和时间戳的差值,基于所述情感标签和所述差值将所述字幕文件转化为文本文件;
通过3D建模工具对所述音频中的人物进行建模,获得人物模型文件;
基于所述每一句文本的情感标签生成相应的动画文件;
通过3D游戏引擎将所述音频文件进行语音的匹配,将所述文本文件进行字幕的匹配,将所述人物模型文件和所述动画文件进行表情动作的匹配,生成三维场景下的虚拟现实VR视频。
可选地,所述获取音频文件,包括:
直接获取的音频文件,或者,从视频中提取的音频文件。
可选地,所述将字幕文件转化为文本文件,包括:
将所述字幕文件中的字幕序号、时间轴标签、字幕文本和空行作为处理元素;
对每一个所述处理元素的字幕文本进行自然语言处理,获得所述字幕文本的情感标签;
计算每一个所述处理元素的时间轴标签的时间差值;
将所述情感标签、所述字幕文本和所述时间轴标签的时间差值作为一个元素,组成文本文件中的一行,字幕文件中的每一个处理元素转化为对应文本文件中的一行。
可选地,所述对每一个所述处理元素的字幕文本进行自然语言处理,获得所述字幕文本的情感标签,包括:
将消去停用词后的所述字幕文本中的每一个词和情感词表中的每个词进行对比;
若所述字幕文本中的第一语义词与所述情感词表中的词相匹配,且所述第一语义词之前没有否定词,将所述第一语义词作为该句子的情感标签;
若所述第二语义词与所述情感词表中的词相匹配,且所述第二语义词之前出现否定词,将与所述第二语义词具有相反含义的情感词作为该句子的情感标签。
可选地,所述基于所述每一句文本的情感标签生成相应的动画文件,包括:
通过录制设备针对所述每一句文本的情感标签录制相应的动画文件,或者,通过3D建模工具针对所述每一句文本的情感标签制作相应的动画文件。
可选地,通过3D游戏引擎将所述音频文件进行语音的匹配,将所述文本文件进行字幕的匹配,将所述人物模型文件和所述动画文件进行表情动作的匹配,包括:
通过所述3D游戏引擎的协程机制,初始化出现一条完整的字幕;
利用协程等待预设时间,将程序的控制权交给主线程出现下一条完整的字幕;其中,所述协程等待的预设时间为初始化字幕文本的时间戳差值。
可选地,通过3D游戏引擎将所述音频文件进行语音的匹配,将所述文本文件进行字幕的匹配,将所述人物模型文件和所述动画文件进行表情动作的匹配,包括:
在所述字幕时间差值内,相应的动画要播放完,处理方式包括:
当所述字幕时间差值等于所述动画自身时间长度时,设置动画的播放速度为初始值;
当所述字幕时间差值大于所述动画自身时间长度时,动画播放完进入等待状态;
当所述字幕时间差值小于所述动画自身时间长度时,设置所述动画的播放速度为所述动画自身时间长度与所述字幕时间差值的比值。
本申请提供一种VR视频的生成装置,包括:
音频获取模块,用于获取音频文件;
字幕获取模块,用于获取所述音频文件对应的字幕文件;
文本转化模块,用于通过自然语言处理获得所述字幕文件中每一句文本的情感标签和时间戳的差值,基于所述情感标签和所述差值将所述字幕文件转化为文本文件;
3D建模模块,用于对所述音频文件中的人物进行建模,获取人物模型文件;
动画获取模块,用于基于所述每一句文本的情感标签生成相应的动画文件;
虚拟现实VR视频生成模块,用于通过3D游戏引擎将所述音频文件进行语音的匹配,将所述文本文件进行字幕的匹配,将所述人物模型文件和所述动画文件进行表情动作的匹配,生成三维场景下的虚拟现实VR视频。
可选地,所述文本转化模块具体用于:
将所述字幕文件中的字幕序号、时间轴标签、字幕文本和空行作为处理元素;
对每一个所述处理元素的字幕文本进行自然语言处理,获得所述字幕文本的情感标签;
计算每一个所述处理元素的时间轴标签的时间差值;
将所述情感标签、所述字幕文本和所述时间轴标签的时间差值作为一个元素,组成文本文件中的一行,字幕文件中的每一个处理元素转化为对应文本文件中的一行。
可选地,所述动画获取模块具体用于:
通过录制设备针对所述每一句文本的情感标签录制相应的动画文件,或者,通过3D建模工具针对所述每一句文本的情感标签制作相应的动画文件。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请的实施例提供的方法包括:获取音频文件;通过语音识别获取所述音频文件对应的字幕文件;通过自然语言处理获得所述字幕文件中每一句文本的情感标签和时间戳的差值,基于所述情感标签和所述差值将所述字幕文件转化为文本文件;通过3D建模工具对所述音频中的人物进行建模,获得人物模型文件;基于所述每一句文本的情感标签生成相应的动画文件;通过3D游戏引擎将所述音频文件进行语音的匹配,将所述文本文件进行字幕的匹配,将所述人物模型文件和所述动画文件进行表情动作的匹配,生成三维场景下的虚拟现实VR视频。采用以上技术方案,针对任意的一段、任意格式的流媒体视频,甚至在只提供一段音频的情况下,都可以很容易的把二维视频转化为三维场景下的VR视频,生成的VR视频生动有趣,具有身临其境的效果,可以吸引学习者的注意力。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请一个实施例提供的一种VR视频的生成方法流程图;
图2是本申请一个实施例提供的一种VR视频的生成方法的字幕文件的获取流程图;
图3是本申请一个实施例提供的一种VR视频的生成方法的字幕文件转化为文本文件的方法流程图;
图4是本申请一个实施例提供的一种VR视频的生成装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法的例子。
图1是本申请一个实施例提供的一种VR视频的生成方法,参照图1,该方法包括:
S1、获取音频文件;
具体的,可以直接获取已有的音频文件,或者,获取从视频中提取的音频文件。提取视频中的音频文件有很多方法,本申请中利用格式工厂这款软件获取视频中的音频文件。
S2、通过语音识别获取所述音频文件对应的字幕文件;
目前市面上有很多的商用语音识别软件,如科大讯飞、微软speech sdk等。这些软件都可以很容易的把语音转化为文字,但是本申请中不仅要把语音转为文字,还要获得文字的播放的时间戳信息。因此考虑语音转化文字的准确度、包含时间信息等因素,本申请采用YeeCaption这款智能视频翻译软件。这款软件将繁杂的视频字幕翻译制作最大程度便捷化,成功实现从切分时间轴、字幕(语音)识别,到字幕翻译校对及成品导出的一站式操作。具体步骤如下:
S21把视频加载到YeeCaption软件中,初始化视频。
S22选择YeeCaption软件面板左侧的语音切轴选型,对音频进行语音切轴获取音频的时间戳信息。
S23选择YeeCaption软件面板左侧的语音识别选型,把音频转化为文字,放在对应的时间轴区间内。
S24人工手动、校对、修改语音转化后的文字,并手动调整每一个语音切轴,使语音和文字相一致。
S3、通过自然语言处理获得所述字幕文件中每一句文本的情感标签和时间戳的差值,基于所述情感标签和所述差值将字幕文件转化为文本文件;
自然语音处理技术(NLP,Natural Language Processing)是使用自然语言同计算机进行通讯的技术。目前主要有两类研究方法:一类是基于语法规则的方法,一类是基于统计的机器学习方法。本申请中采用前者基于语法规则的方法对语音转化后的文字进行自然语言处理。它包含一些通用的步骤如下:
1)首先利用NLTK库中的jiaba分词工具对中文字幕文本进行分词处理。
2)调用一个停用词表对分词后的字幕文本进行去停用词处理。
3)拿去停用词后的字幕文本中的每一个词和情感词表中的每个词进行对比,如果情感词表中出现这个词且字幕文本中这个词之前没有否定词,就把这个词的情感类型作为这个句子的情感标签,如果字幕文本在这个情感词之前出现否定词,则把该情感词的非作为这个句子的情感标签;如果有多个词在情感词表中出现,则以第一次出现的情感词作为这个句子的情感标签。
S4、通过3D建模工具对所述音频中的人物进行建模,获得人物模型文件;
S5、基于所述每一句文本的情感标签生成相应的动画文件;
S6、通过3D游戏引擎将所述音频文件进行语音的匹配,将所述文本文件进行字幕的匹配,将所述人物模型文件和所述动画文件进行表情动作的匹配,生成三维场景下的虚拟现实VR视频。
采用以上技术方案,针对任意的一段、任意格式的流媒体视频,甚至在只提供一段音频的情况下,都可以很容易的把二维视频转化为三维场景下的VR视频;并且,最后生成的VR视频是一个包含人物、肢体动作、字幕、音频的完整视频,而且字幕、语言、肢体动作互相匹配,生成的VR视频生动有趣,具有身临其境的效果,可以吸引学习者的注意力。
上述实施例提供的方法中,获得的VR视频是基于现有的视频和音频生成的。也就是说,获得VR视频的方式不是通过原生的方式从零开始去制作,或者用全身动捕装备去录制VR视频,而是基于网络上已有的传统多媒体视频或音频去二次创作,高效、高质量的去生产三维场景下的VR视频。
上述实施例提供的方法中,获取的字幕文件为srt格式,获取的文本文件为txt格式。其中,字幕文件和文本文件也可以是其它格式,使用srt格式和txt格式是为了便于通过本方法来实现VR视频的转化。
如图3所示,上述实施例中,通过python程序实现字幕文件转化为文本文件,具体步骤包括:
S31将所述字幕文件中的字幕序号、时间轴标签、字幕文本和一个空行这四项作为一个处理元素;
S32对每一个处理元素的字幕文本进行自然语言处理,获得字幕文本的情感标签;
S33计算每一个所述处理元素的时间轴标签的时间差值;
需要注意的是,对每一个处理元素的第二项时间轴标签的处理,是以时间轴标签的时间差值作为存储元素,而不是以时间轴标签作为存储元素。
S34将所述情感标签、所述字幕文本和所述时间轴标签的时间差值这三项作为一个元素,组成文本文件中的一行,字幕文件中的每一个处理元素转化为对应文本文件中的一行。
其中,步骤S32:对每一个所述处理元素的字幕文本进行自然语言处理,获得所述字幕文本的情感标签,包括:
将消去停用词后的所述字幕文本中的每一个词和情感词表中的每个词进行对比;
若所述字幕文本中的第一语义词与所述情感词表中的词相匹配,且所述第一语义词之前没有否定词,将所述第一语义词作为该句子的情感标签;
若所述第二语义词与所述情感词表中的词相匹配,且所述第二语义词之前出现否定词,将与所述第二语义词具有相反含义的情感词作为该句子的情感标签。
上述实施例中,步骤S5:基于所述每一句文本的情感标签生成相应的动画文件,生成的方法包括:
通过录制设备针对所述每一句文本的情感标签录制相应的动画文件,或者,通过3D建模工具针对所述每一句文本的情感标签制作相应的动画文件。
其中,录制设备为HTC vive的tracker组成的全身动捕装备,通过全身动捕设备用于录制一些粗放的用于表达情感的肢体动作,用来与获得的字幕文本的情感标签相匹配;除此之外一些精细的、无法用全身动捕装备录制的动作,采用3D建模工具来制作,这里使用的3D建模工具为3dsMax软件。
上述实施例中,步骤S6:通过3D游戏引擎将所述音频文件进行语音的匹配,将所述文本文件进行字幕的匹配,将所述人物模型文件和所述动画文件进行表情动作的匹配,包括:
通过所述3D游戏引擎的协程机制,初始化出现一条完整的字幕;
利用协程等待预设时间,将程序的控制权交给主线程出现下一条完整的字幕;其中,所述协程等待的预设时间为初始化字幕文本的时间戳差值。
其中,这里的协程机制借助Unity来实现,播放音频的同时让Unity的主程序首先调用txt文件出现一行字幕文本,然后调用协程让主程序等待一段时间再去调用txt文件中第二行显示第二段字幕文本,这个协程等待的时间就是txt文件中字幕文本相应行中最后一项的时间差值。与此同时,在主程序等待的这段时间内,调用情感标签和肢体动画文件匹配的算法,使字幕文本的内容和肢体动作相一致。通过以上方法就做到了语音、字幕、肢体动作相匹配的人物,最后生成三维场景下的VR视频。
上述实施例中,最后生成的VR视频是一个包含人物、肢体动作、字幕、音频的完整视频,而且字幕、语言、肢体动作互相匹配。控制动画的播放速度和字幕内容相匹配的方法如下:每条动画制作的时候都有自己的播放时间即动画自身时间长度ClipLength,每一段字幕出现也有一个时间差值WordTime,要求在WordTime时间内,相应的动画要播放完。处理方式有以下三种。
(1)当WordTime=ClipLength时,动画的播放速度Speed设为初始值,即正常速度1;
(2)当WordTime>ClipLength时,动画播放完进入等待状态;
(3)当WordTime<ClipLength时,Speed=ClipLength/WordTime,加快动画播放速度。
通过以上三种不同情况的处理,就做到了肢体动作动画和字幕内容相匹配。
图4是本申请的一个实施例提供的一种VR视频的生成装置的结构示意图,参照图4,该装置包括:
音频获取模块101,用于获取音频文件;
字幕获取模块102,用于获取所述音频文件对应的字幕文件;
文本转化模块103,用于通过自然语言处理获得所述字幕文件中每一句文本的情感标签和时间戳的差值,基于所述情感标签和所述差值将所述字幕文件转化为文本文件;
3D建模模块104,用于对所述音频文件中的人物进行建模,获取人物模型文件;
动画获取模块105,用于基于所述每一句文本的情感标签生成相应的动画文件;
虚拟现实VR视频生成模块106,用于通过3D游戏引擎将所述音频文件进行语音的匹配,将所述文本文件进行字幕的匹配,将所述人物模型文件和所述动画文件进行表情动作的匹配,生成三维场景下的虚拟现实VR视频。
进一步地,上述文本转化模块103具体用于:
将字幕文件中的字幕序号、时间轴标签、字幕文本和空行作为处理元素;
对每一个处理元素的字幕文本进行自然语言处理,获得所述字幕文本的情感标签;
计算每一个处理元素的时间轴标签的时间差值;
将所述情感标签、所述字幕文本和所述时间轴标签的时间差值作为一个元素,组成文本文件中的一行,字幕文件中的每一个处理元素转化为对应文本文件中的一行。
其中,动画获取模块105具体用于:
通过录制设备针对每一句文本的情感标签录制相应的动画文件,或者,通过3D建模工具针对每一句文本的情感标签制作相应的动画文件。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种VR视频的生成方法,其特征在于,包括:
获取音频文件;
通过语音识别获取所述音频文件对应的字幕文件;
通过自然语言处理获得所述字幕文件中每一句文本的情感标签和时间戳的差值,基于所述情感标签和所述差值将所述字幕文件转化为文本文件;
通过3D建模工具对所述音频中的人物进行建模,获得人物模型文件;
基于所述每一句文本的情感标签生成相应的动画文件;
通过3D游戏引擎将所述音频文件进行语音的匹配,将所述文本文件进行字幕的匹配,将所述人物模型文件和所述动画文件进行表情动作的匹配,生成三维场景下的虚拟现实VR视频。
2.根据权利要求1所述的方法,其特征在于,所述获取音频文件,包括:
直接获取的音频文件,或者,从视频中提取的音频文件。
3.根据权利要求1所述的方法,其特征在于,所述将字幕文件转化为文本文件,包括:
将所述字幕文件中的字幕序号、时间轴标签、字幕文本和空行作为处理元素;
对每一个所述处理元素的字幕文本进行自然语言处理,获得所述字幕文本的情感标签;
计算每一个所述处理元素的时间轴标签的时间差值;
将所述情感标签、所述字幕文本和所述时间轴标签的时间差值作为一个元素,组成文本文件中的一行,字幕文件中的每一个处理元素转化为对应文本文件中的一行。
4.根据权利要求3所述的方法,其特征在于,所述对每一个所述处理元素的字幕文本进行自然语言处理,获得所述字幕文本的情感标签,包括:
将消去停用词后的所述字幕文本中的每一个词和情感词表中的每个词进行对比;
若所述字幕文本中的第一语义词与所述情感词表中的词相匹配,且所述第一语义词之前没有否定词,将所述第一语义词作为该句子的情感标签;
若所述第二语义词与所述情感词表中的词相匹配,且所述第二语义词之前出现否定词,将与所述第二语义词具有相反含义的情感词作为该句子的情感标签。
5.根据权利要求1所述的方法,其特征在于,所述基于所述每一句文本的情感标签生成相应的动画文件,包括:
通过录制设备针对所述每一句文本的情感标签录制相应的动画文件,或者,通过3D建模工具针对所述每一句文本的情感标签制作相应的动画文件。
6.根据权利要求1所述的方法,其特征在于,通过3D游戏引擎将所述音频文件进行语音的匹配,将所述文本文件进行字幕的匹配,将所述人物模型文件和所述动画文件进行表情动作的匹配,包括:
通过所述3D游戏引擎的协程机制,初始化出现一条完整的字幕;
利用协程等待预设时间,将程序的控制权交给主线程出现下一条完整的字幕;其中,所述协程等待的预设时间为初始化字幕文本的时间戳差值。
7.根据权利要求1所述的方法,其特征在于,通过3D游戏引擎将所述音频文件进行语音的匹配,将所述文本文件进行字幕的匹配,将所述人物模型文件和所述动画文件进行表情动作的匹配,包括:
在所述字幕时间差值内,相应的动画要播放完,处理方式包括:
当所述字幕时间差值等于所述动画自身时间长度时,设置动画的播放速度为初始值;
当所述字幕时间差值大于所述动画自身时间长度时,动画播放完进入等待状态;
当所述字幕时间差值小于所述动画自身时间长度时,设置所述动画的播放速度为所述动画自身时间长度与所述字幕时间差值的比值。
8.一种VR视频的生成装置,其特征在于,包括:
音频获取模块,用于获取音频文件;
字幕获取模块,用于获取所述音频文件对应的字幕文件;
文本转化模块,用于通过自然语言处理获得所述字幕文件中每一句文本的情感标签和时间戳的差值,基于所述情感标签和所述差值将所述字幕文件转化为文本文件;
3D建模模块,用于对所述音频文件中的人物进行建模,获取人物模型文件;
动画获取模块,用于基于所述每一句文本的情感标签生成相应的动画文件;
虚拟现实VR视频生成模块,用于通过3D游戏引擎将所述音频文件进行语音的匹配,将所述文本文件进行字幕的匹配,将所述人物模型文件和所述动画文件进行表情动作的匹配,生成三维场景下的虚拟现实VR视频。
9.根据权利要求8所述的装置,其特征在于,所述文本转化模块具体用于:
将所述字幕文件中的字幕序号、时间轴标签、字幕文本和空行作为处理元素;
对每一个所述处理元素的字幕文本进行自然语言处理,获得所述字幕文本的情感标签;
计算每一个所述处理元素的时间轴标签的时间差值;
将所述情感标签、所述字幕文本和所述时间轴标签的时间差值作为一个元素,组成文本文件中的一行,字幕文件中的每一个处理元素转化为对应文本文件中的一行。
10.根据权利要求8所述的装置,其特征在于,所述动画获取模块具体用于:
通过录制设备针对所述每一句文本的情感标签录制相应的动画文件,或者,通过3D建模工具针对所述每一句文本的情感标签制作相应的动画文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810635482.6A CN108846887A (zh) | 2018-06-20 | 2018-06-20 | Vr视频的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810635482.6A CN108846887A (zh) | 2018-06-20 | 2018-06-20 | Vr视频的生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108846887A true CN108846887A (zh) | 2018-11-20 |
Family
ID=64203126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810635482.6A Pending CN108846887A (zh) | 2018-06-20 | 2018-06-20 | Vr视频的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108846887A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887095A (zh) * | 2019-01-22 | 2019-06-14 | 华南理工大学 | 一种情绪刺激虚拟现实场景自动生成系统及方法 |
CN111047672A (zh) * | 2019-11-26 | 2020-04-21 | 湖南龙诺数字科技有限公司 | 一种数字动漫生成系统及方法 |
CN111340920A (zh) * | 2020-03-02 | 2020-06-26 | 长沙千博信息技术有限公司 | 一种语义驱动的二维动画自动生成方法 |
CN112907707A (zh) * | 2021-02-01 | 2021-06-04 | 杜博新 | 一种基于html5的新型微课制作系统及方法 |
CN112954235A (zh) * | 2021-02-04 | 2021-06-11 | 读书郎教育科技有限公司 | 一种基于家庭互动早教平板交互方法 |
CN114449327A (zh) * | 2021-12-31 | 2022-05-06 | 北京百度网讯科技有限公司 | 视频片段的分享方法、装置、电子设备及可读存储介质 |
CN114928755A (zh) * | 2022-05-10 | 2022-08-19 | 咪咕文化科技有限公司 | 一种视频制作方法、电子设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106710590A (zh) * | 2017-02-24 | 2017-05-24 | 广州幻境科技有限公司 | 基于虚拟现实环境的具有情感功能的语音交互系统及方法 |
CN106910514A (zh) * | 2017-04-30 | 2017-06-30 | 上海爱优威软件开发有限公司 | 语音处理方法及系统 |
CN107124647A (zh) * | 2017-05-27 | 2017-09-01 | 深圳市酷开网络科技有限公司 | 一种全景视频录制时自动生成字幕文件的方法及装置 |
CN107784355A (zh) * | 2017-10-26 | 2018-03-09 | 北京光年无限科技有限公司 | 虚拟人多模态交互数据处理方法和系统 |
US20180088791A1 (en) * | 2016-09-23 | 2018-03-29 | Vrotein Inc. | Method and apparatus for producing virtual reality content for at least one sequence |
-
2018
- 2018-06-20 CN CN201810635482.6A patent/CN108846887A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180088791A1 (en) * | 2016-09-23 | 2018-03-29 | Vrotein Inc. | Method and apparatus for producing virtual reality content for at least one sequence |
CN106710590A (zh) * | 2017-02-24 | 2017-05-24 | 广州幻境科技有限公司 | 基于虚拟现实环境的具有情感功能的语音交互系统及方法 |
CN106910514A (zh) * | 2017-04-30 | 2017-06-30 | 上海爱优威软件开发有限公司 | 语音处理方法及系统 |
CN107124647A (zh) * | 2017-05-27 | 2017-09-01 | 深圳市酷开网络科技有限公司 | 一种全景视频录制时自动生成字幕文件的方法及装置 |
CN107784355A (zh) * | 2017-10-26 | 2018-03-09 | 北京光年无限科技有限公司 | 虚拟人多模态交互数据处理方法和系统 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887095A (zh) * | 2019-01-22 | 2019-06-14 | 华南理工大学 | 一种情绪刺激虚拟现实场景自动生成系统及方法 |
CN111047672A (zh) * | 2019-11-26 | 2020-04-21 | 湖南龙诺数字科技有限公司 | 一种数字动漫生成系统及方法 |
CN111340920A (zh) * | 2020-03-02 | 2020-06-26 | 长沙千博信息技术有限公司 | 一种语义驱动的二维动画自动生成方法 |
CN111340920B (zh) * | 2020-03-02 | 2024-04-09 | 长沙千博信息技术有限公司 | 一种语义驱动的二维动画自动生成方法 |
CN112907707A (zh) * | 2021-02-01 | 2021-06-04 | 杜博新 | 一种基于html5的新型微课制作系统及方法 |
CN112954235A (zh) * | 2021-02-04 | 2021-06-11 | 读书郎教育科技有限公司 | 一种基于家庭互动早教平板交互方法 |
CN112954235B (zh) * | 2021-02-04 | 2021-10-29 | 读书郎教育科技有限公司 | 一种基于家庭互动早教平板交互方法 |
CN114449327A (zh) * | 2021-12-31 | 2022-05-06 | 北京百度网讯科技有限公司 | 视频片段的分享方法、装置、电子设备及可读存储介质 |
CN114449327B (zh) * | 2021-12-31 | 2024-03-26 | 北京百度网讯科技有限公司 | 视频片段的分享方法、装置、电子设备及可读存储介质 |
CN114928755A (zh) * | 2022-05-10 | 2022-08-19 | 咪咕文化科技有限公司 | 一种视频制作方法、电子设备及计算机可读存储介质 |
CN114928755B (zh) * | 2022-05-10 | 2023-10-20 | 咪咕文化科技有限公司 | 一种视频制作方法、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846887A (zh) | Vr视频的生成方法及装置 | |
US20210142818A1 (en) | System and method for animated lip synchronization | |
Lowe et al. | Animation principles in multimedia learning | |
CN104361620B (zh) | 一种基于综合加权算法的口型动画合成方法 | |
CN113781610B (zh) | 一种虚拟人脸的生成方法 | |
Sargin et al. | Analysis of head gesture and prosody patterns for prosody-driven head-gesture animation | |
US20070055523A1 (en) | Pronunciation training system | |
CN109377797A (zh) | 虚拟人物教学方法及装置 | |
Wang et al. | Computer-assisted audiovisual language learning | |
Busso et al. | Recording audio-visual emotional databases from actors: a closer look | |
Liang | Beyond elocution: Multimodal narrative discourse analysis of L2 storytelling | |
Stephens | Narratology | |
Luna et al. | Words worth learning-augmented literacy content for ADHD students | |
Kacorri | TR-2015001: A survey and critique of facial expression synthesis in sign language animation | |
Liu et al. | An interactive speech training system with virtual reality articulation for Mandarin-speaking hearing impaired children | |
Shen et al. | Automatic content generation for video self modeling | |
Spont | Analyzing mass media through video art education: Popular pedagogy and social critique in the work of Candice Breitz | |
Kacorri et al. | Evaluating a dynamic time warping based scoring algorithm for facial expressions in ASL animations | |
Kolivand et al. | Realistic lip syncing for virtual character using common viseme set | |
Wik | The virtual language teacher | |
Hachimura | Digital archives of intangible cultural properties | |
Krejsa et al. | A novel lip synchronization approach for games and virtual environments | |
Abdelnour et al. | From visual to acoustic question answering | |
Yingmin | Realistic problems and innovative path of AI dubbing in the era of intelligent media | |
Mahadevan | When Bharatanatyam Moved from the Popular to the Classical |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |