CN117319628A - 一种支持户外led屏的实时互动裸眼3d虚拟场景系统 - Google Patents
一种支持户外led屏的实时互动裸眼3d虚拟场景系统 Download PDFInfo
- Publication number
- CN117319628A CN117319628A CN202311198437.6A CN202311198437A CN117319628A CN 117319628 A CN117319628 A CN 117319628A CN 202311198437 A CN202311198437 A CN 202311198437A CN 117319628 A CN117319628 A CN 117319628A
- Authority
- CN
- China
- Prior art keywords
- module
- data
- virtual
- voice
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 34
- 230000009471 action Effects 0.000 claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000009877 rendering Methods 0.000 claims abstract description 24
- 230000014509 gene expression Effects 0.000 claims abstract description 16
- 230000000694 effects Effects 0.000 claims description 27
- 238000005516 engineering process Methods 0.000 claims description 26
- 230000003993 interaction Effects 0.000 claims description 24
- 230000000875 corresponding effect Effects 0.000 claims description 21
- 238000012937 correction Methods 0.000 claims description 20
- 230000033001 locomotion Effects 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 230000008921 facial expression Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 13
- 239000000463 material Substances 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 230000001276 controlling effect Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 230000001960 triggered effect Effects 0.000 claims description 4
- 230000008451 emotion Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000006641 stabilisation Effects 0.000 description 2
- 238000011105 stabilization Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010021403 Illusion Diseases 0.000 description 1
- 229920000433 Lyocell Polymers 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012394 real-time manufacturing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/302—Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04815—Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
- G06T7/85—Stereo camera calibration
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/172—Processing image signals image signals comprising non-image signal components, e.g. headers or format information
- H04N13/183—On-screen display [OSD] information, e.g. subtitles or menus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种支持户外LED屏的实时互动裸眼3D虚拟场景系统,属于计算机视觉处理技术领域,包括摄像采集模块在户外现场拍摄采集参与者的表情和身体动作,发送拍摄的数据,识别分析模块接收摄像采集模块发送的数据,安装引擎软件,使用引擎软件建立虚拟场景和虚拟人物,画面生成模块进行互动信息同语音和文字信息输出,渲染生成输出裸眼3D播放画面,播放显示模块通过播放软件和设备将生成的语音和文字信息以字幕显示和声音播放的形式展现,将引擎软件实时输出的裸眼3D画面传输到户外LED大屏屏幕,本发明能满足户外LED大屏裸眼3D虚拟场景实时互动应用场景的需求。
Description
技术领域
本发明属于计算机视觉处理技术领域,具体地说,涉及一种支持户外LED屏的实时互动裸眼3D虚拟场景系统。
背景技术
户外LED显示屏是面积一般几十平方米至几百平方米甚至更大,亮度高、视角大可在阳光下工作,具有一定的防风、防雨、防水功能,主要用于户外广告、车站、广场、商场等。
裸眼3D视觉技术,是在二维画面中借助物体的远近、大小、阴影效果、透视关系、空间设计等构建出三维立体的效果,利用视觉错觉和心理暗示使观看者产生3D视觉体验。在建筑的LED曲面屏、转角屏上,呈现符合透视原理的动态图像,当人站在转角的前方观看时,便同时看到物体的侧面和正面,呈现逼真的立体效果。观看者无需借助3D眼镜等辅助设备即可看到有空间感、立体感的画面,视觉冲击力强。
目前,现有户外LED大屏实时互动技术没有裸眼3D虚拟场景及虚拟人的技术应用,同时现有户外LED大屏的裸眼3D技术没有实时互动虚拟场景及虚拟人的技术应用,裸眼3D效果的离线制作流程与实时互动技术的技术应用的结合需要技术研发并应用。
发明内容
要解决的问题
针对现有户外LED大屏实时互动技术没有裸眼3D虚拟场景及虚拟人的技术应用,同时现有户外LED大屏的裸眼3D技术没有实时互动虚拟场景及虚拟人的技术应用,裸眼3D效果的离线制作流程与实时互动技术的技术应用的结合需要技术研发并应用的问题,本发明提供一种支持户外LED屏的实时互动裸眼3D虚拟场景系统。
技术方案
为解决上述问题,本发明采用如下的技术方案。
一种支持户外LED屏的实时互动裸眼3D虚拟场景系统,包括:
摄像采集模块,用于在户外现场拍摄采集参与者的表情和身体动作,发送拍摄的数据;
识别分析模块,用于接收摄像采集模块发送的数据,安装引擎软件,使用引擎软件建立虚拟场景和虚拟人物;
画面生成模块,用于进行互动信息同语音和文字信息输出,渲染生成输出裸眼3D播放画面;
播放显示模块,用于通过播放软件和设备将生成的语音和文字信息以字幕显示和声音播放的形式展现,将引擎软件实时输出的裸眼3D画面传输到户外LED大屏屏幕。
优选地,所述摄像采集模块包括拍摄模块、分析模块、通信模块;
拍摄模块,用于使用深度相机拍摄采集参与者的脸部表情和身体动作;
分析模块,用于对拍摄模块拍摄采集的数据进行分析判断,进行降噪、去抖动、前景检测、校正畸变和压缩编码处理;
通信模块,用于使用5G网络通信信号将数据发送传输给分析模块。
进一步地,所述降噪是使用小波去噪算法去除视频图像中的高频噪声和低频噪声,降噪流程如下:
S01、先采用小波分解将原始视频图像映射到小波域中,得到视频图像的小波系数;
S02、在小波域中,对小波系数进行软阈值处理,用比噪声幅值大的阈值代替小于该阈值的幅值,并将其余的幅值缩小一个常数因子,去除小波系数中的噪声部分;
S03、对去噪后的小波系数进行反小波变换,恢复出去噪后的视频图像。
进一步地,所述校正畸变是采用透视模型作为畸变模型,采用参考标定板对深度相机进行标定,在不同位置和角度下采集多幅视频图像,获取标定视频图像的畸变参数;对标定视频图像进行畸变校正,获取畸变后的视频图像,采用最小二乘法拟合畸变模型的参数;最后将目标视频图像输入畸变模型,利用拟合参数进行畸变校正,得到畸变校正后的视频图像。
优选地,所述识别分析模块包括插件链接模块、模型制作模块和数据应用模块;
插件链接模块,用于与通信模块建立网络通讯,让引擎软件与分析模块进行实时网络链接,将拍摄、采集和分析后的数据输出给引擎软件;
模型制作模块,用于通过三维动画制作在引擎软件上建立虚拟场景和虚拟人物;
数据应用模块,用于通过引擎软件的数据重定向功能将接收的数据应用到虚拟场景和虚拟人物中。
进一步地,所述模型制作模块建立虚拟场景和虚拟人物是使用三维动画制作软件创建三维模型并设定材质、纹理属性;再预设动画库,给模型添加动画效果;在引擎软件中创建虚拟场景,将三维模型以及其动画效果导入引擎软件中,并进行灯光、阴影和特效设置;添加控制器,对虚拟人物的动作进行交互控制;进行测试,检查动画和交互效果,不断调整和优化,直至达到理想的效果。
进一步地,所述数据应用模块将数据应用到虚拟场景和虚拟人物中中具体流程如下:
G01、先再引擎软件中创建数据重定向通道;
G02、再根据需要,选择收集的数据类型,定义数据的格式、协议;
G03、在虚拟场景中对被控制的虚拟人物进行编程,使其能够将接收到的数据用于运动状态的控制;
G04、将数据重定向通道接收接收摄像采集模块发送的数据,使数据传输到引擎软件中;
G05、在程序中监听数据变化事件,将接收到的数据与编程中定义好的对象进行关联,实现对虚拟场景和虚拟人物的控制。
优选地,所述画面生成模块包括语音文字模块和渲染输出模块;
语音文字模块,用于使用文字转语音、语音转文字技术互动信息,将语音和文字信息输出给播放软件和设备;
渲染输出模块,用于驱动虚拟场景及虚拟人的表情、口型、动作、造型和服装变换效果,运用引擎软件的实时渲染功能输出裸眼3D播放画面。
进一步地,所述文字转语音的流程如下:
H01、先输入需要转换成语音的文本内容,同时指定发音人、语速、语调参数;
H02、对输入的文本进行处理,包括分词、语法树分析、情感分析;
H03、使用语音合成引擎对输入的文本进行语音合成,生成相应的声音文件;
H04、将生成的语音文件播放出来,输出转换后的语音;
所述语音转文字的流程如下:
K01、采集语音信号,对语音信号进行预处理,包括降噪、滤波、增益处理;
K02、对预处理后的语音信号进行特征提取,包括短时能量、过零率、倒谱系数,将语音信号转换为数字化的特征向量;
K03、使用语音识别引擎进行语音识别,分为前端处理和后端处理两部分,前端处理:包括语音信号的预处理、特征提取、归一化,将语音信号转换为数字化的特征向量序列;后端处理:利用隐马尔科夫模型对特征向量序列进行处理,计算并输出文本。
进一步地,所述渲染输出模块的实时渲染输出的流程如下:
J01、先通过图形渲染技术为虚拟场景提供高质量图像展示,从场景编辑器获取场景数据,将其转换成能够被渲染的图形模型,在屏幕上显示出来,同时处理虚拟角色与场景的交互,使角色与场景的交互更加逼真;
J02、再建立人物的骨架,在其中加入面部表情控制点,控制点是使用插补算法计算得出,分别控制每个控制点的权重来控制人物面部表情的变化,运用机器学习算法进行面部表情的识别和判断;
J03、通过骨骼动画技术,实现虚拟人物动作的变化,为虚拟角色设计不同的运动方式,并在引擎软件中设置角色的动作序列和状态机,当触发相应事件时,会自动根据预设的动作序列和状态机播放相应的动作,从而改变角色的运动;
J04、通过形状建模技术,实现虚拟人物造型的变换。为虚拟角色设计不同的外形,并设置各种形态的模型数据,当触发相应的事件时,读取相应的模型数据并进行变换,从而改变角色的外观;
J05、通过形状建模技术、材质编辑器实现虚拟人物服装变换效果,为虚拟角色设计不同的服装,并设置各种服装的模型数据和材质信息,当触发相应的事件时,读取相应的模型和材质数据,并进行变换和应用,从而改变角色的服装。
一种支持户外LED屏的实时互动裸眼3D虚拟场景系统,通过摄像采集模块在户外现场拍摄采集参与者的表情和身体动作,发送拍摄的数据,识别分析模块接收摄像采集模块发送的数据,安装引擎软件,使用引擎软件建立虚拟场景和虚拟人物,画面生成模块进行互动信息同语音和文字信息输出,渲染生成输出裸眼3D播放画面,播放显示模块通过播放软件和设备将生成的语音和文字信息以字幕显示和声音播放的形式展现,将引擎软件实时输出的裸眼3D画面传输到户外LED大屏屏幕,实现户外LED大屏裸眼3D虚拟场景及虚拟人的实时互动,跟参与者做出相似的表情和身体动作,实时互动回答问题并显示字幕,舞蹈表演与变装,美拍造型、变装与人拍照等实时互动方式,满足了户外LED大屏裸眼3D虚拟场景实时互动应用场景的需求。
有益效果
相比于现有技术,本发明的有益效果为:
本发明通过动作视频识别,脸部识别做出与参与者相似的表情和身体动作,通过脸部识别驱动虚拟人脸部表情和嘴型变化、身体动作,动作识别,AI语音,文字转语音,语音转文字,实时互动播放语音并显示字幕,通过引擎软件实现虚拟人的基本表情和基本口型模拟说话嘴部动作,舞蹈、美拍造型、服装变换等,做出舞蹈表演与变装,美拍造型、变装与人拍照等实时互动方式;通过虚幻引擎实时输出裸眼3D播放画面,传输到户外LED大屏屏幕播放,通过实现户外LED大屏裸眼3D虚拟场景及虚拟人的实时制作流程,结合了裸眼3D离线制作流程与实时互动技术的技术应用,将动作识别,脸部识别,AI语音,文字转语音,语音转文字,字幕显示等技术应用到户外LED大屏裸眼3D虚拟场景及虚拟人的实时互动;并将实时互动播放语音并显示字幕,舞蹈、美拍造型、服装变换等,做出舞蹈表演与变装,美拍造型、变装与人拍照等实时互动方式应用到户外LED大屏裸眼3D虚拟场景及虚拟人的实时互动。
附图说明
为了更清楚地说明本申请实施例或示例性中的技术方案,下面将对实施例或示例性描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以按照这些附图示出的获得其他的附图。
图1为本发明的步骤示意图;
图2为本发明的流程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例,通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例,基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1
如图1和图2所示,一种支持户外LED屏的实时互动裸眼3D虚拟场景系统,包括:
摄像采集模块,用于在户外现场拍摄采集参与者的表情和身体动作,发送拍摄的数据。
摄像采集模块包括拍摄模块、分析模块、通信模块;
拍摄模块,用于使用深度相机拍摄采集参与者的脸部表情和身体动作;
分析模块,用于对拍摄模块拍摄采集的数据进行分析判断,进行降噪、去抖动、前景检测、校正畸变和压缩编码处理;
通信模块,用于使用5G网络通信信号将数据发送传输给分析模块。
识别分析模块,用于接收摄像采集模块发送的数据,安装引擎软件,使用引擎软件建立虚拟场景和虚拟人物。
识别分析模块包括插件链接模块、模型制作模块和数据应用模块;
插件链接模块,用于与通信模块建立网络通讯,让引擎软件与分析模块进行实时网络链接,将拍摄、采集和分析后的数据输出给引擎软件;
模型制作模块,用于通过三维动画制作在引擎软件上建立虚拟场景和虚拟人物;
数据应用模块,用于通过引擎软件的数据重定向功能将接收的数据应用到虚拟场景和虚拟人物中。
画面生成模块,用于进行互动信息同语音和文字信息输出,渲染生成输出裸眼3D播放画面。
画面生成模块包括语音文字模块和渲染输出模块;
语音文字模块,用于使用文字转语音、语音转文字技术互动信息,将语音和文字信息输出给播放软件和设备;
渲染输出模块,用于驱动虚拟场景及虚拟人的表情、口型、动作、造型和服装变换效果,运用引擎软件的实时渲染功能输出裸眼3D播放画面。
播放显示模块,用于通过播放软件和设备将生成的语音和文字信息以字幕显示和声音播放的形式展现,将引擎软件实时输出的裸眼3D画面传输到户外LED大屏屏幕。
通过上述描述可知,在本实例中,通过摄像采集模块在户外现场拍摄采集参与者的表情和身体动作,发送拍摄的数据,识别分析模块接收摄像采集模块发送的数据,安装引擎软件,使用引擎软件建立虚拟场景和虚拟人物,画面生成模块进行互动信息同语音和文字信息输出,渲染生成输出裸眼3D播放画面,播放显示模块通过播放软件和设备将生成的语音和文字信息以字幕显示和声音播放的形式展现,将引擎软件实时输出的裸眼3D画面传输到户外LED大屏屏幕。
实施例2
降噪是通过滤波等方法去除高频噪声和低频噪声,可以采用双边滤波(Bilateralfilter)、小波去噪(Wavelet denoising)、均值滤波(Mean filter)中的一种,选择使用小波去噪(Wavelet denoising)算法,小波去噪是一种基于小波分析和非线性阈值处理的图像和视频降噪算法,可以有效地去除图像中的高频噪声和低频噪声,具有较好的去噪效果和计算效率,同时保留图像中的细节信息,降噪流程如下:
小波分解:先采用小波分解将原始视频图像映射到小波域中,得到视频图像的小波系数,小波分解可以将信号分解为不同频带的子信号,有助于分离出噪声和信号的能量;
阈值处理:在小波域中,对小波系数进行阈值处理,通过设定合适的阈值,去除小波系数中的噪声部分,有两种阈值处理方法:软阈值处理:用比噪声幅值大的阈值代替小于该阈值的幅值,并将其余的幅值缩小一个常数因子;硬阈值处理:设置一个幅值阈值,幅值超过该阈值的保留,否则设置为零;
小波反变换:对去噪后的小波系数进行反小波变换,恢复出去噪后的视频图像,最终输出的图像比原始图像更加清晰,噪声部分得到了有效的去除,同时细节信息得到了保留。
去抖动可以提高图像清晰度,常用方法有运动估计和补偿技术,可采用光流法(Optical flow)和块匹配法(Block matching)算法,选择使用块匹配法,块匹配法是一种用于运动估计的方法,将图像分成块状区域,并分别求出相邻两帧之间各个块的运动向量,以实现视频序列的去抖动和稳定,具体实现过程如下:
图像块划分:将图像分成互不重叠的块状区域,并选定一个参考块,用于匹配其他块;
块匹配:在参考块附近搜索相似的块,并计算参考块与各匹配块之间的相位差,以确定最佳的匹配块;
运动估计:根据参考块和最佳匹配块之间的相位差,计算出运动向量,即参考块在下一帧中的位置,采用全局或局部优化算法对运动向量进行优化和平滑处理;
补偿校正:利用得到的运动向量进行补偿校正,将下一帧中的目标物体位置校正为当前帧中的位置,实现视频序列的去抖动和稳定。
前景检测可以用于提取视频中的目标物体,去除背景干扰,可采用前景/背景分离(Background subtraction)和深度学习的方法(Deep learning-based method)算法。
如果视频中存在镜头畸变,需要进行校正畸变处理,以保证图像质量与几何形状的一致性,可采用鱼眼镜头校正(Fisheye lens correction)或畸变模型拟合(Distortionmodel fitting),选择使用畸变模型拟合算法,通过对畸变模型进行建模和参数拟合,实现对图像的畸变校正,畸变模型拟合的实现过程如下:
畸变模型:选择适当的畸变模型,畸变模型包括两种:鱼眼模型(fisheye model)适用于广角成像镜头,常用Brown-Conrady模型代表;透视模型(perspective model)适用于普通成像镜头,常用的有Pinhole、Spherical等模型;
参考标定板图像采集:采用参考标定板(如棋盘格、圆形标定板等)对相机进行标定,并在不同位置和角度下采集多幅图像,以获取标定图像的畸变参数;
畸变参数拟合:对标定图像进行畸变校正,获取畸变后的图像,并通过最小二乘法等方法拟合畸变模型的参数,以实现对目标图像的畸变校正;
目标图像畸变校正:将目标图像输入畸变模型,利用拟合参数进行畸变校正,得到畸变校正后的图像。
压缩编码通过减小数据量和传输带宽来减少存储空间和传输成本,常见的压缩编码有H.264、H.265等。
实施例3
模型制作模块建立虚拟场景和虚拟人物是使用三维动画制作软件创建三维模型并设定材质、纹理属性;再预设动画库,三维动画制作软件有Maya、Blender或3ds Max等。
给模型添加动画效果,例如漫游、舞蹈、行走等,可通过预设动画库或手动添加关键帧来实现。
在引擎软件中创建虚拟场景,将三维模型以及其动画效果导入引擎软件中,并进行灯光、阴影、特效等设置,使场景更加真实。
添加控制器,对虚拟人物的动作进行交互控制,例如控制人物前进、转向等动作。
进行测试,检查动画和交互效果,不断调整和优化,直至达到理想的效果。
数据应用模块将数据应用到虚拟场景和虚拟人物中中具体流程如下:
先确保引擎软件支持数据重定向功能,再在引擎软件中创建数据重定向通道;
再根据需要,选择收集的数据类型,定义数据的格式、协议等细节,数据的格式和协议需要与场景中编写的程序相匹配;
在虚拟场景中对被控制的虚拟人物进行编程,使其能够将接收到的数据用于运动状态的控制;
将数据重定向通道接收接收摄像采集模块发送的数据,使数据传输到引擎软件中;
在程序中监听数据变化事件,将接收到的数据与编程中定义好的对象进行关联,实现对虚拟场景和虚拟人物的控制。
实施例4
文字转语音的流程如下:
先输入需要转换成语音的文本内容,同时指定发音人、语速、语调参数;
对输入的文本进行处理,包括分词、语法树分析、情感分析;
使用语音合成引擎对输入的文本进行语音合成,生成相应的声音文件;
将生成的语音文件播放出来,输出转换后的语音;
语音转文字的流程如下:
采集语音信号,对语音信号进行预处理,包括降噪、滤波、增益处理;
对预处理后的语音信号进行特征提取,包括短时能量、过零率、倒谱系数,将语音信号转换为数字化的特征向量;
使用语音识别引擎进行语音识别,分为前端处理和后端处理两部分,前端处理:包括语音信号的预处理、特征提取、归一化,将语音信号转换为数字化的特征向量序列;后端处理:利用隐马尔科夫模型对特征向量序列进行处理,计算并输出文本。
渲染输出模块的实时渲染输出的流程如下:
先通过图形渲染技术为虚拟场景提供高质量图像展示,从场景编辑器获取场景数据,将其转换成能够被渲染的图形模型,最终以Texture、Shader等形式在屏幕上显示出来,同时处理虚拟角色与场景的交互,例如碰撞检测、阴影投射、光照效果等,使角色与场景的交互更加逼真;
再通过骨骼动画技术,建立人物的骨架,在其中加入面部表情控制点,控制点是使用插补算法计算得出,例如线形插值、Bezier曲线等,分别控制每个控制点的权重来控制人物面部表情的变化,运用机器学习算法进行面部表情的识别和判断;
通过骨骼动画技术,实现虚拟人物动作的变化,为虚拟角色设计不同的运动方式,并在引擎软件中设置角色的动作序列和状态机,当触发相应事件时,会自动根据预设的动作序列和状态机播放相应的动作,从而改变角色的运动;
通过形状建模技术,实现虚拟人物造型的变换。为虚拟角色设计不同的外形,并设置各种形态的模型数据,当触发相应的事件时,读取相应的模型数据并进行变换,从而改变角色的外观;
通过形状建模技术、材质编辑器实现虚拟人物服装变换效果,为虚拟角色设计不同的服装,并设置各种服装的模型数据和材质信息,当触发相应的事件时,读取相应的模型和材质数据,并进行变换和应用,从而改变角色的服装。
实施例5
采集:通过现场使用apple手机的深度相机采集参与者的表情和身体动作,运用apple手机的IOS应用Live Link Face程序分析数据,使用5G信号传输到应用服务器。
分析:服务器中安装EPIC的虚幻引擎UE软件以及虚幻引擎官方提供的Live LinkFace插件,实现apple手机的IOS应用Live Link Face程序与EPIC的虚幻引擎UE软件实时网络链接。我们先通过三维动画制作在虚幻引擎UE建立虚拟场景和虚拟人物,通过虚幻引擎的Live Link Face插件将apple手机的IOS应用Live Link Face的数据输出给虚幻引擎。通过虚幻引擎的数据重定向功能,实现数据应用到虚拟场景及虚拟人。
生成:通过科大讯飞、百度、腾讯等公司的AI语音,文字转语音,语音转文字等技术互动信息同语音和文字信息输出给播发软件和设备;EPIC的虚幻引擎UE软件以及虚幻引擎官方免费提供的Live Link Face插件,虚幻引擎UE软件的数据重定向功能,驱动虚拟场景及虚拟人的表情、口型、动作、造型、服装变换等效果,运用虚幻引擎UE软件的实时渲染功能输出裸眼3D播放画面。
播放:播放软件和设备将生成的语音和文字信息以字幕显示和声音播放的形式展现,并将虚幻引擎实时输出的裸眼3D画面传输到户外LED大屏屏幕。
系统通过动作视频识别,脸部识别做出与参与者相似的表情和身体动作,通过脸部识别驱动虚拟人脸部表情和嘴型变化、身体动作,动作识别,AI语音,文字转语音,语音转文字,实时互动播放语音并显示字幕,通过虚幻引擎livelink,实现虚拟人的基本表情和基本口型模拟说话嘴部动作,舞蹈、美拍造型、服装变换等,做出舞蹈表演与变装,美拍造型、变装与人拍照等实时互动方式;通过虚幻引擎实时输出裸眼3D播放画面,传输到户外LED大屏屏幕播放。
以上所述实施例仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。
Claims (10)
1.一种支持户外LED屏的实时互动裸眼3D虚拟场景系统,其特征在于,包括:
摄像采集模块,用于在户外现场拍摄采集参与者的表情和身体动作,发送拍摄的数据;
识别分析模块,用于接收摄像采集模块发送的数据,安装引擎软件,使用引擎软件建立虚拟场景和虚拟人物;
画面生成模块,用于进行互动信息同语音和文字信息输出,渲染生成输出裸眼3D播放画面;
播放显示模块,用于通过播放软件和设备将生成的语音和文字信息以字幕显示和声音播放的形式展现,将引擎软件实时输出的裸眼3D画面传输到户外LED大屏屏幕。
2.根据权利要求1所述的一种支持户外LED屏的实时互动裸眼3D虚拟场景系统,其特征在于:所述摄像采集模块包括拍摄模块、分析模块、通信模块;
拍摄模块,用于使用深度相机拍摄采集参与者的脸部表情和身体动作;
分析模块,用于对拍摄模块拍摄采集的数据进行分析判断,进行降噪、去抖动、前景检测、校正畸变和压缩编码处理;
通信模块,用于使用5G网络通信信号将数据发送传输给分析模块。
3.根据权利要求2所述的一种支持户外LED屏的实时互动裸眼3D虚拟场景系统,其特征在于:所述降噪是使用小波去噪算法去除视频图像中的高频噪声和低频噪声,降噪流程如下:
S01、先采用小波分解将原始视频图像映射到小波域中,得到视频图像的小波系数;
S02、在小波域中,对小波系数进行软阈值处理,用比噪声幅值大的阈值代替小于该阈值的幅值,并将其余的幅值缩小一个常数因子,去除小波系数中的噪声部分;
S03、对去噪后的小波系数进行反小波变换,恢复出去噪后的视频图像。
4.根据权利要求2所述的一种支持户外LED屏的实时互动裸眼3D虚拟场景系统,其特征在于:所述校正畸变是采用透视模型作为畸变模型,采用参考标定板对深度相机进行标定,在不同位置和角度下采集多幅视频图像,获取标定视频图像的畸变参数;对标定视频图像进行畸变校正,获取畸变后的视频图像,采用最小二乘法拟合畸变模型的参数;最后将目标视频图像输入畸变模型,利用拟合参数进行畸变校正,得到畸变校正后的视频图像。
5.根据权利要求1所述的一种支持户外LED屏的实时互动裸眼3D虚拟场景系统,其特征在于:所述识别分析模块包括插件链接模块、模型制作模块和数据应用模块;
插件链接模块,用于与通信模块建立网络通讯,让引擎软件与分析模块进行实时网络链接,将拍摄、采集和分析后的数据输出给引擎软件;
模型制作模块,用于通过三维动画制作在引擎软件上建立虚拟场景和虚拟人物;
数据应用模块,用于通过引擎软件的数据重定向功能将接收的数据应用到虚拟场景和虚拟人物中。
6.根据权利要求5所述的一种支持户外LED屏的实时互动裸眼3D虚拟场景系统,其特征在于:所述模型制作模块建立虚拟场景和虚拟人物是使用三维动画制作软件创建三维模型并设定材质、纹理属性;再预设动画库,给模型添加动画效果;在引擎软件中创建虚拟场景,将三维模型以及其动画效果导入引擎软件中,并进行灯光、阴影和特效设置;添加控制器,对虚拟人物的动作进行交互控制;进行测试,检查动画和交互效果,不断调整和优化,直至达到理想的效果。
7.根据权利要求5所述的一种支持户外LED屏的实时互动裸眼3D虚拟场景系统,其特征在于:所述数据应用模块将数据应用到虚拟场景和虚拟人物中中具体流程如下:
G01、先在引擎软件中创建数据重定向通道;
G02、再根据需要,选择收集的数据类型,定义数据的格式、协议;
G03、在虚拟场景中对被控制的虚拟人物进行编程,使其能够将接收到的数据用于运动状态的控制;
G04、将数据重定向通道接收接收摄像采集模块发送的数据,使数据传输到引擎软件中;
G05、在程序中监听数据变化事件,将接收到的数据与编程中定义好的对象进行关联,实现对虚拟场景和虚拟人物的控制。
8.根据权利要求1所述的一种支持户外LED屏的实时互动裸眼3D虚拟场景系统,其特征在于:所述画面生成模块包括语音文字模块和渲染输出模块;
语音文字模块,用于使用文字转语音、语音转文字技术互动信息,将语音和文字信息输出给播放软件和设备;
渲染输出模块,用于驱动虚拟场景及虚拟人的表情、口型、动作、造型和服装变换效果,运用引擎软件的实时渲染功能输出裸眼3D播放画面。
9.根据权利要求8所述的一种支持户外LED屏的实时互动裸眼3D虚拟场景系统,其特征在于:所述文字转语音的流程如下:
H01、先输入需要转换成语音的文本内容,同时指定发音人、语速、语调参数;
H02、对输入的文本进行处理,包括分词、语法树分析、情感分析;
H03、使用语音合成引擎对输入的文本进行语音合成,生成相应的声音文件;
H04、将生成的语音文件播放出来,输出转换后的语音;
所述语音转文字的流程如下:
K01、采集语音信号,对语音信号进行预处理,包括降噪、滤波、增益处理;
K02、对预处理后的语音信号进行特征提取,包括短时能量、过零率、倒谱系数,将语音信号转换为数字化的特征向量;
K03、使用语音识别引擎进行语音识别,分为前端处理和后端处理两部分,前端处理:包括语音信号的预处理、特征提取、归一化,将语音信号转换为数字化的特征向量序列;后端处理:利用隐马尔科夫模型对特征向量序列进行处理,计算并输出文本。
10.根据权利要求8所述的一种支持户外LED屏的实时互动裸眼3D虚拟场景系统,其特征在于:所述渲染输出模块的实时渲染输出的流程如下:
J01、先通过图形渲染技术为虚拟场景提供高质量图像展示,从场景编辑器获取场景数据,将其转换成能够被渲染的图形模型,在屏幕上显示出来,同时处理虚拟角色与场景的交互,使角色与场景的交互更加逼真;
J02、再建立人物的骨架,在其中加入面部表情控制点,控制点是使用插补算法计算得出,分别控制每个控制点的权重来控制人物面部表情的变化,运用机器学习算法进行面部表情的识别和判断;
J03、通过骨骼动画技术,实现虚拟人物动作的变化,为虚拟角色设计不同的运动方式,并在引擎软件中设置角色的动作序列和状态机,当触发相应事件时,会自动根据预设的动作序列和状态机播放相应的动作,从而改变角色的运动;
J04、通过形状建模技术,实现虚拟人物造型的变换,为虚拟角色设计不同的外形,并设置各种形态的模型数据,当触发相应的事件时,读取相应的模型数据并进行变换,从而改变角色的外观;
J05、通过形状建模技术、材质编辑器实现虚拟人物服装变换效果,为虚拟角色设计不同的服装,并设置各种服装的模型数据和材质信息,当触发相应的事件时,读取相应的模型和材质数据,并进行变换和应用,从而改变角色的服装。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311198437.6A CN117319628A (zh) | 2023-09-18 | 2023-09-18 | 一种支持户外led屏的实时互动裸眼3d虚拟场景系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311198437.6A CN117319628A (zh) | 2023-09-18 | 2023-09-18 | 一种支持户外led屏的实时互动裸眼3d虚拟场景系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117319628A true CN117319628A (zh) | 2023-12-29 |
Family
ID=89261317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311198437.6A Pending CN117319628A (zh) | 2023-09-18 | 2023-09-18 | 一种支持户外led屏的实时互动裸眼3d虚拟场景系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117319628A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654434A (zh) * | 2015-12-25 | 2016-06-08 | 浙江工业大学 | 基于统计模型的医学超声图像去噪方法 |
CN108144292A (zh) * | 2018-01-30 | 2018-06-12 | 河南三阳光电有限公司 | 裸眼3d互动游戏制作设备 |
CN108564641A (zh) * | 2018-03-16 | 2018-09-21 | 中国科学院自动化研究所 | 基于ue引擎的表情捕捉方法及装置 |
CN109116987A (zh) * | 2018-08-13 | 2019-01-01 | 连云港易圣游网络科技有限公司 | 一种基于Kinect手势控制的全息展示系统 |
CN109542218A (zh) * | 2018-10-19 | 2019-03-29 | 深圳奥比中光科技有限公司 | 一种移动终端、人机交互系统及方法 |
CN113160333A (zh) * | 2021-04-28 | 2021-07-23 | 天津大学 | 参数优化相机标定方法 |
CN113822970A (zh) * | 2021-09-23 | 2021-12-21 | 广州博冠信息科技有限公司 | 直播控制方法、装置、存储介质与电子设备 |
CN115391806A (zh) * | 2022-08-30 | 2022-11-25 | 厦门黑镜科技有限公司 | 一种数字人的处理方法、装置、电子设备和存储介质 |
CN115494962A (zh) * | 2022-11-18 | 2022-12-20 | 清华大学深圳国际研究生院 | 一种虚拟人实时互动系统及方法 |
CN115631270A (zh) * | 2022-10-25 | 2023-01-20 | 魔珐(上海)信息科技有限公司 | 虚拟角色的直播方法及装置、计算机存储介质、终端 |
CN115797519A (zh) * | 2022-10-26 | 2023-03-14 | 长沙神漫文化科技有限公司 | 虚拟角色ik实时重定向方法及相关设备 |
-
2023
- 2023-09-18 CN CN202311198437.6A patent/CN117319628A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654434A (zh) * | 2015-12-25 | 2016-06-08 | 浙江工业大学 | 基于统计模型的医学超声图像去噪方法 |
CN108144292A (zh) * | 2018-01-30 | 2018-06-12 | 河南三阳光电有限公司 | 裸眼3d互动游戏制作设备 |
CN108564641A (zh) * | 2018-03-16 | 2018-09-21 | 中国科学院自动化研究所 | 基于ue引擎的表情捕捉方法及装置 |
CN109116987A (zh) * | 2018-08-13 | 2019-01-01 | 连云港易圣游网络科技有限公司 | 一种基于Kinect手势控制的全息展示系统 |
CN109542218A (zh) * | 2018-10-19 | 2019-03-29 | 深圳奥比中光科技有限公司 | 一种移动终端、人机交互系统及方法 |
CN113160333A (zh) * | 2021-04-28 | 2021-07-23 | 天津大学 | 参数优化相机标定方法 |
CN113822970A (zh) * | 2021-09-23 | 2021-12-21 | 广州博冠信息科技有限公司 | 直播控制方法、装置、存储介质与电子设备 |
CN115391806A (zh) * | 2022-08-30 | 2022-11-25 | 厦门黑镜科技有限公司 | 一种数字人的处理方法、装置、电子设备和存储介质 |
CN115631270A (zh) * | 2022-10-25 | 2023-01-20 | 魔珐(上海)信息科技有限公司 | 虚拟角色的直播方法及装置、计算机存储介质、终端 |
CN115797519A (zh) * | 2022-10-26 | 2023-03-14 | 长沙神漫文化科技有限公司 | 虚拟角色ik实时重定向方法及相关设备 |
CN115494962A (zh) * | 2022-11-18 | 2022-12-20 | 清华大学深圳国际研究生院 | 一种虚拟人实时互动系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378697A (zh) | 一种基于卷积神经网络的说话人脸视频生成方法及装置 | |
US5890120A (en) | Matching, synchronization, and superposition on orginal speaking subject images of modified signs from sign language database corresponding to recognized speech segments | |
EP2299726B1 (en) | Video communication method, apparatus and system | |
EP1203352B1 (en) | Method of animating a synthesised model of a human face driven by an acoustic signal | |
CN113269872A (zh) | 基于三维人脸重构和视频关键帧优化的合成视频生成方法 | |
CN113099204B (zh) | 一种基于vr头戴显示设备的远程实景增强现实方法 | |
JP4087935B2 (ja) | 唇動きパラメータ発生装置 | |
JPH08237629A (ja) | 視差修正および存在感を提供するビデオ会議システムおよび方法 | |
CN115908659A (zh) | 一种基于生成对抗网络的说话人脸合成方法和装置 | |
JPH05153581A (ja) | 顔画像符号化方式 | |
CN115909015B (zh) | 一种可形变神经辐射场网络的构建方法和装置 | |
CN115209180A (zh) | 视频生成方法以及装置 | |
WO2002091749A1 (en) | Model switching in a communication system | |
EP0710929A2 (en) | Acoustic-assisted image processing | |
CN114286021B (zh) | 渲染方法、装置、服务器、存储介质及程序产品 | |
CN113382275B (zh) | 直播数据的生成方法、装置、存储介质及电子设备 | |
CN117319628A (zh) | 一种支持户外led屏的实时互动裸眼3d虚拟场景系统 | |
KR100229538B1 (ko) | 얼글 움직임을 인코딩하기 위한 방법 및 장치한 방법 및 장치 | |
CN116416961A (zh) | 基于虚拟主播的新闻稿播报方法、装置及存储介质 | |
CN115116468A (zh) | 一种视频生成方法、装置、存储介质及电子设备 | |
JPH0714208B2 (ja) | 動画像伝送方式 | |
CN114170379A (zh) | 一种三维模型重建方法、装置及设备 | |
CN113973175A (zh) | 一种快速的hdr视频重建方法 | |
JPH0888853A (ja) | メディア処理システム | |
US20020054039A1 (en) | 2.5 dimensional head modeling method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |