CN108492322A - 一种基于深度学习预测用户视场的方法 - Google Patents
一种基于深度学习预测用户视场的方法 Download PDFInfo
- Publication number
- CN108492322A CN108492322A CN201810300362.0A CN201810300362A CN108492322A CN 108492322 A CN108492322 A CN 108492322A CN 201810300362 A CN201810300362 A CN 201810300362A CN 108492322 A CN108492322 A CN 108492322A
- Authority
- CN
- China
- Prior art keywords
- video
- user
- visual field
- sequence chart
- behavioral characteristics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 230000003542 behavioural effect Effects 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000006399 behavior Effects 0.000 claims description 5
- 230000009916 joint effect Effects 0.000 claims description 4
- 230000003287 optical effect Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004064 recycling Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 206010028813 Nausea Diseases 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000002173 dizziness Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种基于深度学习预测用户视场的方法。步骤为:(1)将全景视频从球面映射到球内接立方体的6个面上,得到6个面对应的视频,分别生成视频的动态特征和显著度序列图,并进行分块和编号;(2)根据动态特征判断视频内容视点切换剧烈程度w;(3)用头盔记录用户的头部转向并对其进行处理;(4)通过w值的大小选择预测网络,用网络预测得到用户后n帧视频帧的视场,处理可得到与视场重合的视频块编号;(5)渲染和传输预测得到的视频块,重复步骤直到预测的为最后n帧。本发明的方法减小了全景图畸变对于输入的视频特征的影响,同时加入了视频信息的预判分级,能以较高的准确度预测用户在VR HMD中观看视频时的视场。
Description
技术领域
本发明涉及计算机视觉和深度学习领域,特别涉及一种基于深度学习预测用户视场的方法。
背景技术
目前VR产业已经出现了很多创新的应用,VR也在逐渐向手机等移动端进军,但VR流畅播放所要求的高带宽和低延迟等问题一直没有被解决。人体知觉要求视觉的平稳准确移动,因此不流畅的播放和较高的延时可能导致VR用户出现恶心、头晕等症状,严重地影响了用户的沉浸式体验。在VR视频渲染传输的过程中加入视场预测可以减少传输的数据量,从而减少了渲染和传输的时间,可有效地减小传输延迟。
LSTM(Long Short Term Memory)网络是循环神经网络(RNN)的一种特殊类型,它可以解决传统神经网络无记忆的问题,学习到长期依赖信息,它在内部保留了对输入信息的记忆,可以更好的执行分类任务,在视频信息的处理和预测问题上有很大的优势。
光流和显著度包括了视频中的重要特征,这些特征对用户在HMD中的观看行为有较大的影响。当视频内容视点切换剧烈时,视频的动态性和显著度特征共同影响用户的行为,预测用户视场需要更多视频信息;当视频内容视点切换较缓慢时,视频的显著度特征对用户的行为起主导作用,较少的视频特征即可预测用户视场。此外,等角映射等使全景图中物体的畸变非常明显,因此也影响了得到的视频特征的准确性,这对于视场预测是一个尴尬的问题。
发明内容
鉴于以上情况,本发明结合深度学习中的神经网络和一些计算机视觉算法,提出了基于深度学习预测VR HMD(Head Mount Display)中用户视场的方法。
本发明采用的技术方案为:
一种基于深度学习预测用户视场的方法,包括如下步骤:
S1,将全景视频从球面映射到球内接立方体的6个面上,从二维全景图得到所述6个面对应的视频;分别生成所述6个面对应的视频的动态特征序列图和显著度序列图,并对生成的动态特征序列图和显著度序列图进行分块和编号;
S2,根据全景视频的动态特征对视频信息进行判别,判断视频内容视点切换剧烈程度w;
S3,利用VR头盔记录用户观看全景视频时的头部转向,对数据进行校准后处理,使每个视频帧对应一组头动数据,并计算得到转头角速度;
S4,用户在VR HMD中的视场建模为一个球面上的圆,圆心由用户头的转向确定;通过w值的大小选择预测网络,以用户已浏览过的m帧全景视频帧的显著度视频帧、动态视频帧和头动数据作为输入,用神经网络预测得到用户看到后n帧视频帧每个视频块的概率,经处理后可得到与视场重合的视频块编号;
S5,得到预测结果后,渲染和传输预测得到的编号对应的视频块,同时进行下一次的预测与渲染准备,再重复步骤S3-S5,直到预测的帧为视频的最后n帧。
所述步骤S1中,生成动态特征序列图时先用光流算法分别生成所述6个面对应的视频的动态特征序列图,再利用立方体到二维平面的坐标转换关系合成全景动态特征序列图。
所述步骤S2的具体过程为:首先,记光流矢量的数目为s,光流矢量的平均长度为l,视点切换剧烈程度w=f(s,l),根据步骤S1中得到的全景动态特征序列图可计算得w值;然后,对视频内容视点切换剧烈程度进行判断,根据实验结果设置阈值t,由w值的大小将全景视频分为a、b两级,其中a级为视频内容视点切换剧烈,b级为视频内容视点切换较缓慢。
所述步骤S4中,通过w值的大小选择预测网络,若w>t,则为a级视频,视频内容视点切换剧烈,视频的动态性和显著度特征共同影响用户的行为,需要较多帧视频帧的信息来预测用户视场,选取m取较大值的预测网络;若w<t,则为b级视频,视频内容视点切换较缓慢,视频的显著度特征此时起主导作用,较少帧的信息即可预测用户视场,选取m取较小值的预测网络。
目前的VR 360°视频服务还处于早期发展阶段,使用有限的技术进行传输,进行运动预测来预知用户所需的新视场,可以在低带宽成本下减小传输延时,在带宽有限的条件下对改善VR体验有很大帮助。本发明利用LSTM的记忆性和视频特征的特点,提出的用户视场预测方法减小了全景图畸变对于输入的视频特征的影响,同时加入了对视频信息的预判分级,可以以较高的准确度预测用户在VR HMD中观看视频时的视场。
附图说明
图1为本发明基于深度学习的视场预测方法的流程图;
图2为本发明基于深度学习的视场预测方法的系统图;
图3为本发明球面内接立方体拆分示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方法做进一步地详细描述。
本实施例的一种基于深度学习预测用户视场的方法,步骤如下:
(1)将全景视频从球面映射到球内接立方体的6个面上,从2D全景视频得到立方体6个面对应的视频。对立方体的面从1到6进行编号,并按照1-6的编号顺序展开(见附图3)。
(2)用光流算法分别生成立方体6个面对应视频的动态特征序列图,再利用立方体到2D平面的坐标转换关系和其编号顺序合成全景动态特征序列图。
(3)用传统显著度方法生成6个面对应视频的显著度序列图,再将各个面对应的显著度图和面的编号(1-6的数字,代表了面的位置信息)输入整合网络,整合网络的输出为合成的全景显著度序列图。
(4)将生成的显著度与动态特征序列图的宽、高分别均分为A、B份,将视频进行裁剪得到无交叠的A×B个序列图块,从左上角到右下角分别编号为1,2,……,A×B。
(5)由步骤(2)得到的全景动态特征序列图,计算得到视频内容视点切换剧烈程度w的值。
(6)用户在VR HMD中进行观看,头部自由转动,VRHMD记录用户观看视频时的头部转向,同时可计算得到相邻帧间用户的转头角速度,合成每一帧的头动数据。
(7)比较w值与阈值t的大小,选择相应的预测网络。当用户观看m帧视频帧后,将这m帧已浏览的视频帧对应的显著性图、动态特征图和头动数据合成一个向量输入视场预测网络,预测网络输出用户看到每一个视频块的概率(第i帧预测得到的概率记为P(i),概率范围为[0,1]),概率大于0.5的视频块记录为与视场重合,即用户后n帧可能看到的视频块。
(8)将预测得到的视频块编号传给视频渲染端,接收到信息后渲染并传输这些视频块,同时进行下一次的预测与渲染准备。
(9)重复步骤(6)至(8),直到预测的帧为视频最后n帧。当用户开始观看下一个视频时,进行新一轮的预测。
所述步骤(2)中,将光流算法分别应用于球面映射得到的立方体面对应的视频帧上,得到6个面对应的动态性特征序列图,再利用立方体到球面和球面到2D平面的坐标转换关系得到全景动态性特征序列图。此过程需要注意立方体面的位置,不同位置面的转换关系不同。球面上的全景视频映射到立方体面后,相对于球面映射到平面,会大大减小图像中尤其是两极区域的畸变,因此特征检测得到的角点会更加准确,得到的光流也更能反映用户视场中的物体运动情况。
所述步骤(5)中,根据视频的动态特征,即光流矢量的数目和长度,对视频信息进行判别,判断视频内容视点切换剧烈程度w。记视频帧中光流矢量的数目为s,光流矢量的平均长度为l,w=f(s,l),根据步骤(2)中得到的视频光流图可计算得w值。比较w值与阈值t(由预先做的主观实验结果得到阈值t)的大小,将视频分为a、b两级,其中,a级代表视频内容视点切换剧烈,b级代表视频内容视点切换较缓慢。
所述步骤(7)中,通过w值的大小选择预测网络(不同m值),若w>t,则为a级视频,视频内容视点切换剧烈,视频的动态性和显著度特征共同影响用户的行为,需要较多帧视频帧的信息来预测用户视场,选取m取较大值(如m=n=30)的预测网络;若w<t,则为b级视频,视频内容视点切换较缓慢,视频的显著度特征此时起主导作用,较少帧的信息即可预测用户视场,选取m取较小值(如m=15,n=30)的预测网络。
以上所述仅为本发明可能的实施例之一,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改,等同替换等,均应包含在本发明的保护范围之中。
Claims (4)
1.一种基于深度学习预测用户视场的方法,其特征在于,包括如下步骤:
S1,将全景视频从球面映射到球内接立方体的6个面上,从二维全景图得到所述6个面对应的视频;分别生成所述6个面对应的视频的动态特征序列图和显著度序列图,并对生成的动态特征序列图和显著度序列图进行分块和编号;
S2,根据全景视频的动态特征对视频信息进行判别,判断视频内容视点切换剧烈程度w;
S3,利用VR头盔记录用户观看全景视频时的头部转向,处理数据使每个视频帧对应一组头动数据,并计算得到转头角速度;
S4,通过w值的大小选择预测网络,以用户已浏览过的m帧全景视频帧的显著度视频帧、动态视频帧和头动数据作为输入,用神经网络预测得到用户看到后n帧视频帧每个视频块的概率,经处理后可得到与视场重合的视频块编号;
S5,得到预测结果后,渲染和传输预测得到的编号对应的视频块,同时进行下一次的预测与渲染准备,再重复步骤S3-S5,直到预测的帧为视频的最后n帧。
2.根据权利要求1所述的一种基于深度学习预测用户视场的方法,其特征在于,所述步骤S1中生成动态特征序列图时,先用光流算法分别生成所述6个面对应的视频的动态特征序列图,再利用立方体到二维平面的坐标转换关系合成全景动态特征序列图。
3.根据权利要求2所述的一种基于深度学习预测用户视场的方法,其特征在于,所述步骤S2的具体过程为:
首先,记光流矢量的数目为s,光流矢量的平均长度为l,视点切换剧烈程度w=f(s,l),根据步骤S1中得到的全景动态特征序列图可计算得w值;然后,对视频内容视点切换剧烈程度进行判断,根据实验结果设置阈值t,由w值的大小将全景视频分为a、b两级,其中a级为视频内容视点切换剧烈,b级为视频内容视点切换较缓慢。
4.根据权利要求3所述的一种基于深度学习预测用户视场的方法,其特征在于,所述步骤S4中,通过w值的大小选择预测网络,若w>t,则为a级视频,视频内容视点切换剧烈,视频的动态性和显著度特征共同影响用户的行为,需要较多帧视频帧的信息来预测用户视场,选取m取较大值的预测网络;若w<t,则为b级视频,视频内容视点切换较缓慢,视频的显著度特征此时起主导作用,较少帧的信息即可预测用户视场,选取m取较小值的预测网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810300362.0A CN108492322B (zh) | 2018-04-04 | 2018-04-04 | 一种基于深度学习预测用户视场的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810300362.0A CN108492322B (zh) | 2018-04-04 | 2018-04-04 | 一种基于深度学习预测用户视场的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108492322A true CN108492322A (zh) | 2018-09-04 |
CN108492322B CN108492322B (zh) | 2022-04-22 |
Family
ID=63314765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810300362.0A Active CN108492322B (zh) | 2018-04-04 | 2018-04-04 | 一种基于深度学习预测用户视场的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108492322B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109413448A (zh) * | 2018-11-05 | 2019-03-01 | 中山大学 | 基于深度强化学习的移动设备全景视频播放系统 |
CN110248212A (zh) * | 2019-05-27 | 2019-09-17 | 上海交通大学 | 多用户360度视频流服务器端码率自适应传输方法及系统 |
CN110248178A (zh) * | 2019-06-18 | 2019-09-17 | 深圳大学 | 利用物体跟踪和历史轨迹全景视频的视口预测方法及系统 |
CN111174765A (zh) * | 2020-02-24 | 2020-05-19 | 北京航天飞行控制中心 | 基于视觉引导的行星车目标探测控制方法及装置 |
CN111640173A (zh) * | 2020-05-09 | 2020-09-08 | 杭州群核信息技术有限公司 | 一种基于特定路径的家装漫游动画的云端渲染方法及系统 |
CN111696081A (zh) * | 2020-05-18 | 2020-09-22 | 南京大学 | 一种由视野视频质量推理全景视频质量的方法 |
CN111985341A (zh) * | 2020-07-23 | 2020-11-24 | 东北师范大学 | 一种图像的视觉注意力捕捉方法、系统及可读存储介质 |
CN112468806A (zh) * | 2020-11-12 | 2021-03-09 | 中山大学 | 一种用于云vr平台的全景视频传输优化方法 |
CN112487225A (zh) * | 2020-12-11 | 2021-03-12 | 联通(浙江)产业互联网有限公司 | 显著性图像生成方法、装置及服务器 |
CN113395505A (zh) * | 2021-06-21 | 2021-09-14 | 河海大学 | 一种基于用户视场的全景视频编码优化算法 |
WO2022052750A1 (zh) * | 2020-09-08 | 2022-03-17 | 上海交通大学 | 360度图像的显著性预测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016167699A (ja) * | 2015-03-09 | 2016-09-15 | 日本電信電話株式会社 | 映像配信方法、映像配信装置及び映像配信プログラム |
CN106162177A (zh) * | 2016-07-08 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 视频编码方法和装置 |
CN106534882A (zh) * | 2016-12-29 | 2017-03-22 | 北京爱奇艺科技有限公司 | 虚拟现实全景视频的编解码方法及装置 |
CN106537894A (zh) * | 2014-07-14 | 2017-03-22 | 索尼互动娱乐股份有限公司 | 用于回放全景视频内容的系统和方法 |
CN107135397A (zh) * | 2017-04-28 | 2017-09-05 | 中国科学技术大学 | 一种全景视频编码方法和装置 |
-
2018
- 2018-04-04 CN CN201810300362.0A patent/CN108492322B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106537894A (zh) * | 2014-07-14 | 2017-03-22 | 索尼互动娱乐股份有限公司 | 用于回放全景视频内容的系统和方法 |
JP2016167699A (ja) * | 2015-03-09 | 2016-09-15 | 日本電信電話株式会社 | 映像配信方法、映像配信装置及び映像配信プログラム |
CN106162177A (zh) * | 2016-07-08 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 视频编码方法和装置 |
CN106534882A (zh) * | 2016-12-29 | 2017-03-22 | 北京爱奇艺科技有限公司 | 虚拟现实全景视频的编解码方法及装置 |
CN107135397A (zh) * | 2017-04-28 | 2017-09-05 | 中国科学技术大学 | 一种全景视频编码方法和装置 |
Non-Patent Citations (3)
Title |
---|
MUHAMMAD SHAHID FARID等: "Panorama View With Spatiotemporal Occlusion Compensation for 3D Video Coding", 《INSTITUTE OF ELECTRICAL AND ELECTRONICS ENGINEERS》 * |
王龙: "全景图视觉变形纠正技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
郭一超: "基于眼动追踪技术的区域显著性评估方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109413448A (zh) * | 2018-11-05 | 2019-03-01 | 中山大学 | 基于深度强化学习的移动设备全景视频播放系统 |
CN110248212B (zh) * | 2019-05-27 | 2020-06-02 | 上海交通大学 | 多用户360度视频流服务器端码率自适应传输方法及系统 |
CN110248212A (zh) * | 2019-05-27 | 2019-09-17 | 上海交通大学 | 多用户360度视频流服务器端码率自适应传输方法及系统 |
CN110248178B (zh) * | 2019-06-18 | 2021-11-23 | 深圳大学 | 利用物体跟踪和历史轨迹全景视频的视口预测方法及系统 |
CN110248178A (zh) * | 2019-06-18 | 2019-09-17 | 深圳大学 | 利用物体跟踪和历史轨迹全景视频的视口预测方法及系统 |
CN111174765A (zh) * | 2020-02-24 | 2020-05-19 | 北京航天飞行控制中心 | 基于视觉引导的行星车目标探测控制方法及装置 |
CN111174765B (zh) * | 2020-02-24 | 2021-08-13 | 北京航天飞行控制中心 | 基于视觉引导的行星车目标探测控制方法及装置 |
CN111640173A (zh) * | 2020-05-09 | 2020-09-08 | 杭州群核信息技术有限公司 | 一种基于特定路径的家装漫游动画的云端渲染方法及系统 |
CN111640173B (zh) * | 2020-05-09 | 2023-04-21 | 杭州群核信息技术有限公司 | 一种基于特定路径的家装漫游动画的云端渲染方法及系统 |
CN111696081A (zh) * | 2020-05-18 | 2020-09-22 | 南京大学 | 一种由视野视频质量推理全景视频质量的方法 |
CN111696081B (zh) * | 2020-05-18 | 2024-04-09 | 南京大学 | 一种由视野视频质量推理全景视频质量的方法 |
CN111985341A (zh) * | 2020-07-23 | 2020-11-24 | 东北师范大学 | 一种图像的视觉注意力捕捉方法、系统及可读存储介质 |
CN111985341B (zh) * | 2020-07-23 | 2023-04-07 | 东北师范大学 | 一种图像的视觉注意力捕捉方法、系统及可读存储介质 |
WO2022052750A1 (zh) * | 2020-09-08 | 2022-03-17 | 上海交通大学 | 360度图像的显著性预测方法及系统 |
US11823432B2 (en) | 2020-09-08 | 2023-11-21 | Shanghai Jiao Tong University | Saliency prediction method and system for 360-degree image |
CN112468806A (zh) * | 2020-11-12 | 2021-03-09 | 中山大学 | 一种用于云vr平台的全景视频传输优化方法 |
CN112487225B (zh) * | 2020-12-11 | 2022-07-08 | 联通(浙江)产业互联网有限公司 | 显著性图像生成方法、装置及服务器 |
CN112487225A (zh) * | 2020-12-11 | 2021-03-12 | 联通(浙江)产业互联网有限公司 | 显著性图像生成方法、装置及服务器 |
CN113395505A (zh) * | 2021-06-21 | 2021-09-14 | 河海大学 | 一种基于用户视场的全景视频编码优化算法 |
Also Published As
Publication number | Publication date |
---|---|
CN108492322B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108492322A (zh) | 一种基于深度学习预测用户视场的方法 | |
CN103945208B (zh) | 一种针对多视点裸眼3d显示的并行同步缩放引擎及方法 | |
CN106919248A (zh) | 应用于虚拟现实的内容传输方法以及设备 | |
Shi et al. | LMFFNet: a well-balanced lightweight network for fast and accurate semantic segmentation | |
US20150279083A1 (en) | Real-time three-dimensional reconstruction of a scene from a single camera | |
CN115699093A (zh) | 计算动态场景的图像 | |
CN109391815A (zh) | 用于改进的视频编码的参考帧重投影 | |
CN110113593B (zh) | 基于卷积神经网络的宽基线多视点视频合成方法 | |
CN114079779B (zh) | 图像处理方法、智能终端及存储介质 | |
JP2023545050A (ja) | 仮想ビデオライブ放送処理方法及び装置、電子機器 | |
CN112040311B (zh) | 视频图像补帧方法、装置、设备及可存储介质 | |
TWI813098B (zh) | 用於新穎視圖合成之神經混合 | |
CN106331687A (zh) | 根据参考部分的位置处理沉浸式视频内容的一部分的方法和设备 | |
CN116188649B (zh) | 基于语音的三维人脸模型驱动方法及相关装置 | |
US20230154104A1 (en) | UNCERTAINTY-AWARE FUSION TOWARDS LARGE-SCALE NeRF | |
CN116977531A (zh) | 三维纹理图像的生成方法、装置、计算机设备和存储介质 | |
CN112785669A (zh) | 一种虚拟形象合成方法、装置、设备及存储介质 | |
CN116152416A (zh) | 基于扩展现实的画面渲染方法、装置及存储介质 | |
JP6291265B2 (ja) | 手話cg合成装置及びそのプログラム | |
JP7472298B2 (ja) | 没入型メディアの設置、及び没入型メディアから異種クライアントエンドポイントへの配信 | |
CN113850716A (zh) | 模型训练方法、图像处理方法、装置、电子设备及介质 | |
CN112102461B (zh) | 一种人脸渲染方法、装置、电子设备和存储介质 | |
CN115272608A (zh) | 一种人手重建方法及设备 | |
CN114418835A (zh) | 图像处理方法、装置、设备及介质 | |
CN115136595A (zh) | 用于流式传输到异构客户端端点的2d视频的适配 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Pu Zhiyuan Inventor after: Shen Qiu Inventor after: Guo Peiyao Inventor after: Ma Zhan Inventor before: Pu Zhiyuan Inventor before: Shen Qiu Inventor before: Guo Peiyao Inventor before: Ma Zhan |
|
CB03 | Change of inventor or designer information |