CN108462868A - 360度全景vr视频中用户凝视点的预测方法 - Google Patents
360度全景vr视频中用户凝视点的预测方法 Download PDFInfo
- Publication number
- CN108462868A CN108462868A CN201810144688.9A CN201810144688A CN108462868A CN 108462868 A CN108462868 A CN 108462868A CN 201810144688 A CN201810144688 A CN 201810144688A CN 108462868 A CN108462868 A CN 108462868A
- Authority
- CN
- China
- Prior art keywords
- fixation point
- user
- moment
- degree
- prediction technique
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44218—Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明涉及360度全景VR视频中用户凝视点的预测方法,包括:获取过往用户观看特定视频时,视频帧和凝视点位置的样本集;建立人工神经网路,包括轨迹编码模块、显著性编码模块以及差值预测模块;将样本集输入人工神经网路中进行训练,使得到与用户实际的凝视点位置的欧氏距离最小的凝视点预测位置。本发明主动探索360度空间环境,利用过去的凝视点轨迹来预测未来用户可能的凝视点,误差值较小,利于视频制作者更加充分地利用凝视点。
Description
技术领域
本发明涉及一种虚拟现实(VR)技术领域,具体地说是一种360度全景VR视频中用户凝视点的预测方法。
背景技术
目前360度全景VR视频已经引起人们广泛的关注和兴趣,YouTube以及Face book已经提供众多高质量的360度视频。
针对360度全景VR视频,我们提出凝视点预测的任务,这个任务即依据过往用户观看的凝视点信息,预测接下来用户凝视点的位置。凝视点预测的任务有着广泛的应用。比如,如果知道用户接下来会注意什么地方,可以在那里植入广告或者一些其他信息;另外,游戏的关卡难度设计上可以更加灵活,如果要降低难度我们可以在玩家接下来的凝视点上放置一些奖励等,如果提高难度可以在凝视点的相反方向放置奖励或者在凝视点上放置一些障碍。
作为现有技术,中国专利CN201110220523.3号公开了一种具学习力的视觉注意预测方法,步骤包含:侦测多个训练影片中的每一训练信息框所被注意的多个注视点;收集所述注视点来对每一所述训练信息框产生一注视图;将每一所述注视图转成一注视密度图,其中该注视密度图表示每一训练信息框会被注意的位置或区域;
基于该至少一特征资讯从所述训练影片的每一所述训练信息框产生至少一训练特征图;及根据所述注视密度图以及该训练特征图来学习该相互关系;接收一具有多个测试信息框的一测试影片;
基于该至少一特征资讯从每一所述测试信息框产生至少一测试特征图;及根据该相互关系将该测试特征图对应出一显著图,用来表示所对应的该测试信息框的注视强度。
此外,还包括对应的具学习力的视觉注意预测系统。该发明先于训练阶段获得训练影片的注视密度和特征资讯之间的相互关系,再于测试阶段使用相互关系训练回归模型,基于机器自学来进行视觉注意预测,以能学习特征和视觉注意的关系,进而避免所预测的显著图和实际人们注视位置之间在视觉上无法配对的问题。
发明内容
本发明为解决现有的问题,旨在提供一种360度全景VR视频中用户凝视点的预测方法。
为了达到上述目的,本发明采用的技术方案包括如下步骤:
步骤一,获取过往用户观看特定视频时,视频帧和凝视点位置的样本集;
步骤二,建立人工神经网路,包括轨迹编码模块、显著性编码模块以及差值预测模块;
步骤三,将所述样本集输入所述人工神经网路中进行训练,使得到与用户实际的凝视点位置的欧氏距离最小的凝视点预测位置。
其中,所述轨迹编码模块为递归神经网络,输入用户1到t时刻的凝视点位置L1:t,输出是递归神经网络的特征所述其中lt=(xt,yt),xt和yt分别是经纬度坐标,取值范围是xt∈[0,360],yt∈[-90,90]。
其中,所述显著性编码模块为卷积神经网络,输入是第t和t+1时刻的图像Vt:t+1,输出是卷积神经网络的特征
其中,差值预测模块为多层感知器网络,输入是所述和输出是用户t和t+1时刻凝视点差值δlt+1。
其中,所述递归神经网络包含两层隐藏层,每层隐藏层128个节点。
其中,所述显著性编码模块由Vt:t+1生成八种特征作为所述卷积神经网络的输入,包括:t+1时刻的全局图像,t+1时刻全局图像的显著性图,t+1时刻全局图像的光流图,t+1时刻的观测图像,t+1时刻的观测图像的显著性图,t+1时刻的观测图像的光流图,t+1时刻的局部图像,t+1时刻的局部图像的光流图。
其中,所述卷积神经网络采用Inception-ResNet-V2的网络结构。
其中,所述卷积神经网络采用损失函数预测凝视点位置和用户实际凝视点位置的欧氏距离L(Θ):
其中obs是观测的时长,T是预测的时长。
和现有技术相比,本发明主动探索360度空间环境,利用过去的凝视点轨迹来预测未来用户可能的凝视点;且本发明的基于卷积神经网络和递归神经网络的凝视点预测算法取得最好的效果,误差值较小,利于视频制作者更加充分地利用凝视点。
附图说明
图1为卷积神经网络、递归神经网络的结构图;
图2为本发明实施例的效果对比图。
具体实施方式
现结合附图对本发明作进一步地说明。
参见图2,图2展示的是本发明的一个实施例的效果对比图,假设给定360度VR视频一系列视频帧(图2中给出了2组各含4帧),V1:t={v1,v2,...,vt},以及第p个用户观看这个视频时凝视点的位置其中lt=(xt,yt),xt和yt分别是经纬度坐标,取值范围是xt∈[0,360],yt∈[-90,90],t∈[1,4]且为正整数。本实施例首先将上述视频帧和凝视点位置收集并作为样本集。参见图1,然后建立人工神经网路。所述建立人工神经网路为卷积神经网络和递归神经网络,包括轨迹编码模块、显著性编码模块以及差值预测模块。
其中,轨迹编码模块采用递归神经网络,其输入是用户1到t时刻的凝视点位置L1:t,输出是递归神经网络的特征
作为优选,所述递归神经网络包含两层隐藏层,每层隐藏层128个节点。
其中,显著性编码模块采用Inception-ResNet-V2的网络结构,输入是第t和t+1时刻的图像Vt:t+1,所述显著性编码模块由Vt:t+1生成八种特征作为所述卷积神经网络的输入,分别包括:t+1时刻的全局图像,t+1时刻全局图像的显著性图,t+1时刻全局图像的光流图,t+1时刻的观测图像,t+1时刻的观测图像的显著性图,t+1时刻的观测图像的光流图,t+1时刻的局部图像,t+1时刻的局部图像的光流图,输出是卷积神经网络的特征
其中,差值预测模块采用多层感知器网络,输入是上述轨迹编码模块的输出和显著性编码模块的输出输出是用户t和t+1时刻凝视点差值δlt+1,作为优选所述多层感知器网络包含两层全连接层。
进一步地,所述卷积神经网络的损失函数用于预测凝视点位置和用户实际凝视点位置的欧氏距离L(Θ):
其中obs是观测的时长,T是预测的时长;其中δlt+1=F(Vt:t+1,L1:t;Θ)。根据实际的用户凝视点位置算出输入图片的损失:L(Θ),然后在每一次优化迭代中更新整个网络的参数Θ,直到损失值收敛到一个较小的值。作为优选,本实施例采用随机梯度下降法在每一次优化迭代中更新整个网络的参数Θ。
上述各网络的计算,由于本实施例选用了较为成熟的标准化网络,因而本领域技术人员基于上述描述,已然能够将其付诸实施;计算过程由于涉及复杂矩阵,展开较为繁琐,因此不予赘述。
本实施例采用平均角度差值作为评价指标,本发明方法与其他基本方法的对比如下:
可见本实施例的角度误差值为最小。
上面结合附图及实施例描述了本发明的实施方式,实施例给出的结构并不构成对本发明的限制,本领域内熟练的技术人员可依据需要做出调整,在所附权利要求的范围内做出各种变形或修改均在保护范围内。
Claims (8)
1.一种360度全景VR视频中用户凝视点的预测方法,其特征在于包括如下步骤:
步骤一,获取过往用户观看特定视频时,视频帧和凝视点位置的样本集;
步骤二,建立人工神经网路,包括轨迹编码模块、显著性编码模块以及差值预测模块;
步骤三,将所述样本集输入所述人工神经网路中进行训练,使得到与用户实际的凝视点位置的欧氏距离最小的凝视点预测位置。
2.根据权利要求1所述的360度全景VR视频中用户凝视点的预测方法,其特征在于:所述轨迹编码模块为递归神经网络,输入用户1到t时刻的凝视点位置L1:t,输出是递归神经网络的特征所述其中lt=(xt,yt),xt和yt分别是经纬度坐标,取值范围是xt∈[0,360],yt∈[-90,90]。
3.根据权利要求2所述的360度全景VR视频中用户凝视点的预测方法,其特征在于:所述显著性编码模块为卷积神经网络,输入是第t和t+1时刻的图像Vt:t+1,输出是卷积神经网络的特征
4.根据权利要求3所述的360度全景VR视频中用户凝视点的预测方法,其特征在于:差值预测模块为多层感知器网络,输入是所述和输出是用户t和t+1时刻凝视点差值δlt+1。
5.根据权利要求2、3或4所述的360度全景VR视频中用户凝视点的预测方法,其特征在于:所述递归神经网络包含两层隐藏层,每层隐藏层128个节点。
6.根据权利要求4或3所述的360度全景VR视频中用户凝视点的预测方法,其特征在于:所述显著性编码模块由Vt:t+1生成八种特征作为所述卷积神经网络的输入,包括:t+1时刻的全局图像,t+1时刻全局图像的显著性图,t+1时刻全局图像的光流图,t+1时刻的观测图像,t+1时刻的观测图像的显著性图,t+1时刻的观测图像的光流图,t+1时刻的局部图像,t+1时刻的局部图像的光流图。
7.根据权利要求6所述的360度全景VR视频中用户凝视点的预测方法,其特征在于:所述卷积神经网络采用Inception-ResNet-V2的网络结构。
8.根据权利要求3或4所述的360度全景VR视频中用户凝视点的预测方法,其特征在于:所述卷积神经网络采用损失函数预测凝视点位置和用户实际凝视点位置的欧氏距离L(Θ):
其中obs是观测的时长,T是预测的时长。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810144688.9A CN108462868A (zh) | 2018-02-12 | 2018-02-12 | 360度全景vr视频中用户凝视点的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810144688.9A CN108462868A (zh) | 2018-02-12 | 2018-02-12 | 360度全景vr视频中用户凝视点的预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108462868A true CN108462868A (zh) | 2018-08-28 |
Family
ID=63217019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810144688.9A Pending CN108462868A (zh) | 2018-02-12 | 2018-02-12 | 360度全景vr视频中用户凝视点的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108462868A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110166850A (zh) * | 2019-05-30 | 2019-08-23 | 上海交通大学 | 多重cnn网络预测全景视频观看位置的方法和系统 |
CN110248178A (zh) * | 2019-06-18 | 2019-09-17 | 深圳大学 | 利用物体跟踪和历史轨迹全景视频的视口预测方法及系统 |
CN110248212A (zh) * | 2019-05-27 | 2019-09-17 | 上海交通大学 | 多用户360度视频流服务器端码率自适应传输方法及系统 |
CN110827193A (zh) * | 2019-10-21 | 2020-02-21 | 国家广播电视总局广播电视规划院 | 基于多通道特征的全景视频显著性检测方法 |
CN110990917A (zh) * | 2019-11-19 | 2020-04-10 | 北京长空云海科技有限公司 | Bim模型展示的方法、装置及系统 |
CN112468828A (zh) * | 2020-11-25 | 2021-03-09 | 深圳大学 | 全景视频的码率分配方法、装置、移动终端及存储介质 |
CN113365156A (zh) * | 2021-06-17 | 2021-09-07 | 合肥工业大学 | 一种基于有限视场反馈的全景视频多播流的视角预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915443A (zh) * | 2011-08-01 | 2013-02-06 | 陈宏铭 | 具学习力的视觉注意预测系统及其方法 |
CN103366381A (zh) * | 2013-08-06 | 2013-10-23 | 山东大学 | 基于空间位置的视线跟踪校正方法 |
CN104951084A (zh) * | 2015-07-30 | 2015-09-30 | 京东方科技集团股份有限公司 | 视线追踪方法及装置 |
KR20160041403A (ko) * | 2014-10-07 | 2016-04-18 | 한국과학기술연구원 | 픽셀별 거리 정보를 기반으로 3d 영상 컨텐츠를 생성하는 방법, 장치 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체 |
CN106909220A (zh) * | 2017-02-21 | 2017-06-30 | 山东师范大学 | 一种适用于触控的视线交互方法 |
-
2018
- 2018-02-12 CN CN201810144688.9A patent/CN108462868A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915443A (zh) * | 2011-08-01 | 2013-02-06 | 陈宏铭 | 具学习力的视觉注意预测系统及其方法 |
CN103366381A (zh) * | 2013-08-06 | 2013-10-23 | 山东大学 | 基于空间位置的视线跟踪校正方法 |
KR20160041403A (ko) * | 2014-10-07 | 2016-04-18 | 한국과학기술연구원 | 픽셀별 거리 정보를 기반으로 3d 영상 컨텐츠를 생성하는 방법, 장치 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체 |
CN104951084A (zh) * | 2015-07-30 | 2015-09-30 | 京东方科技集团股份有限公司 | 视线追踪方法及装置 |
CN106909220A (zh) * | 2017-02-21 | 2017-06-30 | 山东师范大学 | 一种适用于触控的视线交互方法 |
Non-Patent Citations (1)
Title |
---|
FAN C L,ET AL: "《Fixation Prediction for 360°Video Streaming in Head-Mounted Virtual Reality》", 《THE 27TH WORKSHOP ON NETWORK AND OPERATING SYSTEMS SUPPORT FOR DIGITAL AUDIO AND VIDEO.USA:ACM》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110248212A (zh) * | 2019-05-27 | 2019-09-17 | 上海交通大学 | 多用户360度视频流服务器端码率自适应传输方法及系统 |
CN110248212B (zh) * | 2019-05-27 | 2020-06-02 | 上海交通大学 | 多用户360度视频流服务器端码率自适应传输方法及系统 |
CN110166850A (zh) * | 2019-05-30 | 2019-08-23 | 上海交通大学 | 多重cnn网络预测全景视频观看位置的方法和系统 |
CN110166850B (zh) * | 2019-05-30 | 2020-11-06 | 上海交通大学 | 多重cnn网络预测全景视频观看位置的方法和系统 |
CN110248178A (zh) * | 2019-06-18 | 2019-09-17 | 深圳大学 | 利用物体跟踪和历史轨迹全景视频的视口预测方法及系统 |
CN110248178B (zh) * | 2019-06-18 | 2021-11-23 | 深圳大学 | 利用物体跟踪和历史轨迹全景视频的视口预测方法及系统 |
CN110827193A (zh) * | 2019-10-21 | 2020-02-21 | 国家广播电视总局广播电视规划院 | 基于多通道特征的全景视频显著性检测方法 |
CN110827193B (zh) * | 2019-10-21 | 2023-05-09 | 国家广播电视总局广播电视规划院 | 基于多通道特征的全景视频显著性检测方法 |
CN110990917A (zh) * | 2019-11-19 | 2020-04-10 | 北京长空云海科技有限公司 | Bim模型展示的方法、装置及系统 |
CN112468828A (zh) * | 2020-11-25 | 2021-03-09 | 深圳大学 | 全景视频的码率分配方法、装置、移动终端及存储介质 |
CN112468828B (zh) * | 2020-11-25 | 2022-06-17 | 深圳大学 | 全景视频的码率分配方法、装置、移动终端及存储介质 |
CN113365156A (zh) * | 2021-06-17 | 2021-09-07 | 合肥工业大学 | 一种基于有限视场反馈的全景视频多播流的视角预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108462868A (zh) | 360度全景vr视频中用户凝视点的预测方法 | |
CN107945265B (zh) | 基于在线学习深度预测网络的实时稠密单目slam方法与系统 | |
CN106991691B (zh) | 一种适用于摄像机网络下的分布式目标跟踪方法 | |
CN111209475B (zh) | 一种基于时空序列和社会嵌入排名的兴趣点推荐方法及装置 | |
CN108986136A (zh) | 一种基于语义分割的双目场景流确定方法及系统 | |
CN109389044B (zh) | 基于卷积网络与多任务学习的多场景人群密度估计方法 | |
CN111899320B (zh) | 数据处理的方法、动捕去噪模型的训练方法及装置 | |
CN110942484B (zh) | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 | |
Song et al. | ResNet-LSTM for Real-Time PM 2.5 and PM₁₀ Estimation Using Sequential Smartphone Images | |
CN110969653B (zh) | 一种基于深度学习和傅里叶域分析的图像深度估计方法 | |
CN110232330A (zh) | 一种基于视频检测的行人重识别方法 | |
CN111723707B (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
CN109584188A (zh) | 一种基于卷积神经网络的图像去雾方法 | |
CN114332578A (zh) | 图像异常检测模型训练方法、图像异常检测方法和装置 | |
CN105701482A (zh) | 基于非平衡标签信息融合的人脸识别算法架构 | |
CN113313810A (zh) | 一种透明物体的6d姿态参数计算方法 | |
CN114429555A (zh) | 由粗到细的图像稠密匹配方法、系统、设备及存储介质 | |
CN113095254A (zh) | 一种人体部位关键点的定位方法及系统 | |
CN113077505A (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN110909625A (zh) | 一种计算机视觉基础网络训练识别构建方法及装置 | |
Pan et al. | Multi‐source information art painting fusion interactive 3d dynamic scene virtual reality technology application research | |
CN111260687B (zh) | 一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法 | |
CN106384359A (zh) | 运动目标跟踪方法和电视 | |
CN103839280B (zh) | 一种基于视觉信息的人体姿态跟踪方法 | |
Jia et al. | Depth measurement based on a convolutional neural network and structured light |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180828 |