CN114170537A - 一种多模态三维视觉注意力预测方法及其应用 - Google Patents

一种多模态三维视觉注意力预测方法及其应用 Download PDF

Info

Publication number
CN114170537A
CN114170537A CN202111465974.3A CN202111465974A CN114170537A CN 114170537 A CN114170537 A CN 114170537A CN 202111465974 A CN202111465974 A CN 202111465974A CN 114170537 A CN114170537 A CN 114170537A
Authority
CN
China
Prior art keywords
visual
attention
user
module
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111465974.3A
Other languages
English (en)
Inventor
厉向东
吴玥
单逸飞
阴凯琳
姚佳怡
沈思扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202111465974.3A priority Critical patent/CN114170537A/zh
Publication of CN114170537A publication Critical patent/CN114170537A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Ophthalmology & Optometry (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种多模态三维视觉注意力预测方法,包括以下步骤,(1)样本数据和样本标签采集、(2)样本数据预处理、(3)多模态视觉注意力模型构建、(4)训练多模态视觉注意力模型、(5)预测用户在浏览画面时的注意力;其中,多模态视觉注意力模型包括注意力长短期记忆人工模块、残差全连接卷积网络模块以及融合模块,残差全连接卷积网络模块中包括特征提取模块、最大池化模块和平均池化模块。本发明通过多模态融合技术综合利用眼动和头部运动多个模态的数据,提高视觉注意力预测的准确度,本发明预测方法可用于定位视觉兴趣区域和视觉搜索路径、评估空间信息布局,提高了评估效率,节约了评估成本。

Description

一种多模态三维视觉注意力预测方法及其应用
技术领域
本发明涉及眼动追踪领域,具体涉及一种多模态三维视觉注意力预测方法及其应用。
背景技术
眼动追踪技术通过追踪眼部特征并映射到现实世界或虚拟画面上获取注视点数据。多模态融合技术整合两个或多个模态的信息,实现信息补充,从而提高预测结果的精度和预测模型的鲁棒性。传统眼动跟踪技术基于二维图像和视频序列进行视觉注意力检测,如公开号为CN111309138A和CN113040700A的申请专利仅提高了基于二维图像的眼动追踪的精确度和效率,不能用到三维空间的视觉注意力检测中去。传统眼动跟踪技术仅基于眼部或眼部特征进行眼动跟踪,如申请号为CN111625090A和CN111417335A的专利申请仅关注眼部图像的处理,没有进行多模态数据融合,存在噪音干扰时难以去除误差,影响预测结果的准确度。
注视点数据可以反映用户的注意力和认知状态,从而应用于评估。传统三维空间设计评估方法通常采用问卷法、访谈法、行为观察法和专家评价法。这些方法需要招募大量被试才能获取可靠的数据,往往需要消耗大量的金钱和时间成本,且结论缺少客观数据支撑。使用多模态视觉注意力预测的视觉兴趣区域和视觉搜索路径提供用户在三维空间的注视模式、注视重点等信息,辅助设计师对三维空间的干扰项和视觉盲点进行评估,不仅可以提高效率,节约成本,而且能对三维空间设计评估提供客观数据的有力支撑。
公开号为CN113177515A的中国专利文献公开了一种基于图像的眼动追踪方法,包括对待检测图像进行人脸检测,获得人脸检测框;利用人脸关键点定位网络定位出眼睛感兴趣区域并进行瞳孔关键点定位;基于瞳孔中心和眼睛区域中心计算获取水平偏移比率以确定人眼朝向。该方法能够在环境光照条件不理想,背景复杂等情况下有效地定位到人脸和瞳孔中心并进行眼动跟踪,该方法同样也是仅关注眼部图像的处理。
发明内容
本发明提供了一种多模态三维视觉注意力预测方法,通过多模态融合技术综合利用眼动和头部运动多个模态的数据进行视觉注意力预测,提高了预测准确度。
具体采用的技术方案如下:
1.一种多模态三维视觉注意力预测方法,包括以下步骤:
(1)采集用户的浏览画面,并记录浏览画面时的用户转头速度、用户转头方向以及视觉注视点,其中,浏览画面、用户转头速度以及用户转头方向作为样本数据,视觉注视点作为样本标签;
(2)对样本数据进行预处理,所述的预处理步骤为:利用预训练的球面卷积模型提取样本数据的二维特征后,对二维特征依次进行时间戳对齐、数据补漏、噪声清洗、归一化处理,得到预处理后的样本数据;预处理后的样本数据包括头动样本数据和画面样本数据;
(3)构建包括注意力长短期记忆人工模块、残差全连接卷积网络模块以及融合模块的多模态视觉注意力模型;其中,将头动样本数据输入至注意力长短期记忆人工模块提取得到行为特征,将画面样本数据输入至残差全连接卷积网络模块提取得到视觉特征,行为特征和视觉特征经融合模块融合后预测注意力位置;
(4)利用预处理后样本数据对多模态视觉注意力模型在样本标签的监督下进行训练,以优化多模态视觉注意力模型参数;
(5)利用参数优化的多模态视觉注意力模型预测用户在浏览画面时的注意力并显示。
优选的,步骤(1)中,用VR设备模拟三维空间,所述的VR设备带有传感器和内置眼动仪,传感器用于采集浏览画面和记录用户在浏览画面时的用户转头速度和用户转头方向;内置眼动仪用于记录用户在浏览画面时的视觉注视点。
优选的,步骤(2)中,所述的球面卷积模型使用广义傅里叶变换将样本数据投影到谱域,经过卷积后,再通过逆傅里叶变换投影得到样本数据的二维特征。
优选的,步骤(2)中,采用线性插值进行数据补漏;使用最大值最小值滤波进行噪声清洗;将样本数据的所有二维特征归一化处理。
优选的,步骤(3)中,所述的残差全连接卷积网络模块中,包括特征提取模块、最大池化模块和平均池化模块;画面样本数据经特征提取模块提取特征后,得到的特征分别输入至最大池化模块和平均池化模块,经最大池化操作后输出第一视觉特征,经平均池化操作后输出第二视觉特征,第一视觉特征和第二视觉特征拼接后得到视觉特征。
进一步优选的,所述特征提取模块包括多个block模块和球卷积层,block模块用于提取画面样本数据的特征,球卷积层用于对block模块得到的特征进行处理,减少全景扭曲带来的影响,通过跳跃连接捕获更深层次的特征。
优选的,步骤(5)中,采集用户的浏览画面,及浏览画面时的用户转头速度、用户转头方向作为待测数据,将待测数据预处理后输入至参数优化的多模态视觉注意力模型中,预测用户在浏览画面时的注意力并显示。
本发明还提供了一种定位视觉兴趣区域和视觉搜索路径的方法,包括以下步骤:
上传空间前、后、左、右、上和下六个方位的图片合成全景图像;
采集全景图像,并记录浏览全景图像时的用户转头速度、用户转头方向作为待测数据;
将待测数据预处理后输入至多模态视觉注意力模型中,经计算得到用户在浏览全景图像时的注意力位置坐标,形成注意力位置集合,对注意力位置集合进行聚类得到视觉兴趣区域,对注意力位置集合进行时间戳排序得到视觉搜索路径。
本发明还提供了一种评估空间信息布局的方法,包括以下步骤:
采集用户的浏览画面,及浏览画面时的用户转头速度、用户转头方向作为待测数据;
将待测数据预处理后输入至多模态视觉注意力模型中,经计算得到用户在浏览全景图像时的注意力位置坐标,形成注意力位置集合,对注意力位置集合进行聚类得到视觉兴趣区域,对注意力位置集合进行时间戳排序得到视觉搜索路径;
将视觉搜索路径和视觉兴趣区域与空间设计需求结合来评估当前的空间信息布局,包括:当不重要信息被留在视觉兴趣区域,可判断为干扰信息,将干扰信息移出视觉兴趣区域;当重要信息被排除在视觉兴趣区域外,可判断为易忽视信息,将重要信息移到视觉兴趣区域。
与现有技术相比,本发明具有的有益效果为:
(1)本发明提供的多模态三维视觉注意力预测方法可以在三维空间实现高精度的视觉注意力预测,并结合多模态数据去除数据噪声,进一步提高预测结果的准确度。
(2)本发明提供的多模态三维视觉注意力预测方法可以用于定位视觉兴趣区域和视觉搜索路径,并能够将视觉搜索路径和视觉兴趣区域与空间设计需求结合来评估当前的空间信息布局,可以提高评估效率,节约评估成本,能够为三维空间设计评估提供客观数据的有力支撑。
附图说明
图1为多模态三维视觉注意力预测方法流程图。
图2为多模态三维视觉注意力预测方法的技术路线图。
图3为构建多模态视觉注意力模型的框架图。
具体实施方式
下面结合附图与实施例,进一步阐明本发明。应理解,这些实施例仅用于说明本发明,而不用于限制本发明的范围。
如图1和图2所示,本实施例提供一种多模态三维视觉注意力预测方法,包括以下步骤,(1)样本数据和样本标签采集、(2)样本数据预处理、(3)多模态视觉注意力模型构建、(4)训练多模态视觉注意力模型、(5)预测用户在浏览画面时的注意力并显示。
(1)样本数据和样本标签采集
用VR设备模拟三维空间,采集用户的浏览画面,并记录浏览画面时的用户转头速度、用户转头方向以及视觉注视点,其中,浏览画面、用户转头速度以及用户转头方向作为样本数据,视觉注视点作为样本标签。
VR设备选用Oculus Rift DK2,所述的VR设备带有传感器和内置Pupil Lab眼动仪,传感器用于采集浏览画面和记录用户在浏览虚拟现实画面时的用户转头速度和用户转头方向;Pupil Lab内置眼动仪用于记录用户在浏览虚拟现实画面时的视觉注视点。
(2)样本数据预处理
对步骤(1)得到的样本数据进行预处理,所述的预处理步骤为:利用预训练的球面卷积模型提取样本数据的二维特征后,对二维特征依次进行时间戳对齐、数据补漏、噪声清洗,归一化处理,得到预处理后样本数据,预处理后的样本数据包括头动样本数据(预处理后的用户转头速度以及用户转头方向)和画面样本数据(预处理后的浏览画面)。
使用预训练的球面卷积模型提取样本数据的二维特征,球面卷积模型使用广义傅里叶变换将样本数据投影到谱域,经过卷积后,再通过逆傅里叶变换投影得到样本数据的二维特征。
对二维特征进行时间戳对齐,得到时间序列[(0,x0),(t1-t0,x1),...,(tN-t0,xN)],其中,t0为起始时间,xN为时间tN对应的特征值。
再利用线性插值对时间序列数据进行补漏,及通过xn,xn+2预测xn+1:xn+1=(xn+xn+1)/2,n=1,2,3,…,N。
使用最大值最小值滤波进行噪声清洗,即对任意xn,如果xn>max,xn=max;如果xn<min,xn=min;否则xn不变,max和min的值为手动设置。
将样本数据的所有二维特征归一化处理,对任意xn,xn=xn/max0,max0为所有xn中的最大的绝对值,然后将所有归一化处理的二维特征拼接成特征向量作为步骤(3)中多模态视觉注意力模型的输入。
(3)多模态视觉注意力模型构建
构建包括注意力长短期记忆人工模块、残差全连接卷积网络模块以及融合模块的多模态视觉注意力模型;其中,将头动样本数据输入至注意力长短期记忆人工模块提取得到行为特征,将画面样本数据输入至残差全连接卷积网络模块提取得到视觉特征,行为特征和视觉特征经融合模块融合后预测注意力位置。
注意力长短期记忆人工模块整合了注意力机制——计算当前输入序列和注视点坐标之间的匹配程度,从而有选择地关注输入中的相应信息——以捕捉远距离相关依赖特征。
注意力长短期记忆人工模块中,头动样本数据经过计算得到隐藏层变量hj,隐藏层变量hj对应的总权重Ct为:
Figure BDA0003391483140000051
其中,Tx为每个样本数据的总时长,αtj是隐藏层变量hj的对应权重,αtj的计算公式为:
Figure BDA0003391483140000061
etj是时间t的输出与时间j的输入之间的匹配度,etj=g(St-1,hj),g可被视为全连接的子网络,用于学习特征在模型中的新表示,St-1是时间t-1时注意力长短期记忆人工模块的输出。
此外,长短期记忆人工模块输出的多个表示都分别引入丢弃层来提高模型训练时的效率,丢弃层会在训练时以给定的概率从网络中随机地丢弃节点,这也会降低模型的泛化误差,最后经过残差层的输出会作为残差网络的输入。
如图3所示,所述的残差全连接卷积网络模块中,画面样本数据经特征提取模块提取特征后,得到的特征分别输入至最大池化模块(Max pooling)和平均池化模块(Averagepooling),经最大池化操作后输出第一视觉特征,经平均池化操作后输出第二视觉特征,第一视觉特征和第二视觉特征拼接后得到视觉特征。
每个特征提取模块包括多个block模块和球卷积层,block模块用于提取画面样本数据的特征,球卷积层用于对block模块得到的特征进行处理,减少全景扭曲带来的影响,通过跳跃连接捕获更深层次的特征。
每个block模块由球卷积层(Spherical convolution)和批量归一化层(BN)形成的残差结构,该残差结构有助于在网络中更深地传输特征。解决了网络退化问题,使网络收敛速度加快;其次,在最后一层球面卷积之后,残差全连接卷积网络模块添加了最大池层和平均池层,这有助于网络从输入中学习语义信息。
残差全连接卷积网络模块是在经典的全连接卷积网络的基础上进行改进,相比于经典的全连接卷积网络,本发明中构建的包含特征提取模块、最大池化模块和平均池化模块的残差全连接卷积网络模块可以更好的学习到三维的注意力信息,此外也具有更好的识别旋转和形变的能力。残差结构则将上一层输入使用跳转直接连接到下一层的输出,这个结构降低了模型深度增加带来过拟合的风险,因此整个网络可以尝试更大的深度,并且可以处理来自较低层的更多信息。残差全连接卷积网络模块同时结合最大池化模块和平均池化模块以提高模型的鲁棒性。残差全连接卷积网络模块采用最大池化模块来减少全连接的参数并在语义级别提取这些参数,减少由于邻域大小有限导致的估计值方差与特征提取误差。采用平均池化模块为了提取更多模糊的全局抽象特征,减少卷积层参数误差导致的估计均值偏差。
(4)训练多模态视觉注意力模型
利用处理后样本数据对多模态视觉注意力模型在样本标签的监督下进行训练,以优化多模态视觉注意力模型参数。
将步骤(2)得到的头动样本数据作为注意力长短期记忆人工模块的输入,注意力长短期记忆人工模块设置有640个神经元;将画面样本数据作为残差全连接卷积网络模块的输入,残差全连接卷积网络模块分别堆叠有128、256和640个滤波器的时间卷积层。其中,注意力长短期记忆人工模块、残差全连接卷积网络模块的输出输入至融合模块,即通过融合模块的concatenate层进行融合连接,并经过sigmoid回归得到当前时刻的注视点坐标。
本发明方法在残差全连接卷积网络模块的损失函数中引入正则化加速模型训练,提高模型的泛化能力,以消除训练期间的过拟合。
将用户未来注视区域的预测定义为一个分类问题,不断优化多模态视觉注意力模型参数,直到在模型训练期间损失收敛,以便从训练数据中学习输入输出的映射关系,回归得到注视点坐标。
多模态视觉注意力模型由Adam优化器进行训练,初始学习率为1e-3,最终学习率为1e-4,批次值设置为128。学习率降低了一倍
Figure BDA0003391483140000071
在每50个阶段中,验证分数没有改善,直到达到预设的最终学习率。损失函数定义为:
Figure BDA0003391483140000072
其中,yi和f(xi)分别表示第i个样本数据的真实值和预测值,m为样本个数。最后在训练集上进行训练并进行十字交叉验证,优化多模态视觉注意力模型参数。
(5)预测用户在浏览画面时的注意力
采集用户的浏览画面,及浏览画面时的用户转头速度、用户转头方向作为待测数据,将待测数据预处理后输入至参数优化的多模态视觉注意力模型中,利用参数优化的多模态视觉注意力模型预测用户在浏览画面时的注意力并显示。
通过参数优化的多模态视觉注意力模型生成视觉兴趣区域,根据头动方向连接视觉兴趣区域得到视觉搜索路径。利用视觉兴趣区域和视觉搜索路径。基于这些输出,实施例可以分析以下两点:(1)用户在三维空间处理信息的浏览顺序,及视线的移动轨迹;(2)用户在三维空间的浏览重点,及长时间视线停留的区域;设计师可以根据提供的信息评估判断三维空间中是否存在干扰信息、三维空间中的重要信息是否被忽视等问题。
三维空间的视觉注意力预测以全景图片为输入,全景图片包含三维空间的全方位角度画面,并以球形展示,因此提取图片的全局与局部信息,可以更好的捕获图像粗粒度与细粒度特征。
上传空间前、后、左、右、上和下六个方位图片至系统后,图片通过ptgui模型实现360°图像合成全景图像,采集全景图像,并记录浏览全景图像时的用户转头速度、用户转头方向作为待测数据;将待测数据预处理后输入至多模态视觉注意力模型中,多模态三维视觉注意力预测方法构建的多模态视觉注意力模型中,经计算得到用户在浏览全景图像时的注意力位置坐标,形成注意力位置集合,对注意力位置集合进行聚类得到视觉兴趣区域,对注意力位置集合进行进行时间戳排序得到视觉搜索路径。
在得到预测视觉兴趣区域和视觉搜索路径后,可将视觉搜索路径输出为三维空间中用户处理信息的浏览顺序(视觉移动轨迹),将视觉兴趣区域输出为用户在三维空间中处理信息的浏览重点区域(视觉重心区域)。进而将视觉移动轨迹和视觉重心结合空间设计需求评估该空间的信息布局。当不重要信息被留在了浏览重点区域,可判断为干扰信息,将干扰信息移出浏览重点区域;当重要信息被排除在浏览区域外,可判断为易忽视信息,将重要信息移到视觉重心区域。
本发明提供的多模态三维视觉注意力预测方法及应用基于用户转头速度、转头方向以及三维场景浏览画面的视觉注意力模型,以虚拟现实模拟三维空间的方式,实现VR头盔内置传感器和眼动仪的多模态用户数据联合获取,并通过多模态视觉注意力数据集训练得到可用的三维视觉注意力模型,实现三维空间的视觉注意力预测与评估。
本发明通过双支流实现对头动样本数据和画面样本数据的分别学习,注意力长短期记忆人工模块对头动样本数据提取局域时间特征,具有较强的上下文文本学习能力;残差全连接卷积网络模块对画面样本数据提取视觉特征,通过拼接减少全景扭曲带来的影响,通过跳跃连接捕获更深层次的特征。
本发明结合多模态数据降低数据噪声,实现高精度的三维视觉注意力预测;本发明提供注意力预测的视觉兴趣区域和视觉搜索路径,从而实现高效、低成本、有客观数据支撑的三维空间设计评估。
以上所述的实施例对本发明的技术方案进行了详细说明,应理解的是以上所述的仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充或类似方式替代等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种多模态三维视觉注意力预测方法,包括以下步骤:
(1)采集用户的浏览画面,并记录浏览画面时的用户转头速度、用户转头方向以及视觉注视点,其中,浏览画面、用户转头速度以及用户转头方向作为样本数据,视觉注视点作为样本标签;
(2)对样本数据进行预处理,所述的预处理步骤为:利用预训练的球面卷积模型提取样本数据的二维特征后,对二维特征依次进行时间戳对齐、数据补漏、噪声清洗、归一化处理,得到预处理后的样本数据;预处理后的样本数据包括头动样本数据和画面样本数据;
(3)构建包括注意力长短期记忆人工模块、残差全连接卷积网络模块以及融合模块的多模态视觉注意力模型;其中,将头动样本数据输入至注意力长短期记忆人工模块提取得到行为特征,将画面样本数据输入至残差全连接卷积网络模块提取得到视觉特征,行为特征和视觉特征经融合模块融合后预测注意力位置;
(4)利用预处理后样本数据对多模态视觉注意力模型在样本标签的监督下进行训练,以优化多模态视觉注意力模型参数;
(5)利用参数优化的多模态视觉注意力模型预测用户在浏览画面时的注意力并显示。
2.根据权利要求1所述的多模态三维视觉注意力预测方法,其特征在于,步骤(1)中,用VR设备模拟三维空间,所述的VR设备带有传感器和内置眼动仪,传感器用于采集浏览画面和记录用户在浏览画面时的用户转头速度和用户转头方向;内置眼动仪用于记录用户在浏览画面时的视觉注视点。
3.根据权利要求1所述的多模态三维视觉注意力预测方法,其特征在于,步骤(2)中,所述的球面卷积模型使用广义傅里叶变换将样本数据投影到谱域,经过卷积后,再通过逆傅里叶变换投影得到样本数据的二维特征。
4.根据权利要求1所述的多模态三维视觉注意力预测方法,其特征在于,步骤(2)中,采用线性插值进行数据补漏;使用最大值最小值滤波进行噪声清洗;将样本数据的所有二维特征归一化处理。
5.根据权利要求1所述的的多模态三维视觉注意力预测方法,其特征在于,所述的残差全连接卷积网络模块中,包括特征提取模块、最大池化模块和平均池化模块;画面样本数据经特征提取模块提取特征后,得到的特征分别输入至最大池化模块和平均池化模块,经最大池化操作后输出第一视觉特征,经平均池化操作后输出第二视觉特征,第一视觉特征和第二视觉特征拼接后得到视觉特征。
6.根据权利要求5所述的多模态三维视觉注意力预测方法,其特征在于,所述特征提取模块包括多个block模块和球卷积层,block模块用于提取画面样本数据的特征,球卷积层用于对block模块得到的特征进行处理,减少全景扭曲带来的影响,通过跳跃连接捕获更深层次的特征。
7.根据权利要求1所述的多模态三维视觉注意力预测方法,其特征在于,步骤(5)中,采集用户的浏览画面,及浏览画面时的用户转头速度、用户转头方向作为待测数据,将待测数据预处理后输入至参数优化的多模态视觉注意力模型中,预测用户在浏览画面时的注意力并显示。
8.一种定位视觉兴趣区域和视觉搜索路径的方法,其特征在于,包括以下步骤:
上传空间前、后、左、右、上和下六个方位的图片合成全景图像;
采集全景图像,并记录浏览全景图像时的用户转头速度、用户转头方向作为待测数据;
将待测数据预处理后输入至根据权利要求1-7任一所述的多模态三维视觉注意力预测方法构建的多模态视觉注意力模型中,经计算得到用户在浏览全景图像时的注意力位置坐标,形成注意力位置集合,对注意力位置集合进行聚类得到视觉兴趣区域,对注意力位置集合进行时间戳排序得到视觉搜索路径。
9.一种评估空间信息布局的方法,其特征在于,包括以下步骤:
采集用户的浏览画面,及浏览画面时的用户转头速度、用户转头方向作为待测数据;
将待测数据预处理后输入至根据权利要求1-7任一所述的多模态三维视觉注意力预测方法构建的多模态视觉注意力模型中,经计算得到用户在浏览全景图像时的注意力位置坐标,形成注意力位置集合,对注意力位置集合进行聚类得到视觉兴趣区域,对注意力位置集合进行时间戳排序得到视觉搜索路径;
将视觉搜索路径和视觉兴趣区域与空间设计需求结合来评估当前的空间信息布局,包括:当不重要信息被留在视觉兴趣区域,可判断为干扰信息,将干扰信息移出视觉兴趣区域;当重要信息被排除在视觉兴趣区域外,可判断为易忽视信息,将重要信息移到视觉兴趣区域。
CN202111465974.3A 2021-12-03 2021-12-03 一种多模态三维视觉注意力预测方法及其应用 Pending CN114170537A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111465974.3A CN114170537A (zh) 2021-12-03 2021-12-03 一种多模态三维视觉注意力预测方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111465974.3A CN114170537A (zh) 2021-12-03 2021-12-03 一种多模态三维视觉注意力预测方法及其应用

Publications (1)

Publication Number Publication Date
CN114170537A true CN114170537A (zh) 2022-03-11

Family

ID=80482698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111465974.3A Pending CN114170537A (zh) 2021-12-03 2021-12-03 一种多模态三维视觉注意力预测方法及其应用

Country Status (1)

Country Link
CN (1) CN114170537A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114578975A (zh) * 2022-05-09 2022-06-03 南昌虚拟现实研究院股份有限公司 眼动追踪设备的注视点质量评测方法及系统
CN115061576A (zh) * 2022-08-10 2022-09-16 北京微视威信息科技有限公司 用于虚拟现实场景的注视位置预测方法及虚拟现实设备
WO2023219630A1 (en) * 2022-05-13 2023-11-16 Google Llc Machine learning for computation of visual attention center
CN117975545A (zh) * 2023-11-24 2024-05-03 深圳昊瑞达电子有限公司 一种通讯模组调用系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114578975A (zh) * 2022-05-09 2022-06-03 南昌虚拟现实研究院股份有限公司 眼动追踪设备的注视点质量评测方法及系统
WO2023219630A1 (en) * 2022-05-13 2023-11-16 Google Llc Machine learning for computation of visual attention center
CN115061576A (zh) * 2022-08-10 2022-09-16 北京微视威信息科技有限公司 用于虚拟现实场景的注视位置预测方法及虚拟现实设备
CN117975545A (zh) * 2023-11-24 2024-05-03 深圳昊瑞达电子有限公司 一种通讯模组调用系统及方法

Similar Documents

Publication Publication Date Title
CN112949565B (zh) 基于注意力机制的单样本部分遮挡人脸识别方法及系统
CN114170537A (zh) 一种多模态三维视觉注意力预测方法及其应用
CN112530019B (zh) 三维人体重建方法、装置、计算机设备和存储介质
CN110543867A (zh) 一种多摄像头条件下的人群密度估测系统及方法
CN112446270A (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN112288627B (zh) 一种面向识别的低分辨率人脸图像超分辨率方法
CN111460976B (zh) 一种数据驱动的基于rgb视频的实时手部动作评估方法
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
CN109063643B (zh) 一种用于脸部信息部分隐藏条件下的面部表情痛苦度识别方法
CN114120432A (zh) 基于视线估计的在线学习注意力跟踪方法及其应用
CN113378649A (zh) 身份、位置和动作识别方法、系统、电子设备及存储介质
CN111046734A (zh) 基于膨胀卷积的多模态融合视线估计方法
CN111353447A (zh) 一种基于图卷积网络的人体骨架行为识别方法
CN115237255B (zh) 一种基于眼动和语音的自然图像共指目标定位系统及方法
CN113610046B (zh) 一种基于深度视频联动特征的行为识别方法
CN111680660A (zh) 基于多源异构数据流的人体行为检测方法
CN114332911A (zh) 一种头部姿态检测方法、装置及计算机设备
Yan et al. Human-object interaction recognition using multitask neural network
CN115841602A (zh) 基于多视角的三维姿态估计数据集的构建方法及装置
CN114550270A (zh) 一种基于双注意力机制的微表情识别方法
CN111222459A (zh) 一种视角无关的视频三维人体姿态识别方法
CN116664677B (zh) 一种基于超分辨率重建的视线估计方法
CN112488165A (zh) 一种基于深度学习模型的红外行人识别方法及系统
Kumar et al. Facial emotion recognition and detection using cnn
CN115116117A (zh) 一种基于多模态融合网络的学习投入度数据的获取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination