CN116185182B - 一种融合眼动注意力的可控图像描述生成系统及方法 - Google Patents
一种融合眼动注意力的可控图像描述生成系统及方法 Download PDFInfo
- Publication number
- CN116185182B CN116185182B CN202211731584.0A CN202211731584A CN116185182B CN 116185182 B CN116185182 B CN 116185182B CN 202211731584 A CN202211731584 A CN 202211731584A CN 116185182 B CN116185182 B CN 116185182B
- Authority
- CN
- China
- Prior art keywords
- module
- image
- eye movement
- text
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/197—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/01—Indexing scheme relating to G06F3/01
- G06F2203/012—Walk-in-place systems for allowing a user to walk in a virtual environment while constraining him to a given position in the physical environment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Ophthalmology & Optometry (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种融合眼动注意力的可控图像描述生成系统,包括:依次相连的图像采集模块、图像预处理模块及图像显示模块;依次相连的眼图采集模块及眼动坐标识别模块;分别与图像预处理模块和眼动坐标识别模块相连的特征融合模块,与特征融合模块相连的语言描述生成模块;特征融合模块用于提取文本特征、图像特征及眼动坐标识别模块输出数据的眼动特征,并融合生成多模态特征;语言描述生成模块用于由多模态特征生成文本信息。本发明还公开了一种融合眼动注意力的可控图像描述生成方法。本发明不仅融合了眼动信息,且形成了真实可行的人机交互系统,基于AR眼镜设备,达到描述主体可控的交互效果。
Description
技术领域
本发明涉及一种人机交互的系统及方法,特别涉及一种融合眼动注意力的可控图像描述生成系统及方法。
背景技术
目前,随着人机交互技术的发展,交互方式不再局限于单一模态,跨模态的人机交互能够为机器赋予更加智能的环境理解能力,例如自动图像描述生成系统。图像描述生成任务是机器智能的基础,其同时结合了计算机视觉技术和自然语言处理技术,将自然图像形式的环境信息通过算法模型转换为自然语言的形式,不仅能够服务于后续多种人机协同任务,而且能够帮助人类用户全面便捷地理解环境信息。然而自然图像往往信息含量丰富多样,长度有限的文本形式难以涵盖所有的视觉特征,难以避免会忽略掉一些用户需要的信息。而人机交互过程中的信息交换需要有所侧重,提高图像描述生成的可控性便尤为重要。进一步地,当描述对象具体至某个特征物体时,生成文本能够将语义信息聚焦其中,获得更加准确的文本描述。
同时,随着视线估计与视线跟踪技术的发展成熟,眼动信息作为人机交互技术中主要的输入模态之一,越来越多地被应用于人类意图理解的相关研究中,特别是与计算机视觉领域相关的跨模态任务。在交互情景中,用户希望获取感兴趣物体的具体描述信息时,往往会注视图像场景中的目标物体。然而,现有的人机交互系统一般采用接触式按键交互输入或者语音输入等单模态的数据输入形式,交互效率低,极大影响系统性能和用户体验。对于多模态信息表达用户意图,特别是眼动信息和增强现实(AR)眼镜等设备利用较少。
现有的可控图像描述生成方法中,包含对输出文本结构的控制以及对文本所描述的图像区域的选择,控制信号的加入能够反映细粒度的用户意图,使生成的文本结语义信息更加丰富和多样化。然而现有研究难以应用于现实的交互场景,特别是对于无法发声的特殊人群,指定目标词语的方法依赖于手动输入,降低了交互效率;而指定图像目标区域的方法依赖于预训练的目标检测模型进行目标区域的分割和提取图像特征。且以上方法均局限于理论研究,而缺乏整体交互系统的建立和设计,不利于真实场景的应用实践。
发明内容
本发明为解决公知技术中存在的技术问题而提供一种融合眼动注意力的可控图像描述生成系统及方法。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:一种融合眼动注意力的可控图像描述生成系统,包括:依次相连的图像采集模块、图像预处理模块及图像显示模块;依次相连的眼图采集模块及眼动坐标识别模块;分别与图像预处理模块和眼动坐标识别模块相连的特征融合模块,与特征融合模块相连的语言描述生成模块;
图像采集模块用于实时采集环境图像;
图像预处理模块用于对采集的环境图像进行预处理;
图像显示模块用于显示经过预处理后的环境图像;
眼图采集模块用于通过AR眼镜采集一段时间内用户的眼灰度图像序列并保存;
眼动坐标识别模块用于对采集的眼灰度图像序列进行注视角度识别,并将注视角度转化为与环境图像相对应的以像素为单位的二维坐标值序列;
特征融合模块用于提取文本特征、图像特征及眼动坐标识别模块输出数据的眼动特征,并将文本特征、图像特征及眼动特征进行融合生成多模态特征;
语言描述生成模块用于由多模态特征生成文本信息。
进一步地,图像采集模块包括RGB相机;眼图采集模块包括两个红外摄像头;眼动坐标识别模块包括基于三维建模的注视跟踪算法模块。
进一步地,图像显示模块用于通过AR眼镜向用户显示实时采集的环境图像及由语言描述生成模块生成的文本信息。
进一步地,图像预处理模块对采集的环境图像进行缩放、剪裁和像素归一化预处理。
进一步地,特征融合模块包括:特征拼接模块及分别与其连接的文本特征提取模块、图像特征提取模块、眼动序列处理模块;
文本特征提取模块用于对上一时刻语言描述生成模块生成的文本信息进行特征提取;
图像特征提取模块用于对输入图像进行特征提取,并将三维的图像特征展开为二维形式;
眼动序列处理模块用于将二维坐标值序列转化为二维高斯分布图;
特征拼接模块用于将文本特征提取模块、图像特征提取模块及眼动序列处理模块三者的输出进行拼接,生成多模态特征。
进一步地,在文本特征提取模块与特征拼接模块之间还设有全连接层;全连接层用于对文本特征提取模块输出的文本特征长度进行调整。
进一步地,语言描述生成模块包括Transformer模型。
进一步地,Transformer模型包括编码器及解码器,编码器及解码器均包括六层多头注意力模块;其中每层多头注意力模块包括依次连接的八头自注意力层、Dropout层A、标准化层A、全连接层A、激活函数层、Dropout层B、全连接层B、Dropout层C及标准化层B。
进一步地,还包括多层前馈神经网络及softmax层;多层前馈神经网络用于对Transformer模型输出特征的长度进行调整,softmax层用于对多层前馈神经网络输出特征的置信度进行标准化处理。
本发明还提供了一种利用上述的融合眼动注意力的可控图像描述生成系统的融合眼动注意力的可控图像描述生成方法,该方法包括如下步骤:
步骤1,利用预训练方法,基于图像文本跨模态公开数据集,对语言描述生成模块进行预训练;
步骤2,利用用户眼动实验数据对语言描述生成模块进行微调训练;
步骤3,图像采集模块与眼动采集模块同步采集数据;
步骤4,图像预处理模块对采集的环境图像进行预处理;图像显示模块将预处理后的环境图像输入至AR设备进行显示;
步骤5,由用户确认环境图像是否正确;如果环境图像正确则保存环境图像并进行步骤6,否则重复步骤3至步骤4;
步骤6,眼动坐标识别模块对采集的眼灰度图像序列进行眼动坐标识别,生成二维高斯分布图;
步骤7,特征融合模块提取文本特征、图像特征及眼动特征并融合生成多模态特征;
步骤8,语言描述生成模块将多模态特征转换生成文本信息;
步骤9,由用户确认生成的文本信息是否正确;如果正确则输出文本信息,否则重复步骤3至步骤8。
进一步地,步骤1包括如下分步骤:
步骤1-1,基于图像文本跨模态公开数据集编制图像文本对样本集,将图像文本对样本集中的15%的文本单词进行标记,其中的80%为特殊的标记,10%为随机标记,10%为原始标记;
步骤1-2,将图像文本对样本集分为训练集和测试集;
步骤1-3,采用训练集对语言描述生成模块进行训练;
步骤1-4,将测试集数据输入至训练完成的语言描述生成模块,并由语言描述生成模块生成文本信息;
步骤1-5,计算语言描述生成模块生成的文本信息与标记所对应的真实值之间的损失,根据损失通过反向传播机制更新并优化语言描述生成模块的参数值;
步骤1-6,重复步骤1-4至步骤1-5直至语言描述生成模块精度达到预定目标。
本发明具有的优点和积极效果是:
1.本发明不仅融合了眼动信息,而且形成了真实可行的人机交互系统,基于AR眼镜设备,达到描述主体可控的交互效果,为可控的图像描述生成提供了可实践的实现方式和解决方案。
2.本发明利用了迁移学习策略,将大规模图像文本数据集中完成训练的模型迁移至本发明的方法中,避免了真实眼动数据量较小导致的模型欠拟合问题。
附图说明
图1是本发明的一种融合眼动注意力的可控图像描述生成系统的结构示意图。
图2是本发明的一种融合眼动注意力的可控图像描述生成系统中transformer模型的预训练方法和迁移至语言描述生成模块的示意图。
图3是本发明的一种融合眼动注意力的可控图像描述生成方法的工作流程图。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹列举以下实施例,并配合附图详细说明如下:
本发明中如下英文单词及英文缩写中文释义如下:
EfficientNet-B5:以卷积层、批标准化层、激活层和平均池化层为主要组成部分的深度神经网络,主要用于图像特征的提取。
Transformer模型:利用自注意力机制,由编码器模块和解码器模块构成的最初用于机器翻译的深度神经网络。
Dropout层:在深度学习训练时所采用的一种神经网络层,其通过将一半的特征值置零,从而减少过拟合现象。
XLNet模型:采用双流自注意力机制,基于标准transformer模型进行改进的文本特征提取模型。
FFN:多层前馈神经网络,由2层或3层全连接层和Relu激活函数构成。
SoftMax层:使用softmax函数将特征值输出转换为范围在[0,1]和为1的概率分布的一种神经网络层。
AR眼镜:增强现实眼镜,一种眼镜形式的将虚拟信息与真实世界融合的硬件设备。
ImageNet:用于计算机视觉研究的大型自然图像公开数据集。
CC-NEWS、OPENWEBTEXT、STORIES、BOOKCORPUS,文本公开数据集。
Conceptual Captions:为图像文本跨模态领域的公开数据集。
Conv:卷积层。
Linear:线性层,也称为全连接层,通过可训练的权重矩阵与偏置矩阵对输入矩阵进行特征提取并改变输入矩阵的特征大小。
请参见图1至图3,一种融合眼动注意力的可控图像描述生成系统,包括:依次相连的图像采集模块、图像预处理模块及图像显示模块;依次相连的眼图采集模块及眼动坐标识别模块;分别与图像预处理模块和眼动坐标识别模块相连的特征融合模块,与特征融合模块相连的语言描述生成模块;
图像采集模块用于实时采集环境图像;
图像预处理模块用于对采集的环境图像进行预处理;
图像显示模块用于显示经过预处理后的环境图像;
眼图采集模块用于通过AR眼镜采集一段时间内用户的眼灰度图像序列并保存;
眼动坐标识别模块用于对采集的眼灰度图像序列进行注视角度识别,并将注视角度转化为与环境图像相对应的以像素为单位的二维坐标值序列;
特征融合模块用于提取文本特征、图像特征及眼动坐标识别模块输出数据的眼动特征,并将文本特征、图像特征及眼动特征进行融合生成多模态特征;
语言描述生成模块用于由多模态特征生成文本信息。
优选地,图像显示模块可用于通过AR眼镜向用户显示实时采集的环境图像及由语言描述生成模块生成的文本信息。
图像显示模块可包含具有显示功能的AR眼镜;图像采集模块可包含具有拍摄功能的RGB相机以及计算单元和存储单元;眼图采集模块可包括两个红外摄像头;眼动坐标识别模块可包含计算单元和存储单元以及基于三维建模的注视跟踪算法模块。图像采集模块、图像显示模块与眼图采集模块可共用AR眼镜。
优选地,图像预处理模块可对采集的环境图像进行缩放、剪裁和像素归一化预处理。
优选地,特征融合模块可包括:特征拼接模块及分别与其连接的文本特征提取模块、图像特征提取模块、眼动序列处理模块。
文本特征提取模块可用于对上一时刻语言描述生成模块生成的文本信息进行特征提取。
图像特征提取模块可用于对输入图像进行特征提取,并将三维的图像特征展开为二维形式。
眼动序列处理模块可用于将二维坐标值序列转化为二维高斯分布图。
特征拼接模块可用于将文本特征提取模块、图像特征提取模块及眼动序列处理模块三者的输出进行拼接,生成多模态特征。
特征拼接模块根据图像特征图的大小计算其二维位置特征图,并与图像特征相加求和,然后进行像素维度的特征展开为一维图像特征,将一维图像特征和文本特征进行拼接。
优选地,在文本特征提取模块与特征拼接模块之间还可设有全连接层;全连接层可用于对文本特征提取模块输出的文本特征长度进行调整。
优选地,文本特征提取模型可包括采用公共数据集完成预训练的XLNet模型,能够根据上下文生成动态的文本特征表示。XLNet模型的预训练采用了总计160G训练文本,包括公共数据集CC-NEWS、OPENWEBTEXT、STORIES、BOOKCORPUS和维基百科。
优选地,图像特征提取模型可包括采用公共数据集完成预训练的EfficientNet-B5模型,用于生成环境图像的二维特征图。EfficientNet-B5模型的预训练采用了ImageNet数据集。
优选地,语言描述生成模块可包括Transformer模型。
优选地,Transformer模型可包括编码器及解码器,编码器及解码器均包括六层多头注意力模块;其中每层多头注意力模块可包括依次连接的八头自注意力层、Dropout层A、标准化层A、全连接层A、激活函数层、Dropout层B、全连接层B、Dropout层C及标准化层B。
Dropout层A、Dropout层B、Dropout层C等均为Dropout层;全连接层A、全连接层B等均为全连接层;标准化层A、标准化层B等均为标准化层。后附加的英文编号便于区分。
优选地,还可包括多层前馈神经网络及softmax层;多层前馈神经网络可用于对Transformer模型输出特征的长度进行调整,softmax层可用于对多层前馈神经网络输出特征的置信度进行标准化处理。
本发明还提供了一种利用上述的融合眼动注意力的可控图像描述生成系统的融合眼动注意力的可控图像描述生成方法,该方法包括如下步骤:
步骤1,利用预训练方法,基于图像文本跨模态公开数据集,对语言描述生成模块进行预训练。
步骤2,利用用户眼动实验数据对语言描述生成模块进行微调训练。
步骤3,图像采集模块与眼动采集模块同步采集数据。
步骤4,图像预处理模块对采集的环境图像进行预处理;图像显示模块将预处理后的环境图像输入至AR设备进行显示。
步骤5,由用户确认环境图像是否正确;如果环境图像正确则保存环境图像并进行步骤6,否则重复步骤3至步骤4。
步骤6,眼动坐标识别模块对采集的眼灰度图像序列进行眼动坐标识别,生成二维高斯分布图。
步骤7,特征融合模块提取文本特征、图像特征及眼动特征并融合生成多模态特征。
步骤8,语言描述生成模块将多模态特征转换生成文本信息。
步骤9,由用户确认生成的文本信息是否正确;如果正确则输出文本信息,否则重复步骤3至步骤8。
优选地,步骤1可包括如下分步骤:
步骤1-1,基于图像文本跨模态公开数据集编制图像文本对样本集,将图像文本对样本集中的15%的文本单词进行标记,其中的80%为特殊的标记,10%为随机标记,10%为原始标记。
步骤1-2,将图像文本对样本集分为训练集和测试集。
步骤1-3,采用训练集对语言描述生成模块进行训练。
步骤1-4,将测试集数据输入至训练完成的语言描述生成模块,并由语言描述生成模块生成文本信息;采用训练集进行模型训练,采用文本特征提取模型和图像特征提取模型分别对输入文本和图像进行特征提取,根据图像特征图的大小计算其二维位置特征图,并与图像特征相加求和,然后进行像素维度的特征展开为一维图像特征,将一维图像特征和文本特征进行拼接后输入transformer模型,得到融合的特征表达,通过多层前馈神经网络和softmax层的计算,输出[MASK]标记所对应的预测结果。
步骤1-5,计算语言描述生成模块生成的文本信息与标记所对应的真实值之间的损失,根据损失通过反向传播机制更新并优化语言描述生成模块的参数值。
步骤1-6,重复步骤1-4至步骤1-5直至语言描述生成模块精度达到预定目标。
优选地,步骤2可包括如下方法步骤:
步骤2-1,将包含眼动数据的图像文本数据集分为训练集和验证集。
步骤2-2,将训练集数据作为输入,采用眼动序列处理模块、文本特征提取模型和图像特征提取模型分别对输入眼动序列、文本和图像进行特征提取,根据图像特征图的大小计算其二维位置特征图,并与图像特征和眼动特征分别相加求和,然后对图像特征和眼动特征进行像素维度的特征展开为一维特征,将一维图像特征、眼动特征和文本特征进行拼接后输入transformer模型,得到融合的特征表达,通过多层前馈神经网络和softmax层的计算,根据softmax输出最大值的索引值,在词表中查找对应单词,输出预测结果。
步骤2-3,计算语言描述生成模块生成的文本信息与所对应的真实值之间的损失,根据损失通过反向传播机制更新并优化语言描述生成模块的参数值。
步骤2-4,将验证集数据作为输入,采用眼动序列处理模块、文本特征提取模型和图像特征提取模型分别对输入眼动序列、文本和图像进行特征提取,根据图像特征图的大小计算其二维位置特征图,并与图像特征和眼动特征分别相加求和,然后对图像特征和眼动特征进行像素维度的特征展开为一维特征,将一维图像特征、眼动特征和文本特征进行拼接后输入transformer模型,得到融合的特征表达,通过多层前馈神经网络和softmax层的计算,根据softmax输出最大值的索引值,在词表中查找对应单词,输出预测结果,计算模型精度。
步骤2-5,重复步骤2-2至步骤2-4直至语言描述生成模块精度达到预定目标。
下面以本发明的一个优选实施例来进一步说明本发明的工作流程及工作原理:
一种融合眼动注意力的可控图像描述生成系统,其特征在于,包括:依次相连的图像采集模块、图像预处理模块及图像显示模块;依次相连的眼图采集模块及眼动坐标识别模块;分别与图像预处理模块和眼动坐标识别模块相连的特征融合模块,与特征融合模块相连的语言描述生成模块;与语言描述生成模块连接的多层前馈神经网络,与多层前馈神经网络连接的softmax层。
图像显示模块用于通过AR眼镜向用户显示实时采集的环境图像,从而便于用户确定图像采集的内容和质量,并且向用户展示语言描述生成模块生成的结果文本,便于用户进行输出结果的确认。
图像采集模块用于实时采集用户正前方的环境图像,并对图像进行预处理,包括缩放和像素归一化,随后进行随机缩放、裁剪,用于实现输入图像的多样性,并进行图像的保存和记录;
眼图采集模块用于通过AR眼镜采集一段时间内用户的近距离双眼灰度图像序列,并进行保存和记录;
眼动坐标识别模块用于对一段时间内用户的近距离双眼灰度图像序列进行注视角度识别,并将其转化为与自然图像相对应的以像素为单位的二维坐标值序列;
特征融合模块用于提取文本特征、图像特征及眼动坐标识别模块输出数据的眼动特征,并将文本特征、图像特征及眼动特征进行融合生成多模态特征;
语言描述生成模块包括Transformer模型,其用于对特征融合模块输出的多模态特征进行处理,生成可控图像描述的文本描述信息。
多层前馈神经网络用于输出特征的长度调整,softmax层用于输出置信度的标准化。
特征融合模块包括:特征拼接模块及分别与其连接的文本特征提取模块、图像特征提取模块、眼动序列处理模块;文本特征提取模块用于对上一时刻语言描述生成模块生成的文本信息进行特征提取;图像特征提取模块用于对输入图像进行特征提取,并将三维的图像特征展开为二维形式;眼动序列处理模块用于将二维坐标值序列转化为二维高斯分布图;特征拼接模块用于将文本特征提取模块、图像特征提取模块及眼动序列处理模块三者的输出进行拼接,生成多模态特征。
特征融合模块包括依次连接的文本特征提取模型、全连接层,依次连接的图像特征提取模型、卷积层,依次连接的眼动序列处理模块、卷积层。
眼动序列处理模块用于将坐标值形式的眼动序列转化为二维的高斯图表示,其中高斯图的均值为某一时刻的眼动坐标点(a,b),a表示眼动坐标点的横坐标值,b表示眼动坐标点的纵坐标值。方差设定为1,高斯图中的像素点符合二维正态分布,即:
(x,y)表示高斯图中的像素坐标,f(x,y)为像素坐标(x,y)对应的坐标值。x的取值在0至w之间。y的取值在0至h之间。w为输入图像的宽,h为输入图像的高。每个像素坐标(x,y)都有一个对应的坐标值f(x,y)。
Transformer模型的图像文本预训练方法:
Transformer模型的预训练方法,包括如下步骤:
步骤A,将公开的图像文本数据集Conceptual Captions数据集总计约3兆图像及其文本描述对,分为训练集和测试集,并统计所有文本数据中出现的单词,形成预训练词表。
步骤B,将数据集中的文本序列之前添加标记[SEP],文本结尾添加标记[STOP]。另外将15%的文本单词标记为特殊的[MASK]标记、随机标记或原始标记,概率分别为80%、10%和10%。
步骤C,采用训练集进行模型训练,采用文本特征提取模型和图像特征提取模型分别对输入文本和图像进行特征提取,根据图像特征图的大小计算其二维位置特征图,并与图像特征相加求和,然后进行像素维度的特征展开为一维图像特征,将一维图像特征和文本特征进行拼接后输入transformer模型,得到融合的特征表达,通过多层前馈神经网络和softmax层的计算,输出[MASK]标记所对应的预测结果,即为与词表中每个单词对应的概率值列表,取概率值最大的单词为输出结果;其中,文本特征提取模型可包括采用公共数据集完成预训练的XLNet模型,图像特征提取模型可包括采用公共数据集完成预训练的EfficientNet-B5模型。
步骤D,根据预测结果和[MASK]标记所对应的真实值计算损失函数,通过反向传播机制结合Adam优化器更新并优化transformer模型的参数值,学习率为3e-4,批处理大小优选为512,并重复步骤3至设定的训练轮次,优选为30轮;其中,损失函数为交叉熵损失,即为:
其中,N表示样本的个数,C表示词表中单词个数。yij表示第i个样本是否属于第j类,即为0或1。而pij表示输出结果中i样本预测为第j类的概率值,取值范围是[0,1]。
步骤E,采用测试集对transformer模型进行性能测试。
上述的图像采集模块、图像预处理模块、图像显示模块、眼图采集模块、眼动坐标识别模块、AR眼镜、特征融合模块、语言描述生成模块、RGB相机、红外摄像头、注视跟踪算法模块、transformer模型、特征拼接模块、文本特征提取模块、图像特征提取模块、眼动序列处理模块、自注意力层、Dropout层、标准化层、全连接层A、激活函数层、多层前馈神经网络及softmax层等均可采用现有技术中的装置及功能模块,或采用采用现有技术中的装置、功能模块及软件系统并采用常规技术手段构造。
以上所述的实施例仅用于说明本发明的技术思想及特点,其目的在于使本领域内的技术人员能够理解本发明的内容并据以实施,不能仅以本实施例来限定本发明的专利范围,即凡本发明所揭示的精神所作的同等变化或修饰,仍落在本发明的专利范围内。
Claims (10)
1.一种融合眼动注意力的可控图像描述生成系统,其特征在于,包括:依次相连的图像采集模块、图像预处理模块及图像显示模块;依次相连的眼图采集模块及眼动坐标识别模块;分别与图像预处理模块和眼动坐标识别模块相连的特征融合模块,与特征融合模块相连的语言描述生成模块;
图像采集模块用于实时采集环境图像;
图像预处理模块用于对采集的环境图像进行预处理;
图像显示模块用于显示经过预处理后的环境图像;
眼图采集模块用于通过AR眼镜采集一段时间内用户的眼灰度图像序列并保存;
眼动坐标识别模块用于对采集的眼灰度图像序列进行注视角度识别,并将注视角度转化为与环境图像相对应的以像素为单位的二维坐标值序列;
特征融合模块用于提取文本特征、图像特征及眼动坐标识别模块输出数据的眼动特征,并将文本特征、图像特征及眼动特征进行融合生成多模态特征;
其中,所述特征融合模块包括:特征拼接模块及分别与其连接的文本特征提取模块、图像特征提取模块、眼动序列处理模块;
文本特征提取模块用于对上一时刻语言描述生成模块生成的文本信息进行特征提取;
图像特征提取模块用于对输入图像进行特征提取,并将三维的图像特征展开为二维形式;
眼动序列处理模块用于将二维坐标值序列转化为二维高斯分布图;其中高斯图的均值为某一时刻的眼动坐标点(a,b),a表示眼动坐标点的横坐标值,b表示眼动坐标点的纵坐标值;方差设定为1,高斯图中的像素点符合二维正态分布,即:
(x,y)表示高斯图中的像素坐标,f(x,y)为像素坐标(x,y)对应的坐标值;x的取值在0至w之间;y的取值在0至h之间;w为输入图像的宽,h为输入图像的高;每个像素坐标(x,y)都有一个对应的坐标值f(x,y);
特征拼接模块用于将文本特征提取模块、图像特征提取模块及眼动序列处理模块三者的输出进行拼接,生成多模态特征;
语言描述生成模块用于由多模态特征生成文本信息。
2.根据权利要求1所述的融合眼动注意力的可控图像描述生成系统,其特征在于,图像采集模块包括RGB相机;眼图采集模块包括两个红外摄像头;眼动坐标识别模块包括基于三维建模的注视跟踪算法模块。
3.根据权利要求1所述的融合眼动注意力的可控图像描述生成系统,其特征在于,图像显示模块用于通过AR眼镜向用户显示实时采集的环境图像及由语言描述生成模块生成的文本信息。
4.根据权利要求1所述的融合眼动注意力的可控图像描述生成系统,其特征在于,图像预处理模块对采集的环境图像进行缩放、剪裁和像素归一化预处理。
5.根据权利要求1所述的融合眼动注意力的可控图像描述生成系统,其特征在于,在文本特征提取模块与特征拼接模块之间还设有全连接层;全连接层用于对文本特征提取模块输出的文本特征长度进行调整。
6.根据权利要求1所述的融合眼动注意力的可控图像描述生成系统,其特征在于,语言描述生成模块包括Transformer模型。
7.根据权利要求6所述的融合眼动注意力的可控图像描述生成系统,其特征在于,Transformer模型包括编码器及解码器,编码器及解码器均包括六层多头注意力模块;其中每层多头注意力模块包括依次连接的八头自注意力层、Dropout层A、标准化层A、全连接层A、激活函数层、Dropout层B、全连接层B、Dropout层C及标准化层B。
8.根据权利要求6所述的融合眼动注意力的可控图像描述生成系统,其特征在于,还包括多层前馈神经网络及softmax层;多层前馈神经网络用于对Transformer模型输出特征的长度进行调整,softmax层用于对多层前馈神经网络输出特征的置信度进行标准化处理。
9.一种利用权利要求1至8任一所述的融合眼动注意力的可控图像描述生成系统的融合眼动注意力的可控图像描述生成方法,其特征在于,该方法包括如下步骤:
步骤1,利用预训练方法,基于图像文本跨模态公开数据集,对语言描述生成模块进行预训练;
步骤2,利用用户眼动实验数据对语言描述生成模块进行微调训练;
步骤3,图像采集模块与眼动采集模块同步采集数据;
步骤4,图像预处理模块对采集的环境图像进行预处理;图像显示模块将预处理后的环境图像输入至AR设备进行显示;
步骤5,由用户确认环境图像是否正确;如果环境图像正确则保存环境图像并进行步骤6,否则重复步骤3至步骤4;
步骤6,眼动坐标识别模块对采集的眼灰度图像序列进行眼动坐标识别,生成二维高斯分布图;
步骤7,特征融合模块提取文本特征、图像特征及眼动特征并融合生成多模态特征;
步骤8,语言描述生成模块将多模态特征转换生成文本信息;
步骤9,由用户确认生成的文本信息是否正确;如果正确则输出文本信息,否则重复步骤3至步骤8。
10.根据权利要求9所述的融合眼动注意力的可控图像描述生成方法,其特征在于,步骤1包括如下分步骤:
步骤1-1,基于图像文本跨模态公开数据集编制图像文本对样本集,将图像文本对样本集中的15%的文本单词进行标记,其中的80%为特殊的标记,10%为随机标记,10%为原始标记;
步骤1-2,将图像文本对样本集分为训练集和测试集;
步骤1-3,采用训练集对语言描述生成模块进行训练;
步骤1-4,将测试集数据输入至训练完成的语言描述生成模块,并由语言描述生成模块生成文本信息;
步骤1-5,计算语言描述生成模块生成的文本信息与标记所对应的真实值之间的损失,根据损失通过反向传播机制更新并优化语言描述生成模块的参数值;
步骤1-6,重复步骤1-4至步骤1-5直至语言描述生成模块精度达到预定目标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211731584.0A CN116185182B (zh) | 2022-12-30 | 2022-12-30 | 一种融合眼动注意力的可控图像描述生成系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211731584.0A CN116185182B (zh) | 2022-12-30 | 2022-12-30 | 一种融合眼动注意力的可控图像描述生成系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116185182A CN116185182A (zh) | 2023-05-30 |
CN116185182B true CN116185182B (zh) | 2023-10-03 |
Family
ID=86451668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211731584.0A Active CN116185182B (zh) | 2022-12-30 | 2022-12-30 | 一种融合眼动注意力的可控图像描述生成系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116185182B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126282A (zh) * | 2019-12-25 | 2020-05-08 | 中国矿业大学 | 一种基于变分自注意力强化学习的遥感图像内容描述方法 |
CN111967334A (zh) * | 2020-07-20 | 2020-11-20 | 中国人民解放军军事科学院国防科技创新研究院 | 一种人体意图识别方法、系统以及存储介质 |
CN114821753A (zh) * | 2022-04-23 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于视觉图像信息的眼动交互系统 |
CN115171838A (zh) * | 2022-08-24 | 2022-10-11 | 中南大学 | 基于跨模态融合的医学报告生成模型的训练方法 |
CN115237255A (zh) * | 2022-07-29 | 2022-10-25 | 天津大学 | 一种基于眼动和语音的自然图像共指目标定位系统及方法 |
CN115512195A (zh) * | 2022-09-28 | 2022-12-23 | 淮阴工学院 | 一种基于多交互信息融合的图像描述方法 |
-
2022
- 2022-12-30 CN CN202211731584.0A patent/CN116185182B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126282A (zh) * | 2019-12-25 | 2020-05-08 | 中国矿业大学 | 一种基于变分自注意力强化学习的遥感图像内容描述方法 |
CN111967334A (zh) * | 2020-07-20 | 2020-11-20 | 中国人民解放军军事科学院国防科技创新研究院 | 一种人体意图识别方法、系统以及存储介质 |
CN114821753A (zh) * | 2022-04-23 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于视觉图像信息的眼动交互系统 |
CN115237255A (zh) * | 2022-07-29 | 2022-10-25 | 天津大学 | 一种基于眼动和语音的自然图像共指目标定位系统及方法 |
CN115171838A (zh) * | 2022-08-24 | 2022-10-11 | 中南大学 | 基于跨模态融合的医学报告生成模型的训练方法 |
CN115512195A (zh) * | 2022-09-28 | 2022-12-23 | 淮阴工学院 | 一种基于多交互信息融合的图像描述方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116185182A (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN112949622B (zh) | 融合文本与图像的双模态性格分类方法及装置 | |
WO2023020005A1 (zh) | 神经网络模型的训练方法、图像检索方法、设备和介质 | |
CN112132197A (zh) | 模型训练、图像处理方法、装置、计算机设备和存储介质 | |
CN109711356B (zh) | 一种表情识别方法和系统 | |
CN110796018A (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
CN113743544A (zh) | 一种跨模态神经网络构建方法、行人检索方法及系统 | |
CN114120432A (zh) | 基于视线估计的在线学习注意力跟踪方法及其应用 | |
CN113792177A (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN114897039A (zh) | 一种数据处理方法及相关设备 | |
CN116524593A (zh) | 一种动态手势识别方法、系统、设备及介质 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN116597267B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN113449564B (zh) | 基于人体局部语义知识的行为图像分类方法 | |
CN116185182B (zh) | 一种融合眼动注意力的可控图像描述生成系统及方法 | |
CN116258931B (zh) | 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统 | |
CN116958740A (zh) | 基于语义感知和自适应对比学习的零样本目标检测方法 | |
CN116311518A (zh) | 一种基于人体交互意图信息的层级人物交互检测方法 | |
CN113420783B (zh) | 一种基于图文匹配的智能人机交互方法及装置 | |
CN113052156B (zh) | 光学字符识别方法、装置、电子设备和存储介质 | |
CN112487951B (zh) | 一种手语识别和翻译方法 | |
Wan et al. | Dynamic Gesture Recognition Based on Three-Stream Coordinate Attention Network and Knowledge Distillation | |
CN117916773A (zh) | 用于在移动设备中同时重建姿态和参数化3d人体模型的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |