CN116185182B

CN116185182B - 一种融合眼动注意力的可控图像描述生成系统及方法

Info

Publication number: CN116185182B
Application number: CN202211731584.0A
Authority: CN
Inventors: 张珺倩; 黄如强; 杨超; 王宁慈; 于文东; 张久松; 耿震; 孟祥轶; 任晓琪
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-10-03
Anticipated expiration: 2042-12-30
Also published as: CN116185182A

Abstract

本发明公开了一种融合眼动注意力的可控图像描述生成系统，包括：依次相连的图像采集模块、图像预处理模块及图像显示模块；依次相连的眼图采集模块及眼动坐标识别模块；分别与图像预处理模块和眼动坐标识别模块相连的特征融合模块，与特征融合模块相连的语言描述生成模块；特征融合模块用于提取文本特征、图像特征及眼动坐标识别模块输出数据的眼动特征，并融合生成多模态特征；语言描述生成模块用于由多模态特征生成文本信息。本发明还公开了一种融合眼动注意力的可控图像描述生成方法。本发明不仅融合了眼动信息，且形成了真实可行的人机交互系统，基于AR眼镜设备，达到描述主体可控的交互效果。

Description

一种融合眼动注意力的可控图像描述生成系统及方法

技术领域

本发明涉及一种人机交互的系统及方法，特别涉及一种融合眼动注意力的可控图像描述生成系统及方法。

背景技术

目前，随着人机交互技术的发展，交互方式不再局限于单一模态，跨模态的人机交互能够为机器赋予更加智能的环境理解能力，例如自动图像描述生成系统。图像描述生成任务是机器智能的基础，其同时结合了计算机视觉技术和自然语言处理技术，将自然图像形式的环境信息通过算法模型转换为自然语言的形式，不仅能够服务于后续多种人机协同任务，而且能够帮助人类用户全面便捷地理解环境信息。然而自然图像往往信息含量丰富多样，长度有限的文本形式难以涵盖所有的视觉特征，难以避免会忽略掉一些用户需要的信息。而人机交互过程中的信息交换需要有所侧重，提高图像描述生成的可控性便尤为重要。进一步地，当描述对象具体至某个特征物体时，生成文本能够将语义信息聚焦其中，获得更加准确的文本描述。

同时,随着视线估计与视线跟踪技术的发展成熟,眼动信息作为人机交互技术中主要的输入模态之一,越来越多地被应用于人类意图理解的相关研究中,特别是与计算机视觉领域相关的跨模态任务。在交互情景中,用户希望获取感兴趣物体的具体描述信息时，往往会注视图像场景中的目标物体。然而，现有的人机交互系统一般采用接触式按键交互输入或者语音输入等单模态的数据输入形式，交互效率低，极大影响系统性能和用户体验。对于多模态信息表达用户意图，特别是眼动信息和增强现实(AR)眼镜等设备利用较少。

现有的可控图像描述生成方法中，包含对输出文本结构的控制以及对文本所描述的图像区域的选择，控制信号的加入能够反映细粒度的用户意图，使生成的文本结语义信息更加丰富和多样化。然而现有研究难以应用于现实的交互场景，特别是对于无法发声的特殊人群，指定目标词语的方法依赖于手动输入，降低了交互效率；而指定图像目标区域的方法依赖于预训练的目标检测模型进行目标区域的分割和提取图像特征。且以上方法均局限于理论研究，而缺乏整体交互系统的建立和设计，不利于真实场景的应用实践。

发明内容

本发明为解决公知技术中存在的技术问题而提供一种融合眼动注意力的可控图像描述生成系统及方法。

本发明为解决公知技术中存在的技术问题所采取的技术方案是：一种融合眼动注意力的可控图像描述生成系统，包括：依次相连的图像采集模块、图像预处理模块及图像显示模块；依次相连的眼图采集模块及眼动坐标识别模块；分别与图像预处理模块和眼动坐标识别模块相连的特征融合模块，与特征融合模块相连的语言描述生成模块；

图像采集模块用于实时采集环境图像；

图像预处理模块用于对采集的环境图像进行预处理；

图像显示模块用于显示经过预处理后的环境图像；

眼图采集模块用于通过AR眼镜采集一段时间内用户的眼灰度图像序列并保存；

眼动坐标识别模块用于对采集的眼灰度图像序列进行注视角度识别，并将注视角度转化为与环境图像相对应的以像素为单位的二维坐标值序列；

特征融合模块用于提取文本特征、图像特征及眼动坐标识别模块输出数据的眼动特征，并将文本特征、图像特征及眼动特征进行融合生成多模态特征；

语言描述生成模块用于由多模态特征生成文本信息。

进一步地，图像采集模块包括RGB相机；眼图采集模块包括两个红外摄像头；眼动坐标识别模块包括基于三维建模的注视跟踪算法模块。

进一步地，图像显示模块用于通过AR眼镜向用户显示实时采集的环境图像及由语言描述生成模块生成的文本信息。

进一步地，图像预处理模块对采集的环境图像进行缩放、剪裁和像素归一化预处理。

进一步地，特征融合模块包括：特征拼接模块及分别与其连接的文本特征提取模块、图像特征提取模块、眼动序列处理模块；

文本特征提取模块用于对上一时刻语言描述生成模块生成的文本信息进行特征提取；

图像特征提取模块用于对输入图像进行特征提取，并将三维的图像特征展开为二维形式；

眼动序列处理模块用于将二维坐标值序列转化为二维高斯分布图；

特征拼接模块用于将文本特征提取模块、图像特征提取模块及眼动序列处理模块三者的输出进行拼接，生成多模态特征。

进一步地，在文本特征提取模块与特征拼接模块之间还设有全连接层；全连接层用于对文本特征提取模块输出的文本特征长度进行调整。

进一步地，语言描述生成模块包括Transformer模型。

进一步地，Transformer模型包括编码器及解码器，编码器及解码器均包括六层多头注意力模块；其中每层多头注意力模块包括依次连接的八头自注意力层、Dropout层A、标准化层A、全连接层A、激活函数层、Dropout层B、全连接层B、Dropout层C及标准化层B。

进一步地，还包括多层前馈神经网络及softmax层；多层前馈神经网络用于对Transformer模型输出特征的长度进行调整，softmax层用于对多层前馈神经网络输出特征的置信度进行标准化处理。

本发明还提供了一种利用上述的融合眼动注意力的可控图像描述生成系统的融合眼动注意力的可控图像描述生成方法，该方法包括如下步骤：

步骤1，利用预训练方法，基于图像文本跨模态公开数据集，对语言描述生成模块进行预训练；

步骤2，利用用户眼动实验数据对语言描述生成模块进行微调训练；

步骤3，图像采集模块与眼动采集模块同步采集数据；

步骤4，图像预处理模块对采集的环境图像进行预处理；图像显示模块将预处理后的环境图像输入至AR设备进行显示；

步骤5，由用户确认环境图像是否正确；如果环境图像正确则保存环境图像并进行步骤6，否则重复步骤3至步骤4；

步骤6，眼动坐标识别模块对采集的眼灰度图像序列进行眼动坐标识别，生成二维高斯分布图；

步骤7，特征融合模块提取文本特征、图像特征及眼动特征并融合生成多模态特征；

步骤8，语言描述生成模块将多模态特征转换生成文本信息；

步骤9，由用户确认生成的文本信息是否正确；如果正确则输出文本信息，否则重复步骤3至步骤8。

进一步地，步骤1包括如下分步骤：

步骤1-1，基于图像文本跨模态公开数据集编制图像文本对样本集，将图像文本对样本集中的15％的文本单词进行标记，其中的80％为特殊的标记，10％为随机标记，10％为原始标记；

步骤1-2，将图像文本对样本集分为训练集和测试集；

步骤1-3，采用训练集对语言描述生成模块进行训练；

步骤1-4，将测试集数据输入至训练完成的语言描述生成模块，并由语言描述生成模块生成文本信息；

步骤1-5，计算语言描述生成模块生成的文本信息与标记所对应的真实值之间的损失，根据损失通过反向传播机制更新并优化语言描述生成模块的参数值；

步骤1-6，重复步骤1-4至步骤1-5直至语言描述生成模块精度达到预定目标。

本发明具有的优点和积极效果是：

1.本发明不仅融合了眼动信息，而且形成了真实可行的人机交互系统，基于AR眼镜设备，达到描述主体可控的交互效果，为可控的图像描述生成提供了可实践的实现方式和解决方案。

2.本发明利用了迁移学习策略，将大规模图像文本数据集中完成训练的模型迁移至本发明的方法中，避免了真实眼动数据量较小导致的模型欠拟合问题。

附图说明

图1是本发明的一种融合眼动注意力的可控图像描述生成系统的结构示意图。

图2是本发明的一种融合眼动注意力的可控图像描述生成系统中transformer模型的预训练方法和迁移至语言描述生成模块的示意图。

图3是本发明的一种融合眼动注意力的可控图像描述生成方法的工作流程图。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹列举以下实施例，并配合附图详细说明如下：

本发明中如下英文单词及英文缩写中文释义如下：

EfficientNet-B5：以卷积层、批标准化层、激活层和平均池化层为主要组成部分的深度神经网络，主要用于图像特征的提取。

Transformer模型：利用自注意力机制，由编码器模块和解码器模块构成的最初用于机器翻译的深度神经网络。

Dropout层：在深度学习训练时所采用的一种神经网络层，其通过将一半的特征值置零，从而减少过拟合现象。

XLNet模型：采用双流自注意力机制，基于标准transformer模型进行改进的文本特征提取模型。

FFN：多层前馈神经网络,由2层或3层全连接层和Relu激活函数构成。

SoftMax层：使用softmax函数将特征值输出转换为范围在[0,1]和为1的概率分布的一种神经网络层。

AR眼镜：增强现实眼镜，一种眼镜形式的将虚拟信息与真实世界融合的硬件设备。

ImageNet：用于计算机视觉研究的大型自然图像公开数据集。

CC-NEWS、OPENWEBTEXT、STORIES、BOOKCORPUS，文本公开数据集。

Conceptual Captions：为图像文本跨模态领域的公开数据集。

Conv：卷积层。

Linear：线性层，也称为全连接层，通过可训练的权重矩阵与偏置矩阵对输入矩阵进行特征提取并改变输入矩阵的特征大小。

请参见图1至图3，一种融合眼动注意力的可控图像描述生成系统，包括：依次相连的图像采集模块、图像预处理模块及图像显示模块；依次相连的眼图采集模块及眼动坐标识别模块；分别与图像预处理模块和眼动坐标识别模块相连的特征融合模块，与特征融合模块相连的语言描述生成模块；

图像采集模块用于实时采集环境图像；

图像预处理模块用于对采集的环境图像进行预处理；

图像显示模块用于显示经过预处理后的环境图像；

语言描述生成模块用于由多模态特征生成文本信息。

优选地，图像显示模块可用于通过AR眼镜向用户显示实时采集的环境图像及由语言描述生成模块生成的文本信息。

图像显示模块可包含具有显示功能的AR眼镜；图像采集模块可包含具有拍摄功能的RGB相机以及计算单元和存储单元；眼图采集模块可包括两个红外摄像头；眼动坐标识别模块可包含计算单元和存储单元以及基于三维建模的注视跟踪算法模块。图像采集模块、图像显示模块与眼图采集模块可共用AR眼镜。

优选地，图像预处理模块可对采集的环境图像进行缩放、剪裁和像素归一化预处理。

优选地，特征融合模块可包括：特征拼接模块及分别与其连接的文本特征提取模块、图像特征提取模块、眼动序列处理模块。

文本特征提取模块可用于对上一时刻语言描述生成模块生成的文本信息进行特征提取。

图像特征提取模块可用于对输入图像进行特征提取，并将三维的图像特征展开为二维形式。

眼动序列处理模块可用于将二维坐标值序列转化为二维高斯分布图。

特征拼接模块可用于将文本特征提取模块、图像特征提取模块及眼动序列处理模块三者的输出进行拼接，生成多模态特征。

特征拼接模块根据图像特征图的大小计算其二维位置特征图，并与图像特征相加求和，然后进行像素维度的特征展开为一维图像特征，将一维图像特征和文本特征进行拼接。

优选地，在文本特征提取模块与特征拼接模块之间还可设有全连接层；全连接层可用于对文本特征提取模块输出的文本特征长度进行调整。

优选地，文本特征提取模型可包括采用公共数据集完成预训练的XLNet模型，能够根据上下文生成动态的文本特征表示。XLNet模型的预训练采用了总计160G训练文本，包括公共数据集CC-NEWS、OPENWEBTEXT、STORIES、BOOKCORPUS和维基百科。

优选地，图像特征提取模型可包括采用公共数据集完成预训练的EfficientNet-B5模型，用于生成环境图像的二维特征图。EfficientNet-B5模型的预训练采用了ImageNet数据集。

优选地，语言描述生成模块可包括Transformer模型。

优选地，Transformer模型可包括编码器及解码器，编码器及解码器均包括六层多头注意力模块；其中每层多头注意力模块可包括依次连接的八头自注意力层、Dropout层A、标准化层A、全连接层A、激活函数层、Dropout层B、全连接层B、Dropout层C及标准化层B。

Dropout层A、Dropout层B、Dropout层C等均为Dropout层；全连接层A、全连接层B等均为全连接层；标准化层A、标准化层B等均为标准化层。后附加的英文编号便于区分。

优选地，还可包括多层前馈神经网络及softmax层；多层前馈神经网络可用于对Transformer模型输出特征的长度进行调整，softmax层可用于对多层前馈神经网络输出特征的置信度进行标准化处理。

步骤1，利用预训练方法，基于图像文本跨模态公开数据集，对语言描述生成模块进行预训练。

步骤2，利用用户眼动实验数据对语言描述生成模块进行微调训练。

步骤3，图像采集模块与眼动采集模块同步采集数据。

步骤4，图像预处理模块对采集的环境图像进行预处理；图像显示模块将预处理后的环境图像输入至AR设备进行显示。

步骤5，由用户确认环境图像是否正确；如果环境图像正确则保存环境图像并进行步骤6，否则重复步骤3至步骤4。

步骤6，眼动坐标识别模块对采集的眼灰度图像序列进行眼动坐标识别，生成二维高斯分布图。

步骤7，特征融合模块提取文本特征、图像特征及眼动特征并融合生成多模态特征。

步骤8，语言描述生成模块将多模态特征转换生成文本信息。

优选地，步骤1可包括如下分步骤：

步骤1-1，基于图像文本跨模态公开数据集编制图像文本对样本集，将图像文本对样本集中的15％的文本单词进行标记，其中的80％为特殊的标记，10％为随机标记，10％为原始标记。

步骤1-2，将图像文本对样本集分为训练集和测试集。

步骤1-3，采用训练集对语言描述生成模块进行训练。

步骤1-4，将测试集数据输入至训练完成的语言描述生成模块，并由语言描述生成模块生成文本信息；采用训练集进行模型训练，采用文本特征提取模型和图像特征提取模型分别对输入文本和图像进行特征提取，根据图像特征图的大小计算其二维位置特征图，并与图像特征相加求和，然后进行像素维度的特征展开为一维图像特征，将一维图像特征和文本特征进行拼接后输入transformer模型，得到融合的特征表达，通过多层前馈神经网络和softmax层的计算，输出[MASK]标记所对应的预测结果。

步骤1-5，计算语言描述生成模块生成的文本信息与标记所对应的真实值之间的损失，根据损失通过反向传播机制更新并优化语言描述生成模块的参数值。

优选地，步骤2可包括如下方法步骤：

步骤2-1，将包含眼动数据的图像文本数据集分为训练集和验证集。

步骤2-2，将训练集数据作为输入，采用眼动序列处理模块、文本特征提取模型和图像特征提取模型分别对输入眼动序列、文本和图像进行特征提取，根据图像特征图的大小计算其二维位置特征图，并与图像特征和眼动特征分别相加求和，然后对图像特征和眼动特征进行像素维度的特征展开为一维特征，将一维图像特征、眼动特征和文本特征进行拼接后输入transformer模型，得到融合的特征表达，通过多层前馈神经网络和softmax层的计算，根据softmax输出最大值的索引值，在词表中查找对应单词，输出预测结果。

步骤2-3，计算语言描述生成模块生成的文本信息与所对应的真实值之间的损失，根据损失通过反向传播机制更新并优化语言描述生成模块的参数值。

步骤2-4，将验证集数据作为输入，采用眼动序列处理模块、文本特征提取模型和图像特征提取模型分别对输入眼动序列、文本和图像进行特征提取，根据图像特征图的大小计算其二维位置特征图，并与图像特征和眼动特征分别相加求和，然后对图像特征和眼动特征进行像素维度的特征展开为一维特征，将一维图像特征、眼动特征和文本特征进行拼接后输入transformer模型，得到融合的特征表达，通过多层前馈神经网络和softmax层的计算，根据softmax输出最大值的索引值，在词表中查找对应单词，输出预测结果，计算模型精度。

步骤2-5，重复步骤2-2至步骤2-4直至语言描述生成模块精度达到预定目标。

下面以本发明的一个优选实施例来进一步说明本发明的工作流程及工作原理：

一种融合眼动注意力的可控图像描述生成系统，其特征在于，包括：依次相连的图像采集模块、图像预处理模块及图像显示模块；依次相连的眼图采集模块及眼动坐标识别模块；分别与图像预处理模块和眼动坐标识别模块相连的特征融合模块，与特征融合模块相连的语言描述生成模块；与语言描述生成模块连接的多层前馈神经网络，与多层前馈神经网络连接的softmax层。

图像显示模块用于通过AR眼镜向用户显示实时采集的环境图像，从而便于用户确定图像采集的内容和质量，并且向用户展示语言描述生成模块生成的结果文本，便于用户进行输出结果的确认。

图像采集模块用于实时采集用户正前方的环境图像，并对图像进行预处理，包括缩放和像素归一化，随后进行随机缩放、裁剪，用于实现输入图像的多样性，并进行图像的保存和记录；

眼图采集模块用于通过AR眼镜采集一段时间内用户的近距离双眼灰度图像序列，并进行保存和记录；

眼动坐标识别模块用于对一段时间内用户的近距离双眼灰度图像序列进行注视角度识别，并将其转化为与自然图像相对应的以像素为单位的二维坐标值序列；

语言描述生成模块包括Transformer模型，其用于对特征融合模块输出的多模态特征进行处理，生成可控图像描述的文本描述信息。

多层前馈神经网络用于输出特征的长度调整，softmax层用于输出置信度的标准化。

特征融合模块包括：特征拼接模块及分别与其连接的文本特征提取模块、图像特征提取模块、眼动序列处理模块；文本特征提取模块用于对上一时刻语言描述生成模块生成的文本信息进行特征提取；图像特征提取模块用于对输入图像进行特征提取，并将三维的图像特征展开为二维形式；眼动序列处理模块用于将二维坐标值序列转化为二维高斯分布图；特征拼接模块用于将文本特征提取模块、图像特征提取模块及眼动序列处理模块三者的输出进行拼接，生成多模态特征。

特征融合模块包括依次连接的文本特征提取模型、全连接层，依次连接的图像特征提取模型、卷积层，依次连接的眼动序列处理模块、卷积层。

眼动序列处理模块用于将坐标值形式的眼动序列转化为二维的高斯图表示，其中高斯图的均值为某一时刻的眼动坐标点(a,b)，a表示眼动坐标点的横坐标值，b表示眼动坐标点的纵坐标值。方差设定为1，高斯图中的像素点符合二维正态分布，即：

(x,y)表示高斯图中的像素坐标，f(x,y)为像素坐标(x,y)对应的坐标值。x的取值在0至w之间。y的取值在0至h之间。w为输入图像的宽，h为输入图像的高。每个像素坐标(x,y)都有一个对应的坐标值f(x,y)。

Transformer模型的图像文本预训练方法：

Transformer模型的预训练方法，包括如下步骤：

步骤A，将公开的图像文本数据集Conceptual Captions数据集总计约3兆图像及其文本描述对，分为训练集和测试集，并统计所有文本数据中出现的单词，形成预训练词表。

步骤B，将数据集中的文本序列之前添加标记[SEP]，文本结尾添加标记[STOP]。另外将15％的文本单词标记为特殊的[MASK]标记、随机标记或原始标记，概率分别为80％、10％和10％。

步骤C，采用训练集进行模型训练，采用文本特征提取模型和图像特征提取模型分别对输入文本和图像进行特征提取，根据图像特征图的大小计算其二维位置特征图，并与图像特征相加求和，然后进行像素维度的特征展开为一维图像特征，将一维图像特征和文本特征进行拼接后输入transformer模型，得到融合的特征表达，通过多层前馈神经网络和softmax层的计算，输出[MASK]标记所对应的预测结果，即为与词表中每个单词对应的概率值列表，取概率值最大的单词为输出结果；其中，文本特征提取模型可包括采用公共数据集完成预训练的XLNet模型，图像特征提取模型可包括采用公共数据集完成预训练的EfficientNet-B5模型。

步骤D，根据预测结果和[MASK]标记所对应的真实值计算损失函数，通过反向传播机制结合Adam优化器更新并优化transformer模型的参数值，学习率为3e^-4，批处理大小优选为512，并重复步骤3至设定的训练轮次，优选为30轮；其中，损失函数为交叉熵损失，即为：

其中，N表示样本的个数，C表示词表中单词个数。y_ij表示第i个样本是否属于第j类，即为0或1。而p_ij表示输出结果中i样本预测为第j类的概率值，取值范围是[0,1]。

步骤E，采用测试集对transformer模型进行性能测试。

上述的图像采集模块、图像预处理模块、图像显示模块、眼图采集模块、眼动坐标识别模块、AR眼镜、特征融合模块、语言描述生成模块、RGB相机、红外摄像头、注视跟踪算法模块、transformer模型、特征拼接模块、文本特征提取模块、图像特征提取模块、眼动序列处理模块、自注意力层、Dropout层、标准化层、全连接层A、激活函数层、多层前馈神经网络及softmax层等均可采用现有技术中的装置及功能模块，或采用采用现有技术中的装置、功能模块及软件系统并采用常规技术手段构造。

以上所述的实施例仅用于说明本发明的技术思想及特点，其目的在于使本领域内的技术人员能够理解本发明的内容并据以实施，不能仅以本实施例来限定本发明的专利范围，即凡本发明所揭示的精神所作的同等变化或修饰，仍落在本发明的专利范围内。

Claims

1.一种融合眼动注意力的可控图像描述生成系统，其特征在于，包括：依次相连的图像采集模块、图像预处理模块及图像显示模块；依次相连的眼图采集模块及眼动坐标识别模块；分别与图像预处理模块和眼动坐标识别模块相连的特征融合模块，与特征融合模块相连的语言描述生成模块；

图像采集模块用于实时采集环境图像；

图像预处理模块用于对采集的环境图像进行预处理；

图像显示模块用于显示经过预处理后的环境图像；

其中，所述特征融合模块包括：特征拼接模块及分别与其连接的文本特征提取模块、图像特征提取模块、眼动序列处理模块；

眼动序列处理模块用于将二维坐标值序列转化为二维高斯分布图；其中高斯图的均值为某一时刻的眼动坐标点(a,b)，a表示眼动坐标点的横坐标值，b表示眼动坐标点的纵坐标值；方差设定为1，高斯图中的像素点符合二维正态分布，即：

(x,y)表示高斯图中的像素坐标，f(x,y)为像素坐标(x,y)对应的坐标值；x的取值在0至w之间；y的取值在0至h之间；w为输入图像的宽，h为输入图像的高；每个像素坐标(x,y)都有一个对应的坐标值f(x,y)；

特征拼接模块用于将文本特征提取模块、图像特征提取模块及眼动序列处理模块三者的输出进行拼接，生成多模态特征；

语言描述生成模块用于由多模态特征生成文本信息。

2.根据权利要求1所述的融合眼动注意力的可控图像描述生成系统，其特征在于，图像采集模块包括RGB相机；眼图采集模块包括两个红外摄像头；眼动坐标识别模块包括基于三维建模的注视跟踪算法模块。

3.根据权利要求1所述的融合眼动注意力的可控图像描述生成系统，其特征在于，图像显示模块用于通过AR眼镜向用户显示实时采集的环境图像及由语言描述生成模块生成的文本信息。

4.根据权利要求1所述的融合眼动注意力的可控图像描述生成系统，其特征在于，图像预处理模块对采集的环境图像进行缩放、剪裁和像素归一化预处理。

5.根据权利要求1所述的融合眼动注意力的可控图像描述生成系统，其特征在于，在文本特征提取模块与特征拼接模块之间还设有全连接层；全连接层用于对文本特征提取模块输出的文本特征长度进行调整。

6.根据权利要求1所述的融合眼动注意力的可控图像描述生成系统，其特征在于，语言描述生成模块包括Transformer模型。

7.根据权利要求6所述的融合眼动注意力的可控图像描述生成系统，其特征在于，Transformer模型包括编码器及解码器，编码器及解码器均包括六层多头注意力模块；其中每层多头注意力模块包括依次连接的八头自注意力层、Dropout层A、标准化层A、全连接层A、激活函数层、Dropout层B、全连接层B、Dropout层C及标准化层B。

8.根据权利要求6所述的融合眼动注意力的可控图像描述生成系统，其特征在于，还包括多层前馈神经网络及softmax层；多层前馈神经网络用于对Transformer模型输出特征的长度进行调整，softmax层用于对多层前馈神经网络输出特征的置信度进行标准化处理。

9.一种利用权利要求1至8任一所述的融合眼动注意力的可控图像描述生成系统的融合眼动注意力的可控图像描述生成方法，其特征在于，该方法包括如下步骤：

步骤3，图像采集模块与眼动采集模块同步采集数据；

步骤8，语言描述生成模块将多模态特征转换生成文本信息；

10.根据权利要求9所述的融合眼动注意力的可控图像描述生成方法，其特征在于，步骤1包括如下分步骤：

步骤1-2，将图像文本对样本集分为训练集和测试集；

步骤1-3，采用训练集对语言描述生成模块进行训练；