CN115793862B

CN115793862B - 一种图像目标隐式标注方法、系统、电子设备及存储介质

Info

Publication number: CN115793862B
Application number: CN202310013065.9A
Authority: CN
Inventors: 林健; 陈鹏飞
Original assignee: Dongyun Ruilian Wuhan Computing Technology Co ltd
Current assignee: Dongyun Ruilian Wuhan Computing Technology Co ltd
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-04-28
Anticipated expiration: 2043-01-05
Also published as: CN115793862A

Abstract

本发明提供一种图像目标隐式标注方法、系统、电子设备及存储介质，方法包括：基于目标图像实时获取用户的视线轨迹数据和用户操作行为数据；基于用户操作行为数据，提取用户的鼠标轨迹数据、决策时长和决策结论；基于视线轨迹数据和鼠标轨迹数据，获取目标图像中标注目标的目标坐标预测值；基于决策时长、决策结论和目标坐标预测值，输出目标图像的标注结果。本发明通过获取用户的视线轨迹数据和鼠标轨迹数据，得到决策时长、决策结论和目标坐标预测值并输出标注结果，从而可以充分获取用户对软件推理结果的反馈中的隐式信息，将上述隐式信息应用于图像标注中，对标注结果进行进一步的完善，大大地提高了图像的标注效率。

Description

一种图像目标隐式标注方法、系统、电子设备及存储介质

技术领域

本发明涉及图像标注技术领域，更具体地，涉及一种图像目标隐式标注方法、系统、电子设备及存储介质。

背景技术

基于人工智能的图像、视频监控与分析软件在智慧城市、工业检测、行政执法等领域得到了广泛的应用。这类软件使用的人工智能算法主要是以卷积神经网络（Convolutional Neural Networks，CNN）为代表的机器视觉算法。这类算法的实施过程一般分为训练和推理两个阶段。在训练阶段，算法以大量经过标注的图像为输入，经过训练引擎的迭代计算，产生承载智能的神经网络模型；在推理阶段，推理引擎加载神经网络模型，并接收未经标注的新图像，进而计算生成描述图像的标签数据。这里所说的“标注”，是指用特定的数据结构来描述图像中用户所关心的语义的过程。以目标检测算法为例，标注过程是指用矩形框标定图像中的目标区域，并用标签加以描述。神经网络模型的精度是决定软件应用效果的关键，而精度很大程度上取决于训练阶段输入的已标注图像及其标签的数量和质量。

通常情况下，对训练图像的标注属于劳动密集型工作，需要雇佣专人完成。因为这一工作是有意为之，所以可称其为“显式”（explicit）标注模式。显式标注模式具有费时费力的缺点，也无法满足应用场景变化对神经网络模型迭代更新的需求。然而可以注意到，在软件实际应用过程中，用户或多或少会对软件的推理结果做出一定的反馈，例如基于正确的结果做出下一步决策，或者对错误的结果执行修正或忽略操作。事实上，用户的这些行为蕴含了一定的带外（out-of-band）信息，可以认为是对当前输入图像的一种无意识的标注操作。因此，这类操作可称为一种“隐式”（implicit）标注模式。因此，如何利用这些隐式信息进一步提高图像的标注效率是亟待解决的问题。

发明内容

本发明针对现有技术中存在的技术问题，提供一种图像目标隐式标注方法、系统、电子设备及存储介质，用以解决如何利用这些隐式信息进一步提高图像的标注效率的问题。

根据本发明的第一方面，提供了一种图像目标隐式标注方法，包括：

基于目标图像实时获取用户的视线轨迹数据和用户操作行为数据；

基于所述用户操作行为数据，提取所述用户的鼠标轨迹数据、决策时长和决策结论；

基于所述视线轨迹数据和所述鼠标轨迹数据，获取所述目标图像中标注目标的目标坐标预测值；

基于所述决策时长、所述决策结论和所述目标坐标预测值，输出所述目标图像的标注结果。

在上述技术方案的基础上，本发明还可以作出如下改进。

优选的，所述基于目标图像实时获取用户的视线轨迹数据的步骤，包括：

基于目标图像实时获取用户的视线图像，并基于其对应的人脸区域定位，得到人脸区域坐标；

基于所述人脸区域坐标进行眼部关键点检测，得到眼部轮廓关键点坐标；

基于所述眼部轮廓关键点坐标进行瞳孔特征检测，得到瞳孔特征向量；

基于所述瞳孔特征向量与所述目标图像对应的二维坐标系，构建坐标映射函数；

基于所述瞳孔特征向量和所述坐标映射函数，构建视线轨迹数据。

优选的，所述坐标映射函数为：

；

其中，视线在所述目标图像对应的二维坐标系中的坐标点，是瞳孔特征向量。

优选的，所述基于所述用户操作行为数据，提取所述用户的鼠标轨迹数据的步骤，包括：

基于所述用户操作行为数据，获取所述操作事件中的鼠标移动事件，基于所述鼠标移动数据获取对应的采样点坐标信息，将所述采样点坐标信息序列化，得到鼠标轨迹数据。

优选的，所述基于所述用户操作行为数据，提取所述用户的鼠标轨迹数据、决策时长和决策结论的步骤，包括：

基于所述用户操作行为数据，获取图像加载事件并记录其发生时间 t ₀，获取所述操作事件中样本决策按钮点击事件并记录其发生时间 t ₁，基于所述发生时间 t ₀和所述发生时间 t ₁，计算决策时长；

基于所述样本决策按钮点击事件，获取其对应的决策结论。

优选的，所述基于所述视线轨迹数据和所述鼠标轨迹数据，获取所述目标图像中标注目标的目标坐标预测值的步骤，包括：

将所述目标图像对应的二维坐标系网格化得到网格区域，获取所述视线轨迹数据和所述鼠标轨迹数据在所述网格区域中的轨迹坐标点数量；

基于所述轨迹坐标点数量构建关注度热力图，并提取其对应的高密度区域，得到目标坐标预测值。

优选的，所述基于所述决策时长、所述决策结论和所述目标坐标预测值，输出所述目标图像的标注结果的步骤，包括：

在所述决策时长在预设时长区间范围内时，将所述决策结果和所述目标坐标预测值设定为所述目标图像的标注结果。

根据本发明的第二方面，提供一种图像目标隐式标注系统，包括：

轨迹获取模块，用于基于目标图像实时获取用户的视线轨迹数据和用户操作行为数据；

决策提取模块，用于基于所述用户操作行为数据，提取所述用户的鼠标轨迹数据、决策时长和决策结论；

目标预测模块，用于基于所述视线轨迹数据和所述鼠标轨迹数据，获取所述目标图像中标注目标的目标坐标预测值；

结果输出模块，用于基于所述决策时长、所述决策结论和所述目标坐标预测值，输出所述目标图像的标注结果。

根据本发明的第三方面，提供了一种电子设备，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现上述第一方面中任一图像目标隐式标注方法的步骤。

根据本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现上述第一方面中任一图像目标隐式标注方法的步骤。

本发明提供的一种图像目标隐式标注方法、系统、电子设备及存储介质，方法包括：基于目标图像实时获取用户的视线轨迹数据和用户操作行为数据；基于上述用户操作行为数据，提取上述用户的鼠标轨迹数据、决策时长和决策结论；基于上述视线轨迹数据和上述鼠标轨迹数据，获取上述目标图像中标注目标的目标坐标预测值；基于上述决策时长、上述决策结论和上述目标坐标预测值，输出上述目标图像的标注结果。本发明通过获取用户的视线轨迹数据和鼠标轨迹数据，从而获取用户在图像标注过程中的隐式数据决策时长和决策结论，并通过视线轨迹数据和鼠标轨迹数据获取目标图像中标注目标的目标坐标预测值，进而通过决策时长、决策结论和目标坐标预测值输出标注结果，从而可以在基于人工手动标注的同时，充分获取用户对软件推理结果的反馈中的隐式信息，将上述隐式信息应用于图像标注中，对标注结果进行进一步的完善，大大地提高了图像的标注效率。

附图说明

图1为本发明提供的一种图像目标隐式标注方法流程图；

图2为本发明提供的图像目标隐式标注系统的软件部分在安防监控场景下的实施例的示意图；

图3为本发明提供的人眼关键点标注的示意图；

图4为本发明提供的屏幕坐标系示意图；

图5为本发明提供的屏幕标定点示意图；

图6为本发明提供的屏幕软件界面示意图；

图7为本发明提供的整合的视线轨迹和鼠标轨迹的坐标点示意图；

图8为本发明提供的软件界面网格化示意图的示意图；

图9为本发明提供的整合的视线轨迹和鼠标轨迹的热力图的示意图；

图10为本发明提供的热力图高密度区域检测的轮廓的示意图；

图11为本发明提供的目标预测值结果示意图的示意图；

图12为本发明提供的一种图像目标隐式标注系统结构示意图；

图13为本发明提供的图像目标隐式标注系统的整体结构示意图；

图14为本发明提供的图像目标隐式标注系统的软件部分结构示意图的示意图；

图15为本发明提供的一种可能的电子设备的硬件结构示意图；

图16为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为本发明提供的一种图像目标隐式标注方法流程图，如图1所示，方法包括：

步骤S100：基于目标图像实时获取用户的视线轨迹数据和用户操作行为数据；

需要说明的是，本实施例方法的执行主体可以是具有数据处理、网络通信及程序运行功能的计算机终端设备，例如：电脑、平板电脑等；也可以是具有相同相似功能的服务器设备，还可以是具有相似功能的云服务器，本实施例对此不做限制。为了便于理解，本实施例及下述各实施例将以电脑设备为例进行说明。

可以理解的是，上述目标图像可以是需要标注的每一幅图像，上述图像可以是实时采集获取的，也可以是读取数据库中待标注的图像，本实施例对此不作限制。

应理解的是，上述用户可以是对上述目标图像进行标注的工作人员。

在具体实现中，当用户通过本实施例提供的方法进行标注时，图像采集装置（摄像头）获取用户现场的实时视频，然后采用人机交互领域的人工智能算法，对摄像头采集到的用户在显示器前的动作（特别是头部和眼睛的动作）画面进行分析，由此计算出用户的视线对应到显示器中图形用户界面上的活动轨迹。视线轨迹数据能够反应用户对图形用户界面中的图像显示区域内部的关注点移动。同时记录用户操作鼠标的用户操作行为，用户操作行为记录的数据结构包含了用户使用鼠标等人机接口设备与计算机及其运行的软件的全部交互过程，具体涉及每一步操作的事件类型、事件发生时间、事件属性等。基于这些原始、零散的操作行为记录数据，可以从中提取出具有更加明确语义的、可用于图像目标隐式标注的具体信息。

进一步的，上述获取用户的视线轨迹数据的步骤，还包括：

步骤S101：基于目标图像实时获取用户的视线图像，并基于其对应的人脸区域定位，得到人脸区域坐标；

在具体实现中，摄像头获取用户的视线图像，视线轨迹分析组件的人脸定位模块对人脸区域进行检测，得到人脸区域坐标。

步骤S102：基于所述人脸区域坐标进行眼部关键点检测，得到眼部轮廓关键点坐标；

在具体实现中，使用人脸区域坐标裁剪出人脸区域图像，并对裁剪的人脸区域图像进行眼部关键点检测，得到眼部轮廓关键点坐标。

步骤S103：基于所述眼部轮廓关键点坐标进行瞳孔特征检测，得到瞳孔特征向量；

在具体实现中，使用眼部关键点坐标计算出眼部垂直方向距离，垂直方向距离大于阈值时，使用眼部轮廓关键点坐标裁剪出眼部区域图像，对裁剪的眼部区域图像进行瞳孔特征检测，得到瞳孔特征向量。

步骤S104：基于所述瞳孔特征向量与所述目标图像对应的二维坐标系，构建坐标映射函数；

在具体实现中，基于三维世界坐标系下的瞳孔特征向量与二维屏幕坐标系下的注视点构建坐标映射函数。

上述坐标映射函数可以为：

；

步骤S105：基于所述瞳孔特征向量和所述坐标映射函数，构建视线轨迹数据。

在具体实现中，将得到的瞳孔特征向量带入到坐标映射函数中，得到对应的屏幕注视点坐标，依次记录摄像头实时视频中每一帧图像数据的轨迹点坐标和采集图像的时间，将计算的屏幕注视点坐标组合成一个序列数据结构的视线轨迹数据。

进一步的，上述坐标映射函数求解的步骤可以是：

在上述屏幕依次显示n个显著的坐标点，同时通过摄像头采集对应的坐标点的图像，并计算对应坐标点的图像中的瞳孔特征向量，得到n个与坐标点对应的瞳孔特征向量，通过将n组屏幕显著坐标点和对应的瞳孔特征向量带入到坐标映射函数，计算出坐标映射函数的系数，完成坐标映射函数的构建。

进一步的，上述获取用户的鼠标轨迹数据的步骤，还包括：

步骤S110：基于所述用户操作行为数据，获取所述操作事件中的鼠标移动事件，基于所述鼠标移动数据获取对应的采样点坐标信息，将所述采样点坐标信息序列化，得到鼠标轨迹数据。

在具体实现中，依次遍历用户操作行为记录中的每一个事件；对于其中所有的鼠标移动事件，读取事件属性中的采样点坐标信息；将读取到的所有鼠标移动事件的坐标信息组合成一个序列数据结构，得到鼠标轨迹数据。

步骤S200：基于所述用户操作行为数据，提取所述用户的鼠标轨迹数据、决策时长和决策结论；

进一步的，上述提取用户的决策时长和决策结论的步骤，还包括：

步骤S201：基于所述用户操作行为数据，获取图像加载事件并记录其发生时间 t ₀，获取所述操作事件中样本决策按钮点击事件并记录其发生时间 t ₁，基于所述发生时间 t ₀和所述发生时间 t ₁，计算决策时长；

可以理解的是，上述用户操作行为数据的数据结构包含了用户使用鼠标等人机接口设备与计算机及其运行的软件的全部交互过程，具体涉及每一步操作的事件类型、事件发生时间、事件属性等。

在具体实现中，依次遍历用户操作行为记录中的每一个事件；对于其中的图像加载事件，读取该事件的发生时间 t ₀；对于其中的正/负样本决策按钮点击事件，读取该事件的发生时间 t ₁；计算 t ₁ - t ₀的值，得到用户决策时长。

步骤S202：基于所述样本决策按钮点击事件，获取其对应的决策结论。

可以理解的是，上述决策按钮点击事件可以是用户点击的电脑屏幕上显示的交互软件中，决策区域中按钮。

在具体实现中，依次遍历用户操作行为数据中的每一个事件；对于其中的按钮点击事件，读取事件属性中的目标按钮名称；如果目标按钮为正样本决策按钮，则得到取值为“正样本”的用户决策结论；如果目标按钮为负样本决策按钮，则得到取值为“负样本”的用户决策结论。

步骤S300：基于所述视线轨迹数据和所述鼠标轨迹数据，获取所述目标图像中标注目标的目标坐标预测值；

可以理解的是，图像中的目标位置可以通过分析用户对图像不同区域的关注程度来预测，而用户在判断图像目标时的视线移动及鼠标指针活动能够在一定程度上代表其关注程度。如果用户的视线轨迹或鼠标轨迹集中在图像中的某个区域，那么该区域很可能以较大比例与图像目标区域重合。

进一步的，上述获取目标坐标预测值的步骤，还可以包括：

步骤S301：将所述目标图像对应的二维坐标系网格化得到网格区域，获取所述视线轨迹数据和所述鼠标轨迹数据在所述网格区域中的轨迹坐标点数量；

在具体实现中，获取上述用户决策时长时间范围内的视线轨迹数据和鼠标轨迹数据，将上述视线轨迹数据和鼠标轨迹数据合并得到整合轨迹数据，将电脑屏幕区域划分为 M行 N列的网格区域，统计每个网格中的上述整合轨迹数据的坐标点数量。

步骤S302：基于所述轨迹坐标点数量构建关注度热力图，并提取其对应的高密度区域，得到目标坐标预测值。

在具体实现中，基于上述统计结果，构建轨迹关注度热力图，并提取轨迹关注度热力图中的高密度区域，得到其对应的目标坐标预测值。

步骤S400：基于所述决策时长、所述决策结论和所述目标坐标预测值，输出所述目标图像的标注结果。

可以理解的是，标注结果等同于用户决策结论，但需要将用户决策时长作为额外因素考虑。如果用户决策时长过短，则有可能是误操作导致；如果用户决策时长过长，则有可能是在难以决策之时做出的随意选择。对于这两类情况，应将标注结论视为无效。

进一步的，上述得到标注结果的步骤，还可以包括：

步骤S401：在所述决策时长在预设时长区间范围内时，将所述决策结果和所述目标坐标预测值设定为所述目标图像的标注结果。

可以理解的是，上述预设时长区间可以是在方法使用的初始阶段进行初始化设置的，也可以是后续由管理员根据标注人员的工作情况进行调整的，本实施例对此不作限制。通常上述用户的决策时长区间可以设定为[0.050 , 600.00]。

在具体实现中，如果用户决策时长 t小于上述预设时长区间的下限 t _d，或者大于给定的上限 t _u，则返回标注结论为“无效”，并忽略后续步骤。如果用户决策结论为“正样本”，则返回标注结论为“有效正样本”；如果用户决策结论为“负样本”，则返回标注结论为“有效负样本”。

进一步的，为了进一步得到准确的标注结果，还可以基于上述用户决策时长和上述鼠标轨迹数据计算目标置信度，通过目标置信度判断标注结果是否准确。

可以理解的是，判定目标置信度主要需要考察用户在判断图像目标时的犹豫程度。鼠标轨迹数据在正样本决策按钮和负样本决策按钮之间来回移动的次数越多，则代表用户犹豫程度高，目标置信度低，则用户的标注结果设定为无效。此外，用户决策时长越长，也代表用户犹豫程度高，目标置信度低，则用户的标注结果可以设定为有效。

在具体实现中，依次遍历鼠标轨迹数据中的每一个采样点，依据当前采样点所在图形用户界面的区域和上一个采样点所在图形用户界面的区域进行判断，对于鼠标指针移入和移出正样本决策按钮和负样本决策按钮的事件进行计数。具体需要统计以下两种情况：对于当前采样点位于正/负样本决策按钮区域，而上一个采样点不位于正/负样本决策按钮区域的情况，记录一次移入事件；对于当前采样点不位于正/负样本决策按钮区域，而上一个采样点位于正/负样本决策按钮区域的情况，记录一次移出事件。将上述移入和移出事件总数记为 n。获取用户决策时长，将其记为 t。通过函数 b = f( n,t)计算目标置信度 b。其中， f是图像目标隐式标注系统预置的一个函数，要求该函数满足以下条件： b的计算结果与 n负相关，且 b的计算结果与 t负相关。通常目标置信度 b大于等于85%时，可以认为用户的标注结果可以设定为有效。

可以理解的是，基于背景技术中的缺陷，本发明实施例提出了一种图像目标隐式标注方法。方法包括：基于目标图像实时获取用户的视线轨迹数据和用户操作行为数据；基于上述用户操作行为数据，提取上述用户的鼠标轨迹数据、决策时长和决策结论；基于上述视线轨迹数据和上述鼠标轨迹数据，获取上述目标图像中标注目标的目标坐标预测值；基于上述决策时长、上述决策结论和上述目标坐标预测值，输出上述目标图像的标注结果。本发明通过获取用户的视线轨迹数据和鼠标轨迹数据，从而获取用户在图像标注过程中的隐式数据决策时长和决策结论，并通过视线轨迹数据和鼠标轨迹数据获取目标图像中标注目标的目标坐标预测值，进而通过决策时长、决策结论和目标坐标预测值输出标注结果，从而可以在基于人工手动标注的同时，充分获取用户对软件推理结果的反馈中的隐式信息，将上述隐式信息应用于图像标注中，对标注结果进行进一步的完善，大大地提高了图像的标注效率。

在一种可能的应用场景中，本实施例中的图像目标隐式标注方法可以应用于安防监控场景中，在安防监控场景下，用户需要使用视频监控与分析软件。这类软件能够记录摄像头所采集的视频，并对视频内容进行智能分析。软件通过调用神经网络模型等人工智能机制，对视频抽帧图像实施推理，自动识别出存在异常情况的图像，并将这些图像保存备查。典型的异常情况包括人员跌倒、人员打架、跨越围栏等。保安人员是这类软件的主要用户，日常工作包括对软件自动识别出的各类异常情况图像进行人工复核。对于保安认为确属异常情况的图像，将其对应的事件保存，以便做进一步线下处理；对于保安认为不属异常情况的图像，则认为是软件误判，可以直接忽略。传统上，保安人工复核的结果不能应用于软件中的神经网络模型的训练，这是因为这些被复核的图像属于未标注或标注信息不足的数据，它们不足以作为有监督的神经网络训练的输入数据集。因此，人工复核结果的价值并未得到充分发挥。

参见图2，图2为本发明提供的图像目标隐式标注系统的软件部分在安防监控场景下的实施例的示意图；在图2中，图形用户界面（E120）是“视频监控与分析软件”的界面，占据显示器屏幕全部区域。图像显示区域（E121）是用来展示视频抽帧图像的区域，这里的视频抽帧图像是由人工智能自动识别出存在异常情况的图像，例如画面中存在人员跌倒的图像。图像目标区域（E122）是指视频抽帧图像中存在异常情况的目标所在矩形区域，例如在有关人员跌倒的图像中，图像目标区域是紧贴着跌倒人员的上下左右边界点的矩形区域。决策按钮区域（E123）包括两个按钮，其中正样本决策按钮（E124）的显示名称为“处理”，代表保安认可人工智能的识别结果，决定对图像所示的异常情况做进一步线下处理；负样本决定按钮（E125）的显示名称为“忽略”，代表保安不认可人工智能的识别结果，认为图像所示属于软件误判，不需要进一步处理。鼠标指针（E126）是操作系统预置的鼠标指针图形，可在图形用户界面内自由移动。

本实施例提供的图像目标隐式标注方法可以作为视频监控与分析软件的组件之一，集成在该软件内部。通过利用保安人员操作过程中的带外信息，对被复核图像中的目标实施隐式标注，进而使得这些图像能够作为神经网络训练的输入数据集，后续可以通过增量训练，提升神经网络的精度。

在一种可能的实施例方式中，上述获取用户的视线轨迹数据的步骤还可以包括采用瞳孔角膜反射的视线估计方法，来实现轨迹分析。这种方法基于瞳孔角膜对近红外线的反射的原理，使用瞳孔和角膜反射的相对位置来估计视线的变化。所以采用这种方法所使用的硬件包括近红外摄像头以及近红外光源，近红外摄像头和近红外光源在同轴方向放置，对目标进行成像。瞳孔角膜放射视线估计方法关键之一是眼睛瞳孔区域中心点坐标和角膜反射亮斑的坐标。

其中，计算视线轨迹的具体步骤还可以包括：

步骤S1：摄像头采集的图像输入到一种人脸检测网络——多任务级联卷积网络（MTCNN），预测出人脸区域的矩形坐标。

步骤S2：关键点检测模型使用人脸矩形坐标，从摄像头采集的图像中裁剪出人脸区域图像，并预测裁剪图像的人眼轮廓和瞳孔中心点坐标。其中人眼轮廓采用8点标注方法进行表示，人眼轮廓点、瞳孔中心和角膜光斑反射点表示按顺时针排序分别为：， p ₉表示瞳孔中心点，p ₁₀表示角膜反射光斑点。参见图3，图3为本发明提供的人眼关键点标注的示意图；其中包括人眼轮廓点（1~8）、瞳孔中心点（9）和角膜反射亮斑点（10）的示意图。

步骤S3：视线轨迹分析组件计算人眼轮廓点 p ₃和 p ₇的像素距离，当像素距离值小于15时，采集瞳孔中心点坐标 p ₉和角膜光斑点 p ₁₀，计算瞳孔中心点指向角膜光斑点的瞳孔特征向量。计算公式如下：

；

步骤S4：视线轨迹分析组件将瞳孔特征向量输入到视线映射函数，得到瞳孔视线在屏幕上的注视点坐标。

步骤S5：视线轨迹分析组件记录每一帧图像的视线轨迹数据和当前帧的时间，得到一组视线轨迹数据。

可以理解的是，上述视线轨迹数据的数据结构为JSON，上述数据结果的示例如下：

视线轨迹数据的单个元素包括（ location_x,location_y,image_time），其中， location_x和 location_y是视线轨迹坐标点， image_time是对应图像的采集时间。

[

{

"location_x": 100,

"location_y": 200,

"image_time": 1666690001.300,

},

{

"location_x": 130,

"location_y": 300,

"image_time": 1666690303.400,

},

{

"location_x": 160,

"location_y": 400,

"image_time": 1666690023.400,

}

]

进一步的，上述坐标映射函数的具体形式可以为：

;

其中， V _x和 V _y是瞳孔中心点指向角膜反射亮斑点的相对偏移向量的水平分量和垂直分量。 a ₀ ~a ₅和 b ₀ ~b ₅系数，通过标定的数据得到。

在本实施例中，上述坐标映射函数的参数估计，通过视线标定来完成，其具体步骤为：

步骤S6：以屏幕中心为屏幕坐标系原点，构建二维坐标系，参见图4，图4为本发明提供的屏幕坐标系示意图；

步骤S7：在屏幕上均匀显示9组标定点，参见图5，图5为本发明提供的屏幕标定点示意图；

步骤S8：依次计算对应标定点的瞳孔特征向量，；

步骤S9：将9组瞳孔特征向量输入到上述坐标映射函数中，得到18个方程。

步骤S10：定义一组求解公式，求解公式如下所示：

；

步骤S10：求解和的极小值，令和对每个参数的偏导为0，可以求得 a ₀ ~a ₅和 b ₀ ~b ₅系数，完成坐标映射函数的参数估计。

在一种可能的实施例方式中，上述用户的操作行为数据可以是以JSON格式存储的数据，其示例如下：这种数据结构以事件数组（events）方式记录用户使用鼠标等输入设备同图像目标隐式标注系统发生的所有交互事件。每个事件各自的数据结构包括事件类型（ type）、事件发生时间（ time）、事件属性（ properties）等字段。其中，典型的事件类型包括图像加载（image_load）、鼠标移动（ mouse_move）、按钮点击（ button_press）等。事件发生时间采用UNIX时间戳，单位为秒。每一种事件类型具有各自不同的属性，例如图像加载事件的属性为图像地址（ url），鼠标移动事件的属性为采样点坐标（ location_x、location_y），按钮点击事件的属性为目标按钮名称（ target）。

{

"events": [

{

"type": "image_load",

"time": 1666690000.000,

"properties":

{

"url": "http://example.com/image_1.jpg"

}

},

{

"type": "mouse_move",

"time": 1666690000.200,

"properties":

{

"location_x": 100,

"location_y": 905

}

},

{

"type": "mouse_move",

"time": 1666690000.300,

"properties":

{

"location_x": 100,

"location_y": 910

}

},

{

"type": "mouse_move",

"time": 1666690000.400,

"properties":

{

"location_x": 110,

"location_y": 910

}

},

{

"type": "button_press",

"time": 1666690012.300,

"properties":

{

"target": "positive"

}

]

}

在本实施例中，提取鼠标轨迹数据的步骤为：依次遍历上述用户操作行为记录数据结构中， events数组的每一个元素，判断该元素的 type字段值是否为 mouse_move。如果是，则将该事件 properties字段中的 location_x与 location_y字段提取，组合为一个元组，加入到名为 track的新的数组中。由此得到鼠标轨迹数据的序列数据结构 track。在本例中，该数据结构的示例如下所示：

{

"track": [

{

"location_x": 100,

"location_y": 905

},

{

"location_x": 100,

"location_y": 910

},

{

"location_x": 110,

"location_y": 910

}

]

}

在本实施例中，提取用户的决策时长的步骤可以为：依次遍历上述用户操作行为记录数据结构中， events数组的每一个元素，判断该元素的 type字段值是否为 image_load或 button_press。如果是 image_load，则将该事件 time字段值提取，记为 t ₀；如果是 button_ press，且该事件 properties字段中的 target字段值为 positive或 negative，则将该事件 time字段值提取，记为 t ₁。通过计算 t ₁- t ₀的值，得到用户决策时长。在本例中，用户决策时长= t ₁- t ₀=1666690012.300-1666690000.000=12.300（秒）。

在本实施例中，提取用户的决策结果的步骤可以为：依次遍历上述用户操作行为记录数据结构中， events数组的每一个元素，判断该元素的 type字段值是否为 button_ press。如果是，则将该事件 properties字段中的 target字段提取。如果 target字段值为 positive，则得到取值为“正样本”的用户决策结论；如果 target字段值为 negative，则得到取值为“负样本”的用户决策结论。在本例中， target字段值为 negative，用户决策结论为“正样本”。

在一种可能的实施例方式中，上述目标坐标预测的步骤还可以是在上述决策时长对应的连续时间的视线轨迹数据提取目标坐标预测值，其中上述决策时长的起始时间和结束时间分别为 t ₀和 t ₁；提取满足决策时间内的所有视线轨迹数据，构成新的视线轨迹数据，新的视线轨迹数据结构示例如下：

{

"sight": [

{

"location_x": 130,

"location_y": 300,

},

{

"location_x": 160,

"location_y": 400,

}

]

}

在本实施例中，结合视线轨迹数据和鼠标轨迹数据，得到一个整合轨迹数据，参见图6和图7，本实施例中采用基于整合得到的整合轨迹数据生成关注度热力图，基于热力图查找高密度区域，即为目标预测区域。目标坐标预测操作的具体步骤如下。

步骤S11：目标坐标预测组件将屏幕坐标系划分为20×30大小的网格，其示意图参见图8。

步骤S12：目标坐标预测组件统计每个网格中包含的整合的轨迹坐标数量。

步骤S13：目标坐标预测组件使用统计的网格轨迹数量生成轨迹关注度热力图。其示意图参见图9。

步骤S14：目标坐标预测组件将热力图RGB数据转化为HSV格式数据。

步骤S15：目标坐标预测组件使用HSV颜色分割提取高密度颜色区域掩码图，查找掩码区域轮廓，得到目标预测区域。其示意图参见图10。

步骤S16：目标坐标预测组件计算掩码图的最小外接矩形，得到目标坐标预测值，其示意图参见图11。

其中，在图11中得到的目标坐标预测值为矩形框，表示为。其中坐标是矩形框的左上点坐标，是右下点坐标。

在一种可能的实施例方式中，上述基于上述用户决策时长和上述鼠标轨迹数据计算目标置信度的具体步骤：

在本实施例中，目标置信度计算函数的具体形式为。在该函数中， n和 t均位于分母位置，符合 b的计算结果与 n负相关且与 t负相关的条件。当 n取极小值1（鼠标至少需要移入决策按钮1次）、 t取极小值0时，计算得到 b的极大值为1；当 n取极大值+∞、 t取极大值+∞时，计算得到 b的极小值为0。

假设正样本决策按钮的左上、右下坐标分别为(105,900)、(495,1000)，那么当鼠标指针从采样点(100,910)移动到(110,910)的过程中，记录一次移入事件，得到 n=1。另已得到用户决策时长 t=12.300，代入目标置信度计算函数，可得到 b=1/(1+12.300/10)≈0.448。

在本实施例中，通过充分收集并利用用户对软件推理结果的隐式反馈，来实现图像目标标注，使得带外信息价值能够得到充分的发挥，并且有力的补充了传统显式标注模式完全主观的不足，从而降低了神经网络模型增量训练时，对图像目标进行标注的人力成本；还能够为神经网络模型的自动化迭代更新能力奠定技术基础，从而增强图像、视频监控与分析软件的易用性。

请参阅图12，图12为本发明实施例提供的一种图像目标隐式标注系统结构图示意图，如图12所示，一种图像目标隐式标注系统，包括轨迹获取模块100、决策提取模块200、目标预测模块300和结果输出模块400，其中：

轨迹获取模块100，用于基于目标图像实时获取用户的视线轨迹数据和用户操作行为数据；决策提取模块200，用于基于所述用户操作行为数据，提取所述用户的鼠标轨迹数据、决策时长和决策结论；目标预测模块300，用于基于所述视线轨迹数据和所述鼠标轨迹数据，获取所述目标图像中标注目标的目标坐标预测值；结果输出模块400，用于基于所述决策时长、所述决策结论和所述目标坐标预测值，输出所述目标图像的标注结果。

进一步的，为了清楚的描述本实施例提供的图像目标隐式标注系统在实际生产中的应用，参见图13和图14，图13为本发明提供的图像目标隐式标注系统的整体结构示意图，图14为本发明提供的图像目标隐式标注系统的软件部分结构示意图的示意图。

在图13中，本实施例提供的图像目标隐式标注系统的硬件包括一台计算机，以及连接在计算机上的显示器、摄像头A100和鼠标A500。

可以理解的是，这里的显示器、摄像头和鼠标泛指具备等价功能的输入输出设备。例如，可以使用投影仪替代显示器，使用数码相机替代摄像头，使用轨迹球替代鼠标，本实施例对此不作限制。

进一步的，显示器中有图形界面，图形界面中还包括图像显示区A200、图像目标区域A300、决策按钮区域A400和鼠标指针。

需要说明的是，图像目标区域的具体位置并非固定的。对于图像显示区域所显示的每一幅具体图像，图像目标区域的位置由图像中待检测的目标对象的具体位置决定。

进一步的，决策按钮区域包含正样本决策按钮（√）和负样本决策按钮（×）。

进一步的，计算机内部包含有总线，以及连接在总线上的存储器、处理器和接口电路，计算机通过接口电路实现与显示器、摄像头和鼠标的连接与通信。

进一步的，计算机内部包含隐式标注软件，该软件的可执行程序保存于存储器，在工作时由处理器加载和执行。

在图14中，隐式标注软件以用户现场数据（C210）作为输入，以隐式标注数据（C220）作为中间数据，并以隐式标注结果（C230）作为输出。

其中，用户现场数据包含用户现场实时视频（C211）和用户操作行为记录（C212）。隐式标注数据包含视线轨迹数据（C221）、鼠标轨迹数据（C222）、用户决策时长（C223）和用户决策结论（C224）。隐式标注结果包含目标坐标预测值（C231）、目标置信度（C232）和标注结论（C233）。

进一步的，隐式标注软件内部包含视线轨迹分析组件（C201）、操作行为采集组件（C202）、目标坐标预测组件（C203）、目标置信度判定组件（C204）和标注结论判定组件（C205）。

其中，视线轨迹分析组件以用户现场实时视频作为输入，以视线轨迹数据作为输出，执行视线轨迹分析操作。

进一步的，操作行为采集组件以用户操作行为记录作为输入，以鼠标轨迹数据、用户决策时长和用户决策结论作为输出，执行操作行为采集操作。该操作具体包括鼠标轨迹提取操作、决策时长提取操作和决策结论提取操作。

进一步的，目标坐标预测组件以视线轨迹数据和鼠标轨迹数据作为输入，以目标坐标预测值作为输出，执行目标坐标预测操作。

进一步的，标注结论判定组件以用户决策时长和用户决策结论作为输入，以标注结论作为输出，执行标注结论判定操作。

可以理解的是，本发明提供的一种图像目标隐式标注系统与前述各实施例提供的图像目标隐式标注方法相对应，图像目标隐式标注系统的相关技术特征可参考图像目标隐式标注方法的相关技术特征，在此不再赘述。

请参阅图15，图15为本发明实施例提供的电子设备的实施例示意图。如图15所示，本发明实施例提供了一种电子设备，包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311，处理器1320执行计算机程序1311时实现以下步骤：

基于目标图像实时获取用户的视线轨迹数据和用户操作行为数据；基于上述用户操作行为数据，提取上述用户的鼠标轨迹数据、决策时长和决策结论；基于上述视线轨迹数据和上述鼠标轨迹数据，获取上述目标图像中标注目标的目标坐标预测值；基于上述决策时长、上述决策结论和上述目标坐标预测值，输出上述目标图像的标注结果。

请参阅图16，图16为本发明提供的一种计算机可读存储介质的实施例示意图。如图16所示，本实施例提供了一种计算机可读存储介质1400，其上存储有计算机程序1411，该计算机程序1411被处理器执行时实现如下步骤：

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种图像目标隐式标注方法，其特征在于，所述方法包括：

基于目标图像实时获取用户的视线轨迹数据和用户操作行为数据，其中，基于所述目标图像和图像采集装置获取所述用户现场的实时视频，再基于所述实时视频计算所述用户的视线轨迹数据；

基于所述用户操作行为数据，提取所述用户的鼠标轨迹数据、决策时长和决策结论，所述决策时长和所述决策结论为所述用户标注过程中的隐式数据；

2.根据权利要求1所述的图像目标隐式标注方法，其特征在于，所述基于目标图像实时获取用户的视线轨迹数据的步骤，包括：

3.根据权利要求2所述的图像目标隐式标注方法，其特征在于，所述坐标映射函数为：

；

其中，是在所述目标图像对应的二维坐标系中的坐标点，是瞳孔特征向量。

4.根据权利要求1所述的图像目标隐式标注方法，其特征在于，所述基于所述用户操作行为数据，提取所述用户的鼠标轨迹数据的步骤，包括：

5.根据权利要求1所述的图像目标隐式标注方法，其特征在于，所述基于所述用户操作行为数据，提取所述用户的决策时长和决策结论的步骤，包括：

基于所述用户操作行为数据，获取图像加载事件并记录其发生时间t ₀，获取所述操作事件中样本决策按钮点击事件并记录其发生时间t ₁，基于所述发生时间t ₀和所述发生时间t ₁，计算决策时长；

基于所述样本决策按钮点击事件，获取其对应的决策结论。

6.根据权利要求1所述的图像目标隐式标注方法，其特征在于，所述基于所述视线轨迹数据和所述鼠标轨迹数据，获取所述目标图像中标注目标的目标坐标预测值的步骤，包括：

7.根据权利要求1所述的图像目标隐式标注方法，其特征在于，所述基于所述决策时长、所述决策结论和所述目标坐标预测值，输出所述目标图像的标注结果的步骤，包括：

8.一种图像目标隐式标注系统，其特征在于，包括

轨迹获取模块，用于基于目标图像实时获取用户的视线轨迹数据和用户操作行为数据，其中，基于所述目标图像和图像采集装置获取所述用户现场的实时视频，再基于所述实时视频计算所述用户的视线轨迹数据；

决策提取模块，用于基于所述用户操作行为数据，提取所述用户的鼠标轨迹数据、决策时长和决策结论，所述决策时长和所述决策结论为所述用户标注过程中的隐式数据；

9.一种电子设备，其特征在于，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-7任一项所述的图像目标隐式标注方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现如权利要求1-7任一项所述的图像目标隐式标注方法的步骤。