CN112949369B

CN112949369B - 一种基于人机协同的海量人脸图库检索方法

Info

Publication number: CN112949369B
Application number: CN202011284824.8A
Authority: CN
Inventors: 孔万增; 胡宏洋; 徐森威
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2024-02-09
Anticipated expiration: 2040-11-17
Also published as: CN112949369A

Abstract

本发明公开了一种基于人机协同的海量人脸图库检索方法。计算机视觉提取的低级特征与人类视觉捕获的高级语义特征有所差距，所以计算机视觉检索结果远不能达到人的期望。人脸图像在低级轮廓特征上差距不大，仅依靠计算机视觉很难对相似人脸进行区分。本发明如下：1、建立图库；2、用人看人像图产生的脑电信号训练EEG分类模型；3、使用EEG分类模型在线迭代，从图像数据中检索出被试者需要的目标图像。本发明中的人脸图片检索方法与传统人脸检索方法不同，通过将人脑强大的认知能力与计算机的快速计算能力、海量存储能力相结合，实现了快速，准确，鲁棒的海量人脸图片检索，具有显著的应用价值。

Description

一种基于人机协同的海量人脸图库检索方法

技术领域

本发明属于快速序列视觉呈现与图像检索交叉技术领域，具体涉及一种基于人机协同的海量人脸图库检索方法。

背景技术

现有的视频监控系统只实现了单纯的视频存储功能,监控视频信息的高效的分析与利用仍是一个问题.因此,在视频监控抓拍和记录高清晰度图像中提供识别、比对、查询到指定人脸是新一代视频监控追求的目标,也是实际应用中迫切需要的功能。公共安全领域能够获取的人脸图像数量急速增长, 使得现有人脸图像检索技术在处理海量图像数据的过程中面临严峻的考验。

人脸检索以人脸本身为对象，要求从一个大型的人脸数据库中，找出目标人物或与其相像的一张或多张人脸图像，当人脸数据库规模很大的时候，检索需要耗费大量的时间。目前由于计算机运算能力和存储能力的提高以及人工智能的发展，图像检索方法主要由计算机视觉实现。基于计算机视觉的图像检索方法主要分为两种，一种是基于文本的图像检索，简称 TBIR，另一种是基于图像内容检索，简称CBIR。基于文本的图像检索技术需要人工对图像进行文本描述如图片的内容，作者等，借助于图像特征的语义描述，通过文本匹配实现图像检索。但文本标定通常由人来进行需要耗费大量人力，且图像特征描述带有人的主观性，相似图像的描述对操作人员的水平要求高。基于图像内容检索可以根据计算机视觉自动提取的图像特征进行索引，解决了人工文本标注困难的特点。然而，计算机视觉提取的低级特征与人类视觉捕获的高级语义特征有所差距，所以计算机视觉检索结果远不能达到人的期望。人脸图像在低级轮廓特征上差距不大，仅依靠计算机视觉很难对相似人脸进行区分。

与计算机视觉相比，人具有强大的认知能力。人类视觉在复杂场景和目标自身变化的条件中能够利用已有的先验知识，在几十或者几百毫秒，快速捕捉到大量有用的信息。这些视觉信息包括图像的低级特征(颜色、纹理等特征)、中级特征(外观、大小等特征)和高级特征(图像语义)。并借助于神经元信号的快速传递，对信息进行准确的分析处理，从而做到很好的识别。综上所述，人具有强大的认知能力，可以快速理解图像的语义并识别图像中的目标，计算机视觉具有强大的运算和存储能力，可以利用人的认知能力来弥补计算机视觉在人脸检索上图像信息感知的缺陷，利用计算机的快速运算弥补来人类视觉在海量数据处理中视觉疲劳与注意力分散的缺陷。

故而提出一张基于人机闭环协同交互的检索方法，来提高在处理海量监控数据下人脸检索的速率与精度。

发明内容

本发明针对现有技术的不足，提供一种基于快速序列视觉呈现的海量人脸检索闭环系统。通过将人脑与计算机视觉融合形成闭环系统，完成目标人脸的检索任务。

本发明的具体步骤如下：

步骤1：获取人脸图像集并对各人脸图像进行标记，得到RSVP人脸图库。

步骤2：被试人员对RSVP人脸图库中提取的多个图像序列进行观察并判断是否为目标对象，提取被试人员在判断时的脑波数据对EEG分类模型进行训练。EEG分类模型经过训练后，能够根据脑波数据判断图像中的人脸是否与目标人物相像。

步骤3：使用EEG分类模型在线迭代，从人脸图库中检索出被试者需要的目标图像。

步骤3-1:生成一段图像序列呈现给被试者观看，并采集被试者观看时的脑电信号。对于每一段脑电信号，使用EEG分类模型进行分类处理，并将分类为产生P300刺激信号的图像作为候选目标图像。

步骤3-2:将各候选目标图像反馈给被试者。

步骤3-3:计算机视觉模块收到候选目标图像后，首先进行内部相似度计算，根据内部相似度对候选目标图像进行排序。再根据候选目标图像在RSVP人脸图库中进行相似度检索提取出与目标人物相似的多张扩展目标图像以及与目标人物不相似的多张非目标图像；各扩展目标图像和各非目标图像组成下一轮图像序列。

步骤3-4:EEG分类模型接收到步骤3-3产生的下一轮的图像序列后，将其呈现给被试者；将扩展目标图像随机穿插到非目标图像中，同时两张扩展目标图像不相邻。

步骤3-5:当EEG分类模型挑选出的候选目标图像内部相似度超过75％后，停止迭代；否则，重复步骤3-1至3-4进行迭代。

作为优选，步骤一的过程如下；取监控视频中的各帧图片，利用Retinaface模型检测图片中的人脸及其面部特征关键点，再通过面部特征关键点进行人脸对齐；使用Arcface模型在角度空间中最大化人脸分类界面，以提取人脸特征向量。

作为优选，步骤一的过程具体为：

步骤1-1：从视频流中逐帧或跳帧提取视频帧。

步骤1-2：使用Retinaface模型检测各视频帧中的人脸及其面部特征关键点，Retinaface 模型的预测结果用来判断各视频帧是否包含人脸，若包含人脸则使用回归框将视频帧中人脸位置进行框定、截取，并保存为人脸图像，由此构成RSVP人脸图库；同时，对各人脸图像中包括眼睛、鼻子、嘴角在内的人脸特征关键点进行回归定位。

作为优选，步骤1-2执行后，以双眼的连线为基础，计算图像需旋转的角度θ，以图像中心点为原点(center_x，center_y)，计算其二维旋转矩阵M，其中，α＝scale·cosθ，β＝scale·sinθ，scale为人脸图像的尺度；之后根据二维旋转矩阵M，使用warpAffine尺度变换操作，实现人脸对齐。通过Arcface模型，在角度空间进行最大化分类界限，建立损失函数Loss的表达式如式(1) 所示：

其中，τ_i为1*d维人脸特征向量；W_j为d*num_class维权重向量；θ_yi为L2归一化后权重与样本特征夹角；s为尺度；m为角度边界惩罚系数；num_class为人脸类别数；n为批次训练使用的人脸图像总数。||·||为L2范数运算。

作为优选，步骤2的具体过程如下：

步骤2-1:从RSVP人脸图库中提取多段图像序列。每段图像序列均包括多张人脸图像；同时，两张目标图像不会出现在相邻的位置。目标图像表示含有预先设定为目标人物的人脸图像。

步骤2-2:被试者注视图像序列。每两段图像序列中休息一段时间。当被试者发现目标时，被试者进行反馈，同时采集被试者的脑电信号。

步骤2-3:对于采集到的脑电信号进行预处理。将脑电信号降采样，并进行1-12Hz带通滤波，脑电信号只保留16个通道的数据。将滤波后的数据进行分段，保存被试者开始观看图像后的1s脑电信号，得到样本集。

步骤2-4:分类判别模型使用了超限学习机算法，通过最小二乘法训练网络参数。分类判别模型包括输入层、隐含层和输出层。输入层节点数为u，输出层节点数为v，训练样本数为 N。分类判别模型采用具有L个隐含层节点的单隐含层网络；隐含层节点计算方式如式(2) 所示：

其中，g(·)表示选择的激活函数；ω_i是第i个隐含层节点与输入层结点的权重向量，β_i是第i个隐含层节点与输出层结点的权重向量。out_j表示第j个样本的在输出层的输出数值大小。τ_j表示第j个样本数据；b_i是第i个隐含层节点的偏置量。

通过调整参数使得损失函数达到最小如下：

其中Error(S，β)整个网络产生的误差，S＝(ω_i，b_i，i＝1，2，...，L)，表示网络中的隐含层的权重参数以及隐含层中的节点阈值。H(ω₁，...，ω_L，b₁，...，b_L，τ₁，...，τ_N)表示网络关于样本的隐含层输出矩阵，β表示隐含层节点与输出层结点的权重矩阵，T表示样本集的目标矩阵。

使用了CELM的权重向量ω以及偏置向量b的表示方式如式(3)所示:

其中，τ_P为P类样本对应的输入；τ_NP为NP类样本对应的输入。对于k元分类问题，CELM 的计算过程表示如式(4)所示：

s.t.h(τ_i)β＝t_i-ξ_i，i＝1，2，...，N

其中，Loss_p(β，ξ)为整个网络的损失，C表示正则化因子，k表示类别个数，h(τ_i)表示隐含层的输出向量。ξ_i为第i个样本的输出和真实标签之间的误差。

训练数据集表示为data(τ_i，t_i)，i＝1，2，...，N，t_i表示第i个样本的真实标签。根据训练数据，定义了权重矩阵W′如式(5)所示。

其中，N_i为第i类别的样本数量，i＝1,2,…,k。

含有最终神经元权重β的方程式如式(6)所示：

作为优选，步骤3-3中，在RSVP人脸图库中进行相似度检索的具体过程如下：

步骤3-3-1：获取各候选目标图片。

步骤3-3-2：提取候选目标图片的特征向量，计算各候选目标图片两两之间的余弦相似度，进一步将相似度归一化，使得相似度sim_i，j∈(0，1)；其中，sim_i，j表示人脸特征向量i与人脸特征向量j的相似度，以此完成内部相似度矩阵Matrix_inner。

步骤3-3-3：计算迭代结束条件并剔除干扰人脸图片

统计每张候选目标图片与其他候选目标图片相似度大于0.9的图片数目记为Count_i；其中，若/>则迭代结束。否则将各候选目标图片按Count_i从大到小进行排序，保留前80％图像。

步骤3-3-4：分别计算保留下来的图像与RSVP人脸图库所有图像的相似度，构造成相似度矩阵MatrixA如式(8)所示。

其中，n_all为RSVP人脸图库的图片数量。

步骤3-3-5：将步骤3-3-3选取出的图片按相似图片数目从大到小次序等分为3组。

步骤3-3-6：将相似度矩阵MatrixA中相似度大于0.9的元素置为1，小于0.9的元素置为 0，形成布尔矩阵MatrixB。

步骤3-3-7：处理第一组图片的相似度矩阵，将相似度大于0.7的元素置为1，小于0.7的元素置为0，形成布尔矩阵matrixC。

步骤3-3-8：对matrixB分段处理后，计算第一组图片与RSVP人脸图库人脸的平均相似度，按图像的平均相似度从大到小对RSVP人脸图库中所有的人脸图像进行排序，从RSVP 人脸图库中选取出与第一组图片最相似的12张人脸图像，作为扩展目标图像。同理，从RSVP 人脸图库中选取出与第二组图片最相似的6张人脸图像，作为扩展目标图像。从RSVP人脸图库中选取出与第三组图片最相似的3张人脸图像，作为扩展目标图像。对根据三组图片选取出图像进行去重处理，若去重后，第一组图片和第二组图片对应的扩展目标图像总数小于 15，则根据第一组图片在RSVP人脸图库挑选新的扩展目标图像。

步骤3-3-9：对布尔矩阵matrixC的每列元素取平均值，得到一个n_all维行向量；该行向量的每个元素代表RSVP人脸图库中一张图片与第一组图片整体的相似程度；取该n_all维行向量最小的139个元素对应于RSVP人脸图库中的139张人脸图像，作为非目标图像。

步骤3-3-10：将扩展目标图像和非目标图像返回给EEG分类模型。

本发明具有的有益效果是：

本发明中的人脸图片检索方法与传统人脸检索方法不同，通过将人脑强大的认知能力与计算机的快速计算、海量存储能力相结合，实现了快速，准确，鲁棒的人脸图片检索，具有显著的应用价值。

附图说明

图1为本发明一种基于人机协同的海量人脸图库检索方法的流程图

具体实施方式

以下结合附图对本发明作进一步说明。

如图1所示，一种基于人机协同的海量人脸图库检索方法，具体包括如下步骤：

步骤1：行人监控视频的预处理

随机取在校园不同角落的监控视频若干，其中监控视频帧率为每秒60帧；在监控视频中每秒选取2帧进行分析，利用Retinaface模型检测其中的人脸及其面部特征关键点，再通过面部特征关键点进行人脸对齐；使用Arcface模型在角度空间中最大化人脸分类界面，进行人脸识别，以提取人脸特征向量，具体为：

步骤1-1：为提高视频人脸检测速度，对高帧率的监控视频，进行每秒2帧的帧提取，将提取出的视频帧保留在本地，命名方式为：监控视频名称_帧数.jpg。

步骤1-2：使用Retinaface模型检测提取出的视频帧中的人脸及其面部特征关键点， Retinaface模型的预测结果用来判断该视频帧是否包含人脸，若包含人脸则使用回归框将视频帧中人脸位置进行框定、截取，将人脸图像保存在本地，命名方式为：监控视频名称_帧数_ 该帧中第i个人脸.jpg，由此构成RSVP人脸图库facePictures；同时，对人脸图像中包括眼睛、鼻子、嘴角的人脸特征关键点进行回归定位。

步骤1-3：以双眼landmark回归的连线为基础，计算图像需旋转的角度θ(即双眼连线与水平线的夹角)，以图像中心点为原点(center_x，center_y)，计算其二维旋转矩阵M，其中α＝scale·cosθ，β＝scale·sinθ使用 warpAffine尺度变换操作，实现人脸对齐；scale为人脸图像的尺度。通过Arcface模型，在角度空间进行最大化分类界限，将损失函数Loss分类重新定义如式(1)所示：

其中，τ_i为1*d维人脸特征向量；W_j为d*num_class维权重向量；为L2归一化后权重与样本特征夹角；s为尺度；m为角度边界惩罚系数；num_class为人脸类别数；n为批次训练使用的人脸图像总数。y_i表示其中一个样本。||·||为L2范数运算。

使用resnet_50网络作为backbone(基础网络)提取512维的人脸特征feature，建立图片名称与特征向量的索引，保存在本地文件features.json。

步骤2：EEG离线校准，得到EEG二分类模型。

步骤2-1:预设定离线校准需要的22段图像序列。每段图像序列共160张图像。为了保证目标图像占比在10％以内，在生成图像序列时，每一段中图像序列中包含10～16张目标图像，同时，两张目标图像不会出现在相邻的位置。目标图像表示含有预先设定为目标人物的人脸图像。

步骤2-2:被试者静坐在电脑前，注视电脑屏幕中快速呈现的图像序列。每两段图像序列中可以休息30秒，以避免视觉疲劳。当被试者发现目标时，点击鼠标，同时采集被试者的脑电信号，鼠标点击主要用于提高被试者的注意力。整个实验在安静无噪音的环境下进行，同时被试在实验过程中不允许有大幅度的身体动作。

步骤2-3:对于采集到的脑电信号进行预处理。将脑电信号降采样到250Hz，并进行1-12Hz 带通滤波，为减少计算量，脑电信号只保留16个通道的数据。将滤波后的数据进行分段，保存被试者开始观看图像后的1s脑电信号，得到样本集。样本集共有3520段脑电信号，总的数据维度为(3520,16,250)。

步骤2-4:分类判别模型使用了超限学习机算法，通过最小二乘法训练网络参数。分类判别模型包括输入层、隐含层和输出层。输入层节点数为u，输出层节点数为v，训练样本数为 N。分类判别模型采用具有L个隐含层节点的单隐含层网络；隐含层节点计算方式如时(2) 所示：

其中，g(·)表示选择的激活函数；ω_i＝(ω_i，1，ω_i，2，...，ω_i，u)^T是第i个隐含层节点与输入层结点的权重向量，β_i＝(β_i，1，β_i，2，...，β_i，v)^T是第i个隐含层节点与输出层结点的权重向量。out_j表示第j个样本的在输出层的输出数值大小。τ_j表示第j个样本的输出数据；b_i是第i个隐含层节点的偏置量。

超限学习机的学习过程是一个非线性的优化过程，通过调整参数使得损失函数达到最小，公式表示如下：

其中Error(S，β)表示整个网络产生的误差，S＝(ω_i，b_i，i＝1，2，...，L)，表示网络中的隐含层的权重参数以及隐含层中的节点阈值。H(ω₁，...，ω_L，b₁，...，b_L，τ₁，...，τ_N)表示网络关于样本的隐含层输出矩阵，β表示隐含层节点与输出层结点的权重矩阵，T表示样本集的目标矩阵，定义分别如下：

其中，t_i为第i个样本的真实标签，i＝1,2,…,N。

由于脑电样本中存在目标脑电信号和非目标脑电信号类别不均衡的情况，因此将权重矩阵引入了超限学习机，构建了权重超限学习机算法。区分P类样本时，其他类别统一看作NP。权重超限学习机为了优化线性系统Hβ＝T，使用了基于约束优化的ELM(CELM)来使误差‖ξ‖²＝‖Hβ-T‖²最小化，其中ξ＝(ξ₁，ξ₂，...，ξ_N)，并输入β的两个权重归一化的参数。

传统超限学习机的权重向量表示为ω＝α(τ_P-τ_NP)，其中α表示权重的标准化系数。使用了CELM的权重向量ω以及偏置向量b的表示方式如式(3)所示:

s.t.h(τ_i)β＝t_i-ξ_i，i＝1，2，...，N

其中，Loss_p(β，ξ)为整个网络的损失，C表示正则化因子，k表示类别个数，h(τ_i)表示隐含层的输出向量，即H＝[h(τ₁)，h(τ₂)，...，h(τ_N))]。ξ_i为第i个样本的输出和真实标签之间的误差。

权重超限学习机中，权重矩阵用于平衡各个类别的特征。假设训练数据集表示为data(τ_i，ti)，i＝1，2，...，N，t_i表示第i个样本的真实标签。根据训练数据，定义了权重矩阵W′如式 (5)所示，权重矩阵W′的数值与当前样本数量相关。

其中，N_i为第i类别的样本数量，i＝1,2,…,k。

含有最终神经元权重β的方程式如式(6)所示：

步骤2-5:由于被试者之间存在个体差异，因此每个被试都会训练一个单独的分类判别模型用于脑电信号的分类。模型输出的分类结果只有目标和非目标两种结果，0表示非目标脑电信号，1表示目标脑电信号。

步骤3：EEG在线迭代

步骤3-1:计算机视觉模块随机生成第一段图像序列，并呈现给被试者观看，实验范式与离线训练相同。由于脑电信号需要实时采集分析，因此使用了BCILab工具包实时采集和分析脑电信号。在实验过程中，对于每一段脑电信号，使用离线校准阶段构建的EEG分类模型进行分类处理，并将分类结果为目标脑电信号的图像作为候选目标图像，并保存该图像下标。

步骤3-2:在每一段图像序列呈现结束之后，被试者有30秒的休息时间；休息时间开始时，将这一段图像序列中得到的所有候选目标图像下标发送给计算机视觉模块，并将这些候选目标图像呈现在屏幕左侧反馈给被试者，被试者根据候选图像调整状态。

步骤3-3:计算机视觉模块收到候选目标图像后，首先进行内部相似度计算，若内部相似度达到一定阈值，则停止搜索，告知EEG模块检索完成。否则候选目标图像相似人脸越多内部相似度越高，根据内部相似度对候选目标图像进行排序。由于候选目标中存在一定量的非目标图像，因此删除经排序的最后20％的候选目标图像。对于剩下的80％的人脸，按顺序均分为3部分。在步骤1得到的RSVP人脸图库中进行相似度检索。对于第一部分，选择RSVP 人脸图库中与其最相似的12张人脸图像；对于第二部分，选择RSVP人脸图库中与其最相似的6张人脸图像；对于第三部分，选择RSVP人脸图库中与其最相似的3张人脸图像；通过去重处理，最终得到21张扩展目标图像，作为下一次快速呈现序列的目标图像。由于第一部分是内部相似度最高的一部分，也是真正目标最多的一部分，因此对第一部分进行相似度排序，得到相似度最低的139张作为非目标图像，与前者的21张图像共同组成下一轮图像序列，共160张图像，并发送给EEG分类模型。

步骤3-3中所述的在RSVP人脸图库中进行相似度检索的具体过程如下：

步骤3-3-1：提供Server服务端，对EEG分类模型传输的n_current张候选目标图片的下标进行相应的解析，得到各候选目标图片。

步骤3-3-2：提取解析后的候选目标图片的特征向量计算各候选目标图片两两之间的余弦相似度/>进一步将相似度归一化，使得相似度sim_i，j∈(0，1)；其中，L_2NoRM(·)表示L2范式计算；sim_i，j表示人脸特征向量i与人脸特征向量j的相似度，以此完成内部相似度矩阵Matrix_inner的构造如式(7)所示。

步骤3-3-3：计算迭代结束条件并剔除干扰人脸图片

统计每张候选目标图片与其他候选目标图片相似度大于0.9的图片数目记为Count_i；其中，若/>则迭代结束。否则将各候选目标图片按Count_i从大到小进行排序，保留前80％图像，记为pics_γ,其中γ＝0.8* n_current。

步骤3-3-4：分别计算保留下来的图像与RSVP人脸图库所有图像的相似度，构造成β*n_all的相似度矩阵MatrixA如式(8)所示。n_all为RSVP人脸图库内的图像数量。

步骤3-3-5：将步骤3-3-3选取出的γ张图片按次序等分为3组，分为γ₁，γ₂，γ₃。

步骤3-3-6：将相似度矩阵MatrixA中相似度大于0.9的元素置为1，小于0.9的元素置为0，形成布尔矩阵MatrixB，以增加类间间隔，扩大相似图片与不相似图片的距离。目的为控制相似图片的数量。

步骤3-3-7：处理第一组图片的相似度矩阵γ₁*n_all，将相似度大于0.7的元素置为1，小于0.7的元素置为0，形成布尔矩阵matrixC，目的为控制不相似图片的数量。

步骤3-3-8：对matrixB分段处理后，计算第一组图片γ₁与RSVP人脸图库人脸的平均相似度，按图像的平均相似度从大到小对所有RSVP人脸图库中所有的人脸图像进行排序，从 RSVP人脸图库中选取出与第一组图片γ₁最相似的12张人脸图像，作为扩展目标图像。同理，从RSVP人脸图库中选取出与第二组图片γ₂最相似的6张人脸图像，作为扩展目标图像。从 RSVP人脸图库中选取出与第三组图片γ₃最相似的3张人脸图像，作为扩展目标图像。对根据三组图片γ₁，γ₂，γ₃选取出图像进行去重处理，若去重后，第一组图片γ₁和第二组图片γ₂对应的扩展目标图像总数小于15，则根据第一组图片γ₁在RSVP人脸图库重复挑选新的扩展目标图像，直到满足条件，以保证刺激数目足够。

步骤3-3-9：对布尔矩阵matrixC的每列元素取平均值，得到一个n_all维行向量；该行向量的每个元素代表RSVP人脸图库中一张图片与第一组图片γ₁整体的相似程度；取该n_all维行向量最小的139个元素对应的RSVP人脸图库中的139张人脸图像，作为非目标图像。

步骤3-3-10：将扩展目标图像和非目标图像返回给EEG分类模型的Client端。

步骤3-4:EEG分类模型接收到步骤3-3产生的下一轮的图像序列后，将其呈现在屏幕右侧，供被试者观看，被试者可提前熟悉目标的大概轮廓。同时，为了两张目标图像不出现在相邻的位置，将扩展目标图像随机穿插到非目标图像中，同时两张扩展目标图像不允许穿插到同一个位置。整个过程在休息时间的30秒内完成，休息结束后开始播放下一轮图像序列。

步骤3-5:当EEG分类模型挑选出的候选目标图像内部相似度超过75％后，就认为其内部相似度已到达了最终的阈值，停止迭代，并将最终选择的目标图像显示在屏幕右侧。整个迭代过程大约为4至5轮。

Claims

1.一种基于人机协同的海量人脸图库检索方法，其特征在于：步骤1：获取人脸图像集并对各人脸图像进行标记，得到RSVP人脸图库；

步骤2：被试人员对RSVP人脸图库中提取的多个图像序列进行观察并判断是否为目标对象，提取被试人员在判断时的脑波数据对EEG分类模型进行训练；EEG分类模型经过训练后，能够根据脑波数据判断图像中的人脸是否与目标人物相像；

步骤3：使用EEG分类模型在线迭代，从人脸图库中检索出被试者需要的目标图像；

步骤3-1:生成一段图像序列呈现给被试者观看，并采集被试者观看时的脑电信号；对于每一段脑电信号，使用EEG分类模型进行分类处理，EEG分类模型分离出多张候选目标图像；

步骤3-2:将各候选目标图像反馈给被试者；

步骤3-3:计算机视觉模块收到候选目标图像后，首先进行内部相似度计算，根据内部相似度对候选目标图像进行排序；再根据候选目标图像在RSVP人脸图库中进行相似度检索提取出与目标人物相似的多张扩展目标图像以及与目标人物不相似的多张非目标图像；各扩展目标图像和各非目标图像组成下一轮图像序列；

步骤3-4:EEG分类模型接收到步骤3-3产生的下一轮的图像序列后，将其呈现给被试者；将扩展目标图像随机穿插到非目标图像中，同时两张扩展目标图像不相邻；

步骤3-5:当EEG分类模型挑选出的候选目标图像内部相似度超过75％后，停止迭代；否则，重复步骤3-1至3-4进行迭代；

步骤1的过程具体为：

步骤1-1：从视频流中逐帧或跳帧提取视频帧；

步骤1-2：使用Retinaface模型检测各视频帧中的人脸及其面部特征关键点，Retinaface模型的预测结果用来判断各视频帧是否包含人脸，若包含人脸则使用回归框将视频帧中人脸位置进行框定、截取，并保存为人脸图像，由此构成RSVP人脸图库；同时，对各人脸图像中包括眼睛、鼻子、嘴角在内的人脸特征关键点进行回归定位；

步骤1-2执行后，以双眼的连线为基础，计算图像需旋转的角度θ，以图像中心点为原点(center_x,center_y)，计算其二维旋转矩阵M，其中，α＝scale·cosθ,β＝scale·sinθ，scale为人脸图像的尺度；之后根据二维旋转矩阵M，使用warpAffine尺度变换操作，实现人脸对齐；通过Arcface模型，在角度空间进行最大化分类界限，建立损失函数Loss的表达式如式(1)所示：

其中，τ_i为1*d维人脸特征向量；W_j为d*num_class维权重向量；为L2归一化后权重与样本特征夹角；s为尺度；m为角度边界惩罚系数；num_class为人脸类别数；n为批次训练使用的人脸图像总数；||·||为L2范数运算。

2.根据权利要求1所述的一种基于人机协同的海量人脸图库检索方法，其特征在于：步骤1的过程如下；取监控视频中的各帧图片，利用Retinaface模型检测图片中的人脸及其面部特征关键点，再通过面部特征关键点进行人脸对齐；使用Arcface模型在角度空间中最大化人脸分类界面，以提取人脸特征向量。

3.根据权利要求1所述的一种基于人机协同的海量人脸图库检索方法，其特征在于：步骤2的具体过程如下：

步骤2-1:从RSVP人脸图库中提取多段图像序列；每段图像序列均包括多张人脸图像；同时，两张目标图像不会出现在相邻的位置；目标图像表示含有预先设定为目标人物的人脸图像；

步骤2-2:被试者注视图像序列；每两段图像序列中休息一段时间；当被试者发现目标时，被试者进行反馈，同时采集被试者的脑电信号；

步骤2-3:对于采集到的脑电信号进行预处理；将脑电信号降采样，并进行1-12Hz带通滤波，脑电信号只保留16个通道的数据；将滤波后的数据进行分段，保存被试者开始观看图像后的1s脑电信号，得到样本集；

步骤2-4:分类判别模型使用了超限学习机算法，通过最小二乘法训练网络参数；分类判别模型包括输入层、隐含层和输出层；输入层节点数为u，输出层节点数为v，训练样本数为N；分类判别模型采用具有L个隐含层节点的单隐含层网络；隐含层节点计算方式如式(2)所示：

其中，g(·)表示选择的激活函数；ω_i是第i个隐含层节点与输入层结点的权重向量，β_i是第i个隐含层节点与输出层结点的权重向量；out_j表示第j个样本的在输出层的输出数值大小；τ_j表示第j个样本数据；b_i是第i个隐含层节点的偏置量；

通过调整参数使得损失函数达到最小如下：

其中Error(S，β)整个网络产生的误差，S＝(ω_i，b_i，i＝1,2，...，L)，表示网络中的隐含层的权重参数以及隐含层中的节点阈值；H(ω₁，...，ω_L，b₁，...，b_L，τ₁，...，τ_N)表示网络关于样本的隐含层输出矩阵，β表示隐含层节点与输出层结点的权重矩阵，T表示样本集的目标矩阵；

使用了CELM的权重向量ω以及偏置向量b的表示方式如式(3)所示：

其中，τ_P为P类样本对应的输入；τ_NP为NP类样本对应的输入；对于k元分类问题，CELM的计算过程表示如式(4)所示：

s.t.h(τ_i)β＝t_i-ξ_i，i＝1，2，...，N

其中，Loss_p(β,ξ)为整个网络的损失，C表示正则化因子，k表示类别个数，h(τ_i)表示隐含层的输出向量；ξ_i为第i个样本的输出和真实标签之间的误差；

训练数据集表示为data(τ_i，t_i)，i＝1，2，...，N，t_i表示第i个样本的真实标签；根据训练数据，定义了权重矩阵W′如式(5)所示；

其中，N_i为第i类别的样本数量，i＝1，2，...，k；

含有最终神经元权重β的方程式如式(6)所示：

4.根据权利要求1所述的一种基于人机协同的海量人脸图库检索方法，其特征在于：步骤3-3中，在RSVP人脸图库中进行相似度检索的具体过程如下：

步骤3-3-1：获取各候选目标图片；

步骤3-3-2：提取候选目标图片的特征向量，计算各候选目标图片两两之间的余弦相似度，进一步将相似度归一化，使得相似度sim_i，j∈(0，1)；其中，sim_i，j表示人脸特征向量i与人脸特征向量j的相似度，以此完成内部相似度矩阵Matrix_inner；

步骤3-3-3：计算迭代结束条件并剔除干扰人脸图片

统计每张候选目标图片与其他候选目标图片相似度大于0.9的图片数目记为Count_i；其中，若/>则迭代结束；否则将各候选目标图片按Count_i从大到小进行排序，保留前80％图像；

步骤3-3-4：分别计算保留下来的图像与RSVP人脸图库所有图像的相似度，构造成相似度矩阵MatrixA如式(8)所示；

其中，n_all为RSVP人脸图库的图片数量；

步骤3-3-5：将步骤3-3-3选取出的图片按次序等分为3组；

步骤3-3-6：将相似度矩阵MatrixA中相似度大于0.9的元素置为1，小于0.9的元素置为0，形成布尔矩阵MatrixB；

步骤3-3-7：处理第一组图片的相似度矩阵，将相似度大于0.7的元素置为1，小于0.7的元素置为0，形成布尔矩阵matrixC；

步骤3-3-8：对matrixB分段处理后，计算第一组图片与RSVP人脸图库人脸的平均相似度，按图像的平均相似度从大到小对RSVP人脸图库中所有的人脸图像进行排序，从RSVP人脸图库中选取出与第一组图片最相似的12张人脸图像，作为扩展目标图像；同理，从RSVP人脸图库中选取出与第二组图片最相似的6张人脸图像，作为扩展目标图像；从RSVP人脸图库中选取出与第三组图片最相似的3张人脸图像，作为扩展目标图像；对根据三组图片选取出图像进行去重处理，若去重后，第一组图片和第二组图片对应的扩展目标图像总数小于15，则根据第一组图片在RSVP人脸图库挑选新的扩展目标图像；

步骤3-3-9：对布尔矩阵matrixC的每列元素取平均值，得到一个n_all维行向量；该行向量的每个元素代表RSVP人脸图库中一张图片与第一组图片整体的相似程度；取该n_all维行向量最小的139个元素对应的RSVP人脸图库中的139张人脸图像，作为非目标图像；