CN116188804B

CN116188804B - 一种基于transformer的孪生网络目标搜索系统

Info

Publication number: CN116188804B
Application number: CN202310449364.7A
Authority: CN
Inventors: 郑艳伟; 何国海; 于东晓; 李峰
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-07-04
Anticipated expiration: 2043-04-25
Also published as: CN116188804A

Abstract

本发明属于计算机视觉中图像检索和目标检测领域，本发明公开了一种基于transformer的孪生网络目标搜索系统，本发明通过引入vision transformer模型加DETR目标检测头的方式，训练目标检索模型，端到端地训练当前的目标检索模型，同时完成检测和检索的任务，更好地提升了模型的准确性。

Description

一种基于transformer的孪生网络目标搜索系统

技术领域

本发明属于计算机视觉中图像检索和目标检测领域，本发明公开了一种基于transformer的孪生网络目标搜索系统。

背景技术

计算机视觉就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。图像处理技术把输入图像转换成具有所希望特性的另一幅图像。在计算机视觉研究中经常利用图像处理技术进行预处理和特征抽取，让计算机具有视觉、听觉和说话等能力。

目标检测与识别在生活中多个领域中有着广泛的应用，它是将图像或者视频中的目标与不感兴趣的部分区分开，判断是否存在目标，若存在目标则确定目标的位置，识别目标是一种计算机视觉任务。目标检测与识别是计算机视觉领域中一个非常重要的研究方向，随着互联网，人工智能技术，智能硬件的迅猛发展，人类生活中存在着大量的图像和视频数据，这使得计算机视觉技术在人类生活中起到的作用越来越大，对计算机视觉的研究也越来月火热。目标检测与识别，作为计算机视觉领域的基石，也越来越受到重视。由于当前对目标检索系统的需求越来越大，且目标检索系统的技术发展较为缓慢，迫切需要一套成熟的目标检索系统，准确地解决实际的目标检索问题，故开发本系统。

发明内容

为解决上述技术问题，本发明提供了一种基于transformer的孪生网络目标检索系统，利用摄像头监测目标，结合计算机视觉中图像检索和目标检测的方法，实现了对摄像头监控区域内目标的检索与显示。

为达到上述目的，本发明的技术方案如下：

一种基于transformer的孪生网络目标搜索系统，包括以下步骤：

(1)采集图像数据，作为待搜索图；并在部分待搜索图中提取出感兴趣目标，作为查询图，设计孪生网络目标搜索训练模型；

(2)进行摄像头区域选择，选择摄像头群组确定搜索区域，输入待搜索目标图片；

(3)搜索任务启动，通过视频取帧的方式从摄像头内等时间间隔地获取场景图片，图片通过模型进行检测，检测出每一个目标，将目标与待搜索图做特征比较，计算目标匹配度，取最大值，若匹配度超过设定阈值，将搜索图片的序号i加入结果队列；

(4)若结果队列有新纪录产生，则将当前检测图片存入后台服务器设置好的静态资源目录下，并将信息存入数据库，前端界面根据需求从数据库筛选显示对应目标的搜索结果信息。

进一步的，步骤(1)具体方法如下：

(1.1)采集n张搜索图记为I₁,I₂,…,I_n，每张搜索图默认大小为224*224，n张搜索图中目标个数分别为m_b,b∈(1,2,…,n)切割出查询图为I′₁₁,I′₁₂,…,I′_1m1,…,I′_n1,I′_n2,…,I′_nmn，将每张查询图由原尺寸放缩到大小为56*56，记为I₁₁,I₁₂,…,I_1m1,…,I_n1,I_n2,…,I_nmn，然后对每张查询图进行人工分类，把同一个目标的查询图分为一类，假设可以将查询图分为count类，记为cnt₁,cn₂,…,cnt_count，对应count个文件夹将每张查询图放入对应类的文件夹中，然后建立一个字典dict，key值对应为每一张搜索图，记为dict[I₁],dict[I₂],…,dict[I_n]，dict中的每个key值对应的value为当前搜索图中存在所有目标的类名；

(1.2)设计孪生网络目标搜索模型，模型特征提取主干分为vit1、vit2，vit1用来提取搜索图的特征；然后选择16张查询图，选择规则为：查询当前搜索图的索引index，从不是当前索引的类别文件夹中随机选择4张查询图，从索引的所有类别文件中共选择12张查询图，其中每个类别文件夹随机选取3张查询图，若可以选择出12张查询图，则将这16张56*56的查询图以随机顺序拼接为一张224*224的图片；vit2用来提取“查询拼接图”中对应一系列查询图的特征，vit1和vit2进行权值共享；

(1.3)vit1提取的特征通过DETR目标检测头获得一个obj_loss，DETR目标检测头的作用是预测搜索图中的每个目标的位置，vit1与vit2提取的特征共同获得一个sch_loss，obj_loss与sch_loss通过比例关系进行组合。

进一步的，步骤(1.2)中：若不可以选择出12张查询图，则用数据增强的方式，每次从已经选择出的查询图中随机选择一张查询图进行处理，通过翻转或旋转的方式，产生一张新的查询图，大小仍为56*56，重复数据增强操作，直到查询图的总数达到16张，则数据增强操作结束，然后这16张56*56的查询图拼接为一张与搜索图224*224的图片，这张新拼接的图片命名为“查询拼接图”，记为D₁,D₂,…,D_n。

进一步的，步骤(1.2)中，

(1.2.1)添加DETR目标检测头，可以从每张待搜索图中检测并框出每一个目标，并且获得每个目标的坐标；

(1.2.2)数据分为n组，每组为(I_u,D_v),u∈{1,2...,n},v∈{1,2...,n}，其中I_u为第u张搜索图，D_v为第v张查询拼接图；I_u通过vit1提取特征Z_u，然后通过DETR目标检测头，得到搜索图中m_b个目标的特征向量Z′_u1,Z′_u2,...,Z′_um，将m个目标的特征向量放缩到56*56*384的特征维度，对应特征向量为Z_u1,Z_u2,...,Z_um，D_v通过vit2提取特征Z_v，由于D_v是由16张56*56大小的查询图拼接而成，即可以根据固定的坐标位置提取特征得到对应的16个特征向量Z_v1,Z_v2,...,Z_v16；

(1.2.3)对于搜索图产生的特征向量Z_u1,Z_u2,...,Z_um，查询拼接图产生的特征向量Z_v1,Z_v2,...,Z_v16，两两比较，二者属于同一类别时，定义为正样本，二者不属于同一类别时，定义为负样本，采用余弦距离公式定义损失函数：

dloss₁＝1-cos<Z_uδ,Z_vη}> (公式1)；

dloss₂＝1+cos<Z_uδ,Z_vη}> (公式2)；

dloss＝dloss₁+ dloss₂ (公式3)；

u∈{1,2,...,n}，v∈{1,2,...,n},δ∈{1,2,...,m},η∈{1,2,...16}；Z_uδ为搜索图u的第δ目标的特征向量；Z_vη为查询拼接图v的第η个特征向量；

当输入网络的为正样本时，采用公式1计算损失，需要使两个特征向量Z_uδ,Z_vη之间的距离越小，导致dloss₁越小，当输入网络的为负样本时，采用公式2计算损失，需要使两个特征向量Z_uδ,Z_vη之间的距离越大，导致dloss₂越小，最终使dloss越小。

进一步的，步骤(1.3)具体方法如下：

(1.3.1)设vit1中的单个目标经过DETR目标检测头输出loss为obj_loss，设检测头得到k个检测框，概率分别为p₁,p₂,…,p_k，则结果框编号为：

(1.3.2)选择num号检测框区域记录为A，设预置anchor的区域为B，A与B保证有相交区域，且B不完全包含A，假设x代表A∩B或者A∪B的区域，则|x|代表区域x的面积；

(1.3.3)vit1与vit2的特征共同获得一个sch_loss，定义基准t∈[0,1]，vit1的特征向量定义为L₁，vit2的特征向量定义为L₂，t＝α*L₁-β*L₂，α和β是可学习的参数，对于所有的搜索图和对应的查询图成组输入时，让t尽可能去趋近于0，反之，不是成组输入时，让t尽可能去趋近于1，每次的sch_loss＝|α-β|；

(1.3.4)确定最终损失：loss＝λ₁*obj_loss+λ₂*sch_loss，其中λ₁+λ₂＝1。

进一步的，步骤(2)具体方法如下：

(2.1)为当前任务建立一个新的进程，并将当前的进程ID加入到进程队列中，启动当前进程，准备执行目标搜索任务；

(2.2)程序启动时，需要在前端选择对应区域的摄像头群组，假设选择q个摄像头对应c₁,c₂…,c_q，并检测是否已加入了目标图片name_tar，满足条件即成功启动系统。

进一步的，步骤(3)具体方法如下：

(3.1)前端传入启动命令，启动目标搜索模块；

(3.2)运行视频取帧模块，针对q个摄像头中，每个摄像头取出一张待检测图片，图片名为name₁,name₂…,name_q，每一张图片产生特征向量分别为f₁,f₂…,f_q，每一张图片里面的m_b个目标(m≥1)对应的特征向量分别为f′₁₁,f′₁₂,…f′_1m,…,f′_q1,f′_q2…,f′_qm，放缩到与目标图片的特征向量f_tar同样的维度尺寸，分别为f₁₁,f₁₂,...f_1m,...,f_q1,f_q2…,f_qm，然后与目标图片的特征向量f_tar，进行特征比较计算匹配度，生成特征匹配度哈希表Map，Map[i][0]记录图片的序号i的最高匹配度，Map[i][1]记录图片的序号i中最高匹配度目标区域的位置坐标，其中每个值为：

Map[i][0]＝cos< f[i][j],f_tar> ,i∈[1,q],j∈[1,m] (公式6)；

Map[i][1]＝(center_x,center_y,h,w) (公式7)；

其中cente_x代表区域中心的横坐标，cent_y代表区域中心的纵坐标，h代表区域高度，w代表区域宽度；

(3.3)设定阈值为y，从Map中选择值超过y的图片的序号i，将图片的序号i加入到结果对列Result。

进一步的，步骤(3.3)具体方法如下：

(3.3.1)遍历当前Map，对每个Map[i][0]，若Map[i][0]>y，则说明当前图片是含有目标图片特征的有效的场景图片，记录图片的序号i；

(3.3.2)对筛选出的图片序号做一个添加操作，在结果对列Result的末尾加入新产生图片的序号i，i∈[1,q]，最后返回结果对列Result。

进一步的，步骤(4)具体方法如下：

(4.1)检测结果队列，若有新记录产生，获取当前图片的序号i，将图片的序号i存入预先设置好的服务器static文件夹下，并生成图片序号i的访问地址url_i，将摄像头c_i、目标匹配度Map[i][0]、目标坐标Map[i][1]、目标图片名name_tar与访问地址url_i写入数据库；

(4.2)前端通过设置查找条件，实时筛选显示当前目标图片name_tar对应的搜索结果信息。

与现有技术相比，本发明具有以下有益效果：

(1)本发明通过采用孪生网络，引入query进行训练，使训练后的模型更加准确，具有针对性。

(2)本发明通过引入vision transformer模型+DETR目标检测头的方式，训练目标检索模型，端到端地训练当前的目标检索模型，同时完成检测和检索的任务，更好地提升了模型的准确性。

(3)本发明通过前端，在前端实时地筛选显示当前目标图片在监控区域内出现的情况，并实时更新。

附图说明

图1为本发明实施例所公开的一种基于transformer的孪生网络目标检索系统整体示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种基于transformer的孪生网络目标检索系统，如图1所示，该方法可以利用摄像头监测目标，结合计算机视觉中图像检索和目标检测的方法，实现了对摄像头监控区域内目标的检索与显示。

具体实施例如下：

一种基于transformer的孪生网络目标检索系统，包括以下步骤：

(1)数据采集与模型设计阶段：

(1.1)采集n张搜索图记为I₁,I₂,…,I_n，每张搜索图默认大小为224*224，n张搜索图中目标个数分别为m_b,b∈(1,2,…,n)，切割出查询图为

经过Resize操作(对图片进行放缩操作)，将每张查询图由原尺寸放缩到大小为56*56，记为

然后对每张查询图进行人工分类，把同一个目标的查询图分为一类，假设可以将查询图分为count类，记为cnt₁,cnt₂,…,cnt_count，对应count个文件夹将每张查询图放入对应类的文件夹中，然后建立一个字典dict，key值对应为每一张搜索图，记为dict[I₁],dict[I₂],…,dict[I_n]，dict中的每个key值对应的value为当前搜索图中存在所有目标的类名(同文件夹名)。

(1.2)设计孪生网络目标搜索模型，模型特征提取主干分为vit1、vit2(vit1与vit2均基于vision transformer)，vit1用来提取搜索图的特征；然后选择16张查询图，选择规则为：查询当前搜索图的索引index，从不是当前索引的类别文件夹中随机选择4张查询图，从索引的所有类别文件中共选择12张查询图，其中每个类别文件夹随机选取3张查询图，若可以选择出12张查询图，则将这16张56*56的查询图以随机顺序拼接为一张224*224的图片；若不可以选择出12张查询图，则用数据增强的方式，每次从已经选择出的查询图中随机选择一张查询图进行处理，通过翻转或旋转的方式，产生一张新的查询图，大小仍为56*56，重复数据增强操作，直到查询图的总数达到16张，则数据增强操作结束，然后将这16张56*56的查询图拼接为一张搜索图224*224的图片，这张新拼接的图片命名为“查询拼接图”，记为D₁,D₂,…,D_n，vit2用来提取“查询拼接图”中对应一系列查询图的特征，vit1和vit2进行权值共享进一步提高网络的准确性，具体操作为：

(1.2.1)添加DETR目标检测头，DETR目标检测头是检测图片中目标位置的一个功能模块，它可以预测当前图片中每个目标所在的位置，通过DETR目标检测头，可以从每张待搜索图中，检测并框出每一个目标，并且获得每个目标的坐标。

DETR的全称是DEtection TRansformer,是Facebook提出的基于Transformer的端到端目标检测网络.

(1.2.2)数据分为n组，每组为(I_u,D_v),u∈{1,2...,n},v∈{1,2...,n}，其中I_u为第u张搜索图，D_v为第v张查询拼接图；I_u通过vit1提取特征Z_u，然后通过DETR目标检测头，得到搜索图中m_b个目标的特征向量Z′_u1,Z′_u2,...,Z′_um，经过一个ROI Pooling操作将m个目标的特征向量放缩到56*56*384的特征维度，对应特征向量为Z_u1,Z_u2,...,Z_um，D_v通过vit2提取特征Z_v，由于D_v是由16张56*56大小的查询图拼接而成，即可以根据固定的坐标位置提取特征得到对应的16个特征向量Z_v1,Z_v2,...,Z_v1。

dloss₁＝1-cos<Z_uδ,Z_vη}> (公式1)；

dloss₂＝1+cos<Z_uδ,Z_vη}> (公式2)；

dloss＝dloss₁+dlo₂ (公式3)；

u∈{1,2,...,n},v∈{1,2,...,n},δ∈{1,2,...,m},η∈{1,2,...16}；Z_uρ为搜索图u的第δ目标的特征向量；Z_vη为查询拼接图v的第η个特征向量；

(1.3)vit1提取的特征通过DETR目标检测头(DETR目标检测头的作用是预测搜索图中的每个目标的位置)，获得一个obj_loss，vit1与vit2提取的特征共同获得一个sch_loss，obj_loss与sch_loss通过比例关系进行组合，具体操作为：

(1.3.1)设vit1中的单个目标经过DETR目标检测头输出loss为obj_loss，

设检测头得到k个检测框，概率分别为p₁,p₂,…,p_k，则结果框编号为：

(1.3.2)选择num号检测框区域记录为A，设预置anchor的区域为B，A与B保证有相交区域，且B不完全包含A，假设x代表A∩B或者A∪B的区域，则|x|代表区域x的面积。

(1.3.3)vit1与vit2的特征共同获得一个sch_loss，定义基准t∈[0,1]，vit1的特征向量定义为L₁，vit2的特征向量定义为L₂，t＝α*L₁-β*L₂，α和β是可学习的参数，对于所有的搜索图和对应的查询图成组输入时，让t尽可能去趋近于0，反之，不是成组输入时，让t尽可能去趋近于1，每次的sch_loss＝|α-β|。

(1.3.4)确定最终损失：loss＝λ₁*obj_loss+λ₂*sch_loss，其中λ₁+λ₂＝1，可根据需要调整。目前我们采用λ₁＝0.8,λ₂＝0.2的取值。

(2)开关设置与区域设置阶段：

(2.1)为当前任务建立一个新的进程，并将当前的进程ID加入到进程队列中，启动当前进程，准备执行目标搜索任务。

(3)模型检测处理阶段：

(3.1)前端传入启动命令，启动目标搜索模块；

(3.2)运行视频取帧模块，针对q个摄像头中，每个摄像头取出一张待检测图片，图片名为name₁,name₂…,name_q，每一张图片产生特征向量分别为f₁,f₂…,f_q，每一张图片里面的m_b个目标(m≥1)对应的特征向量分别为f′₁₁,f′₁₂,…f′_1m,…,f′_q1,f′_q2…,f′_qm，经过一个ROI Pooling操作(对特征向量进行放缩)，放缩到与目标图片的特征向量f_tar同样的维度尺寸，分别为f₁₁,f₁₂,...f_1m,...,f_q1,f_q2…,f_qm，然后与目标图片的特征向量f_tar，进行特征比较计算匹配度，生成特征匹配度哈希表Map，Map[i][0]记录图片序号i的最高匹配度，Map[i][1]记录图片序号i中最高匹配度目标区域的位置坐标，其中每个值为：

Map[i][0]＝cos< f[i][j],f_tar> ,i∈[1,q],j∈[1,m] (公式6)；

Map[i][1]＝(center_x,center_y,h,w)(公式7)；

其中center_x代表区域中心的横坐标，center_y代表区域中心的纵坐标，h代表区域高度，w代表区域宽度。

(3.3)设定阈值为y，从Map中选择值超过y的图片序号i，将图片的序号i加入到结果对列Result，具体操作为：

(3.3.1)遍历当前Map，对每个Map[i][0]，若Map[i][0]>y，则说明当前图片是含有目标图片特征的有效的场景图片，记录图片序号i。

(3.3.2)对筛选出的图片序号做一个添加操作，在结果对列Result的末尾加入新产生的图片序号i，i∈[1,q]，最后返回结果对列Result。

(4)存储与显示阶段：

(4.1)检测结果队列，若有新记录产生，获取当前图片序号i，将图片i存入预先设置好的服务器static文件夹下，并生成图片序号i的访问地址url_i，将摄像头c_i、目标匹配度Map[i][0]、目标坐标Map[i][1]、目标图片名name_tar与访问地址ur_i写入数据库。

该方法可在部署了摄像头的场景下，实现对摄像头监控区域内目标的检索与显示，引入孪生网络，vision transformer模型+DETR目标检测头的方式，结果队列，区域loss计算，匹配度计算、摄像头区域选择等手段，兼容多种类型可见光摄像头的使用，具有较高的鲁棒性，在前端筛选显示当前目标图片在监控区域内出现的情况，并实时更新。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于transformer的孪生网络目标搜索系统，其特征在于，包括以下步骤：

(1.1)采集n张搜索图记为I₁,I₂,…,I_n，每张搜索图默认大小为224*224，n张搜索图中目标个数分别为m_b,b∈(1,2,…,n)切割出查询图为

将每张查询图由原尺寸放缩到大小为56*56，记为/>

然后对每张查询图进行人工分类，把同一个目标的查询图分为一类，假设可以将查询图分为count类，记为cnt₁,cnt₂,…,cn_count，对应count个文件夹将每张查询图放入对应类的文件夹中，然后建立一个字典dict，key值对应为每一张搜索图，记为dict[I_i],dict[I₂],…,dict[I_n]，dict中的每个key值对应的value为当前搜索图中存在所有目标的类名；

(1.2.3)对于搜索图产生的特征向量Z_u1,Z_u2,...,Z_um，查询拼接图产生的特征向量Z_v1,Z_v2,...,Z_v1，两两比较，二者属于同一类别时，定义为正样本，二者不属于同一类别时，定义为负样本，采用余弦距离公式定义损失函数：

dloss₁＝1-cos<Z_uδ,Z_vη}> (公式1)；

dloss₂＝1+cos<Z_uδ,Z_vη}> (公式2)；

dloss＝dloss₁+ dloss₂ (公式3)；

当输入网络的为正样本时，采用公式1计算损失，需要使两个特征向量Z_uδ,Z_vη之间的距离越小，导致dloss₁越小，当输入网络的为负样本时，采用公式2计算损失，需要使两个特征向量Z_uδ,Z_vη之间的距离越大，导致dloss₂越小，最终使dloss越小；

(1.3)vit1提取的特征通过DETR目标检测头获得一个obj_loss，DETR目标检测头的作用是预测搜索图中的每个目标的位置，vit1与vit2提取的特征共同获得一个sch_loss，obj_loss与sch_loss通过比例关系进行组合；

2.根据权利要求1所述的一种基于transformer的孪生网络目标搜索系统，其特征在于，步骤(1.2)中：若不可以选择出12张查询图，则用数据增强的方式，每次从已经选择出的查询图中随机选择一张查询图进行处理，通过翻转或旋转的方式，产生一张新的查询图，大小仍为56*56，重复数据增强操作，直到查询图的总数达到16张，则数据增强操作结束，然后这16张56*56的查询图拼接为一张与搜索图224*224的图片，这张新拼接的图片命名为“查询拼接图”，记为D₁,D₂,…,D_n。

3.根据权利要求1所述的一种基于transformer的孪生网络目标搜索系统，

其特征在于，步骤(1.3)具体方法如下：

(1.3.3)vit1与vit2的特征共同获得一个sch_loss，定义基准t∈[0,1]，vit1的特征向量定义为L₁，vit2的特征向量定义为L₂，t＝α*L₁-β*L₂，α和β是可学习的参数，对于所有的搜索图和对应的查询图成组输入时，让t尽可能去趋近于0，反之，不是成组输入时，让t尽可能去趋近于1，每次的

sch_loss＝|α-β|；

4.根据权利要求1所述的一种基于transformer的孪生网络目标搜索系统，其特征在于，步骤(2)具体方法如下：

5.根据权利要求1所述的一种基于transformer的孪生网络目标搜索系统，其特征在于，步骤(3)具体方法如下：

(3.1)前端传入启动命令，启动目标搜索模块；

(3.2)运行视频取帧模块，针对q个摄像头中，每个摄像头取出一张待检测图片，图片名为name₁,name₂…,name_q，每一张图片产生特征向量分别为f₁,f₂…,f_q，每一张图片里面的m_b个目标(m≥1)对应的特征向量分别为f′₁₁,f′₁₂,…f′_1m,…,f′_q1,f′_q2…,f′_qm，放缩到与目标图片的特征向量f_tar同样的维度尺寸，分别为f₁₁,f₁₂,...f_1m,...,f_q1,f_q2…,f_qm，然后与目标图片的特征向量f_tar，进行特征比较计算匹配度，生成特征匹配度哈希表Map，

Map[i][0]记录图片的序号i的最高匹配度，Map[i][1]记录图片的序号i中最高匹配度目标区域的位置坐标，其中每个值为：

Map[i][0]＝cos< f[i][j],f_tar> ,i∈[1,q],j∈[1,m] (公式6)

Map[i][1]＝(center_x,cen_y,h,w)(公式7)

其中cent_x代表区域中心的横坐标，cen_y代表区域中心的纵坐标，h代表区域高度，w代表区域宽度；

6.根据权利要求5所述的一种基于transformer的孪生网络目标搜索系统，其特征在于，步骤(3.3)具体方法如下：

7.根据权利要求5所述的一种基于transformer的孪生网络目标搜索系统，其特征在于，步骤(4)具体方法如下：

(4.1)检测结果队列，若有新记录产生，获取当前图片的序号i，将图片的序号i存入预先设置好的服务器static文件夹下，并生成图片的序号i的访问地址url_i，将摄像头c_i、目标匹配度Map[i][0]、目标坐标Map[i][1]、目标图片名name_tar与访问地址url_i写入数据库；