CN116188538A

CN116188538A - 一种多摄像头的行为轨迹跟踪方法

Info

Publication number: CN116188538A
Application number: CN202211467537.XA
Authority: CN
Inventors: 刘歆; 王心怡; 钱鹰; 万邦睿; 陈奉; 梁晋周; 陈雪; 柯礼灵
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-05-30

Abstract

本发明涉及一种多摄像头的行为轨迹跟踪方法，属于计算机视觉技术领域，包括以下步骤：S1：指定公共服务大厅多个摄像头，分别采集多个摄像头下服务区的坐标信息，将坐标信息与摄像头进行绑定；S2：结合目标检测模型和行人重识别模型对顾客轨迹进行跟踪，建立多个摄像头的顾客活动轨迹库；S3：计算多个摄像头下服务区与顾客目标检测框的IoU和深度图确认顾客是否到达服务区；S4：对顾客进入服务区到顾客离开服务区的行为进行识别；S5：构建多个摄像头下的顾客行为轨迹库，通过时间信息对齐，对行为进行筛选，得到顾客的行为轨迹。本专利通过在多个摄像头下跟踪顾客得到较为有效的顾客行为轨迹，可用于辅助公共服务大厅业务流程制定和划分。

Description

一种多摄像头的行为轨迹跟踪方法

技术领域

本发明属于计算机视觉技术领域，涉及一种多摄像头的行为轨迹跟踪方法。

背景技术

公共服务大厅每天接待大量顾客，且某些服务办理流程较为复杂。目前没有较好识别顾客行为轨迹的方法。通过识别顾客的行为轨迹，可以帮助工作人员掌握顾客办理业务的流程以及停留时间，以此优化业务流程制定和服务大厅设备摆放。结合多个摄像头下顾客办理业务信息，可以识别顾客整体的业务办理流程。

目前针对行为轨迹识别的研究手段可以分为两种：一种是基于计算机视觉的研究手段，另外一种就是基于传感器建立动力学模型的研究手段。

基于传感器的方法，需要顾客穿戴相应的传感器，但是公共服务大厅每天都有较多顾客，基于传感器的方法成本较高。受到造价成本限制，此方法有一定的局限性。

基于计算机视觉的方法，通过模型对真实场景进行建模模拟，得出较为准确的识别结果。基于计算机视觉的方法不需要顾客的配合，节约了时间和金钱成本。基于计算机视觉的方法可以巧妙地结合多个摄像头的顾客行为轨迹，避免识别错误和遮挡的情况，并能根据顾客的办理服务优先级得到较为有效的行为轨迹，可用于辅助公共服务大厅业务流程制定和划分。

发明内容

有鉴于此，本发明的目的在于提供一种多摄像头的行为轨迹跟踪方法，通过跟踪服务大厅顾客行为轨迹，掌握顾客办理业务的流程以及停留时间，以此优化业务流程和服务大厅设备摆放。通过顾客与关键服务区的位置信息判断顾客在服务大厅的运动轨迹。在关键服务区，顾客的行为会被记录。多个摄像头拍摄的不同角度行为轨迹信息通过时间信息将其对齐整合，最终形成顾客在服务大厅中办理的行为轨迹。

为达到上述目的，本发明提供如下技术方案：

一种多摄像头的行为轨迹跟踪方法，包括以下步骤：

S1：标定多个摄像头并分别采集多个摄像头下服务区的坐标信息，将坐标信息与摄像头进行绑定；

S2：结合目标检测模型和行人重识别模型对顾客轨迹进行跟踪，建立多个摄像头的顾客活动轨迹库；

S3：计算多个摄像头下服务区与顾客目标检测框的交并比IoU，当IoU大于一定阈值时，利用深度图检测模型确认顾客是否到达服务区；

S4：使用行为识别模型对顾客进入服务区到顾客离开服务区的行为进行识别；

S5：构建多个摄像头下的顾客行为轨迹库，通过时间信息对齐，对重复的行为进行删除，同一时间在不同摄像头下出现的不同行为根据优先级选择最终行为，从而得到顾客的行为轨迹。

进一步，所述步骤S1具体包括以下步骤：

S11：获取公共服务大厅中多个摄像头下的拍摄信息，指定相应的摄像头并标记为{C₁,…,C_k,…,C_cam}，k∈{1,…,cam}，其中C_k表示第k个摄像头，总共有cam个不同的摄像头。

S12：使用目标检测模型获取多个摄像头下公共服务大厅服务区坐标信息：将收集到的图像信息打标整理后送入模型中训练，得到识别服务区的目标检测模型。按照不同摄像头{C₁,…,C_k,…,C_cam}得到的不同视角的图像信息，依次通过训练好的目标检测模型计算得到多个摄像头下服务区的坐标信息，坐标信息包含目标检测框的左上角和右下角的角标，分别表示为

其中s_i表示第i个服务区，i∈{1,2,3,…,sen}，一共有sen个服务区，1代表左上角坐标，2代表右下角坐标。在C_k摄像头下获取的坐标信息表示为C_k:/>

进一步，所述步骤S2具体包括以下步骤：

S21：使用目标检测模型定位多个摄像头下顾客：根据一定的帧率，将服务大厅摄像头画面抽帧。用训练好的目标检测模型依次对多个摄像头监控视频进行识别，按指定步长采样得到C_k摄像头下的帧画面以及与其对应的时间信息C_k:{[T₁,F₁],[T₂,F₂],…,[T_d,F_d]}，其中T记录采样帧画面F的时间信息(该时间表示北京时间，精确到秒)，d表示总帧数。然后用目标检测模型依次在视频帧{F₁,F₂,…,F_d}中检测出顾客，得到顾客cus_j目标检测框坐标信息po_j，

其中cus_j表示第j个顾客，1代表左上角坐标，2代表右下角坐标。由于一帧中可能存在多个顾客，于是将时间为T_d的帧F_d中检测出的所有顾客的位置信息集合表示为/>

其中/>

表示第d帧中的第j个顾客的坐标信息，即该帧中共有custd个顾客的坐标信息。得到顾客坐标信息之后将其与帧和时间信息绑定，表示为C_k:{[T₁,Pos₁,F₁],[T₂,Pos₂,F₂],…,[T_d,Pos_d,F_d]}。

S22：建立顾客id集，根据顾客id集保存相同顾客的帧序列，形成活动轨迹集：按照S21中每帧图像F中保存的顾客位置信息Pos对其进行裁剪并输入到行人重识别模型PCB中，识别每个位置的顾客对应的id值并存入顾客id集中。若顾客id集中不存在该顾客，且不属于工作人员id，则表示该顾客为新出现顾客，赋予其新的id并保存至顾客id集中；若顾客id集中有该顾客的信息，则提取他的id作为轨迹跟踪的标识。将包含相同顾客id的帧画面按照S21中保存的时间顺序{T₁,T₂,…,T_d}保存为该顾客cus_j的活动轨迹，表示为C_k：{cus_j[F′_m,…,F′_n]}，其中m,n∈{1,2,3,…,d}，cus_j表示id值为j的顾客，F′表示带有顾客cus_j的坐标信息和时间信息的帧画面。令cus_j的活动轨迹

遍历C_k摄像头下所有顾客得到不同的活动轨迹，保存为顾客活动轨迹集，表示为/>

其中j＝1,…,allcust，/>

表示顾客cus_j的活动轨迹，总共有allcust个顾客。

进一步，所述步骤S3具体包括以下步骤：

S31：在活动轨迹集中取出C_k下顾客cus_j的活动轨迹序列{F′_m,…,F′_n}，依次计算该顾客和服务区s_i的目标检测框交并比IoU。顾客目标检测框A，服务区目标检测框B，则

从步骤S12和步骤S21中取出服务区和顾客的坐标信息，分别为

和/>

A_area∩B_area形成长方形S，S的长/>

S的宽/>

则A∩B＝width*length，根据A，B，A∩B的值，最终求出IoU值。

若IoU大于一个阈值I，表示顾客目标框与服务区目标检测框重叠，则启动深度图检测模型，从顾客活动轨迹中筛选出顾客目标检测框与服务区目标检测框重叠的视频帧，保存该视频帧序列为C_k：{cus_j[F′_p,…,F′_q]}，p,q∈{m,…,n}。

S32：将步骤S31中得到的顾客目标检测框与服务区目标检测框重叠的视频帧序列{F′_p,…,F′_q}送入深度图检测模型Megadepth中检测，得到顾客和服务区上的每个像素点的像素值。该像素值表示该点距离摄像机的深度。顾客目标检测框内深度像素集合为

其中/>

表示顾客cus_j的第a个像素点的像素值；服务区目标检测框内深度像素集合为/>

其中/>

表示服务区s_i的第b个像素点的像素值。

由于目标检测框中除了有当前跟踪的顾客之外可能存在其他干扰像素，如：其他路人或者背景场景等少量离群像素，因此将会使用绝对中位值偏差MAD对顾客目标检测框中的像素值进行处理，首先计算所有像素的中位值P_median，

再计算所有元素与中位值的绝对偏差bias＝|Pi-Pmedian|，取得绝对偏差的中位值MAD＝bias_median，再确定参数n对所有数据作如下调整：

最后得到优化后的顾客像素值集合为

服务区像素值集合为/>

S33：将步骤S32中优化后的顾客和服务区深度像素值集合分别求平均，再相减得到深度匹配值mc，

若深度匹配值mc小于某个阈值K，则表示该客户进入了该服务区。

S34：在活动轨迹图集合中，删除深度匹配值mc大于K的视频帧，表示顾客cus_j在该帧未停留在该服务区。优化后的活动轨迹图集合表示为C_k：

其中f,g∈{p,…,q}，s_i表示当前顾客停留的服务区。当顾客的目标检测框与服务区无交集且深度匹配值mc大于K时，表示顾客未在此服务区附近或已经离开此服务区。

S35：重复步骤S31到S34，继续对顾客进行跟踪，当顾客进入下一个服务区后将跟踪信息保存到顾客的活动轨迹集中。

进一步，步骤S4具体包括以下步骤：

S41：训练行为识别模型，用于检测顾客行为：提取S34顾客在每个服务区的活动轨迹序列的坐标信息，根据坐标信息逐帧打标顾客行为。在训练时，提取打标帧的后63帧，将该64帧作为一个视频集(clip)输入行为识别模型中训练。通过不同的采样频率在两个网络分支循环输入相同的64帧活动轨迹序列。

S42：建立摄像头C_k下的行为轨迹集合，利用训练好的行为识别模型Slowfast对顾客在某服务区的行为进行检测并计算顾客在该服务区停留时间，将得到的行为保存至活动轨迹集中从而形成行为轨迹集。行为轨迹集中包含第cus_j个顾客在某个服务区s_i，顾客的行为act，表示为C_k：{cus_j[(s₁,act₁),…,(s_i,act_r)]}，其中act₁…,act_r表示顾客在服务大厅中所有可能发生的行为，r表示行为类别总数。获取步骤S34中得到的特定服务区s_i下帧序列

该帧序列通过64帧采样一帧的方式获取，所以一帧表示两秒，计算帧总数并乘以2保存为顾客在该服务区停留时间t。加入时间信息的顾客cus_j在C_k摄像头下的行为轨迹表示为C_k：{cus_j[(s₁,act₁,t₁),…,(s_i,act_r,t_i)]}，其中s_i表示第i个服务区，act₁…,act_r表示顾客所有可能发生的行为，t_i表示顾客在s_i服务区停留时间。

S43：遍历所有摄像头{C₁,…,C_k,…,C_cam}的视频数据，重复以上过程，得到多个摄像头下的多个顾客行为轨迹集合，从而形成多个摄像头下的顾客行为轨迹库。

进一步，步骤S5所述构建多个摄像头下的顾客行为轨迹库，具体包括以下步骤：

S51：对多个摄像头下的某位顾客行为轨迹建立联系：令某个顾客cus_j在单个摄像头C_k下的行为轨迹{(s₁,act₁,t₁),…,(s_i,act_r,t_i)}为C_{k_trackk}，即C_{k_trackk}＝{(s₁,act₁,t₁),…,(s_i,act_r,t_i)}。根据顾客id，将同一个顾客在多个摄像头下的行为轨迹集保存为行为轨迹库，即cus_j：

其中C_{k_trackk}表示该顾客在第k个摄像头下的行为轨迹track_k。

S52：通过时间信息对齐多个摄像头的顾客行为轨迹：获取到多个摄像头下同一个顾客的行为轨迹后，查询S22中C_k下顾客cus_j的信息C_k：{cus_j[F′_m,…,F′_n]}，得到顾客到达该服务区的时间，将该时间加入顾客行为轨迹中得到{(T₁,s₁,act₁,t₁),…,(T_i,s_i,act_r,t_i)}。将顾客cus_j的行为轨迹

通过时间顺序{T₁,T₂,…,T_i}依次进行比对，去掉重复的行为。

其中，当某个顾客在同一时间不同摄像头识别出的行为不一致时，我们就很难选取行为。由于在公共服务中顾客办理，咨询等行为具有更高的研究价值，于是本专利考虑将顾客行为设定优先级。当某个顾客在同一时间不同摄像头识别出不同的行为时，本专利考虑选取优先级最高的行为作为最终的行为。最终得到顾客在服务大厅中的行为轨迹如下cus_j:{(T₁,s₁,act₁,t₁),…,(T_i,s_i,act_r,t_i)}，其中(T_i,s_i,act_r,t_i)表示顾客cus_j在时间T_i到达了s_i服务区做了act_r行为，并且停留的时间为t_i。

本发明的有益效果在于：

(1)本专利提出一种多摄像头的行为轨迹跟踪方法。通过顾客与关键服务区的位置信息判断顾客在服务大厅的活动轨迹，在关键服务区中顾客的行为会被记录形成顾客行为轨迹。顾客在多个摄像头的行为轨迹通过时间信息对齐。当某个顾客在同一时间不同摄像头识别出不同的行为时，本专利考虑选取优先级较高的行为作为最终的行为，以此判断顾客在服务大厅的行为轨迹。

(2)本专利通过使用交并比(IoU)，单目图像深度估计模型Megadepth实现对公共服务大厅人员是否进入服务区进行检测。在视频信息中能快速识别顾客活动轨迹，辅助顾客的行为轨迹检测。并通过绝对中位值偏差(MAD)对离群像素进行处理，能避免背景和其他顾客对识别结果的干扰。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明实施例公开的一种多摄像头的行为轨迹跟踪方法流程图；

图2为本发明实施例公开的行为轨迹识别的总体流程图；

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1-2所示，本发明提供一种多摄像头的行为轨迹跟踪方法，包括如下步骤：

S11：获取公共服务大厅中多个摄像头下的拍摄信息，选择尽量能覆盖服务大厅服务区的摄像头，服务大厅中的服务区有：体温检测区，导服台，自助办理机，柜台办理处等。在对摄像头进行选取时需要选取尽量满足能识别上述服务区的摄像头并符合多视角条件，故尽量选取公共服务大厅中四角的摄像头。选取相应的摄像头并标记为{C₁,…,C_k,…,C_cam}，k∈{1,…,cam}，其中C_k表示第k个摄像头，总共有cam个不同的摄像头。

S12：使用可选的目标检测模型YOLOv4获得多个摄像头下服务区坐标信息。将收集到的服务大厅图像信息打标整理后送入YOLOv4模型中训练，得到识别公共服务大厅服务区的目标检测模型。训练过程如下：在不同摄像头视频画面中挑选较为清晰的视频帧，通过ffmeg软件对该帧进行截取，不同摄像头依次挑选1000张图片进行训练。将所有摄像头的图片集合裁剪成416*416的图片并划分为训练集和测试集。训练时对该训练集进行水平翻转等操作来增强数据。训练100轮，初试学习率为1e-3，batch-size为96，衰减率weight_decay＝5e-4。通过上述训练过程得到训练好的目标检测模型之后，按照不同摄像头{C₁,…,C_k,…,C_cam}得到的不同视角的图像信息，依次通过训练好的目标检测模型计算得到多个摄像头下服务区的坐标信息，坐标信息包含目标检测框的左上角和右下角的角标，分别表示为

其中s_i表示第i个服务区，i∈{1,2,3,…,sen}，一共有sen个服务区，1代表左上角坐标，2代表右下角坐标。在C_k摄像头下获取的坐标信息表示为C_k:

S21：使用目标检测模型定位多个摄像头下顾客：根据32fps的帧率，将服务大厅摄像头画面抽帧。用训练好的目标检测模型依次对多个摄像头监控视频进行识别，按指定步长64采样，得到C_k摄像头下的帧画面以及与其对应的时间信息C_k:{[T₁,F₁],[T₂,F₂],…,[T_d,F_d]}，其中T记录采样帧画面F的时间信息(该时间表示北京时间，精确到秒)，d表示总帧数。然后用目标检测模型依次在视频帧{F₁,F₂,…,F_d}中检测出顾客，得到顾客cus_j目标检测框坐标信息po_j，

其中/>

S22：建立顾客id集，根据顾客id集保存相同顾客的帧序列，形成活动轨迹集：按照S21中每帧图像F中保存的顾客位置信息Pos对其进行裁剪并输入到行人重识别模型PCB中，识别每个位置的顾客对应的id值并存入顾客id集中。具体实施如下：将按照顾客位置信息裁剪得到的64*128顾客图像序列依次输入ResNet50特征提取网络中提取特征，得到空间大小为24*8*2048的特征张量tensor T，PCB把tensor T水平均分成p份，经过平均池化(average pooling)得到p个列向量{g₁,g₂,…,g_p}，再使用1*1的卷积核降维得到p个比g低维的{h₁,h₂,…,h_p}。最后将p个h列向量{h₁,h₂,…,h_p}输入由FC(fully-connected layer)和Softmax函数构成的分类器(classifier)中，从而得到顾客id预测值。在训练时，PCB使用p个classifier的交叉熵(Cross-Entropy)的和作为损失函数，不断的训练调优。训练完成后，使用行人重识别模型PCB预测顾客id。若顾客id集中不存在该顾客，且不属于工作人员id，则表示该顾客为新出现顾客，赋予其新的id并保存至顾客id集中；若顾客id集中有该顾客的信息，则提取他的id作为轨迹跟踪的标识。将包含相同顾客id的帧画面按照S21中保存的时间顺序{T₁,T₂,…,T_d}保存为该顾客cus_j的活动轨迹，表示为C_k：{cus_j[F′_m,…,F′_n]}，其中m,n∈{1,2,3,…,d}，cus_j表示id值为j的顾客，F′表示带有顾客cus_j的坐标信息和时间信息的帧画面。令cus_j的活动轨迹

其中j＝1,…,allcust，/>

表示顾客cus_j的活动轨迹，总共有allcust个顾客。

S3：计算多个摄像头下服务区与顾客目标检测框的交并比(IoU)，当IoU大于一定阈值时，则启动深度图检测模型，该步骤用于确认顾客是否到达服务区；

从步骤S12和步骤S21中取出服务区和顾客的坐标信息，分别为

和/>

A_area∩B_area形成长方形S，S的长/>

S的宽/>

则A∩B＝width*length，根据A，B，A∩B的值，最终求出IoU值。

其中/>

其中/>

表示服务区s_i的第b个像素点的像素值。

最后得到优化后的顾客像素值集合为

服务区像素值集合为/>

S41：训练行为识别模型，用于检测顾客行为：提取S34顾客在每个服务区的活动轨迹序列的坐标信息，根据坐标信息逐帧打标顾客行为。在训练时，提取打标帧的后63帧，将该64帧作为一个视频集(clip)输入行为识别模型中训练。通过不同的采样频率在两个网络分支循环输入相同的64帧活动轨迹序列。训练100轮，初试学习率设置为1.25e-6，优化策略选择随机梯度下降SGD，训练通过交叉熵损失函数来优化网络模型。

进一步，由于本专利中存在多个摄像头对行为识别的情况，多个摄像头中可能有些摄像角度存在遮挡，识别不准确的情况，于是本专利考虑将顾客行为设定优先级，选取优先级最高的行为，最终得出多个摄像头融合的顾客行为轨迹。

S5：构建多个摄像头下的顾客行为轨迹库。通过时间信息对齐，对重复的行为进行删除，同一时间出现的不同行为根据行为优先级选择最终行为，从而得到顾客的行为轨迹；

其中C_{k_trackk}表示该顾客在第k个摄像头下的行为轨迹tarck_k。

其中，当某个顾客在同一时间不同摄像头识别出的行为不一致时，我们就很难选取行为。由于在公共服务中顾客办理，咨询等行为具有更高的研究价值，于是本专利考虑将顾客行为设定优先级。当某个顾客在同一时间不同摄像头识别出不同的行为时，本专利考虑选取优先级最高的行为作为最终的行为。最终得到顾客在服务大厅中的行为轨迹如下cus_j:{(T₁,s₁,act₁,t₁),…,(T_i,s_i,act_r,t_i)}，其中(T_i,s_i,act_r,t_i)表示顾客cus_j在时间T_i到达了s_i服务区做了act_r行为，并且停留的时间为t_i。具体实施如下：当顾客cus_j在摄像头C₁,C₂,C₃下有表1的行为轨迹时：

表1

依次通过时间信息进行对比，发现在8:15时，第二个和第三个摄像头识别的行为不一致，摄像头C₃识别的行为是交谈，与摄像头C₂识别的自助办理不一致。由于我们设定了行为优先级，自助办理的优先级大于交谈行为的优先级，所以我们选择自助办理为最终的行为。对不一致的行为处理完之后，删除行为轨迹库中重复的行为，如在8：07，8:10和8:12时，三个摄像头的行为都一致，只需要保留一个轨迹序列即可。于是得到顾客cus_j最终的行为轨迹为{(8：07，门口体温检测仪，测体温，5sec)，(8：10，导服台，咨询，2min)，(8：12，柜台，柜台办理，5min)，(8：15，自助机，自助办理，5min)}。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种多摄像头的行为轨迹跟踪方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的多摄像头的行为轨迹跟踪方法，其特征在于：所述步骤S1具体包括以下步骤：

S11：获取公共服务大厅中多个摄像头下的拍摄信息，指定相应的摄像头并标记为{C₁,…,C_k,…,C_cam}，k∈{1,…,cam}，其中C_k表示第k个摄像头，总共有cam个不同的摄像头；

S12：使用目标检测模型获取多个摄像头下公共服务大厅服务区坐标信息：将收集到的图像信息打标整理后送入模型中训练，得到识别服务区的目标检测模型；按照不同摄像头{C₁,…,C_k,…,C_cam}得到的不同视角的图像信息，依次通过训练好的目标检测模型计算得到多个摄像头下服务区的坐标信息，坐标信息包含目标检测框的左上角和右下角的角标，分别表示为

其中s_i表示第i个服务区，i∈{1,2,3,…,sen}，一共有sen个服务区，1代表左上角坐标，2代表右下角坐标；在C_k摄像头下获取的坐标信息表示为C_k:

3.根据权利要求1所述的多摄像头的行为轨迹跟踪方法，其特征在于：所述步骤S2具体包括以下步骤：

S21：使用目标检测模型定位多个摄像头下顾客：根据一定的帧率，将服务大厅摄像头画面抽帧；用训练好的目标检测模型依次对多个摄像头监控视频进行识别，按指定步长采样得到C_k摄像头下的帧画面以及与其对应的时间信息C_k:{[T₁,F₁],[T₂,F₂],…,[T_d,F_d]}，其中T记录采样帧画面F的时间信息，d表示总帧数；然后用目标检测模型依次在视频帧{F₁,F₂,…,F_d}中检测出顾客，得到顾客cus_j目标检测框坐标信息po_j，

其中cus_j表示第j个顾客，1代表左上角坐标，2代表右下角坐标；将时间为T_d的帧F_d中检测出的所有顾客的位置信息集合表示为

其中/>

表示第d帧中的第j个顾客的坐标信息，即该帧中共有custd个顾客的坐标信息‘’得到顾客坐标信息之后将其与帧和时间信息绑定，表示为C_k:{[T₁,Pos₁,F₁],[T₂,Pos₂,F₂],…,[T_d,Pos_d,F_d]}；

S22：建立顾客id集，根据顾客id集保存相同顾客的帧序列，形成活动轨迹集：按照S21中每帧图像F中保存的顾客位置信息Pos对其进行裁剪并输入到行人重识别模型PCB中，识别每个位置的顾客对应的id值并存入顾客id集中；若顾客id集中不存在该顾客，且不属于工作人员id，则表示该顾客为新出现顾客，赋予其新的id并保存至顾客id集中；若顾客id集中有该顾客的信息，则提取他的id作为轨迹跟踪的标识；将包含相同顾客id的帧画面按照S21中保存的时间顺序{T₁,T₂,…,T_d}保存为该顾客cus_j的活动轨迹，表示为C_k：{cus_j[F′_m,…,F′_n]}，其中m,n∈{1,2,3,…,d}，cus_j表示id值为j的顾客，F′表示带有顾客cus_j的坐标信息和时间信息的帧画面；令cus_j的活动轨迹

其中j＝1,…,allcust，/>

表示顾客cus_j的活动轨迹，总共有allcust个顾客。

4.根据权利要求3所述的多摄像头的行为轨迹跟踪方法，其特征在于：所述步骤S3具体包括以下步骤：

S31：在活动轨迹集中取出C_k下顾客cus_j的活动轨迹序列{F′_m,…,F′_n}，依次计算该顾客和服务区s_i的目标检测框交并比IoU；顾客目标检测框A，服务区目标检测框B，则

从步骤S12和步骤S21中取出服务区和顾客的坐标信息，分别为

和

A_area∩B_area形成长方形S，S的长/>

S的宽

则A∩B＝width*length，根据A，B，A∩B的值，最终求出IoU值；

若IoU大于一个阈值I，表示顾客目标框与服务区目标检测框重叠，则启动深度图检测模型，从顾客活动轨迹中筛选出顾客目标检测框与服务区目标检测框重叠的视频帧，保存该视频帧序列为C_k：{cus_j[F′_p,…,F′_q]}，p,q∈{m,…,n}；

S32：将步骤S31中得到的顾客目标检测框与服务区目标检测框重叠的视频帧序列{F′_p,…,F′_q}送入深度图检测模型Megadepth中检测，得到顾客和服务区上的每个像素点的像素值；该像素值表示该点距离摄像机的深度；顾客目标检测框内深度像素集合为

其中/>

其中/>

表示服务区s_i的第b个像素点的像素值；

使用绝对中位值偏差(MAD)对数据进行处理，最后得到优化后的顾客像素值集合为

服务区像素值集合为/>

若深度匹配值mc小于某个阈值K，则表示该客户进入了该服务区；

S34：在活动轨迹图集合中，删除深度匹配值mc大于K的视频帧，表示顾客cus_j在该帧未停留在该服务区；优化后的活动轨迹图集合表示为C_k：

其中f,g∈{p,…,q}，s_i表示当前顾客停留的服务区；当顾客的目标检测框与服务区无交集且深度匹配值mc大于K时，表示顾客未在此服务区附近或已经离开此服务区；

S35：重复步骤S31-S34，继续对顾客进行跟踪，当顾客进入下一个服务区后将跟踪信息保存到顾客的活动轨迹集中。

5.根据权利要求4所述的多摄像头的行为轨迹跟踪方法，其特征在于：步骤S32中，使用绝对中位值偏差MAD对顾客目标检测框中的像素值进行处理，首先计算所有像素的中位值P_median，

最后得到优化后的顾客像素值集合为

服务区像素值集合为/>

6.根据权利要求1所述的多摄像头的行为轨迹跟踪方法，其特征在于：步骤S4具体包括以下步骤：

S41：训练行为识别模型，用于检测顾客行为：提取S34顾客在每个服务区的活动轨迹序列的坐标信息，根据坐标信息逐帧打标顾客行为；在训练时，提取打标帧的后63帧，将该64帧作为一个视频集输入行为识别模型中训练；通过不同的采样频率在两个网络分支循环输入相同的64帧活动轨迹序列；

S42：建立摄像头C_k下的行为轨迹集合，利用训练好的行为识别模型Slowfast对顾客在某服务区的行为进行检测并计算顾客在该服务区停留时间，将得到的行为保存至活动轨迹集中从而形成行为轨迹集；行为轨迹集中包含第cus_j个顾客在某个服务区s_i，顾客的行为act，表示为C_k：{cus_j[(s₁,act₁),…,(s_i,act_r)]}，其中act₁…,act_r表示顾客在服务大厅中所有可能发生的行为，r表示行为类别总数；获取步骤S34中得到的特定服务区s_i下帧序列

该帧序列通过64帧采样一帧的方式获取，所以一帧表示两秒，计算帧总数并乘以2保存为顾客在该服务区停留时间t；加入时间信息的顾客cus_j在C_k摄像头下的行为轨迹表示为C_k：{cus_j[(s₁,act₁,t₁),…,(s_i,act_r,t_i)]}，其中s_i表示第i个服务区，act₁…,act_r表示顾客所有可能发生的行为，t_i表示顾客在s_i服务区停留时间；

S43：遍历所有摄像头{C₁,…,C_k,…,C_cam}的视频数据，重复步骤S41-S43，得到多个摄像头下的多个顾客行为轨迹集合，从而形成多个摄像头下的顾客行为轨迹库。

7.根据权利要求6所述的多摄像头的行为轨迹跟踪方法，其特征在于：步骤S5所述构建多个摄像头下的顾客行为轨迹库，具体包括以下步骤：

S51：对多个摄像头下的某位顾客行为轨迹建立联系：令某个顾客cus_j在单个摄像头C_k下的行为轨迹{(s₁,act₁,t₁),…,(s_i,act_r,t_i)}为C_{k_trackk}，即C_{k_trackk}＝{(s₁,act₁,t₁),…,(s_i,act_r,t_i)}；根据顾客id，将同一个顾客在多个摄像头下的行为轨迹集保存为行为轨迹库，即cus_j：

其中C_{k_trackk}表示该顾客在第k个摄像头下的行为轨迹track_k；/>

S52：通过时间信息对齐多个摄像头的顾客行为轨迹：获取到多个摄像头下同一个顾客的行为轨迹后，查询S22中C_k下顾客cus_j的信息C_k：{cus_j[F′_m,…,F′_n]}，得到顾客到达该服务区的时间，将该时间加入顾客行为轨迹中得到{(T₁,s₁,act₁,t₁),…,(T_i,s_i,act_r,t_i)}；将顾客cus_j的行为轨迹

通过时间顺序{T₁,T₂,…,T_i}依次进行比对，去掉重复的行为；其中，当某个顾客在同一时间不同摄像头识别出不同的行为时，选取优先级最高的行为作为最终的行为。

8.根据权利要求7所述的多摄像头的行为轨迹跟踪方法，其特征在于：步骤S52中，将顾客行为设定优先级，当某个顾客在同一时间不同摄像头识别出不同的行为时，选取优先级最高的行为作为最终的行为；最终得到顾客在服务大厅中的行为轨迹如下cus_j:{(T₁,s₁,act₁,t₁),…,(T_i,s_i,act_r,t_i)}，其中(T_i,s_i,act_r,t_i)表示顾客cus_j在时间T_i到达了s_i服务区做了act_r行为，并且停留的时间为t_i。