CN113688680B

CN113688680B - 一种智能识别与追踪系统

Info

Publication number: CN113688680B
Application number: CN202110831447.3A
Authority: CN
Inventors: 于永斌; 钟袁静扬; 张兰丹; 程曼; 王昊; 周晨; 李镖
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2023-04-18
Anticipated expiration: 2041-07-22
Also published as: CN113688680A

Abstract

本发明公开了一种智能识别与追踪系统，该系统通过摄像头捕获指定场景下的图像信息，接收来自用户的人物框选，识别框选的人物目标，并对后续视频流逐帧处理，根据偏移信息控制电机带动摄像头转动，使框选中的目标追踪人物始终处于画面中央。本发明解决了现有技术中消耗大量人力和物力完成舞台直拍所带来的问题；并且该追踪系统可以实时使用，平均帧速率大约为15fps，适用于指定场景下的指定目标人物的识别与追踪。本发明在基于MTCNN模型和FaceNet模型完成人脸识别的基础上，通过使用追踪器和串口通信的方法，控制摄像头跟随目标追踪人物移动，实现了对指定人物目标的识别与实时追踪。

Description

一种智能识别与追踪系统

技术领域

本发明涉及视频分析领域，尤其涉及一种智能识别与追踪系统。

背景技术

随着计算机的普及和科学技术的发展，计算机视觉正逐渐成为最热门的研究领域之一。计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样。而计算机视觉领域中的目标追踪所做的工作就类似于人的眼睛，据统计，人类接收到的外界信息中，大约有百分之八十都是通过眼睛直接获得的，然而人的眼睛的工作能力毕竟是有限的，面对纷繁复杂的信息，人类视觉在各领域的发展都受到限制，因此目标追踪技术在各领域都有着广泛应用。

近年来，随着网络的普及，各种偶像养成类真人秀节目层出不穷，热力非凡。各大视频平台随之推出了自己的选秀节目，通过各种各样的节目平台，不少实力强劲的选手被观众熟知，但是面对数量繁多的参赛选手，一千个人眼中有一千个哈姆雷特，不同观众对不同参赛选手的喜爱程度也不同。碍于时间的限制或者兴趣使然，观众只想观看或想重复观看某位参赛选手的表演视频，舞台个人直拍应运而生。

直拍是一个饭圈用语，意思是在男女团表演的时候单独只拍摄某一个人的全程。在现有技术中，直拍方式主要有两种，其一是让选手分批表演录制，其二是为每位选手单独配置专门的机器，然而这两种方式前者耗时后者耗力。因此，如何减少舞台直拍中的时间和人力消耗成为目前亟待解决的技术问题。

发明内容

本发明针对上述技术问题，提供了一种智能识别与追踪系统。该智能识别与追踪系统在获得原始目标追踪人物后，可对原始目标追踪人物进行识别，并且后续过程不需要人为干预即可完成对指定的原始目标追踪人物的追踪任务。

本发明提出了一种智能识别与追踪系统，该智能识别与追踪系统包括人脸数据集制作模块、人脸识别模块、人物追踪模块和硬件模块。

其中人脸数据集制作模块用于提供人物信息。通过使用MTCNN模型(多任务卷积神经网络，Multi-task convolutional neural network)对大量包含人脸的图片(若应用场景为选秀节目，则图片为各参赛选手的若干图片)进行识别、裁剪和对齐，将识别、裁剪和对齐后的人脸图片手动分类到相应类别的文件夹下(若应用场景为选秀节目，则分类是指将同一名参赛选手的若干图片放到该参赛选手姓名对应的文件夹下)，再用FaceNet模型对分类好的图片进行embedding(即嵌入，该过程表示一种映射，用一个低维的向量表示一个物体，使距离相近的向量对应的物体有相近的含义)，得到每一类图片的embedding特征向量(每一类图片生成一个对应的embedding特征向量，一个类中的图片越多，得到的embedding特征向量的准确性就越高)，由此得到人脸数据集，为后续人脸识别提供人物的相关信息。

接收到来自摄像头的视频流后，用户可发送截取信号(可以采用多种方式，如鼠标单击画面一次或者键盘键入指定字符等，在本发明中，优选键盘键入select的首字母“s”来截取当前帧)选定视频中所需的一帧图像，在选定帧中框选得到原始目标追踪人物。

人脸识别模块用于得出原始目标追踪人物的相关信息。先将用户框选的原始目标追踪人物送入MTCNN模型并截取出图像中的人脸，再将截取出的人脸送入FaceNet模型，得到该人脸的embedding特征向量，最后将该人脸的embedding特征向量与人脸数据集制作模块中得到的人脸数据集中的各embedding特征向量逐一进行相似性比较，计算该人脸的embedding特征向量与人脸数据集中任意一个embedding特征向量之间的欧式距离，若计算出的欧氏距离小于1(1只是一个阈值，可以根据需要调整)，则认为比较的两个对象为同一个人，返回人物的相关信息，否则为不同人，返回unknown。

人物追踪模块用于接收来自摄像头的视频和来自用户框选的原始目标追踪人物；所述人物追踪模块用于对视频流中后续包含原始目标追踪人物的视频使用追踪算法逐帧处理，计算当前帧中原始目标追踪人物相对图像中心的偏移量，并将偏移量发送至串口。

人物追踪模块在框选后的视频流中对含原始目标追踪人物的当前帧进行处理，得到所述原始目标追踪人物在当前帧中的位置信息以及相对图像中心的偏移信息。根据位置信息在当前帧中框选出目标并将目标信息显示在目标框上，同时将偏移信息发送到串口。

硬件模块用于从串口读取来自人物追踪模块的偏移信息，并根据偏移信息控制追踪小车带动所述摄像头移动，完成人物追踪。追踪小车包括一个摄像头、一个Arduino开发板、一个小车底板、两个直流有刷电机配两个轮胎、一个定向轮、两个180度的伺服电机、一个双“H桥”电机控制模块和若干导线，追踪小车受硬件开发平台Arduino控制。一个小车底板、两个直流有刷电机、两个轮胎组成追踪小车的骨架，并搭载一个摄像头、一个Arduino开发板、两个伺服电机以及一个电机控制模块。Arduino开发板用于电路连接，根据接收到的来自Arduino IDE的信息控制其他电子元件(包括两个直流有刷电机、两个180度的伺服电机、一个双“H桥”电机控制模块)。两个180度的伺服电机分别为水平伺服电机和竖直伺服电机，分别用于水平方向和竖直方向上的目标追踪。双“H桥”电机控制模块控制两个直流有刷电机的旋转方向和旋转速度，用于前后方向的目标追踪。

硬件开发平台Arduino用于接收所述偏移信息，并根据偏移信息控制硬件设备完成追踪。

本发明提出的智能识别与追踪系统的工作过程如下：

用户需要输入指定场景下的视频，可以根据需要选择多种适合的场景区域，如选秀公演舞台、练习室等。在输入视频后，用户可通过发送截取信号，截取视频的当前帧，并在当前帧中框选需追踪的感兴趣的目标人物即原始目标追踪人物。

在获得原始目标追踪人物后，首先使用MTCNN模型从原始目标追踪人物中截取出人脸，再将截取出的人脸与人脸数据集进行相似性比较，得到相关的人物信息。在后续追踪过程中将人物信息显示在目标框上。其中，人物识别使用MTCNN模型，人脸匹配即人脸相似性比较使用FaceNet模型。

完成人物识别后，人物追踪模块将使用追踪器对后续视频逐帧处理。首先将视频当前帧的图像转换为灰度格式，找出是否含有追踪目标，若未找到目标，则继续处理视频下一帧；如果找到目标，则返回追踪目标的相关信息(即追踪目标的目标框的左上角坐标、宽和高)，再根据这些相关信息计算目标中心点。

将目标中心点和画面中心点的差值与提前设置好的偏移阈值(如设置偏移阈值为10，则表示允许目标中心点横纵坐标与画面中心点横纵坐标相差10个以内的像素，其中横坐标取值表示为X分量，纵坐标取值表示为Y分量)比较，找出目标的Y分量是否在画面偏下，如果它在画面偏下(目标中心点的Y分量减去画面中心点的Y分量超过偏移阈值)，发送偏下信息到硬件模块以控制追踪小车上的竖直伺服电机向下移动，若否则表示目标不在画面偏下，不用发送偏下信息；找出目标的Y分量是否在画面偏上，如果它在画面偏上(目标中心点的Y分量减去画面中心点的Y分量小于偏移阈值的相反数)，发送偏上信息到硬件模块以控制追踪小车上的竖直伺服电机向上移动，若否则表示目标不在画面偏上，不用发送偏上信息；找出目标的X分量是否在画面偏左，如果它在画面偏左(目标中心点的X分量减去画面中心点的X分量小于偏移阈值的相反数)，发送偏左信息到硬件模块以控制追踪小车上的水平伺服电机向左移动，若否则表示目标不在画面偏左，不用发送偏左信息；找出目标的X分量是否在画面偏右，如果它在画面偏右(目标中心点的X分量减去画面中心点的X分量超过偏移阈值)，发送偏右信息到硬件模块以控制追踪小车上的水平伺服电机向右移动，若否则表示目标不在画面偏右，不用发送偏右信息；将目标尺寸(目标的目标框的宽或高，本例中选择使用高)与提前设置好的目标尺寸阈值(目标尺寸阈值的选取与画面分辨率相关，如画面分辨率设置为640×480，则可以设置目标尺寸阈值下界和目标尺寸阈值上界分别为120和360，表示当目标的高度占画面的四分之一到四分之三时，认为此时的目标大小是合适的)比较，找出目标的大小是否相对画面偏大，如果它相对画面偏大(目标的目标框的高超过目标尺寸阈值上界)，发送偏大信息到硬件模块以控制追踪小车向后移动，若否则表示目标相对画面不偏大，不用发送偏大信息；找出目标的大小是否相对画面偏小，如果它相对画面偏小(目标的目标框的高小于目标尺寸阈值下界)，发送偏小信息到硬件模块以控制追踪小车向前移动，若否则表示目标相对画面不偏小，不用发送偏小信息。

本发明提供的一种智能识别与追踪系统，通过摄像头捕获指定场景下的图像信息，接收来自用户的人物框选，识别框选的人物目标，并对后续视频流逐帧处理，根据偏移信息控制电机带动摄像头转动，使框选中的目标追踪人物始终处于画面中央。解决了相关技术中消耗大量人力和物力完成舞台直拍所带来的问题；并且该追踪系统可以实时使用，平均帧速率大约为15fps，适用于指定场景下的指定目标人物的识别与追踪。本发明在基于MTCNN模型和FaceNet模型完成人脸识别的基础上，通过使用追踪器和串口通信的方法，控制摄像头跟随目标追踪人物移动，实现了对指定人物目标的识别与实时追踪。

附图说明

图1是本发明的智能识别与追踪系统的总体工作流程图；

图2是本发明的人脸数据集制作模块的工作流程图；

图3是本发明的人脸识别模块的工作流程图；

图4是本发明的具体实物图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明所提供的一种智能识别与追踪系统作进一步详细描述。

如图1所示，为智能识别与追踪系统的总体工作流程图，包括：

步骤S10：通过摄像头获取指定区域视频。

上述指定区域可以根据需要选择为多种适合的场景区域，例如各种选秀节目的公演舞台、练习室等。

步骤S11：在指定帧中框选原始目标追踪人物。

在本步骤S11中，指定帧来自于步骤S10由摄像头获取的指定区域视频。当视频出现用户感兴趣的人物目标后，用户可通过发送截取信号(可以采用多种方式，如鼠标单击画面一次或者键盘键入指定字符等，在本实施例中，优选键盘键入select的首字母“s”来截取当前帧)，截取视频的当前帧，并在当前帧中框选需追踪的感兴趣的原始目标追踪人物。

步骤S12：识别目标跟踪人物。

在步骤S12中，使用MTCNN模型对用户框选的原始目标追踪人物进行人脸裁剪与对齐，再用FaceNet模型对裁剪对齐后的人脸进行embedding(嵌入，一种映射，用一个低维的向量表示一个物体，使距离相近的向量对应的物体有相近的含义)，最后将得到的embedding特征向量与人脸数据集制作模块中得到的人脸数据集中的各embedding特征向量逐一进行相似性比较，计算两个embedding特征向量之间的欧式距离，若计算出的欧氏距离小于1，则认为比较的两个对象为同一个人，否则为不同人。由此得出原始目标追踪人物的相关信息。

具体地，步骤S12所涉及的MTCNN模型、FaceNet模型以及如何计算欧式距离将在后续详细介绍。

步骤S13：在后续视频中对原始目标追踪人物逐帧跟踪。

在本步骤S13中，可以通过已知的多种适合方法进行目标跟踪；在本实施例中，优选根据CSRT追踪算法对框选的原始目标追踪人物进行追踪。

步骤S14：判断当前帧中框选的原始目标追踪人物是否处于画面中央。

具体的，在本实施例中，采用步骤S13所述的CSRT追踪算法，在完成当前帧的目标追踪后，会返回追踪目标的目标框左上角的像素坐标(x,y)，以及宽度w和高度h，其中各参数的单位均为像素值。

进一步地，通过计算可得追踪目标的中心位置大致位于

处，而画面的中心可由画面分辨率W×H得到(分辨率是指纵横方向上的像素点数，单位是px，用于确定计算机屏幕上显示多少信息，其中W和H分别表示画面的水平和垂直像素)，画面中心为

进一步地，将目标中心(x′,y′)与画面中心

相比较，可得出追踪目标在水平及垂直方向上的偏移；将目标尺寸(即追踪目标的目标框的宽或高，本例中选择使用高)与提前设置好的目标尺寸阈值(目标尺寸阈值的选取与画面分辨率相关，如画面分辨率设置为640×480，则可以设置目标高的阈值下限和阈值上限分别为120和360，表示当目标的高度占画面的四分之一到四分之三时，认为此时的目标大小是合适的)比较，可得出目标在前后方向的偏移；并将上述偏移信息作为信号发送给下一级硬件模块。

步骤S15：根据相应偏移值控制电机带动摄像头转动。

进一步地，硬件模块通过读取串口数据，发送相应指令到追踪小车，控制追踪小车带动摄像头转动。

具体地，在本实施例中，采用基于python的opencv对图像进行处理、追踪；采用开源硬件开发平台Arduino对追踪小车进行控制，两部分(基于python的opencv和Arduino)通过串口进行通信。追踪小车包括一个摄像头、一个Arduino开发板、一个小车底板、两个直流有刷电机配两个轮胎、一个定向轮、两个180度的伺服电机、一个双“H桥”电机控制模块和若干导线。小车底板、直流有刷电机、轮胎组成追踪小车的骨架，搭载摄像头、Ardu ino开发板、伺服电机以及电机控制模块。Arduino开发板用于电路连接，根据接收到的来自ArduinoIDE的信息控制其他电子元件。两个180度的伺服电机分别为水平伺服电机和竖直伺服电机，分别用于水平方向和竖直方向上的目标追踪。双“H桥”电机控制模块控制两个直流有刷电机的旋转方向和旋转速度，用于前后方向的目标追踪。

步骤S16；完成当前帧的追踪。

在本步骤S16中，摄像头根据相应指令进行偏移，以完成对当前帧的目标追踪，使用户框选目标处于画面中央。

步骤S17：是否收到结束指令。

追踪完成后，若没有接收到结束指令，则回到步骤S13，继续完成后续视频中的追踪任务，若收到结束指令，则保存视频并退出。

具体地，用户可通过多种方式发出结束指令，本实施例中，优选键盘键入退出键“Esc”以停止追踪。如图2所示，为智能识别与追踪系统人脸数据集制作模块流程图，主要通过MT CNN模型实现，为了可以检测到图像中大小不同的人脸，需要将原始图像(大量包含人脸的图片，若应用场景为选秀节目，则图片为各参赛选手的若干图片)缩放到不同的尺度，再将不同尺度的图像送入到不同的子网络，因此MTCNN模型包含了三层网络结构：P-Net(Proposa l Network)、R-Net(Refine Network)、和O-Net(Output Network)。

具体地，首先将图像进行不同尺度的变换以形成图像金字塔来适应不同大小的人脸检测；再采用全卷积神经网络P-Net来获得候选窗体和边界回归向量，同时进行边框回归(Bounding-Box Regression)调整窗体并利用非极大值抑制(NMS)方法去除重叠候选窗体；接着，将经过P-Net确定的预测窗口送入R-Net网络，该网络相对于P-Net增加了一个全连接层，因此该网络能过滤掉大量效果比较差的候选框，同时需要对选定的候选框进行边框回归(Bounding-Box Regression)和非极大值抑制(NMS)以进一步优化预测结果；最后，将经过P-Net和R-Net确定的预测窗口送入O-Net，O-Net相对于R-Net增加了一个卷积层，功能与R-Net作用一样，只是在去除重叠候选窗体的同时，会对人的面部特征点进行回归，最终输出人脸的五个关键点位(左眼、右眼、鼻子、左嘴角、右嘴角)。

进一步地，在得到人脸的五个关键点后，对原始图像进行截取，截取出原始图像中的人脸后手动分类到相应的文件夹下，再对分好类的图片使用FaceNet模型进行embedding，得到embedding数据库，用于后续的人脸识别任务。

如图3所示，为智能识别与追踪系统人脸识别模块的工作流程图，通过MTCNN模型和Fa ceNet模型实现。

具体地，先将用户框选的原始目标追踪人物送入MTCNN模型并截取出图像中的人脸，具体步骤同上，再将截取出的人脸送入FaceNet模型，得到该人脸的embedding特征向量，最后将该embedding特征向量与上述embedding数据库中的各embedding特征向量一一进行相似性比较，计算两个embedding特征向量之间的欧式距离，若计算出的欧氏距离小于1，则认为比较的两个对象为同一个人，否则为不同人。

具体地，欧式距离的计算公式为||embedding-embedding[i]||₂，其中embedding和embedding[i]均为128维向量，前者是从原始目标追踪人物中截取出的人脸的embedding特征向量，后者是人脸数据集中第i类人脸的embedding特征向量，||·||₂表示2范数，若向量A＝(a₁,a₂,…,a_n)，向量B＝(b₁,b₂,…,b_n)，其中，a_j表示向量A的第j个元素，b_j表示向量B的第j个元素，j＝1,2,…,n，则

如图4所示，为智能识别与追踪系统具体实物图，包括：

如图4a是智能识别与追踪系统具体实物图的正面，其中部件1为摄像头，用以捕获实时视频；部件2是由两个MG995舵机和支架搭成的两自由度舵机云台，分别用来控制摄像头在水平和竖直方向上转动，实现目标在二维空间中的追踪。

如图4b是智能识别与追踪系统具体实物图的背面，各种接线通过部件3中的面包板连接。其中部件3为Arduino开发板，是整个智能识别与追踪系统的主控板；部件4为电机控制模块，用来控制两个轮胎的旋转方向和旋转速度，从而控制搭载摄像头的追踪小车移动，实现目标在三维空间中的追踪。

综上所述，本发明所提供的智能识别与追踪系统，通过摄像头捕获指定场景下的图像信息，接收来自用户的人物框选，识别框选的人物目标，并对后续视频流逐帧处理，根据偏移信息控制电机带动摄像头转动，使框选中的目标追踪人物始终处于画面中央。解决了相关技术中消耗大量人力和物力完成舞台直拍所带来的问题；并且该追踪系统可以实时使用，平均帧速率大约为15fps，适用于指定场景下的指定目标人物的识别与追踪。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种智能识别与追踪系统，其特征在于，该系统包括人脸数据集制作模块、人脸识别模块、人物追踪模块和硬件模块，其中，

所述人脸数据集制作模块用于提供人物信息，通过使用多任务卷积神经网络MTCNN模型，对原始图像进行识别、裁剪和对齐，其中，原始图像为大量包含人脸的图片，将识别、裁剪和对齐后的人脸图片手动分类到相应类别的文件夹下，再用FaceNet模型对分类好的人脸图片进行embedding嵌入，为每一类人脸图片生成一个对应的embedding特征向量，一个类别中的人脸图片越多，该类别的人脸图片得到的embedding特征向量的准确性就越高，由此得到人脸数据集；

接收到来自摄像头的视频流后，用户发送截取信号选定视频中所需的一帧图像，即选定帧，在选定帧中框选得到原始目标追踪人物；

所述人脸识别模块用于得出所述原始目标追踪人物的相关信息，先将用户框选的原始目标追踪人物送入MTCNN模型并截取出图像中的人脸，再将截取出的人脸送入FaceNet模型，得到该原始目标追踪人物的人脸embedding特征向量，最后将该原始目标追踪人物的人脸embedding特征向量与所述人脸数据集中的各embedding特征向量逐一进行相似性比较，计算该原始目标追踪人物的人脸embedding特征向量与所述人脸数据集中任意一个embedding特征向量之间的欧式距离，若计算出的欧氏距离小于预设的距离阈值，则认为比较的两个对象为同一个人，并返回人物的相关信息；否则为不同人，返回unknown；

所述人物追踪模块采用CSRT追踪算法在框选后的视频流中对后续视频逐帧进行处理，首先将视频中的当前帧的图像转换为灰度格式，找出是否含有原始目标追踪人物，若未找到，则继续处理视频的下一帧；若找到，则返回所述原始目标追踪人物在当前帧中的位置信息以及相对图像中心的偏移信息，根据位置信息在当前帧中框选出目标并将目标信息显示在目标框上，同时将偏移信息发送到串口；

所述硬件模块用于从串口读取来自人物追踪模块的偏移信息，并根据偏移信息控制追踪小车带动所述摄像头移动，完成当前帧的人物追踪，使用户框选出的目标处于画面中央；其中，所述追踪小车包括一个摄像头、一个Arduino开发板、一个小车底板、两个直流有刷电机配两个轮胎、一个定向轮、两个180度的伺服电机、一个双“H桥”电机控制模块和至少一根导线，其中，两个180度的伺服电机分别为竖直伺服电机和水平伺服电机；所述追踪小车受硬件开发平台Arduino控制，一个小车底板、两个直流有刷电机、两个轮胎组成追踪小车的骨架，并搭载一个摄像头、一个Arduino开发板、两个180度的伺服电机以及一个双“H桥”电机控制模块；Arduino开发板用于电路连接，根据接收到的来自Arduino IDE的信息控制两个直流有刷电机、两个180度的伺服电机和一个双“H桥”电机控制模块；两个180度的伺服电机分别用于水平方向和竖直方向上的目标追踪，一个双“H桥”电机控制模块控制两个直流有刷电机的旋转方向和旋转速度，用于前后方向的目标追踪；当前帧的人物追踪完成后，若没有接收到结束指令，则继续完成后续视频中的追踪任务；若收到结束指令，则保存视频并退出；

其中，所述对原始图像进行识别、裁剪和对齐，将识别、裁剪和对齐后的人脸图片手动分类到相应类别的文件夹下的方法具体包括：

为了检测到原始图像中大小不同的人脸，需要将原始图像缩放到不同的尺度，再将缩放到不同尺度的图像送入到不同的子网络，因此所述MTCNN模型包含了三层网络结构：P-Net、R-Net和O-Net；

首先将原始图像进行不同尺度的变换以形成图像金字塔来适应不同大小的人脸检测；再采用全卷积神经网络P-Net来获得候选窗体和边界回归向量，同时进行边框回归调整窗体并利用非极大值抑制方法去除重叠候选窗体；接着，将经过P-Net确定的预测窗口送入R-Net网络，R-Net网络相对于P-Net增加了一个全连接层，因此R-Net网络能过滤掉大量不需要的候选框，同时对选定的候选框进行边框回归和非极大值抑制以进一步优化预测结果；最后，将经过P-Net和R-Net确定的预测窗口送入O-Net，O-Net相对于R-Net增加了一个卷积层，功能与R-Net作用一样，只是在去除重叠候选窗体的同时，会对人的面部特征点进行回归，最终输出人脸的五个关键点位：左眼、右眼、鼻子、左嘴角和右嘴角；

进一步地，在得到人脸的五个关键点位后，对原始图像进行截取，截取出原始图像中的人脸后手动分类到相应类别的文件夹下。

2.根据权利要求1所述的智能识别与追踪系统，其特征在于，所述目标信息包括目标的目标框的左上角的像素坐标(x,y)以及目标的目标框的宽度w和高度h，所述像素坐标、宽度w和高度h的单位均为像素值。

3.根据权利要求2所述的智能识别与追踪系统，其特征在于，所述偏移信息的计算方法为：首先通过计算得到目标中心点位于处，画面中心点位于其中，W和H分别表示画面的水平和垂直像素，单位是px；然后将目标中心点(x^′,y^′)与画面中心点相比较，得到目标在水平及竖直方向上的偏移信息；将目标尺寸，即目标的目标框的宽或高与预先设置好的目标尺寸阈值比较，得出目标在前后方向的偏移信息。

4.根据权利要求3所述的智能识别与追踪系统，其特征在于，所述根据偏移信息控制追踪小车带动所述摄像头移动的方法具体包括：

将目标中心点和画面中心点的差值与预先设置好的偏移阈值比较，找出目标是否在画面偏下，如果目标在画面偏下，即目标中心点的Y分量减去画面中心点的Y分量超过所述偏移阈值，发送偏下信息到所述硬件模块以控制追踪小车上的竖直伺服电机向下移动，若否则表示目标不在画面偏下，不用发送偏下信息；找出目标是否在画面偏上，如果目标在画面偏上，即目标中心点的Y分量减去画面中心点的Y分量小于所述偏移阈值的相反数，发送偏上信息到所述硬件模块以控制追踪小车上的竖直伺服电机向上移动，若否则表示目标不在画面偏上，不用发送偏上信息；找出目标是否在画面偏左，如果目标在画面偏左，即目标中心点的X分量减去画面中心点的X分量小于所述偏移阈值的相反数，发送偏左信息到所述硬件模块以控制追踪小车上的水平伺服电机向左移动，若否则表示目标不在画面偏左，不用发送偏左信息；找出目标是否在画面偏右，如果目标在画面偏右，即目标中心点的X分量减去画面中心点的X分量超过所述偏移阈值，发送偏右信息到所述硬件模块以控制追踪小车上的水平伺服电机向右移动，若否则表示目标不在画面偏右，不用发送偏右信息；将目标尺寸与预先设置好的目标尺寸阈值比较，找出目标的大小是否相对画面偏大，即目标尺寸是否超过所述目标尺寸阈值上界，如果目标的大小相对画面偏大，发送偏大信息到所述硬件模块以控制追踪小车向后移动，若否则表示目标的大小相对画面不偏大，不用发送偏大信息；找出目标的大小是否相对画面偏小，即目标尺寸是否小于所述目标尺寸阈值下界，如果目标的大小相对画面偏小，发送偏小信息到所述硬件模块以控制追踪小车向前移动，若否则表示目标的大小相对画面不偏小，不用发送偏小信息，其中X分量表示横坐标取值，Y分量表示纵坐标取值。

5.根据权利要求4所述的智能识别与追踪系统，其特征在于，所述欧式距离的计算公式为||embedding-embedding[i]||₂，其中embedding和embedding[i]均为128维向量，embedding表示从原始目标追踪人物中截取出的人脸embedding特征向量，embedding[i]表示所述人脸数据集中第i类人脸的embedding特征向量，||·||₂表示2范数，若向量A＝(a₁,a₂,…,a_n)，向量B＝(b₁,b₂,…,b_n)，其中，a_j表示向量A的第j个元素，b_j表示向量B的第j个元素，j＝1,2,…,n，则

6.根据权利要求5所述的智能识别与追踪系统，其特征在于，在应用场景为选秀节目时，所述原始图像为各参赛选手的至少一张图片，此时，将人脸图片手动分类到相应类别的文件夹下是指将原始图像中同一名参赛选手的所有图片放到该参赛选手姓名对应的文件夹下。

7.根据权利要求6所述的智能识别与追踪系统，其特征在于，所述截取信号的产生包括使用鼠标单击画面一次或者使用键盘键入指定字符；所述结束指令的发出通过用户使用键盘键入退出键“Esc”。

8.根据权利要求7所述的智能识别与追踪系统，其特征在于，所述距离阈值为1，所述偏移阈值为10；当目标尺寸采用目标的目标框的高来表征，且画面分辨率为640×480时，所述目标尺寸阈值下界和目标尺寸阈值上界分别为120和360。