CN117636088A

CN117636088A - 模型优化方法、装置、视频处理系统、存储介质和终端

Info

Publication number: CN117636088A
Application number: CN202311356041.XA
Authority: CN
Inventors: 肖兵; 杨婉香; 李正国; 廖鑫; 王文熹
Original assignee: Zhuhai Shixi Technology Co Ltd
Current assignee: Zhuhai Shixi Technology Co Ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2024-03-01

Abstract

本申请公开了一种模型优化方法、装置、视频处理系统、存储介质和终端，其中，方法包括：获取至少一个跟踪目标和待优化的目标检测模型；对至少一个跟踪目标进行目标跟踪，获取每个跟踪目标对应的匹配状态转换数据；根据匹配状态转换数据，生成每个跟踪目标对应的跟踪状态转换数据；根据匹配状态转换数据和跟踪状态转换数据，确定异常类型和异常帧图像集；根据异常帧图像集和异常类型，对目标检测模型进行优化。通过判别跟踪异常是否由模型检测错误引起的，只有在确定是模型错误的情况下，才会基于转换情况确定异常类型以及异常帧来目标检测模型进行优化，基于异常类型有针对性的对模型进行优化，使得模型的优化效果更佳。

Description

模型优化方法、装置、视频处理系统、存储介质和终端

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种模型优化方法、装置、视频处理系统、存储介质和终端。

背景技术

目标检测是计算机视觉中的一项基本技术，它使软件系统能够从图像或视频流中检测和定位对象。基于深度学习的目标检测模型已经取得非常大的进步，检测性能已经较高，但还是会存在个别视频帧或时间段表现不佳，检测结果不准确的现象。

现有技术中，对于目标检测模型的优化方式通常将模型处理效果不理想的视频帧抽取出来进行标注后，基于标注的视频帧再对目标检测模型进行重新训练。然而，这种优化方式缺乏针对性，导致目标检测模型的优化效果不佳。

发明内容

有鉴于此，本申请提供了一种模型优化方法、装置、视频处理系统、存储介质和终端，主要目的在于解决现有技术中抽取处理效果不理想的视频帧对目标检测模型进行优化的方式，缺乏针对性，导致模型优化效果不佳的技术问题。

依据本申请第一方面，提供了一种模型优化方法，该方法包括：

获取至少一个跟踪目标和待优化的目标检测模型；

对至少一个跟踪目标进行目标跟踪，获取每个跟踪目标对应的匹配状态转换数据；

根据匹配状态转换数据，生成每个跟踪目标对应的跟踪状态转换数据；

根据匹配状态转换数据和跟踪状态转换数据，确定异常类型和异常帧图像集；

根据异常帧图像集和异常类型，对目标检测模型进行优化。

可选地，获取至少一个跟踪目标和待优化的目标检测模型的步骤，具体包括：

响应于模型优化请求，获取模型优化请求中包括的多个视频帧图像和目标检测模型；

将多个视频帧图像输入目标检测模型，识别出多个视频帧图像中的多个目标框，并在多个视频帧图像中标记出每个目标框；

根据第一帧图像中标记的至少一个目标框，确定至少一个跟踪目标。

可选地，对至少一个跟踪目标进行目标跟踪，获取每个跟踪目标对应的匹配状态转换数据的步骤，具体包括：

利用预设目标跟踪算法，基于多个视频帧图像中标记的多个目标框，对每个跟踪目标进行目标跟踪，生成每个跟踪目标在每个视频帧图像中的匹配状态，其中，匹配状态包括匹配成功或匹配失败；

根据多个匹配状态，生成每个跟踪目标的匹配状态转换数据。

可选地，根据匹配状态转换数据，生成每个跟踪目标对应的跟踪状态转换数据的步骤，具体包括：

设置每个跟踪目标在第一帧图像中的初始跟踪状态为未确认状态；

根据匹配状态转换数据，确定每个跟踪目标在跟踪过程中的至少一个跟踪状态，其中，跟踪状态包括确认状态、未确认状态和删除状态；

根据初始跟踪状态和至少一个跟踪状态，生成每个跟踪目标的跟踪状态转换数据。

可选地，根据匹配状态转换数据，确定每个跟踪目标在跟踪过程中的至少一个跟踪状态的步骤，具体包括：

对于任一跟踪目标，根据匹配状态转换数据，确定第一帧数和第二帧数，其中，第一帧数为连续匹配成功的视频帧图像的数量，第二帧数为连续匹配失败的视频帧图像的数量；

若第一帧数大于或等于第一预设阈值，确定跟踪目标在第一帧数对应的跟踪状态为确认状态；

在跟踪目标的跟踪状态为确认状态的情况下，若第二帧数大于或等于第二预设阈值，确定跟踪目标的跟踪状态由确认状态转换为未确认状态；

在跟踪目标的跟踪状态为未确认状态的情况下，若跟踪目标在第二个视频帧图像的匹配结果为匹配失败，确定跟踪目标的跟踪状态由未确认状态转换为删除状态。

可选地，根据匹配状态转换数据和跟踪状态转换数据，确定目标检测模型对应的异常类型和异常帧图像集的步骤，具体包括：

对于任一跟踪目标，在跟踪状态转换数据为由未确认状态转换至确认状态的情况下，判断匹配状态转换数据中的匹配状态是否包含匹配失败；

若匹配状态包含匹配失败，获取跟踪目标在匹配失败的视频帧图像中的重叠状态和目标框位置；

根据重叠状态和目标框位置，判断是否发生目标重叠或目标超出画面；

若未发生目标重叠或目标超出画面，确定异常类型为模型漏检；

根据匹配状态转换数据中的匹配失败的视频帧图像，生成异常帧图像集。

可选地，根据匹配状态转换数据和跟踪状态转换数据，确定目标检测模型对应的异常类型和异常帧图像集的步骤，具体还包括：

在跟踪状态转换数据为由未确认状态转换至确认状态转换至删除状态的情况下，判断跟踪目标的第一帧数是否小于第三预设阈值；

若第一帧数小于第三预设阈值，确定目标跟踪过程中存在由目标检测模型引起的跟踪异常；

若第一帧数大于或等于第三预设阈值，获取跟踪目标在匹配失败的视频帧图像中的重叠状态和目标框位置；

根据重叠状态和目标框位置，判断是否发生目标重叠和/或目标超出画面；

若未发生目标重叠和目标超出画面，将第一帧数与第三预设阈值进行比较；

若第一帧数小于第三预设阈值，确定异常类型为模型误检；

若第一帧数大于或等于第三预设阈值，确定异常类型为模型误检；

根据匹配状态转换数据中的匹配成功的视频帧图像，生成异常帧图像集。

在跟踪状态转换数据为由未确认状态转换至删除状态的情况下，确定异常类型为模型误检；

可选地，该方法还包括：

在至少一个跟踪目标为多个的情况下，获取每个视频帧图像中的每个跟踪目标对应的目标框的位置信息；

根据多个位置信息，确定每个视频帧图像中，任意两个跟踪目标之间的交并比；

根据交并比和第四预设阈值，生成每个跟踪目标对于每个视频帧图像的重叠状态。

依据本申请第二方面，提供了一种模型优化装置，该装置包括：

获取模块，用于获取至少一个跟踪目标和待优化的目标检测模型；

跟踪模块，用于对至少一个跟踪目标进行目标跟踪，获取每个跟踪目标对应的匹配状态转换数据

生成模块，用于根据匹配状态转换数据，生成每个跟踪目标对应的跟踪状态转换数据；

确定模块，用于根据匹配状态转换数据和跟踪状态转换数据，确定异常类型和异常帧图像集；

优化模块，用于根据异常帧图像集和异常类型，对目标检测模型进行优化。

根据本发明的第三方面，提供了一种视频处理系统包括：如第二方面的模型优化装置；

视频采集装置，视频采集装置与模型优化装置通信连接，其中，视频采集装置，用于采集视频流，并将采集到的视频流发送至模型优化装置。

根据本发明的第四方面，提供了一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如第一方面的模型优化方法对应的操作。

根据本发明的第五方面，提供了一种终端，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面的模型优化方法对应的操作。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本申请提供的一种模型优化方法、装置、视频处理系统、存储介质和终端，在连续跟踪过程中，对各个跟踪目标在每一帧的匹配状态进行监视，得到匹配状态转换情况，进而得到不同时间段的跟踪状态转换情况。其后，对转换情况进行分析，找出由模型引起的异常，确定出目标检测模型的异常类型以及其对应的异常帧，进而基于异常类型和异常帧有针对性地对目标检测模型进行优化。相较于现有技术中，将检测与跟踪不匹配的帧作为模型处理效果不理想的视频帧抽取出来，并基于抽取出的视频帧对模型进行再次训练，以对模型进行优化的优化方式，存在无法针对异常类型有针对性地对模型进行优化，且冗余数据较多，最终导致目标检测模型的优化效果不佳的技术问题。本申请判别跟踪异常是否由模型检测错误引起的，只有在确定是模型检测错误引起的跟踪异常，才会基于转换情况确定异常类型以及异常帧来进行目标检测模型优化，最大程度地抽出与目标检测模型有关的有效异常帧作为训练数据，减少冗余数据的同时，基于异常类型有针对性的对模型进行优化，使得模型的优化效果更佳，还会使得目标检测模型在面对不同异常情况时具备更好的稳定性和可靠性，对于模型应用在不同环境和不同场景中的目标检测和跟踪具有重要意义。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种模型优化方法流程示意图之一；

图2示出了本申请实施例提供的一种模型优化方法流程示意图之二；

图3示出了本申请实施例提供的视频帧图像中目标框示意图之一；

图4示出了本申请实施例提供的视频帧图像中目标框示意图之二；

图5示出了本申请实施例提供的跟状态转换示意图之一；

图6示出了本申请实施例提供的跟状态转换示意图之二；

图7示出了本申请实施例提供的跟状态转换示意图之三；

图8示出了本申请实施例提供的一种模型优化装置的结构示意图；

图9示出了本申请实施例提供的终端的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种模型优化方法，如图1所示，该方法包括：

S101、获取至少一个跟踪目标和待优化的目标检测模型。

本申请实施例提供了一种模型优化方法，具体地，目标检测模型用于在视频帧图像中检测和识别目标的位置，并输出一个包含目标位置的目标框。需要说明的是，目标检测模型为已经训练好的模型，该模型的检测性能已经很高，在通常情况下检测结果较为准确。然而，目标检测模型的检测无法达到百分百准确，在个别帧或时间段偶尔会出现漏检和/或误检的现象(如人体姿态发生变化时偶尔出现人体目标漏检，表现出目标框闪烁的现象)。

为了提高目标检测模型的准确性，使其检测结果更加精准，现有技术中，通常会将模型检测与后续跟踪不匹配的视频帧图像作为模型处理效果不理想的异常帧进行抽取，并基于抽取出的异常帧对模型进行重新训练，以对模型进行优化。但实际上，模型优化过程中，在发生检测与跟踪不匹配的时间点，可能是模型漏检、误检导致的跟踪异常，还可能是由于跟踪目标超出画面或者与其他跟踪目标重叠导致的跟踪异常，对于后者来说，模型表现正常，即模型检测结果无误。而现有技术中直接将跟踪异常情况的视频帧抽取出来，对模型重新训练，而并未对视频帧的异常情况进行具体分析，无法明确是否为模型引起的跟踪异常，使得抽取出的视频帧中包含了大量于模型优化无益的冗余数据，有效数据较少，进而导致模型优化效果较差。

基于上述问题，本申请提出了获取至少一个跟踪目标，在对至少一个跟踪目标进行跟踪时，实时监控跟踪目标跟踪状态的转换情况，来分析是否发生跟踪异常，并对异常情况进行具体分析，判别是否为模型检测异常引起的跟踪异常，并基于分析结果对模型进行有针对性的优化。

S102、对至少一个跟踪目标进行目标跟踪，获取每个跟踪目标对应的匹配状态转换数据。

在该步骤中，匹配状态转换数据由每个跟踪目标在每一帧的匹配成功或匹配失败的匹配结果组成，对每个跟踪目标进行目标跟踪，在对每个跟踪目标进行跟踪过程中，跟踪目标的目标框在视频帧中可能出现与其他跟踪目标的目标框重叠、目标框移出画面等现象；还可能出现目标检测模型误判，如目标检测模型出现误检(错误地将非目标框识别为跟踪目标)或漏检(无法检测到目标框)的情况，上述两种方式都会导致目标跟踪出现异常情况。为了判别是否为模型检测异常所导致的跟踪异常，需要对各个跟踪目标的跟踪过程进行监视，得到每个跟踪目标在每个视频帧的匹配状态，并将所有匹配状态汇总生成匹配状态转换数据。进而根据其中匹配状态的转换情况，来判断目标跟踪过程中是否出现异常情况。

具体地，监视各个跟踪目标在每个视频帧中的匹配状态。在任一视频帧中，若成功识别跟踪目标，确定在该视频帧的匹配状态为匹配成功；若未能成功识别跟踪目标，确定在该视频帧的匹配状态为匹配失败。进而将所有的匹配状态进行汇总，组成跟踪目标的匹配状态转换数据。

S103、根据匹配状态转换数据，生成每个跟踪目标对应的跟踪状态转换数据。

在该步骤中，跟踪状态转换数据由每个跟踪目标在多个时间段内的跟踪状态组成，具体地，对各个跟踪目标的匹配状态转换数据进行分析，基于其中连续匹配成功和/或连续匹配失败的匹配状态，生成该跟踪目标在不同时间段的跟踪状态，进而生成每个跟踪目标的跟踪状态转换数据。

通过上述方式，确定每个跟踪目标在不同时间段的跟踪状态转换情况，结合匹配状态转换情况对跟踪异常情况进行分析，判别是否存在目标检测模型的检测异常。

S104、根据匹配状态转换数据和跟踪状态转换数据，确定异常类型和异常帧图像集。

S105、根据异常帧图像集和异常类型，对目标检测模型进行优化。

在步骤S104和S105中，异常类型指的是目标检测模型的检测异常类型，包括模型漏检或模型误检。异常帧图像集则是每个异常类型对应的异常帧集合。对于任一跟踪目标来说，跟踪过程中的异常可能由多种因素导致，包括非目标检测模型原因，如目标被其他目标部分或完全遮挡，导致目标无法被检测到，或者目标超出画面等情况；还包括目标检测模型原因，如目标检测模型出现模型误检或模型漏检。因此，需要基于跟踪目标的匹配状态转换情况和跟踪状态转换情况，对跟踪过程的异常状况进行具体分析，以确定异常状况是否为模型漏检或模型误检引起的，还是非目标检测模型原因引起的跟踪异常(即模型表现正常)，进而基于判别结果有针对性的对目标检测模型进行优化。

具体地，基于匹配状态转换数据以及跟踪状态转换数据，确定存在由模型检测异常导致的跟踪异常后，基于异常跟踪目标的匹配状态转换情况和跟踪状态转换情况，确定模型检测异常对应的异常类型，以及每个异常类型所对应的异常帧图像集，将异常帧图像集作为模型优化的训练数据，基于异常类型和异常帧，有针对性地对目标检测模型进行优化。

通过上述方式，明确模型异常类型以及异常帧，进而针对不同异常类型进行模型优化，提高模型的准确性和鲁棒性，使得目标检测模型在面对不同异常情况时具备更好的稳定性和可靠性，对于模型应用在不同环境和不同场景中的目标检测和跟踪具有重要意义。

本申请实施例提供的模型优化方法，在连续跟踪过程中，对各个跟踪目标在每一帧的匹配状态进行监视，得到匹配状态转换情况，进而得到不同时间段的跟踪状态转换情况。其后，对转换情况进行分析，找出由模型引起的异常，确定出目标检测模型的异常类型以及其对应的异常帧，进而基于异常类型和异常帧有针对性地对目标检测模型进行优化。相较于现有技术中，将检测与跟踪不匹配的帧作为模型处理效果不理想的视频帧抽取出来，并基于抽取出的视频帧对模型进行再次训练，以对模型进行优化的优化方式，存在无法针对异常类型有针对性地对模型进行优化，且冗余数据较多，最终导致目标检测模型的优化效果不佳的技术问题。本申请判别跟踪异常是否由模型检测错误引起的，只有在确定是模型检测错误引起的跟踪异常，才会基于转换情况确定异常类型以及异常帧来进行目标检测模型优化，最大程度地抽出与目标检测模型有关的有效异常帧作为训练数据，减少冗余数据的同时，基于异常类型有针对性的对模型进行优化，使得模型的优化效果更佳，还会使得目标检测模型在面对不同异常情况时具备更好的稳定性和可靠性，对于模型应用在不同环境和不同场景中的目标检测和跟踪具有重要意义。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，本申请实施例提供了另一种模型优化方法，如图2所示，该方法包括：

S201、响应于模型优化请求，获取模型优化请求中包括的多个视频帧图像和待优化的目标检测模型。

在该步骤中，目标检测模型用于在视频帧图像中检测和识别目标的位置，并输出一个包含目标位置的目标框。需要说明的是，目标检测模型为已经训练好的模型，该模型的检测性能已经很高，在通常情况下检测结果较为准确。然而，目标检测模型的检测无法达到百分百准确，在个别帧或时间段偶尔会出现漏检和/或误检的现象(如人体姿态发生变化时偶尔出现人体目标漏检，表现出目标框闪烁的现象)。

在实际应用中，目标检测模型可以为用于人体姿态估计或图像分割的模型。具体地，若目标检测模型推理结果本身包含目标框，则直接得到目标框即可。若目标检测模型推理结果仅为人体关键点，则可通过计算人体关键点得到目标框。进一步地，若目标检测模型推理结果为二进制图像的目标mask(掩膜)，则可以通过计算目标mask得到目标框。具体地，如图3所示，为目标检测模型检测出的目标mask，如图4所示，为通过计算目标mask的AABB包围盒得到的其对应的目标框。

S202、将多个视频帧图像输入目标检测模型，识别出多个视频帧图像中的多个目标框，并在多个视频帧图像中标记出每个目标框。

S203、根据第一帧图像中标记的至少一个目标框，确定至少一个跟踪目标。

在步骤S202和S203中，在获取多个视频帧图像后，将多个视频帧图像输入至目标检测模型中进行推理，目标检测模型会对每一帧图像进行分析，并在每个视频帧图像中识别并标记出目标区域，生成目标框。

进一步地，在每一视频帧图像中标记出目标框后，在第一帧图像中，选择图像中包含的一个或多个目标框作为跟踪的起点，即为一个或多个跟踪目标。

可选地，利用目标检测模型自动框选图像中定位出的一个或多个目标框对应的跟踪目标后，可由专业人员基于场景或业务需求手动对跟踪目标进行调整，使得跟踪目标更贴合应用场景，提高目标检测模型的实用性。

S204、利用预设目标跟踪算法，基于多个视频帧图像中标记的多个目标框，对每个跟踪目标进行目标跟踪，生成每个跟踪目标在每个视频帧图像中的匹配状态，其中，匹配状态包括匹配成功或匹配失败。

S205、根据多个匹配状态，生成每个跟踪目标的匹配状态转换数据。

在步骤S204和S205中，预设目标跟踪算法用于基于每个后续的视频帧图像中的目标框，来跟踪每个跟踪目标，并更新匹配状态。可以理解的是，匹配状态是指跟踪目标在每一帧图像中是否匹配/关联到目标框的监测结果。具体地，在跟踪过程中实时监控各跟踪目标的跟踪匹配状态，若跟踪目标在某一帧图像中的目标框可以定位、识别，则确认跟踪目标在该图像帧中的匹配状态为匹配成功。若跟踪目标在某一帧图像中无法识别跟踪目标的目标框，即在该图像帧中确定此时目标框可能发生遮挡，或者目标检测模型未能成功检测出这一图像帧中的目标框，此时跟踪目标的匹配状态发生转换，跟踪目标在该图像帧中的匹配状态为匹配失败。

进一步地，监控得到各个跟踪目标在每一帧图像中的匹配状态后，将多个匹配状态进行汇总、整理，组成各个跟踪目标的匹配状态转换数据，记录跟踪目标的匹配转换过程，例如，跟踪目标在多个视频帧图像中发生“匹配成功-匹配失败-再次匹配成功”的转换过程。

可选地，预设目标跟踪算法Sort、DeepSort、ByteTrack等主流的基于检测的多目标跟踪算法，本申请在此不做具体限定，本申请以采用DeepSort算法为例。

S206、设置每个跟踪目标在第一帧图像中的初始跟踪状态为未确认状态。

S207、根据匹配状态转换数据，确定每个跟踪目标在跟踪过程中的至少一个跟踪状态，其中，跟踪状态包括确认状态、未确认状态和删除状态。

在步骤S206和S207中，在跟踪过程中，基于不同时间段的匹配状态的转换情况，可以将这时间段的相同的匹配状态汇总为同一跟踪状态，用于判断在这一时间段内的目标跟踪是否发生异常情况，其中，跟踪状态包括确认状态、未确认状态以及删除状态。

可以理解的是，跟踪目标的初始跟踪状态为跟踪目标还未开始跟踪时的状态，因此，初始跟踪状态还可以设置在第一帧图像之前。

在本申请的一个实施例中，可选地，步骤S207中，也即根据匹配状态转换数据，确定每个跟踪目标在跟踪过程中的至少一个跟踪状态，具体包括：对于任一跟踪目标，根据匹配状态转换数据，确定第一帧数和第二帧数，其中，第一帧数为连续匹配成功的视频帧图像的数量，第二帧数为连续匹配失败的视频帧图像的数量；若第一帧数大于或等于第一预设阈值，确定跟踪目标在第一帧数对应的跟踪状态为确认状态；在跟踪目标的跟踪状态为确认状态的情况下，若第二帧数大于或等于第二预设阈值，确定跟踪目标的跟踪状态由确认状态转换为未确认状态；在跟踪目标的跟踪状态为未确认状态的情况下，若跟踪目标在第二个视频帧图像的匹配结果为匹配失败，确定跟踪目标的跟踪状态由未确认状态转换为删除状态。

在该实施例中，在目标跟踪过程中，获取跟踪目标连续匹配成功的第一帧数，以及连续匹配失败的第二帧数。根据第一帧数、第二帧数以及设定的第一预设阈值、第二预设阈值来判断跟踪过程中的跟踪状态。

具体地，对于任一跟踪目标来说，跟踪目标的匹配转换可分为两种情形：第一种：“匹配成功-匹配失败-再次匹配成功”；第二种：“匹配成功-匹配失败-匹配失败(被删除)”。若结合跟踪状态，则跟踪目标在其生命周期内或在一段实际时期内的匹配转换状态可以归为以下四种情形：如图5所示，为情形A的跟踪状态转换示意图。其中，第一帧图像中确认初始状态为未确认状态，在后续跟踪过程中，跟踪目标持续匹配成功(即匹配结果从未发生转换)，其跟踪状态转换情况为：未确认状态(初始跟踪状态)-确认状态。这种情形下，表示跟踪目标的目标框能够持续正确地检出且被持续跟踪，即跟踪目标的跟踪情况良好，无任何异常。如图6所示，为情形B的跟踪状态转换示意图。其中，跟踪目标在连续多个视频帧图像Ⅰ中匹配结果均为匹配成功，在连续多个视频帧图像Ⅱ中匹配结果均为匹配失败，在连续多个视频帧Ⅲ中匹配结果均为匹配成功，则跟踪目标的匹配转换过程为“匹配成功-匹配成功-......-匹配失败-匹配失败-......-匹配成功”。其中，匹配失败的第二帧数小于第二预设阈值，则说明多个匹配失败的视频帧为达到未确认状态，即跟踪目标在跟踪过程中的跟踪状态持续为确认状态，则跟踪目标的跟踪状态转换情况为“未确认状态(初始状态)-确认状态”。如图7所示，为情形C的跟踪状态转换示意图。其中，跟踪目标在连续的多个视频帧图像Ⅰ的匹配结果均为匹配成功，在连续的多个视频帧图像Ⅱ的匹配结果均为匹配失败，需要注意的是，当匹配失败的第二帧数达到第二预设阈值时，则将跟踪目标删除。跟踪目标匹配转换过程为“匹配成功-匹配成功-......-匹配失败-匹配失败-......-被删除(匹配失败)”，那么，跟踪目标的跟踪状态转换情况为“未确认状态(初始状态)-确认状态-删除状态”。

进一步地，跟踪目标在第一帧图像中匹配后，此时设置跟踪目标的初始状态为未确认状态，然而，跟踪目标在下一帧图像的匹配结果为匹配失败，则将跟踪目标删除，此时跟踪目标的匹配转换过程为“匹配成功-匹配失败-被删除(匹配失败)”，则跟踪目标的跟踪状态转换情况为”未确认状态(初始状态)-删除状态)。

可选地，第一预设阈值和第二预设阈值可以根据目标和背景的动态变化，自适应地调整阈值，本申请在此不做具体限定。

S208、根据初始跟踪状态和至少一个跟踪状态，生成每个跟踪目标的跟踪状态转换数据。

在该步骤中，根据设置的初始跟踪状态，以及跟踪过程中的至少一个跟踪状态进行汇总，生成各个跟踪目标的跟踪状态转换数据。进而基于跟踪状态的转换情况，分析跟踪过程中是否发生异常。

S209、根据匹配状态转换数据和跟踪状态转换数据，确定异常类型和异常帧图像集。

在该步骤中，异常类型指的是目标检测模型的检测异常类型，包括模型漏检或模型误检。异常帧图像集则是每个异常类型对应的异常帧集合。对于任一跟踪目标来说，跟踪过程中的异常可能由多种因素导致，包括非目标检测模型原因，如目标被其他目标部分或完全遮挡，导致目标无法被检测到，或者目标超出画面等情况；还包括目标检测模型原因，如目标检测模型出现模型误检或模型漏检。因此，需要基于跟踪目标的匹配状态转换情况和跟踪状态转换情况，对跟踪过程的异常状况进行具体分析，以确定异常状况是否为模型漏检或模型误检引起的，还是非目标检测模型原因引起的跟踪异常(即模型表现正常)，进而基于判别结果有针对性的对目标检测模型进行优化。

在本申请的一个实施例中，可选地，步骤S209中，也即根据匹配状态转换数据，确定每个跟踪目标在跟踪过程中的至少一个跟踪状态，具体包括：对于任一跟踪目标，在跟踪状态转换数据为由未确认状态转换至确认状态的情况下，判断匹配状态转换数据中的匹配状态是否包含匹配失败；若匹配状态包含匹配失败，获取跟踪目标在匹配失败的视频帧图像中的重叠状态和目标框位置；根据重叠状态和目标框位置，判断是否发生目标重叠或目标超出画面；若未发生目标重叠或目标超出画面，确定异常类型为模型漏检；根据匹配状态转换数据中的匹配失败的视频帧图像，生成异常帧图像集。

在该实施例中，在跟踪状态转换数据为：未确认状态(初始跟踪状态)-确认状态的情况下，确认状态分为两种情况，一种为该状态下，跟踪目标持续匹配成功被持续跟踪，直至跟踪完成，这种情况为较为理想状态；另一种为跟踪目标在某个时间段的匹配状态为匹配失败，其余时间段均连续匹配成功，然而，匹配失败的帧数较少，未达到删除标准，因此跟踪状态未发生改变，而这种状态下，则为发生跟踪异常。因此，在这种跟踪转换情况下，判断匹配状态转换数据中是否包含匹配失败的匹配结果，如果包含匹配失败，说明发生跟踪异常。此时，需要考虑目标间遮挡、目标移出画面等情形，即获取该跟踪目标在匹配失败处的重叠状态以及目标框位置，需要说明的是，匹配失败的视频帧图像为匹配状态中，首个匹配失败的视频帧。重叠状态用于判别跟踪目标在该视频帧中与其他目标之间是否发生重叠，目标框位置用于判别跟踪目标在该视频帧中是否移出画面。若跟踪对象未与其他目标重叠，且跟踪目标未超出画面边缘，则认为跟踪异常为模型检测异常引起的。

进一步地，若跟踪对象在匹配失败的视频帧中出现目标间重叠或移出画面的情况，说明模型表现正常。也就是说，跟踪目标的跟踪异常情况并非目标检测模型所引起的，说明此时的跟踪异常视频帧对于目标检测模型来说是冗余数据，即使利用异常帧对模型进行优化也无性能上的提升，则无需基于该跟踪异常对目标检测模型进行优化。

进一步地，在确定跟踪异常是由于目标检测模型检测异常所导致的，需要基于出现异常的异常帧对模型进行优化，其中，异常原因可能是模型漏检，还可能是模型误检，为了提高优化效果，需要基于异常情况进行异常类型分类，进而按照不同异常类型有针对性地对模型进行优化。

具体地，在确认模型检测异常，且跟踪状态转换数据为未确认状态-确认状态的情况下，说明在确认状态中模型存在漏检，即异常类型为模型漏检。此时，可确认在确认状态中包含了较少量的连续匹配失败的视频帧，这部分视频帧即为模型漏检的异常帧。因此，在确认异常类型为模型漏检后，基于匹配状态转换数据，确定匹配失败的多个视频帧图像(如图6中，时间段Ⅱ对应的视频帧图像)，将这部分视频帧图像标记并提取出来，汇总生成模型漏检对应的异常帧图像集。

在本申请的一个实施例中，可选地，步骤S209中，也即根据匹配状态转换数据，确定每个跟踪目标在跟踪过程中的至少一个跟踪状态，具体还包括：在跟踪状态转换数据为由未确认状态转换至确认状态转换至删除状态的情况下，判断跟踪目标的第一帧数是否小于第三预设阈值；若第一帧数小于第三预设阈值，确定目标跟踪过程中存在由目标检测模型引起的跟踪异常；若第一帧数大于或等于第三预设阈值，获取跟踪目标在匹配失败的视频帧图像中的重叠状态和目标框位置；根据重叠状态和目标框位置，判断是否发生目标重叠和/或目标超出画面；若未发生目标重叠和目标超出画面，将第一帧数与第三预设阈值进行比较；若第一帧数小于第三预设阈值，确定异常类型为模型误检；若第一帧数大于或等于第三预设阈值，确定异常类型为模型误检；根据匹配状态转换数据中的匹配成功的视频帧图像，生成异常帧图像集。

在该实施例中，在跟踪状态转换数据为：未确认状态(初始跟踪状态)-确认状态-删除状态，这种情况下，匹配成功次数(第一帧数)的大小影响了判别结果。具体地，如果一个跟踪目标在确认状态下的匹配成功次数很少，而后出现的连续匹配失败次数达到阈值导致跟踪目标被删除，则推测该跟踪目标大概率是不存在的，也就是说，目标检测模型在检测过程中出现了模型误检。反之，如果一个跟踪目标的匹配成功次数较多，而后出现的连续匹配失败次数达到阈值导致跟踪目标被删除，则推测该跟踪目标是存在的，而模型在检测过程中出现了漏检。因此，在这种跟踪状态转换情况下，基于匹配状态转换数据，获取处于确定状态的时间段内，连续匹配成功的第一帧数，如果第一帧数小于第三预设阈值，说明该时间段内匹配成功次数较少，则认为跟踪目标在这第一时间段发生误检。而在连续匹配失败直至删除的时间段内的模型属于表现正常。

进一步地，如果第一帧数大于或等于第三预设阈值，说明该时间段内匹配成功次数较多，则认为模型在这时间段正常检出。而在下一个时间段期间可能发生漏检。具体地，为了判别这时间段内为模型漏检，或者为非模型导致的跟踪异常，需要获取该跟踪目标在匹配失败处的重叠状态以及目标框位置，若跟踪对象未与其他目标重叠，且跟踪目标未超出画面边缘，则认为该时间段的跟踪异常为模型检测异常引起的，即为模型漏检。

进一步地，在确认模型检测异常，且跟踪状态转换数据为未确认状态-确认状态-删除状态的情况下，此时模型可能存在漏检，也可能存在误检。为了明确异常类型，获取匹配状态转换数据中，连续匹配成功的多个视频帧图像(如图7中时间段Ⅰ对应的多个视频帧图像)，统计多个匹配成功的第一帧数，如果第一帧数小于第三预设阈值，说明匹配成功的视频帧较少，则认为模型对于连续匹配成功的多个视频帧图像(如图7中时间段Ⅰ对应的多个视频帧图像)发生误检，在如图7中的时间段Ⅱ期间未检出属于模型表现正常，直至跟踪目标被删除。因此，将如图7中的时间段Ⅰ的多个视频帧图像标记并提取出来，汇总生成模型误检对应的异常帧图像集。

进一步地，如果第一帧数大于或等于第三预设阈值，说明匹配成功的视频帧较多，则认为模型在时间段Ⅰ正常检出，而在后续发生漏检，使得目标连续匹配失败直至被删除(如图7中时间段Ⅱ对应的多个视频帧图像)。因此，将时间段Ⅱ中连续匹配失败的多个视频帧图像标记并提取出来，汇总生成模型漏检对应的异常帧图像集。

在本申请的一个实施例中，可选地，步骤S209中，也即根据匹配状态转换数据，确定每个跟踪目标在跟踪过程中的至少一个跟踪状态，具体还包括：在跟踪状态转换数据为由未确认状态转换至删除状态的情况下，确定异常类型为模型误检；根据匹配状态转换数据中的匹配成功的视频帧图像，生成异常帧图像集。

在该实施例中，在跟踪状态转换数据为：未确认状态(初始跟踪状态)-删除状态的情况下，从第二帧图像起，连续多个视频帧均为匹配失败，直至失败次数达到阈值将跟踪目标删除，因此，可以确定在连续匹配失败的时间段内模型出现误检，即跟踪过程存在模型引起的跟踪异常。

进一步地，在确认模型检测异常，且跟踪状态转换数据由未确认状态-删除状态的情况下，确认自第二帧起模型就发生漏检，直至漏检次数达到第三预设阈值，将目标删除。因此，将连续匹配失败的多个视频帧图像标记并提取出来，汇总生成模型误检的异常帧图像集。

可选地，第三预设阈值可以根据目标和背景的动态变化，自适应地调整阈值，本申请在此不做具体限定。

可选地，判断跟踪目标是否超出画面边缘可以通过预设目标跟踪算法中已有的目标框进行检测，只要目标框有一条边接触或超出画面边缘，则标记该跟踪目标超出画面边缘。

可以理解的是，在模型优化过程中，可以预先设定本次更新想要优化的异常类型(如模型漏检或模型误检)，进而基于特定的待优化异常类型有针对性地对在目标跟踪中寻找该异常类型对应的异常帧图像。

S210、根据异常帧图像集和异常类型，对目标检测模型进行优化。

在该步骤中，确定模型检测异常对应的异常类型，以及每个异常类型所对应的异常帧图像集后，将异常帧图像集作为模型优化的训练数据，基于异常类型，有针对性地对目标检测模型进行优化。

可选地，由于标记的异常帧可能是前面若干帧，所以可采用“全局回溯”(回到视频起始点，根据标记结果抽取相应的异常帧)的方式抽取离线视频中的异常帧，或“局部回溯”(从临近视频帧缓冲队列中抽取相应的异常帧)的方式抽取在线视频中的异常帧。

通过上述方式，通过针对不同异常类型进行模型优化，提高模型的准确性和鲁棒性，使得目标检测模型在面对不同异常情况时具备更好的稳定性和可靠性，对于模型应用在不同环境和不同场景中的目标检测和跟踪具有重要意义。

在本申请的一个实施例中，可选地，为了提高跟踪异常情况分析的准确性，在跟踪目标为多个的情况下，实时统计每个跟踪目标在各个视频帧图像中是否与其他目标重叠，具体地，在至少一个跟踪目标为多个的情况下，获取每个视频帧图像中包含的目标框数量；若任一视频帧图像中的目标框数量大于或等于两个，获取视频帧图像中的每个目标框的位置信息；根据位置信息，确定视频帧图像中任意两个跟踪目标之间的交并比；根据交并比和第四预设阈值，生成每个跟踪目标的重叠状态。

在该实施例中，判断本次跟踪目标的数量，如果跟踪目标的数量为两个或两个以上，说明在每一帧图像中多个跟踪目标的多个目标框可能互相遮挡。因此，获取每个视频帧图像中，每个跟踪的目标框的位置信息，其中，位置信息可以为坐标信息，进而基于多个位置信息，计算两两跟踪目标之间的交并比，进而基于计算出的交并比，如果交并比大于或等于第四预设阈值，确认这两个跟踪目标在该视频帧图像中的重叠状态标记为是；如果交并比小于第四预设阈值，确认这两个跟踪目标在该视频帧中的重叠状态标记为否。

可选地，第四预设阈值用于评价重叠状态是否过大，可以基于跟踪目标的数量和视频流的场景或领域具体设定，本申请在此不做具体限定。

在实际应用中，设所有跟踪目标为T(T₁、T₂、......、T_n)，在每次更新每一帧图像的匹配状态时，对所有跟踪目标进行两两判别，即对任意一对(T_i，T_j)(i、j为1至n中的整数)，若其交并比(IoU)大于阈值，则将跟踪目标T_i、T_j在该视频帧图像的重叠状态标记为是。可以理解的是，目标重叠/遮挡容易导致目标消失或漏检，因此，在目标框消失之前(即匹配成功时)更新重叠状态更加准确。因此，待所有跟踪目标两两判别完毕后，依次确认各跟踪目标在每个视频帧中的匹配状态，如果匹配成功，则将该跟踪目标的跟踪状态与匹配状态相对应。具体地，确定任意两两跟踪目标的目标框的坐标信息，计算两个目标框的交集区域的面积，同时，计算两个目标框的并集区域的面积。其后，使用交集面积除以并集面积，得到交并比。

进一步地，作为图1所述方法的具体实现，本申请实施例提供了一种模型优化装置300，如图8所示，该装置包括：

获取模块301，用于获取至少一个跟踪目标和待优化的目标检测模型；

跟踪模块302，用于对至少一个跟踪目标进行目标跟踪，获取每个跟踪目标对应的匹配状态转换数据；

生成模块303，用于根据匹配状态转换数据，生成每个跟踪目标对应的跟踪状态转换数据；

确定模块304，用于根据匹配状态转换数据和跟踪状态转换数据，确定异常类型和异常帧图像集；

优化模块305，用于根据异常帧图像集和异常类型，对目标检测模型进行优化。

可选地，获取模块301，具体用于：响应于模型优化请求，获取模型优化请求中包括的多个视频帧图像和目标检测模型；将多个视频帧图像输入目标检测模型，识别出多个视频帧图像中的多个目标框，并在多个视频帧图像中标记出每个目标框；根据第一帧图像中标记的至少一个目标框，确定至少一个跟踪目标。

可选地，获取模块301，具体还用于：利用预设目标跟踪算法，基于多个视频帧图像中标记的多个目标框，对每个跟踪目标进行目标跟踪，生成每个跟踪目标在每个视频帧图像中的匹配状态，其中，匹配状态包括匹配成功或匹配失败；根据多个匹配状态，生成每个跟踪目标的匹配状态转换数据。

可选地，生成模块303，具体用于：设置每个跟踪目标在第一帧图像中的初始跟踪状态为未确认状态；根据匹配状态转换数据，确定每个跟踪目标在跟踪过程中的至少一个跟踪状态，其中，跟踪状态包括确认状态、未确认状态和删除状态；根据初始跟踪状态和至少一个跟踪状态，生成每个跟踪目标的跟踪状态转换数据。

可选地，生成模块303，具体还用于：对于任一跟踪目标，根据匹配状态转换数据，确定第一帧数和第二帧数，其中，第一帧数为连续匹配成功的视频帧图像的数量，第二帧数为连续匹配失败的视频帧图像的数量；若第一帧数大于或等于第一预设阈值，确定跟踪目标在第一帧数对应的跟踪状态为确认状态；在跟踪目标的跟踪状态为确认状态的情况下，若第二帧数大于或等于第二预设阈值，确定跟踪目标的跟踪状态由确认状态转换为未确认状态；在跟踪目标的跟踪状态为未确认状态的情况下，若跟踪目标在第二个视频帧图像的匹配结果为匹配失败，确定跟踪目标的跟踪状态由未确认状态转换为删除状态。

可选地，确定模块304，具体用于：对于任一跟踪目标，在跟踪状态转换数据为由未确认状态转换至确认状态的情况下，判断匹配状态转换数据中的匹配状态是否包含匹配失败；若匹配状态包含匹配失败，获取跟踪目标在匹配失败的视频帧图像中的重叠状态和目标框位置；根据重叠状态和目标框位置，判断是否发生目标重叠或目标超出画面；若未发生目标重叠或目标超出画面，确定异常类型为模型漏检；根据匹配状态转换数据中的匹配失败的视频帧图像，生成异常帧图像集。

可选地，确定模块304，具体还用于，在跟踪状态转换数据为由未确认状态转换至确认状态转换至删除状态的情况下，判断跟踪目标的第一帧数是否小于第三预设阈值；若第一帧数小于第三预设阈值，确定目标跟踪过程中存在由目标检测模型引起的跟踪异常；若第一帧数大于或等于第三预设阈值，获取跟踪目标在匹配失败的视频帧图像中的重叠状态和目标框位置；根据重叠状态和目标框位置，判断是否发生目标重叠和/或目标超出画面；若未发生目标重叠和目标超出画面，将第一帧数与第三预设阈值进行比较；若第一帧数小于第三预设阈值，确定异常类型为模型误检；若第一帧数大于或等于第三预设阈值，确定异常类型为模型误检；根据匹配状态转换数据中的匹配成功的视频帧图像，生成异常帧图像集。

可选地，确定模块304，具体还用于：在跟踪状态转换数据为由未确认状态转换至删除状态的情况下，确定异常类型为模型误检；根据匹配状态转换数据中的匹配成功的视频帧图像，生成异常帧图像集。

可选地，获取模块301还用于，在至少一个跟踪目标为多个的情况下，获取每个视频帧图像中的每个跟踪目标对应的目标框的位置信息；

可选地，确定模块304还用于，根据多个位置信息，确定每个视频帧图像中，任意两个跟踪目标之间的交并比；

生成模块303还用于，根据交并比和第四预设阈值，生成每个跟踪目标对于每个视频帧图像的重叠状态。

本申请实施例提供的模型优化装置300，在连续跟踪过程中，对各个跟踪目标在每一帧的匹配状态进行监视，得到匹配状态转换情况，进而得到不同时间段的跟踪状态转换情况。其后，对转换情况进行分析，找出由模型引起的异常，确定出目标检测模型的异常类型以及其对应的异常帧，进而基于异常类型和异常帧有针对性地对目标检测模型进行优化。相较于现有技术中，将检测与跟踪不匹配的帧作为模型处理效果不理想的视频帧抽取出来，并基于抽取出的视频帧对模型进行再次训练，以对模型进行优化的优化方式，存在无法针对异常类型有针对性地对模型进行优化，且冗余数据较多，最终导致目标检测模型的优化效果不佳的技术问题。本申请判别跟踪异常是否由模型检测错误引起的，只有在确定是模型检测错误引起的跟踪异常，才会基于转换情况确定异常类型以及异常帧来进行目标检测模型优化，最大程度地抽出与目标检测模型有关的有效异常帧作为训练数据，减少冗余数据的同时，基于异常类型有针对性的对模型进行优化，使得模型的优化效果更佳，还会使得目标检测模型在面对不同异常情况时具备更好的稳定性和可靠性，对于模型应用在不同环境和不同场景中的目标检测和跟踪具有重要意义。

在示例性实施例中，本申请还提供了一种视频处理系统包括：如第二方面的模型优化装置；视频采集装置，视频采集装置与模型优化装置通信连接，其中，视频采集装置，用于采集视频流，并将采集到的视频流发送至模型优化装置。

在该实施例中，视频采集装置可以为传统的摄像机、网络拍摄机(IP摄像机)、运动捕捉系统或无人机等，利用视频采集装置来捕获视频流，提供高质量的实时视频。可以理解的是，视频采集装置采集到视频流后，可以将在线视频(摄像机预览流)实时发送至模型优化装置，以对模型进行优化。进一步地，还可以将捕获到的视频流存储在预设数据库中。当要对模型进行优化时，将存储的离线视频发送至模型优化模型。

在示例性实施例中，本申请还提供了一种存储介质，所述存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的模型优化方法。

在示例性实施例中，本申请还提供了一种终端，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

图9示出了根据本发明一个实施例提供的一种终端的结构示意图，本发明具体实施例并不对终端的具体实现做限定。

如图9所示，该终端可以包括：处理器(processor)402、通信接口(CommunicationsInterface)404、存储器(memory)406、以及通信总线408。

其中：处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402，用于执行程序410，具体可以执行上述模块优化方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。终端包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行图2中模块优化装置执行的方法，并实现模块优化装置在图2所示实施例的功能，本申请实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种模型优化方法，其特征在于，包括：

获取至少一个跟踪目标和待优化的目标检测模型；

对所述至少一个跟踪目标进行目标跟踪，获取每个跟踪目标对应的匹配状态转换数据；

根据所述匹配状态转换数据，生成所述每个跟踪目标对应的跟踪状态转换数据；

根据所述匹配状态转换数据和所述跟踪状态转换数据，确定所述目标检测模型对应的异常类型和异常帧图像集；

根据所述异常帧图像集和所述异常类型，对所述目标检测模型进行优化。

2.根据权利要求1所述的方法，其特征在于，所述获取至少一个跟踪目标和待优化的目标检测模型的步骤，具体包括：

响应于模型优化请求，获取所述模型优化请求中包括的多个视频帧图像和所述目标检测模型；

将所述多个视频帧图像输入所述目标检测模型，识别出所述多个视频帧图像中的多个目标框，并在所述多个视频帧图像中标记出每个目标框；

根据第一帧图像中标记的至少一个目标框，确定所述至少一个跟踪目标。

3.根据权利要求2所述的方法，其特征在于，所述对所述至少一个跟踪目标进行目标跟踪，获取每个跟踪目标对应的匹配状态转换数据的步骤，具体包括：

利用预设目标跟踪算法，基于所述多个视频帧图像中标记的所述多个目标框，对所述每个跟踪目标进行目标跟踪，生成所述每个跟踪目标在每个视频帧图像中的匹配状态，其中，所述匹配状态包括匹配成功或匹配失败；

根据多个匹配状态，生成所述每个跟踪目标的所述匹配状态转换数据。

4.根据权利要求1所述的方法，其特征在于，所述根据所述匹配状态转换数据，生成所述每个跟踪目标对应的跟踪状态转换数据的步骤，具体包括：

设置所述每个跟踪目标在第一帧图像中的初始跟踪状态为未确认状态；

根据所述匹配状态转换数据，确定所述每个跟踪目标在跟踪过程中的至少一个跟踪状态，其中，跟踪状态包括确认状态、未确认状态和删除状态；

根据所述初始跟踪状态和所述至少一个跟踪状态，生成每个跟踪目标的跟踪状态转换数据。

5.根据权利要求4所述的方法，其特征在于，所述根据所述匹配状态转换数据，确定所述每个跟踪目标在跟踪过程中的至少一个跟踪状态的步骤，具体包括：

对于任一跟踪目标，根据所述匹配状态转换数据，确定第一帧数和第二帧数，其中，所述第一帧数为连续匹配成功的视频帧图像的数量，所述第二帧数为连续匹配失败的视频帧图像的数量；

若所述第一帧数大于或等于第一预设阈值，确定跟踪目标在所述第一帧数对应的跟踪状态为确认状态；

在跟踪目标的跟踪状态为确认状态的情况下，若所述第二帧数大于或等于第二预设阈值，确定跟踪目标的跟踪状态由确认状态转换为未确认状态；

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述匹配状态转换数据和所述跟踪状态转换数据，确定所述目标检测模型对应的异常类型和异常帧图像集的步骤，具体包括：

对于任一跟踪目标，在跟踪状态转换数据为由未确认状态转换至确认状态的情况下，判断所述匹配状态转换数据中的匹配状态是否包含匹配失败；

若所述匹配状态包含匹配失败，获取跟踪目标在匹配失败的视频帧图像中的重叠状态和目标框位置；

根据所述重叠状态和所述目标框位置，判断是否发生目标重叠或目标超出画面；

若未发生目标重叠或目标超出画面，确定所述异常类型为模型漏检；

根据所述匹配状态转换数据中的匹配失败的视频帧图像，生成所述异常帧图像集。

7.一种模型优化装置，其特征在于，包括：

跟踪模块，用于对所述至少一个跟踪目标进行目标跟踪，获取每个跟踪目标对应的匹配状态转换数据；

生成模块，用于根据所述匹配状态转换数据，生成所述每个跟踪目标对应的跟踪状态转换数据；

确定模块，用于根据所述匹配状态转换数据和所述跟踪状态转换数据，确定异常类型和异常帧图像集；

优化模块，用于根据所述异常帧图像集和所述异常类型，对所述目标检测模型进行优化。

8.一种视频处理系统，其特征在于，包括：

如权利要求7所述的模型优化装置；

视频采集装置，所述视频采集装置与所述模型优化装置通信连接，其中，视频采集装置，用于采集视频流，并将采集到的所述视频流发送至所述模型优化装置。

9.一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-6中任一项所述的模型优化方法对应的操作。

10.一种终端，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的模型优化方法对应的操作。