CN117746103A

CN117746103A - 一种违规行为的识别方法及装置

Info

Publication number: CN117746103A
Application number: CN202311632732.8A
Authority: CN
Inventors: 刘辉; 李增祥
Original assignee: Xinao Xinzhi Technology Co ltd
Current assignee: Xinao Xinzhi Technology Co ltd
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-03-22

Abstract

本申请公开了一种违规行为的识别方法及装置，用以自动识别图像中的违规行为以及自动输出对应的描述文本。该方法包括：将原训练样本集中的各图像输入到目标识别模型中，识别出每张图像中包含的违规行为，并基于预先配置的描述文本模板确定每张图像中包含的违规行为的描述文本；根据各图像以及各图像分别对应的描述文本生成目标训练集；采用目标训练集对违规行为识别模型进行训练，并将实时采集的图像输入到训练后的违规行为识别模型中，确定实时采集的图像中包含的违规行为以及对应的描述文本。

Description

一种违规行为的识别方法及装置

技术领域

本申请涉及机器学习技术领域，尤其涉及一种违规行为的识别方法及装置。

背景技术

在城市交通、物流运输以及企业级工艺监控等场景中，及时识别违规行为是至关重要的。传统技术中，在进行违规行为识别时，一般会将采集的图像或者视频输入到预先训练好的目标检测模型中，以确定图像或者视频中是否存在违规行为。这种技术仅可以识别出是否存在违规行为，但是无法确定违规行为的类型、违规事件描述等特征，需要人工根据图像撰写违规行为的描述文本才能够进行记录存储。

发明内容

本申请实施例提供一种违规行为的识别方法及装置，用以自动识别图像中的违规行为以及自动输出对应的描述文本。

第一方面，本申请实施例提出了一种违规行为的识别方法，包括：

将原训练样本集中的各图像输入到目标识别模型中，识别出每张图像中包含的违规行为，并基于预先配置的描述文本模板确定所述每张图像中包含的违规行为的描述文本；

根据所述各图像以及所述各图像分别对应的描述文本生成目标训练集；

采用目标训练集对违规行为识别模型进行训练，并将实时采集的图像输入到训练后的所述违规行为识别模型中，确定所述实时采集的图像中包含的违规行为以及对应的描述文本。

在一些实施例中，所述根据所述各图像以及所述各图像分别对应的描述文本生成目标训练集，具体包括：

将任一图像对应的描述文本输入到预先训练好的语言模型中，得到所述任一图像对应的描述文本的摘要；

采用所述各图像以及所述各图像分别对应的描述文本的摘要，组成所述目标训练集。

在一些实施例中，所述将原训练样本集中的各图像输入到目标识别模型中，识别出每张图像中包含的违规行为，具体包括：

将所述原训练样本集中的任一图像输入到所述目标识别模型中，确定所述任一图像中包含的违规行为的特征信息；所述特征信息包括违规行为的类型、置信度、发生时间、违规目标的描述信息以及位置信息。

在一些实施例中，所述基于预先配置的描述文本模板确定所述每张图像中包含的违规行为的描述文本，具体包括：

获取多种类型的违规行为分别对应的描述文本模板；

根据所述任一图像包含的违规行为的类型，从获取的多种描述文本模板中确定所述任一图像对应的描述文本模板；

将所述任一图像中包含的违规行为的特征信息写入所述任一图像对应的描述文本模板中，得到所述任一图像对应的描述文本。

在一些实施例中，在将所述任一图像中包含的违规行为的特征信息写入所述任一图像对应的描述文本模板中，得到所述任一图像对应的描述文本之前，所述方法还包括：

基于预先配置的违规行为识别规则，确定所述任一图像中包含的违规行为的违规等级；

所述将所述任一图像中包含的违规行为的特征信息写入所述任一图像对应的描述文本模板中，得到所述任一图像对应的描述文本，具体包括：

将所述任一图像中包含的违规行为的特征信息和违规等级写入所述任一图像对应的描述文本模板中，得到所述任一图像对应的描述文本。

第二方面，本申请提出了一种违规行为的识别装置，所述装置包括：

获取单元，用于获取元训练样本集中的多个图像；

处理单元，被配置为执行：

将各图像输入到目标识别模型中，识别出每张图像中包含的违规行为，并基于预先配置的描述文本模板确定所述每张图像中包含的违规行为的描述文本；

在一些实施例中，所述处理单元，具体用于：

指示所述获取单元获取多种类型的违规行为分别对应的描述文本模板；

在一些实施例中，所述处理单元，还用于：

所述处理单元，具体用于：

第三方面，提供了一种电子设备，所述电子设备包括控制器和存储器。存储器用于存储计算机执行指令，控制器执行存储器中的计算机执行指令以利用控制器中的硬件资源执行第一方面任一种可能实现的方法的操作步骤。

第四方面，提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

基于上述方案，本申请提出基于目标识别模型确定图像中包含的违规行为，进一步采用预配置的描述文本模板自动生成违规行为的描述文本。将图像以及描述文本一一对应后作为新的训练集，采用新的训练集对违规行为识别模型进行训练，使得违规行为识别模型具备识别违规行为以及自动输出违规行为的描述文本的功能。并且，本申请的方案中，违规行为的识别模型的训练样本是自动生成的，无需人工干预，节约人工成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种违规行为的识别方法流程示意图；

图2为本申请实施例提供的一种生成目标训练集的过程示意图；

图3为本申请实施例提供的一种违规行为的识别装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应所述理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

为了便于理解本申请的方案，首先对本申请涉及的技术用语进行介绍：

(1)大语言模型(Large Language Model，LLM)：是一种基于深度学习技术的自然语言处理模型，可以通过大量的未标记文本数据进行自我监督训练，从而获得对语言的深刻理解和表达能力。与传统的人工设计的特征模型不同，LLM使用神经网络模型在短时间内完成了对海量语料库的学习，并获得了更加丰富、准确的语言知识。目前常用的LLM模型包括LLAMA模型、GLM模型以及BLOOM模型等。

(2)联合学习：联合学习使机器学习模型能够使用跨许多边缘服务器或客户端设备的数据进行训练，具体过程为：多个参与方设备执行本地训练，并将训练结果提供给中心设备，例如服务器等。中心设备聚合或组合多个参与方设备当中的训练结果以更新机器学习模型。然后，中心设备将更新后的训练结果重新分发给各个参与方设备，以便后续训练和/或使用。这样的联合学习方法具有许多优点，如带宽节约(训练数据存在于参与方设备处)和隐私(参与方设备训练数据并不分发)。

相关技术中，在识别违规行为时，会采用已有的包含违规行为的图像组成的训练样本集，对预训练的视觉模型进行微调，得到用于识别违规行为的目标检测模型。示例性地，目标检测模型一般可以采用YOLO系列的模型。现有的这种违规行为识别方法仅能确定图像中是否存在违规行为，或者确定违规行为的发生地点，但是无法生成对于违规行为的文本描述，需要人工根据图片撰写描述文本并进行记录存储。为了解决这种问题，相关技术中提出了采用图像-文本对作为训练样本对多模态大模型进行训练，从而不仅可以识别出图像中是否存在违规行为，还会输出对应的用于描述违规行为的文本。为了提升多模态大模型对于违规行为识别的准确性，需要大量的训练样本进行训练。而训练样本需要针对图像中的违规行为人工撰写描述文本，因此需要消耗大量的人工成本。并且人工撰写还存在一定的不确定性，比如不同技术人员针对同一违规行为撰写的描述文本可能会不相同，因此导致多模态大模型的精度较低的问题。

有鉴于此，本申请提出了一种违规行为的识别方法，通过目标识别模型和预先配置的描述文本模板，自动生成图像-描述文本对作为违规行为识别模型的训练样本。训练后得到的违规行为识别模型不仅可以识别出图像中包含的违规行为，还可以自动输出对应的描述文本。无需人工干预，节约人工成本。

下面，结合具体的实施例对本申请的方案进行介绍。示例性地，参见图1，为本申请实施例提供的一种违规行为的识别方法流程示意图。可选地，图1所示的方法流程可以由任意具有计算功能的终端、芯片、处理器或者服务器来执行，也可以由云端的计算平台来执行，本申请对于图1所示方法流程的执行主体不作限定。图1所示的方法流程具体包括：

101，将原训练样本集中的各图像输入到目标识别模型中，识别出每张图像中包含的违规行为。

示例性地，原训练样本集中包含的每张图像中均存在违规行为，目标识别模型可以识别出图像中存在的违规行为的类型、置信度、发生时间以及违规目标的描述信息。其中，违规行为的发生时间对应图像的采集时间。违规目标的描述信息可以包括违规目标的颜色、轮廓等信息，比如若存在车辆未停止到指定区域的违规行为时，违规目标即为车辆，描述信息可以包括车辆的车型、车牌号码、车辆颜色等。

102，基于预先配置的描述文本模确定每张图像中包含的违规行为的描述文本。

示例性地，可以根据目标识别模型从每张图像中识别出的每张图像的特征信息，确定每张图像对应填入描述模板的内容，生成每张图像对应的描述文本。

103，根据各图像以及各图像分别对应的描述文本生成目标训练集。

在一种可选的方式中，可以采用每张图像与各自对应的描述文本组成一组图像-描述文本对，多组图像-描述文本对组成目标训练集。在另一种可选的方式中，为了降低待训练的违规行为识别模型的训练成本，也可以将每张图像的描述文本进行摘要总结，并将每张图像与对应的摘要组成一组图像-摘要对，采用多组图像-摘要对组成目标训练集。

104，采用目标训练集对违规行为识别模型进行训练，并采用训练好的违规行为识别模型对实时采集的图像进行违规行为识别以及自动输出对应的描述文本。

在一些实施例中，通过目标识别模型识别出违规行为，并根据描述文本模板确定违规行为的描述文本之后，还可以对描述文本进行总结确定描述文本的摘要，并采用图像和图像对应的摘要组成目标训练集。示例性地，在生成任一图像中包含的违规行为的描述文本的摘要时，可以将任一图像对应的描述文本输入到预先训练好的语言模型中，该语言模型具有文本总结的能力，比如可以采用LLM模型输出任一图像的描述文本对应的摘要。进一步地，将任一图像的摘要和任一图像对应组成一组图像-摘要对，作为目标训练集中的一个训练样本。

作为一种示例，参见图2，为本申请实施例提供的一种生成目标训练集的过程示意图。示例性地，在图2中以提取原训练样本集中的任意一张图像(图像A)为例进行介绍。如图2所示，从原训练样本集中提取图像A之后，将图像A输入到目标识别模型中进行违规行为的识别，从而输出图像A中包含的违规行为的特征信息。示例性地，特征信息可以包括违规行为的类型、置信度、发生时间、违规目标的描述信息以及位置信息等。进一步地，将图像A包含的违规行为的特征信息输入到规则引擎模板，确定与图像A包含的违规行为对应的描述文本模板，并将图像A的违规行为的特征信息写入描述文本模板中的对应位置，得到图像A对应的描述文本。再进一步地，将图像A对应的描述文本输入到预先训练好的语言模型中进行文本总结，输出图像A对应的描述文本的摘要。最后，将图像-摘要对组成目标训练集。

在一种可能实现的方式中，在采用目标识别模型进行目标识别，确定图像中的违规行为时，可以按照预先配置的关联顺序依次识别图像的不同区域，确定是否存在违规行为，并输出违规行为的特征信息。举例来说，以液化天然气(Liquefied Natural Gas，LNG)运输车辆卸装场景中识别LNG车辆停止时三角木止退器未放置到位的违规行为，目标识别模型会首先对图像中停放LNG车辆的区域进行识别，确定该区域内存在LNG车辆。进一步地，对存放三角木止退器的区域进行识别，确定该区域内存在三角木止退器。说明LNG车辆停止后未按照规定放置三角木止退器，因此判断为违规行为，输出违规行为的特征信息。

可选地，在识别出图像中存在违规行为之后，可以基于违规行为的特征信息生成违规行为的描述文本。示例性地，可以预先存储有多种类型的违规行为分别对应的描述文本模板，根据识别出的图像中包含的违规行为的类型确定对应的描述文本模板，并将违规行为的特征信息填入描述文本模板中得到违规行为的描述文本。

可选地，在识别出图像中存在违规行为之后，可以根据违规行为的种类确定对应的违规行为的违规等级，或者也可以称为安全等级。进而，在生成描述文本时，可以同步将违规等级和特征信息输入到描述文本模板中得到描述文本。进一步地，可以采用语言模型对描述文本进行总结得到对应的摘要，从而由图像-摘要对组成目标训练集，并采用目标训练集对违规行为识别模型进行训练。作为一种可选的方式，本申请实施例中介绍的违规行为模型可以采用多模态大模型，通过联合学习的方式进行训练。具体可以通过不同场景下收集的训练样本对模型参数进行联合学习，提升模型的精度。

基于与上述方法的同一构思，参见图3，为本申请实施例提供的一种违规行为识别装置300，装置300用于实现上述方法中的各个步骤，为了避免重复，此处不再进行赘述。装置300包括：获取单元301和处理单元302。

获取单元301，用于获取元训练样本集中的多个图像；

处理单元302，被配置为执行：

在一些实施例中，所述处理单元302，具体用于：

指示所述获取单元301获取多种类型的违规行为分别对应的描述文本模板；

在一些实施例中，所述处理单元302，还用于：

所述处理单元302，具体用于：

图4示出了本申请实施例提供的电子设备400结构示意图。本申请实施例中的电子设备400还可以包括通信接口403，该通信接口403例如是网口，电子设备可以通过该通信接口403传输数据。

在本申请实施例中，存储器402存储有可被至少一个控制器401执行的指令，至少一个控制器401通过执行存储器402存储的指令，可以用于执行上述方法中的各个步骤，例如，控制器401可以实现上述图3中的处理单元302的功能和获取单元301的部分功能。

其中，控制器401是电子设备的控制中心，可以利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的指令以及调用存储在存储器402内的数据。可选的，控制器401可包括一个或多个处理单元，控制器401可集成应用控制器和调制解调控制器，其中，应用控制器主要处理操作系统和应用程序等，调制解调控制器主要处理无线通信。可以理解的是，上述调制解调控制器也可以不集成到控制器401中。在一些实施例中，控制器401和存储器402可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

控制器401可以是通用控制器，例如中央控制器(英文：Central ProcessingUnit，缩写为CPU)、数字信号控制器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用控制器可以是微控制器或者任何常规的控制器等。结合本申请实施例所公开的步骤可以直接由硬件控制器执行完成，或者用控制器中的硬件及软件模块组合执行完成。

存储器402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器402可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(英文：Random AccessMemory，缩写为RAM)、静态随机访问存储器(英文：Static Random Access Memory，缩写为SRAM)、可编程只读存储器(英文：Programmable Read Only Memory，缩写为PROM)、只读存储器(英文：Read Only Memory，缩写为ROM)、带电可擦除可编程只读存储器(英文：Electrically Erasable Programmable Read-Only Memory，缩写为EEPROM)、磁性存储器、磁盘、光盘等等。存储器402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器402还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

通过对控制器401进行设计编程，例如，可以将前述实施例中介绍的方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行前述的方法步骤，如何对控制器401进行设计编程为本领域技术人员所公知的技术，这里不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的控制器以产生一个机器，使得通过计算机或其它可编程数据处理设备的控制器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种违规行为的识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述各图像以及所述各图像分别对应的描述文本生成目标训练集，具体包括：

3.根据权利要求1或2所述的方法，其特征在于，所述将原训练样本集中的各图像输入到目标识别模型中，识别出每张图像中包含的违规行为，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述基于预先配置的描述文本模板确定所述每张图像中包含的违规行为的描述文本，具体包括：

获取多种类型的违规行为分别对应的描述文本模板；

5.根据权利要求4所述的方法，其特征在于，在将所述任一图像中包含的违规行为的特征信息写入所述任一图像对应的描述文本模板中，得到所述任一图像对应的描述文本之前，所述方法还包括：

6.一种违规行为的识别装置，其特征在于，所述装置包括：

获取单元，用于获取元训练样本集中的多个图像；

处理单元，被配置为执行：

7.根据权利要求6所述的装置，其特征在于，所述处理单元，具体用于：

8.根据权利要求6或7所述的装置，其特征在于，所述处理单元，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述处理单元，具体用于：

10.根据权利要求9所述的装置，其特征在于，所述处理单元，还用于：

所述处理单元，具体用于：

11.一种电子设备，其特征在于，包括：存储器以及控制器；

存储器，用于存储程序指令；

控制器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1-5中任一项所述的方法。

12.一种计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行如权利要求1-5中任一权利要求所述的方法。