CN116740520A

CN116740520A - 一种异常行为检测及特征融合模型训练方法

Info

Publication number: CN116740520A
Application number: CN202310714577.8A
Authority: CN
Inventors: 陈炜; 朱亮; 李京峰; 谢奔; 王昌辉; 尚群凯
Original assignee: Nanjing Leading Technology Co Ltd
Current assignee: Nanjing Leading Technology Co Ltd
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-09-12

Abstract

本申请提供了一种异常行为检测及特征融合模型训练方法，涉及计算机技术领域，可以将待检测图像的图像特征和预存的异常行为文本的文本特征，输入基于图像样本和文本样本共同训练的特征融合模型，得到待检测图像对应于异常行为文本的图像语义特征，并可以根据待检测图像对应于异常行为文本的图像语义特征，确定异常行为的检测结果。基于图像样本和文本样本共同训练的特征融合模型，对待检测图像进行检测，可以利用文本特征填补异常行为数据稀少所带来的信息匮乏缺陷，从而提高异常行为检测的准确度。

Description

一种异常行为检测及特征融合模型训练方法

技术领域

本申请涉及计算机技术领域，特别涉及一种异常行为检测及特征融合模型训练方法。

背景技术

视觉感知算法是一种利用计算机技术模拟人类视觉系统的算法，它能够通过对图像、视频等数据进行分析，实现图像识别，智能检测等功能。

在使用视觉感知算法检测是否有异常行为出现时，主要依赖于真实场景的数据支持。然而，在真实场景中采集到的数据类别的分布通常不均衡，正常行为的数据占据了大多数的训练样本，而异常行为的数据只有极少数的训练样本。如果直接使用这种类别分布不均衡的数据训练视觉感知算法，会导致异常行为检测的准确度大大降低。

使用类别分布不均衡的数据，如何提高异常行为检测的准确度是亟待解决的问题。

发明内容

为了解决上述现有技术中的问题，本申请实施例提供了一种异常行为检测及特征融合模型训练方法，针对类别分布不均衡的数据，可以提高异常行为检测的准确度。

第一方面，本申请实施例提供了一种异常行为检测方法，所述方法包括：

获取待检测图像，并提取所述待检测图像的图像特征；

将所述待检测图像的图像特征和预存的异常行为文本的文本特征输入特征融合模型，得到所述待检测图像对应于所述异常行为文本的图像语义特征；所述特征融合模型是基于包含多个样本对的样本数据集训练得到的；所述多个样本对中的每个样本对包括图像样本和文本样本；

基于所述图像语义特征，确定异常行为的检测结果。

在一种可能的实施方式中，所述提取所述待检测图像的图像特征，包括：

对所述待检测图像进行缩放处理，得到缩放后的待检测图像；

将所述缩放后的待检测图像输入图像编码模型进行特征提取，得到所述图像特征。

在一种可能的实施方式中，所述将所述待检测图像的图像特征和预存的异常行为文本的文本特征输入特征融合模型，得到所述待检测图像对应于所述异常行为文本的图像语义特征，包括：

将所述图像特征输入所述特征融合模型中的第一自注意力网络，通过所述第一自注意力网络对所述图像特征进行自注意力处理，得到图像自注意力特征；

将所述文本特征输入所述特征融合模型中的第二自注意力网络，通过所述第二自注意力网络对所述文本特征进行自注意力处理，得到文本自注意力特征；

将所述图像自注意力特征和所述文本自注意力特征输入所述特征融合模型中的交叉注意力网络，得到交叉注意力网络输出的所述图像语义特征。

在一种可能的实施方式中，所述将所述图像自注意力特征和所述文本自注意力特征输入所述特征融合模型中的交叉注意力网络，得到交叉注意力网络输出的所述图像语义特征，包括：

在所述交叉注意力网络中，使用所述文本自注意力特征查询所述图像自注意力特征输出的键值，得到所述交叉注意力网络输出的图像语义特征。

在一种可能的实施方式中，所述基于所述图像语义特征，确定异常行为的检测结果，包括：

将所述图像语义特征输入文字描述生成模型，得到所述文字描述生成模型输出的所述检测结果。

第二方面，本申请实施例提供了一种特征融合模型的训练方法，所述方法包括：

获取样本数据集，所述样本数据集包括多个样本对，其中，所述多个样本对中的每个样本对包括图像样本和文本样本，所述图像样本具有行为标签，所述行为标签用于表征所述图像样本为异常行为的样本或正常行为的样本；

提取所述多个样本对中的每个样本对中的图像样本的图像特征，以及文本样本的文本特征；

将每个样本对中的图像样本的图像特征，以及文本样本的文本特征输入待训练的特征融合模型，得到所述图像样本对应于所述文本样本的图像语义特征；并基于所述图像语义特征确定异常行为预测结果；

根据所述异常行为预测结果以及对应的图像样本的行为标签，确定损失值，并根据损失值对所述待训练的特征融合模型的参数进行调整，直至所述损失值收敛至预设的期望值为止，得到已训练的特征融合模型。

第三方面，本申请实施例提供了一种异常行为检测装置，所述装置包括：

特征提取单元，用于获取待检测图像，并提取所述待检测图像的图像特征；

检测单元，用于将所述待检测图像的图像特征和预存的异常行为文本的文本特征输入特征融合模型，得到所述待检测图像对应于所述异常行为文本的图像语义特征；所述特征融合模型是基于包含多个样本对的样本数据集训练得到的；所述多个样本对中的每个样本对包括图像样本和文本样本；基于所述图像语义特征，确定异常行为的检测结果。

第四方面，本申请实施例提供了一种特征融合模型的训练装置，所述装置包括：

预测单元，用于获取样本数据集，所述样本数据集包括多个样本对，其中，所述多个样本对中的每个样本对包括图像样本和文本样本，所述图像样本具有行为标签，所述行为标签用于表征所述图像样本为异常行为的样本或正常行为的样本；提取所述多个样本对中的每个样本对中的图像样本的图像特征，以及文本样本的文本特征；将每个样本对中的图像样本的图像特征，以及文本样本的文本特征输入待训练的特征融合模型，得到所述图像样本对应于所述文本样本的图像语义特征；并基于所述图像语义特征确定异常行为预测结果；

参数调整单元，用于根据所述异常行为预测结果以及对应的图像样本的行为标签，确定损失值，并根据损失值对所述待训练的特征融合模型的参数进行调整，直至所述损失值收敛至预设的期望值为止，得到已训练的特征融合模型。

第五方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，实现第一方面异常行为方法或第二方面特征融合模型训练方法中任一项所述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面异常行为检测方法或第二方面特征融合模型训练方法中任一项所述的方法。

本申请实施例提供的一种异常行为检测及特征融合模型训练方法，可以将待检测图像的图像特征和预存的异常行为文本的文本特征，输入基于图像样本和文本样本共同训练的特征融合模型，得到待检测图像对应于异常行为文本的图像语义特征，并可以根据待检测图像对应于异常行为文本的图像语义特征，确定异常行为的检测结果。基于图像样本和文本样本共同训练的特征融合模型，对待检测图像进行检测，可以利用文本特征填补异常行为数据稀少所带来的信息匮乏缺陷，从而提高异常行为检测的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种异常行为检测方法的应用场景图；

图2为本申请实施例提供的一种异常行为检测方法的流程图；

图3为本申请实施例提供的一种特征融合模型的示意图；

图4为本申请实施例提供的一种异常行为检测结果的示意图；

图5为本申请实施例提供的一种特征融合模型训练机制的示意图；

图6为本申请实施例提供的一种特征融合模型训练方法的流程图；

图7为本申请实施例提供的一种异常行为检测装置的结构示意图；

图8为本申请实施例提供的一种特征融合模型训练装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

需要说明的是，本申请的文件中涉及的术语“包括”和“具有”以及它们的变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着科技的高速发展和对视觉感知算法的深入研究，研发人员开始探究如何利用视觉感知算法防止意外的发生。例如，在网约车内、商场内、道路周边等可能出现意外的环境下，可以安装摄像头采集摄像头视野内的实时图像，并利用视觉感知算法检测摄像头采集到的实时图像，以分析是否出现异常行为，如果检测到出现异常行为，可以及时地发出告警信息，避免意外的发生。

训练用于检测异常行为的视觉感知算法，主要依赖于真实场景的数据支持。然而，在真实场景中采集到的数据类别的分布通常不均衡，正常行为的数据占据了大多数的训练样本，异常行为的数据只有极少数的训练样本。如果直接使用这种类别分布不均衡的数据训练视觉感知算法，会导致异常行为检测的准确度大大降低。

基于此，本申请实施例提供一种异常行为检测方法，可以将待检测图像的图像特征和预存的异常行为文本的文本特征，输入基于图像样本和文本样本共同训练的特征融合模型，得到待检测图像对应于异常行为文本的图像语义特征，并可以根据待检测图像对应于异常行为文本的图像语义特征，确定异常行为的检测结果。基于图像样本和文本样本共同训练的特征融合模型，对待检测图像进行检测，可以利用文本特征填补异常行为数据稀少所带来的信息匮乏缺陷，从而提高异常行为检测的准确度。

下面首先对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

图1为本申请实施例提供的异常行为检测方法的应用场景示意图。图1中以检测车内是否出现异常行为为例进行说明，需要说明的是，本申请实施例提供的异常行为检测方法不仅可以用于检测车内是否出现异常行为，也可以用来检测商场内，道路周边等可能发生意外的环境下的异常行为，本申请对此不作限定。如图1所示，该应用场景包括服务器10和车载终端20。其中，车载终端20与服务器10通过通信网络连接。

为了检测车内是否出现异常行为，可以通过设置在车辆中的车载终端20调用车辆上安装的摄像头采集图像，车辆摄像头采集的图像可以存储在车载终端20存储器的缓存列表中，车载终端20可以通过访问缓存列表获取摄像头采集的图像，并将该图像发送至服务器10。服务器10收到车载终端20发送的图像之后，可以基于视觉感知算法分析该图像，根据分析的结果，可以确定车内是否出现异常行为。服务器10得到车内是否出现异常行为的检测结果之后，可以将该检测结果发送至车载终端20，车载终端20收到该检测结果，可以将该检测结果渲染至车辆中的显示界面。在一些实施例中，车载终端20将该检测结果渲染至车辆中的显示界面的同时，还可以通过车内的扬声器等音频播放装置，将该检测结果通过音频形式播报。

需要说明的是，图1中的车载终端20的安装位置仅用于举例，车载终端20具体在图中的位置，并不作为实际安装在车辆中的固定位置。车载终端20的位置也可以在车辆其他位置，比如车载终端20安装在车门处、前排座位之间等位置。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时，可按照实施例或者附图所示的方法顺序执行或者并执行。

继续以检测车内异常行为为例进行说明，图2示出了本申请实施例提供的一种异常行为检测方法的流程图，该方法可以由车载终端与服务器配合完成。在另一些实施例中，该方法也可以由车载终端独自完成，本申请对此不做限定。如图2所示，该异常行为检测方法可以包括以下步骤：

步骤S201，获取待检测图像，并提取待检测图像的图像特征。

在车辆行驶的过程中，车辆内设置的车载终端可以调用摄像头采集车内待检测图像。其中，待检测图像的格式可以包括但不限于JPEG格式、PNG格式、BMP格式或者GIF格式等。

在一些实施例中，待检测图像还可以是车内摄像头采集到的待检测视频中的图像帧。

在另一些实施例中，待检测图像还可以是从待检测视频的任一图像帧中分割出的包含人体区域的图像。例如，可以从待检测视频的任一图像帧中去掉背景区域，分割出仅包含人体区域的图像，作为待检测图像。将从待检测视频的任一图像帧中分割出的包含人体区域的图像，作为待检测图像，可以减少背景区域对检测结果的影响，使异常行为检测的准确度更高。

待检测图像可以存储在车载终端存储器的缓存列表中，车载终端可以通过访问缓存列表获取待检测图像，并将待检测图像发送至服务器。服务器收到车载终端发送的待检测图像之后，可以先提取待检测图像的图像特征。

在一种可选的实施方式中，服务器在得到待检测图像之后，可以先对待检测图像进行缩放处理，得到缩放后的待检测图像。

示例性地，可以将待检测图像的H×W×C缩放至224×224×3。

其中，H为待检测图像的高，W为待检测图像的宽，C为通道的数量。

对待检测图像进行缩放处理，得到缩放后的待检测图像之后，可以将缩放后的待检测图像输入图像编码模型进行特征提取，得到图像特征F_k。

其中，图像编码模型包括但不限于大型预训练VIT等相关模型。

步骤S202，将待检测图像的图像特征和预存的异常行为文本的文本特征输入特征融合模型，得到待检测图像对应于异常行为文本的图像语义特征。

其中，异常行为文本可以是司机异常驾车行为对应的文本，或者，可以是乘客异常乘车行为对应的文本。司机异常驾车行为对应的文本和乘客异常乘车行为对应的文本可以相同，例如，not wearing a seat belt(未系安全带)，又如，body extends out of thewindow(身体伸出窗外)。或者，司机异常驾车行为对应的文本和乘客异常乘车行为对应的文本也可以不同，例如，fatigue driving(疲劳驾驶)。对异常行为文本进行分词预处理，可以得到异常行为文本的文本特征，异常行为文本的文本特征可以预存在服务器的存储器中。

特征融合模型是基于包含多个样本对的样本数据集训练得到的，多个样本对中的每个样本对包括图像样本和文本样本。基于图像样本和文本样本共同训练的特征融合模型，对待检测图像进行检测，可以利用文本特征填补异常行为数据稀少所带来的信息匮乏缺陷。

特征融合模型工作的机制如图3所示，待检测图像的图像特征和预存的异常行为文本的文本特征输入特征融合模型之后，可以分两路单独处理。

对于待检测图像的图像特征，可以将图像特征输入特征融合模型中的第一自注意力网络，通过第一自注意力网络对图像特征进行自注意力处理，得到图像自注意力特征。

示例性地，可以初始化第一自注意力网络的查询序列LQ，使得查询序列LQ的矩阵维度小于图像特征F_k，从而迫使第一自注意力网络对图像特征进行降维提纯。

具体的，可以将图像特征F_k作为第一自注意力网络的键值k和键值v，通过第一查询序列LQ进行查询，满足以下公式：

其中，k表示第一自注意力网络的键值矩阵，n表示键值矩阵的矩阵维度，q表示查询序列LQ，δ表示softmax操作，最终得到的∝为第一自注意力网络的权重矩阵，接着计算输出值：

其中，v表示第一自注意力网络的键值矩阵，将第一自注意力网络的权重矩阵与v相乘，得到输出结果。该结果的物理含义为初始化查询序列LQ在图像自注意力网络下的查询结果，即依靠查询序列查询到的提纯之后的图像自注意力特征。至此，仅仅是对待检测图像进行了处理。

对于预存的异常行为文本的文本特征，可以将文本特征输入特征融合模型中的第二自注意力网络，通过第二自注意力网络对文本特征进行自注意力处理，得到文本自注意力特征。

其中，异常行为文本的文本特征是对异常行为文本进行分词预处理得到的。

得到图像自注意力特征和文本自注意力特征之后，可以将图像自注意力特征和文本自注意力特征输入特征融合模型中的交叉注意力网络，得到交叉注意力网络输出的图像语义特征。

具体的，在特征融合模型中的交叉注意力网络中，可以将文本自注意力特征作为第二查询序列Q去查询图像自注意力特征输出的键值k和v，得到交叉注意力网络输出的图像语义特征。

步骤S203，基于图像语义特征，确定异常行为的检测结果。

得到交叉注意力网络输出的图像语义特征之后，可以将图像语义特征输入文字描述生成模型，得到文字描述生成模型输出的检测结果。

其中，文字描述生成模型包括但不限于LaMDA、PaLM和GPT等预训练大型语言模型。

服务器得到文字描述生成模型输出的异常行为检测结果之后，可以将该检测结果发送给车载终端。车载终端收到该检测结果，可以将该检测结果渲染至车辆中的显示界面。示例性地，假设预存的异常行为文本为not wearing a seat belt(未系安全带)，针对当前时刻车内的待检测图像，如图4所示，可以输出四种检测结果，分别为检测结果1：司机未系安全带、检测结果2：乘客未系安全带、检测结果3：司机与乘客均未系安全带、检测结果4：车内无异常行为。

在这里需要说明的是，异常行为不仅仅限定于not wearing a seat belt(未系安全带)，还可以是body extends out of the window(身体伸出窗外)，fatigue driving(疲劳驾驶)等等有可能妨害行车安全的车内行为，具体的，可以根据实际使用需求进行相关设置。

在另一些实施例中，车载终端将该检测结果渲染至车辆中的显示界面的同时，还可以通过车内的扬声器等音频播放装置，将该检测结果通过音频形式播报。

在另一些实施例中，为了避免驾驶员观察车载设备的显示界面时，出现注意力被分散的情况，车载终端可以仅通过车内的扬声器等音频播放装置，将该检测结果通过音频形式播报。

与上述异常行为检测方法的实施例相对应地，本申请实施例还提供了特征融合模型的训练方法，训练得到的特征融合模型可以应用于上述异常行为检测方法的实施例中。本申请实施例提供的特征融合模型训练方法，可以利用图像样本和文本样本共同进行训练，利用文本特征填补异常行为数据稀少所带来的信息匮乏缺陷，可以提高异常行为检测的准确度。

如图5所示，本申请实施例使用冻结参数的图像编码模型和冻结参数的文字描述生成模型配合待训练的特征融合模型进行训练，由于对图像编码模型和文字描述生成模型进行了参数冻结处理，所以只有特征融合模型的训练参数参与调整，使用较少的算力即可完成特征融合模型的训练。

下面开始介绍特征融合模型的训练方法，如图6所示，特征融合模型的训练方法可以包括如下步骤：

步骤S601，获取样本数据集。

其中，样本数据集包括多个样本对，多个样本对中的每个样本对包括图像样本和文本样本，图像样本具有行为标签，行为标签用于表征图像样本为异常行为的样本或车内正常行为的样本。

在一种可选的实施方式中，可以在服务器中下载已公开的样本对数据，获取到样本对数据后，可以对样本对数据进行脏数据去噪处理，并统一数据的输入格式，从而获取到包括多个样本对的样本数据集。

在一些实施例中，获取到包括多个样本对的样本数据集之后，还可以人工筛选去除图像样本和文本样本不对应的样本对，保证训练数据的质量。

步骤S602，提取多个样本对中的每个样本对中的图像样本的图像特征，以及文本样本的文本特征。

获取到样本数据集之后，可以提取多个样本对中的每个样本对中的图像样本的图像特征，以及文本样本的文本特征。

在一种可选的实施方式中，服务器在得到待检测图像之后，可以对待检测图像进行缩放处理，得到缩放后的待检测图像。

示例性地，可以将待检测图像的H×W×C缩放至224×224×3。

对待检测图像进行缩放处理，得到缩放后的待检测图像之后，可以将缩放后的待检测图像输入冻结参数的图像编码模型进行特征提取，得到图像特征。

进一步地，可以对异常行为文本进行分词预处理，得到异常行为文本的文本特征。

步骤S603，将每个样本对中的图像样本的图像特征，以及文本样本的文本特征输入待训练的特征融合模型，得到图像样本对应于文本样本的图像语义特征，并基于图像语义特征确定异常行为预测结果。

将每个样本对中的图像样本的图像特征，以及文本样本的文本特征输入待训练的特征融合模型，可以得到图像样本对应于文本样本的图像语义特征，将图像样本对应于文本样本的图像语义特征输入冻结参数的文字描述生成模型，可以确定异常行为预测结果。

步骤S604，根据异常行为预测结果以及对应的图像样本的行为标签，确定损失值，并根据损失值对待训练的特征融合模型的参数进行调整，直至损失值收敛至预设的期望值为止，得到已训练的特征融合模型。

在一种可选的实施方式中，可以通过多个损失函数来确定损失值。

其中，多个损失函数可以包括图像文本信息对比损失函数Lq1、图像生成文本损失函数Lq2以及图像文本匹配损失函数Lq3。

具体的，可以采用设定的图像文本信息对比损失函数Lq1，确定图像文本信息对比损失值。图像文本信息对比损失函数可以表示为：

其中，τ为超参数，用于调节负样本区分度，负样本为被标记为车内正常行为标签的图像样本，q为文本特征输出的查询序列，k为图像特征输出的键值矩阵。

进一步地，可以采用设定的图像文本生成损失函数Lq2，确定图像文本生成损失值，图像文本生成损失函数Lq2可以表示为：

其中，y表示待检测的图像样本，y^表示待检测的图像样本属于正样本的概率，正样本为被标记为异常行为标签的图像样本，N表示样本的数量。

图像文本生成损失函数Lq2可以将图像样本作为条件，引入因果自注意力机制，通过图像文本生成损失函数可以约束图像特征和文本特征的特征交互。

进一步地，可以采用设定的图像文本匹配损失函数Lq3，确定图像文本匹配损失值，图像文本匹配损失函数Lq3可以表示为：

Lq3＝﹣[ylog(y^)+(1﹣y)log(1﹣y^)]

其中，y表示待检测的图像样本，y^表示待检测的图像样本属于正样本的概率。

通过上述过程，可以得到图像文本信息对比损失值Lq1、图像生成文本损失值Lq2以及图像文本匹配损失值Lq3，根据图像文本信息对比损失值Lq1、图像生成文本损失值Lq2以及图像文本匹配损失值Lq3，可以得到特征融合模型的总损失值L_total＝α₁Lq1+α₂Lq2+α₃Lq2，其中，α表示权重调制因子。

进一步地，可以基于图像文本信息对比损失函数Lq1、图像生成文本损失函数Lq2以及图像文本匹配损失函数Lq3进行训练，直至总损失值L_total收敛至预设的期望值为止，得到已训练的特征融合模型。

基于同一发明构思，本发明实施例中还提供了一种异常行为检测装置的结构示意图，如图7所示，该异常行为检测装置包括：

特征提取单元701，用于获取待检测图像，并提取待检测图像的图像特征；

检测单元702，用于将待检测图像的图像特征和预存的异常行为文本的文本特征输入特征融合模型，得到待检测图像对应于异常行为文本的图像语义特征；特征融合模型是基于包含多个样本对的样本数据集训练得到的；多个样本对中的每个样本对包括图像样本和文本样本；基于图像语义特征，确定异常行为的检测结果。

基于同一发明构思，本发明实施例中还提供了一种特征融合模型的训练装置的结构示意图，如图8所示，该特征融合模型的训练装置预测单元包括：

预测单元801，用于获取样本数据集，样本数据集包括多个样本对，其中，多个样本对中的每个样本对包括图像样本和文本样本，图像样本具有行为标签，行为标签用于表征图像样本为异常行为的样本或正常行为的样本；提取多个样本对中的每个样本对中的图像样本的图像特征，以及文本样本的文本特征；将每个样本对中的图像样本的图像特征，以及文本样本的文本特征输入待训练的特征融合模型，得到图像样本对应于文本样本的图像语义特征；并基于图像语义特征确定异常行为预测结果；

参数调整单元802，用于根据异常行为预测结果以及对应的图像样本的行为标签，确定损失值；根据损失值对待训练的特征融合模型的参数进行调整，直至损失值收敛至预设的期望值为止，得到已训练的特征融合模型。

基于相同的发明构思，本申请实施例还提供了一种电子设备，该电子设备至少包括用于存储数据的存储器和处理器，其中，对于用于数据处理的处理器而言，在执行处理时，可以采用微处理器、CPU、GPU(Graphics Processing Unit，图形处理单元)、DSP或FPGA实现。对于存储器来说，存储器中存储有操作指令，该操作指令可以为计算机可执行代码，通过该操作指令来实现上述本申请实施例的异常行为检测方法的流程中的各个步骤。

图9为本申请实施例提供的一种电子设备的结构示意图。如图9所示，电子设备900包括存储器901、处理器902、数据获取模块903和总线904。该存储器901、处理器902和数据获取模块903均通过总线904连接，该总线904用于该存储器901、处理器902和数据获取模块903之间传输数据。

其中，存储器901可用于存储软件程序以及模块，处理器902通过运行存储在存储器901中的软件程序以及模块，从而执行电子设备900的各种功能应用以及数据处理，如本申请实施例提供异常行为检测方法。存储器901可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个应用的应用程序等；存储数据区可存储根据电子设备900的使用所创建的数据等。此外，存储器901可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器902是电子设备900的控制中心，利用总线904以及各种接口和线路连接整个电子设备900的各个部分，通过运行或执行存储在存储器901内的软件程序和/或模块，以及调用存储在存储器901内的数据，执行电子设备900的各种功能和处理数据。可选的，处理器902可包括一个或多个处理单元，如CPU、GPU(Graphics Processing Unit，图形处理单元)、数字处理单元等。

本申请实施例还提供了一种计算机可读存储介质，该计算机存储介质中存储有计算机可执行指令，该计算机程序被处理器执行时可用于实现本申请任一实施例所记载的异常行为检测方法。

在一些可能的实施方式中，本申请提供的异常行为检测方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的异常行为检测方法的步骤，例如，计算机设备可以执行如图2所示的异常行为检测方法的流程。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种异常行为检测方法，其特征在于，所述方法包括：

获取待检测图像，并提取所述待检测图像的图像特征；

基于所述图像语义特征，确定异常行为的检测结果。

2.根据权利要求1所述的方法，其特征在于，所述提取所述待检测图像的图像特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述待检测图像的图像特征和预存的异常行为文本的文本特征输入特征融合模型，得到所述待检测图像对应于所述异常行为文本的图像语义特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述图像自注意力特征和所述文本自注意力特征输入所述特征融合模型中的交叉注意力网络，得到交叉注意力网络输出的所述图像语义特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述图像语义特征，确定异常行为的检测结果，包括：

6.一种特征融合模型的训练方法，其特征在于，所述方法包括：

7.一种异常行为检测装置，其特征在于，所述装置包括：

8.一种特征融合模型的训练装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，实现权利要求1～6中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现权利要求1～6中任一项所述的方法。