CN116309590B

CN116309590B - 一种基于人工智能的视觉计算方法、系统、电子设备和介质

Info

Publication number: CN116309590B
Application number: CN202310573894.2A
Authority: CN
Inventors: 徐斌; 贺敬川; 康凤珠; 张劲胜; 李勇; 吕楠; 吴默然; 付国龙
Original assignee: Sichuan Xinyingshun Information Technology Co ltd
Current assignee: New Yingshun Information Technology Co.,Ltd.
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-08-04
Anticipated expiration: 2043-05-22
Also published as: CN116309590A

Abstract

本申请实施例公开了一种基于人工智能的视觉计算方法、系统、电子设备和介质，涉及视觉计算技术领域，本申请实施例通过采集视频图像，提取视频图像的梯度特征、颜色特征和纹理特征，再将梯度特征、颜色特征和纹理特征进行融合追踪视频图像中的目标信息。本发明先采集第一视频图像，构建基于多头注意力机制的网络模型，基于网络模型识别第一视频图像，获取表征视频图像中目标人体和物体产生交互动作的第二视频图像，通过基于多头注意力机制的网络模型获取增强效果下目标人体和物体产生交互动作的视频图像，再通过梯度特征、颜色特征和纹理特征的特征融合进一步追踪目标人体，更有助于后续人体异常行为的检测。

Description

一种基于人工智能的视觉计算方法、系统、电子设备和介质

技术领域

本申请涉及视觉计算技术领域，尤其涉及一种基于人工智能的视觉计算方法、系统、电子设备和介质。

背景技术

图像和视频属于非结构化数据，广泛应用于安全监控、人机交互、人工智能等领域，图像质量的好坏直接决定了图像能否被人眼和计算机视觉系统清楚的辨识。然而由于成像过程不可避免地会受到各种降质因素的影响，导致拍摄到的图像质量下降。图像降质一方面会引起图像失真和信息部分丢失，降低人眼视觉感知效果；另一方面，降质过程会破坏图像像素的统计分布和结构信息，严重影响图像的视觉辨识性，导致计算机视觉系统的性能下降。

为了解决计算机视觉系统性能下降的问题，在传统的计算机视觉研究中，目标检测、跟踪及行为分析属于常见的视频图像处理问题，已经出现了很多经典的方法，例如目标检测方法、目标跟踪方法、行为分析方法等。这些方法在具体的实验环境和实际应用中已经取得了一定的效果。然而，随着视频图像数据量海量级增加，传统的计算机视觉视频图像处理方法在计算复杂性方面呈现出一定的不足，计算复杂性呈指数级增长。

基于上述问题，本发明提供了一种基于人工智能的视觉计算方法、系统、电子设备和介质，能够高效快速的追踪目标人体。

发明内容

申请实施例提供一种基于人工智能的视觉计算方法。

为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，提供了一种基于人工智能的视觉计算方法，该方法包括以下步骤：

步骤S1，采集第一视频图像，构建基于多头注意力机制的网络模型，基于所述网络模型识别所述第一视频图像，获取表征所述视频图像中目标人体和物体产生交互动作的第二视频图像；

步骤S2，提取第二视频图像的时空兴趣点；

步骤S3，根据所述时空兴趣点提取出时空兴趣立方体，使用方向梯度直方图描述算子对所述时空兴趣立方体进行描述，将所述时空兴趣立方体转化为梯度特征；

步骤S4，获取所述第二视频图像的颜色特征和纹理特征，将所述梯度特征、颜色特征和纹理特征进行特征融合，提取所述第二视频图像中目标人体的特征向量；

步骤S5，根据所述特征向量和目标追踪方法追踪目标人体，获取所述目标人体的模板信息。

在一种可能的实施方式中，所述步骤S1包括：

步骤S11，获取一段视频图像的数据，将所述视频图像的数据构建成训练集；

步骤S12，构建基于多头注意力机制的网络模型，所述网络模型包括时空特征提取骨干网络、目标检测器、图像处理层、卷积层、池化层、特征表示层、多头注意力机制层、前向传播网络层和动作分类器；

所述时空特征提取骨干网络和所述目标检测器分别连接至所述图像处理层；

所述图像处理层、卷积层、池化层、特征表示层、多头注意力机制层、前向传播网络层和动作分类器从前至后依次连接；

步骤S13，采用损失函数指导所述网络模型学习，预设相关超参数，通过不断迭代衰减损失值达到网络参数权重优化的目的，直到迭代次数等于最大迭代次数，中止对所述训练集的训练，获取训练好的网络模型；

步骤S14，采集第一视频图像，并将所述第一视频图像输入进所述训练好的网络模型中，获取表征所述视频图像中目标人体和物体产生交互动作的第二视频图像。

在一种可能的实施方式中，所述步骤S12中构建基于多头注意力机制的网络模型的方法包括：

首先构建时空特征提取骨干网络提取人体的时空特征和物体时空特征，同时给定目标检测器，在所述视频图像的关键帧上检测输出人体的边界框和周围物体的边界框，通过所述人体的边界框和所述周围物体的边界框的联合运算获取交互动作的视觉特征；

随后在图像处理层根据所述人体的边界框和所述周围物体的边界框对所述视频图像的时空特征进行剪裁，形成剪裁后的视频图像时空特征；

将所述剪裁后的视频图像时空特征依次输入进卷积层和池化层进行运算，生成交互动作的背景特征；

利用特征表示层将所述交互动作的视觉特征进行二值化处理，区分目标区域和无目标区域；

接着使用多头注意力机制层进一步增强特征的表达能力，最后经前馈神经网络处理后并传输至动作分类器识别人体的动作。

在一种可能的实施方式中，所述步骤S2包括：获取所述第二视频图像的时空角点，根据时空角点强度函数获取第二视频图像的时空兴趣点。

在一种可能的实施方式中，所述步骤S3中将所述时空兴趣立方体转化为时空特征的方法包括：

将所述时空兴趣立方体分割成细胞单元，将每一个所述细胞单元对应的方向梯度直方图进行投影和归一化处理后，将所有细胞单元对应的方向梯度直方图的向量一起组合成一个方向梯度直方图的特征向量，根据所述特征向量表示梯度特征。

在一种可能的实施方式中，所述步骤S4中获取所述第二视频图像的颜色特征和纹理特征的方法包括：使用颜色编码方法提取所述第二视频图像的颜色特征；

使用LBP算子方法提取所述第二视频图像的纹理特征。

在一种可能的实施方式中，所述步骤S5中的目标追踪方法包括卡尔曼方法。

第二方面，本发明还提供了一种基于人工智能的视觉计算系统，包括采集单元、特征提取单元、特征融合单元和目标追踪单元，其中：

采集单元，用于采集第一视频图像，构建基于多头注意力机制的网络模型，基于所述网络模型识别所述第一视频图像，获取表征所述视频图像中目标人体和物体产生交互动作的第二视频图像；

特征提取单元，用于提取第二视频图像的时空兴趣点，用于根据所述时空兴趣点提取出时空兴趣立方体，使用方向梯度直方图描述算子对所述时空兴趣立方体进行描述，将所述时空兴趣立方体转化为梯度特征；

特征融合单元，用于获取所述第二视频图像的颜色特征和纹理特征，将所述梯度特征、颜色特征和纹理特征进行特征融合，提取所述第二视频图像中目标人体的特征向量；

目标追踪单元，用于根据所述特征向量和目标追踪方法追踪目标人体，获取所述目标人体的模板信息。

第三方面，本发明还提供了一种电子设备，该电子设备包括处理器和存储器；处理器中包括上述第二方面所记载的基于人工智能的视觉计算系统。

第四方面，本发明还提供了一种计算机可读存储介质，该计算机可读存储介质包括指令；当指令在上述第三方面所记载的电子设备上运行时，使得电子设备执行上述第一方面所记载的方法。

本发明提出一种基于人工智能的视觉计算方法、系统、电子设备和介质，通过梯度特征、颜色特征和纹理特征进行融合，确保了目标检测的完整性，提升视觉计算的检测精度。

本发明先通过基于多头注意力机制的网络模型获取增强效果下目标人体和物体产生交互动作的视频图像，再通过特征融合进一步追踪目标人体，更有助于后续人体异常行为的检测。

本发明将三维空间下的目标人体用特征向量进行表述，能够对目标人体进行更准确的追踪，更有助于后续人体异常行为的检测。

附图说明

图1为本申请实施例提供的一种基于人工智能的视觉计算方法、系统、电子设备和介质中方法的流程图；

图2为本申请实施例提供的一种基于人工智能的视觉计算方法、系统、电子设备和介质中基于多头注意力机制的网络模型的结构图。

具体实施方式

需要说明的是，本申请实施例涉及的术语“第一”、“第二”等仅用于区分同一类型特征的目的，不能理解为用于指示相对重要性、数量、顺序等。

本申请实施例涉及的术语“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请实施例涉及的术语“耦合”、“连接”应做广义理解，例如，可以指物理上的直接连接，也可以指通过电子器件实现的间接连接，例如通过电阻、电感、电容或其他电子器件实现的连接。

实施例1：

本实施例的一种基于人工智能的视觉计算方法、系统、电子设备和介质，如图1所示，本发明先采集第一视频图像，构建基于多头注意力机制的网络模型，基于网络模型识别第一视频图像，获取表征视频图像中目标人体和物体产生交互动作的第二视频图像，通过基于多头注意力机制的网络模型获取增强效果下目标人体和物体产生交互动作的第二视频图像，接着获取三维空间下第二图像的梯度特征，再通过梯度特征、颜色特征和纹理特征的特征融合进一步追踪目标人体，将三维空间下的目标人体用特征向量进行表述，能够对目标人体进行更准确的追踪，更有助于后续人体异常行为的检测。

实施例2：

本实施例在实施例1的基础上做进一步优化，如图2所示，本实施例中构建基于多头注意力机制的网络模型，基于网络模型识别第一视频图像，获取表征视频图像中目标人体和物体产生交互动作的第二视频图像的具体方法包括：

获取一段视频图像的数据，将视频图像的数据构建成训练集；

构建基于多头注意力机制的网络模型，网络模型包括时空特征提取骨干网络、目标检测器、图像处理层、卷积层、池化层、特征表示层、多头注意力机制层、前向传播网络层和动作分类器；

时空特征提取骨干网络和目标检测器分别连接至图像处理层；

图像处理层、卷积层、池化层、特征表示层、多头注意力机制层、前向传播网络层和动作分类器从前至后依次连接；

采用损失函数指导网络模型学习，预设相关超参数，通过不断迭代衰减损失值达到网络参数权重优化的目的，直到迭代次数等于最大迭代次数，中止对训练集的训练，获取训练好的网络模型；

采集第一视频图像，并将第一视频图像输入进训练好的网络模型中，获取表征所述视频图像中目标人体和物体产生交互动作的第二视频图像。

其中，构建基于多头注意力机制的网络模型的方法包括：

首先构建时空特征提取骨干网络提取人体的时空特征和物体时空特征，同时给定目标检测器，在视频图像的关键帧上检测输出人体的边界框和周围物体的边界框，通过人体的边界框和周围物体的边界框的联合运算获取交互动作的视觉特征；

随后在图像处理层根据人体的边界框和周围物体的边界框对视频图像的时空特征进行剪裁，形成剪裁后的视频图像时空特征；

将剪裁后的视频图像时空特征依次输入进卷积层和池化层进行运算，生成交互动作的背景特征；

利用特征表示层将交互动作的视觉特征进行二值化处理，区分目标区域和无目标区域；

在本实施例中，时空特征提取骨干网络提取人体的时空特征和物体时空特征，同时给定目标检测器，在视频图像的关键帧上检测输出人体的边界框和周围物体的边界框，通过人体的边界框和周围物体的边界框的联合运算获取交互动作的视觉特征；随后在图像处理层根据人体的边界框和周围物体的边界框对视频图像的时空特征进行剪裁，形成剪裁后的视频图像时空特征；将剪裁后的视频图像时空特征依次输入进卷积层和池化层进行运算，生成交互动作的背景特征；利用特征表示层将交互动作的视觉特征进行二值化处理，区分目标区域和无目标区域；接着使用多头注意力机制层进一步增强特征的表达能力，最后经前馈神经网络处理后并传输至动作分类器识别人体的动作。

首先，多头注意力机制层能够更好的增强特征，基于多头注意力机制的网络模型能够获取增强效果下目标人体和物体产生交互动作的视频图像，其次，采用损失函数指导所述网络模型学习，预设相关超参数，通过不断迭代衰减损失值达到网络参数权重优化的目的，直到迭代次数等于最大迭代次数，中止对所述训练集的训练，获取训练好的网络模型，最后在真实场景下测试模型性能。测试时没有测试支持集，这部分计算不占用模型推理时间。采用的损失函数包括类别损失函数和定位回归损失函数。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例在上述实施例1或2的基础上做进一步优化，在本实施例中获取第二视频图像的视频序列，将视频序列表示为L，并将视频流图像表示为I，在三维空间中，用x、y、t轴表示三维时空域的坐标，用表示空间方差，用/>表示时间方差。视频序列在三维时空域中表示为：L=g/>*I，其中g/>为空间方差/>和时间方差/>的高斯核函数。

获取所述第二视频图像的时空角点μ，根据时空角点的强度函数公式获取时空角点的强度H，并表示为：H=，其中，/>为时空角点μ分别在x、y、t轴上变化的特征值，k为常数项系数，当/>三个值变化较大时，表示该角点的振动最剧烈，则该角点就是时空兴趣点。

实施例4：

本实施例在上述实施例1-3任一项的基础上做进一步优化，时空兴趣点能有效的反映运动物体的底层特征，根据时空兴趣点在时空兴趣点附近提取出时空兴趣立方体，时空兴趣立方体包含了时空兴趣点周围邻域内的大部分时空特征信息。

首先将时空兴趣立方体分割成若干个连通区域，每个连通区域称为细胞单元（cell）；然后，对于每一个细胞单元对应的梯度直方图进行规定权重的投影，对每个重叠梯度直方图内的细胞单元进行对比度归一化，计算细胞单元中每一像素点梯度与边缘方向的直方图；最后，将所有细胞单元对应的方向梯度直方图的向量一起组合成一个大的方向梯度直方图的特征向量，即转化成时空特征向量。

本实施例的其他部分与上述实施例1-3任一项相同，故不再赘述。

实施例5：

本实施例在上述实施例1-4任一项基础上做进一步优化，使用颜色编码方法提取第二视频图像的颜色特征；使用LBP算子方法提取第二视频图像的纹理特征。

其中，颜色编码方法为YUV模式，YUV模式中的YUV色彩模型将亮度信息从色度信息中分离了出来，并且对同一帧图像的亮度和色度采用了不同的采样率。在YUV色彩模型中，亮度信息Y与色度信息U\V相互独立。Y信号分量为黑白灰度图。U、V信号分量为单色彩色图。

LBP算子方法是图像处理当中常用的纹理特征提取方法。LBP算子主要通过某一中心像素点及其周围像素点之间的关系进行量化后得到二值化结果，具有旋转不变性且不受光照变化的影响。

此外，当本发明中选用的目标追踪方法为卡尔曼方法时，卡尔曼方法对能够减小了目标特征变化对跟踪结果带来的影响，该方法降低了背景干扰带来的影响，能够高效应对短时间内检测目标存在较强遮挡的情形。

本实施例的其他部分与上述实施例1-4任一项相同，故不再赘述。

实施例6：

本发明还提供了一种电子设备，该电子设备包括处理器和存储器；处理器中包括上述实施例所记载的基于人工智能的视觉计算系统。

实施例7：

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质包括指令；当指令在上述实施例所记载的电子设备上运行时，使得电子设备执行上述实施例所记载的方法。可选地，计算机可读存储介质可以为存储器。

本申请实施例涉及的处理器可以是一个芯片。例如，可以是现场可编程门阵列（field programmable gate array，FPGA），可以是专用集成芯片（application specificintegrated circuit，ASIC），还可以是系统芯片（system on chip，SoC），还可以是中央处理器（centralprocessor unit，CPU），还可以是网络处理器（network processor，NP），还可以是数字信号处理电路（digitalsignal processor，DSP），还可以是微控制器（microcontroller unit，MCU），还可以是可编程控制器（programmable logic device，PLD）或其他集成芯片。

本申请实施例涉及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器（read-onlymemory，ROM）、可编程只读存储器（programmableROM，PROM）、可擦除可编程只读存储器（erasable PROM，EPROM）、电可擦除可编程只读存储器（electricallyEPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（random access memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（static RAM，SRAM）、动态随机存取存储器（dynamic RAM，DRAM）、同步动态随机存取存储器（synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（double data rateSDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（enhancedSDRAM，ESDRAM）、同步连接动态随机存取存储器（synchlink DRAM，SLDRAM）和直接内存总线随机存取存储器（directrambus RAM，DR RAM）。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个设备，或者也可以分布到多个设备上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个设备中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个设备中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线（例如同轴电缆、光纤、数字用户线（Digital Subscriber Line，DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质（例如，软盘、硬盘、磁带），光介质（例如，DVD）、或者半导体介质（例如固态硬盘（Solid State Disk，SSD））等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于人工智能的视觉计算方法，其特征在于，包括以下步骤：

步骤 S1，采集第一视频图像，构建基于多头注意力机制的网络模型，基于所述网络模型识别所述第一视频图像，获取表征所述视频图像中目标人体和物体产生交互动作的第二视频图像；

所述网络模型包括时空特征提取骨干网络、目标检测器、图像处理层、卷积层、池化层、特征表示层、多头注意力机制层、前向传播网络层和动作分类器；所述时空特征提取骨干网络和所述目标检测器分别连接至所述图像处理层；所述图像处理层、卷积层、池化层、特征表示层、多头注意力机制层、前向传播网络层和动作分类器从前至后依次连接；

步骤 S2，提取第二视频图像的时空兴趣点；

步骤 S3，根据所述时空兴趣点提取出时空兴趣立方体，使用方向梯度直方图描述算子对所述时空兴趣立方体进行描述，将所述时空兴趣立方体转化为梯度特征；

步骤 S4，获取所述第二视频图像的颜色特征和纹理特征，将所述梯度特征、颜色特征和纹理特征进行特征融合，提取所述第二视频图像中目标人体的特征向量；

步骤 S5，根据所述特征向量和目标追踪方法追踪所述目标人体，获取所述目标人体的模板信息。

2.根据权利要求1所述的一种基于人工智能的视觉计算方法，其特征在于，所述步骤S1还包括：

步骤 S11，获取一段视频图像的数据，将所述视频图像的数据构建成训练集；

步骤 S12，采用损失函数指导所述网络模型学习，预设相关超参数，通过不断迭代衰减损失值达到网络参数权重优化的目的，直到迭代次数等于最大迭代次数，中止对所述训练集的训练，获取训练好的网络模型；

步骤 S13，采集第一视频图像，并将所述第一视频图像输入进所述训练好的网络模型中，获取表征所述视频图像中目标人体和物体产生交互动作的第二视频图像。

3.根据权利要求1所述的一种基于人工智能的视觉计算方法，其特征在于，所述步骤S1中构建基于多头注意力机制的网络模型的方法包括：

随后在图像处理层根据所述人体的边界框和所述周围物体的边界框对所述视频图像的时空特征进行剪裁，形成剪裁后的视频图像时空特征；将所述剪裁后的视频图像时空特征依次输入进卷积层和池化层进行运算，生成交互动作的背景特征；

利用特征表示层将所述交互动作的视觉特征进行二值化处理，区分目标区域和无目标区域；接着使用多头注意力机制层进一步增强特征的表达能力，最后经前馈神经网络处理后并传输至动作分类器识别人体的动作。

4.根据权利要求1所述的一种基于人工智能的视觉计算方法，其特征在于，所述步骤S2包括：获取所述第二视频图像的时空角点，根据时空角点强度函数获取第所述二视频图像的时空兴趣点。

5.根据权利要求1所述的一种基于人工智能的视觉计算方法，其特征在于，所述步骤S3中将所述时空兴趣立方体转化为时空特征的方法包括：将所述时空兴趣立方体分割成细胞单元，将每一个所述细胞单元对应的方向梯度直方图进行投影和归一化处理后，将所有细胞单元对应的方向梯度直方图的向量一起组合成一个方向梯度直方图的特征向量，根据所述特征向量表示梯度特征。

6.根据权利要求1所述的一种基于人工智能的视觉计算方法，其特征在于，所述步骤S4中获取所述第二视频图像的颜色特征和纹理特征的方法包括：使用颜色编码方法提取所述第二视频图像的颜色特征；使用 LBP 算子方法提取所述第二视频图像的纹理特征。

7.根据权利要求 1 所述的一种基于人工智能的视觉计算方法，其特征在于，所述步骤S5中的目标追踪方法包括卡尔曼方法。

8.一种基于人工智能的视觉计算系统，其特征在于，包括采集单元、特征提取单元、特征融合单元和目标追踪单元，其中：采集单元，用于采集第一视频图像，构建基于多头注意力机制的网络模型，基于所述网络模型识别所述第一视频图像，获取表征所述视频图像中目标人体和物体产生交互动作的第二视频图像；

特征提取单元，用于提取第二视频图像的时空兴趣点，用于根据所述时空兴趣点提取出时空兴趣立方体，使用方向梯度直方图描述算子对所述时空兴趣立方体进行描述，将所述时空兴趣立方体转化为梯度特征；特征融合单元，用于获取所述第二视频图像的颜色特征和纹理特征，将所述梯度特征、颜色特征和纹理特征进行特征融合，提取所述第二视频图像中目标人体的特征向量；目标追踪单元，用于根据所述特征向量和目标追踪方法追踪目标人体，获取所述目标人体的模板信息；

构建基于多头注意力机制的网络模型，所述网络模型包括时空特征提取骨干网络、目标检测器、图像处理层、卷积层、池化层、特征表示层、多头注意力机制层、前向传播网络层和动作分类器；所述时空特征提取骨干网络和所述目标检测器分别连接至所述图像处理层；所述图像处理层、卷积层、池化层、特征表示层、多头注意力机制层、前向传播网络层和动作分类器从前至后依次连接。

9.一种电子设备，其特征在于，包括处理器和存储器；所述处理器中包括如权利要求8所述的基于人工智能的视觉计算系统。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令；当指令在如权利要求9所述的电子设备上运行时，使得所述电子设备执行如权利要求1-7任一项所述的方法。