CN114332549B

CN114332549B - 一种基于bp神经网络单元的变形体识别方法

Info

Publication number: CN114332549B
Application number: CN202210004503.0A
Authority: CN
Inventors: 牟金辉; 齐银; 林勤智
Original assignee: Chengdu Institute of Biology of CAS
Current assignee: Chengdu Institute of Biology of CAS
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2023-05-16
Anticipated expiration: 2042-01-04
Also published as: CN114332549A

Abstract

本发明属于数据分析处理领域，具体涉及一种基于BP神经网络单元的变形体识别方法。技术方案为：神经网络单元的输入特征为4维张量或者5维张量；第1、2、3、4维分别为批次、通道、特征高度、特征宽度，或分别为批次、特征高度、特征宽度、通道；第1、2、3、4、5维分别为批次、通道、特征深度、特征高度、特征宽度，或分别为批次、特征深度、特征高度、特征宽度、通道；神经网络单元输出特征的各维度与输入特征相同。本申请设计的BP人工神经网络单元在用于可弯曲类目标分类、检测时，得到了更高的mAP，具有更好的泛化性能，可以识别更多训练集中不包含的但属于同类的物体。

Description

一种基于BP神经网络单元的变形体识别方法

技术领域

本发明属于数据分析处理领域，具体涉及一种基于BP神经网络单元的变形体识别方法及装置。

背景技术

神经网络单元(又称神经网络处理单元)是人工神经网络 (Artificial NeuralNetwork，ANN)结构的组成成分，数个神经网络单元可设计成神经网络模块，神经网络模块作用于人工神经网络的隐藏层，输入层、隐藏层、输出层可组成人工神经网络。采用误差反向传播算法的多层神经网络称为反向传播神经网络，即BP(back propagation) 神经网络。二维视觉像素特征图是二维图像像素经过神经网络的其他结构处理产生的中间或最终输出,三维视觉点云特征图是三维点云经过神经网络的其他结构处理产生的中间或最终输出。二维视觉像素特征图或三维视觉点云特征图可作为其他神经网络单元如池化单元、正则化单元、激活单元、特征融合单元、特征分类单元的输入。

在计算机视觉领域，需要对一些二维空间中的像素点集合或者三维空间中的点云集合进行自动化分析，以实现对特定目标的识别、分类、定位、分割等功能。然而，使用现有的卷积单元、自注意力单元提取空间内点集合特征的方法，难以较好地对可旋转的目标实现统一的抽象语义表示，尤其难以对一些可变形的目标，如可弯曲的软体动物、动物的软肢体等实现较统一的抽象语义表示，导致这类目标的识别准确度、泛化性能差。

因此，亟需一种简单方便、可有效识别变形体的方法。

发明内容

本发明的目的是提供一种基于BP神经网络单元的变形体识别方法。

为实现上述发明目的，本发明所采用的技术方案是：一种BP神经网络单元，所述神经网络单元的输入特征为4维张量或者5维张量；

当所述输入特征为4维张量时，所述神经网络单元存储的是一定批次中含有一定通道的二维视觉像素特征图，第1、2、3、4维分别为批次、通道、特征高度、特征宽度，或分别为批次、特征高度、特征宽度、通道；

当所述输入特征为5维张量时，所述神经网络单元存储的是一定批次中含有一定通道的三维点云特征图；第1、2、3、4、5维分别为批次、通道、特征深度、特征高度、特征宽度，或分别为批次、特征深度、特征高度、特征宽度、通道；

神经网络单元输出特征的各维度与输入特征相同。

相应的，BP神经网络单元的构建方法，所述神经网络单元为带有多向排序结构的卷积型反馈神经网络单元。

优选的，所述卷积型反馈神经网络单元包括：按列滑动函数、排序函数、加函数、向量内积函数、改形函数、逐元素相乘函数、转置函数、压维函数、扩维函数。

优选的，所述方法包括如下步骤：

对于输入的特征图张量0，利用所述按列滑动函数对输入单元张量 0进行展开处理，得到张量1的前身；使用改形函数将所述张量1的前身改形为含有一定数量批次和一定数量通道的二维或者三维特征图，得张量1；

对张量1按x轴排序，取按x轴排序的前k个值得到张量2的前身，将所述张量2的前身与一个可学习权重通过逐元素相乘函数相乘后得到张量2；

对这些二维或者三维张量按y轴排序，取按y轴排序的前k个值得到张量3的前身；将所述张量3的前身与一个可学习权重通过逐元素相乘函数相乘后得到张量3；

若为3维张量，则还需将三维张量按z轴排序，取按z轴排序的前k个值得到张量4的前身，将所述张量4的前身与一个可学习权重通过逐元素相乘函数相乘后得张量4；

将输入单元的输入张量0和张量2、张量3、张量4通过加函数相加后得到张量5；

将张量5输入常规的卷积单元处理，得到张量6；

将所述张量6通过改形函数改形，得张量7；

将张量7作为整个单元的输出，即可用于后续的神经网络部分的信息处理。

优选的，所述神经网络单元为带有多向排序结构的自注意力型反馈神经网络单元。

优选的，所述带有多向排序结构的自注意力型反馈神经网络单元包括：按列滑动函数、矩阵乘函数、拼接函数、逐元素乘函数、逐元素除函数、softmax归一化函数、加函数、向量内积函数、转置函数、压维函数、扩维函数、改形函数、排序函数。

优选的，所述方法包括如下步骤：

对于输入的特征图张量0，利用所述按列滑动函数对输入单元张量 0进行展开处理，得到张量1的前身，再使用改形函数将张量1的前身改形为含有一定数量批次和一定数量通道的二维或者三维特征图，得张量1；

对所述张量1按x轴排序，取按x轴排序的前k个值，得张量2的前身，将所述张量2的前身与一个可学习权重通过逐元素相乘函数相乘后得到张量2；

对所述张量1按y轴排序，取按y轴排序的前k个值得到张量3的前身，将所述张量3的前身与一个可学习权重通过逐元素相乘函数相乘后得到张量3；

若为3维张量，则还需对所述张量1按z轴排序，取按z轴排序的前k个值得到张量4的前身，将所述张量4的前身与一个可学习权重通过逐元素相乘函数相乘后得到张量4；

将张量0、张量2、张量3、张量4通过加函数相加得张量5；

将张量5输入常规的自注意力单元处理，得张量6，所述张量6为一定数量批次中含有一定数量通道的2维特征图或者3维特征图；

将所述张量6通过改形函数改形为含有“批次，通道，特征图高，特征图宽”四个维度或者“批次，通道，特征图深，特征图高，特征图宽”五个维度的张量7；

优选的，所述常规的自注意力单元处理方式包括：

将所述张量5的每个视觉信息分别与3个权重矩阵通过矩阵乘函数相乘，生成query、key、value三个特征图矩阵；若为多头自注意力型反馈神经网络单元，将所述张量5的embedding与3n个权重矩阵通过矩阵乘函数相乘，生成3n个query、key、value特征图矩阵，并用一个可学习的矩阵将3n个query、key、value特征图矩阵加权求和为3 个query、key、value特征图矩阵；

对于所述张量5的每一个视觉信息embedding，将其对应的query 特征图矩阵与所有视觉信息embedding的key矩阵通过向量内积函数求向量内积，将得到的所有结果分别除(divide)以Dk^1/2,其中Dk是一个视觉信息embedding的长度,得到一定数量批次中含有一定数量通道的常量；

将所述常量输入softmax逻辑回归函数，输出作为对应的视觉信息 embedding的key特征图矩阵的权重；

将所有的key特征图矩阵加权通过加函数相加，得到一定数量批次中含有一定数量通道的特征图，即张量6。

优选的，所述Co的取值为8。

本发明具有以下有益效果：本发明提供了一种新的神经网络基本单元的构建方法，在常规的神经网络单元中增加逐维度的排序函数。以沿 y轴排序为例，即使y轴的特征在y轴发生了偏移，但特征被抽象化，就可同时保留特征在x轴的位置。这种结构非常适用于可变形物体(如可弯曲的动物肢体)的识别、分类、检测。同时，为了降低计算的复杂程度，本申请在排序后还取前k个值单独做一个辅助通道，通过排序对特征图进行“浓缩”，从而有效降低计算难度。

本申请设计的BP人工神经网络单元在用于可弯曲类目标分类、检测时，得到了更高的mAP(mean average precision)，具有更好的泛化性能，可以识别更多训练集中不包含的但属于同类的物体。从而在以沙蜥尾部为代表的软体目标的分类、定位领域，相比于经典的卷积神经网络单元，具有更好的实用效果和推广价值。

附图说明

图1为本发明提供的神经网络单元构建示意图(二维)；

图2为本发明提供的神经网络单元构建示意图(三维)；

图3为沙蜥尾部运动姿态示意图。

具体实施方式

本发明提供了一种逐维度排序增强的反馈神经网络单元的构建方法与视觉信息数据处理方法与装置。

本发明目的之一为提供了一种神经网络单元构建方法。

所述神经网络单元的输入为4维张量或者5维张量。若为4维张量，则其存储的是一定批次中含有一定通道的二维视觉像素特征图；若为5 维张量，则其存储的是一定批次中含有一定通道的三维点云特征图。

若输入神经网络单元的特征张量有4维，则第1、2、3、4维分别为批次、通道、特征高度、特征宽度，或者分别为批次、特征高度、特征宽度、通道。若输入的特征张量有5维，则第1、2、3、4、5维分别为批次、通道、特征深度、特征高度、特征宽度，或者分别为批次、特征深度、特征高度、特征宽度、通道。对于输出神经网络单元的各维度含义，与输入的特征张量各维度含义保持相同。

卷积型神经网络单元和自注意力型神经网络单元是神经网络单元在计算机视觉领域两种目前表现良好的单元设计方式。

因此，本发明的目的之二为，在目的一所述神经网络单元构建方法的基础上，进一步提供了一种带有多向排序结构的卷积型反馈神经网络单元的构建方法。

所述反馈神经网络单元包括：按列滑动函数(im2col)、排序函数 (sort或topk)、加函数(add)，向量内积函数(dot)、逐元素相乘函数(multiply)、转置函数(transpose)、压维函数(squeeze)、扩维函数(unsqueeze)、改形函数(reshape或者称view)。整个单元的输入张量是4维(用于处理2维视觉信息)或者5维视觉信息张量(用于处理3维视觉信息)。整个单元的输入是4维视觉信息张量时，形状为 [N,C,H,W]，输入为5维视觉信息张量时,形状为[N,C,D,H,W]。其中，特征图中，批次为N、输入通道为C、输出通道为C2、特征图高为H、特征图宽为W。

如图1、2所示(图1为二维情况下的神经网络单元构建示意图，图2为三维情况下的)，对于输入的特征图张量0。利用所述im2col函数对输入单元张量0进行展开处理，得到张量1的前身。再使用reshape 将张量1的前身改形为含有一定数量批次和一定数量通道的二维或者三维特征图，即得张量1。然后对张量1按x轴排序，取按x轴排序的前 k个值得到张量2的前身(图中未标出)。将所述张量2的前身与一个可学习权重作multiply后得到张量2，然后对这些二维或者三维张量按y 轴排序，取按y轴排序的前k个值得到张量3的前身(图中未标出)。将所述张量3的前身与一个可学习权重作multiply后得到张量3。若为 3维张量，则还需将三维张量按z轴排序，取按z轴排序的前k个值得到张量4的前身(图中未标出)，将所述张量4的前身与一个可学习权重作multiply后得到张量4。将输入单元的输入张量0和张量2、张量3、张量4(处理3维特征图的情况)作add得到张量5。将张量5输入常规的卷积单元处理，得到张量6。将所述张量6作reshape，得含有“批次、通道、特征图高、特征图宽”四个维度的张量7或者“批次、通道、特征图深、特征图高、特征图宽”五个维度的张量7。对于不同的深度学习框架，以上过程中要按需使用squeeze和unsqueeze函数使得每个操作前后的张量维度数目匹配。将张量7作为整个单元的输出，即可用于后续的神经网络部分的信息处理。

本发明的目的之三是，在目的一所述神经网络单元构建方法的基础上，进一步提供了一种带有多向排序结构的自注意力型反馈神经网络单元的构建方法。

所述带有多向排序结构的自注意力型反馈神经网络单元中包括：按列滑动函数(im2col)、矩阵乘函数(matmul)、拼接函数(concat)、逐元素乘函数(multiply)、逐元素除函数(divide)、softmax归一化函数(softmax)、加函数(add)、向量内积函数(dot)、转置函数 (transpose)、压维函数(squeeze)、扩维函数(unsqueeze)、改形函数(reshape或者称view)、排序函数(sort或者topk)。设特征图的批次为N、输入通道为C、输出通道为C2、特征图高为H、特征图宽为W。整个单元的输入是一个4维(对于处理2维视觉信息,形状为[N,C,H,W]) 或者5维视觉信息张量(对于处理3维视觉信息,形状为[N,C,D,H,W])。

对于输入的特征图张量0，利用所述im2col函数对输入单元张量0 进行展开处理，得到张量1的前身。再使用reshape将张量1的前身改形为含有一定数量批次和一定数量通道的二维或者三维特征图，即得张量1。然后对这些二维或者三维张量按x轴排序，取按x轴排序的前k 个值得到张量2的前身(图中未标出)。将所述张量2的前身与一个可学习权重作multiply后得到张量2，然后对张量1按y轴排序，取按y 轴排序的前k个值得到张量3的前身(图中未标出)。将所述张量3的前身与一个可学习权重作multiply后得到张量3。若为3维张量，则还需对张量1按z轴排序(sort或者topk)，取按z轴排序的前k个值得到张量4的前身(图中未标出)，将所述张量4的前身与一个可学习权重作multiply后得到张量4)。将输入单元的输入张量0和张量2、张量3、张量4(处理3维特征图的情况)作add得到张量5。将张量5输入常规的自注意力单元处理，得到的张量6为一定数量批次中含有一定数量通道的2维特征图或者3维特征图。将得到的张量6(含有视觉信息的特征图)reshape为含有“批次，通道，特征图高，特征图宽”四个维度(形状为[N,C2,H,W])或者“批次，通道，特征图深，特征图高，特征图宽”五个维度(形状为[N,C2,D,H,W])的张量7。对于不同的深度学习框架，以上过程中要按需使用squeeze和unsqueeze函数使得每个操作前后的张量维度数目匹配，将张量7作为整个单元的输出，即可用于后续的神经网络部分的信息处理。

若反馈神经网络单元的输入为一定数量批次中有一定数量通道的1 维特征图，则单元中的排序操作为1维排序。

所述“常规的自注意力单元”中包括：矩阵乘函数(matmul)、拼接函数(concat)、逐渐元素乘函数(multiply)、逐元素除函数(divide)、 softmax归一化函数(softmax)、加函数(add)、向量内积函数(dot)、改形函数(reshape或者称view)。所述“常规的自注意力单元”为：每个2维或者3维的输入视觉信息张量都与3个权重矩阵matmul，生成 query、key、value三个特征图矩阵；若为多头自注意力型反馈神经网络单元，每个视觉信息embedding与3n个权重矩阵matmul，生成3n个 query、key、value特征图矩阵，并用一个可学习的矩阵将3n个query、 key、value特征图矩阵加权求和为3个query、key、value特征图矩阵。对于每一个视觉信息embedding，将其query特征图矩阵与所有视觉信息embedding的key矩阵作dot，将得到的所有结果分别除(divide) 以Dk^1/2,其中Dk是一个视觉信息embedding的长度,得到一定数量批次中含有一定数量通道的常量。将这些常量输入softmax函数，以softmax 函数的输出矩阵作为权重，对所有视觉信息embedding的value矩阵进行加权求和(用到的函数为multiply和add)，得到一定数量批次中含有一定数量通道的特征图。将所有特征图reshape为含有“批次，通道，特征图高，特征图宽”四个维度或者“批次，通道，特征图深，特征图高，特征图宽”五个维度的张量作为单元输出。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。若未特别指明，实施例中所用的技术手段为本领域技术人员所熟知的常规手段。所获得的数据均为进行至少3次重复后获得的平均值，且各重复获得的均为有效数据。

实施例：本发明方法效果展示

1、选择中国若尔盖县草原地带于夏秋季节录制的野外真实生境下的青海沙蜥视频，经过人工剪辑，得到有动态视觉信号的视频片段共130 段，分辨率1920×1080。对于每个录制场景，使用两台摄像机从两个角度同时录制。

2、数据集的制作：将得到的所有视频片段使用Matlab软件包dltdv 对沙蜥的尾尖、尾基两个关键点进行标注。视频中的沙蜥尾部运动姿态丰富，存在卷尾、甩尾、伸直等多种姿态，是典型的“变形体”，如图3。标注过程中，尾尖部分很可能由于卷尾而不直接可见，但此时对尾尖的定位仍然是需要的。因此在标注时，对于被自身遮挡、被草等环境遮挡的关键点仍需要标出，但不标注超出图像范围的关键点。

标注后得相应的文件名以“xypts.csv”结尾的文件，近似设定沙蜥尾尖为20×20像素大小，尾基为48×40像素大小。使用Python3.7 编写脚本将所有的*xypts.csv文件合并为一个，并转换为微软COCO2017 竞赛中COCO Detection Challenge项目中所使用的同样数据集格式，得到coco_2017.json文件。将130段视频使用Python软件包opencv2 转换为逐帧图片，经过数据清洗，去除其中所有不包含沙蜥的帧，并去除了大量沙蜥长期静止的帧。所得图片帧通过Python软件包deeplabcut 中的机器学习K-Means无监督图片聚类得到相互保持一定差异的共 36000张野外真实生境下沙蜥图片，其中的90％作为训练集，10％作为评估集。

将先前得到的coco_2017.json文件进行清洗，确保所有标注条目与图片数据一一对应，没有错位、冗余。并将coco_2017.json拆分为训练集的train.json和评估集的val.json。

3、利用ppyolov2进行数据训练的对照。ppyolov2是一个工业界已经广泛应用的yolo系列目标检测卷积神经网络的版本，是ppyolo的第二个版本。直接使用ppyolov2进行数据训练；同时将ppyolov2的 backbone部分的前5个resnet层中的卷积单元替换为本发明所述带有多向排序结构的卷积型反馈神经网络单元，使用步骤2中制作的数据集进行训练，训练的环境配置为：ubuntu18.04 os、miniconda虚拟环境、 cuda11.3.1、cudnn8.2.1。CPU为志强E5 2650v3，GPU为GTX3080Ti*2。训练的参数为：输入分辨率672×672\640×640\608×608\576× 576\544×544\512×512，评估分辨率为640×640；测试所用图片为1920 ×1080分辨率经过双线性插值缩放到640×640得到的图片。所有缩放不维持长宽比，downsample_ratio为28，batch_size为4，基础学习率为0.002。每2个epoch进行一次评估。训练两周。

结果显示：使用专利所述单元替换后的ppyolov2在进过两周训练后，按照MS COCO17标准评估得到的bbox mAP比替换前的ppyolov2 高了20％。

4、对上述ppyolo v2进行进一步修改，引入了含有自注意力单元的CvT模块(Convolutional Vision Transformer，Wu H,Xiao B, Codella N,et al.CvT:Introducing Convolutions to Vision Transformers[J].2021)，具体的连接方式为：丢弃CvT模块中的MLP Head单元；丢弃ppyolo v2的backbone部分(即resnet50)的第3阶段的网络结构；将ppyolo v2中的backbone部分(即resnet50)的第 2阶段的输出端，接入CvT的输入端；将CvT第二阶段的输出张量同 ppyolo v2的backbone部分的第2阶段的输出张量作add,得到的张量替代原有的ppyolo v2的backbone部分的第2阶段的输出张量；将CvT 第三阶段的输出张量同自身的转置张量在“通道”这一维度作concat，得到的张量替代原有的ppyolo v2的backbone部分的第3阶段的输出张量。将按该方法组建的神经网络命名为ppyolo-cvt。将ppyolo-cvt 中的自注意力单元使用本发明所述的带有多向排序结构的自注意力单元进行替换，将替换后的ppyolo-cvt和ppyolo-cvt按照同步骤3的方式训练。

结果显示：使用专利所述单元替换后的ppyolov2在进过两周训练后，按照MS COCO17标准评估得到的bbox mAP比替换前的ppyolov2 高了9％。

5、利用deeplabcut2.2进行数据训练的对照。deeplabcut(DLC) 是哈佛大学Rowland Institue某团队发布的一款具有GUI界面的基于计算机视觉深度学习的动物关键点跟踪软件包，主要用于实验室场景或固定场景内的动物关键点自动识别。将36000张沙蜥图片重命名为适用于DLC训练的格式，使用dltdv包标注得到*xypts.csv数据文件，使用Python3.7编写脚本将所述*xypts.csv数据文件转换为DLC.csv数据集，训练分辨采用resnet50和dlcrnet作为神经网络的骨架，其他参数均为默认。训练两周。

使用未标注的图片帧对训练好的模型进行测试，并将结果可视化，以bbox的上边中点作为关键点的准确位置，可以看到使用专利所述单元替换后的ppyolov2训练得到的模型较好地捕捉到了同一视频中其他未标注帧中的沙蜥尾尖、尾基关键点，而deeplabcut的resnet50与 dlcrnet两种backbone训练得到的模型都存在大量的无法识别的帧，其中尤其尾尖几乎无法识别，该差异非常直观，因此无需再定量计算对比。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形、变型、修改、替换，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种利用BP神经网络单元识别变形体的方法，其特征在于：所述变形体为可弯曲的动物肢体，所述神经网络单元为带有多向排序结构的卷积型反馈神经网络单元；所述卷积型反馈神经网络单元包括：按列滑动函数、排序函数、加函数、向量内积函数、改形函数、逐元素相乘函数、转置函数、压维函数、扩维函数；

所述神经网络单元的输入特征为4维张量或者5维张量；

神经网络单元输出特征的各维度与输入特征相同；

对于输入的特征图张量0，利用所述按列滑动函数对输入单元张量0进行展开处理，得到张量1的前身；使用改形函数将所述张量1的前身改形为含有一定数量批次和一定数量通道的二维或者三维特征图，得张量1；

将张量5输入常规的卷积单元处理，得到张量6；

将所述张量6通过改形函数改形，得张量7；

将张量7作为整个单元的输出，即可用于后续的神经网络部分的信息处理；

处理方法包括：

（1）采集待识别的可弯曲的动物肢体数据，制作数据集；

（2）对数据集的关键点进行标注；

（3）去除数据集中不包含待识别的可弯曲的动物肢体的帧，将剩余图片的90%作为训练集，10%作为评估集；

（4）将ppyolov2的backbone部分的前5个resnet层中的卷积单元替换为所述带有多向排序结构的卷积型反馈神经网络单元，使用所述数据集进行训练。

2.一种利用BP神经网络单元识别变形体的方法，其特征在于：所述变形体为可弯曲的动物肢体，所述神经网络单元为带有多向排序结构的自注意力型反馈神经网络单元；所述带有多向排序结构的自注意力型反馈神经网络单元包括：按列滑动函数、矩阵乘函数、拼接函数、逐元素乘函数、逐元素除函数、softmax归一化函数、加函数、向量内积函数、转置函数、压维函数、扩维函数、改形函数、排序函数；

所述神经网络单元的输入特征为4维张量或者5维张量；

神经网络单元输出特征的各维度与输入特征相同；

所述方法包括如下步骤：

对于输入的特征图张量0，利用所述按列滑动函数对输入单元张量0进行展开处理，得到张量1的前身，再使用改形函数将张量1的前身改形为含有一定数量批次和一定数量通道的二维或者三维特征图，得张量1；

将张量0、张量2、张量3、张量4通过加函数相加得张量5；

将所述张量6通过改形函数改形为含有批次，通道，特征图高，特征图宽四个维度或者批次，通道，特征图深，特征图高，特征图宽五个维度的张量7；

处理方法包括：

（1）采集待识别的可弯曲的动物肢体数据，制作数据集；

（2）对数据集的关键点进行标注；

（4）在ppyolov2中引入所述带有多向排序结构的自注意力型反馈神经网络单元CvT模块，连接方式为：丢弃CvT模块中的MLP Head单元；丢弃ppyolo v2的backbone部分的第3阶段的网络结构；将ppyolo v2中的backbone部分的第2阶段的输出端，接入CvT的输入端；将CvT第二阶段的输出张量同ppyolo v2的backbone部分的第2阶段的输出张量作add,得到的张量替代ppyolo v2的backbone部分的第2阶段的输出张量；将CvT第三阶段的输出张量同自身的转置张量在“通道”这一维度作concat，得到的张量替代原有的ppyolo v2的backbone部分的第3阶段的输出张量，将按该方法组建的神经网络命名为ppyolo-cvt，将ppyolo-cvt中的自注意力单元使用带有多向排序结构的自注意力单元进行替换，将替换后的ppyolo-cvt和ppyolo-cvt使用所述数据集进行训练；所述常规的自注意力单元处理方式包括：

将所述张量5的每个视觉信息分别与3个权重矩阵通过矩阵乘函数相乘，生成query、key、value三个特征图矩阵；若为多头自注意力型反馈神经网络单元，将所述张量5的embedding与3n个权重矩阵通过矩阵乘函数相乘，生成3n个query、key、value特征图矩阵，并用一个可学习的矩阵将3n个query、key、value特征图矩阵加权求和为3个query、key、value特征图矩阵；

对于所述张量5的每一个视觉信息embedding，将其对应的query特征图矩阵与所有视觉信息embedding的key矩阵通过向量内积函数求向量内积，将得到的所有结果分别除以Dk^1/2,其中Dk是一个视觉信息embedding的长度,得到一定数量批次中含有一定数量通道的常量；

将所述常量输入softmax逻辑回归函数，输出作为对应的视觉信息embedding的key特征图矩阵的权重；

3.实现权利要求1或2所述识别变形体的方法的装置，其特征在于：所述装置包括：

特征输入单元，所述特征输入单元的输入特征为4维张量或者5维张量；当所述输入特征为4维张量时，所述神经网络单元存储的是一定批次中含有一定通道的二维视觉像素特征图，第1、2、3、4维分别为批次、通道、特征高度、特征宽度，或分别为批次、特征高度、特征宽度、通道；当所述输入特征为5维张量时，所述神经网络单元存储的是一定批次中含有一定通道的三维点云特征图；第1、2、3、4、5维分别为批次、通道、特征深度、特征高度、特征宽度，或分别为批次、特征深度、特征高度、特征宽度、通道；

特征输出单元，所述特征输出单元的输出特征的各维度与输入特征相同；

信息处理单元，所述信息处理单元可输入待识别的可弯曲的动物肢体数据，并将数据制作为数据集；对数据集的关键点进行标注；去除数据集中不包含待识别的可弯曲的动物肢体的帧，将剩余图片的90%作为训练集，10%作为评估集；将ppyolov2的backbone部分的前5个resnet层中的卷积单元替换为所述带有多向排序结构的卷积型反馈神经网络单元，或在ppyolov2中引入所述带有多向排序结构的自注意力型反馈神经网络单元CvT模块，再使用所述数据集进行训练。