CN113011402A

CN113011402A - 基于卷积神经网络的灵长类动物姿态估计系统、方法

Info

Publication number: CN113011402A
Application number: CN202110480235.5A
Authority: CN
Inventors: 马喜波; 孙峥; 周兵
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-06-22
Anticipated expiration: 2041-04-30
Also published as: CN113011402B

Abstract

本发明属于计算机视觉领域，具体涉及了一种基于卷积神经网络的灵长类动物姿态估计系统、方法，旨在解决灵长类动物的姿态估计中关键点定位精确度不能满足需求的问题。该系统包括第一子系统、第二子系统、姿态估计模块；第一子系统，配置为基于输入图像的二值图生成第一注意力热图；第二子系统，配置为以所述第一注意力热图为修正信息，获取所述输入图像的第二注意力热图；姿态估计模块，配置为基于所述第二注意力热图获取动物姿态估计信息。本发明的灵长类动物的姿态估计关键点定位的精度得到提高。

Description

基于卷积神经网络的灵长类动物姿态估计系统、方法

技术领域

本发明属于计算机视觉领域，具体涉及了一种基于卷积神经网络的灵长类动物姿态估计系统、方法。

背景技术

灵长类动物姿态估计是一个新型的研究方向。通过建立灵长类动物姿态估计数据集，利用一系列深度学习方法进行训练，训练好的模型可以预测特定场景下的灵长类动物的姿态(如笼子当中)。通过检测到的灵长类动物姿态信息，可以有效判断其当前的行为以及精神状态，在新型药物评估领域有很高的应用价值。

近些年动物姿态估计方法主要包括两大类：一是直接使用人体姿态估计深度学习方法进行马、老虎等体型比较固定的动物的姿态估计；二是使用人体姿态向动物姿态进行知识迁移的方式。。人体姿态向动物姿态的迁移主要采用Domain Adaptation(领域自适应)的方法，其中的两种方法为WS-CDA方法、CCSSL方法。WS-CDA方法，在“Mu J,Qiu W,Hager GD,et al.Learning from synthetic animals[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2020:12386-12395.”中有详细介绍，该方法将人体姿态数据和动物姿态数据同时输入到同一个网络(共享权重)，在网络的上采样阶段分为两个分支，一个用于计算分类损失，一个用于计算姿态估计损失，两个损失相互对抗，起到拉近人体姿态域和动物姿态域之间距离的作用。CCSSL方法，在“CaoJ,Tang H,Fang H S,et al.Cross-domain adaptation for animal pose estimation[C]//Proceedings of the IEEE/CVF International Conference on ComputerVision.2019:9498-9507.”中有详细介绍，训练CG(Computer Graphics，计算机图形)动物合成数据得到初始化模型，然后使用该模型来预测真实场景动物的姿态作为伪标签。用伪标签的一部分和合成数据进行联合训练得到新的模型，再以此模型为基础来预测真实场景动物的姿态标签，重复上述流程进行迭代训练。灵长类动物较灵活，不像CCSSL方法中马等动物关键点较固定，且灵长类动物姿态估计没有一个合适的数据集(如灵长类动物在笼子当中的日常行为数据)。

在灵长类动物的姿态估计方法中，关键点定位的精度、姿态估计的准确度不能满足当下研究和应用的需求，有待进一步提高。

发明内容

为了解决现有技术中的上述问题，即灵长类动物的姿态估计中关键点定位精确度不能满足需求的问题，本发明提供了一种基于卷积神经网络的灵长类动物姿态估计系统，该系统包括第一子系统、第二子系统、姿态估计模块；

所述第一子系统，配置为基于输入图像的二值图生成第一注意力热图；

所述第二子系统，配置为以所述第一注意力热图为修正信息，获取所述输入图像的第二注意力热图；

所述姿态估计模块，配置为基于所述第二注意力热图获取动物姿态估计信息。

在一些优选实施例中，所述第二子系统包括残差网络、反卷积网络、多个注意力机制网络；

所述残差网络包括多个卷积层；所述反卷积网络包括多个反卷积单元；顺次连接的多个卷积层和多个反卷积单元关于中间卷积层对称设置；所述中间卷积层为所述残差网络中与反卷积网络直接连接的卷积层；

所述反卷积单元包括两个相同大小的反卷积层，分别作为输入层、输出层，所述注意力机制网络设置于所述输入层和所述输出层之间；

所述注意力机制网络输入数据包括第一数据、第二数据、第三数据；所述第一数据为输入层反卷积处理后的数据；所述第二数据为对称的卷积层的输出；所述第三数据为所述第一注意力热图。

在一些优选实施例中，所述第一子系统和所述第二子系统网络结构相同，所述第一子系统中注意力机制网络输入的第三数据为全0二值图。

在一些优选实施例中，所述残差网络为ResNet-50。

在一些优选实施例中，所述注意力机制网络，配置为：

将所述第一数据、所述第二数据分别通过一个卷积层，并将卷积后的结果和所述第三数据加权相加，得到第四数据；

将所述第四数据和所述第一数据相乘得到一个残差结果，作为第五数据；

将所述第五数据和所述第一数据相加，作为当前注意力机制网络的输出。

在一些优选实施例中，其训练样本的获取方法为：

对所采集到的包含动物动作的视频片段，基于连续帧之间的光流图，删除光流小于设定阈值的视频帧；

对保留下的视频帧进行姿态标注，得到训练样本。

在一些优选实施例中，“对保留下的视频帧进行姿态标注，得到训练样本”，其方法为：

基于预设的图像数据集，对所述保留下来的视频帧进行随机背景更换，得到训练样本。

在一些优选实施例中，所述训练样本的获取过程中，在基于连续帧之间的光流图删除光流小于设定阈值的视频帧之前，还包括：

对所采集到的包含动物动作的视频片段，基于视频片段中视频帧的平均亮度，删除大于第一预设亮度阈值的视频片段、删除小于第二预设亮度阈值的视频片段。

本发明的第二方面，提出了一种基于卷积神经网络的灵长类动物姿态估计方法，基于所述的基于卷积神经网络的灵长类动物姿态估计系统，包括以下步骤：

获取输入图像；

获取所述输入图像的二值化掩模图像，基于所述第一子系统获取第一注意力热图；

对所述输入图像，以所述第一注意力热图为修正信息，通过所述第二子系统获取第二注意力热图；

基于所述第二注意力热图，通过所述姿态估计模块获取动物姿态估计信息。

本发明的第三方面，提出了一种设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现所述的基于卷积神经网络的灵长类动物姿态估计方法。

本发明的第四方面，提出了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现所述的基于卷积神经网络的灵长类动物姿态估计方法。

本发明的有益效果：

本发明通过所述第一子系统生成的第一注意力热图，对输入图像注意力热图生成过程进行修正，得到基于修正信息的第二注意力热图，基于该注意力热图，姿态估计模块中在进行姿态估计之前的关键点定位的精度得到提高。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的基于卷积神经网络的灵长类动物姿态估计系统结构示意图；

图2是本发明一种实施例中注意力机制网络结构示意图；

图3是本发明拍摄装置及效果示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于卷积神经网络的灵长类动物姿态估计系统，该系统包括第一子系统、第二子系统、姿态估计模块；

为了更清晰地对本发明进行说明，下面结合附图对本发明实施例展开详述。

本发明实施例的基于卷积神经网络的灵长类动物姿态估计系统，包括第一子系统、第二子系统、姿态估计模块。第一子系统，配置为基于输入图像的二值图生成第一注意力热图；第二子系统，配置为以所述第一注意力热图为修正信息，获取所述输入图像的第二注意力热图；姿态估计模块，配置为基于所述第二注意力热图获取动物姿态估计信息。

本实施例中，优选的第一子系统和第二子系统采用相同的网络结构。为了避免重复冗余的描述，此处仅对第二子系统的网络结构进行详细说明，第二子系统具体包括残差网络、反卷积网络、多个注意力机制网络。

残差网络包括多个卷积层；所述反卷积网络包括多个反卷积单元；顺次连接的多个卷积层和多个反卷积单元关于中间卷积层对称设置；所述中间卷积层为所述残差网络中与反卷积网络直接连接的卷积层。

反卷积单元包括两个相同大小的反卷积层，分别作为输入层、输出层，所述注意力机制网络设置于所述输入层和所述输出层之间。

注意力机制网络输入数据包括第一数据、第二数据、第三数据；所述第一数据为输入层反卷积处理后的数据；所述第二数据为对称的卷积层的输出；所述第三数据为所述第一注意力热图。

第一子系统中注意力机制网络输入的第三数据为全0二值图，相当于第一子系统中注意力机制网络输入的数据仅包括第一数据、第二数据，不包含第三数据，也即第一子系统中注意力机制网络输入信息不含注意力热图修正信息。

本实施例中，第二子系统和姿态估计模块构成的网络结构，相当于人体姿态估计模型SimpleBaseline(简易基准模型)的框架上增加一个新的注意力机制网络(MaskAttention Network,MAN)，同时增加了注意力修正策略。

如图1所示为本发明实施例中第二子系统和姿态估计模块构成的网络结构，主体部分和人体姿态估计模型SimpleBaseline一致，都采用ResNet-50作为backbone(支柱)，从左侧数，前四个模块是一系列卷积层，用于特征提取，按照顺序依次视为DS₁、DS₂、DS₃、DS₄；第五至第十一个模块是一系列反卷积层，用于高分辨率恢复，其中第五和第六模块构成一个反卷积单元，第五模块为该单元的输入层、第六模块为该单元的输出层，对应的第七和第八模块、第九和第十模块分别构成一个反卷积单元，按照顺序依次记为UP₁、UP₂、UP₃；第十一个模块是模型的总输出作为输入图像的姿态估计结果进行输出。反卷积单元的输入层和输出层之间设置有注意力机制网络，该网络接受三部分输入，包括第一数据、第二数据、第三数据，第一数据为输入层反卷积处理后的数据；所述第二数据为对称的卷积层的输出；所述第三数据为所述第一注意力热图。

本实施例增加的MAN模块整体呈现残差结构，如图2所示，通过该模块对输入数据的处理方法包括：

将第一数据UP_4-i、第二数据DS_i的特征图分别通过一个卷积层，并将卷积后的结果和第三数据(通过第一子系统得到的注意力热图，Mask Recalibrate)加权相加，得到第四数据；

将第四数据和第一数据UP_4-i相乘得到一个残差结果，作为第五数据；所述第五数据为修正后的注意力热图；

将第五数据和第一数据UP_4-i相加作为MAN模块的输出。

本实施例中的姿态估计模块可以采用人体姿态估计模型SimpleBaseline中的姿态估计模块相同的网络结构，此处不再赘述。

上文描述了本发明一种实施例的基于卷积神经网络的灵长类动物姿态估计系统，下面再从图像采集装置、训练数据的获取两方面进一步的说明。

1、图像采集装置

用于图像采集的摄像头拍摄装置，可以稳定地固定在铁笼上拍摄，且可以保护摄像头不被灵长类动物(猴子)接触到。

由于灵长类动物动作较灵活，所以需要将其放置在铁质的笼子里面，同时由于笼子空间有限，需要使用微型摄像头进行拍摄，且保证摄像头不能被猴子接触到，以保证拍摄质量。基于这些要求，设计了一个适用于灵长类动物姿态数据采集的拍摄装置。首先制作一个可以放置正方体微型摄像头(38mm*38mm*40mm)的长方体柱(40mm*44mm*250mm)，在长方体柱的末端开一个圆形孔保证摄像头可以完全拍摄到笼子中的动物且不受任何遮挡；其次需要将该长方体柱焊接在一块铁板上，该铁板上开四个螺丝孔，以便于可以使用螺丝将其固定在铁质笼子上。图3中的(a)的左图是该装置实物图，图3中的(b)是固定好拍摄装置后的拍摄场地，图3中的(c)是使用该固定装置中摄像头拍摄出来的效果图。

2、训练数据的获取

使用上述的图像采集装置对不同性别、品种、年龄的笼中猴子进行日常行为的视频数据采集，并对采集到的视频数据进行预处理以及标注。

(1)视频数据采集

将该装置固定在铁质笼子之后，定期更换笼子中的猴子，年龄段包含青年、中年以及老年；性别包含雄和雌；品种包含恒河猴和食蟹猴，拍摄总时长约为2个月。

(2)视频数据预处理以及标注

在得到灵长类动物日常行为的原始视频数据之后：

首先手动删除视频中光线较差等低质量的视频片段(如阴天和晚上的视频场景)；也可以采用计算机方法，对所采集到的包含动物动作的视频片段，基于视频片段中视频帧的平均亮度，删除大于第一预设亮度阈值的视频片段、删除小于第二预设亮度阈值的视频片段，实现对亮度较高、亮度较低场景视频片段的删除。

其次将拍摄得到视频进行转码，从.TS格式转为.MP4格式(.TS占空间小但信息损失较多)；对转码之后的视频进行相似帧过滤得到待标注的视频帧，即对所采集到的包含动物动作的视频片段，基于连续帧之间的光流图，删除光流差值小于设定阈值的视频帧。

使用labelme软件(麻省理工(MIT)的计算机科学和人工智能实验室(CSAIL)研发的图像标注工具)进行关键点的标注，标注格式和公开数据集COCO(微软发布的一个大型图像数据集,专为对象检测、分割、人体关键点检测、语义分割和字幕生成而设计)保持一致。对保留下来的视频帧进行随机背景更换，例如将视频帧的背景更换为COCO数据集中的图像，得到随机背景数据增强后的训练样本。

本发明一种实施例的基于卷积神经网络的灵长类动物姿态估计方法，基于上述的基于卷积神经网络的灵长类动物姿态估计系统，包括以下步骤：

获取输入图像；该输入图像为包含被识别灵长类动物的图片；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的方法的具体工作过程及有关说明，可以参考前述系统实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于卷积神经网络的灵长类动物姿态估计系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的基于卷积神经网络的灵长类动物姿态估计方法。

本发明第四实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于卷积神经网络的灵长类动物姿态估计方法。。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的灵长类动物姿态估计系统，其特征在于，该系统包括第一子系统、第二子系统、姿态估计模块；

2.根据权利要求1所述的基于卷积神经网络的灵长类动物姿态估计系统，其特征在于，所述第二子系统包括残差网络、反卷积网络、多个注意力机制网络；

所述注意力机制网络输入数据包括第一数据、第二数据、第三数据；所述第一数据为输入层反卷积处理后的数据；所述第二数据为对应的卷积层的输出；所述第三数据为所述第一注意力热图。

3.根据权利要求2所述的基于卷积神经网络的灵长类动物姿态估计系统，其特征在于，所述第一子系统和所述第二子系统网络结构相同，所述第一子系统中注意力机制网络输入的第三数据为全0二值图。

4.根据权利要求2或3所述的基于卷积神经网络的灵长类动物姿态估计系统，其特征在于，所述残差网络为ResNet-50。

5.根据权利要求2或3所述的基于卷积神经网络的灵长类动物姿态估计系统，其特征在于，所述注意力机制网络，配置为：

将所述第四数据和所述第一数据相乘得到一个残差结果，作为第五数据；所述第五数据为修正后的注意力热图；

6.根据权利要求1所述的基于卷积神经网络的灵长类动物姿态估计系统，其特征在于，其训练样本的获取方法为：

对保留下的视频帧进行姿态标注，得到训练样本。

7.根据权利要求6所述的基于卷积神经网络的灵长类动物姿态估计系统，其特征在于，“对保留下的视频帧进行姿态标注，得到训练样本”，其方法为：

8.根据权利要求6所述的基于卷积神经网络的灵长类动物姿态估计系统，其特征在于，所述训练样本的获取过程中，在基于连续帧之间的光流图删除光流小于设定阈值的视频帧之前，还包括：

9.一种基于卷积神经网络的灵长类动物姿态估计方法，其特征在于，基于权利要求1-8任一项所述的基于卷积神经网络的灵长类动物姿态估计系统，包括以下步骤：

获取输入图像；

10.一种设备，其特征在于，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求9所述的基于卷积神经网络的灵长类动物姿态估计方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求9所述的基于卷积神经网络的灵长类动物姿态估计方法。