CN113011402B - 基于卷积神经网络的灵长类动物姿态估计系统、方法 - Google Patents

基于卷积神经网络的灵长类动物姿态估计系统、方法 Download PDF

Info

Publication number
CN113011402B
CN113011402B CN202110480235.5A CN202110480235A CN113011402B CN 113011402 B CN113011402 B CN 113011402B CN 202110480235 A CN202110480235 A CN 202110480235A CN 113011402 B CN113011402 B CN 113011402B
Authority
CN
China
Prior art keywords
data
network
primate
subsystem
deconvolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110480235.5A
Other languages
English (en)
Other versions
CN113011402A (zh
Inventor
马喜波
孙峥
周兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110480235.5A priority Critical patent/CN113011402B/zh
Publication of CN113011402A publication Critical patent/CN113011402A/zh
Application granted granted Critical
Publication of CN113011402B publication Critical patent/CN113011402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,具体涉及了一种基于卷积神经网络的灵长类动物姿态估计系统、方法,旨在解决灵长类动物的姿态估计中关键点定位精确度不能满足需求的问题。该系统包括第一子系统、第二子系统、姿态估计模块;第一子系统,配置为基于输入图像的二值图生成第一注意力热图;第二子系统,配置为以所述第一注意力热图为修正信息,获取所述输入图像的第二注意力热图;姿态估计模块,配置为基于所述第二注意力热图获取动物姿态估计信息。本发明的灵长类动物的姿态估计关键点定位的精度得到提高。

Description

基于卷积神经网络的灵长类动物姿态估计系统、方法
背景技术
灵长类动物姿态估计是一个新型的研究方向。通过建立灵长类动物姿态估计数据集,利用一系列深度学习方法进行训练,训练好的模型可以预测特定场景下的灵长类动物的姿态(如笼子当中)。通过检测到的灵长类动物姿态信息,可以有效判断其当前的行为以及精神状态,在新型药物评估领域有很高的应用价值。
近些年动物姿态估计方法主要包括两大类:一是直接使用人体姿态估计深度学习方法进行马、老虎等体型比较固定的动物的姿态估计;二是使用人体姿态向动物姿态进行知识迁移的方式。。人体姿态向动物姿态的迁移主要采用Domain Adaptation(领域自适应)的方法,其中的两种方法为WS-CDA方法、CCSSL方法。WS-CDA方法,在“Mu J,Qiu W,Hager GD,et al.Learning from synthetic animals[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2020:12386-12395.”中有详细介绍,该方法将人体姿态数据和动物姿态数据同时输入到同一个网络(共享权重),在网络的上采样阶段分为两个分支,一个用于计算分类损失,一个用于计算姿态估计损失,两个损失相互对抗,起到拉近人体姿态域和动物姿态域之间距离的作用。CCSSL方法,在“CaoJ,Tang H,Fang H S,et al.Cross-domain adaptation for animal pose estimation[C]//Proceedings of the IEEE/CVF International Conference on ComputerVision.2019:9498-9507.”中有详细介绍,训练CG(Computer Graphics,计算机图形)动物合成数据得到初始化模型,然后使用该模型来预测真实场景动物的姿态作为伪标签。用伪标签的一部分和合成数据进行联合训练得到新的模型,再以此模型为基础来预测真实场景动物的姿态标签,重复上述流程进行迭代训练。灵长类动物较灵活,不像CCSSL方法中马等动物关键点较固定,且灵长类动物姿态估计没有一个合适的数据集(如灵长类动物在笼子当中的日常行为数据)。
在灵长类动物的姿态估计方法中,关键点定位的精度、姿态估计的准确度不能满足当下研究和应用的需求,有待进一步提高。
发明内容
为了解决现有技术中的上述问题,即灵长类动物的姿态估计中关键点定位精确度不能满足需求的问题,本发明提供了一种基于卷积神经网络的灵长类动物姿态估计系统,该系统包括第一子系统、第二子系统、姿态估计模块;
所述第一子系统,配置为基于输入图像的二值图生成第一注意力热图;
所述第二子系统,配置为以所述第一注意力热图为修正信息,获取所述输入图像的第二注意力热图;
所述姿态估计模块,配置为基于所述第二注意力热图获取动物姿态估计信息。
在一些优选实施例中,所述第二子系统包括残差网络、反卷积网络、多个注意力机制网络;
所述残差网络包括多个卷积层;所述反卷积网络包括多个反卷积单元;顺次连接的多个卷积层和多个反卷积单元关于中间卷积层对称设置;所述中间卷积层为所述残差网络中与反卷积网络直接连接的卷积层;
所述反卷积单元包括两个相同大小的反卷积层,分别作为输入层、输出层,所述注意力机制网络设置于所述输入层和所述输出层之间;
所述注意力机制网络输入数据包括第一数据、第二数据、第三数据;所述第一数据为输入层反卷积处理后的数据;所述第二数据为对称的卷积层的输出;所述第三数据为所述第一注意力热图。
在一些优选实施例中,所述第一子系统和所述第二子系统网络结构相同,所述第一子系统中注意力机制网络输入的第三数据为全0二值图。
在一些优选实施例中,所述残差网络为ResNet-50。
在一些优选实施例中,所述注意力机制网络,配置为:
将所述第一数据、所述第二数据分别通过一个卷积层,并将卷积后的结果和所述第三数据加权相加,得到第四数据;
将所述第四数据和所述第一数据相乘得到一个残差结果,作为第五数据;
将所述第五数据和所述第一数据相加,作为当前注意力机制网络的输出。
在一些优选实施例中,其训练样本的获取方法为:
对所采集到的包含动物动作的视频片段,基于连续帧之间的光流图,删除光流小于设定阈值的视频帧;
对保留下的视频帧进行姿态标注,得到训练样本。
在一些优选实施例中,“对保留下的视频帧进行姿态标注,得到训练样本”,其方法为:
基于预设的图像数据集,对所述保留下来的视频帧进行随机背景更换,得到训练样本。
在一些优选实施例中,所述训练样本的获取过程中,在基于连续帧之间的光流图删除光流小于设定阈值的视频帧之前,还包括:
对所采集到的包含动物动作的视频片段,基于视频片段中视频帧的平均亮度,删除大于第一预设亮度阈值的视频片段、删除小于第二预设亮度阈值的视频片段。
本发明的第二方面,提出了一种基于卷积神经网络的灵长类动物姿态估计方法,基于所述的基于卷积神经网络的灵长类动物姿态估计系统,包括以下步骤:
获取输入图像;
获取所述输入图像的二值化掩模图像,基于所述第一子系统获取第一注意力热图;
对所述输入图像,以所述第一注意力热图为修正信息,通过所述第二子系统获取第二注意力热图;
基于所述第二注意力热图,通过所述姿态估计模块获取动物姿态估计信息。
本发明的第三方面,提出了一种设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现所述的基于卷积神经网络的灵长类动物姿态估计方法。
本发明的第四方面,提出了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现所述的基于卷积神经网络的灵长类动物姿态估计方法。
本发明的有益效果:
本发明通过所述第一子系统生成的第一注意力热图,对输入图像注意力热图生成过程进行修正,得到基于修正信息的第二注意力热图,基于该注意力热图,姿态估计模块中在进行姿态估计之前的关键点定位的精度得到提高。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明一种实施例的基于卷积神经网络的灵长类动物姿态估计系统结构示意图;
图2是本发明一种实施例中注意力机制网络结构示意图;
图3是本发明拍摄装置及效果示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于卷积神经网络的灵长类动物姿态估计系统,该系统包括第一子系统、第二子系统、姿态估计模块;
所述第一子系统,配置为基于输入图像的二值图生成第一注意力热图;
所述第二子系统,配置为以所述第一注意力热图为修正信息,获取所述输入图像的第二注意力热图;
所述姿态估计模块,配置为基于所述第二注意力热图获取动物姿态估计信息。
为了更清晰地对本发明进行说明,下面结合附图对本发明实施例展开详述。
本发明实施例的基于卷积神经网络的灵长类动物姿态估计系统,包括第一子系统、第二子系统、姿态估计模块。第一子系统,配置为基于输入图像的二值图生成第一注意力热图;第二子系统,配置为以所述第一注意力热图为修正信息,获取所述输入图像的第二注意力热图;姿态估计模块,配置为基于所述第二注意力热图获取动物姿态估计信息。
本实施例中,优选的第一子系统和第二子系统采用相同的网络结构。为了避免重复冗余的描述,此处仅对第二子系统的网络结构进行详细说明,第二子系统具体包括残差网络、反卷积网络、多个注意力机制网络。
残差网络包括多个卷积层;所述反卷积网络包括多个反卷积单元;顺次连接的多个卷积层和多个反卷积单元关于中间卷积层对称设置;所述中间卷积层为所述残差网络中与反卷积网络直接连接的卷积层。
反卷积单元包括两个相同大小的反卷积层,分别作为输入层、输出层,所述注意力机制网络设置于所述输入层和所述输出层之间。
注意力机制网络输入数据包括第一数据、第二数据、第三数据;所述第一数据为输入层反卷积处理后的数据;所述第二数据为对称的卷积层的输出;所述第三数据为所述第一注意力热图。
第一子系统中注意力机制网络输入的第三数据为全0二值图,相当于第一子系统中注意力机制网络输入的数据仅包括第一数据、第二数据,不包含第三数据,也即第一子系统中注意力机制网络输入信息不含注意力热图修正信息。
本实施例中,第二子系统和姿态估计模块构成的网络结构,相当于人体姿态估计模型SimpleBaseline(简易基准模型)的框架上增加一个新的注意力机制网络(MaskAttention Network,MAN),同时增加了注意力修正策略。
如图1所示为本发明实施例中第二子系统和姿态估计模块构成的网络结构,主体部分和人体姿态估计模型SimpleBaseline一致,都采用ResNet-50作为backbone(支柱),从左侧数,前四个模块是一系列卷积层,用于特征提取,按照顺序依次视为DS1、DS2、DS3、DS4;第五至第十一个模块是一系列反卷积层,用于高分辨率恢复,其中第五和第六模块构成一个反卷积单元,第五模块为该单元的输入层、第六模块为该单元的输出层,对应的第七和第八模块、第九和第十模块分别构成一个反卷积单元,按照顺序依次记为UP1、UP2、UP3;第十一个模块是模型的总输出作为输入图像的姿态估计结果进行输出。反卷积单元的输入层和输出层之间设置有注意力机制网络,该网络接受三部分输入,包括第一数据、第二数据、第三数据,第一数据为输入层反卷积处理后的数据;所述第二数据为对称的卷积层的输出;所述第三数据为所述第一注意力热图。
本实施例增加的MAN模块整体呈现残差结构,如图2所示,通过该模块对输入数据的处理方法包括:
将第一数据UP4-i、第二数据DSi的特征图分别通过一个卷积层,并将卷积后的结果和第三数据(通过第一子系统得到的注意力热图,Mask Recalibrate)加权相加,得到第四数据;
将第四数据和第一数据UP4-i相乘得到一个残差结果,作为第五数据;所述第五数据为修正后的注意力热图;
将第五数据和第一数据UP4-i相加作为MAN模块的输出。
本实施例中的姿态估计模块可以采用人体姿态估计模型SimpleBaseline中的姿态估计模块相同的网络结构,此处不再赘述。
上文描述了本发明一种实施例的基于卷积神经网络的灵长类动物姿态估计系统,下面再从图像采集装置、训练数据的获取两方面进一步的说明。
1、图像采集装置
用于图像采集的摄像头拍摄装置,可以稳定地固定在铁笼上拍摄,且可以保护摄像头不被灵长类动物(猴子)接触到。
由于灵长类动物动作较灵活,所以需要将其放置在铁质的笼子里面,同时由于笼子空间有限,需要使用微型摄像头进行拍摄,且保证摄像头不能被猴子接触到,以保证拍摄质量。基于这些要求,设计了一个适用于灵长类动物姿态数据采集的拍摄装置。首先制作一个可以放置正方体微型摄像头(38mm*38mm*40mm)的长方体柱(40mm*44mm*250mm),在长方体柱的末端开一个圆形孔保证摄像头可以完全拍摄到笼子中的动物且不受任何遮挡;其次需要将该长方体柱焊接在一块铁板上,该铁板上开四个螺丝孔,以便于可以使用螺丝将其固定在铁质笼子上。图3中的(a)的左图是该装置实物图,图3中的(b)是固定好拍摄装置后的拍摄场地,图3中的(c)是使用该固定装置中摄像头拍摄出来的效果图。
2、训练数据的获取
使用上述的图像采集装置对不同性别、品种、年龄的笼中猴子进行日常行为的视频数据采集,并对采集到的视频数据进行预处理以及标注。
(1)视频数据采集
将该装置固定在铁质笼子之后,定期更换笼子中的猴子,年龄段包含青年、中年以及老年;性别包含雄和雌;品种包含恒河猴和食蟹猴,拍摄总时长约为2个月。
(2)视频数据预处理以及标注
在得到灵长类动物日常行为的原始视频数据之后:
首先手动删除视频中光线较差等低质量的视频片段(如阴天和晚上的视频场景);也可以采用计算机方法,对所采集到的包含动物动作的视频片段,基于视频片段中视频帧的平均亮度,删除大于第一预设亮度阈值的视频片段、删除小于第二预设亮度阈值的视频片段,实现对亮度较高、亮度较低场景视频片段的删除。
其次将拍摄得到视频进行转码,从.TS格式转为.MP4格式(.TS占空间小但信息损失较多);对转码之后的视频进行相似帧过滤得到待标注的视频帧,即对所采集到的包含动物动作的视频片段,基于连续帧之间的光流图,删除光流差值小于设定阈值的视频帧。
使用labelme软件(麻省理工(MIT)的计算机科学和人工智能实验室(CSAIL)研发的图像标注工具)进行关键点的标注,标注格式和公开数据集COCO(微软发布的一个大型图像数据集,专为对象检测、分割、人体关键点检测、语义分割和字幕生成而设计)保持一致。对保留下来的视频帧进行随机背景更换,例如将视频帧的背景更换为COCO数据集中的图像,得到随机背景数据增强后的训练样本。
本发明一种实施例的基于卷积神经网络的灵长类动物姿态估计方法,基于上述的基于卷积神经网络的灵长类动物姿态估计系统,包括以下步骤:
获取输入图像;该输入图像为包含被识别灵长类动物的图片;
获取所述输入图像的二值化掩模图像,基于所述第一子系统获取第一注意力热图;
对所述输入图像,以所述第一注意力热图为修正信息,通过所述第二子系统获取第二注意力热图;
基于所述第二注意力热图,通过所述姿态估计模块获取动物姿态估计信息。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的方法的具体工作过程及有关说明,可以参考前述系统实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于卷积神经网络的灵长类动物姿态估计系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于卷积神经网络的灵长类动物姿态估计方法。
本发明第四实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于卷积神经网络的灵长类动物姿态估计方法。。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种基于卷积神经网络的灵长类动物姿态估计系统,其特征在于,该系统包括第一子系统、第二子系统、姿态估计模块;
所述第一子系统,配置为基于输入图像的二值图生成第一注意力热图;
所述第二子系统,配置为以所述第一注意力热图为修正信息,获取输入图像的第二注意力热图;
所述第二子系统包括残差网络、反卷积网络、多个注意力机制网络;
所述残差网络包括多个卷积层;所述反卷积网络包括多个反卷积单元;顺次连接的多个卷积层和多个反卷积单元关于中间卷积层对称设置;所述中间卷积层为所述残差网络中与反卷积网络直接连接的卷积层;
所述反卷积单元包括两个相同大小的反卷积层,分别作为输入层、输出层,所述注意力机制网络设置于所述输入层和所述输出层之间;
所述注意力机制网络输入数据包括第一数据、第二数据、第三数据;所述第一数据为输入层反卷积处理后的数据;所述第二数据为对应的卷积层的输出;所述第三数据为所述第一注意力热图;
所述注意力机制网络,配置为:将所述第一数据、所述第二数据分别通过一个卷积层,并将卷积后的结果和所述第三数据加权相加,得到第四数据;
将所述第四数据和所述第一数据相乘得到一个残差结果,作为第五数据;所述第五数据为修正后的注意力热图;
将所述第五数据和所述第一数据相加,作为当前注意力机制网络的输出;
所述姿态估计模块,配置为基于所述第二注意力热图获取动物姿态估计信息。
2.根据权利要求1所述的基于卷积神经网络的灵长类动物姿态估计系统,其特征在于,所述第一子系统和所述第二子系统网络结构相同,所述第一子系统中注意力机制网络输入的第三数据为全0二值图。
3.根据权利要求1所述的基于卷积神经网络的灵长类动物姿态估计系统,其特征在于,所述残差网络为ResNet-50。
4.根据权利要求1所述的基于卷积神经网络的灵长类动物姿态估计系统,其特征在于,其训练样本的获取方法为:
对所采集到的包含动物动作的视频片段,基于连续帧之间的光流图,删除光流小于设定阈值的视频帧;
对保留下的视频帧进行姿态标注,得到训练样本。
5.根据权利要求4所述的基于卷积神经网络的灵长类动物姿态估计系统,其特征在于,“对保留下的视频帧进行姿态标注,得到训练样本”,其方法为:
基于预设的图像数据集,对所述保留下来的视频帧进行随机背景更换,得到训练样本。
6.根据权利要求4所述的基于卷积神经网络的灵长类动物姿态估计系统,其特征在于,所述训练样本的获取过程中,在基于连续帧之间的光流图删除光流小于设定阈值的视频帧之前,还包括:
对所采集到的包含动物动作的视频片段,基于视频片段中视频帧的平均亮度,删除大于第一预设亮度阈值的视频片段、删除小于第二预设亮度阈值的视频片段。
7.一种基于卷积神经网络的灵长类动物姿态估计方法,其特征在于,基于权利要求1-6任一项所述的基于卷积神经网络的灵长类动物姿态估计系统,包括以下步骤:
获取输入图像;
获取所述输入图像的二值化掩模图像,基于所述第一子系统获取第一注意力热图;
对所述输入图像,以所述第一注意力热图为修正信息,通过所述第二子系统获取第二注意力热图;
所述第二子系统包括残差网络、反卷积网络、多个注意力机制网络;
所述残差网络包括多个卷积层;所述反卷积网络包括多个反卷积单元;顺次连接的多个卷积层和多个反卷积单元关于中间卷积层对称设置;所述中间卷积层为所述残差网络中与反卷积网络直接连接的卷积层;
所述反卷积单元包括两个相同大小的反卷积层,分别作为输入层、输出层,所述注意力机制网络设置于所述输入层和所述输出层之间;
所述注意力机制网络输入数据包括第一数据、第二数据、第三数据;所述第一数据为输入层反卷积处理后的数据;所述第二数据为对应的卷积层的输出;所述第三数据为所述第一注意力热图;
所述注意力机制网络,配置为:将所述第一数据、所述第二数据分别通过一个卷积层,并将卷积后的结果和所述第三数据加权相加,得到第四数据;
将所述第四数据和所述第一数据相乘得到一个残差结果,作为第五数据;所述第五数据为修正后的注意力热图;
将所述第五数据和所述第一数据相加,作为当前注意力机制网络的输出;
基于所述第二注意力热图,通过所述姿态估计模块获取动物姿态估计信息。
8.一种设备,其特征在于,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求7所述的基于卷积神经网络的灵长类动物姿态估计方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现权利要求7所述的基于卷积神经网络的灵长类动物姿态估计方法。
CN202110480235.5A 2021-04-30 2021-04-30 基于卷积神经网络的灵长类动物姿态估计系统、方法 Active CN113011402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110480235.5A CN113011402B (zh) 2021-04-30 2021-04-30 基于卷积神经网络的灵长类动物姿态估计系统、方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110480235.5A CN113011402B (zh) 2021-04-30 2021-04-30 基于卷积神经网络的灵长类动物姿态估计系统、方法

Publications (2)

Publication Number Publication Date
CN113011402A CN113011402A (zh) 2021-06-22
CN113011402B true CN113011402B (zh) 2023-04-25

Family

ID=76380507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110480235.5A Active CN113011402B (zh) 2021-04-30 2021-04-30 基于卷积神经网络的灵长类动物姿态估计系统、方法

Country Status (1)

Country Link
CN (1) CN113011402B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887447A (zh) * 2021-10-08 2022-01-04 中国科学院半导体研究所 对象分类模型的训练方法、对象分类预测方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583097A (zh) * 2019-02-18 2020-08-25 北京三星通信技术研究有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN111191622B (zh) * 2020-01-03 2023-05-26 华南师范大学 基于热力图和偏移向量的姿态识别方法、系统及存储介质
CN111339903B (zh) * 2020-02-21 2022-02-08 河北工业大学 一种多人人体姿态估计方法
CN112597955B (zh) * 2020-12-30 2023-06-02 华侨大学 一种基于特征金字塔网络的单阶段多人姿态估计方法

Also Published As

Publication number Publication date
CN113011402A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
Zhang et al. Pyramid channel-based feature attention network for image dehazing
Li et al. Single image reflection removal through cascaded refinement
CN109165573B (zh) 用于提取视频特征向量的方法和装置
WO2021048607A1 (en) Motion deblurring using neural network architectures
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN111539290B (zh) 视频动作识别方法、装置、电子设备及存储介质
CN112818955B (zh) 一种图像分割方法、装置、计算机设备以及存储介质
CN112418195B (zh) 一种人脸关键点检测方法、装置、电子设备及存储介质
CN113011402B (zh) 基于卷积神经网络的灵长类动物姿态估计系统、方法
Zhang et al. DPANet: dual pooling‐aggregated attention network for fish segmentation
CN111161090A (zh) 圈养栏信息的确定方法、装置及系统、存储介质
CN115294483A (zh) 输电线路复杂场景的小目标识别方法及系统
Xie et al. Recognition of big mammal species in airborne thermal imaging based on YOLO V5 algorithm
Ray et al. Argos: A toolkit for tracking multiple animals in complex visual environments
CN113191183A (zh) 人员重新识别中的无监督域纠正伪标签方法及装置
Bergum et al. Automatic in-situ instance and semantic segmentation of planktonic organisms using Mask R-CNN
Zhang et al. Msgnet: multi-source guidance network for fish segmentation in underwater videos
CN115358952A (zh) 一种基于元学习的图像增强方法、系统、设备和存储介质
Kim et al. Raindrop-aware GAN: Unsupervised learning for raindrop-contaminated coastal video enhancement
Ghadiri Implementation of an automated image processing system for observing the activities of honey bees
Zhu et al. Application research on improved CGAN in image raindrop removal
Blowers et al. Automated identification of fish and other aquatic life in underwater video
Kumar et al. A Comprehensive Review of Deep Learning Approaches for Animal Detection on Video Data.
Kim Lifelong Learning Architecture of Video Surveillance System
Iwamasa et al. Network feature-based phenotyping of leaf venation robustly reconstructs the latent space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant