CN115661860A - 一种狗行为动作识别技术的方法、装置、系统及存储介质 - Google Patents

一种狗行为动作识别技术的方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN115661860A
CN115661860A CN202211289182.XA CN202211289182A CN115661860A CN 115661860 A CN115661860 A CN 115661860A CN 202211289182 A CN202211289182 A CN 202211289182A CN 115661860 A CN115661860 A CN 115661860A
Authority
CN
China
Prior art keywords
dog
frame
detection
behavior
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211289182.XA
Other languages
English (en)
Inventor
宋程
刘保国
胡金有
吴浩
梁开岩
郭玮鹏
李海
巩京京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xingchong Kingdom Beijing Technology Co ltd
Original Assignee
Xingchong Kingdom Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xingchong Kingdom Beijing Technology Co ltd filed Critical Xingchong Kingdom Beijing Technology Co ltd
Priority to CN202211289182.XA priority Critical patent/CN115661860A/zh
Publication of CN115661860A publication Critical patent/CN115661860A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了狗行为动作识别技术的方法、装置、系统及存储介质,通过获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片,对目标图片进行特征提取得到特征数据构建网络模型并训练网络模型,优化训练得到数据集,将数据集输入预先训练好的深度神经网络得到预训练模型,对视频帧图像预处理后输入预训练模型得到检测图像,获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类,有效提高了狗行为识别的准确率和检测精度。

Description

一种狗行为动作识别技术的方法、装置、系统及存储介质
技术领域
本发明属于动物行为识别技术领域,尤其涉及一种狗行为动作识别技术的方法、装置、系统及存储介质。
背景技术
近年来,随着宠物狗数量增多,流浪狗的数量也迅速增长,若不对其进行合适的管理,会带来扰乱秩序、影响卫生甚至携带一些病毒等问题,对市民的正常生活秩序带来不必要的麻烦。宠物狗越来越受到人们的欢迎,宠物市场的数据化也是未来发展的趋势,将宠物狗识别技术引入市场管理中可以通过市区监控区分城市中出现的烈性犬和宠物狗,及时通知有关部门对烈性犬进行处理,也可以通过市区监控识别宠物狗是否有牵绳,对不牵狗绳的宠物狗进行相关处理。狗行为动作识别技术采用传统的目标检测算法进行特征提取需要任务提取特征信息,传统算法将输入图片分为不同大小网格,再判断网格中是否包含物体并对目标分类,由于该算法太过于繁琐,检测速度不高,导致实际可行性较差,特征提取和分类训练是分离开的,若人工提取的特征出现缺失,则丢失的这些特征信息就很难恢复,给检测结果带来不良影响。
发明内容
有鉴于此,本发明提供了一种加深网络模型的主干提取特征网络的深度、引入注意力机制和多尺度融合来提取不同特征、提升狗的检测与识别精确度和检测效率的狗行为动作识别技术的方法、装置、系统及存储介质,具体采用以下技术方案来识别。
第一方面,本发明提供了一种狗行为动作识别技术的方法,包括以下步骤:
获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片;
对目标图片进行特征提取得到特征数据,根据特征数据构建网络模型并训练网络 模型,对该网络模型进行优化训练得到数据集,其中,网络模型优化训练包括权值剪枝和卷 积核剪枝,根据卷积核权值的绝对值大小评估特征数据对应的特征图的
Figure DEST_PATH_IMAGE001
重要性,卷积 核剪枝过程为:对卷积层L的第i个卷积核计算其权重的绝对值之和的表达式为
Figure 4252DEST_PATH_IMAGE002
,根据
Figure DEST_PATH_IMAGE003
的大小进行排序,将
Figure 569226DEST_PATH_IMAGE003
最小的卷积核及其对应的特征图剪 掉,同时使得
Figure 874305DEST_PATH_IMAGE004
卷积层中与剪掉的特征图相关的卷积核也会剪掉;
将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,其中,预训练模型包括轻量化狗检测模型和行为识别模型;
获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类。
作为上述技术方案的进一步改进,根据
Figure 5072DEST_PATH_IMAGE003
的大小进行排序,将
Figure 347192DEST_PATH_IMAGE003
最小的卷积核及 其对应的特征图剪掉,包括:
采用YOLOv3网络模型输出不同尺度的特征图,输出的预测框包括边界框参数、置信度和类别概率,通过非极大值抑制去掉多余的边界框得到预测结果;
网络模型的每个网格预测边界框的四个坐标分别为
Figure DEST_PATH_IMAGE005
Figure 789674DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure 508232DEST_PATH_IMAGE008
,预设特征 图的左上角为坐标原点,单元格坐标为
Figure DEST_PATH_IMAGE009
,先验框宽度和高度为
Figure 86981DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
,则预测 框的计算表达式为
Figure 193477DEST_PATH_IMAGE012
,其中
Figure DEST_PATH_IMAGE013
表示检测框中心坐标,
Figure 326518DEST_PATH_IMAGE014
表示将
Figure 645504DEST_PATH_IMAGE005
Figure 688546DEST_PATH_IMAGE006
归一化到
Figure DEST_PATH_IMAGE015
Figure 28261DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
表示检测框的宽和高。
作为上述技术方案的进一步改进,通过非极大值抑制去掉多余的边界框得到预测结果,包括:
通过特征提取网络先输出32、16、8倍降采样的特征图,再对先验框进行修正得到预测框,每个先验框对应的信息包括预测框的宽、高、中心点横坐标、中心点纵坐标、属于目标的分类信息和置信度;
模型训练时,将多个先验框到的IOU值进行比较,IOU值最大的先验框用于预测目 标而生成的预测框的置信度为1,预设一个
Figure 789543DEST_PATH_IMAGE018
的特征图,根据与该特 征图对应的先验框的宽
Figure 974537DEST_PATH_IMAGE010
、高
Figure DEST_PATH_IMAGE019
生成预测框的置信度表达式为
Figure 137665DEST_PATH_IMAGE020
,特征图中位置
Figure DEST_PATH_IMAGE021
与宽
Figure 851543DEST_PATH_IMAGE010
、高
Figure 162439DEST_PATH_IMAGE019
的先验框对应的
Figure 885544DEST_PATH_IMAGE022
个特征值为式中的
Figure DEST_PATH_IMAGE023
Figure 168758DEST_PATH_IMAGE024
Figure 584696DEST_PATH_IMAGE007
Figure 320571DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE025
Figure 378525DEST_PATH_IMAGE016
Figure 985087DEST_PATH_IMAGE026
表示预测框的 宽高,
Figure DEST_PATH_IMAGE027
表示预测框的置信度,预测框属于某个类别的概率为
Figure 103085DEST_PATH_IMAGE028
非极大值用于将最高分的检测框加入检测结果的集合中,每个目标物体附近存在 多个置信度高的检测框,通过计算每次加入集合的检测框和剩余最高分检测框的IOU值,若 IOU值大于设定的阈值,则丢掉该低分框,保存高分的检测框,IOU值的计算表达式为
Figure DEST_PATH_IMAGE029
,其中
Figure 654152DEST_PATH_IMAGE030
表示两个检测框
Figure DEST_PATH_IMAGE031
Figure 125584DEST_PATH_IMAGE032
之间交集部 分面积,
Figure 976866DEST_PATH_IMAGE030
表示两个检测框
Figure 672289DEST_PATH_IMAGE031
Figure 117177DEST_PATH_IMAGE032
之间并集部分面积。
作为上述技术方案的进一步改进,采用分类器进行行为数据特征的分类,包括:
将提取的每一帧分别输入至深度神经网络做特征提取,在深度神经网络中的每一个残差模块中引入时移模块作用在第一层卷积层后,在深度神经网络中加入注意力层,将提取到的特征进行融合分类;
时移模块通过时间维度移动提取到的特征图来实现高效的时间建模,在时间任务 建模中一个输入特征表示为
Figure DEST_PATH_IMAGE033
,其中
Figure 454618DEST_PATH_IMAGE034
分别 表示批大小、通道数、时间维度、宽度和高度,时移模块沿着时间维度将前一帧和后一帧的 不同信息与当前信息融合到一起,以弥补时间信息缺失的功能;
时移模块操作包括位移和权值叠加,预设在输入为一维向量X时,经过卷积核大小 为
Figure DEST_PATH_IMAGE035
的卷积层
Figure 691564DEST_PATH_IMAGE036
,其输出的表达式为
Figure 292309DEST_PATH_IMAGE037
,其中
Figure DEST_PATH_IMAGE038
是卷积的权重,位移操 作的表达式为
Figure 817969DEST_PATH_IMAGE039
,权值叠加操作的表达式为
Figure DEST_PATH_IMAGE040
加入注意力模型将输入特征图进行批量归一化,并将输入特征图和权重因子相乘 经过sigmoid激活函数与输入特征作融合得到狗具体行为特征,预设输入特征图为G,注意 力图为M,其输出表达式为
Figure 365625DEST_PATH_IMAGE041
,其中
Figure DEST_PATH_IMAGE042
表示矩阵乘法,注意力图计算表 达式为
Figure 722657DEST_PATH_IMAGE043
,其中
Figure 431987DEST_PATH_IMAGE044
表示mini-batch的均值,
Figure 913784DEST_PATH_IMAGE045
表示 mini-batch的方差,
Figure DEST_PATH_IMAGE046
表示数值小的常数用于数值稳定,
Figure 593027DEST_PATH_IMAGE047
Figure 211090DEST_PATH_IMAGE048
表示待学习参数,BN为批量 归一化。
作为上述技术方案的进一步改进,深度神经网络的损失函数对模型进行检测,损 失函数包括三个部分,第一部分是真实坐标和预测坐标的损失值ALOSS,表达式为
Figure DEST_PATH_IMAGE049
,其中
Figure 747113DEST_PATH_IMAGE050
表示坐标预测的权重系数,
Figure DEST_PATH_IMAGE051
表示检测框的多个尺度,C表示每个Anchor生成检测框的数 量,
Figure 653889DEST_PATH_IMAGE052
表示预测框内包含物体时为1,否则为0,
Figure DEST_PATH_IMAGE053
Figure 871244DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE055
Figure 202868DEST_PATH_IMAGE056
表示预测框的中心坐 标、宽和高;
第二部分损失值是检测框内存在目标物体的置信度损失BLoss,其表达式为
Figure DEST_PATH_IMAGE057
,其中
Figure 519580DEST_PATH_IMAGE058
表示不包括物体的置信度权重数值,
Figure 38286DEST_PATH_IMAGE052
表示预测框存在物体时为0,否则为1;
第三部分是目标分类置信度CLoss,其表达式为
Figure DEST_PATH_IMAGE059
,其中classes表示检测的类别 数,
Figure 731436DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE061
表示预测框包含物体类别g的真实概率和预测概率,B表示的二进制交叉熵的 表达式为
Figure 651987DEST_PATH_IMAGE062
,整体的Loss 是这三个部分相加,其表达式为
Figure DEST_PATH_IMAGE063
s。
作为上述技术方案的进一步改进,分支网络提取特征图,特征集E是前馈网络的输 出和分支网络的输入,网络部分由
Figure 733076DEST_PATH_IMAGE035
Figure 411182DEST_PATH_IMAGE064
的卷积层组成,阶段
Figure DEST_PATH_IMAGE065
的网 络部分则由
Figure 970339DEST_PATH_IMAGE066
Figure 417501DEST_PATH_IMAGE064
的卷积层组成,具体的网络结构表达式为
Figure DEST_PATH_IMAGE067
,其中
Figure 341595DEST_PATH_IMAGE068
表示t阶段分支的运算量,
Figure DEST_PATH_IMAGE069
表示t阶 段分支的运算量,
Figure 834893DEST_PATH_IMAGE070
表示t阶段分支的预测结果,
Figure DEST_PATH_IMAGE071
表示t阶段分支2的预测结果,t表示该 网络的阶段序列,同时损失函数为预测值和真实值之间距离平方和的均方误差;
分支网络提取到置信图
Figure 869845DEST_PATH_IMAGE072
,置信图为置信度的二维矩阵,表示狗的关键点在各个 位置出现的概率,在多目标的情况下,k目标的关键点j在置信图上
Figure DEST_PATH_IMAGE073
会有一个峰值,任 意点P在半径为R的区域内的置信度表达式为
Figure 702672DEST_PATH_IMAGE074
,其中
Figure DEST_PATH_IMAGE075
表示k狗的j关键点的坐标位 置,P表示以R为半径的范围中的一点,
Figure 922300DEST_PATH_IMAGE076
表示峰宽。
作为上述技术方案的进一步改进,对该网络模型进行优化训练得到数据集,包括:
在数据预处理阶段,对数据集中的每段视频进行抽帧处理,美妙抽取30帧图片,对一段视频分割成8段,对每段中取一帧作为输入且做稠密采样;
使用数据增强算法减少拟合情况,学习率使用余弦重启学习率,在第n次迭代的学 习率的表达式为
Figure DEST_PATH_IMAGE077
,其中
Figure 778261DEST_PATH_IMAGE078
表示最大训练迭代次 数,基础学习率
Figure DEST_PATH_IMAGE079
设置为0.8。
第二方面,本发明还提供了一种基于狗行为动作识别技术的装置,包括:
获取单元,用于获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片;
构建单元,用于对目标图片进行特征提取得到特征数据,根据特征数据构建网络 模型并训练网络模型,对该网络模型进行优化训练得到数据集,其中,网络模型优化训练包 括权值剪枝和卷积核剪枝,根据卷积核权值的绝对值大小评估特征数据对应的特征图的
Figure 741538DEST_PATH_IMAGE001
重要性,卷积核剪枝过程为:对卷积层L的第i个卷积核计算其权重的绝对值之和的表 达式为
Figure 100975DEST_PATH_IMAGE002
,根据
Figure 163609DEST_PATH_IMAGE003
的大小进行排序,将
Figure 377639DEST_PATH_IMAGE003
最小的卷积核及其对应的特 征图剪掉,同时使得
Figure 754394DEST_PATH_IMAGE004
卷积层中与剪掉的特征图相关的卷积核也会剪掉;
训练单元,用于将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,其中,预训练模型包括轻量化狗检测模型和行为识别模型;
分类单元,用于获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类。
第三方面,本发明还提供了一种基于狗行为动作识别技术的系统,包括处理器和存储器,其中,存储器中存储有计算机程序指令,计算机程序指令被处理器运行时用于执行上述的狗行为动作识别技术的方法。
第四方面,本发明还提供了一种存储介质,在存储戒指上存储了程序指令,其中,程序指令在运行时用于执行上述的狗行为动作识别技术的方法。
本发明提供了一种狗行为动作识别技术的方法、装置、系统及存储介质,通过获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片,对目标图片进行特征提取得到特征数据,根据特征数据构建网络模型并训练网络模型,对该网络模型进行优化训练得到数据集,将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类,将检测到的狗检测框进行标记,再进行目标截取,最后将行为识别得到的结果与标记对应实现多个目标的不同行为识别与展示,从而有效提高了狗行为识别的准确率和检测精度,也提高了对狗的有序合理管理。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的狗行为动作识别技术的方法的流程图;
图2为本发明的狗行为动作识别技术的装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参阅图1,本发明提供了一种狗行为动作识别技术的方法,包括以下步骤:
S1:获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片;
S2:对目标图片进行特征提取得到特征数据,根据特征数据构建网络模型并训练 网络模型,对该网络模型进行优化训练得到数据集,其中,网络模型优化训练包括权值剪枝 和卷积核剪枝,根据卷积核权值的绝对值大小评估特征数据对应的特征图的
Figure 30654DEST_PATH_IMAGE001
重要性, 卷积核剪枝过程为:对卷积层L的第i个卷积核计算其权重的绝对值之和的表达式为
Figure 326506DEST_PATH_IMAGE002
,根据
Figure 688217DEST_PATH_IMAGE003
的大小进行排序,将
Figure 603084DEST_PATH_IMAGE003
最小的卷积核及其对应的特征图剪 掉,同时使得
Figure 61747DEST_PATH_IMAGE004
卷积层中与剪掉的特征图相关的卷积核也会剪掉;
S3:将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,其中,预训练模型包括轻量化狗检测模型和行为识别模型;
S4:获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类。
本实施例中,对该网络模型进行优化训练得到数据集,包括:在数据预处理阶段, 对数据集中的每段视频进行抽帧处理,美妙抽取30帧图片,对一段视频分割成8段,对每段 中取一帧作为输入且做稠密采样;使用数据增强算法减少拟合情况,学习率使用余弦重启 学习率,在第n次迭代的学习率的表达式为
Figure 669446DEST_PATH_IMAGE077
,其中
Figure 518453DEST_PATH_IMAGE078
表示最大训练迭代次数,基础学习率
Figure 96065DEST_PATH_IMAGE079
设置为0.8。狗脸检测与识别的过程是将图 片分为
Figure 346918DEST_PATH_IMAGE080
个网格,采用神经网络对图片进行处理得到图片的一些特征,若待检测物 体的坐标中心落在某个网络,就由这个网络来负责预测物体,
Figure DEST_PATH_IMAGE081
的每一个网络中都 有N个检测框,因此,整张图片的检测框共
Figure 453414DEST_PATH_IMAGE082
个,网络预测的结果包括物体中 心坐标位置、物体的宽、高和属于该物体的置信度等,最后采用非极大值抑制算法去掉效果 较差的检测框,就可以得到最优的检测结果。在网络结构模型中,只有输出层没有BN即归一 化,其他的卷积后面都会有BN操作,BN层的作用是让网络模型比较容易的收敛并趋于稳定。
需要说明的是,权值剪枝是对单个权值参数进行删除的非结构化剪枝,在进行一次模型训练之后,将权值取绝对值,与设定的阈值进行比较,阈值的设定根据剪枝率来进行计算得到,当低于门限的权值被置零,大于阈值的数被保留,这样可以实现保留较大的权值,权值较大对输出贡献较大,删除输出贡献小的冗余权值。在进行一次剪枝后再重新训练剩下的权值恢复模型的准确率,不断地进行迭代式的剪枝-训练,直到在保证训练精度的前提下能最大限度的减少权值。通道剪枝是特征图进行的结构化剪枝,可以避免特征图的重构错误,删除一些特征不明显的通道,保留具有更强鉴别力的特征通道来减少特征图的数量,卷积核与特征图具有对应关系,当对某通道进行裁剪,与其相关的卷积核也会一起被减去。数据预处理主要包括去除背景区域的干扰使得模型识别的误差减少,比带背景的行为识别分类准确率有所提高。当图中出现两个狗时,初步检测到的狗检测框进行标记,再进行目标截取,最后将行为识别得到的结果与标记对应实现多个目标的不同行为识别与展示,从而有效提高了狗行为识别的准确率和检测精度。
可选地,根据
Figure 789717DEST_PATH_IMAGE003
的大小进行排序,将
Figure 46386DEST_PATH_IMAGE003
最小的卷积核及其对应的特征图剪掉,包 括:
采用YOLOv3网络模型输出不同尺度的特征图,输出的预测框包括边界框参数、置信度和类别概率,通过非极大值抑制去掉多余的边界框得到预测结果;
网络模型的每个网格预测边界框的四个坐标分别为
Figure 151746DEST_PATH_IMAGE005
Figure 225881DEST_PATH_IMAGE006
Figure 721584DEST_PATH_IMAGE007
Figure 844261DEST_PATH_IMAGE008
,预设特征 图的左上角为坐标原点,单元格坐标为
Figure 866444DEST_PATH_IMAGE009
,先验框宽度和高度为
Figure 986847DEST_PATH_IMAGE010
Figure 297742DEST_PATH_IMAGE011
,则预测 框的计算表达式为
Figure 20848DEST_PATH_IMAGE012
,其中
Figure 38482DEST_PATH_IMAGE013
表示检测框中心坐标,
Figure 392103DEST_PATH_IMAGE014
表示将
Figure 987032DEST_PATH_IMAGE005
Figure 389195DEST_PATH_IMAGE006
归一化到
Figure 323653DEST_PATH_IMAGE015
Figure 910492DEST_PATH_IMAGE016
Figure 868084DEST_PATH_IMAGE017
表示检测框的宽和高。
本实施例中,通过非极大值抑制去掉多余的边界框得到预测结果,包括:通过特征 提取网络先输出32、16、8倍降采样的特征图,再对先验框进行修正得到预测框,每个先验框 对应的信息包括预测框的宽、高、中心点横坐标、中心点纵坐标、属于目标的分类信息和置 信度;模型训练时,将多个先验框到的IOU值进行比较,IOU值最大的先验框用于预测目标而 生成的预测框的置信度为1,预设一个
Figure DEST_PATH_IMAGE083
的特征图,根据与该特征图 对应的先验框的宽
Figure 464150DEST_PATH_IMAGE010
、高
Figure 456377DEST_PATH_IMAGE011
生成预测框的置信度表达式为
Figure 886221DEST_PATH_IMAGE084
,特征图中位置
Figure 455743DEST_PATH_IMAGE021
与宽
Figure 465287DEST_PATH_IMAGE010
、高
Figure 108758DEST_PATH_IMAGE011
的先验框对应的
Figure DEST_PATH_IMAGE085
个特征值为式中的
Figure 506241DEST_PATH_IMAGE005
Figure 235163DEST_PATH_IMAGE006
Figure 907453DEST_PATH_IMAGE007
Figure 874272DEST_PATH_IMAGE008
Figure 645919DEST_PATH_IMAGE086
Figure DEST_PATH_IMAGE087
Figure 658874DEST_PATH_IMAGE026
表示预测框的 宽高,
Figure 806959DEST_PATH_IMAGE088
表示预测框的置信度,预测框属于某个类别的概率为
Figure DEST_PATH_IMAGE089
;非极大值用于将最高分的检测框加入检测结果的集合中,每 个目标物体附近存在多个置信度高的检测框,通过计算每次加入集合的检测框和剩余最高 分检测框的IOU值,若IOU值大于设定的阈值,则丢掉该低分框,保存高分的检测框,IOU值的 计算表达式为
Figure 956180DEST_PATH_IMAGE090
,其中
Figure DEST_PATH_IMAGE091
表示两个检测框
Figure 492204DEST_PATH_IMAGE092
Figure DEST_PATH_IMAGE093
之间交集部分面积,
Figure 992455DEST_PATH_IMAGE030
表示两个检测框
Figure 147493DEST_PATH_IMAGE094
Figure DEST_PATH_IMAGE095
之间并集部分面积。
需要说明的是,一个好的损失函数会加快网络的收敛,还会提高模型的检测性能,模型训练的过程中,其损失值会逐渐降低,最后大大收敛状态。非极大值抑制的作用是将最高分的检测框加入检测结果的集合中,每个目标物体附近都可能存在很多置信度较高的检测框,通过计算每次加入集合的检测框和剩余最高分检测框的IOU值,若其大于已经设定的阈值,则丢掉该低分框,只会保存高分的检测框。YOLOv3的输出是三个不同尺度的特征图,尺寸大的特征图检测小物体,尺寸小的特征图检测大物体,输出的预测框会有三种不同的参数即边界框参数、置信度和类别概率,通过非极大值抑制去掉多余的便捷框得到最终的预测结果。由于样本特征多样性导致模型对环境的适应性较差的问题,需要对数据集进行数据增强处理,模拟不同现场情况的狗,增加图片的特征多样性。数据增强方法主要包括旋转变换、对比度变换、颜色变换、亮度变换和马赛克数据增强等,可以改变样本图片像素的灰度进行数据增强,使模型对环境的适应性变强,从而提升检测精度。
可选地,采用分类器进行行为数据特征的分类,包括:
将提取的每一帧分别输入至深度神经网络做特征提取,在深度神经网络中的每一个残差模块中引入时移模块作用在第一层卷积层后,在深度神经网络中加入注意力层,将提取到的特征进行融合分类;
时移模块通过时间维度移动提取到的特征图来实现高效的时间建模,在时间任务 建模中一个输入特征表示为
Figure 151221DEST_PATH_IMAGE033
,其中
Figure 858146DEST_PATH_IMAGE034
分别 表示批大小、通道数、时间维度、宽度和高度,时移模块沿着时间维度将前一帧和后一帧的 不同信息与当前信息融合到一起,以弥补时间信息缺失的功能;
时移模块操作包括位移和权值叠加,预设在输入为一维向量X时,经过卷积核大小 为
Figure 48956DEST_PATH_IMAGE035
的卷积层
Figure 742105DEST_PATH_IMAGE036
,其输出的表达式为
Figure 662657DEST_PATH_IMAGE037
,其中
Figure 150270DEST_PATH_IMAGE038
是卷积的权重,位移操 作的表达式为
Figure 890693DEST_PATH_IMAGE039
,权值叠加操作的表达式为
Figure 184271DEST_PATH_IMAGE040
加入注意力模型将输入特征图进行批量归一化,并将输入特征图和权重因子相乘 经过sigmoid激活函数与输入特征作融合得到狗具体行为特征,预设输入特征图为G,注意 力图为M,其输出表达式为
Figure 834695DEST_PATH_IMAGE041
,其中
Figure 883423DEST_PATH_IMAGE042
表示矩阵乘法,注意力图计算表 达式为
Figure 986508DEST_PATH_IMAGE043
,其中
Figure 146094DEST_PATH_IMAGE044
表示mini-batch的均值,
Figure 651025DEST_PATH_IMAGE045
表示 mini-batch的方差,
Figure 542757DEST_PATH_IMAGE046
表示数值小的常数用于数值稳定,
Figure 257772DEST_PATH_IMAGE047
Figure 96415DEST_PATH_IMAGE048
表示待学习参数,BN为批量 归一化。
本实施例中,深度神经网络的损失函数对模型进行检测,损失函数包括三个部分, 第一部分是真实坐标和预测坐标的损失值ALOSS,表达式为
Figure 846065DEST_PATH_IMAGE049
,其中
Figure 846382DEST_PATH_IMAGE050
表示坐标预测的权重系数,
Figure 48694DEST_PATH_IMAGE051
表示检测框的多个尺度,C表示每个Anchor生成检测框的数 量,
Figure 222186DEST_PATH_IMAGE052
表示预测框内包含物体时为1,否则为0,
Figure 701709DEST_PATH_IMAGE053
Figure 263140DEST_PATH_IMAGE054
Figure 562535DEST_PATH_IMAGE055
Figure 539718DEST_PATH_IMAGE056
表示预测框的中心坐 标、宽和高;第二部分损失值是检测框内存在目标物体的置信度损失BLoss,其表达式为
Figure 263960DEST_PATH_IMAGE057
,其中
Figure 871659DEST_PATH_IMAGE058
表示不包括物体的置信度权重数值,
Figure 517404DEST_PATH_IMAGE052
表示预测框存在物体时为0,否则为1; 第三部分是目标分类置信度CLoss,其表达式为
Figure 501541DEST_PATH_IMAGE059
,其中classes表示检测的类别 数,
Figure 752393DEST_PATH_IMAGE060
Figure 655627DEST_PATH_IMAGE061
表示预测框包含物体类别g的真实概率和预测概率,B表示的二进制交叉熵的 表达式为
Figure 929614DEST_PATH_IMAGE062
,整体的Loss 是这三个部分相加,其表达式为
Figure 576496DEST_PATH_IMAGE096
s。
需要说明的是,当网络输入狗的图像后,经过特征提取网络的系列卷积和最大池 化,然后与注意力机制模块进行结合,最后网络会得到
Figure DEST_PATH_IMAGE097
Figure 287049DEST_PATH_IMAGE098
两种不同 尺度的特征图,
Figure 33288DEST_PATH_IMAGE097
的特征图经过上采样后尺度扩张为
Figure 60150DEST_PATH_IMAGE098
,然后把这个扩 张后的特征图和之前的原
Figure DEST_PATH_IMAGE099
特征图融合,每个特征图的网格单元会存在3个先验 框,因此一共是6个先验框。每个网格预测先验框的四个坐标
Figure 448406DEST_PATH_IMAGE005
Figure 1747DEST_PATH_IMAGE006
Figure 122150DEST_PATH_IMAGE007
Figure 167466DEST_PATH_IMAGE008
和置信度以 及N个检测目标的类别预测,本文检测的类别是120种狗,则N取值120,得到每个网格单元的 张量是
Figure 890572DEST_PATH_IMAGE100
。惦尺寸合适的候选框,使得训练能够快速逼近图像 中的狗目标,使用损失函数加深了网络结构,然后结合注意力机制进行训练,可以提升狗目 标的检测与识别性能。
可选地,分支网络提取特征图,特征集E是前馈网络的输出和分支网络的输入,网 络部分由
Figure 173786DEST_PATH_IMAGE035
Figure 261827DEST_PATH_IMAGE064
的卷积层组成,阶段
Figure DEST_PATH_IMAGE101
的网络部分则由
Figure 591178DEST_PATH_IMAGE066
Figure 383553DEST_PATH_IMAGE064
的 卷积层组成,具体的网络结构表达式为
Figure 521273DEST_PATH_IMAGE102
,其中
Figure 108112DEST_PATH_IMAGE068
表示t 阶段分支的运算量,
Figure 331283DEST_PATH_IMAGE069
表示t阶段分支的运算量,
Figure 661771DEST_PATH_IMAGE070
表示t阶段分支的预测结果,
Figure 653997DEST_PATH_IMAGE071
表示t 阶段分支2的预测结果,t表示该网络的阶段序列,同时损失函数为预测值和真实值之间距 离平方和的均方误差;
分支网络提取到置信图
Figure 83842DEST_PATH_IMAGE072
,置信图为置信度的二维矩阵,表示狗的关键点在各个 位置出现的概率,在多目标的情况下,k目标的关键点j在置信图上
Figure 653363DEST_PATH_IMAGE073
会有一个峰值,任意 点P在半径为R的区域内的置信度表达式为
Figure 662908DEST_PATH_IMAGE074
,其 中
Figure 306379DEST_PATH_IMAGE075
表示k狗的j关键点的坐标位置,P表示以R为半径的范围中的一点,
Figure 235020DEST_PATH_IMAGE076
表示峰宽。
本实施例中,另一分支网络可以提取部分亲和场,部分亲和场包含狗肢体的位置 与方向,以狗腿部区域为例,
Figure DEST_PATH_IMAGE103
Figure 432783DEST_PATH_IMAGE104
为两个关键点,
Figure DEST_PATH_IMAGE105
为图像中任意一点,方向向量
Figure 370652DEST_PATH_IMAGE106
和单位向量v垂直,
Figure DEST_PATH_IMAGE107
Figure 71892DEST_PATH_IMAGE108
分别表示狗k到的肢体c的关键点
Figure DEST_PATH_IMAGE109
Figure 640277DEST_PATH_IMAGE110
的正确坐标, 肢体的部分亲和场为
Figure DEST_PATH_IMAGE111
的表达式为
Figure 184391DEST_PATH_IMAGE112
Figure 332475DEST_PATH_IMAGE111
的值是在肢体区域内任意点
Figure 888221DEST_PATH_IMAGE105
需要小于距离阈值,即满足条件
Figure DEST_PATH_IMAGE113
,其中
Figure 689824DEST_PATH_IMAGE114
Figure DEST_PATH_IMAGE115
分别表示相邻两关键点间狗肢体 的长度和宽度。多目标肢体的向量场取所有目标向量的均值,得到狗肢体区域中每个点
Figure 596600DEST_PATH_IMAGE105
处的向量,在两个相邻关键点之间的准线上取点
Figure 876272DEST_PATH_IMAGE116
的表达式为
Figure DEST_PATH_IMAGE117
,其中
Figure 552104DEST_PATH_IMAGE118
表示关键点上的点采样,
Figure DEST_PATH_IMAGE119
表示关键 点
Figure 462291DEST_PATH_IMAGE109
的预测坐标,
Figure 653101DEST_PATH_IMAGE120
表示关键点
Figure 470884DEST_PATH_IMAGE110
的预测坐标,u表示
Figure DEST_PATH_IMAGE121
Figure 594698DEST_PATH_IMAGE122
的相对距离,取值为0~ 1,组合关键点和部分亲和场为完整的狗骨架,但不同目标的关键点可能无法正确连接。当 检测到的图片中狗的面部、肢体所对应的概率值位于预设阈值内,可以初步判定其为温性 犬,概率值不在预设阈值内,可以初步判定其为烈性犬,并结各自图片的置信度和购肢体动 作并收集,例如挠痒痒、獠牙等,并相应的警示主人或其他路人,从而提高了狗行为识别的 准确性。
参阅图2,本发明还提供了一种基于狗行为动作识别技术的装置,包括:
获取单元,用于获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片;
构建单元,用于对目标图片进行特征提取得到特征数据,根据特征数据构建网络 模型并训练网络模型,对该网络模型进行优化训练得到数据集,其中,网络模型优化训练包 括权值剪枝和卷积核剪枝,根据卷积核权值的绝对值大小评估特征数据对应的特征图的
Figure 82311DEST_PATH_IMAGE001
重要性,卷积核剪枝过程为:对卷积层L的第i个卷积核计算其权重的绝对值之和的表 达式为
Figure 760417DEST_PATH_IMAGE002
,根据
Figure 381891DEST_PATH_IMAGE003
的大小进行排序,将
Figure 766736DEST_PATH_IMAGE003
最小的卷积核及其对应的特 征图剪掉,同时使得
Figure 487568DEST_PATH_IMAGE004
卷积层中与剪掉的特征图相关的卷积核也会剪掉;
训练单元,用于将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,其中,预训练模型包括轻量化狗检测模型和行为识别模型;
分类单元,用于获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类。
本实施例中,采用深度学习方法对图像进行检测、分类和识别时,图像数据的质量以及数量占据重要部分,在进行模型训练之前需要进行图像数据的预处理,图像预处理方式包括图像缩放、均值化处理,为后续的模型预测准确率提供保障,还加入数据增强过程包括去噪声、加噪声、随机裁剪和随机抽样等。噪声使得图像变得模糊,掩盖图像的特征,给后期的图像分析增加困难,为了增强模型的泛化能力,在进行模型训练前,数据增强部分对数据集做高斯噪声的随机叠加操作,来提高模型的泛化能力和识别效果。在处理图像过程中,为了保留重要的参数信息,去掉冗余信息,降低计算量,采用降维等方法作图像的中间处理,同样在神经网络中采用池化层来完成这一操作,用以减小数据的空间大小,同时防止过拟合现象。对于图像特征提取,利用了卷积的方式在每个像素点上附加权值参数,激活层是对上一层的输出做非线性运算,使得输出于输入形成对应的映射关系,提升网络的非线性表达能力。全连接层分布在卷积神经网络的最后,在全连接层之前的网络将输入映射到特征空间后,全连接层起到分类器的作用,整合所有的特征,将特征映射到样本标记空间,从而提高狗行为识别的准确性和速率。
在一个可行的实施例中,本发明还提供了一种基于狗行为动作识别技术的系统,包括处理器和存储器,其中,存储器中存储有计算机程序指令,计算机程序指令被处理器运行时用于执行上述的狗行为动作识别技术的方法。
在一个可行的实施例中,本发明还提供了一种存储介质,在存储戒指上存储了程序指令,其中,程序指令在运行时用于执行上述的狗行为动作识别技术的方法。
这里需要指的是,以上针对狗行为动作识别技术的装置的实施例的描述,以上针对狗行为动作识别技术的系统实施例的描述和以上针对计算机存储介质实施例的描述,与前述方法实施例的描述是类似的,具有同前述方法实施例相似的有益效果,因此不做赘述。对于本发明对狗行为动作识别技术的装置实施例的描述、对狗行为动作识别技术的系统实施例的描述和对计算机存储介质实施例的描述尚未披露的技术细节,请参照本发明前述方法实施例的描述而理解,为节约篇幅,因此不再赘述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储介质、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括:移动存储介质、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.一种基于狗行为动作识别技术的方法,其特征在于,包括以下步骤:
获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片;
对目标图片进行特征提取得到特征数据,根据特征数据构建网络模型并训练网络模 型,对该网络模型进行优化训练得到数据集,其中,网络模型优化训练包括权值剪枝和卷积 核剪枝,根据卷积核权值的绝对值大小评估特征数据对应的特征图的
Figure 145137DEST_PATH_IMAGE001
重要性,卷积核 剪枝过程为:对卷积层L的第i个卷积核计算其权重的绝对值之和的表达式为
Figure 762064DEST_PATH_IMAGE002
,根据
Figure 645706DEST_PATH_IMAGE003
的大小进行排序,将
Figure 384992DEST_PATH_IMAGE003
最小的卷积核及其对应的特征图剪 掉,同时使得
Figure 354085DEST_PATH_IMAGE004
卷积层中与剪掉的特征图相关的卷积核也会剪掉;
将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,其中,预训练模型包括轻量化狗检测模型和行为识别模型;
获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类。
2.根据权利要求1所述的基于狗行为动作识别技术的方法,其特征在于,根据
Figure 509123DEST_PATH_IMAGE003
的大小 进行排序,将
Figure 778430DEST_PATH_IMAGE003
最小的卷积核及其对应的特征图剪掉,包括:
采用YOLOv3网络模型输出不同尺度的特征图,输出的预测框包括边界框参数、置信度和类别概率,通过非极大值抑制去掉多余的边界框得到预测结果;
网络模型的每个网格预测边界框的四个坐标分别为
Figure 157459DEST_PATH_IMAGE005
Figure 817110DEST_PATH_IMAGE006
Figure 838156DEST_PATH_IMAGE007
Figure 899653DEST_PATH_IMAGE008
,预设特征图的 左上角为坐标原点,单元格坐标为
Figure 980741DEST_PATH_IMAGE009
,先验框宽度和高度为
Figure 127689DEST_PATH_IMAGE010
Figure 421267DEST_PATH_IMAGE011
,则预测框的 计算表达式为
Figure 399587DEST_PATH_IMAGE012
,其中
Figure 589260DEST_PATH_IMAGE013
表示检测框中心坐标,
Figure 285821DEST_PATH_IMAGE014
表示 将
Figure 586352DEST_PATH_IMAGE005
Figure 153599DEST_PATH_IMAGE006
归一化到
Figure 576491DEST_PATH_IMAGE015
Figure 698030DEST_PATH_IMAGE016
Figure 598990DEST_PATH_IMAGE017
表示检测框的宽和高。
3.根据权利要求2所述的基于狗行为动作识别技术的方法,其特征在于,通过非极大值抑制去掉多余的边界框得到预测结果,包括:
通过特征提取网络先输出32、16、8倍降采样的特征图,再对先验框进行修正得到预测框,每个先验框对应的信息包括预测框的宽、高、中心点横坐标、中心点纵坐标、属于目标的分类信息和置信度;
模型训练时,将多个先验框到的IOU值进行比较,IOU值最大的先验框用于预测目标而 生成的预测框的置信度为1,预设一个
Figure 489586DEST_PATH_IMAGE018
的特征图,根据与该特征图 对应的先验框的宽
Figure 83378DEST_PATH_IMAGE010
、高
Figure 223373DEST_PATH_IMAGE019
生成预测框的置信度表达式为
Figure 131286DEST_PATH_IMAGE020
,特征图中位置
Figure 938705DEST_PATH_IMAGE021
与宽
Figure 641081DEST_PATH_IMAGE010
、高
Figure 268372DEST_PATH_IMAGE011
的先验框对应的
Figure 511134DEST_PATH_IMAGE022
个特征值为式中的
Figure 376322DEST_PATH_IMAGE005
Figure 311917DEST_PATH_IMAGE006
Figure 629766DEST_PATH_IMAGE007
Figure 676219DEST_PATH_IMAGE008
Figure 395914DEST_PATH_IMAGE023
Figure 236831DEST_PATH_IMAGE016
Figure 104293DEST_PATH_IMAGE024
表示预测框的 宽高,
Figure 688858DEST_PATH_IMAGE025
表示预测框的置信度,预测框属于某个类别的概率为
Figure 263059DEST_PATH_IMAGE026
非极大值用于将最高分的检测框加入检测结果的集合中,每个目标物体附近存在多个 置信度高的检测框,通过计算每次加入集合的检测框和剩余最高分检测框的IOU值,若IOU 值大于设定的阈值,则丢掉该低分框,保存高分的检测框,IOU值的计算表达式为
Figure 540456DEST_PATH_IMAGE027
,其中
Figure 567318DEST_PATH_IMAGE028
表示两个检测框
Figure 221153DEST_PATH_IMAGE029
Figure 649861DEST_PATH_IMAGE030
之间交集部 分面积,
Figure 98159DEST_PATH_IMAGE028
表示两个检测框
Figure 877897DEST_PATH_IMAGE029
Figure 804264DEST_PATH_IMAGE030
之间并集部分面积。
4.根据权利要求1所述的基于狗行为动作识别技术的方法,其特征在于,采用分类器进行行为数据特征的分类,包括:
将提取的每一帧分别输入至深度神经网络做特征提取,在深度神经网络中的每一个残差模块中引入时移模块作用在第一层卷积层后,在深度神经网络中加入注意力层,将提取到的特征进行融合分类;
时移模块通过时间维度移动提取到的特征图来实现高效的时间建模,在时间任务建模 中一个输入特征表示为
Figure 149795DEST_PATH_IMAGE031
,其中
Figure 972257DEST_PATH_IMAGE032
分别表示 批大小、通道数、时间维度、宽度和高度,时移模块沿着时间维度将前一帧和后一帧的不同 信息与当前信息融合到一起,以弥补时间信息缺失的功能;
时移模块操作包括位移和权值叠加,预设在输入为一维向量X时,经过卷积核大小为
Figure 770449DEST_PATH_IMAGE033
的卷积层
Figure 500508DEST_PATH_IMAGE034
,其输出的表达式为
Figure 903807DEST_PATH_IMAGE035
,其中
Figure 959488DEST_PATH_IMAGE036
是卷积的权重,位移操 作的表达式为
Figure 979397DEST_PATH_IMAGE037
,权值叠加操作的表达式为
Figure 716408DEST_PATH_IMAGE038
加入注意力模型将输入特征图进行批量归一化,并将输入特征图和权重因子相乘经过 sigmoid激活函数与输入特征作融合以得到狗具体行为特征,预设输入特征图为G,注意力 图为M,其输出表达式为
Figure 36531DEST_PATH_IMAGE039
,其中
Figure 935217DEST_PATH_IMAGE040
表示矩阵乘法,注意力图计算表达 式为
Figure 708001DEST_PATH_IMAGE041
,其中
Figure 45442DEST_PATH_IMAGE042
表示mini-batch的均值,
Figure 157754DEST_PATH_IMAGE043
表示 mini-batch的方差,
Figure 555237DEST_PATH_IMAGE044
表示数值小的常数用于数值稳定,
Figure 753001DEST_PATH_IMAGE045
Figure 894132DEST_PATH_IMAGE046
表示待学习参数,BN为批量 归一化。
5.根据权利要求4所述的基于狗行为动作识别技术的方法,其特征在于,深度神经网络 的损失函数对模型进行检测,损失函数包括三个部分,第一部分是真实坐标和预测坐标的 损失值ALOSS,表达式为
Figure 923268DEST_PATH_IMAGE047
,其中
Figure 960494DEST_PATH_IMAGE048
表示坐标预测的权重系数,
Figure 911132DEST_PATH_IMAGE049
表示检测框的多个尺度,C表示每个Anchor生成检测框的数 量,
Figure 590375DEST_PATH_IMAGE050
表示预测框内包含物体时为1,否则为0,
Figure 677280DEST_PATH_IMAGE051
Figure 150987DEST_PATH_IMAGE052
Figure 323342DEST_PATH_IMAGE053
Figure 540697DEST_PATH_IMAGE054
表示预测框的中心坐 标、宽和高;
第二部分损失值是检测框内存在目标物体的置信度损失BLoss,其表达式为
Figure 544425DEST_PATH_IMAGE055
,其中
Figure 392295DEST_PATH_IMAGE056
表示不包括物体的置信度权重数值,
Figure 114264DEST_PATH_IMAGE050
表示预测框存在物体时为0,否则为1;
第三部分是目标分类置信度CLoss,其表达式为
Figure 72992DEST_PATH_IMAGE057
,其中classes表示检测的类别 数,
Figure 196806DEST_PATH_IMAGE058
Figure 12315DEST_PATH_IMAGE059
表示预测框包含物体类别g的真实概率和预测概率,B表示的二进制交叉熵的 表达式为
Figure 893684DEST_PATH_IMAGE060
,整体的Loss 是这三个部分相加,其表达式为
Figure 718420DEST_PATH_IMAGE061
s。
6.根据权利要求5所述的基于狗行为动作识别技术的方法,其特征在于,分支网络提取 特征图,特征集E是前馈网络的输出和分支网络的输入,网络部分由
Figure 634424DEST_PATH_IMAGE033
Figure 886413DEST_PATH_IMAGE062
的卷 积层组成,阶段
Figure 520657DEST_PATH_IMAGE063
的网络部分则由
Figure 883505DEST_PATH_IMAGE064
Figure 450753DEST_PATH_IMAGE062
的卷积层组成,具体的网络 结构表达式为
Figure 811327DEST_PATH_IMAGE065
,其中
Figure 729605DEST_PATH_IMAGE066
表示t阶段分支的运算 量,
Figure 833827DEST_PATH_IMAGE067
表示t阶段分支的运算量,
Figure 786739DEST_PATH_IMAGE068
表示t阶段分支的预测结果,
Figure 114952DEST_PATH_IMAGE069
表示t阶段分支2的预 测结果,t表示该网络的阶段序列,同时损失函数为预测值和真实值之间距离平方和的均方 误差;
分支网络提取到置信图
Figure 458209DEST_PATH_IMAGE070
,置信图为置信度的二维矩阵,表示狗的关键点在各个位置 出现的概率,在多目标的情况下,k目标的关键点j在置信图上
Figure 162860DEST_PATH_IMAGE071
会有一个峰值,任意点P 在半径为R的区域内的置信度表达式为
Figure 907962DEST_PATH_IMAGE072
, 其中
Figure 672656DEST_PATH_IMAGE073
表示k狗的j关键点的坐标位置,P表示以R为半径的范围中的一点,
Figure 299946DEST_PATH_IMAGE074
表示峰宽。
7.根据权利要求1所述的基于狗行为动作识别技术的方法,其特征在于,对该网络模型进行优化训练得到数据集,包括:
在数据预处理阶段,对数据集中的每段视频进行抽帧处理,美妙抽取30帧图片,对一段视频分割成8段,对每段中取一帧作为输入且做稠密采样;
使用数据增强算法减少拟合情况,学习率使用余弦重启学习率,在第n次迭代的学习率 的表达式为
Figure 745971DEST_PATH_IMAGE075
,其中
Figure 685194DEST_PATH_IMAGE076
表示最大训练迭代次数, 基础学习率
Figure 558473DEST_PATH_IMAGE077
设置为0.8。
8.一种基于狗行为动作识别技术的装置,其特征在于,包括:
获取单元,用于获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片;
构建单元,用于对目标图片进行特征提取得到特征数据,根据特征数据构建网络模型 并训练网络模型,对该网络模型进行优化训练得到数据集,其中,网络模型优化训练包括权 值剪枝和卷积核剪枝,根据卷积核权值的绝对值大小评估特征数据对应的特征图的
Figure 673059DEST_PATH_IMAGE078
重 要性,卷积核剪枝过程为:对卷积层L的第i个卷积核计算其权重的绝对值之和的表达式为
Figure 922775DEST_PATH_IMAGE002
,根据
Figure 704786DEST_PATH_IMAGE003
的大小进行排序,将
Figure 545703DEST_PATH_IMAGE003
最小的卷积核及其对应的特征图剪 掉,同时使得
Figure 85269DEST_PATH_IMAGE004
卷积层中与剪掉的特征图相关的卷积核也会剪掉;
训练单元,用于将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,其中,预训练模型包括轻量化狗检测模型和行为识别模型;
分类单元,用于获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类。
9.一种基于狗行为动作识别技术的系统,其特征在于,包括处理器和存储器,其中,存储器中存储有计算机程序指令,计算机程序指令被处理器运行时用于执行如权利要求1至7任一项所述的狗行为动作识别技术的方法。
10.一种存储介质,在存储戒指上存储了程序指令,其中,程序指令在运行时用于执行如权利要求1至7任一项所述的狗行为动作识别技术的方法。
CN202211289182.XA 2022-10-20 2022-10-20 一种狗行为动作识别技术的方法、装置、系统及存储介质 Pending CN115661860A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211289182.XA CN115661860A (zh) 2022-10-20 2022-10-20 一种狗行为动作识别技术的方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211289182.XA CN115661860A (zh) 2022-10-20 2022-10-20 一种狗行为动作识别技术的方法、装置、系统及存储介质

Publications (1)

Publication Number Publication Date
CN115661860A true CN115661860A (zh) 2023-01-31

Family

ID=84989523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211289182.XA Pending CN115661860A (zh) 2022-10-20 2022-10-20 一种狗行为动作识别技术的方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115661860A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117132577A (zh) * 2023-09-07 2023-11-28 湖北大学 非侵入式检测心肌组织张力和振动的方法
CN117546796A (zh) * 2023-12-26 2024-02-13 深圳天喆科技有限公司 一种基于狗行为动作识别技术的训狗控制方法及系统
CN117710962A (zh) * 2023-10-19 2024-03-15 天津立中车轮有限公司 一种物料识别计数方法、装置、设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128341A (zh) * 2021-03-18 2021-07-16 杭州电子科技大学 一种基于卷积神经网络的狗脸识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128341A (zh) * 2021-03-18 2021-07-16 杭州电子科技大学 一种基于卷积神经网络的狗脸识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
宋怀波等: "基于部分亲和场的行走奶牛骨架提取模型", 《农业机械学报》, vol. 51, no. 8, pages 203 - 213 *
李玉冰: "基于深度学习的奶牛犊行为识别与分析研究", 《中国优秀硕士学位论文全文数据库农业科技辑》, pages 050 - 117 *
欧士路: "基于深度学习的湖羊行为识别研究与应用", 《万方学位论文数据库》, pages 1 - 59 *
王嫁祥: "基于深度学习的宠物狗检测与识别研究", 《万方学位论文数据库》, pages 1 - 85 *
黄靖淞: "基于嵌入式GPU的AI加速推理技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, pages 138 - 407 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117132577A (zh) * 2023-09-07 2023-11-28 湖北大学 非侵入式检测心肌组织张力和振动的方法
CN117132577B (zh) * 2023-09-07 2024-02-23 湖北大学 非侵入式检测心肌组织张力和振动的方法
CN117710962A (zh) * 2023-10-19 2024-03-15 天津立中车轮有限公司 一种物料识别计数方法、装置、设备和存储介质
CN117546796A (zh) * 2023-12-26 2024-02-13 深圳天喆科技有限公司 一种基于狗行为动作识别技术的训狗控制方法及系统

Similar Documents

Publication Publication Date Title
CN108346159B (zh) 一种基于跟踪-学习-检测的视觉目标跟踪方法
CN108470354B (zh) 视频目标跟踪方法、装置和实现装置
Korus et al. Multi-scale fusion for improved localization of malicious tampering in digital images
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN108038435B (zh) 一种基于卷积神经网络的特征提取与目标跟踪方法
KR100647322B1 (ko) 객체의 모양모델 생성장치 및 방법과 이를 이용한 객체의특징점 자동탐색장치 및 방법
Postels et al. On the practicality of deterministic epistemic uncertainty
CN112949572B (zh) 基于Slim-YOLOv3的口罩佩戴情况检测方法
CN111768432A (zh) 基于孪生深度神经网络的动目标分割方法及系统
CN111652317B (zh) 基于贝叶斯深度学习的超参数图像分割方法
CN107784288B (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN110598029A (zh) 基于注意力转移机制的细粒度图像分类方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN115661860A (zh) 一种狗行为动作识别技术的方法、装置、系统及存储介质
KR20160096460A (ko) 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
CN106570874B (zh) 一种结合图像局部约束与对象全局约束的图像标记方法
CN109033978B (zh) 一种基于纠错策略的cnn-svm混合模型手势识别方法
CN108734200B (zh) 基于bing特征的人体目标视觉检测方法和装置
WO2009152509A1 (en) Method and system for crowd segmentation
CN110942471A (zh) 一种基于时空约束的长时目标跟踪方法
Guo et al. Using multi-scale and hierarchical deep convolutional features for 3D semantic classification of TLS point clouds
CN111985333B (zh) 一种基于图结构信息交互增强的行为检测方法及电子装置
CN112837320A (zh) 一种基于并行空洞卷积的遥感影像语义分割方法
CN116977844A (zh) 一种轻量级水下目标实时检测方法
Karakoyun et al. Multi-level thresholding for image segmentation with swarm optimization algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230131