CN115661860A - 一种狗行为动作识别技术的方法、装置、系统及存储介质 - Google Patents
一种狗行为动作识别技术的方法、装置、系统及存储介质 Download PDFInfo
- Publication number
- CN115661860A CN115661860A CN202211289182.XA CN202211289182A CN115661860A CN 115661860 A CN115661860 A CN 115661860A CN 202211289182 A CN202211289182 A CN 202211289182A CN 115661860 A CN115661860 A CN 115661860A
- Authority
- CN
- China
- Prior art keywords
- dog
- frame
- detection
- behavior
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000005516 engineering process Methods 0.000 title claims abstract description 25
- 230000009471 action Effects 0.000 title claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 84
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 241000282472 Canis lupus familiaris Species 0.000 claims description 109
- 230000006399 behavior Effects 0.000 claims description 68
- 238000013138 pruning Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000005457 optimization Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000006748 scratching Methods 0.000 claims description 6
- 230000002393 scratching effect Effects 0.000 claims description 6
- 230000001629 suppression Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 claims description 2
- 229910052582 BN Inorganic materials 0.000 description 6
- PZNSFCLAULLKQX-UHFFFAOYSA-N Boron nitride Chemical compound N#B PZNSFCLAULLKQX-UHFFFAOYSA-N 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- -1 normalization Chemical compound 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了狗行为动作识别技术的方法、装置、系统及存储介质,通过获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片,对目标图片进行特征提取得到特征数据构建网络模型并训练网络模型,优化训练得到数据集,将数据集输入预先训练好的深度神经网络得到预训练模型,对视频帧图像预处理后输入预训练模型得到检测图像,获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类,有效提高了狗行为识别的准确率和检测精度。
Description
技术领域
本发明属于动物行为识别技术领域,尤其涉及一种狗行为动作识别技术的方法、装置、系统及存储介质。
背景技术
近年来,随着宠物狗数量增多,流浪狗的数量也迅速增长,若不对其进行合适的管理,会带来扰乱秩序、影响卫生甚至携带一些病毒等问题,对市民的正常生活秩序带来不必要的麻烦。宠物狗越来越受到人们的欢迎,宠物市场的数据化也是未来发展的趋势,将宠物狗识别技术引入市场管理中可以通过市区监控区分城市中出现的烈性犬和宠物狗,及时通知有关部门对烈性犬进行处理,也可以通过市区监控识别宠物狗是否有牵绳,对不牵狗绳的宠物狗进行相关处理。狗行为动作识别技术采用传统的目标检测算法进行特征提取需要任务提取特征信息,传统算法将输入图片分为不同大小网格,再判断网格中是否包含物体并对目标分类,由于该算法太过于繁琐,检测速度不高,导致实际可行性较差,特征提取和分类训练是分离开的,若人工提取的特征出现缺失,则丢失的这些特征信息就很难恢复,给检测结果带来不良影响。
发明内容
有鉴于此,本发明提供了一种加深网络模型的主干提取特征网络的深度、引入注意力机制和多尺度融合来提取不同特征、提升狗的检测与识别精确度和检测效率的狗行为动作识别技术的方法、装置、系统及存储介质,具体采用以下技术方案来识别。
第一方面,本发明提供了一种狗行为动作识别技术的方法,包括以下步骤:
获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片;
对目标图片进行特征提取得到特征数据,根据特征数据构建网络模型并训练网络
模型,对该网络模型进行优化训练得到数据集,其中,网络模型优化训练包括权值剪枝和卷
积核剪枝,根据卷积核权值的绝对值大小评估特征数据对应的特征图的重要性,卷积
核剪枝过程为:对卷积层L的第i个卷积核计算其权重的绝对值之和的表达式为,根据的大小进行排序,将最小的卷积核及其对应的特征图剪
掉,同时使得卷积层中与剪掉的特征图相关的卷积核也会剪掉;
将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,其中,预训练模型包括轻量化狗检测模型和行为识别模型;
获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类。
采用YOLOv3网络模型输出不同尺度的特征图,输出的预测框包括边界框参数、置信度和类别概率,通过非极大值抑制去掉多余的边界框得到预测结果;
网络模型的每个网格预测边界框的四个坐标分别为、、和,预设特征
图的左上角为坐标原点,单元格坐标为,先验框宽度和高度为和,则预测
框的计算表达式为,其中表示检测框中心坐标,
表示将和归一化到,和表示检测框的宽和高。
作为上述技术方案的进一步改进,通过非极大值抑制去掉多余的边界框得到预测结果,包括:
通过特征提取网络先输出32、16、8倍降采样的特征图,再对先验框进行修正得到预测框,每个先验框对应的信息包括预测框的宽、高、中心点横坐标、中心点纵坐标、属于目标的分类信息和置信度;
模型训练时,将多个先验框到的IOU值进行比较,IOU值最大的先验框用于预测目
标而生成的预测框的置信度为1,预设一个的特征图,根据与该特
征图对应的先验框的宽、高生成预测框的置信度表达式为,特征图中位置与宽、高
的先验框对应的个特征值为式中的、、、和,、表示预测框的
宽高,表示预测框的置信度,预测框属于某个类别的概率为;
非极大值用于将最高分的检测框加入检测结果的集合中,每个目标物体附近存在
多个置信度高的检测框,通过计算每次加入集合的检测框和剩余最高分检测框的IOU值,若
IOU值大于设定的阈值,则丢掉该低分框,保存高分的检测框,IOU值的计算表达式为,其中表示两个检测框与之间交集部
分面积,表示两个检测框与之间并集部分面积。
作为上述技术方案的进一步改进,采用分类器进行行为数据特征的分类,包括:
将提取的每一帧分别输入至深度神经网络做特征提取,在深度神经网络中的每一个残差模块中引入时移模块作用在第一层卷积层后,在深度神经网络中加入注意力层,将提取到的特征进行融合分类;
时移模块通过时间维度移动提取到的特征图来实现高效的时间建模,在时间任务
建模中一个输入特征表示为,其中分别
表示批大小、通道数、时间维度、宽度和高度,时移模块沿着时间维度将前一帧和后一帧的
不同信息与当前信息融合到一起,以弥补时间信息缺失的功能;
加入注意力模型将输入特征图进行批量归一化,并将输入特征图和权重因子相乘
经过sigmoid激活函数与输入特征作融合得到狗具体行为特征,预设输入特征图为G,注意
力图为M,其输出表达式为,其中表示矩阵乘法,注意力图计算表
达式为,其中表示mini-batch的均值,表示
mini-batch的方差,表示数值小的常数用于数值稳定,和表示待学习参数,BN为批量
归一化。
作为上述技术方案的进一步改进,深度神经网络的损失函数对模型进行检测,损
失函数包括三个部分,第一部分是真实坐标和预测坐标的损失值ALOSS,表达式为,其中
表示坐标预测的权重系数,表示检测框的多个尺度,C表示每个Anchor生成检测框的数
量,表示预测框内包含物体时为1,否则为0,、、和表示预测框的中心坐
标、宽和高;
第三部分是目标分类置信度CLoss,其表达式为,其中classes表示检测的类别
数,和表示预测框包含物体类别g的真实概率和预测概率,B表示的二进制交叉熵的
表达式为,整体的Loss
是这三个部分相加,其表达式为s。
作为上述技术方案的进一步改进,分支网络提取特征图,特征集E是前馈网络的输
出和分支网络的输入,网络部分由和的卷积层组成,阶段的网
络部分则由和的卷积层组成,具体的网络结构表达式为,其中表示t阶段分支的运算量,表示t阶
段分支的运算量,表示t阶段分支的预测结果,表示t阶段分支2的预测结果,t表示该
网络的阶段序列,同时损失函数为预测值和真实值之间距离平方和的均方误差;
分支网络提取到置信图,置信图为置信度的二维矩阵,表示狗的关键点在各个
位置出现的概率,在多目标的情况下,k目标的关键点j在置信图上会有一个峰值,任
意点P在半径为R的区域内的置信度表达式为,其中表示k狗的j关键点的坐标位
置,P表示以R为半径的范围中的一点,表示峰宽。
作为上述技术方案的进一步改进,对该网络模型进行优化训练得到数据集,包括:
在数据预处理阶段,对数据集中的每段视频进行抽帧处理,美妙抽取30帧图片,对一段视频分割成8段,对每段中取一帧作为输入且做稠密采样;
第二方面,本发明还提供了一种基于狗行为动作识别技术的装置,包括:
获取单元,用于获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片;
构建单元,用于对目标图片进行特征提取得到特征数据,根据特征数据构建网络
模型并训练网络模型,对该网络模型进行优化训练得到数据集,其中,网络模型优化训练包
括权值剪枝和卷积核剪枝,根据卷积核权值的绝对值大小评估特征数据对应的特征图的重要性,卷积核剪枝过程为:对卷积层L的第i个卷积核计算其权重的绝对值之和的表
达式为,根据的大小进行排序,将最小的卷积核及其对应的特
征图剪掉,同时使得卷积层中与剪掉的特征图相关的卷积核也会剪掉;
训练单元,用于将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,其中,预训练模型包括轻量化狗检测模型和行为识别模型;
分类单元,用于获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类。
第三方面,本发明还提供了一种基于狗行为动作识别技术的系统,包括处理器和存储器,其中,存储器中存储有计算机程序指令,计算机程序指令被处理器运行时用于执行上述的狗行为动作识别技术的方法。
第四方面,本发明还提供了一种存储介质,在存储戒指上存储了程序指令,其中,程序指令在运行时用于执行上述的狗行为动作识别技术的方法。
本发明提供了一种狗行为动作识别技术的方法、装置、系统及存储介质,通过获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片,对目标图片进行特征提取得到特征数据,根据特征数据构建网络模型并训练网络模型,对该网络模型进行优化训练得到数据集,将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类,将检测到的狗检测框进行标记,再进行目标截取,最后将行为识别得到的结果与标记对应实现多个目标的不同行为识别与展示,从而有效提高了狗行为识别的准确率和检测精度,也提高了对狗的有序合理管理。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的狗行为动作识别技术的方法的流程图;
图2为本发明的狗行为动作识别技术的装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参阅图1,本发明提供了一种狗行为动作识别技术的方法,包括以下步骤:
S1:获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片;
S2:对目标图片进行特征提取得到特征数据,根据特征数据构建网络模型并训练
网络模型,对该网络模型进行优化训练得到数据集,其中,网络模型优化训练包括权值剪枝
和卷积核剪枝,根据卷积核权值的绝对值大小评估特征数据对应的特征图的重要性,
卷积核剪枝过程为:对卷积层L的第i个卷积核计算其权重的绝对值之和的表达式为,根据的大小进行排序,将最小的卷积核及其对应的特征图剪
掉,同时使得卷积层中与剪掉的特征图相关的卷积核也会剪掉;
S3:将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,其中,预训练模型包括轻量化狗检测模型和行为识别模型;
S4:获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类。
本实施例中,对该网络模型进行优化训练得到数据集,包括:在数据预处理阶段,
对数据集中的每段视频进行抽帧处理,美妙抽取30帧图片,对一段视频分割成8段,对每段
中取一帧作为输入且做稠密采样;使用数据增强算法减少拟合情况,学习率使用余弦重启
学习率,在第n次迭代的学习率的表达式为,其中表示最大训练迭代次数,基础学习率设置为0.8。狗脸检测与识别的过程是将图
片分为个网格,采用神经网络对图片进行处理得到图片的一些特征,若待检测物
体的坐标中心落在某个网络,就由这个网络来负责预测物体,的每一个网络中都
有N个检测框,因此,整张图片的检测框共个,网络预测的结果包括物体中
心坐标位置、物体的宽、高和属于该物体的置信度等,最后采用非极大值抑制算法去掉效果
较差的检测框,就可以得到最优的检测结果。在网络结构模型中,只有输出层没有BN即归一
化,其他的卷积后面都会有BN操作,BN层的作用是让网络模型比较容易的收敛并趋于稳定。
需要说明的是,权值剪枝是对单个权值参数进行删除的非结构化剪枝,在进行一次模型训练之后,将权值取绝对值,与设定的阈值进行比较,阈值的设定根据剪枝率来进行计算得到,当低于门限的权值被置零,大于阈值的数被保留,这样可以实现保留较大的权值,权值较大对输出贡献较大,删除输出贡献小的冗余权值。在进行一次剪枝后再重新训练剩下的权值恢复模型的准确率,不断地进行迭代式的剪枝-训练,直到在保证训练精度的前提下能最大限度的减少权值。通道剪枝是特征图进行的结构化剪枝,可以避免特征图的重构错误,删除一些特征不明显的通道,保留具有更强鉴别力的特征通道来减少特征图的数量,卷积核与特征图具有对应关系,当对某通道进行裁剪,与其相关的卷积核也会一起被减去。数据预处理主要包括去除背景区域的干扰使得模型识别的误差减少,比带背景的行为识别分类准确率有所提高。当图中出现两个狗时,初步检测到的狗检测框进行标记,再进行目标截取,最后将行为识别得到的结果与标记对应实现多个目标的不同行为识别与展示,从而有效提高了狗行为识别的准确率和检测精度。
采用YOLOv3网络模型输出不同尺度的特征图,输出的预测框包括边界框参数、置信度和类别概率,通过非极大值抑制去掉多余的边界框得到预测结果;
网络模型的每个网格预测边界框的四个坐标分别为、、和,预设特征
图的左上角为坐标原点,单元格坐标为,先验框宽度和高度为和,则预测
框的计算表达式为,其中表示检测框中心坐标,
表示将和归一化到,和表示检测框的宽和高。
本实施例中,通过非极大值抑制去掉多余的边界框得到预测结果,包括:通过特征
提取网络先输出32、16、8倍降采样的特征图,再对先验框进行修正得到预测框,每个先验框
对应的信息包括预测框的宽、高、中心点横坐标、中心点纵坐标、属于目标的分类信息和置
信度;模型训练时,将多个先验框到的IOU值进行比较,IOU值最大的先验框用于预测目标而
生成的预测框的置信度为1,预设一个的特征图,根据与该特征图
对应的先验框的宽、高生成预测框的置信度表达式为,特征图中位置与宽、高
的先验框对应的个特征值为式中的、、、和,、表示预测框的
宽高,表示预测框的置信度,预测框属于某个类别的概率为;非极大值用于将最高分的检测框加入检测结果的集合中,每
个目标物体附近存在多个置信度高的检测框,通过计算每次加入集合的检测框和剩余最高
分检测框的IOU值,若IOU值大于设定的阈值,则丢掉该低分框,保存高分的检测框,IOU值的
计算表达式为,其中表示两个检测框与之间交集部分面积,表示两个检测框与之间并集部分面积。
需要说明的是,一个好的损失函数会加快网络的收敛,还会提高模型的检测性能,模型训练的过程中,其损失值会逐渐降低,最后大大收敛状态。非极大值抑制的作用是将最高分的检测框加入检测结果的集合中,每个目标物体附近都可能存在很多置信度较高的检测框,通过计算每次加入集合的检测框和剩余最高分检测框的IOU值,若其大于已经设定的阈值,则丢掉该低分框,只会保存高分的检测框。YOLOv3的输出是三个不同尺度的特征图,尺寸大的特征图检测小物体,尺寸小的特征图检测大物体,输出的预测框会有三种不同的参数即边界框参数、置信度和类别概率,通过非极大值抑制去掉多余的便捷框得到最终的预测结果。由于样本特征多样性导致模型对环境的适应性较差的问题,需要对数据集进行数据增强处理,模拟不同现场情况的狗,增加图片的特征多样性。数据增强方法主要包括旋转变换、对比度变换、颜色变换、亮度变换和马赛克数据增强等,可以改变样本图片像素的灰度进行数据增强,使模型对环境的适应性变强,从而提升检测精度。
可选地,采用分类器进行行为数据特征的分类,包括:
将提取的每一帧分别输入至深度神经网络做特征提取,在深度神经网络中的每一个残差模块中引入时移模块作用在第一层卷积层后,在深度神经网络中加入注意力层,将提取到的特征进行融合分类;
时移模块通过时间维度移动提取到的特征图来实现高效的时间建模,在时间任务
建模中一个输入特征表示为,其中分别
表示批大小、通道数、时间维度、宽度和高度,时移模块沿着时间维度将前一帧和后一帧的
不同信息与当前信息融合到一起,以弥补时间信息缺失的功能;
加入注意力模型将输入特征图进行批量归一化,并将输入特征图和权重因子相乘
经过sigmoid激活函数与输入特征作融合得到狗具体行为特征,预设输入特征图为G,注意
力图为M,其输出表达式为,其中表示矩阵乘法,注意力图计算表
达式为,其中表示mini-batch的均值,表示
mini-batch的方差,表示数值小的常数用于数值稳定,和表示待学习参数,BN为批量
归一化。
本实施例中,深度神经网络的损失函数对模型进行检测,损失函数包括三个部分,
第一部分是真实坐标和预测坐标的损失值ALOSS,表达式为,其中
表示坐标预测的权重系数,表示检测框的多个尺度,C表示每个Anchor生成检测框的数
量,表示预测框内包含物体时为1,否则为0,、、和表示预测框的中心坐
标、宽和高;第二部分损失值是检测框内存在目标物体的置信度损失BLoss,其表达式为,其中表示不包括物体的置信度权重数值,表示预测框存在物体时为0,否则为1;
第三部分是目标分类置信度CLoss,其表达式为,其中classes表示检测的类别
数,和表示预测框包含物体类别g的真实概率和预测概率,B表示的二进制交叉熵的
表达式为,整体的Loss
是这三个部分相加,其表达式为s。
需要说明的是,当网络输入狗的图像后,经过特征提取网络的系列卷积和最大池
化,然后与注意力机制模块进行结合,最后网络会得到和两种不同
尺度的特征图,的特征图经过上采样后尺度扩张为,然后把这个扩
张后的特征图和之前的原特征图融合,每个特征图的网格单元会存在3个先验
框,因此一共是6个先验框。每个网格预测先验框的四个坐标、、、和置信度以
及N个检测目标的类别预测,本文检测的类别是120种狗,则N取值120,得到每个网格单元的
张量是。惦尺寸合适的候选框,使得训练能够快速逼近图像
中的狗目标,使用损失函数加深了网络结构,然后结合注意力机制进行训练,可以提升狗目
标的检测与识别性能。
可选地,分支网络提取特征图,特征集E是前馈网络的输出和分支网络的输入,网
络部分由和的卷积层组成,阶段的网络部分则由和的
卷积层组成,具体的网络结构表达式为,其中表示t
阶段分支的运算量,表示t阶段分支的运算量,表示t阶段分支的预测结果,表示t
阶段分支2的预测结果,t表示该网络的阶段序列,同时损失函数为预测值和真实值之间距
离平方和的均方误差;
分支网络提取到置信图,置信图为置信度的二维矩阵,表示狗的关键点在各个
位置出现的概率,在多目标的情况下,k目标的关键点j在置信图上会有一个峰值,任意
点P在半径为R的区域内的置信度表达式为,其
中表示k狗的j关键点的坐标位置,P表示以R为半径的范围中的一点,表示峰宽。
本实施例中,另一分支网络可以提取部分亲和场,部分亲和场包含狗肢体的位置
与方向,以狗腿部区域为例,与为两个关键点,为图像中任意一点,方向向量和单位向量v垂直,与分别表示狗k到的肢体c的关键点和的正确坐标,
肢体的部分亲和场为的表达式为,的值是在肢体区域内任意点需要小于距离阈值,即满足条件,其中和分别表示相邻两关键点间狗肢体
的长度和宽度。多目标肢体的向量场取所有目标向量的均值,得到狗肢体区域中每个点
处的向量,在两个相邻关键点之间的准线上取点的表达式为,其中表示关键点上的点采样,表示关键
点的预测坐标,表示关键点的预测坐标,u表示与的相对距离,取值为0~
1,组合关键点和部分亲和场为完整的狗骨架,但不同目标的关键点可能无法正确连接。当
检测到的图片中狗的面部、肢体所对应的概率值位于预设阈值内,可以初步判定其为温性
犬,概率值不在预设阈值内,可以初步判定其为烈性犬,并结各自图片的置信度和购肢体动
作并收集,例如挠痒痒、獠牙等,并相应的警示主人或其他路人,从而提高了狗行为识别的
准确性。
参阅图2,本发明还提供了一种基于狗行为动作识别技术的装置,包括:
获取单元,用于获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片;
构建单元,用于对目标图片进行特征提取得到特征数据,根据特征数据构建网络
模型并训练网络模型,对该网络模型进行优化训练得到数据集,其中,网络模型优化训练包
括权值剪枝和卷积核剪枝,根据卷积核权值的绝对值大小评估特征数据对应的特征图的重要性,卷积核剪枝过程为:对卷积层L的第i个卷积核计算其权重的绝对值之和的表
达式为,根据的大小进行排序,将最小的卷积核及其对应的特
征图剪掉,同时使得卷积层中与剪掉的特征图相关的卷积核也会剪掉;
训练单元,用于将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,其中,预训练模型包括轻量化狗检测模型和行为识别模型;
分类单元,用于获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类。
本实施例中,采用深度学习方法对图像进行检测、分类和识别时,图像数据的质量以及数量占据重要部分,在进行模型训练之前需要进行图像数据的预处理,图像预处理方式包括图像缩放、均值化处理,为后续的模型预测准确率提供保障,还加入数据增强过程包括去噪声、加噪声、随机裁剪和随机抽样等。噪声使得图像变得模糊,掩盖图像的特征,给后期的图像分析增加困难,为了增强模型的泛化能力,在进行模型训练前,数据增强部分对数据集做高斯噪声的随机叠加操作,来提高模型的泛化能力和识别效果。在处理图像过程中,为了保留重要的参数信息,去掉冗余信息,降低计算量,采用降维等方法作图像的中间处理,同样在神经网络中采用池化层来完成这一操作,用以减小数据的空间大小,同时防止过拟合现象。对于图像特征提取,利用了卷积的方式在每个像素点上附加权值参数,激活层是对上一层的输出做非线性运算,使得输出于输入形成对应的映射关系,提升网络的非线性表达能力。全连接层分布在卷积神经网络的最后,在全连接层之前的网络将输入映射到特征空间后,全连接层起到分类器的作用,整合所有的特征,将特征映射到样本标记空间,从而提高狗行为识别的准确性和速率。
在一个可行的实施例中,本发明还提供了一种基于狗行为动作识别技术的系统,包括处理器和存储器,其中,存储器中存储有计算机程序指令,计算机程序指令被处理器运行时用于执行上述的狗行为动作识别技术的方法。
在一个可行的实施例中,本发明还提供了一种存储介质,在存储戒指上存储了程序指令,其中,程序指令在运行时用于执行上述的狗行为动作识别技术的方法。
这里需要指的是,以上针对狗行为动作识别技术的装置的实施例的描述,以上针对狗行为动作识别技术的系统实施例的描述和以上针对计算机存储介质实施例的描述,与前述方法实施例的描述是类似的,具有同前述方法实施例相似的有益效果,因此不做赘述。对于本发明对狗行为动作识别技术的装置实施例的描述、对狗行为动作识别技术的系统实施例的描述和对计算机存储介质实施例的描述尚未披露的技术细节,请参照本发明前述方法实施例的描述而理解,为节约篇幅,因此不再赘述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储介质、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括:移动存储介质、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (10)
1.一种基于狗行为动作识别技术的方法,其特征在于,包括以下步骤:
获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片;
对目标图片进行特征提取得到特征数据,根据特征数据构建网络模型并训练网络模
型,对该网络模型进行优化训练得到数据集,其中,网络模型优化训练包括权值剪枝和卷积
核剪枝,根据卷积核权值的绝对值大小评估特征数据对应的特征图的重要性,卷积核
剪枝过程为:对卷积层L的第i个卷积核计算其权重的绝对值之和的表达式为,根据的大小进行排序,将最小的卷积核及其对应的特征图剪
掉,同时使得卷积层中与剪掉的特征图相关的卷积核也会剪掉;
将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,其中,预训练模型包括轻量化狗检测模型和行为识别模型;
获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类。
3.根据权利要求2所述的基于狗行为动作识别技术的方法,其特征在于,通过非极大值抑制去掉多余的边界框得到预测结果,包括:
通过特征提取网络先输出32、16、8倍降采样的特征图,再对先验框进行修正得到预测框,每个先验框对应的信息包括预测框的宽、高、中心点横坐标、中心点纵坐标、属于目标的分类信息和置信度;
模型训练时,将多个先验框到的IOU值进行比较,IOU值最大的先验框用于预测目标而
生成的预测框的置信度为1,预设一个的特征图,根据与该特征图
对应的先验框的宽、高生成预测框的置信度表达式为,特征图中位置与宽、高
的先验框对应的个特征值为式中的、、、和,、表示预测框的
宽高,表示预测框的置信度,预测框属于某个类别的概率为;
4.根据权利要求1所述的基于狗行为动作识别技术的方法,其特征在于,采用分类器进行行为数据特征的分类,包括:
将提取的每一帧分别输入至深度神经网络做特征提取,在深度神经网络中的每一个残差模块中引入时移模块作用在第一层卷积层后,在深度神经网络中加入注意力层,将提取到的特征进行融合分类;
时移模块通过时间维度移动提取到的特征图来实现高效的时间建模,在时间任务建模
中一个输入特征表示为,其中分别表示
批大小、通道数、时间维度、宽度和高度,时移模块沿着时间维度将前一帧和后一帧的不同
信息与当前信息融合到一起,以弥补时间信息缺失的功能;
5.根据权利要求4所述的基于狗行为动作识别技术的方法,其特征在于,深度神经网络
的损失函数对模型进行检测,损失函数包括三个部分,第一部分是真实坐标和预测坐标的
损失值ALOSS,表达式为,其中
表示坐标预测的权重系数,表示检测框的多个尺度,C表示每个Anchor生成检测框的数
量,表示预测框内包含物体时为1,否则为0,、、和表示预测框的中心坐
标、宽和高;
6.根据权利要求5所述的基于狗行为动作识别技术的方法,其特征在于,分支网络提取
特征图,特征集E是前馈网络的输出和分支网络的输入,网络部分由和的卷
积层组成,阶段的网络部分则由和的卷积层组成,具体的网络
结构表达式为,其中表示t阶段分支的运算
量,表示t阶段分支的运算量,表示t阶段分支的预测结果,表示t阶段分支2的预
测结果,t表示该网络的阶段序列,同时损失函数为预测值和真实值之间距离平方和的均方
误差;
8.一种基于狗行为动作识别技术的装置,其特征在于,包括:
获取单元,用于获取采集的狗的行为视频,将视频进行分割并从分割的每段中提取一帧作为输入图像,对输入图像进行预处理得到包含有狗对应的目标图片,其中目标图片包括狗脸图片和行为图片;
构建单元,用于对目标图片进行特征提取得到特征数据,根据特征数据构建网络模型
并训练网络模型,对该网络模型进行优化训练得到数据集,其中,网络模型优化训练包括权
值剪枝和卷积核剪枝,根据卷积核权值的绝对值大小评估特征数据对应的特征图的重
要性,卷积核剪枝过程为:对卷积层L的第i个卷积核计算其权重的绝对值之和的表达式为,根据的大小进行排序,将最小的卷积核及其对应的特征图剪
掉,同时使得卷积层中与剪掉的特征图相关的卷积核也会剪掉;
训练单元,用于将数据集输入预先训练好的深度神经网络经过训练阶段得到预训练模型,在测试阶段对前端采集的视频帧图像进行预处理后输入预训练模型进行测试得到检测图像,其中,预训练模型包括轻量化狗检测模型和行为识别模型;
分类单元,用于获取检测图像中狗的具体位置并将狗所在区域从图像中抠出,对抠出的区域数据的分辨率进行标准化操作并计算数据的相似度,采用分类器进行行为数据特征的分类。
9.一种基于狗行为动作识别技术的系统,其特征在于,包括处理器和存储器,其中,存储器中存储有计算机程序指令,计算机程序指令被处理器运行时用于执行如权利要求1至7任一项所述的狗行为动作识别技术的方法。
10.一种存储介质,在存储戒指上存储了程序指令,其中,程序指令在运行时用于执行如权利要求1至7任一项所述的狗行为动作识别技术的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211289182.XA CN115661860A (zh) | 2022-10-20 | 2022-10-20 | 一种狗行为动作识别技术的方法、装置、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211289182.XA CN115661860A (zh) | 2022-10-20 | 2022-10-20 | 一种狗行为动作识别技术的方法、装置、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115661860A true CN115661860A (zh) | 2023-01-31 |
Family
ID=84989523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211289182.XA Pending CN115661860A (zh) | 2022-10-20 | 2022-10-20 | 一种狗行为动作识别技术的方法、装置、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115661860A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132577A (zh) * | 2023-09-07 | 2023-11-28 | 湖北大学 | 非侵入式检测心肌组织张力和振动的方法 |
CN117546796A (zh) * | 2023-12-26 | 2024-02-13 | 深圳天喆科技有限公司 | 一种基于狗行为动作识别技术的训狗控制方法及系统 |
CN117710962A (zh) * | 2023-10-19 | 2024-03-15 | 天津立中车轮有限公司 | 一种物料识别计数方法、装置、设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128341A (zh) * | 2021-03-18 | 2021-07-16 | 杭州电子科技大学 | 一种基于卷积神经网络的狗脸识别方法 |
-
2022
- 2022-10-20 CN CN202211289182.XA patent/CN115661860A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128341A (zh) * | 2021-03-18 | 2021-07-16 | 杭州电子科技大学 | 一种基于卷积神经网络的狗脸识别方法 |
Non-Patent Citations (5)
Title |
---|
宋怀波等: "基于部分亲和场的行走奶牛骨架提取模型", 《农业机械学报》, vol. 51, no. 8, pages 203 - 213 * |
李玉冰: "基于深度学习的奶牛犊行为识别与分析研究", 《中国优秀硕士学位论文全文数据库农业科技辑》, pages 050 - 117 * |
欧士路: "基于深度学习的湖羊行为识别研究与应用", 《万方学位论文数据库》, pages 1 - 59 * |
王嫁祥: "基于深度学习的宠物狗检测与识别研究", 《万方学位论文数据库》, pages 1 - 85 * |
黄靖淞: "基于嵌入式GPU的AI加速推理技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, pages 138 - 407 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132577A (zh) * | 2023-09-07 | 2023-11-28 | 湖北大学 | 非侵入式检测心肌组织张力和振动的方法 |
CN117132577B (zh) * | 2023-09-07 | 2024-02-23 | 湖北大学 | 非侵入式检测心肌组织张力和振动的方法 |
CN117710962A (zh) * | 2023-10-19 | 2024-03-15 | 天津立中车轮有限公司 | 一种物料识别计数方法、装置、设备和存储介质 |
CN117546796A (zh) * | 2023-12-26 | 2024-02-13 | 深圳天喆科技有限公司 | 一种基于狗行为动作识别技术的训狗控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108346159B (zh) | 一种基于跟踪-学习-检测的视觉目标跟踪方法 | |
CN108470354B (zh) | 视频目标跟踪方法、装置和实现装置 | |
Korus et al. | Multi-scale fusion for improved localization of malicious tampering in digital images | |
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
CN108038435B (zh) | 一种基于卷积神经网络的特征提取与目标跟踪方法 | |
KR100647322B1 (ko) | 객체의 모양모델 생성장치 및 방법과 이를 이용한 객체의특징점 자동탐색장치 및 방법 | |
Postels et al. | On the practicality of deterministic epistemic uncertainty | |
CN112949572B (zh) | 基于Slim-YOLOv3的口罩佩戴情况检测方法 | |
CN111768432A (zh) | 基于孪生深度神经网络的动目标分割方法及系统 | |
CN111652317B (zh) | 基于贝叶斯深度学习的超参数图像分割方法 | |
CN107784288B (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN110598029A (zh) | 基于注意力转移机制的细粒度图像分类方法 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
CN115661860A (zh) | 一种狗行为动作识别技术的方法、装置、系统及存储介质 | |
KR20160096460A (ko) | 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법 | |
CN106570874B (zh) | 一种结合图像局部约束与对象全局约束的图像标记方法 | |
CN109033978B (zh) | 一种基于纠错策略的cnn-svm混合模型手势识别方法 | |
CN108734200B (zh) | 基于bing特征的人体目标视觉检测方法和装置 | |
WO2009152509A1 (en) | Method and system for crowd segmentation | |
CN110942471A (zh) | 一种基于时空约束的长时目标跟踪方法 | |
Guo et al. | Using multi-scale and hierarchical deep convolutional features for 3D semantic classification of TLS point clouds | |
CN111985333B (zh) | 一种基于图结构信息交互增强的行为检测方法及电子装置 | |
CN112837320A (zh) | 一种基于并行空洞卷积的遥感影像语义分割方法 | |
CN116977844A (zh) | 一种轻量级水下目标实时检测方法 | |
Karakoyun et al. | Multi-level thresholding for image segmentation with swarm optimization algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230131 |