CN117576785B

CN117576785B - 泳客行为检测方法、装置、计算机设备及存储介质

Info

Publication number: CN117576785B
Application number: CN202410056106.7A
Authority: CN
Inventors: 任小枫; 谢欣; 郭羽; 王振华; 张剑华; 郭东岩; 乔杰; 胡祯杰
Original assignee: Hangzhou Juyan Xincheng Technology Co ltd
Current assignee: Hangzhou Juyan Xincheng Technology Co ltd
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-04-16
Anticipated expiration: 2044-01-15
Also published as: CN117576785A

Abstract

本发明实施例公开了泳客行为检测方法、装置、计算机设备及存储介质。所述方法包括：获取待检测视频；对所述待检测视频进行人体检测，以得到人体检测框；对所述人体检测框提取特征，以得到提取结果；将所述提取结果输入至查询编码器内进行编码，以得到第一编码向量；将支持视频集内的所有视频输入至字典键编码器内进行编码，以得到第二编码向量；计算所述第一编码向量与第二编码向量的相似度，以得到相似度；确定最大相似度对应的支持视频集内的视频中的人体框行为类别，以得到泳客行为检测结果。通过实施本发明实施例的方法可实现有效地检测泳客行为，提高检测准确率以及效率。

Description

泳客行为检测方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机，更具体地说是指泳客行为检测方法、装置、计算机设备及存储介质。

背景技术

随着体育事业的发展，人们参加体育活动的热情也越来越高涨，而作为热门运动项目之一的游泳却成为安全事故最高发的运动。

目前大部分游泳场馆运营的运营方式是基于传统人工模式运营，包括在进行防溺水监管时，也是由救生员位于高位俯瞰监管整个泳池的形式，但是由于泳池内目标检测问题的主要背景是水，游泳者运动时泳池内的水就会产生波动日光与灯光照射在水面上会产生反光，这种反光难以通过预处理技术去除，此外反光的位置随着水面波动也会不断变化；而且游泳者形态多样性。游泳者的年龄跨度很广，泳池岸边以及泳池内的人会出现各种各样的动作行为，并且游泳者在水面以下的部分受到水的折射、浑浊程度以及波动的影响，难以观测；泳池岸边会出现多种设施与杂物比如看台、救生设备、训练设以及游泳者个人物品等，泳池内也会出现多种漂浮物比如泳道线与训练设备等，对于泳客行为的检测也会有影响。

因此，有必要设计一种新的方法，实现有效地检测泳客行为，提高检测准确率以及效率。

发明内容

本发明的目的在于克服现有技术的缺陷，提供泳客行为检测方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：泳客行为检测方法，包括：

获取待检测视频；

对所述待检测视频进行人体检测，以得到人体检测框；

对所述人体检测框提取特征，以得到提取结果；

将所述提取结果输入至查询编码器内进行编码，以得到第一编码向量；

将支持视频集内的所有视频输入至字典键编码器内进行编码，以得到第二编码向量；

计算所述第一编码向量与第二编码向量的相似度，以得到相似度；

确定最大相似度对应的支持视频集内的视频中的人体框行为类别，以得到泳客行为检测结果。

其进一步技术方案为：所述查询编码器以及所述字典键编码器的训练过程相同，都是通过带有人体框以及行为类别标注的视频作为样本集训练卷积网络所得的。

其进一步技术方案为：所述查询编码器以及所述字典键编码器的训练过程包括：

构建带有人体框以及行为类别标注的视频，以得到样本集；

构建第一编码器和第二编码器；

从所述样本集内随机选择一个行为类别中的一个样本，以得到查询视频，并将所述样本集内的其他样本作为支持视频集；

将所述查询视频输入至第一编码器进行编码，以得到查询视频编码向量；

将所述支持视频集内的每个视频输入至第二编码器进行编码，以得到支持视频编码向量集；

将查询视频编码向量以及支持视频编码向量集采用损失计算函数计算损失值；

将所述损失值与累加的损失值进行累加，更新累加的损失值；

判断所有行为类别是否都已被选择；

若所有行为类型都已被选择，则根据累加的损失值进行梯度回传，并更新第一编码器和第二编码器的参数；

判断所述第一编码器和第二编码器的训练是否收敛；

若所述第一编码器和第二编码器的训练未收敛，则执行所述从所述样本集内随机选择一个行为类别中的一个样本，以得到查询视频，并将所述样本集内的其他样本作为支持视频集；

若所述第一编码器和第二编码器的训练收敛，则确定所述第一编码器为查询编码器，确定所述第二编码器为字典键编码器。

其进一步技术方案为：所述损失计算函数为，其中，/>表示第s个查询视频中的第n个人体框对应的编码向量，/>表示第t个支持视频中的第m个人体框对应的编码向量，为指示函数，是指当第s个查询视频中的第n个人体框对应的行为类别和第t个支持视频中的第m个人体框对应的行为类别相同时，输出1，否则输出0；/>为相似度计算函数，输出向量/>和/>的点积。

其进一步技术方案为：所述对所述待检测视频进行人体检测，以得到人体检测框，包括：

采用已训练的目标检测模型对所述待检测视频进行人体检测，以得到人体检测框。

其进一步技术方案为：所述计算所述第一编码向量与第二编码向量的相似度，以得到相似度，包括：

采用相似度计算函数计算所述第一编码向量与第二编码向量的点积，以得到相似度。

本发明还提供了泳客行为检测装置，包括：

视频获取单元，用于获取待检测视频；

人体检测单元，用于对所述待检测视频进行人体检测，以得到人体检测框；

特征提取单元，用于对所述人体检测框提取特征，以得到提取结果；

第一编码单元，用于将所述提取结果输入至查询编码器内进行编码，以得到第一编码向量；

第二编码单元，用于将支持视频集内的所有视频输入至字典键编码器内进行编码，以得到第二编码向量；

相似度计算单元，用于计算所述第一编码向量与第二编码向量的相似度，以得到相似度；

类别确定单元，用于确定最大相似度对应的支持视频集内的视频中的人体框行为类别，以得到泳客行为检测结果。

其进一步技术方案为：所述人体检测单元，用于采用已训练的目标检测模型对所述待检测视频进行人体检测，以得到人体检测框。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本发明与现有技术相比的有益效果是：本发明通过对待检测视频进行人体检测，并提取特征，将提取结果输入至查询编码器内进行编码，将支持视频集内的所有视频输入至字典键编码器内进行编码，计算这两者的相似度，并确定最大相似度对应的支持视频集内的视频中的人体框行为类别为当前泳客行为，实现有效地检测泳客行为，提高检测准确率以及效率。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的泳客行为检测方法的应用场景示意图；

图2为本发明实施例提供的泳客行为检测方法的流程示意图一；

图3为本发明实施例提供的泳客行为检测方法的流程示意图二；

图4为本发明实施例提供的泳客行为检测方法的子流程示意图；

图5为本发明实施例提供的样本集的示意图一；

图6为本发明实施例提供的样本集的示意图二；

图7为本发明实施例提供的样本集的示意图三；

图8为本发明实施例提供的样本集的示意图四；

图9为本发明实施例提供的泳客行为检测装置的示意性框图；

图10为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的泳客行为检测方法的应用场景示意图。图2为本发明实施例提供的泳客行为检测方法的示意性流程图。该泳客行为检测方法应用于服务器中。该服务器与终端、摄像头进行数据交互，利用摄像头拍摄待检测区域的相关视频，进行人体检测，确定人体检测框后提取对应的特征，将提取的带有特征的视频输入至查询编码器内进行编码，支持视频集内的所有视频输入至字典键编码器内进行编码，计算这两个编码结果的相似度，将相似度最高的视频对应的人体框行为类别，实现有效地检测泳客行为，提高检测准确率以及效率。

图2是本发明实施例提供的泳客行为检测方法的流程示意图。如图2所示，该方法包括以下步骤S110至S170。

S110、获取待检测视频。

在本实施例中，待检测视频是指需要进行检测的区域由摄像头拍摄所得的视频，主要是泳池等区域。

S120、对所述待检测视频进行人体检测，以得到人体检测框。

在本实施例中，人体检测框是指带有人体框的视频。

具体地，采用已训练的目标检测模型对所述待检测视频进行人体检测，以得到人体检测框。

在泳池视频上训练的一个目标检测模型d(v)，如常用的YOLO检测模型，对待检测视频内的人体进行检测，以确定人体所在的位置。

S130、对所述人体检测框提取特征，以得到提取结果。

在本实施例中，提取结果是指对人体检测框提取对应的特征，比如人头等。

具体地，利用计算机视觉领域常用的RoIAlign方法将人体检测框对应的特征提取出来。

S140、将所述提取结果输入至查询编码器内进行编码，以得到第一编码向量。

在本实施例中，第一编码向量是指将提取结果采用任意卷积网络或Transformer架构的查询编码器进行编码后形成的特征向量。

S150、将支持视频集内的所有视频输入至字典键编码器内进行编码，以得到第二编码向量。

在本实施例中，第二编码向量是指将支持视频集内的所有视频采用任意卷积网络或Transformer架构的查询编码器进行编码后形成的特征向量，构成的集合。

支持视频集是指带有人体检测框且泳客行为类别标签的视频集合，这些视频集合是已经知道泳客行为类别的。

所述查询编码器以及所述字典键编码器的训练过程相同，都是通过带有人体框以及行为类别标注的视频作为样本集训练卷积网络所得的，选取的网络可以一致也可以不一致，通过训练后形成参数有差异的编码器。

在一实施例中，请参阅图4，上述的步骤S150可包括步骤S151~S1511。

S151、构建带有人体框以及行为类别标注的视频，以得到样本集。

在本实施例中，样本集是对采集的视频进行检测的人体框以及对应的行为类别标注后形成的视频集合。

具体地，从泳馆监控相机进行拉流，收集常见泳客行为视频，涉及“自由泳”、“蛙泳”、“仰泳”、“蝶泳”、“狗刨”、“潜泳”、“原地漂浮”、“原地下潜”、“抱分水线挣扎”、“泳道中间挣扎”、“借助浮体游泳”、“戏水”、“原地休息”、“其它行为”共14类。由于“抱分水线挣扎”和“泳道中间挣扎”这两类行为的真实数据很难获取，只能通过救生员模拟表演获得在这两类上的行为视频。首先招募10名救生员，并对他们进行两类行为表演要点的培训。接下来，每名救生员在3个游泳馆的泳池中的10个不同的区域分别表演持续时间为5-20秒的挣扎行为，因此一共生成3×10×10×2=600个行为。从泳池四周布置的多台监控相机中拉取救生员目标最大的3个视频片段，获得600×3=1800个视频片段，注意这些视频片段中可能包含多名非救生员泳客，这些视频片段如图5至图8所示；对于除“抱分水线挣扎”和“泳道中间挣扎”之外的其它12类行为，它们对应的视频片段均从日常泳馆监控视频流中抽取，每个视频片段的持续时长控制在10-30秒，表1列出了各类行为的样本数量的统计信息。

表1.各类行为的样本数量的统计信息

类别	自由泳	蛙泳	仰泳	蝶泳	狗刨	潜泳	原地漂浮	原地下潜	抱分水线挣扎	泳道中间挣扎	借助浮体游泳	戏水	原地休息	其它行为
															数量	9500	9702	4320	1728	1532	2196	1541	1217	900	900	5871	3895	8762	15274

获得训练视频后，对各段视频进行稀疏标注，即每隔10帧标注一次，标注内容包括人体矩形边界框及其对应的行为类别，至此样本集构建完毕。

S152、构建第一编码器和第二编码器。

在本实施例，第一编码器和第二编码器可以选择相同的基础网络，也可以选择不同的网络，其中，基础网络可以是任意卷积网络或Transformer架构的网络。

S153、从所述样本集内随机选择一个行为类别中的一个样本，以得到查询视频，并将所述样本集内的其他样本作为支持视频集。

S154、将所述查询视频输入至第一编码器进行编码，以得到查询视频编码向量。

在本实施例中，查询视频编码向量是指查询视频经过编码后形成的特征向量。

S155、将所述支持视频集内的每个视频输入至第二编码器进行编码，以得到支持视频编码向量集。

在本实施例中，支持视频编码向量集是指支持视频集内的每个视频经过编码后形成的特征向量集合。

S156、将查询视频编码向量以及支持视频编码向量集采用损失计算函数计算损失值。

在本实施例中，损失值是指两个编码向量的损失值。

具体地，所述损失计算函数为，其中，表示第s个查询视频中的第n个人体框对应的编码向量，/>表示第t个支持视频中的第m个人体框对应的编码向量，/>为指示函数，是指当第s个查询视频中的第n个人体框对应的行为类别和第t个支持视频中的第m个人体框对应的行为类别相同时，输出1，否则输出0；/>为相似度计算函数，输出向量/>和/>的点积。

S157、将所述损失值与累加的损失值进行累加，更新累加的损失值。

在本实施例中，累加的损失值作为最终的损失值，以此确定编码器是否训练完成。

S158、判断所有行为类别是否都已被选择。

在本实施例中，判断是否是所有行为类别中的每个样本都已经被选择且执行所述步骤S153至步骤S157。

若所有行为类型未已被选择，则执行所述步骤S153。

S159、若所有行为类型都已被选择，则根据累加的损失值进行梯度回传，并更新第一编码器和第二编码器的参数；

S1510、判断所述第一编码器和第二编码器的训练是否收敛；

若所述第一编码器和第二编码器的训练未收敛，则执行所述步骤S153；

S1511、若所述第一编码器和第二编码器的训练收敛，则确定所述第一编码器为查询编码器，确定所述第二编码器为字典键编码器。

具体地，记当前待检测的视频片段为v^q，在少视学习文献中称为查询视频，记某类行为的某一支持视频片段为v^k，在少视学习文献中称为字典键视频。利用两个编码器f和g（编码器可为任意卷积网络或Transformer架构），分别对v^q和v^k进行编码，生成查询视频和字典键视频的特征向量，分别记作u^q和u^k。然后，将uq和uk输入对比损失函数计算损失值，并基于此计算梯度并将其回传，从而实现对模型参数（包括查询编码器参数和字典键编码器参数）的训练。

在本实施例中，给定一个样本集，其中包含C类感兴趣泳客行为，每一类行为共总有S_C个样本，本实施例提出一种“N类-K视”的训练方法，首先，从样本集中随机采样出一个包含N类、每类包含K个样本的子集，称之为“任务”。接下来，从N类中随机采样一个类别c，再从任务中随机取类别c的一个样本/>，即查询视频，将任务中其余的视频/>作为支持视频集。获得查询视频和支持视频集后，利用查询编码器/>对查询视频进行编码，生成查询视频编码向量/>，利用支持编码器g(v^k)对支持视频进行编码，生成支持视频编码向量集/>。然后，将编码向量输入至损失计算函数中，输出损失值/>，并将当前任务上的损失/>与已有损失累加。接下来，判断c是否小于N：如果是，则进行下一次迭代；否则，先更新编码器参数，再判断训练是否收敛，如果未收敛，则进入下一轮任务采样，如果已收敛，则终止训练。

其中，已有损失是指初始损失为零，将初始损失叠加每次计算所得的损失值构成的总和。

S160、计算所述第一编码向量与第二编码向量的相似度，以得到相似度。

在本实施例中，相似度是指第一编码向量与第二编码向量内的每个向量都进行相似度的计算，以此得到的多个数值。

具体地，采用相似度计算函数计算所述第一编码向量与第二编码向量的点积，以得到相似度。

S170、确定最大相似度对应的支持视频集内的视频中的人体框行为类别，以得到泳客行为检测结果。

在本实施例中，泳客行为检测结果是指第二编码向量与第一编码向量相似度最高的向量所对应的视频中标注的人体框行为类别。

在本实施例中，将学习得到的编码器记为f^*(v^q)和g^*(v^k)。在预测阶段，分别将查询视频v^q和字典键视频v^k输入对应的编码器，获得特征向量u^q和u^k，然后将这两个特征向量输入相似度计算函数，计算得到查询视频和支持视频的相似度。利用这一方法计算该查询视频和所有支持视频的相似度，最后将查询视频对应的行为类别预测为相似度最高的支持视频的类别。

具体地，请参阅图3，将待检测视频（来自泳馆监控相机视频流）输入检测器d(v)，获得泳馆场景下的人体检测框。对于每一个检测出来的人体检测框，判断是否属于感兴趣行为，也就是是否有一些需要进行警示的行为，具体地，利用计算机视觉领域常用的RoIAlign方法，将人体框区域对应的特征提取出来，将其输入至查询编码器f^*(v^q)进行编码，并将编码向量和各个支持视频中的编码向量输入至相似度计算函数sim(v^q，v^k)计算相似度，最后将人体检测框的行为类别预测为最大相似度对应的支持视频的人体框行为类别。当各个检测人体框的行为类别预测完毕，如其中存在感兴趣的泳客行为比如溺水等行为，则触发警报。

本实施例的方法是基于泳池监控视频的人体目标行为检测技术，成果复制推广简便，将有力保障游泳场馆中的人身安全，在最大程度上减少溺水事故发生可能；提升泳客行为识别深度学习模型的泛化性能，实现防溺水智能系统的便捷推广。为此，本实施例提出基于少视学习的泳池溺水行为检测方法，仅需采集和标注少量新泳馆数据即可实现检测模型的有效泛化。在行为检测模型训练中引入对比学习技术，实现对静态外观和运动规律相似、但类别不同的多种行为的有效表征。本实施例的方法主要应用于游泳场馆，场景具有一定的特殊性，但其智慧化管理模型可推广至其他密闭场馆，研究构建智慧化安全管理系统。同时，动态数据识别、采集、跟踪、分析等原理可运用到亚运会等国际国内大型综合性运动会管理上，通过人工智能进行辅助决策、方案优化和资源调配，提高赛事及场馆运行的科学性、经济性。本实施例实现体育管理的数据化。在粗放式场馆经营管理的模式中，职能部门无法有效获取到场馆相关的服务人群数据、安全数据。无法有效进行管理指导，规范制定，通过项目的完成，将从以上多个缺口突破，形成全方面实时的数据，并形成场馆安全库。

上述的泳客行为检测方法，通过对待检测视频进行人体检测，并提取特征，将提取结果输入至查询编码器内进行编码，将支持视频集内的所有视频输入至字典键编码器内进行编码，计算这两者的相似度，并确定最大相似度对应的支持视频集内的视频中的人体框行为类别为当前泳客行为，实现有效地检测泳客行为，提高检测准确率以及效率。

图9是本发明实施例提供的一种泳客行为检测装置300的示意性框图。如图9所示，对应于以上泳客行为检测方法，本发明还提供一种泳客行为检测装置300。该泳客行为检测装置300包括用于执行上述泳客行为检测方法的单元，该装置可以被配置于服务器中。具体地，请参阅图9，该泳客行为检测装置300包括视频获取单元301、人体检测单元302、特征提取单元303、第一编码单元304、第二编码单元305、相似度计算单元306以及类别确定单元307。

视频获取单元301，用于获取待检测视频；人体检测单元302，用于对所述待检测视频进行人体检测，以得到人体检测框；特征提取单元303，用于对所述人体检测框提取特征，以得到提取结果；第一编码单元304，用于将所述提取结果输入至查询编码器内进行编码，以得到第一编码向量；第二编码单元305，用于将支持视频集内的所有视频输入至字典键编码器内进行编码，以得到第二编码向量；相似度计算单元306，用于计算所述第一编码向量与第二编码向量的相似度，以得到相似度；类别确定单元307，用于确定最大相似度对应的支持视频集内的视频中的人体框行为类别，以得到泳客行为检测结果。

在一实施例中，所述人体检测单元302，用于采用已训练的目标检测模型对所述待检测视频进行人体检测，以得到人体检测框。

在一实施例中，所述相似度计算单元306，用于采用相似度计算函数计算所述第一编码向量与第二编码向量的点积，以得到相似度。

在一实施例中，所述查询编码器以及所述字典键编码器的训练过程相同，都是通过带有人体框以及行为类别标注的视频作为样本集训练卷积网络所得的。

在一实施例中，还包括编码器训练单元；

所述编码器训练单元包括：

样本集构建子单元，用于构建带有人体框以及行为类别标注的视频，以得到样本集；编码器构建子单元，用于构建第一编码器和第二编码器；随机选择子单元，用于从所述样本集内随机选择一个行为类别中的一个样本，以得到查询视频，并将所述样本集内的其他样本作为支持视频集；第一编码子单元，用于将所述查询视频输入至第一编码器进行编码，以得到查询视频编码向量；第二编码子单元，用于将所述支持视频集内的每个视频输入至第二编码器进行编码，以得到支持视频编码向量集；损失值计算子单元，用于将查询视频编码向量以及支持视频编码向量集采用损失计算函数计算损失值；累加子单元，用于将所述损失值与累加的损失值进行累加，更新累加的损失值；判断子单元，用于判断所有行为类别是否都已被选择；更新子单元，用于若所有行为类型都已被选择，则根据累加的损失值进行梯度回传，并更新第一编码器和第二编码器的参数；收敛判断子单元，用于判断所述第一编码器和第二编码器的训练是否收敛；若所述第一编码器和第二编码器的训练未收敛，则执行所述从所述样本集内随机选择一个行为类别中的一个样本，以得到查询视频，并将所述样本集内的其他样本作为支持视频集；确定子单元，用于若所述第一编码器和第二编码器的训练收敛，则确定所述第一编码器为查询编码器，确定所述第二编码器为字典键编码器。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述泳客行为检测装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述泳客行为检测装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图10所示的计算机设备上运行。

请参阅图10，图10是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图10，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种泳客行为检测方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种泳客行为检测方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取待检测视频；对所述待检测视频进行人体检测，以得到人体检测框；对所述人体检测框提取特征，以得到提取结果；将所述提取结果输入至查询编码器内进行编码，以得到第一编码向量；将支持视频集内的所有视频输入至字典键编码器内进行编码，以得到第二编码向量；计算所述第一编码向量与第二编码向量的相似度，以得到相似度；确定最大相似度对应的支持视频集内的视频中的人体框行为类别，以得到泳客行为检测结果。

其中，所述查询编码器以及所述字典键编码器的训练过程相同，都是通过带有人体框以及行为类别标注的视频作为样本集训练卷积网络所得的。

在一实施例中，处理器502在实现所述查询编码器以及所述字典键编码器的训练过程步骤时，具体实现如下步骤：

构建带有人体框以及行为类别标注的视频，以得到样本集；构建第一编码器和第二编码器；从所述样本集内随机选择一个行为类别中的一个样本，以得到查询视频，并将所述样本集内的其他样本作为支持视频集；将所述查询视频输入至第一编码器进行编码，以得到查询视频编码向量；将所述支持视频集内的每个视频输入至第二编码器进行编码，以得到支持视频编码向量集；将查询视频编码向量以及支持视频编码向量集采用损失计算函数计算损失值；将所述损失值与累加的损失值进行累加，更新累加的损失值；判断所有行为类别是否都已被选择；若所有行为类型都已被选择，则根据累加的损失值进行梯度回传，并更新第一编码器和第二编码器的参数；判断所述第一编码器和第二编码器的训练是否收敛；若所述第一编码器和第二编码器的训练未收敛，则执行所述从所述样本集内随机选择一个行为类别中的一个样本，以得到查询视频，并将所述样本集内的其他样本作为支持视频集；若所述第一编码器和第二编码器的训练收敛，则确定所述第一编码器为查询编码器，确定所述第二编码器为字典键编码器。

其中，所述损失计算函数为，其中，表示第s个查询视频中的第n个人体框对应的编码向量，/>表示第t个支持视频中的第m个人体框对应的编码向量，/>为指示函数，是指当第s个查询视频中的第n个人体框对应的行为类别和第t个支持视频中的第m个人体框对应的行为类别相同时，输出1，否则输出0；/>为相似度计算函数，输出向量/>和/>的点积。

在一实施例中，处理器502在实现所述对所述待检测视频进行人体检测，以得到人体检测框步骤时，具体实现如下步骤：

在一实施例中，处理器502在实现所述计算所述第一编码向量与第二编码向量的相似度，以得到相似度步骤时，具体实现如下步骤：

应当理解，在本申请实施例中，处理器502可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路 (Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述查询编码器以及所述字典键编码器的训练过程步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述待检测视频进行人体检测，以得到人体检测框步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述计算所述第一编码向量与第二编码向量的相似度，以得到相似度步骤时，具体实现如下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，终端，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.泳客行为检测方法，其特征在于，包括：

获取待检测视频；

对所述待检测视频进行人体检测，以得到人体检测框；

对所述人体检测框提取特征，以得到提取结果；

确定最大相似度对应的支持视频集内的视频中的人体框行为类别，以得到泳客行为检测结果；

其中，所述查询编码器以及所述字典键编码器的训练过程相同，都是通过带有人体框以及行为类别标注的视频作为样本集训练卷积网络所得的；

所述查询编码器以及所述字典键编码器的训练过程包括：

构建带有人体框以及行为类别标注的视频，以得到样本集；

构建第一编码器和第二编码器；

判断所有行为类别是否都已被选择；

判断所述第一编码器和第二编码器的训练是否收敛；

若所述第一编码器和第二编码器的训练收敛，则确定所述第一编码器为查询编码器，确定所述第二编码器为字典键编码器；

所述损失计算函数为其中，/>表示第s个查询视频中的第n个人体框对应的编码向量，/>表示第t个支持视频中的第m个人体框对应的编码向量，1(n,t,m)为指示函数，是指当第s个查询视频中的第n个人体框对应的行为类别和第t个支持视频中的第m个人体框对应的行为类别相同时，输出1，否则输出0；为相似度计算函数，输出向量/>和/>的点积。

2.根据权利要求1所述的泳客行为检测方法，其特征在于，所述对所述待检测视频进行人体检测，以得到人体检测框，包括：

3.根据权利要求1所述的泳客行为检测方法，其特征在于，所述计算所述第一编码向量与第二编码向量的相似度，以得到相似度，包括：

4.泳客行为检测装置，其特征在于，包括：

视频获取单元，用于获取待检测视频；

类别确定单元，用于确定最大相似度对应的支持视频集内的视频中的人体框行为类别，以得到泳客行为检测结果；

所述查询编码器以及所述字典键编码器的训练过程包括：

构建带有人体框以及行为类别标注的视频，以得到样本集；

构建第一编码器和第二编码器；

判断所有行为类别是否都已被选择；

判断所述第一编码器和第二编码器的训练是否收敛；

5.根据权利要求4所述的泳客行为检测装置，其特征在于，所述人体检测单元，用于采用已训练的目标检测模型对所述待检测视频进行人体检测，以得到人体检测框。

6.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的方法。

7.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的方法。