CN116453067B

CN116453067B - 基于动态视觉识别的短跑计时方法

Info

Publication number: CN116453067B
Application number: CN202310730888.3A
Authority: CN
Inventors: 刘洋; 李杨杨; 周健峰; 刘文博
Original assignee: Guangzhou Silinger Technology Co ltd
Current assignee: Guangzhou Leti Technology Co ltd
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-09-08
Anticipated expiration: 2043-06-20
Also published as: CN116453067A

Abstract

本发明公开了一种基于动态视觉识别的短跑计时方法，其在比赛现场设置摄像头，对起跑线和运动员进行拍摄，获取起跑图像；采用基于深度学习的人工智能技术，挖掘所述起跑图像的隐含特征分布信息，并基于此对于运动对象是否发生抢跑违规现象进行检测判断。这样，可以提高比赛结果的公正性和可信度。

Description

基于动态视觉识别的短跑计时方法

技术领域

本发明涉及智能化计时技术领域，尤其涉及一种基于动态视觉识别的短跑计时方法。

背景技术

传统的短跑冲线计时方法需要裁判员在终点线前手动掐表来计时，这种人工计时的方法不仅容易受到裁判员个人水平的影响，还可能受到外界因素的干扰，例如光线、声音等等。这些因素都可能导致计时的误差，从而影响比赛结果的公正性和可信度。

因此，期待一种优化的短跑计时方法。

发明内容

本发明实施例提供一种基于动态视觉识别的短跑计时方法，其在比赛现场设置摄像头，对起跑线和运动员进行拍摄，获取起跑图像；采用基于深度学习的人工智能技术，挖掘所述起跑图像的隐含特征分布信息，并基于此对于运动对象是否发生抢跑违规现象进行检测判断。这样，可以提高比赛结果的公正性和可信度。

本发明实施例还提供了一种基于动态视觉识别的短跑计时方法，其包括：获取由部署于起跑线附近的第一摄像头采集的起跑图像，并基于所述起跑图像判断被监测对象是否抢跑；以及获取由部署于终点线附近的第二摄像头采集的结束图像，并基于所述结束图像确定所述被监测对象的冲线时刻节点。

本发明实施例中，基于所述起跑图像判断被监测对象是否抢跑，包括：将所述起跑图像通过起跑线目标检测网络和运动对象目标检测网络以得到起跑线感兴趣区域图像和运动对象感兴趣区域图像；将所述起跑线感兴趣区域图像通过基于卷积神经网络模型的线条特征提取器以得到起跑线特征向量，其中，所述卷积神经网络模型包含1-3个卷积层；将所述运动对象感兴趣区域图像通过包含嵌入层的ViT模型以得到运动对象特征向量；将所述起跑线特征向量与所述运动对象特征向量进行向量相乘以将所述运动对象特征向量投影到所述起跑线特征向量所在的特征空间以得到关联特征矩阵；以及，将所述关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示运动对象的抢跑违规的几率是否超过预定阈值。

本发明实施例中，所述起跑线目标检测网络为CenterNet、ExtremeNet或RepPoints，所述运动对象目标检测网络为CenterNet、ExtremeNet或RepPoints。

本发明实施例中，所述基于卷积神经网络模型的线条特征提取器包括输入层、第一卷积层、第一激活层、第一池化层、第二卷积层、第二激活层、第二池化层、第三卷积层、第三激活层、第三池化层、展平层、全连接层和输出层。

本发明实施例中，将所述运动对象感兴趣区域图像通过包含嵌入层的ViT模型以得到运动对象特征向量，包括：对所述运动对象感兴趣区域图像进行图像分块处理以得到图像块的序列；使用所述ViT模型的嵌入层对所述图像块的序列中的各个图像块进行向量嵌入化以得到图像块嵌入向量的序列；以及，将所述图像块嵌入向量的序列输入所述ViT模型的转换器以得到所述运动对象特征向量。

本发明实施例中，将所述图像块嵌入向量的序列输入所述ViT模型的转换器以得到所述运动对象特征向量，包括：将所述图像块嵌入向量的序列进行一维排列以得到图像块全局特征向量；计算所述图像块全局特征向量与所述图像块嵌入向量的序列中各个图像块嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵；分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，分别以所述多个概率值中各个概率值作为权重对所述图像块嵌入向量的序列中各个图像块嵌入向量进行加权以得到所述运动对象特征向量。

本发明实施例中，将所述起跑线特征向量与所述运动对象特征向量进行向量相乘以将所述运动对象特征向量投影到所述起跑线特征向量所在的特征空间以得到关联特征矩阵，包括：对所述起跑线特征向量和所述运动对象特征向量进行局部序列语义的片段式富化融合以获得所述关联特征向量；以及，将所述关联特征向量与其自身的转置相乘以得到所述关联特征矩阵。

本发明实施例中，对所述起跑线特征向量和所述运动对象特征向量进行局部序列语义的片段式富化融合以获得所述关联特征向量，包括：以如下优化公式对所述起跑线特征向量和所述运动对象特征向量进行局部序列语义的片段式富化融合以获得所述关联特征向量；其中，所述优化公式为：，其中，/> 为所述起跑线特征向量，/>为所述运动对象特征向量，/>为所述关联特征向量，/>为所述运动对象特征向的转置向量，/>为所述起跑线特征向量和所述运动对象特征向量之间的距离矩阵，/>和/>均为列向量，且/>是权重超参数，/>表示矩阵乘法，/>表示按位置加法。

本发明实施例中，将所述关联特征向量与其自身的转置相乘以得到所述关联特征矩阵，包括：以如下关联公式将所述关联特征向量与其自身的转置相乘以得到所述关联特征矩阵；其中，所述关联公式为：，其中，/>表示所述关联特征向量，/>表示所述关联特征向量的转置向量，/>表示所述关联特征矩阵，/>表示矩阵相乘。

本发明实施例中，将所述关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示运动对象的抢跑违规的几率是否超过预定阈值，包括：将所述关联特征矩阵按照行向量或列向量展开为分类特征向量；使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及，将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

本发明实施例中，基于动态视觉识别的短跑计时方法，其在比赛现场设置摄像头，对起跑线和运动员进行拍摄，获取起跑图像；采用基于深度学习的人工智能技术，挖掘所述起跑图像的隐含特征分布信息，并基于此对于运动对象是否发生抢跑违规现象进行检测判断。这样，可以提高比赛结果的公正性和可信度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

在附图中：图1为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法的应用场景图。

图2为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法的流程图。

图3为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法中步骤110的子步骤的流程图。

图4为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法中步骤110的系统架构的示意图。

图5为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法中步骤113的子步骤的流程图。

图6为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法中步骤1133的子步骤的流程图。

图7为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法中步骤114的子步骤的流程图。

图8为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法中步骤115的子步骤的流程图。

图9为本发明实施例中提供的一种基于动态视觉识别的短跑计时系统的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

应可以理解，传统的短跑冲线计时需要裁判终点线前掐表来计时，这种方法依靠人工计时准确性低。

具体地，本申请提供了一种基于动态视觉识别的短跑计时方法，其具体步骤，包括：S1、获取由部署于起跑线附近的第一摄像头采集的起跑图像，并基于所述起跑图像判断被监测对象是否抢跑；以及，S2、获取由部署于终点线附近的第二摄像头采集的结束图像，并基于所述结束图像确定所述被监测对象的冲线时刻节点。

在本申请一个具体的示例中，所述步骤S1，包括：检测每个跑道测试者的人体身形框，根据身形框底部中点的坐标位置是否有越过起始线来判断在准备阶段是否有抢跑动作，为减少抢跑的误判，循环遍历检测视频画面帧中每个测试者抢跑动作，规定连续检测到6帧都有抢跑违规动作时将最终判定有测试者抢跑。所述步骤S2，包括：在终点线前方5至6米远位置放置终点时刻抓拍摄像头，检测每个跑道的运动员冲线时刻节点，通过检测人形框底部中点是否越过终点线。具体地，根据赛道，通过检测每个细分赛道内有人体身形框底部中点坐标点越过终点线，则记录该赛道撞线时刻，为减少误报，测试者需越过终点线0.125倍的该赛道宽度距离为有效撞线，此外将终点线前方0.25倍视频帧底部到终点线的距离作为撞线后的有效检测区域，目的为防止其他赛道测试者在平面视角内闯入其他赛道造成该赛道测试者撞线时间节点错误。

该方法实现了短跑冲线的自动化精确识别，减少人工掐表带来的误差，在不同的室外环境均可达到良好的测试效果。

在本申请的另一具体的示例中，所述步骤S1包括如下步骤：首先获取由摄像头采集的被监控对象的起跑图像。在实际应用中，通过在比赛现场设置摄像头，对起跑线和运动员进行拍摄，获取所述起跑图像。

接着将所述起跑图像通过起跑线目标检测网络和运动对象目标检测网络以得到起跑线感兴趣区域图像和运动对象感兴趣区域图像。通过目标检测网络，可以识别出起跑图像中的起跑线和运动员，并将它们从背景中分离出来，以便后续的特征提取。

具体来说，起跑线目标检测网络可以识别起跑图像中的起跑线目标，将其标记并框出，得到起跑线感兴趣区域图像。而运动对象目标检测网络可以识别起跑图像中的运动员目标，将其标记并框出，得到运动对象感兴趣区域图像。通过这两个目标检测网络，可以有效地将起跑图像中的目标分离出来，为后续的特征提取和分类等计算操作提供了基础数据。在一个实施例中，所述起跑线目标检测网络和所述运动对象目标检测网络为CenterNet、ExtremeNet或RepPoints。这些都是基于无锚窗的方法，解决了锚窗所带来的难以识别尺度变化大的目标、训练过程中正负样本不平衡以及对内存的高额占用等缺点。

然后，将所述起跑线感兴趣区域图像通过基于卷积神经网络模型的线条特征提取器以得到起跑线特征向量，其中，所述卷积神经网络模型包含1-3个卷积层。这里，卷积神经网络（Convolutional Neural Network，CNN）是一种深度学习模型，具有良好的图像特征提取能力，适用于对图像进行复杂的计算操作。具体来说，基于卷积神经网络模型的线条特征提取器包含1-3个卷积层，可以对起跑线感兴趣区域图像进行卷积处理，提取出其中的浅层特征，例如线条、轮廓等。

在本申请的一个具体示例中，所述基于卷积神经网络模型的线条特征提取器的网络结构是输入层->卷积层 1->激活层 1->池化层 1->卷积层 2->激活层 2->池化层 2->卷积层 3->激活层 3->池化层 3->展平层->全连接层->输出层。也就是，所述基于卷积神经网络模型的线条特征提取器包括输入层、第一卷积层、第一激活层、第一池化层、第二卷积层、第二激活层、第二池化层、第三卷积层、第三激活层、第三池化层、展平层、全连接层和输出层。其中，所述第一卷积层 16 个大小为3×3的卷积核，步长为1，填充为 SAME，所述第二卷积层使用 32 个大小为3×3的卷积核，步长为1，填充为 SAME，所述第三卷积层使用64 个大小为3×3的卷积核，步长为1，填充为 SAME，所述第一激活层、所述第二激活层和所述第三激活层使用 ReLU 函数进行非线性变换，所述第一池化层使用最大池化方法，池化核大小为 2×2，步长为 2，填充为 SAME，所述第二池化层使用最大池化方法，池化核大小为 2×2，步长为 2，填充为 SAME，所述第三池化层使用最大池化方法，池化核大小为 2×2，步长为 2，填充为 SAME。

进一步地，将所述运动对象感兴趣区域图像通过包含嵌入层的ViT模型以得到运动对象特征向量。也就是，利用包含嵌入层的ViT模型从运动对象感兴趣区域图像中提取出有意义的特征信息。其中，ViT（Vision Transformer）是一种基于Transformer的图像处理模型，通过将图像分割成一系列的图块，然后通过嵌入层对各个图块进行嵌入操作后输入到Transformer中，从而实现对图像的上下文语义关联的提取。相比于传统的卷积神经网络模型，ViT模型可以更好地处理图像中的全局特征和长程依赖关系，具有更好的图像分类能力。

随后，将所述起跑线特征向量与所述运动对象特征向量进行向量相乘以将所述运动对象特征向量投影到所述起跑线特征向量所在的特征空间以得到关联特征矩阵，所述关联特征矩阵能够反映二者在空间上的相对位置关系和关联程度。继而将所述关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示运动对象的抢跑违规的几率是否超过预定阈值。其中，分类器是一个机器学习模型，可以根据输入的特征向量对其进行分类，将其归为某个类别标签。在本申请的技术方案中，使用二分类器将分类标签设定为“运动对象的抢跑违规的几率超过预定阈值”和“运动对象的抢跑违规的几率没有超过预定阈值”。简单来说，运动对象的抢跑违规的几率超过预定阈值就表示该运动对象有抢跑动作。也就是，在实际应用中，可以将分类器输出的结果与一个预先设定的阈值进行比较，如果分类器输出的结果大于等于该阈值，则认为运动员存在抢跑违规行为，否则认为没有抢跑违规行为。这个阈值可以根据实际情况进行调整，以达到最佳的分类效果。

在本申请的技术方案中，在将所述起跑线特征向量与所述运动对象特征向量进行向量相乘以得到所述关联特征矩阵时，是将所述起跑线特征向量与所述运动对象特征向量进行逐位置关联以得到所述关联特征矩阵，由此，所述关联特征矩阵表达所述起跑线特征向量与所述运动对象特征向量之间的特征值粒度关联，也因此期望进一步获得所述起跑线特征向量与所述运动对象特征向量之间的特征向量粒度的关联表达。

因此，考虑到所述起跑线特征向量是所述起跑线感兴趣区域图像基于卷积神经网络模型的卷积核特征提取粒度的局部图像语义关联特征序列，而所述运动对象特征向量是所述运动对象感兴趣区域图像的基于图像分块的局部图像特征语义的上下文关联序列，因此对所述起跑线特征向量，例如记为及所述运动对象特征向量，例如记为/>进行局部序列语义的片段式富化融合，以获得所述关联特征向量，例如记为/>，具体表示为：，/>为特征向量/>和和特征向量/>之间的距离矩阵，即/>，/>和/>均为列向量，且/>是权重超参数。

这里，所述局部序列语义的片段式富化融合基于序列的片段特征分布对序列的预定分布方向上的方向性语义的编码效果，来以序列片段之间的相似性嵌入作为用于序列间关联的重加权因数，从而对序列之间在各个片段级别的基于特征表象（featureappearance）的相似性进行捕获，实现了所述起跑线特征向量和所述运动对象特征向量的局部片段级语义的富化式融合。然后，再将所述关联特征向量/>与其自身的转置相乘，就获得了所述起跑线特征向量与所述运动对象特征向量之间的特征向量粒度的关联表达，再将所述关联表达与所述关联特征矩阵融合来优化所述关联特征矩阵，就可以提升所述关联特征矩阵的特征表达效果。

图1为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法的应用场景图。如图1所示，在该应用场景中，首先，获取由部署于起跑线附近的第一摄像头采集的起跑图像（例如，如图1中所示意的C）；然后，将获取的起跑图像输入至部署有基于动态视觉识别的短跑计时算法的服务器（例如，如图1中所示意的S）中，其中所述服务器能够基于动态视觉识别的短跑计时算法对所述起跑图像进行处理，以生成用于表示运动对象的抢跑违规的几率是否超过预定阈值的分类结果。

在介绍了本发明的基本原理之后，下面将参考附图来具体介绍本发明的各种非限制性实施例。

在本发明的一个实施例中，图2为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法的流程图。如图2所示，根据本发明实施例的基于动态视觉识别的短跑计时方法100，包括：110，获取由部署于起跑线附近的第一摄像头采集的起跑图像，并基于所述起跑图像判断被监测对象是否抢跑；以及，120，获取由部署于终点线附近的第二摄像头采集的结束图像，并基于所述结束图像确定所述被监测对象的冲线时刻节点。

图3为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法中步骤110的子步骤的流程图。如图3所示，基于所述起跑图像判断被监测对象是否抢跑，包括：111，将所述起跑图像通过起跑线目标检测网络和运动对象目标检测网络以得到起跑线感兴趣区域图像和运动对象感兴趣区域图像；112，将所述起跑线感兴趣区域图像通过基于卷积神经网络模型的线条特征提取器以得到起跑线特征向量，其中，所述卷积神经网络模型包含1-3个卷积层；113，将所述运动对象感兴趣区域图像通过包含嵌入层的ViT模型以得到运动对象特征向量；114，将所述起跑线特征向量与所述运动对象特征向量进行向量相乘以将所述运动对象特征向量投影到所述起跑线特征向量所在的特征空间以得到关联特征矩阵；以及，115，将所述关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示运动对象的抢跑违规的几率是否超过预定阈值。

图4为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法中步骤110的系统架构的示意图。如图4所示，在该网络架构中，首先，将所述起跑图像通过起跑线目标检测网络和运动对象目标检测网络以得到起跑线感兴趣区域图像和运动对象感兴趣区域图像；然后，将所述起跑线感兴趣区域图像通过基于卷积神经网络模型的线条特征提取器以得到起跑线特征向量，其中，所述卷积神经网络模型包含1-3个卷积层；接着，将所述运动对象感兴趣区域图像通过包含嵌入层的ViT模型以得到运动对象特征向量；然后，将所述起跑线特征向量与所述运动对象特征向量进行向量相乘以将所述运动对象特征向量投影到所述起跑线特征向量所在的特征空间以得到关联特征矩阵；以及，最后，将所述关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示运动对象的抢跑违规的几率是否超过预定阈值。

具体地，在步骤111中，将所述起跑图像通过起跑线目标检测网络和运动对象目标检测网络以得到起跑线感兴趣区域图像和运动对象感兴趣区域图像。在本申请的另一具体的示例中，所述步骤S1包括如下步骤：首先获取由摄像头采集的被监控对象的起跑图像。在实际应用中，通过在比赛现场设置摄像头，对起跑线和运动员进行拍摄，获取所述起跑图像。

具体地，所述起跑线目标检测网络为CenterNet、ExtremeNet或RepPoints，所述运动对象目标检测网络为CenterNet、ExtremeNet或RepPoints。

具体地，在步骤112中，将所述起跑线感兴趣区域图像通过基于卷积神经网络模型的线条特征提取器以得到起跑线特征向量，其中，所述卷积神经网络模型包含1-3个卷积层。然后，将所述起跑线感兴趣区域图像通过基于卷积神经网络模型的线条特征提取器以得到起跑线特征向量，其中，所述卷积神经网络模型包含1-3个卷积层。这里，卷积神经网络（Convolutional Neural Network，CNN）是一种深度学习模型，具有良好的图像特征提取能力，适用于对图像进行复杂的计算操作。具体来说，基于卷积神经网络模型的线条特征提取器包含1-3个卷积层，可以对起跑线感兴趣区域图像进行卷积处理，提取出其中的浅层特征，例如线条、轮廓等。

卷积神经网络(Convolutional Neural Network，CNN)是一种人工神经网络，在图像识别等领域有着广泛的应用。卷积神经网络可以包括输入层、隐藏层和输出层，其中，隐藏层可以包括卷积层、池化(pooling)层、激活层和全连接层等，上一层根据输入的数据进行相应的运算，将运算结果输出给下一层，输入的初始数据经过多层的运算之后得到一个最终的结果。

卷积神经网络模型利用卷积核作为特征过滤因子在图像局部特征提取方面具有非常优异的性能表现，且相较于传统的基于统计或者基于特征工程的图像特征提取算法，所述卷积神经网络模型具有更强的特征提取泛化能力和拟合能力。

具体地，在步骤113中，将所述运动对象感兴趣区域图像通过包含嵌入层的ViT模型以得到运动对象特征向量。进一步地，将所述运动对象感兴趣区域图像通过包含嵌入层的ViT模型以得到运动对象特征向量。也就是，利用包含嵌入层的ViT模型从运动对象感兴趣区域图像中提取出有意义的特征信息。其中，ViT（Vision Transformer）是一种基于Transformer的图像处理模型，通过将图像分割成一系列的图块，然后通过嵌入层对各个图块进行嵌入操作后输入到Transformer中，从而实现对图像的上下文语义关联的提取。相比于传统的卷积神经网络模型，ViT模型可以更好地处理图像中的全局特征和长程依赖关系，具有更好的图像分类能力。

图5为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法中步骤113的子步骤的流程图，如图5所示，将所述运动对象感兴趣区域图像通过包含嵌入层的ViT模型以得到运动对象特征向量，包括：1131，对所述运动对象感兴趣区域图像进行图像分块处理以得到图像块的序列；1132，使用所述ViT模型的嵌入层对所述图像块的序列中的各个图像块进行向量嵌入化以得到图像块嵌入向量的序列；以及，1133，将所述图像块嵌入向量的序列输入所述ViT模型的转换器以得到所述运动对象特征向量。

图6为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法中步骤1133的子步骤的流程图，如图6所示，将所述图像块嵌入向量的序列输入所述ViT模型的转换器以得到所述运动对象特征向量，包括：11331，将所述图像块嵌入向量的序列进行一维排列以得到图像块全局特征向量；11332，计算所述图像块全局特征向量与所述图像块嵌入向量的序列中各个图像块嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵；11333，分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；11334，将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，11335，分别以所述多个概率值中各个概率值作为权重对所述图像块嵌入向量的序列中各个图像块嵌入向量进行加权以得到所述运动对象特征向量。

应可以理解，自2017年Google提出的Transformer结构以来，迅速引发一波热潮，针对于NLP领域的，通过自注意力机制代替传统处理序列数据时采用的循环神经网络结构，不仅实现了并行训练，提升了训练的效率，同时也在应用中取得很好的结果。在NLP中，输入transformer中的是一个序列，而在视觉领域，需要考虑如何将一个2d图片转化为一个1d的序列，最直观的想法就是将图片中的像素点输入到transformer中，但是复杂度太高的问题。

而ViT模型对输入的改进可以降低复杂度，先将图片切分成一个个图像块，然后每一个图像块投影为固定长度的向量送入Transformer中，后续编码器的操作和原始Transformer中完全相同。但是因为对图片分类，因此在输入序列中加入一个特殊的标记，该标记对应的输出即为最后的类别预测。ViT在很多视觉任务上都展现了相当优秀的性能，但是和CNN(Convolutional Neural Network，卷积神经网络)相比，缺少归纳偏置让ViT应用于小数据集时非常依赖模型正则化（model regularization）和数据增广（dataaugmentation）。

具体地，在步骤114中，将所述起跑线特征向量与所述运动对象特征向量进行向量相乘以将所述运动对象特征向量投影到所述起跑线特征向量所在的特征空间以得到关联特征矩阵。随后，将所述起跑线特征向量与所述运动对象特征向量进行向量相乘以将所述运动对象特征向量投影到所述起跑线特征向量所在的特征空间以得到关联特征矩阵，所述关联特征矩阵能够反映二者在空间上的相对位置关系和关联程度。

图7为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法中步骤114的子步骤的流程图，如图7所示，将所述起跑线特征向量与所述运动对象特征向量进行向量相乘以将所述运动对象特征向量投影到所述起跑线特征向量所在的特征空间以得到关联特征矩阵，包括：1141，对所述起跑线特征向量和所述运动对象特征向量进行局部序列语义的片段式富化融合以获得所述关联特征向量；以及，1142，将所述关联特征向量与其自身的转置相乘以得到所述关联特征矩阵。

因此，考虑到所述起跑线特征向量是所述起跑线感兴趣区域图像基于卷积神经网络模型的卷积核特征提取粒度的局部图像语义关联特征序列，而所述运动对象特征向量是所述运动对象感兴趣区域图像的基于图像分块的局部图像特征语义的上下文关联序列，因此对所述起跑线特征向量，例如记为及所述运动对象特征向量，例如记为/>进行局部序列语义的片段式富化融合，以获得所述关联特征向量，例如记为/>，具体表示为：以如下优化公式对所述起跑线特征向量和所述运动对象特征向量进行局部序列语义的片段式富化融合以获得所述关联特征向量；其中，所述优化公式为：/>，其中，/> 为所述起跑线特征向量，/>为所述运动对象特征向量，/>为所述关联特征向量，/>为所述运动对象特征向的转置向量，/>为所述起跑线特征向量和所述运动对象特征向量之间的距离矩阵，/>和/>均为列向量，且/>是权重超参数，/>表示矩阵乘法，表示按位置加法。

进一步地，将所述关联特征向量与其自身的转置相乘以得到所述关联特征矩阵，包括：以如下关联公式将所述关联特征向量与其自身的转置相乘以得到所述关联特征矩阵；其中，所述关联公式为：，其中，/>表示所述关联特征向量，/>表示所述关联特征向量的转置向量，/>表示所述关联特征矩阵，/>表示矩阵相乘。

具体地，在步骤115中，将所述关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示运动对象的抢跑违规的几率是否超过预定阈值。将所述关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示运动对象的抢跑违规的几率是否超过预定阈值。其中，分类器是一个机器学习模型，可以根据输入的特征向量对其进行分类，将其归为某个类别标签。在本申请的技术方案中，使用二分类器将分类标签设定为“运动对象的抢跑违规的几率超过预定阈值”和“运动对象的抢跑违规的几率没有超过预定阈值”。

简单来说，运动对象的抢跑违规的几率超过预定阈值就表示该运动对象有抢跑动作。也就是，在实际应用中，可以将分类器输出的结果与一个预先设定的阈值进行比较，如果分类器输出的结果大于等于该阈值，则认为运动员存在抢跑违规行为，否则认为没有抢跑违规行为。这个阈值可以根据实际情况进行调整，以达到最佳的分类效果。

图8为本发明实施例中提供的一种基于动态视觉识别的短跑计时方法中步骤115的子步骤的流程图，如图8所示，将所述关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示运动对象的抢跑违规的几率是否超过预定阈值，包括：1151，将所述关联特征矩阵按照行向量或列向量展开为分类特征向量；1152，使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及，1153，将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

综上，基于本发明实施例的基于动态视觉识别的短跑计时方法100被阐明，其在比赛现场设置摄像头，对起跑线和运动员进行拍摄，获取起跑图像；采用基于深度学习的人工智能技术，挖掘所述起跑图像的隐含特征分布信息，并基于此对于运动对象是否发生抢跑违规现象进行检测判断。这样，可以提高比赛结果的公正性和可信度。

在本发明的一个实施例中，图9为本发明实施例中提供的一种基于动态视觉识别的短跑计时系统的框图。如图9所示，根据本发明实施例的基于动态视觉识别的短跑计时系统200，包括：起跑图像获取模块210，用于获取由部署于起跑线附近的第一摄像头采集的起跑图像，并基于所述起跑图像判断被监测对象是否抢跑；以及，结束图像获取模块220，用于获取由部署于终点线附近的第二摄像头采集的结束图像，并基于所述结束图像确定所述被监测对象的冲线时刻节点。

在本发明的一个具体示例中，在上述基于动态视觉识别的短跑计时系统中，所述起跑图像获取模块，包括：感兴趣区域获取单元，用于将所述起跑图像通过起跑线目标检测网络和运动对象目标检测网络以得到起跑线感兴趣区域图像和运动对象感兴趣区域图像；线条特征提取单元，用于将所述起跑线感兴趣区域图像通过基于卷积神经网络模型的线条特征提取器以得到起跑线特征向量，其中，所述卷积神经网络模型包含1-3个卷积层；嵌入编码单元，用于将所述运动对象感兴趣区域图像通过包含嵌入层的ViT模型以得到运动对象特征向量；特征矩阵计算单元，用于将所述起跑线特征向量与所述运动对象特征向量进行向量相乘以将所述运动对象特征向量投影到所述起跑线特征向量所在的特征空间以得到关联特征矩阵；以及，抢跑违规的几率生成单元，用于将所述关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示运动对象的抢跑违规的几率是否超过预定阈值。

在本发明的一个具体示例中，在上述基于动态视觉识别的短跑计时系统中，所述起跑线目标检测网络为CenterNet、ExtremeNet或RepPoints，所述运动对象目标检测网络为CenterNet、ExtremeNet或RepPoints。

在本发明的一个具体示例中，在上述基于动态视觉识别的短跑计时系统中，所述基于卷积神经网络模型的线条特征提取器包括输入层、第一卷积层、第一激活层、第一池化层、第二卷积层、第二激活层、第二池化层、第三卷积层、第三激活层、第三池化层、展平层、全连接层和输出层。

在本发明的一个具体示例中，在上述基于动态视觉识别的短跑计时系统中，所述嵌入编码单元，包括：分词子单元，用于对所述运动对象感兴趣区域图像进行图像分块处理以得到图像块的序列；嵌入化子单元，用于使用所述ViT模型的嵌入层对所述图像块的序列中的各个图像块进行向量嵌入化以得到图像块嵌入向量的序列；以及，转换编码子单元，用于将所述图像块嵌入向量的序列输入所述ViT模型的转换器以得到所述运动对象特征向量。

在本发明的一个具体示例中，在上述基于动态视觉识别的短跑计时系统中，所述转换编码子单元，包括：一维排列二级子单元，用于将所述图像块嵌入向量的序列进行一维排列以得到图像块全局特征向量；自注意力二级子单元，用于计算所述图像块全局特征向量与所述图像块嵌入向量的序列中各个图像块嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵；标准化二级子单元，用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；激活二级子单元，用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，加权二级子单元，用于分别以所述多个概率值中各个概率值作为权重对所述图像块嵌入向量的序列中各个图像块嵌入向量进行加权以得到所述运动对象特征向量。

在本发明的一个具体示例中，在上述基于动态视觉识别的短跑计时系统中，所述特征矩阵计算单元，包括：融合子单元，用于对所述起跑线特征向量和所述运动对象特征向量进行局部序列语义的片段式富化融合以获得所述关联特征向量；以及，相乘子单元，用于将所述关联特征向量与其自身的转置相乘以得到所述关联特征矩阵。

在本发明的一个具体示例中，在上述基于动态视觉识别的短跑计时系统中，所述融合子单元，用于：以如下优化公式对所述起跑线特征向量和所述运动对象特征向量进行局部序列语义的片段式富化融合以获得所述关联特征向量；其中，所述优化公式为：，其中，/> 为所述起跑线特征向量，/>为所述运动对象特征向量，/>为所述关联特征向量，/>为所述运动对象特征向的转置向量，/>为所述起跑线特征向量和所述运动对象特征向量之间的距离矩阵，/>和/>均为列向量，且/>是权重超参数，/>表示矩阵乘法，/>表示按位置加法。

在本发明的一个具体示例中，在上述基于动态视觉识别的短跑计时系统中，所述相乘子单元，用于：以如下关联公式将所述关联特征向量与其自身的转置相乘以得到所述关联特征矩阵；其中，所述关联公式为：，其中，/>表示所述关联特征向量，表示所述关联特征向量的转置向量，/>表示所述关联特征矩阵，/>表示矩阵相乘。

在本发明的一个具体示例中，在上述基于动态视觉识别的短跑计时系统中，所述抢跑违规的几率生成单元，包括：展开子单元，用于将所述关联特征矩阵按照行向量或列向量展开为分类特征向量；编码子单元，用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及，分类子单元，用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

这里，本领域技术人员可以理解，上述基于动态视觉识别的短跑计时系统中的各个单元和模块的具体功能和操作已经在上面参考图1到图8的基于动态视觉识别的短跑计时方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本发明实施例的基于动态视觉识别的短跑计时系统200可以实现在各种终端设备中，例如用于基于动态视觉识别的短跑计时的服务器等。在一个示例中，根据本发明实施例的基于动态视觉识别的短跑计时系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该基于动态视觉识别的短跑计时系统200可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该基于动态视觉识别的短跑计时系统200同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该基于动态视觉识别的短跑计时系统200与该终端设备也可以是分立的设备，并且基于动态视觉识别的短跑计时系统200可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

本发明实施例还提供一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述方法实施例中任意一种可选或优选的基于卷积神经网络的图像处理方法。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有执行上述方法实施例中任意一种可选或优选的基于卷积神经网络的图像处理方法的计算机程序。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于动态视觉识别的短跑计时方法，其特征在于，包括：

获取由部署于起跑线附近的第一摄像头采集的起跑图像，并基于所述起跑图像判断被监测对象是否抢跑；以及

获取由部署于终点线附近的第二摄像头采集的结束图像，并基于所述结束图像确定所述被监测对象的冲线时刻节点；

其中，基于所述起跑图像判断被监测对象是否抢跑，包括：

将所述起跑图像通过起跑线目标检测网络和运动对象目标检测网络以得到起跑线感兴趣区域图像和运动对象感兴趣区域图像；

将所述起跑线感兴趣区域图像通过基于卷积神经网络模型的线条特征提取器以得到起跑线特征向量；

将所述运动对象感兴趣区域图像通过包含嵌入层的ViT模型以得到运动对象特征向量；

将所述起跑线特征向量与所述运动对象特征向量进行向量相乘以将所述运动对象特征向量投影到所述起跑线特征向量所在的特征空间以得到关联特征矩阵；以及

将所述关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示运动对象的抢跑违规的几率是否超过预定阈值；

其中，所述基于卷积神经网络模型的线条特征提取器包括输入层、第一卷积层、第一激活层、第一池化层、第二卷积层、第二激活层、第二池化层、第三卷积层、第三激活层、第三池化层、展平层、全连接层和输出层；

其中，将所述运动对象感兴趣区域图像通过包含嵌入层的ViT模型以得到运动对象特征向量，包括：

对所述运动对象感兴趣区域图像进行图像分块处理以得到图像块的序列；

使用所述ViT模型的嵌入层对所述图像块的序列中的各个图像块进行向量嵌入化以得到图像块嵌入向量的序列；以及

将所述图像块嵌入向量的序列输入所述ViT模型的转换器以得到所述运动对象特征向量；

其中，将所述图像块嵌入向量的序列输入所述ViT模型的转换器以得到所述运动对象特征向量，包括：

将所述图像块嵌入向量的序列进行一维排列以得到图像块全局特征向量；

计算所述图像块全局特征向量与所述图像块嵌入向量的序列中各个图像块嵌入向量的转置向量之间的乘积以得到多个自注意力关联矩阵；

分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；

将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及

分别以所述多个概率值中各个概率值作为权重对所述图像块嵌入向量的序列中各个图像块嵌入向量进行加权以得到所述运动对象特征向量。

2.根据权利要求1所述的基于动态视觉识别的短跑计时方法，其特征在于，所述起跑线目标检测网络为CenterNet、ExtremeNet或RepPoints，所述运动对象目标检测网络为CenterNet、ExtremeNet或RepPoints。

3.根据权利要求2所述的基于动态视觉识别的短跑计时方法，其特征在于，将所述起跑线特征向量与所述运动对象特征向量进行向量相乘以将所述运动对象特征向量投影到所述起跑线特征向量所在的特征空间以得到关联特征矩阵，包括：

对所述起跑线特征向量和所述运动对象特征向量进行局部序列语义的片段式富化融合以获得关联特征向量；以及

将所述关联特征向量与其自身的转置相乘以得到所述关联特征矩阵。

4.根据权利要求3所述的基于动态视觉识别的短跑计时方法，其特征在于，对所述起跑线特征向量和所述运动对象特征向量进行局部序列语义的片段式富化融合以获得所述关联特征向量，包括：以如下优化公式对所述起跑线特征向量和所述运动对象特征向量进行局部序列语义的片段式富化融合以获得所述关联特征向量；

其中，所述优化公式为：

，

其中，为所述起跑线特征向量，/>为所述运动对象特征向量，/>为所述关联特征向量，/>为所述运动对象特征向的转置向量，/>为所述起跑线特征向量和所述运动对象特征向量之间的距离矩阵，/>和/>均为列向量，且/>是权重超参数，/>表示矩阵乘法，表示按位置加法。

5.根据权利要求4所述的基于动态视觉识别的短跑计时方法，其特征在于，将所述关联特征向量与其自身的转置相乘以得到所述关联特征矩阵，包括：以如下关联公式将所述关联特征向量与其自身的转置相乘以得到所述关联特征矩阵；

其中，所述关联公式为：

，

其中，表示所述关联特征向量，/>表示所述关联特征向量的转置向量，/>表示所述关联特征矩阵，/>表示矩阵相乘。

6.根据权利要求1所述的基于动态视觉识别的短跑计时方法，其特征在于，将所述关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示运动对象的抢跑违规的几率是否超过预定阈值，包括：

将所述关联特征矩阵按照行向量或列向量展开为分类特征向量；

使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及

将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。