CN116524576B - 基于动态视觉识别的长跑计时方法 - Google Patents
基于动态视觉识别的长跑计时方法 Download PDFInfo
- Publication number
- CN116524576B CN116524576B CN202310798549.9A CN202310798549A CN116524576B CN 116524576 B CN116524576 B CN 116524576B CN 202310798549 A CN202310798549 A CN 202310798549A CN 116524576 B CN116524576 B CN 116524576B
- Authority
- CN
- China
- Prior art keywords
- athlete
- decoding
- feature
- endpoint
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003860 storage Methods 0.000 claims abstract description 22
- 238000004080 punching Methods 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 125
- 239000011159 matrix material Substances 0.000 claims description 102
- 230000002457 bidirectional effect Effects 0.000 claims description 51
- 230000004927 fusion Effects 0.000 claims description 30
- 230000011218 segmentation Effects 0.000 claims description 24
- 238000010586 diagram Methods 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 18
- 238000005457 optimization Methods 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 8
- 230000036961 partial effect Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 239000012634 fragment Substances 0.000 claims description 5
- 238000001514 detection method Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 10
- 238000009826 distribution Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011010 flushing procedure Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63B—APPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
- A63B71/00—Games or sports accessories not covered in groups A63B1/00 - A63B69/00
- A63B71/06—Indicating or scoring devices for games or players, or for other sports activities
- A63B71/0686—Timers, rhythm indicators or pacing apparatus using electric or electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63B—APPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
- A63B2220/00—Measuring of physical parameters relating to sporting activity
- A63B2220/80—Special sensors, transducers or devices therefor
- A63B2220/806—Video cameras
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63B—APPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
- A63B2220/00—Measuring of physical parameters relating to sporting activity
- A63B2220/80—Special sensors, transducers or devices therefor
- A63B2220/807—Photo cameras
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Abstract
公开了一种基于动态视觉识别的长跑计时方法。该方法包括:在终点线后方数米处设置龙门架,并在所述龙门架下安装摄像头,以拍摄终点冲线位置;基于所述摄像头传输的画面图像划定所述终点线的冲线区域;在起点处划定人脸识别区域,并进行运动员身份信息和号码牌信息的识别关联;发送开始命令,进行长跑运动比赛;通过所述摄像头采集运动员通过终点线的图像,并对所述号码牌进行分割和识别;运动员每次通过所述终点线被标记为一次冲线,并通过声音播报所述运动员的成绩;以及,将所述运动员的成绩和终点处考核录像保存到智能分析计算机的储存介质中,并上传到信息管理系统。通过这样的方式,可以通过动态视觉方式达到自动化计时的功能。
Description
技术领域
本申请涉及动态视觉识别领域,且更为具体地,涉及一种基于动态视觉识别的长跑计时方法。
背景技术
在体育长跑运动项目中,需要对长跑者进行跑圈计时。目前使用的计时方式包括人工计时和RFID设备计时。人工计时的方式需要工作人员在终点拿着秒表,观测起点处发令枪的烟雾升起时进行计时。当运动员冲到终点位置时,再按下秒表,并按人员身上的号码进行顺序记录,同时根据秒表上的时间进行一一对应成绩。这种方案需要人员进行精准掐表,并且需要大量人力,常常导致结果不精准。RFID设备计时的方式需要人员佩戴已经绑定身份的手环冲线,这种方案需要在终点处搭建一套RFID天线。由于RFID检测是大范围检测,当先抵达者到达时,可能会出现遮挡,导致先抵达者晚于后抵达者被天线检测到,造成名次先后排序的错误,影响长跑计时的准确性。
因此,期望一种优化的基于动态视觉识别的长跑计时方案。
发明内容
有鉴于此,本公开提出了一种基于动态视觉识别的长跑计时方法,可以通过动态视觉方式达到自动化计时的功能,以减少人工掐表计时造成的误差;并且还可以避免RFID等无线传统方式由于检测范围过大造成结果不准确的情况,进而提高长跑计时的准确性和比赛公平性。
根据本公开的一方面,提供了一种基于动态视觉识别的长跑计时方法,其包括:在终点线后方数米处设置龙门架,并在所述龙门架下安装摄像头,以拍摄终点冲线位置;基于所述摄像头传输的画面图像划定所述终点线的冲线区域;在起点处划定人脸识别区域,并进行运动员身份信息和号码牌信息的识别关联;发送开始命令,进行长跑运动比赛;通过所述摄像头采集运动员通过终点线的图像,并对所述号码牌进行分割和识别;运动员每次通过所述终点线被标记为一次冲线,并通过声音播报所述运动员的成绩;以及将所述运动员的成绩和终点处考核录像保存到智能分析计算机的储存介质中,并上传到信息管理系统。
在一种可能的实现方式中,通过所述摄像头采集运动员通过终点线的图像,并对所述号码牌进行分割和识别,包括:获取由架设于终点的所述摄像头采集的运动员终点图像;将所述运动员终点图像通过基于金字塔网络的编码器结构以得到第一至第五特征图;基于所述第一至第五特征图的特征信息传递,将所述第五特征图输入解码器结构以得到运动员终点解码特征矩阵;将所述运动员终点解码特征矩阵通过双向注意力机制模块以得到空间强化运动员终点解码特征矩阵;以及对所述空间强化运动员终点解码特征矩阵进行图像语义分割以得到语义分割结果。
在一种可能的实现方式中,将所述运动员终点图像通过基于金字塔网络的编码器结构以得到第一至第五特征图,包括:将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第一卷积模块以得到第一特征图;将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第二卷积模块以得到第二特征图;将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第三卷积模块以得到第三特征图;将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第四卷积模块以得到第四特征图;以及将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第五卷积模块以得到第五特征图。
在一种可能的实现方式中,所述解码器结构与所述编码器结构具有对称的网络结构。
在一种可能的实现方式中,基于所述第一至第五特征图的特征信息传递,将所述第五特征图输入解码器结构以得到运动员终点解码特征矩阵,包括:将所述第五特征图输入所述解码器结构的第一反卷积模块以得到第一解码特征图;以及融合所述第五特征图和所述第一解码特征图以得到第一融合解码特征图作为所述解码器结构的第二反卷积模块的输入。
在一种可能的实现方式中,将所述运动员终点解码特征矩阵通过双向注意力机制模块以得到空间强化运动员终点解码特征矩阵,包括:将所述运动员终点解码特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量;对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵;将所述双向关联矩阵输入Sigmoid激活函数以得到双向注意力解码特征矩阵;将所述运动员终点解码特征矩阵和所述双向注意力解码特征矩阵分别展开为特征向量以得到运动员终点解码特征向量和双向注意力解码特征向量;融合所述运动员终点解码特征向量和所述双向注意力解码特征向量以得到融合特征向量;以及将所述融合特征向量进行维度重构以得到所述空间强化运动员终点解码特征矩阵。
在一种可能的实现方式中,融合所述运动员终点解码特征向量和所述双向注意力解码特征向量以得到融合特征向量,包括:以如下优化公式对所述运动员终点解码特征向量和所述双向注意力解码特征向量进行局部序列语义的片段式富化融合以得到所述融合特征向量;其中,所述优化公式为:,其中,是所述运动员终点解码特征向量,/>是所述双向注意力解码特征向量, />是所述双向注意力解码特征向量的转置向量,/>为所述运动员终点解码特征向量和所述双向注意力解码特征向量之间的距离矩阵, />和/>均为列向量,且 />是权重超参数,/>表示向量乘法,/>表示向量加法, /> 是所述融合特征向量。
根据本公开的实施例,该方法包括:在终点线后方数米处设置龙门架,并在所述龙门架下安装摄像头,以拍摄终点冲线位置;基于所述摄像头传输的画面图像划定所述终点线的冲线区域;在起点处划定人脸识别区域,并进行运动员身份信息和号码牌信息的识别关联;发送开始命令,进行长跑运动比赛;通过所述摄像头采集运动员通过终点线的图像,并对所述号码牌进行分割和识别;运动员每次通过所述终点线被标记为一次冲线,并通过声音播报所述运动员的成绩;以及,将所述运动员的成绩和终点处考核录像保存到智能分析计算机的储存介质中,并上传到信息管理系统。通过这样的方式,可以通过动态视觉方式达到自动化计时的功能。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开的实施例的基于动态视觉识别的长跑计时方法的流程图。
图2示出根据本公开的实施例的基于动态视觉识别的长跑计时方法的子步骤S150的应用场景图。
图3示出根据本公开的实施例的基于动态视觉识别的长跑计时方法的子步骤S150的流程图。
图4示出根据本公开的实施例的基于动态视觉识别的长跑计时方法的子步骤S150的架构示意图。
图5示出根据本公开的实施例的基于动态视觉识别的长跑计时方法的子步骤S152的流程图。
图6示出根据本公开的实施例的基于动态视觉识别的长跑计时方法的子步骤S153的流程图。
图7示出根据本公开的实施例的基于动态视觉识别的长跑计时方法的子步骤S154的流程图。
图8示出根据本公开的实施例的基于动态视觉识别的长跑计时系统的框图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本申请的部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本申请保护的范围。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
如上所述,目前使用的计时方式包括人工计时和RFID设备计时。人工计时的方式需要人员进行精准掐表,并且需要大量人力,常常导致结果不精准。RFID设备计时的方式需要在终点处搭建一套RFID天线。由于RFID检测是大范围检测,当先抵达者到达时,可能会出现遮挡,导致先抵达者晚于后抵达者被天线检测到,造成名次先后排序的错误,影响长跑计时的准确性。因此,期望一种优化的基于动态视觉识别的长跑计时方案。
具体地,在本申请的技术方案中,提出了一种基于动态视觉识别的长跑计时方法,如图1所示,其包括:S110,在终点线后方数米处设置龙门架,并在所述龙门架下安装摄像头,以拍摄终点冲线位置;S120,基于所述摄像头传输的画面图像划定所述终点线的冲线区域;S130,在起点处划定人脸识别区域,并进行运动员身份信息和号码牌信息的识别关联;S140,发送开始命令,进行长跑运动比赛;S150,通过所述摄像头采集运动员通过终点线的图像,并对所述号码牌进行分割和识别;S160,运动员每次通过所述终点线被标记为一次冲线,并通过声音播报所述运动员的成绩;以及,S170,将所述运动员的成绩和终点处考核录像保存到智能分析计算机的储存介质中,并上传到信息管理系统。这样,能够通过动态视觉方式达到自动化计时的功能,以减少人工掐表计时造成的误差;并且还可以避免RFID等无线传统方式由于检测范围过大造成结果不准确的情况,进而提高长跑计时的准确性和比赛公平性。应可以理解,可以在起点处使用摄像头进行人脸识别,起点处和终点处的连接包括不限于有限网络,无线网络;在终点处采用摄像头进行视频采集,摄像头和智能计算机的通讯包括不限于网线、USB线缆;以及,可以采用包括不限于声音、光信信号等方式进行结果播报。
相应地,考虑到在实际进行长跑计时的过程中,对于通过终点线的运动员的号码牌进行分割识别尤为重要。但是,由于摄像头在采集运动员终点图像时,运动员处于跑步状态,会导致号码牌变得模糊,影响对于号码牌的识别精准度。并且,在实际进行号码牌检测时,还应及时准确地对于过终点线的运动员进行检测,避免过早或过晚检测导致长跑计时不够准确。因此,在此过程中,难点在于如何进行所述运动员终点图像的隐含特征分布信息的充分表达,以此来对于越过终点线的运动员的号码牌进行精准分割识别,从而提高长跑计时的准确性和比赛公平性。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。深度学习以及神经网络的发展为挖掘所述运动员终点图像的隐含特征分布信息提供了新的解决思路和方案。
具体地,在本申请的技术方案中,首先,获取由架设于终点的摄像头采集的运动员终点图像。接着,使用在隐含特征提取方面具有优异表现的卷积神经网络模型来对于所述运动员终点图像进行特征挖掘,特别地,考虑到在进行所述运动员终点图像的特征提取时,不仅需要关注于所述运动员终点图像中关于号码牌的深层语义特征信息,更需要聚焦于图像中关于运动员的轮廓、边缘和位置等浅层特征信息。而金字塔网络主要是解决目标检测中的多尺度问题,其可以同时利用低层特征高分辨率和高层特征的高语义信息,通过融合这些不同层的特征达到很好的效果。因此,在本申请的技术方案中,将所述运动员终点图像通过基于金字塔网络的编码器结构以得到第一至第五特征图。特别地,这里,所述基于金字塔网络的编码器结构采用具有不同深度的第一至第五卷积模块来分别进行所述运动员终点图像的特征挖掘,以在提取出所述运动员终点图像中关于号码牌的深层语义隐含特征的同时,保留运动员的浅层轮廓、边缘和位置等丰富特征信息,进而在后续进行运动员的过线检测和号码牌的识别时提高检测的精准度。应可以理解,金字塔网络主要是解决目标检测中的多尺度问题,通过简单的改变网络连接,在基本不增加原有模型计算量的情况下,可以在不同的特征层上独立进行检测,大幅提升了小目标检测的性能。
然后,在解码阶段,基于所述第一至第五特征图的特征信息传递,将所述第五特征图输入解码器结构以得到运动员终点解码特征矩阵。特别地,这里,所述解码器结构与所述编码器结构具有对称的网络结构。也就是说,所述解码器结构与所述编码器结构采用对称式设计,并配合跳层相加连接的形式,逐步恢复运动员终点图像的分辨率,以使得所述运动员号码牌的深层语义信息在深层特征得以获取,并且关于所述运动员的边浅层特征信息得以保留。
具体地,将所述第五特征图输入所述解码器结构的第一反卷积模块,以通过与所述编码器结构相对称的所述解码器的第一反卷积层来解码以得到第一解码特征图。然后,利用跳层相加连接的形式逐步恢复图像的分辨率。具体来说,进一步再融合所述第五特征图和所述第一解码特征图以得到第一融合解码特征图,以融合所述运动员终点图像的深层语义特征和第一解码特征信息,以此来作为所述解码器的第二反卷积模块的输入,循环解码得到运动员终点解码特征矩阵,以充分的感知不同运动员越过终点线的状态特征。
进一步地,还考虑到由于不同运动员的跑步习惯不同,导致其在越过终点线的状态特征复杂多样,并且由于号码牌的数字特征也复杂多样,因此,为了能够进一步提高对于运动员越过终点线的检测精准度和对于号码牌识别的精准度,在本申请的技术方案中,进一步使用双向注意力机制模块来对所述运动员终点解码特征矩阵进行处理以得到空间强化运动员终点解码特征矩阵。这样,能够充分利用上下文信息来增强空间上关于所述运动员越过终点线的特征和所述号码牌的隐性特征响应和抑制背景特征响应。具体地,所述双向注意力模块分别从水平方向和垂直方向对整个运动员终点解码特征矩阵的注意力权重校准并获取复杂特征关系,从而能够从空间的全局特征中获取局部特征信息。
继而,为了能够对于运动员号码牌进行识别检测,需要对于所述空间强化运动员终点解码特征矩阵进行图像语义分割,以在识别出所述运动员终点图像中有关于运动员越过终点线时,对其号码牌进行相应地掩码操作,以得到语义分割结果。这样,能够对于越过终点线的运动员的号码牌进行精准识别,从而提高长跑计时的准确性和比赛公平性。
特别地,在本申请的技术方案中,将所述运动员终点解码特征矩阵通过双向注意力机制模块得到所述空间强化运动员终点解码特征矩阵时,是将所述运动员终点解码特征矩阵通过双向注意力机制得到的双向注意力解码特征矩阵与所述运动员终点解码特征矩阵融合以得到所述空间强化运动员终点解码特征矩阵。这里,考虑到所述运动员终点解码特征矩阵通过基于金字塔网络的编码器结构而具有不同尺度下的所述运动员终点图像的图像语义空间关联特征表示,而所述双向注意力机制是在行方向和列方向上进行图像空间语义特征的强化表示,因此期望提升所述运动员终点解码特征矩阵和所述双向注意力解码特征矩阵之间的基于特征空间尺度粒度的局部分布的融合效果。
基于此,本申请的申请人首先将所述运动员终点解码特征矩阵和所述双向注意力解码特征矩阵分别展开为运动员终点解码特征向量和双向注意力解码特征向量,然后对所述运动员终点解码特征向量,例如记为及所述双向注意力解码特征向量,例如记为进行局部序列语义的片段式富化融合,以获得融合特征向量,例如记为/>,具体表示为:/>,其中, />是所述运动员终点解码特征向量,/>是所述双向注意力解码特征向量, />是所述双向注意力解码特征向量的转置向量,/>为所述运动员终点解码特征向量和所述双向注意力解码特征向量之间的距离矩阵, />和/>均为列向量,且 />是权重超参数,/>表示向量乘法,/>表示向量加法, /> 是所述融合特征向量。
这里,所述局部序列语义的片段式富化融合基于序列的片段特征分布对序列的预定分布方向上的方向性语义的编码效果,来以序列片段之间的相似性嵌入作为用于序列间关联的重加权因数,从而对序列之间在各个片段级别的基于特征表象(featureappearance)的相似性进行捕获,实现了所述一维特征向量和所述数据安全检测关联数据语义理解特征向量的局部片段级语义的富化式融合。然后,再将所述融合特征向量还原为所述空间强化运动员终点解码特征矩阵,就可以提升所述空间强化运动员终点解码特征矩阵的融合表达效果,从而提升其进行图像语义分割得到的语义分割结果的准确性。这样,能够对于越过终点线的运动员的号码牌进行精准识别,从而提高长跑计时的准确性和比赛公平性。
图2示出根据本公开的实施例的基于动态视觉识别的长跑计时方法的子步骤S150的应用场景图。如图2所示,在该应用场景中,首先,获取由架设于终点的所述摄像头(例如,图2中所示意的C)采集的运动员终点图像(例如,图2中所示意的D),然后,将所述运动员终点图像输入至部署有基于动态视觉识别的长跑计时算法的服务器中(例如,图2中所示意的S),其中,所述服务器能够使用所述基于动态视觉识别的长跑计时算法对所述运动员终点图像进行处理以得到语义分割结果。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
图3示出根据本公开的实施例的基于动态视觉识别的长跑计时方法的子步骤S150的流程图。如图3所示,根据本申请实施例的基于动态视觉识别的长跑计时方法,通过所述摄像头采集运动员通过终点线的图像,并对所述号码牌进行分割和识别,包括步骤:S151,获取由架设于终点的所述摄像头采集的运动员终点图像;S152,将所述运动员终点图像通过基于金字塔网络的编码器结构以得到第一至第五特征图;S153,基于所述第一至第五特征图的特征信息传递,将所述第五特征图输入解码器结构以得到运动员终点解码特征矩阵;S154,将所述运动员终点解码特征矩阵通过双向注意力机制模块以得到空间强化运动员终点解码特征矩阵;以及,S155,对所述空间强化运动员终点解码特征矩阵进行图像语义分割以得到语义分割结果。
图4示出根据本公开的实施例的基于动态视觉识别的长跑计时方法的子步骤S150的架构示意图。如图4所示,在该网络架构中,首先,获取由架设于终点的所述摄像头采集的运动员终点图像;接着,将所述运动员终点图像通过基于金字塔网络的编码器结构以得到第一至第五特征图;然后,基于所述第一至第五特征图的特征信息传递,将所述第五特征图输入解码器结构以得到运动员终点解码特征矩阵;接着,将所述运动员终点解码特征矩阵通过双向注意力机制模块以得到空间强化运动员终点解码特征矩阵;最后,对所述空间强化运动员终点解码特征矩阵进行图像语义分割以得到语义分割结果。
更具体地,在步骤S151中,获取由架设于终点的所述摄像头采集的运动员终点图像。在实际进行长跑计时的过程中,对于通过终点线的运动员的号码牌进行分割识别尤为重要。因此,可以通过对所述运动员终点图像的隐含特征分布信息的充分表达,来对于越过终点线的运动员的号码牌进行精准分割识别,从而提高长跑计时的准确性和比赛公平性。
更具体地,在步骤S152中,将所述运动员终点图像通过基于金字塔网络的编码器结构以得到第一至第五特征图。使用在隐含特征提取方面具有优异表现的卷积神经网络模型来对于所述运动员终点图像进行特征挖掘,特别地,考虑到在进行所述运动员终点图像的特征提取时,不仅需要关注于所述运动员终点图像中关于号码牌的深层语义特征信息,更需要聚焦于图像中关于运动员的轮廓、边缘和位置等浅层特征信息。而金字塔网络主要是解决目标检测中的多尺度问题,其可以同时利用低层特征高分辨率和高层特征的高语义信息,通过融合这些不同层的特征达到很好的效果。
应可以理解,卷积神经网络(Convolutional Neural Network,CNN)是一种人工神经网络,在图像识别等领域有着广泛的应用。卷积神经网络可以包括输入层、隐藏层和输出层,其中,隐藏层可以包括卷积层、池化(pooling)层、激活层和全连接层等,上一层根据输入的数据进行相应的运算,将运算结果输出给下一层,输入的初始数据经过多层的运算之后得到一个最终的结果。
相应地,在一种可能的实现方式中,如图5所示,将所述运动员终点图像通过基于金字塔网络的编码器结构以得到第一至第五特征图,包括:S1521,将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第一卷积模块以得到第一特征图;S1522,将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第二卷积模块以得到第二特征图;S1523,将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第三卷积模块以得到第三特征图;S1524,将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第四卷积模块以得到第四特征图;以及,S1525,将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第五卷积模块以得到第五特征图。
更具体地,在步骤S153中,基于所述第一至第五特征图的特征信息传递,将所述第五特征图输入解码器结构以得到运动员终点解码特征矩阵。相应地,在一种可能的实现方式中,所述解码器结构与所述编码器结构具有对称的网络结构。也就是说,所述解码器结构与所述编码器结构采用对称式设计,并配合跳层相加连接的形式,逐步恢复运动员终点图像的分辨率,以使得所述运动员号码牌的深层语义信息在深层特征得以获取,并且关于所述运动员的边浅层特征信息得以保留。
相应地,在一种可能的实现方式中,如图6所示,基于所述第一至第五特征图的特征信息传递,将所述第五特征图输入解码器结构以得到运动员终点解码特征矩阵,包括:S1531,将所述第五特征图输入所述解码器结构的第一反卷积模块以得到第一解码特征图;以及,S1532,融合所述第五特征图和所述第一解码特征图以得到第一融合解码特征图作为所述解码器结构的第二反卷积模块的输入。
更具体地,在步骤S154中,将所述运动员终点解码特征矩阵通过双向注意力机制模块以得到空间强化运动员终点解码特征矩阵。由于不同运动员的跑步习惯不同,导致其在越过终点线的状态特征复杂多样,并且由于号码牌的数字特征也复杂多样,因此,为了能够进一步提高对于运动员越过终点线的检测精准度和对于号码牌识别的精准度,在本申请的技术方案中,进一步使用双向注意力机制模块来对所述运动员终点解码特征矩阵进行处理以得到空间强化运动员终点解码特征矩阵。这样,能够充分利用上下文信息来增强空间上关于所述运动员越过终点线的特征和所述号码牌的隐性特征响应和抑制背景特征响应。
相应地,在一种可能的实现方式中,如图7所示,将所述运动员终点解码特征矩阵通过双向注意力机制模块以得到空间强化运动员终点解码特征矩阵,包括:S1541,将所述运动员终点解码特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量;S1542,对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵;S1543,将所述双向关联矩阵输入Sigmoid激活函数以得到双向注意力解码特征矩阵;S1544,将所述运动员终点解码特征矩阵和所述双向注意力解码特征矩阵分别展开为特征向量以得到运动员终点解码特征向量和双向注意力解码特征向量;S1545,融合所述运动员终点解码特征向量和所述双向注意力解码特征向量以得到融合特征向量;以及,S1546,将所述融合特征向量进行维度重构以得到所述空间强化运动员终点解码特征矩阵。
特别地,将所述运动员终点解码特征矩阵通过双向注意力机制模块得到所述空间强化运动员终点解码特征矩阵时,是将所述运动员终点解码特征矩阵通过双向注意力机制得到的双向注意力解码特征矩阵与所述运动员终点解码特征矩阵融合以得到所述空间强化运动员终点解码特征矩阵。这里,考虑到所述运动员终点解码特征矩阵通过基于金字塔网络的编码器结构而具有不同尺度下的所述运动员终点图像的图像语义空间关联特征表示,而所述双向注意力机制是在行方向和列方向上进行图像空间语义特征的强化表示,因此期望提升所述运动员终点解码特征矩阵和所述双向注意力解码特征矩阵之间的基于特征空间尺度粒度的局部分布的融合效果。基于此,首先将所述运动员终点解码特征矩阵和所述双向注意力解码特征矩阵分别展开为运动员终点解码特征向量和双向注意力解码特征向量,然后对所述运动员终点解码特征向量以及所述双向注意力解码特征向量进行局部序列语义的片段式富化融合,以获得融合特征向量。
相应地,在一种可能的实现方式中,融合所述运动员终点解码特征向量和所述双向注意力解码特征向量以得到融合特征向量,包括:以如下优化公式对所述运动员终点解码特征向量和所述双向注意力解码特征向量进行局部序列语义的片段式富化融合以得到所述融合特征向量;其中,所述优化公式为:,其中, />是所述运动员终点解码特征向量,/>是所述双向注意力解码特征向量,是所述双向注意力解码特征向量的转置向量,/>为所述运动员终点解码特征向量和所述双向注意力解码特征向量之间的距离矩阵, />和/>均为列向量,且是权重超参数,/>表示向量乘法,/>表示向量加法, /> 是所述融合特征向量。
这里,所述局部序列语义的片段式富化融合基于序列的片段特征分布对序列的预定分布方向上的方向性语义的编码效果,来以序列片段之间的相似性嵌入作为用于序列间关联的重加权因数,从而对序列之间在各个片段级别的基于特征表象的相似性进行捕获,实现了所述一维特征向量和所述数据安全检测关联数据语义理解特征向量的局部片段级语义的富化式融合。然后,再将所述融合特征向量还原为所述空间强化运动员终点解码特征矩阵,就可以提升所述空间强化运动员终点解码特征矩阵的融合表达效果,从而提升其进行图像语义分割得到的语义分割结果的准确性。这样,能够对于越过终点线的运动员的号码牌进行精准识别,从而提高长跑计时的准确性和比赛公平性。
更具体地,在步骤S155中,对所述空间强化运动员终点解码特征矩阵进行图像语义分割以得到语义分割结果。为了能够对于运动员号码牌进行识别检测,需要对于所述空间强化运动员终点解码特征矩阵进行图像语义分割,以在识别出所述运动员终点图像中有关于运动员越过终点线时,对其号码牌进行相应地掩码操作,以得到语义分割结果。
综上,基于本申请实施例的基于动态视觉识别的长跑计时方法,其首先获取由架设于终点的所述摄像头采集的运动员终点图像,接着,将所述运动员终点图像通过基于金字塔网络的编码器结构以得到第一至第五特征图,然后,基于所述第一至第五特征图的特征信息传递,将所述第五特征图输入解码器结构以得到运动员终点解码特征矩阵,接着,将所述运动员终点解码特征矩阵通过双向注意力机制模块以得到空间强化运动员终点解码特征矩阵,最后,对所述空间强化运动员终点解码特征矩阵进行图像语义分割以得到语义分割结果。
图8示出根据本公开的实施例的基于动态视觉识别的长跑计时系统100的框图。如图8所示,根据本申请实施例的基于动态视觉识别的长跑计时系统100,包括:拍摄模块110,用于在终点线后方数米处设置龙门架,并在所述龙门架下安装摄像头,以拍摄终点冲线位置;冲线区域划定模块120,用于基于所述摄像头传输的画面图像划定所述终点线的冲线区域;信息识别模块130,用于在起点处划定人脸识别区域,并进行运动员身份信息和号码牌信息的识别关联;开始命令发送模块140,用于发送开始命令,进行长跑运动比赛;图像采集模块150,用于通过所述摄像头采集运动员通过终点线的图像,并对所述号码牌进行分割和识别;成绩播报模块160,用于运动员每次通过所述终点线被标记为一次冲线,并通过声音播报所述运动员的成绩;以及,信息上传模块170,用于将所述运动员的成绩和终点处考核录像保存到智能分析计算机的储存介质中,并上传到信息管理系统。
在一种可能的实现方式中,在上述基于动态视觉识别的长跑计时系统100中,所述图像采集模块150,包括:图像获取单元,用于获取由架设于终点的所述摄像头采集的运动员终点图像;编码单元,用于将所述运动员终点图像通过基于金字塔网络的编码器结构以得到第一至第五特征图;解码单元,用于基于所述第一至第五特征图的特征信息传递,将所述第五特征图输入解码器结构以得到运动员终点解码特征矩阵;双向注意力编码单元,用于将所述运动员终点解码特征矩阵通过双向注意力机制模块以得到空间强化运动员终点解码特征矩阵;以及,图像语义分割单元,用于对所述空间强化运动员终点解码特征矩阵进行图像语义分割以得到语义分割结果。
在一种可能的实现方式中,在上述基于动态视觉识别的长跑计时系统100中,所述编码单元,用于:将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第一卷积模块以得到第一特征图;将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第二卷积模块以得到第二特征图;将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第三卷积模块以得到第三特征图;将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第四卷积模块以得到第四特征图;以及,将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第五卷积模块以得到第五特征图。
在一种可能的实现方式中,在上述基于动态视觉识别的长跑计时系统100中,所述解码器结构与所述编码器结构具有对称的网络结构。
在一种可能的实现方式中,在上述基于动态视觉识别的长跑计时系统100中,所述解码单元,用于:将所述第五特征图输入所述解码器结构的第一反卷积模块以得到第一解码特征图;以及,融合所述第五特征图和所述第一解码特征图以得到第一融合解码特征图作为所述解码器结构的第二反卷积模块的输入。
在一种可能的实现方式中,在上述基于动态视觉识别的长跑计时系统100中,所述双向注意力编码单元,用于:将所述运动员终点解码特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量;对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵;将所述双向关联矩阵输入Sigmoid激活函数以得到双向注意力解码特征矩阵;将所述运动员终点解码特征矩阵和所述双向注意力解码特征矩阵分别展开为特征向量以得到运动员终点解码特征向量和双向注意力解码特征向量;融合所述运动员终点解码特征向量和所述双向注意力解码特征向量以得到融合特征向量;以及,将所述融合特征向量进行维度重构以得到所述空间强化运动员终点解码特征矩阵。
在一种可能的实现方式中,在上述基于动态视觉识别的长跑计时系统100中,融合所述运动员终点解码特征向量和所述双向注意力解码特征向量以得到融合特征向量,包括:以如下优化公式对所述运动员终点解码特征向量和所述双向注意力解码特征向量进行局部序列语义的片段式富化融合以得到所述融合特征向量;其中,所述优化公式为:,其中, />是所述运动员终点解码特征向量,/>是所述双向注意力解码特征向量, />是所述双向注意力解码特征向量的转置向量,/>为所述运动员终点解码特征向量和所述双向注意力解码特征向量之间的距离矩阵, />和/>均为列向量,且 />是权重超参数,/>表示向量乘法,/>表示向量加法, /> 是所述融合特征向量。
这里,本领域技术人员可以理解,上述基于动态视觉识别的长跑计时系统100中的各个单元和模块的具体功能和操作已经在上面参考图1到图7的基于动态视觉识别的长跑计时方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的基于动态视觉识别的长跑计时系统100可以实现在各种无线终端中,例如具有基于动态视觉识别的长跑计时算法的服务器等。在一种可能的实现方式中,根据本申请实施例的基于动态视觉识别的长跑计时系统100可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该基于动态视觉识别的长跑计时系统100可以是该无线终端的操作系统中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该基于动态视觉识别的长跑计时系统100同样可以是该无线终端的众多硬件模块之一。
替换地,在另一示例中,该基于动态视觉识别的长跑计时系统100与该无线终端也可以是分立的设备,并且该基于动态视觉识别的长跑计时系统100可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器,上述计算机程序指令可由装置的处理组件执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (4)
1.一种基于动态视觉识别的长跑计时方法,其特征在于,包括:
在终点线后方数米处设置龙门架,并在所述龙门架下安装摄像头,以拍摄终点冲线位置;
基于所述摄像头传输的画面图像划定所述终点线的冲线区域;
在起点处划定人脸识别区域,并进行运动员身份信息和号码牌信息的识别关联;
发送开始命令,进行长跑运动比赛;
通过所述摄像头采集运动员通过终点线的图像,并对所述号码牌进行分割和识别;
运动员每次通过所述终点线被标记为一次冲线,并通过声音播报所述运动员的成绩;以及
将所述运动员的成绩和终点处考核录像保存到智能分析计算机的储存介质中,并上传到信息管理系统;
其中,通过所述摄像头采集运动员通过终点线的图像,并对所述号码牌进行分割和识别,包括:
获取由架设于终点的所述摄像头采集的运动员终点图像;
将所述运动员终点图像通过基于金字塔网络的编码器结构以得到第一至第五特征图;
基于所述第一至第五特征图的特征信息传递,将所述第五特征图输入解码器结构以得到运动员终点解码特征矩阵;
将所述运动员终点解码特征矩阵通过双向注意力机制模块以得到空间强化运动员终点解码特征矩阵;以及
对所述空间强化运动员终点解码特征矩阵进行图像语义分割以得到语义分割结果;
其中,将所述运动员终点解码特征矩阵通过双向注意力机制模块以得到空间强化运动员终点解码特征矩阵,包括:
将所述运动员终点解码特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量;
对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵;
将所述双向关联矩阵输入Sigmoid激活函数以得到双向注意力解码特征矩阵;
将所述运动员终点解码特征矩阵和所述双向注意力解码特征矩阵分别展开为特征向量以得到运动员终点解码特征向量和双向注意力解码特征向量;
融合所述运动员终点解码特征向量和所述双向注意力解码特征向量以得到融合特征向量;以及
将所述融合特征向量进行维度重构以得到所述空间强化运动员终点解码特征矩阵;
其中,融合所述运动员终点解码特征向量和所述双向注意力解码特征向量以得到融合特征向量,包括:
以如下优化公式对所述运动员终点解码特征向量和所述双向注意力解码特征向量进行局部序列语义的片段式富化融合以得到所述融合特征向量;
其中,所述优化公式为:
,
其中,是所述运动员终点解码特征向量,/>是所述双向注意力解码特征向量,是所述双向注意力解码特征向量的转置向量,/>为所述运动员终点解码特征向量和所述双向注意力解码特征向量之间的距离矩阵,/>和/>均为列向量,且/>是权重超参数,/>表示向量乘法,/>表示向量加法,/>是所述融合特征向量。
2.根据权利要求1所述的基于动态视觉识别的长跑计时方法,其特征在于,将所述运动员终点图像通过基于金字塔网络的编码器结构以得到第一至第五特征图,包括:
将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第一卷积模块以得到第一特征图;
将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第二卷积模块以得到第二特征图;
将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第三卷积模块以得到第三特征图;
将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第四卷积模块以得到第四特征图;以及
将所述运动员终点图像通过所述基于金字塔网络的编码器结构的第五卷积模块以得到第五特征图。
3.根据权利要求2所述的基于动态视觉识别的长跑计时方法,其特征在于,所述解码器结构与所述编码器结构具有对称的网络结构。
4.根据权利要求3所述的基于动态视觉识别的长跑计时方法,其特征在于,基于所述第一至第五特征图的特征信息传递,将所述第五特征图输入解码器结构以得到运动员终点解码特征矩阵,包括:
将所述第五特征图输入所述解码器结构的第一反卷积模块以得到第一解码特征图;以及
融合所述第五特征图和所述第一解码特征图以得到第一融合解码特征图作为所述解码器结构的第二反卷积模块的输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310798549.9A CN116524576B (zh) | 2023-07-03 | 2023-07-03 | 基于动态视觉识别的长跑计时方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310798549.9A CN116524576B (zh) | 2023-07-03 | 2023-07-03 | 基于动态视觉识别的长跑计时方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116524576A CN116524576A (zh) | 2023-08-01 |
CN116524576B true CN116524576B (zh) | 2023-10-20 |
Family
ID=87406685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310798549.9A Active CN116524576B (zh) | 2023-07-03 | 2023-07-03 | 基于动态视觉识别的长跑计时方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524576B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435336A (zh) * | 2021-06-28 | 2021-09-24 | 安徽一视科技有限公司 | 一种基于人工智能的跑步智能计时系统及方法 |
CN114187450A (zh) * | 2021-12-15 | 2022-03-15 | 山东大学 | 一种基于深度学习的遥感图像语义分割方法 |
CN116311433A (zh) * | 2023-02-24 | 2023-06-23 | 恒鸿达(福建)体育科技有限公司 | 一种基于视觉技术的中长跑测试方法、装置、设备和介质 |
CN116329949A (zh) * | 2023-05-19 | 2023-06-27 | 浙江合信数控机床股份有限公司 | 刀塔的智能化装配方法及其系统 |
CN116363738A (zh) * | 2023-06-01 | 2023-06-30 | 成都睿瞳科技有限责任公司 | 一种基于多移动目标的人脸识别方法、系统及存储介质 |
CN116363441A (zh) * | 2023-05-31 | 2023-06-30 | 克拉玛依市百事达技术开发有限公司 | 具备标记功能的管道腐蚀检测系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767846A (zh) * | 2020-06-29 | 2020-10-13 | 北京百度网讯科技有限公司 | 图像识别方法、装置、设备和计算机存储介质 |
-
2023
- 2023-07-03 CN CN202310798549.9A patent/CN116524576B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435336A (zh) * | 2021-06-28 | 2021-09-24 | 安徽一视科技有限公司 | 一种基于人工智能的跑步智能计时系统及方法 |
CN114187450A (zh) * | 2021-12-15 | 2022-03-15 | 山东大学 | 一种基于深度学习的遥感图像语义分割方法 |
CN116311433A (zh) * | 2023-02-24 | 2023-06-23 | 恒鸿达(福建)体育科技有限公司 | 一种基于视觉技术的中长跑测试方法、装置、设备和介质 |
CN116329949A (zh) * | 2023-05-19 | 2023-06-27 | 浙江合信数控机床股份有限公司 | 刀塔的智能化装配方法及其系统 |
CN116363441A (zh) * | 2023-05-31 | 2023-06-30 | 克拉玛依市百事达技术开发有限公司 | 具备标记功能的管道腐蚀检测系统 |
CN116363738A (zh) * | 2023-06-01 | 2023-06-30 | 成都睿瞳科技有限责任公司 | 一种基于多移动目标的人脸识别方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116524576A (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110599492B (zh) | 图像分割模型的训练方法、装置、电子设备及存储介质 | |
CN108205655B (zh) | 一种关键点预测方法、装置、电子设备及存储介质 | |
CN109740018B (zh) | 用于生成视频标签模型的方法和装置 | |
KR20210006971A (ko) | 지오로케이션 예측을 위한 시스템 및 방법 | |
CN108491816A (zh) | 在视频中进行目标跟踪的方法和装置 | |
US11367195B2 (en) | Image segmentation method, image segmentation apparatus, image segmentation device | |
CN103473254A (zh) | 用于存储图像数据的方法和设备 | |
CN105574848A (zh) | 用于对象的自动分割的方法和装置 | |
US11361534B2 (en) | Method for glass detection in real scenes | |
CN110033423B (zh) | 用于处理图像的方法和装置 | |
CN113537172B (zh) | 人群密度确定方法、装置、设备及存储介质 | |
CN109934095A (zh) | 一种基于深度学习的遥感图像水体提取方法及系统 | |
CN110781413A (zh) | 兴趣点确定方法及装置、存储介质、电子设备 | |
CN111369524B (zh) | 结节识别模型训练方法、结节识别方法及装置 | |
CN110619334A (zh) | 基于深度学习的人像分割方法、架构及相关装置 | |
CN113743177A (zh) | 关键点检测方法、系统、智能终端和存储介质 | |
CN114419519A (zh) | 目标对象检测方法、装置、电子设备和存储介质 | |
CN116524576B (zh) | 基于动态视觉识别的长跑计时方法 | |
CN110263779A (zh) | 文本区域检测方法及装置、文本检测方法、计算机可读介质 | |
CN116492634B (zh) | 基于图像视觉定位的立定跳远测试方法 | |
CN113689372A (zh) | 图像处理方法、设备、存储介质及程序产品 | |
CN117237761A (zh) | 对象重识别模型的训练方法、对象重识别方法和装置 | |
CN116258756B (zh) | 一种自监督单目深度估计方法及系统 | |
CN115620264B (zh) | 车辆定位方法、装置、电子设备和计算机可读介质 | |
CN111310595A (zh) | 用于生成信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231206 Address after: Room 1503, No. 266 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province, 510700 Patentee after: Feixiang Technology (Guangzhou) Co.,Ltd. Address before: 510000 Room 101, 201, 301, 401, 501, building 2, 1003 Asian Games Avenue, Shiqi Town, Panyu District, Guangzhou City, Guangdong Province Patentee before: Guangzhou silinger Technology Co.,Ltd. |