CN116503785A - 游泳馆监管系统及其方法 - Google Patents
游泳馆监管系统及其方法 Download PDFInfo
- Publication number
- CN116503785A CN116503785A CN202310502761.6A CN202310502761A CN116503785A CN 116503785 A CN116503785 A CN 116503785A CN 202310502761 A CN202310502761 A CN 202310502761A CN 116503785 A CN116503785 A CN 116503785A
- Authority
- CN
- China
- Prior art keywords
- swimming
- training
- feature
- neural network
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000009182 swimming Effects 0.000 claims abstract description 300
- 238000012544 monitoring process Methods 0.000 claims abstract description 136
- 239000013598 vector Substances 0.000 claims description 165
- 238000012549 training Methods 0.000 claims description 116
- 238000013527 convolutional neural network Methods 0.000 claims description 61
- 238000005070 sampling Methods 0.000 claims description 26
- 238000010586 diagram Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000003062 neural network model Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 abstract description 16
- 206010013647 Drowning Diseases 0.000 abstract description 12
- 238000005065 mining Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000036544 posture Effects 0.000 description 45
- 230000006870 function Effects 0.000 description 19
- 238000004590 computer program Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000007792 addition Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000010016 myocardial function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Abstract
本申请公开了一种游泳馆监管系统及其方法,涉及智能监管领域,其通过采用基于机器视觉的人工智能检测技术,以通过对于所述被监控对象的游泳监控视频中的各个游泳监控关键帧进行时间维度上的隐含关联特征挖掘来提取出所述被监控对象的游泳姿势的语义理解特征信息,并将该游泳姿势的语义理解特征通过分类器来进行所述被监控对象的游泳状态是否正常的分类检测。这样,能够精准地对于游泳者的游泳状态进行检测,以实现对游泳人员的安全监管来避免发生溺水事件,保证游泳人员的游泳安全性。
Description
技术领域
本申请涉及智能监管领域,且更为具体地,涉及一种游泳馆监管系统及其方法。
背景技术
随着经济的发展,人们的生活水平日益提高,生活方式与理念变得更加开放和科学。游泳具有增加心肌功能、增强抵抗力、减肥、健美形体、护肤等好处,已经成为了一项常见的娱乐活动,更有许多人将游泳提上了自己的健身日程。但是,游泳给人们的生活带来健康和快乐的同时,也存在安全隐患,有许多人因溺水而死亡,其中大多是儿童和学生,游泳安全不仅是一个行业痛点,也已成为一个社会问题。
目前,国内许多泳池对游泳人员的安全监管大都是救生员现场的肉眼观察,家长监管有时也会有分心或疏忽,溺水者往往不能被及时发现。
因此,期待一种优化的游泳馆监管方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种游泳馆监管系统及其方法,其通过采用基于机器视觉的人工智能检测技术,以通过对于所述被监控对象的游泳监控视频中的各个游泳监控关键帧进行时间维度上的隐含关联特征挖掘来提取出所述被监控对象的游泳姿势的语义理解特征信息,并将该游泳姿势的语义理解特征通过分类器来进行所述被监控对象的游泳状态是否正常的分类检测。这样,能够精准地对于游泳者的游泳状态进行检测,以实现对游泳人员的安全监管来避免发生溺水事件,保证游泳人员的游泳安全性。
根据本申请的一个方面,提供了一种游泳馆监管系统,其包括:
监控数据采集单元,用于获取由摄像头采集的被监控对象在预定时间段的游泳监控视频;
采样单元,用于从所述游泳监控视频提取多个游泳监控关键帧;
单帧特征提取单元,用于将所述多个游泳监控关键帧分别通过作为过滤器的第一卷积神经网络模型以得到多个游泳姿势监控特征向量;
帧间语义理解单元,用于将所述多个游泳姿势监控特征向量按照时间维度排列为一维特征向量后通过使用一维卷积核的第二卷积神经网络模型以得到游泳状态语义理解特征向量;
以及监管结果生成单元,用于将所述游泳状态语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示被监控对象的游泳状态是否正常。
在上述游泳馆监管系统中,所述采样单元,进一步用于:以预定采样频率对所述游泳监控视频进行采样处理以得到所述多个游泳监控关键帧。
在上述游泳馆监管系统中,所述单帧特征提取单元,进一步用于:使用所述作为过滤器的第一卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于特征矩阵的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为过滤器的第一卷积神经网络的最后一层的输出为所述多个游泳姿势监控特征向量,所述作为过滤器的第一卷积神经网络的第一层的输入为所述多个游泳监控关键帧。
在上述游泳馆监管系统中,所述作为过滤器的第一卷积神经网络模型为深度残差网络。
在上述游泳馆监管系统中,所述帧间语义理解单元,进一步用于:使用所述使用一维卷积核的第二卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于特征矩阵的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述使用一维卷积核的第二卷积神经网络的最后一层的输出为所述游泳状态语义理解特征向量,所述使用一维卷积核的第二卷积神经网络的第一层的输入为所述一维特征向量。
在上述游泳馆监管系统中,所述监管结果生成单元,包括:全连接编码子单元,用于使用所述分类器的多个全连接层对所述游泳状态语义理解特征向量进行全连接编码以得到编码分类特征向量;以及,分类结果生成子单元,用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
在上述游泳馆监管系统中,还包括用于对所述作为过滤器的第一卷积神经网络模型、所述使用一维卷积核的第二卷积神经网络模型和所述分类器进行训练的训练模块。
在上述游泳馆监管系统中,所述训练模块,包括:训练数据获取单元,用于获取训练数据,所述训练数据包括被监控对象在预定时间段的训练游泳监控视频,以及,所述被监控对象的游泳状态是否正常的真实值;训练采样单元,用于从所述训练游泳监控视频提取多个训练游泳监控关键帧;训练单帧特征提取单元,用于将所述多个训练游泳监控关键帧分别通过所述作为过滤器的第一卷积神经网络模型以得到多个训练游泳姿势监控特征向量;训练帧间语义理解单元,用于将所述多个训练游泳姿势监控特征向量按照时间维度排列为训练一维特征向量后通过所述使用一维卷积核的第二卷积神经网络模型以得到训练游泳状态语义理解特征向量;分类损失单元,用于将所述训练游泳状态语义理解特征向量通过所述分类器以得到分类损失函数值;以及,训练单元,用于基于所述分类损失函数值并通过梯度下降的反向传播来对所述作为过滤器的第一卷积神经网络模型、所述使用一维卷积核的第二卷积神经网络模型和所述分类器进行训练,其中,在所述训练过程的每一轮迭代中,计算所述训练游泳状态语义理解特征向量的基于跨分类器软相似性的自由标签优化因数来作为所述分类器的标签值。
在上述游泳馆监管系统中,所述在所述训练过程的每一轮迭代中,以如下公式计算所述训练游泳状态语义理解特征向量的基于跨分类器软相似性的自由标签优化因数来作为所述分类器的标签值;其中,所述公式为:
其中V是所述训练游泳状态语义理解特征向量,M是所述分类器对所述训练游泳状态语义理解特征向量的权重矩阵,和/>分别表示张量乘法和张量加法,d(·,·)表示向量之间的距离,||·||2表示向量的二范数,且α和β是权重超参数,exp(·)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,w表示所述分类器的标签值。
根据本申请的另一方面,提供了一种游泳馆监管方法,其包括:
获取由摄像头采集的被监控对象在预定时间段的游泳监控视频;
从所述游泳监控视频提取多个游泳监控关键帧;
将所述多个游泳监控关键帧分别通过作为过滤器的第一卷积神经网络模型以得到多个游泳姿势监控特征向量;
将所述多个游泳姿势监控特征向量按照时间维度排列为一维特征向量后通过使用一维卷积核的第二卷积神经网络模型以得到游泳状态语义理解特征向量;
以及将所述游泳状态语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示被监控对象的游泳状态是否正常。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的游泳馆监管方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的游泳馆监管方法。
与现有技术相比,本申请提供的一种游泳馆监管系统及其方法,其通过采用基于机器视觉的人工智能检测技术,以通过对于所述被监控对象的游泳监控视频中的各个游泳监控关键帧进行时间维度上的隐含关联特征挖掘来提取出所述被监控对象的游泳姿势的语义理解特征信息,并将该游泳姿势的语义理解特征通过分类器来进行所述被监控对象的游泳状态是否正常的分类检测。这样,能够精准地对于游泳者的游泳状态进行检测,以实现对游泳人员的安全监管来避免发生溺水事件,保证游泳人员的游泳安全性。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的游泳馆监管系统的应用场景图;
图2为根据本申请实施例的游泳馆监管系统的框图;
图3为根据本申请实施例的游泳馆监管系统中训练模块的框图;
图4为根据本申请实施例的游泳馆监管系统的系统架构图;
图5为根据本申请实施例的游泳馆监管系统中第一卷积神经网络编码的流程图;
图6为根据本申请实施例的游泳馆监管系统中监管结果生成单元的框图;
图7为根据本申请实施例的游泳馆监管系统中训练模块的系统架构图;
图8为根据本申请实施例的游泳馆监管方法的流程图;
图9为根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述
如前背景技术所言,由于游泳给人们的生活带来健康和快乐的同时,也存在安全隐患,有许多人因溺水而死亡,其中大多是儿童和学生,游泳安全不仅是一个行业痛点,也已成为一个社会问题。目前,国内许多泳池对游泳人员的安全监管大都是救生员现场的肉眼观察,家长监管有时也会有分心或疏忽,溺水者往往不能被及时发现。因此,期待一种优化的游泳馆监管方案。
相应地,在本申请的技术方案中,考虑到对于游泳人员的安全监管可以通过摄像头采集被监控对象的游泳监控视频来实现,但是,由于游泳监控视频中存在有大量的信息量,所述被监控对象在图像中为小尺度的图像信息,很难以对其游泳特征进行捕捉,并且由于各个游泳者的游泳习惯不同,这对其游泳姿势的动态关联特征挖掘和语义理解带来了困难,进而降低了对于所述被监控对象的游泳状态检测的精准度。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。
深度学习以及神经网络的发展为被监控对象的游泳状态检测提供了新的解决思路和方案。
具体地,在本申请的技术方案中,采用基于机器视觉的人工智能检测技术,以通过对于所述被监控对象的游泳监控视频中的各个游泳监控关键帧进行时间维度上的隐含关联特征挖掘来提取出所述被监控对象的游泳姿势的语义理解特征信息,并将该游泳姿势的语义理解特征通过分类器来进行所述被监控对象的游泳状态是否正常的分类检测。这样,能够精准地对于游泳者的游泳状态进行检测,以实现对游泳人员的安全监管来避免发生溺水事件,保证游泳人员的游泳安全性。
具体地,在本申请的技术方案中,首先,通过摄像头采集被监控对象在预定时间段的游泳监控视频。接着,考虑到在所述游泳监控视频中,游泳人员的游泳姿势变化特征可以通过所述游泳监控视频中相邻监控帧之间的差分来表示,也就是,通过相邻图像帧的图像表征来表示所述游泳人员的游泳姿势变化情况。但是,考虑到监控视频中相邻帧的差异较小,存在大量数据冗余,因此,为了降低计算量,且避免数据冗余给检测带来的不良影响,以预定采样频率对所述游泳监控视频进行关键帧采样,以从所述游泳监控视频提取多个游泳监控关键帧。这里,值得一提的是,所述采样频率可基于实际场景的应用需求做出调整,而不是默认值。
进一步地,使用在图像的隐含特征提取方面具有优异表现的作为过滤器的第一卷积神经网络模型来分别对于所述多个游泳监控关键帧中的各个游泳监控关键帧进行隐含的特征挖掘,以分别提取出所述各个游泳监控关键帧中关于游泳人员的姿势隐含特征信息,从而得到多个游泳姿势监控特征向量。特别地,这里,所述作为过滤器的第一卷积神经网络模型为深度残差网络。
然后,考虑到在所述被监控对象的游泳监控视频中,所述被监控对象的游泳姿势在所述预定时间段内是不断发生变化的,也就是说,所述被监控对象的各个游泳监控关键帧下的游泳姿势特征间具有着关联性。因此,为了能够对于所述被监控对象的游泳状态进行准确地判断,需要对所述被监控对象在时间维度上的游泳姿势的动态变化特征进行准确地语义理解。具体地,在本申请的技术方案中,进一步将所述多个游泳姿势监控特征向量按照时间维度排列为一维特征向量以整合所述被监控对象在所述预定时间段内的姿势时序隐含特征信息后,将其通过使用一维卷积核的第二卷积神经网络模型中进行处理,以提取出所述被监控对象的游泳姿势在时间维度上的动态关联特征信息,以此来表示所述被监控对象的游泳姿势变化的语义理解特征,从而得到游泳状态语义理解特征向量。
接着,进一步再将所述游泳状态语义理解特征向量作为分类特征向量通过分类器中进行分类处理,以得到用于表示被监控对象的游泳状态是否正常的分类结果。也就是,在本申请的技术方案中,所述分类器的标签包括所述被监控对象的游泳状态正常,以及,所述被监控对象的游泳状态不正常,其中,所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签。特别地,响应于所述被监控对象的游泳状态不正常,则发出预警信号来提示工作人员,以实现对游泳人员的安全监管来避免发生溺水事件,保证游泳人员的游泳安全性。
特别地,在本申请的技术方案中,将所述多个游泳姿势监控特征向量按照时间维度排列为一维特征向量后通过使用一维卷积核的第二卷积神经网络模型得到所述游泳状态语义理解特征向量时,由于每个游泳姿势监控特征向量表达单个监控关键帧的图像特征语义,因此所述游泳状态语义理解特征向量可以充分表达各帧的图像特征语义之间的时序关联,但是,由于一维卷积核的局部特征提取特性,这种时序关联既包括帧内特征关联又包括帧间特征关联,从而导致所述游泳状态语义理解特征向量的整体特征分布可能具有较强的离散性,使得分类器的训练困难,尤其是分类器的标签值的收敛困难。
因此,优选地使用软标签学习来代替常用的硬标签学习,具体地,在每次迭代时,计算所述游泳状态语义理解特征向量的基于跨分类器软相似性的自由标签优化因数来作为分类器的标签值,表示为:
V是所述游泳状态语义理解特征向量,M是所述分类器对所述游泳状态语义理解特征向量V的权重矩阵,和/>分别表示张量乘法和张量加法,d(·,·)表示向量之间的距离,||·||2表示向量的二范数,且α和β是权重超参数。
这里,所述基于跨分类器软相似性的自由标签优化因数作为分类器的标签值,可以代替以硬标签值计算所述游泳状态语义理解特征向量的分类概率,对所述游泳状态语义理解特征向量和分类器的权重矩阵进行双向聚簇,来通过所述游泳状态语义理解特征向量与权重矩阵的跨分类器的软相似性模拟基于分类器权重矩阵的伪类别,从而以软相似性学习来避免了硬标签学习带来的分类量化损失,实现了更关注于分类器的内在权重结构的自由标签优化,从而优化了分类器的标签值的训练,提升了分类器的训练速度。这样,能够准确地对于游泳者的游泳状态进行检测,以实现对游泳人员的安全监管来避免发生溺水事件,保证游泳人员的游泳安全性。
基于此,本申请提出了一种游泳馆监管系统,其包括:监控数据采集单元,用于获取由摄像头采集的被监控对象在预定时间段的游泳监控视频;采样单元,用于从所述游泳监控视频提取多个游泳监控关键帧;单帧特征提取单元,用于将所述多个游泳监控关键帧分别通过作为过滤器的第一卷积神经网络模型以得到多个游泳姿势监控特征向量;帧间语义理解单元,用于将所述多个游泳姿势监控特征向量按照时间维度排列为一维特征向量后通过使用一维卷积核的第二卷积神经网络模型以得到游泳状态语义理解特征向量;以及,监管结果生成单元,用于将所述游泳状态语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示被监控对象的游泳状态是否正常。
图1为根据本申请实施例的游泳馆监管系统的应用场景图。如图1所示,在该应用场景中,通过摄像头(例如,如图1中所示意的C)获取被监控对象在预定时间段的游泳监控视频。接着,将上述视频输入至部署有用于游泳馆监管算法的服务器(例如,图1中的S)中,其中,所述服务器能够以所述游泳馆监管算法对上述输入的视频进行处理,以生成用于表示被监控对象的游泳状态是否正常的分类结果。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性系统
图2为根据本申请实施例的游泳馆监管系统的框图。如图1所示,根据本申请实施例的游泳馆监管系统300包括推断模块,其中,所述推断模块包括:监控数据采集单元310;采样单元320;单帧特征提取单元330;帧间语义理解单元340;以及,监管结果生成单元350。
其中,所述监控数据采集单元310,用于获取由摄像头采集的被监控对象在预定时间段的游泳监控视频;所述采样单元320,用于从所述游泳监控视频提取多个游泳监控关键帧;所述单帧特征提取单元330,用于将所述多个游泳监控关键帧分别通过作为过滤器的第一卷积神经网络模型以得到多个游泳姿势监控特征向量;所述帧间语义理解单元340,用于将所述多个游泳姿势监控特征向量按照时间维度排列为一维特征向量后通过使用一维卷积核的第二卷积神经网络模型以得到游泳状态语义理解特征向量;以及,所述监管结果生成单元350,用于将所述游泳状态语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示被监控对象的游泳状态是否正常。
图3为根据本申请实施例的游泳馆监管系统中训练模块的框图。如图3所示,在所述用于游泳馆监管系统300的系统架构中,在推断过程中,首先通过所述监控数据采集单元310获取由摄像头采集的被监控对象在预定时间段的游泳监控视频;接着,所述采样单元320从所述监控数据采集单元310获取的游泳监控视频提取多个游泳监控关键帧;所述单帧特征提取单元330将所述采样单元320得到的多个游泳监控关键帧分别通过作为过滤器的第一卷积神经网络模型以得到多个游泳姿势监控特征向量;然后,所述帧间语义理解单元340将所述单帧特征提取单元330得到的多个游泳姿势监控特征向量按照时间维度排列为一维特征向量后通过使用一维卷积核的第二卷积神经网络模型以得到游泳状态语义理解特征向量;进而,所述监管结果生成单元350将所述游泳状态语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示被监控对象的游泳状态是否正常。
具体地,在所述游泳馆监管系统300的运行过程中,所述监控数据采集单元310,用于获取由摄像头采集的被监控对象在预定时间段的游泳监控视频。在本申请的技术方案中,考虑到对于游泳人员的安全监管可以通过摄像头采集被监控对象的游泳监控视频来实现,也就是,可通过监控视频中被监控对象的游泳姿势的特征信息来判断所述被监控对象的游泳状态是否正常。具体地,可通过摄像头来获取被监控对象在预定时间段的游泳监控视频。
具体地,在所述游泳馆监管系统300的运行过程中,所述采样单元320,用于从所述游泳监控视频提取多个游泳监控关键帧。考虑到在所述游泳监控视频中,游泳人员的游泳姿势变化特征可以通过所述游泳监控视频中相邻监控帧之间的差分来表示,也就是,通过相邻图像帧的图像表征来表示所述游泳人员的游泳姿势变化情况。但是,考虑到监控视频中相邻帧的差异较小,存在大量数据冗余,因此,为了降低计算量,且避免数据冗余给检测带来的不良影响,以预定采样频率对所述游泳监控视频进行关键帧采样,以从所述游泳监控视频提取多个游泳监控关键帧。这里,值得一提的是,所述采样频率可基于实际场景的应用需求做出调整,而不是默认值。
具体地,在所述游泳馆监管系统300的运行过程中,所述单帧特征提取单元330,用于将所述多个游泳监控关键帧分别通过作为过滤器的第一卷积神经网络模型以得到多个游泳姿势监控特征向量。也就是,使用在图像的隐含特征提取方面具有优异表现的作为过滤器的第一卷积神经网络模型来分别对于所述多个游泳监控关键帧中的各个游泳监控关键帧进行隐含的特征挖掘,以分别提取出所述各个游泳监控关键帧中关于游泳人员的姿势隐含特征信息,从而得到多个游泳姿势监控特征向量。特别地,这里,所述作为过滤器的第一卷积神经网络模型为深度残差网络。
图5为根据本申请实施例的游泳馆监管系统中第一卷积神经网络编码的流程图。如图5所示,在所述第一卷积神经网络的编码过程中,包括:使用所述作为过滤器的第一卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:S210,对输入数据进行卷积处理以得到卷积特征图;S220,对所述卷积特征图进行基于特征矩阵的池化以得到池化特征图;以及,S230,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为过滤器的第一卷积神经网络的最后一层的输出为所述多个游泳姿势监控特征向量,所述作为过滤器的第一卷积神经网络的第一层的输入为所述多个游泳监控关键帧。
具体地,在所述游泳馆监管系统300的运行过程中,所述帧间语义理解单元340,用于将所述多个游泳姿势监控特征向量按照时间维度排列为一维特征向量后通过使用一维卷积核的第二卷积神经网络模型以得到游泳状态语义理解特征向量。考虑到在所述被监控对象的游泳监控视频中,所述被监控对象的游泳姿势在所述预定时间段内是不断发生变化的,也就是说,所述被监控对象的各个游泳监控关键帧下的游泳姿势特征间具有着关联性。因此,为了能够对于所述被监控对象的游泳状态进行准确地判断,需要对所述被监控对象在时间维度上的游泳姿势的动态变化特征进行准确地语义理解。具体地,在本申请的技术方案中,进一步将所述多个游泳姿势监控特征向量按照时间维度排列为一维特征向量以整合所述被监控对象在所述预定时间段内的姿势时序隐含特征信息后,将其通过使用一维卷积核的第二卷积神经网络模型中进行处理,以提取出所述被监控对象的游泳姿势在时间维度上的动态关联特征信息,以此来表示所述被监控对象的游泳姿势变化的语义理解特征,从而得到游泳状态语义理解特征向量。具体地,所述将所述多个游泳姿势监控特征向量按照时间维度排列为一维特征向量后通过使用一维卷积核的第二卷积神经网络模型以得到游泳状态语义理解特征向量,包括:使用所述使用一维卷积核的第二卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于特征矩阵的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述使用一维卷积核的第二卷积神经网络的最后一层的输出为所述游泳状态语义理解特征向量,所述使用一维卷积核的第二卷积神经网络的第一层的输入为所述一维特征向量。在一个具体示例中,所述第二卷积神经网络包括相互级联的多个神经网络层,其中各个神经网络层包括卷积层、池化层和激活层。其中,在所述第二卷积神经网络的编码过程中,所述第二卷积神经网络的各层在层的正向传递过程中对输入数据使用所述卷积层进行基于卷积核的卷积处理、使用所述池化层对由所述卷积层输出的卷积特征图进行池化处理和使用所述激活层对由所述池化层输出的池化特征图进行激活处理。
具体地,在所述游泳馆监管系统300的运行过程中,所述监管结果生成单元350,用于将所述游泳状态语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示被监控对象的游泳状态是否正常。在本申请的技术方案中,将所述游泳状态语义理解特征向量作为分类特征向量通过分类器中进行分类处理,以得到用于表示被监控对象的游泳状态是否正常的分类结果。也就是,在本申请的技术方案中,所述分类器的标签包括所述被监控对象的游泳状态正常,以及,所述被监控对象的游泳状态不正常,其中,所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签。特别地,响应于所述被监控对象的游泳状态不正常,则发出预警信号来提示工作人员,以实现对游泳人员的安全监管来避免发生溺水事件,保证游泳人员的游泳安全性。具体地,所述将所述游泳状态语义理解特征向量通过分类器以得到分类结果,包括:使用所述分类器以如下公式对所述游泳状态语义理解特征向量进行处理以获得分类结果,其中,所述公式为:
O=softmax{(Wn,Bn):...:(W1,B1)|X},其中,W1到Wn为权重矩阵,B1到Bn为偏置向量,X为游泳状态语义理解特征向量。具体地,所述分类器包括多个全连接层和与所述多个全连接层最后一个全连接层级联的Softmax层。其中,在所述分类器的分类处理中,使用所述分类器的多个全连接层对所述游泳状态语义理解特征向量进行多次全连接编码以得到编码分类特征向量;进而,将所述编码分类特征向量输入所述分类器的Softmax层,即,使用所述Softmax分类函数对所述编码分类特征向量进行分类处理以得到所述编码分类特征向量归属于被监控对象的游泳状态正常的第一概率值和所述编码分类特征向量归属于被监控对象的游泳状态不正常的的第二概率值;继而,将所述第一概率值和所述第二概率值中较大者对应的标签确定为所述分类结果。
图6为根据本申请实施例的游泳馆监管系统中监管结果生成单元的框图。如图6所示,所述监管结果生成单元350,包括:全连接编码子单元351,用于使用所述分类器的多个全连接层对所述游泳状态语义理解特征向量进行全连接编码以得到编码分类特征向量;以及,分类结果生成子单元352,用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
应可以理解,在利用上述神经网络模型进行推断之前,需要对所述作为过滤器的第一卷积神经网络模型、所述使用一维卷积核的第二卷积神经网络模型和所述分类器进行训练。也就是说,在本申请的游泳馆监管系统中,还包括训练模块,用于对所述作为过滤器的第一卷积神经网络模型、所述使用一维卷积核的第二卷积神经网络模型和所述分类器进行训练。
图3为根据本申请实施例的游泳馆监管系统中训练模块的框图。如图2所示,根据本申请实施例的游泳馆监管系统300,还包括训练模块400,所述训练模块包括:训练数据获取单元410;训练采样单元420;训练单帧特征提取单元430;训练帧间语义理解单元440;分类损失单元450;以及,训练单元460。
其中,所述训练数据获取单元410,用于获取训练数据,所述训练数据包括被监控对象在预定时间段的训练游泳监控视频,以及,所述被监控对象的游泳状态是否正常的真实值;所述训练采样单元420,用于从所述训练游泳监控视频提取多个训练游泳监控关键帧;所述训练单帧特征提取单元430,用于将所述多个训练游泳监控关键帧分别通过所述作为过滤器的第一卷积神经网络模型以得到多个训练游泳姿势监控特征向量;所述训练帧间语义理解单元440,用于将所述多个训练游泳姿势监控特征向量按照时间维度排列为训练一维特征向量后通过所述使用一维卷积核的第二卷积神经网络模型以得到训练游泳状态语义理解特征向量;所述分类损失单元450,用于将所述训练游泳状态语义理解特征向量通过所述分类器以得到分类损失函数值;以及,所述训练单元460,用于基于所述分类损失函数值并通过梯度下降的反向传播来对所述作为过滤器的第一卷积神经网络模型、所述使用一维卷积核的第二卷积神经网络模型和所述分类器进行训练,其中,在所述训练过程的每一轮迭代中,计算所述训练游泳状态语义理解特征向量的基于跨分类器软相似性的自由标签优化因数来作为所述分类器的标签值。
图7为根据本申请实施例的游泳馆监管系统中训练模块的系统架构图。如图7所示,在所述游泳馆监管系统300的系统架构中,在训练过程中,首先通过所述训练数据获取单元410获取训练数据,所述训练数据包括被监控对象在预定时间段的训练游泳监控视频,以及,所述被监控对象的游泳状态是否正常的真实值;接着,所述训练采样单元420从所述训练数据获取单元410获取的训练游泳监控视频提取多个训练游泳监控关键帧;所述训练单帧特征提取单元430将所述训练采样单元420得到的多个训练游泳监控关键帧分别通过所述作为过滤器的第一卷积神经网络模型以得到多个训练游泳姿势监控特征向量;然后,所述训练帧间语义理解单元440将所述训练单帧特征提取单元430得到的多个训练游泳姿势监控特征向量按照时间维度排列为训练一维特征向量后通过所述使用一维卷积核的第二卷积神经网络模型以得到训练游泳状态语义理解特征向量;所述分类损失单元450将所述训练帧间语义理解单元440得到的训练游泳状态语义理解特征向量通过所述分类器以得到分类损失函数值;进而,所述训练单元460基于所述分类损失函数值并通过梯度下降的反向传播来对所述作为过滤器的第一卷积神经网络模型、所述使用一维卷积核的第二卷积神经网络模型和所述分类器进行训练,其中,在所述训练过程的每一轮迭代中,计算所述训练游泳状态语义理解特征向量的基于跨分类器软相似性的自由标签优化因数来作为所述分类器的标签值。
特别地,在本申请的技术方案中,将所述多个游泳姿势监控特征向量按照时间维度排列为一维特征向量后通过使用一维卷积核的第二卷积神经网络模型得到所述游泳状态语义理解特征向量时,由于每个游泳姿势监控特征向量表达单个监控关键帧的图像特征语义,因此所述游泳状态语义理解特征向量可以充分表达各帧的图像特征语义之间的时序关联,但是,由于一维卷积核的局部特征提取特性,这种时序关联既包括帧内特征关联又包括帧间特征关联,从而导致所述游泳状态语义理解特征向量的整体特征分布可能具有较强的离散性,使得分类器的训练困难,尤其是分类器的标签值的收敛困难。因此,优选地使用软标签学习来代替常用的硬标签学习,具体地,在每次迭代时,计算所述游泳状态语义理解特征向量的基于跨分类器软相似性的自由标签优化因数来作为分类器的标签值,表示为:
其中V是所述训练游泳状态语义理解特征向量,M是所述分类器对所述训练游泳状态语义理解特征向量的权重矩阵,和/>分别表示张量乘法和张量加法,d(·,·)表示向量之间的距离,||·||2表示向量的二范数,且α和β是权重超参数,exp(·)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,w表示所述分类器的标签值。这里,所述基于跨分类器软相似性的自由标签优化因数作为分类器的标签值,可以代替以硬标签值计算所述游泳状态语义理解特征向量的分类概率,对所述游泳状态语义理解特征向量和分类器的权重矩阵进行双向聚簇,来通过所述游泳状态语义理解特征向量与权重矩阵的跨分类器的软相似性模拟基于分类器权重矩阵的伪类别,从而以软相似性学习来避免了硬标签学习带来的分类量化损失,实现了更关注于分类器的内在权重结构的自由标签优化,从而优化了分类器的标签值的训练,提升了分类器的训练速度。这样,能够准确地对于游泳者的游泳状态进行检测,以实现对游泳人员的安全监管来避免发生溺水事件,保证游泳人员的游泳安全性。
综上,根据本申请实施例的游泳馆监管系统300被阐明,其通过采用基于机器视觉的人工智能检测技术,以通过对于所述被监控对象的游泳监控视频中的各个游泳监控关键帧进行时间维度上的隐含关联特征挖掘来提取出所述被监控对象的游泳姿势的语义理解特征信息,并将该游泳姿势的语义理解特征通过分类器来进行所述被监控对象的游泳状态是否正常的分类检测。这样,能够精准地对于游泳者的游泳状态进行检测,以实现对游泳人员的安全监管来避免发生溺水事件,保证游泳人员的游泳安全性。
如上所述,根据本申请实施例的游泳馆监管系统可以实现在各种终端设备中。在一个示例中,根据本申请实施例的游泳馆监管系统00可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该游泳馆监管系统300可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该游泳馆监管系统300同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该游泳馆监管系统300与该终端设备也可以是分立的设备,并且该游泳馆监管系统300可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性方法
图8为根据本申请实施例的游泳馆监管方法的流程图。如图8所示,根据本申请实施例的游泳馆监管方法,包括步骤:S110,获取由摄像头采集的被监控对象在预定时间段的游泳监控视频;S120,从所述游泳监控视频提取多个游泳监控关键帧;S130,将所述多个游泳监控关键帧分别通过作为过滤器的第一卷积神经网络模型以得到多个游泳姿势监控特征向量;S140,将所述多个游泳姿势监控特征向量按照时间维度排列为一维特征向量后通过使用一维卷积核的第二卷积神经网络模型以得到游泳状态语义理解特征向量;以及,S150,将所述游泳状态语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示被监控对象的游泳状态是否正常。
在一个示例中,在上述游泳馆监管方法中,所述步骤S120,包括:以预定采样频率对所述游泳监控视频进行采样处理以得到所述多个游泳监控关键帧。
在一个示例中,在上述游泳馆监管方法中,所述步骤S130,包括:使用所述作为过滤器的第一卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于特征矩阵的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述作为过滤器的第一卷积神经网络的最后一层的输出为所述多个游泳姿势监控特征向量,所述作为过滤器的第一卷积神经网络的第一层的输入为所述多个游泳监控关键帧。其中,所述作为过滤器的第一卷积神经网络模型为深度残差网络。
在一个示例中,在上述游泳馆监管方法中,所述步骤S140,包括:使用所述使用一维卷积核的第二卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于特征矩阵的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述使用一维卷积核的第二卷积神经网络的最后一层的输出为所述游泳状态语义理解特征向量,所述使用一维卷积核的第二卷积神经网络的第一层的输入为所述一维特征向量。
在一个示例中,在上述游泳馆监管方法中,所述步骤S150,包括:使用所述分类器的多个全连接层对所述游泳状态语义理解特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
综上,根据本申请实施例的游泳馆监管方法被阐明,其通过采用基于机器视觉的人工智能检测技术,以通过对于所述被监控对象的游泳监控视频中的各个游泳监控关键帧进行时间维度上的隐含关联特征挖掘来提取出所述被监控对象的游泳姿势的语义理解特征信息,并将该游泳姿势的语义理解特征通过分类器来进行所述被监控对象的游泳状态是否正常的分类检测。这样,能够精准地对于游泳者的游泳状态进行检测,以实现对游泳人员的安全监管来避免发生溺水事件,保证游泳人员的游泳安全性。
示例性电子设备
下面,参考图9来描述根据本申请实施例的电子设备。
图9图示了根据本申请实施例的电子设备的框图。
如图9所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的游泳馆监管系统中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如游泳状态语义理解特征向量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括分类结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性系统”部分中描述的根据本申请各种实施例的游泳馆监管方法中的功能中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性系统”部分中描述的根据本申请各种实施例的游泳馆监管方法中的功能中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种游泳馆监管系统,其特征在于,包括:
监控数据采集单元,用于获取由摄像头采集的被监控对象在预定时间段的游泳监控视频;
采样单元,用于从所述游泳监控视频提取多个游泳监控关键帧;
单帧特征提取单元,用于将所述多个游泳监控关键帧分别通过作为过滤器的第一卷积神经网络模型以得到多个游泳姿势监控特征向量;
帧间语义理解单元,用于将所述多个游泳姿势监控特征向量按照时间维度排列为一维特征向量后通过使用一维卷积核的第二卷积神经网络模型以得到游泳状态语义理解特征向量;
以及监管结果生成单元,用于将所述游泳状态语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示被监控对象的游泳状态是否正常。
2.根据权利要求1所述的游泳馆监管系统,其特征在于,所述采样单元,进一步用于:以预定采样频率对所述游泳监控视频进行采样处理以得到所述多个游泳监控关键帧。
3.根据权利要求2所述的游泳馆监管系统,其特征在于,所述单帧特征提取单元,进一步用于:使用所述作为过滤器的第一卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:
对输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行基于特征矩阵的池化以得到池化特征图;以及对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述作为过滤器的第一卷积神经网络的最后一层的输出为所述多个游泳姿势监控特征向量,所述作为过滤器的第一卷积神经网络的第一层的输入为所述多个游泳监控关键帧。
4.根据权利要求3所述的游泳馆监管系统,其特征在于,所述作为过滤器的第一卷积神经网络模型为深度残差网络。
5.根据权利要求4所述的游泳馆监管系统,其特征在于,所述帧间语义理解单元,进一步用于:使用所述使用一维卷积核的第二卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:
对输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行基于特征矩阵的池化以得到池化特征图;以及对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述使用一维卷积核的第二卷积神经网络的最后一层的输出为所述游泳状态语义理解特征向量,所述使用一维卷积核的第二卷积神经网络的第一层的输入为所述一维特征向量。
6.根据权利要求5所述的游泳馆监管系统,其特征在于,所述监管结果生成单元,包括:
全连接编码子单元,用于使用所述分类器的多个全连接层对所述游泳状态语义理解特征向量进行全连接编码以得到编码分类特征向量;以及分类结果生成子单元,用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
7.根据权利要求6所述的游泳馆监管系统,其特征在于,还包括用于对所述作为过滤器的第一卷积神经网络模型、所述使用一维卷积核的第二卷积神经网络模型和所述分类器进行训练的训练模块。
8.根据权利要求7所述的游泳馆监管系统,其特征在于,所述训练模块,包括:
训练数据获取单元,用于获取训练数据,所述训练数据包括被监控对象在预定时间段的训练游泳监控视频,以及,所述被监控对象的游泳状态是否正常的真实值;
训练采样单元,用于从所述训练游泳监控视频提取多个训练游泳监控关键帧;
训练单帧特征提取单元,用于将所述多个训练游泳监控关键帧分别通过所述作为过滤器的第一卷积神经网络模型以得到多个训练游泳姿势监控特征向量;
训练帧间语义理解单元,用于将所述多个训练游泳姿势监控特征向量按照时间维度排列为训练一维特征向量后通过所述使用一维卷积核的第二卷积神经网络模型以得到训练游泳状态语义理解特征向量;
分类损失单元,用于将所述训练游泳状态语义理解特征向量通过所述分类器以得到分类损失函数值;
以及训练单元,用于基于所述分类损失函数值并通过梯度下降的反向传播来对所述作为过滤器的第一卷积神经网络模型、所述使用一维卷积核的第二卷积神经网络模型和所述分类器进行训练,其中,在所述训练过程的每一轮迭代中,计算所述训练游泳状态语义理解特征向量的基于跨分类器软相似性的自由标签优化因数来作为所述分类器的标签值。
9.根据权利要求8所述的游泳馆监管系统,其特征在于,所述在所述训练过程的每一轮迭代中,以如下公式计算所述训练游泳状态语义理解特征向量的基于跨分类器软相似性的自由标签优化因数来作为所述分类器的标签值;
其中,所述公式为:
其中V是所述训练游泳状态语义理解特征向量,M是所述分类器对所述训练游泳状态语义理解特征向量的权重矩阵,和/>分别表示张量乘法和张量加法,d(·,·)表示向量之间的距离,||·||2表示向量的二范数,且α和β是权重超参数,exp(·)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,w表示所述分类器的标签值。
10.一种游泳馆监管方法,其特征在于,包括:
获取由摄像头采集的被监控对象在预定时间段的游泳监控视频;
从所述游泳监控视频提取多个游泳监控关键帧;
将所述多个游泳监控关键帧分别通过作为过滤器的第一卷积神经网络模型以得到多个游泳姿势监控特征向量;
将所述多个游泳姿势监控特征向量按照时间维度排列为一维特征向量后通过使用一维卷积核的第二卷积神经网络模型以得到游泳状态语义理解特征向量;以及将所述游泳状态语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示被监控对象的游泳状态是否正常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310502761.6A CN116503785A (zh) | 2023-05-06 | 2023-05-06 | 游泳馆监管系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310502761.6A CN116503785A (zh) | 2023-05-06 | 2023-05-06 | 游泳馆监管系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116503785A true CN116503785A (zh) | 2023-07-28 |
Family
ID=87322749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310502761.6A Withdrawn CN116503785A (zh) | 2023-05-06 | 2023-05-06 | 游泳馆监管系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503785A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117257302A (zh) * | 2023-09-20 | 2023-12-22 | 湖北万维科技发展有限责任公司 | 人员心理健康状态评估方法及系统 |
CN117315570A (zh) * | 2023-09-08 | 2023-12-29 | 浪潮智慧科技有限公司 | 一种基于实时视频分析的野外游泳监测方法、设备及介质 |
CN117542121A (zh) * | 2023-12-06 | 2024-02-09 | 河北双学教育科技有限公司 | 基于计算机视觉的智能化训练考核系统及方法 |
-
2023
- 2023-05-06 CN CN202310502761.6A patent/CN116503785A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315570A (zh) * | 2023-09-08 | 2023-12-29 | 浪潮智慧科技有限公司 | 一种基于实时视频分析的野外游泳监测方法、设备及介质 |
CN117257302A (zh) * | 2023-09-20 | 2023-12-22 | 湖北万维科技发展有限责任公司 | 人员心理健康状态评估方法及系统 |
CN117542121A (zh) * | 2023-12-06 | 2024-02-09 | 河北双学教育科技有限公司 | 基于计算机视觉的智能化训练考核系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021164326A1 (zh) | 一种视频处理方法、装置、设备及计算机可读存储介质 | |
CN116503785A (zh) | 游泳馆监管系统及其方法 | |
CN108416065B (zh) | 基于层级神经网络的图像-句子描述生成系统及方法 | |
CN112860888B (zh) | 一种基于注意力机制的双模态情感分析方法 | |
CN112766172B (zh) | 一种基于时序注意力机制的人脸连续表情识别方法 | |
KR102449248B1 (ko) | 어린이의 상태 분석 방법 및 장치, 차량, 전자 기기, 저장 매체 | |
Wazalwar et al. | Interpretation of sign language into English using NLP techniques | |
Wu et al. | Convolutional reconstruction-to-sequence for video captioning | |
WO2023179429A1 (zh) | 一种视频数据的处理方法、装置、电子设备及存储介质 | |
CN114723996A (zh) | 模型的训练方法、图像描述生成方法和装置、设备、介质 | |
CN115731513B (zh) | 基于数字孪生的智慧园区管理系统 | |
Praveen et al. | Audio-visual fusion for emotion recognition in the valence-arousal space using joint cross-attention | |
Zhu | Pain expression recognition based on pLSA model | |
CN112686211A (zh) | 一种基于姿态估计的跌倒检测方法及装置 | |
Hua et al. | Falls prediction based on body keypoints and seq2seq architecture | |
CN114663915A (zh) | 基于Transformer模型的图像人-物交互定位方法及系统 | |
CN112529149A (zh) | 一种数据处理方法及相关装置 | |
CN115775349A (zh) | 基于多模态融合的假新闻检测方法和装置 | |
Cui et al. | Multi-source learning for skeleton-based action recognition using deep LSTM networks | |
Zhu et al. | Falling motion detection algorithm based on deep learning | |
Sahoo et al. | DISNet: A sequential learning framework to handle occlusion in human action recognition with video acquisition sensors | |
CN115862151B (zh) | 基于游戏预测老年人反应能力的数据处理系统及方法 | |
CN116522212B (zh) | 基于图像文本融合的谎言检测方法、装置、设备及介质 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN116486465A (zh) | 用于人脸结构分析的图像识别方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230728 |