CN117649631B - 一种基于改进卷积神经网络的客户端图像处理方法及系统 - Google Patents

一种基于改进卷积神经网络的客户端图像处理方法及系统 Download PDF

Info

Publication number
CN117649631B
CN117649631B CN202410114433.3A CN202410114433A CN117649631B CN 117649631 B CN117649631 B CN 117649631B CN 202410114433 A CN202410114433 A CN 202410114433A CN 117649631 B CN117649631 B CN 117649631B
Authority
CN
China
Prior art keywords
neural network
video frame
convolutional neural
frame image
adjusted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410114433.3A
Other languages
English (en)
Other versions
CN117649631A (zh
Inventor
黎信和
王丹敏
潘俊聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yuzhong Network Technology Co ltd
Original Assignee
Guangzhou Yuzhong Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yuzhong Network Technology Co ltd filed Critical Guangzhou Yuzhong Network Technology Co ltd
Priority to CN202410114433.3A priority Critical patent/CN117649631B/zh
Publication of CN117649631A publication Critical patent/CN117649631A/zh
Application granted granted Critical
Publication of CN117649631B publication Critical patent/CN117649631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进卷积神经网络的客户端图像处理方法及系统,包括步骤:S1:客户端接收到视频帧图像,对视频帧图像进行预处理;S2:调整卷积神经网络结构参数,包括根据实时获取的客户端设备的CPU时钟频率并结合CPU内核数将卷积神经网络卷积层的数量和通道数进行调整,以便适应设备的计算和内存资源限制;S3:将预处理后的视频帧图像输入至调整后的卷积神经网络;S4:根据视频帧图像标记,将视频帧图像归类到相应的内容类别数据库中。本申请通过实时获取设备性能信息,可以根据设备的资源限制来调整模型的结构参数,以保证在设备上高效运行,极大增加用户体验。

Description

一种基于改进卷积神经网络的客户端图像处理方法及系统
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于改进卷积神经网络的客户端图像处理方法及系统。
背景技术
随着数字媒体和智能设备的普及,视频图像内容的产生和传播已经成为日常生活的一部分。人们通过智能手机、摄像机、无人机等设备轻松地拍摄和分享视频。同时,视频分享平台如抖音、快手、优酷等也崭露头角,成为人们交流和娱乐的主要渠道。然而,处理这些大量的视频内容以及理解其中的信息仍然具有挑战性,尤其是对视频中人物的动作和活动的识别和分类。视频内容的分析和处理在多个领域中具有广泛的应用,包括但不限于娱乐、安全监控、医疗诊断、体育分析等。在娱乐领域,社交媒体平台上的用户经常上传包含各种类型的视频,如舞蹈表演、音乐演奏、户外活动等。为了更好地推荐和分类这些视频,需要对视频内容进行自动化分析和标记。视频中的动作识别是计算机视觉领域的一个关键任务。它涉及到从视频中识别和分类出人物的各种动作,例如跳舞、演奏乐器、徒步、瑜伽等。这一领域的研究对于视频内容的理解、索引和检索具有重要价值。例如,在视频分享平台上,自动识别和分类视频中的动作可以用于改善内容推荐和搜索功能,提供更好的用户体验。
在这些应用中,视频图像处理质量直接影响用户体验和系统性能。传统的图像处理方法通常依赖于固定的算法流程,如滤波、边缘检测、特征提取等,这些方法虽然在特定条件下有效,但在处理复杂场景或动态变化的环境时,它们的灵活性和适应性有限。此外,这些方法通常需要大量的计算资源,这在资源受限的客户端设备上尤其成问题。近年来,卷积神经网络(CNN)因其在图像识别和分类方面的卓越性能而成为图像处理的主流方法。然而,传统的CNN模型通常设计为固定结构,这意味着它们在不同设备上的表现可能会因硬件限制(如CPU性能、内存大小和带宽)而大不相同。此外,这些固定结构的CNN模型通常不考虑能耗效率,这在移动设备等电池供电的环境中是一个关键问题。
且现有的卷积神经网络不能够根据设备不同或时钟频率不同的情况进行动态调整,导致计算灵活性较差,且现有的卷积神经网络的激活函数不能够根据实际结构的变化而变化,针对视频图像处理时有较高的局限性,视频图像处理行业迫切需要一种新的解决方案,以提高视频图像处理的效率和客户满意度。
发明内容
针对现有技术中提到的上述问题,为解决上述技术问题,本发明提供了一种基于改进卷积神经网络的客户端图像处理方法及系统,不同的客户端设备在执行任务时具有不同的性能和资源限制,例如不同设备的CPU时钟频率、内存大小不同,则任务执行时具有不同的性能和资源限制,为了在各种设备上有效运行,模型需要具有一定的自适应性,通过实时获取设备性能信息,如CPU时钟频率和内存大小,根据设备的资源限制来调整模型的结构参数,以保证在设备上高效运行。这种自适应性调整模型的方法对于实际应用中的性能优化至关重要,通过对卷积神经网络的调整大大提升了不同条件下的视频图像处理速度,极大增加用户体验。
本申请提供一种基于改进卷积神经网络的客户端图像处理方法,包括步骤:
S1:客户端接收到视频帧图像,对视频帧图像进行预处理,包括采用高斯滤波去除视频帧图像噪声;
S2:调整卷积神经网络结构参数,包括根据实时获取的客户端设备的CPU时钟频率并结合CPU内核数/>将卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,以便适应设备的计算和内存资源限制;
其中,为卷积神经网络卷积层的总数,/>为卷积神经网络每个卷积层的通道总数,/>为内存大小,/>为内存带宽,/>为设备的能耗效率,/>表示向下取整;
为CPU平衡权重因子,/>为内存平衡权重因子;/>表示CPU的峰值功率,表示内存的峰值功率;
S3:将预处理后的视频帧图像输入至调整后的卷积神经网络,调整后的卷积神经网络识别视频中人物的活动,并对视频帧图像作出标记,视频帧图像标记包括跳舞或演奏或徒步或瑜伽;
S4:根据视频帧图像标记,将视频帧图像归类到相应的内容类别数据库中。
优选地,所述S1:客户端接收到视频帧图像,对视频帧图像进行预处理,还包括:客户端通过摄像头或图像传输接口接收到视频帧图像,将视频帧图像进行尺寸调整、格式转换、颜色空间转换,其中尺寸调整为将视频帧图像缩放到224*224像素,将视频帧图像转换成PNG格式。
优选地,所述S3:将预处理后的视频帧图像输入至调整后的卷积神经网络,其中调整后的卷积神经网络采用的激活函数为改进型Mish激活函数,
其中,为动态调节激活函数的响应函数,/>为传递给激活函数的输入值,卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,/>为超参数,e为自然对数的底数,/>为双曲正切函数,/>为自然对数。
优选地,所述S3:将预处理后的视频帧图像输入至调整后的卷积神经网络,调整后的卷积神经网络识别视频中人物的活动,并对视频帧图像作出标记,视频帧图像标记包括跳舞或演奏或徒步或瑜伽,其中卷积神经网络是根据历史数据训练成的动作分类模型,历史数据分为训练集和验证集,包括视频帧图像及对应标签。
优选地,所述并对视频帧图像作出标记,具体为调整后的卷积神经网络全连接层输出标记分类结果。
本发明还提供一种基于改进卷积神经网络的客户端图像处理系统,包括:
视频帧图像接收模块,客户端接收到视频帧图像,对视频帧图像进行预处理,包括采用高斯滤波去除视频帧图像噪声;
卷积神经网络结构参数调整模块,包括根据实时获取的客户端设备的CPU时钟频率并结合CPU内核数/>将卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,以便适应设备的计算和内存资源限制;
其中,为卷积神经网络卷积层的总数,/>为卷积神经网络每个卷积层的通道总数,/>为内存大小,/>为内存带宽,/>为设备的能耗效率,/>表示向下取整;
为CPU平衡权重因子,/>为内存平衡权重因子;/>表示CPU的峰值功率,表示内存的峰值功率;
调整后的卷积神经网络识别模块,将预处理后的视频帧图像输入至调整后的卷积神经网络,调整后的卷积神经网络识别视频中人物的活动,并对视频帧图像作出标记,视频帧图像标记包括跳舞或演奏或徒步或瑜伽;
视频帧图像归类模块,根据视频帧图像标记,将视频帧图像归类到相应的内容类别数据库中。
优选地,所述视频帧图像接收模块:客户端接收到视频帧图像,对视频帧图像进行预处理,还包括:客户端通过摄像头或图像传输接口接收到视频帧图像,将视频帧图像进行尺寸调整、格式转换、颜色空间转换,其中尺寸调整为将视频帧图像缩放到224*224像素,将视频帧图像转换成PNG格式。
优选地,所述将预处理后的视频帧图像输入至调整后的卷积神经网络,其中调整后的卷积神经网络采用的激活函数为改进型Mish激活函数,
其中,为动态调节激活函数的响应函数,/>为传递给激活函数的输入值,卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,/>为超参数,e为自然对数的底数,/>为双曲正切函数,/>为自然对数。
优选地,所述调整后的卷积神经网络识别模块:将预处理后的视频帧图像输入至调整后的卷积神经网络,调整后的卷积神经网络识别视频中人物的活动,并对视频帧图像作出标记,视频帧图像标记包括跳舞或演奏或徒步或瑜伽,其中卷积神经网络是根据历史数据训练成的动作分类模型,历史数据分为训练集和验证集,包括视频帧图像及对应标签。
优选地,所述并对视频帧图像作出标记,具体为调整后的卷积神经网络全连接层输出标记分类结果。
本发明提供了一种基于卫星通信的保险处理方法及系统,所能实现的有益技术效果如下:
1、本发明通过调整卷积神经网络结构参数,包括根据实时获取的客户端设备的CPU时钟频率并结合CPU内核数将卷积神经网络卷积层的数量进行调整,每个卷积层的通道数进行调整,以便适应设备的计算和内存资源限制;本申请通过动态的调整卷积神经网络的层数和通道数,大大增强了视频图像处理效率和质量,能够根据内存和时钟频率动态调整卷积神经网络,从而调节计算量,大大提升了不同条件下的视频图像处理速度,极大增加用户体验。
2、本发明根据根据实时获取的客户端设备的CPU时钟频率并结合CPU内核数将卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,计算过程中获取/>为设备的能耗效率,/>表示向下取整;
为CPU平衡权重因子,/>为内存平衡权重因子;/>表示CPU的峰值功率,表示内存的峰值功率,通过计算实现了卷积层数和通道数的准确获取。
3、本发明创造性的采用将预处理后的视频帧图像输入至调整后的卷积神经网络,其中调整后的卷积神经网络采用的激活函数为改进型Mish激活函数,
其中,为动态调节激活函数的响应函数,/>为传递给激活函数的输入值,卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,/>为超参数,e为自然对数的底数,/>为双曲正切函数,/>为自然对数,根据卷积层数和通道数对激活函数进行动态调整,大大提高了卷积神经网络的准确性,大大提升了视频图像处理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明的一种基于卫星通信的保险处理方法步骤示意图;
图2是本发明的一种基于卫星通信的保险处理系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:
针对现有技术中提到的上述问题,为解决上述技术问题,如附图1所示:提供一种基于改进卷积神经网络的客户端图像处理方法,包括步骤:
S1:客户端接收到视频帧图像,对视频帧图像进行预处理,包括采用高斯滤波去除视频帧图像噪声;高斯滤波去除视频帧图像噪声的步骤进一步包括:计算高斯滤波核的标准差σ,其中σ根据视频帧图像的特性自适应调整,以确保最佳噪声去除效果。应用自适应标准差的高斯滤波:对视频帧图像应用高斯滤波核,以去除噪声,并保持图像的细节和清晰度。
图像采集:客户端通过摄像头、图像传输接口或其他方式获取视频帧图像。
尺寸调整:首先,视频帧图像具有不同的尺寸,需要将其调整为模型所需的标准尺寸,在一些实施例中,卷积神经网络(CNN)模型需要输入具有相同大小的图像。将视频帧图像缩放为标准的224x224像素大小,这是常用的图像大小。
格式转换:不同的摄像头或传感器可能以不同的图像格式保存数据。预处理过程可能需要将图像转换为标准的图像格式,如PNG、JPEG等,以确保一致性。这有助于减少后续处理中的不必要复杂性。
颜色空间转换: 有时,预处理可能涉及将图像从一种颜色空间转换为另一种。例如,将彩色图像从RGB颜色空间转换为灰度图像,以降低计算复杂性,或者执行其他特定任务。
噪声去除:噪声是图像中不希望的随机像素值,可能会影响后续的分析和识别。在预处理中,可以采用各种技术,如高斯滤波,去除图像中的噪声。高斯滤波是一种常用的去噪方法,它模糊图像以减少噪声。
数据标准化:在某些情况下,还可以对图像进行标准化处理,以确保图像的像素值位于特定范围内,通常是0到1之间。这可以有助于模型更好地处理图像数据。
S2:调整卷积神经网络结构参数,包括根据实时获取的客户端设备的CPU时钟频率并结合CPU内核数/>将卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,以便适应设备的计算和内存资源限制;
其中,为卷积神经网络卷积层的总数,/>为卷积神经网络每个卷积层的通道总数,/>为内存大小,/>为内存带宽,/>为设备的能耗效率,/>表示向下取整;
为CPU平衡权重因子,/>为内存平衡权重因子;/>表示CPU的峰值功率,表示内存的峰值功率,调节卷积层的数量和通道数是指卷积神经网络(CNN)的卷积部分,而不包括池化层、全连接层和激活层。这是因为卷积层是CNN的核心组成部分,它们用于提取图像中的特征。在调整卷积层的数量和通道数时,是为了控制模型的复杂性、提高特征提取能力或适应不同任务。
调整卷积神经网络结构参数以适应客户端设备的计算和内存资源限制是一项关键任务,以下是一个具体的示例,详细说明如何根据客户端设备的CPU时钟频率和CPU内核数进行卷积神经网络的结构调整:
在一些实施例中,一个客户端设备,该设备的CPU时钟频率为2.4 GHz,具有4个CPU内核,内存大小为4GB,内存带宽为25 GB/s,设备的能耗效率为0.5 GFLOPS/W。
获取实时信息: 客户端应用程序首先获取客户端设备的实时信息,包括CPU时钟频率、CPU内核数、内存大小、内存带宽以及设备的能耗效率。
计算可用的计算资源:根据获取到的信息,计算出客户端设备的可用计算资源。在一些实施例中,计算出设备的理论峰值计算性能(FLOPS):
峰值FLOPS=CPU时钟频率×CPU内核数,在这个示例中,峰值FLOPS为
2.4GHz×4=9.6GFLOPS2.4GHz×4=9.6GFLOPS。
设定卷积层数和通道数: 接下来,根据可用计算资源和内存情况,可以设定卷积神经网络的卷积层数和每个卷积层的通道数。可用的计算资源:根据峰值FLOPS,确定可分配给卷积层的计算资源。内存大小和内存带宽:确保卷积层的参数和活函数参数能够适应设备的内存大小和内存带宽。能耗效率:考虑设备的能耗效率,以避免超过设备的可接受功耗范围。
动态调整卷积层数和通道数:一旦设定了卷积层数和通道数,客户端应用程序可以动态地根据当前设备的性能情况进行调整。例如,如果设备的CPU负载较高,可以降低卷积层数或通道数,以降低计算负载。相反,如果设备的CPU资源充足,可以增加卷积层数或通道数以提高识别准确性。
性能监控和适应性调整:客户端应用程序应定期监控设备的性能情况,包括CPU利用率、内存使用情况等。根据性能监控结果,可以动态地调整卷积神经网络的结构参数,以确保在不同的工作负载下都能够有效运行。举例来说,如果客户端设备在运行期间遇到了较高的CPU负载,可以通过降低卷积层数和通道数来减轻负载,以确保其他应用程序和任务不受影响。相反,如果设备在空闲状态下,可以通过增加卷积层数和通道数来提高图像处理的速度和质量。通过以上步骤,客户端应用程序实现卷积神经网络的动态调整,以适应不同设备的计算和内存资源限制,从而提高图像处理的效率和性能。
卷积神经网络的池化层、全连接层和激活层通常是在卷积层之后添加的,它们用于降低特征维度、进行分类、引入非线性等操作。这些层的数量和参数也可以根据任务需求进行调整,但它们不被包括在卷积层数量和通道数的调整中。因此,卷积层的数量和通道数进行了调整,而其他类型的层(如池化层、全连接层、激活层)未调整。
S3:将预处理后的视频帧图像输入至调整后的卷积神经网络,调整后的卷积神经网络识别视频中人物的活动,并对视频帧图像作出标记,视频帧图像标记包括跳舞或演奏或徒步或瑜伽;获取标记信息:
从视频帧图像标记中获取信息,该标记表明了图像中的活动,例如跳舞、演奏、徒步或瑜伽。使用分类模型:针对每个视频帧图像,将其输入到预训练的深度学习分类模型中,该模型已经在大量数据上进行了训练,能够识别各种活动。分类预测:模型会产生一个分类预测结果,表示图像属于哪个活动类别。例如,预测结果可以是"跳舞"、"演奏"、"徒步"或"瑜伽"之一。归类到数据库:根据分类预测结果,将视频帧图像自动归类到相应的内容类别数据库中。如果模型预测图像属于"跳舞"活动,那么将该图像添加到"跳舞"类别的数据库中;如果预测为"演奏",则添加到"演奏"类别数据库中,依此类推。
在一些实施例中,基于历史数据训练的动作分类模型的生成方法,包括以下步骤:收集大量历史数据,包括包含不同类型动作的视频帧图像以及对应的标签信息,其中标签信息包括视频中出现的动作类别,如跳舞、演奏、徒步、瑜伽等;将收集到的历史数据分为训练集和验证集,以便进行模型训练和评估;构建卷积神经网络模型,该模型用于动作分类,包括卷积层、池化层、全连接层等,其中卷积层用于提取图像特征,全连接层用于输出分类结果;使用训练集的历史数据对卷积神经网络进行训练,通过反向传播算法不断优化模型的权重参数,以使其能够正确分类不同类型的动作;使用验证集的数据评估训练好的模型的性能,进行模型选择和调优;在模型训练和验证达到满意结果后,生成一个动作分类模型,该模型能够根据输入的视频帧图像识别并分类不同类型的动作,例如跳舞、演奏、徒步、瑜伽等。这种方法利用历史数据进行监督式学习,通过训练卷积神经网络模型,使其具备识别和分类不同类型动作的能力。生成的动作分类模型可以用于后续的视频分析和标记,从而实现对视频中人物动作的自动分类和识别。
S4:根据视频帧图像标记,将视频帧图像归类到相应的内容类别数据库中。
在一些实施例中,所述S1:客户端接收到视频帧图像,对视频帧图像进行预处理,还包括:客户端通过摄像头或图像传输接口接收到视频帧图像,将视频帧图像进行尺寸调整、格式转换、颜色空间转换,其中尺寸调整为将视频帧图像缩放到224*224像素,将视频帧图像转换成PNG格式。
在一些实施例中,所述S3:将预处理后的视频帧图像输入至调整后的卷积神经网络,其中调整后的卷积神经网络采用的激活函数为改进型Mish激活函数,
其中,为动态调节激活函数的响应函数,/>为传递给激活函数的输入值,卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,/>为超参数,e为自然对数的底数,/>为双曲正切函数,/>为自然对数。
在一些实施例中,所述S3:将预处理后的视频帧图像输入至调整后的卷积神经网络,调整后的卷积神经网络识别视频中人物的活动,并对视频帧图像作出标记,视频帧图像标记包括跳舞或演奏或徒步或瑜伽,其中卷积神经网络是根据历史数据训练成的动作分类模型,历史数据分为训练集和验证集,包括视频帧图像及对应标签。
在一些实施例中,所述并对视频帧图像作出标记,具体为调整后的卷积神经网络全连接层输出标记分类结果。卷积神经网络(CNN)通常由多个不同类型的层组成,这些层用于执行各种图像处理任务。以下是常见的卷积神经网络层类型:
输入层(Input Layer): 输入层接受原始图像或数据,并将其传递给下一层进行处理。输入层的节点数通常与输入数据的维度相匹配。卷积层(Convolutional Layer): 卷积层是CNN的核心组成部分,它包括多个卷积核或过滤器,用于检测图像中的特征。这些层通过卷积操作提取图像的局部特征。池化层(Pooling Layer): 池化层用于降低卷积层输出的空间维度,减少计算复杂性并提高模型的平移不变性。常见的池化操作包括最大池化和平均池化。全连接层(Fully Connected Layer): 全连接层是一个密集连接的神经网络层,每个神经元与前一层的所有神经元相连接。这些层通常用于模型的分类或回归任务。激活层(Activation Layer): 激活层引入非线性性质到模型中,通常使用激活函数(如ReLU、Sigmoid、Tanh)来对神经元的输出进行变换。批量归一化层(Batch NormalizationLayer): 批量归一化层用于加速训练和稳定模型,通过规范化每个批次的输入数据来减少内部协变量偏移。残差连接层(Residual Connection Layer): 残差连接层是一种特殊的连接方式,允许信息在网络中更轻松地传递。它在深层网络中有助于缓解梯度消失问题。丢弃层(Dropout Layer): 丢弃层用于随机丢弃神经元的一部分输出,以减少过拟合风险。卷积转置层(Convolutional Transpose Layer): 卷积转置层通常用于图像上采样和生成模型中,它将低分辨率输入转换为高分辨率输出。注意力层(Attention Layer): 注意力层用于模型关注输入中的特定区域,以改善任务性能,特别在自然语言处理和计算机视觉中常用。
a. 使用训练数据集对配置好的CNN模型进行训练,通过反向传播算法不断优化模型的权重参数。
b. 设置训练的迭代次数和学习率等超参数,以确保模型能够收敛到合适的状态。
c. 在训练过程中,监控模型的性能指标,如损失函数和准确度,以评估模型的训练进展。
d. 使用验证数据集对训练后的模型进行评估,以检查其在未见过的数据上的性能。
e. 评估指标可以包括准确度、精确度、召回率等。保存训练好的分类模型,以备在实时场景中进行动作识别和标记。
实施例2:
本发明还提供一种基于改进卷积神经网络的客户端图像处理系统,如图2所示,包括:
在一些实施例中,客户端设备:这是系统的核心组成部分,通常是智能手机、平板电脑、摄像头、计算机或其他可携带设备。客户端设备用于接收、处理和显示图像,同时运行图像处理系统。
摄像头或图像传感器:用于捕捉图像或视频帧的硬件。这可以是内置在客户端设备中的摄像头,也可以是外部连接的图像传感器,例如USB摄像头或专业摄像机。CPU(中央处理器):客户端设备的主要计算单元,用于执行图像处理算法、卷积神经网络的推理和动态调整等操作。CPU的性能和核数将影响图像处理的速度和效率。
内存(RAM):用于存储图像数据、模型参数和中间计算结果的临时存储器。内存的大小和带宽将影响系统的处理能力。GPU(图形处理器):在一些高性能客户端设备中,GPU可以用于加速卷积神经网络的推理过程,提高图像处理的速度。显示屏:用于显示图像处理结果的硬件组件。这可以是智能手机或计算机的屏幕,或者连接到设备上的外部显示器。网络连接:客户端设备通常需要互联网连接,以便从云端服务器获取模型更新、历史数据或其他相关信息。操作系统:客户端设备上运行的操作系统,例如Android、iOS、Windows等,用于管理硬件资源和运行图像处理应用程序。视频帧图像接收模块,客户端接收到视频帧图像,对视频帧图像进行预处理,包括采用高斯滤波去除视频帧图像噪声;
卷积神经网络结构参数调整模块,包括根据实时获取的客户端设备的CPU时钟频率并结合CPU内核数/>将卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,以便适应设备的计算和内存资源限制;
其中,为卷积神经网络卷积层的总数,/>为卷积神经网络每个卷积层的通道总数,/>为内存大小,/>为内存带宽,/>为设备的能耗效率,/>表示向下取整;
为CPU平衡权重因子,/>为内存平衡权重因子;/>表示CPU的峰值功率,表示内存的峰值功率;
调整后的卷积神经网络识别模块,将预处理后的视频帧图像输入至调整后的卷积神经网络,调整后的卷积神经网络识别视频中人物的活动,并对视频帧图像作出标记,视频帧图像标记包括跳舞或演奏或徒步或瑜伽;识别和分析人物的跳舞活动包括以下详细步骤:
在一些实施例中,不通过训练卷积神经网络,而是卷积神经网络在每个视频帧图像上执行对象检测,以确定图像中的人物位置和姿势;对检测到的人物进行关键点检测,以捕捉人物的关键关节和动作信息;卷积神经网络使用时间序列分析技术,对连续的视频帧进行跟踪,以检测人物的运动模式;卷积神经网络将人物的运动模式与预定义的跳舞动作进行匹配,以确定人物是否在跳舞;如果人物被识别为在跳舞,则卷积神经网络生成带有“跳舞”标签的输出,标记视频帧图像中人物的跳舞活动。
使用调整后的卷积神经网络(CNN)识别和分析视频中的人物动作和活动,可以生成多种标签,除了跳舞、运动、表演之外,还可以包括以下类型的标签:
生活日常:如做饭、清洁、购物等日常活动。
教育和学习:如教学视频、学术报告、在线课程。
旅游和探险:如徒步旅行、城市探索、自然观察。
亲子和家庭:如家庭聚会、亲子互动、儿童游戏。
宠物和动物:如宠物互动、动物行为、野生动物。
艺术和手工:如绘画、手工艺制作、雕塑。
健康和健身:如瑜伽、健身训练、舞蹈健身。
音乐和演奏:如演唱、乐器演奏、音乐会。
科技和创新:如科学实验、新技术展示、创客项目。
时尚和美妆:如化妆教程、时尚搭配、美发造型。
S1:客户端接收到视频帧图像,对视频帧图像进行预处理,包括采用高斯滤波去除视频帧图像噪声;
S2:调整卷积神经网络结构参数,包括根据实时获取的客户端设备的CPU时钟频率并结合CPU内核数将卷积神经网络卷积层的数量调整为,每个卷积层的通道数调整为,以便适应设备的计算和内存资源限制;
其中,为卷积神经网络卷积层的总数,为卷积神经网络每个卷积层的通道总数,为内存大小,为内存带宽,为设备的能耗效率,表示向下取整;为CPU平衡权重因子,为内存平衡权重因子;表示CPU的峰值功率,表示内存的峰值功率;将预处理后的视频帧图像输入至调整后的卷积神经网络,调整后的卷积神经网络识别视频中人物的活动,并对视频帧图像作出标记,视频帧图像标记包括跳舞或演奏或徒步或瑜伽;根据视频帧图像标记,将视频帧图像归类到相应的内容类别数据库中。
调整后的卷积神经网络具有以下特征:卷积层数根据实时获取的客户端设备的CPU时钟频率和CPU内核数进行自适应调整,以确保在资源受限的情况下仍能有效运行;每个卷积层的通道数也根据设备的计算能力和内存资源进行自适应调整,以优化性能;模型采用改进型Mish激活函数,该激活函数的响应根据动态调整的参数进行优化,以提高特征提取能力;卷积神经网络经过历史数据的训练,包括包含跳舞活动的视频帧图像以及相关的标签信息,以形成一个动作分类模型,用于识别不同类型的活动。
这些特征使得调整后的卷积神经网络能够根据设备性能和资源限制自适应地进行参数调整,同时能够识别和分类视频中的不同活动,并将其归类到相应的内容类别数据库中。
视频帧图像归类模块,根据视频帧图像标记,将视频帧图像归类到相应的内容类别数据库中。
在一些实施例中,所述视频帧图像接收模块:客户端接收到视频帧图像,对视频帧图像进行预处理,还包括:客户端通过摄像头或图像传输接口接收到视频帧图像,将视频帧图像进行尺寸调整、格式转换、颜色空间转换,其中尺寸调整为将视频帧图像缩放到224*224像素,将视频帧图像转换成PNG格式。
在一些实施例中,所述将预处理后的视频帧图像输入至调整后的卷积神经网络,其中调整后的卷积神经网络采用的激活函数为改进型Mish激活函数,
其中,为动态调节激活函数的响应函数,/>为传递给激活函数的输入值,卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,/>为超参数,e为自然对数的底数,/>为双曲正切函数,/>为自然对数。
特定的迁移学习场景: 在某些迁移学习的情况下,使用已经在大规模数据集上进行了训练的预训练模型,如ImageNet上的预训练模型。这些模型已经包含了丰富的特征表示,包括各种卷积层和通道。在这种情况下,考虑在不进行重新训练的情况下微调模型,只需调整某些卷积层或通道的权重,以适应特定任务。这被称为微调(Fine-tuning)。
参数冻结: 可以冻结模型的某些层,使其权重在训练期间保持不变。这意味着卷积层的数量和通道数不会被修改,而只有部分层的参数会被更新。这在迁移学习和多任务学习中很常见。特征提取器:如果CNN模型的底层被视为通用的特征提取器,而顶层是用于特定任务的分类器,可以在不重新训练底层卷积层的情况下仅训练顶层分类器。这可以通过冻结底层卷积层的权重来实现。小规模任务:对于一些小规模任务,如果原始的卷积神经网络已经在大规模数据集上进行了训练,并且新任务与原任务有一定的相似性,不重新训练而仅微调模型的某些部分。这通常需要仔细权衡性能和计算成本。
在一些实施例中,所述调整后的卷积神经网络识别模块:将预处理后的视频帧图像输入至调整后的卷积神经网络,调整后的卷积神经网络识别视频中人物的活动,并对视频帧图像作出标记,视频帧图像标记包括跳舞或演奏或徒步或瑜伽,其中卷积神经网络是根据历史数据训练成的动作分类模型,历史数据分为训练集和验证集,包括视频帧图像及对应标签。在深度学习中,通过反向传播算法来不断优化模型的权重参数是一种常见的训练方法。以下是一个具体的例子,说明如何通过反向传播来优化神经网络模型的权重参数:
在一些实施例中用于跳舞动作分类的卷积神经网络(CNN)模型,该模型具有多个层,包括卷积层、池化层和全连接层。以卷积层为例进行说明:
初始化权重参数:对于每个卷积层,权重参数由卷积核矩阵和偏差向量组成。初始时,这些参数通常是随机初始化的。正向传播:输入一批训练样本,通过模型的正向传播计算出预测结果。正向传播的过程是从输入数据开始,逐层计算神经网络的输出。计算损失:使用预测结果和真实标签之间的差距来计算损失函数的值。常见的损失函数包括交叉熵损失函数。
反向传播:反向传播的过程从损失函数开始,逆向计算梯度(导数)。针对每个权重参数,计算其对损失函数的偏导数,即梯度。使用链式法则将梯度传播回每一层,并更新每个权重参数。权重更新:使用梯度下降或其变种方法,更新权重参数,以降低损失函数的值。权重更新的幅度由学习率控制,通常需要调整学习率的大小以获得最佳性能。重复迭代:以上步骤会反复迭代,直到达到停止条件,例如达到一定的训练轮数或损失函数收敛到一个稳定值。在这个过程中,每个卷积层的权重参数都会根据反向传播计算的梯度进行调整,以最小化损失函数。卷积核矩阵中的权重和偏差向量都包含在这个过程中,它们决定了卷积层的特征提取能力。
在一些实施例中,典型的CNN结构包括卷积层、池化层、全连接层和激活函数。以下是一个CNN结构示例:输入层:接收图像作为输入,通常是多通道的图像(例如RGB图像)。卷积层:卷积层包括多个卷积核,每个卷积核在输入图像上滑动并执行卷积操作,生成特征图。这些特征图捕捉了不同位置和尺度上的图像特征。池化层:池化层用于减小特征图的尺寸,减少计算量,并提取最重要的特征。常见的池化操作是最大池化,它选择每个区域中的最大值。全连接层:全连接层接收池化层的输出,并将其映射到输出类别的分数。通常有一个或多个全连接层。激活函数:激活函数(如ReLU、Sigmoid、Tanh等)用于引入非线性性,增加网络的表达能力。本申请采用的改进型Mish激活函数根据卷积层数和通道数对激活函数进行动态调整,大大提高了卷积神经网络的准确性,大大提升了视频图像处理效率。
训练CNN通常包括以下步骤:数据准备:准备带有标签的训练数据集和验证数据集。每个图像都与其对应的类别标签相关联。初始化模型:初始化CNN的权重参数。这可以使用随机初始化或使用预训练的模型权重作为起点。正向传播:将训练数据送入网络中,通过卷积、池化和全连接层,得到网络的输出。计算损失:使用损失函数(例如交叉熵损失)比较网络的输出与真实标签之间的差异,得到损失值。反向传播:使用反向传播算法,计算损失相对于权重参数的梯度。这些梯度将用于更新权重参数。权重更新:使用优化算法(如梯度下降、Adam等),按照梯度方向更新网络的权重参数,以降低损失。重复训练:重复进行正向传播、损失计算、反向传播和权重更新,直到损失收敛或达到预定的训练轮次。
在一些实施例中,一旦CNN模型训练完成,可以用于图像分类。具体步骤如下:输入图像:将待分类的图像输入到已经训练好的CNN模型中。正向传播:图像通过CNN,经过卷积和池化层,最终生成一个类别分数的向量。类别预测:通常使用softmax函数将类别分数转换为类别概率分布。最终选择概率最高的类别作为预测结果。输出结果:CNN输出了图像的分类结果,即预测图像属于哪个类别。
在一些实施例中,所述并对视频帧图像作出标记,具体为调整后的卷积神经网络全连接层输出标记分类结果。
本发明提供了一种基于卫星通信的保险处理方法及系统,所能实现的有益技术效果如下:
1、本发明通过调整卷积神经网络结构参数,包括根据实时获取的客户端设备的CPU时钟频率并结合CPU内核数将卷积神经网络卷积层的数量进行调整,每个卷积层的通道数进行调整,以便适应设备的计算和内存资源限制;本申请通过动态的调整卷积神经网络的层数和通道数,大大增强了视频图像处理效率和质量,能够根据内存和时钟频率动态调整卷积神经网络,从而调节计算量,大大提升了不同条件下的视频图像处理速度,极大增加用户体验。
2、本发明根据根据实时获取的客户端设备的CPU时钟频率并结合CPU内核数将卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,计算过程中获取/>为设备的能耗效率,/>表示向下取整;
为CPU平衡权重因子,/>为内存平衡权重因子;/>表示CPU的峰值功率,表示内存的峰值功率,通过计算实现了卷积层数和通道数的准确获取。
3、本发明创造性的采用将预处理后的视频帧图像输入至调整后的卷积神经网络,其中调整后的卷积神经网络采用的激活函数为改进型Mish激活函数,
其中,为动态调节激活函数的响应函数,/>为传递给激活函数的输入值,卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,/>为超参数,e为自然对数的底数,/>为双曲正切函数,/>为自然对数,根据卷积层数和通道数对激活函数进行动态调整,大大提高了卷积神经网络的准确性,大大提升了视频图像处理效率。
以上对一种基于卫星通信的保险处理方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想;同时,对于本领域的一般技术人员,依据本发明的思想和方法,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于改进卷积神经网络的客户端图像处理方法,其特征在于,包括步骤:
S1:客户端接收到视频帧图像,对视频帧图像进行预处理,包括采用高斯滤波去除视频帧图像噪声;
S2:调整卷积神经网络结构参数,包括根据实时获取的客户端设备的CPU时钟频率并结合CPU内核数/>将卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,以便适应设备的计算和内存资源限制;/>
其中,为卷积神经网络卷积层的总数,/>为卷积神经网络每个卷积层的通道总数,为内存大小,/>为内存带宽,/>为设备的能耗效率,/>表示向下取整;
为CPU平衡权重因子,/>为内存平衡权重因子;/>表示CPU的峰值功率,/>表示内存的峰值功率;
S3:将预处理后的视频帧图像输入至调整后的卷积神经网络,调整后的卷积神经网络识别视频中人物的活动,并对视频帧图像作出标记,视频帧图像标记包括跳舞或演奏或徒步或瑜伽;
S4:根据视频帧图像标记,将视频帧图像归类到相应的内容类别数据库中。
2.如权利要求1所述的一种基于改进卷积神经网络的客户端图像处理方法,其特征在于,所述S1:客户端接收到视频帧图像,对视频帧图像进行预处理,还包括:客户端通过摄像头或图像传输接口接收到视频帧图像,将视频帧图像进行尺寸调整、格式转换、颜色空间转换,其中尺寸调整为将视频帧图像缩放到224*224像素,将视频帧图像转换成PNG格式。
3.如权利要求1所述的一种基于改进卷积神经网络的客户端图像处理方法,其特征在于,所述S3:将预处理后的视频帧图像输入至调整后的卷积神经网络,其中调整后的卷积神经网络采用的激活函数为改进型Mish激活函数,
其中,为动态调节激活函数的响应函数,/>为传递给激活函数的输入值,卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,/>为超参数,e为自然对数的底数,为双曲正切函数,/>为自然对数。
4.如权利要求1所述的一种基于改进卷积神经网络的客户端图像处理方法,其特征在于,所述S3:将预处理后的视频帧图像输入至调整后的卷积神经网络,调整后的卷积神经网络识别视频中人物的活动,并对视频帧图像作出标记,视频帧图像标记包括跳舞或演奏或徒步或瑜伽,其中卷积神经网络是根据历史数据训练成的动作分类模型,历史数据分为训练集和验证集,包括视频帧图像及对应标签。
5.如权利要求4所述的一种基于改进卷积神经网络的客户端图像处理方法,其特征在于,所述并对视频帧图像作出标记,具体为调整后的卷积神经网络全连接层输出标记分类结果。
6.一种基于改进卷积神经网络的客户端图像处理系统,其特征在于,包括:
视频帧图像接收模块,客户端接收到视频帧图像,对视频帧图像进行预处理,包括采用高斯滤波去除视频帧图像噪声;
卷积神经网络结构参数调整模块,包括根据实时获取的客户端设备的CPU时钟频率并结合CPU内核数/>将卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,以便适应设备的计算和内存资源限制;
其中,为卷积神经网络卷积层的总数,/>为卷积神经网络每个卷积层的通道总数,为内存大小,/>为内存带宽,/>为设备的能耗效率,/>表示向下取整;
为CPU平衡权重因子,/>为内存平衡权重因子;/>表示CPU的峰值功率,/>表示内存的峰值功率;
调整后的卷积神经网络识别模块,将预处理后的视频帧图像输入至调整后的卷积神经网络,调整后的卷积神经网络识别视频中人物的活动,并对视频帧图像作出标记,视频帧图像标记包括跳舞或演奏或徒步或瑜伽;
视频帧图像归类模块,根据视频帧图像标记,将视频帧图像归类到相应的内容类别数据库中。
7.如权利要求6所述的一种基于改进卷积神经网络的客户端图像处理系统,其特征在于,所述视频帧图像接收模块:客户端接收到视频帧图像,对视频帧图像进行预处理,还包括:客户端通过摄像头或图像传输接口接收到视频帧图像,将视频帧图像进行尺寸调整、格式转换、颜色空间转换,其中尺寸调整为将视频帧图像缩放到224*224像素,将视频帧图像转换成PNG格式。
8.如权利要求6所述的一种基于改进卷积神经网络的客户端图像处理系统,其特征在于,所述调整后的卷积神经网络识别模块:将预处理后的视频帧图像输入至调整后的卷积神经网络,其中调整后的卷积神经网络采用的激活函数为改进型Mish激活函数,
其中,为动态调节激活函数的响应函数,/>为传递给激活函数的输入值,卷积神经网络卷积层的数量调整为/>,每个卷积层的通道数调整为/>,/>为超参数,e为自然对数的底数,为双曲正切函数,/>为自然对数。
9.如权利要求6所述的一种基于改进卷积神经网络的客户端图像处理系统,其特征在于,所述调整后的卷积神经网络识别模块:将预处理后的视频帧图像输入至调整后的卷积神经网络,调整后的卷积神经网络识别视频中人物的活动,并对视频帧图像作出标记,视频帧图像标记包括跳舞或演奏或徒步或瑜伽,其中卷积神经网络是根据历史数据训练成的动作分类模型,历史数据分为训练集和验证集,包括视频帧图像及对应标签。
10.如权利要求9所述的一种基于改进卷积神经网络的客户端图像处理系统,其特征在于,所述并对视频帧图像作出标记,具体为调整后的卷积神经网络全连接层输出标记分类结果。
CN202410114433.3A 2024-01-29 2024-01-29 一种基于改进卷积神经网络的客户端图像处理方法及系统 Active CN117649631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410114433.3A CN117649631B (zh) 2024-01-29 2024-01-29 一种基于改进卷积神经网络的客户端图像处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410114433.3A CN117649631B (zh) 2024-01-29 2024-01-29 一种基于改进卷积神经网络的客户端图像处理方法及系统

Publications (2)

Publication Number Publication Date
CN117649631A CN117649631A (zh) 2024-03-05
CN117649631B true CN117649631B (zh) 2024-04-05

Family

ID=90049838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410114433.3A Active CN117649631B (zh) 2024-01-29 2024-01-29 一种基于改进卷积神经网络的客户端图像处理方法及系统

Country Status (1)

Country Link
CN (1) CN117649631B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985192A (zh) * 2018-06-29 2018-12-11 东南大学 一种基于多任务深度卷积神经网络的视频烟雾识别方法
CN110222634A (zh) * 2019-06-04 2019-09-10 河海大学常州校区 一种基于卷积神经网络的人体姿态识别方法
CN111507884A (zh) * 2020-04-19 2020-08-07 衡阳师范学院 一种基于深层卷积神经网络的自适应图像隐写分析方法及系统
CN116958862A (zh) * 2023-06-21 2023-10-27 广东技术师范大学 端侧分层神经网络模型训练方法、装置、计算机设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201918893D0 (en) * 2019-12-19 2020-02-05 Sita Information Networking Computing Uk Ltd Image processing system and method
US11301705B2 (en) * 2020-02-27 2022-04-12 Western Digital Technologies, Inc. Object detection using multiple neural network configurations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985192A (zh) * 2018-06-29 2018-12-11 东南大学 一种基于多任务深度卷积神经网络的视频烟雾识别方法
CN110222634A (zh) * 2019-06-04 2019-09-10 河海大学常州校区 一种基于卷积神经网络的人体姿态识别方法
CN111507884A (zh) * 2020-04-19 2020-08-07 衡阳师范学院 一种基于深层卷积神经网络的自适应图像隐写分析方法及系统
CN116958862A (zh) * 2023-06-21 2023-10-27 广东技术师范大学 端侧分层神经网络模型训练方法、装置、计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于卷积神经网络的通信信号调制识别研究;杨洁;夏卉;;计算机测量与控制;20200725(07);第226-230页 *

Also Published As

Publication number Publication date
CN117649631A (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
Liu et al. Learning spatio-temporal representations for action recognition: A genetic programming approach
EP3968179A1 (en) Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
JP2022505775A (ja) 画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム
CN112131978B (zh) 一种视频分类方法、装置、电子设备和存储介质
CN103927531B (zh) 一种基于局部二值和粒子群优化bp神经网络的人脸识别方法
CN112150821B (zh) 轻量化车辆检测模型构建方法、系统及装置
CN109816009A (zh) 基于图卷积的多标签图像分类方法、装置及设备
CN113366494A (zh) 用于少样本无监督图像到图像转换的方法
CN111291809A (zh) 一种处理装置、方法及存储介质
CN107909008A (zh) 基于多通道卷积神经网络和粒子滤波的视频目标跟踪方法
CN110363296B (zh) 任务模型获取方法和装置、存储介质及电子装置
CN110837570B (zh) 对图像数据进行无偏见分类的方法
CN109815920A (zh) 基于卷积神经网络和对抗卷积神经网络的手势识别方法
CN108492301A (zh) 一种场景分割方法、终端及存储介质
WO2022111387A1 (zh) 一种数据处理方法及相关装置
CN109376683A (zh) 一种基于稠密图的视频分类方法和系统
CN115115830A (zh) 一种基于改进Transformer的家畜图像实例分割方法
CN110096976A (zh) 基于稀疏迁移网络的人体行为微多普勒分类方法
CN113449548A (zh) 更新物体识别模型的方法和装置
CN114566277A (zh) 一种基于联邦元学习的罕见疾病分类方法
CN116701706B (zh) 一种基于人工智能的数据处理方法、装置、设备及介质
CN111860601B (zh) 预测大型真菌种类的方法及装置
Nooruddin et al. A multi-resolution fusion approach for human activity recognition from video data in tiny edge devices
CN106447691A (zh) 基于加权多示例学习的加权极限学习机视频目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant