CN114550129A - 一种基于数据集的机器学习模型处理方法和系统 - Google Patents

一种基于数据集的机器学习模型处理方法和系统 Download PDF

Info

Publication number
CN114550129A
CN114550129A CN202210092443.2A CN202210092443A CN114550129A CN 114550129 A CN114550129 A CN 114550129A CN 202210092443 A CN202210092443 A CN 202210092443A CN 114550129 A CN114550129 A CN 114550129A
Authority
CN
China
Prior art keywords
picture
training
machine learning
learning model
traffic signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210092443.2A
Other languages
English (en)
Other versions
CN114550129B (zh
Inventor
肖培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Industrial Park Branch Of Jiangsu United Vocational And Technical College
Original Assignee
Suzhou Industrial Park Branch Of Jiangsu United Vocational And Technical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Industrial Park Branch Of Jiangsu United Vocational And Technical College filed Critical Suzhou Industrial Park Branch Of Jiangsu United Vocational And Technical College
Priority to CN202210092443.2A priority Critical patent/CN114550129B/zh
Publication of CN114550129A publication Critical patent/CN114550129A/zh
Application granted granted Critical
Publication of CN114550129B publication Critical patent/CN114550129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请公开了一种基于数据集的机器学习模型处理方法和系统,该方法包括:获取待识别的交通信号指示图片;对于每张第一图片,获取第一图片中的符合预定条件的像素点,其中,预定条件包括:像素值相同的相邻的像素点或者像素值差值小于预定值的相邻的像素点;将符合预定条件的像素点连接成为像素区域;在待标注的图片中依次寻找每张第一图片对应的像素区域;对于在待标注的图片中寻找到的像素区域,增加标签信息,将增加标签信息之后的图片作为一组训练数据。通过本申请解决了现有技术中人工标注训练数据所导致的成本高和效率低的问题,从而实现了训练数据的自动标注和生成,提高了训练数据的标注效率,同时降低了成本。

Description

一种基于数据集的机器学习模型处理方法和系统
技术领域
本申请涉及到机器学习领域,具体而言,涉及一种基于数据集的机器学习模型处理方法和系统。
背景技术
在现有技术中,需要对视频的关键帧中的交通信号指示(例如交通信号灯、斑马线等)进行识别,待识别的交通信号指示一般均是有大片相同颜色的图像(例如,红灯、绿灯等)。因此,在现有技术中可以使用机器学习的方式来进行识别。
机器学习模型的训练需要使用大量的训练数据,在现有技术中,一般使用人工来训练数据进行标注,这种标注方式成本较高,同时标注效率也比较低。
发明内容
本申请实施例提供了一种基于数据集的机器学习模型处理方法和系统,以至少解决现有技术中人工标注训练数据所导致的成本高和效率低的问题。
根据本申请的一个方面,提供了一种基于数据集的机器学习模型处理方法,包括:获取待识别的交通信号指示图片,其中,所述待识别的交通信号指示图片为多张第一图片,每张所述第一图片均包括一种交通信号指示;对于每张所述第一图片,获取所述第一图片中的符合预定条件的像素点,其中,所述预定条件包括:像素值相同的相邻的像素点或者像素值差值小于预定值的相邻的像素点;将所述符合预定条件的像素点连接成为像素区域;在所述待标注的图片中依次寻找每张所述第一图片对应的像素区域;对于在所述待标注的图片中寻找到的像素区域,增加标签信息,其中,所述标签信息用于指示该像素区域所属于的第一图片对应的交通信号指示,将增加标签信息之后的图片作为一组训练数据;使用多组训练数据对机器学习模型进行训练,其中,训练收敛后的所述机器学习模型用于进行交通信号指示的识别。
进一步地,使用多组训练数据对机器学习模型进行训练包括:判断增加标签信息后的图片的数量是否超过阈值;如果未超过阈值,则获取人工预先标注的训练数据,其中,所述人工标注的训练数据中的用于指示待标注图片中的交通信号指示的标签信息是人工在待标注的图片中增加的;使用所述多组训练数据和所述人工预先标注的训练数据对所述机器学习模型进行训练。
进一步地,所述阈值为预先配置的。
进一步地,使用多组训练数据对机器学习模型进行训练包括:获取所有的训练数据;将所有的训练数据分为第一部分和第二部分,其中,所述第一部分用于所述机器学习模型的训练,所述第二部分用于对训练好的机器学习模型进行验证。
进一步地,使用多组训练数据对机器学习模型进行训练包括:在使用第二部分对训练好的机器学习模型进行验证,得到验证失败的结果的情况下,增加所述第一部分中的数据量,减少所述第二部分中的数据量;使用增加数据量后的所述第一部分对所述机器学习模型进行训练,使用减少数据量的后的所述第二部分对训练后的所述机器学习模型进行验证,直到得到验证成功的结果。
根据本申请的另一个方面,还提供了一种基于数据集的机器学习模型处理系统,包括:第一获取模块,用于获取待识别的交通信号指示图片,其中,所述待识别的交通信号指示图片为多张第一图片,每张所述第一图片均包括一种交通信号指示;第二获取模块,用于对于每张所述第一图片,获取所述第一图片中的符合预定条件的像素点,其中,所述预定条件包括:像素值相同的相邻的像素点或者像素值差值小于预定值的相邻的像素点;连接模块,用于将所述符合预定条件的像素点连接成为像素区域;寻找模块,用于在所述待标注的图片中依次寻找每张所述第一图片对应的像素区域;标注模块,用于对于在所述待标注的图片中寻找到的像素区域,增加标签信息,其中,所述标签信息用于指示该像素区域所属于的第一图片对应的交通信号指示,将增加标签信息之后的图片作为一组训练数据;训练模块,用于使用多组训练数据对机器学习模型进行训练,其中,训练收敛后的所述机器学习模型用于进行交通信号指示的识别。
进一步地,所述训练模块用于:判断增加标签信息后的图片的数量是否超过阈值;如果未超过阈值,则获取人工预先标注的训练数据,其中,所述人工标注的训练数据中的用于指示待标注图片中的交通信号指示的标签信息是人工在待标注的图片中增加的;使用所述多组训练数据和所述人工预先标注的训练数据对所述机器学习模型进行训练。
进一步地,所述阈值为预先配置的。
进一步地,所述训练模块用于:获取所有的训练数据;将所有的训练数据分为第一部分和第二部分,其中,所述第一部分用于所述机器学习模型的训练,所述第二部分用于对训练好的机器学习模型进行验证。
进一步地,所述训练模块用于:在使用第二部分对训练好的机器学习模型进行验证,得到验证失败的结果的情况下,增加所述第一部分中的数据量,减少所述第二部分中的数据量;使用增加数据量后的所述第一部分对所述机器学习模型进行训练,使用减少数据量的后的所述第二部分对训练后的所述机器学习模型进行验证,直到得到验证成功的结果。
在本申请实施例中,采用了获取待识别的交通信号指示图片,其中,所述待识别的交通信号指示图片为多张第一图片,每张所述第一图片均包括一种交通信号指示;对于每张所述第一图片,获取所述第一图片中的符合预定条件的像素点,其中,所述预定条件包括:像素值相同的相邻的像素点或者像素值差值小于预定值的相邻的像素点;将所述符合预定条件的像素点连接成为像素区域;在所述待标注的图片中依次寻找每张所述第一图片对应的像素区域;对于在所述待标注的图片中寻找到的像素区域,增加标签信息,其中,所述标签信息用于指示该像素区域所属于的第一图片对应的交通信号指示,将增加标签信息之后的图片作为一组训练数据;使用多组训练数据对机器学习模型进行训练,其中,训练收敛后的所述机器学习模型用于进行交通信号指示的识别。通过本申请解决了现有技术中人工标注训练数据所导致的成本高和效率低的问题,从而实现了训练数据的自动标注和生成,提高了训练数据的标注效率,同时降低了成本。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于数据集的机器学习模型处理方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中,提供了一种基于数据集的机器学习模型处理方法,图1是根据本申请实施例的基于数据集的机器学习模型处理方法的流程图,如图1所示,下面对图1中涉及到的步骤进行说明。
步骤S102,获取待识别的交通信号指示图片,其中,所述待识别的交通信号指示图片为多张第一图片,每张所述第一图片均包括一种交通信号指示。
步骤S104,对于每张所述第一图片,获取所述第一图片中的符合预定条件的像素点,其中,所述预定条件包括:像素值相同的相邻的像素点或者像素值差值小于预定值的相邻的像素点。
步骤S106,将所述符合预定条件的像素点连接成为像素区域。
步骤S108,在所述待标注的图片中依次寻找每张所述第一图片对应的像素区域。
作为一个可选的实施方式,获取待寻找的像素区域的平均像素值,将所述待寻找的区域的中间像素点作为参考像素点;获取所述中间像素点的像素值,在所述待标注图片中查找具有所述中间像素点像素值的第一像素点,以找到的第一像素点为中心按照所述待寻找的像素区域的大小进行扩展,得到以所述第一像素点为中心的多个像素区域,获取多个像素区域中的每个像素区域的第一平均像素值,将第一平均像素值与所述待寻找的像素区域的平均像素值差值绝对值小于预先配置的数值以及差值绝对值最小的像素区域作为所述第一图片中对应的像素区域。
步骤S110,对于在所述待标注的图片中寻找到的像素区域,增加标签信息,其中,所述标签信息用于指示该像素区域所属于的第一图片对应的交通信号指示,将增加标签信息之后的图片作为一组训练数据。
作为一个可选的实施方式,对于在所述待标注的图片中寻找得到的像素区域进行截取,得到部分图像,将多张所述待标注的图像截取得到的部分图像排列进行显示,其中每个显示页面显示至少50张图像;接收用户从所述部分图像中选择出的不是交通信号指示的图像;将将剩余的部分图像对应的图片以及标签信息作为训练数据使用。
步骤S112,使用多组训练数据对机器学习模型进行训练,其中,训练收敛后的所述机器学习模型用于进行交通信号指示的识别。
通过上述步骤解决了现有技术中人工标注训练数据所导致的成本高和效率低的问题,从而实现了训练数据的自动标注和生成,提高了训练数据的标注效率,同时降低了成本。
在步骤S112中,使用多组训练数据对机器学习模型进行训练包括:判断增加标签信息后的图片的数量是否超过阈值;如果未超过阈值,则获取人工预先标注的训练数据,其中,所述人工标注的训练数据中的用于指示待标注图片中的交通信号指示的标签信息是人工在待标注的图片中增加的;使用所述多组训练数据和所述人工预先标注的训练数据对所述机器学习模型进行训练。可选地,所述阈值为预先配置的。
可选地,使用多组训练数据对机器学习模型进行训练包括:获取所有的训练数据;将所有的训练数据分为第一部分和第二部分,其中,所述第一部分用于所述机器学习模型的训练,所述第二部分用于对训练好的机器学习模型进行验证。
作为一个可选实施方式,如果使用增加数据量后的所述第一部分对所述机器学习模型进行训练之后验证存在验证失败的情况,此时获取所述第二部分中的人工标注的训练数据,将人工标注的训练数据从所述第二部分转移到所述第一部分,同时,从所述第一部分中转移相同数据量的自动标注的训练数据到所述第二部分中,使用新生成的第一部分对所述机器学习模型进行训练。
在重新训练之后,使用新生成的第二部分进行验证,如果仍然存在验证失败的情况,将所述第二部分中的数据显示给用户,接收用户从中选择出的标注错误的数据,使用剩余的数据对所述机器学习模型进行验证,如果验证成功,则得到训练好的机器学习模型。
可选地,如果在使用第二部分中剩余的数据对训练好的机器学习模型进行验证,仍然得到验证失败的结果的情况下,增加所述第一部分中的数据量,减少所述第二部分中的数据量;使用增加数据量后的所述第一部分对所述机器学习模型进行训练,使用减少数据量的后的所述第二部分对训练后的所述机器学习模型进行验证,直到得到验证成功的结果。
作为一个可选的实施方式,使用增加的数据量对所述机器学习模型进行增量训练,得到训练好的机器学习模型,增量训练的模式可以减少训练的工作量。
识别出交通信号指示信息(例如交通信号灯)之后,有多种应用,例如,在本实施例中就提供了如下一种应用:
本实施例提供了一种信号灯的提示方法,所述提示方法包括:当检测到车辆处于停止状态时,启动一摄像头捕捉前方路口的画面;识别出所述画面中的一交通信号灯,并监测所述交通信号灯的状态;当所述交通信号灯显示通行信号且车辆仍处于所述停止状态时,发出一语音提示;当检测到所述车辆处于运动状态时,关闭所述摄像并停止语音提示。
优选地,当检测到车辆处于停止状态时,启动一摄像头捕捉前方的画面,包括:设置一距离阈值;当所述车辆处于停止状态时,所述摄像头检测到所述车辆与所述前方路口之间的距离小于所述阈值时,所述摄像头捕捉一所述前方路口的画面。
优选地,识别出所述画面中的一交通信号灯,并监测所述交通信号灯的状态,包括:获取所述信号灯在所述画面中的位置,并保存该位置的参数;根据所述位置的参数获取所述信号灯的信号位置,监测所述信号的变化。优选地,识别出所述画面中的一交通信号灯,并监测所述交通信号灯的状态,包括:设置一信号状态值;所述交通信号灯的信号状态包括通行状态和停止状态;根据识别出所述交通信号灯的颜色,更新所述信号状态值。
优选地,当所述交通信号灯显示通行信号且车辆仍处于所述停止状态时,发出一语音提示,包括:设置一语音提示频率及语音提示次数;当所述交通信号灯为通行状态时,根据所述频率及次数发出所述语音提示。
优选地:当检测到车辆处于停止状态时,启动一摄像头捕捉前方路口的画面的步骤,和/或识别出所述画面中的一交通信号灯,并监测所述交通信号灯的状态的步骤,和/或当所述交通信号灯显示通行信号且车辆仍处于所述停止状态时,发出一语音提示的步骤前,还包括:通过GPS检测所述车辆的位置,以判断所述车辆是否处于停止状态,当车辆处于停止状态时,执行后续步骤;当车辆处于运动状态时时,停止执行后续步骤。
在另一个实施例中,还提供了一种无人驾驶车辆的交通信号灯识别方法,无人驾驶车辆安装有图像采集装置,该方法包括:将图像采集装置所采集的待处理图像按照至少一个预设比例进行缩放,得到至少一个缩放图像;将至少一个缩放图像输入至预先训练的卷积神经网络,得与至少一个缩放图像中的每一个缩放图像相对应的交通信号灯的位置信息和类别信息,其中,卷积神经网络用于提取图像中所显示的交通信号灯的位置信息和类别信息;对所得到的位置信息和类别信息进行解析,生成至少一个候选交通信号灯识别结果,并对所生成的候选交通信号灯识别结果进行融合,生成与待处理图像相对应的交通信号灯识别结果。
例如,卷积神经网络通过如下步骤训练得到:利用机器学习方法,并基于预置图像集合、预设的回归损失函数、预设的分类损失函数和后向传导算法训练得到卷积神经网络,其中,回归损失函数用于表征卷积神经网络输出的位置信息与所输入的图像中的交通信号灯所在区域的位置的差异程度,分类损失函数用于表征所卷积神经网络输出的类别信息与所输入的图像中的交通信号灯的类别的差异程度。
可选地,预置图像集合中的每一个预置图像显示有交通信号灯,且预置图像集合中的每一个预置图像带有用于指示所显示的交通信号灯所在区域的位置的位置标注和用于指示所显示的交通信号灯的类别的类别标注。
可选地,利用机器学习方法,并基于预置图像集合、预设的回归损失函数、预设的分类损失函数和后向传导算法训练得到卷积神经网络,包括:利用高斯分布对预先建立的初始卷积神经网络中的参数进行随机初始化;执行如下训练步骤:基于预置图像集合生成带有标注的训练样本,标注中包含交通信号灯的位置信息和类别信息;将训练样本输入到初始卷积神经网络进行逐层前向传播,以得到初始卷积神经网络所输出的位置信息和类别信息;基于所得到的位置信息和类别信息、标注中所包含的位置信息和类别信息,确定预设的回归损失函数的值和预设的分类损失函数的值;利用链式求导法则和反向传播算法,并基于回归损失函数的值与分类损失函数的值之和,逐层计算初始卷积神经网络各层参数的梯度;基于所计算的梯度对初始卷积神经网络进行参数更新;确定训练步骤的执行次数,响应于确定执行次数小于第一预设次数,继续对进行参数更新后的初始卷积神经网络执行训练步骤;响应于确定执行次数等于第一预设次数,对最后执行的第二预设次数的训练步骤中所得到的参数进行统计,确定目标参数,并将初始卷积神经网络中的参数替换为目标参数,得到训练后的卷积神经网络,其中,第二预设次数小于第一预设次数。
可选地,基于预置图像集合生成带有标注的训练样本,包括:随机选取预设的类别集合中的任一类别和预设的尺度集合中的任一尺度;提取预置图像集合中的、带有与所选择的类别相对应的类别标注的预置图像;对所提取的预置图像进行缩放,以使所提取的预置图像中的交通信号灯所在区域的尺度与所选择的尺度相同或相近,并以交通信号灯所在区域为中心,以预设长度和预设宽度对所提取的预置图像进行截图,得到第一截取图像;确定对所提取的预置图像进行缩放的缩放比例,基于缩放比例、所提取的预置图像所带有的位置标注和类别标注,生成第一截取图像的标注;生成预设数值范围内的随机数,响应于确定所提取的随机数小于预设数值,将所提取的预置图像和第一截取图像确定为训练样本,其中,预设数值范围包括预设数值。
可选地,基于预置图像集合生成带有标注的训练样本,还包括:响应于确定随机数不小于预设数值,随机地以预设长度和预设宽度对所提取的预置图像进行截图,得到第二截取图像,将所提取的预置图像和第二截取图像确定为训练样本,其中,第二截图图像带有用于指示类别为背景类的类别标注。类别集合包括:背景类、白天红灯类、白天黄灯类、白天绿灯类、白天黑灯类、晚上红灯类、晚上黄灯类、晚上绿灯类。可选地,预设的尺度集合包括高度分别为不同像素的多个尺度,卷积神经网络为全卷积网络。
在本实施例中,提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行以上实施例中的方法。
上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
该本实施例中就提供了这样的一种装置或系统。该系统被称为基于数据集的机器学习模型处理系统,包括:第一获取模块,用于获取待识别的交通信号指示图片,其中,所述待识别的交通信号指示图片为多张第一图片,每张所述第一图片均包括一种交通信号指示;第二获取模块,用于对于每张所述第一图片,获取所述第一图片中的符合预定条件的像素点,其中,所述预定条件包括:像素值相同的相邻的像素点或者像素值差值小于预定值的相邻的像素点;连接模块,用于将所述符合预定条件的像素点连接成为像素区域;寻找模块,用于在所述待标注的图片中依次寻找每张所述第一图片对应的像素区域;标注模块,用于对于在所述待标注的图片中寻找到的像素区域,增加标签信息,其中,所述标签信息用于指示该像素区域所属于的第一图片对应的交通信号指示,将增加标签信息之后的图片作为一组训练数据;训练模块,用于使用多组训练数据对机器学习模型进行训练,其中,训练收敛后的所述机器学习模型用于进行交通信号指示的识别。
该系统或者装置用于实现上述的实施例中的方法的功能,该系统或者装置中的每个模块与方法中的每个步骤相对应,已经在方法中进行过说明的,在此不再赘述。
例如,所述训练模块用于:判断增加标签信息后的图片的数量是否超过阈值;如果未超过阈值,则获取人工预先标注的训练数据,其中,所述人工标注的训练数据中的用于指示待标注图片中的交通信号指示的标签信息是人工在待标注的图片中增加的;使用所述多组训练数据和所述人工预先标注的训练数据对所述机器学习模型进行训练。可选地,所述阈值为预先配置的。
又例如,所述训练模块用于:获取所有的训练数据;将所有的训练数据分为第一部分和第二部分,其中,所述第一部分用于所述机器学习模型的训练,所述第二部分用于对训练好的机器学习模型进行验证。可选地,所述训练模块用于:在使用第二部分对训练好的机器学习模型进行验证,得到验证失败的结果的情况下,增加所述第一部分中的数据量,减少所述第二部分中的数据量;使用增加数据量后的所述第一部分对所述机器学习模型进行训练,使用减少数据量的后的所述第二部分对训练后的所述机器学习模型进行验证,直到得到验证成功的结果。
通过上述实施例解决了现有技术中人工标注训练数据所导致的成本高和效率低的问题,从而实现了训练数据的自动标注和生成,提高了训练数据的标注效率,同时降低了成本。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于数据集的机器学习模型处理方法,其特征在于,包括:
获取待识别的交通信号指示图片,其中,所述待识别的交通信号指示图片为多张第一图片,每张所述第一图片均包括一种交通信号指示;
对于每张所述第一图片,获取所述第一图片中的符合预定条件的像素点,其中,所述预定条件包括:像素值相同的相邻的像素点或者像素值差值小于预定值的相邻的像素点;
将所述符合预定条件的像素点连接成为像素区域;
在所述待标注的图片中依次寻找每张所述第一图片对应的像素区域;
对于在所述待标注的图片中寻找到的像素区域,增加标签信息,其中,所述标签信息用于指示该像素区域所属于的第一图片对应的交通信号指示,将增加标签信息之后的图片作为一组训练数据;
使用多组训练数据对机器学习模型进行训练,其中,训练收敛后的所述机器学习模型用于进行交通信号指示的识别。
2.根据权利要求1所述的方法,其特征在于,使用多组训练数据对机器学习模型进行训练包括:
判断增加标签信息后的图片的数量是否超过阈值;
如果未超过阈值,则获取人工预先标注的训练数据,其中,所述人工标注的训练数据中的用于指示待标注图片中的交通信号指示的标签信息是人工在待标注的图片中增加的;
使用所述多组训练数据和所述人工预先标注的训练数据对所述机器学习模型进行训练。
3.根据权利要求2所述的方法,其特征在于,所述阈值为预先配置的。
4.根据权利要求1至3中任一项所述的方法,其特征在于,使用多组训练数据对机器学习模型进行训练包括:
获取所有的训练数据;
将所有的训练数据分为第一部分和第二部分,其中,所述第一部分用于所述机器学习模型的训练,所述第二部分用于对训练好的机器学习模型进行验证。
5.根据权利要求1至4中任一项所述的方法,其特征在于,使用多组训练数据对机器学习模型进行训练包括:
在使用第二部分对训练好的机器学习模型进行验证,得到验证失败的结果的情况下,增加所述第一部分中的数据量,减少所述第二部分中的数据量;
使用增加数据量后的所述第一部分对所述机器学习模型进行训练,使用减少数据量的后的所述第二部分对训练后的所述机器学习模型进行验证,直到得到验证成功的结果。
6.一种基于数据集的机器学习模型处理系统,其特征在于,包括:
第一获取模块,用于获取待识别的交通信号指示图片,其中,所述待识别的交通信号指示图片为多张第一图片,每张所述第一图片均包括一种交通信号指示;
第二获取模块,用于对于每张所述第一图片,获取所述第一图片中的符合预定条件的像素点,其中,所述预定条件包括:像素值相同的相邻的像素点或者像素值差值小于预定值的相邻的像素点;
连接模块,用于将所述符合预定条件的像素点连接成为像素区域;
寻找模块,用于在所述待标注的图片中依次寻找每张所述第一图片对应的像素区域;
标注模块,用于对于在所述待标注的图片中寻找到的像素区域,增加标签信息,其中,所述标签信息用于指示该像素区域所属于的第一图片对应的交通信号指示,将增加标签信息之后的图片作为一组训练数据;
训练模块,用于使用多组训练数据对机器学习模型进行训练,其中,训练收敛后的所述机器学习模型用于进行交通信号指示的识别。
7.根据权利要求6所述的系统,其特征在于,所述训练模块用于:
判断增加标签信息后的图片的数量是否超过阈值;
如果未超过阈值,则获取人工预先标注的训练数据,其中,所述人工标注的训练数据中的用于指示待标注图片中的交通信号指示的标签信息是人工在待标注的图片中增加的;
使用所述多组训练数据和所述人工预先标注的训练数据对所述机器学习模型进行训练。
8.根据权利要求6所述的系统,其特征在于,所述阈值为预先配置的。
9.根据权利要求6至8中任一项所述的系统,其特征在于,所述训练模块用于:
获取所有的训练数据;
将所有的训练数据分为第一部分和第二部分,其中,所述第一部分用于所述机器学习模型的训练,所述第二部分用于对训练好的机器学习模型进行验证。
10.根据权利要求9所述的系统,其特征在于,所述训练模块用于:
在使用第二部分对训练好的机器学习模型进行验证,得到验证失败的结果的情况下,增加所述第一部分中的数据量,减少所述第二部分中的数据量;
使用增加数据量后的所述第一部分对所述机器学习模型进行训练,使用减少数据量的后的所述第二部分对训练后的所述机器学习模型进行验证,直到得到验证成功的结果。
CN202210092443.2A 2022-01-26 2022-01-26 一种基于数据集的机器学习模型处理方法和系统 Active CN114550129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210092443.2A CN114550129B (zh) 2022-01-26 2022-01-26 一种基于数据集的机器学习模型处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210092443.2A CN114550129B (zh) 2022-01-26 2022-01-26 一种基于数据集的机器学习模型处理方法和系统

Publications (2)

Publication Number Publication Date
CN114550129A true CN114550129A (zh) 2022-05-27
CN114550129B CN114550129B (zh) 2023-07-18

Family

ID=81674094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210092443.2A Active CN114550129B (zh) 2022-01-26 2022-01-26 一种基于数据集的机器学习模型处理方法和系统

Country Status (1)

Country Link
CN (1) CN114550129B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115116091A (zh) * 2022-06-27 2022-09-27 中山市中医院 一种臀部构角区域识别处理方法和装置

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100303360A1 (en) * 2009-05-27 2010-12-02 Sharp Kabushiki Kaisha Image processing apparatus, image processing method and recording medium
WO2018073888A1 (ja) * 2016-10-18 2018-04-26 オリンパス株式会社 画像処理方法および画像処理装置
CN108596223A (zh) * 2018-04-11 2018-09-28 珠海博明视觉科技有限公司 一种自动生成物体数据集的方法
CN108985214A (zh) * 2018-07-09 2018-12-11 上海斐讯数据通信技术有限公司 图像数据的标注方法和装置
CN109508580A (zh) * 2017-09-15 2019-03-22 百度在线网络技术(北京)有限公司 交通信号灯识别方法和装置
WO2020052668A1 (zh) * 2018-09-15 2020-03-19 北京市商汤科技开发有限公司 图像处理方法、电子设备及存储介质
CN111210024A (zh) * 2020-01-14 2020-05-29 深圳供电局有限公司 模型训练方法、装置、计算机设备和存储介质
CN111368788A (zh) * 2020-03-17 2020-07-03 北京迈格威科技有限公司 图像识别模型的训练方法、装置及电子设备
WO2020198997A1 (zh) * 2019-03-29 2020-10-08 深圳市大疆创新科技有限公司 连通域处理方法、数据处理设备及计算机可读存储介质
CN111814716A (zh) * 2020-07-17 2020-10-23 上海眼控科技股份有限公司 印章去除方法、计算机设备和可读存储介质
CN111899268A (zh) * 2020-08-17 2020-11-06 上海商汤智能科技有限公司 图像分割方法及装置、电子设备和存储介质
CN112116596A (zh) * 2019-06-19 2020-12-22 深圳Tcl新技术有限公司 图像分割模型的训练方法、图像分割方法、介质及终端
CN112132232A (zh) * 2020-10-19 2020-12-25 武汉千屏影像技术有限责任公司 医学图像的分类标注方法和系统、服务器
CN112417993A (zh) * 2020-11-02 2021-02-26 湖北亿咖通科技有限公司 停车区域的车位线检测方法和计算机设备
CN112990331A (zh) * 2021-03-26 2021-06-18 共达地创新技术(深圳)有限公司 图像处理方法、电子设备和存储介质
CN113033593A (zh) * 2019-12-25 2021-06-25 上海智臻智能网络科技股份有限公司 基于深度学习的文本检测训练方法及装置
CN113159193A (zh) * 2021-04-26 2021-07-23 京东数科海益信息科技有限公司 模型训练方法、图像识别方法、存储介质及程序产品
CN113468979A (zh) * 2021-06-10 2021-10-01 汉王科技股份有限公司 文本行语种识别方法、装置、电子设备

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100303360A1 (en) * 2009-05-27 2010-12-02 Sharp Kabushiki Kaisha Image processing apparatus, image processing method and recording medium
WO2018073888A1 (ja) * 2016-10-18 2018-04-26 オリンパス株式会社 画像処理方法および画像処理装置
CN109508580A (zh) * 2017-09-15 2019-03-22 百度在线网络技术(北京)有限公司 交通信号灯识别方法和装置
CN108596223A (zh) * 2018-04-11 2018-09-28 珠海博明视觉科技有限公司 一种自动生成物体数据集的方法
CN108985214A (zh) * 2018-07-09 2018-12-11 上海斐讯数据通信技术有限公司 图像数据的标注方法和装置
WO2020052668A1 (zh) * 2018-09-15 2020-03-19 北京市商汤科技开发有限公司 图像处理方法、电子设备及存储介质
WO2020198997A1 (zh) * 2019-03-29 2020-10-08 深圳市大疆创新科技有限公司 连通域处理方法、数据处理设备及计算机可读存储介质
CN112116596A (zh) * 2019-06-19 2020-12-22 深圳Tcl新技术有限公司 图像分割模型的训练方法、图像分割方法、介质及终端
CN113033593A (zh) * 2019-12-25 2021-06-25 上海智臻智能网络科技股份有限公司 基于深度学习的文本检测训练方法及装置
CN111210024A (zh) * 2020-01-14 2020-05-29 深圳供电局有限公司 模型训练方法、装置、计算机设备和存储介质
CN111368788A (zh) * 2020-03-17 2020-07-03 北京迈格威科技有限公司 图像识别模型的训练方法、装置及电子设备
CN111814716A (zh) * 2020-07-17 2020-10-23 上海眼控科技股份有限公司 印章去除方法、计算机设备和可读存储介质
CN111899268A (zh) * 2020-08-17 2020-11-06 上海商汤智能科技有限公司 图像分割方法及装置、电子设备和存储介质
CN112132232A (zh) * 2020-10-19 2020-12-25 武汉千屏影像技术有限责任公司 医学图像的分类标注方法和系统、服务器
CN112417993A (zh) * 2020-11-02 2021-02-26 湖北亿咖通科技有限公司 停车区域的车位线检测方法和计算机设备
CN112990331A (zh) * 2021-03-26 2021-06-18 共达地创新技术(深圳)有限公司 图像处理方法、电子设备和存储介质
CN113159193A (zh) * 2021-04-26 2021-07-23 京东数科海益信息科技有限公司 模型训练方法、图像识别方法、存储介质及程序产品
CN113468979A (zh) * 2021-06-10 2021-10-01 汉王科技股份有限公司 文本行语种识别方法、装置、电子设备

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
LIFENG HE 等: "The connected-component labeling problem: A review of state-of-the-art algorithms", 《PATTERN RECOGNITION》, vol. 70, pages 25 - 43, XP085055764, DOI: 10.1016/j.patcog.2017.04.018 *
于恒 等: "基于深度学习的图像压缩算法研究综述", 《计算机工程与应用》, no. 15, pages 15 - 23 *
尹武松: "基于深度学习的交通标志识别", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2018, pages 138 - 772 *
李浩: "基于视觉的城市路口检测与认知", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》, no. 2021, pages 035 - 237 *
李翌昕 等: "基于特征提取和机器学习的文档区块图像分类算法", 《信号处理》, vol. 35, no. 05, pages 747 - 757 *
李翌昕;邹亚君;马尽文;: "基于特征提取和机器学习的文档区块图像分类算法", 信号处理, no. 05 *
陈政 等: "基于机器学习的车牌识别技术研究", 《计算机技术与发展》, vol. 30, no. 06, pages 13 - 18 *
魏嘉毅: "基于深度学习的交通标志检测与识别", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2019, pages 138 - 1131 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115116091A (zh) * 2022-06-27 2022-09-27 中山市中医院 一种臀部构角区域识别处理方法和装置

Also Published As

Publication number Publication date
CN114550129B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN112560999B (zh) 一种目标检测模型训练方法、装置、电子设备及存储介质
CN110853033B (zh) 基于帧间相似度的视频检测方法和装置
CN110516514B (zh) 一种目标检测模型的建模方法和装置
CN109886928B (zh) 一种目标细胞标记方法、装置、存储介质及终端设备
CN112434809B (zh) 基于主动学习的模型训练方法、装置及服务器
CN111402583B (zh) 一种交通事件的感知方法、设备及存储介质
TW202009681A (zh) 樣本標註方法及裝置、損傷類別的識別方法及裝置
CN113642474A (zh) 一种基于yolov5的危险区域人员监控方法
CN115131283A (zh) 目标对象的缺陷检测、模型训练方法、装置、设备及介质
CN112634201B (zh) 目标检测方法、装置和电子设备
CN112633255A (zh) 目标检测方法、装置及设备
CN114037907A (zh) 输电线路的检测方法、装置、计算机设备、存储介质
CN112948937A (zh) 一种混凝土强度智能预判断方法和装置
CN112232368A (zh) 目标识别模型训练方法、目标识别方法及其相关装置
CN114040094B (zh) 一种基于云台相机的预置位调节方法和设备
CN114550129B (zh) 一种基于数据集的机器学习模型处理方法和系统
CN112784675B (zh) 目标检测方法及装置、存储介质、终端
CN111931721B (zh) 年检标签颜色和个数的检测方法、装置及电子设备
CN111339834B (zh) 车辆行驶方向的识别方法、计算机设备及存储介质
CN113486856A (zh) 一种基于语义分割和卷积神经网络的驾驶员不规范行为检测方法
CN112434585A (zh) 一种车道线的虚实识别方法、系统、电子设备及存储介质
CN113486715A (zh) 图像翻拍识别方法、智能终端以及计算机存储介质
CN110728229B (zh) 图像处理方法、装置、设备和存储介质
CN116805387A (zh) 基于知识蒸馏的模型训练方法、质检方法和相关设备
CN114612889A (zh) 一种仪表信息获取方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant