CN113887680A - 训练模型数据的检验方法、电子设备及存储介质 - Google Patents

训练模型数据的检验方法、电子设备及存储介质 Download PDF

Info

Publication number
CN113887680A
CN113887680A CN202111489004.7A CN202111489004A CN113887680A CN 113887680 A CN113887680 A CN 113887680A CN 202111489004 A CN202111489004 A CN 202111489004A CN 113887680 A CN113887680 A CN 113887680A
Authority
CN
China
Prior art keywords
category
picture
original
identification
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111489004.7A
Other languages
English (en)
Inventor
李健齐
李媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhidao Network Technology Beijing Co Ltd
Original Assignee
Zhidao Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhidao Network Technology Beijing Co Ltd filed Critical Zhidao Network Technology Beijing Co Ltd
Priority to CN202111489004.7A priority Critical patent/CN113887680A/zh
Publication of CN113887680A publication Critical patent/CN113887680A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请是关于一种训练模型数据的检验方法、电子设备及存储介质。该方法包括:获取同一时间段的原始图片和贴标图片,所述贴标图片标记有类别信息,所述类别信息至少包括第一类别;建立数据集合,所述数据集合包含具有所述第一类别的所述原始图片;基于训练模型对所述数据集合中的原始图片进行识别,得到识别类别;选取相同原始图片的所述第一类别和所述识别类别进行对比,若满足预制规则,则保留所述原始图片。本申请提供的训练模型数据的检验方法、电子设备及存储介质,能够方便快速的检测出训练模型中训练不好的数据。

Description

训练模型数据的检验方法、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种训练模型数据的检验方法、电子设备及存储介质。
背景技术
随着人工智能、自动驾驶等技术的发展,车路一体化技术也越来越成熟,其车端监控与路端监控参与元素主要为各种车辆。为了提高其车端监控或路端监控的识别性能,一般需要提前制作训练模型。而对于训练模型,在投入使用前需要对其进行检测,查找其中训练不好的地方,以确保训练模型的精度。一般是通过人工筛选,将训练数据与监控数据一一比对,此种方式不仅效率较低,而且容易出现遗漏造成误判断。
发明内容
为解决或部分解决相关技术中存在的问题,本申请提供一种训练模型数据的检验方法、电子设备及存储介质,能够方便快速的检测出训练模型中训练不好的数据。
本申请第一方面提供一种训练模型数据的检验方法,包括:
获取同一时间段的原始图片和贴标图片,所述贴标图片标记有类别信息,所述类别信息至少包括第一类别;
建立数据集合,所述数据集合包含具有所述第一类别的所述原始图片;
基于训练模型对所述数据集合中的原始图片进行识别,得到识别类别;
选取相同原始图片的所述第一类别和所述识别类别进行对比,若满足预制规则,则保留所述原始图片。
在一种实施方式中,所述选取相同原始图片的所述第一类别和所述识别类别进行对比,若满足预制规则,则保留所述原始图片,包括:
相同原始图片中的所述识别类别数量为A1,所述第一类别数量为A2,将所述识别类别数量A1与所述第一类别数量A2进行对比,若两者的比值在设定的全检率以下,则保留所述数据集合中的原始图片以及相关对比结果,否则过滤。
在一种实施方式中,所述将所述识别类别数量A1与所述第一类别数量A2进行对比,若两者的比值在设定的全检率以下,则保留所述数据集合中的原始图片以及相关对比结果,否则过滤,包括:
获取用户设置的全检率;
基于所述训练模型对所述数据集合中第一时刻原始图片进行识别,得到标记有A1数量预测识别类别的识别图片;
利用所述原始图片与所述贴标图片的对应关系将第一时刻所述贴标图片中A2数量第一类别映射至所述识别图片;
判定所述识别图片中A1与A2的比值是否在所述全检率以下,若是,则保留所述数据集合中第一时刻的原始图片以及识别图片,否则删除。
在一种实施方式中,所述基于所述训练模型对所述数据集合中第一时刻原始图片进行识别,得到标记有A1数量预测识别类别的识别图片,包括:
建立至少包含所述贴标图片中所有类别信息的训练模型;
基于所述训练模型对所述数据集合中第一时刻的原始图片进行识别,保存包含标记有识别类别以及对应数量标记为A1的识别图片,所述识别类别与所述第一类别属于同一类别。
在一种实施方式中,所述选取相同原始图片的所述第一类别和所述识别类别进行对比,若满足预制规则,则保留所述原始图片,所述方法还包括:
对所述数据集合中的数据进行问题定位,并输出问题定位报告。
在一种实施方式中,根据所述贴标图片的类别信息建立不同的类别文件夹,将包含不同类别的数据集合分别保存至对应类别的所述类别文件夹中。
在一种实施方式中,所述获取同一时间段的原始图片和贴标图片,所述贴标图片标记有类别信息,所述类别信息至少包括第一类别,包括:
获得一个时间段的原始图片;
对所述原始图片进行识别处理,得到至少包含第一类别的贴标图片;
将所述原始图片和所述贴标图片保存至不同文件夹,不同文件夹中相同时刻的所述原始图片和所述贴标图片具有映射关系。
在一种实施方式中,所述建立数据集合,所述数据集合包含具有所述第一类别的所述原始图片,包括:
获取所述时间段中具有映射关系的原始图片和贴标图片;
选取所述时间段中所有包含第一类别的贴标图片中所对应的原始图片;
将所有包含第一类别的原始图片保存至第一文件夹,得到第一数据集合。
本申请第二方面提供一种电子设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
本申请第三方面提供一种存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
本申请提供的技术方案可以包括以下有益效果:
本申请实施例提供的训练模型数据的检验方法、电子设备及存储介质,通过上述的方法实现对同一原始图片进行直接识别以及基于训练模型的识别的两种识别形式,并将两种识别结果进行比对,判断比对结果是否满足预制规则,从而能够通过此种方法方便快速的检测出训练模型中训练不好的数据,无需通过人工一一比对。并且,此种训练数据的检测方法通过事先将原始图片进行类别识别以及根据类别建立不同数据集合的形式,在检测训练模型时只需对数据集合中的特定原始图片进行特定类别识别,并将所识别到的特定识别类别与数据集合分类时对应的类别做对比,判断是否满足预制规则,即可实现对训练模型的检测,此种方式的算法简单,只需根据建立的数据集合进行定向识别算法处理即可,避免了冗余、复杂的计算,提高检测效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细的描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1是本申请实施例示出的训练模型数据的检验方法第一流程示意图;
图2是本申请实施例示出的训练模型数据的检验方法第二流程示意图;
图3是本申请实施例示出的训练模型数据的检验方法第三流程示意图;
图4是本申请实施例示出的电子设备的简单结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
相关技术中,在通过监控系统进行识别以达到车路一体化时,一般是通过激光雷达采集点云数据和对应设置的多个摄像头采集图像数据,然后基于点云数据进行平面拟合,以达到识别目的。点云数据(point cloud data),是指在一个三维坐标系统中的一组向量的集合,扫描资料以点的形式记录,每一个点包含有三维坐标,有些可能含有颜色信息(RGB)或反射强度信息(Intensity)。
在监控系统中为了能够通过激光雷达和摄像头的配合使用具有较好的识别效果,监控系统在投入使用前会预先进行训练得到训练模型,训练模型中数据的精准度直接影响了监控系统的使用性能。一般情况下,训练模型的数据根据监控系统的应用情况实现采集所有需要识别的类别进行存储,待监控系统在使用状态下只要调取存储的训练模型的数据进行对比,即可使监控系统达到需要的识别效果。
可以理解的是,对于上述中所提及到的监控系统,根据在不同环境中的使用需求,监控系统所需识别的目标种类等也会有所不同,可以通过替换不同的训练模型来达到监控系统的识别目的。例如,在智慧驾驶中时,监控系统可以设置于路口以起到监控路口不同车辆的驶入、驶出情况,也可以设置于自动驾驶车辆上,用于车辆避障、识别道路、辨识路牌等,在此不做具体限定。
由于训练模型的精准度直接影响了监控系统的使用性能,所以对于所建立的训练模型在投入使用前需要检测其中训练不好的数据,以对不好数据改善、优化,进而能够得到精准度更高的训练模型,有利于监控系统数据的识别。而在对训练模型检测处理以得到精度更高的训练模型时,一般都是通过人工一一比对,此种方式不仅效率低下,而且人工的比对容易出现误检、漏检的情况,影响训练模型的精准度。
针对上述问题,本申请提供了一种训练模型数据的检验方法,能够方便快速的检测出训练模型中训练不好的数据。
以下结合附图详细描述本申请实施例的技术方案。
图1是本申请实施例示出的训练模型数据的检验方法第一流程示意图。
参见图1,该方法包括:
S101、获取同一时间段的原始图片和贴标图片,贴标图片标记有类别信息,类别信息至少包括第一类别。
S102、建立数据集合,数据集合包含具有第一类别的原始图片。
S103、基于训练模型对数据集合中的原始图片进行识别,得到识别类别。
S104、选取相同原始图片的第一类别和识别类别进行对比,若满足预制规则,则保留所述原始图片。
本申请实施例中,为了能够实现对训练数据的检测,先选取一个时间段的数据,该数据中至少包括原始图片和贴标图片以及其他一些数据信息,通过贴标图片能够确认其时间上对应的原始图片中所包含的所有不同类别的类别信息。利用原始图片检测出图片中的类别信息,并根据类别信息将原始图片归类以建立不同的数据集合,使得每个数据集合中的原始图片中均包含有同一类别信息。在此基础上,对每个数据集合中的原始图片基于训练模型进行识别处理,以得到图片中对应的识别类别,再将该识别类别与相同原始图片的类别信息进行对比,判断对比结果是否满足预制规则,若是,则保留所述原始图片。
通过上述的方法实现对同一原始图片进行直接识别以及基于训练模型识别的两种识别形式,并将两种识别结果进行比对,判断比对结果是否满足预制规则,从而能够通过此种方法方便快速的检测出训练模型中训练不好的数据,无需通过人工一一比对。并且,此种训练数据的检测方法通过事先将原始图片进行类别识别以及根据类别建立不同数据集合的形式,在检测训练模型时只需对数据集合中的特定原始图片进行特定类别识别,并将所识别到的特定识别类别与数据集合分类时对应的类别做对比,判断是否满足预制规则,即可实现对训练模型的检测,此种方式的算法简单,只需根据建立的数据集合进行定向识别算法处理即可,避免了冗余、复杂的计算,提高检测效率。
可以理解的是,在根据类别信息将原始图片进行归类以建立不同的数据集合时,不同数据集合中可以均包括同一相同时间的原始图片。即某一时刻的原始图片即可以在M数据集合中,也可以在N数据集合中,甚至在L数据集合中。例如,某一时刻的原始图片中,根据贴标图片所标记的类别信息,识别到包括第一类别、第二类别,而该原始图片会被选取两次,分别保存在包含第一类别的M数据集合中和保存在包含第二类别的N数据集合中,在此不再详细说明。
可选的,对于贴标图片中所标记有的类别信息,可以包括类别的种类、类别的数量、类别在原始图片中位置等信息,而类别信息所包括的类别种类中,可以包括第一类别、第二类别……等,例如,在监控系统应用于路口监测车辆时,类别种类可以包括小汽车、自行车、公共汽车等,第一类别为其中的一种,在此不做具体限定。
在一实施例中,获取同一时间段的原始图片和贴标图片中,贴标图片标记有第一类别、第二类别和第三类别的类别信息,基于此建立第一数据集合、第二数据集合以及第三数据集合,第一数据集合中包括所有具有第一类别的原始图片,第二数据集合中包括所有具有第二类别的原始图片,第三数据集合中包括所有第三类别的原始图片。例如,一个时间段的原始图片包括{a1、a2、a3、a4、a5、a6、a7、a8}这8张图片,其中a1、a2、a3、a4中对应的贴标图片标记有第一类别和第二类别,a5、a6、a7、a8中对应的贴标图片标记有第一类别和第三类别。所建立的第一数据集合中则包含a1、a2、a3、a4、a5、a6、a7、a8这8张原始图片,第二数据集合则包含a1、a2、a3、a4这4张原始图片,第三数据集合则包含a5、a6、a7、a8这4张原始图片。
可选的,根据贴标图片的类别信息建立不同的类别文件夹,将包含不同类别的数据集合分别保存至对应类别的类别文件夹中。在根据不同的类别建立对应类别的数据集合时,为了能够便于分类以及后续查找,根据贴标图片的所有类别信息建立不同类别文件夹,不同类别文件夹以对应的类别命名以区分。即在如上述中包含第一数据集合、第二数据集合和第三数据集合时,根据贴标图片建立第一类别命名的第一类别文件夹、第二类别命名的第二类别文件夹、第三类别命名的第三类别文件夹,将对应类别的第一数据集合、第二数据集合、第三数据集合中的原始图片分别对应保存至相应类别文件夹中。以便于能够快速查找到相应类别的所有原始图片,方便定位查找。
可以理解的是,对于所获取的一时间段的原始图片,可以为事先维护好的一个时间段的数据。该数据例如可以为在监控系统上获取的一个时间段的点云数据,对点云数据进行处理得到多帧不同时间点云图片,将该时间段中的所有点云图片作为原始图片。或者,也可以为在摄像机上获取的一个时间段的图像数据,对图像数据进行抽帧后得到多帧不同时间的图片,将该时间段中的所有图片作为原始图片。亦或者也可以为上述两者的结合,在此不做具体限定。而对于所获取的一时间段的原始图片,为了能够降低繁杂、冗余的计算,所得到的原始图片事先可以经过筛选过滤处理,将抽帧得到的一个时间段的多张图片进行识别判断,以过滤掉相邻抽帧图片中相似度较高的重复图片,在此不做详细说明。
以下以包含所有第一类别的原始图片所建立的数据集合为例,对训练模型数据的检验方法进行详细说明:
获取同一时间段的原始图片和贴标图片,贴标图片标记有类别信息,类别信息至少包括第一类别。对于所获取的与原始图片同一时间段的贴标图片,可以通过获取一个时间段的原始图片,经识别处理后而得到至少包含第一类别的贴标图片,在所有贴标图片中的所有类别信息里,至少标记有训练模型中的所有类别信息。可以理解的是,在将原始图片进行识别处理得到贴标图片后,在识别处理过程已经记录了原始图片和贴标图片的对应关系,在调用贴标图片的同时也可以获取与其对应的原始图片,以及贴标图片中所标记的类别信息同样能够映射至原始图片中。即在对原始图片进行识别处理得到贴标图片时,已经默认两者具有映射关系,在此不做详细说明。
可选地,为了便于查找以及区分原始图片和贴标图片,以便于后续调用原始图片建立数据集,可以将原始图片和贴标图片保存至不同文件夹,不同文件夹中相同时刻的原始图片和贴标图片具有映射关系,使得能够根据映射关系方便快速获取对应原始图片中的识别信息。
参见图2,建立数据集合,数据集合包含具有第一类别的原始图片,包括:
S1021、获取时间段中具有映射关系的原始图片和贴标图片。
S1022、选取时间段中所有包含第一类别的贴标图片中所对应的原始图片。
S1023、将所有包含第一类别的原始图片保存至第一文件夹,得到第一数据集合。
根据贴标图片中标记的类别信息,即可方便快速的定位、选取时间段中所有的包含第一类别的原始图片,并将其从原有的保存原始图片文件夹中复制到第一文件夹中,使得第一文件夹中能够方便快速的得到所有包含第一类别的原始图片,以得到第一数据集合。利用事先建立有映射关系的原始图片和贴标图片,能够方便快速的定位出所有包含第一类别的原始图片,以将所有包含第一类别的原始图片复制出而建立第一数据集合,通过简单的算法即可实现,降低了难度。
基于训练模型对数据集合中的原始图片进行识别,得到识别类别。在该步骤中,选取上述中建立的第一数据集合,并调出已经实现训练好的训练模型,该训练模型为待检验的训练模型。利用该训练模型对第一数据集合中的所有原始图片进行识别,以得到相应的识别类别。可以理解的是,对于所描述的识别类别,由于第一数据集合中所有原始图片都包含第一类别,并且在此基础上,有可能在某些图片中同时包含有第二类别和/或第三类别等。在利用训练模型对数据集合中的原始图片进行识别时,会事先根据所识别的原始图片所在数据集合/类别文件夹所记录的数据信息,而进行相应类别识别。即在对第一数据集合中的所有原始图片进行识别时,根据所采集到的对应的历史记录中,基于训练模型需要识别第一数据集合中原始图片的第一类别的信息,而别记为第一类别。所以说,对于第一类别和第一类别来说,都可以是同属于一个类别信息,如均为识别到的小汽车,或者均为识别到的自行车,在此不做详细说明。
选取相同原始图片的第一类别和识别类别进行对比,若满足预制规则,则保留。在该步骤中,例如可以将第一类别占原始图片面积与识别类别占同一原始图片面积进行面积的对比,若两者面积比在所设置的比例范围内,则保留。或者也可以将第一类别在原始图片的数量与识别类别在同一原始图片的数量进行数量的对比,若两者数量的差值在所设置的范围内,则保留。在此不做具体限定。考虑到自动对比处理时算法的复杂度和精度,我们优先选用通过数量的比对来实现,以提高对比的精度和效率。即在第一数据集合中,相同原始图片中的识别类别数量为A1,第一类别数量为A2。在此基础上,将两者的数量进行对比时,所需满足的预制规则包括:将识别类别数量A1与第一类别数量A2进行对比,若两者的比值在设定的全检率以下,则保留数据集合中的原始图片以及相关对比结果,否则过滤。从而通过将两者数量上做对比,根据预制规则进行判断的方式,能够降低算法的难度,便于自动检测的实现,并且对于图片中类别信息的对比来说,通过同一类别的数量上的对比而判断训练模型的好坏,不仅算法上更容易实现,而且算法难度也明显降低,更有利于训练模型检测的精度。
参见图3,将识别类别数量A1与第一类别数量A2进行对比,若两者的比值在设定的全检率以下,则保留数据集合中的原始图片以及相关对比结果,否则过滤,包括:
S1041、获取用户设置的全检率。
S1042、基于训练模型对数据集合中第一时刻原始图片进行识别,得到标记有A1数量识别类别的识别图片。
S1043、利用原始图片与贴标图片的对应关系将第一时刻贴标图片中A2数量第一类别映射至识别图片。
S1044、判定识别图片中A1与A2的比值是否在全检率以下,若是,则保留数据集合中第一时刻的原始图片以及识别图片,否则删除。
对于所获取的用户设置的全检率,为根据不同的训练模型以及需要得到不同的检测精度等实际情况,用户所进行的可调节参数的设置。例如,为了得到精度高的训练模型,以用于识别性能更好的监控装置中时,全检率可以设置为百分之七十、百分之八十、百分之九十等,否则可以设置为百分之六十左右,在此不做详细说明。
为了能够在对训练模型中的数据进行检测时,通过利用所获取的实现维护好的某一时间段的原始图片和贴标图片作为参照,将训练模型中的图片进行识别处理后得到的识别结果与原始图片中对应的类别进行数量上的对比,从而判断两者数量上的比值是否在全检率以下,据此找到训练模型中训练不好的数据位置。
可以理解的是,在将得到的两种数量的识别结果进行对比时,所得到的两种数量的识别结果可以位于同一图片中,也可以位于不同的图片中,在此不做具体限定。当位于相同图片中时,可以在基于训练模型对数据集合中的原始图片进行识别,得到识别类别的基础上,识别类别标记于对应原始图片中,同时贴标图片对应的类别也映射于该原始图片中,从而在一张原始图片能够获取对比的两种数量信息,以便于后续的查找以及人工比对确认。
具体的,基于训练模型对数据集合中第一时刻原始图片进行识别时,得到标记有A1数量识别类别的识别图片,包括:
建立至少包含贴标图片中所有类别信息的训练模型。
基于训练模型对数据集合中第一时刻的原始图片进行识别,保存包含标记有识别类别以及对应数量标记为A1的识别图片,识别类别与第一类别属于同一类别。
可选的,得到该识别图片的基础上,可以将贴标图片中相应的识别类别的数量映像至识别图片中,以便于两种数量的对比。
在一实施例中,在通过选取相同原始图片的第一类别和识别类别进行对比,若满足预制规则,则保留以得到训练集合中训练不好的数据后,该方法还包括:对数据集合中的数据进行问题定位,并输出问题定位报告。通过对相应数据集合中的图片进行识别、对比等操作而得到保留下来的新的数据集合中,所保留下来的数据均为训练模型中训练不好的图片以及对应的数据,在此基础上,可以对其中的数据进行问题定位,并输出相应的问题定位报告,以便于用于能够方便快速的找到训练模型中的问题,如漏检、检测错误等,有利于训练模型精度的提升。
本申请还提供了一种电子设备,参见图4,电子设备1000包括存储器1010和处理器1020。
处理器1020可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器1010可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1010可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1010可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器1010上存储有可执行代码,当可执行代码被处理器1020处理时,可以使处理器1020执行上文述及的方法中的部分或全部。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当可执行代码(或计算机程序、或计算机指令代码)被电子设备(或电子设备、服务器等)的处理器执行时,使处理器执行根据本申请的上述方法的各个步骤的部分或全部。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种训练模型数据的检验方法,其特征在于,包括:
获取同一时间段的原始图片和贴标图片,所述贴标图片标记有类别信息,所述类别信息至少包括第一类别;
建立数据集合,所述数据集合包含具有所述第一类别的所述原始图片;
基于训练模型对所述数据集合中的原始图片进行识别,得到识别类别;
选取相同原始图片的所述第一类别和所述识别类别进行对比,若满足预制规则,则保留所述原始图片。
2.根据权利要求1所述的方法,其特征在于,所述选取相同原始图片的所述第一类别和所述识别类别进行对比,若满足预制规则,则保留所述原始图片,包括:
相同原始图片中的所述识别类别数量为A1,所述第一类别数量为A2,将所述识别类别数量A1与所述第一类别数量A2进行对比,若两者的比值在设定的全检率以下,则保留所述数据集合中的原始图片以及相关对比结果,否则过滤。
3.根据权利要求2所述的方法,其特征在于,所述将所述识别类别数量A1与所述第一类别数量A2进行对比,若两者的比值在设定的全检率以下,则保留所述数据集合中的原始图片以及相关对比结果,否则过滤,包括:
获取用户设置的全检率;
基于所述训练模型对所述数据集合中第一时刻原始图片进行识别,得到标记有A1数量识别类别的识别图片;
利用所述原始图片与所述贴标图片的对应关系将第一时刻所述贴标图片中A2数量第一类别映射至所述识别图片;
判定所述识别图片中A1与A2的比值是否在所述全检率以下,若是,则保留所述数据集合中第一时刻的原始图片以及识别图片,否则删除。
4.根据权利要求3所述的方法,其特征在于,所述基于所述训练模型对所述数据集合中第一时刻原始图片进行识别,得到标记有A1数量识别类别的识别图片,包括:
建立至少包含所述贴标图片中所有类别信息的训练模型;
基于所述训练模型对所述数据集合中第一时刻的原始图片进行识别,保存包含标记有识别类别以及对应数量标记为A1的识别图片,所述识别类别与所述第一类别属于同一类别。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述选取相同原始图片的所述第一类别和所述识别类别进行对比,若满足预制规则,则保留所述原始图片,所述方法还包括:
对所述数据集合中的数据进行问题定位,并输出问题定位报告。
6.根据权利要求1-4中任一项所述的方法,其特征在于,根据所述贴标图片的类别信息建立不同的类别文件夹,将包含不同类别的数据集合分别保存至对应类别的所述类别文件夹中。
7.根据权利要求1-4中任一项所述的方法,其特征在于,所述获取同一时间段的原始图片和贴标图片,所述贴标图片标记有类别信息,所述类别信息至少包括第一类别,包括:
获得一个时间段的原始图片;
对所述原始图片进行识别处理,得到至少包含第一类别的贴标图片;
将所述原始图片和所述贴标图片保存至不同文件夹,不同文件夹中相同时刻的所述原始图片和所述贴标图片具有映射关系。
8.根据权利要求7所述的方法,其特征在于,所述建立数据集合,所述数据集合包含具有所述第一类别的所述原始图片,包括:
获取所述时间段中具有映射关系的原始图片和贴标图片;
选取所述时间段中所有包含第一类别的贴标图片中所对应的原始图片;
将所有包含第一类别的原始图片保存至第一文件夹,得到第一数据集合。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-8 中的任一项所述的方法。
10.一种存储介质,其特征在于,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-8中任一项所述的方法。
CN202111489004.7A 2021-12-08 2021-12-08 训练模型数据的检验方法、电子设备及存储介质 Pending CN113887680A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111489004.7A CN113887680A (zh) 2021-12-08 2021-12-08 训练模型数据的检验方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111489004.7A CN113887680A (zh) 2021-12-08 2021-12-08 训练模型数据的检验方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113887680A true CN113887680A (zh) 2022-01-04

Family

ID=79016538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111489004.7A Pending CN113887680A (zh) 2021-12-08 2021-12-08 训练模型数据的检验方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113887680A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN109543713A (zh) * 2018-10-16 2019-03-29 北京奇艺世纪科技有限公司 训练集的修正方法及装置
CN110263322A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 用于语音识别的音频语料筛选方法、装置及计算机设备
WO2021190165A1 (zh) * 2020-03-26 2021-09-30 Oppo广东移动通信有限公司 图片处理方法、装置、存储介质及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN109543713A (zh) * 2018-10-16 2019-03-29 北京奇艺世纪科技有限公司 训练集的修正方法及装置
CN110263322A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 用于语音识别的音频语料筛选方法、装置及计算机设备
WO2021190165A1 (zh) * 2020-03-26 2021-09-30 Oppo广东移动通信有限公司 图片处理方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
US20160098636A1 (en) Data processing apparatus, data processing method, and recording medium that stores computer program
CN112884055B (zh) 一种目标标注方法和一种目标标注装置
EP3844668A1 (en) System and method for training a damage identification model
CN104424466A (zh) 对象检测方法、对象检测设备及图像拾取设备
US6687396B1 (en) Optical member inspection apparatus, image-processing apparatus, image-processing method, and computer readable medium
CN105321350A (zh) 套牌车检测方法及装置
CN110909598B (zh) 一种基于深度学习的非机动车道交通违法行驶识别方法
CN112633255B (zh) 目标检测方法、装置及设备
CN110473211B (zh) 一种弹簧片的数量的检测方法及设备
CN111400533B (zh) 图像筛选方法、装置、电子设备和存储介质
CN110378258A (zh) 一种基于图像的车辆座椅信息检测方法及设备
CN111126393A (zh) 车辆外观改装判断方法、装置、计算机设备及存储介质
CN111881741A (zh) 车牌识别方法、装置、计算机设备和计算机可读存储介质
WO2020047316A1 (en) System and method for training a damage identification model
CN112232368A (zh) 目标识别模型训练方法、目标识别方法及其相关装置
CN111753658A (zh) 一种睡岗告警方法、装置和计算机设备
CN115457415A (zh) 基于yolo-x模型的目标检测方法、装置、电子设备和存储介质
CN115170501A (zh) 缺陷检测方法、系统、电子设备及存储介质
CN112287905A (zh) 车辆损伤识别方法、装置、设备及存储介质
CN110555344B (zh) 车道线识别方法、装置、电子设备、存储介质
CN110633606A (zh) 一种车位识别方法、装置及设备、存储介质
CN111027601B (zh) 一种基于激光传感器的平面检测方法、装置
CN113887680A (zh) 训练模型数据的检验方法、电子设备及存储介质
CN112784675A (zh) 目标检测方法及装置、存储介质、终端
CN114550129B (zh) 一种基于数据集的机器学习模型处理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220104