CN112712121B - 一种图像识别模型训练方法、装置及存储介质 - Google Patents

一种图像识别模型训练方法、装置及存储介质 Download PDF

Info

Publication number
CN112712121B
CN112712121B CN202011627407.9A CN202011627407A CN112712121B CN 112712121 B CN112712121 B CN 112712121B CN 202011627407 A CN202011627407 A CN 202011627407A CN 112712121 B CN112712121 B CN 112712121B
Authority
CN
China
Prior art keywords
image
data information
recognition model
marked
image recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011627407.9A
Other languages
English (en)
Other versions
CN112712121A (zh
Inventor
许阳阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Visual Intelligence Innovation Center Co ltd
Original Assignee
Zhejiang Smart Video Security Innovation Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Smart Video Security Innovation Center Co Ltd filed Critical Zhejiang Smart Video Security Innovation Center Co Ltd
Priority to CN202011627407.9A priority Critical patent/CN112712121B/zh
Publication of CN112712121A publication Critical patent/CN112712121A/zh
Application granted granted Critical
Publication of CN112712121B publication Critical patent/CN112712121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度神经网络的图像识别模型训练方法、装置、存储介质及终端,该方法包括:从待标注的图像样本库中获取待标注的图像样本;采用预先创建的图像识别模型对待标注的图像样本进行识别,生成识别结果并保存为文本格式的数据信息,并将文本格式的数据信息解析为可扩展标记语言格式的数据信息;校准可扩展标记语言格式的数据信息,生成标注后的图像样本输入预先创建的图像识别模型中进行训练,生成训练后的图像识别模型。因此,采用本申请实施例,由于本申请利用已有的图像识别模型,对新采集的现场图片进行预标注和校准后即可用于模型的训练,在算法迭代升级的过程中可以节省大量的人工标注成本,以便快速迭代提升模型精度。

Description

一种图像识别模型训练方法、装置及存储介质
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种图像识别模型训练方法、装置及存储介质。
背景技术
在关于视觉的深度学习中,所采用的图像识别模型决定了识别算法的学习能力,而图像识别模型的实际性能主要取决于训练所采用的数据样本质量,通常,数据越多越丰富、代表性越强、模型效果越好,识别算法的健壮性和鲁棒性就越强。因此,样本数据的准备环节对算法性能至关重要,样本图像准备时需要对样本图像进行预标注。
现有的图像预标注包括人工标注和工具标注,样本图像的人工标注是一项耗时耗力的工作,需要消耗大量的人力成本才能完成样本图像的预标注工作,工具标注仅能对公开样本图像集含有的常规类别进行识别标注,而在实际算法落地过程中所需图像类型往往具有类别多样化,场景复杂化等特点,当前预标注工具并不能很好地满足企业的需求。因此现有的样本图像标注成本高,使得训练后的图像识别模型达不到预期效果,从而降低了图像识别模型的识别精度。
发明内容
本申请实施例提供了一种图像识别模型训练方法、装置及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本申请实施例提供了一种图像识别模型训练方法,该方法包括:
从待标注的图像样本库中获取待标注的图像样本;
采用预先创建的图像识别模型对待标注的图像样本进行识别,生成识别结果;
将识别结果保存为文本格式的数据信息,并将文本格式的数据信息解析为可扩展标记语言格式的数据信息;
校准可扩展标记语言格式的数据信息,生成标注后的图像样本;
将标注后的图像样本输入预先创建的图像识别模型中进行训练,生成训练后的图像识别模型。
可选的,方法还包括:
继续执行从待标注的图像样本库获取待标注的图像样本的步骤,针对预先创建的图像识别模型进行迭代训练。
可选的,采用预先创建的图像识别模型对待标注的图像样本进行识别,生成识别结果,包括:
初始化预先创建的图像识别模型;
根据初始化后的图像识别模型从待标注的图像样本中获取图像中的参数信息;其中,参数信息至少包括待标注的图像样本中的每个目标的坐标点和每个目标的类型;
将图像样本中的每个目标的坐标点和每个目标的类型确定为识别结果。
可选的,将识别结果保存为文本格式的数据信息,包括:
确定识别结果中的数据类型;
加载预先设计的文本格式的模板,并读取文本格式的模板内存在的参数类型;
将识别结果中的数据类型与模板内存在的参数类型进行关联,并基于关联关系将识别结果中的数据类型逐一填充至文本格式的模板中,生成保存后的文本格式的数据信息。
可选的,将文本格式的数据信息解析为可扩展标记语言格式的数据信息,包括:
从文本格式的数据信息中读取多个类型的参数值;
创建多个类型的参数值对应的多个字符串变量,并将多个类型的参数值与多个字符串变量绑定后生成绑定参数值的多个类型的参数值;
采用java语言中的Stringstoken函数将多个类型的参数值转换为数据格式,生成多个数组格式的参数值;
采用java语言中的asXML函数逐一将多个数组格式的参数值转换成可扩展标记语言格式的数据信息。
可选的,校准可扩展标记语言格式的数据信息,生成标注后的图像样本,包括:
查找可扩展标记语言格式的数据信息中坐标有误的参数;
将坐标有误的参数校准,生成标注后的图像样本。
可选的,预先创建的图像识别模型中包括多个神经元、激活函数以及损失函数;
将标注后的图像样本输入预先创建的图像识别模型中进行训练,生成训练后的图像识别模型,包括:
将标注后的图像样本输入多个神经元中进行加权累加,生成加权累加后的参数值;
将加权累加后的参数值输入激活函数中进行正向求导,输出激活参数值;
将激活参数值输入损失函数中,输出损失值;
将损失值反向求导,生成模型的梯度向量;
基于梯度向量调整预先创建的图像识别模型中对应的模型参数,并当模型损失值达到最小时,生成训练后的图像识别模型。
第二方面,本申请实施例提供了一种对图像进行识别的方法,该方法包括:
获取待识别图像;
将待识别图像输入训练后的图像识别模型中;
输出待识别图像中的多个目标。
第三方面,本申请实施例提供了一种图像识别模型训练装置,该装置包括:
图像样本获取模块,用于从待标注的图像样本库中获取待标注的图像样本;
识别结果生成模块,用于采用预先创建的图像识别模型对待标注的图像样本进行识别,生成识别结果;
数据信息解析模块,用于将识别结果保存为文本格式的数据信息,并将文本格式的数据信息解析为可扩展标记语言格式的数据信息;
数据信息校准模块,用于校准可扩展标记语言格式的数据信息,生成标注后的图像样本;
模型训练模块,用于将标注后的图像样本输入预先创建的图像识别模型中进行训练,生成训练后的图像识别模型。
第四方面,本申请实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
本申请实施例提供的技术方案可以包括以下有益效果:
在本申请实施例中,图像识别模型训练装置首先从待标注的图像样本库中获取待标注的图像样本,再采用预先创建的图像识别模型对待标注的图像样本进行识别,生成识别结果,然后将识别结果保存为文本格式的数据信息,并将文本格式的数据信息解析为可扩展标记语言格式的数据信息,再校准可扩展标记语言格式的数据信息,生成标注后的图像样本,最后将标注后的图像样本输入预先创建的图像识别模型中进行训练,生成训练后的图像识别模型。由于本申请利用已有的图像识别模型,对新采集的现场图片进行预标注和校准后即可用于图像识别模型的在线训练,在模型中识别算法迭代升级的过程中可以节省大量的人工标注成本,以便快速迭代提升模型精度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本申请实施例提供的一种图像识别模型训练方法的流程示意图;
图2是本申请实施例提供的一种图像识别模型训练过程的过程示意框图;
图3是本申请实施例提供的另一种图像识别模型训练方法的流程示意图;
图4是本申请实施例提供的一种图像识别方法的流程示意图;
图5是本申请实施例提供的一种图像识别模型训练装置的装置示意图;
图6是本申请实施例提供的一种终端的结构示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请提供的技术方案中,由于本申请利用已有的图像识别模型,对新采集的现场图片进行预标注和校准后即可用于模型的训练,在算法迭代升级的过程中可以节省大量的人工标注成本,以便快速迭代提升模型精度,下面采用示例性的实施例进行详细说明。
下面将结合附图1-附图4,对本申请实施例提供的图像识别模型训练方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的图像识别模型训练装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。其中,本申请实施例中的图像识别模型训练装置可以为用户终端,包括但不限于:个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、5G网络或未来演进网络中的终端设备等。
请参见图1,为本申请实施例提供了一种图像识别模型训练方法的流程示意图。如图1所示,本申请实施例的方法可以包括以下步骤:
S101,从待标注的图像样本库中获取待标注的图像样本;
其中,待标注的图像样本库为图像识别模型未能完全正确识别的图像库。
通常,预先创建的图像识别模型部署后在线进行图像识别时,由于图像识别模型落地初期,性能不一定能满足所有场景的图像识别,此时当模型不能完全正确识别出图像中的目标时,将该图像保存至待标注的图像样本库。
需要说明的是,模型部署初期虽然未能完全正确识别出一些场景的全部目标,--但通常可以正确识别部分目标,获取-对应目标的坐标、类别等数据-。
在一种可能的实现方式中,当预先创建的图像识别模型未能识别出图像中的目标时,将该图像发送至待标注的图像样本库,然后预先创建的图像识别模型从样本库提取该图像。
S102,采用预先创建的图像识别模型对待标注的图像样本进行识别,生成识别结果;
其中,识别结果为待标注的图像样本中包含的目标坐标、目标类型、-等参数值。
在一种可能的实现方式中,在进行目标识别时,首先加载预先创建的深度神经网络,经过模型推理识别从待标注的图像样本中获取图像中的-目标信息;其中,目标信息至少包括待标注的图像样本中的每个目标的坐标点和每个目标的类型,最后将图像样本中的每个目标的坐标点和每个目标的类型确定为识别结果。
需要说明的是,模型推理识别时可以使用算法工程化(c语言和/或c++语言)-代码进行,推理识别速度较快。
S103,将识别结果保存为文本格式的数据信息,并将文本格式的数据信息解析为可扩展标记语言格式的数据信息;
其中,文本格式为TXT格式,可扩展标记语言格式为xml格式。
在一种可能的实现方式中,在将识别结果保存为文本格式的数据信息时,首先确定识别结果中的数据类型,然后加载预先设计的文本格式的模板,并读取文本格式的模板内存在的参数类型,最后将识别结果中的数据类型与模板内存在的参数类型进行关联,并基于关联关系将识别结果中的数据类型逐一填充至文本格式的模板中,生成保存后的文本格式的数据信息。
例如,按照图片名称、宽、高、xmin、ymin、xmax、ymax、类别信息的顺序保存为txt文件,如下所示:
000001.jpg 704,576 334,217,484,574,0;
000002.jpg 704,576 645,325,682,423,0 420,265,452,384,1。
进一步地,在将文本格式的数据信息解析为可扩展标记语言格式的数据信息时,首先从文本格式的数据信息中读取多个类型的参数值,再创建多个类型的参数值对应的多个字符串变量,并将多个类型的参数值与多个字符串变量绑定后生成绑定参数值的多个类型的参数值,然后采用java语言中的Stringstoken函数将多个类型的参数值转换为数据格式,生成多个数组格式的参数值,最后采用java语言中的asXML函数逐一将多个数组格式的参数值转换成可扩展标记语言格式的数据信息。
进一步地,在将txt文件解析为xml格式,此过程还可以采用Python的lxml库,解析生成每张样本图片对应的xml文件。
S104,校准可扩展标记语言格式的数据信息,生成标注后的图像样本;
在一种可能的实现方式中,在进行校准时,首先查找可扩展标记语言格式的数据信息中坐标有误的参数,然后将坐标有误的参数校准,生成标注后的图像样本。
例如,利用样本标注工具,比如labelImg,对样本标注结果中存在的漏标、错标、坐标偏差等问题进行校准,完成标注过程。
S105,将标注后的图像样本输入预先创建的图像识别模型中进行训练,生成训练后的图像识别模型。
在一种可能的实现方式中,在进行模型训练时,首先将标注后的图像样本输入多个神经元中进行加权累加,生成加权累加后的参数值,再将加权累加后的参数值输入激活函数中进行正向求导,输出激活参数值,然后将激活参数值输入损失函数中,输出损失值,再将损失值反向求导,生成模型的梯度向量,最后基于梯度向量调整预先创建的图像识别模型中对应的模型参数,并当模型损失值达到最小时,生成训练后的图像识别模型。
例如图2所示,图2是本申请提供的一种模型在线训练的训练框图,首先从样本图片库获取样本图片,然后采用模型进行推理识别,再对识别结果进行解析,其次进行标注结果校准,最后模型迭代训练过程中反向传播更新模型参数。
在本申请实施例中,图像识别模型训练装置首先从待标注的图像样本库中获取待标注的图像样本,再采用预先创建的图像识别模型对待标注的图像样本进行识别,生成识别结果,然后将识别结果保存为文本格式的数据信息,并将文本格式的数据信息解析为可扩展标记语言格式的数据信息,再校准可扩展标记语言格式的数据信息,生成标注后的图像样本,最后将标注后的图像样本输入预先创建的图像识别模型中进行训练,生成训练后的图像识别模型。由于本申请利用已有的图像识别模型,对新采集的现场图片进行预标注和校准后即可用于图像识别模型的在线训练,在模型中识别算法迭代升级的过程中可以节省大量的人工标注成本,以便快速迭代提升模型精度。
请参见图3,为本申请实施例提供的另一种图像识别模型训练方法的流程示意图。如图3所示,本申请实施例的方法可以包括以下步骤:
S201,从待标注的图像样本库中获取待标注的图像样本;
S202,采用预先创建的图像识别模型对待标注的图像样本进行识别,生成识别结果;
S203,确定识别结果中的数据类型;
S204,加载预先设计的文本格式的模板,并读取文本格式的模板内存在的参数类型;
S205,将识别结果中的数据类型与模板内存在的参数类型进行关联,并基于关联关系将识别结果中的数据类型逐一填充至文本格式的模板中,生成保存后的文本格式的数据信息;
S206,从文本格式的数据信息中读取多个类型的参数值;
S207,创建多个类型的参数值对应的多个字符串变量,并将多个类型的参数值与多个字符串变量绑定后生成绑定参数值的多个类型的参数值;
S208,采用java语言中的Stringstoken函数将多个类型的参数值转换为数据格式,生成多个数组格式的参数值;
S209,采用java语言中的asXML函数逐一将多个数组格式的参数值转换成可扩展标记语言格式的数据信息;
S210,校准可扩展标记语言格式的数据信息,生成标注后的图像样本;
S211,将标注后的图像样本输入多个神经元中进行加权累加,生成加权累加后的参数值;
S212,将加权累加后的参数值输入激活函数中进行正向求导,输出激活参数值;
S213,将激活参数值输入损失函数中,输出损失值,并将损失值反向求导,生成模型的梯度向量;
S214,基于梯度向量调整预先创建的图像识别模型中对应的模型参数,并当模型损失值达到最小时,生成训练后的图像识别模型。
在本申请实施例中,图像识别模型训练装置首先从待标注的图像样本库中获取待标注的图像样本,再采用预先创建的图像识别模型对待标注的图像样本进行识别,生成识别结果,然后将识别结果保存为文本格式的数据信息,并将文本格式的数据信息解析为可扩展标记语言格式的数据信息,再校准可扩展标记语言格式的数据信息,生成标注后的图像样本,最后将标注后的图像样本输入预先创建的图像识别模型中进行训练,生成训练后的图像识别模型。由于本申请利用已有的图像识别模型,对新采集的现场图片进行预标注和校准后即可用于图像识别模型的在线训练,在模型中识别算法迭代升级的过程中可以节省大量的人工标注成本,以便快速迭代提升模型精度。
请参见图4,为本申请实施例提供的一种对图像进行识别的方法。如图4所示,本申请实施例的方法可以包括以下步骤:
S301,获取待识别图像;
S302,将待识别图像输入训练后的图像识别模型中;
S303,输出待识别图像中的多个目标。
在本申请实施例中,利用已有初级算法模型对新场景样本图片进行预标注,并采用标注后的图像样本对模型进行迭代训练,在迭代训练后,可实时通过摄像头采集图像输入训练后的模型中,识别出图像中的多个目标对象。由于该模型可在线实时训练,从而使得识别到的目标对象精度更高。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
请参见图5,其示出了本发明一个示例性实施例提供的图像识别模型训练装置的结构示意图。该图像识别模型训练装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括图像样本获取模块10、识别结果生成模块20、数据信息解析模块30和数据信息校准模块40、模型训练模块50。
图像样本获取模块10,用于从待标注的图像样本库中获取待标注的图像样本;
识别结果生成模块20,用于采用预先创建的图像识别模型对待标注的图像样本进行识别,生成识别结果;
数据信息解析模块30,用于将识别结果保存为文本格式的数据信息,并将文本格式的数据信息解析为可扩展标记语言格式的数据信息;
数据信息校准模块40,用于校准可扩展标记语言格式的数据信息,生成标注后的图像样本;
模型训练模块50,用于将标注后的图像样本输入预先创建的图像识别模型中进行训练,生成训练后的图像识别模型。
需要说明的是,上述实施例提供的图像识别模型训练装置在执行图像识别模型训练方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像识别模型训练装置与图像识别模型训练方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请实施例中,图像识别模型训练装置首先从待标注的图像样本库中获取待标注的图像样本,再采用预先创建的图像识别模型对待标注的图像样本进行识别,生成识别结果,然后将识别结果保存为文本格式的数据信息,并将文本格式的数据信息解析为可扩展标记语言格式的数据信息,再校准可扩展标记语言格式的数据信息,生成标注后的图像样本,最后将标注后的图像样本输入预先创建的图像识别模型中进行训练,生成训练后的图像识别模型。由于本申请利用已有的图像识别模型,对新采集的现场图片进行预标注和校准后即可用于图像识别模型的在线训练,在模型中识别算法迭代升级的过程中可以节省大量的人工标注成本,以便快速迭代提升模型精度。
本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器执行时实现上述各个方法实施例提供的图像识别模型训练方法。
本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例的图像识别模型训练方法。
请参见图6,为本申请实施例提供了一种终端的结构示意图。如图6所示,终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及图像识别模型训练应用程序。
在图6所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的图像识别模型训练应用程序,并具体执行以下操作:
从待标注的图像样本库中获取待标注的图像样本;
采用预先创建的图像识别模型对待标注的图像样本进行识别,生成识别结果;
将识别结果保存为文本格式的数据信息,并将文本格式的数据信息解析为可扩展标记语言格式的数据信息;
校准可扩展标记语言格式的数据信息,生成标注后的图像样本;
将标注后的图像样本输入预先创建的图像识别模型中进行训练,生成训练后的图像识别模型。
在一个实施例中,处理器1001在执行提取当前车辆的车牌图像时,具体执行以下操作:
继续执行从待标注的图像样本库获取待标注的图像样本的步骤,针对预先创建的图像识别模型进行迭代训练。
在一个实施例中,处理器1001在执行采用预先创建的图像识别模型对待标注的图像样本进行识别,生成识别结果时,具体执行以下操作:
初始化预先创建的图像识别模型;
根据初始化后的图像识别模型从待标注的图像样本中获取图像中的参数信息;其中,参数信息至少包括待标注的图像样本中的每个目标的坐标点和每个目标的类型;
将图像样本中的每个目标的坐标点和每个目标的类型确定为识别结果。
在一个实施例中,处理器1001在执行将识别结果保存为文本格式的数据信息时,具体执行以下操作:
确定识别结果中的数据类型;
加载预先设计的文本格式的模板,并读取文本格式的模板内存在的参数类型;
将识别结果中的数据类型与模板内存在的参数类型进行关联,并基于关联关系将识别结果中的数据类型逐一填充至文本格式的模板中,生成保存后的文本格式的数据信息。
在一个实施例中,处理器1001在执行将文本格式的数据信息解析为可扩展标记语言格式的数据信息时,具体执行以下操作:
从文本格式的数据信息中读取多个类型的参数值;
创建多个类型的参数值对应的多个字符串变量,并将多个类型的参数值与多个字符串变量绑定后生成绑定参数值的多个类型的参数值;
采用java语言中的Stringstoken函数将多个类型的参数值转换为数据格式,生成多个数组格式的参数值;
采用java语言中的asXML函数逐一将多个数组格式的参数值转换成可扩展标记语言格式的数据信息。
在一个实施例中,处理器1001在执行校准可扩展标记语言格式的数据信息,生成标注后的图像样本时,具体执行以下操作:
查找可扩展标记语言格式的数据信息中坐标有误的参数;
将坐标有误的参数校准,生成标注后的图像样本。
在一个实施例中,处理器1001在执行将标注后的图像样本输入预先创建的图像识别模型中进行训练,生成训练后的图像识别模型时,具体执行以下操作:
将标注后的图像样本输入多个神经元中进行加权累加,生成加权累加后的参数值;
将加权累加后的参数值输入激活函数中进行正向求导,输出激活参数值;
将激活参数值输入损失函数中,输出损失值;
将损失值反向求导,生成模型的梯度向量;
基于梯度向量调整预先创建的图像识别模型中对应的模型参数,并当模型损失值达到最小时,生成训练后的图像识别模型。
在本申请实施例中,图像识别模型训练装置首先从待标注的图像样本库中获取待标注的图像样本,再采用预先创建的图像识别模型对待标注的图像样本进行识别,生成识别结果,然后将识别结果保存为文本格式的数据信息,并将文本格式的数据信息解析为可扩展标记语言格式的数据信息,再校准可扩展标记语言格式的数据信息,生成标注后的图像样本,最后将标注后的图像样本输入预先创建的图像识别模型中进行训练,生成训练后的图像识别模型。由于本申请利用已有的图像识别模型,对新采集的现场图片进行预标注和校准后即可用于图像识别模型的在线训练,在模型中识别算法迭代升级的过程中可以节省大量的人工标注成本,以便快速迭代提升模型精度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (9)

1.一种图像识别模型训练方法,其特征在于,所述方法包括:
从待标注的图像样本库中获取待标注的图像样本;
采用预先创建的图像识别模型对所述待标注的图像样本进行识别,生成识别结果;
将所述识别结果保存为文本格式的数据信息,并将所述文本格式的数据信息解析为可扩展标记语言格式的数据信息;其中,
所述将所述识别结果保存为文本格式的数据信息,包括:
确定所述识别结果中的数据类型;
加载预先设计的文本格式的模板,并读取所述文本格式的模板内存在的参数类型;
将所述识别结果中的数据类型与所述模板内存在的参数类型进行关联,并基于所述关联关系将所述识别结果中的数据类型逐一填充至所述文本格式的模板中,生成保存后的文本格式的数据信息;
校准所述可扩展标记语言格式的数据信息,生成标注后的图像样本;
将所述标注后的图像样本输入所述预先创建的图像识别模型中进行训练,生成训练后的图像识别模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
继续执行所述从待标注的图像样本库获取待标注的图像样本的步骤,针对所述预先创建的图像识别模型进行迭代训练。
3.根据权利要求1所述的方法,其特征在于,所述采用预先创建的图像识别模型对所述待标注的图像样本进行识别,生成识别结果,包括:
初始化预先创建的图像识别模型;
根据初始化后的图像识别模型从所述待标注的图像样本中获取图像中的参数信息;其中,所述参数信息至少包括所述待标注的图像样本中的每个目标的坐标点和每个目标的类型;
将所述图像样本中的每个目标的坐标点和每个目标的类型确定为识别结果。
4.根据权利要求1所述的方法,其特征在于,所述将所述文本格式的数据信息解析为可扩展标记语言格式的数据信息,包括:
从所述文本格式的数据信息中读取多个类型的参数值;
创建所述多个类型的参数值对应的多个字符串变量,并将所述多个类型的参数值与所述多个字符串变量绑定后生成绑定参数值的多个类型的参数值;
采用java语言中的Stringstoken函数将所述多个类型的参数值转换为数据格式,生成多个数组格式的参数值;
采用java语言中的asXML函数逐一将所述多个数组格式的参数值转换成可扩展标记语言格式的数据信息。
5.根据权利要求1所述的方法,其特征在于,所述校准所述可扩展标记语言格式的数据信息,生成标注后的图像样本,包括:
查找所述可扩展标记语言格式的数据信息中坐标有误的参数;
将所述坐标有误的参数校准,生成标注后的图像样本。
6.根据权利要求1所述的方法,其特征在于,所述预先创建的图像识别模型中包括多个神经元、激活函数以及损失函数;
所述将所述标注后的图像样本输入所述预先创建的图像识别模型中进行训练,生成训练后的图像识别模型,包括:
将所述标注后的图像样本输入所述多个神经元中进行加权累加,生成加权累加后的参数值;
将所述加权累加后的参数值输入所述激活函数中进行正向求导,输出激活参数值;
将所述激活参数值输入所述损失函数中,输出损失值;
将所述损失值反向求导,生成模型的梯度向量;
基于所述梯度向量调整所述预先创建的图像识别模型中对应的模型参数,并当所述模型损失值达到最小时,生成训练后的图像识别模型。
7.一种采用如权利要求1-6任一项所述的方法对图像进行识别的方法,其特征在于,所述方法包括:
获取待识别图像;
将所述待识别图像输入所述训练后的图像识别模型中;
输出所述待识别图像中的多个目标。
8.一种图像识别模型训练装置,其特征在于,所述装置包括:
图像样本获取模块,用于从待标注的图像样本库中获取待标注的图像样本;
识别结果生成模块,用于采用预先创建的图像识别模型对所述待标注的图像样本进行识别,生成识别结果;
数据信息解析模块,用于将所述识别结果保存为文本格式的数据信息,并将所述文本格式的数据信息解析为可扩展标记语言格式的数据信息;其中,
所述将所述识别结果保存为文本格式的数据信息,包括:
确定所述识别结果中的数据类型;
加载预先设计的文本格式的模板,并读取所述文本格式的模板内存在的参数类型;
将所述识别结果中的数据类型与所述模板内存在的参数类型进行关联,并基于所述关联关系将所述识别结果中的数据类型逐一填充至所述文本格式的模板中,生成保存后的文本格式的数据信息;
数据信息校准模块,用于校准所述可扩展标记语言格式的数据信息,生成标注后的图像样本;
模型训练模块,用于将所述标注后的图像样本输入所述预先创建的图像识别模型中进行训练,生成训练后的图像识别模型。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-6任意一项的方法步骤。
CN202011627407.9A 2020-12-30 2020-12-30 一种图像识别模型训练方法、装置及存储介质 Active CN112712121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011627407.9A CN112712121B (zh) 2020-12-30 2020-12-30 一种图像识别模型训练方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011627407.9A CN112712121B (zh) 2020-12-30 2020-12-30 一种图像识别模型训练方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112712121A CN112712121A (zh) 2021-04-27
CN112712121B true CN112712121B (zh) 2023-12-05

Family

ID=75547700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011627407.9A Active CN112712121B (zh) 2020-12-30 2020-12-30 一种图像识别模型训练方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112712121B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113902018A (zh) * 2021-10-12 2022-01-07 深圳壹账通智能科技有限公司 图像样本生成方法、装置、计算机可读介质及电子设备
CN114565057B (zh) * 2022-03-15 2022-10-21 中科三清科技有限公司 一种基于机器学习的均压场识别方法、装置、存储介质及终端
CN114693187B (zh) * 2022-05-31 2022-10-21 杭州未名信科科技有限公司 塔吊集群的运行分析方法、装置、存储介质及终端
CN118135347A (zh) * 2022-12-01 2024-06-04 同方威视技术股份有限公司 在线训练方法、安检图像识别方法、装置、设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764370A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN108985214A (zh) * 2018-07-09 2018-12-11 上海斐讯数据通信技术有限公司 图像数据的标注方法和装置
CN109902678A (zh) * 2019-02-12 2019-06-18 北京奇艺世纪科技有限公司 模型训练方法、文字识别方法、装置、电子设备及计算机可读介质
CN110070087A (zh) * 2019-05-05 2019-07-30 广东三维家信息科技有限公司 图片识别方法及装置
CN111062282A (zh) * 2019-12-05 2020-04-24 武汉科技大学 基于改进yolov3模型的变电站指针式仪表识别方法
WO2020088076A1 (zh) * 2018-10-31 2020-05-07 阿里巴巴集团控股有限公司 一种图像标注方法、装置及系统
CN111639710A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 图像识别模型训练方法、装置、设备以及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8150170B2 (en) * 2008-05-30 2012-04-03 Microsoft Corporation Statistical approach to large-scale image annotation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764370A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN108985214A (zh) * 2018-07-09 2018-12-11 上海斐讯数据通信技术有限公司 图像数据的标注方法和装置
WO2020088076A1 (zh) * 2018-10-31 2020-05-07 阿里巴巴集团控股有限公司 一种图像标注方法、装置及系统
CN109902678A (zh) * 2019-02-12 2019-06-18 北京奇艺世纪科技有限公司 模型训练方法、文字识别方法、装置、电子设备及计算机可读介质
CN110070087A (zh) * 2019-05-05 2019-07-30 广东三维家信息科技有限公司 图片识别方法及装置
CN111062282A (zh) * 2019-12-05 2020-04-24 武汉科技大学 基于改进yolov3模型的变电站指针式仪表识别方法
CN111639710A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 图像识别模型训练方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN112712121A (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN112712121B (zh) 一种图像识别模型训练方法、装置及存储介质
CN112580623B (zh) 图像生成方法、模型训练方法、相关装置及电子设备
CN112749081B (zh) 用户界面测试方法及相关装置
CN112633380A (zh) 兴趣点特征提取方法、装置、电子设备及存储介质
CN109828906B (zh) Ui自动化测试方法、装置、电子设备及存储介质
CN111208998A (zh) 数据可视化大屏自动布局的方法、装置及存储介质
CN109558600B (zh) 翻译处理方法及装置
CN111325031B (zh) 简历解析方法及装置
CN114419035A (zh) 产品识别方法、模型训练方法、装置和电子设备
CN112527676A (zh) 模型自动化测试方法、装置及存储介质
CN117389890A (zh) 测试用例的生成方法、装置、电子设备和存储介质
CN114896161A (zh) 基于人工智能的文件构造方法、装置、计算机设备及介质
CN114972910A (zh) 图文识别模型的训练方法、装置、电子设备及存储介质
CN114461835A (zh) 图片处理方法及装置、计算机可读存储介质和电子设备
CN114186090A (zh) 一种图像标注数据的智能质检方法及系统
CN113792558B (zh) 基于机器翻译和译后编辑的自学习翻译方法及装置
EP4047474A1 (en) Method for annotating data, related apparatus and computer program product
CN115130437A (zh) 一种文档智能填写方法、装置及存储介质
CN114170610A (zh) 数据校验方法、装置、设备和介质
CN115062571A (zh) 应用于集成电路器件的数据区域动态选取方法、系统、设备和计算机可读存储介质
CN114339208A (zh) 视频测试方法、装置、电子设备及计算机存储介质
CN104423964A (zh) 用于确定可视化的可信性的方法和系统
CN114663886A (zh) 文本识别方法、模型的训练方法及装置
CN115700519A (zh) 一种文本到图像的生成方法、装置、存储介质及终端
CN112418217A (zh) 用于识别字符的方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 311215 unit 1, building 1, area C, Qianjiang Century Park, ningwei street, Xiaoshan District, Hangzhou City, Zhejiang Province

Patentee after: Zhejiang Visual Intelligence Innovation Center Co.,Ltd.

Address before: 311215 unit 1, building 1, area C, Qianjiang Century Park, ningwei street, Xiaoshan District, Hangzhou City, Zhejiang Province

Patentee before: Zhejiang smart video security Innovation Center Co.,Ltd.

CP01 Change in the name or title of a patent holder
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210427

Assignee: Institute of Information Technology, Zhejiang Peking University

Assignor: Zhejiang Visual Intelligence Innovation Center Co.,Ltd.

Contract record no.: X2024330000024

Denomination of invention: A training method, device, and storage medium for image recognition models

Granted publication date: 20231205

License type: Common License

Record date: 20240401

EE01 Entry into force of recordation of patent licensing contract