CN113111729A

CN113111729A - 人员识别模型的训练方法、识别方法、系统、装置及介质

Info

Publication number: CN113111729A
Application number: CN202110305630.XA
Authority: CN
Inventors: 蔡长青
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-07-13
Anticipated expiration: 2041-03-23
Also published as: CN113111729B

Abstract

本申请公开了一种人员识别模型的训练方法、识别方法、系统、装置及介质。该方法通过获取批量的图像数据；将各个图像数据输入到深度学习模型中，获取深度学习模型对各个图像数据的第一识别结果和对应的置信度；根据置信度，确定图像数据对应的熵值；挑选熵值最大的若干图像数据组成训练数据集，将训练数据集发送给用户进行标注，并获取训练数据集中各个图像数据对应的标签；将训练数据集输入到深度学习模型中进行训练，通过标签对深度学习模型的参数进行更新，得到训练好的人员识别模型。该方法可以有效提高训练得到的人员识别模型的准确性，有利于得到高效、高质量的人员识别结果。本申请可广泛应用于人工智能技术领域内。

Description

人员识别模型的训练方法、识别方法、系统、装置及介质

技术领域

本申请涉及人工智能技术领域，尤其是一种人员识别模型的训练方法、识别方法、系统、装置及介质。

背景技术

建筑业的建造和工人的工作状态息息相关，而以人力为主的建造过程中，往往事故频发，生产力低下。自动化和机器人技术被认为是促进建筑业发展的一个很有前途的途径，通过机器人搬运物料、安装搭建，可以大大提高建筑的施工效率。

但是，目前建筑工地的现场往往形式比较复杂，对机器人的控制是一个较大的难点。例如，当机器人搬运物料时，如果按照固定的规划路线行进，很可能会撞到施工现场的其他人员，造成人员的损伤。因此，对于建筑工地上人员位置的识别是机器人控制策略制定的重要因素，而当前人工智能技术中的人员识别方法，在复杂的环境中往往识别成功率较低，准确度不够，应用的效果比较一般。综合上述，相关技术中存在的技术问题亟需得到解决。

发明内容

本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一。

为此，本申请实施例的一个目的在于提供一种人员识别模型的训练方法，该方法可以有效提高训练数据集的质量，有利于高效训练人员识别模型，且得到的模型识别精度更高。

本申请实施例的另一个目的在于提供人员识别模型的训练系统。

为了达到上述技术目的，本申请实施例所采取的技术方案包括：

第一方面，本申请实施例提供了一种人员识别模型的训练方法，包括以下步骤：

获取批量的图像数据；

将各个所述图像数据输入到深度学习模型中，获取所述深度学习模型对各个所述图像数据的第一识别结果和对应的置信度；

根据所述置信度，确定所述图像数据对应的熵值；

挑选所述熵值最大的若干图像数据组成训练数据集，将所述训练数据集发送给用户进行标注，并获取所述训练数据集中各个图像数据对应的标签；

将所述训练数据集输入到深度学习模型中进行训练，通过所述标签对所述深度学习模型的参数进行更新，得到训练好的人员识别模型。

另外，根据本申请上述实施例的人员识别模型的训练方法，还可以具有以下附加的技术特征：

进一步地，在本申请的一个实施例中，所述将各个所述图像数据输入到深度学习模型中，包括：

获取初始化的深度学习模型；

将各个所述图像数据输入到所述初始化的深度学习模型中。

进一步地，在本申请的一个实施例中，所述获取所述深度学习模型对各个所述图像数据的第一识别结果和对应的置信度，包括：

获取所述深度学习模型对所述图像数据中各个人员预测的边界框和所述边界框的第一置信度；

对所述图像数据中的各个边界框的第一置信度进行归一化处理，得到所述边界框对应的置信度。

进一步地，在本申请的一个实施例中，所述根据所述置信度，确定所述图像数据对应的熵值，包括：

通过公式

确定所述图像数据对应的所述熵值；

式中，E表示图像数据对应的熵值；i表示图像数据中边界框的编号；c_i表示第i个边界框对应的置信度。

进一步地，在本申请的一个实施例中，所述将所述训练数据集输入到深度学习模型中进行训练，通过所述标签对所述深度学习模型的参数进行更新，包括：

将所述训练数据集中的图像数据输入到所述深度学习模型，得到第二识别结果；

根据所述第二识别结果和所述标签确定训练的损失值；

根据所述损失值对所述深度学习模型的参数进行更新。

进一步地，在本申请的一个实施例中，所述根据所述第二识别结果和所述标签确定训练的损失值，包括：

通过交叉熵损失函数确定所述第二识别结果和所述标签之间的损失值。

第二方面，一种人员识别方法，包括以下步骤：

获取包含待识别人员的图像数据；

将所述图像数据输入到如第一方面所述的人员识别模型的训练方法所得到的人员识别模型中，得到人员识别结果。

第三方面，本申请实施例提供了一种人员识别模型的训练系统，包括：

获取模块，用于获取批量的图像数据；

输入模块，用于将各个所述图像数据输入到深度学习模型中，获取所述深度学习模型对各个所述图像数据的第一识别结果和对应的置信度；

处理模块，用于根据所述置信度，确定所述图像数据对应的熵值；

标注模块，用于挑选所述熵值最大的若干图像数据组成训练数据集，将所述训练数据集发送给用户进行标注，并获取所述训练数据集中各个图像数据对应的标签；

训练模块，用于将所述训练数据集输入到深度学习模型中进行训练，通过所述标签对所述深度学习模型的参数进行更新，得到训练好的人员识别模型。

第四方面，本申请实施例提供了一种人员识别模型的训练装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现第一方面所述的人员识别模型的训练方法。

第五方面，本申请实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于实现第一方面所述的人员识别模型的训练方法。

本申请的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到：

本申请实施例中提供的人员识别模型的训练方法，通过获取批量的图像数据；将各个所述图像数据输入到深度学习模型中，获取所述深度学习模型对各个所述图像数据的第一识别结果和对应的置信度；根据所述置信度，确定所述图像数据对应的熵值；挑选所述熵值最大的若干图像数据组成训练数据集，将所述训练数据集发送给用户进行标注，并获取所述训练数据集中各个图像数据对应的标签；将所述训练数据集输入到深度学习模型中进行训练，通过所述标签对所述深度学习模型的参数进行更新，得到训练好的人员识别模型。该方法可以有效提高训练得到的人员识别模型的准确性，有利于得到高效、高质量的人员识别结果。

附图说明

为了更清楚地说明本申请实施例或者现有技术中的技术方案，下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本申请的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本申请一种人员识别模型的训练方法具体实施例的流程示意图；

图2为本申请一种人员识别方法具体实施例的流程示意图；

图3为本申请一种人员识别模型的训练系统具体实施例的结构示意图；

图4为本申请一种人员识别模型的训练装置具体实施例的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

随着人工智能技术的发展，智能机器人被运用到各个领域内执行对应的任务。例如建筑行业的施工现场，需要具有计算机视觉功能的智能机器人处理相关任务，其中对于该场景下人员的识别是一个比较重要的工作，有助于机器人规避人员、规划路线，但是一方面施工现场的情况比较复杂，普通的机器学习模型较难良好完成识别任务；另一方面，针对该场景下的图像数据训练数据集较少，难以训练出较好的人员识别模型。

有鉴于此，本申请实施例中提供一种人员识别模型的训练方法，本申请实施例中的训练方法，可应用于终端中，也可应用于服务器中，还可以是运行于终端或服务器中的软件等。终端可以是平板电脑、笔记本电脑、台式计算机等，但并不局限于此。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。参照图1，该方法主要包括以下步骤：

步骤110、获取批量的图像数据；

本申请实施例中，获取批量的图像数据，这些图像数据中包括若干待识别的目标，即人员。此处的图像数据为未标记的图像数据，也即没有对应标签的图像数据，获取这些图像数据的目的是量化和评估人员识别模型预测的不确定性。具体地，本申请实施例中，每次训练人员识别模型时，可以通过基于均匀分布的随机抽样从总体的图像数据中选择一些图像数据样本，这意味着每个图像数据具有相等的被选择概率。

步骤120、将各个图像数据输入到深度学习模型中，获取深度学习模型对各个图像数据的第一识别结果和对应的置信度；

本申请实施例中，在获取到图像数据后，可以使用基于正规初始化器得到初始化模型或TensorFlow预先训练的开源模型对图像数据进行预测，这些模型均可以作为本申请实施例中的深度学习模型。在将图像数据输入到深度学习模型之中后，获取深度学习模型对这些图像数据的第一识别结果和该结果对应的置信度。具体地，对于图像数据中的人员目标识别来说，识别结果是每个单独的目标的对象类型和位置(即，每个目标所属的类和它的边界框)。本申请实施例中，获取各个边界框对应的第一置信度，对第一置信度使用softmax函数进行归一化计算每个边界框对应的置信度。

步骤130、根据置信度，确定图像数据对应的熵值；

本申请实施例中，计算得到的置信度描述了人员识别模型认为每个预测得到的边界框可靠的可能性。本步骤中，将每个边界框的不确定度定义为熵值，并将每个图像数据对应的熵值确定为该图像数据中每个边界框的熵值之和。具体地，可以通过公式

确定图像数据对应的熵值；式中，E表示图像数据对应的熵值；i表示图像数据中边界框的编号；c_i表示第i个边界框对应的置信度。

步骤140、挑选熵值最大的若干图像数据组成训练数据集，将训练数据集发送给用户进行标注，并获取训练数据集中各个图像数据对应的标签；

本申请实施例中，采用的熵值是信息论领域中不确定性的度量之一，它量化了编码数据分布所需的信息量，基于熵值的采样可以从未标记数据中发现有意义的学习实例，从而能够训练出更准确的模型。因此，对于低不确定性的图像数据，模型已经知道哪些区域是目标对象，哪些区域是背景，这意味着具有低不确定性的图像数据改善识别模型性能的可能性很低。因此，本申请实施例中，挑选熵值最大的若干图像数据组成训练数据集，将训练数据集发送给用户进行标注，在这种情况下，可以大大增强图像数据集的训练质量。有利于得到一个面向质量的训练数据集，而不是使用现有的面向数量的训练数据集，既可以减轻工作人员对图像数据标注的工作负担，又可以加快人员识别模型的训练速度。

步骤150、将训练数据集输入到深度学习模型中进行训练，通过标签对深度学习模型的参数进行更新，得到训练好的人员识别模型。

本申请实施例中，在挑选得到训练数据集后，可以将训练数据集输入到深度学习模型中进行训练。具体地，将训练数据集中的图像数据输入到深度学习模型后，得到模型输出的识别结果，记为第二识别结果，可以根据第二识别结果和标签来评估模型预测的准确性。对于深度学习模型来说，模型预测结果的准确性可以通过损失函数(Loss Function)来衡量，损失函数是定义在单个训练数据上的，用于衡量一个训练数据的预测误差，具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时，一个训练数据集有很多训练数据，因此一般采用代价函数(Cost Function)来衡量训练数据集的整体误差，代价函数是定义在整个训练数据集上的，用于计算所有训练数据的预测误差的平均值，能够更好地衡量出模型的预测效果。对于一般的模型来说，基于前述的代价函数，再加上衡量模型复杂度的正则项即可作为训练的目标函数，基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多，例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数，在此不再一一阐述。本申请实施例中，可以从中任选一种损失函数来确定训练的损失值。基于训练的损失值，采用反向传播算法对模型的参数进行更新，迭代几轮即可得到训练好的人员识别模型。

参照图2，本申请实施例还提供一种人员识别方法，包括步骤210和步骤220：

步骤210、获取包含待识别人员的图像数据；

步骤220、将图像数据输入到如图1所示的人员识别模型的训练方法实施例中得到的人员识别模型中进行预测，得到人员识别结果。

可以理解的是，上述人员识别模型的训练方法实施例中的内容均适用于本人员识别方法实施例中，本人员识别方法实施例所具体实现的功能与上述人员识别模型的训练方法实施例相同，并且达到的有益效果与上述人员识别模型的训练方法实施例所达到的有益效果也相同。

下面参照附图详细描述根据本申请实施例提出的人员识别模型的训练系统。

参照图3，本申请实施例中提出的人员识别模型的训练系统，包括：

获取模块101，用于获取批量的图像数据；

输入模块102，用于将各个所述图像数据输入到深度学习模型中，获取所述深度学习模型对各个所述图像数据的第一识别结果和对应的置信度；

处理模块103，用于根据所述置信度，确定所述图像数据对应的熵值；

标注模块104，用于挑选所述熵值最大的若干图像数据组成训练数据集，将所述训练数据集发送给用户进行标注，并获取所述训练数据集中各个图像数据对应的标签；

训练模块105，用于将所述训练数据集输入到深度学习模型中进行训练，通过所述标签对所述深度学习模型的参数进行更新，得到训练好的人员识别模型。

可以理解的是，上述人员识别模型的训练方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述人员识别模型的训练方法实施例相同，并且达到的有益效果与上述人员识别模型的训练方法实施例所达到的有益效果也相同。

参照图4，本申请实施例提供了人员识别模型的训练装置，包括：

至少一个处理器201；

至少一个存储器202，用于存储至少一个程序；

当至少一个程序被至少一个处理器201执行时，使得至少一个处理器201实现的人员识别模型的训练方法。

同理，上述人员识别模型的训练方法实施例中的内容均适用于本人员识别模型的训练装置实施例中，本人员识别模型的训练装置实施例所具体实现的功能与上述人员识别模型的训练方法实施例相同，并且达到的有益效果与上述人员识别模型的训练方法实施例所达到的有益效果也相同。

本申请实施例还提供了一种计算机可读存储介质，其中存储有处理器201可执行的程序，处理器201可执行的程序在由处理器201执行时用于执行上述的人员识别模型的训练方法。

同理，上述人员识别模型的训练方法实施例中的内容均适用于本计算机可读存储介质实施例中，本计算机可读存储介质实施例所具体实现的功能与上述人员识别模型的训练方法实施例相同，并且达到的有益效果与上述人员识别模型的训练方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于实施例，熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种人员识别模型的训练方法，其特征在于，包括以下步骤：

获取批量的图像数据；

根据所述置信度，确定所述图像数据对应的熵值；

2.根据权利要求1所述的人员识别模型的训练方法，其特征在于，所述将各个所述图像数据输入到深度学习模型中，包括：

获取初始化的深度学习模型；

将各个所述图像数据输入到所述初始化的深度学习模型中。

3.根据权利要求1所述的人员识别模型的训练方法，其特征在于，所述获取所述深度学习模型对各个所述图像数据的第一识别结果和对应的置信度，包括：

4.根据权利要求3所述的人员识别模型的训练方法，其特征在于，所述根据所述置信度，确定所述图像数据对应的熵值，包括：

通过公式

确定所述图像数据对应的所述熵值；

5.根据权利要求1所述的人员识别模型的训练方法，其特征在于，所述将所述训练数据集输入到深度学习模型中进行训练，通过所述标签对所述深度学习模型的参数进行更新，包括：

根据所述第二识别结果和所述标签确定训练的损失值；

根据所述损失值对所述深度学习模型的参数进行更新。

6.根据权利要求5所述的人员识别模型的训练方法，其特征在于，所述根据所述第二识别结果和所述标签确定训练的损失值，包括：

7.一种人员识别方法，其特征在于，包括以下步骤：

获取包含待识别人员的图像数据；

将所述图像数据输入到如权利要求1-6中任一项所述的人员识别模型的训练方法所得到的人员识别模型中，得到人员识别结果。

8.一种人员识别模型的训练系统，其特征在于，包括：

获取模块，用于获取批量的图像数据；

9.一种人员识别模型的训练装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-6中任一项所述的人员识别模型的训练方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于：所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-6任一项所述的人员识别模型的训练方法。