CN110942005A

CN110942005A - 物体识别方法及装置

Info

Publication number: CN110942005A
Application number: CN201911148201.5A
Authority: CN
Inventors: 杨爽
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-03-31

Abstract

本申请实施例提供一种物体识别方法及装置，该方法包括：获取第一图片，其中，第一图片为包括第一物体的图片。将第一图片输入至检测模型，以使得检测模型输出第一物体的识别信息，其中，识别信息包括第一物体对应的第一边框的坐标、第一边框的尺寸和第一物体的类别，检测模型为对多组样本训练得到的，每组样本包括样本图片和样本识别信息，样本图片为多种预设条件下的直播场景的图片，样本识别信息包括样本图片中所包括的物体的样本边框的坐标、样本边框的尺寸和物体的样本类别。通过根据多种预设条件下的实际直播场景所对应的样本图片以及样本识别信息进行训练得到检测模型，从而能够有效提升检测模型输出的第一图片的识别信息的准确率。

Description

物体识别方法及装置

技术领域

本申请实施例涉及计算机技术，尤其涉及一种物体识别方法及装置。

背景技术

为了提升用户观看直播时的观赏体验，通常需要对直播中的物体进行添加动画特效或者背景虚化等处理，因此针对直播场景中的物体识别就显得尤为重要。

目前，现有技术在针对场景进行图片识别时，通常是通过基于OpenCV的图片匹配算法，其中，基于OpenCV的处理方法在简单单一的场景中能够取得良好的效果，然而，针对复杂场景或者识别角度存在偏差的图片，现有技术通常对物体进行识别的准确率较低。

发明内容

本申请实施例提供一种物体识别方法及装置，以克服对物体进行识别的准确率较低的问题。

第一方面，本申请实施例提供一种物体识别方法，包括：

获取第一图片，其中，所述第一图片为包括第一物体的图片；

将所述第一图片输入至检测模型，以使得检测模型输出第一物体的识别信息，其中，所述识别信息包括第一物体对应的第一边框的坐标、第一边框的尺寸和所述第一物体的类别，所述检测模型为对多组样本训练得到的，每组样本包括样本图片和样本识别信息，所述样本图片为多种预设条件下的直播场景的图片，所述样本识别信息包括所述样本图片中所包括的物体的样本边框的坐标、样本边框的尺寸和所述物体的样本类别。

在一种可能的设计中，所述将所述第一图片输入至检测模型之前，所述方法还包括：

获取多张样本图片，其中，所述样本图片为实际直播间场景所对应的图片，所述样本图片包括第二物体；

针对任一张样本图片，将所述样本图片输入至检测模型，以使得检测模型输出第二物体的预测识别信息；

根据所述第二物体的预测识别信息和所述样本识别信息，确定所述检测模型输出的预测识别信息的损失函数值；

判断所述损失函数值是否满足预设阈值，若是，则确定所述检测模型训练完成，若否，则重复执行上述将样本图片输入至检测模型的操作，直至所述检测模型输出的第二物体的预测识别信息的损失函数值满足预设阈值。

在一种可能的设计中，所述获取多张样本图片，包括：

在各个不同的预设条件所对应直播场景下，分别获取多张直播场景的图片；

对获取的多张直播场景的图片分别进行图片增强处理，以得到多张样本图片，其中，所述图片增强处理至少包括：调节饱和度、调节亮度、调节对比度、左右翻转、旋转预设角度。

在一种可能的设计中，所述检测模型为神经网络模型；

所述神经网络模型所包括的特征图尺寸为13×13、26×26以及52×52；

所述52×52的特征图尺寸所对应的边框的尺寸为10×13、16×30以及33×23。

在一种可能的设计中，所述将所述样本图片输入至检测模型之前，所述方法还包括：

根据k-means函数确定所述样本图片所对应的预测边框的初始尺寸；以及

获取所述检测模型所对应的模型参数的初始值。

在一种可能的设计中，所述将所述样本图片输入至检测模型，以使得检测模型输出第二物体的预测识别信息，包括：

将所述样本图片和所述预测边框尺寸输入至检测模型，以使得所述检测模型根据所述样本图片、所述预测边框的初始尺寸以及所述模型参数的初始值进行卷积神经网络处理，并输出第二物体的预测识别信息。

在一种可能的设计中，所述损失函数值包括根据第二物体的预测边框的坐标所确定的第一损失函数值、根据第二物体的预测边框的尺寸所确定的第二损失函数值、根据第二物体的预测类别所确定的第三损失函数值。

则判断所述损失函数值是否满足预设阈值，包括：

判断所述第一损失函数值是否满足第一预设阈值；和/或

判断所述第二损失函数值是否满足第二预设阈值；和/或

判断所述第三损失函数值是否满足第三预设阈值。

在一种可能的设计中，所述识别信息中的类别为预设类别中的一种，所述预设类别为根据直播场景所确定的。

第二方面，本申请实施例提供一种物体识别装置，包括：

获取模块，用于获取第一图片，其中，所述第一图片为包括第一物体的图片；

识别模块，用于将所述第一图片输入至检测模型，以使得检测模型输出第一物体的识别信息，其中，所述识别信息包括第一物体对应的第一边框的坐标、第一边框的尺寸和所述第一物体的类别，所述检测模型为对多组样本训练得到的，每组样本包括样本图片和样本识别信息，所述样本图片为多种预设条件下的直播场景的图片，所述样本识别信息包括所述样本图片中所包括的物体的样本边框的坐标、样本边框的尺寸和所述物体的样本类别。

在一种可能的设计中，还包括：训练模块；

所述训练模块，用于在所述将所述第一图片输入至检测模型之前，获取多张样本图片，其中，所述样本图片为实际直播间场景所对应的图片，所述样本图片包括第二物体；

在一种可能的设计中，所述训练模块具体用于：

在一种可能的设计中，所述检测模型为神经网络模型；

在一种可能的设计中，所述训练模块还用于：

在所述将所述样本图片输入至检测模型之前，根据k-means函数确定所述样本图片所对应的预测边框的初始尺寸；以及

获取所述检测模型所对应的模型参数的初始值。

在一种可能的设计中，所述训练模块具体用于：

则所述训练模块具体用于：

判断所述第一损失函数值是否满足第一预设阈值；和/或

判断所述第二损失函数值是否满足第二预设阈值；和/或

判断所述第三损失函数值是否满足第三预设阈值。

第三方面，本申请实施例提供一种物体识别设备，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。

本申请实施例提供一种物体识别方法及装置，该方法包括：获取第一图片，其中，第一图片为包括第一物体的图片。将第一图片输入至检测模型，以使得检测模型输出第一物体的识别信息，其中，识别信息包括第一物体对应的第一边框的坐标、第一边框的尺寸和第一物体的类别，检测模型为对多组样本训练得到的，每组样本包括样本图片和样本识别信息，样本图片为多种预设条件下的直播场景的图片，样本识别信息包括样本图片中所包括的物体的样本边框的坐标、样本边框的尺寸和物体的样本类别。通过根据多种预设条件下的实际直播场景所对应的样本图片以及样本识别信息进行训练得到检测模型，以使得检测模型可以适应各种直播场景，从而能够有效提升检测模型输出的第一图片的识别信息的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请其中一实施例提供的物体识别方法的流程图一；

图2为本申请其中一实施例提供的物体识别方法的流程图二；

图3-1为本申请实施例提供的边框示意图一；

图3-2为本申请实施例提供的边框示意图二；

图4为本申请实施例提供的检测模型的网络结构示意图；

图5为本申请实施例提供的物体识别装置的结构示意图一；

图6为本申请实施例提供的物体识别装置的结构示意图二；

图7为本申请实施例提供的物体识别设备的硬件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请其中一实施例提供的物体识别方法的流程图一，如图1所示，该方法包括：

S101、获取第一图片，其中，第一图片为包括第一物体的图片。

在本实施例中，第一图片即为需要进行物体识别的图片，第一图片中包括的第一物体例如可以为人，或者还可以为树木、车辆等任意物体，其具体取决于实际的直播场景，本实施例对第一图片中所包括的第一物体不做限制。

在一种可能的实现方式中，例如可以通过获取直播的视频流，并从视频流中定期选择预设数量帧的图片，从而获取第一图片；或者，还可以随机在直播间中进行画面的截取，从而获取第一图片，本实施例中的第一图片可以是直播场景的完整图片，或者还可以是直播场景的部分图片，其中第一图片的数量和具体内容可以根据实际需求进行选择，本实施例对此不做限制。

S102、将第一图片输入至检测模型，以使得检测模型输出第一物体的识别信息，其中，识别信息包括第一物体对应的第一边框的坐标、第一边框的尺寸和第一物体的类别，检测模型为对多组样本训练得到的，每组样本包括样本图片和样本识别信息，样本图片为多种预设条件下的直播场景的图片，样本识别信息包括样本图片中所包括的物体的样本边框的坐标、样本边框的尺寸和物体的样本类别。

具体的，将获取的第一图片输入至检测模型，本实施例中的检测模型是对多组样本进行训练得到的，其中，每组样本中均包括样本图片和样本识别信息，样本图片为在多种预设条件下获取的直播场景的图片，具体的，检测模型对样本图片进行处理，以输出预测识别信息，并根据预测识别信息和样本识别信息进行学习，以实现对模型的训练。

根据上述介绍可以确定的是，本实施例中的检测模型是根据实际的直播场景对应的图片进行训练得到的，其中预设条件可以包括但不限于：高亮度、低亮度、简单背景、复杂背景、物体距离远、物体距离近，具体的预设条件还可以根据实际需求进行选择，例如还可以包括分辨率高、分辨率低等，此处对各种可能的情况不再赘述。

则可以理解的是，因为实际的直播场景本身就是比较多样复杂的，同时本实施例在实际的直播场景所对应的多种预设条件下分别获取多张样本图片，以进行模型的训练，从而使得检测模型能够提前适应各种直播场景，以提高物体识别的准确率。

在本实施例中，检测模型对第一图片进行处理，能够输出第一图片的识别信息，其中，第一图片对应有第一边框，可以理解的是，第一边框是用于指示框选出的第一物体的大小和位置的，对应的，第一图片的识别信息包括第一边框的坐标，此处的坐标是指第一边框在第一图片中的坐标，其例如可任意为第一边框的中心位置的坐标，或者还可以为第一边框的左上角顶点的坐标等，本实施例对此不做限定。

同时，第一图片的识别信息还包括第一边框的尺寸，例如可以为第一边框的长度和宽度，或者在第一边框为正方形边框时，第一边框的尺寸可以仅包括第一边框的宽度。

以及，第一图片的识别信息还包括第一物体的类别，在本实施例中，丢物体的类别为预设类别中的一种，其中，预设类别为根据直播场景所确定的，例如预设内容可以包括但不限于人脸、人的身体、胳膊、货车、小轿车、货车、树木、狗、猫、…等等，可以理解的是，预设类别可以包括可能出现在直播场景中的任一种物体所属的类别。

在一种可能的实现方式中，coco公开数据集中包括80种大分类，例如包括有人、车、动物等，则本实施例可以在上述80种大分类的基础上，进一步根据实际的直播场景进行特征化的细分类，例如可以将人这个类别进一步细分为人脸、身体、胳膊等，例如可以将车辆这个类别进一步细分为货车、小轿车、火车等，本实施例对具体的预设类别不做特别限制，其可以根据实际需求进行选择。

根据第一边框的坐标和尺寸，就可以在第一图片中确定第一物体，并且根据第一物体的类别，就可以具体确定第一物体是什么，进一步地可以针对第一物体进行相应的处理，例如背景虚化、添加动画特效等。

本申请实施例提供的物体识别方法，包括：获取第一图片，其中，第一图片为包括第一物体的图片。将第一图片输入至检测模型，以使得检测模型输出第一物体的识别信息，其中，识别信息包括第一物体对应的第一边框的坐标、第一边框的尺寸和第一物体的类别，检测模型为对多组样本训练得到的，每组样本包括样本图片和样本识别信息，样本图片为多种预设条件下的直播场景的图片，样本识别信息包括样本图片中所包括的物体的样本边框的坐标、样本边框的尺寸和物体的样本类别。通过根据多种预设条件下的实际直播场景所对应的样本图片以及样本识别信息进行训练得到检测模型，以使得检测模型可以适应各种直播场景，从而能够有效提升检测模型输出的第一图片的识别信息的准确率。

在上述实施例的基础上，在将第一图片输入至检测模型之前，首先要完成对检测模型的训练，因此下面结合具体的实施例对本申请中的检测模型的训练过程进行详细介绍，结合图2至图4进行说明，图2为本申请其中一实施例提供的物体识别方法的流程图二，图3-1为本申请实施例提供的边框示意图一，图3-2为本申请实施例提供的边框示意图二，图4为本申请实施例提供的检测模型的网络结构示意图。

如图2所示，该方法包括：

S201、在各个不同的预设条件所对应直播场景下，分别获取多张直播场景的图片。

在本实施例中，样本图片需要从实际的直播场景中获取，则在各个不同的预设条件所对应的直播场景下进行样本图片的获取，其中，在上述实施例中对预设条件进行了说明，此处不再赘述。

在一种可能的实现方式中，可以针对同一个直播间在物体近的情况下选取100张图片，以及在物体远的情况下选取100张图片，可以理解的是，本实施例中的物体距离是指物体相对于拍摄设备的距离，同时，针对这同一个直播间，还可以在背景简单的情况下选取100张图片，在背景复杂的情况下选取100张图片，以及在亮度较高的情况下选取100张图片，在亮度较低的情况下选取100张图片，从而获取了800张直播场景的图片。

或者，选取的直播场景还可以是不同直播间的，例如针对直播间1在物体近的情况下选取30张图片，以及在物体远的情况下选取30张图片…，针对直播间2在物体近的情况下选取20张图片，以及在物体远的情况下选取20张图片…，从而针对不同的直播间选取了多张直播场景。

本实施例对获取的多张直播场景的图片不做特别限制，只要其对应各个不同的预设场景，以及获取的是实际直播间的场景即可，通过在各种预设条件下的直播场景中收集用于模型训练的样本图片，可以全面的覆盖各种直播环境的影响情况。

S202、对获取的多张直播场景的图片分别进行图片增强处理，以得到多张样本图片，其中，图片增强处理至少包括：调节饱和度、调节亮度、调节对比度、左右翻转、旋转预设角度，样本图片包括第二物体。

同时，为了避免光线、角度、距离等因素在物体识别过程中所造成的影响，本实施例中对获取的多张直播场景的图片还进一步进行了图片增强处理，从而得到了样本图片，因此本实施例中的样本图片是图片增强处理之后的图片。

在本实施例中，图片增强处理包括但不限于：调节饱和度、调节亮度、调节对比度、左右翻转、旋转预设角度，其中，调节具体可以为增加，或者还可以为减小，以及预设角度例如可以为0-30度之间的任意角度，本实施例对此不做限制。

在一种可能的实现方式中，可以对多张直播场景的图片进行反复的图片增强处理，例如上述第一种示例中获取了800张直播场景的图片，则针对这800张图片中的每一张随机进行一种图片增强处理，得到第一次图片增强处理后的图片(800张)，接着对第一次图片增强处理后的图片中的每一张再随机进行一种图片增强处理，从而得到第二次图片增强处理后的图片(800)张，重复进行5次图片增强处理，则可以得到4000(800×5)张样本图片。

在本实施例中，对获取的直播场景的图片进行图片增强处理，能够使得后续检测模型针对不同的光线、角度、类型均进行相应的学习，以避免光线、角度、类型对物体识别所造成的影响。

S203、根据k-means函数确定样本图片所对应的预测边框的初始尺寸，以及获取检测模型所对应的模型参数的初始值。

同时，本实施例中根据检测模型进行训练之前，还根据k-means函数确定有样本图片所对应的预测边框的初始尺寸，其中预测边框与上述介绍的第一边框类似，此处不再赘述。

其中，k-means函数是一种迭代求解的聚类分析算法，它会从所在样本集中随机选取k个样本作为簇中心，并计算所有样本与这k个“簇中心”的距离，对于每一个样本，将其划分到与其距离最近的“簇中心”所在的簇中，簇中心以及分配给它们的对象(每一个簇)就代表一个聚类。而每分配一个样本，就需要对新的簇计算各个簇的新的“簇中心”。

具体的，设置有9种边框的尺寸，则根据k-means函数对样本图片进行聚类分析，则对应的设置有9个“簇中心”，接着对于每一个样本图片，将其划分到与其距离最近的“簇中心”所在的簇中，也就对应确定了该样本图片所对应的预测边框的初始尺寸。

值得说明的是，本实施例中k-means函数所确定的预测边框的初始尺寸只是作为一个基础值，其并不一定是正确的，后续的检测模型在当前的预测边框的初始尺寸的基础上，可以进一步计算偏移量，实现对预测边框的初始尺寸的修正，以得到正确的预测边框的尺寸。

因此，在本实施例中，确定预测边框的初始尺寸能够使得检测模型在初始尺寸的基础上进行处理，从而有效提升处理效率，并提升处理的准确率。

同时，可以理解的是，k-means函数仅仅是确定了预测边框的初始尺寸，并没有确定其坐标，因此初始情况下的预测边框的坐标可以是随机指定的。

以及在本实施例中，同时还获取检测模型所对应的模型参数的初始值，其中模型参数可以包括学习率、衰退率等，具体的模型参数取决于具体的检测模型，本实施例对此不做限制。

S204、针对任一张样本图片，将样本图片和预测边框尺寸输入至检测模型，以使得检测模型根据样本图片、预测边框的初始尺寸以及模型参数的初始值进行卷积神经网络处理，并输出第二物体的预测识别信息。

具体的，检测模型需要对样本图片进行处理，本实施例中的检测模型具体为神经网络模型，例如可以为YOLOv3-Tiny，或者YOLOV3等，本文以检测模型是YOLOv3-Tiny为例进行说明，其中，YOLOv3-tiny是一种移动网络结构的高速检测模型，其对物体进行识别响应的时间非常短。

具体的，在YOLOv3-Tiny中，设置有13×13的特征图尺寸，其对应的边框尺寸为(116×90)、(156×198)、(373×326)，同时还设置有26×26的特征图尺寸，其对应的边框尺寸为(30×61)、(62×45)、(59×119)，其中，特征图尺寸越小，对应边框尺寸越大，则边框就较大，此时识别的是较大的物体；特征图尺寸越大，对应边框尺寸越小，则边框就较小，识别的是较小物体。

可以参照图3理解上述介绍，例如图3-1中展示的就是较小的特征图尺寸(13×13)对应的较大的边框301以及302，参见图3-1可以确定的是，较大的边框301针对近距离的较大的物体的识别较为准确。

以及图3-2中展示了较大的特征图尺寸(26×26)对应的较小边框303以及304，参见图3-2可以确定的是，较小的边框304针对远距离的较小的物体的识别较为准确。

然而，因为实际的直播场景较为复杂，仅仅是26×26的特征图尺寸所对应的3个边框不足以实现对较小物体的全部成功识别，因此本申请中在上述介绍的特征图尺寸和边框尺寸的基础上，进一步增加了52×52的特征图尺寸，其中52×52的特征图尺寸所对应的边框的尺寸为10×13、16×30以及33×23，可以看出的是，52×52的特征图尺寸所对应的边框的尺寸是比26×26的特征图尺寸所对应的3个边框的尺寸更小的，从而能够有效增加针对远距离的小物体的识别正确率。

值得说明的是，上述选择的52×52是在保证系统的性能的基础上所选择的尺寸，本领域技术人员当然可以选择更大的特征图尺寸以对应获得更小的边框尺寸，但是这样会导致系统的性能降低。

同时，本实施例中的检测模型具体是根据样本图片、预测边框的初始尺寸以及模型参数的初始值进行卷积神经网络处理，从而输出第二物体的预测识别信息，具体的卷积神经网络处理可以参照现有技术中的实现，本实施例对其详细实现过程不做赘述。

但是需要说明的是，在加入了52×52的特征图尺寸后，因为原本卷积神经网络中提取特征的基础网络层数太少太浅(一共15层)，导致用来提取52×52特征尺寸图对应的边框的网络层太靠近输入端，即边框中采用的52×52特征尺寸图所在的网络层太浅(第7层)，提取的细粒度还不够，特征还未被提取完就进行识别，可能会导致准确率的下降，因此本实施例在YOLOv3-Tiny原本的卷积神经网络的结构的基础上，进一步在YOLO3-Tiny的基础网络上分别增加一层52×52和两层26×26尺寸的卷积层，从而加强特征提取，以提升检测模型的识别准确率。

本实施例中增加了卷积层的YOLO3-Tiny的网络结构可以参照图4。

下面对图4进行简单说明，如图4所示，其中的“covn”为卷积层，“max”为“池化层”，“yolo”为yolo层，“route”为融合层，“upsample”为上采样层，则本实施例中检测模型的网络结构可以如图4所示。

接着对图4中的各项数值进行说明，其中卷积核数量用于指示当前卷积层采用几个卷积核进行卷积，例如0层的卷积核数量为“32”，则表明0层采用32个卷积核进行卷积操作；以及卷积核尺寸中，其中的“3×3/1”的卷积核尺寸为例，其中的“3×3”为卷积核的尺寸，“1”为卷积核的深度；以及输入中的“416×416×3”，其中的“416×416”是指当前图片的尺寸，其中的“3”是指当前图片的深度，输出的各项数值的含义类似，以及其余的的含义可参照上述的介绍，此处不再赘述，同时值得说明的是，图4中的层的“52×52”、“26×26”、“13×13”的含义与上述介绍的特征图尺寸的含义是相同的。

S205、根据第二物体的预测识别信息和样本识别信息，确定检测模型输出的预测识别信息的损失函数值。

上述检测模型会输出第二物体的预测识别信息，在本实施例中，样本中包括有样本的样本识别信息，其中样本识别信息是样本图片中所包括的第二物体的真实的边框尺寸、边框坐标和物体类别，因此根据预测识别信息和样本识别信息可以确定检测模型输出的预测识别信息的损失函数值。

本实施例中，损失函数值包括根据第二物体的预测边框的坐标所确定的第一损失函数值、根据第二物体的预测边框的尺寸所确定的第二损失函数值、根据第二物体的预测类别所确定的第三损失函数值。

下面对三个损失函数值分别进行说明：

根据第二物体的预测边框的坐标和第二物体的样本边框的坐标得到第一损失函数值，如下公式一所示：

其中，lOss_xy为第一损失函数值，λ_coord是一个给定的常数，

表示将样本图片划分的每一个网格单元(i＝0,…,S²)，则i用于表示网格单元，

表示每一个预测边界框(j＝0,…,B)数值的总和，则j用于表示预测边界框，

是判断第i个网格中的第j个边界框是否对当前的被识别目标预测有效，

表示预测边框中心横坐标x_i与样本边框中心横坐标(也就是真实横坐标)

的差方，

表示预测边框中心纵坐标y_i与样本边框中心纵坐标

的差方。

根据第二物体的预测边框的尺寸和第二物体的样本边框的尺寸得到第二损失函数值，如下公式二所示：

其中，

表示预测边框宽度w_i与样本边框的宽度

的差方，

表示预测边框高度h_i与样本边框的高度

的差方。

根据第二物体的预测类别和第二物体的样本类别得到第三损失函数值，如下公式三所示：

其中，∑_c∈classes()表示当前检测模型中所有类别的总和，

表示在第i个网格中的预测边框对应的第二物体(被识别物体)所属类别c概率p_i(c)与样本边框对应的第二物体所属类别c概率

的差方。

根据上述公式一、公式二和公式三，可以分别得到第一损失函数值、第二损失函数值和第三损失函数值。

参照图4可以理解的是，确定检测模型的损失函数值实际上就是图4中的“yolo”层所进行的操作。

S206、判断损失函数值是否满足预设阈值，若是，则执行S207，若否，则执行S204。

参照上述介绍可以理解的是，本实施例中的损失函数值实际上指示的就是预测识别结果和真实的样本识别结果之间的误差，因此本实施例中通过损失函数值来判断检测模型是否训练完成，通常来说损失函数值越趋于0，其误差越小，对应的识别结果就越准确。

在本实施例中，具体有三个损失函数值，则可以针对三个损失函数值分别设置各自对应的预设阈值，其中各自的预设阈值可于相同，也可以不同，本实施例对此不做限制，其可以根据实际需求进行选择。

在本实施例中，可以判断第一损失函数值是否满足第一预设阈值；和/或

判断第二损失函数值是否满足第二预设阈值；和/或

判断第三损失函数值是否满足第三预设阈值。

在一种可能的实现方式中，若对当前检测模型的需求是，需要检测模型准确的识别出图片中的物体的边框位置，而对其边框尺寸的识别和类别的识别不做特殊要求的话，则可以仅判断第一损失函数值是否满足第一预设阈值即可。

在另一种可能的实现方式中，若对当前检测模型的需求时需要准确的识别出物体的类别，则可以仅判断第三损失函数值是否满足第三预设阈值即可。

在再一种可能的实现方式中，若对挡墙检测模型的需求时需要准确的识别出物体的边框位置、大小、以及物体的类别，则针对第一损失函数值、第二损失函数值和第三损失函数值同时根据各自的预设阈值进行判断。

因此，对损失函数值是否满足预设阈值的判断的具体实现方式，是取决于当前对检测模型的需求的，本实施例对此不做限定。

若是损失函数值不满足预设阈值，则需要继续对预测模型进行训练，以执行上述的步骤S204。

参照图4可以理解的是，在19层“yolo”计算损失函数值之后，损失函数值不满足预设阈值，则此时接着进行检测模型的识别训练，及为图4中的20层至25层所做的操作，接下来在26层重新计算损失函数值，若损失函数值满足预设阈值，则此时确定模型训练完成，但是在损失函数值不满足预设阈值是，需要继续进行模型的训练，也就是27层至32层所进行的操作，在33层时重新计算损失函数值，此时可以确定模型训练完成。

S207、确定检测模型训练完成。

具体的，若是损失函数满足预设阈值，则确定检测模型的训练完成，可以根据检测模型对第一图片进行识别，以输出第一物体的识别信息。

本申请实施例提供的物体识别方法，包括：在各个不同的预设条件所对应直播场景下，分别获取多张直播场景的图片。对获取的多张直播场景的图片分别进行图片增强处理，以得到多张样本图片，其中，图片增强处理至少包括：调节饱和度、调节亮度、调节对比度、左右翻转、旋转预设角度，样本图片包括第二物体。根据k-means函数确定样本图片所对应的预测边框的初始尺寸，以及获取检测模型所对应的模型参数的初始值。针对任一张样本图片，将样本图片和预测边框尺寸输入至检测模型，以使得检测模型根据样本图片、预测边框的初始尺寸以及模型参数的初始值进行卷积神经网络处理，并输出第二物体的预测识别信息。根据第二物体的预测识别信息和样本识别信息，确定检测模型输出的预测识别信息的损失函数值。判断损失函数值是否满足预设阈值，若是，则确定检测模型训练完成。通过根据不同预设条件获取到的直播场景的图片进行图片增强处理，以得到用于训练的样本图片，从而使得检测模型可以提前适应各类的直播场景，减少了处理过程中的耗时，以达到提高识别准确率的目的，同时，通过增加52×52的特征图尺寸以及增加响应的卷积层来优化检测模型的网络结构，从而使得检测模型可以适应各种不同的物体大小，并且使用损失函数值来确定预测的识别结果的准确率，能够更加可靠的识别图片中各种物体信息，减少外界因素的影响。

图5为本申请实施例提供的物体识别装置的结构示意图一。如图5所示，该装置50包括：获取模块501以及识别模块502。

获取模块501，用于获取第一图片，其中，所述第一图片为包括第一物体的图片；

识别模块502，用于将所述第一图片输入至检测模型，以使得检测模型输出第一物体的识别信息，其中，所述识别信息包括第一物体对应的第一边框的坐标、第一边框的尺寸和所述第一物体的类别，所述检测模型为对多组样本训练得到的，每组样本包括样本图片和样本识别信息，所述样本图片为多种预设条件下的直播场景的图片，所述样本识别信息包括所述样本图片中所包括的物体的样本边框的坐标、样本边框的尺寸和所述物体的样本类别。

本实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图6为本申请实施例提供的物体识别装置的结构示意图二。如图6所示，本实施例在图5实施例的基础上，还包括：训练模块603。

在一种可能的设计中，所述训练模块603，用于在所述将所述第一图片输入至检测模型之前，获取多张样本图片，其中，所述样本图片为实际直播间场景所对应的图片，所述样本图片包括第二物体；

在一种可能的设计中，所述训练模块603具体用于：

在一种可能的设计中，所述检测模型为神经网络模型；

在一种可能的设计中，所述训练模块603还用于：

获取所述检测模型所对应的模型参数的初始值。

在一种可能的设计中，所述训练模块603具体用于：

则所述训练模块603具体用于：

判断所述第一损失函数值是否满足第一预设阈值；和/或

判断所述第二损失函数值是否满足第二预设阈值；和/或

判断所述第三损失函数值是否满足第三预设阈值。

图7为本申请实施例提供的物体识别设备的硬件结构示意图，如图7所示，本实施例的物体识别设备70包括：处理器701以及存储器702；其中

存储器702，用于存储计算机执行指令；

处理器701，用于执行存储器存储的计算机执行指令，以实现上述实施例中物体识别方法所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。

可选地，存储器702既可以是独立的，也可以跟处理器701集成在一起。

当存储器702独立设置时，该物体识别设备还包括总线703，用于连接所述存储器702和处理器701。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上物体识别设备所执行的物体识别方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种物体识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述第一图片输入至检测模型之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述获取多张样本图片，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述检测模型为神经网络模型；

5.根据权利要求4所述的方法，其特征在于，所述将所述样本图片输入至检测模型之前，所述方法还包括：

获取所述检测模型所对应的模型参数的初始值。

6.根据权利要求5所述的方法，其特征在于，所述将所述样本图片输入至检测模型，以使得检测模型输出第二物体的预测识别信息，包括：

7.根据权利要求2所述的方法，其特征在于，所述损失函数值包括根据第二物体的预测边框的坐标所确定的第一损失函数值、根据第二物体的预测边框的尺寸所确定的第二损失函数值、根据第二物体的预测类别所确定的第三损失函数值；

则判断所述损失函数值是否满足预设阈值，包括：

判断所述第一损失函数值是否满足第一预设阈值；和/或

判断所述第二损失函数值是否满足第二预设阈值；和/或

判断所述第三损失函数值是否满足第三预设阈值。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述识别信息中的类别为预设类别中的一种，所述预设类别为根据直播场景所确定的。

9.一种物体识别装置，其特征在于，包括：

10.一种物体识别设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行如权利要求1至8中任一所述的方法。

11.一种计算机可读存储介质，其特征在于，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至8中任一所述的方法。