CN115988229A

CN115988229A - 一种图像识别方法及装置

Info

Publication number: CN115988229A
Application number: CN202211463548.0A
Authority: CN
Inventors: 高志华; 段新法
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-04-18

Abstract

本申请提供了一种图像识别方法及装置。获取在直播场景中的第一直播图像的第一像素信息，获取在直播场景中的位于第一直播图像之前的第二直播图像的第二像素信息。若第一像素信息与第二像素信息之间的差异信息小于预设差异，确定第一直播图像不是敏感图像。本申请的确定直播图像是否不是敏感图像的方式耗费的计算资源低于使用深度神经网络的识别模型确定直播图像是否是敏感图像耗费的计算资源，通过耗费的计算资源更低的方式在直播场景中的多个直播图像中筛选出不是敏感图像的直播图像，之后对剩余的图像再使用深度神经网络的识别模型确定其是否是敏感图像，可以节省识别直播场景中的直播图像是否是敏感图像的过程中整体耗费的计算资源。

Description

一种图像识别方法及装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像识别方法及装置。

背景技术

随着技术的飞速发展，各种直播呈现爆炸式增长，例如购物直播、交友直播以及游戏直播等。

然而，随着直播越来越普遍且引流能力越来越高，有些不法分子会在直播中掺杂非法内容，以获取非法利益。

例如，在直播场景中，会有主播来主持直播，为了获取非法利益，有些主播在直播场景中会执行敏感的行为，导致直播场景中具有敏感的内容，敏感的内容包括非法的内容等，敏感的内容通过直播传播后会污染网络环境，扰乱社会治安。

发明内容

本申请示出了一种图像识别方法及装置。

第一方面，本申请示出了一种图像识别方法，所述方法包括：

获取在直播场景中的第一直播图像的第一像素信息，以及，获取在所述直播场景中的位于所述第一直播图像之前的第二直播图像的第二像素信息；

获取所述第一像素信息与所述第二像素信息之间的差异信息；

在所述差异信息小于预设差异的情况下，确定所述第一直播图像不是敏感图像。

在一个可选的实现方式中，所述第一像素信息中包括所述第一直播图像中的第一像素点的像素值，所述第二像素信息中包括所述第二直播图像中的第二像素点的像素值；

所述获取所述第一像素信息与所述第二像素信息之间的差异信息，包括：

对所述第一直播图像中的任意一个第一像素点，获取所述第一像素点在所述第一直播图像中的像素位置，以及，查找所述第二直播图像中的位于所述像素位置的第二像素点，获取所述第一像素点的像素值与查找到的第二像素点的像素值之间的差异信息，得到所述第一像素点对应的差异信息；

根据所述第一直播图像中的各个第一像素点分别对应的差异信息获取所述第一像素信息与所述第二像素信息之间的差异信息。

在一个可选的实现方式中，所述获取所述第一像素点的像素值与查找到的第二像素点的像素值之间的差异信息，包括：

计算所述第一像素点的像素值与查找到的第二像素点的像素值之间的差值的绝对值；

或者，

计算所述第一像素点的像素值与查找到的第二像素点的像素值中的较大的像素值与较少的像素值之间的比值。

在一个可选的实现方式中，所述根据所述第一直播图像中的各个第一像素点分别对应的差异信息获取所述第一像素信息与所述第二像素信息之间的差异信息，包括：

汇总所述第一直播图像中的各个第一像素点分别对应的差异信息，得到所述第一像素信息与所述第二像素信息之间的差异信息。

在一个可选的实现方式中，所述第二直播图像为多个；

获取所述第一像素信息分别与各个第二直播图像的第二像素信息之间的差异信息；

以及，所述在所述差异信息小于预设差异的情况下，确定所述第一直播图像不是敏感图像，包括：

在所述第一像素信息分别与各个第二直播图像的第二像素信息之间的差异信息均小于预设差异的情况下，确定所述第一直播图像不是敏感图像。

在一个可选的实现方式中，所述获取在直播场景中的第一直播图像的第一像素信息，包括：

获取目标位置区域，所述目标位置区域包括所述直播场景中的对象在直播图像中所在的位置区域；获取在所述直播场景中的所述第一直播图像的所述目标位置区域内的第一像素信息；

以及，所述获取所述直播场景中的位于所述第一直播图像之前的第二直播图像的第二像素信息，包括：

获取目标位置区域，所述目标位置区域包括所述直播场景中的对象在直播图像中所在的位置区域；获取在所述直播场景中的所述第二直播图像的所述目标位置区域内的第二像素信息。

在一个可选的实现方式中，所述获取所述直播场景中的位于所述第一直播图像之前的第二直播图像的第二像素信息，包括：

获取所述直播场景中的位于所述第一直播图像之前、且与所述第一直播图像相邻的第二直播图像的第二像素信息。

第二方面，本申请示出了一种图像识别装置，所述装置包括：

第一获取模块，用于获取在直播场景中的第一直播图像的第一像素信息，以及，第二获取模块，用于获取在所述直播场景中的位于所述第一直播图像之前的第二直播图像的第二像素信息；

第三获取模块，用于获取所述第一像素信息与所述第二像素信息之间的差异信息；

确定模块，用于在所述差异信息小于预设差异的情况下，确定所述第一直播图像不是敏感图像。

所述第三获取模块包括：

第一获取单元，用于对所述第一直播图像中的任意一个第一像素点，获取所述第一像素点在所述第一直播图像中的像素位置，以及，查找单元，用于查找所述第二直播图像中的位于所述像素位置的第二像素点，第二获取单元，用于获取所述第一像素点的像素值与查找到的第二像素点的像素值之间的差异信息，得到所述第一像素点对应的差异信息；

第三获取单元，用于根据所述第一直播图像中的各个第一像素点分别对应的差异信息获取所述第一像素信息与所述第二像素信息之间的差异信息。

在一个可选的实现方式中，所述第二获取单元包括：

第一计算子单元，用于计算所述第一像素点的像素值与查找到的第二像素点的像素值之间的差值的绝对值；

或者，

第二计算子单元，用于计算所述第一像素点的像素值与查找到的第二像素点的像素值中的较大的像素值与较少的像素值之间的比值。

在一个可选的实现方式中，所述第三获取单元包括：

汇总子单元，用于汇总所述第一直播图像中的各个第一像素点分别对应的差异信息，得到所述第一像素信息与所述第二像素信息之间的差异信息。

在一个可选的实现方式中，所述第二直播图像为多个；

所述第三获取模块包括：

第四获取单元，用于获取所述第一像素信息分别与各个第二直播图像的第二像素信息之间的差异信息；

以及，所述确定模块包括：

确定单元，用于在所述第一像素信息分别与各个第二直播图像的第二像素信息之间的差异信息均小于预设差异的情况下，确定所述第一直播图像不是敏感图像。

在一个可选的实现方式中，所述第一获取模块包括：

第五获取单元，用于获取目标位置区域，所述目标位置区域包括所述直播场景中的对象在直播图像中所在的位置区域；第六获取单元，用于获取在所述直播场景中的所述第一直播图像的所述目标位置区域内的第一像素信息；

以及，所述第二获取模块包括：

第七获取单元，用于获取目标位置区域，所述目标位置区域包括所述直播场景中的对象在直播图像中所在的位置区域；第八获取单元，用于获取在所述直播场景中的所述第二直播图像的所述目标位置区域内的第二像素信息。

在一个可选的实现方式中，所述第二获取模块包括：

第九获取单元，用于获取所述直播场景中的位于所述第一直播图像之前、且与所述第一直播图像相邻的第二直播图像的第二像素信息。

第三方面，本申请示出了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行如前述的任一方面所示的方法。

第四方面，本申请示出了一种非临时性计算机可读存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如前述的任一方面所示的方法。

第五方面，本申请示出了一种计算机程序产品，当计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行如前述的任一方面所示的方法。

与现有技术相比，本申请包括以下优点：

在本申请中，获取在直播场景中的第一直播图像的第一像素信息，以及，获取在直播场景中的位于第一直播图像之前的第二直播图像的第二像素信息。获取第一像素信息与第二像素信息之间的差异信息。在差异信息小于预设差异的情况下，确定第一直播图像不是敏感图像。本申请通过耗费的计算资源更低的方式在直播场景中的多个直播图像中筛选出不是敏感图像的直播图像，之后对剩余的图像再使用深度神经网络的识别模型确定其是否是敏感图像，经过实验统计，本申请的确定直播图像是否不是敏感图像的方式耗费的计算资源更低，且低于使用深度神经网络的识别模型确定直播图像是否是敏感图像耗费的计算资源，如此可以减少使用深度神经网络的识别模型识别的直播图像的数量，这样可以降低深度神经网络的识别模型的计算量，进而可以节省识别直播场景中的直播图像是否是敏感图像的过程中整体耗费的计算资源。

附图说明

图1是本申请一示例性实施例示出的一种场景示意图。

图2是本申请一示例性实施例示出的一种图像识别方法的流程示意图。

图3是本申请一示例性实施例示出的一种图像识别装置的结构框图。

图4是本申请一示例性实施例示出的一种装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

其中，敏感的行为包括非法的行为等，非法的行为包括动作执行幅度较大的一些行为等。敏感的内容包括非法的内容等，非法的内容包括具有动作执行幅度较大的一些行为的内容等。

为了净化网络环境，稳定社会治安，在一种方式中，可以分别监测直播场景中各个直播图像中是否是敏感图像，敏感图像中具有敏感的内容。在确定出直播场景中的至少一帧直播图像是敏感图像的情况下，说明直播场景中涉及敏感的行为，可以及时停止直播，例如，可以通过直播平台的服务端停止主播继续直播，且可以对主播惩罚，禁止主播之后再次直播等，以避免之后继续污染网络环境以及避免继续扰乱社会治安。

其中，对于直播场景中的任意一帧直播图像，可以使用基于深度神经网络的识别模型识别该图像是否是敏感图像。对于直播场景中的每一帧直播图像，同样如此。

然而，发明人发现：在同一时间段中的直播有很多，直播的数量往往是千级别或者万级别或者十万级别等，每一个直播中包括的直播图像更是海量的，这样，在对同一时间段内的各个直播中的各个直播图像分别使用深度神经网络的识别模型识别其是否是敏感图像的过程而言，整体的计算量是非常大的，会耗费非常大的计算资源。

如此，提出了节省识别直播场景中的直播图像是否是敏感图像的过程中耗费的计算资源的需求。

为了实现节省识别直播场景中的直播图像是否是敏感图像的过程中耗费的计算资源的目的，发明人对上述方式进行了分析，并发现：深度神经网络的识别模型的一个主要功能是在直播场景中的各个直播图像中识别出敏感图像，例如，对于单一的直播图像而言，深度神经网络的识别模型的一个主要功能是对直播图像处理，以确定出其是否是直播图像，也即，假设一个直播图像实际为敏感图像，则深度神经网络的识别模型的功能是识别出这一个直播图像为敏感图像。

如此，在直播场景中的多个直播图像中，若能够提前使用耗费计算资源更低的方式来确定某些直播图像很大概率上不是敏感图像，则可以在直播场景中的多个直播图像去除这些直播图像，然后对剩余的直播图像再使用深度神经网络的识别模型识别其是否是敏感图像。

例如，可以在同一时间段内的各个直播中的各个直播图像中使用耗费计算资源更低的方式来初步筛选不是敏感图像的直播图像，然后在同一时间段内的各个直播中的各个直播图像中去除不是敏感图像的直播图像，然后对剩余的直播图像再使用深度神经网络的识别模型识别其是否是敏感图像。

这样，就可以减少使用深度神经网络的识别模型识别的直播图像的数量，如此可以降低深度神经网络的识别模型的计算量。

另外，针对初步筛选出的不是敏感图像的直播图像，是使用的耗费计算资源更低的方式对其识别，而不是使用深度神经网络的识别模型对其识别，耗费计算资源更低的方式耗费的计算资源低于深度神经网络的识别模型耗费的计算资源，如此，进而可以节省识别直播场景中的直播图像是否是敏感图像的过程中整体耗费的计算资源。

其中，以一个场景对本申请进行举例说明，参见图1，在直播场景中的多个直播图像中，先提前使用耗费计算资源更低的方式来确定不是敏感图像的直播图像，以将直播场景中的多个直播图像划分为两部分，一部分为不是敏感图像的直播图像，另一部分为未确定出是否是敏感图像的直播图像。然后使用深度神经网络的识别模型对另一部分图像识别，以将另一部分图像划分为两部分，一部分为不是敏感图像，另一部分为是敏感图像。

具体地，参见图2，示出了本申请的一种图像识别方法的流程示意图，该方法应用于电子设备中，电子设备包括终端或服务端。

终端可以包括手机、平板电脑、笔记本电脑或台式电脑等。

在一个实施例中，终端也可以包括主播使用的终端，主播可以使用终端进行直播。

在该实施例中，在直播场景中，终端可以录制主播的直播视频，直播视频中包括多帧直播图像，且可以实时显示直播图像，以及，还可以将直播图像传输至服务端。

服务端可以将直播图像转发至广大观众使用的终端。服务端可以包括直播平台的服务端等。

观众的终端可以接收直播图像并播放直播图像，以供观众观看。

在另一个实施例中，终端可以包括广大观众使用的终端，观众可以使用终端观看直播等。

如此，在直播场景中，终端(包括主播的终端以及观众的终端等)以及服务端(包括直播平台的服务端等)均可以得到直播场景中的直播图像，如此，终端(包括主播的终端以及观众的终端等)以及服务端(包括直播平台的服务端等)均可以执行如下实施例的流程，以确定出不是敏感图像的直播图像。

其中，该方法包括：

在步骤S101中，获取在直播场景中的第一直播图像的第一像素信息，以及，获取在直播场景中的位于第一直播图像之前的第二直播图像的第二像素信息。

在本申请中，在直播场景中，主播的终端可以录制直播视频，直播视频中包括多帧直播图像，直播图像中可以包括主播，例如，直播视频中的至少部分直播图像中具有主播等。

对于直播视频中的第2帧直播图像或位于第2帧以后的任意一帧直播图像，可以通过本申请的方式提前确定该直播图像是否不是敏感图像，在确定出该图像不是敏感图像的情况下，则可以将该图像过滤掉，例如，之后不再使用深度神经网络的识别模型进一步地识别该图像是否是敏感图像。或者，在未确定出该图像不是敏感图像的情况下，则可以不将该图像过滤掉，也即，之后可以再使用深度神经网络的识别模型进一步地识别该图像是否是敏感图像。

对于直播视频中的第2帧直播图像或位于第2帧以后的任意一帧直播图像，每当需要通过本申请的方式提前确定该直播图像是否不是敏感图像时，可以将该直播图像看作第一直播图像，如此，在本申请中，以直播视频中的第2帧直播图像或位于第2帧以后的任意一帧直播图像为第一直播图像为例进行举例说明，但不作为对本申请保护范围的限制。

其中，在一个实施例中，在获取直播场景中的位于第一直播图像之前的第二直播图像的第二像素信息时，可以获取直播场景中的位于第一直播图像之前、且与第一直播图像相邻的第二直播图像的第二像素信息，例如，可以将位于第一直播图像之前、且与第一直播图像相邻的图像确定为第二直播图像，然后获取第二直播图像的第二像素信息。

或者，在另一个实施例中，在获取直播场景中的位于第一直播图像之前的第二直播图像的第二像素信息时，可以获取直播场景中的位于第一直播图像之前、且与第一直播图像间隔至少一帧直播图像的第二直播图像的第二像素信息。例如，可以先在直播场景中的位于第一直播图像之前、且与第一直播图像间隔至少一帧直播图像的直播图像中选择(例如随机选择等)一帧图像，作为第二直播图像，然后获取第二直播图像的第二像素信息。

在本申请中，第一直播图像的第一像素信息可以包括第一直播图像中的第一像素点的像素值等，以及，第二直播图像的第二像素信息可以包括第二直播图像中的第二像素点的像素值等。例如，在一个实施例中，第一直播图像的第一像素信息可以包括第一直播图像中的各个第一像素点的像素值等。第二直播图像的第二像素信息可以包括第二直播图像中的各个第二像素点的像素值等。

第一直播图像可以包括实时获取到的图像，或者，还可以包括以预设时间间隔为周期获取到的图像，或者，还可以包括任意的需要进行检测的图像等，本申请对此不做限制。

预设时间间隔可以根据实际情况而设置，本申请对此不加以限定。

在步骤S102中，获取第一像素信息与第二像素信息之间的差异信息。

在本申请一个实施例中，第一直播图像中包括多个像素点，可以看作多个第一像素点，第二直播图像中也包括多个像素点，可以看作多个第二像素点。

第一像素信息中包括第一直播图像中的各个第一像素点的像素值，以及，第二像素信息中包括第二直播图像中的各个第二像素点的像素值。

如此，可以获取第一直播图像以及第二直播图像中的位置相同的像素点的像素值之间的差异信息；然后可以根据各个位置相同的像素点的像素值之间的差异信息，获取第一像素信息与第二像素信息之间的差异信息。

例如，对于第一直播图像中的任意一个第一像素点，可以获取该第一像素点在第一直播图像中的像素位置(第一直播图像中的各个第一像素点分别在第一直播图像中具有各自的像素位置)，以及，可以查找第二直播图像中的位于该像素位置的第二像素点，然后可以获取该第一像素点的像素值与查找到的该第二像素点的像素值之间的差异信息，得到该第一像素点对应的差异信息。

其中，在直播场景中，直播视频中的各个直播视频的尺寸可以不变，也即，直播场景中的各个直播图像中的分辨率是相同的，如此，对于第一直播图像中的任意一个第一像素点，该第一像素点在第一直播图像中具有自己的像素位置，该像素位置可以为在第一直播图像中的坐标等，由于第一直播图像分辨率与第二直播图像的分辨率相同，如此，在第二直播图像中也具有该像素位置，且第二直播图像中的该像素位置中也具有一个第二像素点，从而可以查找到第二直播图像中的位于该像素位置的第二像素点。

其中，在获取该第一像素点的像素值与查找到的该第二像素点的像素值之间的差异信息时，可以计算该第一像素点的像素值与查找到的该第二像素点的像素值之间的差值的绝对值，并作为该第一像素点的像素值与查找到的该第二像素点的像素值之间的差异信息。或者，可以计算该第一像素点的像素值与查找到的该第二像素点的像素值中的较大的像素值与较少的像素值之间的比值，并作为该第一像素点的像素值与查找到的该第二像素点的像素值之间的差异信息。

对于第一直播图像中的其他每一个第一像素点，同样如此。

然后可以根据第一直播图像中的各个第一像素点分别对应的差异信息获取第一像素信息与第二像素信息之间的差异信息。

例如，在一个实施例中，可以汇总第一直播图像中的各个第一像素点分别对应的差异信息，得到第一像素信息与第二像素信息之间的差异信息。

例如，在一个例子中，在计算各个第一像素点的像素值分别与各自对应的第二像素点的像素值之间的差值的绝对值的情况下，可以对计算得到的各个绝对值汇总，得到第一像素信息与第二像素信息之间的差异信息。例如，可以将计算得到的各个绝对值求和，得到第一像素信息与第二像素信息之间的差异信息。或者，可以将计算得到的各个绝对值求和，得到一数值，然后计算第一直播图像中的像素点的数量，再计算该数值与该数量之间的比值(实现归一化)，并作为第一像素信息与第二像素信息之间的差异信息。

或者，在另一个例子中，在计算各个第一像素点的像素值分别与各自对应的第二像素点的像素值中的较大的像素值与较少的像素值之间的比值的情况下，可以将计算得到的各个比值汇总，得到第一像素信息与第二像素信息之间的差异信息。例如，可以将计算得到的各个比值求和，得到第一像素信息与第二像素信息之间的差异信息。或者，可以将计算得到的各个比值求和，得到一数值，然后计算第一直播图像中的像素点的数量，再计算该数值与该数量之间的比值(实现归一化)，并作为第一像素信息与第二像素信息之间的差异信息。

在步骤S103中，在差异信息小于预设差异的情况下，确定第一直播图像不是敏感图像。

在本申请中，敏感图像包括：具有违法违规的内容的图像等，违法违规的内容可以包括敏感的内容，也可以包括不雅内容和不合规内容等，不合规内容包括不符合直播平台的规范的内容等，直播平台的规范可以根据实际需求设置等，本申请对此不加以限定。

例如，在一个例子中，在直播的场景中，主播在直播的过程中执行了敏感的动作，执行了敏感的动作之后可能出现敏感的内容，进而导致直播图像中可能具有敏感的内容，这属于违法违规的情况，导致直播图像为敏感图像。

其中，在执行敏感的动作的情形中，主播的动作幅度往往较大，例如主播的手、胳膊、头、脖子、躯干、腿以及脚等的动作幅度往往较大等。

因此，可以得出，在主播的动作幅度较大的情况下，可能是主播在执行敏感的动作，从而导致直播图像中具有敏感的内容，进而导致直播图像是敏感图像。

相应地，在主播的动作幅度较小的情况下，主播往往不是在执行敏感的动作，直播图像中往往不会出现因执行敏感的动作而引起的敏感的内容，直播图像可能不是敏感图像。

其中，在主播的动作幅度较大的情况下，由于动作是连续的且持续一段时间，如此，直播视频中的直播图像会持续变化，另外，通过对历史的大量直播视频的分析，可以发现，直播图像的变化程度往往较大，例如，不同的直播图像的像素信息之间的差异信息较大。

相应地，在主播的动作幅度较小的情况下，由于动作是连续的且持续一段时间，如此，直播视频中的直播图像会持续变化，另外，通过对历史的大量直播视频的分析，可以发现，即使直播图像持续变化，但是直播图像的变化程度往往较小，例如，不同的直播图像的像素信息之间的差异信息较小。

以及，在主播未执行动作的情况下，直播视频中的直播图像不会持续变化，不同的直播图像的像素信息之间的差异信息可以忽略不计(例如差异信息为0等)。

如此，基于此原理，可以通过两个直播图像的像素信息之间的差异信息确定直播图像是否不是敏感图像。

例如，在两个直播图像的像素信息之间的差异信息较小的情况下，可以确定两个直播图像中的时间顺序靠后的直播图像不是敏感图像。

或者，在两个直播图像的像素信息之间的差异信息较大的情况下，可能是由于主播执行了幅度大的动作(可能会导致直播图像中出现敏感的内容)等导致两个直播图像的像素信息之间的差异信息较大，也可能是由于主播执行了其他动作(并不会导致直播图像中出现敏感的内容)等导致两个直播图像的像素信息之间的差异信息较大，因此，此时不能准确确定两个直播图像中的时间顺序靠后的直播图像不是敏感图像，此时也不能准确确定出两个直播图像中的时间顺序靠后的直播图像是敏感图像，也即，两个直播图像中的时间顺序靠后的直播图像可能是敏感图像，也可能不是敏感图像，如此，需要对两个直播图像中的时间顺序靠后的直播图像进行进一步更精确的识别，以确定出两个直播图像中的时间顺序靠后的直播图像是否是敏感图像，例如，使用深度神经网络的识别模型确定两个直播图像中的时间顺序靠后的直播图像是否是敏感图像等。

如此，在本步骤中，可以根据第一像素信息与第二像素信息之间的差异信息确定第一直播图像是否不是敏感图像。例如，比较“第一像素信息与第二像素信息之间的差异信息”与预设差异之间的大小关系。

其中，预设差异可以是事先根据经验统计出的，具体数值可以根据实际情况而定，本申请对此不加以限定。

在第一像素信息与第二像素信息之间的差异信息小于预设差异的情况下，可以确定第一直播图像不是敏感图像。

或者，在第一像素信息与第二像素信息之间的差异信息大于或等于预设差异的情况下，并不确定第一直播图像不是敏感图像，也即，此时无法准确确定出第一直播图像是否不是敏感图像。

另外，发明人又对历史的大量直播视频的分析，并发现，对于在历史直播场景中出现过的一些历史敏感图像中的任意一帧历史敏感图像，该帧历史敏感图像的像素信息与“在历史直播场景中的位于该帧历史敏感图像之前的其他帧历史敏感图像”之间的差异信息小于预设差异，如此，可能存在一种情况，通过图2所示实施例可能会将实际是敏感图像的直播图像确定为不是敏感图像，导致确定错误的情况发生。

如此，为了尽可能地避免将实际是敏感图像的直播图像确定为不是敏感图像，在图2所示的实施例的基础之上，在本申请另一实施例中，第二直播图像为多个。例如，第二直播图像可以包括位于第一直播图像之前的连续多帧历史直播图像，或者还可以包括位于第一直播图像之前的间隔采样的多帧历史直播图像等。

如此，在获取第一像素信息与第二像素信息之间的差异信息时，可以获取第一像素信息分别与各个第二直播图像的第二像素信息之间的差异信息。

以及，在“在差异信息小于预设差异的情况下，确定第一直播图像不是敏感图像”时，可以在第一像素信息分别与各个第二直播图像的第二像素信息之间的差异信息均小于预设差异的情况下，确定第一直播图像不是敏感图像。

通过本申请，经过第一直播图像的第一像素信息分别与多个第二直播图像的第二像素信息之间的差异信息来确定第一直播图像是否不是敏感图像，从而可以尽可能地避免将实际是敏感图像的直播图像确定为不是敏感图像，进而可以提高确定的准确率。

在本申请中，在直播场景中具有主播，有时候直播会经常坐着与观众进行语言对话，而很少移动主播的位置，经过对历史的大量直播视频的分析，可以发现：若主播执行了敏感行为，则会导致涉及敏感行为的直播图像是敏感图像，若主播未执行敏感行为，则一般不会导致直播图像为敏感图像。

如此，在一种常见的情形中，直播图像是否是敏感图像与主播的息息相关，且直播图像是否是敏感图像与主播以外的内容往往无关，例如，主播以外的内容对图像是否是敏感图像产生的影响往往很小，可以忽略不计等。

另外，发明人发现，在直播场景中的直播图像中，主播仅仅占据了直播图像中的一部分区域，另外还有很多区域并不会被主播占据。

如此，在获取在直播场景中的第一直播图像的第一像素信息中，在一种方式中，可以获取第一直播图像的各个像素点的像素值。

但是，经上述分析，直播场景中的直播图像中的非主播所在的区域的像素信息对确定直播图像是否不是敏感图像的作用较小，在作用较小的情况下，若还对直播场景中的直播图像中的非主播所在的区域的像素信息进行计算，则不仅浪费时间，还会浪费电子设备的系统资源(例如计算资源等，计算资源可以包括内存以及中央处理器等)。

因此，在确定直播图像是否不是敏感图像时，直播场景中的直播图像中的非主播所在的区域的像素信息对确定直播图像是否不是敏感图像的作用较小，可以不对直播场景中的直播图像中的非主播所在的区域的像素信息进行计算，可以对直播场景中的直播图像中的主播所在的区域的像素信息进行计算，从而可以减少计算量，提高确定直播图像是否不是敏感图像效率，以及，节省电子设备的系统资源。

其中，为了在确定直播图像是否不是敏感图像时，可以不对直播场景中的直播图像中的非主播所在的区域的像素信息进行计算，可以对直播场景中的直播图像中的主播所在的区域的像素信息进行计算，在本申请一个实施例中，在获取在直播场景中的第一直播图像的第一像素信息时，可以获取目标位置区域，目标位置区域包括直播场景中的对象在直播图像中所在的位置区域，然后获取在直播场景中的第一直播图像的目标位置区域内的第一像素信息。

其中，目标位置区域的尺寸小于直播图像的尺寸，也即，目标位置区域中包括的像素点的数量小于直播图像中的像素点的数量。

目标位置区域可以是事先根据经验确定出的，例如事先确定出的直播场景中的对象在直播图像中经常所在的位置区域等，其可以是人工统计出的，也可以是对直播场景中的前若干帧直播图像自动进行对象识别之后确定出的等。

例如，针对某一主播，在该主播的历史过程中的直播中，该主播往往位于直播图像中的某一位置区域，则该位置区域为针对该主播的位置区域，也即，为该主播的目标位置区域，事先可以记录该主播与针对该主播的位置区域之间的绑定关系。

如此，在直播场景为该主播正在直播的场景(可以通过对主播的人脸识别来确定主播的身份信息)的情况下，可以根据该绑定关系获取针对该主播的位置区域，并作为目标位置区域。

另外，在获取直播场景中的位于第一直播图像之前的第二直播图像的第二像素信息时，可以获取目标位置区域，目标位置区域包括直播场景中的对象在直播图像中所在的位置区域，然后获取在直播场景中的第二直播图像的目标位置区域内的第二像素信息。

其中，对象可以包括人物等，任务可以包括主播等。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作并不一定是本申请所必须的。

参照图3，示出了本申请的一种图像识别装置的结构框图，所述装置包括：

第一获取模块11，用于获取在直播场景中的第一直播图像的第一像素信息，以及，第二获取模块12，用于获取在所述直播场景中的位于所述第一直播图像之前的第二直播图像的第二像素信息；

第三获取模块13，用于获取所述第一像素信息与所述第二像素信息之间的差异信息；

确定模块14，用于在所述差异信息小于预设差异的情况下，确定所述第一直播图像不是敏感图像。

所述第三获取模块包括：

在一个可选的实现方式中，所述第二获取单元包括：

或者，

在一个可选的实现方式中，所述第三获取单元包括：

在一个可选的实现方式中，所述第二直播图像为多个；

所述第三获取模块包括：

以及，所述确定模块包括：

在一个可选的实现方式中，所述第一获取模块包括：

以及，所述第二获取模块包括：

在一个可选的实现方式中，所述第二获取模块包括：

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instruct ions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个的方法。本申请实施例中，电子设备包括服务器、网关、子设备等，子设备为物联网设备等设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括服务器(集群)、终端设备如IoT设备等电子设备。

图4示意性地示出了可被用于实现本申请中的各个实施例的示例性装置1300。

对于一个实施例，图4示出了示例性装置1300，该装置具有一个或多个处理器1302、被耦合到(一个或多个)处理器1302中的至少一个的控制模块(芯片组)1304、被耦合到控制模块1304的存储器1306、被耦合到控制模块1304的非易失性存储器(NVM)/存储设备1308、被耦合到控制模块1304的一个或多个输入/输出设备1310，和被耦合到控制模块1304的网络接口1312。

处理器1302可包括一个或多个单核或多核处理器，处理器1302可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置1300能够作为本申请实施例中网关等服务器设备。

在一些实施例中，装置1300可包括具有指令1314的一个或多个计算机可读介质(例如，存储器1306或NVM/存储设备1308)和与该一个或多个计算机可读介质相合并被配置为执行指令1314以实现模块从而执行本公开中的动作的一个或多个处理器1302。

对于一个实施例，控制模块1304可包括任意适当的接口控制器，以向(一个或多个)处理器1302中的至少一个和/或与控制模块1304通信的任意适当的设备或组件提供任意适当的接口。

控制模块1304可包括存储器控制器模块，以向存储器1306提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器1306可被用于例如为装置1300加载和存储数据和/或指令1314。对于一个实施例，存储器1306可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器1306可包括双倍数据速率四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块1304可包括一个或多个输入/输出控制器，以向NVM/存储设备1308及(一个或多个)输入/输出设备1310提供接口。

例如，NVM/存储设备1308可被用于存储数据和/或指令1314。NVM/存储设备1308可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备1308可包括在物理上作为装置1300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备1308可通过网络经由(一个或多个)输入/输出设备1310进行访问。

(一个或多个)输入/输出设备1310可为装置1300提供接口以与任意其他适当的设备通信，输入/输出设备1310可以包括通信组件、拼音组件、传感器组件等。网络接口1312可为装置1300提供接口以通过一个或多个网络通信，装置1300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置1300可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置1300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置1300包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

本申请实施例提供了一种电子设备，包括：一个或多个处理器；和，其上存储有指令的一个或多个机器可读介质，当由一个或多个处理器执行时，使得电子设备执行如本申请中一个或多个的方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、和流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程信息处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程信息处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程信息处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例和落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种图像识别方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一像素信息中包括所述第一直播图像中的第一像素点的像素值，所述第二像素信息中包括所述第二直播图像中的第二像素点的像素值；

3.根据权利要求2所述的方法，其特征在于，所述获取所述第一像素点的像素值与查找到的第二像素点的像素值之间的差异信息，包括：

或者，

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一直播图像中的各个第一像素点分别对应的差异信息获取所述第一像素信息与所述第二像素信息之间的差异信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述第二直播图像为多个；

6.根据权利要求1所述的方法，其特征在于，所述获取在直播场景中的第一直播图像的第一像素信息，包括：

7.根据权利要求1所述的方法，其特征在于，所述获取所述直播场景中的位于所述第一直播图像之前的第二直播图像的第二像素信息，包括：

8.一种图像识别装置，其特征在于，所述装置包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，处理器执行程序时实现如权利要求1至7中任一项的方法的步骤。

10.一种计算机可读存储介质，其特征在于，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如权利要求1至7中任一项的方法的步骤。