CN112232258A

CN112232258A - 一种信息处理方法、装置及计算机可读存储介质

Info

Publication number: CN112232258A
Application number: CN202011161479.9A
Authority: CN
Inventors: 黄超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-01-15

Abstract

本申请实施例公开了一种信息处理方法、装置及计算机可读存储介质，本申请实施例通过获取待检测图像样本，待检测图像样本上标注了尺度小于预设阈值的目标检测对象；提取待检测图像样本对应不同尺度的图像特征；将不同尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征；基于目标图像特征，对待检测图像样本中的目标检测对象的检测模型进行训练，得到用于识别目标检测对象的目标检测模型。以此，在可以共享不同尺度的图像特征的基础上，还可以保留目标检测对象的相关特征，基于融合后的目标图像特征进行训练，极大的提升了目标检测对象的检测效率，进而提升信息处理效率。

Description

一种信息处理方法、装置及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种信息处理方法、装置及计算机可读存储介质。

背景技术

随着互联网技术的飞速发展，智能终端处理器的处理能力也越来越强，从而衍生出很多在大屏幕或超大屏幕上基于人机交互实现操控的应用，例如联机第一人称射击类(First-person shooting game，FPS)游戏，此类游戏可以支持丰富的场景，进行生动的互动娱乐。

现有技术中，在游戏应用中，很多场景下都会用到游戏人工智能(ArtificialIntelligence，AI)，即游戏AI，在人机对战的场景下，需要实时为游戏AI提供敌人的位置，为其行动和对战提供重要的依据，实现游戏AI智能化对战。

在对现有技术的研究和实践过程中，本申请的发明人发现，现有技术中，游戏画面中距离较远的敌人，由于占据游戏画面的区域较小，使得目标检测的识别难度高，信息处理效率差。

发明内容

本申请实施例提供一种信息处理方法、装置及计算机可读存储介质，可以提升信息处理的效率。

为解决上述技术问题，本申请实施例提供以下技术方案：

一种信息处理方法，包括：

获取待检测图像样本，所述待检测图像样本上标注了尺度小于预设阈值的目标检测对象；

提取所述待检测图像样本对应不同尺度的图像特征，所述不同尺度的图像特征为不同的深度层次的卷积层下输出的图像特征；

将不同尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征；

基于所述目标图像特征，对所述待检测图像样本中的目标检测对象的检测模型进行训练，得到用于识别所述目标检测对象的目标检测模型。

一种信息处理装置，包括：

获取单元，用于获取待检测图像样本，所述待检测图像样本上标注了尺度小于预设阈值的目标检测对象；

提取单元，用于提取所述待检测图像样本对应不同尺度的图像特征，所述不同尺度的图像特征为不同的深度层次的卷积层下输出的图像特征；

融合单元，用于将不同尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征；

训练单元，用于基于所述目标图像特征，对所述待检测图像样本中的目标检测对象的检测模型进行训练，得到用于识别所述目标检测对象的目标检测模型。

在一些实施例中，所述融合子单元，用于：

将第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征分别通过预设尺度的卷积层进行转换，以得到转换后的第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征；

将转换后的第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征按照分别对应的预设权重进行特征融合，得到融合后的目标图像特征。

在一些实施例中，所述获取单元，包括：

获取子单元，用于获取预设视频；

截取子单元，用于间隔预设时间段从所述预设视频中截取目标图像；

生成子单元，用于接收对所述目标图像中尺度小于预设阈值的目标检测对象的标注信息，生成待检测图像样本。

在一些实施例中，所述截取子单元，用于：

截取所述预设视频中间隔预设时间段的多个图像；

依次获取多个图像中每一相邻的图像的相似度；

根据所述相似度删除所述多个图像中的冗余图像，得到目标图像。

在一些实施例中，所述采集单元，还包括：

扩展子单元，用于抠取所述待检测图像样本中目标检测对象；

调整所述目标检测对象的显示大小和显示角度，得到扩展目标检测对象；

将所述扩展目标检测对象添加至所述待检测图像样本的预设位置中。

一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行上述信息处理方法中的步骤。

本申请实施例通过获取待检测图像样本，待检测图像样本上标注了尺度小于预设阈值的目标检测对象；提取待检测图像样本对应不同尺度的图像特征；将不同尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征；基于目标图像特征，对待检测图像样本中的目标检测对象的检测模型进行训练，得到用于识别目标检测对象的目标检测模型。以此，在可以共享不同尺度的图像特征的基础上，还可以保留目标检测对象的相关特征，基于融合后的目标图像特征进行训练，极大的提升了目标检测对象的检测效率，进而提升信息处理效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的信息处理系统的场景示意图；

图2是本申请实施例提供的信息处理方法的流程示意图；

图3是本申请实施例提供的信息处理方法的另一流程示意图；

图4a为本申请实施例提供的信息处理方法的产品示意图；

图4b为本申请实施例提供的信息处理方法的另一产品示意图；

图5是本申请实施例提供的信息处理装置的结构示意图；

图6是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种信息处理方法、装置、及计算机可读存储介质。

请参阅图1，图1为本申请实施例所提供的信息处理系统的场景示意图，包括：终端A、和服务器(该信息处理系统还可以包括除终端A之外的其他终端，终端具体个数在此处不作限定)，终端A与服务器之间可以通过通信网络连接，该通信网络，可以包括无线网络以及有线网络，其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。网络中包括路由器、网关等等网络实体，图中并未示意出。终端A可以通过通信网络与服务器进行信息交互，比如终端A通过游戏应用在线将当前图像帧发送至服务器。

该信息处理系统可以包括信息处理装置，该信息处理装置具体可以集成在服务器中，如图1所示，该服务器获取待检测图像样本，该待检测图像样本上标注了尺度小于预设阈值的目标检测对象；提取该待检测图像样本对应不同尺度的图像特征，该不同尺度的图像特征为不同的深度层次的卷积层下输出的；将不同尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征；基于该目标图像特征，对该待检测图像样本中的目标检测对象的检测模型进行训练，得到用于识别该目标检测对象的目标检测模型。基于此，在接收到终端A发送的当前图像帧时，可以通过目标检测模型识别出准确的尺度小于预设阈值的目标检测对象，根据识别的目标检测对象的准确位置可以控制游戏中的游戏AI进行相应的行动。

该信息处理系统中终端A可以安装各种用户需要的应用，比如FPS游戏应用等，终端A可以实时获取当前游戏的当前图像帧，将该当前图像帧发送至服务器，接收服务器反馈的控制指令，根据控制指令指示的目标动作控制游戏AI进行相应的动作，如躲避或者攻击等等。

需要说明的是，图1所示的信息处理系统的场景示意图仅仅是一个示例，本申请实施例描述的信息处理系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着信息处理系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。

在本实施例中，将从信息处理装置的角度进行描述，该信息处理装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的服务器中。

请参阅图2，图2是本申请实施例提供的信息处理方法的流程示意图。该信息处理方法包括：

在步骤101中，获取待检测图像样本。

需要说明的是，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

本申请实施例中的游戏AI，可以是指游戏应用中能够参与的对象，例如，虚拟对象可以为游戏中的人、动物或者其他可以移动的虚拟角色，该游戏AI可以模拟玩家进行行动，例如移动、对战或者其他行为。

需要说明的是，游戏AI的行动的依据为游戏场景的变化，例如在FPS游戏中游戏AI需要实时与敌人进行战斗，那么如何实时检测出敌人的位置尤为重要，在实际的对战场景中，距离较远的敌人，由于占据游戏画面的区域较小，导致图像的细节较少，往往导致游戏AI无法即使进行识别，影响游戏AI的行动。

其中，本申请实施例可以实时采集游戏中相应的待检测图像样本，该待检测图像样本可以为游戏中的图像帧，为了解决上述问题，可以人工在待检测图像样本上标注尺度小于预设阈值的目标检测对象，该目标检测对象即为游戏场景中距离较远的敌人。

在一些实施方式中，该获取待检测图像样本的步骤，可以包括：

(1)获取预设视频；

(2)间隔预设时间段从该预设视频中截取目标图像；

(3)接收对该目标图像中尺度小于预设阈值的目标检测对象的标注信息，生成待检测图像样本。

其中，该预设视频可以为玩家录取的游戏视频样本，该预设视频由多帧游戏对战画面组成，该预设时间段即为采样间隔，例如为2秒或者3秒等等，可以以该采样间隔从游戏视频样本中采样出多个目标图形。

进一步的，该目标图像中可以存在多种距离的检测对象，该预设阈值为判定是否为距离较远的敌人的判定标准，本申请实施例可以对该目标图像中尺度小于预设阈值的目标检测对象进行标注，也可以理解为打标签，标明其左上角的x坐标、y坐标、宽度和高度，生成待检测图像样本。

在一些实施方式中，该间隔预设时间段从该预设视频中截取目标图像的步骤，可以包括：

(1.1)截取该预设视频中间隔预设时间段的多个图像；

(1.2)依次获取多个图像中每一相邻的图像的相似度；

(1.3)根据该相似度删除该多个图像中的冗余图像，得到目标图像。

其中，可以按照采样间隔截取该预设视频中的多个图像，依次获取多个图像中每一相邻的图像的相似度，该相似度可以为整体像素相似度，当该相似度高于预设相似度时，说明相邻的图像之间的相似度较大，在本申请实施例中，将相邻图像中相似度高于预设阈值的图像之一确定为冗余图像，当该相似度不高于预设相似度时，说明相邻的图像之间的相似度不是很大，以此，为了防止后续模型训练过拟合，可以从多个图像中将相邻图像中相似度高于预设阈值的冗余图像删除，得到目标图像，可以提升后续模型训练的效率。

在步骤102中，提取待检测图像样本对应不同尺度的图像特征。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术等技术，具体通过如下实施例进行说明：

其中，可以通过目标检测模型提取待检测图像样本的图像特征，该目标检测模型具有识别待检测图像样本中的物体的能力，例如，该目标检测模型可以为YOLO(You onlylook once)v3模型，该YOLOv3模型具有较好的预测精度。

以此，可以通过目标检测模型中的卷积结构提取待检测图像样本的图像特征，由于该卷积结构可以包含多个卷积层，该卷积层用于提取该待检测图像样本的图像特征，在本申请实施例中，该尺度可以指整体大小的尺寸长度，不同的深度的卷积层提取的特征的细节不同，该卷积层可以通过卷积核不断的图像进行特征提取，即不同深度的卷积层提取的特征深度不同，随着卷积的进行，提取的图像特征的尺度会随着卷积核的提取而不断的变小，刚开始进行卷积的卷积层为低层次的卷积层，随着卷积的进行，卷积层的层次会越来越高，即该低层次的卷积层可以为开始进行卷积处理的卷积层，该中层次的卷积层可以为卷积处理中间过程的卷积层，该高层次的卷积层可以为卷积处理即将结束的卷积层。

低层次的卷积层提取的图像特征的尺度更大，而小尺度的目标检测对象在尺度更大的图像特征上能占据更大的区域，所以能保留更多的目标检测对象相关的特征，中层次的卷积层和高层次的卷积层提取的图像特征的尺度由于不断的进行卷积而逐渐变小，以此随着卷积层的深入，该小尺度的目标检测对象相关的特征会不断的丢失，所以该中层次的卷积层和高层次的卷积层提取的图像特征会损失目标检测对象相关的特征，不利于后续的目标检测对象的识别，可以作为目标检测对象的上下文特征，该上下文特征为目标检测对象附近的背景和轮廓特征等等，该背景特征为目标检测对象附近的背景提取出来的特征，如天空和地面等等，该轮廓特征为目标检测对象的身体和背景之间交界的轮廓提取出来的特征，可以用于辅助目标检测对象的识别。

在一些实施方式中，该提取待检测图像样本在不同的深度层次的卷积层下输出的不同尺度的图像特征的步骤，可以包括：

(1)提取该待检测图像样本在低层次的卷积层下输出的第一尺度的图像特征；

(2)提取该待检测图像样本在中层次的卷积层下输出的第二尺度的图像特征，该第一尺度大于第二尺度；

(3)提取该待检测图像样本在高层次的卷积层下输出的第三尺度的图像特征，该第二尺度大于第三尺度。

其中，为了加快后续的模型的收敛，可以通过Darknet-53卷积结构来提取待检测图像样本的图像特征，该Darknet-53卷积结构为包含53层卷积层的深度网络，不同的深度的卷积层提取的特征的细节不同，例如，可以将1至10层卷积层中任意一层的卷积层确定为低层次的卷积层，将20至30层卷积层中任意一层的卷积层确定为中层次的卷积层，将40-53层卷积层中任意一层的卷积层确定为高层次的卷积层。低层次的卷积层下输出的第一尺度的图像特征，适用于预测小尺度的目标的识别，该中层次的卷积层下输出的第二尺度的图像特征适用于中等尺度的目标的识别，该第一尺度大于该第二尺度，该高层次的卷积层下输出的第三尺度的图像特征适用于大尺度的目标的识别。

在步骤103中，将不同尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征。

其中，低层次的卷积层提取的图像特征能保留更多的目标检测对象相关的特征，所以可以赋予该低层次的卷积层提取的图像特征最大的权重值，中层次的卷积层和高层次的卷积层提取的图像特征由于包含了目标检测对象附近的背景和轮廓特征，因此，可以赋予较小的权重值。

进一步的，可以将低层次的卷积层、中层次的卷积层和高层次的卷积层提取的不同尺度的图像特征按照对应的权重值进行加权之后进行融合，得到融合后的目标图像特征，在一实施方式中，该融合方式可以为将不同尺度的图像特征以对应的预设权重进行比例调整，将比例调整之后的不同尺度的图像特征进行相加实现融合，以此，由于该低层次的卷积层提取的图像特征的权重值最大，使得目标检测对象相关的特征可以尽可能的进行保存的前提下，还增加了目标检测对象的上下文特征，使得目标图像特征对于目标检测对象的表达能力更强，可以提升目标检测模型的目标检测对象的检测效果。

在一些实施方式中，该将不同尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征的步骤，可以包括：

(1)依次计算该第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征分别对应的第一目标注意力特征、第二目标注意力特征和第三目标注意力特征；

(2)根据该第一目标注意力特征确定该第一尺度的图像特征对应的预设权重，根据第一目标注意力特征和第二目标注意力特征的相似度确定第二尺度的图像特征对应的预设权重，以及该第一目标注意力特征和第三目标注意力特征的相似度确定第三尺度的图像特征对应的预设权重；

(3)将第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征按照分别对应的预设权重进行特征融合，得到融合后的目标图像特征。

需要说明的是，计算机视觉中的注意力(visual attention)机制，基本思想就是想让系统学会注意力，该注意力即使得系统可以关注于想要关注的区域，在本申请实施例中，可以让系统学会对目标检测对象的注意力，能够忽略无关信息而关注重点信息，在本申请实施例中，注意力机制可以集中在目标检测对象的特征上，即将目标检测对象的特征可以作为注意力特征。

在本申请实施例中，可以一并参阅如下公式计算注意力特征：

该v_i,j,n代表第i行第j列第n个通道的图像特征值，abs()代表求绝对值，该p_i，j代表图像特征中第i行第j列的像素位置在多个通道对应的特征值之和的绝对值，基于上述公式，服务器依次计算该第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征对应的第一目标注意力特征、第二目标注意力特征和第三目标注意力特征。

进一步的，由于本申请的目标在于对尺度小于预设阈值的目标检测对象的检测，以此，可以将第一尺度的图像特征作为模板，分别计算第二尺度的图像特征和第三尺度的图像特征与该第一尺度的图像特征的相似度。该相似度越大，说明特征越接近，在融合后给第一尺度的图像特征的干扰越低，可以赋予越大的权重值；该相似度越小，说明特征差异越大，在融合后给第一尺度的图像特征的干扰越大，可以赋予越小的权重值；作为模板的第一尺度的图像特征赋予最大的权重值，以此，在确定第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征对应的预设权重之后，将该第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征。

在步骤104中，基于目标图像特征，对待检测图像样本中的目标检测对象的检测模型进行训练，得到用于识别目标检测对象的目标检测模型。

其中，可以基于该融合后的目标图像特征对待检测图像样本中的目标检测对象进行预测，得到目标检测对象的预测矩阵框的位置，该真实矩形框位置为目标检测对象的真实的位置，为用户提前标注的，因此，可以根据目标检测对象的预测矩形框的位置和真实矩形框的位置之间的位置差进行迭代训练，不断优化目标检测模型的模型参数，直至该目标检测模型收敛或者到达一定的迭代次数时，训练完毕，保留目标检测模型的模型参数，得到用于识别目标检测对象的目标检测模型，由于该目标图像特征以预设权重融合了低层次的卷积层、中层次的卷积层和高层次的卷积层提取的不同尺度的图像特征，使得目标检测对象相关的特征可以尽可能的进行保存的前提下，还增加了目标检测对象的上下文特征，可以提升目标检测模型的检测效率和检测准准确性。

由上述可知，本申请实施例通过采集待检测图像样本，待检测图像样本上标注了尺度小于预设阈值的目标检测对象；提取待检测图像样本对应不同尺度的图像特征；将不同尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征；基于目标图像特征，对待检测图像样本中的目标检测对象的检测模型进行训练，得到用于识别目标检测对象的目标检测模型。以此，在可以共享不同尺度的图像特征的基础上，还可以保留目标检测对象的相关特征，基于融合后的目标图像特征进行训练，极大的提升了目标检测对象的检测效率，进而提升信息处理效率。

结合上述实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该信息处理装置具体集成在服务器中为例进行说明，具体参照以下说明。

请参阅图3，图3为本申请实施例提供的信息处理方法的另一流程示意图。该方法流程可以包括：

在步骤201中，服务器获取预设视频。

其中，服务器可以录制或者下载FPS游戏视频作为预设视频，该预设视频由多帧游戏图像组成，可以一并参阅图4a，图4a为本申请实施例提供的信息处理方法的产品示意图，该图4a所示的图像即为一帧游戏图像。

在步骤202中，服务器截取预设视频流中间隔预设时间段的多个图像，依次获取多个图像中每一相邻的图像的相似度，根据相似度删除多个图像中的冗余图像，得到目标图像。

其中，该预设时间段即为采样间隔，例如为2秒，服务器可以截取该预设视频流中间隔2秒一帧的多个图像，在采样完成时，可以依次获取多个图像中每一相邻的图像的相似度，该相似度可以为相邻图像的整体像素相似度，当该相似度高于预设相似度时，说明相邻图像之间的相似度较大，当该相似度不高于预设相似度时，说明相邻图像之间的相似度不是很大，以此，为了防止后续模型训练过拟合，可以从多个图像中将相邻图像中相似度高于预设阈值的冗余图像删除，得到目标图像，提升后续模型训练的效率。

在步骤203中，服务器接收对目标图像中尺度小于预设阈值的目标检测对象的标注信息，生成待检测图像样本。抠取待检测图像样本中目标检测对象，调整目标检测对象的显示大小和显示角度，得到扩展目标检测对象，将扩展目标检测对象添加至待检测图像样本的预设位置中。

其中，请继续参阅图4a所示，该目标图像10中可以存在多种距离的检测对象，该距离指与当前游戏玩家的距离，检测对象与当前游戏玩家的距离越近，检测对象占据的图像区域越大，检测对象与当前游戏玩家的距离越远，检测对象占据的图像区域越小，该预设阈值为判定为否为远距离的检测对象的判定标准，本申请实施例可以对目标图像10中尺度小于预设阈值的目标检测对象11进行标注，标明其左上角的x坐标、y坐标、宽度和高度，生成待检测图像样本，生成待检测图像样本。

进一步的，为了防止目标检测对象的样本数过少，需要增加目标检测对象的数量，在一实施方式中，可以将包含目标检测对象的待检测图像样本进行过采样，即将包含目标检测对象的待检测图像样本复制多份，增加包含目标检测对象的待检测图像样本在整个待检测图像样本中的比例。

在本申请实施例中，请一并参阅图4b，图4b为本申请实施例提供的信息处理方法的另一产品示意图，服务器可以提前对目标检测对象11进行像素级标注，该像素级标注即为将对标检测对象11包含的整个像素进行标注，实现完整且准确的标定，进而可以抠取待检测图像样本中目标检测对象11，随机调整该目标检测对象的显示大小和显示角度，例如在范围百分之90至百分之110之间改变目标检测对象的显示大小，在范围负10度到正10度之间改变目标检测对象的显示角度，得到扩展目标检测对象12，增加目标检测对象的多样性，将扩展目标检测对象12添加至待检测图像样本的预设位置中，该预设位置为待检测图像样本的图像中央区域位置，因为图像中央区域位置一般为地面，出现目标检测对象12为合理的，以此，避免了目标检测对象过少导致模型的鲁棒性较差的问题，通过本申请实施例的扩展，可以使得后续训练的模型的鲁棒性较佳。

在步骤204中，服务器提取待检测图像样本在低层次的卷积层下输出的第一尺度的图像特征，提取待检测图像样本在中层次的卷积层下输出的第二尺度的图像特征，提取待检测图像样本在高层次的卷积层下输出的第三尺度的图像特征。

其中，为了加快后续的模型的收敛速度，服务器可以通过YOLOv3模型中包含的Darknet-53卷积结构提取待检测图像样本在低层次卷积层下输出的第一尺度的图像特征，假设该第一尺度为52乘以52像素。提取待检测图像样本在中层次的卷积层下输出的第二尺度的图像特征，假设该第二尺度为26乘以26像素。提取待检测图像样本在高层次的卷积层下输出的第三尺度的图像特征，假设该第三尺度为13乘以13像素，该第一尺度大于第二尺度，该第二尺度大于第三尺度。

由于不同的深度的卷积层提取的特征的细节不同，低层次的卷积层提取的图像特征的尺度更大，而小尺度的目标检测对象在尺度更大的图像特征上能占据更大的区域，所以能保留更多的目标检测对象相关的特征，中层次的卷积层和高层次的卷积层提取的图像特征的尺度由于不断的进行卷积而逐渐变小，以此随着卷积层的深入，该小尺度的目标检测对象相关的特征会不断的丢失，所以该中层次的卷积层和高层次的卷积层提取的图像特征会损失目标检测对象相关的特征，不利于后续的目标检测对象的识别，可以作为目标检测对象的上下文特征，可以用于辅助目标检测对象的识别。

在步骤205中，服务器获取第一尺度的图像特征中每一像素位置在多个通道对应的第一特征值，统计第一特征值之和的第一绝对值，获取第二尺度的图像特征中每一像素位置在多个通道对应的第二特征值，统计第二特征值之和的第二绝对值，获取第三尺度的图像特征中每一像素位置在多个通道对应的第三特征值，统计第三特征值之和的第三绝对值

需要说明的是，假设将第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征直接进行融合，不考虑不同尺度的特征之间的权重，融合后会导致小尺度的目标检测对象相关的特征损失，使得后续的目标检测效果降低。

请一并参阅如下公式：

该v_i,j,n代表第i行第j列第n个通道的图像特征值，abs()代表求绝对值，该p_i，j代表图像特征中第i行第j列的像素位置在多个通道对应的特征值之和的绝对值，基于上述公式，服务器获取该第一尺度的图像特征中每一像素位置在多个通道对应的第一特征值，统计该第一特征值之和的第一绝对值；获取该第二尺度的图像特征中每一像素位置在多个通道对应的第二特征值，统计该第二特征值之和的第二绝对值；获取该第三尺度的图像特征中每一像素位置在多个通道对应的第三特征值，统计该第三特征值之和的第三绝对值，该第一绝对值、第二绝对值和第三绝对值代表了第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征的像素分布规律。

在步骤206中，服务器分别对第一绝对值、第二绝对值和第三绝对值进行归一化处理，得到第一目标注意力特征、第二目标注意力特征和第三目标注意力特征。

其中，请一并参阅如下公式：

该

代表第第i行第j列的注意力特征的值，该H代表图像特征的高，该W代表图像特征的宽，基于上述公式，服务器分别对第一绝对值、第二绝对值和第三绝对值进行归一化处理，得到第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征对应的第一目标注意力特征、第二目标注意力特征和第三目标注意力特征。

在步骤207中，服务器将第二目标注意力特征和第三目标注意力特征的尺度缩放至与第一目标注意力特征相同的尺度，计算第一目标注意力特征和缩放后的第二目标注意力特征的第一余弦相似度，计算第一目标注意力特征和缩放后的第三目标注意力特征的第二余弦相似度，计算第一目标注意力特征和第一目标注意力特征的第三余弦相似度。

其中，该余弦相似度又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度，在本申请实施例中用于评判注意力特征之间的相似性，为了方便计算不同的注意力特征的余弦相似度的比对，可以将第二目标注意力特征和第三目标注意力特征的尺度缩放至与第一目标注意力特征相同的尺度52乘52像素。

进一步的，为了便于计算余弦相似度，可以将52乘52像素的注意力特征拉成一个2704维的向量。

请一并参阅如下公式：

该a_i为第一目标注意力特征的中的第i维的向量，该b_i为第二目标注意力特征或第三目标注意力特征中第i维的向量，该D(a，b)为余弦相似度，由于后续主要识别小尺度的目标检测对象，所以将第一目标注意力特征作为模板，基于上述公式，分别计算第一目标注意力特征与缩放后的第二目标注意力特征的第一余弦相似度以及第一目标注意力特征与缩放后的第三目标注意力特征之间的第二余弦相似度，并且计算该第一目标注意力特征和第一目标注意力特征的第三余弦相似度。

在步骤208中，服务器根据第一余弦相似度、第二余弦相似度和第三余弦相似度确定第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征分别对应的预设权重。

其中，该相似度越大，说明特征越接近，在融合后给第一尺度的图像特征的干扰越低，可以赋予越大的权重值，该相似度越小，说明特征差异越大，在融合后给第一尺度的图像特征的干扰越大，可以赋予越小的权重值，作为模板的第一尺度的图像特征与第一目标注意力特征完全相同，以此，赋予最大的权重值。

在一实施方式中，可以一并参阅如下公式：

该w代表权重，w的上标从(1、2、3)取值，分别对应第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征对应的预设权重，该exp()代表自然常数e为底的指数函数，Dⁱ代表对应第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征对应的预设权重与第一尺度的图像特征之间的余弦相似度。通过这样处理后，权重之和为1，以此，实现作为模板的第一尺度的图像特征赋予最大的权重值，该第二尺度的图像特征和第三尺度的图像特征的预设权重的变化会根据与第一尺度的图像特征的余弦相似度而实时变化，实现第二尺度的图像特征和第三尺度的图像特征的预设权重根据余弦相似度进行动态调整。

在步骤209中，服务器将第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征分别通过预设尺度的卷积层进行转换，以得到转换后的第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征，将转换后的第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征。

其中，服务器为了将不同的图像特征进行特征融合，可以将第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征分别通过预设尺度1乘1像素的卷积层转换到相同的通道数，该通道数可以为512，在通道数相同之后，将转换后的第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征，根据预设权重进行融合，使得目标检测对象相关的特征可以尽可能的进行保存的前提下，还灵活的增加了目标检测对象的上下文特征，使得目标图像特征对于目标检测对象的表达能力更强，可以提升目标检测模型的目标检测对象的检测效果。

在步骤210中，服务器基于目标图像特征，对待检测图像样本中的目标检测对象的检测模型进行训练，得到用于识别目标检测对象的目标检测模型。

其中，可以通过yoloV3模型所用的损失函数进行训练，该类别损失函数如下：

该，该N为目标候选框的数量，该目标候选框也可以称为预测候选框，C是类别的数量，假设该类别为1和2，类别为1代表预测类别为人物，类别为2代表预测类别为背景，L_cls为类别损失值，y_i,k标明预测目标矩形框i内是否是第k个类别，代表真实的类别标签，y'_i,k是预测目标矩形框i是第k个类别的打分，以此，根据上述类别损失函数，可以使得模型不断优化目标检测模型的类别判别模型参数。

请继续参阅如下公式，该预测框损失函数如下：

该L_loc代表预测框损失值，该g_i是第i个真实的目标位置，x_i是预测目标矩形框i对应的图像区域，b_i是候选框的位置。模型预测的是位置的偏差值，根据上述预测框损失函数，可以使得模型不断优化目标检测模型的预测框模型参数，基于上述类别损失函数和预测框损失函数进行迭代训练，得到用于识别目标检测对象的目标检测模型。

为便于更好的实施本申请实施例提供的信息处理方法，本申请实施例还提供一种基于上述信息处理方法的装置。其中名词的含义与上述信息处理方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图5，图5为本申请实施例提供的信息处理装置的结构示意图，其中该信息处理装置可以包括采集单元301、提取单元302、融合单元303以及训练单元304等。

采集单元301，用于获取待检测图像样本，该待检测图像样本上标注了尺度小于预设阈值的目标检测对象。

在一些实施方式中，该采集单元301，包括：

获取子单元，用于获取预设视频；

截取子单元，用于间隔预设时间段从该预设视频中截取目标图像；

生成子单元，用于接收对该目标图像中尺度小于预设阈值的目标检测对象的标注信息，生成待检测图像样本。

在一些实施例中，该截取子单元，用于：

截取该预设视频中间隔预设时间段的多个图像；

依次获取多个图像中每一相邻的图像的相似度；

根据该相似度删除该多个图像中的冗余图像，得到目标图像。

在一些实施例中，该采集单元，还包括：

扩展子单元，用于抠取该待检测图像样本中目标检测对象；

调整该目标检测对象的显示大小和显示角度，得到扩展目标检测对象；

将该扩展目标检测对象添加至该待检测图像样本的预设位置中。

提取单元302，用于提取该待检测图像样本对应不同尺度的图像特征，该不同尺度的图像特征为不同的深度层次的卷积层下输出的图像特征。

在一些实施方式中，该提取单元302，用于：

提取该待检测图像样本在低层次的卷积层下输出的第一尺度的图像特征；

提取该待检测图像样本在中层次的卷积层下输出的第二尺度的图像特征，该第一尺度大于第二尺度；

提取该待检测图像样本在高层次的卷积层下输出的第三尺度的图像特征，该第二尺度大于第三尺度。

融合单元303，用于将不同尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征。

在一些实施方式中，该融合单元303，包括：

计算子单元，用于依次计算该第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征分别对应的第一目标注意力特征、第二目标注意力特征和第三目标注意力特征；

确定子单元，用于根据该第一目标注意力特征确定该第一尺度的图像特征对应的预设权重，根据第一目标注意力特征和第二目标注意力特征的相似度确定第二尺度的图像特征对应的预设权重，以及该第一目标注意力特征和第三目标注意力特征的相似度确定第三尺度的图像特征对应的预设权重；

融合子单元，用于将第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征按照分别对应的预设权重进行特征融合，得到融合后的目标图像特征。

在一些实施方式中，该计算子单元，用于：

获取该第一尺度的图像特征中每一像素位置在多个通道对应的第一特征值，统计该第一特征值之和的第一绝对值；

获取该第二尺度的图像特征中每一像素位置在多个通道对应的第二特征值，统计该第二特征值之和的第二绝对值；

获取该第三尺度的图像特征中每一像素位置在多个通道对应的第三特征值，统计该第三特征值之和的第三绝对值；

分别对该第一绝对值、第二绝对值和第三绝对值进行归一化处理，得到第一目标注意力特征、第二目标注意力特征和第三目标注意力特征。

在一些实施方式中，该确定子单元，用于：

将第二目标注意力特征和第三目标注意力特征的尺度缩放至与该第一目标注意力特征相同的尺度；

计算该第一目标注意力特征和缩放后的第二目标注意力特征的第一余弦相似度；

计算该第一目标注意力特征和缩放后的第三目标注意力特征的第二余弦相似度；

计算该第一目标注意力特征和第一目标注意力特征的第三余弦相似度；

根据该第一余弦相似度、第二余弦相似度和第三余弦相似度确定该第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征分别对应的预设权重。

在一些实施例中，该融合子单元，用于：

训练单元304，用于基于该目标图像特征，对该待检测图像样本中的目标检测对象的检测模型进行训练，得到用于识别该目标检测对象的目标检测模型。

以上各个单元的具体实施可参见前面的实施例，在此不再赘述。

由上述可知，本申请实施例通过采集单元301获取待检测图像样本，待检测图像样本上标注了尺度小于预设阈值的目标检测对象；提取单元302提取待检测图像样本对应不同尺度的图像特征；融合单元303将不同尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征；训练单元304基于目标图像特征，对待检测图像样本中的目标检测对象的检测模型进行训练，得到用于识别目标检测对象的目标检测模型。以此，在可以共享不同尺度的图像特征的基础上，还可以保留目标检测对象的相关特征，基于融合后的目标图像特征进行训练，极大的提升了目标检测对象的检测效率，进而提升信息处理效率。

本申请实施例还提供一种计算机设备，如图6所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；可选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，可选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现前述实施例提供的各种方法步骤，如下：

获取待检测图像样本，该待检测图像样本上标注了尺度小于预设阈值的目标检测对象；提取该待检测图像样本对应不同尺度的图像特征，该不同尺度的图像特征为不同的深度层次的卷积层下输出的图像特征；将不同尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征；基于该目标图像特征，对该待检测图像样本中的目标检测对象的检测模型进行训练，得到用于识别该目标检测对象的目标检测模型。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对信息处理方法的详细描述，此处不再赘述。

由上述可知，本申请实施例的计算机设备可以通过获取待检测图像样本，待检测图像样本上标注了尺度小于预设阈值的目标检测对象；提取待检测图像样本对应不同尺度的图像特征；将不同尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征；基于目标图像特征，对待检测图像样本中的目标检测对象的检测模型进行训练，得到用于识别目标检测对象的目标检测模型。以此，在可以共享不同尺度的图像特征的基础上，还可以保留目标检测对象的相关特征，基于融合后的目标图像特征进行训练，极大的提升了目标检测对象的检测效率，进而提升信息处理效率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种信息处理方法中的步骤。例如，该指令可以执行如下步骤：

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种信息处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种信息处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种信息处理方法、装置及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种信息处理方法，其特征在于，包括：

2.根据权利要求1所述的信息处理方法，其特征在于，所述包括：提取所述待检测图像样本对应不同尺度的图像特征的步骤，包括：

提取所述待检测图像样本在低层次的卷积层下输出的第一尺度的图像特征；

提取所述待检测图像样本在中层次的卷积层下输出的第二尺度的图像特征，所述第一尺度大于第二尺度；

提取所述待检测图像样本在高层次的卷积层下输出的第三尺度的图像特征，所述第二尺度大于第三尺度。

3.根据权利要求2所述的信息处理方法，其特征在于，所述将不同尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征的步骤，包括：

依次计算所述第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征分别对应的第一目标注意力特征、第二目标注意力特征和第三目标注意力特征；

根据所述第一目标注意力特征确定所述第一尺度的图像特征对应的预设权重，根据第一目标注意力特征和第二目标注意力特征的相似度确定第二尺度的图像特征对应的预设权重，以及所述第一目标注意力特征和第三目标注意力特征的相似度确定第三尺度的图像特征对应的预设权重；

将第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征按照分别对应的预设权重进行特征融合，得到融合后的目标图像特征。

4.根据权利要求3所述的信息处理方法，其特征在于，所述依次计算所述第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征分别对应的第一目标注意力特征、第二目标注意力特征和第三目标注意力特征的步骤，包括：

获取所述第一尺度的图像特征中每一像素位置在多个通道对应的第一特征值，统计所述第一特征值之和的第一绝对值；

获取所述第二尺度的图像特征中每一像素位置在多个通道对应的第二特征值，统计所述第二特征值之和的第二绝对值；

获取所述第三尺度的图像特征中每一像素位置在多个通道对应的第三特征值，统计所述第三特征值之和的第三绝对值；

分别对所述第一绝对值、第二绝对值和第三绝对值进行归一化处理，得到第一目标注意力特征、第二目标注意力特征和第三目标注意力特征。

5.根据权利要求3所述的信息处理方法，其特征在于，所述根据所述第一目标注意力特征确定所述第一尺度的图像特征对应的预设权重，根据第一目标注意力特征和第二目标注意力特征的相似度确定第二尺度的图像特征对应的预设权重，以及所述第一目标注意力特征和第三目标注意力特征的相似度确定第三尺度的图像特征对应的预设权重的步骤，包括：

将第二目标注意力特征和第三目标注意力特征的尺度缩放至与所述第一目标注意力特征相同的尺度；

计算所述第一目标注意力特征和缩放后的第二目标注意力特征的第一余弦相似度；

计算所述第一目标注意力特征和缩放后的第三目标注意力特征的第二余弦相似度；

计算所述第一目标注意力特征和第一目标注意力特征的第三余弦相似度；

根据所述第一余弦相似度、第二余弦相似度和第三余弦相似度确定所述第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征分别对应的预设权重。

6.根据权利要求3所述的信息处理方法，其特征在于，所述将第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征按照预设权重进行特征融合，得到融合后的目标图像特征的步骤，包括：

7.根据权利要求1至6任一项所述的信息处理方法，其特征在于，所述获取待检测图像样本的步骤，包括：

获取预设视频；

间隔预设时间段从所述预设视频中截取目标图像；

接收对所述目标图像中尺度小于预设阈值的目标检测对象的标注信息，生成待检测图像样本。

8.根据权利要求7所述的信息处理方法，其特征在于，所述间隔预设时间段从所述预设视频中截取目标图像的步骤，包括：

截取所述预设视频中间隔预设时间段的多个图像；

依次获取多个图像中每一相邻的图像的相似度；

9.根据权利要求7所述的信息处理方法，其特征在于，所述生成待检测图像样本的步骤之后，还包括：

抠取所述待检测图像样本中目标检测对象；

10.一种信息处理装置，其特征在于，包括：

11.根据权利要求10所述的信息处理装置，其特征在于，所述提取单元，用于：

12.根据权利要求11所述的信息处理装置，其特征在于，所述融合单元，包括：

计算子单元，用于依次计算所述第一尺度的图像特征、第二尺度的图像特征和第三尺度的图像特征分别对应的第一目标注意力特征、第二目标注意力特征和第三目标注意力特征；

确定子单元，用于根据所述第一目标注意力特征确定所述第一尺度的图像特征对应的预设权重，根据第一目标注意力特征和第二目标注意力特征的相似度确定第二尺度的图像特征对应的预设权重，以及所述第一目标注意力特征和第三目标注意力特征的相似度确定第三尺度的图像特征对应的预设权重；

13.根据权利要求12所述的信息处理装置，其特征在于，所述计算子单元，用于：

14.根据权利要求12所述的信息处理装置，其特征在于，所述确定子单元，用于：

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至9任一项所述的信息处理方法中的步骤。