CN108229267A

CN108229267A - 对象属性检测、神经网络训练、区域检测方法和装置

Info

Publication number: CN108229267A
Application number: CN201611246395.9A
Authority: CN
Inventors: 邵婧; 闫俊杰
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2018-06-29
Anticipated expiration: 2036-12-29
Also published as: CN108229267B; WO2018121690A1

Abstract

本发明实施例提供了一种对象属性检测方法、装置和电子设备，一种神经网络训练方法、装置和电子设备，以及，一种区域检测方法、装置和电子设备。其中，对象属性检测方法包括：将待检图像输入到注意力Attention神经网络中进行区域检测，获得所述待检图像中与目标的对象属性相关联的至少一个局部区域；将所述待检图像和所述至少一个局部区域输入到属性分类神经网络中进行属性检测，获得所述待检图像的对象属性信息。通过本发明实施例，经过训练的Attention神经网络可以准确检测出图像中目标所在区域，针对该区域进行有针对性的属性检测，可以获得较为精确的目标的对象属性信息。

Description

对象属性检测、神经网络训练、区域检测方法和装置

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种对象属性检测方法、装置和电子设备，一种神经网络训练方法、装置和电子设备，以及，一种区域检测方法、装置和电子设备。

背景技术

卷积神经网络是用于计算机视觉和模式识别的一个重要的研究领域，它通过计算机仿照生物大脑思维启发进行类似人类对特定对象的信息处理。通过卷积神经网络，能够有效地进行对象检测和识别。随着互联网技术的发展，信息量的急剧增加，卷积神经网络被越来越广泛地应用于对象检测及识别领域，以从大量的信息中寻找出实际所需的信息。

经过训练的卷积神经网络虽然能够进行目标检测和识别，但目前还不能进行目标的属性的检测和识别。

发明内容

本发明实施例提供了一种对象属性检测方案、神经网络训练方案，以及，一种区域检测方案。

根据本发明实施例的第一方面，提供了一种对象属性检测方法，包括：将待检图像输入到注意力Attention神经网络中进行区域检测，获得所述待检图像中与目标的对象属性相关联的至少一个局部区域；将所述待检图像和所述至少一个局部区域输入到属性分类神经网络中进行属性检测，获得所述待检图像的对象属性信息。

可选地，所述方法还包括：在所述待检图像中显示所述对象属性信息。

可选地，当所述目标图像为人物图像时，所述目标区域包括以下至少之一：头部、上身、下身、足部、手部；和/或，当所述目标图像为车辆图像时，所述目标区域包括以下至少之一：车辆牌号区域、车辆标志区域、车身区域。

可选地，所述待检图像包括静态图像或视频图像。

可选地，所述视频图像包括视频监控中的行人图像和/或车辆图像。

可选地，在将待检图像输入到Attention神经网络中进行区域检测之前，所述方法还包括：使用训练样本图像和辅助分类网络，将所述Attention神经网络训练为用于检测图像中的目标区域的神经网络。

可选地，所述使用训练样本图像和辅助分类网络，将所述Attention神经网络训练为用于检测图像中的目标区域的神经网络，包括：将训练样本图像输入到注意力Attention神经网络中进行区域训练，获得候选目标区域的概率信息；根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本；将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息；所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息；根据所述准确度信息调整所述Attention神经网络的网络参数。

可选地，将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息，包括：将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，通过所述辅助分类网络的损失函数，获得所述图像样本中，所述候选目标区域的属性信息的损失值，其中，所述损失函数根据所述目标区域的属性信息确定；根据获得的所述损失值，确定所述图像样本中的候选目标区域的回报值，所述回报值为所述准确度信息。

可选地，根据获得的所述损失值，确定所述图像样本中的候选目标区域的回报值为所述准确度信息，包括：对所有图像样本的各个候选目标区域的损失值求平均，获得平均值；根据所述平均值和获得的所述损失值的关系，确定所述图像样本中的候选目标区域的回报值。

可选地，根据所述平均值和获得的所述损失值的关系，确定所述图像样本中的候选目标区域的回报值，包括：若获得的所述损失值满足设定标准，则将所述损失值对应的候选目标区域的回报值设置为第一回报值；否则，将所述损失值对应的候选目标区域的回报值设置为第二回报值。

可选地，根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本，包括：确定所述候选目标区域的概率值对应的多项式分布；根据所述多项式分布，对所述训练样本图像进行候选目标区域采样，获取采样后的图像样本。

可选地，所述Attention神经网络为全卷积神经网络。

可选地，所述方法还包括：采用训练完成的所述Attention神经网络检测所述训练样本图像，获得所述训练样本图像的目标区域；使用所述训练样本图像、每个所述训练样本图像的目标区域、和每个所述目标区域的属性信息训练属性分类神经网络。

根据本发明实施例的第二方面，提供了一种神经网络训练方法，包括：将训练样本图像输入到注意力Attention神经网络中进行区域训练，获得候选目标区域的概率信息；根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本；将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息；所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息；根据所述准确度信息调整所述Attention神经网络的参数。

可选地，所述Attention神经网络为全卷积神经网络。

根据本发明实施例的第三方面，提供了一种区域检测方法，包括：获取待检测的目标图像，其中，所述目标图像包括静态图像或视频图像；采用Attention神经网络检测所述目标图像，获得所述目标图像的目标区域；其中，所述Attention神经网络采用如第二方面所述的方法训练而得。

可选地，当所述目标图像为人物图像时，所述目标区域包括以下至少之一：头部、上身、下身、足部、手部；当所述目标图像为车辆图像时，所述目标区域包括以下至少之一：车辆牌号区域、车辆标志区域、车身区域。

可选地，所述视频图像包括视频监控中的行人图像或车辆图像。

根据本发明实施例的第四方面，提供了一种对象属性检测装置，包括：第一获取模块，用于将待检图像输入到注意力Attention神经网络中进行区域检测，获得所述待检图像中与目标的对象属性相关联的至少一个局部区域；第二获取模块，用于将所述待检图像和所述至少一个局部区域输入到属性分类神经网络中进行属性检测，获得所述待检图像的对象属性信息。

可选地，所述装置还包括：显示模块，用于在所述待检图像中显示所述对象属性信息。

可选地，所述待检图像包括静态图像或视频图像。

可选地，所述装置还包括：第一训练模块，用于在所述第一获取模块将待检图像输入到Attention神经网络中进行区域检测之前，使用训练样本图像和辅助分类网络，将所述Attention神经网络训练为用于检测图像中的目标区域的神经网络。

可选地，所述第一训练模块包括：第三获取模块，用于将训练样本图像输入到注意力Attention神经网络中进行区域训练，获得候选目标区域的概率信息；第四获取模块，用于根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本；第五获取模块，用于将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息；所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息；第一参数调整模块，用于根据所述准确度信息调整所述Attention神经网络的网络参数。

可选地，所述第五获取模块包括：第一损失获取模块，用于将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，通过所述辅助分类网络的损失函数，获得所述图像样本中，所述候选目标区域的属性信息的损失值，其中，所述损失函数根据所述目标区域的属性信息确定；第一回报获取模块，用于根据获得的所述损失值，确定所述图像样本中的候选目标区域的回报值，所述回报值为所述准确度信息。

可选地，所述第一回报获取模块，用于对所有图像样本的各个候选目标区域的损失值求平均，获得平均值；根据所述平均值和获得的所述损失值的关系，确定所述图像样本中的候选目标区域的回报值。

可选地，所述第一回报获取模块，用于对所有图像样本的各个候选目标区域的损失值求平均，获得平均值；若获得的所述损失值满足设定标准，则将所述损失值对应的候选目标区域的回报值设置为第一回报值；否则，将所述损失值对应的候选目标区域的回报值设置为第二回报值。

可选地，所述第四获取模块，用于确定所述候选目标区域的概率值对应的多项式分布；根据所述多项式分布，对所述训练样本图像进行候选目标区域采样，获取采样后的图像样本。

可选地，所述Attention神经网络为全卷积神经网络。

可选地，所述装置还包括：第二训练模块，用于采用训练完成的所述Attention神经网络检测所述训练样本图像，获得所述训练样本图像的目标区域；使用所述训练样本图像、每个所述训练样本图像的目标区域、和每个所述目标区域的属性信息训练属性分类神经网络。

根据本发明实施例的第五方面，提供了一种神经网络训练装置，包括：第六获取模块，用于将训练样本图像输入到注意力Attention神经网络中进行区域训练，获得候选目标区域的概率信息；第七获取模块，用于根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本；第八获取模块，用于将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息；所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息；第二参数调整模块，用于根据所述准确度信息调整所述Attention神经网络的参数。

可选地，所述第八获取模块，包括：第二损失获取模块，用于将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，通过所述辅助分类网络的损失函数，获得所述图像样本中，所述候选目标区域的属性信息的损失值，其中，所述损失函数根据所述目标区域的属性信息确定；第二回报获取模块，用于根据获得的所述损失值，确定所述图像样本中的候选目标区域的回报值，所述回报值为所述准确度信息。

可选地，所述第二回报获取模块，用于对所有图像样本的各个候选目标区域的损失值求平均，获得平均值；根据所述平均值和获得的所述损失值的关系，确定所述图像样本中的候选目标区域的回报值。

可选地，所述第二回报获取模块，用于对所有图像样本的各个候选目标区域的损失值求平均，获得平均值；若获得的所述损失值满足设定标准，则将所述损失值对应的候选目标区域的回报值设置为第一回报值；否则，将所述损失值对应的候选目标区域的回报值设置为第二回报值。

可选地，所述第七获取模块，用于确定所述候选目标区域的概率值对应的多项式分布；根据所述多项式分布，对所述训练样本图像进行候选目标区域采样，获取采样后的图像样本。

可选地，所述Attention神经网络为全卷积神经网络。

可选地，所述装置还包括：第三训练模块，用于采用训练完成的所述Attention神经网络检测所述训练样本图像，获得所述训练样本图像的目标区域；使用所述训练样本图像、每个所述训练样本图像的目标区域、和每个所述目标区域的属性信息训练属性分类神经网络。

根据本发明实施例的第六方面，提供了一种区域检测装置，包括：第九获取模块，用于获取待检测的目标图像，其中，所述目标图像包括静态图像或视频图像；第十获取模块，用于采用Attention神经网络检测所述目标图像，获得所述目标图像的目标区域；其中，所述Attention神经网络采用如第五方面所述的装置训练而得。

根据本发明实施例的第七方面，提供了一种电子设备，包括：第一处理器、第一存储器、第一通信元件和第一通信总线，所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信；所述第一存储器用于存放至少一可执行指令，所述可执行指令使所述第一处理器执行如第一方面所述的对象属性检测方法对应的操作。

根据本发明实施例的第八方面，提供了一种电子设备，包括：第二处理器、第二存储器、第二通信元件和第二通信总线，所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信；所述第二存储器用于存放至少一可执行指令，所述可执行指令使所述第二处理器执行如第二方面所述的神经网络训练方法对应的操作。

根据本发明实施例的第九方面，提供了一种电子设备，包括：第三处理器、第三存储器、第三通信元件和第三通信总线，所述第三处理器、所述第三存储器和所述第三通信元件通过所述第三通信总线完成相互间的通信；所述第三存储器用于存放至少一可执行指令，所述可执行指令使所述第二处理器执行如第三方面所述的区域检测方法对应的操作。

根据本发明实施例的第十方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于将待检图像输入到注意力Attention神经网络中进行区域检测，获得所述待检图像中与目标的对象属性相关联的至少一个局部区域的可执行指令；用于将所述待检图像和所述至少一个局部区域输入到属性分类神经网络中进行属性检测，获得所述待检图像的对象属性信息的可执行指令。

根据本发明实施例的第十一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于将训练样本图像输入到注意力Attention神经网络中进行区域训练，获得候选目标区域的概率信息的可执行指令；用于根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本的可执行指令；用于将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息的可执行指令；所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息；用于根据所述准确度信息调整所述Attention神经网络的参数的可执行指令。

根据本发明实施例的第十二方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于获取待检测的目标图像的可执行指令，其中，所述目标图像包括静态图像或视频图像；用于采用Attention神经网络检测所述目标图像，获得所述目标图像的目标区域的可执行指令；其中，所述Attention神经网络采用如第二方面所述的方法训练而得。

根据本发明实施例提供的技术方案，使用Attention神经网络(注意力神经网络)进行待检图像中目标的区域检测，进而将Attention神经网络检测出的图像区域输入属性分类神经网络进行目标的属性检测，获得相应的对象属性信息。经过训练的Attention神经网络可以准确检测出图像中目标所在区域，针对该区域进行有针对性的属性检测，可以获得较为精确的目标的对象属性信息。

附图说明

图1是根据本发明实施例一的一种对象属性检测方法的步骤流程图；

图2是根据本发明实施例二的一种对象属性检测方法的步骤流程图；

图3是根据本发明实施例三的一种神经网络训练方法的步骤流程图；

图4是根据本发明实施例四的一种区域检测方法的步骤流程图；

图5是根据本发明实施例五的一种对象属性检测装置的结构框图；

图6是根据本发明实施例六的一种神经网络训练装置的结构框图；

图7是根据本发明实施例七的一种区域检测装置的结构框图；

图8是根据本发明实施例八的一种电子设备的结构示意图；

图9是根据本发明实施例九的一种电子设备的结构示意图；

图10是根据本发明实施例十的一种电子设备的结构示意图。

具体实施方式

下面结合附图(若干附图中相同的标号表示相同的元素)和实施例，对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

实施例一

参照图1，示出了根据本发明实施例一的一种对象属性检测方法的步骤流程图。

本实施例的对象属性检测方法包括以下步骤：

步骤S102：将待检图像输入到Attention神经网络中进行区域检测，获得待检图像中与目标的对象属性相关联的至少一个局部区域。

其中，待检图像中目标的对象属性均为预先设定的待检测属性，例如，对待检图像中的人脸属性的检测，包括但不限于：有无戴眼镜，有无戴帽子，有无戴口罩；再例如，对待检图像中的车辆属性的检测，包括但不限于：车辆颜色、样式、车牌号码等。

在实际应用中，所述Attention神经网络应用于深度学习的图像识别，模仿人看图像时，目光的焦点在不同的物体上移动。当神经网络对图像进行识别时，每次集中于部分特征上，识别更加准确。Attention神经网络在每次识别时，首先计算每个特征的权值，然后对特征进行加权求和，权值越大，该特征对当前识别的贡献就大。

经过训练的Attention神经网络具有自动的目标区域检测能力，将待检图像输入Attention神经网络，即可得到相应的目标的区域，该区域可以为一个，也可以为多个，如多个人脸区域，从而可以同时对多个人脸进行属性检测。其中，Attention神经网络可以是第三方已经训练完成可直接使用的神经网络，也可以是通过样本训练获得的Attention神经网络，如经过本发明实施例二或实施例三中所述的方法训练而得的Attention神经网络。

步骤S104：将待检图像和至少一个局部区域输入到属性分类神经网络中进行属性检测，获得待检图像的对象属性信息。

其中，属性分类神经网络可以采用任意适当的网络形式(如VGG-16神经网络，GoogleNet神经网络等)，其训练也可以采用常规的训练方法，使训练出的网络具有属性分类和识别功能即可。例如，可以识别出行人的性别、年龄、穿着等。

属性分类神经网络的输入为待检测的整张图像以及Attention神经网络确定的目标区域，如人体的头部区域，输出为目标区域的属性的值，如头部的属性的值。

通过本实施例，使用Attention神经网络进行待检图像中目标的区域检测，进而将Attention神经网络检测出的图像区域输入属性分类神经网络进行目标的属性检测，获得相应的对象属性信息。经过训练的Attention神经网络可以准确检测出图像中目标所在区域，针对该区域进行有针对性的属性检测，可以获得较为精确的目标的对象属性信息。

实施例二

参照图2，示出了根据本发明实施例二的一种对象属性检测方法的步骤流程图。

本实施例中，首先训练用于检测目标对应的区域的Attention神经网络，然后使用训练完成的Attention神经网络进行对象属性检测。

本实施例的对象属性检测方法包括以下步骤：

步骤S202：使用训练样本图像和辅助分类网络，将Attention神经网络训练为用于检测图像中的目标区域的神经网络。

具体地，本步骤可以包括：

步骤S2022：将训练样本图像输入到Attention神经网络中进行区域训练，获得候选目标区域的概率信息。

其中，训练样本图像可以由本领域技术人员根据实际需求适当选择，包括但不限于：人物样本图像和车辆样本图像。

Attention神经网络也称为注意力神经网络，可以认为是引入了Attention机制的卷积网络。引入了Attention机制后，卷积网络在图像训练过程中，可以确定图像中的每个候选目标区域对最终确定的目标区域的影响程度，这种影响程度通常以概率形式表示，也即，候选目标区域的概率信息。

以单张图像为例，其中通常包括多个候选目标区域，通过Attention神经网络的处理，可以初步获得该图像中各个候选目标区域可能为最终的目标区域的概率值。同样，训练样本集中的所有图像通过Attention神经网络的处理，均可获得各自图像中各个候选目标区域可能为最终的目标区域的概率值。例如，在人物图像中，多个候选区域为头部区域的概率值。

本实施例中，以人物样本图像训练Attention神经网络为例，以实现Attention神经网络对人物的相应目标区域，如头部区域、上身区域、下身区域、足部区域、手部区域等的自动识别。本领域技术人员可以参照对人物样本图像的训练，实现对其它样本图像如车辆样本图像的训练，如Attention神经网络对车辆相应目标区域，如车辆牌号区域、车辆标志区域、车身区域等的自动识别。

步骤S2024：根据候选目标区域的概率信息对训练样本图像进行候选目标区域采样，获得采样后的图像样本。

在一张样本图像中，概率值较大的候选目标区域被采样的可能性也较大。一般情况下，对一张具有多个候选目标区域的样本图像来说，对其进行采样，可能采集到的是该样本图像的多个候选目标区域中的部分区域，也可能是全部区域。采样数量可以由本领域技术人员根据实际需要适当设置，本发明实施例对此不作限制。

在一种可行方案中，可以先确定候选目标区域的概率值对应的多项式分布；然后，根据多项式分布，对每个训练样本图像进行候选目标区域采样，获取采样后的图像样本。

通过采样，可以获得采集到的训练样本图像中的目标区域的信息，通过该信息可以获得相对应的目标区域的特征图feature map。

步骤S2026：将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，获得图像样本中的候选目标区域的准确度信息；根据准确度信息调整Attention神经网络的网络参数，该网络参数包括但不限于权重参数weight、偏置参数bias等。

其中，目标区域的属性信息为针对训练样本图像标注的目标区域的属性信息。

其中，目标区域的属性信息用于表征目标区域的对象的属性，例如，对于人脸的头部区域，其属性信息可以包括但不限于：性别、年龄、发型、是否佩戴眼镜、是否佩戴口罩等。采样后的图像样本中包含有采样到的区域的信息，包括采集到了哪个区域，该区域对应的feature map。

在使用辅助分类网络之前，需要先获取目标区域的属性信息，在一种可行方式中，该目标区域的属性信息可以在初始时，与训练样本图像一起输入，其中，训练样本图像输入给Attention神经网络，而目标区域的属性信息输入给辅助分类网络。但不限于此，该目标区域的属性信息也可以与训练样本图像一起输入Attention神经网络，然后，由Attention神经网络传输给辅助分类网络使用；还可以在输入采样后的图像样本时临时通过适当方式获取等。

辅助分类网络用于实现Attention神经网络的强化学习，在实际应用中，辅助分类网络可以采用任意适当的能够实现强化学习的网络。强化学习作为一个序列决策(Sequential Decision Making)问题，它需要连续选择一些行为，从这些行为完成后得到最大的回报作为最好的结果。它在没有任何label(标签)告诉算法应该怎么做的情况下，通过先尝试做出一些行为，然后得到一个结果，通过判断这个结果是对还是错来对之前的行为进行反馈。由这个反馈来调整之前的行为，通过不断的调整算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。

本实施例中，辅助分类网络通过对各个采样后的图像样本中的各个候选目标区域的回报值(即reward)的计算，确定Attention神经网络对相应的候选目标区域的概率估算是否准确，进而决定如何调整Attention神经网络的网络参数(包括但不限于权重参数weight、偏置参数bias等)，以使Attention神经网络的预测更为准确。

本实施例中，将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，通过辅助分类网络的损失函数，获得图像样本中，候选目标区域的属性信息的损失值。其中，损失函数根据目标区域的属性信息确定；然后，根据获得的损失值，确定图像样本中的候选目标区域的回报值，该回报值即为准确度信息。

例如，可以首先对所有图像样本的各个候选目标区域的损失值求平均，获得平均值；再根据所述平均值和获得的所述损失值的关系，确定采样后的图像样本中的候选目标区域的回报值。

在一种可行方案中，若获得的所述损失值满足设定标准，则将所述损失值对应的候选目标区域的回报值设置为第一回报值；否则，将所述损失值对应的候选目标区域的回报值设置为第二回报值。具体的，所述设定标准可以为损失值小于平均值的X倍(在实际应用中，X值可以为0.5)，则将损失值对应的候选目标区域的回报值设置为1；否则，将损失值对应的候选目标区域的回报值设置为0。其中，所述设定标准可以由本领域技术人员根据实际情况适当设置，如还可以设置为损失值小于平均值的0.5倍，且从大到小的损失值中的前N个等，N为大于0的整数。

如果调整后的Attention神经网络的网络参数能够使通过辅助分类网络得到的目标区域的回报值为1，非目标区域的回报值为0，则可以认为Attention神经网络训练完成。否则，继续根据回报值调整Attention神经网络的参数，直至通过辅助分类网络最终得到的目标区域的回报值为1，非目标区域的回报值为0。

至此，实现了对Attention神经网络的训练，训练后的Attention神经网络可以准确预测出目标区域。

步骤S204：将待检图像输入到Attention神经网络中进行区域检测，获得待检图像中与目标的对象属性相关联的至少一个局部区域。

如前所述，经过训练的Attention神经网络能够进行目标区域检测，从而检测出与目标的对象属性相关联的至少一个局部区域

步骤S206：将待检图像和至少一个局部区域输入到属性分类神经网络中进行属性检测，获得待检图像的对象属性信息。

以下，通过实施例三对本发明实施例中提供的Attention神经网络的训练进行说明。

实施例三

参照图3，示出了根据本发明实施例三的一种神经网络训练方法的步骤流程图。

本实施例的神经网络训练方法包括以下步骤：

步骤S302：将训练样本图像输入到Attention神经网络中进行区域训练，获得候选目标区域的概率信息。

本实施例中，仍以人物样本图像训练Attention神经网络为例，以实现Attention神经网络对人物的相应目标区域的自动识别。

本实施例中，候选目标区域的概率信息可以包括候选目标区域的概率值。

步骤S304：根据候选目标区域的概率信息对训练样本图像进行候选目标区域采样，获得采样后的图像样本。

在一种可行方案中，可以先确定候选目标区域的概率值对应的多项式分布；然后，根据多项式分布，对训练样本图像进行候选目标区域采样，获取采样后的图像样本。

通过采样，可以获得采集到的人物图像训练样本中的区域的信息，通过该信息可以获得相对应的区域的feature map。

步骤S306：将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，获得图像样本中的候选目标区域的准确度信息。

目标区域的属性信息用于表征目标区域的对象的属性，例如，对于头部区域，其属性信息可以包括但不限于：性别、年龄、发型、是否佩戴眼镜、是否佩戴口罩等。采样后的图像样本中包含有采样到的区域的信息，包括采集到了哪个区域，该区域对应的featuremap。

在通过辅助分类网络和目标区域的属性信息，获得训练样本图像中的候选目标区域的准确度信息如本实施例中的回报值时，一种可行方案中，可以将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，通过辅助分类网络的损失函数，获得图像样本中候选目标区域的属性信息的损失值，其中，损失函数根据目标区域的属性信息确定；根据获得的所述损失值，确定图像样本中的候选目标区域的回报值，所述回报值为所述准确度信息。例如，可以首先对所有图像样本的各个候选目标区域的损失值求平均，获得平均值；再根据所述平均值和获得的所述损失值的关系，确定采样后的图像样本中的候选目标区域的回报值。在一种可行方案中，若获得的损失值小于平均值的0.5倍，且损失值满足设定标准，则将损失值对应的候选目标区域的回报值设置为1；否则，将损失值对应的候选目标区域的回报值设置为0。其中，所述设定标准可以由本领域技术人员根据实际情况适当设置，如设置为从大到小的损失值中的前N个等，N为大于0的整数。

可以理解的是，上述的可行方案仅是其中一种实现方式，在实际应用中，用户可以根据实际需求调整实现条件或具体参数，上述可行方案的举例不应理解为唯一的实现方式。

步骤S308：根据准确度信息调整Attention神经网络的参数。

其中，调整的Attention神经网络的参数包括但不限于权重参数weight、偏置参数bias等网络参数。

上述Attention神经网络的训练收敛条件仅是其中一种实现方案，可以理解的是，在实际应用中，本发明实施例的Attention神经网络还可以设置其他的训练收敛条件，上述训练收敛条件的举例不应理解为唯一的实现方式。

至此，实现了对Attention神经网络的训练，训练后的Attention神经网络可以准确预测出目标区域。需要说明的是，为了提高训练效果，一种优选方式为，针对不同的目标区域分别对Attention神经网络进行训练，如，在一次训练中，仅训练Attention神经网络对人物的头部区域的预测；在另一次训练中，仅训练Attention神经网络对人物的上身区域的预测等。

此外，在已训练完成的Attention神经网络的基础上，还可以进行以下可选方案，即：采用训练完成的Attention神经网络检测训练样本图像，获得训练样本图像的目标区域；使用训练样本图像、每个训练样本图像的目标区域、和每个目标区域的属性信息训练属性分类神经网络。

其中，属性分类神经网络可以采用任意适当的网络形式，如卷积神经网络，其训练也可以采用常规的训练方法。通过每个训练样本图像的目标区域可以有效地对训练样本图像中的目标区域的识别进行学习和训练，通过每个目标区域的属性信息可以有效地对识别出的人物图像中的目标区域中的对象的属性进行学习和训练。

优选地，本发明实施例中的Attention神经网络为全卷积神经网络，与具有全连接层的卷积神经网络相比，采用全卷积神经网络所需的卷积层参数少，训练速度更快。

因图像中主体对象的属性往往只跟主体的某些区域有关，并不需要整张图像的特征，例如，行人属性往往只跟行人的某些身体区域有关，并不需要一整张行人图像的特征，例如有无戴眼镜，有无戴帽子，有无戴口罩这些属性只需要行人头部的特征即可。然而现有的基于卷积神经网络的属性识别方法都是利用整张图像作为特征来训练，然后得到不同属性的值，这样并没有充分利用每个属性的特点，因此识别效率较低。此外，不同属性在图像中关联的区域不同，如不同的行人属性在行人图像中所关联的区域不一样，如果采用传统的人工标注的方法的话，不仅标注成本高，而且人工定义的区域对于属性识别的训练也不一定是最优的。而本实施例的方案中，采用基于增强学习(Reinforcement Learning)方法的Attention机制来让算法自动选择每个属性在图像中的关联区域，继而可以再着重提取相关联区域的特征，从而利用该特征和图像的全局特征来对相应的属性做预测。这样不仅可以节省人工标注的成本，而且可以找到对训练最优的区域。

以下，以一个具体实例对本实施例的神经网络训练方法进行示例性说明。

本实例中，以训练Attention神经网络对人物的头部区域的识别为例，其训练过程如下：

(1)对将要识别的行人属性依据其关联的身体部位人工分类，所关联区域相同的属性分为一类，例如戴眼镜，戴帽子，戴口罩这些属性只涉及到行人的头部；上衣的类型、背包这些属性只涉及到行人的上半身。

(2)针对每一个身体部位训练一个全卷积的Attention神经网络。

以下，以训练头部的Attention神经网络为例，其它部位的训练以及非行人情况下的训练可参照本实例实现。

Attention神经网络在每次迭代训练的时候，会选择一批图像作为输入(Attention神经网络每次输入整个数据集的一部分数据做训练即一批图像，下一次迭代时会输入下一批图像，以此类推，直至整个数据集中的数据全部迭代完成)，Attention神经网络对每张图像会输出一张feature map，feature map中的每个位置满足多项式分布，每个位置的值为对应的概率；然后，每张图像从这一多项式分布中随机取样M个(M为大于0的整数，由本领域技术人员根据实际需要适当设置)区域，取样每个区域的概率是feature map中该区域对应的概率值；取样到的每个区域会经过辅助分类网络，通过辅助分类网络中的属性分类的损失函数得到一个属性的分类的损失；记L为N×M个(N表示图像样本的个数)区域的损失的平均值，对每一个图像所选的M个区域的损失从小到大进行排序，如果每个区域位于排序后的队列的前top_k个，并且小于0.5L(平均损失的一半)，则该区域的reward为1，否则为0。其中，top_k可以由本领域技术人员根据实际需要适当设置，本发明实施例对此不作限制。

其中，因为每个属性为一个多值属性，因此每个属性可以采用softmax函数来计算损失，最终的损失是所有属性的softmax损失的和。一种辅助分类网络中的属性分类的损失函数(softmax函数)如下：

其中，为第n个图像样本的第k个属性的真实的label(根据输入的头部区域的属性值确定)，为网络输出的该属性的label为的概率，n和N均为图像样本的数量，k为图像样本的属性的数量。

训练后的Attention神经网络的输入为一整张行人图像，输出是图像中每个可能的区域是头部的概率，其中，Attention神经网络为全卷积神经网络。例如，可以是2个卷积层再加一个Softmax层，每个卷积层后加一个ReLU层。其中，Softmax层前的最后一个卷积层的输出是一个单个频道的feature map，然后经过Softmax层后，feature map的每个位置的值就是该位置在原图中所对应的区域可以选为头部的概率，概率最大的区域即可选为头部区域。

与传统的卷积神经网络用于监督学习的任务时都会在最后一层定义损失函数，然后采用Back propagation(反向传播)的算法进行优化相比，本实施例中的Attention神经网络采用增强学习来进行优化，增强学习与监督学习不同的地方在于Attention神经网络不会立即计算损失，而是评估每个区域的reward(回报值)，最终的目标是让reward最大化。评估每个可能选为头部的区域的reward的时候，将该区域再输入到一个辅助分类网络里面，辅助分类网络的损失函数为涉及到头部区域的属性的分类损失。每个可能选为头部区域的reward由该区域经过辅助分类网络后的对头部区域的属性的分类效果决定。

在本实施例的神经网络训练方法中，通过训练样本图像训练Attention神经网络，每张训练样本图像中可能包含有多个不同的候选目标区域，通过Attention神经网络可以获得各个候选目标区域最终为目标区域的概率值；进而，在获得该概率值后，根据该概率值对对应的训练样本图像进行采样，其中概率值较大的区域被采集到的可能性更大；采样后，将目标区域的属性信息和采样后的图像一起输入辅助分类网络，通过辅助分类网络计算采集的区域的回报值，进而根据该回报值对Attention神经网络的网络参数进行调整，直至满足Attention神经网络的收敛条件，完成Attention神经网络的训练。

可见，在上述训练过程，因目标区域的属性信息与目标区域相关，例如，是否佩戴眼镜、是否佩戴口罩的信息仅与人体头部有关，在完成上述训练后，Attention神经网络可以自动找到图像中对属性信息对应的属性响应最大的区域，无需人工对训练样本进行标注，不仅节省了人工标注的成本，而且可以找到对与属性信息对应最好的区域，降低了卷积神经网络训练过程成本、缩短了训练时间。

本实施例的神经网络训练方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：PC机等。

实施例四

参照图4，示出了根据本发明实施例四的一种区域检测方法的步骤流程图。

本实施例中，采用实施例二或三中示出的经过训练的Attention神经网络对图像进行目标区域检测，从图像中确定出需要的目标区域。本实施例的区域检测方法包括以下步骤：

步骤S402：获取待检测的目标图像。

其中，目标图像包括静态图像或视频图像。在一种可选方案中，视频图像包括视频监控中的行人图像或车辆图像。

在视频监控场景中，往往有对行人属性或车辆属性进行识别的需要。在进行行人属性或车辆属性识别时，需要先定位出相应的目标区域，如某个人体的头部区域或某个车辆所在区域，进而针对该目标区域进行相应的属性识别。

步骤S404：采用Attention神经网络检测所述目标图像，获得目标图像的目标区域。

本实施例中，采用如实施例二或三中所示的方法训练而得的Attention神经网络。通过该可以快速准确地定位出目标图像的目标区域，进而根据实际需要对目标区域进行相应的处理，如属性识别、图像信息获取、区域定位等。

其中，当目标图像为人物图像时，目标区域包括以下至少之一：头部、上身、下身、足部、手部；当目标图像为车辆图像时，目标区域包括以下至少之一：车辆牌号区域、车辆标志区域、车身区域。

通过本实施例的区域检测方法，可以准确有效地对图像中的目标区域进行检测和定位，降低了目标区域定位成本，提高了目标区域定位效率。

本实施例的区域检测方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：PC机等。

实施例五

参照图5，示出了根据本发明实施例五的一种对象属性检测装置的结构框图。

本实施例的对象属性检测装置包括：第一获取模块502，用于将待检图像输入到Attention神经网络中进行区域检测，获得待检图像中与目标的对象属性相关联的至少一个局部区域；第二获取模块504，用于将待检图像和至少一个局部区域输入到属性分类神经网络中进行属性检测，获得所述待检图对象属性信息。

可选地，本实施例的对象属性检测装置还包括：显示模块506，用于在待检图像中显示所述对象属性信息。

可选地，当目标图像为人物图像时，目标区域包括以下至少之一：头部、上身、下身、足部、手部；和/或，当目标图像为车辆图像时，目标区域包括以下至少之一：车辆牌号区域、车辆标志区域、车身区域。

可选地，待检图像包括静态图像或视频图像。

可选地，视频图像包括视频监控中的行人图像和/或车辆图像。

可选地，本实施例的对象属性检测装置还包括：第一训练模块508，用于在第一获取模块502将待检图像输入到Attention神经网络中进行区域检测之前，使用训练样本图像和辅助分类网络，将Attention神经网络训练为用于检测图像中的目标区域的神经网络。

可选地，第一训练模块508包括：第三获取模块5082，用于将训练样本图像输入到Attention神经网络中进行区域训练，获得候选目标区域的概率信息；第四获取模块5084，用于根据候选目标区域的概率信息对训练样本图像进行候选目标区域采样，获得采样后的图像样本；第五获取模块5086，用于将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，获得图像样本中的候选目标区域的准确度信息；目标区域的属性信息为针对训练样本图像标注的目标区域的属性信息；第一参数调整模块5088，用于根据准确度信息调整Attention神经网络的网络参数。

可选地，第五获取模块5086包括：第一损失获取模块50862，用于将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，通过辅助分类网络的损失函数，获得图像样本中，候选目标区域的属性信息的损失值，其中，损失函数根据目标区域的属性信息确定；第一回报获取模块50864，用于根据获得的损失值，确定图像样本中的候选目标区域的回报值，回报值为准确度信息。

可选地，第一回报获取模块50864用于对所有图像样本的各个候选目标区域的损失值求平均，获得平均值；根据平均值和获得的损失值的关系，确定图像样本中的候选目标区域的回报值。

可选地，第一回报获取模块50864用于对所有图像样本的各个候选目标区域的损失值求平均，获得平均值；若获得的损失值满足设定标准，则将损失值对应的候选目标区域的回报值设置为第一回报值；否则，将损失值对应的候选目标区域的回报值设置为第二回报值。

可选地，第四获取模块5084用于确定候选目标区域的概率值对应的多项式分布；根据多项式分布，对训练样本图像进行候选目标区域采样，获取采样后的图像样本。

可选地，Attention神经网络为全卷积神经网络。

可选地，本实施例的对象属性检测装置还包括：第二训练模块510，用于采用训练完成的Attention神经网络检测训练样本图像，获得训练样本图像的目标区域；使用训练样本图像、每个训练样本图像的目标区域、和每个目标区域的属性信息训练属性分类神经网络。

本实施例的对象属性检测装置用于实现前述多个方法实施例中相应的对象属性检测方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例六

参照图6，示出了根据本发明实施例六的一种神经网络训练装置的结构框图。

本实施例的神经网络训练装置包括：第六获取模块602，用于将训练样本图像输入到注意力Attention神经网络中进行区域训练，获得候选目标区域的概率信息；第七获取模块604，用于根据候选目标区域的概率信息对训练样本图像进行候选目标区域采样，获得采样后的图像样本；第八获取模块606，用于将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，获得图像样本中的候选目标区域的准确度信息；目标区域的属性信息为针对训练样本图像标注的目标区域的属性信息；第二参数调整模块608，用于根据准确度信息调整Attention神经网络的参数。

可选地，第八获取模块606包括：第二损失获取模块6062，用于将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，通过辅助分类网络的损失函数，获得图像样本中，候选目标区域的属性信息的损失值，其中，损失函数根据目标区域的属性信息确定；第二回报获取模块6064，用于根据获得的损失值，确定图像样本中的候选目标区域的回报值，回报值为准确度信息。

可选地，第二回报获取模块6064用于对所有图像样本的各个候选目标区域的损失值求平均，获得平均值；根据平均值和获得的损失值的关系，确定图像样本中的候选目标区域的回报值。

可选地，第二回报获取模块6064用于对所有图像样本的各个候选目标区域的损失值求平均，获得平均值；若获得的损失值满足设定标准，则将损失值对应的候选目标区域的回报值设置为第一回报值；否则，将损失值对应的候选目标区域的回报值设置为第二回报值。

可选地，第七获取模块604用于确定候选目标区域的概率值对应的多项式分布；根据多项式分布，对训练样本图像进行候选目标区域采样，获取采样后的图像样本。

可选地，Attention神经网络为全卷积神经网络。

可选地，本实施例的神经网络训练装置还包括：第三训练模块610，用于采用训练完成的Attention神经网络检测训练样本图像，获得训练样本图像的目标区域；使用训练样本图像、每个训练样本图像的目标区域、和每个目标区域的属性信息训练属性分类神经网络。

本实施例的神经网络训练装置用于实现前述多个方法实施例中相应的神经网络训练方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例七

参照图7，示出了根据本发明实施例七的一种区域检测装置的结构框图。

本实施例的区域检测装置包括：第九获取模块702，用于获取待检测的目标图像，其中，目标图像包括静态图像或视频图像；第十获取模块704，用于采用Attention神经网络检测目标图像，获得目标图像的目标区域；其中，Attention神经网络采用如实施例六所述的装置训练而得。

可选地，当目标图像为人物图像时，目标区域包括以下至少之一：头部、上身、下身、足部、手部；当目标图像为车辆图像时，目标区域包括以下至少之一：车辆牌号区域、车辆标志区域、车身区域。

可选地，视频图像包括视频监控中的行人图像或车辆图像。

本实施例的区域检测装置用于实现前述多个方法实施例中相应的区域检测方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例八

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图8，其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备800的结构示意图。如图8所示，电子设备800包括一个或多个第一处理器、第一通信元件等，所述一个或多个第一处理器例如：一个或多个中央处理单元(CPU)801，和/或一个或多个图像处理器(GPU)813等，第一处理器可以根据存储在只读存储器(ROM)802中的可执行指令或者从存储部分808加载到随机访问存储器(RAM)803中的可执行指令而执行各种适当的动作和处理。本实施例中，第一只读存储器802和随机访问存储器803统称为第一存储器。第一通信元件包括通信组件812和/或通信接口809。其中，通信组件812可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口809包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口809经由诸如因特网的网络执行通信处理。

第一处理器可与只读存储器802和/或随机访问存储器803中通信以执行可执行指令，通过第一通信总线804与通信组件812相连、并经通信组件812与其他目标设备通信，从而完成本发明实施例提供的任一项对象属性检测方法对应的操作，例如，将待检图像输入到Attention神经网络中进行区域检测，获得待检图像中与目标的对象属性相关联的至少一个局部区域；将待检图像和至少一个局部区域输入到属性分类神经网络中进行属性检测，获得待检图像的对象属性信息。

此外，在RAM 803中，还可存储有装置操作所需的各种程序和数据。CPU801或GPU813、ROM802以及RAM803通过第一通信总线804彼此相连。在有RAM803的情况下，ROM802为可选模块。RAM803存储可执行指令，或在运行时向ROM802中写入可执行指令，可执行指令使第一处理器执行上述通信方法对应的操作。输入/输出(I/O)接口805也连接至第一通信总线804。通信组件812可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口809。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

需要说明的，如图8所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图8的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，将待检图像输入到Attention神经网络中进行区域检测，获得待检图像中与目标的对象属性相关联的至少一个局部区域；将待检图像和至少一个局部区域输入到属性分类神经网络中进行属性检测，获得待检图像的对象属性信息。。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被第一处理器执行时，执行本发明实施例的方法中限定的上述功能。

实施例九

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图9，其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备900的结构示意图。如图9所示，电子设备900包括一个或多个第二处理器、第二通信元件等，所述一个或多个第二处理器例如：一个或多个中央处理单元(CPU)901，和/或一个或多个图像处理器(GPU)913等，第二处理器可以根据存储在只读存储器(ROM)902中的可执行指令或者从存储部分908加载到随机访问存储器(RAM)903中的可执行指令而执行各种适当的动作和处理。本实施例中，第二只读存储器902和随机访问存储器903统称为第二存储器。第二通信元件包括通信组件912和/或通信接口909。其中，通信组件912可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口909包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口909经由诸如因特网的网络执行通信处理。

第二处理器可与只读存储器902和/或随机访问存储器903中通信以执行可执行指令，通过第二通信总线904与通信组件912相连、并经通信组件912与其他目标设备通信，从而完成本发明实施例提供的任一项神经网络训练方法对应的操作，例如，将训练样本图像输入到Attention神经网络中进行区域训练，获得候选目标区域的概率信息；根据候选目标区域的概率信息对训练样本图像进行候选目标区域采样，获得采样后的图像样本；将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，获得图像样本中的候选目标区域的准确度信息；目标区域的属性信息为针对训练样本图像标注的目标区域的属性信息；根据准确度信息调整Attention神经网络的参数。

此外，在RAM 903中，还可存储有装置操作所需的各种程序和数据。CPU901或GPU913、ROM902以及RAM903通过第二通信总线904彼此相连。在有RAM903的情况下，ROM902为可选模块。RAM903存储可执行指令，或在运行时向ROM902中写入可执行指令，可执行指令使第二处理器执行上述通信方法对应的操作。输入/输出(I/O)接口905也连接至第二通信总线904。通信组件912可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口909。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

需要说明的，如图9所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图9的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，将训练样本图像输入到Attention神经网络中进行区域训练，获得候选目标区域的概率信息；根据候选目标区域的概率信息对训练样本图像进行候选目标区域采样，获得采样后的图像样本；将目标区域的属性信息和图像样本输入到辅助分类网络中进行属性训练，获得图像样本中的候选目标区域的准确度信息；目标区域的属性信息为针对训练样本图像标注的目标区域的属性信息；根据准确度信息调整Attention神经网络的参数。。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被第二处理器执行时，执行本发明实施例的方法中限定的上述功能。

实施例十

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图10，其示出了适于用来实现本发明实施例的终端设备或服务器的电子设备1000的结构示意图。如图10所示，电子设备1000包括一个或多个第三处理器、第三通信元件等，所述一个或多个第三处理器例如：一个或多个中央处理单元(CPU)1001，和/或一个或多个图像处理器(GPU)1013等，第三处理器可以根据存储在只读存储器(ROM)1002中的可执行指令或者从存储部分1008加载到随机访问存储器(RAM)1003中的可执行指令而执行各种适当的动作和处理。本实施例中，第三只读存储器1002和随机访问存储器1003统称为第三存储器。第三通信元件包括通信组件1012和/或通信接口1009。其中，通信组件1012可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口1009包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口1009经由诸如因特网的网络执行通信处理。

第三处理器可与只读存储器1002和/或随机访问存储器1003中通信以执行可执行指令，通过第三通信总线1004与通信组件1012相连、并经通信组件1012与其他目标设备通信，从而完成本发明实施例提供的任一项区域检测方法对应的操作，例如，获取待检测的目标图像，其中，目标图像包括静态图像或视频图像；采用Attention神经网络检测目标图像，获得目标图像的目标区域；其中，Attention神经网络采用如实施例二或三中所述的方法训练而得。

此外，在RAM 1003中，还可存储有装置操作所需的各种程序和数据。CPU1001或GPU1013、ROM1002以及RAM1003通过第三通信总线1004彼此相连。在有RAM1003的情况下，ROM1002为可选模块。RAM1003存储可执行指令，或在运行时向ROM1002中写入可执行指令，可执行指令使第三处理器执行上述通信方法对应的操作。输入/输出(I/O)接口1005也连接至第三通信总线1004。通信组件1012可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口1009。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

需要说明的，如图10所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图10的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，获取待检测的目标图像，其中，目标图像包括静态图像或视频图像；采用Attention神经网络检测目标图像，获得目标图像的目标区域；其中，Attention神经网络采用如实施例二或三中所述的方法训练而得。。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被第三处理器执行时，执行本发明实施例的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明实施例的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明实施例的方法的程序的记录介质。

本发明实施例的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式，很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种对象属性检测方法，包括：

将待检图像输入到注意力Attention神经网络中进行区域检测，获得所述待检图像中与目标的对象属性相关联的至少一个局部区域；

将所述待检图像和所述至少一个局部区域输入到属性分类神经网络中进行属性检测，获得所述待检图像的对象属性信息。

2.根据权利要求1所述的方法，其中，所述方法还包括：

在所述待检图像中显示所述对象属性信息。

3.一种神经网络训练方法，包括：

将训练样本图像输入到注意力Attention神经网络中进行区域训练，获得候选目标区域的概率信息；

根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本；

将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息；所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息；根据所述准确度信息调整所述Attention神经网络的参数。

4.一种区域检测方法，包括：

获取待检测的目标图像，其中，所述目标图像包括静态图像或视频图像；

采用Attention神经网络检测所述目标图像，获得所述目标图像的目标区域；

其中，所述Attention神经网络采用如权利要求3所述的方法训练而得。

5.一种对象属性检测装置，包括：

第一获取模块，用于将待检图像输入到注意力Attention神经网络中进行区域检测，获得所述待检图像中与目标的对象属性相关联的至少一个局部区域；

第二获取模块，用于将所述待检图像和所述至少一个局部区域输入到属性分类神经网络中进行属性检测，获得所述待检图像的对象属性信息。

6.一种神经网络训练装置，包括：

第六获取模块，用于将训练样本图像输入到注意力Attention神经网络中进行区域训练，获得候选目标区域的概率信息；

第七获取模块，用于根据所述候选目标区域的概率信息对所述训练样本图像进行候选目标区域采样，获得采样后的图像样本；

第八获取模块，用于将目标区域的属性信息和所述图像样本输入到辅助分类网络中进行属性训练，获得所述图像样本中的候选目标区域的准确度信息；所述目标区域的属性信息为针对所述训练样本图像标注的目标区域的属性信息；

第二参数调整模块，用于根据所述准确度信息调整所述Attention神经网络的参数。

7.一种区域检测装置，包括：

第九获取模块，用于获取待检测的目标图像，其中，所述目标图像包括静态图像或视频图像；

第十获取模块，用于采用Attention神经网络检测所述目标图像，获得所述目标图像的目标区域；

其中，所述Attention神经网络采用如权利要求6所述的装置训练而得。

8.一种电子设备，包括：第一处理器、第一存储器、第一通信元件和第一通信总线，所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信；

所述第一存储器用于存放至少一可执行指令，所述可执行指令使所述第一处理器执行如权利要求1-2任一项所述的对象属性检测方法对应的操作。

9.一种电子设备，包括：第二处理器、第二存储器、第二通信元件和第二通信总线，所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信；

所述第二存储器用于存放至少一可执行指令，所述可执行指令使所述第二处理器执行如权利要求3所述的神经网络训练方法对应的操作。

10.一种电子设备，包括：第三处理器、第三存储器、第三通信元件和第三通信总线，所述第三处理器、所述第三存储器和所述第三通信元件通过所述第三通信总线完成相互间的通信；

所述第三存储器用于存放至少一可执行指令，所述可执行指令使所述第二处理器执行如权利要求4所述的区域检测方法对应的操作。