CN110738261A

CN110738261A - 图像分类和模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN110738261A
Application number: CN201910984564.6A
Authority: CN
Inventors: 王昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2020-01-31
Anticipated expiration: 2039-10-16
Also published as: CN110738261B

Abstract

本申请公开了图像分类和模型训练方法、装置、电子设备及存储介质，涉及图像识别技术领域。其中，图像分类方法的具体实现方案为：将待分类图像的初级特征分别输入到图像分类模型的第一分支网络和第二分支网络，并利用第一分支网络识别待分类图像的细节特征，利用第二分支网络识别待分类图像的整体特征；根据细节特征与整体特征得到综合特征；根据综合特征对待分类图像进行分类。本申请实施例通过网络分支优化了图像分类模型的网络结构，将图像细节特征和图像整体特征相结合，提升了对复杂图像的识别准确率。

Description

图像分类和模型训练方法、装置、电子设备及存储介质

技术领域

本申请涉及一种信息技术领域，尤其涉及一种图像识别技术领域。

背景技术

图像识别技术是通过计算机对图像中的信息进行处理、分析和理解的技术。网络黑产指以网络作为媒介通过网络技术进行危害计算机信息系统安全和网络空间管理秩序，并以此谋求不当利益的非法行为。图像作为信息载体，是黑产作弊实施非法行为的重要形式。对作弊图像进行识别打击，可以提升用户体验，避免运营风险。识别网络黑产作弊图像目前普遍采用如下三种方案：(1)黑图库检索。(2)图像分类技术。(3)图像检测技术，例如利用OCR(Optical Character Recognition，光学字符识别)技术或目标检测技术识别图像中的关键元素。

以上三种方案在实现作弊图像分类方面存在着如下缺陷：对于方案(1)，可通过随机背景、随机滤镜变换等手段绕过该方案，造成遗漏。对于方案(2)，可以通过不断添加图像中元素的手段绕过该方案。对于方案(3)，仅识别细节元素容易误伤非作弊用户所发图像，并且训练数据标注成本较高，对于线上遗漏较难实现快速更新响应。

发明内容

本申请实施例提出一种图像分类和图像分类模型训练方法、装置、电子设备及存储介质，以至少解决现有技术中的以上技术问题。

第一方面，本申请实施例提供了一种图像分类方法，包括：

将待分类图像的初级特征分别输入到图像分类模型的第一分支网络和第二分支网络，并利用第一分支网络识别待分类图像的细节特征，利用第二分支网络识别待分类图像的整体特征；

根据细节特征与整体特征得到综合特征；

根据综合特征对待分类图像进行分类。

本申请实施例中，通过网络分支优化了图像分类模型的网络结构，将图像细节特征和图像整体特征相结合，提升了对复杂图像的识别准确率。

在一种实施方式中，细节特征包括从待分类图像的局部范围内提取的局部元素的语义特征。

本申请实施例中，对待分类图像的细节特征的识别，可有效避免发生黑产通过不断添加图像中的局部元素而绕过检测的情况。

在一种实施方式中，整体特征包括利用待分类图像整体提取的语义特征。

本申请实施例中，对待分类图像的整体特征的识别，可有效避免仅识别局部元素容易误伤非作弊用户所发图像的情况。

在一种实施方式中，利用第一分支网络识别待分类图像的细节特征，包括：

通过第一分支网络中的第二卷积层提取待分类图像的语义信息和位置信息；

利用第一分支网络中的双线性层根据语义信息和位置信息，得到待分类图像的细节特征。

本申请实施例中，可将语义信息和位置信息的对应元素相乘，相乘后得到的细节特征体现了语义和位置的对应关系，利用丰富的细节特征增强了对复杂图像的识别能力。

在一种实施方式中，根据所述细节特征与所述整体特征得到综合特征，包括：

将所述细节特征与所述整体特征进行拼接，得到拼接后的综合特征。

本申请实施例中，拼接后的综合特征能够更加准确地反映待分类图像的语义内容，使图像识别得更加准确。

第二方面，本申请实施例提供了一种图像分类模型训练方法，包括：

根据图像分类模型的第一分支网络提取的细节特征得到的分类结果，计算第一损失值；

根据图像分类模型的第二分支网络提取的整体特征得到的分类结果，计算第二损失值；

根据细节特征与整体特征拼接后的综合特征得到的分类结果，计算第三损失值；

将第一损失值、第二损失值和第三损失值加权求和，得到综合损失值；

利用综合损失值调节图像分类模型的网络参数。

本申请实施例中，分别根据细节特征、整体特征和综合特征得到的分类结果计算损失值，再利用上述三个损失值计算得到的综合损失值训练模型，可避免发生模型过度依赖某一网络分支进行预测，而导致另一网络分支无法获得梯度而无法训练的情况，以达到更好的模型训练效果。

第三方面，本申请实施例提供了一种图像分类装置，包括：

识别单元，用于：将待分类图像的初级特征分别输入到图像分类模型的第一分支网络和第二分支网络，并利用第一分支网络识别待分类图像的细节特征，利用第二分支网络识别待分类图像的整体特征；

拼接单元，用于根据细节特征与整体特征得到综合特征；

分类单元，用于：根据综合特征对待分类图像进行分类。

在一种实施方式中，识别单元用于：

在一种实施方式中，所述拼接单元用于：

第四方面，本申请实施例提供了一种图像分类模型训练装置，包括：

第一计算单元，用于根据图像分类模型的第一分支网络提取的细节特征得到的分类结果，计算第一损失值；

第二计算单元，用于根据图像分类模型的第二分支网络提取的整体特征得到的分类结果，计算第二损失值；

第三计算单元，用于根据细节特征与整体特征拼接后的综合特征得到的分类结果，计算第三损失值；

第四计算单元，用于将第一损失值、第二损失值和第三损失值加权求和，得到综合损失值；

调节单元，用于：利用综合损失值调节图像分类模型的网络参数。

第五方面，本申请实施例提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任意一项实施例所提供的方法。

第六方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。

上述申请中的一个实施例具有如下优点或有益效果：通过网络分支优化了图像分类模型的网络结构，将图像细节特征和图像整体特征相结合，提升了对复杂图像的识别准确率。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的图像分类方法的流程图；

图2是根据本申请实施例的图像分类方法的图像分类模型的网络结构示意图；

图3是根据本申请实施例的图像分类方法的流程图；

图4是根据本申请实施例的图像分类模型训练方法的流程图；

图5是根据本申请实施例的图像分类模型训练方法的图像分类模型的网络结构示意图；

图6是根据本申请实施例的图像分类装置结构示意图；

图7是根据本申请实施例的图像分类装置结构示意图；

图8是根据本申请实施例的图像分类模型训练装置结构示意图；

图9是用来实现本申请实施例的图像分类方法或图像分类模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请实施例的图像分类方法的流程图。如图1所示，该图像分类方法包括：

步骤S110，将待分类图像的初级特征分别输入到图像分类模型的第一分支网络和第二分支网络，并利用第一分支网络识别待分类图像的细节特征，利用第二分支网络识别待分类图像的整体特征；

步骤S120，根据细节特征与整体特征得到综合特征；

步骤S130，根据综合特征对待分类图像进行分类。

图像作为信息载体，是黑产作弊的重要形式。区别于通常的图像分类方法，反作弊图像分类主要有以下特点：(1)目标图像结构复杂。由于作弊图像中的作弊信息由文本、物体、场景等多种成分构成，区别于通常的图像分类任务只需要识别图像中的一个或多个物体的情形，反作弊图像需要识别图像中的多维度信息。(2)对抗性强。与现实环境中产生的图像不同，作弊图像主要为人工绘制、修改的图像。这些人工图像风格、内容变化较快，增加了识别难度。(3)需要识别多种内容的作弊形式。作弊图像包括色情、涉政、违法等多种作弊内容，且每一种内容的作弊形式都有较大危害，对作弊图像的识别要求较高的召回效果。

有效对作弊图像进行分类，需要考虑对作弊图像的召回、避免对正常图像的误伤、对细节与整体的识别等问题。本申请实施例基于深度学习模型，结合整体特征及细节特征对图像进行识别，通过针对性地优化网络结构及训练方法，可实现对黑产作弊图像的有效识别。

图2是根据本申请实施例的图像分类方法的图像分类模型的网络结构示意图。参见图1和图2，首先通过第一卷积层提取待分类图像的初级特征。在步骤S110中，将初级特征分别输入给图像分类模型的第一分支网络和第二分支网络。在步骤S120中，将细节特征与整体特征结合起来得到综合特征。在步骤S130中，根据步骤S120中拼接得到的综合特征对待分类图像进行分类。

在一种实施方式中，细节特征包括从待分类图像的局部范围内提取的局部元素的语义特征。其中，局部元素也称细节元素。

在一个示例中，一张待分类图像的整体特征所体现出来的语义特征可包括：待分类图像中有一个美女。该待分类图像的细节特征所体现出来的语义特征可包括：待分类图像中有美女的眼睛、鼻子、嘴，以及一串小字符。

本申请实施例中，细节特征体现了图像特征的语义和位置的对应关系。例如，从一张人像图像中提取到图像中的元素包括一个美女和一串小字符，则图像的整体特征可包括一个美女，图像的细节特征可包括一串小字符，以及美女的眼睛、鼻子、嘴等等。仅根据整体特征或仅根据细节特征对图像进行分类可能会造成误判。例如上述示例中图像的整体特征是一个美女，应属于非作弊图片，但其细节特征一串小字符可能是非法字符或非法链接，因此仅根据整体特征或仅根据细节特征对图像进行分类都可能会造成误判。将图像细节特征和图像整体特征相结合，可提升对复杂图像的识别准确率。

在一种实施方式中，第一分支网络包括L个第二卷积层、池化层和双线性层；

第二分支网络包括K个第三卷积层和池化层；

其中，第二卷积层用于提取待分类图像的第一语义信息和位置信息；第三卷积层用于提取待分类图像的第二语义信息；池化层用于增大感受野；L和K为正整数。参见图2，第一分支网络可包括第二卷积层、池化层和双线性层，用于识别待分类图像的细节特征；第二分支网络可包括第三卷积层和池化层，用于识别待分类图像的整体特征。在第二卷积层和第三卷积层中提取待分类图像的语义特征。可利用图像语义理解技术提取待分类图像的语义特征，从而得到待分类图像的语义信息。提取出的语义特征可包括图片的整体结构特征、轮廓特征、风格特征等，可通过识别其中某种特征的显著程度得到图像的语义信息。图像的语义信息是反映图像内容的可直观理解的用文本或语言表达的信息。例如，利用图像语义理解技术分析后得到的语义信息为：图像的内容包括一棵大树和三只小鸟。

本申请实施例中，第二分支网络中的第三卷积层提取的第二语义信息体现了待分类图像的整体特征。例如，一张待分类图像的第二语义信息可包括：待分类图像中有一个美女。第一分支网络中的第二卷积层提取的第一语义信息和位置信息体现了待分类图像的细节特征。例如，一张待分类图像的第一语义信息可包括：待分类图像中有美女的眼睛、鼻子、嘴，以及一串小字符。与第一语义信息对应的位置信息可包括：美女的眼睛位于待分类图像的上部，美女的鼻子位于待分类图像的中部，美女的嘴位于待分类图像的下部，一串小字符位于待分类图像的右下角。在一个示例中，上述位置信息也可以用图像像素点的坐标值表示。

第一分支网络和第二分支网络的池化层用于增大感受野。其中，感受野是卷积层输出的特征图(feature map)上的像素点在原始图像(待分类图像)上映射的区域大小。也就是说，感受野体现了图像的最终输出的每一个特征(每一个像素)受到原始图像的哪一部分的影响。

在一种实施方式中，在第一分支网络和/或第二分支网络的池化层中，可采用maxpooling(最大值池化层)。例如，可采用步长为2的maxpooling。在一个示例中，可通过步长为2的maxpooling将128*128的矩阵转化为64*64的矩阵。

在一个示例中，在第一分支网络和第二分支网络中的卷积层和池化层可间隔排列。图2的示例中，第一分支网络包括2个第二卷积层和2个池化层，第二分支网络包括3个第三卷积层和3个池化层。在第一分支网络和第二分支网络中的卷积层和池化层可预先设置。例如，可预先设置在第一分支网络中包括L个第二卷积层和l个池化层，在第二分支网络中包括K个第三卷积层和k个池化层。其中，L和K为正整数。

在一个示例中，在第一分支网络和第二分支网络中的一个池化层可以对应于若干个卷积层。例如，一个池化层对应于2至3个卷积层。本申请实施例的一个示例性的网络结构如下：第一分支网络包括10个第二卷积层和5个池化层，其中一个池化层对应于2个第二卷积层，第二卷积层和池化层间隔排列。第二分支网络包括30个第三卷积层和10个池化层，其中一个池化层对应于3个第三卷积层，第三卷积层和池化层间隔排列。

本申请实施例中，分别使用第一分支网络和第二分支网络提取图像细节特征和图像整体，使模型获取更完整的图像特征，提升了对复杂图像的识别准确率。

在一种实施方式中，第二卷积层的个数L小于第三卷积层的个数K。第二分支网络与第一分支网络比较而言，第二分支网络的池化层和第三卷积层的层数多，每个特征点对应图像的像素区域比较大。第二分支网络用于提取大范围的语义特征。而第一分支网络的池化层和第二卷积层的层数少，限制了感受野。第一分支网络用于提取图像细节的语义特征。

本申请实施例中，第三卷积层的个数多，使得每个特征点对应图像的像素区域比较大，可用于提取大范围的语义特征，使得待分类图像的整体特征识别得更准确。

在一种实施方式中，在图1中的步骤S110，将待分类图像的初级特征分别输入到图像分类模型的第一分支网络和第二分支网络之前，还包括：

通过图像分类模型的第一卷积层提取待分类图像的初级特征。

参见图1和图2，首先通过图2中的第一卷积层提取待分类图像的初级特征。在一个示例中，初级特征可包括图像的纹理特征。纹理特征体现了物体表面共有的内在属性，包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系。通过对纹理特征的分析可获得有关图像纹理的定量或定性描述。

本申请实施例中，首先利用第一卷积层提取待分类图像的纹理等初级特征，以便在后续步骤中根据初级特征去识别细节特征和整体特征，为正确进行图像分类提供了前期处理的数据基础。

图3是根据本申请实施例的图像分类方法的流程图。如图3所示，在一种实施方式中，图1中的步骤S110中的步骤，利用第一分支网络识别待分类图像的细节特征，包括：

步骤S210，通过第一分支网络中的第二卷积层提取待分类图像的语义信息和位置信息；

步骤S220，利用第一分支网络中的双线性层根据语义信息和位置信息，得到待分类图像的细节特征。

利用第二卷积层提取出的每个初级特征可以体现出待分类图像中的元素的视觉特征。例如，从一张人像图像中得到的初级特征体现了图像中的元素包括眼睛、鼻子、嘴等等，以及眼睛、鼻子、嘴在图像中的所在位置。在步骤S210中，利用第二卷积层对待分类图像的初级特征进行处理，从初级特征中提取图像的语义信息和对应的位置信息。在步骤S220中，可将语义信息和位置信息的对应元素相乘，相乘后得到的待分类图像的细节特征体现了图像特征的语义和位置的关系。在一个示例中，第二卷积层包括A个语义层和B个位置层，语义层用于提取初级特征的语义信息，位置层用于提取初级特征的位置信息。则将语义信息和位置信息的对应元素相乘后得到的细节特征的特征向量为A*B维向量。

本申请实施例中，将语义信息和位置信息的对应元素相乘，相乘后得到的细节特征体现了语义和位置的对应关系，利用丰富的细节特征增强了对复杂图像的识别能力。

在一种实施方式中，图1中的步骤S120，根据所述细节特征与所述整体特征得到综合特征，包括：

参见图1和图2，在步骤S120中，将第一分支网络得到的细节特征与第二分支网络得到的整体特征进行拼接。在一个示例中，可以将细节特征的特征向量和整体特征的特征向量首尾相接。例如，细节特征的特征向量是N维向量，整体特征的特征向量是M维向量，则在拼接后的综合特征的特征向量为N+M维向量。

在一种实施方式中，图1中的步骤S130，根据综合特征对待分类图像进行分类，包括：

通过图像分类模型的全连接层将综合特征映射成类别向量；

对类别向量进行归一化处理，得到待分类图像的分类结果。

参见图1和图2，在向量拼接过程之后，通过全连接层及softmax层对待分类图像分类进行预测。其中全连接层的作用是将拼接后的综合特征的多维特征向量映射成为一个与图像类别对应的向量。在一个示例中，图像类别可包括作弊图像和非作弊图像。softmax层的作用是做归一化处理，使各图像类别对应的概率和为1。

本申请实施例中，使用综合特征对图像进行分类，提升了对复杂图像的识别准确率。

图4是根据本申请实施例的图像分类模型训练方法的流程图。如图4所示，该图像分类模型训练方法包括：

步骤S310，根据图像分类模型的第一分支网络提取的细节特征得到的分类结果，计算第一损失值；

步骤S320，根据图像分类模型的第二分支网络提取的整体特征得到的分类结果，计算第二损失值；

步骤S330，根据细节特征与整体特征拼接后的综合特征得到的分类结果，计算第三损失值；

步骤S340，将第一损失值、第二损失值和第三损失值加权求和，得到综合损失值；

步骤S350，利用综合损失值调节图像分类模型的网络参数。

在一种实施方式中，图像分类模型的训练可采用端到端训练的方式。与深度学习模型不同，传统机器学习的流程往往由多个独立的模块组成。比如在一个典型的自然语言处理问题中，包括分词、词性标注、句法分析、语义分析等多个独立步骤。其中每个步骤是一个独立的任务，其结果的好坏会影响到下一步骤，从而影响整个训练的结果，这是训练过程非端到端的。而深度学习模型在训练过程中，从输入端到输出端会得到一个预测结果，与真实结果相比较会得到一个误差。这个误差会在模型中的每一层传递，例如反向传播过程，每一层的表示都会根据这个误差来做调整，直到模型收敛或达到预期的效果才结束。以神经网络模型为例，中间所有的操作都包含在神经网络内部，不再分成多个模块处理。由原始数据输入，到结果输出，从输入端到输出端，中间的神经网络自成一体，可以当作黑盒子看待，这个过程是端到端的。非端到端的方式与端到端的方式两者相比，端到端的学习省去了在每一个独立学习任务执行之前所做的数据标注。由于为样本做标注的代价是昂贵的、易出错的，因此，端到端的方式成本更低，效果更好。

本申请实施例的图像分类模型的训练过程中，由于图像分类模型采用了分支网络的设计，为防止图像分类模型过度依赖于某一分支网络进行预测，使另一分支无法获得梯度而导致无法训练的情况发生，可采用如图4所示的训练办法。

图5是根据本申请实施例的图像分类模型训练方法的图像分类模型的网络结构示意图。图5是针对第一分支网络和第二分支网络分别进行训练的网络结构示意图。参见图4和图5，在步骤S310中，使用第一分支网络得到特征向量，通过全连接层，使用交叉熵得到第一损失值loss1。在步骤S320中，使用第二分支网络得到特征向量，通过全连接层，使用交叉熵得到第二损失值loss2。

交叉熵是分类问题常用的损失函数。交叉熵描述了两个概率分布之间的距离，交叉熵越小说明两者之间越接近。本申请实施例中，采用交叉熵可准确度量概率分布间的差异性信息，且有助于更好地控制模型收敛速度。

再参见图4和图2，在步骤S330中，使用第一分支网络与第二分支网络结果拼接后的特征向量，通过全连接层，使用交叉熵得到第三损失值loss3。最后，在步骤S340中，将loss1、loss2及loss3的值加权求和，将加权求和的值作为综合损失值，用于优化网络的损失。在一个示例中，可直接使用反向传播方法对模型进行训练。

本申请实施例中，细节特征体现了图像特征的语义和位置的对应关系。例如，从一张人像图像中提取到图像中的元素包括一个美女和一串小字符，则图像的整体特征可包括一个美女，图像的细节特征可包括一串小字符，以及美女的眼睛、鼻子、嘴等等。综合特征是由细节特征和整体特征拼接而成的，综合特征包括细节特征和整体特征。仅根据整体特征或仅根据细节特征对图像进行分类可能会造成误判。例如上述示例中图像的整体特征是一个美女，应属于非作弊图片，但其细节特征一串小字符可能是非法字符或非法链接，因此仅根据整体特征或仅根据细节特征对图像进行分类都可能会造成误判。将图像细节特征和图像整体特征相结合，可提升对复杂图像的识别准确率。

图6是根据本申请实施例的图像分类装置结构示意图。如图6所示，本申请实施例的流式计算的数据处理装置包括：

识别单元100，用于将待分类图像的初级特征分别输入到图像分类模型的第一分支网络和第二分支网络，并利用第一分支网络识别待分类图像的细节特征，利用第二分支网络识别待分类图像的整体特征；

拼接单元200，用于根据细节特征与整体特征得到综合特征；

分类单元300，用于根据综合特征对待分类图像进行分类。

在一种实施方式中，所述第一分支网络包括L个第二卷积层、池化层和双线性层；

所述第二分支网络包括K个第三卷积层和池化层；

其中，所述第二卷积层用于提取所述待分类图像的第一语义信息和位置信息；所述第三卷积层用于提取所述待分类图像的第二语义信息；所述池化层用于增大感受野；L和K为正整数。

在一种实施方式中，所述第二卷积层的个数L小于所述第三卷积层的个数K。

图7是根据本申请实施例的图像分类装置结构示意图。如图7所示，在一种实施方式中，上述装置还包括提取单元105，提取单元105用于：

在一种实施方式中，识别单元100用于：

在一种实施方式中，所述拼接单元200用于：

在一种实施方式中，分类单元300用于：

通过图像分类模型的全连接层将综合特征映射成类别向量；

对类别向量进行归一化处理，得到待分类图像的分类结果。

图8是根据本申请实施例的图像分类模型训练装置结构示意图。如图8所示，本申请实施例的图像分类模型训练装置包括：

第一计算单元400，用于根据图像分类模型的第一分支网络提取的细节特征得到的分类结果，计算第一损失值；

第二计算单元500，用于根据图像分类模型的第二分支网络提取的整体特征得到的分类结果，计算第二损失值；

第三计算单元600，用于根据细节特征与整体特征拼接后的综合特征得到的分类结果，计算第三损失值；

第四计算单元700，用于将第一损失值、第二损失值和第三损失值加权求和，得到综合损失值；

调节单元800，用于：利用综合损失值调节图像分类模型的网络参数。

本申请实施例的通用记录处理装置中的各单元的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的图像分类方法或图像分类模型训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的图像分类方法或图像分类模型训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的图像分类方法或图像分类模型训练方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的图像分类方法或图像分类模型训练方法对应的程序指令/模块(例如，附图6所示的识别单元100、拼接单元200和分类单元300，附图7所示的提取单元105，以及附图8所示的第一计算单元400、第二计算单元500、第三计算单元600、第四计算单元700和调节单元800)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的图像分类方法或图像分类模型训练方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据执行图像分类方法或图像分类模型训练方法的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至执行图像分类方法或图像分类模型训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

执行图像分类方法或图像分类模型训练方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与执行图像分类方法或图像分类模型训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(Liquid Crystal Display，LCD)、发光二极管(Light Emitting Diode，LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuits，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(programmable logic device，PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode Ray Tube，阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过网络分支优化了图像分类模型的网络结构，将图像细节特征和图像整体特征相结合，提升了对复杂图像的识别准确率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种图像分类方法，其特征在于，包括：

将待分类图像的初级特征分别输入到图像分类模型的第一分支网络和第二分支网络，并利用所述第一分支网络识别所述待分类图像的细节特征，利用所述第二分支网络识别所述待分类图像的整体特征；

根据所述细节特征与所述整体特征得到综合特征；

根据所述综合特征对所述待分类图像进行分类。

2.根据权利要求1所述的方法，其特征在于，所述细节特征包括从所述待分类图像的局部范围内提取的局部元素的语义特征。

3.根据权利要求1所述的方法，其特征在于，所述整体特征包括利用所述待分类图像整体提取的语义特征。

4.根据权利要求1-3中任一项所述的方法，其特征在于，利用所述第一分支网络识别所述待分类图像的细节特征，包括：

通过所述第一分支网络中的第二卷积层提取所述待分类图像的语义信息和位置信息；

利用所述第一分支网络中的双线性层根据所述语义信息和所述位置信息得到所述待分类图像的细节特征。

5.根据权利要求1-3中任一项所述的方法，其特征在于，根据所述细节特征与所述整体特征得到综合特征，包括：

6.一种图像分类模型训练方法，其特征在于，包括：

根据所述图像分类模型的第二分支网络提取的整体特征得到的分类结果，计算第二损失值；

根据所述细节特征与所述整体特征拼接后的综合特征得到的分类结果，计算第三损失值；

将所述第一损失值、所述第二损失值和所述第三损失值加权求和，得到综合损失值；

利用所述综合损失值调节所述图像分类模型的网络参数。

7.一种图像分类装置，其特征在于，包括：

识别单元，用于将待分类图像的初级特征分别输入到图像分类模型的第一分支网络和第二分支网络，并利用所述第一分支网络识别所述待分类图像的细节特征，利用所述第二分支网络识别所述待分类图像的整体特征；

拼接单元，用于根据细节特征与整体特征得到综合特征；

分类单元，用于根据所述综合特征对所述待分类图像进行分类。

8.根据权利要求7所述的装置，其特征在于，所述细节特征包括从所述待分类图像的局部范围内提取的局部元素的语义特征。

9.根据权利要求7所述的装置，其特征在于，所述整体特征包括利用所述待分类图像整体提取的语义特征。

10.根据权利要求7-9中任一项所述的装置，其特征在于，所述识别单元用于：

利用所述第一分支网络中的双线性层根据所述语义信息和所述位置信息，得到所述待分类图像的细节特征。

11.根据权利要求7-9中任一项所述的装置，其特征在于，所述拼接单元用于：

12.一种图像分类模型训练装置，其特征在于，包括：

第二计算单元，用于根据所述图像分类模型的第二分支网络提取的整体特征得到的分类结果，计算第二损失值；

第三计算单元，用于根据所述细节特征与所述整体特征拼接后的综合特征得到的分类结果，计算第三损失值；

第四计算单元，用于将所述第一损失值、所述第二损失值和所述第三损失值加权求和，得到综合损失值；

调节单元，用于利用所述综合损失值调节所述图像分类模型的网络参数。

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。