CN112597997A

CN112597997A - 感兴趣区域确定方法、图像内容识别方法及装置

Info

Publication number: CN112597997A
Application number: CN202011582717.3A
Authority: CN
Inventors: 朱晓宁; 员娇娇; 吴喆峰
Original assignee: Jingying Digital Technology Co Ltd
Current assignee: Jingying Digital Technology Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-02

Abstract

本申请提供一种感兴趣区域确定方法、图像内容识别方法及装置，所述方法包括：获取待识别图像的特征图；从特征图中确定多个候选框，获得各候选框对应的第一特征信息；针对每个候选框，将该候选框的第一特征信息与其他各个候选框的第一特征信息进行特征融合，获得该候选框的第二特征信息；根据每个候选框的第二特征信息，对各候选框进行边界调整及二元分类；针对在二元分类中被确定为前景的候选框进行非极大值抑制筛选处理，将筛选出的候选框确定为感兴趣区域并获得各感兴趣区域对应的第二特征信息。如此，使每个候选框的特征中融入了其他候选框的特征，进而使得在后续使用候选框中的特征进行感兴趣区域确定或进行图像内容识别时能够更加准确。

Description

感兴趣区域确定方法、图像内容识别方法及装置

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种感兴趣区域确定方法、图像内容识别方法及装置。

背景技术

图像内容识别是一种通过机器学习模型识别并标识出图像上预设内容的技术。在一些图像内容识别技术中，为了提高图像内容识别的速度，常通过先区域提议网络(RegionProposal Network，RPN)先从待识别图像上确定一些可能存在需要识别的内容的感兴趣区域，再通将这些感兴趣区域中的图像特征输入后续的分类网络进行识别，以确定这些感兴趣区域中的图像内容所述的类别。区域提议网络通常是先从待识别图像的特征图中确定一些候选框，然后根据候选框中的图像特征进行感兴趣区域的确定及获取感兴趣区域中的图像特征。

但目前区域提议网络中，对候选框的特征进行处理过程中，通常只考虑了各个候选框各自的图像特征，没有考虑候选框之间图像特征可能存在的联系。导致最后各个候选特征框对应的图像特征丰富度不够，影响后续的感兴趣区域的确定及图像内容识别的精准程度。

发明内容

为了克服现有技术中的上述不足，本申请的目的之一在于提供一种感兴趣区域确定方法，所述方法包括：

获取待识别图像的特征图，所述特征图由卷积神经网络对所述待识别图像进行特征提取获得；

通过区域提议网络的卷积层从所述特征图中确定多个候选框，获得各所述候选框对应的第一特征信息；

针对每个所述候选框，将该候选框的第一特征信息与其他各个候选框的第一特征信息进行特征融合，获得该候选框的第二特征信息；

根据每个所述候选框的第二特征信息，对各所述候选框进行边界调整及二元分类；

针对在所述二元分类中被确定为前景的候选框进行非极大值抑制筛选处理；

将筛选出的所述候选框确定为感兴趣区域并获得各所述感兴趣区域对应的第二特征信息。

在一种可能的实现方式中，所述针对每个所述候选框，将该候选框的第一特征信息与其他各个候选框的第一特征信息进行特征融合的步骤，包括：

针对每个所述候选框，根据其他候选框与该候选框的相对位置关系，将该候选框的第一特征信息与其他各个候选框的第一特征信息进行特征融合。

在一种可能的实现方式中，所述针对每个所述候选框，根据其他候选框与该候选框的相对位置关系，将该候选框的第一特征信息与其他各个候选框的第一特征信息进行特征融合的步骤，包括：

针对每个所述候选框，将该候选框和其他候选框的位置及第一特征信息输入Transformer模型的编码器；

通过所述编码器对该候选框和其他各个候选框的第一特征信息进行根据位置关系的加权融合，获得该候选框的第二特征信息。

在一种可能的实现方式中，所述编码器包括多个依次连接的编码层，每个所述编码层包括多头自注意力层、第一归一化层、第一残差融合门限机制、前向传播网络、第二归一化层及第二残差融合门限机制；所述通过所述编码器对该候选框和其他各个候选框的第一特征信息进行根据位置关系的加权融合的步骤包括：

针对每个所述编码层，从所述卷积层或者上一编码层获得输入数据；

通过所述多头自注意力层对所述输入数据进行加权融合；

将所述多头自注意力层的输出结果输入至所述第一归一化层进行归一化处理；

将所述输入数据和所述第一归一化层的输出结果输入所述第一残差融合门限机制，通过所述第一残差融合门限机制对所述第一全局特征和所述第一局部特征进行残差融合处理；

将所述第一残差融合门限机制的输出结果输入至全连接的所述前向传播网络进行处理；

将所述前向传播网络的输出结果输入至所述第二归一化层进行归一化处理；

将所述第一残差融合门限机制的输出结果和所述第二归一化层的输出结果输入至所述第二残差融合门限机制，通过所述第二残差融合门限机制进行全局特征和局部特征的残差融合处理；

输出所述第二残差融合门限机制的处理结果。

针对每个所述候选框，根据其他各个候选框与该候选框之间的位置关系，通过图卷积操作其他候选框与该候选框的第一特征信息进行融合，获得该候选框的第二特征信息。

本申请的另一目的在于提供一种图像内容识别方法，所述方法包括：

获取待识别图像；

通过预选训练好的卷积层神经网络对所述待识别图像进行特征提取，活动的所述待识别图像的特征图；

通过本申请提供的所述感兴趣区域确定方法确定感兴趣区域及所述感兴趣区域对应的第二特征信息；

将所述特征图、各个所述感兴趣区域的位置及各所述感兴趣区域对应的第二特征信息输入感兴趣区域池化层进行处理，获得各所述感兴趣区域对应的第三特征信息；

将各个所述感兴趣区域的第三特征信息输入分类模型，获得各感兴趣区域对应的图像内容类别。

本申请的另一目的在于提供一种感兴趣区域确定装置，所述方法包括：

特征图获取模块，用于获取待识别图像的特征图，所述特征图由卷积神经网络对所述待识别图像进行特征提取获得；

候选框确定模块，用于通过卷积层从所述特征图中确定多个候选框，获得各所述候选框对应的第一特征信息；

特征融合模块，用于针对每个所述候选框，将该候选框的第一特征信息与其他各个候选框的第一特征信息进行特征融合，获得该候选框的第二特征信息；

候选框筛选模块，用于根据每个所述候选框的第二特征信息，对各所述候选框进行边界调整及二元分类；针对在所述二元分类中被确定为前景的候选框进行非极大值抑制筛选处理；

感兴趣区域输出模块，用于将筛选出的所述候选框确定为感兴趣区域并获得各所述感兴趣区域对应的第二特征信息。

本申请的另一目的在于提供一种图像内容识别装置，所述装置包括：

待识别图像获取模块，用于获取待识别图像；

特征图提取模块，用于通过预选训练好的卷积层神经网络对所述待识别图像进行特征提取，获得所述待识别图像的特征图；

感兴趣区域确定模块，用于通过本申请提供的所述感兴趣区域确定装置确定感兴趣区域及所述感兴趣区域对应的第二特征信息；

池化处理模块，用于将所述特征图、各个所述感兴趣区域的位置及各所述感兴趣区域对应的第二特征信息输入感兴趣区域池化层进行处理，获得各所述感兴趣区域对应的第三特征信息；

分类识别模块，用于将各个所述感兴趣区域的第三特征信息输入分类模型，获得各感兴趣区域对应的图像内容类别。

本申请的另一目的在于提供一种电子设备，包括处理器及机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被所述处理器执行时，实现本申请提供的感兴趣区域确定方法或图像内容识别方法。

本申请的另一目的在于提供一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被一个或多个处理器执行时，实现本申请提供的感兴趣区域确定方法或图像内容识别方法。

相对于现有技术而言，本申请具有以下有益效果：

本申请实施例提供的感兴趣区域确定方法、图像内容识别方法及装置，在进行特征提取时，考虑到了候选框之间可能存在的内在关联程度，将候选框之间特征进行融合，使每个候选框的特征中融入了其他候选框的特征，进而使得在后续使用候选框中的特征进行感兴趣区域确定或进行图像内容识别时能够更加准确。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为现有区域提议网络的架构示意图；

图2为本申请实施例提供的改进的区域提议网络的架构示意图；

图3为本申请实施例提供的感兴趣区域确定方法的步骤流程示意图；

图4为Transformer模型编码器的架构示意图；

图5为本申请实施例提供的改进的Transformer编码器的架构示意图；

图6为本申请实施例提供的一种执行特征融合的步骤流程示意图；

图7为本申请实施例提供的图像内容识别方法的流程示意图；

图8为本申请实施例提供的电子设备的结构示意图；

图9为本申请实施例提供的感兴趣区域确定装置的功能模块示意图；

图10为本申请实施例提供的图像内容识别装置的功能模块示意图。

图标：100-电子设备；120-机器可读存储介质；130-处理器；140-感兴趣区域确定装置；141-特征图获取模块；142-候选窗口确定模块；143-特征融合模块；144-候选窗口筛选模块；145-感兴趣区域输出模块；150-图像内容识别装置；151-待识别图像获取模块；152-特征图提取模块；153-感兴趣区域确定模块；154-池化处理模块；155-分类识别模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

请参照图1，图1为一些图像内容识别技术中所使用到的Faster-RCNN模型，该模型中通常包括一区域提议网络，该区域提议网络用于确定出待识别图像上可能存在物体的区域，根据这些区域确定出候选框，并根据候选框中的图像特征进行前景背景识别筛选、重叠筛选等动作，最近将筛选出的候选框作为感兴趣区域，并将感兴趣区域中的特征输出至Faster-RCNN模型的后续部分进行进一步分类识别。

其中，值得注意的是，在这种实现方式中，区域提议网络主要是针对待识别图像上的某一个部分进行相对独立的识别和特征提取。也就是说，在确定候选框后，最后各个候选框中的图像特征只能表征待识别图像上某个部分独立的图像特征。这会导致后续在根据某个候选框中的图像特征进行感兴趣区域筛选及后续图像内容分类识别时，也只考虑到了该候选框中图像特征。

经过发明人研究发现，在实际的图像识别中，各个候选框中的图像特征可能存在一些潜在的联系，如果在对某个候选框进行识别处理时综合考虑与其相关的其他候选框中的特征，可以对增强候选框进行增强，进而提高后续识别的准确度。

有鉴于此，本实施例提供一种感兴趣区域确定方法、图像内容识别方法及装置，针对每个候选框，将该候选框的图像特征与其他候选框的图像特征进行融合，从而使得各个候选框的图像特征中融入了其他候选框的图像特征，在后续使用各个候选框的图像特征进行图像内容识别或筛选时可以更加准确。下面对本实施例提供的方案进行详细阐述。

本实施例提供一种感兴趣区域确定方法，请参照图2，该方法可以视作本实施例提供的一种改进的区域提议网络的数据处理过程。请参照图3，下面对该方法的各个步骤进行详细阐述。

步骤S110，获取待识别图像的特征图，所述特征图由卷积神经网络对所述待识别图像进行特征提取获得。

在本实施例中，所述特征图是由卷积神经网络对待识别图像进行特征提取获得的。例如，在一种可能实现方式中，在本实施例提供感兴趣区域确定方法被使用在Faster-RCNN模型时，该卷积神经网络可以为Faster-RCNN模型的首个卷积神经网络。

步骤S120，通过区域提议网络的卷积层从所述特征图中确定多个候选框，获得各所述候选框对应的第一特征信息。

在本实施例中，可以通过如图2所示的卷积层根据输入的所述特征图确定出多个候选框，并获得各个候选框对应的第一特征信息。所述多个候选框及其第一特征信息可以由所述卷积层根据锚(anchor)机制处理获得。

步骤S130，针对每个所述候选框，将该候选框的第一特征信息与其他各个候选框的第一特征信息进行特征融合，获得该候选框的第二特征信息。

请再次参照图2，在本实施例提供的改进的区域提议网络中，可以包括一特征融合模型，该特征融合模型可以被训练成用于将某个候选框的特征与其他候选框的特征进行融合。

例如，针对每个所述候选框，可以根据其他候选框与该候选框的之间关联程度，将该候选框的第一特征信息与其他各个候选框的第一特征信息进行特征融合。在某个候选框的第二特征信息中，来自与其关联程度越高的其他候选框的特征信息所占的比重越大，从而对该候选框后续的识别筛选时的影响越大。

步骤S140，根据每个所述候选框的第二特征信息，对各所述候选框进行边界调整及二元分类。

请再次参照图2，在本实施例提供的改进的区域提议网络中，二元分类模型可以预先被训练为根据各个候选框的第二特征信息，判断该候选框中对应图像内容属于前景图像还是背景图像；边界调整模型可以预先被训练为根据各个候选框的第二特征信息对各个候选框的大小和/或位置进行调整，使各个候选框的大小和/或位置能更准确地覆盖待识别图像上的图像内容。

步骤S150，针对在所述二元分类中被确定为前景的候选框进行非极大值抑制筛选处理，将筛选出的所述候选框确定为感兴趣区域并获得各所述感兴趣区域对应的第二特征信息。

请再次参照图2，在本实施例提供的改进的区域提议网络中，非极大值抑制模型可以预先被训练为根据被确定为前景的候选框中的分类置信度，对重叠的候选框进行筛选，从而筛选出覆盖特定图像内容的最佳的窗口。被筛选出的候选框即可以作为感兴趣区域，这些感兴趣区域在所述待识别图像中的位置连同这些感兴趣区域中的第二特征信息可以一起被输出至其他处理模型进行进一步地图像内容识别。

基于上述设计，在本实施例提供的感兴趣区域确定方法中，在提取候选框中的特征时，将候选框之间的特征进行融合，从而使得每个候选框中融入了其他候选框的特征，建立和其他候选框中特征的关联，提高了候选框中特征所表达信息的丰富度，进而可以提升后续根据候选框中的特征信息进行感兴趣区域确定及对感兴趣区域中的图像内容进行分类识别时的精准度。

在一种可能的实现方式中，针对每个所述候选框，根据其他候选框与该候选框的之间第一特征信息的关联程度，将该候选框的第一特征信息与其他各个候选框的第一特征信息进行特征融合。

通过预先的训练过程或预先配置，特征融合模型可以被训练为或被配置为能够获取某个候选框与其他候选框之间第一特征信息的关联程度，该关联程度可以表征在预先的模型训练过程中挖掘的候选窗后特征之间的潜在联系。然后根据该关联程度将其他候选框的第一特征信息与该候选框的第一特征信息进行加权求和，从而获得该候选框的第二特征信息。

例如，在步骤S130进行特征融合时，可以采用Transformer模型的编码器进行特征融合。例如，针对每个所述候选框，将该候选框和其他候选框的第一特征信息输入Transformer模型的编码器。然后通过所述编码器对该候选框和其他各个候选框的第一特征信息进行基于第一特征信息关联程度的加权融合，获得该候选框的第二特征信息。

Transformer模型是多个并行的自注意力机制的组合，自注意力机制通过挖掘特征之间的联系，根据特征之间的相似度，将单个特征转换为该特征和其他特征进行加权和的机制。一次自注意力机制相当于挖掘了特征之间联系，Transformer模型是多个并行的自注意力机制的集合，相当于挖掘了多次特征之间的联系。通过Transformer完成候选框特征之间的交互，每个候选框中融入了其他候选框的特征，从而实现了特征增强的过程。

在本实施例中，可以主要使用Transformer模型的编码器部分。

请参照图4，图4为一种Transformer模型的编码器结构，该Transformer模型的编码器可以包括N个编码层(例如，包括6个编码层)，每个编码层主要包括一个多头自注意力机制、全连接的前向传播网络以及一些执行归一化和求和处理的数据处理层。

其中，多头自注意力机制的基本构成单元是attention模型，attention模型的输出结果attention_output如下所示

attention_output＝Attention(Q,K,V) 式(1)

其中，Q、K、V为不同候选框的第一特征信息，d_k为将Q、K、V进行空间映射的维度。计算Q与K之间基于相似程度的关联性权重可以得到attention分布。在得到attention分布之后，将候选框的第一特征信息和对应的attention进加权求和，从而得到相应的输出。

多头自注意力机制则是通过h个不同的线性变换对Q、K、V进行投影，最后将不同的attention结果拼接起来：

MultiHead(Q,K,V)＝Concat(head₁,head₂,……,head_h)W⁰ 式(3)

其中，W⁰为进行线性变换的参数，i＝1,2,…,h。通过多头注意力机制可以实现候选框之间的特征融合，全连接的前向传播网络主要是为了提供特征数据的非线性变换。

可选地，本实施例还提供一种改进后的Transformer模型的编码器，请参照图5，该改进后的Transformer模型的编码器可以包括多头自注意力层、第一归一化层、第一残差融合门限机制、前向传播网络、第二归一化层及第二残差融合门限机制。请参照图6该改进后的Transformer模型的编码器执行特征融合时的步骤如下所示。

步骤S310，针对每个所述编码层，从所述卷积层或者上一编码层获得输入数据。

步骤S320，通过多头自注意力层对所述输入数据进行加权融合。

步骤S330，将所述多头自注意力层的输出结果输入至第一归一化层进行归一化处理。

步骤S340，将所述输入数据和所述第一归一化层的输出结果输入所述第一残差融合门限机制，通过所述第一残差融合门限机制进行全局特征和局部特征的残差融合处理。

步骤S350，将所述第一残差融合门限机制的输出结果输入至全连接的前向传播网络进行处理。

步骤S360，将所述前向传播网络的输出结果输入至第二归一化层进行归一化处理。

步骤S370，将所述第一残差融合门限机制的输出结果和所述第二归一化层的输出结果输入至所述第二残差融合门限机制，通过所述第二残差融合门限机制进行全局特征和局部特征的残差融合处理。

步骤S380，输出所述第二残差融合门限机制的处理结果。

换句话说，在本实施例中，可以采用残差融合门限机制代替传统Transformer模型中简单的求和机制，从而实现全局特诊和局部特征的融合，能够进一步提高模型的特征提取能力，使得后续根据提取的特征进行分类识别时更加准确。

在另一种可能的实现方式中，在步骤S130中也可以采用图卷积操作实现候选框之间的特征融合。例如，针对每个所述候选框，根据其他各个候选框与该候选框之间的关联关系，通过图卷积操作其他候选框与该候选框的第一特征信息进行融合，获得该候选框的第二特征信息。

具体地，在图卷积操作中，是将各个候选框作为图中的节点，通过某种预先设定规定的规则或预先机器学习训练得到候选框之间的边关系(边表示两个候选框之间有没有关系，有边代表有关系，没边代表没关系)。节点之间的边，又称为节点之间的邻接矩阵，通常记作A。通过确定节点和边，从而得到图的形状；在得到图的形状之后，使用图卷积对图进行操作，图卷积将每个节点的邻接节点的信息聚合到该节点中，从而完成特征融合的过程。图卷积的表达式如下：

H^L+1＝σ(AH^LW^L) 式(5)

其中，A代表节点之间的预设定好邻接矩阵，H^L代表图卷积的第L层，H^L+1代表图卷积的第L+1层。假设图中有N个节点(即图像中有N个候选框)，每个节点的特征是一个D维的向量，则H^l和H^L+1都是一个N*D的矩阵；A是一个N*N的矩阵。W^L表示第L层和第L+1层之间的网络参数。σ(·)为非线性激活函数，例如RELU。

本实施例提供的感兴趣区域确定方法可以被使用在Fater-RCNN中用于确定感兴趣区域并获取感兴趣区域中的特征。例如，本实施例还提供一种图像内容识别方法，该方法各个步骤可以视作图7所示改进的Fster-RCNN模型的数据处理过程。请参照图7，本实施例提供的图像内容识别方法可以包括如下步骤。

步骤S410，获取待识别图像。

步骤S420，通过预选训练好的卷积层神经网络对所述待识别图像进行特征提取，活动的所述待识别图像的特征图。

步骤S430，通过本实施例提供所述感兴趣区域确定方法，确定感兴趣区域及所述感兴趣区域对应的第二特征信息。

在本实施例中，所述Fater-RCNN模型中可以采用本实施例提供的改进后的区域提议网络。该改进后的区域提议网络的结构及数据过程可以参见图1及图2的相关描述，在此不再赘述。

步骤S440，将所述特征图、各个所述感兴趣区域的位置及各所述感兴趣区域对应的第二特征信息输入感兴趣区域池化层进行处理，获得各所述感兴趣区域对应的第三特征信息。

步骤S450，将各个所述感兴趣区域的第三特征信息输入分类模型，获得各感兴趣区域对应的图像内容类别。

由于通过本实施例通过的感兴趣区域确定方法确定的感兴趣区域及其对应的第二特征信息中，融合其他候选区域的特征信息，使得各个感兴趣区域的第二特征信息更加丰富，进而使得Faster-RCNN模型后续在根据这些第二特征信息进行分类识别时，分类结果可以更加准确。

请参照图8，图8为本实施例提供的一种电子设备100的硬件结构示意图。该电子设备100可包括处理器130及机器可读存储介质120。处理器130与机器可读存储介质120可经由系统总线通信。并且，机器可读存储介质120存储有机器可执行指令，通过读取并执行机器可读存储介质120中与感兴趣区域确定逻辑或图像内容识别逻辑对应的机器可执行指令，处理器130可执行上文描述的感兴趣区域确定方法或图像内容识别方法。

本文中提到的机器可读存储介质120可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质120可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

请参照图9，本实施例还提供一种感兴趣区域确定装置140，所述感兴趣区域确定装置140包括至少一个可以软件形式存储于机器可读存储介质120中的功能模块。从功能上划分，所述感兴趣区域确定装置140可以包括特征图获取模块141、候选框确定模块、特征融合模块143、候选框筛选模块及感兴趣区域输出模块145。

所述特征图获取模块141用于获取待识别图像的特征图，所述特征图由卷积神经网络对所述待识别图像进行特征提取获得。

本实施例中，所述特征图获取模块141可用于执行图3所示的步骤S110，关于所述特征图获取模块141的具体描述可参对所述步骤S110的描述。

所述候选框确定模块用于通过卷积层从所述特征图中确定多个候选框，获得各所述候选框对应的第一特征信息。

本实施例中，所述候选窗口确定模块142可用于执行图3所示的步骤S120，关于所述候选窗口确定模块142的具体描述可参对所述步骤S120的描述。

所述特征融合模块143用于针对每个所述候选框，将该候选框的第一特征信息与其他各个候选框的第一特征信息进行特征融合，获得该候选框的第二特征信。

本实施例中，所述特征融合模块143可用于执行图3所示的步骤S130，关于所述特征融合模块143的具体描述可参对所述步骤S130的描述。

所述候选框筛选模块用于根据每个所述候选框的第二特征信息，对各所述候选框进行边界调整及二元分类。

本实施例中，所述候选窗口筛选模块144可用于执行图3所示的步骤S140，关于所述候选窗口筛选模块144的具体描述可参对所述步骤S140的描述。

所述感兴趣区域输出模块145用于针对在所述二元分类中被确定为前景的候选框进行非极大值抑制筛选处理；将筛选出的所述候选框确定为感兴趣区域并获得各所述感兴趣区域对应的第二特征信息。

本实施例中，所述感兴趣区域输出模块145可用于执行图3所示的步骤S150，关于所述感兴趣区域输出模块145的具体描述可参对所述步骤S150的描述。

请参照图10，本实施例还提供一种图像内容识别装置150，所述图像内容识别装置150包括至少一个可以软件形式存储于机器可读存储介质120中的功能模块。从功能上划分，所述图像内容识别装置150可以包括待识别图像获取模块151、特征图提取模块152、感兴趣区域确定模块153、池化处理模块154及分类识别模块155。

所述待识别图像获取模块151用于获取待识别图像。

所述特征图提取模块152用于通过预选训练好的卷积层神经网络对所述待识别图像进行特征提取，获得所述待识别图像的特征图。

所述感兴趣区域确定模块153用于通过本实施例提供的所述感兴趣区域确定装置140确定感兴趣区域及所述感兴趣区域对应的第二特征信息。

所述池化处理模块154用于将所述特征图、各个所述感兴趣区域的位置及各所述感兴趣区域对应的第二特征信息输入感兴趣区域池化层进行处理，获得各所述感兴趣区域对应的第三特征信息。

所述分类识别模块155用于将各个所述感兴趣区域的第三特征信息输入分类模型，获得各感兴趣区域对应的图像内容类别。

综上所述，本申请实施例提供的感兴趣区域确定方法、图像内容识别方法及装置，在进行特征提取时，考虑到了候选框之间可能存在的内在关联程度，将候选框之间特征进行融合，使每个候选框的特征中融入了其他候选框的特征，进而使得在后续使用候选框中的特征进行感兴趣区域确定或进行图像内容识别时能够更加准确。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种感兴趣区域确定方法，其特征在于，所述方法包括：

针对在所述二元分类中被确定为前景的候选框进行非极大值抑制筛选处理，将筛选出的所述候选框确定为感兴趣区域并获得各所述感兴趣区域对应的第二特征信息。

2.根据权利要求1所述的方法，其特征在于，所述针对每个所述候选框，将该候选框的第一特征信息与其他各个候选框的第一特征信息进行特征融合的步骤，包括：

针对每个所述候选框，根据其他候选框与该候选框的之间第一特征信息的关联程度，将该候选框的第一特征信息与其他各个候选框的第一特征信息进行特征融合。

3.根据权利要求2所述的方法，其特征在于，所述针对每个所述候选框，根据其他候选框与该候选框的之间第一特征信息的关联程度，将该候选框的第一特征信息与其他各个候选框的第一特征信息进行特征融合的步骤，包括：

针对每个所述候选框，将该候选框和其他候选框的第一特征信息输入Transformer模型的编码器；

通过所述编码器对该候选框和其他各个候选框的第一特征信息进行基于第一特征信息关联程度的加权融合，获得该候选框的第二特征信息。

4.根据权利要求3所述的方法，其特征在于，所述编码器包括多个依次连接的编码层，每个所述编码层包括多头自注意力层、第一归一化层、第一残差融合门限机制、前向传播网络、第二归一化层及第二残差融合门限机制；所述通过所述编码器对该候选框和其他各个候选框的第一特征信息进行基于第一特征信息关联程度的加权融合，获得该候选框的第二特征信息的步骤包括：

通过所述多头自注意力层对所述输入数据进行加权融合；

将所述输入数据和所述第一归一化层的输出结果输入所述第一残差融合门限机制，通过所述第一残差融合门限机制进行全局特征和局部特征的残差融合处理；

输出所述第二残差融合门限机制的处理结果。

5.根据权利要求1所述的方法，其特征在于，所述针对每个所述候选框，将该候选框的第一特征信息与其他各个候选框的第一特征信息进行特征融合，获得该候选框的第二特征信息的步骤，包括：

针对每个所述候选框，根据其他各个候选框与该候选框之间的关联关系，通过图卷积操作其他候选框与该候选框的第一特征信息进行融合，获得该候选框的第二特征信息。

6.一种图像内容识别方法，其特征在于，所述方法包括：

获取待识别图像；

通过权利要求1-5任意一项所述感兴趣区域确定方法，确定感兴趣区域及所述感兴趣区域对应的第二特征信息；

7.一种感兴趣区域确定装置，其特征在于，所述方法包括：

候选框筛选模块，用于根据每个所述候选框的第二特征信息，对各所述候选框进行边界调整及二元分类；

感兴趣区域输出模块，用于针对在所述二元分类中被确定为前景的候选框进行非极大值抑制筛选处理；将筛选出的所述候选框确定为感兴趣区域并获得各所述感兴趣区域对应的第二特征信息。

8.一种图像内容识别装置，其特征在于，所述装置包括：

待识别图像获取模块，用于获取待识别图像；

感兴趣区域确定模块，用于通过权利要求7所述感兴趣区域确定装置确定感兴趣区域及所述感兴趣区域对应的第二特征信息；

9.一种电子设备，其特征在于，包括处理器及机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被所述处理器执行时，实现权利要求1-6任意一项所述的方法。

10.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被一个或多个处理器执行时，实现权利要求1-6任意一项所述的方法。