CN115937879A

CN115937879A - 基于多尺度特征融合网络的学术内容目标检测方法及系统

Info

Publication number: CN115937879A
Application number: CN202211736050.7A
Authority: CN
Inventors: 邵增珍; 董树霞; 韩帅; 李壮壮; 张旭
Original assignee: Shandong Womens University
Current assignee: Shandong Womens University
Priority date: 2022-12-31
Filing date: 2022-12-31
Publication date: 2023-04-07

Abstract

本发明公开了一种基于多尺度特征融合网络的学术内容目标检测方法及系统，该方法包括：利用特征提取网络提取输入图像的多尺度特征图，利用PAAFPN网络对特征图进行融合，得到多尺度的融合特征图；利用RPN网络生成提议框，利用训练完成的二分类器和边界框回归器对提议框进行分类和回归，得到预测框；将预测框投影到每张融合特征图中，提取预测框区域的特征图，分别进行RoIAlign，对获取的相同尺度特征图进行融合，得到最终的特征图；进行分类和回归，得到输入图像预测框部分的所属类别及位置坐标。本发明解决了现有目标检测方案目标检测不准确的问题以及目标框和预测框不一致的问题，提高了目标检测精度和检测速度。

Description

基于多尺度特征融合网络的学术内容目标检测方法及系统

技术领域

本发明涉及学术检测及计算机视觉技术领域，尤其涉及一种基于多尺度特征融合网络的学术内容目标检测方法及系统。

背景技术

本部分的陈述只是提供了与本公开相关的背景技术，并不必然构成现有技术。

学术内容检测的相关研究一直受到广泛的关注。学术内容检测包括多种种类的检测任务，如学术内容中的插图查重、表格检测、公式标注等，其作为衡量学术内容是否为原创的重要指标之一，在很大程度上能够避免学术不端、学术造假、论文抄写等现象，学术内容检测不仅可以多样化原创作者的维权方法，还可以健全学术内容审核机制，对侵犯知识产权、违反学术道德的行为加以防范和监督。

学术内容检测的主要任务为标识学术内容图像中感兴趣区域的位置以及标注感兴趣区域所属的类别，也即目标检测。目前可将目标检测方法划分为传统的目标检测算法和基于深度学习的目标检测算法。

传统的目标检测算法主要基于人工手动提取图像特征而实现，但是，随着数据量的不断增大、所需识别效果和运行速度的不断提升以及实际应用所需精度的不断提高，近年来，基于传统的目标检测算法已逐渐被新兴的基于深度学习的目标检测算法所替代。

目前，现有技术中包括大量基于深度学习的目标检测算法。RCNN采用选择性搜索算法代替滑动窗口进行提议框选取，即通过利用CNN替代传统特征提取方法，这虽然在一定程度上解决了传统方法带来的计算量大、复杂度高等缺陷，但这一方案自身却存在重复计算、资源浪费、速度慢等缺点；SPPNet改进RCNN，在图像预处理阶段去除修改图像大小的操作，通过空间金字塔输出固定大小的特征向量，减少计算量，但是，SPPNet仍同RCNN一样将SVM作为分类器，因此SPPNet存在分阶段训练的缺陷；Fast R-CNN提出ROI Pooling并在回归分类阶段用Softmax替换SVM，Fast R-CNN能够大大减少计算时间，而且CNN模块与Softmax可以同时进行训练，解决SPPNet以及RCNN模块之间无法同时训练的缺陷，但FastR-CNN采用选择性搜索算法提取提议框耗时较长；Faster R-CNN是在Fast R-CNN的基础上增加了RPN，RPN的提出极大提升了检测框的生成速度，克服了Fast R-CNN生成候选框耗时的问题，但是，RPN存在无法检测小目标的问题，为此，现有技术在Fast R-CNN的基础上提出了特征金字塔，以此提高对小目标检测的准确率，然而，这一方案底层特征严重损失、利用率低、底层特征无法影响高层特征并且从顶层信息逐层向下传递计算量比较大，最终影响目标检测的准确性。

因此，如何提供一种针对学术内容的图像尺度不同、特征融合不充分的基于多尺度特征融合网络的学术内容目标检测方法是当前亟需解决的问题。

发明内容

为解决上述现有技术的不足，本发明提供了一种基于多尺度特征融合网络的学术内容目标检测方法及系统，利用PAAFPN解决现有针对学术内容目标检测方案中由于图像尺度不同、特征融合不充分而导致的目标检测不准确的问题，同时，利用DIoU Loss解决目标框和预测框不一致的问题，提高目标检测精度和检测速度，具备更强的鲁棒性。

第一方面，本公开提供了一种基于多尺度特征融合网络的学术内容目标检测方法，包括以下步骤：

获取包含学术内容的图像，利用特征提取网络提取输入图像的多尺度特征图，利用PAAFPN网络对特征图进行融合，得到多尺度的融合特征图；

利用RPN网络对多尺度的融合特征图分别生成提议框，利用训练完成的二分类器和边界框回归器对提议框进行分类和回归，得到多尺度融合特征图的预测框；训练过程中，损失函数包括分类损失和回归损失，分类损失采用CrossEntropyLoss，回归损失采用DIoULoss；

将预测框投影到每张融合特征图中，提取预测框区域的特征图，分别进行RoIAlign，获取相同尺度的特征图，通过融合得到最终的特征图；

基于最终的特征图分别进行分类和回归，得到输入图像预测框部分的所属类别及位置坐标。

进一步的技术方案，所述获取包含学术内容的图像，利用特征提取网络提取输入图像的多尺度特征图，利用PAAFPN网络对特征图进行融合，得到多尺度的融合特征图，包括：

获取包含学术内容的图像，将图像输入特征提取网络，利用特征提取网络由底向上提取图像不同尺度的特征图；

对多尺度的特征图由顶向下依次进行上采样，在上采样的过程中与获取的相同尺度的特征图进行横向连接即对应像素相加，获得多张中间特征图；

在PAAFPN网络中新增自底向上的特征融合层，将获得的多张中间特征图再由底向上进行下采样，在下采样的过程中与获取的相同尺度的中间特征图进行横向连接，获得多张不同尺度的融合特征图。

进一步的技术方案，所述利用RPN网络对多尺度的融合特征图分别生成提议框，利用训练完成的二分类器和边界框回归器对提议框进行分类和回归，包括：

利用RPN网络，在PAAFPN网络生成的每张融合特征图的每个像素点上，生成不同尺寸和宽高比的多个提议框；

利用训练完成的二分类器和边界框回归器对每张融合特征图中每个像素点上生成的提议框分别进行分类和回归。

进一步的技术方案，所述二分类器采用CrossEntropy Loss进行二分类，判断提议框中的目标内容为前景还是背景；

所述CrossEntropy Loss的计算公式为：

其中，y_i表示样本i的标签，正类为1，负类为0；p_i表示样本i预测为正类的概率，1-p_i表示样本i预测为负类的概率；N为样本数量。

进一步的技术方案，所述边界框回归器采用DIoU Loss进行回归，得到提议框的四个位置坐标；

所述DIoU Loss的计算公式为：

其中，c表示包围目标框与预测框的最小框的对角线长度，b和b^gt分别表示预测框和目标框的中心点，ρ表示预测框与目标框之间的欧氏距离。

进一步的技术方案，还包括：

根据获取提议框为前景的分数进行排序，选择每张融合特征图的前K个提议框；

针对每张融合特征图，对前K个提议框统一进行非极大值抑制，去除冗余提议框，得到预测多尺度融合特征图的预测框。

进一步的技术方案，所述基于最终的特征图分别进行分类和回归，得到输入图像预测框部分的所属类别及位置坐标，包括：

利用训练完成的多分类器和边界框回归器对融合获得的最终的特征分别进行分类和回归，通过分类得到输入图像预测框部分的所属类别，通过回归得到输入图像预测框的位置坐标；训练过程中，损失函数包括分类损失和回归损失，分类损失采用CrossEntropyLoss，回归损失采用DIoU Loss。

第二方面，本公开提供了一种基于多尺度特征融合网络的学术内容目标检测系统，包括：

多尺度特征提取模块，用于利用特征提取网络提取输入的包含学术内容图像的多尺度特征图，利用PAAFPN网络对特征图进行融合，得到多尺度的融合特征图；

预测框生成模块，用于利用RPN网络对多尺度的融合特征图分别生成提议框，利用训练完成的二分类器和边界框回归器对提议框进行分类和回归，得到多尺度融合特征图的预测框；训练过程中，损失函数包括分类损失和回归损失，分类损失采用CrossEntropyLoss，回归损失采用DIoU Loss；

最终特征获取模块，用于将预测框投影到每张融合特征图中，提取预测框区域的特征图，分别进行RoIAlign，获取相同尺度的特征图，通过融合得到最终的特征图。

目标检测模块，用于基于最终的特征图分别进行分类和回归，得到输入图像预测框部分的所属类别及位置坐标。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。

以上一个或多个技术方案存在以下有益效果：

1、本发明提供了一种基于多尺度特征融合网络的学术内容目标检测方法及系统，考虑到特征金字塔不足，通过构建多尺度特征融合网络，在PAAFPN网络中加入自底向上的路径增强，缩短了信息传播路径的同时，借助底层特征实现更加精准的定位，还增加了底层特征对顶层特征的影响，通过利用PAAFPN解决现有针对学术内容目标检测方案中由于图像尺度不同、特征融合不充分而导致的目标检测不准确的问题。

2、本发明通过构建多尺度特征融合网络，利用DIoU Loss解决目标框和预测框不一致的问题，利用DIoU Loss取代L1Loss，DIoU Loss具有尺度不变性，能够提供提议框的收敛方向并最小化目标框与预测框之间的距离，提高收敛速度。DIoU Loss的应用提高了目标检测精度和检测速度，具备更强的鲁棒性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中目标检测的流程图；

图2为本发明实施例所述方法的整体流程图；

图3为本发明实施例中PAAFPN网络的结构示意图；

图4为本发明实施例中训练提议框、预测框、目标框的示意图；

图5为本发明实施例利用所述方法获取的训练结果的示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例提供了一种基于多尺度特征融合网络的学术内容目标检测方法，如图1所示，输入包含学术内容的图像，通过PAAFPN网络提取输入图像的特征图，此时得到多张不同尺度的特征图，之后，利用RPN网络分别在多张不同尺度的特征图上生成候选框并进行候选框的分类与回归，进而得到预测框，然后，将得到的预测框重新投影到PAAFPN提取的特征图上，将预测框所对应的特征区域提取出来并进行RoIAlign，将经过RoIAlign的特征区域融合，融合得到的特征区域再经过全连接层展开后，进行最后的分类与回归，确定目标区域的类别及位置。如图2所示，上述方法具体包括以下步骤：

步骤S1、获取包含学术内容的图像，利用特征提取网络提取输入图像的多尺度特征图，利用PAAFPN网络对特征图进行融合，得到多尺度的融合特征图；

步骤S2、利用RPN网络对多尺度的融合特征图分别生成提议框，利用训练完成的二分类器和边界框回归器对提议框进行分类和回归，得到多尺度融合特征图的预测框；训练过程中，损失函数包括分类损失和回归损失，分类损失采用CrossEntropyLoss，回归损失采用DIoU Loss；

步骤S3、将预测框投影到每张融合特征图中，提取预测框区域的特征图，分别进行RoIAlign，获取相同尺度的特征图，通过融合得到最终的特征图；

步骤S4、基于最终的特征图分别进行分类和回归，得到输入图像预测框部分的所属类别及位置坐标。

上述步骤S1，如图3所示，获取包含学术内容的图像，利用特征提取网络提取输入图像多尺度的特征图，利用PAAFPN对特征图进行融合，得到多尺度的融合特征图，包括：

步骤S1.1、获取包含学术内容的图像，将图像输入特征提取网络，获取图像的多尺度特征图。在本实施例中，采用Resnet50网络为特征提取网络，利用Resnet50网络由底向上提取图像不同尺度的特征图，即以Resnet50网络中Conv2、Conv3、Conv4、Conv5每层的输出为Resnet50网络提取的多尺度特征图，分别记为C₂、C₃、C₄、C₅，这些特征图相对于输入图像具有{4，8，16，32}的步长，即分别为原图的

倍，自底向上提取的特征图的尺寸相邻之间是2倍的关系。

步骤S1.2、对多尺度的特征图由顶向下依次进行上采样，在上采样的过程中与获取的相同尺度的特征图进行横向连接即对应像素相加，获得多张中间特征图，分别记为P₂、P₃、P₄、P₅。上述自顶向下的上采样过程中，考虑到高层特征包含丰富的语义信息，因此通过上采样将高层的特征图往下传递，由于特征图C₅是Resnet50网络的顶层输出，因此，首先从C₅开始，对C₅进行1*1的卷积，目的是为了改变通道数，得到自顶向下的最顶层P₅，然后对P₅进行2倍的上采样，通过横向连接，将具有相同尺度的特征图C₄与2倍上采样获得的P₅按元素相加后得到P₄，之后对P₄进行3*3卷积，目的是为了消除混叠效应。通过上述方法，不断进行上采样和横向连接，再获取特征图P₃和P₂。

步骤S1.3、在PAAFPN网络中新增一个自底向上的特征融合层，将获得的多张中间特征图再由底向上进行下采样，在下采样的过程中与获取的相同尺度的中间特征图进行横向连接，获得多张多尺度的融合特征图，分别记为特征图N₂、N₃、N₄、N₅。在本实施例中，为了使得浅层特征可以影响到高层特征并进行更深层次的融合，本实施例再次进行自底向上的下采样以及横向连接的过程。以获取融合特征图N₃为例，将N₂经过一个stride＝2、卷积核大小为3×3的下采样后，与中间特征图P₃进行按元素相加，进而实现特征融合，将得到的结果再经过一个stride＝1、大小为3×3的卷积核后生成融合特征图N₃。通过上述方法，不断进行下采样和横向连接，再获取融合特征图N₄和N₅。

上述在PAAFPN网络中新增一个自底向上的特征融合层，相当于增加了一条自底向上的路径，缩短信息传播路径的同时，可以借助底层特征实现更加精准的定位。

上述步骤S2，利用RPN网络对多尺度的融合特征图分别生成提议框，利用训练完成的二分类器和边界框回归器对提议框进行分类和回归，得到多尺度融合特征图的预测框；训练过程中，损失函数包括分类损失和回归损失，分类损失采用CrossEntropyLoss，回归损失采用DIoU Loss，包括：

步骤S2.1、利用RPN网络，在PAAFPN网络生成的每张融合特征图的每个像素点上，生成不同尺寸和宽高比的多个提议框。

在本实施例中，对于PAAFPN网络生成的融合特征图N₂、N₃、N₄、N₅这四张特征图中的每个像素点，生成9个不同大小和长宽比例的提议框，此处的9个提议框是通过按照三种尺寸{128*128，256*256，512*512}，每种尺寸按照{1:1，1:2，2:1}的长宽比例缩放而获取的。

步骤S2.2、利用训练完成的二分类器和边界框回归器对提议框进行分类和回归，得到多尺度融合特征图的预测框；训练过程中，损失函数包括分类损失和回归损失，分类损失采用CrossEntropyLoss，回归损失采用DIoU Loss。这一步骤的具体过程包括：

步骤S2.2.1、对每张融合特征图中每个像素点上生成的提议框分别进行分类和回归，其中，分类损失采用CrossEntropyLoss，得到两个分数用于判断提议框中的目标是前景还是背景；回归损失采用DIoU Loss，得到提议框的四个位置坐标(相对于目标框的偏移)。

首先，利用二分类器对每张融合特征图的每个像素点上生成的提议框进行分类，输出每个提议框的类别，即判断出该提议框为前景或背景；其次，将类别是前景的提议框交于回归损失函数进行回归计算；最后，通过回归损失计算输出得到每个提议框的偏移量。

上述二分类器采用CrossEntropy Loss进行二分类，判断提议框中的目标内容是前景还是背景。

上述CrossEntropy Loss的计算公式为：

其中，y_i表示样本i的标签，正类(即前景)为1，负类(即背景)为0；对于每类被预测到的概率分别为p和1-p，p_i表示样本i预测为正类的概率，1-p_i表示样本i预测为负类的概率；N为样本数量。

通过使用CrossEntropy Loss可以去衡量真实分类值与预测分类值的差异，CrossEntropy Loss的值越小表示真实值与预测值越接近，进而模型预测的效果也越好。

上述边界框回归器采用DIoU Loss进行回归，得到提议框的四个位置坐标(相对于目标框的偏移)。

如图4所示，A为提议框，B为预测框，C为目标框(该目标框人为标注)，DIoU Loss的目标是使获取的预测框与目标框无限接近并尽可能的达到重合的效果。

L_n-norm loss被广泛应用于提议框回归，但其并不适合对现有方法进行度量评估，因此本实施例采用DIoULoss来解决收敛速度慢、预测框与目标框回归不一致的问题。基于IoU的损失可定义为：

L_DIoU＝1-IoU+R_DIoU(B,B^gt)(2)

其中，R_DIoU(B,B^gt)表示预测框与目标框的惩罚项。

DIoU Loss在边框回归中考虑三个重要几何因素：重叠面积、中心点距离和长宽比，以此解决学术内容检测时预测框与目标框回归不一致的问题。为了最小化预测框与目标框两个中心点之间的归一化距离，加快收敛速度，将惩罚项设置定义为：

其中，c表示包围目标框与预测框的最小框的对角线长度，b和b^gt表示预测框和目标框的中心点，ρ表示预测框与目标框之间的欧氏距离。

最终，将DIoU的损失定义为：

根据损失定义可知，DIoU Loss的惩罚项是距离，所以DIOU Loss的优化目标是直接减小预测框和目标框中心点之间的欧氏距离，为了进一步提高收敛速度并防止Loss值太大，因此，在分母位置增加一个包围目标框与预测框的最小框的对角线长度c。

为了进一步证明DIoU Loss的有效性，考虑两种极端，即第一种是当预测框与目标框完全重合的时候，此时ρ²(b，b^gt)＝0，IoU＝1，所以L_DIoU的值是0；第二种是当预测框与目标框距离比较远，此时c和ρ²(b，b^gt)在极限状态下为1，如下：

此时L_DIoU＝2，由于ρ表示预测框与目标框之间的欧氏距离，c表示最小外接矩形的对角线距离，因此0≤ρ²(b，b^gt)＜c²，由此可知c≠0并且0≤L_DIoU≤2，故DIOU Loss是一个稳定的损失函数。

通过DIoU Loss计算得到一种映射关系，即f(A_x，A_y，A_w，A_h)＝(B_x，B_y，B_w，B_h)，通过这种映射关系使得原始输入的提议框通过关系映射后得到一个与目标框更为接近的预测框。

步骤S2.2.2、根据获取提议框为前景的分数进行排序，选择每张融合特征图的前K个提议框。在本实施例中共生成4张融合特征图，因此共产生4*K个提议框。

针对每张融合特征图，对前K个提议框统一进行NMS去除冗余提议框，得到预测多尺度融合特征图的预测框。在本实施例中，对4*K个提议框统一进行NMS去除冗余的提议框，得到预测框。

通过CrossEntropy Loss计算后判断提议框是属于前景还是背景，将属于前景的提议框按照得分进行排序，选择前K个提议框，对每张融合特征图N₂、N₃、N₄、N₅都进行如此操作，因此可得到4*K个提议框。

步骤S2.2.3、针对每张融合特征图，对前K个提议框统一进行NMS去除冗余提议框，得到预测多尺度融合特征图的预测框。在本实施例中，对4*K个提议框统一进行NMS去除冗余的提议框，得到预测框。

上述步骤中，针对每张融合特征图，对前K个提议框统一进行非极大值抑制NMS去除冗余提议框，得到预测多尺度融合特征图的预测框。在本实施例中，对4*K个提议框统一进行NMS去除冗余的提议框，得到预测框。

上述利用非极大值抑制NMS去除冗余提议框，包括：将多个(4*K个)提议框中分类分数最大的提议框与剩余的提议框b_i(i＝1……4*K-1)分别进行IoU计算，若计算结果大于设定的阈值则去除该剩余的提议框b_i，反之则保留，以最后得到的提议框为预测框。具体的，初始化两个集合A、B，将选取的4*K个提议框放入集合A并将提议框按照分类时所得到的分数进行排序，选取最大值所对应的提议框M放入集合B，将A中剩余的提议框a_i与集合B中的提议框M进行IoU计算，如果得到的IoU值大于阈值，则将提议框a_i从集合A中删除。重复上述操作直至集合A为空，最后得到的提议框则为预测框。

之后执行步骤S3，即，将预测框投影到每张融合特征图中，提取预测框区域的特征图，分别进行ROIAlign，获取相同尺度的特征图，通过融合得到最终的特征图，这一步骤具体包括：

步骤S3.1、将每个预测框分别投影到多张不同尺度的融合特征图上，每个预测框均可获得多个映射区域。如图3所示，PAAFPN得到四张融合特征图(N₂、N₃、N₄、N₅)，将从上一步骤中得到的预测框投影到每张融合特征图中，其投影方式为：

预测框左上角的点：

预测框右下角的点：

其中，s为CNN网络中所有strides的乘积，包括池化、卷积的stride。

步骤S3.2、提取多个映射区域的特征，分别进行RoIAlign，获取相同尺度的特征图，通过融合得到最终的特征图。进行RoIAlign的目的是对于具有不同特征大小的输入区域都可以得到相同大小的输出特征，使得接下来特征图展开的时候可以具有相同大小的尺寸，能够与全连接层进行连接。

上述步骤中，在PAAFPN增加了一个动态特征池化，能够避免提议框任意分配的缺陷，进一步增加了算法的性能，提高了检测精度与检测速度。

步骤S4中，基于最终的特征图分别进行分类和回归，得到输入图像预测框部分的所属类别及位置坐标，最终输出如图5所示，这一步骤包括：

利用训练完成的多分类器和边界框回归器对融合获得的最终的特征分别进行分类和回归，通过分类得到输入图像预测框部分(即目标)的所属类别，通过回归得到输入图像预测框(即目标)的位置坐标；训练过程中，损失函数包括分类损失和回归损失，分类损失采用CrossEntropyLoss，回归损失采用DIoU Loss。

通过上述方式，获取每个预测框的所述类别以及位置坐标，完成对包含学术内容图像中各部分的目标检测与识别。

上述分类是利用Cross Entropy Loss得到目标的所属类别，基于多尺度特征融合网络的学术内容目标检测方法可以做二分类，但更多的是进行多分类，基于CrossEntropyLoss的多分类的损失函数公式如下：

其中，M表示类别的数量，y_ic表示符号函数，如果样本i的真实类别等于c则取1，否则取0；p_ic表示观测样本i属于类别c的预测概率。

上述分类是利用CrossEntropy Loss使分类得到的目标类别更加准确。此处分类的类别包括图像中的表格、公式、折线图等类别。

上述回归是利用DIoU Loss得到预测框的四个位置坐标，与上述步骤S2.2.1相同，通过DIoU Loss可计算得出一种映射关系f(A_x,A_y,A_w,A_h)＝(B_x,B_y,B_w,B_h)，通过这种映射关系使得预测框通过关系映射后得到一个与目标框更为接近的位置坐标。需指出的是，步骤S2.2.1中第一次回归是获取相对于提议框而言较为精确的位置坐标，在上述基础上，通过本步骤中的第二次回归获取最终精确的位置坐标，进一步提高预测的精度。

本实施例提出了PAAFPN和DIoU Loss相结合的方式，实现基于多尺度特征融合网络的学术内容目标检测。PAAFPN具有两大优点，其一提出了自底向上的路径增强，缩短了信息传播路径的同时能够借助底层特征实现更加精准的定位；其二提出了动态特征池化，避免提议框任意分配的缺陷，并进一步增强了特征的融合，提高了检测速度。而DIoU Loss的应用最小化预测框与目标框两个中心点之间的归一化距离，进一步加快了收敛速度。

实施例二

本实施例提供了一种基于多尺度特征融合网络的学术内容目标检测系统，包括：

实施例三

本实施例提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如上所述的基于多尺度特征融合网络的学术内容目标检测方法中的步骤。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成如上所述的基于多尺度特征融合网络的学术内容目标检测方法中的步骤。

以上实施例二至四中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于多尺度特征融合网络的学术内容目标检测方法，其特征是，包括以下步骤：

2.如权利要求1所述的基于多尺度特征融合网络的学术内容目标检测方法，其特征是，所述获取包含学术内容的图像，利用特征提取网络提取输入图像的多尺度特征图，利用PAAFPN网络对特征图进行融合，得到多尺度的融合特征图，包括：

3.如权利要求1所述的基于多尺度特征融合网络的学术内容目标检测方法，其特征是，所述利用RPN网络对多尺度的融合特征图分别生成提议框，利用训练完成的二分类器和边界框回归器对提议框进行分类和回归，包括：

4.如权利要求3所述的基于多尺度特征融合网络的学术内容目标检测方法，其特征是，所述二分类器采用CrossEntropy Loss进行二分类，判断提议框中的目标内容为前景还是背景；

所述CrossEntropy Loss的计算公式为：

5.如权利要求3所述的基于多尺度特征融合网络的学术内容目标检测方法，其特征是，所述边界框回归器采用DIoU Loss进行回归，得到提议框的四个位置坐标；

所述DIoU Loss的计算公式为：

6.如权利要求3所述的基于多尺度特征融合网络的学术内容目标检测方法，其特征是，还包括：

7.如权利要求1所述的基于多尺度特征融合网络的学术内容目标检测方法，其特征是，所述基于最终的特征图分别进行分类和回归，得到输入图像预测框部分的所属类别及位置坐标，包括：

8.一种基于多尺度特征融合网络的学术内容目标检测系统，其特征是，包括：

9.一种电子设备，其特征是：包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成如权利要求1-7中任一项所述的一种基于多尺度特征融合网络的学术内容目标检测方法的步骤。

10.一种计算机可读存储介质，其特征是：用于存储计算机指令，所述计算机指令被处理器执行时，完成如权利要求1-7中任一项所述的一种基于多尺度特征融合网络的学术内容目标检测方法的步骤。