CN112464652A

CN112464652A - 一种从文献中提取插图及其标题的方法

Info

Publication number: CN112464652A
Application number: CN202011326980.6A
Authority: CN
Inventors: 沈韬; 司昌凯; 刘英莉; 金凯
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-09
Anticipated expiration: 2040-11-24
Also published as: CN112464652B

Abstract

本发明公开一种从文献中提取插图及其标题的方法，属于计算机应用技术领域及深度学习图像实例分割领域。本发明所述方法为收集文献并进行预处理，将文献随机分为训练集和测试集；将训练集中的样本数据输入FCENet插图标题提取网络，进行训练，得到box及mask掩码信息，所述FCENet包括：骨干网络，注意力模块，检测网络和掩码分支；利用box及mask掩码信息，对插图及其标题进行提取；本发明所述方法解决了从文献中提取插图及其标题的问题，可以将文献中的插图和其对应的标题提取出来，与传统基于手动提取特征的方法相比，节省了时间并且提高了准确率。

Description

一种从文献中提取插图及其标题的方法

技术领域

本发明涉及一种从文献中提取插图及其标题的方法，属于计算机应用技术领域及深度学习图像实例分割领域。

背景技术

文献中的插图和标题包含了文献的重要思想、整体流程以及分析结果，分析和理解文献中的插图及标题有利于读者更好的理解文献，也可以收集部分图像数据用于其他科研中。从文献中提取插图和标题，之前的方法大多是基于手动选取特征，其结果是否准确取决于所选特征的好坏，且鲁棒性不是很好。为了更快、更精确地提取文献中的插图及其标题，急需寻找一种更快更精准的方法来从文献中提取插图及其标题。

发明内容

本发明的目的在于提供了一种从文献中提取插图及其标题的方法，能够从文献中提取插图及其对应的标题，便于阅读、分析与理解文献，也可以收集部分材料图像数据。

为实现上述目的，本发明提供了如下方案：

一种从文献中提取插图及其标题的方法，包括以下步骤：

S1收集文献并进行预处理，将文献随机分为训练集和测试集。

S2将训练集中的样本数据输入FCENet，进行训练，得到box及mask掩码信息，所述FCENet包括：骨干网络，注意力模块，检测网络和掩码分支。

所述骨干网络包括残差网络ResNet和特征金字塔网络FPN，用于提取特征，通过将样本数据输入骨干网络，得到特征图P。

所述注意力模块由水平注意力模块和垂直注意力模块组成，包括7个卷积层和一个concat层，用于对特征图P中的水平和垂直方向特征进行加权。

所述检测网络由插图检测网络和标题检测网络组成，其中插图检测网络和标题检测网络分别由5个卷积层组成，用于对目标进行分类和回归。

所述掩码分支由底部模块、顶部模块和混合模块组成，其中底部模块由7个卷积层和1个线性插值层组成，用于预测底部细节信息；顶部模块由两个卷积层组成，用于预测顶部语义信息；混合模块则是将底部细节信息与高层语义信息进行融合，生成最终的目标实例掩码。

S3利用box及mask掩码信息，对插图及其标题进行提取。

优选的，本发明所述步骤S1中，预处理过程包括：将PDF格式的文献转化为JPEG格式的图片，文献每一页对应一张JPEG格式的图片，并将所有图片resize到统一尺寸大小，分为训练集和测试集。

优选的，本发明所述步骤S2中，对特征图P中的水平方向特征和垂直方向特征进行加权的具体过程如下：

计算基础特征图P′_b

P_b＝f^1×1(P)，

计算水平注意力图H′

P_H＝f^1×1(P)，H＝f^7×1(P_H)，H′＝f_HAM(H)

计算垂直注意力图V′

P_V＝f^1×1(P)，V＝f^1×7(P_V)，V′＝f_VAM(V)

得到加权后的特征图P_a＝f_CONCAT([P′_b，(H′+V′)]，dim＝1)

其中，f^1×1表示一个1×1卷积，

表示两个5×5卷积，f^7×1表示一个7×1卷积，f¹ ^×7表示一个1×7卷积，f_HAM表示水平注意力模块，f_VAM表示垂直注意力模块，f_CONCAT表示拼接，其中dim＝1表示在特征图的通道维度上，P_b，P_H，H，P_V，V都是计算过程中的特征图。

所述水平注意力模块，包括2个卷积层、2个池化层、1个Softmax层和2个Sigmod层，整体操作如下：

其中j表示特征图的通道数，j＝[1，2…C′]，

其中α、β是两个可学习参数，用于决定通道和位置注意力的权重，

表示逐元素相乘，

表示矩阵乘法；注意力图S∈R^1×H×W：

其中GAP和GMP分别表示全局平均池化和全局最大池化，fc表示全卷积层，注意力图A＝{a_jl∈R^C′×C′}由特征图H_reshape∈R^C′×(H×W)与

相乘，再经过Softmax函数后得到:

a_jl表示第l个水平特征通道对第j个水平特征通道的影响,注意力图A′＝(a′_j∈R^C ^′×1×1|j＝[1，2…C′])：

所述垂直注意力模块，包括2个卷积层、2个池化层、1个Softmax层和2个Sigmod层，整体操作如下：

其中

其中α′、β′同样是两个可学习参数，注意力图S′∈R^1×H×W,

注意力图Y＝{y_jl∈R^C′×C}由特征图V_reshape∈R^C′×(H×W)与

相乘，再经过softmax函数后得到：

y_jl则表示第l个垂直特征通道对第j个垂直特征通道的影响，注意力图Y′＝(y′_j∈R^C′×C′|j＝[1，2…C′])：

所述步骤S2中，所述混合模块的融合过程为：以底部模块和顶部模块的输出作为输入，包括基底B∈R^C×H×W,预测框

顶部注意力A_fig＝{a_fig∈R^4×7×7}和A_title＝{a_title∈R^4×7×7}，具体如下：

融合顶部注意力A＝{a_t∈R^4×7×7|t＝1…T}

A＝CONCAT(A_fig，A_title)

生成目标区域

线性插值

生成注意力分数图

生成实例掩码m_t

所述步骤S3中，所述box是目标检测框，由检测网络得到，包含目标类别及位置坐标信息。

所述步骤S3中，所述mask掩码信息由掩码分支得到，是目标实例更精细的分割信息。

本发明的有益效果：

由于文献中的插图和标题的尺度大小等都不统一，用传统的方法很难对所有文献中的插图及其标题进行非常准确的检测和分割；本发明选取了文献中的插图及其标题作为训练数据，用于训练FCENet。本发明所述方法可以将文献中的插图和其对应的标题提取出来，与传统手动提取特征的方法相比，节省了时间并且提高了准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。

图1为本发明实施例所述从文献中提取图像及其标题的方法总流程图。

图2为本发明实施例的FCENet模型结构图。

图3为本发明实施例的FCENet实例分割结果图。

图4为本发明实施例的一个提取结果图。

具体实施方式

下面将结合本发明实施例中的附图和具体实施方式对本发明做进一步详细的说明。

参见图1和图2，本发明的目的是提供一种从文献中提取插图及其标题的方法，所述方法包括数据预处理、FCENet模型训练和插图及其标题提取。

本发明包括以下步骤：

(1)收集文献，将PDF格式的文献转化为JPEG格式的图片，文献每一页对应一张JPEG格式的图片，并将所有图片resize到统一尺寸大小，分为训练集和测试集，随机分为训练集和测试集。

(2)将训练集中的样本数据输入FCENet，进行训练，得到box及mask掩码信息，所述FCENet包括：骨干网络，注意力模块，检测网络和掩码分支；

本实施例所述骨干网络包括残差网络ResNet和特征金字塔网络FPN，用于提取特征，通过将样本数据输入骨干网络，得到特征图P。

本实施例所述注意力模块由水平和垂直注意力模块组成，包括7个卷积层和一个concat层，用于对特征图P中的水平和垂直方向特征进行加权，过程如下：

计算基础特征图P′_b

P_b＝f^1×1(P)，

计算水平注意力图H′

P_H＝f^1×1(P)，H＝f^7×1(P_H)，H′＝f_HAM(H)

计算垂直注意力图V′

P_V＝f^1×1(P)，V＝f^1×7(P_V)，V′＝f_VAM(V)

得到加权后的特征图P_a＝f_CONCAT([P′_b’(H′+V′)]，dim＝1)

其中，f^1×1表示一个1×1卷积，

本实施例所述水平注意力模块，包括2个卷积层、2个池化层、1个Softmax层和2个Sigmod层，整体操作如下：

其中j表示特征图的通道数，j＝[1，2…C′],

其中α、β是两个可学习参数，用于决定通道和位置注意力的权重,⊙表示逐元素相乘，

表示矩阵乘法。注意力图S∈R^1×H×W:

其中GAP和GMP分别表示全局平均池化和全局最大池化，fc表示全卷积层，注意力图A＝{a_jl∈R^C′×C}由特征图H_reshape∈R^C′×(H×W)与

相乘，再经过Softmax函数后得到:

本实施例所述垂直注意力模块，包括2个卷积层、2个池化层、1个Softmax层和2个Sigmod层，整体操作如下：

其中

注意力图Y＝{y_jl∈R^C′×C}由特征图V_reshape∈R^C′×(H×W)与

相乘，再经过softmax函数后得到：

本实施例所述检测网络由插图检测网络和标题检测网络组成，其中插图检测网络和标题检测网络分别由5个卷积层组成，用于对目标进行分类和回归。

本实施例所述掩码分支由底部模块、顶部模块和混合模块组成，其中底部模块由7个卷积层和1个线性插值层组成，用于预测底部细节信息；顶部模块由两个卷积层组成，用于预测顶部语义信息；混合模块则是将底部细节信息与高层语义信息进行融合，生成最终的目标实例掩码。

本实施例所述融合过程，以底部模块和顶部模块的输出作为输入，包括基底B∈R^C ^×H×W,预测框

顶部注意力A_fig＝{a_fig∈R^4×7×7}和A_title＝{a_title∈R⁴ ^×7×7}，具体如下：

融合顶部注意力A＝{a_t∈R^4×7×7|t＝1…T}

A＝CONCAT(A_fig，A_title)

生成目标区域

线性插值

生成注意力分数图

生成实例掩码m_t

(3)利用box及mask掩码信息，对插图及其标题进行提取，所述box是目标检测框，由检测网络得到，包含目标类别及位置坐标信息，所述mask掩码信息由掩码分支得到，是目标实例更精细的分割信息。

如上所述为本发明从文献中提取插图及其标题的实施方式介绍，本发明通过收集的训练样本数据，训练FCENet模型，之后通过该模型预测文献中的插图及其标题，并提取出来；与传统的手动提取特征的方法和其他实例分割模型相比，在速度和精度上都有提高；FCENet在测试集上的可视化结果，参见图3；文献插图及其标题提取结果，参见图4。

以上所述，仅为本发明专利较好的实施例，对本发明而言仅仅是说明性，而非限制性，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。