CN112464652A - 一种从文献中提取插图及其标题的方法 - Google Patents
一种从文献中提取插图及其标题的方法 Download PDFInfo
- Publication number
- CN112464652A CN112464652A CN202011326980.6A CN202011326980A CN112464652A CN 112464652 A CN112464652 A CN 112464652A CN 202011326980 A CN202011326980 A CN 202011326980A CN 112464652 A CN112464652 A CN 112464652A
- Authority
- CN
- China
- Prior art keywords
- attention
- title
- module
- feature map
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000001514 detection method Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 238000010586 diagram Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 238000002156 mixing Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 108091006146 Channels Proteins 0.000 claims 7
- 238000005192 partition Methods 0.000 claims 1
- 230000011218 segmentation Effects 0.000 abstract description 6
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000004883 computer application Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4023—Scaling of whole images or parts thereof, e.g. expanding or contracting based on decimating pixels or lines of pixels; based on inserting pixels or lines of pixels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种从文献中提取插图及其标题的方法,属于计算机应用技术领域及深度学习图像实例分割领域。本发明所述方法为收集文献并进行预处理,将文献随机分为训练集和测试集;将训练集中的样本数据输入FCENet插图标题提取网络,进行训练,得到box及mask掩码信息,所述FCENet包括:骨干网络,注意力模块,检测网络和掩码分支;利用box及mask掩码信息,对插图及其标题进行提取;本发明所述方法解决了从文献中提取插图及其标题的问题,可以将文献中的插图和其对应的标题提取出来,与传统基于手动提取特征的方法相比,节省了时间并且提高了准确率。
Description
技术领域
本发明涉及一种从文献中提取插图及其标题的方法,属于计算机应用技术领域及深度学习图像实例分割领域。
背景技术
文献中的插图和标题包含了文献的重要思想、整体流程以及分析结果,分析和理解文献中的插图及标题有利于读者更好的理解文献,也可以收集部分图像数据用于其他科研中。从文献中提取插图和标题,之前的方法大多是基于手动选取特征,其结果是否准确取决于所选特征的好坏,且鲁棒性不是很好。为了更快、更精确地提取文献中的插图及其标题,急需寻找一种更快更精准的方法来从文献中提取插图及其标题。
发明内容
本发明的目的在于提供了一种从文献中提取插图及其标题的方法,能够从文献中提取插图及其对应的标题,便于阅读、分析与理解文献,也可以收集部分材料图像数据。
为实现上述目的,本发明提供了如下方案:
一种从文献中提取插图及其标题的方法,包括以下步骤:
S1收集文献并进行预处理,将文献随机分为训练集和测试集。
S2将训练集中的样本数据输入FCENet,进行训练,得到box及mask掩码信息,所述FCENet包括:骨干网络,注意力模块,检测网络和掩码分支。
所述骨干网络包括残差网络ResNet和特征金字塔网络FPN,用于提取特征,通过将样本数据输入骨干网络,得到特征图P。
所述注意力模块由水平注意力模块和垂直注意力模块组成,包括7个卷积层和一个concat层,用于对特征图P中的水平和垂直方向特征进行加权。
所述检测网络由插图检测网络和标题检测网络组成,其中插图检测网络和标题检测网络分别由5个卷积层组成,用于对目标进行分类和回归。
所述掩码分支由底部模块、顶部模块和混合模块组成,其中底部模块由7个卷积层和1个线性插值层组成,用于预测底部细节信息;顶部模块由两个卷积层组成,用于预测顶部语义信息;混合模块则是将底部细节信息与高层语义信息进行融合,生成最终的目标实例掩码。
S3利用box及mask掩码信息,对插图及其标题进行提取。
优选的,本发明所述步骤S1中,预处理过程包括:将PDF格式的文献转化为JPEG格式的图片,文献每一页对应一张JPEG格式的图片,并将所有图片resize到统一尺寸大小,分为训练集和测试集。
优选的,本发明所述步骤S2中,对特征图P中的水平方向特征和垂直方向特征进行加权的具体过程如下:
计算基础特征图P′b
计算水平注意力图H′
PH=f1×1(P),H=f7×1(PH),H′=fHAM(H)
计算垂直注意力图V′
PV=f1×1(P),V=f1×7(PV),V′=fVAM(V)
得到加权后的特征图Pa=fCONCAT([P′b,(H′+V′)],dim=1)
其中,f1×1表示一个1×1卷积,表示两个5×5卷积,f7×1表示一个7×1卷积,f1 ×7表示一个1×7卷积,fHAM表示水平注意力模块,fVAM表示垂直注意力模块,fCONCAT表示拼接,其中dim=1表示在特征图的通道维度上,Pb,PH,H,PV,V都是计算过程中的特征图。
所述水平注意力模块,包括2个卷积层、2个池化层、1个Softmax层和2个Sigmod层,整体操作如下:
其中j表示特征图的通道数,j=[1,2…C′],
ajl表示第l个水平特征通道对第j个水平特征通道的影响,注意力图A′=(a′j∈RC ′×1×1|j=[1,2…C′]):
所述垂直注意力模块,包括2个卷积层、2个池化层、1个Softmax层和2个Sigmod层,整体操作如下:
其中
其中α′、β′同样是两个可学习参数,注意力图S′∈R1×H×W,
yjl则表示第l个垂直特征通道对第j个垂直特征通道的影响,注意力图Y′=(y′j∈RC′×C′|j=[1,2…C′]):
所述步骤S2中,所述混合模块的融合过程为:以底部模块和顶部模块的输出作为输入,包括基底B∈RC×H×W,预测框顶部注意力Afig={afig∈R4×7×7}和Atitle={atitle∈R4×7×7},具体如下:
融合顶部注意力A={at∈R4×7×7|t=1…T}
A=CONCAT(Afig,Atitle)
生成目标区域
线性插值
生成注意力分数图
生成实例掩码mt
所述步骤S3中,所述box是目标检测框,由检测网络得到,包含目标类别及位置坐标信息。
所述步骤S3中,所述mask掩码信息由掩码分支得到,是目标实例更精细的分割信息。
本发明的有益效果:
由于文献中的插图和标题的尺度大小等都不统一,用传统的方法很难对所有文献中的插图及其标题进行非常准确的检测和分割;本发明选取了文献中的插图及其标题作为训练数据,用于训练FCENet。本发明所述方法可以将文献中的插图和其对应的标题提取出来,与传统手动提取特征的方法相比,节省了时间并且提高了准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。
图1为本发明实施例所述从文献中提取图像及其标题的方法总流程图。
图2为本发明实施例的FCENet模型结构图。
图3为本发明实施例的FCENet实例分割结果图。
图4为本发明实施例的一个提取结果图。
具体实施方式
下面将结合本发明实施例中的附图和具体实施方式对本发明做进一步详细的说明。
参见图1和图2,本发明的目的是提供一种从文献中提取插图及其标题的方法,所述方法包括数据预处理、FCENet模型训练和插图及其标题提取。
本发明包括以下步骤:
(1)收集文献,将PDF格式的文献转化为JPEG格式的图片,文献每一页对应一张JPEG格式的图片,并将所有图片resize到统一尺寸大小,分为训练集和测试集,随机分为训练集和测试集。
(2)将训练集中的样本数据输入FCENet,进行训练,得到box及mask掩码信息,所述FCENet包括:骨干网络,注意力模块,检测网络和掩码分支;
本实施例所述骨干网络包括残差网络ResNet和特征金字塔网络FPN,用于提取特征,通过将样本数据输入骨干网络,得到特征图P。
本实施例所述注意力模块由水平和垂直注意力模块组成,包括7个卷积层和一个concat层,用于对特征图P中的水平和垂直方向特征进行加权,过程如下:
计算基础特征图P′b
计算水平注意力图H′
PH=f1×1(P),H=f7×1(PH),H′=fHAM(H)
计算垂直注意力图V′
PV=f1×1(P),V=f1×7(PV),V′=fVAM(V)
得到加权后的特征图Pa=fCONCAT([P′b’(H′+V′)],dim=1)
其中,f1×1表示一个1×1卷积,表示两个5×5卷积,f7×1表示一个7×1卷积,f1 ×7表示一个1×7卷积,fHAM表示水平注意力模块,fVAM表示垂直注意力模块,fCONCAT表示拼接,其中dim=1表示在特征图的通道维度上,Pb,PH,H,PV,V都是计算过程中的特征图。
本实施例所述水平注意力模块,包括2个卷积层、2个池化层、1个Softmax层和2个Sigmod层,整体操作如下:
其中j表示特征图的通道数,j=[1,2…C′],
ajl表示第l个水平特征通道对第j个水平特征通道的影响,注意力图A′=(a′j∈RC ′×1×1|j=[1,2…C′]):
本实施例所述垂直注意力模块,包括2个卷积层、2个池化层、1个Softmax层和2个Sigmod层,整体操作如下:
其中
其中α′、β′同样是两个可学习参数,注意力图S′∈R1×H×W,
yjl则表示第l个垂直特征通道对第j个垂直特征通道的影响,注意力图Y′=(y′j∈RC′×C′|j=[1,2…C′]):
本实施例所述检测网络由插图检测网络和标题检测网络组成,其中插图检测网络和标题检测网络分别由5个卷积层组成,用于对目标进行分类和回归。
本实施例所述掩码分支由底部模块、顶部模块和混合模块组成,其中底部模块由7个卷积层和1个线性插值层组成,用于预测底部细节信息;顶部模块由两个卷积层组成,用于预测顶部语义信息;混合模块则是将底部细节信息与高层语义信息进行融合,生成最终的目标实例掩码。
融合顶部注意力A={at∈R4×7×7|t=1…T}
A=CONCAT(Afig,Atitle)
生成目标区域
线性插值
生成注意力分数图
生成实例掩码mt
(3)利用box及mask掩码信息,对插图及其标题进行提取,所述box是目标检测框,由检测网络得到,包含目标类别及位置坐标信息,所述mask掩码信息由掩码分支得到,是目标实例更精细的分割信息。
如上所述为本发明从文献中提取插图及其标题的实施方式介绍,本发明通过收集的训练样本数据,训练FCENet模型,之后通过该模型预测文献中的插图及其标题,并提取出来;与传统的手动提取特征的方法和其他实例分割模型相比,在速度和精度上都有提高;FCENet在测试集上的可视化结果,参见图3;文献插图及其标题提取结果,参见图4。
以上所述,仅为本发明专利较好的实施例,对本发明而言仅仅是说明性,而非限制性,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (8)
1.一种从文献中提取插图及其标题的方法,其特征在于,具体包括以下步骤:
S1收集文献并进行预处理,将文献随机分为训练集和测试集;
S2将训练集中的样本数据输入FCENet,进行训练,得到box及mask掩码信息,所述FCENet包括:骨干网络,注意力模块,检测网络和掩码分支;
所述骨干网络包括残差网络ResNet和特征金字塔网络FPN,用于提取特征,通过将样本数据输入骨干网络,得到特征图P;
所述注意力模块由水平注意力模块和垂直注意力模块组成,包括7个卷积层和一个concat层,用于对特征图P中的水平和垂直方向特征进行加权;
所述检测网络由插图检测网络和标题检测网络组成,其中插图检测网络和标题检测网络分别由5个卷积层组成,用于对目标进行分类和回归;
所述掩码分支由底部模块、顶部模块和混合模块组成,其中底部模块由7个卷积层和1个线性插值层组成,用于预测底部细节信息;顶部模块由两个卷积层组成,用于预测顶部语义信息;混合模块则是将底部细节信息与高层语义信息进行融合,生成最终的目标实例掩码;
S3利用box及mask掩码信息,对插图及其标题进行提取。
2.根据权利要求1所述的从文献提取插图及其标题的方法,其特征在于:所述步骤S1中,预处理过程包括将PDF格式的文献转化为JPEG格式,文献每一页对应一张JPEG格式的图片,并将所有图片resize到统一尺寸大小。
3.根据权利要求1所述的从文献提取插图及其标题的方法,其特征在于,所述步骤S2中,对特征图P中水平方向特征和垂直方向特征进行加权的具体过程如下:
计算基础特征图P′b
计算水平注意力图H′
PH=f1×1(P),H=f7×1(PH),H′=fHAM(H)
计算垂直注意力图V′
PV=f1×1(P),V=f1×7(PV),V′=fVAM(V)
得到加权后的特征图Pa=fCONCAT([P′b,(H′+V′)],dim=1)
4.根据权利要求1所述的从文献提取插图及其标题的方法,其特征在于,所述水平注意力模块,包括2个卷积层、2个池化层、1个Softmax层和2个Sigmod层,整体操作如下:
其中j表示特征图的通道数,j=[1,2…C′],
ajl表示第1个水平特征通道对第j个水平特征通道的影响,注意力图A′=(a′j∈RC′×1×1|j=[1,2…C′]):
7.根据权利要求1所述的从文献提取插图及其标题的方法,其特征在于,所述步骤S3中,所述box是目标检测框,由检测网络得到,包含类别及位置坐标信息。
8.根据权利要求1所述的从文献提取插图及其标题的方法,其特征在于,所述步骤S3中,所述mask掩码信息由掩码分支得到,是目标实例更精细的分割信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011326980.6A CN112464652B (zh) | 2020-11-24 | 2020-11-24 | 一种从文献中提取插图及其标题的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011326980.6A CN112464652B (zh) | 2020-11-24 | 2020-11-24 | 一种从文献中提取插图及其标题的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464652A true CN112464652A (zh) | 2021-03-09 |
CN112464652B CN112464652B (zh) | 2022-09-09 |
Family
ID=74798600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011326980.6A Active CN112464652B (zh) | 2020-11-24 | 2020-11-24 | 一种从文献中提取插图及其标题的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464652B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287998A (zh) * | 2019-05-28 | 2019-09-27 | 浙江工业大学 | 一种基于Faster-RCNN的科技文献图片提取方法 |
CN111008587A (zh) * | 2019-11-29 | 2020-04-14 | 江西崇政科技有限公司 | 一种应用于机器人的基于深度学习智能化视觉识别系统 |
CN111061904A (zh) * | 2019-12-06 | 2020-04-24 | 武汉理工大学 | 一种基于图像内容识别的本地图片快速检测方法 |
CN111291812A (zh) * | 2020-02-11 | 2020-06-16 | 浙江大华技术股份有限公司 | 属性类别的获取方法及装置、存储介质、电子装置 |
CN111625675A (zh) * | 2020-04-12 | 2020-09-04 | 南京理工大学 | 基于注意力机制下特征金字塔的深度哈希图像检索方法 |
CN111951266A (zh) * | 2020-09-01 | 2020-11-17 | 厦门汉舒捷医疗科技有限公司 | 一种染色体畸变的人工智能识别分析方法 |
-
2020
- 2020-11-24 CN CN202011326980.6A patent/CN112464652B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287998A (zh) * | 2019-05-28 | 2019-09-27 | 浙江工业大学 | 一种基于Faster-RCNN的科技文献图片提取方法 |
CN111008587A (zh) * | 2019-11-29 | 2020-04-14 | 江西崇政科技有限公司 | 一种应用于机器人的基于深度学习智能化视觉识别系统 |
CN111061904A (zh) * | 2019-12-06 | 2020-04-24 | 武汉理工大学 | 一种基于图像内容识别的本地图片快速检测方法 |
CN111291812A (zh) * | 2020-02-11 | 2020-06-16 | 浙江大华技术股份有限公司 | 属性类别的获取方法及装置、存储介质、电子装置 |
CN111625675A (zh) * | 2020-04-12 | 2020-09-04 | 南京理工大学 | 基于注意力机制下特征金字塔的深度哈希图像检索方法 |
CN111951266A (zh) * | 2020-09-01 | 2020-11-17 | 厦门汉舒捷医疗科技有限公司 | 一种染色体畸变的人工智能识别分析方法 |
Non-Patent Citations (1)
Title |
---|
张青: "文档图像的版面分析与文本行提取算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112464652B (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931684B (zh) | 一种基于视频卫星数据鉴别特征的弱小目标检测方法 | |
CN115731533B (zh) | 一种基于改进YOLOv5的车载目标检测方法 | |
CN110175613A (zh) | 基于多尺度特征和编解码器模型的街景图像语义分割方法 | |
CN111626176B (zh) | 一种基于动态注意力机制的遥感目标快速检测方法及系统 | |
CN113313082B (zh) | 一种基于多任务损失函数的目标检测方法及系统 | |
CN111652835A (zh) | 基于深度学习与聚类的输电线路绝缘子缺失的检测方法 | |
CN113516116B (zh) | 一种适用于复杂自然场景的文本检测方法、系统和介质 | |
CN112435214B (zh) | 基于先验框线性缩放的花粉检测方法、装置和电子设备 | |
CN110929746A (zh) | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 | |
CN112215217B (zh) | 模拟医师阅片的数字图像识别方法及装置 | |
CN114155474A (zh) | 基于视频语义分割算法的损伤识别技术 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN114898089B (zh) | 一种融合高分影像和poi数据的功能区提取与分类方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN111832616A (zh) | 利用多类深度表示图的遥感图像飞机型号识别方法及系统 | |
CN111680575A (zh) | 一种人类上皮细胞染色分类装置、设备及存储介质 | |
CN113361528B (zh) | 一种多尺度目标检测方法及系统 | |
CN114283326A (zh) | 一种结合局部感知和高阶特征重构的水下目标重识别方法 | |
CN113724204A (zh) | 一种航天复合材料缺陷定位与识别方法及系统 | |
CN112132839B (zh) | 一种基于深度卷积级联网络的多尺度快速人脸分割方法 | |
CN114445356A (zh) | 基于多分辨率的全视野病理切片图像肿瘤快速定位方法 | |
CN106548195A (zh) | 一种基于改进型hog‑ulbp特征算子的目标检测方法 | |
CN110046595A (zh) | 一种基于级联式多尺度的密集人脸检测方法 | |
CN113496260A (zh) | 基于改进YOLOv3算法的粮库人员不规范作业检测法 | |
CN112464652B (zh) | 一种从文献中提取插图及其标题的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |