CN112464652A - 一种从文献中提取插图及其标题的方法 - Google Patents

一种从文献中提取插图及其标题的方法 Download PDF

Info

Publication number
CN112464652A
CN112464652A CN202011326980.6A CN202011326980A CN112464652A CN 112464652 A CN112464652 A CN 112464652A CN 202011326980 A CN202011326980 A CN 202011326980A CN 112464652 A CN112464652 A CN 112464652A
Authority
CN
China
Prior art keywords
attention
title
module
feature map
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011326980.6A
Other languages
English (en)
Other versions
CN112464652B (zh
Inventor
沈韬
司昌凯
刘英莉
金凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202011326980.6A priority Critical patent/CN112464652B/zh
Publication of CN112464652A publication Critical patent/CN112464652A/zh
Application granted granted Critical
Publication of CN112464652B publication Critical patent/CN112464652B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4023Scaling of whole images or parts thereof, e.g. expanding or contracting based on decimating pixels or lines of pixels; based on inserting pixels or lines of pixels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种从文献中提取插图及其标题的方法,属于计算机应用技术领域及深度学习图像实例分割领域。本发明所述方法为收集文献并进行预处理,将文献随机分为训练集和测试集;将训练集中的样本数据输入FCENet插图标题提取网络,进行训练,得到box及mask掩码信息,所述FCENet包括:骨干网络,注意力模块,检测网络和掩码分支;利用box及mask掩码信息,对插图及其标题进行提取;本发明所述方法解决了从文献中提取插图及其标题的问题,可以将文献中的插图和其对应的标题提取出来,与传统基于手动提取特征的方法相比,节省了时间并且提高了准确率。

Description

一种从文献中提取插图及其标题的方法
技术领域
本发明涉及一种从文献中提取插图及其标题的方法,属于计算机应用技术领域及深度学习图像实例分割领域。
背景技术
文献中的插图和标题包含了文献的重要思想、整体流程以及分析结果,分析和理解文献中的插图及标题有利于读者更好的理解文献,也可以收集部分图像数据用于其他科研中。从文献中提取插图和标题,之前的方法大多是基于手动选取特征,其结果是否准确取决于所选特征的好坏,且鲁棒性不是很好。为了更快、更精确地提取文献中的插图及其标题,急需寻找一种更快更精准的方法来从文献中提取插图及其标题。
发明内容
本发明的目的在于提供了一种从文献中提取插图及其标题的方法,能够从文献中提取插图及其对应的标题,便于阅读、分析与理解文献,也可以收集部分材料图像数据。
为实现上述目的,本发明提供了如下方案:
一种从文献中提取插图及其标题的方法,包括以下步骤:
S1收集文献并进行预处理,将文献随机分为训练集和测试集。
S2将训练集中的样本数据输入FCENet,进行训练,得到box及mask掩码信息,所述FCENet包括:骨干网络,注意力模块,检测网络和掩码分支。
所述骨干网络包括残差网络ResNet和特征金字塔网络FPN,用于提取特征,通过将样本数据输入骨干网络,得到特征图P。
所述注意力模块由水平注意力模块和垂直注意力模块组成,包括7个卷积层和一个concat层,用于对特征图P中的水平和垂直方向特征进行加权。
所述检测网络由插图检测网络和标题检测网络组成,其中插图检测网络和标题检测网络分别由5个卷积层组成,用于对目标进行分类和回归。
所述掩码分支由底部模块、顶部模块和混合模块组成,其中底部模块由7个卷积层和1个线性插值层组成,用于预测底部细节信息;顶部模块由两个卷积层组成,用于预测顶部语义信息;混合模块则是将底部细节信息与高层语义信息进行融合,生成最终的目标实例掩码。
S3利用box及mask掩码信息,对插图及其标题进行提取。
优选的,本发明所述步骤S1中,预处理过程包括:将PDF格式的文献转化为JPEG格式的图片,文献每一页对应一张JPEG格式的图片,并将所有图片resize到统一尺寸大小,分为训练集和测试集。
优选的,本发明所述步骤S2中,对特征图P中的水平方向特征和垂直方向特征进行加权的具体过程如下:
计算基础特征图P′b
Pb=f1×1(P),
Figure BDA0002794561860000021
计算水平注意力图H′
PH=f1×1(P),H=f7×1(PH),H′=fHAM(H)
计算垂直注意力图V′
PV=f1×1(P),V=f1×7(PV),V′=fVAM(V)
得到加权后的特征图Pa=fCONCAT([P′b,(H′+V′)],dim=1)
其中,f1×1表示一个1×1卷积,
Figure BDA0002794561860000022
表示两个5×5卷积,f7×1表示一个7×1卷积,f1 ×7表示一个1×7卷积,fHAM表示水平注意力模块,fVAM表示垂直注意力模块,fCONCAT表示拼接,其中dim=1表示在特征图的通道维度上,Pb,PH,H,PV,V都是计算过程中的特征图。
所述水平注意力模块,包括2个卷积层、2个池化层、1个Softmax层和2个Sigmod层,整体操作如下:
Figure BDA0002794561860000023
其中j表示特征图的通道数,j=[1,2…C′],
Figure BDA0002794561860000024
Figure BDA0002794561860000025
其中α、β是两个可学习参数,用于决定通道和位置注意力的权重,
Figure BDA0002794561860000028
表示逐元素相乘,
Figure BDA0002794561860000026
表示矩阵乘法;注意力图S∈R1×H×W
Figure BDA0002794561860000027
其中GAP和GMP分别表示全局平均池化和全局最大池化,fc表示全卷积层,注意力图A={ajl∈RC′×C′}由特征图Hreshape∈RC′×(H×W)
Figure BDA0002794561860000031
相乘,再经过Softmax函数后得到:
Figure BDA0002794561860000032
ajl表示第l个水平特征通道对第j个水平特征通道的影响,注意力图A′=(a′j∈RC ′×1×1|j=[1,2…C′]):
Figure BDA0002794561860000033
所述垂直注意力模块,包括2个卷积层、2个池化层、1个Softmax层和2个Sigmod层,整体操作如下:
Figure BDA0002794561860000034
其中
Figure BDA0002794561860000035
Figure BDA0002794561860000036
其中α′、β′同样是两个可学习参数,注意力图S′∈R1×H×W,
Figure BDA0002794561860000037
注意力图Y={yjl∈RC′×C}由特征图Vreshape∈RC′×(H×W)
Figure BDA0002794561860000038
Figure BDA0002794561860000039
相乘,再经过softmax函数后得到:
Figure BDA00027945618600000310
yjl则表示第l个垂直特征通道对第j个垂直特征通道的影响,注意力图Y′=(y′j∈RC′×C′|j=[1,2…C′]):
Figure BDA00027945618600000311
所述步骤S2中,所述混合模块的融合过程为:以底部模块和顶部模块的输出作为输入,包括基底B∈RC×H×W,预测框
Figure BDA00027945618600000312
顶部注意力Afig={afig∈R4×7×7}和Atitle={atitle∈R4×7×7},具体如下:
融合顶部注意力A={at∈R4×7×7|t=1…T}
A=CONCAT(Afig,Atitle)
生成目标区域
Figure BDA0002794561860000041
线性插值
Figure BDA0002794561860000042
生成注意力分数图
Figure BDA0002794561860000043
生成实例掩码mt
Figure BDA0002794561860000044
所述步骤S3中,所述box是目标检测框,由检测网络得到,包含目标类别及位置坐标信息。
所述步骤S3中,所述mask掩码信息由掩码分支得到,是目标实例更精细的分割信息。
本发明的有益效果:
由于文献中的插图和标题的尺度大小等都不统一,用传统的方法很难对所有文献中的插图及其标题进行非常准确的检测和分割;本发明选取了文献中的插图及其标题作为训练数据,用于训练FCENet。本发明所述方法可以将文献中的插图和其对应的标题提取出来,与传统手动提取特征的方法相比,节省了时间并且提高了准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。
图1为本发明实施例所述从文献中提取图像及其标题的方法总流程图。
图2为本发明实施例的FCENet模型结构图。
图3为本发明实施例的FCENet实例分割结果图。
图4为本发明实施例的一个提取结果图。
具体实施方式
下面将结合本发明实施例中的附图和具体实施方式对本发明做进一步详细的说明。
参见图1和图2,本发明的目的是提供一种从文献中提取插图及其标题的方法,所述方法包括数据预处理、FCENet模型训练和插图及其标题提取。
本发明包括以下步骤:
(1)收集文献,将PDF格式的文献转化为JPEG格式的图片,文献每一页对应一张JPEG格式的图片,并将所有图片resize到统一尺寸大小,分为训练集和测试集,随机分为训练集和测试集。
(2)将训练集中的样本数据输入FCENet,进行训练,得到box及mask掩码信息,所述FCENet包括:骨干网络,注意力模块,检测网络和掩码分支;
本实施例所述骨干网络包括残差网络ResNet和特征金字塔网络FPN,用于提取特征,通过将样本数据输入骨干网络,得到特征图P。
本实施例所述注意力模块由水平和垂直注意力模块组成,包括7个卷积层和一个concat层,用于对特征图P中的水平和垂直方向特征进行加权,过程如下:
计算基础特征图P′b
Pb=f1×1(P),
Figure BDA0002794561860000051
计算水平注意力图H′
PH=f1×1(P),H=f7×1(PH),H′=fHAM(H)
计算垂直注意力图V′
PV=f1×1(P),V=f1×7(PV),V′=fVAM(V)
得到加权后的特征图Pa=fCONCAT([P′b’(H′+V′)],dim=1)
其中,f1×1表示一个1×1卷积,
Figure BDA0002794561860000052
表示两个5×5卷积,f7×1表示一个7×1卷积,f1 ×7表示一个1×7卷积,fHAM表示水平注意力模块,fVAM表示垂直注意力模块,fCONCAT表示拼接,其中dim=1表示在特征图的通道维度上,Pb,PH,H,PV,V都是计算过程中的特征图。
本实施例所述水平注意力模块,包括2个卷积层、2个池化层、1个Softmax层和2个Sigmod层,整体操作如下:
Figure BDA0002794561860000053
其中j表示特征图的通道数,j=[1,2…C′],
Figure BDA0002794561860000061
Figure BDA0002794561860000062
其中α、β是两个可学习参数,用于决定通道和位置注意力的权重,⊙表示逐元素相乘,
Figure BDA0002794561860000063
表示矩阵乘法。注意力图S∈R1×H×W:
Figure BDA0002794561860000064
其中GAP和GMP分别表示全局平均池化和全局最大池化,fc表示全卷积层,注意力图A={ajl∈RC′×C}由特征图Hreshape∈RC′×(H×W)
Figure BDA0002794561860000065
相乘,再经过Softmax函数后得到:
Figure BDA0002794561860000066
ajl表示第l个水平特征通道对第j个水平特征通道的影响,注意力图A′=(a′j∈RC ′×1×1|j=[1,2…C′]):
Figure BDA0002794561860000067
本实施例所述垂直注意力模块,包括2个卷积层、2个池化层、1个Softmax层和2个Sigmod层,整体操作如下:
Figure BDA0002794561860000068
其中
Figure BDA0002794561860000069
Figure BDA00027945618600000610
其中α′、β′同样是两个可学习参数,注意力图S′∈R1×H×W,
Figure BDA00027945618600000611
注意力图Y={yjl∈RC′×C}由特征图Vreshape∈RC′×(H×W)
Figure BDA00027945618600000612
Figure BDA00027945618600000613
相乘,再经过softmax函数后得到:
Figure BDA00027945618600000614
yjl则表示第l个垂直特征通道对第j个垂直特征通道的影响,注意力图Y′=(y′j∈RC′×C′|j=[1,2…C′]):
Figure BDA0002794561860000071
本实施例所述检测网络由插图检测网络和标题检测网络组成,其中插图检测网络和标题检测网络分别由5个卷积层组成,用于对目标进行分类和回归。
本实施例所述掩码分支由底部模块、顶部模块和混合模块组成,其中底部模块由7个卷积层和1个线性插值层组成,用于预测底部细节信息;顶部模块由两个卷积层组成,用于预测顶部语义信息;混合模块则是将底部细节信息与高层语义信息进行融合,生成最终的目标实例掩码。
本实施例所述融合过程,以底部模块和顶部模块的输出作为输入,包括基底B∈RC ×H×W,预测框
Figure BDA0002794561860000072
顶部注意力Afig={afig∈R4×7×7}和Atitle={atitle∈R4 ×7×7},具体如下:
融合顶部注意力A={at∈R4×7×7|t=1…T}
A=CONCAT(Afig,Atitle)
生成目标区域
Figure BDA0002794561860000073
线性插值
Figure BDA0002794561860000074
生成注意力分数图
Figure BDA0002794561860000075
生成实例掩码mt
Figure BDA0002794561860000076
(3)利用box及mask掩码信息,对插图及其标题进行提取,所述box是目标检测框,由检测网络得到,包含目标类别及位置坐标信息,所述mask掩码信息由掩码分支得到,是目标实例更精细的分割信息。
如上所述为本发明从文献中提取插图及其标题的实施方式介绍,本发明通过收集的训练样本数据,训练FCENet模型,之后通过该模型预测文献中的插图及其标题,并提取出来;与传统的手动提取特征的方法和其他实例分割模型相比,在速度和精度上都有提高;FCENet在测试集上的可视化结果,参见图3;文献插图及其标题提取结果,参见图4。
以上所述,仅为本发明专利较好的实施例,对本发明而言仅仅是说明性,而非限制性,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (8)

1.一种从文献中提取插图及其标题的方法,其特征在于,具体包括以下步骤:
S1收集文献并进行预处理,将文献随机分为训练集和测试集;
S2将训练集中的样本数据输入FCENet,进行训练,得到box及mask掩码信息,所述FCENet包括:骨干网络,注意力模块,检测网络和掩码分支;
所述骨干网络包括残差网络ResNet和特征金字塔网络FPN,用于提取特征,通过将样本数据输入骨干网络,得到特征图P;
所述注意力模块由水平注意力模块和垂直注意力模块组成,包括7个卷积层和一个concat层,用于对特征图P中的水平和垂直方向特征进行加权;
所述检测网络由插图检测网络和标题检测网络组成,其中插图检测网络和标题检测网络分别由5个卷积层组成,用于对目标进行分类和回归;
所述掩码分支由底部模块、顶部模块和混合模块组成,其中底部模块由7个卷积层和1个线性插值层组成,用于预测底部细节信息;顶部模块由两个卷积层组成,用于预测顶部语义信息;混合模块则是将底部细节信息与高层语义信息进行融合,生成最终的目标实例掩码;
S3利用box及mask掩码信息,对插图及其标题进行提取。
2.根据权利要求1所述的从文献提取插图及其标题的方法,其特征在于:所述步骤S1中,预处理过程包括将PDF格式的文献转化为JPEG格式,文献每一页对应一张JPEG格式的图片,并将所有图片resize到统一尺寸大小。
3.根据权利要求1所述的从文献提取插图及其标题的方法,其特征在于,所述步骤S2中,对特征图P中水平方向特征和垂直方向特征进行加权的具体过程如下:
计算基础特征图P′b
Pb=f1×1(P),
Figure FDA0002794561850000011
计算水平注意力图H′
PH=f1×1(P),H=f7×1(PH),H′=fHAM(H)
计算垂直注意力图V′
PV=f1×1(P),V=f1×7(PV),V′=fVAM(V)
得到加权后的特征图Pa=fCONCAT([P′b,(H′+V′)],dim=1)
其中,f1×1表示一个1×1卷积,
Figure FDA0002794561850000021
表示两个5×5卷积,f7×1表示一个7×1卷积,f1×7表示一个1×7卷积,fHAM表示水平注意力模块,fVAM表示垂直注意力模块,fCONCAT表示拼接,其中dim=1表示在特征图的通道维度上,Pb,PH,H,PV,V都是计算过程中的特征图。
4.根据权利要求1所述的从文献提取插图及其标题的方法,其特征在于,所述水平注意力模块,包括2个卷积层、2个池化层、1个Softmax层和2个Sigmod层,整体操作如下:
Figure FDA0002794561850000022
其中j表示特征图的通道数,j=[1,2…C′],
Figure FDA0002794561850000023
Figure FDA0002794561850000024
其中α、β是两个可学习参数,用于决定通道和位置注意力的权重,
Figure FDA00027945618500000211
表示逐元素相乘,
Figure FDA0002794561850000025
表示矩阵乘法;注意力图S∈R1×H×W
Figure FDA0002794561850000026
其中GAP和GMP分别表示全局平均池化和全局最大池化,fc表示全卷积层,注意力图A={ajl∈RC′×C′}由特征图Hreshape∈RC′×(H×W)
Figure FDA0002794561850000027
相乘,再经过Softmax函数后得到:
Figure FDA0002794561850000028
ajl表示第1个水平特征通道对第j个水平特征通道的影响,注意力图A′=(a′j∈RC′×1×1|j=[1,2…C′]):
Figure FDA0002794561850000029
5.根据权利要求1所述的从文献提取插图及其标题的方法,其特征在于,所述垂直注意力模块,包括2个卷积层、2个池化层、1个Softmax层和2个Sigmod层,整体操作如下:
Figure FDA00027945618500000210
其中
Figure FDA0002794561850000031
Figure FDA0002794561850000032
其中α′、β′同样是两个可学习参数,注意力图S′∈R1×H×W
Figure FDA0002794561850000033
注意力图Y={yjl∈RC′×C′}由特征图Vreshape∈RC′×(H×W)
Figure FDA0002794561850000034
Figure FDA0002794561850000035
相乘,再经过Softmax函数后得到:
Figure FDA0002794561850000036
yjl则表示第1个垂直特征通道对第j个垂直特征通道的影响,注意力图Y′=(y′j∈RC′×C′|j=[1,2…C′]):
Figure FDA0002794561850000037
6.根据权利要求1所述的从文献提取插图及其标题的方法,其特征在于,所述混合模块的融合过程为:以底部模块和顶部模块的输出作为输入,包括基底B∈RC×H×W,预测框
Figure FDA00027945618500000312
顶部注意力Afig={afig∈R4×7×7}和Atitle={atitle∈R4×7×7},具体如下:
融合顶部注意力A={at∈R4×7×7|t=1…T}
A=CONCAT(Afig,Atitle)
生成目标区域
Figure FDA0002794561850000038
线性插值
Figure FDA0002794561850000039
生成注意力分数图
Figure FDA00027945618500000310
生成实例掩码mt
Figure FDA00027945618500000311
7.根据权利要求1所述的从文献提取插图及其标题的方法,其特征在于,所述步骤S3中,所述box是目标检测框,由检测网络得到,包含类别及位置坐标信息。
8.根据权利要求1所述的从文献提取插图及其标题的方法,其特征在于,所述步骤S3中,所述mask掩码信息由掩码分支得到,是目标实例更精细的分割信息。
CN202011326980.6A 2020-11-24 2020-11-24 一种从文献中提取插图及其标题的方法 Active CN112464652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011326980.6A CN112464652B (zh) 2020-11-24 2020-11-24 一种从文献中提取插图及其标题的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011326980.6A CN112464652B (zh) 2020-11-24 2020-11-24 一种从文献中提取插图及其标题的方法

Publications (2)

Publication Number Publication Date
CN112464652A true CN112464652A (zh) 2021-03-09
CN112464652B CN112464652B (zh) 2022-09-09

Family

ID=74798600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011326980.6A Active CN112464652B (zh) 2020-11-24 2020-11-24 一种从文献中提取插图及其标题的方法

Country Status (1)

Country Link
CN (1) CN112464652B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287998A (zh) * 2019-05-28 2019-09-27 浙江工业大学 一种基于Faster-RCNN的科技文献图片提取方法
CN111008587A (zh) * 2019-11-29 2020-04-14 江西崇政科技有限公司 一种应用于机器人的基于深度学习智能化视觉识别系统
CN111061904A (zh) * 2019-12-06 2020-04-24 武汉理工大学 一种基于图像内容识别的本地图片快速检测方法
CN111291812A (zh) * 2020-02-11 2020-06-16 浙江大华技术股份有限公司 属性类别的获取方法及装置、存储介质、电子装置
CN111625675A (zh) * 2020-04-12 2020-09-04 南京理工大学 基于注意力机制下特征金字塔的深度哈希图像检索方法
CN111951266A (zh) * 2020-09-01 2020-11-17 厦门汉舒捷医疗科技有限公司 一种染色体畸变的人工智能识别分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287998A (zh) * 2019-05-28 2019-09-27 浙江工业大学 一种基于Faster-RCNN的科技文献图片提取方法
CN111008587A (zh) * 2019-11-29 2020-04-14 江西崇政科技有限公司 一种应用于机器人的基于深度学习智能化视觉识别系统
CN111061904A (zh) * 2019-12-06 2020-04-24 武汉理工大学 一种基于图像内容识别的本地图片快速检测方法
CN111291812A (zh) * 2020-02-11 2020-06-16 浙江大华技术股份有限公司 属性类别的获取方法及装置、存储介质、电子装置
CN111625675A (zh) * 2020-04-12 2020-09-04 南京理工大学 基于注意力机制下特征金字塔的深度哈希图像检索方法
CN111951266A (zh) * 2020-09-01 2020-11-17 厦门汉舒捷医疗科技有限公司 一种染色体畸变的人工智能识别分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张青: "文档图像的版面分析与文本行提取算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
CN112464652B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN111931684B (zh) 一种基于视频卫星数据鉴别特征的弱小目标检测方法
CN115731533B (zh) 一种基于改进YOLOv5的车载目标检测方法
CN110175613A (zh) 基于多尺度特征和编解码器模型的街景图像语义分割方法
CN111626176B (zh) 一种基于动态注意力机制的遥感目标快速检测方法及系统
CN113313082B (zh) 一种基于多任务损失函数的目标检测方法及系统
CN111652835A (zh) 基于深度学习与聚类的输电线路绝缘子缺失的检测方法
CN113516116B (zh) 一种适用于复杂自然场景的文本检测方法、系统和介质
CN112435214B (zh) 基于先验框线性缩放的花粉检测方法、装置和电子设备
CN110929746A (zh) 一种基于深度神经网络的电子卷宗标题定位提取与分类方法
CN112215217B (zh) 模拟医师阅片的数字图像识别方法及装置
CN114155474A (zh) 基于视频语义分割算法的损伤识别技术
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN114898089B (zh) 一种融合高分影像和poi数据的功能区提取与分类方法
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN111832616A (zh) 利用多类深度表示图的遥感图像飞机型号识别方法及系统
CN111680575A (zh) 一种人类上皮细胞染色分类装置、设备及存储介质
CN113361528B (zh) 一种多尺度目标检测方法及系统
CN114283326A (zh) 一种结合局部感知和高阶特征重构的水下目标重识别方法
CN113724204A (zh) 一种航天复合材料缺陷定位与识别方法及系统
CN112132839B (zh) 一种基于深度卷积级联网络的多尺度快速人脸分割方法
CN114445356A (zh) 基于多分辨率的全视野病理切片图像肿瘤快速定位方法
CN106548195A (zh) 一种基于改进型hog‑ulbp特征算子的目标检测方法
CN110046595A (zh) 一种基于级联式多尺度的密集人脸检测方法
CN113496260A (zh) 基于改进YOLOv3算法的粮库人员不规范作业检测法
CN112464652B (zh) 一种从文献中提取插图及其标题的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant