CN113723330B - 一种图表文档信息理解的方法及系统 - Google Patents

一种图表文档信息理解的方法及系统 Download PDF

Info

Publication number
CN113723330B
CN113723330B CN202111039933.8A CN202111039933A CN113723330B CN 113723330 B CN113723330 B CN 113723330B CN 202111039933 A CN202111039933 A CN 202111039933A CN 113723330 B CN113723330 B CN 113723330B
Authority
CN
China
Prior art keywords
text
chart document
chart
information
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111039933.8A
Other languages
English (en)
Other versions
CN113723330A (zh
Inventor
伍思航
谢灿宇
黄宇浩
唐国志
廖倩颖
汪嘉鹏
陈邦栋
李洪亮
常新峰
李辉
丁凯
黄毅超
金连文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202111039933.8A priority Critical patent/CN113723330B/zh
Publication of CN113723330A publication Critical patent/CN113723330A/zh
Application granted granted Critical
Publication of CN113723330B publication Critical patent/CN113723330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图表文档信息理解的方法及系统,包括:采集初始图表文档,对所述初始图表文档进行分类,获得第一图表文档;对所述第一图表文档进行文本检测和识别,获得第二图表文档;对所述第二图表文档进行文本属性分类,获得目标图表文档;基于所述目标图表文档实现对图表文档信息的理解。本发明提出的图表文档信息理解的方法及系统,可以有效对图表文档进行分类,文本检测和识别,以及文本属性分类,对于机器自动化提取、分析、理解图表文档内容信息有重大的作用和意义。

Description

一种图表文档信息理解的方法及系统
技术领域
本发明涉及模式识别与人工智能技术领域,特别是涉及一种图表文档信息理解的方法及系统。
背景技术
图表作为一种特殊的文档表现形式,常嵌入到社会科学、自然科学的文章中,用来简洁扼要的表达数据、逻辑、方法流程等。近年来,文档的数字化需求越来越多,技术也日趋成熟。其中,图表的自动化识别和理解更是关键的一环,然而常常由于其复杂多样的版面、丰富的表达形式而难以进行自动化的机器理解。
对于图表文档的分类、文字检测和识别、文本属性的分类,现有的方法大多是通过组合基于传统方法的独立技术模块。这些算法的不足之处是需要手工对模型的多个超参数做数据集的适应性调整,也就是说针对不同的图表文档,需手工调整超参数来保证模型的检测效果。
近年来,基于深度学习的方法在图表文档的分类、文字检测和识别、文本属性的分类等任务上取得一定的进展,但是现有的方法对多种图表文档的鲁棒性和精度较差。
发明内容
本发明的目的是提供一种图表文档信息理解的方法及系统,以解决上述现有技术存在的问题。本发明的方法能适应图表文档的多种版面形式,如折线图、散点图、条形图、饼图等,有较好的鲁棒性,达到更高的精度。检测精度高,能够实现对多种复杂古籍文献进行文字精确检测。
为实现上述目的,本发明提供了如下方案:本发明提供一种图表文档信息理解的方法及系统,其中,一种图表文档信息理解的方法,包括:
采集初始图表文档,对所述初始图表文档进行分类,获得第一图表文档;对所述第一图表文档进行文本检测和识别,获得第二图表文档;对所述第二图表文档进行文本属性分类,获得目标图表文档;基于所述目标图表文档实现对图表文档信息的理解。
优选地,对所述初始图表文档进行分类包括,基于深度神经网络融合SE模块、类别平衡技术,对所述初始图表文档进行特征提取,获得分类结果;基于所述分类结果对所述初始图表文档进行分类,获得所述第一图表文档。
优选地,对所述第一图表文档进行文本检测和识别包括,构建多个检测头级联的神经网络,基于所述检测头级联的神经网络,获得所述第一图表文档的检测多方向矩形框;根据所述检测多方向矩形框,获得文本检测结果;将所述文本检测结果进行水平校正并切分文本行,送入基于CRNN网络的识别器,获得识别结果;基于所述识别结果对所述第一图表文档进行识别,获得所述第二图表文档。
优选地,将所述文本检测结果进行水平校正并切分文本行包括,将所述文本检测结果进行图像块的二值化处理和膨胀腐蚀图像处理,然后利用霍夫变换直线检测计算文本区域的最小外接矩形,获得相应的倾斜角度;根据所述倾斜角度,对所述文本检测结果进行水平校正;对所述图像块进行水平或者竖直方向投影,根据设定阈值切分文本行,获得所述文本行的检测结果;将所述文本行的检测结果送入基于CRNN网络的识别器,获得识别结果。
优选地,将所述文本行的检测结果送入基于CRNN网络的识别器,获得识别结果包括,构建基于主干网络为ResNet系列和BiLSTM时间序列模块的CRNN网络识别器,将所述文本行分别输入CTC模型和Attention模型,获得CTC模型识别结果和Attention模型识别结果;将所述CTC模型识别结果和所述Attention模型识别结果进行集成,获得所述识别结果。
优选地,对所述第二图表文档进行文本属性分类包括,对所述第二图表文档进行文本编码,获得文本信息特征;通过对所述文本信息特征进行视觉特征信息融合后,基于自注意力机制进行匹配和分类,获得目标图表文档。
优选地,所述编码包括语义信息编码、位置信息编码、角度信息编码、图表类型信息编码;
所述文本信息特征包括语义信息特征、位置信息特征、角度信息特征、图表类型信息特征;
所述语义信息编码包括字符嵌入层编码、句子嵌入层编码;
所述图表类型信息编码包括折线图嵌入层编码、条形图嵌入层编码、散点图嵌入层编码;
所述角度信息编码包括水平嵌入层编码、竖直嵌入层编码。
优选地,对所述编码图表文档进行视觉特征信息融合包括第一融合操作、第二融合操作;
所述第一融合操作为将语义信息特征、位置信息特征,角度信息特征、图表类型信息特征、文本的视觉特征通过嵌入层映射到相同维度后,进行加和或拼接操作;
所述第二融合操作为将语义信息特征、位置信息特征通过预训练的LayoutLM模型得到多模态表征,文本的视觉特征通过全连接层映射到与多模态表征相同维度后,进行加和或拼接操作。
一种图表文档信息理解的系统,包括,
采集模块,用于采集初始图表文档;
第一分类模块,与所述采集模块连接,用于对所述初始图表文档进行分类,获得第一图表文档;
识别模块,与所述分类模块连接,用于对所述第一图表文档进行文本检测和识别,获得第二图表文档;
第二分类模块,与所述识别模块连接,用于对所述第二图表文档进行文本属性分类,获得目标图表文档;通过所述目标图表文档实现对图表文档信息的理解。
本发明公开了以下技术效果:
本发明公开一种图表文档信息理解的方法及系统,包括对图表文档进行分类,对图表文档进行文本检测和识别,对图表文档进行文本属性分类。本发明提出的图表文档信息理解的方法及系统,可以有效对图表文档进行分类,文本检测和识别,以及文本属性分类,对于机器自动化提取、分析、理解图表文档内容信息有重大的作用和意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的方法流程图;
图2为本发明实施例的用于图表文档分类的深度神经网络结构图;
图3为本发明实施例的用于检测水平文本块的神经网络结构图;
图4为本发明实施例的用于检测多方向文本块的神经网络结构图;
图5为本发明实施例的文本块方向校正和文本行切分的流程图;
图6为本发明实施例的用于文本属性分类的模型结构图;
图7为本发明实施例中数据集的图表文档示例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本实施例提供一种图表文档信息理解的方法及系统,包括如下步骤:
步骤S1、对图表文档进行分类。利用构建的深度神经网络提取图表文档的特征,并加入SE模块、类别平衡等技术提升特征表达能力,得到更准确的分类结果。
本实施例选择DenseNet121层为主干网络,在每一个dense block的前以及transition layer后添加Squeeze-and-Excitation(SE)模块,结构设计如图2所示。
在训练的过程中加入图像变换的数据增强、类别平衡等技术。其中,类别平衡是对数据样本进行过采样,按照重复因子对每个图表文档类别进行抽样。重复因子计算公式(1)如下:
其中,r(c)代表类别c的重复因子,t是阈值常数,f(c)是类别c出现的频率。
步骤S2、对图表文档进行文本检测和识别。利用构建多个检测头级联的神经网络,得到文本的检测多方向矩形框,再将文本检测结果进行水平校正并切分文本行,送入基于CRNN网络的识别器,得到识别结果;
本实施例采用构建多个检测头级联的神经网络,得到文本的检测多方向矩形框。具体地,构建5个检测头,从IoU 0.5~0.9的级联检测网络Cascade R-CNN系列检测水平文本块,如图3所示。构建2个检测头,从IoU0.5~0.6的级联检测网络Cascade Mask R-CNN检测多方向文本块,结构如图4所示。
进一步地,将文本检测结果进行水平校正并切分文本行。具体地,首先对文本检测结果图像块二值化,并进行一系列膨胀腐蚀图像处理,然后利用霍夫变换直线检测计算文本区域的最小外接矩形,并得到相应的倾斜角度,利用该倾斜角度,对文本检测结果进行水平校正。然后,对图像块进行水平或者竖直方向投影,根据设定阈值切分每个文本行,得到每个文本行的检测结果;
将上述得到的每个文本行检测结果送入基于CRNN网络的识别器,得到识别结果。具体地,构建常用的主干网络为ResNet系列和BiLSTM时间序列模块的CRNN网络识别器,然后分别结合CTC和Attention两个解码模块,得到两个模型。将每个文本行送入这两个模型得到相应的结果,再进行集成得到最终的结果。
步骤S3、对图表文档进行文本属性分类。首先对每个文本进行语义信息和位置信息的编码,以及文本方向角度、图表类型等多模态信息编码,与每个文本自身的视觉特征信息进行融合操作,得到的实例特征进行自注意力机制匹配和分类。
文本块语义信息特征的提取包括,对每个文本块的每个字符进行字符嵌入(embedding)层编码,统一补全到所有文本块最大的长度,得到文本块的语义编码表示,经过Bi-LSTM提取文本块之间相互信息后,通过句子嵌入(embedding)层编码后,得到最终每个文本块的语义信息特征;
文本块位置信息特征的提取包括,计算每个文本块4个顶点x、y坐标8个值在图表文档(全图)中的相对位置;
文本块所属的图表类型信息特征的提取包括,即当前图表文档的类型(如折线图、条形图、散点图等类型)的嵌入(embedding)层编码特征;
文本块的方向角度信息特征的提取包括,即各个文本块水平或者竖直方向的嵌入(embedding)层编码特征;
文本块视觉信息特征的提取包括,利用ResNet系列深度神经网络对图表文档编码整个图像的视觉特征,结合文本块位置信息,通过RoIAlign方式从整个图像的视觉特征提取对应各个文本块的视觉信息特征。
其中融合操作包含如下步骤:
第一种融合操作,将文本语义信息特征、位置信息特征,文本方向角度特征、图表类型特征、文本的视觉特征通过嵌入层映射到相同维度后,进行加和或者拼接操作;
第二种融合操作,将文本语义信息特征、位置信息特征通过预训练的LayoutLM模型得到多模态表征,文本的视觉特征通过全连接层映射到与多模态表征相同维度后,进行加和或者拼接操作。
完成融合操作后,将融合后的特征通过基于自注意力机制的TransformerEncoder编码器,最后利用全连接层计算最终每个概率文本块属性(标题、图例、坐标轴名称、坐标刻度数值等)概率。
本实施例使用ICDAR和ICPR的Adobe Synthetic、PMC数据集,数据集的部分图表文档如图7所示。在图表文档分类任务上,将ICPR2020Adobe Synthetic数据集共12类图表文档按照7比3随机划分训练集和验证集,类似地PMC数据集共15类图表文档也划分训练集和测试集。根据本实施例加入SE模块的DenseNet121模型,以及类别平衡、数据增强等方法训练模型,得到验证集的结果如下表1所示。
表1
在PMC数据集中设置训练技术的消融实验,如下表2所示。
表2
在图表文档的文字检测和识别上,在ICPR 2020Adobe Synthetic数据集和PMC数据集上,分别按照4比1随机划分训练集和验证集,利用构建的5个检测头的Cascade R-CNN检测Adobe Synthetic的水平文本块,利用构建的2个检测头的Cascade Mask R-CNN检测结果如下表3所示:
表3
进一步地,将文本检测结果进行水平校正并切分文本行,文本块方向校正和文本行切分的流程图如图5所示。具体地,首先对文本检测结果图像块二值化,并进行一系列膨胀腐蚀图像处理,然后利用霍夫变换直线检测计算文本区域的最小外接矩形,并得到相应的倾斜角度,利用该倾斜角度,对文本检测结果进行水平校正。然后,对图像块进行水平或者竖直方向投影,根据设定阈值切分每个文本行,得到每个文本行的检测结果;
将上述得到的每个文本行检测结果送入基于CRNN网络的识别器,得到识别结果。具体地,构建常用的主干网络为ResNet系列和BiLSTM时间序列模块的CRNN网络识别器,然后分别结合CTC和Attention两个解码模块,得到两个模型。将每个文本行送入这两个模型得到相应的结果,再进行集成得到最终的结果。如下表4所示:
表4
步骤3中,对图表文档进行文本属性分类,文本属性分类的模型结构图如图6所示。首先对每个文本进行语义信息和位置信息的编码,以及文本方向角度、图表类型等多模态信息编码,与每个文本自身的视觉特征信息进行融合操作,得到的实例特征进行自注意力机制匹配和分类。在ICPR2020Adobe Synthetic数据集和PMC数据集上,分别按照4比1随机划分训练集和验证集,得到结果如下表5所示:
表5
在PMC数据集中,各个文本属性分类的精度如下表6所示:
表6
在Adobe Synthetic验证集上,加入位置信息、图表类型信息、视觉信息的消融实验结果如表7所示:
表7
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (6)

1.一种图表文档信息理解的方法,其特征在于,包括:
采集初始图表文档,对所述初始图表文档进行分类,获得第一图表文档;对所述第一图表文档进行文本检测和识别,获得第二图表文档;对所述第二图表文档进行文本属性分类,获得目标图表文档;基于所述目标图表文档实现对图表文档信息的理解;
对所述初始图表文档进行分类包括,基于深度神经网络融合SE模块、类别平衡技术,对所述初始图表文档进行特征提取,获得分类结果;基于所述分类结果对所述初始图表文档进行分类,获得所述第一图表文档;
对所述第一图表文档进行文本检测和识别包括,构建多个检测头级联的神经网络,基于所述检测头级联的神经网络,获得所述第一图表文档的检测多方向矩形框;根据所述检测多方向矩形框,获得文本检测结果;将所述文本检测结果进行水平校正并切分文本行,送入基于CRNN网络的识别器,获得识别结果;基于所述识别结果对所述第一图表文档进行识别,获得所述第二图表文档;
对所述第二图表文档进行文本属性分类包括,对所述第二图表文档进行文本编码,获得文本信息特征;通过对所述文本信息特征进行视觉特征信息融合后,基于自注意力机制进行匹配和分类,获得目标图表文档。
2.根据权利要求1所述的图表文档信息理解的方法,其特征在于,
将所述文本检测结果进行水平校正并切分文本行包括,将所述文本检测结果进行图像块的二值化处理和膨胀腐蚀图像处理,然后利用霍夫变换直线检测计算文本区域的最小外接矩形,获得相应的倾斜角度;根据所述倾斜角度,对所述文本检测结果进行水平校正;对所述图像块进行水平或者竖直方向投影,根据设定阈值切分文本行,获得所述文本行的检测结果;将所述文本行的检测结果送入基于CRNN网络的识别器,获得识别结果。
3.根据权利要求1所述的图表文档信息理解的方法,其特征在于,
将所述文本行的检测结果送入基于CRNN网络的识别器,获得识别结果包括,构建基于主干网络为ResNet系列和BiLSTM时间序列模块的CRNN网络识别器,将所述文本行分别输入CTC模型和Attention模型,获得CTC模型识别结果和Attention模型识别结果;将所述CTC模型识别结果和所述Attention模型识别结果进行集成,获得所述识别结果。
4.根据权利要求1所述的图表文档信息理解的方法,其特征在于,
所述编码包括语义信息编码、位置信息编码、角度信息编码、图表类型信息编码;
所述文本信息特征包括语义信息特征、位置信息特征、角度信息特征、图表类型信息特征;
所述语义信息编码包括字符嵌入层编码、句子嵌入层编码;
所述图表类型信息编码包括折线图嵌入层编码、条形图嵌入层编码、散点图嵌入层编码;
所述角度信息编码包括水平嵌入层编码、竖直嵌入层编码。
5.根据权利要求1所述的图表文档信息理解的方法,其特征在于,
对编码图表文档进行视觉特征信息融合包括第一融合操作、第二融合操作;
所述第一融合操作为将语义信息特征、位置信息特征,角度信息特征、图表类型信息特征、文本的视觉特征通过嵌入层映射到相同维度后,进行加和或拼接操作;
所述第二融合操作为将语义信息特征、位置信息特征通过预训练的LayoutLM模型得到多模态表征,文本的视觉特征通过全连接层映射到与多模态表征相同维度后,进行加和或拼接操作。
6.根据权利要求1-5任一项所述的方法对应的一种图表文档信息理解的系统,其特征在于,包括:
采集模块,用于采集初始图表文档;
第一分类模块,与所述采集模块连接,用于基于深度神经网络融合SE模块、类别平衡技术,对所述初始图表文档进行特征提取,获得分类结果;基于所述分类结果对所述初始图表文档进行分类,获得第一图表文档;
识别模块,与所述第一分类模块连接,用于构建多个检测头级联的神经网络,基于所述检测头级联的神经网络,获得所述第一图表文档的检测多方向矩形框;根据所述检测多方向矩形框,获得文本检测结果;将所述文本检测结果进行水平校正并切分文本行,送入基于CRNN网络的识别器,获得识别结果;基于所述识别结果对所述第一图表文档进行识别,获得所述第二图表文档;
第二分类模块,与所述识别模块连接,用于对所述第二图表文档进行文本属性分类包括,对所述第二图表文档进行文本编码,获得文本信息特征;通过对所述文本信息特征进行视觉特征信息融合后,基于自注意力机制进行匹配和分类,获得目标图表文档。
CN202111039933.8A 2021-09-06 2021-09-06 一种图表文档信息理解的方法及系统 Active CN113723330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111039933.8A CN113723330B (zh) 2021-09-06 2021-09-06 一种图表文档信息理解的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111039933.8A CN113723330B (zh) 2021-09-06 2021-09-06 一种图表文档信息理解的方法及系统

Publications (2)

Publication Number Publication Date
CN113723330A CN113723330A (zh) 2021-11-30
CN113723330B true CN113723330B (zh) 2023-11-07

Family

ID=78681988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111039933.8A Active CN113723330B (zh) 2021-09-06 2021-09-06 一种图表文档信息理解的方法及系统

Country Status (1)

Country Link
CN (1) CN113723330B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898388B (zh) * 2022-03-28 2024-05-24 支付宝(杭州)信息技术有限公司 文档图片分类方法、装置、存储介质及电子设备
CN115620322B (zh) * 2022-12-20 2023-04-07 华南理工大学 一种基于关键点检测的全线表表格结构识别方法
CN116306575B (zh) * 2023-05-10 2023-08-29 杭州恒生聚源信息技术有限公司 文档解析方法、文档解析模型训练方法、装置和电子设备
CN117237957A (zh) * 2023-11-16 2023-12-15 新视焰医疗科技(杭州)有限公司 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046784A (zh) * 2019-12-09 2020-04-21 科大讯飞股份有限公司 文档版面分析识别方法、装置、电子设备和存储介质
CN111507351A (zh) * 2020-04-16 2020-08-07 华南理工大学 一种古籍文档数字化的方法
CN112232149A (zh) * 2020-09-28 2021-01-15 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及系统
CN113065549A (zh) * 2021-03-09 2021-07-02 国网河北省电力有限公司 基于深度学习的文档信息抽取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046784A (zh) * 2019-12-09 2020-04-21 科大讯飞股份有限公司 文档版面分析识别方法、装置、电子设备和存储介质
CN111507351A (zh) * 2020-04-16 2020-08-07 华南理工大学 一种古籍文档数字化的方法
CN112232149A (zh) * 2020-09-28 2021-01-15 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及系统
CN113065549A (zh) * 2021-03-09 2021-07-02 国网河北省电力有限公司 基于深度学习的文档信息抽取方法及装置

Also Published As

Publication number Publication date
CN113723330A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN113723330B (zh) 一种图表文档信息理解的方法及系统
CN111626146B (zh) 一种基于模板匹配的合并单元格表格分割识别方法
CN111639646A (zh) 一种基于深度学习的试卷手写英文字符识别方法及系统
CN111753706B (zh) 一种基于图像统计学的复杂表格交点聚类提取方法
CN111652171B (zh) 一种基于双分支网络的面部表情识别模型的构建方法
CN106372624A (zh) 人脸识别方法及系统
CN105117707A (zh) 一种基于区域图像的人脸表情识别方法
CN112364834A (zh) 一种基于深度学习和图像处理的表格识别的还原方法
CN113240623A (zh) 一种路面病害检测方法及装置
CN110414505A (zh) 图像的处理方法、处理系统及计算机可读存储介质
CN113095267A (zh) 统计图的数据提取方法、电子设备和存储介质
CN115392188A (zh) 基于不可编辑的图文类图像生成可编辑文档的方法及装置
Obaidullah et al. Structural feature based approach for script identification from printed Indian document
CN112200789B (zh) 一种图像识别的方法及装置、电子设备和存储介质
CN110378337B (zh) 金属切削刀具图纸标识信息视觉输入方法及系统
Zhang et al. A machine vision-based character recognition system for suspension insulator iron caps
Firdaus et al. Arabic letter segmentation using modified connected component labeling
CN111292346A (zh) 一种噪声环境下浇铸箱体轮廓的检测方法
CN115690795A (zh) 简历信息提取方法、装置、电子设备和存储介质
JP3370934B2 (ja) 光学的文字読み取り方法とその装置
Yang et al. Intelligent digitization of substation one-line diagrams based on computer vision
Mishchenko et al. Model-Based Recognition and Extraction of Information from Chart Images.
Radzid et al. Framework of page segmentation for mushaf Al-Quran based on multiphase level segmentation
CN111950315B (zh) 一种多幅条形码图像切分与识别方法、装置及存储介质
Maity et al. An approach for detecting circular callouts in architectural, engineering and constructional drawing documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant