CN113723330A - 一种图表文档信息理解的方法及系统 - Google Patents

一种图表文档信息理解的方法及系统 Download PDF

Info

Publication number
CN113723330A
CN113723330A CN202111039933.8A CN202111039933A CN113723330A CN 113723330 A CN113723330 A CN 113723330A CN 202111039933 A CN202111039933 A CN 202111039933A CN 113723330 A CN113723330 A CN 113723330A
Authority
CN
China
Prior art keywords
chart
text
information
document
chart document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111039933.8A
Other languages
English (en)
Other versions
CN113723330B (zh
Inventor
伍思航
谢灿宇
黄宇浩
唐国志
廖倩颖
汪嘉鹏
陈邦栋
李洪亮
常新峰
李辉
丁凯
黄毅超
金连文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202111039933.8A priority Critical patent/CN113723330B/zh
Publication of CN113723330A publication Critical patent/CN113723330A/zh
Application granted granted Critical
Publication of CN113723330B publication Critical patent/CN113723330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图表文档信息理解的方法及系统,包括:采集初始图表文档,对所述初始图表文档进行分类,获得第一图表文档;对所述第一图表文档进行文本检测和识别,获得第二图表文档;对所述第二图表文档进行文本属性分类,获得目标图表文档;基于所述目标图表文档实现对图表文档信息的理解。本发明提出的图表文档信息理解的方法及系统,可以有效对图表文档进行分类,文本检测和识别,以及文本属性分类,对于机器自动化提取、分析、理解图表文档内容信息有重大的作用和意义。

Description

一种图表文档信息理解的方法及系统
技术领域
本发明涉及模式识别与人工智能技术领域,特别是涉及一种图表文档信息理解的方法及系统。
背景技术
图表作为一种特殊的文档表现形式,常嵌入到社会科学、自然科学的文章中,用来简洁扼要的表达数据、逻辑、方法流程等。近年来,文档的数字化需求越来越多,技术也日趋成熟。其中,图表的自动化识别和理解更是关键的一环,然而常常由于其复杂多样的版面、丰富的表达形式而难以进行自动化的机器理解。
对于图表文档的分类、文字检测和识别、文本属性的分类,现有的方法大多是通过组合基于传统方法的独立技术模块。这些算法的不足之处是需要手工对模型的多个超参数做数据集的适应性调整,也就是说针对不同的图表文档,需手工调整超参数来保证模型的检测效果。
近年来,基于深度学习的方法在图表文档的分类、文字检测和识别、文本属性的分类等任务上取得一定的进展,但是现有的方法对多种图表文档的鲁棒性和精度较差。
发明内容
本发明的目的是提供一种图表文档信息理解的方法及系统,以解决上述现有技术存在的问题。本发明的方法能适应图表文档的多种版面形式,如折线图、散点图、条形图、饼图等,有较好的鲁棒性,达到更高的精度。检测精度高,能够实现对多种复杂古籍文献进行文字精确检测。
为实现上述目的,本发明提供了如下方案:本发明提供一种图表文档信息理解的方法及系统,其中,一种图表文档信息理解的方法,包括:
采集初始图表文档,对所述初始图表文档进行分类,获得第一图表文档;对所述第一图表文档进行文本检测和识别,获得第二图表文档;对所述第二图表文档进行文本属性分类,获得目标图表文档;基于所述目标图表文档实现对图表文档信息的理解。
优选地,对所述初始图表文档进行分类包括,基于深度神经网络融合SE模块、类别平衡技术,对所述初始图表文档进行特征提取,获得分类结果;基于所述分类结果对所述初始图表文档进行分类,获得所述第一图表文档。
优选地,对所述第一图表文档进行文本检测和识别包括,构建多个检测头级联的神经网络,基于所述检测头级联的神经网络,获得所述第一图表文档的检测多方向矩形框;根据所述检测多方向矩形框,获得文本检测结果;将所述文本检测结果进行水平校正并切分文本行,送入基于CRNN网络的识别器,获得识别结果;基于所述识别结果对所述第一图表文档进行识别,获得所述第二图表文档。
优选地,将所述文本检测结果进行水平校正并切分文本行包括,将所述文本检测结果进行图像块的二值化处理和膨胀腐蚀图像处理,然后利用霍夫变换直线检测计算文本区域的最小外接矩形,获得相应的倾斜角度;根据所述倾斜角度,对所述文本检测结果进行水平校正;对所述图像块进行水平或者竖直方向投影,根据设定阈值切分文本行,获得所述文本行的检测结果;将所述文本行的检测结果送入基于CRNN网络的识别器,获得识别结果。
优选地,将所述文本行的检测结果送入基于CRNN网络的识别器,获得识别结果包括,构建基于主干网络为ResNet系列和BiLSTM时间序列模块的CRNN网络识别器,将所述文本行分别输入CTC模型和Attention模型,获得CTC模型识别结果和Attention模型识别结果;将所述CTC模型识别结果和所述Attention模型识别结果进行集成,获得所述识别结果。
优选地,对所述第二图表文档进行文本属性分类包括,对所述第二图表文档进行文本编码,获得文本信息特征;通过对所述文本信息特征进行视觉特征信息融合后,基于自注意力机制进行匹配和分类,获得目标图表文档。
优选地,所述编码包括语义信息编码、位置信息编码、角度信息编码、图表类型信息编码;
所述文本信息特征包括语义信息特征、位置信息特征、角度信息特征、图表类型信息特征;
所述语义信息编码包括字符嵌入层编码、句子嵌入层编码;
所述图表类型信息编码包括折线图嵌入层编码、条形图嵌入层编码、散点图嵌入层编码;
所述角度信息编码包括水平嵌入层编码、竖直嵌入层编码。
优选地,对所述编码图表文档进行视觉特征信息融合包括第一融合操作、第二融合操作;
所述第一融合操作为将语义信息特征、位置信息特征,角度信息特征、图表类型信息特征、文本的视觉特征通过嵌入层映射到相同维度后,进行加和或拼接操作;
所述第二融合操作为将语义信息特征、位置信息特征通过预训练的LayoutLM模型得到多模态表征,文本的视觉特征通过全连接层映射到与多模态表征相同维度后,进行加和或拼接操作。
一种图表文档信息理解的系统,包括,
采集模块,用于采集初始图表文档;
第一分类模块,与所述采集模块连接,用于对所述初始图表文档进行分类,获得第一图表文档;
识别模块,与所述分类模块连接,用于对所述第一图表文档进行文本检测和识别,获得第二图表文档;
第二分类模块,与所述识别模块连接,用于对所述第二图表文档进行文本属性分类,获得目标图表文档;通过所述目标图表文档实现对图表文档信息的理解。
本发明公开了以下技术效果:
本发明公开一种图表文档信息理解的方法及系统,包括对图表文档进行分类,对图表文档进行文本检测和识别,对图表文档进行文本属性分类。本发明提出的图表文档信息理解的方法及系统,可以有效对图表文档进行分类,文本检测和识别,以及文本属性分类,对于机器自动化提取、分析、理解图表文档内容信息有重大的作用和意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的方法流程图;
图2为本发明实施例的用于图表文档分类的深度神经网络结构图;
图3为本发明实施例的用于检测水平文本块的神经网络结构图;
图4为本发明实施例的用于检测多方向文本块的神经网络结构图;
图5为本发明实施例的文本块方向校正和文本行切分的流程图;
图6为本发明实施例的用于文本属性分类的模型结构图;
图7为本发明实施例中数据集的图表文档示例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本实施例提供一种图表文档信息理解的方法及系统,包括如下步骤:
步骤S1、对图表文档进行分类。利用构建的深度神经网络提取图表文档的特征,并加入SE模块、类别平衡等技术提升特征表达能力,得到更准确的分类结果。
本实施例选择DenseNet121层为主干网络,在每一个dense block的前以及transition layer后添加Squeeze-and-Excitation(SE)模块,结构设计如图2所示。
在训练的过程中加入图像变换的数据增强、类别平衡等技术。其中,类别平衡是对数据样本进行过采样,按照重复因子对每个图表文档类别进行抽样。重复因子计算公式(1)如下:
Figure BDA0003248713090000061
其中,r(c)代表类别c的重复因子,t是阈值常数,f(c)是类别c出现的频率。
步骤S2、对图表文档进行文本检测和识别。利用构建多个检测头级联的神经网络,得到文本的检测多方向矩形框,再将文本检测结果进行水平校正并切分文本行,送入基于CRNN网络的识别器,得到识别结果;
本实施例采用构建多个检测头级联的神经网络,得到文本的检测多方向矩形框。具体地,构建5个检测头,从IoU 0.5~0.9的级联检测网络Cascade R-CNN系列检测水平文本块,如图3所示。构建2个检测头,从IoU0.5~0.6的级联检测网络Cascade Mask R-CNN检测多方向文本块,结构如图4所示。
进一步地,将文本检测结果进行水平校正并切分文本行。具体地,首先对文本检测结果图像块二值化,并进行一系列膨胀腐蚀图像处理,然后利用霍夫变换直线检测计算文本区域的最小外接矩形,并得到相应的倾斜角度,利用该倾斜角度,对文本检测结果进行水平校正。然后,对图像块进行水平或者竖直方向投影,根据设定阈值切分每个文本行,得到每个文本行的检测结果;
将上述得到的每个文本行检测结果送入基于CRNN网络的识别器,得到识别结果。具体地,构建常用的主干网络为ResNet系列和BiLSTM时间序列模块的CRNN网络识别器,然后分别结合CTC和Attention两个解码模块,得到两个模型。将每个文本行送入这两个模型得到相应的结果,再进行集成得到最终的结果。
步骤S3、对图表文档进行文本属性分类。首先对每个文本进行语义信息和位置信息的编码,以及文本方向角度、图表类型等多模态信息编码,与每个文本自身的视觉特征信息进行融合操作,得到的实例特征进行自注意力机制匹配和分类。
文本块语义信息特征的提取包括,对每个文本块的每个字符进行字符嵌入(embedding)层编码,统一补全到所有文本块最大的长度,得到文本块的语义编码表示,经过Bi-LSTM提取文本块之间相互信息后,通过句子嵌入(embedding)层编码后,得到最终每个文本块的语义信息特征;
文本块位置信息特征的提取包括,计算每个文本块4个顶点x、y坐标8个值在图表文档(全图)中的相对位置;
文本块所属的图表类型信息特征的提取包括,即当前图表文档的类型(如折线图、条形图、散点图等类型)的嵌入(embedding)层编码特征;
文本块的方向角度信息特征的提取包括,即各个文本块水平或者竖直方向的嵌入(embedding)层编码特征;
文本块视觉信息特征的提取包括,利用ResNet系列深度神经网络对图表文档编码整个图像的视觉特征,结合文本块位置信息,通过RoIAlign方式从整个图像的视觉特征提取对应各个文本块的视觉信息特征。
其中融合操作包含如下步骤:
第一种融合操作,将文本语义信息特征、位置信息特征,文本方向角度特征、图表类型特征、文本的视觉特征通过嵌入层映射到相同维度后,进行加和或者拼接操作;
第二种融合操作,将文本语义信息特征、位置信息特征通过预训练的LayoutLM模型得到多模态表征,文本的视觉特征通过全连接层映射到与多模态表征相同维度后,进行加和或者拼接操作。
完成融合操作后,将融合后的特征通过基于自注意力机制的TransformerEncoder编码器,最后利用全连接层计算最终每个概率文本块属性(标题、图例、坐标轴名称、坐标刻度数值等)概率。
本实施例使用ICDAR和ICPR的Adobe Synthetic、PMC数据集,数据集的部分图表文档如图7所示。在图表文档分类任务上,将ICPR2020Adobe Synthetic数据集共12类图表文档按照7比3随机划分训练集和验证集,类似地PMC数据集共15类图表文档也划分训练集和测试集。根据本实施例加入SE模块的DenseNet121模型,以及类别平衡、数据增强等方法训练模型,得到验证集的结果如下表1所示。
表1
Figure BDA0003248713090000091
在PMC数据集中设置训练技术的消融实验,如下表2所示。
表2
Figure BDA0003248713090000092
Figure BDA0003248713090000101
在图表文档的文字检测和识别上,在ICPR 2020Adobe Synthetic数据集和PMC数据集上,分别按照4比1随机划分训练集和验证集,利用构建的5个检测头的Cascade R-CNN检测Adobe Synthetic的水平文本块,利用构建的2个检测头的Cascade Mask R-CNN检测结果如下表3所示:
表3
Figure BDA0003248713090000102
进一步地,将文本检测结果进行水平校正并切分文本行,文本块方向校正和文本行切分的流程图如图5所示。具体地,首先对文本检测结果图像块二值化,并进行一系列膨胀腐蚀图像处理,然后利用霍夫变换直线检测计算文本区域的最小外接矩形,并得到相应的倾斜角度,利用该倾斜角度,对文本检测结果进行水平校正。然后,对图像块进行水平或者竖直方向投影,根据设定阈值切分每个文本行,得到每个文本行的检测结果;
将上述得到的每个文本行检测结果送入基于CRNN网络的识别器,得到识别结果。具体地,构建常用的主干网络为ResNet系列和BiLSTM时间序列模块的CRNN网络识别器,然后分别结合CTC和Attention两个解码模块,得到两个模型。将每个文本行送入这两个模型得到相应的结果,再进行集成得到最终的结果。如下表4所示:
表4
Figure BDA0003248713090000111
步骤3中,对图表文档进行文本属性分类,文本属性分类的模型结构图如图6所示。首先对每个文本进行语义信息和位置信息的编码,以及文本方向角度、图表类型等多模态信息编码,与每个文本自身的视觉特征信息进行融合操作,得到的实例特征进行自注意力机制匹配和分类。在ICPR2020Adobe Synthetic数据集和PMC数据集上,分别按照4比1随机划分训练集和验证集,得到结果如下表5所示:
表5
Figure BDA0003248713090000112
在PMC数据集中,各个文本属性分类的精度如下表6所示:
表6
Figure BDA0003248713090000121
在Adobe Synthetic验证集上,加入位置信息、图表类型信息、视觉信息的消融实验结果如表7所示:
表7
Figure BDA0003248713090000122
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (9)

1.一种图表文档信息理解的方法,其特征在于,包括:
采集初始图表文档,对所述初始图表文档进行分类,获得第一图表文档;对所述第一图表文档进行文本检测和识别,获得第二图表文档;对所述第二图表文档进行文本属性分类,获得目标图表文档;基于所述目标图表文档实现对图表文档信息的理解。
2.根据权利要求1所述的图表文档信息理解的方法,其特征在于,
对所述初始图表文档进行分类包括,基于深度神经网络融合SE模块、类别平衡技术,对所述初始图表文档进行特征提取,获得分类结果;基于所述分类结果对所述初始图表文档进行分类,获得所述第一图表文档。
3.根据权利要求1所述的图表文档信息理解的方法,其特征在于,
对所述第一图表文档进行文本检测和识别包括,构建多个检测头级联的神经网络,基于所述检测头级联的神经网络,获得所述第一图表文档的检测多方向矩形框;根据所述检测多方向矩形框,获得文本检测结果;将所述文本检测结果进行水平校正并切分文本行,送入基于CRNN网络的识别器,获得识别结果;基于所述识别结果对所述第一图表文档进行识别,获得所述第二图表文档。
4.根据权利要求3所述的图表文档信息理解的方法,其特征在于,
将所述文本检测结果进行水平校正并切分文本行包括,将所述文本检测结果进行图像块的二值化处理和膨胀腐蚀图像处理,然后利用霍夫变换直线检测计算文本区域的最小外接矩形,获得相应的倾斜角度;根据所述倾斜角度,对所述文本检测结果进行水平校正;对所述图像块进行水平或者竖直方向投影,根据设定阈值切分文本行,获得所述文本行的检测结果;将所述文本行的检测结果送入基于CRNN网络的识别器,获得识别结果。
5.根据权利要求3所述的图表文档信息理解的方法,其特征在于,
将所述文本行的检测结果送入基于CRNN网络的识别器,获得识别结果包括,构建基于主干网络为ResNet系列和BiLSTM时间序列模块的CRNN网络识别器,将所述文本行分别输入CTC模型和Attention模型,获得CTC模型识别结果和Attention模型识别结果;将所述CTC模型识别结果和所述Attention模型识别结果进行集成,获得所述识别结果。
6.根据权利要求1所述的图表文档信息理解的方法,其特征在于,
对所述第二图表文档进行文本属性分类包括,对所述第二图表文档进行文本编码,获得文本信息特征;通过对所述文本信息特征进行视觉特征信息融合后,基于自注意力机制进行匹配和分类,获得目标图表文档。
7.根据权利要求6所述的图表文档信息理解的方法,其特征在于,
所述编码包括语义信息编码、位置信息编码、角度信息编码、图表类型信息编码;
所述文本信息特征包括语义信息特征、位置信息特征、角度信息特征、图表类型信息特征;
所述语义信息编码包括字符嵌入层编码、句子嵌入层编码;
所述图表类型信息编码包括折线图嵌入层编码、条形图嵌入层编码、散点图嵌入层编码;
所述角度信息编码包括水平嵌入层编码、竖直嵌入层编码。
8.根据权利要求6所述的图表文档信息理解的方法,其特征在于,
对所述编码图表文档进行视觉特征信息融合包括第一融合操作、第二融合操作;
所述第一融合操作为将语义信息特征、位置信息特征,角度信息特征、图表类型信息特征、文本的视觉特征通过嵌入层映射到相同维度后,进行加和或拼接操作;
所述第二融合操作为将语义信息特征、位置信息特征通过预训练的LayoutLM模型得到多模态表征,文本的视觉特征通过全连接层映射到与多模态表征相同维度后,进行加和或拼接操作。
9.一种图表文档信息理解的系统,其特征在于,包括,
采集模块,用于采集初始图表文档;
第一分类模块,与所述采集模块连接,用于对所述初始图表文档进行分类,获得第一图表文档;
识别模块,与所述分类模块连接,用于对所述第一图表文档进行文本检测和识别,获得第二图表文档;
第二分类模块,与所述识别模块连接,用于对所述第二图表文档进行文本属性分类,获得目标图表文档;通过所述目标图表文档实现对图表文档信息的理解。
CN202111039933.8A 2021-09-06 2021-09-06 一种图表文档信息理解的方法及系统 Active CN113723330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111039933.8A CN113723330B (zh) 2021-09-06 2021-09-06 一种图表文档信息理解的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111039933.8A CN113723330B (zh) 2021-09-06 2021-09-06 一种图表文档信息理解的方法及系统

Publications (2)

Publication Number Publication Date
CN113723330A true CN113723330A (zh) 2021-11-30
CN113723330B CN113723330B (zh) 2023-11-07

Family

ID=78681988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111039933.8A Active CN113723330B (zh) 2021-09-06 2021-09-06 一种图表文档信息理解的方法及系统

Country Status (1)

Country Link
CN (1) CN113723330B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898388A (zh) * 2022-03-28 2022-08-12 支付宝(杭州)信息技术有限公司 文档图片分类方法、装置、存储介质及电子设备
CN115620322A (zh) * 2022-12-20 2023-01-17 华南理工大学 一种基于关键点检测的全线表表格结构识别方法
CN116306575A (zh) * 2023-05-10 2023-06-23 杭州恒生聚源信息技术有限公司 文档解析方法、文档解析模型训练方法、装置和电子设备
CN117237957A (zh) * 2023-11-16 2023-12-15 新视焰医疗科技(杭州)有限公司 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046784A (zh) * 2019-12-09 2020-04-21 科大讯飞股份有限公司 文档版面分析识别方法、装置、电子设备和存储介质
CN111507351A (zh) * 2020-04-16 2020-08-07 华南理工大学 一种古籍文档数字化的方法
CN112232149A (zh) * 2020-09-28 2021-01-15 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及系统
CN113065549A (zh) * 2021-03-09 2021-07-02 国网河北省电力有限公司 基于深度学习的文档信息抽取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046784A (zh) * 2019-12-09 2020-04-21 科大讯飞股份有限公司 文档版面分析识别方法、装置、电子设备和存储介质
CN111507351A (zh) * 2020-04-16 2020-08-07 华南理工大学 一种古籍文档数字化的方法
CN112232149A (zh) * 2020-09-28 2021-01-15 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及系统
CN113065549A (zh) * 2021-03-09 2021-07-02 国网河北省电力有限公司 基于深度学习的文档信息抽取方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898388A (zh) * 2022-03-28 2022-08-12 支付宝(杭州)信息技术有限公司 文档图片分类方法、装置、存储介质及电子设备
CN114898388B (zh) * 2022-03-28 2024-05-24 支付宝(杭州)信息技术有限公司 文档图片分类方法、装置、存储介质及电子设备
CN115620322A (zh) * 2022-12-20 2023-01-17 华南理工大学 一种基于关键点检测的全线表表格结构识别方法
CN115620322B (zh) * 2022-12-20 2023-04-07 华南理工大学 一种基于关键点检测的全线表表格结构识别方法
CN116306575A (zh) * 2023-05-10 2023-06-23 杭州恒生聚源信息技术有限公司 文档解析方法、文档解析模型训练方法、装置和电子设备
CN116306575B (zh) * 2023-05-10 2023-08-29 杭州恒生聚源信息技术有限公司 文档解析方法、文档解析模型训练方法、装置和电子设备
CN117237957A (zh) * 2023-11-16 2023-12-15 新视焰医疗科技(杭州)有限公司 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统

Also Published As

Publication number Publication date
CN113723330B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN113723330B (zh) 一种图表文档信息理解的方法及系统
CN110032938B (zh) 一种藏文识别方法、装置及电子设备
Harouni et al. Online Persian/Arabic script classification without contextual information
CN112765358A (zh) 一种基于噪声标签学习的纳税人行业分类方法
CN111626146B (zh) 一种基于模板匹配的合并单元格表格分割识别方法
CN111639646A (zh) 一种基于深度学习的试卷手写英文字符识别方法及系统
CN106372624B (zh) 人脸识别方法及系统
CN113408574B (zh) 一种车牌分类方法、车牌分类装置和计算机可读存储介质
CN111652171B (zh) 一种基于双分支网络的面部表情识别模型的构建方法
CN115578735B (zh) 文本检测方法和文本检测模型的训练方法、装置
CN110309301B (zh) 企业类别的分类方法、装置及智能终端
CN105117707A (zh) 一种基于区域图像的人脸表情识别方法
CN112528894A (zh) 一种差异项判别方法及装置
CN105469080A (zh) 一种人脸表情识别方法
CN112329767A (zh) 基于联合预训练的合同文本图像关键信息提取系统和方法
CN109389050B (zh) 一种流程图连接关系识别方法
CN112308148A (zh) 缺陷类别识别、孪生神经网络训练方法、装置及存储介质
CN114170411A (zh) 一种融合多尺度信息的图片情感识别方法
CN116311310A (zh) 一种结合语义分割和序列预测的通用表格识别方法和装置
CN115620312A (zh) 跨模态字符笔迹验证方法、系统、设备及存储介质
CN112200789A (zh) 一种图像识别的方法及装置、电子设备和存储介质
CN116110066A (zh) 票据文本的信息提取方法、装置、设备及存储介质
CN115761235A (zh) 基于知识蒸馏的零样本语义分割方法、系统、设备及介质
Mishchenko et al. Model-Based Recognition and Extraction of Information from Chart Images.
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant