CN111492370A - 用于识别结构化布局的文本图像的装置和方法 - Google Patents

用于识别结构化布局的文本图像的装置和方法 Download PDF

Info

Publication number
CN111492370A
CN111492370A CN202080000398.2A CN202080000398A CN111492370A CN 111492370 A CN111492370 A CN 111492370A CN 202080000398 A CN202080000398 A CN 202080000398A CN 111492370 A CN111492370 A CN 111492370A
Authority
CN
China
Prior art keywords
gnn
features
text
cells
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080000398.2A
Other languages
English (en)
Other versions
CN111492370B (zh
Inventor
邓羽真
杨谨宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hong Kong Applied Science and Technology Research Institute ASTRI
Original Assignee
Hong Kong Applied Science and Technology Research Institute ASTRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/823,398 external-priority patent/US11403488B2/en
Application filed by Hong Kong Applied Science and Technology Research Institute ASTRI filed Critical Hong Kong Applied Science and Technology Research Institute ASTRI
Publication of CN111492370A publication Critical patent/CN111492370A/zh
Application granted granted Critical
Publication of CN111492370B publication Critical patent/CN111492370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)

Abstract

一种从表格中提取信息的方法,包括以下步骤。提取表格中的字符。将这些字符合并为n元字符。n元字符通过两阶段GNN模式被合并为单词和文本行。两阶段GNN模式包括以下子步骤:从目标源提取空间特征、语义特征、CNN图像特征;第一GNN阶段:从所述空间特征输出图嵌入式空间特征;第二GNN阶段:分别从所述语义特征和所述CNN图像特征输出图嵌入式语义特征和图嵌入式CNN图像特征。文本行被合并为单元格。单元格被分组为行、列和键值对,以获得单元格之间的行、列和键值关系。根据单元格之间的行、列和键值关系,生成邻接矩阵。

Description

用于识别结构化布局的文本图像的装置和方法
技术领域
本发明涉及提取信息和表格理解的领域,特别涉及在复杂表格布局内从结构化文本数据中提取信息并从半结构文本数据构建逻辑结构的技术。
背景技术
表格是一种以结构化格式表示信息的便捷方法,适用于建立和呈现关系数据。具有丰富视觉效果的文档在日常生活中非常常见。例子包括购买单据、保险单据和海关申报单等。在文档中,视觉和布局信息对于文档理解至关重要。
表格识别是一种从电子和物理文档(如财务文档、收据、发票或报价单,然后可以将其转换为可编辑的存储数据)的表格中提取有意义的信息的技术。表格分割可以构造一对一的对应关系,可以将表转换为机器可理解的知识。例如,通过表格识别,有表格格式的文档可以被扫描、文本识别、并转换成电子数据,以存储在可搜索数据库中。这项技术对于扩展表格利用非常重要,使用户能够快速准确地从表中搜索和提取出关键数据。
但是,在一些实际情况下,面对复杂的表格布局(例如表格中的嵌套行/列或重叠行/列),在精确提取方面,表格识别面临挑战。也就是说,现有的表格识别技术可以识别表格中的文本信息,但不能识别实际的表格结构。通常,由于表格布局的多样性,异构文档(heterogeneous documents)的表格识别具有挑战性。因此,需要一种用于表格识别的高精度方法,以从各种表格布局中提取信息。
发明内容
本发明提供一种用于从结构化布局的文本图像中提取信息的方法和设备。结构化布局是用于将文本按一定的安排(例如表格)分布在文档的页面上。根据本发明的一个方面,一种用于从表格中提取信息以进行表格识别的方法,包括以下处理步骤。由字符分类器从电子或物理文档中提取表格的字符。通过字符分类器将具有二维位置的字符合并为n元字符。n元字符通过具有两阶段GNN模式的多任务图神经网络(GNN)合并为单词和文本行。两阶段GNN模式执行包括以下处理步骤:从目标源提取空间特征、语义特征和卷积神经网络(CNN)图像特征;第一GNN阶段,用于从提取的空间特征中生成图嵌入式空间特征;第二GNN阶段,分别从提取的语义特征和提取的CNN图像特征中生成图嵌入式语义特征和图嵌入式CNN图像特征。结果是文本行被合并为单元格。单元格分组为行、列和键值对;以获得单元格之间的行关系、单元格之间的列关系以及单元格之间的键值关系。然后,根据单元格之间的行、列和键值关系,生成一个或多个邻接矩阵。
在一个实施例中,该方法还包括:根据邻接矩阵,以可编辑电子数据的形式生成表格的内容;并将表格内容保存为可扩展标记语言(XML)。
根据本发明的另一方面,一种用于从表格中提取信息以进行表格识别的装置,包括一个字符分类器和一个多任务GNN。具有光学字符读取器(OCR)引擎的字符分类器被配置以从电子或物理文档中提取表格的一个或多个字符。字符分类器被配置以将具有一个或多个二维位置的字符合并为n元字符。有两阶段GNN模式的多任务GNN,被训练,并被配置以从目标源提取空间特征、语义特征和卷积神经网络(CNN)图像特征。在第一GNN阶段,GNN从提取的空间特征中生成图嵌入式空间特征。在第二GNN阶段,GNN分别从提取的语义特征和提取的CNN图像特征中生成图嵌入式语义特征和图嵌入式CNN图像特征。GNN还被配置以:将文本行合并到单元格中;将单元格分组为行、列和键值对,以获取单元格之间的行关系、单元格之间的列关系以及单元格之间的键值关系。根据单元格之间的行、列和键值关系生成邻接矩阵。
本发明的优点包括:(1)在两阶段GNN模式中,第二GNN阶段跟随第一GNN阶段,使得语义特征的第一权重矩阵和CNN图像特征的第二权重矩阵可以彼此分开,从而防止在处理语义和CNN图像特征时它们给彼此施加任何影响。(2)基于语义特征对单元格进行分组。这样,当表格识别面对复杂布局表格的分割情况时,可利用单元格的语义特征来维持表格单元格分组的准确性。(3)以正确的阅读顺序从表格中提取信息,并可以将表格内容提取为结构化数据并以XML格式保存,这有利于构造索引以帮助搜索和提供定量数据。
附图说明
下面参见附图更详细地描述本发明的实施例,其中:
图1显示本发明各种实施例的在两阶段GNN中处理目标特征的简化逻辑结构和数据流程图;
图2显示本发明各个实施例的通过表格识别系统从表格文档图像中提取逻辑结构的方法的简化逻辑结构和数据流图;
图3显示待识别的目标表格的表格图像。
图4显示将n元字符合并为单词和文本行的简化逻辑结构和数据流图;
图5显示将文本行合并为单元格,并将单元格分组为行、列和键值对的简化逻辑结构和数据流图;
图6A显示单元格之间的行关系;
图6B显示单元格之间的列关系;
图6C显示单元格之间的键-值关系。
具体实施方式
在以下描述中,阐述了从结构化布局的文本图像中提取信息的方法和装置的优选示例。对于本领域技术人员将显而易见的是,在不脱离本发明的范围和精神的情况下,可以进行包括增加和/或替换的修改。省略了某些具体细节,以免模糊本发明。然而,本公开内容是为了使本领域技术人员能够在不进行过多实验的情况下实践本发明教导。
本发明提供了一种用于从结构化布局的文本图像中进行内容识别的方法和装置,其可以将电子或物理文档的结构化布局信息转换成可编辑的电子数据,然后存储该可编辑的电子数据。结构化布局是用于将文本按一定的布局(例如表格)分布在文档的页面上。根据本发明的一个实施例,一种基于图像的表格内容识别方法由至少两个逻辑组件执行:字符分类器和多任务GNN。通过以软件、固件和/或机器指令(可在一个或多个计算机处理器、专用处理器或其组合中执行)来实现,本领域普通技术人员可以容易地设想和实现逻辑组件。
根据一个实施例,字符分类器是基于自然语言处理技术(NLP),用于语言字符识别的字符分类器。在设计时,使用包含所选语言字符的训练数据集对字符分类器进行训练。例如,在选择语言为英语的情况下,训练数据集可以包含字符A-Z和a-z。在训练期间,可用数字的每个字符的不同手写风格/形式图像或不同印刷字体图像(如每个字符100个图像)被馈送到字符分类器,使得字符分类器的训练构造出一个字符特征数据库,以使字符分类器识别所选语言的字符。在各种实施例中,基于神经网络如卷积神经网络(CNN)来构造字符分类器。在各种实施例中,字符分类器还包括使用OCR引擎来执行将键入的、手写的或打印的字符的图像转换成机器代码。在其他实施例中,方法中处理步骤的数量可以由各种类型和/或实现方式的一个或多个分类器来执行,它们适于执行处理步骤中各种任务。
一般来说,GNN是一种连接主义模型,可以通过在图的节点之间传递消息来捕获图的依赖性,并可以通过其相邻节点状态的加权总和来更新其节点的隐藏状态,从而学习大型实验数据的分布。因此,GNN能够对图中节点之间的关系进行建模,并为其生成数值表征。选择GNN的原因之一是,有许多现成的现实世界数据可以图形式表示。
图1显示在多任务GNN中处理目标特征的简化逻辑结构和数据流图。当输入目标源10到字符分类器中时,提取相应的特征,其中多任务GNN的目标源10可以是n元字符图像或文本行图像。在一些实施例中,目标源10是具有文本框或其他结构化布局的图像,包含单词、字符、短语、n元字符、文本行和/或其组合。在一个实施例中,GNN包括一个预训练特征嵌入层,其被配置以处理目标源10,以便提取包含单词含义的对应语义特征12。在一个实施例中,提供了一个用户界面,用于手动预定义空间特征14,一个CNN层连接到该GNN以提取对应的CNN图像特征16。本发明中的空间、语义和CNN图像特征12、14和16的定义列出如下。
空间特征12表示文本边界框的几何特征,例如坐标、高度、宽度、和高宽比(又称长宽比);语义特征14表示来自预训练数据库(例如,数百万的原始数据和文本文档)的n元字符嵌入、单词嵌入、或文本行嵌入;CNN图像特征16表示文本边界框中点的CNN/图像特征,其可以包含字体大小、字体类型、和显式分隔符的信息。
在一个实施例中,GNN被分成三个子网络:第一GNN 24、第二GNN 30、和第三GNN32。在另一个实施例中,GNN在不同的处理步骤或阶段被不同地配置,不同配置的GNN被标记:第一GNN 24、第二GNN 30、和第三GNN32。在第一GNN阶段20中,将空间特征12输入到第一GNN24中,以便图嵌入式空间特征、语义特征26的第一权重矩阵、和CNN图像特征28的第二权重矩阵可以从第一GNN 24输出。
在第二GNN阶段22,以并行方式处理语义和CNN图像特征12和14。即,语义特征12和CNN图像特征14可以被馈送到不同的GNN。如图1所示,语义特征12和语义特征的第一权重矩阵26被输入到第二GNN 30,使得从第二GNN输出图嵌入式语义特征。将CNN图像特征24和CNN图像特征28的第二权重矩阵输入到第三GNN 32中,以便从第三GNN 32输出图嵌入式CNN图像特征。
在两阶段GNN模式中,第二GNN阶段22是在生成语义特征26的第一权重矩阵和CNN图像特征28的第二权重矩阵之后执行的。因此,语义特征26的第一权重矩阵和CNN图像特征28的第二权重矩阵可以分开,从而进一步处理语义特征和CNN图像特征12和14,同时防止它们相互影响。
在第二GNN阶段22之后,除了在第一和第二GNN阶段20和22之前获得的空间、语义和CNN图像特征12、14和16之外,还获得图嵌入式空间特征、图嵌入式语义特征、和图嵌入式CNN图像特征。更具体地说,与顺序建模相比,GNN可以更灵活、更精确地了解文本块之间的重要性。文本块之间的重要程度用于生成融合了上下文的文本表征。简而言之,通过在两阶段GNN模式下处理空间、语义和CNN图像特征12、14和16,可以将这些特征12、14和16集成以输出相应的图嵌入式特征,这将是有利于准确识别表格内容。
下面进一步描述表格内容识别的工作流程。参见图2。根据本发明的各个实施例,表格识别系统100包括字符分类器110和GNN 120,其被配置以执行上述方法的处理步骤。该方法包括处理步骤S10、S20、S30、S40、S50、S60、S70和S80。S10是表格图像的捕获;S20为字符提取;S30是将字符合并为n元字符;S40是将n元字符合并为单词和文本行;S50是将文本行合并为单元格;S60是将单元格分为行、列、和键值对;S70是邻接矩阵的生成;S80是结构化数据的存储。在各个实施例中,S20可以由字符分类器110执行,S30至S80可以由GNN 120执行。在本公开中,文本行的定义是,在每个表格单元格中,文本行由出现在同一水平线上的单词组成;单元格的定义与表格单元格相同。
在S10,捕获电子或物理文档中的表格的图像。在各种实施例中,表格识别系统100还可以包括电连接到字符分类器110和GNN 120的光学扫描仪102,以便捕获图像并将其发送到字符分类器110或GNN 120。为了说明,图3所示的表格图像200假定是一个要识别的目标源。
在捕获表格图像之后,该方法继续进行到S20。在S20,图像被发送到字符分类器110,用于字符提取。字符分类器110从表格图像200中的字符获得提取信息。具体地,提取信息可以包括文本、和每个字符的坐标。在各种实施例中,字符分类器110经由OCR以预定语言提取信息。例如,可以选择英语的OCR引擎。根据图3中所示的示例性表格图像200,特征提取可以至少包括[“C”,“o”,“t”,“t”,“o”,“n”,…,“L”,“a”,“r”,“g”,“e”]及其坐标。
在获得提取信息之后,该方法继续到S30。在S30,将具有二维位置(即坐标)的提取字符合并为n元字符。例如,根据图3所示的示例性表格图像200,n元字符的合并结果至少可以包括[“Cot”,“ott”,“tto”,“ton”,“On”,“Top”,“-“,“New”…],或,[“Cott”,“otto”,“tton”…],具体取决于“n”元中“n”的数值在其他实施例中,使用诸如Docstrum、Voronoi、和X-Y Cut的算法来实现合并。
参见图2和图4,在获得n元字符之后,该方法继续进行到S40,以将n元字符合并为单词和文本行。单词和文本行的合并包括多个步骤S42、S44和S46。首先,执行步骤S42以生成关于n元字符210的空间特征、语义特征、CNN图像特征。将n元字符210输入到GNN 120的预训练n元字符嵌入层130中,这样,n元字符语义特征212就从预训练n元字符嵌入层130生成并输出。n元字符空间特征214可以通过手动预定来提供。GNN 120可以连接一个CNN层以处理n元字符文本框图像,以从该CNN层生成和输出n元字符CNN图像特征216。
在步骤S44,由GNN通过两阶段GNN模式处理n元字符的空间特征、语义特征和CNN图像特征212、214和216,从而将它们整合为n元字符图嵌入式空间特征、语义特征和CNN图像特征。
图嵌入式特征被用于合并以获得表格图像的单词220。根据图3所示的示例性表格图像200,合并结果单词220可以至少包括[“Cotton”,“On”,“Top”,“-“,“New”,“Color”,“:”,“White”,“Size”,“:”,“Large”]。在各种实施例中,在合并期间生成一个单词概率矩阵222。单词概率矩阵222充当n元字符的一个邻接矩阵,单词220是单词概率矩阵222的“argmax集”。这样,要获得合并结果单词220,需找到n元字符的邻接矩阵的团(clique),将每个团中的n元字符合并为一个“单词”(如“Cotton”)。更具体地说,首先将argmax集应用于单词概率矩阵222,以获得仅有0和1值的一个邻接矩阵。然后,从邻接矩阵中获得团,其中每个团表示哪个n元字符属于“一个单词”。
然后,继续步骤S46,单词220通过两阶段GNN模式合并到文本行224。在一个实施例中,将文本行概率矩阵引入到合并中,用作权重矩阵,以获得合并结果文本行224。类似地,文本行概率矩阵充当单词220的邻接矩阵,文本行224是文本行概率矩阵的“argmax集”。为了获得合并结果文本行224,要找到单词220的邻接矩阵的团(clique),将每个团中的单词合并为“文本行”。根据图3所示的示例性表格图像200,合并结果文本行224可以至少包括[“Cotton On Top–New”and“Color:White Size:Large”…]。
参见图2和5。在获得文本行之后,该方法继续进行到S50,将文本行合并为单元格。单元格的合并包括步骤S52和S54。首先,执行步骤S52以生成关于文本行224的空间特征、语义特征、CNN图像特征。类似于以上,GNN 120的预训练词嵌入层140处理单词220和对应的文本行224,通过连接到一个递归神经网络(RNN),以生成和输出文本行语义特征230。在各种实施例中,GNN 120仅处理单词220以经由RNN生成和输出文本行语义特征230。文本行空间特征232可以通过手动预定来提供。GNN 120可以连接到一个CNN层以处理文本行文本框图像,以从CNN层生成和输出文本行CNN图像特征234。
在S54,GNN通过两阶段GNN模式来处理文本行空间特征、语义特征和CNN图像特征230、232和234,从而将它们集成到文本行图嵌入式空间特征、语义特征和CNN图像特征。在此,两阶段GNN模式与图1的说明相同。
接下来,这些图嵌入式特征被用于单元格240的合并,其中每个“单元格”具有有含义的字符和/或单词集合,并形成表格的构成元素。根据图3所示的示例性表格图像200,合并结果单元格240可以至少包括[“Cotton On Top–New Color:White Size:Large”…]。在各种实施例中,在合并期间生成单元格概率矩阵242。类似地,单元格概率矩阵242用作文本行的邻接矩阵,单元格240是单元格概率矩阵242的“argmax集”。为了获得合并结果单元格240,要找到文本行的邻接矩阵的团,然后将每个团中的文本行合并为“一个单元格”。
然后,在获得单元格240之后,该方法继续进行到S60,以将单元格分组为行、列和键值对。如图5所示,行250、列252和键值对254由GNN通过两阶段GNN模式生成。
基于单元格240的语义特征对单元格240进行分组。基于语义特征的原因是,无论表格布局如何变化,单元格内的语义都是一致的,列或行内的语义是相似的。这样,当表格识别面临将具有复杂布局的表格(例如,嵌套行、嵌套列、重叠列或不规则格式)进行分割的情况时,可以通过采用文本行的语义特征来避免降低表格的分组单元格的准确性。此外,对于一行跨几列或一列跨几行的表格情况,考虑文本行的语义特征也可以避免低准确度。
在各个实施例中,将行、列、键值对概率矩阵引入分组中,以用作权重矩阵,以分别获得分组结果行250、列252和键值对254。类似地,这些概率矩阵充当单元格240的邻接矩阵,并且行250、列252和键值对254分别是相应概率矩阵的“argmax集”。为了获得合并结果行250、列252或键值对254,要找到单元格240的对应邻接矩阵的团,并将每个团中的文本行合并为“一行”、“一列”或“一个键值对”。根据图3所示的示例性表格图像200,行250的分组结果包括至少一个区域Rr,列252的分组结果包括至少一个区域Rc。此外,键值对254的分组结果包括至少[键:Item;值:C30010,D30080]和[键:Description;值:Cotton On Top–NewColor:White Size:Large,Dreamers Dress with Tie Front Color:Black Size:Middle]
此后,根据获得的行250、列252和键值对254,可以确定并获得单元格之间的行关系、单元格之间的列关系、以及单元格之间的键值关系。为了说明,图6A、6B和6C分别显示了单元格之间的行、列、键值关系,其中第一关系R1代表行关系,第二关系R2代表列关系,第三关系R3代表键-值关系。
再次参见图2。在获得单元格之间的行、列、键-值关系之后,该方法继续进行到S70,其中根据单元格之间的行、列和键-值关系而生成邻接矩阵。该邻接矩阵可以用作表示表格的数据结构。
在S70之后是S80,其中S80正在保存结构化数据。在S80,根据邻接矩阵,可以由GNN120识别表格布局,使得GNN 120可以以可编辑电子数据的形式生成表格的内容。具体地,“可以由GNN 120识别表格布局”表示GNN 120可以以正确的读取顺序从表格中提取信息。这样,表格的生成内容可以包括至少一个数据集,其具有一个键和至少一个值,其中该值可以与该键匹配。在本文中,短语“该值可以与该键匹配”是指基于图像特征、语义特征和/或空间特征将该值链接到该键。在S80结束时,通过上述特征和邻接矩阵,表格内容被提取为结构化数据并保存为XML,这对于构造索引以帮助搜索和提供定量数据将是有利的。
本公开的电子实施例可以使用计算设备、计算机处理器、或电子电路(包括但不限于专用集成电路(ASIC)、现场可编程门阵列(FPGA)、以及根据本公开教导而配置或编程的其他可编程逻辑设备)来实现。基于本公开的教导,软件或电子领域的技术人员可以容易地准备在计算设备、计算机处理器或可编程逻辑设备中运行的计算机指令或软件代码。
电子实施例的全部或部分可以在一个或多个计算设备中执行,所述计算设备包括服务器计算机、个人计算机、膝上型计算机、移动计算设备如智能电话和平板计算机。
电子实施例包括计算机存储介质,其中存储有计算机指令或软件代码,可用于对计算机或微处理器进行编程以执行本发明的任何过程。存储介质可以包括但不限于软盘、光盘、蓝光光盘、DVD、CD-ROM、磁光盘、ROM、RAM、闪存设备或任何类型的适用于存储指令、代码和/或数据介质或设备。
本发明的各种实施例也可以在分布式计算环境和/或云计算环境中实施,其中,机器指令的全部或部分由一个或多个通过通信网络互连的处理设备以分布式方式执行,该通信网络例如是内部网、广域网(WAN)、局域网(LAN)、互联网和其他形式的数据传输介质。
为了说明和描述的目的,已经提供了本发明的前述描述。其并非旨在穷举或将本发明限制为所公开的精确形式。许多修改和变化对本领域技术人员而言是显而易见的。
选择和描述的实施例是为了最好地解释本发明的原理及其实际应用,从而使本领域的其他技术人员能够理解本发明的各种实施例以及具有适合于所设想的特定用途的各种修改。

Claims (20)

1.一种用于从目标源文档中以结构化布局呈现的数据中识别和提取信息的方法,包括:
提供字符分类器;
提供图神经网络(GNN),其具有预训练特征嵌入层和两阶段GNN模式;
通过所述字符分类器在所述目标源文档的结构化布局中提取文本字符;
通过所述字符分类器根据二维位置信息将所述文本字符合并为n元字符;
通过所述GNN的预训练特征嵌入层从所述目标源文档中提取语义特征,其中所述语义特征包括词含义;
手工定义所述目标源文档的空间特征,其中所述空间特征包括文本边界框的几何特征,例如所述文档中的坐标、高度、宽度和长宽比;
使用卷积神经网络(CNN)层获得所述目标源文档的CNN图像特征,其中所述CNN图像特征表示所述文档的文本框的中点的特征,并且包括所述文档文本中所述文本字符的一个或多个字体大小和字体类型,和显式分隔符;
所述GNN将所述n元字符合并为单词和文本行;
其中,所述两阶段GNN模式具有第一GNN阶段和第二GNN阶段;
其中,第一GNN阶段包括:
根据所述空间特征生成图嵌入式空间特征;
其中第二GNN阶段包括:
分别从所述语义特征和所述CNN图像特征生成图嵌入式语义特征和图嵌入式CNN图像特征;
所述GNN将所述文本行合并为单元格;
通过所述GNN将所述单元格分组为行、列和键值对,从而获得所述单元格之间的行关系、所述单元格之间的列关系、以及所述单元格之间的键值关系;和
根据所述单元格之间的行、列和键值关系,生成邻接矩阵。
2.根据权利要求1所述的方法,还包括:
根据所述邻接矩阵,以可编辑电子数据的形式生成所述表格的内容。
3.根据权利要求2所述的方法,其中所述表格的内容包括至少一个数据集,其具有一个键和与所述键匹配的至少一个值。
4.根据权利要求2所述的方法,还包括:将所述表格的内容保存为可扩展标记语言(XML)。
5.根据权利要求1所述的方法,其中所述第一GNN阶段还包括:
通过第一GNN从所述空间特征中生成所述语义特征的第一权重矩阵和所述CNN图像的第二权重矩阵。
6.根据权利要求5所述的方法,其中所述第二GNN阶段还包括:
通过由所述第一权重矩阵配置的第二GNN,从所述语义特征和所述语义特征的第一权重矩阵生成所述图嵌入式语义特征;
通过由所述第二权重矩阵配置的第三GNN,从所述CNN图像特征和所述CNN图像特征的第二权重矩阵生成所述图嵌入式CNN图像特征。
7.根据权利要求1所述的方法,其中,将所述n元字符合并为单词和文本行包括:
在将所述n元字符合并为单词过程中,生成一个单词概率矩阵;
在将所述单词合并为文本行过程中,引入所述单词概率矩阵,其中所述单词概率矩阵用作所述GNN的权重矩阵。
8.根据权利要求1的方法,
其中将所述文本行合并为单元格包括:生成一个单元格概率矩阵;
其中将所述单元格分组为行、列和键值对包括:将所述单元格概率矩阵引入所述分组中,以作为所述GNN的权重矩阵。
9.根据权利要求1所述的方法,还包括:
通过使用光学扫描仪捕获所述结构化布局的图像,其中由所述字符分类器从所述图像中提取所述文本字符。
10.根据权利要求1所述的方法,其中通过所述字符分类器将具有二维位置的所述文本字符合并为n元字符,是使用Docstrum算法、Voronoi算法和X-Y Cut算法中的一种。
11.一种用于从目标源文档中以结构化布局呈现的数据中识别和提取信息的装置,包括:
字符分类器,其被配置以:
在所述目标源文档的结构化布局中提取文本字符;
将具有二维位置的所述文本字符合并为n元字符;
卷积神经网络(CNN)层,其被配置以获得所述目标源文档的CNN图像特征,其中所述CNN图像特征表示所述文档的文本框的中点的特征,并且包括所述文档文本中所述文本字符的一个或多个字体大小和字体类型,和显式分隔符;
图神经网络(GNN),其具有两阶段GNN模式;
其中所述两阶段GNN模式具有预训练特征嵌入层以及第一GNN阶段和第二GNN阶段;
其中所述预训练特征嵌入层从所述目标源文档中提取语义特征,其中所述语义特征包括词含义;
其中,第一GNN阶段包括:
从所述目标源文档的空间特征,生成图嵌入式空间特征,所述空间特征是手工定义的,包括文本边界框的几何特征,例如所述目标源文档中的坐标、高度、宽度和长宽比;
其中第二GNN阶段包括:
分别从所述语义特征和所述CNN图像特征,生成图嵌入式语义特征和图嵌入式CNN图像特征;
其中,所述GNN被配置为:
将所述n元字符合并为单词和文本行;
所述GNN将所述文本行合并为单元格;
所述GNN将所述单元格分组为行、列和键值对,以获取所述单元格之间的行关系、所述单元格之间的列关系以及所述单元格之间的键值关系;
根据所述单元格之间的行、列和键值关系,生成邻接矩阵。
12.根据权利要求11所述的装置,其中所述GNN还被配置以根据所述邻接矩阵以可编辑电子数据的形式生成所述表格的内容。
13.根据权利要求12所述的装置,其中所述表格的内容包括至少一个数据集,其有一个键和与所述键匹配的至少一个值。
14.根据权利要求12所述的装置,其中所述处理器还被配置以将所述表格的内容存储为可扩展标记语言(XML)。
15.根据权利要求11所述的装置,其中所述第一GNN阶段还包括:
通过第一GNN从所述空间特征中生成所述语义特征的第一权重矩阵和所述CNN图像的第二权重矩阵。
16.根据权利要求15所述的装置,其中所述第二GNN阶段还包括:
通过由所述第一权重矩阵配置的第二GNN,从所述语义特征和所述语义特征的第一权重矩阵生成所述图嵌入式语义特征;
通过由所述第二权重矩阵配置的第三GNN,从所述CNN图像特征和所述CNN图像特征的第二权重矩阵生成所述图嵌入式CNN图像特征。
17.根据权利要求11所述的装置,将所述n元字符合并为单词和文本行包括:
在将所述n元字符合并为单词过程中,生成一个单词概率矩阵;
在将所述单词合并为文本行过程中,引入所述单词概率矩阵,其中所述单词概率矩阵用作所述GNN的权重矩阵。
18.根据权利要求1的装置,
其中将所述文本行合并为单元格包括:生成一个单元格概率矩阵;
其中将所述单元格分组为行、列和键值对包括:将所述单元格概率矩阵引入所述分组中,以作为所述GNN的权重矩阵。
19.根据权利要求11所述的装置,还包括光学扫描仪,其中由所述字符分类器从所述图像中提取所述文本字符。
20.根据权利要求11所述的装置,其中所述字符分类器还被配置以使用Docstrum算法、Voronoi算法和X-Y Cut算法中的一种,将具有二维位置的所述文本字符合并为n元字符。
CN202080000398.2A 2020-03-19 2020-03-23 用于识别结构化布局的文本图像的装置和方法 Active CN111492370B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/823,398 US11403488B2 (en) 2020-03-19 2020-03-19 Apparatus and method for recognizing image-based content presented in a structured layout
US16/823,398 2020-03-19
PCT/CN2020/080694 WO2021184396A1 (en) 2020-03-19 2020-03-23 Apparatus and method for recognizing image-based content presented in a structured layout

Publications (2)

Publication Number Publication Date
CN111492370A true CN111492370A (zh) 2020-08-04
CN111492370B CN111492370B (zh) 2023-05-26

Family

ID=71810610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080000398.2A Active CN111492370B (zh) 2020-03-19 2020-03-23 用于识别结构化布局的文本图像的装置和方法

Country Status (1)

Country Link
CN (1) CN111492370B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967387A (zh) * 2020-08-17 2020-11-20 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
CN112364790A (zh) * 2020-11-16 2021-02-12 中国民航大学 基于卷积神经网络的机场工作单信息识别方法及系统
CN113297975A (zh) * 2021-05-25 2021-08-24 新东方教育科技集团有限公司 表格结构识别的方法、装置、存储介质及电子设备
CN113343866A (zh) * 2021-06-15 2021-09-03 杭州数梦工场科技有限公司 表格信息的识别方法及装置、电子设备
CN113989822A (zh) * 2021-12-24 2022-01-28 中奥智能工业研究院(南京)有限公司 基于计算机视觉和自然语言处理的图片表格内容提取方法
WO2022206965A1 (zh) * 2021-04-02 2022-10-06 上海肇观电子科技有限公司 表格图片的识别方法、播报方法、电子设备和存储介质
WO2023279847A1 (zh) * 2021-07-08 2023-01-12 京东科技信息技术有限公司 单元格位置的检测方法、装置和电子设备
CN116434028A (zh) * 2023-06-15 2023-07-14 上海蜜度信息技术有限公司 图像处理方法、系统、模型训练方法、介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050259866A1 (en) * 2004-05-20 2005-11-24 Microsoft Corporation Low resolution OCR for camera acquired documents
US20190108639A1 (en) * 2017-10-09 2019-04-11 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Semantic Segmentation of 3D Point Clouds
CN109783635A (zh) * 2017-11-13 2019-05-21 埃森哲环球解决方案有限公司 使用机器学习和模糊匹配自动分层分类文档和标识元数据
US20190340240A1 (en) * 2018-05-03 2019-11-07 Microsoft Technology Licensing, Llc Automated extraction of unstructured tables and semantic information from arbitrary documents
US20190354818A1 (en) * 2018-05-18 2019-11-21 Sap Se Two-dimensional document processing
CN110705260A (zh) * 2019-09-24 2020-01-17 北京工商大学 一种基于无监督图神经网络结构的文本向量生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050259866A1 (en) * 2004-05-20 2005-11-24 Microsoft Corporation Low resolution OCR for camera acquired documents
US20190108639A1 (en) * 2017-10-09 2019-04-11 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Semantic Segmentation of 3D Point Clouds
CN109783635A (zh) * 2017-11-13 2019-05-21 埃森哲环球解决方案有限公司 使用机器学习和模糊匹配自动分层分类文档和标识元数据
US20190340240A1 (en) * 2018-05-03 2019-11-07 Microsoft Technology Licensing, Llc Automated extraction of unstructured tables and semantic information from arbitrary documents
US20190354818A1 (en) * 2018-05-18 2019-11-21 Sap Se Two-dimensional document processing
CN110705260A (zh) * 2019-09-24 2020-01-17 北京工商大学 一种基于无监督图神经网络结构的文本向量生成方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967387A (zh) * 2020-08-17 2020-11-20 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
CN112364790A (zh) * 2020-11-16 2021-02-12 中国民航大学 基于卷积神经网络的机场工作单信息识别方法及系统
CN112364790B (zh) * 2020-11-16 2022-10-25 中国民航大学 基于卷积神经网络的机场工作单信息识别方法及系统
WO2022206965A1 (zh) * 2021-04-02 2022-10-06 上海肇观电子科技有限公司 表格图片的识别方法、播报方法、电子设备和存储介质
CN113297975A (zh) * 2021-05-25 2021-08-24 新东方教育科技集团有限公司 表格结构识别的方法、装置、存储介质及电子设备
CN113297975B (zh) * 2021-05-25 2024-03-26 新东方教育科技集团有限公司 表格结构识别的方法、装置、存储介质及电子设备
CN113343866A (zh) * 2021-06-15 2021-09-03 杭州数梦工场科技有限公司 表格信息的识别方法及装置、电子设备
WO2023279847A1 (zh) * 2021-07-08 2023-01-12 京东科技信息技术有限公司 单元格位置的检测方法、装置和电子设备
CN113989822A (zh) * 2021-12-24 2022-01-28 中奥智能工业研究院(南京)有限公司 基于计算机视觉和自然语言处理的图片表格内容提取方法
CN113989822B (zh) * 2021-12-24 2022-03-08 中奥智能工业研究院(南京)有限公司 基于计算机视觉和自然语言处理的图片表格内容提取方法
CN116434028A (zh) * 2023-06-15 2023-07-14 上海蜜度信息技术有限公司 图像处理方法、系统、模型训练方法、介质及设备

Also Published As

Publication number Publication date
CN111492370B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
US11403488B2 (en) Apparatus and method for recognizing image-based content presented in a structured layout
CN111492370B (zh) 用于识别结构化布局的文本图像的装置和方法
JP6629942B2 (ja) 機械学習およびファジーマッチングを使用した階層型の自動的な文書の分類およびメタデータ識別
US11501061B2 (en) Extracting structured information from a document containing filled form images
Embley et al. Table-processing paradigms: a research survey
Tian et al. Multilingual scene character recognition with co-occurrence of histogram of oriented gradients
Cui et al. Document ai: Benchmarks, models and applications
US11900644B2 (en) Document image analysis apparatus, document image analysis method and program thereof
US20220156300A1 (en) Deep document processing with self-supervised learning
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
Hazra et al. Optical character recognition using KNN on custom image dataset
Wei et al. A keyword retrieval system for historical Mongolian document images
KR20210086836A (ko) 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법
JP2021043478A (ja) 情報処理装置、その制御方法及びプログラム
Xu et al. A page object detection method based on mask R-CNN
Cheng et al. M6doc: A large-scale multi-format, multi-type, multi-layout, multi-language, multi-annotation category dataset for modern document layout analysis
Igorevna et al. Document image analysis and recognition: a survey
Pengcheng et al. Fast Chinese calligraphic character recognition with large-scale data
Majid et al. Character spotting and autonomous tagging: offline handwriting recognition for Bangla, Korean and other alphabetic scripts
Badry et al. Quranic script optical text recognition using deep learning in IoT systems
Prakash et al. Information extraction in unstructured multilingual web documents
Diem et al. Semi-automated document image clustering and retrieval
Nagy et al. Adaptive and interactive approaches to document analysis
KR20220143538A (ko) 반정형 문서로부터 정보를 추출하는 방법 및 시스템
Ojumah et al. A database for handwritten yoruba characters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40051413

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant