CN116543404A - 基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质 - Google Patents

基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质 Download PDF

Info

Publication number
CN116543404A
CN116543404A CN202310520147.2A CN202310520147A CN116543404A CN 116543404 A CN116543404 A CN 116543404A CN 202310520147 A CN202310520147 A CN 202310520147A CN 116543404 A CN116543404 A CN 116543404A
Authority
CN
China
Prior art keywords
recognition
semantic
information
model
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310520147.2A
Other languages
English (en)
Inventor
吴至友
高桓
乔岩
段旭祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Normal University
Original Assignee
Chongqing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Normal University filed Critical Chongqing Normal University
Priority to CN202310520147.2A priority Critical patent/CN116543404A/zh
Publication of CN116543404A publication Critical patent/CN116543404A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Character Discrimination (AREA)

Abstract

本申请公开一种基于单元格坐标优化的表格语义信息抽取方法,对包含多种类型表单的数据集进行OCR识别,得到包含文字、单元格、标签的表格信息文件;同时,将相同的数据集输入多模态预训练模型预测单元格,计算预测单元格坐标,使用预测单元格坐标修正OCR识别获得的表格信息得到修正的表格信息;将修正后的表格信息输入多模态预训练模型,训练完成获得语义实体识别模型,语义实体识别模型进行语义识别,抽取获得表格语义信息,得到修正后的语义识别预测结果,对预测结果进行分类。解决了语义识别准确率较低,表格抽取难度较大,表格抽取精确度不高等问题。

Description

基于单元格坐标优化的表格语义信息抽取方法、系统、设备及 介质
技术领域
本发明涉及计算机信息处理技术领域,具体为基于单元格坐标优化的表格语义信息抽取方法。
背景技术
随着信息技术的发展,电子表格的重要性毋庸置疑。现在存在一些基于深度学习思想进行表格识别的方案,但是表格识别准确性并不理想,现有的表格识别技术,对于非完全表格线表格(例如无表格线、部分表格线或者表格线不清楚的表格,主要依靠文字区域的识别,这种方法对表格图像质量和表格结构要求高且识别准确率低;对于有全部表格线的表格,主要依靠对单元格线条的识别进而实现对表格单元格的确认,这种方法操作较复杂、性能不稳定且准确率低;因此,现有的表格识别技术,无法真正满足日益增长的表格识别要求。
如基于Grid的方法:此类方法主要关注图像层面多模态信息的融合,文本大多为字符粒度,对文本与结构信息的嵌入方式较为简单,如Chargrid等算法;基于Token的方法将位置、视觉等特征信息共同编码到多模态模型中,并且在大规模数据集上进行预训练,在下游任务中取得较好效果。如BERT,RoBERTa,LayoutLM,LayoutLMv2,LayoutXLM,StrucText等算法;基于GCN的方法尝试学习图像、文字之间的结构信息,从而可以解决开集信息抽取的问题(训练集中没有见过的模板),如GCN、SDMGR等算法;基于End-to-end的方法将现有的OCR文本识别以及表格信息抽取两个任务放在一个统一的网络中进行共同学习,并在学习过程中相互加强,如Trie等算法。
公开号CN113269153A,名称“一种表格识别方法以及装置”,公开一种表格识别方法,获取待识别图像;将待识别图像输入已训练的表格检测模型得到待识别图像中表格图像的表格坐标信息、表格线位置信息,确定表格图像中各个单元格的位置信息以及文本信息,生成表格图像对应的表格信息。
公开号CN115546809A,名称“基于单元格约束的表格结构识别方法及其应用”,基于单元格约束的表格结构识别方法及其应用,根据表格类型将不同的表格图像输入到对应的目标检测模型中,以输出对应表格的位置信息,获取表格的整行和整列的信息,该信息包括每行和每列的任意两个不相邻的顶点的坐标;识别表格中的所有文本及其边框;通过机器翻译方法获取表格的表格结构信息;根据表格的位置信息、表格的整行和整列的信息及表格结构信息,修正表格中的单元格;对修正后的表格中单元格的坐标进行聚类,以生成表格的单元格结构。本申请具有可结合任意一种光学符号识别方法,通过完整的表格识别技术,端到端地从电子文档中分析表格结构。
上述基于End-to-end的方法将现有的OCR文本识别以及表格信息抽取两个任务放在一个统一的网络中进行共同学习,并在学习过程中相互加强,但是该方法对于使用文本识别算法的表格抽取精确度不够高,针对简单表格抽取,虽然一定程度解决了表格信息抽取,克服了文本与结构信息的嵌入方式较为简单的问题,但是使用文本识别算法的表格抽取难度较大,表格抽取精确度不高。
发明内容
本发明针对现有技术存在的使用文本识别算法的表格抽取难度较大,对复杂表格抽取难度大,表格抽取精确度不够高等问题,提出一种基于单元格坐标优化的表格语义信息抽取方法,旨在提高使用文本识别的表格抽取精确度。
有鉴于此,根据本申请的一个方面,提出一种基于单元格坐标优化的表格语义信息抽取方法,对包含多种类型表单的数据集进行OCR识别,得到包含文字、单元格、标签的表格信息文件;同时,将相同的数据集输入多模态预训练模型预测单元格,计算预测单元格坐标,使用预测单元格坐标修正OCR识别获得的表格信息得到修正的表格信息;将修正后的表格信息输入多模态预训练模型,训练完成获得语义实体识别模型,语义实体识别模型进行语义识别,抽取获得表格语义信息,得到修正后的语义识别预测结果,对预测结果进行分类。
进一步优选,将OCR识别结果的表格信息文件输入预训练模型进行训练,进行语义实体SER识别,获取语义预测指标,确定识别准确度阈值,根据语义预测指标对语义实体SER识别进行错误情况分析,根据错误情况分析判断单元格语义识别的准确性,当单元格识别没有达到识别准确度阈值,再将OCR识别结果的表格信息文件输入预训练模型进行语义实体SER识别,直至满足识别准确度阈值要求,抽取表格语义信息。
进一步优选,所述将相同的数据集输入预训练模型得预测单元格包括;XFUND数据集输入结构化文本理解模型StrucTexT模型,采用跨文本、图像和布局的多模态信息对StrucTexT模型进行预训练获得预训练模型,预训练模型预测输出表格单元格中句子长度,并配对单元格的方向,其中,通过编码器完成表格单元格中文字的段-字符对齐。
进一步优选,在模型输入阶段构建一个额外的片段ID嵌入,在不同的粒度上关联视觉和文本特征,同时,附加一个二维位置嵌入以涉及布局线索,调用哈达玛乘积单元融合不同层次和模式的编码特征,以实现高级特征融合。
进一步优选,所述将修正后的表格信息输入多模态预训练模型进一步包括,表格文本通过OCR引擎调用文本映射单元得到文本Text,通过视觉编码得到视觉特征映射Feature Map,视觉或文本映射获得信息输出一维坐标映射position和2D矩形坐标位置映射,一起输入到编码层,采用多模态变换器编码器进行编码,得到输出向量,通过输出向量进行语义实体识别任务对每一个检测到的文本进行分类,通过双仿射注意力机制分类器根据关系对,完成对图象中的文本内容的关系提取,得到向量映射的多模式嵌入。
进一步优选,对于一个带有预设条件的OCR结果的输入图像,利用来自文本、图像和布局方面的信息,将信息处理整合为映射向量;再将多模式嵌入送入预训练模型的变换器网络获得丰富的语义特征,变换器网络根据分类关系对通过建立不同模式输入之间的相互作用完成跨模态融合;结构化文本理解模块接收通过映射向量编码后的文本和图像特征,进行实体识别并提取关系,以进行实体标记和链接。
根据本申请另一方面,提出一种基于单元格坐标优化的表格语义信息识别系统,包括:OCR识别模块、结构化文本理解StrucTexT模型、文件修正单元、多模态预训练模型LayoutXLM、语义实体识别模块,OCR识别模块对包含多种类型表单的数据集进行OCR识别,得到包含文字、单元格、标签的表格信息文件;同时StrucTexT模型对相同数据集进行预训练获得预测单元格,计算预测单元格坐标,文件修正单元使用预测单元格坐标修正获得的表格信息得到修正的表格信息;将修正的表格信息输入多模态预训练模型,训练完成获得语义实体识别模型,语义实体识别模型进行语义识别,抽取获得表格语义信息,得到修正后的语义识别预测结果,对预测结果进行分类。
进一步优选,将OCR识别结果的表格信息文件输入预训练模型进行训练,进行语义实体SER识别,获取语义预测指标,确定识别准确度阈值,根据语义预测指标对语义实体SER识别进行错误情况分析,根据错误情况分析判断单元格语义识别的准确性,当单元格识别没有达到识别准确度阈值,再将OCR识别结果的表格信息文件输入预训练模型进行语义实体SER识别,直至满足识别准确度阈值要求,抽取表格语义信息。
进一步优选,在模型输入阶段构建一个额外的片段ID嵌入,在不同的粒度上关联视觉和文本特征,同时,附加一个二维位置嵌入涉及表格布局线索,调用哈达玛乘积单元融合不同层次和模式的编码特征实现高级特征融合,完成对XFUND数据集中结构化文本分段理解和标记。
进一步优选,所述将修正后的表格信息输入多模态预训练模型进一步包括,表格文本通过OCR引擎调用文本映射单元得到文本,通过视觉编码得到视觉特征映射,视觉或文本映射获得信息输出一维坐标映射和二维矩形坐标位置映射,一起输入到编码层,采用多模态变换器编码器进行编码,得到输出向量,通过输出向量进行语义实体识别任务对每一个检测到的文本进行分类,通过双仿射注意力机制分类器根据关系对完成对图象中的文本内容的关系提取,得到向量映射的多模式嵌入。
根据本申请另一方面,还提供一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上面所述的基于单元格坐标优化的表格语义信息抽取方法。
根据本申请另一方面,还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行根据上面所述的基于单元格坐标优化的表格语义信息抽取方法。
本申请首先对包含多种类型表单的数据集进行光学字符识别,得到包含文字、单元格、标签的表格信息文件,同时调用结构化文本理解模型对相同数据集进行预训练获得预测单元格,使用预测单元格坐标对表格信息文件进行修正,将修正后的表格信息文件输入多模态预训练模型训练,然后语义实体识别模块进行语义识别,得到修正后的语义识别预测结果,准确率较修正以前有较大提升。本申请具备结构简单、准确率高,解决了语义识别准确率较低,表格语义信息抽取精确度不高,表格抽取难度较大等问题,具备良好的迁移性、通用性、可扩展性。
附图说明
图1所示为本申请示例性实施例中的基于单元格坐标优化的表格识别方法流程示意图;
图2所示为本申请示例性实施例中的预训练模型LayoutXLM结构示意图;
图3所示为能够用于实现本申请实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
应当理解,本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本申请实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
本申请提出一种基于单元格坐标优化的表格语义信息抽取方法。
首先对包含多种类型表单的数据集进行光学字符识别,得到包含文字、单元格、标签的表格信息文件,同时调用结构化文本理解模型StrucTexT模型对相同数据集进行预训练获得预测单元格,使用预测单元格坐标对表格信息文件进行修正,将修正后的表格信息文件输入多模态预训练模型LayoutXLM模型训练,然后语义实体识别模块进行语义识别,得到修正过后的语义识别预测结果,准确率较修正以前有较大提升,解决表格语义信息抽取精确度不高的问题。
其中,表格识别功能主要由以下模型实现,具体包括:单行文本检测模型-DB、单行文本识别模型-CRNN、表格结构单元格cell模型和坐标预测模型-RARE。单行文字检测模型检测图片中单行文字坐标,将单行文字坐标输入单行文本识别模型获得识别结果,识别结果包括图片的表格结构和表格结构单元格cell坐标,预测模型根据表格的结构信息和单元格的坐标信息,由单行文字的坐标、识别结果和单元格的坐标一起组合输出单元格识别结果,单元格识别结果和表格结构一起构造表格的超文本标记语言html字符串。对于同样的数据集,利用结构化文本理解(StrucTexT)预训练模型得到的单元格坐标来修正光学字符识别(OCR)单元得到的表格识别文件的单元格信息,再调用语义实体识别任务SER单元进行识别,能够有效提升表格语义信息预测准确率。
本申请示例性实例中以XFUND数据集为例作进一步具体描述。
XFUND数据集是一个用于关键信息抽取KIE任务的多语言数据集,它包含7种不同语种的表单数据,并且全部用人工进行了键-值对形式的标注。其中,每个语种的数据都包含了199张表单数据,并分为149张训练集以及50张测试集。
关键信息提取是Document VQA中的一个重要任务,主要从图像中提取所需要的关键信息,如从身份证中提取出姓名和公民身份号码信息,这类信息的种类往往在特定任务下是固定的,但是在不同任务间是不同的。
采用语义实体识别(Semantic Entity Recognition)SER,可以完成对图像中的文本识别与分类。
如图1所示为本申请示例性实施例中的基于单元格坐标优化的表格识别方法流程示意图。包括:
获取多语言数据集XFUND数据集,XFUND数据集包含多种类型的表单数据,首先,OCR识别单元对XFUND数据集进行修正光学字符识别OCR识别,得到包含文字、单元格、标签的表格信息文件;同时,将相同的XFUND数据集输入预训练模型(如StrucTexT模型)进行训练得到单元格预测模型,调用单元格预测模型对待识别表单进行单元格预测;根据预测单元格信息计算预测单元格坐标,使用预测单元格坐标修正获得的表格信息得到修正的表格信息,所得到的表格信息包括如表格信息文件json文件的文字、单元格、标签等,将修正后的表格信息输入多模态预训练模型(如LayoutXLM模型),训练完成获得语义识别模型,语义识别模型对表格信息文件进行语义识别完成SER语义识别任务,抽取获得表格语义信息。
进一步地,构建语义预测指标,确定识别准确度阈值,根据语义预测指标对语义实体SER识别进行错误情况bad case分析,提升预测准确率。根据错误情况分析判断单元格语义识别的准确性,当单元格识别不够准确,没有达到识别准确度阈值;再将OCR识别结果的表格信息文件输入预训练模型训练,进行语义实体SER识别,计算识别准确度,根据语义预测指标识别准确度阈值,对语义实体SER识别结果进行bad case分析,进一步准确抽取表格语义信息,直至满足识别准确度,获得准确识别的单元格。
预训练模型对XFUND数据集进行训练。本申请实施例以StrucTexT模型训练XFUND数据集为例对其进行详细说明。
利用StrucTexT模型对图像单元格信息整合学习,将XFUND数据集输入StrucTexT模型中进行训练,得到单元格信息的预测结果。
StrucTexT模型在预训练过程中调用屏蔽视觉语言任务、句子长度预测任务和配对单元格方向任务单元,以纳入跨文本、图像和布局的多模态信息。同时,本申请实例性实施例中StrucTexT模型在transfomer的基础上还引入了一个段-字符对齐的编码器(Transfomer Encoder Layers),以处理不同粒度级别的实体标签和实体链接任务。
XFUND数据集输入StrucTexT模型进行预训练,跨文本、图像和布局的多模态信息对StrucTexT模型进行预训练获得预训练模型,待识别XFUND数据集输入预训练模型预测输出表格中单元格中句子长度,并配对单元格的方向,其中,编码器完成表格单元格中文字的段-字符对齐,识别输出单元格中表格语义信息。
如图2所示为本申请示例性实施例中的预训练模型LayoutXLM模型结构示意图。
LayoutXLM是LayoutLMv2模型的多语言扩展,LayoutLMv2通过利用Transformer架构学习视觉和文本信息之间的跨模态交互,在预训练阶段整合图像信息。此外,LayoutLMv2在masked视觉语言模型之外还使用了两个新的训练目标,即图文匹配和图像masking预测任务。其中,visual Embedding代表视觉映射,Text Embedding代表文本映射,2D positionEmbeding代表2D矩形坐标位置映射,position Embeding代表一维坐标映射。visualEncoder代表视觉编码,Feature Map代表视觉特征映射,OCR System代表通过OCR引擎,Relation Extraction代表关系抽取。
首先,表格文本通过OCR引擎OCR System调用文本映射单元Text Embedding得到文本Text,通过视觉编码visual Encode得到视觉特征映射Feature Map,视觉或文本映射获得信息visual&Text Embedding输出(layout)一维坐标映射position Embeding(如数字信息)和2D矩形坐标位置映射2D position Embeding(如位置坐标信息(xij:yij)),一起输入到编码层Transfomer Encoder Layers采用具有空间感知自注意的多模态变换器编码器层(Multi-Modal Transformer Encoder Layers with Spatial-Aware Self-Attention)进行编码,得到输出向量,对于XFUND数据集,有QUESTION,ANSWER,HEADER,OTHER 4种类别的输出向量,得到对应的类别和OCR识别结果。通过输出向量进行语义实体识别任务Semantic Entity Recognition对每一个检测到的文本进行分类,如可将其分为问题和的答案,然后对每一个问题找到对应的答案(如E1&E2,E1&E3,E2&E3)。通过双仿射注意力机制分类器(Biaffine Attention Classifier)根据关系对完成关系抽取任务RelationExtraction得到对应的关系,基于RE任务,可以完成对图象中的文本内容的关系提取,得到向量映射的多模式嵌入。
对于一个带有预设条件的OCR结果的输入图像,如边界框和文本片段的内容。通过向量映射中特征嵌入阶段利用来自文本、图像和布局方面的各种信息,将信息处理整合为映射向量,以便于后续处理。
再将上述得到的多模式嵌入送入训练好的预训练模型的多模态变换器编码器层Transfomer Encoder Layers中变换器网络,以获得丰富的语义特征。
然后,变换器网络根据分类关系对通过建立不同模式输入之间的相互作用完成了跨模态(文本、布局和图像)融合。
最后,结构化文本理解模块的Transfomer Encoder Layers接收通过映射向量编码后的文本和图像特征,进行实体识别以进行实体标记,并提取关系以进行实体链接。
StrucTexT的统一框架结合了不同层次和模式的特征,有效提高了对各种文档结构的理解。在StrucTexT中引入了一个变换器编码器(变换器网络),
StrucTexT从片段的图像和单词的标记中学习跨模式知识。此外,在模型输入阶段还构建了一个额外的片段ID嵌入,以便在不同的粒度上关联视觉和文本特征。同时,在模型输入阶段附加了一个二维位置嵌入以涉及布局线索。之后,调用一个哈达玛Hadamard乘积单元融合不同层次和模式的编码特征,以实现高级特征融合。变换器编码器位于StrucTexT的统一框架的中心,因此,StrucTexT可以在一个框架中支持结构化文本理解的段级和标记级任务。
利用LayoutXLM模型预测。文本、布局和图像的多模态预训练在视觉丰富的文档理解任务中取得了最优性能SOTA性能,具有跨不同模态联合学习的巨大潜力。训练完成的LayoutXLM模型是一种用于多语言文档理解的多模态预训练模型,旨在弥合视觉丰富文档理解的语言障碍。
将修正后的表格信息文件同原数据集(如XFUND数据集)一同输入LayoutXLM模型进行预测。LayoutXLM模型接收来自三种不同模式的信息,包括文本、布局和图像,它们分别被编码为文本嵌入、布局嵌入和视觉嵌入;将文本和图像嵌入连接起来,然后加上布局嵌入,得到输入嵌入;由一个空间感知自注意机制的多模态变换器对输入嵌入进行编码,最后,输出的上、下文表示可以被用于后面的特定任务层。
完成SER语义识别任务。关系抽取(Relation Extraction),对每一个检测到的文本进行分类,如将其分为问题和答案对。然后对每一个问题找到对应的答案。基于RE任务,可以完成对图象中的文本内容的关系提取,如判断问题对。
语义实体识别SER(Semantic Entity Recognition)模块对LayoutXLM模型预测得到的结果进行分类,完成对检测到的每一个文本进行分类,其中语义信息是指表格中每个单元格里文本所代表的语义信息,主要有header(标题),question(问题),answer(答案),other(其他),根据文本在表格中的位置信息将各个文本分为header,question,answer,other 4个类别。
修正OCR识别引擎输出的表格信息文件。
由于OCR识别得到的表格信息文件中预测单元格信息不够准确,可能存在单元格漏识别、单元格识别区域过大和单元格识别区域过小等情况,
由此,对于XFUND数据集经过StrucTexT模型训练得到的表格信息文件通过badcase分析获取需要进行修正的单元格信息文件,修改ocr得到的表格信息文件中的单元格信息。
本申请首先解决了单元格信息不太准确的问题,然后在此基础上解决表格中语义信息抽取不准确的问题。
本实施例使用样本文本进行预测,根据评估结果得到语义预测指标。将分类得到的语义预测结果进行评估,得到的语义预测指标,使用语义预测指标进行错因bad case分析,分析结果见下表,其中box代表OCR识别得到的矩形区域。
表1:基于语义预测指标bad case分析结果表
box漏识别 box识别过大 box识别过小 识别区域错误
总数 169 238 539 946
占比 0.179 0.251 0.570 1
根据分析结果进行对比,利用python软件按照规则修正,准确抽取表格语义信息。修正后准确的表格语义信息与与未修正的表格信息比较,综合评价指标均有所提高。
如表2所示为预测指标与未修正指标比较表,对单元格识别和语义信息抽取等的未修正表格信息与修正表格信息进行比较。发现预测准确率(Precision)、召回率(Recall)和综合评价指标值(F1)均有所提高,并且提高较大。
表2:预测指标与未修正指标比较表
使用特定的数据集XFUND,首先将XFUND数据集进行OCR识别得到文字识别结果表格信息文件(json文件)放到StrucTexT模型中进行训练,得到单元格信息的预测结果。然后由StrucTexT模型训练得到的json文件去修改ocr得到的json文件中的单元格信息,得到新的json文件,然后再将新的json文件同XFUND数据集一同放入LayoutXLM模型进行预测并分类,将分类得到的语义预测结果进行评估,得到预测指标,与未修正的指标比较,从上表比较可以看出预测准确率、召回率和F值均有所提高,并且提高较大。
参考图3,现将描述可以作为本申请的服务器或客户端的电子设备300的结构框图,其是可以应用于本申请的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图3所示,电子设备300包括计算单元301,其可以根据存储在只读存储器(ROM)302中的计算机程序或者从存储单元308加载到随机访问存储器(RAM)303中的计算机程序,来执行各种适当的动作和处理。在RAM 303中,还可存储设备300操作所需的各种程序和数据。计算单元301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
电子设备300中的多个部件连接至I/O接口305,包括:输入单元306、输出单元307、存储单元308以及通信单元309。输入单元306可以是能向电子设备300输入信息的任何类型的设备,输入单元306可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元307可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元308可以包括但不限于磁盘、光盘。通信单元309允许电子设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理。例如,在一些实施例中,根据签名笔画的原始轨迹重绘出其肌肉运动轨迹的重构与分解,以及其对数速度曲线的分解等可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 302和/或通信单元309而被载入和/或安装到电子设备300上。在一些实施例中,计算单元301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行签名笔迹动态获取实现方法。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本申请使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims (12)

1.基于单元格坐标优化的表格语义信息抽取方法,其特征在于,对包含多种类型表单的数据集进行光学字符OCR识别,得到包含文字、单元格、标签的表格信息;同时,将相同的数据集输入多模态预训练模型预测单元格,计算预测单元格坐标,使用预测单元格坐标修正OCR识别获得的表格信息得到修正的表格信息;将修正的表格信息输入多模态预训练模型,训练完成获得语义实体识别模型,语义实体识别模型进行语义识别,抽取获得表格语义信息,得到修正后的语义识别预测结果,对预测结果进行分类。
2.根据权利要求1所述的方法,其特征在于,进一步包括,将OCR识别结果的表格信息输入预训练模型进行训练,并进行语义实体SER识别,获取语义预测指标,确定识别准确度阈值,根据语义预测指标对语义实体SER识别进行错误情况分析,根据错误情况分析判断单元格语义识别的准确性,当单元格识别没有达到识别准确度阈值,再将修正OCR识别结果的表格信息文件输入预训练模型进行语义实体SER识别,直至满足识别准确度阈值要求,抽取表格语义信息。
3.根据权利要求1所述的方法,其特征在于,所述将相同的数据集输入预训练模型得预测单元格包括;XFUND数据集输入结构化文本理解模型StrucTexT模型,采用跨文本、图像和布局的多模态信息对StrucTexT模型进行预训练获得语义实体识别模型,语义实体识别模型根据修正的表格信息进行语义识别预测输出表格单元格中句子长度,并配对单元格的方向,通过编码器完成表格单元格中文字的段-字符对齐。
4.根据权利要求1所述的方法,其特征在于,在模型输入阶段构建一个额外的片段ID嵌入,在不同的粒度上关联视觉和文本特征,同时,附加一个二维位置嵌入以涉及布局线索,调用哈达玛乘积单元融合不同层次和模式的编码特征,以实现高级特征融合。
5.根据权利要求1-4其中之一所述的方法,其特征在于,所述将修正后的表格信息输入多模态预训练模型进一步包括,表格文本通过OCR引擎调用文本映射单元得到文本Text,通过视觉编码得到视觉特征映射Feature Map,视觉或文本映射获得信息输出一维坐标映射位置和二维矩形坐标映射位置,一起输入到编码层,采用多模态变换器编码器进行编码,得到输出向量,通过输出向量进行语义实体识别任务对每一个检测到的文本进行分类,通过双仿射注意力机制分类器根据关系对,完成对图象中的文本内容的关系提取,得到向量映射的多模式嵌入。
6.根据权利要求4所述的方法,其特征在于,对于一个带有预设条件的OCR结果的输入图像,利用来自文本、图像和布局方面的信息,将信息处理整合为映射向量;再将多模式嵌入送入预训练模型的变换器网络获得丰富的语义特征,变换器网络根据分类关系对通过建立不同模式输入之间的相互作用完成跨模态融合;结构化文本理解模块接收通过映射向量编码后的文本和图像特征,进行实体识别并提取关系,以进行实体标记和链接。
7.一种基于单元格坐标优化的表格语义信息识别系统,其特征在于,包括:OCR识别模块、结构化文本理解StrucTexT模型、文件修正单元、多模态预训练模型LayoutXLM、语义实体识别模块,OCR识别模块对包含多种类型表单的数据集进行OCR识别,得到包含文字、单元格、标签的表格信息文件;同时StrucTexT模型对相同数据集进行预训练获得预测单元格,计算预测单元格坐标,文件修正单元使用预测单元格坐标修正获得的表格信息得到修正的表格信息;将修正的表格信息输入多模态预训练模型,训练完成获得语义实体识别模型,语义实体识别模型进行语义识别,抽取获得表格语义信息,得到修正后的语义识别预测结果,对预测结果进行分类。
8.根据权利要求7所述的系统,其特征在于,进一步包括,将OCR识别结果的表格信息文件输入预训练模型训练,进行语义实体SER识别,获取语义预测指标,确定识别准确度阈值,根据语义预测指标对语义实体SER识别进行错误情况分析,根据错误情况分析判断单元格语义识别的准确性,当单元格识别没有达到识别准确度阈值,再将修正OCR识别结果的表格信息文件输入预训练模型进行语义实体SER识别,直至满足识别准确度阈值要求,抽取表格语义信息。
9.根据权利要求7或8所述的系统,其特征在于, XFUND数据集输入结构化文本理解模型StrucTexT模型,采用跨文本、图像和布局的多模态信息对StrucTexT模型进行预训练获得语义实体识别模型,语义实体识别模型根据修正的表格信息进行语义识别预测输出表格单元格中句子长度,并配对单元格的方向,通过编码器完成表格单元格中文字的段-字符对齐;在模型输入阶段构建一个额外的片段ID嵌入,在不同的粒度上关联视觉和文本特征,同时,附加一个二维位置嵌入涉及表格布局线索,调用哈达玛乘积单元融合不同层次和模式的编码特征实现高级特征融合,完成对XFUND数据集中结构化文本分段理解和标记。
10.根据权利要求7或8所述的系统,其特征在于,所述将修正后的表格信息输入多模态预训练模型进一步包括,表格文本通过OCR引擎调用文本映射单元得到文本,通过视觉编码得到视觉特征映射,视觉或文本映射获得信息输出一维坐标映射和二维矩形坐标位置映射,一起输入到编码层,采用多模态变换器编码器进行编码,得到输出向量,通过输出向量进行语义实体识别任务对每一个检测到的文本进行分类,通过双仿射注意力机制分类器根据关系对完成对图象中的文本内容的关系提取,得到向量映射的多模式嵌入。
11.一种电子设备,其特征在于,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-6中任一项所述的基于单元格坐标优化的表格语义信息抽取方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的基于单元格坐标优化的表格语义信息抽取方法。
CN202310520147.2A 2023-05-09 2023-05-09 基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质 Pending CN116543404A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310520147.2A CN116543404A (zh) 2023-05-09 2023-05-09 基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310520147.2A CN116543404A (zh) 2023-05-09 2023-05-09 基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN116543404A true CN116543404A (zh) 2023-08-04

Family

ID=87448420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310520147.2A Pending CN116543404A (zh) 2023-05-09 2023-05-09 基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN116543404A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758561A (zh) * 2023-08-16 2023-09-15 湖北微模式科技发展有限公司 基于多模态结构化信息融合的文档图像分类方法与装置
CN116861912A (zh) * 2023-08-31 2023-10-10 合肥天帷信息安全技术有限公司 一种基于深度学习的表格实体抽取方法及系统
CN117237971A (zh) * 2023-11-10 2023-12-15 长威信息科技发展股份有限公司 基于多模态信息抽取的食品类质检报告数据抽取方法
CN117252153A (zh) * 2023-11-17 2023-12-19 之江实验室 用于大语言模型的富文本数据处理方法、设备、存储介质
CN117252183A (zh) * 2023-10-07 2023-12-19 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质
CN117542063A (zh) * 2024-01-10 2024-02-09 华南理工大学 一种多语言多模态多分支文档视觉信息抽取方法
CN117558019A (zh) * 2024-01-11 2024-02-13 武汉理工大学 从pdf格式元器件手册中自动提取符号图参数的方法
CN117558019B (zh) * 2024-01-11 2024-05-28 武汉理工大学 从pdf格式元器件手册中自动提取符号图参数的方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758561A (zh) * 2023-08-16 2023-09-15 湖北微模式科技发展有限公司 基于多模态结构化信息融合的文档图像分类方法与装置
CN116861912A (zh) * 2023-08-31 2023-10-10 合肥天帷信息安全技术有限公司 一种基于深度学习的表格实体抽取方法及系统
CN116861912B (zh) * 2023-08-31 2023-12-05 合肥天帷信息安全技术有限公司 一种基于深度学习的表格实体抽取方法及系统
CN117252183A (zh) * 2023-10-07 2023-12-19 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质
CN117252183B (zh) * 2023-10-07 2024-04-02 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质
CN117237971B (zh) * 2023-11-10 2024-01-30 长威信息科技发展股份有限公司 基于多模态信息抽取的食品类质检报告数据抽取方法
CN117237971A (zh) * 2023-11-10 2023-12-15 长威信息科技发展股份有限公司 基于多模态信息抽取的食品类质检报告数据抽取方法
CN117252153A (zh) * 2023-11-17 2023-12-19 之江实验室 用于大语言模型的富文本数据处理方法、设备、存储介质
CN117252153B (zh) * 2023-11-17 2024-02-02 之江实验室 用于大语言模型的富文本数据处理方法、设备、存储介质
CN117542063A (zh) * 2024-01-10 2024-02-09 华南理工大学 一种多语言多模态多分支文档视觉信息抽取方法
CN117542063B (zh) * 2024-01-10 2024-04-09 华南理工大学 一种多语言多模态多分支文档视觉信息抽取方法
CN117558019A (zh) * 2024-01-11 2024-02-13 武汉理工大学 从pdf格式元器件手册中自动提取符号图参数的方法
CN117558019B (zh) * 2024-01-11 2024-05-28 武汉理工大学 从pdf格式元器件手册中自动提取符号图参数的方法

Similar Documents

Publication Publication Date Title
KR102266529B1 (ko) 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체
CN116543404A (zh) 基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质
CN114821622B (zh) 文本抽取方法、文本抽取模型训练方法、装置及设备
CN109284371B (zh) 反欺诈方法、电子装置及计算机可读存储介质
EP4006909B1 (en) Method, apparatus and device for quality control and storage medium
US20220358292A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN110781672A (zh) 基于机器智能的题库生产方法及系统
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN113177435A (zh) 试卷分析方法、装置、存储介质及电子设备
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN116415581A (zh) 一种基于智慧教育的教学数据分析系统
CN113688955B (zh) 文本识别方法、装置、设备及介质
CN114385694A (zh) 一种数据加工处理方法、装置、计算机设备及存储介质
CN110263631B (zh) 一种手写化学公式识别与配平方法
CN113723367B (zh) 一种答案确定方法、判题方法及装置和电子设备
CN114970666B (zh) 一种口语处理方法、装置、电子设备及存储介质
CN115620314A (zh) 文本识别方法、答案文本的验证方法、装置、设备及介质
CN115273057A (zh) 文本识别方法、装置和听写批改方法、装置及电子设备
CN114357964A (zh) 主观题评分方法、模型的训练方法、计算机设备及存储介质
CN114743204A (zh) 针对表格的自动问答方法、系统、设备及存储介质
CN114663886A (zh) 文本识别方法、模型的训练方法及装置
CN113837157A (zh) 题目类型识别方法、系统和存储介质
CN113850235B (zh) 一种文本处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination