CN117520343A - 信息抽取的方法、服务器及存储介质 - Google Patents
信息抽取的方法、服务器及存储介质 Download PDFInfo
- Publication number
- CN117520343A CN117520343A CN202311499862.9A CN202311499862A CN117520343A CN 117520343 A CN117520343 A CN 117520343A CN 202311499862 A CN202311499862 A CN 202311499862A CN 117520343 A CN117520343 A CN 117520343A
- Authority
- CN
- China
- Prior art keywords
- cell
- key
- information
- text
- cells
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 72
- 230000004927 fusion Effects 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 abstract description 25
- 238000013507 mapping Methods 0.000 abstract description 7
- 238000013075 data extraction Methods 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 15
- 238000001514 detection method Methods 0.000 description 15
- 239000000284 extract Substances 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000013461 design Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 11
- 238000011176 pooling Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000007635 classification algorithm Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010295 mobile communication Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Character Input (AREA)
Abstract
本申请提供一种信息抽取的方法、服务器及存储介质。本申请的方法,通过根据文档中表格的布局信息,从文档中提取表格中各单元格的文本特征和图像特征;根据表格中各单元格的文本特征和图像特征的融合特征,生成表格的key‑value对信息,通过融合单元格的文本特征和图像特征来构建各个单元格的融合特征,可更加全面和准确地理解表格的内容和结构,提高key‑value对信息抽取的准确度,基于表格的key‑value对信息,可以抽取到任一key单元格对应的value单元格内的内容数据,实现表格中任意key单元格的映射字段的数据抽取,解决了表格板式不固定的问题,提升了表格信息抽取的效果和质量。
Description
技术领域
本申请涉及计算机技术,尤其涉及一种信息抽取的方法、服务器及存储介质。
背景技术
表格作为文档的一部分,简单易用,是日常工作中常用的有效信息表现方式。在大模型与政企加速信息化的背景下,政企中存在着大量包含表格的富视觉文档。大模型也需要输入大量的文档作为知识来源进行训练,这些文档包括各类型登记表单、论文、投研报告、企业年报、财报、产品文档等,其中大部分文档的表格中都包含大量重要的信息。然而人工对表格的打标、分类、抽取都是一项效率极低且费时费力的工作,如何自动化地从大量包含表格信息的文档中抽取出关键字段的信息,成为一个亟需解决的问题。
目前针对表格信息抽取的方案中,主要有以下几种方案:一是基于规则抽取的方案,对于样式统一、制式固定的表格信息的抽取效果较好,但是当表格中的内容长短不一,导致字段位置在空间分布上存在变化的情况下,会极大影响表格信息抽取的效果和质量;二是基于固定模板的抽取方案,能够兼容在单个样式模板的表格内容长度不一导致的空间布局不同的问题,对模板表格抽取效果较好,但是当模板数量较大的情况下,如何有效区分表格属于哪个模板成为最终效果的一个制约,当模板数量很大的情况下,识别表格对应模板的效果成为制约表格信息抽取效果和质量的瓶颈。因此,目前基于规则或固定模板的表格信息抽取方案,存在表格信息抽取的效果差、质量低的问题。
发明内容
本申请提供一种信息抽取的方法、服务器及存储介质,用以解决现有的表格信息抽取方案表格信息抽取的效果差、质量低的问题。
第一方面,本申请提供一种信息抽取方法,包括:
基于待抽取表格信息的文档,确定所述文档所包含的表格的布局信息;
根据所述表格的布局信息,从所述文档中提取所述表格中各单元格的文本特征和图像特征;
根据所述表格中各单元格的文本特征和图像特征的融合特征,生成所述表格的键值对信息。
第二方面,本申请提供一种信息抽取方法,包括:
响应于表格信息抽取请求,获取待抽取表格信息的文档;
确定所述文档所包含的表格的布局信息,根据所述表格的布局信息,从所述文档中提取所述表格中各单元格的文本特征和图像特征;
根据所述表格中各单元格的文本特征和图像特征的融合特征,生成所述表格的键值对信息;
配置待抽取的目标字段对应的key单元格;
根据所述目标字段对应的key单元格,以及所述表格的键值对信息,抽取所述表格中所述目标字段的内容数据;
输出所述目标字段的内容数据。
第三方面,本申请提供一种服务器,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述服务器执行前述任一方面所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现前述任一方面所述的方法。
本申请提供的信息抽取的方法、服务器及存储介质,通过获取待抽取表格信息的文档所包含的表格的布局信息,根据表格的布局信息,从文档中提取表格中各单元格的文本特征和图像特征;根据表格中各单元格的文本特征和图像特征的融合特征,生成表格的键值(key-value)对信息,通过融合单元格中文字的文本特征和图像特征,来构建各个单元格的融合特征,通过多模态特征的融合可以更加全面和准确地理解表格的内容和结构,从而提高key-value对信息抽取的准确率和信息抽取的效果,进一步地基于表格的key-value对信息,可以很容易抽取到任一key单元格对应的value单元格内的内容数据,实现表格中任何字段的抽取,解决了表格板式不固定的问题,提升了表格信息抽取的效果和质量。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一个表格的示例图;
图2为本申请所适用的一示例系统架构的示意图;
图3为本申请一示例性实施例提供的信息抽取方法的流程图;
图4为本申请一示例性实施例提供的提取单元格文本特征的流程图;
图5为本申请一示例性实施例提供的提取单元格图像特征的流程图;
图6为本申请一示例性实施例提供的抽取表格key-value对信息的流程图;
图7为本申请实施例提供的标记了单元格类别和与对应的key单元格的位置关系的表格的示例图;
图8为本申请另一示例性实施例提供的信息抽取的方法流程图;
图9为本申请一示例性实施例提供的表格信息抽取的框架的示例图;
图10为本申请一示例性实施例提供的抽取表格key-value对信息的表格KV理解模型框架的示例图;
图11为本申请一示例性实施例提供的信息抽取的完整流程图;
图12为本申请实施例提供的一种服务器的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户属性信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
首先对本申请所涉及的名词进行解释:
表格KV理解:指理解表格中每个单元格的类别与单元格之间的关系,自动抽取出表格中的键值(key-value)关系信息。
文档预训练模型:文档预训练模型是指针对文档格式数据设计的预训练模型,相比于传统自然语言处理(Natural Language Processing,简称NLP)的预训练模型,文档预训练模型除了输入文本外,还会融合文档的图像信息、布局信息。
视觉问答任务:根据输入的图像和问题,从输入图像的视觉信息中确定问题的答案。
图像描述任务:生成输入图像的描述文本。
视觉蕴涵任务:预测输入图像和文本在语义上的相关性,即蕴涵、中性或矛盾。
指代表达与理解任务:根据输入文本定位输入图像中与输入文本对应的图像区域。
图像生成任务:基于输入的描述文本生成图像。
基于文本的情感分类任务:预测输入文本的情感分类信息。
文本摘要任务:生成输入文本的摘要信息。
多模态任务:是指输入输出数据涉及图像和文本等多种模态数据的下游任务,例如视觉问答任务、图像描述任务、视觉蕴涵任务、指代表达与理解任务、图像生成任务等。
多模态预训练模型:是指输入输出数据涉及图像和文本等多种模态数据的预训练模型,经过微调训练后可以应用于多模态任务处理。
预训练语言模型:对大规模语言模型(Large Language Model,简称LLM)进行预训练后得到的预训练模型。
大模型是指具有大规模模型参数的深度学习模型,通常包含上亿、上百亿、甚至上千亿的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model,简称FM),通过大规模无标注的语料进行大模型的预训练,产出亿级以上参数的预训练模型,这种模型能适应广泛的下游任务,模型具有较好的泛化能力,例如大规模语言模型(Large LanguageModel,简称LLM)、多模态预训练模型(Multi-modal Pre-training Model)等。
大模型在实际应用时,仅需少量样本对预训练模型进行微调即可应用于不同的任务中,大模型可以广泛应用于自然语言处理(Natural Language Processing,简称NLP)、计算机视觉等领域,具体可以应用于如视觉问答(Visual Question Answering,简称VQA)、图像描述(Image Caption,简称IC)、图像生成等计算机视觉领域任务,以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务,大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。
表格作为文档的一部分,简单易用,是日常工作中常用的有效信息表现方式。表格中包含多个单元格,其中有些单元格中的内容是各个信息项的名称(如图1所示表格中的“项目名称”、“招标人名称”、“联系人名称”等等),这些单元格称为key单元格。而有些单元格中的内容是各个信息项的具体信息值(如图1所示表格中的“A项目”、“B有限责任公司”、“张某某”等),这些单元格称为value单元格,value单元格通常对应于至少一个key单元格,作为对应key单元格中信息项的具体信息值。在实际应用中,表格中的key单元格通常对应于存在表格内容的数据库中的一些字段,而key单元格对应的value单元格的内容即是key单元格对应字段的数据值。表格中蕴含丰富的key(键)-value(值)对信息(如key=“项目名称”,value=“A项目”形成一个key-value对信息),对表格key-value对信息的抽取本质上拓宽了获取非结构信息的维度,对自然语言处理、数据挖掘、语义分析等均具有巨大的促进作用。
目前针对表格信息抽取的方案中,主要有以下几种方案:一是基于规则来抽取特定字段的数据值的方案,对于样式统一、制式固定的表格信息的抽取效果较好,但是当表格中的内容长短不一,导致字段位置在空间分布上存在变化的情况下,会极大影响表格信息抽取的效果和质量;二是基于固定模板的抽取方案,通过固定模板明确各个字段的数据值在表格中的位置,不同的表格使用不同的模板,能够兼容在单个样式模板的表格内容长度不一导致的空间布局不同的问题,但是当模板数量较大的情况下,如何有效区分表格属于哪个模板成为信息抽取效果的一个制约,当模板数量很大的情况下,识别表格对应模板的效果成为制约表格信息抽取效果和质量的瓶颈,影像表格信息抽取的效果和质量。因此,目前基于规则或固定模板的表格信息抽取方案,存在表格信息抽取的效果差、质量低的问题。
另外一种表格信息抽取的方案为基于文档预训练模型的实体抽取方法,该方法通过分别训练针对固定字段的文档预训练模型,用于从文档中抽取固定字段的信息值的表格字段抽取模型。该方法可以解决表格板式不固定的问题,但是需要专业人员根据所需提取的目标字段,大量进行人工标注以及模型训练,训练门槛高,普通用户无法快速使用。
本申请提供一种信息抽取的方法,具体通过基于待抽取表格信息的文档,确定文档中表格的布局信息;根据文档中表格的布局信息,从文档中提取表格中各单元格的文本特征和图像特征;根据表格中各单元格的文本特征和图像特征的融合特征,生成表格的键值(key-value)对信息,通过融合单元格中文字的文本特征和图像特征,来构建各个单元格的融合特征,通过多模态特征的融合可以更加全面和准确地理解表格的内容和结构,从而提高key-value对信息抽取的准确率和信息抽取的效果,进一步地基于表格的key-value对信息,可以很容易抽取到任一key单元格对应的value单元格内的内容数据,从而可以很容易地从表格中抽取出任何字段的数据值,本实施例的方法解决了表格板式不固定的问题,提升了表格信息抽取的效果和质量,而且用户无需进行模型训练,仅需知晓表格中字段对应的key单元格即可抽取任意字段的信息值,大大降低了使用门槛。
其中,待抽取表格信息的文档可以是便携式文档格式(Portable DocumentFormat,简称PDF)、可编辑文本文档(如doc、docx格式)、可填写的表单格式(如docxf、oform格式)、电子表格格式(如xlsx、xls格式)、图像格式(如扫描图像、照片等)等等,本实施例此处对于包含表格的文档的具体格式不做具体限定。
图2为本申请所适用的一示例系统架构的示意图。如图2所示,该系统架构包括服务器和端侧设备。其中,服务器与端侧设备之间具有可通信的通信链路,能够实现服务器与端侧设备间的通信连接。
其中,端侧设备可以是运行下游应用的电子设备,具体可以为具有网络通信功能、运算功能以及信息显示功能的硬件设备,其包括但不限于智能手机、平板电脑、台式电脑、本地服务器、云端服务器等。端侧设备运行的下游应用可以是自然语言处理、数据挖掘、语义分析等等。端侧设备在运行下游应用的过程中,在需要抽取表格信息时,向服务器提交待抽取表格信息的文档。
服务器是部署在云端或本地的具有计算能力的设备,例如云集群等。服务器提供表格信息抽取服务,负责基于待抽取表格信息的文档,确定文档中表格的布局信息;根据文档中表格的布局信息,从文档中提取表格中各单元格的文本特征和图像特征;根据表格中各单元格的文本特征和图像特征的融合特征,生成表格的key-value对信息。
在一些应用场景中,服务器可以向端侧设备返回表格的key-value对信息。端侧设备基于表格的key-value对信息执行后续的处理逻辑,例如,端侧设备基于表格中key单元格与字段间的映射关系,从表格的key-value对信息中提取目标字段的信息值,将目标字段的信息值存储到数据库。
另一些应用场景中,用户可以通过端侧设备配置待抽取的目标字段对应的key单元格,并向服务器提交待抽取的目标字段对应的key单元格的配置信息,该配置信息包含待抽取的目标字段,以及各个目标字段对应的key单元格。服务器基于该配置信息,从表格的key-value对信息中提取目标字段的信息值,并将目标字段的信息值返回至端侧设备。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图3为本申请一示例性实施例提供的信息抽取方法的流程图。本实施例的执行主体为前述系统架构中的服务器。如图3所示,该方法具体步骤如下:
步骤S301、基于待抽取表格信息的文档,确定文档所包含的表格的布局信息。
其中,待抽取表格信息的文档可以是便携式文档格式(Portable DocumentFormat,简称PDF)、可编辑文本文档(如doc、docx格式)、可填写的表单格式(如docxf、oform格式)、电子表格格式(如xlsx、xls格式)、图像格式(如扫描图像、照片等)等等,本实施例此处对于包含表格的文档的具体格式不做具体限定。
本实施例中,首先对待抽取表格信息的文档进行分析,确定文档中的表格部分,对表格部分进行表格重建,还原出表格的布局信息。
具体地,在确定文档中的表格部分时,可以采用版面分析算法,对待抽取表格信息的文档进行版面分析,来确定文档中的各个要素,包括但不限于文档中的标题、段落、表格、页眉、页脚,可以获得文档中各个要素(包括表格)所在区域,从而可以抽取出文档中的表格部分。例如,版面分析算法具体可以是图像分割算法,如Mask R-CNN算法,还可以是各种目标检测算法,如Yolo(You Only Look Once)算法、CenterNet算法等,通过对文档的图像文件进行图像分割或目标检测,来确定文档中表格所在区域。另外,还可以采用其他图像分割或目标检测的方法、版面分析工具,来识别出文档中的表格区域,本实施例此处不做具体限定。
其中,Mask R-CNN算法是一个多任务深度学习模型,能够在一个模型中完成图片中实例的分类和定位,并绘制出像素级的掩膜(Mask)来完成分割任务。CenterNet算法是一种目标检测算法,基于回归两个对角点与中心点的目标检测算法,该方法通过级联的角点全局池化层,生成质量较好的左上角点、右下角点和中心点,利用左上角点、右下角点和中心点得到目标的预测框,并将目标预测框的位置和类别作为目标的位置及其类别。Yolo算法是一种目标检测算法,将目标检测重新定义为一个回归问题,它将单个卷积神经网络应用于整个图像,将图像分成网格,并预测每个网格的类概率和边界框,其具备检测速度快和检测精度高的优点。
进一步地,基于文档中表格所在区域,对文档中的表格部分进行表格重建,得到表格的布局信息。表格的布局信息包括:表格的行列信息、表格中各单元格的位置信息和所在行列信息。
其中,表格的行列信息包括表格的行数和列数。单元格的所在行列信息是指单元格属于表格中的第几行第几列的信息,具体可以使用单元格的逻辑坐标表示,逻辑坐标包含单元格的行、列信息。单元格的位置信息是指单元格在表格部分中的位置,基于单元格的位置信息可以确定表格部分中单元格的边框位置,从而定位单元格所在的位置和区域,由此结合文字识别技术可以进一步确定单元格的内容。单元格的位置信息可以包括单元格的对角线上的两个顶点的坐标,或者包括单元格的四个顶点的坐标,或者包括单元格的任一个顶点的坐标和单元格的长和宽,本实施例此处不做具体限定。
可选地,在对文档中的表格部分进行表格重建时,可以采用TableNet、CascadeTabNet等算法实现,获得表格的布局信息。另外,还可以采用其他表格结构识别或表格重建的方法,来识别表格的布局信息,本实施例此处不做具体限定。
其中,TableNet是一种基于深度学习的表格检测算法,该算法可以识别表格中的行、列、单元格等原因,并进行分割和分类,最终输出高质量的表格布局信息。CascadeTabNet是一种常用于表格检测和表格结构识别的深度学习模型,采用级联的方式进行表格检测和结构识别,首先使用一个表格检测网络来检测图像中的表格区域;然后使用一个表格结构识别网络来识别表格的行和列,并将其分割成单元格;最后使用一个表格线识别网络来进一步提取表格的线条信息,可以更好、更准地识别图片中的表格结构。
步骤S302、根据表格的布局信息,从文档中提取表格中各单元格的文本特征和图像特征。
基于表格的布局信息可以定位各个单元格在表格中的位置区域,结合文字识别技术可以识别出各个单元格的文本内容,进一步地,基于各个单元格的文本内容进行文本特征提取,即可得到各个单元格的文本特征。
基于各个单元格在表格中的位置区域,通过图像处理技术,可以从文档/表格部分的图像中截取各个单元格部分的图像,进一步第,基于各个单元格的图像进行图像特征提取,即可得到各个单元格的图像特征。
步骤S303、根据表格中各单元格的文本特征和图像特征的融合特征,生成表格的键值对信息。
通过将表格中各单元格的文本特征和图像特征进行融合,即可得到多种模态特征的融合特征,以此方式来构建各个单元格的特征。
示例性地,对于同一单元格的文本特征和图像特征,通过将单元格的文本特征和图像特征拼接实现多模态特征的融合,得到单元格的融合特征。可选地,还可以通过对同一单元格的文本特征和图像特征进行池化(如平均池化或最大池化)操作,来实现多模态特征的融合,得到单元格的融合特征;另外,还可以采用不同模态特征的其他融合方式来获得融合特征,本实施例此处不做具体限定。
进一步地,基于单元格的融合特征,利用机器学习方法来生成表格的键值(key-value)对信息。
本实施例的方法,通过基于待抽取表格信息的文档,确定文档中表格的布局信息;根据文档中表格的布局信息,从文档中提取表格中各单元格的文本特征和图像特征;根据表格中各单元格的文本特征和图像特征的融合特征,生成表格的key-value对信息,通过融合单元格中文字的文本特征和图像特征,来构建各个单元格的融合特征,通过多模态特征的融合可以更加全面和准确地理解表格的内容和结构,从而提高key-value对信息抽取的准确率和信息抽取的效果,进一步地基于表格的key-value对信息,可以很容易抽取到任一key单元格对应的value单元格内的内容数据,从而可以很容易地从表格中抽取出任何字段的数据值,本实施例的方法解决了表格板式不固定的问题,提升了表格信息抽取的效果和质量,而且用户无需进行模型训练,仅需知晓表格中字段对应的key单元格即可抽取任意字段的信息值,大大降低了使用门槛。
图4为本申请一示例性实施例提供的提取单元格文本特征的流程图,在一可选实施例中,如图4所示,前述步骤S302中根据文档中表格的布局信息,从文档中提取表格中各单元格的文本特征,具体可以采用如下步骤实现:
步骤S41、对文档中的表格部分进行文字识别,得到表格的文字信息和文字坐标信息。
该步骤中,可以获取文档中表格部分的图像,使用光学字符识别(OpticalCharacter Recognition,简称OCR)方法,识别表格部分的图像中的文字,得到表格部分的文字信息和文字坐标信息。
示例性地,可以采用基于卷积循环神经网络(Convolutional Recurrent NeuralNetwork,简称CRNN)的文本检索与识别方法、基于高效准确的场景文本(Efficient andAccurate Scene Text,简称EAST)算法的文本检测与识别方法、基于字符区域感知的文本检测(Character Region Awareness for Text Detection,简称CRATD)方法等,也可以采用其他OCR方法来检测表格部分的文字,获得表格部分的文字信息及文字的位置信息,本实施例此处不做具体限定。
步骤S42、根据表格的文字信息和文字坐标信息,以及表格的布局信息,生成各单元格的文本特征。
可选地,该步骤中,将表格的文字信息和文字坐标信息输入预训练表征模型进行表征,得到表格中各文字的文本特征向量;根据表格的布局信息中各单元格的位置信息、表格的文字坐标信息、以及各文字的文本特征向量,将各单元格中文字的文本特征向量融合,得到各单元格的文本特征。
其中,预训练表征模型可以是文档预训练模型,是针对文档格式数据设计的预训练模型,相比于传统NLP的预训练模型,文档预训练模型除了输入文本外,还会融合文档的布局(Layout)信息、图像信息等,是一个多模态预训练模型。此处可以使用任意一种基于文档数据预训练获得的文档预训练模型,能够融合文档的布局(Layout)信息、文字信息等多模态信息对输入文本进行表征,获得各个文字的文本特征向量。
本实施例中,通过对文档预训练模型进行训练,获得预训练表征模型,该预训练表征模型的输入为文字信息、文字的坐标信息和文字的位置顺序,输出为融合文字信息、文字坐标信息和文字位置顺序等多模态信息表征得到的各个文字的文本特征向量。
该步骤中,通过对文档中的表格部分进行文字识别的结果包括:表格中出现的文字按照顺序排列形成文字序列,以及各个文字的坐标信息。基于文字序列可以确定表格的文字信息、以及文字的位置顺序。将表格的文字序列、文字的坐标信息以及文字的位置顺序输入预训练表征模型进行表征,得到各个文字的文本特征向量。
进一步地,根据表格的布局信息中各单元格的位置信息、表格的文字坐标信息、以及各文字的文本特征向量,对各单元格中各个文字的文本特征向量进行池化(如平均池化或最大池化)操作,来实现单一单元格包含的多个文字的文本特征向量的融合,得到单元格的文本特征。
可选地,该步骤中,服务器还可以根据表格的文字信息和文字坐标信息,以及表格的布局信息中各单元格的位置信息,可以确定落入各个单元格内的文本,得到各单元格的内容文本;进一步地,将各单元格的内容文本分别表征为特征向量,得到各单元格的文本特征。其中,将各单元格的内容文本表征为特征向量时,可以使用任意一种文本表征模型,本实施例此处不做具体限定。
本实施例的方案,通过融合表格的文字信息、文字坐标信息来生成单元格的文本特征,可以更加全面和准确地理解表格的内容和结构,从而提高表格信息抽取的效果和质量。
在另一可选实施例中,前述步骤S302中根据文档中表格的布局信息,从文档中提取表格中各单元格的文本特征,还可以采用如下方式实现:
对文档进行文字识别,得到文档的文字信息和文字在文档中的坐标信息;根据文档中表格所在区域和表格的布局信息中单元格在表格中的位置坐标,可以确定落入各个单元格内的文本,得到各单元格的内容文本。进一步地,将各单元格的内容文本表征为特征向量,得到各单元格的文本特征。其中,将各单元格的内容文本表征为特征向量时,可以使用任意一种文本表征模型,本实施例此处不做具体限定。
图5为本申请一示例性实施例提供的提取单元格图像特征的流程图,在一可选实施例中,如图5所示,前述步骤S302中根据表格所在区域及表格的布局信息,从文档中抽取表格中各单元格的图像特征,具体可以采用如下步骤实现:
步骤S51、对文档中表格部分进行图像特征提取,得到表格的图像特征。
该步骤中,基于文档中表格所在区域,可以获得文档中表格部分的图像,使用图像特征提取模型对表格部分的图像进行图像特征提取,得到表格的图像特征。该步骤中可以使用任意一种图像特征提取模型,例如基于残差神经网络(Residual Network,简称ResNet)、基于深度卷积神经网络(Convolutional Neural Network,简称CNN)的图像特征提取模型等,来提取表格的图像特征,本实施例此处不做具体限定。
步骤S52、根据表格的布局信息中各单元格的位置信息,从表格的图像特征中截取各单元格的图像特征。
在获取到表格的图像特征之后,根据表格的布局信息中各单元格的位置信息,从表格的图像特征中截取得到各个单元格的图像特征。
示例性地,假设表格部分的图像大小为1024*1024,表格的图像特征的维度为1024*1024*d,其中d是一个特征向量的维度。假设某一单元格大小为100*50,则根据该单元格在表格部分的图像中的位置,从表格的图像特征中截取单元格对应的100*50*d,得到该单元格的图像特征。
本实施例的方法,可以快速准确地获取到表格中各个单元格的图像特征,为构建单元格的融合特征提供图像模态的特征,以提升单元格融合特征的质量。
另一可选实施例中,前述步骤S302中根据表格所在区域及表格的布局信息,从文档中抽取表格中各单元格的图像特征,还可以采用如下方式实现:
根据文档中表格所在区域,从文档的图像文件截取表格区域图像,根据表格的布局信息中单元格的位置信息,从表格区域图像中截取各个单元格的图像,对各个单元格的图像进行特征提取,得到各个单元格的图像特征。本实施例中,可以使用任意一种图像特征提取模型,例如基于残差神经网络(ResNet)、基于深度卷积神经网络(CNN)的图像特征提取模型等,来提取表格的图像特征,本实施例此处不做具体限定。
另一可选实施例中,前述步骤S302中根据表格所在区域及表格的布局信息,从文档中抽取表格中各单元格的图像特征,还可以采用如下方式实现:
对文档的图像文件进行特征提取,得到整个文档的图像特征;根据文档中表格所在区域、表格的布局信息中各单元格的位置信息,从文档的图像特征中截取各单元格的图像特征。本实施例中,可以使用任意一种图像特征提取模型,例如基于残差神经网络(ResNet)、基于深度卷积神经网络(CNN)的图像特征提取模型等,来提取表格的图像特征,本实施例此处不做具体限定。
可选地,基于整个文档的图像特征,根据各个文字在文档中的坐标信息,可以从整个文档的图像特征中分别截取得到各个文字的图像特征。根据表格的布局信息中各单元格的位置信息,以及文档中表格所在区域,确定各个单元格中的文字,将同一单元格中的文字的图像特征融合(如平均池化、最大池化),得到该单元格的图像特征。
图6为本申请一示例性实施例提供的抽取表格key-value对信息的流程图,在一可选实施例中,如图6所示,前述步骤S303中,根据表格中各单元格的文本特征和图像特征的融合特征,生成表格的key-value对信息,具体可以采用如下步骤实现:
步骤S61、将表格中各单元格的文本特征和图像特征融合,得到各单元格的融合特征。
该步骤中,通过将表格中各单元格的文本特征和图像特征进行融合,即可得到多种模态特征的融合特征,以此方式来构建各个单元格的特征。
示例性地,对于同一单元格的文本特征和图像特征,通过将单元格的文本特征和图像特征拼接实现多模态特征的融合,得到单元格的融合特征。可选地,还可以通过对同一单元格的文本特征和图像特征进行池化(如平均池化或最大池化)操作,来实现多模态特征的融合,得到单元格的融合特征;另外,还可以采用不同模态特征的其他融合方式来获得融合特征,本实施例此处不做具体限定。
步骤S62、根据各单元格的融合特征,确定各单元格的类别。
其中,单元格的类别为如下类别中一种:表单key、表头key、内容key、value、独立框,表单key、表头key和内容key为属于key的类别,多个不同的key类别分别对应于表格中多个不同级别的信息项,在实际应用中随着表格数据的复杂程度的增加,还可以扩展更多的key类别,此处对于单元格类别的具体设置不做限定。类别属于任一key类别的单元格均为key单元格,其内容是信息项的名称。类别为value的单元格为value单元格,其内容是信息项的信息值,value单元格通常对应于至少一个key单元格,作为对应key单元格中信息项的具体信息值。类别为独立框的单元格既不是key单元格也不是value单元格,在表格中是一个与其他单元格间不具有对应关系的、相对独立的单元格。例如,独立框中的内容可以是对表格的总体说明、注意事项等,与其他单元格不具有key-value对应关系。
需要说明的是,有些单元格既是key单元格,也是value单元格。例如,内容key可以作为表头key的value单元格,如图1中所示,“排序”单元格的类别是表头key,“第1名”、“第2名”、“第3名”这三个单元格的类别是内容key,但同时也是“排序”单元格的信息值,也具有value类别。
本实施例中,可以预先训练用于对单元格的类别进行分类识别的分类模型,作为单元格分类模型。其中,用于单元格分类的分类器,可以使用一层全连接层的神经网络实现。该步骤中,将各单元格的融合特征分别输入单元格分类模型,通过单元格分类模型对单元格进行分类,得到各单元格的类别。
可选地,其他实施例中还可以使用其他多分类算法实现单元格的类别的分类识别,例如,基于决策树的分类算法、基于支持向量机的分类算法等,本实施例此处不做具体限定
步骤S63、根据各单元格的融合特征,确定各单元格与对应的key单元格的位置关系,key单元格指类别属于key的单元格。
本实施例中,单元格与对应的key的位置关系包含了单元格对应key单元格的方位信息。单元格与对应的key单元格的位置关系为如下中一种:key单元格在上方、key单元格在左方、无方向。无方向表示单元格不存在对应的key单元格,例如一些key单元格、或者独立框。key单元格在上方表示该单元格是value单元格,其对应的key单元格在该value单元格的上方。key单元格在左方表示该单元格是value单元格,其对应的key单元格在该value单元格的左方。
需要说明的是,一个value单元格可以具有多个对应的key单元格,多个对应的key单元格位于该value单元格的不同方向上,也即是一个value单元格与对应的key的位置关系可以有多种类别。例如一个value单元格与对应的key单元格的位置关系可以同时具有如下两个类别:key单元格在上方和key单元格在左方,说明该value单元格有两个对应的key单元格,一个在其上方,另一个在其左方。
本实施例中,可以预先训练用于对单元格与对应key单元格的位置关系进行分类识别的分类模型,作为单元格位置关系分类模型。其中,用于单元格与对应key单元格的位置关系的分类器,可以使用一层全连接层的神经网络实现。该步骤中,将各单元格的融合特征分别输入单元格位置关系分类模型,通过单元格位置关系分类模型对单元格与对应key单元格的位置关系进行分类,得到各单元格与对应key单元格的位置关系。
可选地,其他实施例中还可以使用其他多分类算法实现单元格与对应key单元格的位置关系的分类识别,例如,基于决策树的分类算法、基于支持向量机的分类算法等,本实施例此处不做具体限定。
在一可选实施例中,在根据各单元格的融合特征,确定各单元格的类别,以及各单元格与对应的key单元格的位置关系之后,还可以根据表格的布局信息、各单元格的类别、以及各单元格与对应的key单元格的位置关系,显示表格,并在表格上标记各单元格的类别,在各单元格内标记与对应的key单元格的位置关系。通过在表格中标记各单元格的类别,并在各单元格内标记与对应的key单元格的位置关系,将单元格的类别与对应key的方位信息可视化展示,可以使得用户可以非常直观地看到这些信息,可以非常清楚地理解抽取到表格的结构信息。
可选地,在显示表格时,基于表格的布局信息和各单元格的内容文本,重建表格数据,输出重建的表格数据,并在重建的表格数据中标记各单元格的类别,以及各单元格与对应的key单元格的位置关系。
可选地,在显示表格时,可以显示表格的图像,在表格的图像上标记各单元格的类别,以及各单元格与对应的key单元格的位置关系。
示例性地,图7为标记了单元格类别和与对应的key单元格的位置关系的表格的示例图。在图1所示的表格中,标记各单元格的类别和各单元格与对应的key单元格的位置关系之后,如图7所示,在表格中使用不同类型的虚线框分别标记不同key类别的key单元格,在value单元格中使用箭头标记单元格与对应的key单元格的位置关系,向上的箭头表示对应的key单元格在上方,向左的箭头表示对应的key单元格在左方。以图7中“F设计有限公司”单元格为例,该单元格为value单元格,有两个对应的key单元格“中标候选人”和“第2名”,在“F设计有限公司”单元格中同时标记了向上的箭头和向左的箭头。以图7中“第1名”单元格为例,该单元格是器右侧“E设计研究院”“王经理”“180”等value单元格对应的内容key单元格,同时又是value单元格,其对应的key单元格为“排序”,“排序”单元格是一个表头key单元格。另外,图7中最后一行的单元格为独立框。
步骤S64、根据表格的布局信息、各单元格的类别、以及各单元格与对应的key的位置关系,确定表格的key-value对信息。
在得到各个单元格的类别、单元格与对应的key单元格的位置关系、以及表格的布局信息之后,该步骤中通过遍历每个具有value类别的单元格,基于表格的布局信息和该value单元格与对应key单元格的位置关系,查找该value单元格对应的key单元格。
具体地,针对任一类别为value的value单元格,根据表格的布局信息中value单元格所在的行列信息,以及value单元格与对应的key单元格的位置关系,查找与value单元格对应的key单元格;根据value单元格及对应的key单元格,生成key-value对信息。
示例性地,对于任一value单元格,若该value单元格与对应的key单元格的位置关系包括:key单元格在上方,则在该value单元格所在的列中,从该value单元格所在行开始向上搜索key单元格,将搜索到的第一个key单元格作为该value单元格对应的key单元格,该key单元格与该value单元格位于同一列中的不同行,且该key单元格位于该value单元格的上方。
示例性地,对于任一value单元格,若该value单元格与对应的key单元格的位置关系包括:key单元格在左方,则在该value单元格所在的行中,从该value单元格所在列开始向左搜索key单元格,将搜索到的第一个key单元格作为该value单元格对应的key单元格,该key单元格与该value单元格位于同一行中的不同列,且该key单元格位于该value单元格的左方。
例如,基于图7所示的表格数据,以value单元格“F设计有限公司”为例,其与对应的key单元格的位置关系包括:key单元格在上方和key单元格在左方两种,在“F设计有限公司”所在列中向上方查找key单元格,可以找到其对应的一个表头key单元格“中标候选人”;在“F设计有限公司”所在行中向左方查找key单元格,可以找到其对应的一个内容key单元格“第2名”。
具体地,单元格所在行列信息可以表示为逻辑坐标的形式(rs,re,cs,ce),其中rs,re,cs,ce分别表示单元格的起始行、结束行、起始列和结束列。根据value单元格的逻辑坐标,若对应的key单元格在该value单元格的上方,则在开始行变小的方向上查找key单元格。若对应的key单元格在该value单元格的左方,则在开始列变小的方向上查找key单元格。
例如,图7中“A项目”单元格的逻辑坐标为(0,0,1,4),表示开始行是0,结束行是0,开始列是1,结束列是4,该单元格为value单元格,而该value单元格对应的key单元格在其左方,所以可以根据该value单元格的逻辑坐标(0,0,1,4),在开始列变小的方向找,可以找到逻辑坐标为(0,0,0,1),开始列为0的“项目名称”的key单元格。
可选地,在找到各个value单元格对应的key单元格之后,可以将每一value单元格与其对应的key单元格分别组成key-value对信息,得到表格的key-value对信息。例如,以图7中的value单元格“F设计有限公司”为例,可以找到其对应的一个表头key单元格“中标候选人”和一个内容key单元格“第2名”,可以分别组成key:[“中标候选人”],value:[“F设计有限公司”]的key-value对信息,和key:[“第2名”],value:[“F设计有限公司”]的key-value对信息,得到两个key-value对信息。
可选地,对于具有一个对应的key单元格的value单元格,将该value单元格与其对应的key单元格组成key-value对信息。对于具有多个不同key类别的key单元格,将对应的多个不同key类别的key单元格组成一个复合key,将该复合key与该value单元格组成一个key-value对信息。其中复合key中多个不同key类别的key单元格可以按照预先配置的顺序排列。
例如,以图7中的value单元格“F设计有限公司”为例,可以找到其对应的一个表头key单元格“中标候选人”和一个内容key单元格“第2名”,将这两个key单元格组合成一个复合key:[“第2名,中标候选人”],与value:[“F设计有限公司”]组成一个key-value对信息。
本实施例中,通过将表格中各单元格的文本特征和图像特征融合,得到各单元格的融合特征;根据各单元格的融合特征,确定各单元格的类别,以及各单元格与对应的key单元格的位置关系,key单元格指类别属于key的单元格;根据表格的布局信息、各单元格的类别、以及各单元格与对应的key的位置关系,确定表格的key-value对信息,可以全面和准确地理解表格的内容和结构信息,从而提高抽取表格的key-value对信息的准确性。
在一可选实施例中,当用户输入任意的一个表格的文档,服务器可以自动化抽取并输出表格的key-value对信息。用户可以通过端侧设备配置待抽取的目标字段对应的key单元格,并向服务器提交待抽取的目标字段对应的key单元格的配置信息,该配置信息包含待抽取的目标字段,以及各个目标字段对应的key单元格。服务器基于该配置信息,从表格的key-value对信息中提取目标字段的信息值,并将目标字段的信息值返回至端侧设备。
图8为本实施例提供的信息抽取的方法流程图。如图8所示,生成表格的key-value对信息之后,服务器还可以执行如下步骤:
步骤S304、配置待抽取的目标字段对应的key单元格。
在实际应用中,考虑到key单元格可能有不同的命名方式,比如招标人、招标单位、招标公司等在招标公告中都表示招标单位的含义,在不同的行业场景有不同的定义方式。本实施例中,由用户根据自己的行业场景来配置待抽取的目标字段,以及key单元格与目标字段的映射关系。用户可以通过向可视化界面或命令行等方式,向服务器发出目标字段配置指令。
可选地,服务器响应于目标字段配置指令,显示key配置界面,并在key配置界面中显示表格,在表格上标记出key单元格。
用户可以在key配置界面中配置至少一个key单元格对应的目标字段,作为待抽取信息的目标字段。响应于对key配置界面中key单元格对应目标字段的配置操作,服务器存储配置操作配置的key单元格对应的目标字段。
示例性地,用户可以点击key配置界面中标记的任一key单元格,界面中弹出该key单元格对应目标字段的输入框或可配置的字段列表,用户通过输入目标字段的标识或从字段列表中选择一个目标字段,来配置该key单元格对应目标字段。
可选地,服务器响应于目标字段配置指令,输出各个key单元格的内容信息,使得用户可以参考于输出的各个key单元格的内容信息,配置想要抽取的目标字段对应的key单元格。
可选地,服务器响应于目标字段配置指令,根据表格的布局信息和各单元格的类别,显示表格,并在表格上标记各单元格的类别。通过在表格中标记各单元格的类别,将单元格的类别可视化展示,可以使得用户可以非常直观地看到表格中的key单元格,从而可以基于标记出的key单元格,配置key单元格对应的目标字段,并指定想要抽取的目标字段。
示例性地,在显示表格时,基于表格的布局信息和各单元格的内容文本,重建表格数据,输出重建的表格数据,并在重建的表格数据中标记各单元格的类别。示例性地,在显示表格时,可以显示表格的图像,在表格的图像上标记各单元格的类别。进一步地,用户可以点击任一key单元格,界面中弹出该key单元格对应目标字段的输入框或可配置的字段列表,用户通过输入目标字段的标识或从字段列表中选择一个目标字段,来配置该key单元格对应目标字段。
步骤S305、根据目标字段对应的key单元格,以及表格的key-value对信息,抽取目标字段对应的key单元格对应的value单元格的文本内容,作为目标字段的内容数据。
在获取到待抽取的目标字段对应的key单元格之后,从表格的key-value对信息中抽取目标字段对应的key单元格对应的value单元格的文本内容,作为目标字段的内容数据,这样可以抽取到任意目标字段的内容数据。
步骤S306、输出目标字段的内容数据。
抽取到目标字段的内容数据之后,服务器还可以输出目标字段的内容数据。例如,将目标字段的内容数据返回至请求端设备;或者,通过可视化界面输出目标字段的内容数据。
可选地,在抽取到目标字段的内容数据之后,服务器还可以将目标字段的内容数据存储到指定数据库中,以将表格信息的结构化、持久化存储为知识,以供后续执行自然语言处理、数据挖掘、语义分析等处理时使用。
示例性地,图9为本申请实施例提供的表格信息抽取的框架的示例图,如图9所示,表格信息抽取的框架包括如下几个部分:版面分析、文字识别、表格重建、表格KV理解和字段映射。其中,版本分析部分对待抽取表格信息的文档进行版面分析,确定文档中表格所在区域。文字识别部分对文档中的表格部分进行文字识别,得到表格的文字信息和文字坐标信息。表格重建部分对文档中的表格部分进行表格重建,得到表格的布局信息。表格KV理解部分根据表格的文字信息和文字坐标信息,表格的布局信息,提取表格中各个单元格的文本特征和图像特征,并基于表格中各单元格的文本特征和图像特征的融合特征,生成表格的key-value对信息。字段映射部分配置待抽取的目标字段对应的key单元格,并根据目标字段对应的key单元格,以及表格的key-value对信息,抽取目标字段的内容数据。
示例性地,图10为本申请实施例提供的表格key-value对信息抽取的表格KV理解模型框架的示例图。如图10所示,表格key-value对信息抽取的表格KV理解模型框架如下:基于对包含表格的文档进行版面分析确定的表格部分,表格KV理解模型通过对表格部分OCR识别,得到表格的文字信息和文字坐标信息,通过表格重建获得表格的布局信息,通过对表格部分特征提取得到表格的图像特征。进一步地,基于表格文字信息和文字坐标信息、表格的布局信息,提取表格中各单元格的文本特征,并基于表格的图像特征和表格的布局信息,截取得到各单元格的图像特征,融合单元格的文本特征和图像特征得到单元格的融合特征,实现基于表格的文字信息、文字坐标信息、布局信息、图像等多模态信息来构建表格中单元格的多模态融合特征。进一步地,通过单元格分类模型基于各个单元格的融合特征确定各个单元格的类别,包括但不限于如下类别:表单key、表头key、内容key、value、独立框;通过单元格位置关系分类模型基于各个单元格的融合特征,确定各个单元格与对应key单元格的位置关系,包括但不限于如下位置关系:key单元格在上方、key单元格在左方、无方向。进一步地,基于各个单元格的类别和单元格与对应key单元格的位置关系,查找各value单元格对应的key单元格进行表格KV生成,得到表格的key-value对信息,实现表格KV理解。
本实施例中,当用户输入任意一个包含表格的文档,服务器可以自动化抽取表格的key-value对信息,用户只需要轻量化地配置待抽取的目标字段与key单元格的映射关系,服务器即可自动从key-value对信息抽取到目标字段的内容数据,该方案可以适用于版式不固定的表格的结构化信息抽取,用户进行轻量化的配置即可使用,整体流程中用户使用门槛较低,且使用方便快捷,极大地降低了表格信息抽取的难度,提升了表格信息抽取的效率和质量。
图11为本申请一示例性实施例提供的信息抽取的完整流程图。如图11所示,信息抽取的流程如下:
步骤S1100、响应于表格信息抽取请求,获取待抽取表格信息的文档。
其中,待抽取表格信息的文档可以是便携式文档格式(Portable DocumentFormat,简称PDF)、可编辑文本文档(如doc、docx格式)、可填写的表单格式(如docxf、oform格式)、电子表格格式(如xlsx、xls格式)、图像格式(如扫描图像、照片等)等等,本实施例此处对于包含表格的文档的具体格式不做具体限定。
本实施例中,用户可以通过端侧设备向服务器发送待抽取表格信息的文档。例如,通过端侧设备向服务器发送表格信息抽取请求,该请求携带待抽取表格信息的文档。服务器接收端侧设备发送的表格信息抽取请求,并从请求中提取待抽取表格信息的文档。
步骤S1101、确定文档所包含的表格的布局信息。
该步骤与前述步骤S301的实现方式一致,具体参见前述实施例中的相关内容,本实施例此处不再赘述。
步骤S1102、根据表格的布局信息,从文档中提取表格中各单元格的文本特征和图像特征。
该步骤与前述步骤S302的实现方式一致,具体参见前述实施例中的相关内容,本实施例此处不再赘述。
步骤S1103、根据表格中各单元格的文本特征和图像特征的融合特征,生成表格的key-value对信息。
该步骤与前述步骤S303的实现方式一致,具体参见前述实施例中的相关内容,本实施例此处不再赘述。
步骤S1104、配置待抽取的目标字段对应的key单元格。
该步骤与前述步骤S304的实现方式一致,具体参见前述实施例中的相关内容,本实施例此处不再赘述。
步骤S1105、根据目标字段对应的key单元格,以及表格的key-value对信息,抽取表格中目标字段的内容数据。
该步骤与前述步骤S305的实现方式一致,具体参见前述实施例中的相关内容,本实施例此处不再赘述。
步骤S1106、输出目标字段的内容数据。
该步骤与前述步骤S306的实现方式一致,具体参见前述实施例中的相关内容,本实施例此处不再赘述。
本实施例提供了一种更为灵活和便捷的表格信息抽取方式,当用户输入任意一个包含表格的文档,服务器可以自动化抽取表格的key-value对信息,用户不需要具备深度学习的知识,只需要简单地配置待抽取的目标字段与key单元格的映射关系,服务器即可自动从key-value对信息中抽取到目标字段的内容数据,该方案可以适用于版式不固定的各类表格的结构化信息抽取,能够更好地应对复杂表格和多样化的表格形式,能适用于各领域和行业,整体流程中用户使用门槛较低,且使用方便快捷,极大地降低了表格信息抽取的难度,提升了表格信息抽取的效率和质量。
图12为本申请实施例提供的一种服务器的结构示意图。如图12所示,本实施例的服务器可以包括:至少一个处理器1201;以及与至少一个处理器通信连接的存储器1202。
其中,存储器1202存储有可被至少一个处理器1201执行的指令,指令被至少一个处理器1201执行,以使服务器执行如上述任一实施例的方法。
可选地,存储器1202既可以是独立的,也可以跟处理器1201集成在一起。
本实施例提供的服务器的实现原理和技术效果可以参见前述各实施例,此处不再赘述。
可选的,如图12所示,该服务器还可以包括:防火墙1203、负载均衡器1204、通信组件1205、电源组件1206等其它组件。图12中仅示意性给出部分组件,并不意味着服务器只包括图12所示组件。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现前述任一实施例的方法,具体功能和所能实现的技术效果此处不再赘述。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任一实施例的方法。计算机程序存储在可读存储介质中,服务器的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得服务器执行上述任一方法实施例所提供的技术方案,具体功能和所能实现的技术效果此处不再赘述。
本申请实施例提供一种芯片,包括:处理模块与通信接口,该处理模块能执行前述方法实施例中服务器的技术方案。可选的,该芯片还包括存储模块(如,存储器),存储模块用于存储指令,处理模块用于执行存储模块存储的指令,并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例所提供的技术方案。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例方法的部分步骤。
应理解,上述处理器可以是处理单元(Central Processing Unit,简称CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
上述存储器可以是对象存储(Object Storage Service,简称Object StorageService,简称OSS)。上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Read Only Memory,简称PROM),只读存储器(Programmable Read Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如移动热点(WiFi),第二代移动通信系统(2G)、第三代移动通信系统(3G)、第四代移动通信系统(4G)/长期演进(LongTerm Evolution,简称LTE)、第五代移动通信系统(5G)等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件还包括近场通信(Near FieldCommunication,简称NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RadioFrequency Identification,简称RFID)技术,红外数据协会(Infrared DataAssociation,简称IrDA)技术,超宽带(Ultra Wide Band,简称UWB)技术,蓝牙技术和其他技术来实现。
上述电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例的顺序仅仅为了描述,不代表实施例的优劣。另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。“多个”的含义是两个以上,除非另有明确具体的限定。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (14)
1.一种信息抽取方法,其特征在于,包括:
基于待抽取表格信息的文档,确定所述文档所包含的表格的布局信息;
根据所述表格的布局信息,从所述文档中提取所述表格中各单元格的文本特征和图像特征;
根据所述表格中各单元格的文本特征和图像特征的融合特征,生成所述表格的键值对信息。
2.根据权利要求1所述的方法,其特征在于,所述基于待抽取表格信息的文档,确定所述文档所包含的表格的布局信息,包括:
对待抽取表格信息的文档进行版面分析,确定所述文档中表格所在区域;
基于所述文档中表格所在区域,对所述文档中的表格部分进行表格重建,得到所述表格的布局信息,所述表格的布局信息包括:表格的行列信息、表格中各单元格的位置信息和所在行列信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述表格的布局信息,从所述文档中提取所述表格中各单元格的文本特征,包括:
对所述文档中的表格部分进行文字识别,得到所述表格的文字信息和文字坐标信息;
根据所述表格的文字信息和文字坐标信息,以及所述表格的布局信息,生成各所述单元格的文本特征。
4.根据权利要求3所述的方法,其特征在于,所述根据所述表格的文字信息和文字坐标信息,以及所述表格的布局信息,生成各所述单元格的文本特征,包括:
将所述表格的文字信息和文字坐标信息输入预训练表征模型进行表征,得到所述表格中各文字的文本特征向量;
根据所述表格的布局信息中各单元格的位置信息、所述表格的文字坐标信息、以及各文字的文本特征向量,将各所述单元格中文字的文本特征向量融合,得到各所述单元格的文本特征。
5.根据权利要求1所述的方法,其特征在于,所述根据所述表格所在区域及所述表格的布局信息,从所述文档中抽取所述表格中各单元格的图像特征,包括:
对所述文档中的表格部分进行图像特征提取,得到所述表格的图像特征;
根据所述表格的布局信息中各单元格的位置信息,从所述表格的图像特征中截取各所述单元格的图像特征。
6.根据权利要求1所述的方法,其特征在于,所述根据所述表格中各单元格的文本特征和图像特征的融合特征,生成所述表格的键值对信息,包括:
将所述表格中各单元格的文本特征和图像特征融合,得到各所述单元格的融合特征;
根据各所述单元格的融合特征,确定各所述单元格的类别,以及各所述单元格与对应的key单元格的位置关系,所述key单元格指类别属于key的单元格;
根据所述表格的布局信息、各所述单元格的类别、以及各所述单元格与对应的key的位置关系,确定所述表格的键值对信息。
7.根据权利要求6所述的方法,其特征在于,根据各所述单元格的融合特征,确定各所述单元格的类别,包括:
将各所述单元格的融合特征分别输入单元格分类模型进行分类,得到各所述单元格的类别;
其中,所述单元格的类别为如下类别中一种:表单key、表头key、内容key、value、独立框,所述表单key、表头key和内容key为属于key的类别。
8.根据权利要求6所述的方法,其特征在于,根据各所述单元格的融合特征,确定各所述单元格与对应的key单元格的位置关系,包括:
将各所述单元格的融合特征分别输入单元格位置关系分类模型进行分类,得到所述单元格与对应的key单元格的位置关系;
其中,所述单元格与对应的key单元格的位置关系为如下中一种:key单元格在上方、key单元格在左方、无方向,无方向表示单元格不存在对应的key。
9.根据权利要求6-8中任一项所述的方法,其特征在于,所述根据各所述单元格的融合特征,确定各所述单元格的类别,以及各所述单元格与对应的key单元格的位置关系之后,还包括:
根据所述表格的布局信息、各所述单元格的类别、以及各所述单元格与对应的key单元格的位置关系,在显示的所述表格上标记各所述单元格的类别,在各所述单元格内标记与对应的key单元格的位置关系。
10.根据权利要求1-8中任一项所述的方法,其特征在于,生成所述表格的键值对信息之后,还包括:
配置待抽取的目标字段对应的key单元格;
根据所述目标字段对应的key单元格,以及所述表格的键值对信息,抽取所述目标字段对应的key单元格对应的value单元格的文本内容,作为所述目标字段的内容数据;
输出所述目标字段的内容数据。
11.根据权利要求10所述的方法,其特征在于,所述配置待抽取的目标字段对应的key单元格,包括:
响应于目标字段配置指令,显示key配置界面,并在所述key配置界面中显示所述表格,在所述表格上标记出key单元格;
响应于对key配置界面中所述key单元格对应目标字段的配置操作,存储所述配置操作配置的所述key单元格对应的目标字段。
12.一种信息抽取方法,其特征在于,包括:
响应于表格信息抽取请求,获取待抽取表格信息的文档;
确定所述文档所包含的表格的布局信息,根据所述表格的布局信息,从所述文档中提取所述表格中各单元格的文本特征和图像特征;
根据所述表格中各单元格的文本特征和图像特征的融合特征,生成所述表格的键值对信息;
配置待抽取的目标字段对应的key单元格;
根据所述目标字段对应的key单元格,以及所述表格的键值对信息,抽取所述表格中所述目标字段的内容数据;
输出所述目标字段的内容数据。
13.一种服务器,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述服务器执行权利要求1-12任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311499862.9A CN117520343A (zh) | 2023-11-09 | 2023-11-09 | 信息抽取的方法、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311499862.9A CN117520343A (zh) | 2023-11-09 | 2023-11-09 | 信息抽取的方法、服务器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117520343A true CN117520343A (zh) | 2024-02-06 |
Family
ID=89765781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311499862.9A Pending CN117520343A (zh) | 2023-11-09 | 2023-11-09 | 信息抽取的方法、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520343A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118657139A (zh) * | 2024-08-20 | 2024-09-17 | 合肥大智慧财汇数据科技有限公司 | 基于位置信息及版式匹配的表格信息抽取方法及系统 |
-
2023
- 2023-11-09 CN CN202311499862.9A patent/CN117520343A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118657139A (zh) * | 2024-08-20 | 2024-09-17 | 合肥大智慧财汇数据科技有限公司 | 基于位置信息及版式匹配的表格信息抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CA3139085A1 (en) | Representative document hierarchy generation | |
CN115699109A (zh) | 使用多模态融合框架来处理承载有图像的电子文档 | |
CN111492370A (zh) | 用于识别结构化布局的文本图像的装置和方法 | |
US11380033B2 (en) | Text placement within images using neural networks | |
US20220301285A1 (en) | Processing picture-text data | |
CN117520343A (zh) | 信息抽取的方法、服务器及存储介质 | |
CN116152840A (zh) | 文件分类方法、装置、设备和计算机存储介质 | |
CN112269872A (zh) | 简历解析方法、装置、电子设备及计算机存储介质 | |
CN110909768B (zh) | 一种标注数据获取方法及装置 | |
CN114359533B (zh) | 一种基于页面文本的页码识别方法和计算机设备 | |
CN113673528B (zh) | 文本处理方法、装置、电子设备和可读存储介质 | |
CN114218907A (zh) | 演示文稿生成方法、装置、电子设备及存储介质 | |
CN111881900B (zh) | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 | |
JP2020502710A (ja) | ウェブページメイン画像認識方法及び装置 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN114399782B (zh) | 文本图像处理方法、装置、设备、存储介质及程序产品 | |
CN112257400B (zh) | 表格数据提取方法、装置、计算机设备和存储介质 | |
CN115294594A (zh) | 文档分析方法、装置、设备及存储介质 | |
CN113362026B (zh) | 文本处理方法及装置 | |
CN114818639A (zh) | 演示文稿生成方法、装置、设备及存储介质 | |
CN115034177A (zh) | 演示文稿转换方法、装置、设备及存储介质 | |
CN114331932A (zh) | 目标图像生成方法和装置、计算设备以及计算机存储介质 | |
CN114138214B (zh) | 一种自动生成打印文件的方法、装置和电子设备 | |
CN118014833B (zh) | 基于工业大模型的图像生成方法、装置、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |