CN117312574A - 一种信息提取方法、装置、设备及存储介质 - Google Patents
一种信息提取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117312574A CN117312574A CN202311266510.9A CN202311266510A CN117312574A CN 117312574 A CN117312574 A CN 117312574A CN 202311266510 A CN202311266510 A CN 202311266510A CN 117312574 A CN117312574 A CN 117312574A
- Authority
- CN
- China
- Prior art keywords
- text
- extracted
- matching
- triplet
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 5
- 210000004027 cell Anatomy 0.000 description 59
- 238000010586 diagram Methods 0.000 description 14
- 238000007781 pre-processing Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种信息提取方法、装置、设备及存储介质,涉及计算机技术领域,包括:从待抽取表格的文本内容中,确定与三元组标识信息匹配的匹配文本,以及所述匹配文本在所述待抽取表格中的位置信息;基于所述匹配文本在所述待抽取表格中的位置信息,确定所述待抽取表格的表格样式;基于所述待抽取表格的表格样式,以及所述匹配文本在所述待抽取表格中的位置信息,从所述待抽取表格中提取组合文本;通过信息提取模型,基于所述三元组标识信息和所述组合文本,确定至少一个目标三元组内容。本申请实施例实现了自动化地且更精细化地信息抽取,大大降低了人工成本,有效提高了信息提取的提取效率。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种信息提取方法、装置、设备及存储介质。
背景技术
知识图谱将知识以三元组的形式表示,是一种以图的形式展现的知识库,知识图谱技术目前已经在各个领域得到了广泛的应用。知识图谱的数据来源主要包括数据库、文本和表格等,其中,表格数据通常是结构化或者半结构化数据,是知识图谱数据的重要来源。
相关技术下,表格信息提取的方法主要包括以下几种:第一,人工配置规则提取,即通过业务专家观察表格,若表格数量较少,则直接由业务专家对表格信息进行标注和抽取,若表格数量较多,则需要业务专家先配置一系列的规则后,再进行表格信息提取,所以该种方法需要消耗较高的人工成本,且表格信息提取的效率低。第二,特定格式表格信息抽取,即采用人工预处理的方式将表格转换为特定格式的表格,然后从表格中抽取数据,该种方法由于依赖人工干预,所以针对表格信息较多或者格式多样的情况并不适用,表格信息抽取效率低。
因此,如何减少表格信息抽取过程的人工干预,降低人工成本,有效提高表格信息提取的提取效率是相关技术下亟待解决的技术问题。
发明内容
本申请实施例提供了一种信息提取方法,降低了人工成本,有效提高了信息提取的提取效率。
第一方面,本申请实施例提供了一种信息提取方法,包括:
从待抽取表格的文本内容中,确定与三元组标识信息匹配的匹配文本,以及所述匹配文本在所述待抽取表格中的位置信息;
基于所述匹配文本在所述待抽取表格中的位置信息,确定所述待抽取表格的表格样式;
基于所述待抽取表格的表格样式,以及所述匹配文本在所述待抽取表格中的位置信息,从所述待抽取表格中提取组合文本;
通过信息提取模型,基于所述三元组标识信息和所述组合文本,确定至少一个目标三元组内容。
本申请实施例中,通过从待抽取表格的文本内容中,确定与三元组标识信息匹配的匹配文本,以及匹配文本在待抽取表格中的位置信息,进而确定待抽取表格的表格样式,然后基于待抽取表格的表格样式和匹配文本在待抽取表格中的位置信息从待抽取表格中提取组合文本,最后将三元组标识信息和组合文本输入信息提取模型,从而确定至少一个目标三元组内容,实现了自动化地且更精细化的信息抽取,大大降低了人工成本,有效提高了信息提取的提取效率。
一种可选实施方式中,对待处理文档进行格式转换和表格解析,获得所述待抽取表格;以二维矩阵形式存储所述待抽取表格。
一种可选实施方式中,所述三元组标识信息包括:第一实体标识和第二实体标识;
针对所述待抽取表格中各个单元格中的文本内容,分别执行以下操作:
将所述第一实体标识与一个单元格的文本内容输入文本相似度模型,获得所述第一实体标识与所述一个单元格的文本内容的第一相似度;
将所述第二实体标识与一个单元格的文本内容输入文本相似度模型,获得所述第二实体标识与所述一个单元格的文本内容的第二相似度;
基于获得的多个第一相似度和获得的多个第二相似度,从待抽取表格的文本内容中,确定分别与第一实体标识和第二实体标识匹配的匹配文本以及相应的位置信息。
上述实施方式下,基于获得的多个第一相似度和获得的多个第二相似度,从待抽取表格的文本内容中,确定分别与第一实体标识和第二实体标识匹配的匹配文本以及相应的位置信息,这一过程不需要人工干预,有效降低了人工成本,进而提高了后续信息提取的提取效率。
一种可选实施方式中,所述与三元组标识信息匹配的匹配文本在所述待抽取表格中的位置信息包括:第一实体标识的匹配文本对应的第一单元格坐标,以及第二实体标识的匹配文本对应的第二单元格坐标;
将所述多个第一相似度、所述多个第二相似度、所述三元组标识信息以及相似度阈值输入匹配函数,获得所述三元组标识信息对应的目标字典,所述目标字典包括:所述第一实体标识、所述第一单元格坐标、所述第一实体标识与相应匹配文本之间的相似度、所述第二实体标识、所述第二单元格坐标、所述第二实体标识与相应匹配文本之间的相似度。
上述实施方式下,通过匹配函数获得三元组标识信息对应的目标字典的过程不需要人工干预,有效降低了人工成本。
一种可选实施方式中,基于所述待抽取表格的表格样式,以及所述匹配文本在所述待抽取表格中的位置信息,从所述待抽取表格中提取候选文本;
从所述待抽取表格中定位表格标题文本;
将所述表格标题文本和所述候选文本组合,获得所述组合文本。
上述实施方式下,不仅将待抽取表格的文本内容纳入信息提取范围,而且充分衡量了表格标题文本的重要性,将表格标题文本和候选文本组合,获得组合文本,有效提高了信息提取的准确性
一种可选实施方式中,将所述三元组标识信息和所述组合文本输入信息提取模型,得到多个初步三元组内容;对所述多个初步三元组内容去重和筛选,确定至少一个目标三元组内容。
上述实施方式下,采用文档信息提取和段落信息提取相结合的方法,通过将三元组标识信息和组合文本输入信息提取模型,再对获得的多个初步三元组内容进行去重和筛选,进而确定至少一个目标三元组内容,有效提高了信息提取效率。
一种可选实施方式中,所述待抽取表格的表格样式包括:横表和纵表。
第二方面,本申请实施例提供了一种信息提取装置,包括:
信息匹配模块,用于从待抽取表格的文本内容中,确定与三元组标识信息匹配的匹配文本,以及所述匹配文本在所述待抽取表格中的位置信息;
表格样式确定模块,用于基于所述匹配文本在所述待抽取表格中的位置信息,确定所述待抽取表格的表格样式;
组合文本提取模块,用于基于所述待抽取表格的表格样式,以及所述匹配文本在所述待抽取表格中的位置信息,从所述待抽取表格中提取组合文本;
信息提取模块,用于通过信息提取模型,基于所述三元组标识信息和所述组合文本,确定至少一个目标三元组内容。
本申请实施例的有益效果,可以参考上述第一方面及第一方面各个实施例的有益效果,这里不再赘述。
一种可选实施方式中,还包括文档预处理模块;
所述文档预处理模块具体用于:
对待处理文档进行格式转换和表格解析,获得所述待抽取表格;以二维矩阵形式存储所述待抽取表格。
一种可选实施方式中,所述信息匹配模块具体用于:
针对所述待抽取表格中各个单元格中的文本内容,分别执行以下操作:
将所述第一实体标识与一个单元格的文本内容输入文本相似度模型,获得所述第一实体标识与所述一个单元格的文本内容的第一相似度;
将所述第二实体标识与一个单元格的文本内容输入文本相似度模型,获得所述第二实体标识与所述一个单元格的文本内容的第二相似度;
基于获得的多个第一相似度和获得的多个第二相似度,从待抽取表格的文本内容中,确定分别与第一实体标识和第二实体标识匹配的匹配文本以及相应的位置信息。
一种可选实施方式中,所述信息匹配模块具体用于:
将所述多个第一相似度、所述多个第二相似度、所述三元组标识信息以及相似度阈值输入匹配函数,获得所述三元组标识信息对应的目标字典,所述目标字典包括:所述第一实体标识、所述第一单元格坐标、所述第一实体标识与相应匹配文本之间的相似度、所述第二实体标识、所述第二单元格坐标、所述第二实体标识与相应匹配文本之间的相似度。
一种可选实施方式中,所述组合文本提取模块具体用于:
基于所述待抽取表格的表格样式,以及所述匹配文本在所述待抽取表格中的位置信息,从所述待抽取表格中提取候选文本;
从所述待抽取表格中定位表格标题文本;
将所述表格标题文本和所述候选文本组合,获得所述组合文本。
一种可选实施方式中,所述信息提取模块具体用于:
将所述三元组标识信息和所述组合文本输入信息提取模型,得到多个初步三元组内容;对所述多个初步三元组内容去重和筛选,确定至少一个目标三元组内容。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述信息提取方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述信息提取方法的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机设备执行时,使所述计算机设备执行上述信息提取方法的步骤。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种系统架构的结构示意图;
图2为本申请实施例提供的一种信息提取方法的流程示意图;
图3为本申请实施例提供的一种表格结构示意图;
图4为本申请实施例提供的一种表格存储形式示意图;
图5为本申请实施例提供的一种表格信息提取的过程示意图;
图6为本申请实施例提供的一种信息提取装置的结构示意图;
图7为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了方便理解,下面对本发明实施例中涉及的名词进行解释。
知识图谱:显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
三元组:知识图谱的核心其实就是三元组,三元组是由实体(Entity)、属性(Attribute)和关系(Relation)组成的,形式为[实体,关系,实体]或[实体,属性,属性值]。
结构化数据:结构化数据是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
半结构化数据:指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。
Bert模型:英文全称是Bidirectional Encoder Representation fromTransformers,Bert模型是一种预训练模型。
UIE模型:通用信息抽取模型,英文全称是Universal Information Extraction,UIE模型是基于ERNIE 3.0知识增强预训练模型构建的中文通用信息抽取模型,该模型可以实现实体抽取、关系抽取、事件抽取、情感分析等任务的统一建模,并具备良好的迁移和泛化能力。
参见图1,其为本申请实施例适用的一种系统架构图,该系统架构至少包括终端设备101和信息提取系统102,终端设备101的数量可以是一个或多个,信息提取系统102的数量也可以是一个或多个,本申请对终端设备101和信息提取系统102的数量不做具体限定。
终端设备101中预先安装应用,其中,应用是客户端应用、网页版应用、小程序应用等。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。
信息提取系统102是应用的后台服务器,信息提取系统102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,简称CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101与信息提取系统102可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例中的信息提取方法可以是终端设备101执行,也可以是信息提取系统102执行,还可以由终端设备101与信息提取系统102交互执行。
需说明的是,本申请提供的信息提取方法的应用场景包括但不限于:日志文件、XML文档、HTML文档等的信息提取。
基于图1所示的系统架构图,本申请实施例提供了一种信息提取方法的流程示意图,如图2所示,该方法的流程由计算机设备执行,该计算机设备可以是图1所示的终端设备101和/或信息提取系统102,包括以下步骤:
步骤201,从待抽取表格的文本内容中,确定与三元组标识信息匹配的匹配文本,以及匹配文本在待抽取表格中的位置信息。
具体地,三元组标识信息可以是:实体对、实体属性对、实体和属性等。
一种可选实施方式中,对待处理文档进行格式转换和表格解析,获得待抽取表格;以二维矩阵形式存储待抽取表格。
具体地,对待处理文档进行数据预处理,数据预处理包括格式转换和表格解析,格式转换指:将待处理文档中的Pdf文件转换成word文档,例如,格式转换模块可以通过python中的pdf2docx模块将pdf格式装换成word格式;表格解析指:从word文档中解析出待抽取表格,例如,表格解析模块通过python中的python-docx模块实现解析出待抽取表格。
在一份文档中,表格的数量可能不仅有一个,所以将待抽取文档经过数据预处理获得的所有待抽取表格按序存储,存储为表格数据列表,形状为(k,m,n),其中k为表格个数,m和n为表格对应的横竖最大长度。其中,每个待抽取表格以二维矩阵的形式存储,矩阵中的每个元素对应待抽取表格中的一个单元格。
例如,参见图3,假设待抽取文档中只有一个待抽取表格,则待抽取表格的存储形式如图4所示。需要说明的是,当表格存在跨行或者跨列时,对应的单元格会记录同样的信息;通过观察图3的表格信息也可以发现,半结构化的表格信息并不能够直接的使用,比如“平台账号”的属性值是一段备注说明,需要进一步的信息提取,再比如“应用平台功能”具有三个属性可能也需要进一步的区分,同时也存在没有属性值对应的情况,故也需要进一步的信息提取。
一种可选实施方式中,三元组标识信息包括:第一实体标识和第二实体标识;针对待抽取表格中各个单元格中的文本内容,分别执行以下操作:将第一实体标识与一个单元格的文本内容输入文本相似度模型,获得第一实体标识与一个单元格的文本内容的第一相似度;将第二实体标识与一个单元格的文本内容输入文本相似度模型,获得第二实体标识与一个单元格的文本内容的第二相似度;
基于获得的多个第一相似度和获得的多个第二相似度,从待抽取表格的文本内容中,确定分别与第一实体标识和第二实体标识匹配的匹配文本以及相应的位置信息。
具体地,文本相似度模型包括但不限于:Bert模型、DRCN模型(Deeply-RecursiveConvolutional Network,超分辨网络模型)、DL模型(Deep Learning,神经元模型)等。
获得的多个第一相似度组成第一相似度矩阵;同时,获得的多个第二相似度组成第二相似度矩阵;第一相似度矩阵和第二相似度矩阵中每个元素的取值范围均为(0,1]。
根据得到的第一相似度矩阵和第二相似度矩阵,建立第一实体标识和第二实体标识与单元格的映射,从待抽取表格的文本内容中,确定分别与第一实体标识和第二实体标识匹配的匹配文本以及相应的位置信息。
一种可选实施方式中,与三元组标识信息匹配的匹配文本在待抽取表格中的位置信息包括:第一实体标识的匹配文本对应的第一单元格坐标,以及第二实体标识的匹配文本对应的第二单元格坐标。
将多个第一相似度、多个第二相似度、三元组标识信息以及相似度阈值输入匹配函数,获得三元组标识信息对应的目标字典,目标字典包括:第一实体标识、第一单元格坐标、第一实体标识与相应匹配文本之间的相似度、第二实体标识、第二单元格坐标、第二实体标识与相应匹配文本之间的相似度。
具体地,为了保证第一实体标识和第二实体标识不会映射到同一个单元格,本申请实施例提供了另一种信息匹配的方法。
具体地,head_entity表示第一实体标识,tail_entity表示第二实体标识。max_model是一个返回在范围内相似度最高的单元格位置和相似度的匹配函数;输入包括第一相似度矩阵、第二相似度矩阵、三元组标识信息、最小阈值(min_sim)、最大阈值(max_sim),输出为map_dict,map_dict是一个字典,字典的键为三元组标识信息,字典值为一个长度为2的列表,第一个元素为单元格坐标,第二个元素为三元组标识信息与相应匹配文本的相似度。
例如,假设图3中需要抽取的三元组标识信息为“属性”和“属性值”,则第一实体标识为“属性”,第二实体标识为“属性值”,将第一相似度矩阵中的多个第一相似度、第二相似度矩阵中的多个第二相似度、“属性”、“属性值”、最小阈值(min_sim)、最大阈值(max_sim)输入匹配函数,输出目标字典map_dict。
目标字典map_dict={‘属性’:[[0,1],1.0],‘属性值’:[[0,4],1.0]},其中,“‘属性’:[[0,1],1.0]”的含义为:第一实体标识‘属性’的匹配文本的位置信息为第0行第1列,即第一单元格坐标为[0,1],且第一实体标识‘属性’与第一单元格坐标的匹配文本的相似度为1.0。
“‘属性值’:[[0,4],1.0]”的含义为:第二实体标识‘属性值’的匹配文本的位置信息为第0行第4列,即第二单元格坐标为[0,4],且第二实体标识‘属性值’与该第二单元格坐标的匹配文本的相似度为1.0。
需要说明的是,根据三元组标识信息匹配的匹配文本在待抽取表格中的位置信息及相似度,将不同的三元组标识信息存储为不同的目标字典。
上述实施方式下,基于获得的多个第一相似度和获得的多个第二相似度,从待抽取表格的文本内容中,确定分别与第一实体标识和第二实体标识匹配的匹配文本以及相应的位置信息,这一过程不需要人工干预,有效降低了人工成本,进而提高了后续信息提取的提取效率。
步骤202,基于匹配文本在待抽取表格中的位置信息,确定待抽取表格的表格样式。
一种可选实施方式中,待抽取表格的表格样式包括:横表和纵表。
具体地,以图3为例,根据得到的目标字典map_dict,结合待抽取表格中单元格跨表的情况,确定表头的位置和对应的匹配文本的位置。首先,判断目标字典map_dict的长度,如果目标字典map_dict的长度小于2,则说明该三元组标识信息在该待抽取表格只有第一实体标识或者第二实体标识匹配,或者都没有匹配。
当目标字典map_dict的长度为2时,例如在图4中,目标字典map_dict={‘属性’:[[0,1],1.0],‘属性值’:[[0,4],1.0]},根据第一实体标识对应的第一单元格坐标和第二实体标识对应的第二单元单元格坐标,可以初步确定该待抽取表格为横表,然后通过分析表格数据列表,可以得到表头并不存在跨行或者跨列的情况,因此可以确定表格样式,即该待抽取表格为横表,其中,表头为第0行,内容为1-4行。进一步地,表格样式存储为矩阵,其中1表示表头,0表示对应内容,2表示其它内容。
本申请实施例中,基于匹配文本在待抽取表格中的位置信息,确定待抽取表格的表格样式,这一过程不需要人工干预,有效降低了人工成本,进而有效提高了后续信息提取的提取效率。
步骤203,基于待抽取表格的表格样式,以及匹配文本在待抽取表格中的位置信息,从待抽取表格中提取组合文本。
一种可选实施方式中,基于待抽取表格的表格样式,以及匹配文本在待抽取表格中的位置信息,从待抽取表格中提取候选文本;从待抽取表格中定位表格标题文本;将表格标题文本和候选文本组合,获得组合文本。
具体地,第一实体标识的匹配文本对应的第一单元格坐标,以及第二实体标识的匹配文本对应的第二单元格坐标。
当待抽取表格的表格样式为横表时,在待抽取表格中定位第一单元格坐标所在的列和第二单元格坐标所在的列。然后依次对待抽取表格中非表头部分的各行进行文本提取。具体地,针对非表头部分的每行文本内容,提取第一单元格坐标所在的列的子文本内容,以及第二单元格坐标所在的列的子文本内容,并将提取的多个子文本内容进行拼接,获得行提取内容。基于获得的多个行提取内容,确定候选文本。
表格样式为纵表时提取候选文本的过程,与表格样式为横表时提取候选文本的过程相同,此处不再赘述。
待抽取表格除了单元格内容外,有时表格的标题也包含着重要信息,因此通过表格定位,从待抽取表格中定位表格标题文本;例如图4的标题表明了该表格是某个产品的信息。
将表格标题文本和候选文本组合成组合文本,组合方式为“表格标题文本”+“\n”+“候选文本1”+“\n”+…;对于单元格存在的换行符,采用正则化的方式进行处理,例如将换行符替换为空格或者逗号等。
举例来说,从图3所示的表格中抽取的组合文本为:“**产品包括以下属性”\n“平台账号:即订购***生成的群业务号码”\n“应用平台功能:**应用服务/**增值服务/**一体化服务”\n“是否派发物联网装维:是/否”\n“设备终端型号编码:”。
本申请实施例中,不仅将待抽取表格的文本内容纳入信息提取范围,而且充分衡量了表格标题文本的重要性,将表格标题文本和候选文本组合,获得组合文本,有效提高了信息提取的准确性。
步骤204,通过信息提取模型,基于三元组标识信息和组合文本,确定至少一个目标三元组内容。
本申请实施例中,通过从待抽取表格的文本内容中,确定与三元组标识信息匹配的匹配文本,以及匹配文本在待抽取表格中的位置信息,进而确定待抽取表格的表格样式,然后基于待抽取表格的表格样式和匹配文本在待抽取表格中的位置信息从待抽取表格中提取组合文本,最后将三元组标识信息和组合文本输入信息提取模型,从而确定至少一个目标三元组内容,实现对于半结构化表格的更精细化的信息抽取,大大降低了人工成本,有效提高了表格信息提取的提取效率。
一种可选实施方式中,将三元组标识信息和组合文本输入信息提取模型,得到多个初步三元组内容;对多个初步三元组内容去重和筛选,确定至少一个目标三元组内容。
具体地,将三元组标识信息和组合文本输入信息提取模型,如基于Bert的模型、UIE模型等,得到多个初步三元组内容,再将多个初步三元组内容输入判断模块,去掉可能性概率低于阈值的初步三元组,最后对保留下来的可能性概率高于或等于阈值的初步三元组内容去重,确定至少一个目标三元组内容。
本申请实施例采用文档信息提取和段落信息提取相结合的方法,通过将三元组标识信息和组合文本输入信息提取模型,再对获得的多个初步三元组内容进行去重和筛选,进而确定至少一个目标三元组内容,有效提高了信息提取效率。
为了更好地解释本申请实施例,下面结合具体实施场景介绍本申请实施例提供的一种表格信息提取方法的流程示意图,如图5所示,该方法的流程由信息提取系统102执行,包括数据预处理阶段501、确定表格样式阶段502、数据匹配阶段503和三元组抽取阶段504。
具体地,数据预处理阶段501具体包括以下步骤:
步骤5011:格式转换。
具体地,将待抽取文档中的Pdf文件通过格式转换转换为Word文件。
步骤5012:表格解析。
具体地,将Word文件通过表格解析后获得的待抽取表格存储为表格数据列表。
确定表格样式阶段502具体包括以下步骤:
步骤5021:文本相似度分析。
具体地,实体对包括第一实体标识和第二实体标识,针对表格数据列表中待抽取表格的各个单元格中的文本内容,分别执行以下操作:将第一实体标识与一个单元格的文本内容输入文本相似度模型,获得第一实体标识与一个单元格的文本内容的第一相似度;将第二实体标识与一个单元格的文本内容输入文本相似度模型,获得第二实体标识与一个单元格的文本内容的第二相似度。
步骤5022:单元格匹配。
具体地,基于获得的多个第一相似度和获得的多个第二相似度,从表格数据列表中待抽取表格的文本内容中,确定分别与第一实体标识和第二实体标识匹配的匹配文本以及相应的位置信息。
步骤5023:确定表格样式。
具体地,基于第一实体标识和第二实体标识匹配的匹配文本以及相应的在待抽取表格中的位置信息,确定待抽取表格的表格样式。
数据匹配阶段503具体包括以下步骤:
步骤5031:遍历匹配。
具体地,根据待抽取表格的表格样式,以及匹配文本在待抽取表格中的位置信息,从待抽取表格中提取出候选文本。
步骤5032:表格定位。
具体地,从待抽取表格中定位表格标题文本。
步骤5033:组合文本。
具体地,将表格标题文本和候选文本组合成组合文本。
三元组抽取阶段504具体包括以下步骤:
步骤5041:三元组抽取预训练模型。
待抽取三元组相当于实体对,将待抽取三元组和组合文本输入信息提取模型,如基于Bert的模型、UIE模型等,得到三元组1和三元组2。
步骤5042:判断模块。
具体地,将三元组1和三元组2输入判断模块,对三元组1和三元组2进行去重,以及去掉可能性概率低于阈值的三元组,最后输出三元组1作为目标三元组。
基于相同的发明构思,参见图6,本申请实施例提供了一种信息提取装置,包括:
信息匹配模块601,用于从待抽取表格的文本内容中,确定与三元组标识信息匹配的匹配文本,以及匹配文本在待抽取表格中的位置信息;
表格样式确定模块602,用于基于匹配文本在待抽取表格中的位置信息,确定待抽取表格的表格样式;
组合文本提取模块603,用于基于待抽取表格的表格样式,以及匹配文本在待抽取表格中的位置信息,从待抽取表格中提取组合文本;
信息提取模块604,用于通过信息提取模型,基于三元组标识信息和组合文本,确定至少一个目标三元组内容。
一种可选实施方式中,还包括文档预处理模块605;
文档预处理模块具体用于:
对待处理文档进行格式转换和表格解析,获得待抽取表格;以二维矩阵形式存储待抽取表格。
一种可选实施方式中,信息匹配模块601还用于:
针对待抽取表格中各个单元格中的文本内容,分别执行以下操作:
将第一实体标识与一个单元格的文本内容输入文本相似度模型,获得第一实体标识与一个单元格的文本内容的第一相似度;
将第二实体标识与一个单元格的文本内容输入文本相似度模型,获得第二实体标识与一个单元格的文本内容的第二相似度;
基于获得的多个第一相似度和获得的多个第二相似度,从待抽取表格的文本内容中,确定分别与第一实体标识和第二实体标识匹配的匹配文本以及相应的位置信息。
一种可选实施方式中,信息匹配模块601还用于:
将多个第一相似度、多个第二相似度、三元组标识信息以及相似度阈值输入匹配函数,获得三元组标识信息对应的目标字典,目标字典包括:第一实体标识、第一单元格坐标、第一实体标识与相应匹配文本之间的相似度、第二实体标识、第二单元格坐标、第二实体标识与相应匹配文本之间的相似度。
一种可选实施方式中,组合文本提取模块603还用于:
基于待抽取表格的表格样式,以及匹配文本在待抽取表格中的位置信息,从待抽取表格中提取候选文本;
从待抽取表格中定位表格标题文本;
将表格标题文本和候选文本组合,获得组合文本。
一种可选实施方式中,信息提取模块604还用于:
将三元组标识信息和组合文本输入信息提取模型,得到多个初步三元组内容;对多个初步三元组内容去重和筛选,确定至少一个目标三元组内容。
本申请实施例中,通过从待抽取表格的文本内容中,确定与三元组标识信息匹配的匹配文本,以及匹配文本在待抽取表格中的位置信息,进而确定待抽取表格的表格样式,然后基于待抽取表格的表格样式和匹配文本在待抽取表格中的位置信息从待抽取表格中提取组合文本,最后将三元组标识信息和组合文本输入信息提取模型,从而确定至少一个目标三元组内容,实现对于半结构化表格的更精细化的信息抽取,大大降低了人工成本,有效提高了表格信息提取的提取效率。
基于相同的技术构思,本申请实施例提供了一种计算机设备,该计算机设备可以是图1所示的终端设备和/或信息提取系统,如图7所示,包括至少一个处理器701,以及与至少一个处理器连接的存储器702,本申请实施例中不限定处理器701与存储器702之间的具体连接介质,图7中处理器701和存储器702之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器702存储有可被至少一个处理器701执行的指令,至少一个处理器701通过执行存储器702存储的指令,可以执行上述信息提取方法的步骤。
其中,处理器701是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器702内的指令以及调用存储在存储器702内的数据,从而实现信息提取。可选的,处理器701可包括一个或多个处理单元,处理器701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器701中。在一些实施例中,处理器701和存储器702可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器701可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器702作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器702可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器702是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机设备存取的任何其他介质,但不限于此。本申请实施例中的存储器702还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于同一发明构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行上述信息提取方法的步骤。
基于同一发明构思,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机设备执行时,使所述计算机设备执行上述信息提取方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机设备或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备或其他可编程数据处理设备上,使得在计算机设备或其他可编程设备上执行一系列操作步骤以产生计算机设备实现的处理,从而在计算机设备或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (11)
1.一种信息提取方法,其特征在于,包括:
从待抽取表格的文本内容中,确定与三元组标识信息匹配的匹配文本,以及所述匹配文本在所述待抽取表格中的位置信息;
基于所述匹配文本在所述待抽取表格中的位置信息,确定所述待抽取表格的表格样式;
基于所述待抽取表格的表格样式,以及所述匹配文本在所述待抽取表格中的位置信息,从所述待抽取表格中提取组合文本;
通过信息提取模型,基于所述三元组标识信息和所述组合文本,确定至少一个目标三元组内容。
2.如权利要求1所述的方法,其特征在于,所述从待抽取表格的文本内容中,确定与三元组标识信息匹配的匹配文本,以及所述匹配文本在所述待抽取表格中的位置信息之前,还包括:
对待处理文档进行格式转换和表格解析,获得所述待抽取表格;
以二维矩阵形式存储所述待抽取表格。
3.如权利要求1所述的方法,其特征在于,所述三元组标识信息包括:第一实体标识和第二实体标识;
所述从待抽取表格的文本内容中,确定与三元组标识信息匹配的匹配文本,以及所述匹配文本在所述待抽取表格中的位置信息,包括:
针对所述待抽取表格中各个单元格中的文本内容,分别执行以下操作:
将所述第一实体标识与一个单元格的文本内容输入文本相似度模型,获得所述第一实体标识与所述一个单元格的文本内容的第一相似度;
将所述第二实体标识与一个单元格的文本内容输入文本相似度模型,获得所述第二实体标识与所述一个单元格的文本内容的第二相似度;
基于获得的多个第一相似度和获得的多个第二相似度,从待抽取表格的文本内容中,确定分别与第一实体标识和第二实体标识匹配的匹配文本以及相应的位置信息。
4.如权利要求3所述的方法,其特征在于,所述与三元组标识信息匹配的匹配文本在所述待抽取表格中的位置信息包括:第一实体标识的匹配文本对应的第一单元格坐标,以及第二实体标识的匹配文本对应的第二单元格坐标;
所述基于获得的多个第一相似度和获得的多个第二相似度,从待抽取表格的文本内容中,确定分别与第一实体标识和第二实体标识匹配的匹配文本以及相应的位置信息,包括:
将所述多个第一相似度、所述多个第二相似度、所述三元组标识信息以及相似度阈值输入匹配函数,获得所述三元组标识信息对应的目标字典,所述目标字典包括:所述第一实体标识、所述第一单元格坐标、所述第一实体标识与相应匹配文本之间的相似度、所述第二实体标识、所述第二单元格坐标、所述第二实体标识与相应匹配文本之间的相似度。
5.如权利要求1所述的方法,其特征在于,所述基于所述待抽取表格的表格样式,以及所述匹配文本在所述待抽取表格中的位置信息,从所述待抽取表格中提取组合文本,包括:
基于所述待抽取表格的表格样式,以及所述匹配文本在所述待抽取表格中的位置信息,从所述待抽取表格中提取候选文本;
从所述待抽取表格中定位表格标题文本;
将所述表格标题文本和所述候选文本组合,获得所述组合文本。
6.如权利要求1所述的方法,其特征在于,所述通过信息提取模型,基于所述三元组标识信息和所述组合文本,确定至少一个目标三元组内容,包括:
将所述三元组标识信息和所述组合文本输入信息提取模型,得到多个初步三元组内容;
对所述多个初步三元组内容去重和筛选,确定至少一个目标三元组内容。
7.如权利要求1至6任一所述的方法,其特征在于,所述待抽取表格的表格样式包括:横表和纵表。
8.一种信息提取装置,其特征在于,包括:
信息匹配模块,用于从待抽取表格的文本内容中,确定与三元组标识信息匹配的匹配文本,以及所述匹配文本在所述待抽取表格中的位置信息;
表格样式确定模块,用于基于所述匹配文本在所述待抽取表格中的位置信息,确定所述待抽取表格的表格样式;
组合文本提取模块,用于基于所述待抽取表格的表格样式,以及所述匹配文本在所述待抽取表格中的位置信息,从所述待抽取表格中提取组合文本;
信息提取模块,用于通过信息提取模型,基于所述三元组标识信息和所述组合文本,确定至少一个目标三元组内容。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~7任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~7任一所述方法的步骤。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机设备执行时,使所述计算机设备执行权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311266510.9A CN117312574A (zh) | 2023-09-27 | 2023-09-27 | 一种信息提取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311266510.9A CN117312574A (zh) | 2023-09-27 | 2023-09-27 | 一种信息提取方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117312574A true CN117312574A (zh) | 2023-12-29 |
Family
ID=89242020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311266510.9A Pending CN117312574A (zh) | 2023-09-27 | 2023-09-27 | 一种信息提取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117312574A (zh) |
-
2023
- 2023-09-27 CN CN202311266510.9A patent/CN117312574A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102237702B1 (ko) | 엔티티 관계 데이터 생성 방법, 장치, 기기 및 저장 매체 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
WO2020000717A1 (zh) | 网页分类方法、装置及计算机可读存储介质 | |
CN111459977B (zh) | 自然语言查询的转换 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN113051356A (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN109857957B (zh) | 建立标签库的方法、电子设备及计算机存储介质 | |
CN115827819A (zh) | 一种智能问答处理方法、装置、电子设备及存储介质 | |
CN114970553B (zh) | 基于大规模无标注语料的情报分析方法、装置及电子设备 | |
CN113901214B (zh) | 表格信息的提取方法、装置、电子设备及存储介质 | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
CN112668316A (zh) | word文档关键信息抽取方法 | |
CN114372153A (zh) | 基于知识图谱的法律文书结构化入库方法及系统 | |
CN114444465A (zh) | 信息抽取方法、装置、设备及存储介质 | |
CN114118072A (zh) | 文档结构化方法、装置、电子设备和计算机可读存储介质 | |
CN114860867A (zh) | 训练文档信息抽取模型、文档信息抽取的方法和装置 | |
CN113837307A (zh) | 数据相似度计算方法、装置、可读介质及电子设备 | |
CN113836316A (zh) | 三元组数据的处理方法、训练方法、装置、设备及介质 | |
WO2021135103A1 (zh) | 一种语义分析方法、装置、计算机设备及存储介质 | |
CN117423124A (zh) | 基于表格图像的表格数据处理方法和装置、设备及介质 | |
CN112395407A (zh) | 企业实体关系的抽取方法、装置及存储介质 | |
US20230186613A1 (en) | Sample Classification Method and Apparatus, Electronic Device and Storage Medium | |
CN111046636A (zh) | 筛选pdf文件信息的方法、装置、计算机设备及存储介质 | |
CN113779218B (zh) | 问答对构建方法、装置、计算机设备和存储介质 | |
CN117312574A (zh) | 一种信息提取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |