CN116611450A - 一种提取文档信息的方法、装置、设备和可读存储介质 - Google Patents
一种提取文档信息的方法、装置、设备和可读存储介质 Download PDFInfo
- Publication number
- CN116611450A CN116611450A CN202310645296.1A CN202310645296A CN116611450A CN 116611450 A CN116611450 A CN 116611450A CN 202310645296 A CN202310645296 A CN 202310645296A CN 116611450 A CN116611450 A CN 116611450A
- Authority
- CN
- China
- Prior art keywords
- information
- semantic
- extracting
- target document
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000000605 extraction Methods 0.000 claims abstract description 109
- 238000001514 detection method Methods 0.000 claims abstract description 75
- 230000007246 mechanism Effects 0.000 claims abstract description 31
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 23
- 230000000007 visual effect Effects 0.000 claims description 19
- 230000009977 dual effect Effects 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种提取文档信息的方法、装置、设备和可读存储介质,该方法包括,将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框;提取多个局部检测框的位置信息,得到多个局部位置信息;通过双仿射注意力机制对多个局部位置信息和目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果。通过该方法可以达到提高文档提取信息的准确率的效果。
Description
技术领域
本申请涉及文档信息提取的领域,具体而言,涉及一种提取文档信息的方法、装置、设备和可读存储介质。
背景技术
目前,随着文档数据等几何级数的增长,对于文档类识别的需求也越来越多,由于文档数据的布局复杂多样且包括的数据模态多样,基于模板的定制化开发已难以满足需求,近几年基于文档内容、图像特征以及布局信息等多种模态融合的多模态信息抽取已得到了广泛应用,当前文本信息抽取可以直接对文档的全部信息进行提取。
但是在信息提取的过程中,会存在整个文档信息都汇集到一起的情况,导致提取文档信息时出现信息提取错误的情况。
因此,如何提高文档提取信息的准确率,是一个需要解决的技术问题。
发明内容
本申请实施例的目的在于提供一种提取文档信息的方法,通过本申请的实施例的技术方案可以达到提高提取文档信息的准确率的效果。
第一方面,本申请实施例提供了一种提取文档信息的方法,包括,将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框;提取多个局部检测框的位置信息,得到多个局部位置信息;通过双仿射注意力机制对多个局部位置信息和目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果。
本申请在上述实施例中,通过局部检测框的位置信息和文档语义实体识别信息相结合的方式输入双仿射注意力机制,可以使双仿射注意力机制考虑目标文档中局部信息的位置对语义实体识别信息进行信息抽取,可以避免抽取整个文档信息得到的结果排列在一起出现不清楚的情况,还可以达到提高文档提取信息的准确率的效果。
在一些实施例中,在将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框之前,还包括:
对目标文档的文本字段进行标注,得到多个文本字段检测框;
提取多个文本字段检测框的文本特征和目标文档的视觉特征,其中,文本特征包括文本语义特征和文本位置特征;
通过卷积神经网络对文本特征和视觉特征进行实体识别,得到语义实体识别信息。
本申请在上述实施例中,通过对整个目标文档进行检测框的标注,可以通过识别检测框中的内容得到整个目标文档的语义实体识别信息,通过该方法可以快速的获取整个目标文档中存在的语义实体识别信息。
在一些实施例中,在通过双仿射注意力机制对多个局部位置信息和目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果之后,还包括:
通过信息抽取结果对基础信息抽取模型进行训练,得到信息抽取模型,其中,信息抽取结果包括目标文档的语义实体识别信息和语义实体之间的关系;
将待抽取文档输入信息抽取模型,得到抽取结果。
本申请在上述实施例中,通过提取目标文档得到的提取结果可以作为样本训练信息抽取模型,进而可以通过信息抽取模型对文档中的信息直接进行抽取,通过该信息抽取模型抽取文档信息可以考虑到文档中局部实体信息的位置准确的得到最终抽取结果。
在一些实施例中,通过双仿射注意力机制对多个局部位置信息和目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果,包括:
通过预设比例筛选多个局部位置信息和目标文档的语义实体识别信息,得到信息集合;
对信息集合进行语义实体关系的抽取,得到多个语义实体之间的关系。
本申请在上述实施例中,通过预设比例的局部位置信息和目标文档的语义实体识别信息进行语义实体关系的抽取,可以得到多个语义实体之间的关系,可以增强信息抽取模型在进行信息抽取时可以考虑语义实体之间的关系,提高信息抽取的准确性。
第二方面,本申请实施例提供了一种提取文档信息的装置,包括:
标注模块,用于将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框;
提取模块,用于提取多个局部检测框的位置信息,得到多个局部位置信息;
抽取模块,用于通过双仿射注意力机制对多个局部位置信息和目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果。
可选的,所述装置还包括:
识别模块,用于标注模块在将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框之前,对目标文档的文本字段进行标注,得到多个文本字段检测框;
提取多个文本字段检测框的文本特征和目标文档的视觉特征,其中,文本特征包括文本语义特征和文本位置特征;
通过卷积神经网络对文本特征和视觉特征进行实体识别,得到语义实体识别信息。
可选的,所述装置还包括:
训练模块,用于抽取模块在通过双仿射注意力机制对多个局部位置信息和目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果之后,通过信息抽取结果对基础信息抽取模型进行训练,得到信息抽取模型,其中,信息抽取结果包括目标文档的语义实体识别信息和语义实体之间的关系;
将待抽取文档输入信息抽取模型,得到抽取结果。
可选的,抽取模块具体用于:
通过预设比例筛选多个局部位置信息和目标文档的语义实体识别信息,得到信息集合;
对信息集合进行语义实体关系的抽取,得到多个语义实体之间的关系。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种提取文档信息的方法的流程图;
图2为本申请实施例提供的一种提取文档信息的详细方法的示意图;
图3为本申请实施例提供的一种提取文档信息的装置的示意框图;
图4为本申请实施例提供的一种提取文档信息的装置的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和显示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本申请应用于文档信息提取的场景,具体场景为通过考虑文档局部信息的位置对文档中文本实体内容进行信息提取。
目前,随着文档数据等几何级数的增长,对于文档类识别的需求也越来越多,由于文档数据的布局复杂多样且包括的数据模态多样,基于模板的定制化开发已难以满足需求,近几年基于文档内容、图像特征以及布局信息等多种模态融合的多模态信息抽取已得到了广泛应用,当前文本信息抽取可以直接对文档的全部信息进行提取。但是在信息提取的过程中,会存在整个文档信息都汇集到一起的情况,导致提取文档信息时出现信息提取错误的情况。
为此本申请通过将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框;提取多个局部检测框的位置信息,得到多个局部位置信息;通过双仿射注意力机制对多个局部位置信息和目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果。通过局部检测框的位置信息和文档语义实体识别信息相结合的方式输入双仿射注意力机制,可以使双仿射注意力机制考虑目标文档中局部信息的位置对语义实体识别信息进行信息抽取,可以避免抽取整个文档信息得到的结果排列在一起出现不清楚的情况,还可以达到提高文档提取信息的准确率的效果。
本申请实施例中,执行主体可以为提取文档信息系统中的提取文档信息设备,实际应用中,提取文档信息设备可以为终端设备和服务器等电子设备,在此不做限制。
下面结合图1对本申请实施例的提取文档信息的方法进行详细描述。
请参看图1,图1为本申请实施例提供的一种提取文档信息的方法的流程图,如图1所示的提取文档信息的方法包括:
步骤110:将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框。
其中,语义实体包括字、词和句子等文本内容。具有关联关系的语义实体表示文档中内容信息属于相同类型、相同属地或者相同对象等认为具有关联关系,以保险单中的内容为例,投保人的基本信息,年龄、性别和证件等信息和被保险人和收益人的年龄、性别和证件等属于具有关联关系的语义实体。而投保人的基本信息,年龄、性别和证件等与保险金额、期限和缴费类型等信息则认为是没有关联关系的实体。
在本申请的一些实施例中,在将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框之前,图1所示的方法还包括:对目标文档的文本字段进行标注,得到多个文本字段检测框;提取多个文本字段检测框的文本特征和目标文档的视觉特征,其中,文本特征包括文本语义特征和文本位置特征;通过卷积神经网络对文本特征和视觉特征进行实体识别,得到语义实体识别信息。
本申请在上述过程中,通过对整个目标文档进行检测框的标注,可以通过识别检测框中的内容得到整个目标文档的语义实体识别信息,通过该方法可以快速的获取整个目标文档中存在的语义实体识别信息。
其中,检测框中包括一段文本字段,可以是一个字,也可以是一个词,也可以是一句话,也可以是代码和编号等信息,本申请不限于此。通过倾斜文本检测标注工具(labelimage)可以直接实现检测框的标注。视觉特征可以是文档图形中的一些颜色、形状和大小等信息。语义特征可以是文本的一些实体内容和实体内容的含义等。位置特征可以是文档中实体内容的位置。卷积神经网络可以采用faster rcnn和dbnet等目标检测算法对文本特征和视觉特征进行实体的识别。可以通过常用的文字识别模型(例如,crnn)直接识别检测框中的内容得到文本识别结果。文本的语义特征可以通过常用的词嵌入模型提取,文本的位置特征可以通过文本的空间特征编码提取;文本的视觉特征可以通过卷积神经网络提取所述文档的视觉特征。
步骤120:提取多个局部检测框的位置信息,得到多个局部位置信息。
其中,文档局部位置信息对应的检测框提取可以通过常用的目标检测算法来完成,例如faster rcnn和dbnet等,可以直接对检测框的位置信息进行提取。局部位置信息可以将检测框的中心点的坐标作为检测框的局部位置信息。
步骤130:通过双仿射注意力机制对多个局部位置信息和目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果。
其中,双仿射注意力机制可以同时考虑两个输入信息特征,输出一个信息抽取结果。通过双仿射注意力机制对多个局部位置信息和目标文档的语义实体识别信息进行信息抽取包括:通过双仿射注意力机制以局部位置信息为基准,将目标文档的实体识别信息进行抽取,其中得到的抽取结果可以根据局部位置信息将语义实体进行分类,得到最终的分类结果。
在本申请的一些实施例中,通过双仿射注意力机制对多个局部位置信息和目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果,包括:通过预设比例筛选多个局部位置信息和目标文档的语义实体识别信息,得到信息集合;对信息集合进行语义实体关系的抽取,得到多个语义实体之间的关系。
本申请在上述过程中,通过预设比例的局部位置信息和目标文档的语义实体识别信息进行语义实体关系的抽取,可以得到多个语义实体之间的关系,可以增强信息抽取模型在进行信息抽取时可以考虑语义实体之间的关系,提高信息抽取的准确性。
其中,预设比例可以根据实际抽取结果的准确性不断学习得到。本申请将语义实体识别信息与文档局部位置信息相结合,提出了一种能够输入到双仿射注意力机制中key(键)和value(值)的组合方式,其中,可以将识别到的语义实体识别信息划分成键值对的形式,例如,key:“投保人”,value:“XX”一方面考虑全局key和value映射关系,另一方面加入文档局部位置信息,可以增强具有关联关系的key和value,进而在信息抽取的过程中可以考虑局部位置信息将语义实体识别信息进行归类。输入到双仿射注意力机制中key和value的组合计算公式如下:
kv_relations=ɑ1*kv_relations_whole+ɑ2*kv_relations_part_set;
其中,kv_relations表示映射数值,kv_relations_whole为全局key和value的映射数值,kv_relations_part_set为局部位置信息key和value的映射数值集合;ɑ1、ɑ2为权重系数,ɑ1+ɑ2=1,可以通过配置ɑ1和ɑ2之间的权重来提升信息抽取模型抽取的准确率。
在本申请的一些实施例中,在通过双仿射注意力机制对多个局部位置信息和目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果之后,图1所示的方法还包括:通过信息抽取结果对基础信息抽取模型进行训练,得到信息抽取模型,其中,信息抽取结果包括目标文档的语义实体识别信息和语义实体之间的关系;将待抽取文档输入信息抽取模型,得到抽取结果。
本申请在上述过程中,通过提取目标文档得到的提取结果可以作为样本训练信息抽取模型,进而可以通过信息抽取模型对文档中的信息直接进行抽取,通过该信息抽取模型抽取文档信息可以考虑到文档中局部实体信息的位置准确的得到最终抽取结果。
其中,抽取结果中包括分类后的语义实体,同一区域中的语义实体具有关联关系。信息抽取结果是考虑文档局部位置信息抽取的语义实体,则训练好的信息抽取模型也可以考虑文档中语义实体的位置关系将具有关联关系的语义实体抽取到同一类中。
在上述图1所示的过程中,本申请通过将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框;提取多个局部检测框的位置信息,得到多个局部位置信息;通过双仿射注意力机制对多个局部位置信息和目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果。通过局部检测框的位置信息和文档语义实体识别信息相结合的方式输入双仿射注意力机制,可以使双仿射注意力机制考虑目标文档中局部信息的位置对语义实体识别信息进行信息抽取,可以避免抽取整个文档信息得到的结果排列在一起出现不清楚的情况,还可以达到提高文档提取信息的准确率的效果。
下面结合图2对本申请实施例的提取文档信息的方法进行详细描述。
请参看图2,图2为本申请实施例提供的一种提取文档信息的详细方法的示意图,如图2所示的提取文档信息的详细方法包括:
标注目标文档的文本字段,得到多个文本字段检测框和多个文档局部位置检测框;识别多个文本字段检测框文本字段,得到文本位置特征、文本语义特征和目标文档的视觉特征;其中,文本语义特征可以通过常用的词嵌入模型提取,文本位置特征可以通过文本的空间特征编码提取;可以通过卷积神经网络提取所述文档的视觉特征;将提取到的文本位置特征、文本语义特征和目标文档的视觉特征输入Transformer层进行实体信息识别,得到实体识别信息;提取多个局部检测框的位置信息,得到多个文档局部位置信息;将实体识别信息和多个文档局部位置信息输入双仿射注意力机制,得到信息抽取结果。
此外,图2所示的具体步骤和方法可以参看图1所示的方法,此处不在过多赘述。
前文通过图1-图2描述了提取文档信息的方法,下面结合图3-图4描述提取文档信息的装置。
请参照图3,为本申请实施例中提供的一种提取文档信息的装置300的示意框图,该装置300可以是电子设备上的模块、程序段或代码。该装置300与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置300具体的功能可以参见下文中的描述,为避免重复,此处适当省略详细描述。
可选的,所述装置300包括:
标注模块310,用于将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框;
提取模块320,用于提取多个局部检测框的位置信息,得到多个局部位置信息;
抽取模块330,用于通过双仿射注意力机制对多个局部位置信息和目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果。
可选的,所述装置还包括:
识别模块,用于标注模块在将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框之前,对目标文档的文本字段进行标注,得到多个文本字段检测框;提取多个文本字段检测框的文本特征和目标文档的视觉特征,其中,文本特征包括文本语义特征和文本位置特征;通过卷积神经网络对文本特征和视觉特征进行实体识别,得到语义实体识别信息。
可选的,所述装置还包括:
训练模块,用于抽取模块在通过双仿射注意力机制对多个局部位置信息和目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果之后,通过信息抽取结果对基础信息抽取模型进行训练,得到信息抽取模型,其中,信息抽取结果包括目标文档的语义实体识别信息和语义实体之间的关系;将待抽取文档输入信息抽取模型,得到抽取结果。
可选的,抽取模块具体用于:
通过预设比例筛选多个局部位置信息和目标文档的语义实体识别信息,得到信息集合;对信息集合进行语义实体关系的抽取,得到多个语义实体之间的关系。
请参照图4为本申请实施例中提供的一种提取文档信息的装置的结构示意框图,该装置可以包括存储器410和处理器420。可选的,该装置还可以包括:通信接口430和通信总线440。该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见下文中的描述。
具体的,存储器410,用于存储计算机可读指令。
处理器420,用于处理存储器存储的可读指令,能够执行图1方法中的各个步骤。
通信接口430,用于与其他节点设备进行信令或数据的通信。例如:用于与服务器或者终端的通信,或者与其它设备节点进行通信,本申请实施例并不限于此。
通信总线440,用于实现上述组件直接的连接通信。
其中,本申请实施例中设备的通信接口430用于与其他节点设备进行信令或数据的通信。存储器410可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器410可选的还可以是至少一个位于远离前述处理器的存储装置。存储器410中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器420执行时,电子设备执行上述图1所示方法过程。处理器420可以用于装置300上,并且用于执行本申请中的功能。示例性地,上述的处理器420可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,本申请实施例并不局限于此。
本申请实施例还提供一种可读存储介质,所述计算机程序被处理器执行时,执行如图1所示方法实施例中电子设备所执行的方法过程。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本申请实施例提供一种提取文档信息的方法、装置、电子设备和可读存储介质,该方法包括,将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框;提取多个局部检测框的位置信息,得到多个局部位置信息;通过双仿射注意力机制对多个局部位置信息和目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果。通过该方法可以达到提高文档提取信息的准确率的效果。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种提取文档信息的方法,其特征在于,包括:
将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框;
提取所述多个局部检测框的位置信息,得到多个局部位置信息;
通过双仿射注意力机制对所述多个局部位置信息和所述目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果。
2.根据权利要求1所述的方法,其特征在于,在所述将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框之前,所述方法还包括:
对所述目标文档的文本字段进行标注,得到多个文本字段检测框;
提取所述多个文本字段检测框的文本特征和所述目标文档的视觉特征,其中,所述文本特征包括文本语义特征和文本位置特征;
通过卷积神经网络对所述文本特征和所述视觉特征进行实体识别,得到所述语义实体识别信息。
3.根据权利要求1或2所述的方法,其特征在于,在所述通过双仿射注意力机制对所述多个局部位置信息和所述目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果之后,所述方法还包括:
通过所述信息抽取结果对基础信息抽取模型进行训练,得到信息抽取模型,其中,所述信息抽取结果包括所述目标文档的语义实体识别信息和语义实体之间的关系;
将待抽取文档输入所述信息抽取模型,得到抽取结果。
4.根据权利要求1或2所述的方法,其特征在于,所述通过双仿射注意力机制对所述多个局部位置信息和所述目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果,包括:
通过预设比例筛选所述多个局部位置信息和所述目标文档的语义实体识别信息,得到信息集合;
对所述信息集合进行语义实体关系的抽取,得到多个语义实体之间的关系。
5.一种提取文档信息的装置,其特征在于,包括:
标注模块,用于将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框;
提取模块,用于提取所述多个局部检测框的位置信息,得到多个局部位置信息;
抽取模块,用于通过双仿射注意力机制对所述多个局部位置信息和所述目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
识别模块,用于所述标注模块在所述将目标文档中具有关联关系的语义实体标注于同一检测框内,得到多个局部检测框之前,对所述目标文档的文本字段进行标注,得到多个文本字段检测框;
提取所述多个文本字段检测框的文本特征和所述目标文档的视觉特征,其中,所述文本特征包括文本语义特征和文本位置特征;
通过卷积神经网络对所述文本特征和所述视觉特征进行实体识别,得到所述语义实体识别信息。
7.根据权利要求5或6所述的装置,其特征在于,所述装置还包括:
训练模块,用于所述抽取模块在所述通过双仿射注意力机制对所述多个局部位置信息和所述目标文档的语义实体识别信息进行信息抽取,得到信息抽取结果之后,通过所述信息抽取结果对基础信息抽取模型进行训练,得到信息抽取模型,其中,所述信息抽取结果包括所述目标文档的语义实体识别信息和语义实体之间的关系;
将待抽取文档输入所述信息抽取模型,得到抽取结果。
8.根据权利要求5或6所述的装置,其特征在于,抽取模块具体用于:
通过预设比例筛选所述多个局部位置信息和所述目标文档的语义实体识别信息,得到信息集合;
对所述信息集合进行语义实体关系的抽取,得到多个语义实体之间的关系。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-4中任一项所述方法中的步骤。
10.一种计算机可读存储介质,其特征在于,包括:
计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310645296.1A CN116611450A (zh) | 2023-06-01 | 2023-06-01 | 一种提取文档信息的方法、装置、设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310645296.1A CN116611450A (zh) | 2023-06-01 | 2023-06-01 | 一种提取文档信息的方法、装置、设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116611450A true CN116611450A (zh) | 2023-08-18 |
Family
ID=87685214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310645296.1A Pending CN116611450A (zh) | 2023-06-01 | 2023-06-01 | 一种提取文档信息的方法、装置、设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116611450A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496542A (zh) * | 2023-12-29 | 2024-02-02 | 恒生电子股份有限公司 | 文档信息提取方法、装置、电子设备和存储介质 |
-
2023
- 2023-06-01 CN CN202310645296.1A patent/CN116611450A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117496542A (zh) * | 2023-12-29 | 2024-02-02 | 恒生电子股份有限公司 | 文档信息提取方法、装置、电子设备和存储介质 |
CN117496542B (zh) * | 2023-12-29 | 2024-03-15 | 恒生电子股份有限公司 | 文档信息提取方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11113518B2 (en) | Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal | |
KR101865102B1 (ko) | 시각 문답을 위한 시스템 및 방법 | |
CN107808011B (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
CA3124358C (en) | Method and system for identifying citations within regulatory content | |
CN112632980B (zh) | 一种基于大数据深度学习的企业分类方法、系统及电子设备 | |
Jobin et al. | Docfigure: A dataset for scientific document figure classification | |
CN110598001A (zh) | 联合实体关系抽取方法、装置及存储介质 | |
CN112131920A (zh) | 用于扫描图像中的表格信息的数据结构生成 | |
Bany Muhammad et al. | Eigen-CAM: Visual explanations for deep convolutional neural networks | |
CN106778878B (zh) | 一种人物关系分类方法及装置 | |
CN112949476B (zh) | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN113762309B (zh) | 对象匹配方法、装置及设备 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN112287100A (zh) | 文本识别方法、拼写纠错方法及语音识别方法 | |
CN116611450A (zh) | 一种提取文档信息的方法、装置、设备和可读存储介质 | |
CN113627190A (zh) | 可视化数据转换方法、装置、计算机设备及存储介质 | |
CN114332893A (zh) | 表格结构识别方法、装置、计算机设备和存储介质 | |
Mohammad et al. | Contour-based character segmentation for printed Arabic text with diacritics | |
CN112597997A (zh) | 感兴趣区域确定方法、图像内容识别方法及装置 | |
CN111488400B (zh) | 数据分类方法、装置和计算机可读存储介质 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN114330323B (zh) | 实体关系联合抽取方法、装置、计算机终端及存储介质 | |
CN113449528B (zh) | 一种地址要素提取方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |