CN117218655A - 图像中的结构化信息提取方法、装置、存储介质及设备 - Google Patents
图像中的结构化信息提取方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN117218655A CN117218655A CN202311238968.3A CN202311238968A CN117218655A CN 117218655 A CN117218655 A CN 117218655A CN 202311238968 A CN202311238968 A CN 202311238968A CN 117218655 A CN117218655 A CN 117218655A
- Authority
- CN
- China
- Prior art keywords
- type
- extraction
- digital image
- structured information
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 201
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000012015 optical character recognition Methods 0.000 claims description 66
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 11
- 230000001788 irregular Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 abstract description 6
- 238000012549 training Methods 0.000 description 14
- 238000002372 labelling Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013075 data extraction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
本申请公开了一种图像中的结构化信息提取方法、装置、存储介质及设备,属于图像处理领域。方法包括:获取待提取的数字图像;对数字图像进行OCR处理,得到OCR识别结果;若需要提取结构化信息,则根据结构化信息对应的类型在数字图像中确定提取区域,结构化信息的类型包括智能标签型、表格型和固定位置数据型;根据预设的提取规则以及OCR识别结果从提取区域中提取数据,将数据和提取规则中对应的文档属性名称组成结构化信息,提取规则是对数字图像中的文字布局进行分析后得到的。本申请通过对数字图像中的文字布局进行分析得到提取规则,再基于结构化信息的类型确定提取区域,利用提取规则从提取区域中提取结构化信息。
Description
技术领域
本申请涉及图像处理领域,特别涉及一种图像中的结构化信息提取方法、装置、存储介质及设备。
背景技术
我们常见的数字图像中含有很多对人们有用的数据。例如,营业执照扫描图像中含有企业名称、法定代表人等信息;学生信息卡扫描图像中含有学生姓名、性别、专业等信息;公文文件扫描图像中含有文号、标题等信息。这些数据通常以(Key,Value)结构存储,下文中将这些数据简称为结构化信息。其中,Value部分还包括二维表格型数据(Grid),例如,人员信息卡中的多行多列的履历信息、档案案卷目录表格等。如果能从图像中提取到的结构化信息,就能够实现对扫描文件进行自动分类整理,帮助构建信息系统的数据库,高效地建立存档档案目录,大幅度优化信息系统办公流程和效率。
相关技术中,我们可以对存档的纸质文件进行数字化(扫描/拍照),得到数字图像;然后,采用OCR(Optical Character Recognition,光学字符识别)技术从数字图像中识别出文字和文字在图像中的位置坐标;最后,由工作人员根据OCR识别结果手动创建结构化信息。
采用OCR技术只能识别出数字图像中的文字和文字位置,无法分析出结构化信息。
发明内容
本申请提供了一种图像中的结构化信息提取方法、装置、存储介质及设备,用于解决相关技术中的无法从数字图像中识别出结构化信息的问题。所述技术方案如下:
根据本申请的第一方面,提供了一种图像中的结构化信息提取方法,所述方法包括:
获取待提取的数字图像;
对所述数字图像进行光学字符识别OCR处理,得到OCR识别结果,所述OCR识别结果包括所述数字图像中的文字以及所述文字在所述数字图像中的位置;
若需要提取结构化信息,则根据所述结构化信息对应的类型在所述数字图像中确定提取区域,所述结构化信息的类型包括智能标签型、表格型和固定位置数据型;
根据预设的提取规则以及所述OCR识别结果从所述提取区域中提取数据,将所述数据和所述提取规则中对应的文档属性名称组成结构化信息,所述提取规则是对数字图像中的文字布局进行分析后得到的。
在一种可能的实现方式中,所述根据所述结构化信息对应的类型在所述数字图像中确定提取区域,包括:
当所述类型是智能标签型或固定位置数据型时,检测所述数字图像是否满足触发器的触发条件,若所述数字图像满足所述触发条件,则获取在所述触发器中设置的矩形区域,将所述矩形区域确定为提取区域;
当所述类型是表格型时,在所述数字图像中检测表格线,根据所述表格线确定表格中的单元格,得到提取区域。
在一种可能的实现方式中,所述根据预设的提取规则以及所述OCR识别结果从所述提取区域中提取数据,包括:
当所述类型是智能标签型且所述提取区域属于非正则匹配型时,根据所述OCR识别结果识别标签文字,在所述提取区域中,根据所述提取规则对所述标签文字所指示的数据进行提取。
在一种可能的实现方式中,所述根据预设的提取规则以及所述OCR识别结果从所述提取区域中提取数据,包括:
当所述类型是智能标签型且所述提取区域属于正则匹配型时,根据所述提取规则获取正则表达式,在所述提取区域中,根据所述OCR识别结果提取与所述正则表达式相匹配的数据。
在一种可能的实现方式中,所述根据预设的提取规则以及所述OCR识别结果从所述提取区域中提取数据,包括:
当所述类型是表格型时,根据所述OCR识别结果检测所述提取区域中是否存在表头;
若所述提取区域中存在表头,则从表头行向下,提取与所述表头有对应关系的各个单元格中的数据;
若所述提取区域中不存在表头,则生成一个虚拟表头,提取与所述虚拟表头有对应关系的各个单元格中的数据。
在一种可能的实现方式中,所述根据预设的提取规则以及所述OCR识别结果从所述提取区域中提取数据,包括:
当所述类型是固定位置数据型时,根据所述提取规则检测所述数字图像是否满足适用条件;
若所述数字图像满足所述适用条件,则根据所述OCR识别结果提取位于所述提取区域内的数据。
在一种可能的实现方式中,所述方法还包括:
对所述数字图像进行预处理,所述预处理包括自动纠偏、拍照背景去除和变形纠正、特定证照的自动分割中的至少一种。
根据本申请的第二方面,提供了一种图像中的结构化信息提取装置,所述装置包括:
获取模块,用于获取待提取的数字图像;
识别模块,用于对所述数字图像进行光学字符识别OCR处理,得到OCR识别结果,所述OCR识别结果包括所述数字图像中的文字以及所述文字在所述数字图像中的位置;
设置模块,用于若需要提取结构化信息,则根据所述结构化信息对应的类型在所述数字图像中确定提取区域,所述结构化信息的类型包括智能标签型、表格型和固定位置数据型;
提取模块,用于根据预设的提取规则以及所述OCR识别结果从所述提取区域中提取数据,将所述数据和所述提取规则中对应的文档属性名称组成结构化信息,所述提取规则是对数字图像中的文字布局进行分析后得到的。
根据本申请的第三方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上所述的图像中的结构化信息提取方法。
根据本申请的第四方面,一种计算机设备,其特征在于,所述计算机设备包括:如上所述的图像中的结构化信息提取装置。
本申请提供的技术方案的有益效果至少包括:
通过对数字图像中的文字布局进行分析得到提取规则,再基于结构化信息的类型确定提取区域,利用提取规则从提取区域中提取结构化信息,无需利用大量样本进行标注和训练神经网络模型,省去了搜集样本、人工标注和训练的过程,能迅速灵活地增加对新的文件/数字图像类型的提取能力。另外,神经网络的训练和推理需要GPU的计算资源支撑,而分析文本布局的算法无需GPU支撑,对硬件的要求要低很多。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的图像中的结构化信息提取方法的流程图;
图2是本申请一个实施例提供的图像中的结构化信息提取方法的流程图;
图3是本申请一个实施例提供的图像中的结构化信息提取装置的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请提供了一种可以让用户根据业务需要,简便地自定义所需提取的结构化信息的方式。具体的,可以对OCR识别结果进行进一步分析,根据用户自定义的设置或者国家标准规范分析页面的结构,得到数字图像中的结构化信息。基于上述算法,我们开发了桌面版和服务器版软件产品,能够以多种可配置的方式输出提取结果,可以作为网络服务支撑业务系统。
本申请中的方法和产品可以应用但不限于:构建如政务服务窗口系统,提取证照、业务表格中的信息;应用于办公自动化系统,提取公文中的信息(标题、文号、发文机关标志、密级、份号等信息);应用于档案信息管理系统,提取档案目录所需的信息,快速生成档案目录。
下面对本申请提供的图像中的结构化信息提取方法的流程进行说明。
如图1所示,其示出了本申请一个实施例提供的图像中的结构化信息提取方法的方法流程图,该图像中的结构化信息提取方法可以应用于安装有上述桌面版或服务器版软件产品的计算机设备中。该图像中的结构化信息提取方法,可以包括:
步骤101,获取待提取的数字图像。
数字图像可以是对纸质文件进行数字化(扫描/拍照)后得到的,且数字图像中包含结构化信息。根据文件类型的不同、所需提取的数据不同,我们将结构化信息划分为三类,分别是智能标签、表格和固定位置数据。其中,智能标签在数字图像中的相对位置不固定,但有特征标签指示或符合特定模式,比如目录。表格是提取数据类型为二维表格型的属性的数据。固定位置数据是数据位置相对固定并且不方便智能标签方式定义的数据。
我们可以为桌面版或服务器版的软件产品设置提取接口,并将提取接口提供给用户。当用户需要对数字图像提取结构化信息时,可以通过提取接口上传至少一张数字图像,计算机设备即可获取到至少一张数字图像。
步骤102,对数字图像进行OCR处理,得到OCR识别结果,OCR识别结果包括数字图像中的文字以及文字在数字图像中的位置。
现有技术中的OCR技术已经非常成熟,本实施例不对利用OCR技术处理数字图像的流程进行赘述。
步骤103,若需要提取结构化信息,则根据结构化信息对应的类型在数字图像中确定提取区域,结构化信息的类型包括智能标签型、表格型和固定位置数据型。
提取区域是数字图像中包含结构化信息的区域。
结构化信息包括智能标签、表格和固定位置数据,我们需要根据结构化信息的具体类型确定对应的提取区域,具体确定方式详见下文中的描述。
步骤104,根据预设的提取规则以及OCR识别结果从提取区域中提取数据,将数据和提取规则中对应的文档属性名称组成结构化信息,提取规则是对数字图像中的文字布局进行分析后得到的。
提取规则是用户对数字图像中的文字布局进行分析得到。针对不同类型的数字图像,我们可以通过设置提取规则来指定要提取的数据和如何提取数据的。用户可以定义多个不同的提取规则。
具体来说,提取规则可以包括若干文档属性定义。文档属性定义是数据库表格中的列的定义。对每个文档属性,用户需要指定文档属性名称、数据类型(文本型、二维表格型)。用户可以增加、删除、修改文档属性的定义。每个文档属性有自己的数值,从数字图像中提取的数据最终被赋予某个文档属性。也就是说,文档属性和数据构成结构化信息。
当我们需要对一种新型文字布局的文件提取结构化信息时,只需要对该文件的文字布局进行分析得到提取规则,即可基于提取规则提取到结构化信息,无需利用大量样本进行标注和训练神经网络模型,省去了搜集样本、人工标注和训练的过程,能迅速灵活地增加对新的文件/数字图像类型的提取能力。
综上所述,本申请实施例提供的图像中的结构化信息提取方法,通过对数字图像中的文字布局进行分析得到提取规则,再基于结构化信息的类型确定提取区域,利用提取规则从提取区域中提取结构化信息,无需利用大量样本进行标注和训练神经网络模型,省去了搜集样本、人工标注和训练的过程,能迅速灵活地增加对新的文件/数字图像类型的提取能力。另外,神经网络的训练和推理需要GPU的计算资源支撑,而分析文本布局的算法无需GPU支撑,对硬件的要求要低很多。
如图2所示,其示出了本申请一个实施例提供的图像中的结构化信息提取方法的流程图,该图像中的结构化信息提取方法可以应用于安装有上述桌面版或服务器版软件产品的计算机设备中。该图像中的结构化信息提取方法,可以包括:
步骤201,获取待提取的数字图像。
数字图像可以是对纸质文件进行数字化(扫描/拍照)后得到的,且数字图像中包含结构化信息。根据文件类型的不同、所需提取的数据不同,我们将结构化信息划分为三类,分别是智能标签、表格和固定位置数据。其中,智能标签在数字图像中的相对位置不固定,但有特征标签指示或符合特定模式,比如目录。表格是提取数据类型为二维表格型的属性的数据。固定位置数据是数据位置相对固定并且不方便智能标签方式定义的数据。
我们可以为桌面版或服务器版的软件产品设置提取接口,并将提取接口提供给用户。当用户需要对数字图像提取结构化信息时,可以通过提取接口上传至少一张数字图像,计算机设备即可获取到至少一张数字图像。对于每张数字图像,可以执行步骤202-205对其提取结构化信息。
步骤202,对数字图像进行预处理,预处理包括自动纠偏、拍照背景去除和变形纠正、特定证照的自动分割中的至少一种。
在提取结构化信息之前,可以向用户提供预处理种类,由用户基于预处理种类来配置所需的预处理步骤,各步骤依配置的次序执行,且下一步预处理以上一步的输出作为输入。常用的预处理包括:
(1)自动纠偏:能够按照数字图像中的文字行的走向,探测出数字图像偏斜的角度,自动对数字图像的偏斜进行纠正。这个图像处理的算法是借鉴比较成熟的纠偏算法。
(2)拍照背景祛除和变形纠正:能够去除数字图像中的背景,并纠正其透视变形。比如,有些证照是放在桌子上拍照的,证照本身在数字图像中的摆放位置不正,而且具有透视变形,为了提取证照的信息,需要将证照从例如桌子背景中分离出来,并纠正其透视变形。
(3)特定证照的自动分割:某些常用证件(如身份证、驾驶证)有1-2页,它们有时候被放在与其背景亮度接近的纸张上复印或拍照,靠上述的非特定证照的拍照背景祛除和变形纠正预处理,难以得到良好效果。基于证照上特征文字推测证照图像边界成为更可靠的一种图像分割方法。我们为某些具有已知规范格式和特征文字的证照开发了这种更可靠的图像分割算法,该算法能够把身份证(正面和反面)、驾驶证(主页和副页)等证照从数字图像中分割出来,如果有两个页面,则把两个页面拼接成一副数字图像。
步骤203,对数字图像进行OCR处理,得到OCR识别结果,OCR识别结果包括数字图像中的文字以及文字在数字图像中的位置。
现有技术中的OCR技术已经非常成熟,本实施例不对利用OCR技术处理数字图像的流程进行赘述。
步骤204,若需要提取结构化信息,则根据结构化信息对应的类型在数字图像中确定提取区域,结构化信息的类型包括智能标签型、表格型和固定位置数据型。
提取区域是数字图像中包含结构化信息的区域。
结构化信息包括智能标签、表格和固定位置数据,我们需要根据结构化信息的具体类型确定对应的提取区域,确定方式如下:
(1)当类型是智能标签型或固定位置数据型时,检测数字图像是否满足触发器的触发条件,若数字图像满足触发条件,则获取在触发器中设置的矩形区域,将矩形区域确定为提取区域。
提取规则可以包括若干触发器。用户选择一个样本图像,用鼠标划定一个矩形区域,并指定设定触发文字。计算机设备记录矩形区域的相对坐标(相对数字图像长和宽的坐标,取值范围0...1)和触发文字,形成触发器。用户可以增加、删除、修改触发器的定义。
当计算机设备发现数字图像中对应矩形区域中包含触发器指定的触发文字的时候,触发器处于触发生效状态,将该区域确定为提取区域。
(2)当类型是表格型时,在数字图像中检测表格的横线和纵线,根据横线和纵线确定表格中的单元格,得到提取区域。
计算机设备可以对数字图像中的表格线(横线和纵线)进行检测,若检测到表格线,则确定提取区域。
步骤205,根据预设的提取规则以及OCR识别结果从提取区域中提取数据,将数据和提取规则中对应的文档属性名称组成结构化信息,提取规则是对数字图像中的文字布局进行分析后得到的。
提取规则是用户对数字图像中的文字布局进行分析得到。针对不同类型的数字图像,我们可以通过设置提取规则来指定要提取的数据和如何提取数据的。用户可以定义多个不同的提取规则。
具体来说,提取规则可以包括若干文档属性定义。文档属性定义是数据库表格中的列的定义。对每个文档属性,用户需要指定文档属性名称、数据类型(文本型、二维表格型)。用户可以增加、删除、修改文档属性的定义。每个文档属性有自己的数值,从数字图像中提取的数据最终被赋予某个文档属性。也就是说,文档属性和数据构成结构化信息。
下面根据结构化信息的类型,对提取流程进行说明。
(1)结构化信息是智能标签
当类型是智能标签型且提取区域属于非正则匹配型时,根据OCR识别结果识别标签文字,在提取区域中,根据提取规则对标签文字所指示的数据进行提取。
在这种情况下,提取规则中还设置有指定标签文字、数据内容位置、跳过次数、对应文档属性名称、标签是否多行、数据内容是否多行、适用页面等信息。用户可以增加、删除、修改智能标签提取区域,或修改其在集合中的顺序。
其中:
标签文字:指示数据的标志文字或包含目标数据的正则表达式。
数据内容位置:可以是“左-右”、“上-下”、“正则匹配”其中之一,其代表要提取的数据与标签文字的位置关系。
跳过次数:是一个非负整数N,表示忽视前面N个符合标签匹配条件的标签。
文档属性名称:如果提取到数据,就赋予这个文档属性。多个提取区域可以对应同一个文档属性。在一次提取过程中,如果发现文档属性在本过程中已经被赋值,则文档属性的值保持不变。
标签是否多行:表示标签文字是否一定在同一文字行上。例如,表格单元格中的文字,可能受限于列的宽度出现换行的情况。如果“是”,搜索匹配标签文字时将考虑在多个文字行上进行。
数据内容是否多行:被提取的数据是否可以换行。
内容过滤条件:从以下列表中选取一个。过滤条件可以在提取数据时实现自动过滤无效文字或纠正错误识别的文字,在格式不规范的情况下得到更好的提取结果。内容过滤条件可以包括但不限于以下内容:无过滤、性别(男,女)、民族(汉,...)、中文是否、x年x月x日:2016年10月8日或二〇一六年十月八日、西式日期:1978-12-1或1978-04"、数值(含小数点,符号)、全数字、字母和数字、中文大写金额、小写金额。
适用页面:当一个图像文件包含多个页面的时候,用来指定提取搜索的范围适用于哪些页面,用户可以指定“首页”、“尾页”、“任何一页”、“满足触发条件的页”其中之一。如果用户选择“满足触发条件的页”,则需要继续指定触发器的名称。
对每个非正则匹配型的提取区域,搜索定位其标签文字的在页面中的位置;如果该页面不是该智能标签的适用页面,则忽略这个智能标签;如果该页面是该智能标签的适用页面,则进行提取。
当类型是智能标签型且提取区域属于正则匹配型时,根据提取规则获取正则表达式,在提取区域中,根据OCR识别结果提取与正则表达式相匹配的数据。
在OCR识别结果中,对每个正则匹配型的提取区域,搜索定位满足正则表达式匹配的文字的位置,匹配的算法将考虑内容是否多行、跳过次数等因素。从匹配结果中取第一个匹配组作为提取到的数据。
(2)结构化信息是表格
当类型是表格型时,根据OCR识别结果检测提取区域中是否存在表头;若提取区域中存在表头,则从表头行向下,提取与表头有对应关系的各个单元格中的数据;若提取区域中不存在表头,则生成一个虚拟表头,提取与虚拟表头有对应关系的各个单元格中的数据。
在这种情况下,提取规则中还设置有表头、文档属性名称和适用页面。其中:
表头:如果表头在表格的最顶部行,则可以省略,计算机设备会自动发现。
文档属性:如果提取到数据,就赋予这个文档属性,但要求这个属性的类型必须是二维表格型。
适用页面:当一个图像文件包含多个页面的时候,用来指定提取搜索的范围适用于哪些页面,用户可以指定“首页”、“尾页”、“任何一页”、“满足触发条件的页”其中之一。如果用户选择“满足触发条件的页”,则需要继续指定触发器的名称。
具体的,可以利用识别出的横线和纵线,分析出每页的表格的单元格,以确定提取区域。然后,对每个提取区域,依照页面的次序检测页面是否适用,如果页面适用,且表格含有表头,则根据前面找到的表头,从表头行向下,获取与表头有对应关系的各单元格中的数据;如果表格的确没有表头(纯数据表),则产生一个虚拟表头,从虚拟表头行向下,获取与虚拟表头有对应关系的各单元格中的数据。
(3)结构化信息是固定位置数据
当类型是固定位置数据型时,根据提取规则检测数字图像是否满足适用条件;若数字图像满足适用条件,则根据OCR识别结果提取位于提取区域内的数据。
在这种情况下,提取规则还可以包括适用条件。对于每个提取区域,检查当前页面是否满足其适用条件,如果满足,则将提取区域定义的矩形相对坐标换算为基于尺寸图像的绝对坐标,获取在这个矩形区域内的文字作为提取到的数据。
本实施例中,还可以设置文档类型提示。文档类型提示是一个字符串,可以指示文档类型,以便于进行更符合文件类型调整布局分析算法,实现对图像类型进行扩展。
综上,用户可以为需要提取的每类数字图像定义一个提取规则,例如为身份证定义一个提取规则,为驾驶证定义一个提取规则等等。通过软件产品提供的用户界面管理多个数据提取规则。在桌面版软件产品中,可以按批次处理一类文件的数据提取,每个批次使用一个提取规则;在服务器版软件产品中,服务调用者通过网络服务接口来调用提取功能,一次调用指定提取规则的标识和一个图像文件(可以含有多个页面图像),提取结果通过JSON格式返回给调用者。
需要说明的是,当我们需要对一种新型文字布局的文件提取结构化信息时,只需要对该文件的文字布局进行分析得到提取规则,即可基于提取规则提取到结构化信息,无需利用大量样本进行标注和训练神经网络模型,省去了搜集样本、人工标注和训练的过程,能迅速灵活地增加对新的文件/数字图像类型的提取能力。
综上所述,本申请实施例提供的图像中的结构化信息提取方法,通过对数字图像中的文字布局进行分析得到提取规则,再基于结构化信息的类型确定提取区域,利用提取规则从提取区域中提取结构化信息,无需利用大量样本进行标注和训练神经网络模型,省去了搜集样本、人工标注和训练的过程,能迅速灵活地增加对新的文件/数字图像类型的提取能力。另外,神经网络的训练和推理需要GPU的计算资源支撑,而分析文本布局的算法无需GPU支撑,对硬件的要求要低很多。
如图3所示,其示出了本申请一个实施例提供的图像中的结构化信息提取装置的结构框图,该图像中的结构化信息提取装置可以应用于安装有上述桌面版或服务器版软件产品的计算机设备中。该图像中的结构化信息提取装置,可以包括:
获取模块310,用于获取待提取的数字图像;
识别模块320,用于对数字图像进行OCR处理,得到OCR识别结果,OCR识别结果包括数字图像中的文字以及文字在数字图像中的位置;
设置模块330,用于若需要提取结构化信息,则根据结构化信息对应的类型在数字图像中确定提取区域,结构化信息的类型包括智能标签型、表格型和固定位置数据型;
提取模块340,用于根据预设的提取规则以及OCR识别结果从提取区域中提取数据,将数据和提取规则中对应的文档属性名称组成结构化信息,提取规则是对数字图像中的文字布局进行分析后得到的。
在一个可选的实施例中,设置模块330,还用于:
当类型是智能标签型或固定位置数据型时,检测数字图像是否满足触发器的触发条件,若数字图像满足触发条件,则获取在触发器中设置的矩形区域,将矩形区域确定为提取区域;
当类型是表格型时,在数字图像中检测表格的横线和纵线,根据横线和纵线确定表格中的单元格,得到提取区域。
在一个可选的实施例中,提取模块340,还用于:
当类型是智能标签型且提取区域属于非正则匹配型时,根据OCR识别结果识别标签文字,在提取区域中,根据提取规则对标签文字所指示的数据进行提取。
在一个可选的实施例中,提取模块340,还用于:
当类型是智能标签型且提取区域属于正则匹配型时,根据提取规则获取正则表达式,在提取区域中,根据OCR识别结果提取与正则表达式相匹配的数据。
在一个可选的实施例中,提取模块340,还用于:
当类型是表格型时,根据OCR识别结果检测提取区域中是否存在表头;
若提取区域中存在表头,则从表头行向下,提取与表头有对应关系的各个单元格中的数据;
若提取区域中不存在表头,则生成一个虚拟表头,提取与虚拟表头有对应关系的各个单元格中的数据。
在一个可选的实施例中,提取模块340,还用于:
当类型是固定位置数据型时,根据提取规则检测数字图像是否满足适用条件;
若数字图像满足适用条件,则根据OCR识别结果提取位于提取区域内的数据。
在一个可选的实施例中,该装置还包括:
预处理模块,用于对数字图像进行预处理,预处理包括自动纠偏、拍照背景去除和变形纠正、特定证照的自动分割中的至少一种。
综上所述,本申请实施例提供的图像中的结构化信息提取装置,通过对数字图像中的文字布局进行分析得到提取规则,再基于结构化信息的类型确定提取区域,利用提取规则从提取区域中提取结构化信息,无需利用大量样本进行标注和训练神经网络模型,省去了搜集样本、人工标注和训练的过程,能迅速灵活地增加对新的文件/数字图像类型的提取能力。另外,神经网络的训练和推理需要GPU的计算资源支撑,而分析文本布局的算法无需GPU支撑,对硬件的要求要低很多。
本申请一个实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上所述的图像中的结构化信息提取方法。
本申请一个实施例提供了一种计算机设备,所述计算机设备包括上述任意图像中的结构化信息提取装置。
需要说明的是:上述实施例提供的图像中的结构化信息提取装置在进行图像中的结构化信息提取时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将图像中的结构化信息提取装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像中的结构化信息提取装置与图像中的结构化信息提取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请实施例的保护范围之内。
Claims (10)
1.一种图像中的结构化信息提取方法,其特征在于,所述方法包括:
获取待提取的数字图像;
对所述数字图像进行光学字符识别OCR处理,得到OCR识别结果,所述OCR识别结果包括所述数字图像中的文字以及所述文字在所述数字图像中的位置;
若需要提取结构化信息,则根据所述结构化信息对应的类型在所述数字图像中确定提取区域,所述结构化信息的类型包括智能标签型、表格型和固定位置数据型;
根据预设的提取规则以及所述OCR识别结果从所述提取区域中提取数据,将所述数据和所述提取规则中对应的文档属性名称组成结构化信息,所述提取规则是对数字图像中的文字布局进行分析后得到的。
2.根据权利要求1所述的图像中的结构化信息提取方法,其特征在于,所述根据所述结构化信息对应的类型在所述数字图像中确定提取区域,包括:
当所述类型是智能标签型或固定位置数据型时,检测所述数字图像是否满足触发器的触发条件,若所述数字图像满足所述触发条件,则获取在所述触发器中设置的矩形区域,将所述矩形区域确定为提取区域;
当所述类型是表格型时,在所述数字图像中检测表格线,根据所述表格线确定表格中的单元格,得到提取区域。
3.根据权利要求1所述的图像中的结构化信息提取方法,其特征在于,所述根据预设的提取规则以及所述OCR识别结果从所述提取区域中提取数据,包括:
当所述类型是智能标签型且所述提取区域属于非正则匹配型时,根据所述OCR识别结果识别标签文字,在所述提取区域中,根据所述提取规则对所述标签文字所指示的数据进行提取。
4.根据权利要求3所述的图像中的结构化信息提取方法,其特征在于,所述根据预设的提取规则以及所述OCR识别结果从所述提取区域中提取数据,包括:
当所述类型是智能标签型且所述提取区域属于正则匹配型时,根据所述提取规则获取正则表达式,在所述提取区域中,根据所述OCR识别结果提取与所述正则表达式相匹配的数据。
5.根据权利要求1所述的图像中的结构化信息提取方法,其特征在于,所述根据预设的提取规则以及所述OCR识别结果从所述提取区域中提取数据,包括:
当所述类型是表格型时,根据所述OCR识别结果检测所述提取区域中是否存在表头;
若所述提取区域中存在表头,则从表头行向下,提取与所述表头有对应关系的各个单元格中的数据;
若所述提取区域中不存在表头,则生成一个虚拟表头,提取与所述虚拟表头有对应关系的各个单元格中的数据。
6.根据权利要求1所述的图像中的结构化信息提取方法,其特征在于,所述根据预设的提取规则以及所述OCR识别结果从所述提取区域中提取数据,包括:
当所述类型是固定位置数据型时,根据所述提取规则检测所述数字图像是否满足适用条件;
若所述数字图像满足所述适用条件,则根据所述OCR识别结果提取位于所述提取区域内的数据。
7.根据权利要求1至6任一所述的图像中的结构化信息提取方法,其特征在于,所述方法还包括:
对所述数字图像进行预处理,所述预处理包括自动纠偏、拍照背景去除和变形纠正、特定证照的自动分割中的至少一种。
8.一种图像中的结构化信息提取装置,其特征在于,所述装置包括:
获取模块,用于获取待提取的数字图像;
识别模块,用于对所述数字图像进行光学字符识别OCR处理,得到OCR识别结果,所述OCR识别结果包括所述数字图像中的文字以及所述文字在所述数字图像中的位置;
设置模块,用于若需要提取结构化信息,则根据所述结构化信息对应的类型在所述数字图像中确定提取区域,所述结构化信息的类型包括智能标签型、表格型和固定位置数据型;
提取模块,用于根据预设的提取规则以及所述OCR识别结果从所述提取区域中提取数据,将所述数据和所述提取规则中对应的文档属性名称组成结构化信息,所述提取规则是对数字图像中的文字布局进行分析后得到的。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至8任一所述的图像中的结构化信息提取方法。
10.一种计算机设备,其特征在于,所述计算机设备包括:权利要求8所述的图像中的结构化信息提取装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311238968.3A CN117218655A (zh) | 2023-09-22 | 2023-09-22 | 图像中的结构化信息提取方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311238968.3A CN117218655A (zh) | 2023-09-22 | 2023-09-22 | 图像中的结构化信息提取方法、装置、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117218655A true CN117218655A (zh) | 2023-12-12 |
Family
ID=89040410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311238968.3A Pending CN117218655A (zh) | 2023-09-22 | 2023-09-22 | 图像中的结构化信息提取方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117218655A (zh) |
-
2023
- 2023-09-22 CN CN202311238968.3A patent/CN117218655A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11868717B2 (en) | Multi-page document recognition in document capture | |
CN110363102B (zh) | 一种pdf文件的对象识别处理方法及装置 | |
Kleber et al. | Cvl-database: An off-line database for writer retrieval, writer identification and word spotting | |
US6243501B1 (en) | Adaptive recognition of documents using layout attributes | |
US10679089B2 (en) | Systems and methods for optical character recognition | |
US20160055376A1 (en) | Method and system for identification and extraction of data from structured documents | |
US8520941B2 (en) | Method and system for document image classification | |
KR101769918B1 (ko) | 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치 | |
WO2007117334A2 (en) | Document analysis system for integration of paper records into a searchable electronic database | |
CN107689070B (zh) | 图表数据结构化提取方法、电子设备及计算机可读存储介质 | |
JP2002279433A (ja) | 映像中の文字検索方法及び装置 | |
CN110807454B (zh) | 基于图像分割的文字定位方法、装置、设备及存储介质 | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
CN104915664B (zh) | 联系对象标识获取方法和装置 | |
CN113901933A (zh) | 基于人工智能的电子发票信息抽取方法、装置及设备 | |
CN115828874A (zh) | 基于图像识别技术的行业表格数字化处理方法 | |
US10740638B1 (en) | Data element profiles and overrides for dynamic optical character recognition based data extraction | |
CN114529933A (zh) | 一种合同数据差异性的比对方法、装置、设备和介质 | |
JP6314071B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
KR20180126352A (ko) | 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치 | |
CN117218655A (zh) | 图像中的结构化信息提取方法、装置、存储介质及设备 | |
CN113806472B (zh) | 一种对文字图片和图像型扫描件实现全文检索的方法及设备 | |
Dulla | A dataset of warped historical arabic documents | |
CN113868411A (zh) | 合同比对方法、装置、存储介质及计算机设备 | |
CN113657373A (zh) | 一种文书自动编目方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |