CN115147857A - 基于语义分析的对称表格文字数据结构化提取的方法及系统 - Google Patents

基于语义分析的对称表格文字数据结构化提取的方法及系统 Download PDF

Info

Publication number
CN115147857A
CN115147857A CN202110344967.1A CN202110344967A CN115147857A CN 115147857 A CN115147857 A CN 115147857A CN 202110344967 A CN202110344967 A CN 202110344967A CN 115147857 A CN115147857 A CN 115147857A
Authority
CN
China
Prior art keywords
image
data
semantic
page
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110344967.1A
Other languages
English (en)
Inventor
邓曦曦
吴小闯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jujun Technology Co ltd
Original Assignee
Shanghai Jujun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jujun Technology Co ltd filed Critical Shanghai Jujun Technology Co ltd
Priority to CN202110344967.1A priority Critical patent/CN115147857A/zh
Publication of CN115147857A publication Critical patent/CN115147857A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Input (AREA)

Abstract

一种基于语义分析的对称表格文字数据结构化提取的方法,它包括:对待处理图像数据进行预处理;若当前待处理图像的长宽比超过预设值,则判定所述待处理图像为长表格图像,先进行页切割处理成页图像帧信息;从每一页图像帧或待处理图像数据中识别出表格的每单元格区域,据此将图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,图像切片在所述矩阵序列中的次序编号信息映射出表格单元格在所述页图像帧中的位置关系;基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重;提取表格文字的文本识别信息后,进行结构化数据输出。本发明成本低且更大比例提高文本识别数据提取的正确率。

Description

基于语义分析的对称表格文字数据结构化提取的方法及系统
技术领域
本发明涉及表格识别领域,尤其基于语义分析的对称表格文字数据结构化提取的方法及系统。
背景技术
在产业数字化、金融数字化等场景,有大量重复率高的对称表格文字的扫描件货影像件,需要进行数据结构化提取。无论通过人工输入计算机电子表格的方式,还是传统基于模式匹配的光学识别字符(Optical Character Recognition,OCR)技术自动提取,不但效率低下,准确度也不满足业务进行数字化的需求,还需要投入大量的复核确认工作。
随着计算机技术的发展及近几年深度神经网络等机器学习技术的发展应用,文本识别技术也发展到更多的依靠场景文字识别(Scene Text Recognition,STR)等技术,表格文字的字符识别数据结构化提取效率也大大提高。但实际产业场景,因采集手段、现场条件限制,影像件或扫描件的分辨率及清晰度有限,目前行业应用的文本识别及提取技术,大多数情况下识别率还是无法满足实际的产业数字化升级需求,经常还是需要大量的人工录入及复核确认等工作。
中国农业银行股份有限公司在CN202011175185.1中公开了一种报表处理方法及系统,根据报表选择指令,从多个预设的已配置报表中确定待查报表;利用查询条件和待查报表中每个表格的指标信息,构建查询语句;在数据库中执行查询语句得到目标数据;根据待查报表中每个表格的指标信息,将目标数据对应填写到待查报表中的每个表格,得到最终的结果报表;利用用户提交的查询请求或下载请求,将结果报表反馈给用户。在本方案中,确定待查报表后,利用查询条件和待查报表的指标信息构建查询语句,在数据库中执行查询语句得到目标数据。将目标数据对应填写到待查报表的表格中得到最终的结果报表,将结果报表反馈给用户,不需要业务人员和技术人员频繁沟通才能制作报表,降低制作成本和提高制作效率。在该过程只要如何对查询表格降低人员参加的一种方式。
上海三稻智能科技有限公司在202011399708.0中公开了动态解析文本图像特征现象的元素自动捕获理解方法,包括:输入待处理的文件,包括图片类以及非图片类,并将非图片类转换为图片格式,与图片类文件统一存储;解析待处理文件类型及格式;修正待处理文件的图像成像问题;检测待处理文件中文本的所在位置、范围及布局;在文字检测的基础上对文本内容进行识别;从文本识别结果中抽取需要的字段和/或要素;输出最终文字识别结果或文本抽取处理结果。本申请提供的动态解析文本图像特征现象的元素自动捕获理解方法希望实现能够识别出票据的字段的功效。上述技术方案公开了修正待处理文件的图像成像问题进一步包括:通过对图像进行几何变换(包括透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正以及二值化处理,修成图像问题,便于后续文本的检测及文字的识别。在一些实施方式中,将待处理文件的图像输入预先训练的图像校正网络中进行几何变化及畸变校正包括:利用所述图像校正网络中的定位网络回归所述第一目标图像对应的空间变换的网络参数;利用所述图像校正网络中的网格生成器以及所述网络参数,计算所述校正后的第一目标图像中的像素点在所述第一目标图像中的位置;利用所述图像校正网络中的采样器以及计算出的位置,输出所述校正后的第一目标图像。在一些实施方式中,所述文字检测包括:将二值化图像输入预先训练的特征提取网络中;提取所述特征提取网络中至少两个卷积层的输出信息,并对所述输出信息进行融合;将融合后的信息输入所述特征提取网络中的全连接层,输出对应于所述二值化图像文本区域的k个anchor的2k个竖直方向坐标及坐标得分、k个边界回归结果,以实现文本定位,并得到矩形文本框。并且,在该方案中,设置基于预先设置的语义数据库生成基础语义分析引擎,所述语义数据库中包括领域基础语料库、领域词典及领域知识图谱;基于基础语义分析引擎对文本内容信息进行字段分析处理;基于抽取需求提取数据集合抽取文本内容中需要的字段和/或要素。
上述方案主要是针对图像特征现象的元素,即图像出来的票据或表格进行识别字段,同样也存在识别准确性偏差时,人工需要大量复核的工作,而且开发基础语义分析引擎导致整个开发的成本非常高且开发周期长。
INTERNATIONAL BUSINESS MACHINES CORPORATION(国际商业机器公司)在US16564136公开了一种方案,“Embodiments for semantic analysis of table contentare provided.A document that includes a table portion and a non-table portionis received.A table result within the table portion of the document isidentified.Contextual content associated with the table result is extractedfrom the non-table portion of the document.A data structure is generated forthe table result.The data structure includes the table result and thecontextual content associated with the table result.(提供了用于表内容的语义分析的实施例。接收包括表格部分和非表格部分的文档。识别文档的表部分内的表结果。从文档的非表部分提取与表结果相关联的上下文内容。为表结果生成数据结构。所述数据结构包括所述表结果和与所述表结果相关联的上下文内容。)”。在该专利中公开了一种从所提取的文本和所提取的表中提取结果(即,特定表单元内的结果)的上下文内容(或与结果相关联)。特别地,上下文内容可以包括来自文档的非表格部分的文本,符号,方程式等。例如,用于特定结果的上下文内容可以包括相应表格的标题和字幕(即,以及来自文档的其它文本,例如来自主体的被确定为与结果(和/或相应表)相关联的摘要和摘录。例如,如果相应的表在文档中被列为(或标题为)“表1”,则系统可以通过识别诸如“表1中所示的短语”来识别与该表相关联的来自主体的摘录。.
使用的语义角色可以从包括在域语义方案内的(预定的)语义角色(例如,语义角色1,语义角色2,…,语义角色n)的列表中选择确定(或识别)自变量。自变量(和/或所分配的语义角色)被“链接”到知识库中的相应条目(和/或生成每个自变量与知识库中相应条目之间的关联)。例如,知识库可以是包括与文档的主题区域相关的条目的在线数据库或网站自变量的链接可以包括在自变量和网站的特定部分(例如,网站上的条目或包括与自变量的概念相关的信息的特定页面或URL)之间生成“超链接”。例如,在一些实施例中,如通常所理解的,使用NLP实体链接。语义角色被分配(或确定)给每个自变量。在所示的例子中,语义角色“任务”已经被分配给自变量“文本摘要”,“语义角色”方法“已经被分配给自变量”LR+GP+XYZ“,”语义角色“数据集”已经被分配给自变量“123测试集”,并且语义角色“评估度量”已经被分配给自变量“alpha1”。
在该专利中公开一种基于云平台构建的语义解析系统,将语义角色分配至各个自变量,又将各自变量到网站自变量链接形成的在线库中去解析,而且对该些自变量的解析通过神经网络算法进行训练,该体系非常巨大且复杂,开发成本高且时间长,投入太大,具有平台化的开发不适合做一单独表格类的解析。
但实际产业场景,因采集手段、现场条件限制,影像件或扫描件的分辨率及清晰度有限,目前行业应用的文本识别及提取技术,大多数情况下识别率还是无法满足实际的产业数字化升级需求,经常还是需要大量的人工录入及复核确认等工作。如何又能考虑成本投入,又能考虑提取效率,是本行业的难题,简单地说,如何使表格文字的字符识别数据结构化提取效率高且成本投入小是本行业需要解决的问题。
发明内容
本发明提供一种基于语义分析的对称表格文字数据结构化提取的方法及系统,以解决同种类型提取效率低且成本投入大的问题。
一种基于语义分析的对称表格文字数据结构化提取的方法,包括以下步骤:
对待处理图像数据进行预处理;
若当前待处理图像的长宽比超过预设值,则判定所述待处理图像为长表格图像,先进行页切割处理成页图像帧信息;
从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域,据此将所述图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,所述图像切片在所述矩阵序列中的次序编号信息映射出所述表格单元格在所述页图像帧中的位置关系;
基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重;
提取表格文字的文本识别信息后,进行结构化数据输出。
“根据全表的标表头及表格的语义距离,动态调整候选字符的权重”进一步包括以下步骤:
通过计算整列识别字符的语义距离,可判断出第一行的图像切片,若是表头,则基于其整列文字的语义距离,及该图像切片的候选字符或字符串,智能调整候选字符或字符串的匹配权重,从而确定该表头列的各图像切片的识别字符;
表头的识别字符或字符串确定后,基于表格的对称性,可将相应列的所有单元格图像切片,关联相应的字段属性;
基于表头图像切片识别的字符的语义、该单元格图像切片的字段属性、表格图像采集场景常用语资源库在内的信息,按语义距离重新调整该列对应图像切片的候选字符或字符串的权重,并确定权重最高者为匹配识别字符或字符串。
语义距离计算进一步包括:
建立一个具有层次结构关系的语义词典,依据概念之间的上下位关系或同义关系进行计算;通过计算语义结构树中两词语之间的距离来计算词语的相似度;
通过计算词语在语义结构树中由上下位关系所构成的最短路径来计算词语的相似度或通过根据两词语在词典中的公共祖先结点所具有的最大信息量来计算词语的相关度。
本调整权重还包括:基于场景常用语资源库及互联网动态搜索结果距离在内的信息,优化当列各单元格的图像切片候选字符权重。
“若当前待处理图像的长宽比超过预设值”进一步包括:判断是否图像的长宽比超过4∶1,如果超过,就按超长表格进行页切割,若是超长表格,采用基于深度神经网络的区域识别模型,识别出图像中的表格每单元格区域及行分割线、列分割线,通过列宽乘以2倍,得到页长,识别像素级别最近的一行为表头。
从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域进一步包括是采用基于深度神经网络的区域识别模型,识别出图像中的表格每单元格区域及行分割线、列分割线在内的信息。
本发明还包括:将识别提取出的文本信息,通过JSON、XML在内的格式,进行结构化数据输出。
一种基于语义分析的对称表格文字数据结构化提取系统,包括:
采集装置:用于对待处理表格图像数据进行图像采集;
处理器,其进一步包括:
页切割处理处理模块:用于若当前待处理图像的长宽比超过预设值,则判定所述待处理图像为长表格图像,先进行页切割处理成页图像帧信息;
图像切片处理模块:用于从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域,据此将所述图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,所述图像切片在所述矩阵序列中的次序编号信息映射出所述表格单元格在所述页图像帧中的位置关系;
字符权重调整模块:用于基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重;
结构化数据输出模块,用于提取表格文字的文本识别信息后,进行结构化数据输出。
与现有技术相比,同时在对产业数字化时,经常需要对大量同种类型的表格进行批量化的扫描及文本识别结构化数据提取。充分利用对称表格文字的隐含语义以及场景内常用资源库,通过技术手段自动提高文本识别的识别率。针对超长表格图片,本发明通过智能识别表格线,自动按表格线进行图片截取,并充分利用对称表格文字的隐含语义,列文字跨图片共享特征值,实现提高文本识别的识别率,这种处理不仅效率高且成本也很低,不需要建立巨大的云处理系统来处理表格结构化数据提取的问题。
附图说明
图1为一种基于语义分析的对称表格文字数据结构化提取的方法的流程图;
图2为其为表格图像去噪处理的一种处理流程图;
图3为二值化流程图;
图4为种基于语义分析的对称表格文字数据结构化提取的方法示例图;
图5为一种表格实例;
图6为一种基于语义分析的对称表格文字数据结构化提取装置的原理图。
具体实施方式
以下结合附图,具体说明本发明。
请参阅图1,其为一种基于语义分析的对称表格文字数据结构化提取的方法的流程图。它包括以下步骤:
S110:对待处理图像数据进行预处理;
S120:若当前待处理图像的长宽比超过预设值,则判定所述待处理图像为长表格图像,先进行页切割处理成页图像帧信息;
S130:从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域,据此将所述图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,所述图像切片在所述矩阵序列中的次序编号信息映射出所述表格单元格在所述页图像帧中的位置关系;
S140:基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重;
S150:提取表格文字的文本识别信息后,进行结构化数据输出。
本发明充分利用表格中文字的语义,进行全表格文字语义分析,针对性优化字符识别数据结构化提取准确度,无需单独训练识别模板,即可极大提高识别率。
具体说明本发明。
一、具体说明步骤S110:对待处理图像数据进行预处理。
首先对待字符识别数据结构化提取的表格图像(照片或扫描件等),进行预处理,包括但不限于图像去噪、二值化以及倾斜较正等处理,以降低后续字符识别数据结构化提取算法处理的算法复杂度,减少算力投入,提高表格文字的识别准确率。
由于表格文字图像的来源多种多样,可能采用相机拍摄、扫描仪扫描、也有可能是手机拍摄或高拍仪扫描,造成待字符识别数据结构化提取的表格图像中可能包含大量噪声信息。因而,为提高表格文字的识别正确率,在正式识别表格文字之前,需要采用去噪算法对待字符识别数据结构化提取的表格文字图像进行去噪处理。
请参阅图2,其为表格图像去噪处理的一种处理流程图。它包括:判断一个像素点是不是噪点,是通过对比它周围的像素点(S11),取得最大粘接连噪声点个数M(步骤S12),以这个点为中心的九宫格,即该像素点周围的8个像素点(S13),计算这8个像素点中不是背景点的个数,如果大于给定的界定值(该值因为和图片噪点数目、噪点粘连都有关系,需要根据处理结果不同场景的表格图像特征,对比找到效果好的值),则说明目标点是字符内某个像素点的几率大些,故该点不能作为噪点处理,否则作为噪点处理掉。即N>M(步骤S14),则保留像素点(S151),否则按噪点处理(S152).完成内存中解锁图片(步骤S16)。
若待识别表格文字图像是彩色图像,其中包含的信息量纷繁复杂,会影响后续算法的计算效率。首先确认色偏,若图像存在不同程度的色偏,将先进行图片的二值化。获阳表格图像,加载到内存,指针操作每个像素点(S21),图像二值化是将彩色图像分为前景(文字或表格线)与背景,并将前景(文字或表格线)和背景信息分别定义为黑色和白色,每个像素点进行处理(S22),如果该点的R值不是255,那么就将该点的RGB值都改成0(纯黑色)(S23),这样整个过程下来,在内存中解锁图片(S24).这正图片就变成真正意义上的黑白图片了,也就得到了待识别表格文字图像对应的二值化图像。通过图像二值化,可提高后续表格文字图像的字符识别数据结构化提取的效率。具体流程见二值化流程图(如图3所示)。
倾斜较正主要是对图像进行基本的裁剪,旋转。基于边界识别、表格线识别等裁剪掉表格外的部分,并进行旋转,以便表格文字图像正向,减低后续字符识别数据结构化提取时的角度矫正算法的复杂度,并提高后续算法中基于排序及位置等的算法计算效率。此处使用计算机图像处理领域的普通技术人员熟知的角度矫正算法、图像裁剪技术即可,不再赘述。
上述公开仅是本发明一种预处理的实例。预处理图像可以进一步包括:通过对图像进行几何变换(包括透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正以及二值化处理,修成图像问题,便于后续文本的检测及文字的识别。上海三稻智能科技有限公司在202011399708.0中公开了《动态解析文本图像特征现象的元素自动捕获理解方法》中同样公开了一种预处理图像方案,同样也适用于本发明。
所有的预处理图像仅有一个目的,后续有利于对其进行表格字符或字符串的识别。
二、具体说明步骤S120:若当前待处理图像的长宽比超过预设值,则判定所述待处理图像为长表格图像,先进行页切割处理成页图像帧信息。
“若当前待处理图像的长宽比超过预设值”进一步包括:判断是否图像的长宽比超过4∶1(仅是举例,并非限定本发明),如果超过,就按超长表格进行页切割,若是超长表格,采用基于深度神经网络的区域识别模型,识别出图像中的表格每单元格区域及行分割线、列分割线,通过列宽乘以2倍,得到页长,识别像素级别最近的一行为表头。
待处理图像的表格的分割线、行分割线、列分割线等做标注后,大量的标注及图像数据组成数据集,输入一深度神经网络算法去训练可得深度神经网络区域识别模型,后续只输入把待处理图像输入,即可识别出图像中的表格每单元格区域及行分割线、列分割线等信息。
本步骤只是把待处理图像的长宽比超过预设值进行分割成页图像帧信息。
三、具体说明步骤S130
从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域。上述步骤S120中说明从所述每一页图像帧中识别出图像中的表格每单元格区域及行分割线、列分割线等信息。同理,待处理图像数据若其长宽比没有超过预设值,则输入训练可得深度神经网络区域识别模型中,即可输出表格每单元格区域及行分割线、列分割线等信息。
根据每单元格区域及行分割线、列分割线等信息,可以获得识别出表格的每单元格区域。
将所述图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,图像切片在所述矩阵序列中的次序编号信息映射出所述表格单元格在所述页图像帧中的位置关系。
比如,某一长表格分割成两个页图像帧[01][02],每一页图像帧都有五十个单元格,则该些单元格分别保存在矩阵序列。如编号为[01][05]…[01][45]…[02][50],[01][05]存储的图像切片表明的是第一页图像帧的第5行表单元格。
四、具体说明S140:基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重。
“根据全表的标表头及表格的语义距离,动态调整候选字符的权重”进一步包括以下步骤:
通过计算整列识别字符的语义距离,可判断出第一行的图像切片,若是表头,则基于其整列文字的语义距离,及该图像切片的候选字符或字符串,智能调整候选字符或字符串的匹配权重,从而确定该表头列的各图像切片的识别字符;
表头的识别字符或字符串确定后,基于表格的对称性,可将相应列的所有单元格图像切片,关联相应的字段属性;
基于表头图像切片识别的字符的语义、该单元格图像切片的字段属性、表格图像采集场景常用语资源库在内的信息,按语义距离重新调整该列对应图像切片的候选字符或字符串的权重,并确定权重最高者为匹配识别字符或字符串。
语义距离计算进一步包括:
建立一个具有层次结构关系的语义词典,依据概念之间的上下位关系或同义关系进行计算;通过计算语义结构树中两词语之间的距离来计算词语的相似度;
通过计算词语在语义结构树中由上下位关系所构成的最短路径来计算词语的相似度或通过根据两词语在词典中的公共祖先结点所具有的最大信息量来计算词语的相关度。
另外,基于场景常用语资源库及互联网动态搜索结果距离在内的信息,优化当列各单元格的图像切片候选字符权重。
五、步骤S150:将识别提取出的文本信息,通过JSON、XML在内的格式,进行结构化数据输出。
一个实施例
请参阅图4,其为一种实施例。具体包括以下步骤:
S01:去噪、二值化、倾斜较正等待识别表格图像预处理;
S02:判断长宽比超过4∶1?如果是,则2倍列宽为页长,切割成多页(步骤S03)后进行步骤S04;如果否,则直接进行步骤S04;
S04:全表格识别单元格,将图像裁剪成多个图像切片;
S05:对每个图像切片识别出该单元格的候选字符;
S06:判断存在标题行?如果是,进行步骤S0711,如果否,进行步骤S0721;
S0711:长表格首页时,基于当列语义确定标题行(步骤S0711),并且,全表根据标题行语义及距离,优化当列各图像切片候选字符权重(步骤S0712);
步骤S0721:基于场景常用语资源库及互联网动态搜索结果距离等,优化当列各单元格的图像切片候选字符权重;
S08:提取出的表格文字的文本识别信息进行结构化数据输出。
使用行业内通用的光学字符识别(Optical Character Recognition,OCR)及场景文字识别(Scene Text Recognition,STR)技术,检测每个图像切片的文字,按照字符或字符串进行分割,每一个字符或字符串在识别后,可能对应多个不同的候选的字符或字符串。每个候选的字符具有不同的权重,一般行业内会选择权重最高的字符作为最终识别输出的字符。
语义距离是基于语义理解的文本相似度计算而来。基于语义理解的计算语义距离,首先需要一个具有层次结构关系的语义词典,依据概念之间的上下位关系或同义关系进行计算。通过计算语义结构树中两词语之间的距离来计算词语的相似度。WordNet、HowNet、同义词词林等具有层次结构关系的语义词典都可以使用。通过计算词语在WordNet中由上下位关系所构成的最短路径来计算词语的相似度,也可以通过根据两词语在词典中的公共祖先结点所具有的最大信息量来计算词语的相关度,具体效果会据表格文字的内容,也即采集场景而有所差异。
通过计算整列识别字符的语义距离,可判断出第一行的图像切片,是否是表头(标题行)。若是表头,则基于其整列文字的语义距离,及该图像切片的候选字符(或字符串),智能调整候选字符(或字符串)的匹配权重,从而确定该表头列的各图像切片的识别字符。表头的识别字符(或字符串)确定后,因为表格的对称性,即可将相应列的所有单元格图像切片,关联相应的字段属性。基于表头图像切片识别的字符的语义、该单元格图像切片的字段属性、表格图像采集场景常用语资源库及互联网动态搜索结果等,按语义距离重新调整该列对应图像切片的候选字符(或字符串)的权重。由此即可确定权重最高者为匹配识别字符(或字符串)。
如果不存在表头(标题行),则基于场景常用语资源库及互联网动态搜索结果等,依次计算每列对应的各单元格的图像切片的候选字符(或字符串)的语义距离,调整候选字符的权重,最后匹配权重最高者为识别字符(或字符串)
请参阅图5,有下示例图的表格文字图像。采用业内现有的OCR或STR技术进行字符识别数据结构化提取时,第四行的第一列,因为在预设的常用中文字库里,“部”字的权重远高于“邹”字,很有可能将该单元格的字符识别为“部城市人民医院”,而通过引入本发明的基于跨行语义分析优化算法后,将基于第一列的表格文字隐含语义,以及互联网搜索时的搜索结果距离(语义相似度),动态调高了“邹”字的权重,从而正确识别出“邹城市人民医院”。如果该表格有表头(标题行),第一列将智能按医院名称进行处理,因“部城市人民医院”的互联网搜索结果数远低于同列的其他单元格,而“邹城市人民医院”互联网搜索结果数与同列的其他单元格距离较近,自动提高“邹城市人民医院”候选字符串的权重,从而更大比例提高文本识别数据提取的正确率。
请参阅图6,其为一种基于语义分析的对称表格文字数据结构化提取系统,它包括:
采集装置11:用于对待处理表格图像数据进行图像采集;
处理器12,其进一步包括:
页切割处理处理模块121:用于若当前待处理图像的长宽比超过预设值,则判定所述待处理图像为长表格图像,先进行页切割处理成页图像帧信息;
图像切片处理模块122:用于从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域,据此将所述图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,所述图像切片在所述矩阵序列中的次序编号信息映射出所述表格单元格在所述页图像帧中的位置关系;
字符权重调整模块123:用于基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重;
结构化数据输出模块125,用于提取表格文字的文本识别信息后,进行结构化数据输出。
一种处理器,用于执行上述所述的任一计算机程序。
一种计算机可读存储介质,计算机可读存储介质存储有计算机代码,当计算机代码被执行时,如上述任何一种方法被执行。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机代码,当计算机代码被执行时,如上述方法被执行。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。如本说明书实施例所示实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子系统执行时,使得所述电子系统执行实施例一所述的方法。在此不再赘述。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

Claims (10)

1.一种基于语义分析的对称表格文字数据结构化提取的方法,其特征在于,包括以下步骤:
对待处理图像数据进行预处理;
若当前待处理图像的长宽比超过预设值,则判定所述待处理图像为长表格图像,先进行页切割处理成页图像帧信息;
从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域,据此将所述图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,所述图像切片在所述矩阵序列中的次序编号信息映射出所述表格单元格在所述页图像帧中的位置关系;
基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重;
提取表格文字的文本识别信息后,进行结构化数据输出。
2.如权利要求1所述的基于语义分析的对称表格文字数据结构化提取的方法,其特征在于,“根据全表的标表头及表格的语义距离,动态调整候选字符的权重”进一步包括以下步骤:
通过计算整列识别字符的语义距离,可判断出第一行的图像切片,若是表头,则基于其整列文字的语义距离,及该图像切片的候选字符或字符串,智能调整候选字符或字符串的匹配权重,从而确定该表头列的各图像切片的识别字符;
表头的识别字符或字符串确定后,基于表格的对称性,可将相应列的所有单元格图像切片,关联相应的字段属性;
基于表头图像切片识别的字符的语义、该单元格图像切片的字段属性、表格图像采集场景常用语资源库在内的信息,按语义距离重新调整该列对应图像切片的候选字符或字符串的权重,并确定权重最高者为匹配识别字符或字符串。
3.如权利要求2所述的基于语义分析的对称表格文字数据结构化提取的方法,其特征在于,语义距离计算进一步包括:
建立一个具有层次结构关系的语义词典,依据概念之间的上下位关系或同义关系进行计算;通过计算语义结构树中两词语之间的距离来计算词语的相似度;
通过计算词语在语义结构树中由上下位关系所构成的最短路径来计算词语的相似度或通过根据两词语在词典中的公共祖先结点所具有的最大信息量来计算词语的相关度。
4.如权利要求3所述的基于语义分析的对称表格文字数据结构化提取的方法,其特征在于,还包括:
基于场景常用语资源库及互联网动态搜索结果距离在内的信息,优化当列各单元格的图像切片候选字符权重。
5.如权利要求1所述的基于语义分析的对称表格文字数据结构化提取的方法,“若当前待处理图像的长宽比超过预设值”进一步包括:判断是否图像的长宽比超过4∶1,如果超过,就按超长表格进行页切割,若是超长表格,采用基于深度神经网络的区域识别模型,识别出图像中的表格每单元格区域及行分割线、列分割线,通过列宽乘以2倍,得到页长,识别像素级别最近的一行为表头。
6.如权利要求1所述的基于语义分析的对称表格文字数据结构化提取的方法,其特征在于,从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域进一步包括是采用基于深度神经网络的区域识别模型,识别出图像中的表格每单元格区域及行分割线、列分割线在内的信息。
7.如权利要求1所述的基于语义分析的对称表格文字数据结构化提取的方法,其特征在于,还包括:将识别提取出的文本信息,通过JSON、XML在内的格式,进行结构化数据输出。
8.一种基于语义分析的对称表格文字数据结构化提取系统,其特征在于:包括:
采集装置:用于对待处理表格图像数据进行图像采集;
处理器,其进一步包括:
页切割处理处理模块:用于若当前待处理图像的长宽比超过预设值,则判定所述待处理图像为长表格图像,先进行页切割处理成页图像帧信息;
图像切片处理模块:用于从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域,据此将所述图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,所述图像切片在所述矩阵序列中的次序编号信息映射出所述表格单元格在所述页图像帧中的位置关系;
字符权重调整模块:用于基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重;
结构化数据输出模块,用于提取表格文字的文本识别信息后,进行结构化数据输出。
9.一种处理器,用于执行如权项1至权项7所述的任一计算机程序。
10.一种计算机可读存储介质,计算机可读存储介质存储有计算机代码,当计算机代码被执行时,如上述权项1至权项7中任何一种方法被执行。
CN202110344967.1A 2021-03-30 2021-03-30 基于语义分析的对称表格文字数据结构化提取的方法及系统 Pending CN115147857A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110344967.1A CN115147857A (zh) 2021-03-30 2021-03-30 基于语义分析的对称表格文字数据结构化提取的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110344967.1A CN115147857A (zh) 2021-03-30 2021-03-30 基于语义分析的对称表格文字数据结构化提取的方法及系统

Publications (1)

Publication Number Publication Date
CN115147857A true CN115147857A (zh) 2022-10-04

Family

ID=83403463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110344967.1A Pending CN115147857A (zh) 2021-03-30 2021-03-30 基于语义分析的对称表格文字数据结构化提取的方法及系统

Country Status (1)

Country Link
CN (1) CN115147857A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858634A (zh) * 2023-02-27 2023-03-28 长沙冉星信息科技有限公司 一种问卷信息处理方法
CN117436419A (zh) * 2023-12-12 2024-01-23 佳瑛科技有限公司 一种货物登记报表数据自动化更新的控制方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858634A (zh) * 2023-02-27 2023-03-28 长沙冉星信息科技有限公司 一种问卷信息处理方法
CN117436419A (zh) * 2023-12-12 2024-01-23 佳瑛科技有限公司 一种货物登记报表数据自动化更新的控制方法及装置
CN117436419B (zh) * 2023-12-12 2024-02-23 佳瑛科技有限公司 一种货物登记报表数据自动化更新的控制方法及装置

Similar Documents

Publication Publication Date Title
US20230021040A1 (en) Methods and systems for automated table detection within documents
US11176443B1 (en) Application control and text detection from application screen images
US11580763B2 (en) Representative document hierarchy generation
US10599709B2 (en) Object recognition device, object recognition method, and program for recognizing an object in an image based on tag information
US10482174B1 (en) Systems and methods for identifying form fields
Dong et al. Tablesense: Spreadsheet table detection with convolutional neural networks
US9280561B2 (en) Automatic learning of logos for visual recognition
US20220004878A1 (en) Systems and methods for synthetic document and data generation
US11461386B2 (en) Visual recognition using user tap locations
US8676814B2 (en) Automatic face annotation of images contained in media content
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US11615244B2 (en) Data extraction and ordering based on document layout analysis
CN115147857A (zh) 基于语义分析的对称表格文字数据结构化提取的方法及系统
CN113609892A (zh) 深度学习与景区知识图谱融合的手写诗词识别方法
EP4174795A1 (en) Multiple input machine learning framework for anomaly detection
CN114724166A (zh) 一种标题抽取模型的生成方法、装置及电子设备
US20230138491A1 (en) Continuous learning for document processing and analysis
CN114254231A (zh) 网页内文抽取方法
CN111881900A (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
US20230134218A1 (en) Continuous learning for document processing and analysis
CN115147853A (zh) 动态解析表格图像特征的ocr系统及方法
EP3640861A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US11837004B1 (en) Searchable table extraction
Zhang et al. Identification research of Trichagalma glabrosa insect gall pests based on YOLOv5s
CN116681042A (zh) 基于关键字提取的内容概要生成方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination