CN113963365A - 表格识别方法、装置、电子设备和可读存储介质 - Google Patents
表格识别方法、装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- CN113963365A CN113963365A CN202111151226.8A CN202111151226A CN113963365A CN 113963365 A CN113963365 A CN 113963365A CN 202111151226 A CN202111151226 A CN 202111151226A CN 113963365 A CN113963365 A CN 113963365A
- Authority
- CN
- China
- Prior art keywords
- image
- information
- processed
- text
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Character Input (AREA)
Abstract
本发明提出了一种表格识别方法、装置、电子设备和可读存储介质。其中,表格识别方法包括:获取第一表格图像;识别第一表格图像中的背景特征和表格特征;根据背景特征和表格特征对第一表格图像进行矫正,以得到第二表格图像;提取第二表格图像中待识别表格的单元格信息和文本信息;根据单元格信息和文本信息生成目标表格。本发明在对图像中的表格进行识别之前,先对图像进行初步处理,去除图像中可能影响表格识别准确性的图像特征,并且对图像中的表格的位置进行调节,从而在开始识别图像中的表格之前先对图像进行更新处理,由于更新后的图像中不存在各种干扰信息,因此对更新的图像进行表格识别,能够提高表格识别的准确性。
Description
技术领域
本发明属于图像识别技术领域,具体而言,涉及一种表格识别方法、装置、电子设备和可读存储介质。
背景技术
在企业的日常运作时,工作人员在其工作的各种环节需要提交各种不同样式不同内容的表格,相关技术中均是通过人工对各种表格进行审核,容易出现审核错误,影响工作的效率,增加了人力成本。为了节省人力,出现了对图像中表格进行识别的方案。
现有的表格识别均是利用分割网络检测表格边框位置,忽略了图像背景中各种信息的干扰,导致表格识别准确性差。
发明内容
本发明旨在解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的第一方面提出了一种表格识别方法。
本发明的第二方面提出了一种表格识别装置。
本发明的第三方面提出了一种电子设备。
本发明的第四方面提出了一种可读存储介质。
有鉴于此,根据本发明的第一方面提出一种表格识别方法,包括:获取第一表格图像;识别第一表格图像中的背景特征和表格特征;根据背景特征和表格特征对第一表格图像进行矫正,以得到第二表格图像;提取第二表格图像中待识别表格的单元格信息和文本信息;根据单元格信息和文本信息生成目标表格。
本发明提供的表格识别方法用于电子设备对带有表格的图像中的表格进行识别。电子设备获取第一表格图像,第一表格图像中包括待识别表格,电子设备分别对第一表格图像中的背景特征进行和表格特征进行识别,其中,背景特征包括但不限于印章图案、背景水印对应的图像特征,表格特征为带有表格的图像特征,背景特征中的部分特征在识别图像中表格之前需要去除,从而提高识别得到的单元格信息和文本信息的准确性。根据提取得到的背景特征和表格特征对第一表格图像进行处理,生成第二表格图像。第二表格图像为对第一表格图像矫正后的待处理图像,第二表格图像中包括待识别的表格,并且第二表格图像中不存在印章图案和背景水印等可能影响对表格识别的图像特征。利用图像处理模型对第二表格图像中单元格信息和文本信息进行识别,并根据识别到的单元格信息和文本信息生成最终的目标表格。本发明在对图像中的表格进行识别之前,先对图像进行初步处理,去除图像中可能影响表格识别准确性的图像特征,并且对图像中的表格的位置进行调节,从而在开始识别图像中的表格之前先对图像进行更新处理,由于更新后的图像中不存在各种干扰信息,因此对更新的图像进行表格识别,能够提高表格识别的准确性。
具体来说,电子设备包括图像采集装置,如摄像头,电子设备通过摄像头采集第一表格图像,在采集过程中需要保证采集到的第一表格图像中包括完整的表格。通过目标检测网络提取第一表格图像中每个表格特征的位置信息,对表格特征进行初步定位,通过图像处理对第一表格图像中的表格特征进行位置调整,例如旋转表格特征、平移表格特征等。并通过神经网络检测背景特征,将第一表格图像中的背景特征去除,从而得到第二表格图像。通过UNet(神经网络)检测第二表格图像中表格的单元格,以得到单元格信息,单元格信息包括单元格的位置信息,并对单元格中的文本信息进行检测,以得到文本信息。将单元格信息和文本信息与数据库中预存的表格信息进行比对,并根据预存的表格信息将单元格信息和文本信息按照设定格式生成目标表格。
另外,根据本发明提供的上述技术方案中的表格识别方法,还可以具有如下附加技术特征:
在一种可能的设计中,根据背景特征和表格特征对第一表格图像进行矫正,以得到第二表格图像,包括:根据表格特征,确定第一表格图像中的待处理表格的第一位置信息;根据第一位置信息,调整第一表格图像中待处理表格的位置,以得到第三表格图像;识别背景特征中的待处理特征;去除第三表格图像中的待处理特征,以得到第二表格图像。
在该设计中,根据识别到的表格特征,能够确定待处理表格在第一表格图像中的第一位置信息。根据第一位置信息对待处理表格的位置进行调整,使待处理表格位于第一表格图像的中部位置,并使待处理表格平铺与整个第一表格图像中,从而得到调整后的第三表格图像。筛选背景特征中需要去除的待处理特征,将第三表格图像中的待处理特征去除,从而得到第二表格图像。通过先对第一表格图像中的待处理表格的位置进行确定和调整,能够提高后续对图像中表格的识别成功率。由于在提取背景特征中可能存在将部分文本或单元格的相关特征一同提取出来,故通过检测模型对背景特征中的待处理特征进行二次提取,进一步提高了去除特征的准确性,避免将图像中的表格特征或文本特征也进行去除操作,从而进一步提高了后续对图像中表格的识别成功率。
值得说明的是,通过CenterNet(目标检测网络)模型通过深层的卷积神经网络,提取图像中的各种特征,然后利用卷积网络得到第一表格图像中的热力图,从热力图中找到待处理表格的中心位置。最后通过图像中的表格特征得到待检测表格的宽度和高度,从而确定每个表格的位置信息,即第一位置信息。
在一种可能的设计中,去除第三表格图像中的待处理特征,包括:获取待处理特征的第二位置信息;根据第二位置信息,提取第三表格图像中的第一待处理图像,第一待处理图像中包括待处理特征;去除待处理图像中的第一待处理特征,以得到第二待处理图像;根据第二待处理图像对第三表格图像进行更新,以得到第二表格图像。
在该设计中,第三表格图像中包括待处理特征,待处理特征会影响对表格内容的检测识别,故需要去除待处理特征。在去除第三表格图像中待处理特征的过程中,首先检测待处理特征在第三表格图像中的第二位置信息,第二位置信息能够准确反应待处理特征在整个图像中的具体位置。根据第二位置信息截取第三表格图像中的包括待处理特征的部分图像,作为第一待处理图像,并去除第一待处理图像中的待处理特征,从而得到第二待处理图像,第二待处理图像与第一待处理图像相对应,且第二待处理图像中的待处理特征已被去除,故将第三表格图像中的第一待处理图像替换为第二待处理图像,实现了去除第三表格图像中待处理特征的效果。
值得说明的是,待处理特征包括印章图案,在去除待处理特征时可能会对表格特征产生影响,例如去除掉表格中的边框或文本,为减少去除待处理特征过程对图像中表格特征的影响,故通过CenterNet检测到待处理特征在第三表格图像中的具体位置。然后截取带有印章图像的第一待处理图像,将第一待处理图像输入到UNet中,经过编码解码过程输出去除印章后的第二待处理图像。
在一种可能的设计中,提取第二表格图像中待识别表格的单元格信息,包括:检测第二表格图像中待识别表格中直线的第一坐标信息;根据第一坐标信息,确定待识别表格中单元格的第二坐标信息;根据第二坐标信息确定单元格信息。
在该设计中,单元格信息中包括单元格的位置信息,即单元格在第二表格图像中的坐标信息。在识别单元格信息的过程中,首先检测第二表格图像中待识别表格中每一条直线的第一坐标信息,由于待识别表格均是通过直线的边组成,因而通过第一坐标信息经过坐标计算能够到待识别表格中每个单元格的第二坐标信息,综合待识别表格中每个单元格的第二坐标信息能够得到待识别表格的单元格信息。
在一种可能的设计中,提取第二表格图像中待识别表格的文本信息,包括:识别第二表格图像中的文本特征,并确定文本特征在第二表格图像中的第三位置信息;根据第三位置信息确定第二表格图像中的文本识别范围;对位于文本识别范围内的第二表格图像进行文本识别,以得到文本信息。
在该设计中,通过文字识别算法识别第二表格图像中的全部文本特征,将文本特征转化为文字,同时确定文本特征在第二表格图像中的第三位置信息。为避免对文本特征漏识别,则根据第三位置信息选择第二表格图像中的文本识别范围,并对文本识别范围内的文本识别再次进行检测,以得到文本信息,文本识别范围大于文本特征在第二表格图像中所处的范围。本发明通过对第二表格图像中的文字进行二次检测识别,提高了对第二表格图像中文字检测的准确性,避免了由于表格中存在某些字符、符号不够清晰而导致的漏检。
具体来说,通过DBNet(文字识别检测)网络,取出第二表格图像中每个文本特征的位置,并将文本特征转化为文字,然后对检测到的相邻文字进行合并,最终得到每一行文字的第三位置信息。当待检测区域的图片输入到DBNet网络中时,首先进入到一个深层的卷积神经网络中进行特征提取,然后将提取到的特征输入到另一个卷积神经网络中,输出第二表格图像的特征图,最终得到每一个可能存在文字区域的位置。由于文本行中某些字符、符号可能因为不够清晰有可能会漏检,所以对于DBNet获取到文本行位置进行进一步处理,将检测到的文本行左右上下边缘向外增加一部分,以得到文本识别范围,并对文本识别范围内的文本特征进行二次识别,以得到文本信息。
在一种可能的设计中,对位于文本识别范围内的第二表格图像进行文本识别,以得到文本信息之后,包括:识别文本信息中的语义特征,根据语义特征对文本信息进行更新。
在该设计中,通过语义检测算法识别文本信息中的语义特征,根据语义特征对文本信息中文字的分段和排序进行调整。在对文本信息识别完成后,根据文本信息中的语义特征对文本信息进行二次排序,进一步提高了文本信息识别的准确性。
具体来说,将提取到的文本信息输入到LSTM神经网络(长短期记忆网络)中,该神经网络能够充分利用文本的前后联系,提高识别的准确率,最终得到更新后的文本信息,进一步提高了文本信息的准确性。
在一种可能的设计中,根据单元格信息和文本信息生成目标表格,包括:根据单元格信息确定目标表格模板;根据目标表格模板,对文本信息进行格式化,以得到目标表格。
在该设计中,根据单元格信息在数据库中查找目标表格模板,将文本信息输入至目标表格模板中,以对文本信息进行格式化,从而得到目标表格。本发明通过单元格信息查找相应的模板,能够将文本信息按照目标表格模板对文本信息进行标准格式化,从而得到目标表格。
具体来说,将每个单元格中多行文本信息合并成一行,然后将检测到的单元格信息与数据库中的多个表格模板进行对比,若对比结果显示是同一种表格,则将该表格作为目标表格模板,再将待检测表格中的文本信息根据目标表格模板进行格式化,输出最终的表格信息。
根据本发明第二方面提出了一种表格识别装置,包括:获取单元,用于获取第一表格图像;识别单元,用于识别第一表格图像中的背景特征和表格特征;矫正单元,用于根据背景特征和表格特征对第一表格图像进行矫正,以得到第二表格图像;提取单元,用于提取第二表格图像中待识别表格的单元格信息和文本信息;生成单元,用于根据单元格信息和文本信息生成目标表格。
本发明提供的表格识别装置用于电子设备对带有表格的图像中的表格进行识别。电子设备获取第一表格图像,第一表格图像中包括待识别表格,电子设备分别对第一表格图像中的背景特征进行和表格特征进行识别,其中,背景特征包括但不限于印章图案、背景水印对应的图像特征,表格特征为带有表格的图像特征,背景特征中的部分特征在识别图像中表格之前需要去除,从而提高识别得到的单元格信息和文本信息的准确性。根据提取得到的背景特征和表格特征对第一表格图像进行处理,生成第二表格图像。第二表格图像为对第一表格图像矫正后的待处理图像,第二表格图像中包括待识别的表格,并且第二表格图像中不存在印章图案和背景水印等可能影响对表格识别的图像特征。利用图像处理模型对第二表格图像中单元格信息和文本信息进行识别,并根据识别到的单元格信息和文本信息生成最终的目标表格。本发明在对图像中的表格进行识别之前,先对图像进行初步处理,去除图像中可能影响表格识别准确性的图像特征,并且对图像中的表格的位置进行调节,从而在开始识别图像中的表格之前先对图像进行更新处理,由于更新后的图像中不存在各种干扰信息,因此对更新的图像进行表格识别,能够提高表格识别的准确性。
具体来说,电子设备包括图像采集装置,如摄像头,电子设备通过摄像头采集第一表格图像,在采集过程中需要保证采集到的第一表格图像中包括完整的表格。通过目标检测网络提取第一表格图像中每个表格特征的位置信息,对表格特征进行初步定位,通过图像处理对第一表格图像中的表格特征进行位置调整,例如旋转表格特征、平移表格特征等。并通过神经网络检测背景特征,将第一表格图像中的背景特征去除,从而得到第二表格图像。通过UNet(神经网络)检测第二表格图像中表格的单元格,以得到单元格信息,单元格信息包括单元格的位置信息,并对单元格中的文本信息进行检测,以得到文本信息。将单元格信息和文本信息与数据库中预存的表格信息进行比对,并根据预存的表格信息将单元格信息和文本信息按照设定格式生成目标表格。
根据本发明第三方面提出了一种电子设备,包括:存储器,存储器中存储有程序或指令;处理器,处理器执行存储在存储器中的程序或指令以实现如上述第一方面的任一可能设计中的表格识别方法的步骤,因而具有上述第一方面中表格识别方法的全部有益技术效果,在此不再做过多赘述。
根据本发明第四方面提出了一种可读存储介质,可读存储介质上存储有程序或指令,程序或指令被处理器执行时实现如上述第一方面中任一可能设计中的表格识别方法的步骤。因而具有上述第一方面中任一可能设计中的表格识别方法的全部有益技术效果,在此不再做过多赘述。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明的第一个实施例中的表格识别方法的示意流程图之一;
图2示出了本发明的第一个实施例中的表格识别方法的示意流程图之二;
图3示出了本发明的第一个实施例中的表格识别方法的示意流程图之三;
图4示出了本发明的第一个实施例中的表格识别方法的示意流程图之四;
图5示出了本发明的第一个实施例中的表格识别方法的示意流程图之五;
图6示出了本发明的第一个实施例中的表格识别方法的示意流程图之六;
图7示出了本发明的第一个实施例中的表格识别方法的示意流程图之七;
图8示出了本发明的第二个实施例中的表格识别装置的结构框图;
图9示出了本发明的第三个实施例中的电子设备的结构框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照图1至图9描述根据本发明一些实施例的一种表格识别方法、一种表格识别装置、一种电子设备和一种可读存储介质。
实施例一:
如图1所示,本发明的第一个实施例中提供了一种表格识别方法包括:
步骤102,获取第一表格图像;
步骤104,识别第一表格图像中的背景特征和表格特征;
步骤106,根据背景特征和表格特征对第一表格图像进行矫正,以得到第二表格图像;
步骤108,提取第二表格图像中待识别表格的单元格信息和文本信息;
步骤110,根据单元格信息和文本信息生成目标表格。
本发明实施例提供的表格识别方法用于电子设备对带有表格的图像中的表格进行识别。电子设备获取第一表格图像,第一表格图像中包括待识别表格,电子设备分别对第一表格图像中的背景特征进行和表格特征进行识别,其中,背景特征包括但不限于印章图案、背景水印对应的图像特征,表格特征为带有表格的图像特征,背景特征中的部分特征在识别图像中表格之前需要去除,从而提高识别得到的单元格信息和文本信息的准确性。根据提取得到的背景特征和表格特征对第一表格图像进行处理,生成第二表格图像。第二表格图像为对第一表格图像矫正后的待处理图像,第二表格图像中包括待识别的表格,并且第二表格图像中不存在印章图案和背景水印等可能影响对表格识别的图像特征。利用图像处理模型对第二表格图像中单元格信息和文本信息进行识别,并根据识别到的单元格信息和文本信息生成最终的目标表格。本发明在对图像中的表格进行识别之前,先对图像进行初步处理,去除图像中可能影响表格识别准确性的图像特征,并且对图像中的表格的位置进行调节,从而在开始识别图像中的表格之前先对图像进行更新处理,由于更新后的图像中不存在各种干扰信息,因此对更新的图像进行表格识别,能够提高表格识别的准确性。
具体来说,电子设备包括图像采集装置,如摄像头,电子设备通过摄像头采集第一表格图像,在采集过程中需要保证采集到的第一表格图像中包括完整的表格。通过目标检测网络提取第一表格图像中每个表格特征的位置信息,对表格特征进行初步定位,通过图像处理对第一表格图像中的表格特征进行位置调整,例如旋转表格特征、平移表格特征等。并通过神经网络检测背景特征,将第一表格图像中的背景特征去除,从而得到第二表格图像。通过UNet(神经网络)检测第二表格图像中表格的单元格,以得到单元格信息,单元格信息包括单元格的位置信息,并对单元格中的文本信息进行检测,以得到文本信息。将单元格信息和文本信息与数据库中预存的表格信息进行比对,并根据预存的表格信息将单元格信息和文本信息按照设定格式生成目标表格。
如图2所示,在上述任一实施例中,根据背景特征和表格特征对第一表格图像进行矫正,以得到第二表格图像,包括:
步骤202,根据表格特征,确定第一表格图像中的待处理表格的第一位置信息;
步骤204,根据第一位置信息,调整第一表格图像中待处理表格的位置,以得到第三表格图像;
步骤206,识别背景特征中的待处理特征;
步骤208,去除第三表格图像中的待处理特征,以得到第二表格图像。
本发明实施例根据识别到的表格特征,能够确定待处理表格在第一表格图像中的第一位置信息。根据第一位置信息对待处理表格的位置进行调整,使待处理表格位于第一表格图像的中部位置,并使待处理表格平铺与整个第一表格图像中,从而得到调整后的第三表格图像。筛选背景特征中需要去除的待处理特征,将第三表格图像中的待处理特征去除,从而得到第二表格图像。通过先对第一表格图像中的待处理表格的位置进行确定和调整,能够提高后续对图像中表格的识别成功率。由于在提取背景特征中可能存在将部分文本或单元格的相关特征一同提取出来,故通过检测模型对背景特征中的待处理特征进行二次提取,进一步提高了去除特征的准确性,避免将图像中的表格特征或文本特征也进行去除操作,从而进一步提高了后续对图像中表格的识别成功率。
值得说明的是,通过CenterNet(目标检测网络)模型通过深层的卷积神经网络,提取图像中的各种特征,然后利用卷积网络得到第一表格图像中的热力图,从热力图中找到待处理表格的中心位置。最后通过图像中的表格特征得到待检测表格的宽度和高度,从而确定每个表格的位置信息,即第一位置信息。
如图3所示,在上述任一实施例中,去除第三表格图像中的待处理特征,包括:
步骤302,获取待处理特征的第二位置信息;
步骤304,根据第二位置信息,提取第三表格图像中的第一待处理图像,第一待处理图像中包括待处理特征;
步骤306,去除待处理图像中的第一待处理特征,以得到第二待处理图像;
步骤308,根据第二待处理图像对第三表格图像进行更新,以得到第二表格图像。
本发明实施例第三表格图像中包括待处理特征,待处理特征会影响对表格内容的检测识别,故需要去除待处理特征。在去除第三表格图像中待处理特征的过程中,首先检测待处理特征在第三表格图像中的第二位置信息,第二位置信息能够准确反应待处理特征在整个图像中的具体位置。根据第二位置信息截取第三表格图像中的包括待处理特征的部分图像,作为第一待处理图像,并去除第一待处理图像中的待处理特征,从而得到第二待处理图像,第二待处理图像与第一待处理图像相对应,且第二待处理图像中的待处理特征已被去除,故将第三表格图像中的第一待处理图像替换为第二待处理图像,实现了去除第三表格图像中待处理特征的效果。
值得说明的是,待处理特征包括印章图案,在去除待处理特征时可能会对表格特征产生影响,例如去除掉表格中的边框或文本,为减少去除待处理特征过程对图像中表格特征的影响,故通过CenterNet检测到待处理特征在第三表格图像中的具体位置。然后截取带有印章图像的第一待处理图像,将第一待处理图像输入到UNet中,经过编码解码过程输出去除印章后的第二待处理图像。
如图4所示,在上述任一实施例中,提取第二表格图像中待识别表格的单元格信息,包括:
步骤402,检测第二表格图像中待识别表格中直线的第一坐标信息;
步骤404,根据第一坐标信息,确定待识别表格中单元格的第二坐标信息;
步骤406,根据第二坐标信息确定单元格信息。
本发明实施例中,单元格信息中包括单元格的位置信息,即单元格在第二表格图像中的坐标信息。在识别单元格信息的过程中,首先检测第二表格图像中待识别表格中每一条直线的第一坐标信息,由于待识别表格均是通过直线的边组成,因而通过第一坐标信息经过坐标计算能够到待识别表格中每个单元格的第二坐标信息,综合待识别表格中每个单元格的第二坐标信息能够得到待识别表格的单元格信息。
如图5所示,在上述任一实施例中,提取第二表格图像中待识别表格的文本信息,包括:
步骤502,识别第二表格图像中的文本特征,并确定文本特征在第二表格图像中的第三位置信息;
步骤504,根据第三位置信息确定第二表格图像中的文本识别范围;
步骤506,对位于文本识别范围内的第二表格图像进行文本识别,以得到文本信息。
本发明实施例中,通过文字识别算法识别第二表格图像中的全部文本特征,将文本特征转化为文字,同时确定文本特征在第二表格图像中的第三位置信息。为避免对文本特征漏识别,则根据第三位置信息选择第二表格图像中的文本识别范围,并对文本识别范围内的文本识别再次进行检测,以得到文本信息,文本识别范围大于文本特征在第二表格图像中所处的范围。本发明通过对第二表格图像中的文字进行二次检测识别,提高了对第二表格图像中文字检测的准确性,避免了由于表格中存在某些字符、符号不够清晰而导致的漏检。
具体来说,通过DBNet(文字识别检测)网络,取出第二表格图像中每个文本特征的位置,并将文本特征转化为文字,然后对检测到的相邻文字进行合并,最终得到每一行文字的第三位置信息。当待检测区域的图片输入到DBNet网络中时,首先进入到一个深层的卷积神经网络中进行特征提取,然后将提取到的特征输入到另一个卷积神经网络中,输出第二表格图像的特征图,最终得到每一个可能存在文字区域的位置。由于文本行中某些字符、符号可能因为不够清晰有可能会漏检,所以对于DBNet获取到文本行位置进行进一步处理,将检测到的文本行左右上下边缘向外增加一部分,以得到文本识别范围,并对文本识别范围内的文本特征进行二次识别,以得到文本信息。
如图6所示,在上述任一实施例中,对位于文本识别范围内的第二表格图像进行文本识别,以得到文本信息之后,包括:
步骤602,识别文本信息中的语义特征;
步骤604,根据语义特征对文本信息进行更新。
本发明实施例中,通过语义检测算法识别文本信息中的语义特征,根据语义特征对文本信息中文字的分段和排序进行调整。在对文本信息识别完成后,根据文本信息中的语义特征对文本信息进行二次排序,进一步提高了文本信息识别的准确性。
具体来说,将提取到的文本信息输入到LSTM神经网络(长短期记忆网络)中,该神经网络能够充分利用文本的前后联系,提高识别的准确率,最终得到更新后的文本信息,进一步提高了文本信息的准确性。
如图7所示,在上述任一实施例中,根据单元格信息和文本信息生成目标表格,包括:
步骤702,根据单元格信息确定目标表格模板;
步骤704,根据目标表格模板,对文本信息进行格式化,以得到目标表格。
本发明实施例中,根据单元格信息在数据库中查找目标表格模板,将文本信息输入至目标表格模板中,以对文本信息进行格式化,从而得到目标表格。本发明通过单元格信息查找相应的模板,能够将文本信息按照目标表格模板对文本信息进行标准格式化,从而得到目标表格。
具体来说,将每个单元格中多行文本信息合并成一行,然后将检测到的单元格信息与数据库中的多个表格模板进行对比,若对比结果显示是同一种表格,则将该表格作为目标表格模板,再将待检测表格中的文本信息根据目标表格模板进行格式化,输出最终的表格信息。
实施例二:
如图8所示,本发明的第二个实施例中提供了一种表格识别装置800,包括:
获取单元802,用于获取第一表格图像;
识别单元804,用于识别第一表格图像中的背景特征和表格特征;
矫正单元806,用于根据背景特征和表格特征对第一表格图像进行矫正,以得到第二表格图像;
提取单元808,用于提取第二表格图像中待识别表格的单元格信息和文本信息;
生成单元810,用于根据单元格信息和文本信息生成目标表格。
本发明实施例中提供的表格识别装置800用于电子设备对带有表格的图像中的表格进行识别。电子设备获取第一表格图像,第一表格图像中包括待识别表格,电子设备分别对第一表格图像中的背景特征进行和表格特征进行识别,其中,背景特征包括但不限于印章图案、背景水印对应的图像特征,表格特征为带有表格的图像特征,背景特征中的部分特征在识别图像中表格之前需要去除,从而提高识别得到的单元格信息和文本信息的准确性。根据提取得到的背景特征和表格特征对第一表格图像进行处理,生成第二表格图像。第二表格图像为对第一表格图像矫正后的待处理图像,第二表格图像中包括待识别的表格,并且第二表格图像中不存在印章图案和背景水印等可能影响对表格识别的图像特征。利用图像处理模型对第二表格图像中单元格信息和文本信息进行识别,并根据识别到的单元格信息和文本信息生成最终的目标表格。本发明在对图像中的表格进行识别之前,先对图像进行初步处理,去除图像中可能影响表格识别准确性的图像特征,并且对图像中的表格的位置进行调节,从而在开始识别图像中的表格之前先对图像进行更新处理,由于更新后的图像中不存在各种干扰信息,因此对更新的图像进行表格识别,能够提高表格识别的准确性。
具体来说,电子设备包括图像采集装置,如摄像头,电子设备通过摄像头采集第一表格图像,在采集过程中需要保证采集到的第一表格图像中包括完整的表格。通过目标检测网络提取第一表格图像中每个表格特征的位置信息,对表格特征进行初步定位,通过图像处理对第一表格图像中的表格特征进行位置调整,例如旋转表格特征、平移表格特征等。并通过神经网络检测背景特征,将第一表格图像中的背景特征去除,从而得到第二表格图像。通过UNet(神经网络)检测第二表格图像中表格的单元格,以得到单元格信息,单元格信息包括单元格的位置信息,并对单元格中的文本信息进行检测,以得到文本信息。将单元格信息和文本信息与数据库中预存的表格信息进行比对,并根据预存的表格信息将单元格信息和文本信息按照设定格式生成目标表格。
在上述任一实施例中,矫正单元806具体用于:根据表格特征,确定第一表格图像中的待处理表格的第一位置信息;根据第一位置信息,调整第一表格图像中待处理表格的位置,以得到第三表格图像;识别背景特征中的待处理特征;去除第三表格图像中的待处理特征,以得到第二表格图像。
本发明实施例根据识别到的表格特征,能够确定待处理表格在第一表格图像中的第一位置信息。根据第一位置信息对待处理表格的位置进行调整,使待处理表格位于第一表格图像的中部位置,并使待处理表格平铺与整个第一表格图像中,从而得到调整后的第三表格图像。筛选背景特征中需要去除的待处理特征,将第三表格图像中的待处理特征去除,从而得到第二表格图像。通过先对第一表格图像中的待处理表格的位置进行确定和调整,能够提高后续对图像中表格的识别成功率。由于在提取背景特征中可能存在将部分文本或单元格的相关特征一同提取出来,故通过检测模型对背景特征中的待处理特征进行二次提取,进一步提高了去除特征的准确性,避免将图像中的表格特征或文本特征也进行去除操作,从而进一步提高了后续对图像中表格的识别成功率。
值得说明的是,通过CenterNet(目标检测网络)模型通过深层的卷积神经网络,提取图像中的各种特征,然后利用卷积网络得到第一表格图像中的热力图,从热力图中找到待处理表格的中心位置。最后通过图像中的表格特征得到待检测表格的宽度和高度,从而确定每个表格的位置信息,即第一位置信息。
在上述任一实施例中,校正单元还用于:获取待处理特征的第二位置信息;根据第二位置信息,提取第三表格图像中的第一待处理图像,第一待处理图像中包括待处理特征;去除待处理图像中的第一待处理特征,以得到第二待处理图像;根据第二待处理图像对第三表格图像进行更新,以得到第二表格图像。
本发明实施例第三表格图像中包括待处理特征,待处理特征会影响对表格内容的检测识别,故需要去除待处理特征。在去除第三表格图像中待处理特征的过程中,首先检测待处理特征在第三表格图像中的第二位置信息,第二位置信息能够准确反应待处理特征在整个图像中的具体位置。根据第二位置信息截取第三表格图像中的包括待处理特征的部分图像,作为第一待处理图像,并去除第一待处理图像中的待处理特征,从而得到第二待处理图像,第二待处理图像与第一待处理图像相对应,且第二待处理图像中的待处理特征已被去除,故将第三表格图像中的第一待处理图像替换为第二待处理图像,实现了去除第三表格图像中待处理特征的效果。
值得说明的是,待处理特征包括印章图案,在去除待处理特征时可能会对表格特征产生影响,例如去除掉表格中的边框或文本,为减少去除待处理特征过程对图像中表格特征的影响,故通过CenterNet检测到待处理特征在第三表格图像中的具体位置。然后截取带有印章图像的第一待处理图像,将第一待处理图像输入到UNet中,经过编码解码过程输出去除印章后的第二待处理图像。
在上述任一实施例中,提取单元808具体用于:检测第二表格图像中待识别表格中直线的第一坐标信息;根据第一坐标信息,确定待识别表格中单元格的第二坐标信息;根据第二坐标信息确定单元格信息。
本发明实施例中,单元格信息中包括单元格的位置信息,即单元格在第二表格图像中的坐标信息。在识别单元804格信息的过程中,首先检测第二表格图像中待识别表格中每一条直线的第一坐标信息,由于待识别表格均是通过直线的边组成,因而通过第一坐标信息经过坐标计算能够到待识别表格中每个单元格的第二坐标信息,综合待识别表格中每个单元格的第二坐标信息能够得到待识别表格的单元格信息。
在上述任一实施例中,提取单元808具体用于:识别第二表格图像中的文本特征,并确定文本特征在第二表格图像中的第三位置信息;根据第三位置信息确定第二表格图像中的文本识别范围;对位于文本识别范围内的第二表格图像进行文本识别,以得到文本信息。
本发明实施例中,通过文字识别算法识别第二表格图像中的全部文本特征,将文本特征转化为文字,同时确定文本特征在第二表格图像中的第三位置信息。为避免对文本特征漏识别,则根据第三位置信息选择第二表格图像中的文本识别范围,并对文本识别范围内的文本识别再次进行检测,以得到文本信息,文本识别范围大于文本特征在第二表格图像中所处的范围。本发明通过对第二表格图像中的文字进行二次检测识别,提高了对第二表格图像中文字检测的准确性,避免了由于表格中存在某些字符、符号不够清晰而导致的漏检。
具体来说,通过DBNet(文字识别检测)网络,取出第二表格图像中每个文本特征的位置,并将文本特征转化为文字,然后对检测到的相邻文字进行合并,最终得到每一行文字的第三位置信息。当待检测区域的图片输入到DBNet网络中时,首先进入到一个深层的卷积神经网络中进行特征提取,然后将提取到的特征输入到另一个卷积神经网络中,输出第二表格图像的特征图,最终得到每一个可能存在文字区域的位置。由于文本行中某些字符、符号可能因为不够清晰有可能会漏检,所以对于DBNet获取到文本行位置进行进一步处理,将检测到的文本行左右上下边缘向外增加一部分,以得到文本识别范围,并对文本识别范围内的文本特征进行二次识别,以得到文本信息。
在上述任一实施例中,表格识别装置800还包括:
更新单元,用于识别文本信息中的语义特征,据语义特征对文本信息进行更新。
本发明实施例中,通过语义检测算法识别文本信息中的语义特征,根据语义特征对文本信息中文字的分段和排序进行调整。在对文本信息识别完成后,根据文本信息中的语义特征对文本信息进行二次排序,进一步提高了文本信息识别的准确性。
具体来说,将提取到的文本信息输入到LSTM神经网络(长短期记忆网络)中,该神经网络能够充分利用文本的前后联系,提高识别的准确率,最终得到更新后的文本信息,进一步提高了文本信息的准确性。
在上述任一实施例中,生成单元810具体用于:根据单元格信息确定目标表格模板;根据目标表格模板,对文本信息进行格式化,以得到目标表格。
本发明实施例中,根据单元格信息在数据库中查找目标表格模板,将文本信息输入至目标表格模板中,以对文本信息进行格式化,从而得到目标表格。本发明通过单元格信息查找相应的模板,能够将文本信息按照目标表格模板对文本信息进行标准格式化,从而得到目标表格。
具体来说,将每个单元格中多行文本信息合并成一行,然后将检测到的单元格信息与数据库中的多个表格模板进行对比,若对比结果显示是同一种表格,则将该表格作为目标表格模板,再将待检测表格中的文本信息根据目标表格模板进行格式化,输出最终的表格信息。
实施例三:
如图9所示,本发明的第三个实施例中提供了一种电子设备900,包括存储器902和处理器904。
存储器902中存储有程序或指令;
处理器904执行存储在存储器902中的程序或指令以实现如上述实施例一中的表格识别方法的步骤,因而具有上述实施例一中任一实施例中的表格识别方法的全部有益技术效果,在此不再做过多赘述。
实施例四:
本发明的第四个实施例中提供了一种可读存储介质,其上存储有程序,程序被处理器执行时实现如上述任一实施例中的表格识别方法,因而具有上述任一实施例中的表格识别方法的全部有益技术效果。
其中,可读存储介质,如只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
需要明确的是,在本发明的权利要求书、说明书和说明书附图中,术语“多个”则指两个或两个以上,除非有额外的明确限定,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了更方便地描述本发明和使得描述过程更加简便,而不是为了指示或暗示所指的装置或元件必须具有所描述的特定方位、以特定方位构造和操作,因此这些描述不能理解为对本发明的限制;术语“连接”、“安装”、“固定”等均应做广义理解,举例来说,“连接”可以是多个对象之间的固定连接,也可以是多个对象之间的可拆卸连接,或一体地连接;可以是多个对象之间的直接相连,也可以是多个对象之间的通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据上述数据地具体情况理解上述术语在本发明中的具体含义。
在本发明的权利要求书、说明书和说明书附图中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本发明的权利要求书、说明书和说明书附图中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种表格识别方法,其特征在于,包括:
获取第一表格图像;
识别所述第一表格图像中的背景特征和表格特征;
根据所述背景特征和所述表格特征对所述第一表格图像进行矫正,以得到第二表格图像;
提取所述第二表格图像中待识别表格的单元格信息和文本信息;
根据所述单元格信息和所述文本信息生成目标表格。
2.根据权利要求1所述的表格识别方法,其特征在于,所述根据所述背景特征和所述表格特征对所述第一表格图像进行矫正,以得到第二表格图像,包括:
根据所述表格特征,确定所述第一表格图像中的待处理表格的第一位置信息;
根据所述第一位置信息,调整所述第一表格图像中所述待处理表格的位置,以得到第三表格图像;
识别所述背景特征中的待处理特征;
去除所述第三表格图像中的所述待处理特征,以得到所述第二表格图像。
3.根据权利要求2所述的表格识别方法,其特征在于,所述去除所述第三表格图像中的所述待处理特征,包括:
获取所述待处理特征的第二位置信息;
根据所述第二位置信息,提取所述第三表格图像中的第一待处理图像,所述第一待处理图像中包括所述待处理特征;
去除所述待处理图像中的第一待处理特征,以得到第二待处理图像;
根据所述第二待处理图像对所述第三表格图像进行更新,以得到所述第二表格图像。
4.根据权利要求1至3中任一项所述的表格识别方法,其特征在于,所述提取所述第二表格图像中待识别表格的单元格信息,包括:
检测所述第二表格图像中待识别表格中直线的第一坐标信息;
根据所述第一坐标信息,确定所述待识别表格中单元格的第二坐标信息;
根据所述第二坐标信息确定所述单元格信息。
5.根据权利要求1至3中任一项所述的表格识别方法,其特征在于,所述提取所述第二表格图像中待识别表格的文本信息,包括:
识别所述第二表格图像中的文本特征,并确定所述文本特征在所述第二表格图像中的第三位置信息;
根据所述第三位置信息确定所述第二表格图像中的文本识别范围;
对位于所述文本识别范围内的所述第二表格图像进行文本识别,以得到所述文本信息。
6.根据权利要求5所述的表格识别方法,其特征在于,所述对位于所述文本识别范围内的所述第二表格图像进行文本识别,以得到所述文本信息之后,包括:
识别所述文本信息中的语义特征,根据所述语义特征对所述文本信息进行更新。
7.根据权利要求1至3中任一项所述的表格识别方法,其特征在于,所述根据所述单元格信息和所述文本信息生成目标表格,包括:
根据所述单元格信息确定目标表格模板;
根据所述目标表格模板,对所述文本信息进行格式化,以得到所述目标表格。
8.一种表格识别装置,其特征在于,包括:
获取单元,用于获取第一表格图像;
识别单元,用于识别所述第一表格图像中的背景特征和表格特征;
矫正单元,用于根据所述背景特征和所述表格特征对所述第一表格图像进行矫正,以得到第二表格图像;
提取单元,用于提取所述第二表格图像中待识别表格的单元格信息和文本信息;
生成单元,用于根据所述单元格信息和所述文本信息生成目标表格。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述表格识别方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述表格识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111151226.8A CN113963365A (zh) | 2021-09-29 | 2021-09-29 | 表格识别方法、装置、电子设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111151226.8A CN113963365A (zh) | 2021-09-29 | 2021-09-29 | 表格识别方法、装置、电子设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113963365A true CN113963365A (zh) | 2022-01-21 |
Family
ID=79463130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111151226.8A Pending CN113963365A (zh) | 2021-09-29 | 2021-09-29 | 表格识别方法、装置、电子设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113963365A (zh) |
-
2021
- 2021-09-29 CN CN202111151226.8A patent/CN113963365A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105654072B (zh) | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 | |
CN111563509B (zh) | 一种基于tesseract的变电站端子排识别方法及系统 | |
US7970213B1 (en) | Method and system for improving the recognition of text in an image | |
CN109190623B (zh) | 一种识别投影仪品牌和型号的方法 | |
JP2004139484A (ja) | 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム | |
CN101908136A (zh) | 一种表格识别处理方法及系统 | |
CN113569863B (zh) | 一种单据稽查的方法、系统、电子设备及存储介质 | |
CN107437085A (zh) | 一种提升ocr识别率的方法、装置及可读存储介质 | |
CN104915668A (zh) | 医学影像中的文字信息识别方法及装置 | |
CN112906695B (zh) | 适配多类ocr识别接口的表格识别方法及相关设备 | |
CN110765740A (zh) | 一种基于dom树的全类型文本替换方法、系统、装置及存储介质 | |
CN110008960B (zh) | 一种检测字符片段完整性的方法及终端 | |
CN111414907A (zh) | 数据集标注方法、数据集标注装置和计算机可读存储介质 | |
CN106940804A (zh) | 建筑工程物料管理系统表单数据自动录入方法 | |
CN109426815B (zh) | 一种票据区域旋转和切分方法、系统、设备 | |
CN112329641A (zh) | 一种表格识别方法、装置、设备及可读存储介质 | |
CN111985506A (zh) | 一种图表信息提取方法、装置和存储介质 | |
CN112348019A (zh) | 一种答题卡矫正方法、装置、电子设备及存储介质 | |
CN113963365A (zh) | 表格识别方法、装置、电子设备和可读存储介质 | |
CN117079297A (zh) | 一种继电保护定值核对方法、系统、设备及介质 | |
CN115620329A (zh) | 一种基于人工智能的图章跑偏智能识别方法 | |
JP5189056B2 (ja) | マーク項目認識装置、マーク項目認識方法及びマーク項目認識プログラム | |
CN115600570A (zh) | 一种电网设备预警限值表格重构方法、录入方法及装置 | |
CN114255464A (zh) | 基于craft和scrn-seed框架的自然场景文字检测识别方法 | |
CN113688834A (zh) | 车票识别方法、车票识别系统及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |