CN109117814A - 图像处理方法、装置、电子设备及介质 - Google Patents

图像处理方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN109117814A
CN109117814A CN201810983676.5A CN201810983676A CN109117814A CN 109117814 A CN109117814 A CN 109117814A CN 201810983676 A CN201810983676 A CN 201810983676A CN 109117814 A CN109117814 A CN 109117814A
Authority
CN
China
Prior art keywords
region
bill
table class
bill images
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810983676.5A
Other languages
English (en)
Other versions
CN109117814B (zh
Inventor
韩月
刘永强
桂晨光
邓超
王超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Jingdong Technology Holding Co Ltd
Original Assignee
Beijing Jingdong Financial Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Financial Technology Holding Co Ltd filed Critical Beijing Jingdong Financial Technology Holding Co Ltd
Priority to CN201810983676.5A priority Critical patent/CN109117814B/zh
Publication of CN109117814A publication Critical patent/CN109117814A/zh
Application granted granted Critical
Publication of CN109117814B publication Critical patent/CN109117814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本公开提供了一种图像处理方法,包括:获取图像,所述图像包括表格类票据图像;根据所述表格类票据图像,确定所述表格类票据图像中标志性区域的第一位置;根据所述标志性区域的第一位置,确定所述表格类票据图像的待识别区域的位置;根据所述标志性区域的第一位置和所述待识别区域的位置,构建所述表格类票据图像中票据的表格模板;根据所述表格类票据图像中票据的票据类型和所述票据类型的先验知识,对所述表格类票据图像中票据的表格模板进行解析,得到所述待识别区域的文字条目。本公开还提供了一种图像处理装置、电子设备及介质。

Description

图像处理方法、装置、电子设备及介质
技术领域
本公开涉及图像处理的技术领域,尤其涉及一种图像处理方法、装置、电子设备及介质。
背景技术
目前,文字定位是指利用计算机视觉及图像处理技术,判断图像中是否存在文字,以及图像中文字的位置。该技术作为光学识别技术中的关键一环,是决定图像识别性能好坏的重要步骤。文字定位技术在自然场景类、纸质扫描类及通用文本场景已经得到了广泛应用。目前文字定位主要包括以下几种方法:(1)基于图像二值化或边缘特征的传统定位方法,首先使用Canny或其它边缘检测算法检测图像边缘,然后对图像边缘进行连通域分析,根据连通域高度等特征信息进行生长合并,最后得到可能的文字行区域;(2)基于深度神经网络的文字目标定位方法,如CTPN、TextBoxes等:首先使用大量包含字符的图像数据,对深度神经网络进行训练,让网络自动学习图像中的字符特征,然后利用学到的字符特征对文字区域进行外边框回归。
在实现本发明的构思过程中,发明人发现现有技术存在以下问题:(1)表格类票据图像中包含大量的表格线,表格线具有明显的阶跃边缘特性,其边缘梯度的变化剧烈程度远大于文字,而二值化边缘特征依赖于梯度的变化程度,因此会对表格线周围文字的边缘特征提取造成极大的影响,造成文字定位困难;(2)CTPN、TextBoxes等文字目标定位方法,对小目标定位效果较差。由于表格类票据中文字目标尺度较小,边缘特征较弱,在定位文字边框时,边框线经常会有一定的波动,因此,在文字定位时无法很好逼近文字边缘,造成文本区域内仅包含部分文字或者包含噪声,对后续识别造成严重影响。
发明内容
有鉴于此,本公开提供一种图像处理方法、装置、电子设备及介质,进而至少部分地解决了由于相关技术的限制和缺陷而导致的一个或者多个问题。
本公开的第一个方面提供了一种图像处理方法,包括:获取图像,所述图像包括表格类票据图像;根据所述表格类票据图像,确定所述表格类票据图像中标志性区域的第一位置;根据所述标志性区域的第一位置,确定所述表格类票据图像的待识别区域的位置;根据所述标志性区域的第一位置和所述待识别区域的位置,构建所述表格类票据图像中票据的表格模板;根据所述表格类票据图像中票据的票据类型和所述票据类型的先验知识,对所述表格类票据图像中票据的表格模板进行解析,得到所述待识别区域的文字条目。
根据本公开的实施例,根据所述标志性区域的第一位置和所述待识别区域的位置,构建所述表格类票据图像中票据的表格模板包括:根据所述待识别区域的位置对所述待识别区域进行检测,得到所述待识别区域的表格线;根据所述待识别区域的表格线校正所述标志性区域的第一位置,得到所述标志性区域的第二位置;根据所述标志性区域的第二位置对所述标志性区域进行检测,得到所述标志性区域的表格线;基于所述标志性区域的表格线和所述待识别区域的表格线,生成所述表格类票据图像中票据的表格模板。
根据本公开的实施例,对所述表格类票据图像中票据的表格模板进行解析包括:对所述表格类票据图像中票据的表格模板进行分割,得到多个表格单元;对所述多个表格单元中的文字分别进行投影。
根据本公开的实施例,该方法还包括:对所述表格类票据图像进行预处理,所述预处理包括以下任意一项或多项倾斜校正、透视校正、噪声去除;对预处理后的表格类票据图像中的标志性区域进行标注;利用标注后的表格类票据图像对卷积神经网络进行训练,得到定位网络。
根据本公开的实施例,根据所述表格类票据图像,确定所述表格类票据图像中标志性区域的第一位置包括利用所述定位网络对所述表格类票据图像中的标志性区域进行定位,得到所述表格类票据图像中标志性区域的第一位置。
本公开的第二个方面提供了一种图像处理装置,包括:获取模块,用于获取图像,所述图像包括表格类票据图像;第一确定模块,用于根据所述表格类票据图像,确定所述表格类票据图像中标志性区域的第一位置;第二确定模块,用于根据所述标志性区域的第一位置,确定所述表格类票据图像的待识别区域的位置;构建模块,用于根据所述标志性区域的第一位置和所述待识别区域的位置,构建所述表格类票据图像中票据的表格模板;解析模块,用于根据所述表格类票据图像中票据的票据类型和所述票据类型的先验知识,对所述表格类票据图像中票据的表格模板进行解析,得到所述待识别区域的文字条目。
根据本公开的实施例,所述构建模块包括:第一检测模块,用于根据所述待识别区域的位置对所述待识别区域进行检测,得到所述待识别区域的表格线;校正模块,用于根据所述待识别区域的表格线校正所述标志性区域的第一位置,得到所述标志性区域的第二位置;第二检测模块,用于根据所述标志性区域的第二位置对所述标志性区域进行检测,得到所述标志性区域的表格线;生成模块,基于所述标志性区域的表格线和所述待识别区域的表格线,生成所述表格类票据图像中票据的表格模板。
根据本公开的实施例,所述解析模块包括:分割模块,用于对所述表格类票据图像中票据的表格模板进行分割,得到多个表格单元;投影模块,用于对所述多个表格单元中的文字分别进行投影。
根据本公开的实施例,该图像处理装置包括:预处理模块,用于对所述表格类票据图像进行预处理,所述预处理包括以下任意一项或多项倾斜校正、透视校正、噪声去除;标注模块,用于对预处理后的表格类票据图像中的标志性区域进行标注;训练模块,利用标注后的表格类票据图像对卷积神经网络进行训练,得到定位网络。
根据本公开的实施例,所述第一确定模块还用于利用所述定位网络对所述表格类票据图像中的标志性区域进行定位,得到所述表格类票据图像中标志性区域的第一位置。
本公开的第三个方面提供了一种电子设备,包括:一个或多个处理器,以及存储装置。所述存储装置用于存储一个或多个程序。其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述的图像处理方法。
本公开的第四个方面提供了一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的图像处理方法。
本公开的第五个方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现图像处理方法。
本公开提供的图像处理方法的有益效果如下:
在本发明的一些实施例所提供的技术方案中,可以根据表格类票据图像中标志性区域的第一位置和待识别区域的位置,构建该表格类票据图像中票据的表格模板,进而可以根据表格类票据图像中票据的票据类型和票据类型的先验知识,对表格类票据图像中票据的表格模板进行解析,得到待识别区域的文字条目,以此方式得到的文字条目准确度更高,并且有效地避免了现有技术因表格线周围文字的边缘特征提取困难而造成文字定位困难的缺陷。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
图1示意性示出了根据本公开实施例的图像处理方法的流程图;
图2示意性示出了根据本公开实施例的表格类票据图像的示意图;
图3示意性示出了根据本公开另一个实施例的图像处理方法的流程图;
图4示意性示出了根据本公开另一个实施例的图像处理方法的流程图;
图5示意性示出了根据本公开另一个实施例的图像处理方法的流程图;
图6示意性示出了根据本公开实施例的图像处理装置的方框图;
图7示意性示出了根据本公开另一实施例的图像处理装置的方框图;
图8示意性示出了根据本公开另一个实施例的图像处理装置的方框图;
图9示意性示出了根据本公开另一个实施例的图像处理装置的方框图;
图10示意性示出了根据本公开实施例的电子设备的计算机系统的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。
本公开的实施例提供了一种图像处理方法,包括:获取图像,所述图像包括表格类票据图像;根据所述表格类票据图像,确定所述表格类票据图像中标志性区域的第一位置;根据所述标志性区域的第一位置,确定所述表格类票据图像的待识别区域的位置;根据所述标志性区域的第一位置和所述待识别区域的位置,构建所述表格类票据图像中票据的表格模板;根据所述表格类票据图像中票据的票据类型和所述票据类型的先验知识,对所述表格类票据图像中票据的表格模板进行解析,得到所述待识别区域的文字条目。
通过上述方法,可以根据表格类票据图像中标志性区域的第一位置和待识别区域的位置,构建该表格类票据图像中票据的表格模板,进而可以根据表格类票据图像中票据的票据类型和票据类型的先验知识,对表格类票据图像中票据的表格模板进行解析,得到待识别区域的文字条目,以此方式得到的文字条目准确度更高,并且有效地避免了现有技术因表格线周围文字的边缘特征提取困难而造成文字定位困难的缺陷。
图1示意性示出了根据本公开实施例的图像处理方法的流程图。
如图1所示,图像处理方法包括步骤S110~步骤S150。
在步骤S110中,获取图像,所述图像包括表格类票据图像。
在步骤S120中,根据所述表格类票据图像,确定所述表格类票据图像中标志性区域的第一位置。
在步骤S130中,根据所述标志性区域的第一位置,确定所述表格类票据图像的待识别区域的位置。
在步骤S140中,根据所述标志性区域的第一位置和所述待识别区域的位置,构建所述表格类票据图像中票据的表格模板。
在步骤S150中,根据所述表格类票据图像中票据的票据类型和所述票据类型的先验知识,对所述表格类票据图像中票据的表格模板进行解析,得到所述待识别区域的文字条目。
该方法可以根据表格类票据图像中标志性区域的第一位置和待识别区域的位置,构建该表格类票据图像中票据的表格模板,进而可以根据表格类票据图像中票据的票据类型和票据类型的先验知识,对表格类票据图像中票据的表格模板进行解析,得到待识别区域的文字条目,以此方式得到的文字条目准确度更高,并且有效地避免了现有技术因表格线周围文字的边缘特征提取困难而造成文字定位困难的缺陷。
参考图2,在图2中的图像为表格类票据图像A。表格类票据图像A包括标志性区域A10和待识别区域A20。表格类票据图像A中的票据可以是企业电子发票、银行电子回执单、银行电子承兑汇票等多种票据。
其中,表格类票据图像A可以包括多个标志性区域A10。例如,表格类票据图像A为电子普通发票的图像,电子普通发票中固有的标志性区域A10可以包括购买方、密码区、货物或应税服务、服务名称、价税合计、销售方、备注等区域,但不限于此。
其中,表格类票据图像A可以包括多个待识别区域A20。例如,表格类票据图像A为电子普通发票的图像,电子普通发票中固有的待识别区域A20可以包括名称、纳税人识别号、地址电话、开户行及账号所在的区域和规格型号、单位、数量、单价、金额、税率、税额所在的区域等等,但不限于此。
继续参考图2,表格类票据图像中标志性区域A10的第一位置可以为图像中“购买方”所处表格的粗略位置,该粗略位置可以指所述表格中除了包括“购买方”三字,还可能包括其他文字,例如,机器编号:499099606285,因此将其称为表格的粗略位置。
表格类票据图像中待识别区域A20的位置可以为图像中“名称、纳税人识别号、地址电话、开户行及账号”所处表格的位置。待识别区域A20的位置也可以为图像中“规格型号、单位、数量、单价、金额、税率、税额”所处表格的位置。
在本公开的一些实施例中,根据标志性区域A10的第一位置确定表格类票据图像的待识别区域A20的位置,例如,可以根据“购买方”所处的标志性区域A10的位置和“密码区”所处的标志性区域A10的位置可以准确的定位到“名称、纳税人识别号、地址电话、开户行及账号”所处的待识别区域A20的位置。
根据本公开的实施例,可以参考图3对步骤S140进行描述,图3示意性示出了根据本公开另一个实施例的图像处理方法的流程图。
如图3所示,上述步骤S130可以具体包括步骤S210~步骤S240。
在步骤S210中,根据所述待识别区域的位置对所述待识别区域进行检测,得到所述待识别区域的表格线。
在步骤S220中,根据所述待识别区域的表格线校正所述标志性区域的第一位置,得到所述标志性区域的第二位置。
在步骤S230中,根据所述标志性区域的第二位置对所述标志性区域进行检测,得到所述标志性区域的表格线。
在步骤S240中,基于所述标志性区域的表格线和所述待识别区域的表格线,生成所述表格类票据图像中票据的表格模板。
该方法可以基于标志性区域的表格线和所述待识别区域的表格线,生成表格类票据图像中票据的表格模板,从而避免了在解析文字时因表格线对定位文字的影响。
在本公开的一些实施例中,可以利用线检测算法模块检测出待识别区域的完整表格线。
在本公开的一些实施例中,利用待识别区域的完整表格线可以校正标志性区域的第一位置,从而得到标志性区域的精确位置(即第二位置),以便于将标志性区域中的干扰文字移出,从而确定精准的待识别区域的上下左右边界。
在本公开的一些实施例中,可以利用线检测算法模块检测出标志性区域的完整表格线。此时,该检测标志性区域为第二位置的检测标志性区域。
在本公开的一些实施例中,表格类票据图像中票据的票据类型不同,基于该票据类型的标志性区域的表格线和待识别区域的表格线生成的表格模板也不同。
图4示意性示出了根据本公开另一个实施例的图像处理方法的流程图。
如图4所示,上述步骤S150可以具体包括步骤S310和步骤S320。
在步骤S310中,对所述表格类票据图像中票据的表格模板进行分割,得到多个表格单元。
在步骤S320中,对所述多个表格单元中的文字分别进行投影。
该方法可以对表格类票据图像中票据的表格模板进行分割,得到多个表格单元,对多个表格单元中的文字分别进行投影,从而得到文字的精准位置。
在本公开的一些实施例中,将上述表格模板分解为多个表格单元,然后在每个表格单元中对文字进行水平和竖直的投影,从而得到文字的精准定位结果。
在本公开的一些实施例中,一般只对待识别区域中的表格进行分割。参考图2,可以对待识别区域A20中的“规格型号、单位、数量、单价、金额、税率、税额”所在表格进行分割,以使得“规格型号、单位、数量、单价、金额、税率、税额”分别占用一个表格单元,这样有利用于对每个表格单元中的文字进行定位。
在本公开的一些实施例中,可以结合标志性区域A10中条目与表格模板中表格单元位置关系的先验知识,利用表格单元中文字行的坐标位置,即可得到票据中待识别的每个文字行所对应的待识别区域A20的条目信息,完成对表格版面的解析。
图5示意性示出了根据本公开另一个实施例的图像处理方法的流程图。
如图5所示,上述方法还包括步骤S410和步骤S430。
在步骤S410中,对所述表格类票据图像进行预处理,所述预处理包括以下任意一项或多项倾斜校正、透视校正、噪声去除。
在步骤S420中,对预处理后的表格类票据图像中的标志性区域进行标注。
在步骤S430中,利用标注后的表格类票据图像对卷积神经网络进行训练,得到定位网络。
该方法可以利用标注后的表格类票据图像对卷积神经网络进行训练,得到定位网络,这样可以利用定位网络快速的对标志性区域进行定位,以得到标志性区域的第一位置。
在本公开的一些实施例中,对表格类票据图像进行数据增强,准备训练样本(例如,企业电子发票、银行电子回执单、银行电子承兑汇票等多种票据)。然后对样本数据进行倾斜校正、透视校正、噪声去除等预处理。接着,对样本带有标志性区域的位置进行标注。将样本送入卷积神经网络(例如,目标定位神经网络Faster R-CNN)进行参数自动学习,当卷积神经网络训练趋于收敛时,将其作为定位网络。随后,可以利用该定位网络对多种票据类图像的标志性区域进行目标粗定位。
在本公开的一些实施例中,根据表格类票据图像,确定表格类票据图像中标志性区域的第一位置具体可以包括利用上述定位网络对表格类票据图像中的标志性区域进行定位,得到表格类票据图像中标志性区域的第一位置。
图6示意性示出了根据本公开实施例的图像处理装置的方框图。
如图6所示,图像处理装置500包括:获取模块510第一确定模块520、第二确定模块530、构建模块540和解析模块550。
获取模块510,用于获取图像,所述图像包括表格类票据图像。
第一确定模块520,用于根据所述表格类票据图像,确定所述表格类票据图像中标志性区域的第一位置。
第二确定模块530,用于根据所述标志性区域的第一位置,确定所述表格类票据图像的待识别区域的位置。
构建模块540,用于根据所述标志性区域的第一位置和所述待识别区域的位置,构建所述表格类票据图像中票据的表格模板。
解析模块550,用于根据所述表格类票据图像中票据的票据类型和所述票据类型的先验知识,对所述表格类票据图像中票据的表格模板进行解析,得到所述待识别区域的文字条目。
该图像处理装置500可以根据表格类票据图像中标志性区域的第一位置和待识别区域的位置,构建该表格类票据图像中票据的表格模板,进而可以根据表格类票据图像中票据的票据类型和票据类型的先验知识,对表格类票据图像中票据的表格模板进行解析,得到待识别区域的文字条目,以此方式得到的文字条目准确度更高,并且有效地避免了现有技术因表格线周围文字的边缘特征提取困难而造成文字定位困难的缺陷。
根据本公开的实施例,图像处理装置500用于实现图1实施例描述的图像处理方法。
图7示意性示出了根据本公开另一个实施例的图像处理装置的方框图。
如图7所示,构建模块540可以具体包括第一检测模块541、校正模块542、第二检测模块543和生成模块544。
第一检测模块541,用于根据所述待识别区域的位置对所述待识别区域进行检测,得到所述待识别区域的表格线。
校正模块542,用于根据所述待识别区域的表格线校正所述标志性区域的第一位置,得到所述标志性区域的第二位置。
第二检测模块543,用于根据所述标志性区域的第二位置对所述标志性区域进行检测,得到所述标志性区域的表格线。
生成模块544,基于所述标志性区域的表格线和所述待识别区域的表格线,生成所述表格类票据图像中票据的表格模板。
该图像处理装置500可以基于标志性区域的表格线和所述待识别区域的表格线,生成表格类票据图像中票据的表格模板,从而避免了在解析文字时因表格线对定位文字的影响。
根据本公开的实施例,该图像处理装置500可以用于实现图3实施例描述的该图像处理方法。
图8示意性示出了根据本公开另一个实施例的该图像处理装置的方框图。
如图8所示,解析模块550可以具体包括分割模块551和投影模块552。
分割模块551,用于对所述表格类票据图像中票据的表格模板进行分割,得到多个表格单元。
投影模块552,用于对所述多个表格单元中的文字分别进行投影。
该图像处理装置500可以对表格类票据图像中票据的表格模板进行分割,得到多个表格单元,对多个表格单元中的文字分别进行投影,从而得到文字的精准位置。
根据本公开的实施例,该图像处理装置500可以用于实现图4实施例描述的该图像处理方法。
图9示意性示出了根据本公开另一个实施例的图像处理装置的方框图。
如图9所示,除了图6实施例描述的获取模块510、第一确定模块520、第二确定模块530、构建模块540和解析模块550之外,图像处理装置600还包括预处理模块610、标注模块620和训练模块630。
预处理模块610,用于对所述表格类票据图像进行预处理,所述预处理包括以下任意一项或多项倾斜校正、透视校正、噪声去除。
标注模块620,用于对预处理后的表格类票据图像中的标志性区域进行标注。
训练模块630,利用标注后的表格类票据图像对卷积神经网络进行训练,得到定位网络。
该图像处理装置600可以利用标注后的表格类票据图像对卷积神经网络进行训练,得到定位网络,这样可以利用定位网络快速的对标志性区域进行定位,以得到标志性区域的第一位置。
根据本公开的实施例,该图像处理装置600可以用于实现图5实施例描述的该图像处理方法。
可以理解的是,获取模块510第一确定模块520、第二确定模块530、构建模块540、第一检测模块541、校正模块542、第二检测模块543、生成模块544、解析模块550、分割模块551、投影模块552、预处理模块610、标注模块620、以及训练模块630可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,获取模块510第一确定模块520、第二确定模块530、构建模块540、第一检测模块541、校正模块542、第二检测模块543、生成模块544、解析模块550、分割模块551、投影模块552、预处理模块610、标注模块620、以及训练模块630中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,获取模块510第一确定模块520、第二确定模块530、构建模块540、第一检测模块541、校正模块542、第二检测模块543、生成模块544、解析模块550、分割模块551、投影模块552、预处理模块610、标注模块620、以及训练模块630中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
图10示意性示出了根据本公开实施例的电子设备的计算机系统的方框图。图10示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图10所示,根据本公开实施例的电子设备的计算机系统700包括处理器701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行参考图1~图5描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 703中,存储有系统700操作所需的各种程序和数据。处理器701、ROM 702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行以上参考图1~图5描述的图像处理方法的各种步骤。需要注意,该程序也可以存储在除ROM 702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在该一个或多个存储器中的程序来执行以上参考图1~图5描述的图像处理方法的各种步骤。
根据本公开的实施例,系统700还可以包括输入/输出(I/O)接口707,输入/输出(I/O)接口707也连接至总线704。系统700还可以包括连接至I/O接口705的以下部件中的一项或多项:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
根据本公开的实施例,上文参考流程图描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。根据本公开的实施例,计算机可读介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行根据本公开实施例的图像处理方法。该方法包括:获取图像,所述图像包括表格类票据图像;根据所述表格类票据图像,确定所述表格类票据图像中标志性区域的第一位置;根据所述标志性区域的第一位置,确定所述表格类票据图像的待识别区域的位置;根据所述标志性区域的第一位置和所述待识别区域的位置,构建所述表格类票据图像中票据的表格模板;根据所述表格类票据图像中票据的票据类型和所述票据类型的先验知识,对所述表格类票据图像中票据的表格模板进行解析,得到所述待识别区域的文字条目。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (12)

1.一种图像处理方法,包括:
获取图像,所述图像包括表格类票据图像;
根据所述表格类票据图像,确定所述表格类票据图像中标志性区域的第一位置;
根据所述标志性区域的第一位置,确定所述表格类票据图像的待识别区域的位置;
根据所述标志性区域的第一位置和所述待识别区域的位置,构建所述表格类票据图像中票据的表格模板;
根据所述表格类票据图像中票据的票据类型和所述票据类型的先验知识,对所述表格类票据图像中票据的表格模板进行解析,得到所述待识别区域的文字条目。
2.根据权利要求1所述的方法,其中,根据所述标志性区域的第一位置和所述待识别区域的位置,构建所述表格类票据图像中票据的表格模板包括:
根据所述待识别区域的位置对所述待识别区域进行检测,得到所述待识别区域的表格线;
根据所述待识别区域的表格线校正所述标志性区域的第一位置,得到所述标志性区域的第二位置;
根据所述标志性区域的第二位置对所述标志性区域进行检测,得到所述标志性区域的表格线;
基于所述标志性区域的表格线和所述待识别区域的表格线,生成所述表格类票据图像中票据的表格模板。
3.根据权利要求1所述的方法,其中,对所述表格类票据图像中票据的表格模板进行解析包括:
对所述表格类票据图像中票据的表格模板进行分割,得到多个表格单元;
对所述多个表格单元中的文字分别进行投影。
4.根据权利要求1所述的方法,其中,该方法还包括:
对所述表格类票据图像进行预处理,所述预处理包括以下任意一项或多项倾斜校正、透视校正、噪声去除;
对预处理后的表格类票据图像中的标志性区域进行标注;
利用标注后的表格类票据图像对卷积神经网络进行训练,得到定位网络。
5.根据权利要求4所述的方法,其中,根据所述表格类票据图像,确定所述表格类票据图像中标志性区域的第一位置包括:
利用所述定位网络对所述表格类票据图像中的标志性区域进行定位,得到所述表格类票据图像中标志性区域的第一位置。
6.一种图像处理装置,包括:
获取模块,用于获取图像,所述图像包括表格类票据图像;
第一确定模块,用于根据所述表格类票据图像,确定所述表格类票据图像中标志性区域的第一位置;
第二确定模块,用于根据所述标志性区域的第一位置,确定所述表格类票据图像的待识别区域的位置;
构建模块,用于根据所述标志性区域的第一位置和所述待识别区域的位置,构建所述表格类票据图像中票据的表格模板;
解析模块,用于根据所述表格类票据图像中票据的票据类型和所述票据类型的先验知识,对所述表格类票据图像中票据的表格模板进行解析,得到所述待识别区域的文字条目。
7.根据权利要求6所述的装置,其中,所述构建模块包括:
第一检测模块,用于根据所述待识别区域的位置对所述待识别区域进行检测,得到所述待识别区域的表格线;
校正模块,用于根据所述待识别区域的表格线校正所述标志性区域的第一位置,得到所述标志性区域的第二位置;
第二检测模块,用于根据所述标志性区域的第二位置对所述标志性区域进行检测,得到所述标志性区域的表格线;
生成模块,基于所述标志性区域的表格线和所述待识别区域的表格线,生成所述表格类票据图像中票据的表格模板。
8.根据权利要求6所述的装置,其中,所述解析模块包括:
分割模块,用于对所述表格类票据图像中票据的表格模板进行分割,得到多个表格单元;
投影模块,用于对所述多个表格单元中的文字分别进行投影。
9.根据权利要求6所述的装置,其中,该装置还包括:
预处理模块,用于对所述表格类票据图像进行预处理,所述预处理包括以下任意一项或多项倾斜校正、透视校正、噪声去除;
标注模块,用于对预处理后的表格类票据图像中的标志性区域进行标注;
训练模块,利用标注后的表格类票据图像对卷积神经网络进行训练,得到定位网络。
10.根据权利要求9所述的装置,其中,所述第一确定模块还用于:
利用所述定位网络对所述表格类票据图像中的标志性区域进行定位,得到所述表格类票据图像中标志性区域的第一位置。
11.一种电子设备,包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~5任意一项所述的方法。
12.一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~5任意一项所述的方法。
CN201810983676.5A 2018-08-27 2018-08-27 图像处理方法、装置、电子设备及介质 Active CN109117814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810983676.5A CN109117814B (zh) 2018-08-27 2018-08-27 图像处理方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810983676.5A CN109117814B (zh) 2018-08-27 2018-08-27 图像处理方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN109117814A true CN109117814A (zh) 2019-01-01
CN109117814B CN109117814B (zh) 2020-11-03

Family

ID=64861181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810983676.5A Active CN109117814B (zh) 2018-08-27 2018-08-27 图像处理方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN109117814B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008923A (zh) * 2019-04-11 2019-07-12 网易有道信息技术(北京)有限公司 图像处理方法和训练方法、以及装置、介质、计算设备
CN110765910A (zh) * 2019-10-14 2020-02-07 西安网算数据科技有限公司 一种密集场景下的票据区域识别方法及装置
CN110837796A (zh) * 2019-11-05 2020-02-25 泰康保险集团股份有限公司 图像处理方法及装置
CN111079531A (zh) * 2019-11-12 2020-04-28 泰康保险集团股份有限公司 数据结构化输出方法、装置、电子设备、存储介质
CN111325092A (zh) * 2019-12-26 2020-06-23 湖南星汉数智科技有限公司 一种动车票识别方法、装置、计算机装置及计算机可读存储介质
CN111931784A (zh) * 2020-09-17 2020-11-13 深圳壹账通智能科技有限公司 票据识别方法、系统、计算机设备与计算机可读存储介质
WO2021057138A1 (zh) * 2019-09-27 2021-04-01 支付宝(杭州)信息技术有限公司 一种证件识别方法及装置
CN114092948A (zh) * 2021-11-24 2022-02-25 北京百度网讯科技有限公司 一种票据识别方法、装置、设备以及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1261191A (zh) * 1999-01-15 2000-07-26 康舒科技股份有限公司 可提升扫描效率的扫描方法
CN1949249A (zh) * 2005-10-11 2007-04-18 株式会社理光 表格提取方法和设备
CN101064007A (zh) * 2006-04-29 2007-10-31 北大方正集团有限公司 一种表格图像几何畸变的数字校正方法
US20090284806A1 (en) * 2008-05-13 2009-11-19 Pfu Limited Image reading apparatus and mark detection method
CN101676930A (zh) * 2008-09-17 2010-03-24 北大方正集团有限公司 一种识别扫描图像中表格单元的方法及装置
EP2677481A1 (en) * 2012-06-14 2013-12-25 Ricoh Company, Ltd. Expense report system with receipt image processing
CN103488965A (zh) * 2013-08-20 2014-01-01 成都三泰电子实业股份有限公司 运单信息录入和彩色色块编码解码系统
CN105426856A (zh) * 2015-11-25 2016-03-23 成都数联铭品科技有限公司 一种图像表格文字识别方法
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN107194400A (zh) * 2017-05-31 2017-09-22 北京天宇星空科技有限公司 一种财务报销全票据图片识别处理方法
CN107358232A (zh) * 2017-06-28 2017-11-17 中山大学新华学院 基于插件的发票识别方法、及识别与管理系统
CN107506745A (zh) * 2017-09-07 2017-12-22 贵州希望泥腿信息技术有限公司 一种数据报表录入方法及录入系统
CN107862303A (zh) * 2017-11-30 2018-03-30 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1261191A (zh) * 1999-01-15 2000-07-26 康舒科技股份有限公司 可提升扫描效率的扫描方法
CN1949249A (zh) * 2005-10-11 2007-04-18 株式会社理光 表格提取方法和设备
CN101064007A (zh) * 2006-04-29 2007-10-31 北大方正集团有限公司 一种表格图像几何畸变的数字校正方法
US20090284806A1 (en) * 2008-05-13 2009-11-19 Pfu Limited Image reading apparatus and mark detection method
CN101676930A (zh) * 2008-09-17 2010-03-24 北大方正集团有限公司 一种识别扫描图像中表格单元的方法及装置
EP2677481A1 (en) * 2012-06-14 2013-12-25 Ricoh Company, Ltd. Expense report system with receipt image processing
CN103488965A (zh) * 2013-08-20 2014-01-01 成都三泰电子实业股份有限公司 运单信息录入和彩色色块编码解码系统
CN105426856A (zh) * 2015-11-25 2016-03-23 成都数联铭品科技有限公司 一种图像表格文字识别方法
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
CN107194400A (zh) * 2017-05-31 2017-09-22 北京天宇星空科技有限公司 一种财务报销全票据图片识别处理方法
CN107358232A (zh) * 2017-06-28 2017-11-17 中山大学新华学院 基于插件的发票识别方法、及识别与管理系统
CN107506745A (zh) * 2017-09-07 2017-12-22 贵州希望泥腿信息技术有限公司 一种数据报表录入方法及录入系统
CN107862303A (zh) * 2017-11-30 2018-03-30 平安科技(深圳)有限公司 表格类图像的信息识别方法、电子装置及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张群会: "《表格数据自动识别技术研究》", 《西安科技学院学报》 *
虞飞: "《机打普通商业发票识别系统研究》", 《硕士学位论文库》 *
郭佳: "《基于图像的表格识别算法与自动录入系统》", 《硕士学位论文库》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008923A (zh) * 2019-04-11 2019-07-12 网易有道信息技术(北京)有限公司 图像处理方法和训练方法、以及装置、介质、计算设备
WO2021057138A1 (zh) * 2019-09-27 2021-04-01 支付宝(杭州)信息技术有限公司 一种证件识别方法及装置
CN110765910A (zh) * 2019-10-14 2020-02-07 西安网算数据科技有限公司 一种密集场景下的票据区域识别方法及装置
CN110837796A (zh) * 2019-11-05 2020-02-25 泰康保险集团股份有限公司 图像处理方法及装置
CN110837796B (zh) * 2019-11-05 2022-08-19 泰康保险集团股份有限公司 图像处理方法及装置
CN111079531A (zh) * 2019-11-12 2020-04-28 泰康保险集团股份有限公司 数据结构化输出方法、装置、电子设备、存储介质
CN111325092A (zh) * 2019-12-26 2020-06-23 湖南星汉数智科技有限公司 一种动车票识别方法、装置、计算机装置及计算机可读存储介质
CN111325092B (zh) * 2019-12-26 2023-09-22 湖南星汉数智科技有限公司 一种动车票识别方法、装置、计算机装置及计算机可读存储介质
CN111931784A (zh) * 2020-09-17 2020-11-13 深圳壹账通智能科技有限公司 票据识别方法、系统、计算机设备与计算机可读存储介质
CN111931784B (zh) * 2020-09-17 2021-01-01 深圳壹账通智能科技有限公司 票据识别方法、系统、计算机设备与计算机可读存储介质
CN114092948A (zh) * 2021-11-24 2022-02-25 北京百度网讯科技有限公司 一种票据识别方法、装置、设备以及存储介质
CN114092948B (zh) * 2021-11-24 2023-09-22 北京百度网讯科技有限公司 一种票据识别方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN109117814B (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN109117814A (zh) 图像处理方法、装置、电子设备及介质
CN109410218A (zh) 用于生成车辆损伤信息的方法和装置
CN109255356B (zh) 一种文字识别方法、装置及计算机可读存储介质
WO2018108129A1 (zh) 用于识别物体类别的方法及装置、电子设备
US20210012468A1 (en) Boundary-aware object removal and content fill
CN108090916B (zh) 用于跟踪视频中的目标图形的方法和装置
CN109508681A (zh) 生成人体关键点检测模型的方法和装置
CN108510472A (zh) 用于处理图像的方法和装置
CN107392218A (zh) 一种基于图像的车辆定损方法、装置及电子设备
US11314986B2 (en) Learning device, classification device, learning method, classification method, learning program, and classification program
CN107111660A (zh) 计算机辅助的卡片设计验证
CN108805128A (zh) 一种字符分割方法和装置
CN108984399A (zh) 检测界面差异的方法、电子设备和计算机可读介质
CN109934242A (zh) 图片识别方法和装置
CN110363220A (zh) 行为类别检测方法、装置、电子设备和计算机可读介质
CN107742128A (zh) 用于输出信息的方法和装置
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN109740674A (zh) 一种图像处理方法、装置、设备和存储介质
CN108170751B (zh) 用于处理图像的方法和装置
CN111291761A (zh) 用于识别文字的方法和装置
CN110363137A (zh) 人脸检测优化模型、方法、系统及其电子设备
CN116030453A (zh) 一种数字电气表计的识别方法、装置及设备
CN111539341A (zh) 目标定位方法、装置、电子设备和介质
US20210374490A1 (en) Method and apparatus of processing image, device and medium
CN110263779A (zh) 文本区域检测方法及装置、文本检测方法、计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176

Applicant after: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address before: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176

Applicant before: BEIJING JINGDONG FINANCIAL TECHNOLOGY HOLDING Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Patentee after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Patentee before: Jingdong Digital Technology Holding Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Patentee after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176

Patentee before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.