CN110008923B - 图像处理方法和训练方法、以及装置、介质、计算设备 - Google Patents

图像处理方法和训练方法、以及装置、介质、计算设备 Download PDF

Info

Publication number
CN110008923B
CN110008923B CN201910296967.1A CN201910296967A CN110008923B CN 110008923 B CN110008923 B CN 110008923B CN 201910296967 A CN201910296967 A CN 201910296967A CN 110008923 B CN110008923 B CN 110008923B
Authority
CN
China
Prior art keywords
neural network
information
image
bounding box
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910296967.1A
Other languages
English (en)
Other versions
CN110008923A (zh
Inventor
战春儒
林辉
段亦涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Youdao Information Technology Beijing Co Ltd
Original Assignee
Netease Youdao Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Youdao Information Technology Beijing Co Ltd filed Critical Netease Youdao Information Technology Beijing Co Ltd
Priority to CN201910296967.1A priority Critical patent/CN110008923B/zh
Publication of CN110008923A publication Critical patent/CN110008923A/zh
Application granted granted Critical
Publication of CN110008923B publication Critical patent/CN110008923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明的实施方式提供了一种图像处理方法。该图像处理方法包括获取第一图像,所述第一图像包括至少一个第一表格,通过神经网络获取所述第一表格的表格结构,以及输出与所述第一表格具有相同表格结构的可编辑表格文件。本发明的方法能够快速识别出图像中的表格的表格结构,并获得相应地可编辑表格文件,为图像中的表格识别提供了极大便利。本发明的实施方式提供了一种图像处理装置、介质和计算设备。此外,本发明的实施方式还提供了一种用于图像处理的神经网络的训练方法、装置、介质和计算设备。

Description

图像处理方法和训练方法、以及装置、介质、计算设备
技术领域
本发明的实施方式涉及计算机领域,更具体地,本发明的实施方式涉及一种图像处理方法、装置、介质及计算设备,以及一种用于图像处理的神经网络的训练方法、装置、介质及计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在日常工作生活中,经常会遇到需要从一个图片中提取其中的表格数据的情况。在这种情况下到从图像中自动识别出表格结构以及表格中的数据能够给用户带来极大的便利。现有技术中,从图像中自动识别表格结构的方法主要有两种:一种是是模版匹配方法,另一种是通过hough变换检测直线来确定表格结构。
其中,模版匹配方法需要预先设定模板,基于模板匹配待识别图像中的表格位置和结构。然而,这种方法通用性差,只能识别与模板相匹配的固定格式的表格,并且对表格采集方式要求严格,而且对噪声非常敏感,一部分表格区域匹配失败可能导致整个表格识别失败。
通过hough变换检测直线来确定表格结构的方法,需要通过hough变换检测直线来识别表格结构。但是这种方法中,直线检测容易受到纸张、断点、或阴影等的影响,导致表格的识别率低。
可见,现有技术中从图像中自动识别出表格的表格结构的方法通用性较差,识别成功率较低。
发明内容
因此在现有技术中,如何能够准确且便捷地从各类图像中提取出表格数据,是非常令人烦恼的过程。
在本上下文中,本发明的实施方式期望提供一种图像处理方法,能够从各类电子图像中自动识别出表格结构,以帮助用户快速准确获得图像中的表格数据。
在本发明实施方式的第一方面中,提供了一种图像处理方法。所述图像处理方法,包括获取第一图像,所述第一图像包括第一表格,通过神经网络获取所述第一表格的表格结构,以及输出与所述第一表格具有相同表格结构的可编辑表格文件。
在本发明的一个实施例中,所述神经网络包括第一神经网络和第二神经网络。所述通过神经网络获取所述第一表格的表格结构包括:利用所述第一神经网络检测所述第一表格,以及从所述第一图像中提取包括所述第一表格的第一表格区域图像;以及,利用所述第二神经网络识别所述第一表格区域图像中的表格线,以及基于所述表格线获得所述第一表格的表格结构。
在本发明的一个实施例中,所述利用所述第二神经网络识别所述第一表格区域图像中的表格线,包括检测所述第一表格区域图像中的多个第一点,将每个第一点通过分类器进行分类,以获取每个第一点的第一延伸方向信息,其中,所述第一延伸方向信息用于表征所述第一点在预定方向上是否存在位置相邻的其他第一点,以及基于每个第一点的所述第一延伸方向信息,将所述多个第一点组合以获得所述表格线。
在本发明的一个实施例中,所述方法还包括训练所述第一神经网络,具体包括:获取至少一个第二图像,其中所述第二图像包括第二表格;获取第二表格包围框的信息,其中所述第二表格包围框的信息包括将所述第二表格包围框映射到所述第二图像时的中心点信息和尺寸信息,其中,当按照所述第二表格包围框的信息将所述第二表格包围框映射到所述第二图像时,所述第二表格包围框与所述第二表格的边框重合;以及以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络。
在本发明的一个实施例中,所述以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络,包括:获取所述第一神经网络输出的回归包围框的信息;基于所述回归包围框的信息与所述第二表格包围框的信息的差异,构建相交损失函数objloss+(1-i)*objloss,其中:Objloss被设置为由所述回归包围框的中心点信息与所述第二表格包围框的中心点信息的差异而确定的回归损失,参数i被设置为所述回归包围框和所述第二表格包围框的相交面积除以所述第二表格包围框的面积而得的比值;以及基于所述相交损失函数objloss+(1-i)*objloss,训练所述第一神经网络。
在本发明的一个实施例中,所述方法还包括训练所述第二神经网络,具体包括:按照所述第二表格包围框的信息,从所述第二图像中提取第二表格区域图像;获取对所述第二表格的表格线上的每个点进行标注的第二延伸方向信息,所述第二延伸方向信息包括上、下、左、和右四个延伸方向中的至少一个;以及以所述第二表格区域图像作为训练输入,以所述第二延伸方向信息为输出标准,训练所述第二神经网络以构建所述分类器。
在本发明的一个实施例中,所述训练所述第二神经网络,还包括通过特征金字塔网络FPN方法提取所述第二表格区域图像的特征图。
本发明实施方式的第二方面,提供了一种用于图像处理的神经网络的训练方法。其中,所述神经网络包括第一神经网络和第二神经网络,所述训练方法包括:训练所述第一神经网络,以实现利用所述第一神经网络检测所述第一表格,以及从所述第一图像中提取包括所述第一表格的第一表格区域图像;训练所述第二神经网络,以实现利用所述第二神经网络识别所述第一表格区域图像中的表格线,以及基于所述表格线获得所述第一表格的表格结构。
在本发明的一个实施例中,所述训练所述第一神经网络包括:获取至少一个第二图像,其中所述第二图像包括第二表格;获取第二表格包围框的信息,其中所述第二表格包围框的信息包括将所述第二表格包围框映射到所述第二图像时的中心点信息和尺寸信息,其中,当按照所述第二表格包围框的信息将所述第二表格包围框映射到所述第二图像时,所述第二表格包围框与所述第二表格的边框重合;以及,以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络。
在本发明的一个实施例中,所述以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络,包括:获取所述第一神经网络输出的回归包围框的信息;基于所述回归包围框的信息与所述第二表格包围框的信息的差异,构建相交损失函数objloss+(1-i)*objloss,其中:Objloss被设置为由所述回归包围框的中心点信息与所述第二表格包围框的中心点信息的差异而确定的回归损失,参数i被设置为所述回归包围框和所述第二表格包围框的相交面积除以所述第二表格包围框的面积而得的比值;以及基于所述相交损失函数objloss+(1-i)*objloss,训练所述第一神经网络。
在本发明的一个实施例中,所述训练所述第二神经网络,包括:按照所述第二表格包围框的信息,从所述第二图像中提取第二表格区域图像;获取对所述第二表格的表格线上的每个点进行标注的第二延伸方向信息,所述第二延伸方向信息包括上、下、左、和右四个延伸方向中的至少一个;以及以所述第二表格区域图像作为训练输入,以所述第二延伸方向信息为输出标准,训练所述第二神经网络以构建所述分类器。
在本发明的一个实施例中,所述训练所述第二神经网络,还包括通过特征金字塔网络FPN方法提取所述第二表格区域图像的特征图。
在本发明实施方式的第三方面,提供了一种图像处理装置。所述图像处理装置包括图像获取模块、表格结构获取模块、以及输出模块。所述图像获取模块用于获取第一图像,所述第一图像包括第一表格。所述表格结构获取模块用于通过神经网络获取所述第一表格的表格结构。所述输出模块用于输出与所述第一表格具有相同表格结构的可编辑表格文件。
在本发明的一个实施例中,所述神经网络包括第一神经网络和第二神经网络。所述表格结构获取模块包括表格区域检测子模块、以及表格线识别子模块。所述表格区域检测子模块用于利用所述第一神经网络检测所述第一表格,以及从所述第一图像中提取包括所述第一表格的第一表格区域图像。所述表格线识别子模块用于利用所述第二神经网络识别所述第一表格区域图像中的表格线,以及基于所述表格线获得所述第一表格的表格结构。
在本发明的一个实施例中,所述利用所述第二神经网络识别所述第一表格区域图像中的表格线包括:检测所述第一表格区域图像中的多个第一点;将每个第一点通过分类器进行分类,以获取每个第一点的第一延伸方向信息,所述第一延伸方向信息用于表征所述第一点在预定方向上是否存在位置相邻的其他第一点;以及基于每个第一点的所述第一延伸方向信息,将所述多个第一点组合以获得所述表格线。
在本发明的一个实施例中,所述装置还包括第一神经网络训练模块,用于训练所述第一神经网络。第一神经网络训练模块具体用于:获取至少一个第二图像,其中所述第二图像包括第二表格;获取第二表格包围框的信息,其中所述第二表格包围框的信息包括将所述第二表格包围框映射到所述第二图像时的中心点信息和尺寸信息,其中,当按照所述第二表格包围框的信息将所述第二表格包围框映射到所述第二图像时,所述第二表格包围框与所述第二表格的边框重合;以及以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络。
在本发明的一个实施例中,所述以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络包括:获取所述第一神经网络输出的回归包围框的信息;基于所述回归包围框的信息与所述第二表格包围框的信息的差异,构建相交损失函数objloss+(1-i)*objloss,其中:Objloss被设置为由所述回归包围框的中心点信息与所述第二表格包围框的中心点信息的差异而确定的回归损失,参数i被设置为所述回归包围框和所述第二表格包围框的相交面积除以所述第二表格包围框的面积而得的比值;以及基于所述相交损失函数objloss+(1-i)*objloss,训练所述第一神经网络。
在本发明的一个实施例中,所述装置还包括第二神经网络训练模块,用于训练所述第二神经网络。第二神经网络训练模块具体用于:按照所述第二表格包围框的信息,从所述第二图像中提取第二表格区域图像;获取对所述第二表格的表格线上的每个点进行标注的第二延伸方向信息,所述第二延伸方向信息包括上、下、左、和右四个延伸方向中的至少一个;以及以所述第二表格区域图像作为训练输入,以所述第二延伸方向信息为输出标准,训练所述第二神经网络以构建所述分类器。
在本发明的一个实施例中,所述训练所述第二神经网络,还包括通过特征金字塔网络FPN方法提取所述第二表格区域图像的特征图。
本发明实施方式的第四方面,提供了一种用于图像处理的神经网络的训练装置。其中,所述神经网络包括第一神经网络和第二神经网络。所述训练装置包括第一神经网络训练模块、和第二神经网络训练模块。所述第一神经网络训练模块用于训练所述第一神经网络,以实现利用所述第一神经网络检测所述第一表格,以及从所述第一图像中提取包括所述第一表格的第一表格区域图像。所述第二神经网络训练模块用于训练所述第二神经网络,以实现利用所述第二神经网络识别所述第一表格区域图像中的表格线,以及基于所述表格线获得所述第一表格的表格结构。
在本发明的一个实施例中,所述第一神经网络训练模块具体用于:获取至少一个第二图像,其中所述第二图像包括第二表格;获取第二表格包围框的信息,其中所述第二表格包围框的信息包括将所述第二表格包围框映射到所述第二图像时的中心点信息和尺寸信息,其中,当按照所述第二表格包围框的信息将所述第二表格包围框映射到所述第二图像时,所述第二表格包围框与所述第二表格的边框重合;以及,以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络。
在本发明的一个实施例中,所述以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络包括:获取所述第一神经网络输出的回归包围框的信息;基于所述回归包围框的信息与所述第二表格包围框的信息的差异,构建相交损失函数objloss+(1-i)*objloss,其中:Objloss被设置为由所述回归包围框的中心点信息与所述第二表格包围框的中心点信息的差异而确定的回归损失,参数i被设置为所述回归包围框和所述第二表格包围框的相交面积除以所述第二表格包围框的面积而得的比值;以及基于所述相交损失函数objloss+(1-i)*objloss,训练所述第一神经网络。
在本发明的一个实施例中,所述第二神经网络训练模块具体用于:按照所述第二表格包围框的信息,从所述第二图像中提取第二表格区域图像;获取对所述第二表格的表格线上的每个点进行标注的第二延伸方向信息,所述第二延伸方向信息包括上、下、左、和右四个延伸方向中的至少一个;以及以所述第二表格区域图像作为训练输入,以所述第二延伸方向信息为输出标准,训练所述第二神经网络以构建所述分类器。
在本发明的一个实施例中,所述第二神经网络训练模块,还用于通过特征金字塔网络FPN方法提取所述第二表格区域图像的特征图。
本发明实施方式的第五方面,提供了一种计算机可读存储介质,其上存储有可执行指令,所述指令在被处理器执行时使处理器执行如上所述的图像处理方法或训练方法。
本发明实施方式的第六方面,提供了一种计算设备。所述计算设备包括一个或多个存储器、以及一个或多个处理器。所述一个或多个存储器存储有可执行指令。所述一个或多个处理器执行所述可执行指令,用以实现如上所述的图像处理方法或训练方法。
根据本发明实施方式的图像处理方法、装置、系统及介质,通过神经网络识别图像中的表格的表格结构,可以适应不同光照和阴影条件下拍摄的图像,提高了表格识别的通用性。
根据本发明的一些实施例,在进行表格线识别时,通过分类器对表格区域图像中的点进行分类,这样可以得到表格区域图像中的点与点之间的位置关系(例如是否位置相邻以及在哪个方向上相邻),然后基于该位置关系将表格区域图像中的点组合,就可以还原出表格图像区域中的表格线。以此方式,在进行表格线识别时对于倾斜和弯曲表格线等场景具有鲁棒性等特点,能够提高表格识别的准确率,为用户带来了更好的体验。
相应地,根据本发明实施方式的用于图像处理的神经网络的训练方法、装置、介质和计算设备,在训练神经网络获得回归包围框时构建了相交损失函数,可以使得通过回归包围框得到的表格区域图像能够囊括表格的边框,而不至于在提取表格区域图像时丢失表格信息。
根据本发明的另一些实施例,在训练神经网络识别表格线时构建了分类器,通过分类器来判断表格区域图像中表格上的点在至少一个方向上是否具有相邻的点,从而可以判断出表格上的点与点的位置关系,然后依照位置关系的组合得到表格线。相比与现有技术中的hough变换检测直线,本发明实施例中表格线的识别将线分解为点来实现,能够有效提高表格线识别的准确率,提高对倾斜表格线、弯曲表格线、或者有断点的表格线的识别的鲁棒性。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1A示意性地示出了根据本发明实施方式的图像处理方法和装置的系统架构;
图1B示意性示出了利用神经网络识别图像中的表格的表格结构的情景;
图2示意性地示出了根据本发明一实施例的图像处理方法的流程图;
图3A示意性地示出了根据本发明另一实施例的图像处理方法的流程图;
图3B示意性地示出了图3A的方法流程示意;
图4A示意性地示出了根据本发明一实施例中识别表格线的方法流程图;
图4B示意性地示出了图4A的方法流程示意;
图5示意性地示出了根据本发明一实施例的训练第一神经网络的流程图;
图6示意性地示出了根据本发明一实施例的构建相交损失函数训练第一神经网络的流程图;
图7示意性地示出了根据本发明一实施例的训练第二神经网络的流程图;
图8示意性地示出了根据本发明实施方式的程序产品的示意图;
图9示意性地示出了根据本发明实施方式的图像处理装置的框图;
图10示意性地示出了根据本发明实施方式的训练装置的框图;以及
图11示意性地示出了根据本发明实施方式的计算设备的框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种图像处理方法、装置、介质及计算设备,以及一种用于图像处理的神经网络的训练方法、装置、介质及计算设备。
在本文中,涉及的术语解释如下:
表格线交点:本发明中,根据表格线上每个点周围预定的一个或多个方向上是否存在相邻点,对表格线上的点进行分类。例如,该预定的一个或多个方向包括上、下、左、和右四个方向,则表格线上的所有点可以分类至上、下、左、和右四个方向对应的类别中,其中一个点可能同时属于多个方向对应的类别。其中,表格线交点就是指同时属于至少两个不平行的方向对应的类别的点;在表格的边界、竖直表格线与水平表格线的相交处可能存在同时具有相互垂直的两个方向的类别的点,这些位于表格的边界、竖直表格线与水平表格线的相交处的这些点就属于表格线交点。
表格线上点:指表格线上除表格线交点之外的点;具体而言,表格线上点为同时属于两个相互平行的方向对应的类别的点。比如竖直表格线有上下两个方向,水平表格线有左右两个方向,竖直表格线或水平表格线上的点就属于表格线上点。
此外,说明书以及附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,在训练神经网络提取图像中的表格区域图像时,当提取的表格区域图像的面积不足以包含实际的表格面积时,通过构建一定损失函数(例如,本发明实施例中的相交损失函数)予以惩罚,能够有效减少图像中表格检测不全的情况。同时,在获得表格区域图像后,将表格线的识别分解为将表格线上的点进行分类,能够提高对表格线识别的准确性和稳定性,进而提高通过神经网络识别图像中表格的表格结构的通用性、准确性和鲁棒性。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1A和图1B。
图1A示意性地示出了根据本发明实施方式的图像处理方法和装置的系统架构。
如图1A所示,该系统架构包括用户终端11、服务器12和网络13。网络13用以在用户终端11和服务器12之间提供通信链路的介质。网络13可以包括各种连接类型,例如无线通信链路或者光纤电缆等等。
用户终端11可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
用户可以使用用户终端11通过网络13与服务器12交互,以接收或发送消息等。例如,用户终端11上可以安装有图像处理应用程序(以下简称客户端)。用户通过用户终端11中安装的客户端向服务器12发送图像处理请求。
服务器12可以是提供各种服务的服务器,例如对用户利用用户终端11发送的图像处理请求提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的图像处理请求等数据进行分析等处理,并将处理结果反馈给用户终端11。服务器12可以提供用于图像处理的神经网络121(如图1B所示)。该神经网络121可以通过训练,来识别图像中表格的表格结构,例如参考图1B所示。
图1B示意性示出了利用神经网络121识别图像中表格的表格结构的情景。如图1B所示,根据本发明的实施例,当将第一图像101输入至神经网络121之后,神经网络121可以对第一图像101进行处理,识别第一图像101中的第一表格111的表格结构102,并输出该表格结构102。从而,服务器12可以向用户终端11反馈具有该表格结构102的可编辑表格文件。需要说明的是,为了对神经网络102在预测阶段和训练阶段所使用的数据进行区分,本文中使用“第一图像”来指代在预测阶段所使用的图像,其中“第一表格”对应为第一图像中的任意一个表格,同时,本文中使用“第二图像”指代在训练神经网络121时进行所使用的图像,其中“第二表格”则对应为第二图像中的任意一个表格。
需要说明的是,本发明实施例所提供的图像处理方法或用于图像处理的神经网络的训练方法可以由服务器12执行。相应地,本发明实施例所提供的图像处理装置、介质和计算设备,或者用于图像处理的神经网络的训练方法的装置、介质和计算设备一般可以设置于服务器12中。本发明实施例所提供的图像处理方法或用于图像处理的神经网络的训练方法也可以由不同于服务器12且能够与用户终端11和/或服务器12通信的其他服务器或服务器集群执行。相应地,本发明实施例所提供的图像处理装置、介质和计算设备,或者用于图像处理的神经网络的训练方法的装置、介质和计算设备也可以设置于不同于服务器12且能够与用户终端11和/或服务器12通信的其他服务器或服务器集群中。本发明实施例所提供的图像处理方法或用于图像处理的神经网络的训练方法也可以部分由用户终端11执行,部分由服务器12执行。相应地,本发明实施例所提供的图像处理装置、介质和计算设备,或者用于图像处理的神经网络的训练方法的装置、介质和计算设备也可以部分设置于用户终端11中,部分设置于服务器12中。
应该理解,图1A中的用户终端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
示例性方法
下面结合图1A的系统架构和图1B的情景,参考图2~图7来描述根据本发明示例性实施方式的图像处理方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
图2示意性地示出了根据本发明一实施例的图像处理方法的流程图。
如图2所示,根据本发明实施例的图像处理方法可以包括操作S210~操作S230。
在操作S210,获取第一图像101,第一图像101包括至少一个第一表格111。可以理解,图1B中第一图像101仅示意了一个第一表格111仅是示例性而非限定性的。
然后在操作S220,通过神经网络121获取第一表格111的表格结构102。
接着在操作S230,输出与第一表格111具有相同表格结构102的可编辑表格文件。
根据本发明实施例,通过神经网络121识别图像中的表格的表格结构,可以适应不同光照和阴影条件下拍摄的图像,提高了表格识别的通用性。在一些实施例中,还可以通过神经网络121识别第一表格111中的字符(例如,“门店”、“家乐福系统”等),从而根据本发明的实施例在操作S230中输出的可编辑表格文件中可以是与第一表格111一致的可编辑表格文件(例如,excel表格)。
根据本发明的一些实施例,神经网络121可以包括第一神经网络和第二神经网络。例如,神经网络121可以是由功能上具有上下游串联关系的第一神经网络和第二神经网络组合而成。在此情况下,根据本发明实施例的图像处理方法可以参考图3A所示。
图3A示意性地示出了根据本发明另一实施例的图像处理方法的流程图。
如图3A所示,根据本发明另一实施例,该图像处理方法可以包括操作S210、操作S321、操作S322以及操作S230。其中操作S210与操作S230与图2中的描述一致,不再赘述。
根据本发明的实施例,操作S220可以被实现为操作S321和操作S322。
在操作S321,利用第一神经网络检测第一表格111,以及从第一图像101中提取包括第一表格111的第一表格区域图像。
然后在操作S322,利用第二神经网络识别第一表格区域图像中的表格线,以及基于该表格线获得第一表格111的表格结构102。
第一神经网络和第二神经网络可以是同种类型的神经网络(例如,可以都是CNN卷积神经网络),也可以是不同种类型的神经网络(例如,第一神经网络是CNN卷积神经网络,第二神经网络是RNN循环神经网络等)。第一神经网络被训练为用于检测和提取图像中的表格区域图像(例如从图像中扣出表格所在区域的图像),第二神经网络被训练为从表格区域图像中识别出表格线,然后根据表格线可以计算出图像中的表格的表格结构。
图3B示意性地示出了图3A的方法流程示意。
结合图3A和图3B,该图像处理方法的一个应用实例的流程可以简述如下:
首先对获取的第一图像101进行预处理,例如改变第一图像101的大小以适应第一神经网络的输入大小。
然后,利用第一神经网络检测第一图像101中的第一表格111。
在检测到至少一个第一表格111时,使用第一神经网络确定每个第一表格111在图像中的位置。例如,可以第一神经网络可以使用回归包围框框出每个第一表格111所在区域。
接着,利用第一神经网络提取第一表格111所在的第一表格区域图像。例如,使用回归包围框从第一图像101中切取出第一表格区域图像。此外,还可以改变切取到的第一表格区域图像的大小,以适应第二神经网络的输入大小。当有M个第一表格111时(M为大于等于1的正整数),对于每个第一表格111可以分别提取出对应的第一表格区域图像。
之后,将该第一表格区域图像输入至第二神经网络,利用第二神经网络来识别表格线。进而,计算表格线的位置、长度等。
接着,第二神经网络基于表格线获取第一表格111的表格结构102。例如,利用表格线的位置和长度计算第一表格111中单元格的位置、大小、以及每个单元格占有的行列数量。
最后,输出具有表格结构102的可编辑表格文件,例如excel表格。
图4A示意性地示出了根据本发明一实施例中操作S322识别表格线的方法流程图。
如图4A所示,操作S322中利用第二神经网络识别第一表格区域图像中的表格线,具体可以包括操作S401~操作S403。
首先在操作S401,检测第一表格区域图像中的多个第一点。在一些实施例中,例如当第一表格区域图像为经过二值化预处理的图像时,该第一点可以是第一表格区域图像中像素值为(255,255,255)的点。换言之,该第一点为第一表格区域图像中空白区域以外的点。
然后在操作S402,将每个第一点通过分类器进行分类,以获取每个第一点的第一延伸方向信息,第一延伸方向信息用于表征第一点在预定方向上是否存在位置相邻的其他第一点。具体地,根据每个第一点周围的预定的一个或多个方向上是否存在相邻的其他第一点,来对每个第一点进行分类。例如,该预定的一个或多个方向可以包括上、下、左、右四个方向,从而可以在操作S402中将每个第一点分类到上、下、左、右四个方向所在的类别。其中,一个点可能同时属于多个不同的类别。例如,如果一个点的上方存在相邻点时,该点就属于向上延伸的类别,同时如果该点的右侧也存在相邻点时,该点同时也属于向右延伸的类别。
根据每个点所在的类别,就可以得到每个点的该延伸方向信息(即,第一延伸方向信息)。例如,当一个点同时被分类到上和左两个类别,就可以知道该点在其上方、以及左侧都有相邻点,该点的延伸方向信息就可以包括上和左两个方向。
接着在操作S403,基于每个第一点的第一延伸方向信息,将多个第一点组合以获得表格线。
例如,当一个点的延伸方向信息包括上和左两个方向,则可以将该点与其上方的点组合得到向上延伸的表格线,同时将该点与其左侧的点组合得到向左延伸的表格线。以此方式,对于在操作S401中检测到的每一个第一点,都按照类似的方式进行组合,就可以还原出表格线。
又例如,根据每个第一点的第一延伸方向信息,可以将操作S401中检测到的多个第一点进一步分类为表格线交点或者表格线上点。然后利用表格线交点和表格线上点各自的特征,与周围点按照连接角度对应相连接还原出表格线。例如,当已知一个点为表格线上点时,当确定将该点与其左侧的点相连后,该点必然且只能与其右侧的点相连。又例如,当已知一个点为表格线交点时,则可以确定该点要么位于表格边界上,要么位于表格内部的竖直表格线与水平表格线的相交处。通过表格线交点,可以快速定位出表格的轮廓形状。
图4B示意性地示出了图4A的方法流程示意。
结合图4A和图4B,根据本发明的实施例,当第一表格区域图像输入至第二神经网络之后,该第二神经网络首先在操作S401中检测该第一表格区域图像中的多个第一点。
然后该第二神经网络在操作S402中可以对检测到的每个第一点进行分类,获得每个第一点的延伸方向信息(即,第一延伸方向信息),然后给予该第一延伸方向信息,可以将操作S401中检测到的多个第一点分为表格线上点和表格线交点,以此方式将表格线的识别分解为表格线上点和表格线交点的识别。例如,使用第二神经网络回归第一表格区域图像中每个第一点的位置信息,同时输出每个第一点的第一延伸方向信息。
接着,该第二神经网络可以在操作S402中,将表格线交点和表格线上点与周围的点相连,还原表格线。
最后,可以根据表格线计算表格的行列数量和每行的位置高度和每列的宽度等,得到第一表格111的表格结构102。
根据本发明的实施例,在进行表格线识别时,通过分类器对表格区域图像中的点进行分类,这样可以得到表格区域图像中的点之间的位置关系(例如是否位置相邻以及在哪个方向上相邻),然后基于该位置关系将表格区域图像中的点组合,就可以还原出表格图像区域中的表格线。以此方式,在进行表格线识别时对于倾斜和弯曲表格线的场景具有鲁棒性等特点,能够提高表格识别的准确率,为用户带来了更好的体验。
根据本发明的实施例,还提供了用于实现图2~图4B的图像处理方法的神经网络121的训练方法。如前所述,该神经网络121可以包括第一神经网络和第二神经网络,该训练方法包括:训练第一神经网络,以实现利用第一神经网络检测第一表格111,并且从第一图像101中提取包括第一表格111的第一表格区域图像;以及训练第二神经网络,以实现利用第二神经网络识别第一表格区域图像中的表格线,并且基于表格线获得第一表格的表格结构102。具体可以参考下文图5~图7的示意性描述。
图5示意性地示出了根据本发明一实施例的训练第一神经网络的流程图。
如图5所示,该训练第一神经网络的方法可以包括操作S510~操作S530。
首先在操作S510,获取至少一个第二图像,其中第二图像包括第二表格。
然后在操作S520,获取第二表格包围框的信息,其中第二表格包围框的信息包括将第二表格包围框映射到第二图像时的中心点信息和尺寸信息,其中,当按照第二表格包围框的信息将第二表格包围框映射到第二图像时,第二表格包围框与第二表格的边框重合。在一个实施例中,当该第二表格包围框为矩形框时,该尺寸信息可以包括该第二表格包围框的长度和宽度,该中心点信息即该第二表格包围框的中心点在该第二图像中的位置信息。根据本发明的实施例,第二表格包围框与第二表格的边框重合,这样通过该第二表格包围框的信息可以告知第一神经网络该第二表格在第二图像中的正确的位置。
接着在操作S530,以第二图像作为输入、以第二表格包围框的信息作为输出标准,训练第一神经网络。具体地,可以获得神经网络121在每一轮训练中输出的回归包围框的信息,然后根据该回归包围框的信息与该第二表格包围框的信息之间的差异,得到一个损失函数,通过该损失函数反复训练第一神经网络。在本发明的一个实施例中,可以通过构建相交损失函数来训练第一神经网络,具体参见如下图6的描述。
图6示意性地示出了根据本发明一实施例的构建相交损失函数训练第一神经网络的流程图。
如图6所示,操作S530具体可以包括操作S601~操作S603。
在操作S601,获取第一神经网络输出的回归包围框的信息。
然后在操作S602,基于回归包围框的信息与第二表格包围框的信息的差异,构建相交损失函数objloss+(1-i)*objloss,其中:Objloss被设置为由回归包围框的中心点信息与第二表格包围框的中心点信息的差异而确定的回归损失,参数i被设置为回归包围框和第二表格包围框的相交面积除以第二表格包围框的面积而得的比值。在一个实施例中,中心点信息可以通过中心点的坐标来表征,其中,回归包围框的中心点信息与第二表格包围框的中心点信息的差异可以通过两个中心点的坐标之间的距离(例如,欧式距离)来表征。例如,假设回归包围框的中心点信息为(x′c,y′c),以及第二表格包围框的中心点信息为(xc,yc),则回归包围框的中心点信息与第二表格包围框的中心点信息的差异可以是
Figure BDA0002024681360000171
接着在操作S603,基于相交损失函数objloss+(1-i)*objloss,训练第一神经网络。
根据本发明的实施例,该相交损失函数objloss+(1-i)*objloss中,参数i代表的是第一神经网络预测得到的回归包围框与第二表格包围框所代表的正确包围框的相交面积除以正确包围框的面积后的值。参数i的取值范围为[0,1]。因此,当回归包围框的面积能够覆盖第二表格在第二图像中的实际面积时,参数i取值为1,此时该相交损失函数的值仅剩下Objloss部分;而当回归包围框的面积不足以包含第二表格在第二图像中的实际面积时,参数i的值就会小于1,此时通过该相交损失函数objloss+(1-i)*objloss就可以对第一神经网络施以更大的损失值予以惩罚。以此方式,可以有效减少第一神经网络对表格区域检测不全的情况,可以较好地保证表格区域检测的完整性。
图7示意性地示出了根据本发明一实施例的训练第二神经网络的流程图。
如图7所示,该训练第二神经网络的方法可以包括操作S710~操作S730。
在操作S710,按照第二表格包围框的信息,从第二图像中提取第二表格区域图像。
然后在操作S720,获取对第二表格的表格线上的每个点进行标注的第二延伸方向信息,第二延伸方向信息包括上、下、左、和右四个延伸方向中的至少一个。
接着在操作S730,以第二表格区域图像作为训练输入,以第二延伸方向信息为输出标准,训练第二神经网络以构建分类器。根据本发明的实施例,可以构建上、下、左、和右四个方向上的四个二分类器,分别回归每个点在对应方向的延伸方向信息。
根据本发明的一些实施例,在图7所示的方法中在操作S710和操作S720之间,还可以通过特征金字塔网络FPN方法提取第二表格区域图像的特征图。考虑到第二表格区域图像中的表格线可能会比较密集,过小的特征图(featuremap)难以回归出比较小的表格结构,因此在训练第二神经网络来构建分类器时,可以使用特征金字塔网络FPN方法,进行两次上采样后输出特征图。另外由于表格线的识别依赖较多低层特征,在提取特征图时,通过FPN方法可以增加低层特征的shortcut连接。这样,既能够突出全局特征的提取,同时也能够避免丢失低层的局部特征。
根据本发明的实施例,在表格线识别过程中将线分解为点来实现,可以达到的有益效果例如可以包括:其一,直接识别表格线可能存在一条线识别成两条断开的线,或者可能出现整条线漏检,而分解为点后,少量点的检测错误基本不会影响整条线的判断,从而提高稳定性;其二,识别线时线的端点、交点等位置容易出现误判,而点的位置比较准确;其三,hough变换检测直线等方法,无法准确识别曲线,只能判断直线,而连续的点连接能够识别出任意的形状,对曲线效果很好,提升了第二神经网络在识别表格线方面的适应能力。
示例性介质
在介绍了本发明示例性实施方式的方法之后,接下来,参考图8对本发明示例性实施方式的计算机可读存储介质进行介绍。
本发明实施方式还提供了一种计算机可读存储介质,其上存储有可执行指令,所述指令在被处理器执行时使处理器执行参考图2~图7所描述的图像处理方法、或参考图5~图7所描述的训练方法。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算设备上运行时,所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的图像处理方法中的操作,例如,计算设备可以执行如图2中所示的操作S210,获取第一图像101,第一图像101包括至少一个第一表格111;操作S220,通过神经网络121获取第一表格111的表格结102;或者操作S230,输出与第一表格111具有相同表格结构102的可编辑表格文件。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
图8示意性地示出了根据本发明实施方式的程序产品的示意图。如图8所示,该程序产品800可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆,RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言——诸如Java,C++等,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性装置
在介绍了本发明示例性实施方式的介质之后,接下来,参考图9对本发明示例性实施方式的图像处理装置进行描述。
图9示意性地示出了根据本发明实施方式的图像处理装置900的框图。
如图9所示,该装置900可以包括图像获取模块910、表格结构获取模块920、输出模块930。图像获取模块910用于获取第一图像101,第一图像101包括至少一个第一表格111(操作S210)。表格结构获取模块920用于通过神经网络121获取第一表格111的表格结构102(操作S220)。输出模块930用于输出与第一表格111具有相同表格结构102的可编辑表格文件(操作S230)。
根据本发明的实施例,神经网络121包括第一神经网络和第二神经网络,表格结构获取模块920可以包括表格区域检测子模块921和表格线识别子模块922。其中,表格区域检测子模块921用于利用第一神经网络检测第一表格111,以及从第一图像101中提取包括第一表格111的第一表格区域图像(操作S321)。表格线识别子模块922用于利用第二神经网络识别第一表格区域图像中的表格线,以及基于表格线获得第一表格111的表格结构102(操作S322)。
根据本发明的实施例,利用第二神经网络识别第一表格区域图像中的表格线包括:检测第一表格区域图像中的多个第一点(操作S401);将每个第一点通过分类器进行分类,以获取每个第一点的第一延伸方向信息,第一延伸方向信息用于表征第一点在预定方向上是否存在位置相邻的其他第一点(操作S402);以及基于每个第一点的第一延伸方向信息,将多个第一点组合以获得表格线(操作S403)。
根据本发明的实施例,装置900还包括第一神经网络训练模块940,用于训练第一神经网络。第一神经网络训练模块940具体用于:获取至少一个第二图像,其中第二图像包括第二表格(操作S510);获取第二表格包围框的信息,其中第二表格包围框的信息包括将第二表格包围框映射到第二图像时的中心点信息和尺寸信息,其中,当按照第二表格包围框的信息将第二表格包围框映射到第二图像时,第二表格包围框与第二表格的边框重合(操作S520);以及以第二图像作为输入、以第二表格包围框的信息作为输出标准,训练第一神经网络(操作S530)。
根据本发明的实施例,以第二图像作为输入、以第二表格包围框的信息作为输出标准,训练第一神经网络包括:获取第一神经网络输出的回归包围框的信息(操作S601);基于回归包围框的信息与第二表格包围框的信息的差异,构建相交损失函数objloss+(1-i)*objloss,其中:Objloss被设置为由回归包围框的中心点信息与第二表格包围框的中心点信息的差异而确定的回归损失,参数i被设置为回归包围框和第二表格包围框的相交面积除以第二表格包围框的面积而得的比值(操作S602);以及基于相交损失函数objloss+(1-i)*objloss,训练第一神经网络(操作S603)。
根据本发明的实施例,装置900还包括第二神经网络训练模块950,用于训练第二神经网络。第二神经网络训练模块950具体用于:按照第二表格包围框的信息,从第二图像中提取第二表格区域图像(操作S710);获取对第二表格的表格线上的每个点进行标注的第二延伸方向信息,第二延伸方向信息包括上、下、左、和右四个延伸方向中的至少一个(操作S720);以及以第二表格区域图像作为训练输入,以第二延伸方向信息为输出标准,训练第二神经网络以构建分类器(操作S730)。
根据本发明的实施例,第二神经网络训练模块950还用于通过特征金字塔网络FPN方法提取第二表格区域图像的特征图。
根据本发明的实施例,该装置900可以用于实现参考图2~图7所描述的图像处理方法。
图10示意性地示出了根据本发明实施方式的训练装置1000的框图。
如图10所示,该训练装置1000可以包括第一神经网络训练模块940和第二神经网络训练模块950。其中,该第一神经网络训练模块940与该第二神经网络训练模块950与图9中所描述的一致,此处不再赘述。
根据本发明的实施例,该训练装置1000可以用于实现参考图5~图7所描述的训练方法,用于训练第一神经网络,以实现利用第一神经网络检测第一表格111,并且从第一图像101中提取包括第一表格111的第一表格区域图像;以及训练第二神经网络,以实现利用第二神经网络识别第一表格区域图像中的表格线,并且基于表格线获得第一表格111的表格结构102。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图11对本发明示例性实施方式的计算设备进行说明。
本发明实施方式还提供了一种计算设备。所述计算设备包括一个或多个存储器、以及一个或多个处理器。所述一个或多个存储器存储有可执行指令。所述一个或多个处理器执行所述可执行指令,用以实现参考图2~图7所描述的图像处理方法、或参考图5~图7所描述的训练方法。
图11示意性地示出了根据本发明实施方式的计算设备的框图。
本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的图像处理方法中的操作。例如,处理单元可以执行如图2中所示的操作S210,获取第一图像101,第一图像101包括至少一个第一表格111;操作S220,通过神经网络121获取第一表格111的表格结102;或者操作S230,输出与第一表格111具有相同表格结构102的可编辑表格文件。
下面参照图11来描述根据本发明的这种实施方式的计算设备1100。如图11所示的计算设备1100仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图11所示,计算设备1100以通用计算设备的形式表现。计算设备110的组件可以包括但不限于:上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130。
总线1130包括数据总线、控制总线和地址总线。
存储单元1120可以包括易失性存储器,例如随机存取存储器(RAM)1121和/或高速缓存存储器1122,还可以进一步包括只读存储器(ROM)1123。
存储单元1120还可以包括具有一组(至少一个)程序模块1124的程序/实用工具1125,这样的程序模块1124包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备1100也可以与一个或多个外部设备1140(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口1150进行。并且,计算设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1160通过总线1130与计算设备1100的其它模块通信。应当明白,尽管图中未示出,可以结合计算设备1100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (24)

1.一种图像处理方法,包括:
获取第一图像,所述第一图像包括至少一个第一表格;
通过神经网络获取所述第一表格的表格结构,其中,包括:
检测第一表格区域图像中的多个第一点,其中,所述多个第一点包括表格线交点或者表格线上点;
将所述表格线交点和所述表格线上点对应相连接以获得表格线;
以及
输出与所述第一表格具有相同表格结构的可编辑表格文件;
其中,所述将所述表格线交点和所述表格线上点对应相连接以获得表格线包括:
将每个第一点通过分类器进行分类,以获取每个所述第一点的第一延伸方向信息,所述第一延伸方向信息用于表征所述第一点在一个或多个预定方向上是否存在位置相邻的其他第一点;
基于每个第一点的所述第一延伸方向信息,将所述多个第一点分类为表格线交点或者表格线上点;
基于每个所述表格线交点或者每个表格线上点各自的第一延伸方向信息,将所述多个第一点组合以获得所述表格线。
2.根据权利要求1所述的方法,其中,所述神经网络包括第一神经网络和第二神经网络,所述通过神经网络获取所述第一表格的表格结构包括:
利用所述第一神经网络检测所述第一表格,以及从所述第一图像中提取包括所述第一表格的所述第一表格区域图像;
利用所述第二神经网络识别所述第一表格区域图像中的表格线,以及基于所述表格线获得所述第一表格的表格结构。
3.根据权利要求2所述的方法,其中,所述方法还包括训练所述第一神经网络,包括:
获取至少一个第二图像,其中所述第二图像包括第二表格;
获取第二表格包围框的信息,其中所述第二表格包围框的信息包括将所述第二表格包围框映射到所述第二图像时的中心点信息和尺寸信息,其中,当按照所述第二表格包围框的信息将所述第二表格包围框映射到所述第二图像时,所述第二表格包围框与所述第二表格的边框重合;以及
以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络。
4.根据权利要求3所述的方法,其中,所述以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络,包括:
获取所述第一神经网络输出的回归包围框的信息;
基于所述回归包围框的信息与所述第二表格包围框的信息的差异,构建相交损失函数objloss+(1-i)*objloss,其中:Objloss被设置为由所述回归包围框的中心点信息与所述第二表格包围框的中心点信息的差异而确定的回归损失,参数i被设置为所述回归包围框和所述第二表格包围框的相交面积除以所述第二表格包围框的面积而得的比值;以及
基于所述相交损失函数objloss+(1-i)*objloss,训练所述第一神经网络。
5.根据权利要求3所述的方法,其中,所述方法还包括训练所述第二神经网络,包括:
按照所述第二表格包围框的信息,从所述第二图像中提取第二表格区域图像;
获取对所述第二表格的表格线上的每个点进行标注的第二延伸方向信息,所述第二延伸方向信息包括上、下、左、和右四个延伸方向中的至少一个;以及
以所述第二表格区域图像作为训练输入,以所述第二延伸方向信息为输出标准,训练所述第二神经网络以构建所述分类器。
6.根据权利要求5所述的方法,其中,所述训练所述第二神经网络还包括:
通过特征金字塔网络FPN方法提取所述第二表格区域图像的特征图。
7.一种用于图像处理的神经网络的训练方法,其中,所述神经网络包括第一神经网络和第二神经网络,所述训练方法包括:
训练所述第一神经网络,以实现利用所述第一神经网络检测至少一个第一表格,以及从第一图像中提取包括所述第一表格的第一表格区域图像;
训练所述第二神经网络,以实现利用所述第二神经网络识别所述第一表格区域图像中的表格线,以及基于所述表格线获得所述第一表格的表格结构;其中,包括:
利用所述第二神经网络检测所述第一表格区域图像中的多个第一点,其中,所述多个第一点包括表格线交点或者表格线上点;
将所述表格线交点和所述表格线上点对应相连接以获得表格线;
其中,所述训练所述第二神经网络还包括:
按照第二表格包围框的信息,从第二图像中提取第二表格区域图像;
获取对所述第二表格的表格线上的每个点进行标注的第二延伸方向信息,所述第二延伸方向信息包括上、下、左、和右四个延伸方向中的至少一个;以及
以所述第二表格区域图像作为训练输入,以所述第二延伸方向信息为输出标准,训练所述第二神经网络以构建分类器,其中,基于所述每个点的所述第二延伸方向信息,将所述每个点分类为表格线交点或者表格线上点。
8.根据权利要求7所述的训练方法,其中,所述训练所述第一神经网络包括:
获取至少一个所述第二图像,其中所述第二图像包括所述第二表格;
获取所述第二表格包围框的信息,其中所述第二表格包围框的信息包括将所述第二表格包围框映射到所述第二图像时的中心点信息和尺寸信息,其中,当按照所述第二表格包围框的信息将所述第二表格包围框映射到所述第二图像时,所述第二表格包围框与所述第二表格的边框重合;
以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络。
9.根据权利要求8所述的训练方法,其中,所述以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络,包括:
获取所述第一神经网络输出的回归包围框的信息;
基于所述回归包围框的信息与所述第二表格包围框的信息的差异,构建相交损失函数objloss+(1-i)*objloss,其中:Objloss被设置为由所述回归包围框的中心点信息与所述第二表格包围框的中心点信息的差异而确定的回归损失,参数i被设置为所述回归包围框和所述第二表格包围框的相交面积除以所述第二表格包围框的面积而得的比值;以及
基于所述相交损失函数objloss+(1-i)*objloss,训练所述第一神经网络。
10.根据权利要求7所述的训练方法,其中,所述训练所述第二神经网络还包括:
通过特征金字塔网络FPN方法提取所述第二表格区域图像的特征图。
11.一种图像处理装置,包括:
图像获取模块,用于获取第一图像,所述第一图像包括至少一个第一表格;
表格结构获取模块,用于通过神经网络获取所述第一表格的表格结构;其中,包括:
检测第一表格区域图像中的多个第一点,其中,所述多个第一点包括表格线交点或者表格线上点;
将所述表格线交点和所述表格线上点对应相连接以获得表格线;
以及
输出模块,用于输出与所述第一表格具有相同表格结构的可编辑表格文件;
其中,所述将所述表格线交点和所述表格线上点对应相连接以获得表格线包括:
将每个第一点通过分类器进行分类,以获取每个所述第一点的第一延伸方向信息,所述第一延伸方向信息用于表征所述第一点在一个或多个预定方向上是否存在位置相邻的其他第一点;
基于每个第一点的所述第一延伸方向信息,将所述多个第一点分类为表格线交点或者表格线上点;
基于每个所述表格线交点或者每个表格线上点各自的第一延伸方向信息,将所述多个第一点组合以获得所述表格线。
12.根据权利要求11所述的装置,其中,所述神经网络包括第一神经网络和第二神经网络,所述表格结构获取模块包括:
表格区域检测子模块,用于利用所述第一神经网络检测所述第一表格,以及从所述第一图像中提取包括所述第一表格的所述第一表格区域图像;
表格线识别子模块,用于利用所述第二神经网络识别所述第一表格区域图像中的表格线,以及基于所述表格线获得所述第一表格的表格结构。
13.根据权利要求11所述的装置,其中,所述装置还包括第一神经网络训练模块,用于训练所述第一神经网络,具体用于:
获取至少一个第二图像,其中所述第二图像包括第二表格;
获取第二表格包围框的信息,其中所述第二表格包围框的信息包括将所述第二表格包围框映射到所述第二图像时的中心点信息和尺寸信息,其中,当按照所述第二表格包围框的信息将所述第二表格包围框映射到所述第二图像时,所述第二表格包围框与所述第二表格的边框重合;以及
以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络。
14.根据权利要求13所述的装置,其中,所述以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络,包括:
获取所述第一神经网络输出的回归包围框的信息;
基于所述回归包围框的信息与所述第二表格包围框的信息的差异,构建相交损失函数objloss+(1-i)*objloss,其中:Objloss被设置为由所述回归包围框的中心点信息与所述第二表格包围框的中心点信息的差异而确定的回归损失,参数i被设置为所述回归包围框和所述第二表格包围框的相交面积除以所述第二表格包围框的面积而得的比值;以及
基于所述相交损失函数objloss+(1-i)*objloss,训练所述第一神经网络。
15.根据权利要求13所述的装置,其中,所述装置还包括第二神经网络训练模块,用于训练所述第二神经网络,具体用于:
按照所述第二表格包围框的信息,从所述第二图像中提取第二表格区域图像:
获取对所述第二表格的表格线上的每个点进行标注的第二延伸方向信息,所述第二延伸方向信息包括上、下、左、和右四个延伸方向中的至少一个;以及
以所述第二表格区域图像作为训练输入,以所述第二延伸方向信息为输出标准,训练所述第二神经网络以构建所述分类器。
16.根据权利要求15所述的装置,其中,所述第二神经网络训练模块还用于:
通过特征金字塔网络FPN方法提取所述第二表格区域图像的特征图。
17.一种用于图像处理的神经网络的训练装置,其中,所述神经网络包括第一神经网络和第二神经网络,所述训练装置包括:
第一神经网络训练模块,用于训练所述第一神经网络,以实现利用所述第一神经网络检测至少一个第一表格,以及从第一图像中提取包括所述第一表格的第一表格区域图像;以及
第二神经网络训练模块,用于训练所述第二神经网络,以实现利用所述第二神经网络识别所述第一表格区域图像中的表格线,以及基于所述表格线获得所述第一表格的表格结构;其中,包括:
利用所述第二神经网络检测所述第一表格区域图像中的多个第一点,其中,所述多个第一点包括表格线交点或者表格线上点;
将所述表格线交点和所述表格线上点对应相连接以获得表格线;
其中,所述训练所述第二神经网络还包括:
按照第二表格包围框的信息,从第二图像中提取第二表格区域图像;
获取对所述第二表格的表格线上的每个点进行标注的第二延伸方向信息,所述第二延伸方向信息包括上、下、左、和右四个延伸方向中的至少一个;以及
以所述第二表格区域图像作为训练输入,以所述第二延伸方向信息为输出标准,训练所述第二神经网络以构建分类器,其中,基于所述每个点的所述第二延伸方向信息,将所述每个点分类为表格线交点或者表格线上点。
18.根据权利要求17所述的训练装置,其中,所述第一神经网络训练模块具体用于:
获取至少一个所述第二图像,其中所述第二图像包括所述第二表格;
获取所述第二表格包围框的信息,其中所述第二表格包围框的信息包括将所述第二表格包围框映射到所述第二图像时的中心点信息和尺寸信息,其中,当按照所述第二表格包围框的信息将所述第二表格包围框映射到所述第二图像时,所述第二表格包围框与所述第二表格的边框重合;
以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络。
19.根据权利要求18所述的训练装置,其中,所述以所述第二图像作为输入、以所述第二表格包围框的信息作为输出标准,训练所述第一神经网络,包括:
获取所述第一神经网络输出的回归包围框的信息;
基于所述回归包围框的信息与所述第二表格包围框的信息的差异,构建相交损失函数objloss+(1-i)*objloss,其中:Objloss被设置为由所述回归包围框的中心点信息与所述第二表格包围框的中心点信息的差异而确定的回归损失,参数i被设置为所述回归包围框和所述第二表格包围框的相交面积除以所述第二表格包围框的面积而得的比值;以及
基于所述相交损失函数objloss+(1-i)*objloss,训练所述第一神经网络。
20.根据权利要求17所述的训练装置,其中,所述第二神经网络训练模块,还用于通过特征金字塔网络FPN方法提取所述第二表格区域图像的特征图。
21.一种计算机可读存储介质,其上存储有可执行指令,所述指令在被处理器执行时使处理器执行根据权利要求1~6任意一项所述的方法。
22.一种计算机可读存储介质,其上存储有可执行指令,所述指令在被处理器执行时使处理器执行根据权利要求8~10任意一项所述的训练方法。
23.一种计算设备,包括:
一个或多个存储器,存储有可执行指令;
一个或多个处理器,执行所述可执行指令,用以实现根据权利要求1~6任意一项所述的方法。
24.一种计算设备,包括:
一个或多个存储器,存储有可执行指令;
一个或多个处理器,执行所述可执行指令,用以实现根据权利要求8~10任意一项所述的训练方法。
CN201910296967.1A 2019-04-11 2019-04-11 图像处理方法和训练方法、以及装置、介质、计算设备 Active CN110008923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910296967.1A CN110008923B (zh) 2019-04-11 2019-04-11 图像处理方法和训练方法、以及装置、介质、计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910296967.1A CN110008923B (zh) 2019-04-11 2019-04-11 图像处理方法和训练方法、以及装置、介质、计算设备

Publications (2)

Publication Number Publication Date
CN110008923A CN110008923A (zh) 2019-07-12
CN110008923B true CN110008923B (zh) 2021-07-27

Family

ID=67171682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910296967.1A Active CN110008923B (zh) 2019-04-11 2019-04-11 图像处理方法和训练方法、以及装置、介质、计算设备

Country Status (1)

Country Link
CN (1) CN110008923B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633660B (zh) * 2019-08-30 2022-05-31 盈盛智创科技(广州)有限公司 一种文档识别的方法、设备和存储介质
US11380116B2 (en) 2019-10-22 2022-07-05 International Business Machines Corporation Automatic delineation and extraction of tabular data using machine learning
CN112906532B (zh) * 2021-02-07 2024-01-05 杭州睿胜软件有限公司 图像处理方法和装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295678A (zh) * 2016-07-27 2017-01-04 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
CN107563412A (zh) * 2017-08-09 2018-01-09 浙江大学 一种基于深度学习的红外图像电力设备实时检测方法
CN108416279A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 文档图像中的表格解析方法及装置
CN108491788A (zh) * 2018-03-20 2018-09-04 上海眼控科技股份有限公司 一种用于财务报表单元格的智能提取方法及装置
CN109447007A (zh) * 2018-12-19 2019-03-08 天津瑟威兰斯科技有限公司 一种基于表格节点识别的表格结构补全算法
CN109522816A (zh) * 2018-10-26 2019-03-26 北京慧流科技有限公司 表格识别方法及装置、计算机存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5783972B2 (ja) * 2012-08-17 2015-09-24 株式会社東芝 手書き文書処理装置、方法およびプログラム
CN108205803B (zh) * 2017-07-19 2020-12-25 北京市商汤科技开发有限公司 图像处理方法、神经网络模型的训练方法及装置
CN109087377B (zh) * 2018-08-03 2019-11-12 北京字节跳动网络技术有限公司 用于处理图像的方法和装置
CN109117814B (zh) * 2018-08-27 2020-11-03 京东数字科技控股有限公司 图像处理方法、装置、电子设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295678A (zh) * 2016-07-27 2017-01-04 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
CN107563412A (zh) * 2017-08-09 2018-01-09 浙江大学 一种基于深度学习的红外图像电力设备实时检测方法
CN108416279A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 文档图像中的表格解析方法及装置
CN108491788A (zh) * 2018-03-20 2018-09-04 上海眼控科技股份有限公司 一种用于财务报表单元格的智能提取方法及装置
CN109522816A (zh) * 2018-10-26 2019-03-26 北京慧流科技有限公司 表格识别方法及装置、计算机存储介质
CN109447007A (zh) * 2018-12-19 2019-03-08 天津瑟威兰斯科技有限公司 一种基于表格节点识别的表格结构补全算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Real-Time Document Localization in Natural Images by Recursive Application of a CNN";Khurram Javed et al.;《IEEE》;20180129;全文 *
"复杂版面文档图像表格与图的提取及分析";卞静潇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第03期);全文 *
"表单识别中的关键问题研究";何柳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160615(第06期);全文 *

Also Published As

Publication number Publication date
CN110008923A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN109948507B (zh) 用于检测表格的方法和装置
KR20210042864A (ko) 테이블 식별 방법, 장치, 기기, 매체 및 컴퓨터 프로그램
CN111062312A (zh) 手势识别方法、手势控制方法、装置、介质与终端设备
CN110008923B (zh) 图像处理方法和训练方法、以及装置、介质、计算设备
CN109934229B (zh) 图像处理方法、装置、介质和计算设备
CN111382717A (zh) 一种表格识别方法、装置和计算机可读存储介质
CN112380981B (zh) 人脸关键点的检测方法、装置、存储介质及电子设备
CN109919077B (zh) 姿态识别方法、装置、介质和计算设备
CN112507806B (zh) 智慧课堂信息交互方法、装置及电子设备
CN105631393A (zh) 信息识别方法及装置
CN103814351A (zh) 基于协同姿势的输入语言
CN113095434A (zh) 目标检测方法及装置、电子设备、存储介质
US10380164B2 (en) System and method for using on-image gestures and multimedia content elements as search queries
US20230334880A1 (en) Hot word extraction method and apparatus, electronic device, and medium
CN113255501B (zh) 生成表格识别模型的方法、设备、介质及程序产品
JP2022185143A (ja) テキスト検出方法、テキスト認識方法及び装置
CN113205047A (zh) 药名识别方法、装置、计算机设备和存储介质
CN111651971A (zh) 一种表格信息转录方法、系统、电子设备和存储介质
US11881044B2 (en) Method and apparatus for processing image, device and storage medium
CN110826619A (zh) 电子卷宗的文件分类方法、装置及电子设备
CN113673214B (zh) 信息清单的对齐方法、装置、存储介质和电子设备
CN115761778A (zh) 一种文献重构方法、装置、设备和存储介质
CN113486171B (zh) 一种图像处理方法及装置、电子设备
WO2022105120A1 (zh) 图片文字检测方法、装置、计算机设备及存储介质
CN114067145A (zh) 无源分光器检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant