CN111563453A - 用于确定表格顶点的方法、装置、设备和介质 - Google Patents
用于确定表格顶点的方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN111563453A CN111563453A CN202010375594.XA CN202010375594A CN111563453A CN 111563453 A CN111563453 A CN 111563453A CN 202010375594 A CN202010375594 A CN 202010375594A CN 111563453 A CN111563453 A CN 111563453A
- Authority
- CN
- China
- Prior art keywords
- determining
- vertex
- candidate
- outer frame
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了用于确定表格顶点的方法、装置、电子设备和存储介质,涉及人工智能技术领域。该方法的一具体实施方式包括:确定图片中表格的外框轮廓点;确定该图片中的干扰图案所在的区域,该干扰图案遮盖部分表格;基于外框轮廓点,确定表格的候选顶点;根据该候选顶点以及干扰图案所在的区域,确定所述表格的顶点。该实施方式抗干扰能力强,提高了表格顶点确定的准确性。
Description
技术领域
本申请实施例涉及计算机技术领域,具体涉及人工智能技术领域,尤其涉及一种用于确定表格顶点的方法和装置。
背景技术
随着人工智能技术(AI)的不断进步,使用AI来进行文档影像的智能分析越来越多。AI可以对影像进行方向和歪斜矫正、进行布局分析、进行内容识别等等,这些能力可以极大的方便各类涉及对影像文档进行录入、审核等的工作人员,极大的提升各类业务流程的智能化。
现有技术中,针对含有表格的文档影像,AI可以基于表格顶点对文档图像的方向和歪斜进行矫正,然而,当表格顶点被干扰图案遮盖时,无法准确性地确定出表格顶点,抗干扰能力弱。
发明内容
本申请实施例提供了一种用于确定表格顶点的方法、装置、设备和介质。
根据第一方面,提供了一种用于确定表格顶点的方法,该方法包括:确定图片中表格的外框轮廓点;确定上述图片中的干扰图案所在的区域,干扰图案遮盖部分表格;基于上述外框轮廓点,确定表格的候选顶点;根据上述候选顶点以及上述干扰图案所在的区域,确定表格的顶点。
根据第二方面,提供了一种用于确定表格顶点的装置,包括:轮廓点确定模块,被配置成确定图片中表格的外框轮廓点;干扰图案检测模块,被配置成确定上述图片中的干扰图案所在的区域,该干扰图案遮盖部分表格;候选顶点确定模块,被配置成基于外框轮廓点,确定表格的候选顶点;表格顶点确定模块,被配置成根据候选顶点以及干扰图案所在的区域,确定表格的顶点。
根据第三方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够实现如第一方面描述的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,上述计算机指令用于使计算机执行如第一方面中描述的方法。
根据本申请的技术解决了当表格顶点被干扰图案遮盖时,无法准确性地确定出表格顶点的问题,提高了表格顶点确定的准确性,抗干扰能力强。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于确定表格顶点的方法的一个实施例的流程图;
图3是根据本申请的用于确定表格顶点的方法的一个应用场景示意图;
图4是根据本申请的用于确定表格顶点的方法的另一个实施例的流程图;
图5是根据本申请的用于确定表格顶点的装置的一个实施例的结构示意图;
图6是用来实现本申请实施例的用于确定表格顶点方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如文档影像识别类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有摄像头并且支持图像浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的图像提供支持的后台图像处理服务器。后台图像处理服务器可以对接收到的图像进行分析等处理,并将处理结果(例如表格的顶点信息)反馈给终端设备。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请的实施例所提供的用于确定表格顶点的方法一般由服务器105执行。相应地,用于确定表格顶点的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,其示出了根据本申请的用于确定表格顶点的方法的一个实施例的流程200。该用于确定表格顶点的方法,包括以下步骤:
步骤201,确定图片中表格的外框轮廓点。
在本实施例中,用于确定表格顶点的方法的执行主体(例如图1所示的服务器105)可以通过多种方式获取图片。例如,执行主体可以从本地或非本地组件(例如图1所示的终端设备101、102、103)中获取图片。上述图片中可以包括表格,其中表格由一行或多行单元格组成,包含全部单元格的最外层的边框为表格的外框轮廓。
本实施例中,执行主体可以确定图片中表格的外框轮廓点。具体的,执行主体可以首先获取图片中所有轮廓点的位置坐标;然后,根据轮廓点的位置坐标,去除分离的轮廓点;最后从剩余的轮廓点中确定出最外围的轮廓点为外框轮廓点。
步骤202,确定图片中的干扰图案所在的区域。
在本实施例中,上述执行主体可以确定图片中的干扰图案所在区域的位置信息,干扰图案所在的区域遮盖部分表格。其中,干扰图案是影响确定表格外框轮廓点的图像,干扰图案是可以是印章、水印等。干扰图案所在的区域是干扰图案外轮廓所围成的区域,干扰图案所在的区域可以基于现有的深度学习目标检测技术、深度学习语义分割技术和霍夫变换检测圆技术之一或组合来确定。
举例来说,干扰图案为印章时,应用深度学习目标检测技术去识别印章所在区域的位置信息,应用霍夫变换检测圆技术识别出印章的圆心位置以及半径大小。
步骤203,基于外框轮廓点,确定表格的候选顶点。
在本实施例中,上述执行主体根据步骤201中确定的外框轮廓点,确定表格的候选顶点,例如,执行主体基于外框轮廓点的位置坐标,确定在水平方向上距离最大的多个点对,然后再确定在竖直方向上距离最大的多个点对。将两次得到的多个点对之间重合的各点作为表格的候选顶点。
步骤204,根据候选顶点以及干扰图案所在的区域,确定表格的顶点。
在本实施例中,上述执行主体根据步骤202确定的干扰图案所在的区域和步骤203确定表格的候选顶点,确定表格的顶点坐标。例如,首先根据候选顶点找到与之共线的辅助点,然后,确定同时穿过候选顶点与辅助点的辅助线,最后,确定辅助线的交点为表格的顶点。
继续参见图3,图3是根据本实施例的用于确定表格顶点的方法的一个应用场景的示意图。在图3的应用场景中,执行主体为手机。手机获取到待处理的图片,该图片中包括表格和干扰图案A。手机可以首先确定图片中表格的外框轮廓点。而后,确定图片中的干扰图案A所在的区域。然后,基于外框轮廓点,确定表格的候选顶点。最后,根据候选顶点以及干扰图案A所在的区域,确定表格的顶点(b、c、d、e)。其中,顶点b、c、d是未被干扰图案遮挡的顶点,顶点e是被干扰图案遮挡的顶点。
本申请的上述实施例提供的用于确定表格顶点的方法,可以根据候选顶点以及干扰图案所在的区域,确定表格的顶点,提高了表格顶点确定的准确性,抗干扰能力强。
继续参见图4,其示出了根据本申请的用于确定表格顶点的方法的另一个实施例的流程400。如图4所示,本实施例的用于确定表格顶点的方法可以包括以下步骤:
步骤401,确定图片中表格的外框轮廓点。
步骤402,确定图片中的干扰图案所在的区域。
在本实施例中,步骤401-402的具体操作与图2所示的实施例中步骤401-402的操作基本相同,在此不再赘述。
步骤403,确定外框轮廓点的最小外接圆,并确定最小外接圆的圆心。
本实施例中,上述执行主体基于所有表格外框轮廓点的位置坐标,确定所有外框轮廓点的最小外接圆,并计算最小外接圆的圆心位置坐标。
步骤404,根据外框轮廓点与圆心的距离,确定候选顶点。
本实施例中,上述执行主体根据外框轮廓点与圆心的距离,确定候选顶点。例如,执行主体可以根据各外框轮廓点与圆心的距离,对各外框轮廓点进行排序。从排序中的前预设数量个外框轮廓点选取4个作为候选顶点。
在本实施例的一些可选的实现方式中,执行主体可以通过以下步骤来确定候选顶点:
首先,基于所有表格外框轮廓点的位置坐标和圆心的位置坐标,计算所有表格外框轮廓点与圆心的距离,并按距离从大到小排序。
然后,选取与圆心的距离最大的表格外框轮廓点为第一候选顶点。
从与第一候选顶点距离大于第一阈值(如50个像素)的表格外框轮廓点中,确定与圆心的距离最大的表格外框轮廓点为第二候选顶点。
根据第一候选顶点和第二候选顶点,构建直角坐标系。其中,直角坐标系以第一候选顶点和第二候选顶点连线的中点为原点,且第一候选顶点和第二候选顶点位于所述直角坐标系的不同象限内。
最后,从除第一候选顶点、第二候选顶点所在象限以外的象限中,确定与圆心的距离最大的表格外框轮廓点为第三候选顶点。
从除第一候选顶点、第二候选顶点和第三候选顶点所在象限以外的象限包括的表格外框轮廓点中,确定与圆心的距离最大的表格外框轮廓点为第四候选顶点。
举例来说,选取与圆心的距离最大的表格外框轮廓点为第一候选顶点,其位置坐标为(x1,y1)。与第一候选顶点距离大于第一阈值的第二候选点的位置坐标为(x2,y2)。以[(x1+x2)/2,(y2+y2)/2]为原点构建直角坐标系,可以将由表格区域分为四个象限。由于第二候选点与第一候选顶点距离大于第一阈值,保证第一候选顶点和第二候选顶点位于直角坐标系的不同象限内。然后,从除第一候选顶点、第二候选顶点所在象限以外的象限中,确定与圆心的距离最大的表格外框轮廓点为第三候选顶点。最后,从除第一候选顶点、第二候选顶点和第三候选顶点所在象限以外的象限包括的表格外框轮廓点中,确定与圆心的距离最大的表格外框轮廓点为第四候选顶点。
步骤405,对于所确定的每个候选顶点,确定该候选顶点与干扰图案所在区域之间的距离是否大于预设的距离阈值。
本实施例中,执行主体基于所确定的每个候选顶点,确定该候选顶点与干扰图案所在区域之间的距离是否大于预设的距离阈值。具体的,执行主体可基于所确定的每个候选顶点的位置坐标,确定该候选顶点与干扰图案所在区域之间的距离,然后判断上述距离是否大于距离阈值,其中,上述距离阈值可以是由用户或者技术人员预先设定的一个数值。
步骤406,响应于所确定的距离大于距离阈值,将该候选顶点作为表格的顶点。
本实施例中,响应于所确定的候选顶点与干扰图案所在区域之间的距离大于距离阈值,执行主体可以将该候选顶点作为表格的顶点。
步骤407,响应于所确定的距离小于或等于距离阈值,确定辅助点;根据辅助点以及该候选顶点,确定辅助线;根据所述辅助线,确定表格的顶点。
本实施例中,当该候选顶点与干扰图案所在区域之间的距离小于预设的距离阈值时,执行主体首先确定与该候选顶点距离最近且已知的表格顶点,基于以上候选顶点和表格顶点构造第一辅助线。然后,确定与干扰图案所在区域距离最近且不在第一辅助线上的外框轮廓点为辅助点。最后,基于辅助点与另一已知的表格顶点构造第二辅助线,第一辅助线与第二辅助线的交点为被干扰图案所在区域所遮盖的表格顶点。
在本实施例的一些可选的实现方式中,执行主体可以通过以下步骤来确定表格的顶点:当该候选顶点与干扰图案所在区域之间的距离小于预设的距离阈值时,执行主体首先确定与该候选顶点关于干扰图案所在区域的中心对称的对称点,接着确定与对称点距离最近的外框轮廓点为辅助点;然后,确定穿过候选顶点以及超过预设数量的外框轮廓点的直线为第一辅助线,穿过辅助点以及超过预设数量的外框轮廓点的直线为第二辅助线;最后,确定第一辅助线和第二辅助线的交点为表格的顶点。
在本实施例的一些可选的实现方式中,在步骤403之前,上述方法还可以包括图4中未示出的以下步骤:执行主体将位于干扰图案所在区域内的外框轮廓点进行滤除。
本实现方式中,有些干扰图案可能没有遮住部分外框轮廓点。这些外框轮廓点可能会影响表格顶点的确定,降低表格顶点确定的准确率。执行主体通过将位于干扰图案所在区域内的外框轮廓点进行滤除,能够防止干扰图案所在区域内的外框轮廓点影响表格顶点的确定。
本申请的上述实施例提供的用于确定表格顶点的方法,通过首先确定所有表格外框轮廓点的最小外接圆;然后计算最小外接圆的圆心位置坐标;最后,计算所有表格外框轮廓点与圆心的距离,确定表格的候选顶点,这种方法利用了简单的几何计算就可得到表格的候选顶点,大大提高了候选顶点获取的速度,并且可以根据候选顶点以及干扰图案所在的区域,确定表格的顶点,提高了表格顶点确定的准确性,抗干扰能力强。
如图5所示,本实施例用于确定表格顶点的装置500包括轮廓点确定单元501、干扰图案检测单元502、候选顶点确定单元503和表格顶点确定单元504。
轮廓点确定单元501,配置用于确定图片中表格的外框轮廓点。
干扰图案检测单元502,配置用于确定所述图片中的干扰图案所在的区域,所述干扰图案遮盖部分所述表格。
候选顶点确定单元503,配置用于基于所述外框轮廓点,确定所述表格的候选顶点。
表格顶点确定单元504,配置用于根据所述候选顶点以及所述干扰图案所在的区域,确定所述表格的顶点。
在本实施例的一些可选的实现方式中,候选顶点确定单元503可以进一步包括图5中未示出的:圆心确定模块和候选顶点确定模块。
圆心确定模块,配置用于确定所述外框轮廓点的最小外接圆,并确定最小外接圆的圆心。
候选顶点确定模块,配置用于根据外框轮廓点与圆心的距离,确定候选顶点。
在本实施例的一些可选的实现方式中,候选顶点确定模块进一步被配置成:计算外框轮廓点与圆心的距离;确定与圆心的距离最大的外框轮廓点为第一候选顶点;从与第一候选顶点距离大于第一阈值的外框轮廓点中,确定与圆心的距离最大的外框轮廓点为第二候选顶点;根据第一候选顶点和第二候选顶点,构建直角坐标系,其中,直角坐标系以第一候选顶点和第二候选顶点连线的中点为原点,且第一候选顶点和第二候选顶点位于直角坐标系的不同象限内;从除第一候选顶点、第二候选顶点所在象限以外的象限中,确定与圆心的距离最大的外框轮廓点为第三候选顶点;从除第一候选顶点、第二候选顶点和第三候选顶点所在象限以外的象限包括的外框轮廓点中,确定与圆心的距离最大的外框轮廓点为第四候选顶点。
在本实施例的一些可选的实现方式中,表格顶点确定单元504可以进一步包括图5中未示出的:距离计算模块、第一确定模块、辅助点确定模块、辅助线确定模块和第二确定模块。
距离计算模块,配置用于对于所确定的每个候选顶点,确定该候选顶点与干扰图案所在区域之间的距离是否大于预设的距离阈值。
第一确定模块,配置用于响应于所确定的距离大于距离阈值,将该候选顶点作为表格的顶点。
辅助点确定模块,配置用于响应于所确定的距离小于或等于距离阈值,确定辅助点。
辅助线确定模块,配置用于根据辅助点以及该候选顶点,确定辅助线。
第二确定模块,配置用于根据辅助线,确定表格的顶点。
在本实施例的一些可选的实现方式中,辅助点确定模块进一步配置成:
确定与该候选顶点关于干扰图案所在区域的中心对称的对称点;
确定与对称点距离最近的外框轮廓点为辅助点。
在本实施例的一些可选的实现方式中,辅助线确定模块进一步被配置成:
确定穿过候选顶点以及超过预设数量的外框轮廓点的直线为第一辅助线;
确定穿过辅助点以及超过预设数量的外框轮廓点的直线为第二辅助线。
在本实施例的一些可选的实现方式中,第二确定模块进一步被配置成:
确定第一辅助线和第二辅助线的交点为表格的顶点。
在本实施例的一些可选的实现方式中,候选顶点确定单元503可进一步包括图5中未示出的:外框轮廓点滤除模块。
外框轮廓点滤除模块,配置用于将位于干扰图案所在区域的外框轮廓点滤除。
在本实施例的一些可选的实现方式中,轮廓点确定单元501可进一步包括图5中未示出的:轮廓点提取模块和外框轮廓点确定模块。
轮廓点提取模块,配置用于对图片进行轮廓点提取;
外框轮廓点确定模块,配置用于根据提取到的轮廓点,确定外框轮廓点。
应当理解,用于确定表格顶点的装置500中记载的单元501至单元504分别与参考图2中描述的方法中的各个步骤相对应。由此,上文针对用于确定表格顶点的方法描述的操作和特征同样适用于装置500及其中包含的单元,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的用于确定表格顶点的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的用于确定表格顶点的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的用于确定表格顶点的方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的用于确定表格顶点的方法对应的程序指令/模块。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的用于确定表格顶点的方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用于确定表格顶点的方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至用于确定表格顶点的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
用于确定表格顶点的方法的电子设备还可以包括:输入装置403和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与用于确定表格顶点的方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过确定图片中表格的外框轮廓点和干扰图案所在的区域,而后,基于所述外框轮廓点,确定表格的候选顶点,最后,根据候选顶点以及干扰图案所在的区域,确定所述表格的顶点,提高了表格顶点确定的准确性。
根据本申请实施例的技术方案,本申请的上述实施例提供的用于确定表格顶点的方法,可以根据候选顶点以及干扰图案所在的区域,确定表格的顶点,提高了表格顶点确定的准确性,抗干扰能力强。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (20)
1.一种用于确定表格顶点的方法,包括:
确定图片中表格的外框轮廓点;
确定所述图片中的干扰图案所在的区域,所述干扰图案遮盖部分所述表格;
基于所述外框轮廓点,确定所述表格的候选顶点;
根据所述候选顶点以及所述干扰图案所在的区域,确定所述表格的顶点。
2.根据权利要求1所述的方法,其中,所述基于所述外框轮廓点,确定所述表格的候选顶点,包括:
确定所述外框轮廓点的最小外接圆,并确定所述最小外接圆的圆心;
根据所述外框轮廓点与所述圆心的距离,确定所述候选顶点。
3.根据权利要求2所述的方法,其中,所述根据所述外框轮廓点与所述圆心的距离,确定所述候选顶点,包括:
计算所述外框轮廓点与所述圆心的距离;
确定与所述圆心的距离最大的外框轮廓点为第一候选顶点;
从与所述第一候选顶点距离大于第一阈值的外框轮廓点中,确定与所述圆心的距离最大的外框轮廓点为第二候选顶点;
根据所述第一候选顶点和所述第二候选顶点,构建直角坐标系,其中,所述直角坐标系以所述第一候选顶点和所述第二候选顶点连线的中点为原点,且所述第一候选顶点和所述第二候选顶点位于所述直角坐标系的不同象限内;
从除所述第一候选顶点、所述第二候选顶点所在象限以外的象限中,确定与所述圆心的距离最大的外框轮廓点为第三候选顶点;
从除所述第一候选顶点、所述第二候选顶点和所述第三候选顶点所在象限以外的象限包括的外框轮廓点中,确定与所述圆心的距离最大的外框轮廓点为第四候选顶点。
4.根据权利要求1所述的方法,其中,所述根据所述候选顶点以及所述干扰图案所在的区域,确定所述表格的顶点,包括:
对于所确定的每个候选顶点,确定该候选顶点与所述干扰图案所在区域之间的距离是否大于预设的距离阈值;
响应于所确定的距离大于所述距离阈值,将该候选顶点作为所述表格的顶点;
响应于所确定的距离小于或等于所述距离阈值,确定辅助点;根据所述辅助点以及该候选顶点,确定辅助线;根据所述辅助线,确定所述表格的顶点。
5.根据权利要求4所述的方法,其中,所述确定辅助点,包括:
确定与该候选顶点关于所述干扰图案所在区域的中心对称的对称点;
确定与所述对称点距离最近的外框轮廓点为辅助点。
6.根据权利要求4所述的方法,其中,所述根据所述辅助点以及该候选顶点,确定辅助线,包括:
确定穿过所述候选顶点以及超过预设数量的外框轮廓点的直线为第一辅助线;
确定穿过所述辅助点以及超过所述预设数量的外框轮廓点的直线为第二辅助线。
7.根据权利要求6所述的方法,其中,所述根据所述辅助线,确定所述表格的顶点,包括:
确定所述第一辅助线和所述第二辅助线的交点为所述表格的顶点。
8.根据权利要求1所述的方法,其中,所述基于所述外框轮廓点,确定所述表格的候选顶点,包括:
将位于所述干扰图案所在区域的所述外框轮廓点滤除。
9.据权利要求1所述的方法,其中,所述确定图片中表格的外框轮廓点,包括:
对所述图片进行轮廓点提取;
根据提取到的轮廓点,确定所述外框轮廓点。
10.一种用于确定表格顶点的装置,包括:
轮廓点确定单元,被配置成确定图片中表格的外框轮廓点;
干扰图案检测单元,被配置成确定所述图片中的干扰图案所在的区域,所述干扰图案遮盖部分所述表格;
候选顶点确定单元,被配置成基于所述外框轮廓点,确定所述表格的候选顶点;
表格顶点确定单元,被配置成根据所述候选顶点以及所述干扰图案所在的区域,确定所述表格的顶点。
11.根据权利要求10所述的装置,其中,所述候选顶点确定单元包括:
圆心确定模块,被配置成确定所述外框轮廓点的最小外接圆,并确定所述最小外接圆的圆心;
候选顶点确定模块,被配置成根据所述外框轮廓点与所述圆心的距离,确定所述候选顶点。
12.根据权利要求11所述的装置,其中,所述候选顶点确定模块进一步被配置成:
计算所述外框轮廓点与所述圆心的距离;
确定与所述圆心的距离最大的外框轮廓点为第一候选顶点;
从与所述第一候选顶点距离大于第一阈值的外框轮廓点中,确定与所述圆心的距离最大的外框轮廓点为第二候选顶点;
根据所述第一候选顶点和所述第二候选顶点,构建直角坐标系,其中,所述直角坐标系以所述第一候选顶点和所述第二候选顶点连线的中点为原点,且所述第一候选顶点和所述第二候选顶点位于所述直角坐标系的不同象限内;
从除所述第一候选顶点、所述第二候选顶点所在象限以外的象限中,确定与所述圆心的距离最大的外框轮廓点为第三候选顶点;
从除所述第一候选顶点、所述第二候选顶点和所述第三候选顶点所在象限以外的象限包括的外框轮廓点中,确定与所述圆心的距离最大的外框轮廓点为第四候选顶点。
13.根据权利要求10所述的装置,其中,所述表格顶点确定单元包括:
距离计算模块,被配置成对于所确定的每个候选顶点,确定该候选顶点与所述干扰图案所在区域之间的距离是否大于预设的距离阈值;
第一确定模块,被配置成响应于所确定的距离大于所述距离阈值,将该候选顶点作为所述表格的顶点;
辅助点确定模块,被配置成响应于所确定的距离小于或等于所述距离阈值,确定辅助点;
辅助线确定模块,被配置成根据所述辅助点以及该候选顶点,确定辅助线;
第二确定模块,被配置成根据所述辅助线,确定所述表格的顶点。
14.根据权利要求13所述的装置,其中,所述辅助点确定模块进一步配置成:
确定与该候选顶点关于所述干扰图案所在区域的中心对称的对称点;
确定与所述对称点距离最近的外框轮廓点为辅助点。
15.根据权利要求13所述的装置,其中,所述辅助线确定模块进一步被配置成:
确定穿过所述候选顶点以及超过预设数量的外框轮廓点的直线为第一辅助线;
确定穿过所述辅助点以及超过所述预设数量的外框轮廓点的直线为第二辅助线。
16.根据权利要求15所述的装置,其中,所述第二确定模块进一步被配置成:
确定所述第一辅助线和所述第二辅助线的交点为所述表格的顶点。
17.根据权利要求10所述的装置,其中,所述候选顶点确定单元包括:
外框轮廓点滤除模块,被配置成将位于所述干扰图案所在区域的所述外框轮廓点滤除。
18.据权利要求10所述的装置,其中,所述轮廓点确定单元包括:
轮廓点提取模块,被配置成对所述图片进行轮廓点提取;
外框轮廓点确定模块,被配置成根据提取到的轮廓点,确定所述外框轮廓点。
19.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010375594.XA CN111563453B (zh) | 2020-05-07 | 2020-05-07 | 用于确定表格顶点的方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010375594.XA CN111563453B (zh) | 2020-05-07 | 2020-05-07 | 用于确定表格顶点的方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111563453A true CN111563453A (zh) | 2020-08-21 |
CN111563453B CN111563453B (zh) | 2023-07-04 |
Family
ID=72071880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010375594.XA Active CN111563453B (zh) | 2020-05-07 | 2020-05-07 | 用于确定表格顶点的方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563453B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200822A (zh) * | 2020-10-28 | 2021-01-08 | 广东南方数码科技股份有限公司 | 表格重建方法、装置、计算机设备及存储介质 |
CN115601774A (zh) * | 2022-12-12 | 2023-01-13 | 深圳前海环融联易信息科技服务有限公司(Cn) | 表格识别方法、装置、设备、存储介质和程序产品 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040183814A1 (en) * | 2003-01-30 | 2004-09-23 | Canon Kabushiki Kaisha | Method of generating color separation table |
CN105469053A (zh) * | 2015-11-25 | 2016-04-06 | 成都数联铭品科技有限公司 | 一种基于贝叶斯优化的图像表格文字切分方法 |
CN107633253A (zh) * | 2017-10-23 | 2018-01-26 | 江苏鸿信系统集成有限公司 | 基于含噪图像中矩形包围框的精确提取和定位方法 |
US20180286115A1 (en) * | 2017-04-01 | 2018-10-04 | Intel Corporation | Conditional shader for graphics |
CN108805076A (zh) * | 2018-06-07 | 2018-11-13 | 浙江大学 | 环境影响评估报告书表格文字的提取方法及系统 |
CN109344838A (zh) * | 2018-11-02 | 2019-02-15 | 长江大学 | 发票信息自动快速识别方法、系统以及装置 |
CN109948507A (zh) * | 2019-03-14 | 2019-06-28 | 北京百度网讯科技有限公司 | 用于检测表格的方法和装置 |
CN110263682A (zh) * | 2019-06-04 | 2019-09-20 | 北京华宇信息技术有限公司 | 基于轮廓提取的表格识别方法和装置、设备及存储介质 |
CN110309746A (zh) * | 2019-06-21 | 2019-10-08 | 国网辽宁省电力有限公司鞍山供电公司 | 无通信互联的高等级信息安全区表格数据信息提取方法 |
CN110334585A (zh) * | 2019-05-22 | 2019-10-15 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN110363095A (zh) * | 2019-06-20 | 2019-10-22 | 华南农业大学 | 一种针对表格字体的识别方法 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
CN110956087A (zh) * | 2019-10-25 | 2020-04-03 | 天津幸福生命科技有限公司 | 一种图片中表格的识别方法、装置、可读介质和电子设备 |
-
2020
- 2020-05-07 CN CN202010375594.XA patent/CN111563453B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040183814A1 (en) * | 2003-01-30 | 2004-09-23 | Canon Kabushiki Kaisha | Method of generating color separation table |
CN105469053A (zh) * | 2015-11-25 | 2016-04-06 | 成都数联铭品科技有限公司 | 一种基于贝叶斯优化的图像表格文字切分方法 |
US20180286115A1 (en) * | 2017-04-01 | 2018-10-04 | Intel Corporation | Conditional shader for graphics |
CN107633253A (zh) * | 2017-10-23 | 2018-01-26 | 江苏鸿信系统集成有限公司 | 基于含噪图像中矩形包围框的精确提取和定位方法 |
CN108805076A (zh) * | 2018-06-07 | 2018-11-13 | 浙江大学 | 环境影响评估报告书表格文字的提取方法及系统 |
CN109344838A (zh) * | 2018-11-02 | 2019-02-15 | 长江大学 | 发票信息自动快速识别方法、系统以及装置 |
CN109948507A (zh) * | 2019-03-14 | 2019-06-28 | 北京百度网讯科技有限公司 | 用于检测表格的方法和装置 |
CN110334585A (zh) * | 2019-05-22 | 2019-10-15 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN110263682A (zh) * | 2019-06-04 | 2019-09-20 | 北京华宇信息技术有限公司 | 基于轮廓提取的表格识别方法和装置、设备及存储介质 |
CN110363095A (zh) * | 2019-06-20 | 2019-10-22 | 华南农业大学 | 一种针对表格字体的识别方法 |
CN110309746A (zh) * | 2019-06-21 | 2019-10-08 | 国网辽宁省电力有限公司鞍山供电公司 | 无通信互联的高等级信息安全区表格数据信息提取方法 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
CN110956087A (zh) * | 2019-10-25 | 2020-04-03 | 天津幸福生命科技有限公司 | 一种图片中表格的识别方法、装置、可读介质和电子设备 |
Non-Patent Citations (1)
Title |
---|
王绪等: "基于投影特征与结构特征的表格图像识别", 《计算机工程》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200822A (zh) * | 2020-10-28 | 2021-01-08 | 广东南方数码科技股份有限公司 | 表格重建方法、装置、计算机设备及存储介质 |
CN115601774A (zh) * | 2022-12-12 | 2023-01-13 | 深圳前海环融联易信息科技服务有限公司(Cn) | 表格识别方法、装置、设备、存储介质和程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN111563453B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753727A (zh) | 用于提取结构化信息的方法、装置、设备及可读存储介质 | |
CN112270399B (zh) | 基于深度学习的算子注册处理方法、装置及电子设备 | |
CN110659600B (zh) | 物体检测方法、装置及设备 | |
CN111767858B (zh) | 图像识别方法、装置、设备和计算机存储介质 | |
JP2021192294A (ja) | 人体3dキー点検出方法、モデル訓練方法及び関連装置 | |
CN110909701B (zh) | 行人特征的提取方法、装置、设备及介质 | |
CN113359995B (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN111563453B (zh) | 用于确定表格顶点的方法、装置、设备和介质 | |
CN113627439A (zh) | 文本结构化处理方法、处理装置、电子设备以及存储介质 | |
CN111783596B (zh) | 人脸识别模型的训练方法、装置、电子设备及存储介质 | |
CN112101552A (zh) | 用于训练模型的方法、装置、设备以及存储介质 | |
CN112215243A (zh) | 图像特征提取方法、装置、设备及存储介质 | |
CN112241716A (zh) | 训练样本的生成方法和装置 | |
CN112116525A (zh) | 换脸识别方法、装置、设备和计算机可读存储介质 | |
CN113962845A (zh) | 图像处理方法、图像处理装置、电子设备以及存储介质 | |
CN112016523B (zh) | 跨模态人脸识别的方法、装置、设备和存储介质 | |
CN111783644B (zh) | 检测方法、装置、设备和计算机存储介质 | |
CN111563541B (zh) | 图像检测模型的训练方法和装置 | |
CN111523292B (zh) | 用于获取图像信息的方法和装置 | |
WO2019125716A1 (en) | System and method for drawing beautification | |
CN112270303A (zh) | 图像识别方法、装置以及电子设备 | |
CN113033346A (zh) | 文本检测方法、装置和电子设备 | |
CN111783600A (zh) | 一种人脸识别模型训练方法、装置、设备及介质 | |
CN111966767A (zh) | 轨迹热力图生成方法、装置、电子设备和存储介质 | |
CN111524165A (zh) | 目标跟踪方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |