CN113627143B - 一种表格创建方法、装置、电子设备及存储介质 - Google Patents

一种表格创建方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113627143B
CN113627143B CN202010389023.1A CN202010389023A CN113627143B CN 113627143 B CN113627143 B CN 113627143B CN 202010389023 A CN202010389023 A CN 202010389023A CN 113627143 B CN113627143 B CN 113627143B
Authority
CN
China
Prior art keywords
symbol
target table
target
symbols
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010389023.1A
Other languages
English (en)
Other versions
CN113627143A (zh
Inventor
王洪伟
李长亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd, Chengdu Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN202010389023.1A priority Critical patent/CN113627143B/zh
Publication of CN113627143A publication Critical patent/CN113627143A/zh
Application granted granted Critical
Publication of CN113627143B publication Critical patent/CN113627143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/183Tabulation, i.e. one-dimensional positioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种表格创建方法、装置、电子设备及存储介质,涉及计算机技术领域。方法包括:获得包含参考表格的图像,作为参考图像;检测参考图像内参考表格包含的表格符,作为目标表格符,获得各个目标表格符的类型和各个目标表格符在参考图像中的位置;根据各个目标表格符的位置和各个目标表格符的指示方向,创建新的表格,其中,新的表格中包含所检测到的目标表格符,且新的表格中各个表格符之间的相对位置与参考表格中各个目标表格符之间的相对位置相同,目标表格符的指示方向为:基于该目标表格符的类型所确定的、表格中该目标表格符与其他目标表格符的连接方向。应用本申请实施例提供的表格创建方案,可以提高创建的表格的准确度。

Description

一种表格创建方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种表格创建方法、装置、电子设备及存储介质。
背景技术
在办公场景中,通常需要参考已有的表格,创建新的表格,其中,用于参考的表格可能是图片格式。
现有技术中,在参考图片格式的表格创建新的表格时,通常需要利用边缘检测技术检测图片中的线段,获得图片中的各个线段的长度、位置和方向等信息,根据所获得的信息,绘制各个线段,从而创建得到新的表格。
应用现有技术虽然可以创建得到新的表格,但是由于图片中还可能包含其他内容,如字符、图形等,在检测图片中的线段时,会受到其他内容的遮挡、干扰等,导致检测得到的线段的长度、位置等信息准确度低,进而导致所创建的表格的准确度低。
发明内容
本申请实施例的目的在于提供一种表格创建方法、装置、电子设备及存储介质,以提高创建的表格的准确度。具体技术方案如下:
第一方面,本申请实施例提供了一种表格创建方法,所述方法包括:
获得包含参考表格的图像,作为参考图像;
检测所述参考图像内所述参考表格包含的表格符,作为目标表格符,获得各个所述目标表格符的类型和各个所述目标表格符在所述参考图像中的位置,其中,所述表格符为:用于构成表格结构的预设符号;
根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,创建新的表格,其中,所述新的表格中包含所检测到的目标表格符,且所述新的表格中各个表格符之间的相对位置与所述参考表格中各个所述目标表格符之间的相对位置相同,所述目标表格符的指示方向为:基于该目标表格符的类型所确定的、表格中该目标表格符与其他目标表格符的连接方向。
本申请的一个实施例中,所述检测所述参考图像内所述参考表格包含的表格符,作为目标表格符,获得各个所述目标表格符的类型和各个所述目标表格符在所述参考图像中的位置,包括:
分块提取所述参考图像的图像特征;
基于所提取得到的图像特征与预设的表格符的特征进行匹配,确定匹配成功的图像特征对应的图像区域为目标表格符;
获得所确定的目标表格符的类型为所匹配的表格符的类型,并获得所确定的目标表格符对应的图像区域在所述参考图像中的位置,作为所确定的目标表格符在所述参考图像中的位置。
本申请的一个实施例中,所述检测所述参考图像内所述参考表格包含的表格符,作为目标表格符,获得各个所述目标表格符的类型和各个所述目标表格符在所述参考图像中的位置,包括:
将所述参考图像输入预先训练完成的表格符检测模型,检测所述参考图像内所述参考表格包含的目标表格符,获得所述表格符检测模型输出的各个所述目标表格符的类型和各个所述目标表格符在所述参考图像中的位置,其中,所述表格符检测模型为:以包含样本表格的样本图像为输入、样本图像中预先标注的样本表格的表格符为标注、对所述表格符检测模型的初始模型进行训练得到的网络模型。
本申请的一个实施例中,所述根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,创建新的表格,包括:
根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,预测表格的结构;
绘制所预测结构的表格,得到新的表格。
本申请的一个实施例中,所述根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,创建新的表格,包括:
根据各个所述目标表格符的位置,绘制所检测到的各个所述目标表格符,其中,所绘制的各个所述目标表格符之间的相对位置与所述参考表格包含的各个所述目标表格符之间的相对位置相同;
沿各个所述目标表格符的指示方向将各个位置相邻的目标表格符相连接,得到新的表格。
本申请的一个实施例中,所述沿各个所述目标表格符的指示方向将各个位置相邻的目标表格符相连接,得到新的表格,包括:
根据各个所述目标表格符的位置,确定同位目标表格符,其中,所述同位目标表格符为:位于同一行或同一列的目标表格符;
沿所述同位目标表格符中各个目标表格符的指示方向,与所述同位目标表格符中位置相邻目标表格符进行连接,得到新的表格。
本申请的一个实施例中,所述根据各个所述目标表格符的位置,确定同位目标表格符,包括:
根据各个所述目标表格符的位置,检测各个所述目标表格符之间的水平间距和垂直间距;
确定水平间距满足预设的水平间距条件的目标表格符为位于同一列的同位目标表格符;
确定垂直间距满足预设的垂直间距条件的目标表格符为位于同一行的同位目标表格符。
本申请的一个实施例中,所述沿各个所述目标表格符的指示方向将各个位置相邻的目标表格符相连接,得到新的表格,包括:
沿各个所述目标表格符的指示方向将各个位置相邻的目标表格符相连接,并删除重合线段和/或错误表格符,得到新的表格,其中,所述错误表格符包括:未能与其他目标表格符相连接的目标表格符。
本申请的一个实施例中,在所述根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,创建新的表格步骤之后,所述方法还包括:
计算新的表格与所述参考图像中所述参考表格的重合度;
根据所述重合度对所述新的表格进行调整,将所述新的表格更新为调整后的表格,返回所述计算新的表格与所述参考图像中所述参考表格的重合度的步骤,直至所述重合度达到预设的重合度阈值。
第二方面,本申请实施例提供了一种表格创建装置,所述装置包括:
图像获得模块,用于获得包含参考表格的图像,作为参考图像;
表格符检测模块,用于检测所述参考图像内所述参考表格包含的表格符,作为目标表格符,获得各个所述目标表格符的类型和各个所述目标表格符在所述参考图像中的位置,其中,所述表格符为:用于构成表格结构的预设符号;
表格创建模块,用于根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,创建新的表格,其中,所述新的表格中包含所检测到的目标表格符,且所述新的表格中各个表格符之间的相对位置与所述参考表格中各个所述目标表格符之间的相对位置相同,所述目标表格符的指示方向为:基于该目标表格符的类型所确定的、表格中该目标表格符与其他目标表格符的连接方向。
本申请的一个实施例中,所述表格符检测模块,具体用于:
分块提取所述参考图像的图像特征;
基于所提取得到的图像特征与预设的表格符的特征进行匹配,确定匹配成功的图像特征对应的图像区域为目标表格符;
获得所确定的目标表格符的类型为所匹配的表格符的类型,并获得所确定的目标表格符对应的图像区域在所述参考图像中的位置,作为所确定的目标表格符在所述参考图像中的位置。
本申请的一个实施例中,所述表格符检测模块,具体用于:
将所述参考图像输入预先训练完成的表格符检测模型,检测所述参考图像内所述参考表格包含的目标表格符,获得所述表格符检测模型输出的各个所述目标表格符的类型和各个所述目标表格符在所述参考图像中的位置,其中,所述表格符检测模型为:以包含样本表格的样本图像为输入、样本图像中预先标注的样本表格的表格符为标注、对所述表格符检测模型的初始模型进行训练得到的网络模型。
本申请的一个实施例中,所表格创建模块,具体用于:
根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,预测表格的结构;
绘制所预测结构的表格,得到新的表格。
本申请的一个实施例中,所述表格创建模块,包括:
表格符绘制单元,用于根据各个所述目标表格符的位置,绘制所检测到的各个所述目标表格符,其中,所绘制的各个所述目标表格符之间的相对位置与所述参考表格包含的各个所述目标表格符之间的相对位置相同;
表格符连接单元,用于沿各个所述目标表格符的指示方向将各个位置相邻的目标表格符相连接,得到新的表格。
本申请的一个实施例中,所述表格符连接单元,包括:
同位表格符确定子单元,用于根据各个所述目标表格符的位置,确定同位目标表格符,其中,所述同位目标表格符为:位于同一行或同一列的目标表格符;
表格符连接子单元,用于沿所述同位目标表格符中各个目标表格符的指示方向,与所述同位目标表格符中位置相邻目标表格符进行连接,得到新的表格。
本申请的一个实施例中,所述同位表格符确定子单元,具体用于:
根据各个所述目标表格符的位置,检测各个所述目标表格符之间的水平间距和垂直间距;
确定水平间距满足预设的水平间距条件的目标表格符为位于同一列的同位目标表格符;
确定垂直间距满足预设的垂直间距条件的目标表格符为位于同一行的同位目标表格符。
本申请的一个实施例中,所述表格符连接单元,具体用于:
沿各个所述目标表格符的指示方向将各个位置相邻的目标表格符相连接,并删除重合线段和/或错误表格符,得到新的表格,其中,所述错误表格符包括:未能与其他目标表格符相连接的目标表格符。
本申请的一个实施例中,所述装置还包括:
重合度计算模块,用于在创建新的表格之后,计算新的表格与所述参考图像中所述参考表格的重合度;
表格调整模块,用于根据所述重合度对所述新的表格进行调整,将所述新的表格更新为调整后的表格,触发所述重合度计算模块,直至所述重合度达到预设的重合度阈值。
第三方面,本申请实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的表格创建方法。
本申请实施例有益效果:
应用本申请实施例提供的方案在创建新的表格时,可以获得包含参考表格的图像,作为参考图像,检测参考图像内参考表格包含的表格符,作为目标表格符,获得各个目标表格符的类型和各个目标表格符在参考图像中的位置,根据各个目标表格符的位置和各个目标表格符的指示方向,创建新的表格。其中,目标表格符的指示方向为:基于该目标表格符的类型所确定的、表格中该目标表格符与其他目标表格符的连接方向。所创建的新的表格中包含所检测到的目标表格符,且新的表格中各个目标表格符之间的相对位置与表格中各个目标表格符之间的相对位置相同。这样对参考图像内参考表格的目标表格符进行检测,根据检测到的目标表格符的位置和类型,创建新的表格。由于表格符不易受到参考图像中其他内容的遮挡和干扰,因此检测得到的参考图像内参考表格的目标表格符的准确度较高,进而根据目标表格符创建的新的表格的准确度较高。由此可见,应用本申请实施例提供的表格创建方案,可以提高创建的表格的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种表格创建方法的流程示意图;
图2为本申请实施例提供的一种参考图像的示意图;
图3为本申请实施例提供的一种表格符的示意图;
图4为本申请实施例提供的一种表格符检测方法的流程示意图;
图5为本申请实施例提供的一种模型训练方法的流程示意图;
图6为本申请实施例提供的另一种表格创建方法的流程示意图;
图7为本申请实施例提供的一种重合线段的示意图;
图8为本申请实施例提供的一种表格创建装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了提高创建的表格的准确度,本申请实施例提供了一种表格创建方法、装置、电子设备及存储介质,下面分别进行详细介绍。
参见图1,图1为本申请实施例提供的一种表格创建方法的流程示意图。表格创建方法可以应用于手机、平板电脑、电子计算机等电子设备中,还可以应用于Office、WPS等办公软件客户端中。表格创建方法包括如下步骤101至步骤103。
步骤101,获得包含参考表格的图像,作为参考图像。
其中,上述参考表格可以是发票、账单、登记表等表格,可以作为新创建的表格的参考。
具体的,可以利用图像采集设备对参考表格进行图像采集,得到参考图像,上述参考图像还可以是从数据库中获得的包含参考表格的图像等。参见图2,图2为本申请实施例提供的一种参考图像的示意图,以发票的表格为参考表格,对发票进行图像采集,可以得到如图2所示的参考图像。需要说明的是,图2仅为了示出包含参考表格的图像,图中各个文字的具体内容对本申请实施例不具有实例性作用。
本申请的一个实施例中,在获得参考图像后,可以对参考图像进行图像增强、降噪等处理,这样可以使得参考图像中参考表格更加清晰,便于后续对参考表格进行检测。除此之外,还可以对参考图像进行缩放、旋转、拉伸等,使得参考图像中参考表格处于水平位置,且不发生形变,这样可以提高后续对参考表格中表格符进行检测的准确率。
步骤102,检测参考图像内参考表格包含的表格符,作为目标表格符,获得各个目标表格符的类型和各个目标表格符在参考图像中的位置。
其中,表格符为:用于构成表格结构的预设符号,表格符的类型可以包括:“十”形表格符、“T”形表格符、“L”形表格符、形表格符、“┘”形表格符、“┐”形表格符等。参见图3,图3为本申请实施例提供的一种表格符的示意图,如图所示,图中301是一种“十”形表格符,302是一种“T”形表格符,303是一种“L”形表格符。需要说明的是,图3仅为了示出包含参考表格的图像,图中各个文字的具体内容对本申请实施例不具有实例性作用。
具体的,可以对参考图像内参考表格所包含的表格符进行检测,将检测到的表格符作为目标表格符,并检测得到各个目标表格符的类型,以及各个目标表格符在参考图像中的位置。
步骤103,根据各个目标表格符的位置和各个目标表格符的指示方向,创建新的表格。
其中,新的表格中包含所检测到的目标表格符。具体的,新的表格中所包含的目标表格符与检测到的目标表格符的数量一致、类型相同。例如,假设检测到的目标表格符中,包含5个“十”形表格符、7个“T”形表格符,则所创建的新的表格中也包含5个“十”形表格符、7个“T”形表格符。
且新的表格中各个表格符之间的相对位置与参考表格中各个目标表格符之间的相对位置相同。例如,假设检测到的两个目标表格符在参考图像中位于同一列,间距为30个像素点,则所创建的新的表格中两个目标表格符也位于同一列,且间距为30个像素点。
除此之外,还可以是新的表格中各个目标表格符之间间隔距离相对新的表格长宽的比例,与参考表格中各个目标表格符之间间隔距离相对参考表格长宽的比例相同。例如,假设参考表格中两个目标表格符之间的间隔距离中,水平距离占参考表格长度的20%,垂直距离占参考表格宽度的10%;则新的表格中两个目标表格符之间的间隔距离中,水平距离也占新的表格的长度的20%,垂直距离也占新的表格宽度的10%。也可以是新的表格中各个目标表格符之间间隔距离相对新的表格长宽的比例,与参考表格中各个目标表格符之间间隔距离相对参考图像长宽的比例相同。
上述目标表格符的指示方向为:基于该目标表格符的类型所确定的、表格中该目标表格符与其他目标表格符的连接方向。目标表格符的类型与指示方向具有对应关系。例如,“十”形表格符与其他目标表格符连接时,可以向上、向左、向右、向下连接,因此,“十”形表格符的指示方向包括向上、向左、向右和向下;“T”形表格符与其他目标表格符连接时,可以向左、向右、向下连接,因此,“T”形表格符的指示方向包括向左、向右和向下。
具体的,根据各个目标表格符的类型,可以确定各个目标表格符的指示方向,又根据各个目标表格符的位置,可以按照每一目标表格符的指示方向确定不同目标表格符之间的连接关系,进而可以创建新的表格。这样可以使得所创建的新的表格接近参考图像中的参考表格,提高所创建的表格的准确度。
应用上述实施例提供的方案在创建新的表格时,可以获得包含参考表格的图像,作为参考图像,检测参考图像内参考表格包含的表格符,作为目标表格符,获得各个目标表格符的类型和各个目标表格符在参考图像中的位置,根据各个目标表格符的位置和各个目标表格符的指示方向,创建新的表格。其中,目标表格符的指示方向为:基于该目标表格符的类型所确定的、表格中该目标表格符与其他目标表格符的连接方向。所创建的新的表格中包含所检测到的目标表格符,且新的表格中各个目标表格符之间的相对位置与表格中各个目标表格符之间的相对位置相同。这样对参考图像内参考表格的目标表格符进行检测,根据检测到的目标表格符的位置和类型,创建新的表格。由于表格符不易受到参考图像中其他内容的遮挡和干扰,因此检测得到的参考图像内参考表格的目标表格符的准确度较高,进而根据目标表格符创建的新的表格的准确度较高。由此可见,应用上述实施例提供的表格创建方案,可以提高创建的表格的准确度。
参见图4,图4为本申请实施例提供的一种表格符检测方法的流程示意图,对于上述步骤102在检测参考图像内参考表格包含的表格符时,可以具体包括如下步骤401-403。
步骤401,分块提取参考图像的图像特征。
具体的,可以按照预设的分块数量对参考图像进行分块,上述分块数量可以是200、300、500等,将参考图像平均分割为分块数量个图像块,每一图像块的大小、形状相同。各个图像块的形状可以是正方形、矩形等。还可以按照预设的图像块大小对参考图像进行分块,图像块大小可以是5×5、3×3、5×7等。
得到多个图像块之后,可以提取每一图像块的图像特征,上述图像特征可以是各个图像块的纹理特征、线条特征等。本申请的实施例中,可以利用边缘检测算子提取图像块的图像特征,如索贝尔算子、拉普拉斯算子等,还可以利用神经网络模型提取图像块的图像特征。
步骤402,基于所提取得到的图像特征与预设的表格符的特征进行匹配,确定匹配成功的图像特征对应的图像区域为目标表格符。
具体的,针对每一图像块,可以对该图像块的图像特征依次与不同类型的表格符的特征进行特征匹配,若匹配成功,则说明该图像特征对应的图像区域为目标表格符,若匹配不成功,则与下一类型的表格符进行特征匹配,直至遍历所有类型的表格符。
本申请的一个实施例中,在进行特征匹配时,可以计算图像特征与表格符的特征之间的相似度,在上述相似度达到预设的相似度阈值的情况下,可以认为匹配成功。
步骤403,获得所确定的目标表格符的类型为所匹配的表格符的类型,并获得所确定的目标表格符对应的图像区域在参考图像中的位置,作为所确定的目标表格符在参考图像中的位置。
具体的,对于所确定的目标表格符,其所属的类型为:步骤402中匹配成功的表格符的类型。例如,假设一图像块与一“十”形表格符特征匹配成功,则该图像块对应的图像区域的目标表格符的类型为“十”形。并且可以获得该图像块对应的图像区域在参考图像中的位置,作为目标表格符在参考图像中的位置。
这样通过特征匹配的方式检测参考图像中的表格符,可以提高检测到的目标表格符的准确度。
本申请的一个实施例中,对于上述步骤102,在检测参考图像中的表格符时,具体还可以将参考图像输入预先训练完成的表格符检测模型,检测参考图像内参考表格包含的目标表格符,获得表格符检测模型输出的各个目标表格符的类型和各个目标表格符在参考图像中的位置。
其中,表格符检测模型为:以包含样本表格的样本图像为输入、样本图像中预先标注的样本表格的表格符为标注、对表格符检测模型的初始模型进行训练得到的网络模型。表格符检测模型可以是卷积神经网络模型、循环神经网络模型、深度神经网络模型等。
该表格符检测模型可以实现上述图4实施例的方案,按照特征匹配的方式检测参考图像中的表格符,具体可以分块提取参考图像的图像特征,对每一图像特征依次与不同类型的表格符进行特征匹配,基于匹配结果确定目标表格符,进而获得目标表格符的位置和类型,并输出上述结果。
参见图5,图5为本申请实施例提供的一种模型训练方法的流程示意图,训练方法包括如下步骤501至步骤504。
步骤501,获得样本图像,并对各个样本图像中表格的表格符进行标注。
其中,上述样本图像可以是对多个不同类型的表格进行图像采集,得到的多个图像,还可以是从数据库中获得的多个包含表格的图像。
本申请的一个实施例中,可以由工作人员手动对样本图像内表格的表格符进行标注,包括标注各个表格符的位置和类型等。
步骤502,将各个样本图像输入初始模型,得到输出结果。
具体的,将各个样本图像依次输入初始模型,由初始模型检测各个样本图像中的表格符,并输出各个表格符的位置和类型,作为输出结果。
步骤503,计算各个输出结果与标注的表格符之间的损失。
具体的,可以利用预设的损失函数计算各个输出结果与标注的表格符之间的损失,上述损失函数可以是交叉熵损失函数、铰链损失函数、指数损失函数等。
步骤504,基于计算得到的损失对初始模型的参数进行调整,将初始模型更新为参数调整后的模型,返回步骤502,直至满足训练结束条件。
上述损失值越大,说明初始模型的输出结果与标注的表格符的差异越大,也就说明初始模型进行表格符检测的准确度越低,因此需要对初始模型进行参数调整,并对参数调整后的模型进行再次训练,直至满足训练结束条件。
本申请的一个实施例中,上述训练结束条件可以是训练次数达到预设的次数阈值,上述次数阈值可以是5000次、10000次、50000次等,在训练次数达到预设的次数阈值时,可以认为模型收敛,因此结束训练。上述训练结束条件还可以是各个输出结果与标注的表格符之间的损失小于预设的损失阈值。
本申请的一个实施例中,对于上述步骤103,在创建新的表格时,可以根据各个目标表格符的位置和各个目标表格符的指示方向,预测表格的结构,绘制所预测结构的表格,得到新的表格。
其中,表格的结构包括:表格的长度、高度,以及表格内所包含的单元格的长度、高度、位置等。
具体的,由于目标表格符是构成表格结构的符号,而且根据目标表格符的类型可以确定目标表格符的指示方向,根据各个目标表格符的指示方向和位置可以进一步确定各个目标表格符之间的连接关系。上述连接关系包括:用于连接各个表格符的连接线段的方向、位置、长度等。例如,假设两个“十”形表格符位于同一列,间隔为20个像素点,则可以确定用于连接上述两个表格符的连接线段的方向为垂直方向,连接线段的起点和终点分别为上述两个“十”形表格符,线段的长度为20个像素点。或者,上述连接关系中的长度可以是连接线段的长度占参考图像长宽的比例。例如,假设两个“十”形表格符位于同一列,间隔占参考图像宽度的20%,则可以确定用于连接上述两个表格符的连接线段的方向为垂直方向,连接线段的起点和终点分别为上述两个“十”形表格符,新的表格中线段的长度占新的表格宽度的20%。
根据连接关系,可以进一步预测表格的长度、高度,以及表格内所包含的单元格的长度、高度、位置等。本申请的一个实施例中,对位置处于最底部或最顶部、方向为水平方向的连接线段的长度进行相加,可以得到表格的长度,对位置处于最左侧或最右侧、方向为垂直方向的连接线段的长度进行相加,可以得到表格的高度。再根据各个连接线段的长度、位置和方向,查找首尾两两连接的四条线段,该四条线段所围成的图形即为单元格。根据上述四条线段的长度和位置,可以得到该单元格的位置、长度和高度。遍历所有连接线段,可以确定出表格中所包含的各个单元格的长度、高度、位置。
利用上述确定的表格的长度、高度,以及表格内所包含的单元格的长度、高度、位置,可以预测出表格的结构。对所预测结构的表格进行绘制,可以得到新的表格。
参见图6,图6为本申请实施例提供的另一种表格创建方法的流程示意图,对于上述步骤103,创建新的表格的方法包括如下步骤1031至步骤1032。
步骤1031,根据各个目标表格符的位置,绘制所检测到的各个目标表格符。
其中,所绘制的各个目标表格符之间的相对位置与参考表格包含的各个目标表格符之间的相对位置相同。
具体的,可以对所检测到的各个目标表格符进行绘制,保持所绘制的目标表格符与检测到的目标表格符的数量一致、类型相同。例如,假设检测到的目标表格符中,包含5个“十”形表格符、7个“T”形表格符,则相对应地绘制5个“十”形表格符、7个“T”形表格符。且所绘制的各个目标表格符之间的相对位置与参考表格中各个目标表格符之间的相对位置相同。例如,假设检测到的两个目标表格符在参考图像中位于同一列,间距为30个像素点,则所绘制的两个目标表格符也位于同一列,且间距为30个像素点。或者,假设检测到的两个目标表格符在参考图像中位于同一列,间距占参考图像宽度的20%,则所绘制的两个目标表格符也位于同一列,且间距占新的表格的宽度的20%。
步骤1032,沿各个目标表格符的指示方向将各个位置相邻的目标表格符相连接,得到新的表格。
具体的,针对每一目标表格符,可以参照该目标表格符的指示方向,与该指示方向上位置相邻的目标表格符进行连接。例如,假设目标表格符为“L”形表格符,该表格符的指示方向为向上和向右,因此对该目标表格符上方相邻的目标表格符进行连接,并对该目标表格符右方相邻的目标表格符进行连接。依次遍历每一目标表格符,对各个目标表格符进行连接,可以得到新的表格。
本申请的一个实施例中,对于上述步骤1032,在连接目标表格符时,可以根据各个目标表格符的位置,确定同位目标表格符,沿同位目标表格符中各个目标表格符的指示方向,与同位目标表格符中位置相邻目标表格符进行连接,得到新的表格。
其中,同位目标表格符为:位于同一行或同一列的目标表格符。
具体的,可以首先对所绘制的各个目标表格符进行分类,将位于同一行或同一列的目标表格符作为同位表格符,然后根据同位表格符中各个目标表格符的位置和指示方向,对各个同位表格符进行连接。这样对位于同一行或同一列的目标表格符进行连接,可以使得所连接的线段不易倾斜,提高表格创建效果。
本申请的一个实施例中,在确定同位表格符时,可以根据各个目标表格符的位置,检测各个目标表格符之间的水平间距和垂直间距,确定水平间距满足预设的水平间距条件的目标表格符为位于同一列的同位目标表格符,确定垂直间距满足预设的垂直间距条件的目标表格符为位于同一行的同位目标表格符。
上述水平间距条件可以是:目标表格符在水平方向上的水平间距不大于预设的水平间距阈值,也可以是:目标表格符在水平方向上的水平间距占表格长度的比例不大于预设的水平比例阈值。
具体的,可以两两计算所绘制的目标表格符在水平方向上的水平间距,若上述水平间距不大于预设的水平间距阈值,可以认为该两个目标表格符的水平位置相同,因此可以将这两个目标表格符确定为位于同一列的同位目标表格符。上述水平间距阈值可以是2个像素点、3个像素点、5个像素点等。还可以是两两计算所绘制的目标表格符在水平方向上的水平间距占表格长度的比例,若上述比例不大于预设的水平比例阈值,则可以将这两个目标表格符确定为位于同一列的同位目标表格符。
上述垂直间距条件可以是:目标表格符在垂直方向上的垂直间距不大于预设的垂直间距阈值,也可以是:目标表格符在垂直方向上的垂直间距占表格宽度的比例不大于预设的垂直比例阈值。
具体的,可以两两计算所绘制的目标表格符在垂直方向上的垂直间距,若上述垂直间距不大于预设的垂直间距阈值,可以认为该两个目标表格符的垂直位置相同,因此可以将这两个目标表格符确定为位于同一行的同位目标表格符。上述水平间距阈值可以是2个像素点、3个像素点、5个像素点等。还可以是两两计算所绘制的目标表格符在垂直方向上的垂直间距占表格宽度的比例,若上述比例不大于预设的垂直比例阈值,则可以将这两个目标表格符确定为位于同一行的同位目标表格符。
本申请的一个实施例中,为便于后续对各个同位表格符进行连接,可以对各个同位表格符进行位置校正,将位于同一列的各个同位表格符之间的水平间距调整为0,并且将将位于同一行的各个同位表格符之间的垂直间距调整为0。
本申请的一个实施例中,对于上述步骤1032,在对各个目标表格符进行连接得到新的表格时,可以沿各个目标表格符的指示方向将各个位置相邻的目标表格符相连接,并删除重合线段和/或错误表格符,得到新的表格。
其中,参见图7,图7为本申请实施例提供的一种重合线段的示意图,图中701表示第一目标表格符,702表示第二目标表格符,在针对第一目标表格符701,与第二目标表格符702进行连接时,可以得到一连接线段;在针对第二目标表格符702,与第一目标表格符701进行连接时,可以再次得到一连接第一目标表格符701与第二目标表格符702的线段,从而导致表格中出现重合的线段,这样会影响表格的创建效果。
错误表格符包括:未能与其他目标表格符相连接的目标表格符。具体的,在一目标表格符的所有指示方向上均不存在其他目标表格符的情况下,则该目标表格符难以与其他目标表格符进行连接,因此将该目标表格符作为错误表格符。
具体的,在创建表格时,首先对目标表格符进行连接,再删除其中的重合线段和错误表格符,从而得到新的表格,这样可以提高表格的创建效果。
本申请的一个实施例中,在创建得到新的表格后,还可以计算新的表格与参考图像中参考表格的重合度,根据重合度对新的表格进行调整,将新的表格更新为调整后的表格,返回计算新的表格与参考图像中参考表格的重合度的步骤,直至重合度达到预设的重合度阈值。
具体的,可以通过计算重合度的方式,判断新的表格与参考表格是否接近,重合度越高,则说明所创建的新的表格越接近参考表格;重合度越低,则说明所创建的新的表格与参考表格的差异越大。在上述重合度未达到重合度阈值的情况下,说明新的表格与参考表格的差异较大,需要对新的表格进行调整,直至重合度达到上述重合度阈值。
本申请的一个实施例中,可以通过计算相似度的方式,确定新的表格与参考图像中参考表格的重合度。还可以将新的表格和参考图像中参考表格转化到同一坐标系中,判断新的表格与参考表格中线段、表格符等是否重合,统计重合的线段、表格符的数量,计算上述数量占新的表格中线段、表格符总数量的比率,作为重合度。
利用重合度对所创建的表格进行调整,可以进一步提高所创建的表格的准确度。
参见图8,图8为本申请实施例提供的一种表格创建装置的结构示意图,所述装置包括:
图像获得模块801,用于获得包含参考表格的图像,作为参考图像;
表格符检测模块802,用于检测所述参考图像内所述参考表格包含的表格符,作为目标表格符,获得各个所述目标表格符的类型和各个所述目标表格符在所述参考图像中的位置,其中,所述表格符为:用于构成表格结构的预设符号;
表格创建模块803,用于根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,创建新的表格,其中,所述新的表格中包含所检测到的目标表格符,且所述新的表格中各个表格符之间的相对位置与所述参考表格中各个所述目标表格符之间的相对位置相同,所述目标表格符的指示方向为:基于该目标表格符的类型所确定的、表格中该目标表格符与其他目标表格符的连接方向。
本申请的一个实施例中,所述表格符检测模块802,具体用于:
分块提取所述参考图像的图像特征;
基于所提取得到的图像特征与预设的表格符的特征进行匹配,确定匹配成功的图像特征对应的图像区域为目标表格符;
获得所确定的目标表格符的类型为所匹配的表格符的类型,并获得所确定的目标表格符对应的图像区域在所述参考图像中的位置,作为所确定的目标表格符在所述参考图像中的位置。
本申请的一个实施例中,所述表格符检测模块802,具体用于:
将所述参考图像输入预先训练完成的表格符检测模型,检测所述参考图像内所述参考表格包含的目标表格符,获得所述表格符检测模型输出的各个所述目标表格符的类型和各个所述目标表格符在所述参考图像中的位置,其中,所述表格符检测模型为:以包含样本表格的样本图像为输入、样本图像中预先标注的样本表格的表格符为标注、对所述表格符检测模型的初始模型进行训练得到的网络模型。
本申请的一个实施例中,所表格创建模块803,具体用于:
根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,预测表格的结构;
绘制所预测结构的表格,得到新的表格。
本申请的一个实施例中,所述表格创建模块803,包括:
表格符绘制单元,用于根据各个所述目标表格符的位置,绘制所检测到的各个所述目标表格符,其中,所绘制的各个所述目标表格符之间的相对位置与所述参考表格包含的各个所述目标表格符之间的相对位置相同;
表格符连接单元,用于沿各个所述目标表格符的指示方向将各个位置相邻的目标表格符相连接,得到新的表格。
本申请的一个实施例中,所述表格符连接单元,包括:
同位表格符确定子单元,用于根据各个所述目标表格符的位置,确定同位目标表格符,其中,所述同位目标表格符为:位于同一行或同一列的目标表格符;
表格符连接子单元,用于沿所述同位目标表格符中各个目标表格符的指示方向,与所述同位目标表格符中位置相邻目标表格符进行连接,得到新的表格。
本申请的一个实施例中,所述同位表格符确定子单元,具体用于:
根据各个所述目标表格符的位置,检测各个所述目标表格符之间的水平间距和垂直间距;
确定水平间距满足预设的水平间距条件的目标表格符为位于同一列的同位目标表格符;
确定垂直间距满足预设的垂直间距条件的目标表格符为位于同一行的同位目标表格符。
本申请的一个实施例中,所述表格符连接单元,具体用于:
沿各个所述目标表格符的指示方向将各个位置相邻的目标表格符相连接,并删除重合线段和/或错误表格符,得到新的表格,其中,所述错误表格符包括:未能与其他目标表格符相连接的目标表格符。
本申请的一个实施例中,所述装置还包括:
重合度计算模块,用于在创建新的表格之后,计算新的表格与所述参考图像中所述参考表格的重合度;
表格调整模块,用于根据所述重合度对所述新的表格进行调整,将所述新的表格更新为调整后的表格,触发所述重合度计算模块,直至所述重合度达到预设的重合度阈值。
应用上述实施例提供的方案在创建新的表格时,可以获得包含参考表格的图像,作为参考图像,检测参考图像内参考表格包含的表格符,作为目标表格符,获得各个目标表格符的类型和各个目标表格符在参考图像中的位置,根据各个目标表格符的位置和各个目标表格符的指示方向,创建新的表格。其中,目标表格符的指示方向为:基于该目标表格符的类型所确定的、表格中该目标表格符与其他目标表格符的连接方向。所创建的新的表格中包含所检测到的目标表格符,且新的表格中各个目标表格符之间的相对位置与表格中各个目标表格符之间的相对位置相同。这样对参考图像内参考表格的目标表格符进行检测,根据检测到的目标表格符的位置和类型,创建新的表格。由于表格符不易受到参考图像中其他内容的遮挡和干扰,因此检测得到的参考图像内参考表格的目标表格符的准确度较高,进而根据目标表格符创建的新的表格的准确度较高。由此可见,应用上述实施例提供的表格创建方案,可以提高创建的表格的准确度。
本申请实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现表格创建方法的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一表格创建方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一表格创建方法。
应用上述实施例提供的方案在创建新的表格时,可以获得包含参考表格的图像,作为参考图像,检测参考图像内参考表格包含的表格符,作为目标表格符,获得各个目标表格符的类型和各个目标表格符在参考图像中的位置,根据各个目标表格符的位置和各个目标表格符的指示方向,创建新的表格。其中,目标表格符的指示方向为:基于该目标表格符的类型所确定的、表格中该目标表格符与其他目标表格符的连接方向。所创建的新的表格中包含所检测到的目标表格符,且新的表格中各个目标表格符之间的相对位置与表格中各个目标表格符之间的相对位置相同。这样对参考图像内参考表格的目标表格符进行检测,根据检测到的目标表格符的位置和类型,创建新的表格。由于表格符不易受到参考图像中其他内容的遮挡和干扰,因此检测得到的参考图像内参考表格的目标表格符的准确度较高,进而根据目标表格符创建的新的表格的准确度较高。由此可见,应用上述实施例提供的表格创建方案,可以提高创建的表格的准确度。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例、计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (18)

1.一种表格创建方法,其特征在于,所述方法包括:
获得包含参考表格的图像,作为参考图像;
检测所述参考图像内所述参考表格包含的表格符,作为目标表格符,获得各个所述目标表格符的类型和各个所述目标表格符在所述参考图像中的位置,其中,所述表格符为:用于构成表格结构的预设符号;
根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,创建新的表格,其中,所述新的表格中包含所检测到的目标表格符,且所述新的表格中各个表格符之间的相对位置与所述参考表格中各个所述目标表格符之间的相对位置相同,所述目标表格符的指示方向为:基于该目标表格符的类型所确定的、表格中该目标表格符与其他目标表格符的连接方向;
其中,所述检测所述参考图像内所述参考表格包含的表格符,作为目标表格符,获得各个所述目标表格符的类型和各个所述目标表格符在所述参考图像中的位置,包括:
分块提取所述参考图像的图像特征;基于所提取得到的图像特征与预设的表格符的特征进行匹配,确定匹配成功的图像特征对应的图像区域为目标表格符;获得所确定的目标表格符的类型为所匹配的表格符的类型,并获得所确定的目标表格符对应的图像区域在所述参考图像中的位置,作为所确定的目标表格符在所述参考图像中的位置;或,
将所述参考图像输入预先训练完成的表格符检测模型,检测所述参考图像内所述参考表格包含的目标表格符,获得所述表格符检测模型输出的各个所述目标表格符的类型和各个所述目标表格符在所述参考图像中的位置。
2.根据权利要求1所述的方法,其特征在于,所述表格符检测模型为:以包含样本表格的样本图像为输入、样本图像中预先标注的样本表格的表格符为标注、对所述表格符检测模型的初始模型进行训练得到的网络模型。
3.根据权利要求1-2中任一项所述的方法,其特征在于,所述根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,创建新的表格,包括:
根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,预测表格的结构;
绘制所预测结构的表格,得到新的表格。
4.根据权利要求1-2中任一项所述的方法,其特征在于,所述根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,创建新的表格,包括:
根据各个所述目标表格符的位置,绘制所检测到的各个所述目标表格符,其中,所绘制的各个所述目标表格符之间的相对位置与所述参考表格包含的各个所述目标表格符之间的相对位置相同;
沿各个所述目标表格符的指示方向将各个位置相邻的目标表格符相连接,得到新的表格。
5.根据权利要求4所述的方法,其特征在于,所述沿各个所述目标表格符的指示方向将各个位置相邻的目标表格符相连接,得到新的表格,包括:
根据各个所述目标表格符的位置,确定同位目标表格符,其中,所述同位目标表格符为:位于同一行或同一列的目标表格符;
沿所述同位目标表格符中各个目标表格符的指示方向,与所述同位目标表格符中位置相邻目标表格符进行连接,得到新的表格。
6.根据权利要求5所述的方法,其特征在于,所述根据各个所述目标表格符的位置,确定同位目标表格符,包括:
根据各个所述目标表格符的位置,检测各个所述目标表格符之间的水平间距和垂直间距;
确定水平间距满足预设的水平间距条件的目标表格符为位于同一列的同位目标表格符;
确定垂直间距满足预设的垂直间距条件的目标表格符为位于同一行的同位目标表格符。
7.根据权利要求4所述的方法,其特征在于,所述沿各个所述目标表格符的指示方向将各个位置相邻的目标表格符相连接,得到新的表格,包括:
沿各个所述目标表格符的指示方向将各个位置相邻的目标表格符相连接,并删除重合线段和/或错误表格符,得到新的表格,其中,所述错误表格符包括:未能与其他目标表格符相连接的目标表格符。
8.根据权利要求1-2中任一项所述的方法,其特征在于,在所述根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,创建新的表格步骤之后,所述方法还包括:
计算新的表格与所述参考图像中所述参考表格的重合度;
根据所述重合度对所述新的表格进行调整,将所述新的表格更新为调整后的表格,返回所述计算新的表格与所述参考图像中所述参考表格的重合度的步骤,直至所述重合度达到预设的重合度阈值。
9.一种表格创建装置,其特征在于,所述装置包括:
图像获得模块,用于获得包含参考表格的图像,作为参考图像;
表格符检测模块,用于检测所述参考图像内所述参考表格包含的表格符,作为目标表格符,获得各个所述目标表格符的类型和各个所述目标表格符在所述参考图像中的位置,其中,所述表格符为:用于构成表格结构的预设符号;
表格创建模块,用于根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,创建新的表格,其中,所述新的表格中包含所检测到的目标表格符,且所述新的表格中各个表格符之间的相对位置与所述参考表格中各个所述目标表格符之间的相对位置相同,所述目标表格符的指示方向为:基于该目标表格符的类型所确定的、表格中该目标表格符与其他目标表格符的连接方向;
其中,所述表格符检测模块,具体用于:
分块提取所述参考图像的图像特征;基于所提取得到的图像特征与预设的表格符的特征进行匹配,确定匹配成功的图像特征对应的图像区域为目标表格符;获得所确定的目标表格符的类型为所匹配的表格符的类型,并获得所确定的目标表格符对应的图像区域在所述参考图像中的位置,作为所确定的目标表格符在所述参考图像中的位置;或,
将所述参考图像输入预先训练完成的表格符检测模型,检测所述参考图像内所述参考表格包含的目标表格符,获得所述表格符检测模型输出的各个所述目标表格符的类型和各个所述目标表格符在所述参考图像中的位置。
10.根据权利要求9所述的装置,其特征在于,所述表格符检测模型为:以包含样本表格的样本图像为输入、样本图像中预先标注的样本表格的表格符为标注、对所述表格符检测模型的初始模型进行训练得到的网络模型。
11.根据权利要求9-10中任一项所述的装置,其特征在于,所表格创建模块,具体用于:
根据各个所述目标表格符的位置和各个所述目标表格符的指示方向,预测表格的结构;
绘制所预测结构的表格,得到新的表格。
12.根据权利要求9-10中任一项所述的装置,其特征在于,所述表格创建模块,包括:
表格符绘制单元,用于根据各个所述目标表格符的位置,绘制所检测到的各个所述目标表格符,其中,所绘制的各个所述目标表格符之间的相对位置与所述参考表格包含的各个所述目标表格符之间的相对位置相同;
表格符连接单元,用于沿各个所述目标表格符的指示方向将各个位置相邻的目标表格符相连接,得到新的表格。
13.根据权利要求12所述的装置,其特征在于,所述表格符连接单元,包括:
同位表格符确定子单元,用于根据各个所述目标表格符的位置,确定同位目标表格符,其中,所述同位目标表格符为:位于同一行或同一列的目标表格符;
表格符连接子单元,用于沿所述同位目标表格符中各个目标表格符的指示方向,与所述同位目标表格符中位置相邻目标表格符进行连接,得到新的表格。
14.根据权利要求13所述的装置,其特征在于,所述同位表格符确定子单元,具体用于:
根据各个所述目标表格符的位置,检测各个所述目标表格符之间的水平间距和垂直间距;
确定水平间距满足预设的水平间距条件的目标表格符为位于同一列的同位目标表格符;
确定垂直间距满足预设的垂直间距条件的目标表格符为位于同一行的同位目标表格符。
15.根据权利要求12所述的装置,其特征在于,所述表格符连接单元,具体用于:
沿各个所述目标表格符的指示方向将各个位置相邻的目标表格符相连接,并删除重合线段和/或错误表格符,得到新的表格,其中,所述错误表格符包括:未能与其他目标表格符相连接的目标表格符。
16.根据权利要求9-10中任一项所述的装置,其特征在于,所述装置还包括:
重合度计算模块,用于在创建新的表格之后,计算新的表格与所述参考图像中所述参考表格的重合度;
表格调整模块,用于根据所述重合度对所述新的表格进行调整,将所述新的表格更新为调整后的表格,触发所述重合度计算模块,直至所述重合度达到预设的重合度阈值。
17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。
CN202010389023.1A 2020-05-09 2020-05-09 一种表格创建方法、装置、电子设备及存储介质 Active CN113627143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010389023.1A CN113627143B (zh) 2020-05-09 2020-05-09 一种表格创建方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010389023.1A CN113627143B (zh) 2020-05-09 2020-05-09 一种表格创建方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113627143A CN113627143A (zh) 2021-11-09
CN113627143B true CN113627143B (zh) 2024-02-02

Family

ID=78377644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010389023.1A Active CN113627143B (zh) 2020-05-09 2020-05-09 一种表格创建方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113627143B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1047739A (zh) * 1989-05-31 1990-12-12 吴建波 表格符号的输入方法及信息系统
US10083218B1 (en) * 2017-06-30 2018-09-25 Konica Minolta Laboratory U.S.A., Inc. Repairing tables
CN109948507A (zh) * 2019-03-14 2019-06-28 北京百度网讯科技有限公司 用于检测表格的方法和装置
CN110163198A (zh) * 2018-09-27 2019-08-23 腾讯科技(深圳)有限公司 一种表格识别重建方法、装置和存储介质
CN110210409A (zh) * 2019-06-04 2019-09-06 南昌市微轲联信息技术有限公司 表格单据中表格框线检测方法及系统
CN110334585A (zh) * 2019-05-22 2019-10-15 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN110378347A (zh) * 2019-07-04 2019-10-25 北京爱医生智慧医疗科技有限公司 一种医疗检验单的关键信息提取方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416279B (zh) * 2018-02-26 2022-04-19 北京阿博茨科技有限公司 文档图像中的表格解析方法及装置
CN108470021B (zh) * 2018-03-26 2022-06-03 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1047739A (zh) * 1989-05-31 1990-12-12 吴建波 表格符号的输入方法及信息系统
US10083218B1 (en) * 2017-06-30 2018-09-25 Konica Minolta Laboratory U.S.A., Inc. Repairing tables
CN110163198A (zh) * 2018-09-27 2019-08-23 腾讯科技(深圳)有限公司 一种表格识别重建方法、装置和存储介质
CN109948507A (zh) * 2019-03-14 2019-06-28 北京百度网讯科技有限公司 用于检测表格的方法和装置
CN110334585A (zh) * 2019-05-22 2019-10-15 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN110210409A (zh) * 2019-06-04 2019-09-06 南昌市微轲联信息技术有限公司 表格单据中表格框线检测方法及系统
CN110378347A (zh) * 2019-07-04 2019-10-25 北京爱医生智慧医疗科技有限公司 一种医疗检验单的关键信息提取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"How to teach oncology clinical pharmacy?" Report of the round table held at the 12th Monaco Biennal of Oncology (3–6 February 2016);J.L. Cazin;Science Direct;第51卷(第3期);247-249 *
表格型票据中框线检测与去除算法;张艳;郁生阳;张重阳;杨静宇;;计算机研究与发展(第05期);165-170 *

Also Published As

Publication number Publication date
CN113627143A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
US10896349B2 (en) Text detection method and apparatus, and storage medium
KR102609341B1 (ko) 테이블 식별 방법, 장치, 기기, 매체 및 컴퓨터 프로그램
CN109685055B (zh) 一种图像中文本区域的检测方法及装置
CN110032998B (zh) 自然场景图片的文字检测方法、系统、装置和存储介质
US9697423B1 (en) Identifying the lines of a table
US10049096B2 (en) System and method of template creation for a data extraction tool
US9235758B1 (en) Robust method to find layout similarity between two documents
US10346703B2 (en) Method and apparatus for information recognition
US9082181B2 (en) Image processing method and apparatus
CN109697414B (zh) 一种文本定位方法及装置
CN113190781B (zh) 页面布局方法、装置、设备及存储介质
WO2014092979A1 (en) Method of perspective correction for devanagari text
CN111291661A (zh) 一种屏幕中图标的文本内容的识别方法及设备
KR20200128015A (ko) 증명서 인식 방법 및 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체
CN111091572B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN108182457B (zh) 用于生成信息的方法和装置
WO2024159943A1 (zh) 图纸表格区域检测方法、装置、存储介质和电子设备
CN113420848A (zh) 神经网络模型的训练方法及装置、手势识别的方法及装置
CN110287361B (zh) 一种人物图片筛选方法及装置
CN115357155A (zh) 窗口识别方法、装置、设备及计算机可读存储介质
CN111145202A (zh) 模型生成方法、图像处理方法、装置、设备及存储介质
CN113392455A (zh) 基于深度学习的户型图比例尺检测方法、装置及电子设备
CN113627143B (zh) 一种表格创建方法、装置、电子设备及存储介质
CN111127480B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN111881050B (zh) 一种文本图层的剪裁方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant