CN113255501A - 生成表格识别模型的方法、设备、介质及程序产品 - Google Patents

生成表格识别模型的方法、设备、介质及程序产品 Download PDF

Info

Publication number
CN113255501A
CN113255501A CN202110540348.XA CN202110540348A CN113255501A CN 113255501 A CN113255501 A CN 113255501A CN 202110540348 A CN202110540348 A CN 202110540348A CN 113255501 A CN113255501 A CN 113255501A
Authority
CN
China
Prior art keywords
data
target
model
preset
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110540348.XA
Other languages
English (en)
Other versions
CN113255501B (zh
Inventor
姜泽青
韩光耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110540348.XA priority Critical patent/CN113255501B/zh
Publication of CN113255501A publication Critical patent/CN113255501A/zh
Application granted granted Critical
Publication of CN113255501B publication Critical patent/CN113255501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本公开提及了一种生成表格识别模型的方法、设备、介质及程序产品,涉及深度学习和计算机视觉等人工智能领域。该方法的一实施方式包括:获取目标表格数据的表格结构特征、表格特征图以及预设的表格标签;表格特征图为将目标表格数据输入预先训练的实例分割模型中得到的;融合表格结构特征和表格特征图,得到融合特征;利用融合特征和预设的表格标签进行训练,生成表格识别模型。

Description

生成表格识别模型的方法、设备、介质及程序产品
技术领域
本公开实施例涉及计算机领域,具体涉及深度学习和计算机视觉等人工智能领域,尤其涉及一种生成表格识别模型的方法、设备、介质及程序产品。
背景技术
随着互联网信息技术的发展,实现业务流程的无纸化办公越来越得到用户的推崇,其中,表格作为记录信息的重要载体,针对表格的识别也就显得尤为重要。一套高准度、高性能和健壮的表格识别方案能够降低人力成本,提高工作效率,从而产生经济效益。
目前,对于便携式文档格式(PDF,Portable Document Format)的表格数据,利用PDF的<table>等标签信息进行检测,以实现对表格的识别。
发明内容
本公开实施例提出了一种生成表格识别模型的方法、设备、介质及程序产品。
第一方面,本公开实施例提出了一种生成表格识别模型的方法,包括:获取目标表格数据的表格结构特征、表格特征图以及预设的表格标签;表格特征图为将目标表格数据输入预先训练的实例分割模型中得到的;融合表格结构特征和表格特征图,得到融合特征;利用融合特征和预设的表格标签进行训练,生成表格识别模型。
第二方面,本公开实施例提出了一种表格识别方法,包括:获取待预测的表格数据;将待预测的表格数据输入如第一方面所述的表格识别模型中,得到待预测的表格数据中的目标表格的位置和类别。
第三方面,本公开实施例提出了一种生成表格识别模型的装置,包括:数据获取单元,进一步配置成获取目标表格数据的表格结构特征、表格特征图以及预设的表格标签;表格特征图为将目标表格数据输入预先训练的实例分割模型中得到的;特征融合单元,被配置成融合表格结构特征和表格特征图,得到融合特征;模型训练单元,被配置成利用融合特征和预设的表格标签进行训练,生成表格识别模型。
第四方面,本公开实施例提出了一种表格识别装置,包括:数据获取单元,被配置成获取待预测的表格数据;表格识别单元,被配置成将待预测的表格数据输入如第一方面所述的表格识别模型中,得到待预测的表格数据中的目标表格的位置和类别。
第五方面,本公开实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第二方面描述的方法。
第六方面,本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第二方面描述的方法。
第七方面,本公开实施例提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面或第二方面描述的方法。
本公开实施例提供的生成表格识别模型的方法、设备、介质及程序产品,首先获取目标表格数据的表格结构特征、表格特征图以及预设的表格标签;然后融合表格结构特征和表格特征图,得到融合特征;最后利用融合特征和预设的表格标签进行训练,得到表格识别模型。可以通过由表格结构特征和表格特征图融合得到的融合特征,与预设的表格标签进行模型训练,以得到表格识别模型,从而能够实现对表格的准确识别。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开可以应用于其中的示例性系统架构图;
图2是根据本公开的生成表格识别模型的方法的一个实施例的流程图;
图3是根据本公开的生成表格识别模型的方法的一个实施例的流程图;
图4是根据本公开的生成表格识别模型的方法的一个实施例的流程图;
图5是根据本公开的表格识别方法的一个实施例的流程图;
图6是根据本公开的表格识别方法的一个应用场景示意图;
图7是根据本公开的生成表格识别模型的装置的一个实施例的结构示意图;
图8是根据本公开的表格识别装置的一个实施例的结构示意图;
图9是用来实现本公开实施例的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的生成表格识别模型的方法和装置或表格识别方法和装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送视频帧等。终端设备101、102、103上可以安装有各种客户端应用、智能交互应用,例如用于处理表格数据的应用软件、图像处理软件等等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,终端设备可以为与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如PC(Personal Computer,个人计算机)、手机、智能手机、PDA(Personal Digital Assistant,个人数字助手)、可穿戴设备、PPC(PocketPC,掌上电脑)、平板电脑、智能车机、智能电视、智能音箱、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以提供各种服务。例如,服务器105可以从终端设备101、102、103中获取目标表格数据的表格结构特征、表格特征图以及预设的表格标签。之后,服务器105可以融合表格结构特征和表格特征图,得到融合特征。之后,服务器105可以利用融合特征和预设的表格标签进行训练,生成表格识别模型。以及将表格识别模型返回给终端设备101、102、103,以使终端设备101、102、103基于表格识别模型对待预测的表格数据进行预测,得到待预测的表格数据中的目标表格的位置和类别。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本公开实施例所提供的生成表格识别模型的方法或表格识别方法一般由服务器105执行,相应地,生成表格识别模型的装置或表格识别装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,其示出了根据本公开的生成表格识别模型的方法的一个实施例的流程200。该生成表格识别模型的方法可以包括以下步骤:
步骤201,获取目标表格数据的表格结构特征、表格特征图以及预设的表格标签。
在本实施例中,生成表格识别模型的方法的执行主体(例如图1所示的终端设备101、102、103或服务器105)可以获取目标表格数据的表格结构特征、表格特征图以及预设的表格标签。该目标表格数据可以为包括目标表格的网页、图片、文档等。上述目标表格可以为网页、图片、文档中的表格;该目标表格的类别可以为有线表格、无线表格、非全框表格、全框表格等。上述表格结构特征可以用于表征表格结构的特征,该表格结构化特征可以包括以下至少一项:表格线结构特征、表格对齐特征、封闭单元格的个数。上述表格特征图可以用于表征目标表格数据中的每个像素对应的特征。上述预设的表格标签可以由人工进行标注,该预设的表格标签可以用于在模型训练阶段与预测值进行比较,以判定训练的模型的精度是否预设的精度阈值。其中,预设的精度阈值可以由用户的需求设定。
其中,语义分割是对图像中的每个像素都划分出对应的类别,即实现像素级别的分类;而实例分割不但要进行像素级别的分类,还需要在具体的类别基础上区分开不同的实例。例如图像包括甲、乙、丙,语义分割结果为甲、乙、丙都是人,而实例分割结果为甲、乙、丙为不同的人。
在这里,表格特征图为将目标表格数据输入预先训练的实例分割模型中得到的。
在本实施例中,上述执行主体可以将目标表格数据输入预先训练的实例分割模型中,以得到表格特征图。
步骤202,融合表格结构特征和表格特征图,得到融合特征。
在本实施例中,上述执行主体将表格结构特征和表格特征图进行融合,以得到融合特征。
具体地,将表格结构特征和表格特征图进行特征拼接,得到融合特征。
步骤203,利用融合特征和预设的表格标签进行训练,生成表格识别模型。
在本实施例中,上述执行主体可以利用融合特征和预设的表格标签进行训练,得到表格识别模型。
具体地,上述执行主体可以将融合特征作为表格识别模型的输入,将预设的表格标签作为表格识别模型的输出,训练初始模型,得到表格识别模型。
本实施例中,上述执行主体在得到融合特征,以及预设的表格标签后,可以利用融合特征和预设的表格标签训练初始模型,得到表格识别模型。在训练时,执行主体可以将融合特征作为表格识别模型的输入,以及将所输入对应的预设的表格标签,作为期望输出,得到表格识别模型。上述初始模型可以为现有技术或未来发展技术中的神经网络模型,例如,神经网络模型可以包括分类模型,如随机森林、lightGBM(Light Gradient BoostingMachine)、Xgboost(eXtreme Gradient Boosting)等,以及深度学习的FM(FactorizationMachines)、FFM(Field Factorization Machine),对表格进行识别。
上述表格识别模型可以基于各种领域的标注数据预训练模型,使其能够掌握不同物体的基础结构特征以及表格特征图,然后针对全框表格、非全框表格等各种表格数据进行针对性训练,使得模型掌握表格的结构特征,能够快速在图片中定位出表格区域位置,同时针对不同的表格种类进行的划分。
本公开实施例提供的生成表格识别模型的方法,首先获取目标表格数据的表格结构特征、表格特征图以及预设的表格标签;然后融合表格结构特征和表格特征图,得到融合特征;最后利用融合特征和预设的表格标签进行训练,得到表格识别模型。可以通过由表格结构特征和表格特征图融合得到的融合特征,与预设的表格标签进行模型训练,以得到表格识别模型,从而能够实现对表格的准确识别。
在本实施例的一些可选的实现方式中,表格特征图和实例分割结果基于以下步骤确定:表格结构特征包括以下至少一项:表格线结构特征、表格对齐特征、封闭单元格的个数。
在本实现方式中,为了能够更加充分利用表格图片(或者pdf等其他格式)的信息,并将之数据化,这一环节加入了图像特征,目前采用的图像特征(即,表格结构特征)包括:边缘特征。
其中,边缘特征是图像的重要特征,是图像中特性(如像素灰度、纹理等)分布的不连续处,图像周围特性有阶跃变化或屋脊状变化的那些像素集合。图像的边缘部分集中了图像的大部分信息,一幅图像的边缘结构与特点往往是决定图像特质的重要部分。图像边缘的另一个定义是指其周围像素灰度变化不连续的那些像素的集合。边缘广泛存在于物体与背景之间、物体与物体之间。
在一个示例中,表格线结构特征:针对有线全框表格,构造了如下线结构特征作为衡量全框表格和非全框的重要标准:
Figure BDA0003071368820000071
表格对齐特征:包括行对齐、列对齐,表格往往结构分明、排列整齐,即使没有表格线的无线表格,也具有行列对齐的基本特征;
封闭单元格的个数:不同的表格是否有封闭单元格,也是可以区分表格类别的重要依据,非全框表格往往是没有表格线,或者是只有行线、列线的一种,因此封闭单元格的个数也可以作为区分表格类别的重要依据。
在一个示例中,边缘特征可以包括表格线结构特征、表格对齐特征、封闭单元格的个数。
在本实现方式中,可以基于表格线结构特征、表格对齐特征和封闭单元格的个数中的任意一项,实现对表格结构特征的确定。
在本实施例的一些可选的实现方式中,该生成表格识别模型的方法还可以包括:获取目标表格数据中的关键词的词频;
其中,融合表格结构特征和表格特征图,得到融合特征,包括:融合表格结构特征,表格特征图以及关键词的词频,得到融合特征。
在本实现方式中,目标表格数据中的关键词的词频可以为:通过统计目标表格数据中的关键词的数量以得到词频,即关键字的出现频率,通过统计不同表格类别的关键词词频作为划分表格类别的依据。例如,表头中的关键词“表”、“下表”,或表格标题中的关键词等。
在一个示例中,在此步骤中,预先分析包括目标表格数据的文档中表格的表头都有哪些关键词,以及这些关键词出现的频率,即词频,通过词频计算表头关键词的权重,汇总成表头关键词权重列表。表头关键词权重列表可以是:[{“A”(关键词),25%(权重)},{“B”,18%},{“C”,11%}…]。然后在提取的表格信息中查找表头关键词,根据表头关键词的权重,定位一个表格的表头所在行。由于文档中有些表格比较特殊,采用表头关键词权重定位表头,可以提高定位的准确性。
需要说明的是,获取目标表格数据中的关键词的词频执行的顺序可以与步骤201获取表格结构特征、表格特征图以及预设的表格标签(或实例分割结果对应的标签)同时执行;或在步骤201获取表格结构特征、表格特征图以及预设的表格标签(或实例分割结果对应的标签)之前执行;或,在步骤201获取表格结构特征、表格特征图以及预设的表格标签(或实例分割结果对应的标签)之后执行。
在本实现方式中,可以基于表格结构特征,表格特征图以及关键词的词频进行特征融合,实现对融合特征的确定。
在本实施例的一些可选的实现方式中,若预设的表格标签包括实例分割结果对应的标签;利用融合特征和预设的表格标签进行训练,生成表格识别模型,包括:利用融合特征和实例分割结果对应的标签,生成表格识别模型,其中,实例分割结果为将目标表格数据输入预先训练的实例分割模型中得到的。上述实例分割结果可以为将目标表格数据输入预先训练的实例分割模型中得到的。
在本实现方式中,上述执行主体在得到融合特征,以及预设的表格标签后,可以利用融合特征和实例分割结果对应的标签训练初始模型,得到表格识别模型。在训练时,执行主体可以将融合特征作为表格识别模型的输入,以及将所输入对应的实例分割结果对应的标签,作为期望输出,得到表格识别模型。上述初始模型可以为现有技术或未来发展技术中的神经网络模型,例如,神经网络模型可以包括分类模型,如随机森林、lightGBM(LightGradient Boosting Machine)、Xgboost(eXtreme Gradient Boosting)等,以及深度学习的FM(Factorization Machines)、FFM(Field Factorization Machine),对表格进行识别。
在本实现方式中,利用表格结构特征以及表格特征图进行融合,在提高了模表格识别模型的识别准确性的同时,利用分割识别模型对应的标签,降低了标注成本,能够快速、准确地定位不同表格的区域位置。
在本实施例的一些可选的实现方式中,表格特征图和实例分割结果基于以下步骤确定:将目标表格数据输入预先训练的实例分割模型的特征提取网络层中,得到表格特征图;将表格特征图输入预先训练的实例分割模型的候选区域网络层中,得到候选区域;将候选区域输入预先训练的实例分割模型的分类网络层中,得到实例分割结果。
在本实现方式中,上述执行主体可以先将目标表格数据输入预先训练的实例分割模型的特征提取网络层中,得到表格特征图;之后,将表格特征图输入预先训练的实例分割模型的候选区域网络层中,得到候选区域;之后,利用分类网络层中对候选区域中的像素进行分类,以得到实例分割结果。上述特征提取网络层用于提取表格特征图。上述候选区域网络层用于确定候选区域。上述分类网络层用于对候选区域中的像素进行分类。
在本实现方式中,预先训练的实例分割模型可以基于以下步骤确定:基于各种领域的带有标注的数据集进行模型训练,训练实例分割模型,使得训练后的模型可以识别出表格的位置和类别。
在这里,候选区域网络层,在目标表格数据为文档中的表格时,用于定位出文档中表格所在的区域,在进行实例分割的过程中,实例分割模型会基于anchors,利用全卷积网络(Fully Convolutional Networks,FCN)模型检测出表格所在的区域。
在这里,特征提取网络层,在实例分割模型中,在conv+relu+pooling层提取表格特征图(feature maps)。
需要说明的是,在进行表格特征图提取之前,需要先将目标表格数据中的表格的格式转化为图片格式,例如JPEG、PNG等格式。之后,再对图片格式的表格进行特征提取,以得到图像的表格特征图。
在一个示例中,以Faster-RCNN为实例分割模型为例。
该Faster-RCNN包括:特征提取网络层、候选区域网络层、目标区池化网络层、全连接网络层和分类网络层。
其中,首先,利用Faster-RCNN的特征提取(conv layers)网络层提取表格特征图(feture map)。候选区域(Region Proposal Networks,RPN)网络层通过激活函数(softmax)判断anchors属于背景(background)或者前景(foreground),再利用边框回归(bounding box regression)修正anchors获得后续区域中精确的目标区域(propocals)。目标区池化(Roi Pooling)网络层用于收集表格特征图(feature map)和目标区域(proposcal),综合feature map和proposcal提取区域表格特征图(proposal featuremap);之后,proposal feature map将输入全连接网络层中,以由全连接网络层对目标表格数据中的表格进行识别。分类网络(Classification)层,利用proposal feature map计算proposcal的类别,同时再次边框回归(bounding box regression)获得框的最终精确的位置。
对应地,在该示例中,Conv layer可以包括conv+relu+pooling层;例如VGG(Visual Geometry Group),Conv layer包括13个conv层+13个relu层+4个pooling层。
在本实现方式中,基于预先训练的实例分割模型可以在得到表格特征图的基础上,还可以得到实例分割结果,以使后续可以基于实例分割结果对应的标签进行训练,从而降低了标注成本。
在本实施例的一些可选的实现方式中,特征提取网络层包括:卷积层、线性整流函数、池化层。
在本实现方式中,实例分割模型的特征提取网络层可以包括卷积层(conv)+线性整流函数(relu)+池化层(pooling)。
在一个示例中,Conv layer可以包括conv+relu+pooling层;例如VGG(VisualGeometry Group)16,Conv layer可以包括13个conv层+13个relu层+4个pooling层。
在本实现方式中,可以基于卷积层、线性整流函数和池化层实现对表格特征图的提取。
在本实施例的一些可选的实现方式中,在获取目标表格数据的表格结构特征、表格特征图以及预设的表格标签之前,该生成表格识别模型的方法还包括:获取原始表格数据;对原始表格数据进行预处理,得到目标表格数据。
在本实现方式中,上述执行主体可以预先对获取的原始表格数据进行预处理,例如歪斜矫正、印章去除、图片锐化等处理。
具体地,首先用户上传表格数据,数据可以为单个或批量等任意数量,用户需要注意上传图片的质量,如果图片质量过差,比如过于模糊、有严重的遮挡、阴影等干扰因素,需要提前剔除。其中,预处理可以包括:上传的表格数据由于在真实的场景会出现各种情况,如拍摄图片歪斜、有印章、较为模糊等,因此在图片预处理环节,会对图片进行歪斜矫正、印章去除、图片锐化等处理,降低干扰因素的影响。
在本实现方式中,可以预先对获取的原始表格数据进行预处理,以预先筛选掉质量不好的表格,从而可以提高训练样本的质量,以达到提高表格识别模型的识别精度的目的。
在本实施例的一些可选的实现方式中,在对原始表格数据进行预处理,得到目标表格数据之前,该生成表格识别模型的方法还包括:判断原始表格数据的格式是否为预设的格式;响应于确定原始表格数据的格式为预设的格式,对原始表格数据进行预处理,得到目标表格数据。
在本实现方式中,原始表格数据的格式可以包括JPEG、图像文件存储格式(PNG)、便携式文档格式(PDF,Portable Document Format)等图片格式,如果原始表格数据的格式是jpg、png,上述执行主体可以利用opencv中的imread函数进行识别。其中,OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库。上述预设的格式可以为JPEG或PNG。
在本实现方式中,在对原始表格数据进行预处理之前,先对原始表格数据的格式是否为预设的表格进行判定,以减少对其他格式(即预设的格式之外的格式)的表格数据的预处理,从而提高了处理速度。
在本实施例的一些可选的实现方式中,该生成表格识别模型的方法还包括:响应于确定原始表格数据的格式不为预设的格式,将原始表格数据的格式转化为预设的格式。
在本实现方式中,如果原始表格数据的格式为pdf或其他格式,需要先将原始表格数据的格式经过“图片格式转换”,转变为opencv可以直接处理的数据格式,例如,JPEG或PNG。
在本实现方式中,可以针对不能直接处理的格式进行格式转换,从而可以实现对所有格式的处理。
在本实施例的一些可选的实现方式中,预设的格式包括:JPEG或图像文件存储格式(PNG)。
在本实现方式,基于预设的格式可以确定是否需要将原始表格数据的格式进行转换,以在原始表格数据的格式不为预设的表格时进行转换,以实现对所有格式的处理。
在本实施例的一些可选的实现方式中,实例分割结果对应的标签包括:目标表格数据中表格的位置标签和类别标签。
在本实现方式中,可以基于实例分割结果对应的标签,降低了标注成本,能够快速、准确地定位不同表格的区域位置。
进一步参考图3,图3示出了根据本公开的生成表格识别模型的方法的一个实施例的流程300。该生成表格识别模型的方法可以包括以下步骤:
步骤301,获取目标表格数据的表格结构特征、表格特征图以及实例分割结果。
在本实施例中,生成表格识别模型的方法的执行主体(例如图1所示的终端设备101、102、103或服务器105)可以获取目标表格数据的表格结构特征、表格特征图以及实例分割结果。上述目标表格可以为网页、图片、文档中的表格;该目标表格的类别可以为有线表格、无线表格、非全框表格、全框表格等。上述表格结构特征可以用于表征表格结构的特征,该表格结构化特征可以包括以下至少一项:表格线结构特征、表格对齐特征、封闭单元格的个数。上述表格特征图可以用于表征目标表格数据中的每个像素对应的特征。
在这里,表格特征图和实例分割结果为将目标表格数据输入预先训练的实例分割模型中得到的。
在本实施例中,上述执行主体可以将目标表格数据输入预先训练的实例分割模型中,以得到表格特征图和实例分割结果。
步骤302,融合表格结构特征和表格特征图,得到融合特征。
在本实施例中,上述执行主体将表格结构特征和表格特征图进行融合,以得到融合特征。
具体地,将表格结构特征和表格特征图进行特征拼接,得到融合特征。
步骤303,利用融合特征和实例分割结果对应的标签进行训练,生成表格识别模型。
在本实施例中,上述执行主体可以利用融合特征和实例分割结果对应的标签进行训练,得到表格识别模型。
具体地,上述执行主体可以将融合特征作为表格识别模型的输入,将实例分割结果对应的标签作为表格识别模型的输出,训练初始模型,得到表格识别模型。
本实施例中,上述执行主体在得到融合特征,以及实例分割结果对应的标签后,可以利用融合特征和实例分割结果对应的标签训练初始模型,得到表格识别模型。在训练时,执行主体可以将融合特征作为表格识别模型的输入,以及将所输入对应的实例分割结果对应的标签,作为期望输出,得到表格识别模型。上述初始模型可以为现有技术或未来发展技术中的神经网络模型,例如,神经网络模型可以包括分类模型,如随机森林、lightGBM(Light Gradient Boosting Machine)、Xgboost(eXtreme Gradient Boosting)等,以及深度学习的FM(Factorization Machines)、FFM(Field Factorization Machine),对表格进行识别。
从图3中可以看出,与图2对应的实施例相比,本实施例中的生成表格识别模型的方法突出了基于融合特征和实例分割结果对应的标签进行训练的步骤。由此,本实施例描述的方案利用表格结构特征以及表格特征图进行融合,在提高了模表格识别模型的识别准确性的同时,利用分割识别模型对应的标签,降低了标注成本,能够快速、准确地定位不同表格的区域位置。
进一步参考图4,图4示出了根据本公开的生成表格识别模型的方法的一个实施例的流程400。该生成表格识别模型的方法可以包括以下步骤:
步骤401,获取目标表格数据的表格结构特征。
步骤402,将目标表格数据输入预先训练的实例分割模型的特征提取网络层中,得到表格特征图。
在本实施例中,生成表格识别模型的方法的执行主体(例如图1所示的终端设备101、102、103或服务器105)可以将目标表格数据输入预先训练的实例分割模型的特征提取网络层中,得到表格特征图。
其中,表格区域检测:由于用户上传的数据有可能是文档中的表格,会存在文本、表格补充信息等干扰信息,因此在进行分类的同时需要在图片中定位出表格区域,在进行实例分割的过程中,模型会基于anchors,利用FCN模型在图片检测出表格区域。
在实例分割模型中,可以在conv+relu+pooling层提取image的表格特征图(feature maps)。
在这里,上述特征提取网络层可以用于提取目标表格数据的特征,该特征提取网络层可以包括conv+relu+pooling。
步骤403,将表格特征图输入预先训练的实例分割模型的候选区域网络层中,得到候选区域。
在本实施例中,上述执行主体可以将表格特征图输入预先训练的实例分割模型的候选区域网络层中,得到候选区域。上述候选区域网络层可以用于确定候选区域。
步骤404,将候选区域输入预先训练的实例分割模型的分类网络层中,得到实例分割结果。
在本实施例中,上述执行主体可以基于分类网络层对候选区域中的像素进行分类,得到实例分割结果。上述分类网络层可以用于确定目标表格数据的实例分割结果。上述实例分割结果可以用于表征目标表格数据中的表格的位置和类别。
步骤405,融合表格结构特征和表格特征图,得到融合特征。
步骤406,利用融合特征和实例分割结果对应的标签进行训练,生成表格识别模型。
在本实施例中,步骤401、405、406的具体操作分别已在图2所示的实施例中步骤301-303进行了详细的介绍,在此不再赘述。
从图4中可以看出,与图3对应的实施例相比,本实施例中的生成表格识别模型的方法突出了基于预先训练的实例分割模型得到表格特征图和实例分割结果的步骤。由此,本实施例描述的方案先基于预先训练的实例分割模型的特征提取网络层得到表格特征图;之后,将表格特征图输入该实例分割模型的候选区域网络层中,得到候选区域;之后,利用该实例分割模型的分类网络层对候选区域中的像素进行分类,以得到实例分割结果。
进一步参考图5,图5示出了根据本公开的一种表格识别方法的一个实施例的流程500。该一种表格识别方法可以包括以下步骤:
步骤501,获取待预测的表格数据。
在本实施例中,表格识别方法的执行主体(例如图1所示的终端设备101、102、103或服务器105)可以获取待预测的表格数据。上述表格数据可以为包括表格的数据,例如包括表格的文档、网页、图片等。
步骤502,将待预测的表格数据输入预先训练的表格识别模型中,得到待预测的表格数据中的目标表格的位置和类别。上述位置可以为表格在表格数据中的区域,例如表格在文档(或网页)中的区域的坐标等。上述类别可以用于表征表格的类别,例如有线表格、无线表格、非全框表格、全框表格等。
在本实施例中,上述执行主体可以将待预测的表格数据输入预先训练的表格识别模型中,得到表格在表格数据中的位置和类别。
需要说明的是,上述预先训练的表格识别模型可以为图2-3对应实施例训练生成的表格识别模型。
本公开实施例提供的表格识别方法,利用预先训练的表格识别模型对待预测的表格数据进行识别,以得到待预测的表格数据中的目标表格的位置和类别,从而能够实现对表格的准确识别。
在本实施例的一些可选的实现方式中,该表格识别方法还包括:确定目标表格的单元格对集合;单元格对集合包括至少一组相邻单元格组成的单元格对;基于单元格对集合和预设的标注表格数据,确定单元格对集合对应的准确率参数;基于准确率参数,确定目标表格的评估处理结果。
在本实施例中,单元格对集合包括至少一组相邻单元格组成的单元格对。其中,相邻单元格可以包括相邻行的单元格和/或相邻列的单元格。并且单元格对集合中可以包含待处理表格数据中全部相邻单元格组成的单元格对,也可以包含待处理表格数据中部分相邻单元格组成的单元格对,本实施例对此不做限定。优选的,执行主体在获取待处理表格数据之后,可以确定待处理表格数据中全部单元格的相邻行单元格和相邻列单元格,组成单元格对集合。
在本实施例中,预设的标注表格数据是与待处理表格数据相对应的真实表格数据。执行主体可以预先存储上述预设的标注表格数据。之后,执行主体可以将上述单元格对集合中的每个单元格对与预设的标注表格数据中相应单元格进行匹配,用以确定单元格对集合对应的准确率参数。其中,准确率参数用于描述单元格对集合中准确的单元格对状况,可以包括但不限于准确单元格对数量、错误单元格对数量、准确单元格对占比、错误单元格对占比等,本实施例对此不做限定。具体的,对于单元格对集合中的每个单元格对,执行主体可以在预设的标注表格数据中确定与该单元格对的位置相对应的表格数据,如果该表格数据和该单元格对中的表格数据相匹配,则说明该单元格对正确,如果该表格数据和该单元格对中的表格数据不相匹配,则说明该单元格对错误。举例来说,如果待处理表格数据中存在漏行的情况,通过比对遗漏行的相邻行所在的单元格对与标注表格数据中该相邻行对应的单元格对,则可以确定单元格对不匹配,即该单元格对错误。并且还可以比对遗漏行后面的相邻两行所在的单元格对与标注数据中对应的单元格对,则可以确定单元格对匹配,即单元格对正确。此时对于遗漏行之后的行进行识别,可以判断出其内容正确但位置出现移位,从而准确地识别出漏行的情况。
在本实施例中,准确率参数可以描述单元格对集合中准确的单元格对状况,例如单元格对的准确数量,其中,准确的单元格对的数量越多,说明待处理表格数据中的数据准确率越高,也即单元格对的状况越好。基于准确率参数确定的评估处理结果用于反映待处理表格数据与预设的标注表格数据之间的差异性和/或相似性。具体的,执行主体可以对多种准确率参数进行计算,得到综合的指标,基于综合的指标确定待处理表格数据的评估处理结果,如待处理表格数据与预设的标注表格数据之间相似指标值。
进一步参考图6,图6示出了根据本公开的一种表格识别方法的一个应用场景示意图。在该应用场景中,表格识别方法可以包括以下步骤:
步骤601,原始表格数据输入。
在本实施例中,用户可以上传表格数据;例如可以为单个或批量等任意数量,用户需要注意上传图片的质量,如果图片质量过差,比如过于模糊、有严重的遮挡、阴影等干扰因素,需要提前剔除。
步骤602,判断原始表格数据的格式。
在本实施例中,表格数据的格式可以为JPG、PNG、PDF等图片格式,如果是jpg、png,上述执行主体可以直接利用opencv中的imread函数直接处理;如果表格数据的数据类型不为图片,例如pdf等其他格式,则执行步骤603。
步骤603,图片格式转换。
在本实施例中,在表格数据的格式不为图片时,例如jpg、png,则将表格数据的格式转变为opencv可以直接处理的数据格式,例如转换为jpg或png。
步骤604,图片预处理。
在本实施例中,上传的表格数据由于在真实的场景会出现各种情况,如拍摄图片歪斜、有印章、较为模糊等,因此在图片预处理环节,会对图片进行歪斜矫正、印章去除、图片锐化等处理,降低干扰因素的影响。
另外,在特征融合之前,可以对生成表格结构特征和进行实例分割的数据均进行图片预处理;或,对其中一个进行图片预处理。
需要说明的是,在执行步骤604之后,该生成表格识别模型的方法可以并行执行步骤605和步骤606;或,先执行步骤606,再执行步骤605;或,先执行步骤605,再执行步骤606。在本实施例中以先执行步骤605,再执行步骤606为示例。
步骤605,生成表格结构特征。
需要说明的是,生成表格结构特征可以参照上述对生成表格结构特征部分的描述。
步骤606,实例分割。
在本实施例中,基于大量标注数据,训练实例分割模型,该模型会自动检测出图片中的表格位置,同时对表格的类别进行分类。
表格区域检测:由于用户上传的数据有可能是文档中的表格,会存在文本、表格补充信息等干扰信息,因此在进行分类的同时需要在图片中定位出表格区域,在进行实例分割的过程中,模型会基于anchors,利用FCN模型在图片检测出表格区域;
表格特征构造:在实例分割模型中,会在conv+relu+pooling层提取image的feature maps。
步骤607,特征融合。
在本实施例中,将表格结构特征和表格特征图进行拼接,以得到融合特征。
其中,表格结构特征可以基于以下步骤确定:将表格数据化,构造出边缘特征,目前采取的特征有表格线结构特征、表格对齐特征、封闭单元格的个数。
在本实现方式中,将表格特征图、表格结构特征进行融合,构造出表格特征集合(即融合特征)。
步骤608,训练表格识别模型。
在本实施例中,利用融合特征和实例分割结果对应的标签进行训练,以得到表格识别模型。例如随机森林、lightGBM、Xgboost等,以及深度学习的FM、FFM。
步骤609,将获取的待预测的表格数据输入表格识别模型中,以得到表格识别结果。
在本实施例中,得到表格分类结果,同时得到表格的位置,至此,不仅完成对全框表格和非全框表格的分类,同时得到各个表格的坐标位置。
进一步参考图7,作为对上述各图所示方法的实现,本公开提供了一种生成表格识别模型的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例的生成表格识别模型的装置700可以包括:数据获取单元701、特征融合单元702和模型训练单元703。其中,数据获取单元701,被配置成获取目标表格数据的表格结构特征、表格特征图以及预设的表格标签;表格特征图为将目标表格数据输入预先训练的实例分割模型中得到的;特征融合单元702,被配置成融合表格结构特征和表格特征图,得到融合特征;模型训练单元703,被配置成利用融合特征和预设的表格标签进行训练,生成表格识别模型。
在本实施例中,生成表格识别模型的装置700中:数据获取单元701、特征融合单元702和模型训练单元703的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,表格结构特征包括以下至少一项:表格线结构特征、表格对齐特征、封闭单元格的个数。
在本实施例的一些可选的实现方式中,该生成表格识别模型的装置还包括:词频获取单元,被配置成获取目标表格数据中的关键词的词频;特征融合单元702,进一步被配置成:融合表格结构特征、表格特征图以及关键词的词频,得到融合特征。
在本实施例的一些可选的实现方式中,若预设的表格标签包括实例分割结果对应的标签;模型训练单元703,进一步被配置成:利用融合特征和实例分割结果对应的标签,生成表格识别模型,其中,实例分割结果为将目标表格数据输入预先训练的实例分割模型中得到的。
在本实施例的一些可选的实现方式中,该生成表格识别模型的装置还包括:第一得到单元,被配置成将目标表格数据输入预先训练的实例分割模型的特征提取网络层中,得到表格特征图;第二得到单元,被配置成将表格特征图输入预先训练的实例分割模型的候选区域网络层中,得到候选区域;第三得到单元,被配置成将候选区域输入预先训练的实例分割模型的分类网络层中,得到实例分割结果。
在本实施例的一些可选的实现方式中,特征提取网络层包括:卷积层、线性整流函数、池化层。
在本实施例的一些可选的实现方式中,该生成表格识别模型的装置还包括:数据获取单元701,被配置成获取原始表格数据;第四得到单元,被配置成对原始表格数据进行预处理,得到目标表格数据。
在本实施例的一些可选的实现方式中,该生成表格识别模型的装置还包括:格式判断单元,被配置成判断原始表格数据的格式是否为预设的格式;数据处理单元,被配置成响应于确定原始表格数据的格式为预设的格式,对原始表格数据进行预处理,得到目标表格数据。
在本实施例的一些可选的实现方式中,该生成表格识别模型的装置还包括:格式转化单元,被配置成响应于确定原始表格数据的格式不为预设的格式,将原始表格数据的格式转化为预设的格式。
在本实施例的一些可选的实现方式中,预设的格式包括:JPEG或图像文件存储格式(PNG)。
在本实施例的一些可选的实现方式中,实例分割结果对应的标签包括:目标表格数据中表格的位置标签和类别标签。
进一步参考图8,作为对上述各图所示方法的实现,本公开提供了一种表格识别装置的一个实施例,该装置实施例与图5所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图8所示,本实施例的表格识别装置800可以包括:数据获取单元801和表格识别单元802。其中,数据获取单元801,被配置成获取待预测的表格数据;表格识别单元802,被配置成将待预测的表格数据输入预先训练的表格识别模型中,得到待预测的表格数据中的目标表格的位置和类别。
在本实施例中,表格识别装置800中:数据获取单元801和表格识别单元802的具体处理及其所带来的技术效果可分别参考图5对应实施例中的步骤501-502的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,该表格识别装置还包括:集合确定单元,被配置成确定目标表格的单元格对集合;单元格对集合包括至少一组相邻单元格组成的单元格对;参数确定单元,被配置成基于单元格对集合和预设的标注表格数据,确定单元格对集合对应的准确率参数;准确率参数用于描述单元格对集合中准确的单元格对应的状况;评估确定单元,被配置成基于准确率参数,确定目标表格的评估处理结果。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如生成表格识别模型的方法或表格识别方法。例如,在一些实施例中,生成表格识别模型的方法或表格识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的生成表格识别模型的方法或表格识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行生成表格识别模型的方法或表格识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
人工智能是研究计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语音处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提及的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (25)

1.一种生成表格识别模型的方法,包括:
获取目标表格数据的表格结构特征、表格特征图以及预设的表格标签;所述表格特征图为将所述目标表格数据输入预先训练的实例分割模型中得到的;
融合所述表格结构特征和所述表格特征图,得到融合特征;
利用所述融合特征和所述预设的表格标签进行训练,生成表格识别模型。
2.根据权利要求1所述的方法,其中,所述表格结构特征包括以下至少一项:
表格线结构特征、表格对齐特征、封闭单元格的个数。
3.根据权利要求1或2所述的方法,所述方法还包括:
获取所述目标表格数据中的关键词的词频;
融合所述表格结构特征和所述表格特征图,得到融合特征,包括:
融合所述表格结构特征,所述表格特征图以及所述关键词的词频,得到所述融合特征。
4.根据权利要求1-3任一项所述的方法,其中,若所述预设的表格标签包括实例分割结果对应的标签;
所述利用所述融合特征和所述预设的表格标签进行训练,生成表格识别模型,包括:利用所述融合特征和所述实例分割结果对应的标签,生成表格识别模型,其中,所述实例分割结果为将所述目标表格数据输入预先训练的实例分割模型中得到的。
5.根据权利要求4所述的方法,其中,所述表格特征图和实例分割结果基于以下步骤确定:
将所述目标表格数据输入所述预先训练的实例分割模型的特征提取网络层中,得到所述表格特征图;
将所述表格特征图输入所述预先训练的实例分割模型的候选区域网络层中,得到候选区域;
将所述候选区域输入所述预先训练的实例分割模型的分类网络层中,得到所述实例分割结果。
6.根据权利要求1-5任一项所述的方法,其中,在获取目标表格数据的表格结构特征、表格特征图以及预设的表格标签之前,所述方法还包括:
获取原始表格数据;
对所述原始表格数据进行预处理,得到所述目标表格数据。
7.根据权利要求6所述的方法,其中,在对所述原始表格数据进行预处理,得到所述目标表格数据之前,所述方法还包括:
判断所述原始表格数据的格式是否为预设的格式;
响应于确定所述原始表格数据的格式为所述预设的格式,对所述原始表格数据进行预处理,得到所述目标表格数据。
8.根据权利要求7所述的方法,所述方法还包括:
响应于确定所述原始表格数据的格式不为所述预设的格式,将所述原始表格数据的格式转化为所述预设的格式。
9.根据权利要求4所述的方法,其中,所述实例分割结果对应的标签包括:所述目标表格数据中表格的位置标签和类别标签。
10.一种表格识别方法,包括:
获取待预测的表格数据;
将所述待预测的表格数据输入如权利要求1-9任一项所述的表格识别模型中,得到所述待预测的表格数据中的目标表格的位置和类别。
11.根据权利要求10所述的方法,所述方法还包括:
确定所述目标表格的单元格对集合;所述单元格对集合包括至少一组相邻单元格组成的单元格对;
基于所述单元格对集合和预设的标注表格数据,确定所述单元格对集合对应的准确率参数;所述准确率参数用于描述单元格对集合中准确的单元格对应的状况;
基于所述准确率参数,确定所述目标表格的评估处理结果。
12.一种生成表格识别模型的装置,包括:
数据获取单元,被配置成获取目标表格数据的表格结构特征、表格特征图以及预设的表格标签;所述表格特征图为将所述目标表格数据输入预先训练的实例分割模型中得到的;
特征融合单元,被配置成融合所述表格结构特征和所述表格特征图,得到融合特征;
模型训练单元,被配置成利用所述融合特征和所述预设的表格标签进行训练,生成表格识别模型。
13.根据权利要求12所述的装置,其中,所述表格结构特征包括以下至少一项:
表格线结构特征、表格对齐特征、封闭单元格的个数。
14.根据权利要求12或13所述的装置,所述装置还包括:
词频获取单元,被配置成获取所述目标表格数据中的关键词的词频;
所述特征融合单元,进一步被配置成:融合所述表格结构特征、所述表格特征图以及所述关键词的词频,得到所述融合特征。
15.根据权利要求12-14任一项所述的装置,其中,若所述预设的表格标签包括实例分割结果对应的标签;所述模型训练单元,进一步被配置成:
利用所述融合特征和所述实例分割结果对应的标签,生成表格识别模型,其中,所述实例分割结果为将所述目标表格数据输入预先训练的实例分割模型中得到的。
16.根据权利要求15所述的装置,所述装置还包括:
第一得到单元,被配置成将所述目标表格数据输入所述预先训练的实例分割模型的特征提取网络层中,得到所述表格特征图;
第二得到单元,被配置成将所述表格特征图输入所述预先训练的实例分割模型的候选区域网络层中,得到候选区域;
第三得到单元,被配置成将所述候选区域输入所述预先训练的实例分割模型的分类网络层中,得到所述实例分割结果。
17.根据权利要求12-16任一项所述的装置,所述装置还包括:
所述数据获取单元,被配置成获取原始表格数据;
第四得到单元,被配置成对所述原始表格数据进行预处理,得到所述目标表格数据。
18.根据权利要求17所述的装置,所述装置还包括:
格式判断单元,被配置成判断所述原始表格数据的格式是否为预设的格式;
数据处理单元,被配置成响应于确定所述原始表格数据的格式为所述预设的格式,对所述原始表格数据进行预处理,得到所述目标表格数据。
19.根据权利要求18所述的装置,所述装置还包括:
格式转化单元,被配置成响应于确定所述原始表格数据的格式不为所述预设的格式,将所述原始表格数据的格式转化为所述预设的格式。
20.根据权利要求15所述的装置,其中,所述实例分割结果对应的标签包括:所述目标表格数据中表格的位置标签和类别标签。
21.一种表格识别装置,包括:
数据获取单元,被配置成获取待预测的表格数据;
表格识别单元,被配置成将所述待预测的表格数据输入如权利要求1-9任一项所述的表格识别模型中,得到所述待预测的表格数据中的目标表格的位置和类别。
22.根据权利要求21所述的装置,所述装置还包括:
集合确定单元,被配置成确定所述目标表格的单元格对集合;所述单元格对集合包括至少一组相邻单元格组成的单元格对;
参数确定单元,被配置成基于所述单元格对集合和预设的标注表格数据,确定所述单元格对集合对应的准确率参数;所述准确率参数用于描述单元格对集合中准确的单元格对应的状况;
评估确定单元,被配置成基于所述准确率参数,确定所述目标表格的评估处理结果。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9或10-11中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-9或10-11中任一项所述的方法。
25.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9或10-11中任一项所述的方法。
CN202110540348.XA 2021-05-18 2021-05-18 生成表格识别模型的方法、设备、介质及程序产品 Active CN113255501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110540348.XA CN113255501B (zh) 2021-05-18 2021-05-18 生成表格识别模型的方法、设备、介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110540348.XA CN113255501B (zh) 2021-05-18 2021-05-18 生成表格识别模型的方法、设备、介质及程序产品

Publications (2)

Publication Number Publication Date
CN113255501A true CN113255501A (zh) 2021-08-13
CN113255501B CN113255501B (zh) 2023-08-04

Family

ID=77182530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110540348.XA Active CN113255501B (zh) 2021-05-18 2021-05-18 生成表格识别模型的方法、设备、介质及程序产品

Country Status (1)

Country Link
CN (1) CN113255501B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420727A (zh) * 2021-08-20 2021-09-21 北京世纪好未来教育科技有限公司 表格检测模型的训练方法、装置及表格检测方法、装置
CN116304891A (zh) * 2023-05-24 2023-06-23 之江实验室 基于多源数据迁移学习的类别预测方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
CN110363102A (zh) * 2019-06-24 2019-10-22 北京融汇金信信息技术有限公司 一种pdf文件的对象识别处理方法及装置
US20190361972A1 (en) * 2018-05-24 2019-11-28 PAI TECH Company Limited Method, apparatus, device for table extraction based on a richly formatted document and medium
CN111860257A (zh) * 2020-07-10 2020-10-30 上海交通大学 融合多种文本特征及几何信息的表格识别方法及系统
CN112241730A (zh) * 2020-11-21 2021-01-19 杭州投知信息技术有限公司 一种基于机器学习的表格提取方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
US20190361972A1 (en) * 2018-05-24 2019-11-28 PAI TECH Company Limited Method, apparatus, device for table extraction based on a richly formatted document and medium
CN110363102A (zh) * 2019-06-24 2019-10-22 北京融汇金信信息技术有限公司 一种pdf文件的对象识别处理方法及装置
CN111860257A (zh) * 2020-07-10 2020-10-30 上海交通大学 融合多种文本特征及几何信息的表格识别方法及系统
CN112241730A (zh) * 2020-11-21 2021-01-19 杭州投知信息技术有限公司 一种基于机器学习的表格提取方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱青;卫柯臻;丁兰琳;黎建强;: "基于文本挖掘和自动分类的法院裁判决策支持系统设计", 中国管理科学, no. 01 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420727A (zh) * 2021-08-20 2021-09-21 北京世纪好未来教育科技有限公司 表格检测模型的训练方法、装置及表格检测方法、装置
CN113420727B (zh) * 2021-08-20 2021-11-16 北京世纪好未来教育科技有限公司 表格检测模型的训练方法、装置及表格检测方法、装置
CN116304891A (zh) * 2023-05-24 2023-06-23 之江实验室 基于多源数据迁移学习的类别预测方法和装置

Also Published As

Publication number Publication date
CN113255501B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
US10762376B2 (en) Method and apparatus for detecting text
CN113378833B (zh) 图像识别模型训练方法、图像识别方法、装置及电子设备
CN112949415B (zh) 图像处理方法、装置、设备和介质
US20220415072A1 (en) Image processing method, text recognition method and apparatus
EP3852008A2 (en) Image detection method and apparatus, device, storage medium and computer program product
US11856277B2 (en) Method and apparatus for processing video, electronic device, medium and product
CN113920307A (zh) 模型的训练方法、装置、设备、存储介质及图像检测方法
CN113742483A (zh) 文档分类的方法、装置、电子设备和存储介质
CN113239807B (zh) 训练票据识别模型和票据识别的方法和装置
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
JP7393472B2 (ja) 陳列シーン認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN114429637B (zh) 一种文档分类方法、装置、设备及存储介质
CN112861885A (zh) 图像识别方法、装置、电子设备及存储介质
CN113255501B (zh) 生成表格识别模型的方法、设备、介质及程序产品
CN113378712A (zh) 物体检测模型的训练方法、图像检测方法及其装置
CN115861400B (zh) 目标对象检测方法、训练方法、装置以及电子设备
CN113343981A (zh) 一种视觉特征增强的字符识别方法、装置和设备
JP2022185143A (ja) テキスト検出方法、テキスト認識方法及び装置
CN114418124A (zh) 生成图神经网络模型的方法、装置、设备及存储介质
CN113642481A (zh) 识别方法、训练方法、装置、电子设备以及存储介质
CN116416640A (zh) 文档元素确定的方法、装置、设备以及存储介质
CN114782771A (zh) 训练方法、图像检索方法、图像处理方法、装置及设备
CN114724144A (zh) 文本识别方法、模型的训练方法、装置、设备及介质
CN114120305A (zh) 文本分类模型的训练方法、文本内容的识别方法及装置
CN113688938A (zh) 确定对象情感的方法、训练情感分类模型的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant