CN113420727A - 表格检测模型的训练方法、装置及表格检测方法、装置 - Google Patents

表格检测模型的训练方法、装置及表格检测方法、装置 Download PDF

Info

Publication number
CN113420727A
CN113420727A CN202110962393.4A CN202110962393A CN113420727A CN 113420727 A CN113420727 A CN 113420727A CN 202110962393 A CN202110962393 A CN 202110962393A CN 113420727 A CN113420727 A CN 113420727A
Authority
CN
China
Prior art keywords
model
target
frame
picture
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110962393.4A
Other languages
English (en)
Other versions
CN113420727B (zh
Inventor
李召
单海蛟
赵翔
冀志龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110962393.4A priority Critical patent/CN113420727B/zh
Publication of CN113420727A publication Critical patent/CN113420727A/zh
Application granted granted Critical
Publication of CN113420727B publication Critical patent/CN113420727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供一种表格检测模型的训练方法、装置及表格检测方法、装置,表格检测模型的训练方法包括:获取训练样本集,训练样本集包括样本图片和标注样本图片中表格的标注框;将训练样本集输入待训练模型,通过待训练模型的分割网络对样本图片中的表格进行预测,输出表格预测分割图,通过待训练模型的检测网络对样本图片中与样本图片的面积之比大于阈值的目标表格进行预测,输出表格预测框的位置信息;根据表格预测分割图与标注框之间的差异、表格预测框的位置信息与目标表格对应的目标标注框之间的差异,更新待训练模型的网络参数,直至待训练模型的损失函数值不大于预设值,以得到表格检测模型。本方案可以提高表格的检测准确度。

Description

表格检测模型的训练方法、装置及表格检测方法、装置
技术领域
本公开涉及深度学习技术领域,尤其涉及表格检测模型的训练方法、装置及表格检测方法、装置。
背景技术
随着深度学习技术和智慧教育的快速发展,文本识别相关的应用给广大师生带来了很大的便利,比如拍照搜题、智能批改、题目录入等。教育场景通用检测是将教育场景中的图片信息检测成多种类别,比如公式、文本等类别,而表格作为教育场景文档中的一个重要元素,其检测效果严重影响着文档的识别结果。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种表格检测模型的训练方法、装置及表格检测方法、装置。
根据本公开的一方面,提供了一种表格检测模型的训练方法,包括:
获取训练样本集,所述训练样本集包括样本图片和标注所述样本图片中表格的标注框;
将所述训练样本集输入待训练模型,通过所述待训练模型的分割网络对所述样本图片中的表格进行预测,输出表格预测分割图,以及通过所述待训练模型的检测网络对所述样本图片中与所述样本图片的面积之比大于阈值的目标表格进行预测,输出表格预测框的位置信息;
根据所述表格预测分割图与所述标注框之间的差异,以及所述表格预测框的位置信息与所述目标表格对应的目标标注框之间的差异,更新所述待训练模型的网络参数,直至所述待训练模型的损失函数值小于或等于预设值,以得到所述表格检测模型。
根据本公开的另一方面,提供了一种基于表格检测模型的表格检测方法,所述表格检测模型利用如前述一方面所述的表格检测模型的训练方法训练得到,所述方法包括:
获取待检测图片;
在所述待检测图片的尺寸满足预设尺寸的情况下,将所述待检测图片输入至所述表格检测模型,通过所述表格检测模型的分割网络获取所述待检测图片的第一表格检测结果,以及通过所述表格检测模型的检测网络获取所述待检测图片的第二表格检测结果;
根据所述第一表格检测结果与所述第二表格检测结果,确定目标表格检测结果。
根据本公开的另一方面,提供了一种表格检测模型的训练装置,包括:
样本集获取模块,用于获取训练样本集,所述训练样本集包括样本图片和标注所述样本图片中表格的标注框;
输入模块,用于将所述训练样本集输入待训练模型,通过所述待训练模型的分割网络对所述样本图片中的表格进行预测,输出表格预测分割图,以及通过所述待训练模型的检测网络对所述样本图片中与所述样本图片的面积之比大于阈值的目标表格进行预测,输出表格预测框的位置信息;
参数更新模块,用于根据所述表格预测分割图与所述标注框之间的差异,以及所述表格预测框的位置信息与所述目标表格对应的目标标注框之间的差异,更新所述待训练模型的网络参数,直至所述待训练模型的损失函数值小于或等于预设值,以得到所述表格检测模型。
根据本公开的另一方面,提供了一种基于表格检测模型的表格检测装置,所述表格检测模型利用如前述一方面所述的表格检测模型的训练方法训练得到,所述装置包括:
图片获取模块,用于获取待检测图片;
结果输出模块,用于在所述待检测图片的尺寸满足预设尺寸的情况下,将所述待检测图片输入至所述表格检测模型,通过所述表格检测模型的分割网络获取所述待检测图片的第一表格检测结果,以及通过所述表格检测模型的检测网络获取所述待检测图片的第二表格检测结果;
确定模块,用于根据所述第一表格检测结果与所述第二表格检测结果,确定目标表格检测结果。
根据本公开的另一方面,提供了一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据前述一方面所述的表格检测模型的训练方法或者执行前述另一方面所述的基于表格检测模型的表格检测方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据前述一方面所述的表格检测模型的训练方法或者执行前述另一方面所述的基于表格检测模型的表格检测方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现前述一方面所述的表格检测模型的训练方法或者执行前述另一方面所述的基于表格检测模型的表格检测方法。
本公开实施例中提供的一个或多个技术方案,可以实现对图片中与图片的面积之比大于阈值的大表格进行检测,提高大表格的检测准确度的技术效果。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了根据本公开一示例性实施例的表格检测模型的训练方法的流程图;
图2示出了根据本公开另一示例性实施例的表格检测模型的训练方法的流程图;
图3示出了针对样本图片的特征图中的一个特征区域确定的不同长宽比的候选框的示例图;
图4示出了根据本公开又一示例性实施例的表格检测模型的训练方法的流程图;
图5示出了根据本公开示例性实施例的基于表格检测模型的表格检测方法的流程示意图;
图6示出了教育场景表格检测的流程图;
图7示出了本公开一示例性表格检测模型的结构示例图;
图8示例性的示出了根据本公开提供表格检测模型进行表格检测的检测结果示例图;
图9示出了根据本公开示例性实施例的表格检测模型的训练装置的示意性框图;
图10示出了根据本公开示例性实施例的基于表格检测模型的表格检测装置的示意性框图;
图11示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
以下参照附图描述本公开提供的表格识别模型的训练方法、装置及表格识别方法、装置。
随着深度学习技术和智慧教育的快速发展,文本识别相关的应用给广大师生带来了很大的便利,比如拍照搜题、智能批改、题目录入等。教育场景通用检测是将教育场景中的图片信息检测成多种类别,它是文本识别和内容理解的前置环节,通用检测的检测精度直接影响到后续任务的处理效果。基于检测精度和速度的考虑,将文本分割算法作为教育场景通用检测的基本框架。
教育场景通用检测中,文本分割算法对公式、文本等类别检测效果很好,但对图片中的大表格检测效果较差。而表格是教育场景文档中的一个重要元素,大表格的检测效果严重影响着表格识别的结果。在保证公式、文本等类别检测精度不降的前提下,若能设计出一种能够精确检测出大表格的算法,将能够大幅度提升表格识别的效果,提升用户的使用体验。
基于此,本公开基于文本分割算法设计出一套基于框回归和文本分割的检测框架,其中,基于框回归算法的表格检测对大表格的检测效果优于文本分割算法,而基于文本分割算法的表格检测则对小表格、文本、公式等类别的检测更加精准,从而,结合基于框回归和文本分割的检测框架,对大表格、小表格、文本和公式等类别的检测精度都有保证。
图1示出了根据本公开一示例性实施例的表格检测模型的训练方法的流程图,该方法可以由表格检测模型的训练装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中。如图1所示,该表格检测模型的训练方法包括:
步骤101,获取训练样本集,训练样本集包括样本图片和标注样本图片中表格的标注框。
本公开实施例中,可以通过从网上公开的图片中获取或者通过线下收集的方式获取若干个包含表格的样本图片,获取的样本图片包括但不限于教育场景文档,并对获取的样本图片进行标注,标注出样本图片中的各个表格对应的标注框,得到标注好的多个样本图片构成训练样本集。
其中,样本图片中的表格可以包括大表格和小表格,大表格可以定义为表格高度占样本图片高度的高度阈值(比如0.6)以上,表格宽度占样本图片宽度的宽度阈值(比如0.7)以上的表格,或者,大表格也可以定义为表格面积与样本图片的面积的比值大于阈值(比如0.5)的表格,本公开对此不作限定。
可选地,由于不同的样本图片之间的尺寸存在差异,为便于模型训练,可以对收集的样本图片进行尺寸修正处理,将不同尺寸的样本图片均修正为统一的尺寸,比如,将样本图片的尺寸修正为高为1300像素、宽为800像素(即H=1300、W=800)。
步骤102,将训练样本集输入待训练模型,通过待训练模型的分割网络对样本图片中的表格进行预测,输出表格预测分割图,以及通过待训练模型的检测网络对样本图片中与样本图片的面积之比大于阈值的目标表格进行预测,输出表格预测框的位置信息。
本公开实施例中,待训练模型的分割网络可以采用已有的文本分割算法,比如渐进式规模扩展网络(Progressive Scale Expansion Network,PSENet)、基于可分二值化的实时场景文本检测(Real-time Scene Text Detection with DifferentiableBinarization,DB)算法等,本公开实施例对分割网络的相关内容不作详细描述。
考虑到大表格具有大表格内部细节差异大、大表格内部有大量空白区域、大表格内部有其他类别和大表格在图片中的面积占比非常大等特点,而文本分割算法对公式、文本、小表格等具有较好的检测效果,对大表格的检测效果较差,在检测过程中,通常由于空白区域、其他类别内容等干扰信息,导致文本分割算法对大表格进行检测时输出的检测框断裂或检测边界不精确等,难以精确地检测出完整的大表格区域。针对这一问题,本公开在已有文本分割算法的基础上,新增一个检测网络来检测图片中的大表格。从而,本公开实施例中,待训练模型除了包括分割网络外,还包括用于进行大表格检测的检测网络。
本公开实施例中,获取了训练样本集之后,可以将训练样本集输入至待训练模型中,由待训练模型的分割网络对样本图片中的表格进行预测,并输出表格预测分割图,以及,由待训练模型的检测网络对所述样本图片中与样本图片的面积之比大于阈值的目标表格(即大表格)进行预测,输出表格预测框的位置信息。
其中,阈值可以预先设定,比如设置为0.5、0.6等,本公开对此不作限定。
能够理解的是,分割网络对表格进行预测并输出表格预测分割图,以及检测网络对目标表格进行预测并输出表格预测框的位置信息时,主要根据从样本图片中提取的特征信息进行预测,输出与特征信息对应的预测结果。
步骤103,根据表格预测分割图与标注框之间的差异,以及表格预测框的位置信息与目标表格对应的目标标注框之间的差异,更新待训练模型的网络参数,直至待训练模型的损失函数值小于或等于预设值,以得到表格检测模型。
其中,预设值可以预先设定,比如设置预设值为0.01、0.001等。
能够理解的是,模型的训练是个重复迭代的过程,通过不断地调整模型的网络参数进行训练,直到模型整体的损失函数值小于预设值,或者模型整体的损失函数值不再变化或变化幅度缓慢,模型收敛,得到训练好的模型。
本公开实施例中,从待训练模型的分割网络获取表格预测分割图以及从待训练网络的检测网络获取表格预测框的位置信息之后,可以根据表格预测分割图与标注框之间的差异、及表格预测框的位置信息与目标表格对应的目标标注框之间的差异,更新待训练模型的网络参数,直至待训练模型的损失函数值小于或等于预设值,得到训练好的表格检测模型。
可选地,可以在每次迭代训练过程中,根据表格预测分割图与标注框对应区域的特征信息之间的差异,计算分割网络对应的分割网络损失函数值,以及根据表格预测框的位置信息与目标表格对应的目标标注框之间的差异,计算检测网络对应的检测网络损失函数值,并对分割网络损失函数值和检测网络损失函数值进行求和或者加权求和,得到待训练模型整体的损失函数值,进而将计算得到的损失函数值与预设值进行比较,若损失函数值大于预设值,则更新待训练网络的网络参数,基于更新网络参数后的待训练网络重新获取表格预测分割图和表格预测框的位置信息,并根据新获取的表格预测分割图和表格预测框的位置信息再次计算待训练模型的损失函数值,如此迭代,直至损失函数值小于预设值,得到训练好的表格检测模型。
可选地,在模型训练过程中,为了保证检测网络的正负样本均衡,可以采用在线困难样本挖掘的方式更新训练样本集。检测网络不仅可以输出表格预测框的位置信息,还可以输出表格预测框被预测为不同类别的置信度信息,其中,置信度信息可以表示为conf:(c1,c2,…,ck),其中,k表示样本图片包含的类别个数,ck表示候选框对应的特征属于第k个类别的置信度。需要说明的是,本公开实施例中,将样本图片的图片背景当作一个特殊的类别,如果检测目标共有c个类别,则输出的置信度信息部分包含c+1个置信度值,其中第一个置信度值(即c1)指的是背景类。根据表格预测框被预测为不同类别的置信度信息和对应标注框的标注类别,确定出类别预测错误的错误预测框,进而将各个错误预测框按照置信度误差进行排序,选取误差较大的前n个错误预测框作为负样本,其中,n的取值可以是使得正负样本比例接近1:3的值。需要说明的是,正负样本比例接近1:3是个经验值,也可以根据实际需要设置正负样本比例为其他值,本公开对此不作限制。通过在线困难样本挖掘来挖掘负样本,能够提高正负样本均衡性,有利于获得检测准确率较高的表格检测模型。
本公开实施例的表格检测模型的训练方法,通过获取训练样本集,训练样本集包括样本图片和标注样本图片中表格的标注框,将训练样本集输入待训练模型,通过待训练模型的分割网络对样本图片中的表格进行预测,输出表格预测分割图,以及通过待训练模型的检测网络对样本图片中与样本图片的面积之比大于阈值的目标表格进行预测,输出表格预测框的位置信息,进而根据表格预测分割图与标注框之间的差异、及表格预测框的位置信息与目标表格对应的目标标注框之间的差异,更新待训练模型的网络参数,直至待训练模型的损失函数值小于或等于预设值,得到表格检测模型,由此,使得训练好的表格检测模型包括用于进行大表格检测的检测网络,有利于提高大表格检测精度,从而提高表格检测模型对表格的检测效果。
可选地,在训练待训练模型的过程中,还可以统计训练迭代次数,在待训练模型的训练迭代次数达到迭代次数阈值时,认为待训练模型收敛,得到训练好的表格检测模型。其中,迭代次数阈值可以根据训练样本集中样本图片的数量确定。当训练过程中待训练模型的损失函数值大于预设值,但训练迭代次数达到迭代次数阈值时,结束训练,得到训练好的表格检测模型。通过设置迭代次数阈值,在待训练模型的训练迭代次数达到迭代次数阈值时,得到训练好的表格检测模型,能够在待训练模型的损失函数值无法收敛时及时结束模型训练过程,避免损失函数值无法收敛导致模型训练无法结束的情况。
图2示出了根据本公开另一示例性实施例的表格检测模型的训练方法的流程图,如图2所示,在如图1所示实施例的基础上,该表格检测模型的训练方法,可以包括以下步骤:
步骤201,获取训练样本集,训练样本集包括样本图片和标注样本图片中表格的标注框。
步骤202,将训练样本集输入待训练模型。
步骤203,通过待训练模型的分割网络对样本图片中的表格进行预测,输出表格预测分割图。
需要说明的是,本实施例中,对步骤201-步骤203的描述,可以参见前述实施例中对步骤101-步骤102的相关描述,此处不再赘述。
步骤204,从样本图片对应的各标注框中,筛选出与目标表格对应的目标标注框。
本公开实施例中,样本图片中的每个表格都对应标注了标注框,与样本图片的面积之比大于阈值的表格(即大表格)对应的标注框大,与样本图片的面积之比小于或等于阈值的表格(即小表格)对应的标注框也小,但应当理解的是,标注框的大小不小于对应表格的大小。由于检测网络的目的是为了对样本图片中的大表格进行检测,则可以在进行训练时,从样本图片对应的各标注框中,筛选出与样本图片的面积之比大于阈值的目标表格对应的目标标注框。
步骤205,获取与样本图片的特征图中的每个特征区域对应的多个候选框。
其中,样本图片的特征图可以通过卷积网络采样获得。
示例性地,可以通过多层卷积层对样本图片进行下采样以提取样本图片中的特征,得到样本图片的特征图。比如,对于一张分辨率为256*256的样本图片,可以经过五次下采样,得到一张分辨率为8*8的特征图。
本公开实施例中,对于样本图片的特征图,可以获取特征图中每个特征区域对应的多个候选框。
其中,特征区域可以是包含特征图中至少一个像素点的区域,针对特征图中的每个特征区域,确定多个对应的候选框,其中,同一特征区域对应的多个候选框的尺寸不同。
示例性地,可以针对每个特征区域确定对应的3个不同长宽比的候选框,候选框的长宽比可以预先设置为1:1、1:2和2:1。图3示出了针对样本图片的特征图中的一个特征区域确定的不同长宽比的候选框的示例图,如图3所示,301为特征图中的一个特征区域,从图3可以看出,该特征区域包含特征图中的一个像素,302为针对特征区域301确定的长宽比为1:1的候选框,303为针对特征区域301确定的长宽比为2:1的候选框,304为针对特征区域301确定的长宽比为1:2的候选框。每个候选框的位置信息可以表示为loc:(cx, cy, w,h),其中(cx, cy)表示候选框的中心坐标值,w表示候选框的宽度,h表示候选框的高度。需要说明的是,图3仅作为示例来解释说明本公开,而不能作为对本公开的限制,包括图3中示出的候选框的个数、候选框的长宽比也仅作为示例,而不能作为对本公开的限制。
步骤206,根据多个候选框中与目标标注框之间的交并比大于比率阈值的目标候选框对应的局部特征,预测得到表格预测框的位置信息。
其中,交并比是(Intersection-over-Union,IoU)候选框与目标标注框的交叠率,即候选框与目标标注框的交集,与候选框与目标标注框的并集之间的比值,可以表示为IoU=(候选框与目标标注框的重叠面积)/(候选框面积+目标标注框的面积-重叠面积)。比率阈值可以预先设定,比如设置比率阈值为0.3、0.5等,本公开对此不作限制。
本公开实施例中,针对样本图片的特征图中的每个特征区域获取多个候选框,则会得到与样本图片对应的多个候选框。以样本特征图的分辨率为8*8为例,假设每个特征区域包含一个像素点,针对每个特征区域获取对应的3个候选框,则最终获取的与样本图片对应的候选框的总数为8*8*3=192个。如果针对每个目标表格对应的目标标注框,基于每个候选框预测对应的表格预测框,计算开销会很大。考虑到若候选框中所包含的像素若为目标表格中的内容,则候选框的位置与目标表格对应的目标标注框位置可能会出现重叠,因此本公开实施例中,可以先将多个候选框与目标标注框进行匹配,从多个候选框中筛选出与目标标注框之间的交并比大于比率阈值的目标候选框,进而根据目标候选框对应的局部特征,预测得到表格预测框的位置信息。其中,目标候选框对应的局部特征,可以采用兴趣区域对齐层RoIAlign进行特征提取来获取,RoIAlign是目前较为成熟的特征提取技术,本公开对此不作详细说明。采用RoIAlign来提取目标候选框对应的局部特征,有利于提高检测网络的准确性。
继续前述举例,假设比率阈值预先设置为0.2,则样本图片对应的192个候选框中,可能有十几个或者更少的目标候选框满足与目标标注框的交并比大于0.2这一条件,则基于这十几个或者更少的目标候选框对应的局部特征进行预测得到对应的表格预测框的位置信息,计算开销明显降低。
步骤207,根据表格预测分割图与标注框之间的差异,以及表格预测框的位置信息与目标表格对应的目标标注框之间的差异,更新待训练模型的网络参数,直至待训练模型的损失函数值小于或等于预设值,得到表格检测模型。
需要说明的是,本公开实施例中,对步骤207的描述可以参见前述实施例中对步骤103的描述,此处不再赘述。
本公开实施例的表格检测模型的训练方法,通过获取训练样本集,训练样本集包括样本图片和标注样本图片中表格的标注框,将训练样本集输入待训练模型,通过待训练模型的分割网络对样本图片中的表格进行预测,输出表格预测分割图,通过检测网络输出表格预测框的位置信息时,从样本图片对应的各标注框中,筛选出与目标表格对应的目标标注框,获取与样本图片的特征图中的每个特征区域对应的多个候选框,进而根据多个候选框中与目标标注框之间的交并比大于比率阈值的目标候选框对应的局部特征,预测得到表格预测框的位置信息,由此,能够降低计算开销,提高预测效率,进而有利于提高模型训练速度;根据表格预测分割图与标注框之间的差异、及表格预测框的位置信息与目标表格对应的目标标注框之间的差异,更新待训练模型的网络参数,直至待训练模型的损失函数值小于或等于预设值,得到表格检测模型,能够获得对大小表格均能准确检测的表格检测模型,有利于提高表格检测效果。
进一步地,在本公开实施例一种可能的实现方式中,还可以从分割网络中获取与目标候选框的位置对应的全局特征,其中,全局特征也可以采用RoIAlign进行特征提取获得。进而,根据多个候选框中与目标标注框之间的交并比大于比率阈值的目标候选框对应的局部特征,预测得到表格预测框的位置信息,包括:将目标候选框对应的局部特征和全局特征进行融合,得到融合特征;根据融合特征预测得到表格预测框的位置信息。通过融合目标候选框对应的局部特征和全局特征,增强了特征表达能力,进而根据得到的融合特征预测得到表格预测框的位置信息,能够提升检测网络对于大表格的检测效果。
可选地,将目标候选框对应的局部特征和全局特征进行融合得到融合特征时,可以基于同位元素相加算法,将目标候选框对应的局部特征和全局特征进行融合,得到中间融合特征,进而对中间融合特征进行卷积处理,得到融合特征。通过对同位元素相加得到的中间融合特征再进行卷积处理得到融合特征,能够获得更加丰富的融合特征,进一步增强特征表达能力。
示例性地,可以将中间融合特征依次输入至3*3卷积层和1*1卷积层进行卷积处理,以得到更丰富的融合特征。
在本公开实施例一种可能的实现方式中,分割网络输出的表格预测分割图包括预测概率图、预测阈值图和预测二值图,下面结合附图4详细说明前述实施例中根据表格预测分割图与标注框之间的差异、及表格预测框的位置信息与目标表格对应的目标标注框之间的差异,更新待训练模型的网络参数的具体实现过程。
图4示出了根据本公开又一示例性实施例的表格检测模型的训练方法的流程图,如图4所示,在如图1所示实施例的基础上,该表格检测模型的训练方法,可以包括以下步骤:
步401,获取训练样本集,训练样本集包括样本图片和标注样本图片中表格的标注框。
步骤402,将训练样本集输入待训练模型,通过待训练模型的分割网络对样本图片中的表格进行预测,输出表格预测分割图,以及通过待训练模型的检测网络对所述样本图片中与样本图片的面积之比大于阈值的目标表格进行预测,输出表格预测框的位置信息,其中,表格预测分割图包括预测概率图、预测阈值图和预测二值图。
需要说明的是,本公开实施例中,对步骤401-步骤402的描述,可以参见前述实施例中对步骤101-步骤102的描述,此处不再赘述。
步骤403,根据预测概率图、预测阈值图和预测二值图分别与标注框之间的差异,计算分割网络损失函数值。
本公开实施例中,根预测概率图、预测阈值图和预测二值图分别与标注框之间的差异,计算分割网络损失函数值时,可以根据预测概率图与标注概率图中相同位置处的像素点之间的差异,计算第一损失函数值,根据预测二值图与标注概率图中相同位置处的像素点之间的差异,计算第二损失函数值,以及,根据预测阈值图与标注阈值图中相同位置处的像素点之间的差异,计算第三损失函数值,其中,标注概率图和标注阈值图由标注框生成,将标注框按照一定的系数向内部收缩后的包围区域设为1即得到标注概率图,将标注框按照一定的系数向外部膨胀,膨胀与收缩之间的区域依据距离标注框之间的远近,生成平滑的标注阈值图。进而根据第一损失函数值、第二损失函数值和第三损失函数值可以计算得到分割网络损失函数值。比如,分割网络损失函数值可以是第一损失函数值、第二损失函数值和第三损失函数值的和值或者加权和值。
需要说明的是,分割网络损失函数值的计算可以采用已有的文本分割算法中损失函数值的计算,本公开对此不作详细描述。
步骤404,根据目标标注框的位置信息、表格预测框的位置信息分别与目标候选框的位置信息之间的差异,计算检测网络损失函数值。
本公开实施例中,根据目标标注框的位置信息、表格预测框的位置信息分别与目标候选框的位置信息之间的差异,计算检测网络损失函数值时,可以先根据目标标注框的位置信息和目标候选框的位置信息计算目标标注框相对于目标候选框的差异,以及根据表格预测框的位置信息和目标候选框的位置信息计算表格预测框相对于目标候选框的差异,再根据两个差异值计算检测网络损失函数值。
示例性地,目标标注框相对于目标候选框的差异,可以是目标标注框的位置信息相对于目标候选框的位置信息的偏移量,比如目标标注框的位置信息与目标候选框的位置信息之间的差值,相应地,表格预测框相对于目标候选框的差异,可以是表格预测框的位置信息与相对于目标候选框的位置信息的偏移量,比如表格预测框的位置信息与目标候选框的位置信息之间的差值。检测网络损失函数值可以是与两个差值相关的平滑L1损失函数值。
可选地,根据目标标注框的位置信息、表格预测框的位置信息分别与目标候选框的位置信息之间的差异,计算检测网络损失函数值,包括:基于第一预设公式,根据表格预测框的位置信息相对目标候选框的位置信息的第一转换值及目标标注框的位置信息相对目标候选框的位置信息的第二转换值,确定平滑损失函数值;基于第二预设公式,根据平滑损失函数值计算得到检测网络损失函数值。示例性地,第一预设公式可以是平滑L1损失函数公式,第一转换值与第二转换值的差值作为平滑L1损失函数公式的参数计算得到平滑损失函数值,第二预设公式可以是累加求和公式,通过对计算的多个平滑损失函数值进行累加求和得到检测网络损失函数值。通过将目标标注框和表格预测框均与目标候选框比较,而避免将表格预测框与目标标注框直接比较,有利于提高检测网络的表格预测准确性;通过确定平滑损失函数值,根据平滑损失函数值计算检测网络损失函数值,能够在表格预测框与目标标注框之间的差别过大时,避免梯度值过大,以及在表格预测框与目标标注框之间的差别很小时,确保梯度值足够小,能够使得确定的检测网络损失函数值更平滑。
可选地,第二预设公式如公式(1)所示,第一预设公式如公式(2)所示。
Figure 149006DEST_PATH_IMAGE001
公式(1)中,L det为检测网络损失函数值,N为目标候选框的个数,N为自然数,当N=0时,L det为0,β为预设常数,β的值可以预先设定,比如设置β为默认值1,L loc 为根据公式(2)确定的平滑损失函数值,L conf 为分类损失函数值,分类损失函数比如可以是指数损失函数、合页损失函数、多类别softmax损失函数等,其中,多类别softmax损失函数是归一化指数函数softmax和交叉熵损失函数的组合。
以分类损失函数为多类别softmax损失函数为例,L conf 可以用如下公式(3)表示。
Figure 308592DEST_PATH_IMAGE002
公式(2)和(3)中,
Figure DEST_PATH_IMAGE003
为第i个目标候选框和对应的第j个目标标注框的类别为k的概率,Pos为目标候选框的集合,Neg为负样本集合,
Figure 157731DEST_PATH_IMAGE004
为第i个目标候选框被预测为类别k的置信度,k=0表示背景类,P为除背景类之外的其他类别数,
Figure DEST_PATH_IMAGE005
为第一转换值,可以通过如下公式(4)计算得到,
Figure 580622DEST_PATH_IMAGE006
为第二转换值,可以通过如下公式(5)计算得到。
Figure DEST_PATH_IMAGE007
公式(4)和(5)中,
Figure 515211DEST_PATH_IMAGE008
表示第j个目标标注框的位置信息,
Figure DEST_PATH_IMAGE009
表示第j个目标标注框的中心坐标,
Figure 212909DEST_PATH_IMAGE010
表示第j个目标标注框的宽,
Figure DEST_PATH_IMAGE011
表示第j个目标标注框的高;
Figure 913624DEST_PATH_IMAGE012
表示与第i个目标候选框对应的表格预测框的位置信息,
Figure DEST_PATH_IMAGE013
表示第i个目标候选框对应的表格预测框的中心坐标,
Figure 772995DEST_PATH_IMAGE014
表示第i个目标候选框对应的表格预测框的宽,
Figure 726039DEST_PATH_IMAGE015
表示第i个目标候选框对应的表格预测框的高;
Figure 368373DEST_PATH_IMAGE016
表示第i个目标候选框的位置信息,
Figure 972530DEST_PATH_IMAGE017
表示第i个目标候选框的中心坐标,
Figure 143748DEST_PATH_IMAGE018
表示第i个目标候选框的宽,
Figure 584088DEST_PATH_IMAGE019
表示第i个目标候选框的高,i为不大于N的正整数,j为正整数。
步骤405,在分割网络损失函数值与检测网络损失函数值之和大于预设值的情况下,更新待训练模型的网络参数,直至待训练模型的损失函数值小于或等于预设值,得到表格检测模型。
本公开实施例中,根据确定的分割网络损失函数值和检测网络损失函数值,可以计算两者的加权和,得到待训练模型的损失函数值,即待训练模型的损失函数值
Figure 30113DEST_PATH_IMAGE020
,其中,L seg 为分割网络损失函数值,L det为检测网络损失函数值,α为预设的权重系数,默认值为1。进而将待训练模型的损失函数值与预设值进行比较,并在待训练模型的损失函数值大于预设值的情况下,更新待训练模型的网络参数。
本公开实施例的表格检测模型的训练方法,通过获取训练样本集,训练样本集包括样本图片和标注样本图片中表格的标注框,将训练样本集输入待训练模型,通过待训练模型的分割网络对样本图片中的表格进行预测,输出表格预测分割图,以及通过待训练模型的检测网络对所述样本图片中与样本图片的面积之比大于阈值的目标表格进行预测,输出表格预测框的位置信息,其中,表格预测分割图包括预测概率图、预测阈值图和预测二值图,根据预测概率图、预测阈值图和预测二值图分别与标注框之间的差异,计算分割网络损失函数值,根据目标标注框的位置信息、表格预测框的位置信息分别与目标候选框的位置信息之间的差异,计算检测网络损失函数值,在分割网络损失函数值与检测网络损失函数值之和大于预设值的情况下,更新待训练模型的网络参数,直至待训练模型的损失函数值小于或等于预设值,得到表格检测模型,由此,能够充分比对待训练模型输出的预测结果与真实的标注框之间的差异,有利于提高最终训练得到的表格检测模型的检测精度。
本公开实施例中,利用前述实施例训练得到的表格检测模型,可以进行表格检测。图5示出了根据本公开示例性实施例的基于表格检测模型的表格检测方法的流程示意图,该表格检测模型可以利用前述实施例所述的表格检测模型的训练方法训练得到,该表格检测方法可以由基于表格检测模型的表格检测装置执行,其中该表格检测装置可以采用软件和/或硬件实现,一般可集成在电子设备中。如图5所示,该基于表格检测模型的表格检测方法可以包括以下步骤:
步骤501,获取待检测图片。
本公开实施例中,待检测图片可以是任意需要进行表格检测的图片,比如教师的备课表图片、试卷图片等。
步骤502,在待检测图片的尺寸满足预设尺寸的情况下,将待检测图片输入至表格检测模型,通过表格检测模型的分割网络获取所述待检测图片的第一表格检测结果,以及通过表格检测模型的检测网络获取待检测图片的第二表格检测结果。
其中,预设尺寸可以预先设定,比如设置预设尺寸为最小边为800,最大边为1300,本公开对此不作限制。
本公开实施例中,对于获取的待检测图片,可以先该待检测图片的尺寸是否满足预设尺寸,在待检测图片的尺寸满足预设尺寸的情况下,将待检测图片输入至训练好的表格检测模型中,通过表格检测模型的分割网络获取待检测图片的第一表格检测结果,以及通过表格检测模型的检测网络获取待检测图片的第二表格检测结果。
其中,检测网络预测待检测图片的第二表格检测结果时,先根据检测网络的网络参数预测出位置的转换值,再根据预测的转换值和检测网络确定的候选框的位置信息,计算得到预测表格的位置信息,得到第二表格检测结果,预测表格的位置信息通过如下公式(6)计算得到。
Figure 488776DEST_PATH_IMAGE021
公式(6)中,
Figure 96475DEST_PATH_IMAGE022
Figure 24110DEST_PATH_IMAGE023
为根据检测网络的网络参数预测得到的转换值,对于训练好的表格检测模型,其网络参数已确定,则根据网络参数确定的转换值相当于已知量,
Figure 8247DEST_PATH_IMAGE024
为检测网络根据待检测图片确定的候选框的位置信息,
Figure 462362DEST_PATH_IMAGE025
表示候选框的中心坐标值,
Figure 365596DEST_PATH_IMAGE026
表示候选框的宽,
Figure 905162DEST_PATH_IMAGE027
表示候选框的高,
Figure 299846DEST_PATH_IMAGE028
表示预测得到的表格的位置信息。
能够理解的是,在训练得到表格检测模型的过程中,表格检测模型的检测网络用于检测与图片的面积之比大于阈值的大表格,因此,检测网络输出的第二表格检测结果是对待检测图片中面积较大的大表格的检测结果,分割网络输出的第一表格检测结果则是待检测图片中所有表格的检测结果。
可选地,在待检测图片的尺寸不满足预设尺寸的情况下,基于预设规则对待检测图片进行处理,以生成满足预设尺寸的待检测图片。由此,能够将不同尺寸的图片处理为统一尺寸,便于表格检测模型进行表格检测,有利于提高表格检测的准确性。
其中,预设规则可以包括但不限于当待检测图片的长宽比小于或等于预设比值(比如0.05)时重新采集待检测图片,当待检测图片的长小于宽且长宽比大于预设比值时调整待检测图片的尺寸为预设尺寸,当待检测图片的长大于宽时在待检测图片的上方和/或下方添加边界框以使长宽比为预设比值,之后再调整图片的尺寸为预设尺寸,边界框的填充值为255。
步骤503,根据第一表格检测结果与第二表格检测结果,确定目标表格检测结果。
本公开实施例中,获取了分割网络输出的第一表格检测结果和检测网络输出的第二表格检测结果之后,可以根据第一表格检测结果与第二表格检测结果,确定目标表格检测结果。
示例性地,当第二表格检测结果中的表格在图片中的面积之比大于阈值,同时,第一表格检测结果中的表格嵌套在第二表格检测结果内部时,可以删除第一表格检测结果,将第二表格检测结果确定为目标表格检测结果。
示例性地,当第一表格检测结果和第二表格检测结果中表格的交并比大于预设阈值时,将第一表格检测结果和第二表格检测结果中对同一表格的检测结果进行合并,得到目标表格检测结果。
本公开实施例的基于表格检测模型的表格检测方法,通过获取待检测图片,在待检测图片的尺寸满足预设尺寸的情况下,将待检测图片输入至表格检测模型,通过表格检测模型的分割网络获取待检测图片的第一表格检测结果,以及通过表格检测模型的检测网络获取待检测图片的第二表格检测结果,进而根据第一表格检测结果与第二表格检测结果,确定目标表格检测结果,由此,提高了图片中大、小表格的检测效果。
图6示出了教育场景表格检测的流程图,图6中以待检测图片为试卷图片为例,如图6所示,对于输入的试卷图片,先执行602判断试卷图片的长宽比的步骤,若长宽比不大于0.05,则返回步骤601重新输入试卷图片;若试卷图片的长大于宽,则执行步骤603,在图片上下添加边界框,以使图片长宽比为0.6,其中,边界框的填充值为255,之后再执行步骤604,调整图片尺寸为最小边800、最大边1300;若试卷图片的长小于宽且长宽比大于0.05,则可以执行步骤604,调整图片尺寸为最小边800、最大边1300。需要说明的是,图6中各种数值的取值仅作为示例,而不能作为对本公开的限制。之后,将调整尺寸后的试卷图片输入至表格检测模型605中进行表格检测,表格检测模型为采用本公开实施例的模型训练方法训练得到的,表格检测模型的结构如图7所示。
图7示出了本公开一示例性表格检测模型的结构示例图。如图7所示,表格检测模型包括分割分支和检测分支,将待检测图片进行下采样得到的特征图输入至检测分支进行大表格预测的训练,将下采样后的特征图再进行上采样及同位元素相加得到高分辨率的多个特征图,将多个特征图进行卷积和不同采样率的上采样后输入至分割分支,图7中,up*2表示采样率为2的上采样,up*4表示采样率为4的上采样,up*8表示采样率为8的上采样,conv表示卷积,con-cat表示将特征值进行通道合并,以增加图片特征。分割分支的特征拼接层701将上采样后的多个特征图进行拼接,根据拼接后的特征图分别预测得到预测概率图703和预测阈值图704,并基于DB算法,根据预测概率图703和预测阈值图704得到预测二值图705,进而根据预测二值图705进行盒子编码(box formation),得到第一表格检测结果706。需要说明的是,本公开实施例中,为了实现多类别检测,在分割分支上,特征拼接层预测概率特征框图和阈值特征框图时,输出维度由(C, H, W, 1)修改为(C, H, W,M),其中,C是批处理个数,H是特征图的高,W是特征图的宽,M是类别个数。在检测分支中,检测分支的大目标特征层702输出不同长宽比的候选框,大目标特征层与分割分支的特征拼接层的通道数相同,在构建模型时,大目标特征层的卷积层个数可以根据输入图的尺寸确定,通常,输入图的尺寸越大,卷积层个数越多。检测分支根据输出的候选框的位置信息从分割分支获取相应位置的全局特征,将全局特征与候选框特征通过多路径融合层707基于同位元素相加进行特征融合,再进行3*3卷积和1*1卷积后得到更丰富的融合特征708,基于融合特征708进行表格检测,输出第二表格检测结果709。
如图6所示,从表格检测模型获取了分割分支输出的第一表格检测结果和检测分支输出的第二表格检测结果之后,执行步骤606,进一步判断第一表格检测结果和第二表格检测结果中各表格之间的关系,若根据表格之间的关系判断第一表格检测结果和第二表格检测结果中的表格之间存在重复或者嵌套等现象,则执行步骤607,合并或删除检测出的重复或嵌套的表格后输出最终的表格检测结果,若无需修改检测结果则执行步骤608,将第一表格检测结果和第二表格检测结果作为最终的表格检测结果并输出。图8示例性的示出了根据本公开提供表格检测模型进行表格检测的检测结果示例图,从图8可以看出,采用本公开提供的表格检测模型的训练方法训练得到的表格检测模型进行表格检测,能够准确地检测出图片中的大表格801和小表格802。
本公开示例性实施例还提供了一种表格检测模型的训练装置。图9示出了根据本公开示例性实施例的表格检测模型的训练装置的示意性框图,如图9所示,该表格检测模型的训练装置90包括:样本集获取模块901、输入模块902和参数更新模块903。
其中,样本集获取模块901,用于获取训练样本集,所述训练样本集包括样本图片和标注所述样本图片中表格的标注框;
输入模块902,用于将所述训练样本集输入待训练模型,通过所述待训练模型的分割网络对所述样本图片中的表格进行预测,输出表格预测分割图,以及通过所述待训练模型的检测网络对所述样本图片中与所述样本图片的面积之比大于阈值的目标表格进行预测,输出表格预测框的位置信息;
参数更新模块903,用于根据所述表格预测分割图与所述标注框之间的差异,以及所述表格预测框的位置信息与所述目标表格对应的目标标注框之间的差异,更新所述待训练模型的网络参数,直至所述待训练模型的损失函数值小于或等于预设值,以得到所述表格检测模型。
可选地,输入模块902还可以用于:
从所述样本图片对应的各标注框中,筛选出与所述目标表格对应的目标标注框;
获取与所述样本图片的特征图中的每个特征区域对应的多个候选框;
根据所述多个候选框中与所述目标标注框之间的交并比大于比率阈值的目标候选框对应的局部特征,预测得到表格预测框的位置信息。
可选地,所述表格检测模型的训练装置还包括:
全局特征获取模块,用于从所述分割网络中获取与所述目标候选框的位置对应的全局特征;
所述输入模块902还用于:将所述目标候选框对应的所述局部特征和所述全局特征进行融合,得到融合特征;根据所述融合特征预测得到所述表格预测框的位置信息。
可选地,输入模块902还用于:基于同位元素相加算法,将所述目标候选框对应的所述局部特征和所述全局特征进行融合,得到中间融合特征;对所述中间融合特征进行卷积处理,得到融合特征。
可选地,所述表格预测分割图包括预测概率图、预测阈值图和预测二值图,所述参数更新模块903用于:
根据所述预测概率图、预测阈值图和预测二值图分别与所述标注框之间的差异,计算分割网络损失函数值;
根据所述目标标注框的位置信息、所述表格预测框的位置信息分别与所述目标候选框的位置信息之间的差异,计算检测网络损失函数值;
在所述分割网络损失函数值与所述检测网络损失函数值之和大于所述预设值的情况下,更新所述待训练模型的网络参数。
可选地,参数更新模块903还用于:
基于第一预设公式,根据表格预测框的位置信息相对所述目标候选框的位置信息的第一转换值及所述目标标注框的位置信息相对所述目标候选框的位置信息的第二转换值,确定平滑损失函数值;
基于第二预设公式,根据所述平滑损失函数值计算得到所述检测网络损失函数值。
可选地,所述第二预设公式为:
Figure 874047DEST_PATH_IMAGE029
其中,L det为检测网络损失函数值,N为目标候选框的个数,N为自然数,当N=0时,L det为0,L conf 为分类损失函数值,β为预设常数,L loc 为所述平滑损失函数值;
所述第一预设公式为:
Figure 948182DEST_PATH_IMAGE030
其中,
Figure 709465DEST_PATH_IMAGE031
为第i个目标候选框和对应的第j个目标标注框的类别为k的概率,Pos为目标候选框的集合,
Figure 300983DEST_PATH_IMAGE032
为第一转换值,
Figure 339478DEST_PATH_IMAGE033
为第二转换值,
Figure 459880DEST_PATH_IMAGE034
Figure 98672DEST_PATH_IMAGE035
表示第j个目标标注框的位置信息,
Figure 962723DEST_PATH_IMAGE036
表示第j个目标标注框的中心坐标,
Figure 855724DEST_PATH_IMAGE037
表示第j个目标标注框的宽,
Figure 412607DEST_PATH_IMAGE038
表示第j个目标标注框的高;
Figure 273116DEST_PATH_IMAGE039
表示与第i个目标候选框对应的表格预测框的位置信息;
Figure 940857DEST_PATH_IMAGE040
表示第i个目标候选框的位置信息,i为不大于N的正整数,j为正整数。
可选地,所述参数更新模块903还用于在所述待训练模型的训练迭代次数达到迭代次数阈值时,得到表格检测模型。
本公开实施例所提供的表格检测模型的训练装置,可执行本公开实施例所提供的任意可应用于终端等电子设备的表格检测模型的训练方法,具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。
本公开示例性实施例还提供了一种基于表格检测模型的表格检测装置,该表格检测模型可以利用前述实施例所述的表格检测模型的训练方法训练得到。图10示出了根据本公开示例性实施例的基于表格检测模型的表格检测装置的示意性框图,如图10所示,该基于表格检测模型的表格检测装置100可以包括:图片获取模块1001、结果输出模块1002和确定模块1003。
其中,图片获取模块1001,用于获取待检测图片;
结果输出模块1002,用于在所述待检测图片的尺寸满足预设尺寸的情况下,将所述待检测图片输入至所述表格检测模型,通过所述表格检测模型的分割网络获取所述待检测图片的第一表格检测结果,以及通过所述表格检测模型的检测网络获取所述待检测图片的第二表格检测结果;
确定模块1003,用于根据所述第一表格检测结果与所述第二表格检测结果,确定目标表格检测结果。
可选地,所述基于表格检测模型的表格检测装置,还包括:
处理模块,用于在所述待检测图片的尺寸不满足预设尺寸的情况下,基于预设规则对所述待检测图片进行处理,以生成满足所述预设尺寸的待检测图片。
本公开实施例所提供的基于表格检测模型的表格检测装置,可执行本公开实施例所提供的任意可应用于终端等电子设备的基于表格检测模型的表格检测方法,具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的表格检测模型的训练方法或者基于表格检测模型的表格检测方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的表格检测模型的训练方法或者基于表格检测模型的表格检测方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的表格检测模型的训练方法或者基于表格检测模型的表格检测方法。
参考图11,现将描述可以作为本公开的服务器或客户端的电子设备1100的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,电子设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM1102以及RAM1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
电子设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106、输出单元1107、存储单元1108以及通信单元1109。输入单元1106可以是能向电子设备1100输入信息的任何类型的设备,输入单元1106可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1107可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1104可以包括但不限于磁盘、光盘。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理。例如,在一些实施例中,表格检测模型的训练方法或者基于表格检测模型的表格检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM1102和/或通信单元1109而被载入和/或安装到电子设备1100上。在一些实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行表格检测模型的训练方法或者基于表格检测模型的表格检测方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims (14)

1.一种表格检测模型的训练方法,所述方法包括:
获取训练样本集,所述训练样本集包括样本图片和标注所述样本图片中表格的标注框;
将所述训练样本集输入待训练模型,通过所述待训练模型的分割网络对所述样本图片中的表格进行预测,输出表格预测分割图,以及通过所述待训练模型的检测网络对所述样本图片中与所述样本图片的面积之比大于阈值的目标表格进行预测,输出表格预测框的位置信息;
根据所述表格预测分割图与所述标注框之间的差异,以及所述表格预测框的位置信息与所述目标表格对应的目标标注框之间的差异,更新所述待训练模型的网络参数,直至所述待训练模型的损失函数值小于或等于预设值,以得到所述表格检测模型。
2.如权利要求1所述的表格检测模型的训练方法,其中,通过所述待训练模型的检测网络对所述样本图片中与所述样本图片的面积之比大于阈值的目标表格进行预测,输出表格预测框的位置信息,包括:
从所述样本图片对应的各标注框中,筛选出与所述目标表格对应的目标标注框;
获取与所述样本图片的特征图中的每个特征区域对应的多个候选框;
根据所述多个候选框中与所述目标标注框之间的交并比大于比率阈值的目标候选框对应的局部特征,预测得到所述表格预测框的位置信息。
3.如权利要求2所述的表格检测模型的训练方法,还包括:
从所述分割网络中获取与所述目标候选框的位置对应的全局特征;
并且其中,所述根据所述多个候选框中与所述目标标注框之间的交并比大于比率阈值的目标候选框对应的局部特征,预测得到表格预测框的位置信息,包括:
将所述目标候选框对应的所述局部特征和所述全局特征进行融合,得到融合特征;
根据所述融合特征预测得到所述表格预测框的位置信息。
4.如权利要求3所述的表格检测模型的训练方法,其中,所述将所述目标候选框对应的所述局部特征和所述全局特征进行融合,得到融合特征,包括:
基于同位元素相加算法,将所述目标候选框对应的所述局部特征和所述全局特征进行融合,得到中间融合特征;
对所述中间融合特征进行卷积处理,得到所述融合特征。
5.如权利要求1-4中任一项所述的表格检测模型的训练方法,其中,所述表格预测分割图包括预测概率图、预测阈值图和预测二值图,
并且其中,所述根据所述表格预测分割图与所述标注框之间的差异,以及所述表格预测框的位置信息与所述目标表格对应的目标标注框之间的差异,更新所述待训练模型的网络参数,包括:
根据所述预测概率图、所述预测阈值图和所述预测二值图分别与所述标注框之间的差异,计算分割网络损失函数值;
根据所述目标标注框的位置信息、所述表格预测框的位置信息分别与所述目标候选框的位置信息之间的差异,计算检测网络损失函数值;
在所述分割网络损失函数值与所述检测网络损失函数值之和大于所述预设值的情况下,更新所述待训练模型的网络参数。
6.如权利要求5所述的表格检测模型的训练方法,其中,所述根据所述目标标注框的位置信息、所述表格预测框的位置信息分别与所述目候选框的位置信息之间的差异,计算检测网络损失函数值,包括:
基于第一预设公式,根据表格预测框的位置信息相对所述目标候选框的位置信息的第一转换值及所述目标标注框的位置信息相对所述目标候选框的位置信息的第二转换值,确定平滑损失函数值;
基于第二预设公式,根据所述平滑损失函数值计算得到所述检测网络损失函数值。
7.如权利要求6所述的表格检测模型的训练方法,其中,所述第二预设公式为:
Figure 835603DEST_PATH_IMAGE001
其中,L det为检测网络损失函数值,N为目标候选框的个数,N为自然数,当N=0时,L det为0,L conf 为分类损失函数值,β为预设常数,L loc 为所述平滑损失函数值;
所述第一预设公式为:
Figure 584116DEST_PATH_IMAGE002
其中,
Figure 525527DEST_PATH_IMAGE003
为第i个目标候选框和对应的第j个目标标注框的类别为k的概率,Pos为目标候选框的集合,
Figure 248763DEST_PATH_IMAGE004
为第一转换值,
Figure 642836DEST_PATH_IMAGE005
为第二转换值,
Figure 460619DEST_PATH_IMAGE006
Figure 990957DEST_PATH_IMAGE007
表示第j个目标标注框的位置信息,
Figure 9729DEST_PATH_IMAGE008
表示第j个目标标注框的中心坐标,
Figure 763534DEST_PATH_IMAGE009
表示第j个目标标注框的宽,
Figure 260374DEST_PATH_IMAGE010
表示第j个目标标注框的高;
Figure 301012DEST_PATH_IMAGE011
表示与第i个目标候选框对应的表格预测框的位置信息;
Figure 959526DEST_PATH_IMAGE012
表示第i个目标候选框的位置信息,i为不大于N的正整数,j为正整数。
8.如权利要求1-4中任一项所述的表格检测模型的训练方法,还包括:
在所述待训练模型的训练迭代次数达到迭代次数阈值时,得到所述表格检测模型。
9.一种基于表格检测模型的表格检测方法,其中,所述表格检测模型利用如权利要求1-8任一项所述的表格检测模型的训练方法训练得到,所述方法包括:
获取待检测图片;
在所述待检测图片的尺寸满足预设尺寸的情况下,将所述待检测图片输入至所述表格检测模型,通过所述表格检测模型的分割网络获取所述待检测图片的第一表格检测结果,以及通过所述表格检测模型的检测网络获取所述待检测图片的第二表格检测结果;
根据所述第一表格检测结果与所述第二表格检测结果,确定目标表格检测结果。
10.如权利要求9所述的基于表格检测模型的表格检测方法,还包括:
在所述待检测图片的尺寸不满足预设尺寸的情况下,基于预设规则对所述待检测图片进行处理,以生成满足所述预设尺寸的待检测图片。
11.一种表格检测模型的训练装置,包括:
样本集获取模块,用于获取训练样本集,所述训练样本集包括样本图片和标注所述样本图片中表格的标注框;
输入模块,用于将所述训练样本集输入待训练模型,通过所述待训练模型的分割网络对所述样本图片中的表格进行预测,输出表格预测分割图,以及通过所述待训练模型的检测网络对所述样本图片中与所述样本图片的面积之比大于阈值的目标表格进行预测,输出表格预测框的位置信息;
参数更新模块,用于根据所述表格预测分割图与所述标注框之间的差异,以及所述表格预测框的位置信息与所述目标表格对应的目标标注框之间的差异,更新所述待训练模型的网络参数,直至所述待训练模型的损失函数值小于或等于预设值,以得到所述表格检测模型。
12.一种基于表格检测模型的表格检测装置,其中,所述表格检测模型利用如权利要求1-8任一项所述的表格检测模型的训练方法训练得到,所述装置包括:
图片获取模块,用于获取待检测图片;
结果输出模块,用于在所述待检测图片的尺寸满足预设尺寸的情况下,将所述待检测图片输入至所述表格检测模型,通过所述表格检测模型的分割网络获取所述待检测图片的第一表格检测结果,以及通过所述表格检测模型的检测网络获取所述待检测图片的第二表格检测结果;
确定模块,用于根据所述第一表格检测结果与所述第二表格检测结果,确定目标表格检测结果。
13.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-8中任一项所述的表格检测模型的训练方法或者执行根据权利要求9-10中任一项所述的基于表格检测模型的表格检测方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的表格检测模型的训练方法或者执行根据权利要求9-10中任一项所述的基于表格检测模型的表格检测方法。
CN202110962393.4A 2021-08-20 2021-08-20 表格检测模型的训练方法、装置及表格检测方法、装置 Active CN113420727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110962393.4A CN113420727B (zh) 2021-08-20 2021-08-20 表格检测模型的训练方法、装置及表格检测方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110962393.4A CN113420727B (zh) 2021-08-20 2021-08-20 表格检测模型的训练方法、装置及表格检测方法、装置

Publications (2)

Publication Number Publication Date
CN113420727A true CN113420727A (zh) 2021-09-21
CN113420727B CN113420727B (zh) 2021-11-16

Family

ID=77719750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110962393.4A Active CN113420727B (zh) 2021-08-20 2021-08-20 表格检测模型的训练方法、装置及表格检测方法、装置

Country Status (1)

Country Link
CN (1) CN113420727B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912621A (zh) * 2023-07-14 2023-10-20 浙江大华技术股份有限公司 图像样本构建方法、目标识别模型的训练方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190266394A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Method and device for parsing table in document image
CN113223025A (zh) * 2021-06-03 2021-08-06 新东方教育科技集团有限公司 图像处理方法及装置、神经网络的训练方法及装置
CN113255501A (zh) * 2021-05-18 2021-08-13 北京百度网讯科技有限公司 生成表格识别模型的方法、设备、介质及程序产品

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190266394A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Method and device for parsing table in document image
CN113255501A (zh) * 2021-05-18 2021-08-13 北京百度网讯科技有限公司 生成表格识别模型的方法、设备、介质及程序产品
CN113223025A (zh) * 2021-06-03 2021-08-06 新东方教育科技集团有限公司 图像处理方法及装置、神经网络的训练方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912621A (zh) * 2023-07-14 2023-10-20 浙江大华技术股份有限公司 图像样本构建方法、目标识别模型的训练方法及相关装置
CN116912621B (zh) * 2023-07-14 2024-02-20 浙江大华技术股份有限公司 图像样本构建方法、目标识别模型的训练方法及相关装置

Also Published As

Publication number Publication date
CN113420727B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
US10692221B2 (en) Automatic trimap generation and image segmentation
CN111709339A (zh) 一种票据图像识别方法、装置、设备及存储介质
CN112528977A (zh) 目标检测方法、装置、电子设备和存储介质
CN111582021A (zh) 场景图像中的文本检测方法、装置及计算机设备
CN110084172B (zh) 文字识别方法、装置和电子设备
CN113221743A (zh) 表格解析方法、装置、电子设备和存储介质
CN113139543A (zh) 目标对象检测模型的训练方法、目标对象检测方法和设备
JP2023527615A (ja) 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム
CN114187459A (zh) 目标检测模型的训练方法、装置、电子设备以及存储介质
CN111144215A (zh) 图像处理方法、装置、电子设备及存储介质
CN113657274A (zh) 表格生成方法、装置、电子设备、存储介质及产品
CN113420727B (zh) 表格检测模型的训练方法、装置及表格检测方法、装置
CN110633717A (zh) 一种目标检测模型的训练方法和装置
US11756208B2 (en) Digital image boundary detection
CN115359308A (zh) 模型训练、难例识别方法、装置、设备、存储介质及程序
CN113762109A (zh) 一种文字定位模型的训练方法及文字定位方法
CN113255501A (zh) 生成表格识别模型的方法、设备、介质及程序产品
CN113537192A (zh) 图像检测方法、装置、电子设备及存储介质
CN113723367B (zh) 一种答案确定方法、判题方法及装置和电子设备
CN113850239B (zh) 多文档检测方法、装置、电子设备及存储介质
CN113486171B (zh) 一种图像处理方法及装置、电子设备
CN115359502A (zh) 一种图像处理方法、装置、设备以及存储介质
CN113887394A (zh) 一种图像处理方法、装置、设备及存储介质
CN113706705A (zh) 用于高精地图的图像处理方法、装置、设备以及存储介质
CN113762234A (zh) 一种确定文本行区域的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant