CN113139625B - 一种模型训练方法、电子设备及其存储介质 - Google Patents
一种模型训练方法、电子设备及其存储介质 Download PDFInfo
- Publication number
- CN113139625B CN113139625B CN202110541472.8A CN202110541472A CN113139625B CN 113139625 B CN113139625 B CN 113139625B CN 202110541472 A CN202110541472 A CN 202110541472A CN 113139625 B CN113139625 B CN 113139625B
- Authority
- CN
- China
- Prior art keywords
- height
- image
- feature
- value
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 51
- 230000004927 fusion Effects 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种模型训练方法、电子设备及其存储介质。根据本申请实施例提供的方案,通过对训练样本中的边界线进行标注,并采用包含N个块的基础网络模型对所述文本图像进行特征提取,并生成目标特征图像,进而基于目标特征图像来生成与所述文本图像等高的二维预测向量,根据所述二维预测向量和标注高度确定所述基础网络模型的损失值,进而训练得到目标模型。从而可以使用该目标模型从待预测的文本图像中直接预测得到分界线的高度,并将预测高度上的水平直线确定为所述待预测的文本图像的分界线。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种模型训练方法、电子设备及其存储介质。
背景技术
在包含有表格形式数据的场景中,通常需要对表格中的表头和标题进行两部分的划分。在传统方案中,通常是借助表格线,在提取出表格线后,经过特定规则进行表头表体区域划分,并完成表格结构还原,或者对表头表体进行分类并回归出坐标位置。
但是这些方案对于结构复杂的表格(例如无线表格),由于表头和标题的分界变得模糊,就会产生框回归不准造成表头表体检测框重叠,最终产生表格结构还原不准确的问题。
基于此,本申请提供一种适应范围更广的表格的分界线的预测方案。
发明内容
有鉴于此,本申请实施例提供一种适应范围更广的表格的分界线的预测方案方案,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种模型训练方法,包括:
获取训练样本,所述训练样本为包含分界线的标注高度的文本图像;
采用包含N个块的基础网络模型对所述文本图像进行特征提取,生成对应于所述N个块的N个子特征图像,其中N>1;
融合所述N个子特征图像,生成目标特征图像;
根据所述目标特征图像生成与所述文本图像等高的二维预测向量,所述二维预测向量包含了在文本图像的高度上每一个高度的取值;
根据所述二维预测向量和所述标注高度确定所述基础网络模型的损失值;
根据所述损失值对所述基础网络模型中的权值进行更新,直至所述损失值不超过预设阈值,将此时的基础网络模型确定为目标模型。
根据本申请实施例的第二方面,还提供了一种分界线预测方法,包括:
获取待预测的文本图像;
采用包含N个块的目标模型对所述文本图像进行特征提取,生成对应于所述N个块的N个子特征图像,其中N>1,其中,所述目标模型基于上述方法训练得到;
融合所述N个子特征图像,生成目标特征图像;
根据所述目标特征图像生成与所述文本图像等高的二维预测向量,所述二维预测向量包含了在文本图像的高度上每一个高度的取值;
根据所述二维预测向量确定分界线的预测高度,将所述预测高度上的水平直线确定为所述待预测的文本图像的分界线。
根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面和第二方面所述的方法对应的操作。
根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面和第二方面所述的方法。
根据本申请实施例提供的方案,通过对训练样本中的边界线进行标注,并采用包含N个块的基础网络模型对所述文本图像进行特征提取,并生成目标特征图像,进而基于目标特征图像来生成与所述文本图像等高的二维预测向量,根据所述二维预测向量和所述标注高度确定所述基础网络模型的损失值,进而训练得到目标模型。从而可以使用该目标模型从待预测的文本图像中直接预测得到分界线的高度,并将预测高度上的水平直线确定为所述待预测的文本图像的分界线。本申请的方案将分界线预测降为一个点的预测,适应性强,训练简单,有效避免了常规方式存在的区域交叠等歧义问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例所涉及的几种表格数据的示意图;
图2为本申请实施例所提供的一种模型训练方法的流程示意图;
图3为本申请实施例所提供的模型训练方法的框架示意图;
图4为本申请实施例所提供的一种多个块串联得到多个子特征图像的示意图;
图5为本申请实施例所提供的一种分界线预测方法的流程示意图;
图6为本申请实施例所提供的一种模型训练装置的结构示意图;
图7为本申请实施例所提供的一种分界线预测装置的结构示意图;
图8为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
在在线教育的场景中,对成绩单、实验记录表、课程设计表、附题表格等扫描资料进行结构还原是内容分析的先决条件。表格数据从层级结构上分为表头和表体,这两个区域分别对应着不同的信息要素,因此对表格数据进行表头表体区域划分是表格信息提取和结构还原的关键环节。如图1所示,图1为本申请实施例所涉及的几种表格数据的示意图。在该示意图中,用虚线框示意了表头和表体部分。
可以看到,在该示意图中,在左边的表格数据中存在多条表格实线框线(并不是每一条表格框线都可以视为表头和表体的分界线),而在右边的表格数据中则没有表格框线。但是在实际应用中它们都是具有明确的表头区域和表体区域,而需要将它们进行区分。
在本申请实施例中,具体包括了两个部分:第一方面中的目标模型的训练;第二方面中基于目标模型的分界线预测。下面结合本申请实施例附图进一步说明本申请实施例具体实现。
对于第一方面中的目标模型的训练,如图2所示,图2为本申请实施例所提供的一种模型训练方法的流程示意图,包括:
S201,获取训练样本,所述训练样本为包含分界线的标注高度的文本图像。
训练样本即为包含了表格数据的文本图像,在训练样本中,已经标记了分界线的标注高度y0,这里y0实际上指的是在文本图像的高度上的像素点的高度坐标。例如,在文本图像的高度上可能有100个像素点(即图像高度为100),而标注高度y0为50,即分界线为通过第50个像素点的水平直线。
在本申请实施例中,每一个训练样本有且仅有一个标注高度。同时,在训练样本中,并不需要以训练样本中的某一条线来作为分界线。换言之,标注高度所对应的标注分界线可能并不是以可见的方式存在于训练样本的文本图像中。
此外,还需要说明的是,由于在实际应用中,表头和表体之间实际上是存在多个水平直线可以作为分界线的,因此,对于标注高度y0并不需要那么严格,只需要在表头的底部像素的高度和表体的顶部像素的高度之间取值即可。
例如,可以随机在表头的底部像素的高度和表体的顶部像素的高度之间进行取值作为标注高度,或者取表头的底部像素的高度和表体的顶部像素的高度的均值作为标注高度。
S203,采用包含N个块的基础网络模型对所述文本图像进行特征提取,生成对应于所述N个块的N个子特征图像,其中N>1。
可以采用诸如ResNet50等形式的残差网络模型进行特征提取。在这种基础网络模型中,通过包含了多个块进行卷积,可以得到不同规格的多个子特征图像。
例如,可以采用互相独立的N个块分别对原始输入的训练样本进行卷积,从而得到不同规格的N个子特征图像;又例如,可以采用多个互相串联的块来进行图像特征提取,从而得到不同规格的N个子特征图像。
提取得到的N个子特征图像的规格可以是依次降低的,例如,当N=4时,提取得到的4个不同规格的子特征图像分别是输入的训练样本的1/2,1/4,1/8,1/16大小。这种有规律的降低规格可以有利于后续的图像缩放以进行特征融合。
S205,融合所述N个子特征图像,生成目标特征图像。
如果提取得到的N个子特征图像规格相同,那么可以N个子特征图像直接进行逐点相加即得到目标特征图像。
在N个子特征图像的规格不同的时候,即可以分别采样至相同的规格之后,再进行逐点相加即得到目标特征图像。
在采样的过程中,可以采用诸如最近邻法(Nearest Interpolation)、双线性插值(Bilinear Interpolation)或者双三次插值(Bicubic interpolation)等各种插值方式对不同规格的图像进行采样,使得各子特征图像在采样之后规格相同,进而可以进行逐点相加而得到目标特征图像。
S207,根据所述目标特征图像生成与所述文本图像等高的二维预测向量,所述二维预测向量包含了在文本图像的高度上每一个高度的取值。
目标特征图像经过一个全连接层即可以得到一个二维向量[H,1],其中的H的维度即与文本图像的高度相同。例如,假设文本高度为100(即在高度方向上右100个像素点),那么H即有100个维度,即H=[x1,x2,……,x100],其中的x1到x100即表征了在每一个高度上的取值。
需要说明的是,这里的取值并不一定具有实际上的物理意义,其仅为模型训练过程中计算得到的一个中间变量,在后续经过激活函数后才可能得到一个像素点所对应的高度的概率取值,该概率取值用于表征经过该高度的水平直线是分界线的概率。
S209,根据所述二维预测向量和所述标注高度确定所述基础网络模型的损失值。
具体而言,由于在二维预测向量中包含了在文本图像的高度上每一个高度的取值,因此,即可以基于预设的方式和每一个高度的取值来计算每一个高度上是否为边界线的预测概率(即预测值),同时,还可以基于预设的方式来计算每一个高度上是否为边界线的真实概率(即真实值),进而可以基于每一个高度上的预测概率和真实概率的差异,以及预设的损失函数来统计得到损失值。
在这个过程中预测概率、真实概率和损失函数的计算方式可以根据实际需要来进行选取。
S211,根据所述损失值对所述基础网络模型中的权值进行更新,直至所述损失值不超过预设阈值,将此时的基础网络模型确定为目标模型。
具体而言,即根据损失值来反向调整基础网络模型中的N个块中的卷积核中的权值参数。直至损失值不超过预设阈值,那么则确定模型训练成功,将此时的基础网络模型确定为目标模型。容易理解,在此时,目标模型中已经包含了针对训练样本而言比较准确的权值参数,其对于训练样本中的分界线的预测已经达到了一定的准确度。如图3所示,图3为本申请实施例所提供的模型训练方法的框架示意图。
根据本申请实施例中第一方面所提供的方案,通过对训练样本中的边界线进行标注,并采用包含N个块的基础网络模型对所述文本图像进行特征提取,并生成目标特征图像,进而基于目标特征图像来生成与所述文本图像等高的二维预测向量,根据所述二维预测向量和所述标注高度确定所述基础网络模型的损失值,进而训练得到目标模型,且训练简单快速,且在模型训练融合了多方面的特征,得到的目标模型准确率也较高。
在一种实施例中,在基础网络模型中采用N个块进行特征提取时,可以采用串联的方式来进行特征提取,即将前一个块所输出的子特征图像作为后一个块的输入。具体而言,即针对第1个块,对于所述文本图像进行卷积,生成对应于第1个块的第一子特征图像;针对第i个块,对第i-1个块所生成的第i-1子特征图像进行卷积,生成生成对应于第1个块的第i子特征图像,1<i≤N。如图4所示,图4为本申请实施例所提供的一种多个块串联得到多个子特征图像的示意图。
在一种实施例中,在针对N个子特征图像进行图象融合时,可以采用依序采样并进行融合的方式。在实际应用中,当存在N个块时,通常而言,从第1个块至第N个块,其得到的子特征图象的规格总是依次降低的。例如,在前例中提及,当N=4时,提取得到的4个不同规格的子特征图像分别是输入的训练样本的1/2,1/4,1/8,1/16大小。
那么此时,即可以反过来,从第N个子特征图像开始,将其采样至与第N-1个子特征图像的相同规格,然后逐点对应相加,生成第N-1融合图像,从i=N-1至i=2依序采用如下循环:将第i-1融合图像采样至与第i-1子特征图像相同的规格,并逐点对应相加,生成第i-1融合图像;将生成的第1融合图像确定为目标特征图像。
例如,当N=4时,首先将第4个子特征图像经过双线性插值后变成与第3个子特征图像相同规格,然后二者进行逐点相加,生成第3融合图像,其规格与第3个子特征图像相同,为原图的1/8。
进而第3融合图像经过双线性插值后变成与第2子特征图像相同规格,然后二者进行逐点相加,生成第2融合图像,其规格与第2个子特征图像相同,为原图的1/4。
依次类推,直至与与第1子特征图像融合而得到第1融合图像,并将生成的第1融合图像确定为目标特征图像,目标特征图像的规格与第2个子特征图像相同,为原图的1/2。显然,此时的目标特征图像即融合了前述每一个子特征图像中特征,通过该方式可以使得融合得到的目标特征图像中的特征更为丰富。
在一种实施例中,在得到了目标特征图像(此时得到的目标特征图像通常是一个多通道的特征图像)之后,还可以对目标特征图像沿宽度方向上进行池化。例如,假设目标特征图像为P1(C,H/2,W/2),其中,C为通道数,H、W分别为原图(即训练样本)的高和宽,即P1在宽度和高度上均为原图的1/2。
那么此时,即可以对P1的宽度方向上进行池化(可以是诸如平均池化、或者最大池化等等,池化的方式并不影响本申请的方案),使得在宽度方向上各像素点的取值相同,而得到特征向量[C,H/2,1],进而根据池化后的特征向量连接一个全连接层输出预测向量[H,1]。
其原因在于,在本申请中只需要预测到分界线的高度即可,因此,像素点在宽度方向上的取值对本申请的方案没有作用,通过沿宽度方向上的池化即可以舍弃宽度方向上的无效预测,有效降低了模型预测难度,提高模型预测的准确性。
在一种实施例中,在确定基础网络模型的损失值时。可以采用如下的高斯函数来确定每一高度yi上的真实值f(yi):
其中,y0代表标注高度,yi代表图像高度,yi取值范围为[1,H],H为图像高度,σ为超参数,可以根据需要设定,例如,默认取3.0。
而对于每一个高度上的预测值f′(yi),其可以采用如下公式计算得到:
其中的xi即表示在二维预测向量中的H所包含的在对应高度yi上的取值,xi的取值为包含正负范围的实数。进而可以基于如下方式来计算损失值Loss:
即将每个高度上的真实值和预测值的绝对值之和的平均值作为损失值。
如前所述,由于实际上表头和表体之间是存在的较大空间的,在该空间中的任一高度上的水平线实际上都可以作为分界线。例如,表头底部高度为80,表体顶部高度为70,那么实际上区间[71,79]中的任意整数值(像素的高度值一般即为正整数)都可以作为分界线的高度。
换言之,在标注高度附近的其它高度实际上也是有可能视为分界线的高度。或者说,如果一个高度距离标注高度越近,该高度是分界线高度的可能性越大。那么该高度上的真实值应该越靠近标注高度的真实值,而通过前述的计算方式即可以实现这一点。通过这种方式,降低了由于分界点离散带来的在模型训练中的收敛不稳定性。
在模型训练完毕之后,即可以部署上线来进行分界线的预测。即对于本申请的第二方面,如图5所示,图5为本申请实施例所提供的一种分界线预测方法的流程示意图,包括:
S501,获取待预测的文本图像。
获取的待预测的文本图像一般即为包含表格数据的文本图像。该文本图像中的表格数据可以具有具体的框线,也可以没有具体的框线。但即使是没有具体的框线,本申请同样可以进行后续的预测。
S503,采用包含N个块的目标模型对所述文本图像进行特征提取,生成对应于所述N个块的N个子特征图像,其中N>1。
目标模型的训练过程和特征提取的方式在前文已经进行了详述。此处不再赘述。
S505,融合所述N个子特征图像,生成目标特征图像。具体的融合方式参见前文。
S507,根据所述目标特征图像生成与所述文本图像等高的二维预测向量,所述二维预测向量包含了在文本图像的高度上每一个高度的取值。
S509,根据所述二维预测向量确定分界线的预测高度,将所述预测高度上的水平直线确定为所述待预测的文本图像的分界线。
具体而言,由于在二维预测向量中给每一个高度上都有一个具体的取值,因此,可以基于该具体的取值来计算得到分界线的预测高度。从而将预测高度上的水平直线确定为所述待预测的文本图像的分界线。例如,预测高度为49,那么即为在高度上为经过第49个像素点的水平直线为待预测的文本图像的分界线。
本申请实施例的第二方面的方案,通过已经训练好的目标模型直接预测得到分界线的高度,将分界线预测降为一个点的预测,避免了常规方式存在的区域交叠等歧义问题,简单高效,适应各种有表格框线和无表格框线的问题。
在一种实施例中,可以二维预测向量中的每一个高度的取值,以及采用如前所述的预设的激活函数来进行高度值的预测
该激活函数将每一个高度上的取值变化为对应的概率值,从而确定在每个高度上的概率取值,进而可以将概率取值最大所对应的高度确定为分界线的预测高度,从而可以款速的确定出分界线的高度。
此外,需要说明的是,在使用目标模型进行分界面预测阶段,所采用的特征提取、特征融合、以及二维预测向量的生成、二维预测向量宽度方向上的池化等等,均可参见在第一方面模型训练中的相关操作。
与第一方面对应的,本申请实施例还提供了一种模型训练装置,如图6所示,图6为本申请实施例所提供的一种模型训练装置的结构示意图,具体包括:
第一获取模块601,获取训练样本,所述训练样本为包含分界线的标注高度的文本图像;
第一特征提取模块603,采用包含N个块的基础网络模型对所述文本图像进行特征提取,生成对应于所述N个块的N个子特征图像,其中N>1;
第一目标特征图像生成模块605,融合所述N个子特征图像,生成目标特征图像;
第一二维预测向量生成模块607,根据所述目标特征图像生成与所述文本图像等高的二维预测向量,所述二维预测向量包含了在文本图像的高度上每一个高度的取值;
损失值确定模块609,根据所述二维预测向量和所述标注高度确定所述基础网络模型的损失值;
目标模型确定模块611,根据所述损失值对所述基础网络模型中的权值进行更新,直至所述损失值不超过预设阈值,将此时的基础网络模型确定为目标模型。
与第二方面对应的,本申请实施例还提供了一种分界线预测装置,如图7所示,图7为本申请实施例所提供的一种分界线预测装置的结构示意图,具体包括:
第二获取模块701,获取待预测的文本图像;
第二特征提取模块703,采用包含N个块的目标模型对所述文本图像进行特征提取,生成对应于所述N个块的N个子特征图像,其中N>1,其中,所述目标模型基于第一方面中任意的方法训练得到;
第二目标特征图像生成模块705,融合所述N个子特征图像,生成目标特征图像;
第二二维预测向量生成模块707,根据所述目标特征图像生成与所述文本图像等高的二维预测向量,所述二维预测向量包含了在文本图像的高度上每一个高度的取值;
分界线确定模块709,根据所述二维预测向量确定分界线的预测高度,将所述预测高度上的水平直线确定为所述待预测的文本图像的分界线。
本实施例的,装置用于实现前述多个方法实施例中相应的方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
本申请实施例的第三方面,还提供了一种电子设备,如图8所示,图8为本申请实施例所提供的一种电子设备的结构示意图,本申请具体实施例并不对电子设备的具体实现做限定。
如图8所示,该电子设备可以包括:处理器(processor)1002、通信接口(Communications Interface)1004、存储器(memory)1006、以及通信总线1008。
其中:
处理器1002、通信接口1004、以及存储器1006通过通信总线1008完成相互间的通信。
通信接口1004,用于与其它电子设备或服务器进行通信。
处理器1002,用于执行程序1010,具体可以执行上述文本图像配准方法实施例中的相关步骤。
具体地,程序1010可以包括程序代码,该程序代码包括计算机操作指令。
处理器1002可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器1006,用于存放程序1010。存储器1006可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序1010具体可以用于使得处理器1002执行如第一方面或者第二方面中的操作。
程序1010中各步骤的具体实现可以参见上述模型训练方法或者分界线预测方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
本申请实施例的第四方面,还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中所述的模型训练方法或者如第二方面中所述的分界线预测。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的方法。此外,当通用计算机访问用于实现在此示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。
Claims (9)
1.一种模型训练方法,包括:
获取训练样本,所述训练样本为包含表头和表体的分界线的标注高度的文本图像,所述分界线的标注高度指的是在文本图像的高度上的像素点的高度坐标,若标注高度为y0,所述分界线为通过所述文本图像的高度上的第y0个像素点的水平直线;
采用包含N个块的基础网络模型对所述文本图像进行特征提取,生成对应于所述N个块的N个子特征图像,其中N>1;
融合所述N个子特征图像,生成目标特征图像;
根据所述目标特征图像生成与所述文本图像等高的二维预测向量,所述二维预测向量包含了在文本图像的高度上每一个高度的取值以能够根据所述二维预测向量确定分界线的预测高度;
根据所述二维预测向量和所述标注高度确定所述基础网络模型的损失值;
根据所述损失值对所述基础网络模型中的权值进行更新,直至所述损失值不超过预设阈值,将此时的基础网络模型确定为目标模型。
2.如权利要求1所述的方法,其中,采用包含N个块的网络模型对所述文本图像进行特征提取,生成对应于所述N个块的N个子特征图像,包括:
针对第1个块,对于所述文本图像进行卷积,生成对应于第1个块的第一子特征图像;
针对第i个块,对第i-1个块所生成的第i-1子特征图像进行卷积,生成生成对应于第1个块的第i子特征图像,1<i≤N。
3.如权利要求2所述的方法,其中,融合所述N个子特征图像,生成目标特征图像,包括:
将第N子特征图像采样至与第N-1子特征图像相同的规格,并逐点对应相加,生成第N-1融合图像;
从i=N-1至i=2依序采用如下循环:将第i-1融合图像采样至与第i-1子特征图像相同的规格,并逐点对应相加,生成第i-1融合图像;
将生成的第1融合图像确定为目标特征图像。
4.如权利要求1所述的方法,其中,根据所述目标特征图像生成与所述文本图像等高的二维预测向量,包括:
对所述目标特征图像沿所述文本图像的宽度方向进行池化,生成池化后的特征向量;
根据所述池化后的特征向量生成与所述文本图像等高的二维预测向量。
5.如权利要求1所述的方法,其中,根据所述二维预测向量和所述标注高度确定所述基础网络模型的损失值,包括:
针对任一的高度,采用高斯函数根据该高度与所述标注高度的差异确定该高度的真实值;
针对任一的高度,根据在二维预测向量中该高度的取值确定该高度的预测值;
确定在每一个高度上的真实值和预测值的差异值;
根据所述每一个高度上的真实值和预测值的差异值的绝对值之和,确定所述预测高度和所述标注高度的损失值。
6.一种分界线预测方法,包括:
获取待预测的文本图像;
采用包含N个块的目标模型对所述文本图像进行特征提取,生成对应于所述N个块的N个子特征图像,其中N>1,其中,所述目标模型基于权利要求1至5中任一的方法训练得到;
融合所述N个子特征图像,生成目标特征图像;
根据所述目标特征图像生成与所述文本图像等高的二维预测向量,所述二维预测向量包含了在文本图像的高度上每一个高度的取值;
根据所述二维预测向量确定分界线的预测高度,将所述预测高度上的水平直线确定为所述待预测的文本图像的分界线。
7.如权利要求6所述的方法,其中,根据所述二维预测向量确定分界线的预测高度,包括:
根据所述二维预测向量中的每一个高度的取值,采用预设的激活函数确定在每个高度上的概率取值;
将概率取值最大所对应的高度确定为分界线的预测高度。
8.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的方法对应的操作。
9.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110541472.8A CN113139625B (zh) | 2021-05-18 | 2021-05-18 | 一种模型训练方法、电子设备及其存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110541472.8A CN113139625B (zh) | 2021-05-18 | 2021-05-18 | 一种模型训练方法、电子设备及其存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113139625A CN113139625A (zh) | 2021-07-20 |
CN113139625B true CN113139625B (zh) | 2023-12-15 |
Family
ID=76817229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110541472.8A Active CN113139625B (zh) | 2021-05-18 | 2021-05-18 | 一种模型训练方法、电子设备及其存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139625B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0528310A (ja) * | 1991-06-06 | 1993-02-05 | Fuji Xerox Co Ltd | フオーム型文書識別装置 |
WO2019104879A1 (zh) * | 2017-11-30 | 2019-06-06 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
CN110210400A (zh) * | 2019-06-03 | 2019-09-06 | 上海眼控科技股份有限公司 | 一种表格文件检测方法及设备 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110516541A (zh) * | 2019-07-19 | 2019-11-29 | 金蝶软件(中国)有限公司 | 文本定位方法、装置、计算机可读存储介质和计算机设备 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN111178154A (zh) * | 2019-12-10 | 2020-05-19 | 北京明略软件系统有限公司 | 表格边框预测模型生成方法、装置及表格定位方法、装置 |
CN111382717A (zh) * | 2020-03-17 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 一种表格识别方法、装置和计算机可读存储介质 |
CN111626027A (zh) * | 2020-05-20 | 2020-09-04 | 北京百度网讯科技有限公司 | 表格结构还原方法、装置、设备、系统和可读存储介质 |
CN111860257A (zh) * | 2020-07-10 | 2020-10-30 | 上海交通大学 | 融合多种文本特征及几何信息的表格识别方法及系统 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN112085029A (zh) * | 2020-08-31 | 2020-12-15 | 浪潮通用软件有限公司 | 一种发票识别的方法、设备及介质 |
CN112348025A (zh) * | 2020-11-06 | 2021-02-09 | 上海商汤智能科技有限公司 | 字符检测方法及装置、电子设备和存储介质 |
CN112396054A (zh) * | 2020-11-30 | 2021-02-23 | 泰康保险集团股份有限公司 | 文本提取方法、装置、电子设备及存储介质 |
CN112801045A (zh) * | 2021-03-18 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 一种文本区域检测方法、电子设备及计算机存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2003108433A (ru) * | 2003-03-28 | 2004-09-27 | Аби Софтвер Лтд. (Cy) | Способ предварительной обработки изображения машиночитаемой формы |
CN108416279B (zh) * | 2018-02-26 | 2022-04-19 | 北京阿博茨科技有限公司 | 文档图像中的表格解析方法及装置 |
US10846524B2 (en) * | 2018-11-14 | 2020-11-24 | Adobe Inc. | Table layout determination using a machine learning system |
US11087123B2 (en) * | 2019-08-24 | 2021-08-10 | Kira Inc. | Text extraction, in particular table extraction from electronic documents |
-
2021
- 2021-05-18 CN CN202110541472.8A patent/CN113139625B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0528310A (ja) * | 1991-06-06 | 1993-02-05 | Fuji Xerox Co Ltd | フオーム型文書識別装置 |
WO2019104879A1 (zh) * | 2017-11-30 | 2019-06-06 | 平安科技(深圳)有限公司 | 表格类图像的信息识别方法、电子装置及可读存储介质 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN110210400A (zh) * | 2019-06-03 | 2019-09-06 | 上海眼控科技股份有限公司 | 一种表格文件检测方法及设备 |
CN110516541A (zh) * | 2019-07-19 | 2019-11-29 | 金蝶软件(中国)有限公司 | 文本定位方法、装置、计算机可读存储介质和计算机设备 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN111178154A (zh) * | 2019-12-10 | 2020-05-19 | 北京明略软件系统有限公司 | 表格边框预测模型生成方法、装置及表格定位方法、装置 |
CN111382717A (zh) * | 2020-03-17 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 一种表格识别方法、装置和计算机可读存储介质 |
CN111626027A (zh) * | 2020-05-20 | 2020-09-04 | 北京百度网讯科技有限公司 | 表格结构还原方法、装置、设备、系统和可读存储介质 |
CN111860257A (zh) * | 2020-07-10 | 2020-10-30 | 上海交通大学 | 融合多种文本特征及几何信息的表格识别方法及系统 |
CN112085029A (zh) * | 2020-08-31 | 2020-12-15 | 浪潮通用软件有限公司 | 一种发票识别的方法、设备及介质 |
CN112348025A (zh) * | 2020-11-06 | 2021-02-09 | 上海商汤智能科技有限公司 | 字符检测方法及装置、电子设备和存储介质 |
CN112396054A (zh) * | 2020-11-30 | 2021-02-23 | 泰康保险集团股份有限公司 | 文本提取方法、装置、电子设备及存储介质 |
CN112801045A (zh) * | 2021-03-18 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 一种文本区域检测方法、电子设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113139625A (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107633526B (zh) | 一种图像跟踪点获取方法及设备、存储介质 | |
US20190347767A1 (en) | Image processing method and device | |
CN109753971B (zh) | 扭曲文字行的矫正方法及装置、字符识别方法及装置 | |
CN109146892A (zh) | 一种基于美学的图像裁剪方法及装置 | |
JP2016062524A (ja) | データ処理システム、データ処理方法およびデータ処理プログラム | |
CN109583509B (zh) | 数据生成方法、装置及电子设备 | |
CN110852349A (zh) | 一种图像处理方法、检测方法、相关设备及存储介质 | |
CN112508975A (zh) | 一种图像识别方法、装置、设备及存储介质 | |
CN111144215B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
JP6597914B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
CN109598744A (zh) | 一种视频跟踪的方法、装置、设备和存储介质 | |
CN107730514A (zh) | 场景分割网络训练方法、装置、计算设备及存储介质 | |
CN111797821A (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN111310758A (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN113112542A (zh) | 一种视觉定位方法、装置、电子设备及存储介质 | |
CN111149101B (zh) | 一种目标图案查找方法及计算机可读存储介质 | |
CN113011409A (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
CN110532938B (zh) | 基于Faster-RCNN的纸质作业页码识别方法 | |
CN113989814B (zh) | 图像生成方法、装置、计算机设备及存储介质 | |
CN115620022A (zh) | 一种对象检测方法、装置、设备及存储介质 | |
CN113516697B (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN113139625B (zh) | 一种模型训练方法、电子设备及其存储介质 | |
CN112907750A (zh) | 一种基于卷积神经网络的室内场景布局估计方法及系统 | |
CN115063822B (zh) | 文档检测方法、装置、电子设备及存储介质 | |
CN116188917A (zh) | 缺陷数据生成模型训练方法、缺陷数据生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |