CN115294577A - 一种模型训练方法、装置、计算机设备及存储介质 - Google Patents
一种模型训练方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115294577A CN115294577A CN202210949463.7A CN202210949463A CN115294577A CN 115294577 A CN115294577 A CN 115294577A CN 202210949463 A CN202210949463 A CN 202210949463A CN 115294577 A CN115294577 A CN 115294577A
- Authority
- CN
- China
- Prior art keywords
- document image
- image
- target
- region
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/141—Image acquisition using multiple overlapping images; Image stitching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Character Input (AREA)
Abstract
本申请实施例提供一种模型训练方法、装置、计算机设备及存储介质,可以应用于云技术、人工智能、智慧交通、车联网等各种场景;本申请实施例可以获取待处理文档图像,并对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域;按照预设顺序对候选图像区域进行融合处理,以构建包含图像区域的目标文档图像;确定目标文档图像中的每一图像区域对应的区域关系信息,并根据目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本;根据模型训练任务和文档图像样本对文档图像预测模型进行训练,得到目标文档图像预测模型;本申请实施例可以提高训练得到的目标文档图像预测模型的通用性。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种模型训练方法、装置、计算机设备及存储介质,该存储介质为计算机可读存储介质。
背景技术
随着人工智能技术的发展,为了提高对神经网络模型的训练效率,目前会对神经网络模型进行预训练,如此可以基于预训练得到的预训练后神经网络模型进行微调,从而可以快速更新预训练后神经网络模型的网络参数,提高对神经网络模型的训练效率。
预训练广泛地应用于对文档图像的处理中。但是,目前,预训练所得到的预训练后神经网络模型都是专用的模型,只能应用于单一的业务上,比如,预训练后神经网络模型只能够应用于表格识别业务;又比如,预训练后神经网络模型只能够应用于文档排序业务;等等。
综上,目前存在预训练后神经网络模型存在通用性较差的问题。
发明内容
本申请实施例提供一种模型预训练方法、装置、计算机设备及存储介质,能够提高通过训练得到的目标文档图像预测模型的通用性。
一种模型训练方法,包括:
获取待处理文档图像,并对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域;
按照预设顺序对候选图像区域进行融合处理,以构建包含图像区域的目标文档图像;
确定目标文档图像中的每一图像区域对应的区域关系信息,并根据目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本;
根据模型训练任务和文档图像样本对文档图像预测模型进行训练,得到目标文档图像预测模型。
相应地,本申请实施例提供一种模型预训练装置,包括:
获取单元,可以用于获取待处理文档图像,并对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域;
融合单元,可以用于按照预设顺序对候选图像区域进行融合处理,以构建包含图像区域的目标文档图像;
生成单元,可以用于确定目标文档图像中的每一图像区域对应的区域关系信息,并根据目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本;
训练单元,可以用于根据模型训练任务和文档图像样本对文档图像预测模型进行训练,得到目标文档图像预测模型。
在一些实施例中,获取单元,具体可以用于确定目标文档图像中所需候选图像区域的区域数量;根据区域数量,确定待处理文档图像的区域分割位置;根据区域分割位置,对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域。
在一些实施例中,获取单元,具体可以用于获取待处理文档图像的尺寸大小;根据区域数量和尺寸大小,确定待处理文档图像的区域分割位置。
在一些实施例中,训练单元,具体可以用于通过文档图像预测模型根据模型训练任务,对文档图像样本进行预测,得到模型训练任务对应的预测数据;根据预测数据和文档图像样本,对文档图像预测模型进行训练,得到目标文档图像预测模型。
在一些实施例中,预测数据包括预测区域关系信息;训练单元,具体可以用于当模型训练任务为目标训练任务时,确定目标训练任务对应的每一训练子任务;根据每一训练子任务,利用文档图像预测模型对文档图像样本进行区域关系预测,得到每一训练子任务对应的预测区域关系信息。
在一些实施例中,文档图像样本携带标签,标签包括每一训练子任务对应的区域关系信息;训练单元,具体可以用于针对每一训练子任务,计算训练子任务对应的预测区域关系信息和训练子任务对应的区域关系信息之间的损失值,以得到每一训练子任务对应损失值;根据每一训练子任务对应损失值,对文档图像预测模型的模型参数进行收敛,得到目标文档图像预测模型。
在一些实施例中,生成单元,具体可以用于根据候选图像区域在待处理文档图像中的位置顺序,确定目标文档图像中的每一图像区域对应的排列顺序;根据排列顺序,确定每一图像区域对应的区域关系信息。
在一些实施例中,生成单元,具体可以用于按照排列顺序,从图像区域中筛选出目标图像区域;根据排列顺序在目标图像区域之前的图像区域,与目标图像区域之间的位置关系信息确定第一预设值;根据排列顺序在目标图像区域之后的图像区域,与目标图像区域之间的位置关系信息确定第二预设值;根据第一预设值和第二预设值,确定目标图像区域的区域关系信息,以得到每一图像区域对应的区域关系信息。
在一些实施例中,生成单元,具体可以用于对目标文档图像中的目标文字信息进行掩码处理,得到掩码后文档图像;根据目标文字信息和区域关系信息,对掩码后文档图像进行模型训练任务标注,得到模型训练任务对应的文档图像样本。
在一些实施例中,融合单元,具体可以用于确定不同候选图像区域之间的区域分隔距离;根据区域分隔距离,确定候选图像区域在目标文档图像中的目标位置;根据目标位置,按照预设顺序对候选图像区域进行合并处理,得到包含图像区域的目标文档图像。
此外,本申请实施例还提供一种计算机设备,包括存储器和处理器;存储器存储有计算机程序,处理器用于运行存储器内的计算机程序,以执行本申请实施例提供的任一种模型训练方法。
此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序适于处理器进行加载,以执行本申请实施例提供的任一种模型训练方法。
此外,本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本申请实施例所提供的任一种模型训练方法。
此外,本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本申请实施例所提供的任一种模型训练方法。
本申请实施例可以获取待处理文档图像,并对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域;按照预设顺序对候选图像区域进行融合处理,以构建包含图像区域的目标文档图像;确定目标文档图像中的每一图像区域对应的区域关系信息,并根据目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本;根据模型训练任务和文档图像样本对文档图像预测模型进行训练,得到目标文档图像预测模型;由于本申请实施例可以基于待处理文档图像的候选图像区域构建目标文档图像,如此可以基于目标文档图像中的每一图像区域对应的区域关系信息,以及目标文档图像,生成模型训练任务对应的文档图像样本,如此可以基于模型训练任务,对文档图像预测模型进行训练,以提高训练得到的目标文档图像预测模型的通用性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的模型预训练方法的场景示意图;
图2是本申请实施例提供的具有表格结构的文档图像样本的示意图;
图3是本申请实施例提供的重建的表格文档图像的示意图;
图4是本申请实施例提供的具有文本信息的文档图像样本的示意图;
图5是本申请实施例提供的具有阅读顺序信息的文档图像的示意图;
图6为本申请实施例提供的模型预训练方法的流程示意一图;
图7为本申请实施例提供的对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域的流程示意图;
图8为本申请实施例提供的模型预训练方法的流程示意二图;
图9为本申请实施例提供的模型预训练方法的流程示意三图;
图10为本申请实施例提供的待处理文档图像的示意图;
图11为本申请实施例提供的目标文档图像的示意一图;
图12为本申请实施例提供的目标文档图像的示意二图;
图13位本申请实施例提供的StrucTexT模型的示意图;
图14为本申请实施例提供的文档图像预测模型的示意图;
图15为本申请实施例提供的对目标文档图像预测模型进行微调的示意一图;
图16为本申请实施例提供的对目标文档图像预测模型进行微调的示意二图;
图17是本申请实施例提供的模型训练装置的结构示意图;
图18是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种模型预训练方法、装置、计算机设备和计算机可读存储介质。其中,该模型预训练装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
其中,本申请实施例涉及人工智能(Artificial Intelligence,AI),人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
例如,参见图1,以模型预训练装置集成在计算机设备中为例,计算机设备可以获取待处理文档图像,并对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域;按照预设顺序对候选图像区域进行融合处理,以构建包含图像区域的目标文档图像;确定目标文档图像中的每一图像区域对应的区域关系信息,并根据目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本;根据模型训练任务和文档图像样本对文档图像预测模型进行训练,得到目标文档图像预测模型。
其中,待处理文档图像可以是表格文字图像、可以是文字图像;等等。
其中,区域关系信息可以是指图像区域与目标文档图像中其他图像区域之间的关系的信息。区域关系信息还可以是指图像区域与待处理文档图像中候选图像区域之间的关系的信息。区域关系信息还可以是指图像区域中的子图像区域之间的关系信息;针对每一个图像区域,子图像区域之间的关系信息可以是指子图像区域与图像区域中其他子图像区域之间的关系的信息。
其中,模型训练任务可以包括至少一种模型训练任务,例如,模型训练任务可以包括表格结构识别训练任务、文档排序训练任务、文档分组训练任务。其中,具体来说,比如,表格结构识别训练任务可以为:如图2所示的具有表格结构的文档图像样本输入到文档图像预测模型中进行训练,使得训练得到的目标文档图像预测模型能够输出如图3所示重建的表格文档图像。又比如,文档排序训练任务可以为:将如图4所示的具有文本信息的文档图像样本输入到文档图像预测模型中进行训练,使得训练得到的目标文档图像预测模型能够输出如图5所示具有阅读顺序信息的文档图像,其中,图5中的序号1、2、3、4、5表示阅读顺序。
在本申请实施例中,为了提高训练得到的目标文档图像预测模型的通用性,本申请实施例可以采用至少一个模型训练任务对文档图像预测模型进行训练。当采用一个模型训练任务对文档图像预测模型进行训练时,本申请实施例可以是采用模型训练任务在现有相关的文档图像预测模型上进行训练,现有相关的文档图像预测模型为采用现有模型训练任务进行训练得到的模型;当采用至少两个模型训练任务对文档图像预测模型进行训练时,模型训练任务可以为并行训练的任务。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从模型预训练装置的角度进行描述,该模型预训练装置具体可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC,Personal Computer)、可穿戴设备、虚拟现实设备或其他可以获取数据的智能设备等设备。
如图6所示,该模型预训练方法的具体流程如步骤S101至步骤S104:
S101、获取待处理文档图像,并对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域。
其中,待处理文档图像可以为表格文字图像、也可以为文字图像。表格文字图像可以是指具有表格信息和文字信息的图像,文字图像可以是指具有文字信息的图像。
在一些申请实施例中,待处理文档图像可以为存储计算机设备数据库中的图像;待处理文档图像可以为存储于云端的图像;待处理图像还可以从线上实时获取到的图像。
在一些申请实施例中,如图7所示,对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域的方式具体可以如步骤A1至步骤A3:
A1、确定目标文档图像中所需候选图像区域的区域数量。
其中,本申请实施例可以预先确定目标文档图像的排版版式;根据排版版式,获取目标文档图像中所需候选图像区域的区域数量。例如,目标文档图像的排版版式为M×N的排版版式,M是指目标文档图像在长度方向上所需要的候选图像区域的数量为M,N是指目标文档图像在宽度方向上所需要的候选图像的数量为N,基于此当目标文档图像的排版版式为M×N的排版版式时,目标文档图像中所需候选图像区域的区域数量为M×N个。其中,M和N均为正整数。
A2、根据区域数量,确定待处理文档图像的区域分割位置。
在一些申请实施例中,根据区域数量,确定待处理文档图像的区域分割位置的方式可以为:获取待处理文档图像的尺寸大小;根据区域数量和尺寸大小,确定待处理文档图像的区域分割位置。
其中,本申请实施例可以以待处理文档图像左上角顶点为坐标原点建立坐标系,坐标系例如是直角坐标系xOy,x轴向右为正方向,y轴向下为正方向。待处理文档图像每个像素点在坐标系xOy上具有对应的坐标点。基于坐标系xOy中待处理文档图像的坐标,确定待处理文档图像的尺寸大小,其中,待处理文档图像的尺寸大小可以包括但不限于待处理文档的高度、宽度和面积中的至少一种。
在一些申请实施例中,根据区域数量和尺寸大小,确定待处理文档图像的区域分割位置的方式可以为:将区域数量和尺寸大小进行融合处理,得到融合后尺寸大小;根据融合后尺寸大小,在坐标系xOy中确定区域分割坐标;将区域分割坐标作为待处理文档图像的区域分割位置。
例如,区域数量为4,待处理文档图像的尺寸大小为面积大小,待处理文档图像的面积大小为20平方厘米,本申请实施例将待处理文档图像按照划分为4个区域,每个区域的面积大小为5平方厘米,也即融合后尺寸大小为5平方厘米。基于此,本申请实施例可以按照面积大小为5平方厘米的每个区域在坐标系xOy中的坐标,确定区域分割坐标;如此,可以将区域分割坐标作为待处理文档图像的区域分割位置。
在一些申请实施例中,根据区域数量和尺寸大小,确定待处理文档图像的区域分割位置的方式可以为:根据区域数量和尺寸大小,确定待处理文档图像的初始区域分割位置;根据初始区域分割位置,确定待处理文档图像的初始图像区域;根据初始图像区域中的文档信息对初始区域分割位置进行位置调整,得到调整后区域分割位置;将调整后区域分割位置作为待处理文档图像的区域分割位置。
其中,本申请实施例根据区域数量和尺寸大小,确定待处理文档图像的初始区域分割位置的方式可以为:将区域数量和尺寸大小进行融合处理,得到融合后尺寸大小;根据融合后尺寸大小,在坐标系xOy中确定初始区域分割坐标;将初始区域分割坐标作为待处理文档图像的初始区域分割位置。此处具体可参见上述“将区域数量和尺寸大小进行融合处理,得到融合后尺寸大小;根据融合后尺寸大小,在坐标系xOy中确定区域分割坐标;将区域分割坐标作为待处理文档图像的区域分割位置”的解释过程,此处不再赘述。
由于在本申请实施例中,待处理文档图像存在表格或文字或表格和文字等,因此需要对初始区域分割位置进行调整,避免在文字或表格处进行划分,导致文字或表格不完整。文档信息包括表格信息和文字信息中的至少一种。
基于上述,当文档信息包括表格信息时,本申请实施例可以对待处理文档图像的初始图像区域进行表格识别,得到表格信息。其中,本申请实施例可以采用表格识别神经网络模型对待处理文档图像的进行表格识别。
基于上述,当文档信息包括文字信息时,本申请实施例可以对待处理文档图像的初始图像区域进行文字识别,得到文字信息。其中,本申请实施例可以采用文字识别神经网络模型对待处理文档图像的进行文字识别。
基于上述,当文档信息包括文字信息和表格信息时,本申请实施例可以对待处理文档图像的初始图像区域进行文字识别,得到文字信息;再从初始图像区域中识别文字信息对应的表格信息。
其中,本申请实施例根据初始图像区域中的文档信息对初始区域分割位置进行位置调整,得到调整后区域分割位置的方式可以为:若在初始图像区域中的文档信息为不完整的文档信息,则将初始区域分割位置进行位置调整,以使不完整的文档信息完成,得到调整后区域分割位置。不完整的文档信息可以是指表格存在残缺或文字存在残缺,或表格和文字均存在残缺。
A3、根据区域分割位置,对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域。
S102、按照预设顺序对候选图像区域进行融合处理,以构建包含图像区域的目标文档图像。
其中,预设顺序可以是指候选图像区域在待处理文档图像的位置顺序,此处可以理解的是,候选图像区域在待处理文档图像的位置顺序可以代表待处理文档图像中候选图像区域的文档信息的阅读顺序。其中,预设顺序还可以是指目标文档图像的排版版式的位置顺序,此处可以理解的是,目标文档图像的排版版式的位置顺序代表了目标文档图像中图像区域的文档信息的阅读顺序。
在一些申请实施例中,按照预设顺序对候选图像区域进行融合处理,以构建包含图像区域的目标文档图像的方式可以为:确定不同候选图像区域之间的区域分隔距离;根据区域分隔距离,确定候选图像区域在目标文档图像中的目标位置;根据目标位置,按照预设顺序对候选图像区域进行合并处理,得到包含图像区域的目标文档图像。
其中,本申请实施例为了让候选图像区域在目标文档图像中的位置上的区分更明显,本申请实施例设置了区域分隔距离。区域分隔距离可以以像素点占据的长度表示。每个像素点在坐标系xOy均具有坐标,例如,n个像素点在坐标系xOy中占了n个坐标,n为自然数。
其中,图像区域可以与候选图像区域相同,图像区域也可以包括候选图像区域和区域分隔距离在目标文档图像上占据的范围。
在一些申请实施例中,根据区域分隔距离,确定候选图像区域在目标文档图像中的目标位置的方式可以为:本申请实施例可以基于上述的坐标系xOy,获取每一候选图像区域的原始坐标点;根据区域分隔距离中的像素点数量和候选图像区域的原始坐标点,计算候选图像区域的目标坐标点;根据目标坐标点,生成候选图像区域在目标文档图像中的目标位置。
在一些申请实施例中,对候选图像区域进行合并处理可以是将候选图像区域进行拼接处理。
在一些申请实施例中,按照预设顺序对候选图像区域进行融合处理,以构建包含图像区域的目标文档图像的方式可以为:按照预设顺序对候选图像区域进行拼接处理,得到包含图像区域的目标文档图像。
S103、确定目标文档图像中的每一图像区域对应的区域关系信息,并根据目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本。
在一些申请实施例中,确定目标文档图像中的每一图像区域对应的区域关系信息的方式可以为:根据候选图像区域在待处理文档图像中的位置顺序,确定目标文档图像中的每一图像区域对应的排列顺序;根据排列顺序,确定每一图像区域对应的区域关系信息。
其中,候选图像区域在待处理文档图像中的位置顺序与目标文档图像中的每一图像区域对应的排列顺序可以是一一对应的关系。例如,候选图像区域在待处理文档图像中的位置顺序依次是第一位置顺序、第二位置顺序和第三位置顺序。
在一些申请实施例中,根据排列顺序,确定每一图像区域对应的区域关系信息的方式可以为:按照排列顺序,从图像区域中筛选出目标图像区域;根据排列顺序在目标图像区域之前的图像区域,与目标图像区域之间的位置关系信息确定第一预设值;根据排列顺序在目标图像区域之后的图像区域,与目标图像区域之间的位置关系信息确定第二预设值;根据第一预设值和第二预设值,确定目标图像区域的区域关系信息,以得到每一图像区域对应的区域关系信息。
其中,本申请实施例按照排列顺序,依次从图像区域中筛选出目标图像区域。
其中,第一预设值可以为0,第二预设值可以为1。例如,图像区域包括第一图像区域、第二图像区域和第三图像区域,图像区域的排列顺序依次为:第一图像区域在第二图像区域之前,第二图像区域在第三图像区域之前。当第二图像区域为目标图像区域时,第一图像区域和第二图像区域之间的位置关系信息为0,第二图像区域和第三图像区域之间的位置关系为1。
在一些申请实施例中,根据目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本的方式可以为:对目标文档图像中的目标文字信息进行掩码处理,得到掩码后文档图像;根据目标文字信息和区域关系信息,对掩码后文档图像进行模型训练任务标注,得到模型训练任务对应的文档图像样本。
其中,模型训练任务可以包括文字识别训练任务和区域关系识别训练任务。文字识别训练任务可以是指通过训练,使得目标文档图像预测模型具有对文档图像中不清晰的文字信息进行识别的能力的任务。区域关系识别训练任务可以是指通过训练,使得目标文档图像预测模型具有对文档图像中的图像区域关系进行识别的能力的任务。
其中,文字识别训练任务的文档图像样本可以包括以目标文档图像中的目标文字信息为标签的文档图像样本;区域关系识别训练任务的文档图像样本可以包括以区域关系信息为标签的文档图像样本。
S104、根据模型训练任务和文档图像样本对文档图像预测模型进行训练,得到目标文档图像预测模型。
在一个申请实施例中,根据模型训练任务和文档图像样本对文档图像预测模型进行训练,得到目标文档图像预测模型的方式可以为:通过文档图像预测模型根据模型训练任务,对文档图像样本进行预测,得到模型训练任务对应的预测数据;根据预测数据和文档图像样本,对文档图像预测模型进行训练,得到目标文档图像预测模型。
基于上述,在一个申请实施例中,预测数据包括目标文档图像中的目标文字信息;通过文档图像预测模型根据模型训练任务,对文档图像样本进行预测,得到模型训练任务对应的预测数据的方式具体可以为:当模型训练任务不为目标训练任务,例如是文字识别训练任务时,通过文档图像预测模型对文档图像样本进行文字预测,得到文字识别训练任务对应的预测文字信息。
基于上述,在一个申请实施例中,预测数据包括预测区域关系信息;通过文档图像预测模型根据模型训练任务,对文档图像样本进行预测,得到模型训练任务对应的预测数据的方式具体可以为:当模型训练任务为目标训练任务时,确定目标训练任务对应的每一训练子任务;根据每一训练子任务,利用文档图像预测模型对文档图像样本进行区域关系预测,得到每一训练子任务对应的预测区域关系信息。
其中,训练子任务可以包括通过训练,使得目标文档图像预测模型具有对文档图像中图像区域的区域关系进行识别的能力的任务;训练子任务还可以包括通过训练,使得目标文档图像预测模型具有对文档图像中图像区域中的子图像区域的区域关系进行识别的能力的任务。
基于上述,在一个申请实施例中,针对于区域关系识别训练任务,文档图像样本携带标签,标签包括每一训练子任务对应的区域关系信息;根据预测数据和文档图像样本,对文档图像预测模型进行训练,得到目标文档图像预测模型的方式具体可以为:针对每一训练子任务,计算训练子任务对应的预测区域关系信息和训练子任务对应的区域关系信息之间的损失值,以得到每一训练子任务对应损失值;根据每一训练子任务对应损失值,对文档图像预测模型的模型参数进行收敛,得到目标文档图像预测模型。
其中,本申请实施例可以采用损失函数计算每一训练子任务对应损失值,损失函数可以为交叉熵损失函数,可以为平方损失函数;等等。
其中,根据每一训练子任务对应损失值,对文档图像预测模型的模型参数进行收敛,得到目标文档图像预测模型的方式可以为:将每一训练子任务对应损失值进行融合处理,得到第一融合后损失值;根据第一融合后损失值,对文档图像预测模型的模型参数进行收敛,得到目标文档图像预测模型。
其中,本申请实施例可以将每一训练子任务对应损失值进行相加,得到第一融合后损失值。
在本申请实施例中,所有模型训练任务可以是并行的训练任务。本申请实施例可以采用损失函数计算得到每一模型训练任务对应的损失值。然后对每一模型训练任务对应的损失值进行相加,得到相加后损失值;基于相加后损失值对文档图像预测模型的模型参数进行收敛,得到目标文档图像预测模型。
基于上述,例如,在一个申请实施例中,模型训练任务包括文字识别训练任务和区域关系识别训练任务,区域关系识别训练任务的损失值可以参见上述的描述,此处不再赘述。
针对文字识别训练任务,文档图像样本携带标签,标签包括目标文字信息;根据预测数据和文档图像样本,对文档图像预测模型进行训练,得到目标文档图像预测模型的方式具体可以为:计算文字识别训练任务对应的目标文字信息和预测文字信息之间的损失值。
基于上述,本申请实施例可以将目标文字信息和预测文字信息之间的损失值和上述的第一融合后损失值进行相加,得到目标相加后损失值;根据目标相加后损失值对文档图像预测模型的模型参数进行收敛,得到目标文档图像预测模型。
本申请实施例可以获取待处理文档图像,并对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域;按照预设顺序对候选图像区域进行融合处理,以构建包含图像区域的目标文档图像;确定目标文档图像中的每一图像区域对应的区域关系信息,并根据目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本;根据模型训练任务和文档图像样本对文档图像预测模型进行训练,得到目标文档图像预测模型;由于本申请实施例可以基于待处理文档图像的候选图像区域构建目标文档图像,如此可以基于目标文档图像中的每一图像区域对应的区域关系信息,以及目标文档图像,生成模型训练任务对应的文档图像样本,如此可以基于模型训练任务,对文档图像预测模型进行训练,以提高训练得到的目标文档图像预测模型的通用性。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该模型预训练装置具体集成在计算机设备,计算机设备为服务器,也可以为终端。
如图8所示,一种模型预训练方法,具体流程如步骤S201至S207所示:
首先大概说明本申请实施例的流程,如图9所示,本申请实施例可以获取大规模的待处理文档图像,此处参见步骤S201;基于待处理文档图像在线构造区域关系信息,此处可参见步骤S202至步骤S204,其中,区域关系信息可以是实时构建的信息;然后基于根据目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本,以对文档图像预测模型进行训练,模型训练任务包括文字识别训练任务和区域关系识别训练任务,此处可参见步骤S205至步骤S207。
S201、计算机设备获取待处理文档图像。
其中,待处理图像可以是从线上实时获取到的图像。
S202、计算机设备对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域。
本申请实施例对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域的方式具体可以为:确定目标文档图像中所需候选图像区域的区域数量;根据区域数量,确定待处理文档图像的区域分割位置;根据区域分割位置,对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域。
其中,本申请实施例可以预先确定目标文档图像的排版版式;根据排版版式,获取目标文档图像中所需候选图像区域的区域数量。
具体来说,如图10所示,本申请实施例的待处理文档图像可以为单栏文档图像,单栏文档图像可以是指待处理文档图像中的文档信息按照待处理文档图像的纵向从上到下依次排列的图像。例如,本申请实施例可以以待处理文档图像左上角顶点为坐标原点建立坐标系,坐标系例如是直角坐标系xOy,x轴向右为正方向,y轴向下为正方向。待处理文档图像每个像素点在坐标系xOy上具有对应的坐标点。待处理文档图像中的文档信息按照待处理文档图像的y轴方向从上到下依次排列,并且待处理文档图像在x轴方向上不存在两个以上区域中文档信息的阅读顺序不同。
本申请实施例目标文档图像中所需候选图像区域的区域数量可以为M×N个。基于此,本申请实施例可以将待处理文档图像分割为M×N个候选图像区域。
在一些申请实施例中,根据区域数量,确定待处理文档图像的区域分割位置的方式可以为:获取待处理文档图像的尺寸大小;根据区域数量和尺寸大小,确定待处理文档图像的区域分割位置。
其中,基于坐标系xOy中待处理文档图像的坐标,确定待处理文档图像的尺寸大小。其中,尺寸大小可以是指高度。在本申请实施例中,待处理文档图像的高度可以是以坐标系xOy中y轴方向的坐标为衡量的尺寸。
S203、计算机设备按照预设顺序对候选图像区域进行融合处理,以构建包含图像区域的目标文档图像。
在一些申请实施例中,按照预设顺序对候选图像区域进行融合处理,以构建包含图像区域的目标文档图像的方式可以为:确定不同候选图像区域之间的区域分隔距离;根据区域分隔距离,确定候选图像区域在目标文档图像中的目标位置;根据目标位置,按照预设顺序对候选图像区域进行合并处理,得到包含图像区域的目标文档图像。
其中,区域分隔距离可以以个像素点占据的长度进行表示。每个像素点在坐标系xOy均具有坐标,例如,n个像素点在坐标系xOy中占了n个坐标,n为自然数。例如,在本申请实施例中,以区域分隔距离包括n个像素点为例进行阐述。
在一些申请实施例中,根据区域分隔距离,确定候选图像区域在目标文档图像中的目标位置的方式可以为:本申请实施例可以基于上述的坐标系xOy,获取每一候选图像区域的原始坐标点;根据区域分隔距离中的像素点数量和候选图像区域的原始坐标点,计算候选图像区域的目标坐标点;根据目标坐标点,生成候选图像区域在目标文档图像中的目标位置。
其中,本申请实施例可以基于候选图像区域的原始坐标点确定候选图像区域的宽度和高度。其中,候选图像区域的高度为以坐标系xOy的y轴的坐标作衡量的尺寸,候选图像区域的宽度为以坐标系xOy的x轴的坐标作衡量的尺寸。
具体来说,本申请实施例可以目标文档图像的排版版式为2×2的排版版式,目标文档图像中所需候选图像区域的区域数量为2×2,基于此,本申请实施例可以按照待处理文档图像的高度,将待处理文档图像切分成4块候选图像区域,候选图像区域包括候选图像区域A、候选图像区域B、候选图像区域C、候选图像区域D。其中,本申请实施例可以将待处理文档图像切分成高度相同的4块候选图像区域;本申请实施例还可以将待处理文档图像切分成高度不同的4块候选图像区域;本申请实施例还可以将待处理文档图像切分成部分高度相同的候选图像区域和部分高度不同的候选图像区域,例如是两个高度相同的候选图像区域和两个高度不相同的候选图像区域。
本申请实施例可以以区域分隔距离包括n个像素点,也即本申请实施例在对候选图像区域进行融合处理时,在候选图像区域与候选图像区域之间插入n个像素点作为分隔。经过按照预设顺序对候选图像区域进行融合处理所构建的目标文档图像有两种阅读顺序的排版版式,第一种:如图11所示,以“之”字形作为阅读顺序的排版版式,其中,序号1、序号2、序号3、序号4代表了阅读顺序;第二种:如图12所示,以“N”字形作为阅读顺序的排版版式,其中,序号1、序号2、序号3、序号4代表了阅读顺序。
如图11所示,本申请实施例以按照第一种“之”字形作为阅读顺序的排版版式为例,其中,序号1对应的区域为候选图像区域A,序号2对应的区域为候选图像区域B,序号3对应的区域为候选图像区域C,序号4对应的区域为候选图像区域D。以候选图像区域的左上角顶点作为每一候选图像区域的起点坐标,经过计算可得到每一候选图像区域在目标文档图像中的起点坐标如下:
候选图像区域A的起点坐标为(n,n);候选图像区域B的起点坐标为(n+X候选图像区域A的宽度+n,n);候选图像区域C的起点坐标为(n,n+max(候选图像区域A的高度,候选图像区域B的高度)+n);候选图像区域D的起点坐标为(n+候选图像区域C的高度+n,n+max(候选图像区域A的高度,候选图像区域B的高度)+n)。
基于上述,本申请实施例可以计算得到每一候选图像区域在目标文档图像中的起点坐标,由此基于候选图像区域在目标文档图像中的起点坐标和候选图像区域在待处理文档图像中的原始起点坐标,可以得到候选图像区域在目标文档图像相比于候选图像区域在待处理文档图像中的坐标平移差值,如此基于坐标平移差值,可以得到候选图像区域在目标文档图像中对应的每一坐标点,从而构建包含多个图像区域的目标文档图像。其中,候选图像区域和图像区域可以是一一对应,且候选图像区域对应的图像区域可以是相同的。
S204、计算机设备确定目标文档图像中的每一图像区域对应的区域关系信息。
在一些申请实施例中,确定目标文档图像中的每一图像区域对应的区域关系信息的方式可以为:根据候选图像区域在待处理文档图像中的位置顺序,确定目标文档图像中的每一图像区域对应的排列顺序;根据排列顺序,确定每一图像区域对应的区域关系信息。
具体来说,基于上述构建包含多个图像区域的目标文档图像,本申请实施例即可得到目标文档图像中有序的图像区域,并根据候选图像区域在待处理文档图像中的位置顺序,给每个图像区域赋值排列顺序,例如候选图像区域A对应的图像区域的排列顺序为1,候选图像区域B对应的图像区域的排列顺序为2,候选图像区域C对应的图像区域的排列顺序为3,候选图像区域D对应的图像区域的排列顺序为4。
在一些申请实施例中,根据排列顺序,确定每一图像区域对应的区域关系信息的方式可以为:按照排列顺序,从图像区域中筛选出目标图像区域;根据排列顺序在目标图像区域之前的图像区域,与目标图像区域之间的位置关系信息确定第一预设值;根据排列顺序在目标图像区域之后的图像区域,与目标图像区域之间的位置关系信息确定第二预设值;根据第一预设值和第二预设值,确定目标图像区域的区域关系信息,以得到每一图像区域对应的区域关系信息。
基于上述,例如,由于候选图像区域A对应的图像区域的排列顺序为1,候选图像区域B对应的图像区域的排列顺序为2,候选图像区域C对应的图像区域的排列顺序为3,候选图像区域D对应的图像区域的排列顺序为4,基于此,当候选图像区域B对应的图像区域为目标图像区域时,候选图像区域B对应的图像区域和候选图像区域A对应的图像区域之间的位置关系为0;候选图像区域B对应的图像区域和候选图像区域C对应的图像区域之间的位置关系为1;候选图像区域B对应的图像区域和候选图像区域D对应的图像区域之间的位置关系为1。
当候选图像区域A对应的图像区域为目标图像区域时或当候选图像区域C对应的图像区域为目标图像区域时或当候选图像区域D对应的图像区域为目标图像区域时可参见上述,此处不再赘述。
基于上述,本申请实施例针对每一个目标图像区域,可以确定目标图像区域中的子图像区域;根据目标图像区域中的子图像区域的位置顺序,确定子图像区域在目标图像区域中的目标排列顺序;根据目标排序顺序确定每一子图像区域对应的区域关系信息。
其中,本申请实施例确定目标图像区域中的子图像区域的方式可以为:对目标图像区域进行文字识别,得到目标图像区域中的候选文字信息;根据候选文字信息,确定目标图像区域中的子图像区域。其中,本申请实施例可以将在目标图像区域中识别到的一行候选文字信息作为一个子图像区域,从而得到目标图像区域中的每一个图像区域。其中,本申请实施例的子图像区域如图12所示。
其中,本申请实施例根据目标图像区域中的子图像区域的位置顺序表示了子图像区域中文字信息的阅读顺序。本申请实施例的子图像区域的位置顺序,与子图像区域在目标图像区域中的目标排列顺序是一一对应的。
其中,本申请实施例根据目标排序顺序确定每一子图像区域对应的区域关系信息的方式可以为:按照目标排列顺序,从子图像区域中筛选出目标子图像区域;根据排列顺序在目标子图像区域之前的子图像区域,与目标子图像区域之间的位置关系信息确定第一预设值;根据排列顺序在目标子图像区域之后的子图像区域,与目标子图像区域之间的位置关系信息确定第二预设值;根据第一预设值和第二预设值,确定目标子图像区域的区域关系信息,以得到每一子图像区域对应的区域关系信息。
例如,子图像区域包括第一子图像区域、第二子图像区域和第三子图像区域,第一子图像区域的排列顺序为1,第二子图像区域的排列顺序为2,第三子图像区域的排列顺序为3,基于此,当第二子图像区域为目标子图像区域时,第二子图像区域和第一子图像区域之间的位置关系为0;第二子图像区域和第三子图像区域之间的位置关系为1。
其中,本申请实施例对图像区域划分为多个子图像区域,可以进一步提高目标文档图像的多样性,进一步提高训练数据的多样性。
S205、计算机设备根据目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本。
在一些申请实施例中,根据目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本的方式可以为:对目标文档图像中的目标文字信息进行掩码处理,得到掩码后文档图像;根据目标文字信息和区域关系信息,对掩码后文档图像进行模型训练任务标注,得到模型训练任务对应的文档图像样本。
在本申请实施例中,以模型训练任务包括文字识别训练任务和区域关系识别训练任务为例进行阐述,基于此,文字识别训练任务的文档图像样本可以包括以目标文档图像中的目标文字信息为标签的文档图像样本;区域关系识别训练任务的文档图像样本可以包括以区域关系信息为标签的文档图像样本。
其中,文档图像样本还可以包括在目标文档图像中识别出的文字信息。
其中,本申请实施例对目标文档图像中的目标文字信息进行掩码处理,得到掩码后文档图像的具体可以为:在目标文档图像中随机遮盖一定百分比的目标文字信息,例如,本申请实施例在目标文档图像中随机选择句子中15%的字符进行遮盖。对于前述句子中15%的字符,其中80%的字符被替换为掩码,10%的字符被替换为随机的其他字符,10%的字符保留原字符。
S206、计算机设备通过文档图像预测模型根据模型训练任务,对文档图像样本进行预测,得到模型训练任务对应的预测数据。
文档图像预测模型可以为自注意力神经网络模型,也可以为CNN神经网络模型,等等。本申请实施例以文档图像预测模型为StrucTexT模型为例进行解释。StrucTexT模型如图13所示,StrucTexT模型是一个自监督语言模型,StrucTexT模型可以在大规模语料上自监督的学习特征表示。StrucTexT模型的网络架构是一个多层双向Transformer编码器,StrucTexT模型具体包括:12层Transformer、768个隐层参数、12个注意力头、总参数量约110M。StrucTexT模型的输入可以是多种嵌入向量的融合,例如包括字符级别的文本嵌入向量和框级别的视觉嵌入向量。字符级别的文本嵌入向量可以是指文本信息的嵌入向量;框级别的视觉嵌入向量可以是指具有图像区域信息的嵌入向量,具体可以是指具有文本框信息的嵌入向量。
基于上述,当获取到文档图像样本时,StrucTexT模型可以通过光学字符(OCR)识别模块对文档图像样本进行识别,得到文本信息和文本信息对应的图像区域信息;通过StrucTexT模型的特征提取层分别对文本信息和图像区域信息进行特征提取,得到文本信息对应的文本嵌入向量和图像区域信息对应的视觉嵌入向量;然后采用StrucTexT模型的Transformer层对文本嵌入向量和视觉嵌入向量分别进行编码,得到文本嵌入向量对应的编码后文本特征和视觉嵌入向量对应的编码后视觉特征。本申请实施例可以基于编码后文本特征和编码后视觉特征进行预测;本申请实施例还可以基于编码后文本特征进行预测;本申请实施例还可以基于编码后视觉特征进行预测。
其中,当本申请实施例基于编码后文本特征和编码后视觉特征进行预测时,具体可以是对编码后文本特征和编码后视觉特征进行融合处理,得到融合后特征;接着,基于融合后特征,通过StrucTexT模型进行预测处理,得到预测结果。
在一个申请实施例中,模型训练任务包括文字识别训练任务和区域关系识别训练任务。
针对区域关系识别训练任务,预测数据包括预测区域关系信息;当模型训练任务为目标训练任务时,确定目标训练任务对应的每一训练子任务;根据每一训练子任务,利用文档图像预测模型对文档图像样本进行区域关系预测,得到每一训练子任务对应的预测区域关系信息。
此处要说明的是,区域关系识别训练任务可以覆盖至少两个训练子任务,例如,训练子任务包括第一训练子任务和第二训练子任务。第一训练子任务可以是指通过训练,使得目标文档图像预测模型具有对文档图像中图像区域的区域关系进行识别的能力的任务;第二训练子任务可以是指通过训练,使得目标文档图像预测模型具有对文档图像中图像区域中的子图像区域的区域关系进行识别的能力的任务。
具体来说,基于上述,本申请实施例进一步进行说明,本申请实施例将文档图像样本输入到文档图像预测模型中,如图14所示,通过文档图像预测模型的Transformer层对文档图像样本进行特征提取,得到第一训练子任务对应的图像区域的图像区域特征信息;通过图像区域关系预测层根据图像区域特征信息对图像区域进行预测,得到图像区域对应的预测区域关系信息。
其中,本申请实施例通过文档图像预测模型的Transformer层对文档图像样本进行特征提取之前,可以参见如图13中所述的采用光学字符(OCR)识别模块、特征提取层对文档图像样本进行处理的过程,此处不再赘述。图14中采用Transformer层对文档图像样本进行特征提取具体过程也可参见图13中所述Transformer层的处理过程,此处不再赘述。
其中,图像区域中子图像区域具有对应的子图像区域特征信息,基于此,通过子图像区域关系预测层根据子图像区域特征信息对子图像区域进行预测,得到子图像区域对应的预测区域关系信息。
此处需要说明的是,针对每一图像区域,本申请实施例可以将图像区域中所有子图像区域分别对应的子图像特征区域求平均值,得到图像区域对应的图像区域特征信息。
针对文字识别训练任务,预测数据包括目标文档图像中的目标文字信息;通过文档图像预测模型对文档图像样本进行文字预测,得到文字识别训练任务对应的预测文字信息。
S207、计算机设备根据预测数据和文档图像样本,对文档图像预测模型进行训练,得到目标文档图像预测模型。
针对于区域关系识别训练任务,文档图像样本携带标签,标签包括每一训练子任务对应的区域关系信息。针对每一训练子任务,计算训练子任务对应的预测区域关系信息和训练子任务对应的区域关系信息之间的损失值,以得到每一训练子任务对应损失值;将每一训练子任务对应损失值进行融合处理,得到第一融合后损失值。
针对文字识别训练任务,文档图像样本携带标签,标签包括目标文字信息;计算文字识别训练任务对应的目标文字信息和预测文字信息之间的损失值。
基于上述,将目标文字信息和预测文字信息之间的损失值和上述的第一融合后损失值进行相加,得到目标相加后损失值;根据目标相加后损失值对文档图像预测模型的模型参数进行收敛,得到目标文档图像预测模型。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本申请实施例可以获取待处理文档图像,并对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域;按照预设顺序对候选图像区域进行融合处理,以构建包含图像区域的目标文档图像;确定目标文档图像中的每一图像区域对应的区域关系信息,并根据目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本;根据模型训练任务和文档图像样本对文档图像预测模型进行训练,得到目标文档图像预测模型;由于本申请实施例可以基于待处理文档图像的候选图像区域构建目标文档图像,如此可以基于目标文档图像中的每一图像区域对应的区域关系信息,以及目标文档图像,生成模型训练任务对应的文档图像样本,如此可以基于模型训练任务,对文档图像预测模型进行训练,以提高训练得到的目标文档图像预测模型的通用性。
基于前述,如图15所示,本申请实施例可以对采用少量训练数据对目标文档图像预测模型进行微调,得到微调后文档图像预测模型。例如,以表格结构识别任务为例,输入的训练数据为表格图像样本和目标标签,表格图像样本包括对表格图像和在表格图像中识别出文字信息,标签包括表格图像的单元格关系信息,单元格关系信息具体可以是指单元格之间的关系是否同行或同列的信息。
其中,本申请实施例可以采用目标文档图像预测模型对表格图像样本进行预测,得到预测后单元格关系信息;根据预测后单元格关系信息和单元格关系信息对目标文档图像预测模型进行收敛,得到微调后文档图像预测模型。
例如,如图16所示,本申请实施例可以采用目标文档图像预测模型的Transformer层对表格图像样本进行特征提取,得到每一单元格对应的单元格特征信息。每一单元格对应的特征信息如图16中的B1、B2、B3、B4、B5......所示。基于单元格特征信息,采用目标文档图像预测模型的预测层进行预测,得到预测后单元格关系信息,例如,图16中,B3对应的单元格为“张二”对应的单元格,B5对应的单元格为“项目二”对应的单元格,B6对应的单元格为“项目五”对应的单元格。经过预测,可得B3和B5的预测后单元格关系信息为同行关系信息,B5和B6的预测后单元格关系信息为同列关系信息。
其中,本申请实施例可以采用交叉熵损失函数计算预测后单元格关系信息和单元格关系信息之间的损失值;根据预测后单元格关系信息和单元格关系信息之间的损失值对目标文档图像预测模型进行收敛,得到微调后文档图像预测模型。
为了更好地实施以上方法,本申请实施例还提供一种模型预训练装置,该模型预训练装置可以集成在计算机设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图17所示,该模型预训练装置可以包括获取单元301、融合单元302、生成单元303和训练单元304,如下:
(1)获取单元301;
获取单元301,可以用于获取待处理文档图像,并对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域。
在一些申请实施例中,获取单元301,具体可以用于确定目标文档图像中所需候选图像区域的区域数量;根据区域数量,确定待处理文档图像的区域分割位置;根据区域分割位置,对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域。
在一些申请实施例中,获取单元301,具体可以用于获取待处理文档图像的尺寸大小;根据区域数量和尺寸大小,确定待处理文档图像的区域分割位置。
(2)融合单元302;
融合单元302,可以用于按照预设顺序对候选图像区域进行融合处理,以构建包含图像区域的目标文档图像。
在一些申请实施例中,融合单元302,具体可以用于确定不同候选图像区域之间的区域分隔距离;根据区域分隔距离,确定候选图像区域在目标文档图像中的目标位置;根据目标位置,按照预设顺序对候选图像区域进行合并处理,得到包含图像区域的目标文档图像。
(3)生成单元303;
生成单元303,可以用于确定目标文档图像中的每一图像区域对应的区域关系信息,并根据目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本。
在一些申请实施例中,生成单元303,具体可以用于根据候选图像区域在待处理文档图像中的位置顺序,确定目标文档图像中的每一图像区域对应的排列顺序;根据排列顺序,确定每一图像区域对应的区域关系信息。
在一些申请实施例中,生成单元303,具体可以用于按照排列顺序,从图像区域中筛选出目标图像区域;根据排列顺序在目标图像区域之前的图像区域,与目标图像区域之间的位置关系信息确定第一预设值;根据排列顺序在目标图像区域之后的图像区域,与目标图像区域之间的位置关系信息确定第二预设值;根据第一预设值和第二预设值,确定目标图像区域的区域关系信息,以得到每一图像区域对应的区域关系信息。
在一些申请实施例中,生成单元303,具体可以用于对目标文档图像中的目标文字信息进行掩码处理,得到掩码后文档图像;根据目标文字信息和区域关系信息,对掩码后文档图像进行模型训练任务标注,得到模型训练任务对应的文档图像样本。
(4)训练单元304;
训练单元304,可以用于根据模型训练任务和文档图像样本对文档图像预测模型进行训练,得到目标文档图像预测模型。
在一些申请实施例中,训练单元304,具体可以用于通过文档图像预测模型根据模型训练任务,对文档图像样本进行预测,得到模型训练任务对应的预测数据;根据预测数据和文档图像样本,对文档图像预测模型进行训练,得到目标文档图像预测模型。
在一些申请实施例中,预测数据包括预测区域关系信息;训练单元304,具体可以用于当模型训练任务为目标训练任务时,确定目标训练任务对应的每一训练子任务;根据每一训练子任务,利用文档图像预测模型对文档图像样本进行区域关系预测,得到每一训练子任务对应的预测区域关系信息。
在一些申请实施例中,文档图像样本携带标签,标签包括每一训练子任务对应的区域关系信息;训练单元304,具体可以用于针对每一训练子任务,计算训练子任务对应的预测区域关系信息和训练子任务对应的区域关系信息之间的损失值,以得到每一训练子任务对应损失值;根据每一训练子任务对应损失值,对文档图像预测模型的模型参数进行收敛,得到目标文档图像预测模型。
由上可知,本申请实施例的获取单元301可以用于获取待处理文档图像,并对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域;融合单元302可以用于按照预设顺序对候选图像区域进行融合处理,以构建包含图像区域的目标文档图像;生成单元303可以用于确定目标文档图像中的每一图像区域对应的区域关系信息,并根据目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本;训练单元304可以用于根据模型训练任务和文档图像样本对文档图像预测模型进行训练,得到目标文档图像预测模型;由于本申请实施例可以基于待处理文档图像的候选图像区域构建目标文档图像,如此可以基于目标文档图像中的每一图像区域对应的区域关系信息,以及目标文档图像,生成模型训练任务对应的文档图像样本,如此可以基于模型训练任务,对文档图像预测模型进行训练,以提高训练得到的目标文档图像预测模型的通用性。
本申请实施例还提供一种计算机设备,如图18所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图18中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和计算机程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息通讯,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的计算机程序,从而实现各种功能,如下:
获取待处理文档图像,并对待处理文档图像进行区域分割处理,得到待处理文档图像对应的若干候选图像区域;按照预设顺序对候选图像区域进行融合处理,以构建包含图像区域的目标文档图像;确定目标文档图像中的每一图像区域对应的区域关系信息,并根据目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本;根据模型训练任务和文档图像样本对文档图像预测模型进行训练,得到目标文档图像预测模型。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种模型预训练方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种模型预训练方法中的步骤,因此,可以实现本申请实施例所提供的任一种模型预训练方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种模型预训练方法、计算机设备、计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (14)
1.一种模型训练方法,其特征在于,包括:
获取待处理文档图像,并对所述待处理文档图像进行区域分割处理,得到所述待处理文档图像对应的若干候选图像区域;
按照预设顺序对所述候选图像区域进行融合处理,以构建包含图像区域的目标文档图像;
确定所述目标文档图像中的每一图像区域对应的区域关系信息,并根据所述目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本;
根据所述模型训练任务和所述文档图像样本对文档图像预测模型进行训练,得到目标文档图像预测模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述对所述待处理文档图像进行区域分割处理,得到所述待处理文档图像对应的若干候选图像区域,包括:
确定所述目标文档图像中所需候选图像区域的区域数量;
根据所述区域数量,确定所述待处理文档图像的区域分割位置;
根据所述区域分割位置,对所述待处理文档图像进行区域分割处理,得到所述待处理文档图像对应的若干候选图像区域。
3.根据权利要求2所述的模型训练方法,其特征在于,所述根据所述区域数量,确定所述待处理文档图像的区域分割位置,包括:
获取所述待处理文档图像的尺寸大小;
根据所述区域数量和所述尺寸大小,确定所述待处理文档图像的区域分割位置。
4.根据权利要求1所述的模型训练方法,其特征在于,所述根据所述模型训练任务和所述文档图像样本对文档图像预测模型进行训练,得到目标文档图像预测模型,包括:
通过所述文档图像预测模型根据所述模型训练任务,对所述文档图像样本进行预测,得到所述模型训练任务对应的预测数据;
根据所述预测数据和所述文档图像样本,对所述文档图像预测模型进行训练,得到目标文档图像预测模型。
5.根据权利要求4所述的模型训练方法,其特征在于,所述预测数据包括预测区域关系信息;所述通过所述文档图像预测模型根据所述模型训练任务,对所述文档图像样本进行预测,得到所述模型训练任务对应的预测数据,包括:
当所述模型训练任务为目标训练任务时,确定所述目标训练任务对应的每一训练子任务;
根据每一训练子任务,利用文档图像预测模型对所述文档图像样本进行区域关系预测,得到每一训练子任务对应的预测区域关系信息。
6.根据权利要求4所述的模型训练方法,其特征在于,所述文档图像样本携带标签,所述标签包括每一训练子任务对应的区域关系信息;所述根据所述预测数据和所述文档图像样本,对所述文档图像预测模型进行训练,得到目标文档图像预测模型,包括:
针对每一训练子任务,计算所述训练子任务对应的预测区域关系信息和所述训练子任务对应的区域关系信息之间的损失值,以得到每一训练子任务对应损失值;
根据每一训练子任务对应损失值,对所述文档图像预测模型的模型参数进行收敛,得到目标文档图像预测模型。
7.根据权利要求1所述的模型训练方法,其特征在于,所述确定所述目标文档图像中的每一图像区域对应的区域关系信息,包括:
根据所述候选图像区域在所述待处理文档图像中的位置顺序,确定所述目标文档图像中的每一图像区域对应的排列顺序;
根据所述排列顺序,确定每一图像区域对应的区域关系信息。
8.根据权利要求7所述的模型训练方法,其特征在于,所述根据所述排列顺序,确定每一图像区域对应的区域关系信息,包括:
按照排列顺序,从所述图像区域中筛选出目标图像区域;
根据排列顺序在所述目标图像区域之前的图像区域,与所述目标图像区域之间的位置关系信息确定第一预设值;
根据排列顺序在所述目标图像区域之后的图像区域,与所述目标图像区域之间的位置关系信息确定第二预设值;
根据所述第一预设值和所述第二预设值,确定所述目标图像区域的区域关系信息,以得到每一图像区域对应的区域关系信息。
9.根据权利要求1所述的模型训练方法,其特征在于,所述根据所述目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本,包括:
对所述目标文档图像中的目标文字信息进行掩码处理,得到掩码后文档图像;
根据所述目标文字信息和所述区域关系信息,对所述掩码后文档图像进行模型训练任务标注,得到模型训练任务对应的文档图像样本。
10.根据权利要求1所述的模型训练方法,其特征在于,所述按照预设顺序对所述候选图像区域进行融合处理,以构建包含图像区域的目标文档图像,包括:
确定不同所述候选图像区域之间的区域分隔距离;
根据所述区域分隔距离,确定所述候选图像区域在所述目标文档图像中的目标位置;
根据所述目标位置,按照预设顺序对所述候选图像区域进行合并处理,得到包含图像区域的目标文档图像。
11.一种模型训练装置,其特征在于,包括:
获取单元,用于获取待处理文档图像,并对所述待处理文档图像进行区域分割处理,得到所述待处理文档图像对应的若干候选图像区域;
融合单元,用于按照预设顺序对所述候选图像区域进行融合处理,以构建包含图像区域的目标文档图像;
生产单元,用于确定所述目标文档图像中的每一图像区域对应的区域关系信息,并根据所述目标文档图像和区域关系信息,生成模型训练任务对应的文档图像样本;
训练单元,用于根据所述模型训练任务和所述文档图像样本对文档图像预测模型进行训练,得到目标文档图像预测模型。
12.一种计算机设备,其特征在于,包括存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行权利要求1至10任一项所述的模型训练方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行权利要求1至10任一项所述的模型训练方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品存储有计算机程序,所述计算机程序适于处理器进行加载,以执行权利要求1至10任一项所述的模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210949463.7A CN115294577A (zh) | 2022-08-09 | 2022-08-09 | 一种模型训练方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210949463.7A CN115294577A (zh) | 2022-08-09 | 2022-08-09 | 一种模型训练方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115294577A true CN115294577A (zh) | 2022-11-04 |
Family
ID=83828073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210949463.7A Pending CN115294577A (zh) | 2022-08-09 | 2022-08-09 | 一种模型训练方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115294577A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862036A (zh) * | 2022-12-14 | 2023-03-28 | 北京瑞莱智慧科技有限公司 | 信息干扰模型训练方法、信息干扰方法、相关装置及介质 |
-
2022
- 2022-08-09 CN CN202210949463.7A patent/CN115294577A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862036A (zh) * | 2022-12-14 | 2023-03-28 | 北京瑞莱智慧科技有限公司 | 信息干扰模型训练方法、信息干扰方法、相关装置及介质 |
CN115862036B (zh) * | 2022-12-14 | 2024-02-23 | 北京瑞莱智慧科技有限公司 | 信息干扰模型训练方法、信息干扰方法、相关装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382717B (zh) | 一种表格识别方法、装置和计算机可读存储介质 | |
CN114155543B (zh) | 神经网络训练方法、文档图像理解方法、装置和设备 | |
JP2023541532A (ja) | テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN111709497B (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
CN112686223B (zh) | 一种表格识别方法、装置和计算机可读存储介质 | |
US11455502B2 (en) | Learning device, classification device, learning method, classification method, learning program, and classification program | |
CN108334805B (zh) | 检测文档阅读顺序的方法和装置 | |
CN112163577B (zh) | 游戏画面中的文字识别方法、装置、电子设备和存储介质 | |
CN112966088B (zh) | 未知意图的识别方法、装置、设备及存储介质 | |
CN115393872B (zh) | 一种训练文本分类模型的方法、装置、设备及存储介质 | |
CN112149642A (zh) | 一种文本图像识别方法和装置 | |
JPWO2020240808A1 (ja) | 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム | |
CN115131849A (zh) | 图像生成方法以及相关设备 | |
CN115294577A (zh) | 一种模型训练方法、装置、计算机设备及存储介质 | |
CN114821590A (zh) | 文档信息提取方法、装置、设备及介质 | |
CN114821599A (zh) | 识别电学绘图中特征图元的方法 | |
CN114399775A (zh) | 文档标题生成方法、装置、设备及存储介质 | |
CN113821663A (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
CN113569068A (zh) | 描述内容生成方法、视觉内容的编码、解码方法、装置 | |
CN113591433A (zh) | 一种文本排版方法、装置、存储介质及计算机设备 | |
CN115809325B (zh) | 文档处理模型训练方法、文档处理方法、装置及设备 | |
JP7390442B2 (ja) | 文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラム | |
CN115690816A (zh) | 一种文本要素提取方法、装置、设备和介质 | |
CN115294594A (zh) | 文档分析方法、装置、设备及存储介质 | |
CN114328679A (zh) | 图像处理方法、装置、计算机设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |