CN117011866A - 合同图像的分割方法、装置及电子设备 - Google Patents

合同图像的分割方法、装置及电子设备 Download PDF

Info

Publication number
CN117011866A
CN117011866A CN202310993075.3A CN202310993075A CN117011866A CN 117011866 A CN117011866 A CN 117011866A CN 202310993075 A CN202310993075 A CN 202310993075A CN 117011866 A CN117011866 A CN 117011866A
Authority
CN
China
Prior art keywords
image
contract
training
model
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310993075.3A
Other languages
English (en)
Inventor
苏沁宁
吕有才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202310993075.3A priority Critical patent/CN117011866A/zh
Publication of CN117011866A publication Critical patent/CN117011866A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Technology Law (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Character Input (AREA)

Abstract

本申请提供了一种合同图像的分割方法、装置及电子设备,方法包括:响应针对目标合同图像的分割功能触发操作,通过预先训练好的合同文本切割模型对目标合同图像进行识别分割,得到目标合同图像对应的合同文本分割图像;其中,合同文本切割模型为通过合同训练样本集对SAM预训练模型进行训练得到;将合同文本分割图像进行显示。本申请能够响应目标合同图像的分割触发操作,通过基于SAM预训练模型训练的合同文本切割模型,对目标合同图像进行识别分割,快速得到准确分割的合同文本分割图像,提高业务工作效率。

Description

合同图像的分割方法、装置及电子设备
技术领域
本申请涉及金融技术领域,尤其是涉及一种合同图像的分割方法、装置及电子设备。
背景技术
合同是金融行业的一种重要文本材料。无论是网点业务员,亦或是中后台业务经理,日常工作少不了与合同接触。有些工作需要对合同部分内容进行对比,有些工作需要对合同部分内容进行沟通。对于传统做法,会使用截图来完成,但截图往往难以应对不规则的文本内容。虽然photoshop也能进行抠图,但是难以对大量数据操作。上述方法存在人工参与度高,无法批量处理导致的效率低的问题。
发明内容
本申请的目的在于提供一种合同图像的分割方法、装置及电子设备,能够响应目标合同图像的分割触发操作,通过基于SAM预训练模型训练的合同文本切割模型,对目标合同图像进行识别分割,快速得到准确分割的合同文本分割图像,提高业务工作效率。
第一方面,本申请提供一种合同图像的分割方法,方法包括:响应针对目标合同图像的分割功能触发操作,通过预先训练好的合同文本切割模型对目标合同图像进行识别分割,得到目标合同图像对应的合同文本分割图像;其中,合同文本切割模型为通过合同训练样本集对SAM预训练模型进行训练得到;将合同文本分割图像进行显示。
在本申请较佳的实施方式中,上述分割功能触发操作包括:对目标合同图像的前景点或背景点的点击操作;合同文本分割图像包括:前景点或背景点所在区域的图像。
在本申请较佳的实施方式中,上述合同文本切割模型的训练过程如下:获取合同训练样本集;样本集中的样本包括标注有像素点类别标签的合同图像;基于合同训练样本集中的样本,对SAM预训练模型进行多层次训练,得到合同文本切割模型。
在本申请较佳的实施方式中,上述SAM预训练模型包括:图像编码层、提示编码层和掩码解码层;基于合同训练样本集中的样本,对SAM预训练模型进行多层次训练,得到合同文本切割模型的步骤,包括:固定提示编码层和图像编码层,以及掩码解码层中的浅层网络,应用合同训练样本集中的样本进行第一次训练,直到模型损失值收敛;固定提示编码层和图像编码层,以及掩码解码层中的深层网络,应用合同训练样本集中的样本进行第二次训练,直到模型损失值收敛;固定提示编码层和图像编码层,应用合同训练样本集中的样本进行第三次训练,直到模型损失值收敛,得到合同文本切割模型。
在本申请较佳的实施方式中,上述模型训练过程中,模型损失值为CELoss损失函数值与DiceLoss损失函数值之和。
在本申请较佳的实施方式中,上述通过预先训练好的合同文本切割模型对目标合同图像进行识别分割,得到目标合同图像对应的合同文本分割图像的步骤,包括:通过图像编码层对目标合同图像进行图像编码处理,得到图像编码信息;通过提示编码层对目标合同图像中的稀疏信息进行提示编码处理,得到prompt编码信息;稀疏信息包括:点坐标、框坐标和文本;通过掩码解码层对图像编码信息和prompt编码信息进行解码处理,得到目标合同图像对应的合同文本分割图像。
在本申请较佳的实施方式中,上述掩码解码层包括:自注意力机制模块、三个交叉注意力机构和两个MLP;通过掩码解码层对图像编码信息和prompt编码信息进行解码处理,得到目标合同图像对应的合同文本分割图像的步骤,包括:通过自注意力机制模块,提取prompt编码信息中的prompt特征;将prompt特征作为query,将图像编码信息作为key和value,通过第一交叉注意力机构抽取浅层图像特征;通过第一层MLP对浅层图像特征进行处理,得到输出标签;将图像编码信息作为query,将输出标签作为key和value,通过第二交叉注意力机构抽取深层图像特征;通过第二交叉注意力机构和第二MLP对深层图像特征进行处理,得到掩码;对深层图像特征进行二次反卷积处理后,与掩码进行逐点相乘,得到目标合同图像对应的合同文本分割图像。
第二方面,本申请还提供一种合同图像的分割装置,装置包括:模型分割模块,用于响应针对目标合同图像的分割功能触发操作,通过预先训练好的合同文本切割模型对目标合同图像进行识别分割,得到目标合同图像对应的合同文本分割图像;其中,合同文本切割模型为通过合同训练样本集对SAM预训练模型进行训练得到;图像显示模块,用于将合同文本分割图像进行显示。
第三方面,本申请还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面所述的方法。
第四方面,本申请还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述第一方面所述的方法。
本申请提供的合同图像的分割方法、装置及电子设备中,响应针对目标合同图像的分割功能触发操作,通过预先训练好的合同文本切割模型对目标合同图像进行识别分割,得到目标合同图像对应的合同文本分割图像;其中,合同文本切割模型为通过合同训练样本集对SAM预训练模型进行训练得到;将合同文本分割图像进行显示。本申请能够响应目标合同图像的分割触发操作,通过基于SAM预训练模型训练的合同文本切割模型,对目标合同图像进行识别分割,快速得到准确分割的合同文本分割图像,提高业务工作效率。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种合同图像的分割方法的流程图;
图2为本申请实施例提供的一种模型结构的示意图;
图3为本申请实施例提供的一种模型训练过程的流程图;
图4为本申请实施例提供的一种合同图像的分割装置的结构框图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合实施例对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前金融行业中,有些工作需要对合同部分内容进行对比,有些工作需要对合同部分内容进行沟通。传统的做法是通过使用截图来截取需要的合同文本内容,但截图往往难以应对不规则的文本内容。虽然photoshop也能进行抠图,但是难以对大量数据操作。
基于此,本申请实施例提供一种合同图像的分割方法、装置及电子设备,能够响应目标合同图像的分割触发操作,通过基于SAM预训练模型训练的合同文本切割模型,对目标合同图像进行识别分割,快速得到准确分割的合同文本分割图像,提高业务工作效率。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种合同图像的分割方法进行详细介绍。
图1为本申请实施例提供的一种合同图像的分割方法的流程图,该方法具体包括以下步骤:
步骤S102,响应针对目标合同图像的分割功能触发操作,通过预先训练好的合同文本切割模型对目标合同图像进行识别分割,得到目标合同图像对应的合同文本分割图像;其中,合同文本切割模型为通过合同训练样本集对SAM预训练模型进行训练得到。
上述分割功能触发操作可以包括:对目标合同图像的前景点或背景点的点击操作。上述SAM预训练模型为Segment anything模型,通过合同训练样本集对SAM预训练模型进行训练,使得其更符合合同文本场景下的切图使用。合同训练样本集包括标注有像素点类别标签的合同图像。具体的训练方式为,多层次训练,每次固定模型结构中的一部分,然后通过训练样本集中的样本对模型进行训练,直接模型损失收敛。
步骤S104,将合同文本分割图像进行显示。
通过合同图像分割模型对目标合同图像进行切割后,将得到的合同文本分割图像进行显示。这里的合同文本分割图像可以包括:前景点或背景点所在区域的图像。
本申请实施例提供的合同图像的分割方法,能够响应目标合同图像的分割触发操作,通过基于SAM预训练模型训练的合同文本切割模型,对目标合同图像进行识别分割,快速得到准确分割的合同文本分割图像,提高业务工作效率。
本申请实施例还提供另一种合同图像的分割方法,该方法在上述实施例的基础上实现;本实施例重点描述模型训练过程及应用过程。
在本申请较佳的实施方式中,上述合同文本切割模型的训练过程如下:
(1)获取合同训练样本集;样本集中的样本包括标注有像素点类别标签的合同图像;具体实施时,可以收集少量各类合同文本数据,根据条款,表格,清单,签署区域对图像实现人工打标。
(2)基于合同训练样本集中的样本,对SAM预训练模型进行多层次训练,得到合同文本切割模型。
参见图2所示,上述SAM预训练模型包括:图像编码层、提示编码层和掩码解码层;其中,图像编码层,主要由自注意力层,全连接层,池化层和层归一化组成。自注意力层,全连接层,层归一化和短连接层组成特征提取子模块,在数个子模块累加后形成单模块,再由若干个模块构成图像编码层。最后连接上用于对齐的1x1卷积层,则得到最终的图像编码层。
提示编码层按照类型分为,前景/背景点prompt层,框prompt层和文本prompt层。点和框prompt层相同,通过embedding方法将点映射成位置向量,然后再通过加上可学习的位置变量embeding(neg,postive,和框的位置坐标各自独立)。文本的prompt层则可以直接采用CLIP的文本编码分支进行使用,并添加一层全连接层实现对编码的对齐。
掩码解码层,需要对图像和prompt同时处理,首先构建一个自注意力机制模块,对prompt特征实现抽取,然后将输出作为query,图像作为key和value,通过交叉注意力机制,实现对图像特征的抽取。经过一层MLP后,得到output token。再以图像为query,outputtoken为key和value,得到image token。通过最后一层的交叉注意力层和全连接层,形成掩码mask。对image token做2次反卷积后,与掩码mask按照逐点相乘来得到最终的分割结果。
参见图3所示,基于合同训练样本集中的样本,对SAM预训练模型进行多层次训练,得到合同文本切割模型的步骤,包括:
步骤S302,固定提示编码层和图像编码层,以及掩码解码层中的浅层网络,应用合同训练样本集中的样本进行第一次训练,直到模型损失值收敛。
掩码解码层中包括两层网络;上述浅层网络指的是第一层网络。具体实施时,可以导入Meta训练好的预训练参数,固定提示编码层和图像编码层,以及掩码解码层的浅层网络,利用CELoss损失函数和DiceLoss损失函数,Adam优化器,设置学习率为1e-5,训练模型,直到loss收敛为止。
步骤S304,固定提示编码层和图像编码层,以及掩码解码层中的深层网络,应用合同训练样本集中的样本进行第二次训练,直到模型损失值收敛。
上述深层网络指的是第二层网络。具体实施时,可以利用CELoss损失函数和DiceLoss损失函数,Adam优化器,设置学习率为1e-6,训练模型,直到loss收敛为止。
步骤S306,固定提示编码层和图像编码层,应用合同训练样本集中的样本进行第三次训练,直到模型损失值收敛,得到合同文本切割模型。
具体的,将前述掩码mask,同时与浅层和深层输出的Image token做点乘,并均计算与真实mask的CELoss损失函数值和DiceLoss损失函数值,采用SGD优化器,设置学习率为1e-6,训练模型,直到loss收敛。
可见,本申请实施例在上述模型训练过程中,模型损失值为CELoss损失函数值与DiceLoss损失函数值之和。
在训练好模型之后,可以进行模型部署,通过前端交互页面提供给业务人员使用,具体步骤如下:
(1)对训练好的合同图像分割模型,根据规范,打包后,传输给云端,实现模型部署。
(2)使用者通过在远端登录网页,可以直接对全图切图,保存相要的小图;比如,在网页中加载一个合同图像,然后代码就会自动返回识别到的切图,也就是合同文本分割图像。亦可以根据简单的输入前景点和背景点,模型就能提取并输出文本中相应的区域,比如,一张合同图像中,包括非合同内容桌面,通过算法,就能提取到纯合同图像,背景桌子就会过滤掉。
(3)使用者根据模型回传的结果,加入少量坐标点,得到理想切图,即可保存本地。在用户交流,部分图框匹配和对比等场景使用,实现快速扣取文本内容的功能。
上述通过预先训练好的合同文本切割模型对目标合同图像进行识别分割,得到目标合同图像对应的合同文本分割图像的步骤,包括:
(1)通过图像编码层对目标合同图像进行图像编码处理,得到图像编码信息;
(2)通过提示编码层对目标合同图像中的稀疏信息进行提示编码处理,得到prompt编码信息;稀疏信息包括:点坐标、框坐标和文本;
(3)通过掩码解码层对图像编码信息和prompt编码信息进行解码处理,得到目标合同图像对应的合同文本分割图像。
具体实施时,上述掩码解码层包括:自注意力机制模块、三个交叉注意力机构和两个MLP;首先通过自注意力机制模块,提取prompt编码信息中的prompt特征;将prompt特征作为query,将图像编码信息作为key和value,通过第一交叉注意力机构抽取浅层图像特征;通过第一层MLP对浅层图像特征进行处理,得到输出标签;将图像编码信息作为query,将输出标签作为key和value,通过第二交叉注意力机构抽取深层图像特征;通过第二交叉注意力机构和第二MLP对深层图像特征进行处理,得到掩码;对深层图像特征进行二次反卷积处理后,与掩码进行逐点相乘,得到目标合同图像对应的合同文本分割图像。
本申请实施例提供的合同图像的分割方法,是在大数据预训练模型基础上进行微调,也就是采用合同训练样本集进行模型训练,合同分割准确率得到进一步的保证。其次,本实施例中采用的微调不需要过多的修改代码,能够快速完成模型能力的拓展。当然,本实施例具有一定的拓展性,可以用在其它图像场景中,实现定制化的分割增强。最后也是最重要的是,本申请实施例提供的方法,能够服务于金融业务场景,通过简单的点击,即可完成对合同文本相关内容的切图提取,不仅能够适合相关合同对比的场景,也可以方便对于文本内指定内容的交流和沟通,进一步将技术能力转化成日常工作中的动力,极大方便业务的开展,高效推动业务的进程。
基于上述方法实施例,本申请实施例还提供一种合同图像的分割装置,参见图4所示,该装置包括:
模型分割模块42,用于响应针对目标合同图像的分割功能触发操作,通过预先训练好的合同文本切割模型对目标合同图像进行识别分割,得到目标合同图像对应的合同文本分割图像;其中,合同文本切割模型为通过合同训练样本集对SAM预训练模型进行训练得到;图像显示模块44,用于将合同文本分割图像进行显示。
在本申请较佳的实施方式中,上述分割功能触发操作包括:对目标合同图像的前景点或背景点的点击操作;合同文本分割图像包括:前景点或背景点所在区域的图像。
在本申请较佳的实施方式中,上述装置还包括:模型训练模块,用于执行以下合同文本切割模型的训练过程:获取合同训练样本集;样本集中的样本包括标注有像素点类别标签的合同图像;基于合同训练样本集中的样本,对SAM预训练模型进行多层次训练,得到合同文本切割模型。
在本申请较佳的实施方式中,上述SAM预训练模型包括:图像编码层、提示编码层和掩码解码层;模型训练模块,用于固定提示编码层和图像编码层,以及掩码解码层中的浅层网络,应用合同训练样本集中的样本进行第一次训练,直到模型损失值收敛;固定提示编码层和图像编码层,以及掩码解码层中的深层网络,应用合同训练样本集中的样本进行第二次训练,直到模型损失值收敛;固定提示编码层和图像编码层,应用合同训练样本集中的样本进行第三次训练,直到模型损失值收敛,得到合同文本切割模型。
在本申请较佳的实施方式中,上述模型训练过程中,模型损失值为CELoss损失函数值与DiceLoss损失函数值之和。
在本申请较佳的实施方式中,上述模型分割模块42,用于通过图像编码层对目标合同图像进行图像编码处理,得到图像编码信息;通过提示编码层对目标合同图像中的稀疏信息进行提示编码处理,得到prompt编码信息;稀疏信息包括:点坐标、框坐标和文本;通过掩码解码层对图像编码信息和prompt编码信息进行解码处理,得到目标合同图像对应的合同文本分割图像。
在本申请较佳的实施方式中,上述掩码解码层包括:自注意力机制模块、三个交叉注意力机构和两个MLP;模型分割模块42,用于通过自注意力机制模块,提取prompt编码信息中的prompt特征;将prompt特征作为query,将图像编码信息作为key和value,通过第一交叉注意力机构抽取浅层图像特征;通过第一层MLP对浅层图像特征进行处理,得到输出标签;将图像编码信息作为query,将输出标签作为key和value,通过第二交叉注意力机构抽取深层图像特征;通过第二交叉注意力机构和第二MLP对深层图像特征进行处理,得到掩码;对深层图像特征进行二次反卷积处理后,与掩码进行逐点相乘,得到目标合同图像对应的合同文本分割图像。
本申请实施例提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置的实施例部分未提及之处,可参考前述方法实施例中相应内容。
本申请实施例还提供了一种电子设备,如图5所示,为该电子设备的结构示意图,其中,该电子设备包括处理器51和存储器50,该存储器50存储有能够被该处理器51执行的计算机可执行指令,该处理器51执行该计算机可执行指令以实现以下步骤:
响应针对目标合同图像的分割功能触发操作,通过预先训练好的合同文本切割模型对目标合同图像进行识别分割,得到目标合同图像对应的合同文本分割图像;其中,合同文本切割模型为通过合同训练样本集对SAM预训练模型进行训练得到;将合同文本分割图像进行显示。
在本申请较佳的实施方式中,上述分割功能触发操作包括:对目标合同图像的前景点或背景点的点击操作;合同文本分割图像包括:前景点或背景点所在区域的图像。
在本申请较佳的实施方式中,上述合同文本切割模型的训练过程如下:获取合同训练样本集;样本集中的样本包括标注有像素点类别标签的合同图像;基于合同训练样本集中的样本,对SAM预训练模型进行多层次训练,得到合同文本切割模型。
在本申请较佳的实施方式中,上述SAM预训练模型包括:图像编码层、提示编码层和掩码解码层;基于合同训练样本集中的样本,对SAM预训练模型进行多层次训练,得到合同文本切割模型的步骤,包括:固定提示编码层和图像编码层,以及掩码解码层中的浅层网络,应用合同训练样本集中的样本进行第一次训练,直到模型损失值收敛;固定提示编码层和图像编码层,以及掩码解码层中的深层网络,应用合同训练样本集中的样本进行第二次训练,直到模型损失值收敛;固定提示编码层和图像编码层,应用合同训练样本集中的样本进行第三次训练,直到模型损失值收敛,得到合同文本切割模型。
在本申请较佳的实施方式中,上述模型训练过程中,模型损失值为CELoss损失函数值与DiceLoss损失函数值之和。
在本申请较佳的实施方式中,上述通过预先训练好的合同文本切割模型对目标合同图像进行识别分割,得到目标合同图像对应的合同文本分割图像的步骤,包括:通过图像编码层对目标合同图像进行图像编码处理,得到图像编码信息;通过提示编码层对目标合同图像中的稀疏信息进行提示编码处理,得到prompt编码信息;稀疏信息包括:点坐标、框坐标和文本;通过掩码解码层对图像编码信息和prompt编码信息进行解码处理,得到目标合同图像对应的合同文本分割图像。
在本申请较佳的实施方式中,上述掩码解码层包括:自注意力机制模块、三个交叉注意力机构和两个MLP;通过掩码解码层对图像编码信息和prompt编码信息进行解码处理,得到目标合同图像对应的合同文本分割图像的步骤,包括:通过自注意力机制模块,提取prompt编码信息中的prompt特征;将prompt特征作为query,将图像编码信息作为key和value,通过第一交叉注意力机构抽取浅层图像特征;通过第一层MLP对浅层图像特征进行处理,得到输出标签;将图像编码信息作为query,将输出标签作为key和value,通过第二交叉注意力机构抽取深层图像特征;通过第二交叉注意力机构和第二MLP对深层图像特征进行处理,得到掩码;对深层图像特征进行二次反卷积处理后,与掩码进行逐点相乘,得到目标合同图像对应的合同文本分割图像。
在图5示出的实施方式中,该电子设备还包括总线52和通信接口53,其中,处理器51、通信接口53和存储器50通过总线52连接。
其中,存储器50可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线52可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线52可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器51可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器51读取存储器中的信息,结合其硬件完成前述实施例的方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述方法,具体实现可参见前述方法实施例,在此不再赘述。
本申请实施例所提供的方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本申请的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种合同图像的分割方法,其特征在于,所述方法包括:
响应针对目标合同图像的分割功能触发操作,通过预先训练好的合同文本切割模型对所述目标合同图像进行识别分割,得到所述目标合同图像对应的合同文本分割图像;其中,所述合同文本切割模型为通过合同训练样本集对SAM预训练模型进行训练得到;
将所述合同文本分割图像进行显示。
2.根据权利要求1所述的方法,其特征在于,所述分割功能触发操作包括:对所述目标合同图像的前景点或背景点的点击操作;所述合同文本分割图像包括:所述前景点或背景点所在区域的图像。
3.根据权利要求1所述的方法,其特征在于,所述合同文本切割模型的训练过程如下:
获取合同训练样本集;所述样本集中的样本包括标注有像素点类别标签的合同图像;
基于所述合同训练样本集中的样本,对所述SAM预训练模型进行多层次训练,得到所述合同文本切割模型。
4.根据权利要求3所述的方法,其特征在于,所述SAM预训练模型包括:图像编码层、提示编码层和掩码解码层;基于所述合同训练样本集中的样本,对所述SAM预训练模型进行多层次训练,得到所述合同文本切割模型的步骤,包括:
固定所述提示编码层和所述图像编码层,以及所述掩码解码层中的浅层网络,应用所述所述合同训练样本集中的样本进行第一次训练,直到模型损失值收敛;
固定所述提示编码层和所述图像编码层,以及所述掩码解码层中的深层网络,应用所述所述合同训练样本集中的样本进行第二次训练,直到模型损失值收敛;
固定所述提示编码层和所述图像编码层,应用所述所述合同训练样本集中的样本进行第三次训练,直到模型损失值收敛,得到所述合同文本切割模型。
5.根据权利要求4所述的方法,其特征在于,模型训练过程中,所述模型损失值为CELoss损失函数值与DiceLoss损失函数值之和。
6.根据权利要求4所述的方法,其特征在于,通过预先训练好的合同文本切割模型对所述目标合同图像进行识别分割,得到所述目标合同图像对应的合同文本分割图像的步骤,包括:
通过所述图像编码层对所述目标合同图像进行图像编码处理,得到图像编码信息;
通过所述提示编码层对所述目标合同图像中的稀疏信息进行提示编码处理,得到prompt编码信息;所述稀疏信息包括:点坐标、框坐标和文本;
通过所述掩码解码层对所述图像编码信息和所述prompt编码信息进行解码处理,得到所述目标合同图像对应的合同文本分割图像。
7.根据权利要求6所述的方法,其特征在于,所述掩码解码层包括:自注意力机制模块、三个交叉注意力机构和两个MLP;通过所述掩码解码层对所述图像编码信息和所述prompt编码信息进行解码处理,得到所述目标合同图像对应的合同文本分割图像的步骤,包括:
通过所述自注意力机制模块,提取所述prompt编码信息中的prompt特征;
将所述prompt特征作为query,将所述图像编码信息作为key和value,通过第一交叉注意力机构抽取浅层图像特征;
通过第一层MLP对所述浅层图像特征进行处理,得到输出标签;
将所述图像编码信息作为query,将所述输出标签作为key和value,通过所述第二交叉注意力机构抽取深层图像特征;
通过第二交叉注意力机构和第二MLP对所述深层图像特征进行处理,得到掩码;
对所述深层图像特征进行二次反卷积处理后,与所述掩码进行逐点相乘,得到所述目标合同图像对应的合同文本分割图像。
8.一种合同图像的分割装置,其特征在于,所述装置包括:
模型分割模块,用于响应针对目标合同图像的分割功能触发操作,通过预先训练好的合同文本切割模型对所述目标合同图像进行识别分割,得到所述目标合同图像对应的合同文本分割图像;其中,所述合同文本切割模型为通过合同训练样本集对SAM预训练模型进行训练得到;
图像显示模块,用于将所述合同文本分割图像进行显示。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至7任一项所述的方法。
CN202310993075.3A 2023-08-08 2023-08-08 合同图像的分割方法、装置及电子设备 Pending CN117011866A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310993075.3A CN117011866A (zh) 2023-08-08 2023-08-08 合同图像的分割方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310993075.3A CN117011866A (zh) 2023-08-08 2023-08-08 合同图像的分割方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN117011866A true CN117011866A (zh) 2023-11-07

Family

ID=88574155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310993075.3A Pending CN117011866A (zh) 2023-08-08 2023-08-08 合同图像的分割方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN117011866A (zh)

Similar Documents

Publication Publication Date Title
CN108595583B (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
CN111615702B (zh) 一种从图像中提取结构化数据的方法、装置和设备
CN110555372A (zh) 数据录入方法、装置、设备及存储介质
CN109146892A (zh) 一种基于美学的图像裁剪方法及装置
CN113032580B (zh) 关联档案推荐方法、系统及电子设备
CN111899243A (zh) 一种图像清晰度评价方法、设备和计算机可读存储介质
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
CN109978044B (zh) 训练数据生成方法和装置、以及模型的训练方法和装置
CN114120299B (zh) 信息获取方法、装置、存储介质及设备
CN112686243A (zh) 智能识别图片文字的方法、装置、计算机设备及存储介质
CN111652266A (zh) 用户界面组件的识别方法、装置、电子设备和存储介质
CN113962199B (zh) 文本识别方法、装置、设备、存储介质及程序产品
CN114841974A (zh) 一种水果内部结构无损检测方法、系统、电子设备及介质
CN116774973A (zh) 数据渲染方法、装置、计算机设备及存储介质
CN112614134A (zh) 图像分割方法、装置、电子设备及存储介质
JP2011238043A (ja) マンガコンテンツの要約を生成する要約マンガ画像生成装置、プログラム及び方法
JP2020502710A (ja) ウェブページメイン画像認識方法及び装置
CN111859933A (zh) 马来语识别模型的训练方法、识别方法、装置、设备
CN111611388A (zh) 账号分类方法、装置和设备
CN108021918B (zh) 文字识别方法及装置
CN116092101A (zh) 训练方法、图像识别方法、装置、设备及可读存储介质
CN117011866A (zh) 合同图像的分割方法、装置及电子设备
CN112801045B (zh) 一种文本区域检测方法、电子设备及计算机存储介质
CN113936286A (zh) 图像文本识别方法、装置、计算机设备及存储介质
CN114037828A (zh) 组件识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination