CN115705730A - 文本分离模型训练方法、装置、设备及存储介质 - Google Patents

文本分离模型训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115705730A
CN115705730A CN202110909087.4A CN202110909087A CN115705730A CN 115705730 A CN115705730 A CN 115705730A CN 202110909087 A CN202110909087 A CN 202110909087A CN 115705730 A CN115705730 A CN 115705730A
Authority
CN
China
Prior art keywords
text
network
ticket
picture
separation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110909087.4A
Other languages
English (en)
Inventor
吴秦龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110909087.4A priority Critical patent/CN115705730A/zh
Publication of CN115705730A publication Critical patent/CN115705730A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种文本分离模型训练方法、装置、设备及存储介质,该文本分离模型训练方法包括:获取重叠文本图片、固定票面文本图片、印刷票面文本图片和印刷票面文本二值图像作为训练数据;确定文本分离模型的网络结构,生成器网络包括三个输出分支,每个输出分支分别对应一个判别器网络,根据每个输出分支的损失函数确定所述生成器网络的损失函数和所述判别器网络的损失函数;基于训练数据、确定的网络结构和损失函数训练得到文本分离模型,文本分离模型用于输出印刷票面文本图像和固定票面文本图片。基于重叠文本图片通过文本分离模型可以输出印刷票面文本图像和固定票面文本图片,达到文本分离的效果。

Description

文本分离模型训练方法、装置、设备及存储介质
技术领域
本发明涉及通信技术领域,具体涉及一种文本分离模型训练方法、装置、设备及存储介质。
背景技术
现有技术中,文本分离方法主要通过传统图像处理的进行文本像素和背景像素的区分,加强文本像素,实现文本图像二值化。
采用现有技术中通过像素值的大小进行文本区域和背景区域的区分,对于复杂背景的自然场景文字效果较差,并且,对于文本重叠的场景,无法区分重叠的文本。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的文本分离模型训练方法、装置、设备及存储介质。
根据本发明实施例的一个方面,提供了一种文本分离模型训练方法,包括:
对仿真预测数据进行数据处理得到样本点数据;所述样本点数据包括小区样本数据和样本标签,所述小区样本数据包含小区标识、样本点经纬度、基站经纬度、样本点信号强度中的至少一个数据,所述样本标签为仿真设定的小区方位角;
将所述样本点数据输入神经网络模型进行训练,当训练得到的神经网络模型满足预设条件时结束训练,将所述满足预设条件时的神经网络模型作为所述文本图像分离模型。
根据本发明实施例的另一方面,提供了一种文本图像分离方法,包括:
对最小化路测MDT用户数据进行处理得到目标小区的小区参数,所述小区参数包含样本点经纬度、基站经纬度、样本点信号强度中的至少一个参数;
将所述小区参数输入采用权利要求1-4任一项所述的文本分离模型训练方法得到的文本图像分离模型中进行预测,得到所述目标小区的预测方位角。
根据本发明实施例的另一方面,提供了一种文本分离模型训练装置,包括:
样本数据获取模块,用于对仿真预测数据进行数据处理得到样本点数据;所述样本点数据包括小区样本数据和样本标签,所述小区样本数据包含小区标识、样本点经纬度、基站经纬度、样本点信号强度中的至少一个数据,所述样本标签为仿真设定的小区方位角;
模型训练模块,用于将所述样本点数据输入神经网络模型进行训练,当训练得到的神经网络模型满足预设条件时结束训练,将所述满足预设条件时的神经网络模型作为所述文本图像分离模型。
根据本发明实施例的另一方面,提供了一种文本图像分离装置,包括:
参数获取模块,用于对最小化路测MDT用户数据进行处理得到目标小区的小区参数,所述小区参数包含样本点经纬度、基站经纬度、样本点信号强度中的至少一个参数;
预测模块,用于将所述小区参数输入采用上述文本分离模型训练方法得到的文本图像分离模型中进行预测,得到所述目标小区的预测方位角。
根据本发明实施例的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述文本分离模型训练方法对应的操作,及执行上述文本图像分离方法对应的操作。
根据本发明实施例的另一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述文本分离模型训练方法对应的操作,及执行上述文本图像分离方法对应的操作。
根据本发明上述实施例提供的方案,通过仿真预测数据获取样本点数据,可克服人工测量的问题,极大的扩充了样本点数据的数量,进而提高文本图像分离模型预测的准确性。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一提供的文本分离模型训练方法流程图;
图2示出了本发明实施例二提供的文本分离模型训练方法流程图;
图3示出了本发明实施例三提供的文本分离方法的流程图;
图4示出了本发明实施例四提供的文本分离模型训练装置的结构示意图;
图5示出了本发明实施例五提供的文本图像分离装置的结构示意图;
图6示出了本发明实施例六提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本发明实施例一提供的文本分离模型训练方法的流程图。如图1所示,该方法包括以下步骤:
步骤S110、获取重叠文本图片、固定票面文本图片、印刷票面文本图片和印刷票面文本二值图像作为训练数据。
具体的,在票据场景,通常票据图片上存在固定文本信息,例如“机器编号”、“纳税人识别号”等键字内容,这些键字内容和字体颜色是固定存在票据上的,这些键字对应的值是打印上去的,值的内容是变化的。在本实施例中,将包含固定文本信息及打印内容的票据图片作为重叠文本图片,将分离出的包含固定文本信息的票据背景图片作为固定票面文本图片、将分离出的包含打印内容的文本的票据前景图片作为印刷票面文本图片,并通过对印刷票面文本图片进行二值化处理,得到印刷票面文本二值图像。可以获取批量票据图片的重叠文本图片、固定票面文本图片、印刷票面文本图片和印刷票面文本二值图像作为训练数据集。
步骤S120、确定文本分离模型的网络结构,其中,网络结构包括生成器网络和三个判别器网络,且生成器网络包括三个输出分支,每个输出分支分别对应一个判别器网络,三个输出分支分别对应固定票面文本图片输出分支、印刷票面文本图片输出分支和印刷票面文本二值图像输出分支。
具体的,该文本分离模型的基础模型可以为生成式对抗网络(GenerativeAdversarial Networks,GAN),该GAN网络包括生成器网络和三个判别器网络,生成器网络输入重叠文本图片,通过多层卷积神经网络提取特征,输出三个分支即固定票面文本图片输出分支、印刷票面文本图片输出分支和印刷票面文本二值图像输出分支,三个分支共享部分网络权重,相互促进提升生成效果。且固定票面文本图片输出分支、印刷票面文本图片输出分支和印刷票面文本二值图像输出分支输出的图像对应作为判别器网络的输入图像,判别器网络输出是否为真实图像的结果。生成器网络为了生成更接近真实的文本分离图片,判别器网络提升区分生成图片和真实图片的能力,相互博弈。
并且,GAN网络的技术本质是通过encoder-decoder的深度结构实现输入图片的特征抽取,和目标图片的生成,通过判别器网络和生成器网络的协同作用提升生成效果,所以还可以用于风格迁移图片修复等。
步骤S130、根据每个输出分支的损失函数确定生成器网络的损失函数和判别器网络的损失函数。
具体的,每个输出分支分别对应不同的损失函数,根据每个输出分支的损失函数确定生成器网络的损失函数和判别器网络的损失函数。例如,如果印刷票面文本图片输出分支Bt1对应的损失函数为Lt1,固定票面文本图片输出分支Bt2对应的损失函数为Lt2、印刷票面文本二值图像输出分支Bb对应的损失函数为Lb、生成器网络G的损失函数为LG、判别器网络D的损失函数为LD,则LG=arg minG(Lt1+Lt2+Lb),训练目标是最小化Lt1+Lt2+Lb的值;则LD=arg maxD(Lt1+Lt2+Lb),训练目标是区分生成图片和真实图片最大化Lt1+Lt2+Lb的值,其中,D={Dt1,Dt2,Db},Dt1表示印刷票面文本图片输出分支Bt1对应的判别器网络,Dt2表示固定票面文本图片输出分支Bt2对应的判别器网络、Db表示印刷票面文本二值图像输出分支Bb对应的判别器网络。
步骤S140、基于训练数据、网络结构、生成器网络的损失函数和判别器网络的损失函数训练得到最终的文本分离模型,其中,文本分离模型用于输出印刷票面文本图像和固定票面文本图片。
具体训练过程如下:确定生成器网络的参数和三个判别器网络的参数,将训练数据输入网络结构,固定生成器网络的参数,根据重叠文本图片、真实印刷票面文本图片、真实固定票面文本图片、真实印刷票面文本二值图像、输出的固定票面文本图像、输出的印刷票面文本图像、输出的印刷票面文本二值图像、三个损失函数分别调整对应判别器网络的参数;固定判别器网络的参数,根据重叠文本图片、真实印刷票面文本图片、真实固定票面文本图片、真实印刷票面文本二值图像、输出的固定票面文本图像、输出的印刷票面文本图像、输出的印刷票面文本二值图像、生成器网络的损失函数调整生成器网络的参数,直到满足预设条件结束训练,得到文本分离模型。
本实施例通过基于重叠文本图片通过文本分离模型可以输出印刷票面文本图像和固定票面文本图片,达到文本分离的效果。
图2示出了本发明实施例二提供的文本分离模型训练方法的流程图。如图2所示,该方法包括以下步骤:
步骤S210、建立训练数据集。
其中,训练数据集包括重叠文本图片Is,固定票面文本图片Ot2,印刷票面文本图片Ot1,印刷票面文本二值图Ob
步骤S220、确定文本分离模型的网络结构。
具体的,该网络结构分为生成器网络和判别器网络,生成器网络一共包含三个输出分支,分别为固定票面文本图片输出分支Bt2、印刷票面文本图片输出分支Bt1和印刷票面文本二值图像输出分支Bb。并且,该网络结构包含多层卷积神经网络,三个输出分支共享前四层特征卷积网络,印刷票面文本图片输出分支Bt1和印刷票面文本二值图像输出分支Bb共享第五和第六层特征卷积网络,印刷票面文本二值图像输出分支Bb输出的特征图通过Concat结构与印刷票面文本图片输出分支Bt1输出的特征图连接且;三个输出分支对应三个判别器网络,每个判别网络由卷积层和全连接层组成,输出二分类结果。
下面是该网络结构包含七层特征卷积网络的示例,其中,conv_bn_rule(3,32,3,1,1)表示:卷积层+batch_normal+激活层,输入通道是3,输出通道是32,卷积核是3,步长是1,pad是1。
输入是3*64*480的图片,3通道,高64,宽480
第一层;
conv_bn_rule(3,32,3,1,1)
conv_bn_rule(32,32,3,1,1)
conv_bn_rule(32,64,3,2,1)
输出64*32*240
第二层:
conv_bn_rule(64,64,3,1,1)
conv_bn_rule(64,64,3,1,1)
conv_bn_rule(64,128,3,2,1)
输出128*16*120
第三层:
conv_bn_rule(128,128,3,1,1)
conv_bn_rule(128,128,3,1,1)
conv_bn_rule(128,256,3,2,1)
输出256*8*60
第四层:
conv_bn_rule(256,256,3,1,1)
conv_bn_rule(256,256,3,1,1)
输出256*8*60
输入256*8*60
第五层
conv_bn_rule(256,256,3,1,1)
conv_bn_rule(256,256,3,1,1)
upsample(2)upsample表示上采样层,sacle=2
conv_bn_rule(256,128,3,1,0)
输出128*16*120
第六层
conv_bn_rule(128,128,3,1,1)
conv_bn_rule(128,128,3,1,1)
upsample(2)
conv_bn_rule(128,64,3,1,0)
输出64*32*240
第七层
conv_bn_rule(64,64,3,1,1)
conv_bn_rule(64,64,3,1,1)
upsample(2)
conv_bn_rule(64,32,3,1,0)
输出32*64*480
输出分支
conv_bn_rule(32,1,3,1,1)
sigmod()
输出1*32*240
步骤S230、基于文本分离模型的网络结构确定损失函数。
其中,输出分支Bt1对应的损失函数
Figure BDA0003202801320000081
Figure BDA0003202801320000082
其中Lt1为输出分支Bt1对应的损失函数,Dt1为对应的判别器网络,Is为重叠文本图片,Tt1表示真实印刷票据文本图片,Ot2表示经过生成器网络G输出的印刷票据文本图片,
Figure BDA0003202801320000083
表示期望,‖*‖表示l1范数,θ1表示参数。同理,输出分支Bt2对应的损失函数
Figure BDA0003202801320000084
输出分支Bb对应的损失函数
Figure BDA0003202801320000085
Figure BDA0003202801320000091
最终确定的生成器网络G的损失函数和判别器D的损失函数为LG,D=argminG maxD(Lt1+Lt2+Lb),其中D={Dt1,Dt2,Db}表示三个判别器网络,其中,arg minG(Lt1+Lt2+Lb)表示生成器网络训练目标是最小化Lt1+Lt2+Lb的值;arg maxD(Lt1+Lt2+Lb)表示判别器网络训练目标是区分生成图片和真实图片,需要最大化Lt1+Lt2+Lb的值。
步骤S240、对文本分离模型进行训练。
首先,固定生成器网络G的参数,使用Is,Tt1,Tt2,Tb,Ot1,Ot2,Ob调整判别器网络D={Dt1,Dt2,Db}的参数,提升文本分离模型区分生成样本和真实样本的能力。这里的调整主要是指模型的参数训练,是通过反向传播的方法,计算出对应的损失后,计算损失函数在各个参数上的偏导,乘以学习率0.001,通过随机梯度下降法更新对应的参数。
然后,固定判别器网络D={Dt1,Dt2,Db}的参数,使用Is,Tt1,Tt2,Tb,Ot1,Ot2,Ob调整生成器网络参数,提升生成样本的真实性。
这里的损失分两大类,第一是输出样本的L1范数,就是输出样本和真实样本差别,第二是判别网络的输出,假设判别器网络能够很好的区分真实样本和生成样本,生成器网络的学习目标就是生成样本能够迷惑判别器网络,让判别器网络认为生成样本是真实样本;通过两个损失提升样本的真实性。重复上述两个步骤,直至网络收敛。
本实施例训练得到的文本分离模型楷体实现重叠文本分离,并且在生成器网络中设计多分支结构,其中,印刷票面文本二值图像输出分支可以提升主分支性能,固定票面图片输出分支可以提升主干网特征有效性,同时针对网络结构设计对应的损失函数,提升识别准确性。
实施例三
图3示出了本发明实施例三提供的文本图像分离方法的流程图。如图3所示,该方法包括以下步骤:
步骤S310、获取待分离的重叠文本图片。
其中,重叠文本图片可以为票据图片。
步骤S320、将重叠文本图片输入文本分离模型中,通过文本分离模型输出印刷票面文本图像和固定票面文本图像。
其中,文本分离模型为采用本发明实施例提供的文本分离模型训练方法训练得到。
本实施例通过文本分离模型可以输出印刷票面文本图像和固定票面文本图片,达到文本分离的效果。
实施例四
图4示出了本发明实施例四提供的文本分离模型训练装置的结构示意图。如图4所示,该装置包括:样本数据获取模块41、模型结构确定模块42、损失函数确定模块43和模型训练模块44;其中,
样本数据获取模块41用于获取重叠文本图片、固定票面文本图片、印刷票面文本图片和印刷票面文本二值图像作为训练数据;
模型结构确定模块42用于确定文本分离模型的网络结构,其中,所述网络结构包括生成器网络和三个判别器网络,且所述生成器网络包括三个输出分支,每个输出分支分别对应一个判别器网络,所述三个输出分支分别对应固定票面文本图片输出分支、印刷票面文本图片输出分支和印刷票面文本二值图像输出分支;
损失函数确定模块43用于根据每个输出分支的损失函数确定所述生成器网络的损失函数和所述判别器网络的损失函数;
模型训练模块44用于基于所述训练数据、所述网络结构、所述生成器网络的损失函数和所述判别器网络的损失函数训练得到最终的文本分离模型,其中,所述文本分离模型用于输出印刷票面文本图像和固定票面文本图片。
进一步的,所述模型训练模块44具体用于确定所述生成器网络的参数和三个判别器网络的参数,将所述训练数据输入所述网络结构;固定所述生成器网络的参数,根据重叠文本图片、真实印刷票面文本图片、真实固定票面文本图片、真实印刷票面文本二值图像、输出的固定票面文本图像、输出的印刷票面文本图像、输出的印刷票面文本二值图像、所述三个损失函数分别调整对应判别器网络的参数;固定所述判别器网络的参数,根据所述重叠文本图片、所述真实印刷票面文本图片、所述真实固定票面文本图片、所述真实印刷票面文本二值图像、所述输出的固定票面文本图像、所述输出的印刷票面文本图像、所述输出的印刷票面文本二值图像、所述生成器网络的损失函数调整所述生成器网络的参数,直到满足预设条件结束训练,得到文本分离模型。
进一步的,所述固定票面文本图片输出分支、所述印刷票面文本图片输出分支和所述印刷票面文本二值图像输出分支共享所述文本分离模型的第1层至第n层特征卷积网络层,所述印刷票面文本图片输出分支和所述印刷票面文本二值图像共享所述文本分离模型的第n+1层至第n+m层特征卷积网络层。
进一步的,所述印刷票面文本二值图像输出分支输出的特征图与所述印刷票面文本图片输出分支输出的特征图通过Concat结构连接。
进一步的,所述判别器网络由卷积层和全连接层组成。
本发明实施例所述的文本分离模型训练装置用于执行上述实施例所述的文本分离模型训练方法,其工作原理与技术效果类似,这里不再赘述。
实施例五
图5示出了本发明实施例五提供的文本图像分离装置的结构示意图。如图5所示,该装置包括:图片获取模块51和分离模块52;其中,
图片获取模块51用于获取待分离的重叠文本图片;
分离模块52用于将所述重叠文本图片输入采用权利要求1-5任一项所述的文本分离模型训练方法得到的文本分离模型中,通过所述文本分离模型输出印刷票面文本图像和固定票面文本图像。
本发明实施例所述的文本图像分离装置用于执行上述实施例所述的文本图像分离方法,其工作原理与技术效果类似,这里不再赘述。
实施例六
本发明实施例六提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文本分离模型训练方法及文本图像分离方法。
实施例七
图6示出了本发明实施例七提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图6所示,该计算设备可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述用于计算设备的文本分离模型训练方法及文本图像分离方法实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行上述任意方法实施例中的文本分离模型训练方法及文本图像分离方法。程序中各步骤的具体实现可以参见上述文本分离模型训练方法及文本图像分离方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种文本分离模型训练方法,其特征在于,包括:
获取重叠文本图片、固定票面文本图片、印刷票面文本图片和印刷票面文本二值图像作为训练数据;
确定文本分离模型的网络结构,其中,所述网络结构包括生成器网络和三个判别器网络,且所述生成器网络包括三个输出分支,每个输出分支分别对应一个判别器网络,所述三个输出分支分别对应固定票面文本图片输出分支、印刷票面文本图片输出分支和印刷票面文本二值图像输出分支;
根据每个输出分支的损失函数确定所述生成器网络的损失函数和所述判别器网络的损失函数;
基于所述训练数据、所述网络结构、所述生成器网络的损失函数和所述判别器网络的损失函数训练得到最终的文本分离模型,其中,所述文本分离模型用于输出印刷票面文本图像和固定票面文本图片。
2.根据权利要求1所述的方法,其特征在于,所述基于所述训练数据、所述网络结构、所述生成器网络的损失函数和所述判别器网络的损失函数训练得到最终的文本分离模型,包括:
确定所述生成器网络的参数和三个判别器网络的参数,将所述训练数据输入所述网络结构;
固定所述生成器网络的参数,根据重叠文本图片、真实印刷票面文本图片、真实固定票面文本图片、真实印刷票面文本二值图像、输出的固定票面文本图像、输出的印刷票面文本图像、输出的印刷票面文本二值图像、所述三个损失函数分别调整对应判别器网络的参数;
固定所述判别器网络的参数,根据所述重叠文本图片、所述真实印刷票面文本图片、所述真实固定票面文本图片、所述真实印刷票面文本二值图像、所述输出的固定票面文本图像、所述输出的印刷票面文本图像、所述输出的印刷票面文本二值图像、所述生成器网络的损失函数调整所述生成器网络的参数,直到满足预设条件结束训练,得到文本分离模型。
3.根据权利要求1所述的方法,其特征在于,所述固定票面文本图片输出分支、所述印刷票面文本图片输出分支和所述印刷票面文本二值图像输出分支共享所述文本分离模型的第1层至第n层特征卷积网络层,所述印刷票面文本图片输出分支和所述印刷票面文本二值图像共享所述文本分离模型的第n+1层至第n+m层特征卷积网络层。
4.根据权利要求1所述的方法,其特征在于,所述印刷票面文本二值图像输出分支输出的特征图与所述印刷票面文本图片输出分支输出的特征图通过Concat结构连接。
5.根据权利要求1所述的方法,其特征在于,所述判别器网络由卷积层和全连接层组成。
6.一种文本图像分离方法,其特征在于,包括:
获取待分离的重叠文本图片;
将所述重叠文本图片输入采用权利要求1-5任一项所述的文本分离模型训练方法得到的文本分离模型中,通过所述文本分离模型输出印刷票面文本图像和固定票面文本图像。
7.一种文本分离模型训练装置,其特征在于,包括:
样本数据获取模块,用于获取重叠文本图片、固定票面文本图片、印刷票面文本图片和印刷票面文本二值图像作为训练数据;
模型结构确定模块,用于确定文本分离模型的网络结构,其中,所述网络结构包括生成器网络和三个判别器网络,且所述生成器网络包括三个输出分支,每个输出分支分别对应一个判别器网络,所述三个输出分支分别对应固定票面文本图片输出分支、印刷票面文本图片输出分支和印刷票面文本二值图像输出分支;
损失函数确定模块,用于根据每个输出分支的损失函数确定所述生成器网络的损失函数和所述判别器网络的损失函数;
模型训练模块,用于基于所述训练数据、所述网络结构、所述生成器网络的损失函数和所述判别器网络的损失函数训练得到最终的文本分离模型,其中,所述文本分离模型用于输出印刷票面文本图像和固定票面文本图片。
8.一种文本图像分离装置,其特征在于,包括:
图片获取模块,用于获取待分离的重叠文本图片;
分离模块,用于将所述重叠文本图片输入采用权利要求1-5任一项所述的文本分离模型训练方法得到的文本分离模型中,通过所述文本分离模型输出印刷票面文本图像和固定票面文本图像。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-5中任一项所述的文本分离模型训练方法对应的操作,及执行如权利要求6中任一项所述的文本图像分离方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-5中任一项所述的文本分离模型训练方法对应的操作,及执行如权利要求6中任一项所述的文本图像分离方法对应的操作。
CN202110909087.4A 2021-08-09 2021-08-09 文本分离模型训练方法、装置、设备及存储介质 Pending CN115705730A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110909087.4A CN115705730A (zh) 2021-08-09 2021-08-09 文本分离模型训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110909087.4A CN115705730A (zh) 2021-08-09 2021-08-09 文本分离模型训练方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115705730A true CN115705730A (zh) 2023-02-17

Family

ID=85179933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110909087.4A Pending CN115705730A (zh) 2021-08-09 2021-08-09 文本分离模型训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115705730A (zh)

Similar Documents

Publication Publication Date Title
CN111814794B (zh) 文本检测方法、装置、电子设备及存储介质
CN107977665A (zh) 一种发票中关键信息的识别方法及计算设备
CN105426356B (zh) 一种目标信息识别方法和装置
CN106651877B (zh) 实例分割方法及装置
US20180211109A1 (en) Method, system, and neural network for identifying direction of a document
EP3989104A1 (en) Facial feature extraction model training method and apparatus, facial feature extraction method and apparatus, device, and storage medium
CN111275784B (zh) 生成图像的方法和装置
CN111709406B (zh) 文本行识别方法及装置、可读存储介质、电子设备
CN109255356A (zh) 一种文字识别方法、装置及计算机可读存储介质
CN111126514A (zh) 图像多标签分类方法、装置、设备及介质
CN111898520A (zh) 证件真伪识别方法、装置、计算机可读介质及电子设备
CN114627173A (zh) 通过差分神经渲染进行对象检测的数据增强
CN113111880A (zh) 证件图像校正方法、装置、电子设备及存储介质
CN110969641A (zh) 图像处理方法和装置
CN111861867A (zh) 图像背景虚化方法和装置
CN114861842A (zh) 少样本目标检测方法、装置和电子设备
CN114022748A (zh) 目标识别方法、装置、设备及存储介质
CN110414593B (zh) 图像处理方法及装置、处理器、电子设备及存储介质
CN117252947A (zh) 图像处理方法、装置、计算机、存储介质及程序产品
CN111222558A (zh) 图像处理方法及存储介质
CN115705730A (zh) 文本分离模型训练方法、装置、设备及存储介质
CN109993165A (zh) 药片板药名识别及药片板信息获取方法、装置与系统
CN114387315A (zh) 图像处理模型训练、图像处理方法、装置、设备及介质
CN114638957A (zh) 文本分离方法、装置、电子设备和存储介质
CN114913513A (zh) 一种公章图像的相似度计算方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination