CN112287938A - 一种文本分割方法、系统、设备以及介质 - Google Patents

一种文本分割方法、系统、设备以及介质 Download PDF

Info

Publication number
CN112287938A
CN112287938A CN202011180292.3A CN202011180292A CN112287938A CN 112287938 A CN112287938 A CN 112287938A CN 202011180292 A CN202011180292 A CN 202011180292A CN 112287938 A CN112287938 A CN 112287938A
Authority
CN
China
Prior art keywords
generator
training
discriminator
target image
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011180292.3A
Other languages
English (en)
Other versions
CN112287938B (zh
Inventor
孙红岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202011180292.3A priority Critical patent/CN112287938B/zh
Publication of CN112287938A publication Critical patent/CN112287938A/zh
Application granted granted Critical
Publication of CN112287938B publication Critical patent/CN112287938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种文本分割方法,包括以下步骤:构建目标图像集、源图像集、生成器和判别器;将目标图像集中的目标图像和源图像集中的源图像输入到生成器中,并利用生成器输出的数据训练判别器;响应于判别器训练完成,将目标图像集中的目标图像经过生成器输入到训练完成的判别器,以得到训练完成的判别器输出的数据;利用训练完成的判别器输出的数据训练生成器;响应于生成器训练完成,利用训练完成的生成器对输入的图像进行推理以得到输入的图像的文本分割结果。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案能够让自动合成数据训练出来的文本分割模型可以在现实场景中达到和训练时一样的精度。

Description

一种文本分割方法、系统、设备以及介质
技术领域
本发明涉及文本识别领域,具体涉及一种文本分割方法、系统、设备以及存储介质。
背景技术
光学字符识别(Optical Character Recognition,OCR)传统上指对输入扫描文档图像进行分析处理,识别出图像中文字信息。
对于OCR文本定位,目前的发展方向主要有两个方向,分别是对文本框的检测和文本框的分割。文本框的检测主要方法有fast-RCNN、SSD等方法,特点是处理速度快,对文本的多方向和正规文本检测有很高的的效率和精度,缺点是对弯曲文本检测效率不高。文本框的分割主要方法有pixelink、seglink等方法,特点是对弯曲文本有一定的检测精度,对文本的多方向和正规文本检测也有很高的效率和精度,缺点是运行的效率不及文本框的检测。而对于文本定位的数据集,分为规则数据集和不规则数据集。规则数据集包括IIIT5K-Words(IIIT)、Street View Text(SVT)等,其中规则数据集文本框标注清楚,且不存在模糊等现象。对于不规则数据集,则有ICDAR2015、SVT Perspective、CUTE80等数据集,有些图片由于拍摄角度和拍摄人员移动的关系,导致图片文本模糊不清,在文本分割中,由于OCR的数据集拍摄的图片数量不多、人工标注难度大且不精确等因素,因此经常需要自动合成数据集来进行训练,而自动合成数据集的图像往往很难达到不规则数据集那种模糊文本的效果,因此在训练后应用到现实场景中难免会导致精度较训练时精度有部分损失的现象。因此可以使用自动生成数据集的方法可以生成图像文本并进行训练,通过这种方式可以达到非监督训练OCR的目的,但是由于其标注的特殊性,带来了自动合成数据集和真实环境中的文本不相符的现象,从而导致在真实场景使用OCR时精度会出现部分损失较训练时精度。
由此可见,现有的基于自动生成数据集的方法训练OCR,可以达到非监督训练OCR的目的,但是自动合成的数据由于其具有较高的规则性,因此,处于文本边缘区域的像素对应的感受野的概率分布比较尖锐。对应较低的熵值,而在现实中,文本由于存在模糊或者噪声等因素的影响,在文本边缘区域具有平滑的概率分布,因此具有较高的熵值。因此自动合成数据集训练出来的OCR模型在实际应用中精度会有所降低。
发明内容
有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种文本分割方法,包括以下步骤:
构建目标图像集、源图像集、生成器和判别器;
将所述目标图像集中的目标图像和源图像集中的源图像输入到所述生成器中,并利用所述生成器输出的数据训练所述判别器;
响应于所述判别器训练完成,将所述目标图像集中的目标图像经过所述生成器输入到训练完成的所述判别器,以得到训练完成的所述判别器输出的数据;
利用所述训练完成的判别器输出的数据训练所述生成器;
响应于所述生成器训练完成,利用训练完成的所述生成器对输入的图像进行推理以得到所述输入的图像的文本分割结果。
在一些实施例中,构建目标图像集、源图像集,进一步包括:
将文本合成到多个不含文本的图像中以构建源图像集;
利用实际带有文本的多个图像构建目标图像集。
在一些实施例中,将所述目标图像集中的目标图像和源图像集中的源图像输入到所述生成器中,并利用所述生成器输出的数据训练所述判别器,进一步包括:
将所述目标图像集中的目标图像和源图像集中的源图像输入到生成器中分别得到所述目标图像对应的熵分布和所述源图像对应的熵分布;
设置所述目标图像对应的熵分布的标签为假,所述源图像对应的熵分布的标签为真;
利用设置标签后的所述目标图像对应的熵分布和设置标签后的所述源图像对应的熵分布训练判别器。
在一些实施例中,利用所述训练完成的判别器输出的数据训练所述生成器,进一步包括:
响应于所述判别器训练完成,将所述设置标签后的目标图像对应的熵分布输入到训练完成的所述判别器并将输出的对应数据的标签设置为真;
利用设置标签后的数据训练所述生成器。
在一些实施例中,利用所述生成器输出的数据训练所述判别器,进一步包括:
根据损失函数
Figure BDA0002749941230000031
对所述判别器进行训练;
其中,θD为所述判别器的参数,LD为预设函数,xs为源图像的像素矩阵,
Figure BDA0002749941230000032
为源图像经过所述生成器后的矩阵,
Figure BDA0002749941230000033
为目标图像经过所述生成器后的矩阵。
在一些实施例中,利用所述训练完成的判别器输出的数据训练所述生成器,进一步包括:
根据损失函数
Figure BDA0002749941230000034
对所述生成器进行训练;
其中,θF为所述生成器的参数,Lseg为预设函数,xs为源图像的像素矩阵,
Figure BDA0002749941230000035
为源图像经过所述生成器后的矩阵,
Figure BDA0002749941230000036
为目标图像经过所述生成器后的矩阵,λadv为拉格朗日系数。
在一些实施例中,所述预设函数为最小二乘函数。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种文本分割系统,包括:
构建模块,所述构建模块配置为构建目标图像集、源图像集、生成器和判别器;
第一训练模块,所述第一训练模块配置为将所述目标图像集中的目标图像和源图像集中的源图像输入到所述生成器中,并利用所述生成器输出的数据训练所述判别器;
第一响应模块,所述第一响应模块配置为响应于所述判别器训练完成,将所述目标图像集中的目标图像经过所述生成器输入到训练完成的所述判别器,以得到训练完成的所述判别器输出的数据;
第二训练模块,所述第二训练模块配置为利用所述训练完成的判别器输出的数据训练所述生成器;
推理模块,所述推理模块配置为响应于所述生成器训练完成,利用训练完成的所述生成器对输入的图像进行推理以得到所述输入的图像的文本分割结果。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如上所述的任一种文本分割方法的步骤。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如上所述的任一种文本分割方法的步骤。
本发明具有以下有益技术效果之一:本发明提出的方案能够让自动合成数据训练出来的文本分割模型可以在现实场景中达到和训练时一样的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明的实施例提供的文本分割方法的流程示意图;
图2为本发明的实施例提供的判别器的网络结构图;
图3为本发明的实施例提供的生成器的网络结构图;
图4为本发明的实施例提供的文本分割系统的结构示意图;
图5为本发明的实施例提供的计算机设备的结构示意图;
图6为本发明的实施例提供的计算机可读存储介质的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
根据本发明的一个方面,本发明的实施例提出一种文本分割方法,如图1所示,其可以包括步骤:
S1,构建目标图像集、源图像集、生成器和判别器;
S2,将所述目标图像集中的目标图像和源图像集中的源图像输入到所述生成器中,并利用所述生成器输出的数据训练所述判别器;
S3,响应于所述判别器训练完成,将所述目标图像集中的目标图像经过所述生成器输入到训练完成的所述判别器,以得到训练完成的所述判别器输出的数据;
S4,利用所述训练完成的判别器输出的数据训练所述生成器;
S5,响应于所述生成器训练完成,利用训练完成的所述生成器对输入的图像进行推理以得到所述输入的图像的文本分割结果。
本发明提出的方案能够让自动合成数据训练出来的文本分割模型可以在现实场景中达到和训练时一样的精度。
在一些实施例中,步骤S1,构建目标图像集、源图像集,进一步包括:
将文本合成到多个不含文本的图像中以构建源图像集;
利用实际带有文本的多个图像构建目标图像集。
具体的,源图像集是不含文本的图片,需要自动合成数据工具合成数据并将文本添加到图像中并生成合成文本的标注,目标图像集是在真实环境中拍摄的包含文本的图片,但是没有进行标注。其中,训练中由于人工合成标注信息的文本信息(即源图像中人工标注的文本信息)笔画特征(文本的线条宽度固定)和点和域特征(文本具有更稠密的拐点)的规则性导致了文本附近的熵更小,更容易进行训练。
在一些实施例中,将所述目标图像集中的目标图像和源图像集中的源图像输入到所述生成器中,并利用所述生成器输出的数据训练所述判别器,进一步包括:
将所述目标图像集中的目标图像和源图像集中的源图像输入到生成器中分别得到所述目标图像对应的熵分布和所述源图像对应的熵分布;
设置所述目标图像对应的熵分布的标签为假,所述源图像对应的熵分布的标签为真;
利用设置标签后的所述目标图像对应的熵分布和设置标签后的所述源图像对应的熵分布训练判别器。
具体的,目标图像和源图像在经过生成器之后会分别生成在每个像素点的概率,衡量每个像素点的确定性经常用熵来衡量,熵值小的则概率较大,熵值大的则概率小,不确定性增加。将熵可以用带权重的自信息代替
Figure BDA0002749941230000071
其中
Figure BDA0002749941230000072
Figure BDA0002749941230000073
分别是生成器网络输出的像素点是背景和文本的概率,而
Figure BDA0002749941230000074
表示当前像素点(横纵坐标分别是h,w)是文本的熵值,而源图像和目标图像在经过生成器网络训练后的输出自信息分别为
Figure BDA0002749941230000075
(源图像中单个像素的自信息)和
Figure BDA0002749941230000076
(目标图像中单个像素的自信息),将
Figure BDA0002749941230000077
Figure BDA0002749941230000078
送入到判别器来进行训练,在这里应用GAN网络的思想,将源图像经过生成器的输出
Figure BDA0002749941230000079
(所有像素点对应的自信息组成的矩阵,也即源图像的熵分布)送入判别器,并将标签设置为1,目标图像经过生成器的输出
Figure BDA00027499412300000710
(所有像素点对应的自信息组成的矩阵,也即目标图像的熵分布)送入判别器,并将标签设置为0,训练判别器。
在一些实施例中,判别器可以选择网络VGG16,其网络结构可以如图2所示,判别器表达为在肯定源图像文本附近的熵分布为真的同时,假设目标图像生成的熵分布为假,而在将生成器训练完成后,最终的结果是当目标图像作为输入进行网络推理的时候,判别器分不出目标图像的熵分布是真还是假,推理输出概率为0.5。
在一些实施例中,利用所述生成器输出的数据训练所述判别器,进一步包括:
根据损失函数
Figure BDA00027499412300000711
对所述判别器进行训练;
其中,θD为所述判别器的参数,LD为预设函数,xs为源图像的像素矩阵,
Figure BDA00027499412300000712
为源图像经过所述生成器后的矩阵,
Figure BDA00027499412300000713
为目标图像经过所述生成器后的矩阵。
在一些实施例中,LD可以是最小二乘函数,即判别器的损失函数可以是
Figure BDA00027499412300000714
这样根据该损失函数求出损失后,即可进行判别器参数θD的梯度更新进而更新权重信息。
在一些实施例中,利用所述训练完成的判别器输出的数据训练所述生成器,进一步包括:
响应于所述判别器训练完成,将所述设置标签后的目标图像对应的熵分布输入到训练完成的所述判别器并将输出的对应数据的标签设置为真;
利用设置标签后的数据训练所述生成器。
具体的,当判别器训练完成后,可以将目标图像经过生成器的输出作为判别器的输入,并在将判别器的输出的标签设置为1后去训练生成器,这样可以达到用目标图像的熵分布去欺骗判别器,最后达到生成器中源图像经过生成器的熵分布和目标图像经过生成器的熵分布达到相同分布的效果。
在一些实施例中,生成器选择DCGAN,生成器的网络结构可以如图3所示,训练生成网络表达为在肯定目标图像包含源图像的标签条件下,依据判别器网络的指导来生成熵分布。
在一些实施例中,利用所述训练完成的判别器输出的数据训练所述生成器,进一步包括:
根据损失函数
Figure BDA0002749941230000081
对所述生成器进行训练;
其中,θF为所述生成器的参数,Lseg为预设函数,xs为源图像的像素矩阵,
Figure BDA0002749941230000082
为源图像经过所述生成器后的矩阵,
Figure BDA0002749941230000083
为目标图像经过所述生成器后的矩阵,λadv为拉格朗日系数。
具体的,源图像和目标图像的熵分布可以是在以
Figure BDA0002749941230000084
为损失函数进行训练时产生的,这个损失函数可以看做是以
Figure BDA0002749941230000085
为限定约束条件下,
Figure BDA0002749941230000086
为目标函数的优化问题,在训练过程中源图像的文本区域预测的概率值较大,因此
Figure BDA0002749941230000087
就会较小,其它背景区域的概率值较小,则熵值较大。这样,源图像可以根据实际对应的损失函数
Figure BDA0002749941230000088
生成稳定的熵分布,而以
Figure BDA0002749941230000091
为约束的情况下,使得目标图像xt在经过生成器后会生成熵分布
Figure BDA0002749941230000092
并且目标图像的熵分布会在判别器的指导下一步步的学习源图像经过生成器产生的熵分布,最终,在目标图像学习了源图像的熵分布之后,也会在目标图像的文本附近生成类似的熵值,从而,使得真实环境中的带文本信息的图片在文本的边缘能够学习自动合成标注数据区域附近的熵值,从而使真实场景中的文本边缘也有较尖锐的概率分布,增加检测的精度。
在一些实施例中,Lseg可以是最小二乘函数,即判别器的损失函数可以是
Figure BDA0002749941230000093
这样根据该损失函数求出损失后,即可进行生成器参数θF的梯度更新进而更新权重信息。
需要说明的是,训练中由于源图像和目标图像都有OCR的文本信息,省去了pair操作,因此也不需要CycleGan这种复杂的网络结构。
本发明通过将现实场景中带文本未标注的图像送入到网络来进行训练,让网络可以生成带有“自信息”(带有自信息的权重可以让现实场景中带文本图像学习自动合成数据集训练出来的文本边缘的熵分布)的权重,从而可以让人工合成标注信息训练出来的OCR模型可以在现实场景中达到和训练时一样的精度。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种文本分割400,如图4所示,包括:
构建模块401,所述构建模块401配置为构建目标图像集、源图像集、生成器和判别器;
第一训练模块402,所述第一训练模块402配置为将所述目标图像集中的目标图像和源图像集中的源图像输入到所述生成器中,并利用所述生成器输出的数据训练所述判别器;
第一响应模块403,所述第一响应模块403配置为响应于所述判别器训练完成,将所述目标图像集中的目标图像经过所述生成器输入到训练完成的所述判别器,以得到训练完成的所述判别器输出的数据;
第二训练模块404,所述第二训练模块404配置为利用所述训练完成的判别器输出的数据训练所述生成器;
推理模块405,所述推理模块405配置为响应于所述生成器训练完成,利用训练完成的所述生成器对输入的图像进行推理以得到所述输入的图像的文本分割结果。
基于同一发明构思,根据本发明的另一个方面,如图5所示,本发明的实施例还提供了一种计算机设备501,包括:
至少一个处理器520;以及
存储器510,存储器510存储有可在处理器上运行的计算机程序511,处理器520执行程序时执行如上的任一种文本分割方法的步骤。
基于同一发明构思,根据本发明的另一个方面,如图6所示,本发明的实施例还提供了一种计算机可读存储介质601,计算机可读存储介质601存储有计算机程序指令610,计算机程序指令610被处理器执行时执行如上的任一种文本分割方法的步骤。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种文本分割方法,其特征在于,包括以下步骤:
构建目标图像集、源图像集、生成器和判别器;
将所述目标图像集中的目标图像和源图像集中的源图像输入到所述生成器中,并利用所述生成器输出的数据训练所述判别器;
响应于所述判别器训练完成,将所述目标图像集中的目标图像经过所述生成器输入到训练完成的所述判别器,以得到训练完成的所述判别器输出的数据;
利用所述训练完成的判别器输出的数据训练所述生成器;
响应于所述生成器训练完成,利用训练完成的所述生成器对输入的图像进行推理以得到所述输入的图像的文本分割结果。
2.如权利要求1所述的方法,其特征在于,构建目标图像集、源图像集,进一步包括:
将文本合成到多个不含文本的图像中以构建源图像集;
利用实际带有文本的多个图像构建目标图像集。
3.如权利要求1所述的方法,其特征在于,将所述目标图像集中的目标图像和源图像集中的源图像输入到所述生成器中,并利用所述生成器输出的数据训练所述判别器,进一步包括:
将所述目标图像集中的目标图像和源图像集中的源图像输入到生成器中分别得到所述目标图像对应的熵分布和所述源图像对应的熵分布;
设置所述目标图像对应的熵分布的标签为假,所述源图像对应的熵分布的标签为真;
利用设置标签后的所述目标图像对应的熵分布和设置标签后的所述源图像对应的熵分布训练判别器。
4.如权利要求3所述的方法,其特征在于,利用所述训练完成的判别器输出的数据训练所述生成器,进一步包括:
响应于所述判别器训练完成,将所述设置标签后的目标图像对应的熵分布输入到训练完成的所述判别器并将输出的对应数据的标签设置为真;
利用设置标签后的数据训练所述生成器。
5.如权利要求1所述的方法,其特征在于,利用所述生成器输出的数据训练所述判别器,进一步包括:
根据损失函数
Figure FDA0002749941220000021
对所述判别器进行训练;
其中,θD为所述判别器的参数,LD为预设函数,xs为源图像的像素矩阵,
Figure FDA0002749941220000022
为源图像经过所述生成器后的矩阵,
Figure FDA0002749941220000023
为目标图像经过所述生成器后的矩阵。
6.如权利要求2所述的方法,其特征在于,利用所述训练完成的判别器输出的数据训练所述生成器,进一步包括:
根据损失函数
Figure FDA0002749941220000024
对所述生成器进行训练;
其中,θF为所述生成器的参数,Lseg为预设函数,xs为源图像的像素矩阵,
Figure FDA0002749941220000025
为源图像经过所述生成器后的矩阵,
Figure FDA0002749941220000026
为目标图像经过所述生成器后的矩阵,λadv为拉格朗日系数。
7.如权利要求6所述的方法,其特征在于,所述预设函数为最小二乘函数。
8.一种文本分割系统,其特征在于,包括:
构建模块,所述构建模块配置为构建目标图像集、源图像集、生成器和判别器;
第一训练模块,所述第一训练模块配置为将所述目标图像集中的目标图像和源图像集中的源图像输入到所述生成器中,并利用所述生成器输出的数据训练所述判别器;
第一响应模块,所述第一响应模块配置为响应于所述判别器训练完成,将所述目标图像集中的目标图像经过所述生成器输入到训练完成的所述判别器,以得到训练完成的所述判别器输出的数据;
第二训练模块,所述第二训练模块配置为利用所述训练完成的判别器输出的数据训练所述生成器;
推理模块,所述推理模块配置为响应于所述生成器训练完成,利用训练完成的所述生成器对输入的图像进行推理以得到所述输入的图像的文本分割结果。
9.一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如权利要求1-7任意一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行如权利要求1-7任意一项所述的方法的步骤。
CN202011180292.3A 2020-10-29 2020-10-29 一种文本分割方法、系统、设备以及介质 Active CN112287938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011180292.3A CN112287938B (zh) 2020-10-29 2020-10-29 一种文本分割方法、系统、设备以及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011180292.3A CN112287938B (zh) 2020-10-29 2020-10-29 一种文本分割方法、系统、设备以及介质

Publications (2)

Publication Number Publication Date
CN112287938A true CN112287938A (zh) 2021-01-29
CN112287938B CN112287938B (zh) 2022-12-06

Family

ID=74373844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011180292.3A Active CN112287938B (zh) 2020-10-29 2020-10-29 一种文本分割方法、系统、设备以及介质

Country Status (1)

Country Link
CN (1) CN112287938B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222872A (zh) * 2021-05-28 2021-08-06 平安科技(深圳)有限公司 图像处理方法、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146989A (zh) * 2018-07-10 2019-01-04 华南理工大学 一种通过搭建神经网络生成花鸟艺术字图像的方法
CN109886970A (zh) * 2019-01-18 2019-06-14 南京航空航天大学 太赫兹图像中目标物体的检测分割方法及计算机存储介质
CN110599491A (zh) * 2019-09-04 2019-12-20 腾讯医疗健康(深圳)有限公司 基于先验信息的眼部图像分割方法、装置、设备及介质
CN111008979A (zh) * 2019-12-09 2020-04-14 杭州凌像科技有限公司 一种鲁棒的夜晚图像语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146989A (zh) * 2018-07-10 2019-01-04 华南理工大学 一种通过搭建神经网络生成花鸟艺术字图像的方法
CN109886970A (zh) * 2019-01-18 2019-06-14 南京航空航天大学 太赫兹图像中目标物体的检测分割方法及计算机存储介质
CN110599491A (zh) * 2019-09-04 2019-12-20 腾讯医疗健康(深圳)有限公司 基于先验信息的眼部图像分割方法、装置、设备及介质
CN111008979A (zh) * 2019-12-09 2020-04-14 杭州凌像科技有限公司 一种鲁棒的夜晚图像语义分割方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222872A (zh) * 2021-05-28 2021-08-06 平安科技(深圳)有限公司 图像处理方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN112287938B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN112052787B (zh) 基于人工智能的目标检测方法、装置及电子设备
CN107133934B (zh) 图像补全方法及装置
EP3745339A1 (en) Method for implanting advertisements in video, and computer device
CN111767962B (zh) 基于生成对抗式网络的一阶段目标检测方法、系统及装置
CN112508975A (zh) 一种图像识别方法、装置、设备及存储介质
CN113111916B (zh) 一种基于弱监督的医学图像语义分割方法和系统
CN111709966B (zh) 眼底图像分割模型训练方法及设备
CN110766050B (zh) 模型生成方法、文本识别方法、装置、设备及存储介质
CN109657538B (zh) 基于上下文信息指导的场景分割方法和系统
CN113469148B (zh) 一种文本擦除方法及模型的训练方法、装置、存储介质
CN114882204A (zh) 船名自动识别方法
CN112287938B (zh) 一种文本分割方法、系统、设备以及介质
CN113065533B (zh) 一种特征提取模型生成方法、装置、电子设备和存储介质
CN111178363A (zh) 文字识别方法、装置、电子设备以及可读存储介质
CN112132780A (zh) 基于深度神经网络的钢筋数量检测方法及系统
CN116994084A (zh) 区域入侵检测模型训练方法及区域入侵检测方法
CN116129417A (zh) 一种基于低质量图像的数字仪表读数检测方法
CN113888567B (zh) 一种图像分割模型的训练方法、图像分割方法及装置
CN113673478B (zh) 基于深度学习全景拼接的港口大型设备检测与识别方法
JP2023069083A (ja) 学習装置、学習方法、学習プログラム、物体検出装置、物体検出方法、物体検出プログラム、学習支援システム、学習支援方法及び学習支援プログラム
CN117474932B (zh) 对象分割方法和装置、电子设备及存储介质
CN117830305B (zh) 对象测量方法、装置、设备及介质
KR102157005B1 (ko) 영상 필터링 기법을 적용한 딥러닝 결과영상의 정확성 향상방법
CN116188973B (zh) 认知生成机制裂缝检测方法
CN117423116B (zh) 一种文本检测模型的训练方法、文本检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant