CN116597463A - 文本图像的生成方法及装置 - Google Patents
文本图像的生成方法及装置 Download PDFInfo
- Publication number
- CN116597463A CN116597463A CN202310566719.0A CN202310566719A CN116597463A CN 116597463 A CN116597463 A CN 116597463A CN 202310566719 A CN202310566719 A CN 202310566719A CN 116597463 A CN116597463 A CN 116597463A
- Authority
- CN
- China
- Prior art keywords
- word
- handwritten
- image
- current target
- target word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000001514 detection method Methods 0.000 claims description 72
- 238000012545 processing Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000013508 migration Methods 0.000 claims description 7
- 230000005012 migration Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 14
- 238000012549 training Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 9
- 238000007639 printing Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 235000012736 patent blue V Nutrition 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/12—Detection or correction of errors, e.g. by rescanning the pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
Abstract
本公开提供一种文本图像的生成方法及装置,其中该方法包括:获取第一手写文本图像;所述第一手写文本图像包含多个手写的正确字;从所述多个手写的正确字中确定待替换的当前目标字,并获取所述当前目标字的信息;根据所述当前目标字的信息,生成所述当前目标字对应的手写错字图像;其中,所述手写错字图像中的字是基于所述当前目标字所得的错误字;将所述手写错字图像与所述第一手写文本图像进行融合,得到第二手写文本图像;其中,所述第二手写文本图像是将所述当前目标字替换为所述错误字的文本图像。本公开可以方便快捷地自动生成包含错字的文本图像,极大降低了包含错字的文本图像的获取成本。
Description
技术领域
本公开涉及人工智能领域,尤其涉及文本图像的生成方法及装置。
背景技术
在诸如智能批改等场景中,神经网络模型可以自动识别用户作业或试卷中的错字,进一步可对错字进行批改。而在此之前需要利用包含有错字的文本图像对模型进行训练,以便训练好的模型能够从文本图像中检测或识别出错字。然而,相关技术中获取包含有错字的文本图像的成本较高,诸如需要从海量的书写内容中筛选包含错字的文本,需要细致且繁杂的工作量,而采用人工手写错字来得到包含错字的文本的方式并不可控,同样需要付出极大的人工成本。综上,在相关技术中,获取包含错字的文本图像的方式成本较高,导致包含错字的文本图像较为稀缺,而包含错字的文本图像的稀缺已成为制约错字识别技术发展的主要原因。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种文本图像的生成方法、装置、设备及介质。
根据本公开的一方面,提供了一种文本图像的生成方法,包括:获取第一手写文本图像;其中,所述第一手写文本图像包含多个手写的正确字;从所述多个手写的正确字中确定待替换的当前目标字,并获取所述当前目标字的信息;根据所述当前目标字的信息,生成所述当前目标字对应的手写错字图像;其中,所述手写错字图像中的字是基于所述当前目标字所得的错误字;将所述手写错字图像与所述第一手写文本图像进行融合,得到第二手写文本图像;其中,所述第二手写文本图像是将所述当前目标字替换为所述错误字的文本图像。
根据本公开的另一方面,提供了一种文本图像的生成装置,包括:第一图像获取模块,用于获取第一手写文本图像;其中,所述第一手写文本图像包含多个手写的正确字;目标字信息获取模块,用于从所述多个手写的正确字中确定待替换的当前目标字,并获取所述当前目标字的信息;错字图像获取模块,用于根据所述当前目标字的信息,生成所述当前目标字对应的手写错字图像;其中,所述手写错字图像中的字是基于所述当前目标字所得的错误字;第二图像获取模块,用于将所述手写错字图像与所述第一手写文本图像进行融合,得到第二手写文本图像;其中,所述第二手写文本图像是将所述当前目标字替换为所述错误字的文本图像。
根据本公开的另一方面,提供了一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行所述的文本图像的生成方法。
根据本公开的另一方面,提供了一种计算机可读存储介质,其中,所述存储介质存储有计算机程序,所述计算机程序用于执行所述的文本图像的生成方法。
本公开实施例中提供的上述技术方案,能够从第一手写文本图像所包含的多个手写的正确字中确定待替换的当前目标字,并根据获取当前目标字的信息生成当前目标字对应的手写错字图像,最后将手写错字图像与第一手写文本图像进行融合,即可得到将当前目标字替换为错误字的第二手写文本图像。通过上述方式,可以方便快捷地自动生成包含错字的文本图像,极大降低了包含错字的文本图像的获取成本。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种文本图像的生成方法的流程示意图;
图2为本公开实施例提供的一种第一手写文本图像的示意图;
图3为本公开实施例提供的一种检测框示意图;
图4为本公开实施例提供的一种手写错字图像的示意图;
图5为本公开实施例提供的一种第二手写文本图像的示意图;
图6为本公开实施例提供的一种图像转换示意图;
图7为本公开实施例提供的一种打印体错字图像的示意图;
图8为本公开实施例提供的一种文本图像的生成装置的结构示意图;
图9为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本公开使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
图1为本公开实施例提供的一种文本图像的生成方法的流程示意图,该方法可以由文本图像的生成装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中。如图1所示,该方法主要包括如下步骤S102~步骤S108:
步骤S102,获取第一手写文本图像;其中,第一手写文本图像包含多个手写的正确字。换言之,该正确字为手写体,第一手写文本图像包含多个正确的手写体单字。在实际应用中,多个手写的正确字可以按照诸如水平方向等指定方向排列,也即,第一手写文本图像可以为文本行图像,具体的,第一手写文本图像可以仅包含一个文本行,也可以包含多个文本行,在此不进行限制。为便于理解,可以参照图2所示的一种第一手写文本图像的示意图,示意出多个手写的正确字“爱与科技助力终身成长”构成的一个文本行,每个汉字均可视为一个字。另外,本公开实施例所提及的字可以不局限于汉字,还可以为诸如日文、韩文等其它语言字,在此不进行限制。
步骤S104,从多个手写的正确字中确定待替换的当前目标字,并获取当前目标字的信息。
在实际应用中,可以根据需求确定待替换的当前目标字,诸如,可以随机选取一个或多个字作为当前目标字,也可以根据从多个手写的正确字中选取的历史目标字确定待替换的当前目标字,诸如,当前目标字可以是与历史目标字不同的字;也即,在确定当前目标字之前,可能已从第一手写文本图像中的多个手写的正确字选取了需要被替换的目标字(可称为历史目标字),并生成了将历史目标字替换为相应错误字的手写文本图像(可称为历史手写文本图像)。换言之,为了能够充分利用第一手写文本图像,可以先后多次从第一手写文本图像中的多个正确字中选取不同的字作为每次选取的目标字并生成相应的手写文本图像。因此,在确定当前目标字时,可以参考之前已选取的历史目标字,以便能够基于同一张第一手写文本图像生成多张包含不同错字的手写文本图像,较好提升第一手写文本图像的利用率。
本公开实施例对当前目标字的信息不进行限制,任何所需的与当前目标字相关的信息均可。示例性地,当前目标字的信息包括:当前目标字的像素值、当前目标字对应的检测框区域的底色像素值以及检测框区域的尺寸信息,此外,当前目标字的信息还包括当前目标字对应的检测框区域的位置、当前目标字在多个手写的正确字中的序号等,在此不进行限制。具体的,可以首先采用单字检测算法检测第一手写文本图像中所有字的位置,并以检测框(也可称为字框)进行标识。为便于理解,可参见图3所示的一种检测框示意图,示意出每个字对应的检测框,另外,在实际应用中,可以基于检测框的关键点(诸如中心点)的位置对每个字进行排序,以多个字构成水平行为例,可按关键点的横坐标从小到大的顺序确定每个检测框的序号,从而得到检测框对应的正确字的序号。此外,还可以基于关键点的位置以及检测框的尺寸等信息确定检测框区域在第一手写文本图像中的位置。可以理解的是,多个手写的正确字中可能会出现相同的字,诸如,在文本行“今天的天空很蓝”中会同时出现两个“天”,两个“天”可视为不同的字,对应不同的序号。假设之前已选取第一个“天”字作为历史目标字,后续仍旧可以选取第二个“天”字作为当前目标字,主要原因在于两个“天”字虽然相同,但是在文本行中的位置不同,仍旧可以生成错字位于不同位置的多张手写文本图像。通过序号标识正确字,有助于进行正确字的区分,便于后续从第一手写文本图像中选取所需处理的正确字,且可有效避免在选取过程中混淆相同的字。以上仅为示例,在实际应用中,也可以不用序号,直接基于第一手写文本图像中的各个正确字对应的检测框的位置对第一手写文本图像中的正确字进行区分及选取,在此不进行限制。
步骤S106,根据当前目标字的信息,生成当前目标字对应的手写错字图像;其中,手写错字图像中的字是基于当前目标字所得的错误字。在实际应用中,上述手写错字图像也可称为手写体错字图像,手写错字图像中所包含的错误字可以是通过电子设备按照预设方式生成的手写体错字。另外,倘若选取的当前目标字的数量为多个,则每个当前目标字均可以分别对应一张手写错字图像,在手写错字图像中仅包含该当前目标字对应的一个手写体错字。
在一些具体的实施示例中,手写错字图像中的字是将当前目标字中的目标笔画执行抹除操作后所得的错误字,本公开实施例对抹除方式不进行限制,任意能够将目标笔画抹除的方式均可,诸如,基于计算机视觉算法进行笔画抹除的方式或者利用图像处理工具(如photoshop)进行笔画抹除的方式均可。在实际应用中,可以根据需求确定待抹除的目标笔画,具体的,可以基于待抹除的目标笔画的数量确定目标笔画。在一些实施示例中,在目标笔画的数量为一的情况下,目标笔画为当前目标字中的任意笔画;在另一些实施示例中,在当前目标字的总笔画数量不小于预设阈值,且目标笔画的数量大于一的情况下,多个目标笔画不构成当前目标字的偏旁,以此有效提升最终得到错字的成功概率。通过针对当前目标字中的目标笔画执行抹除操作,可以方便快捷地将当前目标字转换为相应的错误字。为便于理解,可以参照图4所示的一种手写错字图像的示意图,示意出“技”对应的抹除了第三笔的手写错字图像。在实际应用中,当前目标字的数量可以为一个或多个,每个当前目标字均可生成相应的手写错字图像,也即,每张手写错字图像可以是仅为包含一个错误单字的手写体图像。
步骤S108,将手写错字图像与第一手写文本图像进行融合,得到第二手写文本图像;其中,第二手写文本图像是将当前目标字替换为错误字的文本图像。
为便于理解,可以参照图5所示的一种第二手写文本图像的示意图,示意出将图2所示的第一手写文本图像与图4所示的手写错字图像进行融合,得到包含有错误字的第二手写文本图像。为便于查看,也可以参照图6所示的一种图像转换示意图,主要示意出第一手写文本图像转换为第二手写文本图像的效果,在图6中以圆圈形式清楚标识出了第一手写文本图像中所包含的当前目标字“技”,以及最终生成的第二手写文本图像所包含的“技”对应的错字(也即,抹除第三笔所得的错字)。
通过上述方式,可以方便快捷地基于包含正确字的文本图像自动生成包含错字的文本图像,极大降低了包含错字的文本图像的获取成本。
本公开实施例提供了上述步骤S104的一种实施示例,具体的,从多个手写的正确字中确定待替换的当前目标字的步骤可以参照如下步骤(1)和步骤(2)执行:
步骤(1),获取第二手写文本图像对应的应用场景类型,以及多个手写的正确字中已被选取作为历史目标字的正确字。
示例性地,应用场景类型可以基于需要第二手写文本图像进行训练的模型的类型确定,诸如,错字检测模型对应的应用场景为错误字检测场景,错字识别模型对应的应用场景为错误字识别场景,进一步,错字识别模型可以包括将错误字识别为相应的正确字的模型(诸如,将缺失第三笔的“技”直接识别修正为正确的“技”)或者将错误字识别为预设特殊字符(诸如,将缺失第三笔的“技”直接识别为“※”等特殊字符)的模型,分别对应将错误字识别为预设特殊字符的场景以及将错误字识别为相应的正确字的场景。以上仅为应用场景的示例性说明,在实际应用中还可以有其它应用场景,在此不进行限制。
如前所述,历史目标字为在选取当前目标字之前所选取的目标字,并生成了包含历史目标字对应的错误字的手写文本图像,通过多个手写的正确字中已被选取作为历史目标字的信息,有助于将其作为选取当前目标字的参考。
步骤(2),根据应用场景类型和已被选取作为历史目标字的正确字,从多个手写的正确字中确定待替换的当前目标字。通过这种方式,可以更为合理可靠地选取当前目标字,较好确保基于当前目标字生成的第二手写文本图像的有效性和合理性。为便于理解,本公开实施例给出了步骤(2)的两种实施示例,具体可参照如下示例一和示例二:
示例一:在应用场景类型为第一类应用场景的情况下,从多个手写的正确字中除已被选取作为历史目标字的正确字之外的其它正确字中,选取第一预设数量比例的正确字作为待替换的当前目标字。也即,选取的当前目标字的数量与多个手写的正确字的总数量之间的比例为第一预设数量比例,当前目标字是从除已被选取作为历史目标字的正确字之外的其它正确字中选取的。本公开实施例对选取当前目标字的方式不进行限制,为了确保最终生成的第二手写文本图像的有效性,以此保障基于第二手写文本图像进行模型训练的效果,可以采用随机选取的方式从除已被选取作为历史目标字的正确字之外的其它正确字中选取当前目标字。
在一些具体的实施示例中,第一类应用场景包括错误字检测场景,或者,将错误字标识为预设特殊字符的场景。可以理解的是,在第一类应用场景中,对所需训练的模型的能力要求并不太高,只需模型能够从文本图像中检测出错字或者将错字识别为预设特殊字符即可,因此可以设置相对较高的第一预设数量比例,示例性地,第一预设数量比例可以为25%,诸如,假设第一手写文本图像中一共有20个正确字,第一次从中选取5个字作为待替换为错字的当前目标字,并生成相应的第二手写文本图像进行模型训练。第二次可以从余下的15个字中继续选取5个字作为待替换为错字的当前目标字,并生成相应的第二手写文本图像进行模型训练,依次类推,最多可循环往复4次,直至达到预设条件后结束。预设条件诸如可以为:第一手写文本图像中的所有正确字均已被选取作为目标字,或者,模型已训练完成,无需再生成包含有错字的手写文本图像进行模型训练。通过设置第一预设数量比例(也可理解为错字占比),可以充分提升训练数据利用率,平衡正负样本比例。另外,在实际应用中,假设基于第一预设数量比例确定的所需选取的字数量并非整数,则选取最接近的整数数量即可,诸如一共30个字,而30*25%=7.2,则从中选取7个字。
示例二:在应用场景类型为第二类应用场景的情况下,获取多个手写的正确字对应的分词结果;基于分词结果,从多个手写的正确字中除已被选取作为历史目标字的正确字之外的其它正确字中,选取第二预设数量比例的正确字作为待替换的当前目标字。在实际应用中,可以采用诸如结巴分词等分词工具对第一手写文本图像中的多个手写的正确字进行分词处理,诸如“爱与科技助力终身成长”对应的分词结果为:“爱”,“与”,“科技”,“助力”,“终身”,“成长”,然后再基于分词结果挑选当前目标字,从而确保当前目标字的选取合理性,使基于当前目标字生成的第二手写文本图像能够更好地应用于第二类应用场景中。
在一些具体的实施示例中,第二类应用场景包括将错误字识别为相应的正确字的场景。可以理解的是,在第二类应用场景中,对所需训练的模型的能力要求相对较高,需要模型能够从文本图像中检测出错字并将其识别为相应的正确字,因此可以设置相对较低的第二预设数量比例,第二预设数量比例不超过预设比例阈值,诸如不超过10%。也即,在第二类应用场景中,最多选取10%的字作为当前目标字,且可以理解的是,当前目标字数量不少于一。以第二预设数量比例是10%为例,诸如,假设第一手写文本图像中一共有20个正确字,第一次从中选取2个字作为待替换为错字的当前目标字,并生成相应的第二手写文本图像进行模型训练。第二次可以从余下的18个字中继续选取2个字作为待替换为错字的当前目标字,并生成相应的第二手写文本图像进行模型训练,此时第一次选取的当前目标字对于第二次而言已为历史目标字,依次类推,直至达到预设条件后结束。预设条件可参照前述相关内容,在此不再赘述。
在一些具体的实施示例中,本公开实施例可以设置分词结果的每个字词中最多有一个字被选取为当前目标字,诸如,对于分词结果中的“科技”而言,最多选取“科”或者“技”作为当前目标字,而不能同时将“科”和“技”均作为当前目标字。主要原因在于,当文本图像中存在错误字时,模型仍要将错误字识别为其对应的正确字,此时不仅仅要依靠错字的字形结构,还要依靠上下文的语意信息进行联想。通过设置每个词中最多选取一个字替换为错字的方式,可以有效保障用于训练模型的第二手写文本图像能够保留一定的程度的语意信息,从而帮助模型逐步建立对错字的鲁棒性。
在确定当前目标字的情况下,即可进一步获取当前目标字的信息。本公开实施例提供了上述步骤S104中获取当前目标字的信息的实施方式,在当前目标字的信息包括当前目标字对应的检测框区域的尺寸信息的情况下,可以直接获取检测框的宽W和高H,而在当前目标字的信息包括当前目标字的像素值以及当前目标字对应的检测框区域的底色像素值的情况下,可以按照如下方式一或方式二获取得到:
方式一,对当前目标字对应的检测框区域的像素值进行聚类处理,得到第一类簇和第二类簇;根据第一类簇对应的像素值的平均值(以下可简称为第一平均值)以及第二类簇对应的像素值的平均值(以下可简称为第二平均值),确定当前目标字的像素值以及当前目标字对应的检测框区域的底色像素值。考虑到常见的文本图像中的字像素值通常小于底色像素值,因此在一些具体示例中,可以将第一平均值和第二平均值中的较大值作为当前目标字对应的检测框区域的底色像素值,将第一平均值和第二平均值中的较小值作为当前目标字的像素值。
方式二,对目标字对应的检测框区域进行二值化处理,得到二值图像;基于二值图像的空白区域内的像素值的平均值(以下可简称为第三平均值)确定当前目标字对应的检测框区域的底色像素值,以及基于空白区域外的像素值的平均值(以下可简称为第四平均值)确定当前目标字的像素值。具体实现时,可以基于计算机视觉库中的自适应阈值二值化算法,对目标字对应的检测框区域进行二值化处理,得到二值图像,并可以将第三平均值作为底色像素值,将第四平均值作为当前目标字的像素值。
在实际应用中,倘若文本图像是灰度图,可以直接采用上述方式一或方式二,倘若文本图像是RGB图,则可以针对每个通道分别采用上述方式一和方式二,在此不再赘述。通过上述方式,可以准确可靠地确定当前目标字的像素值以及当前目标字对应的检测框区域的底色像素值。
在获取到当前目标字的像素值、当前目标字对应的检测框区域的底色像素值以及检测框区域的尺寸信息等当前目标字的信息的基础上,本公开实施例提供了上述步骤S106,也即根据当前目标字的信息,生成当前目标字对应的手写错字图像的步骤的一种实施示例,可以参照如下步骤A~步骤C执行:
步骤A,根据当前目标字对应的检测框区域的尺寸信息,确定当前目标字对应的手写错字图像的尺寸。具体的,可以直接将当前目标字对应的检测框区域的尺寸作为当前目标字对应的手写错字图像的尺寸。
步骤B,根据当前目标字对应的检测框区域的底色像素值确定当前目标字对应的手写错字图像的底色像素值,以及,根据当前目标字的像素值确定手写错字图像中的错误字的像素值。
在一些实施方式中,手写错字图像的底色像素值与当前目标字对应的检测框区域的底色像素值相同,手写错字图像中的错误字的像素值与当前目标字的像素值相同或不同。本公开实施例给出了根据当前目标字的像素值确定手写错字图像中的错误字的像素值的一种具体实施示例,可以参照如下步骤1~步骤2执行:
步骤1,获取预先生成的历史手写文本图像中的错误字的像素值;其中,历史手写文本图像中的错误字是基于第一手写文本图像中的历史目标字所得的错误字。
步骤2,根据历史手写文本图像中的错误字的像素值确定手写错字图像中的错误字的像素值;其中,手写错字图像中的错误字的像素值与历史手写文本图像中的错误字的像素值不同。在实际应用中,第一手写文本图像所包含的多个手写的正确字的像素值可以均是一致的,针对选取的目标字生成的手写错字图像中的错误字的像素值可以与第一手写文本图像自身所包含的字的像素值不同。通过上述方式,可以针对错误字达到图像特征的特异化效果,帮助模型逐步建立起对错字的检测和识别能力。
具体的,步骤2可以参照如下步骤2.1~步骤2.3执行:
步骤2.1,获取历史手写文本图像中的错误字的像素值相对于历史目标字的像素值的第一比值。倘若之前先后多次获取历史手写文本图像,则第一比值可以为最近一次获取的历史手写文本图像中的错误字的像素值和与其相应的历史目标字的像素值之间的第一比值。
步骤2.2,根据第一比值,确定手写错字图像中的错误字的像素值相对于当前目标字的像素值的第二比值;其中,第二比值不小于第一比值,且第二比值不大于一。在实际应用中,可以预先设置第二比值与第一比值之间的差值,诸如,设置差值为5%,假设第一比值为80%,则第二比值可以为85%,后续可跟随迭代次数逐步上升至100%,从而有助于模型借助错误字的图像特征的特异性逐步建立起错字的检测和识别能力。
步骤2.3,根据第二比值以及当前目标字的像素值,确定手写错字图像中的错误字的像素值。具体的,当前目标字的像素值与第二比值的乘积,可作为手写错字图像中的错误字的像素值。
在实际应用中,所有应用场景均可采用上述方式确定手写错字图像中的错误字的像素值,或者所有应用场景均可直接将当前目标字的像素值作为手写错字图像中的错误字的像素值,也可以部分应用场景(诸如上述第一类应用场景)采用上述方式确定手写错字图像中的错误字的像素值,部分应用场景(诸如上述第二类应用场景)直接将当前目标字的像素值作为手写错字图像中的错误字的像素值,具可根据需求灵活设置,在此不进行限制。
步骤C,基于手写错字图像的尺寸、手写错字图像的底色像素值和错误字的像素值,生成当前目标字对应的手写错字图像。在一些具体的实施示例中,步骤C可以参照如下步骤C1~步骤C3执行:
步骤C1,获取当前目标字对应的打印体错字图像。为便于理解,可以参照如图7所示的一种打印体错字图像的示意图,示意出了“技”字对应的缺失了第三笔的打印体错字图像,且以打印体是黑体为例进行示意。在实际应用中,可以首先获取当前目标字对应的打印体标准图像,其中,打印体包含多种字体,诸如宋体、楷书、隶书、黑体等,示例性地,可以根据需求从规定的国字标准字体中选取所需的打印体对应的字体。在得到当前目标字对应的打印体标准图像的情况下,可以获取当前目标字的打印体标准图像中待抹除的目标笔画的笔画信息,该笔画信息包括目标笔画在打印体标准图像中的像素点信息,具体的,像素点信息包括目标笔画的像素点在打印体标准图像中的坐标位置,目标笔画的像素点可以是目标笔画的全部像素点或者多个关键像素点,在此不进行限制。然后基于目标笔画的笔画信息执行抹除操作,以得到当前目标字对应的打印体错字图像。
步骤C2,根据第一手写文本图像对应的目标手写风格,对打印体错字图像进行风格迁移处理,以得到具有目标手写风格的初始错字图像。
在实际应用中,第一手写文本图像中的多个手写的正确字的手写风格是统一的,诸如可以为同一人书写所得。在具体实现时,可以通过预设的生成对抗网络对打印体错字图像进行风格迁移处理,生成对抗网络诸如可以为CGAN(Conditional GenerativeAdversarial Nets,条件生成对抗网络)或CycleGAN(Cycle Generative AdversarialNets循环生成对抗网络)等,在此不进行限制。具体而言,生成对抗网络可以通过预先训练所得,诸如,利用打印体标准图像样本与具有预设手写风格的手写文本图像样本对初始网络进行训练,直至得到能够将打印体图像转换为手写图像的生成对抗网络。通过预训练好的生成对抗网络,可以将打印体错字图像转换为具有目标手写风格的初始错字图像。
步骤C3,基于手写错字图像的尺寸、手写错字图像的底色像素值和错误字的像素值,将初始错字图像转换为目标字对应的手写错字图像。
具实现时,可以将初始错字图像中的各像素值均设置为手写错字图像的底色像素值和错误字的像素值,并基于手写错字图像的尺寸调整初始错字图像的尺寸,以此得到合要求的手写错字图像,该手写错字图像诸如可以参照图4所示。
在当前目标字的信息还包括当前目标字对应的检测框区域的位置,且手写错字图像的尺寸与当前目标字对应的检测框区域的尺寸一致的基础上,本公开实施例提供了上述步骤S108,也即将手写错字图像与第一手写文本图像进行融合的步骤的一种实施示例,具体可以参照如下步骤执行:根据当前目标字对应的检测框区域的位置,将手写错字图像覆盖第一手写文本图像中的当前目标字对应的检测框区域。也即,将手写错字图像上的像素值按照位置一一替换为第一手写文本图像中的当前目标字对应的检测框区域的像素值,从而得到第二手写文本图像。
在实际应用中,第一手写文本图像的数量可以为一张或多张,每张第一手写文本图像均可采用本公开实施例提供的文本图像的生成方法生成相应的多张第二手写文本图像,并用于训练诸如错字检测模型、错字识别模型等模型。为了提高模型的鲁棒性,可以获取不同人的第一手写文本图像,并视为不同人的手写风格不同,也即获取多种手写风格的第一手写文本图像,且每种手写风格对应的第一手写文本图像的数量满足预设的数量需求,不仅有助于生成数量符合需求的多种第二手写文本图像,而且第一手写文本图像也可用于对风格迁移模型进行训练,保障风格迁移效果,进而保障最终所得的包含错字的第二手写文本图像的逼真效果。具体实现时,无需覆盖所有手写风格,实践表明,在训练数据的手写风格有限的情况下,风格迁移模型仍对不同书写风格的手写字体具有泛化能力,也即,仍旧能够基于第一手写文本图像中的目标字生成具有相应手写风格的手写错字图像,以此确保基于手写错字图像和第一手写文本图像进行融合所得的第二手写文本图像的逼真效果。
综上,本公开实施例提供的上述文本图像的生成方法,无需付出较高的人工成本获取包含错字的文本图像的成本,而是可以低成本地自动生成大量的包含错字的文本图像,不仅方便快捷,而且可以极大扩充包含错字的文本图像的数量,改善现有技术中存在的包含错字的文本图像较为稀缺的问题,也可进一步促进错字识别技术发展,提升网络模型对文本图像中进行错字识别的准确性。
对应于前述文本图像的生成方法,本公开实施例还提供了一种文本图像的生成装置,图8为本公开实施例提供的一种文本图像的生成装置的结构示意图,该装置可由软件和/或硬件实现,一般可集成在电子设备中。如图8所示,文本图像的生成装置800包括:
第一图像获取模块802,用于获取第一手写文本图像;其中,第一手写文本图像包含多个手写的正确字;
目标字信息获取模块804,用于从多个手写的正确字中确定待替换的当前目标字,并获取当前目标字的信息;
错字图像获取模块806,用于根据当前目标字的信息,生成当前目标字对应的手写错字图像;其中,手写错字图像中的字是基于当前目标字所得的错误字;
第二图像获取模块808,用于将手写错字图像与第一手写文本图像进行融合,得到第二手写文本图像;其中,第二手写文本图像是将当前目标字替换为错误字的文本图像。
通过上述装置,可以方便快捷地自动生成包含错字的文本图像,极大降低了包含错字的文本图像的获取成本。
在一些实施方式中,所述目标字信息获取模块804具体用于:获取第二手写文本图像对应的应用场景类型,以及所述多个手写的正确字中已被选取作为历史目标字的正确字;根据所述应用场景类型和所述已被选取作为历史目标字的正确字,从所述多个手写的正确字中确定待替换的当前目标字。
在一些实施方式中,所述目标字信息获取模块804具体用于:在所述应用场景类型为第一类应用场景的情况下,从所述多个手写的正确字中除所述已被选取作为历史目标字的正确字之外的其它正确字中,选取第一预设数量比例的正确字作为待替换的当前目标字。
在一些实施方式中,所述第一类应用场景包括错误字检测场景,或者,将错误字识别为预设特殊字符的场景。
在一些实施方式中,所述目标字信息获取模块804具体用于:在所述应用场景类型为第二类应用场景的情况下,获取所述多个手写的正确字对应的分词结果;基于所述分词结果,从所述多个手写的正确字中除所述已被选取作为历史目标字的正确字之外的其它正确字中,选取第二预设数量比例的正确字作为待替换的当前目标字。
在一些实施方式中,所述分词结果的每个字词中最多有一个字被选取为所述当前目标字。
在一些实施方式中,所述第二类应用场景包括将错误字识别为相应的正确字的场景。
在一些实施方式中,所述当前目标字的信息包括:所述当前目标字的像素值、所述当前目标字对应的检测框区域的底色像素值以及所述检测框区域的尺寸信息。
在一些实施方式中,所述错字图像获取模块806具体用于:根据所述当前目标字对应的检测框区域的尺寸信息,确定所述当前目标字对应的手写错字图像的尺寸;根据所述当前目标字对应的检测框区域的底色像素值确定所述当前目标字对应的手写错字图像的底色像素值,以及,根据所述当前目标字的像素值确定所述手写错字图像中的错误字的像素值;基于所述手写错字图像的尺寸、所述手写错字图像的底色像素值和所述错误字的像素值,生成所述当前目标字对应的手写错字图像。
在一些实施方式中,所述手写错字图像的底色像素值与所述当前目标字对应的检测框区域的底色像素值相同,所述手写错字图像中的错误字的像素值与所述当前目标字的像素值相同或不同。
在一些实施方式中,所述错字图像获取模块806具体用于:获取预先生成的历史手写文本图像中的错误字的像素值;其中,所述历史手写文本图像中的错误字是基于所述第一手写文本图像中的历史目标字所得的错误字;根据所述历史手写文本图像中的错误字的像素值确定所述手写错字图像中的错误字的像素值;其中,所述手写错字图像中的错误字的像素值与所述历史手写文本图像中的错误字的像素值不同。
在一些实施方式中,所述错字图像获取模块806具体用于:获取所述历史手写文本图像中的错误字的像素值相对于所述历史目标字的像素值的第一比值;根据所述第一比值,确定所述手写错字图像中的错误字的像素值相对于所述当前目标字的像素值的第二比值;其中,所述第二比值不小于所述第一比值,且所述第二比值不大于一;根据所述第二比值以及所述当前目标字的像素值,确定所述手写错字图像中的错误字的像素值。
在一些实施方式中,所述目标字的像素值以及所述目标字对应的检测框区域的底色像素值,是按照如下方式获取得到的:对所述目标字对应的检测框区域的像素值进行聚类处理,得到第一类簇和第二类簇;根据第一类簇对应的像素值的平均值以及第二类簇对应的像素值的平均值,确定所述目标字的像素值以及所述目标字对应的检测框区域的底色像素值。
在一些实施方式中,所述目标字的像素值以及所述目标字对应的检测框区域的底色像素值,是按照如下方式获取得到的:对所述目标字对应的检测框区域进行二值化处理,得到二值图像;基于所述二值图像的空白区域内的像素值的平均值确定所述目标字对应的检测框区域的底色像素值,以及基于所述空白区域外的像素值的平均值确定所述目标字的像素值。
在一些实施方式中,所述错字图像获取模块806具体用于:获取所述当前目标字对应的打印体错字图像;根据所述第一手写文本图像对应的目标手写风格,对所述打印体错字图像进行风格迁移处理,以得到具有所述目标手写风格的初始错字图像;基于所述手写错字图像的尺寸、所述手写错字图像的底色像素值和所述错误字的像素值,将所述初始错字图像转换为所述当前目标字对应的手写错字图像。
在一些实施方式中,所述当前目标字的信息还包括所述当前目标字对应的检测框区域的位置,且所述手写错字图像的尺寸与所述当前目标字对应的检测框区域的尺寸一致;所述第二图像获取模块808具用于:根据所述当前目标字对应的检测框区域的位置,将所述手写错字图像覆盖所述第一手写文本图像中的所述当前目标字对应的检测框区域。
在一些实施方式中,所述手写错字图像中的字是将所述当前目标字中的目标笔画执行抹除操作后所得的错误字。
本公开实施例所提供的文本图像的生成装置可执行本公开任意实施例所提供的文本图像的生成方法,具备执行方法相应的功能模块和有益效果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置实施例的具体工作过程,可以参考方法实施例中的对应过程,在此不再赘述。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的文本图像的生成方法。所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
参考图9,现将描述可以作为本公开的服务器或客户端的电子设备900的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,电子设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
电子设备900中的多个部件连接至I/O接口905,包括:输入单元906、输出单元907、存储单元908以及通信单元909。输入单元906可以是能向电子设备900输入信息的任何类型的设备,输入单元906可以接收输入的数字或字信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元907可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元908可以包括但不限于磁盘、光盘。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMa9设备、蜂窝通信设备和/或类似物。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理。例如,在一些实施例中,文本图像的生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。在一些实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本图像的生成方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (18)
1.一种文本图像的生成方法,包括:
获取第一手写文本图像;其中,所述第一手写文本图像包含多个手写的正确字;
从所述多个手写的正确字中确定待替换的当前目标字,并获取所述当前目标字的信息;
根据所述当前目标字的信息,生成所述当前目标字对应的手写错字图像;其中,所述手写错字图像中的字是基于所述当前目标字所得的错误字;
将所述手写错字图像与所述第一手写文本图像进行融合,得到第二手写文本图像;其中,所述第二手写文本图像是将所述当前目标字替换为所述错误字的文本图像。
2.如权利要求1所述的文本图像的生成方法,其中,所述从所述多个手写的正确字中确定待替换的当前目标字的步骤,包括:
获取第二手写文本图像对应的应用场景类型,以及所述多个手写的正确字中已被选取作为历史目标字的正确字;
根据所述应用场景类型和所述已被选取作为历史目标字的正确字,从所述多个手写的正确字中确定待替换的当前目标字。
3.如权利要求2所述的文本图像的生成方法,其中,所述根据所述应用场景类型和所述已被选取作为历史目标字的正确字,从所述多个手写的正确字中确定待替换的当前目标字的步骤,包括:
在所述应用场景类型为第一类应用场景的情况下,从所述多个手写的正确字中除所述已被选取作为历史目标字的正确字之外的其它正确字中,选取第一预设数量比例的正确字作为待替换的当前目标字。
4.如权利要求3所述的文本图像的生成方法,其中,所述第一类应用场景包括错误字检测场景,或者,将错误字识别为预设特殊字符的场景。
5.如权利要求2所述的文本图像的生成方法,其中,所述根据所述应用场景类型和所述已被选取作为历史目标字的正确字,从所述多个手写的正确字中确定待替换的当前目标字的步骤,包括:
在所述应用场景类型为第二类应用场景的情况下,获取所述多个手写的正确字对应的分词结果;
基于所述分词结果,从所述多个手写的正确字中除所述已被选取作为历史目标字的正确字之外的其它正确字中,选取第二预设数量比例的正确字作为待替换的当前目标字。
6.如权利要求5所述的文本图像的生成方法,其中,所述分词结果的每个字词中最多有一个字被选取为所述当前目标字。
7.如权利要求5所述的文本图像的生成方法,其中,所述第二类应用场景包括将错误字识别为相应的正确字的场景。
8.如权利要求1所述的文本图像的生成方法,其中,所述当前目标字的信息包括:所述当前目标字的像素值、所述当前目标字对应的检测框区域的底色像素值以及所述检测框区域的尺寸信息。
9.如权利要求8所述的文本图像的生成方法,其中,所述根据所述当前目标字的信息,生成所述当前目标字对应的手写错字图像的步骤,包括:
根据所述当前目标字对应的检测框区域的尺寸信息,确定所述当前目标字对应的手写错字图像的尺寸;
根据所述当前目标字对应的检测框区域的底色像素值确定所述当前目标字对应的手写错字图像的底色像素值,以及,根据所述当前目标字的像素值确定所述手写错字图像中的错误字的像素值;
基于所述手写错字图像的尺寸、所述手写错字图像的底色像素值和所述错误字的像素值,生成所述当前目标字对应的手写错字图像。
10.如权利要求9所述的文本图像的生成方法,其中,所述手写错字图像的底色像素值与所述当前目标字对应的检测框区域的底色像素值相同,所述手写错字图像中的错误字的像素值与所述当前目标字的像素值相同或不同。
11.如权利要求9所述的文本图像的生成方法,其中,所述根据所述当前目标字的像素值确定所述手写错字图像中的错误字的像素值的步骤,包括:
获取预先生成的历史手写文本图像中的错误字的像素值;其中,所述历史手写文本图像中的错误字是基于所述第一手写文本图像中的历史目标字所得的错误字;
根据所述历史手写文本图像中的错误字的像素值确定所述手写错字图像中的错误字的像素值;其中,所述手写错字图像中的错误字的像素值与所述历史手写文本图像中的错误字的像素值不同。
12.如权利要求11所述的文本图像的生成方法,其中,所述根据所述历史手写文本图像中的错误字的像素值确定所述手写错字图像中的错误字的像素值的步骤,包括:
获取所述历史手写文本图像中的错误字的像素值相对于所述历史目标字的像素值的第一比值;
根据所述第一比值,确定所述手写错字图像中的错误字的像素值相对于所述当前目标字的像素值的第二比值;其中,所述第二比值不小于所述第一比值,且所述第二比值不大于一;
根据所述第二比值以及所述当前目标字的像素值,确定所述手写错字图像中的错误字的像素值。
13.如权利要求8所述的文本图像的生成方法,其中,所述当前目标字的像素值以及所述当前目标字对应的检测框区域的底色像素值,是按照如下方式获取得到的:
对所述当前目标字对应的检测框区域的像素值进行聚类处理,得到第一类簇和第二类簇;
根据第一类簇对应的像素值的平均值以及第二类簇对应的像素值的平均值,确定所述当前目标字的像素值以及所述当前目标字对应的检测框区域的底色像素值。
14.如权利要求8所述的文本图像的生成方法,其中,所述当前目标字的像素值以及所述当前目标字对应的检测框区域的底色像素值,是按照如下方式获取得到的:
对所述当前目标字对应的检测框区域进行二值化处理,得到二值图像;
基于所述二值图像的空白区域内的像素值的平均值确定所述当前目标字对应的检测框区域的底色像素值,以及基于所述空白区域外的像素值的平均值确定所述当前目标字的像素值。
15.如权利要求9所述的文本图像的生成方法,其中,所述基于所述手写错字图像的尺寸、所述手写错字图像的底色像素值和所述错误字的像素值,生成所述当前目标字对应的手写错字图像的步骤,包括:
获取所述当前目标字对应的打印体错字图像;
根据所述第一手写文本图像对应的目标手写风格,对所述打印体错字图像进行风格迁移处理,以得到具有所述目标手写风格的初始错字图像;
基于所述手写错字图像的尺寸、所述手写错字图像的底色像素值和所述错误字的像素值,将所述初始错字图像转换为所述当前目标字对应的手写错字图像。
16.如权利要求1所述的文本图像的生成方法,其中,所述当前目标字的信息还包括所述当前目标字对应的检测框区域的位置,且所述手写错字图像的尺寸与所述当前目标字对应的检测框区域的尺寸一致;
所述将所述手写错字图像与所述第一手写文本图像进行融合,包括:
根据所述当前目标字对应的检测框区域的位置,将所述手写错字图像覆盖所述第一手写文本图像中的所述当前目标字对应的检测框区域。
17.如权利要求1至16任一项所述的文本图像的生成方法,其中,所述手写错字图像中的字是将所述当前目标字中的目标笔画执行抹除操作后所得的错误字。
18.一种文本图像的生成装置,包括:
第一图像获取模块,用于获取第一手写文本图像;其中,所述第一手写文本图像包含多个手写的正确字;
目标字信息获取模块,用于从所述多个手写的正确字中确定待替换的当前目标字,并获取所述当前目标字的信息;
错字图像获取模块,用于根据所述当前目标字的信息,生成所述当前目标字对应的手写错字图像;其中,所述手写错字图像中的字是基于所述当前目标字所得的错误字;
第二图像获取模块,用于将所述手写错字图像与所述第一手写文本图像进行融合,得到第二手写文本图像;其中,所述第二手写文本图像是将所述当前目标字替换为所述错误字的文本图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310566719.0A CN116597463A (zh) | 2023-05-18 | 2023-05-18 | 文本图像的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310566719.0A CN116597463A (zh) | 2023-05-18 | 2023-05-18 | 文本图像的生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116597463A true CN116597463A (zh) | 2023-08-15 |
Family
ID=87589363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310566719.0A Pending CN116597463A (zh) | 2023-05-18 | 2023-05-18 | 文本图像的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116597463A (zh) |
-
2023
- 2023-05-18 CN CN202310566719.0A patent/CN116597463A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598686B (zh) | 发票的识别方法、系统、电子设备和介质 | |
CN112711362B (zh) | 手绘流程图标准化生成方法及其装置 | |
WO2022134771A1 (zh) | 表格处理方法、装置、电子设备及存储介质 | |
CN113822116A (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
CN111368638A (zh) | 电子表格的创建方法、装置、计算机设备和存储介质 | |
US20220189083A1 (en) | Training method for character generation model, character generation method, apparatus, and medium | |
CN113343958B (zh) | 一种文本识别方法、装置、设备及介质 | |
CN113344826A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN114581926B (zh) | 多行文本识别方法、装置、设备及介质 | |
KR20210065901A (ko) | 이미지에서의 키 포인트 위치의 인식 방법, 장치, 전자기기 및 매체 | |
CN110867243B (zh) | 一种图像标注方法、装置、计算机系统及可读存储介质 | |
CN110533020B (zh) | 一种文字信息的识别方法、装置及存储介质 | |
US10691884B2 (en) | System and method for cheque image data masking using data file and template cheque image | |
CN113537184A (zh) | Ocr模型训练方法、装置、计算机设备、存储介质 | |
US11232616B2 (en) | Methods and systems for performing editing operations on media | |
CN114898376B (zh) | 公式识别方法、装置、设备及介质 | |
WO2020124442A1 (zh) | 推送方法及相关产品 | |
CN116597463A (zh) | 文本图像的生成方法及装置 | |
CN115880708A (zh) | App适老模式下文字段落间距合规性检测方法 | |
CN115294581A (zh) | 错误字符的识别方法、装置、电子设备及存储介质 | |
CN115273103A (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN115273057A (zh) | 文本识别方法、装置和听写批改方法、装置及电子设备 | |
CN116597445A (zh) | 错字图像的生成方法、装置、设备及介质 | |
CN113012189A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN115100662B (zh) | 公式识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |