CN114863434A

CN114863434A - 文字分割模型的获取方法、文字分割方法及其装置

Info

Publication number: CN114863434A
Application number: CN202210425714.1A
Authority: CN
Inventors: 尚太章; 唐礼承; 刘家铭; 洪智滨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-08-05
Anticipated expiration: 2042-04-21
Also published as: CN114863434B

Abstract

本公开提供了一种文字分割模型的获取方法、文字分割方法及其装置，涉及人工智能领域，具体为计算机视觉领域。实现方案为：获取目标训练文字集，目标训练文字集中包括多个不同字体下的同一样本文字；基于目标训练文字集，生成第一样本图片集和第二样本图片集；基于第一样本图片集对初始文字分割模型进行训练，获取第一文字分割模型；基于第一样本图片集和第二样本图片集对第一文字分割模型进行训练，获取目标文字分割模型。本申请选取多种字体的样本文字进行模型训练，提高了模型的泛化能力，增强了模型的通用性，只对第一样本图片进行标注，减少了数据标注量，加入第二样本图片集对模型进行再训练，提高了目标文字分割模型的分割准确性。

Description

文字分割模型的获取方法、文字分割方法及其装置

技术领域

本公开涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别(Optical Character Recognition，OCR)等场景，具体涉及文字分割模型的获取方法、文字分割方法及其装置。

背景技术

当前输入法中的字体设计是一项很复杂的工程，需要耗时较久，如果能分割出每个文字中的每个组成元素，比如说部首，那么可以在后序对文字进行字体设计以及字体改进中起到很大的促进作用。相关技术中，很多字体中文字的不同组成元素往往会有粘连，错综复杂，加大了文字分割的难度，在对文字进行分割时以获取每个文字中的每个组成元素时，往往需要标注大量的数据，增加了标注成本,且适用的字体种类单一，没有很好的泛化能力。

发明内容

本公开提供了一种用于文字分割模型的获取方法、文字分割方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种文字分割模型的获取方法，通过获取目标训练文字集，其中，目标训练文字集中包括多个不同字体下的同一样本文字；基于目标训练文字集，生成第一样本图片集和第二样本图片集，其中，第一样本图片集中每个样本图片上包括至少一个第一样本文字和第一样本文字的标注组成元素，第二样本图片集中每个样本图片上包括至少一个第二样本文字；基于第一样本图片集对初始文字分割模型进行训练，获取第一文字分割模型；基于第一样本图片集和第二样本图片集对第一文字分割模型进行训练，以获取目标文字分割模型。

本申请提供的文字分割模型的获取方法，选取多种字体的样本文字进行模型训练，提高了模型的泛化能力，只对第一样本图片集中的第一样本图片进行标注，减少了数据标注量，从而减少了标注成本，再通过第二样本图片集对第一文字分割模型进行再训练，提高了目标文字分割模型的分割准确性。

根据本公开的另一方面，提供了一种文字分割方法，包括将待识别文字输入目标文字分割模型中，获取待识别文字的文字分割结果。

本申请提供的文字分割方法，通过将待识别文字输入目标文字分割模型中，获取待识别文字的文字分割结果，能够基于上述获得的目标文字分割模型，对待识别文字进行准确的分割。

根据本公开的另一方面，提供了一种文字分割模型的获取装置，包括：获取模块，用于获取目标训练文字集，其中，目标训练文字集中包括多个不同字体下的同一样本文字；生成模块，用于基于目标训练文字集，生成第一样本图片集和第二样本图片集，其中，第一样本图片集中每个样本图片上包括至少一个第一样本文字和第一样本文字的标注组成元素，第二样本图片集中每个样本图片上包括至少一个第二样本文字；第一训练模块，用于基于第一样本图片集对初始文字分割模型进行训练，获取第一文字分割模型；第二训练模块，用于基于第一样本图片集和第二样本图片集对第一文字分割模型进行训练，以获取目标文字分割模型。

本申请提供的文字分割模型的获取装置，选取多种字体的样本文字进行模型训练，提高了模型的泛化能力，只对第一样本图片集中的第一样本图片进行标注，减少了数据标注量，从而减少了标注成本，再通过第二样本图片集对第一文字分割模型进行再训练，提高了目标文字分割模型的分割准确性。

根据本公开的另一方面，提供了一种文字分割装置，包括：处理模块，用于将待识别文字输入目标文字分割模型中，获取待识别文字的文字分割结果。

本申请提供的文字分割装置，通过将待识别文字输入目标文字分割模型中，获取待识别文字的文字分割结果，能够基于上述获得的目标文字分割模型，对待识别文字进行准确的分割。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述文字分割模型的获取方法或文字分割方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行文字分割模型的获取方法或文字分割方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现文字分割模型的获取方法或文字分割方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一示例性实施例示出的一种文字分割模型的获取方法的示意图。

图2是根据本公开一示例性实施例示出的UNet语义分割网络模型的示意图。

图3是根据本公开一示例性实施例示出的第一样本图片集和第二样本图片集的获取过程的示意图。

图4是根据本公开一示例性实施例示出的获取第一文字分割模型的示意图。

图5是根据本公开一示例性实施例示出的获取目标文字分割模型的示意图。

图6是根据本公开一示例性实施例示出的一种文字分割模型的获取方法的总体流程图。

图7是根据本公开一示例性实施例示出的一种文字分割方法的示意图。

图8是根据本公开一示例性实施例示出的待识别文字分割示意图。

图9是根据本公开一示例性实施例示出的一种文字分割方法的示意图。

图10是根据本公开一示例性实施例示出的一种文字分割模型的获取装置的示意图。

图11是根据本公开一示例性实施例示出的一种文字分割装置的示意图。

图12是根据本公开一示例性实施例示出的一种电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图像处理(Image Processing)，用计算机对图像进行分析，以达到所需结果的技术。又称影像处理。图像处理一般指数字图像处理。数字图像是指用工业相机、摄像机、扫描仪等设备经过拍摄得到的一个大的二维数组，该数组的元素称为像素，其值称为灰度值。图像处理技术一般包括图像压缩，增强和复原，匹配、描述和识别3个部分。

深度学习(Deep Learning，简称DL)，是机器学习(Machine Learning，简称ML)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

计算机视觉(Computer Vision)，是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

人工智能(Artificial Intelligence，简称AI)，是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。

光学字符识别(Optical Character Recognition，OCR),是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

图1是本申请提出的一种文字分割模型的获取方法的示例性实施方式，如图1所示，该文字分割模型的获取方法，包括以下步骤：

S101，获取目标训练文字集，其中，目标训练文字集中包括多个不同字体下的同一样本文字。

需要说明的是，本申请中，文字指的是中文所表述的汉字，比如说“秒”、“藻”、“他”等汉字。

需要说明的是，本申请中，字体指的是文字的风格，比如说宋体、楷体、草书等字体风格。

需要说明的是，本申请中，标注组成元素指的是一个文字的组成元素，比如说“他”字，由“亻”与“也”共两个组成元素构成。

将用于训练所选取的文字作为样本文字，将所有样本文字对应的集合作为目标训练文字集，其中，目标训练文字集中包括多个不同字体下的同一样本文字。比如说若样本文字包括106个不同的汉字，多个不同字体包括宋体、楷体、行书、草书等140种不同的字体，将这106个汉字作为一组，分别用宋体、楷体、行书、草书等140种不同的字体表示出这一组汉字，根据生成的106*140＝14840个文字组成目标训练文字集。

S102，基于目标训练文字集，生成第一样本图片集和第二样本图片集，其中，第一样本图片集中每个样本图片上包括至少一个第一样本文字和第一样本文字的标注组成元素，第二样本图片集中每个样本图片上包括至少一个第二样本文字。

在对初始文字分割模型进行训练之前，需要获取用于对初始文字分割模型进行训练的样本图片，记作第一样本图片，将所有第一样本图片组成的集合记作第一样本图片集。其中，第一样本图片集中包括多张第一样本图片，每张第一样本图片中都包括至少一个文字，将该文字记作第一样本文字，并且基于每张第一样本图片的像素点对第一样本文字的每个组成元素都进行了标注。可选的，第一样本图片集中的多张第一样本图片可覆盖多种字体。

获取用于对第一文字分割模型进行训练的样本图片，记作第二样本图片，将所有第二样本图片组成的集合记作第二样本图片集。其中，与第一样本图片类似的是，每张第二样本图片上包括至少一个文字，将该文字记作第二样本文字。与第一样本图片不同的是，不需要对第二样本图片上的第二样本文字进行标注。

S103，基于第一样本图片集对初始文字分割模型进行训练，获取第一文字分割模型。

本申请中的模型训练过程分为两个阶段，在第一训练阶段，将上述获得的第一样本图片集中的所有第一样本图片分批输入初始文字分割模型中，对初始文字分割模型进行有监督的训练，直至训练到满足设定条件结束训练以获取第一文字分割模型。其中，初始文字分割模型可以为UNet语义分割网络模型，图2是UNet语义分割网络模型的示意图。

需要注意的是，为了使得训练得到的模型有更好的分割效果，在将第一样本图片输入初始文字分割模型之前，若第一样本图片不是二值化后的图片，需要对所有第一样本图片进行二值化处理。

S104，基于第一样本图片集和第二样本图片集对第一文字分割模型进行训练，以获取目标文字分割模型。

在第二训练阶段，将上述获得的第一样本图片集中的所有第一样本图片和第二样本图片集中的所有第二样本图片分批输入上述第一训练阶段得到的第一文字分割模型中进行弱监督训练，直至训练到满足设定条件结束训练以获取目标文字分割模型。

需要注意的是，为了使得训练得到的模型有更好的分割效果，在将第一样本图片和第二样本图片输入第一文字分割模型之前，若第一样本图片或第二样本图片不是二值化后的图片，需要对所有第一样本图片和第二样本图片进行二值化处理。

本申请实施例提出的文字分割模型的获取方法，通过获取目标训练文字集，其中，目标训练文字集中包括多个不同字体下的同一样本文字；基于目标训练文字集，生成第一样本图片集和第二样本图片集，其中，第一样本图片集中每个样本图片上包括至少一个第一样本文字和第一样本文字的标注组成元素，第二样本图片集中每个样本图片上包括至少一个第二样本文字；基于第一样本图片集对初始文字分割模型进行训练，获取第一文字分割模型；基于第一样本图片集和第二样本图片集对第一文字分割模型进行训练，以获取目标文字分割模型。本申请选取多种字体的样本文字进行模型训练，提高了模型的泛化能力，增强了模型的通用性，只对第一样本图片集中的第一样本图片进行标注，减少了数据标注量，从而减少了标注成本，再通过第二样本图片集对第一文字分割模型进行再训练，提高了目标文字分割模型的分割准确性。

图3是本申请提出的一种文字分割模型的获取方法的示例性实施方式，如图3所示，基于上述实施例的基础上，第一样本图片集和第二样本图片集的获取过程，包括以下步骤：

S301，获取训练文字集和训练字体集，其中，训练文字集中包括多个样本文字，训练字体集中包括多种字体。

在确定第一样本图片集和第二样本图片集之前，需要先确定用于生成第一样本图片集和第二样本图片集的训练文字集和训练字体集，其中，训练文字集中包括多个样本文字，训练字体集中包括多种字体。示例性的，训练文字集可包括106个不同的汉字，训练字体集可包括140种不同的字体。

S302，基于训练字体集，对训练文字集中的样本文字进行字体转换，得到目标训练文字集。

根据上述所确定的训练字体集，对训练文字集中的样本文字进行字体转换，将得到的所有文字组成目标训练文字集。

示例性的，若训练文字集包括106个不同的汉字，训练字体集包括宋体、楷体、行书、草书等140种不同的字体，将这106个汉字作为一组，分别用宋体、楷体、行书、草书等140种不同的字体表示出这一组汉字，根据生成的106*140＝14840个文字组成目标训练文字集。

S303，基于目标训练文字集，生成第一样本图片集和第二样本图片集。

在目标训练文字集中，选取一部分文字作为第一部分文字，并基于第一部分文字生成第一样本图片集。示例性的，选取10种字体分别表示出的这一组106个汉字，共10*106＝1060个文字，将1060个文字中的每个文字都生成一张样本图片，共1060张样本图片，基于这1060张样本图片中的每张样本图片的像素点对每张样本图片上的第一样本文字的每个组成元素都进行标注，生成1060张第一样本图片，这1060张第一样本图片组成第一样本图片集。

在目标训练文字集中，选取除第一部分文字外剩余的文字作为第二部分文字，并基于第二部分文字生成第二样本图片集。示例性的，选取除上述生成第一样本图片集对应的10种字体之外的130种字体分别表示出的这一组106个汉字，共130*106＝13780个文字，将13780个文字中的每个文字都生成一张样本图片，共13780张样本图片，作为第二样本图片，这13780张第二样本图片组成第二样本图片集。

可选的，为了减少标注数据量从而减少标注成本，第二部位文字的数量可以大于第一部分文字的数量。

需要说明的是，上述为了表述方便将第一样本图片集和第二样本图片集对应的文字限定在了同样的106个，实际操作中，第一样本图片集和第二样本图片集中的样本图片对应的样本文字可不相同。

本申请实施例只对第一样本图片集中的第一样本图片进行标注，减少了数据标注量，从而减少了标注成本，且由于第一样本图片集和第二样本图片集中的样本图片覆盖了大量不同的字体，提高了目标文字分割模型的泛化能力，增强了模型的通用性。

图4是本申请提出的一种文字分割模型的获取方法的示例性实施方式，如图4所示，基于上述实施例的基础上，基于第一样本图片集对初始文字分割模型进行训练，获取第一文字分割模型，包括以下步骤：

S401，将第一样本图片集输入初始文字分割模型中进行分割，以获取第一样本文字的第一预测组成元素。

将第一样本图片集中的所有第一样本图片，分批输入初始文字分割模型中进行分割，并获取初始文字分割模型输出的第一样本文字对应的第一预测组成元素。比如说将带有“他”字的第一样本图片输入初始文字分割模型中进行分割，初始文字分割模型输出的“他”字对应的第一预测组成元素可包括“亻”和“也”。

需要注意的是，针对第一样本图片集中的任一样本图片，若任一样本图片为RGB图像，对任一样本图像进行二值化处理。

S402，基于标注组成元素和第一预测组成元素，确定初始文字分割模型的第一损失函数。

根据每张第一样本图片上对应的第一样本文字对应的人工标注的标注组成元素及其对应的标注像素点，和初始文字分割模型输出的第一样本文字对应的第一预测组成元素及第一预测组成元素所在的预测像素点，生成交叉熵损失函数和dice损失，并将交叉熵损失函数和dice损失进行加权，获得初始文字分割模型的第一损失函数。

交叉熵损失指的是交叉熵可在神经网络(机器学习)中作为损失函数，p表示真实标记的组成元素的分布，q则为训练后的模型的第一预测组成元素的分布，交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。

其中，dice损失是分割效果的一个评判指标，其公式相当于预测结果区域和标注正确(ground truth)区域的交并比，所以它是把一个类别的所有像素作为一个整体去计算Loss的。因为Dice Loss直接把分割效果评估指标作为Loss去监督网络，而且计算交并比时还忽略了大量背景像素，解决了正负样本不均衡的问题，所以收敛速度很快。

S403，基于第一损失函数对初始文字分割模型进行模型调节，并返回对调节后的初始文字分割模型进行训练，直至训练结束得到第一文字分割模型。

根据上述确定的第一损失函数对初始文字分割模型进行模型调节，并返回对调节后的初始文字分割模型进行训练，循环此过程直至第一损失函数值收敛至某一值，认为训练结束，得到第一文字分割模型。

本申请实施例基于第一损失函数对初始文字分割模型进行模型调节，直至第一损失函数稳定收敛得到第一文字分割模型，提高了第一文字分割模型分割能力的准确性。

图5是本申请提出的一种文字分割模型的获取方法的示例性实施方式，如图5所示，基于上述实施例的基础上，基于第一样本图片集和第二样本图片集对第一文字分割模型进行训练，以获取目标文字分割模型，包括以下步骤：

S501，将第一样本图片集输入第一文字分割模型中进行分割，以获取第一样本文字对应的第二预测组成元素。

将第一样本图片集中的所有第一样本图片，分批输入第一文字分割模型中进行分割，并获取第一文字分割模型输出的第一样本文字对应的第二预测组成元素。比如说将带有“旱”字的第一样本图片输入第一文字分割模型中进行分割，第一文字分割模型输出的“旱”字对应的第二预测组成元素可包括“曰”和“干”。

S502，将第二样本图片集输入第一文字分割模型中进行分割，以获取第二样本文字对应的第三预测组成元素。

将第二样本图片集中的所有第二样本图片，分批输入第一文字分割模型中进行分割，并获取第一文字分割模型输出的第二样本文字对应的第三预测组成元素。比如说将带有“品”字的第二样本图片输入第一文字分割模型中进行分割，第一文字分割模型输出的“品”字对应的第三预测组成元素可包括三个“口”。

需要注意的是，针对第二样本图片集中的任一样本图片，若任一样本图片为RGB图像，对任一样本图像进行二值化处理。

S503，基于标注组成元素和第二预测组成元素，确定第一文字分割模型的第二损失函数。

根据每张第一样本图片上对应的第一样本文字对应的人工标注的标注组成元素及其对应的标注像素点，和第一文字分割模型输出的第一样本文字对应的第二预测组成元素及第二预测组成元素所在的预测像素点，生成交叉熵损失函数和dice损失，并将交叉熵损失函数和dice损失进行加权，获得第一文字分割模型的第二损失函数。

S504，基于预设文字分解表和第三预测组成元素，确定第一文字分割模型的第三损失函数，其中，分解表中包括词典中文字对应的组成元素。

根据预设文字分解表和第三预测组成元素，确定第一文字分割模型的第三损失函数，其中，预设文字分解表中包括词典中所有文字对应的组成元素。其中，第三损失函数可为弱监督损失函数，原理为知道在分割结果中有哪些组成元素，分割得到的结果不可能在这些组成元素之外。比如“他”字，包含两个组成元素，“亻”和“也”，那么在分割结果掩膜中就不应该出现“子”这样的组成元素类别，只应该出现“亻”和“也”，通过这个信息就可以对未标注的第二样本图片进行弱监督训练。示例性的，第三损失函数可为累加制，当第一文字分割模型输出的第三预测组成元素正确时，第三损失函数减1，当第一文字分割模型输出的第三预测组成元素错误时，第三损失函数加1。

S505，基于第二损失函数和第三损失函数，对第一文字分割模型进行模型调节，并返回对调节后的第一文字分割模型进行训练，直至训练结束得到目标文字分割模型。

根据上述确定的第二损失函数和第三损失函数，对第一训练阶段获得的第一文字分割模型进行模型调节，并返回对调节后的第一文字分割模型进行训练，循环此过程直至第二损失函数和第三损失函数收敛至某一值，认为训练结束，得到目标文字分割模型。

本申请实施例基于第二损失函数和第三损失函数对第一文字分割模型进行模型调节，直至训练结束得到目标文字分割模型，提高了目标文字分割模型分割能力的准确性。

图6是本申请提出的一种文字分割模型的获取方法的总体流程图，如图6所示，该文字分割模型的获取方法，包括以下步骤：

S601，获取训练文字集和训练字体集，其中，训练文字集中包括多个样本文字，训练字体集中包括多种字体。

S602，基于训练字体集，对训练文字集中的样本文字进行字体转换，得到目标训练文字集。

S603，基于目标训练文字集，生成第一样本图片集和第二样本图片集，其中，第一样本图片集中每个样本图片上包括至少一个第一样本文字和第一样本文字的标注组成元素，第二样本图片集中每个样本图片上包括至少一个第二样本文字。

关于步骤S601～S603的实现方式，可参照上述实施例中相应部分的具体描述，在此不再进行赘述。

S604，将第一样本图片集输入初始文字分割模型中进行分割，以获取第一样本文字的第一预测组成元素。

S605，基于标注组成元素和第一预测组成元素，确定初始文字分割模型的第一损失函数。

S606，基于第一损失函数对初始文字分割模型进行模型调节，并返回对调节后的初始文字分割模型进行训练，直至训练结束得到第一文字分割模型。

关于步骤S604～S606的实现方式，可参照上述实施例中相应部分的具体描述，在此不再进行赘述。

S607，将第一样本图片集输入第一文字分割模型中进行分割，以获取第一样本文字对应的第二预测组成元素。

S608，将第二样本图片集输入第一文字分割模型中进行分割，以获取第二样本文字对应的第三预测组成元素。

S609，基于标注组成元素和第二预测组成元素，确定第一文字分割模型的第二损失函数。

S610，基于预设文字分解表和第三预测组成元素，确定第一文字分割模型的第三损失函数，其中，分解表中包括词典中文字对应的组成元素。

S611，基于第二损失函数和第三损失函数，对第一文字分割模型进行模型调节，并返回对调节后的第一文字分割模型进行训练，直至训练结束得到目标文字分割模型。

关于步骤S607～S611的实现方式，可参照上述实施例中相应部分的具体描述，在此不再进行赘述。

本申请实施例通过获取目标训练文字集，其中，目标训练文字集中包括多个不同字体下的同一样本文字；基于目标训练文字集，生成第一样本图片集和第二样本图片集，其中，第一样本图片集中每个样本图片上包括至少一个第一样本文字和第一样本文字的标注组成元素，第二样本图片集中每个样本图片上包括至少一个第二样本文字；基于第一样本图片集对初始文字分割模型进行训练，获取第一文字分割模型；基于第一样本图片集和第二样本图片集对第一文字分割模型进行训练，以获取目标文字分割模型。本申请选取多种字体的样本文字进行模型训练，提高了模型的泛化能力，只对第一样本图片集中的第一样本图片进行标注，减少了数据标注量，从而减少了标注成本，再通过第二样本图片集对第一文字分割模型进行再训练，提高了目标文字分割模型的分割准确性，且由于第一样本图片集和第二样本图片集中的样本图片覆盖了大量不同的字体，提高了目标文字分割模型的泛化能力。

图7是本申请提出的一种文字分割方法的示例性实施方式，如图7所示，该文字分割方法，包括以下步骤：

S701，将待识别文字输入目标文字分割模型中，获取待识别文字的文字分割结果。

若有文字需要进行分割，将需要进行分割的文字作为待识别文字输入目标文字分割模型中，获取待识别文字的文字分割结果。其中，目标文字分割模型采用如上述文字分割模型的获取方法训练得到。

图8是待识别文字分割示意图，如图8所示，将“芯”作为待识别文字输入目标文字分割模型中，获取待识别文字的文字分割结果为“艹”和“心”，图8上以不同灰度示出。

本申请实施例通过将待识别文字输入目标文字分割模型中，获取待识别文字的文字分割结果，能够基于上述获得的目标文字分割模型，对待识别文字进行准确的分割。

基于上述实施例训练得到的目标文字分割模型，可获取现有某个字体中待识别文字的文字分割结果，并基于文字分割结果对待识别文字某个组成元素进行替换以得到新的字体，图9是本申请提出的一种文字分割方法的示例性实施方式，如图9所示，该文字分割方法，包括以下步骤：

S901，将待识别文字输入目标文字分割模型中，获取待识别文字的文字分割结果。

S902，根据文字分割结果，获取待识别文字对应的待替换的第一组成元素。

根据上述待识别文字的文字分割结果，根据实际需求，获取待识别文字对应的待替换的组成元素作为第一组成元素。示例性的，若用户现在使用的字体为宋体，用户觉得宋体中的草字头不符合审美，想将宋体中的所有字的草字头都替换为用户所书写的草字头，则根据宋体中的所有文字的文字分割结果，获取宋体中的所有文字的草字头作为待替换的第一组成元素。

示例性的，若用户现在使用的字体为宋体，用户觉得宋体中的草字头不符合审美，想将宋体中的所有字的草字头都替换为楷体的草字头，则根据宋体中的所有文字的文字分割结果，获取宋体中的所有文字的草字头作为待替换的第一组成元素。

S903，获取用于对第一组成元素进行替换的第二组成元素。

获取用于对第一组成元素进行替换的组成元素作为第二组成元素。示例性的，若用户想将宋体中的所有字的草字头都替换为用户所书写的草字头，则用户所书写的草字头即为第二组成元素。示例性的，若用户想将宋体中的所有字的草字头都替换为楷体的草字头，则楷体的草字头即为第二组成元素。

S904，将待第一组成元素替换为第二组成元素。

根据文字分割结果，将待第一组成元素替换为第二组成元素。

进一步的，由于同一个组成元素在不同的文字中的尺寸大小不一定相同，比如说“暮”和“莫”，都包含有组成元素“大”，但组成元素“大”在“暮”和“莫”中的尺寸大小并不相同。故在将待第一组成元素替换为第二组成元素时，首先确定第一组成元素的位置信息和尺寸信息，并基于尺寸信息，对第二组成元素进行调整，再根据第一组成元素的位置信息，将第一组成元素替换为调整后的第二组成元素。

本申请实施例通过对待识别文字对应的待替换的第一组成元素进行替换，能够灵活多变的获取用户需要的字体，减少了字体设计的难度。

图10是本申请提出的一种文字分割模型的获取装置的示意图，如图10所示，该文字分割模型的获取装置1000，包括获取模块11、生成模块12、第一训练模块13和第二训练模块14，其中：

获取模块11，用于获取目标训练文字集，其中，目标训练文字集中包括多个不同字体下的同一样本文字；

生成模块12，用于基于目标训练文字集，生成第一样本图片集和第二样本图片集，其中，第一样本图片集中每个样本图片上包括至少一个第一样本文字和第一样本文字的标注组成元素，第二样本图片集中每个样本图片上包括至少一个第二样本文字；

第一训练模块13，用于基于第一样本图片集对初始文字分割模型进行训练，获取第一文字分割模型；

第二训练模块14，用于基于第一样本图片集和第二样本图片集对第一文字分割模型进行训练，以获取目标文字分割模型。

本申请实施例提出的文字分割模型的获取装置，通过获取目标训练文字集，其中，目标训练文字集中包括多个不同字体下的同一样本文字；基于目标训练文字集，生成第一样本图片集和第二样本图片集，其中，第一样本图片集中每个样本图片上包括至少一个第一样本文字和第一样本文字的标注组成元素，第二样本图片集中每个样本图片上包括至少一个第二样本文字；基于第一样本图片集对初始文字分割模型进行训练，获取第一文字分割模型；基于第一样本图片集和第二样本图片集对第一文字分割模型进行训练，以获取目标文字分割模型。本申请只对第一样本图片集中的第一样本图片进行标注，减少了数据标注量，从而减少了标注成本，再通过第二样本图片集对第一文字分割模型进行再训练，提高了目标文字分割模型的分割准确性。

进一步的，获取模块11，还用于：获取训练文字集和训练字体集，其中，训练文字集中包括多个样本文字，训练字体集中包括多种字体；基于训练字体集，对训练文字集中的样本文字进行字体转换，得到目标训练文字集；基于目标训练文字集，生成第一样本图片集和第二样本图片集。

进一步的，获取模块11，还用于：基于目标训练文字集中的第一部分文字，生成第一样本图片集；基于目标训练文字集中剩余的第二部分文字，生成第二样本图片集。

进一步的，文字分割模型的获取装置1000中第二部位文字的数量大于第一部分文字的数量。

进一步的，第一训练模块13，还用于：将第一样本图片集输入初始文字分割模型中进行分割，以获取第一样本文字的第一预测组成元素；基于标注组成元素和第一预测组成元素，确定初始文字分割模型的第一损失函数；基于第一损失函数对初始文字分割模型进行模型调节，并返回对调节后的初始文字分割模型进行训练，直至训练结束得到第一文字分割模型。

进一步的，第二训练模块14，还用于：将第一样本图片集输入第一文字分割模型中进行分割，以获取第一样本文字对应的第二预测组成元素；将第二样本图片集输入第一文字分割模型中进行分割，以获取第二样本文字对应的第三预测组成元素；基于标注组成元素和第二预测组成元素，确定第一文字分割模型的第二损失函数；基于预设文字分解表和第三预测组成元素，确定第一文字分割模型的第三损失函数，其中，分解表中包括词典中文字对应的组成元素；基于第二损失函数和第三损失函数，对第一文字分割模型进行模型调节，并返回对调节后的第一文字分割模型进行训练，直至训练结束得到目标文字分割模型。

进一步的，文字分割模型的获取装置1000还包括处理模块15，处理模块15，用于：针对第一样本图片集和第二样本图片集中的任一样本图片，响应于任一样本图片为RGB图像，对任一样本图像进行二值化处理。

图11是本申请提出的一种文字分割装置的示意图，如图11所示，该文字分割装置1100，包括：

文字分割模型111，该文字分割模型111可由上述文字分割模型的获取装置1000获得。

处理模块112，用于将待识别文字输入目标文字分割模型中，获取待识别文字的文字分割结果。

进一步的，处理模块112，还用于：根据文字分割结果，获取待识别文字对应的待替换的第一组成元素；获取用于对第一组成元素进行替换的第二组成元素；将待第一组成元素替换为第二组成元素。

进一步的，处理模块112，还用于：根据文字分割结果，确定第一组成元素的位置信息和尺寸信息；基于尺寸信息，对第二组成元素进行调整；基于位置信息，将第一组成元素替换为调整后的第二组成元素。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如文字分割模型的获取方法或文字分割方法。例如，在一些实施例中，文字分割模型的获取方法或文字分割方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的文字分割模型的获取方法或文字分割方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文字分割模型的获取方法或文字分割方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文字分割模型的获取方法，包括：

获取目标训练文字集，其中，所述目标训练文字集中包括多个不同字体下的同一样本文字；

基于所述目标训练文字集，生成第一样本图片集和第二样本图片集，其中，所述第一样本图片集中每个样本图片上包括至少一个第一样本文字和所述第一样本文字的标注组成元素，所述第二样本图片集中每个样本图片上包括至少一个第二样本文字；

基于所述第一样本图片集对初始文字分割模型进行训练，获取第一文字分割模型；

基于所述第一样本图片集和所述第二样本图片集对所述第一文字分割模型进行训练，以获取目标文字分割模型。

2.根据权利要求1所述的方法，其中，所述目标训练文字集的获取方法，包括：

获取训练文字集和训练字体集，其中，所述训练文字集中包括多个样本文字，所述训练字体集中包括多种字体；

基于所述训练字体集，对所述训练文字集中的样本文字进行字体转换，得到所述目标训练文字集。

3.根据权利要求2所述的方法，其中，所述基于所述目标训练文字集，生成第一样本图片集和第二样本图片集，包括：

基于所述目标训练文字集中的第一部分文字，生成所述第一样本图片集；

基于所述目标训练文字集中剩余的第二部分文字，生成所述第二样本图片集。

4.根据权利要求3所述的方法，其中，所述第二部位文字的数量大于所述第一部分文字的数量。

5.根据权利要求1-4中任一项所述的方法，其中，所述基于所述第一样本图片集对初始文字分割模型进行训练，获取第一文字分割模型，包括：

将所述第一样本图片集输入所述初始文字分割模型中进行分割，以获取所述第一样本文字的第一预测组成元素；

基于所述标注组成元素和所述第一预测组成元素，确定所述初始文字分割模型的第一损失函数；

基于所述第一损失函数对所述初始文字分割模型进行模型调节，并返回对调节后的初始文字分割模型进行训练，直至训练结束得到所述第一文字分割模型。

6.根据权利要求1-4中任一项所述的方法，其中，所述基于所述第一样本图片集和所述第二样本图片集对所述第一文字分割模型进行训练，以获取目标文字分割模型，包括：

将所述第一样本图片集输入所述第一文字分割模型中进行分割，以获取所述第一样本文字对应的第二预测组成元素；

将所述第二样本图片集输入所述第一文字分割模型中进行分割，以获取所述第二样本文字对应的第三预测组成元素；

基于所述标注组成元素和所述第二预测组成元素，确定所述第一文字分割模型的第二损失函数；

基于预设文字分解表和所述第三预测组成元素，确定所述第一文字分割模型的第三损失函数，其中，所述分解表中包括词典中文字对应的组成元素；

基于所述第二损失函数和所述第三损失函数，对所述第一文字分割模型进行模型调节，并返回对调节后的第一文字分割模型进行训练，直至训练结束得到所述目标文字分割模型。

7.根据权利要求1-4中任一项所述的方法，所述基于所述第一样本图片集和所述第二样本图片集对所述第一文字分割模型进行训练之前，还包括：

针对所述第一样本图片集和所述第二样本图片集中的任一样本图片，响应于所述任一样本图片为RGB图像，对所述任一样本图像进行二值化处理。

8.一种文字分割方法，包括：

将待识别文字输入目标文字分割模型中，获取所述待识别文字的文字分割结果，其中，所述目标文字分割模型采用如权利要求1-7中任一项所述的方法训练得到。

9.根据权利要求8所述的方法，其中，所述获取所述待识别文字的文字分割结果之后，还包括：

根据所述文字分割结果，获取所述待识别文字对应的待替换的第一组成元素；

获取用于对所述第一组成元素进行替换的第二组成元素；

将所述待第一组成元素替换为所述第二组成元素。

10.根据权利要求9所述的方法，其中，所述将所述待第一组成元素替换为所述第二组成元素，包括：

根据所述文字分割结果，确定所述第一组成元素的位置信息和尺寸信息；

基于所述尺寸信息，对所述第二组成元素进行调整；

基于所述位置信息，将所述第一组成元素替换为所述调整后的第二组成元素。

11.一种文字分割模型的获取装置，包括：

获取模块，用于获取目标训练文字集，其中，所述目标训练文字集中包括多个不同字体下的同一样本文字；

生成模块，用于基于所述目标训练文字集，生成第一样本图片集和第二样本图片集，其中，所述第一样本图片集中每个样本图片上包括至少一个第一样本文字和所述第一样本文字的标注组成元素，所述第二样本图片集中每个样本图片上包括至少一个第二样本文字；

第一训练模块，用于基于所述第一样本图片集对初始文字分割模型进行训练，获取第一文字分割模型；

第二训练模块，用于基于所述第一样本图片集和所述第二样本图片集对所述第一文字分割模型进行训练，以获取目标文字分割模型。

12.根据权利要求11所述的装置，其中，所述获取模块，还用于：

13.根据权利要求12所述的装置，其中，所述获取模块，还用于：

14.根据权利要求13所述的装置，其中，所述第二部位文字的数量大于所述第一部分文字的数量。

15.根据权利要求11-14中任一项所述的装置，其中，所述第一训练模块，还用于：

16.根据权利要求11-14中任一项所述的装置，其中，所述第二训练模块，还用于：

17.根据权利要求11-14中任一项所述的装置，其中，还包括处理模块，所述处理模块，用于：

18.一种文字分割装置，包括：

处理模块，用于将待识别文字输入目标文字分割模型中，获取所述待识别文字的文字分割结果，其中，所述目标文字分割模型采用如权利要求1-7中任一项所述的方法训练得到。

19.根据权利要求18所述的装置，其中，所述处理模块，还用于：

获取用于对所述第一组成元素进行替换的第二组成元素；

将所述待第一组成元素替换为所述第二组成元素。

20.根据权利要求19所述的装置，其中，所述处理模块，还用于：

基于所述尺寸信息，对所述第二组成元素进行调整；

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7或权利要求8-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7或权利要求8-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7或权利要求8-10中任一项所述的方法。