CN117058273A

CN117058273A - 通用文本图像生成方法、系统、电子设备及存储介质

Info

Publication number: CN117058273A
Application number: CN202310961717.1A
Authority: CN
Inventors: 杨文哲
Original assignee: Shanghai Yuncong Enterprise Development Co ltd
Current assignee: Shanghai Yuncong Enterprise Development Co ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-11-14

Abstract

本发明涉及图像合成技术领域，具体提供一种通用文本图像生成方法、系统、电子设备及存储介质，旨在解决现有技术中无法快速获取全面精准覆盖不同场景下不同字体的训练图像的问题。为此目的，本发明的通用文本图像生成方法包括：获取字体文件和背景图片；根据目标训练场景选取对应的样本字符串，其中，字符串包括至少一个字符；根据字体文件、背景图片以及样本字符串，生成训练用的通用文本图像。本发明通过利用字体文件来获取待生成图像中文字的字体样式，能够使生成的图像样式丰富并能覆盖多种文字风格；本发明通过选取与训练场景对应的字符串来缩小训练范围，减小训练数据量的同时提高了训练精准度。

Description

通用文本图像生成方法、系统、电子设备及存储介质

技术领域

本发明涉及图像合成技术领域，具体提供一种通用文本图像生成方法、系统、电子设备及存储介质。

背景技术

通用光学字符识别(General Optical Character Recognition，General OCR)算法是开展各项OCR业务的基础算法，其基于前沿的深度学习技术，可以将自然场景、文本文档、票据图片中存在的文字图像自动识别并转换为可编辑的文本，大幅度提升工作及生活中的信息处理效率。目前业内普遍采用基于两步走的策略来进行文本识别，即首先将输入图像中的文本按行进行检测，然后将每行文本裁剪为一个单独的切片，将只包含单行文本的切片送入文字识别模型进行识别，最后将每行文本的识别结果对齐到原图，即可得到最终整张图片的结果。

其中，通用文字识别任务是通用OCR算法中的一项基础且重要的任务。在前置检测模型获取到文本切片后，文字识别模型是否能够准确识别切片上的所有字符将直接决定最终的算法效果。然而，汉字作为一种表意文字，与表音文字对识别模型的要求有着巨大的不同。常见的表音文字如英语、法语等只需要准确识别几十个不同的字符即可，而汉字的字符数最多可达九万多种，去除大部分罕见的汉字后，也有九千多个常用汉字需要网络能够准确的区分并识别。在这九千多个汉字字符中，不仅存在着很多仅仅偏旁有细微差异的相似字符，且在实际应用中，根据实际用途的需要还会选用不同字体，同一个字符的不同字体间也可能会存在明显差异。因此，想要能够准确识别每个汉字字符，就需要大量的文本图像数据来对识别模型训练。

目前，常用的基于人工收集并标注的图像采集方法在文本识别任务中并不适用，首先是由于文本的人工收集及标注成本巨大，难以短时有效地获取大量可用数据；此外真实场景下的文本数据受自然语言词频的影响，常见字比例占比过高，不利于模型对出现频率较低的文字的学习。因此，如何快速地获取大量训练数据，且能够尽可能全面且均匀地覆盖到不同字符、不同字体，成为了文本识别任务的一个重点及难点。

相应地，本领域需要一种新的通用文本图像生成方法、系统、电子设备及存储介质的方案来解决上述问题至少之一。

发明内容

为了克服上述缺陷至少之一，提出了本发明，以提供解决或至少部分地解决现有技术中无法快速获取全面精准覆盖不同场景下不同字体的训练图像的技术问题的通用文本图像生成方法、系统、电子设备及存储介质。

在第一方面，本发明提供一种通用文本图像生成方法，包括：

获取字体文件和背景图片；

根据目标训练场景选取对应的样本字符串，其中，所述字符串包括至少一个字符；

根据所述字体文件、所述背景图片以及所述样本字符串，生成训练用的通用文本图像。

在上述通用文本图像生成方法的一个技术方案中，所述“根据目标训练场景选取对应的样本字符串”包括：

随机抽取预设字符字典中的字符，生成随机字符串；

根据所述目标训练场景配置对应的标准字符集；

将所述随机字符串中未包含在所述标准字符集内的字符删除，得到所述样本字符串。

根据所述目标训练场景配置对应的语料库，其中，所述语料库包括至少一个预设字符串，所述预设字符串与所述目标训练场景相对应；

在所述语料库中随机选取预设字符串并记为所述样本字符串。

在上述通用文本图像生成方法的一个技术方案中，所述“根据所述字体文件、所述背景图片以及所述样本字符串，生成训练用的通用文本图像”包括：

将所述字符串中的字符按照所述字体文件对应的字体样式绘制到所述背景图片上，生成所述通用文本图像。

在上述通用文本图像生成方法的一个技术方案中，所述方法还包括：

针对所述样本字符串中的每一个字符，判断该字符是否在所述字体文件中存在对应的字体，若否，则将所述字符删除。

配置图像生成规则，其中，所述图像生成规则包括字符宽度、字符高度、字符间距、字符颜色、字符串排列方向以及图像增强中的一种或多种的组合；

配置图像生成参数，其中，所述生成参数至少包括随机种子和生成数量；

根据所述图像生成规则和所述图像生成参数，生成所述训练用的通用文本图像。

在上述通用文本图像生成方法的一个技术方案中，所述图像生成规则被存储为json格式的文件。

在第二方面，本发明提供一种通用文本图像生成系统，包括：

获取模块，所述获取模块被配置为获取字体文件和背景图片；筛选模块，所述筛选模块被配置为根据目标训练场景选取对应的样本字符串，其中，所述字符串包括至少一个字符；生成模块，所述生成模块被配置为根据所述字体文件、所述背景图片以及所述样本字符串，生成训练用的通用文本图像。

在第三方面，提供一种电子设备，该电子设备包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述通用文本图像生成方法的技术方案中任一项技术方案所述的通用文本图像生成方法。

在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述通用文本图像生成方法的技术方案中任一项技术方案所述的通用文本图像生成方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

在实施本发明的技术方案中，获取字体文件和背景图片，根据目标训练场景选取对应的样本字符串，根据字体文件、背景图片以及样本字符串，生成训练用的通用文本图像。通过利用字体文件来获取待生成图像中文字的字体样式，能够使生成的图像样式丰富并能覆盖多种文字风格；通过选取与训练场景对应的字符串来缩小训练范围，减小训练数据量的同时提高了训练精准度。

进一步地，在实施本发明的技术方案中，随机抽取预设字符字典中的字符，生成随机字符串，根据目标训练场景配置对应的标准字符集，将随机字符串中未包含在标准字符集内的字符删除，得到样本字符串。通过目标训练场景配置符合该应用场景的标准字符集，该标准字符集为高频率出现在目标场景下的字符的集合，利用该字符集得到优化后的字符串，提高了利用该字符串作为训练样本的模型在目标场景下的识别精度。通过预设字符字典，使得本发明在不需要其它额外数据的情况下，可以利用预设字符字典针对不同的目标场景配置不同的字符集，进而得到符合不同场景的文本图像，保证了本发明的普适性。

进一步地，在实施本发明的技术方案中，根据目标训练场景配置对应的语料库，其中，该语料库包括至少一个与目标训练场景相对应预设字符串，在语料库中随机选取预设字符串并记为样本字符串。通过配置与目标场景相对应的语料库，语料库中包含有符合目标场景的具体文本语义的字符串，使得生成的文本图像中的文字更加符合实际，减小了模型训练难度的同时提高了模型在目标场景下的识别精度。

进一步地，在实施本发明的技术方案中，针对样本字符串中的每一个字符，判断该样本字符是否在字体文件中存在对应的字体，若否，则将该样本字符删除。通过利用字体文件进一步筛选样本字符串中的字符，剔除样本字符串中没有对应字体的字符，避免在以选定的字体样式绘制字符时出现错误。

进一步地，在实施本发明的技术方案中，配置图像生成规则和图像生成参数，根据图像生成规则和图像生成参数生成训练用的通用文本图像。通过图像生成规则设定字符宽度、字符高度、字符间距、字符颜色、字符串排列方向及图像增强，使得在生成时会根据规则生成样式多样的文本图像，为识别模型提供丰富的文本图像数据。

进一步地，在实施本发明的技术方案中，图像生成规则被存储为json格式的文件。配置文件采用标准的json格式进行存储和读取，方便后续的迁移和使用。

附图说明

参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。此外，图中类似的数字用以表示类似的部件，其中：

图1是根据本发明的一个实施例的通用文本图像生成方法的主要步骤流程示意图；

图2是根据本发明的一个实施例的根据目标训练场景选取对应的样本字符串的主要步骤流程示意图；

图3是根据本发明的另一个实施例的根据目标训练场景选取对应的样本字符串的主要步骤流程示意图；

图4是根据本发明的一个实施例的生成的通用文本图像的示例图；

图5是根据本发明的一个实施例的通用文本图像生成系统的主要结构框图示意图。

附图标记列表：

11：获取模块；12：筛选模块；13：生成模块。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

参阅附图1，图1是根据本发明的一个实施例的通用文本图像生成方法的主要步骤流程示意图。如图1所示，本发明实施例中的通用文本图像生成方法主要包括下列步骤S1-步骤S3。

步骤S1、获取字体文件和背景图片。

在本实施例中，对于任意一个文本图像场景，首先可以通过网络搜索等途径收集相似的字体和背景图像，并添加到基础资源库中以供后续使用。

步骤S2、根据目标训练场景选取对应的样本字符串。

在本实施例中，常用通用字符字典为九千多类，但对于某些特殊任务，其字符可以进一步限定到一个较小的范围。不同的目标训练场景即为不同的识别任务，例如识别日期场景、识别发票场景、识别地址场景等。对于不同的识别任务，为了提高识别精准度，需要训练针对该场景的识别模型。样本字符串即为对应场景下的文字序列、短句或长句，具体如“年月日”、“万千百元角分”等字符。

在图1所示实施例的步骤S2中，请结合参阅图2，图2是根据本发明的一个实施例的根据目标训练场景选取对应的样本字符串的主要步骤流程示意图，图2所示实施例的根据目标训练场景选取对应的样本字符串主要包括下列步骤S211-步骤S213。

步骤S211、随机抽取预设字符字典中的字符，生成随机字符串。

在本实施例中，预设字符字典一般预置于系统底层，用于表示字符集和的固定映射表，其将每个字符与一个唯一的数字或编码关联起来，以便计算机能够识别和处理文本数据。字符串即为随机抽取到的字符组成的序列。

步骤S212、根据目标训练场景配置对应的标准字符集。

在本实施例中，根据具体的目标场景和任务需求，选择适当的标准字符集，其中，标准字符集为符合目标场景类型的字符集合。

步骤S213、将随机字符串中未包含在标准字符集内的字符删除，得到样本字符串。

在本实施例中，因为随机字符串中的字符是随机抽取得到的，对于一个具体的日期识别场景，利用标准字符集可以删除随机字符串内的例如“斤、两、克”等不符合日期识别场景的字符，剩余的字符组成的字符串则即为样本字符串。若随机字符串中的字符均不在标准字符集，则可以重新随机抽取字符组成新的随机字符串。

在图1所示实施例的步骤S2中，请结合参阅图3，图3是根据本发明的另一个实施例的根据目标训练场景选取对应的样本字符串的主要步骤流程示意图，图3所示实施例的根据目标训练场景选取对应的样本字符串主要包括下列步骤S221-步骤S222。

步骤S221、根据目标训练场景配置对应的语料库。

在本实施例中，语料库包含训练所需的文本数据，不同目标场景对应的不同语料库可以提供特定领域的文本样本，例如新闻语料库、医学语料库、法律语料库等。

步骤S222、在语料库中随机选取预设字符串并记为样本字符串。

在本实施例中，由于语料库中的文本语句具有特定的语义，因此还可以利用文本语句来训练模型的联想能力，从而使得该模型能够根据识别到的上下文信息联想出无法清晰识别到的字符，本发明在此不做限定。

步骤S3、根据字体文件、背景图片以及样本字符串，生成训练用的通用文本图像。

在本实施例中，将字符串中的字符按照字体文件对应的字体样式绘制到背景图片上，生成通用文本图像。

在本实施例的一个实施方式中，可以针对样本字符串中的每一个字符，判断该样本字符是否在字体文件中存在对应的字体，若否，则将样本字符删除，从而避免某些生僻字因为没有对应字体而绘制错误。

在本实施例的另一个实施方式中，还可以配置图像生成规则和图像生成参数，其中，图像生成规则包括字符宽度、字符高度、字符间距、字符颜色、字符串排列方向以及图像增强中的一种或多种的组合，生成参数至少包括随机种子和生成数量。运行生成工具：首先随机挑选一幅背景图像的一部分作为待生成图像的背景，并随机选择一个字体；从语料库中随机挑选一个短句，或者，在字符字典中随机抽取字符组成随机字符串，并利用标准字符集剔除不符合目标场景的字符；将样本字符串中的每一个字符按照选定字体的样式、根据图像生成规则绘制到背景图像上，得到如图4所示的通用文本图像的示例图，其中，图4为采用隶书字体、带纹理的灰色背景以及添加了下划线增强后生成的通用文本图像；最后，根据随机种子和生成样本数量等参数，重复上述步骤以生成对应数量的通用文本图像。

基于上述全部步骤S1-步骤S3，在实施本发明的技术方案中，通过利用字体文件来获取待生成图像中文字的字体样式，能够使生成的图像样式丰富并能覆盖多种文字风格；通过选取与训练场景对应的字符串来缩小训练范围，减小训练数据量的同时提高了训练精准度；通过目标训练场景配置符合该应用场景的标准字符集，该标准字符集为高频率出现在目标场景下的字符的集合，利用该字符集得到优化后的字符串，提高了利用该字符串作为训练样本的模型在目标场景下的识别精度；通过预设字符字典，使得本发明在不需要其它额外数据的情况下，可以利用预设字符字典针对不同的目标场景配置不同的字符集，进而得到符合不同场景的文本图像，保证了本发明的普适性；通过配置与目标场景相对应的语料库，语料库中包含有符合目标场景的具体文本语义的字符串，使得生成的文本图像中的文字更加符合实际，减小了模型训练难度的同时提高了模型在目标场景下的识别精度；通过利用字体文件进一步筛选样本字符串中的字符，剔除样本字符串中没有对应字体的字符，避免在以选定的字体样式绘制字符时出现错误；通过图像生成规则设定字符宽度、字符高度、字符间距、字符颜色、字符串排列方向及图像增强，使得在生成时会根据规则生成样式多样的文本图像，为识别模型提供丰富的文本图像数据。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本发明的保护范围之内。

进一步，本发明还提供了一种通用文本图像生成系统。

参阅附图5，图5是根据本发明的一个实施例的通用文本图像生成系统的主要结构框图。如图5所示，本发明实施例中的通用文本图像生成系统主要包括获取模块11、筛选模块12和生成模块13。在一些实施例中，获取模块11、筛选模块12和生成模块13中的一个或多个可以合并在一起成为一个模块。在一些实施例中获取模块11可以被配置成获取字体文件和背景图片。筛选模块12可以被配置成根据目标训练场景选取对应的样本字符串，其中，字符串包括至少一个字符。生成模块13可以被配置成根据字体文件、背景图片以及样本字符串，生成训练用的通用文本图像。一个实施方式中，通用文本图像生成系统具体实现功能的描述可以参见步骤S1-步骤S3所述。

上述通用文本图像生成系统以用于执行图1所示的通用文本图像生成方法实施例，两者的技术原理、所解决的技术问题及产生的技术效果相似，本技术领域技术人员可以清楚地了解到，为了描述的方便和简洁，通用文本图像生成系统的具体工作过程及有关说明，可以参考通用文本图像生成方法的实施例所描述的内容，此处不再赘述。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中，控制装置包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的通用文本图像生成方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的通用文本图像生成方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。

进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的通用文本图像生成方法的程序，该程序可以由处理器加载并运行以实现上述通用文本图像生成方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种通用文本图像生成方法，其特征在于，所述方法包括：

获取字体文件和背景图片；

2.如权利要求1所述的方法，其特征在于，所述“根据目标训练场景选取对应的样本字符串”包括：

随机抽取预设字符字典中的字符，生成随机字符串；

根据所述目标训练场景配置对应的标准字符集；

3.如权利要求1所述的方法，其特征在于，所述“根据目标训练场景选取对应的样本字符串”包括：

4.如权利要求2-3任一项所述的方法，其特征在于，所述“根据所述字体文件、所述背景图片以及所述样本字符串，生成训练用的通用文本图像”包括：

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

针对所述样本字符串中的每一个字符，判断该样本字符是否在所述字体文件中存在对应的字体，若否，则将所述样本字符删除。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.如权利要求6所述的方法，其特征在于，所述图像生成规则被存储为json格式的文件。

8.一种通用文本图像生成系统，其特征在于，所述系统包括：

获取模块，所述获取模块被配置为获取字体文件和背景图片；

筛选模块，所述筛选模块被配置为根据目标训练场景选取对应的样本字符串，其中，所述字符串包括至少一个字符；

生成模块，所述生成模块被配置为根据所述字体文件、所述背景图片以及所述样本字符串，生成训练用的通用文本图像。

9.一种电子设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至7中任一项所述的通用文本图像生成方法。

10.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的通用文本图像生成方法。