CN113743438B

CN113743438B - 文本检测用数据集生成方法、装置和系统

Info

Publication number: CN113743438B
Application number: CN202010843595.2A
Authority: CN
Inventors: 窦方正
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2024-06-18
Anticipated expiration: 2040-08-20
Also published as: CN113743438A

Abstract

本发明公开了一种文本检测用数据集生成方法、装置和系统，涉及计算机技术领域。该方法的一具体实施方式包括：获取配置文件，其中，配置文件包括：背景配置信息和文本配置信息；利用资源库存储的背景模板资源和背景配置信息，生成背景图片；根据文本配置信息，将资源库存储的部分文本添加到背景图片中，生成文本检测用数据集；标注并存储文本检测用数据集包括的文本的位置信息。该实施方式能够保障文本检测用数据集的完备性和多样性。

Description

文本检测用数据集生成方法、装置和系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本检测用数据集生成方法、装置和系统。

背景技术

目前，在任何需要将图片中的文字提取出来的应用中，一般采用文本检测模型进行文本检测，并在文本检测结果的基础上再进行后续的文本识别。其中，文本检测模型是由大量的数据集训练得到。

一般来说，文本检测用数据集直接从网络上进行爬取或从数据库中读取。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

现有的文本检测用数据集获取方法，无法保障数据的完备性和多样性。

发明内容

有鉴于此，本发明实施例提供一种文本检测用数据集生成方法、装置和系统，能够保障文本检测用数据集的完备性和多样性。

为实现上述目的，根据本发明实施例的一个方面，提供了一种文本检测用数据集生成方法，包括：

获取配置文件，其中，所述配置文件包括：背景配置信息和文本配置信息；

利用所述背景配置信息和资源库存储的背景模板资源，生成背景图片；

根据所述文本配置信息，将所述资源库存储的部分文本添加到所述背景图片中，生成文本检测用数据集；

标注并存储所述文本检测用数据集包括的文本的位置信息。

优选地，

所述配置文件进一步包括：图像块信息；

根据所述图像块信息，在所述背景图片上绘制出至少两个待用图像块，其中，每两个所述待用图像块互不重叠；

将所述资源库存储的部分文本添加到所述待用图像块中。

优选地，

所述图像块信息包括图像块大小范围；

在所述背景图片上绘制出至少两个待用图像块，包括：

根据所述背景图片的范围以及所述图像块大小范围，在所述背景图片上随机绘制出多个初始图像块；

从所述多个初始图像块中选取至少两个待用图像块。

优选地，

从所述多个初始图像块中选取至少两个待用图像块，包括：

计算每一个所述初始图像块的分数；

根据预设条件以及多个所述初始图像块的分数，对所述初始图像块进行筛选，以得到互相不重叠的至少两个待用图像块。

优选地，

所述预设条件包括：

判断待用图像块的个数是否达到预设的个数阈值，如果是，则停止筛选，否则，继续筛选；

或者，

判断是否存在未被筛选的初始图像块，如果是，则继续筛选，否则，停止筛选。

优选地，

所述文本配置信息包括：多种排版类别、字号取值范围以及字符间距范围。

优选地，

在所述多种排版类别、所述字号取值范围和所述字符间距范围内，随机为所述待用图像块选择目标排版类别、目标字号和目标字符间距；

根据所述目标排版类别、所述目标字号和所述目标字符间距，将所述资源库存储的部分文本添加到所述待用图像块中。

优选地，

将所述资源库存储的部分文本添加到所述待用图像块中，包括：

响应于所述目标排版类别为行排版或者列排版，根据所述行排版或者所述列排版，将所述部分文本中的字符输入所述待用图像块中；

响应于当前输入字符超出所述待用图像块，根据预设的字符处理策略，对所述当前输入字符进行处理。

优选地，

所述字符处理策略，包括：

针对所述行排版，响应于当前行不是最后一行，为所述当前输入字符更换新的输入行；

或者，

针对所述列排版，响应于当前列不是最后一列，为所述当前输入字符更换新的输入列。

优选地，

所述文本检测用数据集生成方法，还包括：

判断所述当前输入字符所在的当前行或者当前列对应的可用空间是否大于所述字号取值范围的最小值，如果是，则修改所述当前输入字符的字号。

优选地，

修改所述当前输入字符的字号，包括：

在所述字号取值范围内，随机更新所述当前输入字符的字号；

判断更新后的字号是否满足所述当前输入字符所在的当前行或者当前列对应的可用空间，如果否，则继续更新所述当前输入字符的字号。

优选地，

响应于所述目标排版类别为倾斜排版，将行排版的结果或者列排版的结果旋转为所述倾斜排版。

优选地，将所述资源库存储的部分文本添加到所述待用图像块中，包括：

响应于所述目标排版类别为弧形排版，根据所述弧形排版的弧度、弧长、所述待用图像块的大小和所述目标字号和所述目标字符间距，确定所述待用图像块容纳的字符数和字符位置；

根据所述待用图像块容纳的所述字符数和所述字符位置，将所述部分文本中的字符添加到所述待用图像块中，并旋转添加到所述待用图像块中字符的角度。

为所述待用图像块生成白底透明图，其中，所述白底透明图与所述待用图像块大小相同，且所述白底透明图表征可视化时为白色，透明度为100％；

将所述资源库存储的部分文本添加到所述白底透明图；

将添加有文本的白底透明图覆盖在所述待用图像块上。

优选地，

所述配置文件包括：图标使用信息以及对应的使用概率阈值；

所述文本检测用数据集生成方法还包括：

根据所述使用概率阈值，判断是否在所述待用图像块中添加图标，如果是，则根据所述图标使用信息，在所述待用图像块中添加图标；否则，执行将所述资源库存储的部分文本添加到所述待用图像块中。

优选地，

所述配置文件包括：表格配置信息和表格配置概率；

所述文本检测用数据集生成方法还包括：

根据所述表格配置概率和所述表格配置信息，生成表格；

将所述资源库存储的部分文本添加到所述表格中，生成新的文本检测用数据集；

标注并存储所述新的文本检测用数据集包括的文本的位置信息。

第二方面，本发明实施例提供一种文本检测用数据集生成装置，包括：获取模块、背景图片生成模块以及数据集处理模块，其中，

所述获取模块，用于获取配置文件，其中，所述配置文件包括：背景配置信息和文本配置信息；

所述背景图片生成模块，用于利用资源库存储的背景模板资源和所述获取模块获取到的所述背景配置信息，生成背景图片；

所述数据集处理模块，用于根据所述文本配置信息，将所述资源库存储的部分文本添加到所述背景图片生成模块生成的背景图片中，生成文本检测用数据集；标注并存储所述文本检测用数据集包括的文本的位置信息。

优选地，所述文本检测用数据集生成装置，进一步包括：位置选择组件，其中，

所述配置文件包括：图像块信息；

所述位置选择组件，用于根据所述图像块信息，在所述背景图片生成模块生成的所述背景图片上绘制出至少两个待用图像块，其中，每两个所述待用图像块互不重叠；

所述数据集处理模块，用于将所述资源库存储的部分文本添加到所述待用图像块中。

第三方面，本发明实施例提供一种文本检测用数据集生成系统，包括：资源库和上述任一所述文本检测用数据集生成装置，其中，

所述资源库，用于存储所述文本检测用数据集生成装置所需的背板资源和文本。

上述发明中的一个实施例具有如下优点或有益效果：因为通过配置文件包括的背景配置信息和文本配置信息，采用资源库存储的背景模板资源和部分文本，能够一定程度上控制背景图片的生成和图像背景中文本的添加，得到文本检测用数据集，标注并存储所述文本检测用数据集包括的文本的位置信息。即可以通过控制或调整背景配置信息和文本配置信息，实现文本检测用数据集的可控性，从而实现文本检测用数据集的完备性和多样性。另外，由于图像背景中文本的添加是可控的，因此，可以保证标注和存储的文本检测用数据集对应的文本的位置信息是准确的，以保证为后续模型的训练等提供准确的样本。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的文本检测用数据集生成的方法的主要流程的示意图；

图2是根据本发明实施例的背景图片与图像块之间的相对位置关系的示意图；

图3是根据本发明实施例的选取至少两个待用图像块的主要流程的示意图；

图4是根据本发明实施例的背景图片上随机绘制出的多个初始图像块的示意图；

图5是根据本发明实施例的从多个初始图像块中选取至少两个待用图像块的主要流程的示意图；

图6是根据本发明另一实施例的从多个初始图像块中选取至少两个待用图像块的主要流程的示意图；

图7是根据本发明又一实施例的从多个初始图像块中选取至少两个待用图像块的主要流程的示意图；

图8是根据本发明实施例的将资源库存储的部分文本添加到待用图像块的主要流程的示意图；

图9是根据本发明实施例的行排版数据块的示意图；

图10是根据本发明实施例的列排版数据块的示意图；

图11是根据本发明实施例的文本检测用数据集生成装置的主要模块的示意图；

图12是根据本发明实施例的文本检测用数据集生成系统的主要设备的示意图；

图13是本发明实施例可以应用于其中的示例性系统架构图；

图14是适于用来实现本发明实施例的服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

文案信息是图像信息的重要来源之一，通过文案提取和文本挖掘等技术，这些信息可以从图像转变为数字化存储的文本信息，服务于各类应用。如在电商平台中，商品详细图中的文本信息经过分析处理可以丰富商品信息，从而服务于商品搜索与推荐应用中。目前，主流的图像中文本识别主要是，利用大量文本标注数据(标注有文本的位置信息的文本检测用数据集)训练深度学习模型。在该训练深度学习模型过程中，需要解决的首要问题是如何获取大规模文本标注数据(标注有文本的位置信息的文本检测用数据集)。

图1是根据本发明实施例的一种文本检测用数据集生成方法。如图1所示，该文本检测用数据集生成方法可包括如下步骤：

S101：获取配置文件，其中，配置文件包括：背景配置信息和文本配置信息；

S102：利用背景配置信息和资源库存储的背景模板资源，生成背景图片；

S103：根据文本配置信息，将资源库存储的部分文本添加到背景图片中，生成文本检测用数据集；

S104：标注并存储文本检测用数据集包括的文本的位置信息。

其中，资源库中已经存储有大量的背景模板资源和文本，该资源库存储的文本领域可以包括基础语料(新闻)、学科类、题材类、行业类等，资料中可以包括中文、英文字母、数字、符号及其混合文本等，资源库存储的文本还可包括常用汉字、数字、字母、符号等组成的文字列表等。

文本配置信息可以包括：选择的资源库中文本领域范围、文本中包括的文字类型以及文字类型比例范围等。

资源库存储的背景模板资源可包括：自然场景、几何、纯色图片等。背景配置信息可实现对资源库存储的背景模板的选择，可以在背景模板的基础上通过变换、图片组合等实现个性化定制背景图片，从而保证背景图片的多样性。

标注的文本的位置信息是指文本在背景图片中的位置范围，可用文本左上角的坐标和右下角的坐标表示(该坐标是基于背景图片构建出的坐标系上的坐标)。

在图1所示的实施例中，因为通过配置文件包括的背景配置信息和文本配置信息，采用资源库存储的背景模板资源和部分文本，能够一定程度上控制背景图片的生成和图像背景中文本的添加，得到文本检测用数据集，标注并存储文本检测用数据集包括的文本的位置信息。即可以通过控制或调整背景配置信息和文本配置信息，实现文本检测用数据集的可控性，从而实现文本检测用数据集的完备性和多样性。另外，由于图像背景中文本的添加是可控的，因此，可以保证标注和存储的文本检测用数据集对应的文本的位置信息是准确的，从而保证了为后续模型的训练等提供准确的样本。

与现有的人工标注相比，本发明实施例提供的文本检测用数据集的标注在生成文本检测用数据集的过程即可实现，几乎无需占用其他额外的时间，能够有效地节省时间和人力资源。

另外，在本发明实施例中，通过配置文件中的配置信息即可实现控制文本检测用数据集的生成，而通过扩展或丰富配置信息，即可实现文本检测用数据集的扩容。

在本发明一个实施例中，配置文件进一步包括：图像块信息；在生成背景图片之后，生成文本检测用数据集之前，可进一步包括：根据图像块信息，在背景图片上绘制出至少两个待用图像块，其中，每两个待用图像块互不重叠；相应地，将资源库存储的部分文本添加到背景图片中可包括：将资源库存储的部分文本添加到待用图像块中。其中，背景图片与图像块之间的相对位置关系可如图2所示。如图2所示的待用图像块A、待用图像块B以及待用图像块C。可在待用图像块A、待用图像块B以及待用图像块C中添加文本。另外，图2示出的图片背景颜色还可随机为其他颜色。

其中，图像块信息可包括：图像块的大小取值范围(即图像块的长、宽范围)以及图像块的位置范围。比如图像块的长宽范围为10～200像素，则通过上述过程可在背景图片范围内随机选取n个位置，在图像块大小范围内随机选取n对长宽值，绘制出该n对长宽值对应的n个待用图像块(n不小于1)。值得注意的是，绘制出的待用图像块不能超出背景范围。

通过上述实施例构建出的待用图像块，更加丰富了背景图片中的文本结构或文本分布，从而进一步增加了文本检测用数据集的多样性。

上述在背景图片上绘制出至少两个待用图像块可通过每一个待用图像块的位置和每一个待用图像块的大小，来防止多个待用图像块之间的重叠。

另外，为了保证待用图像块生成的随机性，尽可能减少人为干预的同时，又能避免多个待用图像块之间的重叠。针对图像块信息包括图像块大小范围，如图3所示，在背景图片上绘制出至少两个待用图像块的步骤可包括如下步骤：

S301：根据背景图片的范围以及图像块大小范围，在背景图片上随机绘制出多个初始图像块；

其中，该多个初始图像块之间是否存在重叠在此不做限定。以增强该多个初始图像块的随机性。如图4示出，在背景图片上随机绘制出的多个初始图像块a、b、c、d、e、f、g以及h。

S302：从多个初始图像块中选取至少两个待用图像块。

由于绘制多个初始图像块具有比较强的随机性，那么在多个初始图像块的基础上选取待用图像块，也增加了选取待用图像块的随机性，从而有效地丰富文本检测用数据集的随机性和多样性。

其中，如图5所示，上述步骤S302的具体实施方式可包括如下步骤：

S501：计算每一个初始图像块的分数；

该步骤的具体实施方式可包括：

针对每一个初始图像块，执行：

通过下述计算公式(1)和(2)，计算初始图像块的像素方差；

其中，S² _p表征初始图像块p的像素方差；w_p表征初始图像块p的长度；k_p表征初始图像块p的宽度；x_pij表征在预设的坐标系中初始图像块p中的坐标点(i，j)对应的像素值；M_p表征初始图像块p的像素均值；其中，预设的坐标系可以是以初始图像块p的任意一点(如初始图像块p的左上角)为坐标原点绘制出的坐标系，也可以是以背景图片的任意一点(背景图片的左上角)为坐标原点绘制出的坐标系。

利用下述计算公式(3)、像素方差、初始图像块的大小，计算初始图像块的分数；

score_p＝S² _p-R₁×w_p-R₂×k_p (3)

其中，score_p表征初始图像块p的分数；R₁表征设定的第一常数；R₂表征设定的第一常数；比如，R₁＝0.2，R₂＝0.1。

基于上述计算公式得到的分数：方差越小、图像块越大，分数越小。

S502：根据预设条件以及多个初始图像块的分数，对初始图像块进行筛选，以得到互相不重叠的至少两个待用图像块。

从多个初始图像块中选取至少两个待用图像块主要是为了去除重叠的初始图像块。根据分数进行选取，主要是以分数为一个参考标准，方便对初始图像块的管理以及对待用图像块的筛选。

其中，预设条件可包括：判断待用图像块的个数是否达到预设的个数阈值，如果是，则停止筛选，否则，继续筛选。

其中，预设条件还可包括：判断是否存在未被筛选的初始图像块，如果是，则继续筛选，否则，停止筛选。

基于上述预设条件以及多个初始图像块的分数，上述步骤S502可有两种具体实施方式。

上述步骤S502的第一种具体实施方式：

如图6所示，对初始图像块进行筛选的步骤可包括循环执行如下步骤：

S601：从未被筛选的至少一个初始图像块中，选择当前分数最小的初始图像块，针对当前不存在待用图像块的情况，执行步骤S602；针对当前已存在待用图像块时，执行步骤S603；

比如，针对图4示出的多个初始图像块a、b、c、d、e、f、g以及h，在开始筛选从至少一个初始图像块中选取出待用图像块，初始图像块a、b、c、d、e、f、g以及h均为未被筛选的初始图像块。又比如，在图4示出的多个图像块中，未被筛选的初始图像块a、b、c、d、e、f、g以及h中当前分数最小的为初始图像块a，则在步骤S601中选择初始图像块a。

在选取出初始图像块a为待用图像块后，则已存在待用图像块，在后续过程则通过步骤S603及以后的步骤进行待用图像块的选取。

其中，当前分数最小的初始图像块是指，排除被删除或者被选取作为待用图像块的初始图像块后，剩余的初始图像块中分数最小的。

S602：将当前分数最小的初始图像块作为待用图像块，并将剩余的初始图像块作为未被筛选的初始图像块，并执行步骤S601；

S603：判断当前分数最小的初始图像块是否与待用图像块之间存在重叠，如果是，则执行步骤S604；否则，执行步骤S605；

比如，在初始图像块a被选择为待用图像块之后，又选择出当前分数最小的初始图像块b，则该步骤S603主要是判断初始图像块b与初始图像块a是否重叠，通过该过程实现了去除重复的图像块。

S604：删除当前分数最小的初始图像块，并根据当前筛选的结果和预设条件，判断是否满足停止循环，如果是，则执行S606；否则，执行S607；

S605：将当前分数最小的初始图像块作为待用图像块，并根据当前筛选的结果和预设条件，判断是否停止循环，如果是，则执行S606；否则，执行S607；

其中，步骤S604和步骤S605的预设条件可包括：判断待用图像块的个数是否达到预设的个数阈值，如果是，则停止筛选，否则，继续筛选。针对该预设条件，步骤S604和步骤S605中根据当前筛选的结果和预设条件，判断是否满足停止循环的具体实施方式可包括：判断当前筛选的结果中待用图像块的个数是否达到预设的个数阈值，如果是，则确定停止循环；否则，确定继续循环；

其中，步骤S604和步骤S605的预设条件可还包括：判断是否存在未被筛选的初始图像块，如果是，则继续筛选，否则，停止筛选。针对该预设条件，步骤S604和步骤S605中根据当前筛选的结果和预设条件，判断是否满足停止循环的具体实施方式可包括：判断当前筛选的结果中是否存在未被筛选的初始图像块，如果是，则确定继续循环；否则，确定停止循环。

S606：结束循环，并结束当前流程；

S607：将剩余的初始图像块作为未被筛选的初始图像块，并执行S501。

上述步骤S502的第二种具体实施方式：

如图7所示，对初始图像块进行筛选的步骤可包括如下步骤：

S701：对所有初始图像块的分数进行排序；

该排序可以为按照分数从高到低排序，也可以为按照分数从低到高排序。

S702：将排序结果中的分数最小的初始图像块作为待用图像块，添加到构建出的输出集合中；

该构建出的输出集合开始为空集，在将待用图像块放到输出集合后变为非空。

针对未进入输出集合的至少一个初始图像块循环执行下述步骤，直至所有初始图像块均被选择：

S703：筛选出排序结果中的当前分数最小的初始图像块；

当前分数最小的初始图像块是指，排除被删除或者被选择进入到输出集合中的数据块后，剩余的初始图像块中分数最小的。

S704：判断选择出的初始图像块是否与输出集合中的待用图像块存在重叠，如果是，则执行步骤S705；否则，执行步骤S706；

S705：删除筛选出的初始图像块，并结束当前流程；

S706：将筛选出的初始图像块作为待用图像块，添加到输出集合中。

通过上述排序能够更直接的体现出分数最小的初始图像块，避免了查找分数最小的初始图像块的过程，构建出输出集合实现了对待用图像块的管理。

在本发明一个实施例中，文本配置信息可包括：多种排版类别、字号取值范围以及字符间距范围；相应地，将资源库存储的部分文本添加到待用图像块中可包括：在多种排版类别、字号取值范围和字符间距范围内，随机为待用图像块选择目标排版类别、目标字号和目标字符间距；根据目标排版类别、目标字号和目标字符间距，将资源库存储的部分文本添加到待用图像块中。比如，为排版类别设定对应的概率，在为一个待用数据块添加文本之前，随机为排版类别生成一个数字，当随机生成的数字大于一个排版类别对应的概率，则为该待用数据块使用该排版类别。字号和字符间距可以通过在字号和字符间距范围内随机选择。通过上述过程实现了文本排版、字号以及字符间距之间的随机性，从而进一步保证文本检测用数据集的多样性。

另外，还可为字体设定相应地概率，按照字体的概率选择字体，每个图像块可选择不同的字体。提高文本检测用数据集完备性。由于实际应用中图片会有多种字体，文本检测用数据集使用多种字体能够更好的适应使用场景，从而提高模型泛化能力。

另外，从文案资料和字典中按概率选取文本，包括文案、汉字+字母+数字+符号排列，字符数量可自行选择，如2000个字符等。

即在配置文件中仅给出一些参数范围如字体范围、文本范围、字号取值范围、字符间距范围(如行间距范围、列间距范围)等，通过随机在这些范围内选择相应地字体、文本、字号、字符间距等，减少人为的干预，保证了文本检测用数据集的多样性和完备性。

在本发明一个实施例中，当目标排版类别为行排版或者列排版时，相应地，响应于目标排版类别为行排版或者列排版，根据行排版或者列排版，将部分文本中的字符输入待用图像块中；

响应于当前输入字符超出待用图像块，根据预设的字符处理策略，对当前输入字符进行处理。

其中，预设的字符处理策略可包括：响应于当前输入字符的字号允许被修改，修改当前输入的字符的字号，或者，当前输入字符的字号不允许被修改。

其中，预设的字符处理策略可还包括：针对行排版，响应于当前行不是最后一行，为当前输入字符更换新的输入行；或者，针对列排版，响应于当前列不是最后一列，为当前输入字符更换新的输入列。

具体地，根据预设的字符处理策略，对当前输入字符进行处理可包括图8所示的步骤：

S801：确定部分文本中当前待输入字符、当前待输入字符的字号以及当前待输入字符对应的当前行和当前列；

比如，图9示出的一个待用图像块采用行排版，图10示出的一个待用图像块采用列排版。图9和图10示出的123456789以及G为添加到待用图像块中的文本，其中，G为当前待输入字符。当前待输入字符对应的当前行和当前列是指当前待输入字符所在的行和列。

一般来说，可设置同一行或者同意列中的字号相等、字符间距相同以及行间距或者列间距相等，在满足需求的同时，以降低由于为待用图像块添加文本所带来的计算资源的压力。

S802：根据当前待输入字符的字号，分别计算当前行对应的预使用范围和/或当前列对应的预使用范围；

如图9示出的虚线区域为当前待输入的字符G当前行对应的预使用范围。图10示出的虚线区域为当前待输入的字符G当前列对应的预使用范围。

可通过下述计算公式(4)，计算当前行对应的预使用范围和/或当前列对应的预使用范围。

其中，当f表征当前行对应的预使用范围时，b表征当前行中第1个字符到离其最近的待用数据块的边框的距离；l_e表征当前行中第e个字符的宽度；m表征当前待输入的字符为当前行中的第几个字符；a_e→e+1表征从第e个字符到第e+1之间的字符间距；当f表征当前列对应的预使用范围时，b表征当前列中第1个字符到离其最近的待用数据块的边框的距离；l_e表征当前列中第e个字符的宽度；m表征当前待输入的字符为当前列中的第几个字符；a_e→e+1表征从第e个字符到第e+1之间的字符间距。

针对预使用范围，执行：

S803：判断预使用范围是否超出与预使用范围相对的待使用图像块的一条边长，如果是，则执行S804；否则，执行S805；

该预设使用范围是指已输入的字符与当前输入字符所形成的行或列的长度，该与预使用范围相对的待使用图像块的一条边长即与当前行或当前列相平行的边。如图9示出的待用图像块，G对应的当前行所对应的边长为待用图像块的边y1；如图10示出的待用图像块，G对应的当前列所对应的边长为待用图像块的边y2。

S804：判断当前待输入字符的字号是否允许被修改，如果是，则执行S806；否则，执行S807；

S805：直接将该当前待输入字符添加到待用图像块，并将下一个待输入字符作为当前待输入字符，执行步骤S801；

S806：将当前待输入字符的字号修改至满足预使用范围，并将当前待输入字符写入待用图像块；

该将当前待输入字符的字号修改至满足预使用范围一般为将当前待输入字符的字号缩小。

S807：禁止当前待输入字符输入到预使用范围对应的当前行或当前列。

该步骤807的具体实施方式可包括：如果当前行为最后一行或当前列为最后一列，则直接结束输入字符的操作。

另外，该步骤807的具体实施方式还可包括：针对行排版，响应于当前行不是最后一行，为当前输入字符更换新的输入行；或者，针对列排版，响应于当前列不是最后一列，为当前输入字符更换新的输入列。

在本发明一个实施例中，在判断出预使用范围超出与预使用范围相对的待使用图像块的一条边长之后可进一步包括：确定出预使用范围对应的可用空间；判断可用空间是否小于字号取值范围的最小值，如果是，则禁止当前待输入字符输入到预使用范围对应的当前行或当前列；否则，执行判断当前待输入字符的字号是否允许被修改的步骤。通过该过程可避免在可用空间过小仍然对字号进行修改导致不必要的操作。

其中，可用空间是指，当前输入字符对应的上一字符与其所在图像块的目标边缘之间的区域，该目标边缘是指，限定当前输入字符所在当前行或当前列的终点的图像块边缘。比如，图8所示的输入的文本123456789为从左向右输入，该文本123456789所在行对应的当前输入字符为G，则可用空间即为当前输入字符G对应的上一字符(9)到目标边缘(所在图像块的右侧边)之间的区域。该可用空间也即在当前行或当前列中，在待用图像块内在当前行中未被字符占用的空间。

在本发明一个实施例中，将当前待输入字符的字号缩小至满足预使用范围可包括：在字号取值范围内，随机更新当前待输入字符的字号；判断更新后的字号是否满足可用空间，如果否，则继续更新所述当前输入字符的字号。即首选选择随机生成字号，尽量减少干预，在随机生成的字号不能满足需求时，则进行干预，即根据可用空间，修改更新后的字号，避免一直循环随机更新当前待输入字符的字号的过程导致的死循环以及避免死循环过度消耗计算资源导致死机。

在本发明一个实施例中，当目标排版类别为倾斜排版时，将行排版的结果或者列排版的结果旋转为倾斜排版。

在本发明一个实施例中，当目标排版类别为弧形排版时，将资源库存储的部分文本添加到待用图像块中可包括：根据弧形排版的弧度、弧长、待用图像块的大小和目标字号和目标字符间距，确定待用图像块容纳的字符数和字符位置；根据待用图像块能够容纳的字符数和字符位置，将资源库存储的部分文本添加到待用图像块中；将所述部分文本中的字符添加到待用图像块中，并旋转添加到待用图像块中字符的角度。

通过上述过程实现了排版的多样性和完备性，从而进一步保证了文本检测用数据集的多样性和完备性。

在本发明一个实施例中，将资源库存储的部分文本添加到待用图像块中可包括：为待用图像块生成大小一致的白底透明图，其中，白底透明图表征可视化时为白色，透明度为100％；将资源库存储的部分文本添加到白底透明图；将添加有文本的白底透明图覆盖在待用图像块上。通过该过程方便对文本的识别，从而使后续使用待用图像块进行模型训练得到的训练模型更准确。

由于一些文本中会存在图标，而图标有的时候会被误认为文本。一般文本检测用数据集需存在带有图标的图像块，才能保证训练出的模型能够识别出图标。基于此，在本发明一个实施例中，配置文件包括：图标使用信息以及对应的使用概率阈值；在背景图片上绘制出至少两个待用图像块之后可进一步包括：针对每一个待用图像块，执行：根据使用概率阈值，判断是否在待用图像块中添加图标，如果是，则根据图标使用信息，在待用图像块中添加图标；否则，执行将资源库存储的部分文本添加到待用图像块中的步骤。其中，图标大小可根据图像块大小进行变化。该使用概率阈值为用户自己设定的。在针对每一个待用图像块，为是否添加图标生成对应的一个数值，当该数值大于该图标对应的使用概率阈值，则为该待用图像块添加图标，当该数值不大于该图标对应的使用概率阈值，则为该待用图像块添加文本。进一步保证了文本检测用数据集的完备性。图标信息根据应用选择性加入但不标注，解决了图标与文字易混淆带来的虚捡问题。

在本发明一个实施例中，配置文件还可包括：表格配置信息和表格配置概率；相应地，文本检测用数据集生成方法可进一步包括：根据表格配置概率和表格配置信息，生成表格；将资源库存储的部分文本添加到表格中，生成新的文本检测用数据集；标注并存储新的文本检测用数据集包括的文本的位置信息。

其中，表格配置概率是指生成表格的概率，即在生成背景图片之后，随机生成一个数值，该数值如果大于表格配置概率，则生成表格，该数值如果小于等于表格配置概率，则不生成表格。

表格配置信息包括：表格的行数的取值范围、表格的列数的取值范围，表格中的每一个格的大小范围等。

在生成表格过程中，从表格的行数的取值范围、表格的列数的取值范围以及表格中的每一个格的大小范围中随机确定表格的具体行数、具体列数以及每一个格的大小，并根据确定出的表格的具体行数、具体列数以及每一个格的大小，生成表格。

另外，表格中的字体、字号、每一个格所容纳的字符数都可以通过配置文件配置出来。同时，表格的排列模式(居中，左对齐，右对齐)，表格线分布模式(均匀、随机波动(如按均匀间隔距离的5％-20％)),表格四个角点位置(比如随机选取离背景图边缘5％-20％长宽的点)，表格线粗细等均可在配置文件中配置，根据这些设置，记录表格所组成的文本框的信息，从而获知表格中的文本的位置信息等。

另外，值得说明的是，上述各个实施例可一次只生成一个文本检测用数据集，也可同时生成多个文本检测用数据集。该过程也可通过配置文件配置。

通过上述实施例实现了表格类型数据按需加入，这些使得文本检测用数据集完备性更优，能够解决文本检测用数据集不够完备的情况下遇到特殊字体或文字出现的漏检问题，同时解决了表格图像中文本检测的低准确率问题。

本发明实施例提供的方案，由于文本的位置均可控，规避人工选择和标注文本位置的误差。另外，还可通过配置文件，修改想要输出的格式，方便快捷。

如图11所示，本发明实施例提供一种文本检测用数据集生成装置1100，该文本检测用数据集生成装置1100可包括：获取模块1101、背景图片生成模块1102以及数据集处理模块1103，其中，

获取模块1101，用于获取配置文件，其中，配置文件包括：背景配置信息和文本配置信息；

背景图片生成模块1102，用于利用资源库存储的背景模板资源和获取模块1101获取到的背景配置信息，生成背景图片；

数据集处理模块1103，用于根据文本配置信息，将资源库存储的部分文本添加到背景图片生成模块1102生成的背景图片中，生成文本检测用数据集；标注并存储文本检测用数据集包括的文本的位置信息。

在本发明一个实施例中，如图11所示，文本检测用数据集生成装置可进一步包括：位置选择组件1104，其中，

配置文件包括：图像块信息；

位置选择组件1104，用于根据图像块信息，在背景图片生成模块1102生成的背景图片上绘制出至少两个待用图像块，其中，每两个待用图像块互不重叠；

数据集处理模块1103，用于将资源库存储的部分文本添加到待用图像块中。

在本发明一个实施例中，图像块信息包括图像块大小范围；

位置选择组件1104，进一步用于根据背景图片的范围以及图像块大小范围，在背景图片上随机绘制出多个初始图像块；从多个初始图像块中选取至少两个待用图像块。

在本发明一个实施例中，位置选择组件1104，进一步用于计算每一个初始图像块的分数；根据预设条件以及多个初始图像块的分数，对初始图像块进行筛选，以得到互相不重叠的至少两个待用图像块。

在本发明一个实施例中，

预设条件包括：位置选择组件1104用于判断待用图像块的个数是否达到预设的个数阈值，如果是，则停止筛选，否则，继续筛选；

或者，

位置选择组件1104用于判断是否存在未被筛选的初始图像块，如果是，则继续筛选，否则，停止筛选。

在本发明一个实施例中，文本配置信息包括：多种排版类别、字号取值范围以及字符间距范围。

在本发明一个实施例中，如图11所示，数据集处理模块1103包括：基本设置组件11031和书写组件11032，其中，

基本设置组件11031，用于在多种排版类别、字号取值范围和字符间距范围内，随机为待用图像块选择目标排版类别、目标字号和目标字符间距；

书写组件11032，用于根据基本设置组件随机选择出的目标排版类别、目标字号和目标字符间距，将资源库存储的部分文本添加到待用图像块中。

字符处理策略，包括：

针对所述行排版，书写组件11032，用于响应于当前行不是最后一行，为所述当前输入字符更换新的输入行；

或者，

针对所述列排版，书写组件11032，用于响应于当前列不是最后一列，为所述当前输入字符更换新的输入列。

在本发明一个实施例中，书写组件11032，进一步用于判断当前输入字符所在的当前行或者当前列对应的可用空间是否大于字号取值范围的最小值，如果是，则修改当前输入字符的字号。

在本发明一个实施例中，书写组件11032，进一步用于在字号取值范围内，随机更新当前输入字符的字号；判断更新后的字号是否满足当前输入字符所在的当前行或者当前列对应的可用空间，如果否，则继续更新当前输入字符的字号。

在本发明一个实施例中，书写组件11032，进一步用于响应于目标排版类别为弧形排版，根据弧形排版的弧度、弧长、待用图像块的大小和目标字号和目标字符间距，确定待用图像块容纳的字符数和字符位置；根据待用图像块容纳的字符数和字符位置，将部分文本中的字符添加到待用图像块中，并旋转添加到待用图像块中字符的角度。

在本发明一个实施例中，数据集处理模块1103，进一步用于

将所述资源库存储的部分文本添加到所述白底透明图；

将添加有文本的白底透明图覆盖在所述待用图像块上。

在本发明一个实施例中，配置文件进一步包括：图标使用信息以及对应的使用概率阈值；数据集处理模块1103，进一步用于根据使用概率阈值，判断是否在待用图像块中添加图标，如果是，则根据图标使用信息，在待用图像块中添加图标；否则，执行将资源库存储的部分文本添加到待用图像块中。

在本发明一个实施例中，如图11所示，文本检测用数据集生成装置进一步包括：表格生成模块1105，其中，

配置文件进一步包括：表格配置信息和表格配置概率；

表格生成模块1105，用于根据表格配置概率和表格配置信息，生成表格；

数据集处理模块1103，进一步用于将资源库存储的部分文本添加到表格生成模块生成的表格中，生成新的文本检测用数据集；标注并存储新的文本检测用数据集包括的文本的位置信息。

如图12所示，本发明实施例提供一种文本检测用数据集生成系统1200，该文本检测用数据集生成系统1200可包括：资源库1201和上述任一实施例提供的文本检测用数据集生成装置1100，其中，

资源库1201，用于存储文本检测用数据集生成装置1100所需的背板资源和文本。

图13示出了可以应用本发明实施例的文本检测用数据集生成方法或文本检测用数据集生成装置的示例性系统架构1300。

如图13所示，系统架构1300可以包括终端设备1301、1302、1303，网络1304、服务器1305和资源库1306。网络1304用以在终端设备1301、1302、1303和服务器1305之间、服务器1305和资源库1306之间提供通信链路的介质。网络1304可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备1301、1302、1303通过网络1304与服务器1305交互，以发送配置文件或接收文本检测用数据集等。终端设备1301、1302、1303上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备1301、1302、1303可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器1305可以是提供各种服务的服务器，例如根据用户利用终端设备1301、1302、1303所提供的配置文件生成文本检测用数据集。后台管理服务器可以对接收到的配置文件中的配置信息等数据进行分析等处理，并将处理结果(例如文本检测用数据集--仅为示例)反馈给终端设备或存储设备。

需要说明的是，本发明实施例所提供的文本检测用数据集生成方法一般由服务器1305执行，相应地，文本检测用数据集生成装置一般设置于服务器1305中。

应该理解，图13中的终端设备、网络、服务器和资源库的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图14，其示出了适于用来实现本发明实施例的服务器的计算机系统1400的结构示意图。图13示出的服务器仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图14所示，计算机系统1400包括中央处理单元(CPU)1401，其可以根据存储在只读存储器(ROM)1402中的程序或者从存储部分1408加载到随机访问存储器(RAM)1403中的程序而执行各种适当的动作和处理。在RAM 1403中，还存储有系统1400操作所需的各种程序和数据。CPU 1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(I/O)接口1305也连接至总线1404。

以下部件连接至I/O接口1405：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1407；包括硬盘等的存储部分1408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1410也根据需要连接至I/O接口1405。可拆卸介质1411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1410上，以便于从其上读出的计算机程序根据需要被安装入存储部分1408。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1409从网络上被下载和安装，和/或从可拆卸介质1411被安装。在该计算机程序被中央处理单元(CPU)1401执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、背景图片生成模块以及数据集处理模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块还可以被描述为“获取配置文件的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取配置文件，其中，配置文件包括：背景配置信息和文本配置信息；利用背景配置信息和资源库存储的背景模板资源，生成背景图片；根据文本配置信息，将资源库存储的部分文本添加到背景图片中，生成文本检测用数据集；标注并存储文本检测用数据集包括的文本的位置信息。

根据本发明实施例的技术方案，因为通过配置文件包括的背景配置信息和文本配置信息，采用资源库存储的背景模板资源和部分文本，能够一定程度上控制背景图片的生成和图像背景中文本的添加，得到文本检测用数据集，标注并存储所述文本检测用数据集包括的文本的位置信息。即可以通过控制或调整背景配置信息和文本配置信息，实现文本检测用数据集的可控性，从而实现文本检测用数据集的完备性和多样性。另外，由于图像背景中文本的添加是可控的，因此，可以保证标注和存储的文本检测用数据集对应的文本的位置信息是准确的，从而保证了为后续模型的训练等提供准确的样本。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种文本检测用数据集生成方法，其特征在于，包括：

标注并存储所述文本检测用数据集包括的文本的位置信息，其中，所述文本的位置信息是指所述文本在所述背景图片中的位置范围，用所述文本左上角的坐标和右下角的坐标表示。

2.根据权利要求1所述文本检测用数据集生成方法，其特征在于，

所述配置文件包括：图像块信息；

将所述资源库存储的部分文本添加到所述待用图像块中。

3.根据权利要求2所述文本检测用数据集生成方法，其特征在于，

所述图像块信息包括图像块大小范围；

在所述背景图片上绘制出至少两个待用图像块，包括：

从所述多个初始图像块中选取至少两个待用图像块。

4.根据权利要求3所述文本检测用数据集生成方法，其特征在于，从所述多个初始图像块中选取至少两个待用图像块，包括：

计算每一个所述初始图像块的分数；

5.根据权利要求4所述文本检测用数据集生成方法，其特征在于，所述预设条件包括：

或者，

6.根据权利要求2至5任一所述文本检测用数据集生成方法，其特征在于，

7.根据权利要求6所述文本检测用数据集生成方法，其特征在于，

8.根据权利要求7所述文本检测用数据集生成方法，其特征在于，将所述资源库存储的部分文本添加到所述待用图像块中，包括：

9.根据权利要求8所述文本检测用数据集生成方法，其特征在于，所述字符处理策略，包括：

或者，

10.根据权利要求8所述文本检测用数据集生成方法，其特征在于，还包括：

11.根据权利要求10所述文本检测用数据集生成方法，其特征在于，修改所述当前输入字符的字号，包括：

12.根据权利要求7所述文本检测用数据集生成方法，其特征在于，将所述资源库存储的部分文本添加到所述待用图像块中，包括：

13.根据权利要求7所述文本检测用数据集生成方法，其特征在于，将所述资源库存储的部分文本添加到所述待用图像块中，包括：

为所述待用图像块生成白底透明图，其中，所述白底透明图与所述待用图像块大小相同，且所述白底透明图表征可视化时为白色，透明度为100%；

将所述资源库存储的部分文本添加到所述白底透明图；

将添加有文本的白底透明图覆盖在所述待用图像块上。

14.根据权利要求2至5任一所述文本检测用数据集生成方法，其特征在于，

所述文本检测用数据集生成方法还包括：

15.根据权利要求1至5、7至13任一所述文本检测用数据集生成方法，其特征在于，

所述配置文件包括：表格配置信息和表格配置概率；

所述文本检测用数据集生成方法还包括：

根据所述表格配置概率和所述表格配置信息，生成表格；

16.一种文本检测用数据集生成装置，其特征在于，包括：获取模块、背景图片生成模块以及数据集处理模块，其中，

所述数据集处理模块，用于根据所述文本配置信息，将所述资源库存储的部分文本添加到所述背景图片生成模块生成的背景图片中，生成文本检测用数据集；标注并存储所述文本检测用数据集包括的文本的位置信息，其中，所述文本的位置信息是指所述文本在所述背景图片中的位置范围，用所述文本左上角的坐标和右下角的坐标表示。

17.根据权利要求16所述文本检测用数据集生成装置，其特征在于，进一步包括：位置选择组件，其中，

所述配置文件包括：图像块信息；

18.一种文本检测用数据集生成系统，其特征在于，包括：资源库和所述权利要求16或17所述文本检测用数据集生成装置，其中，

所述资源库，用于存储所述文本检测用数据集生成装置所需的背景模板资源和文本。

19.一种文本检测用数据集生成电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-15中任一所述的方法。

20.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-15中任一所述的方法。