CN110210505B

CN110210505B - 样本数据的生成方法、装置及电子设备

Info

Publication number: CN110210505B
Application number: CN201810167108.8A
Authority: CN
Inventors: 周锴; 张睿; 宋祺
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2020-12-01
Anticipated expiration: 2038-02-28
Also published as: CN110210505A

Abstract

本申请提供一种样本数据的生成方法及装置、电子设备，所述方法的一具体实施方式包括：获取预设的素材，所述素材包括由多个字符构成的字符集合及目标图像；获取预设的目标参数；基于所述素材及所述目标参数获取用于训练的样本数据。该实施方式能够快速自动地生成样本数据，无需人工手动生成样本数据，提高了样本数据的生成效率。

Description

样本数据的生成方法、装置及电子设备

技术领域

本申请涉及图像识别技术领域，特别涉及一种样本数据的生成方法、装置及电子设备。

背景技术

目前来说，普遍采用深度学习的方案来实现OCR(Optical CharacterRecognition，光学字符识别)技术。深度学习是一种机器学习的方法，可以采用样本数据训练出用于识别图像中字符的目标模型。因此，样本数据越完善，训练出的目标模型识别的准确度就越高。其中，样本数据可以包括样本图像以及样本图像对应的样本标签。在相关技术中，一般通过人工手动采集带有字符的图像作为样本图像，并通过人工手动进行样本标签的标注。因此，难以获得内容丰富的样本图像，并且，样本标签标注的效率低。

发明内容

为了解决上述技术问题之一，本申请提供一种样本数据的生成方法、装置及电子设备。

根据本申请实施例的第一方面，提供一种样本数据的生成方法，包括：

获取预设的素材，所述素材包括由多个字符构成的字符集合及目标图像；

获取预设的目标参数；

基于所述素材及所述目标参数获取用于训练的样本数据。

可选的，所述目标参数基于采样数据中预设特征的特征分布而获取，所述采样数据包括采集到的包含字符的图像。

可选的，所述预设特征包括图像中字符的字体特征、图像中字符的形变特征以及图像的画质特征。

可选的，所述目标参数包括字符的字体选取参数、字符的形变处理参数以及图像处理参数。

可选的，所述基于所述素材及所述目标参数获取用于训练的样本数据，包括：

按照所述目标参数处理所述素材，生成样本图像；

根据所述目标参数及所述样本图像获取所述样本图像对应的样本标签；其中，所述样本图像和所述样本标签构成所述样本数据。

可选的，所述按照所述目标参数处理所述素材，包括：

按照所述字体选取参数选取目标字体；

将所述字符集合中的字符按照所述目标字体融合到所述目标图像中预设的位置；

按照所述形变处理参数对融合到所述目标图像中的字符进行形变处理；

按照所述图像处理参数对经过所述形变处理后的图像进行图像处理。

可选的，所述图像处理包括对图像的压缩处理。

可选的，所述样本图像对应的样本标签包括所述样本图像中字符的角点位置。

根据本申请实施例的第二方面，提供一种样本数据的生成装置，包括：

第一获取模块，用于获取预设的素材，所述素材包括由多个字符构成的字符集合及目标图像；

第二获取模块，用于获取预设的目标参数；

生成模块，用于基于所述素材及所述目标参数获取用于训练的样本数据。

根据本申请实施例的第三方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的样本数据的生成方法。

根据本申请实施例的第四方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述第一方面中任一项所述的样本数据的生成方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请的实施例提供的样本数据的生成方法和装置，通过获取预设的素材，该素材包括由多个字符构成的字符集合及目标图像，获取预设的目标参数。基于该素材及该目标参数获取用于训练的样本数据。从而能够快速自动地生成样本数据，无需人工手动生成样本数据，提高了样本数据的生成效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请根据一示例性实施例示出的一种样本数据的生成方法的流程图；

图2是本申请根据一示例性实施例示出的另一种样本数据的生成方法的流程图；

图3是本申请根据一示例性实施例示出的另一种样本数据的生成方法的流程图；

图4是本申请根据一示例性实施例示出的一种样本数据的生成装置的框图；

图5是本申请根据一示例性实施例示出的另一种样本数据的生成装置的框图；

图6是本申请根据一示例性实施例示出的另一种样本数据的生成装置的框图；

图7是本申请根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示，图1是根据一示例性实施例示出的一种样本数据的生成方法的流程图，该方法可以应用于终端设备中，也可以应用于服务器中。该方法包括以下步骤：

在步骤101中，获取预设的素材，该素材包括由多个字符构成的字符集合及目标图像。

在本实施例中，预设的素材可以包括两部分数据，一部分数据可以为文本形式的数据，包括由多个字符构成的字符集合。该字符集合中可以包括各种需要识别的字符(例如，文字，或符号等)，该字符集合中包括的字符应当尽可能的全面，以便生成字符样本更为丰富的样本数据。另一部分数据可以为图像数据，可以获取一帧或多帧图像作为目标图像。该目标图像可以采用预设的背景，也可以为随机获取的图像，本申请对目标图像的具体获取方式方面不限定。

在步骤102中，获取预设的目标参数。

在本实施例中，目标参数可以为对预设的素材进行处理的任意处理参数，例如，该目标参数可以包括但不限于字符的字体选取参数、字符的形变处理参数以及图像处理参数等等。该目标参数可以是随机得到的参数，也可以是根据预设的规则得到的参数。本申请对目标参数所涉及的具体参数以及具体获取方式方面不限定。

在步骤103中，基于该素材及该目标参数获取用于训练的样本数据。

在本实施例中，用于训练的样本数据可以包括多个样本图像以及每个样本图像对应的样本标签，可以通过如下方式基于该素材及该目标参数获取用于训练的样本数据：按照上述目标参数处理该素材，使上述字符集合(该素材包括的字符集合)中的字符分别融合到上述目标图像(该素材包括的目标图像)中，以生成样本图像。并根据上述目标参数以及样本图像获取该样本图像对应的样本标签。

应当注意，尽管在上述图1的实施例中，以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。例如，可以先执行步骤101，获取预设的素材，然后再执行步骤102，获取预设的目标参数。也可以先执行步骤102，再执行步骤102，还可以同时执行步骤101和步骤102。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本申请的上述实施例提供的样本数据的生成方法，通过获取预设的素材，该素材包括由多个字符构成的字符集合及目标图像，获取预设的目标参数。基于该素材及该目标参数获取用于训练的样本数据。从而能够快速自动地生成样本数据，无需人工手动生成样本数据，提高了样本数据的生成效率。

在一些可选实施方式中，目标参数可以是基于采样数据中预设特征的特征分布而获取的，该采样数据包括采集到的包含字符的图像。

在本实施例中，可以预先采集一定数量(该数量远小于样本图像的需求量)包含字符的图像作为采样数据。该采样数据中预设特征的特征分布与待识别图像的特征分布更为接近，因此，可以根据采样数据中预设特征的特征分布获取目标参数，从而使生成的样本图像与待识别图像的特征分布更为接近。

在本实施例中，预设特征可以包括但不限于图像中字符的字体特征、图像中字符的形变特征以及图像的画质特征等。例如，图像中字符的字体特征可以包括但不限于字符的字体类型(如，宋体，楷体，黑体等)，字符的字号等。图像中字符的形变特征可以包括但不限于对字符的扭曲，对字符的仿射变换，对字符的旋转等。图像的画质特征可以包括但不限于图像的光照特征，图像的透明度特征，图像的模糊核特征，图像的腐蚀核特征，字体的颜色特征，对图像的压缩质损特征等。

在本实施例中，目标参数可以包括但不限于字符的字体选取参数、字符的形变处理参数以及图像处理参数。例如，字体选取参数可以包括选取的字符的字体类型，选取的字符的字号等。字符的形变处理参数可以包括对字符的扭曲处理参数(如，表征字符扭曲程度的参数等)，对字符的仿射变换处理参数，对字符的旋转处理参数(如，对字符进行旋转的角度等)等。图像处理参数可以包括对图像的光照处理参数，对图像的透明度处理参数，对图像的模糊处理参数，对图像的腐蚀处理参数，对字体的颜色处理参数，对图像的压缩处理参数等。

在本实施例中，可以是对采样数据中的每个图像进行特征分析，获得每个图像的预设特征所对应的特征数据，并对所有特征数据进行统计分析，得到预设特征的特征分布。然后，根据上述预设特征的特征分布获取目标参数。例如，针对图像的模糊度，可以对采样数据中的每个图像进行图像模糊度的分析，获得每个图像的高斯模糊核的值，并对所有图像高斯模糊核的值进行统计分析，得到图像模糊度的特征分布。如，该特征分布可以包括图像高斯模糊核的值分布在3～9之间，图像高斯模糊核的值为3的比例为15％，高斯模糊核的值为5的比例为25％，高斯模糊核的值为7的比例为35％，高斯模糊核的值为9的比例为25％。然后，可以根据该特征分布，获取目标参数中对图像的模糊处理参数，使得按照该目标参数得到的样本图像，其高斯模糊核的值的分布与该特征分布接近。

本实施例中，由于目标参数基于采样数据中预设特征的特征分布而获取，该采样数据中预设特征的特征分布与待识别图像的特征分布更为接近。因此，根据目标参数生成的样本图像与待识别图像的特征分布更为接近。能够提高训练出的目标模型的性能，从而提高了该目标模型识别图像中字符的准确度。

如图2所示，图2根据一示例性实施例示出的另一种样本数据的生成方法的流程图，该实施例描述了获取用于训练的样本数据的过程，该方法可以应用于终端设备中，也可以应用于服务器中，包括以下步骤：

在步骤201中，获取预设的素材，该素材包括由多个字符构成的字符集合及目标图像。

在步骤202中，获取预设的目标参数。

在步骤203中，按照目标参数处理素材，生成样本图像。

在本实施例中，目标参数可以包括任意合理的处理参数，可以根据目标参数包括的具体内容对预设的素材进行处理，从而生成样本图像。具体来说，在一种实现方式中，如果目标参数包括字符的字体选取参数、字符的形变处理参数，则可以通过如下方式处理素材：首先，从字符集合中任取一个或多个目标字符，按照字体选取参数选取目标字体。接着，将目标字符按照目标字体融合到目标图像中预设的位置，并按照形变处理参数对融合到目标图像中的字符进行形变处理，从而生成样本图像。

在另一种实现方式中，如果目标参数包括字符的字体选取参数、字符的形变处理参数以及图像处理参数，则可以通过如下方式处理素材：首先，从字符集合中任取一个或多个目标字符，按照字体选取参数选取目标字体。接着，将目标字符按照目标字体融合到目标图像中预设的位置，并按照形变处理参数对融合到目标图像中的字符进行形变处理。最后，按照图像处理参数对经过形变处理后的图像进行图像处理，从而生成样本图像。

可以理解，目标参数还可以包括其它的参数，因此，还可以通过其它的方式处理素材。本申请对目标参数的具体内容以及处理素材的具体方式方面不限定。

在步骤204中，根据上述目标参数以及样本图像获取该样本图像对应的样本标签。

在本实施例中，可以根据上述目标参数以及样本图像获取该样本图像对应的样本标签。其中，样本图像对应的样本标签可以包括样本图像中的字符，样本图像中字符的字体、字号、扭曲程度、旋转角度，样本图像的模糊核、腐蚀核、压缩参数等等。

可选地，样本图像对应的样本标签还可以包括样本图像中字符的角点位置。具体来说，在对字符进行形变处理的过程中，可以不断跟踪字符的角点位置，从而最终得到样本图像中字符的角点位置。在样本图像对应的样本标签中加入字符的角点位置，可以使得样本数据不仅能够适用于识别图像中的字符，还能够适用于检测图像中字符的位置，从而拓宽了样本数据的使用范围。

需要说明的是，对于与图1实施例中相同的步骤，在上述图2实施例中不再进行赘述，相关内容可参见图1实施例。

本申请的上述实施例提供的样本数据的生成方法，通过获取预设的素材，该素材包括由多个字符构成的字符集合及目标图像，获取预设的目标参数，按照目标参数处理素材，生成样本图像，并根据上述目标参数以及样本图像获取该样本图像对应的样本标签。由于本实施例能够按照目标参数处理素材，生成样本图像，并根据上述目标参数以及样本图像获取该样本图像对应的样本标签。因此，能够快速自动地生成样本图像和样本标签，从而无需通过人工手动采集大量带有字符的图像作为样本图像，也无需通过人工手动进行样本标签的标注，有助于提高样本数据的生成效率。

如图3所示，图3根据一示例性实施例示出的另一种样本数据的生成方法的流程图，该实施例详细描述了按照目标参数处理素材的过程，该方法可以应用于终端设备中，也可以应用于服务器中，包括以下步骤：

在步骤301中，获取预设的素材，该素材包括由多个字符构成的字符集合及目标图像。

在步骤302中，获取预设的目标参数，该目标参数包括字符的字体选取参数、字符的形变处理参数以及图像处理参数。

在步骤303中，按照字体选取参数选取目标字体。

在步骤304中，将字符集合中的字符按照目标字体融合到目标图像中预设的位置。

在本实施例中，预设的位置可以是任意合理的位置，可以是随机获取的，也可以是根据经验设置的，本申请对预设的位置的具体获取方式方面不限定。

在步骤305中，按照形变处理参数对融合到目标图像中的字符进行形变处理。

在步骤306中，按照图像处理参数对经过形变处理后的图像进行图像处理。

在本实施例中，图像处理可以包括对图像的光照处理，对图像的透明度处理，对图像的模糊处理，对图像的腐蚀处理，对字体的颜色处理等。可选地，图像处理还可以包括对图像的压缩处理。可以根据采样数据中图像压缩的质损参数对经过形变处理后的图像进行图像处理。从而，提高了基于样本数据训练出的目标模型的泛化性能。

在步骤307中，根据目标参数及样本图像获取样本图像对应的样本标签，该样本图像和样本标签构成用于训练的样本数据。

需要说明的是，对于与图1和图2实施例中相同的步骤，在上述图3实施例中不再进行赘述，相关内容可参见图1和图2实施例。

本申请的上述实施例提供的样本数据的生成方法，通过获取预设的素材，该素材包括由多个字符构成的字符集合及目标图像，获取预设的目标参数，该目标参数包括字符的字体选取参数、字符的形变处理参数以及图像处理参数。按照字体选取参数选取目标字体，将字符集合中的字符按照目标字体融合到目标图像中预设的位置，按照形变处理参数对融合到目标图像中的字符进行形变处理，按照图像处理参数对经过形变处理后的图像进行图像处理，并根据目标参数及样本图像获取样本图像对应的样本标签，该样本图像和样本标签构成用于训练的样本数据。本实施例无需通过人工手动采集大量带有字符的图像作为样本图像，也无需通过人工手动进行样本标签的标注，进一步提高了样本数据的生成效率。

与前述样本数据的生成方法实施例相对应，本申请还提供了样本数据的生成装置的实施例。

如图4所示，图4是本申请根据一示例性实施例示出的一种样本数据的生成装置框图，该装置可以包括：第一获取模块401，第二获取模块402以及生成模块403。

其中，第一获取模块401，用于获取预设的素材，该素材包括由多个字符构成的字符集合及目标图像。

第二获取模块402，用于获取预设的目标参数。

生成模块403，用于基于该素材及该目标参数获取用于训练的样本数据。

在一些可选实施方式中，目标参数基于采样数据中预设特征的特征分布而获取，该采样数据包括采集到的包含字符的图像。

在另一些可选实施方式中，预设特征可以包括图像中字符的字体特征、图像中字符的形变特征以及图像的画质特征。

在另一些可选实施方式中，目标参数可以包括字符的字体选取参数、字符的形变处理参数以及图像处理参数。

如图5所示，图5是本申请根据一示例性实施例示出的另一种样本数据的生成装置框图，该实施例在前述图4所示实施例的基础上，生成模块403可以包括：处理子模块501和获取子模块502。

其中，处理子模块501，用于按照目标参数处理所述素材，生成样本图像。

获取子模块502，用于根据目标参数及样本图像获取样本图像对应的样本标签，其中，样本图像和样本标签构成样本数据。

如图6所示，图6是本申请根据一示例性实施例示出的另一种样本数据的生成装置框图，该实施例在前述图5所示实施例的基础上，处理子模块501可以包括：选取子模块601，融合子模块602，形变处理子模块603和图像处理子模块604。

其中，选取子模块601，用于按照字体选取参数选取目标字体。

融合子模块602，用于将字符集合中的字符按照目标字体融合到目标图像中预设的位置。

形变处理子模块603，用于按照形变处理参数对融合到目标图像中的字符进行形变处理。

图像处理子模块604，用于按照图像处理参数对经过形变处理后的图像进行图像处理。

在另一些可选实施方式中，图像处理包括对图像的压缩处理。

在另一些可选实施方式中，样本图像对应的样本标签包括样本图像中字符的角点位置。

应当理解，上述装置可以预先设置在终端设备或服务器中，也可以通过下载等方式而加载到终端设备或服务器中。上述装置中的相应模块可以与终端设备或服务器中的模块相互配合以实现样本数据的生成方案。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请实施例还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1至图3任一实施例提供的样本数据的生成方法。

对应于上述的样本数据的生成方法，本申请实施例还提出了图7所示的根据本申请的一示例性实施例的电子设备的示意结构图。请参考图7，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成样本数据的生成装置。当然，除了软件实现方式之外，本申请并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种样本数据的生成方法，其特征在于，所述方法包括：

预先采集一定数量包含字符的图像作为采样数据；

基于采样数据中预设特征的特征分布，获取目标参数；所述预设特征包括图像中字符的字体特征、图像中字符的形变特征以及图像的画质特征；所述形变特征包括对字符的扭曲、对字符的仿射变换、对字符的旋转；

基于所述素材及所述目标参数获取样本数据，使得获取的样本数据与所述采样数据中预设特征的特征分布接近；所述样本数据用于训练目标模型，所述目标模型用于识别图像中字符；

所述基于所述素材及所述目标参数获取用于训练的样本数据，包括：

按照所述目标参数处理所述素材，生成样本图像；

根据所述目标参数及所述样本图像获取所述样本图像对应的样本标签；其中，所述样本图像和所述样本标签构成所述样本数据，所述样本图像对应的样本标签包括所述样本图像中字符的角点位置。

2.根据权利要求1所述的方法，其特征在于，所述目标参数包括字符的字体选取参数、字符的形变处理参数以及图像处理参数。

3.根据权利要求2所述的方法，其特征在于，所述按照所述目标参数处理所述素材，包括：

按照所述字体选取参数选取目标字体；

4.根据权利要求3所述的方法，其特征在于，所述图像处理包括对图像的压缩处理。

5.一种样本数据的生成装置，其特征在于，所述装置包括：

第二获取模块，用于预先采集一定数量包含字符的图像作为采样数据；基于采样数据中预设特征的特征分布，获取目标参数；所述预设特征包括图像中字符的字体特征、图像中字符的形变特征以及图像的画质特征；所述形变特征包括对字符的扭曲、对字符的仿射变换、对字符的旋转；

生成模块，用于基于所述素材及所述目标参数获取样本数据，使得获取的样本数据与所述采样数据中预设特征的特征分布接近；所述样本数据用于训练目标模型，所述目标模型用于识别图像中字符；

所述生成模块包括：处理子模块和获取子模块；

所述处理子模块，用于按照目标参数处理所述素材，生成样本图像；

所述获取子模块，用于根据目标参数及样本图像获取样本图像对应的样本标签，其中，样本图像和样本标签构成样本数据，所述样本图像对应的样本标签包括所述样本图像中字符的角点位置。

6.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1-4任一项所述的样本数据的生成方法。

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1-4中任一项所述的方法。