CN110059689B

CN110059689B - 样本集构建方法、装置、计算机设备和存储介质

Info

Publication number: CN110059689B
Application number: CN201910208401.9A
Authority: CN
Inventors: 高梁梁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2024-05-03
Anticipated expiration: 2039-03-19
Also published as: WO2020186785A1; CN110059689A

Abstract

本申请涉及一种样本集构建方法、装置、计算机设备和存储介质。所述方法涉及用于训练模型的样本生成，该样本集构建方法包括：获取根据证件图生成的不包括证件信息的证件模板图；按照证件图中各类证件信息的样式生成多组虚拟证件信息；将虚拟证件信息按照证件图中各类证件信息的位置写入证件模板图，生成电子证件图；对电子证件图对应的实体证件进行图像采集，得到的证件采集图；根据电子证件图和证件采集图构建图片样本集，图片样本集用于训练字符识别模型。采用本方法能够提高用于训练字符识别模型的样本的均衡性。

Description

样本集构建方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种样本集构建方法、装置、计算机设备和存储介质。

背景技术

在证件信息自动识别的技术领域中，需要大量的证件图片对字符识别模型进行训练，可以提高字符识别模型对证件信息识别的准确性。但是在训练字符识别模型时所需的图片数量非常多，通常也无法获取到大量的真实的证件图片。

目前，在训练字符识别模型时所使用的证件图片大多数是通过模板批量生成电子证件图得到的，这样得到的电子证件图虽然较为清晰，但随机性不强，会导致证件图片作为样本图片存在分布不均衡的问题。当直接利用大量不均衡的证件图片对字符识别模型进行训练，得到的字符识别模型的模型参数就会不够准确，使用训练后的字符识别模型对证件信息进行识别时，得到的识别结果也就不太准确。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高用于训练字符识别模型的样本的均衡性的样本集构建方法、装置、计算机设备和存储介质。

一种样本集构建方法，所述方法包括：

获取根据证件图生成的不包括证件信息的证件模板图；

按照所述证件图中各类所述证件信息的样式生成多组虚拟证件信息；

将所述虚拟证件信息按照所述证件图中各类证件信息的位置写入所述证件模板图，生成电子证件图；

对所述电子证件图对应的实体证件进行图像采集，得到的证件采集图；

根据所述电子证件图和所述证件采集图构建图片样本集，所述图片样本集用于训练字符识别模型。

在其中一个实施例中，所述按照所述证件图中各类证件信息的样式生成多组虚拟证件信息，包括：

按照证件号码的数字串长度获取多个数字，生成虚拟证件号码；对生成的所有虚拟证件号码进行去重处理，得到预设数量的虚拟证件号码；重复执行从汉字库中获取未被标记的汉字，生成虚拟姓名；根据已生成的全部虚拟姓名，统计当前生成的所述虚拟姓名所包括的各个汉字的使用次数；当所述使用次数达到预设上限值时，对相应的汉字进行标记的步骤，直至得到预设数量的虚拟姓名；将得到的所述虚拟证件号码、所述虚拟姓名随机组合，得到多组虚拟证件信息。

在其中一个实施例中，所述将所述虚拟证件信息按照所述证件图中各类证件信息的位置写入所述证件模板图，生成电子证件图包括：

获取所述虚拟证件信息中虚拟证件号码、虚拟姓名各自对应的字符格式；

确定所述证件图中各类证件信息的位置；

根据各类证件信息的位置，按照所述字符格式分别将每组所述虚拟证件信息写入所述证件模板图的相应位置，得到电子证件图。

在其中一个实施例中，所述对所述电子证件图对应的实体证件进行图像采集，得到的证件采集图包括：

确定图像采集参数；所述图像采集参数包括光线强度、焦距、采集角度和采集背景中的至少一种；在各所述图像采集参数对应不同的参数值时，对所述电子证件图对应的实体证件进行图像采集，得到预设数量的证件采集图。

在其中一个实施例中，所述在各所述图像采集参数对应不同的参数值时，对所述电子证件图对应的实体证件进行图像采集，得到预设数量的证件采集图包括：

确定各所述图像采集参数对应的标准参数值；根据所述标准参数值，对所述电子证件图对应的实体证件进行图像采集得到标准图像；将所述标准图像、所述电子证件图添加至用于存放正样本的图片路径；当接收到干扰指令时，则将各所述图像采集参数对应的参数值从所述标准参数值调整至不同的干扰值，根据调整后的所述干扰值对所述实体证件进行图像采集得到干扰图像，将所述干扰图像添加至用于存放负样本的图片路径。

在其中一个实施例中，所述方法还包括：

获取图片处理操作；所述图片处理操作包括翻转操作、拉伸操作、旋转操作、加噪操作和模糊操作中的至少一种；根据所述图片处理操作，对所述电子证件图和所述证件采集图进行处理，得到多种不同的衍生图像；将所述衍生图像作为待构建的图片样本集中的负样本；将所述电子证件图和所述证件采集图作为所述图片样本集中的正样本。

在其中一个实施例中，所述根据所述电子证件图和所述证件采集图构建图片样本集包括：

分别确定所述正样本和所述负样本的数量；当所述正样本的数量与所述负样本的数量之间的差异大于预设阈值时，则确定多的样本中所述虚拟证件信息的相似度排名靠前的样本；从多的样本中剔除所述排名靠前的样本，使得剔除后剩下的样本的数量与少的样本的数量之间的差异小于预设阈值，得到正负样本数量均衡的图片样本集。

一种样本集构建装置，所述装置包括：

证件模板图获取模块，用于获取根据证件图生成的不包括证件信息的证件模板图；

虚拟证件信息生成模块，用于按照所述证件图中各类所述证件信息的样式生成多组虚拟证件信息；

电子证件图生成模块，用于将所述虚拟证件信息按照所述证件图中各类证件信息的位置写入所述证件模板图，生成电子证件图；

采集模块，用于对所述电子证件图对应的实体证件进行图像采集，得到的证件采集图；

构建模块，用于根据所述电子证件图和所述证件采集图构建图片样本集，所述图片样本集用于训练字符识别模型。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取根据证件图生成的不包括证件信息的证件模板图；

按照所述证件图中各类证件信息的样式生成多组虚拟证件信息；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取根据证件图生成的不包括证件信息的证件模板图；

上述样本集构建方法、装置、计算机设备和存储介质，在获取到根据证件图生成的不包括证件信息的证件模板图之后，就可以按照证件图中各类证件信息的样式生成多组虚拟证件信息，并按照证件图中各类证件信息的位置，将生成的虚拟证件信息写入证件模板图，得到大量携带各种不同虚拟证件信息的电子证件图。进一步地，在得到电子证件图的实体证件之后，可以对实体证件进行图像采集，得到证件采集图，根据生成的电子证件图和图像采集得到的证件采集图构建图片样本集。构建的图片样本集不仅包括大量对应不同的虚拟证件信息的电子证件图，还包括模拟真实证件的图像采集过程得到的证件采集图，也就是说，图片样本集中的图片，不仅信息丰富，来源也更真实，提高了样本的多样性，样本更加均衡，在利用该图片样本集对字符识别模型进行训练时，能够得到识别准确率较高的字符识别模型。

附图说明

图1为一个实施例中样本集构建方法的应用场景图；

图2为一个实施例中样本集构建方法的流程示意图；

图3为一个实施例中样本集构建装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的样本集构建方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。服务器104可以通过网络获取根据证件图生成的不包括证件信息的证件模板图；按照证件图中各类证件信息的样式生成多组虚拟证件信息；将虚拟证件信息按照所述证件图中各类证件信息的位置写入证件模板图，生成电子证件图；终端102对电子证件图对应的实体证件进行图像采集，得到的证件采集图，服务器104可以获取终端102发送的证件采集图；根据电子证件图和证件采集图构建图片样本集，图片样本集用于训练字符识别模型。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种样本集构建方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤202，获取根据证件图生成的不包括证件信息的证件模板图。

其中，证件模板图是证件信息为空白的证件图。证件可以是居民身份证、护照、驾驶证或毕业证等。证件信息至少包括证件持有人的证件号码、姓名，还可以包括出生日期、照片、居住地址、证件有效期等。证件号码可以是证件持有人的身份证号码，姓名可以包括中文姓名和英文姓名中的至少一种。服务器可以从浏览器的网页获取一张完整的证件图，对获取的证件图进行图像处理，得到证件模板图，被处理后得到的证件模板图不包括证件信息。

需要说明的是，可以按照需求抹除获取的证件图中的证件信息，比如，若字符识别模型仅需要对证件号码进行识别，则可以仅抹除证件图中的证件号码，若还需要对姓名进行识别，则还需要抹除证件图中的姓名。

步骤204，按照证件图中各类证件信息的样式生成多组虚拟证件信息。

证件信息的样式是指证件图中证件信息的呈现格式，比如，证件号码以9位数的阿拉伯数字表示，而姓名由2～4个简体汉字组成等等。虚拟证件信息是指为生成用于作为样本的电子证件图而虚造的不具有真实性和有效性的证件信息。

具体地，服务器可以生成用于表示证件图中各类证件信息的样式的约束条件，根据生成的约束条件生成每类虚拟证件信息，将不同类别的虚拟证件信息随机组合，得到多组虚拟证件信息。约束条件比如可以是生成9位数的虚拟证件号码、2～4个汉字的姓名、以YYYY-MM-DD(年-月-日)格式生成的虚拟出生日期等。

在其中一个实施例中，按照证件图中各类证件信息的样式生成多组虚拟证件信息包括：按照证件号码的数字串长度获取多个数字，生成虚拟证件号码；对生成的所有虚拟证件号码进行去重处理，得到预设数量的虚拟证件号码；重复执行从汉字库中获取未被标记的汉字，生成虚拟姓名；根据已生成的全部虚拟姓名，统计当前生成的虚拟姓名所包括的各个汉字的使用次数；当使用次数达到预设上限值时，对相应的汉字进行标记的步骤，直至得到预设数量的虚拟姓名；将得到的虚拟证件号码、虚拟姓名随机组合，得到多组虚拟证件信息。

其中，虚拟证件号码是虚造的证件号码，虚拟证件号码中的数字没有特定的含义，虚拟姓名是虚造的姓名。具体地，若证件图中的证件信息包括证件号码和姓名，则在生成虚拟证件信息时，可按照证件号码的数字串长度随机获取相应数量的数字，生成虚拟证件号码，比如，若证件号码包括9位数字，则每生成一个虚拟证件号码时就随机获取9个数字，按顺序排列生成证件号码，然后对得到的所有虚拟证件号码进行去重处理，去除重复的虚拟证件号码。

在生成虚拟姓名时，从汉字库中随机获取2～4个未被标记的汉字，生成虚拟姓名，然后对统计当前生成的虚拟姓名所包括的汉字的使用次数，也就是在已经生成的虚拟姓名中，当前生成的虚拟姓名所包括汉字的使用频率，若使用次数达到上限值，比如5次，则将达到上限值的汉字进行标记，则在后续生成新的虚拟姓名时，从汉字库中获取未被标记的汉字生成新的虚拟姓名。这样，可以保证汉字库中的汉字都尽可能地被使用到，生成的虚拟姓名能够尽量覆盖汉字库中的大多数汉字，并且这样生成的虚拟姓名的重复度也不会太高，能够提高得到的包括虚拟证件信息的电子证件图的多样性。

进一步地，服务器还可以将生成的所有虚拟证件号码、虚拟姓名随机组合，得到多虚拟证件信息，并对得到的所有虚拟证件信息进行去重处理，从多组虚拟证件信息中剔除重复的虚拟证件信息。

步骤206，将虚拟证件信息按照证件图中各类证件信息的位置写入证件模板图，生成电子证件图。

具体地，服务器在得到证件模板图和多组虚拟证件信息后，可按照证件图中各类证件信息的位置，将生成的各组虚拟证件信息写入证件模板图中的相应位置处，得到大量的电子证件图。

在其中一个实施例中，将虚拟证件信息按照相应位置写入证件模板图，生成电子证件图包括：获取虚拟证件信息中虚拟证件号码、虚拟姓名各自对应的字符格式；确定证件图中各类证件信息的位置；根据各类证件信息的位置，按照字符格式分别将每组虚拟证件信息写入证件模板图，得到电子证件图。

其中，字符格式是指证件图中各类证件信息的字符样式，包括字符所采用的印刷字体、字符大小、字符颜色、字符间距、简繁格式等。具体地，服务器在获取到证件图后，可以根据证件图中证件信息的字符的布局，确定各类证件信息在证件图中的相对位置。在其中一个实施例中，服务器可以确定证件图所包括的各类证件信息，并确定各类证件信息的首字符在证件图中的位置，将该位置作为相应证件信息在证件图中的位置。服务器可以根据证件图确定证件号码、姓名各自对应的字符格式，分别作为待生成的虚拟证件号码、虚拟姓名的字符格式，按照各自的字符格式将得到的每组虚拟证件信息写入证件模板图的相应位置。该相应位置可以是前文中提及的由证件图中证件号码、姓名的首字符所确定的位置。

步骤208，对电子证件图对应的实体证件进行图像采集，得到的证件采集图。

其中，实体证件是根据生成的电子证件图制作的实体证件，可对生成的一部分电子证件图制作实体证件，证件采集图是指对制作的实体证件进行图像采集得到的图片，可以是由终端采集得到后发送至服务器的，服务器可获取对这些实体证件进行图像采集的得到的证件采集图。可以不同的图像采集参数、不同的设备对实体证件进行图像采集，得到更贴近于真实场景下得到的证件图片，使得待构建的图片样本集中的图片更贴合真实的场景下得到的证件图片。

在其中一个实施例中，对电子证件图对应的实体证件进行图像采集，得到的证件采集图包括：确定图像采集参数；图像采集参数包括光线强度、焦距、采集角度和采集背景中的至少一种；在各图像采集参数对应不同的参数值时，对电子证件图对应的实体证件进行图像采集，得到预设数量的证件采集图。

具体地，可在各种图像采集参数取不同的参数值时，对电子证件图对应的实体证件进行图像采集，得到大量的证件采集图，这样得到的证件采集图随机性更强，更加符合样本应当具有的均衡性。证件采集图可以包括标准图像和干扰图像。

在其中一个实施例中，在各图像采集参数对应不同的参数值时，对电子证件图对应的实体证件进行图像采集，得到预设数量的证件采集图包括：确定各图像采集参数对应的标准参数值；根据标准参数值，对电子证件图对应的实体证件进行图像采集得到标准图像；将标准图像、电子证件图添加至用于存放正样本的图片路径；当接收到干扰指令时，则将各图像采集参数对应的参数值从标准参数值调整至不同的干扰值，根据调整后的干扰值对实体证件进行图像采集得到干扰图像，将干扰图像添加至用于存放负样本的图片路径。

具体地，图像采集参数包括光线强度、焦距、采集角度和采集背景中的至少一种，可预先设置各个图像采集参数对应的标准参数值，在该标准参数值下对实体证件进行图像采集得到的图像为标准图像，标准图像和生成的电子证件图可以作为待构建的图片样本集的正样本。干扰指令是用于对采集图像的过程添加随机性较强的干扰因素的指令，这样得到的图片也更贴合实际的证件照片采集过程。可接收用户触发的干扰指令，在接收到干扰指令后，将至少一个图像采集参数对应的参数值从标准参数值调整至不同的干扰值，这样不同参数值的组合下，对同一个实体证件进行图像采集得到多个干扰图像，也可以对不同的实体证件在不同的参数值下进行图像采集，得到的干扰图像作为待构建的图片样本集的负样本。这样，不仅可以大大增加样本图片的数量，还可以丰富样本图片的采集条件，能够提升样本图片的多样性。

步骤210，根据电子证件图和证件采集图构建图片样本集，图片样本集用于训练字符识别模型。

具体地，经过上述步骤，服务器不仅可以得到与证件图的背景非常相似的电子证件图，还可以得到对电子证件图对应的实体证件进行图像采集得到的各种证件采集图，根据电子证件图和证件采集图构建得到的图片样本集，用于对字符识别模型进行训练时，可以提高字符识别模型对字符进行识别的准确率。

在其中一个实施例中，根据电子证件图和证件采集图构建图片样本集包括：分别确定正样本和负样本的数量；当正样本的数量与负样本的数量之间的差异大于预设阈值时，则确定多的样本中虚拟证件信息的相似度排名靠前的样本；从多的样本中剔除排名靠前的样本，使得剔除后剩下的样本的数量与少的样本的数量之间的差异小于预设阈值，得到正负样本数量均衡的图片样本集。

具体地，服务器在得到所有的样本图片后，分别确定正样本和负样本的数量，当正样本的数量与负样本的数量之间的差异大于预设阈值时，需要对样本的数量进行调整，使得调整后的正负样本之间的差异小于预设阈值，正负样本数量均衡，可以避免训练得到的字符识别模型过拟合或欠拟合的情况。比如，正样本的数量与负样本的数量之间的比例大于预设阈值，则可以确定各正样本对应的虚拟证件信息，将虚拟证件信息重复度较高的样本从正样本中剔除，以减少正样本的数量。

上述样本集构建方法，在获取到根据证件图生成的不包括证件信息的证件模板图之后，就可以按照证件图中各类证件信息的样式生成多组虚拟证件信息，并按照证件图中各类证件信息的位置，将生成的虚拟证件信息写入证件模板图，得到大量携带各种不同虚拟证件信息的电子证件图。进一步地，在得到电子证件图的实体证件之后，可以对实体证件进行图像采集，得到证件采集图，根据生成的电子证件图和图像采集得到的证件采集图构建图片样本集。构建的图片样本集不仅包括大量对应不同的虚拟证件信息的电子证件图，还包括模拟真实证件的图像采集过程得到的证件采集图，也就是说，图片样本集中的图片，不仅信息丰富，来源也更真实，提高了样本的多样性，样本更加均衡，在利用该图片样本集对字符识别模型进行训练时，能够得到识别准确率较高的字符识别模型。

在其中一个实施例中，上述样本集构建方法还包括：获取图片处理操作；图片处理操作包括翻转操作、拉伸操作、旋转操作、加噪操作和模糊操作中的至少一种；根据图片处理操作，对电子证件图和证件采集图进行处理，得到多种不同的衍生图像；将衍生图像作为待构建的图片样本集中的负样本；将电子证件图和证件采集图作为图片样本集中的正样本。

具体地，还可进一步对电子证件图和证件采集图进行图片处理，包括翻转处理、拉伸处理、旋转处理、添加噪声处理和模糊处理，处理后得到多种不同衍生图像。可以采样上述图片处理操作中的至少一种对电子证件图和证件采集图进行处理。这里的证件采集图可以包括标准图像和干扰图像，也就是，可以对标准图像进行处理，得到作为负样本的衍生图像，还可以对干扰图像进行处理得到作为负样本的衍生图像，这样，用于构建图片样本集的正样本包括：电子证件图和标准图像，负样本包括：干扰图像、对电子证件图进行处理得到的衍生图像、对标准图像进行处理得到的衍生图像以及对干扰图像进行处理得到的衍生图像。

在本实施例中，通过多种图片处理操作，对电子证件图和证件采集图进行处理，能够增加样本数量，提高用于训练字符识别模型的样本的均衡性。

在一个具体的实施例中，样本集构建方法具体包括以下步骤：

获取根据证件图生成的不包括证件信息的证件模板图；

按照证件图中证件号码的数字串长度获取多个数字，生成虚拟证件号码；对生成的所有虚拟证件号码进行去重处理，得到预设数量的虚拟证件号码；

重复执行从汉字库中获取未被标记的汉字，生成虚拟姓名；根据已生成的全部虚拟姓名，统计当前生成的虚拟姓名所包括的各个汉字的使用次数；当使用次数达到预设上限值时，对相应的汉字进行标记的步骤，直至得到预设数量的虚拟姓名；

将得到的虚拟证件号码、虚拟姓名随机组合，得到多组虚拟证件信息；

获取虚拟证件号码、虚拟姓名各自对应的字符格式；

确定证件图中各类证件信息的位置；

根据各类证件信息的位置，按照字符格式分别将每组虚拟证件信息写入证件模板图，得到电子证件图；

确定图像采集参数；图像采集参数包括光线强度、焦距、采集角度和采集背景中的至少一种；

确定各图像采集参数对应的标准参数值；

根据标准参数值，对电子证件图对应的实体证件进行图像采集得到标准图像；将标准图像、电子证件图添加至用于存放正样本的图片路径；

当接收到干扰指令时，则将各图像采集参数对应的参数值从标准参数值调整至不同的干扰值，根据调整后的干扰值对实体证件进行图像采集得到干扰图像，将干扰图像添加至用于存放负样本的图片路径；

获取图片处理操作；图片处理操作包括翻转操作、拉伸操作、旋转操作、加噪操作和模糊操作中的至少一种；

根据图片处理操作，对电子证件图和证件采集图进行处理，得到多种不同的衍生图像；

将衍生图像作为待构建的图片样本集中的负样本；将电子证件图和证件采集图作为图片样本集中的正样本；

分别确定正样本和负样本的数量；

当正样本的数量与负样本的数量之间的差异大于预设阈值时，则确定多的样本中虚拟证件信息的相似度排名靠前的样本；从多的样本中剔除相似度排名靠前的样本，使得剔除后剩下的样本的数量与少的样本的数量之间的差异小于预设阈值，得到正负样本数量均衡的图片样本集，图片样本集用于训练字符识别模型。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了一种样本集构建装置300，包括：证件模板图获取模块302、虚拟证件信息生成模块304、电子证件图生成模块306、采集模块308和构建模块310，其中：

证件模板图获取模块302，用于获取根据证件图生成的不包括证件信息的证件模板图。

虚拟证件信息生成模块304，用于按照证件图中各类证件信息的样式生成多组虚拟证件信息。

电子证件图生成模块306，用于将虚拟证件信息按照所述证件图中各类证件信息的位置写入证件模板图，生成电子证件图。

采集模块308，用于对电子证件图对应的实体证件进行图像采集，得到的证件采集图。

构建模块310，用于根据电子证件图和证件采集图构建图片样本集，图片样本集用于训练字符识别模型。

在其中一个实施例中，虚拟证件信息生成模块304还用于按照证件号码的数字串长度获取多个数字，生成虚拟证件号码；对生成的所有虚拟证件号码进行去重处理，得到预设数量的虚拟证件号码；重复执行从汉字库中获取未被标记的汉字，生成虚拟姓名；根据已生成的全部虚拟姓名，统计当前生成的虚拟姓名所包括的各个汉字的使用次数；当使用次数达到预设上限值时，对相应的汉字进行标记的步骤，直至得到预设数量的虚拟姓名；将得到的虚拟证件号码、虚拟姓名随机组合，得到多组虚拟证件信息。

在其中一个实施例中，电子证件图生成模块306还用于获取虚拟证件信息中虚拟证件号码、虚拟姓名各自对应的字符格式；确定所述证件图中各类证件信息的位置；根据各类证件信息的位置，按照字符格式分别将每组虚拟证件信息写入证件模板图，得到电子证件图。

在其中一个实施例中，采集模块308还用于确定图像采集参数；图像采集参数包括光线强度、焦距、采集角度和采集背景中的至少一种；在各图像采集参数对应不同的参数值时，对电子证件图对应的实体证件进行图像采集，得到预设数量的证件采集图。

在其中一个实施例中，采集模块308还用于确定各图像采集参数对应的标准参数值；根据标准参数值，对电子证件图对应的实体证件进行图像采集得到标准图像；将标准图像、电子证件图添加至用于存放正样本的图片路径；当接收到干扰指令时，则将各图像采集参数对应的参数值从标准参数值调整至不同的干扰值，根据调整后的干扰值对实体证件进行图像采集得到干扰图像，将干扰图像添加至用于存放负样本的图片路径。

在其中一个实施例中，样本集构建装置300还包括图片处理模块，图片处理模块用于获取图片处理操作；图片处理操作包括翻转操作、拉伸操作、旋转操作、加噪操作和模糊操作中的至少一种；根据图片处理操作，对电子证件图和证件采集图进行处理，得到多种不同的衍生图像；将衍生图像作为待构建的图片样本集中的负样本；将电子证件图和证件采集图作为图片样本集中的正样本。

在其中一个实施例中，构建模块310还用于分别确定正样本和负样本的数量；当正样本的数量与负样本的数量之间的差异大于预设阈值时，则确定多的样本中虚拟证件信息的相似度排名靠前的样本；从多的样本中剔除排名靠前的样本，使得剔除后剩下的样本的数量与少的样本的数量之间的差异小于预设阈值，得到正负样本数量均衡的图片样本集。

上述样本集构建装置300，在获取到根据证件图生成的不包括证件信息的证件模板图之后，就可以按照证件图中各类证件信息的样式生成多组虚拟证件信息，并按照证件图中各类证件信息的位置，将生成的虚拟证件信息写入证件模板图，得到大量携带各种不同虚拟证件信息的电子证件图。进一步地，在得到电子证件图的实体证件之后，可以对实体证件进行图像采集，得到证件采集图，根据生成的电子证件图和图像采集得到的证件采集图构建图片样本集。构建的图片样本集不仅包括大量对应不同的虚拟证件信息的电子证件图，还包括模拟真实证件的图像采集过程得到的证件采集图，也就是说，图片样本集中的图片，不仅信息丰富，来源也更真实，提高了样本的多样性，样本更加均衡，在利用该图片样本集对字符识别模型进行训练时，能够得到识别准确率较高的字符识别模型。

关于样本集构建装置300的具体限定可以参见上文中对于样本集构建方法的限定，在此不再赘述。上述样本集构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种样本集构建方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的样本集构建装置300可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成该样本集构建装置300的各个程序模块，比如，图3所示的证件模板图获取模块302、虚拟证件信息生成模块304、电子证件图生成模块306、采集模块308和构建模块310。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的样本集构建方法中的步骤。

例如，图4所示的计算机设备可以通过如图3所示的样本集构建装置300中的获取模块302执行步骤202。计算机设备可通过确定模块304执行步骤204。计算机设备可通过虚拟证件信息生成模块306执行步骤206。计算机设备可通过电子证件图生成模块308执行步骤208。计算机设备可通过采集模块310执行步骤210。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述样本集构建方法的步骤。此处样本集构建方法的步骤可以是上述各个实施例的样本集构建方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述样本集构建方法的步骤。此处样本集构建方法的步骤可以是上述各个实施例的样本集构建方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种样本集构建方法，所述方法包括：

获取根据证件图生成的不包括证件信息的证件模板图；

按照证件号码的数字串长度获取多个数字，生成虚拟证件号码；对生成的所有虚拟证件号码进行去重处理，得到预设数量的虚拟证件号码；

重复执行从汉字库中获取未被标记的汉字，生成虚拟姓名；根据已生成的全部虚拟姓名，统计当前生成的所述虚拟姓名所包括的各个汉字的使用次数；当所述使用次数达到预设上限值时，对相应的汉字进行标记的步骤，直至得到预设数量的虚拟姓名；

将得到的所述虚拟证件号码、所述虚拟姓名随机组合，对随机组合得到的虚拟证件信息进行去重处理，得到多组虚拟证件信息；

2.根据权利要求1所述的方法，其特征在于，所述将所述虚拟证件信息按照所述证件图中各类证件信息的位置写入所述证件模板图，生成电子证件图，包括：

确定所述证件图中各类证件信息的位置；

根据各类证件信息的位置，按照所述字符格式分别将每组所述虚拟证件信息写入所述证件模板图，得到电子证件图。

3.根据权利要求1所述的方法，其特征在于，所述对所述电子证件图对应的实体证件进行图像采集，得到的证件采集图包括：

确定图像采集参数；所述图像采集参数包括光线强度、焦距、采集角度和采集背景中的至少一种；

在各所述图像采集参数对应不同的参数值时，对所述电子证件图对应的实体证件进行图像采集，得到预设数量的证件采集图。

4.根据权利要求3所述的方法，其特征在于，所述在各所述图像采集参数对应不同的参数值时，对所述电子证件图对应的实体证件进行图像采集，得到预设数量的证件采集图包括：

确定各所述图像采集参数对应的标准参数值；

根据所述标准参数值，对所述电子证件图对应的实体证件进行图像采集得到标准图像；将所述标准图像、所述电子证件图添加至用于存放正样本的图片路径；

当接收到干扰指令时，则

将各所述图像采集参数对应的参数值从所述标准参数值调整至不同的干扰值，根据调整后的所述干扰值对所述实体证件进行图像采集得到干扰图像，将所述干扰图像添加至用于存放负样本的图片路径。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取图片处理操作；所述图片处理操作包括翻转操作、拉伸操作、旋转操作、加噪操作和模糊操作中的至少一种；

根据所述图片处理操作，对所述电子证件图和所述证件采集图进行处理，得到多种不同的衍生图像；

将所述衍生图像作为待构建的图片样本集中的负样本；

将所述电子证件图和所述证件采集图作为所述图片样本集中的正样本。

6.根据权利要求4或5任一项所述的方法，其特征在于，所述根据所述电子证件图和所述证件采集图构建图片样本集包括：

分别确定所述正样本和所述负样本的数量；

当所述正样本的数量与所述负样本的数量之间的差异大于预设阈值时，则

确定多的样本中所述虚拟证件信息的相似度排名靠前的样本；

从多的样本中剔除所述相似度排名靠前的样本，使得剔除后剩下的样本的数量与少的样本的数量之间的差异小于预设阈值，得到正负样本数量均衡的图片样本集。

7.一种样本集构建装置，其特征在于，所述装置包括：

虚拟证件信息生成模块，用于按照证件号码的数字串长度获取多个数字，生成虚拟证件号码；对生成的所有虚拟证件号码进行去重处理，得到预设数量的虚拟证件号码；重复执行从汉字库中获取未被标记的汉字，生成虚拟姓名；根据已生成的全部虚拟姓名，统计当前生成的所述虚拟姓名所包括的各个汉字的使用次数；当所述使用次数达到预设上限值时，对相应的汉字进行标记的步骤，直至得到预设数量的虚拟姓名；将得到的所述虚拟证件号码、所述虚拟姓名随机组合，对随机组合得到的虚拟证件信息进行去重处理，得到多组虚拟证件信息；

8.根据权利要求7所述的装置，其特征在于，所述电子证件图生成模块还用于：

确定所述证件图中各类证件信息的位置；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。