CN113888675A - 用于生成证件图像的方法、系统、装置和介质 - Google Patents

用于生成证件图像的方法、系统、装置和介质 Download PDF

Info

Publication number
CN113888675A
CN113888675A CN202111158142.7A CN202111158142A CN113888675A CN 113888675 A CN113888675 A CN 113888675A CN 202111158142 A CN202111158142 A CN 202111158142A CN 113888675 A CN113888675 A CN 113888675A
Authority
CN
China
Prior art keywords
credential
certificate
template
factors
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111158142.7A
Other languages
English (en)
Inventor
甘宇飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202111158142.7A priority Critical patent/CN113888675A/zh
Publication of CN113888675A publication Critical patent/CN113888675A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

公开了一种用于生成证件图像的方法,包括:从证件特征因子库获取多个证件特征因子,所述证件特征因子是从多个真实证件图像提取的;将所述多个证件特征因子组合以便生成多个证件模板;用新证件特征因子替换所述多个证件模板中的对应证件特征因子以生成多个证件样本;以及采用机器学习算法来对每个证件样本执行质量风格迁移以生成一个或多个证件图像。本申请还涉及用于生成证件图像的系统、装置和介质。本申请的方案能够生成各种质量风格的大量逼真证件图像。

Description

用于生成证件图像的方法、系统、装置和介质
技术领域
本说明书的一个或多个实施例涉及用于生成证件图像的方法、系统、装置和计算机可读存储介质。
背景技术
在许多应用中,需要大量的身份证件的图像(例如身份证、护照、驾驶证等的照片)。为了使应用能够国际化,可能需要大量的不同国家的身份证件的图像。
现有的用于生成证件图像的方法通常是通过以下方式进行的:选择真实证件图像;用另一用户(真实用户或虚拟用户)的文字(例如姓名、身份号码)和图片(例如用户照片、二维码)来替换原图像中的相应部分。
然而,这样制作的证件图像可能不够逼真,而且彼此在质量和风格上都雷同。
因此,需要能够生成特征更丰富、质量风格更逼真的证件图像的方案。
发明内容
为了克服现有技术的缺陷,本说明书的一个或多个实施例通过采用二分类模型来生成具有逼真布局的证件模板并使用风格迁移来生成各种逼真的质量风格来允许使用大量证件特征因子生成大量各种风格的逼真证件。
本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。
在一个方面中,提供了一种用于生成证件图像的方法,包括:从证件特征因子库获取多个证件特征因子,所述证件特征因子是从多个真实证件图像提取的;将所述多个证件特征因子组合以便生成多个证件模板;用新证件特征因子替换所述多个证件模板中的对应证件特征因子以生成多个证件样本;以及采用机器学习算法来对每个证件样本执行质量风格迁移以生成一个或多个证件图像。
优选地,其中生成所述证件模板包括:使用二分类模型来筛选证件模板以提升所生成的证件模板的布局的真实性。
优选地,其中生成所述证件模板包括:随机组合所述多个证件特征因子以生成候选证件模板;使用所述二分类模型确定所述候选证件模板为真的置信度;将所述置信度与置信度阈值进行比较;以及选择所述置信度大于所述置信度阈值的候选证件模板作为所生成的证件模板。
优选地,其中所述二分类模型是使用训练样本集来训练的,其中所述训练样本集包括正样本和负样本,所述正样本为真实证件图像,所述负样本为通过证件特征因子的随机布局组成的证件图像。
优选地,其中所述训练样本集中的训练样本的质量风格是随机的。
优选地,其中基于所述证件模板生成多个证件样本包括:用新证件特征因子替换所述证件模板中的对应证件特征因子。
优选地,其中所述机器学习模型为生成对抗网络。
优选地,其中所述证件特征因子库包括多个子库,每个子库包括相同或相似类别的证件特征因子。
在另一方面,提供了一种用于生成证件图像的系统,包括:证件特征因子获取模块,用于从证件特征因子库获取多个证件特征因子,所述证件特征因子是从多个真实证件图像提取的;证件模板生成模块,用于将所述多个证件特征因子组合以便生成多个证件模板;证件样本生成模块,用于用新证件特征因子替换所述多个证件模板中的对应证件特征因子以生成多个证件样本;以及质量风格迁移模块,用于采用机器学习算法来对每个证件样本执行质量风格迁移以生成一个或多个证件图像。
优选地,其中所述证件模板生成模块用于使用二分类模型来筛选证件模板以提升所生成的证件模板的布局的真实性。
优选地,其中所述证件模板生成模块用于:随机组合所述多个证件特征因子以生成候选证件模板;使用所述二分类模型确定所述候选证件模板的布局的置信度;将所述置信度与置信度阈值进行比较;以及选择所述置信度大于所述置信度阈值的候选证件模板作为所生成的证件模板。
优选地,其中所述二分类模型是使用训练样本集来训练的,其中所述训练样本集包括正样本和负样本,所述正样本为真实证件图像,所述负样本为通过证件特征因子的随机布局组成的证件图像。
优选地,其中所述训练样本集中的训练样本的质量风格是随机的。
优选地,其中所述证件样本生成模块用于:用新证件特征因子替换所述证件模板中的对应证件特征因子。
优选地,其中所述机器学习模型为生成对抗网络。
优选地,其中所述证件特征因子库包括多个子库,每个子库包括相同或相似类别的证件特征因子。
在又一方面中,提供了一种用于确定文章对产品或服务的影响的装置,包括:存储器;以及处理器,所述处理器被配置成执行如上文任一项所述的方法。
在又一方面中,提供了一种存储指令的计算机可读存储介质,该指令当被计算机执行时,使所述计算机执行上述方法。
与现有技术相比,本说明书的一个或多个实施例能够实现以下技术效果中的一者或多者:
能够自动生成大量证件,提高证件生成效率;
生成的证件包括多种证件特征因子的组合;
生成的证件的布局逼真;
生成的证件可涵盖各种质量风格。
附图说明
以上发明内容以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是,附图仅作为所请求保护的发明的示例。在附图中,相同的附图标记代表相同或类似的元素。
图1示出根据本说明书实施例的用于生成证件图像的示例方法的流程图。
图2示出根据本说明书实施例的用于生成证件图像的示例过程的示意图。
图3示出根据本说明书实施例的证件特征因子的示例的示意图。
图4示出根据本说明书实施例的用于生成证件模板的示例过程的示意图。
图5示出根据本说明书实施例的用于生成证件模板的示例方法的流程图。
图6示出根据本说明书实施例的用于生成证件样本的示例过程的示意图。
图7示出根据本说明书实施例的用于调整证件样本的示例过程的示意图。
图8示出根据本说明书实施例的用于生成证件图像的示例系统的框图。
图9示出用于实现根据本说明书一个或多个实施例的系统的装置的示意框图。
具体实施方式
以下具体实施方式的内容足以使任何本领域技术人员了解本说明书的一个或多个实施例的技术内容并据以实施,且根据本说明书所揭露的说明书、权利要求及附图,本领域技术人员可轻易地理解本说明书的一个或多个实施例相关的目的及优点。
为避免可能存在的隐私问题,在本文附图中一些内容被手动涂抹。需要注意,这样的涂抹不应被解读为是本说明书的实施例的特征。
如上文所述,在许多应用中,需要大量的证件的图像(例如身份证、护照、驾驶证等的照片)。为了使应用能够国际化,可能需要大量的不同国家的身份证件的图像。然而,收集大量真实的,尤其是各个国家的证件可能难以实现。因此,在一些情况下,需要自动生成证件图像。
现有的用于生成证件图像的方法通常是通过以下方式进行的:选择现有证件图像(例如真实的证件图像);用另一用户(真实用户或虚拟用户)的文字(例如姓名、身份号码)和图片(例如用户照片、二维码)来替换现有图像中的相应部分。
然而,通过这种方式来生成证件图像可能存在以下问题:
需要手动地或基于外部规则来生成证件,效率较低;
所包含的证件特征因子组合取决于人的工作量或规则数量,不够丰富;
彼此在质量和风格上都雷同,不够逼真。
为解决上述问题,本说明书的一个或多个实施例公开了利用证件特征因子的自动组合、数据修改、风格迁移,使用机器学习算法来自动生成证件图像的方案。
在下文中,通常用身份证或者护照作为证件的示例。但应领会,本文中所称的“证件”,可以指能够用来标识用户的任何证件,而不限于下文示例中的证件。证件的示例可包括身份证、护照、驾驶证、社保卡、通行证,甚至例如工作证、学生证、毕业证等证件。
参见图1,其示出根据本说明书实施例的用于生成证件图像的示例方法100的流程图。方法100的操作可结合图2来理解,其中图2示出了根据本说明书实施例的用于生成证件图像的示例过程的示意图。
如图1所示,方法100可包括:在操作102,可获取多个证件特征因子。
本文中所称的证件特征因子,是指证件图像中具有代表性的图像部分。参见图3,图3示出根据本说明书实施例的证件特征因子的示例的示意图。如图3所示,证件特征因子可包括如证件图像中的人脸、LOGO、旗帜(如国期)、标识、印章、徽章(如国徽)、芯片、指纹、二维码、标题(如上标题、下标题)、可机器读取区域(MRZ)、签名等。在本说明书的实施例中还可使用图3中未示出的其他证件特征因子。
为方便描述,证件因子可被分为两种类型:文字类证件特征因子和图像类证件特征因子。文字类证件特征因子可包括由非个性化文字构成的图像部分,如用户姓名、身份号码、证件有效期、发证机构名称、标题、MRZ等等。除文字类证件特征因子外的其它证件特征因子可被认为是图像类证件特征因子,如用户照片、用户签名、印章、标识、旗帜、徽章、芯片、指纹等等。通常,文字类特因子可基于文字使用标准字体来自动生成,而图像类证件特征因子则难以简单地使用标准字体来生成。
证件特征因子例如可以是从证件特征因子库(例如图2的证件特征因子库202)获取的。证件特征因子库例如可以是如下文所述的用于生成证件图像的系统的一部分,也可以位于独立的数据存储系统中。
优选地,证件特征因子库中可包括多个不同证件种类的证件的证件特征因子。所谓证件种类,是指如由相同发证机关发放的同一用途的证件。例如,由不同用户持有的、由同一国家A所发出的相同证件(例如护照)可属于同一证件种类。在本说明书的实施例中,优选地可包括不同国家的、不同发证机关发放的、不同用户持有的证件的证件特征因子。通过在证件特征因子库中包括数量大、覆盖面广的证件的证件特征因子,能够提升最终生成的证件的多样性和覆盖度。
优选地,证件特征因子可与相关联的元数据一起存储在证件特征因子库中。优选地,所述元数据可包括该证件特征因子的标识(例如“人脸”、“LOGO”、“旗帜”等)。
优选地,所述元数据还可包括与该证件特征因子相关联的位置信息。例如,该位置信息可指示该证件特征因子在其证件图像中的相对位置。在一个示例中,该相对位置例如可以用百分比坐标来表示(例如其左上角、左下角、右上角、右下角在该证件图像中的百分比坐标)。还可采用其它方式来表示该位置信息。
所述元数据还可包括其它信息,例如该证件特征因子所来自的证件名称、该证件特征因子所来自的证件所代表的用户的名称、发证机关等等。
证件特征因子库中的证件特征因子例如可以是通过各种方式收集的。
在一个示例中,可通过爬取或访问网络上已有的公共的或私有的证件特征因子数据库来获取。优选地,在获取证件特征因子的同时还获取相关联的元数据(如果存在)。
在另一示例中,可从所收集的真实证件图像中提取证件特征因子。
例如,可通过人工抠图的方式来提取证件特征因子。在此情况下,可手动输入元数据或利用算法自动识别并存储元数据。
优选地,不是人工抠图,而是可通过图像识别技术自动识别出证件图像中的相应部分(例如人脸、国徽、MRZ等)并将该特征部分提取并存储为证件特征因子。在此情况下,可利用算法自动识别并存储证件特征因子。
优选地,证件特征因子库包括多个子库,每个子库中可包括相同或相似类别的证件特征因子。例如,证件特征因子库可包括东方人脸子库和西方人脸子库,东方人脸子库可包括包含东方人脸头像的证件特征因子,而西方人脸子库可包括包含西方人脸头像的证件特征因子。
又例如,证件特征因子库还可包括西方文字签名子库、阿拉伯文签名子库、中文签名子库等,西方文字签名可包括包含西方文字(如英语、德语、法语等)签名的证件特征因子,阿拉伯文签名子库可包括包含阿拉伯文签名的证件特征因子,中文签名子库可包括包含日文签名的证件特征因子,以此类推。
在另一示例中,不是划分为多个子库,而是证件特征因子库的证件特征因子的元数据中包括种类信息,例如东方人脸、西方人脸;西方文字签名、阿拉伯文签名、中文签名等等。
通过标识出不同种类的证件特征因子,在后续生成证件样本时可使用相同或相似种类的新证件特征因子来取代旧证件特征因子,这将在后文中更详细地描述。
方法100还可包括:在操作104,可将所述多个证件特征因子组合以便生成多个证件模板。如图2所示,可将来自证件特征因子库202的证件特征因子进行组合以生成多个证件模板204(如证件模板A、证件模板B、证件模板C……)。如图4所示,可将来自证件图像401、402、403、404的证件特征因子组合到证件模板405中。在一个示例中,证件图像401、402、403、404可以是真实证件的图像。例如,用户头像可来自证件图像404、上标题可来自证件图像402、签名和下标题可来自证件图像403、标识可来自证件图像401……等等。需要理解的是,虽然在图4中示出了证件模板405的证件特征因子来自四个证件的图像,但证件模板的证件特征因子可以是来自证件特征因子库的、从更多或更少证件图像提取的证件特征因子。
生成证件模板的一个难点在于如何将不同的证件特征因子在生成的证件图像的模板上进行布局。可基于多种方式来组合证件特征因子以生成证件模板。
在一个示例中,在存储了证件特征因子的位置信息的情况下,可基于该位置信息来将证件特征因子自动放置到该证件模板中。例如,从证件模板的左上角的特定位置提取的证件特征因子可被放入特征模板的左上角相同位置。在另一些示例中,可对证件特征因子的位置进行自动调整。
在替代示例中,例如在未存储证件特征因子的位置信息的情况下,可基于规则来将证件特征因子放置到证件模板中。例如,该规则可包括与证件特征因子相关联的位置信息。例如,该规则可指定人脸在图像左边居中位置,个人信息标题在居中正上的位置,指纹在右下角等。
然而,上述生成证件布局的方式比较死板,所生成的证件模板的布局不够多样化而且可能不够真实。
因此,在本说明书的优选实施例中,可采用机器学习模型来自动组合证件特征因子以生成证件模板。参见图5,其示出根据本说明书实施例的用于生成证件样本的示例方法500的流程图。
如图5所示,方法500可包括:在操作502,可随机组合所述多个证件特征因子以生成候选证件模板。例如,可将从证件特征因子库中所获取的多个证件特征因子随机布局在空白证件模板上。在优选示例中,布局在一空白证件模板上的证件特征因子的数量可被限制在一范围内。例如,可从证件特征因子库中随机选择5-20个证件特征因子,并将这些证件特征因子随机排列在空白证件模板上,以填充该空白证件模板。在一示例中,所述证件特征因子的大小被归一化。在替代示例中,可随机调整证件特征因子的大小(例如用0-10的大小调整系数)并使用大小经调整的证件特征因子来随机布局在空白证件模板上。
可以想象,用这种方式生成的候选证件模板中可能存在大量的虚假布局。因此,需要从这些布局中选择比较逼真的证件布局。
为选择逼真的证件布局,方法500可包括:在操作504,可使用二分类模型确定所述候选证件模板为真的置信度。
例如,该二分类模型可以是本领域已知的任何适用的二分类模型。二分类模型是一类机器学习模型,其可将输入分为两个类。在本说明书实施例中,可使用二分类模型来判断所生成的证件模板为真实证件布局(例如输出标签值“1”)还是虚假证件布局(例如输出标签值“0”)。此外,该二分类模型来确定该判断的置信度。例如,对于随机生成的一个证件模板,可使用二分类模型来确定该证件模板是否为真并且确定该证件为真的置信度。在一个示例中,针对候选证件模型A,二分类模型输出标签“1”(即真),且置信度为0.3;针对候选证件模型B,二分类模型输出标签“1”,且置信度为0.8。
该二分类模型可以是使用训练样本集来训练的。通常,该训练样本集可包括正样本和负样本。例如,正样本为真实证件图像,而负样本则可以是自动生成的虚假证件图像。例如,负样本可以是使用从证件特征因子库获取的证件特征因子的随机布局组成的证件图像。正样本和负样本都可具有对应的标签。
由于生成证件模板操作的重点在于确定逼真的证件布局,而此操作不关注所生成的证件模板的真实性的其它影响因素(例如质量风格等)。因此,在优选实施例中,训练样本集中的训练样本的质量风格是随机的。通过这种方式,正样本和负样本在质量风格上在统计上不存在显著区别,因此二分类模型在判断证件模板是否为真时与质量风格相关联的因子所占的权重将比较小甚至不存在,从而可以使得二分类模型主要基于证件布局来判断证件模板是否为真。
方法500还可包括:在确定每个候选模板为真的置信度之后,可在操作506,将每个候选模板的置信度与置信度阈值进行比较。该置信度阈值可由开发者或用户根据经验或根据实验来预先设置。例如,该置信度阈值可被设置为0-1之间的任何值。在一个示例中,可将置信度阈值预先设置为0.7。
方法500还可包括:在操作508,可仅选择置信度大于置信度阈值的候选证件模板作为所生成的证件模板。接以上示例,仅候选证件模型B被选择为所生成的证件模板,而候选证件模板A将被丢弃。可以理解,被判断为假的候选证件模板都将被丢弃。
方法100还可包括:在操作106,可基于所述证件模板生成多个证件样本。
如图2所示,可基于每个证件模板204生成多个证件样本206。例如,可基于证件模板A生成证件样本A1、证件样本A2、证件样本A3……;可基于证件模板B生成证件样本B1、证件样本B2、证件样本B3……;可基于证件模板C生成证件样本C1、证件样本C2、证件样本C3……;等等。每个证件样本可对应于一真实用户或虚拟用户。在多数示例中,每个证件样本可对应用于一虚拟用户,即现实中不存在的用户。在其它示例中,在所生成的证件样本的名称为用户的真实名称的情况下,可认为该证件样本对应于真实用户(但在此情况下,该证件样本中的其它信息未必是真实的)。所生成的对应于真实用户的证件样本(以及由此生成的对应于真实用户的证件图像)更具有针对性。例如,可生成具有指定用户名的证件样本。
具体而言,生成证件样本可通过用新证件特征因子替换所述证件模板中的对应证件特征因子来执行。
在一个示例中,不管是文字类证件特征因子还是图像类证件特征因子,可在单个操作中统一执行替换。
例如,首先可获取新证件特征因子。在一示例中,新证件特征因子例如可均来自证件特征因子库。在其它示例中,新证件特征因子库可来自其它数据库。例如,用户签名可来自所收集的签名数据库、印章可来自所收集的印章数据库、指纹可来自所收集的指纹数据库等等。所述签名数据库、印章数据库、指纹数据库等可与证件特征因子库不同。
随后,可用所获取的新证件特征因子来替换证件模板中的对应证件特征因子。例如,可用所获取的人脸来替换证件模板中的人脸,用所获取的印章来替换证件模板中的印章,用所获取的身份证号来替换证件模板中的身份证号……以此类推。
在一些示例中,在用新证件特征因子来代替证件模板中的对应证件特征因子之前,可首先对新证件特征因子进行预处理。例如,可对新证件特征因子的大小、方向、饱和度、颜色等执行处理,以便使得新证件特征因子与证件模板中的原有证件特征因子相一致。
在优选示例中,可使用来自证件特征因子库中的同一子库的证件特征因子来替换证件模板中的对应证件特征因子。例如,可仅使用来自东方人脸子库的人脸图像来替换证件模板中的东方人脸图像,可仅使用阿拉伯文签名子库中的签名图像来替换证件模板中的阿拉伯文签名图像,等等。
通过使用新证件特征因子来替换证件模板中的证件特征因子,对于同一证件模板(例如同一证件布局)可生成大量的证件样本。
在以上示例中,将文字类证件特征因子和图像类证件特征因子等同对待。在另一优选示例中,可将文字类证件特征因子和图像类证件特征因子分开地执行替换。参见图6,其示出根据本说明书实施例的用于生成证件样本的示例过程的示意图。
如图6所示,可在一步骤中用文字类证件特征因子替换所述证件模板中的对应证件特征因子。例如,可替换证件模板602(其可类似于图4中的证件模板405)中的文字,从而生成证件中间样本604。例如,所述文字可包括用户姓名和身份号码。所述文字例如还可包括其它文字,例如证件有效期、发证机构名称、标题、MRZ等等。
将文字类证件特征因子和图像类证件特征因子分开操作的优势在于:可自动生成文字类证件特征因子,而无需使用证件特征因子数据库或其它数据库中已有的证件特征因子。例如,可自动生成符合需要的用户姓名、身份证号码、证件有效期等等文字。例如,可基于特定国家的上述文字的规律按照规则来生成上述文字。此外,还可自定义所生成的文字类证件特征因子中的文字以符合特定需要。例如,可生成具有特定用户名称的证件特征因子。
随后,可使用所生成的文字来生成图像以便生成文字类证件特征因子。例如,可调整新的文字的字体、大小、风格等,以便使得新的文字类证件特征因子图像与真实证件中的相应文字类证件特征因子的图像相一致。
最后,可使用所生成的文字类证件特征因子来替换证件模板中的文字类证件特征因子。
可在另一操作中用替换所述证件模板中的图像。例如,可替换证件中间样本604中的图像,从而生成证件样本606。例如,所述图像包括用户照片。所述用户图像还可包括二维码。所述图像还可包括用户签名、印章、标识、旗帜、徽章、芯片、指纹等等。这一过程可参考上文的描述。
可以领会,虽然在图6中文字类证件特征因子的替换和图像类证件特征因子的替换被示出为被分开执行,但这仅是为了突出两者之间的区别。例如,在一示例中,虽然文字类证件特征因子可被分开生成,但所生成的文字类证件特征因子和证件特征因子库或其它数据库中的已有图像类证件特征因子可在同一操作中替换证件模板中的对应证件特征因子。
可以领会,虽然在图6中示出了从单个图像模板602生成单个证件中间样本604并生成单个证件样本606,但在实际情况下,如图2所示,可从单个图像模板602生成多个证件样本。例如,可从每个图像模板602可生成多个证件中间样本604,且可从每个证件中间样本604生成多个证件样本606。
方法100还可包括:在操作108,可对每个证件样本执行质量风格迁移以生成证件图像。如图2所示,可对每个证件样本206执行质量风格迁移来生成一个或多个证件图像208。
所谓质量风格迁移,在本文中是指调整图像的质量风格以使其更加真实。这里的质量风格可包括:图像的清晰度、聚焦、曝光、模糊度、磨损、色温、扰动以及本领域技术人员可设想的其它质量风格参数。在真实证件图像中,由于拍摄器材、相机设置、拍摄条件等等因素,所拍摄的证件图像可能具有特定的风格。在传统的用于生成证件图像的方案中,这样的特定风格未被考虑在内,因此用传统方案所生成的证件图像通常在质量风格上与真实图像差距较大,从而导致真实度不够。
参见图7,其示出根据本说明书实施例的用于对证件样本执行质量风格迁移的示例过程的示意图。
如图7所示,可对所生成的证件样本(如证件样本606)执行质量风格迁移以生成证件图像702。在图7中可以看出,所生成的证件图像702与证件样本606相比模糊度下降、扰动增强,且图像的色温也经过了调整,更加类似于所拍摄、复印的真实证件的图像。
在本说明书的实施例中,该质量风格迁移可采用各种机器学习算法来执行。
优选地,该质量风格迁移可采用生成对抗网络(GAN)来执行。生成对抗网络是一种机器学习模型,其通常可分为两部分,一部分是生成器,一部分是判别器。生成对抗网络中的生成器不断进化用来生成数据以混淆判别器的判断,而判别器则不断进化期望能够判别数据真伪,两者相互迭代相互提高。
在执行质量风格迁移时,生成对抗网络的生成器不断生成(伪造)具有经调整的质量风格的证件图像,而生成对抗网络的判别器则不断判别该经调整的证件图像的真伪。通过这种方式,能够提高具有经调整的质量风格的证件图像的真实度。
更优选地,该生成对抗网络为条件生成对抗网络(conditional GAN)或者循环生成对抗网络(cycle GAN)。
条件生成对抗网络可用于在考虑条件的情况下生成图像。例如,在本实施例的场景中,可将真实证件图像作为条件向量。例如,可选择特定风格的真实证件图像作为训练样本,对生成对抗网络进行训练,从而最终得到的训练好的生成对抗网络能够用于基于证件样本来生成具有该特定风格的证件图像。这样生成的证件图像与真实证件图像相似度极高。
循环生成对抗网络是对条件生成对抗网络的进一步改进,其在条件生成对抗网络的基础上进一步增加了“循环一致性损失”,减小了对样本集图像的限制,具备更好的适用性。
条件生成对抗网络(conditional GAN)和循环生成对抗网络(cycle GAN)都是本领域已知的机器学习算法,在此不再对其细节进行赘述。
可以看出,使用机器学习模型,可以生成具备各种各样的质量风格、同时又都比较逼真的大量证件图像。
图8示出根据本说明书实施例的用于生成证件图像的示例证件生成系统800的框图。
如图8所示,证件生成系统800可包括证件特征因子获取模块802。证件特征因子获取模块802可用于获取证件特征因子。例如,证件特征因子获取模块802可从证件特征因子库810获取证件特征因子。优选地,证件特征因子库包括多个子库,每个子库包括相同或相似类别的证件特征因子。证件特征因子获取模块802的具体操作可参见上文针对步骤102的描述。
证件生成系统800还可包括证件模板生成模块804。证件模板生成模块804可用于将所述多个证件特征因子组合以便生成多个证件模板。如上文所述,所述证件模板生成模块可使用二分类模型来筛选证件模板以提升所生成的证件模板的布局的真实性。证件模板生成模块804的具体操作可参见上文针对步骤104的描述。
具体而言,优选地,证件模板生成模块可执行以下操作:随机组合所述多个证件特征因子以生成候选证件模板;使用所述二分类模型确定所述候选证件模板的布局的置信度;将所述置信度与置信度阈值进行比较;以及选择所述置信度大于所述置信度阈值的候选证件模板作为所生成的证件模板。优选地,所述二分类模型是使用训练样本集来训练的,其中所述训练样本集包括正样本和负样本,所述正样本为真实证件图像,所述负样本为通过证件特征因子的随机布局组成的证件图像。优选地,所述训练样本集中的训练样本的质量风格是随机的。
证件生成系统800还可包括证件样本生成模块806。证件样本生成模块806可用于用新证件特征因子替换所述多个证件模板中的对应证件特征因子以生成多个证件样本。具体而言,证件样本生成模块806可用新证件特征因子替换所述证件模板中的对应证件特征因子。证件样本生成模块806的具体操作可参见上文针对步骤106的描述。
证件生成系统800还可包括质量风格迁移模块808。质量风格迁移模块808可用于采用机器学习算法来对每个证件样本执行质量风格迁移以生成一个或多个证件图像。优选地,该机器学习模型可以是生成对抗网络。质量风格迁移模块808的具体操作可参见上文针对步骤108的描述。
图9示出用于实现根据本说明书一个或多个实施例的系统(如上文的系统800)的装置900的示意框图。该装置可包括处理器910以及存储器915,所述处理器被配置成执行如上所述的任何方法的操作,如图1和图5中所示的方法等等。该存储器可存储例如证件特征因子、真实证件等原始数据、处理过程中可能产生的数据(如证件模板、证件样本)、以及必要的算法等等。
该装置900可包括网络连接元件925,例如可包括通过有线连接或无线连接来连接到其它设备的网络连接设备。该无线连接例如可以为WiFi连接、蓝牙连接、3G/4G/5G网络连接等。例如,证件特征因子获取模块可通过网络连接元件从位于云端或其他服务器除的证件特征因子库获取证件特征因子。
该装置还可选地包括其它外围元件920,例如输入装置(如键盘、鼠标)、输出装置(如显示器)等。例如,在执行质量风格迁移的过程中,可向用户显示各种质量风格并接收用户对质量风格的选择等等。外围元件920还可用于执行其它任何所需的输入输出操作。
这些模块中的每一者可彼此直接或间接通信,例如,经由一条或多条总线(例如总线905)。
而且,本申请还公开了一种包括存储于其上的计算机可执行指令的计算机可读存储介质,所述计算机可执行指令在被处理器执行时使得所述处理器执行本文所述的各实施例的方法。
此外,本申请还公开了一种装置,该装置包括处理器以及存储有计算机可执行指令的存储器,所述计算机可执行指令在被处理器执行时使得所述处理器执行本文所述的各实施例的方法。
此外,本申请还公开了一种系统,该系统包括用于实现本文所述的各实施例的方法的装置。
可以理解,根据本说明书的一个或多个实施例的方法可以用软件、固件或其组合来实现。
应该理解,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参考方法实施例的部分说明即可。
应该理解,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
应该理解,本文用单数形式描述或者在附图中仅显示一个的元件并不代表将该元件的数量限于一个。此外,本文中被描述或示出为分开的模块或元件可被组合为单个模块或元件,且本文中被描述或示出为单个的模块或元件可被拆分为多个模块或元件。
还应理解,本文采用的术语和表述方式只是用于描述,本说明书的一个或多个实施例并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和描述(或其中部分)的等效特征,应认识到可能存在的各种修改也应包含在权利要求范围内。其他修改、变化和替换也可能存在。相应的,权利要求应视为覆盖所有这些等效物。
同样,需要指出的是,虽然已参考当前的具体实施例来描述,但是本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本说明书的一个或多个实施例,在没有脱离本发明精神的情况下还可做出各种等效的变化或替换,因此,只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。

Claims (18)

1.一种用于生成证件图像的方法,包括:
从证件特征因子库获取多个证件特征因子,所述证件特征因子是从多个真实证件图像提取的;
将所述多个证件特征因子组合以便生成多个证件模板;
用新证件特征因子替换所述多个证件模板中的对应证件特征因子以生成多个证件样本;以及
采用机器学习算法来对每个证件样本执行质量风格迁移以生成一个或多个证件图像。
2.如权利要求1所述的方法,其中生成所述证件模板包括:使用二分类模型来筛选证件模板以提升所生成的证件模板的布局的真实性。
3.如权利要求2所述的方法,其中生成所述证件模板包括:
随机组合所述多个证件特征因子以生成候选证件模板;
使用所述二分类模型确定所述候选证件模板为真的置信度;
将所述置信度与置信度阈值进行比较;以及
选择所述置信度大于所述置信度阈值的候选证件模板作为所生成的证件模板。
4.如权利要求3所述的方法,其中所述二分类模型是使用训练样本集来训练的,其中所述训练样本集包括正样本和负样本,所述正样本为真实证件图像,所述负样本为通过证件特征因子的随机布局组成的证件图像。
5.如权利要求4所述的方法,其中所述训练样本集中的训练样本的质量风格是随机的。
6.如权利要求1所述的方法,其中基于所述证件模板生成多个证件样本包括:
用新证件特征因子替换所述证件模板中的对应证件特征因子。
7.如权利要求1所述的方法,其中所述机器学习模型为生成对抗网络。
8.如权利要求1所述的方法,其中所述证件特征因子库包括多个子库,每个子库包括相同或相似类别的证件特征因子。
9.一种用于生成证件图像的系统,包括:
证件特征因子获取模块,用于从证件特征因子库获取多个证件特征因子,所述证件特征因子是从多个真实证件图像提取的;
证件模板生成模块,用于将所述多个证件特征因子组合以便生成多个证件模板;
证件样本生成模块,用于用新证件特征因子替换所述多个证件模板中的对应证件特征因子以生成多个证件样本;以及
质量风格迁移模块,用于采用机器学习算法来对每个证件样本执行质量风格迁移以生成一个或多个证件图像。
10.如权利要求9所述的系统,其中所述证件模板生成模块用于使用二分类模型来筛选证件模板以提升所生成的证件模板的布局的真实性。
11.如权利要求10所述的系统,其中所述证件模板生成模块用于:
随机组合所述多个证件特征因子以生成候选证件模板;
使用所述二分类模型确定所述候选证件模板的布局的置信度;
将所述置信度与置信度阈值进行比较;以及
选择所述置信度大于所述置信度阈值的候选证件模板作为所生成的证件模板。
12.如权利要求11所述的系统,其中所述二分类模型是使用训练样本集来训练的,其中所述训练样本集包括正样本和负样本,所述正样本为真实证件图像,所述负样本为通过证件特征因子的随机布局组成的证件图像。
13.如权利要求12所述的系统,其中所述训练样本集中的训练样本的质量风格是随机的。
14.如权利要求9所述的系统,其中所述证件样本生成模块用于:
用新证件特征因子替换所述证件模板中的对应证件特征因子。
15.如权利要求9所述的系统,其中所述机器学习模型为生成对抗网络。
16.如权利要求9所述的系统,其中所述证件特征因子库包括多个子库,每个子库包括相同或相似类别的证件特征因子。
17.一种用于生成证件图像的装置,包括:
存储器;以及
处理器,所述处理器被配置成执行如权利要求1-8中任一项所述的方法。
18.一种存储指令的计算机可读存储介质,所述指令当被计算机执行时,使所述计算机执行如权利要求1-8中任一项所述的方法。
CN202111158142.7A 2021-09-30 2021-09-30 用于生成证件图像的方法、系统、装置和介质 Pending CN113888675A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111158142.7A CN113888675A (zh) 2021-09-30 2021-09-30 用于生成证件图像的方法、系统、装置和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111158142.7A CN113888675A (zh) 2021-09-30 2021-09-30 用于生成证件图像的方法、系统、装置和介质

Publications (1)

Publication Number Publication Date
CN113888675A true CN113888675A (zh) 2022-01-04

Family

ID=79004464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111158142.7A Pending CN113888675A (zh) 2021-09-30 2021-09-30 用于生成证件图像的方法、系统、装置和介质

Country Status (1)

Country Link
CN (1) CN113888675A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114332086A (zh) * 2022-03-14 2022-04-12 启东市固德防水布有限公司 基于风格迁移和人工智能的纺织品缺陷检测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114332086A (zh) * 2022-03-14 2022-04-12 启东市固德防水布有限公司 基于风格迁移和人工智能的纺织品缺陷检测方法及系统
CN114332086B (zh) * 2022-03-14 2022-05-13 启东市固德防水布有限公司 基于风格迁移和人工智能的纺织品缺陷检测方法及系统

Similar Documents

Publication Publication Date Title
US11210510B2 (en) Storing anonymized identifiers instead of personally identifiable information
JP7080308B2 (ja) 顔ロック解除方法、その情報登録方法及び装置、機器並びに媒体
US9946865B2 (en) Document authentication based on expected wear
US9396383B2 (en) System, method and computer program for verifying a signatory of a document
CN109409204B (zh) 防伪检测方法和装置、电子设备、存储介质
CN111886842B (zh) 使用基于阈值的匹配进行远程用户身份验证
US11023708B2 (en) Within document face verification
US20160092730A1 (en) Content-based document image classification
CN105474230A (zh) 用于比较图像的方法、系统以及计算机程序
CN110751041A (zh) 证件真伪验证方法、系统、计算机设备及可读存储介质
CN109359502A (zh) 防伪检测方法和装置、电子设备、存储介质
CN109255299A (zh) 身份认证方法和装置、电子设备和存储介质
CN109271915B (zh) 防伪检测方法和装置、电子设备、存储介质
WO2019200872A1 (zh) 身份验证方法和装置、电子设备、计算机程序和存储介质
Du Mobile payment recognition technology based on face detection algorithm
WO2023030824A1 (en) Method for detecting a forgery of an identity document
Benalcazar et al. Synthetic ID card image generation for improving presentation attack detection
CN110321881B (zh) 识别包含身份证明证件的图像的系统和方法
CN113888675A (zh) 用于生成证件图像的方法、系统、装置和介质
CN111259894B (zh) 一种证件信息鉴别方法、装置及计算机设备
CN115690819A (zh) 一种基于大数据的识别方法及其系统
Bouma et al. Authentication of travel and breeder documents
KR102047936B1 (ko) 이미지 분류장치 및 방법
US20220207901A1 (en) Travel document validation using artificial intelligence and unsupervised learning
Gutiérrez et al. Mechanism for Structuring the Data from a Generic Identity Document Image using Semantic Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination