CN116802696A - 数字样本图像的复制防止 - Google Patents

数字样本图像的复制防止 Download PDF

Info

Publication number
CN116802696A
CN116802696A CN202180091117.3A CN202180091117A CN116802696A CN 116802696 A CN116802696 A CN 116802696A CN 202180091117 A CN202180091117 A CN 202180091117A CN 116802696 A CN116802696 A CN 116802696A
Authority
CN
China
Prior art keywords
digital
image
security document
training
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180091117.3A
Other languages
English (en)
Inventor
约翰·斯科特·哈洛克
帕斯卡尔·比加雷
西尔万·肖松
克劳迪奥·贝里尼
马丁·艾兴贝格尔
伊丽莎白·舒尔茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
European Central Bank
Original Assignee
European Central Bank
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by European Central Bank filed Critical European Central Bank
Publication of CN116802696A publication Critical patent/CN116802696A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/95Pattern authentication; Markers therefor; Forgery detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Bioethics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Inspection Of Paper Currency And Valuable Securities (AREA)

Abstract

提供了一种用于训练基于人工智能的神经网络的计算机实施的方法。至少一个安全文件的至少一个数字图像被提供作为基准。数字训练图像的集合被提供,其中这些数字训练图像与安全文件的数字图像相比有所变更。该数字训练图像的集合包括或由正类数字训练图像的第一子集组成,其具有变更的视觉影响使得无偏人类观察者将相应数字训练图像的仿制品视为表示安全文件或多个安全文件。该数字训练图像的集合包括或由负类数字训练图像的第二子集组成。基准真值被提供给神经网络,至于相应数字训练图像是否被视为表示安全文件或多个安全文件。

Description

数字样本图像的复制防止
技术领域
本发明涉及一种用于训练基于人工智能的神经网络的计算机实施的方法,该神经网络适用于在不认证安全特征的情况下将数字图像分类为是否被视为安全文件,一种用于至少一个安全文件的复制防止的计算机实施的方法,一种钞票检测器以及一种计算机程序产品。
背景技术
与安全有关的文件诸如机票或钞票时常经受仿制行为,例如伪造行为。处理伪造文件的一项措施涉及评估可疑文件的真实性。然而,这种方法是一种下游活动,从某种意义上说,在对可疑文件执行认证过程时,原始文件已经被仿制。因此,与认证相关的措施不太可取。
原始文件的仿制品(reproduction)可以借助于扫描设备、打印机和/或复印设备来执行。仿制品也可以被视为诸如数据转换的数据复制过程。在这方面,假如文件在被仿制时有可能被视为原始安全文件,则避免仿制行为本身是有利的。在这种情况下,仿制品甚至在被执行前就避免了。在安全文件中包括的专门安全特征的方面,存在这样的方法。这就意味着,对于讨论中的给定文件,评估该文件是否包括最初包含在安全文件内的安全特征。然而,出于以下几个原因,这些方法是不利的。第一,在安全特征方面的评估是复杂的,并且要求精密的设备。第二,这样的评估过程将需要包含有关安全特征的特定信息。如果伪造者揭示评估过程,他们将获得该信息。第三,伪造者可能攻击安全特征以及讨论中的文件内所包括的修改后特征,这可能会导致评估方法的结果不正确。
为了防止上面所描述的行为的目的,存在各种安全特征。它们可以是例如由上述设备中的特殊检测器识别的印刷的图形设计元素。检测器然后可以触发响应,其干扰了所期行为,诸如拒绝处理或打印高度降质的图像。这样的图形元素可以被设计以便具有作为安全文件原图(artwork)的一部分的外观。这种元素的使用的示例可以在美国专利5,845,008中找到。在其他情况下,明显几乎不可察觉的特殊信号可以被添加到印刷设计中,使得它们由前述设备中的特殊检测器识别,其然后可以触发如上面所描述的响应。这种元素的使用的示例可以在美国专利6,449,377中找到。
然而,这些安全特征患有固有的漏洞。图形设计元素,即使试图使其看起来像原图的一部分,也可能经常出于其预期的安全目的而被技术人员轻易地识别。结果是,它们可以被稍微变更,以至于特殊检测器不再识别它们,从而无法中断仿制者的所期行为。这些元素也可能被滥用,通过将所述元素应用于不打算由合法用户保护的其他文件,使得人员不能完成对所述文件的扫描、复制或打印行为。
特殊信号诸如数字水印还可能具有使印刷文件失真的不理想特性。在钞票原图的情况下,这可能是尤其不可取的。失真(distortion)可以被减轻,尽管以牺牲信号强度为代价;通常要寻求一种妥协。
与机器学习结合的人工智能正越来越多地用于类似面部识别和其他物体识别的应用。在这样的应用中,存在无限多的潜在图像,其可能需要被鲁棒地识别。例如经训练以识别灰松鼠图像的应用本身可能碰到灰松鼠大小、姿势、年龄、毛色深浅、采光或任何其他许多个体特性的巨大差异中的任一个。设计为可靠地识别个人面部的应用将不得不面对相似的差异,这最起码增加了应用的计算复杂度和计算资源需求。
亟待解决的客观技术问题可以被视为在于提供一种用于训练基于人工智能的神经网络的方法,该神经网络适用于在没有认证安全特征的情况下将数字图像分类为是否被视为安全文件,以及一种用于利用如此训练的神经网络的安全文件的复制防止的方法,该方法与现有技术相比有所改进。
根据本发明,神经网络未经训练以认证数字图像,特别是安全文件的数字图像。此外,本发明用于安全文件的复制防止的方法没有替换任何认证过程。相反,本发明用于复制防止的方法通常可以表示附加措施,其可以被实施以便评估数字样本图像的仿制品是否可能被无偏人类观察者感知为是安全文件。
该问题是由独立权利要求的主题解决的。优选实施例在从属权利要求和以下描述内指示,其中的每一个都可以单独或组合表示本发明的各方面。在指示出的设备方面所描述的优点和优选实施例将被相应地转移到相应的方法,反之亦然。
发明内容
本发明使用经过创造性训练的基于人工智能的神经网络以便确定文件的数字图像是否可以被复制/仿制,从而不利用表示用于复制保护的代码的安全特征的存在。因此,应被复制防止的文件并不需要包括用于复制保护的代码以便特别防止仿制数字图像。根据本发明,要被复制保护的文件的设计不必因使用用于复制保护的附加代码而被失真,这也降低了伪造者识别了用于保护的代码的区域的风险。另外,文件上用于复制保护的代码的缺省降低了这样的风险,即此种用于复制防止的代码可能被黑客攻击,或者该代码可能非法使用在其他项目上以非法停止其仿制。本发明的用于使用经过创造性训练的基于人工智能的神经网络的复制保护的方法特别适用于安全文件(特别是钞票)的高通量排序和/或复制/仿制解决方案。它可以是在较短的时间尺度上可执行的,因为它可以比安全文件的常用认证方法(其要求对用于复制保护的特定代码进行认证)需要更少的时间以确定文件是否应被仿制。
根据第一方面,提供了一种用于训练基于人工智能的神经网络的计算机实施的方法。该神经网络适用于将数字图像分类为是否被视为安全文件(在下文中还用A表示以供参考)。这意味着,该方法可以被配置为训练网络,用于将数字图像分类为被视为安全文件A或者用于将数字图像分类使得其不被视为安全文件。基于人工智能的神经网络,特别是卷积网络作为深度学习模型的优点,主要来自于对排除了归一化和标准化的整个未处理图像的解释。然后,神经网络通常将信号转换成特征的集合,在此基础上进行分类。特征的集合由于模型的架构和训练过程而在模型之间有所不同,但是通常可以被解释为有关图像内容的浓缩信息。
该方法包括提供至少一个安全文件的至少一个数字图像A1作为基准。
该方法还包括提供数字训练图像的集合(在下文中还用B1表示以供参考)。基于数字训练图像,该神经网络可以在分类过程方面进行训练。该数字训练图像与安全文件的数字图像相比有所改变。
数字训练图像的集合包括正类数字训练图像的第一子集(在下文中还用B1-1指示以供参考),其具有变更的视觉影响使得无偏人类观察者将相应数字训练图像的仿制品视为表示安全文件或多个安全文件。
数字训练图像的集合还包括负类数字训练图像的第二子集(在下文中还用B1-2指示),其具有变更的视觉影响使得无偏人类观察者不将相应数字训练图像的仿制品视为表示安全文件或多个安全文件。
该方法还包括向基于人工智能的神经网络提供用于每个数字训练图像的基准真值(ground truth)。该基准真值表示关于相应数字训练图像的仿制品要被视为表示还是不表示安全文件或多个安全文件的一个或多个无偏人类观察者的至少一个接受水平。换言之,该基准真值被用于在分类的决策过程方面训练神经网络。基准真值描述了在该训练过程中如何解释特定数字训练图像。至少一个接受水平分别包括无偏人类观察者关于确定相应训练图像的仿制品被视为是否表示安全文件的一个或多个响应。例如,在一个无偏人类观察者的情况下,接受水平表示该人类观察者的相应响应。在两个、三个、四个或更多个人类观察者的情况下,两个、三个、四个或更多个人类观察者的响应被分别用于表示接受水平。
如此设计的方法可以有利地在相对于至少一个安全文件的数字训练图像方面训练基于人工智能的神经网络。相应地,神经网络可以至于特定数字训练图像的仿制品将被无偏人类观察者视为安全文件的何种接受水平,来针对每个数字训练图像进行训练。相应地,当数字图像的仿制品要被视为安全文件时,该神经网络可以被训练出决策行为。
在本发明的所有方面的上下文内,术语“能够(can)”、“可能(could)”、“可以(may)”等还包括相关动词的陈述/现实语气。例如,表达“数据文件可以适合于描述数字代码的图像装置的属性”还包括陈述/现实语气“数据文件适合于描述数字代码的图像装置的属性”。
在本发明的上下文内,表达“要被视为安全文件的图像”或“要被视为安全文件的数字图像”或“要被视为安全文件的图像的仿制品”或“要被视为安全文件的数字图像的仿制品”意味着无偏人类观察者可能(至少达到一定接受水平)将(数字)图像的仿制品感知/考虑/解释作为安全文件。换言之,无偏人类观察者既不认证安全文件、其(数字)图像,也不认证其仿制品。取而代之,无偏人类观察者在查看/观察或使用数字图像时,至少考虑/具有印象/想象(数字)图像或其仿制品表示安全文件或其试样的一定接受水平。因此,如上所示的特征表达还可以被视为无偏人类观察者是否将在不进行任何底层认证过程的情况下接受(数字)图像或其仿制品作为安全特征的试样。
在本发明的上下文内,数字图像是指通常以计算机语言编写的数字代码,并且因此是表示作为数据文件的特定图像的计算机可读代码。该数据文件可以借助于数字代码描述图像的属性。
安全文件的数字图像可以具有范围在50dpi至2000dpi内,特别是范围在100dpi至1000dpi内,进一步特别是范围在200dpi至600dpi内,进一步特别是范围在300dpi至400dpi内的分辨率(resolution)。
在本方法的上下文内,数字图像的仿制品是指硬拷贝(hard copying)和/或打印过程,使得数字图像被物理地处理为在可打印介质上永久可见,至少在一定时间量诸如几年内。另外,仿制数字图像还可以包括在相应数字图像下层的数据方面的数据处理、转换或保存处理。
数字训练图像可以与基准相比被变更。在本发明的上下文内,变更后的数字训练图像可以被视为与基准相比具有不同或降低质量的数字训练图像。图像变更/转换的示例可以是指颜色抖动(ColorJitter)增强,其可以包括参数亮度、对比度、饱和度和/或色度;随机仿射(RandomAffine)增强,其可以包括参数角度、平移、缩放、剪切、插值和/或填充;高斯模糊(GuassianBlur)增强,其可以包括参数核(Kernel)大小和/或标准偏差。
标记为可感知为安全文件的变更后的数字训练图像可以包括以下与基准安全文件相比的变更/转换范围:颜色抖动增强,其可以包括参数亮度(例如,在±5%的范围内)、对比度(例如,在±8%的范围内),饱和度(例如,在±8%的范围内)和/或色度(例如,在±6%的范围内)中的变更;随机仿射增强,其可以包括参数角度(例如,0.05deg)、平移(例如,水平或竖直方向上在图像大小的0%与1%之间)、缩放(例如,将大小增大或减小了1%)、剪切(例如,在-0.5deg与+0.5deg之间平行于x轴的剪切)、插值(例如,最近邻插值(NearestNeighbor Interpolation))和/或填充(白色)中的变更;高斯模糊增强,其可以包括参数核大小(例如,5×5)和/或标准偏差(例如,0.3)中的变更。
反过来,标记为不可感知为安全的变更后的数字训练图像可以包括以下与基准安全文件相比的变更/转换范围:参数亮度(例如,在超过±5%的范围内)、对比度(例如,在超过±8%的范围内)、饱和度(例如,在超过±8%的范围内)和/或色度(例如,在超过±6%的范围内)中的变更;随机仿射增强,其可以包括参数角度(例如,超过0.05deg)、平移(例如,水平或竖直方向上超过图像大小的1%)、缩放(例如,将大小增大或减小了超过1%)、剪切(例如,在超过-0.5deg与超过+0.5deg之间平行于x轴的剪切)中的变更。
在替代方案中,从仿制(例如,印刷)的观点来看,数字训练图像可以具有相似的质量,但是可以被篡改或修改以便区别于基准安全文件。示例可以是设计和/或文本元素的修改/替代、设计和/或文本元素的不同排列。
根据示例,基准安全文件可以例如是包括英国女王肖像的特定钞票。数字训练图像然后可以在诸如分辨率、形状、尺寸、颜色等打印属性方面具有相似的质量。然而,英国女王的肖像可以由不同的人物(例如,英国首相或任何其他相关人士)替换,使得无偏人类观察者将该文件视为表示安全文件。根据本发明,这种变更后的数字训练图像可以被视为一种变更,使得无偏人类观察者将相应数字训练图像的仿制品视为表示安全文件或多个安全文件。变更可以包括降质。根据替代实施例,英国女王肖像可以由美利坚合众国总统或任何无关人士的肖像替换,使得无偏人类观察者将直接理解该文件不要被视为安全文件。在这种情况下,数字训练图像仍然可以被视为被变更或降质,但是无偏人类观察者不将相应数字训练图像的仿制品视为表示安全文件或多个安全文件。
变更后的数字训练图像可以被降质。在这种情况下,数字训练图像可以基于已经被化学或物理攻击过的训练文件B。这意味着训练文件可能已经被化学或物理地降质。例如,可能已经应用了化学反应物质,或者可能已经划损了训练文件。然后,数字训练图像可以在底层训练文件已经被攻击过之后获取。相应地,数字训练图像可以显示由对底层训练文件的攻击引起的修改。
在替代方案中,数字图像可以已经基于未经变更的训练文件被获取,但是数字图像本身可能已经被数字攻击。例如,数字图像可能已经通过应用数字滤波器被修改/增强。修改/增强可以包括颜色抖动增强,其可以包括参数亮度、对比度、饱和度和/或色度;随机仿射增强,其可以包括参数角度、平移、缩放、剪切、插值和/或填充;以及高斯模糊增强,其可以包括参数核大小和/或标准偏差。在这种情况下,数字训练图像可以是经过数字攻击的数字图像。
变更后的数字训练图像可以与安全文件的数字图像在像素化(pixilation)、分辨率、清晰度、一般性外观(general aspect)、形状、颜色、颜色分布、图像处理滤波器和纵横比中的至少一个方面不同。例如,数字训练图像可以具有分辨率,意指每单位面积的像素密度,其与基准的分辨率相比减少了。相应地,视觉冲击可能不同。尽管如此,当被仿制时,数字训练图像的分辨率可能足以使得无偏人类观察者将仿制品视为表示安全文件。一般性外观是指安全文件的数字图像的特征,这些特征不被同等地包含在数字训练文件中。例如,安全文件可以部分地显示包括几座山脉的具体景观。数字训练图像可以显示具有相同数量山脉的不同景观,或者可以显示原则上相同的景观,但是可能遗漏安全文件中包括的一些山脉。纵横比是指安全文件和数字训练图像的长宽比。清晰度是指相应项目在水平和竖直方向上的像素总数。图像处理滤波器可以包括降噪滤波器、模糊滤波器、使用AI处理图像的所谓的神经滤波器、以及相似的数字滤波器。
变更后的数字训练图像可以与安全文件的数字图像在透视角、底层照明、着色、褶皱(fold)或折痕(crease)中的至少一个方面不同。透视角可以是指数字训练图像似乎已经被获取说处的角度。例如,安全文件可以具有矩形形状。由于在对数字训练图像的获取期间的透视角(或由于相应的数字攻击),数字训练图像可能无法具有矩形形状。此外,给定具体透视角,数字训练图像内的某些特征可能会失真。照明可以是指数字训练文件中存在的亮度分布,其不同于安全文件在俯视图中被充分照明时显示的亮度分布。以相似的方式,数字训练图像可以根据着色(即,至少一部分的特定颜色)或者更一般地,跨数字训练图像的颜色分布而不同于安全文件。褶皱或折痕可能已经存在于获取数字训练文件所基于的训练文件中。相应地,褶皱或折痕通常在数字训练图像内也将是可感知的。
此外,安全文件可以包括一个或多个图形设计特征,诸如肖像,例如英国女王的肖像,或建筑形象(桥梁、建筑物等)或自然图形图像(植物或其部分诸如叶子(所谓的植物群/植物标志或植物群/植物元素),或动物群/动物(所谓的野生动物标志或野生动物元素)等)。然后,变更后的数字训练图像可以与安全文件的数字图像的不同之处在于,数字训练图像可以包括替代安全文件的相应设计特征的至少一个不同设计特征,诸如不同的相关或无关人员的不同肖像,不同的相关或无关的建筑形象、或不同的相关或无关的自然图像。在这方面,数字训练图像可以被视为被变更了。神经网络可以在这方面相应地进行训练,即无偏人类观察者是否将分别变更后的数字图像视为与安全文件相关。根据一个实施例,假如图形设计特征被相关的图形设计特征替代,则无偏人类观察者可以将变更后的图像视为与安全文件相关,例如,对于英镑钞票,伊丽莎白女王的肖像可以被英国首相的肖像或英国皇室其他成员的肖像替代。根据另一个实施例,假如图形设计特征被不相关的图形设计特征替代,则无偏人类观察者可以将变更后的图像视为与安全文件相关,例如,对于英镑钞票,伊丽莎白女王的肖像可以被美利坚合众国或另一国家的总统的肖像替代。根据本发明,假如建筑形象属于相同的类别,例如桥梁、建筑物等,或者假如它们属于被视为代表同一国家的建筑形象(例如,代表英国的塔桥、威斯敏斯特桥和/或威斯敏斯特教堂、大本钟;或代表法国的埃菲尔铁塔和新桥),则它们可以被视为是彼此相关的。根据本发明的另一个实施例,假如自然的图形图像属于相同的类别,例如植物或其部分,诸如叶子、动物等,或者假如它们属于被视为代表同一国家的自然图形图像(例如,代表澳大利亚的袋鼠、鸭嘴兽和考拉),则它们可以被视为是彼此相关的。
这意味着数字训练图像通常不等于安全文件的数字图像。然而,这些差异可能小到足以使数字训练图像的仿制品仍被视为安全文件。换言之,神经网络被有利地训练以反映这样的发现,即与安全文件的数字图像不同的数字图像也可以在被仿制时被无偏人类观察者视为至少在一个特定的接受水平上表示安全文件。在这方面,接受水平可以描述无偏人类观察者的错误信念。虽然数字训练图像与安全文件之间可能存在相当大的偏差,但是观察者仍然可能将数字训练图像的仿制品视为表示安全文件。如果安全文件和数字训练图像被直接相互比较,则这样的偏差可以很容易地识别。然而,人类的感知和记忆是有限的。例如,众所周知,人们经常接受在外观上与真钞有很大不同的假钞。相应地,无偏人类观察者可以至少在一定程度(接受水平)上通常将不同的项目视为是相同的,如果差异不是太大的话。例如,伪造的钞票可能被人类观察者视为表示原始钞票。本发明的神经网络被训练为有利地包括这些差异以及至于人类感知和记忆的细节。
接受水平可以被视为描述变更后的数字训练图像与基准之间的相似性度量,就这些(仿制品)被相应数量的人类观测者视为彼此之间有何种程度的区别而言。
无偏人类观察者不需要是本领域的专家,而被认为是普遍使用安全文件的人员。
基准真值(人工标注)可以表示至少四个无偏人类观察者的接受水平。在这种情况下,基准真值可以包括至少五个不同的接受水平。因为不同的人员可能会以不同的方式判断数字训练图像的仿制品是否表示安全文件,所以这种不确定性通过增加决定性的无偏人类观察者的数量被包括在训练过程内。因此,在接受水平方面,基准真值有利地包括改进的分布。例如,如果有四个无偏人类观察者(贴标者(labeler)),则这些通常导致五个不同的接受水平,其中在至于仿制品是否被视为表示安全文件或其多个或者情况不是这样的接受水平方面的分布可以是以下中的一个:4/0、3/1、2/2、1/3、0/4。换言之,假如有四个贴标者标记数字训练图像,则在至少一个贴标者(或至少25%的贴标者)将该图像标记为安全文件的情况下,训练图像可以被标记为可感知为安全文件。可替选地,假如有至少两个贴标者(或至少50%的贴标者)将该图像标记为安全文件,训练图像可以被标记为可感知为安全文件。
当然,接受水平的更精细的分割同样可以可选地与从所评价的数字图像中提取的信息和/或与基于所提取的信息确定的分数交叉相关。相应地,由神经网络执行的数字图像分类时的决策机制可能更加复杂。
一般而言,分类为“正类数字训练图像的第一子集(B1-1)”的训练图像分别被分配数字1,分类为“负类数字训练图像的第二子集(B1-2)”的训练图像分别被分配数字0。因此,深度学习模型输出一个分数,其是介于0和1之间的连续数。这个分数表示给定图像成为某一类的可能性。相应地,输出分数越接近于1,数字图像就越有可能被感知为安全文件。反过来,这意味着分数越接近于0,数字图像就越有可能不被感知为安全文件。一般而言,两类之间的阈值可以是0.5或更多。
这个阈值还可以与接受水平相关。假如接受水平较低,例如假如少于50%的贴标者将数字图像分类成正类数字训练图像的第一子集,则阈值水平可以被确定为0.5或更高。假如接受水平较高,即50%或更多的贴标者将相应的数字图像分类成正类数字训练图像的第一子集,则输出分数的阈值可以被确定为低于0.5。
可替选地或另外,这个阈值可以基于用于每个模型的精确率/召回率要求来调整。因此,阈值可以至少是0.1或更多、0.15或更多、0.2或更多、0.25或更多、0.3或更多、0.35或更多、0.4或更多、0.45或更多。
安全文件可以是钞票。在这种情况下,包括钞票的正面图像和反面图像的两个数字图像可以被提供作为两个基准。然后,每个正类数字训练图像可以具有变更的视觉影响,使得无偏人类观察者会将相应数字训练图像的仿制品视为表示安全文件或多个安全文件的正面图像和/或反面图像。因为钞票的反面也是印刷的,并且特别是印刷方式不同于正面,所以正类数字训练图像原则上可以匹配两面之一或两面的组合。在任何情况下,这样的数字训练图像是正类数字训练图像,因为无偏人类观察者可以将特定数字训练图像的仿制品视为表示钞票,至少就其单面或各种组合而言。因此,必须提供钞票的正反两面作为基准,并且相应地调整训练图像的集合。
在本发明的所有方面的上下文内,人工智能(artificial intelligence,AI)神经网络是指基于软件或硬件的技术,其被配置为绘制决策,例如计算机实施的算法。AI还可以被配置为在预期目的方面自动利用所提供的数据,并且自动向用户提供相应结果。
作为输入数据,使用了一个或多个数字图像,优选是两个或更多个数字图像的批量,特别是一次使用了8个或更多个、16个或更多个、或32个或更多个数字图像,作为用于神经网络预测模型的输入数据,以便输出介于0和1之间的预测分数。通常上,预测的输出分数越接近于1,相应的数字图像就越有可能被分类为被感知为安全文件(正类),反之亦然,预测的输出分数越接近于0,相应的数字图像就越有可能被分类为不被感知为安全文件(负类)。阈值水平通常可以是0.5或更多,但是可以基于相应模型的精确率和召回率和/或基于接受水平来调整。因此,阈值可以是例如0.1或更多、0.15或更多、0.2或更多、0.25或更多、0.3或更多、0.35或更多、0.4或更多、或0.45或更多。
数字样本图像可以优选地以合适的图像大小提供,或者可以相应地调整大小。合适的图像大小为(64,128)、(129,256)、(192,384)、(256,512)或(299,299)。优选地,图像大小是用于训练预测模型的大小,优选地图像大小可以是(64,128)。
该方法可以使用具有一个或多个神经层的深度神经网络来执行。每层可以独立于其他层表现出若干神经元。每层可以具有分支或非分支的架构结构。相应地,神经网络可以是进展式的,使得训练机制可以以更高的详细度执行。
所有本发明方面的基于人工智能的神经网络可以包括机器学习能力。相应地,神经网络可以被配置为从训练机制中学习,并且基于所提供的数字训练图像来归纳确定过程。
本发明的包括机器学习能力的神经网络可以被配置为包括多个输入以改进绘图决策的过程。换言之,该网络可以被配置为识别几个相似的输入,以便与基于单个输入绘制决策的准确性相比,提高绘制决策的准确性的概率。
综上所述,已经可用的用于图像分类的合适架构和数据集可用于本发明。作为示例,可以使用以下预测模型架构,由于其在相似问题上的高性能以及使用微调来适应不同任务的灵活性:
ResNet
ResNet架构(He等人,“Deep residual learning for image recognition(用于图像识别的深度残差学习))”,https://arxiv.org/abs/1512.03385)赢得了ILSVRC(Russakovsky等人,“Imagenet large scale visual recognition challenge(Imagenet大型视觉识别挑战赛)”,https://arxiv.org/abs/1409.0575)2015年分类比赛。当时研究人员发现,具有更多层的网络潜在地能够在许多问题上表现得更好。然而,因为远离输出的初始层的权重难以更新(消失梯度问题),实际上很难训练这些更深的架构。具有152层的ResNet152由于残差块(residual block)的引入有可能被训练。
ResNet架构的工作原理是添加除层与层之间的常规连接以外的跳过层(Jeblad,“Canonical form of residual neural nets(残差神经网络的规范形式)”,https://commons.wikimedia.org/wiki/File:ResNets.svg)。这增加了反向传播期间的梯度,因为层l-2的输出直接影响下一层l,而不必首先通过下一层l-1之间的中间层。如果存在残差块,则仅会以常规连接消失的梯度具有足够大的值。
存在几个ResNet的变型,诸如ResNeXt4和Wide ResNet5。对于本应用,可以选择具有50层的原始ResNet架构,由于它可以在训练努力和预测性能之间产生良好的平衡。
Inception v3
Inception网络的第一个版本(Szegedy等人,“Rethinking the InceptionArchitecture for Computer Vision(重新思考用于计算机视觉的Inception架构)”,https://arxiv.org/abs/1512.00567)(也被称为GoogLeNet,Szegedy等人,“Going Deeperwith Convolutions(更深入了解卷积)”,https://arxiv.org/abs/1409.4842)介绍了结合具有不同核大小的卷积以便使用不同尺度特征的inception模块。此外,辅助分类器(小的卷积神经网络)被添加作为在几个层次之间的正则化算子。这有助于网络更好地归纳看不见的图像。该架构赢得了ILSVRC 2014比赛(“ImageNet Large Scale Visual RecognitionChallenge 2014(ImageNet大型视觉识别挑战赛2014)”,https://image-net.org/challenges/LSVRC/2014/)。
对于第二个版本,通过将较大的卷积分解成较小的卷积,可以实现更高的计算效率。例如,使用5×5核的卷积被分成使用3×3核的两个卷积,从而参数的数量从25个减少到18个。
Inception v3融合了先前版本的思想,并且使用进一步的分解和对辅助分类器的修改对其进行改进。
DenseNet
DenseNet是这三种模型中最新的架构(Huang等人,“Densely connectedconvolutional networks(密集连接的卷积网络)”,https://arxiv.org/abs/1608.06993)。它在2017年CVPR10大会上获得最佳论文奖(“CVPR 2017”,https://cvpr2017.thecvf.com/)。它通过使用密集块将跳过单个层的ResNet思想更进一步。在每一个密集块中,每层接收来自所有先前层的输入。来自所有先前层的特征图被级联并且用作用于下一层的输入。因此,块中的最后一层已经访问了整个集合信息。特别地,具有100或更多层、特别是121层的DenseNet可用于本申请,预训练。
研究表明,神经网络通过在用于特定任务的一个数据集上训练所学习的特征对于涉及不同数据集的不同任务也是有意义的。尤其是已知网络的第一层可以学习更多可归纳的特征。基于这些发现,通常的做法是采用在大型数据集诸如ImageNet上被训练的网络(“ImageNet大型视觉识别挑战赛2014”,https://image-net.org/challenges/LSVRC/2014/)或COCO(Lin等人,“Microsoft COCO:Common Objects in Context(MicrosoftCOCO:上下文中的公共对象)”,https://arxiv.org/abs/1405.0312),并且然后在第二个感兴趣的数据集上微调其权重。这种使用预训练权重的方法已经被证明是有效的,即使在第二个数据集非常小的情况下。
相应地,本发明的训练方法根据优选实施例使用对通用大图像数据集的预训练,从而将模型的权重初始化为在相应的图像数据集诸如ImageNet或COCO上表现良好的状态,其中ImageNet已经成为基准分类模型的标准。
然后,相应的预测模型架构通过在包含视为被感知为安全文件(正类训练文件)的训练图像的第一子集的数字图像和包含视为不被感知为安全文件(相应的钞票)的训练图像的第二子集的数字图像的数据集上进行训练来微调。
第一发明方面的方法可以针对多个安全文件的闭合集合被执行。然后,基于人工智能的神经网络可以针对安全文件的闭合集合中的每一个安全文件被训练。相应地,闭合集合可以包括或由具体数量的安全文件组成,神经网络可以针对这些文件被训练。如果神经网络将被用于仅存在特定数量的不同元素的具体类型的安全文件,则这可以是有利的。例如,安全文件的闭合集合可以通过有限数量的货币系统的不同钞票面额来确定。
数据处理
如上面阐述的,输入数据涉及预测模型中一次使用的一个或多个、优选地8个或更多个、16个或更多个、或32个或更多个数字图像的批量。例如,包括32个数字图像的批量显示出有利的性能,特别是在上面的示例模型中。
根据本训练方法以及复制防止方法的优选实施例,相应批量的数字图像可以被调整大小到常用大小,例如,(64,128)、(128,256)、(192,384)、(256,512)、(299,299),以便对权重具有有利影响。假如利用通用图像数据集的预训练已经被进行,则调整大小优选地使用图像数据集(诸如ImageNet或COCO)的均值标准偏差。换言之,假如本发明的训练数据与预训练图像数据资产相似被标准化,预训练的权重在本发明的训练数据上工作良好。
根据本发明的另外或可替选的实施例,训练图像的数量可以使用合适的增强来人为地增加,诸如颜色抖动增强,其可以包括参数亮度、对比度、饱和度和/或色度;随机仿射增强,其可以包括参数角度、平移、缩放、剪切、插值和/或填充;高斯模糊增强,其可以包括参数核大小和/或标准偏差。更特别地,在训练时,微小扰动可以被应用于训练图像的部分或全部。这些扰动的强度是从预定义的范围内随机选择的。这个范围被仔细定义,以确保扰动不会太大而改变基准真值,即,被视为可接受的安全文件(特别是钞票)的图像在应用扰动之后应当仍是可接受的。
因此,标记为可感知为安全文件的增强数字训练图像可以包括以下变更/转换范围:颜色抖动增强,其可以包括参数亮度(例如,在±5%的范围内)、对比度(例如,在±8%的范围内)、饱和度(例如,在±8%的范围内)和/或色度(例如,在±6%的范围内)中的变更;随机仿射增强,其可以包括参数角度(例如,0.05deg)、平移(例如,水平或竖直方向上在图像大小的0%与1%之间)、缩放(例如,将大小增大或减小了1%)、剪切(例如,在-0.5deg与+0.5deg之间平行于x轴的剪切)、插值(例如,最近邻插值)和/或填充(白色)中的变更;高斯模糊增强,其可以包括参数核大小(例如,5×5)和/或标准偏差(例如,0.3)中的变更。前面提到的转换可以使用torchvision框架来应用。
然而,根据本实验的结果(参见示例章节),这样的人工增强并不会改进训练。相反,图像增强可以用于模型的评估。
合适的学习率可以被用于训练预测模型,诸如0.005、0.01、0.05或0.1。换言之,该学习率定义了用于优化模型学习过程的步长(step size)。因此,步长越小,模型学习过程的优化进行得越早,整体性能越好,但整体计算负载越高。根据本实验,步长为0.005已经显示出最佳性能。
优化器
一般而言,训练神经网络是个优化问题。这种优化一般可以经由不同的优化器完成,这些当中随机梯度下降(stochastic gradient descent)是最著名的。优化器通常通过计算用于单次批量的损失函数值,确定该函数的梯度,然后朝向使损失最小化的方向迈出一步(由学习率定义),来迭代地更新模型权重。例如,Adam(Kingma等人,“Adam:A Methodfor Stochastic Optimization(Adam:一种用于随机优化的方法)”,https://arxiv.org/abs/1412.6980)优化器可以用作用于本发明训练方法的合适的优化器。它构建在随机梯度下降的顶部,并且针对每个参数具有独立的学习率,并且根据训练进度来调整这些。
超参数搜索
根据本发明的另外或可替选的优选实施例,在已经建立了作为基线的功能模型之后,模型的性能可以优选地被优化。这可以通过在训练期间尝试不同的参数组合来完成。
另外或单独地,本发明的训练方法可以实施基于合适文本的分类器,诸如数字,例如,在钞票面额值;字母或单词的情况下;和/或实施集成策略及模型,诸如使用仅图像的分类器或基于图像和文本的分类器的集成。特别地,使用集成可以执行得更好,而且可能更鲁棒。
本发明的训练方法通常使用一个或多个常用度量来评估,诸如准确率、精确率(也被称为“正类预测值(positive predictive value)”)、召回率(也被称为“灵敏度”)、F1和马修斯相关性系数(Mathew’s Correlation Coefficient,MCC)。
混淆矩阵(confusion matrix)通常给出了模型性能的整体观,因为它描述了分类器的预测质量,并且通过显示基准真值(目标)正和负分类的数字图像相比于所预测的(模型)正和负分类的数字图像来指示正确和错误的预测发生的位置,因此,指示了真正类(true positive,TP)、假正类(false positive,FP)、真负类(true negative,TN)和假负类(false negative,FN)分类的数字图像的数量。
每个评估度量试图用单个数字来总结混淆矩阵。
评估度量“准确率(accuracy)”与正确预测的百分比相关。换言之:准确率=(TP+TN)/(TP+TN+FP+FN)。对于平衡类,即正类和负类具有相同数量的数字图像,准确率提供了整体性能的良好测量。
评估度量“召回率(recall)”与可由模型预测的真正类的百分比相关。换言之:召回率=TP/(TP+FN)。
评估度量“精确率(precision)”与预测正类时的真正类的百分比相关。换言之:精确率=TP/(TP+FP)。
评估度量“F1”与单个度量中的精确率和召回率的组合相关,并且被定义为精确率和召回率的调和均值。换言之:F1=(2×精确率×召回率)/(精确率+召回率)。
评估度量“马修斯相关性系数(MCC)”提供了针对类不平衡的鲁棒性,其中几个期望模型特性被合并成一个数字。该值介于[-1,+1]之间,其中-1最差,+1最好。换言之:MCC=[(TP×TN)–(FFP×FN)]/[(TP+FP)×(TP+FN)×(TN+FP)×(TN+FN)]。
如下面的示例部分中更详细地阐述的,用于将钞票进行分类的实验训练设置表明,与输入图像大小为(64,128)、批量大小为32、学习率为0.005和标准转换的ResNet50的架构表现出最佳性能。
本发明配置的复制防止方法在安全性方面得到了有利的改进。因为基于对数字图像的分类进行预测的数字图像的属性不是先验确定的,所以基于哪个标准来分析数字图像通常不为公众以及潜在伪造者所知。因此,伪造者不能够设计数字图像以规避复制防止和/或促进复制。
相对于本发明的第一方面所公开的所有特征和实施例可以单独组合或与包括其每个优选实施例的本发明的第二至第五方面中的任何一个(子)组合,前提是产生的特征组合对本领域技术人员而言是合理的。
根据第二方面,提供一种用于至少一个安全文件A的复制防止的计算机实施的方法。
该方法可以包括提供数字样本图像C1。该方法还可以包括应用基于人工智能的神经网络,以用于将数字样本图像分类成第一类别或第二类别。该神经网络可以根据本文前面所描述的方法来训练。
如果神经网络确定数字样本图像的至少一部分的仿制品可能被无偏人类观察者视为表示至少一个安全文件或多个安全文件,则数字样本图像可以被分类成第一类别。该预测与预测模型的输出分数的阈值相关。在阈值为0.5的情况下,接收0.5或更高的分数的数字样本图像将被分类成第一类别。可替选地,在阈值可以为0.1或更多、0.15或更多、0.2或更多、0.25或更多、0.3或更多、0.35或更多、0.4或更多、0.45或更多的情况下,如果分数分别为至少0.1或更多、0.15或更多、0.2或更多、0.25或更多、0.3或更多、0.35或更多、0.4或更多、0.45或更多,则数字样本图像将被分类成第一类别。为了增加没有被视为可感知为安全文件(特别是钞票)的文件可被仿制的可能性,可以降低该阈值。然而,折衷在于,在这种情况下,数字图像的数量会增加,通常不太被视为可感知为安全文件,特别是钞票。为了减少虚假复制防止的数量,人工智能检测可以用作预滤波器,使得只有原始数字图像的一小部分需要在下一步使用合适的检测器进行认证,以识别复制防止图像安全特征,诸如Eurion星座或OMRON环。换言之,只有在第一人工智能检测(不使用任何认证安全特征)中分类成第一类别的数字图像的这一小部分在第二步骤中使用公共图像安全特征进行认证。假如第二认证步骤识别了复制防止图像安全特征,则复制处理被防止。假如图像安全特征的第二步骤认证不识别相应的图像安全特征,则复制处理不被防止。因此,结合人工智能检测作为预滤波器并且然后仅对第一步骤的正类部分应用复制防止认证的优选实施例促进了减少不包括复制防止图像安全特征的那些数字图像上的复制防止的一部分。同时,因为人工智能检测比复制防止图像安全特征的后续认证更少时间密集,所以整体认证时间减少了。另外,人工智能预滤波器并不防止对非法包括复制防止图像安全特征、但不被视为被可感知为安全文件的那些文件的仿制。
在替代方案中,如果神经网络确定针对数字样本图像的任何部分的仿制品都不可能被无偏人类观察者视为表示至少一个安全文件或多个安全文件,则数字样本图像可以被分类成第二类别。该预测还与预测模型的输出分数的阈值相关。在阈值为0.5的情况下,接收小于0.5的分数的数字样本图像将被分类成第二类别。可替选地,在阈值可以为0.1或更多、0.15或更多、0.2或更多、0.25或更多、0.3或更多、0.35或更多、0.4或更多、0.45或更多的情况下,如果分数分别为小于0.1、小于0.15、小于0.2、小于0.25、小于0.3、小于0.35、小于0.4或小于0.45,则数字样本图像将被分类成第二类别。
此外,如果神经网络将数字样本图像分类成第一类别,则该方法可以包括防止仿制数字样本图像。
在本申请的上下文内,数字样本图像是指样本文件C的数字图像。例如,可能存在要被确定仿制品是否应该被防止或允许的样本文件。显然,如果无偏人类观察者可以将样本文件的任何部分视为表示安全文件,则仿制品要被避免。然后提供了一种至于避免仿制可能潜在地不适当或非法用作(原始)安全文件的候选的有效措施。
因此,样本文件的数字图像可以被获取以实现数字样本图像。然后,数字样本图像可以被提供给神经网络。由于神经网络可以根据上面所描述的细节进行训练,它意识到至少一个安全文件的数字图像作为基准。然后,神经网络可以被使能确定数字样本图像的仿制品是否可能被无偏人类观察者视为表示安全文件或其多个。在这个过程期间,神经网络可以考虑数字样本图像与基准之间的差异。虽然这些差异可以存在,但是该网络可以至少在某个接受水平确定,数字样本图像的至少一部分的仿制品可以被无偏人类观察者视为表示安全文件。如果该条件被确定为真,至少到某个接受水平,则数字样本图像可被分类成第一类别。这意味着第一类别包括或由潜在地可能被滥用的数字样本图像组成。相应地,对于分类成第一类别的数字样本图像,仿制品可以被防止以禁止不正确使用,这可以通过当前方法实现。防止仿制可以包括防止数字样本图像的处理,使得不能获取数字样本图像的硬拷贝。另外或可替选地,防止措施还可以包括防止处理、转换或保存数字样本图像底层的数据。
在本方法的上下文内,安全文件可以是钞票、支票、票据、机票、护照或机票中的一个。对于这些文件类型,出于经济和安全相关的原因,相应数字图像的未经授权的仿制品存在着重大风险。这些风险借助于如上面所描述的用于复制防止的方法来避免或至少减少。
如果本发明训练的神经网络将数字样本图像分类成第一类别,则防止数字样本图像被仿制可以包括对禁止装置的激活。禁止装置可以是软件或硬件实施的结构。禁止装置可以被配置为禁止仿制装置诸如打印机或复印机仿制数字样本图像。禁止装置还可以被配置为防止数据保存或数据转换过程。这可以由主/从系统(master-/slave-system)来实现,其中该禁止装置可以控制这样的设备或公共数据处理系统中包括的数据处理单元。另外或可替选地,表示数字样本图像的数据可以由禁止装置修正,使得它们不可读或不能由仿制设备(即,打印机或复印机)处理。修正数据可以包括修正数据以包括标记/属性/标志,其中标记/属性/标志防止数据被仿制。
与安全文件的数字图像相比,数字样本图像可以被变更。与安全文件的数字图像相比,数字样本图像特别是可以被降质。变更后的数字样本图像可以与安全文件的数字图像在透视角、底层照明、着色、褶皱或折痕中的至少一个方面不同。在数字训练图像的上下文内描述的在变更(同义词:降质或修改)方面所说明的细节可以被相似地应用于变更后的数字样本图像。相似地,正如在变更后的数字训练图像的情况下,数字样本图像可能由于各种原因(特别是由于降质)而不处于最佳状态。此外,图像获取可能由于照明的限制或由于图像获取装置的非优化布置而得不到优化。另外,样本文件本身可以与安全文件不同,例如由于特征特别是图形设计特征的流通或交换。相应地,这样的差异可以存在于数字样本图像本身中。然而,由于神经网络被相应地训练,它仍然可以使能确定数字样本图像的仿制品是否将被无偏人类观察者视为与安全文件相关。换言之,因为神经网络可能已经使用与基准相比被变更的数字训练图像进行过训练,所以神经网络可以弥补变更后的数字样本图像与基准之间存在的差异。神经网络可以被配置为适当地访问变更后的数字样本图像与基准之间的差异,使得其适于评估关于无偏人类观察者鉴于基准将如何认为数字样本图像的至少一部分的仿制品。
安全文件可以包括正面和反面。然后,如果神经网络确定数字样本图像的至少一部分的仿制品可能被无偏人类观察者视为表示安全文件或多个安全文件的正面和/或反面,则该数字样本图像可以被分类成第一类别。在替代方案中,如果神经网络确定用于数字样本图像的任何部分的仿制品都不能被无偏人类观察者视为表示安全文件或多个安全文件的正面和/或反面,则该数字样本图像可以被分类成第二类别。
用于训练神经网络的方法中提供的基准真值可以表示包括或由第一子范围和第二子范围组成的接受水平范围。然后,用于复制防止的方法可能会被修改到这个程度:如果神经网络根据第一子范围确定以下接受水平,即数字样本图像的至少一部分的仿制品可被无偏人类观察者视为表示至少一个安全文件或多个安全文件,则数字样本图像可以被分类成第一类别。
在替代方案中,如果神经网络根据第二子范围确定以下接受水平,即用于数字样本图像的任何部分的仿制品都不能被无偏人类观察者视为表示至少一个或多个安全文件,则数字样本图像可以被分类成第二类别。在这种场景中,第一子范围可以大于第二子范围。
所确定的接受水平可以与输出分数的阈值交叉相关,即阈值(以数字表示)越高,接受水平(以数字表示)越低,反之亦然。
接受水平可以被视为描述变更后的数字样本图像与基准之间的相似性度量,就这些(仿制品)被相应数量的人类观测者视为彼此之间有何种程度的区别而言。
这意味着,神经网络可以被训练使得它可以确定出:关于数字样本图像的仿制品是否被无偏人类观察者视为呈现安全文件的多个不同接受水平。有利地,接受水平范围在数字样本图像的分类机制方面是不对称分布的。换言之,只有当接受水平非常低时,数字样本图像才可以被分类成第二类别,对于第二类别,仿制不一定被防止。根据较大的接受水平的子范围,数字样本图像可以反而被分类成第一类别,使得仿制被防止。换言之,假如第一子范围大于第二子范围,则至少当假设数字样本图像在不同接受水平方面的均匀分布时,被分类成第一类别和第二类别的数字样本图像的数量之间可以存在不对称。
在简单的场景中,无偏人类观察者可以在范围从0至1的50%接受水平上将数字样本图像的仿制品视为表示安全文件。假定第一子范围大于第二子范围,数字样本图像由于50%的接受水平而将被分类成第一类别。子范围之间的阈值特别地可以被确定为非常低,例如对于0至1的范围为0.3与0.7,进一步对于0至1的范围为0.2与0.8,例如对于0至1的范围为0.1与0.9,更进一步对于接受水平的相同范围为0.01与0.99。
在取决于所确定的接受水平将数字样本图像分类成第一类别或第二类别方面的不对称分布也可能导致与假负类事件相比的假正类事件之间的比率不对称。假正类的数量可能比假负类的数量要大,特别是大得多。这里,假正类指的是以下配置,根据其,神经网络确定数字样本图像的至少一部分的仿制品将被无偏人类观察者视为表示安全文件,尽管观察者实际上会将仿制品视为不表示安全文件。假负类可以指的是以下配置,根据其,神经网络确定无偏人类观察者不将数字样本图像的至少一部分的仿制品视为表示安全文件,尽管无偏人类观察者实际上会将数字样本图像的至少一部分的仿制品视为表示安全文件。假正类与假负类之间的不对称背后的原因可以通过在第一子范围与第二子范围之间的接受水平方面的阈值给出。如果那些子范围之间的阈值接受水平较低,则数字样本图像反而被分类成第一类别,然而仅在极少数情况下才被分类成第二类别。因此,假负类的数量将比假正类的数量要小,特别是小得多。
第一和第二子范围在接受水平方面的具体大小可以是应用于神经网络的训练过程的结果。
在替代方案中,神经网络可以被训练使得第一和第二子范围原则上在接受水平的整体范围方面具有相同的大小。在这种情况下,不对称性可以通过在用于安全文件的复制防止的神经网络的使用之前或期间设置相应的阈值接受水平来手动引入。阈值接受水平的设置或调整可以例如受数字样本图像的分类的驱使。如果第二类别包括或由应该防止仿制的数字样本图像组成,则阈值接受水平可以被相应地调整。
在另一个替代方案中,阈值接受水平可以由神经网络本身基于其固有的机器学习能力进行调整。
用于至少一个安全文件的复制防止的方法可以是基于代码的,其中该方法的相应代码的二进制大小可以介于100kB与50MB之间、特别是介于200kB与10MB之间、进一步特别是介于500kB与1MB之间。因为代码具有相当小的大小,所以该代码还可以有利地在非高端数据处理设备诸如扫描设备、打印机、复印设备等中实施。
用于至少一个安全文件的复制防止的方法可以被配置为在小于60秒的时间段内、特别是在100毫秒至30秒之间的时间段内、特别是在小于1秒的时间段之间的时间段内可执行。如此配置的方法还可以有利地应用于实时的常规数据处理过程期间,诸如以可接受的时间消耗印刷数字图像。
特别地,用于复制防止的方法可以以基本上不减慢仿制过程(例如,印刷过程)的速度执行。在这种情况下,根据本发明的第二方面的方法的处理可以在印刷设备的机械延迟内进行。例如,当使用打印机(例如喷墨打印机)时,根据一个实施例,这可能意味着在仿制/打印操作由于复制防止而停止之前,只有几行数字图像可以被仿制/打印。尽管如此,本实施例仍然实现了本发明的目的。相对于本发明第二方面所公开的所有特征和实施例可以单独组合或与包括其每个优选实施例的本发明的第一方面或第三至第四方面中的任何一个(子)组合,前提是产生的特征组合对本领域技术人员而言是合理的。
根据本发明的第三方面,提供了一种钞票检测器,其包括或由通信装置和数据处理单元组成。该通信装置可以被配置为接收数字样本图像并且将数字样本图像提供给数据处理单元。该数据处理单元可以被配置为执行用于至少一个安全文件的复制防止的方法。该钞票检测器可以被配置为防止数字样本图像的仿制品。
本发明的钞票检测器可以特别是在用于样本文件的仿制的设备诸如复印机或打印机中实施。相应地,如本文前面解释的,如果数字样本图像被分类成第一类别,则钞票检测器可以使能有利地防止样本文件或数字样本图像的仿制处理。
本发明的钞票检测器可以是软件实施的。钞票检测器可以被包括在用于仿制数字样本图像的设备内。在替代方案中,钞票检测器可以被配置为基于云或基于服务器的应用。
根据替代方案,钞票检测器可以至少部分是硬件实施的。在这种情况下,钞票检测器的至少一些特征可以由基于硬件的数据处理部件(诸如CPU或与CPU耦合的网络通信设备)实施。甚至神经网络也可以至少部分是基于硬件实施的,诸如使用量子计算设备。在替代方案中,神经网络可以是软件实施的,例如,通过要由CPU执行的处理器命令。
本发明的钞票检测器可以完全被实现为数字代码并用计算机语言编写。相应地,钞票检测器可以容易地嵌入到仿制设备的固件中,特别是在复印机或打印机中。此外,对钞票检测器的更新然后可以简单地通过提供这类设备的更新固件版本来实现。在替代方案中,这类设备可以仅包括钞票检测器的客户端部分,而钞票检测器本身被包括在云服务或服务器内。然后,客户端部分可以被配置为与云或服务器通信,以关于存在于客户端处的本地数字样本图像在云内或在服务器上运行钞票检测器。在这种情况下,可能有必要将与数字样本图像相关的数据传输到云或服务器。
本发明的钞票检测器还可以被配置为:如果数字样本图像被分类成第一类别,则在真实性方面评估数字样本图像。数字样本图像可以在至少一个安全文件中包括的至少一个安全特征(即,用于复制防止的图像安全特征)方面被评估。特别地,特定的复制防止安全特征可以在这方面使用,诸如所谓的Eurion星座,也被称为Omron环。本实施例是有利的,这是因为它允许进一步验证被分类成第一类别(即,被视为表示安全文件)的数字图像是否实际上表示应当防止复制的安全文件。换言之,这样的优选发明实施例提供了被分类成第一类别的数字图像是否是“真”正类安全文件的交叉检查,从而防止了会被非法地应用于任何非安全文件的任何图像安全特征的滥用。鉴于认证过程与预滤波器AI检测过程相比通常更耗时,优选实施例不但允许交叉检查真正类命中,而且还提供整体时间节省,因为图像安全特征的认证处理只需要对被分类成第一类别的数字图像的子集进行。
因为本发明的用于复制防止的方法并不(仅)依赖于特定的复制防止安全特征(Eurion星座),所以人工智能神经网络也与在打印机和复印机中实施的已知机制不同。这些要求在示例文件中呈现这样的具体的复制防止安全特征。然而,本发明的用于复制防止的方法的可用性要广得多,这是因为,首先,该方法不依赖于真实的物理样本文件,而是依赖于数字样本图像,其次,这些数字样本图像可以根据相应的数字样本图像中包括的更广范围的视觉特性进行分类。
与此形成对照,本发明的第一方面的用于训练基于人工智能的神经网络的方法以及根据本发明的第二方面的用于至少一个安全文件的复制防止的方法不取决于安全文件内包括的任何安全特征,从而不认证安全文件。因此,特定安全特征,特别是用于复制防止的图像安全特征的滥用或更改并不影响用于复制防止的本发明方法。如先前阐述的,与常用认证方法相比,本发明的优点是,对文件是否将进一步处理(特别是复印、打印或以其他方式仿制)的分类与进行用于复制防止的代码的完整认证步骤相比可以更快地进行。因此,基于神经网络的更快的方法可以首先被应用于评估数字样本图像的仿制品是否一般性地被视为可感知为安全文件。
评估数字样本图像的仿制品是否一般性地被视为可感知为安全文件的人工智能方法的顺序应用,与用于相应的安全特征(也就是用于防止复制的图像安全特征)的随后应用的认证方法结合,该方法仅对在第一人工方法步骤中被分类为表示安全文件的那些文件进行,然后提供了整体时间减少。
在评估数字样本图像的仿制品是否一般性被视为可感知为安全文件的人工智能方法的第一步骤期间,通常,大多数研究的数字样本图像可以被分类为人类观察者不将数字样本图像的任何部分的仿制品视为安全文件的第二类别。根据本发明优选的方法,对于这大多数而言,甚至不需要执行认证方法,因为在第一步骤中本发明的复制防止方法已经被排除了这些文件通常可感知为安全文件。相应地,与执行整个数字样本图像的集合的完整认证的情况相比,处理的顺序应用可以提供时间节省。
此外,文件设计不会因使用用于复制保护的代码而被失真,并且也降低了非法应用用于复制保护的代码的黑客攻击的风险。原则上,在数字样本图像方面的评估独立于这样的复制保护的安全特征/代码。因此,如果数字样本图像被分类成第一类别,则将要防止仿制。
根据另外方面,也可以实现时间节省,如果底层安全文件的安全特征或属性被滥用在不打算如此标记的文件上的话。安全文件的安全特征或属性的使用可能仅局限于授权机构。如果特征或属性以非法方式在不打算作为安全文件使用的文件上或与其一起使用,本发明的方法将在第一步骤中用AI检测方法作为预滤波器来评估包括用于复制防止的非法应用的图像安全特征的该文件的数字图像是否被分类成第一类别(可感知为安全文件)或第二类别(不可感知为安全文件)。对于那些情况,在数字图像被分类成第二类别的情况下,本发明的方法将不应用随后的认证处理,并因此,针对复制防止的非法应用的图像安全特征不能停止仿制过程。仅对于可被感知为安全文件(分类成第一类别)的那些数字图像,用于复制防止的图像安全特征的后续认证过程将被应用,并且将导致仿制过程的防止。然而,这是有利的,因为无偏人类可以将该数字图像的数字仿制品视为表示安全文件。因此,仅对于分类成第一类别的滥用情况,可以进行耗时的认证过程,并且对于分类成第二类别的滥用情况,可以完全避免耗时的认证过程。
为了对文件更复杂的评估(包括认证),钞票检测器可以进一步包括认证装置,以便评估包括用于复制保护的代码的一个或多个安全特征,并且可以被配置为确定数字样本图像与基准相比的真实性,以便识别基于伪造文件的数字图像。例如,作为附加认证措施,钞票检测器可能被配置为在用于复制保护的一个或多个代码(例如,所谓的Eurion星座,也被称为Omron环)方面评估数字样本图像。假如附加认证步骤将导致文件不携带用于复制防止的一个或多个代码的确定,则仍可以停止进一步处理,并且该文件可以另外被分类成伪造文件。在这种情况下,除了用于复制保护的代码的认证方法以外,本发明的复制防止方法的组合在用于复制保护的代码(例如,Eurion星座)将被非法地黑客攻击并非法地应用于非安全文件的情况下提供了进一步的优势。根据现有技术的复制防止方法,非法地应用于文件的复制保护的代码将被认证,并且复制操作将被停止,不管文件的性质如何,即不管无偏人类观察者是否将文件的(数字)图像或其仿制品视为安全文件。与此相反,本发明的第二方面的复制防止方法要求将数字图像分类成第一类别,这意味着至少在一定的接受水平上,该图像或其仿制品可能被无偏人类观察者视为安全文件,或者分类成第二类别,这意味着该图像或其仿制品至少在一定的接受水平上不能被无偏人类观察者视为安全文件。假如数字图像将属于第二类别,即使Eurion星座将用附加的认证方法进行认证,复制防止也不可能发生。因此,非法应用的复制保护代码并不允许非法复制保护。
将第二发明方面的复制防止方法与现有技术认证方法相结合的另一个优点导致了以下情况的复制防止:伪造文件的(数字)图像不携带复制防止代码—并且因此,仿制品将不会由现有技术认证方法停止(一旦无偏人类观察者将其视为安全文件)。
因此,根据本发明的第一方面的用于训练基于人工智能的神经网络的方法以及根据本发明的第二方面的用于至少一个安全文件的复制防止的方法可以与评估至少一个安全特征的真实性的方法顺序地或同时地应用,以便识别基于伪造文件的数字图像,从而防止那些图像的仿制品。在顺序应用的情况下,认证方法在基于应用基于人工智能的神经网络的本发明的复制保护方法以后被应用。
钞票检测器可以包括低ARM型多核CPU或移动设备中常用的类似CPU。该设备还可以包括在4MB至8GB的范围内的主存储器,更特别地,在16MB至2GB的范围内的主存储器,更特别地,在64MB至512MB的范围内的主存储器,更特别地,在128MB至256MB的范围内的主存储器。用于至少一个安全文件的复制防止的方法可以被配置为使用指示大小的主存储器以本地或远程方式可执行在指示的CPU类型上。
相对于本发明的第三方面所公开的所有特征和实施例可以单独组合或与本发明的第一、第二和第四方面(包括其每个优选实施例)中的任何一个(子)组合,前提是产生的特征组合对本领域技术人员而言是合理的。
根据第四方面,一种计算机程序产品,包括或由指令组成,当程序由数据处理单元执行时,致使数据处理单元应用基于人工智能的神经网络以用于将数字样本图像分类成第一类别或第二类别。在这种情况下,神经网络可以根据本文前面描述的方法来训练,并且分类过程也可以如本文前面描述的那样来实施。
计算机程序产品可以被加密和/或错误编码存储。出于安全原因,几种底层技术和指令应该保密。相应地,如果代码被加密存储,则可以有利地防止底层技术和指令被公开。
在替代方案中,计算机程序产品可以是开放存取的。一般而言,这不存在任何风险,因为该程序不能以像数字水印检测器那样相同的方式利用。在数字水印的情况下,当代码被利用时,伪造者可以被允许以重构数字水印信号,从而将其应用于未经授权的图像。然而,在根据第二发明方面的用于复制防止的方法的情况下,数字样本图像的至少一部分的仿制品是否由无偏人类观察者视为代表安全文件。因此,利用当前计算机程序产品不存在相似的风险。
相对于本发明的第四方面所公开的所有特征和实施例可以单独组合或与包括其每个优选实施例的本发明的第一至第三方面中的任何一个(子)组合,前提是产生的特征组合对本领域技术人员而言是合理的。
附图说明
参照附图,本发明的进一步方面和特性将从本发明的优选实施例的以下描述中产生,在附图中,
-图1显示了一种用于训练基于人工智能的神经网络的方法的简化示意图,
该神经网络适用于将数字图像分类为是否被视为安全文件,
-图2显示了一种用于至少一个安全文件的复制防止的方法的简化示意图,-图3显示了钞票检测器的简化示意图,以及
-图4显示了计算机程序产品的简化示意图。
下面相对于示例实施例和/或附图所公开的所有特征可以单独或以任何子组合与包括其优选实施例的特征在内的本发明的各方面的特征相结合,前提是产生的特征组合对本领域技术人员而言是合理的。
具体实施方式
图1显示了一种用于训练基于人工智能的神经网络150的方法100的简化示意图。出于说明的目的,下面参照设备类型的神经网络150描述了方法100。然而,这不应该被解释为限制方法100。
神经网络150可以适用于将数字图像分类为是否被视为安全文件100。神经网络100可以是具有多层的深度神经网络。在这种方法100内,神经网络150基于三个输入进行训练。神经网络150可以是额外地利用了一层或多层上的跳过连接(skip connection)或捷径(shortcut)的残差神经网络(ResNet)。如示例章节中阐述的,相对于本发明已经使用了具有50层的残差神经网络。可替选地,神经网络150可以利用inception网络,其结合具有不同核大小的卷积以便使用不同尺度的特征。如示例章节中阐述的,已经使用了inception v3。可替选地,神经网络150可以利用DenseNet架构,其中密集块(Dense Block)的每层接收来自所有先前层的输入,使得来自所有先前层的特征图被级联并且用作用于下一层的输入。在这种情况下,密集块的最后一层已经访问了整个集合信息。如示例章节中阐述的,已经使用了具有121层的DenseNet。
第一,安全文件110的数字图像被提供作为神经网络150的基准。因此,安全文件110表示用于要被分类的数字图像的基准,以便是否被视为安全文件110。
第二,数字训练图像的集合120被提供给神经网络150。数字训练图像120通常可以不同于安全文件110的数字图像。特别地,数字训练图像120可以相对于安全文件110的数字图像有所变更。数字训练图像120的变更可以是在如上面所描述的至少一个方面。
在特别示例中,变更可以包括降质,其可以是基于数字训练图像可以至少部分地包括磨损的墨水、小孔、高达表面的一定百分比的热损伤、附加涂鸦、污渍、标记、胶带、订书钉或撕裂中的一种。
训练图像120的集合包括正类数字训练图像125的第一子集和负类数字训练图像130的第二子集,或由其组成。在这方面,正类数字训练图像125可以具有变更的视觉影响,使得无偏人类观察者将相应数字训练图像125的仿制品视为表示安全文件110或多个安全文件110。负类数字训练图像130可以具有变更的视觉影响,使得无偏人类观察者不将相应数字训练图像130的仿制品视为表示安全文件110或其多个。
数字图像可以被提供表现出相同的图像大小。优选地,假如已经进行了利用通用图像数据的预训练,则图像大小可以被标准化为与通用图像数据一起使用的图像大小,使得预训练的权重进一步工作。该图像大小可以是(64,128)、(128,256)、(192,384)、(256,512)或(299,299)中的一个,优选地(64,128)。
为了训练的目的,适当量的数字图像被一次处理,诸如8个或更多个、16个或更多个、32个或更多个数字图像被一次处理。考虑到计算负载作为折衷,包含32个数字图像的批量已经被证明显示出良好的性能。
学习率可以被适当地选择。特别地使用步长为0.005、0.01、0.05或0.1中的一个的学习率。考虑到计算负载作为折衷,用于学习率的步长可以是0.005。
如上面阐述的,模型学习过程可以被优化。这种优化一般可以经由不同的优化器完成,这些当中随机梯度下降是最著名的。优化器通常通过计算用于单次批量的损失函数值,确定该函数的梯度,然后朝向使损失最小化的方向迈出一步(由学习率定义)来迭代地更新模型权重。例如,Adam(Kingma等人,“Adam:A Method for Stochastic Optimization(Adam:一种用于随机优化的方法)”,https://arxiv.org/abs/1412.6980)优化器可以用作用于本发明训练方法的合适的优化器。它构建在随机梯度下降的顶部,并且针对每个参数具有独立的学习率,并且根据训练进度来调整这些。
根据本发明的另外或可替选的优选实施例,在已经建立了作为基线的功能模型之后,模型的性能可以优选地被优化。这可以通过在训练期间尝试不同的参数组合来完成。
另外或单独地,本发明的训练方法可以实施基于合适文本的分类器,诸如数字,例如,在钞票面额值;字母或单词的情况下;和/或实施集成策略及模型,诸如使用仅图像的分类器或基于图像和文本的分类器的集成。特别地,使用集成可以执行得更好,而且可能更鲁棒。
特别地,仿制品可以被视为硬拷贝类型倍增(例如,借助于打印机或复印机),或者被视为数据转换、保存或处理行为。
当然,同样令人感兴趣的是,期望要被仿制的图像是否表示单个安全文件或其多个。这两件事都需要被考虑。
无偏人类观察者在本文前面解释过了。
第三,基准真值140被提供给神经网络150。基准真值140表示一个或多个无偏人类观察者的、关于用于每个正类数字训练图像125和每个负类数字训练图像130的相应数字训练图像120的仿制品是否要由神经网络150视为表示安全文件110或其多个的至少一个接受水平。换言之,数字训练图像120通过使用一个或多个,在本案例中每数字图像四个贴标者,被分类成正类数字训练图像125的第一子集或负类数字训练图像130的第二子集。如果至少一个贴标者(在本案例中为两个贴标者)将数字训练图像分类成第一正类子集125或第二负类子集130,则数字图像要被分类。
接受水平可以被视为量化无偏人类观察者将如何关于安全文件110而解释数字训练图像120的仿制品。
基于方法100,神经网络150可以被训练关于所提供的数字训练图像120的仿制品是否被视为安全文件110的决策行为。这种决策行为基于至少一个无偏人类观察者的接受水平。相应地,预测的输出分数被分配给数字图像,显示了相应的数字图像可以被视为可感知为安全文件特别是钞票的可能性。分数被标准化为介于0和1之间的范围。分数越接近于1,数字图像被视为可感知为安全文件的可能性就越大。分数越接近于0,数字图像被视为可感知为安全文件的可能性就越小。阈值输出分数可以被预定,使得具有表示阈值或更高的预测输出分数的数字图像被视为可感知为安全文件。反之亦然,具有表示小于阈值的预测输出分数的数字图像被视为不可感知为安全文件。阈值可以被确定与接受水平相关。换言之,假如接受水平较低,即小于50%的贴标者将数字图像分类成第一正类子集,则该阈值可以是0.5或更高。反过来,假如接受水平较高,即超过50%的贴标者将数字图像分类成第一正类子集,则该阈值可以小于0.5。
在方法100内,安全文件100和数字训练图像120的集合可以各自是闭合集合。例如,对于给定系列的安全文件,例如欧元钞票,数字训练图像120的集合可以分别包括不同的正类和负类数字训练图像125、130或由其组成。在进一步的示例中,作为基准的安全文件110、以及数字训练图像120可以被提供用于不同货币的不同面额。
示例性地,数字训练图像120的集合可以包括数百或数千个,每个这样的正面数字训练图像125和负面数字训练图像130。
图2显示了一种用于至少一个安全文件110的复制防止的方法200的简化示意图。再次,出于说明的目的,参照神经网络150描述了方法200。然而,这不应被理解为限制方法200。
神经网络150特别地可以根据用于训练基于人工智能的神经网络150的方法100来训练。相应地,神经网络可以适用于将数字图像分类为是否被视为安全文件110。因为神经网络150根据用于训练的方法100来训练,所以神经网络150获知至少一个安全文件110作为基准。当然,多个安全文件110可以用神经网络150进行训练。
在用于复制防止的方法200内,数字样本图像210被提供给神经网络。数字样本图像210通常不同于之前提供给神经网络的安全文件110。特别地,数字样本图像210与安全文件110相比可以被变更。如前面所描述的变更可以显示出来。
然后,如果神经网络150确定数字样本图像210的至少一部分的仿制品可能被无偏人类观察者视为表示至少一个安全文件110或多个安全文件110,则神经网络150将这个数字样本图像210分类成第一类别。在替代方案中,如果神经网络150确定用于数字样本图像210的任何部分的仿制品都不能被无偏人类观察者视为表示至少一个安全文件110或多个安全文件110,则神经网络150将这个数字样本图像210分类成第二类别。在这方面,神经网络考虑了数字样本图像210与安全文件110之间的差异。然而,基于经训练的决策行为,神经网络150可以确定无偏人类观察者可能将数字样本图像210的至少一部分的仿制品视为表示安全文件110的至少达到何种接受水平。
此外,神经网络防止数字样本图像210的仿制品,如果其被分类成第一类别。
可选地,方法200可以与随后应用的认证过程相结合,该认证过程优选地仅对分类成第一类别的那些数字样本图像210(即,可感知为安全文件的数字样本图像210)执行。在认证过程期间,第一类别的数字样本图像然后可以在用于复制防止的特定图像安全特征(诸如Eurion星座)方面来评估。这种随后应用的关于图像安全特征的认证过程提供了交叉检查,在快速AI检测方法中可感知为安全文件的文件的正类评估是否实际上是包括用于复制防止的相应图像安全文件在内的“真”正类命中。因为鉴于用于复制防止的图像安全特征的认证需要完整安全文件的详细评估,所以认证过程相当耗时。因此,虽然AI检测和认证过程的组合似乎更加复杂,但是优点还与整体时间节省相关,这由于鉴于用于复制防止的图像安全特征,被分类成第一类别的数字样本图像210中的一小部分务必进行认证,因为大多数的数字样本图像210可以被分类成第二类别,因此可以有利地省略。
图3显示了钞票检测器300的简化示意图。该钞票检测器300是在复印机320内软件实施的,并且被配置用于执行用于至少一个安全文件的复制防止的方法200。
在示例性场景中,样本文件310被提供给复印机320,其被期望由复印机的用户300仿制。该复印机320被配置为基于样本文件310来获取数字样本图像325。数字样本图像325被提供给通信装置330,例如钞票检测器300的通信接口。该通信装置330被配置为将数字样本图像325提供给数据处理单元335。数据处理单元335包括基于人工智能的神经网络340。该神经网络340被配置为执行前面描述的用于复制防止的方法200。神经网络340将数字样本图像325分类成第一类别或第二类别。如果数字样本图像325被分类成第一类别,则钞票检测器激活禁止装置350。禁止装置350被配置为在中断355处中断期望的仿制处理。相应地,数字样本图像325的仿制品可以被避免。如果数字样本图像325被神经网络340分类成第二类别,则禁止装置350不被激活。相应地,仿制处理不被避免,并且样本文件310的仿制品310a可以产生。
图4显示了计算机程序产品400的简化示意图。计算机程序产品可以特别包括或由指令组成,该指令在由数据处理单元执行时,致使数据处理单元执行与将数字样本图像进行分类相关的步骤。此外,计算机程序产品400还可以包括或由指令组成,该指令在由数据处理单元执行时,致使数据处理单元防止已经被分类成第一类别的数字样本图像的仿制品。
在替代方案中,数据处理单元可以基于所包含的指令被致使为激活禁止装置,其可以被布置和配置为防止已被分类成第一类别的数字样本图像的仿制品。
虽然本发明已经在上面参照特定实施例进行了描述,但是它并不局限于这些实施例,并且对于技术人员而言,毫无疑问将出现在如所要求保护的本发明的范围内的进一步的替代方案。
示例:
包含6000个数字图像的训练数据集,其中3000个被标记为正(正类被视为可感知为安全文件,也就是钞票),3000个被标记为负(负类被视为不可感知为安全文件,也就是钞票)。每类500个数字图像被隐藏用于在本发明的训练以后的测试/评估目的。
在该数据集中,一些属于正类的数字图像与完全没有降质的真钞(基准钞票)相关,一些数字图像具有轻微降质,但仍被贴标者视为属于正类,而另一些数字图像具有严重降质使得贴标者将其分类成负类。仅相对于具有降质的钞票,已经使用了四个贴标者以将相应的数字图像进行分类。在本案例中,如果至少2个贴标者(即,50%)将图像标记成正类,则相应的数字图像被标记成正类。
已经使用了具有50层的ResNet50、Inceptionv3和具有121层的DenseNet121的深度学习模型。
预训练使用ImageNet的通用图像数据集来进行。
在本示例中,模型的权重被初始化为一种在ImageNet数据集上表现良好的状态,该数据集已经成为基准分类模型的标准。然后,模型通过在训练数据集上进行训练来微调,其中训练数据集被调整大小为ImageNet数据集的标准。
在本示例中,使用了Adam优化器,其建立在随机梯度下降的顶部,并且针对每个参数具有独立的学习率,并且根据训练进度来调整这些。
在本案例中,分别地,正类的数字图像相应被分配数字1,负类的数字图像相应被分配数字0。深度学习模型输出一个分数,其是介于0和1之间的连续数。这个分数代表了给定图像成为某一类的可能性。更具体地,分数越接近于0,钞票就越有可能被无偏人类观察者视为不可被感知为钞票。反之亦然。如果分数越接近于1,钞票就越有可能被无偏人类观察者视为可感知为钞票。
默认情况下,两类之间的阈值被定义为0.5。然而,该阈值可以基于精确率/召回率要求进行调整。使用默认阈值,如果分数小于或等于阈值(例如,0.5)则通过将分数下舍入为0、如果分数大于阈值(例如,0.5)则通过将分数上舍入为1,来确定图像的预测类。
以下表1显示了不同的参数及其可能值,根据本发明的训练方法,这些参数及其可能值已被用作示例实验:
表1:
本实验表明,不同的模型针对不同的度量显示了相似的性能。换言之,在一个度量中具有高性能的模型在其他度量上也具有高性能。
这使得选择“最佳”模型更加容易,因为几乎没有要在各度量之间考虑的折衷。
通过在所有参数组合中的搜索,发现了以下表2的参数的集合,以在是否被视为可感知为钞票的数字图像的分类任务中执行最佳模式:
表2:
参数
架构 -ResNet50
输入图像大小 -(64,128)
批量大小 -32
学习率 -0.005
增强 1.只有标准转换
混淆矩阵显示了256个TN、19个FP、9个FN和266个TP。
这种模型显示了准确率值为94.9%(模型排序#1)、F1值为95.0%(模型排序#1)、MCC值为0.899(模型排序#1)、召回率值为96.7%(模型排序#4)以及精确率为03.3%(模型排序#32)。
本发明的训练方法可以另外包括关于文本分类器和/或集成的训练,特别是包含仅图像分类器或基于图像和文本的分类器。

Claims (28)

1.用于训练基于人工智能的神经网络(150)的计算机实施的方法(100),所述神经网络(150)适用于在不认证安全特征的情况下将数字图像分类为是否被视为安全文件(110,A),所述方法(100)包括或由以下组成:
a)提供至少一个安全文件(110,A)的至少一个数字图像(A1)作为基准,b)提供数字训练图像(120,B1)的集合,其中,所述数字训练图像(120,
B1)与所述安全文件(110,A)的数字图像(A1)相比有所变更,
所述数字训练图像(120,B1)的集合包括正类数字训练图像的第一子集(125,B1-1)或由其组成,其具有变更的视觉影响使得无偏人类观察者将相应数字训练图像(125,B1-1)的仿制品视为表示安全文件(110,A)或多个安全文件(110,A),
所述数字训练图像(120,B1)的集合包括负类数字训练图像的第二子集(130,B1-2)或由其组成,其具有变更的视觉影响使得无偏人类观察者不将相应数字训练图像(130,B1-2)的仿制品视为表示安全文件(110,A)或多个安全文件(110,A),以及
c)向所述基于人工智能的神经网络(150)提供用于步骤b)中每个数字训练图像(120,B1)的基准真值(140),其中,所述基准真值(140)表示一个或多个无偏人类观察者的、关于相应数字训练图像(120,B1)的仿制品要被视为表示还是不表示安全文件(110,A)或多个安全文件(110,A)的至少一个接受水平。
2.根据权利要求1所述的方法(100),其中,步骤b)中至少一个变更后的数字训练图像(120,B1)被降质,其中,所述数字训练图像的降质基于:
训练文件(B),其已经被化学或物理攻击过,或
训练文件(B)的数字图像,其中所述数字图像已经被数字攻击过。
3.根据前述权利要求中任一项所述的方法(100),其中,步骤b)中至少一个变更后的数字训练图像(120,B1)与所述安全文件(110,A)的数字图像(A1)在分辨率、清晰度、一般性外观、形状、颜色、颜色分布和纵横比中的至少一个方面不同。
4.根据前述权利要求中任一项所述的方法(100),其中,步骤b)中至少一个变更后的数字训练图像(120,B1)与所述安全文件(110,A)的数字图像(A1)在透视角、底层照明、着色、褶皱或折痕中的至少一个方面不同。
5.根据前述权利要求中任一项所述的方法(100),其中,所述安全文件(110,A)包括一个或多个图形设计特征,特别是肖像或建筑形象或自然图形图像,并且其中步骤b)中至少一个数字训练图像(120,B1)与所述安全文件(110,A)的数字图像(A1)的不同之处在于至少一个设计特征被不同的设计特征替代,特别是不同的肖像或不同的建筑形象或不同的自然图像。
6.根据前述权利要求中任一项所述的方法(100),其中,所述基准真值(140)表示至少四个无偏人类观察者的接受水平,并且其中所述基准真值(140)包括至少五个不同的接受水平或由其组成。
7.根据前述权利要求中任一项所述的方法(100),其中,所述安全文件(110,A)是钞票,其中在步骤a)中分别包括所述钞票的正面图像(A2)和反面图像(A3)的两个数字图像被提供,并且其中在步骤b)中每个正类数字训练图像(125,B1-1)具有变更的视觉影响使得无偏人类观察者将相应数字训练图像(125,B1-1)的仿制品视为表示安全文件(110,A)或多个安全文件(110,A)的正面图像(A2)和/或反面图像(A3)。
8.根据前述权利要求中任一项所述的方法(100),其中,所述方法使用具有一个或多个神经层的深度神经网络(150)来执行,特别地,其中每层独立于其他层表现出若干神经元和/或其中每层具有分支或非分支的架构结构。
9.根据前述权利要求中任一项所述的方法(100),其中,所述基于人工智能的神经网络(150)包括机器学习能力。
10.根据前述权利要求中任一项所述的方法(100),其中,所述方法(100)针对多个安全文件(110,A)的闭合集合被执行,其中所述基于人工智能的神经网络(150)针对所述安全文件(110,A)的闭合集合的每个安全文件(110,A)被训练。
11.根据前述权利要求中任一项所述的方法(100),其中,所述神经网络(150)使用残差神经网络,其额外地利用了跳过连接和/或捷径以跳过至少一层,优选地其中所述残差神经网络包含50层或更多层;或者使用inception网络,其结合具有不同核大小的卷积,优选具有3×3核的两个卷积;或者使用DenseNet,其使用密集块,其中每层接收来自所有先前层的输入,优选是具有121层的DenseNet。
12.根据权利要求11所述的方法(100),其中,通用图像数据集还被提供,并且在利用步骤a)和步骤b)的数字图像(120)进行训练所述神经网络之前,所述神经网络(150)利用大的通用图像数据集进行预训练。
13.根据权利要求11或12所述的方法(100),其中,步骤a)和步骤b)的所述数字图像(120)被提供有相同的标准化大小,优选地其中在预训练的情况下步骤a)和步骤b)的所述数字图像(120)被提供有与用于预训练的图像数据相同的标准化大小,优选地其中图像大小是(64,128)、(128,256)、(192,384)、(256,512)或(299,299)中的一个,更优选地(64,128)。
14.根据前述权利要求中任一项所述的方法(100),其中,所述方法(100)在步骤a)和步骤b)中使用总计8个或更多个、16个或更多个、或32个或更多个数字图像(120)的批量大小。
15.根据前述权利要求中任一项所述的方法(100),其中,所述方法(100)使用0.005、0.01、0.5或0.1中的一个的学习率,优选地0.005。
16.根据前述权利要求中任一项所述的方法(100),其中,所述方法(100)使用步骤b)的图像分类器的集成。
17.根据前述权利要求中任一项所述的方法(100),其中,所述方法(100)另外使用一个或多个文本分类器。
18.根据权利要求17所述的方法(100),其中,所述方法(100)使用所述一个或多个文本分类器的集成。
19.一种用于在不认证安全特征的情况下对至少一个安全文件(110,A)的复制防止的计算机实施的方法(200),包括或由以下组成:
a)提供数字样本图像(210,C1),
b)应用基于人工智能的神经网络(150),以将所述数字样本图像(210,C1)
分类成第一类别或第二类别,其中所述神经网络(150)根据权利要求1至18中任一项所述的方法(100)来训练,
其中,如果所述神经网络(150)确定所述数字样本图像(210,C1)的至少一部分的仿制品能被无偏人类观察者视为表示至少一个安全文件(110,
A)或多个安全文件(110,A),则所述数字样本图像(210,C1)被分类成第一类别,
其中,如果所述神经网络(150)确定针对所述数字样本图像(210,C1)的任何部分的仿制品都不能被无偏人类观察者视为表示至少一个安全文件(110,A)或多个安全文件(110,A),则所述数字样本图像(210,C1)被分类成第二类别,以及
c)如果所述神经网络(150)将所述数字样本图像(210,C1)分类成第一类别,则防止所述数字样本图像(210,C1)被仿制。
20.根据权利要求19所述的方法(200),其中,所述数字样本图像(210,C1)与所述安全文件(110,A)的数字图像(A1)相比有所变更,其中所述变更后的数字样本图像(210,C1)与所述安全文件(110,A)的数字图像(A1)在透视角、底层照明、着色、褶皱或折痕中的至少一个方面不同。
21.根据权利要求19和20中任一项所述的方法(200),其中,所述安全文件(110,A)包括一个或多个图形设计特征,特别是肖像或建筑形象或自然图形图像,其中所述数字样本图像(210,C1)与所述安全文件(110,A)的数字图像(110,A)的不同之处在于至少一个设计特征被不同的设计特征替代,特别是不同的肖像或不同的建筑形象或不同的自然图形图像。
22.根据权利要求19至21中任一项所述的方法(200),其中,所述安全文件(110,A)包括正面和反面,并且其中,在权利要求19的步骤b)中,如果所述神经网络(150)确定所述数字样本图像(210,C1)的至少一部分的仿制品能被无偏人类观察者视为表示安全文件(110,A)或多个安全文件的正面和/或反面,则所述数字样本图像(210,C1)被分类成第一类别,其中,在权利要求19的步骤b)中,如果所述神经网络(150)确定用于所述数字样本图像(210,C1)的任何部分的仿制品都不能被无偏人类观察者视为表示安全文件(110,A)或多个安全文件(110,A)的正面和/或反面,则所述数字样本图像(210,C1)被分类成第二类别。
23.根据权利要求19至22中任一项所述的方法(200),其中,在权利要求1的步骤c)中,所述基准真值(140)表示接受水平范围,所述接受水平范围包括第一子范围和第二子范围或由其组成,
其中,在权利要求19的步骤b)中,如果所述神经网络(150)根据所述第一子范围确定出以下接受水平,即所述数字样本图像(210,C1)的至少一部分的仿制品能被无偏人类观察者视为表示至少一个安全文件(110,A)或多个安全文件,则所述数字样本图像(210,C1)被分类成所述第一类别,
其中,在权利要求19的步骤b)中,如果所述神经网络(150)根据所述第二子范围确定出以下接受水平,即针对所述数字样本图像(210,C1)的任何部分的仿制品都不能被无偏人类观察者视为表示至少一个安全文件(110,A)或多个安全文件文件(110,A),则所述数字样本图像(210,C1)被分类成第二类别,以及
其中,所述第一子范围大于所述第二子范围。
24.一种钞票检测器(300),其包括通信装置(330)和数据处理单元(335)或由其组成,其中所述通信装置(330)被配置为:接收数字样本图像(210,325,C1)并且将所述数字样本图像(210,325,C1)提供给所述数据处理单元(335),其中所述数据处理单元(335)被配置为:执行根据权利要求19至23中任一项所述的方法(200),并且其中所述钞票检测器(300)被配置为:防止所述数字样本图像(210,325,C1)的仿制。
25.根据权利要求24所述的钞票检测器(300),其中,所述钞票检测器(300)是软件实施的,并且
其中,所述钞票检测器(300)被包括在用于仿制所述数字样本图像(210,325,C1)的设备内,或者其中所述钞票检测器(300)被配置作为基于云或基于服务器的应用。
26.根据权利要求24和25中任一项所述的钞票检测器(300),其中,所述钞票检测器(300)还被配置为:如果所述数字样本图像(210,325,C1)在权利要求19的步骤b)中被分类成第一类别,则在真实性方面评估所述数字样本图像(210,325,C1),其中所述数字样本图像(210,325,C1)在所述至少一个安全文件(110,A)中包括的至少一个安全特征方面被评估。
27.根据权利要求26所述的钞票检测器(300),其中,所述数字样本图像(210,325,C1)在所述至少一个安全文件(110,A)中包括的用于复制防止的至少一个图像安全特征方面被认证。
28.一种计算机程序产品(400),包括或由指令组成,当程序由数据处理单元执行时,致使所述数据处理单元执行根据权利要求19的步骤b)。
CN202180091117.3A 2020-11-24 2021-05-25 数字样本图像的复制防止 Pending CN116802696A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20209547.7 2020-11-24
EP20209547.7A EP4002196A1 (en) 2020-11-24 2020-11-24 Copy prevention of digital sample images
PCT/EP2021/063914 WO2022111864A1 (en) 2020-11-24 2021-05-25 Copy prevention of digital sample images

Publications (1)

Publication Number Publication Date
CN116802696A true CN116802696A (zh) 2023-09-22

Family

ID=73597798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180091117.3A Pending CN116802696A (zh) 2020-11-24 2021-05-25 数字样本图像的复制防止

Country Status (6)

Country Link
US (1) US20240112484A1 (zh)
EP (2) EP4002196A1 (zh)
JP (1) JP2024500641A (zh)
CN (1) CN116802696A (zh)
CA (1) CA3198527A1 (zh)
WO (1) WO2022111864A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484905B (zh) * 2023-06-20 2023-08-29 合肥高维数据技术有限公司 针对非对齐样本的深度神经网络模型训练方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6449377B1 (en) 1995-05-08 2002-09-10 Digimarc Corporation Methods and systems for watermark processing of line art images
JPH07143334A (ja) * 1993-11-18 1995-06-02 Fuji Xerox Co Ltd カラー複写機における複写禁止原稿検出装置
US5845008A (en) 1994-01-20 1998-12-01 Omron Corporation Image processing device and method for identifying an input image, and copier scanner and printer including same
US10217179B2 (en) * 2016-10-17 2019-02-26 Facebook, Inc. System and method for classification and authentication of identification documents using a machine learning based convolutional neural network

Also Published As

Publication number Publication date
US20240112484A1 (en) 2024-04-04
WO2022111864A1 (en) 2022-06-02
JP2024500641A (ja) 2024-01-10
CA3198527A1 (en) 2022-06-02
EP4252147A1 (en) 2023-10-04
EP4002196A1 (en) 2022-05-25

Similar Documents

Publication Publication Date Title
US20220406029A1 (en) Tamper detection for identification documents
Douglas et al. An overview of steganography techniques applied to the protection of biometric data
CN108304858B (zh) 对抗样本识别模型生成方法、验证方法及其系统
Wojtowicz et al. Digital images authentication scheme based on bimodal biometric watermarking in an independent domain
Roy et al. Authentication of currency notes through printing technique verification
Zhao et al. A transferable anti-forensic attack on forensic CNNs using a generative adversarial network
CN116802696A (zh) 数字样本图像的复制防止
Stamm et al. Anti-forensic attacks using generative adversarial networks
An et al. Benchmarking the Robustness of Image Watermarks
Ponishjino et al. Bogus currency authorization using HSV techniques
CN112907431A (zh) 一种对对抗隐写鲁棒的隐写分析方法
WO2021102770A1 (zh) 用于验证产品的真伪的方法和设备
Diong et al. Document authentication using 2D codes: Maximizing the decoding performance using statistical inference
CN113077355B (zh) 保险理赔方法、装置、电子设备及存储介质
Hassan et al. A survey on techniques of detecting identity documents forgery
Tkachenko Generation and analysis of graphical codes using textured patterns for printed document authentication
Thepade et al. Image Forgery Detection using Machine Learning with Fusion of Global and Local Thepade's SBTC Features
Yu et al. Two strategies to optimize the decisions in signature verification with the presence of spoofing attacks
Nastoulis et al. Banknote recognition based on probabilistic neural network models.
Luo et al. Defective Convolutional Networks
Ge et al. Least significant bit steganography detection with machine learning techniques
Liu et al. Adversarial Attacks in Banknote Recognition Systems
Cu On the use of pattern recognition technique to develop data hiding schemes: application to document security
Shahmoradi et al. Intelligent Image Watermarking based on Handwritten Signature
Yang et al. The Investigation on Adversarial Attacks of Adversarial Samples Generated by Filter Effects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination