CN117422945A

CN117422945A - 训练样本生成方法、电子设备及计算机存储介质

Info

Publication number: CN117422945A
Application number: CN202311355152.9A
Authority: CN
Inventors: 单一
Original assignee: Uc Mobile Co ltd
Current assignee: Uc Mobile Co ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2024-01-19

Abstract

本申请实施例提供了一种训练样本生成方法、电子设备及计算机存储介质。训练样本生成方法，包括：获取进行了滤镜处理后的第一扫描文档图像；为所述第一扫描文档图像生成具有多个标志位的图像蒙板，其中，不同的标志位携带有不同的编码信息；获取物理图像采集设备对所述图像蒙板进行图像采集而获得的第二扫描文档图像；基于所述多个标志位，对所述图像蒙板和所述第二扫描文档图像进行图像匹配，基于匹配后的图像蒙板和第二扫描文档图像，生成训练样本对。通过本申请实施例生成的训练样本对，可以在数据分布上和真实的样本分布更为接近，提升机器学习模型的训练效果。

Description

训练样本生成方法、电子设备及计算机存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种训练样本生成方法、电子设备及计算机存储介质。

背景技术

随着计算机技术的发展，在人们的日常生活和工作中经常有需要电子扫描文件的情况，例如，书籍电子化、发票报销、工作文档扫描打印、证件材料扫描件等等应用场景。

因专业的扫描仪价格昂贵，扫描软件应运而生。通过扫描软件，用户可以随时随地实现方便、低成本的文件扫描。伴随着扫描软件的广泛使用，扫描场景也越来越多样化，这就要求扫描软件能够不断地迭代更新，以适应新场景需求。但扫描软件的迭代更新，需要以大量的各种扫描场景下的训练样本为前提。为此，在现有的一种方式中，利用专业的渲染软件(如unity3D等)搭建虚拟的光照环境，其可以包含不同的光源、不同的遮挡物、不同的纹理背景等，通过变换光源的位置、强弱、色温等再搭配不同的遮挡物以及纸面纹理来模拟用户扫描文件的场景，以使生成的扫描图像较为逼真。但这种方式中，一是这类专业渲染软件使用门槛较高，需要长时间的调试与学习才能达到一定的模拟效果，时间成本也较大，造成整体实现成本较高；二是这类专业渲染软件模拟生成的扫描图像在数据分布上和真实的样本分布存在比较大的偏差，从而导致虽然实现软件扫描的机器学习模型在模拟的训练样本上效果很好，但在真实数据上却效果很差。

发明内容

有鉴于此，本申请实施例提供一种训练样本生成方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种训练样本生成方法，包括：获取进行了滤镜处理后的第一扫描文档图像；为所述第一扫描文档图像生成具有多个标志位的图像蒙板，其中，不同的标志位携带有不同的编码信息；获取物理图像采集设备对所述图像蒙板进行图像采集而获得的第二扫描文档图像；基于所述多个标志位，对所述图像蒙板和所述第二扫描文档图像进行图像匹配，基于匹配后的图像蒙板和第二扫描文档图像，生成训练样本对。

根据本申请实施例的第二方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述方法对应的操作。

根据本申请实施例的第三方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的方法。

根据本申请实施例提供的方案，基于第一扫描文档图像生成图像蒙板，再通过物理图像采集设备对该图像蒙板进行图像采集，获得与图像蒙板对应的拍摄的真实第二扫描文档图像，再基于标志位，对图像蒙板和第二扫描文档图像进行匹配，并将两者结合成训练样本对，以便后续对实现软件扫描的机器学习模型进行训练。一方面，因第二扫描文档图像为通过物理图像采集设备采集的图像，无需采取参数调整的方式生成，本身即为真实图像，因此，也不需要需要相应人员的长时间的调试和学习，时间成本低，训练样本生成的整体实现成本也较低。另一方面，进行了滤镜处理后的第一扫描文档图像为背景较为干净的图像，第二扫描文档图像为对基于第一扫描文档图像生成的图像蒙板拍摄的真实图像，其背景为真实背景，可能包含有较多的干扰和噪声数据，将图像蒙板和第二扫描文档图像结合为训练样本对，来对实现软件扫描的机器学习模型进行训练，可以在数据分布上和真实的样本分布更为接近，提升机器学习模型的训练效果，及后续在真实数据上的表现。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为适用本申请实施例方案的示例性系统的示意图。

图2为根据本申请实施例的一种训练样本生成方法的步骤流程图。

图3为本申请的“对第一扫描文档图像进行去除背景的滤镜处理”的一个可选的子步骤流程图。

图4为本申请的步骤S104的一个可选的子步骤流程图。

图5为本申请的步骤S108的一个可选的子步骤流程图。

图6为本申请的子步骤S1081的一个可选的子步骤流程图。

图7为本申请的子步骤S1081C的一个可选的子步骤流程图。

图8为本申请实施例中的一种场景示例的示意图。

图9为根据本申请实施例的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

图1示出了一种适用本申请实施例方案的示例性系统。如图1所示，该系统100可以包括云服务端102、通信网络104和/或一个或多个用户设备106，图1中示例为多个用户设备。需要说明的是，本申请实施例的方案可以由云服务端102独立完成，或者，也可以由具有较高软硬件性能的用户设备106独立完成。

云服务端102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的设备，包括但不限于分布式存储系统设备、服务器集群、计算云服务端集群等。在一些实施例中，云服务端102可以执行任何适当的功能。例如，当由云服务端102独立完成本申请实施例的方案时，在一些实施例中，云服务端102可以用于生成用于对实现软件扫描的机器学习模型进行训练的训练样本对。作为可选的示例，在一些实施例中，云服务端102可以先获取进行了滤镜处理后的第一扫描文档图像；进而，可为第一扫描文档图像生成具有多个标志位的图像蒙板，其中，不同的标志位携带有不同的编码信息；再获取物理图像采集设备对图像蒙板进行图像采集而获得的第二扫描文档图像；再基于多个标志位，对图像蒙板和第二扫描文档图像进行图像匹配，基于匹配后的图像蒙板和第二扫描文档图像，生成训练样本对。在一些实施例中，云服务端102在生成训练样本对后，可以利用训练样本对对用于实现软件扫描的机器学习模型进行训练。在训练完成后，云服务端102可以接收用户设备106发送的背景不干净的扫描图像，并通过机器学习模型对其进行处理，以生成背景干净的扫描图像，再返回给用户设备106。

在一些实施例中，通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络104能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(Wide Area Network，WAN)、局域网(Local Area Network,LAN)、无线网络、数字订户线路(Digital Subscriber Line，DSL)网络、帧中继网络、异步转移模式(AsynchronousTransfer Mode,ATM)网络、虚拟专用网(Virtual Private Network，VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如，通信链路112)连接到通信网络104，该通信网络104能够经由一个或多个通信链路(例如，通信链路114)被链接到云服务端102。通信链路可以是适合于在用户设备106和云服务端102之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

用户设备106可以包括适合于呈现图像、与用户交互等的任何一个或多个用户设备。当由用户设备106独立完成本申请实施例的方案时，用户设备106可以用于生成用于对实现软件扫描的机器学习模型进行训练的训练样本对。作为可选的示例，在一些实施例中，用户设备106可以先获取进行了滤镜处理后的第一扫描文档图像；进而，可为第一扫描文档图像生成具有多个标志位的图像蒙板，其中，不同的标志位携带有不同的编码信息；再获取物理图像采集设备对图像蒙板进行图像采集而获得的第二扫描文档图像；再基于多个标志位，对图像蒙板和第二扫描文档图像进行图像匹配，基于匹配后的图像蒙板和第二扫描文档图像，生成训练样本对。在一些可选的实施例中，用户设备106可以将生成的训练样本对发送至云服务端102，以对云服务端102中的用于生成实现软件扫描的机器学习模型进行训练。在一些实施例中，用户设备106可以包括任何合适类型的设备。例如，在一些实施例中，用户设备106可以包括移动设备、平板计算机、膝上型计算机、台式计算机和/或任何其他合适类型的用户设备。

基于上述系统，本申请实施例提供了一种训练样本生成方案，以下通过多个实施例进行说明。

图2为根据本申请实施例的一种训练样本生成方法的步骤流程图。根据本申请中的第一方面，提供了一种训练样本生成方法，参照图2所示，该方法包括步骤S102、S104、S106和S108，具体地：

S102：获取进行了滤镜处理后的第一扫描文档图像。

本申请中，需首先对第一扫描文档图像进行滤镜处理，以获得背景较为干净的图像。

其中，第一扫描文档图像可以是通过任意适当方式(如人工拍摄、图像生成或合成软件或初次训练后的扫描软件等)获得的文档图像(文档可以包括但不限于书籍、发票、合同、营业执照、工作文档、证件材料、身份证、驾驶证等)。例如，以文件为发票进行举例，则第一扫描文档图像可以以如下方式得到：用户将需要扫描的发票置于支撑物(例如桌面等)上或者持于手上，然后使用移动终端的上的摄像头从朝向发票的方向拍摄发票，从而得到相应的第一扫描文档图像。当然，这只是一个示例，并不作为对本申请中的任何限制。应理解，这种情况下，第一扫描文档图像可以是在有需要的时候进行拍摄得到然后直接获取，也可以是事先进行拍摄得到，然后将第一扫描文档图像存储到一个预定的存储空间(包括但不限于磁盘、硬盘、存储器等存储介质，也可以是数据库等)中，在需要时直接从存储空间中获取，对此本申请中不进行任何限制。

或者，第一扫描文档图像也可以是通过预先生成的电子档文件得到的，例如可以是通过软件打印或者软件扫描得到。电子档文件可以是pdf格式，或者也可以是别的文件格式。电子档文件可以包括一个或者多个页面，或基于这些页面生成第一扫描文档图像。类似地，该种方式生成的第一扫描文档图像也可以先存储到一个预定的存储空间(包括但不限于磁盘、硬盘、存储器等存储介质，也可以是数据库等)中，在需要时直接从存储空间中获取，对此本申请中不进行任何限制。

在获得了第一扫描图像后，可对第一扫描图像进行滤镜处理。本申请中不限定对第一扫描图像进行的滤镜处理的具体实现方式，可以进行任意方式的滤镜处理，包括但不限于：机器学习模型方式、图像增强方式等等。

在一些可选的实施例中，参照图3所示的流程图，步骤S102可以包括：对第一扫描文档图像进行去除背景的滤镜处理，以获得背景色为纯色的第一扫描文档图像。通过这样的方式，可以便于后续使用背景色为纯色的第一扫描文档图像进行数据处理，降低计算量。

可选地，纯色背景可以是白色背景，白色背景与实际的扫描文件背景更为贴近，更方便后续处理，降低计算量。

在一些可选的实施例中，“对第一扫描文档图像进行去除背景的滤镜处理”包括如下子步骤S1021和S1022，具体地：

S1021：对第一扫描文档图像进行目标内容检测，根据检测结果确定对应的目标内容区域。

在第一扫描文档图像中，通常包括一种或者多种类型的目标内容，目标内容通常可为有实际意义的信息内容。例如，目标内容可以包括但不限于文字类型内容、图表类型内容和色块图案类型内容中的至少之一。此外，本申请中不对文字类型内容、图表类型内容、色块图案类型内容进行具体限定，例如可参照如下说明进行示意性理解，文字可以包括但不限于汉字、阿拉伯数字、英文文字等；图表可以包括但不限于柱状图、饼状图、折线图、表格等；色块图案可以包括任意的规则色块图案或者不规则色块图案。

本申请中，可以采用任意合适的算法对第一扫描文档图像进行目标内容检测，得到检测结果后，再根据目标检测结果从第一扫描文档图像中确定与检测到的目标内容相应的目标检测区域。

例如，可以先通过目标检测算法先将目标内容(包括但不限于文字类型内容、图表类型内容和色块图案类型内容中的至少之一)检测出来，再进行进一步处理：例如，如果检测出文字类型内容，则可以进行文字识别算法(文字识别算法包括但不限于OCR(OpticalCharacter Recognition，光学字符识别)算法等)来对文字类型内容进行识别，以根据文字识别结果，确定各个文字分别对应的目标内容区域；如果检测出图表类型内容，可以采用图像分割算法来对图表类型内容进行图像分割，以获得图表类型内容对应的目标内容区域；如果检测出色块图案类型内容，可以采用图像分割算法来对色块图案类型内容进行图像分割，以获得色块图案类型内容对应的目标内容区域，例如，图像分割算法包括但不限于语义分割算法、实例分割算法等等。

S1022：将第一扫描文档图像中除目标内容区域之外的、其它区域的像素值置为预设纯色像素值，以获得背景色为纯色的第一扫描文档图像。

确定了目标内容区域后，则可以将除目标内容区域以外的其他区域的像素值置为预设纯色像素值，从而使得原本的第一扫描文档图转变成只包括目标内容(包括但不限于文字类型内容、图表类型内容和色块图案类型内容中的至少之一)的纯色背景的图像。

预设纯色像素值可以按照需要设置，例如以纯色背景为白色背景为例，则可以将预设纯色像素设置为255。在将第一扫描文档图像中除目标内容区域之外的、其它区域的像素值置为255后，可以得到白色背景的第一扫描文档图像。

基于此，本申请中通过上述子步骤S1021～S1022的可选实施方式，可以准确有效地对第一扫描文档图像进行去除背景的滤镜处理，以得到背景色为纯色的第一扫描文档图像，以便于后续使用背景色为纯色的第一扫描文档图像进行数据处理，降低计算量。

但不限于上述方式，其他去除背景的滤镜方式同样可适用于本申请的方案。

在一些可选的实施例中，在子步骤S1021中根据检测结果确定对应的目标内容区域之后，所述训练样本生成方法还包括：对目标内容区域进行掩膜处理，获得对应的目标内容区域掩膜；步骤S1022包括：将第一扫描文档图像中的目标内容掩膜之外的、其它区域的像素值置为预设纯色像素值。

基于此，本申请中通过对目标内容区域进行掩膜处理，获得对应的目标内容区域掩膜，再将第一扫描文档图像中的目标内容掩膜之外的、其它区域的像素值置为预设纯色像素值，可以更准确有效地对第一扫描文档图像进行去除背景的滤镜处理，以得到背景色为纯色的第一扫描文档图像，以便于后续使用背景色为纯色的第一扫描文档图像进行数据处理，降低计算量。

掩膜(即目标内容区域掩膜)的具体获得方式可以由本领域技术人员采用任意适当方式实现，包括但不限于通过用于对图像中的目标对象进行掩模的机器学习模型来获得的方式。此外，可选地，该机器学习模型在输出目标内容区域对应的掩膜时，还可同时输出各个掩膜对应的置信度。可选地，还可以根据各个目标内容区域掩膜的置信度大小确定是否保留相应的目标内容掩膜，从而实现对多个目标内容区域掩膜进行过滤的目的。例如，可以通过判断目标内容区域掩膜的置信度是否大于预设的置信度阈值来实现，若是，则保留，若否，则不保留。基于此可以将置信度较低的目标内容掩膜过滤掉，以保证目标内容掩膜的准确性。

在一些可选的实施例中，在上述可选实施例中，获得对应的目标内容区域掩膜之后，所述训练样本生成方法还包括：对目标内容区域掩膜进行形态学处理；步骤S1022包括：将第一扫描文档图像中的、除进行了形态学处理后的所述目标内容掩膜之外的、其它区域的像素值置为预设纯色像素值。

基于此，本申请中通过对目标内容区域掩膜进行形态学处理，再将第一扫描文档图像中的、除进行了形态学处理后的所述目标内容掩膜之外的、其它区域的像素值置为预设纯色像素值，可以更准确有效地对第一扫描文档图像进行去除背景的滤镜处理，以得到效果更好的背景色为纯色的第一扫描文档图像，以便于后续使用效果更好的背景色为纯色的第一扫描文档图像进行数据处理，降低计算量。

可选地，对目标内容区域掩膜进行形态学处理，可以包括腐蚀处理和膨胀处理中的至少一者。可以按照不同的目标内容区域掩膜的需要，采用不同的形态学参数，进行不同类型的形态学处理，本申请中对此不进行特别限定。

在一些可选的实施例中，所述训练样本生成方法还包括：判断进行去除背景的滤镜处理后的第一扫描文档图像是否满足预定条件，使用满足预定条件的第一扫描文档图像进行后续步骤S104的执行。这里使用预定条件进行判断是为了判断进行去除背景的滤镜处理后的第一扫描文档图像的背景是否已满足要求，变为基本纯色背景，防止进入后续步骤S104中的第一扫描文档图像的背景降低后续处理效果。

其中，预设条件可以按照需要来确定，在此不进行限定。可选地，所述“判断进行去除背景的滤镜处理后的第一扫描文档图像是否满足预定条件”包括：确定进行去除背景的滤镜处理后的第一扫描文档图像的均值，判断均值是否大于预设均值阈值，若是，则满足预定条件，若否，则不满足预定条件。例如，以纯色背景为白色背景为例，预设均值阈值可设定为250(当然也可以设置为与255接近的其他数值，在此不进行限定)，如果计算出进行去除背景的滤镜处理后的第一扫描文档图像的均值大于250，则可认为满足预定条件，若小于250，则可认为不满足预定条件。当然，这只是一个示例，并不作为对本申请中的任何限制。

S104：为第一扫描文档图像生成具有多个标志位的图像蒙板，其中，不同的标志位携带有不同的编码信息。

本申请中标志位可以是任意形式，例如可以包括但不限于标志码、标志点、或者块状的标志区块等。标志位在第一扫描文档图像上的设置位置可以按照需要设置。在一些示例的实施例中，标志位可以根据需求选择QR(Quick Response，快速反应)码来实现，或者采用AprilTags码来实现，或者也可以采用其他方式实现。

不同的标志位携带有不同的编码信息，可以便于后续步骤利用不同的编码信息来通过不同的标志位进行图像匹配。

本申请中不限定步骤S104的具体实现方式，可以通过任意的方式来为第一扫描文档生成具有多个标志位的图像蒙板，在一些可选的实施例中，参照图4所示的流程图，步骤S104包括子步骤S1041和S1042，具体地：

S1041：根据第一扫描文档图像的图像内容形状和图像内容边界信息，为第一扫描文档图像生成多个标志位，其中，多个标志位相连构成的图像凸包能够完整覆盖第一扫描文档图像的图像内容区域。

本申请中，将多个标志位的最外层点连接起来构成凸多边形，则该凸多边形可作为图像凸包。

第一扫描文档的图像内容形状和图像内容边界信息，分别是指第一扫描文档图像中具有实质内容的图像内容的形状和边界信息。如，图像内容可以是第一扫描文档图像中的各个目标内容的整体。根据第一扫描文档图像的图像内容形状和图像内容边界信息，来为第一扫描文档图像生成多个标志位，便于确保多个标志位相连构成的图像凸包能够完整覆盖第一扫描文档图像的图像内容区域，避免图像内容遗漏。

举例来说，如果第一扫描文档图像的图像内容形状近似为矩形，图像内容边界信息近似为矩形边界，则可以将多个标志位分别设置于第一扫描文档图像中图像内容的矩形边界之上或者之外，可以按照需要设置合适数量个标志位，以确保标志位相连构成的图像凸包能够完整覆盖第一扫描文档图像的图像内容区域。当然这个以矩形进行举例的例子仅用于便于理解，并不作为对本申请中的任何限制，也可以是其他规则形状或者不规则形状。

应理解，本申请中不对标志位的个数进行特别限定，通常标志位的数量越多，则后续步骤S106中进行图像匹配时的精度越高。例如，在一些可选的实施例中，所述多个标志位为至少4个标志位。通过至少4个标志位，在能够有效满足需求的基础上，节省处理设置更多标志位的时间，并且可以最大程度降低后续步骤S106进行图像匹配的计算量。例如也可结合图8理解，其示意性地示出了4个标志位的图像蒙板的。

例如，以设置4个标志位为例，4个标志位可以分别设置在第一扫描文档图像的图像内容区域的最小外接矩形的四个角位附近或者外侧，这样可以确保4个标志位相连构成的图像凸包能够完整覆盖第一扫描文档图像的图像内容区域。当然这只是个示例，也可以按照需要自行选择4个标志位的设置位置。

S1042：基于第一扫描文档图像和多个标志位，生成图像蒙板。

本申请中，添加了多个标志位的第一扫描文档图像，即得到图像蒙板。也即，该图像蒙板中既包含有第一扫描文档图像中的图像内容，也包含有标志位。

基于此，本申请中通过子步骤S1041～S1042的可选实施方式，能够准确有效地为第一扫描文档图像生成具有多个标志位的图像蒙板，以便于后续步骤进行数据处理。

S106：获取物理图像采集设备对图像蒙板进行图像采集而获得的第二扫描文档图像。

本申请中，物理图像采集设备可以包括任意带有摄像头的电子设备，例如可包括但不限于相机、手机、电脑、平板电脑等中的至少之一。可以使用物理图像采集设备通过其摄像头对图像蒙板进行拍摄，实现图像采集，以获得第二扫描文档图像。

通过步骤S106，便于利用最真实的拍摄环境得到第二扫描文档图像，较好地解决样本分布问题的同时，在用后续生成的训练样本对对机器学习模型进行训练时，还能让机器学习模型具有较好的泛化性。

在一些可选的实施例中，步骤S106包括：获取物理图像采集设备对输出至物理介质上的图像蒙板进行图像采集而获得的第二扫描文档图像。

基于此，本申请中通过这样的方式，可以有效地采集和获得真实的第二扫描文档图像，无需采取参数调整的方式生成，因此，不需要需要相应人员的长时间的调试和学习，时间成本低，训练样本生成的整体实现成本也较低。

本申请中，物理媒介包括但不限于屏幕显示器、真实的纸张、幕布等。例如，以物理图像采集设备为手机为例，则可以通过将图像蒙板通过屏幕显示的方式在输出在屏幕显示器(包括但不限于电脑屏幕、电视屏幕、手机屏幕等等)上，再通过手机进行拍摄以采集屏幕显示器上的完整的包括标志位的图像蒙板，从而得到第二扫描文档图像，另外，在拍摄的同时可以通过变换手机的位置与拍摄角度，可得到带不同摩尔纹效果的真实的第二扫描文档图像。或者，可以通过将图像蒙板通过打印的方式输出到真实的纸张上，再通过手机进行拍摄以采集纸张上的完整的包括标志位的图像蒙板，从而得到第二扫描文档图像，另外，在拍摄的同时可以通过变换手机的位置与拍摄角度，可得到带不同效果的真实的第二扫描文档图像。又或者，可以通过将图像蒙板通过投影的方式输出到幕布上，再通过手机进行拍摄以采集幕布上的完整的包括标志位的图像蒙板，从而得到第二扫描文档图像，另外，在拍摄的同时可以通过变换手机的位置与拍摄角度，可得到带不同效果的真实的第二扫描文档图像。应理解，以上说明仅作为示例，并非对本申请中的任何限制。

或者，也可以采用其他可行的方式来得到第二扫描文档图像，以便于后续步骤进行处理，以得到需要的训练样本对，本申请对此不进行限制。

当然，具体采用哪种或者哪些物理媒介可以依据需要确定，本申请不对此进行限定。例如，一种实施方式中，可以根据前文进行的滤镜处理的不同类型来选择不同的物理媒介，以生成不同的训练样本对。

通过采集到的真实的第二扫描文档图像(例如包括带摩尔纹效果的第二扫描文档图像)，并根据其得到训练样本对对机器学习模型进行训练，也有利于拓展机器学习模型的能力。

S108：基于多个标志位，对图像蒙板和第二扫描文档图像进行图像匹配，基于匹配后的图像蒙板和第二扫描文档图像，生成训练样本对。

由于第二扫描文档图像基于图像蒙板采集得到，因此图像蒙板上的多个标志位在第二扫描文档图像上同样存在，第二扫描文档图像上的多个标志位与图像蒙板的多个标志位一一对应，因此可以基于多个标志位实现对图像蒙板和第二扫描文档图像的图像匹配，进而可基于匹配后的图像蒙板和第二扫描文档图像，生成需要的训练样本对，以便于对用于实现软件扫描的机器学习模型进行训练，提高机器学习模型的训练效果。

基于上述步骤S102～S108的可选实施方式，可以基于第一扫描文档图像生成图像蒙板，再通过物理图像采集设备对该图像蒙板进行图像采集，获得与图像蒙板对应的拍摄的真实第二扫描文档图像，再基于标志位，对图像蒙板和第二扫描文档图像进行匹配，并将两者结合成训练样本对，以便后续对实现软件扫描的机器学习模型进行训练。一方面，因第二扫描文档图像为通过物理图像采集设备采集的图像，无需采取参数调整的方式生成，本身即为真实图像，因此，也不需要需要相应人员的长时间的调试和学习，时间成本低，训练样本生成的整体实现成本也较低。另一方面，进行了滤镜处理后的第一扫描文档图像为背景较为干净的图像，第二扫描文档图像为对基于第一扫描文档图像生成的图像蒙板拍摄的真实图像，其背景为真实背景，可能包含有较多的干扰和噪声数据，将图像蒙板和第二扫描文档图像结合为训练样本对，来对实现软件扫描的机器学习模型进行训练，可以在数据分布上和真实的样本分布更为接近，提升机器学习模型的训练效果，及后续在真实数据上的表现。

本申请中不限定步骤S108的具体实现方式，在一些可选的实施例中，参照图5所示的流程图，步骤S108包括子步骤S1081、S1082和S1083，具体地：

S1081：基于多个标志位，对图像蒙板和第二扫描文档图像进行图像匹配。

可选地，可以先将图像蒙板中的多个标志位和第二扫描文档图像的多个标志位进行匹配，再基于匹配结果实现图像蒙板和第二扫面文档图像的图像匹配。

在一些可选的实施例中，参照图6所示的流程图，子步骤S1081包括如下子步骤S1081A、S1081B和S1081C，具体地：

S1081A：分别提取图像蒙板中的多个第一标志位和第二扫描文档图像中的多个第二标志位。

为便于说明，本实施例中，使用第一标志位来指示图像蒙板中的标志位，使用第二标志位来指示第二扫描文档图像中的标志位。则，可选地，可以分别提取图像蒙板中的多个第一标志位的第一坐标、以及第二扫描文本图像中的多个第二标志位的第二坐标，从而实现分别从图像蒙板中提取到多个第一标志位、以及从第二扫描文档图像中提取到多个第二标志位。对标志位的提取可采用任意适当方式实现，包括但不限于标志位检测或识别算法，用于提取目标对象(本示例中为标志位)的机器学习模型等。

S1081B：根据标志位的编码信息，对多个第一标志位和多个第二标志位进行匹配，获得多对匹配标志位对。

可选地，可以确定编码信息的指示，确定处于两张图像中相同位置的第一标志位和第二标志位，并分别进行匹配，从而获得多对匹配标志位对。

例如，如果图像蒙板中包括4个第一标志位，第二扫描文档图像中也包括4个第二标志位，4个第一标志位和4个第二标志位一一对应，则匹配得到4对匹配标志位对。其余情况可以以此类推。

S1081C：基于多对匹配标志位对，对图像蒙板和第二扫描文档图像进行图像匹配。

在得到多对匹配标志位对的基础上，可以利用多对匹配标志位对进行计算，采用任意合适的图像匹配算法，将图像蒙板和第二扫描文档图像进行图像匹配，以达到目标效果。

基于此，本申请中通过上述子步骤S1081A～S1081C的可选实施方式，能够更精准有效地实现基于多个标志位对图像蒙板和第二扫描文档图像进行图像匹配。

当然，本申请中并不限制子步骤S1081C的具体实现方式，在一些可选的实施例中，参照图7所述的流程图，子步骤S1081C包括如下子步骤S1081C1和S1081C2，具体地：

S1081C1：基于多对匹配标志位对，解算图像蒙板和第二扫描文档图像之间的单应性矩阵。

可选地，可以基于多对匹配标志位对进行单应性变换，根据单应性变换的结果解算得到单应性矩阵。单应性(Homography)变换是计算机视觉领域常用的一种变换方法，是一种将平面上的点映射到另一个平面上的方法，其目的是为了实现图像的几何变换，将一张图像上的点都映射到另一张图像上去，可以简单的理解为它用来描述物体在世界坐标系和像素坐标系之间的位置映射关系，单应性变换对应的变换矩阵即为单应性矩阵。

例如，以图8中的图像蒙板和第二扫描文档图像进行示例性理解，图像蒙板包括4个第一标志位，第二扫描文档图像包括4个第二标志位，4个第一标志位和4个第二标志位一一对应，共有4对匹配标志位对。则通过同样的单应性变换，也就是使用同样的单应性矩阵，可以使得4个第一标志位中的每个第一标志位分别对应地变换到与该第一标志位形成匹配标志位对的第二标志位上，因此，可以通过单应性变换算法进行计算，以实现基于4对匹配标志位对，解算图像蒙板和第二扫描文档图像之间的单应性矩阵。

S1081C2：根据解算结果，将第二扫描文档图像投影至图像蒙板，以进行图像蒙板和第二扫描文档图像的图像匹配。

在得到单应性矩阵的解算结果后，可以通过单应性矩阵作为变换参数将第二扫描文档图像投影至图像蒙板，实现将图像蒙板和第二扫描文档图像的图像匹配。

基于此，本申请中通过上述子步骤S1081C1～S1081C2，先基于匹配标志位对，解算图像蒙板和第二扫描文档图像之间的单应性矩阵，再根据解算结果，将第二扫描文档图像投影至图像蒙板，从而可以更精准有效地实现对图像蒙板和第二扫描文档图像进行图像匹配。

S1082：根据匹配结果，对图像蒙板和第二扫描文档图像进行相同图像区域裁切。

图像匹配完成后，可以将图像蒙板和第二扫描文档图像进行相同图像区域裁切，得到两个裁切图像，从图像蒙板上裁切出来的裁切图像的背景较为干净，而从第二扫描文档图像上裁切出来的裁切图像则为真实背景，可能包含较多干扰和噪声数据，从而便于后续基于两个裁切图像生成训练样本对。

可选地，进行相同区域裁切时，可以是裁切图像的主体区域，也即，可以将图层蒙板和第二扫描文档图像的图像内容(图像内容可以是指相应图像中的各个目标内容的整体)全部裁切下来，以尽可能地保留图层蒙板和第二扫描文档图像中的图像内容细节。

在一些可选的实施例中，步骤S1082包括：基于多对匹配标志位对的位置对应关系，确定图像蒙板和第二扫描文档图像中相同的图像区域；并分别对图像蒙板和第二扫描文档图像中的相同的图像区域进行裁切。

本申请中通过这样的方式，可精准有效地实现对图像蒙板和第二扫描文档图像进行相同图像区域裁切，以便于后续生成训练样本对。

S1083：基于裁切后的图像蒙板和第二扫描文档图像，生成训练样本对。

在将图像蒙板和第二扫描文档图像进行的裁切后，可以根据裁切得到的相同图像区域的两个裁切图像，生成训练样本对。例如，可以是直接将裁切得到的相同图像区域的两个裁切图像作为训练样本，也可以继续对裁切得到的相同图像区域的两个裁切图像进行进一步处理，再作为训练样本。

基于此，本申请中通过上述子步骤S1081～S1083，可以更加精准有效地实现对图像蒙板和第二扫描文档图像的图像匹配，进而可基于匹配后的图像蒙板和第二扫描文档图像，生成效果更好的训练样本对，以便于对用于实现软件扫描的机器学习模型进行训练，提高机器学习模型的训练效果。

在一些可选的实施例中，所述训练样本生成方法还包括：基于训练样本对，对用于实现软件扫描的机器学习模型进行训练。

通过本申请技术方案得到的训练样本，对用于实现软件扫描的机器学习模型进行训练，可以在数据分布上和真实的样本分布更为接近，从而提升机器学习模型的训练效果，及后续在真实数据上的表现。另外，由于通过本申请中的技术方案可以高效生成不同的训练样本对，避免了繁重的样本标注与人工操作的过程，因此也方便于提高机器学习模型的泛化性，并快速地且针对性地帮助机器学习模型进行迭代。

图8示出了本申请实施例中的一种场景示例的示意图。再结合图8所示对本申请实施例中的训练样本生成方法进行整体理解。参照图8所示，本申请中的步骤S102：“获取进行了滤镜处理后的第一扫描文档图像”，进行了滤镜处理后的第一扫描文档图像中，除文字类型内容、图表类型内容和色块图案类型内容以外，被处理成纯色背景(例如纯白色背景)；之后经过步骤S104，为进行了滤镜处理后的第一扫描文档图像生成具有多个标志位的图像蒙板，其中，不同的标志位携带有不同的编码信息，图8示例中，添加了4个标志位，且4个标志位相连构成的图像凸包能够完整覆盖第一扫描文档图像的图像内容区域；本申请中的步骤S106：“获取物理图像采集设备对图像蒙板进行图像采集而获得的第二扫描文档图像”，基于图像蒙板得到第二扫描文档图像，第二扫描文档图像为通过物理图像采集设备采集的图像，无需采取参数调整的方式生成，本身即为真实图像，因此，也不需要需要相应人员的长时间的调试和学习，时间成本低，训练样本生成的整体实现成本也较低；之后再利用步骤S104得到的图像蒙板和步骤S106得到的第二扫描文档图像，经过步骤S108，基于多个标志位，对图像蒙板和第二扫描文档图像进行图像匹配，基于匹配后的图像蒙板和第二扫描文档图像，生成训练样本对，图8示例中，对训练样本对中的靠左的图像由图像蒙板裁切得到，靠右的图像由第二扫描文档图像裁切得到，图像蒙板和第二扫描文档图像进行了相同图像区域裁切。应理解，图8所示场景示例，仅用于便于理解本申请实施例，并不作为对本申请中的任何限制。

综上所述，本申请实施例中提供的方案，可以基于第一扫描文档图像生成图像蒙板，再通过物理图像采集设备对该图像蒙板进行图像采集，获得与图像蒙板对应的拍摄的真实第二扫描文档图像，再基于标志位，对图像蒙板和第二扫描文档图像进行匹配，并将两者结合成训练样本对，以便后续对实现软件扫描的机器学习模型进行训练。一方面，因第二扫描文档图像为通过物理图像采集设备采集的图像，无需采取参数调整的方式生成，本身即为真实图像，因此，也不需要需要相应人员的长时间的调试和学习，时间成本低，训练样本生成的整体实现成本也较低。另一方面，进行了滤镜处理后的第一扫描文档图像为背景较为干净的图像，第二扫描文档图像为对基于第一扫描文档图像生成的图像蒙板拍摄的真实图像，其背景为真实背景，可能包含有较多的干扰和噪声数据，将图像蒙板和第二扫描文档图像结合为训练样本对，来对实现软件扫描的机器学习模型进行训练，可以在数据分布上和真实的样本分布更为接近，提升机器学习模型的训练效果，及后续在真实数据上的表现。

可以理解的是，前述对训练样本生成方法进行的说明，仅作为对本申请的一些示例性的说明，并不作为对本申请的任何限制。

根据本申请实施例的第二方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述方法对应的操作。参照图9，示出了根据本申请实施例的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图9所示，该电子设备900可以包括：处理器(processor)902、通信接口(Communications Interface)904、存储器(memory)906、以及通信总线908。

其中：

处理器902、通信接口904、以及存储器906通过通信总线908完成相互间的通信。

通信接口904，用于与其它电子设备或服务器进行通信。

处理器902，用于执行程序910，具体可以执行上述训练样本生成方法实施例中的相关步骤。

具体地，程序910可以包括程序代码，该程序代码包括计算机操作指令。

处理器902可能是CPU，或者是GPU(Graphic Processing Unit，图形处理器)或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器906，用于存放程序910。存储器906可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序910可包括多条计算机指令，程序910具体可以通过多条计算机指令使得处理器902执行前述多个方法实施例中任一实施例所描述的训练样本生成方法对应的操作。

程序910中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，并具有相应的有益效果，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

根据本申请实施例的第三方面，本申请实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述多个方法实施例中任一实施例所描述的方法。该计算机存储介质包括但不限于：只读光盘(Compact Disc Read-Only Memory，CD-ROM)、随机存储器(Random Access Memory，RAM)、软盘、硬盘或磁光盘等。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一训练样本生成方法对应的操作。

本申请实施例中的电子设备900/计算机存储介质/计算机程序产品实施例，在前述的训练样本生成方法实施例中已经详细说明，因此其相关内容及有益效果可参照上述的方法实施例进行理解，在此不再进行赘述。

此外，需要说明的是，本申请实施例所涉及到的与用户有关的信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于对模型进行训练的样本数据、用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD-ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如专用集成电路(Application Specific Integrated Circuit，ASIC)或现场可编辑门阵列(Field Programmable Gate Array，FPGA))的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，随机存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种训练样本生成方法，包括：

获取进行了滤镜处理后的第一扫描文档图像；

为所述第一扫描文档图像生成具有多个标志位的图像蒙板，其中，不同的标志位携带有不同的编码信息；

获取物理图像采集设备对所述图像蒙板进行图像采集而获得的第二扫描文档图像；

基于所述多个标志位，对所述图像蒙板和所述第二扫描文档图像进行图像匹配，基于匹配后的图像蒙板和第二扫描文档图像，生成训练样本对。

2.根据权利要求1所述的方法，其中，所述基于所述多个标志位，对所述图像蒙板和所述第二扫描文档图像进行图像匹配，基于匹配后的图像蒙板和第二扫描文档图像，生成训练样本对，包括：

基于所述多个标志位，对所述图像蒙板和所述第二扫描文档图像进行图像匹配；

根据匹配结果，对所述图像蒙板和所述第二扫描文档图像进行相同图像区域裁切；

基于裁切后的图像蒙板和第二扫描文档图像，生成训练样本对。

3.根据权利要求2所述的方法，其中，所述基于所述多个标志位，对所述图像蒙板和所述第二扫描文档图像进行图像匹配，包括：

分别提取所述图像蒙板中的多个第一标志位和所述第二扫描文档图像中的多个第二标志位；

根据标志位的编码信息，对所述多个第一标志位和所述多个第二标志位进行匹配，获得多对匹配标志位对；

基于所述多对匹配标志位对，对所述图像蒙板和所述第二扫描文档图像进行图像匹配。

4.根据权利要求3所述的方法，其中，所述基于所述多对匹配标志位对，对所述图像蒙板和所述第二扫描文档图像进行图像匹配，包括：

基于所述多对匹配标志位对，解算所述图像蒙板和所述第二扫描文档图像之间的单应性矩阵；

根据解算结果，将所述第二扫描文档图像投影至所述图像蒙板，以进行所述图像蒙板和所述第二扫描文档图像的图像匹配。

5.根据权利要求3所述的方法，其中，所述根据匹配结果，对所述图像蒙板和所述第二扫描文档图像进行相同图像区域裁切，包括：

基于所述多对匹配标志位对的位置对应关系，确定所述图像蒙板和所述第二扫描文档图像中相同的图像区域；并分别对所述图像蒙板和所述第二扫描文档图像中的所述相同的图像区域进行裁切。

6.根据权利要求1-5任一项所述的方法，其中，所述为所述第一扫描文档图像生成具有多个标志位的图像蒙板，包括：

根据所述第一扫描文档图像的图像内容形状和图像内容边界信息，为所述第一扫描文档图像生成多个标志位，其中，所述多个标志位相连构成的图像凸包能够完整覆盖所述第一扫描文档图像的图像内容区域；

基于所述第一扫描文档图像和所述多个标志位，生成图像蒙板。

7.根据权利要求6所述的方法，其中，所述多个标志位为至少4个标志位。

8.根据权利要求1-5任一项所述的方法，其中，所述获取进行了滤镜处理后的第一扫描文档图像，包括：

对所述第一扫描文档图像进行去除背景的滤镜处理，以获得背景色为纯色的第一扫描文档图像。

9.根据权利要求8所述的方法，其中，所述对所述第一扫描文档图像进行去除背景的滤镜处理，以获得背景色为纯色的第一扫描文档图像，包括：

对所述第一扫描文档图像进行目标内容检测，根据检测结果确定对应的目标内容区域；

将所述第一扫描文档图像中除所述目标内容区域之外的、其它区域的像素值置为预设纯色像素值，以获得背景色为纯色的第一扫描文档图像。

10.根据权利要求9所述的方法，其中，

在所述根据检测结果确定对应的目标内容区域之后，所述方法还包括：对所述目标内容区域进行掩膜处理，获得对应的目标内容区域掩膜；

所述将所述第一扫描文档图像中除所述目标内容区域之外的、其它区域的像素值置为预设纯色像素值，包括：将所述第一扫描文档图像中的所述目标内容掩膜之外的、其它区域的像素值置为预设纯色像素值。

11.根据权利要求10所述的方法，其中，

在所述获得对应的目标内容区域掩膜之后，所述方法还包括：对所述目标内容区域掩膜进行形态学处理；

所述将所述第一扫描文档图像中的所述目标内容掩膜之外的、其它区域的像素值置为预设纯色像素值，包括：将所述第一扫描文档图像中的、除进行了形态学处理后的所述目标内容掩膜之外的、其它区域的像素值置为预设纯色像素值。

12.根据权利要求1-5任一项所述的方法，其中，所述获取物理图像采集设备对所述图像蒙板进行图像采集而获得的第二扫描文档图像，包括：

获取物理图像采集设备对输出至物理介质上的所述图像蒙板进行图像采集而获得的第二扫描文档图像。

13.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-12中任一项所述的方法对应的操作。

14.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-12中任一所述的方法。