CN117975482A

CN117975482A - 用于票据中磁码数据的增广方法、装置、设备和介质

Info

Publication number: CN117975482A
Application number: CN202410211095.5A
Authority: CN
Inventors: 刘弘羿
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2024-02-26
Filing date: 2024-02-26
Publication date: 2024-05-03

Abstract

本公开提供了一种用于票据中磁码数据的增广方法、装置、设备、存储介质和程序产品，可以应用于人工智能技术领域。该方法包括：获取至少一个原始票据图像；从原始票据图像中按照磁码区域坐标截取出磁码条图像；提取磁码条图像中的前景字符像素，以生成背景透明的第一字符序列图像；获取第一字符序列图像中每个字符在水平轴上的横坐标范围；按照每个字符的横坐标范围，沿水平轴从第一字符序列图像中切割出每个字符的字符图像；基于原始票据图像中标注的第一字符序列信息和每个字符图像沿水平轴的排序，标注每个字符图像的字符信息，生成字符图像标注集；基于字符图像标注集和支票背景图像集，生成增广图像集。

Description

用于票据中磁码数据的增广方法、装置、设备和介质

技术领域

本公开涉及人工智能领域，可用于金融领域或其他领域，更具体地涉及一种用于票据中磁码数据的增广方法、装置、设备、介质和程序产品。

背景技术

磁码是指磁性号码，是将0-9的数字以及4个特殊非通用符号用磁性油墨印刷或用磁性色带打印在支票或其他票券正面的特定位置。由于票据磁码的特殊性(如含有特殊非通用符号、油墨印刷、票据图片采集时的环境复杂性等)，通常会训练专门的磁码字符识别模型。然而，含有磁码的票据的真实样本较少，用规模过小的数据集进行训练后会造成过拟合，会导致模型识别磁码的准确率不高。为此现有技术中有两种解决方案：一种是对收集的票据样本图像进行图像处理数据增强(如添加扰动、加入混合噪声等)等，生成新的样本数据；另一种是利用电脑生成磁码字符串，然后将生成的磁码字符串替代真实票据样本图像中的磁码字符，生成新的样本数据。

发明人在实现本发明构思的过程中发现，现有技术存在如下缺陷：通过数据处理增强来生成新样本的方案中，得到的新样本数据中磁码字符的排列顺序与原票据样本图像是一致的，这样导致磁码字符识别模型只能识别这一种情况，难以实现模型泛化；基于电脑生成磁码字符串形成新训练数据的方案中，虽然可以规避磁码字符串排列顺序单一的问题，但是电脑生成的磁码字符相比于真实票据图像中的磁码字符过于清晰，难以模拟油墨印刷的效果，会影响磁码字符识别模型的学习效果。

发明内容

鉴于上述问题，本公开提供了可以提高生成的新的样本数据的真实性和磁码字符顺序多样性的用于票据中磁码数据的增广方法、装置、设备、介质和程序产品。

本公开实施例的第一方面，提供了一种用于票据中磁码数据的增广方法。所述方法包括：获取原始样本数据集，所述原始样本数据集包括至少一个原始票据图像，其中，所述原始票据图像标注了磁码区域坐标以及磁码区域中的第一字符序列信息；从所述原始票据图像中按照磁码区域坐标截取出磁码条图像；提取所述磁码条图像中的前景字符像素，以生成背景透明的第一字符序列图像；以所述第一字符序列图像的长度方向为水平轴，获取所述第一字符序列图像中每个字符在所述水平轴上的横坐标范围；按照每个字符的所述横坐标范围，沿所述水平轴从所述第一字符序列图像中切割出每个字符的字符图像；基于所述第一字符序列信息和每个所述字符图像沿所述水平轴的排序，单独标注每个所述字符图像的字符信息，生成字符图像标注集；获取待融合的支票背景图像集，所述支票背景图像集包括至少一个支票背景图像，其中，所述支票背景图像的磁码区域中无字符；基于所述字符图像标注集和支票背景图像集，生成增广图像集，包括：从所述字符图像标注集中随机选择一组字符图像，得到至少一个字符图像序列；基于所述字符图像序列与所述支票背景图像的融合，生成至少一个增广图像；其中，所述增广图像集包括至少一个所述增广图像；以及利用所述增广图像集扩充所述原始样本数据集。

根据本公开的实施例，所述获取所述第一字符序列图像中每个字符在所述水平轴上的横坐标范围包括：向所述水平轴上投影所述第一字符序列图像；基于所述第一字符序列图像在所述水平轴上的投影图像，获取每个字符在所述水平轴上的横坐标范围。

根据本公开的实施例，所述方法还包括：以所述第一字符序列图像的高度方向为垂直轴，获取所述第一字符序列图像中的每个字符在所述垂直轴上的纵坐标范围；所述按照每个字符的所述横坐标范围，沿所述水平轴从所述第一字符序列图像中切割出每个字符的字符图像包括：按照每个字符的所述横坐标范围和所述纵坐标范围，沿所述水平轴从所述第一字符序列图像中切割出每个字符的字符图像。

根据本公开的实施例，所述获取所述第一字符序列图像中的每个字符在所述垂直轴上的纵坐标范围包括：向所述垂直轴上投影所述第一字符序列图像；基于所述第一字符序列图像在所述垂直轴上的投影图像，获取每个字符的所述纵坐标范围。

根据本公开的实施例，所述基于所述字符图像序列与所述支票背景图像的融合，生成至少一个增广图像包括：拼接所述字符图像序列中的字符图像，生成第二字符序列图像；以及按照预设的融合位置参数，将所述第二字符序列图像填充至所述支票背景图像中。

根据本公开的实施例，所述基于所述字符图像标注集和支票背景图像集，生成增广图像集还包括：获取所述第二字符序列图像的尺寸参数；基于所述融合位置参数和所述第二字符序列图像的尺寸参数，确定所述增广图像的磁码区域坐标；以及利用所述增广图像中的磁码区域坐标标注所述增广图像。

根据本公开的实施例，所述基于所述字符图像序列中的字符图像与所述支票背景图像的融合，生成至少一个增广图像包括：设置所述字符图像序列中的每个字符图像在述支票背景图像中的填充位置参数，其中，不同的字符图像的所述填充位置参数的纵坐标范围相同，横坐标范围互不重叠；以及按照所述填充位置参数将所述字符图像序列中每个字符图像填充到所述支票背景图像中。

根据本公开的实施例，所述基于所述字符图像标注集和支票背景图像集，生成增广图像集还包括：根据所述增广图像中位于首尾位置的所述字符图像的所述填充位置参数，确定所述增广图像的磁码区域坐标；以及利用所述增广图像中的磁码区域坐标标注所述增广图像。

根据本公开的实施例，所述从所述字符图像标注集中随机选择一组字符图像，得到至少一个字符图像序列包括：基于磁码区域中使用到的字符，随机生成目标字符序列；以及根据每个字符图像标注的字符信息，从所述字符图像标注集中选择与所述目标字符序列对应的字符图像，得到所述字符图像序列。

根据本公开的实施例，所述基于所述字符图像标注集和支票背景图像集，生成增广图像集还包括：根据所述字符图像序列中每个字符图像标注的字符信息，生成第二字符序列信息；以及利用所述第二字符序列信息标注所述增广图像。

根据本公开的实施例，所述提取所述磁码条图像中的前景字符像素，以生成背景透明的第一字符序列图像包括：采用聚类算法提取所述磁码条图像中的前景字符像素，生成中间过渡图像；以及处理所述中间过渡图像，生成所第一字符序列图像。

根据本公开的实施例，所述方法还包括：利用对所述原始样本数据集进行扩充之后得到的扩充样本集，训练磁码字符识别模型，以使所述磁码字符识别模型能够识别出任意票据图像中的磁码中的字符信息。

本公开实施例的第二方面，提供了一种用于票据中磁码数据的增广装置。所述装置包括第一获取模块、字符图像切割模块、字符图像标注模块、第二获取模块和数据增广模块。

第一获取模块，用于获取原始样本数据集，所述原始样本数据集包括至少一个原始票据图像，其中，所述原始票据图像标注了磁码区域坐标以及磁码区域中的第一字符序列信息。

字符图像切割模块，用于：从所述原始票据图像中按照磁码区域坐标截取出磁码条图像；提取所述磁码条图像中的前景字符像素，以生成背景透明的第一字符序列图像；以所述第一字符序列图像的长度方向为水平轴，获取所述第一字符序列图像中每个字符在所述水平轴上的横坐标范围；以及按照每个字符的所述横坐标范围，沿所述水平轴从所述第一字符序列图像中切割出每个字符的字符图像。

字符图像标注模块，用于基于所述第一字符序列信息和每个所述字符图像沿所述水平轴的排序，单独标注每个所述字符图像的字符信息，生成字符图像标注集。

第二获取模块，用于获取待融合的支票背景图像集，所述支票背景图像集包括至少一个支票背景图像，其中，所述支票背景图像的磁码区域中无字符。

数据增广模块，用于：基于所述字符图像标注集和支票背景图像集，生成增广图像集，包括：从所述字符图像标注集中随机选择一组字符图像，得到至少一个字符图像序列；基于所述字符图像序列与所述支票背景图像的融合，生成至少一个增广图像；其中，所述增广图像集包括至少一个所述增广图像；以及利用所述增广图像集扩充所述原始样本数据集。

本公开实施例的第三方面，提供了一种电子设备。所述电子设备包括：一个或多个处理器和存储装置。所述存储装置用于存储一个或多个计算机程序。所述一个或多个处理器执行所述一个或多个计算机程序以实现上述用于票据中磁码数据的增广方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，其上存储有计算机指令。该计算机指令被处理器执行时实现上述用于票据中磁码数据的增广方法的步骤。

本公开实施例的第五方面，提供了一种计算机程序产品，包括计算机指令。所述计算机指令被处理器执行时实现上述用于票据中磁码数据的增广方法的步骤。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的用于票据中磁码数据的增广方法、装置、设备、介质和程序产品的应用场景图；

图2示意性示出了一个原始票据图像和其中的特殊非通用符号的示意图；

图3示意性示出了根据本公开一实施例的用于票据中磁码数据的增广方法的流程图；

图4示意性示出了根据本公开实施例的一个第一字符序列图像；

图5示意性示出了根据本公开实施例的一个支票背景图像；

图6示意性示出了在本公开一实施例中生成增广图像集的流程图；

图7示意性示出了应用本公开实施例的增广方法扩充训练数据集来训练磁码字符识别模型的流程图；

图8示意性示出了根据本公开实施例的用于票据中磁码数据的增广装置的方框图；以及

图9示意性示出了适于实现根据本公开实施例的用于票据中磁码数据的增广方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

本文中关键术语定义如下：

票据：指带有磁码的支票，如图2(a)所示；

磁码：指磁性号码，是将0-9的数字，以及四个特殊非通用符号用磁性油墨印刷或用磁性色带打印在支票或其他票券正面的特定位置，形成的字符串。其中，四个特殊非通用符号如图2(b)所示。

磁码字符识别模型：将磁码条图像输入到该模型后，可以对磁码字符进行识别，输出模型判断的字符。

数据增广：指增加训练数据集，让数据集尽可能的多样化，使得训练的模型具有更强的泛化能力。

数据增强：指使用图像处理技术，对原有的图像进行改动，以增加数据量。

小样本学习：通常情况下机器学习模型依赖大量数据样本进行学习，样本过少会导致学习效果不好，小样本学习指在只有少量的样本的情况下也能有较好的学习效果；

泛化能力：指机器学习模型对新鲜样本的学习适应能力。对具有同一规律的学习集以外的数据，经过训练也能给出正确的输出。

本公开实施例提供了一种用于票据中磁码数据的增广方法、装置、设备、介质和程序产品。根据本公开实施例，可以从原始票据图像中切割出一个个背景透明且前景仅包含有单个磁码字符的字符图像，然后通过将这些字符图像随机组合的字符图像序列与去除了磁码字符的支票背景融合，可以生成高度仿真的新样本数据。以此方式，既可以避免新样本数据中的磁码字符串排列顺序太多单一、还可以避免电脑生成的磁码字符太过清晰难以模拟油墨效果的问题，极大地提高了生成的新样本数据的真实性和磁码字符顺序多样性，从而可以有效扩充训练磁码字符识别模型的训练样本数据集，提高模型的训练效果。

图1示意性示出了根据本公开实施例的用于票据中磁码数据的增广方法、装置、设备、介质和程序产品的应用场景图。

如图1所示，根据该实施例的应用场景100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。服务器103可以部署有磁码字符识别模型。

用户可以通过终端设备101向服务器103上传通过扫描纸质票据而得到的原始票据图像。

服务器103可以执行本公开实施例的用于票据中磁码数据的增广方法，基于用户上传的原始票据图像，生成增广图像，来扩充训练字符检测模型的数据集。本公开实施例所提供的用于票据中磁码数据的增广装置、设备、介质和程序产品可以设置于服务器103中。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

以下将基于图1描述的场景，对本公开实施例的用于票据中磁码数据的增广方法进行详细描述。应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图3示意性示出了根据本公开一实施例的用于票据中磁码数据的增广方法的流程图。

如图3所示，该实施例的用于票据中磁码数据的增广方法可以包括操作S310～操作S390。

首先在操作S310，获取原始样本数据集，原始样本数据集包括至少一个原始票据图像(例如，图2(a)所示的票据图像)。其中，在原始样本数据集中对原始票据图像标注了磁码区域坐标以及磁码区域中的第一字符序列信息。其中，图2(a)所示的票据图像中的磁码，为位于该票据图像中最靠近下边缘的一串字符。对于图2(b)中所示的四个特殊通用符号，在标注时可以对应标注为字母abcd。

接下来在操作S320，从原始票据图像中按照磁码区域坐标中截取出磁码条图像。

然后在操作S330，提取磁码条图像中的前景字符像素，以生成背景透明的第一字符序列图像(如图4所示)。

在一个实施例中，可以提取磁码条图像中的前景字符像素，然后将提取到的前景字符像素原样复制到与磁码条图像的尺寸相同的透明模板上，从而形成背景透明的第一字符序列图像。

在一个实施例中，采用聚类算法(例如，k均值聚类算法)提取磁码条图像中的前景字符像素，生成中间过渡图像；然后处理中间过渡图像，生成所第一字符序列图像。例如，将中间过渡图像转换成灰度图像，用最大灰度值减去磁码条图像，得到反转后的黑字透明底图像，并以该黑字透明底图像作为第一字符序列图像。

在操作S340，以第一字符序列图像的长度方向为水平轴，获取第一字符序列图像中每个字符在水平轴上的横坐标范围。

在一个实施例中，可以向水平轴上投影第一字符序列图像，得到在水平轴上的投影图像(简称水平投影)。结合图4可以推理出，水平投影为在水平轴上的一条条线段，根据这些线段的位置范围可以确定出每个字符的横坐标范围。在一些实施例中，考虑到图2(b)中的四个特殊非通用符号中每个符合的水平投影会是好几个线段，为了使一个特殊非通用符号能够切割在一个图像中，可以在切割前先分析水平投影中线段之间的间隔，然后可以确定出一个临界间隔(例如，可以将所有线段之间的间隔的均值作为临界间隔)，然后将间隔小于字符临界间隔的线段划分到一个字符中，而将间隔大于字符临界间隔的线段划分到不同字符中。通过水平投影的方式确定每个字符的横坐标范围，操作便捷，快速高效。

在另一些实施例中，也可以使用可调整大小的滑动窗口进行字符检测。例如，初始确定一个较小的滑动窗口，然后当检测到这个滑动窗口与前景字符像素有重叠的情况下，按照逐渐放大该滑动窗口。当该滑动窗口恰好可以框柱一个字符时，可以根据该滑动窗口的尺寸大小和位置确定出当前所框住的字符的坐标范围(包括横坐标范围和纵坐标范围)。然后可以沿水平轴不断移动该滑动窗口，逐个确定其他字符的坐标范围。

然后在操作S350，按照每个字符的横坐标范围，沿水平轴从第一字符序列图像中切割出每个字符的字符图像。

在一些实施例中，由于第一字符序列图像是透明背景的，所以可以仅按照横坐标范围进行切割。

在另一些实施例中，为了使切割出的字符图像中尽量减少不必要的透明背景区域，还可以相应地获取每个字符的纵坐标范围，这样可以按照每个字符的横坐标范围和纵坐标范围，沿水平轴从第一字符序列图像中切割出每个字符的字符图像。

获取每个字符的纵坐标范围的过程可以是：向垂直轴上投影第一字符序列图像，由于第一字符序列图像为背景透明字符有颜色的图像，从而第一字符序列在垂直轴上的投影图像为一个线段，可以根据该投影图像(即线段)的坐标范围，获取每个字符的纵坐标范围。在该实施例中，所有字符的纵坐标范围相同，这样切割过程比较方便，而且后续使用时字符图像比较容易对齐。

或者，获取每个字符的纵坐标范围的过程也可以是，在按照每个字符的横坐标范围从第一字符序列图像中切割出每个字符图像后，将每个字符图像投影到垂直轴上，得到每个字符图像的纵坐标范围。这样可以按照纵坐标范围对每个字符图像进行进一步修剪。

在操作S360，基于第一字符序列信息和每个字符图像沿水平轴的排序，单独标注每个字符图像的字符信息，生成字符图像标注集。可见，本公开实施例可以根据切割过程的操作，利用对原始票据图像标注的磁码字符信息，对切割出的字符图像进行快速自动地字符标注。

在一个实施例中，如果切割的时候，沿水平轴是按顺序逐个切割的，则可以按照切割的先后顺序来标注字符。

在另一个实施例中，如果切割时候还可以是并行切割的，这样，可以记录每个字符图像沿水平轴的排序，然后按照每个字符图像的排序来标注字符。

在操作S370，获取待融合的支票背景图像集，支票背景图像集包括至少一个支票背景图像。其中，支票背景图像的磁码区域中无字符，如图5所示。

在一个实施例中，可以将用户上传的原始票据图像，根据其中标注的磁码区域坐标，定位到磁码区域，将该磁码区域中的字符像素抹去，制作成支票背景图像。具体地，在一实施例中，抹去字符信息的过程可以是，根据磁码区域坐标定位出磁码区域(例如，利用隐形的方框框住磁码区域)，然后从磁码区域的边缘(例如，方框的边线上)提取磁码区域的背景纹理像素，然后利用该背景纹理像素填充磁码区域，替换掉磁码区域中的字符像素，以此方式得到支票背景图像。

接下来在操作S380，基于字符图像标注集和支票背景图像集，生成增广图像集。

具体地，可以每次从字符图像标注集中随机选择一组字符图像，然后通过这一组字符图像按照一定的顺序排序后可以形成字符图像序列。接着将字符图像序列融合到支票背景图像的磁码区域中。由于字符图像的背景是透明的，从而融合后字符图像的背景将变成支票背景图像的背景，从而使得支票背景图像中包含了磁码字符。通过控制字符图像序列在支票背景图像中的融合位置，可以使得到的增广图像达到与原始票据图像的高度仿真效果。

最后在操作S390，利用增广图像集扩充原始样本数据集。

由于增广图像中的字符排序是从字符图像标注集中随机选择一组字符图像进行排序，因此不同增广图像中的磁码字符排序可以不同，从而避免了作为新样本数据的增广图像中的磁码字符串排列顺序太多单一的问题。而且由于增广图像中的字符来源于从真实的原始样本图像中经过字符像素提取然后切割出来的字符图像，使得增广图像中的字符图像可以保留油墨印刷所呈现出的图像效果，从而避免电脑生成的磁码字符太过清晰的问题。可见，本公开实施例极大地提高了生成的新样本数据的真实性和磁码字符顺序多样性，可以有效扩充训练磁码字符识别模型的训练样本数据集，提高模型的训练效果。

图6示意性示出了在本公开一实施例中生成增广图像集的流程图。

如图6所示，根据该实施例，操作S380中生成增广图像集的具体过程可以包括操作S601～操作S604。

首先在操作S601，从字符图像标注集中随机选择一组字符图像，得到至少一个字符图像序列。

在一个实施例中，可以先随机选择一组字符图像，然后再对所选择的该组字符图像以各种方式自由组合排序，其中，每种组合排序后生成一个字符图像序列。

在另一实施例中，可以基于磁码区域中使用到的字符，即，0-9的数字以及4个特殊非通用符号(其中，4个特殊非通用符号例如可以用字母abcd来指示)，随机生成一个目标字符序列。然后根据每个字符图像标注的字符信息，从字符图像标注集中选择与目标字符序列对应的字符图像，得到字符图像序列。这种方式可以使生成的字符图像序列有较高的随机性。

然后在操作S602，基于字符图像序列与支票背景图像的融合，生成至少一个增广图像。

接下来在操作S603，基于字符图像序列与支票背景图像的融合方式，获取增广图像的磁码区域坐标，标注增广图像。

具体地，在一些实施例中，操作S602中的融合方式可以是：首先，拼接字符图像序列中的字符图像，生成第二字符序列图像；然后按照预设的融合位置参数，将第二字符序列图像填充至支票背景图像中。对应于该种融合方式，操作S603中标注增广图像的磁码区域坐标时，可以先获取第二字符序列图像的尺寸参数，然后基于融合位置参数和第二字符序列图像的尺寸参数，确定增广图像的磁码区域坐标，并利用增广图像中的磁码区域坐标标注增广图像。

在融合生成增广图像时，可以将所选择的字符图像，按照高度对齐的方式，在垂直于高度方向的水平轴上按照大于或等于预定临界间隔的方式拼接在一起，由于字符图像背景是透明的，因此拼接起来的第二字符序列图像背景也是透明的。然后，根据第二字符序列图像的融合位置参数将第二字符序列图像粘贴在支票背景图像上来形成增广图像，这样仅需要第二字符序列图像与支票背景图像的一次融合操作，会比较方便。

其中，当获取支票背景图像时，如果已知支票背景图像的磁码区域坐标(例如，支票背景图像就是将原始票据图像的磁码区域中的字符涂抹掉得到的)，则可以将融合位置参数设置在磁码区域坐标范围内。或者，当获取支票背景图像时，并不知道支票背景图像的磁码区域坐标，可以根据磁码区域的位置特性，通过融合位置参数中相对于支票背景图像上下左右的偏置参数的设置，使得第二字符序列图像设置于支票背景图像的下半部分。

在另一些实施例中，操作S602中的融合方式也可以是：首先设置字符图像序列中的每个字符图像在支票背景图像中的填充位置参数，其中，不同的字符图像的填充位置参数的纵坐标范围相同，横坐标范围互不重叠；然后按照填充位置参数将字符图像序列中每个字符图像填充到支票背景图像中。相应地，对应于该种融合方式，操作S603中标注磁码区域坐标之前，根据增广图像中位于首尾位置的字符图像的填充位置参数，反推出增广图像的磁码区域坐标。

其中，填充位置参数例如可以是以支票背景图像中某个位置(例如，支票背景图像的左下角)为原点而确定的字符图像的填充定位坐标(如字符图像的左下角坐标)。或者，填充位置参数也可以是每个字符图像中某个位置(例如，左上角)相对于支票背景图像的上下左右边缘的偏置距离。其中，可以通过对填充位置参数的设置，使得字符图像在支票背景图像的下半部分以符合磁码分布位置特征的方式生成。

接下来在操作S604，根据字符图像序列中每个字符图像标注的字符信息，生成第二字符序列信息，并利用第二字符序列信息标注增广图像。这样，可以自动标注增广图像中的磁码字符序列信息。

另外，根据本公开的实施例，对于生成的增广图像，还可以通过数据增强衍生出更多的增广图像。其中，数据增强的方法可以包括但不限于：随机旋转、高斯模糊、中值模糊、均值模糊、锐化和椒盐噪点。这些经过数据增强的新样本数据，具有与原增广图像相同的磁码区域坐标和字符序列信息，不需要再重新进行标注，可以有效扩大磁码字符识别模型的训练数据集，使磁码字符识别模型可以学习到各种复杂环境下的含有磁码的票据图像，提高磁码字符识别模型对复杂环境的适应能力。

本公开实施例在进行训练样本增广时，选用了切割出的真实的字符图像随机组合的方式，能够使得生成的增广图像更加贴近真实的票据图像，而且对字符信息的标注可以利用对原始票据图像的磁码字符信息自动标注，不用再重新人工标注。然后再通过数据增强，可以有效增加训练数据中图像的复杂性。

图7示意性示出了应用本公开实施例的增广方法扩充训练数据集来训练磁码字符识别模型的流程图。

如图7所示，该训练流程包括步骤S71～步骤S75。具体说明如下。

首先在步骤S71，数据增广。具体可以分为背景抽取和增广图像生成两部分。

其中，在背景抽取步骤中，获取到大量支票背景图像。首先读取大量原始票据图像组成的复杂纹理数据集，例如可以由10000张图片和标注组成。其中图片的内容为多样化的支票背景和随机位置的磁码字符，标注的内容包括磁码区域坐标(例如，磁码字符串的四角坐标)、磁码区域中的字符序列的信息。读取复杂纹理数据集后，进行背景提取。例如，获取每张图中的磁码位置坐标，对坐标周边的图像内容进行取样，使用取样内容对坐标内的区域进行填充，生成空白的背景图像。依次将复杂纹理数据集的所有图片进行背景提取处理，生成支票背景图像集。

在增广图像生成步骤中，根据本公开实施例从原始票据图像中切割出字符图像形成字符图像标注集，然后每次从字符图像标注集中随机取一组字符图像进行组合后，融合到随机选择的一个支票背景图像中，生成一个增广图像。按照这种方式生成大量的增广图像，组成增广图像集。

然后在步骤S72，数据增强。读取增广图像集中的增广图像进行数据增强。数据增强方法包括但不限于：随机旋转、高斯模糊、中值模糊、均值模糊、锐化和椒盐噪点。根据每张增广图像的增强次数，可以分为随机增强和定向增强。

(1)随机增强：按照需求随机抽取一定数量的增广图像，每个增广图像会随机抽取一个增强方法，进行随机数据增强。例如，抽取1000张图片进行随机增强，生成了1000张随机增强的图片。

(2)定向增强：按照需求随机抽取一定数量的增广图像，每个增广图像均会使用上述列举的6种方法分别进行定向增强。例如，抽取了167张图片进行定向增强，生成了1002张定向增强的图片。

在一个实施例中，根据实际需要，设计了4种训练集。其中方案1是最基础的背景提取和增广图像生成的方案，没有进行数据增强；方案2在方案1的基础上加入了随机增强；方案3在方案1的基础上加入了定向增强；方案4在方案1的基础上加入了真实数据集的定向增强。

接下来在步骤S73，模型训练。使用训练集对模型进行训练，训练参数保持一致。本例使用了4个训练集，分别训练出4个模型。

接下来在步骤S74，模型测试。使用测试集对训练好的模型进行测试，测试集由真实的磁码条图片和字符标注组成。模型会对测试集图片的磁码条字符进行识别，输出模型判断的字符，将模型输出的字符和原始标注的正确字符进行比较，输出字符识别准确率。

最后在步骤S75，模型准确度分析和输出。获取模型对测试集的字符识别准确率，将准确率和预设值进行比较判断，如果准确率超过预测值，则输出模型；如果准确率未达到预设值，则重新选择模型、重新设置训练参数或者重新选择数据增强方案，对模型进行重新训练，直到模型准确率能够达到预设值，预设值根据实际需要进行调整设置。通过训练四个模型，可以根据四个模型的字符识别准确率的比较，来量化数据增广、数据增强对磁码字符识别模型的训练效果的影响。

基于上述各个实施例的用于票据中磁码数据的增广方法，本公开实施例还提供了一种用于票据中磁码数据的增广装置。以下将结合图8对该装置进行详细描述。

图8示意性示出了根据本公开实施例的用于票据中磁码数据的增广装置800的方框图。

如图8所示，该实施例的用于票据中磁码数据的增广装置800可以包括第一获取模块810、字符图像切割模块820、字符图像标注模块830、第二获取模块840和数据增广模块850。该装置800可以执行参考图3～图7所描述的用于票据中磁码数据的增广方法。

第一获取模块810用于获取原始样本数据集，原始样本数据集包括至少一个原始票据图像。其中，原始票据图像标注了磁码区域坐标以及磁码区域中的第一字符序列信息。在一个实施例中，第一获取模块810可以执行前文介绍的操作S310。

字符图像切割模块820用于：从原始票据图像中按照磁码区域坐标截取出磁码条图像；提取磁码条图像中的前景字符像素，以生成背景透明的第一字符序列图像；以第一字符序列图像的长度方向为水平轴，获取第一字符序列图像中每个字符在水平轴上的横坐标范围；以及按照每个字符的横坐标范围，沿水平轴从第一字符序列图像中切割出每个字符的字符图像。在一个实施例中，字符图像切割模块820可以执行前文介绍的操作S320、操作S330、操作S340和操作S350。

字符图像标注模块830用于基于第一字符序列信息和每个字符图像沿水平轴的排序，单独标注每个字符图像的字符信息，生成字符图像标注集。在一个实施例中，字符图像标注模块830可以执行前文介绍的操作S360。

第二获取模块840，用于获取待融合的支票背景图像集，支票背景图像集包括至少一个支票背景图像，其中，支票背景图像的磁码区域中无字符。在一个实施例中，第二获取模块840可以执行前文介绍的操作S370。

数据增广模块850用于：基于字符图像标注集和支票背景图像集，生成增广图像集，包括：从字符图像标注集中随机选择一组字符图像，得到至少一个字符图像序列；基于字符图像序列与支票背景图像的融合，生成至少一个增广图像；其中，增广图像集包括至少一个增广图像；以及利用增广图像集扩充原始样本数据集。在一个实施例中，数据增广模块850可以执行前文介绍的操作S390。

根据本公开的另一些实施例，该装置800还包括训练模块。该训练模块用于：利用对原始样本数据集进行扩充之后得到的扩充样本集，训练磁码字符识别模型，以使磁码字符识别模型能够识别出任意票据图像中的磁码中的字符信息。在一个实施例中，该训练模块可以执行前文介绍的操作S73、S74和S75

根据本公开的实施例，第一获取模块810、字符图像切割模块820、字符图像标注模块830、第二获取模块840、数据增广模块850和训练模块中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，第一获取模块810、字符图像切割模块820、字符图像标注模块830、第二获取模块840、数据增广模块850和训练模块中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一获取模块810、字符图像切割模块820、字符图像标注模块830、第二获取模块840、数据增广模块850和训练模块中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

如图9所示，根据本公开实施例的电子设备900包括处理器901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 903中，存储有电子设备900操作所需的各种程序和数据。处理器901、ROM902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备900还可以包括输入/输出(I/O)接口905，输入/输出(I/O)接口905也连接至总线904。电子设备900还可以包括连接至I/O接口905的以下部件中的一项或多项：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的用于票据中磁码数据的增广方法。

在该计算机程序被处理器901执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分909被下载和安装，和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种用于票据中磁码数据的增广方法，其特征在于，所述方法包括：

获取原始样本数据集，所述原始样本数据集包括至少一个原始票据图像，其中，所述原始票据图像标注了磁码区域坐标以及磁码区域中的第一字符序列信息；

从所述原始票据图像中按照磁码区域坐标截取出磁码条图像；

提取所述磁码条图像中的前景字符像素，以生成背景透明的第一字符序列图像；

以所述第一字符序列图像的长度方向为水平轴，获取所述第一字符序列图像中每个字符在所述水平轴上的横坐标范围；

按照每个字符的所述横坐标范围，沿所述水平轴从所述第一字符序列图像中切割出每个字符的字符图像；

基于所述第一字符序列信息和每个所述字符图像沿所述水平轴的排序，单独标注每个所述字符图像的字符信息，生成字符图像标注集；

获取待融合的支票背景图像集，所述支票背景图像集包括至少一个支票背景图像，其中，所述支票背景图像的磁码区域中无字符；

基于所述字符图像标注集和所述支票背景图像集，生成增广图像集，包括：从所述字符图像标注集中随机选择一组字符图像，得到至少一个字符图像序列；基于所述字符图像序列与所述支票背景图像的融合，生成至少一个增广图像；其中，所述增广图像集包括至少一个所述增广图像；以及

利用所述增广图像集扩充所述原始样本数据集。

2.根据权利要求1所述的方法，其特征在于，所述获取所述第一字符序列图像中每个字符在所述水平轴上的横坐标范围包括：

向所述水平轴上投影所述第一字符序列图像；

基于所述第一字符序列图像在所述水平轴上的投影图像，获取每个字符在所述水平轴上的横坐标范围。

3.根据权利要求1所述的方法，其特征在于，

所述方法还包括：以所述第一字符序列图像的高度方向为垂直轴，获取所述第一字符序列图像中的每个字符在所述垂直轴上的纵坐标范围；

所述按照每个字符的所述横坐标范围，沿所述水平轴从所述第一字符序列图像中切割出每个字符的字符图像包括：按照每个字符的所述横坐标范围和所述纵坐标范围，沿所述水平轴从所述第一字符序列图像中切割出每个字符的字符图像。

4.根据权利要求3所述的方法，其特征在于，所述获取所述第一字符序列图像中的每个字符在所述垂直轴上的纵坐标范围包括：

向所述垂直轴上投影所述第一字符序列图像；

基于所述第一字符序列图像在所述垂直轴上的投影图像，获取每个字符的所述纵坐标范围。

5.根据权利要求1所述的方法，其特征在于，所述基于所述字符图像序列与所述支票背景图像的融合，生成至少一个增广图像包括：

拼接所述字符图像序列中的字符图像，生成第二字符序列图像；以及

按照预设的融合位置参数，将所述第二字符序列图像填充至所述支票背景图像中。

6.根据权利要求5所述的方法，其特征在于，所述基于所述字符图像标注集和所述支票背景图像集，生成增广图像集还包括：

获取所述第二字符序列图像的尺寸参数；

基于所述融合位置参数和所述第二字符序列图像的尺寸参数，确定所述增广图像的磁码区域坐标；以及

利用所述增广图像中的磁码区域坐标标注所述增广图像。

7.根据权利要求1所述的方法，其特征在于，所述基于所述字符图像序列与所述支票背景图像的融合，生成至少一个增广图像包括：

设置所述字符图像序列中的每个字符图像在述支票背景图像中的填充位置参数，其中，不同的字符图像的所述填充位置参数的纵坐标范围相同，横坐标范围互不重叠；以及

按照所述填充位置参数将所述字符图像序列中每个字符图像填充到所述支票背景图像中。

8.根据权利要求7所述的方法，其特征在于，所述基于所述字符图像标注集和所述支票背景图像集，生成增广图像集还包括：

根据所述增广图像中位于首尾位置的所述字符图像的所述填充位置参数，确定所述增广图像的磁码区域坐标；以及

利用所述增广图像中的磁码区域坐标标注所述增广图像。

9.根据权利要求1所述的方法，其特征在于，所述从所述字符图像标注集中随机选择一组字符图像，得到至少一个字符图像序列包括：

基于磁码区域中使用到的字符，随机生成目标字符序列；以及

根据每个字符图像标注的字符信息，从所述字符图像标注集中选择与所述目标字符序列对应的字符图像，得到所述字符图像序列。

10.根据权利要求1所述的方法，其特征在于，所述基于所述字符图像标注集和所述支票背景图像集，生成增广图像集还包括：

根据所述字符图像序列中每个字符图像标注的字符信息，生成第二字符序列信息；以及

利用所述第二字符序列信息标注所述增广图像。

11.根据权利要求1所述的方法，其特征在于，所述提取所述磁码条图像中的前景字符像素，以生成背景透明的第一字符序列图像包括：

采用聚类算法提取所述磁码条图像中的前景字符像素，生成中间过渡图像；以及

处理所述中间过渡图像，生成所第一字符序列图像。

12.根据权利要求1所述的方法，其中，所述方法还包括：

利用对所述原始样本数据集进行扩充之后得到的扩充样本集，训练磁码字符识别模型，以使所述磁码字符识别模型能够识别出任意票据图像中的磁码中的字符信息。

13.一种用于票据中磁码数据的增广装置，其特征在于，所述装置：

第一获取模块，用于获取原始样本数据集，所述原始样本数据集包括至少一个原始票据图像，其中，所述原始票据图像标注了磁码区域坐标以及磁码区域中的第一字符序列信息；

字符图像切割模块，用于：

从所述原始票据图像中按照磁码区域坐标截取出磁码条图像；提取所述磁码条图像中的前景字符像素，以生成背景透明的第一字符序列图像；

以所述第一字符序列图像的长度方向为水平轴，获取所述第一字符序列图像中每个字符在所述水平轴上的横坐标范围；以及

字符图像标注模块，用于基于所述第一字符序列信息和每个所述字符图像沿所述水平轴的排序，单独标注每个所述字符图像的字符信息，生成字符图像标注集；

第二获取模块，用于获取待融合的支票背景图像集，所述支票背景图像集包括至少一个支票背景图像，其中，所述支票背景图像的磁码区域中无字符；

数据增广模块，用于：

利用所述增广图像集扩充所述原始样本数据集。

14.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个计算机程序，

其特征在于，所述一个或多个处理器执行所述一个或多个计算机程序以实现根据权利要求1～12中任一项所述方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现根据权利要求1～12中任一项所述方法的步骤。

16.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现根据权利要求1～12中任一项所述方法的步骤。