CN112749639B

CN112749639B - 模型训练方法、装置、计算机设备和存储介质

Info

Publication number: CN112749639B
Application number: CN202011599160.4A
Authority: CN
Inventors: 周进洋
Original assignee: Zhongdian Jinxin Software Co Ltd
Current assignee: Zhongdian Jinxin Software Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-01-14
Anticipated expiration: 2040-12-29
Also published as: CN112749639A

Abstract

本申请涉及一种用于票据字符识别的模型训练方法、装置、计算机设备和存储介质。所述方法包括：获取票据字符样本；所述票据字符样本中包括至少两个字符；获取所述至少两个字符中每一字符的字符样本特征；所述字符样本特征包括描述该字符的形状特征、上下文特征和关注区域特征；基于所述至少两个字符中、每一字符的字符样本特征，对与所述至少两个字符对应的票据字符样本进行识别，得到样本识别结果，以便使用所述样本识别结果对票据识别模型进行训练，得到目标票据识别模型；所述目标票据识别模型用于对票据上的字符进行识别。采用本方法能够显著提升票据字符识别准确率。

Description

模型训练方法、装置、计算机设备和存储介质

技术领域

本申请涉及字符识别技术领域，特别是涉及一种用于票据字符识别的模型训练方法、装置、计算机设备和存储介质。

背景技术

随着字符识别技术的发展，出现了光学字符识别(OCR，Optical CharacterRecognition)技术，OCR采用光学方式检测图像中的明、暗模式，并通过预训练模型识别图像中的字符，将字符转换成文本，便于通过文本处理软件进行编辑和加工。

目前的OCR模型通常根据全字符来生成训练样本，例如，在训练汉字识别模型时，是基于中文编码字符集GB18030中收录的70244个汉字来生成训练样本的。根据全字符生成训练样本，由于训练样本基数庞大，训练过程中需要耗费较多的运算资源，训练成本较高，而且，在样本基数庞大的情况下，通过增加样本数量来提升字符识别准确率，对识别准确率的提升效果有限，特别是对于特定应用领域，例如，可以训练票据识别模型对票据上的字符进行识别，当需要提高票据识别模型的识别准确率时，由于汉字字符基数庞大，需要增加较多的训练样本对票据识别模型进行训练，而训练后的模型对识别准确率的提升效果并不明显。

因此，目前的票据字符识别技术存在难以提高识别准确率的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够显著提升识别准确率的用于票据字符识别的模型训练方法、装置、计算机设备和存储介质。

一种用于票据字符识别的模型训练方法，所述方法包括：

获取票据字符样本；所述票据字符样本中包括至少两个字符；

获取所述至少两个字符中每一字符的字符样本特征；所述字符样本特征包括描述该字符的形状特征、上下文特征和关注区域特征；

基于所述至少两个字符中、每一字符的字符样本特征，对与所述至少两个字符对应的票据字符样本进行识别，得到样本识别结果，以便使用所述样本识别结果对票据识别模型进行训练，得到目标票据识别模型；所述目标票据识别模型用于对票据上的字符进行识别。

在其中一个实施例中，所述获取票据字符样本，包括：

获取业务词汇集；所述业务词汇集中包含至少一个票据词汇；

计算所述至少一个票据词汇中的每一个票据词汇的占比值；

针对至少一个占比值中的每一占比值，当该占比值在预设占比区间内时，根据该占比值所对应的票据词汇生成票据字符样本。

在其中一个实施例中，所述根据该占比值所对应的票据词汇生成票据字符样本，包括：

基于该占比值所对应的票据词汇中每一票据词汇的字体类型、字号以及位置信息，生成目标图片；

根据所述每一票据词汇的内容确定与该目标图片对应的内容信息；

基于目标图片，以及与该目标图片对应的内容信息生成所述票据字符样本。

在其中一个实施例中，所述获取业务词汇集，包括：

获取初始词汇集；

对所述初始词汇集进行预处理操作，得到第一预处理词汇集；

从所述第一预处理词汇集中确定出第一业务词汇集；所述第一业务词汇集中包含至少一个第一业务词汇；

计算所述至少一个第一业务词汇中每一第一业务词汇的词频；

针对至少一个词频中的每一词频，当该词频超过预设阈值时，将该词频对应的第一业务词汇作为目标词汇；

将所述第一预处理词汇集中、除去至少一个目标词汇后的第一处理词汇集，作为所述业务词汇集。

在其中一个实施例中，所述获取所述至少两个字符中每一字符的字符样本特征，包括：

通过将所述票据字符样本输入所述票据识别模型的卷积神经网络层，得到形状特征矩阵；所述形状特征矩阵用于表征所述字符的形状特征；

通过将所述形状特征矩阵输入所述票据识别模型的多通道特征提取层，得到多通道特征矩阵；所述多通道特征矩阵用于表征所述字符的上下文特征和关注区域特征；

基于所述形状特征矩阵和所述多通道特征矩阵确定出所述字符样本特征。

在其中一个实施例中，所述多通道特征提取层包括长短期记忆层、门控循环单元层和注意力层；所述通过将所述形状特征矩阵输入所述票据识别模型的多通道特征提取层，得到多通道特征，包括：

将所述形状特征矩阵输入所述长短期记忆层，得到第一上下文特征矩阵，以及，将所述形状特征矩阵输入所述门控循环单元层，得到第二上下文特征矩阵，以及，将所述形状特征矩阵输入所述注意力层，得到关注区域特征矩阵；

基于所述第一上下文特征矩阵和所述第二上下文特征矩阵确定出所述上下文特征，基于所述关注区域特征矩阵确定出所述关注区域特征；

通过对所述第一上下文特征矩阵、所述第二上下文特征矩阵和所述关注区域特征矩阵进行点积运算，得到所述多通道特征矩阵。

在其中一个实施例中，所述基于所述至少两个字符中、每一字符的字符样本特征，对与所述至少两个字符对应的票据字符样本进行识别，得到样本识别结果，包括：

根据所述至少两个字符中每一字符的形状特征、上下文特征和关注区域特征，基于目标损失值对与所述两个字符对应的票据字符样本进行识别。

一种用于票据字符识别的模型训练装置，所述装置包括：

第一获取模块，用于获取票据字符样本；所述票据字符样本中包括至少两个字符；

第二获取模块，用于获取所述至少两个字符中每一字符的字符样本特征；所述字符样本特征包括描述该字符的形状特征、上下文特征和关注区域特征；

识别模块，用于基于所述至少两个字符中、每一字符的字符样本特征，对与所述至少两个字符对应的票据字符样本进行识别，得到样本识别结果，以便使用所述样本识别结果对票据识别模型进行训练，得到目标票据识别模型；所述目标票据识别模型用于对票据上的字符进行识别。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

上述用于票据字符识别的模型训练方法、装置、计算机设备和存储介质，通过获取票据字符样本，以及获取票据字符样本中至少两个字符中每一字符的字符样本特征，可以得到票据字符样本包含形状特征、上下文特征和关注区域特征在内的多方面特征信息，基于至少两个字符中、每一字符的字符样本特征，对与至少两个字符对应的票据字符样本进行识别，得到样本识别结果，可以结合票据字符样本的形状特征、上下文特征和关注区域特征等多方面特征信息进行识别，提高样本识别结果的识别准确率，根据样本识别结果对票据识别模型进行训练，得到目标票据识别模型，可以使目标票据识别模型对票据上的字符进行识别的识别准确率显著提升。

附图说明

图1为一个实施例中用于票据字符识别的模型训练方法的流程示意图；

图2为一个实施例中票据识别模型的结构框图；

图3为一个实施例中票据字符识别方法的流程示意图；

图4为另一个实施例中用于票据字符识别的模型训练方法的流程示意图；

图5为一个实施例中用于票据字符识别的模型训练装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种用于票据字符识别的模型训练方法，可以应用于终端或服务器中，其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。以该方法应用于终端为例进行说明，包括以下步骤：

步骤S110，获取票据字符样本；票据字符样本中包括至少两个字符。

其中，票据字符样本可以为票据识别模型的训练样本。

具体实现中，可以用带有文本标签的目标图片作为票据字符样本，其中，目标图片可以为包含票据领域字符的图片。通过在词库中随机选取词汇，在字体库中随机选取字体，以及随机确定字号和随机确定词汇在图片中的位置信息，可以根据字体和字号生成词汇对应的字符，并根据位置信息生成包含该字符的图片，得到目标图片。通过为目标图片添加文件名，并获取目标图片上的文字内容，将文件名和文字内容记录在一个文本文件中，可以将文本文件作为目标图片的文本标签。

例如，可以在词库中随机选取词汇“出票人账号”，随机确定字体为宋体，字号为四号，词汇左上角在图片中的位置为(10，-10)像素，并预先规定图片左上角为坐标原点。根据上述字体、字号和位置信息，可以生成一张包含词汇“出票人账号”的图片，为该图片设置文件名“训练样本0001”，并生成一个txt文件，文件中可以记载：文件名“训练样本0001”，词汇“出票人账号”，可以将携带该txt文件的图片作为票据字符样本。

其中，词库可以为经过词汇分布调整的词库，在获取到包含票据词汇的词库后，可以统计词库中各个票据词汇在词汇总数中的占比，并设置符合实际业务场景的占比区间，若票据词汇在词汇总数中的占比在占比区间内，则可以判定该词汇符合实际业务场景，否则，若票据词汇在词汇总数中的占比不在占比区间内，则可以判定该词汇不符合实际业务场景，对于不符合实际业务场景的词汇，可以调整其在词库中的数量，直至其占比落入占比区间内。例如，经统计，在实际业务场景下，词汇“出票人账号”占词汇总数的40-60％，若当前词库中“出票人账号”占比为20％，则可以增加“出票人账号”的票据字符样本数量，直至占比满足40-60％。

其中，可以通过词库清洗和词频统计，获取到包含票据词汇的词库。在获取到初始词库后，可以通过在初始词库中删除重复词汇、纠正错误词汇和去除停用词汇来进行词库清洗，其中，删除重复词汇可以为当在词库中查找到N个相同的词条时，删除其中的N-1个词条，纠正错误词汇可以为根据词典来纠正初始词库中的拼写错误，去除停用词可以为根据停用词库去除初始词库中的停用词。在词库清洗后，可以根据专有名词库，识别词库中的专有名词和非专有名词，并统计非专有名词的词频，若非专有名词的词频超过预设阈值，则可以判定为高频低效词，在词库中予以删除，删除后的剩余词汇，可以形成包含票据词汇的词库。

其中，专有名词可以为在银行票据领域用到的词汇，非专有名词可以为在银行票据领域未用到的词汇。

步骤S120，获取至少两个字符中每一字符的字符样本特征；字符样本特征包括描述该字符的形状特征、上下文特征和关注区域特征。

其中，字符样本特征可以为票据字符样本的特征矩阵。形状特征可以为表征目标图片中字符形状的特征矩阵。上下文特征可以为表征目标图片中指定字符的上下文信息的特征矩阵。关注区域特征可以为表征目标图片中重点关注区域的特征矩阵。

图2提供了一个票据识别模型的结构框图，票据识别模型可以包括有特征提取层和特征识别层，其中，特征提取层可以包括有卷积神经网络层和多通道特征提取层，卷积神经网络层可以由输入层、卷积层和池化层组成，多通道特征提取层可以由长短期记忆层、门控循环单元层和注意力层组成。

具体实现中，在获取票据字符样本后，可以将票据字符样本依次输入票据识别模型的卷积神经网络层和多通道特征提取层来得到特征矩阵，其中，通过卷积神经网络层可以得到表征票据字符样本形状特征的特征矩阵，通过多通道特征提取层可以得到表征票据字符样本上下文特征和关注区域特征的特征矩阵。当输入多通道特征提取层时，可以分别输入长短期记忆层、门控循环单元层和注意力层，通过长短期记忆层得到表征第一上下文特征的特征矩阵，通过门控循环单元层得到表征第二上下文特征的特征矩阵，通过注意力层得到表征关注区域特征的特征矩阵，其中，第一上下文特征和第二上下文特征可以体现不同的上下文特征。通过将第一上下文特征、第二上下文特征的特征矩阵和关注区域特征的特征矩阵进行点积运算，可以得到特征提取层输出的特征矩阵，该特征矩阵可以综合反映票据字符样本的形状特征、上下文特征和关注区域特征。

步骤S130，基于至少两个字符中、每一字符的字符样本特征，对与至少两个字符对应的票据字符样本进行识别，得到样本识别结果，以便使用样本识别结果对票据识别模型进行训练，得到目标票据识别模型；目标票据识别模型用于对票据上的字符进行识别。

具体实现中，可以将特征提取层在点积运算后得到的特征矩阵输入至特征识别层，通过特征识别层对特征矩阵进行识别，得到票据字符样本的样本识别结果。在得到票据字符样本的识别结果后，还可以根据识别结果对票据识别模型的参数进行优化调整，得到调整后的票据识别模型，并返回至步骤S120，使用调整后的票据识别模型，重新对票据字符样本进行识别，直至样本识别结果收敛，得到目标票据识别模型。对于待识别的票据字符，可以使用目标票据识别模型进行识别。

实际应用中，可以通过对EfficientNet网络模型进行改进来得到票据识别模型，例如，为了减少运算量，可以删除EfficientNet网络模型中的第三卷积块和第五卷积块，还可以将最大池化层的大小调整为(2，1)，即X轴像素值为2，Y轴像素值为1，还可以将OCR版本的参数个数调整为19804753。为了实现字符识别，可以将EfficientNet网络模型的输出层替换为CTC(Connectionist Temporal Classification，连接时序分类)层，为了提高识别准确率，还可以在CTC层之上增加多通道特征提取层。多通道特征提取层可以由BiLSTM(Bi-Long Short-Term Memory，双向长短期记忆)层、BiGRU(Bi-Gate Recurrent Unit，双向门控循环单元)层和Attention(注意力)层组成。

其中，BiLSTM层可以在一个字符串中获取到指定字符的前向字符信息和后向字符信息，根据前向字符信息和后向字符信息可以得到指定字符的上下文特征，传统的BiLSTM层是将前向和后向的编码信息进行拼接操作，在X轴上拼接前向字符信息和后向字符信息，由于拼接操作容易造成网络参数过多，网络收敛速度变慢，可以将传统的拼接操作替换为加操作，即对前向字符信息和后向字符信息进行求和。BiGRU层也可以根据前向字符信息和后向字符信息得到指定字符的上下文特征，可以进一步丰富特征提取层提取到的上下文特征，使票据识别模型具备一定的泛化能力。线性的Attention层可以对关注区域进行重点识别，当出现形近字时，可以对形近字进行重点识别，提高形近字的识别准确率。

多通道特征提取层可以对BiLSTM层、BiGRU层和Attention层的输出进行点积运算，以减少输入CTC层的数据量。在传统的CTC技术中，当不同类型训练样本的数量不均衡时，存在识别准确率低和收敛速度慢的问题，为解决该问题，可以在CTC层使用焦点损失(Focal Loss)技术，通过调整不同类型训练样本的损失值，来提高识别准确率，焦点损失值Focal_CTC_LOSS可以通过下述方法进行计算：

CTC_LOSS＝tf.nn.ctc_loss()

P＝tf.exp(-CTC_LOSS)

Focal_CTC_LOSS＝α*pow((1–P),β)*CTC_LOSS

其中，CTC_LOSS为CTC损失值，tf.nn.ctc_loss()为计算CTC损失值的TensorFlow函数，tf.exp为指数运算，pow为幂运算，α和β为参数，优选地，可以取α＝0.25，β＝0.5，此时票据识别模型的识别准确率较高。

上述用于票据字符识别的模型训练方法，通过获取票据字符样本，以及获取票据字符样本中至少两个字符中每一字符的字符样本特征，可以得到票据字符样本包含形状特征、上下文特征和关注区域特征在内的多方面特征信息，基于至少两个字符中、每一字符的字符样本特征，对与至少两个字符对应的票据字符样本进行识别，得到样本识别结果，可以结合票据字符样本的形状特征、上下文特征和关注区域特征等多方面特征信息进行识别，提高样本识别结果的识别准确率，根据样本识别结果对票据识别模型进行训练，得到目标票据识别模型，可以使目标票据识别模型对票据上的字符进行识别的识别准确率显著提升。

在一个实施例中，上述步骤S110，可以具体包括：

步骤S112，获取业务词汇集；业务词汇集中包含至少一个票据词汇；

步骤S114，计算至少一个票据词汇中的每一个票据词汇的占比值；

步骤S116，针对至少一个占比值中的每一占比值，当该占比值在预设占比区间内时，根据该占比值所对应的票据词汇生成票据字符样本。

其中，业务词汇集可以为包含票据领域词汇的词汇集合，本领域技术人员可以理解为包含票据词汇的词库。

具体实现中，在获取到包含票据词汇的词库后，可以统计词库中各个票据词汇在词汇总数中的占比，并设置符合票据业务场景的占比区间，若票据词汇在词汇总数中的占比在占比区间内，则可以判定该词汇符合票据业务场景，否则，若票据词汇在词汇总数中的占比不在占比区间内，则可以判定该词汇不符合票据业务场景，对于不符合票据业务场景的词汇，可以调整其在词库中的数量，直至其占比落入占比区间内。通过在调整后的词库中选取词汇，可以生成票据字符样本。

本实施中，通过获取业务词汇集，并计算至少一个票据词汇中的每一个票据词汇的占比值，可以根据占比值判断票据词汇是否符合实际业务场景，针对至少一个占比值中的每一占比值，当该占比值在预设占比区间内时根据该占比值所对应的票据词汇生成票据字符样本，可以使票据词汇的占比符合实际的票据业务场景，提高票据业务场景下票据识别模型的训练效率。

在一个实施例中，上述步骤S116，可以具体包括：基于该占比值所对应的票据词汇中每一票据词汇的字体类型、字号以及位置信息，生成目标图片；根据每一票据词汇的内容确定与该目标图片对应的内容信息；基于目标图片，以及与该目标图片对应的内容信息生成票据字符样本。

本实施例中，通过基于该占比值所对应的票据词汇中每一票据词汇的字体类型、字号以及位置信息生成目标图片，可以高效生成目标图片，根据每一票据词汇的内容确定与该目标图片对应的内容信息，可以将内容信息作为目标图片的标签，基于目标图片以及与该目标图片对应的内容信息生成票据字符样本，可以使用符合实际票据业务场景的票据词汇生成票据字符样本，提高票据识别模型的训练效率。

在一个实施例中，上述步骤S112，可以具体包括：获取初始词汇集；对初始词汇集进行预处理操作，得到第一预处理词汇集；从第一预处理词汇集中确定出第一业务词汇集；第一业务词汇集中包含至少一个第一业务词汇；计算至少一个第一业务词汇中每一第一业务词汇的词频；针对至少一个词频中的每一词频，当该词频超过预设阈值时，将该词频对应的第一业务词汇作为目标词汇；将第一预处理词汇集中、除去至少一个目标词汇后的第一处理词汇集，作为业务词汇集。

其中，预处理操作可以为删除重复词汇、纠正错误词汇和去除停用词汇的操作。

其中，第一业务词汇可以为非专有名词，例如，在银行票据领域未用到的词汇

具体实现中，可以通过词库清洗和词频统计，获取到包含票据词汇的词库。在获取到初始词库后，可以通过在初始词库中删除重复词汇、纠正错误词汇和去除停用词汇来进行词库清洗，得到第一预处理词汇集，其中，删除重复词汇可以为当在词库中查找到N个相同的词条时，删除其中的N-1个词条，纠正错误词汇可以为根据词典来纠正初始词库中的拼写错误，去除停用词可以为根据停用词库去除初始词库中的停用词。在词库清洗后，可以根据专有名词库，识别词库中的专有名词和非专有名词，并统计非专有名词的词频，若非专有名词的词频超过预设阈值，则可以判定为高频低效词，将高频低效词作为目标词汇，在第一预处理词汇集中予以删除，删除后的剩余词汇，可以形成包含票据词汇的词库，该词库可以为业务词汇集。

本实施例中，通过获取初始词汇集，对初始词汇集进行预处理操作得到第一预处理词汇集，可以排除重复词、停用词和错误词对票据字符样本生成造成的干扰，从第一预处理词汇集中确定出第一业务词汇集，计算至少一个第一业务词汇中每一第一业务词汇的词频，针对至少一个词频中的每一词频，当该词频超过预设阈值时将该词频对应的第一业务词汇作为目标词汇，将第一预处理词汇集中、除去至少一个目标词汇后的第一处理词汇集，作为业务词汇集，可以排除高频低效词对票据字符样本生成造成的干扰。

在一个实施例中，上述步骤S120，可以具体包括：通过将票据字符样本输入票据识别模型的卷积神经网络层，得到形状特征矩阵；形状特征矩阵用于表征字符的形状特征；通过将形状特征矩阵输入票据识别模型的多通道特征提取层，得到多通道特征矩阵；多通道特征矩阵用于表征字符的上下文特征和关注区域特征；基于形状特征矩阵和多通道特征矩阵确定出字符样本特征。

具体实现中，在获取票据字符样本后，可以将票据字符样本依次输入票据识别模型的卷积神经网络层和多通道特征提取层来得到特征矩阵，其中，通过卷积神经网络层可以得到表征票据字符样本形状特征的特征矩阵，通过多通道特征提取层可以得到表征票据字符样本上下文特征和关注区域特征的特征矩阵。

本实施例中，通过将票据字符样本输入票据识别模型的卷积神经网络层，得到形状特征矩阵，可以通过形状特征矩阵来表征字符的形状特征，通过将形状特征矩阵输入票据识别模型的多通道特征提取层，得到多通道特征矩阵，可以通过多通道特征矩阵来表征字符的上下文特征和关注区域特征，基于形状特征矩阵和多通道特征矩阵确定出字符样本特征，可以结合形状特征、上下文特征和关注区域特征等多方面特征进行识别，提高票据字符样本的识别准确率。

在一个实施例中，上述步骤S120，具体还可以包括：将形状特征矩阵输入长短期记忆层，得到第一上下文特征矩阵，以及，将形状特征矩阵输入门控循环单元层，得到第二上下文特征矩阵，以及，将形状特征矩阵输入注意力层，得到关注区域特征矩阵；基于第一上下文特征矩阵和第二上下文特征矩阵确定出上下文特征，基于关注区域特征矩阵确定出关注区域特征；通过对第一上下文特征矩阵、第二上下文特征矩阵和关注区域特征矩阵进行点积运算，得到多通道特征矩阵。

具体实现中，当输入多通道特征提取层时，可以分别输入长短期记忆层、门控循环单元层和注意力层，通过长短期记忆层得到表征第一上下文特征的特征矩阵，通过门控循环单元层得到表征第二上下文特征的特征矩阵，通过注意力层得到表征关注区域特征的特征矩阵，其中，第一上下文特征和第二上下文特征可以体现不同的上下文特征。通过将第一上下文特征、第二上下文特征的特征矩阵和关注区域特征的特征矩阵进行点积运算，可以得到特征提取层输出的特征矩阵，该特征矩阵可以综合反映票据字符样本的形状特征、上下文特征和关注区域特征。

本实施例中，通过将形状特征矩阵输入长短期记忆层得到第一上下文特征矩阵，将形状特征矩阵输入门控循环单元层得到第二上下文特征矩阵，将形状特征矩阵输入注意力层得到关注区域特征矩阵，可以通过第一上下文特征矩阵和第二上下文特征矩阵表征字符两种不同的上下文特征，基于第一上下文特征矩阵和第二上下文特征矩阵确定出上下文特征，基于关注区域特征矩阵确定出关注区域特征，通过对第一上下文特征矩阵、第二上下文特征矩阵和关注区域特征矩阵进行点积运算得到多通道特征矩阵，可以减少票据识别模型训练过程中的参数数量，提高票据识别模型的训练效率。

在一个实施例中，上述步骤S130，可以具体包括：根据至少两个字符中每一字符的形状特征、上下文特征和关注区域特征，基于目标损失值对与两个字符对应的票据字符样本进行识别。

具体实现中，可以将特征提取层在点积运算后得到的特征矩阵输入至特征识别层，通过特征识别层对特征矩阵进行识别，得到票据字符样本的样本识别结果。特征识别层可以为CTC层，在CTC层使用焦点损失技术，通过调整不同类型训练样本的损失值，来提高识别准确率，焦点损失值Focal_CTC_LOSS可以通过下述方法进行计算：

CTC_LOSS＝tf.nn.ctc_loss()

P＝tf.exp(-CTC_LOSS)

Focal_CTC_LOSS＝α*pow((1–P),β)*CTC_LOSS

本实施例中，通过根据至少两个字符中每一字符的形状特征、上下文特征和关注区域特征，基于目标损失值对与两个字符对应的票据字符样本进行识别，可以降低多样本字符的损失值，增加少样本字符的损失值，解决因训练样本数量不均衡导致的识别准确率低和收敛速度慢的问题。

在一个实施例中，如图3所示，提供了一种票据字符识别方法，以该方法应用于终端为例进行说明，包括以下步骤：

步骤S310，获取待识别票据字符；

步骤S320，将待识别票据字符输入至票据识别模型，通过票据识别模型中的特征提取层，得到待识别票据字符的字符特征；字符特征包括形状特征、上下文特征和关注区域特征；

步骤S330，根据形状特征、上下文特征和关注区域特征，通过票据识别模型中的特征识别层，对待识别票据字符进行识别，得到票据字符识别结果。

其中，待识别票据字符可以为从真实票据上截取的包含字符的图片。

具体实现中，可以将待识别票据字符依次输入票据识别模型的卷积神经网络层和多通道特征提取层来得到特征矩阵，其中，通过卷积神经网络层可以得到待识别票据字符的形状特征，通过多通道特征提取层可以得到待识别票据字符上下文特征和关注区域特征。当输入多通道特征提取层时，可以分别输入长短期记忆层、门控循环单元层和注意力层，通过长短期记忆层得到第一上下文特征的特征矩阵，通过门控循环单元层得到第二上下文特征的特征矩阵，通过注意力层得到关注区域特征的特征矩阵，通过将第一上下文特征、第二上下文特征的特征矩阵和关注区域特征的特征矩阵进行点积运算，可以得到特征提取层输出的特征矩阵，特征矩阵可以综合反映票据字符样本的形状特征、上下文特征和关注区域特征。将特征矩阵输入特征识别层，通过特征识别层对特征矩阵进行识别，可以得到待识别票据字符的识别结果。由于票据字符识别的处理过程和具体限定在前述实施例中已有详细说明，在此不再赘述。

本实施例中，通过获取待识别票据字符，将待识别票据字符输入至票据识别模型，通过票据识别模型中的特征提取层，得到待识别票据字符的字符特征，可以得到待识别票据字符包含形状特征、上下文特征和关注区域特征在内的多方面特征信息，根据形状特征、上下文特征和关注区域特征，通过票据识别模型中的特征识别层，对待识别票据字符进行识别，得到票据字符识别结果，可以结合形状特征、上下文特征和关注区域特征等多方面特征信息进行识别，提高待识别票据字符的识别准确率。

在一个实施例中，如图4所示，提供了另一种用于票据字符识别的模型训练方法，包括以下步骤：

步骤S401，获取业务词汇集；所述业务词汇集中包含至少一个票据词汇；

步骤S402，计算所述至少一个票据词汇中的每一个票据词汇的占比值；

步骤S403，针对至少一个占比值中的每一占比值，当该占比值在预设占比区间内时，根据该占比值所对应的票据词汇生成票据字符样本；所述票据字符样本中包括至少两个字符；

步骤S404，通过将所述票据字符样本输入所述票据识别模型的卷积神经网络层，得到形状特征矩阵；所述形状特征矩阵用于表征所述字符的形状特征；

步骤S405，通过将所述形状特征矩阵输入所述票据识别模型的多通道特征提取层，得到多通道特征矩阵；所述多通道特征矩阵用于表征所述字符的上下文特征和关注区域特征；

步骤S406，基于所述形状特征矩阵和所述多通道特征矩阵确定出字符样本特征；所述字符样本特征包括描述该字符的形状特征、上下文特征和关注区域特征；

步骤S407，根据所述至少两个字符中每一字符的形状特征、上下文特征和关注区域特征，基于目标损失值对与所述两个字符对应的票据字符样本进行识别。

应该理解的是，虽然图1、3和4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1、3和4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种用于票据字符识别的模型训练装置500，包括：第一获取模块510、第二获取模块520和识别模块530，其中：

第一获取模块510，用于获取票据字符样本；所述票据字符样本中包括至少两个字符；

第二获取模块520，用于获取所述至少两个字符中每一字符的字符样本特征；所述字符样本特征包括描述该字符的形状特征、上下文特征和关注区域特征；

识别模块530，用于基于所述至少两个字符中、每一字符的字符样本特征，对与所述至少两个字符对应的票据字符样本进行识别，得到样本识别结果，以便使用所述样本识别结果对票据识别模型进行训练，得到目标票据识别模型；所述目标票据识别模型用于对票据上的字符进行识别。

在一个实施例中，上述获取模块510，包括：

业务词汇集获取模块512，用于获取业务词汇集；所述业务词汇集中包含至少一个票据词汇；

占比计算模块514，用于计算所述至少一个票据词汇中的每一个票据词汇的占比值；

样本生成模块516，用于针对至少一个占比值中的每一占比值，当该占比值在预设占比区间内时，根据该占比值所对应的票据词汇生成票据字符样本。

在一个实施例中，上述样本生成模块516，还用于基于该占比值所对应的票据词汇中每一票据词汇的字体类型、字号以及位置信息，生成目标图片；根据所述每一票据词汇的内容确定与该目标图片对应的内容信息；基于目标图片，以及与该目标图片对应的内容信息生成所述票据字符样本。

在一个实施例中，上述业务词汇集获取模块512，还用于获取初始词汇集；对所述初始词汇集进行预处理操作，得到第一预处理词汇集；从所述第一预处理词汇集中确定出第一业务词汇集；所述第一业务词汇集中包含至少一个第一业务词汇；计算所述至少一个第一业务词汇中每一第一业务词汇的词频；针对至少一个词频中的每一词频，当该词频超过预设阈值时，将该词频对应的第一业务词汇作为目标词汇；将所述第一预处理词汇集中、除去至少一个目标词汇后的第一处理词汇集，作为所述业务词汇集。

在一个实施例中，上述第二获取模块520，还用于通过将所述票据字符样本输入所述票据识别模型的卷积神经网络层，得到形状特征矩阵；所述形状特征矩阵用于表征所述字符的形状特征；通过将所述形状特征矩阵输入所述票据识别模型的多通道特征提取层，得到多通道特征矩阵；所述多通道特征矩阵用于表征所述字符的上下文特征和关注区域特征；基于所述形状特征矩阵和所述多通道特征矩阵确定出所述字符样本特征。

在一个实施例中，上述第二获取模块520，还用于将所述形状特征矩阵输入所述长短期记忆层，得到第一上下文特征矩阵，以及，将所述形状特征矩阵输入所述门控循环单元层，得到第二上下文特征矩阵，以及，将所述形状特征矩阵输入所述注意力层，得到关注区域特征矩阵；基于所述第一上下文特征矩阵和所述第二上下文特征矩阵确定出所述上下文特征，基于所述关注区域特征矩阵确定出所述关注区域特征；通过对所述第一上下文特征矩阵、所述第二上下文特征矩阵和所述关注区域特征矩阵进行点积运算，得到所述多通道特征矩阵。

在一个实施例中，上述识别模块530，还用于根据所述至少两个字符中每一字符的形状特征、上下文特征和关注区域特征，基于目标损失值对与所述两个字符对应的票据字符样本进行识别。

关于模型训练装置的具体限定可以参见上文中对于模型训练方法的限定，在此不再赘述。上述模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种模型训练方法和一种票据字符识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述一种模型训练方法和一种票据字符识别方法的步骤。此处一种模型训练方法的步骤可以是上述各个实施例的一种模型训练方法中的步骤，一种票据字符识别方法的步骤可以是上述各个实施例的一种票据字符识别方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述一种模型训练方法和一种票据字符识别方法的步骤。此处一种模型训练方法的步骤可以是上述各个实施例的一种模型训练方法中的步骤，一种票据字符识别方法的步骤可以是上述各个实施例的一种票据字符识别方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种用于票据字符识别的模型训练方法，其特征在于，所述方法包括：

获取所述至少两个字符中每一字符的字符样本特征；所述字符样本特征包括描述该字符的形状特征、上下文特征和关注区域特征；其中：获取所述票据字符样本的形状特征矩阵；所述形状特征矩阵用于表征所述字符的形状特征；将所述形状特征矩阵输入票据识别模型的注意力层，得到关注区域特征矩阵；所述关注区域特征矩阵用于表征所述关注区域特征；所述上下文特征为表征所述字符的上下文信息；所述关注区域特征为表征所述票据字符样本中重点关注区域的信息；

基于所述至少两个字符中、每一字符的形状特征、上下文特征和关注区域特征进行点积运算，并根据运算结果对与所述至少两个字符对应的票据字符样本进行识别，得到样本识别结果，以便使用所述样本识别结果对票据识别模型进行训练，得到目标票据识别模型；所述目标票据识别模型用于对票据上的字符进行识别。

2.根据权利要求1所述的方法，其特征在于，所述获取票据字符样本，包括：

计算所述至少一个票据词汇中的每一个票据词汇的占比值；

3.根据权利要求2所述的方法，其特征在于，所述根据该占比值所对应的票据词汇生成票据字符样本，包括：

4.根据权利要求2所述的方法，其特征在于，所述获取业务词汇集，包括：

获取初始词汇集；

5.根据权利要求1所述的方法，其特征在于，所述获取所述至少两个字符中每一字符的字符样本特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述多通道特征提取层包括长短期记忆层、门控循环单元层和注意力层；所述通过将所述形状特征矩阵输入所述票据识别模型的多通道特征提取层，得到多通道特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述至少两个字符中、每一字符的形状特征、上下文特征和关注区域特征进行点积运算，并根据运算结果对与所述至少两个字符对应的票据字符样本进行识别，得到样本识别结果，包括：

8.一种用于票据字符识别的模型训练装置，其特征在于，所述装置包括：

第二获取模块，用于获取所述至少两个字符中每一字符的字符样本特征；所述字符样本特征包括描述该字符的形状特征、上下文特征和关注区域特征；其中：获取所述票据字符样本的形状特征矩阵；所述形状特征矩阵用于表征所述字符的形状特征；将所述形状特征矩阵输入票据识别模型的注意力层，得到关注区域特征矩阵；所述关注区域特征矩阵用于表征所述关注区域特征；所述上下文特征为表征所述字符的上下文信息；所述关注区域特征为表征所述票据字符样本中重点关注区域的信息；

识别模块，用于基于所述至少两个字符中、每一字符的形状特征、上下文特征和关注区域特征进行点积运算，并根据运算结果对与所述至少两个字符对应的票据字符样本进行识别，得到样本识别结果，以便使用所述样本识别结果对票据识别模型进行训练，得到目标票据识别模型；所述目标票据识别模型用于对票据上的字符进行识别。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。