CN114358171A

CN114358171A - 一种模型训练方法、装置、设备和介质

Info

Publication number: CN114358171A
Application number: CN202111649725.XA
Authority: CN
Inventors: 潘家乐; 张同虎; 肖兆琦; 周琮
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-15

Abstract

本申请涉及图片处理领域，尤其涉及一种模型训练方法、装置、设备和介质。在获取训练图片后，对训练图片中不同类别的信息做不同的标记，同一类别的信息具有相同的标记。若某一类别的信息中存在敏感信息时，根据该某一类别的标记在训练库中获取具有相同标记的数据，以替换部分或全部敏感信息形成新的训练图片。而后利用新的训练图片对模型进行训练，获得识别模型。这样，保证敏感信息不会泄露至训练集中，从而使得识别模型无法识别敏感信息，从而在识别某一图片时，仅输出图片中敏感信息之外的其他信息，有效屏蔽图片中的敏感信息，有效的对图片中的敏感信息进行保护，提高图片的识别效果。

Description

一种模型训练方法、装置、设备和介质

技术领域

本申请涉及图片处理领域，尤其涉及一种模型训练方法、装置、设备和介质。

背景技术

随着时间的推移，越来越多的信息需要建库存储，很多纸质图片、pdf格式的电子图片等材料需要翻译为计算机文字进行存储，例如报销单、发票、医保保险单等。

目前主要通过光学字符识别(Optical Character Recognition，OCR)技术识别各种图片中的信息。光学字符识别技术是指对文本资料的图片文件进行分析识别处理，获取文字及版面信息的过程，也可以将图片中的文字进行识别，并翻译成计算机文字的一种技术。

但是，目前的光学字符识别技术无法对图片中的敏感信息进行有效屏蔽，影响图片的识别效果。

发明内容

本申请提供一种模型训练方法、装置、设备和介质，利用获得的识别模型识别图片中敏感信息之外的信息，有效的对图片中的敏感信息进行保护。

第一方面，本申请提供一种模型训练方法，包括：

获取训练图片，对所述训练图片中不同类别的信息做不同的标记，所述类别包括文字、数字和字母中的至少一种；

若某一类别的信息中存在敏感信息时，根据所述某一类别的标记在训练库中获取具有相同标记的数据信息，以替换至少部分所述敏感信息形成新的训练图片；

利用所述新的训练图片对模型进行训练，获得识别模型。

可选的，所述方法，还包括：

将待识别的图片输入所述识别模型中，输出所述待识别的图片中的信息。

可选的，所述获取训练图片，具体包括：

获取多个图片，分别对每个图片进行切割，获得多个初始切割图片；

从所述多个初始切割图片中选择至少两个初始切割图片进行重组，获得多个重组图片；

将所述多个图片以及所述多个重组图片作为所述训练图片。

可选的，所述识别模型为连接文本提议网络模型，所述连接文本区域网络模型包括卷积神经网络和长短期记忆网络，所述卷积神经网络包括VGG16；

将所述待识别的图片输入识别模型中，输出所述待识别的图片中的信息，具体包括：

利用VGG16识别所述待识别的图片中的特征图像；

将所述特征图像输入所述长短期记忆网络，获得每一行的序列特征；

对所述序列特征进行重排后，经过全连接层以及区域生成网络输出所述待识别的图片中的信息。

可选的，所述方法还包括：

对所述输出的所述待识别的图片中的信息进行整理，获得符合预设格式的文件，并存储所述文件。

可选的，所述待识别的图片为彩色图片；

所述获取待识别的图片之后，所述方法还包括：

将所述待识别的图片转换为黑白点阵的图片；

将所述黑白点阵的图片输入识别模型中，输出所述待识别图片中的信息。

可选的，所述敏感信息包括名字、电话号码、身份证件号、银行卡号以及家庭住址中的一个或多个的组合。

第二方面，本申请提供一种模型训练装置，包括：

第一获取模块，用于获取训练图片，对所述训练图片中不同类别的信息做不同的标记，所述类别包括文字、数字和字母中的至少一种；

第二获取模块，用于若某一类别的信息中存在敏感信息时，根据所述某一类别的标记在训练库中获取具有相同标记的数据信息，以替换至少部分所述敏感信息形成新的训练图片；

训练模块，用于利用所述新的训练图片对模型进行训练，获得识别模型。

第三方面，本申请提供一种电子设备，包括：存储器和处理器；

存储器用于存储指令；处理器用于调用存储器中的指令执行第一方面及第一方面任一种可能的设计中的模型训练方法。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机指令，当电子设备的至少一个处理器执行该计算机指令时，电子设备执行第一方面及第一方面任一种可能的设计中的模型训练方法。

第五方面，本申请提供一种计算机程序产品，所述计算机程序产品包括计算机指令，当电子设备的至少一个处理器执行该计算机指令时，电子设备执行第一方面及第一方面任一种可能的设计中的模型训练方法。

本申请提供的模型训练方法，在获取训练图片后，对训练图片中不同类别的信息做不同的标记，同一类别的信息具有相同的标记。若某一类别的信息中存在敏感信息时，根据该某一类别的标记在训练库中获取具有相同标记的数据，以替换部分或全部敏感信息形成新的训练图片。而后利用新的训练图片对模型进行训练，获得识别模型。这样，保证敏感信息不会泄露至训练集中，从而使得识别模型无法识别敏感信息，从而在识别某一图片时，仅输出图片中敏感信息之外的其他信息，有效屏蔽图片中的敏感信息，有效的对图片中的敏感信息进行保护，提高图片的识别效果。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的模型训练方法的流程图；

图2为本申请一实施例提供的模型训练方法的流程图；

图3为本申请一实施例提供的模型训练装置的结构示意图；

图4为本申请一实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前的光学字符识别技术对于发票等包括固定模板和格式的图片具有较好的识别效果，但是无法对图片中的敏感信息进行有效屏蔽，影响图片的识别效果。

针对上述问题，本申请提出了一种模型训练方法，在获取训练图片后，对训练图片中不同类别的信息做不同的标记，同一类别的信息具有相同的标记。若某一类别的信息中存在敏感信息时，根据该某一类别的标记在训练库中获取具有相同标记的数据，以替换部分或全部敏感信息形成新的训练图片。而后利用新的训练图片对模型进行训练，获得识别模型。这样，保证敏感信息不会泄露至训练集中，从而使得识别模型无法识别敏感信息，从而在识别某一图片时，仅输出图片中敏感信息之外的其他信息，有效屏蔽图片中的敏感信息，有效的对图片中的敏感信息进行保护，提高图片的识别效果。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本申请中，以电子设备为执行主体，执行如下实施例的模型训练方法。具体地，该执行主体可以为电子设备的硬件装置，或者为电子设备中实现下述实施例的软件应用，或者为安装有实现下述实施例的软件应用的计算机可读存储介质，或者为实现下述实施例的软件应用的代码。

图1示出了本申请一实施例提供的一种模型训练方法的流程图。如图1所示，以电子设备为执行主体，本实施例的方法可以包括如下步骤：

S101、获取训练图片，对训练图片中不同类别的信息做不同的标记。

训练图片可以为纸质图片、pdf格式的电子图片、手写的各种资料图片等，例如可以为报销单、发票、医保报销单、简历等。

将训练图片中的信息进行分类，将属于同一类别的信息做出相同的标记，不同类别的信息做出不同的标记，类别例如包括文字、数字和字母中的至少一种。例如，将训练图片中的文字信息做第一标记，数字信息做第二标记，字母信息做第三标记，第一标记、第二标记和第三标记为不同的标记。

训练图片可以通过一个或多个图片获得，例如可以通过一个图片获得，具体的，将一个图片进行切割，获得多个初始切割图片，而后从多个初始切割图片中提取一个或多个初始切割图片，对提取的多个初始切割图片随机进行重排，获得多个组合图片，而后将提取的初始切割图片以及多个组合图片均作为训练图片。例如可以通过多个图片获得，获取多个图片后，分别对每个图片进行切割，每一个图片均可以获得多个初始切割图片，多个图片可以获得大量的初始切割图片，从大量的初始切割图片中选择至少两个初始切割图片进行重组，获得多个重组图片，可以将多个图片以及多个重组图片作为训练图片，也可以将每一个初始切割部分以及多个图片以及多个重组图片作为训练图片。由于手写图片数量较少，将获得的手写图片进行切割、重组等可以获得大量图片，从而增加训练图片的数量，扩充模型训练集的数量，以达到更好的训练效果，有利于提高后续识别效果。

S102、若某一类别的信息中存在敏感信息时，根据某一类别的标记在训练库中获取具有相同标记的数据信息，以替换至少部分敏感信息形成新的训练图片。

当某一类别的信息中存在敏感信息时，在训练库中查找与该类别信息的标记相同的标记，并获取该标记对应的数据信息。例如该类别信息为第一标记，则在训练库中查找第一标记，并获取第一标记对应的数据。由于训练库中一个标记对应多个数据信息，因而可以从多个数据信息中随机选择一个与敏感信息不同的数据信息，将这一个数据信息作为敏感信息的替换信息。

而后，将从训练库中获取的数据信息替换至少部分敏感信息，可以将敏感信息全部替换掉，形成新的训练图片，也可以将敏感信息的部分信息替换掉，则剩余的敏感信息与从训练库中获得的数据信息拼接为新的训练图片。

S103、利用新的训练图片对模型进行训练，获得识别模型。

利用VGG16作为预训练模型，对VGG16模型进行微调(finetune)，截断预训练模型的前两次，使其不参与训练，微调减小模型收敛所需的计算量，提取模型的准确率。

通过VGG16模型识别训练图片中的特征图像，并将特征图像输入双向LSTM，双向LSTM学习每一行的序列特征后，经过reshape恢复形状，此时的特征包括空间特征和序列特征，经过“FC”卷积层和RPN后，获得训练图片的识别信息，可以将模型识别的信息与实际存在的信息进行比对，比对一致后，将当前的CTPN模型作为识别模型，比对不一致，继续对模型进行训练，直至比对一致后，将输出识别信息且识别信息与实际存在的信息一致时对应的CTPN模型作为识别模型。

CTPN模型使用固定的锚点(anchor)策略，利用滑动窗口检测长度不确定的文本，可以根据训练图片获取图片中所有锚点的信息，图片中的文本区域即为多个锚点的序列，单个文本区域是由多个邻接的锚点组成的。

CTPN模型的损失函数包括三个部分：

Ls：锚点是否包含文本区域的分类损失；

Lv：文本区域中每个锚点的中心y坐标及高度的回归损失；

Lo：文本区域两侧锚点的中心x坐标的回归损失；

其中回归损失部分采用Smooth L1损失函数，分类损失部分采用交叉熵损失函数，总的损失函数为Ls、Lv、Lo三者的和。Smooth L1损失函数在训练后期梯度值相较于L1损失函数而言较小，从而可以较快地收敛，且其对野点不敏感，可以防止异常值带来的梯度爆炸。

图2示出了本申请一实施例提供的一种模型训练方法的流程图。在图1所述实施例的基础上，本实施例将待识别图片输入识别模型中，识别模型输出待识别图片中的敏感信息之外的其他信息，有效保护待识别图片中的敏感信息。如图2所示，以电子设备为执行主体，本实施例的方法可以包括如下步骤：

S201、获取训练图片，对训练图片中不同类别的信息做不同的标记。

步骤S201与图1实施例中的步骤S101实现方式类似，本实施例此处不再赘述。

S202、若某一类别的信息中存在敏感信息时，根据某一类别的标记在训练库中获取具有相同标记的数据信息，以替换至少部分敏感信息形成新的训练图片。

作为一种实现方式，可以对获得的训练图片进行切割，例如通过人工对训练图片进行切割，切割过程中可以将具有敏感信息的部分单独切割为一部分。例如，将一张训练图片切割为五个部分，分别为左上部分、左下部分、左下部分、右下部分以及中间部分，中间部分包括敏感信息时，利用从训练库中获得的数据信息替换中间部分的敏感信息，而后将左上部分、左下部分、左下部分以及右下部分继续按照原先的排列方式进行组合，从而获得新的训练图片。

S203、利用新的训练图片对模型进行训练，获得识别模型。

S204、将待识别的图片输入识别模型中，输出待识别的图片中的信息。

将待识别的图片输入识别模型中，由于识别模型是通过去除敏感信息的图片训练获得的，因而将待识别的图片输入识别模型后，识别模型难以识别敏感信息，从而输出待识别图片中敏感信息之外的其他信息，有效屏蔽待识别图片中的敏感信息。敏感信息例如为名字、电话号码、身份证号、银行卡号、家庭住址中的一个或多个的组合。

识别模型可以为连接文本提议网络(Connection Text Proposal Network，CTPN)模型，CTPN模型是目前应用较广的文本检测模型，其基本假设是单个字符相较于异质化程度更高的文本行更容易被检测，因此先对单个字符进行类似R-CNN(Region-ConvolutionalNerual Networks，区域卷积神经网络)的检测，并在检测网络中加入双向LSTM(LongShort-Term Memory，长短期记忆网络)，使得检测结构形成序列提供了文本的上下文特性，便可以将多个字符进行合并得到文本行。其中，CNN包括VGG16，VGG16包括13个卷积层，3个全连接层。

将待识别图片输入识别模型后，通过CNN模块获得待识别图片对于的特征图像(feature map)，将特征图像输入LSTM，获得每一行的序列特征，对序列特征进行重排(reshape)后经过全连接层(FC)以及区域生成网络(RPN)输出待识别图像中的信息。具体的，利用VGG16提取特征，获得大小为N×C×H×W的conv5特征图像，其中，N代表数量，C代表channel，H代表高度，W代表宽度，channel代表图像的通道数量，例如图像为RGB彩色图像，channel＝3，图像为灰度图像，channel＝1。之后在cnnv5上做3×3的滑动窗口，及每个点都结合周围3×3区域特征获得一个长度为3×3×C的特征向量，输出N×9C×H×W的特征图像。而后，将N×9C×H×W的特征图像进行reshape，以将N×9C×H×W转换为(NH)×W×9C。然后，以batch＝NH且最大时间长度T_max＝W的数据输入双向LSTM，双向LSTM学习每一行的序列特征后，输出(NH)×W×256，将(NH)×W×256再进行reshape恢复形状为NN×256×H×W，此时的特征包括图像的空间特征以及LSTM学习到的序列特征。其中，batch是一个超参数，用于定义在更新内部模型参数之前要处理的样本数。随后再经过“FC”卷积层变为NN×256×H×W的特征，最后经过类似于Faster R-CNN的RPN网络，获得待识别图像中的信息。

作为一种实现方式，待识别的图片为彩色图片时，可以先将待识别图片转换为黑白点阵的图片，而后将黑白点阵的图片输入预训练模型中，输出待识别图片中的信息。

图3示出了本申请一实施例提供的一种模型训练装置的结构示意图，如图3所示，本实施例的模型训练装置10用于实现上述任一方法实施例中对应于电子设备的操作，本实施例的模型训练装置10包括：

第一获取模块11，用于获取训练图片，对训练图片中不同类别的信息做不同的标记，类别包括文字、数字和字母中的至少一种；

第二获取模块12，用于若某一类别的信息中存在敏感信息时，根据某一类别的标记在训练库中获取具有相同标记的数据信息，以替换至少部分敏感信息形成新的训练图片；

训练模块13，用于利用新的训练图片对模型进行训练，获得识别模型。

本申请实施例提供的模型训练装置10，可执行上述方法实施例，其具体实现原理和技术效果，可参见上述方法实施例，本实施例此处不再赘述。

图4示出了本申请实施例提供的一种电子设备的硬件结构示意图。如图4所示，该电子设备20，用于实现上述任一方法实施例中对应于电子设备的操作，本实施例的电子设备20可以包括：存储器21，处理器22和通信接口23。

存储器21，用于存储计算机指令。该存储器21可能包含高速随机存取存储器(Random Access Memory，RAM)，也可能还包括非易失性存储(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

处理器22，用于执行存储器存储的计算机指令，以实现上述实施例中的模型训练方法。具体可以参见前述方法实施例中的相关描述。该处理器22可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

可选地，存储器21既可以是独立的，也可以跟处理器22集成在一起。

通信接口23，可以与处理器22连接。处理器22可以控制通信接口23来实现信息的接收和发送的功能。

本实施例提供的电子设备可用于执行上述的模型训练方法，其实现方式和技术效果类似，本实施例此处不再赘述。

本申请还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机指令，计算机指令被处理器执行时用于实现上述的各种实施方式提供的方法。

本申请还提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。设备的至少一个处理器可以从计算机可读存储介质中读取该计算机指令，至少一个处理器执行该计算机指令使得设备实施上述的各种实施方式提供的方法。

本申请实施例还提供一种芯片，该芯片包括存储器和处理器，所述存储器用于存储计算机指令，所述处理器用于从所述存储器中调用并运行所述计算机指令，使得安装有所述芯片的设备执行如上各种可能的实施方式中所述的方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制。尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

利用所述新的训练图片对模型进行训练，获得识别模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述获取训练图片，具体包括：

将所述多个图片以及所述多个重组图片作为所述训练图片。

4.根据权利要求2所述的方法，其特征在于，所述识别模型为连接文本提议网络模型，所述连接文本区域网络模型包括卷积神经网络和长短期记忆网络，所述卷积神经网络包括VGG16；

将待识别的图片输入识别模型中，输出所述待识别的图片中的信息，具体包括：

利用VGG16识别所述待识别的图片中的特征图像；

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.根据权利要求2所述的方法，其特征在于，所述待识别的图片为彩色图片；

所述获取待识别的图片之后，所述方法还包括：

将所述待识别的图片转换为黑白点阵的图片；

7.根据权利要求1所述的方法，其特征在于，所述敏感信息包括名字、电话号码、身份证件号、银行卡号以及家庭住址中的一个或多个的组合。

8.一种模型训练装置，其特征在于，所述装置，包括：

第二获取模块，用于若某一类别的信息中存在敏感信息时，根据所述某一类别的标记在训练库中获取具有相同标记的数据，以替换至少部分所述敏感信息形成新的训练图片；

9.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1至7中任意一项所述的模型训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机指令，所述计算机指令被处理器执行时用于实现如权利要求1至7任一项所述的模型训练方法。