CN111860669A

CN111860669A - Ocr识别模型的训练方法、装置和计算机设备

Info

Publication number: CN111860669A
Application number: CN202010734518.3A
Authority: CN
Inventors: 叶明�; 盛建达; 张国辉; 宋晨
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-10-30
Anticipated expiration: 2040-07-27
Also published as: CN111860669B; WO2021139342A1

Abstract

本发明涉及人工智能技术，应用于智慧城市中，提出的OCR识别模型的训练方法、装置、计算机设备和存储介质，其中方法包括：获取样本集；对样本集中的部分样本进行标注，以使样本集包括标注样本以及非标注样本；将样本集输入至预设的OCR识别网络中进行计算得到第一特征向量集；将第一特征向量集输入到用于做无监督训练的第一损失计算层计算得到第一损失值集，以及将第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集；将第一损失值集与第二损失值集通过网络反向传播计算出网络的参数梯度，以更新OCR识别网络的参数直到收敛，得到OCR识别模型；该OCR识别模型与传统训练方法得到OCR模型相比，识别精度更高。

Description

OCR识别模型的训练方法、装置和计算机设备

技术领域

本发明涉及到识别模型的技术领域，特别是涉及到一种OCR识别模型的训练方法、装置、计算机设备和存储介质。

背景技术

OCR(Optical Character Recognition，光学字符识别)是人工智能领域重要的领域，利用OCR可以快速的将光学字符转化为数字化信息，极大的降低了人工录入的成本，因而被广泛地应用在各类票证数字化的系统中。

目前，传统OCR识别一般通过监督学习训练出的识别模型来实现，但传统OCR识别系统存在以下缺陷：训练识别模型时，OCR识别的字符需要预先定义，并针对每个类别的字符，均需要采集大量的样本数据；而且这样训练出来的识别模型对于预先定义以外的字符没有识别能力，需要追加数据二次训练；另外，当训练数据与实际生产环境存在表现差异的时候，系统精度会有比较明显的下降。

发明内容

本发明的主要目的为提供一种OCR识别模型的训练方法、装置、计算机设备和存储介质，旨在解决现有技术中OCR识别模型识别效果不佳的技术问题。

基于上述发明目的，本发明提出一种OCR识别模型的训练方法，包括：

获取样本集；

对所述样本集中的部分样本进行标注，以使所述样本集包括标注样本以及非标注样本；

将所述样本集输入至预设的OCR识别网络中进行计算，得到第一特征向量集；

将所述第一特征向量集输入到用于做无监督训练的第一损失计算层，计算得到第一损失值集，以及将所述第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集；

将所述第一损失值集与第二损失值集通过网络反向传播计算出网络的参数梯度，以更新所述OCR识别网络的参数直到收敛，得到OCR识别模型。

进一步地，所述将所述第一损失值集与第二损失值集通过网络反向传播计算出网络的参数梯度的步骤，包括：

依据所述非标注样本与所述标注样本的数量得到数量比值，依据所述数据比值获取第一系数与第二系数，其中，所述第一系数与所述第二系数的比值与所述数量比值对应；

将所述第一损失值乘以所述第一系数得到第一值，并将第二损失值乘以第二系数得到第二值，将所述第一值与第二值相加得到函数损失值；

将所述函数损失值通过网络反向传播计算参数梯度。

进一步地，所述将所述第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集的步骤之前，包括：

判断所述第一特征向量集中的第一特征向量是否由所述标注样本计算得到的特征向量；

若是，则将所述第一特征向量输入至所述第二损失计算层中；

若否，则将所述第一特征向量剔除。

进一步地，所述第二损失计算层由分类网络层以及做监督训练的损失函数构建，所述将所述第一损失值集与第二损失值集通过网络反向传播计算出网络的参数梯度，以更新所述OCR识别网络的参数直到收敛，得到OCR识别模型的步骤之后，包括：

获取需要扩展识别的字符样本集，所述字符样本集中包括多种不同类型的字符样本；

将所述字符样本集输入至所述OCR识别模型中的OCR识别网络进行计算，得到与各所述字符样本对应的第二特征向量；

对所有同类型的所述第二特征向量分别计算得到中心向量，每一所述中心向量对应一种类型的字符样本；

依据各类的所述字符样本的中心向量更改所述分类网络层的权值矩阵，以得到扩展识别字符后的OCR识别模型。

进一步地，所述对所有同类型的所述第二特征向量分别计算得到中心向量的步骤，包括：

对所有同类型的所述第二特征向量分别进行归一化处理，并求出平均值，将所述平均值作为所述中心向量。

进一步地，所述第一损失计算层由Contrastive LOSS函数构建，所述第二损失计算层由分类网络层以及CTC LOSS函数构建。

本发明还提供一种OCR识别模型的训练装置，包括：

获取样本单元，用于获取样本集；

标注样本单元，用于对所述样本集中的部分样本进行标注，以使所述样本集包括标注样本以及非标注样本；

输入网络单元，用于将所述样本集输入至预设的OCR识别网络中进行计算，得到第一特征向量集；

计算损失单元，用于将所述第一特征向量集输入到用于做无监督训练的第一损失计算层，计算得到第一损失值集，以及将所述第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集；

更新参数单元，用于将所述第一损失值集与第二损失值集通过网络反向传播计算出网络的参数梯度，以更新所述OCR识别网络的参数直到收敛，得到OCR识别模型。

进一步地，所述更新参数单元，包括：

获取系数子单元，用于依据所述非标注样本与所述标注样本的数量得到数量比值，依据所述数据比值获取第一系数与第二系数，其中，所述第一系数与所述第二系数的比值与所述数量比值对应；

获得损失子单元，用于将所述第一损失值乘以所述第一系数得到第一值，并将第二损失值乘以第二系数得到第二值，将所述第一值与第二值相加得到函数损失值；

反向传播子单元，用于将所述函数损失值通过网络反向传播计算参数梯度。

本发明还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述OCR识别模型的训练方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述OCR识别模型的训练方法的步骤。

本发明的有益效果为：本申请提供的OCR识别模型的训练方法，将传统训练方法中单纯采用一种用于监督训练的标注训练数据，变成采用用于监督训练以及无监督训练的两种不同训练数据。训练过程中也分成两方面同时进行，一方面标注样本数据依然采用传统的监督训练流程，最终通过CTCLOSS进行约束；另一方面无标注的泛化字符数据，则在RNN层之后，不经过分类层，通过ContrastiveLOSS做无监督的据类型约束，由于在训练中加入了大量的额外无标注字符数据进行无监督训练，如此得到的OCR识别模型，与传统训练方法得到OCR模型相比，识别精度更提高，当实际应用中的输入数据与训练数据差别较大时，由于传统训练方法是单纯的监督训练，识别精度较低，甚至无法识别，而通过本申请提供的训练方法，结合了监督训练以及无监督训练，识别精度大大提高，在环境适应性以及系统泛化性上有了明显的提升。

附图说明

图1为本发明一实施例中OCR识别模型的训练方法的步骤示意图；

图2为本发明一实施例中OCR识别模型的训练装置的结构示意框图；

图3为本发明一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，本实施例中的OCR识别模型的训练方法，包括：

步骤S1：获取样本集；

步骤S2：对所述样本集中的部分样本进行标注，以使所述样本集包括标注样本以及非标注样本；

步骤S3：将所述样本集输入至预设的OCR识别网络中进行计算，得到第一特征向量集；

步骤S4：将所述第一特征向量集输入到用于做无监督训练的第一损失计算层，计算得到第一损失值集，以及将所述第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集；

步骤S5：将所述第一损失值集与第二损失值集通过网络反向传播计算出网络的参数梯度，以更新所述OCR识别网络的参数直到收敛，得到OCR识别模型。

如上述步骤S1-S2所述，获取样本集，该样本集用于训练OCR识别网络，上述样本集的样本为各种不同的字符，例如文字、图形，可以为中文文字、拼音，或英文字母、日语、藏语等等，具体可以通过网络爬取而得，或者直接由用户输入而得，或者预先存储于预设数据库中，需要时直接获取而得。获得用于训练OCR识别网络的样本集后，对样本集中的部分样本进行标注，得到部分已标注的标注样本，以及剩下部分未标注的非标注样本，本实施例中，上述部分样本可以为预先指定的样本，也可以为随机抽取的样本，上述非标注样可以为泛化字符样本，如此可将标注样本进行监督学习训练，将非标注样本做无监督学习训练。

如上述步骤S3-S4所述，将上述样本集输入至预设的OCR识别网络中进行计算，得到对应各样本的向量特征，此处不限定OCR识别网络的类型，只要采用能够实现OCR识别的模型构架即可，例如采用CNN+RNN搭建的网络模型，或者采用CNN+Seq2Seq+Attention构建，将上述样本集通过上述结构搭建的OCR识别网络计算得到向量特征集，在该向量特征集中每一向量特征对应一样本，为了便于区别，此处命为第一向量特征集，对应的第一向量特征集中的向量特征命为第一向量特征。

接着可将第一特征向量集输入到用于做无监督训练的第一损失计算层，计算得到第一损失值集，以及将第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集，此处不限制第一损失计算层以及第二损失计算成层的网络结构，只要第一损失计算层是用于做无监督训练，以及第二损失计算层用于做有监督训练的即可，例如，当采用CNN+RNN搭建的网络时，此时可在RNN层后接分类网络层，对应监督训练时，采用CTC loss函数作为损失函数，也即第二损失计算层包括分类网络层以及CTC loss函数，对应无监督训练时，可直接在RNN层后连接用于进行无监督训练的损失函数，可采用对比性loss函数，例如Contrastive LOSS函数，也即第一损失计算层由Contrastive LOSS函数构建，需知Contrastive LOSS的原理是同一个样本的不同数据增广产生的特征向量距离靠近，不同样本的特征向量距离远离，一般使用向量内积，内积值越大则两个向量距离越近，本实施例中，采用Contrastive LOSS函数来计算，可使得其作无监督训练效果更佳；当OCR识别网络采用CNN+Seq2Seq+Attention构建，训练时，同样可采用不同的损失函数来计算。

如上述步骤S5所述，将第一损失值集中的第一损失值与第二损失值集中的第二损失值通过网络反向传播计算出网络的参数梯度，从而根据参数梯度更新OCR识别网络的参数直到网络模型收敛，得到OCR识别模型，训练完成后，可对OCR识别模型进行测试，测试使用时将训练过程中所采用的损失函数去掉。

本申请提供的OCR识别模型的训练方法，将传统训练方法中单纯采用一种用于监督训练的标注训练数据，变成采用用于监督训练以及无监督训练的两种不同训练数据。训练过程中也分成两方面同时进行，一方面标注样本数据依然采用传统的监督训练流程，最终通过CTC loss进行约束；另一方面无标注的泛化字符数据，则在RNN层之后，不经过分类层，通过ContrastiveLOSS做无监督的据类型约束，由于在训练中加入了大量的额外无标注字符数据进行无监督训练，如此得到的OCR识别模型，与传统训练方法得到OCR模型相比，识别精度更高，当实际应用中的输入数据与训练数据差别较大时，由于传统训练方法是单纯的监督训练，这时对输入数据的识别精度会较低，甚至无法识别，而通过本申请提供的训练方法，结合了监督训练以及无监督训练，对输入数据的识别精度较高，也即通过本申请的训练方法，使上述OCR识别模型在环境适应性以及系统泛化性上有了明显的提升。

在一实施例中，将第一损失值集与第二损失值集通过网络反向传播计算出网络的参数梯度，既可将第一损失值与第二损失值合并之后再进行反向传播计算，也可以直接分别反向传播计算，为了获得更好的效果，还可以根据样本数据来确定第一损失值与第二损失值的比例再进行反向传播计算，具体而言，上述步骤S5，包括：

步骤S51：依据所述标注样本与所述非标注样本的数量得到数量比值，依据所述数量比值获取第一系数与第二系数，其中，所述第一系数与第二系数的比值与所述数量比值对应；

步骤S52：将所述第一损失值乘以所述第一系数得到第一值，并将第二损失值乘以第二系数得到第二值，将所述第一值与第二值相加得到函数损失值；

步骤S53：将所述函数损失值通过网络反向传播计算参数梯度。

本实施例中，由于标注样本与非标注样本所采用的损失函数不一样，为了使得模型识别更精准，其对应的损失值也可以按对应比例来进行反向传播，也即第一损失值与第二损失值分别乘以一个系数之后再相加得到总的函数损失值。

具体而言，可通过非标注样本与标注样本的数量，得到样本的比例，也即得到两者的数量比值，然后依据该数量比值获取第一系数与第二系数，或者在上述数量比值的基础上，依据实际情况设置第一系数与第二系数，例如上述数量比值为1:1.5，则对应的第一系数可为1，第二系数可为1.5，然后将第一损失值乘以第一系数得到第一值，并将第二损失值乘以第二系数得到第二值，将第一值与第二值相加得到函数损失值，再将函数损失值通过网络反向传播计算模型的参数梯度，或者直接将第一值与第二值分别进行反向传播计算模型的参数梯度。

在一实施例中，上述步骤S4中的将所述第一特征向量输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值的步骤之前，包括：

步骤S41：判断所述第一特征向量集中的第一特征向量是否由所述标注样本计算得到的特征向量；

步骤S42：若是，则将所述第一特征向量输入至所述第二损失计算层中；

步骤S43：若否，则将所述第一特征向量剔除。

本实施例中，由于第二损失计算层是针对有监督训练的，故而所采用的样本为标注样本，若输入计算的为非标注样本对应的特征向量，则第二损失计算层的输出难以确保可以使用，例如将非标注样本对应的特征向量输入到分类网络层与CTC loss函数后的输出为0，可直接剔除，这时为了避免浪费运算资源，可在输入第二损失计算层计算之前，先判断第一特征向量是否由标注样本计算得到的特征向量，若是，则第一特征向量输入至第二损失计算层中进行计算，否则直接剔除。

在一个实施例中，上述步骤S5之后，包括：

步骤S6：获取需要扩展识别的字符样本集，所述字符样本集中包括多种不同类型的字符样本；

步骤S7：将所述字符样本集输入至所述OCR识别模型中的OCR识别网络进行计算，得到与各所述字符样本对应的第二特征向量；

步骤S8：对所有同类型的所述第二特征向量分别计算得到中心向量，每一所述中心向量对应一种类型的字符样本；

步骤S9：依据各类的所述字符样本的中心向量更改所述分类网络层的权值矩阵，以得到扩展识别字符后的OCR识别模型。

本实施例中，第二损失计算层由分类网络层以及做监督训练的损失函数构建，则训练完成后去除损失函数时，最后得到的OCR识别模型包括有分类网络层。当需要识别更多未知的字符时，对于上述OCR识别模型，无需进行二次训练，按上述步骤修改分类网络层即可，首先，获取需要扩展识别的字符样本集，该字符样本集包括多种不同类型的需要进行扩展识别的字符样本，每种类型的字符至少包含有一个样本，同类多个样本可以提升识别稳定性，故在可以获取更多同一类型字符时，可尽量获取更多的样本，将字符样本集输入至OCR识别模型中的OCR识别网络进行计算，得到与各字符样本对应的特征向量，为了与上述第一特征向量区域，此处命为第二特征向量，例如经过CNN以及RNN层计算之后输出上述第二特征向量。

然后将所有第二特征向量中的同类型的第二特征向量归为一类，再对各同类型的第二特征向量分别计算得到其对应的中心向量，每一中心向量对应一种类型的字符样本，此处的中心向量相当于在多个同类型的特征中取其中心值或平均值，上述中心值用于表示该类所有特征向量的欧式距离的中心，使其更能反映该类型字符样本的特征情况，具体而言，在一个实施例中，步骤S8，包括：

步骤S80：对所有同类型的所述第二特征向量分别进行归一化处理，并求出平均值，将所述平均值作为所述中心向量。

本实施例中，采用对第二特征向量作算数平均的方法来得到同类字符的中心向量，首先对同类型的所有特征向量进行归一化处理，得到对应的单位向量，然后再各单位向量的平均值，这时，可将该平均值作为上述中心向量。

如上述步骤S9所述，依据各类字符样本的中心向量更改分类网络层的权值矩阵，例如增加需要识别的字符有10类字符，通过上述计算得到10个中心向量，若分类网络层的权值矩阵为的维度为10000，则在此基础上按照上述中心向量增加10个维度的权值数据，得到权值矩阵维度为10010的分类网络层，从而得到扩展识别字符后的OCR识别模型。

当需要识别新的字符时，通过上述方法修改分类网络层，即可实现扩展识别，无需对识别模型进行二次训练，针对实际使用场景可能会出现的字符，仅需要提供少量的样本数据，即可快速的对识别模型进行扩展。极大的降低了由训练数据与实际生产环境数据不一致，而导致的二次调试的采样以及训练成本，加速了部署速度，提高了整个OCR系统的可扩展性。

本申请中，通过上述步骤得到的OCR识别模型，可应用于金融科技领域中，用于对字符进行识别，例如在金融行业的某一系统进行注册时，需要对用户的证件进行识别，而不同国籍的用户，其证件所采用的文字也不一样，如韩语、日语、泰语、英语、中文等等，由于本申请提供的OCR识别模型通过有监督与无监督结合训练得到，故而针对极为少见的字符，即便在训练时得到样本极少甚至没有，也能够识别出对应的字符，进而获得用户的证件信息，而且，在碰到新的字符时，可直接记录并通过上述步骤S6-S9的步骤，进而拓展OCR识别模型，使其在下一次识别该类型字符时，可以准确识别，进而精准获得到用户的信息。

参照图2，本实施例中提供一种OCR识别模型的训练装置，该装置对应上述OCR识别模型的训练方法，该装置包括：

获取样本单元100，用于获取样本集；

标注样本单元200，用于对所述样本集中的部分样本进行标注，以使所述样本集包括标注样本以及非标注样本；

输入网络单元300，用于将所述样本集输入至预设的OCR识别网络中进行计算，得到第一特征向量集；

计算损失单元400，用于将所述第一特征向量集输入到用于做无监督训练的第一损失计算层，计算得到第一损失值集，以及将所述第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集；

更新参数单元500，用于将所述第一损失值集与第二损失值集通过网络反向传播计算出网络的参数梯度，以更新所述OCR识别网络的参数直到收敛，得到OCR识别模型。

如上述获取样本单元100及标注样本单元200所述，获取样本集，该样本集用于训练OCR识别网络，上述样本集的样本为各种不同的字符，例如文字、图形，可以为中文文字、拼音，或英文字母、日语、藏语等等，具体可以通过网络爬取而得，或者直接由用户输入而得，或者预先存储于预设数据库中，需要时直接获取而得。获得用于训练OCR识别网络的样本集后，对样本集中的部分样本进行标注，得到部分已标注的标注样本，以及剩下部分未标注的非标注样本，本实施例中，上述部分样本可以为预先指定的样本，也可以为随机抽取的样本，上述非标注样可以为泛化字符样本，如此可将标注样本进行监督学习训练，将非标注样本做无监督学习训练。

如上述输入网络单元300及计算损失单元400所述，将上述样本集输入至预设的OCR识别网络中进行计算，得到对应各样本的向量特征，此处不限定OCR识别网络的类型，只要采用能够实现OCR识别的模型构架即可，例如采用CNN+RNN搭建的网络模型，或者采用CNN+Seq2Seq+Attention构建，将上述样本集通过上述结构搭建的OCR识别网络计算得到向量特征集，在该向量特征集中每一向量特征对应一样本，为了便于区别，此处命为第一向量特征集，对应的第一向量特征集中的向量特征命为第一向量特征。

如上述更新参数单元500所述，将第一损失值集中的第一损失值与第二损失值集中的第二损失值通过网络反向传播计算出网络的参数梯度，从而根据参数梯度更新OCR识别网络的参数直到网络模型收敛，得到OCR识别模型，训练完成后，可对OCR识别模型进行测试，测试使用时将训练过程中所采用的损失函数去掉。

在一实施例中，将第一损失值集与第二损失值集通过网络反向传播计算出网络的参数梯度，既可将第一损失值与第二损失值合并之后再进行反向传播计算，也可以直接分别反向传播计算，为了获得更好的效果，还可以根据样本数据来确定第一损失值与第二损失值的比例再进行反向传播计算，具体而言，上述更新参数单元500，包括：

获取系数子单元，用于依据所述标注样本与所述非标注样本的数量得到数量比值，依据所述数量比值获取第一系数与第二系数，其中，所述第一系数与第二系数的比值与所述数量比值对应；

在一实施例中，上述OCR识别模型的训练装置还包括：

判断向量单元，用于判断所述第一特征向量集中的第一特征向量是否由所述标注样本计算得到的特征向量；

输入算层单元，用于判定所述第一特征向量集中的第一特征向量由所述标注样本计算得到的特征向量时，将所述第一特征向量输入至所述第二损失计算层中；

剔除向量单元，用于判定所述第一特征向量集中的第一特征向量不是由所述标注样本计算得到的特征向量时，将所述第一特征向量剔除。

在一个实施例中，上述OCR识别模型的训练装置还包括：

获取字符单元，用于获取需要扩展识别的字符样本集，所述字符样本集中包括多种不同类型的字符样本；

计算特征单元，用于将所述字符样本集输入至所述OCR识别模型中的OCR识别网络进行计算，得到与各所述字符样本对应的第二特征向量；

计算中心单元，用于对所有同类型的所述第二特征向量分别计算得到中心向量，每一所述中心向量对应一种类型的字符样本；

更改分类单元，用于依据各类的所述字符样本的中心向量更改所述分类网络层的权值矩阵，以得到扩展识别字符后的OCR识别模型。

然后将所有第二特征向量中的同类型的第二特征向量归为一类，再对各同类型的第二特征向量分别计算得到其对应的中心向量，每一中心向量对应一种类型的字符样本，此处的中心向量相当于在多个同类型的特征中取其中心值或平均值，上述中心值用于表示该类所有特征向量的欧式距离的中心，使其更能反映该类型字符样本的特征情况，具体而言，在一个实施例中，计算中心单元，包括：

求出平均单元，用于对所有同类型的所述第二特征向量分别进行归一化处理，并求出平均值，将所述平均值作为所述中心向量。

如上述更改分类单元所述，依据各类字符样本的中心向量更改分类网络层的权值矩阵，例如增加需要识别的字符有10类字符，通过上述计算得到10个中心向量，若分类网络层的权值矩阵为的维度为10000，则在此基础上按照上述中心向量增加10个维度的权值数据，得到权值矩阵维度为10010的分类网络层，从而得到扩展识别字符后的OCR识别模型。

当需要识别新的字符时，通过上述方法修改分类网络层，即可实现扩展识别，无需对识别模型进行二次训练，针对实际使用场景可能会出现的字符，仅需要提供少量的样本数据，即可快速的对识别模型进行扩展。极大的降低了训练数据与实际生产环境数据不一致，而导致的二次调试的采样以及训练成本，加速了部署速度，提高了整个OCR系统的可扩展性。

本申请中提供的OCR识别模型，可应用于金融科技领域中，用于对字符进行识别，例如在金融行业的某一系统进行注册时，需要对用户的证件进行识别，而不同国籍的用户，其证件所采用的文字也不一样，如韩语、日语、泰语、英语、中文等等，由于本申请提供的OCR识别模型通过有监督与无监督结合训练得到，故而针对极为少见的字符，即便在训练时得到样本极少甚至没有，也能够识别出对应的字符，进而获得用户的证件信息，而且，在碰到新的字符时，可直接记录并通过上述拓展模型的步骤，进而拓展OCR识别模型，使其在下一次识别该类型字符时，可以准确识别，进而精准获得到用户的信息。

参照图3，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述训练模型所需的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种OCR识别模型的训练方法。

上述处理器执行上述OCR识别模型的训练方法的步骤：获取样本集；对所述样本集中的部分样本进行标注，以使所述样本集包括标注样本以及非标注样本；将所述样本集输入至预设的OCR识别网络中进行计算，得到第一特征向量集；将所述第一特征向量集输入到用于做无监督训练的第一损失计算层，计算得到第一损失值集，以及将所述第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集；将所述第一损失值集与第二损失值集通过网络反向传播计算出网络的参数梯度，以更新所述OCR识别网络的参数直到收敛，得到OCR识别模型。

在一个实施例中，上述将所述第一损失值集与第二损失值集通过网络反向传播计算出网络参数梯度的步骤，包括：依据所述非标注样本与所述标注样本的数量得到数量比值，依据所述数据比值获取第一系数与第二系数，其中，所述第一系数与所述第二系数的比值与所述数量比值对应；将所述第一损失值乘以所述第一系数得到第一值，并将第二损失值乘以第二系数得到第二值，将所述第一值与第二值相加得到函数损失值；将所述函数损失值通过网络反向传播计算参数梯度。

在一个实施例中，上述将所述第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集的步骤之前，包括：判断所述第一特征向量集中的第一特征向量是否由所述标注样本计算得到的特征向量；若是，则将所述第一特征向量输入至所述第二损失计算层中；若否，则将所述第一特征向量剔除。

在一个实施例中，上述第二损失计算层由分类网络层以及做监督训练的损失函数构建，所述将所述第一损失值集与第二损失值集通过网络反向传播计算出网络的参数梯度，以更新所述OCR识别网络的参数直到收敛，得到OCR识别模型的步骤之后，包括：获取需要扩展识别的字符样本集，所述字符样本集中包括多种不同类型的字符样本；将所述字符样本集输入至所述OCR识别模型中的OCR识别网络进行计算，得到与各所述字符样本对应的第二特征向量；对所有同类型的所述第二特征向量分别计算得到中心向量，每一所述中心向量对应一种类型的字符样本；依据各类的所述字符样本的中心向量更改所述分类网络层的权值矩阵，以得到扩展识别字符后的OCR识别模型。

在一个实施例中，上述对所有同类型的所述第二特征向量分别计算得到中心向量的步骤，包括：对所有同类型的所述第二特征向量分别进行归一化处理，并求出平均值，将所述平均值作为所述中心向量。

在一个实施例中，上述第一损失计算层由Contrastive LOSS函数构建，所述第二损失计算层由分类网络层以及CTC LOSS函数构建。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本发明一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种OCR识别模型的训练方法，具体为：获取样本集；对所述样本集中的部分样本进行标注，以使所述样本集包括标注样本以及非标注样本；将所述样本集输入至预设的OCR识别网络中进行计算，得到第一特征向量集；将所述第一特征向量集输入到用于做无监督训练的第一损失计算层，计算得到第一损失值集，以及将所述第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集；将所述第一损失值集与第二损失值集通过网络反向传播计算出网络的参数梯度，以更新所述OCR识别网络的参数直到收敛，得到OCR识别模型。

上述计算机可读存储介质，上述将所述第一损失值集与第二损失值集通过网络反向传播计算出网络参数梯度的步骤，包括：依据所述非标注样本与所述标注样本的数量得到数量比值，依据所述数据比值获取第一系数与第二系数，其中，所述第一系数与所述第二系数的比值与所述数量比值对应；将所述第一损失值乘以所述第一系数得到第一值，并将第二损失值乘以第二系数得到第二值，将所述第一值与第二值相加得到函数损失值；将所述函数损失值通过网络反向传播计算参数梯度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM一多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种OCR识别模型的训练方法，其特征在于，包括：

获取样本集；

2.根据权利要求1所述的OCR识别模型的训练方法，其特征在于，所述将所述第一损失值集与第二损失值集通过网络反向传播计算出网络的参数梯度的步骤，包括：

将所述函数损失值通过网络反向传播计算参数梯度。

3.根据权利要求1所述的OCR识别模型的训练方法，其特征在于，所述将所述第一特征向量集输入到用于做有监督训练的第二损失计算层继续计算得到第二损失值集的步骤之前，包括：

若否，则将所述第一特征向量剔除。

4.根据权利要求1所述的OCR识别模型的训练方法，其特征在于，所述第二损失计算层由分类网络层以及做监督训练的损失函数构建，所述将所述第一损失值集与第二损失值集通过网络反向传播计算出网络的参数梯度，以更新所述OCR识别网络的参数直到收敛，得到OCR识别模型的步骤之后，包括：

5.根据权利要求4所述的OCR识别模型的训练方法，其特征在于，所述对所有同类型的所述第二特征向量分别计算得到中心向量的步骤，包括：

6.根据权利要4所述的OCR识别模型的训练方法，其特征在于，所述第一损失计算层由Contrastive LOSS函数构建，所述第二损失计算层由分类网络层以及CTC LOSS函数构建。

7.一种OCR识别模型的训练装置，其特征在于，包括：

获取样本单元，用于获取样本集；

8.根据权利要求7所述的OCR识别模型的训练装置，其特征在于，所述更新参数单元，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的OCR识别模型的训练方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的OCR识别模型的训练方法的步骤。