CN110210542A

CN110210542A - 图片文字识别模型训练方法、装置及文字识别系统

Info

Publication number: CN110210542A
Application number: CN201910437650.5A
Authority: CN
Inventors: 陈方毅; 白明白
Original assignee: Xiamen Mei You Information Technology Co Ltd
Current assignee: Xiamen Mei You Information Technology Co Ltd
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-09-06
Anticipated expiration: 2039-05-24
Also published as: CN110210542B

Abstract

本发明公开了图片文字识别模型训练方法、装置及文字识别系统。训练方法包括：S1、获取原始图片，从文本库中随机选择词语以生成测试文字；S2、随机结合测试文字和原始图片以形成测试图集；S3、训练CTPN模型以形成文字定位模型，训练CRNN模型以形成文字识别模型；S4、依次结合文字定位模型、文字识别模型以形成图片文字识别模型。本发明克服了现有文字识别算法针对于特定种类的图片中的文字识别正确率不高的问题，有效提高了特定种类的图片中的文字识别的准确率，从而为后续的违规文字或图片的处理提供识别的基础。

Description

图片文字识别模型训练方法、装置及文字识别系统

技术领域

本发明涉及图像处理领域，尤其是一种图片文字识别模型训练方法、装置及文字识别系统。

背景技术

网络上展现图片，俗称“晒”的行为，作为社交的一环，能够满足人的心理方面的追求，同时，由于风俗、法律的限制，针对图片所呈现的内容不能超过一定限制，例如不能涉黄，不能包括侮辱词语等。

目前的图片鉴黄算法多基于深度学习模型构建多层视觉感知机，采用Resnet、Densenet、Inception以及基于此改进的神经网络结构，实现了快速地识别多尺度色情内容，取得了不错的效果。同时也存在一些问题：图片识别、鉴定的准确度不高，例如，容易把社区的孕妇图片识别为黄色图片；未能准确识别年幼宝宝相册、视频中的不合规的内容；另一方面，由于晒的图片涉及的场景很复杂，现有的OCR(Optical Character Recognition，光学字符识别)算法所构建的文字识别的模型对于社区图片上所呈现的文字识别效果较弱。

发明内容

本发明实施例旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明实施例的一个目的是提供一种图片文字识别模型训练方法、装置及文字识别系统。

本发明所采用的技术方案是：

第一方面，本发明实施例提供一种图片文字识别模型训练方法，包括：S1、获取指定用户群体上传的原始图片，从文本库中随机选择词语并进行字体变形以生成测试文字；S2、随机结合所述测试文字和所述原始图片以形成测试图集；S3、基于测试图集训练CTPN模型以形成文字定位模型，基于测试文字训练CRNN模型以形成文字识别模型；S4、依次结合所述文字定位模型、文字识别模型以形成图片文字识别模型。

优选地，S1与S2之间还包括：S1.5、基于人工方式区分并标记所述原始图片，建立基于Resnet-50的变体模型，基于所述变体模型和被标记的原始图片进行训练以生成鉴别模型，对应的，S4包括依次结合所述鉴别模型、所述文字定位模型、文字识别模型以形成图片文字识别模型。

优选地，建立基于Resnet-50的变体模型包括：建立神经网络模型Resnet-50，修改卷积层的深层过滤器的参数为[32，32，128]，标记修改参数后的神经网络模型为Resnet-50的变体模型。

优选地，S1.5包括：通过开源图集训练所述变体模型，得到预训练模型；根据预设的图片分类标准的种类数修改所述变体模型最后一层的全连接层，并加载预训练模型的参数以形成训练模型；基于所述训练模型和被标记的原始图片进行训练以生成鉴别模型。

优选地，所述鉴别模型的参数具体包括：随机数种子seed、学习率learning_rate、批尺寸batch_size和交叉熵损失函数的权重pos_weight。

优选地，所述预设的图片分类标准包括以下类别：正常、色情、性感、孕妇、小男孩和小女孩；标记所述色情、性感和小女孩类别图片对应的交叉熵损失函数的权重，高于标记正常和小男孩类别图片对应的交叉熵损失函数的权重。

优选地，确定交叉熵损失函数的权重的包括：设置原始权重，确定每一个标记的单独权重的最优间隔，在最优间隔的范围内随机组合全部标记的单独权重以形成权重组合，根据所述权重组合设置多个鉴别模型，根据验证集和测试集指标训练所述多个鉴别模型以确定最优的鉴别模型的权重组合为交叉熵损失函数的权重。

优选地，所述鉴别模型的参数具体取值为：seed取值为1024；learning_rate取值为0.00025；batch_size取值为32；pos_weight取值为1:5:3:1:1:3，其中，所述权重分别对应标记的类别为正常:色情:性感:孕妇:小男孩:小女孩。

所述文字定位模型的参数包括batch_size、learning_rate、momentum和；其中，batch_size为批尺寸，取值为64；learning_rate为学习率，取值为0.00001；momentum为冲量，取值为0.9；gamma为伽马值，取值为0.1；

所述文字识别模型的参数包括batch_size和learning_rate；batch_size为批尺寸，取值为128；learning_rate为学习率，取值为0.0001。

第二方面，本发明实施例提供一种图片文字识别方法，包括：获取指定用户群体上传的原始图片，从文本库中随机选择词语并进行字体变形以生成测试文字；随机结合所述测试文字和所述原始图片以形成测试图集；基于测试图集训练CTPN模型以形成文字定位模型，基于测试文字训练CRNN模型以形成文字识别模型；依次结合所述文字定位模型、文字识别模型以形成图片文字识别模型；获取指定客户群体上传的待鉴别图片，通过所述图片文字识别模型处理所述待鉴别图片。

第三方面，本发明实施例提供一种图片文字识别模型训练装置，用于执行上述训练方法，其特征在于，包括：资料获取模块，用于获取指定用户群体上传的原始图片，从文本库中随机选择词语并进行字体变形以生成测试文字；资料处理模块，用于随机结合所述测试文字和所述原始图片以形成测试图集；训练模块，用于基于测试图集训练CTPN模型以形成文字定位模型，基于测试文字训练CRNN模型以形成文字识别模型；结合模块，用于依次结合所述文字定位模型、文字识别模型以形成图片文字识别模型。

第四方面，本发明提供一种图片文字识别系统，包括APP端、云服务器和图片文字识别模型，所述APP端连接所述云服务器，所述云服务器连接所述图片文字识别模型。

优选地，还包括CDN，所述CDN分别连接所述云服务器和所述图片文字识别模型。

本发明实施例的有益效果是：

通过获取指定用户群体的原始图片以作为合适的图片背景，通过随机选择词语并进行字体变形以适应各种文字，基于测试图集训练CTPN模型，基于测试文字训练CRNN模型能够针对特定的文字、背景的组合形成合理训练以形成图片文字识别模型。

附图说明

图1是本发明实施例一种图片文字识别模型训练方法的示意图；

图2是本发明实施例的图片文字识别改进方法的示意图；

图3是本发明实施例的一种图片文字识别模型训练装置的示意图；

图4是本发明实施例的一种图片文字识别系统的示意图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明做出详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

涉及的技术用语包括：

CTPN(Detecting Text in Natural Image with Connectionist Text ProposalNetwork，连接文本提议网络)，用于在卷积特征映射中的一系列细粒度文本提议中检测文本行。

CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)，是华中科技大学在发表的论文《An End-to-End Trainable Neural Network for Image-basedSequence Recognition and ItsApplication to Scene Text Recognition》提出的一个识别文本的方法，该模型主要用于解决基于图像的序列识别问题，特别是场景文字识别问题。

CDN(Content Delivery Network，即内容分发网络)，用于通过在现有的Internet中增加一层新的网络架构，将网站的内容发布到最接近用户的网络"边缘"，使用户可以就近取得所需的内容，解决Internet网络拥挤的状况，提高用户访问网站的响应速度。

实施例1。

本实施例提供如图1所示一种图片文字识别模型训练方法，包括：

S1、获取指定用户群体上传的原始图片，从文本库中随机选择词语并进行字体变形以生成测试文字；

S2、随机结合所述测试文字和所述原始图片以形成测试图集；

S3、基于测试图集训练CTPN模型以形成文字定位模型，基于测试文字训练CRNN模型以形成文字识别模型；

S4、依次结合所述文字定位模型、文字识别模型，形成可以准确定位图片中文字，并对该文字进行识别的图片文字识别模型，其中，结合即为数据在文字定位模型和文字识别模型之间的传输顺序，即图片首先经过文字定位模型处理，然后输出处理结果(即确定文字在图中的位置框)，然后文字识别模型处理位置框内的图像，识别得到对应的文字。

具体的详细流程包括：

1.收集背景图片：从指定用户群体的网络社区，例如QQ空间、抖音等社交软件中收集10万多张图片，用于作为背景图片；

2.收集文本库，包括：人名、地名、唐诗、宋词、成语、俗语、企事业单位名称、各行业专业词、汉语词典和社区文本等；

3.图片预处理：从操作系统自带的文字库中随机选择一种字体、字体大小和字体颜色，从文本库随机选择某个词，根据词语中文字数量和字体大小，生成原始文字图片，对该原始文字图片进行灰度、模糊、透视、拉伸等变换得到文字图片，即测试文字；从背景图片(原始图片)中随机抽取一张背景图，随机以一定的角度倾斜文字图片，随机选择背景图片位置，把文字图片和背景图片进行拼接(或者以文字图片部分像素替换背景图像中的像素)，例如，生成40万拼接图供后续训练文字定位模型，生成800万文字图片供后续训练文字识别模型。

4.训练CTPN模型以形成文字定位模型：使用深度学习框架TensorFlow构建CTPN模型，按批次读取拼接图进行训练，训练图片都将短边放缩到600像素，并且保持原图的缩放比；

CTPN模型的参数调优中，本实施例中选择了Adam优化算法，尝试对CTPN模型的参数批尺寸batch_size、学习率learning_rate、冲量momentum、gamma(伽玛值，一些函数的系数，比如：rbf函数、Poly函数和S型函数的系数)的取值范围随机抽样，再组合各个参数的可能值，采用随机搜索的优化方法去寻找最优超参数。通过对测试图集的指标，最终选择batch_size取64，learning_rate：0.00001，momentum取0.9，gamma取0.1。

5.训练CRNN模型以形成文字识别模型：使用深度学习框架TensorFlow构建CRNN模型，按批次读取文字图进行训练。训练图片都将调整为高度为32像素，宽度为100像素的图片；

CRNN模型的参数调优中，本实施例中选择了rmsprop优化算法，尝试对CRNN模型的参数批尺寸batch_size和参数学习率learning_rate的取值范围随机抽样，再组合各个CRNN模型参数的可能值，采用随机搜索的优化方法去寻找最优超参数。根据测试集的指标，最终选择的CRNN模型的参数：batch_size取值为128，learning_rate取值为0.0001。

本实施例还提供一种图片文字识别方法，包括：

获取待识别的图片，利用如上述方法训练获得的图片文字识别模型对所述待识别的图片进行识别。

实施例2。

本实施例的目的在于，在文字识别的基础上，附加一类或多类图片的识别功能，如涉黄图片的识别功能，具体的如图2所示的图片文字识别改进方法，包括：

S1.5、按照预设的图片分类标准区分并标记所述原始图片，构建基于Resnet-50的变体模型，基于所述变体模型和被标记的原始图片进行训练以生成鉴别模型，该鉴别模型输出的图片类别数量与预设的图片分类标准相同；在本实施例中，采用人工方式区分并标记所述原始图片；

S4、依次结合所述鉴别模型、所述文字定位模型、文字识别模型以形成具有一类或多类图片的甄选、识别功能的图片文字识别模型；即首先通过鉴别模型甄选出一类或者多类的图片，然后通过文字定位模型确定被甄选出的图片的文字的位置，通过文字识别模型进行文字的识别。

在本实施例中，步骤S1.5具体包括：

通过开源图集训练所。变体模型，得到预训练模型；

根据预设的图片分类标准的种类数修改所述变体模型最后一层的全连接层，并加载预训练模型的参数以形成训练模型；

基于所述训练模型和被标记的原始图片进行训练以生成鉴别模型。

下面以涉黄图片的识别对本实施例进行详细说明。得到具有涉黄图片的识别鉴别功能的图片文字识别模型具体的现实流程包括：

1.明确分类标准：目前把图片类别分为色情，性感，孕妇，小男孩，小女孩，具体的分类也可以继续延伸。

2.收集样本：从社群网络，例如是QQ空间、抖音等媒体中收集正常、色情、性感、孕妇图片，从相册或者是各种网盘中收集小男孩、小女孩图片，可以称之为宝宝相册，假设可以收集到60多万张图片，具体的几种图片的类别和对应的比例为：正常:色情:性感:孕妇:小男孩:小女孩＝50:4:2:3:5:2。把样本图片(原始图片)按照8:2分成训练集和验证集，把每日从社区获取的图片和宝宝相册当成测试图集；

3.样本打标：集中人力对图片进行类别标注；

4.图片预处理：下载图片到本地，把图片统一转换成高224，宽224的图片；

5.模型预训练：使用深度学习框架Tensorflow构建Resnet_50_1by2模型(即Resnet-50的变体模型)，在开源ImageNet百万分类图片(包括1000个类别)按照8:2分为第一训练集和第一测试集，在第一训练集预训练时，直接把变体模型的学习率learning_rate设置为0.1，批尺寸batch_size设置为32，迭代epoch设置为100。每个epoch训练结束后，把模型checkpoint到本地文件，观察每个模型在第一测试集上的损失，即loss，当loss超过5个epoch不再下降时，选择该epoch的checkpoint当做预训练模型，即通过开源图集训练所述变体模型。

6.训练鉴黄模型：使用深度学习框架Tensorflow构建Resnet_50_1by2模型，加载预训练模型的参数，由于ImageNet图片数据集的最终输出为1000个类别，与本实施例所期望预测的图片类别数量不一样，因此需要对Resnet_50_1by2模型最后一层的全连接层进行修改，以实现本实施例所期望预测输出的图片类别数量，即6种，对应的全连接层，根据标记的种类数修改所述变体模型最后一层的全连接层以形成训练模型，有了这个模型后，就可以开始对准备的样本进行迁移学习，即基于所述训练模型和被标记的原始图片进行训练以生成鉴别模型，即鉴黄模型。

训练模型时，按批次读取被标记的原始图片，为了防止深度学习模型的过拟合，会采用随机方式对图片翻转、旋转、缩放、裁剪等操作，保证同一张图片在多个批次下预处理完后的图片都是不一样的；由于本实施例是基于预训练模型的迁移学习，超参数调优时，即开始学习过程之前设置值的参数，参数先以较大步长进行划分，可以减少参数组合数量，当确定大的最优范围之后再逐渐细化调整，其中，参数包括：

随机数种子seed：为了保证模型可以复现，先固定随机数种子的取值为1024；实践中尝试不同的seed的取值，发现该seed的取值对整个模型最后的指标影响不大；

学习率learning_rate：对于学习率learning_rate调优，由于是迁移学习，该学习率参数不宜取值过大，因此在具体的实践中，尝试了从0.01～0.0001之间的不同间隔的数值的取值，例如包括[0.01，0.009，0.007，0.005，0.003，0.001，0.0009，0.0007，0.0005，0.0003，0.0001]，根据学习率lr较大时，收敛速度前期快、后期平缓，lr较小时，前期平缓、后期较快这个规律继续做细微调整，最终得到多个不同区间的最佳学习速率，即学习率；

批尺寸batch_size:尝试了[8，16，24，32]4种类型，发现该值对整个模型最后的指标影响不大；

交叉熵损失函数的pos_weight(权重)：设置原始权重，确定每一个标记的单独权重的最优间隔，在最优间隔的范围内随机组合全部标记的单独权重以形成权重组合，根据所述权重组合设置多个鉴别模型，根据验证集和测试集指标训练所述多个鉴别模型以确定最优的鉴别模型的权重组合为交叉熵损失函数的权重，具体包括：由于该数据值严重不均衡，而模型的目标是召回率越高越好，即尽量多地召回有害图片，因此，尝试赋予色情、性感和小女孩类别比其他类别更高的权重值，例如[2，5，8，10，20]倍，发现权重越高，召回率会越大，但是整个模型的准确率降低得很快，效果不理想，通过先大间隔设置参数，确定各个参数的最优间隔区间；然后在每个参数的最优间隔直接采用随机采样，再把所有参数的随机取得的值进行随机组合，训练各种组合下的模型，根据验证集和测试集指标训练并得到合适的最终的模型参数，在本实施例中，具体的模型参数包括批尺寸、学习率、冲量，具体的取值包括：随机数种子seed的取值为1024，学习率learning_rate的取值为0.00025，批尺寸batch_size的取值为32，pos_weight取值为1:5:3:1:1:3，所述权重分别对应标记为正常:色情:性感:孕妇:小男孩:小女孩，训练出最后的模型，即鉴别模型。

7.模型上线验证：模型训练完成后，部署到网络的服务器上，对每日的图片进行鉴别以完成文字和涉黄图片的识别。

关于Resnet-50 1by2模型，具体说明包括：

Resnet网络有很多变种，比如Resnet101和Resnet152等，理论上层数越高，模型的准确率会越好；本实施例中，选择Resnet-50 1by2的原因是：层数越高带来的准确率提升不明显，同时会增加模型的训练时间和单张图片的预测时间，考虑到面对的是每天百万级别的图片预测数量，所以选择它；resnet-50核心是由3个conv2_x(3个卷积层)，4个conv3_x(3个卷积层)，6个conv4_x(3个卷积层)，3个conv5_x(3个卷积层)组成，第一层是一个7x7的卷积，最后一层是一个全连接层；Resnet-50 1by2和Resnet-50网络结构的差异是，把几个conv2_x，conv3_x，conv4_x，conv5_x结构中原本使用的卷积层的深层过滤器，即filter_depth的参数由[64，64，256]改为[32，32，128]。

本实施例获取指定用户群体上传的原始图片，是由于特定的用户群体存在一定程度的一致性，即风尚，或者说是潮流，通过指定用户群体的图片的处理，能够降低训练过程的难度，因为图片的种类相对较少，提高分辨的能力；而指定用户群体，可以包括如下特征：女性、已婚、怀孕、年龄符合阈值等；通过特征的限定，可以容易从社群网络或者相册获取对应的图片；Resnet-50，属于残差神经网络，是比较合适的图像处理模型；而每日图片是以日期作为频率所提取的上传图片，虽然图片是随时获取的，但是经验上证明上传的时间是很统一的，其原因在于，很多图片需要用户进行修改、标注，显然，同时处理要比随机时间处理，效率要高得多，所以在实际的环境下，用户有统一时间上传图片的倾向。

实施例3。

本实施例提供如图3所示的一种图片文字识别模型训练装置，用于执行上述方法，包括：

资料获取模块1，用于获取指定用户群体上传的原始图片，从文本库中随机选择词语并进行字体变形以生成测试文字；

资料处理模块2，用于随机结合所述测试文字和所述原始图片以形成测试图集；

训练模块3，用于基于测试图集训练CTPN模型以形成文字定位模型，基于测试文字训练CRNN模型以形成文字识别模型；

结合模块4，用于依次结合所述文字定位模型、文字识别模型以形成图片文字识别模型。

本实施例提供如图4所示的一种图片文字识别系统，包括APP端5，云服务器6和图片文字识别模型7；所述APP端5连接所述云服务器6，所述云服务器6连接所述图片文字识别模型7。

文字识别识别系统具体的运行步骤包括：APP端5上传原始图片，云服务器6存储原始图片，图片文字识别模型7从云服务器6读取原始图片进行识别并返回识别结果，云服务器6将识别结果反馈APP端5。

在本实施例的图片文字识别系统还包括CDN8，所述CDN8分别连接所述云服务器6和所述图片文字识别模型7。

增加了CDN8的文字识别识别系统具体的运行步骤包括：

CDN8作为分担存储负载、提供数据输出能力的网络结构，通过连接云服务器6以分担存储原始图片，同时本身也能提供原始图片输出的功能，即将存储的原始图片返回云服务器6，图片文字识别模型7从CDN8获取原始图片并进行识别。

图片文字识别系统还可以包括管理端9，管理端9的作用在于进行云服务、图片鉴别装置的协调，即从云服务器获取图片数据，调用鉴别模型(即向图片文字识别模型7提出识别的申请，并发送图片数据)，图片文字识别模型7接收识别的申请和图片数据，进行识别，然后反馈鉴别结果至管理端9，管理端9将鉴别结果反馈给云服务器6。

其中，用户从APP端5上传图片资料，所述云服务器6存储图片资料(也可以执行展示的功能，具体可以通过将图片共享到其他社交平台实现)，图片文字识别模型7为实施例1的训练的结果，其目的是进行图片文字的鉴别；出于降低云服务器6的负担的目的，设置CDN8以分担存储图片资料(可以是未鉴别的图片和已鉴别的图片)，设置管理端9以进行云服务、图片鉴别装置的协调；

图片文字识别模型7具体的数据传输过程包括：读取未鉴别的图片，加载CTPN模型以进行图片文字定位，加载CRNN模型以进行图片文字的识别，返回文字的内容；更具体的，可以在读取图片后，直接加载鉴别模型以识别是否涉黄，如果不涉黄再进行图片文字的识别。

在实际的管理中，涉及的原始图片的数量是非常巨大的，同时，作为系统或者作为企业，可能需要针对运行的策略进行改变，因此，需要针对云服务器6和图片文字识别模型7进行管理以适应实际的处理的需求；

具体的，管理端9用于作为功能执行的中介，功能执行包括例如发送寻址指令、计算存储地址、计算数据的读取量等以协调数据的传输，还可以根据鉴别的结果，向云服务器6输出鉴别结果或者根据预设的反馈规则返回指定的反馈信息等，即管理端9作为运营者或者管理者的意志的体现，用于更改云服务器6和图片文字识别模型7的运行参数；

对应的，当存在CDN8时，由于CDN8的用途是辅助性质的，其运行的状态都依赖于云服务器6和图片文字识别模型7，则管理端9通过将运行的指令发送到云服务器6，云服务器6作为中介，将运行的指令转发给CDN8，而这个过程的运行的指令的主要目的是进行存储的分流即传输图片(包括已识别图片和未识别的图片)；图片文字识别模型7作为主动提取的一方，当接收到管理端9的指令，则从CDN8提取未识别的图片，进行识别并返回识别的结果。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种图片文字识别模型训练方法，其特征在于，包括：

S3、基于测试图集训练CTPN模型获得文字定位模型，基于测试文字训练CRNN模型获得文字识别模型；

S4、依次结合所述文字定位模型、文字识别模型形成图片文字识别模型。

2.根据权利要求1所述的一种图片文字识别模型训练方法，其特征在于，还包括：

S1.5、按照预设的图片分类标准区分并标记所述原始图片；构建基于Resnet-50的变体模型，并基于被标记的原始图片进行训练获得鉴别模型；

对应的，S4包括依次结合所述鉴别模型、所述文字定位模型、文字识别模型以形成图片文字识别模型。

3.根据权利要求2所述的一种图片文字识别模型训练方法，其特征在于，构建基于Resnet-50的变体模型包括：

建立神经网络模型Resnet-50，修改卷积层的深层过滤器的参数为[32，32，128]，标记修改参数后的神经网络模型为Resnet-50的变体模型。

4.根据权利要求2所述的一种图片文字识别模型训练方法，其特征在于，S1.5包括：

通过开源图集训练所述变体模型，得到预训练模型；

5.根据权利要求2所述的一种图片文字识别模型训练方法，其特征在于，所述鉴别模型的参数具体包括：随机数种子seed、学习率learning_rate、批尺寸batch_size和交叉熵损失函数的权重pos_weight。

6.根据权利要求5所述的一种图片文字识别模型训练方法，其特征在于，所述预设的图片分类标准包括以下类别：正常、色情、性感、孕妇、小男孩和小女孩；

标记所述色情、性感和小女孩类别图片对应的交叉熵损失函数的权重，高于标记正常和小男孩类别图片对应的交叉熵损失函数的权重。

7.根据权利要求5所述的一种图片文字识别模型训练方法，其特征在于，确定交叉熵损失函数的权重的包括：

设置原始权重，确定每一个标记的单独权重的最优间隔，在最优间隔的范围内随机组合全部标记的单独权重以形成权重组合，根据所述权重组合设置多个鉴别模型，根据验证集和测试集指标训练所述多个鉴别模型以确定最优的鉴别模型的权重组合为交叉熵损失函数的权重。

8.根据权利要求6所述的一种图片文字识别模型训练方法，其特征在于，所述鉴别模型的参数具体取值为：seed取值为1024；learning_rate取值为0.00025；batch_size取值为32；pos_weight取值为1:5:3:1:1:3，其中，所述权重分别对应标记的类别为正常:色情:性感:孕妇:小男孩:小女孩。

9.根据权利要求1所述的一种图片文字识别模型训练方法，其特征在于，所述文字定位模型的参数包括batch_size、learning_rate、momentum和gamma；其中，batch_size为批尺寸，取值为64；learning_rate为学习率，取值为0.00001；momentum为冲量，取值为0.9；gamma为伽马值，取值为0.1；

10.一种图片文字识别模型训练装置，用于执行权利要求1至9任一项所述方法，其特征在于，包括：

资料获取模块，用于获取指定用户群体上传的原始图片，从文本库中随机选择词语并进行字体变形以生成测试文字；

资料处理模块，用于随机结合所述测试文字和所述原始图片以形成测试图集；

训练模块，用于基于测试图集训练CTPN模型以形成文字定位模型，基于测试文字训练CRNN模型以形成文字识别模型；

结合模块，用于依次结合所述文字定位模型、文字识别模型以形成图片文字识别模型。

11.一种图片文字识别系统，其特征在于，包括APP端、云服务器和如权利要求1至7任一项所述方法训练获得的图片文字识别模型图片文字识别模型，所述APP端连接所述云服务器，所述云服务器连接所述图片文字识别模型。

12.根据权利要求11所述的一种图片文字识别系统，其特征在于，还包括CDN，所述CDN分别连接所述云服务器和所述图片文字识别模型。