CN114724162A - 文本识别模型的训练方法、装置、计算机设备及存储介质 - Google Patents
文本识别模型的训练方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114724162A CN114724162A CN202210253870.4A CN202210253870A CN114724162A CN 114724162 A CN114724162 A CN 114724162A CN 202210253870 A CN202210253870 A CN 202210253870A CN 114724162 A CN114724162 A CN 114724162A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- training
- neural network
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 185
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000003062 neural network model Methods 0.000 claims abstract description 81
- 230000003321 amplification Effects 0.000 claims abstract description 41
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 16
- 238000012795 verification Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 13
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 24
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本申请为人工智能技术的自然语言处理技术领域,本申请提供了一种文本识别模型的训练方法、装置、计算机设备及存储介质,其中,所述方法包括:对第一图像进行随机扩增处理,得到多张第二图像,将第一图像和多张第二图像标记为参考图像,获取每张参考图像中文本信息的文本特征,计算每两张参考图像的文本特征的相似度,将相似度大于预设相似度阈值的两张参考图像作为参考图像对,将参考图像对输入神经网络模型进行训练,获取神经网络模型训练后的训练结果,判断训练结果是否满足要求,若是,将训练后的神经网络模型作为文本识别模型,以通过数据扩增的处理方式,提高训练数据的数据量,进而提高文本识别模型的识别准确率。
Description
技术领域
本申请涉及人工智能技术的自然语言处理技术领域,具体而言,本申请涉及一种文本识别模型的训练方法、装置、计算机设备及存储介质。
背景技术
文本识别任务要求通过一定的图像处理来识别图像中的文本内容。文本识别可应用于许多领域,如信件和包裹的分拣、稿件的编辑和校对、大量统计报表和卡片的汇总与分析、银行支票的处理、商品发票的统计汇总、商品编码的识别、商品仓库的管理、文档检索、各类证件识别和财务票据处理的办公自动化等,方便用户快速录入信息,提高各行各业的工作效率。
目前的文本识别方法,常用深度学习方式,进行不分割地端到端处理,目前效果较好且比较常用的算法模型是CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络),该模型首先使用卷积神经网络(Convolutional Neural Networks,CNN)从输入图像中提取出特征序列,然后使用循环神经网络(Recurrent Neural Networks,RNN)预测从卷积层获取的特征序列的标签分布,最后引入联结主义时序分类(Connectionisttemporal classification,CTC)把从循环层获取的标签分布通过去重、整合等操作转换成最终的识别结果,而卷积神经网络的性能对训练数据的依赖性很高,当训练数据多样性越多,数据量越大时,训练得到的模型性能往往更好,但是当训练数据的数据量较少时,则训练得到的文本识别模型的识别准确率较低。
发明内容
本申请的主要目的为提供一种文本识别模型的训练方法、装置、计算机设备及存储介质,以提高训练数据的数据量,进而提高文本识别模型的识别准确率。
为了实现上述发明目的,本申请提供一种文本识别模型的训练方法,其包括:
获取含有文本信息的第一图像;
对所述第一图像进行随机扩增处理,得到多张第二图像;
将所述第一图像和多张第二图像标记为参考图像;
获取每张所述参考图像中文本信息的文本特征,计算每两张所述参考图像的文本特征的相似度;
将相似度大于预设相似度阈值的两张所述参考图像作为参考图像对,将所述参考图像对输入神经网络模型进行训练;
获取所述神经网络模型训练后的训练结果,判断所述训练结果是否满足要求;
若是,将训练后的所述神经网络模型作为文本识别模型。
优选地,所述判断所述训练结果是否满足要求,包括:
根据所述训练结果及预设的损失函数计算训练后的所述神经网络模型的损失值;
判断所述损失值是否低于预设损失值;
若是,判定所述训练结果满足要求;
若否,判定所述训练结果不满足要求。
进一步地,所述判定所述训练结果不满足要求之后,还包括:
基于所述损失值更新所述神经网络模型的参数,将所述参考图像对输入更新参数后的所述神经网络模型进行再次训练,直至所述训练结果满足要求为止,并输出得到训练好的文本识别模型。
进一步地,所述将训练后的所述神经网络模型作为文本识别模型之后,还包括:
获取待识别的目标图像;
将所述目标图像输入所述文本识别模型,得到所述目标图像的文本信息。
优选地,所述计算每两张所述参考图像的文本特征的相似度,包括:
将每张所述参考图像的文本特征分别转换为向量形式,得到每张所述参考图像的文本向量;
计算每两张所述参考图像的文本向量的余弦距离,得到每两张所述参考图像的文本特征的相似度。
优选地,所述将所述参考图像对输入神经网络模型进行训练,包括:
从所述参考图像对中随机选取一张参考图像作为训练图像,将所述参考图像对中的另一张参考图像作为验证图像;
将所述训练图像输入到神经网络模型中进行训练;
所述判断所述训练结果是否满足要求,包括:
根据所述验证图像对训练后的所述神经网络模型进行验证,若验证结果不符合预设的迭代停止条件时,则判定所述训练结果不满足要求。
优选地,所述对所述第一图像进行随机扩增处理,得到多张第二图像,包括:
对所述第一图像进行翻转、平移、缩放、旋转及调整图像RGB各通道权重中的至少一种随机扩增处理方式,得到多张第二图像。
本申请还提供一种文本识别模型的训练装置,其包括:
获取模块,用于获取含有文本信息的第一图像;
扩增处理模块,用于对所述第一图像进行随机扩增处理,得到多张第二图像;
标记模块,用于将所述第一图像和多张第二图像标记为参考图像;
计算模块,用于获取每张所述参考图像中文本信息的文本特征,计算每两张所述参考图像的文本特征的相似度;
输入模块,用于将相似度大于预设相似度阈值的两张所述参考图像作为参考图像对,将所述参考图像对输入神经网络模型进行训练;
判断模块,用于获取所述神经网络模型训练后的训练结果,判断所述训练结果是否满足要求;
判定模块,用于在判定所述训练结果满足要求时,将训练后的所述神经网络模型作为文本识别模型。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本申请所提供的一种文本识别模型的训练方法、装置、计算机设备及存储介质,获取含有文本信息的第一图像,对第一图像进行随机扩增处理,得到多张第二图像,将第一图像和多张第二图像标记为参考图像,获取每张参考图像中文本信息的文本特征,计算每两张参考图像的文本特征的相似度,将相似度大于预设相似度阈值的两张参考图像作为参考图像对,将参考图像对输入神经网络模型进行训练,获取神经网络模型训练后的训练结果,判断训练结果是否满足要求,在判定所述训练结果满足要求时,将训练后的神经网络模型作为文本识别模型,以通过数据扩增的处理方式,提高训练数据的数据量,进而提高文本识别模型的识别准确率;并通过将两张相似度较高的参考图像对神经网络模型进行训练,以使训练得到的文本识别模型能结合训练数据之间的关联性,进一步提高文本识别模型的识别准确率。
附图说明
图1为本申请一实施例的文本识别模型的训练方法的流程示意图;
图2为本申请一实施例的文本识别模型的训练装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提出一种文本识别模型的训练方法,本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请提出的一种文本识别模型的训练方法,以服务器为执行主体,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
该文本识别模型的训练方法用于解决在训练数据的数据量较少时,则训练得到的文本识别模型的识别准确率较低的技术问题。参考图1,其中一个实施例中,该文本识别模型的训练方法包括:
S11、获取含有文本信息的第一图像;
S12、对所述第一图像进行随机扩增处理,得到多张第二图像;
S13、将所述第一图像和多张第二图像标记为参考图像;
S14、获取每张所述参考图像中文本信息的文本特征,计算每两张所述参考图像的文本特征的相似度;
S15、将相似度大于预设相似度阈值的两张所述参考图像作为参考图像对,将所述参考图像对输入神经网络模型进行训练;
S16、获取所述神经网络模型训练后的训练结果,判断所述训练结果是否满足要求;
S17、若是,将训练后的所述神经网络模型作为文本识别模型。
如上述步骤S11所述,本申请的文本识别模型所识别的对象为含有文本信息的图像,对图像中的文本信息进行识别,实现图像的文本识别功能。本实施例获取的具有文本信息的第一图像可以是用户上传的图像,如用户可通过对具有文本信息的纸质或者其他介质文档进行扫描获得,也可以为截取手机屏幕内容的截屏图像等等。
在一实施例中,在获取到含有文本信息的第一图像后,还可对第一图像进行预处理,如调整第一图像的图像尺寸、亮度、清晰度等等图像参数。此外,通常的第一图像为彩色,具有多种颜色,文本信息的字符颜色多为亮度值比较暗的颜色,为利于将第一图像中的文本信息的每个字符提取出来,还可以设定亮度值为标准对第一图像进行二值化处理,将第一图像转换为黑白图像,以凸显第一图像中的文本信息,避免第一图像中的颜色干扰。
具体的,服务器获取第一图像中的颜色亮度值,将第一图像中的颜色亮度值与预设颜色亮度值进行比对,得到比对结果,该比对结果中包含第一图像中的颜色亮度值大于、等于或小于预设颜色亮度值;根据比对结果,将第一图像中的颜色亮度值大于预设颜色亮度值的第一图像转换为白色,反之则转换为黑色,以利于将第一图像中的文本信息的每个字符提取出来。其中,预设颜色亮度值可根据需要可进行调整。
在一实施例中,当检测到第一图像的背景为黑色、文本信息为白色时,即黑底白字的情况。为避免影响文本信息的识别,本实施例的服务器还可对第一图像的背景颜色进行判断,将背景颜色为黑色、文本信息为白色的第一图像转换为背景颜色为白色、文本信息为黑色的图像,即将黑底白字的图像转换为白底黑字的图像。
如上述步骤S12所述,随机扩增处理是对数据进行扩充的方法,随机扩增处理可以增加训练集的样本,可以有效缓解模型过拟合的情况,也可以给模型带来的更强的泛化能力。随机扩增处理的目的就是使得训练数据尽可能的接近测试数据,从而提高预测精度。另外随机扩增处理可以迫使网络学习到更鲁棒性的特征,从而使模型拥有更强的泛化能力。
本实施例对第一图像进行随机扩增处理,如对第一图像进行放大、缩小、裁剪、亮度调整、饱和度调整等等随机扩增处理方式,可以采用一种随机扩增处理方式,还可以是多种随机扩增处理方式结合使用,最终得到多张第二图像。本实施例的图像扩增技术对深度学习中目标检测有着积极的作用,它能够增加各类别的数据量,使各类别保持平衡,避免样本不均衡带来的过拟合问题,同时也能够在一定程度上减少前期样本采集的数据量。
如上述步骤S13-S14所述,本实施例将第一图像和多张第二图像标记为参考图像,生成包括所有参考图像的数据集,然后从数据集中获取每张参考图像中文本信息的文本特征,计算每两张参考图像的文本特征的相似度。具体的,可以在参考图像中识别出文本信息的文本位置信息,根据文本位置信息,对参考图像进行校正,得到校正后的参考图像,采用识别模型的编码网络对校正后的参考图像的文本信息进行特征提取,得到文本特征,然后根据每两张参考图像的文本特征中所包含的词特征,分别构建用于计算每两张参考图像的文本特征之间相似度的向量空间模型,根据所述向量空间模型,将每两张参考图像的词特征表示为词向量,按照余弦距离算法,计算出每两张参考图像的词向量之间夹角的余弦值,将该余弦值作为每两张参考图像的文本特征的相似度。
其中,文本位置信息可以为包括文本信息的文本框在参考图像中的位置信息。例如,在参考图像识别出包含文本信息的文本区域,获取该文本区域的位置信息,作为文本信息的文本位置信息,比如,在参考图像中识别出包含内容的文本区域,计算这个文本区域对应的虚拟文本框在整个参考图像中的位置信息,将该位置信息作为文本信息的文本位置信息。
如上述步骤S15所述,本实施例根据计算得到的每两张参考图像的文本特征的相似度,将相似度大于预设相似度阈值的两张参考图像作为参考图像对,将参考图像对作为训练数据,并将参考图像对输入神经网络模型进行训练,以使训练得到的文本识别模型能结合训练数据之间的关联性,提高文本识别模型的识别准确率。其中,预设相似度阈值可自定义设置,如设置为0.9。
同时,本申请还考虑可以引入区块链结构,并充分利用区块链的相关特性(例如,区块链上的数据不可篡改等),在训练之前,将训练数据上传到区块链上进行存证;在训练过程中,将训练过程中的关联数据上传至区块链上进行存证,这样后续如果需要,被触发的监管服务器可以获取并根据保存在区块链上的相关数据进行回溯,以重建训练过程;再根据重建的训练过程检测出在训练过程中是否存在风险行为,以保护数据方的数据安全,提高训练过程的安全性和可信度。
如上述步骤S16-S17所述,本实施例可设置神经网络模型的迭代条件,迭代条件包括训练次数或训练时长等等,当神经网络模型满足迭代条件时,则结束训练,此时获取所述神经网络模型训练后的训练结果,判断训练结果是否满足要求,在判定训练结果满足要求时,则将训练后的所述神经网络模型作为文本识别模型,用于识别图像中的文本信息。
其中,训练结果可包括识别得到的参考图像对中每张参考图像的文本信息,并标记为参考图像对中每张参考图像的目标文本信息。本实施例可计算参考图像对中两张参考图像的目标文本信息的相似度,得到预测相似度,判断所述预测相似度与对应的文本特征的相似度是否一致,若是,则将训练后的所述神经网络模型作为文本识别模型,以精确识别图像中的文本信息。
本申请所提供的一种文本识别模型的训练方法,获取含有文本信息的第一图像,对第一图像进行随机扩增处理,得到多张第二图像,将第一图像和多张第二图像标记为参考图像,获取每张参考图像中文本信息的文本特征,计算每两张参考图像的文本特征的相似度,将相似度大于预设相似度阈值的两张参考图像作为参考图像对,将参考图像对输入神经网络模型进行训练,获取神经网络模型训练后的训练结果,判断训练结果是否满足要求,在判定所述训练结果满足要求时,将训练后的神经网络模型作为文本识别模型,以通过数据扩增的处理方式,提高训练数据的数据量,进而提高文本识别模型的识别准确率;并通过将两张相似度较高的参考图像对神经网络模型进行训练,以使训练得到的文本识别模型能结合训练数据之间的关联性,进一步提高文本识别模型的识别准确率。
在一实施例中,所述判断所述训练结果是否满足要求,可具体包括:
根据所述训练结果及预设的损失函数计算训练后的所述神经网络模型的损失值;
判断所述损失值是否低于预设损失值;
若是,判定所述训练结果满足要求;
若否,判定所述训练结果不满足要求。
在本实施例中,在对神经网络模型每次训练后,可利用预设的交叉熵损失函数计算每次训练完成后的神经网络模型的损失值,并在损失值满足预设阈值或小于预设损失值时,即神经网络模型的训练结果满足要求,则表明神经网络模型达到训练要求,完成所述文本识别模型的训练,以提高文本识别模型的文本识别准确率。
其中,交叉熵损失函数用来评价文本识别模型的预测值和真实值不一样的程度,损失函数越好,通常文本识别模型的性能越好。此外,交叉熵损失函数经常用于分类问题中,特别是在神经网络做分类问题时,也经常使用交叉熵作为损失函数,由于交叉熵涉及到计算每个类别的概率,所以交叉熵几乎每次都和sigmoid(或softmax)函数一起出现。此外,本实施例的损失函数不做具体限定,例如可以是均方差函数、协方差函数等等。
另外,本实施例的预设损失值可以根据实际情况而定,而且该预设损失值与文本识别模型最终训练好时对应的损失阈值不同,一般这里的预设损失值大于文本识别模型最终训练好时对应的损失阈值。例如,文本识别模型最终训练好时对应的损失阈值是0.002,这里的预设损失值应该比0.002大,例如可以是0.005。
在一实施例中,所述判定所述训练结果不满足要求之后,还包括:
基于所述损失值更新所述神经网络模型的参数,将所述参考图像对输入更新参数后的所述神经网络模型进行再次训练,直至所述训练结果满足要求为止,并输出得到训练好的文本识别模型。
当文本识别模型的损失值不小于预设损失值时,则可根据损失值在文本识别模型的神经网络结构中进行前向传递,调整文本识别模型的相关参数,将参考图像对输入重新设置相关参数的文本识别模型进行重新训练,直至文本识别模型的损失值小于预设损失值时为止,至此文本识别模型训练结束,得到训练结果满足要求的文本识别模型,以得到训练好的文本识别模型。
在一实施例中,所述将训练后的所述神经网络模型作为文本识别模型之后,还可包括:
获取待识别的目标图像;
将所述目标图像输入所述文本识别模型,得到所述目标图像的文本信息。
本实施例获取待识别的目标图像,将目标图像输入文本识别模型中,借助文本识别模型输出得到目标图像的文本信息。其中,待识别的目标图像可以是用户上传的文本图像,也可以是执行文本识别方法的电子设备直接通过摄像头采集的文本图像,在此不限制待识别的目标图像的获取方式。由于本申请的文本识别模型无需样本标注,因而可以较低成本的得到该文本识别模型,直接采用该文本识别模型进行文本识别所需的成本也较低,另外,由于文本识别模型在训练时无需样本标注,识别准确度也不会再受到样本标注方式的影响,而且也可以不再受到训练样本数量的限制,采用大量训练样本进行训练后所得模型的识别精度及可靠性均更高,因此采用本申请训练得到的文本识别模型,能准确识别出目标图像的文本信息。
在一实施例中,所述计算每两张所述参考图像的文本特征的相似度,可具体包括:
将每张所述参考图像的文本特征分别转换为向量形式,得到每张所述参考图像的文本向量;
计算每两张所述参考图像的文本向量的余弦距离,得到每两张所述参考图像的文本特征的相似度。
在本实施例中,对于文本特征之间相似度的衡量,常用的方式是计算文本特征之间的余弦距离。余弦距离可以体现空间中两个向量间的差异性,将两个相近的语义关系进行聚集,以完成所有语义关系的聚集,并从中筛选出最聚集的语义关系作为文本特征的语义识别结果,如当大多数的语义关系聚集在区域A时,则从区域A中选取距离区域A的中心最近的语义关系作为语义识别结果。
本实施例可利用Word2Vec词向量模型分别将每张参考图像的文本特征转换为词向量,得到每张参考图像的文本向量,然后计算每两张所述参考图像的文本向量的余弦距离,将余弦距离作为该相似度。
其中,Word2Vec词向量模型是从大量文本中学习语义知识的一种模型,采用无监督的方式。其通过训练大量文本,将文本中的词用向量形式表示,这个向量我们称之为词向量,可以通过计算两个词的词向量之间的距离,从而得知两个词之间的联系。
在一实施例中,所述将所述参考图像对输入神经网络模型进行训练,可具体包括:
从所述参考图像对中随机选取一张参考图像作为训练图像,将所述参考图像对中的另一张参考图像作为验证图像;
将所述训练图像输入到神经网络模型中进行训练;
所述判断所述训练结果是否满足要求,包括:
根据所述验证图像对训练后的所述神经网络模型进行验证,若验证结果不符合预设的迭代停止条件时,则判定所述训练结果不满足要求。
在本实施例中,可以从参考图像对中随机选取一张参考图像作为训练图像,将参考图像对中的另一张参考图像作为验证图像,利用训练图像对神经网络模型进行训练,根据验证图像对每次训练后的神经网络模型进行验证,若验证结果不符合预设的迭代停止条件时,则判定训练结果不满足要求。其中,验证结果可包括预测相似度与对应的文本特征的相似度相同或不同,例如,可计算神经网络模型输出的训练图像的文本信息与神经网络模型输出的验证图像的文本信息的相似度,得到预测相似度,判断所述预测相似度与对应的文本特征的相似度是否一致,若是,则将训练后的所述神经网络模型作为文本识别模型,以精确识别图像中的文本信息。
在一实施例中,所述对所述第一图像进行随机扩增处理,得到多张第二图像,可具体包括:
对所述第一图像进行翻转、平移、缩放、旋转及调整图像RGB各通道权重中的至少一种随机扩增处理方式,得到多张第二图像。
在本实施例中,随机扩增处理的方式包括但不限于对图像进行翻转、平移、缩放、调整图像RGB各通道权重以及对图像进行旋转等。例如,可以对第一图像进行翻转,然后对翻转后的第一图像进行放大,得到一张第二图像。
参照图2,本申请实施例中还提供一种文本识别模型的训练装置,包括:
获取模块11,用于获取含有文本信息的第一图像;
扩增处理模块12,用于对所述第一图像进行随机扩增处理,得到多张第二图像;
标记模块13,用于将所述第一图像和多张第二图像标记为参考图像;
计算模块14,用于获取每张所述参考图像中文本信息的文本特征,计算每两张所述参考图像的文本特征的相似度;
输入模块15,用于将相似度大于预设相似度阈值的两张所述参考图像作为参考图像对,将所述参考图像对输入神经网络模型进行训练;
判断模块16,用于获取所述神经网络模型训练后的训练结果,判断所述训练结果是否满足要求;
判定模块17,用于在判定所述训练结果满足要求时,将训练后的所述神经网络模型作为文本识别模型。
本申请的文本识别模型所识别的对象为含有文本信息的图像,对图像中的文本信息进行识别,实现图像的文本识别功能。本实施例获取的具有文本信息的第一图像可以是用户上传的图像,如用户可通过对具有文本信息的纸质或者其他介质文档进行扫描获得,也可以为截取手机屏幕内容的截屏图像等等。
在一实施例中,在获取到含有文本信息的第一图像后,还可对第一图像进行预处理,如调整第一图像的图像尺寸、亮度、清晰度等等图像参数。此外,通常的第一图像为彩色,具有多种颜色,文本信息的字符颜色多为亮度值比较暗的颜色,为利于将第一图像中的文本信息的每个字符提取出来,还可以设定亮度值为标准对第一图像进行二值化处理,将第一图像转换为黑白图像,以凸显第一图像中的文本信息,避免第一图像中的颜色干扰。
具体的,服务器获取第一图像中的颜色亮度值,将第一图像中的颜色亮度值与预设颜色亮度值进行比对,得到比对结果,该比对结果中包含第一图像中的颜色亮度值大于、等于或小于预设颜色亮度值;根据比对结果,将第一图像中的颜色亮度值大于预设颜色亮度值的第一图像转换为白色,反之则转换为黑色,以利于将第一图像中的文本信息的每个字符提取出来。其中,预设颜色亮度值可根据需要可进行调整。
在一实施例中,当检测到第一图像的背景为黑色、文本信息为白色时,即黑底白字的情况。为避免影响文本信息的识别,本实施例的服务器还可对第一图像的背景颜色进行判断,将背景颜色为黑色、文本信息为白色的第一图像转换为背景颜色为白色、文本信息为黑色的图像,即将黑底白字的图像转换为白底黑字的图像。
在本实施例中,随机扩增处理是对数据进行扩充的方法,随机扩增处理可以增加训练集的样本,可以有效缓解模型过拟合的情况,也可以给模型带来的更强的泛化能力。随机扩增处理的目的就是使得训练数据尽可能的接近测试数据,从而提高预测精度。另外随机扩增处理可以迫使网络学习到更鲁棒性的特征,从而使模型拥有更强的泛化能力。
本实施例对第一图像进行随机扩增处理,如对第一图像进行放大、缩小、裁剪、亮度调整、饱和度调整等等随机扩增处理方式,可以采用一种随机扩增处理方式,还可以是多种随机扩增处理方式结合使用,最终得到多张第二图像。本实施例的图像扩增技术对深度学习中目标检测有着积极的作用,它能够增加各类别的数据量,使各类别保持平衡,避免样本不均衡带来的过拟合问题,同时也能够在一定程度上减少前期样本采集的数据量。
本实施例将第一图像和多张第二图像标记为参考图像,生成包括所有参考图像的数据集,然后从数据集中获取每张参考图像中文本信息的文本特征,计算每两张参考图像的文本特征的相似度。具体的,可以在参考图像中识别出文本信息的文本位置信息,根据文本位置信息,对参考图像进行校正,得到校正后的参考图像,采用识别模型的编码网络对校正后的参考图像的文本信息进行特征提取,得到文本特征,然后根据每两张参考图像的文本特征中所包含的词特征,分别构建用于计算每两张参考图像的文本特征之间相似度的向量空间模型,根据所述向量空间模型,将每两张参考图像的词特征表示为词向量,按照余弦距离算法,计算出每两张参考图像的词向量之间夹角的余弦值,将该余弦值作为每两张参考图像的文本特征的相似度。
其中,文本位置信息可以为包括文本信息的文本框在参考图像中的位置信息。例如,在参考图像识别出包含文本信息的文本区域,获取该文本区域的位置信息,作为文本信息的文本位置信息,比如,在参考图像中识别出包含内容的文本区域,计算这个文本区域对应的虚拟文本框在整个参考图像中的位置信息,将该位置信息作为文本信息的文本位置信息。
本实施例根据计算得到的每两张参考图像的文本特征的相似度,将相似度大于预设相似度阈值的两张参考图像作为参考图像对,将参考图像对作为训练数据,并将参考图像对输入神经网络模型进行训练,以使训练得到的文本识别模型能结合训练数据之间的关联性,提高文本识别模型的识别准确率。其中,预设相似度阈值可自定义设置,如设置为0.9。
同时,本申请还考虑可以引入区块链结构,并充分利用区块链的相关特性(例如,区块链上的数据不可篡改等),在训练之前,将训练数据上传到区块链上进行存证;在训练过程中,将训练过程中的关联数据上传至区块链上进行存证,这样后续如果需要,被触发的监管服务器可以获取并根据保存在区块链上的相关数据进行回溯,以重建训练过程;再根据重建的训练过程检测出在训练过程中是否存在风险行为,以保护数据方的数据安全,提高训练过程的安全性和可信度。
本实施例可设置神经网络模型的迭代条件,迭代条件包括训练次数或训练时长等等,当神经网络模型满足迭代条件时,则结束训练,此时获取所述神经网络模型训练后的训练结果,判断训练结果是否满足要求,在判定训练结果满足要求时,则将训练后的所述神经网络模型作为文本识别模型,用于识别图像中的文本信息。
其中,训练结果可包括识别得到的参考图像对中每张参考图像的文本信息,并标记为参考图像对中每张参考图像的目标文本信息。本实施例可计算参考图像对中两张参考图像的目标文本信息的相似度,得到预测相似度,判断所述预测相似度与对应的文本特征的相似度是否一致,若是,则将训练后的所述神经网络模型作为文本识别模型,以精确识别图像中的文本信息。
如上所述,可以理解地,本申请中提出的所述文本识别模型的训练装置的各组成部分可以实现如上所述文本识别模型的训练方法任一项的功能,具体结构不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储所述文本识别模型的训练方法的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本识别模型的训练方法。
上述处理器执行上述的文本识别模型的训练方法,包括:
获取含有文本信息的第一图像;
对所述第一图像进行随机扩增处理,得到多张第二图像;
将所述第一图像和多张第二图像标记为参考图像;
获取每张所述参考图像中文本信息的文本特征,计算每两张所述参考图像的文本特征的相似度;
将相似度大于预设相似度阈值的两张所述参考图像作为参考图像对,将所述参考图像对输入神经网络模型进行训练;
获取所述神经网络模型训练后的训练结果,判断所述训练结果是否满足要求;
若是,将训练后的所述神经网络模型作为文本识别模型。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种文本识别模型的训练方法,包括步骤:
获取含有文本信息的第一图像;
对所述第一图像进行随机扩增处理,得到多张第二图像;
将所述第一图像和多张第二图像标记为参考图像;
获取每张所述参考图像中文本信息的文本特征,计算每两张所述参考图像的文本特征的相似度;
将相似度大于预设相似度阈值的两张所述参考图像作为参考图像对,将所述参考图像对输入神经网络模型进行训练;
获取所述神经网络模型训练后的训练结果,判断所述训练结果是否满足要求;
若是,将训练后的所述神经网络模型作为文本识别模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、扩增型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本申请的最大有益效果在于:
本申请所提供的一种文本识别模型的训练方法、装置、计算机设备及存储介质,获取含有文本信息的第一图像,对第一图像进行随机扩增处理,得到多张第二图像,将第一图像和多张第二图像标记为参考图像,获取每张参考图像中文本信息的文本特征,计算每两张参考图像的文本特征的相似度,将相似度大于预设相似度阈值的两张参考图像作为参考图像对,将参考图像对输入神经网络模型进行训练,获取神经网络模型训练后的训练结果,判断训练结果是否满足要求,在判定所述训练结果满足要求时,将训练后的神经网络模型作为文本识别模型,以通过数据扩增的处理方式,提高训练数据的数据量,进而提高文本识别模型的识别准确率;并通过将两张相似度较高的参考图像对神经网络模型进行训练,以使训练得到的文本识别模型能结合训练数据之间的关联性,进一步提高文本识别模型的识别准确率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种文本识别模型的训练方法,其特征在于,包括:
获取含有文本信息的第一图像;
对所述第一图像进行随机扩增处理,得到多张第二图像;
将所述第一图像和多张第二图像标记为参考图像;
获取每张所述参考图像中文本信息的文本特征,计算每两张所述参考图像的文本特征的相似度;
将相似度大于预设相似度阈值的两张所述参考图像作为参考图像对,将所述参考图像对输入神经网络模型进行训练;
获取所述神经网络模型训练后的训练结果,判断所述训练结果是否满足要求;
若是,将训练后的所述神经网络模型作为文本识别模型。
2.根据权利要求1所述的方法,其特征在于,所述判断所述训练结果是否满足要求,包括:
根据所述训练结果及预设的损失函数计算训练后的所述神经网络模型的损失值;
判断所述损失值是否低于预设损失值;
若是,判定所述训练结果满足要求;
若否,判定所述训练结果不满足要求。
3.根据权利要求2所述的方法,其特征在于,所述判定所述训练结果不满足要求之后,还包括:
基于所述损失值更新所述神经网络模型的参数,将所述参考图像对输入更新参数后的所述神经网络模型进行再次训练,直至所述训练结果满足要求为止,并输出得到训练好的文本识别模型。
4.根据权利要求1所述的方法,其特征在于,所述将训练后的所述神经网络模型作为文本识别模型之后,还包括:
获取待识别的目标图像;
将所述目标图像输入所述文本识别模型,得到所述目标图像的文本信息。
5.根据权利要求1所述的方法,其特征在于,所述计算每两张所述参考图像的文本特征的相似度,包括:
将每张所述参考图像的文本特征分别转换为向量形式,得到每张所述参考图像的文本向量;
计算每两张所述参考图像的文本向量的余弦距离,得到每两张所述参考图像的文本特征的相似度。
6.根据权利要求1所述的方法,其特征在于,所述将所述参考图像对输入神经网络模型进行训练,包括:
从所述参考图像对中随机选取一张参考图像作为训练图像,将所述参考图像对中的另一张参考图像作为验证图像;
将所述训练图像输入到神经网络模型中进行训练;
所述判断所述训练结果是否满足要求,包括:
根据所述验证图像对训练后的所述神经网络模型进行验证,若验证结果不符合预设的迭代停止条件时,则判定所述训练结果不满足要求。
7.根据权利要求1所述的方法,其特征在于,所述对所述第一图像进行随机扩增处理,得到多张第二图像,包括:
对所述第一图像进行翻转、平移、缩放、旋转及调整图像RGB各通道权重中的至少一种随机扩增处理方式,得到多张第二图像。
8.一种文本识别模型的训练装置,其特征在于,包括:
获取模块,用于获取含有文本信息的第一图像;
扩增处理模块,用于对所述第一图像进行随机扩增处理,得到多张第二图像;
标记模块,用于将所述第一图像和多张第二图像标记为参考图像;
计算模块,用于获取每张所述参考图像中文本信息的文本特征,计算每两张所述参考图像的文本特征的相似度;
输入模块,用于将相似度大于预设相似度阈值的两张所述参考图像作为参考图像对,将所述参考图像对输入神经网络模型进行训练;
判断模块,用于获取所述神经网络模型训练后的训练结果,判断所述训练结果是否满足要求;
判定模块,用于在判定所述训练结果满足要求时,将训练后的所述神经网络模型作为文本识别模型。
9.一种计算机设备,其特征在于,包括:
处理器;
存储器;
其中,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的文本识别模型的训练方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1-7任一项所述的文本识别模型的训练方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210253870.4A CN114724162A (zh) | 2022-03-15 | 2022-03-15 | 文本识别模型的训练方法、装置、计算机设备及存储介质 |
PCT/CN2022/090160 WO2023173546A1 (zh) | 2022-03-15 | 2022-04-29 | 文本识别模型的训练方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210253870.4A CN114724162A (zh) | 2022-03-15 | 2022-03-15 | 文本识别模型的训练方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114724162A true CN114724162A (zh) | 2022-07-08 |
Family
ID=82238595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210253870.4A Pending CN114724162A (zh) | 2022-03-15 | 2022-03-15 | 文本识别模型的训练方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114724162A (zh) |
WO (1) | WO2023173546A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117457032B (zh) * | 2023-12-25 | 2024-03-22 | 山东万里红信息技术有限公司 | 一种基于体量识别的存储介质销毁方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376352A (zh) * | 2018-08-28 | 2019-02-22 | 中山大学 | 一种基于word2vec和语义相似度的专利文本建模方法 |
CN109840588A (zh) * | 2019-01-04 | 2019-06-04 | 平安科技(深圳)有限公司 | 神经网络模型训练方法、装置、计算机设备及存储介质 |
CN111104510A (zh) * | 2019-11-15 | 2020-05-05 | 南京中新赛克科技有限责任公司 | 一种基于词嵌入的文本分类训练样本扩充方法 |
CN111401375A (zh) * | 2020-03-09 | 2020-07-10 | 苏宁云计算有限公司 | 文本识别模型训练方法、文本识别方法、装置及设备 |
CN112818975A (zh) * | 2021-01-27 | 2021-05-18 | 北京金山数字娱乐科技有限公司 | 文本检测模型训练方法及装置、文本检测方法及装置 |
CN114036907A (zh) * | 2021-11-18 | 2022-02-11 | 国网江苏省电力有限公司电力科学研究院 | 一种基于领域特征的文本数据扩增方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114005012A (zh) * | 2021-11-05 | 2022-02-01 | 北京市商汤科技开发有限公司 | 多模态预训练模型的训练方法、装置、设备及存储介质 |
-
2022
- 2022-03-15 CN CN202210253870.4A patent/CN114724162A/zh active Pending
- 2022-04-29 WO PCT/CN2022/090160 patent/WO2023173546A1/zh unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376352A (zh) * | 2018-08-28 | 2019-02-22 | 中山大学 | 一种基于word2vec和语义相似度的专利文本建模方法 |
CN109840588A (zh) * | 2019-01-04 | 2019-06-04 | 平安科技(深圳)有限公司 | 神经网络模型训练方法、装置、计算机设备及存储介质 |
CN111104510A (zh) * | 2019-11-15 | 2020-05-05 | 南京中新赛克科技有限责任公司 | 一种基于词嵌入的文本分类训练样本扩充方法 |
CN111401375A (zh) * | 2020-03-09 | 2020-07-10 | 苏宁云计算有限公司 | 文本识别模型训练方法、文本识别方法、装置及设备 |
CN112818975A (zh) * | 2021-01-27 | 2021-05-18 | 北京金山数字娱乐科技有限公司 | 文本检测模型训练方法及装置、文本检测方法及装置 |
CN114036907A (zh) * | 2021-11-18 | 2022-02-11 | 国网江苏省电力有限公司电力科学研究院 | 一种基于领域特征的文本数据扩增方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023173546A1 (zh) | 2023-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705233B (zh) | 基于文字识别技术的笔记生成方法、装置和计算机设备 | |
CN111259625A (zh) | 意图识别方法、装置、设备及计算机可读存储介质 | |
CN111814902A (zh) | 目标检测模型训练方法、目标识别方法、装置和介质 | |
CN110807314A (zh) | 文本情感分析模型训练方法、装置、设备及可读存储介质 | |
CN111553363B (zh) | 一种端到端的图章识别方法及系统 | |
CN114120299A (zh) | 信息获取方法、装置、存储介质及设备 | |
CN111666932B (zh) | 单据审核方法、装置、计算机设备及存储介质 | |
CN112699923A (zh) | 文档分类预测方法、装置、计算机设备及存储介质 | |
CN113723070A (zh) | 文本相似度模型训练方法、文本相似度检测方法及装置 | |
CN111340051A (zh) | 图片处理方法、装置及存储介质 | |
CN115357699A (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN114724162A (zh) | 文本识别模型的训练方法、装置、计算机设备及存储介质 | |
CN113673528B (zh) | 文本处理方法、装置、电子设备和可读存储介质 | |
CN116311276A (zh) | 文档图像矫正方法、装置、电子设备及可读介质 | |
CN115984886A (zh) | 表格信息抽取方法、装置、设备及存储介质 | |
CN114519416A (zh) | 模型蒸馏方法、装置及电子设备 | |
CN114549928A (zh) | 图像增强处理方法、装置、计算机设备及存储介质 | |
CN113516148A (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN112801214B (zh) | 基于鼠类识别终端与云计算平台交互的老鼠数量预测方法 | |
CN116778534B (zh) | 图像处理方法、装置、设备和介质 | |
CN114422199B (zh) | 一种cms识别方法及装置 | |
CN116933041B (zh) | 力传感器编号校对系统及方法 | |
CN117058432B (zh) | 图像查重方法、装置、电子设备及可读存储介质 | |
CN112528894B (zh) | 一种差异项判别方法及装置 | |
KR20230090735A (ko) | 딥러닝을 이용한 컨텐츠 영상 제작 서비스 제공 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |