CN112070086B - 文本识别系统的优化方法、计算机设备及存储介质 - Google Patents

文本识别系统的优化方法、计算机设备及存储介质 Download PDF

Info

Publication number
CN112070086B
CN112070086B CN202010942971.3A CN202010942971A CN112070086B CN 112070086 B CN112070086 B CN 112070086B CN 202010942971 A CN202010942971 A CN 202010942971A CN 112070086 B CN112070086 B CN 112070086B
Authority
CN
China
Prior art keywords
model
text recognition
text
model parameters
recognition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010942971.3A
Other languages
English (en)
Other versions
CN112070086A (zh
Inventor
洪振厚
王健宗
瞿晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010942971.3A priority Critical patent/CN112070086B/zh
Priority to PCT/CN2020/125151 priority patent/WO2021169363A1/zh
Publication of CN112070086A publication Critical patent/CN112070086A/zh
Application granted granted Critical
Publication of CN112070086B publication Critical patent/CN112070086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)

Abstract

本申请涉及人工智能,公开了一种文本识别系统的优化方法,包括以下步骤:获取OCR模型的训练样本,所述训练样本包括文本图片;将所述训练样本输入所述OCR模型进行训练;将训练得到的模型参数上传至服务器,其中,所述服务器对多个文本识别系统上传的模型参数进行优化,并将优化后的模型参数反馈至每个文本识别系统;根据所述服务器反馈的模型参数对所述OCR模型进行更新迭代。本申请还公开了一种计算机设备以及计算机可读存储介质。本申请通过只分享文本数据对应的OCR模型参数到服务器进行优化,既能利用服务器的大数据处理能力优化文本识别系统,又能避免用户隐私信息泄露。

Description

文本识别系统的优化方法、计算机设备及存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种文本识别系统的优化方法、计算机设备以及计算机可读存储介质。
背景技术
在医疗科技中,涉及到万千诊断文本的处理,因此,文本识别系统的优化也成了一道关卡。
目前为了利用云端或服务器的大数据处理能力,主流的文本识别系统的优化中都是将系统部署在服务端或者云端。但由于文本涉及病人的个人隐私,若都集中到服务端,万一服务端受到攻击就会容易引起个人隐私泄露,造成的后果不堪设想。
上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
发明内容
本申请的主要目的在于提供一种文本识别系统的优化方法、计算机设备以及计算机可读存储介质,旨在解决利用服务器的大数据处理能力优化文本识别系统时,容易导致用户隐私信息泄露的问题。
为实现上述目的,本申请提供一种文本识别系统的优化方法,所述文本识别系统的优化方法包括以下步骤:
获取OCR模型的训练样本,所述训练样本包括文本图片;
将所述训练样本输入所述OCR模型进行训练;
将训练得到的模型参数上传至服务器,其中,所述服务器对多个文本识别系统上传的模型参数进行优化,并将优化后的模型参数反馈至每个文本识别系统;
根据所述服务器反馈的模型参数对所述OCR模型进行更新迭代。
进一步地,所述根据所述服务器反馈的模型参数对所述OCR模型进行更新迭代的步骤之后,还包括:
在所述OCR模型迭代结束后,获取准确率最高的模型参数构建训练完成的OCR模型。
进一步地,所述将所述训练样本输入所述OCR模型进行训练的步骤之前,还包括:
对所述训练样本进行预处理,所述预处理包括图片去模糊处理、图片矫正处理和像素归一化处理中的至少一个。
进一步地,所述根据所述服务器反馈的模型参数对所述OCR模型进行更新迭代之后,还包括:
在所述OCR模型训练完成后,将所述OCR模型转换为IR中间表达式;
根据本地硬件信息,将所述IR中间表达式转换为应用于本地硬件的代码;
根据所述代码进行所述OCR模型的本地部署。
进一步地,所述根据本地硬件信息,将所述IR中间表达式转换为应用于本地硬件的代码的步骤之前,还包括:
对所述IR中间表达式的卷积进行优化,以缩短所述IR中间表达式对应的运行时间。
进一步地,所述根据所述代码进行所述OCR模型的本地部署的步骤之后,还包括:
检测到目标文本图片时,将所述目标文本图片输入到本地部署的OCR模型;
获取本地部署的OCR模型的输出值,作为所述目标文本图片对应的文本信息。
为实现上述目的,本申请还提供一种文本的识别方法,所述文本识别系统的优化方法包括以下步骤:
服务器接收到多个文本识别系统上传的模型参数时,对所述模型参数进行优化,其中,每个文本识别系统获取OCR模型的训练样本,将所述训练样本输入所述OCR模型进行训练,并将训练得到的模型参数上传至所述服务器,所述训练样本包括文本图片;
将优化后的模型参数反馈至每个文本识别系统,以供每个文本识别系统根据所述服务器反馈的模型参数对所述OCR模型进行更新迭代。
进一步地,所述服务器接收到多个文本识别系统上传的模型参数时,对所述模型参数进行优化的步骤包括:
服务器接收到多个文本识别系统上传的模型参数时,分别确定每种类别的模型参数对应的平均值;
将所述平均值作为优化后的模型参数。
为实现上述目的,本申请还提供一种计算机设备,所述计算机设备包括:
所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本识别系统的优化程序,所述文本识别系统的优化程序被所述处理器执行时实现如上述文本识别系统的优化方法的步骤。
为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本识别系统的优化程序,所述文本识别系统的优化程序被处理器执行时实现如上述文本识别系统的优化方法的步骤。
本申请提供的文本识别系统的优化方法、计算机设备以及计算机可读存储介质,获取OCR模型的训练样本,所述训练样本包括文本图片;将所述训练样本输入所述OCR模型进行训练;将训练得到的模型参数上传至服务器,其中,所述服务器对多个文本识别系统上传的模型参数进行优化,并将优化后的模型参数反馈至每个文本识别系统;根据所述服务器反馈的模型参数对所述OCR模型进行更新迭代。这样,通过只分享文本数据对应的OCR模型参数到服务器进行优化,既能利用服务器的大数据处理能力优化文本识别系统,又能避免用户隐私信息泄露。
附图说明
图1为本申请一实施例中文本识别系统的优化方法步骤示意图;
图2为本申请一实施例中文本识别系统的优化方法另一步骤示意图;
图3为本申请一实施例中文本识别系统的优化方法又一步骤示意图;
图4为本申请一实施例中文本识别系统的优化方法再一步骤示意图;
图5为本申请一实施例中文本识别系统的优化方法再一步骤示意图;
图6为本申请一实施例中文本识别系统的优化方法再一步骤示意图;
图7为本申请一实施例中文本识别系统的优化方法再一步骤示意图;
图8为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,在一实施例中,所述文本识别系统的优化方法包括:
步骤S10、获取OCR模型的训练样本,所述训练样本包括文本图片。
本实施例中,实施例终端为计算机设备,如文本识别系统(例如医疗诊断文本识别系统)、智能终端等。以下以实施例终端为文本识别系统为例进行说明。
需要说明的是,OCR(Optical Character Recognition,光学字符识别)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。
可选的,本实施例的OCR模型为CNN(Convolutional Neural Networks) +LSTM(Long Short-Term Memory)+CTC(Connectionist Temporal Classfication)结构组成的深度学习模型。
其中,CNN卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类。
其中,LSTM长短期记忆网络是一种时间循环神经网络,是为了解决一般的RNN(Recurrent Neural Network)循环神经网络存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh 层。
其中,CTC是一种时序分类算法,重点解决的是输入数据与给定标签的对齐问题。
可选的,设置OCR模型的基础模型参数为5层卷积,每层的卷积核大小均为3x3,步长除了第一层为2,其他均是1,每层的通道数为32、64、128、 256和256,LSTM的层数为1层,hidden unit为128;训练参数:使用的优化器是Adam,学习率0.001,batch size根据本地的硬件情况设置(如设置为 32),epoch为100。
需要说明的是,基础模型参数是在模型训练之前需要设置的参数,而不是通过训练得到的参数数据,基础模型参数也可以叫作超参数。
需要说明的是,Adam优化器结合AdaGrad和RMSProp两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second MomentEstimation,即梯度的未中心化的方差)进行综合考虑,计算出更新步长。
可选的,OCR模型的训练样本包括多张文本的图片,以训练样本为医疗诊断文本图片为例,图片中的文本可以是医生手写的,包括病人的病因、治疗手段等。文本图片可以是扫描件,也可以是原相机拍摄的图片。
可选的,终端的数据库中可以预先录入有多张历史文本的图片,终端在需要时,可以直接从数据库中调取多张文本图片作为OCR模型的训练样本。
步骤S20、将所述训练样本输入所述OCR模型进行训练。
可选的,将多张文本图片作为OCR模型的训练样本输入到OCR模型中进行训练,训练过程包括文字检测和文本识别,通过不断减少真实属性与预测属性之间的误差,使模型的预测结果与真实结果相近。其训练结果即为本次训练过程得到的OCR模型的模型参数,且该模型参数表征有各文字图片与之对应的文字信息之间的训练关系(或者说对应关系)。
其中,文字检测即检测文本在图片中所在位置和范围及其布局,通常也包括版面分析和文字行检测等。文字检测主要解决的问题是哪里有文字,文字的范围有多大。
其中,文本识别是在文字检测的基础上,对文本内容进行识别,将图像中的文字图形转化为文本信息。文字识别主要解决的问题是每个文字是什么。识别出的文本通常需要再次核对以保证其正确性。文本校正也被认为属于这一环节。而其中当识别的内容是由词库中的词汇组成时,则称作有词典识别 (Lexicon-based),反之称作无词典识别(Lexicon-free)。
以医疗诊断文本图片为例,一般来说,医疗诊断文本采用的是医学速写的方式撰写的(尤其是医生手动撰写的),与人们常用的字型书写不同,文本的字型往往潦草、难认。因此,OCR模型的文本识别优选采用有词典识别方式,并在词库中收录医学速写字形与常规字形的对应关系,这样可以提高OCR 模型的文本识别的效率。
可选的,以CNN特征作为输入,双向LSTM进行序列处理使得文本识别的效率大幅提升,也提升了模型的泛化能力。先由分类方法得到特征图,之后通过CTC对结果进行翻译得到输出结果。
步骤S30、将训练得到的模型参数上传至服务器,其中,所述服务器对多个文本识别系统上传的模型参数进行优化,并将优化后的模型参数反馈至每个文本识别系统。
可选的,将本地训练好的OCR模型参数发送到服务器(或者云端),由服务器负责收集各个地方的模型参数,即其他地方的文本识别系统也会将训练好的OCR模型参数也会上传到服务器。
需要说明的是,训练好的模型参数是OCR模型要学习的参数,比如:权重W和偏置b,其是在网络训练过程中自动学习和更新的。
应当理解的是,训练好的模型参数会成组输出,且一组模型参数会包括多个不同类别的模型参数。
可选的,每次上传至服务器的一组模型参数,可以是基于一个训练样本训练得到的,也可以是基于多个训练样本组成的训练样本组训练得到的。
可选的,为了提高OCR模型的训练效率,以及提高网络资源的利用率,每次上传至服务器的一组模型参数,是基于多个训练样本组成的训练样本组训练得到的。
服务器在接收到多个文本识别系统(至少两个文本识别系统)上传的多组模型参数时(每个文本识别系统上传一组模型参数),进行全局更新,将这些属于不同文本识别系统的模型参数进行优化。
可选的,服务器对模型参数进行优化的过程可以是求和平均,得到这些模型参数的平均值作为OCR模型新的模型参数(即经服务器优化后的模型参数)。
应当理解的是,由于一组模型参数会包括多个类别的模型参数,因此在计算多组模型参数的平均值时,应当以每个类别为单位,分别计算每个类别的模型参数的平均值,然后获取所有类别的模型参数平均值,组成一组新的模型参数。例如,有两组模型参数[a1,b1,c1]、[a2,b2,c2],算出a类别的平均值为a3,b类别的平均值为b3,c类别的平均值为c3,那么服务器得到的新的一组模型参数为[a3,b3,c3]。
可选的,服务器还可以根据每组模型参数对应的训练样本数,为不同文本识别系统上传的那组模型参数赋予相应的权重,然后再对所有模型参数进行加权求和再求平均,得到平均值作为新的模型参数。其中,该组模型参数对应的训练样本数越多,所得到的权重越大。例如,A系统上传的模型参数是根据1000个训练样本训练得到的,而B系统上传的模型参数是根据500个训练样本训练得到的,那么A系统对应的模型参数所赋予的权重大于B系统对应的模型参数的权重。
可选的,服务器还可以根据每个文本识别系统所处的医院等级,为各个文本识别系统上传的那组模型参数赋予相应的权重,然后再对所有模型参数进行加权求和再求平均,得到平均值作为新的模型参数。其中,文本识别系统所处的医院等级越高,该文本识别系统所上传的模型参数得到的权重越大。以医院等级为三级十等为例,二级医院的文本识别系统对应的模型参数得到的权重,大于一级医院的文本识别系统对应的模型参数得到的权重。
进一步地,服务器优化得到新的模型参数后,将模型参数反馈至各个文本识别系统中。
步骤S40、根据所述服务器反馈的模型参数对所述OCR模型进行更新迭代。
可选的,本地端的文本识别系统在接收到服务器发送回来的模型参数时,根据服务器反馈的模型参数对OCR模型进行更新迭代,将新得到的模型参数更新为OCR模型当次训练过程得到的模型参数。
进一步地,根据服务器反馈的模型参数更新OCR模型参数后,检测OCR 模型是否收敛;若是,判断OCR模型迭代结束;若否,返回执行步骤S20,获取新的训练样本进行新一轮OCR模型参数的迭代,如此往返,直到OCR 模型收敛。
进一步地,当OCR模型迭代结束,向服务器发送迭代结束通知信息。而服务器收集各个文本识别系统的迭代结束情况,并当全部的文本识别系统均迭代结束时,则结束全局更新进程。
在一实施例中,获取OCR模型的训练样本,所述训练样本包括文本图片;将所述训练样本输入所述OCR模型进行训练;将训练得到的模型参数上传至服务器,其中,所述服务器对多个文本识别系统上传的模型参数进行优化,并将优化后的模型参数反馈至每个文本识别系统;根据所述服务器反馈的模型参数对所述OCR模型进行更新迭代。这样,通过只分享文本数据对应的 OCR模型参数到服务器进行优化操作,既能利用服务器的大数据处理能力优化文本识别系统,又能避免用户隐私信息泄露。尤其是医疗诊断文本数据,不同地区的医疗文本数据和算力能得到充分的利用,避免为了获得算力,直接将医疗文本相关数据传送到服务器中,使得数据会有泄露和被他人盗用的风险,服务器在OCR模型训练的过程中只起到收集、更新和发送模型参数的作用,医疗文本数据在训练过程中没有交互,这种训练方式能在不牺牲算力的情况下起到了数据隐私保护的作用。
在一实施例中,如图2所示,在上述图1所示的实施例基础上,所述根据所述服务器反馈的模型参数对所述OCR模型进行更新迭代的步骤之后,还包括:
步骤S50、在所述OCR模型迭代结束后,获取准确率最高的模型参数构建训练完成的OCR模型。
本实施例中,OCR模型当次训练完成所输出的模型参数,必定会伴随一个与之对应的准确率。而当OCR模型进行多次训练迭代后,每个文本识别系统也必定会存在多组模型参数,以及每组模型参数对应的准确率。
可选的,在OCR模型迭代结束后,获取准确率最高的一组模型参数,用于构建训练完成的OCR模型,即最终得到的训练完成的OCR模型的模型参数准确率是最高的。
进一步地,当存在多组模型参数并列准确率最高时,则根据其中最新训练得到的模型参数(对应的训练时间最新的模型参数)构建训练完成的OCR 模型。
这样,可以提高OCR模型进行文本识别的准确率。
在一实施例中,如图3所示,在上述图1至图2的实施例基础上,所述将所述训练样本输入所述OCR模型进行训练的步骤之前,还包括:
步骤S60、对所述训练样本进行预处理,所述预处理包括图片去模糊处理、图片矫正处理和像素归一化处理中的至少一个。
本实施例中,终端获取到OCR模型的训练样本后,可以先对训练样本进行预处理,再将预处理后的训练样本输入OCR模型进行训练(即根据预处理后的训练样本执行步骤S20-S40)。
可选的,图片的预处理包括几何变换(透视、扭曲、旋转等)、图片去模糊处理、图片矫正处理和像素归一化处理中的至少一个。
其中,图片去模糊处理主要分为三大类,分别是图像增强、图像复原和超分辨率重构,均是可以利用图片处理算法实现。
其中,图片矫正处理可以包括畸变校正、光线校正等。
其中,图像的像素归一化是一个图像的预处理过程,可以通过将所有像素值除以最大像素值(最大值一般为255)来实现。
需要说明的是,虽然可以直接将原始图像的像素真实值直接作为OCR模型的训练数据,但由于在深度神经网络训练时一般使用较小的权重值来进行拟合,而当训练数据的值是较大整数值时,可能会减慢模型训练的过程。而如果将图片输入到OCR模型之前对图片做像素值归一化的处理(即将像素值缩放到0-1之间),则可以相应提高模型的训练速度。
在进行训练样本(主要为文本图片)进行图片的预处理是,可以基于CNN 的神经网络作为图片预处理的特征提取手段,配合大量的数据可以增强特征提取的鲁棒性,面临模糊、扭曲、畸变、复杂背景和光线不清等图像问题均可以表现良好的鲁棒性。
这样,通过进行训练样本的优化,可以提高OCR模型的训练速度和文本识别的准确性。
在一实施例中,如图4所示,在上述图1至图3的实施例基础上,所述根据所述服务器反馈的模型参数对所述OCR模型进行更新迭代之后,还包括:
步骤S70、在所述OCR模型训练完成后,将所述OCR模型转换为IR中间表达式;
步骤S71、根据本地硬件信息,将IR中间表达式转换为应用于本地硬件的代码;
步骤S72、根据所述代码进行所述OCR模型的本地部署。
本实施例中,在OCR模型训练完成后(或者说在构建训练完成的OCR 模型后),使用AutoTVM(一种模型优化编译器)将OCR模型转换为IR (Intermediate representation)中间表达式,IR中间表达式是一种通用的中间结构。
需要说明的是,TVM针对不同的深度学习框架和硬件平台,实现了统一的软件栈,以尽可能高效的方式,将不同框架下的深度学习模型部署到硬件平台上。
可选的,终端检测本地硬件的相关数据,得到本地硬件信息。然后根据本地硬件信息,利用llvm(一种多语言跨硬件的代码生成库)读取IR中间表达式,将IR中间表达式转换为能应用于本地硬件的代码数据,再将代码数据部署到本地硬件中,以实现训练完成的OCR模型在本地的部署。
这样一来,每个文本识别系统都可以根据系统当前所处的硬件环境进行OCR模型的部署,确保OCR模型在不同的硬件条件下都可以有最佳的运行时间。尤其使得硬件设施不发达的乡镇地区同样可以很好的实现OCR模型的部署,且避免因不同地区的硬件设备不同而造成OCR模型运行时间的不适应,造成识别时间过长,降低工作效率。
在一实施例中,如图5所示,在上述图1至图4的实施例基础上,所述根据本地硬件信息,将IR中间表达式转换为应用于本地硬件的代码的步骤之前,还包括:
步骤S73、对IR中间表达式的卷积进行优化,以缩短IR中间表达式对应的运行时间。
本实施例中,在得到训练完成的OCR模型对应的IR中间表达式后,在执行步骤S71之前,还可以是先对IR中间表达式的卷积进行优化。
可选的,IR中间表达式是一种通用的中间结构,选定里面的卷积操作,设置卷积中选取的矩阵大小范围:8到64,以及轴的排列组合(不重复),例如(x,y,z)、(y,x,z)等。然后对不同卷积矩阵、卷积轴排列的组合进行测试,得到各组合对应的准确率和运行时间。
可选的,使用random search随机抽取,对比运行时间,选取最佳的矩阵大小和轴的排列,更新IR中间表达式。
其中,最佳的矩阵大小和轴的排列可以是其对应的运行时间最短,或者其对应的运行时间与本地硬件数据处理的时间(如本地某条命令执行所需的时间)最匹配。
或者,获取准确率大于预设阈值的组合中,运行时间最短的组合作为最佳的矩阵大小和轴的排列,用于更新IR中间表达式。应当理解的是,预设阈值可以根据实际情况需要设置,如80%-95%。
这样,可以缩短IR中间表达式的运行时间,从而实现OCR模型运行时间的优化。
在一实施例中,如图6所示,在上述图1至图5的实施例基础上,所述根据所述代码进行所述OCR模型的本地部署的步骤之后,还包括:
步骤S80、检测到目标文本图片时,将所述目标文本图片输入到本地部署的OCR模型。
步骤S81、获取本地部署的OCR模型的输出值,作为所述目标文本图片对应的文本信息。
本实施例中,目标文本图片为文本识别系统可以进行文本信息识别的图片,如医疗诊断文本识别系统对应的目标文本图片即为医疗诊断文本图片。
当OCR模型部署到本地后,文本识别系统即可进行目标文本图片中文本的识别,此时,当文本识别系统检测到目标文本图片时,将目标文本图片作为输入值输入到本地部署的OCR模型,进行图片文本信息的识别。
当然,在将文本图片输入到本地部署的OCR模型之前,还可以是先将目标文本图片进行预处理,预处理的方式可以包括几何变换(透视、扭曲、旋转等)、图片去模糊处理、图片矫正处理和像素归一化处理中的至少一个。
进一步地,在本地部署的OCR模型识别目标文本图片之后,会将目标文本图片中对应的文本信息作为输出值进行输出,系统即可获取本地部署的 OCR模型的输出值,作为所述目标文本图片对应的文本信息,完成目标文本图片中的文本信息的识别。
这样,基于人工智能+图像识别,通过OCR模型构建的深度学习系统对目标文本图片进行识别,能够提高文本图片中的文本信息的识别效率。
在一实施例中,如图7所示,在上述图1至图6的实施例基础上,所述文本识别系统的优化方法包括以下步骤:
步骤S90、服务器接收到多个文本识别系统上传的模型参数时,对所述模型参数进行优化,其中,每个文本识别系统获取OCR模型的训练样本,将所述训练样本输入所述OCR模型进行训练,并将训练得到的模型参数上传至所述服务器,所述训练样本包括文本图片;
步骤S91、将优化后的模型参数反馈至每个文本识别系统,以供每个文本识别系统根据所述服务器反馈的模型参数对所述OCR模型进行更新迭代。
本实施例中,实施例终端为服务器(或者云端)。
可选的,服务器负责收集各个地方的模型参数,各地的文本识别系统在本地得到训练好的OCR模型参数后,便可将模型参数上传至服务器。
其中,每个文本识别系统获取到OCR模型的训练样本后,将所述训练样本输入到本地的OCR模型进行训练,并将训练得到的模型参数上传至服务器。需要说明的是,训练样本包括文本图片。
进一步地,服务器在接收到多个文本识别系统(至少两个文本识别系统) 上传的多组模型参数时(每个文本识别系统上传一组模型参数),进行全局更新,将这些属于不同文本识别系统的模型参数进行优化。
可选的,服务器对模型参数进行优化的过程可以是求和平均,得到这些模型参数的平均值作为OCR模型新的模型参数(经服务器优化后的模型参数)。
应当理解的是,由于一组模型参数会包括多个类别的模型参数,因此在计算多组模型参数的平均值时,应当以每个类别为单位,分别计算每个类别的模型参数对应的平均值,然后获取所有类别的模型参数平均值,组成一组新的模型参数,作为优化后的模型参数。例如,有两组模型参数[a1,b1,c1]、 [a2,b2,c2],算出a类别的平均值为a3,b类别的平均值为b3,c类别的平均值为c3,那么服务器得到的新的一组模型参数为[a3,b3,c3]。
可选的,服务器还可以根据每组模型参数对应的训练样本数,为不同文本识别系统上传的那组模型参数赋予相应的权重,然后再对所有模型参数进行加权求和再求平均,得到平均值作为新的模型参数。其中,该组模型参数对应的训练样本数越多,所得到的权重越大。例如,A系统上传的模型参数是根据1000个训练样本训练得到的,而B系统上传的模型参数是根据500个训练样本训练得到的,那么A系统对应的模型参数所赋予的权重大于B系统对应的模型参数的权重。
可选的,服务器还可以根据每个文本识别系统所处的医院等级,为各个文本识别系统上传的那组模型参数赋予相应的权重,然后再对所有模型参数进行加权求和再求平均,得到平均值作为新的模型参数。其中,文本识别系统所处的医院等级越高,该文本识别系统所上传的模型参数得到的权重越大。以医院等级为三级十等为例,二级医院的文本识别系统对应的模型参数得到的权重,大于一级医院的文本识别系统对应的模型参数得到的权重。进一步地,服务器优化得到新的模型参数后,将模型参数反馈至各个文本识别系统中,以供每个文本识别系统根据服务器反馈的模型参数,对本地的OCR模型进行更新迭代。
可选的,本地端的文本识别系统在接收到服务器发送回来的模型参数时,会根据服务器反馈的模型参数对OCR模型进行更新迭代,将新得到的模型参数更新为OCR模型当次训练过程得到的模型参数。
这样,通过只分享文本数据对应的OCR模型参数到服务器进行优化,既能利用服务器的大数据处理能力优化文本识别系统,又能避免用户隐私信息泄露。
此外,本申请还提出一种文本识别系统,所述文本识别系统包括文本识别系统的优化程序,所述文本识别系统的优化程序被处理器执行时实现如以上实施例所述的文本识别系统的优化方法的步骤。
参照图8,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于文本识别系统的优化程序。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本识别系统的优化方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
此外,本申请还提出一种计算机可读存储介质,所述计算机可读存储介质包括文本识别系统的优化程序,所述文本识别系统的优化程序被处理器执行时实现如以上实施例所述的文本识别系统的优化方法的步骤。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
综上所述,为本申请实施例中提供的文本识别系统的优化方法、文本识别系统、计算机设备和存储介质,获取OCR模型的训练样本,所述训练样本包括文本图片;将所述训练样本输入所述OCR模型进行训练;将训练得到的模型参数上传至服务器,其中,所述服务器对多个文本识别系统上传的模型参数进行优化,并将优化后的模型参数反馈至每个文本识别系统;根据所述服务器反馈的模型参数对所述OCR模型进行更新迭代。这样,通过只分享文本数据对应的OCR模型参数到服务器进行优化,既能利用服务器的大数据处理能力优化文本识别系统,又能避免用户隐私信息泄露。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM) 或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM (SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM (SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (4)

1.一种文本识别系统的优化方法,其特征在于,所述文本识别系统的优化方法包括以下步骤:
获取OCR模型的训练样本,所述训练样本包括文本图片;
将所述训练样本输入所述OCR模型进行训练;
将训练得到的模型参数上传至服务器,其中,所述服务器对多个文本识别系统上传的模型参数进行优化;服务器接收到多个文本识别系统上传的模型参数时,分别确定每种类别的模型参数对应的平均值;将所述平均值作为优化后的模型参数;并将优化后的模型参数反馈至每个文本识别系统;
根据所述服务器反馈的模型参数对所述OCR模型进行更新迭代;
在所述OCR模型迭代结束后,获取准确率最高的模型参数构建训练完成的OCR模型;在所述OCR模型训练完成后,将所述OCR模型转换为IR中间表达式;对所述IR中间表达式的卷积进行优化,以缩短所述IR中间表达式对应的运行时间;根据本地硬件信息,将所述IR中间表达式转换为应用于本地硬件的代码;根据所述代码进行所述OCR模型的本地部署;检测到目标文本图片时,将所述目标文本图片输入到本地部署的OCR模型;获取本地部署的OCR模型的输出值,作为所述目标文本图片对应的文本信息。
2.如权利要求1所述的文本识别系统的优化方法,其特征在于,所述将所述训练样本输入所述OCR模型进行训练的步骤之前,还包括:
对所述训练样本进行预处理,所述预处理包括图片去模糊处理、图片矫正处理和像素归一化处理中的至少一个。
3.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本识别系统的优化程序,所述文本识别系统的优化程序被所述处理器执行时实现如权利要求1至2中任一项所述的文本识别系统的优化方法的步骤。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本识别系统的优化程序,所述文本识别系统的优化程序被处理器执行时实现如权利要求1至2中任一项所述的文本识别系统的优化方法的步骤。
CN202010942971.3A 2020-09-09 2020-09-09 文本识别系统的优化方法、计算机设备及存储介质 Active CN112070086B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010942971.3A CN112070086B (zh) 2020-09-09 2020-09-09 文本识别系统的优化方法、计算机设备及存储介质
PCT/CN2020/125151 WO2021169363A1 (zh) 2020-09-09 2020-10-30 文本识别系统的优化方法、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010942971.3A CN112070086B (zh) 2020-09-09 2020-09-09 文本识别系统的优化方法、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112070086A CN112070086A (zh) 2020-12-11
CN112070086B true CN112070086B (zh) 2024-05-07

Family

ID=73663234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010942971.3A Active CN112070086B (zh) 2020-09-09 2020-09-09 文本识别系统的优化方法、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN112070086B (zh)
WO (1) WO2021169363A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240088A (zh) * 2021-05-17 2021-08-10 上海中通吉网络技术有限公司 文本意图识别模型的训练方法
CN113674387B (zh) * 2021-08-26 2024-04-16 广东中星电子有限公司 非自然场景视频的视频处理方法、装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284678A (zh) * 2018-08-17 2019-01-29 宽凳(北京)科技有限公司 路牌语义识别方法及系统
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN110309847A (zh) * 2019-04-26 2019-10-08 深圳前海微众银行股份有限公司 一种模型压缩方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545889B (zh) * 2016-06-23 2020-10-23 华为终端有限公司 适用于模式识别的模型的优化方法、装置及终端设备
US11373115B2 (en) * 2018-04-09 2022-06-28 Here Global B.V. Asynchronous parameter aggregation for machine learning
CN109840492B (zh) * 2019-01-25 2022-09-20 厦门商集网络科技有限责任公司 基于深度学习网络的文档识别方法和终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN109284678A (zh) * 2018-08-17 2019-01-29 宽凳(北京)科技有限公司 路牌语义识别方法及系统
CN110309847A (zh) * 2019-04-26 2019-10-08 深圳前海微众银行股份有限公司 一种模型压缩方法及装置

Also Published As

Publication number Publication date
CN112070086A (zh) 2020-12-11
WO2021169363A1 (zh) 2021-09-02

Similar Documents

Publication Publication Date Title
JP7311341B2 (ja) ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのシステムおよび方法
WO2020078236A1 (zh) 二维码生成方法、装置、存储介质及电子设备
CN110516541B (zh) 文本定位方法、装置、计算机可读存储介质和计算机设备
WO2023134073A1 (zh) 基于人工智能的图像描述生成方法、装置、设备及介质
CN111651992A (zh) 命名实体标注方法、装置、计算机设备和存储介质
CN112949507B (zh) 人脸检测方法、装置、计算机设备及存储介质
CN112070086B (zh) 文本识别系统的优化方法、计算机设备及存储介质
CN110188775B (zh) 一种基于联合神经网络模型的图像内容描述自动生成方法
CN115170934B (zh) 一种图像分割方法、系统、设备及存储介质
WO2023134084A1 (zh) 多标签识别方法、装置、电子设备及存储介质
CN110532431B (zh) 短视频关键词提取方法、装置及存储介质
CN113435594B (zh) 安防检测模型训练方法、装置、设备及存储介质
CN111914842A (zh) 车牌信息的识别方法、装置、计算机设备及存储介质
CN113807353B (zh) 图像转换模型训练方法、装置、设备及存储介质
CN111178358A (zh) 文本识别方法、装置、计算机设备和存储介质
CN113159013A (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
CN111242840A (zh) 手写体字符生成方法、装置、计算机设备和存储介质
CN114694158A (zh) 票据的结构化信息的提取方法及电子设备
CN115546506A (zh) 基于双池化通道注意力和空洞卷积的图像识别方法及系统
CN111666931A (zh) 基于混合卷积文字图像识别方法、装置、设备及存储介质
US20220222852A1 (en) Methods and systems for generating end-to-end model to estimate 3-dimensional(3-d) pose of object
CN116486422A (zh) 数据处理的方法和相关设备
US20210312173A1 (en) Method, apparatus and device for recognizing bill and storage medium
CN113850263A (zh) 基于图像识别的车型预测方法、装置、设备及介质
CN113343711A (zh) 工单生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant