CN111401367A - 基于联邦ocr模型的字符检测方法、装置、设备和介质 - Google Patents
基于联邦ocr模型的字符检测方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN111401367A CN111401367A CN202010202677.9A CN202010202677A CN111401367A CN 111401367 A CN111401367 A CN 111401367A CN 202010202677 A CN202010202677 A CN 202010202677A CN 111401367 A CN111401367 A CN 111401367A
- Authority
- CN
- China
- Prior art keywords
- ocr
- model
- federal
- character
- image information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/625—License plates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及金融科技领域,并公开了一种基于联邦OCR模型的字符检测方法、装置、设备和介质。方法包括:在接收到OCR识别请求时,获取所述OCR识别请求关联的待识别的图像信息;调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出,其中,所述联邦OCR模型为基于协调端发送的联合梯度对本地的初始OCR模型迭代训练获得,所述联合梯度是协调端基于多方节点的模型梯度处理生成。本发明通过调用联邦OCR模型提高了OCR的准确率,避免隐私数据泄漏,提高了数据安全性。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及基于联邦OCR模型的字符检测方法、装置、设备和介质。
背景技术
近年来,互联网金融科技(Fintech)的飞速发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域。
金融领域为了保证金融业务操作的安全性,需要用户上传证件照片信息,以供金融业务人员进行身份核对,当前主要是通过人工查看证件照片信息进行身份核对,这样的身份核对方式人力资源浪费严重;金融领域中部分金融机构采用OCR(Optical CharacterRecognition,光学字符识别,即,将图片、照片上的文字内容,直接转换为可编辑文本)技术进行身份核对,OCR技术的引入,虽然减少了人力资源的浪费,但是当前OCR技术中的识别模型没有进行充分学习,导致OCR识别准确率低。
发明内容
本发明的主要目的在于提出一种基于联邦OCR模型的字符检测方法、装置、设备和介质,旨在解决当前OCR识别准确率较低的技术问题。
为实现上述目的,本发明提供一种基于联邦OCR模型的字符检测方法,所述基于联邦OCR模型的字符检测方法包括如下步骤:
在接收到OCR识别请求时,获取所述OCR识别请求关联的待识别的图像信息;
调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出,其中,所述联邦OCR模型为基于协调端发送的联合梯度对本地的初始OCR模型迭代训练获得,所述联合梯度是协调端基于多方节点的模型梯度处理生成。
可选地,在接收到OCR识别请求时,获取所述OCR识别请求关联的待识别的图像信息之前,所述方法还包括:
将本地存储中的图像信息进行标记形成训练样本集,从所述训练样本集中抽取预设比例的训练样本;
通过所述训练样本训练初始OCR模型,获得模型梯度,并将所述模型梯度发送至协调端,以使所述协调端基于多方节点反馈的模型梯度,生成联合梯度;
接收所述协调端发送的联合梯度,根据所述联合梯度更新所述初始OCR模型,得到训练后的OCR模型,获取训练后的OCR模型的OCR特征向量;
通过预设损失函数处理所述OCR特征向量,获得损失值,将所述损失值发送至协调端,以通过所述协调端分析所述损失值确定OCR模型是否训练完成;
在接收到所述协调端发送的训练完成提示时,将训练得到的OCR模型作为联邦OCR模型。
可选地,所述调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出的步骤,包括:
调用联邦OCR模型对所述图像信息进行文本检测,提取所述图像信息中的文本区域;
通过所述联邦OCR模型对所述文本区域进行文字识别,获得所述文本区域中包含的字符信息,将所述字符信息作为OCR识别结果并输出。
可选地,所述通过所述联邦OCR模型对所述文本区域进行文字识别,获得所述文本区域中包含的字符信息,将所述字符信息作为OCR识别结果并输出的步骤,包括:
通过所述联邦OCR模型对所述文本区域进行文字识别,确定所述文本区域中字符的字符类型;
获取所述联邦OCR模型中所述字符类型对应的字符检测子模型,通过所述字符检测子模型对所述文本区域进行文字识别,获得所述文本区域中包含的字符信息,将所述字符信息作为OCR识别结果并输出。
可选地,所述调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出的步骤之后,包括:
在所述OCR识别结果错误时,输出标注提示,提示用户对所述图像信息进行标注;
将标注之后的图像信息作为训练样本,根据所述训练样本训练所述联邦OCR模型获得模型梯度,并将所述模型梯度发送至协调端,以使所述协调端基于多方节点反馈的模型梯度,生成联合梯度;
接收所述协调端发送的联合梯度,根据所述联合梯度更新所述联邦OCR模型。
可选地,所述在所述OCR识别结果错误时,输出模型训练提示,提示用户对所述图像信息进行标注的步骤,包括:
在所述OCR识别结果错误时,确定所述错误的错误类型;
在所述错误类型为区域检测错误,则输出区域标注提示,以提示用户标注所述图像信息中的文本区域;
在所述错误类型为文字识别错误,则输出文字标注提示,以提示用户输入所述图像信息中包含的字符信息。
可选地,所述在接收到OCR识别请求时,获取所述OCR识别请求关联的待识别的图像信息的步骤之后,所述方法还包括:
在所述图像信息为证件图像时,获取所述证件图像的证件类型;
所述调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出的步骤,包括:
调用所述证件类型对应的联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出。
此外,为实现上述目的,本发明还提供一种基于联邦OCR模型的字符检测装置,所述基于联邦OCR模型的字符检测装置包括:
请求接收模块,用于在接收到OCR识别请求时,获取所述OCR识别请求关联的待识别的图像信息;
调用检测模块,用于调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出,其中,所述联邦OCR模型为基于协调端发送的联合梯度对本地的初始OCR模型迭代训练获得,所述联合梯度是协调端基于多方节点的模型梯度处理生成。
此外,为实现上述目的,本发明还提供一种基于联邦OCR模型的字符检测设备,所述基于联邦OCR模型的字符检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于联邦OCR模型的OCR识别对应的计算机程序,所述基于联邦OCR模型的OCR识别对应的计算机程序被所述处理器执行时实现如上所述的基于联邦OCR模型的字符检测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于联邦OCR模型的OCR识别对应的计算机程序,所述基于联邦OCR模型的OCR识别对应的计算机程序被处理器执行时实现如上所述的基于联邦OCR模型的字符检测方法的步骤。
本发明提供一种基于联邦OCR模型的字符检测方法、装置、设备和介质,本发明实施例中在接收到OCR识别请求时,获取所述OCR识别请求关联的待识别的图像信息;调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出,其中,所述联邦OCR模型为基于协调端发送的联合梯度对本地的初始OCR模型迭代训练获得,所述联合梯度是协调端基于多方节点的模型梯度处理生成。本发明实施例中预先构建基于联邦OCR模型,联邦OCR模型是基于联盟链中多节点的模型梯度确定联合梯度,根据联合梯度联合训练得到的,联邦OCR模型使得多方能够在不泄露自己数据隐私的情况下充分学习,本实施例中通过联邦OCR模型对图像信息进行字符检测,提高了OCR识别的准确率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明基于联邦OCR模型的字符检测方法第一实施例的流程示意图;
图3为本发明基于联邦OCR模型的字符检测方法第二实施例的流程示意图;
图4为本发明基于联邦OCR模型的字符检测方法第三实施例的流程示意图;
图5为本发明基于联邦OCR模型的字符检测装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例基于联邦OCR模型的字符检测设备可以是协调端设备,如图1所示,该基于联邦OCR模型的字符检测设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作网络通信模块、用户接口模块以及基于联邦OCR模型的OCR识别对应的计算机程序。
在图1所示的设备中,网络接口1004主要用于连接后台协调端,与后台协调端进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的基于联邦OCR模型的OCR识别对应的计算机程序,并执行下述基于联邦OCR模型的字符检测方法中的操作。
基于上述硬件结构,提出本发明基于联邦OCR模型的字符检测方法实施例。
在接收到OCR识别请求时,获取所述OCR识别请求关联的待识别的图像信息;
调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出,其中,所述联邦OCR模型为基于协调端发送的联合梯度对本地的初始OCR模型迭代训练获得,所述联合梯度是协调端基于多方节点的模型梯度处理生成。
本实施例中基于联邦OCR模型的字符检测方法应用于金融行业的金融机构(银行机构、保险机构、证券机构等)中的字符检测设备。
字符检测设备是联盟链中的一个节点,字符检测设备中预存有联邦OCR模型,联邦OCR模型是基于协调端发送的联合梯度(联合梯度是协调端基于多方节点的模型梯度处理生成)对字符检测设备中本地的初始OCR模型迭代训练获得。本实施例中给出了联邦OCR模型的训练步骤,包括以下步骤:
在接收到OCR模型更新指令时,获取初始OCR模型;
将本地存储中的图像信息进行标记形成训练样本集,从所述训练样本集中抽取预设比例的训练样本;
通过所述训练样本训练初始OCR模型,获得模型梯度,并将所述模型梯度发送至协调端,以使所述协调端基于多方节点反馈的模型梯度,生成联合梯度;
接收所述协调端发送的联合梯度,根据所述联合梯度更新所述初始OCR模型,得到训练后的OCR模型,获取训练后的OCR模型的OCR特征向量;
通过预设损失函数处理所述OCR特征向量,获得损失值,将所述损失值发送至协调端,以通过所述协调端分析所述损失值确定OCR模型是否训练完成;
在接收到所述协调端发送的训练完成提示时,将训练得到的OCR模型作为联邦OCR模型。
具体地,包括:
1、协调端首先将准备训练的初始OCR模型发送到联盟链中的每一个字符检测设备那里。这里的初始OCR模型可以是已经进行部分训练过的,或者是完全未经训练过的,通常情况下联盟链进行数据传输需要加密,本实施例中协调端发送初始OCR模型的过程可以不需要加密,发送的模型也可以是未加密的模型。
2、每一个字符检测设备在收到协调端发送来的初始OCR模型后,字符检测设备将自己的训练数据准备好,每一条训练数据都是图片和对应的标注结果,由于数据都在字符检测设备那里,所以数据的标注也需要字符检测设备自己去完成。然后字符检测设备用自己的训练数据对初始OCR模型进行训练。本实施例中字符检测设备进行OCR模型训练时不会像传统的OCR模型训练那样发送到协调端进行训练,同时由于敏感数据只在字符检测设备那里,所以数据的标注也是由字符检测设备完成,从而避免了敏感数据和用户隐私的泄露。
3、每个字符检测设备在训练的过程中,会得到用于更新模型的梯度,字符检测设备将梯度进行加密(可以用同态加密算法、差分隐私算法等等),然后将加密后的梯度信息发送回协调端。由于梯度信息做了加密,除了字符检测设备自己其他人(包括协调端)是无法逆向出原始的训练数据的,用户数据的安全性得到了保证。
4、协调端使用安全聚合的方法将加密后的训练成果整合在一起,得到完整的模型梯度的更新信息,然后将这个完整的更新信息发送给每一个字符检测设备。本实施例中协调端能在不知道每一个字符检测设备的任何原始数据的情况下得到完整的梯度更新信息,同时保证了所有字符检测设备的数据都被用于模型的训练中。
5、每个字符检测设备在拿到完整的梯度更新信息之后分别对各自的模型进行更新,这样每个字符检测设备中的本地OCR模型就得到了同步,并且用的训练数据是所有人的数据。迭代上述训练过程,字符检测设备得到训练后的OCR模型,获取训练后的OCR模型的OCR特征向量;字符检测设备通过预设损失函数(预设损失函数根据OCR模型设定)处理OCR特征向量,获得损失值,将损失值发送至协调端,以通过协调端分析损失值确定OCR模型是否训练完成;在直到损失函数收敛,在接收到协调端发送的训练完成提示时,字符检测设备将训练得到的OCR模型作为联邦OCR模型。
本实施例中,字符检测设备进行联邦OCR模型训练时,可以在避免用户隐私数据泄露,同时实现联邦OCR模型的充分训练,以通过充分学习的联邦OCR模型提高字符检测准确率。
参照图2,图2为本发明基于联邦OCR模型的字符检测方法第一实施例的流程示意图,在本实施例中所述基于联邦OCR模型的字符检测方法包括:
步骤S10,在接收到OCR识别请求时,获取所述OCR识别请求关联的待识别的图像信息。
字符检测设备接收OCR识别请求,OCR识别请求的触发方式不作具体限定,即,OCR识别请求可以是用户主动触发的,例如,用户点击字符检测设备显示页面上的“OCR识别”按键,主动触发OCR识别请求;此外,OCR识别请求还可以是自动触发的,例如,字符检测设备预先设置:接收到新的图像信息时,自动触发OCR识别请求。
字符检测设备接收OCR识别请求,字符检测设备获取OCR识别请求关联的待识别的图像信息,图像信息可以是纸质文档中的文字转换成为黑白点阵的图像,例如,广告图像、车牌号码图像、身份证扫描信息等。
步骤S20,调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出。
字符检测设备调用联邦OCR模型对图像信息进行字符检测,获得OCR识别结果并输出,具体地,包括:
步骤a1,调用联邦OCR模型对所述图像信息进行文本检测,提取所述图像信息中的文本区域;
步骤a2,通过所述联邦OCR模型对所述文本区域进行文字识别,获得所述文本区域中包含的字符信息,将所述字符信息作为OCR识别结果并输出。
即,字符检测设备调用本地中存储的联邦OCR模型对图像信息进行文本检测,联邦OCR模型对图像进行预处理,获得灰度图像,通过联邦OCR模型提取灰度图像中的特征点,并根据特征点将灰度图像划分为文本区域和非文本区域,联邦OCR模型提取图像信息中的文本区域;字符检测设备通过联邦OCR模型对文本区域进行文字识别,获得文本区域中包含的字符信息,将字符信息作为OCR识别结果并输出。本实施例中通过联邦OCR模型将图像划分为文本区域和非文本区域,并对文本区域进行字符检测,提高了字符识别的准确性。
此外,为了提高字符检测的准确性,本实施例中设置了字符检测子模型,本实施例中是步骤a1的细化,包括:
通过所述联邦OCR模型对所述文本区域进行文字识别,确定所述文本区域中字符的字符类型;
获取所述联邦OCR模型中所述字符类型对应的字符检测子模型,通过所述字符检测子模型对所述文本区域进行文字识别,获得所述文本区域中包含的字符信息,将所述字符信息作为OCR识别结果并输出。
即,字符检测设备通过联邦OCR模型对文本区域进行文字识别,确定文本区域中字符的字符类型;字符检测设备获取联邦OCR模型中字符类型对应的字符检测子模型,字符检测设备通过字符检测子模型对文本区域进行文字识别,获得文本区域中包含的字符信息,字符检测设备将字符信息作为OCR识别结果并输出。
本实施例中由于字符种类比较多,例如,字符种类可以是英文字符(例如车牌号码),还可以是汉字(例如,身份证扫描图像)为了简化联邦OCR模型,同时保证字符检测的准确性,本实施例中联邦OCR模型中包含多个字符检测子模型,字符检测子模型是根据字符类型设置的,在保证联邦OCR模型不复杂的情况下,提高字符检测的准确性,
本发明实施例中预先构建基于联邦OCR模型,联邦OCR模型是基于联盟链中多节点的模型梯度确定联合梯度,根据联合梯度联合训练得到的,联邦OCR模型使得多方能够在不泄露自己数据隐私的情况下充分学习,本实施例中通过联邦OCR模型对图像信息进行字符检测,提高了OCR识别的准确率。
进一步地,参考图3,图3为本发明基于联邦OCR模型的字符检测方法第二实施例的流程示意图。
基于本发明基于联邦OCR模型的字符检测方法第一实施例,提出了本发明基于联邦OCR模型的字符检测方法第二实施例。
本实施例是第一实施例中步骤S20之后步骤,本实施例与上述实施例的区别在于:
步骤S30,在所述OCR识别结果错误时,输出标注提示,提示用户对所述图像信息进行标注。
字符检测设备输出OCR识别结果,字符检测设备判断OCR识别结果是否错误,即,字符检测设备判断OCR识别结果是否错误的实现方式不作具体限定,例如,字符检测设备根据用户输入的确认指令,在确认指令为错误指令时,字符检测设备判定OCR识别结果错误;反之,在确认指令为正确指令时,字符检测设备判定OCR识别结果正确。或者,字符检测设备获取OCR识别结果中的字符信息与图像信息对应的标准字符信息,在OCR识别结果中的字符信息与图像信息对应的标准字符信息不同时,字符检测设备判定OCR识别结果错误;反之,在OCR识别结果中的字符信息与图像信息对应的标准字符信息相同时,字符检测设备判定OCR识别结果正确。
步骤b1,在所述OCR识别结果错误时,确定所述错误的错误类型;
步骤b2,在所述错误类型为区域检测错误,则输出区域标注提示,以提示用户标注所述图像信息中的文本区域;
步骤b3,在所述错误类型为文字识别错误,则输出文字标注提示,以提示用户输入所述图像信息中包含的字符信息。
字符检测设备在OCR识别结果错误时,确定错误的错误类型;在错误类型为区域检测错误,字符检测设备则输出区域标注提示,以提示用户在图像信息中标注的文本区域;在错误类型为文字识别错误,字符检测设备则输出文字标注提示,以提示输入所述图像信息中包含的字符信息。本实施例中字符检测设备提示用户进行标注,以根据标注后的图像信息进行模型训练,具体地:
步骤S40,将标注之后的图像信息作为训练样本,根据所述训练样本训练所述联邦OCR模型获得模型梯度,并将所述模型梯度发送至协调端,以使所述协调端基于多方节点反馈的模型梯度,生成联合梯度。
字符检测设备将标注之后的图像信息作为训练样本,字符检测设备根据训练样本训练联邦OCR模型获得本次训练的模型梯度,字符检测设备将模型梯度发送至协调端,以使协调端处理模型梯度获得联合梯度,即,协调端将接收到的模型梯度和联盟链中除字符检测设备之外的其他节点的模型梯度,协调端将各个模型梯度进行结合得到联合梯度,协调端将联合梯度发送至字符检测设备。
步骤S50,接收所述协调端发送的联合梯度,根据所述联合梯度更新所述联邦OCR模型。
字符检测设备接收协调端发送的联合梯度,字符检测设备根据联合梯度更新所述联邦OCR模型。本实施例中在OCR模型字符检测错误的时候,可以进行有效地更新OCR模型,以方便后期提高OCR模型字符检测准确性。
进一步地,参考图4,图4为本发明基于联邦OCR模型的字符检测方法第三实施例的流程示意图。
基于本发明基于联邦OCR模型的字符检测方法上述实施例,提出了本发明基于联邦OCR模型的字符检测方法第三实施例。
本实施例是第三实施例中步骤S50之后步骤,本实施例与上述实施例的区别在于:
步骤S60,通过预设损失函数计算获得损失值,将所述损失值发送至协调端,以通过所述协调端分析所述损失值确定联邦OCR模型是否更新完成;
步骤S70,若预设时间间隔没有接收到所述协调端发送的更新完成提示,则输入新的训练样本,并执行所述根据所述训练样本训练所述联邦OCR模型获得模型梯度,并将所述模型梯度发送至协调端,以使所述协调端基于多方节点反馈的模型梯度,生成联合梯度的步骤;
步骤S80,在接收到所述协调端发送的更新完成提示时,输出所述更新完成提示。
字符检测设备通过预设损失函数(预设损失函数是指预先根据联邦OCR模型确定的函数,本实施例中不作赘述)计算获得损失值,字符检测设备将损失值发送至协调端,以通过协调端分析损失值确定联邦OCR模型是否更新完成;即,协调端接收损失值,协调端获取联盟链中除字符检测设备之外的其他节点的损失值,协调端将各个损失值进行结合得到累计损失值,协调端判断累计损失值是否小于预设损失值(预设损失值根据具体场景设置),在累计损失值大于或等于预设损失值时,协调端确定联邦OCR模型不收敛;在累计损失值小于预设损失值时,协调端确定联邦OCR模型收敛,协调端确定联邦OCR模型不收敛,协调端不执行任何操作。
若预设时间间隔(预设时间间隔可以根据具体场景设置例如设置为1分钟)没有接收到协调端发送的更新完成提示,字符检测设备则输入新的训练样本,并执行所述根据所述训练样本训练联邦OCR模型获得模型梯度,并将模型梯度发送至协调端,以使协调端处理所述模型梯度获得联合梯度的步骤;字符检测设备在接收到协调端发送的更新完成提示时,字符检测设备输出所述更新完成提示。
本实施例中具体说明了联邦OCR模型的训练步骤,通过联邦OCR模型充分学习,以保证字符检测的准确性。
进一步地,基于本发明基于联邦OCR模型的字符检测方法上述实施例,提出本发明基于联邦OCR模型的字符检测方法第四实施例。
本实施例是第一实施例中步骤S10之后的步骤,本实施例与上述实施例的区别在于:
在所述图像信息为证件图像时,获取所述证件图像的证件类型;
在本实施例中步骤S20,调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出的步骤,包括:
调用所述证件类型对应的联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出。
本实施例中,字符检测模型获取图像信息的属性,在图像信息为证件图像时,字符检测模型获取证件图像的证件类型,字符检测模型根据字符检测模型的类型调用证件类型对应的联邦OCR模型对图像信息进行字符检测,获得OCR识别结果并输出,本实施例中字符检测设备中预设有多个种类的联邦OCR模型,字符检测设备可以根据图像信息的类型选择联邦OCR模型,这样通过设置不同类型的联邦OCR模型,在降低联邦OCR模型的复杂性的同事,有效地保证了字符检测的准确性。
参照图5,图5为本发明基于联邦OCR模型的字符检测装置一实施例的功能模块示意图;本发明还提供一种基于联邦OCR模型的字符检测装置,所述基于联邦OCR模型的字符检测装置包括:
请求接收模块10,用于在接收到OCR识别请求时,获取所述OCR识别请求关联的待识别的图像信息;
调用检测模块20,用于调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出,其中,所述联邦OCR模型为基于协调端发送的联合梯度对本地的初始OCR模型迭代训练获得,所述联合梯度是协调端基于多方节点的模型梯度处理生成。
在一实施例中,所述的基于联邦OCR模型的字符检测装置,包括:
样本标记模块,用于将本地存储中的图像信息进行标记形成训练样本集,从所述训练样本集中抽取预设比例的训练样本;
梯度生成模块,用于通过所述训练样本训练初始OCR模型,获得模型梯度,并将所述模型梯度发送至协调端,以使所述协调端基于多方节点反馈的模型梯度,生成联合梯度;
模型更新模块,用于接收所述协调端发送的联合梯度,根据所述联合梯度更新所述初始OCR模型,得到训练后的OCR模型,获取训练后的OCR模型的OCR特征向量;
信息发送模块,用于通过预设损失函数处理所述OCR特征向量,获得损失值,将所述损失值发送至协调端,以通过所述协调端分析所述损失值确定OCR模型是否训练完成;
接收确定模块,用于在接收到所述协调端发送的训练完成提示时,将训练得到的OCR模型作为联邦OCR模型。
在一实施例中,所述调用检测模块20,包括:
调用提取子模块,用于调用联邦OCR模型对所述图像信息进行文本检测,提取所述图像信息中的文本区域;
识别输出子模块,用于通过所述联邦OCR模型对所述文本区域进行文字识别,获得所述文本区域中包含的字符信息,将所述字符信息作为OCR识别结果并输出。
在一实施例中,所述识别输出子模块,包括:
识别确定单元,用于通过所述联邦OCR模型对所述文本区域进行文字识别,确定所述文本区域中字符的字符类型;
获取输出单元,用于获取所述联邦OCR模型中所述字符类型对应的字符检测子模型,通过所述字符检测子模型对所述文本区域进行文字识别,获得所述文本区域中包含的字符信息,将所述字符信息作为OCR识别结果并输出。
在一实施例中,所述的基于联邦OCR模型的字符检测装置,包括:
提示输出模块,用于在所述OCR识别结果错误时,输出标注提示,提示用户对所述图像信息进行标注;
标注发送模块,用于将标注之后的图像信息作为训练样本,根据所述训练样本训练所述联邦OCR模型获得模型梯度,并将所述模型梯度发送至协调端,以使所述协调端基于多方节点反馈的模型梯度,生成联合梯度;
接收更新模块,用于接收所述协调端发送的联合梯度,根据所述联合梯度更新所述联邦OCR模型。
在一实施例中,所述的基于联邦OCR模型的字符检测装置,包括:
计算发送模块,用于通过预设损失函数计算获得损失值,将所述损失值发送至协调端,以通过所述协调端分析所述损失值确定联邦OCR模型是否更新完成;
样本输入模块,用于若预设时间间隔没有接收到所述协调端发送的更新完成提示,则输入新的训练样本,并执行所述根据所述训练样本训练所述联邦OCR模型获得模型梯度,并将所述模型梯度发送至协调端,以使所述协调端基于多方节点反馈的模型梯度,生成联合梯度的步骤;
提示输出模块,用于在接收到所述协调端发送的更新完成提示时,输出所述更新完成提示。
在一实施例中,所述提示输出模块,包括:
类型确定单元,用于在所述OCR识别结果错误时,确定所述错误的错误类型;
第一输出单元,用于在所述错误类型为区域检测错误,则输出区域标注提示,以提示用户标注所述图像信息中的文本区域;
第二输出单元,用于在所述错误类型为文字识别错误,则输出文字标注提示,以提示用户输入所述图像信息中包含的字符信息。
在一实施例中,所述的基于联邦OCR模型的字符检测装置,包括:
类型确定模块,用于在所述图像信息为证件图像时,获取所述证件图像的证件类型;
所述调用检测模块20还用于:调用所述证件类型对应的联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出。
其中,在所述处基于联邦OCR模型的字符检测装置被执行时所实现的方法可参照本发明基于联邦OCR模型的字符检测方法各个实施例,此处不再赘述。
本发明实施例中预先构建基于联邦OCR模型,联邦OCR模型是基于联盟链中多节点的模型梯度确定联合梯度,根据联合梯度联合训练得到的,联邦OCR模型使得多方能够在不泄露自己数据隐私的情况下充分学习,本实施例中通过联邦OCR模型对图像信息进行字符检测,提高了OCR识别的准确率。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有基于联邦OCR模型的OCR识别对应的计算机程序,所述基于联邦OCR模型的OCR识别对应的计算机程序被处理器执行时实现如上所述的基于联邦OCR模型的字符检测方法的步骤。
其中,在所述处理器上运行的基于联邦OCR模型的OCR识别对应的计算机程序被执行时所实现的方法可参照本发明基于联邦OCR模型的字符检测方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,协调端,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于联邦OCR模型的字符检测方法,其特征在于,所述基于联邦OCR模型的字符检测方法包括如下步骤:
在接收到OCR识别请求时,获取所述OCR识别请求关联的待识别的图像信息;
调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出,其中,所述联邦OCR模型为基于协调端发送的联合梯度对本地的初始OCR模型迭代训练获得,所述联合梯度是协调端基于多方节点的模型梯度处理生成。
2.如权利要求1所述的基于联邦OCR模型的字符检测方法,其特征在于,在接收到OCR识别请求时,获取所述OCR识别请求关联的待识别的图像信息之前,所述方法还包括:
将本地存储中的图像信息进行标记形成训练样本集,从所述训练样本集中抽取预设比例的训练样本;
通过所述训练样本训练初始OCR模型,获得模型梯度,并将所述模型梯度发送至协调端,以使所述协调端基于多方节点反馈的模型梯度,生成联合梯度;
接收所述协调端发送的联合梯度,根据所述联合梯度更新所述初始OCR模型,得到训练后的OCR模型,获取训练后的OCR模型的OCR特征向量;
通过预设损失函数处理所述OCR特征向量,获得损失值,将所述损失值发送至协调端,以通过所述协调端分析所述损失值确定OCR模型是否训练完成;
在接收到所述协调端发送的训练完成提示时,将训练得到的OCR模型作为联邦OCR模型。
3.如权利要求1所述的基于联邦OCR模型的字符检测方法,其特征在于,所述调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出的步骤,包括:
调用联邦OCR模型对所述图像信息进行文本检测,提取所述图像信息中的文本区域;
通过所述联邦OCR模型对所述文本区域进行文字识别,获得所述文本区域中包含的字符信息,将所述字符信息作为OCR识别结果并输出。
4.如权利要求3所述的基于联邦OCR模型的字符检测方法,其特征在于,所述通过所述联邦OCR模型对所述文本区域进行文字识别,获得所述文本区域中包含的字符信息,将所述字符信息作为OCR识别结果并输出的步骤,包括:
通过所述联邦OCR模型对所述文本区域进行文字识别,确定所述文本区域中字符的字符类型;
获取所述联邦OCR模型中所述字符类型对应的字符检测子模型,通过所述字符检测子模型对所述文本区域进行文字识别,获得所述文本区域中包含的字符信息,将所述字符信息作为OCR识别结果并输出。
5.如权利要求1所述的基于联邦OCR模型的字符检测方法,其特征在于,所述调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出的步骤之后,包括:
在所述OCR识别结果错误时,输出标注提示,提示用户对所述图像信息进行标注;
将标注之后的图像信息作为训练样本,根据所述训练样本训练所述联邦OCR模型获得模型梯度,并将所述模型梯度发送至协调端,以使所述协调端基于多方节点反馈的模型梯度,生成联合梯度;
接收所述协调端发送的联合梯度,根据所述联合梯度更新所述联邦OCR模型。
6.如权利要求5所述的基于联邦OCR模型的字符检测方法,其特征在于,所述在所述OCR识别结果错误时,输出模型训练提示,提示用户对所述图像信息进行标注的步骤,包括:
在所述OCR识别结果错误时,确定所述错误的错误类型;
在所述错误类型为区域检测错误,则输出区域标注提示,以提示用户标注所述图像信息中的文本区域;
在所述错误类型为文字识别错误,则输出文字标注提示,以提示用户输入所述图像信息中包含的字符信息。
7.如权利要求1至6任意一项所述的基于联邦OCR模型的字符检测方法,其特征在于,所述在接收到OCR识别请求时,获取所述OCR识别请求关联的待识别的图像信息的步骤之后,所述方法还包括:
在所述图像信息为证件图像时,获取所述证件图像的证件类型;
所述调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出的步骤,包括:
调用所述证件类型对应的联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出。
8.一种基于联邦OCR模型的字符检测装置,其特征在于,所述基于联邦OCR模型的字符检测装置包括:
请求接收模块,用于在接收到OCR识别请求时,获取所述OCR识别请求关联的待识别的图像信息;
调用检测模块,用于调用联邦OCR模型对所述图像信息进行字符检测,获得OCR识别结果并输出,其中,所述联邦OCR模型为基于协调端发送的联合梯度对本地的初始OCR模型迭代训练获得,所述联合梯度是协调端基于多方节点的模型梯度处理生成。
9.一种基于联邦OCR模型的字符检测设备,其特征在于,所述基于联邦OCR模型的字符检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于联邦OCR模型的OCR识别对应的计算机程序,所述基于联邦OCR模型的OCR识别对应的计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于联邦OCR模型的字符检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于联邦OCR模型的OCR识别对应的计算机程序,所述基于联邦OCR模型的OCR识别对应的计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于联邦OCR模型的字符检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010202677.9A CN111401367A (zh) | 2020-03-20 | 2020-03-20 | 基于联邦ocr模型的字符检测方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010202677.9A CN111401367A (zh) | 2020-03-20 | 2020-03-20 | 基于联邦ocr模型的字符检测方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111401367A true CN111401367A (zh) | 2020-07-10 |
Family
ID=71431107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010202677.9A Pending CN111401367A (zh) | 2020-03-20 | 2020-03-20 | 基于联邦ocr模型的字符检测方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401367A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085019A (zh) * | 2020-08-31 | 2020-12-15 | 深圳思谋信息科技有限公司 | 字符识别模型生成系统、方法、装置和计算机设备 |
CN114358171A (zh) * | 2021-12-29 | 2022-04-15 | 中国建设银行股份有限公司 | 一种模型训练方法、装置、设备和介质 |
-
2020
- 2020-03-20 CN CN202010202677.9A patent/CN111401367A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085019A (zh) * | 2020-08-31 | 2020-12-15 | 深圳思谋信息科技有限公司 | 字符识别模型生成系统、方法、装置和计算机设备 |
CN114358171A (zh) * | 2021-12-29 | 2022-04-15 | 中国建设银行股份有限公司 | 一种模型训练方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428058B (zh) | 联邦学习模型训练方法、装置、终端设备及存储介质 | |
US10282643B2 (en) | Method and apparatus for obtaining semantic label of digital image | |
CN108256591B (zh) | 用于输出信息的方法和装置 | |
WO2019223177A1 (zh) | 电子签名认证方法、系统、计算机设备和存储介质 | |
CN110781460A (zh) | 版权认证方法、装置、设备、系统及计算机可读存储介质 | |
CN109409349B (zh) | 信贷证件鉴别方法、装置、终端及计算机可读存储介质 | |
KR102002024B1 (ko) | 객체 라벨링 처리 방법 및 객체 관리 서버 | |
WO2021012382A1 (zh) | 配置聊天机器人的方法、装置、计算机设备和存储介质 | |
CN111401277A (zh) | 人脸识别模型更新方法、装置、设备和介质 | |
CN112100431B (zh) | Ocr系统的评估方法、装置、设备及可读存储介质 | |
US20160125231A1 (en) | Systems and Methods for Enhanced Document Recognition and Security | |
US20160210347A1 (en) | Classification and storage of documents | |
CN110795714A (zh) | 一种身份验证方法、装置、计算机设备及存储介质 | |
CN111401367A (zh) | 基于联邦ocr模型的字符检测方法、装置、设备和介质 | |
CN112381092A (zh) | 跟踪方法、装置及计算机可读存储介质 | |
CN111553241A (zh) | 掌纹的误匹配点剔除方法、装置、设备及存储介质 | |
CN117435710A (zh) | 政务服务问答方法、装置、终端设备以及存储介质 | |
CN111767543A (zh) | 重放攻击漏洞确定方法、装置、设备及可读存储介质 | |
KR101854804B1 (ko) | 텍스트와 연관된 개체명을 결정하기 위한 사용자 인증 서비스 제공 및 학습 데이터 구축 방법 | |
US20220327849A1 (en) | Computer-Implemented Method For Optical Character Recognition | |
CN113868401A (zh) | 数字人的交互方法、装置、电子设备及计算机存储介质 | |
EP3913536A1 (en) | Phrase code generation method and apparatus, phrase code recognition method and apparatus, and storage medium | |
CN108875748B (zh) | 无线访问接入点信息的生成方法、设备和计算机可读介质 | |
CN111428620A (zh) | 基于联邦活体检测模型的身份识别方法、装置、设备和介质 | |
CN109003190B (zh) | 一种核保方法、计算机可读存储介质及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |