CN110503089A - 基于众包技术的ocr识别模型训练方法、装置以及计算机设备 - Google Patents
基于众包技术的ocr识别模型训练方法、装置以及计算机设备 Download PDFInfo
- Publication number
- CN110503089A CN110503089A CN201910593212.8A CN201910593212A CN110503089A CN 110503089 A CN110503089 A CN 110503089A CN 201910593212 A CN201910593212 A CN 201910593212A CN 110503089 A CN110503089 A CN 110503089A
- Authority
- CN
- China
- Prior art keywords
- crowdsourcing
- identification model
- ocr identification
- recognized
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 59
- 238000005516 engineering process Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012795 verification Methods 0.000 claims abstract description 99
- 238000004590 computer program Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 8
- 241001269238 Data Species 0.000 abstract description 4
- 238000012015 optical character recognition Methods 0.000 description 108
- 238000004891 communication Methods 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000010437 gem Substances 0.000 description 2
- 229910001751 gemstone Inorganic materials 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于众包技术的OCR识别模型训练方法,该方法包括:根据基础OCR识别模型对待识别图像进行识别,将所述识别结果发送到众包系统;接收众包系统的每一众包终端对于所述识别结果所反馈的验证结果;判断所述识别结果是否为通过,当不通过时记录所述待识别图像以及所述验证结果;最后根据验证结果对所述基础OCR识别模型进行重训练,得到目标OCR识别模型。本发明还提供一种基于众包技术的OCR识别模型训练装置、计算机设备以及计算机可读存储介质。本发明能够在不需要大量采样数据的情况下通过众包验证结果对基础OCR识别模型的进行重训练,从而提升OCR识别模型的准确率,并且训练效率高、成本低。
Description
技术领域
本发明涉及OCR识别模型训练技术领域,尤其涉及一种基于众包技术的OCR识别模型训练方法、装置、计算机设备及计算机可读存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)用于对印刷品进行扫描,然后对扫描出来的图像进行识别,识别出图像中包括的文字信息。一般来说,印刷品上的文字容易磨损,因此扫描出来的图像也是比较模糊的。现有的OCR技术中对于印刷品的模糊文字的识别,通常识别率比较低。然而,对于OCR识别模型的训练,尤其是图像中模糊文字的识别模型训练,所依靠的原始数据很少,识别准确率低。因此,现有技术中,OCR识别技术的应用受到很大限制。
发明内容
有鉴于此,本发明提出一种基于众包技术的OCR识别模型训练方法、装置、计算机设备及计算机可读存储介质,能够根据基础OCR识别模型对待识别图像进行识别,并将所述识别结果发送到众包系统进行验证;然后接收众包系统的每一众包终端对于所述识别结果所反馈的验证结果;根据所述验证结果判断所述识别结果是否为通过,当所述识别结果为不通过且超过预设阈值的众包终端对于所述识别结果的验证结果相同时,记录所述待识别图像以及所述验证结果;最后根据验证结果对所述基础OCR识别模型进行重训练,得到目标OCR识别模型。通过以上方式,能够在不需要大量采样数据的情况下通过众包验证结果对基础OCR识别模型的进行重训练,从而提升OCR识别模型的准确率,并且训练效率高、成本低。
首先,为实现上述目的,本发明提供一种基于众包技术的OCR识别模型训练方法,所述方法包括:
获取待识别图像,根据预设的基础OCR识别模型对所述待识别图像进行识别;将所述识别结果发送到众包系统进行验证,接收众包系统的每一众包终端对于所述识别结果所反馈的验证结果;根据所述验证结果判断所述识别结果是否为通过,当所述识别结果为不通过,且对于所述识别结果的验证结果相同的众包终端的数量超过预设阈值时,记录所述待识别图像以及所述验证结果;根据验证结果对所述基础OCR识别模型进行重训练,得到目标OCR识别模型。
可选地,所述“获取待识别图像”的步骤包括:接收OCR识别任务,获取印刷品图像;通过像素分布特点识别出所述印刷品图像中的表示文字部分的待识别图像。
可选地,所述验证结果包括对于所述图像识别结果的正确度验证以及对于所述待识别图像的图像验证,所述正确度验证包括正确或错误,所述图像验证用于描述所述待识别图像的内容。
可选地,所述“根据验证结果对所述基础OCR识别模型进行重新训练”的步骤包括:将所述待识别图像以及所述验证结果作为标注数据对所述基础OCR识别模型进行重训练,所述重训练包括fine-tune微调。
此外,为实现上述目的,本发明还提供一种基于众包技术的OCR识别模型训练装置,所述装置包括:
识别模块,用于获取待识别图像,根据预设的基础OCR识别模型对所述待识别图像进行识别;接收模块,用于将所述识别结果发送到众包系统进行验证,接收众包系统的每一众包终端对于所述识别结果所反馈的验证结果;判断模块,用于根据所述验证结果判断所述识别结果是否为通过,当所述识别结果为不通过,且对于所述识别结果的验证结果相同的众包终端的数量超过预设阈值时,记录所述待识别图像以及所述验证结果;训练模块,用于根据验证结果对所述基础OCR识别模型进行重训练,得到目标OCR识别模型。
可选地,所述识别模块还用于:接收OCR识别任务,获取印刷品图像;通过像素分布特点识别出所述印刷品图像中的表示文字部分的待识别图像。
可选地,所述验证结果包括对于所述图像识别结果的正确度验证以及对于所述待识别图像的图像验证,所述正确度验证包括正确或错误,所述图像验证用于描述所述待识别图像的内容。
可选地,所述训练模块,还用于将所述待识别图像以及所述验证结果作为标注数据对所述基础OCR识别模型进行重训练,所述重训练包括fine-tune微调。
进一步地,本发明还提出一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的基于众包技术的OCR识别模型训练方法的步骤。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于众包技术的OCR识别模型训练方法的步骤。
相较于现有技术,本发明所提出的基于众包技术的OCR识别模型训练方法、装置、计算机设备及计算机可读存储介质,能够根据基础OCR识别模型对待识别图像进行识别,并将所述识别结果发送到众包系统进行验证;然后接收众包系统的每一众包终端对于所述识别结果所反馈的验证结果;根据所述验证结果判断所述识别结果是否为通过,当所述识别结果为不通过且超过预设阈值的众包终端对于所述识别结果的验证结果相同时,记录所述待识别图像以及所述验证结果;最后根据验证结果对所述基础OCR识别模型进行重训练,得到目标OCR识别模型。通过以上方式,能够在不需要大量采样数据的情况下通过众包验证结果对基础OCR识别模型的进行重训练,从而提升OCR识别模型的准确率,并且训练效率高、成本低。
附图说明
图1是本发明计算机设备一可选的硬件架构的示意图;
图2是本发明基于众包技术的OCR识别模型训练装置一实施例的程序模块示意图;
图3是本发明基于众包技术的OCR识别模型训练方法一实施例的流程示意图。
附图标记:
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是本发明计算机设备1一可选的硬件架构的示意图。
本实施例中,所述计算机设备1可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、网络接口13。
所述计算机设备1通过网络接口13连接网络(图1未标出),通过网络连接到其他系统或者终端设备如众包系统、移动终端(Mobile Terminal)、用户设备(User Equipment,UE)、手机(handset)及便携设备(portable equipment),PC端等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
需要指出的是,图1仅示出了具有组件11-13的计算机设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述计算机设备1的内部存储单元,例如该计算机设备1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述计算机设备1的外部存储设备,例如该计算机设备1配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述计算机设备1的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述计算机设备1的操作系统和各类应用软件,例如基于众包技术的OCR识别模型训练装置200的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述计算机设备1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述的基于众包技术的OCR识别模型训练装置200等。
所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述计算机设备1与其他系统或者终端设备如众包系统、移动终端、用户设备、手机及便携设备,PC端等之间建立通信连接。
本实施例中,所述计算机设备1内安装并运行有基于众包技术的OCR识别模型训练装置200时,当所述基于众包技术的OCR识别模型训练装置200运行时,能够根据基础OCR识别模型对待识别图像进行识别,并将所述识别结果发送到众包系统进行验证;然后接收众包系统的每一众包终端对于所述识别结果所反馈的验证结果;根据所述验证结果判断所述识别结果是否为通过,当所述识别结果为不通过且超过预设阈值的众包终端对于所述识别结果的验证结果相同时,记录所述待识别图像以及所述验证结果;最后根据验证结果对所述基础OCR识别模型进行重训练,得到目标OCR识别模型。通过以上方式,能够在不需要大量采样数据的情况下通过众包验证结果对基础OCR识别模型的进行重训练,从而提升OCR识别模型的准确率,并且训练效率高、成本低。
至此,己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面,将基于上述应用环境和相关设备,提出本发明的各个实施例。
首先,本发明提出一种基于众包技术的OCR识别模型训练装置200。
参阅图2所示,是本发明基于众包技术的OCR识别模型训练装置200一实施例的程序模块图。
本实施例中,所述基于众包技术的OCR识别模型训练装置200包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的基于众包技术的OCR识别模型训练功能。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,基于众包技术的OCR识别模型训练装置200可以被划分为一个或多个模块。例如,在图2中,所述基于众包技术的OCR识别模型训练装置200可以被分割成识别模块201、接收模块202、判断模块203和训练模块204。其中:
所述识别模块201,用于获取待识别图像,根据预设的基础OCR识别模型对所述待识别图像进行识别。
在本实施例中,所述识别模块201首先接收OCR识别任务,获取印刷品图像,再通过通过像素分布特点识别出所述印刷品图像中的表示文字部分的待识别图像;然后再根据预设的基础OCR识别模型对所述待识别模型进行识别。
具体地,在本实施例中,对于印刷品的图像识别,大多是为了识别所述印刷品的图像中包括的序列号,字符,或者身份证号码等等,具有标识作用的识别字符。因此,当用户需要进行印刷品识别时,则会想所述计算机设备1发送OCR识别任务,并将所述计算机设备1的拍摄单元对所述印刷品进行扫描,然后所述识别模块201则接收OCR识别任务,获取印刷品图像;然后再通过像素点分布特点识别出所述印刷品图像中的宝石文字部分的待识别图像。在本实施了中,由于文字由线体构成,线体具有粗细以及间隔的特征,因此,可以通过对印刷品图像中的像素块进行分析,当像素块构成具有一定的粗细间隔特征,则认为是文字部分并标记为待识别图像。接着,所述识别模块201根据预设的基础OCR识别模型对所述待识别图像进行识别。OCR识别模型对于文字图像的识别属于常用技术,这里不做赘述。
所述接收模块202,用于将所述识别结果发送到众包系统进行验证,接收众包系统的每一众包终端对于所述识别结果所反馈的验证结果。
具体地,在所述识别模块201对所述待识别图像进行识别之后,然后所述接收模块202则将识别结果发送至众包系统进行验证。其中,所述计算机设备1与众包系统通信连接,所述众包系统包括多个众包终端,然后所述众包终端将所述OCR识别结果显示给所述众包终端对应的众包用户,并要求所述众包终端对所述识别结果进行验证。例如,当所述识别模块201对所述待识别图像进行识别之后,识别的结果为:身份证号码,11223319658888456x。那么,所述接收模块202将所述识别结果发送至预设的众包系统M,所述众包系统包括100个众包终端,那么所述100个众包终端则可以分别将所述待识别图像,以及所述识别结果“身份证号码,11223319658888456x”。众包用户通过所述众包终端将验证结果返回至所述OCR识别终端,然后所述接收模块202接收众包系统的每一众包终端对于所述识别结果所反馈的验证结果。其中,所述验证结果包括对于所述图像识别结果的正确度验证以及对于所述待识别图像的图像验证,所述正确度验证包括正确或错误,所述图像验证用于描述所述待识别图像的内容。
所述判断模块203,用于根据所述验证结果判断所述识别结果是否为通过,当所述识别结果为不通过,且对于所述识别结果的验证结果相同的众包终端的数量超过预设阈值时,记录所述待识别图像以及所述验证结果。
具体地,所述接收模块202接收所述众包系统中所有的众包终端返回的验证结果,其中所述验证结果包括对于所述图像识别结果的正确度验证以及对于所述待识别图像的图像验证。例如,所述众包系统中每个众包终端被预先设置对所述OCR识别结果的验证包括两个部分:“所述OCR识别结果是否正确?”;“如果所述OCR识别结果不正确,那么所述待识别图像中文本部分表示了什么类别,以及文本是什么?”。因此,当所述众包系统中的每个众包终需要确认所述OCR识别结果是否正确,并在不正确的情况下进行识别结果的输入。在本实施例中,所述接收模块202在接收所述众包系统中所有的众包终端返回的验证结果之后,然后所述判断模块203根据所述众包系统对于所述识别模块201的识别结果所反馈的验证结果进行判断,判断所述识别结果是否通过。所述验证规则包括:如果所述众包系统中75%以上的众包终端进行验证并确认所述OCR识别结果为正确时,那么则判断所述众包系统对于所述识别结果验证通过;否则,验证不通过。当验证不通过且所述众包系统中50%以上的众包终端对于所述待识别图像中的识别结果反馈的验证结果相同时,那么,则判断所述验证结果不通过,并记录所述待识别图像以及所述众包系统返回的验证结果。例如,当所述识别模块201对于待识别图像A的识别结果为:序列号:111111111;而所述接收模块202接收到众包系统反馈的验证结果中,60%的众包终端返回的验证结果为:识别不正确;识别结果为:身份证号码:22222222。那么,所述判断模块203则判断所述识别结果不通过,同时对所述待识别图像,以及所述众包终端的识别结果进行保存。其他验证不通过的情况下,所述判断模块203对于识别结果的则只判断识别结果不正确并给出对应的提示如:“未识别出图像中的标识字符”。
所述训练模块204,用于根据验证结果对所述基础OCR识别模型进行重训练,得到目标OCR识别模型。
具体地,所述判断模块203在所述众包系统对于所述识别结果的所反馈的验证结果不通过,且记录了所述待识别图像以及所述众包用户返回的验证结果之后,那么,所述训练模块204则会将所述待识别图像以及所述验证结果作为标注数据对所述基础OCR识别模型进行重训练,所述重训练包括fine-tune微调。在本实施例中,所述微调的过程为现有深度学习网络中常用的(Fine-tune)技术,所述OCR识别终端在记录到了所述待识别图像以及所述众包用户返回的验证结果并累计到了预设的数量之后,例如10万数据量时,那么所述训练模块204则开始启动对所述基础OCR识别模型进行更新训练。其中,所述微调技术为现有的常用技术,这里不做详细描述。当所述训练模块204利用标注数据对所述基础OCR识别模型进行更新训练之后,则将更新后的OCR识别模型作为新的基础OCR识别模型进行后续的印刷品图像识别。
从上文可知,所述计算机设备1能够根据基础OCR识别模型对待识别图像进行识别,并将所述识别结果发送到众包系统进行验证;然后接收众包系统的每一众包终端对于所述识别结果所反馈的验证结果;根据所述验证结果判断所述识别结果是否为通过,当所述识别结果为不通过且超过预设阈值的众包终端对于所述识别结果的验证结果相同时,记录所述待识别图像以及所述验证结果;最后根据验证结果对所述基础OCR识别模型进行重训练,得到目标OCR识别模型。通过以上方式,能够在不需要大量采样数据的情况下通过众包验证结果对基础OCR识别模型的进行重训练,从而提升OCR识别模型的准确率,并且训练效率高、成本低。
此外,本发明还提出一种基于众包技术的OCR识别模型训练方法,所述方法应用于计算机设备。
参阅图3所示,是本发明基于众包技术的OCR识别模型训练方法一实施例的流程示意图。在本实施例中,根据不同的需求,图3所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S500,获取待识别图像,根据预设的基础OCR识别模型对所述待识别图像进行识别。
在本实施例中,所述计算机设备首先接收OCR识别任务,获取印刷品图像,再通过通过像素分布特点识别出所述印刷品图像中的表示文字部分的待识别图像;然后再根据预设的基础OCR识别模型对所述待识别模型进行识别。
具体地,在本实施例中,对于印刷品的图像识别,大多是为了识别所述印刷品的图像中包括的序列号,字符,或者身份证号码等等,具有标识作用的识别字符。因此,当用户需要进行印刷品识别时,则会想所述计算机设备发送OCR识别任务,并将所述计算机设备的拍摄单元对所述印刷品进行扫描,然后所述计算机设备则接收OCR识别任务,获取印刷品图像;然后再通过像素点分布特点识别出所述印刷品图像中的宝石文字部分的待识别图像。在本实施了中,由于文字由线体构成,线体具有粗细以及间隔的特征,因此,可以通过对印刷品图像中的像素块进行分析,当像素块构成具有一定的粗细间隔特征,则认为是文字部分并标记为待识别图像。接着,所述计算机设备根据预设的基础OCR识别模型对所述待识别图像进行识别。OCR识别模型对于文字图像的识别属于常用技术,这里不做赘述。
步骤S502,将所述识别结果发送到众包系统进行验证,接收众包系统的每一众包终端对于所述识别结果所反馈的验证结果。
具体地,在所述计算机设备对所述待识别图像进行识别之后,然后进一步将识别结果发送至众包系统进行验证。其中,所述计算机设备与众包系统通信连接,所述众包系统包括多个众包终端,然后所述众包终端将所述OCR识别结果显示给所述众包终端对应的众包用户,并要求所述众包终端对所述识别结果进行验证。例如,当计算机设备对所述待识别图像进行识别之后,识别的结果为:身份证号码,11223319658888456x。那么,所述计算机设备将所述识别结果发送至预设的众包系统M,所述众包系统包括100个众包终端,那么所述100个众包终端则可以分别将所述待识别图像,以及所述识别结果“身份证号码,11223319658888456x”。众包用户通过所述众包终端将验证结果返回至所述OCR识别终端,然后所述计算机设备接收众包系统的每一众包终端对于所述识别结果所反馈的验证结果。其中,所述验证结果包括对于所述图像识别结果的正确度验证以及对于所述待识别图像的图像验证,所述正确度验证包括正确或错误,所述图像验证用于描述所述待识别图像的内容。
步骤S504,根据所述验证结果判断所述识别结果是否为通过,当所述识别结果为不通过,且对于所述识别结果的验证结果相同的众包终端的数量超过预设阈值时,记录所述待识别图像以及所述验证结果。
具体地,所述计算机设备接收所述众包系统中所有的众包终端返回的验证结果,其中所述验证结果包括对于所述图像识别结果的正确度验证以及对于所述待识别图像的图像验证。例如,所述众包系统中每个众包终端被预先设置对所述OCR识别结果的验证包括两个部分:“所述OCR识别结果是否正确?”;“如果所述OCR识别结果不正确,那么所述待识别图像中文本部分表示了什么类别,以及文本是什么?”。因此,当所述众包系统中的每个众包终需要确认所述OCR识别结果是否正确,并在不正确的情况下进行识别结果的输入。在本实施例中,所述计算机设备在接收所述众包系统中所有的众包终端返回的验证结果之后,然后所述计算机设备根据所述众包系统对于所述计算机设备的识别结果所反馈的验证结果进行判断,判断所述识别结果是否通过。所述验证规则包括:如果所述众包系统中75%以上的众包终端进行验证并确认所述OCR识别结果为正确时,那么则判断所述众包系统对于所述识别结果验证通过;否则,验证不通过。当验证不通过且所述众包系统中50%以上的众包终端对于所述待识别图像中的识别结果反馈的验证结果相同时,那么,则判断所述验证结果不通过,并记录所述待识别图像以及所述众包系统返回的验证结果。例如,当所述计算机设备对于待识别图像A的识别结果为:序列号:111111111;而计算机设备接收到众包系统反馈的验证结果中,60%的众包终端返回的验证结果为:识别不正确;识别结果为:身份证号码:22222222。那么,所述计算机设备则判断所述识别结果不通过,同时对所述待识别图像,以及所述众包终端的识别结果进行保存。其他验证不通过的情况下,所述计算机设备对于识别结果的则只判断识别结果不正确并给出对应的提示如:“未识别出图像中的标识字符”。
步骤S506,根据验证结果对所述基础OCR识别模型进行重训练,得到目标OCR识别模型。
具体地,所述计算机设备在所述众包系统对于所述识别结果的所反馈的验证结果不通过,且记录了所述待识别图像以及所述众包用户返回的验证结果之后,那么,所述计算机设备则会将所述待识别图像以及所述验证结果作为标注数据对所述基础OCR识别模型进行重训练,所述重训练包括fine-tune微调。在本实施例中,所述微调的过程为现有深度学习网络中常用的(Fine-tune)技术,所述OCR识别终端在记录到了所述待识别图像以及所述众包用户返回的验证结果并累计到了预设的数量之后,例如10万数据量时,那么所述计算机设备则开始启动对所述基础OCR识别模型进行更新训练。其中,所述微调技术为现有的常用技术,这里不做详细描述。当所述计算机设备利用标注数据对所述基础OCR识别模型进行更新训练之后,则将更新后的OCR识别模型作为新的基础OCR识别模型进行后续的印刷品图像识别。
本实施例所提出的基于众包技术的OCR识别模型训练方法能够根据基础OCR识别模型对待识别图像进行识别,并将所述识别结果发送到众包系统进行验证;然后接收众包系统的每一众包终端对于所述识别结果所反馈的验证结果;根据所述验证结果判断所述识别结果是否为通过,当所述识别结果为不通过且超过预设阈值的众包终端对于所述识别结果的验证结果相同时,记录所述待识别图像以及所述验证结果;最后根据验证结果对所述基础OCR识别模型进行重训练,得到目标OCR识别模型。通过以上方式,能够在不需要大量采样数据的情况下通过众包验证结果对基础OCR识别模型的进行重训练,从而提升OCR识别模型的准确率,并且训练效率高、成本低。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于众包技术的OCR识别模型训练方法,其特征在于,所述方法包括步骤:
获取待识别图像,根据预设的基础OCR识别模型对所述待识别图像进行识别;
将所述识别结果发送到众包系统进行验证,接收众包系统的每一众包终端对于所述识别结果所反馈的验证结果;
根据所述验证结果判断所述识别结果是否为通过,当所述识别结果为不通过,且对于所述识别结果的验证结果相同的众包终端的数量超过预设阈值时,记录所述待识别图像以及所述验证结果;
根据验证结果对所述基础OCR识别模型进行重训练,得到目标OCR识别模型。
2.如权利要求1所述的基于众包技术的OCR识别模型训练方法,其特征在于,所述“获取待识别图像”的步骤包括:
接收OCR识别任务,获取印刷品图像;
通过像素分布特点识别出所述印刷品图像中的表示文字部分的待识别图像。
3.如权利要求1所述的基于众包技术的OCR识别模型训练方法,其特征在于,所述验证结果包括对于所述图像识别结果的正确度验证以及对于所述待识别图像的图像验证,所述正确度验证包括正确或错误,所述图像验证用于描述所述待识别图像的内容。
4.如权利要求1所述的基于众包技术的OCR识别模型训练方法,其特征在于,所述“根据验证结果对所述基础OCR识别模型进行重新训练”的步骤包括:
将所述待识别图像以及所述验证结果作为标注数据对所述基础OCR识别模型进行重训练,所述重训练包括fine-tune微调。
5.一种基于众包技术的OCR识别模型训练装置,其特征在于,所述装置包括:
识别模块,用于获取待识别图像,根据预设的基础OCR识别模型对所述待识别图像进行识别;
接收模块,用于将所述识别结果发送到众包系统进行验证,接收众包系统的每一众包终端对于所述识别结果所反馈的验证结果;
判断模块,用于根据所述验证结果判断所述识别结果是否为通过,当所述识别结果为不通过,且对于所述识别结果的验证结果相同的众包终端超过预设阈值时,记录所述待识别图像以及所述验证结果;
训练模块,用于根据验证结果对所述基础OCR识别模型进行重训练,得到目标OCR识别模型。
6.如权利要求5所述的基于众包技术的OCR识别模型训练装置,其特征在于,所述识别模块还用于:
接收OCR识别任务,获取印刷品图像;
通过像素分布特点识别出所述印刷品图像中的表示文字部分的待识别图像。
7.如权利要求5所述的基于众包技术的OCR识别模型训练装置,其特征在于,所述验证结果包括对于所述图像识别结果的正确度验证以及对于所述待识别图像的图像验证,所述正确度验证包括正确或错误,所述图像验证用于描述所述待识别图像的内容。
8.如权利要求5所述的基于众包技术的OCR识别模型训练装置,其特征在于,
所述训练模块,还用于将所述待识别图像以及所述验证结果作为标注数据对所述基础OCR识别模型进行重训练,所述重训练包括fine-tune微调。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-4任一项所述的基于众包技术的OCR识别模型训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-4中任一项所述的基于众包技术的OCR识别模型训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910593212.8A CN110503089A (zh) | 2019-07-03 | 2019-07-03 | 基于众包技术的ocr识别模型训练方法、装置以及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910593212.8A CN110503089A (zh) | 2019-07-03 | 2019-07-03 | 基于众包技术的ocr识别模型训练方法、装置以及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110503089A true CN110503089A (zh) | 2019-11-26 |
Family
ID=68586021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910593212.8A Pending CN110503089A (zh) | 2019-07-03 | 2019-07-03 | 基于众包技术的ocr识别模型训练方法、装置以及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110503089A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382403A (zh) * | 2020-03-17 | 2020-07-07 | 同盾控股有限公司 | 用户行为识别模型的训练方法、装置、设备及存储介质 |
CN112819595A (zh) * | 2021-01-13 | 2021-05-18 | 中国建设银行股份有限公司 | 凭证风险智能处置的方法和装置 |
WO2021147221A1 (zh) * | 2020-01-22 | 2021-07-29 | 平安科技(深圳)有限公司 | 文本识别方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140314311A1 (en) * | 2013-04-23 | 2014-10-23 | Wal-Mart Stores, Inc. | System and method for classification with effective use of manual data input |
CN109800320A (zh) * | 2019-01-04 | 2019-05-24 | 平安科技(深圳)有限公司 | 一种图像处理方法、设备及计算机可读存储介质 |
-
2019
- 2019-07-03 CN CN201910593212.8A patent/CN110503089A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140314311A1 (en) * | 2013-04-23 | 2014-10-23 | Wal-Mart Stores, Inc. | System and method for classification with effective use of manual data input |
CN109800320A (zh) * | 2019-01-04 | 2019-05-24 | 平安科技(深圳)有限公司 | 一种图像处理方法、设备及计算机可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021147221A1 (zh) * | 2020-01-22 | 2021-07-29 | 平安科技(深圳)有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN111382403A (zh) * | 2020-03-17 | 2020-07-07 | 同盾控股有限公司 | 用户行为识别模型的训练方法、装置、设备及存储介质 |
CN112819595A (zh) * | 2021-01-13 | 2021-05-18 | 中国建设银行股份有限公司 | 凭证风险智能处置的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109685100B (zh) | 字符识别方法、服务器及计算机可读存储介质 | |
US20210125639A1 (en) | Method and system of clipping a video, computing device, and computer storage medium | |
CN104954353B (zh) | Apk文件包的校验方法和装置 | |
CN110503089A (zh) | 基于众包技术的ocr识别模型训练方法、装置以及计算机设备 | |
CN110490721B (zh) | 财务凭证生成方法及相关产品 | |
CN109886290B (zh) | 用户请求的检测方法、装置、计算机设备及存储介质 | |
CN106557747B (zh) | 识别保险单号码的方法及装置 | |
CN110333862A (zh) | Ui页面代码生成方法、装置以及服务器 | |
CN109035041A (zh) | 电子装置、车险智能理赔方法及存储介质 | |
CN108427874A (zh) | 身份认证方法、服务器及计算机可读存储介质 | |
CN107194398A (zh) | 车损部位的识别方法及系统 | |
CN109800149A (zh) | 应用界面测试用例生成方法及服务器 | |
CN109002820A (zh) | 一种车牌识别方法、装置及相关设备 | |
CN107908553B (zh) | 关联测试方法、应用服务器及计算机可读存储介质 | |
CN107832676A (zh) | 表格信息换行识别方法、电子设备及计算机可读存储介质 | |
CN107844468A (zh) | 表格信息跨页识别方法、电子设备及计算机可读存储介质 | |
CN109756760A (zh) | 视频标签的生成方法、装置及服务器 | |
CN106648643A (zh) | 渠道包生成方法及装置、终端和服务器 | |
CN109902471A (zh) | 滑块验证的检测方法、装置、计算机设备及存储介质 | |
CN112835682B (zh) | 一种数据处理方法、装置、计算机设备和可读存储介质 | |
CN107908480A (zh) | 薪资计算方法、应用服务器及计算机可读存储介质 | |
CN108171699A (zh) | 定损理赔方法、服务器及计算机可读存储介质 | |
CN108170551A (zh) | 基于爬虫系统的前后端错误处理方法、服务器及存储介质 | |
CN117746103A (zh) | 一种违规行为的识别方法及装置 | |
CN113128168A (zh) | 一种焊盘参数校验校正方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |