CN109800320B - 一种图像处理方法、设备及计算机可读存储介质 - Google Patents

一种图像处理方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109800320B
CN109800320B CN201910015231.2A CN201910015231A CN109800320B CN 109800320 B CN109800320 B CN 109800320B CN 201910015231 A CN201910015231 A CN 201910015231A CN 109800320 B CN109800320 B CN 109800320B
Authority
CN
China
Prior art keywords
target
labeling
image
field
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910015231.2A
Other languages
English (en)
Other versions
CN109800320A (zh
Inventor
许洋
刘鹏
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910015231.2A priority Critical patent/CN109800320B/zh
Publication of CN109800320A publication Critical patent/CN109800320A/zh
Application granted granted Critical
Publication of CN109800320B publication Critical patent/CN109800320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像处理方法、图像处理设备及计算机可读介质,应用于图像处理技术领域。其中,该方法包括:将目标图像输入预置的字段检测模型,以得到所述目标图像对应的目标字段级图像;根据各众包用户的标注信息从所述各众包用户中确定出多个目标众包用户,并将所述目标字段级图像分配给所述多个目标众包用户进行标注;分别获取所述多个目标众包用户对所述目标字段级图像的标注结果,以得到多个标注结果;按照预设的确定规则从所述多个标注结果中确定出目标标注结果,并根据所述目标字段级图像和所述目标标注结果训练得到图像识别模型。采用本申请,有助于提升数据标注效率,节省标注耗时以及降低成本。

Description

一种图像处理方法、设备及计算机可读存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像处理方法、设备及计算机可读存储介质。
背景技术
传统的获得标注数据集的方法是雇佣经验人士以手工的方式对数据集进行标注,例如对于图像识别业务,大部分都是基于深度学习的,通过有监督学习训练得到有效的学校模型来完成相应的识别任务。在建立学习模型时,需要由大量的训练数据如图像及其对应的类别标签实现对模型的训练,这些训练数据需要人力去标注。由于涉及的数据样本成千上万,有的时候甚至达到百万级或更高,仅用经验人士去标注这数量级的数据是非常消耗人力和时间的,导致标注的耗时长,效率低,成本开销较大。
发明内容
本申请实施例提供一种图像处理方法、设备及计算机可读存储介质,有助于提升数据标注效率,节省标注耗时以及降低成本。
第一方面,本申请实施例提供了一种图像处理方法,包括:
当获取到待识别的目标图像时,将所述目标图像输入预置的字段检测模型,以得到所述目标图像对应的字段图像信息,所述字段图像信息包括目标字段级图像,所述字段检测模型是根据多个图像以及各图像对应的字段级图像训练得到的,所述目标字段级图像包括所述目标图像中的文本字段;
根据各众包用户的标注信息从所述各众包用户中确定出多个目标众包用户,并将所述目标字段级图像分配给所述多个目标众包用户进行标注,所述标注信息包括众包用户对已完成任务的标注成功率、标注数量、标注领域、平均标注时长、做标注任务的频率、累计积分中的任一个或多个标注信息项;
分别获取所述多个目标众包用户对所述目标字段级图像的标注结果,以得到多个标注结果,所述标注结果包括对所述目标字段级图像中的文本字段进行识别得到的文本,所述目标众包用户和所述标注结果一一对应;
按照预设的确定规则从所述多个标注结果中确定出目标标注结果,并根据所述目标字段级图像和所述目标标注结果训练得到图像识别模型,所述图像识别模型用于识别输入的字段级图像对应的文本字段。
可选的,所述方法还包括:
从图像库中选取多个图像,并分别检测各图像的标记边框,根据每个图像的标记边框提取出每个图像的字段级图像;
为各图像的字段级图像设置标签;
分别将每个图像作为输入,以及将该图像的字段级图像和该字段级图像的标签作为输出,以训练得到所述字段检测模型;
所述字段图像信息还包括所述目标字段级图像的标签;所述根据各众包用户的标注信息从所述各众包用户中确定出多个目标众包用户,包括:
根据所述目标字段级图像的标签以及各众包用户的标签,从所述各众包用户中确定出多个众包用户,所述多个众包用户的标签和所述目标字段级图像的标签相匹配;
根据所述多个众包用户的标注信息从所述多个众包用户中确定出多个目标众包用户。
可选的,所述根据所述多个众包用户的标注信息从所述多个众包用户中确定出多个目标众包用户,包括:
根据预设的字段级图像的标签和用户选择规则的对应关系,确定出所述目标字段级图像的标签对应的目标用户选择规则;其中,不同的用户选择规则用于指示根据不同的标注信息项确定众包用户;
根据所述目标用户选择规则指示的标注信息项从所述多个众包用户中确定出多个目标众包用户。
可选的,在所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果之前,所述方法还包括:
分别根据各众包用户的标注信息设置各众包用户的加权系数;
所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果,包括:
将所述多个标注结果划分为多个结果集合,每个集合包括的标注结果相同,且每个标注结果的初始权值相同;
根据每个目标众包用户的加权系数对该目标众包用户的标注结果的初始权值进行加权处理,以得到该目标众包用户的标注结果的权值,并计算得到每个结果集合包括的标注结果的权值之和;
从所述多个结果集合中确定出权值之和最大的结果集合,并将确定出的所述结果集合对应的标注结果确定为所述目标标注结果。
可选的,所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果,包括:
将所述多个标注结果划分为多个结果集合,每个集合包括的标注结果相同,且每个标注结果的初始权值相同;
从所述多个目标众包用户中确定出标注领域与所述目标字段级图像相匹配的目标众包用户,并按照预设的加权系数对确定出的所述目标众包用户的标注结果的初始权值进行加权处理,以得到确定出的所述目标众包用户的标注结果的权值;
计算得到每个结果集合包括的标注结果的权值之和;
从所述多个结果集合中确定出权值之和最大的结果集合,并将确定出的所述结果集合对应的标注结果确定为所述目标标注结果。
可选的,在所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果之前,所述方法还包括:
分别设置各字段级图像的标签对应的标注结果模板,每个标注结果模板指示了该标注结果模板对应的标注结果的格式;
所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果,包括:
确定所述目标字段级图像对应的目标标注结果模板,并分别检测所述多个标注结果的格式是否与所述目标标注结果模板指示的格式相同;
如果所述多个标注结果中存在任一标注结果的格式与所述目标标注结果模板指示的格式不同,则过滤该标注结果;
按照预设的确定规则从过滤标注结果后的标注结果中确定出目标标注结果。
可选的,在所述将所述目标图像输入预置的字段检测模型,以得到所述目标图像对应的字段图像信息之前,所述方法还包括:
获取多个图像,并分别将所述多个图像输入所述字段检测模型,以得到所述多个图像对应的字段图像信息,每个图像的字段图像信息包括该图像对应的字段级图像以及该字段级图像的标签;
根据各众包用户的标注信息从所述各众包用户中确定出多个校验众包用户,并将所述多个图像、每个图像对应的字段级图像以及该字段级图像的标签分配给所述多个校验众包用户进行校验;
分别获取所述多个校验众包用户对所述多个图像、每个图像对应的字段级图像以及该字段级图像的校验结果,以得到多个校验结果,所述校验结果用于指示校验成功或校验失败;
按照预设的确定规则从所述多个校验结果中确定出每个图像对应的目标校验结果,并在各目标校验结果均指示校验成功时,确定对所述字段检测模型训练成功。
第二方面,本申请实施例提供了一种图像处理设备,该图像处理设备包括用于执行上述第一方面的方法的单元。
第三方面,本申请实施例提供了另一种图像处理设备,包括处理器、通信接口和存储器,所述处理器、通信接口和存储器相互连接,其中,所述存储器用于存储支持图像处理设备执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。可选的,该图像处理设备还可包括用户接口。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本申请实施例能够通过将获取的目标图像输入预置的字段检测模型,以得到该目标图像对应的字段级图像,并根据各众包用户的标注信息从该各众包用户中确定出多个目标众包用户对该目标字段级图像进行标注,以通过众包的方式得到多个标注结果,进而能够按照预设的确定规则从该多个标注结果中确定出目标标注结果,并根据该目标字段级图像和该目标标注结果训练得到图像识别模型,以便于通过图像识别模型进行文本字段的识别,这就有助于提升数据标注效率,节省标注耗时以及降低成本。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图像处理方法的流程示意图;
图2是本申请实施例提供的另一种图像处理方法的流程示意图;
图3是本申请实施例提供的一种图像处理设备的结构示意图;
图4是本申请实施例提供的另一种图像处理设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的技术方案可应用于图像处理设备中,该图像处理设备可包括终端、服务器或其他图像处理设备,用于对图像(图形、图片)中的文本(或载体)进行识别。本申请涉及的终端可以是手机、电脑、平板、个人计算机等,本申请不做限定。
具体的,本申请能够通过获取待识别的目标图像,将获取的目标图像输入预置的字段检测模型以得到该目标图像对应的字段级图像,并根据各众包用户的标注信息从该各众包用户中确定出多个目标众包用户对该目标字段级图像进行标注,以通过众包的方式得到多个标注结果,进而能够按照预设的确定规则从该多个标注结果中确定出目标标注结果,并根据该目标字段级图像和该目标标注结果训练得到图像识别模型,即结合众包进行模型训练,以便于通过图像识别模型实现文本识别,这就有助于提升数据标注效率,节省标注耗时以及降低成本。以下分别详细说明。
请参见图1,图1是本申请实施例提供的一种图像处理方法的流程示意图。具体的,本实施例的方法可应用于上述的图像处理设备中。如图1所示,该图像处理方法可以包括以下步骤:
101、当获取到待识别的目标图像时,将该目标图像输入预置的字段检测模型,以得到该目标图像对应的字段图像信息。
可选的,该目标图像可以是待识别任一图像,比如可以是用户输入的图像,又如可以是从待识别图像库中获取或选择的图像,又如可以是接收到的其他设备发送的图像,又如可以是用户用过预设按键、手势或表情触发进行图像识别时图像处理设备显示的图像等等,此处不一一列举。
其中,该字段图像信息可包括该目标图像对应的字段级图像,即目标字段级图像,该目标字段级图像可包括该目标图像中的文本字段。也就是说,该字段检测模型可用于对字段级图像进行识别,如具体可用于检测图像如该目标图像中的文本字段的位置,以得到包括该文本字段的图像,即字段级图像。如果一个图像中有多处文本字段,则可通过该字段检测模型得到一个或多个字段级图像。即该字段级图像包括原始图像数据如该目标图像中需要进一步检测的文本字段(或载体)。
可选的,该字段检测模型可以是根据多个图像以及各图像对应的字段级图像训练得到的。例如,图像处理设备可从图像库中选取用于训练字段检测模型的多个图像,并分别检测各图像的标记边框(比如由用户标注该标记边框,或者由其他检测工具检测图像中文本字段的位置并标记其边框等等,以得到该标记边框),该标记边框可用于标记图像中的文本字段的位置;进而可根据每个图像的标记边框提取出每个图像的字段级图像,即该标记边框确定的图像,分别将每个图像作为输入,以及将该图像的字段级图像作为输出,以训练得到该字段检测模型。进一步可选的,该字段图像信息还可包括该目标字段级图像的标签。图像处理设备还可设置得到进行模型训练的各字段级图像的标签,或者通过其他方式获取该各字段级图像的标签,则在训练字段检测模型时,还可分别将每个图像作为输入,以及将该图像的字段级图像和该字段级图像的标签作为输出,以训练得到该字段检测模型,即根据各图像、每个图像对应的字段级图像以及每个字段级图像的标签训练得到字段检测模型。使得字段检测模型不仅能够检测得到图像中的字段级图像,还可检测得到该字段级图像的标签。其中,该字段级图像可包括姓名字段、生日字段、联系方式字段的图像等等。字段级图像的标签可包括姓名、生日字段、联系方式、地点、领域等,或者可用于指示标注难度等级(难度标签),如难度高、难度一般、难度低,或者,一级、二级、三级等等,此处不一一列举。
102、根据各众包用户的标注信息从该各众包用户中确定出多个目标众包用户,并将该目标字段级图像分配给该多个目标众包用户进行标注。
众包是指将待分配的一些任务分发给普通大众,这些分发的任务一般具有低难度、低敏感的特性,使得普通大众能够在尽量少的引导下完成这些规定的任务通过众包的方式进行图像标注,使得能够有效提升标注效率。
其中,上述的各众包用户可以是预先选取的可以做众包任务的用户。可选的,该标注信息可包括众包用户对已完成(众包)任务的标注成功率、标注数量、标注领域、平均标注时长、做标注任务的频率、累计积分中的任一个或多个标注信息项。也就是说,在采用众包技术对该字段级图像进行任务分发时,可以统计众包用户即标注者的标注信息,如标注成功率、标注数量、标注领域、做标注任务的频率、平均标注时长、累计积分等,从而能够通过根据各众包用户的标注信息选取进行任务分发的目标众包用户来分配各目标字段级图像。利用众包技术分发任务,可以快速完成此类任务,可以极大地加快整个业务流程的速度,减少数据处理相关任务的人力负担,减少成本开销。
例如,在进行任务分发时,可以优先分发给标注成功率较高的标注者,比如标注数量超过某一的数量阈值(如200次)且标注成功率(正确率)超过某一百分比(如95%)的标注者,将该部分标注者作为目标众包用户;又如,根据标注者做标注任务的频率和成功率,选择频率高于阈值如每月高于10次,且标注成功率又如超过某一百分比(如95%)的标注者作为目标众包用户;又如,根据标注者的标注领域为其分配对应领域的字段级图像,即将目标字段级图像分配给该目标字段级图像对应的标注领域的众包用户即目标众包用户,以提升标注可靠性;又如,根据标注者的标注领域并结合其累计积分(该累计积分可根据历史标注任务的成功率确定,如每标记成功/正确一次,积分增加预设值),向累计积分高的标注者分配其对应领域的目标字段级图像;又如,根据标注成功率和平均标注时长,优先向标注成功率高(高于某一阈值)且平均标注时长短(低于某一时间阈值)的标注者分配任务,直到选取出预设数量的众包用户作为该目标众包用户,等等,此处不一一列举。
在确定出多个目标众包用户之后,即可向这些目标众包用户分发任务,如上述的目标字段级图像,比如可将该目标字段级图像分别发送至该多个目标众包用户对应的终端,以便于该多个目众包用户对该目标字段级图像进行标注,以得到标注结果。
103、分别获取该多个目标众包用户对该目标字段级图像的标注结果,以得到多个标注结果。
其中,该标注结果可用于指示对该目标字段级图像中的文本字段进行识别得到的文本,目标众包用户和标注结果一一对应,即每个目标众包用户可提供一个对该目标字段级图像的标注结果。
在将该目标字段级图像分配给该多个目标众包用户进行标注之后,即可获取该多个目标众包用户对该目标字段级图像的标注结果,比如分别接收该多个目标众包用户对应的终端发送的对该目标字段级图像的标注结果,以得到该多个目标众包用户对应的多个标注结果。
104、按照预设的确定规则从该多个标注结果中确定出目标标注结果,并根据该目标字段级图像和该目标标注结果训练得到图像识别模型。
其中,该图像识别模型可用于识别输入的字段级图像对应的文本字段,以得到包括该文本字段对应文本的识别结果。
在进行任务分发并获取得到对分发的目标字段级图像的多个标注结果之后,即可从中确定出正确(校验成功)的标注结果,即目标标注结果。可选的,在分配给众包得到标注结果之后,在对各标注结果进行校验时,或者说在确定每个字段级图像最终的标注结果即目标标注结果时,可以采取多种方式,即该预设的确定规则(校验方式)可以是预设的多种确定规则中的一种或几种,比如该预设的确定规则可以为基于相同标注结果最多的标注结果确定目标标注结果的规则、基于标注结果权值确定目标标注结果的规则等等。
在一种可能的实施方式中,图像处理设备可以分别确定该多个标注结果中各相同标注结果的数量,将相同标注结果的数量最多的标注结果确定为目标标注结果。比如可将该多个标注结果划分为多个结果集合,每个集合包括的标注结果相同,则可将包括的标注结果数量最多的集合所对应的标注结果作为该目标字段级图像的目标标注结果。例如,当若干位众包用户对同一个任务(如目标字段级图像)的标注结果超过半数一致时,认为多数一致的输出是正确的,也即少数服从多数,返回结果,记为校验成功,否则记为校验失败。对于那些少数输出不一致的用户可以设置一些惩罚机制,比如扣除一定量积分等。这个机制在一定程度上可以保证众包用户不会为了快速得到奖励而胡乱做众包任务(又称“刷题”),拉低众包整体输出质量。
在另一种可能的实施方式中,在按照预设的确定规则从该多个标注结果中确定出目标标注结果之前,图像处理设备还可分别根据各众包用户的标注信息设置各众包用户的加权系数,该标注信息可包括标注成功率、标注数量、标注领域、做标注任务的频率、平均标注时长和/或累计积分,比如众包用户(标注者)标注成功率越高,其对应的加权系数越大;又如累计积分越高,其对应的加权系数越大;又如每个标注信息项对应一个加权系数,每个众包用户的加权系数为各标注信息项的加权系数之和,等等,此处不一一列举。进一步的,图像处理设备在确定目标标注结果时,可以是通过将该多个标注结果划分为多个结果集合,每个集合包括的标注结果相同,且每个标注结果的初始权值相同;根据每个目标众包用户的加权系数对该目标众包用户的标注结果的初始权值进行加权处理,以得到该目标众包用户的标注结果的权值,并计算得到每个结果集合包括的标注结果的权值之和;进而可从该多个结果集合中确定出权值之和最大的结果集合,并将确定出的该结果集合对应的标注结果确定为该目标标注结果。
在又一种可能的实施方式中,图像处理设备在确定目标标注结果时,可以是通过将该多个标注结果划分为多个结果集合,每个集合包括的标注结果相同,且每个标注结果的初始权值相同;从该多个目标众包用户中确定出标注领域与该目标字段级图像相匹配的目标众包用户,并按照预设的加权系数对确定出的该目标众包用户的标注结果的初始权值进行加权处理,以得到确定出的该目标众包用户的标注结果的权值;计算得到每个结果集合包括的标注结果的权值之和,即该结果集合中标注领域不匹配的目标众包用户的标注结果的初始权值与领域匹配的目标众包用户的标注结果的权值(加权处理后)之和;从该多个结果集合中确定出权值之和最大的结果集合,并将确定出的该结果集合对应的标注结果确定为该目标标注结果。
举例来说,由于参与标注的标注者的能力各不相同,所收集到的标注结果中存在很多的不准确的标注结果,即“噪声”,因此需要对所收集到的众包标注结果进行过滤和整合,结合标注者的实际能力,得到每个任务最终的正确的标注结果。具体的,在校验或者确定最终的标注结果时,可以根据标注者的历史标注任务信息,如标注成功率、标注数量、标注领域、累计积分等,为标注者的标注结果设置加权系数。例如,对于标注数量超过某一的数量阈值(如200次)且标注成功率超过某一百分比(如98%)等的标注者,增加其标注结果的权重,也即可将该标注者的加权系数设置为较大;或者,对于标注领域与标注的字段级图像的领域相同的标注事件,增加该标注者当前标注结果的加权系数,以提升标注可靠性,其中,该标注领域可以是指擅长的标注领域,即正确率较高的领域,该标注领域可以是根据标注者的历史标注数据确定出各个领域的正确率,进而选择出的正确率较高的领域;等等,此处不一一列举。由此,在统计字段级图像的标注结果时,可以根据各个标注结果的权值来对标注结果进行校验,以进一步提升获取的标注结果的可靠性。
又如,可以预先对任务(字段级图像)进行分类,并确定出不同类别下的任务的加分项,或者根据字段级图像的领域标签确定出其对应的加分项。该加分项可以是任务相关的比赛名次、获奖证书、考级证书等等,不同加分项可以设置不同的加权系数(权值)。标注者可以上传加分项信息,加分项越多,加权系数越高,表明标注者能力越高。此外,还可验证加分项信息的真实性,比如联合各证书颁发机构数据库,进行匹配验证。对于能力高的标注者,其标注结果被采用的权值越高,或者说被采用的概率越大,比如为其设置的加权系数越大。由此可以根据各个标注者的加权系数来对标注结果进行校验,以进一步提升获取的标注结果的可靠性。并可以设置能力高的标注者得到更多的奖励,以鼓励能力高的用户参与众包。
进一步可选的,还可以增加抽查机制,抽查一定数量的任务如目标字段级图像,把抽查出来的任务再次进行分发,再次得到标注结果。进而可通过比对两次标注结果是否一致(如对比两者任务分发针对同一目标字段级图像的目标标注结果是否一致),如果一致,则可认为标注结果正确,否则,可人工查验或者通过其他方式查验以确定正确的标注结果。从而能够进一步提升标注结果的可靠性。
在得到各目标字段级图像对应的目标标注结果之后,即可根据各目标字段级图像及其对应的目标标注结果建立图像识别模型,使得后续能够基于该图像识别模型对图像中的文本进行识别。
在本实施例中,图像处理设备能够通过将获取的目标图像输入预置的字段检测模型,以得到该目标图像对应的字段级图像,并根据各众包用户的标注信息从该各众包用户中确定出多个目标众包用户对该目标字段级图像进行标注,以通过众包的方式得到多个标注结果,进而能够按照预设的确定规则从该多个标注结果中确定出目标标注结果,并根据该目标字段级图像和该目标标注结果训练得到图像识别模型,以便于通过图像识别模型进行文本字段的识别,这就有助于提升数据标注效率,节省标注耗时以及降低成本,进而提升图像识别模型生成效率。
请参见图2,图2是本申请实施例提供的另一种图像处理方法的流程示意图。具体的,如图2所示,该图像处理方法可以包括以下步骤:
201、从图像库中选取多个图像,并分别检测各图像的标记边框,根据每个图像的标记边框提取出每个图像的字段级图像。
其中,该图像库中可存储有大量图像数据,该存储的图像数据可以是未标记有文本字段的标记边框的原始图像,也可以是标记有该标记边框的图像。在进行模型训练之前,可从该图像库选取用于进行模型训练的图像,并确定其中的文本字段的标记边框以根据该标记边框提取得到该字段级图像,比如根据该标记边框裁剪图像以得到该标记边框确定的字段级图像。在其他可选的实施例中,该图像库中还可直接存储各图像以及每个图像对应的字段级图像,以便于快速获取得到选取图像的字段级图像。
202、为各图像的字段级图像设置标签。
可选的,字段级图像的标签可以包括生日标签、领域标签、姓名标签等,或者可以包括难度标签,此处不赘述。
203、分别将每个图像作为输入,以及将该图像的字段级图像和该字段级图像的标签作为输出,以训练得到该字段检测模型。
具体的,在建立检测模型时,可以通过在完整的图像上将要检测的文本字段(或载体)边缘框出来,通过识别文本的外接边框确定出该字段级图像,并可为各个字段级图像设置标签,比如设置的标签包括:生日、联系方式、姓名、从事工作、地点、领域等等。进而可以将各完整的图像作为输入,将该各字段级图像及其标签作为输出,训练得到字段检测模型。使得后续需要进行图像数据标注时,能够通过将原始图像输入该字段检测模型以对输入的原始图像数据进行图像识别,从而获取到其对应的字段级图像以及各字段级图像的标签。由于字段级图像的标注难度高,需要更严格的一系列规则去约束以保证框出来的字段级图像是准确的,标注难度较大,需要的训练数据较少;而且检测模型训练数据的标注通常是在一张完整图像上进行的,这些完整的图像里包含的信息整体上看无疑是敏感的,因此可以不采用众包技术。此外,字段检测模型只需要较少的训练数据(如三四千张OCR图像标注数据)就可以训练出较好效果的模型,因此这部分也可以用人力标注数据,以进行模型训练。
204、当获取到待识别的目标图像时,将该目标图像输入预置的字段检测模型,以得到该目标图像对应的字段图像信息,该字段图像信息包括目标字段级图像以及该目标字段级图像的标签。
其中,该目标字段级图像可包括该目标图像中的文本字段,此处不赘述。
205、根据各众包用户的标注信息从该各众包用户中确定出多个目标众包用户,并将该目标字段级图像分配给该多个目标众包用户进行标注。
其中,该标注信息可包括众包用户对已完成任务的标注成功率、标注数量、标注领域、平均标注时长、做标注任务的频率、累计积分中的任一个或多个标注信息项。
可选的,在采用众包技术对该字段级图像进行任务分发时,可以结合字段级图像的标签和/或众包用户即标注者的标签分发任务。
例如,在一种可能的实施方式中,该字段图像信息还包括该目标字段级图像的标签。图像处理设备在确定该多个目标众包用户时,可以根据该目标字段级图像的标签以及各众包用户的标签,从该各众包用户中确定出多个众包用户,该多个众包用户的标签和该目标字段级图像的标签相匹配,比如为相同,该匹配关系可预先设置得到;进而图像处理设备可根据该标签相匹配的多个众包用户的标注信息从该多个众包用户中确定出多个目标众包用户,即对该目标字段级图像的实际标注者。进一步可选的,图像处理设备在根据该多个众包用户的标注信息从该多个众包用户中确定出多个目标众包用户时,可以根据预设的字段级图像的标签和用户选择规则的对应关系,确定出该目标字段级图像的标签对应的目标用户选择规则;根据该目标用户选择规则指示的标注信息项从该多个众包用户中确定出多个目标众包用户。可选的,该用户选择规则可以是指基于标注成功率的选择规则(如选取成功率高于一阈值的众包用户或者按照成功率由高到低的顺序选取众包用户)、基于标注数量的选择规则(如选取标注数量高于另一阈值的众包用户或者按照标注数量由高到低的顺序选取众包用户)、基于标注领域的选择规则(如选取标注领域与目标字段级图像的领域/标签相同的众包用户)、基于平均标注时长的选择规则(如选取平均标注时长少于又一阈值的众包用户或者按照平均标注时长由少到多的顺序选取众包用户)、基于做标注任务的频率的选择规则(如选取频率高于再一阈值的众包用户或者按照频率由高到低的顺序选取众包用户)、基于累计积分的选择规则(如选取积分高于积分阈值的众包用户或者按照积分由高到低的顺序选取众包用户)等规则中任一种或多种的结合。不同的用户选择规则可用于指示根据不同(全部不同或部分不同)的标注信息项确定众包用户,具体可预先设置得到多种用户选择规则,以及各用户选择规则与该图像标签的对应关系。
进一步可选的,在其他可选的实施例中,该用户选择规则和/或上述的确定规则还可基于当前的标注场景(如标注时间优先级、标注质量优先级等)确定出。例如,任务的标注时间优先级高,可基于平均标注时长的选择规则选取众包用户进行标注,以提升标注效率;又如,任务的标注质量优先级高,可基于标注成功率的选择规则、基于标注领域的选择规则和基于累计积分的选择规则选取众包用户进行标注,以提升标注质量,等等,此处不一一列举。具体可预先设置得到各标注场景和用户选择规则的对应关系,以提升选择灵活性,使得标注结果更符合场景需求。进一步可选的,该选取的用于训练模型的图像数据可以是根据模型的使用场景来选取的,比如选取包括使用场景下的文本的图像来进行模型训练,以提升训练效果,提升模型检测的可靠性。
206、分别获取该多个目标众包用户对该目标字段级图像的标注结果,以得到多个标注结果。
其中,该标注结果可包括对该目标字段级图像中的文本字段进行识别得到的文本,该目标众包用户和该标注结果一一对应,此处不赘述。
207、按照预设的确定规则从该多个标注结果中确定出目标标注结果,并根据该目标字段级图像和该目标标注结果训练得到图像识别模型。
其中,该图像识别模型可用于识别输入的字段级图像对应的文本字段。可选的,该步骤204-207的其他描述可参照上述图1所示实施例中步骤101-104的相关描述,此处不赘述。
可选的,图像处理设备还可分别设置各字段级图像的标签对应的标注结果模板,每个标注结果模板指示了该标注结果模板对应的标注结果的格式。进一步的,图像处理设备在确定目标标注结果时,还可确定该目标字段级图像对应的目标标注结果模板,并分别检测该多个标注结果的格式是否与该目标标注结果模板指示的格式相同;如果该多个标注结果中存在任一标注结果的格式与该目标标注结果模板指示的格式不同,则过滤该标注结果,即剔除不合法的标注值;按照预设的确定规则从过滤标注结果后的标注结果中确定出目标标注结果,即过滤掉格式不匹配的标注结果之后,再从过滤后的标注结果中选择该目标标注结果,以降低选择开销,并提升结果选择的可靠性,即提升结果校验的可靠性。也就是说,为了提升对图像识别模型进行训练的标注数据的可靠性,还可根据字段级图像的标签预先对任务的标注结果设置对应的模板或规则。对于每个任务的标注结果,如果不符合该任务对应的模板或规则,则可以直接丢弃该标注结果,由此可以初步筛选出一些“不认真”的标注数据,以降低系统开销。而对于标注结果符合该任务对应的模板或规则的标注结果,再进一步结合上述的确定规则来确定对图像识别模型进行训练的数据。或者,可选的,还可在选取出目标标注结果之后,再检测该目标标注结果是否合法,比如检测其格式是否符合预设格式,或者是否符合目标字段级图像对应的目标标注结果模板的格式,并在符合该格式,即确定该目标标注结果合法时,再将该目标标注结果作为该图像识别模型的训练数据。
举例来说,结合众包的图像识别流程可以分为三个部分:字段检测模型的建立、图像识别模型的建立和级联工程的整合。字段检测模型可通过多个图像及其字段级图像等训练集数据训练得到。而图像识别模型如针对OCR的文本识别模型很多情况下需要上万级别的训练数据甚至需要百万级的数据(比如中文姓名的识别,用于姓名的汉字可以有五六千个),由此,可在图像识别模型的建立当中引入众包,将通过字段检测模型得到的字段级别图像分配给众包,利用众包可以快速录入该图像中的文字,完成标注,由此提升了标注效率。众包标注得到标注结果之后,即可对各标注结果进行校验,选取出校验成功的标注结果作为目标标注结果,并可进一步检测该标注结果的合法性,如果合法,将该目标标注结果加入图像识别模型的训练集作为训练数据。如果校验失败(比如标注结果未存在超过半数一致),或者目标标注结果不合法时,可进一步将该各标注结果发送给相关用户进行人工筛选,将筛选出的标注结果作为训练数据,或者直接丢弃此次目标字段级图像对应的各标注结果。在获取到足够的训练数据(比如数量达到预设阈值,又如接收到训练指令时),即可通过训练集中的训练数据(包括各目标字段级图像及其对应的目标标注结果)训练得到该图像识别模型。在训练得到图像识别模型之后,还可将该字段检测模型和该图像识别模型进行级联,即可对两个模型进行整合,以实现识别图像中的文本字段。
进一步可选的,因通常对于模型的改进,技术人员需要人工去检查每个检测/识别结果,然而大部分的检测/识别结果都是正确的,只有少部分结果是错误的,而需要进行模型质量分析的只有这少部分出错的检测/识别结果,在这样的占比下,要拿到足够的错误的检测/识别结果需要更多的检测/识别结果总量,如此算下来数据量庞大,单独依靠技术人员或少量的人力去分析效率明显是不够的。由于检测/识别的质量分析简单但是数据量大,所以此项操作具有低难度且重复的特点,可以分配给众包。由此,本申请还可采用众包技术对上述的字段检测模型/图像识别模型的质量进行筛查,对字段检测模型/图像识别模型进行修正。
例如,在该将该目标图像输入预置的字段检测模型,以得到该目标图像对应的字段图像信息之前,图像处理设备还可获取多个图像(该获取的多个图像和上述训练字段检测模型的多个图像可以不同,以提升校验效果),并分别将该多个图像输入该字段检测模型,以得到该多个图像对应的字段图像信息,每个图像的字段图像信息包括该图像对应的字段级图像(还可包括该字段级图像的标签);根据各众包用户的标注信息从该各众包用户中确定出多个校验众包用户,并将该多个图像和每个图像对应的字段级图像(还可包括该字段级图像的标签)分配给该多个校验众包用户进行校验;分别获取该多个校验众包用户对该多个图像、每个图像对应的字段级图像等的校验结果,以得到多个校验结果,该校验结果用于指示校验成功或校验失败(如果为校验失败,该校验结果还可包括对该图像中文字字段标记有标记边框的图像、该图像的字段级图像和/或字段级图像的标签等等);按照预设的确定规则从该多个校验结果中确定出每个图像对应的目标校验结果(该确定目标校验结果的方式与上述确定目标标注结果的方式类似),并在各目标校验结果均指示校验成功(或者各目标校验结果中指示校验成功的目标校验结果的数目大于阈值,或者各目标校验结果中指示校验成功的目标校验结果的比例高于预设比例阈值)时,确定对该字段检测模型训练成功,则后续可该将获取的目标图像输入预置的字段检测模型,以得到该目标图像对应的字段图像信息,从而进行图像中文本字段的识别。
又如,对于图像识别模型,也可采用上述方式进行校验(即获取多个字段级图像输入图像识别模型以得到文本等识别结果,并将该字段级图像及其对应的识别结果分配给选取的众包用户进行校验),以确定该图像识别模型是否训练成功。
如果校验失败,即模型训练不成功,还可对模型进行修正,比如选取更多的样本作为训练数据对模型进行进一步训练,直到对模型训练成功;或者,还可以用错误的数据来改进模型,具体可先用测试集中的图像输入到模型里获得输出,把输出放到众包上去校验,通过校验得到有错误的数据,进而可分析这些错误的数据的共性,然后反推这些共性出现的可能的原因,并分析这些原因是否能通过改进模型来解决。比如对于字段检测模型,如果错误数据里面经常有不属于标记标签(类别)的图像,则考虑可能是数据不干净的原因,进而可以清洗数据以后再重新训练检测模型,达到改进或者修正模型的目的。采用众包技术实现筛查错误的工作,能够有效识别出模型输出错误或者前期人工标注的错误,提升模型输出的可靠性。也就是说,众包除了帮助标注数据以外,还可以利用它来反馈算法(如上述的字段检测模型和/或图像识别模型等)结果的质量,包括检测错误(如裁剪出的字段级别图像没有文本内容或者文本内容不属于标记的标签类别,如在姓名字段图像下出现了生日字段等)、识别错误(包括识别文本里某个或某几个字符识别错)等等,以改进模型。
举例来说,结合众包的模型质量校验(筛查)流程可以如下:在分配给众包得到校验结果之后,可以对各校验结果进行校验,根据校验成功的目标校验结果对图像识别模型进行优化,包括改正识别错误、优化标签分类等等。例如,当若干位众包用户对同一个字段级图像的输出超过半数一致时,认为多数一致的输出是正确的,比如多数认为检测错误,并给出了相同的正确检测结果,如检测出的字段级图像下在姓名字段图像下出现了生日字段等,多数认为检测错误,并输出了为生日字段,则可确定为校验失败,并可对模型进行修正。此外,还可根据标注者的历史标注任务信息如标注成功率、标注数量、标注领域、累计积分等,为标注者的标注结果设置权重后进行校验等等,此处不赘述。
在本实施例中,图像处理设备能够通过训练得到字段检测模型,使得能够通过将获取的图像输入该字段检测模型以得到该图像对应的字段级图像,并确定出多个目标众包用户对该目标字段级图像进行标注,以通过众包的方式得到多个标注结果,进而能够从该多个标注结果中确定出目标标注结果以训练得到图像识别模型,以便于通过图像识别模型进行文本字段的识别,采用众包技术去分担大部分的标注任务,能够降低成本,而且标注速度也会得到大幅提升,这就有助于提升数据标注效率,节省标注耗时,进而能够提升图像识别模型生成效率和识别模型的识别结果的可靠性。
上述方法实施例都是对本申请的图像处理方法的举例说明,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
请参见图3,图3是本申请实施例提供的一种图像处理设备的结构示意图。本申请实施例的图像处理设备包括用于执行上述图像处理方法的单元。具体的,本实施例的图像处理设备300可包括:获取单元301和处理单元302。其中,
获取单元301,用于获取待识别的目标图像;
处理单元302,用于将所述目标图像输入预置的字段检测模型,以得到所述目标图像对应的字段图像信息,所述字段图像信息包括目标字段级图像,所述字段检测模型是根据多个图像以及各图像对应的字段级图像训练得到的,所述目标字段级图像包括所述目标图像中的文本字段;
处理单元302,还用于根据各众包用户的标注信息从所述各众包用户中确定出多个目标众包用户,并将所述目标字段级图像分配给所述多个目标众包用户进行标注,所述标注信息包括众包用户对已完成任务的标注成功率、标注数量、标注领域、平均标注时长、做标注任务的频率、累计积分中的任一个或多个标注信息项;
获取单元301,还用于分别获取所述多个目标众包用户对所述目标字段级图像的标注结果,以得到多个标注结果,所述标注结果包括对所述目标字段级图像中的文本字段进行识别得到的文本,所述目标众包用户和所述标注结果一一对应;
处理单元302,还用于按照预设的确定规则从所述多个标注结果中确定出目标标注结果,并根据所述目标字段级图像和所述目标标注结果训练得到图像识别模型,所述图像识别模型用于识别输入的字段级图像对应的文本字段。
可选的,获取单元301,还可用于从图像库中选取多个图像;
处理单元302,用于分别检测各图像的标记边框,根据每个图像的标记边框提取出每个图像的字段级图像,并为各图像的字段级图像设置标签;
处理单元302,还用于分别将每个图像作为输入,以及将该图像的字段级图像和该字段级图像的标签作为输出,以训练得到所述字段检测模型;
所述字段图像信息还包括所述目标字段级图像的标签;处理单元302在执行所述根据各众包用户的标注信息从所述各众包用户中确定出多个目标众包用户时,可具体用于:
根据所述目标字段级图像的标签以及各众包用户的标签,从所述各众包用户中确定出多个众包用户,所述多个众包用户的标签和所述目标字段级图像的标签相匹配;
根据所述多个众包用户的标注信息从所述多个众包用户中确定出多个目标众包用户。
可选的,处理单元302在执行所述根据所述多个众包用户的标注信息从所述多个众包用户中确定出多个目标众包用户时,可具体用于:
根据预设的字段级图像的标签和用户选择规则的对应关系,确定出所述目标字段级图像的标签对应的目标用户选择规则;其中,不同的用户选择规则用于指示根据不同的标注信息项确定众包用户;
根据所述目标用户选择规则指示的标注信息项从所述多个众包用户中确定出多个目标众包用户。
可选的,处理单元302,还可用于在所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果之前,分别根据各众包用户的标注信息设置各众包用户的加权系数;
处理单元302在执行所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果时,可具体用于:
将所述多个标注结果划分为多个结果集合,每个集合包括的标注结果相同,且每个标注结果的初始权值相同;
根据每个目标众包用户的加权系数对该目标众包用户的标注结果的初始权值进行加权处理,以得到该目标众包用户的标注结果的权值,并计算得到每个结果集合包括的标注结果的权值之和;
从所述多个结果集合中确定出权值之和最大的结果集合,并将确定出的所述结果集合对应的标注结果确定为所述目标标注结果。
可选的,处理单元302在执行所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果时,可具体用于:
将所述多个标注结果划分为多个结果集合,每个集合包括的标注结果相同,且每个标注结果的初始权值相同;
从所述多个目标众包用户中确定出标注领域与所述目标字段级图像相匹配的目标众包用户,并按照预设的加权系数对确定出的所述目标众包用户的标注结果的初始权值进行加权处理,以得到确定出的所述目标众包用户的标注结果的权值;
计算得到每个结果集合包括的标注结果的权值之和;
从所述多个结果集合中确定出权值之和最大的结果集合,并将确定出的所述结果集合对应的标注结果确定为所述目标标注结果。
可选的,处理单元302,还可用于在所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果之前,分别设置各字段级图像的标签对应的标注结果模板,每个标注结果模板指示了该标注结果模板对应的标注结果的格式;
处理单元302在执行所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果时,可具体用于:
确定所述目标字段级图像对应的目标标注结果模板,并分别检测所述多个标注结果的格式是否与所述目标标注结果模板指示的格式相同;
如果所述多个标注结果中存在任一标注结果的格式与所述目标标注结果模板指示的格式不同,则过滤该标注结果;
按照预设的确定规则从过滤标注结果后的标注结果中确定出目标标注结果。
可选的,获取单元301,还可用于在所述将所述目标图像输入预置的字段检测模型,以得到所述目标图像对应的字段图像信息之前,获取多个图像;
处理单元302,还可用于分别将所述多个图像输入所述字段检测模型,以得到所述多个图像对应的字段图像信息,每个图像的字段图像信息包括该图像对应的字段级图像以及该字段级图像的标签;根据各众包用户的标注信息从所述各众包用户中确定出多个校验众包用户,并将所述多个图像、每个图像对应的字段级图像以及该字段级图像的标签分配给所述多个校验众包用户进行校验;
获取单元301,还可用于分别获取所述多个校验众包用户对所述多个图像、每个图像对应的字段级图像以及该字段级图像的校验结果,以得到多个校验结果,所述校验结果用于指示校验成功或校验失败;
处理单元302,还可用于按照预设的确定规则从所述多个校验结果中确定出每个图像对应的目标校验结果,并在各目标校验结果均指示校验成功时,确定对所述字段检测模型训练成功。
具体的,该图像处理设备可通过上述单元实现上述图1至图2所示实施例中的图像处理方法中的部分或全部步骤。应理解,本申请实施例是对应方法实施例的装置实施例,对方法实施例的描述,也适用于本申请实施例。
请参见图4,图4是本申请实施例提供的另一种图像处理设备的结构示意图。该图像处理设备用于执行上述的方法。如图4所示,本实施例中的图像处理设备400可以包括:一个或多个处理器401和存储器402。可选的,该图像处理设备还可包括一个或多个用户接口403,和/或,一个或多个通信接口404。上述处理器401、用户接口403、通信接口404和存储器402可通过总线405连接,或者可以通过其他方式连接,图4中以总线方式进行示例说明。其中,存储器402用于存储计算机程序,所述计算机程序包括程序指令,处理器401用于执行存储器402存储的程序指令。
其中,处理器401可用于调用所述程序指令执行以下步骤:当调用用户接口403获取到待识别的目标图像时,将所述目标图像输入预置的字段检测模型,以得到所述目标图像对应的字段图像信息,所述字段图像信息包括目标字段级图像,所述字段检测模型是根据多个图像以及各图像对应的字段级图像训练得到的,所述目标字段级图像包括所述目标图像中的文本字段;根据各众包用户的标注信息从所述各众包用户中确定出多个目标众包用户,并将所述目标字段级图像分配给所述多个目标众包用户进行标注,所述标注信息包括众包用户对已完成任务的标注成功率、标注数量、标注领域、平均标注时长、做标注任务的频率、累计积分中的任一个或多个标注信息项;分别获取所述多个目标众包用户对所述目标字段级图像的标注结果,以得到多个标注结果,所述标注结果包括对所述目标字段级图像中的文本字段进行识别得到的文本,所述目标众包用户和所述标注结果一一对应;按照预设的确定规则从所述多个标注结果中确定出目标标注结果,并根据所述目标字段级图像和所述目标标注结果训练得到图像识别模型,所述图像识别模型用于识别输入的字段级图像对应的文本字段。
可选的,处理器401还可用于执行以下步骤:从图像库中选取多个图像,并分别检测各图像的标记边框,根据每个图像的标记边框提取出每个图像的字段级图像;为各图像的字段级图像设置标签;分别将每个图像作为输入,以及将该图像的字段级图像和该字段级图像的标签作为输出,以训练得到所述字段检测模型;
所述字段图像信息还包括所述目标字段级图像的标签;处理器401在执行所述根据各众包用户的标注信息从所述各众包用户中确定出多个目标众包用户时,可具体执行以下步骤:根据所述目标字段级图像的标签以及各众包用户的标签,从所述各众包用户中确定出多个众包用户,所述多个众包用户的标签和所述目标字段级图像的标签相匹配;根据所述多个众包用户的标注信息从所述多个众包用户中确定出多个目标众包用户。
可选的,处理器401在执行所述根据所述多个众包用户的标注信息从所述多个众包用户中确定出多个目标众包用户时,可具体执行以下步骤:根据预设的字段级图像的标签和用户选择规则的对应关系,确定出所述目标字段级图像的标签对应的目标用户选择规则;其中,不同的用户选择规则用于指示根据不同的标注信息项确定众包用户;根据所述目标用户选择规则指示的标注信息项从所述多个众包用户中确定出多个目标众包用户。
可选的,处理器401在执行所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果之前,还可执行以下步骤:分别根据各众包用户的标注信息设置各众包用户的加权系数;
处理器401在执行所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果,包括:将所述多个标注结果划分为多个结果集合,每个集合包括的标注结果相同,且每个标注结果的初始权值相同;根据每个目标众包用户的加权系数对该目标众包用户的标注结果的初始权值进行加权处理,以得到该目标众包用户的标注结果的权值,并计算得到每个结果集合包括的标注结果的权值之和;从所述多个结果集合中确定出权值之和最大的结果集合,并将确定出的所述结果集合对应的标注结果确定为所述目标标注结果。
可选的,处理器401在执行所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果时,可具体执行以下步骤:将所述多个标注结果划分为多个结果集合,每个集合包括的标注结果相同,且每个标注结果的初始权值相同;从所述多个目标众包用户中确定出标注领域与所述目标字段级图像相匹配的目标众包用户,并按照预设的加权系数对确定出的所述目标众包用户的标注结果的初始权值进行加权处理,以得到确定出的所述目标众包用户的标注结果的权值;计算得到每个结果集合包括的标注结果的权值之和;从所述多个结果集合中确定出权值之和最大的结果集合,并将确定出的所述结果集合对应的标注结果确定为所述目标标注结果。
可选的,处理器401在执行所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果之前,还可执行以下步骤:分别设置各字段级图像的标签对应的标注结果模板,每个标注结果模板指示了该标注结果模板对应的标注结果的格式;
处理器401在执行所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果时,可具体执行以下步骤:确定所述目标字段级图像对应的目标标注结果模板,并分别检测所述多个标注结果的格式是否与所述目标标注结果模板指示的格式相同;如果所述多个标注结果中存在任一标注结果的格式与所述目标标注结果模板指示的格式不同,则过滤该标注结果;按照预设的确定规则从过滤标注结果后的标注结果中确定出目标标注结果。
可选的,处理器401在执行所述将所述目标图像输入预置的字段检测模型,以得到所述目标图像对应的字段图像信息之前,还可执行以下步骤:获取多个图像,并分别将所述多个图像输入所述字段检测模型,以得到所述多个图像对应的字段图像信息,每个图像的字段图像信息包括该图像对应的字段级图像以及该字段级图像的标签;根据各众包用户的标注信息从所述各众包用户中确定出多个校验众包用户,并将所述多个图像、每个图像对应的字段级图像以及该字段级图像的标签分配给所述多个校验众包用户进行校验;分别获取所述多个校验众包用户对所述多个图像、每个图像对应的字段级图像以及该字段级图像的校验结果,以得到多个校验结果,所述校验结果用于指示校验成功或校验失败;按照预设的确定规则从所述多个校验结果中确定出每个图像对应的目标校验结果,并在各目标校验结果均指示校验成功时,确定对所述字段检测模型训练成功,使得能够实现过将所述目标图像输入预置的字段检测模型,以得到所述目标图像对应的字段图像信息。
其中,所述处理器401可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
用户接口403可包括输入设备和输出设备,输入设备可以包括触控板、麦克风等,输出设备可以包括显示器(LCD等)、扬声器等。
通信接口404可包括接收器和发射器,用于与其他设备进行通信。
存储器402可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如,存储器402还可以存储上述的函数指针和函数的对应关系等等。
具体实现中,本申请实施例中所描述的处理器401等可执行上述图1至图2所示的方法实施例中所描述的实现方式,也可执行本申请实施例图3所描述的各单元的实现方式,此处不赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现图1至图2所对应实施例中描述的图像处理方法中的部分或全部步骤,也可实现本申请图3或图4所示实施例的图像处理设备的功能,此处不赘述。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的部分或全部步骤。
所述计算机可读存储介质可以是前述任一实施例所述的图像处理设备的内部存储单元,例如图像处理设备的硬盘或内存。所述计算机可读存储介质也可以是所述图像处理设备的外部存储设备,例如所述图像处理设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本申请中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
以上所述,仅为本申请的部分实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (9)

1.一种图像处理方法,其特征在于,包括:
当获取到待识别的目标图像时,将所述目标图像输入预置的字段检测模型,以得到所述目标图像对应的字段图像信息,所述字段检测模型是根据多个图像以及各图像对应的字段级图像训练得到的,所述字段图像信息包括目标字段级图像,所述目标字段级图像包括所述目标图像中的文本字段;
根据各众包用户的标注信息从所述各众包用户中确定出多个目标众包用户,并将所述目标字段级图像分配给所述多个目标众包用户进行标注,所述标注信息包括众包用户对已完成任务的标注成功率、标注数量、标注领域、平均标注时长、做标注任务的频率、累计积分中的任一个或多个标注信息项;
分别获取所述多个目标众包用户对所述目标字段级图像的标注结果,以得到多个标注结果,所述标注结果包括对所述目标字段级图像中的文本字段进行识别得到的文本,所述目标众包用户和所述标注结果一一对应;
按照预设的确定规则从所述多个标注结果中确定出目标标注结果,并根据所述目标字段级图像和所述目标标注结果训练得到图像识别模型,所述图像识别模型用于识别输入的字段级图像对应的文本字段;
其中,所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果,包括:将所述多个标注结果划分为多个结果集合,每个集合包括的标注结果相同,且每个标注结果的初始权值相同;
根据目标众包用户的加权系数对该目标众包用户的标注结果的初始权值进行加权处理,以得到该目标众包用户的标注结果的权值,并计算得到每个结果集合包括的标注结果的权值之和;其中,各目标众包用户的加权系数是根据各目标众包用户的标注信息设置的;
从所述多个结果集合中确定出权值之和最大的结果集合,并将确定出的所述结果集合对应的标注结果确定为目标标注结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从图像库中选取多个图像,并分别检测各图像的标记边框,根据每个图像的标记边框提取出每个图像的字段级图像,所述标记边框用于标记图像中的文本字段的位置;
为各图像的字段级图像设置标签;
分别将每个图像作为输入,以及将该图像的字段级图像和该字段级图像的标签作为输出,以训练得到所述字段检测模型;
所述字段图像信息还包括所述目标字段级图像的标签;所述根据各众包用户的标注信息从所述各众包用户中确定出多个目标众包用户,包括:
根据所述目标字段级图像的标签以及各众包用户的标签,从所述各众包用户中确定出多个众包用户,所述多个众包用户的标签和所述目标字段级图像的标签相匹配;
根据所述多个众包用户的标注信息从所述多个众包用户中确定出多个目标众包用户。
3.根据权利要求2所述的方法,其特征在于,所述根据所述多个众包用户的标注信息从所述多个众包用户中确定出多个目标众包用户,包括:
根据预设的字段级图像的标签和用户选择规则的对应关系,确定出所述目标字段级图像的标签对应的目标用户选择规则;其中,不同的用户选择规则用于指示根据不同的标注信息项确定众包用户;
根据所述目标用户选择规则指示的标注信息项从所述多个众包用户中确定出多个目标众包用户。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据每个目标众包用户的加权系数对该目标众包用户的标注结果的初始权值进行加权处理,以得到该目标众包用户的标注结果的权值,包括:
从所述多个目标众包用户中确定出标注领域与所述目标字段级图像相匹配的目标众包用户,并按照预设的加权系数对确定出的所述目标众包用户的标注结果的初始权值进行加权处理,以得到确定出的所述目标众包用户的标注结果的权值。
5.根据权利要求1所述的方法,其特征在于,在所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果之前,所述方法还包括:
分别设置各字段级图像的标签对应的标注结果模板,每个标注结果模板指示了该标注结果模板对应的标注结果的格式;
所述按照预设的确定规则从所述多个标注结果中确定出目标标注结果,包括:
确定所述目标字段级图像对应的目标标注结果模板,并分别检测所述多个标注结果的格式是否与所述目标标注结果模板指示的格式相同;
如果所述多个标注结果中存在任一标注结果的格式与所述目标标注结果模板指示的格式不同,则过滤该标注结果;
按照预设的确定规则从过滤标注结果后的标注结果中确定出目标标注结果。
6.根据权利要求1所述的方法,其特征在于,在所述将所述目标图像输入预置的字段检测模型,以得到所述目标图像对应的字段图像信息之前,所述方法还包括:
获取多个图像,并分别将所述多个图像输入所述字段检测模型,以得到所述多个图像对应的字段图像信息,每个图像的字段图像信息包括该图像对应的字段级图像以及该字段级图像的标签;
根据各众包用户的标注信息从所述各众包用户中确定出多个校验众包用户,并将所述多个图像、每个图像对应的字段级图像以及该字段级图像的标签分配给所述多个校验众包用户进行校验;
分别获取所述多个校验众包用户对所述多个图像、每个图像对应的字段级图像以及该字段级图像的校验结果,以得到多个校验结果,所述校验结果用于指示校验成功或校验失败;
按照预设的确定规则从所述多个校验结果中确定出每个图像对应的目标校验结果,并在各目标校验结果均指示校验成功时,确定对所述字段检测模型训练成功。
7.一种图像处理设备,其特征在于,包括用于执行如权利要求1-6任一项权利要求所述的方法的单元。
8.一种图像处理设备,其特征在于,包括处理器、通信接口和存储器,所述处理器、通信接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
CN201910015231.2A 2019-01-04 2019-01-04 一种图像处理方法、设备及计算机可读存储介质 Active CN109800320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910015231.2A CN109800320B (zh) 2019-01-04 2019-01-04 一种图像处理方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910015231.2A CN109800320B (zh) 2019-01-04 2019-01-04 一种图像处理方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109800320A CN109800320A (zh) 2019-05-24
CN109800320B true CN109800320B (zh) 2023-08-18

Family

ID=66558666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910015231.2A Active CN109800320B (zh) 2019-01-04 2019-01-04 一种图像处理方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109800320B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135409B (zh) * 2019-04-04 2023-11-03 平安科技(深圳)有限公司 识别模型的优化方法和装置
CN110263934B (zh) * 2019-05-31 2021-08-06 中国信息通信研究院 一种人工智能数据标注方法和装置
CN110503089A (zh) * 2019-07-03 2019-11-26 平安科技(深圳)有限公司 基于众包技术的ocr识别模型训练方法、装置以及计算机设备
CN112308098B (zh) * 2019-07-26 2024-06-07 杭州海康威视数字技术股份有限公司 一种图像处理方法及装置
CN110929807B (zh) * 2019-12-06 2021-04-06 腾讯科技(深圳)有限公司 图像分类模型的训练方法、图像分类方法及装置
CN111353549B (zh) * 2020-03-10 2023-01-31 创新奇智(重庆)科技有限公司 图像标签的核验方法及装置、电子设备、存储介质
CN112036166A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 一种数据标注方法、装置、存储介质及计算机设备
CN111966674B (zh) * 2020-08-25 2024-03-15 北京金山云网络技术有限公司 标注数据的合格性判断方法、装置和电子设备
CN112529390A (zh) * 2020-12-02 2021-03-19 平安医疗健康管理股份有限公司 任务分配方法、装置、计算机设备和存储介质
CN112488222B (zh) * 2020-12-05 2022-07-01 武汉中海庭数据技术有限公司 一种众包数据标注方法、系统、服务器及存储介质
CN113240126A (zh) * 2021-01-13 2021-08-10 深延科技(北京)有限公司 标注管理方法、装置、设备及存储介质
CN113297902B (zh) * 2021-04-14 2023-08-08 中国科学院计算机网络信息中心 一种基于众包模式在线标注遥感影像生成样本数据集的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608318A (zh) * 2015-12-18 2016-05-25 清华大学 众包标注整合方法
CN105787521A (zh) * 2016-03-25 2016-07-20 浙江大学 一种面向标签不平衡性的半监督众包标注数据整合方法
CN108537240A (zh) * 2017-03-01 2018-09-14 华东师范大学 基于领域本体的商品图像语义标注方法
CN108984657A (zh) * 2018-06-28 2018-12-11 Oppo广东移动通信有限公司 图像推荐方法和装置、终端、可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608318A (zh) * 2015-12-18 2016-05-25 清华大学 众包标注整合方法
CN105787521A (zh) * 2016-03-25 2016-07-20 浙江大学 一种面向标签不平衡性的半监督众包标注数据整合方法
CN108537240A (zh) * 2017-03-01 2018-09-14 华东师范大学 基于领域本体的商品图像语义标注方法
CN108984657A (zh) * 2018-06-28 2018-12-11 Oppo广东移动通信有限公司 图像推荐方法和装置、终端、可读存储介质

Also Published As

Publication number Publication date
CN109800320A (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
CN109800320B (zh) 一种图像处理方法、设备及计算机可读存储介质
CN109101469B (zh) 从数字化文档提取可搜索的信息
CN108491388B (zh) 数据集获取方法、分类方法、装置、设备及存储介质
CN111753767A (zh) 一种作业自动批改的方法、装置、电子设备和存储介质
CN110222791A (zh) 样本标注信息的审核方法及装置
CN111046879B (zh) 证件图像分类方法、装置、计算机设备及可读存储介质
CN109284355B (zh) 一种批改试卷中口算题的方法及装置
CN106022826A (zh) 一种网络直播平台中的作弊用户识别方法与系统
CN110210294B (zh) 优化模型的评价方法、装置、存储介质及计算机设备
CN107491536B (zh) 一种试题校验方法、试题校验装置及电子设备
CN112036295B (zh) 票据图像处理方法、装置、存储介质及电子设备
CN110490237B (zh) 数据处理方法、装置、存储介质及电子设备
CN109284700B (zh) 图像中多个人脸检测的方法、存储介质、设备及系统
CN111144079A (zh) 一种智能获取学习资源的方法、装置、打印机和存储介质
US20230410220A1 (en) Information processing apparatus, control method, and program
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN112381087A (zh) 结合rpa和ai的图像识别方法、装置、计算机设备和介质
CN110111011B (zh) 一种教学质量监管方法、装置及电子设备
JP6146209B2 (ja) 情報処理装置、文字認識方法、及びプログラム
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN111639630B (zh) 一种作业批改方法及装置
JP6217407B2 (ja) 情報処理システム、情報処理装置及びプログラム
CN115687790B (zh) 基于大数据的广告推送方法、系统及云平台
CN109670480B (zh) 图像判别方法、装置、设备及存储介质
CN111090989B (zh) 一种基于文字识别的提示方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant