CN113516131A - 图像处理方法、装置、设备和存储介质 - Google Patents

图像处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113516131A
CN113516131A CN202011553210.5A CN202011553210A CN113516131A CN 113516131 A CN113516131 A CN 113516131A CN 202011553210 A CN202011553210 A CN 202011553210A CN 113516131 A CN113516131 A CN 113516131A
Authority
CN
China
Prior art keywords
identification
image
coordinates
positioning point
graphs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011553210.5A
Other languages
English (en)
Inventor
刘伟
罗斌
陈想
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202011553210.5A priority Critical patent/CN113516131A/zh
Publication of CN113516131A publication Critical patent/CN113516131A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种图像处理方法、装置、设备和存储介质,该方法包括:获取与目标对象对应的拍摄图像,目标对象中包括由多个标识图形包围的目标区域;获取目标区域在参考图像中的参考坐标以及多个标识图形在参考图像中各自对应的定位点参考坐标,目标区域在参考图像中呈现设定形态。确定多个标识图形在拍摄图像中各自对应的定位点预测坐标,根据多个标识图形各自对应的定位点参考坐标和定位点预测坐标确定变换矩阵,以及目标区域对应的参考坐标,生成矫正图像,在矫正图像中目标区域呈现设定形态,以实现目标区域在拍摄图像中的形态矫正。

Description

图像处理方法、装置、设备和存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像处理方法、装置、设备和存储介质。
背景技术
随着办公自动化和光学字符识别(Optical Character Recognition,简称OCR)技术的普及,越来越多的场景开始应用OCR技术进行拍摄图像中关键信息的提取,以便于形成电子化的存档记录,其中,关键信息是指位于被拍摄产品的目标区域内的数据内容。比如,被拍摄产品为纸质名片,目标区域是名片中包含姓名和联系电话的区域,此时,关键信息即为名片中包含的姓名和联系电话。
为了准确地提取出上述关键信息,首先需要从拍得的图像中定位出产品的目标区域。另外,为了保证可以简单准确地从产品目标区域中提取相应的信息,需要将从图像中定位到的目标区域矫正到统一的标准化形态,以作为后续提取信息步骤的输入。但是,由于用户可能使用各种各样不同的拍摄终端,在任意的角度以及光照环境下面拍摄图像,这就导致了对不同产品拍摄而采集的图像质量千差万别。此时,如何有效地定位到所采集图像中产品的目标区域,并且为后续提取目标区域内信息的步骤提供标准形态的输入,就显得尤为重要。
发明内容
本发明实施例提供一种图像处理方法、装置、设备和存储介质,能够将目标对象的目标区域在其拍摄图像中的形态矫正为设定的标准化形态。
第一方面,本发明实施例提供一种图像处理方法,该方法包括:
获取与目标对象对应的拍摄图像,所述目标对象中包括由多个标识图形包围的目标区域;
获取所述目标区域在参考图像中对应的参考坐标以及所述多个标识图形在所述参考图像中各自对应的定位点参考坐标,所述目标区域在所述参考图像中呈现设定形态;
确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标;
根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及所述目标区域对应的参考坐标,生成与所述拍摄图像对应的矫正图像,在所述矫正图像中所述目标区域呈现所述设定形态。
第二方面,本发明实施例提供一种图像处理装置,该装置包括:
获取模块,用于获取与目标对象对应的拍摄图像,所述目标对象中包括由多个标识图形包围的目标区域,以及,获取所述目标区域在参考图像中对应的参考坐标以及所述多个标识图形在所述参考图像中各自对应的定位点参考坐标,所述目标区域在所述参考图像中呈现设定形态;
确定模块,用于确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标;
矫正模块,用于根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及所述目标区域对应的参考坐标,生成与所述拍摄图像对应的矫正图像,在所述矫正图像中所述目标区域呈现所述设定形态。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,存储器上存储有可执行代码,当所述可执行代码被处理器执行时,使处理器至少可以实现如第一方面所述的图像处理方法。
第四方面,本发明实施例提供了一种非暂时性机器可读存储介质,非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使处理器至少可以实现如第一方面所述的图像处理方法。
第五方面,本发明实施例提供了一种图像处理方法,包括:
响应于调用图像处理服务的请求,确定所述图像处理服务对应的处理资源;
利用所述图像处理服务对应的处理资源执行如下步骤:
获取与目标对象对应的拍摄图像,所述目标对象中包括由多个标识图形包围的目标区域;
获取所述目标区域在参考图像中对应的参考坐标以及所述多个标识图形在所述参考图像中各自对应的定位点参考坐标,所述目标区域在所述参考图像中呈现设定形态;
确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标;
根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及,所述目标区域对应的参考坐标,生成与所述拍摄图像对应的矫正图像,在所述矫正图像中所述目标区域呈现所述设定形态。
第六方面,本发明实施例提供一种图像处理方法,该方法包括:
获取与商品对应的拍摄图像,所述商品中包括由多个标识图形包围的商品标识区域;
获取所述商品标识区域在参考图像中对应的参考坐标以及所述多个标识图形在所述参考图像中各自对应的定位点参考坐标,所述商品标识区域在所述参考图像中呈现设定形态;
确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标;
根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及所述商品标识区域对应的参考坐标,生成与所述拍摄图像对应的矫正图像,在所述矫正图像中所述商品标识区域呈现所述设定形态;
在所述矫正图像中提取所述商品标识区域内包含的商品标识信息。
第七方面,本发明实施例提供一种图像处理装置,该装置包括:
获取模块,用于获取与商品对应的拍摄图像,所述商品中包括由多个标识图形包围的商品标识区域,以及,获取所述商品标识区域在参考图像中对应的参考坐标以及所述多个标识图形在所述参考图像中各自对应的定位点参考坐标,所述商品标识区域在所述参考图像中呈现设定形态;
确定模块,用于确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标;
矫正模块,用于根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及所述商品标识区域对应的参考坐标,生成与所述拍摄图像对应的矫正图像,在所述矫正图像中所述商品标识区域呈现所述设定形态;
提取模块,用于在所述矫正图像中提取所述商品标识区域内包含的商品标识信息。
第八方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,存储器上存储有可执行代码,当所述可执行代码被处理器执行时,使处理器至少可以实现如第六方面所述的图像处理方法。
第九方面,本发明实施例提供了一种非暂时性机器可读存储介质,非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使处理器至少可以实现如第六方面所述的图像处理方法。
在本发明实施例中,针对某个目标对象来说,该目标对象中包括由多个标识图形包围的目标区域,其中,可以将目标对象中需要进行关键信息提取的区域称为目标区域。目标对象的目标区域和多个标识图形在目标对象对应的参考图像中呈现设定形态,该设定形态是便于对目标区域进行信息提取的形态。基于此,预先存储目标对象的目标区域在参考图像中对应的参考坐标,以及多个标识图形在参考图像中各自对应的定位点的坐标(称为定位点参考坐标)。其中,每个标识图形具有至少一个定位点,用以表征标识图形的位置。
实际应用中,将用户对目标对象进行拍摄而得到的图像称为拍摄图像,目标对象的目标区域在该拍摄图像中可能并未呈现上述设定形态,为了将目标对象的目标区域在拍摄图像中的形态矫正为上述设定形态,需要借助已经获得的多个标识图形各自对应的定位点参考坐标和目标区域对应的参考坐标。
具体来说,首先,确定多个标识图形在实际采集的拍摄图像中各自对应的定位点的坐标,称为定位点预测坐标,之后,根据多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及目标区域对应的参考坐标,对拍摄图像进行目标区域的形态的矫正,以生成与拍摄图像对应的矫正图像,在矫正图像中目标对象的目标区域将呈现设定形态。
在上述方案中,通过在目标对象中增加多个标识图形包围感兴趣的目标区域的设计,以及存储目标区域和多个标识图形在设定形态下各自对应的参考坐标,便可以简单、准确地完成目标对象的目标区域在其对应的各种拍摄图像中的形态矫正。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种目标对象的目标区域的不同显示效果示意图;
图2为本发明实施例提供的一种目标对象中的标识图形示意图;
图3为本发明实施例提供的一种目标对象的目标区域和标识图形的坐标表示方式示意图;
图4为本发明实施例提供的一种图像处理方法的流程图;
图5为本发明实施例提供的一种目标对象的拍摄图像示意图;
图6为本发明实施例提供的一种矫正图像示意图;
图7为本发明实施例提供的一种矫正图像生成过程的流程图;
图8为本发明实施例提供的一种矫正图像的生成原理示意图;
图9为本发明实施例提供的一种确定多个标识图形在拍摄图像中各自对应的定位点预测坐标和类别的流程图;
图10为本发明实施例提供的一种确定多个标识图形在拍摄图像中各自对应的定位点预测坐标和类别的原理示意图;
图11为本发明实施例提供的一种图像处理方法的应用场景示意图;
图12为本发明实施例提供的一种图像处理方法的流程图;
图13为本发明实施例提供的一种图像处理装置的结构示意图;
图14为与图13所示实施例提供的图像处理装置对应的电子设备的结构示意图;
图15为本发明实施例提供的一种图像处理装置的结构示意图;
图16为与图15所示实施例提供的图像处理装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
本发明实施例提供的图像处理方法可以由一电子设备来执行,该电子设备可以是诸如PC机、笔记本电脑、智能手机等终端设备,也可以是服务器。该服务器可以是包含一独立主机的物理服务器,或者也可以为虚拟服务器,或者也可以为云端服务器或服务器集群。
本发明实施例中,目标对象可以是名片、证件、票据、商品外包装,等等。在不同应用场景中,可能会关注目标对象上不同区域内包含的数据内容。比如,商品录入场景中,可能需要录入商品的名称、条码;联系人存储场景中,需要存储联系人姓名、联系电话;证件信息读取场景中,需要读取出姓名、证件号。
由上述举例可知,不用应用场景中,需要从目标对象中提取的关键信息不同。本发明实施例中,将目标对象中某关键信息所位于的区域称为目标区域。
实际应用中,上述举例的关键信息获取过程简单来说可以包括:首先,对目标对象进行拍摄而得到拍摄图像,之后,在拍摄图像中定位出目标对象的目标区域所对应的像素区域,之后,从该像素区域内提取出其中包含的关键信息。为了能够保证关键信息的高效、准确提取,需要排除对目标对象进行拍摄时各种不同拍摄环境的干扰,其中一种主要的干扰因素就是拍摄角度,即用户可以以任意的角度对目标对象进行拍摄,这样在拍摄图像中,目标对象的目标区域可能呈现各种不同的形态。如果该目标区域在拍摄图像中呈现的设定的某种标准形态,则会有助于关键信息的高效、准确提取。
为更加直观地理解上述设定形态下目标区域的显示效果与非设定形态下目标区域的显示效果,结合图1来示例性说明。
在图1中,假设目标对象为名片,目标区域为包含姓名、联系电话的区域X。如图1中所示,假设以某种拍摄角度对目标对象进行拍摄而得到图像1,此时,目标区域在图像1中呈现设定形态。假设以另一种拍摄角度对目标对象进行拍摄而得到图像2,此时,目标区域在图像1中未呈现设定形态。
当目标区域呈现图像1中所示意的设定形态时,后续基于OCR技术可以方便、准确地提取出目标区域内包含的数据信息——姓名和联系电话。
基于上述举例可知,本发明实施例提供的图像处理方法即用于对目标对象的目标区域在其拍摄图像中所呈现的形态进行矫正,以得到包含目标对象的目标区域的,且目标区域呈现设定形态的矫正图像。
为实现上述矫正目的,在本发明实施例中,在目标对象的设计阶段,在目标对象中会增加多个标识图形包围感兴趣的目标区域的设计。以便结合这多个标识图形来高效地完成上述矫正任务。
结合图2来示例性说明上述设计。在图2中,假设目标区域为图中示意的五边形区域,在该五边形区域周围设计了图中示意的四个标识图形:A、B、C、D。这四个标识图形顺序连线后会包围目标区域。
为完成上述矫正任务,需要预先得知在目标区域处于设定形态下,目标区域以及多个标识图形在目标对象中对应的参考坐标,以便以此为标准,完成目标区域在拍摄图像中形态的矫正。
为此,可以预先得到目标对象对应的参考图像,在该参考图像中,目标区域呈现设定形态,此时,确定目标区域在参考图像中对应的参考坐标以及多个标识图形在参考图像中各自对应的定位点参考坐标,每个标识图形具有至少一个定位点。
可选地,该参考图像可以是与目标对象对应的设计图,即在目标对象对应的完整设计图中标记出目标区域以及包围目标区域的多个标识图形,进而自动地确定出目标区域在设计图中对应的参考坐标以及多个标识图形在设计图中各自对应的定位点参考坐标。
如图3中所示,图中示意的是某目标对象对应的设计图,在该设计图中包含目标区域以及包围目标区域的四个标识图形:A、B、C、D。除此之外,在该设计图中还可以包括其他元素,比如图中示意的元素。
用于确定目标区域对应的参考坐标以及多个标识图形各自对应的定位点参考坐标的坐标轴可以是图3中示意的坐标轴。
目标区域的参考坐标可以是目标区域边界上的多个顶点的坐标,比如图3中示意的五个坐标:V1、V2、V3、V4、V5这五个顶点坐标。
根据使用的标识图形的不同,用于定位标识图形的位置的定位点也可以有所不同。比如,标识图形为矩形形状的图形时,每个标识图形可以具有四个定位点,分别对应于矩形形状的四个顶点;再比如,标识图形为三角形形状的图形时,每个标识图形可以具有三个定位点,分别对应于三角形形状的三个顶点;再比如,标识图形为圆形形状的图形时,每个标识图形可以具有一个定位点,对应于圆心。
在图3中示意的标识图形的情形下,可选地,每个标识图形可以具有四个定位点,标记为1、2、3、4,在设计图(即参考图像)中,每个标识图形对应的定位点的坐标,称为这个标识图形对应的定位点参考坐标。图3中示意的四个标识图形各自对应的定位点参考坐标如图3中所示。
另外,值得说明的是,如图3中所示,多个标识图形并不一定都是相同样子的图形,比如图3中,标识图形D与其他的三个标识图形是不同的。之所以这样设计是为了明确当目标区域呈现设定形态时,多个标识图形之间的位置关系。换言之,这个不一样的标识图形D的位置,间接体现了目标区域的形态是否是设定形态,当目标区域的形态呈现设定形态时,则标识图形D的位置应该位于图3中示意的位置处。
基于上述举例,可选地,包围目标区域的多个标识图形中可以包括第一类别的标识图形和第二类别的标识图形。这里,不同类别的标识图形是指不同样式的标识图形,比如图3中示意的是两种类别的标识图形,标识图形A、B、C为一类,标识图形D为另一类。
实际应用中,多个标识图形中可以包括两类或更多类别的标识图形。标识图形的颜色、形状都可以作为分类的依据。
实际应用中,可以按需自定义各种标识图形,不以图3中示意的为限。
上文中假设目标对象对应的参考图像为设计图,实际上,参考图像也可以是对目标对象进行拍摄而得到的一个图像,只是,在该图像中,目标对象的目标区域呈现上述设定形态。从而,也可以基于该图像确定目标区域对应的参考坐标以及多个标识图形各自对应的定位点参考坐标。
基于已存储的目标区域对应的参考坐标以及多个标识图形各自对应的定位点参考坐标,可以对实际应用中对目标对象进行拍摄而得到的拍摄图像进行矫正处理,具体地,是对目标区域在该拍摄图像中的形态进行矫正处理。具体参考以下实施例中的说明。
值得说明的是,下文中的目标对象可以是上文中用于确定目标区域对应的参考坐标以及多个标识图形各自对应的定位点参考坐标的那个特定的目标对象,也可以是与该目标对象属于同种对象的其他对象实体。举例来说,确定目标区域对应的参考坐标以及多个标识图形各自对应的定位点参考坐标的目标对象为用户A的名片,那么下文中的目标对象可以是用户A的名片,也可以是其他用户B的名片,只是用户A与用户B的名片都是采用同一个模板制作出的,区别仅在于个人信息不同。基于此,可以将本发明实施例中所述的目标对象理解为是一类基于相同模板制作出的对象。
图4为本发明实施例提供的一种图像处理方法的流程图,如图4所示,该方法包括如下步骤:
401、获取与目标对象对应的拍摄图像,目标对象中包括由多个标识图形包围的目标区域。
目标区域在拍摄图像中可能未呈现设定形态。
402、获取目标区域在参考图像中对应的参考坐标以及多个标识图形在参考图像中各自对应的定位点参考坐标,目标区域在参考图像中呈现设定形态。
仍以图3中示意的情形为例,假设参考图像为图3中示意的图像,在参考图像中标记出目标区域(图中示意的五边形区域),以及显示出目标对象中包围目标区域的多个标识图形,多个标识图形为图3中示意的ABCD这四个标识图形。目标区域对应的参考坐标由图3中示意的V1、V2、V3、V4、V5这五个顶点坐标表示,每个标识图形具有图3中示意的四个定位点:1234,从而,每个标识图形对应的定位点参考坐标即为每个标识图形具有的四个定位点在参考图像中对应的坐标。如图3中所示,目标对象的目标区域在参考图像中呈现设定形态。另外,由于图3中示意的多个标识图形中包括两种类别的标识图形,因此,可以将每个标识图形对应的类别信息也存储下来。
为便于理解,假设在实际应用中,某个用户对目标对象进行拍摄得到如图5中示意的拍摄图像,在该拍摄图像中,目标对象的目标区域未呈现设定形态。
值得说明的是,由于参考图像的作用就是为了确定目标区域对应的参考坐标以及多个标识图形各自对应的定位点参考坐标,此时,并不关心目标区域中实际包含的数据信息以及目标对象中除目标区域外存在的信息,因此,在图3中,并未示意出目标区域内包含的数据信息以及其他位置包含的数据信息。
但是,当在实际应用场景中某用户对目标对象进行拍摄而得到的拍摄图像中,除了可以显示出目标对象中包含的多个标识图形外,还可以显示出目标对象中包含的其他数据信息,比如图5中示意的信息。另外,在实际应用中,目标对象中并不会实际标注出目标区域的边界线,因此,如图5中所示,拍摄图像中并不会包括图3中示意的五边形。
基于上述假设,后续步骤的目的就是矫正目标对象的目标区域在拍摄图像中的形态,最终的矫正结果体现为:生成与该拍摄图像对应的矫正图像,如图6中所示。
根据图6中的示意可知,在该矫正图像中可以仅包括多个标识图形以及被多个标识图形包围的目标区域中的数据信息,而不包含拍摄图像中的其他数据信息,而且,在该矫正图像中,目标区域呈现设定形态,即目标区域在拍摄图像中的形态被矫正为设定形态。从最终的效果上来说,相当于从拍摄图像中截取出对应于目标对象的目标区域的图像区域,并对该图像区域进行旋转矫正,以得到矫正图像。
可选地,在得到如图6中所示的矫正图像后,可以对矫正图像中进行信息提取处理,以获取目标对象的目标区域中包含的数据信息:
产品序列号:EDFGACE12568。
由图6中的示意可知,矫正图像中仅显示有多个标识图形以及被多个标识图形包围的数据信息,而该数据信息即为目标对象的目标区域内包含的数据信息,所以,通过OCR技术对该矫正图像进行信息提取即可得到目标区域内包含的数据信息。
得到上述矫正图像的过程即包括如下步骤:
403、确定多个标识图形在拍摄图像中各自对应的定位点预测坐标。
404、根据多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及目标区域对应的参考坐标,生成与拍摄图像对应的矫正图像,在矫正图像中目标区域呈现所述设定形态。
确定多个标识图形在拍摄图像中各自对应的定位点预测坐标,简单来说就是在拍摄图像中识别出多个标识图形,并定位多个标识图形的位置,只是,每个标识图形的位置以其对应的至少一个定位点的位置来表示。一个标识图形的位置可以是中心点位置、顶点位置,从而,标识图形的定位点可以是标识图形的中心点、顶点。
为了与在参考图像中确定出的多个标识图形各自对应的定位点坐标(上文中称为定位点参考坐标)相区别,这里将在拍摄图像中确定出的多个标识图形各自对应的定位点坐标称为定位点预测坐标。
实际应用中,可选地,可以预先训练一个模型,使得该模型具有识别标识图形以及定位标识图形位置的能力。
基于此,可以将拍摄图像输入到该预设模型中,以通过预设模型输出多个标识图形在拍摄图像中各自对应的定位点预测坐标和类别。
如前文所述,多个标识图形可以包括两种或多种类别的标识图形,而不同类别的标识图形的设计主要是为了区分多个标识图形以及明确多个标识图形的位置关系,因此,上述预设模型可以被训练具有识别标识图形类别的能力。
为了训练上述模型,可以收集若干样本图像,每个样本图像中包括一种或多种标识图形,在样本图像中标记每个标识图形对应的类别以及每个标识图形对应的位置坐标(定位点的坐标),以标记信息作为监督信息对该模型进行训练。
在得到多个标识图形在拍摄图像中各自对应的定位点预测坐标后,可以根据多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及目标区域对应的参考坐标,生成与拍摄图像对应的矫正图像,从而完成对拍摄图像中目标区域的形态的矫正处理。具体地,生成矫正图像的过程具体可以包括如下步骤:
根据多个标识图形各自对应的定位点参考坐标和定位点预测坐标,确定变换矩阵;
根据变换矩阵、目标区域对应的参考坐标以及多个标识图形各自对应的定位点参考坐标和定位点预测坐标,生成与拍摄图像对应的矫正图像。
其中,在得到多个标识图形在拍摄图像中各自对应的定位点预测坐标和类别后,基于已经存储的多个标识图形在参考图像中各自对应的定位点参考坐标和类别,可以计算出变换矩阵。
具体地,计算过程可以是:
根据多个标识图形在参考图像中各自对应的定位点参考坐标和类别,以及多个标识图形在拍摄图像中各自对应的定位点预测坐标和类别,确定多个标识图形各自对应的坐标对,其中,任一标识图形对应的坐标对中包括该任一标识图形对应的定位点参考坐标和定位点预测坐标。之后,根据多个标识图形各自对应的坐标对,确定变换矩阵。
为便于理解上述计算过程,举例来说。假设在图3中,标识图形A、B、C、D各自对应的定位点参考坐标表示如下:
标识图形A:
定位点1:(ax1,ay1);定位点2:(ax2,ay2);定位点3:(ax3,ay3);定位点4:(ax4,ay4)。
标识图形B:
定位点1:(bx1,by1);定位点2:(bx2,by2);定位点3:(bx3,by3);定位点4:(bx4,by4)。
标识图形C:
定位点1:(cx1,cy1);定位点2:(cx2,cy2);定位点3:(cx3,cy3);定位点4:(cx4,cy4)。
标识图形D:
定位点1:(dx1,dy1);定位点2:(dx2,dy2);定位点3:(dx3,dy3);定位点4:(dx4,dy4)。
假设在图5中,标识图形A、B、C、D各自对应的定位点预测坐标表示如下:
标识图形A:
定位点1:(ax1’,ay1’);定位点2:(ax2’,ay2’);定位点3:(ax3’,ay3’);定位点4:(ax4’,ay4’)。
标识图形B:
定位点1:(bx1’,by1’);定位点2:(bx2’,by2’);定位点3:(bx3’,by3’);定位点4:(bx4,by4)。
标识图形C:
定位点1:(cx1’,cy1’);定位点2:(cx2’,cy2’);定位点3:(cx3’,cy3’);定位点4:(cx4’,cy4’)。
标识图形D:
定位点1:(dx1’,dy1’);定位点2:(dx2’,dy2’);定位点3:(dx3’,dy3’);定位点4:(dx4’,dy4’)。
基于上述坐标假设情形以及标识图形A、B、C对应于第一类别,标识图形D对应于第二类别的类别识别结果,最终可以确定出每个标识图形对应的坐标对:
标识图形A:
定位点1:(ax1,ay1),(ax1’,ay1’);定位点2:(ax2,ay2),(ax2’,ay2’);定位点3:(ax3,ay3),(ax3’,ay3’);定位点4:(ax4,ay4),(ax4’,ay4’)。
其他标识图形同理,不再赘述。
其中,在确定每个标识图形对应的坐标对的过程中,主要是需要实现多个标识图形在参考图像和拍摄图像中的对齐,即以标识图形A为例,在已经标识图形A在参考图像中对应的定位点参考坐标的基础上,需要在拍摄图像中包含的多个标识图形中确定哪个标识图形时标识图形A。而为实现该目的,需要使用到标识图形的类别识别结果。
具体来说,上述预设模型会输出拍摄图像中包含的四个标识图形各自对应的类别,由于三个标识图形对应于第一类别,一个标识图形对应于第二类别,基于已知的标识图形D是对应于第二类别的先验知识,可以知道拍摄图像中对应于第二类别的那个标识图形是标识图形D。在确定出标识图形D后,根据已知的剩余其他三个标识图形与标识图形D的位置关系,便可以在拍摄图像中确定出剩下的三个标识图形分别是标识图形A、B、C中的哪一个。
之后,将同一标识图形对应的定位点参考坐标和定位点预测坐标一一对应的组成一个坐标对即可。
最终,基于得到的若干坐标对建立方程Y=MX,求解该方程即可得到变换矩阵M,其中,X表示由多个标识图形各自对应的定位点预测坐标构成的矩阵,X表示由多个标识图形各自对应的定位点参考坐标构成的矩阵。
由此可见,假设参考图像中由多个标识图形所包围的像素区域称为像素区域Q1,拍摄图像中由这多个标识图形所包围的像素区域称为像素区域Q2,那么变换矩阵描述了像素区域Q1与像素区域Q2之间的像素位置映射关系。
在得到上述变换矩阵后,可以根据变换矩阵、目标区域对应的参考坐标以及多个标识图形各自对应的定位点参考坐标和定位点预测坐标,生成与拍摄图像对应的矫正图像,在矫正图像中目标对象的目标区域呈现设定形态,如图6所示。
下面提供一种可选的生成上述矫正图像的实现方式,如图7所示,可以包括如下步骤:
701、根据多个标识图形各自对应的定位点参考坐标,生成空白的矫正图像,矫正图像的尺寸由多个标识图形各自对应的定位点参考坐标确定。
702、根据变换矩阵对拍摄图像中待矫正区域内的第一像素位置进行位置映射,以在空白的矫正图像中确定对应的第二像素位置,其中,第一像素位置是待矫正区域内包含的任一像素位置,待矫正区域由多个标识图形各自对应的定位点预测坐标确定。
703、将第一像素位置对应的像素值赋值给第二像素位置,以生成与拍摄图像对应的矫正图像。
结合图8来示例性说明上述步骤的执行过程。
仍以前述实施例中假设的标识图形A、B、C、D这四个标识图形为例,可以先根据这四个标识图形各自对应的定位点参考坐标生成一张空白的矫正图像。如图8中所示,该空白的矫正图像可以是一张白色或黑色的图像。可选地,如图8所示,矫正图像的尺寸可以与这四个标识图形各自对应的定位点参考坐标所围成的矩形框K的尺寸相等。
具体地,可以在一个预设的坐标系中定位出四个标识图形各自对应的定位点参考坐标,进而确定由这四个标识图形所围成的矩形框K,之后,生成一个与矩形框K相同尺寸的矫正图像,类似于将矩形框K抠出并渲染成白色或黑色,以得到空白的矫正图像。其中,上述坐标系与参考图像中的坐标系一致。
另外,如图8中所示,在拍摄图像中,同样地可以确定出由四个标识图形各自对应的定位点预测坐标所围成的待矫正区域Q。之后,以待矫正区域Q内的任一个像素位置(x,y)为例,基于变换矩阵对该像素位置(x,y)进行位置映射后,在空白的矫正图像中可以确定出与之对应的像素位置(x’,y’),之后,将像素位置(x,y)对应的像素值赋值给像素位置(x’,y’)。对待矫正区域Q内的各个像素位置都进行上述处理,便可以将待矫正区域Q内包含的数据信息都映射到矫正图像中,因为这些数据信息是以像素值来表现的。最终,通过上述像素位置的映射以及像素值赋值处理后,便可以得到图6中示意的最终输出的矫正图像。
以上实施例中提到,可以通过一个预设模型,对拍摄图像中包含的多个标识图形进行定位以及类别识别。在一可选实施例中,该预设模型可以包括第一模型和第二模型,可以通过这两个模型的配合完成上述任务。
具体地,如图9所示,多个标识图形在拍摄图像中各自对应的定位点预测坐标和类别的确定过程可以包括如下步骤:
901、将拍摄图像输入到第一模型中,以通过第一模型输出多个标识图形在拍摄图像中各自对应的定位框坐标和类别。
902、根据多个标识图形各自对应的定位框坐标,从拍摄图像中截取出多个标识图形各自对应的子图。
903、将多个标识图形各自对应的子图输入到第二模型中,以通过第二模型输出多个标识图形在各自对应的子图中对应的定位点预测坐标。
904、根据多个标识图形在各自对应的子图中对应的定位点预测坐标和多个标识图形各自对应的定位框坐标,确定多个标识图形在所述拍摄图像中各自对应的定位点预测坐标。
为便于理解,结合图10来示例性说明。在图10中,仍旧假设拍摄图像为图5中示意的图像。
在图10中,将拍摄图像输入到第一模型中后,第一模型输出图中示意的四个定位框:K1、K2、K3、K4,每个定位框内包含一个标识图形。另外,每个定位框上可以关联有对应的类别标记,用以表示其中包含的标识图形的类别。在图10中,类别标记包括对应于第一类别的C1以及对应于第二类别的C2。
之后,根据四个定位框坐标,从拍摄图像中截取出多个标识图形各自对应的子图,得到如图10中示意的四个子图。
将这四个子图逐个输入到第二模型中,第二模型输出每个子图中包含的标识图形在该子图中对应的定位点预测坐标。
由于此时得到的定位点预测坐标仅是在子图中对应的坐标,子图是完整的拍摄图像中的部分图像区域,要得到标识图形在拍摄图像中对应的定位点预测坐标,则需要结合定位框坐标来确定。
具体地,针对任一标识图形来说,将该标识图形在其对应的子图中对应的定位点预测坐标与包含该标识图形的定位框的坐标对应相加,即可得到该标识图形在拍摄图像中对应的定位点预测坐标。
本发明实施例中,第一模型、第二模型可以是神经网络模型,比如:卷积神经网络(Convolutional Neural Network,简称CNN)模型;残差网络(Residual Network,简称ResNet)模型;DLA-34模型,等等。
以上结合各个实施例介绍了本发明实施例提供的图像处理方案的详细执行过程,为了能够更加直观地理解该图像处理方案能够实现的效果,结合图11所示的应用场景来整体说明。
假设目标对象为名片,某用户A对另一用户B的名片进行拍摄得到图11中示意的拍摄图像。用户A想要对用户B的姓名和联系方式进行电子化存储。基于此,目标区域即为名片中包括姓名和联系方式的区域。假设由于拍摄角度的问题,目标区域在该拍摄图像中的显示形态不符合要求,需要进行矫正。另外,假设包围目标区域的多个标识图形是图中示意的几个图形。
用户A在拍摄得到该拍摄图像后,使用终端设备安装的某种应用程序(APP)加载该拍摄图像,以触发本发明实施例提供的图像处理方案的执行,其中,假设该图像处理方案由该应用程序运行。假设该应用程序中已经预先存储有同类名片的注册信息,这里,同类名片是指与用户B的名片样式相同的名片,可以是对应的名片模板。其中,注册信息即为名片的目标区域在参考图像中对应的参考坐标以及包围目标区域的多个标识图形各自对应的定位点参考坐标。
如前文所述,应用程序先确定多个标识图形在拍摄图像中各自对应的定位点预测坐标,之后,根据多个标识图形各自对应的定位点参考坐标和定位点预测坐标以及目标区域对应的参考坐标,生成矫正图像,在矫正图像中目标区域呈现设定形态。
如前文所述,本发明提供的图像处理方法可以在云端来执行,在云端可以部署有若干计算节点,每个计算节点中都具有计算、存储等处理资源。在云端,可以组织由多个计算节点来提供某种服务,当然,一个计算节点也可以提供一种或多种服务。
针对本发明提供的方案,云端可以提供有用于完成图像处理方法的服务,称为图像处理服务。当用户需要使用该图像处理服务的时候,调用该图像处理服务,以向云端触发调用该图像处理服务的请求,在该请求中可以携带有对目标对象拍摄得到的拍摄图像。云端确定响应该请求的计算节点,利用该计算节点中的处理资源执行如下步骤:
获取与目标对象对应的拍摄图像,所述目标对象中包括由多个标识图形包围的目标区域;
获取所述目标区域在参考图像中对应的参考坐标以及所述多个标识图形在所述参考图像中各自对应的定位点参考坐标,所述目标区域在所述参考图像中呈现所述设定形态;
确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标;
根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及所述目标区域对应的参考坐标,生成与所述拍摄图像对应的矫正图像,在所述矫正图像中所述目标区域呈现所述设定形态。
图12为本发明实施例提供的一种图像处理方法的流程图,如图12所示,该图像处理方法可以包括如下步骤:
1201、获取与商品对应的拍摄图像,商品中包括由多个标识图形包围的商品标识区域。
1202、获取商品标识区域在参考图像中对应的参考坐标以及多个标识图形在所述参考图像中各自对应的定位点参考坐标,商品标识区域在参考图像中呈现所述设定形态。
1203、确定多个标识图形在所述拍摄图像中各自对应的定位点预测坐标。
1204、根据多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及商品标识区域对应的参考坐标,生成与拍摄图像对应的矫正图像,其中,在矫正图像中商品标识区域呈现设定形态。
1205、在矫正图像中提取商品标识区域内包含的商品标识信息。
本实施例提供的图像处理方法用于提取商品图像中的商品标识信息。可以适用于商品信息录入等应用场景中。商品标识信息可以包括商品名称,条形码等信息。在商品上,需要提取的商品标识信息被预设的多个标识图形包围。
举例来说,实际应用中,商家在买入大量的某款商品(比如购买了很多箱某种牛奶)后,需要将每个商品录入到商品管理系统中,此时,商家可以对每个商品进行拍摄以得到商品对应的拍摄图像。本实施例中,针对某款商品来说,参考图像可以是商家对其中某个商品进行实际拍摄而得到的一幅拍摄角度良好、环境干扰很少的图像,也可以是商品生产方提供的这款商品的设计图。
本实施例提供的图像处理方案的详细执行过程可以参考前述其他实施例中的相关说明,在此不赘述。
以下将详细描述本发明的一个或多个实施例的图像处理装置。本领域技术人员可以理解,这些图像处理装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图13为本发明实施例提供的一种图像处理装置的结构示意图,如图13所示,该装置包括:获取模块11、确定模块12、矫正模块13。
获取模块11,用于获取与目标对象对应的拍摄图像,所述目标对象中包括由多个标识图形包围的目标区域,以及,获取所述目标区域在参考图像中对应的参考坐标以及所述多个标识图形在所述参考图像中各自对应的定位点参考坐标,所述目标区域在所述参考图像中呈现所述设定形态。
确定模块12,用于确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标。
矫正模块13,用于根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及所述目标区域对应的参考坐标,生成与所述拍摄图像对应的矫正图像,在所述矫正图像中所述目标区域呈现所述设定形态。
可选地,所述参考图像包括:与所述目标对象对应的设计图。
可选地,所述装置还包括:信息提取模块,用于对所述矫正图像进行信息提取处理,以获取所述目标区域中包含的数据信息。
可选地,所述多个标识图形中包括第一类别的标识图形和第二类别的标识图形。
可选地,矫正模块13具体可以用于:根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,确定变换矩阵;根据所述变换矩阵、所述目标区域对应的参考坐标以及所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,生成与所述拍摄图像对应的矫正图像。
可选地,确定模块12具体可以用于:将所述拍摄图像输入到预设模型中,以通过所述预设模型输出所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标和类别。从而,矫正模块13具体可以用于:根据所述多个标识图形在所述参考图像中各自对应的定位点参考坐标和类别,以及所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标和类别,确定所述变换矩阵。
可选地,矫正模块13具体可以用于:根据所述多个标识图形在所述参考图像中各自对应的定位点参考坐标和类别,以及所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标和类别,确定所述多个标识图形各自对应的坐标对,其中,任一标识图形对应的坐标对中包括所述任一标识图形对应的定位点参考坐标和定位点预测坐标;根据所述多个标识图形各自对应的坐标对,确定所述变换矩阵。
可选地,所述预设模型包括第一模型和第二模型,基于此,确定模块12具体可以用于:将所述拍摄图像输入到所述第一模型中,以通过所述第一模型输出所述多个标识图形在所述拍摄图像中各自对应的定位框坐标和类别;根据所述多个标识图形各自对应的定位框坐标,从所述拍摄图像中截取出所述多个标识图形各自对应的子图;将所述多个标识图形各自对应的子图输入到所述第二模型中,以通过所述第二模型输出所述多个标识图形在各自对应的子图中对应的定位点预测坐标;根据所述多个标识图形在各自对应的子图中对应的定位点预测坐标和所述多个标识图形各自对应的定位框坐标,确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标。
可选地,矫正模块13具体可以用于:根据所述多个标识图形各自对应的定位点参考坐标,生成空白的矫正图像,所述矫正图像的尺寸由所述多个标识图形各自对应的定位点参考坐标确定;根据所述变换矩阵对所述拍摄图像中待矫正区域内的第一像素位置进行位置映射,以在所述空白的矫正图像中确定对应的第二像素位置,其中,所述第一像素位置是所述待矫正区域内包含的任一像素位置,所述待矫正区域由所述多个标识图形各自对应的定位点预测坐标确定;将所述第一像素位置对应的像素值赋值给所述第二像素位置,以生成与所述拍摄图像对应的矫正图像。
图13所示装置可以执行前述图1至图10所示实施例中提供的图像处理方法,详细的执行过程和技术效果参见前述实施例中的描述,在此不再赘述。
在一个可能的设计中,上述图13所示图像处理装置的结构可实现为一电子设备,如图14所示,该电子设备可以包括:处理器21、存储器22。其中,存储器22上存储有可执行代码,当所述可执行代码被处理器21执行时,使处理器21至少可以实现如前述图1至图10所示实施例中提供的图像处理方法。
可选地,该电子设备中还可以包括通信接口23,用于与其他设备进行通信。
另外,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如前述图1至图10所示实施例中提供的图像处理方法。
图15为本发明实施例提供的一种图像处理装置的结构示意图,如图15所示,该装置包括:获取模块31、确定模块32、矫正模块33、提取模块34。
获取模块31,用于获取与商品对应的拍摄图像,所述商品中包括由多个标识图形包围的商品标识区域,以及,获取所述商品标识区域在参考图像中对应的参考坐标以及所述多个标识图形在所述参考图像中各自对应的定位点参考坐标,所述商品标识区域在所述参考图像中呈现所述设定形态。
确定模块32,用于确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标。
矫正模块33,用于根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及所述商品标识区域对应的参考坐标,生成与所述拍摄图像对应的矫正图像,在所述矫正图像中所述商品标识区域呈现所述设定形态。
提取模块34,用于在所述矫正图像中提取所述商品标识区域内包含的商品标识信息
图15所示装置可以执行前述图12所示实施例中提供的图像处理方法,详细的执行过程和技术效果参见前述实施例中的描述,在此不再赘述。
在一个可能的设计中,上述图15所示图像处理装置的结构可实现为一电子设备,如图16所示,该电子设备可以包括:处理器41、存储器42。其中,存储器42上存储有可执行代码,当所述可执行代码被处理器41执行时,使处理器41至少可以实现如前述图12所示实施例中提供的图像处理方法。
可选地,该电子设备中还可以包括通信接口43,用于与其他设备进行通信。
另外,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如前述图12所示实施例中提供的图像处理方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例提供的图像处理方法可以由某种程序/软件来执行,该程序/软件可以由网络侧提供,前述实施例中提及的电子设备可以将该程序/软件下载到本地的非易失性存储介质中,并在其需要执行前述图像处理方法时,通过CPU将该程序/软件读取到内存中,进而由CPU执行该程序/软件以实现前述实施例中所提供的图像处理方法,执行过程可以参见前述图1至图10中的示意。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (17)

1.一种图像处理方法,其特征在于,包括:
获取与目标对象对应的拍摄图像,所述目标对象中包括由多个标识图形包围的目标区域;
获取所述目标区域在参考图像中对应的参考坐标以及所述多个标识图形在所述参考图像中各自对应的定位点参考坐标,所述目标区域在所述参考图像中呈现设定形态;
确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标;
根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及所述目标区域对应的参考坐标,生成与所述拍摄图像对应的矫正图像,在所述矫正图像中所述目标区域呈现所述设定形态。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述矫正图像进行信息提取处理,以获取所述目标区域中包含的数据信息。
3.根据权利要求1所述的方法,其特征在于,每个标识图形具有至少一个定位点。
4.根据权利要求1所述的方法,其特征在于,所述多个标识图形中包括第一类别的标识图形和第二类别的标识图形。
5.根据权利要求1所述的方法,其特征在于,所述根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及所述目标区域对应的参考坐标,生成与所述拍摄图像对应的矫正图像,包括:
根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,确定变换矩阵;
根据所述变换矩阵、所述目标区域对应的参考坐标以及所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,生成与所述拍摄图像对应的矫正图像。
6.根据权利要求5所述的方法,其特征在于,所述确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标,包括:
将所述拍摄图像输入到预设模型中,以通过所述预设模型输出所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标和类别;
所述根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,确定变换矩阵,包括:
根据所述多个标识图形在所述参考图像中各自对应的定位点参考坐标和类别,以及所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标和类别,确定所述变换矩阵。
7.根据权利要求6所述的方法,其特征在于,所述根据所述多个标识图形在所述参考图像中各自对应的定位点参考坐标和类别,以及所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标和类别,确定所述变换矩阵,包括:
根据所述多个标识图形在所述参考图像中各自对应的定位点参考坐标和类别,以及所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标和类别,确定所述多个标识图形各自对应的坐标对,其中,任一标识图形对应的坐标对中包括所述任一标识图形对应的定位点参考坐标和定位点预测坐标;
根据所述多个标识图形各自对应的坐标对,确定所述变换矩阵。
8.根据权利要求6所述的方法,其特征在于,所述预设模型包括第一模型和第二模型;
所述将所述拍摄图像输入到预设模型中,以通过所述预设模型输出所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标和类别,包括:
将所述拍摄图像输入到所述第一模型中,以通过所述第一模型输出所述多个标识图形在所述拍摄图像中各自对应的定位框坐标和类别;
根据所述多个标识图形各自对应的定位框坐标,从所述拍摄图像中截取出所述多个标识图形各自对应的子图;
将所述多个标识图形各自对应的子图输入到所述第二模型中,以通过所述第二模型输出所述多个标识图形在各自对应的子图中对应的定位点预测坐标;
根据所述多个标识图形在各自对应的子图中对应的定位点预测坐标和所述多个标识图形各自对应的定位框坐标,确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标。
9.根据权利要求5所述的方法,其特征在于,所述根据所述变换矩阵、所述目标区域对应的参考坐标以及所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,生成与所述拍摄图像对应的矫正图像,包括:
根据所述多个标识图形各自对应的定位点参考坐标,生成空白的矫正图像,所述矫正图像的尺寸由所述多个标识图形各自对应的定位点参考坐标确定;
根据所述变换矩阵对所述拍摄图像中待矫正区域内的第一像素位置进行位置映射,以在所述空白的矫正图像中确定对应的第二像素位置,其中,所述第一像素位置是所述待矫正区域内包含的任一像素位置,所述待矫正区域由所述多个标识图形各自对应的定位点预测坐标确定;
将所述第一像素位置对应的像素值赋值给所述第二像素位置,以生成与所述拍摄图像对应的矫正图像。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述参考图像包括:与所述目标对象对应的设计图。
11.一种图像处理装置,其特征在于,包括:
获取模块,用于获取与目标对象对应的拍摄图像,所述目标对象中包括由多个标识图形包围的目标区域,以及,获取所述目标区域在参考图像中对应的参考坐标以及所述多个标识图形在所述参考图像中各自对应的定位点参考坐标,所述目标区域在所述参考图像中呈现设定形态;
确定模块,用于确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标;
矫正模块,用于根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及所述目标区域对应的参考坐标,生成与所述拍摄图像对应的矫正图像,在所述矫正图像中所述目标区域呈现所述设定形态。
12.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至10中任一项所述的图像处理方法。
13.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至10中任一项所述的图像处理方法。
14.一种图像处理方法,其特征在于,包括:
响应于调用图像处理服务的请求,确定所述图像处理服务对应的处理资源;
利用所述图像处理服务对应的处理资源执行如下步骤:
获取与目标对象对应的拍摄图像,所述目标对象中包括由多个标识图形包围的目标区域;
获取所述目标区域在参考图像中对应的参考坐标以及所述多个标识图形在所述参考图像中各自对应的定位点参考坐标,所述目标区域在所述参考图像中呈现设定形态;
确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标;
根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及,所述目标区域对应的参考坐标,生成与所述拍摄图像对应的矫正图像,在所述矫正图像中所述目标区域呈现所述设定形态。
15.一种图像处理方法,其特征在于,包括:
获取与商品对应的拍摄图像,所述商品中包括由多个标识图形包围的商品标识区域;
获取所述商品标识区域在参考图像中对应的参考坐标以及所述多个标识图形在所述参考图像中各自对应的定位点参考坐标,所述商品标识区域在所述参考图像中呈现设定形态;
确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标;
根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及所述商品标识区域对应的参考坐标,生成与所述拍摄图像对应的矫正图像,在所述矫正图像中所述商品标识区域呈现所述设定形态;
在所述矫正图像中提取所述商品标识区域内包含的商品标识信息。
16.一种图像处理装置,其特征在于,包括:
获取模块,用于获取与商品对应的拍摄图像,所述商品中包括由多个标识图形包围的商品标识区域,以及,获取所述商品标识区域在参考图像中对应的参考坐标以及所述多个标识图形在所述参考图像中各自对应的定位点参考坐标,所述商品标识区域在所述参考图像中呈现设定形态;
确定模块,用于确定所述多个标识图形在所述拍摄图像中各自对应的定位点预测坐标;
矫正模块,用于根据所述多个标识图形各自对应的定位点参考坐标和定位点预测坐标,以及所述商品标识区域对应的参考坐标,生成与所述拍摄图像对应的矫正图像,在所述矫正图像中所述商品标识区域呈现所述设定形态;
提取模块,用于在所述矫正图像中提取所述商品标识区域内包含的商品标识信息。
17.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求15所述的图像处理方法。
CN202011553210.5A 2020-12-24 2020-12-24 图像处理方法、装置、设备和存储介质 Pending CN113516131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011553210.5A CN113516131A (zh) 2020-12-24 2020-12-24 图像处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011553210.5A CN113516131A (zh) 2020-12-24 2020-12-24 图像处理方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN113516131A true CN113516131A (zh) 2021-10-19

Family

ID=78060918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011553210.5A Pending CN113516131A (zh) 2020-12-24 2020-12-24 图像处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113516131A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113678163A (zh) * 2021-06-25 2021-11-19 闻泰科技(深圳)有限公司 图像矫正方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113678163A (zh) * 2021-06-25 2021-11-19 闻泰科技(深圳)有限公司 图像矫正方法、装置、电子设备和存储介质
WO2022267027A1 (zh) * 2021-06-25 2022-12-29 闻泰科技(深圳)有限公司 图像矫正方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110232369B (zh) 一种人脸识别方法和电子设备
CN110689037A (zh) 用于使用深度网络的自动对象注释的方法和系统
CN110766033B (zh) 图像处理方法、装置、电子设备及存储介质
CN108399405A (zh) 营业执照识别方法和装置
CN109214385A (zh) 数据采集方法、数据采集装置及存储介质
CN109285181B (zh) 用于识别图像的方法和装置
CN109948521A (zh) 图像纠偏方法和装置、设备及存储介质
CN112001200A (zh) 识别码识别方法、装置、设备、存储介质和系统
CN112132812A (zh) 证件校验方法、装置、电子设备及介质
CN110991357A (zh) 一种答案匹配方法、装置和电子设备
CN110414522A (zh) 一种字符识别方法及装置
CN113516131A (zh) 图像处理方法、装置、设备和存储介质
CN112597940A (zh) 证件图像识别方法、装置及存储介质
CN105913024B (zh) 基于lap算子的抵抗重放攻击的安卓手机终端检测方法
CN110135218A (zh) 用于识别图像的方法、装置、设备和计算机存储介质
CN117115823A (zh) 一种篡改识别方法、装置、计算机设备和存储介质
CN112087661A (zh) 视频集锦生成方法、装置、设备及存储介质
CN111638792A (zh) Ar效果的呈现方法、装置、计算机设备及存储介质
CN110428264A (zh) 基于点阵屏防伪标签的识别验伪方法、装置、设备及介质
CN109087439A (zh) 票据校验方法、终端设备、存储介质及电子设备
CN115374517A (zh) 布线软件的测试方法、装置、电子设备及存储介质
CN115761389A (zh) 图像样本的增广方法、装置、电子设备及存储介质
CN113516673B (zh) 图像检测方法、装置、设备和存储介质
JP7223198B1 (ja) メータ読取装置、メータ読取方法、及びメータ読取プログラム
JP2014232373A (ja) 照合対象抽出システム、照合対象抽出方法、照合対象抽出プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination