CN114972006A - 图像生成方法、装置、设备和存储介质 - Google Patents
图像生成方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN114972006A CN114972006A CN202110215065.8A CN202110215065A CN114972006A CN 114972006 A CN114972006 A CN 114972006A CN 202110215065 A CN202110215065 A CN 202110215065A CN 114972006 A CN114972006 A CN 114972006A
- Authority
- CN
- China
- Prior art keywords
- image
- target object
- area
- image area
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 106
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 230000000007 visual effect Effects 0.000 claims abstract description 36
- 230000001131 transforming effect Effects 0.000 claims abstract description 19
- 238000005286 illumination Methods 0.000 claims description 102
- 238000012549 training Methods 0.000 claims description 62
- 230000009466 transformation Effects 0.000 claims description 45
- 238000001514 detection method Methods 0.000 claims description 42
- 238000013508 migration Methods 0.000 claims description 27
- 230000005012 migration Effects 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 22
- 238000002372 labelling Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 38
- 230000006870 function Effects 0.000 description 25
- 238000012360 testing method Methods 0.000 description 22
- 238000003745 diagnosis Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 10
- 230000000877 morphologic effect Effects 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明实施例提供一种图像生成方法、装置、设备和存储介质,该方法包括:获取第一图像和第二图像,第一图像中包括第一目标对象对应的第一图像区域,第二图像中包括至少一个对象各自对应的图像区域。在第二图像中确定与第一图像区域尺寸匹配的第二图像区域,根据第二图像区域对应的视觉特征将第一图像区域变换至第二图像区域,以生成第三图像。在缺少第一目标对象对应的图像的情况下,可以借助已有的未包含第一目标对象的第二图像,自动生成包含第一目标对象的第三图像,且第三图像在外观视觉上与第二图像比较接近,生成的图像质量较高。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像生成方法、装置、设备和存储介质。
背景技术
随着办公自动化和光学字符识别(Optical Character Recognition,简称OCR)技术的发展,在线财务报销成为一种发展趋势。
用户可以将报销需要用到的票据、卡证拍摄为一张图像提交给财务人员,财务人员将这张图像输入到一个检测模型中,以通过该检测模型自动检测出其中包括的各种卡证、票据,以及每种卡证、票据中包括的关键信息,以实现信息录入。之后,财务人员就可以基于录入的信息完成报销处理。
为了训练出性能良好的上述检测模型,需要使用大量的、高质量的训练样本,并对训练样本进行标注。但是,对于一种新的卡证、票据,人工收集真实存在的大量训练样本的过程难度较大,效率较低,甚至可能无法收集到满足模型训练需求的大量训练样本。
发明内容
本发明实施例提供一种图像生成方法、装置、设备和存储介质,能够快速生成符合要求的图像。
第一方面,本发明实施例提供一种图像生成方法,该方法包括:
获取第一图像和第二图像,所述第一图像中包括第一目标对象对应的第一图像区域,所述第二图像中包括至少一个对象各自对应的图像区域;
在所述第二图像中确定与所述第一图像区域尺寸匹配的第二图像区域;
根据所述第二图像区域对应的视觉特征,将所述第一图像区域变换至所述第二图像区域,以生成第三图像。
第二方面,本发明实施例提供一种图像生成装置,该装置包括:
获取模块,用于获取第一图像和第二图像,所述第一图像中包括第一目标对象对应的第一图像区域,所述第二图像中包括至少一个对象各自对应的图像区域;
确定模块,用于在所述第二图像中确定与所述第一图像区域尺寸匹配的第二图像区域;
变换模块,用于根据所述第二图像区域对应的视觉特征,将所述第一图像区域变换至所述第二图像区域,以生成第三图像。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,存储器上存储有可执行代码,当所述可执行代码被处理器执行时,使处理器至少可以实现如第一方面所述的图像生成方法。
第四方面,本发明实施例提供了一种非暂时性机器可读存储介质,非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使处理器至少可以实现如第一方面所述的图像生成方法。
第五方面,本发明实施例提供了一种图像生成方法,该方法包括:
响应于用户设备调用图像生成服务接口的请求,利用所述图像生成服务接口对应的处理资源执行如下步骤:
获取第一图像和第二图像,所述第一图像中包括第一目标对象对应的第一图像区域,所述第二图像中包括至少一个对象各自对应的图像区域;
在所述第二图像中确定与所述第一图像区域尺寸匹配的第二图像区域;
根据所述第二图像区域对应的视觉特征,将所述第一图像区域变换至所述第二图像区域,以生成第三图像。
第六方面,本发明实施例提供了一种图像生成方法,该方法包括:
获取第一图像和第二图像,所述第一图像中包括目标卡证或目标票据对应的第一图像区域,所述第二图像中包括至少一个报销对象各自对应的图像区域;
在所述第二图像中确定与所述第一图像区域尺寸匹配的第二图像区域;
根据所述第二图像区域对应的视觉特征,将所述第一图像区域变换至所述第二图像区域,以生成第三图像;
以第三图像作为训练样本,训练应用于报销场景的检测模型。
在本发明实施例提供的图像生成方案中,当想要生成包括第一目标对象的多个图像时,首先,获取作为参考的第一图像,第一图像中包括第一目标对象对应的第一图像区域。其次,获取包括至少一个对象各自对应的图像区域的第二图像。之后,从第二图像包含的至少一个图像区域中确定与所述第一图像区域尺寸匹配的第二图像区域,以将第一图像区域变换到该第二图像区域内,替换掉原本的第二图像区域。其中,为了保留原本的第二图像的视觉特征,需要结合原本的第二图像区域的视觉特征来对第一图像区域进行变换,这样使得替换了原第二图像区域的第一图像区域具有与原第二图像区域相匹配的视觉特征,不会与第二图像中的其他图像区域产生很大的视觉偏差。从而,最终在第二图像的基础上,得到了包含第一目标对象的第三图像。
基于上述过程,选择多个第二图像,针对每个第二图像进行上述处理,最终便可以得到包含第一目标对象的多个图像,且这多个图像继承了第二图像的真实的视觉特征。通过这种图像生成方法,在缺少第一目标对象对应的图像的情况下,可以借助已有的未包含第一目标对象的大量图像,自动生成包含第一目标对象的大量图像,且生成的这大量图像在外观视觉上,与已有的大量图像比较接近,使得生成的图像质量较高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图像生成方法的流程图;
图2为本发明实施例提供的一种第一图像的示意图;
图3为本发明实施例提供的一种第二图像的示意图;
图4为本发明实施例提供的一种图像生成结果的示意图;
图5为本发明实施例提供的另一种图像生成结果的示意图;
图6为本发明实施例提供的一种光照特征提取模型的训练过程示意图;
图7为本发明实施例提供的一种光照特征迁移模型的训练过程示意图;
图8为本发明实施例提供的一种第一图像的获取方法的流程图;
图9为本发明实施例提供的一种第一图像生成过程的示意图;
图10为本发明实施例提供的一种图像修复结果的示意图;
图11为本发明实施例提供的一种图像擦除过程的示意图;
图12为本发明实施例提供的一种图像生成方法的应用示意图;
图13为本发明实施例提供的另一种图像生成方法的流程图;
图14为本发明实施例提供的另一种图像生成方法的流程图;
图15为本发明实施例提供的另一种图像生成方法的流程图;
图16为本发明实施例提供的一种图像生成装置的结构示意图;
图17为与图16所示实施例提供的图像生成装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
本发明实施例提供的图像生成方法可以由一电子设备来执行,该电子设备可以是诸如PC机、笔记本电脑、智能手机等终端设备,也可以是服务器。该服务器可以是包含一独立主机的物理服务器,或者也可以为虚拟服务器,或者也可以为云端服务器或服务器集群。
本发明实施例提供的图像生成方法可以适用于如下情形:如财务报销场景中,用户报销时会涉及多种卡证、票据,当某用户提交的报销图像(拍摄报销需要用的各种卡证、票据得到的图像)中存在一种新的票据时,原本用于对报销图像进行信息检测的检测模型将无法识别这种新的票据,此时,需用优化该检测模型,使其具有识别这种新的票据的能力。而优化训练该检测模型,需要使用大量的与该新票据对应的训练样本图像,而实际上,可能仅能收集到很少量的该新票据的图像,仅依赖这少量的新票据图像无法实现检测模型的优化。面对该需求,可以使用本发明实施例提供的方法,基于少量的新票据图像,合成大量的与新票据对应的训练样本图像,最终使用合成的大量训练样本图像来优化训练检测模型。
本发明实施例提供的图像生成方法不仅可以适用于上述举例的场景,还可以适用于其他场景,下文中会举例说明。
下面结合以下实施例对本文提供的图像生成方法的执行过程进行示例性说明。
图1为本发明实施例提供的一种图像生成方法的流程图,如图1所示,该方法包括如下步骤:
101、获取第一图像和第二图像,第一图像中包括第一目标对象对应的第一图像区域,第二图像中包括至少一个对象各自对应的图像区域。
102、在第二图像中确定与第一图像区域尺寸匹配的第二图像区域。
103、根据第二图像区域对应的视觉特征,将第一图像区域变换至第二图像区域,以生成第三图像。
本发明实施例中,第一图像是第一目标对象的图像,不同领域或不同应用场景中,第一目标对象有所不同。另外,第一目标对象尤其可以是在某种应用场景下新出现的需要识别的某种类型的对象,即在该应用场景中以往并未涉及到第一目标对象。
本实施例中,以财务报销场景为例,在该场景中,第一目标对象可以是某种卡证或票据。如前文所述,假设此前已经训练得到一个检测模型M1,检测模型M1具有N种卡证和票据的识别能力,此时,第一目标对象可以是不同于这N种卡证和票据的一种卡证或票据,N大于或等于1。
举例来说,比如在财务报销场景中,以往报销时会涉及到的一些卡证、票据可以包括:火车票、飞机票、出租车票、用户证件、发票,等等。而随着出行方式的改变,比如后来人们可以乘坐地铁出行,此时,报销场景中会面临新出现的地铁票的识别需求。此时,第一目标对象可以是地铁票。
对第一目标对象进行拍摄可以得到上述第一图像,在第一图像中,由包围第一目标对象的边界所界定的图像区域称为第一图像区域。
如图2中所示,假设第一目标对象为图2中示意的一张火车票,对该火车票进行拍摄得到第一图像,第一目标对象对应的第一图像区域为图中示意的加粗矩形区域,即火车票的外接矩形框。
类似地,第二图像可以是将至少一个对象摆放在一起进行拍摄得到的图像,第二图像中会包含每个对象对应的图像区域。如图3中所示,假设该至少一个对象为图3中示意的一张出租车票和一张银行卡,这两个对象各自对应的图像区域为图3中示意的两个加粗矩形区域。
为训练出能够在图像中检测出第一目标对象的检测模型,需要生成若干包含第一目标对象的图像作为训练样本,尤其在包含第一目标对象的图像不以收集的情形下,该生成需求更为迫切。而本发明实施例中,第二图像的作用是:结合第二图像,生成包含第一图像中的第一目标对象的图像,称为第三图像。
第二图像中包含的至少一个对象的类别与第一目标对象的类别可以是不同的。以财务报销场景为例,假设第一目标对象是地铁票,那么第二图像中包含的至少一个对象可以包括火车票、飞机票、出租车票、用户证件、发票等与第一目标对象不同类别的对象。简单来说,第二图像可以是历史报销记录中存储下来的报销图像。
结合生成第三图像的目的的不同,第二图像的选择依据也会有所不同。
具体来说,如果仅是单纯地为了生成更多包含第一目标对象的图像,那么第二图像的选择依据并无很多限制。比如,只要包含与第一目标对象在外形上相似的对象的图像都可以。举例来说,假设第一目标对象是一张火车票,生成第三图像的目的就是为了能够得到更多的包含火车票的图像,那么只要包含于火车票外形、尺寸上相似的对象的图像都可以作为第二图像。
而如果生成第三图像的目的是为了优化训练上述检测模型M1,使其在具有识别上述N种卡证和票据的能力的基础上,还具有识别新的卡证或票据(新的卡证或票据即为第一目标对象)的能力,那么第二图像的选择过程可以是这样的:
根据第一目标对象对应的第一类别,确定与第一类别搭配出现的第二类别,之后,获取包含第二类别的对象的第二图像。此时,上文中所述的第二图像中包含的至少一个对象中包括该第二类别的对象。
举例来说,假设第一目标对象对应的第一类别为火车票,在财务报销场景中,与火车票搭配出现一同报销的卡证、票据的第二类别可能包括:身份证、银行卡、出租车票、飞机票、发票。而在训练和使用检测模型M1的过程中,会存在大量地包括这些第二类别的对象的图像,可以选定这些图像作为各个第二图像。实际应用中,不同类别的搭配出现关系可以预先人工配置,基于该配置结果在图像库中查找第二图像。在图3中示意的便是第一目标对象的第一类别为火车票,第二图像中包括与第一类别搭配出现的出租车票、银行卡这两种第二类别的对象的情形。
在得到一张第二图像后,首先,在第二图像中确定与第一图像中的第一图像区域尺寸匹配的第二图像区域,以便将第一图像区域变换到该第二图像区域,即替代第二图像区域;其次,由于第一图像中的第一图像区域在视觉特征上与第二图像可能会有明显的差异,为了使得第一图像区域转移到第二图像中后与第二图像在视觉特征上相融合,在将第一图像区域变换到第二图像区域的过程中,需要结合第二图像区域的视觉特征,换言之,需要结合第二图像的整体的视觉特征。
其中,第一图像区域与第二图像区域尺寸匹配,可以是第一图像区域与第二图像区域的长宽比相同或差值在预设范围内。在图3中,与第一图像中的火车票区域尺寸匹配的第二图像区域为图中示意的银行卡区域。
在本发明实施例中,上述视觉特征可以包括:光照特征和/或形态特征,简单来说,光照特征反映的是图像的亮度,形态特征反映的是图像区域的形状、大小。
当仅考虑形态特征时,根据第二图像区域对应的视觉特征,将第一图像区域变换至第二图像区域以生成第三图像,可以实现为:
对第一图像区域进行透视变换,以将第一图像区域投影到第二图像区域,以得到第三图像。
当考虑形态特征和光照特征时,根据第二图像区域对应的视觉特征,将第一图像区域变换至第二图像区域以生成第三图像,可以实现为:
对第一图像区域进行透视变换,以将第一图像区域投影到第二图像区域,得到第四图像,之后,将第二图像的光照特征迁移到第四图像以得到第三图像。
其中,对第一图像区域进行透视变换,以将第一图像区域投影到第二图像区域,具体可以实现为:
根据第一图像区域的顶点坐标和第二图像区域的顶点坐标,确定透视变换矩阵,根据透视变换矩阵对第一图像区域进行透视变换。
为便于理解,结合图2至图4来示例性说明。如图2中所示,第一图像区域的顶点坐标以图2中示意的四个圆点来表示。在图3中,第二图像区域的顶点坐标以图3中示意的四个圆点来表示。基于这四对顶点坐标,可以确定出透视变换矩阵,之后,基于该透视变换矩阵便可以将第一图像区域投影到第二图像区域,投影结果即为第一图像区域中的各个像素被映射到第二图像区域中的对应位置处,以替代原来第二图像区域中的像素。可以认为通过透视变换,使得原来的第一图像区域进行了形变,以与第二图像区域的形态相匹配。比如,参考图4中的第四图像,相当于是对第一图像区域进行了放大,以与第二图像区域尺寸相匹配,放大后的第一图像区域填充在了第二图像区域内,代替了原本的第二图像区域。进而,将原本的第二图像的光照特征迁移到第四图像,便可以得到图4中示意的第三图像。在图4中,光照特征以图中的背景图案来表示。
在图4中,仅示意了尺寸大小这一种形态特征,实际上,第二图像中第二图像区域的形态特征还可以包括形状、旋转等。为便于理解,结合图5来示例性说明。如图5中所示,在第二图像中,第二图像区域可能呈现出图中示意的倾斜角度,此时,基于透视变换矩阵对图2中的第一图像区域进行透视变换的效果如图5中的第三图像所示。
在一可选实施例中,在得到第三图像后,还可以将第三图像反馈给用户,以在用户设备上显示该第三图像,以供用户查看合成效果,当合成效果较好时,触发确认操作,从而可以保存下来第三图像;当合成效果不好时,可以进行纠正操作。比如若合成的第三图像中第一目标对象的位置或合成的色彩与第二图像差别较大,则可以由用户进行移动或修改。
如上文所述,在综合考虑第二图像的光照特征和形态特征的情况下,首先,通过透视变换将第一图像区域投影到第二图像的第二图像区域内,以即使投影后的第一图像区域继承了第二图像区域的形态特征,此时得到的图像称为第四图像。也就是说,第四图像与原本的第二图像的区别在于:第四图像中包括了第二图像中除第二图像区域外的图像区域,另外,将第二图像中的第二图像区域替换为投影后的第一图像区域。可以结合图3和图4来理解该区别。
之后,将第二图像的光照特征迁移到第四图像以得到所述第三图像。现有相关技术中存在多种可以实现光照迁移的方案,可以采用任一种来实现该光照特征的迁移。
本发明实施例中,提供一种可选的实现光照特征迁移的方式:
将第二图像输入到光照特征提取模型中,以通过光照特征提取模型提取出第二图像的光照特征;
将第四图像和所述光照特征输入到光照特征迁移模型中,以通过光照特征迁移模型将该光照特征迁移到第四图像。
其中,光照特征提取模型和光照特征迁移模型均可以是神经网络模型,比如,可以是由编码器(encoder)和解码器(decoder)构成的神经网络模型。编码器、解码器,具体可以采用诸如卷积网络、残差网络、长短期记忆网络等网络结构。
下面结合图6和图7分别示例性说明上述光照特征提取模型和光照特征迁移模型的训练过程。
图6为本发明实施例提供的一种光照特征提取模型的训练过程示意图,如图6所示,该训练过程包括如下步骤:
601、获取第一样本图像以及第一样本图像对应的第一监督信息,第一监督信息包括第一样本图像对应的第一光照特征以及第一样本图像对应的第一监督图像,第一监督图像是去除第一样本图像中的光照特征后的图像。
602、根据第一样本图像和第一监督信息,训练光照特征提取模型,以使光照特征提取模型输出第一样本图像对应的第二光照特征和第一输出图像。
603、根据第一光照特征和第二光照特征确定第一损失函数值,根据第一监督图像和第一输出图像确定第二损失函数值。
604、根据第一损失函数值和第二损失函数值确定光照特征提取模型的参数。
本实施例中,可选地,第一样本图像和第一监督图像可以是对某对象的三维模型通过渲染引擎在不同光照条件下生成的。其中,第一监督图像可以是某种设定的参考光照条件下生成的,第一样本图像是在第一光照特征这种光照条件下生成的。可以认为上述参考光照条件是一种默认的光照条件,第一样本图像中若去除第一光照特征便会得到该默认光照条件下的第一监督图像。
之后,在第一光照特征和第一监督图像的监督下,将第一样本图像输入到光照特征提取模型以对光照特征提取模型进行训练,将光照特征提取模型提取出的光照特征称为第二光照特征,将其输出的图像称为第一输出图像。
之后,第二光照特征与第一光照特征进行对比,以确定两者的误差,即通过设定的损失函数来计算反映两者误差的损失函数值,称为第一损失函数值。同理,第一输出图像与第一监督图像进行对比,以确定两者的误差,即通过设定的损失函数来计算反映两者误差的损失函数值,称为第二损失函数值。光照特征提取模型的损失函数值由上述两种损失函数值加和得到,最终,基于光照特征提取模型的损失函数值来调整光照特征提取模型的参数。通过大量训练样本的训练,最终将光照特征提取模型训练至收敛。
图7为本发明实施例提供的一种光照特征迁移模型的训练过程示意图,如图7所示,该训练过程包括如下步骤:
701、获取第二样本图像、第三光照特征以及第二样本图像对应的第二监督信息,第二监督信息包括将第三光照特征迁移到第二样本图像后的第二监督图像。
702、根据第二样本图像、第三光照特征和第二监督信息,训练光照特征迁移模型,以使光照特征迁移模型输出第二样本图像对应的第二输出图像。
703、根据第二监督图像和第二输出图像确定第三损失函数值。
704、根据第三损失函数值确定光照特征迁移模型的参数。
本实施例中,可选地,第二样本图像和第二监督图像同样可以是对某对象的三维模型通过渲染引擎在不同光照条件下生成的。其中,第二样本图像可以是某种设定的参考光照条件下生成的,第二监督图像可以是在第三光照特征这种光照条件下生成的,也就相当于是将第三光照特征迁移到第二样本图像后得到的期望效果。
之后,在第二监督图像的监督下,将第二样本图像和第三光照特征输入到光照特征迁移模型以对光照特征迁移模型进行训练,将光照特征迁移模型输出的图像称为第二输出图像,该第二输出图像即为光照特征迁移模型将第三光照特征迁移到第二样本图像后得到的实际效果。
之后,第二输出图像与第二监督图像进行对比,以确定两者的误差,即通过设定的损失函数来计算反映两者误差的损失函数值,最终,基于光照特征迁移模型的该损失函数值来调整光照特征迁移模型的参数。通过大量训练样本的训练,最终将光照特征迁移模型训练至收敛。
以上介绍了对第一图像区域进行透视变换和光照迁移的过程。
基于以上实施例提供的方案,当想要生成包含第一目标对象的多个图像时,可以选择多个第二图像,针对每个第二图像进行上述处理,最终便可以得到包含第一目标对象的多个第三图像,且这多个第三图像继承了相应第二图像的真实的视觉特征。通过这种图像生成方法,在缺少第一目标对象对应的图像的情况下,可以借助已有的未包含第一目标对象的大量图像,自动生成包含第一目标对象的大量图像,且生成的这大量图像在外观视觉上,与已有的这大量图像比较接近,使得生成的图像质量较高。
如前文所述,生成第三图像的目的可以是为了优化检测模型M1,使其在具有识别其他多种对象类别的基础上,还能具有识别第一目标对象所对应的类别的能力。基于此,可选地,可以以第三图像作为训练样本,对检测模型M1继续训练。在一张包含第一目标对象的训练样本中,检测模型M1可以用于识别出该输入图像中各对象的类别和位置区域,当然,包括第一目标对象的类别及其在该输入图像中的位置区域,以及其他对象的类别及其在该输入图像中的位置区域。
以上实施例介绍的图像生成方案,不仅可以适用于上文中所述的财务报销场景中,还可以适用于比如照片制作等应用场景中。在照片制作应用场景中,比如已经存在用户X在某背景及某种光照条件下拍摄的照片1,用户Y想要制作一张自己在该背景及光照条件下的照片2,则用户Y可以提供一张自己的照片3,之后,以照片3作为上述实施例中的第一图像,以照片2作为上述实施例中的第二图像,基于上述实施例提供的图像生成方案,最终可以得到照片3。
另外,以财务报销场景为例,在卡证、票据的理解任务下,除了需要检测出一张输入图像中包含了哪些卡证、票据以及每个卡证、票据在图像中的位置区域外,还需要识别出每个卡证、票据中的文字信息。具体地,每个卡证、票据中会包含多个字段,需要在每个卡证、票据对应的图像区域内进一步识别出各字段位置区域及其对应的字段属性,从而知道什么属性的字段位于什么位置区域,进而在相应字段位置区域内进行文字识别,识别其中的字段内容,最终得到[字段属性:字段内容]这种信息结构体。
基于上述场景下的需求,针对新卡证、票据(作为第一目标对象)来说,生成包括该新卡证、票据的第三图像的目的还可以是:以第三图像作为训练样本训练检测模型,此时,该检测模型用于识别输入图像中各对象分别包含的字段位置区域和字段属性。值得说明的是,该检测模型同样可以具有识别输入图像中各对象的类别以及位置区域的能力。也就是说,在实际应用中,假设某输入图像中包括卡证1和票据1,该检测模型先检测出,卡证1和票据1各自对应的类别及其在输入图像中对应的位置区域,之后,在卡证1对应的位置区域中识别卡证1中各字段位置区域及其对应的字段属性,在票据1对应的位置区域中识别票据1中各字段位置区域及其对应的字段属性。
当第三图像被用于进行上述检测模型的训练时,需要进一步提高训练样本的多样性。卡证、票据的板式比较固定,训练样本的多样性既来自于卡证、票据本身所承载的内容不同而导致的外观差异,也来自于卡证、票据持有者在图像采集过程中引入的几何形态畸变和光照干扰等环境因素。
因此,在不易收集到大量的某种类别的新卡证、票据(即第一目标对象)的图像的情况下,在合成包含这类新卡证、票据的图像的过程中,为了生成更加符合真实性的合成图像,可以考虑上述两种多样性的影响。而前述实施例中介绍的方案即为考虑了形态特征、光照特征这种环境因素的图像生成方案。下面提供一种再考虑内容多样性的图像生成方案。
该考虑内容多样性的图像生成方案主要是从上文中的第一图像的获取过程的角度来说明的。如前文所述,可选地,第一图像可以是对某个第一目标对象进行拍摄得到的图像。但是,假设第一目标对象对应的类别称为第一类别,第一目标对象仅为第一类别的一个实例,在不易收集第一类别的更多实例的情况下,可以基于已经得到的对象实例来合成更多的对象实例,即不同对象实例的一种主要区别在于内容多样性。因此,假设目前能够得到的对象实例为第二目标对象,基于包含第二目标对象的图像来合成包含第一目标对象的第一图像,是第一图像的另一种获取方式。
综上,第一图像的获取方式可以有两种,一种是对第一目标对象直接进行拍摄得到,另一种是由包括第二目标对象的图像合成得到,第一目标对象与第二目标对象属于同类对象,比如都是火车票,此时,第一目标对象与第二目标对象的差异主要体现为两者包含的信息内容不同。举例来说,假设目前仅收集到一张火车票a的图像,可以基于火车票a的图像合成火车票b的图像,比如,将火车票a中的始发站、终点站、票价、车次等信息内容进行替换,便可以得到火车票b的图像。可以理解的是,火车票b并不一定是真实的火车票。
概括来说,以图像合成的方式获取第一图像的过程,可以包括如下步骤:
获取第五图像,第五图像中包括第二目标对象对应的第三图像区域,第三图像区域内包括与第二目标对象中的多个字段对应的多个字段位置区域;
从预设的语料库中获取与所述多个字段位置区域对应的多个语料;
将所述多个语料对应地替换到所述多个字段位置区域内,以生成第一图像,第一目标对象与第二目标对象的字段内容不同。
这里假设第五图像即为已经得到的第二目标对象的图像,基于第五图像来合成包含第一目标对象的第一图像。第二目标对象中包含多个字段,合成的过程中,从预设语料库中获取每个字段对应的可选的语料,替换掉第二目标对象中相应的原字段内容即可得到包含新的语料的第一目标对象的第一图像。
下面结合以下实施例具体说明第一图像的详细合成过程。
图8为本发明实施例提供的一种第一图像的获取方法的流程图,如图8所示,该方法可以包括如下步骤:
801、获取第五图像,第五图像中包括第二目标对象对应的第三图像区域,第三图像区域内包括与第二目标对象中的多个字段对应的多个字段位置区域。
802、擦除多个字段位置区域内的字段内容。
803、根据多个字段位置区域各自对应的字段属性,从预设的语料库中获取与多个字段位置区域对应的多个语料,语料库中存储有不同字段属性对应的语料。
804、将多个语料对应地填充到多个字段位置区域内,以生成包含第一目标对象的第一图像,第一目标对象与第二目标对象的字段内容不同。
为便于理解,结合图9来示例性说明上述步骤的执行过程和执行结果。
如图9中所示,假设第二目标对象为图9中示意的一张火车票,将火车票在第五图像中所占据的区域称为第三图像区域。火车票中包括很多字段,每个字段可以通过如下结构体来表示:[字段属性、字段位置区域、字段内容]。在用户得到第五图像后,可以对多个字段进行标记,如用图9中的多个矩形框框定多个字段位置区域,并设置这些字段位置区域对应的字段属性,包括:起始站、终点站、车次、发车日期、座位号、票价、身份证号。每个字段对应的字段内容如图9中所示。其中,基于用户对各字段位置区域的标记,可以得到每个字段位置区域的坐标,该坐标可以以每个矩形框的四个顶点的坐标来表示。
之后,如图9中所示,可以擦除上述多个字段位置区域内的字段内容,擦除结果如图9中所示。实际应用中,可以根据已经得知的各个字段位置区域的坐标,将这多个字段位置区域的像素值设置为第一预设值,以实现擦除字段内容的处理。其中,第一预设值比如为0,即将各字段位置区域的像素都渲染成黑色。
本实施例中,会预先建立一个语料库,该语料库中存储有第二目标对象中不同字段属性对应的语料。其中,每个字段属性可以对应有多个语料,这多个语料的文字长度是不完全一致的,比如图9中示意的多个起始站的字数是不一致的。文字长度的不一致性,主要是为了字段位置区域的波动性,即字段位置区域的长度受语料长度而变化,以更接近真实情形,符合实际应用中火车票这类对象的真实数据分布特征。
基于上述语料库,可以根据已经得知的各个字段位置区域所对应的字段属性,从语料库中获取对应的一个语料,以得到多个字段位置区域各自对应的语料,将获得的语料对应地填充在相应的字段位置区域内,这样就得到了包含第一目标对象的第一图像,如图9中所示。
通过图9可知,第一目标对象与第二目标对象的区别主要在于字段内容的差异,也就是说,以从语料库中获得的多个语料来替代第二目标对象中原本具有的多个字段内容,就可以得到第一目标对象。
另外,如图9中所示,在擦除字段内容时将字段位置区域的像素都渲染成黑色的情况下,最终输出的第一图像中,这些字段位置区域的像素又被渲染与原来的像素值相同或相似的像素值。具体地,在擦除字段内容后,可以通过如下的图像修复手段来实现字段位置区域的修复:
根据多个字段位置区域各自对应的相邻像素的像素值,修复多个字段位置区域的像素值,以使多个字段位置区域的像素值与各自相邻像素的像素值匹配。
举例来说,以图10中示意的车次所对应的字段位置区域为例,可以选定该字段位置区域周围相邻的一些像素,可以以选定的这些像素的像素值均值来填充该字段位置区域。其中,相邻像素可以是字段位置区域上、下、左、右边界相邻的预设距离范围内的像素。上述修复过程仅为举例,实际上,其他根据相邻像素值进行扩张以达到弥补字段位置区域内像素值的效果的图像修复方式均可以。
在图9所示的字段内容擦除方式下,是需要根据已知的每个字段位置区域的坐标,逐个地去擦除对应的各个字段内容。本发明实施例中还提供另一种实现字段内容擦除的方式,可以一次性擦除全部字段内容,擦除方法如下:
根据多个字段位置区域的坐标,生成与第三图像区域对应的掩膜图像,多个字段位置区域在掩膜图像中对应的像素值为第一预设值,其他位置区域在所述掩膜图像中对应的像素值为第二预设值;
将掩膜图像中取值为第一预设值的像素值更新为第二预设值,将掩膜图像中取值为第二预设值的像素值更新为第一预设值;
以像素值更新后的掩膜图像与第三图像区域相乘,以擦除多个字段位置区域内的字段内容。
为便于理解,结合图11来示例性说明上述擦除方案的执行过程和执行结果。
假设第五图像中包含第二目标对象的第三图像区域如图11中所示,其中多个矩形框表示多个字段位置区域。与该第三图像区域对应的掩膜图像如图11中所示,其中,多个字段位置区域在掩膜图像中对应的像素值为第一预设值=0,即黑色,而其他位置区域在掩膜图像中对应的像素值为第二预设值1,即白色。
可以理解的是,掩膜图像与第三图像区域的尺寸是相同的,某个字段在第三图像区域中对应的位置与其在掩膜图像中对应的位置是相同的。
之后,对掩膜图像进行像素值反转处理:将掩膜图像中取值为第一预设值的像素值更新为第二预设值,将掩膜图像中取值为第二预设值的像素值更新为第一预设值。也就是说,将掩膜图像中原本为黑色的像素变为白色,将原本为白色的像素变为黑色。
之后,以反转后的掩膜图像与第三图像区域相乘,便可以得到如图11中所示的字段内容擦除结果,以一次性完成全部字段的字段内容的擦除。
由图11得到的擦除结果可知,之所以对掩膜图像进行像素值的反转处理,是为了保留第三图像区域中非字段位置区域的像素值。
通过上述过程可知,基于一张包含第二目标对象的图像,通过预设的语料库,可以生成很多与第二目标对象属于同一类别的其他目标对象,这些目标对象主要是在字段内容及字段内容长度上存在差异。
综上各实施例可知,当生成第三图像的目的是为了优化训练某种检测模型,且面临仅有少量的真实的目标对象的样本图像的情形下,通过上述方案,可以生成逼近真实数据分布的大量合成图像来作为训练样本。其中,逼近真实数据分布即通过上述视觉特征的迁移、内容多样性的扩充来实现。
另外,可以理解的是,在进行检测模型的优化训练时,在采用有监督的训练方式下,除了训练样本外,还需要进行监督信息的标注。为了能够高效地完成监督信息的标注,在本发明实施例提供的方案中,在生成合成图像的同时,随即便可以自动地完成监督信息的标注,无需额外的人工成本。
具体地,在基于包含第二目标对象的第五图像生成包含第一目标对象的第一图像的过程中,基于与多个字段位置区域对应的多个语料的填充,不仅可以得到包含第一目标对象的第一图像的输出结果,还可以得到第一图像对应的标注信息(为区别,称为第一标注信息)的输出结果,第一标注信息包括填充语料后多个字段位置区域各自对应的第一位置坐标和字段属性。
由于在第五图像中已经标注出其中多个字段在该图像中各自对应的字段位置区域以及每个字段位置区域对应的字段属性,因此,上述第一标注信息中的字段属性可以直接由对第五图像的标注结果而知。
字段位置区域会随着填充的语料的长度而改变,比如,以起始站这个字段为例,第五图像中起始站对应的内容为:齐齐哈尔站,是五个字的长度,假设将包含这五个字的字段位置区域表示为L1。当在该字段位置区域内填充上“深圳站”时,由于字段内容长度变为三个字的长度,所以在第一图像中与起始站对应的字段位置区域将变为包含这三个字的位置区域,表示为L2。在生成第一图像的过程中,可以基于填充在起始站这个字段处的语料的长度,自动地标注出第一图像中起始站所对应的字段位置区域L2。
如前文所示,在得到第一图像之后,可以基于第二图像中与第一目标对象对应的第一图像区域尺寸匹配的第二图像区域的视觉特征对第一图像区域进行变换处理,以便最终得到第三图像。其中,该变换处理的过程中包括透视变换处理和光照迁移处理。
其中,通过透视变换处理将第一图像区域投影到了第二图像的第二图像区域,使得第一图像区域发生了形变。那么可以理解的是,第一图像对应的第一标注信息也会因该透视变换发发生变化。因此,在已经得到第一图像中多个字段位置区域各自对应的第一位置坐标的基础上,基于透视变换矩阵,可以确定这多个字段位置区域各自对应的第一位置坐标经透视变换后所对应的第二位置坐标。由于光照迁移处理不会改变该第二位置坐标,因此,可以理解的是,通过上述透视变换便可以得到第三图像对应的标注信息(称为第二标注信息),第二标注信息包括多个字段位置区域各自对应的第二位置坐标和字段属性。
最终,可以以第三图像作为训练样本,根据第二标注信息训练检测模型,该检测模型用于识别输入图像中各对象分别包含的字段位置区域和字段属性。
综上,本发明实施例提供的图像生成方案,可以基于已有的少量的某类目标对象的图像,合成大量的、高质量的、逼真的图像,提高了合成图像的可用性。
如前文所述,本发明提供的图像生成方法可以在云端来执行,在云端可以部署有若干计算节点,每个计算节点中都具有计算、存储等处理资源。在云端,可以组织由多个计算节点来提供某种服务,当然,一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口,用户调用该服务接口以使用相应的服务。服务接口包括软件开发工具包(Software Development Kit,简称SDK)、应用程序接口(ApplicationProgramming Interface,简称API)等形式。
针对本发明实施例提供的方案,云端可以提供有图像生成服务的服务接口,用户通过用户设备调用该图像生成服务接口,以向云端触发调用该图像生成服务接口的请求。云端确定响应该请求的计算节点,利用该计算节点中的处理资源执行如下步骤:
获取第一图像和第二图像,所述第一图像中包括第一目标对象对应的第一图像区域,所述第二图像中包括至少一个对象各自对应的图像区域;
在所述第二图像中确定与所述第一图像区域尺寸匹配的第二图像区域;
根据所述第二图像区域对应的视觉特征,将所述第一图像区域变换至所述第二图像区域,以生成第三图像。
图像生成服务接口利用处理资源执行信息识别处理的详细过程可以参考前述其他实施例中的相关说明,在此不赘述。实际应用中,上述请求中可以直接携带有第一图像和第二图像,云端从该请求中解析出第一图像和第二图像。或者,上述请求中可以包含第一图像,云端接收到请求后,根据第一图像中包含的第一目标对象来获取第二图像。
为便于理解,结合图12来示例性说明。在图12中,用户想要生成包含第一目标对象的若干图像时,在用户设备E1中调用图像生成服务接口,以向云端计算节点E2发送调用请求,该调用请求中包括第一目标对象的第一图像,还可以包括用户设置的第一目标对象的应用场景信息。本实施例中假设云端计算节点E2在接收到调用请求后,基于上述应用场景信息确定在该应用场景中与第一目标对象这类对象搭配使用的至少一个对象,并获取包含这至少一个对象的第二图像,之后,基于第二图像合成包含第一目标对象的第三图像。合成过程参考前述实施例中的介绍,在此不赘述。之后,云端计算节点E2将合成的第三图像发送给用户设备E1,用户设备E1在界面上显示该第三图像,以供用户查看合成效果。或者,云端计算节点E2还可以将第三图像和第二图像一起发送至用户设备E1,用户设备E1在界面上显示该第三图像和第二图像,以供用户查看合成效果。比如若合成的第三图像中第一目标对象的位置或合成的色彩与第二图像差别较大,则可以由用户进行移动或修改。
实际应用中,在诸多应用领域中可能都涉及到图像生成的问题,都可以使用本发明实施例的技术方案。
在报销场景中,如前文所述,线上报销方式目前已经在推广,在线上报销过程中,用户将涉及到的各种报销对象(如各种卡证、票据)放在一起拍摄一张图像,上传给财务人员。财务人员调用报销服务,将这张报销图像上传至报销服务,由报销服务给出图像识别结果:比如各种卡证、票据中包含的结构化信息。其中,在报销服务中集成有用于检测报销图像中包含的各个报销对象的检测模型,可选地,该检测模型的任务可以是检测出报销对象的类别以及在报销图像中的位置。随着报销时新的报销对象的出现,为了能够实现该新报销对象的识别,检测模型需要被优化,而优化检测模型需要获取包含新报销对象的大量训练样本。此时,可以基于本发明实施例提供的方案来合成包含新报销对象的大量训练样本。
图13为本发明实施例提供的另一种信息识别方法的流程图,如图11所示,该方法可以包括如下步骤:
1301、获取第一图像和第二图像,第一图像中包括目标卡证或目标票据对应的第一图像区域,第二图像中包括至少一个报销对象各自对应的图像区域。
1302、在第二图像中确定与第一图像区域尺寸匹配的第二图像区域。
1303、根据第二图像区域对应的视觉特征,将第一图像区域变换至第二图像区域,以生成第三图像。
1304、以第三图像作为训练样本,训练应用于报销场景的检测模型。
在本实施例中,假设新报销对象即为上述目标卡证或目标票据。
实际应用中,在新报销对象刚开始出现的阶段,不易获取大量的真实的新报销对象的图像,从而无法仅依赖于收集的真实的新报销对象的图像来完成上述检测模型的优化训练。为此,可以采用图像合成的方式,借助于历史报销图像,来合成包含新报销对象的大量图像作为训练样本来训练应用于报销场景的检测模型。
其中,历史报销图像即为上述第二图像,第二图像中包含的至少一个报销对象是检测模型已经能够识别出的对象,比如是已经能够识别出的一些卡证、票据。
假设某个第二图像中包含的至少一个报销对象包括:用户证件、发票、火车票。假设第一图像中包含的目标卡证或目标票据为:地铁票。并假设第二图像中确定出的与地铁票尺寸匹配的是火车票,那么最终合成的一张第三图像中会包括:用户证件、发票、地铁票。而且,在视觉特征上,第二图像与第三图像的视觉特征比较相似。
在教育场景中,老师在授课的过程中,往往需要对某些知识点及同学们在该知识点下出现的一些典型错误进行总结,制作教学文件,以便为同学们进行讲解。其中,教学文件可以是图像的形式。比如针对某类试题,不同的同学的出错方式或许各不相同,假设老师已经制作好包含某同学对试题a的错误解答信息的一张教学图像,之后,老师发现另一个同学对试题b的错误解答方式比较具有代表性,试题b与试题a属于同一知识点,此时,老师还想要制作一个包含试题b的错误解答信息的教学图像。此时,可以基于本发明实施例提供的图像生成方式完成该教学图像的制作。
图14为本发明实施例提供的另一种信息识别方法的流程图,如图14所示,该方法可以包括如下步骤:
1401、获取第一教学图像和第二教学图像,第一教学图像中包括目标教学信息对应的第一图像区域,第二教学图像中包括多个教学信息各自对应的图像区域。
1402、在第二教学图像中确定与第一图像区域尺寸匹配的第二图像区域。
1403、根据第二图像区域对应的视觉特征,将第一图像区域变换至第二图像区域,以生成第三教学图像。
本实施例中,教学信息可以是教学图像中包含的各个组成部分,比如可以包括试题信息(具有解答信息的试题或不具有解答信息的原始试题)、知识点信息、作业信息,等等。
基于上文的假设情形,这里可以假设第一教学图像是对试题b及其错误解答信息进行拍照得到的图像,从而,目标教学信息是试题b及其错误解答信息。第二教学图像是老师曾经制作的包含试题a及其错误解答信息的图像,其中,多个教学信息包括:知识点信息、作业信息、试题a及其错误解答信息。
假设每种教学信息的组织方式不同,导致其在教学图像中呈现的尺寸大小并不一致。从而,可以在第二教学图像中确定出与目标教学信息匹配的教学信息,即为试题a及其错误解答信息。将试题a及其错误解答信息所在图像区域的视觉特征作用到试题b及其错误解答信息的图像区域上,并以该图像区域替换第二教学图像中试题a及其错误解答信息所在的图像区域,即得到第三教学图像,即包含知识点信息、作业信息、试题b及其错误解答信息的教学图像。
本实施例中,可选地,还可以根据其他特征在第二教学图像中确定与目标教学信息匹配的教学信息,比如根据教学信息类别:目标教学信息的类别为试题,在第二教学图像中识别出对应于试题类别的教学信息所在的图像区域作为第二图像区域。
在医疗场景中,一个病人在每次诊治过程中,都会产生很多诊治信息,比如病历信息、影像信息(比如CT片子、心电图等)、医嘱信息,等等。为了便于后续诊断、病情监控以及信息管理,可以将多种诊治信息关联在一张图像上。并且,为了简化用户的操作,图像的生成方式可以采用本发明实施例提供的图像生成方案。
图15为本发明实施例提供的另一种信息识别方法的流程图,如图15所示,该方法可以包括如下步骤:
1501、获取第一诊治图像和第二诊治图像,第一诊治图像中包括目标诊治信息对应的第一图像区域,第二诊治图像中包括多个诊治信息各自对应的图像区域。
1502、在第二图像中确定与第一图像区域尺寸匹配的第二图像区域。
1503、根据第二图像区域对应的视觉特征,将第一图像区域变换至第二图像区域,以生成第三诊治图像。
本实施例中,诊治信息可以是诊治图像中包含的各个组成部分,比如可以包括病历信息、影像信息、医嘱信息,等等。
假设某用户先后两次去往某医院就诊,第一次就诊时产生了病历信息a、影像信息b和医嘱信息c,对这些信息一起进行拍摄得到一张诊治图像,作为第二诊治图像。第二次就诊时,并未产生新的医嘱信息和影像信息,只是产生了新的病历信息d,此时,可以对新的病历信息进行拍摄得到一张诊治图像,作为第一诊治图像。
为了便于下次去就诊时,为医生提供以往的全面的诊治信息,且便于医生对以往的诊治信息的查看,可以结合第二诊治图像生成包含上述新的病历信息d以及上述医嘱信息b和影像信息c的诊治图像,即第三诊治图像。
在生成过程中,首先,可以在第二诊治图像中确定出与目标诊治信息(即新的病历信息d)匹配的诊治信息,即为病历信息a。将病历信息a所在图像区域的视觉特征作用到病历信息d的图像区域上,并以该图像区域替换第二诊治图像中病历信息a所在的图像区域,即得到第三诊治图像。
与前述其他实施例中相似,这里的匹配,在不同诊治信息所对应的尺寸特征不同的情况下,可以是尺寸特征匹配。也可以是信息类别匹配。
以上仅以几种应用领域为例对本发明实施例提供的图像生成方案可以适用于的应用场景进行了举例说明,实际上,不以此为限。
以下将详细描述本发明的一个或多个实施例的图像生成装置。本领域技术人员可以理解,这些图像生成装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
图16为本发明实施例提供的一种图像生成装置的结构示意图,如图16所示,该装置包括:获取模块11、确定模块12、变换模块13。
获取模块11,用于获取第一图像和第二图像,所述第一图像中包括第一目标对象对应的第一图像区域,所述第二图像中包括至少一个对象各自对应的图像区域。
确定模块12,用于在所述第二图像中确定与所述第一图像区域尺寸匹配的第二图像区域。
变换模块13,用于根据所述第二图像区域对应的视觉特征,将所述第一图像区域变换至所述第二图像区域,以生成第三图像。
可选地,所述变换模块13具体用于:对所述第一图像区域进行透视变换,以将所述第一图像区域投影到所述第二图像区域,以得到所述第三图像。
可选地,所述变换模块13具体用于:对所述第一图像区域进行透视变换,以将所述第一图像区域投影到所述第二图像区域,得到第四图像;将所述第二图像的光照特征迁移到所述第四图像,以得到所述第三图像。
可选地,所述装置还包括:第一训练模块,用于以所述第三图像作为训练样本,训练检测模型,所述检测模型用于识别输入图像中各对象的类别和位置区域。
可选地,所述获取模块11具体可以用于:根据所述第一目标对象对应的第一类别,确定与所述第一类别搭配出现的第二类别;获取包含所述第二类别的对象的所述第二图像,所述至少一个对象中包括所述第二类别的对象。
可选地,对所述第一图像区域进行透视变换,以将所述第一图像区域投影到所述第二图像区域的过程中,变换模块13具体可以用于:根据所述第一图像区域的顶点坐标和所述第二图像区域的顶点坐标,确定透视变换矩阵;根据所述透视变换矩阵对所述第一图像区域进行透视变换。
可选地,将所述第二图像的光照特征迁移到所述第四图像,以得到所述第三图像的过程中,变换模块13具体可以用于:将所述第二图像输入到光照特征提取模型中,以通过所述光照特征提取模型提取出所述第二图像的光照特征;将所述第四图像和所述光照特征输入到光照特征迁移模型中,以通过所述光照特征迁移模型将所述光照特征迁移到所述第四图像。
可选地,所述装置还包括:交互模块,用于输出所述第三图像,响应用户对所述第三图像触发的确认操作或纠正操作。
基于此,可选地,所述装置还包括:第二训练模块,用于获取第一样本图像以及所述第一样本图像对应的第一监督信息,所述第一监督信息包括所述第一样本图像对应的第一光照特征以及所述第一样本图像对应的第一监督图像,所述第一监督图像是去除所述第一样本图像中的所述光照特征后的图像;根据所述第一样本图像和所述第一监督信息,训练所述光照特征提取模型,以使所述光照特征提取模型输出所述第一样本图像对应的第二光照特征和第一输出图像;根据所述第一光照特征和所述第二光照特征确定第一损失函数值;根据所述第一监督图像和所述第一输出图像确定第二损失函数值;根据所述第一损失函数值和所述第二损失函数值确定所述光照特征提取模型的参数。
基于此,可选地,所述装置还包括:第三训练模块,用于获取第二样本图像、第三光照特征以及所述第二样本图像对应的第二监督信息,所述第二监督信息包括将所述第三光照特征迁移到所述第二样本图像后的第二监督图像;根据所述第二样本图像、所述第三光照特征和所述第二监督信息,训练所述光照特征迁移模型,以使所述光照特征迁移模型输出所述第二样本图像对应的第二输出图像;根据所述第二监督图像和所述第二输出图像确定第三损失函数值;根据所述第三损失函数值确定所述光照特征迁移模型的参数。
可选地,所述第一图像是由对所述第一目标对象进行拍摄得到的图像,或者,所述第一图像是由包括第二目标对象的第五图像合成的图像,所述第一目标对象与所述第二目标对象属于同类对象。
从而,在一可选实施例中,所述获取模块11还可以用于:获取所述第五图像,所述第五图像中包括第二目标对象对应的第三图像区域,所述第三图像区域内包括与所述第二目标对象中的多个字段对应的多个字段位置区域;从预设的语料库中获取与所述多个字段位置区域对应的多个语料;将所述多个语料对应地替换到所述多个字段位置区域内,以生成所述第一图像,所述第一目标对象与所述第二目标对象的字段内容不同。
具体地,所述获取模块11还可以用于:获取第五图像,所述第五图像中包括第二目标对象对应的第三图像区域,所述第三图像区域内包括与所述第二目标对象中的多个字段对应的多个字段位置区域。所述装置还包括:图像扩展模块,用于擦除所述多个字段位置区域内的字段内容;根据所述多个字段位置区域各自对应的字段属性,从预设的语料库中获取与所述多个字段位置区域对应的多个语料,所述语料库中存储有不同字段属性对应的语料;将所述多个语料对应地填充到所述多个字段位置区域内,以生成所述第一图像,所述第一目标对象与所述第二目标对象的字段内容不同。
可选地,擦除所述多个字段位置区域内的字段内容的过程中,所述图像扩展模块可以用于:将所述多个字段位置区域的像素值设置为第一预设值。
可选地,擦除所述多个字段位置区域内的字段内容之后,所述图像扩展模块还可以用于:根据所述多个字段位置区域各自对应的相邻像素的像素值,修复所述多个字段位置区域的像素值,以使所述多个字段位置区域的像素值与各自相邻像素的像素值匹配。
可选地,擦除所述多个字段位置区域内的字段内容的过程中,所述图像扩展模块可以用于:
根据所述多个字段位置区域的坐标,生成与所述第三图像区域对应的掩膜图像,所述多个字段位置区域在所述掩膜图像中对应的像素值为第一预设值,其他位置区域在所述掩膜图像中对应的像素值为第二预设值;将所述掩膜图像中取值为所述第一预设值的像素值更新为所述第二预设值,将所述掩膜图像中取值为所述第二预设值的像素值更新为所述第一预设值;以像素值更新后的掩膜图像与所述第三图像区域相乘,以擦除所述多个字段位置区域内的字段内容。
可选地,所述获取模块11还可以用于:输出与所述第一图像对应的第一标注信息,所述第一标注信息包括填充语料后所述多个字段位置区域各自对应的第一位置坐标和字段属性。
可选地,所述变换模块13还可以用于:确定所述多个字段位置区域各自对应的第一位置坐标经所述透视变换后对应的第二位置坐标;输出与所述第三图像对应的第二标注信息,所述第二标注信息包括所述多个字段位置区域各自对应的第二位置坐标和字段属性。
可选地,所述装置还包括:第四训练模块,用于以所述第三图像作为训练样本,根据所述第二标注信息训练检测模型,所述检测模型用于识别输入图像中各对象分别包含的字段位置区域和字段属性。
可选地,所述第一目标对象包括卡证或票据。
图12所示装置可以执行前述实施例中提供的图像生成方法,详细的执行过程和技术效果参见前述实施例中的描述,在此不再赘述。
在一个可能的设计中,上述图16所示图像生成装置的结构可实现为一电子设备,如图17所示,该电子设备可以包括:处理器21、存储器22。其中,存储器22上存储有可执行代码,当所述可执行代码被处理器21执行时,使处理器21至少可以实现如前述实施例中提供的图像生成方法。
可选地,该电子设备中还可以包括通信接口23,用于与其他设备进行通信。
另外,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如前述实施例中提供的图像生成方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (21)
1.一种图像生成方法,其特征在于,包括:
获取第一图像和第二图像,所述第一图像中包括第一目标对象对应的第一图像区域,所述第二图像中包括至少一个对象各自对应的图像区域;
在所述第二图像中确定与所述第一图像区域尺寸匹配的第二图像区域;
根据所述第二图像区域对应的视觉特征,将所述第一图像区域变换至所述第二图像区域,以生成第三图像。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第二图像区域对应的视觉特征,将所述第一图像区域变换至所述第二图像区域,以生成第三图像,包括:
对所述第一图像区域进行透视变换,以将所述第一图像区域投影到所述第二图像区域,以得到所述第三图像。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第二图像区域对应的视觉特征,将所述第一图像区域变换至所述第二图像区域,以生成第三图像,包括:
对所述第一图像区域进行透视变换,以将所述第一图像区域投影到所述第二图像区域,得到第四图像;
将所述第二图像的光照特征迁移到所述第四图像,以得到所述第三图像。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
以所述第三图像作为训练样本,训练检测模型,所述检测模型用于识别输入图像中各对象的类别和位置区域。
5.根据权利要求1所述的方法,其特征在于,获取第二图像,包括:
根据所述第一目标对象对应的第一类别,确定与所述第一类别搭配出现的第二类别;
获取包含所述第二类别的对象的所述第二图像,所述至少一个对象中包括所述第二类别的对象。
6.根据权利要求2或3所述的方法,其特征在于,所述对所述第一图像区域进行透视变换,以将所述第一图像区域投影到所述第二图像区域,包括:
根据所述第一图像区域的顶点坐标和所述第二图像区域的顶点坐标,确定透视变换矩阵;
根据所述透视变换矩阵对所述第一图像区域进行透视变换。
7.根据权利要求3所述的方法,其特征在于,所述将所述第二图像的光照特征迁移到所述第四图像,以得到所述第三图像,包括:
将所述第二图像输入到光照特征提取模型中,以通过所述光照特征提取模型提取出所述第二图像的光照特征;
将所述第四图像和所述光照特征输入到光照特征迁移模型中,以通过所述光照特征迁移模型将所述光照特征迁移到所述第四图像。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
输出所述第三图像;
响应用户对所述第三图像触发的确认操作或纠正操作。
9.根据权利要求2或3所述的方法,其特征在于,所述第一图像是由对所述第一目标对象进行拍摄得到的图像,或者,所述第一图像是由包括第二目标对象的第五图像合成的图像,所述第一目标对象与所述第二目标对象属于同类对象。
10.根据权利要求9所述的方法,其特征在于,所述获取第一图像,包括:
获取所述第五图像,所述第五图像中包括第二目标对象对应的第三图像区域,所述第三图像区域内包括与所述第二目标对象中的多个字段对应的多个字段位置区域;
从预设的语料库中获取与所述多个字段位置区域对应的多个语料;
将所述多个语料对应地替换到所述多个字段位置区域内,以生成所述第一图像,所述第一目标对象与所述第二目标对象的字段内容不同。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
输出与所述第一图像对应的第一标注信息,所述第一标注信息包括填充语料后所述多个字段位置区域各自对应的第一位置坐标和字段属性。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
确定所述多个字段位置区域各自对应的第一位置坐标经所述透视变换后对应的第二位置坐标;
输出与所述第三图像对应的第二标注信息,所述第二标注信息包括所述多个字段位置区域各自对应的第二位置坐标和字段属性。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
以所述第三图像作为训练样本,根据所述第二标注信息训练检测模型,所述检测模型用于识别输入图像中各对象分别包含的字段位置区域和字段属性。
14.根据权利要求1所述的方法,其特征在于,所述第一目标对象包括卡证或票据。
15.一种图像生成装置,其特征在于,包括:
获取模块,用于获取第一图像和第二图像,所述第一图像中包括第一目标对象对应的第一图像区域,所述第二图像中包括至少一个对象各自对应的图像区域;
确定模块,用于在所述第二图像中确定与所述第一图像区域尺寸匹配的第二图像区域;
变换模块,用于根据所述第二图像区域对应的视觉特征,将所述第一图像区域变换至所述第二图像区域,以生成第三图像。
16.根据权利要求15所述的装置,其特征在于,所述变换模块具体用于:
对所述第一图像区域进行透视变换,以将所述第一图像区域投影到所述第二图像区域,得到第四图像;
将所述第二图像的光照特征迁移到所述第四图像,以得到所述第三图像。
17.根据权利要求15所述的装置,其特征在于,所述第一图像是由对所述第一目标对象进行拍摄得到的图像,或者,所述第一图像是由包括第二目标对象的第五图像合成的图像,所述第一目标对象与所述第二目标对象属于同类对象。
18.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至14中任一项所述的图像生成方法。
19.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至14中任一项所述的图像生成方法。
20.一种图像生成方法,其特征在于,包括:
响应于用户设备调用图像生成服务接口的请求,利用所述图像生成服务接口对应的处理资源执行如下步骤:
获取第一图像和第二图像,所述第一图像中包括第一目标对象对应的第一图像区域,所述第二图像中包括至少一个对象各自对应的图像区域;
在所述第二图像中确定与所述第一图像区域尺寸匹配的第二图像区域;
根据所述第二图像区域对应的视觉特征,将所述第一图像区域变换至所述第二图像区域,以生成第三图像。
21.一种图像生成方法,其特征在于,包括:
获取第一图像和第二图像,所述第一图像中包括目标卡证或目标票据对应的第一图像区域,所述第二图像中包括至少一个报销对象各自对应的图像区域;
在所述第二图像中确定与所述第一图像区域尺寸匹配的第二图像区域;
根据所述第二图像区域对应的视觉特征,将所述第一图像区域变换至所述第二图像区域,以生成第三图像;
以第三图像作为训练样本,训练应用于报销场景的检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110215065.8A CN114972006A (zh) | 2021-02-25 | 2021-02-25 | 图像生成方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110215065.8A CN114972006A (zh) | 2021-02-25 | 2021-02-25 | 图像生成方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114972006A true CN114972006A (zh) | 2022-08-30 |
Family
ID=82973422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110215065.8A Pending CN114972006A (zh) | 2021-02-25 | 2021-02-25 | 图像生成方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114972006A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704221A (zh) * | 2023-08-09 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备和计算机可读存储介质 |
-
2021
- 2021-02-25 CN CN202110215065.8A patent/CN114972006A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704221A (zh) * | 2023-08-09 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备和计算机可读存储介质 |
CN116704221B (zh) * | 2023-08-09 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931664B (zh) | 混贴票据图像的处理方法、装置、计算机设备及存储介质 | |
CN110458918B (zh) | 用于输出信息的方法和装置 | |
CN110442744B (zh) | 提取图像中目标信息的方法、装置、电子设备及可读介质 | |
CN111652232B (zh) | 票据识别方法及装置、电子设备和计算机可读存储介质 | |
WO2021047396A1 (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
CN112037077B (zh) | 基于人工智能的印章识别方法、装置、设备及存储介质 | |
US20140313216A1 (en) | Recognition and Representation of Image Sketches | |
CN115457531A (zh) | 用于识别文本的方法和装置 | |
US9558467B1 (en) | Systems and/or methods for grid-based multi-level digitization of enterprise models | |
CN110490959B (zh) | 三维图像处理方法及装置、虚拟形象生成方法以及电子设备 | |
WO2022247823A1 (zh) | 图像检测方法、设备和存储介质 | |
CN111598899A (zh) | 图像处理方法、装置及计算机可读存储介质 | |
KR102003221B1 (ko) | 필기 이미지 데이터 생성 시스템 및 이를 이용한 필기 이미지 데이터 생성 방법 | |
AU2022271364A1 (en) | Facilitating identification of fillable regions in a form | |
CN114972006A (zh) | 图像生成方法、装置、设备和存储介质 | |
CN113688273B (zh) | 面向图形类题目的作答及判定方法和装置 | |
CN113360737B (zh) | 页面内容采集方法、装置、电子设备和可读介质 | |
US11893784B2 (en) | Assessment of image quality for optical character recognition using machine learning | |
CN112270350B (zh) | 组织机构的画像方法、装置、设备及存储介质 | |
CN111881900B (zh) | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 | |
CN113377980A (zh) | 一种信息标注的方法、装置、电子设备及存储介质 | |
CN115203375A (zh) | 图文跨模态模型的数据增强方法、装置、设备及存储介质 | |
CN114626950A (zh) | 保险理赔信息的录入方法、装置、计算机设备及存储介质 | |
CN114115627A (zh) | 应用于u盾测试的u盾显示信息获取方法、装置、设备、介质及程序产品 | |
CN112836467A (zh) | 一种图像处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |