CN112102145B - 图像处理方法及装置 - Google Patents

图像处理方法及装置 Download PDF

Info

Publication number
CN112102145B
CN112102145B CN201910467366.2A CN201910467366A CN112102145B CN 112102145 B CN112102145 B CN 112102145B CN 201910467366 A CN201910467366 A CN 201910467366A CN 112102145 B CN112102145 B CN 112102145B
Authority
CN
China
Prior art keywords
image
reference image
target object
original image
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910467366.2A
Other languages
English (en)
Other versions
CN112102145A (zh
Inventor
吴恩泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Wodong Tianjun Information Technology Co Ltd
Priority to CN201910467366.2A priority Critical patent/CN112102145B/zh
Publication of CN112102145A publication Critical patent/CN112102145A/zh
Application granted granted Critical
Publication of CN112102145B publication Critical patent/CN112102145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开提供了一种图像处理方法,包括:获取原始图像;确定包含在原始图像中的目标对象以及原始图像中用于标注目标对象的标注数据;从原始图像中提取一包含目标对象的参考图像,其中,参考图像在原始图像中所占的区域大于标注数据在原始图像中所标注的区域;以及对参考图像进行数据增广以便获得数据增广后的参考图像。本公开还公开了一种图像处理装置、一种计算机系统和一种计算机可读存储介质。

Description

图像处理方法及装置
技术领域
本公开涉及图像处理领域,更具体地,涉及一种图像处理方法及装置。
背景技术
在图像处理领域应用深度学习技术对图像进行数据增广是模型训练过程中十分重要的步骤。通过数据增广可以使图像数据更加丰富,并且使用数据增广后的图像进行模型训练可以提升整个模型的泛化能力。
目前,针对图像的数据增广方法主要有透视变换,增加噪声,旋转,裁剪,仿射变换,以及各种图像滤波等。其中,主要的透视变换方法有:先确定原图的四个顶点的点坐标,再随机生成四个点作为新图的四个顶点的点坐标,然后利用这些点坐标算出由原图到新图的变换矩阵,最后基于变换矩阵将原图透视变换成新图;或者通过旋转角(rotate)以及沿某一轴的缩放比例(translate)对图像进行整体尺寸变换(scale)等一系列方法来实现透视变换。
由于有些数据增广会改变图像的尺寸和角度,因而增广后的图像容易出现空白边界。对此,虽然相关技术中也会采取一些策略例如对空白边界进行填充,但是由于填充的数据并不是图像的原始数据,因而由此训练得到的模型并不准确。并且,目前的透视变换方法都是结果导向的,无法体现真实情况下的意义。
发明内容
有鉴于此,本公开提供了一种改进的图像处理方法及装置,可以避免数据增广后图像出现空白边界区域。
本公开的一个方面提供了一种图像处理方法,包括:获取原始图像;确定包含在所述原始图像中的目标对象以及所述原始图像中用于标注所述目标对象的标注数据;从所述原始图像中提取一包含所述目标对象的参考图像,其中,所述参考图像在所述原始图像中所占的区域大于所述标注数据在所述原始图像中所标注的区域;以及对所述参考图像进行数据增广以便获得数据增广后的参考图像。
根据本公开的实施例,记录所述目标对象在所述参考图像中的位置信息;以及基于所述位置信息从所述数据增广后的参考图像中提取包含所述目标对象的样本图像以用于模型训练。
根据本公开的实施例,所述对所述参考图像进行数据增广,包括:通过模拟真实拍摄场景对所述参考图像进行透视变换。
根据本公开的实施例,所述通过模拟真实拍摄场景对所述参考图像进行透视变换,包括:将多个摄像机角度以及所述目标对象所在的平面相对于所述摄像机所垂直的平面在三个维度上的角度作为参数,通过坐标变换对所述参考图像实现透视变换。
根据本公开的实施例,所述从所述原始图像中提取一包含所述目标对象的参考图像,包括:从所述原始图像中提取所述标注数据所标注的图像部分;对所述标注数据所标注的图像部分进行数据增广,得到一包含空白边界区域的图像;以及基于该图像中的空白边界区域,预估所述参考图像在所述原始图像中所占的区域并提取所述参考图像。
本公开的另一个方面提供了一种图像处理装置,包括:获取模块,用于获取原始图像;确定模块,用于确定包含在所述原始图像中的目标对象以及所述原始图像中用于标注所述目标对象的标注数据;第一提取模块,用于从所述原始图像中提取一包含所述目标对象的参考图像,其中,所述参考图像在所述原始图像中所占的区域大于所述标注数据在所述原始图像中所标注的区域;以及数据增广模块,用于对所述参考图像进行数据增广以便获得数据增广后的参考图像。
根据本公开的实施例,所述装置还包括:记录模块,用于记录所述目标对象在所述参考图像中的位置信息;以及第二提取模块,用于基于所述位置信息从所述数据增广后的参考图像中提取包含所述目标对象的样本图像以用于模型训练。
根据本公开的实施例,所述数据增广模块还用于:通过模拟真实拍摄场景对所述参考图像进行透视变换。
根据本公开的实施例,所述数据增广模块还用于:将多个摄像机角度以及所述目标对象所在的平面相对于所述摄像机所垂直的平面在三个维度上的角度作为参数,通过坐标变换对所述参考图像实现透视变换。
根据本公开的实施例,所述第一提取模块包括:第一提取单元,用于从所述原始图像中提取所述标注数据所标注的图像部分;数据增广单元,用于对所述标注数据所标注的图像部分进行数据增广,得到一包含空白边界区域的图像;以及第二提取单元,用于基于该图像中的空白边界区域,预估所述参考图像在所述原始图像中所占的区域并提取所述参考图像。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机系统,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上任一项所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,因为采用了先针对目标对象扩充图像区域再进行数据增广的技术手段,所以至少部分地克服了相关技术中数据增广后的图像容易出现空白边界区域的技术问题,进而达到了使数据增广后的图像不易出现空白边界区域的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了可以应用本公开的图像处理方法和装置的示例性系统架构;
图2示意性示出了根据本公开实施例的图像处理方法的流程图;
图3A~图3E示意性示出了通过相关技术进行数据增广的效果图;
图4A示意性示出了相关技术中用于数据增广的参考图像;
图4B示意性示出了根据本公开实施例的用于数据增广的参考图像;
图5示意性示出了根据本公开实施例的模拟现实拍摄场景进行透视变换得到的样本图像;
图6示意性示出了根据本公开实施例的用于训练文字行模型的样本图像;
图7示意性示出了根据本公开实施例的图像处理装置的框图;以及
图8示意性示出了根据本公开实施例的适于实现图像处理方法及装置的计算机系统的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开的实施例提供了一种图像处理方法以及能够应用该方法的图像处理装置。该方法包括获取原始图像;确定包含在原始图像中的目标对象以及原始图像中用于标注目标对象的标注数据;从原始图像中提取一包含目标对象的参考图像,其中,参考图像在原始图像中所占的区域大于标注数据在原始图像中所标注的区域;以及对参考图像进行数据增广以便获得数据增广后的参考图像。
图1示意性示出了可以应用本公开的图像处理方法和装置的示例性系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的图像处理方法一般可以由服务器105执行。相应地,本公开实施例所提供的图像处理装置一般可以设置于服务器105中。本公开实施例所提供的图像处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的图像处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。或者,本公开实施例所提供的图像处理方法也可以由终端设备101、102、或103执行,或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地,本公开实施例所提供的图像处理装置也可以设置于终端设备101、102、或103中,或设置于不同于终端设备101、102、或103的其他终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的图像处理方法的流程图。
如图2所示,该方法包括操作S201~S204。
在操作S201,获取原始图像;
在操作S202,确定包含在原始图像中的目标对象以及原始图像中用于标注目标对象的标注数据;
在操作S203,从原始图像中提取一包含目标对象的参考图像,其中,参考图像在原始图像中所占的区域大于标注数据在原始图像中所标注的区域;以及
在操作S204,对参考图像进行数据增广以便获得数据增广后的参考图像。
需要说明的是,本公开提供的图像处理方法可以应用于针对图像的模型训练和目标检测等场景。以下以模型训练为例并结合附图详细阐述本公开实施例。
对于一张原始图像(简称为原图),使用现有技术进行数据增广之后,可以变换为如图3A~图3E所示的新图。由图3D可以看出,某些数据增广手段容易导致变换后的新图出现空白边界(即黑边)。为了弥补这种缺陷,相关技术中一般采用数据填充的方式,将空白边界填充为特定的数值如0、或者与边界相似的数据、或者镜像数据等。显然,这些处理手段使得变换后的新图包含了除原始图像数据之外的其他数据,因此,如果将这样的新图作为模型的训练样本,很难保证模型的准确性。
为了克服上述缺陷,本公开实施例提供了一种改进的图像处理方法,即,在数据增广之前,先进行区域扩充。
例如,身份证识别技术中通常会针对身份证的多个文字行训练相应的文字行模型。如果将身份证扫描件作为一张原始图像,想要训练文字行“Date of Birth”的模型,相关技术通常会从身份证扫描件中提取并分割出标注框所标注的图像部分,即如图4A所示的图像部分,进而对该图像部分进行数据增广,而使用本公开提供的技术方案,则会在标注框所标注的图像部分的基础上先向外扩充一定区域,再进行图像提取和分割,这种情况下可以分割出如图4B所示的图像部分,由于该图像部分已为标注框内的图像部分预留了一定区域,因此基于该图像部分进行数据增广一般不太容易出现空白边界,并且由于不会引入除原始图像数据之外的其他数据,因此,通过由此得到的训练样本训练模型,能够提高模型的准确度。
结合该示例,需要说明的是,“Date of Birth”可以作为一个目标对象,图4B所示的图像部分可以作为一幅参考图像,身份证扫描件可以作为一幅原始图像,标注框以及标注框的位置信息可以作为相应的标注数据。
作为一种可选的实施例,记录目标对象在参考图像中的位置信息;以及基于位置信息从数据增广后的参考图像中提取包含目标对象的样本图像以用于模型训练。
具体地,可以将标注数据如标注框的位置信息记录为目标对象在参考图像中的位置信息,例如对于方框形标注框,可以记录方框的四个顶点的点坐标来作为目标对象的位置信息。其中,目标对象的位置信息可以在提取参考图像的过程中记录,或者可以在提取参考图像之后记录。具体地,可以将其记录在label文件中以便后续操作使用。
在本公开实施例中,在提取样本图像时,可以先将操作“记录目标对象在参考图像中的位置信息”所记录的位置信息基于相应的图像处理方法进行映射变换,得到目标对象在数据增广后的参考图像中的位置信息,再基于映射后的位置信息从数据增广后的参考图像中提取样本图像。
由于一幅原始图像通常都会包含多个文字行,例如身份证扫描件中除了包含“Date of Birth”之外,还会包含“Name”,并且“Date of Birth”与“Name”在图像中通常挨得很近,这种情况下,在针对一个目标对象进行区域扩充时,很容易将其他目标对象扩充到参考图像中,进而很容易影响模型训练结果的准确性。
而通过本公开实施例提供的上述操作,既可以通过扩充足够大的区域来避免图像在数据增广时出现空白边界,又可以通过二次提取图像来避免其他目标对象被分割到样本图像中而影响训练结果。
作为一种可选的实施例,对参考图像进行数据增广,包括:通过模拟真实拍摄场景对参考图像进行透视变换。
在本公开实施例中,用于图像的数据增广方法包括但不限于透视变换,增加噪声,旋转,裁剪,仿射变换,以及各种图像滤波等。其中,对于透视变换,本公开实施例通过模拟真实拍摄情况下可能出现的情形对图像进行透视变换,使其具有真实意义。
作为一种可选的实施例,通过模拟真实拍摄场景对参考图像进行透视变换,包括:将多个摄像机角度以及目标对象所在的平面相对于摄像机所垂直的平面在三个维度上的角度作为参数,通过坐标变换对参考图像实现透视变换。
在真实情景中,不同用户甚至是同一用户,很可能是从不同的角度拍摄或扫描待识别的图像的。继续以前述示例为例,在不同的拍摄角度下,文字行(如“Date of Birth”)平面在三维空间内具有不同的相对角度,因而会产生不同的图像。所以,为了使透视变换操作对整体模型的泛化能力提升更大,本公开实施例将多组摄像机角度(angle)、文字行所在平面相对于摄像机所垂直的平面在三个维度上的角度(θx,θy,θz)作为参数,根据几何学里的坐标变换规则,将参考图像变换为模拟现实场景下摄像机以angle角度拍摄的文字行平面在三维空间内的角度为(θx,θy,θz)的图片,图5所示的就是模拟现实场景下摄像机以90°角拍摄的“Date of Birth”平面在三维空间内的角度为(10°,30°,60°)的图片。
需要说明的是,在实际应用中,可以设定摄像机角度为80°~100°之间的随机值,θx、θy、θz可以分别为-20°~20°之间的随机值,处理中实际得到的数据增广后的无黑边图片如图6所示。实验证明,使用本公开实施例的图像处理方法最终使得文字识别模型的准确度提升了5%左右。
通过本公开实施例,由于模拟了多种角度的拍摄/扫描情形,因此在数据增广过程中能够得到多种透视变换结果,从而能够为模型训练提供更加丰富的训练样本,进而能够使训练模型的泛化能力提升更大。
作为一种可选的实施例,从原始图像中提取一包含目标对象的参考图像,包括:从原始图像中提取标注数据所标注的图像部分;对标注数据所标注的图像部分进行数据增广,得到一包含空白边界区域的图像;以及基于该图像中的空白边界区域,预估参考图像在原始图像中所占的区域并提取参考图像。
在图像处理过程中,如果参考图像相对于标注数据所标注的图像扩充的区域不足,则数据增广后的图像很可能还会出现空白边界区域,而如果参考图像相对于标注数据所标注的图像扩充的区域太大,则很可能将其他目标对象包含到参考图像中,为了平衡这两种情形,使参考图像相对于标注数据所标注的图像扩充出更合理的区域,本公开实施例在提取参考图像之前,先采用传统的数据增广方法得到一包含空白边界区域的图像,再使用该图像中的空白边界区域预估参考图像的大小,最后才根据预估值提取相应的参考图像,因而可以保证提取的参考图像更合理,进而可以保证参考图像中没有空白边界。
图7示意性示出了根据本公开实施例的图像处理装置的框图。
如图7所示,图像处理装置700包括获取模块710、确定模块720、第一提取模块730和数据增广模块740。
获取模块710,用于获取原始图像;
确定模块720,用于确定包含在原始图像中的目标对象以及原始图像中用于标注目标对象的标注数据;
第一提取模块730,用于从原始图像中提取一包含目标对象的参考图像,其中,参考图像在原始图像中所占的区域大于标注数据在原始图像中所标注的区域;以及
数据增广模块740,用于对参考图像进行数据增广以便获得数据增广后的参考图像。
通过本公开实施例,由于参考图像中已为标注框内的图像部分预留了一定区域,因此基于该参考图像进行数据增广一般不太容易出现空白边界区域,并且由于不会引入除原始图像数据之外的其他数据,因此,通过由此得到的训练样本训练模型,能够提高模型的准确度。
作为一种可选的实施例,装置还包括:记录模块,用于记录目标对象在参考图像中的位置信息;以及第二提取模块,用于基于位置信息从数据增广后的参考图像中提取包含目标对象的样本图像以用于模型训练。
而通过本公开实施例提供的上述操作,既可以通过扩充足够大的区域来避免图像在数据增广时出现空白边界,又可以通过二次提取图像来避免其他目标对象被分割到样本图像中而影响训练结果。
作为一种可选的实施例,数据增广模块还用于:通过模拟真实拍摄场景对参考图像进行透视变换。
本公开实施例通过模拟真实拍摄情况下可能出现的情形对图像进行透视变换,使其具有真实意义。
作为一种可选的实施例,数据增广模块还用于:将多个摄像机角度以及目标对象所在的平面相对于摄像机所垂直的平面在三个维度上的角度作为参数,通过坐标变换对参考图像实现透视变换。
通过本公开实施例,由于模拟了多种角度的拍摄/扫描情形,因此在数据增广过程中能够得到多种透视变换结果,从而能够为模型训练提供更加丰富的训练样本,进而能够使训练模型的泛化能力提升更大。
作为一种可选的实施例,第一提取模块包括:第一提取单元,用于从原始图像中提取标注数据所标注的图像部分;数据增广单元,用于对标注数据所标注的图像部分进行数据增广,得到一包含空白边界区域的图像;以及第二提取单元,用于基于该图像中的空白边界区域,预估参考图像在原始图像中所占的区域并提取参考图像。
本公开实施例在提取参考图像之前,先采用传统的数据增广方法得到一包含空白边界区域的图像,再使用该图像中的空白边界区域预估参考图像的大小,最后才根据预估值提取相应的参考图像,因而可以保证提取的参考图像更合理,进而可以保证参考图像中没有空白边界。
根据本公开的实施例的模块中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,获取模块710、确定模块720、第一提取模块730和数据增广模块740中的任意多个可以合并在一个模块/单元/子单元中实现,或者其中的任意一个模块可以被拆分成多个模块/单元/子单元。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块/单元/子单元中实现。根据本公开的实施例,获取模块710、确定模块720、第一提取模块730和数据增广模块740中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块710、确定模块720、第一提取模块730和数据增广模块740中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中装置部分实施方式与本公开的实施例中方法部分实施方式对应相同或类似,装置部分实施方式的描述具体请参考方法部分实施方式的描述,在此不再赘述。
图8示意性示出了根据本公开实施例的适于实现图像处理方法及装置的计算机系统的框图。图8示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,根据本公开实施例的计算机系统800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有系统800操作所需的各种程序和数据。处理器801、ROM 802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,系统800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。系统800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。电要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (11)

1.一种图像处理方法,包括:
获取原始图像;
确定包含在所述原始图像中的目标对象以及所述原始图像中用于标注所述目标对象的标注数据;
从所述原始图像中提取一包含所述目标对象的参考图像,其中,所述参考图像在所述原始图像中所占的区域大于所述标注数据在所述原始图像中所标注的区域;以及
对所述参考图像进行数据增广以便获得数据增广后的参考图像;
其中,所述从所述原始图像中提取一包含所述目标对象的参考图像,包括:从所述原始图像中提取所述标注数据所标注的图像部分;对所述标注数据所标注的图像部分进行数据增广,得到一包含空白边界区域的图像;基于该图像中的空白边界区域,预估所述参考图像在所述原始图像中所占的区域并提取所述参考图像。
2.根据权利要求1所述的方法,其中,所述方法还包括:
记录所述目标对象在所述参考图像中的位置信息;以及
基于所述位置信息从所述数据增广后的参考图像中提取包含所述目标对象的样本图像以用于模型训练。
3.根据权利要求1或2所述的方法,其中,所述对所述参考图像进行数据增广,包括:
通过模拟真实拍摄场景对所述参考图像进行透视变换。
4.根据权利要求3所述的方法,其中,所述通过模拟真实拍摄场景对所述参考图像进行透视变换,包括:
将多个摄像机角度以及所述目标对象所在的平面相对于所述摄像机所垂直的平面在三个维度上的角度作为参数,通过坐标变换对所述参考图像实现透视变换。
5.一种图像处理装置,包括:
获取模块,用于获取原始图像;
确定模块,用于确定包含在所述原始图像中的目标对象以及所述原始图像中用于标注所述目标对象的标注数据;
第一提取模块,用于从所述原始图像中提取一包含所述目标对象的参考图像,其中,所述参考图像在所述原始图像中所占的区域大于所述标注数据在所述原始图像中所标注的区域;以及
数据增广模块,用于对所述参考图像进行数据增广以便获得数据增广后的参考图像;
其中,所述第一提取模块包括:
第一提取单元,用于从所述原始图像中提取所述标注数据所标注的图像部分;
数据增广单元,用于对所述标注数据所标注的图像部分进行数据增广,得到一包含空白边界区域的图像;以及
第二提取单元,用于基于该图像中的空白边界区域,预估所述参考图像在所述原始图像中所占的区域并提取所述参考图像。
6.根据权利要求5所述的装置,其中,所述装置还包括:
记录模块,用于记录所述目标对象在所述参考图像中的位置信息;以及
第二提取模块,用于基于所述位置信息从所述数据增广后的参考图像中提取包含所述目标对象的样本图像以用于模型训练。
7.根据权利要求5或6所述的装置,其中,所述数据增广模块还用于:
通过模拟真实拍摄场景对所述参考图像进行透视变换。
8.根据权利要求7所述的装置,其中,所述数据增广模块还用于:
将多个摄像机角度以及所述目标对象所在的平面相对于所述摄像机所垂直的平面在三个维度上的角度作为参数,通过坐标变换对所述参考图像实现透视变换。
9.一种计算机系统,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至4中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至4中任一项所述的方法。
11.一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时用于实现权利要求1至4中任一项所述的方法。
CN201910467366.2A 2019-05-30 2019-05-30 图像处理方法及装置 Active CN112102145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910467366.2A CN112102145B (zh) 2019-05-30 2019-05-30 图像处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910467366.2A CN112102145B (zh) 2019-05-30 2019-05-30 图像处理方法及装置

Publications (2)

Publication Number Publication Date
CN112102145A CN112102145A (zh) 2020-12-18
CN112102145B true CN112102145B (zh) 2024-05-24

Family

ID=73748845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910467366.2A Active CN112102145B (zh) 2019-05-30 2019-05-30 图像处理方法及装置

Country Status (1)

Country Link
CN (1) CN112102145B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801862B (zh) * 2021-02-01 2024-01-19 中科云谷科技有限公司 基于图像变换的数据处理方法、数据处理装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016019926A1 (zh) * 2014-08-06 2016-02-11 腾讯科技(深圳)有限公司 照片拍摄方法、装置及移动终端
CN106295526A (zh) * 2016-07-28 2017-01-04 浙江宇视科技有限公司 车辆图像匹配的方法及装置
CN109410185A (zh) * 2018-10-10 2019-03-01 腾讯科技(深圳)有限公司 一种图像分割方法、装置和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9652887B2 (en) * 2014-01-22 2017-05-16 Hankookin, Inc. Object oriented image processing and rendering in a multi-dimensional space

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016019926A1 (zh) * 2014-08-06 2016-02-11 腾讯科技(深圳)有限公司 照片拍摄方法、装置及移动终端
CN106295526A (zh) * 2016-07-28 2017-01-04 浙江宇视科技有限公司 车辆图像匹配的方法及装置
CN109410185A (zh) * 2018-10-10 2019-03-01 腾讯科技(深圳)有限公司 一种图像分割方法、装置和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于数据扩维的SAR目标识别性能提升技术;罗震宇;于俊朋;刘振华;;现代雷达(05);全文 *

Also Published As

Publication number Publication date
CN112102145A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
US10803554B2 (en) Image processing method and device
US10373380B2 (en) 3-dimensional scene analysis for augmented reality operations
WO2019011249A1 (zh) 一种图像中物体姿态的确定方法、装置、设备及存储介质
CN108734185B (zh) 图像校验方法和装置
US9251613B2 (en) Systems and methods for automatically applying effects based on media content characteristics
CN109255767B (zh) 图像处理方法和装置
EP3206163B1 (en) Image processing method, mobile device and method for generating a video image database
EP2782027A1 (en) Apparatus and method providing augmented reality contents based on web information structure
WO2019125741A1 (en) Graphical coordinate system transform for video frames
CN109118456B (zh) 图像处理方法和装置
CN110111241B (zh) 用于生成动态图像的方法和装置
US8494284B2 (en) Methods and apparatuses for facilitating detection of text within an image
CN108182457B (zh) 用于生成信息的方法和装置
US11270449B2 (en) Method and system for location detection of photographs using topographic techniques
US8824778B2 (en) Systems and methods for depth map generation
CN114359932B (zh) 文本检测方法、文本识别方法及装置
CN111292333B (zh) 用于分割图像的方法和装置
CN112102145B (zh) 图像处理方法及装置
CN114565768A (zh) 图像分割方法及装置
CN107146245B (zh) 图像匹配方法和装置
TWI711004B (zh) 圖片處理方法和裝置
GB2555168A (en) Using labels to track high-frequency offsets for patch-matching algorithms
US10783649B2 (en) Aligning digital images by selectively applying pixel-adjusted-gyroscope alignment and feature-based alignment models
Kim et al. Dewarping book page spreads captured with a mobile phone camera
US9524553B2 (en) Image processing apparatus, image processing method, and recording medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant