CN117541507A - 图像数据对的建立方法、装置、电子设备和可读存储介质 - Google Patents

图像数据对的建立方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN117541507A
CN117541507A CN202311546639.5A CN202311546639A CN117541507A CN 117541507 A CN117541507 A CN 117541507A CN 202311546639 A CN202311546639 A CN 202311546639A CN 117541507 A CN117541507 A CN 117541507A
Authority
CN
China
Prior art keywords
image
body image
main body
blurred
fuzzy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311546639.5A
Other languages
English (en)
Inventor
潘超鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202311546639.5A priority Critical patent/CN117541507A/zh
Publication of CN117541507A publication Critical patent/CN117541507A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种图像数据对的建立方法、装置、电子设备和可读存储介质,其中,图像数据对的建立方法包括:获取第一模糊主体图像和清晰主体图像;将第二模糊主体图像输入神经网络,计算得到特征图和置信度热图,其中,第二模糊主体图像为第一模糊主体图像中的图像;根据清晰主体图像、特征图和置信度热图,计算得到第三模糊主体图像;建立清晰主体图像和第二模糊主体图像的数据对。

Description

图像数据对的建立方法、装置、电子设备和可读存储介质
技术领域
本申请属于电子设备技术领域,具体涉及一种图像数据对的建立方法、图像数据对的建立装置、电子设备和可读存储介质。
背景技术
拍摄运动人像是手机拍摄的一个高频场景,然而拍摄过程中的手机镜头抖动或拍摄对象的快速移动,往往会造成运动人像模糊,使用户难以在运动场景下拍摄清晰的人像画面,严重影响成片质量。
人像去模糊算法能够通过AI技术将模糊人像恢复为清晰图,从而满足用户在运动场景下的拍摄需求。然而人像去模糊算法的难点在于获取大规模的成对的清晰-模糊人像数据对,用于人像去模糊算法模型训练。
在相关技术中,获取成对的清晰-模糊人像数据的方法主要采用高帧率视频合成的方法,其是通过特定相机设备,采集高帧率的人像运动视频,然后将高帧率视频拆分为图像帧,再将多帧图像序列进行平均运算,获得人像模糊图,并以图像序列的中间帧作为对应的清晰图。
该方法对拍摄设备有极高的要求,需要设备能够支持极高的拍摄帧率,拍摄成本较高,此外当运动速度较快时,相邻图像帧差异较大,简单的平均运算无法表征真实的模糊原理。
发明内容
本申请实施例的目的是提供一种图像数据对的建立方法、图像数据对的建立装置、电子设备和可读存储介质,能够有效改善训练人像去模糊算法的AI模型所需的清晰-模糊人像数据获取成本高的技术问题。
第一方面,本申请实施例提供了一种图像数据对的建立方法,包括:
获取第一模糊主体图像和清晰主体图像;
将第二模糊主体图像输入神经网络,计算得到特征图和置信度热图,其中,第二模糊主体图像为第一模糊主体图像中的图像;
根据清晰主体图像、特征图和置信度热图,计算得到第三模糊主体图像;
建立清晰主体图像和第二模糊主体图像的数据对。
第二方面,本申请实施例提供了一种图像数据对的建立装置,包括:
获取模块,用于获取第一模糊主体图像和清晰主体图像;
第一计算模块,用于将第二模糊主体图像输入神经网络,计算得到特征图和置信度热图,其中,第二模糊主体图像为第一模糊主体图像中的图像;
第二计算模块,用于根据清晰主体图像、特征图和置信度热图,计算得到第三模糊主体图像;
建立模块,用于建立清晰主体图像和第三模糊主体图像的数据对。
第三方面,本申请实施例提供了一种电子设备,包括处理器,存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面提供的图像数据对的建立方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面提供的图像数据对的建立方法的步骤。
第五方面,本申请实施例提供了一种芯片,该芯片包括处理器和通信接口,该通信接口和该处理器耦合,该处理器用于运行程序或指令,实现如第一方面提供的图像数据对的建立方法的步骤。
第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面提供的图像数据对的建立方法的步骤。
在本申请实施例中,获取第一模糊主体图像和清晰主体图像,形成两个数据集合,在第一模糊主体图像的数据合中,选取一个第二模糊主体图像,将第二模糊主体图像输入神经网络,通过神经网络的计算得到特征图和置信度热图,利用清晰主体图像、特征图和置信度热图计算得到清晰主体图像的第三模糊主体图像,建立第一清晰图像和第三模糊主体图像的数据对。
如上述方法,可以将大批量的清晰主体图像和小批量的第一模糊主体图像匹配,快速生成清晰主体图像所对应的第三模糊主体图像,无需采用特点设备拍摄,极大地降低了数据采集的成本。
附图说明
图1示出了根据本申请实施例的图像数据对的建立方法的流程图之一;
图2示出了根据本申请实施例的图像数据对的建立方法中神经网络的结构框图;
图3示出了根据本申请实施例的图像数据对的建立方法中神经网络的下采样模块的结构框图;
图4示出了根据本申请实施例的图像数据对的建立方法中神经网络的上采样模块的结构框图;
图5示出了根据本申请实施例的图像数据对的建立方法中神经网络的上全局平均池化模块的结构框图;
图6示出了根据本申请实施例的图像数据对的建立方法中特征图和置信度热图的可视化示意图;
图7示出了根据本申请实施例的图像数据对的建立方法中第一主体和第二主体建立坐标系的示意图;
图8示出了根据本申请实施例的图像数据对的建立方法中第一模糊主体图像、特征图、清晰主体图像和第二模糊主体图像的示意图;
图9示出了根据本申请实施例的图像数据对的建立方法的流程图之二;
图10示出了根据本申请实施例的图像数据对的建立方法中第一模糊主体图像和清晰主体图像匹配的流程图;
图11示出了根据本申请实施例的图像数据对的建立装置的结构框图;
图12示出了根据本申请实施例的电子设备的结构框图;
图13示出了实现本申请实施例的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的一种图像数据对的建立方法、图像数据对的建立装置、电子设备和可读存储介质进行详细地说明。
图1示出了根据本申请实施例的图像数据对的建立方法的流程图之一,如图1所示,方法包括:
步骤102:获取第一模糊主体图像和清晰主体图像。
具体地,获取第一模糊主体图像和清晰主体图像,其中,模糊主体图像指被拍摄主体的边缘模糊,出现“拖影”或对焦不准确等情况的图像,以人像图像为例,在被拍摄主体运动的情况下,会产生“拖影”或对接错误的现象,从而导致图像中的被拍摄主体呈现模糊的状态。
其中,第一模糊主体图像可以是多个,形成第一模糊主体图像的数据集,其可以是真人图像,通过收集可以得到开源的人像模糊的图像数据集,例如真实模糊(RealBlur)数据集,此类真实人像模糊数据集采用分光镜拍摄,两枚镜头分别设置不同的快门速度,从而采集清晰-模糊的人像数据对,其中模糊人像数据可作为第一模糊主体图像的数据集。
或者,通过相机实拍采集数据,由于开源数据通常难以覆盖所有场景,如开源数据集快门参数固定,运动模糊程度单一,且环境场景单一,因此可自行设置快门参数,变化环境场景条件,模拟更多的人体运动动作,提升第一模糊主体图像的数据集丰富性。
其中,清晰主体图像指被拍摄主体的边缘清晰,无“拖影”或对焦不准确等情况的图像,以人像图像为例,图像中的被摄主体边缘清晰,对焦准确,无“拖影”。
其中,开源高清人像数据集的数量众多,且覆盖了不同人种、场景,有很好的泛化性,因此,可以将开源高清人像数据集中的图像作为清晰主体图像,开源高清人像数据集可以是名人(Celeba)数据集或高清人脸数据集(Flickr-Faces-Hight-Quality,FFhq)数据集。
步骤104:将第二模糊主体图像输入神经网络,计算得到特征图和置信度热图,其中,第二模糊主体图像为第一模糊主体图像中的图像。
具体地,在第二模糊主体图像的数据集中选一第二模糊主体图像,将第二模糊主体图像输入神经网络中,第二模糊主体图像通过神经网络的计算得到特征图和置信度热图,置信度热图反映出特征图的置信度。
步骤106:根据清晰主体图像、特征图和置信度热图,计算得到第三模糊主体图像。
具体地,根据清晰主体图像特征图和置信度热图,计算得到第三模糊主体图像,从而可以通过小批量的第一模糊主体图像,匹配大批量的清晰主体图像,并快速生成清晰主体图像所对应的第三模糊主体图像,无需采用特点设备拍摄,极大地降低了数据采集的成本。
其中,将第二模糊主体图像输入神经网络,通过计算可以得到多个特征图和多个置信度热图。
具体地,将第二模糊主体图像输入神经网络,计算得到特征图和置信度热图,具体包括:将第二模糊主体图像输入神经网络,通过计算得到多个特征图和多个置信度热图,也就是一个第二模糊主体图像可以得到多个特征图和多个置信度热图,从而可以反映出第二模糊主体图像的不同区域的模糊形式和模糊强度,能够真实地反映人像运动场景的模糊结构,有效提升数据的质量。
步骤108:建立清晰主体图像和第三模糊主体图像的数据对。
具体地,将清晰主体图像和第三模糊主体图像建立成数据对,以供人工智能(Artificial Intelligence,AI)训练时使用。
如上述方法,可以将大批量的清晰主体图像和小批量的第一模糊主体图像匹配,快速生成清晰主体图像所对应的第三模糊主体图像,无需采用特点设备拍摄,极大地降低了数据采集的成本。
作为一种可能的实施方式,将第二模糊主体图像输入神经网络,计算得到特征图和置信度热图之前,还包括:计算清晰主体图像中第一主体的第一坐标参数;计算第二模糊主体图像中第二主体的第二坐标参数;对比第一坐标参数和第二坐标参数;在第一坐标参数和第二坐标参数的差值小于或等于阈值的情况下,确定第一模糊主体图像为第二模糊主体图像。
具体地,在将第二模糊主体图像输入神经网络,计算得到特征图和置信度热图之前,对清晰主体图像进行分析,计算得到清晰主体图像中第一主体的第一坐标参数,对第一模糊主体图像的数据集中的第一模糊主体图像进行分析,计算得到第一模糊主体图像中第二主体的第二坐标参数,分析对比第一坐标参数和第二坐标参数,在两者插值小于或等于阈值的情况下,确定该第一模糊主体图像和该清晰主体图像相匹配,从而确定该第一模糊主体图像为第二模糊主体图像,也就是,通过对比第一主体和第二主体的情况,在两者相近的情况下,确定清晰主体图像和第一模糊主体图像为相匹配的图像,从而确定该第一模糊主体图像为第二模糊主体图像,采用该方式对比可以确保对清晰主体图像的模糊效果。
并且,可以利用第二模糊主体图像的模糊状态情况,对清晰主体图像进行模糊处理,从而可以将和第二模糊主体图像相近的清晰主体图像进行大批量的模糊处理,提升获得数据的效率。
其中,通过人脸姿态估计算法计算高清人脸旋转姿态。该算法可以输出人脸的三个方位角,如图7所示,yaw,roll,pitch三个方位角分别代表人脸相对于标准坐标系的偏航角、翻转角和俯仰角。对一张人像图片,通过人脸姿态估计算法计算得到人像图的人脸的方位角yaw1,roll1,pitch1,然后从第一模糊主体图像组成的数据集中随机选取一张第一模糊主体图像,计算模糊人脸的方位角yaw2,roll2,pitch2,并与上述人脸的方位角计算角度差值,若角度差值大于设定阈值,则重新选取模糊图像,直至角度差值小于或等于阈值,从而保证第二模糊主体图像和清晰主体图像有相近的人脸姿态,使模糊程度尽可能与人脸姿态相符,本申请设定阈值可以是yaw方向的阈值Y的值小于等于10,roll方向的阈值R的值小于等于10,pitch方向的阈值P的值小于等于10。
具体地,图10示出了根据本申请实施例的图像数据对的建立方法中第一模糊主体图像和清晰主体图像匹配的流程图,也就是确定第二模糊主体图像的流程图,如图10所示,第一模糊主体图像和清晰主体图像匹配的流程包括:
步骤1002:清晰主体图像。
具体地,获取清晰主体图像,其中,清晰主体图像中具有清晰的人像。
步骤1004:计算yaw1、roll1和pitch1。
具体地,计算清晰主体图像中人像的yaw1、roll1和pitch1。
步骤1006:随机筛选第一模糊主体图像。
具体地,在第一模糊图像主体的数据集中随机选一第一模糊主体图像。
步骤1008:计算yaw2、roll2和pitch2。
具体地,计算第一模糊主体图像的yaw2、roll2和pitch2。
步骤1010:判断以下是否成立|yaw2-yaw1|≤Y&|roll2-roll1|≤R&|pitch2-pitch1|≤P。在判断结果为是的情况下,执行步骤1012,在判断结果为否的情况下,执行步骤1004。
具体地,判断yaw2和yaw1差值的绝对值是否小于或等于Y,以及roll2和roll1差值的绝对值是否小于或等于R,以及pitch2和pitch1差值的绝对值是否小于或等于P。
步骤1012:确定该第一模糊主体图像为第二模糊主体图像,取第二模糊主体图像对应的特征图和置信度热图,与清晰主体图像进行卷积运算。
具体地,确定当前第一模糊主体图像为第二模糊主体图像,取第二模糊主体图像对应的特征图和置信度热图,与清晰主体图像进行卷积运算,得到清晰主体图像对应的第三模糊主体图像。
步骤1014:建立清晰主体图像和第三模糊主体图像的数据对。
具体地,建立清晰主体图像和第二模糊主体图像的数据对。
作为一种可能的实施方式,根据清晰主体图像、特征图和置信度热图,计算得到第三模糊主体图像,具体包括:将清晰主体图像和特征图进行卷积运算,将卷积运算结果和置信度热图进行逐像素相乘运算,得到第三模糊主体图像。
具体地,根据清晰主体图像,以及根据第二模糊主体图像所得到的特征图和置信度热图,计算得到第三模糊主体图像的步骤,具体包括:将清晰主体图像和特征图进行卷积运算,将结果和置信度热图进行逐像素相乘运算,得到第三模糊主体图像。
具体地,可以通过公式:
计算第三模糊主体图像,其中,Ic为清晰主体图像,ki为i通道的特征图,Ci为i通道的置信度热图,*为卷积运算,⊙为逐像素相乘运算,Ib为输出的第三模糊主体图像,m为特征图的数量。m可以等于2、5、10、15、20、25、30或35等等。
将清晰主体图像、特征图和置信度热图带入到公式:中,从而可以得到第三模糊主体图像。
其中,当筛选到姿态相近的清晰主体图像和第二模糊主体图像后,真实人像非一致性模糊核数据集中索引该第二模糊主体图像所对应的特征图及置信度热图,并与清晰主体图像进行卷积运算:
其中,Ic为清晰主体图像,ki为i通道的特征图,Ci为i通道的置信度热图,*为卷积运算,⊙为逐像素相乘运算,Ib为输出的第三模糊主体图像,m为特征图的数量。
由此可得对应的第三模糊主体图,从而完成模糊核迁移过程。模糊核迁移效果如图8所示,其中,通过对第一模糊主体图像进行处理,得到特征图,通过对清晰主体图像处理,得到第三模糊主体图像。
之后,对开源高清人像数据集中的每一张清晰主体图像,进行以上过程,即可合成对应的第三模糊主图像,得到高清-模糊人像数据对,从而获得非一致性人像运动模糊数据集。
作为一种可能的实施方式,将第二模糊主体图像输入神经网络,计算得到特征图,包括:将第二模糊主体图像输入神经网络,以供神经网络对第二模糊主体图像进行卷积、下采样、池化和上采样处理,并通过归一化运算得到特征图。
具体地,将第二模糊主体图像输入神经网络,计算得到特征图,包括:将第二模糊主体图像输入到神经网络,神经网络对第二模糊图像进行卷积、下采样、池化和上采样处理,最后通过归一化运算得到特征图。
作为一种可能的实施方式,将第二模糊主体图像输入神经网络,计算得到置信度热图,包括:将第二模糊主体图像输入神经网络,以供神经网络对第二模糊主体图像进行卷积、下采样和上采样处理,并通过归一化运算得到置信度热图。
具体地,将第二模糊主体图像输入神经网络,计算得到置信度热图,包括:将第二模糊主体图像输入神经网络,神经网络对第二模糊图像进行卷积、下采样和上采样处理,最后通过归一化运算得到置信度热图。
其中,输入的第二模糊主体图像为RGB向量,其数据维度为(h,w,c),其中h为图像高度,w为图像宽度,c为图像通道数,本申请中可以设置,h=512,w=512,c=3。
具体地,如图2所示,神经网络包括第一卷积层、下采样模块、第二卷积层、池化模块、全局平均池化模块,第一上采样模块、第二上采样模块、第三卷积层和第四卷积层。
其中,下采样模块的结构如图3所示,例如输入特征维度(h,w,c),卷积层a的卷积核尺寸为3,步长为1,输入通道数为c,输出通道数为s,卷积层b的卷积核尺寸为3,步长为1,输入通道数为c,输出通道数为s,最大池化层核尺寸为3,步长为1,由此进行卷积计算可得中间特征a和中间特征b的维度均为(h,w,s),输出特征维度为(h÷2,w÷2,s)。
上采样模块的结构如图4所示,例如输入特征维度(h,w,c),中间特征维度(h,w,c1),双线性上采样层采样倍数为2,输入通道数为c,输出通道数为c,卷积层d的卷积核尺寸为3,步长为1,输入通道数为c,输出通道数为c÷2,卷积层e的卷积核尺寸为3,步长为1,输入通道数为c÷2,输出通道数为c÷2,卷积层e的输出特征与中间特征级联,作为卷积层c的输入,卷积层f的卷积核尺寸为3,步长为1,输入通道数为c1×c+c÷2,输出通道数为s,由此可得上采样模块输出特征维度为(2×h,2×w,s)。
全局平均池化模块的结构如图5所示,假设输入特征维度(h,w,c),全局平均池化模块输出维度为(1,1,c),拷贝层拷贝倍数为s,则输出特征维度为(s,s,c)。
具体地,第一卷积层的输入维度为(512,512,3),卷积核尺寸为3,步长为1,输出通道数为64,则输出维度为(512,512,64)。
下采样模块1以第一卷积层的输出特征为输入,维度为(512,512,64),输出特征维度为(256,256,64),中间特征维度为(256,256,64)。
下采样模块2以第一卷积层的输出特征为输入,维度为(256,256,64),输出特征维度为(128,128,128),中间特征维度为(128,128,128)。
下采样模块3以下采样模块2输出特征为输入,维度为(128,128,128),输出特征维度为(64,64,256),中间特征维度为(64,64,256)。
下采样模块4以下采样模块3输出特征为输入,维度为(64,64,256),输出特征维度为(32,32,512),中间特征维度为(32,32,512)。
下采样模块5以下采样模块4输出特征为输入,维度为(32,32,512),输出特征维度为(16,16,1024),中间特征维度为(16,16,1024)。
第二卷积层以下采样模块5输出特征为输入,维度为(16,16,1024),卷积核尺寸为3,步长为1,输出通道数为1024,则输出特征维度为(16,16,1024)。
池化模块1以下采样模块5中间特征为输入,维度为(16,16,1024),拷贝倍数为2,输出通道数为512,输出特征维度为(2,2,512)。
池化模块2以下采样模块4中间特征为输入,维度为(32,32,512),拷贝倍数为4,输出通道数为256,输出特征维度为(4,4,256)。
池化模块3以下采样模块3中间特征为输入,维度为(64,64,256),拷贝倍数为8,输出通道数为128,输出特征维度为(8,8,128)。
池化模块4以下采样模块2中间特征为输入,维度为(128,128,128),拷贝倍数为16,输出通道数为64,输出特征维度为(16,16,64)。
池化模块5以下采样模块1中间特征为输入,维度为(256,256,64),拷贝倍数为32,输出通道数为32,输出特征维度为(32,32,32)。
全局平均池化层以第二卷积层的输出特征为输入,维度为(16,16,1024),输出特征维度为(1,1,1024)。
上采样模块1以全局平均池化层输出特征和池化模块5输出特征为输入,输出通道数为512,则输出特征维度为(2,2,512)。
上采样模块2以上采样模块1输出特征和池化模块4输出特征为输入,输出通道数为256,则输出特征维度为(4,4,256)。
上采样模块3以上采样模块2输出特征和池化模块3输出特征为输入,输出通道数为128,则输出特征维度为(8,8,128)。
上采样模块4以上采样模块3输出特征和池化模块2输出特征为输入,输出通道数为64,则输出特征维度为(16,16,64)。
上采样模块5以上采样模块4输出特征和池化模块1输出特征为输出,输出通道数为64,则输出特征维度为(32,32,64)。
上采样模块6以第二卷积层输出特征和下采样模块5中间特征为输入,输出通道数为512,则输出特征维度为(32,32,512)。
上采样模块7以上采样模块6输出特征和下采样模块4中间特征为输入,输出通道数为256,则输出特征维度为(64,64,256)。
上采样模块8以上采样模块7输出特征和下采样模块3中间特征为输入,输出通道数为128,则输出特征维度为(128,128,128)。
上采样模块9以上采样模块8输出特征和下采样模块2中间特征为输入,输出通道数为64,则输出特征维度为(256,256,64)。
上采样模块10以上采样模块9输出特征和下采样模块1中间特征为输入,输出通道数为64,则输出特征维度为(256,256,64)。
第三卷积层以上采样模块5输出特征为输入,维度为((32,32,64),卷积核尺寸为3,步长为1,输出通道数为25,则输出维度为(32,32,25)。
第三卷积层输出特征经归一化指数函数(softmax)运算后,即可得到特征图,特征维度为(32,32,25),其中,32表示特征图尺寸,25表示卷积核个数。也就是,一个第二模糊主体图像处理后得到25个特征图。
其中,第三卷积层的归一化函数为:
其中,z表示特征图,i表示通道数,zi表示第三卷积层输出特征的第一i个通道的通道图,k表示通道个数,e为数学常数,e=2.718,25为通道总数,在其他实施例中,通道的总数还可以是其他值。通过softmax运算将输出特征中各个像素的原始特征值归一化为0-1之间,从而对第三卷积层输出特征的各个通道都进行归一化运算后,就可以得到特征图,特征维度为(32,32,25),其中,32表示特征图的尺寸,25表示特征图的通道数量,特征图的每个通道图表征不同的运动模糊形式。
第四卷积层以上采样模块10输出特征为输入,维度为(512,512,64),卷积核尺寸为3,步长为1,输出通道数为25,则输出维度为(512,512,25),第四卷积层输出特征经过归一化运算softmax后,得到置信度热图,其维度为(256,256,25),其中,置信度热图的通道图和特征图的通道图一一对应,表征对应特征图在第二模糊图像上的置信度。
其中,第三卷积层的归一化函数为:
其中,z表示特征图,i表示通道数,zi表示第四卷积层输出特征的第一i个通道的通道图,k表示通道个数,e为数学常数,e=2.718,25为通道总数,在其他实施例中,通道的总数还可以是其他值。
具体地,将第一模糊主体图像组成的数据集中的每一张第一模糊主体图像,输入到双流模糊核估计神经网络,神经网络将输出与该输入图对应的特征图及置信度热图,如图6所示。遍历每张第一模糊主体图像,得到其对应的特征图与置信度热图,并将这些数据对应存储起来,便可得到真实人像非一致性模糊核数据集。由于相机抖动或物体运动造成的成像模糊,通常可表达为清晰图通过卷积运算得到模糊图像的退化过程,而该卷积运算的卷积核即为模糊核。
本申请实施例提供了一种图像数据对的建立方法,其是基于非一致性模糊核检测的去模糊人像数据集合成方法,能够高效、低成本地获取高质量的清晰-模糊人像数据对。本申请提出的基于双流神经网络的非一致性模糊核检测方法,能够预测图像不同区域,不同模糊程度下的非线性模糊核,从而有效表征了真实人像运动场景下的图像模糊形式,使合成数据更加逼近真实模糊数据。本申请提出的清晰-模糊人像数据集合成流程,有效利用大量开源高清人像数据集,快速获得人像去模糊数据集,极大地提升了去模糊算法的开发效率,降低开发成本。
图9示出了根据本申请实施例的图像数据对的建立方法的流程图之二,如图9所示,方法包括:
步骤902:收集真实人像的模糊图像的数据集。
具体地,收集多个第一模糊主体图像形成的数据集。
步骤904:收集人像的清晰图像的数据集。
具体地,收集多个清晰主体图像形成的数据集。
步骤906:构建双流模糊核估计神经网络。
具体地,建立神经网络。
步骤908:计算模糊图像的数据集中样本的非一致性特征图。
具体地,将多个第一模糊主体图像形成的数据集输入到神经网络中,得到特征图和置信度热图。
步骤910:迁移特征图到清晰图像的数据集。
具体地,在第一模糊主体图像的数据集中确定第二模糊主体图像,并将特征图迁移到清晰主体图像的数据集。
步骤912:合成非一致性人像运动模糊数据集。
具体地,通过计算得到清晰主体图像的第三模糊主体图像,并建立清晰主体图像和第三模糊主体的数据对,多个数据对形成数据集。
本申请实施例提供的图像数据对的建立方法,执行主体可以为图像数据对的建立装置。本申请实施例中以图像数据对的建立装置执行图像数据对的建立方法为例,说明本申请实施例提供的图像数据对的建立方法的装置。
如图11所示,在本申请的一些实施例中,本申请提供了一种图像数据对的建立装置1100,包括:获取模块1102,用于获取第一模糊主体图像和清晰主体图像;第一计算模块1104,用于将第二模糊主体图像输入神经网络,计算得到特征图和置信度热图,其中,第二模糊主体图像为第一模糊主体图像中的图像;第二计算模块1106,用于根据清晰主体图像、特征图和置信度热图,计算得到第三模糊主体图像;建立模块1108,用于建立清晰主体图像和第三模糊主体图像的数据对。
在本申请实施例中,获取第一模糊主体图像和清晰主体图像,形成两个数据集合,在第一模糊主体图像的数据合中,选取一个第二模糊主体图像,将第二模糊主体图像输入神经网络,通过神经网络的计算得到特征图和置信度热图,利用清晰主体图像、特征图和置信度热图计算得到清晰主体图像的第三模糊主体图像,建立第一清晰图像和第三模糊主体图像的数据对。
进而可以将大批量的清晰主体图像和小批量的第一模糊主体图像匹配,快速生成清晰主体图像所对应的第三模糊主体图像,无需采用特点设备拍摄,极大地降低了数据采集的成本。
作为一种可能的实施方式,还包括:第三计算模块,用于计算清晰主体图像中第一主体的第一坐标参数;第四计算模块,用于计算第二模糊主体图像中第二主体的第二坐标参数;对比模块,用于对比第一坐标参数和第二坐标参数;确定模块,用于在第一坐标参数和第二坐标参数的差值小于或等于阈值的情况下,确定第一模糊主体图像为第二模糊主体图像。
作为一种可能的实施方式,第二计算模块包括:第一计算子模块,用于将清晰主体图像和特征图进行卷积运算,将卷积运算结果和置信度热图进行逐像素相乘运算,得到第三模糊主体图像。
作为一种可能的实施方式,第一计算模块包括:第二计算子模块,用于将第二模糊主体图像输入神经网络,以供神经网络对第二模糊主体图像进行卷积、下采样、池化和上采样处理,并通过归一化运算得到特征图。
作为一种可能的实施方式,第一计算模块包括:第三计算子模块,用于将第二模糊主体图像输入神经网络,以供神经网络对第二模糊主体图像进行卷积、下采样和上采样处理,并通过归一化运算得到置信度热图。
计算第二模糊主体图像,其中,本申请实施例中的图像数据对的建立装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是电子设备,也可以为除电子设备之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的图像数据对的建立装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为iOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的图像数据对的建立装置能够实现上述方法实施例实现的各个过程,达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种电子设备,图12示出了根据本申请实施例的电子设备的结构框图,如图12所示,电子设备1200包括处理器1202和存储器1204,存储在存储器1204上并可在处理器1202上运行的程序或指令,该程序或指令被处理器1202执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
图13为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备1300包括但不限于:射频单元1301、网络模块1302、音频输出单元1303、输入单元1304、传感器1305、显示单元1306、用户输入单元1307、接口单元1308、存储器1309以及处理器1310等部件。
本领域技术人员可以理解,电子设备1300还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1310逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图13中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器1310用于获取第一模糊主体图像和清晰主体图像;
处理器1310用于将第二模糊主体图像输入神经网络,计算得到特征图和置信度热图,其中,第二模糊主体图像为第一模糊主体图像中的图像;
处理器1310用于根据清晰主体图像、特征图和置信度热图,计算得到第三模糊主体图像;
处理器1310用于建立清晰主体图像和第三模糊主体图像的数据对。
在一些实施例中,还包括:
处理器1310用于计算清晰主体图像中第一主体的第一坐标参数;
处理器1310用于计算第二模糊主体图像中第二主体的第二坐标参数;
处理器1310用于对比第一坐标参数和第二坐标参数;
处理器1310用于在第一坐标参数和第二坐标参数的差值小于或等于阈值的情况下,确定第一模糊主体图像为第二模糊主体图像。
在一些实施例中,处理器1310用于根据清晰主体图像、特征图和置信度热图,计算得到第三模糊主体图像,包括:
处理器1310用于将清晰主体图像和特征图进行卷积运算,将卷积运算结果和置信度热图进行逐像素相乘运算,得到第三模糊主体图像。
在一些实施例中,处理器1310用于将第二模糊主体图像输入神经网络,计算得到特征图,包括:
处理器1310用于将第二模糊主体图像输入神经网络,以供神经网络对第二模糊主体图像进行卷积、下采样、池化和上采样处理,并通过归一化运算得到特征图。
在一些实施例中,处理器1310用于将第二模糊主体图像输入神经网络,计算得到置信度热图,包括:
处理器1310用于将第二模糊主体图像输入神经网络,以供神经网络对第二模糊主体图像进行卷积、下采样和上采样处理,并通过归一化运算得到置信度热图。
在本申请实施例中,获取第一模糊主体图像和清晰主体图像,形成两个数据集合,在第一模糊主体图像的数据合中,选取一个第二模糊主体图像,将第二模糊主体图像输入神经网络,通过神经网络的计算得到特征图和置信度热图,利用清晰主体图像、特征图和置信度热图计算得到清晰主体图像的第三模糊主体图像,建立第一清晰图像和第三模糊主体图像的数据对。
进而可以将大批量的清晰主体图像和小批量的第一模糊主体图像匹配,快速生成清晰主体图像所对应的第三模糊主体图像,无需采用特点设备拍摄,极大地降低了数据采集的成本。
应理解的是,本申请实施例中,输入单元1304可以包括图形处理器(GraphicsProcessing Unit,GPU)13041和麦克风13042,图形处理器13041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像文件进行处理。显示单元1306可包括显示面板13061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板13061。用户输入单元1307包括触控面板13071以及其他输入设备13072中的至少一种。触控面板13071,也称为触摸屏。触控面板13071可包括触摸检测装置和触摸控制器两个部分。其他输入设备13072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
存储器1309可用于存储软件程序以及各种文件。存储器1309可主要包括存储程序或指令的第一存储区和存储文件的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器1309可以包括易失性存储器或非易失性存储器,或者,存储器1309可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(ProgrammableROM,PROM)、可擦除可编程只读存储器(ErasablePROM,EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍文件速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器1309包括但不限于这些和任意其它适合类型的存储器。
处理器1310可包括一个或多个处理单元;可选地,处理器1310集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器1310中。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述图像数据对的建立方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述图像数据对的建立方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述图像数据对的建立方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台电子设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (12)

1.一种图像数据对的建立方法,其特征在于,包括:
获取第一模糊主体图像和清晰主体图像;
将第二模糊主体图像输入神经网络,计算得到特征图和置信度热图,其中,所述第二模糊主体图像为所述第一模糊主体图像中的图像;
根据所述清晰主体图像、所述特征图和所述置信度热图,计算得到第三模糊主体图像;
建立所述清晰主体图像和所述第三模糊主体图像的数据对。
2.根据权利要求1所述的图像数据对的建立方法,其特征在于,在所述将第二模糊主体图像输入神经网络,计算得到特征图和置信度热图之前,还包括:
计算所述清晰主体图像中第一主体的第一坐标参数;
计算所述第二模糊主体图像中第二主体的第二坐标参数;
对比所述第一坐标参数和所述第二坐标参数;
在所述第一坐标参数和所述第二坐标参数的差值小于或等于阈值的情况下,确定所述第一模糊主体图像为所述第二模糊主体图像。
3.根据权利要求1所述的图像数据对的建立方法,其特征在于,所述根据所述清晰主体图像、所述特征图和所述置信度热图,计算得到第三模糊主体图像,具体包括:
将所述清晰主体图像和所述特征图进行卷积运算,将卷积运算结果和所述置信度热图进行逐像素相乘运算,得到所述第三模糊主体图像。
4.根据权利要求1至3中任一项所述的图像数据对的建立方法,其特征在于,将所述第二模糊主体图像输入所述神经网络,计算得到所述特征图,包括:
将所述第二模糊主体图像输入所述神经网络,以供所述神经网络对所述第二模糊主体图像进行卷积、下采样、池化和上采样处理,并通过归一化运算得到所述特征图。
5.根据权利要求1至3中任一项所述的图像数据对的建立方法,其特征在于,将所述第二模糊主体图像输入所述神经网络,计算得到所述置信度热图,包括:
将所述第二模糊主体图像输入所述神经网络,以供所述神经网络对所述第二模糊主体图像进行卷积、下采样和上采样处理,并通过归一化运算得到所述置信度热图。
6.一种图像数据对的建立装置,其特征在于,包括:
获取模块,用于获取第一模糊主体图像和清晰主体图像;
第一计算模块,用于将第二模糊主体图像输入神经网络,计算得到特征图和置信度热图,其中,所述第二模糊主体图像为所述第一模糊主体图像中的图像;
第二计算模块,用于根据所述清晰主体图像、所述特征图和所述置信度热图,计算得到第三模糊主体图像;
建立模块,用于建立所述清晰主体图像和所述第三模糊主体图像的数据对。
7.根据权利要求6所述的图像数据对的建立装置,其特征在于,还包括:
第三计算模块,用于计算所述清晰主体图像中第一主体的第一坐标参数;
第四计算模块,用于计算所述第二模糊主体图像中第二主体的第二坐标参数;
对比模块,用于对比所述第一坐标参数和所述第二坐标参数;
确定模块,用于在所述第一坐标参数和所述第二坐标参数的差值小于或等于阈值的情况下,确定所述第一模糊主体图像为所述第二模糊主体图像。
8.根据权利要求6所述的图像数据对的建立装置,其特征在于,所述第二计算模块包括:
第一计算子模块,用于将所述清晰主体图像和所述特征图进行卷积运算,将卷积运算结果和所述置信度热图进行逐像素相乘运算,得到所述第三模糊主体图像。
9.根据权利要求6至8中任一项所述的图像数据对的建立装置,其特征在于,所述第一计算模块包括:
第二计算子模块,用于将所述第二模糊主体图像输入所述神经网络,以供所述神经网络对所述第二模糊主体图像进行卷积、下采样、池化和上采样处理,并通过归一化运算得到所述特征图。
10.根据权利要求6至8中任一项所述的图像数据对的建立装置,其特征在于,所述第一计算模块包括:
第三计算子模块,用于将所述第二模糊主体图像输入所述神经网络,以供所述神经网络对所述第二模糊主体图像进行卷积、下采样和上采样处理,并通过归一化运算得到所述置信度热图。
11.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述的图像数据对的建立方法。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的图像数据对的建立方法的步骤。
CN202311546639.5A 2023-11-20 2023-11-20 图像数据对的建立方法、装置、电子设备和可读存储介质 Pending CN117541507A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311546639.5A CN117541507A (zh) 2023-11-20 2023-11-20 图像数据对的建立方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311546639.5A CN117541507A (zh) 2023-11-20 2023-11-20 图像数据对的建立方法、装置、电子设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN117541507A true CN117541507A (zh) 2024-02-09

Family

ID=89789487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311546639.5A Pending CN117541507A (zh) 2023-11-20 2023-11-20 图像数据对的建立方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN117541507A (zh)

Similar Documents

Publication Publication Date Title
US9615039B2 (en) Systems and methods for reducing noise in video streams
CN113286194A (zh) 视频处理方法、装置、电子设备及可读存储介质
CN111507333B (zh) 一种图像矫正方法、装置、电子设备和存储介质
CN111091590A (zh) 图像处理方法、装置、存储介质及电子设备
CN113076685A (zh) 图像重建模型的训练方法、图像重建方法及其装置
CN110858316A (zh) 对时间序列图像数据进行分类
CN114390201A (zh) 对焦方法及其装置
WO2023151511A1 (zh) 模型训练方法、图像去摩尔纹方法、装置及电子设备
Yang et al. SRDN: A unified super-resolution and motion deblurring network for space image restoration
WO2024093763A1 (zh) 全景图像处理方法、装置、计算机设备、介质和程序产品
Chang et al. Finding good composition in panoramic scenes
Li et al. Deep online video stabilization using imu sensors
CN115564639A (zh) 背景虚化方法、装置、计算机设备和存储介质
CN117541507A (zh) 图像数据对的建立方法、装置、电子设备和可读存储介质
Wu et al. Locally low-rank regularized video stabilization with motion diversity constraints
CN113592922A (zh) 图像的配准处理方法及装置
Yue et al. High-dimensional camera shake removal with given depth map
Lai et al. Correcting face distortion in wide-angle videos
CN117593462B (zh) 三维空间场景的融合方法和系统
CN111179166A (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN116342992A (zh) 图像处理方法和电子设备
CN115423873A (zh) 图像生成方法、装置、设备及介质
CN118279371A (zh) 模型训练方法、深度估计方法及其装置
CN115456882A (zh) 图像处理方法、装置、电子设备和介质
CN117750215A (zh) 拍摄参数更新方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination