CN113538273A - 图像处理方法及图像处理装置 - Google Patents

图像处理方法及图像处理装置 Download PDF

Info

Publication number
CN113538273A
CN113538273A CN202110792116.3A CN202110792116A CN113538273A CN 113538273 A CN113538273 A CN 113538273A CN 202110792116 A CN202110792116 A CN 202110792116A CN 113538273 A CN113538273 A CN 113538273A
Authority
CN
China
Prior art keywords
image
repair
network
processed
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110792116.3A
Other languages
English (en)
Other versions
CN113538273B (zh
Inventor
夏致冰
张作超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202110792116.3A priority Critical patent/CN113538273B/zh
Publication of CN113538273A publication Critical patent/CN113538273A/zh
Application granted granted Critical
Publication of CN113538273B publication Critical patent/CN113538273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种图像处理方法及图像处理装置,该图像处理方法包括:获取待处理图像,所述待处理图像中包括被遮挡区域;将所述待处理图像输入识别网络,得到掩码信息以及第一修复图像,其中,所述识别网络用于识别所述被遮挡区域以及对所述被遮挡区域进行图像修复处理,所述掩码信息用于表示所述被遮挡区域在所述待处理图像中的位置;根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,其中,所述修复网络用于根据所述掩码信息确定所述被遮挡区域的位置并对所述被遮挡区域进行图像修复处理。基于本申请的技术方法,能够对图像中的被遮挡区域进行图像修复处理,从而提高用户体验。

Description

图像处理方法及图像处理装置
技术领域
本申请涉及图像处理领域,并且更具体地,涉及一种图像处理方法及图像处理装置。
背景技术
人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
机器学习是人工智能的一个重要分支,而深度学习又是机器学习的一个重要分支。深度学习(Deep Learning)是指利用多层神经网络结构,从大数据中学习现实世界中各类事物能直接用于计算机计算的表示形式(比如,图像中的事物、音频中的声音等)。在图像处理领域,深度学习在目标检测,图像生成,图像分割等问题上都取得了优越的成果。
目前,用户在进行图像拍摄时,图像中经常会存在部分被遮挡区域;例如,用户在使用终端设备进行拍照,尤其是使用终端设备的前置摄像头进行自拍。由于用户受到手臂长度的限制,自拍照片往往是近距离的,导致用户的自拍照中用户面部的占比较大。自拍装置的出现有效的解决了用户进行自拍的角度限制。例如,用户可以将终端设备固定在自拍杆上,伸缩自拍杆来达到多角度的拍摄。但是,自拍杆经常会不可避免的进入自拍的图像中,从而影响用户体验。因此,如何对图像中的被遮挡区域进行图像修复处理成为一个亟需解决的问题。
发明内容
本申请提供了一种图像处理方法及装置,能够对图像中的被遮挡区域进行图像修复处理,从而提高用户体验。
第一方面,提供一种图像处理方法,包括:获取待处理图像,所述待处理图像中包括被遮挡区域;将所述待处理图像输入识别网络,得到掩码信息以及第一修复图像,其中,所述识别网络用于识别所述被遮挡区域以及对所述被遮挡区域进行图像修复处理,所述掩码信息用于表示所述被遮挡区域在所述待处理图像中的位置;根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,其中,所述修复网络用于根据所述掩码信息确定所述被遮挡区域的位置并对所述被遮挡区域进行图像修复处理。
在本申请的实施例中,可以将获取的待处理图像输入至识别网络,识别网络可以识别待处理图像中的被遮挡区域的位置输出被遮挡区域的掩码信息;此外,识别网络还可以对待处理图像中的被遮挡区域进行初步图像恢复,即可以对被遮挡区域的框架或者轮廓进行图像恢复得到第一修复图像;进一步,可以根据掩码信息与修复网络对第一恢复图像中的被遮挡区域进行精细恢复,即恢复被遮挡区域的精细特征,从而得到图像修复处理后的目标图像。
应理解,待处理图像可以是指具有图像修复需求的图像;即待处理图像中可以包括拍摄目标以及与拍摄目标无关的部分。
还应理解,图像修复处理又可以称为图像修复,是指重建的图像中丢失或损坏的部分的过程。在本申请的实施例中,可以通过卷积神经网络执行图像修复处理的过程。
在一种可能的实现方式中,待处理图像可以是终端设备通过摄像头拍摄到的图像;或者,待处理图像还可以是从终端设备内部获得的图像(例如,终端设备的相册中存储的图像,或者,终端设备从云端获取的图片)。
还应理解,在本申请的实施例中,识别网络对被遮挡区域的修复精度是低于修复网络对被遮挡区域的修复精度;识别网络与修复网络的侧重点不同,识别网络可以用于恢复被遮挡区域的框架或者轮廓;修复网络是在识别网络对被遮挡区域恢复的基础上可以进一步对被遮挡区域的细节特征进行恢复;比如,细节特征可以包括但不限于纹理特征、亮度特征、颜色特征等。
在一种可能的实现方式中,识别网络可以是一个预先训练的神经网络;训练数据可以包括原始图像以及遮挡图像,遮挡图像是指在原始图像上覆盖遮盖物的图像;比如,原始图像可以是指不同用户的自拍图像,遮挡图像可以是指在不同用户的自拍图像上覆盖不同形状的自拍杆的图像;训练目标为原始图像与遮盖物的掩码;比如,训练目标可以是指自拍图像与自拍杆的掩码。
在一种可能的实现方式中,修复网络可以是一个预先训练的卷积网络,训练数据可以包括原始图像、被遮挡区域的掩码信息(比如,自拍杆的掩码信息)以及初步处理图像;训练目标可以为原始图像;比如,训练目标可以是指自拍图像。
应理解,识别网络与修复网络均可以以原始图像为输出目标;但是,训练识别网络与修复网络的损失函数可以不同;修复网络输出的第二修复图像中被遮挡区域的图像质量是高于识别网络输出的第一修复图像中被遮挡区域的图像质量。
结合第一方面,在第一方面的某些实现方式中,所述根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,包括:
根据所述待处理图像、所述掩码信息以及所述第一修复图像,得到初步处理图像,其中,所述初步处理图像包括所述待处理图像中的未被遮挡区域以及所述第一修复图像中的被遮挡区域;将所述初步处理图像与所述掩码信息输入所述修复网络,得到第二修复图像,其中,所述第二修复图像的图像质量优于所述第一修复图像的图像质量;根据所述待处理图像、所述第二修复图像以及所述掩码信息得到所述目标图像。
在一种可能的实现方式中,将待处理图像、第一修复图像以及掩码信息进行函数处理得到初步处理图像。
例如,初步处理图像是通过以下函数处理得到的:
初步处理图像=第一修复图像×掩码信息+待处理图像×(1-掩码信息)。
在一种可能的实现方式中,将待处理图像、第二修复图像以及掩码信息进行函数处理得到目标图像。
例如,目标图像是通过以下函数处理得到的:
目标图像=第二修复图像×掩码信息+待处理图像×(1-掩码信息)。
应理解,在本申请的实施例中,将掩码信息输入至修复网络是为了确保修复网络能够确定被遮挡区域的位置;将第一修复图像输入至修复网络可以确保未遮挡区域与待处理图像中保持一致。
在一种可能的实现方式中,可以将待处理图像、掩码信息以及第一修复图像输入至修复网络,得到第二修复图像。
结合第一方面,在第一方面的某些实现方式中,所述识别网络包括第一密集多尺度融合模块,所述第一密集多尺度融合模块用于通过扩张卷积增加所述识别网络的感受野。
在本申请的实施例,通过扩张卷积可以在不增加不增加参数的情况,增加识别网络的感受野,从而以便于识别网络能够通过待处理图像中与被遮挡区域距离较远区域的图像信息来修复被遮挡区域。
应理解,扩张卷积可以是指在卷积核(kernel)各个像素点之间加入0值像素点,变向的增大核的尺寸从而增大感受野;感受野是机器视觉领域的深度神经网络中有一个概念;感受野用于表示网络内部的不同位置的神经元对原图像的感受范围的大小。
结合第一方面,在第一方面的某些实现方式中,所述修复网络包括第一分支与第二分支,其中,所述第一分支用于根据图像块相似度修复所述被遮挡区域;所述第二分支用于根据图像语义信息修复所述被遮挡区域。
在本申请的实施例中,修复网络可以是一个双注意力机制的卷积网络架构;即修复网络中可以包括第一分支与第二分支,第一个分支用于根据被遮挡区域与其他区域的相似度对被遮挡区域进行图像恢复;第二个分支用于根据整个图像的图像语义信息对被遮挡区域进行图像恢复;比如,在整个图像中未找到与被遮挡区域相似度较高的区域时,此时可以主要采用第二个分支对被遮挡区域进行图像恢复;因此,修复网络中包括的第一分支与第二分支在对被遮挡区域进行恢复时可以是相辅相成的。
结合第一方面,在第一方面的某些实现方式中,所述第一分支包括跨注意力模块,所述跨注意力模块用于执行以下操作:
根据第一图像特征确定所述图像块相似度;根据所述图像块相似度与第二图像特征对所述被遮挡区域进行特征重建;其中,所述第一图像特征是指解码器输出的所述初步处理图像的图像特征;所述第二图像特征是指编码器输出的所述初步处理图像的图像特征。
在本申请的实施例中,使用解码器输出的图像特征计算图像相似度,编码器输出的图像特征进行特征重构;因为经过解码器处理后被遮挡区域的图像修复程度更高,计算其与未被遮挡区域的相似度更准确;此外,编码器输出的图像特征拥有更多的细节,与真值图像更接近,因此用来进行特征重构得到的结果更准确。
结合第一方面,在第一方面的某些实现方式中,所述第二分支包括多尺度自注意力模块,所述多尺度自注意力模块用于执行以下操作:获取所述第一图像特征;对所述第一图像特征并行进行不同的卷积操作,得到多个通道矩阵;根据所述多个通道矩阵对所述被遮挡区域进行特征重建。
应理解,图像语义信息可以用于数字计算机或者数字计算机控制的机器能够理解图像中所包括的内容;比如,被遮挡区域为手掌时,用户根据被遮挡区域周围未被遮挡的手指区域可以理解被遮挡区域为手掌;同理,机器也可以根据未被遮挡区域的图像语义信息修复被遮挡区域。其中,图像语义信息可以包括但不限于颜色特征、纹理特征、形状特征等;图像语义信息还可以包括高纬度语义层面上的特征,比如,图像表达出的接近用户理解的概念。
在一种可能的实现方式中,可以并行的对第一图像特征进行不同的多个卷积操作,得到多个通道矩阵。
应理解,对第一图像特征进行不同的多个卷积操作的侧重点可以不同;比如,多个卷积操作可以包括第一卷积操作、第二卷积操作以及第三卷积操作;其中,第一卷积操作可以侧重于纹理特征;第二卷积操作以侧重于细节特征;第三卷积操作可以侧重于亮度特征;通过对第一图像特征并行进行不同的卷积操作从而对被遮挡区域进行特征重建,能够从多方面更加准确的修复被遮挡区域。
结合第一方面,在第一方面的某些实现方式中,所述修复网络包括第二密集多尺度融合模块,所述第二密集多尺度融合模块用于通过扩张卷积增加所述修复网络的感受野。
在本申请的实施例,通过扩张卷积可以在不增加不增加参数的情况,增加修复网络的感受野,从而以便于修复网络能够通过待处理图像中与被遮挡区域距离较远区域的图像信息来修复被遮挡区域。
应理解,扩张卷积是指在卷积核插入空白数据,或是在卷积处理中跳过特征图的部分数据;感受野是机器视觉领域的深度神经网络中有一个概念;感受野用于表示网络内部的不同位置的神经元对原图像的感受范围的大小。
第二方面,提供一种图像处理方法,包括:检测到用户在终端设备上的第一操作;响应于所述第一操作,在所述终端设备的显示屏上显示待处理图像,所述待处理图像包括被遮挡区域;检测到所述用户在所述终端设备上的第二操作;响应于所述第二操作,在所述显示屏上显示目标图像;其中,所述目标图像是通过以下步骤得到的:
将所述待处理图像输入识别网络,得到掩码信息以及第一修复图像,其中,所述识别网络用于识别所述被遮挡区域以及对所述被遮挡区域进行图像修复处理,所述掩码信息用于表示所述被遮挡区域在所述待处理图像中的位置;根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,其中,所述修复网络用于根据所述掩码信息确定所述被遮挡区域的位置并对所述被遮挡区域进行图像修复处理。
在本申请的实施例中,可以将获取的待处理图像输入至识别网络,识别网络可以识别待处理图像中的被遮挡区域的位置输出被遮挡区域的掩码信息;此外,识别网络还可以对待处理图像中的被遮挡区域进行初步图像恢复,即可以对被遮挡区域的框架或者轮廓进行图像恢复得到第一修复图像;进一步,可以根据掩码信息与修复网络对第一恢复图像中的被遮挡区域进行精细恢复,即恢复被遮挡区域的精细特征,从而得到图像修复处理后的目标图像。
应理解,待处理图像可以是指具有图像修复需求的图像;即待处理图像中可以包括拍摄目标以及与拍摄目标无关的部分。
还应理解,图像修复处理又可以称为图像修复,是指重建的图像中丢失或损坏的部分的过程。在本申请的实施例中,可以通过卷积神经网络执行图像修复处理的过程。
在一种可能的实现方式中,待处理图像可以是终端设备通过摄像头拍摄到的图像;或者,待处理图像还可以是从终端设备内部获得的图像(例如,终端设备的相册中存储的图像,或者,终端设备从云端获取的图片)。
还应理解,在本申请的实施例中,识别网络对被遮挡区域的修复精度是低于修复网络对被遮挡区域的修复精度;识别网络与修复网络的侧重点不同,识别网络可以用于恢复被遮挡区域的框架或者轮廓;修复网络是在识别网络对被遮挡区域恢复的基础上可以进一步对被遮挡区域的细节特征进行恢复;比如,细节特征可以包括但不限于纹理特征、亮度特征、颜色特征等。
在一种可能的实现方式中,识别网络可以是一个预先训练的神经网络;训练数据可以包括原始图像以及遮挡图像,遮挡图像是指在原始图像上覆盖遮盖物的图像;比如,原始图像可以是指不同用户的自拍图像,遮挡图像可以是指在不同用户的自拍图像上覆盖不同形状的自拍杆的图像;训练目标为原始图像与遮盖物的掩码;比如,训练目标可以是指自拍图像与自拍杆的掩码。
在一种可能的实现方式中,修复网络可以是一个预先训练的卷积网络,训练数据可以包括原始图像、被遮挡区域的掩码信息(比如,自拍杆的掩码信息)以及初步处理图像;训练目标可以为原始图像;比如,训练目标可以是指自拍图像。
应理解,识别网络与修复网络均可以以原始图像为输出目标;但是,训练识别网络与修复网络的损失函数可以不同;修复网络输出的第二修复图像中被遮挡区域的图像质量是高于识别网络输出的第一修复图像中被遮挡区域的图像质量。
结合第二方面,在第二方面的某些实现方式中,所述第一操作是指所述用户用于指示打开所述终端设备的目标对象的操作,所述目标对象是指所述终端设备中的相机;或者,所述目标对象是指所述终端设备中的图像处理应用程序。
结合第二方面,在第二方面的某些实现方式中,所述第二操作是指所述用户用于指示图像修复模式的操作,所述图像修复模式用于对所述待处理图像中的被遮挡区域进行图像修复处理。
结合第二方面,在第二方面的某些实现方式中,所述根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,包括:
根据所述待处理图像、所述掩码信息以及所述第一修复图像,得到初步处理图像,其中,所述初步处理图像包括所述待处理图像中的未被遮挡区域以及所述第一修复图像中的被遮挡区域;
将所述初步处理图像与所述掩码信息输入所述修复网络,得到第二修复图像,其中,所述第二修复图像的图像质量优于所述第一修复图像的图像质量;
根据所述待处理图像、所述第二修复图像以及所述掩码信息得到所述目标图像。
在一种可能的实现方式中,将待处理图像、第一修复图像以及掩码信息进行函数处理得到初步处理图像。
例如,初步处理图像是通过以下函数处理得到的:
初步处理图像=第一修复图像×掩码信息+待处理图像×(1-掩码信息)。
在一种可能的实现方式中,将待处理图像、第二修复图像以及掩码信息进行函数处理得到目标图像。
例如,目标图像是通过以下函数处理得到的:
目标图像=第二修复图像×掩码信息+待处理图像×(1-掩码信息)。
应理解,在本申请的实施例中,将掩码信息输入至修复网络是为了确保修复网络能够确定被遮挡区域的位置;将第一修复图像输入至修复网络可以确保未遮挡区域与待处理图像中保持一致。
在一种可能的实现方式中,可以将待处理图像、掩码信息以及第一修复图像输入至修复网络,得到第二修复图像。
结合第二方面,在第二方面的某些实现方式中,所述识别网络包括第一密集多尺度融合模块,所述第一密集多尺度融合模块用于通过扩张卷积增加所述识别网络的感受野。
在本申请的实施例,通过扩张卷积可以在不增加不增加参数的情况,增加识别网络的感受野,从而以便于识别网络能够通过待处理图像中与被遮挡区域距离较远区域的图像信息来修复被遮挡区域。
应理解,扩张卷积可以是指在卷积核(kernel)各个像素点之间加入0值像素点,变向的增大核的尺寸从而增大感受野;感受野是机器视觉领域的深度神经网络中有一个概念;感受野用于表示网络内部的不同位置的神经元对原图像的感受范围的大小。
结合第二方面,在第二方面的某些实现方式中,所述修复网络包括第一分支与第二分支,其中,所述第一分支用于根据图像块相似度修复所述被遮挡区域;所述第二分支用于根据图像语义信息修复所述被遮挡区域。
在本申请的实施例中,修复网络可以是一个双注意力机制的卷积网络架构;即修复网络中可以包括第一分支与第二分支,第一个分支用于根据被遮挡区域与其他区域的相似度对被遮挡区域进行图像恢复;第二个分支用于根据整个图像的图像语义信息对被遮挡区域进行图像恢复;比如,在整个图像中未找到与被遮挡区域相似度较高的区域时,此时可以主要采用第二个分支对被遮挡区域进行图像恢复;因此,修复网络中包括的第一分支与第二分支在对被遮挡区域进行恢复时可以是相辅相成的。
结合第二方面,在第二方面的某些实现方式中,所述第一分支包括跨注意力模块,所述跨注意力模块用于执行以下操作:
根据第一图像特征确定所述图像块相似度;根据所述图像块相似度与第二图像特征对所述被遮挡区域进行特征重建;
其中,所述第一图像特征是指解码器输出的所述初步处理图像的图像特征;所述第二图像特征是指编码器输出的所述初步处理图像的图像特征。
在本申请的实施例中,使用解码器输出的图像特征计算图像相似度,编码器输出的图像特征进行特征重构;因为经过解码器处理后被遮挡区域的图像修复程度更高,计算其与未被遮挡区域的相似度更准确;此外,编码器输出的图像特征拥有更多的细节,与真值图像更接近,因此用来进行特征重构得到的结果更准确。
结合第二方面,在第二方面的某些实现方式中,所述第二分支包括多尺度自注意力模块,所述多尺度自注意力模块用于执行以下操作:
获取所述第一图像特征;对所述第一图像特征并行进行不同的卷积操作,得到多个通道矩阵;根据所述多个通道矩阵对所述被遮挡区域进行特征重建。
应理解,图像语义信息可以用于数字计算机或者数字计算机控制的机器能够理解图像中所包括的内容;比如,被遮挡区域为手掌时,用户根据被遮挡区域周围未被遮挡的手指区域可以理解被遮挡区域为手掌;同理,机器也可以根据未被遮挡区域的图像语义信息修复被遮挡区域。其中,图像语义信息可以包括但不限于颜色特征、纹理特征、形状特征等;图像语义信息还可以包括高纬度语义层面上的特征,比如,图像表达出的接近用户理解的概念。
在一种可能的实现方式中,可以并行的对第一图像特征进行不同的多个卷积操作,得到多个通道矩阵。
应理解,对第一图像特征进行不同的多个卷积操作的侧重点可以不同;比如,多个卷积操作可以包括第一卷积操作、第二卷积操作以及第三卷积操作;其中,第一卷积操作可以侧重于纹理特征;第二卷积操作以侧重于细节特征;第三卷积操作可以侧重于亮度特征;通过对第一图像特征并行进行不同的卷积操作从而对被遮挡区域进行特征重建,能够从多方面更加准确的修复被遮挡区域。
在本申请的实施例,通过扩张卷积可以在不增加不增加参数的情况,增加修复网络的感受野,从而以便于修复网络能够通过待处理图像中与被遮挡区域距离较远区域的图像信息来修复被遮挡区域。
应理解,扩张卷积是指在卷积核插入空白数据,或是在卷积处理中跳过特征图的部分数据;感受野是机器视觉领域的深度神经网络中有一个概念;感受野用于表示网络内部的不同位置的神经元对原图像的感受范围的大小。
结合第二方面,在第二方面的某些实现方式中,所述修复网络包括第二密集多尺度融合模块,所述第二密集多尺度融合模块用于通过扩张卷积增加所述修复网络的感受野。
第三方面,提供了一种图像处理装置,包括用于执行第一方面或第二方面中任一种方法的单元。该装置可以是终端设备,也可以是终端设备内的芯片。该装置可以包括输入单元和处理单元。
当该装置是终端设备时,该处理单元可以是处理器,该输入单元可以是通信接口;该终端设备还可以包括存储器,该存储器用于存储计算机程序代码,当该处理器执行该存储器所存储的计算机程序代码时,使得该终端设备执行第一方面或第二方面中的任一种方法。
当该装置是终端设备内的芯片时,该处理单元可以是芯片内部的处理单元,该输入单元可以是输出接口、管脚或电路等;该芯片还可以包括存储器,该存储器可以是该芯片内的存储器(例如,寄存器、缓存等),也可以是位于该芯片外部的存储器(例如,只读存储器、随机存取存储器等);该存储器用于存储计算机程序代码,当该处理器执行该存储器所存储的计算机程序代码时,使得该芯片执行第一方面或第二方面中的任一种方法。
在一种可能的实现方式中,存储器用于存储计算机程序代码;处理器,处理器执行该存储器所存储的计算机程序代码,当该存储器存储的计算机程序代码被执行时,该处理器用于执行:获取待处理图像,所述待处理图像中包括被遮挡区域;将所述待处理图像输入识别网络,得到掩码信息以及第一修复图像,其中,所述识别网络用于识别所述被遮挡区域以及对所述被遮挡区域进行图像修复处理,所述掩码信息用于表示所述被遮挡区域在所述待处理图像中的位置;根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,其中,所述修复网络用于根据所述掩码信息确定所述被遮挡区域的位置并对所述被遮挡区域进行图像修复处理。
在一种可能的实现方式中,存储器用于存储计算机程序代码;处理器,处理器执行该存储器所存储的计算机程序代码,当该存储器存储的计算机程序代码被执行时,该处理器用于执行:检测到用户在终端设备上的第一操作;响应于所述第一操作,在所述终端设备的显示屏上显示待处理图像,所述待处理图像包括被遮挡区域;检测到所述用户在所述终端设备上的第二操作;响应于所述第二操作,在所述显示屏上显示目标图像;其中,所述目标图像是通过以下步骤得到的:
将所述待处理图像输入识别网络,得到掩码信息以及第一修复图像,其中,所述识别网络用于识别所述被遮挡区域以及对所述被遮挡区域进行图像修复处理,所述掩码信息用于表示所述被遮挡区域在所述待处理图像中的位置;根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,其中,所述修复网络用于根据所述掩码信息确定所述被遮挡区域的位置并对所述被遮挡区域进行图像修复处理。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序代码,当所述计算机程序代码被图像处理装置运行时,使得该图像处理装置执行第一方面或第二方面中的任一种图像处理方法。
第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被图像处理装置运行时,使得该图像处理装置执行第一方面或第二方面中的任一种图像处理方法。
附图说明
图1是一种适用于本申请的装置的硬件系统的示意图;
图2是一种适用于本申请的装置的软件系统的示意图;
图3是本申请实施例提供的一种应用场景的示意图;
图4是本申请实施例提供的一种应用场景的示意图;
图5是本申请实施例提供的图像处理方法的示意图;
图6是本申请实施例提供的图像处理方法的示意图;
图7是本申请实施例提供的识别网络处理图像的示意图;
图8是本申请实施例提供的修复网络处理图像的示意图;
图9是本申请实施例提供的识别网络的结构示意图;
图10是本申请实施例提供的编码模块的结构示意图;
图11是本申请实施例提供的DMFB模块的结构示意图;
图12是本申请实施例提供的解码模块的结构示意图;
图13是本申请实施例提供的修复网络的结构示意图;
图14是本申请实施例提供的跨注意力模块的结构示意图;
图15是本申请实施例提供的多尺度自注意力模块的结构示意图;
图16是本申请实施例的提供的图像处理方法的示意性流程图;
图17是本申请提供的一种图像处理的显示界面的示意图;
图18是本申请提供的一种图像处理的显示界面的示意图;
图19是本申请提供的一种图像处理的显示界面的示意图;
图20是本申请提供的一种图像处理的显示界面的示意图;
图21是本申请提供的一种图像处理的显示界面的示意图;
图22是本申请提供的一种图像处理的显示界面的示意图;
图23是本申请提供的一种图像处理的显示界面的示意图;
图24是本申请提供的一种提醒处理装置的示意图;
图25是本申请提供的一种图像处理的电子设备的示意图。
具体实施方式
由于本申请实施例涉及大量神经网络的应用,为了便于理解,下面先对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。
(1)深度神经网络
深度神经网络(deep neural network,DNN),也称为多层神经网络,可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。
(2)损失函数
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断地调整,直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
(3)反向传播算法
神经网络可以采用误差反向传播(back propagation,BP)算法在训练过程中修正初始的神经网络模型中参数的大小,使得神经网络模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的神经网络模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,例如,权重矩阵。
(4)扩张率
扩张率又可以称为膨胀率,是扩张卷积(又称为空洞卷积)中的一个参数用于表示扩张的大小;可以指示卷积核(kernel)内各元素之间的间隔。
(5)感受野
机器视觉领域的深度神经网络中有一个概念叫做感受野;感受野用于表示网络内部的不同位置的神经元对原图像的感受范围的大小。
下面将结合附图,对本申请实施例中的技术方案进行描述。
图1示出了一种适用于本申请的装置的硬件系统。
装置100可以是手机、智慧屏、平板电脑、可穿戴电子设备、车载电子设备、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)、投影仪等等,本申请实施例对装置100的具体类型不作任何限制。
装置100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
需要说明的是,图1所示的结构并不构成对装置100的具体限定。在本申请另一些实施例中,装置100可以包括比图1所示的部件更多或更少的部件,或者,装置100可以包括图1所示的部件中某些部件的组合,或者,装置100可以包括图1所示的部件中某些部件的子部件。图1示的部件可以以硬件、软件、或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元。例如,处理器110可以包括以下处理单元中的至少一个:应用处理器(application processor,AP)、调制解调处理器、图形处理器(graphics processing unit,GPU)、图像信号处理器(image signal processor,ISP)、控制器、视频编解码器、数字信号处理器(digital signal processor,DSP)、基带处理器、神经网络处理器(neural-network processing unit,NPU)。其中,不同的处理单元可以是独立的器件,也可以是集成的器件。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。例如,处理器110可以包括以下接口中的至少一个:内部集成电路(inter-integrated circuit,I2C)接口、内部集成电路音频(inter-integrated circuit sound,I2S)接口、脉冲编码调制(pulse codemodulation,PCM)接口、通用异步接收传输器(universal asynchronous receiver/transmitter,UART)接口、移动产业处理器接口(mobile industry processor interface,MIPI)、通用输入输出(general-purpose input/output,GPIO)接口、SIM接口、USB接口。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K、充电器、闪光灯、摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现装置100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM接口耦合。
在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。
在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194和摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI)、显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现装置100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现装置100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号接口,也可被配置为数据信号接口。
在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194、无线通信模块160、音频模块170和传感器模块180。GPIO接口还可以被配置为I2C接口、I2S接口、UART接口或MIPI接口。
USB接口130是符合USB标准规范的接口,例如可以是迷你(Mini)USB接口、微型(Micro)USB接口或C型USB(USB Type C)接口。USB接口130可以用于连接充电器为装置100充电,也可以用于装置100与外围设备之间传输数据,还可以用于连接耳机以通过耳机播放音频。USB接口130还可以用于连接其他装置100,例如AR设备。
图1所示的各模块间的连接关系只是示意性说明,并不构成对装置100的各模块间的连接关系的限定。可选地,装置100的各模块也可以采用上述实施例中多种连接方式的组合。
充电管理模块140用于从充电器接收电力。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的电流。在一些无线充电的实施例中,充电管理模块140可以通过装置100的无线充电线圈接收电磁波(电流路径如虚线所示)。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为装置100供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量、电池循环次数和电池健康状态(例如,漏电、阻抗)等参数。可选地,电源管理模块141可以设置于处理器110中,或者,电源管理模块141和充电管理模块140可以设置于同一个器件中。
装置100的无线通信功能可以通过天线1、天线2、移动通信模块150、无线通信模块160、调制解调处理器以及基带处理器等器件实现。
天线1和天线2用于发射和接收电磁波信号。装置100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在装置100上的无线通信的解决方案,例如下列方案中的至少一个:第二代(2th generation,2G)移动通信解决方案、第三代(3thgeneration,3G)移动通信解决方案、第四代(4th generation,5G)移动通信解决方案、第五代(5th generation,5G)移动通信解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波和放大等处理,随后传送至调制解调处理器进行解调。移动通信模块150还可以放大经调制解调处理器调制后的信号,放大后的该信号经天线1转变为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(例如,扬声器170A、受话器170B)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
与移动通信模块150类似,无线通信模块160也可以提供应用在装置100上的无线通信解决方案,例如下列方案中的至少一个:无线局域网(wireless local areanetworks,WLAN)、蓝牙(bluetooth,BT)、蓝牙低功耗(bluetooth low energy,BLE)、超宽带(ultra wide band,UWB)、全球导航卫星系统(global navigation satellite system,GNSS)、调频(frequency modulation,FM)、近场通信(near field communication,NFC)、红外(infrared,IR)技术。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,并将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频和放大,该信号经天线2转变为电磁波辐射出去。
在一些实施例中,装置100的天线1和移动通信模块150耦合,装置100的天线2和无线通信模块160耦合,使得装置100可以通过无线通信技术与网络和其他电子设备通信。该无线通信技术可以包括以下通信技术中的至少一个:全球移动通讯系统(global systemfor mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code division multiple access,CDMA),宽带码分多址(widebandcode division multiple access,WCDMA),时分码分多址(time-division code divisionmultiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,IR技术。该GNSS可以包括以下定位技术中的至少一个:全球卫星定位系统(globalpositioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidou navigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS),星基增强系统(satellite basedaugmentation systems,SBAS)。
装置100可以通过GPU、显示屏194以及应用处理器实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194可以用于显示图像或视频。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)、有源矩阵有机发光二极体(active-matrix organic light-emitting diode,AMOLED)、柔性发光二极管(flex light-emitting diode,FLED)、迷你发光二极管(mini light-emitting diode,Mini LED)、微型发光二极管(micro light-emitting diode,Micro LED)、微型OLED(Micro OLED)或量子点发光二极管(quantum dotlight emitting diodes,QLED)。在一些实施例中,装置100可以包括1个或N个显示屏194,N为大于1的正整数。
装置100可以通过ISP、摄像头193、视频编解码器、GPU、显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP可以对图像的噪点、亮度和色彩进行算法优化,ISP还可以优化拍摄场景的曝光和色温等参数。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的红绿蓝(red green blue,RGB),YUV等格式的图像信号。在一些实施例中,装置100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当装置100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。装置100可以支持一种或多种视频编解码器。这样,装置100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1、MPEG2、MPEG3和MPEG4。
NPU是一种借鉴生物神经网络结构的处理器,例如借鉴人脑神经元之间传递模式对输入信息快速处理,还可以不断地自学习。通过NPU可以实现装置100的智能认知等功能,例如:图像识别、人脸识别、语音识别和文本理解。
外部存储器接口120可以用于连接外部存储卡,例如安全数码(secure digital,SD)卡,实现扩展装置100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能(例如,声音播放功能和图像播放功能)所需的应用程序。存储数据区可存储装置100使用过程中所创建的数据(例如,音频数据和电话本)。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如:至少一个磁盘存储器件、闪存器件和通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令和/或存储在设置于处理器中的存储器的指令,执行装置100的各种处理方法。
装置100可以通过音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D以及应用处理器等实现音频功能,例如,音乐播放和录音。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也可以用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170或者音频模块170的部分功能模块可以设置于处理器110中。
扬声器170A,也称为喇叭,用于将音频电信号转换为声音信号。装置100可以通过扬声器170A收听音乐或免提通话。
受话器170B,也称为听筒,用于将音频电信号转换成声音信号。当用户使用装置100接听电话或语音信息时,可以通过将受话器170B靠近耳朵接听语音。
麦克风170C,也称为话筒或传声器,用于将声音信号转换为电信号。当用户拨打电话或发送语音信息时,可以通过靠近麦克风170C发声将声音信号输入麦克风170C。装置100可以设置至少一个麦克风170C。在另一些实施例中,装置100可以设置两个麦克风170C,以实现降噪功能。在另一些实施例中,装置100还可以设置三个、四个或更多麦克风170C,以实现识别声音来源和定向录音等功能。处理器110可以对麦克风170C输出的电信号进行处理,例如,音频模块170与无线通信模块160可以通过PCM接口耦合,麦克风170C将环境声音转换为电信号(如PCM信号)后,通过PCM接口将该电信号传输至处理器110;从处理器110对该电信号进行音量分析和频率分析,确定环境声音的音量和频率。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动装置100平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,例如可以是电阻式压力传感器、电感式压力传感器或电容式压力传感器。电容式压力传感器可以是包括至少两个具有导电材料的平行板,当力作用于压力传感器180A,电极之间的电容改变,装置100根据电容的变化确定压力的强度。当触摸操作作用于显示屏194时,装置100根据压力传感器180A检测所述触摸操作。装置100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令;当触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定装置100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定装置100围绕三个轴(即,x轴、y轴和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。例如,当快门被按下时,陀螺仪传感器180B检测装置100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消装置100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航和体感游戏等场景。
气压传感器180C用于测量气压。在一些实施例中,装置100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。装置100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当装置100是翻盖机时,装置100可以根据磁传感器180D检测翻盖的开合。装置100可以根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测装置100在各个方向上(一般为x轴、y轴和z轴)加速度的大小。当装置100静止时可检测出重力的大小及方向。加速度传感器180E还可以用于识别装置100的姿态,作为横竖屏切换和计步器等应用程序的输入参数。
距离传感器180F用于测量距离。装置100可以通过红外或激光测量距离。在一些实施例中,例如在拍摄场景中,装置100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(light-emitting diode,LED)和光检测器,例如,光电二极管。LED可以是红外LED。装置100通过LED向外发射红外光。装置100使用光电二极管检测来自附近物体的红外反射光。当检测到反射光时,装置100可以确定附近存在物体。当检测不到反射光时,装置100可以确定附近没有物体。装置100可以利用接近光传感器180G检测用户是否手持装置100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式或口袋模式的自动解锁与自动锁屏。
环境光传感器180L用于感知环境光亮度。装置100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测装置100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。装置100可以利用采集的指纹特性实现解锁、访问应用锁、拍照和接听来电等功能。
温度传感器180J用于检测温度。在一些实施例中,装置100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,装置100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,装置100对电池142加热,以避免低温导致装置100异常关机。在其他一些实施例中,当温度低于又一阈值时,装置100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称为触控器件。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,触摸屏也称为触控屏。触摸传感器180K用于检测作用于其上或其附近的触摸操作。触摸传感器180K可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于装置100的表面,并且与显示屏194设置于不同的位置。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键和音量键。按键190可以是机械按键,也可以是触摸式按键。装置100可以接收按键输入信号,实现于案件输入信号相关的功能。
马达191可以产生振动。马达191可以用于来电提示,也可以用于触摸反馈。马达191可以对作用于不同应用程序的触摸操作产生不同的振动反馈效果。对于作用于显示屏194的不同区域的触摸操作,马达191也可产生不同的振动反馈效果。不同的应用场景(例如,时间提醒、接收信息、闹钟和游戏)可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态和电量变化,也可以用于指示消息、未接来电和通知。
SIM卡接口195用于连接SIM卡。SIM卡可以插入SIM卡接口195实现与装置100的接触,也可以从SIM卡接口195拔出实现与装置100的分离。装置100可以支持1个或N个SIM卡接口,N为大于1的正整数。同一个SIM卡接口195可以同时插入多张卡,所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容外部存储卡。装置100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,装置100采用嵌入式SIM(embedded-SIM,eSIM)卡,eSIM卡可以嵌在装置100中,不能和装置100分离。
上文详细描述了装置100的硬件系统,下面介绍装置100的软件系统。软件系统可以采用分层架构、事件驱动架构、微核架构、微服务架构或云架构,本申请实施例以分层架构为例,示例性地描述装置100的软件系统。
如图2所示,采用分层架构的软件系统分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,软件系统可以分为四层,从上至下分别为应用程序层、应用程序框架层、安卓运行时(Android Runtime)和系统库、以及内核层。
应用程序层可以包括相机、图库、日历、通话、地图、导航、WLAN、蓝牙、音乐、视频、短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用程序编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层可以包括一些预定义的函数。
例如,应用程序框架层包括窗口管理器、内容提供器、视图系统、电话管理器、资源管理器和通知管理器。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏、锁定屏幕和截取屏幕。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频、图像、音频、拨打和接听的电话、浏览历史和书签、以及电话簿。
视图系统包括可视控件,例如显示文字的控件和显示图片的控件。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成,例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供装置100的通信功能,例如通话状态(接通或挂断)的管理。
资源管理器为应用程序提供各种资源,比如本地化字符串、图标、图片、布局文件和视频文件。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于下载完成告知和消息提醒。通知管理器还可以管理以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知。通知管理器还可以管理以对话窗口形式出现在屏幕上的通知,例如在状态栏提示文本信息、发出提示音、电子设备振动以及指示灯闪烁。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理、堆栈管理、线程管理、安全和异常的管理、以及垃圾回收等功能。
系统库可以包括多个功能模块,例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:针对嵌入式系统的开放图形库(opengraphics library for embedded systems,OpenGL ES)和2D图形引擎(例如:skia图形库(skia graphics library,SGL))。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D图层和3D图层的融合。
媒体库支持多种音频格式的回放和录制、多种视频格式回放和录制以及静态图像文件。媒体库可以支持多种音视频编码格式,例如:MPEG4、H.264、动态图像专家组音频层面3(moving picture experts group audio layer III,MP3)、高级音频编码(advancedaudio coding,AAC)、自适应多码率(adaptive multi-rate,AMR)、联合图像专家组(jointphotographic experts group,JPG)和便携式网络图形(portable network graphics,PNG)。
三维图形处理库可以用于实现三维图形绘图、图像渲染、合成和图层处理。
二维图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层可以包括显示驱动、摄像头驱动、音频驱动和传感器驱动等驱动模块。
下面结合显示拍照场景,示例性说明装置100的软件系统和硬件系统的工作流程。
当用户在触摸传感器180K上进行触摸操作时,相应的硬件中断被发送至内核层,内核层将触摸操作加工成原始输入事件,原始输入事件例如包括触摸坐标和触摸操作的时间戳等信息。原始输入事件被存储在内核层,应用程序框架层从内核层获取原始输入事件,识别出原始输入事件对应的控件,并通知该控件对应的应用程序(application,APP)。例如,上述触摸操作为单击操作,上述控件对应的APP为相机APP,相机APP被单击操作唤醒后,可以通过API调用内核层的摄像头驱动,通过摄像头驱动控制摄像头193进行拍摄。
下面对本申请实施例的应用场景进行简要说明。
示例性地,如图3所示,本申请的图像处理方法可以应用于图像修复(图像补全)领域,可以获取待处理图像,将待处理图像输入至本申请实施例提供的适用于图像修复的神经网络进行图像处理,得到目标图像。
应用场景一:修复自拍图像中的自拍杆
例如,如图4所示,本申请实施例提供的图像修复的方法可以应用于终端设备修复图像中的自拍装置。比如,获取待处理图像,待处理图像可以是用户通过自拍装置获取的自拍图像,自拍图像中包括用户以及自拍杆;将待处理图像输入至本申请实施例提供的适用于图像修复的神经网络进行图像处理输出目标图像;目标图像可以是指去除自拍杆,并对自拍杆遮挡区域进行图像修复处理得到的图像。
应用场景二:修复风景图像中的遮挡区域
本申请实施例提供的图像修复的方法可以应用于修复图像中的遮挡对象。比如,用户在拍摄风景图像时拍摄到了其他的用户,通过本申请的图像修复的方法可以去除风景图像中的用户,并且对图像中用户的遮挡区域进行图像修复处理从而得到目标图像。
应理解,上述为对应用场景的举例说明,并不对本申请的应用场景作任何限定。
下面结合图5至图23对本申请实施例提供的图像处理方法进行详细描述。
图5是本申请实施例提供的图像处理方法的示意图。
例如,如图5所示,可以获取待处理图像210,将待处理图像210输入至本申请实施例提供的神经网络220进行图像处理,得到目标图像230;其中,神经网络220中可以包括识别网络221与修复网络222;识别网络221用于识别待处理图像中的第一对象,对第一对象所在的第一区域进行去除;第一对象可以是指与拍摄目标无关的对象,第一区域可以是指获取图像时与拍摄目标无关的区域,即第一对象所在的区域;并对第一区域的遮挡区域进行初步修复;修复网络222用于对初步修复的图像进行再次精细修复,从而得到目标图像。
例如,用户使用终端设备进行自拍时,用户可以为拍摄目标,第一对象可以是指自拍图像中的自拍杆,第一区域可以是指自拍杆在自拍图像中的所在区域。
例如,用户使用终端设备拍摄风景图像时,风景可以为拍摄目标,第一对象可以是指风景图像中的行人或者其他物品;第一区域可以是指风景图像中的行人以及其他物品在风景图像中的区域。
应理解,神经网络220可以是一个端到端的网络,对待处理图像可以从初步修复到精细修复,最终输出目标图像;目标图像可以是指对图像中与拍摄目标无关的区域进行去除以及修复后的图像。
图6是本申请实施例提供的图像处理方法的示意图。其中,图像处理方法可以包括步骤S310至步骤S380,下面分别对这些步骤进行详细的描述。
步骤S310、获取待处理图像。
示例性地,待处理图像可以是终端设备通过摄像头拍摄到的图像,或者,待处理图像还可以是从终端设备内部获得的图像(例如,终端设备的相册中存储的图像,或者,终端设备从云端获取的图片)。
应理解,待处理图像可以是指具有图像修复需求的图像;即待处理图像中可以包括拍摄目标以及与拍摄目标无关的部分;通过本申请实施例的图像处理方法可以将待处理图像中与拍摄对象无关的部分进行去除并对图像进行图像修复处理得到目标图像。
步骤S320、将待处理图像输入识别网络进行处理。
应理解,识别网络可以是卷积神经网络;比如,识别网络可以是基于U-Net结构。识别网络用于识别待处理图像中的第一对象,对第一对象所在的第一区域进行去除;并对第一区域的遮挡区域进行初始预测。
还应理解,识别网络对被遮挡区域的修复精度是低于修复网络对被遮挡区域的修复精度;识别网络与修复网络的侧重点不同,识别网络可以用于恢复遮挡区域的框架或者轮廓;修复网络是在识别网络对被遮挡区域恢复的基础上可以进一步对被遮挡区域的细节特征进行恢复;比如,细节特征可以包括但不限于纹理特征、亮度特征、颜色特征等。
在一个示例中,待处理图像可以是指包括自拍杆的用户自拍图像,识别网络可以对用户自拍图像中的自拍杆进行识别去除,以及对自拍杆的遮挡区域进行初始预测。
在一个示例中,待处理图像可以是指包括行人的风景图像,识别网络可以对风景图像中的行人进行识别去除,以及对行人的遮挡区域进行初始预测。
在本申请的实施例中,识别网络是一个预先训练的神经网络;训练数据可以包括原始图像以及遮挡图像,遮挡图像是指在原始图像上覆盖遮盖物的图像;比如,原始图像可以是指不同用户的自拍图像,遮挡图像可以是指在不同用户的自拍图像上覆盖不同形状的自拍杆的图像;训练目标为原始图像与遮盖物的掩码;比如,训练目标可以是指自拍图像与自拍杆的掩码。
在一个示例中,识别网络是通过以下损失函数训练得到的:
Figure BDA0003161374520000181
Figure BDA0003161374520000182
Figure BDA0003161374520000183
其中,LA表示预测遮盖区域的损失函数,LB表示预测未遮盖区域的损失函数,Lm表示预测掩码的损失函数;I1表示预测的初步修复图像(第一修复图像的一个示例);I2表示真值图像;M表示掩码信息;N表示图像中的像素点个数;m1i表示像素点的像素真值;m2i表示像素点的像素预测值。
在一个示例中,本地设备可以从执行设备获取到训练完成的识别网络的相关参数,将识别网络部署在本地设备上,利用该识别网络进行图像修复处理。
在另一种实现中,执行设备上可以直接部署识别网络,执行设备通过从本地设备获取待处理图像,并根据识别网络对待处理图像进行图像修复处理等。
其中,执行设备可以与其它计算设备配合使用,例如:数据存储器、路由器、负载均衡器等设备。执行设备可以布置在一个物理站点上,或者分布在多个物理站点上。执行设备可以使用数据存储系统中的数据,或者调用数据存储系统中的程序代码来实现本申请实施例的图像处理方法。
需要说明的是,上述执行设备也可以称为云端设备,此时执行设备可以部署在云端。
用户可以操作各自的本地设备与执行设备进行交互。每个本地设备可以表示任何计算设备,例如,个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备进行交互,通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。
在一个示例中,识别网络的网络架构可以如图9所示,识别网络可以基于U-Net结构包括编码模块、密集多尺度融合(dense multi-scale fusion block,DMFB)模块以及解码模块;其中,编码模块用于对待处理图像进行编码缩小尺寸提取深度特征;DMFB模块用于扩大识别网络的感受野,由多个拥有不同扩张率的扩张卷积组成;解码模块用于对图像特征进行解码扩大尺寸。
应理解,在识别网络中引入DMFB模块在扩大网络的感受野的同时,以便通过待处理图像中与被遮挡区域距离较远区域的图像信息来修复被遮挡区域。
示例性地,图10所示是编码模块的结构示意图;编码模块中可以包括下采样操作与卷积操作,下采样主要用于缩小图像尺寸;比如,可以采用卷积操作进行下采样。
示例性地,图11所示是密集多尺度融合模块(dense multi-scale fusion block,DMFB)的结构示意;conv表示扩张卷积,后面第一个数字表示卷积核大小,第二个数字表示扩张率;扩张率又可以称为膨胀率,是指卷积核内部元素的间隔数量。通过如图11所示的DMFB模块使用扩张卷积可以在不增加参数的情况下额外扩大感受野。
示例性地,图12所示是解码模块的结构示意图;解码模块中可以包括卷积操作与上采样操作,上采样操作用于放大图像特征的尺寸;比如,上采样操作可以是指采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。
步骤S330、输出掩码信息。
应理解,识别网络可以输出第一对象的掩码信息;第一对象可以是指待处理图像中与拍摄目标无关的对象;第一对象与拍摄目标无关,第一对象在图像中的所在区域对拍摄目标存在部分遮挡;第一对象所在区域也可以看作是图像的被遮挡区域,因此第一对象的掩码信息也可以看作是待处理图像中的被遮挡区域的掩码信息。
应理解,掩码信息又可以称为掩膜(mask),掩膜可以是指通过选定的图像,图形或物体,对待处理图像(全部或局部)进行遮挡,来控制待处理图像中的区域。
例如,可以根据目标区域掩码与待处理图像相乘,得到目标区域图像,目标区域内图像值保持不变,而目标区域外的图像值都为0。
步骤S340、输出初步修复图像(第一修复图像的一个示例)。
应理解,初步修复图像中对被遮挡区域的修复程度(特征重建程度)取决于预先训练识别网络时的训练目标以及收敛函数。但是,初步修复图像与最终输出的目标图像是存在差异的;最终输出的目标图像的图像质量是优于初步恢复图像的图像质量。修复网络可以在初步修复图像的基础上对初步恢复的被遮挡区域进行进一步精细修复,从而得到目标图像。
在一个示例中,如图7所示,待处理图像可以是指包括自拍杆的用户自拍图像;将包括自拍杆的用户自拍图像通过识别网络进行处理,输出自拍杆的掩码信息以及初步修复的自拍图像。
在一个示例中,待处理图像可以是指包括行人遮挡的风景图像;将包括行人遮挡的风景图像通过识别网络进行处理,输出行人所在区域的掩码信息以及初步修复的风景图像。
步骤S350、根据掩码信息与初步修复图像得到初步处理图像。
示例性地,初步处理图像是通过公式得到的:
初步处理图像=初步修复图像×掩码信息+待处理图像×(1-掩码信息);
例如,待处理图像是指包括自拍杆的用户自拍图像;当掩码的取值范围为[0,1]时,自拍杆区域的掩码与用户区域的掩码的总和可以为1,即用户区域的掩码=1-自拍杆区域的掩码。
在一个示例中,初步处理图像可以是根据掩码信息将初步修复图像在被遮挡区域的部分提取出来与待处理图像覆盖后得到的图像。
应理解,初步修复的图像是与待处理图像尺寸一致的完整图像;识别网络在对被遮挡区域进行初步修复时,可能会待处理图像中的未被遮挡区域产生一定影响;因此,可以对待处理图像中的未被遮挡区域与初步修复图像中的被遮挡区域进行叠加从而得到初步处理图像;初步处理图像既可以保证未被遮挡区域图像的图像质量,也可以得到初步恢复的被遮挡区域的图像。
步骤S360、将掩码信息与初步处理图像输入至修复网络。
应理解,修复网络可以是卷积神经网络;比如,修复网络可以是基于U-Net结构。修复网络用于对初步处理图像中的被遮挡区域进行精细恢复;根据掩码信息修复网络能够准确定位到待处理图像中需要进行精细修复的区域。
还应理解,修复网络与识别网络不同,修复网络不需要预测被遮挡区域的所在位置;而是对识别网络输出的初步修复图像的被遮挡区域进行精细修复,可以获得更加清晰自然的结果。
步骤S370、输出精细修复图像(第二修复图像的一个示例)。
应理解,精细修复的图像是与待处理图像尺寸一致的完整图像;精细修复图像对遮挡区域的修复精度高于初步修复图像中对遮挡区域的修复精度;精细修复图像中对遮挡区域的修复程度(特征重建程度)取决于预先训练修复网络时的训练目标以及收敛函数。
步骤S380、根据精细修复图像、掩码信息以及待处理图像得到目标图像。
示例性地,将待处理图像、掩码信息以及初步处理图像输入至修复网络,得到精细修复图像;再对精细修复图像、掩码信息以及待处理图像进行函数处理,得到目标图像。
例如,目标图像是通过以下函数处理得到的:
目标图像=精细修复图像×掩码信息+待处理图像×(1-掩码信息)。
在一个示例中,待处理图像是指包括自拍杆的用户自拍图像;当掩码的取值范围为[0,1]时,自拍杆区域的掩码与用户区域的掩码的总和可以为1,即用户区域的掩码=1-自拍杆区域的掩码。
在一个示例中,目标处理图像可以是根据掩码信息将精细修复图像在被遮挡区域的部分提取出来与待处理图像覆盖后得到的图像。
在一个示例中,如图8所示,待处理图像可以是指包括自拍杆的用户自拍图像;将自拍杆的掩码信息(即被遮挡区域的掩码信息)与初步处理图像输入至修复网络,得到精细修复图像;再对精细修复图像、掩码信息以及待处理图像进行函数处理,得到目标图像;目标图像可以是指用户自拍图像中去除自拍杆并对自拍杆遮挡用户的区域进行图像修复处理后的图像。
应理解,修复网络在对被遮挡区域进行精细修复时,可能会待处理图像中的未被挡区域产生一定影响;因此,可以对待处理图像中的未被挡区域与精细修复图像中的遮挡区域进行叠加从而得到目标图像。
示例性地,修复网络可以是一个预先训练的卷积网络,训练数据包括原始图像、被遮挡区域的掩码信息(比如,自拍杆的掩码信息)以及初步处理图像;训练目标可以为原始图像;比如,训练目标可以是指自拍图像。
需要说明的是,识别网络与修复网络均可以以原始图像为输出目标;但是,训练识别网络与修复网络的损失函数可以不同;修复网络输出的预测的精细修复图像中被遮挡区域的图像质量是优于识别网络输出的预测的初步修复图像中被遮挡区域的图像质量。
示例性地,在本申请的实施例中,可以将预测的精细修复图像与预测的目标图像输入至视觉几何组(Visual Geometry Group,VGG)网络中,进行图像特征提取;并将预测的精细修复图像的图像特征与真值之间的差异以及预测的目标图像的图像特征与真值之间的差异对修复网络进行反向迭代训练。
在一个示例中,修复网络是通过以下损失函数训练得到的:
Figure BDA0003161374520000211
Figure BDA0003161374520000212
Figure BDA0003161374520000213
其中,LP表示感知损失,感知损失用于表示预测精细修复图像和目标图像的高纬度语义层面上(提取的特征)的差异;L3表示预测精细修复图像的感知损失;L4表示预测目标图像的感知损失;Ψn表示图像特征;I3表示预测的精细修复图像;I4表示预测的目标图像;
Figure BDA0003161374520000214
表示图像特征的像素点个数;n表示提取图像特征对应的VGG网络的层数;A表示VGG网络提取层输出的图像特征的集合;LS表示风格重建损失,风格重建损失用于表示预测精细修复图像和目标图像被提取的特征内部通道间相关程度的差异;L5表示预测精细修复图像的风格重建损失;L4表示预测目标图像的风格重建损失;φ表示提取图像特征对应的矩阵;Wn表示图像特征的长;Hn表示图像特征的宽;Cn表示图像特征的通道。
在一个示例中,本地设备可以从执行设备获取到训练完成的修复网络的相关参数,将修复网络部署在本地设备上,利用该修复网络进行图像修复处理。
在另一种实现中,执行设备上可以直接部署修复网络,执行设备通过从本地设备获取待处理图像,并根据修复网络对待处理图像进行图像修复处理等。
其中,执行设备可以与其它计算设备配合使用,例如:数据存储器、路由器、负载均衡器等设备。执行设备可以布置在一个物理站点上,或者分布在多个物理站点上。执行设备可以使用数据存储系统中的数据,或者调用数据存储系统中的程序代码来实现本申请实施例的图像处理方法。
需要说明的是,上述执行设备也可以称为云端设备,此时执行设备可以部署在云端。
用户可以操作各自的本地设备与执行设备进行交互。每个本地设备可以表示任何计算设备,例如,个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备进行交互,通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。
在一种可能的实现方式中,修复网络的网络结构可以如图13所示,修复网络中可以包括编码模块、解码模块、DMFB模块、跨注意力模块、多尺度自注意力模块;编码模块用于对图像的进行压缩,减小图像的尺度;解码模块用于恢复图像的尺度;DMFB模块用于扩大感受野,以便通过待处理图像中离被遮挡区域较远位置的信息来修复被遮挡区域;跨注意力模块(cross attention)用于通过计算图像中每个子块间的相似度,将与被初步恢复的被遮挡区域相似度最高的子块填充至被遮挡区域;多尺度自注意力模块(multi selfattention)用于通过不同的卷积多次计算每个像素点间的相似度,通过相似度得分对每个像素点进行加权求和填充到输出特征图,以应对被遮挡区域是独立结构的情况。
应理解,修复网络可以是一个双注意力机制的卷积网络架构;修复网络的第一个分支主要通过跨注意力模块(cross attention),可以根据被遮挡区域与其他区域的相似度对被遮挡区域进行恢复;修复网络的第二个分支包括多尺度自注意力模块(multi selfattention),可以根据整个图像的语义信息对被遮挡区域进行恢复;比如,在整个图像中未找到与被遮挡区域相似度较高的区域时,此时可以主要第二个分支对被遮挡区域进行恢复;因此,修复网络中包括的第一分支与第二分支在对被遮挡区域进行恢复时可以是相辅相成的。
示例性地,跨注意力模块的网络结构可以如图14所示;跨注意力模块中的处理过程可以包括以下步骤:
步骤一:对解码器输出的图像特征进行卷积处理;
步骤二:对解码器输出的图像特征与掩码信息对应的元素相乘,得到未被遮挡区域的图像特征。
步骤三:对未被遮挡区域的图像特征进行卷积处理、左右翻转处理以及提取图像块;
步骤四:将步骤三提取的图像块作为卷积核,归一化后对步骤一的输出特征进行卷积,确定相似度。
步骤五:对编码器输出的图像特征进行卷积处理、左右翻转处理以及图像块提取;
步骤六:根据步骤四的相似度对步骤五提取的图像块进行特征重建。
应理解,在本申请的实施例中使用解码器输出的图像特征计算相似度,编码器输出的图像特征进行特征重构;因为经过解码器处理后被遮挡区域修补程度更高,计算其与未被遮挡区域的相似度更准确;而编码器输出的图像特征拥有更多的细节,与真值图像更接近,因此用来进行特征重构得到的结构更准确。
示例性地,多尺度自注意力模块的网络结构可以如图15所示;多尺度自注意力模块可以分别使用了三个不同的自注意力(self-attention)的重构特征,并将三个结果合并进行输出。多尺度自注意力模块中的处理过程可以包括以下步骤:
步骤一:获取解码器输出的图像特征。
步骤二:对图像特征进行三种不同的卷积处理及特征重组;比如,对图像特征进行卷积1与重组得到通道矩阵Q1、Q2、Q3;对图像特征进行卷积2与重组得到通道矩阵K1、K2、K3;对图像特征进行卷积3与重组得到通道矩阵V1、V2、V3。
步骤三:根据通道矩阵Q1、Q2、Q3分别与通道矩阵K1、K2、K3进行矩阵相乘,得到注意力特征图,即通道矩阵E1、E2、E3。
应理解,通道矩阵中的每个向量可以用于表示像素点的像素值;可以根据通道矩阵中像素点的相似度得到注意力特征图;比如,根据通道矩阵Q1与通道矩阵K1的像素点的相似度可以得到通道矩阵E1;同理,可以得到通道矩阵E2、E3。
步骤四:根据通道矩阵V1、V2、V3分别与通道矩阵E1、E2、E3进行矩阵相乘,得到通道矩阵O1、O2、O3。
例如,图像特征可以是指x、卷积1、卷积2以及卷积3可以分别为f(x)、g(x)和h(x);x可以分别经过三个1x1卷积结构的分支f(x)、g(x)和h(x),三通道对应的特征图的尺寸均不变,f(x)和g(x)可以改变通道数,h(x)的输出可以保持通道数不变;将f(x)的输出转置后和g(x)的输出矩阵相乘,经过归一化得到一个注意力特征图;将注意力特征图与h(x)的输出进行矩阵相乘,得到最终输出的三通道对应的特征图即O1、O2、O3。
示例性地,对解码器输出的图像特征进行不同的多个卷积操作的侧重点可以不同;比如,多个卷积操作可以包括第一卷积操作、第二卷积操作以及第三卷积操作;其中,第一卷积操作可以侧重于纹理特征;第二卷积操作以侧重于细节特征;第三卷积操作可以侧重于亮度特征;通过对解码器输出的图像特征进行不同的卷积操作从而对被遮挡区域进行特征重建,能够从多方面更加准确的修复被遮挡区域。
在本申请的实施例中,可以根据图像语义信息对被遮挡区域进行特征重建;其中,图像语义信息可以用于数字计算机或者数字计算机控制的机器能够理解图像中所包括的内容;比如,被遮挡区域为手掌时,用户根据被遮挡区域周围未被遮挡的手指区域可以理解被遮挡区域为手掌;同理,机器也可以根据未被遮挡区域的图像语义信息修复被遮挡区域。其中,图像语义信息可以包括但不限于颜色特征、纹理特征、形状特征等;图像语义信息还可以包括高纬度语义层面上的特征,比如,图像表达出的接近用户理解的概念。
图16是本申请实施例的提供的图像处理方法的示意性流程图。图16所示的方法400包括步骤S410至步骤S440,下面分别对这些步骤进行详细的描述。
步骤S410、接收到用户在终端设备的显示界面上的第一操作。
步骤S420、响应于所述第一操作,在显示界面上显示第一图像。
在一个示例中,响应于所述第一操作,在所述显示屏上显示拍摄界面,在所述显示屏上显示拍摄界面,所述拍摄界面上包括取景框,所述取景框内包括第一图像。
例如,用户的拍摄行为可以包括用户打开相机的第一操作;响应于所述第一操作,在显示屏上显示拍摄界面。
图17示出了终端设备的一种图形用户界面(graphical user interface,GUI),该GUI为终端设备的桌面510。当终端设备检测到用户点击桌面510上的相机应用(application,APP)的图标520的操作后,可以启动相机应用,显示如图18所示的另一GUI,该GUI可以称为拍摄界面530。该拍摄界面530上可以包括取景框540。在预览状态下,该取景框540内可以实时显示预览图像。
示例性的,参见图18,终端设备在启动相机后,取景框540内可以显示有第一图像,该第一图像为彩色图像。拍摄界面上还可以包括用于指示拍照模式的控件550,以及其它拍摄控件。
在一个示例中,用户的拍摄行为可以包括用户打开相机的第一操作;响应于所述第一操作,在显示屏上显示拍摄界面。例如,终端设备可以检测到用户点击桌面上的相机应用(application,APP)的图标的第一操作后,可以启动相机应用,显示拍摄界面。在拍摄界面上可以包括取景框,可以理解的是,在拍照模式和录像模式下,取景框的大小可以不同。例如,取景框可以为拍照模式下的取景框。在录像模式下,取景框可以为整个显示屏。在预览状态下即可以是用户打开相机且未按下拍照/录像按钮之前,该取景框内可以实时显示预览图像。
在一个示例中,如图23所示,响应于所述第一操作,在所述显示屏上运行图像处理应用程序;在图像处理应用程序中获取待处理图像。
步骤S430、接收用户在显示界面上进行的第二操作。
例如,可以是检测到用户指示图像修复处理的第二操作。参见图19,拍摄界面上包括拍摄选项560,在终端设备检测到用户点击拍摄选项560后,参见图20,终端设备显示拍摄模式界面。在终端设备检测到用户点击拍摄模式界面上用于修复遮挡处理模式561后,终端设备进入修复遮挡处理模式。
例如,可以是检测到用户用于指示拍摄的第二操作,该第二操作为在拍摄远距离的物体或者拍摄微小的物体的情况下用于指示拍摄的操作。参见图21中,终端设备检测到用户用于指示拍摄的第二操作570。
应理解,用户用于指示拍摄行为的第二操作可以包括按下终端设备的相机中的拍摄按钮,也可以包括终端设备通过语音指示终端设备进行拍摄行为,或者,还可以包括用户其它的指示终端设备进行拍摄行为。上述为举例说明,并不对本申请作任何限定。
步骤S440、响应于所述第二操作,在显示界面中显示第二图像。
在一个示例中,响应于所述第二操作,在所述取景框内显示第二图像;其中,第一图像可以为待处理图像,第二图像可以为对待处理图像进行图像修复处理后的目标图像,其中,所述目标图像是通过以下步骤得到的:
将所述待处理图像输入识别网络,得到掩码信息以及第一修复图像,其中,所述识别网络用于识别所述被遮挡区域以及对所述被遮挡区域进行图像修复处理,所述掩码信息用于表示所述被遮挡区域在所述待处理图像中的位置;根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,其中,所述修复网络用于根据所述掩码信息确定所述被遮挡区域的位置并对所述被遮挡区域进行图像修复处理。
需要说明的是,根据待处理图像得到目标图像的具体过程可以参见图3至图15的描述,此处不再赘述。
参见图22中取景框内显示的是第二图像,图21中取景框内显示的是第一图像,第二图像和第一图像的中的人像部分内容相同或者实质大致相同,但是第二图像中对自拍杆对人像的遮挡区域进行了修复,并且去除了图像中的自拍杆。
在一个示例中,如图23所示,本申请实施例提供的图像处理方法可以在图像处理应用程序中执行;用户可以点击图像处理APP,从终端设备的相册获取待处理图像对待处理图像进行图像修复处理,得到图像修复处理后的目标图像。
例如,待处理图像可以是用户通过自拍装置获取的自拍图像,目标图像可以是指去除自拍杆,并对自拍杆遮挡区域进行图像修复处理后的图像。
例如,待处理图像可以是指包括行人的风景图像,目标图像可以是指去除风景图像中的行人,并且对图像中行人的遮挡的风景区域进行图像修复处理得到的图像。
在本申请的实施例中,可以将获取的待处理图像输入至识别网络,识别网络可以识别待处理图像中的被遮挡区域的位置输出被遮挡区域的掩码信息;此外,识别网络还可以对待处理图像中的被遮挡区域进行初步图像恢复,即可以对被遮挡区域的框架或者轮廓进行图像恢复得到第一修复图像;进一步,可以根据掩码信息与修复网络对第一恢复图像中的被遮挡区域进行精细恢复,即恢复被遮挡区域的精细特征,从而得到图像修复处理后的目标图像。
应理解,上述举例说明是为了帮助本领域技术人员理解本申请实施例,而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明,显然可以进行各种等价的修改或变化,这样的修改或变化也落入本申请实施例的范围内。
上文结合图1至图23,详细描述了本申请实施例的图像处理方法,下面将结合图24和图25,详细描述本申请的装置实施例。应理解,本申请实施例中的图像处理装置可以执行前述本申请实施例的各种图像处理方法,即以下各种产品的具体工作过程,可以参考前述方法实施例中的对应过程。
图24是本申请实施例提供的图像处理装置的示意图。
应理解,图像处理装置600可以执行图3至图23所示的图像处理方法;图像处理装置600包括:获取单元610和处理单元620。还应理解,识别网络与修复网络可以部署于图像处理装置600中。
在一个示例中,获取单元610用于获取待处理图像,所述待处理图像中包括被遮挡区域;处理单元620用于将所述待处理图像输入识别网络,得到掩码信息以及第一修复图像,其中,所述识别网络用于识别所述被遮挡区域以及对所述被遮挡区域进行图像修复处理,所述掩码信息用于表示所述被遮挡区域在所述待处理图像中的位置;根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,其中,所述修复网络用于根据所述掩码信息确定所述被遮挡区域的位置并对所述被遮挡区域进行图像修复处理。
可选地,作为一个实施例,所述处理单元620具体用于:
根据所述待处理图像、所述掩码信息以及所述第一修复图像,得到初步处理图像,其中,所述初步处理图像包括所述待处理图像中的未被遮挡区域以及所述第一修复图像中的被遮挡区域;
将所述初步处理图像与所述掩码信息输入所述修复网络,得到第二修复图像,其中,所述第二修复图像的图像质量优于所述第一修复图像的图像质量;
根据所述待处理图像、所述第二修复图像以及所述掩码信息得到所述目标图像。
可选地,作为一个实施例,所述识别网络包括第一密集多尺度融合模块,所述第一密集多尺度融合模块用于通过扩张卷积增加所述识别网络的感受野。
可选地,作为一个实施例,所述修复网络包括第一分支与第二分支,其中,所述第一分支用于根据图像块相似度修复所述被遮挡区域;所述第二分支用于根据图像语义信息修复所述被遮挡区域。
可选地,作为一个实施例,所述第一分支包括跨注意力模块,所述跨注意力模块用于执行以下操作:
根据第一图像特征确定所述图像块相似度;
根据所述图像块相似度与第二图像特征对所述被遮挡区域进行特征重建;
其中,所述第一图像特征是指解码器输出的所述初步处理图像的图像特征;所述第二图像特征是指编码器输出的所述初步处理图像的图像特征。
可选地,作为一个实施例,所述第二分支包括多尺度自注意力模块,所述多尺度自注意力模块用于执行以下操作:
获取所述第一图像特征;
对所述第一图像特征并行进行不同的卷积操作,得到多个通道矩阵;
根据所述多个通道矩阵对所述被遮挡区域进行特征重建。
可选地,作为一个实施例,所述修复网络包括第二密集多尺度融合模块,所述第二密集多尺度融合模块用于通过扩张卷积增加所述修复网络的感受野。
在一个示例中,获取单元610用于检测到用户在终端设备上的第一操作;处理单元620用于响应于所述第一操作,在所述终端设备的显示屏上显示待处理图像,所述待处理图像包括被遮挡区域;获取单元610还用于检测到所述用户在所述终端设备上的第二操作;处理单元620还用于响应于所述第二操作,在所述显示屏上显示目标图像;其中,所述目标图像是通过以下步骤得到的:
将所述待处理图像输入识别网络,得到掩码信息以及第一修复图像,其中,所述识别网络用于识别所述被遮挡区域以及对所述被遮挡区域进行图像修复处理,所述掩码信息用于表示所述被遮挡区域在所述待处理图像中的位置;根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,其中,所述修复网络用于根据所述掩码信息确定所述被遮挡区域的位置并对所述被遮挡区域进行图像修复处理。
可选地,作为一个实施例,所述第一操作是指所述用户用于指示打开所述终端设备的目标对象的操作,所述目标对象是指所述终端设备中的相机;或者,所述目标对象是指所述终端设备中的图像处理应用程序。
可选地,作为一个实施例,所述第二操作是指所述用户用于指示图像修复模式的操作,所述图像修复模式用于对所述待处理图像中的被遮挡区域进行图像修复处理。
可选地,作为一个实施例,所述处理单元620具体用于:
根据所述待处理图像、所述掩码信息以及所述第一修复图像,得到初步处理图像,其中,所述初步处理图像包括所述待处理图像中的未被遮挡区域以及所述第一修复图像中的被遮挡区域;
将所述初步处理图像与所述掩码信息输入所述修复网络,得到第二修复图像,其中,所述第二修复图像的图像质量优于所述第一修复图像的图像质量;
根据所述待处理图像、所述第二修复图像以及所述掩码信息得到所述目标图像。
可选地,作为一个实施例,所述识别网络包括第一密集多尺度融合模块,所述第一密集多尺度融合模块用于通过扩张卷积增加所述识别网络的感受野。
可选地,作为一个实施例,所述修复网络包括第一分支与第二分支,其中,所述第一分支用于根据图像块相似度修复所述被遮挡区域;所述第二分支用于根据图像语义信息修复所述被遮挡区域。
可选地,作为一个实施例,所述第一分支包括跨注意力模块,所述跨注意力模块用于执行以下操作:
根据第一图像特征确定所述图像块相似度;
根据所述图像块相似度与第二图像特征对所述被遮挡区域进行特征重建;
其中,所述第一图像特征是指解码器输出的所述初步处理图像的图像特征;所述第二图像特征是指编码器输出的所述初步处理图像的图像特征。
可选地,作为一个实施例,所述第二分支包括多尺度自注意力模块,所述多尺度自注意力模块用于执行以下操作:
获取所述第一图像特征;
对所述第一图像特征并行进行不同的卷积操作,得到多个通道矩阵;
根据所述多个通道矩阵对所述被遮挡区域进行特征重建。
可选地,作为一个实施例,所述修复网络包括第二密集多尺度融合模块,所述第二密集多尺度融合模块用于通过扩张卷积增加所述修复网络的感受野。
需要说明的是,上述图像处理装置600以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现,对此不作具体限定。
例如,“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
因此,在本申请的实施例中描述的各示例的单元,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
图25示出了本申请提供的一种电子设备的结构示意图。图25中的虚线表示该单元或该模块为可选的。电子设备700可用于实现上述方法实施例中描述的图像处理方法。
电子设备700包括一个或多个处理器701,该一个或多个处理器701可支持电子设备700实现方法实施例中的图像处理方法。处理器701可以是通用处理器或者专用处理器。例如,处理器701可以是中央处理器(central processing unit,CPU)、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件,如分立门、晶体管逻辑器件或分立硬件组件。
处理器701可以用于对电子设备700进行控制,执行软件程序,处理软件程序的数据。电子设备700还可以包括通信单元705,用以实现信号的输入(接收)和输出(发送)。
例如,电子设备700可以是芯片,通信单元705可以是该芯片的输入和/或输出电路,或者,通信单元705可以是该芯片的通信接口,该芯片可以作为终端设备或其它电子设备的组成部分。
又例如,电子设备700可以是终端设备,通信单元705可以是该终端设备的收发器,或者,通信单元705可以是该终端设备的收发电路。
电子设备700中可以包括一个或多个存储器702,其上存有程序704,程序704可被处理器701运行,生成指令703,使得处理器701根据指令703执行上述方法实施例中描述的图像处理方法。
可选地,存储器702中还可以存储有数据。可选地,处理器701还可以读取存储器702中存储的数据,该数据可以与程序704存储在相同的存储地址,该数据也可以与程序704存储在不同的存储地址。
处理器701和存储器702可以单独设置,也可以集成在一起;例如,集成在终端设备的系统级芯片(system on chip,SOC)上。
示例性地,存储器702可以用于存储本申请实施例中提供的图像处理方法的相关程序704,处理器701可以用于在对终端设备进行图像修复时调用存储器702中存储的图像处理方法的相关程序704,执行本申请实施例的图像处理方法;例如,获取待处理图像,所述待处理图像中包括被遮挡区域;将所述待处理图像输入识别网络,得到掩码信息以及第一修复图像,其中,所述识别网络用于识别所述被遮挡区域以及对所述被遮挡区域进行图像修复处理,所述掩码信息用于表示所述被遮挡区域在所述待处理图像中的位置;根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,其中,所述修复网络用于根据所述掩码信息确定所述被遮挡区域的位置并对所述被遮挡区域进行图像修复处理。或者,检测到用户在终端设备上的第一操作;响应于所述第一操作,在所述终端设备的显示屏上显示待处理图像,所述待处理图像包括被遮挡区域;检测到所述用户在所述终端设备上的第二操作;响应于所述第二操作,在所述显示屏上显示目标图像;其中,所述目标图像是通过以下步骤得到的:将所述待处理图像输入识别网络,得到掩码信息以及第一修复图像,其中,所述识别网络用于识别所述被遮挡区域以及对所述被遮挡区域进行图像修复处理,所述掩码信息用于表示所述被遮挡区域在所述待处理图像中的位置;根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,其中,所述修复网络用于根据所述掩码信息确定所述被遮挡区域的位置并对所述被遮挡区域进行图像修复处理。
本申请还提供了一种计算机程序产品,该计算机程序产品被处理器701执行时实现本申请中任一方法实施例所述的图像处理方法。
该计算机程序产品可以存储在存储器702中,例如是程序704,程序704经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器701执行的可执行目标文件。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机执行时实现本申请中任一方法实施例所述的图像处理方法。该计算机程序可以是高级语言程序,也可以是可执行目标程序。
该计算机可读存储介质例如是存储器702。存储器702可以是易失性存储器或非易失性存储器,或者,存储器702可以同时包括易失性存储器和非易失性存储器。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmableROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(randomaccess memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamicRAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (20)

1.一种图像处理方法,其特征在于,包括:
获取待处理图像,所述待处理图像中包括被遮挡区域;
将所述待处理图像输入识别网络,得到掩码信息以及第一修复图像,其中,所述识别网络用于识别所述被遮挡区域以及对所述被遮挡区域进行图像修复处理,所述掩码信息用于表示所述被遮挡区域在所述待处理图像中的位置;
根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,其中,所述修复网络用于根据所述掩码信息确定所述被遮挡区域的位置并对所述被遮挡区域进行图像修复处理。
2.如权利要求1所述的图像处理方法,其特征在于,所述根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,包括:
根据所述待处理图像、所述掩码信息以及所述第一修复图像,得到初步处理图像,其中,所述初步处理图像包括所述待处理图像中的未被遮挡区域以及所述第一修复图像中的被遮挡区域;
将所述初步处理图像与所述掩码信息输入所述修复网络,得到第二修复图像,其中,所述第二修复图像的图像质量优于所述第一修复图像的图像质量;
根据所述待处理图像、所述第二修复图像以及所述掩码信息得到所述目标图像。
3.如权利要求2所述的图像处理方法,其特征在于,所述识别网络包括第一密集多尺度融合模块,所述第一密集多尺度融合模块用于通过扩张卷积增加所述识别网络的感受野。
4.如权利要求2或3所述的图像处理方法,其特征在于,所述修复网络包括第一分支与第二分支,其中,所述第一分支用于根据图像块相似度修复所述被遮挡区域;所述第二分支用于根据图像语义信息修复所述被遮挡区域。
5.如权利要求4所述的图像处理方法,其特征在于,所述第一分支包括跨注意力模块,所述跨注意力模块用于执行以下操作:
根据第一图像特征确定所述图像块相似度;
根据所述图像块相似度与第二图像特征对所述被遮挡区域进行特征重建;
其中,所述第一图像特征是指解码器输出的所述初步处理图像的图像特征;所述第二图像特征是指编码器输出的所述初步处理图像的图像特征。
6.如权利要求5所述的图像处理方法,其特征在于,所述第二分支包括多尺度自注意力模块,所述多尺度自注意力模块用于执行以下操作:
获取所述第一图像特征;
对所述第一图像特征并行进行不同的卷积操作,得到多个通道矩阵;
根据所述多个通道矩阵对所述被遮挡区域进行特征重建。
7.如权利要求1至6中任一项所述的图像处理方法,其特征在于,所述修复网络包括第二密集多尺度融合模块,所述第二密集多尺度融合模块用于通过扩张卷积增加所述修复网络的感受野。
8.一种图像处理方法,其特征在于,包括:
检测到用户在终端设备上的第一操作;
响应于所述第一操作,在所述终端设备的显示屏上显示待处理图像,所述待处理图像包括被遮挡区域;
检测到所述用户在所述终端设备上的第二操作;
响应于所述第二操作,在所述显示屏上显示目标图像;其中,所述目标图像是通过以下步骤得到的:
将所述待处理图像输入识别网络,得到掩码信息以及第一修复图像,其中,所述识别网络用于识别所述被遮挡区域以及对所述被遮挡区域进行图像修复处理,所述掩码信息用于表示所述被遮挡区域在所述待处理图像中的位置;
根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,其中,所述修复网络用于根据所述掩码信息确定所述被遮挡区域的位置并对所述被遮挡区域进行图像修复处理。
9.如权利要求8所述的图像处理方法,其特征在于,所述第一操作是指所述用户用于指示打开所述终端设备的目标对象的操作,所述目标对象是指所述终端设备中的相机;或者,所述目标对象是指所述终端设备中的图像处理应用程序。
10.如权利要求8或9所述的图像处理方法,其特征在于,所述第二操作是指所述用户用于指示图像修复模式的操作,所述图像修复模式用于对所述待处理图像中的被遮挡区域进行图像修复处理。
11.如权利要求8至10中任一项所述的图像处理方法,其特征在于,所述根据所述掩码信息、所述第一修复图像以及修复网络得到目标图像,包括:
根据所述待处理图像、所述掩码信息以及所述第一修复图像,得到初步处理图像,其中,所述初步处理图像包括所述待处理图像中的未被遮挡区域以及所述第一修复图像中的被遮挡区域;
将所述初步处理图像与所述掩码信息输入所述修复网络,得到第二修复图像,其中,所述第二修复图像的图像质量优于所述第一修复图像的图像质量;
根据所述待处理图像、所述第二修复图像以及所述掩码信息得到所述目标图像。
12.如权利要求11中任一项所述的图像处理方法,其特征在于,所述识别网络包括第一密集多尺度融合模块,所述第一密集多尺度融合模块用于通过扩张卷积增加所述识别网络的感受野。
13.如权利要求11或12所述的图像处理方法,其特征在于,所述修复网络包括第一分支与第二分支,其中,所述第一分支用于根据图像块相似度修复所述被遮挡区域;所述第二分支用于根据图像语义信息修复所述被遮挡区域。
14.如权利要求13所述的图像处理方法,其特征在于,所述第一分支包括跨注意力模块,所述跨注意力模块用于执行以下操作:
根据第一图像特征确定所述图像块相似度;
根据所述图像块相似度与第二图像特征对所述被遮挡区域进行特征重建;
其中,所述第一图像特征是指解码器输出的所述初步处理图像的图像特征;所述第二图像特征是指编码器输出的所述初步处理图像的图像特征。
15.如权利要求14所述的图像处理方法,其特征在于,所述第二分支包括多尺度自注意力模块,所述多尺度自注意力模块用于执行以下操作:
获取所述第一图像特征;
对所述第一图像特征并行进行不同的卷积操作,得到多个通道矩阵;
根据所述多个通道矩阵对所述被遮挡区域进行特征重建。
16.如权利要求8至15中任一项所述的图像处理方法,其特征在于,所述修复网络包括第二密集多尺度融合模块,所述第二密集多尺度融合模块用于通过扩张卷积增加所述修复网络的感受野。
17.一种图像处理装置,其特征在于,所述图像处理装置包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于从所述存储器中调用并运行所述计算机程序,使得所述图像处理装置执行权利要求1至7中任一项所述的图像处理方法;或者,使得所述装置执行权利要求8至16中任一项所述的图像处理方法。
18.一种芯片,其特征在于,包括处理器,当所述处理器执行指令时,所述处理器执行如权利要求1至7中任一项所述的图像处理方法;或者,所述处理器执行如权利要求8至16中任一项所述的图像处理方法。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行权利要求1至7中任一项所述的图像处理方法;或者,使得处理器执行权利要求8至16中任一项所述的图像处理方法。
20.一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被处理器执行时,使得处理器执行权利要求1至7中任一项所述的图像处理方法;或者,使得处理器执行权利要求8至16中任一项所述的图像处理方法。
CN202110792116.3A 2021-07-13 2021-07-13 图像处理方法及图像处理装置 Active CN113538273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110792116.3A CN113538273B (zh) 2021-07-13 2021-07-13 图像处理方法及图像处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110792116.3A CN113538273B (zh) 2021-07-13 2021-07-13 图像处理方法及图像处理装置

Publications (2)

Publication Number Publication Date
CN113538273A true CN113538273A (zh) 2021-10-22
CN113538273B CN113538273B (zh) 2023-09-19

Family

ID=78127751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110792116.3A Active CN113538273B (zh) 2021-07-13 2021-07-13 图像处理方法及图像处理装置

Country Status (1)

Country Link
CN (1) CN113538273B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114897722A (zh) * 2022-04-29 2022-08-12 中国科学院西安光学精密机械研究所 一种自编码网络及基于自编码网络的波前图像复原方法
CN115115918A (zh) * 2022-06-16 2022-09-27 上海人工智能创新中心 一种基于多知识融合的视觉学习方法
CN115205161A (zh) * 2022-08-18 2022-10-18 荣耀终端有限公司 一种图像处理方法及设备
CN115460348A (zh) * 2022-08-25 2022-12-09 Oppo广东移动通信有限公司 对焦清晰度检测方法及装置、存储介质和电子设备
CN115908120A (zh) * 2023-01-06 2023-04-04 荣耀终端有限公司 图像处理方法和电子设备
CN116152122A (zh) * 2023-04-21 2023-05-23 荣耀终端有限公司 图像处理方法和电子设备
CN116311106A (zh) * 2023-05-24 2023-06-23 合肥市正茂科技有限公司 一种遮挡图像识别模型的训练方法、装置、设备及介质
WO2023202570A1 (zh) * 2022-04-21 2023-10-26 维沃移动通信有限公司 图像处理方法和处理装置、电子设备和可读存储介质
CN115115918B (zh) * 2022-06-16 2024-05-31 上海人工智能创新中心 一种基于多知识融合的视觉学习方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777178A (zh) * 2010-01-28 2010-07-14 南京大学 一种图像修复方法
US20180165798A1 (en) * 2016-12-14 2018-06-14 Adobe Systems Incorporated Image hole filling that accounts for global structure and local texture
CN109584178A (zh) * 2018-11-29 2019-04-05 腾讯科技(深圳)有限公司 图像修复方法、装置和存储介质
CN110097110A (zh) * 2019-04-26 2019-08-06 华南理工大学 一种基于目标优化的语义图像修复方法
US20190355102A1 (en) * 2018-05-15 2019-11-21 Adobe Inc. Digital Image Completion by Learning Generation and Patch Matching Jointly
US20200082542A1 (en) * 2017-12-11 2020-03-12 Tencent Technology (Shenzhen) Company Limited Image processing method and apparatus
CN110929651A (zh) * 2019-11-25 2020-03-27 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
CN111242874A (zh) * 2020-02-11 2020-06-05 北京百度网讯科技有限公司 图像修复的方法、装置、电子设备和存储介质
CN111723585A (zh) * 2020-06-08 2020-09-29 中国石油大学(华东) 一种风格可控的图像文本实时翻译与转换方法
CN112132770A (zh) * 2020-09-21 2020-12-25 腾讯科技(深圳)有限公司 图像修复的方法、装置、计算机可读介质及电子设备
CN112488935A (zh) * 2020-11-26 2021-03-12 杭州电子科技大学 基于纹理约束和泊松融合的生成对抗指静脉图像修复方法
WO2021080145A1 (ko) * 2019-10-24 2021-04-29 연세대학교 산학협력단 이미지 채움 장치 및 방법
US20210125313A1 (en) * 2019-10-25 2021-04-29 Samsung Electronics Co., Ltd. Image processing method, apparatus, electronic device and computer readable storage medium

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777178A (zh) * 2010-01-28 2010-07-14 南京大学 一种图像修复方法
US20180165798A1 (en) * 2016-12-14 2018-06-14 Adobe Systems Incorporated Image hole filling that accounts for global structure and local texture
US20200082542A1 (en) * 2017-12-11 2020-03-12 Tencent Technology (Shenzhen) Company Limited Image processing method and apparatus
US20190355102A1 (en) * 2018-05-15 2019-11-21 Adobe Inc. Digital Image Completion by Learning Generation and Patch Matching Jointly
CN109584178A (zh) * 2018-11-29 2019-04-05 腾讯科技(深圳)有限公司 图像修复方法、装置和存储介质
US20210183022A1 (en) * 2018-11-29 2021-06-17 Tencent Technology (Shenzhen) Company Limited Image inpainting method and apparatus, computer device, and storage medium
CN110097110A (zh) * 2019-04-26 2019-08-06 华南理工大学 一种基于目标优化的语义图像修复方法
WO2021080145A1 (ko) * 2019-10-24 2021-04-29 연세대학교 산학협력단 이미지 채움 장치 및 방법
US20210125313A1 (en) * 2019-10-25 2021-04-29 Samsung Electronics Co., Ltd. Image processing method, apparatus, electronic device and computer readable storage medium
CN110929651A (zh) * 2019-11-25 2020-03-27 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
CN111242874A (zh) * 2020-02-11 2020-06-05 北京百度网讯科技有限公司 图像修复的方法、装置、电子设备和存储介质
CN111723585A (zh) * 2020-06-08 2020-09-29 中国石油大学(华东) 一种风格可控的图像文本实时翻译与转换方法
CN112132770A (zh) * 2020-09-21 2020-12-25 腾讯科技(深圳)有限公司 图像修复的方法、装置、计算机可读介质及电子设备
CN112488935A (zh) * 2020-11-26 2021-03-12 杭州电子科技大学 基于纹理约束和泊松融合的生成对抗指静脉图像修复方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
JINGJUN QIU ET AL: "Position and Channel Attention for Image Inpainting by Semantic Structure", 《2020 IEEE 32ND INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE (ICTAI)》 *
JINGJUN QIU ET AL: "Position and Channel Attention for Image Inpainting by Semantic Structure", 《2020 IEEE 32ND INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE (ICTAI)》, 24 December 2020 (2020-12-24), pages 1290 - 1295 *
曹承瑞等: "多级注意力传播驱动的生成式图像修复方法", 《自动化学报》 *
曹承瑞等: "多级注意力传播驱动的生成式图像修复方法", 《自动化学报》, 5 February 2021 (2021-02-05), pages 1 - 10 *
肖锋等: "结合感知注意力机制的生成式对抗网络图像修复", 《西安工业大学学报》 *
肖锋等: "结合感知注意力机制的生成式对抗网络图像修复", 《西安工业大学学报》, vol. 41, no. 2, 30 April 2021 (2021-04-30), pages 198 - 205 *
陈俊周等: "基于级联生成对抗网络的人脸图像修复", 《电子科技大学学报》, vol. 48, no. 6, pages 910 - 917 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023202570A1 (zh) * 2022-04-21 2023-10-26 维沃移动通信有限公司 图像处理方法和处理装置、电子设备和可读存储介质
CN114897722A (zh) * 2022-04-29 2022-08-12 中国科学院西安光学精密机械研究所 一种自编码网络及基于自编码网络的波前图像复原方法
CN114897722B (zh) * 2022-04-29 2023-04-18 中国科学院西安光学精密机械研究所 一种基于自编码网络的波前图像复原方法
CN115115918A (zh) * 2022-06-16 2022-09-27 上海人工智能创新中心 一种基于多知识融合的视觉学习方法
CN115115918B (zh) * 2022-06-16 2024-05-31 上海人工智能创新中心 一种基于多知识融合的视觉学习方法
CN115205161A (zh) * 2022-08-18 2022-10-18 荣耀终端有限公司 一种图像处理方法及设备
CN115205161B (zh) * 2022-08-18 2023-02-21 荣耀终端有限公司 一种图像处理方法及设备
CN115460348A (zh) * 2022-08-25 2022-12-09 Oppo广东移动通信有限公司 对焦清晰度检测方法及装置、存储介质和电子设备
CN115460348B (zh) * 2022-08-25 2024-04-23 Oppo广东移动通信有限公司 对焦清晰度检测方法及装置、存储介质和电子设备
CN115908120A (zh) * 2023-01-06 2023-04-04 荣耀终端有限公司 图像处理方法和电子设备
CN116152122B (zh) * 2023-04-21 2023-08-25 荣耀终端有限公司 图像处理方法和电子设备
CN116152122A (zh) * 2023-04-21 2023-05-23 荣耀终端有限公司 图像处理方法和电子设备
CN116311106A (zh) * 2023-05-24 2023-06-23 合肥市正茂科技有限公司 一种遮挡图像识别模型的训练方法、装置、设备及介质
CN116311106B (zh) * 2023-05-24 2023-08-22 合肥市正茂科技有限公司 一种遮挡图像识别模型的训练方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113538273B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN113538273B (zh) 图像处理方法及图像处理装置
CN113132620B (zh) 一种图像拍摄方法及相关装置
CN112262563A (zh) 图像处理方法及电子设备
WO2021078001A1 (zh) 一种图像增强方法及装置
CN113170037B (zh) 一种拍摄长曝光图像的方法和电子设备
CN111563466B (zh) 人脸检测方法及相关产品
CN113542580B (zh) 去除眼镜光斑的方法、装置及电子设备
WO2023284715A1 (zh) 一种物体重建方法以及相关设备
CN113935898A (zh) 图像处理方法、系统、电子设备及计算机可读存储介质
CN114140365B (zh) 基于事件帧的特征点匹配方法及电子设备
CN113052056A (zh) 一种视频处理的方法以及装置
CN113723397B (zh) 一种截屏方法及电子设备
CN115641867B (zh) 语音处理方法和终端设备
CN115686182B (zh) 增强现实视频的处理方法与电子设备
CN114079725B (zh) 视频防抖方法、终端设备和计算机可读存储介质
CN114445522A (zh) 笔刷效果图生成方法、图像编辑方法、设备和存储介质
CN114363482B (zh) 一种标定图像的确定方法及电子设备
CN116703741B (zh) 一种图像对比度的生成方法、装置和电子设备
CN116051351B (zh) 一种特效处理方法和电子设备
CN116193275B (zh) 视频处理方法及相关设备
CN115460343B (zh) 图像处理方法、设备及存储介质
CN115802144B (zh) 视频拍摄方法及相关设备
CN116723410B (zh) 调节帧间隔的方法和装置
CN117499797B (zh) 图像处理方法及相关设备
CN116719569B (zh) 启动应用的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant