CN117474807A - 一种图像修复方法、装置、设备及存储介质 - Google Patents

一种图像修复方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117474807A
CN117474807A CN202311819869.4A CN202311819869A CN117474807A CN 117474807 A CN117474807 A CN 117474807A CN 202311819869 A CN202311819869 A CN 202311819869A CN 117474807 A CN117474807 A CN 117474807A
Authority
CN
China
Prior art keywords
image
audio
repaired
training
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311819869.4A
Other languages
English (en)
Other versions
CN117474807B (zh
Inventor
应通和
王金钖
许丽
万根顺
熊世富
高建清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202311819869.4A priority Critical patent/CN117474807B/zh
Priority claimed from CN202311819869.4A external-priority patent/CN117474807B/zh
Publication of CN117474807A publication Critical patent/CN117474807A/zh
Application granted granted Critical
Publication of CN117474807B publication Critical patent/CN117474807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/86Arrangements for image or video recognition or understanding using pattern recognition or machine learning using syntactic or structural representations of the image or video pattern, e.g. symbolic string recognition; using graph matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种图像修复方法、装置、设备及存储介质,图像修复方法包括:获取待修复图像以及与待修复图像相关的音频;获取能够表征音频的整个音频信息的音频特征,作为目标音频特征;利用目标音频特征,对待修复图像进行修复,得到待修复图像对应的修复后图像。本发明提供的图像修复方法可利用与待修复图像相关的音频的信息对待修复图像中受损的图像信息进行补偿,从而实现真正意义上的受损补偿,本发明提供的图像修复方法具有较好的修复效果。

Description

一种图像修复方法、装置、设备及存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像修复方法、装置、设备及存储介质。
背景技术
随着数字技术的飞速发展和广泛应用,人们的生活中充满了大量的数字图像,然而,这些图像在生成、存储和传输过程中可能会遭受各种形式的损坏,如像素丢失、模糊、破损等,这种损坏不仅影响了图像的质量和可用性,也限制了图像在许多领域(比如医疗、艺术、安全等领域)的应用。
图像修复技术是一种利用计算机科学和人工智能技术,对受损图像进行恢复和优化的技术。目前的图像修复方法主要为基于补丁的修复方法,基于补丁的修复方法的主要思路是,在受损图像的未受损区域中搜索能够匹配受损区域的补丁,而后将补丁填充至受损区域。
然而,上述的图像修复方法本质上是局部复制移动图像区域,并没有实现真正意义上的受损补偿,因此,对于某些受损图像修复效果不理想。
发明内容
有鉴于此,本发明提供了一种图像修复方法、装置、设备及存储介质,用以解决现有的图像修复方法没有实现真正意义上的受损补偿,进而,对于某些受损图像修复效果不理想的问题,其技术方案如下:
第一方面,提供了一种图像修复方法,包括:
获取待修复图像以及与所述待修复图像相关的音频;
获取能够表征所述音频的整个音频信息的音频特征,作为目标音频特征;
利用所述目标音频特征,对所述待修复图像进行修复,得到所述待修复图像对应的修复后图像。
可选的,与所述待修复图像相关的音频包括如下音频中的任一种:
采集所述待修复图像时周围环境的音频、所述待修复图像的内容描述音频。
可选的,所述获取能够表征所述音频的整个音频信息的音频特征,包括:
获取所述音频包含的各音频帧分别对应的音频特征;
对所述音频包含的各音频帧分别对应的音频特征进行归一化处理,得到所述音频包含的各音频帧分别对应的归一化后音频特征;
将所述音频包含的各音频帧分别对应的归一化后音频特征融合,得到能够表征所述音频的整个音频信息的音频特征。
可选的,所述利用所述目标音频特征,对所述待修复图像进行修复,得到所述待修复图像对应的修复后图像,包括:
将所述目标音频特征融入所述待修复图像中,得到融合有所述目标音频特征的图像;
将所述融合有所述目标音频特征的图像处理为融合有所述目标音频特征的图像特征,作为目标融合特征;
根据所述目标融合特征,生成所述待修复图像对应的修复后图像。
可选的,所述将所述目标音频特征融入所述待修复图像中,包括:
在所述待修复图像的每行像素上加上所述目标音频特征;
或者,在所述待修复图像的每列像素上加上所述目标音频特征。
可选的,所述利用所述目标音频特征,对所述待修复图像进行修复,得到所述待修复图像对应的修复后图像,包括:
将所述待修复图像和所述目标音频特征输入预先训练得到的图像修复模型,得到所述图像修复模型输出的所述待修复图像对应的修复后图像;
其中,所述图像修复模型采用训练受损图像和训练音频特征训练得到,所述训练音频特征为能够表征与所述训练受损图像相关的音频的整个音频信息的音频特征。
可选的,所述图像修复模型采用对抗生成网络中的生成网络;
所述生成网络的训练目标为:使所述对抗生成网络中的判别网络无法判别出所述生成网络根据所述训练受损图像和所述训练音频特征生成的修复后图像是否为真实未受损图像。
第二方面,提供了一种图像修复装置,包括:数据获取模块、音频特征获取模块和图像修复模块;
所述数据获取模块,用于获取待修复图像和与所述待修复图像相关的音频;
所述音频特征获取模块,用于获取能够表征所述音频的整个音频信息的音频特征,作为目标音频特征;
所述图像修复模块,用于利用所述目标音频特征,对所述待修复图像进行修复,得到所述待修复图像对应的修复后图像。
第三方面,提供了一种图像修复设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的图像修复方法的各个步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的图像修复方法的各个步骤。
本发明提供的图像修复方法,首先获取待修复图像以及与待修复图像相关的音频,然后获取能够表征与待修复图像相关的音频的整个音频信息的音频特征,作为目标音频特征,最后利用目标音频特征,对待修复图像进行修复,以得到待修复图像对应的修复后图像。本发明提供的图像修复方法可利用与待修复图像相关的音频的信息对待修复图像中受损的图像信息进行补偿,从而实现真正意义上的受损补偿,本发明提供的图像修复方法具有较好的修复效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明涉及的硬件架构的示意图;
图2为本发明实施例提供的图像修复方法的流程示意图;
图3为本发明实施例提供的利用目标音频特征,对待修复图像进行修复,得到待修复图像对应的修复后图像的流程示意图;
图4为本发明实施例提供的对抗生成网络的结构示意图;
图5为本发明实施例提供的图像修复装置的结构示意图;
图6为本发明实施例提供的图像修复设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于现有的基于补丁的图像修复方法只是局部复制移动图像区域,而没有实现真正意义上的受损补偿和灵活修复,因此,其对于某些图像(比如结构相对复杂,本身冗余度低的图像),通常难以达到理想修复效果。
针对上述问题,进行了研究,通过不断研究,最终提出了一种效果较好的图像修复方法,该图像修复方法的基本构思是,获取与待修复图像相关的音频,利用与待修复图像相关的音频对待修复图像进行修复,比如,待修复图像为一动物的图像,可利用采集待修复图像时周围环境的声音(比如,动物的叫声、周围人对动物的描述等),对待修复图像中动物的形态进行修复。
在介绍本发明提供的方案之前,先对本发明涉及的硬件架构进行说明。
在一种可能的实现方式中,如图1所示,本发明涉及的硬件架构可以包括:电子设备101和服务器102。
示例性的,电子设备101可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,手机、笔记本电脑、平板电脑、掌上电脑、个人计算机、可穿戴设备、智能电视、PAD等。
应注意的是,图1仅仅是一种示例,电子设备的类型可以有多种,不限于图1中的笔记本电脑。
示例性的,服务器102可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务器中心。服务器102可以包括处理器、存储器以及网络接口等。
示例性的,电子设备101可以通过无线通信网络与服务器102建立连接并通信;示例性的,电子设备101可以通过有线网络与服务器102建立连接并通信。
电子设备101获取待修复图像和与待修复图像相关的音频,将待修复图像和与待修复图像相关的音频发送至服务器102,服务器102利用与待修复图像相关的音频对待修复图像进行修复,将修复后图像发送至电子设备101。
在另一种可能的实现方式中,本发明涉及的硬件架构可以包括:电子设备。电子设备为具有较强数据处理能力的设备。
电子设备可获取待修复图像和与待修复图像相关的音频,利用与待修复图像相关的音频对待修复图像进行修复。
本领域技术人员应能理解上述电子设备和服务器仅为举例,其它现有的或今后可能出现的电子设备或服务器如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接下来通过下述实施例对本发明提供的方案进行介绍。
请参阅图2,示出了本发明实施例提供的图像修复方法的流程示意图,该图像修复方法可以包括:
步骤S201:获取待修复图像和与待修复图像相关的音频。
待修复图像可以但不限定为出现如下情况中的一种或多种情况的受损图像:像素丢失、模糊、破损等。
可选的,与待修复图像相关的音频可以为采集待修复图像时周围环境的音频(可在采集图像的同时采集周围环境的声音),周围环境的音频可以为自然环境的声音,比如雨声、动物叫声等,也可以为人的谈话声音,比如,对环境的描述性语言。本实施例中的周围环境的音频为与待修复图像相关的环境音频。
与待修复图像相关的音频除了可以为采集待修复图像时周围环境的音频外,还可以为待修复图像的内容描述音频,比如,在拍摄昏暗灯光条件下的图像时,由于光线不足,拍摄的图像会很模糊,那么可以在拍摄的同时录制对所拍摄对象的描述音频,从而获得待修复图像和与待修复图像相关的音频,再比如,在拍摄高速运动的物体时,可录制对物体的描述音频,从而获得待修复图像和与待修复图像相关的音频。
示例性的,待修复图像为一女性人物的图像,与待修复图像相关的音频可以为描述待修复图像中人物性别的音频、描述待修复图像中人物特点的音频等。
步骤S202:获取能够表征与待修复图像相关的音频的整个音频信息的音频特征,作为目标音频特征。
具体的,获取能够表征与待修复图像相关的音频的整个音频信息的音频特征,作为目标音频特征的过程可以包括:
步骤S2021、获取与待修复图像相关的音频包含的各音频帧分别对应的音频特征。
与待修复图像相关的音频包含若干音频帧,本实施例对若干音频帧分别提取音频特征,以得到与待修复图像相关的音频包含的各音频帧分别对应的音频特征。
在一种可能的实现方式中,可对与待修复图像相关的音频包含的每个音频帧提取梅尔倒谱系数或者Filter Bank特征,为了能够提升图像修复效果,在另一种可能的实现方式中,可使用预先训练得到的Conformer模型中的编码模块对与待修复图像相关的音频包含的每个音频帧提取音频特征,需要说明的是,Conformer模型是卷积增强的Transformer模型,其使用了多头注意力机制,并且额外使用卷积模块来更好的抓取局部信息,即,Conformer模型中的编码模块能够提取到更为重要的音频特征。
步骤S2022、对与待修复图像相关的音频包含的各音频帧分别对应的音频特征进行归一化处理,得到与待修复图像相关的音频包含的各音频帧分别对应的归一化后音频特征。
步骤S2023、将与待修复图像相关的音频包含的各音频帧分别对应的归一化后音频特征融合,得到能够表征与待修复图像相关的音频的整个音频信息的音频特征。
可选的,可将与待修复图像相关的音频包含的各音频帧分别对应的归一化后音频特征累加,累加后的音频特征为能够表征与待修复图像相关的音频的整个音频信息的音频特征。
除了采用上述步骤S2021~步骤S2023的过程获取目标音频特征外,还可采用其他方式,比如,可获取与待修复图像相关的音频包含的各音频帧分别对应的音频特征,将与待修复图像相关的音频包含的各音频帧分别对应的音频特征累加,累加后的音频特征作为能够表征与待修复图像相关的音频的整个音频信息的音频特征。
步骤S203:利用目标音频特征,对待修复图像进行修复,得到待修复图像对应的修复后图像。
本发明利用能够表征与待修复图像相关的音频的整个音频信息的音频特征即目标音频特征对待修复图像中的受损部分进行修复,以得到待修复图像对应的修复后图像。
本发明实施例提供的图像修复方法,首先获取待修复图像以及与待修复图像相关的音频,然后获取能够表征与待修复图像相关的音频的整个音频信息的音频特征,作为目标音频特征,最后利用目标音频特征,对待修复图像进行修复,以得到待修复图像对应的修复后图像。本发明实施例提供的图像修复方法可利用与待修复图像相关的音频的信息对待修复图像中受损的图像信息进行补偿,从而实现真正意义上的受损补偿,本发明实施例提供的图像修复方法具有较好的修复效果。
在本发明的另一实施例中,对上述实施例中的“步骤S203:利用目标音频特征,对待修复图像进行修复,得到待修复图像对应的修复后图像”的具体实现过程进行介绍。
请参阅图3,示出了利用目标音频特征,对待修复图像进行修复,得到待修复图像对应的修复后图像的流程示意图,可以包括:
步骤S301:将目标音频特征融入待修复图像中,得到融合有目标音频特征的图像。
将目标音频特征融入待修复图像的实现方式有多种,在一种可能的实现方式中,可在待修复图像的每行像素上加上目标音频特征,在另一种可能的实现方式中,可在待修复图像的每列像素上加上目标音频特征。
需要说明的是,在将目标音频特征融入待修复图像前,可先对待修复图像进行预处理,以使待修复图像的每行像素或每列像素能够与目标音频特征相加。
示例性的,目标音频特征为1024维的特征,可将待修复图像处理成1024*1024的图像,进而,在处理后的待修复图像的每行像素上或每列像素上加上目标音频特征,具体的,以在处理后的待修复图像的每行像素上加上目标音频特征为例,将1024维的目标音频特征的第1个特征元素与待修复图像的第1行像素的第1个像素相加,将1024维的目标音频特征的第2个特征元素与待修复图像的第1行像素的第2个像素相加,…,将1024维的目标音频特征的第1024个特征元素与待修复图像的第1行像素的第1024个像素相加,采用同样的方式在处理后的待修复图像的第2行像素上、…、第1024行像素上加上目标音频特征,从而得到融合有目标音频特征的图像。
步骤S302:将融合有目标音频特征的图像处理为融合有目标音频特征的图像特征,作为目标融合特征。
步骤S301只是将目标音频特征与待修复图像简单组合,是浅层次的融合,步骤S302是将目标音频特征与待修复图像进行更深层次的融合。
步骤S303:根据目标融合特征,生成待修复图像对应的修复后图像。
目标融合特征包含了与待修复图像相关的音频信息与待修复图像的图像信息的融合信息,本实施例以目标融合特征为依据,生成待修复图像对应的修复后图像。
在一种可能的实现方式中,上述实施例中的步骤S203可基于预先训练得到的图像修复模型实现,即,可以目标音频特征为依据,基于预先训练得到的图像修复模型,对待修复图像进行修复,以得到待修复图像对应的修复后图像。
其中,图像修复模型采用训练受损图像和训练音频特征训练得到,训练音频特征为能够表征与训练受损图像相关的音频的整个音频信息的音频特征,图像修复模型的训练目标为,使图像修复模型利用训练音频特征对训练受损图像进行修复得到的修复后图像趋近于真实未受损图像。
接下来,对图像修复模型的训练过程进行介绍。
图像修复模型的训练方式有多种,在一种可能的实现方式中,图像修复模型的训练过程可以包括:
步骤a1、获取训练受损图像、与训练受损图像相关的音频以及训练受损图像对应的未受损图像。
其中,训练受损图像通过对训练受损图像对应的未受损图像进行局部处理(比如局部裁减处理、局部模糊处理等)得到。与训练受损图像相关的音频可以为采集训练受损图像对应的未受损图像时周围环境的音频,也可为训练受损图像的内容描述音频。
步骤a2、获取能够表征与训练受损图像相关的音频的整个音频信息的音频特征,作为训练音频特征。
获取能够表征与训练受损图像相关的音频的整个音频信息的音频特征的具体方式与上述“获取能够表征与待修复图像相关的音频的整个音频信息的音频特征”的具体方式相同,具体可参见“获取能够表征与待修复图像相关的音频的整个音频信息的音频特征”的具体方式,本实施例在此不做赘述。
步骤a3、以训练音频特征为依据,基于图像修复模型,对训练受损图像进行修复,得到训练受损图像对应的修复后图像。
具体的,以训练音频特征为依据,基于图像修复模型,对训练受损图像进行修复的过程可以包括:基于图像修复模型将训练音频特征融入训练受损图像中(比如,在训练受损图像的每行像素上或者每列像素上加上训练音频特征),得到融合有训练音频特征的图像;基于图像修复模型将融合有训练音频特征的图像处理为融合有训练音频特征的图像特征,作为训练融合特征;以训练融合特征为依据,基于图像修复模型生成训练受损图像对应的修复后图像。
步骤a4、根据训练受损图像对应的修复后图像和训练受损图像对应的未受损图像确定预测损失,并根据预测损失对图像修复模型进行参数更新。
采用不同的训练数据,按上述过程对图像修复模型进行多次训练,直至满足训练结束条件(比如,模型收敛、达到设定的训练次数等)。
在另一种可能的实现方式中,如图4所示,图像修复模型可采用对抗生成网络中的生成网络。对抗生成网络的主要思想是通过生成网络和判别网络的博弈来实现受损图像的修复。其中,生成网络负责生成修复后图像,判别网络则负责判别生成网络生成的修复后图像是否真实。
生成网络的任务是根据训练受损图像和训练音频特征生成与真实未受损图像相似的图像,生成网络通常采用卷积神经网络(CNN)作为基础架构,通过多层卷积和池化操作来提取图像的特征表示。生成网络的训练目标为,使对抗生成网络中的判别网络无法判别出生成网络根据训练受损图像和训练音频特征生成的修复后图像是否为真实未受损图像(即判别网络将生成网络根据训练受损图像和训练音频特征生成的修复后图像判定为真实未受损图像和非真实未受损图像的概率均为0.5)。
判别网络可采用CNN作为基础架构,最后一层是softmax函数,用于预测输入图像在每个类别上的概率,判别网络执行的是一个二分类任务,即判断输入图像是否为真实未受损图像。
在训练过程中,生成网络和判别网络相互博弈,不断调整自己的参数以提高自己的表现。具体来说,生成网络会尝试生成越来越逼近真实未受损图像的图像,以骗过判别网络,而判别网络则会试图识别出越来越逼近真实未受损图像的图像,以提高自己的判别准确性,当两者都达到一定的平衡时,就可以得到一个高质量的图像修复结果。
在训练对抗生成网络时,可先固定生成网络的参数,对判别网络进行训练,然后再固定判别网络的参数,对生成网络进行训练,接着再固定生成网络的参数,对判别网络的参数进行更新,然后再固定判别网络的参数,对生成网络进行训练,如此,交替对生成网络和判别网络进行训练,直至满足训练结束条件。
其中,固定生成网络的参数,对判别网络进行训练的过程可以包括:
步骤b1、获取训练受损图像和与训练受损图像相关的音频。
步骤b2、获取能够表征与训练受损图像相关的音频的整个音频信息的音频特征,作为训练音频特征。
获取能够表征与训练受损图像相关的音频的整个音频信息的音频特征的具体方式与上述“获取能够表征与待修复图像相关的音频的整个音频信息的音频特征”的具体方式相同,本实施例在此不做赘述。
步骤b3、将训练音频特征和训练受损图像输入生成网络,得到生成网络生成的训练受损图像对应的修复后图像。
可选的,如图4所示,生成网络可以包括信息融合模块和修复图像生成模块,将训练音频特征和训练受损图像输入信息融合模块,信息融合模块先将训练音频特征融入训练受损图像中(比如,在训练受损图像的每行像素上或者每列像素上加上训练音频特征),得到融合有训练音频特征的图像,然后将融合有训练音频特征的图像处理为融合有训练音频特征的图像特征,作为训练融合特征,训练融合特征输入修复图像生成模块,修复图像生成模块根据输入的特征生成训练受损图像对应的修复后图像。
步骤b4、将训练受损图像对应的修复后图像输入判别网络,以得到训练受损图像的类别预测概率。
训练受损图像的类别预测概率为训练受损图像为真实未受损图像的概率,以及为非真实未受损图像的概率。
步骤b5、根据训练受损图像的类别预测概率以及训练受损图像的真实类别,确定类别预测损失。
可选的,类别预测损失可以采用交叉熵损失,交叉熵损失的计算方式为现有技术,本实施例在此不做赘述。
步骤b6、根据类别预测损失,对判别网络进行参数更新。
需要说明的是,除了利用生成网络生成的修复后图像对判别网络进行训练外,还需利用真实未受损图像(此处的真实未受损图像可以为步骤b1中训练受损图像对应的真实未受损图像,也可以为与步骤b1中的训练受损图像无关的真实未受损图像)对判别网络进行训练,即,将真实未受损图像输入判别网络,以得到真实未受损图像的类别预测概率,根据真实未受损图像的类别预测概率和真实未受损图像的真实类别确定类别预测损失,根据类别预测损失对判别网络进行参数更新。
其中,固定判别网络的参数,对生成网络进行训练的过程可以包括:
步骤c1、获取训练受损图像和与训练受损图像相关的音频。
步骤c2、获取能够表征与训练受损图像相关的音频的整个音频信息的音频特征,作为训练音频特征。
步骤c3、将训练音频特征和训练受损图像输入生成网络,得到生成网络生成的训练受损图像对应的修复后图像。
步骤c4、将训练受损图像对应的修复后图像输入判别网络,以得到训练受损图像的类别预测概率。
训练受损图像的类别预测概率为训练受损图像为真实未受损图像的概率,以及为非真实未受损图像的概率。
步骤c5、根据训练受损图像的类别预测概率以及训练受损图像的真实类别,确定类别预测损失。
步骤c1~步骤c5的具体实现过程和相关说明可参见步骤b1~步骤b5的具体实现过程和相关说明,本实施例在此不做赘述。
步骤c6、根据类别预测损失,对生成网络进行参数更新。
根据类别预测损失,采用反向传播算法更新生成网络的参数,使得生成网络生成的图像越来越接近真实未受损图像。
在对抗生成网络训练结束后,将训练得到的对抗生成网络中的生成网络作为图像修复模型。
在训练得图像修复模型后,可获取待修复图像以及与待修复图像相关的音频,获取能够表征与待修复图像相关的音频的整个音频信息的音频特征,作为目标音频特征,将目标音频特征和待修复图像输入图像修复模型,图像修复模型首先将目标音频特征融入待修复图像中(在待修复图像的每行像素上加上目标音频特征,或者,在待修复图像的每列像素上加上目标音频特征),得到融合有目标音频特征的图像,然后将融合有目标音频特征的图像处理为融合有目标音频特征的图像特征,作为目标融合特征,最后根据目标融合特征,生成待修复图像对应的修复后图像并输出。
本发明实施例提供了一种图像修复装置,下面对本发明实施例提供的图像修复装置进行描述,下文描述的图像修复装置与上文描述的图像修复方法可相互对应参照。
请参阅图5,示出了本发明实施例提供的图像修复装置的结构示意图,该图像修复装置可以包括:数据获取模块501、音频特征获取模块502和图像修复模块503。
数据获取模块501,用于获取待修复图像和与所述待修复图像相关的音频。
音频特征获取模块502,用于获取能够表征所述音频的整个音频信息的音频特征,作为目标音频特征。
图像修复模块503,用于利用所述目标音频特征,对所述待修复图像进行修复,得到所述待修复图像对应的修复后图像。
可选的,与所述待修复图像相关的音频包括如下音频中的任一种:
采集所述待修复图像时周围环境的音频、所述待修复图像的内容描述音频。
可选的,音频特征获取模块502可以包括:音频特征提取模块、音频特征归一化模块和音频特征融合模块。
音频特征提取模块,用于获取所述音频包含的各音频帧分别对应的音频特征。
音频特征归一化模块,用于对所述音频包含的各音频帧分别对应的音频特征进行归一化处理,得到所述音频包含的各音频帧分别对应的归一化后音频特征。
音频特征融合模块,用于将所述音频包含的各音频帧分别对应的归一化后音频特征融合,得到能够表征所述音频的整个音频信息的音频特征。
可选的,图像修复模块503在利用所述目标音频特征,对所述待修复图像进行修复,得到所述待修复图像对应的修复后图像时,具体用于:
将所述目标音频特征融入所述待修复图像中,得到融合有所述目标音频特征的图像;
将所述融合有所述目标音频特征的图像处理为融合有所述目标音频特征的图像特征,作为目标融合特征;
根据所述目标融合特征,生成所述待修复图像对应的修复后图像。
可选的,图像修复模块503在将所述目标音频特征融入所述待修复图像中时,具体用于:
在所述待修复图像的每行像素上加上所述目标音频特征;
或者,在所述待修复图像的每列像素上加上所述目标音频特征。
可选的,图像修复模块503在利用所述目标音频特征,对所述待修复图像进行修复,得到所述待修复图像对应的修复后图像时,具体用于:
将所述待修复图像和所述目标音频特征输入预先训练得到的图像修复模型,得到所述图像修复模型输出的所述待修复图像对应的修复后图像;
其中,所述图像修复模型采用训练受损图像和训练音频特征训练得到,所述训练音频特征为能够表征与所述训练受损图像相关的音频的整个音频信息的音频特征。
可选的,所述图像修复模型采用对抗生成网络中的生成网络;
所述生成网络的训练目标为:使所述对抗生成网络中的判别网络无法判别出所述生成网络根据所述训练受损图像和所述训练音频特征生成的修复后图像是否为真实未受损图像。
本发明实施例提供的图像修复装置,首先获取待修复图像以及与待修复图像相关的音频,然后获取能够表征与待修复图像相关的音频的整个音频信息的音频特征,作为目标音频特征,最后利用目标音频特征,对待修复图像进行修复,以得到待修复图像对应的修复后图像。本发明实施例提供的图像修复装置可利用与待修复图像相关的音频的信息对待修复图像中受损的图像信息进行补偿,从而实现真正意义上的受损补偿,本发明实施例提供的图像修复装置具有较好的修复效果。
本发明实施例提供了一种图像修复设备,请参阅图6,示出了该图像修复设备的结构示意图,该图像修复设备可以包括:处理器601、通信接口602、存储器603和通信总线604。
在本发明实施例中,处理器601、通信接口602、存储器603、通信总线604的数量为至少一个,且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信。
处理器601可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等。
存储器603可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器。
其中,存储器603存储有程序,处理器601可调用存储器603存储的程序,所述程序用于:
获取待修复图像以及与所述待修复图像相关的音频;
获取能够表征所述音频的整个音频信息的音频特征,作为目标音频特征;
利用所述目标音频特征,对所述待修复图像进行修复,得到所述待修复图像对应的修复后图像。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本发明实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待修复图像以及与所述待修复图像相关的音频;
获取能够表征所述音频的整个音频信息的音频特征,作为目标音频特征;
利用所述目标音频特征,对所述待修复图像进行修复,得到所述待修复图像对应的修复后图像。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种图像修复方法,其特征在于,包括:
获取待修复图像以及与所述待修复图像相关的音频;
获取能够表征所述音频的整个音频信息的音频特征,作为目标音频特征;
利用所述目标音频特征,对所述待修复图像进行修复,得到所述待修复图像对应的修复后图像。
2.根据权利要求1所述的图像修复方法,其特征在于,与所述待修复图像相关的音频包括如下音频中的任一种:
采集所述待修复图像时周围环境的音频、所述待修复图像的内容描述音频。
3.根据权利要求1所述的图像修复方法,其特征在于,所述获取能够表征所述音频的整个音频信息的音频特征,包括:
获取所述音频包含的各音频帧分别对应的音频特征;
对所述音频包含的各音频帧分别对应的音频特征进行归一化处理,得到所述音频包含的各音频帧分别对应的归一化后音频特征;
将所述音频包含的各音频帧分别对应的归一化后音频特征融合,得到能够表征所述音频的整个音频信息的音频特征。
4.根据权利要求1所述的图像修复方法,其特征在于,所述利用所述目标音频特征,对所述待修复图像进行修复,得到所述待修复图像对应的修复后图像,包括:
将所述目标音频特征融入所述待修复图像中,得到融合有所述目标音频特征的图像;
将所述融合有所述目标音频特征的图像处理为融合有所述目标音频特征的图像特征,作为目标融合特征;
根据所述目标融合特征,生成所述待修复图像对应的修复后图像。
5.根据权利要求4所述的图像修复方法,其特征在于,所述将所述目标音频特征融入所述待修复图像中,包括:
在所述待修复图像的每行像素上加上所述目标音频特征;
或者,在所述待修复图像的每列像素上加上所述目标音频特征。
6.根据权利要求1所述的图像修复方法,其特征在于,所述利用所述目标音频特征,对所述待修复图像进行修复,得到所述待修复图像对应的修复后图像,包括:
将所述待修复图像和所述目标音频特征输入预先训练得到的图像修复模型,得到所述图像修复模型输出的所述待修复图像对应的修复后图像;
其中,所述图像修复模型采用训练受损图像和训练音频特征训练得到,所述训练音频特征为能够表征与所述训练受损图像相关的音频的整个音频信息的音频特征。
7.根据权利要求6所述的图像修复方法,其特征在于,所述图像修复模型采用对抗生成网络中的生成网络;
所述生成网络的训练目标为:使所述对抗生成网络中的判别网络无法判别出所述生成网络根据所述训练受损图像和所述训练音频特征生成的修复后图像是否为真实未受损图像。
8.一种图像修复装置,其特征在于,包括:数据获取模块、音频特征获取模块和图像修复模块;
所述数据获取模块,用于获取待修复图像和与所述待修复图像相关的音频;
所述音频特征获取模块,用于获取能够表征所述音频的整个音频信息的音频特征,作为目标音频特征;
所述图像修复模块,用于利用所述目标音频特征,对所述待修复图像进行修复,得到所述待修复图像对应的修复后图像。
9.一种图像修复设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~7中任一项所述的图像修复方法的各个步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~7中任一项所述的图像修复方法的各个步骤。
CN202311819869.4A 2023-12-27 一种图像修复方法、装置、设备及存储介质 Active CN117474807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311819869.4A CN117474807B (zh) 2023-12-27 一种图像修复方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311819869.4A CN117474807B (zh) 2023-12-27 一种图像修复方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117474807A true CN117474807A (zh) 2024-01-30
CN117474807B CN117474807B (zh) 2024-05-31

Family

ID=

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9809986D0 (en) * 1998-05-12 1998-07-08 Univ Manchester Visualising images
US20140169695A1 (en) * 2012-12-19 2014-06-19 Industrial Technology Research Institute Method for in-image periodic noise pixel inpainting
US20180033120A1 (en) * 2015-03-25 2018-02-01 Panasonic Intellectual Property Management Co., Ltd. Image processing device, monitoring system provided with same, and image processing method
CN110581974A (zh) * 2018-06-07 2019-12-17 中国电信股份有限公司 人脸画面改进方法、用户终端和计算机可读存储介质
CN111614996A (zh) * 2020-04-07 2020-09-01 上海推乐信息技术服务有限公司 一种视频修复方法和系统
CN112614066A (zh) * 2020-12-23 2021-04-06 文思海辉智科科技有限公司 图像修复方法、装置及电子设备
CN113012712A (zh) * 2021-03-03 2021-06-22 华北理工大学 一种基于生成对抗网络的人脸视频合成方法及装置
CN113395476A (zh) * 2021-06-07 2021-09-14 广东工业大学 一种基于三维人脸重构的虚拟人物视频通话方法及系统
US20210357625A1 (en) * 2019-09-18 2021-11-18 Beijing Sensetime Technology Development Co., Ltd. Method and device for generating video, electronic equipment, and computer storage medium
CN114663539A (zh) * 2022-03-09 2022-06-24 东南大学 一种基于音频驱动的口罩下2d人脸还原技术
CN115131849A (zh) * 2022-05-04 2022-09-30 腾讯科技(深圳)有限公司 图像生成方法以及相关设备
CN116437088A (zh) * 2023-04-10 2023-07-14 北京达佳互联信息技术有限公司 图像缓存区的更新方法、装置、服务器及存储介质
CN116664465A (zh) * 2023-06-01 2023-08-29 重庆大学 一种多模态图像融合方法、装置及计算机设备
CN116916114A (zh) * 2023-05-19 2023-10-20 中国移动通信有限公司研究院 说话人视频生成方法、装置及电子设备
CN116939320A (zh) * 2023-06-12 2023-10-24 南京邮电大学 一种生成式多模态互利增强视频语义通信方法
CN116980538A (zh) * 2023-02-01 2023-10-31 腾讯科技(深圳)有限公司 一种视频生成方法、装置、设备、介质及程序产品
WO2023207778A1 (zh) * 2022-04-24 2023-11-02 腾讯科技(深圳)有限公司 数据修复方法、装置、计算机及可读存储介质
CN116996778A (zh) * 2022-04-18 2023-11-03 安克创新科技股份有限公司 一种图像修复方法、装置、存储介质及电子设备
CN117079083A (zh) * 2023-10-16 2023-11-17 苏州元脑智能科技有限公司 图像修复模型训练方法、装置、电子设备及存储介质
CN117115310A (zh) * 2023-07-18 2023-11-24 小哆智能科技(北京)有限公司 一种基于音频和图像的数字人脸生成方法及系统

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9809986D0 (en) * 1998-05-12 1998-07-08 Univ Manchester Visualising images
US20140169695A1 (en) * 2012-12-19 2014-06-19 Industrial Technology Research Institute Method for in-image periodic noise pixel inpainting
US20180033120A1 (en) * 2015-03-25 2018-02-01 Panasonic Intellectual Property Management Co., Ltd. Image processing device, monitoring system provided with same, and image processing method
CN110581974A (zh) * 2018-06-07 2019-12-17 中国电信股份有限公司 人脸画面改进方法、用户终端和计算机可读存储介质
US20210357625A1 (en) * 2019-09-18 2021-11-18 Beijing Sensetime Technology Development Co., Ltd. Method and device for generating video, electronic equipment, and computer storage medium
CN111614996A (zh) * 2020-04-07 2020-09-01 上海推乐信息技术服务有限公司 一种视频修复方法和系统
CN112614066A (zh) * 2020-12-23 2021-04-06 文思海辉智科科技有限公司 图像修复方法、装置及电子设备
CN113012712A (zh) * 2021-03-03 2021-06-22 华北理工大学 一种基于生成对抗网络的人脸视频合成方法及装置
CN113395476A (zh) * 2021-06-07 2021-09-14 广东工业大学 一种基于三维人脸重构的虚拟人物视频通话方法及系统
CN114663539A (zh) * 2022-03-09 2022-06-24 东南大学 一种基于音频驱动的口罩下2d人脸还原技术
CN116996778A (zh) * 2022-04-18 2023-11-03 安克创新科技股份有限公司 一种图像修复方法、装置、存储介质及电子设备
WO2023207778A1 (zh) * 2022-04-24 2023-11-02 腾讯科技(深圳)有限公司 数据修复方法、装置、计算机及可读存储介质
CN115131849A (zh) * 2022-05-04 2022-09-30 腾讯科技(深圳)有限公司 图像生成方法以及相关设备
CN116980538A (zh) * 2023-02-01 2023-10-31 腾讯科技(深圳)有限公司 一种视频生成方法、装置、设备、介质及程序产品
CN116437088A (zh) * 2023-04-10 2023-07-14 北京达佳互联信息技术有限公司 图像缓存区的更新方法、装置、服务器及存储介质
CN116916114A (zh) * 2023-05-19 2023-10-20 中国移动通信有限公司研究院 说话人视频生成方法、装置及电子设备
CN116664465A (zh) * 2023-06-01 2023-08-29 重庆大学 一种多模态图像融合方法、装置及计算机设备
CN116939320A (zh) * 2023-06-12 2023-10-24 南京邮电大学 一种生成式多模态互利增强视频语义通信方法
CN117115310A (zh) * 2023-07-18 2023-11-24 小哆智能科技(北京)有限公司 一种基于音频和图像的数字人脸生成方法及系统
CN117079083A (zh) * 2023-10-16 2023-11-17 苏州元脑智能科技有限公司 图像修复模型训练方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐琳;陈强;: "针对质量评价的环境星遥感真实图像库构建", 中国图象图形学报, no. 10, 16 October 2018 (2018-10-16) *

Similar Documents

Publication Publication Date Title
Wu et al. Robust image forgery detection against transmission over online social networks
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN112995652B (zh) 视频质量评估方法及装置
CN112200041B (zh) 视频动作识别方法、装置、存储介质与电子设备
CN109255369A (zh) 利用神经网络识别图片的方法及装置、介质和计算设备
CN110766610B (zh) 一种超分辨率图像的重建方法及电子设备
CN113222855B (zh) 一种图像恢复方法、装置和设备
CN111898561A (zh) 一种人脸认证方法、装置、设备及介质
CN112906721B (zh) 图像处理方法、装置、设备及计算机可读存储介质
WO2024061269A1 (zh) 一种三维重建方法及相关装置
CN114419509A (zh) 一种多模态情感分析方法、装置及电子设备
CN111539897A (zh) 用于生成图像转换模型的方法和装置
CN116612015A (zh) 模型训练方法、图像去摩尔纹方法、装置及电子设备
CN110570375A (zh) 一种图像处理方法、装置、电子设置以及存储介质
CN113744160A (zh) 图像处理模型训练方法、图像处理方法、装置及电子设备
CN117474807B (zh) 一种图像修复方法、装置、设备及存储介质
CN117474807A (zh) 一种图像修复方法、装置、设备及存储介质
CN112950501B (zh) 基于噪声场的图像降噪方法、装置、设备及存储介质
CN113613070B (zh) 一种人脸视频处理方法、装置、电子设备及存储介质
CN114005156A (zh) 人脸替换方法、系统、终端设备及计算机存储介质
CN117095258B (zh) 一种扩散模型训练方法、装置、电子设备及存储介质
CN116309274B (zh) 图像中小目标检测方法、装置、计算机设备及存储介质
CN110276397B (zh) 一种基于门机制的图像特征提取方法、装置和系统
CN117079336B (zh) 样本分类模型的训练方法、装置、设备及存储介质
CN111985510B (zh) 生成模型训练方法、图像生成方法及装置、介质、终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant