CN111881927A - 电子装置及其图像处理方法 - Google Patents

电子装置及其图像处理方法 Download PDF

Info

Publication number
CN111881927A
CN111881927A CN201911042783.9A CN201911042783A CN111881927A CN 111881927 A CN111881927 A CN 111881927A CN 201911042783 A CN201911042783 A CN 201911042783A CN 111881927 A CN111881927 A CN 111881927A
Authority
CN
China
Prior art keywords
image
noise map
processor
input image
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911042783.9A
Other languages
English (en)
Other versions
CN111881927B (zh
Inventor
朴胜浩
文永秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190078248A external-priority patent/KR102210940B1/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN111881927A publication Critical patent/CN111881927A/zh
Application granted granted Critical
Publication of CN111881927B publication Critical patent/CN111881927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06T5/70
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • G06T5/60
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • G06T2207/20012Locally adaptive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20208High dynamic range [HDR] image processing

Abstract

公开了一种电子装置及其图像处理方法。电子装置包括:存储器,存储至少一个指令;以及处理器,电连接到存储器,被配置为通过执行指令执行以下操作:从输入图像获得与输入图像对应的噪声图;将所述输入图像提供给包括多个层的学习网络模型的输入层,所述学习网络模型是通过人工智能(AI)算法学习各项之间的关系而获得的AI模型,所述各项包括多个样本图像、所述多个样本图像中的每个样本图像的相应噪声图、以及与所述多个样本图像对应的原始图像;将噪声图提供给多个层中的至少一个中间层;以及基于将输入图像和噪声图提供给学习网络模型而得到的结果来获得输出图像。

Description

电子装置及其图像处理方法
技术领域
本公开涉及电子装置及其图像处理方法。更具体地,本公开涉及一种获得其中输入数据的质量得以改进的输出图像的电子装置及其图像处理方法。
本公开涉及一种使用机器学习算法来模拟人脑的功能(例如识别、确定等)的人工智能(AI)系统及其应用。
背景技术
近年来,已经在各个领域中使用实现人类水平智能的人工智能(AI)系统。与现有的基于规则的智能系统不同,AI系统是机器学习、确定和变得智能的系统。AI系统使用得越多,识别率就越高,并且可以更准确地理解用户的偏好,因此,现有的基于规则的智能系统正逐渐被基于深度学习的AI系统所取代。
AI技术由机器学习(例如,深度学习)和利用机器学习的元素技术组成。
机器学习是一种通过自身对输入数据的特征进行分类/学习的算法技术。元素技术是一种使用诸如深度学习之类的机器学习算法来模拟诸如人脑的识别和确定之类的功能的技术,其由语言理解、视觉理解、推理/预测、知识表示、运动控制等组成。
该AI技术可以用于各种复杂类型的去噪。特别地,在流传输视频的情况下,在压缩到低比特率的过程中生成诸如块边缘和振铃伪像之类的视觉上令人不愉快的伪像,因此,减少压缩伪像(CAR)很重要。
对于去噪,通常使用图像降级模型y=x+e。这里,y是观察到的带噪图像,具有清晰图像x和噪声e。许多图像去噪研究使用图像估计模型来估计x,包括非局部自相似(NSS)模型和稀疏模型。使用NSS模型的代表性方法是块匹配和3D滤波(BM3D)或小波神经网络(WNN),但实现高去噪性能存在限制。
最近,为了解决该限制,已经开发了判别式学习方法。尽管已经提出了与诸如BM3D之类的NSS模型相比提供更好性能的可训练的非线性反应扩散(TNRD),但可能存在仅针对特定的伪像模型训练TNRD的不利之处。
另外,已经提出了采用残差学习策略和批量归一化(BN)的去噪卷积神经网络(DnCNN),但是其缺点在于,不存在用于图像质量评估的单独的卷积神经网络(CNN)。
此外,已经提出了快速且灵活的去噪卷积神经网络(FFDNet),以使用不均匀噪声水平图作为输入来去除空间变化的噪声。然而,由于假设FFDNet被给予了噪声图并且该噪声图仅被用于第一层一次,所以存在FFDNet的其他层不能充分利用噪声图的限制。
在将残差密集网络(RDN)用于单个图像超分辨率(SISR)的情况下,存在可以完全使用具有残差高密度块的所有分层特征的优点。然而,也存在仅学习了适合于每个伪像水平的特定模型的限制。
因此,有必要开发一种用于对输入图像中空间变化的伪像进行自适应去噪的方法。
发明内容
本公开的各种示例实施例解决了以上缺点和上面未描述的其他缺点。
根据本公开的一方面,提供了一种根据输入图像自适应地改进质量的电子装置及其图像处理方法。
根据本公开的一方面,提供了一种电子装置,包括:存储器,存储一个或多个指令;以及处理器,电连接到存储器,并被配置为执行一个或多个指令以执行以下操作:从输入图像获得与输入图像对应的噪声图;将输入图像提供给包括多个层的学习网络模型的输入层,学习网络模型是通过经由AI算法学习以下各项之间的关系而获得的人工智能(AI)模型:多个样本图像,多个样本图像中的每个样本图像的相应噪声图,以及与多个样本图像对应的原始图像;将噪声图提供给多个层中的至少一个中间层;以及基于将输入图像和噪声图提供给学习网络模型而得到的结果来获得输出图像。
学习网络模型还可以包括至少一个子层,并且处理器还可以被配置为使用至少一个子层来处理噪声图,并将经处理的噪声图提供给至少一个中间层。
处理器还可以被配置为提供与从至少一个中间层中的每个中间层的前一层输出的输出数据对应的多个通道以及到至少一个中间层中的每个中间层的附加通道,该附加通道可以是从至少一个子层中与至少一个中间层中的每个中间层对应的子层输出的经处理的噪声图。
处理器还可以被配置为通过混合输入图像和多个层中输出层的输出数据来获得输出图像。
处理器还可以被配置为通过将输入图像提供给包括多个层的噪声图生成模型来获得噪声图,噪声图生成模型可以是通过经由AI算法学习多个样本图像与多个样本图像中的每个样本图像的相应噪声图之间的关系而获得的AI模型。
处理器还可以被配置为将噪声图提供给多个层中的每个层,或者将噪声图提供给多个层中除输入层之外的每个其余层。
学习网络模型可以是通过经由AI算法学习以下各项之间的关系而获得的AI模型:通过由多个层依次处理提供给多个层中的输入层的多个样本图像中的每个样本图像而获得的输出图像,以及提供给至少一个中间层的多个样本图像中的每个样本图像相对于与多个样本图像中的每个样本图像对应的原始图像的相应噪声图。
多个样本图像中的每个样本图像可以是其中原始图像经压缩的压缩图像,相应样本图像的噪声图可以是从该相应样本图像和与该相应样本图像对应的原始图像获得的噪声图。
处理器还可以被配置为通过将视频中包括的多个帧中的每个帧提供给学习网络模型作为输入图像来获得其中视频特征经调整的输出视频。
电子装置还可以包括显示器,处理器还可以被配置为:基于显示器的分辨率转换输出图像的分辨率,并控制显示器显示具有经转换的分辨率的输出图像,具有经转换的分辨率的输出图像可以是4K超高清(UHD)图像或8K UHD图像。
处理器还可以被配置为:从输入图像获得对象区域;通过将关于对象区域的信息提供给学习网络模型来调整对象区域的特征,并基于经调整的对象区域的特征来获得输出图像。
处理器还可以被配置为:从输入图像获得背景区域,通过将关于背景区域的信息提供给学习网络模型来调整背景区域的特征,并基于经调整的背景区域的特征来获得输出图像。
学习网络模型可以是用于放大图像的分辨率的模型。
学习网络模型可以是用于图像去噪的模型。
处理器还可以被配置为:通过从输入图像获得对象区域和背景区域,并且通过将关于对象区域的信息或关于背景区域的信息中的至少一个信息提供给学习网络模型来获得其中输入图像的特征经调整的输出图像。
根据本公开的一方面,提供了一种电子装置的图像处理方法,该方法包括:从输入图像获得与输入图像对应的噪声图;将输入图像提供给学习网络模型中包括的多个层中的输入层,学习网络模型是通过经由AI算法学习以下各项之间的关系而获得的人工智能(AI)模型:多个样本图像,多个样本图像中的每个样本图像的相应噪声图,以及与多个样本图像对应的原始图像;将噪声图提供给多个层中的至少一个中间层;以及基于将输入图像和噪声图提供给学习网络模型而得到的结果来获得输出图像。
方法还可以包括使用学习网络模型的至少一个子层来处理噪声图;以及将经处理的噪声图提供给至少一个中间层。
将噪声图提供给至少一个中间层可以包括:提供与从至少一个中间层中的每个中间层的前一层输出的输出数据对应的多个通道以及到至少一个中间层中的每个中间层的附加通道,该附加通道可以是从至少一个子层中与至少一个中间层中的每个中间层对应的子层输出的经处理的噪声图。
获得输出图像可以包括:通过混合输入图像和多个层中输出层的输出数据来获得输出图像。
获得噪声图可以包括:通过将输入图像应用于包括多个层的噪声图生成模型来获得噪声图,并且
噪声图生成模型可以是通过经由AI算法学习多个样本图像与多个样本图像中的每个样本图像的相应噪声图之间的关系而获得的AI模型。
提供噪声图可以包括:将噪声图提供给多个层中的每个层,或者将噪声图提供给多个层中除输入层之外的每个其余层。
学习网络模型可以是通过经由AI算法学习以下各项之间的关系而获得的AI模型:通过多个层依次处理提供给多个层中的输入层的多个样本图像中的每个样本图像而获得的输出图像,以及提供给至少一个中间层的多个样本图像中的每个样本图像相对于与多个样本图像中的每个样本图像对应的原始图像的相应噪声图。
方法还可以包括:从输入图像获得对象区域,通过将关于对象区域的信息提供给学习网络模型来调整对象区域的特征,并基于经调整的对象区域的特征来获得输出图像。
方法还可以包括:从输入图像获得背景区域,通过将关于背景区域的信息应用于学习网络模型来调整背景区域的特征,并基于经调整的背景区域的特征来获得输出图像。
学习网络模型可以是用于放大图像的分辨率的模型。
学习网络模型可以是用于图像去噪的模型。
方法还可以包括:通过从输入图像获得对象区域和背景区域,并且通过将关于对象区域的信息或关于背景区域的信息中的至少一个信息应用于学习网络模型来获得其中输入图像的特征经调整的输出图像。
根据本公开的另一方面,提供了一种电子装置,包括:存储器,存储一个或多个指令;以及处理器,电连接到存储器,并被配置为执行一个或多个指令以执行以下操作:从输入图像获得第一区域,基于关于第一区域的信息与多个候选图像中的至少一个候选图像之间的关系来调整输入图像的第一区域中的特征;以及基于经调整的第一区域和输入图像来获得输出图像。
通过将一个或多个原始图像提供给学习网络模型来获得多个候选图像,该学习网络模型是通过经由AI算法学习以下各项之间的关系而获得的人工智能(AI)模型:与一个或多个原始图像对应的多个样本图像,多个样本图像中的每个样本图像的相应噪声图以及一个或多个原始图像。
调整输入图像的第一区域中的特征可以包括放大输入图像的第一区域的分辨率。
可以基于原始图像和在降低原始图像的分辨率之后获得的放大图像来获得多个候选图像。
调整输入图像的第一区域中的特征可以包括对输入图像的第一区域进行去噪。
基于原始图像和在将噪声添加到原始图像之后获得的带噪图像来获得多个候选图像。
根据本公开的另一方面,提供了一种电子装置,包括:存储器,存储一个或多个指令;以及处理器,电连接到存储器,并被配置为执行一个或多个指令以执行以下操作:从输入图像中获取第一对象,该第一对象与输入图像中的第二对象不同,通过处理与输入图像中的第二对象分离的第一对象来单独调整输入图像的第一对象中的特征;以及基于经调整的第一对象和输入图像来获得输出图像。
处理第一对象可以包括:基于学习网络模型来处理第一对象,该学习网络模型是通过经由AI算法学习以下各项之间的关系而获得的人工智能(AI)模型:与一个或多个原始图像对应的多个样本图像,多个样本图像中的每个样本图像的相应噪声图以及一个或多个原始图像。
调整输入图像的第一对象中的特征可以包括:基于关于第一对象的信息与通过训练学习网络模型而获得的多个候选图像中的至少一个候选图像之间的关系,来调整输入图像的第一对象的分辨率。
可以基于原始图像和在降低原始图像的分辨率之后获得的放大图像来获得多个候选图像。
调整输入图像的第一对象中的特征可以包括:基于关于第一对象的信息与通过训练学习网络模型而获得的多个候选图像中的至少一个候选图像之间的关系,来对输入图像的第一对象进行去噪。
可以基于原始图像和在将噪声添加到原始图像之后获得的带噪图像来获得多个候选图像。
根据各种实施例,电子装置可以通过从输入图像获得噪声图并使用基于噪声图自适应地操作的学习网络模型来更准确地识别输入图像的质量,以改进输入图像的质量。
附图说明
根据结合附图的以下详细描述,本公开的一些实施例的上述和/或其他方面、特征以及优点将更显而易见,在附图中:
图1是示出根据实施例的电子装置的图;
图2是示出根据实施例的电子装置的配置的框图;
图3A是示出根据各种实施例的学习网络模型和噪声图生成模型的图;
图3B是示出根据各种实施例的学习网络模型和噪声图生成模型的图;
图4是示出根据实施例的噪声图生成模型的学习方法的图;
图5是示出根据实施例的用于改进图像质量的学习网络模型的学习方法的图;
图6是示出根据实施例的电子装置的具体配置的框图;
图7是示出根据实施例的用于学习和使用学习网络模型的处理器的配置的框图;
图8A和图8B是示出根据各种实施例的噪声图生成模型的性能的图;
图9A和图9B是示出根据各种实施例的用于改进输入图像质量的学习网络模型的性能的图;
图10A、图10B、图10C和图10D是示出各种扩展示例的图;以及
图11是示出根据实施例的电子装置的图像处理方法的流程图。
具体实施方式
在附图中示出并在具体实施方式中详细描述了本公开的一个或多个特定实施例。然而,应当理解,本公开不限于一个或多个特定实施例,而是在不脱离本公开的范围和精神的情况下包括所有修改、等同物和替代。此外,没有详细描述公知的功能或构造,因为它们会以不必要的细节模糊本公开。
考虑到本公开的功能,选择当前广泛使用的通用术语作为本公开的实施例中使用的术语,但是可以根据本领域技术人员的意图或司法先例、新技术的出现等而改变。另外,在特定情况下,可能存在申请人任意选择的术语。在这种情况下,这些术语的含义将在本公开的对应描述部分中详细提及。因此,本公开的实施例中使用的术语应基于贯穿公开的术语和内容的含义而不是术语的简单名称来定义。
在本说明书中,表述“具有”、“可以具有”、“包括”或“可以包括”等表示存在对应特征(例如:诸如数量、功能、操作或部件之类的成分),并且不排除存在附加特征。
表述“A或/和B中的至少一个”应理解为表示“A”或“B”或“A和B”中的任何一个。
如本文所使用的,术语“第一”、“第二”等可以表示各种组件,而与顺序和/或重要性无关,并且可以用于将一个组件与另一组件区分开来,而不限制该组件。
另外,本公开中的一个元素(例如,第一元素)“(可操作地或通信地)与另一元素(例如,第二元素)耦接”或“连接到”另一元素(例如,第二元素)的描述应该被解释为包括以下两种情况:一个元素直接耦接到另一个元素的情况,以及一个元素通过又一个元素(例如,第三元素)耦接到另一个元素的情况。
除非另外规定,否则单数表述包括复数表述。应当理解,诸如“包括”或“由......组成”之类的术语在本文中用于表明存在特征、数量、步骤、操作、元素、组件或其组合,而不排除存在或添加一个或多个其它特征、数量、步骤、操作、元素、组件或其组合的可能性。
诸如“模块”、“单元”、“部件”等的术语用于指代执行至少一个功能或操作的元素,并且这样的元素可以被实现为硬件或软件、或者硬件和软件的组合。此外,除了需要在单个硬件中实现多个“模块”、“单元”、“部件”等中的每一个时,这些组件可以集成在至少一个模块或芯片中并且可以在至少一个处理器(未示出)中实现。
在本公开中,术语“用户”可以指代使用电子装置的人或使用电子装置的装置(例如,AI电子装置)。
在下文中,将参考附图详细地描述本公开的实施例。
图1是示出根据实施例的电子装置100的示例的图。
如图1所示,电子装置100可以实现为具有显示器的设备,例如TV、监视器、智能电话、平板PC、笔记本PC、头戴式显示器(HMD)、近眼显示器(NED)、大型显示器(LFD)、数字标牌、数字信息显示器(DID)、视频墙、投影仪显示器等,但不限于此。
电子装置100可以是向设备提供图像的装置,设备包括诸如服务器、蓝光盘(BD)播放器、光盘播放器、流媒体盒等的外部显示器。
本公开不限于此,并且根据IT实施例,电子装置100可以是能够对图像进行图像处理的任何设备。
电子装置100可以接收各种类型的图像。例如,电子装置100以接收标清(SD)、高清(HD)、全高清、超高清图像中的至少一种图像。备选地,电子装置100可以接收压缩形式的图像,压缩形式例如运动图像专家组(MPEG)(例如,MP2、MP4、MP7等)、高级视频编码(AVC)、H.264、高效视频编解码器(HEVC)等。
根据实施例,如图1所示,电子装置100可以接收具有与电子装置100的显示器相同的分辨率并且未压缩的图像10-1。在这种情况下,电子装置100可以在不对接收到的图像10-1执行图像处理操作的情况下显示图像10-1。然而,装置100可能并非总是接收到质量与图像10-1的质量相同的图像。
根据实施例,电子装置100可以接收具有与电子装置100的显示器相同的分辨率但是由于压缩而具有降低的图像质量的图像10-2。在这种情况下,电子装置100需要改进图像10-2的降低质量。
根据实施例,电子装置100可以接收具有比电子装置100的显示器分辨率低的分辨率的图像10-3。在这种情况下,可能必须对图像10-3执行放大(upscaling)操作,但是质量可能会降低。因此,电子装置100需要在放大之前改进图像10-3的质量,然后放大具有改进的质量的图像,或改进放大图像的质量。
根据另一实施例,电子装置100可以接收各种类型的图像,并且需要考虑每个图像的特性来执行图像改进。在下文中,将描述电子装置100的图像质量改进方法和各种实施例。
图2是示出根据实施例的电子装置100的配置的框图。如图2所示,电子装置100包括存储器110和处理器120。
存储器110电连接到处理器120,并且可以存储各种实施例所需的数据。在这种情况下,可以将存储器110实现为包括在处理器120中的内部存储器,例如只读存储器(例如,电可擦除可编程只读存储器(EEPROM))、随机存取存储器(RAM)等,或实现为与处理器120分离的存储器。在这种情况下,根据数据使用目的,可以将存储器110实现为嵌入电子装置100的存储器,或者可以将其实现为电子装置100中的可拆卸存储器。例如,可以将用于驱动电子装置100的数据存储在嵌入电子装置100的存储器中,可以将用于电子装置100的扩展功能的数据存储在与电子装置100可拆卸的存储器中。嵌入在电子装置100中的存储器可以是易失性存储器,例如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、同步动态随机存取存储器(SDRAM),或非易失性存储器,例如,一次性可编程ROM(OTPROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、掩膜ROM、闪速ROM、闪存(例如,NAND闪速或NOR闪速)、硬盘驱动器或固态驱动器(SSD)。在存储器可拆卸地安装到电子装置100的情况下,存储器可以实现为存储器卡(例如,紧凑型闪速(CF)、安全数字(SD)、微型安全数字(micro-SD)、迷你安全数字(mini-SD)、极限数字(xD)、多媒体卡(MMC)等)、可连接到USB端口的外部存储器(例如USB存储器)等。
存储器110可以存储用于改进输入图像的质量的学习网络模型。这里,学习网络模型可以是基于多个样本图像、针对每个样本图像的噪声图以及与每个样本图像对应的原始图像的机器学习的模型。例如,学习网络模型可以是使用卷积神经网络(CNN)针对多个样本图像、每个样本图像的噪声图以及与每个样本图像对应的原始图像而学习的模型。这里,CNN是具有特殊级联结构的多层神经网络,其设计用于语音处理、图像处理等。
然而,这仅是示例性的,学习网络模型可以是基于各种神经网络的学习网络模型,例如递归神经网络(RNN)、深度神经网络(DNN)等。
同时,噪声图可以表示输入图像的质量。例如,噪声图包括指示输入图像中包括的每个像素的质量的信息。在这种情况下,噪声图的大小可以等于输入图像的大小。例如,如果输入图像的大小为4×4,则噪声图的大小也可以为4×4。然而,实施例不限于此,并且如果噪声图表示输入图像的质量,则信息的类型、显示方法等可以使用多种方式。例如,噪声图的单位信息可以对应于输入图像的预定大小的每个区域的平均值,而不是对应于输入图像的每个像素值。
存储器110可以进一步存储噪声图生成模型以获得输入图像的噪声图。这里,噪声图生成模型可以是基于多个样本图像和每个样本图像的噪声图而机器学习的模型。
将在附图中说明用于改进输入图像质量的学习网络模型和噪声图生成模型。
处理器120电连接到存储器110,并控制电子装置100的整体操作。
根据实施例,处理器120可以包括用于处理数字图像信号的数字信号处理器(DSP)、微处理器、时间控制器(TCON)等,但不限于此。处理器120可以包括例如但不限于中央处理单元(CPU)、微控制器单元(MCU)、微处理单元(MPU)、控制器、应用处理器(AP)、通信处理器(CP)、高级精简指令集计算(RISC)机器(ARM)处理器等中的一个或多个,或者可以被定义为对应术语。处理器120可以用片上系统(SoC)类型或大规模集成(LSI)类型(其中内置了处理算法)、或现场可编程门阵列(FPGA)类型来实现。
根据实施例,处理器120可以通过执行对输入图像的图像处理来获得其中输入图像的质量经改进的输出图像。
例如,处理器120可以从输入图像获得表示输入图像质量的噪声图,并且通过将输入图像和噪声图应用于包括多个层的学习网络模型,来获得其中输入图像的质量经改进的输出图像。在改进输入图像质量的过程中通过使用从输入图像获得的噪声图,可以根据输入图像的类型以自适应的方式改进图像质量,并且可以提高质量改进的整体效果。
这里,学习网络模型可以是通过AI算法学习以下各项之间的关系而获得的人工智能(AI)模型:多个样本图像,每个样本图像的噪声图以及与每个样本图像对应的原始图像。此外,学习网络模型的多个层可以包括输入层、中间层和输出层。输入层是多个层中可以首先执行操作的层,输出层是可以最后执行操作的层,中间层是设置在输入层和输出层之间的层。
根据实施例,处理器120可以将噪声图提供给多个层中的至少一个中间层。例如,处理器120可以将噪声图提供给多个层中的每个层,或者将噪声图提供给多个层中除输入层之外的每个其余层。通过该操作,由于在输入图像的质量改进过程中连续地反映图像的质量,因此可以提高图像质量改进的性能。
例如,如果噪声图仅提供给多个层中的输入层,则当图像经过多个层中的其他层时,不反映噪声图,噪声图的特性会减弱,并且质量改进性能会降低。
备选地,如果噪声图仅提供给多个层中的输出层,则当图像经过多个层中的其他层时,不反映噪声图,因此,在噪声图仅反映在输出层中的状态中执行质量改进。通常,学习网络模型中的层数越多,图像处理的性能越高,并且如果仅在输出层中反映噪声图,则图像质量改进的整体性能可能降低。
因此,当处理器120将噪声图提供给至少一个中间层时,与将噪声图仅提供给输入层或输出层的情况相比,可以进一步提高质量改进性能。
学习网络模型还可以包括至少一个子层,并且处理器可以使用至少一个子层来处理噪声图,并将经处理的噪声图提供给至少一个中间层。
处理器120可以分别提供与从至少一个中间层中的每个中间层的前一层输出的输出数据对应的多个通道和到至少一个中间层的附加通道。这里,附加通道可以是从与至少一个中间层中的每个中间层对应的子层输出的经处理的噪声图。根据实施例,处理器120可以不将从至少一个中间层中的每个中间层的前一层输出的输出数据和从与至少一个中间层中的每个中间层对应的子层输出的经处理的噪声图混合,而是将输出数据和经处理的噪声图并行地级联起来,并提供给至少一个中间层中的每个中间层。
处理器120可以将输入图像提供给学习网络模型中包括的多个层中的输入层。在这种情况下,学习网络模型可以是通过AI算法学习以下各项之间的关系而获得的AI模型:由多个层依次处理提供给多个层中的输入层的多个样本图像中的每个样本图像而获得的输出图像,以及提供给至少一个中间层的多个样本图像中的每个样本图像与多个样本图像中的每个样本图像对应的原始图像的噪声图。
备选地,处理器120可以将输入图像提供给输入层,并且可以将输出层的输出数据和输入图像混合以获得输出图像。换句话说,处理器120不仅可以将输入图像提供给输入层,而且还可以提供给输出层的后端。在这种情况下,学习网络模型可以是通过AI算法学习以下各项之间的关系而获取的AI模型:通过将输出数据和多个样本图像中的每个样本图像与对应于多个样本图像中的每个样本图像的原始图像混合而获得的输出图像,通过由多个层依次处理提供给多个层中的输入层的多个样本图像中的每个样本图像而获得的输出数据,以及提供给至少一个中间层的多个样本图像中的每个样本图像的噪声图。
这里,多个样本图像中的每个样本图像可以是原始图像的压缩图像,并且每个样本图像的噪声图可以是从每个样本图像和与每个样本图像对应的原始图像获得的噪声图。
处理器120可以通过将输入图像应用于包括多个层的噪声图生成模型来获得噪声图。这里,噪声图生成模型可以是通过AI算法学习多个样本图像与多个样本图像中的每个样本图像的噪声图之间的关系而获得的AI模型。
当学习用于改进图像质量的学习网络模型以及学习噪声图生成模型时,可以将相同的多个样本图像和该多个样本图像中的每个样本图像的噪声图用于学习网络模型和噪声图生成模型两者的学习。然而,实施例不限于此,学习用于改进图像质量的学习网络模型时的学习数据与学习噪声图生成模型时的学习数据可以彼此不同。
电子装置100可以进一步包括显示器。根据实施例,电子装置100可以基于显示器的分辨率来转换输出图像的分辨率,并且控制显示器显示分辨率经转换的图像。这里,分辨率经转换的图像可以是4K超高清(UHD)或8K UHD图像。
处理器120可以将视频中包括的多个帧中的每个帧作为输入图像应用于学习网络模型,以获得具有改进的视频质量的输出视频。例如,处理器120可以对视频进行解码,将经解码的视频的每个帧作为输入图像应用于学习网络模型以改进质量,并将具有改进质量的帧组合以获得具有改进质量的输出视频。这里,处理器120可以获得每个帧的噪声图,并使用所获得的噪声图来改进每个帧的质量。
如上所述,由于从输入图像获得噪声图,因此处理器120可以自适应地改进输入图像的质量。另外,由于将噪声图提供给学习网络模型中包括的多个层中的至少一个中间层,因此处理器120可以在连续反映输入图像的质量的同时执行图像处理。因此,可以提高输入图像的质量改进性能。
在下文中,将通过附图进一步描述处理器120的操作。
图3A和图3B是示出根据各种实施例的学习网络模型和噪声图生成模型的图。
根据图3A中的实施例,处理器120可以通过将输入图像应用于噪声图生成模型(质量估计卷积神经网络(QECNN))310来获得噪声图。
噪声图生成模型310可以包括多个卷积层。例如,多个卷积层中的每个卷积层可以使用5×5的内核来对输入数据执行卷积。然而,实施例不限于此,可以使用任何其他类型的内核。此外,一个卷积层可以使用多个内核中的每个内核来对输入数据执行卷积。
在执行卷积之后,多个卷积层中的一些卷积层可以使用修正线性单元(ReLU)函数来处理输入数据。ReLU函数是如下函数:如果输入值小于零则转换为零,如果输入值大于零则按原样输出输入值。然而,实施例不限于此,多个卷积层中的一些卷积层可以使用S函数(sigmoid function)来处理输入数据。
处理器120可以将输入图像应用于学习网络模型(压缩伪像减少卷积神经网络(CARCNN))320-1,以获得其中输入图像的质量被改进的输出图像。处理器120可以将噪声图提供给多个层中的至少一个中间层。例如,如图3A所示,处理器120可以将噪声图提供给多个层中除输入层之外的每个其余层。
学习网络模型320-1可以包括多个卷积层和多个子卷积层330。例如,多个卷积层中的每个卷积层可以使用3×3的内核来对输入数据执行卷积,多个子卷积层330可以使用1×1的内核来对噪声图执行卷积。然而,实施例不限于此,可以使用任何其他类型的内核。此外,一个卷积层可以使用多个内核中的每个内核来对输入数据执行卷积。
多个卷积层中的一些卷积层可以在执行卷积之后使用ReLU函数来处理输入数据。在执行卷积之后,多个卷积层的其他部分可以使用批量归一化(BN)和ReLU函数来处理输入数据。批量归一化是如下任务:均衡每个层的分配以确保较快的学习速度。
可以将从多个卷积层中的输入层输出的输出数据划分为与输入层中包括的内核的数量对应的通道。可以将从多个子卷积层330中与输入层对应的子卷积层330输出的输出数据级联(cat)到从输入层输出并输入到输入层的下一层的输出数据。例如,输出输入层中由36个通道组成的输出数据,从与输入层对应的子卷积层330输出由一个通道组成的输出数据,并且可以将由总共37个通道组成的输出数据输入到输入层的下一层。通道的数量可以根据多个卷积层中的每个卷积层的特性而变化,并且在其余的卷积层中执行类似的操作。
通过将多个卷积层之中的输出层的输出数据与输入图像进行混合,处理器120可以获得输入图像质量得以改进的输出图像。
如上所述,处理器120可以获得与输入图像对应的噪声图,并且由于噪声图被连续反映在输入图像的质量改进处理的过程中,因此可以提高图像质量改进处理的性能。例如,将噪声图连续反映在去噪卷积神经网络(DnCNN)的处理操作的一个或多个中间层中。
图3A的学习网络模型320-1示出了添加多个子卷积层330以将噪声图连续反映到去噪卷积神经网络(DnCNN),而如图3B所示,学习网络模型320-2可以被配置为添加多个子卷积层330,以将噪声图连续反映到残差密集网络(RDN)格式。图3B的残差密集块(RDB)层以组合残差块和密集块的形式包括多个卷积层,多个卷积层中的每个卷积层的输出可以顺序地输入到下一个卷积层中,并且可以附加地输入到设置在其他位置处的卷积层。可以从RDB层输出输出数据,在该输出数据中,RDB层的初始输入数据与经过最末层的数据相混合。在图3B的情况下,可以使用与图3A相同的噪声图生成模型310。
实施例不限于此,学习网络模型320-1可以使用任何基本模型,只要该模型可以连续反映噪声图即可。
根据实施例,可以将图3A和图3B的模型实现为软件并存储在存储器110中,并且处理器120可以读出用于执行每个层的操作的数据并对输入图像执行处理。
图4是示出根据实施例的噪声图生成模型的学习方法的图。
噪声图生成模型可以是通过AI算法学习多个样本图像与多个样本图像中的每个样本图像的噪声图之间的关系而获得的AI模型。例如,如图4所示,噪声图生成模型可以通过AI算法来学习根据第一样本图像410-1的输入的输出数据与第一样本图像410-1的第一噪声图420-1之间的关系。对于其余的数据对(410-2,420-2)、(410-3,420-3)、(410-4,420-4)等,可以重复相同的学习过程,并且可以获得噪声图生成模型。这里,每个样本图像的噪声图可以是通过规则库的预定算法获得的噪声图。例如,第一样本图像410-1至第四样本图像410-4可以分别是JPEG质量为10、30、50和90的图像,第一噪声图420-1至第四噪声图420-4可以分别是第一样本图像410-1至第四样本图像410-4的噪声图。
噪声图生成模型可以是通过电子装置100以外的其他设备而学习的模型。实施例不限于此,电子装置100的处理器120可以学习噪声图生成模型。
图5是示出根据实施例的用于改进图像质量的学习网络模型的学习方法的图。
学习网络模型的学习方法可以是通过AI算法学习以下各项之间的关系而获得的AI模型:多个样本图像,每个样本图像的噪声图以及与每个样本图像对应的原始图像。例如,如图5所示,学习网络模型可以通过AI算法来学习以下各项之间的关系:根据第一样本图像520-1的输入和第一样本图像520-1的第一噪声图530-1的输入的输出数据、以及与第一样本图像520-1对应的原始图像510。对于其余数据组(520-2,530-2,510)和(520-3,530-3,510)的关系,可以通过重复相同的学习过程来获得学习网络模型。这里,每个样本图像的噪声图可以是通过基于规则的预定算法获得的噪声图。
图5示出了仅使用一个原始图像510,但是在实际学习过程中,可以使用多个原始图像。也就是说,除了图5的原始图像510之外,可以在学习过程中使用附加的原始图像,通过以各种压缩率压缩附加的原始图像而获得的多个样本图像,以及每个样本图像的噪声图。
学习网络模型可以是通过其他装置而不是电子装置100学习的模型。实施例不限于此,电子装置100的处理器120可以学习该学习网络模型。
图6是示出根据实施例的电子装置100的具体配置的框图。
参考图6,电子装置100可以包括存储器110、处理器120、输入器130、显示器140和用户接口150。
存储器110可以存储一个或多个指令。处理器120可以执行存储在存储器110中的一个或多个指令,以执行如上所述的输入图像的噪声图获取操作、输入图像的质量改进操作、每个AI模型的学习操作等。将不再进一步描述图6中与图2的配置重叠的配置。
输入器130接收各种类型的内容,例如图像信号。例如,输入器130可以通过通信方法,以流传输方式或下载方式从外部装置(例如,源装置)、外部存储介质(例如,通用串行总线(USB))、外部服务器(例如,网络硬盘)等接收图像信号,通信方法例如基于接入点(AP)的Wi-Fi(无线Lan网络)、蓝牙、Zigbee、有线/无线LAN、广域网(WAN)、以太网、IEEE1394、高清多媒体接口(HDMI)、移动高清链接(MHL)、通用串行总线(USB)、显示端口(DP)、雷雳(Thunderbolt)、视频图形阵列(VGA)端口、RGB端口、d超微型(D-SUB)、数字视觉接口(DVI)等。这里,图像信号可以是数字信号,但不限于此。另外,可以通过输入器130接收视频。
显示器140可以实现为各种格式,例如液晶显示器(LCD)、有机发光二极管(OLED)、发光二极管(LED)、微型LED、硅基液晶(LCoS)、数字光处理(DLP)、量子点(QD)显示面板等。
处理器120可以控制显示器140以显示其中输入图像的质量得以改进的输出图像。
用户接口150可以实现为能够执行上述显示功能和输入功能的设备,例如按钮、触摸板、鼠标、键盘、遥控接收器或触摸屏。按钮可以是形成在电子装置100的主体的任意区域(例如前表面部分、侧表面部分和后表面部分)中的各种类型的按钮,例如机械按钮、触摸板、滚轮等。
处理器120可以根据通过用户接口150输入的用户命令对输入图像执行质量改进操作。
图7是示出根据实施例的用于学习和使用学习网络模型的处理器120的配置的框图。学习和图像处理可以通过分离的设备执行,但在图7中,为了便于描述,描述了电子装置100学习学习网络模型。
参考图7,处理器120可以包括学习处理器710或图像处理器720中的至少一个。
学习处理器710可以生成或训练用于从输入图像获得噪声图的模型以及用于改进输入图像的质量的模型。学习处理器710可以使用收集的学习数据来生成具有确定准则的识别模型。
例如,学习处理器710可以使用输入图像和输入图像的噪声图作为学习数据来生成、训练或更新用于从输入图像获得噪声图的模型。另外,学习处理器710可以通过使用输入图像、输入图像的噪声图以及与输入对应的原始图像作为学习数据,来学习、训练或更新用于从输入图像和噪声图获得原始图像的模型。
图像处理器720可以通过使用学习网络模型的输入数据来获得其中输入数据的质量得以改进的输出数据。根据实施例,输入数据可以是预定数据。
例如,图像处理器720可以获得输入图像的噪声图,并基于噪声图获得具有改进的输入图像质量的输出图像。
根据实施例,学习处理器710的至少一部分和图像处理器720的至少一部分可以实现为软件模块或至少一种硬件芯片形式,并被安装在电子装置100中。例如,学习处理器710和图像处理器720中的至少一个可以以用于AI的专用硬件芯片的形式、或常规通用处理器(例如,CPU或应用处理器)的形式或仅图形处理器(例如,GPU)的形式制造,并且可以安装在上述各种电子设备或对象识别设备上。在本文中,用于AI的专用硬件芯片是用于概率计算的专用处理器,其具有比现有通用处理器高的并行处理性能,因此可以快速处理诸如机器学习之类的AI中的计算任务。当学习处理器710和图像处理器720实现为软件模块(或包括指令的程序模块)时,该软件模块可以存储在计算机可读非暂时性计算机可读介质中。在这种情况下,软件模块可以由操作系统(OS)或由预定应用提供。备选地,一些软件模块可以由OS提供,并且一些软件模块可以由预定应用提供。
在这种情况下,学习处理器710和图像处理器720可以安装在一个电子装置上,或者可以分别安装在单独的服务器上。例如,学习处理器710和图像处理器720中的一个可以包括在电子装置100中,而另一个可以包括在外部服务器中。另外,学习处理器710可以经由有线或无线通信将由学习处理器710构造的模型信息提供给图像处理器720,图像处理器720可以将输入到图像处理器720的数据提供给学习处理器710作为附加数据。
图8A和图8B是示出根据各种实施例的噪声图生成模型的性能的图。
图8A示出了使用LIVE 1视频数据集,根据图像的质量的第一噪声图和从噪声图生成模型输出的第二噪声图的均方误差(mse)。例如,当原始图像是压缩的时,可以通过基于规则的方法的预定算法从压缩图像获得第一噪声图,可以通过将压缩图像应用于噪声图生成模型来获得第二噪声图,并且可以获得第一噪声图和第二噪声图的均方误差。
图8A的压缩系数(Q)表示根据压缩的质量,质量从10到90越发接近原始图像。另外,图8A描绘了8层、12层和16层,层越多,均方误差越低。这在图8B中更清楚地示出。
当层数等于或大于特定数目时,无论Q如何,都获得与第一噪声图非常相似的第二噪声图。
图9A和图9B是示出根据各种实施例的用于改进输入图像质量的学习网络模型的性能的图。
图9A示出了在Classic5或LIVE 1视频数据集中Q从10到90的压缩图像已经通过各种方式去噪之后计算的平均峰值信噪比(PSNR)/结构相似性指数(SSIM)结果。PSNR是最大信噪比,代表最大功率下的噪声功率,SSIM表示对于由压缩和转换引起的失真,与原始图像的相似性,作为结构相似性指标。
如图9A所示,Q越高,质量改进功能越高,QEDnCNN的性能比常规DnCNN改进的更多,并且QERDN的性能比常规RDN改进的更多。
在图9B中,比较了QEDnCNN和QERDN,并且可以看出,QEDnCNN总体上具有比QERDN更好的性能。
图10A、图10B、图10C和图10D是示出实施例的各种扩展示例的图。
处理器120可以在输入图像中划分对象区域和背景区域以改进输入图像的质量。例如,如图10A所示,处理器120可以通过将原始图像划分为仅包括对象的对象图像和包括除对象之外的其余区域的背景图像来获得具有改进的质量的输出图像,从而改进对象图像和背景图像各自的质量,并合成具有改进质量的对象图像和具有改进质量的背景图像。
处理器120可以使用各种方法来识别输入图像的对象区域和背景区域。例如,处理器120可以基于像素值识别输入图像中具有特定形状的对象,并且将除了识别出对象的区域以外的其余区域识别为背景区域。根据实施例,形状可以是预定形状。
备选地,处理器120可以使用用于对象识别的AI模型来识别具有特定形状的对象,并且将除了识别出对象的区域以外的其余区域识别为背景区域。
前述实施例仅是示例性的,处理器120可以以许多方式识别输入图像中的对象区域和背景区域。
处理器120可以通过使用多个图像质量改进模型划分对象区域和背景区域来执行图像处理。例如,如图10B所示,处理器120可以通过将输入图像和输入图像中的对象区域信息应用于第一图像质量改进模型1010来改进输入图像中的对象区域的质量,并且可以通过将输入图像和输入图像中的背景区域信息应用于第二图像质量改进模型1020来改进输入图像中的背景区域的质量。处理器120可以将具有改进质量的对象区域与具有改进质量的背景区域组合,并且获得具有改进质量的输出图像。
这里,对象区域信息可以包括与图10A中的左下图对应的信息,背景区域信息可以包括与图10A中的右下图对应的信息。根据实施例,对象区域信息可以包括图10A的左下图中的图像的像素值,背景区域信息可以包括图10A的右下图中的图像的像素值。备选地,对象区域信息和背景区域信息可以不包括像素值,并且可以仅包括用于区分对象区域和背景区域的区域信息。例如,对象区域信息可以是将对象区域指示为1、将背景区域指示为0的图像,背景区域信息可以是将背景区域指示为1、将对象区域指示为0的图像。
第一图像质量改进模型1010可以包括用于从输入图像获得噪声图的第一噪声图生成模型以及用于改进输入图像的对象区域的质量的第一学习网络模型。第二图像质量改进模型1020可以包括用于从输入图像获得噪声图的第二噪声图生成模型以及用于改进输入图像的背景区域的质量的第二学习网络模型。
第一噪声图生成模型可以是用于生成对象区域的噪声图的模型,第二噪声图生成模型可以是用于生成背景区域的噪声图的模型。
第一学习网络模型可以是用于改进对象区域的图像质量的模型,第二学习网络模型可以是用于改进背景区域的图像质量的模型。根据实施例,对于第一学习网络模型和第二学习网络模型,可以在学习过程期间使用不同的样本图像。例如,可以通过学习原始图像和在降低原始图像的分辨率之后的放大图像来生成第一学习网络模型,并且可以通过学习原始图像和向原始图像添加噪声的图像来生成第二学习网络模型。在这种情况下,处理器120可以通过使用第一学习网络模型来获得锐利的结果输出,就像改进了对象区域的分辨率一样,并且使用第二学习网络模型来获得其中背景区域被去噪的结果输出。处理器120可以通过上述方式对对象区域和背景区域执行不同的图像处理。
在图10B中,已经描述了仅将输入图像应用于第一噪声图生成模型和第二噪声图生成模型,但这不限于此。例如,不仅输入图像而且对象区域信息也可以附加地应用于第一噪声图生成模型,并且不仅输入图像而且背景区域信息也可以附加地应用于第二噪声图生成模型。
备选地,处理器120可以通过使用一个图像质量改进模型划分对象区域和背景区域来执行图像处理。例如,如图10C所示,处理器120通过不仅将输入图像和噪声图而且还将对象区域信息或背景区域信息中的至少一个附加地应用于学习网络模型(CARCNN),可以获得具有改进的输入图像质量的输出图像。
对象区域信息和背景区域信息可以与图10B相同。备选地,可以使用其中对象区域被表示为1、背景区域被表示为0的一个图像作为对象区域信息和背景区域信息。然而,实施例不限于此,可以使用可以划分对象区域和背景区域的任何方法。
学习网络模型可以是经学习以对应于对象区域信息和背景区域信息的类型的模型。例如,当使用其中对象区域被表示为1、背景区域被表示为0的图像时,可以在学习过程中使用相同类型的图像。
另外,就对象区域和背景区域的质量改进方案方面,在学习网络模型的学习过程中使用的多个样本图像也可以是不同的样本图像。例如,多个样本图像的对象区域可以是具有比背景区域更高水平的改进质量的区域。这里,可以通过对原始图像进行降级来获得多个样本图像。也就是说,可以通过将原始图像的对象区域和背景区域降级到不同水平的方法来获得多个样本图像。备选地,多个样本图像中的每个样本图像可以是压缩图像,其中对应原始图像的对象区域和背景区域以不同方式压缩。
也就是说,图10C的学习网络模型可以通过识别输入图像的对象区域和背景区域,并且划分对象区域和背景区域来执行质量改进。
在图10C中,图像质量改进模型包括噪声图生成模型(QECNN)和学习网络模型,其中仅将输入图像应用于噪声图生成模型,但不限于此。例如,处理器120还可以不仅将输入图像而且还将对象区域信息或背景区域信息中的至少一个应用于噪声图生成模型,并获得输入图像的噪声图。
备选地,处理器120可以将输入图像划分为多个块,将每个块划分为对象区域和背景区域,并且通过单独的AI模型来处理对象区域和背景区域。例如,如图10D所示,处理器120可以将输入图像顺序地划分成预定大小的块,并识别每个块是对象区域还是背景区域。处理器120可以通过将识别为对象区域的块应用于第一图像质量改进模型1030来获得第一输出块1050-1,通过将识别为背景区域的块应用于第二图像质量改进模型1040来获得第二输出块1050-2,并通过合并第一输出块1050-1和第二输出块1050-2来获得输出图像。
这里,在第一图像质量改进模型1030的学习过程中,可以使用表示对象区域的多个样本块,在第二图像质量改进模型1040的学习过程中,可以使用表示背景区域的多个样本块。
如上所述,处理器120可以在输入图像中划分对象区域和背景区域并改进输入图像的质量。
图11是示出根据实施例的电子装置的图像处理方法的流程图。
在操作S1110中,从输入图像获得表示输入图像的质量的噪声图。在操作S1120中,将输入图像提供给学习网络模型中包括的多个层中的输入层,并将噪声图提供给多个层中的至少一个中间层。在操作S1130中,通过将输入图像和噪声图应用于学习网络模型来获得具有改进的输入图像质量的输出图像。这里,学习网络模型可以是通过AI算法学习以下各项之间的关系而获得的AI模型:多个样本图像、每个样本图像的噪声图以及与每个样本图像对应的原始图像。
这里,学习网络模型还可以包括至少一个子层,并且操作S1120还可以包括:使用至少一个子层来处理噪声图,并将经处理的噪声图提供给至少一个中间层。
根据实施例,操作S1120还可以向至少一个中间层中的每个中间层提供与从至少一个中间层中的每个中间层的前一层输出的输出数据对应的多个通道和附加通道,附加通道可以是从与至少一个中间层中的每个中间层对应的子层输出的经处理的噪声图。
根据实施例,操作S1130还可以将多个层中的输出层的输出数据与输入图像进行混合,以获得输出图像。
根据实施例,操作S1110还可以通过将输入图像应用于包括多个层的噪声图生成模型来获得噪声图,噪声图生成模型可以是通过学习多个样本图像与每个样本图像的噪声图之间的关系而获得的AI模型。
根据实施例,操作S1120还可以将噪声图提供给多个层中的每个层,或者将噪声图提供给多个层中除输入层之外的每个其余层。
学习网络模型可以是通过AI算法学习以下各项之间的关系而获得的AI模型:通过由多个层依次处理提供给多个层中的输入层的多个样本图像中的每个样本图像而获得的输出图像、以及提供给至少一个中间层的多个样本图像中的每个样本图像相对于与多个样本图像中的每个样本图像对应的原始图像的噪声图。
多个样本图像中的每个样本图像可以是其中原始图像被压缩的压缩图像,并且每个样本图像的噪声图可以是从每个样本图像和与每个样本图像对应的原始图像获得的噪声图。
根据实施例,操作S1130还可以通过将视频中包括的多个帧中的每个帧应用于学习网络模型作为输入图像来获得具有改进质量的输出视频。
根据实施例,图11中所示的方法还可以包括:基于电子设备的显示器的分辨率来转换输出图像的分辨率,并以经转换的分辨率显示图像,具有经转换的分辨率的图像可以是4K UHD图像或8K UHD图像。
根据实施例,提供了一种电子装置,该电子装置具有存储一个或多个指令的存储器以及处理器,该处理器电连接到该存储器并且被配置为执行一个或多个指令。根据实施例,处理器可以从输入图像获得第一区域,基于关于第一区域的信息与多个候选图像中的至少一个候选图像之间的关系来调整输入图像的第一区域中的特征,并基于经调整的第一区域和输入图像来获得输出图像。
可以通过将一个或多个原始图像提供给学习网络模型来获得多个候选图像,该学习网络模型是通过AI算法学习以下各项之间的关系而获得的人工智能(AI)模型:与一个或多个原始图像对应的多个样本图像、多个样本图像中的每个样本图像的相应噪声图以及一个或多个原始图像。
根据实施例,调整输入图像的第一区域中的特征可以包括基于多个候选图像中的至少一个候选图像来放大输入图像的第一区域的分辨率。可以基于原始图像和在降低原始图像的分辨率之后获得的放大图像来获得多个候选图像。
根据实施例,调整输入图像的第一区域中的特征可以包括基于多个候选图像中的至少一个候选图像对输入图像的第一区域进行去噪。基于原始图像和在将噪声添加到原始图像之后获得的带噪图像来获得多个候选图像。
根据实施例,提供了一种电子装置,该电子装置具有存储一个或多个指令的存储器以及处理器,该处理器电连接到该存储器并且被配置为执行一个或多个指令。根据实施例,处理器可以从输入图像中获取第一对象,该第一对象与输入图像中的第二对象不同,通过处理与输入图像中的第二对象分离的第一对象来单独调整输入图像的第一对象中的特征;以及基于经调整的第一对象和输入图像来获得输出图像。
处理第一对象可以包括:基于学习网络模型来处理第一对象,该学习网络模型是通过AI算法学习以下各项之间的关系而获得的人工智能(AI)模型:与一个或多个原始图像对应的多个样本图像,多个样本图像中的每个样本图像的相应噪声图以及一个或多个原始图像。
调整输入图像的第一对象中的特征可以包括:基于关于第一对象的信息与通过训练学习网络模型而获得的多个候选图像中的至少一个候选图像之间的关系来调整输入图像的第一对象的分辨率。
可以基于原始图像和在降低原始图像的分辨率之后获得的放大图像来获得多个候选图像。
调整输入图像的第一对象中的特征可以包括:基于关于第一对象的信息与通过训练学习网络模型而获得的多个候选图像中的至少一个候选图像之间的关系来对输入图像的第一对象进行去噪。
可以基于原始图像和在将噪声添加到原始图像之后获得的带噪图像来获得多个候选图像。
根据本公开的各种实施例,电子装置可以通过从输入图像获得噪声图来更准确地识别输入图像的质量,并且使用基于噪声图自适应地操作的学习网络模型来改进输入图像的质量。也就是说,电子装置可以从输入图像获得噪声图以用于去噪,因此对于空间变化的图像可以具有优异的去噪效果,并且可以减少压缩伪像。
根据本公开,如上所述的各种示例实施例可以用包括存储在机器(例如,计算机)可读的机器可读存储介质中的指令的软件来实现。根据一个或多个实施例,装置可以从存储介质调用指令并且根据所调用的指令进行操作。当指令由处理器执行时,处理器可以使用其他组件直接地或在处理器的控制下执行与该指令对应的功能。指令可以包括由编译器生成或由解释器执行的代码。机器可读存储介质可以以非暂时性存储介质的形式提供。
根据本公开的一个或多个实施例,可以在计算机程序产品中提供一种方法。计算机程序产品可以作为商品在买卖双方之间交换。计算机程序产品可以以机器可读存储介质(例如,紧凑盘只读存储器(CD-ROM))的形式分发,或者通过应用商店(例如,PlayStoreTM)在线分发。在线分发的情况下,计算机程序产品的至少一部分可以被临时或至少临时地存储在诸如制造商的服务器、应用商店的服务器或中继服务器的存储器之类的存储介质中。
另外,可以使用软件,硬件或其组合在诸如计算机或类似设备的计算机可读介质中实现上述本公开的一个或多个实施例。在某些情况下,本文描述的一个或多个实施例可以由处理器本身实现。根据软件实现方式,可以用分离的软件模块实现诸如本文中所描述的处理和功能的实施例。每个软件模块可以执行本文所述的一个或多个功能和操作。
根据本公开的一个或多个实施例,用于执行设备的处理操作的计算机指令可以存储在非暂时性计算机可读介质中。当存储在非暂时性计算机可读介质中的计算机指令由特定装置的处理器执行时,可以使该特定装置对根据上述一个或多个实施例的装置执行处理操作。非暂时性计算机可读介质是半永久性存储数据并且可由设备读取的介质。非暂时性计算机可读介质的示例包括CD、DVD、硬盘、蓝光盘、USB、存储卡、ROM等。
根据一个或多个实施例的每个元素(例如,模块或程序)可以由单个实体或多个实体组成,并且上述子元素的一些子元素可以省略,这些元素在各种实施例中可以进一步包括。备选地或附加地,可以将一些元素(例如,模块或程序)集成到一个实体中,以在集成之前执行由每个相应元素执行的相同或相似的功能。根据各种实施例,由模块,程序或其他元件执行的操作可以以并行,重复或启发式的方式顺序地执行,或者可以以不同的顺序执行至少一些操作。
尽管已经参考某些附图示出和描述了各种实施例,但是本公开不限于特定的实施例或附图,并且本领域的普通技术人员将理解,在不背离例如由所附权利要求及其等同物所限定的精神和范围的情况下,可以在其中进行形式和细节上的各种改变。

Claims (15)

1.一种电子装置,包括:
存储器,存储一个或多个指令;以及
处理器,电连接到所述存储器,并被配置为执行所述一个或多个指令以执行以下操作:
从输入图像获得与所述输入图像对应的噪声图;
将所述输入图像提供给包括多个层的学习网络模型的输入层,所述学习网络模型是通过人工智能AI算法学习各项之间的关系而获得的AI模型,所述各项包括多个样本图像、所述多个样本图像中的每个样本图像的相应噪声图、以及与所述多个样本图像对应的原始图像;
将所述噪声图提供给所述多个层中的至少一个中间层;以及
基于将所述输入图像和所述噪声图提供给所述学习网络模型而得到的结果来获得输出图像。
2.根据权利要求1所述的电子装置,
其中,所述学习网络模型还包括至少一个子层,并且
其中,所述处理器还被配置为:使用所述至少一个子层来处理所述噪声图,并将经处理的噪声图提供给所述至少一个中间层。
3.根据权利要求2所述的电子装置,
其中,所述处理器还被配置为:提供与从所述至少一个中间层中的每个中间层的前一层输出的输出数据对应的多个通道和到所述至少一个中间层中的每个中间层的附加通道,并且
其中,所述附加通道是从所述至少一个子层中与所述至少一个中间层中的每个中间层对应的子层输出的经处理的噪声图。
4.根据权利要求1所述的电子装置,
其中,所述处理器还被配置为:通过混合所述输入图像和所述多个层中的输出层的输出数据来获得所述输出图像。
5.根据权利要求1所述的电子装置,
其中,所述处理器还被配置为:通过将所述输入图像提供给包括多个层的噪声图生成模型来获得所述噪声图,并且
其中,所述噪声图生成模型是通过AI算法学习所述多个样本图像与所述多个样本图像中的每个样本图像的相应噪声图之间的关系而获得的AI模型。
6.根据权利要求1所述的电子装置,
其中,所述处理器还被配置为将所述噪声图提供给所述多个层中的每个层,或者将所述噪声图提供给所述多个层中除所述输入层之外的每个其余层。
7.根据权利要求1所述的电子装置,
其中,所述学习网络模型是通过AI算法学习各项之间的关系而获得的AI模型,所述各项包括通过由所述多个层依次处理提供给所述多个层中的输入层的所述多个样本图像中的每个样本图像而获得的输出图像、以及提供给所述至少一个中间层的所述多个样本图像中的每个样本图像相对于与所述多个样本图像中的每个样本图像对应的原始图像的相应噪声图。
8.根据权利要求1所述的电子装置,
其中,所述多个样本图像中的每个样本图像是其中原始图像被压缩的压缩图像,并且
其中,相应样本图像的噪声图是从所述相应样本图像和与所述相应样本图像对应的原始图像获得的噪声图。
9.根据权利要求1所述的电子装置,
其中,所述处理器还被配置为通过将视频中包括的多个帧中的每个帧提供给所述学习网络模型作为所述输入图像来获得其中视频特征经调整的输出视频。
10.根据权利要求1所述的电子装置,还包括:
显示器,
其中,所述处理器还被配置为:
基于所述显示器的分辨率来转换所述输出图像的分辨率,并控制所述显示器显示具有经转换的分辨率的输出图像,并且
其中,具有经转换的分辨率的输出图像是4K超高清UHD图像或8K UHD图像。
11.根据权利要求1所述的电子装置,其中,所述处理器还被配置为:
从所述输入图像获得对象区域;
通过将关于所述对象区域的信息提供给所述学习网络模型来调整所述对象区域的特征;以及
基于经调整的所述对象区域的特征来获得所述输出图像。
12.根据权利要求1所述的电子装置,其中,所述处理器还被配置为:
从所述输入图像获得背景区域;
通过将关于所述背景区域的信息提供给所述学习网络模型来调整所述背景区域的特征,以及
基于经调整的所述背景区域的特征来获得所述输出图像。
13.根据权利要求11所述的电子装置,
其中,所述学习网络模型是用于放大图像的分辨率的模型。
14.根据权利要求11所述的电子装置,其中,所述学习网络模型是用于图像去噪的模型。
15.一种电子装置的图像处理方法,所述方法包括:
从输入图像获得与所述输入图像对应的噪声图;
将所述输入图像提供给学习网络模型中包括的多个层中的输入层,所述学习网络模型是通过人工智能AI算法学习各项之间的关系而获得的AI模型,所述各项包括多个样本图像、所述多个样本图像中的每个样本图像的相应噪声图、以及与所述多个样本图像对应的原始图像;
将所述噪声图提供给所述多个层中的至少一个中间层;以及
基于将所述输入图像和所述噪声图提供给所述学习网络模型而得到的结果来获得输出图像。
CN201911042783.9A 2019-05-02 2019-10-29 电子装置及其图像处理方法 Active CN111881927B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2019-0051386 2019-05-02
KR20190051386 2019-05-02
KR10-2019-0078248 2019-06-28
KR1020190078248A KR102210940B1 (ko) 2019-05-02 2019-06-28 전자 장치 및 그 영상 처리 방법

Publications (2)

Publication Number Publication Date
CN111881927A true CN111881927A (zh) 2020-11-03
CN111881927B CN111881927B (zh) 2021-12-21

Family

ID=68653415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911042783.9A Active CN111881927B (zh) 2019-05-02 2019-10-29 电子装置及其图像处理方法

Country Status (5)

Country Link
US (2) US11257189B2 (zh)
EP (1) EP3734546A1 (zh)
JP (1) JP6857712B2 (zh)
CN (1) CN111881927B (zh)
WO (1) WO2020222382A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581401A (zh) * 2020-12-25 2021-03-30 英特灵达信息技术(深圳)有限公司 一种raw图片的获取方法、装置及电子设备
CN114894823A (zh) * 2022-07-14 2022-08-12 江西理工大学南昌校区 一种x射线单点成像系统

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114430904A (zh) * 2019-09-23 2022-05-03 苹果公司 利用环内子图像级可控噪声生成进行的视频压缩
KR20210067699A (ko) 2019-11-29 2021-06-08 삼성전자주식회사 전자 장치 및 그 제어 방법
US11508037B2 (en) * 2020-03-10 2022-11-22 Samsung Electronics Co., Ltd. Systems and methods for image denoising using deep convolutional networks
US20220301113A1 (en) * 2021-03-19 2022-09-22 Micron Technology, Inc. Modular machine learning models for denoising images and systems and methods for using same
CN113313650B (zh) * 2021-06-09 2023-10-13 北京百度网讯科技有限公司 图像画质增强方法、装置、设备和介质
CN114299550B (zh) * 2022-01-05 2024-02-27 南通理工学院 一种行人再识别系统中无感噪声攻击的防御方法
CN117493466B (zh) * 2023-12-27 2024-04-26 国网浙江省电力有限公司宁波供电公司 财务数据同步方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416748A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 Jpeg压缩文档的图像预处理方法及装置
CN108885784A (zh) * 2016-04-22 2018-11-23 英特尔公司 使用基于神经网络的机器学习的实时目光接触校正
CN109118490A (zh) * 2018-06-28 2019-01-01 厦门美图之家科技有限公司 一种图像分割网络生成方法及图像分割方法
CN109360154A (zh) * 2018-10-29 2019-02-19 厦门美图之家科技有限公司 一种卷积神经网络生成方法及图像的超分辨率方法
CN109544476A (zh) * 2018-11-21 2019-03-29 红相股份有限公司 一种基于深度学习的电力设备红外图像去噪方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08255244A (ja) 1995-03-16 1996-10-01 Ricoh Co Ltd 画像処理装置
JP3580947B2 (ja) 1996-05-14 2004-10-27 大日本スクリーン製造株式会社 画像のノイズ量判別装置およびノイズ量判別方法
KR100344807B1 (ko) 2000-01-12 2002-07-20 엘지전자주식회사 영상 신호 보정 장치 및 방법
US7609908B2 (en) 2003-04-30 2009-10-27 Eastman Kodak Company Method for adjusting the brightness of a digital image utilizing belief values
KR100624421B1 (ko) 2004-05-04 2006-09-19 삼성전자주식회사 디지탈 영상 신호 필터링 장치 및 방법
JP2006031440A (ja) 2004-07-16 2006-02-02 Konica Minolta Photo Imaging Inc 画像処理方法、画像処理装置、画像処理プログラム及び画像処理システム
US8139883B2 (en) 2008-07-29 2012-03-20 Sony Corporation System and method for image and video encoding artifacts reduction and quality improvement
JP2013258596A (ja) * 2012-06-13 2013-12-26 Denso Corp 撮像装置
US9262808B2 (en) 2013-02-07 2016-02-16 Mitsubishi Electric Research Laboratories, Inc. Denoising of images with nonstationary noise
JP2015121884A (ja) 2013-12-20 2015-07-02 キヤノン株式会社 画像処理装置、その方法、及びプログラム
US10043243B2 (en) 2016-01-22 2018-08-07 Siemens Healthcare Gmbh Deep unfolding algorithm for efficient image denoising under varying noise conditions
US9639935B1 (en) * 2016-05-25 2017-05-02 Gopro, Inc. Apparatus and methods for camera alignment model calibration
JP6852402B2 (ja) * 2017-01-04 2021-03-31 中国電力株式会社 観測装置
US10475214B2 (en) * 2017-04-05 2019-11-12 General Electric Company Tomographic reconstruction based on deep learning
US10152768B2 (en) * 2017-04-14 2018-12-11 Facebook, Inc. Artifact reduction for image style transfer
US10776904B2 (en) * 2017-05-03 2020-09-15 Samsung Electronics Co., Ltd. Method and apparatus for processing image
JP6957197B2 (ja) 2017-05-17 2021-11-02 キヤノン株式会社 画像処理装置および画像処理方法
JP7169094B2 (ja) 2017-06-01 2022-11-10 株式会社東芝 画像処理システム及び医用情報処理システム
US10726525B2 (en) 2017-09-26 2020-07-28 Samsung Electronics Co., Ltd. Image denoising neural network architecture and method of training the same
US10552944B2 (en) * 2017-10-13 2020-02-04 Adobe Inc. Image upscaling with controllable noise reduction using a neural network
KR101853237B1 (ko) 2017-11-29 2018-04-27 세종대학교산학협력단 딥 러닝을 이용한 3차원 기하 디노이징 방법 및 그 장치
KR102459221B1 (ko) 2018-02-20 2022-10-27 삼성전자주식회사 전자 장치, 이의 영상 처리 방법 및 컴퓨터 판독가능 기록 매체
WO2019204854A1 (en) * 2018-04-24 2019-10-31 First Frontier Pty Ltd System and method for performing automated analysis of air samples
JP7282487B2 (ja) * 2018-06-07 2023-05-29 キヤノンメディカルシステムズ株式会社 医用画像診断装置
JP7068054B2 (ja) 2018-06-07 2022-05-16 株式会社東芝 距離計測装置、および距離計測方法
CN109658348A (zh) * 2018-11-16 2019-04-19 天津大学 基于深度学习的联合噪声估计和图像去噪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108885784A (zh) * 2016-04-22 2018-11-23 英特尔公司 使用基于神经网络的机器学习的实时目光接触校正
CN108416748A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 Jpeg压缩文档的图像预处理方法及装置
CN109118490A (zh) * 2018-06-28 2019-01-01 厦门美图之家科技有限公司 一种图像分割网络生成方法及图像分割方法
CN109360154A (zh) * 2018-10-29 2019-02-19 厦门美图之家科技有限公司 一种卷积神经网络生成方法及图像的超分辨率方法
CN109544476A (zh) * 2018-11-21 2019-03-29 红相股份有限公司 一种基于深度学习的电力设备红外图像去噪方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581401A (zh) * 2020-12-25 2021-03-30 英特灵达信息技术(深圳)有限公司 一种raw图片的获取方法、装置及电子设备
CN114894823A (zh) * 2022-07-14 2022-08-12 江西理工大学南昌校区 一种x射线单点成像系统

Also Published As

Publication number Publication date
JP2020184300A (ja) 2020-11-12
US11257189B2 (en) 2022-02-22
US11861809B2 (en) 2024-01-02
JP6857712B2 (ja) 2021-04-14
WO2020222382A1 (en) 2020-11-05
CN111881927B (zh) 2021-12-21
EP3734546A1 (en) 2020-11-04
US20220122227A1 (en) 2022-04-21
US20200349675A1 (en) 2020-11-05

Similar Documents

Publication Publication Date Title
CN111881927B (zh) 电子装置及其图像处理方法
US11775829B2 (en) Generative adversarial neural network assisted video reconstruction
US11153575B2 (en) Electronic apparatus and control method thereof
US11315222B2 (en) Image processing apparatus and image processing method thereof
US20140002730A1 (en) Adaptive frame rate control
JP6978542B2 (ja) 電子装置及びその制御方法
KR102210940B1 (ko) 전자 장치 및 그 영상 처리 방법
US20200372608A1 (en) Image processing apparatus and image processing method thereof
CN112887728A (zh) 电子装置、电子装置的控制方法以及系统
US11483585B2 (en) Electronic apparatus and controlling method thereof
KR102246110B1 (ko) 영상 처리 장치 및 그 영상 처리 방법
US11681363B2 (en) Waveguide correction map compression
WO2018123202A1 (ja) 動画像処理装置、表示装置、動画像処理方法、および制御プログラム
CN111814818B (zh) 显示设备及其图像处理方法
US20220164934A1 (en) Image processing method and apparatus, device, video processing method and storage medium
CN116137050B (zh) 三维真人模型处理方法、处理装置、电子设备及存储介质
US20230386057A1 (en) Electronic apparatus and image processing method thereof
US20210398255A1 (en) Mask-based spatio-temporal dithering
US20240078628A1 (en) High-performance and low-latency implementation of a wavelet-based image compression scheme
CN115767091A (zh) 使用神经网络进行基于熵的预滤波用于流式传输应用
CN117974992A (zh) 抠图处理方法、装置、计算机设备和存储介质
WO2023192382A1 (en) Vector-quantized transformable bottleneck networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant