CN110462680A - 用于改善图像纹理的系统和方法 - Google Patents

用于改善图像纹理的系统和方法 Download PDF

Info

Publication number
CN110462680A
CN110462680A CN201880019592.8A CN201880019592A CN110462680A CN 110462680 A CN110462680 A CN 110462680A CN 201880019592 A CN201880019592 A CN 201880019592A CN 110462680 A CN110462680 A CN 110462680A
Authority
CN
China
Prior art keywords
image data
style
image
cnn
style information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880019592.8A
Other languages
English (en)
Inventor
A·阿米塔伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN110462680A publication Critical patent/CN110462680A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

公开用于图像纹理增强的方法及系统。在一些方面中,将用于多个对象类型的纹理信息存储在数据库中。在图像中辨识对象,且识别每个所辨识对象的类型。查询所述数据库以基于每个对象的所述类型确定所述所辨识对象中的每一者的纹理。接着基于所确定纹理更新表示所述所辨识对象的新图像的一部分。可以此方式更新单个图像内具有多个不同纹理的多个对象。此可导致优于已知方法的改善的图像纹理,在低曝光可能导致减小的图像分辨率及劣化的纹理时尤其如此。

Description

用于改善图像纹理的系统和方法
技术领域
本技术涉及图像处理,且更具体地说,涉及图像处理以增强图像内对象的纹理。
背景技术
可包括一组互连的人工神经元(例如,神经元模型)的人工神经网络为计算装置或表示待由计算装置执行的方法。
卷积神经网络为一种类型的前馈人工神经网络。卷积神经网络可包含神经元集合,其各自具有感受野且共同铺就输入空间。卷积神经网络(CNN)具有众多应用。确切地说,CNN已广泛地用于模式辨识及分类领域。
发明内容
本发明的系统、方法和装置各自具有若干方面,其中无单一方面单独地负责其合乎需要的属性。在不限制如通过以下权利要求书表达的本发明的范围的情况下,现在将简要地论述一些特征。在考虑此论述之后,且明确地说,在阅读标题为“具体实施方式”的部分之后,将理解本发明的特征如何提供包含改善的图像纹理(尤其是在图像的较低光区中)的优点。
所公开的一个方面是一种产生图像的方法。所述方法包含:由电子硬件处理器接收图像数据;由所述电子硬件处理器识别由所述图像数据表示的第一对象及第二对象;由所述电子硬件处理器识别所述第一对象及所述第二对象的相应第一类型及第二类型;从对象数据库识别用于所述第一类型对象的第一风格信息及用于所述第二类型对象的不同的第二风格信息;由所述电子硬件处理器基于所述图像数据以及所述第一风格信息及所述第二风格信息产生表示所述第一对象及所述第二对象的第二图像数据;以及由所述电子硬件处理器将所述第二图像数据写入到输出装置。在一些方面中,所述方法还包含经由卷积神经网络识别所述第一对象及所述第二对象。在一些方面中,所述方法还包含利用艺术风格转换来分别基于所述第一风格信息及所述第二风格信息将不同风格转换到所述第二图像数据中的所述第一对象及所述第二对象。在一些方面中,利用艺术风格转换包括最小化所述图像数据的表示所述第一对象的卷积神经网络内容表示与所述第二图像数据的表示所述第一对象的所述CNN内容表示之间的距离以及最小化所述第二图像数据中的所述第一对象的风格表示与所述第一风格信息之间的第二距离。
在一些方面中,利用艺术风格转换进一步包括最小化所述图像数据的表示所述第二对象的所述卷积神经网络内容表示与所述第二图像数据的表示所述第二对象的所述CNN内容表示之间的第三距离,以及最小化所述第二图像中的所述第二对象的风格表示与所述第二风格信息之间的第四距离。在一些方面中,所述内容表示是基于所述图像数据中的对象及所述第二图像数据中的所述对象的所述CNN中的多个层的特征表示。在一些方面中,所述特征表示是基于所述图像数据的滤波器的输出。在一些方面中,所述风格表示是基于所述CNN对所述第二图像数据中的所述第一对象的不同滤波器响应之间的相关及用于所述第一类型的对象的存储在所述对象数据库中的不同滤波器响应之间的相关。
所述方法的一些方面还包含使用成像传感器俘获图像,其中所述图像数据是从所述成像传感器接收。在一些方面中,所述方法包含:识别所述图像数据的低曝光部分及高曝光部分;以及基于所述图像数据的低曝光部分的所述第一风格信息或所述第二风格信息产生所述第二图像。
所公开的另一方面是一种用于产生图像的设备。所述设备包含:相机,其包括经配置以俘获一或多个图像的成像传感器;电子硬件处理器,其经配置以:从由所述成像传感器俘获的一或多个图像中的一者接收图像数据;识别由所述图像数据表示的第一对象及第二对象;识别所述第一对象及所述第二对象的相应第一类型及第二类型;从对象数据库识别用于所述第一类型对象的第一风格信息及用于所述第二类型对象的不同的第二风格信息;基于所述图像数据以及所述第一风格信息及所述第二风格信息产生表示所述第一对象及所述第二对象的第二图像数据;以及将所述第二图像数据写入到输出装置。
在所述设备的一些方面中,所述电子硬件处理器进一步经配置以利用艺术风格转换来分别基于所述第一风格信息及所述第二风格信息将不同风格转换到所述第二图像数据中的所述第一对象及所述第二对象。
在所述设备的一些方面中,利用艺术风格转换包括最小化所述图像数据的表示所述第一对象的卷积神经网络内容表示与所述第二图像数据的表示所述第一对象的所述CNN内容表示之间的距离以及最小化所述第二图像数据中的所述第一对象的风格表示与所述第一风格信息之间的第二距离。在一些方面中,利用艺术风格转换进一步包括最小化所述图像数据的表示所述第二对象的所述卷积神经网络内容表示与所述第二图像数据的表示所述第二对象的所述CNN内容表示之间的第三距离,以及最小化所述第二图像中的所述第二对象的风格表示与所述第二风格信息之间的第四距离。在一些方面中,所述内容表示是基于所述图像数据中的对象及所述第二图像数据中的所述对象的所述CNN中的多个层的特征表示。在一些方面中,所述特征表示是基于所述图像数据的滤波器的输出。在一些方面中,所述风格表示是基于所述CNN对所述第二图像数据中的所述第一对象的不同滤波器响应之间的相关及用于所述第一类型的对象的存储在所述对象数据库中的不同滤波器响应之间的相关。在一些方面中,所述电子硬件处理器进一步经配置以使用所述成像传感器俘获图像,其中所述图像数据是从所述成像传感器接收。
在一些方面中,所述电子硬件处理器进一步经配置以识别所述图像数据的低曝光部分及高曝光部分,且基于用于所述图像数据的低曝光部分的所述第一风格信息或所述第二风格信息产生所述第二图像。
所公开的另一方面是一种非暂时性计算机可读媒体,其包括指令,所述指令在执行时致使处理器执行产生图像的方法。所述方法包含:由电子硬件处理器接收图像数据;由所述电子硬件处理器识别由所述图像数据表示的第一对象及第二对象;由所述电子硬件处理器识别所述第一对象及所述第二对象的相应第一类型及第二类型;从对象数据库识别用于所述第一类型对象的第一风格信息及用于所述第二类型对象的不同的第二风格信息;由所述电子硬件处理器基于所述图像数据以及所述第一风格信息及所述第二风格信息产生表示所述第一对象及所述第二对象的第二图像数据;以及由所述电子硬件处理器将所述第二图像数据写入到输出装置。
附图说明
图式中说明的各种特征可能未按比例绘制。因此,为了清晰起见,可能任意扩大或减小各种特征的尺寸。此外,加点或短划线和对象可能指示可选特征,或用于示出组件的组构。此外,图式中的一些图式可能并未描绘给定系统、方法或装置的所有组件。最后,在整个说明书及图式中,相同参考标号可以用于标示相同特征。
图1说明根据本公开的某些方面的实例神经元网络。
图2说明根据本公开的某些方面的计算网络(神经系统或神经网络)的处理单元(神经元)的实例。
图3说明根据本公开的某些方面的尖峰时序依赖可塑性(STDP)曲线的实例。
图4说明根据本公开的某些方面的用于界定神经元模型的行为的正形态及负形态的实例。
图5说明根据本公开的某些方面的使用通用处理器设计神经网络的实例实施方案。
图6说明根据本公开的某些方面的设计神经网络的实例实施方案,其中存储器可与个别分布式处理单元介接。
图7说明根据本公开的某些方面的基于分布式存储器及分布式处理单元设计神经网络的实例实施方案。
图8说明根据本公开的某些方面的神经网络的实例实施方案。
图9展示两个实例图像。
图10展示在由所公开的方法和系统处理之后的图9的两个图像。
图11展示利用卷积神经网络(CNN)的图像处理系统。
图12展示三个实例图像1201a-c的分段。
图13为可如何利用由CNN创建的纹理信息来改善图像中识别出的对象的图像纹理的示范性数据流图。
图14为实施所公开的实施例中的一或多者的装置的示范性框图。
图15为用于初始化及训练卷积神经网络的示范性过程。
图16为图像纹理增强系统的示范性数据流图。
图17为图16的框1625的示范性实施方案。
具体实施方式
下文参考附图更充分地描述新颖系统、设备和方法的各个方面。然而,教示公开内容可以许多不同形式来体现,且不应被解释为限于贯穿本公开所呈现的任何特定结构或功能。而是,提供这些方面以使得本公开将透彻且完整,且将向所属领域的技术人员充分传达本公开的范围。基于本文中的教示,所属领域的技术人员应了解,本发明的范围意图涵盖无论是独立于本发明的任何其它方面而实施还是与之组合而实施的本文中所即使的新颖系统、设备和方法的任何方面。举例来说,可使用本文中所阐述的任何数目个方面来实施设备或实践方法。另外,本发明的范围意图涵盖使用除了本文中所阐述的本发明的各种方面以外的或不同于本文中所阐述的本发明的各种方面的其它结构、功能性或结构与功能性来实践的此设备或方法。应理解,可通过权利要求的一或多个要素来体现本文中所公开的任何方面。
此外,尽管本文中描述了特定方面,但这些方面的许多变化和排列落在本公开的范围内。此外,本发明的范围不意图限于本文中所揭示的特定益处、用途或目标。而是,本公开的方面意欲广泛地适用于不同有线及无线技术、系统配置、网路及发射协议,其中的一些作为实例在诸图及优选方面的以下描述中加以说明。具体实施方式及图式仅说明本公开而不限制,本公开的范围由所附权利要求书及其等效物界定。
实例神经系统、训练及操作
图1说明根据本公开的某些方面的具有多个神经元层级的实例人工神经系统100。神经系统100可具有经由突触连接104(例如,前馈连接)的网络连接到另一神经元层级106的神经元层级102。为简单起见,图1中仅说明两个神经元层级,但神经系统中可存在更少或更多的神经元层级。应注意,神经元中的一些可经由橫向连接连接到同一层的其它神经元。此外,神经元中的一些可经由反馈连接连接回到前一层的神经元。
如图1中所说明,层级102中的每个神经元可接收可由前一层级(图1中未展示)的神经元产生的输入信号108。信号108可表示层级102的神经元的输入电流。此电流可累积在神经元膜上以为膜电位充电。在膜电位达到其阈值时,神经元可激发,且产生待传递到下一神经元层级(例如,层级106)的输出尖峰。在一些建模方法中,神经元可连续地将信号传递到下一神经元层级。
此信号通常随膜电位而变。此类行为可在硬件和/或软件中仿真或模拟,包含例如下文描述的模拟及数字实施方案。
在生物神经元中,在神经元激发时产生的输出尖峰称为动作电位。此电气信号为相对快速的临时神经脉冲,振幅大致为100mV且持续时间为约1ms。在具有一系列连接的神经元(例如,尖峰从一个神经元层级传递到图1中的另一神经元层级)的神经系统的特定实施例中,每一动作电位具有基本上相同的振幅及持续时间,且因此,信号中的信息可仅由尖峰的频率及数目或尖峰的时间而非由振幅来表示。由动作电位携载的信息可由尖峰、发放尖峰的神经元及尖峰相对于其它尖峰的时间确定。尖峰的重要性可由应用于神经元之间的连接的权重确定,如下文所解释。
尖峰从一个神经元层级到另一神经元层级的传递可经由突触连接网络(或简称“突触”)104来实现,如图1中所说明。相对于突触104,层级102的神经元可视为突触前神经元,且层级106的神经元可视为突触后神经元。突触104可从层级102的神经元接收输出信号(例如,尖峰),且根据可调整突触权重缩放那些信号,其中P为层级102与106的神经元之间的突触连接的总数目,且i为神经元层级的指示符。在图1的实例中,i表示神经元层级102,且i+1表示神经元层级106。此外,经缩放信号可组合为层级106中的每个神经元的输入信号。层级106中的每一神经元可基于对应的组合输入信号产生输出尖峰110。输出尖峰110可使用另一突触连接网络(图1中未展示)传递到另一神经元层级。
生物突触可调节突触后神经元中的兴奋性或抑制性(超极化)动作,且还可用来放大神经元信号。兴奋性信号使膜电位去极化(例如,相对于休止电位增大膜电位)。如果在特定时间周期内接收到足够兴奋性信号以使高于阈值的膜电位去极化,则动作电位在突触后神经元中出现。相比之下,抑制性信号通常使膜电位超极化(例如,降低)。如果足够强,则抑制性信号可抵消兴奋性信号的总和,且防止膜电位达到阈值。除了抵消突触兴奋之外,突触抑制还可对自发活跃神经元施加强大控制。自发活跃神经元是指在无进一步输入(例如由于其动力学或反馈)的情况下发放尖峰的神经元。通过抑止这些神经元中的动作电位的自发产生,突触抑制可对神经元中的激发图案进行塑形,其通常称为雕刻(sculpturing)。各种突触104可取决于所需行为而充当兴奋性或抑制性突触的任何组合。
神经系统100可由通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置(PLD)、离散门或晶体管逻辑、离散硬件组件、由处理器执行的软件模块或其任何组合来仿真。神经系统100可用于大范围的应用中,例如图像及模式辨识、机器学习、马达控制等。神经系统100中的每个神经元可实施为神经元电路。充电到阈值以起始输出尖峰的神经元膜可实施为例如电容器,其对流过其中的电流进行积分。
在一方面中,可消除作为神经元电路的电流积分装置的电容器,且可替代地使用较小忆阻器元件。此方法可应用于神经元电路以及庞大电容器用作电流积分器的各种其它应用中。此外,可基于忆阻器元件实施突触104中的每一者,其中突触权重改变可涉及忆阻器电阻的改变。利用纳米特征大小的忆阻器,神经元电路及突触的区域可基本上减小,其可使大规模神经系统硬件实施方案的实施更为实际。
仿真神经系统100的神经处理器的功能性可取决于突触连接的权重,其可控制神经元之间的连接的强度。突触权重可存储在非易失性存储器中以便在断电之后保留处理器的功能性。在一方面中,突触权重存储器可实施于独立于主要神经处理器芯片的外部芯片上。突触权重存储器可作为可更换存储卡与神经处理器芯片单独地封装。此可为神经处理器提供多种多样的功能性,其中特定功能性可基于存储于当前附接到神经处理器的存储器卡中的突触权重。
图2说明根据本公开的某些方面的计算网络(例如,神经系统或神经网络)的处理单元(例如,神经元或神经元电路)202的示范性图200。举例来说,神经元202可对应于来自图1的层级102及106的神经元中的任一者。神经元202可接收多个输入信号2041-204N,其可为在神经系统外部的信号或由相同神经系统的其它神经元产生的信号,或两者。输入信号可为电流、电导率、电压、实值及/或复值。输入信号可包括具有定点或浮点表示的数值。这些输入信号可经由突触连接递送到神经元202,所述突触连接根据可调整突触权重2061-206N(W1-WN)缩放所述信号,其中N可为神经元202的输入连接的总数目。
神经元202可组合经缩放输入信号且使用组合的经缩放输入产生输出信号208(即,信号Y)。输出信号208可为电流、电导率、电压、实值及/或复值。输出信号可为具有定点或浮点表示的数值。输出信号208可接着作为输入信号传送到相同神经系统的其它神经元,或作为输入信号传送到相同神经元202,或作为神经系统的输出。
处理单元(神经元)202可由电路仿真,且其输入及输出连接可由与突触电路的电连接仿真。处理单元202以及其输入及输出连接还可由软件代码仿真。处理单元202还可由电路仿真,而其输入及输出连接可由软件代码仿真。在一方面中,计算网络中的处理单元202可为模拟电路。在另一方面中,处理单元202可为数字电路。在又一方面中,处理单元202可为具有模拟及数字组件两者的混合信号电路。计算网络可包含前述形式中的任一者的处理单元。使用此类处理单元的计算网络(神经系统或神经网络)可用于大范围的应用中,例如图像及模式辨识、机器学习、马达控制等。
在训练神经网络的过程期间,突触权重(例如,来自图1的权重及/或来自图2的权重2061到206N可用随机值初始化,且根据学习规则而增大或减小。所属领域的技术人员将了解,学习规则的实例包含但不限于尖峰时序依赖可塑性(STDP)学习规则、Hebb规则、Oja规则、Bienenstock-Copper-Munro(BCM)规则等。在某些方面中,所述权重可稳定或收敛到两个值(即,权重的双峰分布)中的一者。此效应可用于减少每个突触权重的位数、增大从/向存储突触权重的存储器读取和写入的速度,且降低突触存储器的功率及/或处理器消耗。
突触类型
在神经网络的硬件和软件模型中,突触相关功能的处理可基于突触类型。突触类型可为非可塑突触(权重及延迟无改变)、可塑突触(权重可改变)、结构化延迟可塑突触(权重和延迟可改变)、全可塑突触(权重、延迟及连接性可改变)、以及基于此的变型(例如,延迟可改变,但权重或连接性无改变)。多种类型的优点在于处理可细分。举例来说,非可塑突触可能不要求执行可塑性功能(或等待此类功能完成)。类似地,延迟和权重可塑性可细分成可一起或单独地、顺序地或并行地操作的操作。不同类型的突触对于适用的每一种不同的可塑性类型可具有不同的查找表或公式以及参数。因此,所述方法将针对突触的类型来存取相关的表、公式或参数。
还进一步牵涉到以下事实:尖峰时序依赖结构可塑性可独立于突触可塑性来执行。结构可塑性即使在权重量值没有改变的情况下(例如,如果权重已达到最小或最大值、或其由于某种其它原因而不改变)也可被执行,因为结构可塑性(即,延迟改变的量)可为前-后尖峰时间差的直接函数。或者,结构可塑性可随权重变化量而变加以设定或基于与权重或权重变化的界限有关的条件来设定。举例来说,突触延迟可仅在权重变化发生时或者在权重达到零的情况下才改变,但在这些权重为最大值时则不改变。然而,具有独立功能以使得这些过程可并行化从而减少存储器存取的次数及重叠可能是有利的。
突触可塑性的确定
神经元可塑性(或简称“可塑性”)是大脑中的神经元及神经网络响应于新的信息、感官刺激、发展、损坏、或机能障碍而改变其突触连接及行为的能力。可塑性对于生物学中的学习及记忆、以及对于计算神经科学及神经网络是重要的。已经研究了各种形式的可塑性,诸如突触可塑性(例如,根据赫布理论(Hebbian theory))、尖峰时序依赖可塑性(STDP)、非突触可塑性、活动性依赖可塑性、结构可塑性及动态平衡可塑性。
STDP是调整神经元之间的突触连接的强度的学习过程。连接强度是基于特定神经元的输出与所接收输入尖峰(即,动作电位)的相对时序来调整的。在STDP过程下,如果到某个神经元的输入尖峰平均而言倾向于紧挨在所述神经元的输出尖峰之前发生,则可能发生长期增强(LTP)。由此使得所述特定输入在一定程度上更强。另一方面,如果输入尖峰平均而言倾向于紧接在输出尖峰之后发生,则可能发生长期抑压(LTD)。由此使得所述特定输入在一定程度上更弱,且因此得名“尖峰时序依赖可塑性”。因此,使得可能是突触后神经元兴奋原因的输入在将来作出贡献的可能性甚至更大,而使得不是突触后尖峰的原因的输入在将来作出贡献的可能性更小。所述过程继续,直至初始连接集合的子集保留,而所有其它连接的影响减小到无关紧要的程度。
因为神经元通常在其许多输入都在短周期内发生(即,累积性足以引起输出)时产生输出尖峰,因此通常保留下来的输入子集包含倾向于在时间上相关的那些输入。此外,因为在输出尖峰之前发生的输入被加强,因此提供对相关性的最早充分累积性指示的那些输入将最终变成到神经元的最终输入。
STDP学习规则可随突触前神经元的尖峰时间tpre与突触后神经元的尖峰时间tpost之间的时间差(即,t=tpost-tpre)来有效地调适将所述突触前神经元连接到所述突触后神经元的突触的突触权重。STDP的典型公式化是如果所述时间差为正(突触前神经元在突触后神经元之前激发)则增大突触权重(即,增强所述突触),以及如果所述时间差为负(突触后神经元在突触前神经元之前激发)则减小突触权重(即,抑压所述突触)。
在STDP过程中,突触权重随时间推移的改变可通常使用指数衰减来实现,如由下式给出的:
其中k+及k_τsign(Δt)分别是针对正及负时间差的时间常数,α+及α-是对应的缩放量值,且μ为可应用于正时间差及/或负时间差的偏移。
图3说明根据STDP,突触权重随突触前及突触后尖峰的相对时序而改变的示范性图300。如果突触前神经元在突触后神经元之前激发,则对应的突触权重可增大,如曲线图300的部分302中所说明。此权重增大可称为突触的LTP。从曲线图部分302可观察到,LTP的量可随突触前及突触后尖峰时间之差而大致呈指数式地下降。相反的激发次序可减小突触权重,如曲线图300的部分304中所说明,从而导致突触的LTD。
如图3中的曲线图300中所说明,可向STDP曲线图的LTP(因果性)部分302应用负偏移μ。X轴的交越点306(y=0)可经配置以与最大时间滞后重合以考虑到来自层i-1的因果性输入的相关性。在基于帧的输入(即,呈特定持续时间的包括尖峰或脉冲的帧的形式的输入)的情况下,可计算偏移值μ以反映帧边界。帧中的第一输入尖峰(脉冲)可被视为如直接由突触后电位所建模地随时间衰减,或在对神经状态的影响方面随时间衰减。如果所述帧中的第二输入尖峰(脉冲)被视为与特定时间帧相关或有关,则所述帧之前及之后的有关时间可通过使STDP曲线的一或多个部分偏移以使得所述有关时间中的值可以不同(例如,对于多于一个帧为负,而对于少于一个帧为正)来在所述时间帧边界处分离且在可塑性意义上被不同地对待。举例来说,负偏移μ可设定为偏移LTP以使得曲线实际上在大于帧时间的前-后时间处变得低于零,且其因此为LTD而非LTP的一部分。
神经元模型及操作
存在一些用于设计有用的尖峰发放神经元模型的通用原理。良好的神经元模型在以下两个计算形态方面可具有丰富的潜在行为:重合检测及功能计算。此外,良好的神经元模型应具有允许时间编码的两个要素:输入的到达时间影响输出时间,且重合检测可具有窄时间窗。最后,为了在计算上有吸引力,良好的神经元模型在连续时间上可具有闭合形式解,且具有稳定的行为,包含在靠近吸引子(attractor)及鞍点(saddle point)之处。换句话说,有用的神经元模型是可实践且可用于建模丰富的、现实的且生物学一致的行为并且可用于对神经电路进行工程设计及反向工程设计两者的神经元模型。
神经元模型可取决于事件,例如输入到达、输出尖峰或其它事件,无论这些事件是内部的还是外部的。为了达成丰富的行为库,可展现复杂行为的状态机可能是期望的。如果事件本身的发生在撇开输入贡献(如果存在)的情况下可影响状态机且约束所述事件之后的动态,则所述系统的将来状态并非仅随状态及输入而变,而是随状态、事件及输入而变。
在一方面中,神经元n可被建模为尖峰发放泄漏积分激发神经元,其膜电压vn(t)由以下动态来控管:
其中α及β是参数,wm,n为将突触前神经元m连接到突触后神经元n的突触的突触权重,且ym(t)为神经元m的尖峰发放输出,其可根据Δtm,n被延迟达树突或轴突延迟才到达神经元n的胞体。
应注意,从建立对突触后神经元的充分输入的时间直到突触后神经元实际上激发的时间存在延迟。在动态尖峰发放神经元模型(例如Izhikevich简单模型)中,如果在去极化阈值vt与峰值尖峰电压vpeak之间存在差,则可能引发时间延迟。举例来说,在所述简单模型中,神经元胞体动态可由关于电压及恢复的微分方程对来控管,即:
其中v为膜电位,u为膜恢复变量,k为描述膜电位v的时间尺度的参数,a为描述恢复变量u的时间尺度的参数,b为描述恢复变量u对膜电位v的阈下波动的敏感度的参数,vr,为膜静息电位,I为突触电流,且C为膜的电容。根据此模型,神经元被界定为在v>vpeak时发放尖峰。
Hunzinger Cold模型
Hunzinger Cold神经元模型为可再现丰富多样的神经行为的最小双形态尖峰发放线性动态模型。所述模型的一维或二维线性动态可具有两个形态,其中时间常数(以及耦合)可取决于形态。在阈下形态中,时间常数(按照惯例为负)表示泄漏通道动态,其通常作用于以生物学一致的线性方式使细胞返回到静息。阈上形态中的时间常数(按照惯例为正)反映抗泄漏通道动态,其通常驱动细胞发放尖峰,同时在尖峰产生中引发延时。
如图4中所说明,模型400的动态可划分成两个(或更多个)形态。这些形态可被称为负形态402(也可互换地称为泄漏积分激发(LIF)形态,勿与LIF神经元模型混淆)以及正形态404(也可互换地称为抗泄漏积分激发(ALIF)形态,勿与ALIF神经元模型混淆)。在负形态402中,状态在将来事件的时间趋向于静息(v_)。在此负形态中,所述模型通常展现出时间输入检测性质及其它阈下行为。在正形态404中,状态趋向于尖峰发放事件(vs)。在此正形态中,所述模型展现出计算性质,例如取决于后续输入事件而引发发放尖峰的延时。在事件方面对动态进行公式化以及将动态分成这两个形态是所述模型的基础特性。
线性双形态二维动态(对于状态v及u)可按照惯例界定为:
其中qp及r是用于耦合的线性变换变量。
符号ρ在本文中用于标示动态形态,在论述或表达特定形态的关系时,按照惯例对于负形态及正形态分别用符号“-”或“+”来替换符号ρ。
模型状态由膜电位(电压)v及恢复电流u来界定。在基本形式中,形态在本质上是由模型状态来确定的。精确及通用的界定存在一些细微却重要的方面,但目前认为所述模型在电压v高于阈值(v+)的情况下处于正形态404中,否则处于负形态402中。
形态相关时间常数包含负形态时间常数τ_及正形态时间常数τ+)。恢复电流时间常数τu通常独立于形态。出于方便起见,负形态时间常数τ_通常被指定为反映衰减的负量,以使得用于电压演变的相同表达式可用于正形态,在正形态中,指数及τ+将通常为正,正如τu那样。
这两个状态元素的动态可在发生事件时通过使状态偏离其零倾线(null-cline)的变换来耦合,其中变换变量为:
qρ=-τρβu-vρ (7)
r=δ(v+ε), (8)
其中δ、ε、β及v_、v+是参数。vρ的两个值是这两个形态的参考电压的基数。参数v_是负形态的基电压,且膜电位在负形态中通常将朝向v_衰减。参数v+是正形态的基电压,且膜电位在正形态中通常将趋向于远离v+
v及u的零倾线分别由变换变量qρ及r的负数给出。参数δ是控制u零倾线的斜率的缩放因数。参数ε通常被设定为等于-v_。参数β是控制这两个形态中的ν零倾线的斜率的电阻值。τρ时间常数参数不仅控制指数衰退,还单独地控制每个形态中的零倾线斜率。
所述模型可被界定为在电压ν达到值vs时发放尖峰。随后,状态可在发生复位事件(其可以与尖峰事件完全相同)时被复位:
u=u+Δu, (10)
其中_及Δu是参数。复位电压_通常被设定为v_。
依照瞬时耦合的原理,闭合形式解不仅对于状态是可能的(且具有单个指数项),而且对于达到特定状态所需的时间也是可能的。闭合形式状态解为:
因此,模型状态可仅在发生事件时被更新,例如在输入(突触前尖峰)或输出(突触后尖峰)时被更新。还可在任何特定时间(无论是否有输入或输出)执行操作。
此外,依照瞬时耦合原理,可预计突触后尖峰的时间,因此达到特定状态的时间可预先确定而无需迭代技术或数值方法(例如,欧拉数值方法)。给定先前电压状态v0,直到到达电压状态vf之前的时间延迟由下式给出:
其中 +通常被设定为参数v+,但其它变型可为可能的。
模型动态的以上界定取决于所述模型是处于正形态还是负形态。如所提及,耦合及形态ρ可在发生事件时计算。出于状态传播的目的,形态及耦合(变换)变量可基于在上一(先前)事件的时间的状态来界定。出于随后预计尖峰输出时间的目的,形态及耦合变量可基于在下一(当前)事件的时间的状态来界定。
存在对Cold模型以及在时间上执行模拟、仿真或建模的若干可能实施方案。这包含例如事件-更新、步阶-事件更新以及步阶-更新模式。事件更新是其中基于事件或“事件更新”(在特定时间)来更新状态的更新。步阶更新是以间隔(例如,l ms)来更新模型的更新。这不一定利用迭代方法或数值方法。通过仅在事件发生于步阶处或步阶间的情况下才更新模型或通过“步阶-事件”更新,基于事件的实施方案以有限的时间分辨率在基于步阶的模拟器中实施也是可能的。
分解神经网络中的卷积运算
深度卷积网路(DCN)广泛地用于许多计算机视觉应用中,包含对象分类、对象定位、面部辨识及场景辨识。卷积运算为DCN中的最计算密集型块中的一者。
卷积运算可在一维(1-D)阵列上理解。长度为N的输入向量X可用长度为M的滤波器W卷积以产生长度为N-M+1的输出向量Y=X*W:
其中M及N为整数值。
忽略加法,计算复杂性可在乘法的数目方面来表达。以上运算中的乘法数目等于(N-M)*M。假定滤波器大小与输入大小相比较小,则使用大O表示法,乘法数目具有O阶(NM)乘法。
在深度卷积网路中,可对2D矩阵而非1-D向量执行卷积运算。举例来说,尺寸为N1×N2的输入矩阵X可用尺寸为MM2的滤波器矩阵W卷积以产生尺寸为(N1-M1+1)×(N2-M2+1)的输出矩阵Y,如下:
计算复杂性可为O(N1N2M1M2)阶乘法。如果矩阵为正方形,即,N1=N2=N且M1=M2-M,则计算复杂性为O(N2M2)阶。
分解2-D卷积运算
取决于滤波器矩阵W的秩,2-D卷积运算可表达为1-D卷积运算的组合。举例来说,滤波器矩阵W可使用奇异值分解(SVD)表达为秩一矩阵的线性组合:
在此实例中,rank(W)表示矩阵W的秩,且矩阵W1、W2、...、Wrank(W)为所有单位秩矩阵。此外,单位秩矩阵中的每一者可表达为列向量乘行向量的乘积。
在一个实例中,假设Wi=UiVi T,其中Uε为列向量且Vi T为行向量。接着,可通过首先用列向量Ui卷积矩阵X的每个列且接着用行向量Vi T卷积所得矩阵的每个行来分解2-D卷积运算X*Wε
使用两个1-D卷积用单位秩矩阵计算2-D卷积的此方法具有计算复杂性:
N2O(N1M1)+N1O(N2M2)=O(N1N2(M1+M2))。
因为对于单位秩矩阵中的每一者重复列及行卷积运算,因此此方法的总体计算复杂性可表达为:
O(rank(W)N1N2(M1+M2))。
在正方形矩阵的情况下,此等于O(2rank(W)N2M)。将此与O(N2M2)进行比较,后者为2-D卷积运算的计算复杂性。
如果滤波器矩阵W具有小秩(rank(W))且具有较大维度(M),则所述分解方法可为有效的。举例来说,考虑滤波器矩阵具有大小16×16且具有秩2的实例,则使用所述分解方法的O(2*2*16*N2)=O(64N2)个乘法与使用传统方法的O(256N2)个乘法进行比较。如果滤波器矩阵W具有单位秩,则在O(32N2)个乘法与O(256N2)个乘法之间进行比较。
根据本公开的一些方面,可以如下方式将2-D卷积运算分解为1-D卷积运算的方法应用于DCN:
在一个方面中,可使用任何训练技术训练DCN。在训练结束时,可计算滤波器矩阵的秩。可由比较O(N1N2M1M2)与O(rank(W)N1N2(M1+M2))来确定是否使用分解方法实施2-D卷积运算。
在一些方面中,DCN可经受预处理,使得滤波器矩阵可由低秩近似值替换。可仅使用最好的少数单位秩矩阵近似得出滤波器权重矩阵:
此处,R可小至一,或可基于奇异值的能量分布而选择。通常,大部分能量集中于最好的少数奇异值中。在一些方面中,R可凭经验选择。举例来说,可通过尝试R的不同值来基于DCN的总体分类性能选择R。即,可根据不同R值的验证数据集的计算准确度来确定R的最终值。可选择性能下降可忽略的R的最低值。
在低秩近似之后,可使用预先训练的分类器,或可重新训练分类器。
在另一方面中,可促进训练过程收敛到单位秩或低秩滤波器权重矩阵。如果秩<K/2,则可认为滤波器具有低秩,其中K为例如滤波器权重矩阵的大小。低秩滤波器的另一实例为伽柏滤波器(Gabor filter),其可如下表达:
伽柏滤波器矩阵具有秩一,且因此在θ=0、90、180或270的情况下可分离。另一方面,伽柏滤波器的秩对于所有其它θ值为二。在此情况下,伽柏滤波器为两个可分离滤波器的总和。
在一个示范性方面中,可通过将正则化项(例如,成本函数)相加到目标函数以便惩罚高秩矩阵来促进单位或低秩滤波器矩阵。举例来说,核范数可用以减小秩。核范数为奇异值的总和且可表达为:
其中σi为奇异值,且λ||W||*相加到每个滤波器的目标函数,其中λ为成本函数。因此,的权重衰减项相加到梯度更新等式。当然,其它正则化项也可用以减小滤波器秩。减小滤波器秩后,可应用分解卷积。
在另一示范性方面中,可强制滤波器权重矩阵的特定秩(例如,单位或低秩),且向回传播(或等效地,梯度下降)可应用于计算这些强制矩阵的更新。
举例来说,假设迫使滤波器矩阵为单位秩。则W的形式取为UVT,其中U为列向量,且V为行向量。元素wij可能并不为自由变量,而实际上可基于自由变量uj及vj导出:
wij=uivj (21)
向回传播过程可应用于计算相对于元素wij的部分梯度。相对于元素wij的部分梯度又可用来以如下方式计算相对于自由变量ui及vj的部分梯度:
其中L表示正被减小的损失(或目标)函数。这些部分梯度可用以更新变量ui及vj,且实质上执行单位秩权重矩阵的空间中的后续梯度。因此,所得训练后的DCN将具有单位秩矩阵,且分解方法可用以有效地实施卷积运算。
在另一示范性方面中,可强制滤波器矩阵上的任意秩(r)而非施行为单位秩的滤波器矩阵。可执行用以计算部分梯度的向回传播过程以确定对变量ui及vj的更新,如上文所论述。
在一些方面中,可使用对于贡献单位秩矩阵中的每一者的相同权重更新及分集的随机初始条件。在另一方面中,r列向量彼此正交且r行向量彼此正交的额外约束可用以促进分集。
在一些方面中,可能需要再使用可分离滤波器。举例来说,在DCN具有对相同输入操作的数个滤波器的情况下,促进基础滤波器的再使用可能是有益的。这可通过配置一组L个可分离滤波器U1V1 T,U2V2 T,...ULVL T来实现。每个滤波器可约束为基础滤波器的大小R的随机子集的线性组合:
其中Sp为由滤波器p使用的可分离滤波器的子集,且αpr为线性组合参数。向回传播可应用于学习L个可分离滤波器及线性组合参数。
图5说明根据本公开的某些方面的使用通用处理器502进行前述分解的实例实施方案500。变量(神经信号)、突触权重、与计算网络(神经网络)相关联的系统参数、延迟及频率区间信息可存储于存储器块504中,而在通用处理器502处执行的指令可从程序存储器506加载。在本公开的一方面中,加载到通用处理器502中的指令可包括用于确定数个可分离滤波器以表达神经网络中的滤波器及/或选择性地将分解卷积应用于滤波器的代码。
在本公开的另一方面中,加载到通用处理器502中的指令可包括用于促进神经网络中的一或多个滤波器具有低秩的代码。
图6说明根据本公开的某些方面的前述分解技术的实例实施方案600,其中存储器602可经由互连网络604与计算网络(神经网络)的个别(分布式)处理单元(神经处理器)606介接。变量(神经信号)、突触权重、与计算网络(神经网络)延迟相关联的系统参数、频率区间信息、正则化信息及/或系统量度可存储于存储器602中,且可经由互连网络604的连接从存储器602加载到每个处理单元(神经处理器)606中。在本公开的一方面中,处理单元606可经配置以确定数个可分离滤波器以表达神经网络中的滤波器及/或选择性地将分解卷积应用于滤波器。
在本公开的另一方面中,处理单元606可经配置以促进神经网络中的一或多个滤波器具有低秩。
图7说明前述分解的实例实施方案700。如图7中所说明,一个存储器组702可直接与计算网络(神经网络)的一个处理单元704介接。每个存储器组702可存储变量(神经信号)、突触权重及/或与对应处理单元(神经处理器)704延迟相关联的系统参数、频率区间信息、正则化信息及/或系统量度。在本公开的一方面中,处理单元704可经配置以确定数个可分离滤波器以表达神经网络中的滤波器及/或选择性地将分解卷积应用于滤波器。
在本公开的另一方面中,处理单元704可经配置以促进神经网络中的一或多个滤波器具有低秩。
图8说明根据本公开的某些方面的神经网络800的实例实施方案。如图8中所说明,神经网络800可具有多个本地处理单元802,所述本地处理单元可执行本文中所描述的方法的各种操作。每个本地处理单元802可包括本地状态存储器804及存储神经网络的参数的本地参数存储器806。此外,本地处理单元802可具有用于存储本地建模程序的本地(神经元)建模程序(LMP)存储器808、用于存储本地学习程序的本地学习程序(LLP)存储器810,及本地连接存储器812。此外,如图8中所说明,每个本地处理单元802可与用于提供本地处理单元的本地存储器的配置的配置处理器单元814及提供本地处理单元802之间的选路的选路连接处理单元816介接
在一个配置中,神经元模型经配置以用于确定数个可分离滤波器以表达神经网络中的滤波器且选择性地将分解卷积应用于滤波器。神经元模型包含确定装置及应用装置。在一个方面中,确定装置及/或应用装置可为经配置以执行所述功能的通用处理器502、程序存储器506、存储器块504、存储器602、互连网络604、处理单元606、处理单元704、本地处理单元802和或选路连接处理单元816。在另一配置中,前述装置可以是经配置以执行前述装置所述功能的任何模块或任何设备。
在另一配置中,神经元模型经配置以用于促进神经网络中的一或多个滤波器具有低秩且将分解卷积应用于滤波器以训练神经网络。神经元模型包含促进装置及应用装置。在一个方面中,促进装置及/或应用装置可为经配置以执行所述功能的通用处理器502、程序存储器506、存储器块504、存储器602、互连网络604、处理单元606、处理单元704、本地处理单元802和或选路连接处理单元816。在另一配置中,前述装置可以是经配置以执行前述装置所述功能的任何模块或任何设备。
根据本公开的某些方面,每个本地处理单元802可经配置以基于神经网络的一或多个所需功能特征来确定神经网络的参数,且在进一步调适、调谐及更新所确定参数时开发朝向所需功能特征的一或多个功能特征。
图9展示两个图像901a-b。所述两个图像可能已在相对较低照明水平的成像条件下俘获。由此,从图像内的妇女的特征反射的光可能是在俘获图像的成像传感器处接收。与成像传感器内的噪声处于类似水平。因此,由于较低的光条件,例如细节及纹理等一些特征可能由于较低的光条件而丢失。举例来说,妇女嘴唇905a-b及肤色906的细节与在较高光条件下俘获的图像相比可能劣化。
图10展示在由所公开的方法和系统处理之后的图9的两个图像。对应于图9中图像901a-b的两个图像1001a-b当与图9的图像901a-b相比时展示改善的细节。举例来说,例如图10的嘴唇1005a-b等面部特征相对于图9的嘴唇905a-b有所改善。图像1001b中妇女的肤色1006也相对于图像901b中的肤色906有所改善。
图11展示利用例如上文所论述的卷积神经网络中的任一者的卷积神经网络(CNN)的图像处理系统。。系统1100包含产生对象数据库1110的数据库工厂1102。对象数据库1110可包含界定卷积神经网络模型的数据。在一些方面中,对象数据库1110可由例如装置1112等单独装置用来识别图像中的一或多个对象。
系统1100还包含卷积神经网络处理1105a,其具有在图11中展示为1101a-c的多个训练图像集合。CNN处理1105a可由配置硬件处理器以执行相对于本公开中的CNN论述的功能的指令构成。举例来说,卷积神经网络可包含多个处理层。每一处理层可包含一或多个滤波器。所述一或多个滤波器中的每一者可经配置以从应用于CNN的图像提取特定独特内容特征。在一些方面中,网络的较高层可经配置以俘获输入图像中在对象及其配置方面的高阶内容。这些较高层可能不约束图像内的像素值。CNN中的较低层可经配置以再现原始图像的像素值。
由于训练图像集合1101a-c包含已知类型的对象,因此已知类型信息也连同训练集合自身提供到CNN 1105a。也不包含已知类型对象的图像也可提供到CNN 1105a,以使得CNN可确定含有某类型的对象的图像与不含所述类型的对象的图像之间的差异。举例来说,CNN内的处理层可各自对于包含特定特征的图像产生独特输出且对于不包含那些特定特征的图像产生其它独特输出。用于特定图像的滤波器输出的组合使得CNN能够产生表示具有特定特性的对象的训练图像1105a的签名。这些图像签名或CNN的每一层内的滤波器输出可接着存储到对象数据库1110。以此方式起作用的卷积神经网络的实例为VGG网络,如Simonyan,K.&Zisserman,A.的用于大规模图像辨识的极深卷积网路(Very DeepConvolutional Networks for Large-Scale Image Recognition)(arXiv:1409.1556[cs](2014))中所描述。
在一些方面中,例如1101a的第一训练集合可提供第一类型对象的多种图像,而例如1101b的第二训练集合可提供第二类型对象的多种图像,且例如1101c的第三训练集合提供第三类型对象的多种图像。举例来说,训练集合1101a可提供天空的多个图像。所述图像可展示例如在各种光照条件中出现的天空。训练集合1101b可提供某种类型的树的多个图像。举例来说,所述图像可展示不同视角或一年的不同时间或例如处于不同成熟阶段或健康状况的树。训练集合1101c可提供青草的多个图像。卷积神经网络1105a可处理所述系列训练图像集合1101a-c且基于包含于CNN的每一层中的滤波器的输出产生每个图像集合的签名。这些签名可包含个别训练集合1101a-b中的每一者内的图像之间的类似性及差异。确定为不同的特性可能并不与对象类型相关联,而训练集合中的各种图像之间的类似特性可由CNN与特定类型的对象相关联。这些类似特性可向CNN1105a界定是什么使树成为树。界定训练集合1101a-c中的一者内的图像的这些类似特性的数据可存储在对象数据库1110中。
具有未知特性1120a的图像可接着提供到卷积神经网络处理逻辑1105b。在一些方面中,逻辑1105b可包含配置一或多个硬件处理器以执行卷积神经网络的功能的指令。基于所发现的界定训练集合1101a-b中提供的一或多个对象的特性,卷积神经网络1105b可识别图像1120a中的一或多个对象。结果为图像分段1120b,其指示已由CNN 1105b经由对象数据库1110识别的已知对象的位置。
在一些方面中,CNN 1105a及/或CNN 1105b可利用VGG网络,如Simonyan,K.&Zisserman,A.的用于大规模图像辨识的极深卷积网路(Very Deep ConvolutionalNetworks for Large-Scale Image Recognition)(arXiv:1409.1556[cs](2014))中所描述。此类网络可包含多个卷积层及第二多个汇集层。举例来说,VGG网络提供十六(16)个卷积及五(5)个汇集层。CNN的每一层可单独地编码给定输入图像,例如训练图像1101a-c。
CNN的每一层可包括一系列一或多个滤波器。滤波器中的每一者在被提供输入图像时提供响应或输出。这些滤波器响应可存储为对象数据库1110的部分。特定图像如何由CNN的特定层表示可通过执行从开始图像(例如白噪声图像)的梯度下降,直到所得图像与特定图像之间的距离最小化来加以识别。
图12展示三个图像1201a-c的分段。第一图像1201a包含青草及人。分段图像1202a展示CNN已对人与青草进行分类。第二图像1201b展示草地上的母牛。图像1202b展示CNN如何能够对图像中的若干对象进行分类但仅对象中的一者被识别为母牛。第三图像1201c展示飞机,而图像1202c展现CNN将图像1201c中的对象分类为天空、建筑物或飞机的能力。尽管图12展示图像可分段成一或多个对象,但所公开的方法及系统甚至在图像分段中存在一些不准确性时仍可提供改善的图像。
图13为可如何利用内容表示及风格表示来产生改善的图像的示范性数据流图。图13展示原始输入图像1201a。图13展示来自图12的图像1201a(作为图11的图像1120a)到图11中所示的数据库应用程序(且确切地说,到CNN 1105b)的假想应用。原始输入图像1201a在一些方面中通过卷积神经网络分段以识别图像1120b中所示的多个对象1310a-c。图11的分段图像1120b对应于图12的图像1202a,其说明CNN 1105b能够识别图12的图像1201a中的天空、青草及妇女身体。
如由卷积神经网络的层内的滤波器响应表示的来自原始图像1201a的图像内容可经保留以产生新图像1320。风格信息1305a-c可用以最小化对象1310a-c在出现于新图像1320中时的风格之间的差异,且包含于训练图像集合110-1a-c中的对象的风格用来产生对象数据库1110。
所公开的方法及系统可在数据库1110中搜索所识别对象中的一或多者的风格信息。可包含纹理信息的数据库1110中的风格信息可接着用来更新对应于特定对象的图像1120b的分段区以产生图像1320。在一些方面中,风格信息1305a-c可表示基于训练图像1101a-c产生的滤波器输出。举例来说,风格信息1305a可包含在CNN的滤波器应用于表示天空的一或多个图像时那些滤波器的输出值。风格信息1305b可包含在CNN的滤波器应用于表示人的一或多个图像时那些滤波器的输出值。
在一些方面中,风格信息1305a-c可指示对应对象的空间频率及平均灰度水平中的一或多者。在一些方面中,风格信息1305a-c可指示对象内的数个边缘像素中的一或多者,因为此可为纹理复杂性的特性。边缘的方向还可由风格信息1305a-c指示,因为此为对象纹理的特性。
在一些方面中,存储在数据库1110中的天空风格或纹理信息1305a可用来更新在产生图像1320时由CNN 1105b识别为天空的图像1120b的部分1310c。人风格或纹理信息1305b可用来更新在产生图像1320时由CNN 1105b识别为人的图像1120b的部分1310b。青草风格或纹理信息1305c可用来更新如由CNN 1105b识别的对应于青草的图像1120b的部分1305a。
图14为实施所公开的实施例中的一或多者的装置的示范性框图。装置1112包含成像传感器1405、电子硬件处理器1410(例如中央处理单元(CPU))、电子硬件存储器1415及对象数据库1110。成像传感器可为相机1406的部分。在一些实施例中,相机可包含发光装置,例如闪光装置。在一些方面中,相机1406还可包含快门释放按钮。
在一些方面中,处理器1410可表示图5中所示的通用处理器502及/或图6中所示的一或多个处理单元606。存储器1415可存储配置处理器1410以执行本文中论述的系统及方法的功能中的一或多者的指令。所述指令可组织成模块,例如图像俘获模块1425a、对象识别模块1425b及图像纹理增强模块1425c。图像俘获模块1425a可配置处理器1410以用成像传感器1405俘获图像。对象识别模块1425可使用CNN来识别由成像传感器1405俘获的图像内的一或多个对象。在一些方面中,对象识别模块1425可包含上文相对于图11所论述的CNN1105b。图像纹理增强模块可利用对象数据库1110来基于存储在数据库1110中的对象的纹理信息更新由成像传感器1405俘获的图像,从而匹配由对象识别模块1425b在图像中识别的对象。举例来说,如下文所描述,在一些方面中,图像纹理增强模块1425c可最小化存在于上文所描述的训练图像集合1101a-c中的对象的风格表示与由对象识别模块1425b检测到的对象的风格表示之间的差异。
图15为用于初始化及训练卷积神经网络的示范性过程。在一些方面中,过程1500可由上文相对于图11所论述的数据库工厂1102执行。举例来说,在一些方面中,数据库工厂1102中的一或多个电子硬件处理器可经配置以执行下文相对于过程1500所论述的功能中的一或多者。
在框1505中,初始化卷积神经网络。在一些方面中,可初始化CNN以便辨识图像内的纹理。在一些方面中,CNN可将纹理辨识为图像的区中的强度布置。在一些方面中,可初始化CNN以便识别图像的区中的数个边缘像素。在一些方面中,还可确定区中的边缘的方向,且将其用作图像中的纹理特性。边缘的方向可表示
在一些方面中,框1505可初始化CNN为等效于VGG-19网络,如由Simonyan及Zissermann在2014年所界定。VGG-19包含两个操作:3×3×k整流卷积及2×2最大值汇集。
在框1510中,训练卷积神经网络以产生模型。在一些方面中,训练CNN以辨识多个对象。在一些方面中,训练CNN可包含由CNN针对待辨识的每个对象处理一系列训练图像。CNN的训练产生CNN模型或对象数据库。所述模型包含独特所述系列训练图像中的多个对象的特性的数据。在一些方面中,多个对象中的每一者的独特特性可包含多个对象中的每一者的纹理。在一些方面中,多个对象中的每一者的独特特性可为对象的空间频率及/或对象的平均灰度水平。在一些方面中,训练CNN产生来自CNN的一或多个层中的多个滤波器的输出值。基于例如训练图像等输入图像产生的滤波器输出值可表示输入图像的签名。框1510可使对象的类型与签名相关联。举例来说,在训练CNN时,其可接收指示包含于图像中的对象的类型的输入。CNN可接着基于所接收图像产生滤波器值,且使对象的类型与滤波器输出值相关联。对象类型与滤波器输出值之间的这些关联可为由框1510产生的CNN模型的部分
在利用CNN辨识树、青草及天空的方面中,第一训练图像集合可表示树,第二训练图像集合可表示青草,且第三训练图像集合可表示天空。表示树的训练图像可产生包含一些滤波器值的共性的签名。在一些方面中,与树相关联的滤波器值中的这些共性可使得CNN能够辨识包含树的图像。在一些方面中,在将训练图像提供到CNN进行处理之前,移除图像的平均值。在一些方面中,训练CNN包含识别与待辨识的对象中的每一者相关联的一或多个纹理。
在框1515中,基于训练图像及架构存储CNN模型或对象数据库。在一些方面中,在框1515中存储的CNN模型可为上文相对于图11所论述的对象数据库1110。在一些方面中,在框1515中存储的CNN模型或对象数据库包含多个CNN描述符,例如由框1510的训练产生的滤波器输出。描述符中的每一者可与待辨识的特定对象类型(例如,青草、树、天空)相关联。在一些方面中,用于对象的CNN描述符中的一些可涉及界定对象本身的空间关系及/或内容。用于对象的其它CNN描述符可涉及对象的风格,例如对象的纹理。此信息可包含对象的空间频率、对象的灰色色调、对象的边缘密度及/或边缘方向中的一或多者。在一些方面中,CNN的滤波器可经配置以基于图像中的对象的空间频率、灰色色调、边缘密度或方向产生输出。
图16为图像纹理增强系统的示范性数据流图。在一些方面中,图16的数据流可在图14的装置1112内实施。举例来说,在一些方面中,硬件处理器1410可由存储在硬件存储器1415中的指令配置以执行下文相对于图16所论述的功能及/或数据流中的一或多者。
在框1605中,可对输入图像进行预处理。在一些方面中,可从例如成像传感器1405等成像传感器接收输入图像。在一些方面中,可从计算机网络或从例如硬盘或固态磁盘阵列等稳定存储装置接收输入图像。在一些方面中,输入图像可能已在低光条件下俘获。在一些方面中,整个图像可能反映在俘获图像时的低水平的曝光。在一些其它方面中,图像的仅一或多个部分可展现低曝光。举例来说,在一些方面中,图像可能是在亮阳光中俘获,但可包含落在阴影内的一或多个对象。因此,在这些方面中,俘获图像的相机可基于亮阳光调整曝光设定,但在阴影中的图像部分可能曝光不足。一些应用可能比其它应用更可能展现图像或图像部分的曝光不足。举例来说,在一些方面中,装置1112可安装或以其它方式并入到车辆及/或无人机中。在这些方面中,因为可能并不存在与图像的俘获相关联的操作人员,因此图像的较高百分比可能相对于由操作人员俘获的图像曝光不足。
在一些方面中,对图像进行预处理可包含移除图像的均值。在各种方面中,还可通过应用标准差为一(1)个、两(2)个、三(3)个、四(4)个或五(5)个像素的高斯内核来使图像平滑化。涵盖其它标准差。在一些方面中,高斯内核的标准差可基于由下文相对于框1610论述的卷积神经网络(CNN)利用的滤波器的大小。
在一些方面中,框1605可包含将图像的大小调整到标准大小。归一化图像及/或对象大小可改善对象辨识置信度。因此,在一些方面中,输入图像内的对象可设定大小到正规化大小。
在框1610中,由卷积神经网络(CNN)处理图像以识别图像内的一或多个对象。如上文所论述,由CNN例如经由先前提供的训练图像先前处理的对象可具有特定类型。作为训练过程的部分存储在数据库1110中的数据可使对象类型与所述类型的对象的对应CNN滤波器输出值相关联。在一些方面中,在框1610中在输入图像中识别出的对象由CNN基于滤波器输出值与存储在数据库1110中的对象类型之间的关联辨识为特定类型。框1610可将输入图像的不同子集或区分段为不同对象类型。在一些方面中,图像的表示特定对象的特定区可产生特定对象所特有的滤波器输出值。如果此对象包含于上文所论述的训练图像中,则数据库1110可存储特定对象所特有的滤波器输出值与所述对象类型之间的关联。这些关联可由框1610用来识别特定区表示特定对象。
作为在框1610中可能发生的对象识别的实例,图12中所示的示范性图像1201a-b中的任一者可分段成与图像内的单独对象相关联的区。实例区分别由图像分段1202a-b展示。分段的结果可为图像分段、相关联标记及CNN描述符的清单,如框1615中所示。举例来说,如果对图像1201a进行分段,则框1610可识别图像1201a的表示天空的区、表示青草的第二区及表示人员的第三区。
在一些方面中,可在不使用卷积神经网络的情况下执行框1610的对象识别。举例来说,在一些方面中,可使用基于外观的方法,例如边缘匹配、分治搜索(divide andconquer search)、灰阶匹配或梯度匹配。在其它方面中,还可使用基于特征的方法。这些包含解译树、假设及测试方法、姿势一致性、姿势聚类、几何散列或其它特征方法。在对于对象辨识不利用CNN的方面中,框1615可能不作为过程1600的部分而存在。
在框1620中,可发生额外处理。在一些方面中,此处理可包含对输入图像的锐化操作,且在一些方面中,可执行噪声减少。
在框1625中,基于每个对象的个别纹理信息单独地更新表示在框1610中识别的对象的输入图像的两个或更多个区。在利用CNN的方面中,个别纹理信息可基于用以训练CNN的训练图像集合1101a-c中的任一者,其可稍后从数据库1110检索。在不利用CNN的方面中,可从使对象类型与对象纹理相关联的数据获得纹理信息。
在一些方面中,可利用单独的个别艺术风格转换操作来将由数据库1110中的数据表示的对象纹理转换到在框1610中辨识出的两个或更多个对象中的每一者。举例来说,在一些方面中,可利用在Gatys、Leon等人的艺术风格的神经算法(A Neural Algorithm ofArtistic Style)(计算机视觉及模式辨识(Computer Vision and PatternRecognition),2015年8月26日提交,2015年9月2日最后修改(“Gatys”))中公开的方法。Gatys特此以全文引用的方式并入。
在一些方面中,框1625利用CNN的一组内容重建层来保留输入图像的内容。这些内容重建层可经配置以基于图像内容产生滤波器响应,如Gatys中所论述。举例来说,滤波器响应可俘获对象及其在输入图像中的布置。CNN的特定层中的滤波器响应的集合可视为特征图。
在一些方面中,框1625可以白噪声图像或随机图像开始。在一些方面中,框1625可以原始输入图像开始。在一些方面中,框1625接着更新开始图像(新图像)以最小化输入图像的表示特定对象的部分的内容表示与新图像中的特定对象的内容表示之间的差异。换句话说,框1625试图保持所辨识对象的内容且作为整体保持输入图像。在一些方面中,可执行开始图像上的梯度下降以找出匹配输入图像的特征响应的另一图像。在框1625中以原始输入图像开始的方面中,可能需要少数(如果存在)操作来最小化开始图像与新图像之间的内容差异。在一些方面中,测量内容表示差异确保开始图像的内容不会显著地偏离原始输入图像。在一些方面中,图像的内容表示可基于原始VGG-网络的层'conv1_1、conv2_1、conv3_1、conv4_1及conv5_1。举例来说,Gatys发现,通过仅利用层conv4_1及conv5_1,损失详细像素信息,而保留图像的高阶内容。因此,在一些方面中,内容表示可仅基于层conv4_1及conv5_1。在一些方面中,内容表示可仅在层‘conv4_2’上匹配。
尽管保留输入图像的内容,但框1625的一些方面修改开始图像以最小化在输入图像中识别出的对象之间的风格信息与相同类型对象的风格信息的差异。在利用CNN的方面中,相同类型的对象可由CNN依据先前提供到CNN的训练图像加以辨识。
CNN的一或多个层可表示提供到CNN的对象的纹理或风格,不管其为训练图像还是输入图像。如Gatys所描述,在一个方面中,风格表示可基于CNN的不同滤波器响应之间的相关。如Gatys所描述,由特征图的空间范围上的不同滤波器响应之间的相关组成的特征空间可用以产生风格表示。通过包含CNN的多个层的特征相关,获得输入图像的固定、多尺度表示。这些表示包含纹理信息,但可不包含图像的全局布置(内容)。在一些方面中,包含CNN的一层中的向量化特征图之间的内积的格拉姆矩阵(Gram matrix)可提供特征相关。在一些方面中,风格表示可基于VGG层conv1_1、conv2_1、conv3_1、conv4_1及conv5_1中的一或多者。在一些方面中,风格表示可仅基于VGG层conv1_1,或VGG层conv1_1及conv2_1,或VGG层conv1_1、conv2_1及conv3_1,或VGG层conv1_1、conv2_1、cov3_1及conv4_1,或VGG层conv1_1、conv2_1、conv3_1、conv4_1及conv5_1。
开始(新)图像中所辨识出的对象的风格可通过将Gatys风格重构应用于两个或更多个所辨识对象,同时经由CNN的内容重构层保留图像内容来加以修改。尽管Gatys将整个图像的单个风格应用于整个单个新图像,但可基于来自多个其它图像的风格对于单个新图像中的不同类型的多个对象单独地执行艺术风格转换的所公开实施方案。
因此,我们在此处增强了Gatys的处理以最小化单个新图像内的单独风格表示的多个不同差异。举例来说,在框1625中最小化风格表示的第一差异。第一差异是在第一类型(如在新图像中表示)的第一所辨识对象与存储在对象数据库1110中的第一类型的一或多个对象的一或多个风格表示之间。还最小化第二风格表示的第二差异。此第二差异是在第二类型(如由新图像表示)的第二所辨识对象与存储在对象数据库1110中的第二类型的对象的一或多个第二风格表示之间。此处理不限于具有两个不同类型的两个对象,而可扩展到具有任何数目个不同类型的输入图像中辨识出的任何数目个对象。
在一些方面中,如由Gatys所描述,整个图像的风格表示的差异可为从原始输入图像导出的Gram矩阵与导出新图像的Gram矩阵的条目之间的均方距离。还如Gatys所描述,Gram矩阵可包括CNN的一层内的向量化特征图之间的内积。如上文所论述,所公开的方法及系统最小化所辨识对象的风格与来自数据库1110的相同类型的对象的风格之间的多个差异。
在框1630中,可执行额外后处理。举例来说,如果在框1605中对特定对象执行大小调整,则大小调整可校正,因为一或多个调整大小后的对象可经重新按比例缩放到其原始尺寸。在框1630中,可在上文所论述的艺术风格转换之后整合多个对象。在一些方面中,可将颗粒添加到图像以减少与不同纹理到看起来不太明显的图像的不同部分的艺术风格转换相关联的伪影。
图17是图16的框1625的示范性实施方案。在一些方面中,图17的过程1625可由上文相对于图14所论述的处理器或CPU 1410执行。举例来说,图像纹理增强模块1425c中的指令可配置处理器1410以执行下文相对于图17所论述的功能中的一或多者。
在框1705中,从分段图像选择对象。举例来说,在一些方面中,分段图像可类似于上文相对于图12所论述的图像1202a-c中的一或多者。分段图像可分段成不同类型的两个或更多个对象,例如青草、母牛、飞机、人、天空、建筑物或任何其它所辨识对象。所选对象具有对象类型。
在框1710中,从数据库识别所选对象的类型的特性。举例来说,如上文所论述,在一些方面中,数据库可基于训练图像数据库。在一些方面中,数据库可为上文所论述的数据库1110。在一些方面中,数据库可使对象类型与对象纹理相关。举例来说,数据库可存储用于青草的第一纹理信息及用于天空的第二纹理信息。在一些方面中,数据库可使对象类型与卷积神经网络的滤波器响应相关。在这些方面中,特性可为滤波器响应。
在框1715中,基于对象类型特性更新分段图像中的选定对象。举例来说,在一些方面中,可基于与所选类型的对象相关联的纹理更新所选物体的纹理。
如上文相对于图16所论述,在一些方面中,框1715可利用艺术风格转换来保留分段图像中的选定对象的内容。同时保留内容、艺术风格转换风格,例如与选定对象的类型相同类型的数据库对象的纹理及/或其它特性。数据库对象可能已从例如训练集合1101a-c中的一或多者中的训练图像识别,且因此存在于例如数据库1110等数据库中。框1715可包含图16中所示的“迭代质量改善”,因为在将风格转换到选定对象时,可执行一些艺术风格转换算法达多次迭代。
作为一实例,在一些方面中,框1715可将表示“青草”的区的图像内容部分保留为选定对象,同时将例如与青草相关联的纹理等青草风格信息转换到表示选定对象的图像区。青草纹理可从在CNN的训练期间形成的数据库获得,如上文相对于例如图11-13所论述。
在框1720中,如果分段图像中存在额外对象,则处理返回到框1705,其中选择另一对象。否则,处理继续。举例来说,可将经更新图像保存到稳定存储装置。
在过程1600的一些方面中,可确定输入图像的低及高曝光部分。举例来说,明度高于阈值的图像部分可确定为高曝光部分,而明度低于第二阈值的其它图像部分可视为低曝光部分。在一些方面中,所述部分可等效于在框1610中由CNN检测到的对象。举例来说,在一些方面中,在框中检测个别对象的明度在一些方面中,可仅对输入图像的低曝光部分执行如上文相对于框1625所述的图像数据的更新。在一些方面中,因为高曝光部分在俘获输入图像时可能已获得适当纹理信息,因此可能并不需要更新较高曝光部分。
如本文中所使用,术语“确定”涵盖广泛多种动作。举例来说,“确定”可包含推算、计算、处理、导出、研究、查找(例如,在表、数据库或另一数据结构中查找)、断定等等。而且,“确定”可包含接收(例如,接收信息)、存取(例如,存取存储器中的数据)等等。此外,“确定”可包含解析、选择、挑选、建立等。另外,如本文中所使用,在某些方面,“信道宽度”可涵盖或也可被称作带宽。
如本文所使用,涉及项目列表中的“至少一者”的短语是指那些项目的任何组合,包含单个成员。作为实例,“以下中的至少一者:a、b或c”意在涵盖:a、b、c、a-b、a-c、b-c及a-b-c。
上文描述的方法的各个操作可由能够执行所述操作的任何合适的装置来执行,例如各个硬件及/或软件组件、电路及/或模块。大体上,各图中所说明的任何操作可由能够执行所述操作的对应功能装置执行。
可利用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或经设计以执行本文所描述的功能的其它可编程逻辑装置(PLD)、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行结合本公开所描述的各种说明性逻辑块、模块和电路。通用处理器可以是微处理器,但在替代例中,处理器可以是任何市售处理器、控制器、微控制器或状态机。处理器也可实施为计算装置的组合,例如DSP和微处理器的组合、多个微处理器、与DSP核心结合的一或多个微处理器,或任何其它此类配置。
在一或多个方面中,所描述的功能可以硬件、软件、固件、或其任意组合来实施。如果实施于软件中,则可将功能作为一或多个指令或代码存储在计算机可读媒体上或经由计算机可读媒体发射。计算机可读媒体包含计算机存储媒体及通信媒体两者,通信媒体包含促进将计算机程序从一处传送到另一处的任何媒体。存储媒体可为可由计算机访问的任何可用媒体。借助于实例而非限制,此类计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于携带或存储呈指令或数据结构的形式的所需程序代码且可由计算机存取的任何其它媒体。而且,可适当地将任何连接称作计算机可读媒体。
本文中所揭示的方法包括用于实现所描述方法的一或多个步骤或动作。在不脱离权利要求书的范围的情况下,方法步骤及/或动作可以彼此互换。换句话说,除非规定了步骤或动作的特定次序,否则在不偏离权利要求书的范围的情况下可对特定步骤及/或动作的次序及/或用法加以修改。
可将本文所描述的功能作为一或多个指令存储在处理器可读或计算机可读媒体上。术语“计算机可读媒体”是指可由计算机或处理器存取的任何可用媒体。借助于实例而非限制,此类媒体可包括RAM、ROM、EEPROM、快闪存储器、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置或任何其它可用来存储指令或数据结构的形式的期望程序代码并且可由计算机存取的媒体。如本文所使用的磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘及光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。应注意,计算机可读媒体可为有形的以及非暂时性的。术语“计算机程序产品”是指计算装置或处理器,其与可由计算装置或处理器执行、处理或计算的代码或指令(例如,“程序”)组合。如本文所使用,术语“代码”可指可由计算装置或处理器执行的软件、指令、代码或数据。
如本文所使用,术语“多个”指示两个或两个以上。举例来说,多个组件指示两个或大于两个组件。如本文中所使用的术语“耦合(couple/couple/coupled)”或词语耦合的其它变型可指示间接连接或直接连接中的任一中。举例来说,如果第一组件“耦合”到第二组件,那么第一组件可间接连接到第二组件或者直接连接到第二组件。术语“耦合”可包含通信耦合、电耦合、磁耦合、物理耦合、光学耦合及其组合。两个装置(或组件)可通过一或多个其它装置、组件、电线、总线、网络(例如,有线网络、无线网络或其组合)等等直接或间接耦合(例如,以通信方式耦合、电耦合或以物理方式耦合)。电耦合的两个装置(或组件)可包含在同一装置或不同装置中,且可经由作为说明性非限制性实例的电子件、一或多个连接器或电感耦合而连接。在一些实施方案中,通信耦合,例如电通信的两个装置(或组件)可例如经由一或多个导线、总线、网络等直接或间接地发送和接收电信号(数字信号或模拟信号)。
因此,某些方面可包括用于执行本文中所呈现的操作的计算机程序产品。举例来说,此计算机程序产品可包括上面存储有(和/或编码有)指令的计算机可读媒体,所述指令可由一或多个处理器执行以执行本文中所描述的操作。对于某些方面,计算机程序产品可包含封装材料。
另外,应了解,用于执行本文所描述的方法和技术的模块和/或其它适当装置可在适用时由用户终端和/或基站下载和/或以其它方式获得。举例来说,可将此类装置耦合到服务器以促进传送用于执行本文中所描述的方法的装置。或者,可经由存储装置(例如,RAM、ROM、例如压缩光盘(CD)或软盘等等物理存储媒体等等)来提供本文所描述的各种方法,使得用户终端和/或基站可在将存储装置耦合或提供到所述装置后即获得所述各种方法。此外,可以利用用于将本文中所描述的方法和技术提供到装置的任何其它合适的技术。
应理解,权利要求书不限于上文所说明的精确配置和组件。在不脱离权利要求书的范围的情况下,可以在上文所描述的方法和设备的布置、操作和细节方面作出各种修改、改变和变化。
虽然前述内容是针对本发明的各方面,但在不偏离本发明的基本范围的情况下,可设计出本发明的其它及另外方面,且由所附权利要求书确定本发明的范围。

Claims (20)

1.一种产生图像的方法,其包括:
由电子硬件处理器接收图像数据;
由所述电子硬件处理器识别由所述图像数据表示的第一对象及第二对象;
由所述电子硬件处理器识别所述第一对象及所述第二对象的相应第一类型及第二类型;
从对象数据库识别用于所述第一类型对象的第一风格信息及用于所述第二类型对象的不同的第二风格信息;
由所述电子硬件处理器基于所述图像数据以及所述第一风格信息及所述第二风格信息产生表示所述第一对象及所述第二对象的第二图像数据;以及
由所述电子硬件处理器将所述第二图像数据写入到输出装置。
2.根据权利要求1所述的方法,进一步包括经由卷积神经网络识别所述第一对象及所述第二对象。
3.根据权利要求2所述的方法,其进一步包括利用艺术风格转换来分别基于所述第一风格信息及所述第二风格信息将不同风格转换到所述第二图像数据中的所述第一对象及所述第二对象。
4.根据权利要求3所述的方法,其中利用艺术风格转换包括最小化所述图像数据的表示所述第一对象的卷积神经网络内容表示与所述第二图像数据的表示所述第一对象的所述CNN内容表示之间的距离以及最小化所述第二图像数据中的所述第一对象的风格表示与所述第一风格信息之间的第二距离。
5.根据权利要求4所述的方法,其中利用艺术风格转换进一步包括最小化所述图像数据的表示所述第二对象的所述卷积神经网络内容表示与所述第二图像数据的表示所述第二对象的所述CNN内容表示之间的第三距离,以及最小化所述第二图像中的所述第二对象的风格表示与所述第二风格信息之间的第四距离。
6.根据权利要求5所述的方法,其中所述内容表示是基于所述图像数据中的对象及所述第二图像数据中的所述对象的所述CNN中的多个层的特征表示。
7.根据权利要求6所述的方法,其中所述特征表示是基于所述图像数据的滤波器的输出。
8.根据权利要求5所述的方法,其中所述风格表示是基于所述CNN对所述第二图像数据中的所述第一对象的不同滤波器响应之间的相关及用于所述第一类型的对象的存储在所述对象数据库中的不同滤波器响应之间的相关。
9.根据权利要求1所述的方法,其进一步包括:使用成像传感器俘获图像,其中所述图像数据是从所述成像传感器接收。
10.根据权利要求1所述的方法,其进一步包括:
识别所述图像数据的低曝光部分及高曝光部分;以及
基于所述图像数据的低曝光部分的所述第一风格信息或所述第二风格信息产生所述第二图像。
11.一种用于产生图像的设备,其包括:
相机,其包括经配置以俘获一或多个图像的成像传感器;
电子硬件处理器,其经配置以:
从由所述成像传感器俘获的一或多个图像中的一者接收图像数据;
识别由所述图像数据表示的第一对象及第二对象;
识别所述第一对象及所述第二对象的相应第一类型及第二类型;
从对象数据库识别用于所述第一类型对象的第一风格信息及用于所述第二类型对象的不同的第二风格信息;
基于所述图像数据以及所述第一风格信息及所述第二风格信息产生表示所述第一对象及所述第二对象的第二图像数据;以及
将所述第二图像数据写入到输出装置。
12.根据权利要求11所述的设备,其中所述电子硬件处理器进一步经配置以利用艺术风格转换来分别基于所述第一风格信息及所述第二风格信息将不同风格转换到所述第二图像数据中的所述第一对象及所述第二对象。
13.根据权利要求12所述的设备,其中利用艺术风格转换包括最小化所述图像数据的表示所述第一对象的卷积神经网络内容表示与所述第二图像数据的表示所述第一对象的所述CNN内容表示之间的距离以及最小化所述第二图像数据中的所述第一对象的风格表示与所述第一风格信息之间的第二距离。
14.根据权利要求13所述的设备,其中利用艺术风格转换进一步包括最小化所述图像数据的表示所述第二对象的所述卷积神经网络内容表示与所述第二图像数据的表示所述第二对象的所述CNN内容表示之间的第三距离,以及最小化所述第二图像中的所述第二对象的风格表示与所述第二风格信息之间的第四距离。
15.根据权利要求14所述的设备,其中所述内容表示是基于所述图像数据中的对象及所述第二图像数据中的所述对象的所述CNN中的多个层的特征表示。
16.根据权利要求15所述的设备,其中所述特征表示是基于所述图像数据的滤波器的输出。
17.根据权利要求14所述的设备,其中所述风格表示是基于所述CNN对所述第二图像数据中的所述第一对象的不同滤波器响应之间的相关及用于所述第一类型的对象的存储在所述对象数据库中的不同滤波器响应之间的相关。
18.根据权利要求11所述的设备,其中所述电子硬件处理器进一步经配置以使用所述成像传感器俘获图像,其中所述图像数据是从所述成像传感器接收。
19.根据权利要求11所述的设备,其中所述电子硬件处理器进一步经配置以:
识别所述图像数据的低曝光部分及高曝光部分;以及
基于所述图像数据的低曝光部分的所述第一风格信息或所述第二风格信息产生所述第二图像。
20.一种非暂时性计算机可读媒体,其包括指令,所述指令在执行时致使处理器执行产生图像的方法,所述方法包括:
由电子硬件处理器接收图像数据;
由所述电子硬件处理器识别由所述图像数据表示的第一对象及第二对象;
由所述电子硬件处理器识别所述第一对象及所述第二对象的相应第一类型及第二类型;
从对象数据库识别用于所述第一类型对象的第一风格信息及用于所述第二类型对象的不同的第二风格信息;
由所述电子硬件处理器基于所述图像数据以及所述第一风格信息及所述第二风格信息产生表示所述第一对象及所述第二对象的第二图像数据;以及
由所述电子硬件处理器将所述第二图像数据写入到输出装置。
CN201880019592.8A 2017-03-31 2018-02-01 用于改善图像纹理的系统和方法 Pending CN110462680A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/476,205 2017-03-31
US15/476,205 US10311326B2 (en) 2017-03-31 2017-03-31 Systems and methods for improved image textures
PCT/US2018/016402 WO2018182846A1 (en) 2017-03-31 2018-02-01 Systems and methods for improved image textures

Publications (1)

Publication Number Publication Date
CN110462680A true CN110462680A (zh) 2019-11-15

Family

ID=61244707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880019592.8A Pending CN110462680A (zh) 2017-03-31 2018-02-01 用于改善图像纹理的系统和方法

Country Status (3)

Country Link
US (1) US10311326B2 (zh)
CN (1) CN110462680A (zh)
WO (1) WO2018182846A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111035387A (zh) * 2019-12-27 2020-04-21 上海交通大学 提升电阻率成像获取图片质量的方法
CN112215243A (zh) * 2020-10-30 2021-01-12 百度(中国)有限公司 图像特征提取方法、装置、设备及存储介质

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102359391B1 (ko) * 2016-11-08 2022-02-04 삼성전자주식회사 디바이스가 이미지를 보정하는 방법 및 그 디바이스
US11222413B2 (en) 2016-11-08 2022-01-11 Samsung Electronics Co., Ltd. Method for correcting image by device and device therefor
US10706547B2 (en) * 2017-06-02 2020-07-07 Htc Corporation Image segmentation method and apparatus
US10628699B2 (en) * 2017-06-13 2020-04-21 Samsung Electronics Co., Ltd. Event-based image feature extraction
JP7242165B2 (ja) 2017-09-20 2023-03-20 株式会社Preferred Networks プログラム、情報処理装置、および方法
US10896307B2 (en) 2017-11-07 2021-01-19 Digimarc Corporation Generating and reading optical codes with variable density to adapt for visual quality and reliability
US10872392B2 (en) 2017-11-07 2020-12-22 Digimarc Corporation Generating artistic designs encoded with robust, machine-readable data
US11062108B2 (en) 2017-11-07 2021-07-13 Digimarc Corporation Generating and reading optical codes with variable density to adapt for visual quality and reliability
US20190213705A1 (en) 2017-12-08 2019-07-11 Digimarc Corporation Artwork generated to convey digital messages, and methods/apparatuses for generating such artwork
JP7477260B2 (ja) * 2018-01-30 2024-05-01 株式会社Preferred Networks 情報処理装置、情報処理プログラム及び情報処理方法
US10872399B2 (en) * 2018-02-02 2020-12-22 Nvidia Corporation Photorealistic image stylization using a neural network model
WO2019237045A1 (en) 2018-06-08 2019-12-12 Digimarc Corporation Generating signal bearing art using stipple, voronoi and delaunay methods and reading same
US11101029B2 (en) * 2018-07-17 2021-08-24 Petuum Inc. Systems and methods for predicting medications to prescribe to a patient based on machine learning
JP6705533B2 (ja) * 2018-10-19 2020-06-03 ソニー株式会社 センサ装置、パラメータ設定方法
EP3850830A4 (en) * 2018-11-14 2021-12-08 Samsung Electronics Co., Ltd. METHOD OF RECORDING MULTIMEDIA FILES AND ELECTRONIC DEVICE THEREFORE
KR20200063303A (ko) * 2018-11-19 2020-06-05 삼성전자주식회사 영상 처리 장치 및 그 제어방법
WO2020125505A1 (en) * 2018-12-21 2020-06-25 Land And Fields Limited Image processing system
US10769764B2 (en) 2019-02-08 2020-09-08 Adobe Inc. Hierarchical scale matching and patch estimation for image style transfer with arbitrary resolution
CN117291162A (zh) * 2019-03-04 2023-12-26 微软技术许可有限责任公司 样式迁移
US10909700B2 (en) * 2019-04-02 2021-02-02 Samsung Electronics Co., Ltd. Display apparatus and image processing method thereof
KR20210000013A (ko) * 2019-06-24 2021-01-04 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
GB2585232B (en) * 2019-07-04 2021-12-08 Apical Ltd Image data pre-processing for neural networks
CN110533679B (zh) * 2019-07-29 2021-09-03 西安电子科技大学 基于对数变换与伽柏卷积的sar图像边缘检测方法
CN110658174B (zh) * 2019-08-27 2022-05-20 厦门谱识科仪有限公司 基于表面增强拉曼光谱检测的智能化识别方法及系统
CN110599530B (zh) * 2019-09-03 2022-03-04 西安电子科技大学 基于双正则约束的mvct图像纹理增强方法
KR102715161B1 (ko) 2019-11-28 2024-10-08 삼성전자주식회사 영상 복원 방법 및 장치
CN116485638A (zh) * 2019-12-31 2023-07-25 武汉星巡智能科技有限公司 基于深度卷积网络的图像风格迁移方法、装置及设备
US11438519B2 (en) 2020-01-13 2022-09-06 Samsung Electronics Co., Ltd. Method of fast estimation of scene brightness and optimal camera exposure
JP7469738B2 (ja) * 2020-03-30 2024-04-17 ブラザー工業株式会社 学習済みの機械学習モデル、および、画像生成装置、機械学習モデルのトレーニング方法
JP7477864B2 (ja) 2020-05-18 2024-05-02 国立大学法人山梨大学 画像生成方法、プログラム及び画像生成装置
US11334967B2 (en) * 2020-07-30 2022-05-17 Novatek Microelectronics Corp. Method and image processing device for generating image filter
US11803950B2 (en) * 2021-09-16 2023-10-31 Adobe Inc. Universal style transfer using multi-scale feature transform and user controls
US11989916B2 (en) * 2021-10-11 2024-05-21 Kyocera Document Solutions Inc. Retro-to-modern grayscale image translation for preprocessing and data preparation of colorization
CN116758379B (zh) * 2023-08-14 2024-05-28 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备及存储介质
CN118052705B (zh) * 2024-03-13 2024-08-20 四川大学 一种基于Lora的风格迁移篡改检测数据集生成方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6977659B2 (en) * 2001-10-11 2005-12-20 At & T Corp. Texture replacement in video sequences and images
US7643034B2 (en) 2006-06-30 2010-01-05 Microsoft Corporation Synthesis of advecting texture using adaptive regeneration
US8044973B2 (en) * 2008-01-18 2011-10-25 Autodesk, Inc. Auto sorting of geometry based on graphic styles
KR101635730B1 (ko) 2014-10-08 2016-07-20 한국과학기술연구원 몽타주 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
IL236598A0 (en) 2015-01-05 2015-05-31 Superfish Ltd Image similarity as a function of image weighted image descriptors generated from neural networks
WO2017077121A1 (en) * 2015-11-06 2017-05-11 Thomson Licensing Method for transfer of a style of a reference visual object to another visual object, and corresponding electronic device, computer readable program products and computer readable storage medium
US9576351B1 (en) * 2015-11-19 2017-02-21 Adobe Systems Incorporated Style transfer for headshot portraits
US9922432B1 (en) * 2016-09-02 2018-03-20 Artomatix Ltd. Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures
US10198839B2 (en) * 2016-09-22 2019-02-05 Apple Inc. Style transfer-based image content correction

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111035387A (zh) * 2019-12-27 2020-04-21 上海交通大学 提升电阻率成像获取图片质量的方法
CN112215243A (zh) * 2020-10-30 2021-01-12 百度(中国)有限公司 图像特征提取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US10311326B2 (en) 2019-06-04
US20180285679A1 (en) 2018-10-04
WO2018182846A1 (en) 2018-10-04

Similar Documents

Publication Publication Date Title
CN110462680A (zh) 用于改善图像纹理的系统和方法
Teow Understanding convolutional neural networks using a minimal model for handwritten digit recognition
Liu et al. Learning spatio-temporal representations for action recognition: A genetic programming approach
Luus et al. Multiview deep learning for land-use classification
Gregor et al. Deep autoregressive networks
US10417525B2 (en) Object recognition with reduced neural network weight precision
CN112236779A (zh) 基于卷积神经网络的图像处理方法和图像处理装置
US9129222B2 (en) Method and apparatus for a local competitive learning rule that leads to sparse connectivity
CN113705769A (zh) 一种神经网络训练方法以及装置
CN110188794B (zh) 一种深度学习模型的训练方法、装置、设备及存储介质
KR20190016539A (ko) 신경망 및 신경망 트레이닝 방법
CN106951858A (zh) 一种基于深度卷积网络的人物亲缘关系识别方法与装置
CN106537421A (zh) 神经网络中的分解卷积操作
CN110163813A (zh) 一种图像去雨方法、装置、可读存储介质及终端设备
CN110222718B (zh) 图像处理的方法及装置
CN106980830A (zh) 一种基于深度卷积网络自亲缘关系识别方法与装置
CN112818764A (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
CN113205017A (zh) 跨年龄人脸识别方法及设备
Abdelrazik et al. Efficient hybrid algorithm for human action recognition
Küçükoğlu et al. Optimization of neuroprosthetic vision via end-to-end deep reinforcement learning
Azam et al. Suitability of KANs for Computer Vision: A preliminary investigation
Zhang et al. Stacked kernel network
Shariff et al. Artificial (or) fake human face generator using generative adversarial network (GAN) machine learning model
Teow A minimal convolutional neural network for handwritten digit recognition
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination