CN109684901B - 图像处理装置和图像处理方法 - Google Patents
图像处理装置和图像处理方法 Download PDFInfo
- Publication number
- CN109684901B CN109684901B CN201710976964.3A CN201710976964A CN109684901B CN 109684901 B CN109684901 B CN 109684901B CN 201710976964 A CN201710976964 A CN 201710976964A CN 109684901 B CN109684901 B CN 109684901B
- Authority
- CN
- China
- Prior art keywords
- feature
- convolution
- image processing
- generate
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及图像处理装置和图像处理方法。根据本发明的图像处理装置包括:自编码单元,用于对输入图像进行自编码以生成多个特征图;参数生成单元,用于根据所述多个特征图生成用于卷积神经网络的多个卷积核;以及输出单元,用于利用所述卷积神经网络,根据所述输入图像和所述多个卷积核生成所述输入图像的输出结果。使用根据本发明的图像处理装置和图像处理方法,可以提高CNN网络对图像进行处理的准确性。
Description
技术领域
本发明的实施例涉及图像处理领域,具体地涉及图像处理装置和图像处理方法,更具体地涉及可以进行面部关键点检测的图像处理装置和图像处理方法。
背景技术
这个部分提供了与本发明有关的背景信息,这不一定是现有技术。
深度学习技术已经广泛应用于计算机视觉领域。作为深度学习技术之一,CNN(Convolutional Neural Network,卷积神经网络)大大提高了图像分类和图像识别的准确性,实现了直接将输入转换为输出的端到端的学习机制,给图像处理带来质变。CNN网络可以应用于诸如图像检测/识别和序列信号的处理应用等领域。例如,在面部关键点(landmark)检测的任务中,可以将包括面部图像的输入图像输入至CNN网络,从而输出面部的关键点。
在传统的CNN网络中,用于卷积操作的卷积核是固定的。也就是说,针对不同的输入图像,使用的卷积核不变。然而,在诸如图像检测/识别和序列信号的处理应用等领域中,由于输入图像的多变性和复杂性(例如,在面部关键点检测的任务中,头部可能会呈现不同的姿势),增加了CNN网络学习的复杂性。此外,针对不同的输入图像使用相同的卷积核进行处理可能会导致输出结果不准确。
针对以上技术问题,本发明希望提出一种方案,能够提高CNN网络对图像进行处理的准确性。
发明内容
这个部分提供了本发明的一般概要,而不是其全部范围或其全部特征的全面披露。
本发明的目的在于提供一种图像处理装置和图像处理方法,能够提高CNN网络对图像进行处理的准确性。
根据本发明的一方面,提供了一种图像处理装置,包括:自编码单元,用于对输入图像进行自编码以生成多个特征图;参数生成单元,用于根据所述多个特征图生成用于卷积神经网络的多个卷积核;以及输出单元,用于利用所述卷积神经网络,根据所述输入图像和所述多个卷积核生成所述输入图像的输出结果。
根据本发明的另一方面,提供了一种图像处理方法,包括:对输入图像进行自编码以生成多个特征图;根据所述多个特征图生成用于卷积神经网络的多个卷积核;以及利用所述卷积神经网络,根据所述输入图像和所述多个卷积核生成所述输入图像的输出结果。
根据本发明的另一方面,提供了一种程序产品,该程序产品包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据本发明的图像处理方法。
根据本发明的另一方面,提供了一种机器可读存储介质,其上携带有包括存储在其中的机器可读指令代码的程序产品,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据本发明的图像处理方法。
使用根据本发明的图像处理装置和图像处理方法,可以针对输入图像生成多个特征图,并根据多个特征图生成用于卷积神经网络的多个卷积核,从而利用卷积神经网络生成输入图像的输出结果。这样一来,卷积神经网络中的卷积核并不是固定的。也就是说,针对一个特定的输入图像能够生成与该输入图像对应的卷积核,生成的卷积核与该输入图像更加匹配,从而使得卷积神经网络对图像进行的处理(例如图像识别和图像检测等)更加准确。
这个概要中的描述和特定例子只是为了示意的目的,而不旨在限制本发明的范围。
附图说明
在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施,并且不旨在限制本发明的范围。在附图中:
图1示出了根据本发明的实施例的图像处理装置的结构框图;
图2示出了根据本发明的实施例的图像处理装置中的自编码单元的结构框图;
图3示出了根据本发明的另一个实施例的图像处理装置中的自编码单元的结构框图;
图4示出了根据本发明的实施例的自编码单元中的重构单元的结构框图;
图5示出了根据本发明的实施例的图像处理装置中的参数生成单元的结构框图;
图6示出了根据本发明的实施例的生成对应于每个特征图的局部特征和全局特征的示意图;
图7示出了根据本发明的实施例的生成对应于每个特征图的卷积核的示意图;
图8示出了根据本发明的实施例的图像处理装置中的输出单元的结构框图;
图9示出了根据本发明的另一个实施例的图像处理装置中的输出单元的结构框图;
图10示出了根据本发明的实施例的输出单元中的预测单元的结构框图;
图11示出了根据本发明的实施例的卷积单元的结构框图;
图12示出了根据本发明的实施例的图像处理装置进行图像处理的整体功能示意图;
图13示出了根据本发明的实施例的图像处理方法的流程图;以及
图14为其中可以实现根据本发明的图像处理方法的通用个人计算机的示例性结构的框图。
虽然本发明容易经受各种修改和替换形式,但是其特定实施例已作为例子在附图中示出,并且在此详细描述。然而应当理解的是,在此对特定实施例的描述并不打算将本发明限制到公开的具体形式,而是相反地,本发明目的是要覆盖落在本发明的精神和范围之内的所有修改、等效和替换。要注意的是,贯穿几个附图,相应的标号指示相应的部件。
具体实施方式
现在参考附图来更加充分地描述本发明的示例。以下描述实质上只是示例性的,而不旨在限制本发明、应用或用途。
下面提供了示例实施例,以便本发明将会变得详尽,并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定单元、装置和方法的示例,以提供对本发明的实施例的详尽理解。对于本领域技术人员而言将会明显的是,不需要使用特定的细节,示例实施例可以用许多不同的形式来实施,它们都不应当被解释为限制本发明的范围。在某些示例实施例中,没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。
下面结合图1来描述根据本发明的图像处理装置100。
根据本发明的图像处理装置100可以包括自编码单元110、参数生成单元120和输出单元130。
根据本发明的实施例,自编码单元110可以对输入图像进行自编码以生成多个特征图。这里,自编码单元110的输入是输入图像,也就是待进行图像处理的图像,输出是多个特征图。根据本发明的实施例,自编码单元110可以根据本领域中公知的任何自编码方法来生成多个特征图。进一步,自编码单元110可以将生成的多个特征图输入到参数生成单元120。
根据本发明的实施例,参数生成单元120可以根据多个特征图生成用于卷积神经网络的多个卷积核。这里,参数生成单元120的输入是多个特征图,输出是用于卷积神经网络的多个卷积核。根据本发明的实施例,参数生成单元120可以从自编码单元110接收多个特征图,并可以将生成的多个卷积核输出到输出单元130。
根据本发明的实施例,输出单元130可以利用卷积神经网络,根据输入图像和多个卷积核生成输入图像的输出结果。这里,输出单元130的输入是输入图像和多个卷积核,输出是输入图像的输出结果。根据本发明的实施例,输出单元130可以从参数生成单元120接收多个卷积核,并可以将生成的输出结果从图像处理装置100输出。此外,输入至输出单元130的输入图像与输入至自编码单元110的输入图像是相同的图像。也就是说,通过自编码单元110和参数生成单元120可以生成对应于输入图像的多个卷积核,然后通过输出单元可以生成对应于输入图像的输出结果。
如上所述,使用根据本发明的图像处理装置100,可以针对输入图像生成多个特征图,并根据多个特征图生成用于卷积神经网络的多个卷积核,从而利用卷积神经网络生成输入图像的输出结果。这样一来,卷积神经网络中的卷积核并不是固定的。也就是说,针对一个特定的输入图像能够生成与该输入图像对应的卷积核,生成的卷积核与该输入图像更加匹配,从而使得卷积神经网络对图像进行的处理(例如图像识别和图像检测等)更加准确。
图2示出了根据本发明的实施例的图像处理装置100中的自编码单元110的结构框图。如图2所示,自编码单元110可以包括多个第一卷积单元111,并且自编码单元110用于将输入图像依次经过多个第一卷积单元111以分别生成多个特征图。
根据本发明的实施例,可以用卷积神经网络CNN来实现自编码单元110,即,自编码单元110中的第一卷积单元111是卷积神经网络CNN中的卷积层。这里,可以根据实际需求来设定自编码单元110中的第一卷积单元111的个数,本发明对此不做限定。
如图2所示,输入图像从左至右依次输入多个第一卷积单元111。具体地,输入图像输入第一个第一卷积单元111,生成第一个特征图输出到自编码网络110的外部以及第二个第一卷积单元111。接下来,第二个第一卷积单元111生成第二个特征图输出到自编码单元111的外部以及第三个第一卷积单元111。以这种形式,前一个第一卷积单元111的输出作为后一个第一卷积单元111的输入,从而使得生成的特征图的数目与第一卷积单元111的数目相同。
图3示出了根据本发明的另一个实施例的图像处理装置100中的自编码单元110的结构框图。如图3所示,自编码单元110还可以包括重构单元112,用于生成输入图像的重构图像。具体地,自编码单元110中的最后一个第一卷积单元111的输出作为重构单元112的输入,而重构单元112的输出为输入图像的重构图像。
图4示出了根据本发明的实施例的自编码单元110中的重构单元112的结构框图。如图4所示,重构单元112可以包括多个第三卷积单元1121和处理单元1122。自编码单元110中的最后一个第一卷积单元111的输出依次经过多个第三卷积单元1121和处理单元1122,以生成输入图像的重构图像。这里,可以根据实际需求来设定重构单元112中的第三卷积单元1121的个数,本发明对此不做限定。
根据本发明的实施例,重构单元112主要用于训练阶段,在实际测试阶段用于生成输入图像的输出结果时并不会使用重构单元112。此外,自编码单元110中的第一卷积单元111可以执行下采样操作,用以使得提取的特征图的特征更加紧致,而重构单元112中的第三卷积单元1121可以执行上采样操作,以使得重构图像的大小与输入图像的大小一致。
如上所述,以卷积神经网络CNN为例对自编码单元110进行了说明。值得注意的是,本发明并不限于这样的实施例,任何能够实现自编码功能以输出多个特征图的单元都可以用作自编码单元110。
图5示出了根据本发明的实施例的图像处理装置100中的参数生成单元120的结构框图。如图5所示,参数生成单元120可以包括特征生成单元121和卷积核生成单元122。
根据本发明的实施例,特征生成单元121可以针对多个特征图中的每个特征图,生成对应于该特征图的局部特征和全局特征。这里,特征生成单元121可以从自编码单元110接收多个特征图,然后针对每个特征图生成局部特征和全局特征。进一步,特征生成单元121可以将对应于每个特征图的局部特征和全局特征发送到卷积核生成单元122。
根据本发明的实施例,卷积核生成单元122可以针对多个特征图中的每个特征图,根据该特征图的局部特征和全局特征生成对应于该特征图的卷积核。这里,参数生成单元120可以包括一个卷积核生成单元122,也可以包括多个卷积核生成单元122。当参数生成单元120包括一个卷积核生成单元122时,特征生成单元121可以依次将对应于每个特征图的局部特征和全局特征发送到卷积核生成单元122,以用于卷积核生成单元122依次生成对应于每个特征图的卷积核。当参数生成单元120包括的卷积核生成单元122的数目等于自编码单元110生成的特征图的数目时,特征生成单元121可以分别将对应于每个特征图的局部特征和全局特征发送到多个卷积核生成单元122,每个卷积核生成单元122生成对应于一个特征图的卷积核(图5中示出的情形)。当参数生成单元120包括的卷积核生成单元122的数目为大于1小于自编码单元110生成的特征图的数目时,特征生成单元121可以对多个特征图进行分组,组的数目等于卷积核生成单元122的数目,以分别将每组特征图的局部特征和全局特征发送到对应的卷积核生成单元122。
根据本发明的实施例,特征生成单元121可以通过以下操作生成对应于每个特征图的局部特征和全局特征:针对多个特征图中的每个特征图,生成对应于该特征图的局部特征;以及针对多个特征图中的每个特征图,根据生成的多个局部特征生成对应于该特征图的全局特征。
根据本发明的实施例,局部特征表征了每个特征图的特征。也就是说,一个特征图的局部特征只与该特征图相关联。因此,特征生成单元121可以分别针对多个特征图生成对应于该特征图的局部特征。进一步,一个特征图的全局特征与自编码单元110输出的所有特征图相关联。因此,特征生成单元121在生成每个特征图的全局特征时,需要考虑所有特征图的局部特征。
根据本发明的实施例,特征生成单元121可以通过以下操作生成对应于每个特征图的局部特征:对该特征图执行池化操作以生成对应于该特征图的局部特征。
根据本发明的实施例,特征生成单元121可以对特征图执行平均池化操作,也可以对特征图执行最大池化操作,本发明对此不做限定。这里,特征图可以看做是三维的矩阵,对特征图执行平均池化操作是对三维矩阵的每一层取平均值,由此可以得到一个特征向量,作为局部特征,而对特征图执行最大池化操作是对三维矩阵的每一层取最大值,由此可以得到一个特征向量,作为局部特征。以这样的方式,特征生成单元121可以生成对应于每个特征图的局部特征。
根据本发明的实施例,特征生成单元121可以通过以下操作生成对应于每个特征图的全局特征:将生成的多个局部特征进行连接;以及将连接后的多个局部特征通过全连接网络(Fully connected,FC)以生成全局特征,其中,生成对应于不同的特征图的全局特征时通过的全连接网络不同。
图6示出了根据本发明的实施例的生成对应于每个特征图的局部特征和全局特征的示意图。如图6所示,L1-Ln分别表示第1-n(n为大于1的整数)个特征图的局部特征,G1-Gn分别表示第1-n个特征图的全局特征,FC1-FCn表示第1-n个全连接网络。
如图6所示,在生成了针对每个特征图的局部特征L1-Ln之后,对这n个局部特征进行连接,并将连接后的n个局部特征分别通过n个全连接网络,以分别生成n个全局特征。也就是说,将连接后的L1-Ln输入到FC1生成G1,G1被称为对应于第1个特征图的全局特征,将连接后的L1-Ln输入到FC2生成G2,G2被称为对应于第2个特征图的全局特征,…,将连接后的L1-Ln输入到FCn生成Gn,Gn被称为对应于第n个特征图的全局特征。由此可见,每个特征图的全局特征都与所有特征图的局部特征相关联。
根据本发明的实施例,卷积核生成单元122通过以下操作生成对应于特征图的卷积核:对连接后的局部特征和全局特征执行非线性映射以生成权重矩阵;以及根据权重矩阵和基准卷积核集合生成对应于该特征图的卷积核,其中,基准卷积核集合包括多个卷积核,并且权重矩阵包括用于基准卷积核集合中的每个卷积核的权重。
图7示出了根据本发明的实施例的生成对应于每个特征图的卷积核的示意图。如图7所示,L表示针对任意一个特征图的局部特征,G表示针对任意一个特征图的全局特征,MLP表示多层感知器(Multi-layer perception),tanh函数可以将输出值限定在[-1,1]范围内,MLP+tanh可以实现非线性映射的功能。首先,将对连接后的L和G执行非线性映射以生成权重矩阵,然后根据权重矩阵和基准卷积核集合生成对应于该特征图的卷积核。具体地,将权重矩阵与基准卷积核执行卷积操作以生成对应于该特征图的卷积核。这里,基准卷积核集合可以包括多个卷积核,这多个卷积核可以通过训练得到,并且权重矩阵包括用于基准卷积核集合中的每个卷积核的权重。也就是说,对基准卷积核中的多个卷积核执行了加权操作以生成用于每个特征图的卷积核,而加权的系数是通过特征图的局部特征和全局特征确定的。这样一来,生成的卷积核与输入图像更加匹配,从而使得图像处理装置100的处理更加准确。
图8示出了根据本发明的实施例的图像处理装置100中的输出单元130的结构框图。如图8所示,输出单元130可以包括多个第二卷积单元131。输出单元130用于将输入图像依次经过多个第二卷积单元131以生成输出图像,其中,参数生成单元120生成的多个卷积核分别用于多个第二卷积单元131。
根据本发明的实施例,可以用卷积神经网络CNN来实现输出单元130,即,输出单元130中的第二卷积单元131是卷积神经网络CNN中的卷积层。这里,可以根据实际需求来设定输出单元130中的第二卷积单元131的个数,本发明对此不做限定。
如图8所示,输入图像从左至右依次输入多个第二卷积单元131。这里的输入图像与输入至自编码单元110的输入图像相同。具体地,输入图像输入第一个第二卷积单元131,生成第一个特征图输出到第二个第二卷积单元131。接下来,第二个第二卷积单元131生成第二个特征图输出到第三个第二卷积单元131。以这种形式,前一个第二卷积单元131的输出作为后一个第二卷积单元131的输入。
图9示出了根据本发明的另一个实施例的图像处理装置100中的输出单元130的结构框图。如图9所示,输出单元130还可以包括预测单元132,用于生成输入图像的输出结果。具体地,输出单元130中的最后一个第二卷积单元131的输出作为预测单元132的输入,而预测单元132的输出为输入图像的输出结果。
图10示出了根据本发明的实施例的输出单元130中的预测单元132的结构框图。如图10所示,预测单元132可以包括多个第四卷积单元1321和处理单元1322。输出单元130中的最后一个第二卷积单元131的输出依次经过多个第四卷积单元1321和处理单元1322,以生成输入图像的输出结果。这里,可以根据实际需求来设定预测单元132中的第四卷积单元1321的个数,本发明对此不做限定。
如前文中所述,自编码单元110中包括多个第一卷积单元111,自编码单元110中的重构单元112可以包括多个第三卷积单元1121,输出单元130中可以包括多个第二卷积单元131,输出单元130中的预测单元132可以包括多个第四卷积单元1321。根据本发明的实施例,第一卷积单元111、第二卷积单元131、第三卷积单元1121和第四卷积单元1321可以采用相同的结构,区别在于用于卷积操作的卷积核不同。
图11示出了根据本发明的实施例的卷积单元的结构框图。如图11所示,第一卷积单元111、第二卷积单元131、第三卷积单元1121和第四卷积单元1321中的每个卷积单元可以执行以下操作:对输入至该卷积单元的图像和用于该卷积单元的卷积核执行卷积操作;对卷积结果执行归一化操作;以及对归一化结果执行非线性映射操作。
根据本发明的实施例,用于第一卷积单元111的卷积核可以通过训练的方式得到,用于第二卷积单元131的卷积核是通过参数生成单元120生成的,用于第三卷积单元1121的卷积核是通过训练的方式得到的,而用于第四卷积单元1321的卷积核也是通过训练的方式得到的。
如上已经详述根据本发明的实施例的图像处理装置100的自编码单元110、参数生成单元120和输出单元130。下面结合图12来说明图像处理装置100的整体处理流程。
图12示出了根据本发明的实施例的图像处理装置100进行图像处理的整体功能示意图。图像处理装置100在对图像进行处理之前,需要经过两次训练阶段。在第一次训练阶段,可以使用多个训练图像,将每个训练图像输入自编码单元110,依次经过多个第一卷积单元111和重构单元112,以生成训练图像的重构图像。通过学习训练图像及其重构图像,可以训练自编码单元110,例如得到用于自编码单元110中多个第一卷积单元111中的每一个的卷积核以及用于重构单元112中的多个第三卷积单元1121中的每一个的卷积核。值得注意的是,在第一次训练阶段,得到的卷积核是待优化的卷积核,并非是图像处理装置100在对图像进行实际处理时使用的卷积核。接下来,在第二次训练阶段,可以使用多个已知输出结果的训练图像,将每个训练图像输入自编码单元110和输出单元130。具体地,每个训练图像依次经过多个第一卷积单元111和重构单元112,以生成多个特征图和训练图像的重构图像。通过学习训练图像及其重构图像,可以再次训练自编码单元110,例如可以对第一次训练阶段得到的用于每个第一卷积单元111的卷积核以及用于每个第三卷积单元1121的卷积核进行优化,以得到图像处理装置100在对图像进行实际处理时使用的卷积核。进一步,自编码单元110得到的多个特征图输入参数生成单元120和输出单元130,以得到训练图像的输出结果。通过比较训练图像的已知输出结果和得到的输出结果,可以训练参数生成单元120和输出单元130,例如得到以下参数:参数生成单元120中使用的全连接网络的参数(权重等)、参数生成单元120中使用的MLP中的参数和基准卷积核集合中包括的卷积核以及用于输出单元130中的预测单元132中包括的多个第四卷积单元1321中的每一个的卷积核等等。
在如上所述完成了两次训练过程之后,图像处理装置100可以对输入图像进行处理。首先,输入图像经过自编码单元110生成多个特征图,参数生成单元120根据多个特征图生成对应于每个特征图的卷积核。接下来,输入图像输入输出单元130,输出单元130使用参数生成单元120生成的卷积核输出输入图像的输出结果。
根据本发明的实施例,图像处理装置100可以应用于面部关键点(landmark)检测。在这种情况下,输入图像包括人脸图像,输出结果包括对人脸图像的特征识别结果。这里,输出结果可以是图像的形式,也可以是坐标的形式。在输出图像的情况下,输出结果可以包括多个输出图像,其中每个输出图像表示面部的一个关键点。例如,在输出图像中,在一个关键点的位置的像素值为1,其它位置的像素值为0。在输出坐标的情况下,输出结果可以包括每个关键点的坐标值。这里,面部可以包括多个关键点,例如左眼、右眼、鼻子、左嘴角和右嘴角。
当然,本发明还可以应用于其它领域,例如图像检测/识别和序列信号的处理应用等。针对不同的输入图像,其输出的形式也可能不同,本发明对此不做限定。但是一般来说,输出结果应当都包括需要从输入图像中识别的信息。
以上详细描述了根据本发明的实施例的图像处理装置100。接下来将详细描述根据本发明的实施例的图像处理方法。
图13为根据本发明的实施例的图像处理方法的流程图。
如图13所示,在步骤S1310中,对输入图像进行自编码以生成多个特征图。
接下来,在步骤S1320中,根据多个特征图生成用于卷积神经网络的多个卷积核。
接下来,在步骤S1330中,利用卷积神经网络,根据输入图像和多个卷积核生成输入图像的输出结果。
优选地,对输入图像进行自编码以生成多个特征图包括:将输入图像依次经过多个卷积单元以分别生成多个特征图。
优选地,根据多个特征图生成用于卷积神经网络的多个卷积核包括:针对多个特征图中的每个特征图执行以下操作:生成对应于所述特征图的局部特征和全局特征;以及根据局部特征和全局特征生成对应于所述特征图的卷积核。
优选地,生成对应于所述特征图的局部特征和全局特征包括:针对多个特征图中的每个特征图,生成对应于所述特征图的局部特征;以及针对多个特征图中的每个特征图,根据生成的多个局部特征生成对应于所述特征图的全局特征。
优选地,对特征图执行池化操作以生成对应于所述特征图的局部特征。
优选地,根据生成的多个局部特征生成对应于所述特征图的全局特征包括:将生成的多个局部特征进行连接;以及将连接后的多个局部特征通过全连接网络以生成全局特征,其中,生成对应于不同的特征图的全局特征时通过的全连接网络不同。
优选地,根据局部特征和全局特征生成对应于所述特征图的卷积核包括:对连接后的局部特征和全局特征执行非线性映射以生成权重矩阵;以及根据权重矩阵和基准卷积核集合生成对应于所述特征图的卷积核,其中,基准卷积核集合包括多个卷积核,并且权重矩阵包括用于基准卷积核集合中的每个卷积核的权重。
优选地,根据输入图像和多个卷积核生成输出图像包括:将输入图像依次经过卷积神经网络中的多个卷积单元以生成输出图像,其中,多个卷积核分别用于卷积神经网络中的多个卷积单元。
优选地,输入图像经过每个卷积单元包括:对输入至该卷积单元的图像和用于卷积单元的卷积核执行卷积操作;对卷积结果执行归一化操作;以及对归一化结果执行非线性映射。
优选地,输入图像包括人脸图像,并且输出结果包括对人脸图像的特征识别结果。
前面所描述的图像处理方法可以由根据本发明的实施例的图像处理装置100来实现,因此,前面所描述的图像处理装置100的各种实施方式都适用于此,在此不再重复说明。
由此可见,使用根据本发明的图像处理装置和图像处理方法,可以针对输入图像生成多个特征图,并根据多个特征图生成用于卷积神经网络的多个卷积核,从而利用卷积神经网络生成输入图像的输出结果。这样一来,卷积神经网络中的卷积核并不是固定的。也就是说,针对一个特定的输入图像能够生成与该输入图像对应的卷积核,生成的卷积核与该输入图像更加匹配,从而使得卷积神经网络对图像进行的处理(例如图像识别和图像检测等)更加准确。
显然,根据本发明的图像处理方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明的技术方案。
图14为其中可以实现根据本发明的图像处理方法的通用个人计算机的示例性结构的框图。
如图14所示,CPU 1401根据只读存储器(ROM)1402中存储的程序或从存储部分1408加载到随机存取存储器(RAM)1403的程序执行各种处理。在RAM 1403中,也根据需要存储当CPU 1401执行各种处理等等时所需的数据。CPU 1401、ROM 1402和RAM 1403经由总线1404彼此连接。输入/输出接口1405也连接到总线1404。
下述部件连接到输入/输出接口1405:输入部分1406(包括键盘、鼠标等等)、输出部分1407(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,以及扬声器等)、存储部分1408(包括硬盘等)、通信部分1409(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1409经由网络比如因特网执行通信处理。根据需要,驱动器1410也可连接到输入/输出接口1405。可拆卸介质1411比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1410上,使得从中读出的计算机程序根据需要被安装到存储部分1408中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1411安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图14所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1411。可拆卸介质1411的示例包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1402、存储部分1408中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
在本发明的系统和方法中,显然,各单元或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
关于包括以上实施例的实施方式,还公开下述的附记:
附记1.一种图像处理装置,包括:
自编码单元,用于对输入图像进行自编码以生成多个特征图;
参数生成单元,用于根据所述多个特征图生成用于卷积神经网络的多个卷积核;以及
输出单元,用于利用所述卷积神经网络,根据所述输入图像和所述多个卷积核生成所述输入图像的输出结果。
附记2.根据附记1所述的图像处理装置,其中,所述自编码单元包括多个第一卷积单元,并且所述自编码单元用于将输入图像依次经过所述多个卷积单元以分别生成所述多个特征图。
附记3.根据附记1所述的图像处理装置,其中,所述参数生成单元包括:
特征生成单元,用于针对所述多个特征图中的每个特征图,生成对应于所述特征图的局部特征和全局特征;以及
卷积核生成单元,用于针对所述多个特征图中的每个特征图,根据所述特征图的局部特征和全局特征生成对应于所述特征图的卷积核。
附记4.根据附记3所述的图像处理装置,其中,所述特征生成单元通过以下操作生成对应于每个特征图的局部特征和全局特征:
针对所述多个特征图中的每个特征图,生成对应于所述特征图的局部特征;以及
针对所述多个特征图中的每个特征图,根据生成的多个局部特征生成对应于所述特征图的全局特征。
附记5.根据附记4所述的图像处理装置,其中,所述特征生成单元对特征图执行池化操作以生成对应于所述特征图的局部特征。
附记6.根据附记4所述的图像处理装置,其中,所述特征生成单元通过以下操作生成对应于每个特征图的全局特征:
将生成的多个局部特征进行连接;以及
将连接后的多个局部特征通过全连接网络以生成所述全局特征,
其中,生成对应于不同的特征图的全局特征时通过的全连接网络不同。
附记7.根据附记3所述的图像处理装置,其中,所述卷积核生成单元通过以下操作生成对应于每个特征图的卷积核:
对连接后的局部特征和全局特征执行非线性映射以生成权重矩阵;以及
根据所述权重矩阵和基准卷积核集合生成对应于所述特征图的卷积核,
其中,所述基准卷积核集合包括多个卷积核,并且所述权重矩阵包括用于所述基准卷积核集合中的每个卷积核的权重。
附记8.根据附记1所述的图像处理装置,其中,所述输出单元包括多个第二卷积单元,并且所述输出单元用于将所述输入图像依次经过所述多个第二卷积单元以生成输出图像,
其中,所述多个卷积核分别用于所述多个第二卷积单元。
附记9.根据附记8所述的图像处理装置,其中,所述多个第二卷积单元中的每个第二卷积单元用于执行以下操作:
对输入至所述第二卷积单元的图像和用于所述第二卷积单元的卷积核执行卷积操作;
对卷积结果执行归一化操作;以及
对归一化结果执行非线性映射。
附记10.根据附记1所述的图像处理装置,其中,所述输入图像包括人脸图像,并且所述输出结果包括对所述人脸图像的特征识别结果。
附记11.一种图像处理方法,包括:
对输入图像进行自编码以生成多个特征图;
根据所述多个特征图生成用于卷积神经网络的多个卷积核;以及
利用所述卷积神经网络,根据所述输入图像和所述多个卷积核生成所述输入图像的输出结果。
附记12.根据附记11所述的图像处理方法,其中,对输入图像进行自编码以生成多个特征图包括:
将输入图像依次经过多个卷积单元以分别生成所述多个特征图。
附记13.根据附记11所述的图像处理方法,其中,根据所述多个特征图生成用于卷积神经网络的多个卷积核包括:
针对所述多个特征图中的每个特征图执行以下操作:生成对应于所述特征图的局部特征和全局特征;以及根据所述局部特征和全局特征生成对应于所述特征图的卷积核。
附记14.根据附记13所述的图像处理方法,其中,生成对应于所述特征图的局部特征和全局特征包括:
针对所述多个特征图中的每个特征图,生成对应于所述特征图的局部特征;以及
针对所述多个特征图中的每个特征图,根据生成的多个局部特征生成对应于所述特征图的全局特征。
附记15.根据附记14所述的图像处理方法,其中,对特征图执行池化操作以生成对应于所述特征图的局部特征。
附记16.根据附记14所述的图像处理方法,其中,根据生成的多个局部特征生成对应于所述特征图的全局特征包括:
将生成的多个局部特征进行连接;以及
将连接后的多个局部特征通过全连接网络以生成所述全局特征,
其中,生成对应于不同的特征图的全局特征时通过的全连接网络不同。
附记17.根据附记13所述的图像处理方法,其中,根据所述局部特征和全局特征生成对应于所述特征图的卷积核包括:
对连接后的局部特征和全局特征执行非线性映射以生成权重矩阵;以及
根据所述权重矩阵和基准卷积核集合生成对应于所述特征图的卷积核,
其中,所述基准卷积核集合包括多个卷积核,并且所述权重矩阵包括用于所述基准卷积核集合中的每个卷积核的权重。
附记18.根据附记11所述的图像处理方法,其中,根据所述输入图像和所述多个卷积核生成输出图像包括:
将所述输入图像依次经过所述卷积神经网络中的多个卷积单元以生成输出图像,
其中,所述多个卷积核分别用于所述卷积神经网络中的多个卷积单元。
附记19.根据附记18所述的图像处理方法,其中,所述输入图像经过每个卷积单元包括:
对输入至所述卷积单元的图像和用于所述卷积单元的卷积核执行卷积操作;
对卷积结果执行归一化操作;以及
对归一化结果执行非线性映射。
附记20.一种机器可读存储介质,其上携带有包括存储在其中的机器可读指令代码的程序产品,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据附记11-19中任何一项所述的图像处理方法。
Claims (8)
1.一种图像处理装置,包括:
自编码单元,用于对输入图像进行自编码以生成多个特征图;
参数生成单元,用于根据所述多个特征图生成用于卷积神经网络的多个卷积核;以及
输出单元,用于利用所述卷积神经网络,根据所述输入图像和所述多个卷积核生成所述输入图像的输出结果,
其中,所述参数生成单元包括:
特征生成单元,用于针对所述多个特征图中的每个特征图,生成对应于所述特征图的局部特征和全局特征;以及
卷积核生成单元,用于针对所述多个特征图中的每个特征图,根据所述特征图的局部特征和全局特征生成对应于所述特征图的卷积核,
其中,所述卷积核生成单元通过以下操作生成对应于每个特征图的卷积核:
对连接后的局部特征和全局特征执行非线性映射以生成权重矩阵;以及
根据所述权重矩阵和基准卷积核集合生成对应于所述特征图的卷积核,并且
其中,所述基准卷积核集合包括多个卷积核,并且所述权重矩阵包括用于所述基准卷积核集合中的每个卷积核的权重。
2.根据权利要求1所述的图像处理装置,其中,所述自编码单元包括多个第一卷积单元,并且所述自编码单元用于将输入图像依次经过所述多个卷积单元以分别生成所述多个特征图。
3.根据权利要求1所述的图像处理装置,其中,所述特征生成单元通过以下操作生成对应于每个特征图的局部特征和全局特征:
针对所述多个特征图中的每个特征图,生成对应于所述特征图的局部特征;以及
针对所述多个特征图中的每个特征图,根据生成的多个局部特征生成对应于所述特征图的全局特征。
4.根据权利要求3所述的图像处理装置,其中,所述特征生成单元对特征图执行池化操作以生成对应于所述特征图的局部特征。
5.根据权利要求3所述的图像处理装置,其中,所述特征生成单元通过以下操作生成对应于每个特征图的全局特征:
将生成的多个局部特征进行连接;以及
将连接后的多个局部特征通过全连接网络以生成所述全局特征,
其中,生成对应于不同的特征图的全局特征时通过的全连接网络不同。
6.根据权利要求1所述的图像处理装置,其中,所述输出单元包括多个第二卷积单元,并且所述输出单元用于将所述输入图像依次经过所述多个第二卷积单元以生成输出图像,
其中,所述多个卷积核分别用于所述多个第二卷积单元。
7.一种图像处理方法,包括:
对输入图像进行自编码以生成多个特征图;
根据所述多个特征图生成用于卷积神经网络的多个卷积核;以及
利用所述卷积神经网络,根据所述输入图像和所述多个卷积核生成所述输入图像的输出结果,
其中,根据所述多个特征图生成用于卷积神经网络的多个卷积核包括:
针对所述多个特征图中的每个特征图执行以下操作:生成对应于所述特征图的局部特征和全局特征;以及根据所述局部特征和全局特征生成对应于所述特征图的卷积核,
其中,根据所述局部特征和全局特征生成对应于所述特征图的卷积核包括:
对连接后的局部特征和全局特征执行非线性映射以生成权重矩阵;以及
根据所述权重矩阵和基准卷积核集合生成对应于所述特征图的卷积核,并且
其中,所述基准卷积核集合包括多个卷积核,并且所述权重矩阵包括用于所述基准卷积核集合中的每个卷积核的权重。
8.一种机器可读存储介质,其上携带有包括存储在其中的机器可读指令代码的程序产品,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据权利要求7所述的图像处理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710976964.3A CN109684901B (zh) | 2017-10-19 | 2017-10-19 | 图像处理装置和图像处理方法 |
US16/136,940 US10810765B2 (en) | 2017-10-19 | 2018-09-20 | Image processing apparatus and image processing method |
JP2018195646A JP2019079514A (ja) | 2017-10-19 | 2018-10-17 | 画像処理装置及び画像処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710976964.3A CN109684901B (zh) | 2017-10-19 | 2017-10-19 | 图像处理装置和图像处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109684901A CN109684901A (zh) | 2019-04-26 |
CN109684901B true CN109684901B (zh) | 2023-06-06 |
Family
ID=66170703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710976964.3A Active CN109684901B (zh) | 2017-10-19 | 2017-10-19 | 图像处理装置和图像处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10810765B2 (zh) |
JP (1) | JP2019079514A (zh) |
CN (1) | CN109684901B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11593637B2 (en) * | 2019-04-30 | 2023-02-28 | Samsung Electronics Co., Ltd. | Convolution streaming engine for deep neural networks |
CN110245669B (zh) * | 2019-05-15 | 2024-02-02 | 平安科技(深圳)有限公司 | 手掌关键点的识别方法、装置、终端及可读存储介质 |
CN111988609A (zh) * | 2019-05-22 | 2020-11-24 | 富士通株式会社 | 图像编码装置、概率模型生成装置和图像解码装置 |
WO2020238123A1 (en) * | 2019-05-31 | 2020-12-03 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method, system, and computer-readable medium for improving color quality of images |
JP7385241B2 (ja) * | 2019-06-19 | 2023-11-22 | 国立大学法人 東京大学 | 画像抽出装置、画像抽出システム、画像抽出方法及び画像抽出プログラム |
CN111639619B (zh) * | 2020-06-08 | 2024-01-30 | 金陵科技学院 | 一种基于深度学习的人脸识别装置及识别方法 |
JP7345435B2 (ja) * | 2020-06-19 | 2023-09-15 | 京セラ株式会社 | 顔構造推定装置、顔構造推定方法、および顔構造推定プログラム |
CN112883983A (zh) * | 2021-02-09 | 2021-06-01 | 北京迈格威科技有限公司 | 特征提取方法、装置和电子系统 |
CN113205013B (zh) * | 2021-04-19 | 2023-04-07 | 重庆创通联达智能技术有限公司 | 物体识别方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200224A (zh) * | 2014-08-28 | 2014-12-10 | 西北工业大学 | 基于深度卷积神经网络的无价值图像去除方法 |
CN106886755A (zh) * | 2017-01-19 | 2017-06-23 | 北京航空航天大学 | 一种基于交通标志识别的交叉口车辆违章检测系统 |
JP2017157138A (ja) * | 2016-03-04 | 2017-09-07 | キヤノン株式会社 | 画像認識装置、画像認識方法及びプログラム |
CN107169415A (zh) * | 2017-04-13 | 2017-09-15 | 西安电子科技大学 | 基于卷积神经网络特征编码的人体动作识别方法 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4658428A (en) * | 1985-07-17 | 1987-04-14 | Honeywell Inc. | Image recognition template generation |
US9799098B2 (en) * | 2007-04-24 | 2017-10-24 | Massachusetts Institute Of Technology | Method and apparatus for image processing |
US20100158332A1 (en) * | 2008-12-22 | 2010-06-24 | Dan Rico | Method and system of automated detection of lesions in medical images |
US8160354B2 (en) * | 2008-12-26 | 2012-04-17 | Five Apes, Inc. | Multi-stage image pattern recognizer |
US9111349B2 (en) * | 2011-12-16 | 2015-08-18 | Microsoft Technology Licensing, Llc | Object identification using 3-D curve matching |
US9269022B2 (en) * | 2013-04-11 | 2016-02-23 | Digimarc Corporation | Methods for object recognition and related arrangements |
FR3025344B1 (fr) * | 2014-08-28 | 2017-11-24 | Commissariat Energie Atomique | Reseau de neurones convolutionnels |
US20160239706A1 (en) * | 2015-02-13 | 2016-08-18 | Qualcomm Incorporated | Convolution matrix multiply with callback for deep tiling for deep convolutional neural networks |
US10685262B2 (en) * | 2015-03-20 | 2020-06-16 | Intel Corporation | Object recognition based on boosting binary convolutional neural network features |
US20160358069A1 (en) * | 2015-06-03 | 2016-12-08 | Samsung Electronics Co., Ltd. | Neural network suppression |
US10460230B2 (en) * | 2015-06-04 | 2019-10-29 | Samsung Electronics Co., Ltd. | Reducing computations in a neural network |
US9818043B2 (en) * | 2015-06-24 | 2017-11-14 | Microsoft Technology Licensing, Llc | Real-time, model-based object detection and pose estimation |
WO2017031088A1 (en) * | 2015-08-15 | 2017-02-23 | Salesforce.Com, Inc | Three-dimensional (3d) convolution with 3d batch normalization |
US10380479B2 (en) * | 2015-10-08 | 2019-08-13 | International Business Machines Corporation | Acceleration of convolutional neural network training using stochastic perforation |
US10452816B2 (en) * | 2016-02-08 | 2019-10-22 | Catalia Health Inc. | Method and system for patient engagement |
US9847974B2 (en) * | 2016-04-28 | 2017-12-19 | Xerox Corporation | Image document processing in a client-server system including privacy-preserving text recognition |
AU2016203619A1 (en) * | 2016-05-31 | 2017-12-14 | Canon Kabushiki Kaisha | Layer-based operations scheduling to optimise memory for CNN applications |
US9922432B1 (en) * | 2016-09-02 | 2018-03-20 | Artomatix Ltd. | Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures |
US11080591B2 (en) * | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
WO2018049416A1 (en) * | 2016-09-12 | 2018-03-15 | Zendrive, Inc. | Method for mobile device-based cooperative data capture |
US10726583B2 (en) * | 2016-12-30 | 2020-07-28 | Intel Corporation | System and method of encoding and decoding feature maps and weights for a convolutional neural network |
KR101947782B1 (ko) * | 2017-02-22 | 2019-02-13 | 한국과학기술원 | 열화상 영상 기반의 거리 추정 장치 및 방법. 그리고 이를 위한 신경망 학습 방법 |
US11164071B2 (en) * | 2017-04-18 | 2021-11-02 | Samsung Electronics Co., Ltd. | Method and apparatus for reducing computational complexity of convolutional neural networks |
US10445622B2 (en) * | 2017-05-18 | 2019-10-15 | Qualcomm Incorporated | Learning disentangled invariant representations for one-shot instance recognition |
CN107609638B (zh) * | 2017-10-12 | 2019-12-10 | 湖北工业大学 | 一种基于线性编码器和插值采样优化卷积神经网络的方法 |
US10521699B2 (en) * | 2017-10-12 | 2019-12-31 | Lawrence Livermore National Security, Llc | Multi-scale deep learning system |
-
2017
- 2017-10-19 CN CN201710976964.3A patent/CN109684901B/zh active Active
-
2018
- 2018-09-20 US US16/136,940 patent/US10810765B2/en active Active
- 2018-10-17 JP JP2018195646A patent/JP2019079514A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200224A (zh) * | 2014-08-28 | 2014-12-10 | 西北工业大学 | 基于深度卷积神经网络的无价值图像去除方法 |
JP2017157138A (ja) * | 2016-03-04 | 2017-09-07 | キヤノン株式会社 | 画像認識装置、画像認識方法及びプログラム |
CN106886755A (zh) * | 2017-01-19 | 2017-06-23 | 北京航空航天大学 | 一种基于交通标志识别的交叉口车辆违章检测系统 |
CN107169415A (zh) * | 2017-04-13 | 2017-09-15 | 西安电子科技大学 | 基于卷积神经网络特征编码的人体动作识别方法 |
Also Published As
Publication number | Publication date |
---|---|
US20190122394A1 (en) | 2019-04-25 |
CN109684901A (zh) | 2019-04-26 |
JP2019079514A (ja) | 2019-05-23 |
US10810765B2 (en) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684901B (zh) | 图像处理装置和图像处理方法 | |
CN108537742B (zh) | 一种基于生成对抗网络的遥感图像全色锐化方法 | |
Ahn et al. | Image super-resolution via progressive cascading residual network | |
US20210089845A1 (en) | Teaching gan (generative adversarial networks) to generate per-pixel annotation | |
Zhang et al. | Accurate and fast image denoising via attention guided scaling | |
WO2021048607A1 (en) | Motion deblurring using neural network architectures | |
WO2019213459A1 (en) | System and method for generating image landmarks | |
Wu et al. | Single-shot bidirectional pyramid networks for high-quality object detection | |
CN113159143B (zh) | 基于跳跃连接卷积层的红外与可见光图像融合方法和装置 | |
CN113196289A (zh) | 人体动作识别方法、人体动作识别系统及设备 | |
Liu et al. | Effective image super resolution via hierarchical convolutional neural network | |
CN111967573A (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
Wei et al. | Deep unfolding with normalizing flow priors for inverse problems | |
CN111738269A (zh) | 模型训练方法、图像处理方法及装置、设备、存储介质 | |
CN111738270B (zh) | 模型生成方法、装置、设备和可读存储介质 | |
Cui et al. | Dual-triple attention network for hyperspectral image classification using limited training samples | |
CN113298096A (zh) | 训练零样本分类模型的方法、系统、电子设备及存储介质 | |
Li et al. | NDNet: Spacewise multiscale representation learning via neighbor decoupling for real-time driving scene parsing | |
Abbas et al. | Improving deep learning-based image super-resolution with residual learning and perceptual loss using SRGAN model | |
US20230073175A1 (en) | Method and system for processing image based on weighted multiple kernels | |
CN110889316B (zh) | 一种目标对象识别方法、装置及存储介质 | |
US20190156182A1 (en) | Data inference apparatus, data inference method and non-transitory computer readable medium | |
Moon et al. | Feature-domain Adaptive Contrastive Distillation for Efficient Single Image Super-Resolution | |
CN113609957A (zh) | 一种人体行为识别方法及终端 | |
Le et al. | Locality and relative distance-aware non-local networks for hand-raising detection in classroom video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |