CN112990427A - 域自适应的神经网络实现的装置和方法 - Google Patents
域自适应的神经网络实现的装置和方法 Download PDFInfo
- Publication number
- CN112990427A CN112990427A CN202011468409.8A CN202011468409A CN112990427A CN 112990427 A CN112990427 A CN 112990427A CN 202011468409 A CN202011468409 A CN 202011468409A CN 112990427 A CN112990427 A CN 112990427A
- Authority
- CN
- China
- Prior art keywords
- domain
- pattern
- neural network
- feature
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 179
- 238000000034 method Methods 0.000 title claims abstract description 108
- 230000003044 adaptive effect Effects 0.000 title claims description 38
- 230000006978 adaptation Effects 0.000 claims abstract description 68
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 106
- 238000010606 normalization Methods 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 34
- 238000003709 image segmentation Methods 0.000 claims description 10
- 238000004040 coloring Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 5
- 230000002087 whitening effect Effects 0.000 claims description 5
- 230000015654 memory Effects 0.000 description 38
- 239000000284 extract Substances 0.000 description 21
- 238000004891 communication Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
一种处理器实现的神经网络操作方法,该操作方法包括:获得在源域中预训练的神经网络和源域的第一样式特征;使用神经网络从所接收的目标域的输入数据中提取目标域的第二样式特征;通过基于源域的第一样式特征和目标域的第二样式特征对输入数据执行样式匹配,来执行输入数据的域自适应;以及使用神经网络来处理经样式匹配的输入数据。
Description
相关申请的交叉引用
本申请要求于2019年12月12日在韩国知识产权局递交的韩国专利申请No.10-2019-0165774的优先权,其全部公开内容通过引用合并于此以用于所有目的。
技术领域
以下描述涉及域自适应的神经网络实现的装置和方法和方法。
背景技术
域自适应是指如果源域具有输入和基本事实并且目标域仅具有输入,则将针对源域训练的神经网络调整为在目标域中有效地操作。如果在域自适应过程期间改变了目标域,则可能必须再次训练神经网络以与新的目标域兼容。此外,如果被配置为捕获目标域的图像的设备发生了变化,例如,如果在域自适应之后改变了被配置为捕获图像的设备,则可能难以维持神经网络的准确性。
发明内容
提供本发明内容以用简化形式介绍对下面在具体实施方式中进一步描述的构思的选择。本发明内容不意在标识所请求保护的主题的关键特征或基本特征,也不意在帮助确定所请求保护的主题的范围。
在一个总体方面,一种处理器实现的神经网络方法包括:获得在源域中预训练的神经网络和源域的第一样式特征;使用神经网络从所接收的目标域的输入数据中提取目标域的第二样式特征;通过基于源域的第一样式特征和目标域的第二样式特征对输入数据执行样式匹配,来执行输入数据的域自适应;以及通过使用神经网络处理经样式匹配的输入数据来生成推断结果。
提取可以包括:从包括在神经网络中的多个层中的至少一层中提取与输入数据相对应的样式信息;以及基于样式信息来确定目标域的第二样式特征。
执行域自适应可以包括:执行与目标域的第二样式特征相对应的样式信息与源域的第一样式特征的样式匹配。
样式信息可以包括从包括在相应层中的多个节点输出的值的平均值和方差。
执行域自适应可以包括:基于源域的第一样式特征和目标域的第二样式特征,通过自适应实例归一化(AIN)来执行样式信息与源域的第一样式特征的样式匹配。
样式信息可以包括从包括在相应层中的多个节点输出的值的平均值和协方差。
执行域自适应可以包括基于源域的第一样式特征和目标域的第二样式特征,通过白化和着色变换(WCT)过程来执行样式信息与源域的第一样式特征的样式匹配。
执行域自适应可以包括:响应于接收到包括输入数据在内的多个输入数据,确定从所接收的多个输入数据中提取的第二样式特征的代表性样式特征;以及通过基于源域的第一样式特征和代表性样式特征对多个输入数据进行样式匹配,来执行输入数据的域自适应。
提取第二样式特征可以包括:对所接收的输入数据进行采样;通过将所采样的接收的输入数据应用于神经网络来提取与包括在神经网络中的多个层相对应的第二特征;以及通过计算所提取的第二特征的第二统计值来提取第二样式特征。
源域的第一样式特征可以包括第一统计值,所述第一统计值是基于通过将源域的采样数据应用于神经网络而提取的第一特征所计算出的。
源域可以包括多个域,并且源域的第一样式特征包括第三统计值,所述第三统计值是基于通过将针对多个域的每个标签而采样的批量应用于神经网络而提取的第一特征所计算出的。
神经网络可以被配置为执行期望的预定操作,并且期望的预定操作包括图像识别、语音识别、生物特征信号识别和图像分割中的任何一种或任何组合。
所接收的输入数据可以包括语音数据、图像数据和生物特征信号数据中的任何一种或任何组合。
该方法可以包括基于语音数据、图像数据和生物特征信号数据中的任何一种或任何组合来训练神经网络。
在一个总体方面,一种处理器实现的神经网络方法包括:获得要在多个域中训练的神经网络;使用神经网络从多个域中的第一域的训练数据中提取第一域的样式特征;通过基于与多个域相对应的代表性样式特征和第一域的样式特征对训练数据执行样式匹配,来执行训练数据的域自适应;使用神经网络来处理经样式匹配的训练数据;以及基于处理的结果和训练数据的基本事实,来训练神经网络和代表性样式特征。
提取可以包括:从神经网络中包括的多个层中的至少一层中提取与训练数据相对应的样式信息;以及基于样式信息来确定第一域的样式特征。
执行域自适应可以包括:执行第一域的样式特征与代表性样式特征的样式匹配。
代表性样式特征可以包括从包括在相应层中的多个节点输出的值的平均值和方差。
执行域自适应可以包括:基于代表性样式特征和第一域的样式特征,通过自适应实例归一化(AIN)来执行第一域的样式特征与代表性样式特征的样式匹配。
提取第一域的样式特征可以包括:通过将第一域的训练数据应用于神经网络,来提取与包括在神经网络中的多个层相对应的特征;以及通过计算特征的统计值来提取第一域的样式特征。
处理经样式匹配的训练数据可以包括:使用经样式匹配的训练数据来执行神经网络的期望的预定操作。
期望的预定操作可以包括图像识别、语音识别、生物特征信号识别和图像分割中的任何一种或任何组合。
训练可以包括:基于根据处理的结果和训练数据的基本事实而计算出的损失,来训练神经网络和代表性样式特征。
训练数据可以包括语音数据、图像数据和生物特征信号数据中的任何一种或任何组合。
在一个总体方面,一种神经网络装置包括:处理器,被配置为:使用在源域中预训练的神经网络从目标域的输入数据中提取目标域的第二样式特征,通过基于第一源域的第一样式特征和第二样式特征对输入数据进行样式匹配来执行输入数据的域自适应,以及使用神经网络来处理经样式匹配的输入数据。
处理器还可以被配置为:从神经网络中的多个层中的至少一层中提取与输入数据相对应的样式信息,以及基于样式信息来确定目标域的第二样式特征。
处理器还可以被配置为:执行与目标域的第二样式特征相对应的样式信息与源域的第一样式特征的样式匹配。
样式信息可以包括从包括在神经网络的相应层中的多个节点输出的值的平均值和方差。
处理器还可以被配置为:基于源域的第一样式特征和目标域的第二样式特征,通过自适应实例归一化(AIN)来执行样式信息与源域的第一样式特征的样式匹配。
样式信息可以包括从包括在相应层中的多个节点输出的值的平均值和协方差。
处理器还可以被配置为:基于源域的第一样式特征和目标域的第二样式特征,通过白化和着色变换(WCT)来执行样式信息与源域的第一样式特征的样式匹配。
处理器还可以被配置为:响应于接收到包括所述输入数据在内的多个输入数据,确定从多个输入数据中提取的第二样式特征的代表性样式特征;以及通过基于源域的第一样式特征和代表性样式特征对输入数据进行样式匹配,来执行多个输入数据的域自适应。
处理器还可以被配置为:对输入数据进行采样,通过将所采样的输入数据应用于神经网络来提取与神经网络中的多个层相对应的第二特征,以及通过计算所提取的第二特征的第二统计值来提取第二样式特征。
源域的第一样式特征可以包括第一统计值,所述第一统计值是基于通过将所述源域的采样数据应用于神经网络而提取的第一特征所计算出的。
源域可以包括多个域,源域的第一样式特征包括第三统计值,所述第三统计值是基于通过将针对多个域的每个标签而采样的批量应用于神经网络而提取的第一特征所计算出的。
神经网络可以被配置为执行期望的预定操作,以及期望的预定操作包括图像识别、语音识别、生物特征信号识别和图像分割中的任何一种或任何组合。
输入数据可以包括语音数据、图像数据和生物特征信号数据中的任何一种或任何组合。
装置可以包括被配置为接收源域的第一样式特征和目标域的输入数据的接口。
在一个总体方面,一种处理器实现的神经网络方法包括:使用特征编码器从训练数据中提取预定域的样式特征;通过基于与多个域相对应的代表性样式特征和预定域的样式特征对训练数据执行样式匹配,来执行训练数据的域自适应;以及基于计算出的损失和训练数据的基本事实,来训练神经网络和代表性样式特征。
训练数据可以包括语音数据、图像数据和生物特征信号数据中的一种或多种。
该方法可以包括:基于代表性样式特征和预定域的样式特征,通过自适应实例归一化(AIN)来执行预定域的样式特征与代表性样式特征的样式匹配。
可以在不重新训练神经网络的一个或多个部分的情况下执行域自适应。
在一个总体方面,一种处理器实现的方法包括:接收目标域图像;从所接收的目标域图像中提取目标域的样式特征;将所提取的目标域的样式特征与源域的特征进行匹配;以及输出匹配的结果。
该方法可以包括使用已经在源域中预训练的神经网络来提取目标域的样式特征。
匹配可以包括:从目标域图像去除目标域的样式特征,并且将源域的样式特征添加到目标域。
其他特征和方面将通过以下详细描述、附图和权利要求变得清楚明白。
附图说明
图1示出了根据一个或多个实施例的示例域自适应过程。
图2示出了根据一个或多个实施例的基于域自适应的神经网络的示例操作方法。
图3示出了根据一个或多个实施例的神经网络的示例结构。
图4示出了根据一个或多个实施例的基于域自适应的神经网络的示例操作方法。
图5和图6示出了根据一个或多个实施例的示例域自适应过程。
图7示出了根据一个或多个实施例的用于域泛化的神经网络的示例操作方法。
图8示出了根据一个或多个实施例的示例域泛化过程。
图9示出了根据一个或多个实施例的基于域自适应的神经网络的示例训练过程。
图10示出了根据一个或多个实施例的基于域自适应的神经网络的示例训练方法。
图11示出了根据一个或多个实施例的基于域自适应的神经网络的示例操作装置。
在整个附图和详细描述中,除非另有描述或提供,否则相同的附图标记应被理解为指代相同的元件、特征以及结构。附图可以不按比例绘制,并且为了清楚、说明和方便,可以扩大附图中元件的相对尺寸、比例和描绘。
具体实施方式
提供以下详细描述以帮助读者获得对本文描述的方法、装置和/或系统的全面理解。然而,在理解了本申请的公开内容之后,本文描述的方法、装置和/或系统的各种改变、修改和等同物将是显而易见的。例如,本文描述的操作序列仅是示例,并且不限于本文中阐述的那些,而是除了必需以特定顺序发生的操作之外,可以进行改变,这在理解了本申请的公开内容之后将是显而易见的。另外,为了增加清晰度和简洁性,可以省略在理解本申请的公开内容之后已知的特征的描述,注意,特征及其描述的省略也不旨在承认其为常识。
本文描述的特征可以以不同的形式体现,并且不应解释为限于本文描述的示例。相反,已提供的本文描述的示例仅说明了实现本文描述的方法、装置和/或系统的许多可能方式中的一些方式,这些方式在理解了本申请的公开内容之后将是显而易见的。
尽管可以在本文中使用诸如“第一”、“第二”和“第三”之类的术语来描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不受这些术语的限制。相反,这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分区分开。因此,在不脱离示例的教导的情况下,本文中描述的示例中提及的第一构件、组件、区域、层或部分也可以被称为第二构件、组件、区域、层或部分。
本文中使用的术语仅仅是为了描述具体示例的目的,而不是为了限制示例。如本文中使用的,单数形式“一”、“一个”和“所述”意图还包括复数形式,除非上下文明确地给出相反的指示。还将理解,术语“包括”、“具有”和/或“包含”在本文中使用时表示存在所陈述的特征、整数、步骤、操作、元件和/或组件,但并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组合。
在整个说明书中,当将诸如层、区域或衬底等的元件描述为在另一元件“上”、“连接至”或“耦接至”另一元件时,其可以直接在另一元件“上”、“连接到”或“耦接到”另一元件,或者在它们之间可能存在一个或多个其他元件。相反,当一个元件被描述为“直接”在另一个元件“上”、“直接连接到”或“直接耦接到”另一个元件时,在它们之间可以没有其他元件。
如本文中所使用的,术语“和/或”包括关联的所列项目中的任何一个或任何两个或更多个的任何组合。
除非另外定义,否则本文使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员在理解本公开之后通常所理解的含义相同的含义。术语(诸如在常用词典中定义的术语)应被解释为具有与其在相关技术和本公开的上下文中的含义一致的含义,并且不应以理想化或过于正式的意义进行解释,除非本文明确定义。
图1示出了根据一个或多个实施例的示例域自适应过程。可以以所示的顺序和方式来执行图1中的操作,或者可以以与所示的顺序和方式不同的顺序或方式来执行图1中的操作。图1的一个或多个框以及这些框的组合可以由执行指定功能的基于专用硬件的计算机或专用硬件和计算机指令的组合来实现。
参考图1,示出了域自适应过程。作为非限制性示例,域自适应过程可以是一种学习技术,该学习技术利用尽可能少的样本使机器学习模型适应较新的域。可以“记住”与目标域相关联的较新样本,使得可以在避免对基本设备进行任何修改的同时,不断发展由当前设备生成的输出。在下文中,为了便于描述,将基于图像数据对描述的示例进行讨论。然而,示例不限于此。作为非限制性示例,描述的每个域的数据可以应用于各种其他类型的数据,例如,图像数据、语音数据和生物特征信号数据。
参考图1,在操作110中,具有神经网络域自适应的示例装置(在下文中,“操作装置”)接收目标域图像。域自适应可以包括从源域到目标域的模型的泛化。通常,源域可以包括大量训练数据。通过学习源域与目标域之间的映射,可以允许来自源域的数据丰富用于目标域中的训练的可用数据。
在操作120中,操作装置可以从目标域图像提取目标域的样式特征。在一个示例中,操作装置可以使用已经在源域中训练的神经网络来提取目标域的样式特征。例如,操作装置可以将目标域图像应用于神经网络,然后基于神经网络的预定层的输出来提取目标域的样式特征,这将在下面进一步描述。在示例中,可以通过使用各种目标域图像提取样式特征,来执行针对各种情况和各种场景的域自适应。
在操作130中,操作装置可以获得源域的样式特征。操作装置可以获得例如存储在图11的存储器1150中的源域的样式特征。操作装置可以例如通过图11的通信接口1110从操作装置外部的源接收源域的样式特征,并存储所接收的源域的样式特征。在一个示例中,可以仅通过使用源域的样式特征而不是源域的整个数据来执行样式特征匹配。因此,可以不需要存储源域的整个数据,从而提高了存储效率。在一个示例中,在操作105中,操作装置可以从操作装置外部的源接收源域图像,并且在操作130中,通过从接收的源域图像中直接提取样式特征来获得源域的样式特征。在本文中,关于示例或实施例使用术语“可以”,例如关于示例或实施例可以包括或实现什么,意味着存在包括了或实现了这样的特征的至少一个示例或实施例,但所有示例和实施例不限于此。
在下文中,为了便于描述,将源域的样式特征称为“第一样式特征”,并将目标域的样式特征称为“第二样式特征”。
在操作140中,操作装置可以将在操作120中提取的目标域的样式特征与在操作130中获得的源域的样式特征进行匹配。例如,可以通过图4的样式特征匹配模块450来执行目标域的样式特征与源域的样式特征的样式匹配。在一个示例中,样式特征匹配模块450可以通过从目标域图像移除目标域的样式特征、然后向该目标域图像添加源域的样式特征来执行样式匹配,这将在下面进一步描述。
在操作150中,操作装置可以输出操作140的匹配结果。在操作150中,可以输出与源域的样式特征相对应的域自适应图像。域自适应图像可以由已经在源域中训练的神经网络来处理。如上所述,示例可以通过对目标域图像执行域自适应(例如,通过执行样式匹配)使得目标域图像的样式特征与源域的样式特征相对应,而不是对已经在源域中训练的神经网络执行域自适应以与目标域相对应,来执行域自适应而无需单独训练神经网络。
如果通过将目标域图像输入到已经在源域中训练的神经网络中来提取目标域的样式特征,则可以生成例如尽可能相近地包括目标域图像的内容在内且具有与源域图像的样式特征相对应的样式特征的结果图像。在一个示例中,提供了极端示例,其中源域图像是文森特·梵高样式绘画的图像,目标域图像是道路的图像。通过将道路的图像应用于已经在源域中训练的神经网络,操作装置可以获取结果图像,该结果图像包括与道路的图像的内容相对应的内容,并且图像的这种内容可以具有独特的文森特·梵高样式。在该示例中,将对目标域图像的样式特征进行改变的数据(例如,文森特·梵高样式绘画图像)所属的域称为“源域”,将样式特征被改变成的数据所属的域称为“目标域”。
操作装置可以通过执行上述样式匹配过程来执行从目标域图像到源域的域自适应。相对于已经在源域中训练的神经网络,域自适应与统计值匹配相对应,该统计值匹配使目标域的特征统计值跟随源域的特征或特征统计值。如果使用统计值匹配,则可以无需执行域自适应,该域自适应使用与目标域的输入相对应的基本事实(ground truth,GT)再次训练神经网络。样式匹配也可以称为“统计值匹配”,因为样式匹配是匹配与相应域的样式特征相对应的统计值的过程。
此外,域泛化(domain generalization)可以通过不依赖于域而改变的特征统计值(即,域不变特征统计值)来训练神经网络,并且因此针对多个域的域泛化也可以同时被训练。如果使用如上所述训练的神经网络和代表性样式特征,则其可以在从未用于训练的看不见的域中实现,并且还可以实现为未指定域的单个输入。
通过样式特征匹配模块更新神经网络,可以不需要针对输入数据再次对神经网络进行训练,因此神经网络可以实现在操作装置具有有限性能(例如,有限的计算能力)的环境中,或难以训练神经网络的环境中。作为非限制性示例,域自适应和/或域泛化可以用于各种领域(例如,图像处理、语音处理、生物特征信号处理、以及视觉)中的各种基于神经网络的方法。
可以实现示例方法以执行域自适应,使得已经在预定域中训练的神经网络可以适合于新域。也可以实现这种示例方法或替代的示例方法以同时训练多个域并在从未用于训练的看不见的域中执行域泛化。
例如,如果被配置为执行预定的期望操作(例如,基于训练的检测或定位)的神经网络被配置为由设备实现,并且设备的服务环境可能发生变化,或由设备检测到的图像可能发生变化,则可以通过收集检测到的图像执行域自适应,而不是获得与变化的内容相对应的新的基本事实,来更新神经网络。此外,对于由各种环境中的设备实现的相同的基于训练的神经网络,可以通过收集各种域的所有获得的基本事实而执行用于域泛化的训练,来提高神经网络的性能。
图2示出了根据一个或多个实施例的基于域自适应的神经网络的操作方法的示例。图2中的操作可以以所示的顺序和方式执行,或者可以以与所示的顺序和方式不同的顺序或方式执行。图2的一个或多个框以及框的组合可以通过执行指定功能的基于专用硬件的计算机或专用硬件和计算机指令的组合来实现。除了下文图2的描述之外,图1的描述也适用于图2,并通过引用合并在此。因此,这里可以不重复以上描述。
参考图2,在操作210中,操作装置获得已经在源域中训练的神经网络和源域的第一样式特征。神经网络被配置为执行预定的期望操作,并且作为非限制性示例,期望操作可以包括图像识别、语音识别、生物特征信号识别、视觉对准和图像分割。然而,期望操作不必限于此,并且可以包括各种其他操作。作为非限制性示例,神经网络可以是例如特征编码器和/或特征解码器,但是不必限于此。后面将参考图3进一步描述神经网络的结构的示例。
在操作220中,操作装置接收目标域的输入数据。作为非限制性示例,输入数据可以包括例如语音数据、图像数据和生物特征信号数据,但不必限于此。作为非限制性示例,域自适应可以应用于各种类型的域和在这些域中执行的任务,包括自动语音识别(ASR)。
在操作230中,操作装置使用神经网络从输入数据中提取目标域的第二样式特征。例如,操作装置对输入数据进行采样,并且通过将采样的输入数据应用于神经网络来提取与包括在神经网络中的多个层的至少一部分相对应的第二特征。操作装置通过计算第二特征的第二统计值来提取目标域的第二样式特征。被提取了第二特征的至少一个层可以与用于提取源域的样式特征的至少一个层相对应。
在一个示例中,输入数据可以包括多个图像(或帧)。例如,如果实时地接收到(例如,由光学传感器或相机捕获到)N个目标域图像作为输入数据,则操作装置基于该N个目标域图像的统计值来定义和使用样式特征。
在操作230中,操作装置从神经网络的多个层中的至少一个层中提取与输入数据相对应的样式信息。操作装置可以基于提取的样式信息来确定目标域的第二样式特征。例如,操作装置可以从每一层中提取样式信息,并且还可以逐层地执行样式匹配。可以从多个层中的任何一层中提取样式信息,并且对被提取了样式信息的层执行样式匹配。可以将稍后更详细地描述对被提取了样式信息的层执行的样式匹配。
在示例中,可以基于域特性来应用定义样式特征的不同层。例如,如果输入数据的域具有第一特性,则可以使用神经网络中的多层中的第一层来定义样式特征。如果输入数据的域具有第二特性,则使用神经网络中的多个层中的第二层来定义样式特征。
在一个示例中,神经网络中的初始层可以包括与相对精细尺度的信息有关的多个层,并且深层可以与比较高级的信息有关。如果预先知道域特性,则基于域特性由合适的层定义样式特征。当传感器特性被限于颜色时,初始层可以定义样式特征。当颜色类似但较高级样式特征不同时,由深层而不由初始层来定义样式特征可能是更合适的。如果样式特征总体上非常不同,则可以由初始层和一个或多个深层顺序地定义样式特征。如上所述,样式特征可以被应用于神经网络中的单个预定层,并且还可以被应用于从初始层到深层的多个层,并且这样的层可以不一定与初始层、深层或未应用到的层中的其他应用到的层相邻。
在操作240中,操作装置可以通过基于源域的第一样式特征和目标域的第二样式特征而对输入数据进行样式匹配,来执行输入数据的域自适应。第一样式特征可以包括第一统计值,该第一统计值是基于通过将源域的采样数据应用于神经网络而提取的第一特征所计算出的。
如果源域包括多个域,则第一样式特征可以包括第三统计值,该第三统计值是基于通过将针对多个域的每个标签而采样的批量(batch)应用于神经网络而提取的第一特征所计算出的。
作为示例,第一统计值和/或第三统计值可以包括平均值和方差。第一统计值和/或第三统计值可以被预先计算并被存储。
在操作240中,操作装置执行与目标域的第二样式特征相对应的样式信息与源域的第一样式特征的样式匹配。作为非限制性示例,操作装置基于源域的第一样式特征和目标域的第二样式特征,通过自适应实例归一化(AIN)来执行样式信息与源域的第一样式特征的样式匹配。在该示例中,样式信息可以包括从包括在相应层中的多个节点输出的值的平均值和方差。下面将参考图5进一步描述操作装置通过AIN来执行样式匹配的示例。
在另一示例中,操作装置可以基于源域的第一样式特征和目标域的第二样式特征,通过白化和着色变换(WCT)过程来执行样式信息与源域的第一样式特征的样式匹配。在该示例中,样式信息可以包括例如从包括在相应层中的多个节点输出的值的平均值和协方差。下面将参考图6进一步描述操作装置通过WCT来执行样式匹配的示例。在一个示例中,可以通过推断针对采样数据的预训练神经网络来提取特征的均值和协方差。
在一个示例中,操作装置可以通过作为非限制性示例的Gram矩阵匹配、直方图匹配和累积分布函数(CDF)匹配来执行样式信息与源域的第一样式特征的匹配。
在一个示例中,可以提供多个输入数据。响应于提供了多个输入数据,操作装置确定从多个输入数据中提取的第二样式特征中的代表性样式特征。操作装置通过基于第一样式特征和代表性样式特征对输入数据进行样式匹配,来执行输入数据的域自适应。
在操作250中,操作装置使用神经网络来处理经样式匹配的输入数据。在非限制性示例中,操作装置可以使用被配置为执行预定的期望操作的神经网络,针对经样式匹配的输入数据来执行图像识别、语音识别、生物特征信号识别和图像分割。该操作装置可以对应于计算设备。例如,作为非限制性示例,操作装置可以是个人计算机(PC)、服务器、移动设备等,并且还可以与以下项相对应或者是以下项中提供的装置或作为以下项提供的装置:自动驾驶车辆、机器人、智能手机、平板电脑设备、增强现实(AR)设备、物联网(IoT)设备、以及通过实现神经网络来执行声音识别、语音识别、生物特征信号识别、图像识别和图像分割(但是本公开不限于此)的类似设备,并且可以对应于各种其他类型的设备。
图3示出了神经网络300的结构的示例。参考图3,作为非限制性示例,示例神经网络可以是包括多个层在内的卷积神经网络(CNN)300。CNN是具有至少一个卷积层的神经网络。CNN由一个或多个输入层和一个或多个输出层以及多个隐藏层组成。作为非限制性示例,CNN的隐藏层可以包括卷积层、整流线性单元(RELU)层(例如,激活函数)、池化层、完全连接层、以及归一化层。例如,卷积层可以将卷积操作应用于从先前层接收的相应输入数据或激活结果,并将结果传递到下一相邻层。
如上所述,作为非限制性示例,神经网络300可以被配置为通过基于深度学习相互映射非线性关系中的输入数据和输出数据来执行对象分类、对象识别、语音识别和图像识别。作为非限制性示例,这种深度学习指示用于解决问题的处理器实现的机器学习方案,这些问题例如是与来自数据集的自动图像或语音识别有关的问题。
CNN 300可以包括例如完全连接层,并且可以由源域的数据进行训练。在一些示例中,当执行语义分割或视觉对准时,CNN 300可以使用不包括完全连接层的另一神经网络。CNN模型300可以包括多个层。例如,CNN模型300可以包括输入(初始)层、多个隐藏层和输出(最深)层。每个层可以包括多个节点。每个节点是具有输入和输出的计算单元,并且节点通过“链接”或加权连接或核彼此连接,并且通过这种链接而连接的节点形成输入节点和输出节点之间的关系。输入节点和输出节点的构思是相对的,对于一个节点,与输出节点具有关系的任意节点可以与和另一节点具有关系的输入节点具有关系,反之亦然。
例如,如果输入了例如作为源域的数据的图像310,则CNN 300可以通过特征编码器330从图像310提取特征,并通过分类器350确定所提取的特征的类别。
操作装置可以从CNN 300的每一层中提取样式特征,或者从一个层或一部分层中提取样式特征。在该示例中,针对图像310从CNN 300的一个层中提取的特征被称为“样式信息”,并且针对图像310由CNN300的所有层提取的特征(即,与源域相对应的特征)被称为“样式特征”。
例如,假定输入到CNN 300中的图像310的尺寸是32×32,并且从被设置为提取样式特征的层输出的特征图的尺寸是3×3×512(在此,512表示通道的数量)。在该示例中,操作装置可以针对每个通道计算样式特征。
例如,如果样式特征是平均值和方差,则操作装置通过针对各个通道计算平均值和方差来获得总共1024个值(512个平均值和512个方差)。如上所述计算的1024个值对应于源域的样式特征。
在另一示例中,如果样式特征是平均值和协方差,则操作装置针对各个通道计算平均值和协方差。在该示例中,源域的样式特征包括(512×512)个协方差矩阵和512个平均值。
如果将目标域图像输入到CNN 300中,则图像的尺寸(32×32)可以根据目标域图像的尺寸而变化。
图4示出了在基于域自适应的神经网络内的示例操作方法。
参考图4,示出了目标域的输入图像X 410、已经在源域中训练的预训练的神经网络430、样式特征匹配模块450、以及分类器470。
在一个示例中,如果目标域的输入图像X 410被输入,则操作装置通过将输入图像X 410输入到已经在源域中训练的神经网络430中,来从输入图像X 410中提取目标域的第二样式特征。神经网络430可以是例如被配置为从图像提取特征或对图像的特征进行编码的特征编码器。响应于提供了多个输入图像X 410,操作装置可以通过将多个输入图像输入到神经网络430中来提取与各个输入图像相对应的第二样式特征。操作装置可以将第二样式特征的均值确定为目标域的样式特征。
样式特征匹配模块450可以在神经网络430的层之中的提取了输入图像X 410的样式特征的层的后面(例如,该层的相应卷积或激活输出),将目标域的样式特征(目标域样式特征)与源域的样式特征(源域样式特征)进行匹配。
分类器470通过样式特征匹配模块450来确定包括在与源域的样式特征匹配的结果图像中的对象的类别标签。
图5示出了域自适应过程的示例。图5中的操作可以以所示的顺序和方式执行,或者可以以与所示的顺序和方式不同的顺序或方式执行。图5的一个或多个框或框的组合可以通过执行指定功能的基于专用硬件的计算机、或专用硬件和计算机指令的组合来实现。除了下文图5的描述之外,对图1至图4的描述也适用于图5,并且通过引用合并在此。因此,这里可以不重复以上描述。
参考图5,示出了使用平均值和方差作为样式特征来执行域自适应的过程。
在一个示例中,如果源域包括预训练的神经网络,则将预训练的神经网络应用于目标域的数据可能不能实现可接受的结果。因此,通过更新在源域中的预训练的神经网络的一部分(例如,特征编码器),即使针对目标域的数据,在源域中的预训练的神经网络也可以适于实现可接受的性能。在下文中,为了便于描述,将以神经网络的一部分包括特征编码器的示例为例进行描述。然而,示例不限于此。神经网络的一部分可以采用各种形式,例如,特征解码器或编码器-解码器。
在操作510中,操作装置在目标域的数据之中针对每个域采样N项数据。在操作560中,操作装置在源域的数据之中采样N项数据。也就是说,操作装置在源域和目标域的数据中随机采样N项数据。
在操作520中,操作装置将在操作510中采样的N项目标域数据输入到已经在源域中训练的特征编码器中,并且将在操作560中采样的N项源域数据输入到已经在源域中训练的特征编码器中。在操作530中,操作装置提取目标域的特征(“第二特征”),并在操作570中提取源域的特征(“第一特征”)。例如,如果神经网络包括多个层,则第二特征的数量和第一特征的数量可以分别等于该多个层的数量。在该示例中,每个域的特征可以不一定是从特征编码器的最后一层输出的特征,而可以是从特征编码器的中间层输出的特征。
在操作540中,操作装置计算目标域的特征的统计值(例如,平均值和方差)。在操作580中,操作装置根据源域的特征计算统计值(例如,平均值和方差)。
在下文中,为了便于描述,将源域的第一特征的统计值称为“第一统计值”或“第一样式特征”,将目标域的第二特征的统计值称为“第二统计值”或“第二样式特征”。
在操作550中,操作装置通过基于第一样式特征和第二样式特征进行样式匹配,来针对目标域的输入数据执行自适应归一化。
例如,如果源域的数据和目标域的数据均是单个图像,则操作装置使用源域和目标域中的每一个的平均值μ和方差σ2对目标域的特征x与源域的特征y执行样式匹配。在操作550中,操作装置例如通过由以下示例等式1表示的AIN来执行样式匹配。
等式1
在等式1中,σ(x)表示目标域的标准偏差,并且σ(y)表示源域的标准偏差。μ(x)表示目标域的平均值,μ(y)表示源域的平均值。
等式1可以对应于通过将目标域的特征x偏移源域的平均值μ(y)、并将目标域的特征x按源域的标准偏差σ(y)进行缩放来执行与源域的样式匹配的过程。
操作装置将数据是单个图像的示例扩展到域,从而将其应用于源域和目标域中的每一个的N项数据。操作装置针对N项数据的平均值和方差来获得均值,并且将该均值用作目标域和源域中的每一个的平均值和方差。如上所述,使用针对每个域的样式特征的平均值和方差的匹配可以被定义为“自适应归一化”。
在操作590中,操作装置基于执行操作550的自适应归一化的结果来更新特征编码器。操作装置通过添加用于自适应归一化的层来更新特征编码器。在另一示例中,如果特征编码器的卷积层之后是用于执行诸如批量归一化之类的归一化的归一化层,则操作装置通过更新归一化层的参数来更新特征编码器。
操作装置可以根据以下方式迭代地执行自适应归一化:使用目标域的第一数据的特征执行整个自适应归一化过程,然后使用后续数据的特征再次顺序地执行自适应归一化过程。在该示例中,可以使用源域的数据和目标域的数据的采样部分,因此不需要与每个输入相对应的基本事实(GT)。
图6示出了根据一个或多个实施例的域自适应过程的示例。图6中的操作可以以所示的顺序和方式执行,或者可以以与所示的顺序和方式不同的顺序或方式执行。图6的一个或多个框或框的组合可以通过执行指定功能的基于专用硬件的计算机、或专用硬件和计算机指令的组合来实现。除了下文图6的描述之外,对图1至图5的描述也适用于图6,并且通过引用合并在此。因此,这里可以不重复以上描述。
参考图6,示出了使用平均值和协方差作为样式特征来执行域自适应的示例过程。图6的操作610至630、660和670可以与图5的操作510至530、560和570相同或者相似地实现,并且因此对于操作610至630、660和670的相应理解,可以参考图5的上述操作进行描述。
在操作640中,操作装置基于目标域的特征来计算在操作630中提取的目标域的特征的统计值(例如,平均值和协方差)。在操作680中,操作装置基于源域的特征来计算在操作670中提取的源域的特征的统计值(例如,平均值和协方差)。
在操作650中,操作装置通过基于源域的第一样式特征和目标域的第二样式特征进行样式匹配,针对目标域的输入数据来执行WCT。
例如,如果源数据和目标数据均是单个图像,则执行通过WCT对目标域的特征与源域的特征的样式匹配,如以下所述。
操作装置可以通过从目标域c的特征中减去目标域c的特征的平均值μc来获得具有零平均值(使平均值为零)的结果值fc中的每一个的协方差矩阵fcfc T。
操作装置通过协方差矩阵fcfc T的本征分解,获得包括本征值在内的对角矩阵Dc和包括与对角矩阵相对应的本征向量在内的正交矩阵Ec。
对于与目标域c的特征相对应的协方差矩阵fcfc T,执行本征分解,如以下示例等式2所表示的。
等式2
示例等式2的关系可以类似地适用于源域s的特征。操作装置可以通过从源域s的特征中减去源域s的特征的平均值μs来获得具有零平均值(使平均值为零)的结果值fs中的每一个的协方差矩阵fsfs T。
等式3
等式4
等式5
等式6
操作装置可以通过将源域的特征的平均值μs添加到协方差匹配的结果来使用平均值和协方差进行样式匹配,从而遵循源域的特征。
操作装置可以应用于数据是从单个图像到域的示例,从而将其应用于源域和目标域中的每一个的N项数据。操作装置可以获得针对N项数据的平均值和协方差,并且将该平均值和协方差用作目标域和源域中的每一个的平均值和协方差。如上所述,使用针对每个域的样式特征的平均值和协方差的匹配可以被定义为“WCT”。
在操作690中,操作装置可以基于执行操作650的WCT的结果来更新特征编码器。操作装置通过添加用于WCT的层来更新特征编码器。在另一示例中,如果特征编码器的卷积层之后是用于WCT的层,则操作装置通过更新用于WCT的层的参数来更新特征编码器。
操作装置可以通过使用目标域的第一数据的特征执行整个WCT过程,然后使用后续数据的特征再次递归地执行WCT过程,来迭代地执行WCT。在该示例中,可以使用源域的数据和目标域的数据的采样部分,因此可以不需要与每个输入相对应的基本事实(GT)。
图7示出了根据一个或多个实施例的用于域泛化的神经网络的操作方法的示例。
参考图7,示出了域K的输入图像X 710、要训练的神经网络730、样式特征匹配模块750和分类器770。
在一个示例中,如果域K的输入图像X 710被输入,则操作装置通过将输入图像X710输入到神经网络730中来提取域K的样式特征。神经网络730可以将每个域的样式特征定义为每个域的样式特征的平均值。
样式特征匹配模块750在神经网络730的层之中的输入图像X710的样式特征被提取的层中,根据样式特征匹配参数来匹配域K的样式特征。在图7的示例中,样式特征匹配参数充当源域的样式特征。在非限制性示例中,样式特征匹配模块750可以基于上述AIN来执行样式匹配。
分类器770确定在由样式特征匹配模块750匹配到域K的样式特征的结果图像中包括的对象的类别标签。
操作装置可以训练神经网络730的参数(例如,连接、核)和样式特征匹配模块750的样式特征匹配参数,这将在下面进一步描述。例如,在训练过程中,基于反向传播学习来训练神经网络730的参数和样式特征匹配模块750的样式特征匹配参数,该反向传播学习基于分类结果与基本事实之间的损失。
图8示出了根据一个或多个实施例的域泛化过程的示例。图8中的操作可以以所示的顺序和方式执行,或者可以以与所示的顺序和方式不同的顺序或方式执行。图8的一个或多个框和框的组合可以通过执行指定功能的基于专用硬件的计算机、或专用硬件和计算机指令的组合来实现。除了下文图8的描述之外,对图1至图7的描述也适用于图8,并且通过引用合并在此。因此,这里可以不重复以上描述。
参考图8,示出了装置基于多个域的数据来执行域泛化的过程。
域泛化是指对装置的神经网络进行训练、以及基于多个域(例如,N个域,N是大于“2”的自然数)的数据输入和与该数据输入相对应的基本事实(GT)对神经网络进行训练。
在操作810和860中,装置可以针对N个域对每个域采样批量。通过在操作820中将针对每个域的采样批量输入到特征编码器中,装置可以在操作830、870中针对每个域生成特征。
在操作840和880中,装置可以针对每个域的特征中的每一个特征来计算平均值和方差。例如,装置可以使用每个域的平均值来计算每个域的平均值和方差。
在操作850中,装置基于每个域的平均值和方差,对特征编码器执行自适应归一化,以具有预定域的平均值和方差。在该示例中,装置通过参考图5描述的AIN进行样式匹配来执行自适应归一化。然而,在图8的示例中可能未单独提供源域。因此,装置可以通过训练找到作为要被样式匹配的对象的域的平均值和方差。也就是说,装置可以针对每个域执行归一化,并且针对所有域相同地缩放并偏移归一化的特征以遵循预定统计值。缩放值和偏移值对应于神经网络的自适应参数。在训练过程期间自适应参数连同神经网络一起被更新。
在操作890中,装置基于自适应归一化的结果来更新特征编码器和特征编码器的自适应参数。装置通过执行训练使得与基本事实的差异减小,来更新特征编码器和/或特征编码器的自适应参数。
装置可以对所有卷积层执行自适应归一化,并且可以不对特征编码器的最后一层执行自适应归一化。例如,如果卷积层之后是归一化层,则装置可以通过更新归一化层的参数来更新特征编码器。
例如,如果使用批量归一化,则装置在配置批量时针对每个域配置批量,并对其执行域泛化。这是因为应用于批量归一化的缩放和偏移参数是通过训练而更新的特征编码器的自适应参数的形式。
例如,装置根据以下方式迭代地执行自适应归一化:使用N个域的第一数据的特征执行整个自适应归一化过程,然后使用该N个域的后续数据的特征再次顺序地执行自适应归一化过程。
在完成基于域泛化的神经网络训练之后,装置使用训练后的神经网络来执行自适应归一化。
如果输入数据对应于用于训练神经网络的域的数据,则诸如域的平均值和方差之类的样式特征已经是已知的。在该示例中,装置使用域的已知样式特征来执行自适应归一化。
如果输入数据对应于还未用于训练神经网络的新域的数据,则装置通过对该域的数据进行采样来计算样式特征,并使用计算出的样式特征来执行自适应归一化。
例如,在与输入数据相对应的域相关的信息未知并且不能被预先采样的实时情况下,装置将诸如1至N个图像之类的输入数据视为域,并通过立即计算平均值和方差来执行自适应归一化。
图9示出了根据一个或多个实施例的基于域自适应的神经网络的训练过程的示例。可以通过本文描述的例如包括一个或多个处理器、存储指令的一个或多个存储器的任何装置来执行训练,其中该指令在由一个或多个处理器执行时配置一个或多个处理器实现相应的操作。在各种示例中的这样的装置或其他装置将参考图9被称为训练装置,以便于说明。
参考图9,示出了使用数据X 905来训练神经网络的过程。在图9的示例中,未单独提供源域。因此,操作装置通过训练来找到要被样式匹配的预定域对象的样式特征。
训练装置可以使用特征编码器950从训练数据X 905中提取预定域的样式特征。训练装置可以通过基于与多个域相对应的代表性样式特征和预定域的样式特征对训练数据进行样式匹配,来执行训练数据X 905的域自适应。
训练装置可以使用分类器930输出与经样式匹配的训练数据X905相对应的类别标签y。
训练装置可以通过对训练数据X 905的类别标签y与基本事实GT之间的差(即,损失Lv 910)进行反向传播,来训练分类器930和特征编码器950。训练装置通过对损失Lv 910的反向传播来训练特征编码器950的自适应参数。
图10示出了根据一个或多个实施例的基于域自适应的神经网络的示例训练方法。图10中的操作可以以所示的顺序和方式执行,或者可以以与所示的顺序和方式不同的顺序或方式执行。图10的一个或多个框和框的组合可以通过执行指定功能的基于专用硬件的计算机、或专用硬件和计算机指令的组合来实现。除了下文图10的描述之外,对图1至图9的描述也适用于图10,并且通过引用合并在此。因此,这里可以不重复以上描述。
参考图10,在操作1010中,训练装置获得要在多个域中训练的神经网络。可以通过本文描述的任何装置来执行训练。可以通过本文描述的例如包括一个或多个处理器、存储指令的一个或多个存储器的任何装置来执行训练,其中该指令在由一个或多个处理器执行时配置一个或多个处理器实现相应的操作。在各种示例中的这样的装置或其他装置将参考图10被称为训练装置,以便于说明。
在操作1020中,训练装置接收多个域中的第一域的训练数据。作为非限制性示例,训练数据可以包括语音数据、图像数据和生物特征信号数据。
在操作1030中,训练装置使用神经网络从训练数据中提取第一域的样式特征。例如,训练装置从包括在神经网络中的多个层中的至少一层中提取与训练数据相对应的样式信息。训练装置基于样式信息来确定第一域的样式特征。此外,训练装置通过将第一域的训练数据应用于神经网络来提取与包括在神经网络中的多个层相对应的特征,并且通过计算特征的统计值来提取第一域的样式特征。
在操作1040中,训练装置通过基于与多个域相对应的代表性样式特征和第一域的样式特征对训练数据执行样式匹配,来执行训练数据的域自适应。例如,训练装置执行第一域的样式特征与代表性样式特征的样式匹配。在该示例中,代表性样式特征可以包括从包括在相应层中的多个节点输出的值的平均值和方差。训练装置基于代表性样式特征和第一域的样式特征,通过AIN来执行第一域的样式特征与代表性样式特征的样式匹配。
在操作1050中,训练装置使用神经网络来处理经样式匹配的训练数据。训练装置使用经样式匹配的训练数据来执行神经网络的预定期望操作。期望操作包括例如图像识别、语音识别、生物特征信号识别和图像分割。
在操作1060中,训练装置基于处理的结果和训练数据的基本事实来训练神经网络和代表性样式特征。训练装置基于根据处理的结果和训练数据的基本事实而计算出的损失,来训练神经网络和代表性样式特征。训练装置训练神经网络和代表性样式特征以最小化与处理的结果和训练数据的基本事实之间的差异相对应的损失。
图11示出了根据一个或多个实施例的具有基于域自适应的神经网络的示例装置。
参考图11,具有基于域自适应的神经网络的装置1100(以下称为“操作装置”)包括通信接口1110和处理器1130。操作装置1100还包括存储器1150。通信接口1110、处理器1130和存储器1150通过通信总线1105彼此通信。
存储器1150可以包括计算机可读指令。处理器1130可以被配置为例如取决于由处理器1130执行的存储器1150中的指令来实现上述操作的任意组合或全部。存储器1150可以是易失性存储器或非易失性存储器,或者可以包括一个或多个易失性存储器和/或一个或多个非易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除和可编程ROM(EEPROM)、闪存、相变RAM(PRAM)、磁性RAM(MRAM)、电阻RAM(RRAM)、铁电RAM(FRAM)等。易失性存储器可以包括动态RAM(DRAM)、静态RAM(SRAM)、同步DRAM(SDRAM)、相变RAM(PRAM)、磁性RAM(MRAM)、电阻RAM(RRAM)、铁电RAM(FeRAM)等。此外,存储设备可以包括以下至少一种:硬盘驱动器(HDD)、固态驱动器(SSD)、紧凑型闪存(CF)卡、安全数字(SD)卡、微安全数字(Micro-SD)卡、微型安全数字(Mini-SD)卡、极限数字(xD)卡或记忆棒。
处理器1130可以是单个处理器或一个或多个处理器,并且可以是硬件设备、或基于处理器1130的指令执行来配置处理器1130的硬件和指令的组合。处理器1130还可以被配置为执行其他指令、应用或程序,或者被配置为控制操作装置1100的其他操作。处理器1130包括例如中央处理单元(CPU)、图形处理单元(GPU)和/或配置为实现机器学习模型的其他处理器。作为非限制性示例,操作装置1100可以包括例如相机或个人计算机、或者通过通信接口1110连接到外部设备例如相机或个人计算机,以接收或捕获输入图像。操作装置1100可以是以下项、或者实现为以下项的一部分:各种计算设备,例如,智能电话、可穿戴设备、个人数字助理(PDA)、平板计算机、膝上型计算机、诸如智能电视的智能家电、智能汽车、相机和自助服务亭。另外,操作装置1100可以被配置为执行上述所有操作。
通信接口1110接收源域的第一样式特征和目标域的输入数据。在示例中,通信接口1110可以是接收来自用户的输入或者提供输出的显示器。在一个示例中,通信接口1110可以用作输入设备,并且可以通过输入方法(例如,语音输入)捕获或接收来自用户的输入。因此,作为非限制性示例,通信接口1110可以包括麦克风、以及可以检测来自用户的输入并将检测到的输入发送给处理器1130的其他设备。
处理器1130使用已经在源域中训练的神经网络从输入数据中提取目标域的第二样式特征。处理器1130通过基于第一样式特征和第二样式特征对输入数据进行样式匹配来执行输入数据的域自适应。处理器1130使用神经网络来处理经样式匹配的输入数据。
存储器1150存储由通信接口1110接收的源域的第一样式特征和目标域的输入数据。此外,存储器1150存储由处理器1130提取的目标域的第二样式特征、以及通过样式匹配对输入数据执行域自适应的结果。此外,存储器1150存储由处理器1130使用神经网络处理经样式匹配的输入数据的结果。
此外,处理器1130执行参考图1至图8描述的表示相应算法的一个或多个或全部操作或方法。处理器1130是由包括具有物理结构的电路在内的硬件实现的用来执行期望操作的数据处理设备。例如,期望操作包括上述指令或代码。例如,硬件实现的数据处理设备包括:微处理器、中央处理单元(CPU)、处理器核、多核处理器、多处理器、专用集成电路(ASIC)和现场可编程门阵列(FPGA)。
处理器1130执行指令并控制操作装置1100。
存储器1150存储在处理器1130的处理过程期间生成的各种信息。另外,存储器1150存储各种数据和程序。存储器1150可以包括诸如硬盘之类的大容量存储介质以存储各种数据。
操作装置、训练装置、编码器、解码器、操作装置1100、通信接口1110、处理器1130、存储器1150以及本文关于图1至图11描述的其他装置、单元、模块、设备和其他组件实现为硬件组件并且由硬件组件实现。在适当的情况下可用于执行本申请中所描述的操作的硬件组件的示例包括控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器、以及被配置为执行本申请所述的操作的任何其他电子组件。在其他示例中,用于执行本申请中所描述的操作的一个或多个硬件组件由计算硬件(例如,由一个或多个处理器或计算机)实现。处理器或计算机可以由一个或多个处理元件(例如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器、或被配置为以定义的方式响应并执行指令以实现期望的结果的任何其他设备或设备的组合)来实现。在一个示例中,处理器或计算机包括(或连接到)存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可以执行指令或软件,例如,操作系统(OS)和在OS上运行的一个或多个软件应用,以执行本申请中描述的操作。硬件组件还可以响应于指令或软件的执行来访问、操纵、处理、创建和存储数据。为了简洁起见,在本申请中描述的示例的描述中可以使用单数术语“处理器”或“计算机”,但是在其他示例中可以使用多个处理器或计算机,或者处理器或计算机可以包括多个处理元件、或多种类型的处理元件、或两者兼有。例如,单个硬件组件或者两个或更多个硬件组件可以由单个处理器、或两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可以由一个或多个处理器、或处理器和控制器来实现,并且一个或多个其他硬件组件可以由一个或多个其他处理器或另一处理器和另一控制器来实现。一个或多个处理器或者处理器和控制器可以实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可以具有不同的处理配置中的任一种或多种,所述处理配置的示例包括单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理、和多指令多数据(MIMD)多处理。
执行本申请中所描述的操作的图1至图11中所示出的方法由计算硬件执行,例如由一个或多个处理器或计算机执行,其中计算硬件如上所述地实现为执行指令或软件以执行本申请中所描述的由这些方法执行的操作。例如,单个操作或者两个或更多个操作可以由单个处理器、或者两个或更多个处理器、或者处理器和控制器执行。一个或多个操作例如作为处理器实现的方法的相应操作,可以由一个或多个处理器或者处理器和控制器执行,并且一个或多个其他操作可以由一个或多个其它处理器或者另一处理器和另一控制器执行。一个或多个处理器或者处理器和控制器可以执行单个操作或者两个或更多个操作。
用于控制计算硬件(例如,一个或多个处理器或计算机)如上所述地实现硬件组件并执行所述方法的指令或软件可以被写为计算机程序、代码段、指令或其任何组合,用于单独地或共同地指示或配置一个或多个处理器或计算机作为机器或专用计算机来操作,以执行由硬件组件执行的操作和上述方法。在一个示例中,指令或软件包括由一个或多个处理器或计算机直接执行的机器代码,例如由编译器产生的机器代码。在另一个示例中,指令或软件包括由一个或多个处理器或计算机使用解释器执行的高级代码。可以使用任何编程语言基于附图中所示的框图和流程图以及说明书中的对应描述来容易地编写指令或软件,其中公开了用于执行由硬件组件和如上所述的方法执行的操作的算法。
控制计算硬件(例如,一个或多个处理器或计算机)实现硬件组件并执行如上所述的方法的指令或软件、以及任何相关联数据、数据文件和数据结构可以被记录、存储或固定在一个或多个非暂时性计算机可读存储介质之中或之上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储设备、硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、卡类型的存储器(比如,多媒体卡或微型卡(例如,安全数字(SD)或极限数字(XD)))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、以及被如下配置的任何其它装置:以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构,并且向一个或多个处理器或计算机提供指令或软件以及任何相关联的数据、数据文件和数据结构,使得一个或多个处理器和计算机可以执行该指令。在一个示例中,指令或软件以及任何相关联的数据、数据文件和数据结构被分布在网络耦接的计算机系统上,使得一个或多个处理器或计算机以分布式方式来执行指令和软件以及任何相关联的数据、数据文件和数据结构。
虽然本公开包括特定的示例,但是对于本领域普通技术人员在理解本申请的公开内容之后显而易见的是:在不脱离权利要求及其等同物的精神和范围的情况下,可以在这些示例中进行形式和细节上的各种改变。本文描述的示例应仅被认为是描述性的,而不是为了限制的目的。每个示例中的特征或方面的描述被认为适用于其他示例中的类似特征或方面。如果所描述的技术以不同的顺序执行和/或如果所描述的系统、架构、设备或电路中的组件以不同的方式组合和/或被其他组件或其等同物替换或补充,则可以实现合适的结果。因此,本公开的范围不是由详细描述来限定,而是由权利要求及其等同物来限定,并且在权利要求及其等同物的范围内的所有变化都被解释为包括在本公开中。
Claims (46)
1.一种处理器实现的神经网络方法,所述方法包括:
获得在源域中预训练的神经网络和所述源域的第一样式特征;
使用所述神经网络从所接收的目标域的输入数据中提取所述目标域的第二样式特征;
通过基于所述源域的第一样式特征和所述目标域的第二样式特征对所述输入数据执行样式匹配,来执行所述输入数据的域自适应;以及
通过使用所述神经网络处理经样式匹配的输入数据来生成推断结果。
2.根据权利要求1所述的方法,其中,所述提取包括:
从包括在所述神经网络中的多个层中的至少一层中提取与所述输入数据相对应的样式信息;以及
基于所述样式信息来确定所述目标域的第二样式特征。
3.根据权利要求2所述的方法,其中,执行所述域自适应包括:执行与所述目标域的第二样式特征相对应的样式信息与所述源域的第一样式特征的样式匹配。
4.根据权利要求3所述的方法,其中,所述样式信息包括从包括在相应层中的多个节点输出的值的平均值和方差。
5.根据权利要求4所述的方法,其中,执行所述域自适应包括:基于所述源域的第一样式特征和所述目标域的第二样式特征,通过自适应实例归一化AIN来执行所述样式信息与所述源域的第一样式特征的样式匹配。
6.根据权利要求3所述的方法,其中,所述样式信息包括从包括在相应层中的多个节点输出的值的平均值和协方差。
7.根据权利要求6所述的方法,其中,执行所述域自适应包括:基于所述源域的第一样式特征和所述目标域的第二样式特征,通过白化和着色变换WCT过程来执行所述样式信息与所述源域的第一样式特征的所述样式匹配。
8.根据权利要求1所述的方法,其中,执行所述域自适应包括:
响应于接收到包括所述输入数据在内的多个输入数据,确定从所接收的多个输入数据中提取的第二样式特征的代表性样式特征;以及
通过基于所述源域的第一样式特征和所述代表性样式特征对所述多个输入数据进行样式匹配,来执行所述输入数据的域自适应。
9.根据权利要求1所述的方法,其中,提取所述第二样式特征包括:
对所接收的输入数据进行采样;
通过将所采样的接收的输入数据应用于所述神经网络来提取与包括在所述神经网络中的多个层相对应的第二特征;以及
通过计算所提取的第二特征的第二统计值来提取所述第二样式特征。
10.根据权利要求1所述的方法,其中,所述源域的第一样式特征包括第一统计值,所述第一统计值是基于通过将所述源域的采样数据应用于所述神经网络而提取的第一特征所计算出的。
11.根据权利要求1所述的方法,其中,所述源域包括多个域,并且
所述源域的第一样式特征包括第三统计值,所述第三统计值是基于通过将针对所述多个域的每个标签而采样的批量应用于所述神经网络而提取的第一特征所计算出的。
12.根据权利要求1所述的方法,其中,所述神经网络被配置为执行期望的预定操作,并且
所述期望的预定操作包括图像识别、语音识别、生物特征信号识别和图像分割中的任何一种或任何组合。
13.根据权利要求1所述的方法,其中,所接收的输入数据包括语音数据、图像数据和生物特征信号数据中的任何一种或任何组合。
14.一种存储指令的非暂时性计算机可读存储介质,所述指令在由处理器执行时使所述处理器执行根据权利要求1所述的操作方法。
15.根据权利要求1所述的方法,还包括基于语音数据、图像数据和生物特征信号数据中的一种或任何组合来训练所述神经网络。
16.一种处理器实现的神经网络方法,所述训练方法包括:
获得要在多个域中训练的神经网络;
使用所述神经网络从所述多个域中的第一域的训练数据中提取所述第一域的样式特征;
通过基于与所述多个域相对应的代表性样式特征和所述第一域的样式特征对所述训练数据执行样式匹配,来执行所述训练数据的域自适应;
使用所述神经网络来处理经样式匹配的训练数据;以及
基于所述处理的结果和所述训练数据的基本事实,来训练所述神经网络和所述代表性样式特征。
17.根据权利要求16所述的方法,其中,所述提取包括:
从所述神经网络中包括的多个层中的至少一层中提取与所述训练数据相对应的样式信息;以及
基于所述样式信息来确定所述第一域的样式特征。
18.根据权利要求17所述的方法,其中,执行所述域自适应包括:执行所述第一域的样式特征与所述代表性样式特征的样式匹配。
19.根据权利要求16所述的方法,其中,所述代表性样式特征包括从包括在相应层中的多个节点输出的值的平均值和方差。
20.根据权利要求19所述的方法,其中,执行所述域自适应包括:基于所述代表性样式特征和所述第一域的样式特征,通过自适应实例归一化AIN来执行所述第一域的样式特征与所述代表性样式特征的样式匹配。
21.根据权利要求17所述的方法,其中,提取所述第一域的样式特征包括:
通过将所述第一域的训练数据应用于所述神经网络,来提取与包括在所述神经网络中的多个层相对应的特征;以及
通过计算所述特征的统计值来提取所述第一域的样式特征。
22.根据权利要求16所述的方法,其中,所述处理经样式匹配的训练数据包括:使用所述经样式匹配的训练数据来执行所述神经网络的期望的预定操作。
23.根据权利要求22所述的方法,其中,所述期望的预定操作包括图像识别、语音识别、生物特征信号识别和图像分割中的任何一种或任何组合。
24.根据权利要求16所述的方法,其中,所述训练包括:基于根据所述处理的结果和所述训练数据的基本事实而计算出的损失,来训练所述神经网络和所述代表性样式特征。
25.根据权利要求16所述的方法,其中,所述训练数据包括语音数据、图像数据和生物特征信号数据中的任何一种或任何组合。
26.一种神经网络装置,包括:
处理器,被配置为:使用在源域中预训练的神经网络从目标域的输入数据中提取所述目标域的第二样式特征,通过基于第一源域的第一样式特征和所述第二样式特征对所述输入数据进行样式匹配来执行所述输入数据的域自适应,以及使用所述神经网络来处理经样式匹配的输入数据。
27.根据权利要求26所述的装置,其中,所述处理器还被配置为:
从所述神经网络的多个层中的至少一层中提取与所述输入数据相对应的样式信息,以及
基于所述样式信息来确定所述目标域的第二样式特征。
28.根据权利要求27所述的装置,其中,所述处理器还被配置为:执行与所述目标域的第二样式特征相对应的样式信息与所述源域的第一样式特征的样式匹配。
29.根据权利要求28所述的装置,其中,所述样式信息包括从包括在所述神经网络的相应层中的多个节点输出的值的平均值和方差。
30.根据权利要求29所述的装置,其中,所述处理器还被配置为:基于所述源域的第一样式特征和所述目标域的第二样式特征,通过自适应实例归一化AIN来执行所述样式信息与所述源域的第一样式特征的样式匹配。
31.根据权利要求28所述的装置,其中,所述样式信息包括从包括在相应层中的多个节点输出的值的平均值和协方差。
32.根据权利要求31所述的装置,其中,所述处理器还被配置为:基于所述源域的第一样式特征和所述目标域的第二样式特征,通过白化和着色变换WCT来执行所述样式信息与所述源域的第一样式特征的样式匹配。
33.根据权利要求26所述的装置,其中,所述处理器还被配置为:
响应于接收到包括所述输入数据在内的多个输入数据,确定从所述多个输入数据中提取的第二样式特征的代表性样式特征;以及
通过基于所述源域的第一样式特征和所述代表性样式特征对所述输入数据进行样式匹配,来执行所述多个输入数据的域自适应。
34.根据权利要求26所述的装置,其中,所述处理器还被配置为:
对所述输入数据进行采样,
通过将所采样的输入数据应用于所述神经网络来提取与所述神经网络的多个层相对应的第二特征,以及
通过计算所提取的第二特征的第二统计值来提取所述第二样式特征。
35.根据权利要求26所述的装置,其中,所述源域的第一样式特征包括第一统计值,所述第一统计值是基于通过将所述源域的采样数据应用于所述神经网络而提取的第一特征所计算出的。
36.根据权利要求26所述的装置,其中,所述源域包括多个域,并且
所述源域的第一样式特征包括第三统计值,所述第三统计值是基于通过将针对所述多个域的每个标签而采样的批量应用于所述神经网络而提取的第一特征所计算出的。
37.根据权利要求26所述的装置,其中,所述神经网络被配置为执行期望的预定操作,以及
所述期望的预定操作包括图像识别、语音识别、生物特征信号识别和图像分割中的任何一种或任何组合。
38.根据权利要求26所述的装置,其中,所述输入数据包括语音数据、图像数据和生物特征信号数据中的任何一种或任何组合。
39.根据权利要求26所述的装置,还包括接口,所述接口被配置为接收源域的第一样式特征和目标域的输入数据。
40.一种处理器实现的神经网络方法,包括:
使用特征编码器从训练数据中提取预定域的样式特征;
通过基于与多个域相对应的代表性样式特征和所述预定域的样式特征对所述训练数据执行样式匹配,来执行所述训练数据的域自适应;以及
基于计算出的损失和所述训练数据的基本事实,来训练所述神经网络和所述代表性样式特征。
41.根据权利要求40所述的方法,其中,所述训练数据包括语音数据、图像数据和生物特征信号数据中的一种或多种。
42.根据权利要求40所述的方法,还包括:基于所述代表性样式特征和所述预定域的样式特征,通过自适应实例归一化AIN来执行所述预定域的样式特征与所述代表性样式特征的样式匹配。
43.根据权利要求40所述的方法,其中,在不重新训练所述神经网络的一个或多个部分的情况下执行所述域自适应。
44.一种处理器实现的方法,包括:
接收目标域图像;
从所接收的目标域图像中提取所述目标域的样式特征;
将所提取的目标域的样式特征与源域的特征进行匹配;以及
输出所述匹配的结果。
45.根据权利要求44所述的方法,还包括使用已经在所述源域中预训练的神经网络来提取所述目标域的样式特征。
46.根据权利要求44所述的方法,其中,所述匹配包括:从所述目标域图像去除所述目标域的样式特征,并且将所述源域的样式特征添加到所述目标域。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190165774A KR20210074748A (ko) | 2019-12-12 | 2019-12-12 | 도메인 적응에 기반한 네트워크의 트레이닝 방법, 동작 방법 및 동작 장치 |
KR10-2019-0165774 | 2019-12-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112990427A true CN112990427A (zh) | 2021-06-18 |
Family
ID=72885449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011468409.8A Pending CN112990427A (zh) | 2019-12-12 | 2020-12-14 | 域自适应的神经网络实现的装置和方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11574198B2 (zh) |
EP (1) | EP3836029A1 (zh) |
KR (1) | KR20210074748A (zh) |
CN (1) | CN112990427A (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7414531B2 (ja) * | 2020-01-06 | 2024-01-16 | 株式会社東芝 | 学習装置、学習方法及びプログラム |
CN115552477A (zh) * | 2020-05-01 | 2022-12-30 | 奇跃公司 | 采用施加的分层归一化的图像描述符网络 |
US20220121931A1 (en) | 2020-10-16 | 2022-04-21 | Adobe Inc. | Direct regression encoder architecture and training |
KR102620790B1 (ko) * | 2021-07-09 | 2024-01-05 | 한국과학기술원 | 적응적 인스턴스 정규화 기반 흉부 방사선 영상 분할 방법 및 그 장치 |
KR102641358B1 (ko) * | 2021-11-01 | 2024-02-27 | 재단법인대구경북과학기술원 | 이미지 도메인 적응 장치 및 방법 |
US20230177692A1 (en) * | 2021-12-06 | 2023-06-08 | City University Of Hong Kong | Unsupervised Domain Adaptive Model for 3D Prostate Zonal Segmentation |
CN116363421A (zh) * | 2023-03-15 | 2023-06-30 | 北京邮电大学 | 图像的特征分类方法、装置、电子设备及介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9026425B2 (en) | 2012-08-28 | 2015-05-05 | Xerox Corporation | Lexical and phrasal feature domain adaptation in statistical machine translation |
US9984315B2 (en) | 2015-05-05 | 2018-05-29 | Condurent Business Services, LLC | Online domain adaptation for multi-object tracking |
US10068171B2 (en) | 2015-11-12 | 2018-09-04 | Conduent Business Services, Llc | Multi-layer fusion in a convolutional neural network for image classification |
US9916542B2 (en) | 2016-02-02 | 2018-03-13 | Xerox Corporation | Domain adaptation by multi-noising stacked marginalized denoising encoders |
JP6771645B2 (ja) * | 2016-07-28 | 2020-10-21 | グーグル エルエルシー | ドメイン分離ニューラルネットワーク |
WO2018042388A1 (en) * | 2016-09-02 | 2018-03-08 | Artomatix Ltd. | Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures |
US10318889B2 (en) | 2017-06-26 | 2019-06-11 | Konica Minolta Laboratory U.S.A., Inc. | Targeted data augmentation using neural style transfer |
US10497257B2 (en) | 2017-08-31 | 2019-12-03 | Nec Corporation | Parking lot surveillance with viewpoint invariant object recognition by synthesization and domain adaptation |
KR20190041790A (ko) * | 2017-10-13 | 2019-04-23 | 한국전자통신연구원 | 신경망 번역 모델 구축 장치 및 방법 |
US11556777B2 (en) * | 2017-11-15 | 2023-01-17 | Uatc, Llc | Continuous convolution and fusion in neural networks |
KR102058657B1 (ko) | 2017-12-11 | 2019-12-23 | 주식회사 엘솔루 | 자동 음성인식 시스템 및 이의 도메인 적응 방법 |
CN109902798A (zh) * | 2018-05-31 | 2019-06-18 | 华为技术有限公司 | 深度神经网络的训练方法和装置 |
CN109523526B (zh) * | 2018-11-08 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 组织结节检测及其模型训练方法、装置、设备和系统 |
KR102097294B1 (ko) * | 2019-07-19 | 2020-04-06 | (주)지와이네트웍스 | 화염 판단을 위한 신경망 모델의 학습 및 검출 방법, 및 이를 수행하는 장치 |
CN110555273B (zh) * | 2019-09-05 | 2023-03-24 | 苏州大学 | 基于隐马尔科夫模型和迁移学习的轴承寿命预测方法 |
KR20220101659A (ko) * | 2019-11-15 | 2022-07-19 | 스냅 인코포레이티드 | 표면 기반 신경 합성을 사용한 이미지 생성 |
EP3872695A1 (en) * | 2020-02-28 | 2021-09-01 | Toyota Jidosha Kabushiki Kaisha | A method and system of adapting an initial model of a neural network |
-
2019
- 2019-12-12 KR KR1020190165774A patent/KR20210074748A/ko active Search and Examination
-
2020
- 2020-06-25 US US16/911,784 patent/US11574198B2/en active Active
- 2020-10-14 EP EP20201833.9A patent/EP3836029A1/en active Pending
- 2020-12-14 CN CN202011468409.8A patent/CN112990427A/zh active Pending
-
2023
- 2023-01-31 US US18/103,887 patent/US20230177340A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP3836029A1 (en) | 2021-06-16 |
US11574198B2 (en) | 2023-02-07 |
US20230177340A1 (en) | 2023-06-08 |
US20210182687A1 (en) | 2021-06-17 |
KR20210074748A (ko) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112990427A (zh) | 域自适应的神经网络实现的装置和方法 | |
US20220335284A1 (en) | Apparatus and method with neural network | |
KR102068576B1 (ko) | 합성곱 신경망 기반 이미지 처리 시스템 및 방법 | |
US11836610B2 (en) | Concurrent training of functional subnetworks of a neural network | |
CN108121995B (zh) | 用于识别对象的方法和设备 | |
CN105631398B (zh) | 识别对象的方法和设备以及训练识别器的方法和设备 | |
US11836603B2 (en) | Neural network method and apparatus with parameter quantization | |
CN108681746B (zh) | 一种图像识别方法、装置、电子设备和计算机可读介质 | |
US10892050B2 (en) | Deep image classification of medical images | |
KR102338372B1 (ko) | 영상으로부터 객체를 분할하는 방법 및 장치 | |
KR102410820B1 (ko) | 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치 | |
Carlucci et al. | Just dial: Domain alignment layers for unsupervised domain adaptation | |
US20180157892A1 (en) | Eye detection method and apparatus | |
WO2018081537A1 (en) | Method and system for image segmentation using controlled feedback | |
EP3792840A1 (en) | Neural network method and apparatus | |
KR20160034814A (ko) | 뉴럴 네트워크를 수반한 클라이언트 장치 및 그것을 포함하는 시스템 | |
CN111914908B (zh) | 一种图像识别模型训练方法、图像识别方法及相关设备 | |
US20210182670A1 (en) | Method and apparatus with training verification of neural network between different frameworks | |
US20220198270A1 (en) | Neural network model training method and apparatus | |
JP2023507248A (ja) | 物体検出および認識のためのシステムおよび方法 | |
CN112668381A (zh) | 用于识别图像的方法和设备 | |
CN114819050A (zh) | 训练用于图像识别的神经网络的方法和设备 | |
CN112529068A (zh) | 一种多视图图像分类方法、系统、计算机设备和存储介质 | |
CN112819151A (zh) | 用于识别图像的方法和设备以及训练方法 | |
CN115861675A (zh) | 对象分类方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |