CN110914834A - 用于图像变型和识别的神经风格迁移 - Google Patents
用于图像变型和识别的神经风格迁移 Download PDFInfo
- Publication number
- CN110914834A CN110914834A CN201880047534.6A CN201880047534A CN110914834A CN 110914834 A CN110914834 A CN 110914834A CN 201880047534 A CN201880047534 A CN 201880047534A CN 110914834 A CN110914834 A CN 110914834A
- Authority
- CN
- China
- Prior art keywords
- image
- style
- neural network
- images
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013508 migration Methods 0.000 title claims abstract description 85
- 230000005012 migration Effects 0.000 title claims abstract description 85
- 238000012986 modification Methods 0.000 title description 9
- 230000004048 modification Effects 0.000 title description 9
- 230000001537 neural effect Effects 0.000 title description 5
- 238000000034 method Methods 0.000 claims abstract description 121
- 238000013528 artificial neural network Methods 0.000 claims abstract description 114
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000010801 machine learning Methods 0.000 claims abstract description 56
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000005259 measurement Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000003064 k means clustering Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000000428 dust Substances 0.000 description 2
- 230000004313 glare Effects 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/772—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
- G06T7/41—Analysis of texture based on statistical description of texture
- G06T7/45—Analysis of texture based on statistical description of texture using co-occurrence matrix computation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本发明提供了用于图像识别的系统和方法。为每个真实图像训练风格迁移神经网络以获得经训练的风格迁移神经网络。经由经训练的风格迁移神经网络将真实图像的纹理或风格特征迁移至目标图像,以生成用于训练图像识别机器学习模型(例如神经网络)的风格化的图像。在一些情况下,真实图像是聚类的,并且从聚类中选择代表性的风格图像。
Description
技术领域
本公开涉及用于经由神经风格迁移进行图像变型的方法和系统,这些方法和系统可以用于改善图像识别系统的性能。
背景技术
深度学习已广泛用于图像识别。例如,分类机器学习模型(例如,神经网络)可以被训练用于通过向模型馈送许多图像来识别对象。通常,图像需要用相应的内容物(例如,图像中待识别的对象,例如字母、数字、标号、符号、字符等)标记。
发明内容
在众多行业和应用中,期望对图像进行变型以训练图像识别机器学习算法/模型(例如,神经网络)。本公开提供了用于经由神经风格迁移进行图像变型的方法和系统,这些方法和系统可以用于改善经由图像识别机器学习算法/模型进行的图像识别。
简而言之,在一个方面,本公开描述了一种计算机实施的方法,该方法包括向处理器提供多个数字图像。每个数字图像包括待识别的对象以及反映在其下获取对象的图像的真实世界条件的纹理或风格特征。该方法还包括根据图像的纹理或风格特征经由处理器将多个数字图像聚类成不同的群组,每个群组包括具有相似纹理或风格特征的数字图像中的一个或多个;经由所述处理器从图像的每个群组中选择一个或多个代表性风格图像;经由处理器来训练用于代表性风格图像中的至少一个的风格迁移神经网络,以获得经训练的风格迁移神经网络;经由经训练的风格迁移神经网络将纹理或风格特征从代表性图像中的至少一个迁移到目标图像以生成风格化的图像;以及使用风格化图像来训练图像识别机器学习模型。
在另一方面,本发明描述了一种图像识别系统,该图像识别系统包括被配置为接收多个数字图像的处理器,每个数字图像包括待识别的对象以及反映在其下获取对象的图像的真实世界条件的纹理或风格特征;根据所述图像的所述纹理或风格特征将所述多个数字图像聚类成不同的群组,每个群组包括具有相似纹理或风格特征的所述数字图像中的至少一些;从图像的每个群组中选择一个或多个代表性风格图像;以及训练用于代表性风格图像中的至少一个的风格迁移神经网络,以获得一个或多个经训练的风格迁移神经网络。在一些实施方案中,处理器可以进一步被配置为经由经训练的风格迁移神经网络将纹理或风格特征从每个代表性图像迁移到目标图像以生成风格化的图像;以及使用风格化的图像来训练图像识别机器学习模型。
在本公开的示例性实施方案中获取了各种优点。本公开的示例性实施方案的一个这样的优点是,可以为图像识别机器学习模型生成经变型的图像。经变型的图像可以反映在其下获取待识别对象的图像的广泛的真实世界条件,这可以显著改善图像识别机器学习模型的性能。
已总结本公开的示例性实施方案的各种方面和优点。上面的发明内容并非旨在描述本公开的当前某些示例性实施方案的每个例示的实施方案或每种实施方式。下面的附图和具体实施方式更具体地举例说明了使用本文所公开的原理的某些优选实施方案。
附图说明
结合附图考虑本公开的各种实施方案的以下详细描述可更全面地理解本公开,其中:
图1是根据一个实施方案的图像识别的方法的示意图。
图1’示出了根据一个实施方案的关于如何将一组训练示例分成子群组并评估和选择子群组的方法的示意图。
图2是根据一个实施方案的用于训练图像识别神经网络的方法的流程图。
图3示出了根据一个实施方案的对真实世界图像进行聚类并从中选择代表性风格图像的流程图。
图4示出根据一个实施方案的示例性格拉姆矩阵。
图5示出了根据一个实施方案的示例性的五个真实图像聚类。
图6A示出了根据一个实施方案的示例性真实图像的2D聚类。
图6B示出了选自图6A的相应聚类的代表性图像。
图7示出了根据一个实施方案的图像识别系统。
在附图中,相似的附图标号指示相似的元件。虽然可能未按比例绘制的以上附图示出了本公开的各种实施方案,但还可以设想其它实施方案,如在具体实施方式中所指出。在所有情况下,本公开以示例性实施方案的表示的方式而非通过表述限制来描述当前所公开的公开内容。应当理解,本领域的技术人员可想出许多其它修改和实施方案,这些修改和实施方案落在本公开的范围和实质内。
具体实施方式
在众多行业和应用中,期望对图像进行变型以训练图像识别机器学习模型。本公开提供了用于通过经由神经风格迁移进行图像变型的方法和系统,这些方法和系统可以用于改善通过图像识别机器学习模型进行的图像识别。在本公开的一些实施方案中,可以经由经训练的风格迁移神经网络将纹理或风格特征从代表性风格图像迁移至目标图像以生成风格化的图像来获得经变型的图像。经变型的图像可以反映在其下获取待识别对象的图像的广泛的真实世界条件,这可以显著改善在实际使用的图像识别机器学习模型的性能。
在本公开中,术语“图像识别机器学习模型”可以指的是可以通过为图像识别的应用馈送训练图像来训练的监督机器学习模型。本文使用的机器学习模型可以包括例如概率模型(例如朴素贝叶斯模型、贝叶斯网络等)、功能模型(例如,神经网络、支持向量网络等)、决策树(例如,C4.5算法、随机森林方法等)、规则学习者(例如cAnt矿工、JRip),或者可能属于任何其他机器学习范例。在一些实施方案中,图像识别机器学习模型可以包括一个或多个神经网络,例如,分类深度卷积神经网络。
图1示出了根据一个实施方案的用于图像识别的计算机实施的方法100的示意图。常规地,140处的训练图像被直接馈送到160处的图像识别机器学习模型中,用于训练图像识别机器学习模型以获得170处的经训练的图像识别机器学习模型。图像识别机器学习模型可以是(例如)分类深度卷积神经网络。本领域已知如何使用深度卷积神经网络对图像进行分类。任何合适的分类深度卷积神经网络可以用于本文的图像识别。
140处的训练图像可以由计算机人工合成,该计算机包含与要被170处的经训练的图像识别机器学习模型识别的目标内容或对象类似的内容或对象。训练图像可以通过随机地组合字符、字体、徽标等来生成。可以通过添加噪声、模糊、歪斜、斑点等来进一步修改生成的图像,以模拟在现实世界条件下捕获的图像。该常规图像识别机构需要用图像的内容将每个训练图像标记为地面真值。当将训练图像馈送到图像识别机器学习模型时,算法可以调节网络的节点之间的权重以实现与地面真值的日益一致以提供输出。为了使权重值尽可能接近地收敛至对于正确图像识别来说最佳的值,需要这样的地面真值。而且,该常规图像识别机构可能需要大量训练图像(例如,数百万)以实现可靠的性能。此外,可能难以获得代表在系统的使用期间将遇到的一系列条件的完整的训练图像组。常规系统在尚未对其进行训练的识别用例上可能表现不佳。
在本公开的一些实施方案中,可能需要显著更少的训练图像来实现可比的可靠性能。在馈送到160处的图像识别机器学习模型之前,可以首先对更少的训练图像进行变型以覆盖各种真实世界条件。此外,经变型的图像可以继承来自相应的训练图像的地面真值,并且可以不需要将图像的内容添加为地面真值的附加标记步骤。
根据图1的方法100,110处的真实图像可以被馈送到120处的风格迁移神经网络中,用于训练风格迁移神经网络,以获得130处的经训练的风格迁移神经网络。一个真实图像可以包括待识别的对象以及反映在其下获取对象的图像的真实世界条件的纹理或风格特征。真实世界条件可以与例如地理位置、天气状况、照明条件、相机角度、相机设置、对象与相机之间的距离等有关。而真实图像的纹理或风格特征可以是该真实图像的空间不变的特征的汇总统计。在一些实施方案中,纹理特征部可以覆盖整个图像,因此纹理特征部可以是相同的,无论图像中的具体位置如何。相反,图像的内容可以是空间变化的,因为图像的不同区域可以包含不同的内容。待识别的真实图像中的对象可以包括例如字母、数字、标号、符号、字符等中的一个或多个。真实图像可以通过能够记录或捕获图像的任何合适的光学仪器(例如,数字照相机)来获得。在一些实施方案中,真实图像可以由红外(IR)相机系统捕获。当在真实世界条件下获取对象的图像时,所得到的图像可能包含与真实世界条件相关联的纹理或风格特征。
120处的风格迁移神经网络可以包括例如卷积神经网络(CNN)。真实图像的纹理或风格特征可以由格拉姆矩阵表示。通过将具有纹理或风格特征的真实图像馈送到120处的风格迁移神经网络中,可以获得130处的经训练的风格迁移神经网络,这些风格迁移神经网络中的每一个均可以对应于相应的纹理或风格特征。
任选地,可以将115处的自然风格图像馈送到120处的风格迁移神经网络中,用于训练相应的风格迁移神经网络。自然风格图像可以包括反映自然环境的自然纹理,例如泥、雨、眩光、灰尘、铁锈、冰、划痕、水条纹、雪等,这些可能在现实世界中自然地遇到。可以对每个自然风格图像的相应风格迁移神经网络进行训练以获得相应的经训练的风格迁移神经网络。
140处的训练图像可以被馈送到130处的经训练的风格迁移神经网络中,以将纹理或风格特征从110处的真实图像和/或115处的自然风格图像迁移到140处的训练图像,从而生成150处的风格化的图像。
在一些实施方案中,110处的真实图像和/或115处的自然风格图像可以被指定为风格图像,并且通过120处的深度卷积神经网络的层进行处理以生成图像的风格特征的数学表示,其可被存储为130处的经训练的风格迁移神经网络。
在一些实施方案中,140处的训练图像可以被指定为内容图像并且通过120处的相同的深度卷积神经网络的层进行处理,以生成图像的内容的数学表示。风格和内容的数学表示可以以一定比例组合,以产生所期望的输出图像的单个数学表示,例如,150处的风格化的图像。在例如WO2017/021322A1中描述了用于将源图像的纹理迁移到目标图像的对象的计算机实施的方法,该文献以引用方式并入本文。
根据图1的方法100,150处的风格化的图像被馈送到160处的图像识别机器学习模型中,用于训练图像识别机器学习模型以获得170处的经训练的图像识别机器学习模型。在一些实施方案中,140处的训练图像中的至少一些可以与150处的风格化的图像一起被馈送到160处的图像识别机器学习模型中,用于训练图像识别机器学习模型以获得170处的经训练的图像识别机器学习模型。
在获得170处的经训练的图像识别机器学习模型之后,180处的测试图像可以用于评估190处的经训练的图像识别机器学习模型的性能。基于评估的结果,可以选择具有更好的性能的经训练的风格迁移神经网络。也就是说,在一些实施方案中,可以选择更有效的经训练的风格迁移神经网络中的一些以生成用于训练160处的图像识别神经网络的150处的风格化的图像。
在本公开中,包括140处的训练图像中的一个或多个和150处的风格化的图像的训练示例或数据可以用于训练160处的图像识别机器学习模型。对于给定的一组训练示例或数据,对于给定的图像识别的任务,一些训练示例可能比其他训练示例更有益。从一些训练示例中了解到的知识(表示)可能是多余的和最不相关的。将160处的图像识别神经网络的训练集中在最相关的训练示例上,同时从训练组中消除冗余且不相关的训练示例可能是有帮助的。图1’示出了关于如何将一组训练示例分成子群组并且评估子群组以选择更有效的训练示例的方法190’的示意图。
在一些实施方案中,可以将训练示例或数据基于其共同特性划分为群组。例如,在一些实施方案中,一个这样的分组方法可以基于图像与其相关联的风格;在其他实施方案中,可使用基本k-均值聚类方法将训练示例划分、分组或聚类成不同的子群组或子集。在图1’中示出的实施方案中,基于相关联的风格(包括风格-A、风格-B、风格-C、风格-D等)将一组训练示例192分成不同的子群组。
在一些实施方案中,在将一组训练示例192分成子群组之后,可以针对每个子群组训练对应的图像识别机器学习模型(例如,神经网络)以获得相应的经训练的图像识别机器学习模型(例如,神经网络诸如网络-A、网络-B、网络-C、网络-D等,如图1’的193所示)。
在一些实施方案中,然后可利用验证组194(例如,较小的测试图像组)来评估所有经训练的神经网络(例如,网络-A、网络-B、网络-C、网络-D等,如图1’的193所示)的性能。假设验证组包含用于评估的k个图像,则每个经训练的神经网络的输出可以被表示为kx1维向量。该输出可以针对包含标签的kx1矢量(地面真值,例如,图1’中的标签195’)进行评估。考虑到训练示例被分成h个子群组,可以生成h个此类输出矢量(例如,图1’中的输出矢量195,包括输出矢量A、B、C、D等)。
在一些实施方案中,由于子群组和标签矢量而产生的输出矢量(地面真值)可以被提供为特征子集选择算法196的输入。特征子集选择算法可以是例如基于相关性的特征选择(CFS)算法。CFS算法可以用于基于两个标准来确定预测的输出向量的子集:(a)向量应彼此之间相关性最小,并且(b)它们应当与实际标签高度相关。在图1’的实施方案中,选择输出矢量A、B和D。子集中所选择的向量A、B和D的对应的子群组(例如,风格-A、风格-B和风格-D,如图1’的192’所示)可以在训练过程中使用,而子群组C被认为是冗余的或效率较低的。也就是说,在一些实施方案中,只有一些更有效的经训练的风格迁移神经网络可以用于生成训练图像识别神经网络的风格化的图像。
计算机实施的方法100可以首先将训练图像变型以获得风格化的图像,并且然后使用风格化的图像来训练图像识别机器学习模型。一些训练图像可以通过经由经训练的风格迁移神经网络迁移来自真实图像和/或自然风格图像的各种纹理或风格特征来变型,以创建可以覆盖更现实条件的更多种类的训练图像(即,风格化的图像)。
图2示出了根据一个实施方案的用于训练图像识别神经网络的方法200的流程图。在210处,可以将多个数字图像提供给处理器。处理器可执行程序指令(例如,软件指令)以实行本文所述的过程或方法。数字图像可以包括(例如)图1的110处的真实图像。然后,方法200前进至220。
在220处,数字图像可以经由处理器聚类到不同群组中。每个群组可以包括具有相似纹理或风格特征的数字图像中的一个或多个。在一些情况下,相似的纹理或风格特征可以源自在其下获取图像的类似的真实世界条件。然后,方法200前进至230。
在230处,可以从每个群组中选择一个或多个代表性风格图像。在一些实施方案中,代表性风格图像可以位于每个群组的聚类中心处。图3中进一步示出了对图像进行聚类并选择代表性风格图像的示例性方法,并且在下文中对其进一步进行描述。然后,方法200前进至240。
在240处,对于每个代表性风格图像,可以训练风格迁移神经网络以获得相应的经训练的风格迁移神经网络。可以训练风格迁移神经网络如何将代表性风格图像的风格特征迁移到目标图像。训练风格迁移神经网络的输出可以是用于从代表性风格图像中提取的每种风格或纹理特征的神经网络模型。在一些实施方案中,输出可以被存储在例如图7的存储器714中。通过使用代表性风格图像的风格迁移神经网络的此类预训练可以离线进行,并且可以存储并调用输出以供任何实时应用(例如,基于机器学习模型的图像识别应用)使用。然后,方法200前进至245或250。
任选地,在245处,可以经由复用器选择一个或多个代表性风格图像。对应的风格或纹理特征可以根据(例如)相对应的聚类的尺寸和/或用户定义的风格或纹理特征的概率分布来选择。复用器可以控制待迁移的风格或纹理(例如,从风格图像到目标图像)。例如,可以经由复用器选择表示较大聚类的第一风格或纹理,以便比表示较小聚类的第二风格或纹理更频繁地使用。然后,方法200前进至250。
在250处,可以经由经训练的风格迁移神经网络将风格或纹理特征从每个代表性风格图像迁移到目标图像以生成风格化的图像。目标图像可以包括图1的130处的训练图像中的一个或多个。在一些实施方案中,可以实时生成风格化图像。这可以通过预训练风格迁移神经网络并存储可以被调用以实时生成风格化的图像的输出(例如,经训练的风格迁移神经网络)来实现。然后,方法200前进至260。
在260处,使用风格化的图像来训练图像识别机器学习模型,诸如,图1的160处的图像识别机器学习模型。
使用真实图像训练风格迁移神经网络的过程可能是耗时的,尤其是当存在许多真实图像时。在一些情况下,一些真实图像在风格或纹理特征方面可能彼此相似。本公开发现,少量真实图像可以举例说明存在于大型真实图像数据集中的多种纹理。
图3示出了根据一个实施方案的用于对真实图像进行聚类并从中选择代表性风格图像的方法300的流程图。在310处,向多层神经网络提供多个数字图像。多层神经网络可以被用于从代表性图像中提取纹理或风格特征。多层神经网络可以包括例如视觉几何组(VGG)网络。然后,方法300前进至320。
在320处,每个真实图像的总体纹理或风格特征可以经由多层神经网络被分解成格拉姆矩阵。在一些实施方案中,神经网络(例如,VGG网络)中的每一层具有一个格拉姆矩阵。图像之间的相似性可以发现于每个层处的格拉姆矩阵内。例如,在VGG网络的每一层中,可以存在若干特征图。每个层的格拉姆矩阵是特征图之间的相关性矩阵。对于示例性的5层VGG网络,第一层可以具有64个图,第二层可以具有128个图,第三层可以具有256个图,依此类推。在一些实施方案中,神经网络的第一层可以挑选基本结构(例如,线),这对于从真实图像中提取纹理或风格特征来说可能是足够好的。图4通过分解真实图像的整体纹理或风格特征示出了示例性的格拉姆矩阵。
在一些实施方案中,格拉姆矩阵可以计算如下:G=FTF,其中,G为对称的半正定矩阵。每个层的格拉姆矩阵的维度可以是(图的数量x图的数量)(例如64×64、128×128等)。格拉姆矩阵对一些图像空间转换(诸如,移位或图像修剪)可以是不变的,但可以取决于风格和/或VGG网络权重,并且格拉姆矩阵对图像旋转或缩放变换可以不是不变的。然后,方法300前进至330。
在330处,基于格拉姆矩阵将图像聚类成群组。真实图像的风格特征之间的相似性或相异性可以基于格拉姆矩阵来定义。此类相似性或非相似性可以通过不同格拉姆矩阵之间的距离来测量。在一些实施方案中,可以使用基于质心的聚类方法,例如,K-均值或K-均值++聚类方法。可以使用其他基于质心的聚类技术,例如:k-medoids聚类,k-medians聚类等。基于质心的聚类方法的另选方案可以包括例如基于密度的聚类(例如DBSCAN方法)、基于分布的聚类(例如,高斯混合模型)等。
在一些实施方案中,可以通过使用不同的聚类方法或它们的组合来重复聚类的步骤330。在一些实施方案中,可以使用余弦角度来计算格拉姆矩阵之间的距离作为距离测量值。可以针对每个图像获得余弦角度。应当理解,距离可以使用其他合适的方法(例如,Frobinius距离测量)来计算。可以基于图像的纹理或风格特征之间的相似性或相异性对图像进行聚类,如由在深度神经网络的多个层中提取的特征的格拉姆矩阵所编码的那样。
图5示出了使用其中k=5的K-均值聚类方法和余弦角距离度量(例如,仅使用来自VGG网络的第一层格拉姆矩阵)被聚类成五个不同群组a)通过e)的示例性真实图像。图5中的真实图像的集合被聚类为明显粘性的群组a)至e)。群组b)和d)中的图像通常色度较亮且对比度较高,而群组a)、c)和e)中的图像通常色度较暗并且对比度较低。然后,方法300前进至340或350。
任选地,在340处,可以通过流形学习方法将群组的维度减小为2D聚类。群组中的真实图像的变化和分布可以通过维数减少技术(例如,流形学习方法)来可视化。通过使用流形学习方法,可以在2D聚类中示出图像的群组。以这样的方式,可以通过简单地查看图像的聚类来了解每个聚类的特性和内聚性。合适的流形学习方法可以包括例如ISO-图流形学习方法、t-SNE流形学习方法、MDS流形学习方法、光谱嵌入流形学习方法和局部线性嵌入流形学习方法等。图6A示出了通过流形学习方法可视化的示例性2D图像聚类。如图6A所示,通过t-SNE流形学习方法将许多真实图像投影到2D平面上并将其分组为15个2D聚类。15个聚类在视觉上是不同的且是内聚的,这通过分隔不同聚类的空格来证明。然后,方法300前进至350。
在350处,可以从每个群组中选择代表性风格图像。在一些实施方案中,代表性风格图像可以位于最靠近各个聚类的计算中心。图6B示出了选自图6A的相应的14个聚类的14个代表性风格图像。选择位于最靠近相应聚类中心的图像作为代表性风格图像。
图7示出了根据一些实施方案的用于通过实施本文描述的计算机实施的方法中的任何一个(例如,方法100、200和300中的一个或多个)来进行图像识别的图像识别系统700。系统700包括测量组件724、计算组件726以及一个或多个输入/输出设备716。
测量组件724被配置为捕获待识别的对象的一个或多个真实图像。测量组件724可以是用于捕获图像的各种相机。在一些实施方案中,测量组件724可以包括例如移动电话的数码相机、红外相机等。
在图7的实施方案中,计算组件726包括处理器712和存储器714。计算组件726功能性地连接到测量组件924(例如,数字相机),并且从测量组件724接收与所捕获的图像相关的信号。根据一些实施方案,处理器712然后可以通过运行呈任何合适的编程语言(例如,Python)的计算机程序,通过实施方法100、200和300中的一个或多个来处理数字图像,以获得经训练的风格迁移神经网络。
经训练的风格迁移神经网络可以被存储在存储器714中。在一些实施方案中,存储器714可以具有数据文件,以存储训练风格迁移神经网络的输出、以及图像相关的数据,包括例如所有捕获的真实图像和图像的元数据。
根据一些实施方案,利用经训练的风格迁移神经网络,处理器712可以经由训练风格迁移神经网络进一步将风格特征从每个代表性风格图像迁移至目标图像以生成风格化的图像。风格化的图像可以用于训练图像识别机器学习模型以获得经训练的图像识别机器学习模型。
在一些实施方案中,当要识别对象(在载体表面上的字母、数字、标号、符号或字符或它们的组合)时,对象的一个或多个图像可以由测量组件724(例如,数字相机)测量。计算组件726可以从测量组件724接收与对象的图像相关的信号,并处理这些信号。处理器712可以将图像馈送到经训练的图像识别机器学习模型中以用于图像识别。
在一些实施方案中,测量组件724可以是可以在现场工作的移动设备(例如,移动电话)的数字相机。测量组件724可以通过发送和接收信号与远程计算设备(例如计算组件726)进行无线通信。计算组件726可以与例如计算机、服务器、移动电话等集成。计算组件726可以调用经训练的图像识别机器学习模型来运行来自测量组件724的数据,并将识别信息发送到输入/输出设备716以在其上进行显示。
存储器714存储信息。在一些实施方案中,存储器714可以存储用于执行本文所述的方法或过程的指令。在一些实施方案中,计算机视觉特征数据、未训练的图像识别机器学习模型数据和经训练的图像识别机器学习模型数据可以被预存储在存储器714中。
存储器714可以包括任何易失性或非易失性存储元件。示例可包括随机存取存储器(RAM)(诸如同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦可编程只读存储器(EEPROM)和闪存。示例还可以包括硬盘、磁带、磁或光数据存储介质、光盘(CD)、数字通用盘(DVD)、蓝光盘和全息数据存储介质。
处理器712可以包括例如一个或多个通用微处理器、专门设计的处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑的集合和/或能够执行本文所述技术的任何类型的处理设备。在一些实施方案中,处理器712(或本文所述的任何其他处理器)可以被描述为计算设备。在一些实施方案中,存储器714可以被配置为存储由处理器712执行以进行本文所述的过程或方法的程序指令(例如,软件指令)。在其他实施方案中,本文所述的过程或方法可以由处理器712的专门编程的电路来执行。在一些实施方案中,处理器712因此可以被配置为执行本文描述的用于图像变型和图像识别的技术。处理器712(或本文所述的任何其他处理器)可以包括一个或多个处理器。
输入/输出设备716可以包括被配置为从用户或其他设备输入或向用户或其他设备输出信息的一个或多个设备。在一些实施方案中,输入/输出设备716可以呈现图形用户界面(GUI)718,其中用户可以控制用于图像变型和图像识别的过程。例如,GUI 718可以包括用于向用户呈现视觉信息的显示屏。在一些实施方案中,显示屏包括触敏显示器。在一些实施方案中,GUI 718可以包括用于向用户呈现信息的一个或多个不同类型的设备。GUI718可以包括例如任何数量的视觉(例如,显示设备、灯等)反馈设备、听觉(例如,一个或多个扬声器)反馈设备和/或触觉(例如,键盘、触摸屏或鼠标)反馈设备。在一些实施方案中,输入/输出设备716可以表示显示屏(例如,液晶显示器或发光二极管显示器)和/或打印机(例如,印刷设备或用于将指令输出到印刷设备的组件)中的一个或多个。在一些实施方案中,输入/输出设备716可以被配置为接受或接收由处理器712执行以进行本文所述的实施方案的程序指令(例如,软件指令)。
系统700还可以包括其他组件,并且包括处理器712、存储器714和输入/输出设备716在内的所示组件中的任一个的功能可以分布在多个组件和独立设备(例如计算机)上。系统700可以被配置为工作站、台式计算装置、笔记本电脑、平板电脑、移动计算装置或任何其他合适的计算装置或计算装置的集合。系统700可以在本地网络上工作或被收集到本地网络,或者被托管在云计算环境800中。图7所示的组件仅仅是为了解释本公开的各个方面而示出,并且组件的添加或移除对于本领域技术人员将是显而易见的。
示例性实施方案列表
以下列出示例性实施方案。应当理解,可以组合实施方案1至27以及实施方案28至35中的任一项。
实施方案1是一种计算机实施的方法,方法包括:
向处理器提供多个数字图像,每个数字图像包括待识别的对象以及反映在其下获取所述对象的图像的真实世界条件的纹理或风格特征;
根据所述图像的所述纹理或风格特征经由所述处理器将所述多个数字图像聚类成不同的群组,每个群组包括具有相似纹理或风格特征的所述数字图像中的一个或多个;
经由所述处理器从图像的每个群组中选择一个或多个代表性风格图像;
经由所述处理器来训练用于所述代表性风格图像中的至少一个的风格迁移神经网络,以获得一个或多个经训练的风格迁移神经网络;
经由所述经训练的风格迁移神经网络将所述纹理或风格特征从每个代表性图像迁移到目标图像以生成风格化的图像;以及
使用所述风格化的图像来训练图像识别机器学习模型。
实施方案2为根据实施方案1的方法,其中对所述风格迁移神经网络进行预训练,并存储所述经训练的风格迁移神经网络以便于调用来使用。
实施方案3为根据实施方案2的方法,其中所述存储的风格迁移神经网络中的至少一个被调用为由实时应用使用。
实施方案4为根据实施方案1-3中任一项的方法,其中所述经训练的风格迁移神经网络各自对应于代表性纹理或风格特征。
实施方案5为根据实施方案1-4中任一项的方法,还包括基于所述对应的数字图像群组的统计选择一个经训练的风格迁移神经网络。
实施方案6为根据实施方案5的方法,还包括经由复用器根据所述群组的尺寸从所述经训练的风格迁移神经网络中选择一个经训练的风格迁移神经网络。
实施方案7为根据实施方案5或6的方法,还包括经由复用器根据所述图像的预先确定的概率分布从所述经训练的风格迁移神经网络中选择一个经训练的风格迁移神经网络。
实施方案8为根据实施方案1-7中任一项的方法,其中对所述多个数字图像进行聚类包括将所述数字图像输入到多层神经网络。
实施方案9为根据实施方案8的方法,还包括经由所述多层神经网络将每个图像的所述纹理或风格特征分解成格拉姆矩阵。
实施方案10为根据实施方案8或9的方法,其中所述多层神经网络包括视觉几何组(VGG)网络。
实施方案11为根据实施方案9或10的方法,其中每个格拉姆矩阵对应于所述多层神经网络的一个层,并且表示每个层中的每个图像的特征图之间的相关性矩阵。
实施方案12为根据实施方案9-11中任一项的方法,其中基于在所述格拉姆矩阵内经由K-均值聚类方法发现的相似性将所述图像聚类成所述群组。
实施方案13为根据实施方案1-12中任一项的方法,还包括计算所述格拉姆矩阵之间的距离。
实施方案14为根据实施方案13的方法,其中使用余弦角度来计算所述距离作为距离测量值。
实施方案15为根据实施方案1-14中任一项的方法,其中选择所述代表性风格图像包括选择每个群组的聚类中心处的所述图像。
实施方案16为根据实施方案1-15中任一项的方法,还包括通过流形学习方法将群组的维度减小为2D聚类。
实施方案17为根据实施方案16的方法,还包括可视化图像的所述2D聚类。
实施方案18为根据实施方案1-17中任一项的方法,还包括提供包括反映所述自然环境的自然纹理的一个或多个自然风格图像,并且训练用于每个自然风格图像的所述风格迁移神经网络以获得所述相应的经训练的风格迁移神经网络。
实施方案19为根据实施方案1-18中任一项的方法,还包括评估所述图像识别机器学习模型的性能。
实施方案20为实施方案19的方法,还包括基于所述评估来选择所述经训练的风格迁移神经网络。
实施方案21为根据实施方案18-20中任一项的方法,其中所述自然环境包括泥、雨、眩光、灰尘、铁锈、冰、划痕、水条纹或雪。
实施方案22为根据实施方案1-21中任一项的方法,其中所述待识别的对象包括字母、数字、标号、符号和字符中的一个或多个。
实施方案23为根据实施方案1-22中任一项的方法,还包括评估所述图像识别机器学习模型的训练。
实施方案24为根据实施方案23的方法,还包括将所述风格化的图像划分成子群组。
实施方案25为根据实施方案24的方法,还包括通过使用验证组来训练用于每个子群组的所述图像识别机器学习模型。
实施方案26为根据实施方案25的方法,还包括基于特征选择算法从所述子群组中选择一个或多个代表性子群组。
实施方案27为根据实施方案1-25中任一项的方法,其中所述图像识别机器学习模型包括一个或多个图像识别神经网络。
实施方案28是一种图像识别系统,包括:
处理器,所述处理器被配置成
接收多个数字图像,每个数字图像包括待识别的对象以及反映在其下获取对象的所述图像的真实世界条件的纹理或风格特征;
根据所述图像的所述纹理或风格特征将所述多个数字图像聚类成不同的群组,每个群组包括具有相似纹理或风格特征的所述数字图像中的一个或多个;
从图像的每个群组中选择一个或多个代表性风格图像;以及
训练用于所述代表性风格图像中的至少一个的风格迁移神经网络,以获得一个或多个经训练的风格迁移神经网络。
实施方案29为根据实施方案28的系统,还包括用于存储所述经训练的风格迁移神经网络的存储器。
实施方案30是根据实施方案28或29的系统,其中所述经训练的风格迁移神经网络被存储在云计算环境中。
实施方案31是根据实施方案28-30中任一项的系统,其中所述存储的风格迁移神经网络中的至少一个被调用为由实时应用使用。
实施方案32是根据实施方案28-31中任一项的系统,其中所述风格迁移神经网络由所述处理器预训练,并且所述经训练的风格迁移神经网络被存储在存储器中以便于调用来使用。
实施方案33是根据实施方案28-32中任一项的系统,其中所述处理器进一步被配置为经由所述经训练的风格迁移神经网络将所述纹理或风格特征从每个代表性图像迁移到目标图像以生成风格化的图像。
实施方案34是根据实施方案28-33中任一项的系统,其中所述处理器进一步被配置为使用所述风格化的图像来训练图像识别机器学习模型。
实施方案35为根据实施方案34的系统,其中所述图像识别机器学习模型包括一个或多个图像识别神经网络。
在不脱离本公开实质和范围的情况下,可对本公开的示例性实施方案进行各种修改和更改。因此,应当理解,本公开的实施方案并不限于所描述的示例性实施方案,而应受权利要求书及其任何等同物中示出的限制因素控制。
整个本说明书中提及的“一个实施方案”、“某些实施方案”、“一个或多个实施方案”或“实施方案”,无论在术语“实施方案”前是否包括术语“示例性的”都意指结合该实施方案描述的特定特征、结构、材料或特性包括在本公开的某些示例性实施方案中的至少一个实施方案中。因此,在整个本说明书的各处出现的表述诸如“在一个或多个实施方案中”、“在某些实施方案中”、“在一个实施方案中”或“在实施方案中”不一定是指本公开的某些示例性实施方案中的同一实施方案。此外,具体特征、结构、材料或特性可在一个或多个实施方案中以任何合适的方式组合。
虽然本说明书已经详细地描述了某些示例性实施方案,但是应当理解,本领域的技术人员在理解上述内容后,可很容易地想到这些实施方案的更改、变型和等同物。因此,应当理解,本公开不应不当地受限于以上示出的例示性实施方案。特别地,如本文所用,用端值表述的数值范围旨在包括该范围内所包含的所有数值(例如,1至5包括1、1.5、2、2.75、3、3.80、4和5)。另外,本文所用的所有数字都被认为是被术语“约”修饰。此外,对各种示例性实施方案进行了描述。这些实施方案以及其他实施方案均在以下权利要求书的范围内。
Claims (30)
1.一种计算机实施的方法,包括:
向处理器提供多个数字图像,每个数字图像包括待识别的对象以及反映在其下获取所述对象的图像的真实世界条件的纹理或风格特征;
根据所述图像的所述纹理或风格特征经由所述处理器将所述多个数字图像聚类成不同的群组,每个群组包括具有相似纹理或风格特征的所述数字图像中的一个或多个;
经由所述处理器从图像的每个群组中选择一个或多个代表性风格图像;
经由所述处理器来训练用于所述代表性风格图像中的至少一个的风格迁移神经网络,以获得一个或多个经训练的风格迁移神经网络;
经由所述经训练的风格迁移神经网络将所述纹理或风格特征从每个代表性图像迁移到目标图像以生成风格化的图像;以及
使用所述风格化的图像来训练图像识别机器学习模型。
2.根据权利要求1所述的方法,其中对所述风格迁移神经网络进行预训练,并存储所述经训练的风格迁移神经网络以便于调用来使用。
3.根据权利要求2所述的方法,其中所述存储的风格迁移神经网络中的至少一个被调用为由实时应用使用。
4.根据权利要求1所述的方法,其中所述经训练的风格迁移神经网络各自对应于代表性纹理或风格特征。
5.根据权利要求1所述的方法,还包括基于所述对应的数字图像群组的统计选择一个经训练的风格迁移神经网络。
6.根据权利要求5所述的方法,还包括经由复用器根据所述群组的尺寸从所述经训练的风格迁移神经网络中选择一个经训练的风格迁移神经网络。
7.根据权利要求5所述的方法,还包括经由复用器根据所述图像的预先确定的概率分布从所述经训练的风格迁移神经网络中选择一个经训练的风格迁移神经网络。
8.根据权利要求1所述的方法,其中对所述多个数字图像进行聚类包括将所述数字图像输入到多层神经网络。
9.根据权利要求8所述的方法,还包括经由所述多层神经网络将每个图像的所述纹理或风格特征分解成格拉姆矩阵。
10.根据权利要求8所述的方法,其中所述多层神经网络包括视觉几何组(VGG)网络。
11.根据权利要求9所述的方法,其中每个格拉姆矩阵对应于所述多层神经网络的一个层,并且表示每个层中的每个图像的特征图之间的相关性矩阵。
12.根据权利要求9所述的方法,其中基于在所述格拉姆矩阵内经由K-均值聚类方法发现的相似性将所述图像聚类成所述群组。
13.根据权利要求9所述的方法,还包括计算所述格拉姆矩阵之间的距离。
14.根据权利要求13所述的方法,其中使用余弦角度来计算所述距离作为距离测量值。
15.根据权利要求1所述的方法,其中选择所述代表性风格图像包括选择每个群组的聚类中心处的所述图像。
16.根据权利要求1所述的方法,还包括通过流形学习方法将群组的维度减小为2D聚类。
17.根据权利要求16所述的方法,还包括可视化图像的所述2D聚类。
18.根据权利要求1所述的方法,还包括提供包括反映所述自然环境的自然纹理的一个或多个自然风格图像,并且训练用于每个自然风格图像的所述风格迁移神经网络以获得所述相应的经训练的风格迁移神经网络。
19.根据权利要求1所述的方法,还包括评估所述图像识别机器学习模型的性能。
20.根据权利要求19所述的方法,还包括基于所述评估来选择所述经训练的风格迁移神经网络。
21.根据权利要求1所述的方法,其中所述待识别的对象包括字母、数字、标号、符号和字符中的一个或多个。
22.根据权利要求1所述的方法,还包括评估所述图像识别机器学习模型的训练。
23.根据权利要求22所述的方法,还包括将所述风格化的图像划分成子群组。
24.根据权利要求23所述的方法,还包括通过使用验证组来训练用于每个子群组的所述图像识别机器学习模型。
25.根据权利要求24所述的方法,还通过使用特征选择算法,基于来自所述训练的结果,从所述子群组中选择一个或多个代表性子群组。
26.一种图像识别系统,包括:
处理器,所述处理器被配置成
接收多个数字图像,每个数字图像包括待识别的对象以及反映在其下获取对象的所述图像的真实世界条件的纹理或风格特征;
根据所述图像的所述纹理或风格特征将所述多个数字图像聚类成不同的群组,每个群组包括具有相似纹理或风格特征的所述数字图像中的至少一些;
从图像的每个群组中选择一个或多个代表性风格图像;以及
训练用于所述代表性风格图像中的至少一个的风格迁移神经网络,以获得一个或多个经训练的风格迁移神经网络。
27.根据权利要求26所述的系统,还包括用于存储所述经训练的风格迁移神经网络的存储器。
28.根据权利要求26所述的系统,其中所述风格迁移神经网络由所述处理器预训练,并且所述经训练的风格迁移神经网络被存储在存储器中以便于调用来使用。
29.根据权利要求26所述的系统,其中所述处理器进一步被配置为经由所述经训练的风格迁移神经网络将所述纹理或风格特征从每个代表性图像迁移到目标图像以生成风格化的图像。
30.根据权利要求26所述的系统,其中所述处理器进一步被配置为使用所述风格化的图像来训练图像识别机器学习模型。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762539772P | 2017-08-01 | 2017-08-01 | |
US62/539,772 | 2017-08-01 | ||
PCT/IB2018/055570 WO2019025909A1 (en) | 2017-08-01 | 2018-07-25 | NEURONAL STYLE TRANSFER FOR VARIETY AND IMAGE RECOGNITION |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110914834A true CN110914834A (zh) | 2020-03-24 |
CN110914834B CN110914834B (zh) | 2024-04-16 |
Family
ID=65232502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880047534.6A Active CN110914834B (zh) | 2017-08-01 | 2018-07-25 | 用于图像变型和识别的神经风格迁移 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11631186B2 (zh) |
EP (1) | EP3662412A4 (zh) |
JP (1) | JP2020530925A (zh) |
CN (1) | CN110914834B (zh) |
WO (1) | WO2019025909A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110913263A (zh) * | 2019-11-29 | 2020-03-24 | 联想(北京)有限公司 | 视频处理方法、装置及电子设备 |
CN111798371A (zh) * | 2020-07-07 | 2020-10-20 | 泰康保险集团股份有限公司 | 一种视频风格迁移的方法及设备 |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11537262B1 (en) | 2015-07-21 | 2022-12-27 | Monotype Imaging Inc. | Using attributes for font recommendations |
CN109426858B (zh) * | 2017-08-29 | 2021-04-06 | 京东方科技集团股份有限公司 | 神经网络、训练方法、图像处理方法及图像处理装置 |
US11334750B2 (en) * | 2017-09-07 | 2022-05-17 | Monotype Imaging Inc. | Using attributes for predicting imagery performance |
US11657602B2 (en) | 2017-10-30 | 2023-05-23 | Monotype Imaging Inc. | Font identification from imagery |
CN112823379A (zh) * | 2018-10-10 | 2021-05-18 | Oppo广东移动通信有限公司 | 用于训练机器学习模型的方法和装置、用于视频风格转移的装置 |
US10878298B2 (en) | 2019-03-06 | 2020-12-29 | Adobe Inc. | Tag-based font recognition by utilizing an implicit font classification attention neural network |
CN110033054B (zh) * | 2019-03-14 | 2021-05-25 | 上海交通大学 | 基于协同笔画优化的个性化手写体迁移方法和系统 |
US11468582B2 (en) * | 2019-03-16 | 2022-10-11 | Nvidia Corporation | Leveraging multidimensional sensor data for computationally efficient object detection for autonomous machine applications |
US11068785B2 (en) | 2019-03-26 | 2021-07-20 | Aivitae LLC | Methods and systems for operating applications through user interfaces |
CN110033034B (zh) * | 2019-04-01 | 2023-09-12 | 深圳大学 | 一种非均匀纹理的图片处理方法、装置和计算机设备 |
US11501161B2 (en) * | 2019-04-04 | 2022-11-15 | Adobe Inc. | Method to explain factors influencing AI predictions with deep neural networks |
CN110084741A (zh) * | 2019-04-26 | 2019-08-02 | 衡阳师范学院 | 基于显著性检测和深度卷积神经网络的图像风络迁移方法 |
KR102034827B1 (ko) * | 2019-05-14 | 2019-11-18 | 주식회사 뷰노 | 훈련된 심층 신경망 모델의 재현 성능을 개선하는 방법 및 이를 이용한 장치 |
CN110135349A (zh) * | 2019-05-16 | 2019-08-16 | 北京小米智能科技有限公司 | 识别方法、装置、设备及存储介质 |
WO2020235862A1 (en) * | 2019-05-17 | 2020-11-26 | Samsung Electronics Co., Ltd. | Image manipulation |
CN112464924A (zh) * | 2019-09-06 | 2021-03-09 | 华为技术有限公司 | 一种构建训练集的方法及装置 |
US11030793B2 (en) | 2019-09-29 | 2021-06-08 | Snap Inc. | Stylized image painting |
JP7335545B2 (ja) * | 2019-09-30 | 2023-08-30 | ブラザー工業株式会社 | 学習画像データの生成方法、予測モデル |
CN110910303A (zh) * | 2019-10-26 | 2020-03-24 | 湖北讯獒信息工程有限公司 | 一种图像风格迁移方法 |
US11270448B2 (en) * | 2019-11-26 | 2022-03-08 | Microsoft Technology Licensing, Llc | Using machine learning to selectively overlay image content |
DE102020206433A1 (de) * | 2020-05-25 | 2021-11-25 | Hitachi Astemo, Ltd. | Computerprogrammprodukt und Trainingssteuervorrichtung für künstliche Intelligenz |
CN112102269B (zh) * | 2020-09-01 | 2024-01-05 | 浙江大学 | 计算风格迁移质量相似度的方法、装置、计算机设备和存储介质 |
CN112307714B (zh) * | 2020-11-03 | 2024-03-08 | 武汉理工大学 | 一种基于双阶段深度网络的文字风格迁移方法 |
US11423206B2 (en) | 2020-11-05 | 2022-08-23 | Adobe Inc. | Text style and emphasis suggestions |
CN112419435A (zh) * | 2020-11-10 | 2021-02-26 | 贵州大学 | 一种用于挑花和蜡染组合图案设计的方法 |
DE112020007845T5 (de) * | 2020-12-15 | 2023-10-05 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren und Einrichtung zur Bildverarbeitung |
CN112506510A (zh) * | 2020-12-15 | 2021-03-16 | 科大讯飞股份有限公司 | 系统皮肤生成方法、装置、设备及存储介质 |
CN112686135B (zh) * | 2020-12-29 | 2022-10-14 | 中南大学 | 基于分布拟合的可泛化的行人重识别方法 |
CN113095999B (zh) * | 2021-03-29 | 2023-08-25 | 北京雷石天地电子技术有限公司 | 一种视频风格转置方法和系统 |
AU2021204608A1 (en) * | 2021-06-21 | 2023-01-19 | Sensetime International Pte. Ltd. | Image data generation method and apparatus, electronic device, and storage medium |
CN113436125B (zh) * | 2021-07-09 | 2022-11-04 | 河南大学 | 基于风格迁移的侧扫声呐仿真图像生成方法、装置及设备 |
EP4123580A1 (en) | 2021-07-21 | 2023-01-25 | F. Hoffmann-La Roche AG | Processing of images containing overlapping particles |
US20230114402A1 (en) * | 2021-10-11 | 2023-04-13 | Kyocera Document Solutions, Inc. | Retro-to-Modern Grayscale Image Translation for Preprocessing and Data Preparation of Colorization |
GB2612775A (en) * | 2021-11-10 | 2023-05-17 | Sony Interactive Entertainment Inc | System and method for generating assets |
US20230177662A1 (en) * | 2021-12-02 | 2023-06-08 | Robert Bosch Gmbh | System and Method for Augmenting Vision Transformers |
CN114332086B (zh) * | 2022-03-14 | 2022-05-13 | 启东市固德防水布有限公司 | 基于风格迁移和人工智能的纺织品缺陷检测方法及系统 |
CN114398313B (zh) * | 2022-03-22 | 2022-06-14 | 北京数腾软件科技有限公司 | 一种文件级数据的智能迁移操作方法及系统 |
CN114663428B (zh) * | 2022-05-16 | 2022-09-02 | 网思科技股份有限公司 | 基于人工智能的物体表面异常检测方法、装置及相关设备 |
WO2024090802A1 (ko) * | 2022-10-25 | 2024-05-02 | 삼성전자주식회사 | 렌더링 스타일이 변경된 이미지를 획득하기 위한 전자 장치 및 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050185835A1 (en) * | 2004-01-29 | 2005-08-25 | Canon Kabushiki Kaisha | Learning method and device for pattern recognition |
CN104239855A (zh) * | 2014-09-03 | 2014-12-24 | 南京大学 | 一种基于笔画合成的图像风格迁移合成方法 |
CN106778928A (zh) * | 2016-12-21 | 2017-05-31 | 广州华多网络科技有限公司 | 图像处理方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3162154B2 (ja) * | 1992-03-19 | 2001-04-25 | 富士通株式会社 | ニューラルネットによる図形変換方式 |
TWI467498B (zh) * | 2011-12-19 | 2015-01-01 | Ind Tech Res Inst | 影像識別方法及系統 |
DE102015009981A1 (de) | 2015-07-31 | 2017-02-02 | Eberhard Karls Universität Tübingen | Verfahren und Vorrichtung zur Bildsynthese |
CN106548127B (zh) * | 2015-09-18 | 2022-11-04 | 松下电器(美国)知识产权公司 | 图像识别方法 |
US10789525B2 (en) * | 2015-10-02 | 2020-09-29 | Adobe Inc. | Modifying at least one attribute of an image with at least one attribute extracted from another image |
-
2018
- 2018-07-25 CN CN201880047534.6A patent/CN110914834B/zh active Active
- 2018-07-25 JP JP2020504352A patent/JP2020530925A/ja active Pending
- 2018-07-25 US US16/634,845 patent/US11631186B2/en active Active
- 2018-07-25 WO PCT/IB2018/055570 patent/WO2019025909A1/en unknown
- 2018-07-25 EP EP18840651.6A patent/EP3662412A4/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050185835A1 (en) * | 2004-01-29 | 2005-08-25 | Canon Kabushiki Kaisha | Learning method and device for pattern recognition |
CN104239855A (zh) * | 2014-09-03 | 2014-12-24 | 南京大学 | 一种基于笔画合成的图像风格迁移合成方法 |
CN106778928A (zh) * | 2016-12-21 | 2017-05-31 | 广州华多网络科技有限公司 | 图像处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
AMIN MOHAMMADIAN ET AL.: "Video-based facial expression recognition by removing the style variations" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110913263A (zh) * | 2019-11-29 | 2020-03-24 | 联想(北京)有限公司 | 视频处理方法、装置及电子设备 |
CN110913263B (zh) * | 2019-11-29 | 2021-05-18 | 联想(北京)有限公司 | 视频处理方法、装置及电子设备 |
CN111798371A (zh) * | 2020-07-07 | 2020-10-20 | 泰康保险集团股份有限公司 | 一种视频风格迁移的方法及设备 |
CN111798371B (zh) * | 2020-07-07 | 2023-11-10 | 泰康保险集团股份有限公司 | 一种视频风格迁移的方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
JP2020530925A (ja) | 2020-10-29 |
US20200219274A1 (en) | 2020-07-09 |
WO2019025909A1 (en) | 2019-02-07 |
EP3662412A4 (en) | 2021-04-21 |
EP3662412A1 (en) | 2020-06-10 |
CN110914834B (zh) | 2024-04-16 |
US11631186B2 (en) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110914834B (zh) | 用于图像变型和识别的神经风格迁移 | |
US10650042B2 (en) | Image retrieval with deep local feature descriptors and attention-based keypoint descriptors | |
WO2019238976A1 (en) | Image classification using neural networks | |
CN113056743A (zh) | 训练神经网络以用于车辆重新识别 | |
US9886669B2 (en) | Interactive visualization of machine-learning performance | |
US8108324B2 (en) | Forward feature selection for support vector machines | |
Bautista et al. | Minimal design of error-correcting output codes | |
US11562166B2 (en) | Generating shift-invariant neural network feature maps and outputs | |
CN111344697A (zh) | 用于机器视觉模型的基于复杂度的渐进式训练 | |
Alghazo et al. | Multi-Language Handwritten Digits Recognition based on Novel Structural Features. | |
US11341370B2 (en) | Classifying images in overlapping groups of images using convolutional neural networks | |
US20220277192A1 (en) | Visual Analytics System to Assess, Understand, and Improve Deep Neural Networks | |
Ghadhban et al. | Segments interpolation extractor for finding the best fit line in Arabic offline handwriting recognition words | |
Rajender et al. | An efficient dimensionality reduction based on adaptive-GSM and transformer assisted classification for high dimensional data | |
WO2021141726A1 (en) | Radioactive data generation | |
US20230267175A1 (en) | Systems and methods for sample efficient training of machine learning models | |
US20230094787A1 (en) | Utilizing machine-learning based object detection to improve optical character recognition | |
Xiao et al. | Dynamic multi-level appearance models and adaptive clustered decision trees for single target tracking | |
US20210365735A1 (en) | Computer-implemented training method, classification method and system and computer-readable recording medium | |
US11816909B2 (en) | Document clusterization using neural networks | |
CN112926697B (zh) | 一种基于语义分割的磨粒图像分类方法及装置 | |
Nayan et al. | Real time multi-class object detection and recognition using vision augmentation algorithm | |
Kaur et al. | Performance evaluation of various feature selection techniques for offline handwritten Gurumukhi place name recognition | |
Kejriwal et al. | Multi instance multi label classification of restaurant images | |
CN111680722B (zh) | 内容识别方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |