CN110263865B - 一种半监督多模态多类别的图像翻译方法 - Google Patents
一种半监督多模态多类别的图像翻译方法 Download PDFInfo
- Publication number
- CN110263865B CN110263865B CN201910548961.9A CN201910548961A CN110263865B CN 110263865 B CN110263865 B CN 110263865B CN 201910548961 A CN201910548961 A CN 201910548961A CN 110263865 B CN110263865 B CN 110263865B
- Authority
- CN
- China
- Prior art keywords
- image
- content
- encoder
- style
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000009466 transformation Effects 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 15
- 150000001875 compounds Chemical class 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000003042 antagnostic effect Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 4
- 238000012047 cause and effect analysis Methods 0.000 claims description 3
- 238000012043 cost effectiveness analysis Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 229910052582 BN Inorganic materials 0.000 claims 5
- PZNSFCLAULLKQX-UHFFFAOYSA-N Boron nitride Chemical compound N#B PZNSFCLAULLKQX-UHFFFAOYSA-N 0.000 claims 5
- 238000010586 diagram Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种半监督多模态多类别的图像翻译方法,包括步骤:S1、输入两个来自不同域的图像以及少量标签;S2、将输入的图像和标签都送入编码器,编码器分为内容编码器和风格编码器,利用解耦表示学习从风格编码器和内容编码器中,将图像分别解耦出风格编码和内容编码;S3、把风格编码输入至对抗自编码器中,以完成图像多类别训练;把内容编码输入至内容对抗学习网络中,以完成图像多模态变换训练;S4、通过拼接风格编码和内容编码实现图像的重构和多模态的变换。本发明解决了由于图像翻译多样性的要求所带来的困境,通过对潜在内容编码和风格编码的联合解码,可以生成多模态和多类别的跨域图像。
Description
技术领域
本发明涉及计算机视觉、计算机图形学与机器学习的技术领域,尤其是指一种半监督多模态多类别的图像翻译方法。
背景技术
随着深度学习技术和图像生成技术的不断发展,图像翻译领域涌现出大量优秀工作,半监督多模态多类别的图像翻译是计算机视觉领域重要且具有挑战性的研究问题,其中半监督多模态多类别的图像翻译在工业设计等领域具有明显的应用价值,可应用于图像着色、超分辨率生成、风格转换等各个方面。当前来看,现有的图像翻译是将问题转化为一对一的图像映射,需要明确给定两个不同的图像域,而在很多场景下,跨域的图像翻译是多模态的,因此,现有的跨域数据翻译无法满足这些需求。
发明内容
本发明的目的在于克服现有技术的缺点与不足,针对多模态多类别的图像翻译需求,提出了一种半监督多模态多类别的图像翻译方法,可有效解决由于图像翻译多样性带来的困境,并生成其多模态变换。在半监督数据的前提下,将输入的图像和标签都送入编码器,将图像分别解耦出风格编码和内容编码,通过拼接风格编码和内容编码实现图像的重构和多模态的变换。
为实现上述目的,本发明所提供的技术方案为:一种半监督多模态多类别的图像翻译方法,包括以下步骤:
S1、输入两个来自不同域的图像1、2以及少量标签;
S2、将输入的图像和标签都送入编码器,编码器分为内容编码器和风格编码器,利用解耦表示学习从风格编码器和内容编码器中,将图像分别解耦出风格编码和内容编码;
S3、把风格编码输入至对抗自编码器中,以完成图像多类别训练;把内容编码输入至内容对抗学习网络中,以完成图像多模态变换训练;
S4、通过拼接风格编码和内容编码实现图像的重构和多模态的变换。
在步骤S1中,两个来自不同域的图像指的是该两个图像在内容和风格上存在差异性;另外,图像分为有标记标签样本和未标记标签样本,通过对样本输入少量标签,能够使得准确度有所提升。
在步骤S2中,编码器将输入的两个图像分别进行编码,通过解耦表示学习解耦出两个图像的风格编码和内容编码,以达到图像变换的目的;风格编码器通过解耦表示学习中的5个卷积层和批量归一化(BN)产生,最终解耦出8维的风格编码;内容编码器通过解耦表示学习中的4个卷积层和批量归一化(BN)产生,最终解耦出128维的初始内容编码;由于图像的风格编码和内容编码在浅层上具有相同的特征,因此,在解耦表示学习中,风格编码和内容编码前两层的卷积和批量归一化(BN)是共享的,目标在于提取浅层特征。
在步骤S3中,将编码器通过解耦表示学习产生的两组风格编码送入到对抗自编码器(AAE)中,最终输出为0和1的二分类结果;其中,对抗自编码器(AAE)由(256,64,16,1)四个多层感知器(MLP)组成,对抗自编码器(AAE)设计的目的是使得风格编码满足给定的数据分布,因此,对抗损失能够通过如下公式求解:
在步骤S3中,将编码器通过解耦表示学习产生的两组内容编码送入到内容对抗学习网络,进行跨域和类别的分类,进而产生所需要的编码,以达到输入图像的多类别变换;所述内容对抗学习网络包括两个子网络:域标签分类器和类标签分类器,所述域标签分类器由一系列多层感知器MLP(256、128、64、64、2)组成,所述类标签分类器由一个多层感知器MLP(k)和一个softmax层组成,k为类别数目;为了判定域标签分类器接收的内容编码来自于哪个域,以及判定类标签分类器接收的图像是哪一个类别,因此,定义了域标签分类器损失LDomain和类标签分类器损失Llabel,分别通过如下公式求解:
式中,L1为图像1的标签,为图像1的内容编码,x1→2为图像1到图像2的转换,为图像1到图像2的内容转换编码,FCE为交叉熵损失,L2为图像2的标签,为图像2的内容编码,x2→1为图像2到图像1的转换,为图像2到图像1的内容转换编码,x1为输入图像1,x2为输入图像2。
在步骤S4中,通过解码器将图像1的内容编码和图像1的风格编码生成原始图像,将图像1的内容编码和图像2的风格编码或者图像1的风格编码和图像2的内容编码生成跨域转换的图像;其中,解码器的结构是将一个4*4反卷积层与三个连续的3*3反卷积层重新组合,在每个反卷积层之后,还添加了一个批量归一化(BN)层,通过从输入编码中解码,构建输入图像的重构损失少量标签的重构损失Lsemi-su和无标签的重构损失Lun,最终实现对图像多模态多类别的转换,分别通过如下公式求解:
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明方法实现了半监督下多模态多类别的图像翻译。
2、提出了跨域对抗性自编码,构造了一种新的跨域联合数据分布,不仅可以提取图像域不变的内容属性,而且还捕获了语义属性,使相同类别的内容编码成为一个簇。
3、本发明方法可以在较少标签样本的情况下,从源域到目标域生成多类别的连续图像。
4、在不同数据集上的实验表明,与最先进的方法相比,本发明方法具有多样性,而且可以生成质量更好的图像。
附图说明
图1为实施例中的整体架构图,其中Encoder为编码器,Decoder为解码器,x’1和x’2为重构的原始图像。
图2为实施例中的编码器示意图,其中Disentangled representation learning为解耦表示学习,Adversarial learning为对抗学习,AAE为对抗自编码器,Domainclassifier为域标签分类器,Category classifier为类标签分类器。
图3为实施例中的解耦表示学习示意图,其中Conv为卷积,BN为批归一化。
图4为实施例中的对抗自编码器示意图,其中MLP为多层感知器。
图5为实施例中的内容对抗学习网络示意图,其中MLP为多层感知器。Softmax为分类函数,Domain classifier为域标签分类器,Category classifier为类标签分类器。
图6为实施例中的解码器示意图,其中Decoder为解码器,D1和D2分别为解码器1和解码器2。
图7为实施例中的解码器D1和D2模块示意图,其中DeConv为反卷积,BN为批归一化。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的半监督多模态多类别的图像翻译方法,实现了多模态多类别的图像翻译。如图1所示,展示了我们的整体网络框架,首先,将样本图像x1和x2以及少量标签都送入编码器。然后,利用解耦表示学习从风格编码器和内容编码器中,将图像分别解耦出风格编码和内容编码,最后,通过拼接风格编码和内容编码实现图像的重构和多模态的变换。其包括以下步骤:
1)输入两个来自不同域的图像x1和x2以及使用少量标签,来自不同域的图像x1和x2,指的是输入的两个图像在内容和风格上存在差异性。半监督学习在训练过程中使用大量的未标记样本,以及同时使用标记样本,来进行模式识别工作,因此,通过输入少量标签,可以使得方法准确度有所提升。
2)将输入的图像和标签都送入编码器,如图2所示,编码器分为内容编码器和风格编码器,如图3所示,利用解耦表示学习从风格编码器和内容编码器中,将图像分别解耦出风格编码和内容编码;编码器将输入的两个图像分别进行编码,通过解耦表示学习解耦出两个图像的风格编码和内容编码,以达到图像变换的目的;风格编码器通过解耦表示学习中的5个卷积层和批量归一化(BN)产生,最终解耦出8维的风格编码;内容编码器通过解耦表示学习中的4个卷积层和批量归一化(BN)产生,最终解耦出128维的初始内容编码;由于图像的风格编码和内容编码在浅层上具有相同的特征,因此,在解耦表示学习中,风格编码和内容编码前两层的卷积和批量归一化(BN)是共享的,目标在于提取浅层特征。
3)把风格编码输入至对抗自编码器中,以完成图像多类别训练;把内容编码输入至内容对抗学习网络中,以完成图像多模态变换训练,具体如下:
将编码器通过解耦表示学习产生的两组风格编码送入到对抗自编码器(AAE)中,最终输出为0和1的二分类结果;如图4所示,对抗自编码器(AAE)由(256,64,16,1)四个多层感知器(MLP)组成,对抗自编码器(AAE)设计的目的是使得风格编码满足给定的数据分布,因此,对抗损失能够通过如下公式求解:
将编码器通过解耦表示学习产生的两组内容编码送入到内容对抗学习网络,进行跨域和类别的分类,进而产生所需要的编码,以达到输入图像的多类别变换;如图5所示,所述内容对抗学习网络包括两个子网络:域标签分类器和类标签分类器,所述域标签分类器由一系列多层感知器MLP(256、128、64、64、2)组成,所述类标签分类器由一个多层感知器MLP(k)和一个softmax层组成,k为类别数目;为了判定域标签分类器接收的内容编码来自于哪个域,以及判定类标签分类器接收的图像是哪一个类别,因此,定义了域标签分类器损失LDomain和类标签分类器损失Llabel,分别通过如下公式求解:
式中,L1为图像1的标签,为图像1的内容编码,x1→2为图像1到图像2的转换,为图像1到图像2的内容转换编码,FCE为交叉熵损失,L2为图像2的标签,为图像2的内容编码,x2→1为图像2到图像1的转换,为图像2到图像1的内容转换编码,x1为输入图像1,x2为输入图像2。
4)解码器将编码器产生的两组风格编码和内容编码,相互结合,可生成原始图像和跨域转换的图像,如图6所示,其中解码器的子模块D1和D2的具体组成结构如图7所示。解码器的结构是将一个4*4反卷积层与三个连续的3*3反卷积层重新组合,在每个反卷积层之后,还添加了一个批量归一化(BN)层,从输入的编码中解码,最终生成的图像可实现多类别多模态的转换。因此,构建输入图像的重构损失少量标签的重构损失Lsemi-su和无标签的重构损失Lun,可分别通过如下公式求解:
实验配置:本文实验的硬件环境为Intel Core i7 2600k+GTX 1070 8G+8G RAM,软件环境为windows 7 x64+CUDA 8.0+cuDNN 5.1+TensorFlow+Python。
数据集:本文实验所用的数据集为标准的mnist数据集和svhn数据集。mnist由60000张手写体数字图像组成,svhn由99289张图像组成,是真实世界中的街道门牌号码,它们都被分为0~9个类别。mnist中的数字图像为1*28*28的灰度图像,svhn中的街道编号图像为3*32*32的彩色图像,因此,我们在训练前通过数据补全和通道扩展将数字图像调整为3*32*32的三通道图像。实验中,随机从mnist数据集中选取50000张、svhn图像中选取73257张训练,其它的作为测试数据。表1给出了本文选用数据集的基本信息。
表1本文选用数据集的基本信息
数据集 | 训练图片数目 | 测试图片数目 | 类的数目 |
mnist | 50000 | 10000 | 10 |
svhn | 73257 | 26032 | 10 |
表2半监督分类准确率
Method | s2s | t2t | t2s | s2t |
CDAAE | 83.77 | 72.83 | 31.06 | 34.87 |
Ours | 91.47 | 76.39 | 38.23 | 40.37 |
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (3)
1.一种半监督多模态多类别的图像翻译方法,其特征在于,包括以下步骤:
S1、输入两个来自不同域的图像1、2以及少量标签;
S2、将输入的图像和标签都送入编码器,编码器分为内容编码器和风格编码器,利用解耦表示学习从风格编码器和内容编码器中,将图像分别解耦出风格编码和内容编码;
S3、把风格编码输入至对抗自编码器中,以完成图像多类别训练;把内容编码输入至内容对抗学习网络中,以完成图像多模态变换训练;
将编码器通过解耦表示学习产生的两组内容编码送入到内容对抗学习网络,进行跨域和类别的分类,进而产生所需要的编码,以达到输入图像的多类别变换;所述内容对抗学习网络包括两个子网络:域标签分类器和类标签分类器,所述域标签分类器由一系列多层感知器MLP(256、128、64、64、2)组成,所述类标签分类器由一个多层感知器MLP(k)和一个softmax层组成,k为类别数目;为了判定域标签分类器接收的内容编码来自于哪个域,以及判定类标签分类器接收的图像是哪一个类别,因此,定义了域标签分类器损失LDomain和类标签分类器损失Llabel,分别通过如下公式求解:
式中,L1为图像1的标签,为图像1的内容编码,x1→2为图像1到图像2的转换,为图像1到图像2的内容转换编码,FCE为交叉熵损失,L2为图像2的标签,为图像2的内容编码,x2→1为图像2到图像1的转换,为图像2到图像1的内容转换编码,x1为输入图像1,x2为输入图像2;
将编码器通过解耦表示学习产生的两组风格编码送入到对抗自编码器AAE中,最终输出为0和1的二分类结果;其中,对抗自编码器AAE由(256,64,16,1)四个多层感知器MLP组成,对抗自编码器AAE设计的目的是使得风格编码满足给定的数据分布,因此,对抗损失能够通过如下公式求解:
S4、通过拼接风格编码和内容编码实现图像的重构和多模态的变换;
通过解码器将图像1的内容编码和图像1的风格编码生成原始图像,将图像1的内容编码和图像2的风格编码或者图像1的风格编码和图像2的内容编码生成跨域转换的图像;其中,解码器的结构是将一个4*4反卷积层与三个连续的3*3反卷积层重新组合,在每个反卷积层之后,还添加了一个批量归一化BN层,通过从输入编码中解码,构建输入图像的重构损失少量标签的重构损失Lsemi-su和无标签的重构损失Lun,最终实现对图像多模态多类别的转换,分别通过如下公式求解:
2.根据权利要求1所述的一种半监督多模态多类别的图像翻译方法,其特征在于:在步骤S1中,两个来自不同域的图像指的是该两个图像在内容和风格上存在差异性;另外,图像分为有标记标签样本和未标记标签样本,通过对样本输入少量标签,能够使得准确度有所提升。
3.根据权利要求1所述的一种半监督多模态多类别的图像翻译方法,其特征在于:在步骤S2中,编码器将输入的两个图像分别进行编码,通过解耦表示学习解耦出两个图像的风格编码和内容编码,以达到图像变换的目的;风格编码器通过解耦表示学习中的5个卷积层和批量归一化BN产生,最终解耦出8维的风格编码;内容编码器通过解耦表示学习中的4个卷积层和批量归一化BN产生,最终解耦出128维的初始内容编码;由于图像的风格编码和内容编码在浅层上具有相同的特征,因此,在解耦表示学习中,风格编码和内容编码前两层的卷积和批量归一化BN是共享的,目标在于提取浅层特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910548961.9A CN110263865B (zh) | 2019-06-24 | 2019-06-24 | 一种半监督多模态多类别的图像翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910548961.9A CN110263865B (zh) | 2019-06-24 | 2019-06-24 | 一种半监督多模态多类别的图像翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110263865A CN110263865A (zh) | 2019-09-20 |
CN110263865B true CN110263865B (zh) | 2021-11-02 |
Family
ID=67920753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910548961.9A Active CN110263865B (zh) | 2019-06-24 | 2019-06-24 | 一种半监督多模态多类别的图像翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110263865B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852937B (zh) * | 2019-10-16 | 2023-06-02 | 天津大学 | 基于内容与样式解耦的形变物品图像生成方法 |
CN111666831B (zh) * | 2020-05-18 | 2023-06-20 | 武汉理工大学 | 一种基于解耦表示学习的说话人脸视频生成方法 |
CN111815509B (zh) * | 2020-09-02 | 2021-01-01 | 北京邮电大学 | 一种图像风格转换及模型训练的方法及装置 |
CN112766217B (zh) * | 2021-01-30 | 2022-08-26 | 上海工程技术大学 | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 |
CN113160042B (zh) * | 2021-05-21 | 2023-02-17 | 北京邮电大学 | 一种图像风格迁移模型训练方法、装置及电子设备 |
CN113449810B (zh) * | 2021-07-15 | 2022-11-18 | 东南大学 | 一种基于自监督和语义风格解耦的图像聚类方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133173B (zh) * | 2017-11-24 | 2019-07-23 | 西安电子科技大学 | 基于半监督梯形网络的极化sar图像分类方法 |
CN108062753B (zh) * | 2017-12-29 | 2020-04-17 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
CN108549895A (zh) * | 2018-04-17 | 2018-09-18 | 深圳市唯特视科技有限公司 | 一种基于对抗网络的半监督语义分割方法 |
CN108664999B (zh) * | 2018-05-03 | 2021-02-12 | 北京图森智途科技有限公司 | 一种分类模型的训练方法及其装置、计算机服务器 |
CN108805188B (zh) * | 2018-05-29 | 2020-08-21 | 徐州工程学院 | 一种基于特征重标定生成对抗网络的图像分类方法 |
CN108711138B (zh) * | 2018-06-06 | 2022-02-11 | 北京印刷学院 | 一种基于生成对抗网络的灰度图片彩色化方法 |
CN108875818B (zh) * | 2018-06-06 | 2020-08-18 | 西安交通大学 | 基于变分自编码机与对抗网络结合的零样本图像分类方法 |
CN109190722B (zh) * | 2018-08-06 | 2021-05-04 | 大连民族大学 | 基于满文字符图片的字体风格迁移变换方法 |
CN109447137B (zh) * | 2018-10-15 | 2022-06-14 | 聚时科技(上海)有限公司 | 一种基于分解因子的图像局部风格迁移方法 |
-
2019
- 2019-06-24 CN CN201910548961.9A patent/CN110263865B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110263865A (zh) | 2019-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263865B (zh) | 一种半监督多模态多类别的图像翻译方法 | |
Li et al. | Multilabel SVM active learning for image classification | |
CN111914797B (zh) | 基于多尺度轻量级卷积神经网络的交通标志识别方法 | |
CN115471851A (zh) | 融合双重注意力机制的缅甸语图像文本识别方法及装置 | |
CN112233012B (zh) | 一种人脸生成系统及方法 | |
CN113378949A (zh) | 一种基于胶囊网络和混合注意力的双重生成对抗学习方法 | |
CN115497107B (zh) | 一种基于笔画和部首分解的零样本汉字识别方法 | |
CN114581992A (zh) | 一种基于预训练StyleGAN的人脸表情合成方法及系统 | |
CN114201605B (zh) | 一种基于联合属性建模的图像情感分析方法 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN110175248A (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN112507800A (zh) | 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法 | |
Zhao et al. | Multilayer unmixing for hyperspectral imagery with fast kernel archetypal analysis | |
CN117635935A (zh) | 轻量化无监督自适应图像语义分割方法及系统 | |
CN112990340A (zh) | 一种基于特征共享的自学习迁移方法 | |
CN117422978A (zh) | 基于动态双级视觉信息融合的接地视觉问答方法 | |
CN116682180A (zh) | 基于人体骨骼序列时空信息的动作识别方法 | |
Liu et al. | GhostNetV3: Exploring the Training Strategies for Compact Models | |
CN110210549B (zh) | 一种跨域变分对抗自编码方法 | |
CN107967472A (zh) | 一种使用动态形状编码的搜索词语方法 | |
Lin et al. | Progressive Domain Adaptive Object Detection Based on Self‐Attention in Foggy Weather | |
Li et al. | Using cnn to improve the performance of the light-weight vit | |
Ling et al. | Face illumination processing via dense feature maps and multiple receptive fields | |
Pei et al. | Visual relational reasoning for image caption | |
Liang et al. | Grayscale Image Colorization with GAN and CycleGAN in Different Image Domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240703 Address after: 401320 Banan District, Banan District, Chongqing, No. 8-29, Yu Nan Road, No. 8-29 Patentee after: Chongqing Boshi Intellectual Property Service Co.,Ltd. Country or region after: China Address before: 750021 No. 204, Wenchang North Street, Xixia District, the Ningxia Hui Autonomous Region, Yinchuan Patentee before: BEIFANG MINZU University Country or region before: China |