WO2022001489A1 - 一种无监督域适应的目标重识别方法 - Google Patents

一种无监督域适应的目标重识别方法 Download PDF

Info

Publication number
WO2022001489A1
WO2022001489A1 PCT/CN2021/095647 CN2021095647W WO2022001489A1 WO 2022001489 A1 WO2022001489 A1 WO 2022001489A1 CN 2021095647 W CN2021095647 W CN 2021095647W WO 2022001489 A1 WO2022001489 A1 WO 2022001489A1
Authority
WO
WIPO (PCT)
Prior art keywords
domain
target
learning network
scale
feature
Prior art date
Application number
PCT/CN2021/095647
Other languages
English (en)
French (fr)
Inventor
金�一
高雅君
李浥东
王涛
郎丛妍
冯松鹤
Original Assignee
北京交通大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京交通大学 filed Critical 北京交通大学
Publication of WO2022001489A1 publication Critical patent/WO2022001489A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Definitions

  • the invention relates to the technical field of computer vision, in particular to an unsupervised domain adaptation target re-identification method.
  • Target re-identification mainly solves the cross-lens tracking of the target, which refers to using the image under one camera to determine whether the target appears again under other cameras.
  • the task of object re-identification is to match objects in non-overlapping camera images. Due to its great potential in security and security management applications, object re-identification has become one of the research hotspots in the field of video surveillance. However, this is a challenging task, as the appearance of the identified objects tends to change dramatically in the camera image due to changes in perspective, occlusion, and lighting conditions.
  • most of the existing object re-identification methods are based on supervised learning. Through deep learning, significant performance improvements have been achieved. However, these methods require a large amount of labeled data to train the re-identification model, which is difficult to achieve in practical applications.
  • UDA Unsupervised Domain Adaptation
  • Transferring an object re-identification model from the source domain to the target domain is a challenging task for two reasons: first, since the source and target datasets often come from completely different environments, which contain different lighting, background and image quality, so the data distribution of source data and target data has a large probability difference, such domain differences may lead to negative transfer, and previous experimental results can also prove that the model trained from the source data set is applied to the target data. data, its performance tends to drop dramatically. Second, the target dataset is unlabeled, and most of the existing target re-identification loss functions are designed for supervised learning and cannot be used directly.
  • Some schemes propose a set of methods to estimate pseudo-labels for unlabeled target data. These methods employ pseudo-labels as hard constraints and ignore the inaccuracy of pseudo-labels. The constraints on labels are relaxed to avoid overfitting. However, this scheme is used for supervised learning and assigns a uniform label distribution to all samples. There are also schemes that use soft labels to represent unlabeled data, but they use soft labels to simulate unlabeled target samples and labeled source samples.
  • Embodiments of the present invention provide an unsupervised domain adaptation target re-identification method to overcome the problems of the prior art.
  • the present invention adopts the following technical solutions.
  • An object re-identification method for unsupervised domain adaptation including:
  • the multi-scale domain adaptive attention learning network is trained by using the source domain data set and the target domain data set, and the multi-task loss of the multi-scale domain adaptive attention learning network is calculated. After the value of the multi-task loss converges, we get A trained multi-scale domain adaptive attention learning network;
  • the trained multi-scale domain-adapted attention learning network is used to construct an unsupervised domain-adapted target re-identification model, and the unsupervised domain-adapted target re-identification model is used to perform target re-identification processing on the input image.
  • the building a multi-scale domain adaptive attention learning network includes:
  • a multi-scale domain-adaptive attention learning network is constructed.
  • the multi-scale domain-adaptive attention learning network includes three components: a domain-adaptive attention module, a processing branch of target-related features, and a processing branch of domain-related features.
  • the adaptive attention learning network adaptively divides the global features into target features and domain features at different scales, the target features are used for discriminative learning, and the domain features are modeled to reduce negative transfer.
  • the training of the multi-scale domain adaptive attention learning network using the source domain data set and the target domain data set includes:
  • the datasets with labels are the source domain datasets, and the datasets without labels are the target domain datasets.
  • the source domain dataset and the target domain dataset are used to adapt attention to the multi-scale domain.
  • the force learning network is trained.
  • the input is the source domain dataset and the target domain dataset.
  • the backbone network is ResNet50, and a DAAM is embedded after each residual block of ResNet50, and then By learning two complementary attention mechanisms of spatial attention S( ) and channel attention C( ) in turn, the target-related feature representation is obtained, and the target feature representation is subtracted from 1 to obtain the domain feature representation, and the feature output from the current residual block is used.
  • the representation is multiplied by the target feature representation and the domain feature representation element by element to obtain the target feature map and the domain feature map respectively;
  • target feature 1 target feature 2, target feature 3, target feature 4 and domain feature 1, domain feature 2, domain feature 3.
  • Domain feature 4 the target feature maps of all levels are spliced after spatial dimension reduction to form multi-scale target features and domain features;
  • the target feature goes through the 1*1 filtering convolution layer, the global average pooling layer, the batch normalization layer and the final fully connected layer in turn to obtain the target feature vector;
  • the domain-related features sequentially go through a 1*1 filtered convolutional layer, a global average pooling layer, a batch normalization layer, and a final fully connected layer (FC) to obtain a domain feature vector.
  • the calculation of the multi-task loss of the multi-scale domain adaptive attention learning network includes:
  • the labeled source domain dataset be while the unlabeled target domain dataset is in represents an image from the source domain dataset, Yes the corresponding identity tag, represents an image from the target domain dataset, and do not overlap at all;
  • the soft label is calculated first, and then the cross entropy loss based on the soft label is calculated as follows:
  • the multi-task loss of the multi-scale domain-adapted attention learning network is computed as the following function:
  • the process of calculating the soft label of the image of the target domain includes:
  • the distance matrix of the target feature vector of the image is obtained by the method of k-mutual neighbor coding, where the target feature vector is denoted as Then, the density-based clustering method DBSCAN is used to divide the target domain into K clusters, denoted as During the iterative process, the clustering method DBSCAN is updated where K is automatically calculated when When belonging to cluster C k , label for clustering Assign weights
  • the calculation formula of w i,k is as follows:
  • the trained multi-scale domain adaptive attention learning network is obtained after the value of the multi-task loss converges, including:
  • the trained multi-scale domain adaptive attention learning network is used to construct an unsupervised domain-adapted target re-identification model, and the unsupervised domain-adapted target re-identification model is used to perform target re-identification processing on the input image.
  • the unsupervised domain-adapted target re-identification model is used to perform target re-identification processing on the input image.
  • test data set to test the trained multi-scale domain adaptive attention learning network, and judge whether the test results meet the standard. If so, according to the trained multi-scale domain adaptive attention learning network, the weights of each layer of the neural network and bias parameters, and the structure of the multi-scale domain-adapted attention learning network to construct an unsupervised domain-adapted target re-identification model; otherwise, the parameters of the multi-scale domain-adapted attention learning network are updated by gradient backpropagation, and the updated The multi-scale domain adaptive attention learning network is trained and tested until the test results meet the standard;
  • the target re-identification model judges whether the images obtained under different cameras belong to the same target object or the same identity according to the target feature vector and domain feature vector of the image. people.
  • the multi-scale domain adaptive attention learning module proposed by the embodiments of the present invention does not require any additional annotation, and can divide the feature map into features related to the target by dividing the feature map. Graphs and domain-dependent feature maps to reduce domain variance. At the same time, the feature maps are mapped at different scales and segmented at multiple scales, so that more accurate, only domain-related, multi-scale feature representations are learned, thus achieving optimal performance.
  • FIG. 1 is a specific processing flow chart of a target re-identification method for unsupervised domain adaptation provided by an embodiment of the present invention
  • FIG. 2 is a schematic diagram of a multi-scale domain adaptive attention learning network framework provided by an embodiment of the present invention
  • FIG. 3 is a schematic structural diagram of a domain adaptive attention module DAAM provided by an embodiment of the present invention.
  • Attention model The attention model in deep learning is essentially similar to the selective visual attention mechanism of human beings.
  • the core goal is to select information that is more critical to the current task goal from a large number of information, while suppressing other useless information. Improve the efficiency and accuracy of information processing.
  • a model trained on one dataset can be applied to another related but not identical dataset.
  • the former labeled dataset is called the source domain
  • the latter unlabeled dataset is called the target domain.
  • the difference between the target and the target domain is specially supplemented here.
  • the target is the subject to be recognized and classified by the task. For example, in the pedestrian re-identification task, the target is the pedestrian; and the target domain refers to the data set to be applied by the model.
  • the data can be modeled by regression or classification model, and the mapping relationship between input data and output data can be obtained.
  • Unsupervised learning Each sample in the dataset is unlabeled and the data is directly modeled by a clustering model.
  • ResNet50 is a neural network structure in deep learning. Also called deep residual network, it can solve the degradation problem that occurs as the network depth increases.
  • the network structure in it is called residual block.
  • Negative transfer generally refers to that one kind of learning interferes or inhibits another kind of learning, usually manifested in that one kind of learning increases the learning time required for another kind of learning or hinders the smooth progress of another kind of learning, and the transfer of knowledge. Get it right.
  • Clustering The process of dividing a collection into multiple classes consisting of similar objects is called clustering.
  • the present invention reasonably uses pseudo-labels, regards pseudo-labels as soft constraints, and assigns them as probability distributions, so as to avoid overfitting of models to inaccurate pseudo-labels, and establish a reasonable model according to the relationship between training data and each cluster center. loss function.
  • the present invention can learn a more accurate multi-scale feature representation only related to the domain, including accurately removing the noise part irrelevant to the domain, and fully considering different scale spaces.
  • the present invention provides an unsupervised domain adaptation target re-identification method based on multi-scale and attention mechanism, which is used to judge whether images obtained under different cameras belong to the same target object or the same identity person.
  • the method of the present invention obtains the feature expression related to the target itself and the feature expression related to the domain through the multi-scale domain adaptive attention learning module, and uses the multi-task loss function at the same time to narrow the distance between the features belonging to the same target. and the distance between features belonging to the same domain, and a soft label-based identity loss model is adopted in the unsupervised case, which effectively avoids overfitting.
  • FIG. 1 A specific processing flow of an unsupervised domain adaptation target re-identification method provided by an embodiment of the present invention is shown in FIG. 1 , including the following processing steps:
  • Step S21 constructing a multi-scale domain adaptive attention learning network.
  • a multi-scale domain adaptive attention learning network is constructed, which can adaptively divide the global features into features related to target recognition at different scales (referred to as target features) and features related to domains (referred to as domain features).
  • target features are used for discriminative learning, and domain features are specially modeled to reduce negative transfer.
  • Fig. 2 is a schematic diagram of the framework of a multi-scale domain adaptive attention learning network provided by an embodiment of the present invention.
  • the multi-scale domain adaptive attention learning network includes three components, one is a domain adaptive attention module (domain adaptive attention module, DAAM), its structure is shown in Figure 3; the other two parts are the processing branch of target-related features and the processing branch of domain-related features.
  • domain adaptive attention module domain adaptive attention module
  • Step S22 using the source domain data set and the target domain data set to train the multi-scale domain adaptive attention learning network.
  • the present invention proposes a target identity loss model based on soft labels under unsupervised conditions. By mining the relationship between each pseudo-label and the cluster center, each pseudo-label is given a set of probability values belonging to each cluster, instead of Absolute label value.
  • the datasets with labels are the source domain datasets, and the datasets without labels are the target domain datasets.
  • the source domain dataset and the target domain dataset are used to adapt attention to the multi-scale domain.
  • the force learning network is trained, and the specific training process includes:
  • the input is the source domain dataset and the target domain dataset
  • the backbone network of the domain-adapted attention module is ResNet50.
  • a DAAM is embedded after each residual block of ResNet50, and then by sequentially learning two complementary attention mechanisms, spatial attention S( ) and channel attention C( ), the target-related feature representation can be obtained, subtract 1 from 1
  • the target feature representation is obtained, and the domain feature representation is obtained.
  • the feature representation output by the current residual block is multiplied by the target feature representation and the domain feature representation element by element, and the target feature map and the domain feature map are obtained respectively.
  • target feature 1, target feature 2, target feature 3, target feature 4 and domain feature 1 Domain Feature 2, Domain Feature 3, Domain Feature 4.
  • Conv convolution
  • BN batch normalization layer
  • ReLU ReLU nonlinear layer
  • the target feature sequentially goes through a 1*1 filtered convolutional layer, a Global Average Pooling (GAP) layer, a batch normalization layer (BN) and a final The fully connected layer (FC) finally obtains the target feature vector.
  • GAP Global Average Pooling
  • BN batch normalization layer
  • FC fully connected layer
  • the domain-related features sequentially go through a 1*1 filtered convolutional layer, a global average pooling layer (GAP), a batch normalization layer (BN), and a final A fully connected layer (FC), which finally obtains the domain feature vector.
  • GAP global average pooling layer
  • BN batch normalization layer
  • FC final A fully connected layer
  • the multi-task loss results are calculated.
  • the labeled source domain dataset be while the unlabeled target domain dataset is in represents an image from the source domain dataset, Yes the corresponding identity tag, represents an image from the target domain dataset, and No overlap at all.
  • the target feature vector two loss functions are constructed according to the source of the image, and for the image from the source domain dataset its hard label Then the cross-entropy loss based on hard labels is calculated as follows:
  • a dataset without labels is called a target domain dataset, and images from the target domain dataset may belong to multiple identities with different probabilities, the sum of each probability being 1, and its labels are called soft labels.
  • the soft label is calculated first.
  • the learning process of the soft label is as follows: first, the distance matrix of the target feature vector is obtained by using the k-reciprocal encoding method. for Secondly, the density-based clustering method DBSCAN is used to divide the target domain into K clusters, denoted as During the iterative process, the clustering method DBSCAN is updated where K is automatically calculated.
  • the labels obtained by clustering Assign weights Generally speaking, the confidence of samples close to the group center C k is larger, and the calculation formula of w i,k is as follows:
  • Step S23 Calculate the multi-task loss of the multi-scale domain adaptive attention learning network according to the following function:
  • Step S24 judge whether the value of the above-mentioned multi-task loss converges, if so, obtain a trained multi-scale domain adaptive attention learning network, and execute step S25; otherwise, execute step S26.
  • the methods of judging whether the multi-loss has converged include setting the threshold, outputting the change image of the loss value, viewing the shock, and so on.
  • Step S25 Use the test data set to test the trained multi-scale domain adaptive attention learning network to determine whether the test result is good, if so, generate an unsupervised domain adaptive target re-identification model; otherwise, go to step S27.
  • the weights w and bias b of each layer of the neural network in the trained multi-scale domain adaptive attention learning network, as well as the multi-scale domain adaptive attention learning network The structure of constructing an object re-identification model for unsupervised domain adaptation.
  • the result feature of the unsupervised domain-adapted target re-identification model is that the input image is output to the target feature vector and the domain feature vector after passing through the model. Finally, the target re-identification model is used to determine whether the images obtained under different cameras belong to the same target object or the same person.
  • Step S26 Update the parameters of the multi-scale domain adaptive attention learning network by using gradient backpropagation, and perform step S22.
  • the weight w and bias b of the network are updated by gradient backpropagation.
  • the partial derivatives of the loss function L total to w and b are calculated according to the chain derivation rule, and then the gradient descent algorithm is used to update w and b.
  • Step S27 Adjust parameters such as the learning rate of the target re-identification model, and execute Step S22.
  • the embodiment of the present invention avoids overfitting of inaccurate pseudo-labels by a model by assigning pseudo-labels as probability distributions, assigns a label distribution according to the relationship between training data and clusters, and utilizes clustering.
  • method which uses soft labels to model the relationship between unlabeled samples and clusters. Since clusters are computed in the target data, clustering can better model the relationship between target samples.
  • the multi-scale domain adaptive attention learning module proposed in the embodiment of the present invention does not require any additional annotation, and can reduce domain differences by dividing the feature map into target-related feature maps and domain-related feature maps.
  • the feature maps are mapped at different scales and segmented at multiple scales, so that more accurate, only domain-related, multi-scale feature representations are learned, thus achieving optimal performance.
  • a soft-label based target identity loss model is designed for unlabeled target datasets.
  • the model assigns pseudo-labels as probability distributions, which reduces the credibility of the estimated pseudo-labels, so it avoids overfitting of the model to inaccurate pseudo-labels, and effectively mines the relationship between training data and cluster centers. potential relationship between.
  • the embodiment of the present invention proposes a new multi-scale domain adaptive attention learning network, and proposes a target identity loss model based on soft labels in an unsupervised situation.
  • Each pseudo-label is assigned a set of probability values belonging to each cluster, rather than absolute label values.
  • the present invention can be implemented by means of software plus a necessary general hardware platform. Based on this understanding, the technical solutions of the present invention can be embodied in the form of software products in essence or the parts that make contributions to the prior art.
  • the computer software products can be stored in storage media, such as ROM/RAM, magnetic disks, etc. , CD, etc., including several instructions for causing a computer device (which may be a personal computer, a server, or a network device, etc.) to execute the methods described in various embodiments or some parts of the embodiments of the present invention.

Abstract

一种无监督域适应的目标重识别方法,该方法包括:构建多尺度域适应注意力学习网络;利用源域数据集和目标域数据集对多尺度域适应注意力学习网络进行训练,计算多尺度域适应注意力学习网络的多任务损失,在多任务损失的值收敛后,得到训练好的多尺度域适应注意力学习网络;利用训练好的多尺度域适应注意力学习网络构建无监督域适应的目标重识别模型,利用无监督域适应的目标重识别模型对输入的图像进行目标重识别处理。上述方法通过将特征图分割成与目标相关的特征图和与域相关特征图来减少域差异,将特征图映射在不同尺度下,在多个尺度下进行分割,可以学习到仅仅与域相关的、多尺度的特征表示,从而达到了最优的性能。

Description

一种无监督域适应的目标重识别方法 技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种无监督域适应的目标重识别方法。
背景技术
目标重识别主要解决目标的跨镜追踪,指用一个摄像头下的图像去判断其他摄像头下是否再次出现了这个目标。目标重识别的任务是在不重叠的摄像机图像中匹配目标。由于在安全和安全管理应用方面有着极大的潜力,目标重识别已成为视频监控领域研究的热点之一。然而,这是一个具有挑战性的任务,因为视角、遮挡和光照条件的变化,所识别目标的外观往往会在摄像机图像中发生巨大的变化。为了解决这些问题,现有的目标重识别方法大多是监督学习上,通过深度学习,取得了显著的性能提升。然而,这些方法需要大量的标记数据来训练重识别模型,在实际应用是很难实现的。
为了使目标重识别方法更具可扩展性,一种解决方案是将目标重识别任务表示为一个无监督域适应问题(Unsupervised Domain Adaptation,UDA),其中现有的已标记数据集和当前的未标记数据集分别建模为源域和目标域。源域和目标域包含具有相同维度但身份完全不同的特征空间,即相关但不相同。将一个目标重识别模型从源域转移到目标域是具有挑战性的任务,其中有两个原因:首先,由于源数据集和目标数据集往往来自于完全不同的环境,其中包含不同的光照、背景和图像质量,因此源数据和目标数据的数据分布具有很大的概率差异,这样的域差异可能会导致负迁移,以往的实验结果也可证明,从源数据集训练的模型在应用于目标数据时,其性能往往急剧下降。其次,目标数据集是未标记的,而现有的大部分目标重识别损失函数都是针对监督学习设计的,不能直接使用。
为解决域差异的问题,现有技术已经提出了许多解决方案,大多数方法通常将全局特征用于身份分类,这部分全局特征包括了与域无关的噪声部分,使模型在训练过程中容易受到背景杂波的影响,并且只使用了深层的单层特征。然而,最近一项对CNN(Convolutional Neural Networks,卷积神经网络)每一层实际学习内容的可视化研究表明,更高层次的特征通常在全局尺度上包含更抽象的语义概念,空间信息更少,而较低层次的网络总是专注于细微的局部差异,这意味着在不同的空间尺度和位置都存在可转移的表示。因此,如何准确剔除与域无关的噪声部分,充分考虑不同的空间尺度,成为特征学习的关键。
对于实际应用中数据集缺少标注的问题,常见的解决方案是对未标记的数据使用伪标签。通常使用聚类方法将未标记的训练数据分割成几个独立的集群,并假设同一集群中的数据具有相同的聚类身份。但是,与人工标注不同,伪标签是近似的和不准确的。因此,如何合理利用伪标签也是我们要解决的一个主要问题。
对于目标重识别的无监督域适应问题,早期方法是基于手工特征提出的,如基于手工特征的行人重识别方法,但在训练样本数量较大的情况下,其有效性不如深度模型。最近,人们提出了几种基于深度学习的方法,主要可以分为两类:
有方案提出了一组方法来估计未标记目标数据的伪标签。这些方法采用伪标签作为硬约束,忽略了伪标签的不准确性。放宽了标签的约束,以避免过拟合。然而,该方案用于监督学习,并对所有样本分配一个统一的标签分布。也有方案使用软标签来表示未标记的数据,但其使用的软标签是为了模拟未标记的目标样本和标记的源样本。
还有方案提出了减少公共标签空间中源目标差异的另一组方法。如在目标重识别的目标行人再识别的过程中,提出了可转移的联合属性和身份的深 度学习,利用额外的位姿分割信息进行对齐。它们都需要附加注释,在许多情况下无法获得。
上述现有技术中的目标重识别方法的缺点为:
(1)现有的方法通常将全局特征用于目标的分类,而这部分特征包括了与域无关的噪声部分,使模型在训练过程中容易受到背景杂波的影响;并且只使用了深层的单层特征,包含的空间信息少。
(2)现有的方法大多数需要附加注释,在许多情况下无法获得,而本方法不需要任何额外的标注,目的是实现无监督的域适应。
(3)现有的无监督方法是对未标记的数据使用聚类模型生成伪标签,但是,与人工标注不同,伪标签是近似的和不准确的。
发明内容
本发明的实施例提供了一种无监督域适应的目标重识别方法,以克服现有技术的问题。
为了实现上述目的,本发明采取了如下技术方案。
一种无监督域适应的目标重识别方法,包括:
构建多尺度域适应注意力学习网络;
利用源域数据集和目标域数据集对所述多尺度域适应注意力学习网络进行训练,计算多尺度域适应注意力学习网络的多任务损失,在所述多任务损失的值收敛后,得到训练好的多尺度域适应注意力学习网络;
利用训练好的多尺度域适应注意力学习网络构建无监督域适应的目标重识别模型,利用所述无监督域适应的目标重识别模型对输入的图像进行目标重识别处理。
优选地,所述的构建多尺度域适应注意力学习网络,包括:
构建多尺度域适应注意力学习网络,该多尺度域适应注意力学习网络包 括:域适应注意力模块、目标相关特征的处理分支和域相关特征的处理分支三个组成部分,所述多尺度域适应注意力学习网络自适应地将全局特征划分为不同尺度下的目标特征和域特征,目标特征用来进行判别性学习,域特征被建模出来减弱负迁移。
优选地,所述的利用源域数据集和目标域数据集对所述多尺度域适应注意力学习网络进行训练,包括:
在任意目标重识别任务中,带有标签的数据集都为源域数据集,而没有标签的数据集都为目标域数据集,利用源域数据集和目标域数据集对多尺度域适应注意力学习网络进行训练,在训练过程中,输入为源域数据集和目标域数据集,在域适应注意力模块中,骨干网络为ResNet50,在ResNet50的每一个残差块后嵌入一个DAAM,再通过依次学习空间注意S(·)和通道注意C(·)两种互补注意机制,得到目标相关的特征表示,用1减去目标特征表示,得到域特征表示,用当前残差块输出的特征表示与目标特征表示、域特征表示按元素相乘,分别得到目标特征图和域特征图;
以此类推,对于目标特征和域特征都分别有四个不同层次的特征图,分别为:目标特征1、目标特征2、目标特征3、目标特征4及域特征1、域特征2、域特征3、域特征4,将所有层次的目标特征映射在空间降维后进行拼接,形成多尺度的目标特征和域特征;
在目标特征的处理分支中,目标特征依次经过1*1滤波的卷积层、全局平均池化层、批处理归一化层和最后的全连接层,得到目标特征向量;
在域相关特征的处理分支中,域相关特征依次经过1*1滤波的卷积层、全局平均池化层、批处理归一化层和最后的全连接层(FC),得到域特征向量。
优选地,所述的计算多尺度域适应注意力学习网络的多任务损失,包括:
对于任意一个域适应的目标重识别任务,设带有标记的源域数据集为
Figure PCTCN2021095647-appb-000001
而未标记的目标域数据集为
Figure PCTCN2021095647-appb-000002
其中
Figure PCTCN2021095647-appb-000003
代表来自源域数据集的图像,
Figure PCTCN2021095647-appb-000004
Figure PCTCN2021095647-appb-000005
对应的身份标签,
Figure PCTCN2021095647-appb-000006
代表来自目标域数据集的图像,
Figure PCTCN2021095647-appb-000007
Figure PCTCN2021095647-appb-000008
完全不重叠;
对于来自源域数据集的图像
Figure PCTCN2021095647-appb-000009
其带有硬标签
Figure PCTCN2021095647-appb-000010
则计算基于硬标签的交叉熵损失如下:
Figure PCTCN2021095647-appb-000011
其中
Figure PCTCN2021095647-appb-000012
是输入图像
Figure PCTCN2021095647-appb-000013
对应身份是
Figure PCTCN2021095647-appb-000014
的概率。
对于目标域的图像,先计算其软标签,再计算基于软标签的交叉熵损失如下:
Figure PCTCN2021095647-appb-000015
对于域特征向量,设计跨数据集与域相关的损失函数如下:
Figure PCTCN2021095647-appb-000016
其中,
Figure PCTCN2021095647-appb-000017
是输入图像
Figure PCTCN2021095647-appb-000018
属于源域D s的概率,
Figure PCTCN2021095647-appb-000019
是输入图像
Figure PCTCN2021095647-appb-000020
属于目标域D t的概率。
按照如下函数计算多尺度域适应注意力学习网络的多任务损失:
Figure PCTCN2021095647-appb-000021
优选地,计算目标域的图像的软标签的过程包括:
采用k-相互近邻编码的方法得到图像的目标特征向量的距离矩阵,其中,目标特征向量记为
Figure PCTCN2021095647-appb-000022
再采用基于密度的聚类方法DBSCAN将目标域分割成K簇,记为
Figure PCTCN2021095647-appb-000023
在迭代过程中,聚类方法DBSCAN更新
Figure PCTCN2021095647-appb-000024
其中K是自动计算的,当
Figure PCTCN2021095647-appb-000025
属于簇C k时,
Figure PCTCN2021095647-appb-000026
对聚类得到的标签
Figure PCTCN2021095647-appb-000027
分配权重
Figure PCTCN2021095647-appb-000028
其中w i,k的计算公式如下:
Figure PCTCN2021095647-appb-000029
优选地,所述的在所述多任务损失的值收敛后,得到训练好的多尺度域适应注意力学习网络,包括:
判断所述多任务损失的值是否收敛,如果是,得到训练好的多尺度域适应注意力学习网络;否则,利用梯度反向传播更新多尺度域适应注意力学习网络的参数,利用源域数据集和目标域数据集对更新后的多尺度域适应注意力学习网络进行训练,计算多尺度域适应注意力学习网络的多任务损失,直到所述多任务损失的值收敛。
优选地,所述的利用训练好的多尺度域适应注意力学习网络构建无监督域适应的目标重识别模型,利用所述无监督域适应的目标重识别模型对输入的图像进行目标重识别处理,包括:
利用测试数据集对训练好的多尺度域适应注意力学习网络进行测试,判断测试结果是否达标,如果是,根据训练好的多尺度域适应注意力学习网络中的神经网络的各层的权值和偏置参数,以及多尺度域适应注意力学习网络的结构构建无监督域适应的目标重识别模型;否则,利用梯度反向传播更新 多尺度域适应注意力学习网络的参数,对更新后的多尺度域适应注意力学习网络进行训练和测试,直到测试结果达标;
将待识别的图像输入到无监督域适应的目标重识别模型,该目标重识别模型根据图像的目标特征向量和域特征向量判断不同摄像头下所获取的图像是否属于同一个目标物体或同一个身份的人。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例提出的多尺度域适应注意力学习模块,不需要任何额外的标注,就可以通过将特征图分割成与目标相关的特征图和与域相关特征图来减少域差异。同时将特征图映射在不同尺度下,在多个尺度下进行分割,故而学习到更为准确的、仅仅与域相关的、多尺度的特征表示,从而达到了最优的性能。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种无监督域适应的目标重识别方法的具体处理流程图;
图2为本发明实施例提供的一种多尺度域适应注意力学习网络框架示意图;
图3为本发明实施例提供的一种是域适应注意力模块DAAM的结构示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
注意力模型:深度学习中的注意力模型从本质上讲和人类的选择性视觉注意力机制类似,核心目标是从众多信息中选择出对当前任务目标更关键的信息,而抑制其他无用信息,提高信息处理的效率和准确性。
域适应:在某一个数据集上训练的模型,可以应用到另一个相关但不相同的数据集上。其中前者带标签的数据集称为源域,后者不带标签的数据集 称为目标域。这里特意补充目标和目标域的区别,目标为任务要识别分类的主体,如在行人重识别任务中,目标就是行人;而目标域指的是模型要应用的数据集。
监督学习:对于数据集中的每个样本,都给定属性值等类别标签,则可通过回归或分类模型对数据进行建模,得到输入数据与输出数据之间的映射关系。
无监督学习:数据集中的每个样本都无标签,直接通过聚类模型对数据进行建模。
ResNet50:是深度学习中的一种神经网络结构。也叫深度残差网络,可以解决随着网络深度增加而出现的退化问题。其中的网络结构称为残差块。
负迁移:一般是指一种学习对另一种学习起干扰或抑制作用,通常表现为一种学习使另一种学习所需的学习时间增加或阻碍另一种学习的顺利进行,以及知识的正确掌握。
聚类:将集合分成由类似的对象组成的多个类的过程被称为聚类。
本发明合理使用伪标签,将伪标签视为软约束,分配为概率分布,避免了模型对不准确的伪标签的过拟合,并根据训练数据与各聚类中心之间的关系建立合理的损失函数。本发明可以学习到更准确的仅仅与域相关的多尺度的特征表示,包括准确剔除与域无关的噪声部分,充分考虑不同的尺度空间。
本发明提供了一种基于多尺度和注意力机制的无监督域适应的目标重识别方法,用于判断不同摄像头下所获取的图像是否属于同一个目标物体或同一个身份的人。本发明的方法通过多尺度的域适应注意力学习模块,分别得到与目标本身相关的特征表达和与域相关的特征表达,同时使用多任务损失函数,拉近属于相同目标的特征之间的距离和属于相同域的特征之间的距离,并且在无监督情况下采用了一种基于软标签的身份损失模型,有效避免了过拟合。
本发明实施例提供的一种无监督域适应的目标重识别方法的具体处理流程如图1所示,包括如下的处理步骤:
步骤S21、构建多尺度域适应注意力学习网络。
构建多尺度域适应注意力学习网络,该网络能够自适应的将全局特征划分为不同尺度下与目标识别相关的特征(简称目标特征)和与域相关的特征(简称域特征)。其中,目标特征用来进行判别性学习,域特征被专门建模出来是为了减弱负迁移。
图2为本发明实施例提供的一种多尺度域适应注意力学习网络的框架示意图,如图2所示,多尺度域适应注意力学习网络包括三个组成部分,一个是域适应注意力模块(domain adaptive attention module,DAAM),其结构如图3所示;另外两个部分分别是目标相关特征的处理分支和域相关特征的处理分支。
步骤S22、利用源域数据集和目标域数据集对多尺度域适应注意力学习网络进行训练。
本发明提出了一种在无监督情况下基于软标签的目标身份损失模型,通过挖掘各伪标签和聚类中心之间的关系,赋予每个伪标签一组属于各簇的概率值,而不是绝对的标签值。
在任意目标重识别任务中,带有标签的数据集都为源域数据集,而没有标签的数据集都为目标域数据集,利用源域数据集和目标域数据集对多尺度域适应注意力学习网络进行训练,具体训练过程包括:
在训练过程中,输入为源域数据集和目标域数据集,域适应注意力模块的骨干网络为ResNet50。然后,在ResNet50的每一个残差块后嵌入一个DAAM,再通过依次学习空间注意S(·)和通道注意C(·)两种互补注意机制,可以得到目标相关的特征表示,用1减去目标特征表示,得到域特征表示,用当前残 差块输出的特征表示与目标特征表示、域特征表示按元素相乘,分别得到目标特征图和域特征图。
以此类推,最终对于目标特征和域特征都分别有四个不同层次的特征图,如图2所示,分别为:目标特征1、目标特征2、目标特征3、目标特征4及域特征1、域特征2、域特征3、域特征4。然后将所有层次的目标特征映射在空间降维后进行拼接,形成多尺度的目标特征和域特征。其中降维子模块由stride=2的3*3滤波的卷积(Conv)层、批处理归一化层(BN)和ReLU非线性层组成。同理,可以得到多尺度域特征。
接下来,在目标特征的处理分支中,目标特征依次经过一个1*1滤波的卷积层,全局平均池化(GlobalAverage Pooling,GAP)层、一个批处理归一化层(BN)和最后的全连接层(FC),最终得到目标特征向量。
同理,在域相关特征的处理分支中,域相关特征依次经过一个1*1滤波的卷积层,一个全局平均池化层(GAP)、一个批处理归一化层(BN)和最后的全连接层(FC),最终得到域特征向量。
最后,计算多任务损失结果。对于任意一个域适应的目标重识别任务,设带有标记的源域数据集为
Figure PCTCN2021095647-appb-000030
而未标记的目标域数据集为
Figure PCTCN2021095647-appb-000031
其中
Figure PCTCN2021095647-appb-000032
代表来自源域数据集的图像,
Figure PCTCN2021095647-appb-000033
Figure PCTCN2021095647-appb-000034
对应的身份标签,
Figure PCTCN2021095647-appb-000035
代表来自目标域数据集的图像,
Figure PCTCN2021095647-appb-000036
Figure PCTCN2021095647-appb-000037
完全不重叠。对于目标特征向量,根据图像的来源构造两种损失函数,对于来自源域数据集的图像
Figure PCTCN2021095647-appb-000038
其带有硬标签
Figure PCTCN2021095647-appb-000039
则计算基于硬标签的交叉熵损失如下:
Figure PCTCN2021095647-appb-000040
其中
Figure PCTCN2021095647-appb-000041
是输入图像
Figure PCTCN2021095647-appb-000042
对应身份是
Figure PCTCN2021095647-appb-000043
的概率。
没有标签的数据集称为目标域数据集,来自目标域数据集的图像可能以不同的概率属于多个身份,各个概率和为1,其标签称为软标签。对于目标域 的图像,先计算其软标签,其中,软标签的学习过程为:首先采用k-相互近邻编码的方法(k-reciprocal Encoding)得到目标特征向量的距离矩阵,其中,目标特征向量记为
Figure PCTCN2021095647-appb-000044
其次采用基于密度的聚类方法DBSCAN,将目标域的分割成K簇,记为
Figure PCTCN2021095647-appb-000045
在迭代过程中,聚类方法DBSCAN更新
Figure PCTCN2021095647-appb-000046
其中K是自动计算的。当
Figure PCTCN2021095647-appb-000047
属于簇C k时,
Figure PCTCN2021095647-appb-000048
接下来,对聚类得到的标签
Figure PCTCN2021095647-appb-000049
分配权重
Figure PCTCN2021095647-appb-000050
一般来说,靠近组中心C k的样本置信度较大,其中w i,k的计算公式如下:
Figure PCTCN2021095647-appb-000051
最后计算基于软标签的交叉熵损失如下:
Figure PCTCN2021095647-appb-000052
对于域特征向量,设计跨数据集与域相关的损失函数如下:
Figure PCTCN2021095647-appb-000053
其中,
Figure PCTCN2021095647-appb-000054
是输入图像
Figure PCTCN2021095647-appb-000055
属于源域D s的概率,
Figure PCTCN2021095647-appb-000056
是输入图像
Figure PCTCN2021095647-appb-000057
属于目标域D t的概率。
步骤S23、按照如下函数计算多尺度域适应注意力学习网络的多任务损失:
Figure PCTCN2021095647-appb-000058
步骤S24、判断上述多任务损失的值是否收敛,如果是,得到训练好的多尺度域适应注意力学习网络,执行步骤S25;否则,执行步骤S26。
在迭代n次之后,多任务损失的值变化幅度小于设定的阈值,则判断多任务损失的值达到收敛。
判断多损失是否收敛的做法有设置阈值、输出损失值的变化图像查看震荡等。
步骤S25:利用测试数据集对上述训练好的多尺度域适应注意力学习网络进行测试,判断测试结果是否较好,如果是,生成无监督域适应的目标重识别模型;否则,执行步骤S27。
训练好多尺度域适应注意力学习网络后,根据训练好的多尺度域适应注意力学习网络中的神经网络的各层的权值w和偏置b等参数,以及多尺度域适应注意力学习网络的结构构建无监督域适应的目标重识别模型。
无监督域适应的目标重识别模型的结果特征是:输入的图片经过模型后输到目标特征向量和域特征向量。最后,利用目标重识别模型判断不同摄像头下所获取的图像是否属于同一个目标物体或同一个身份的人。
步骤S26:利用梯度反向传播更新多尺度域适应注意力学习网络的参数,执行步骤S22。
利用梯度反向传播更新网络的权重w和偏置b,首先根据链式求导法则计算损失函数L total对w和b的偏导,然后采用梯度下降算法更新w和b。
步骤S27:调整目标重识别模型的学习率等参数,执行步骤S22。
综上所述,本发明实施例通过将伪标签分配为概率分布,避免了模型对不准确的伪标签的过拟合,根据训练数据和集群之间的关系分配一个标签分布,利用了聚类方法,利用软标签对未标记样本与聚类之间的关系进行建模。 由于聚类是在目标数据中计算的,因此聚类可以更好地对目标样本之间的关系进行建模。
本发明实施例提出的多尺度域适应注意力学习模块,不需要任何额外的标注,就可以通过将特征图分割成与目标相关的特征图和与域相关特征图来减少域差异。同时将特征图映射在不同尺度下,在多个尺度下进行分割,故而学习到更为准确的、仅仅与域相关的、多尺度的特征表示,从而达到了最优的性能。针对未标记的目标数据集,设计了一种基于软标签的目标身份损失模型。该模型将伪标签分配为概率分布,降低了估计所得的伪标签的可信度,所以避免了模型对不准确的伪标签的过拟合,并有效地挖掘了训练数据和各聚类中心之间的潜在关系。
本发明实施例提出了一种新的多尺度域适应注意力学习网络,提出一种在无监督情况下基于软标签的目标身份损失模型,通过挖掘各伪标签和聚类中心之间的关系,赋予每个伪标签一组属于各簇的概率值,而不是绝对的标签值。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同 之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (7)

  1. 一种无监督域适应的目标重识别方法,其特征在于,包括:
    构建多尺度域适应注意力学习网络;
    利用源域数据集和目标域数据集对所述多尺度域适应注意力学习网络进行训练,计算多尺度域适应注意力学习网络的多任务损失,在所述多任务损失的值收敛后,得到训练好的多尺度域适应注意力学习网络;
    利用训练好的多尺度域适应注意力学习网络构建无监督域适应的目标重识别模型,利用所述无监督域适应的目标重识别模型对输入的图像进行目标重识别处理。
  2. 根据权利要求1所述的方法,其特征在于,所述的构建多尺度域适应注意力学习网络,包括:
    构建多尺度域适应注意力学习网络,该多尺度域适应注意力学习网络包括:域适应注意力模块、目标相关特征的处理分支和域相关特征的处理分支三个组成部分,所述多尺度域适应注意力学习网络自适应地将全局特征划分为不同尺度下的目标特征和域特征,目标特征用来进行判别性学习,域特征被建模出来减弱负迁移。
  3. 根据权利要求1所述的方法,其特征在于,所述的利用源域数据集和目标域数据集对所述多尺度域适应注意力学习网络进行训练,包括:
    在任意目标重识别任务中,带有标签的数据集都为源域数据集,而没有标签的数据集都为目标域数据集,利用源域数据集和目标域数据集对多尺度域适应注意力学习网络进行训练,在训练过程中,输入为源域数据集和目标域数据集,在域适应注意力模块中,骨干网络为ResNet50,在ResNet50的每一个残差块后嵌入一个DAAM,再通过依次学习空间注意S(·)和通道注意C(·)两种互补注意机制,得到目标相关的特征表示,用1减去目标特征表示,得到 域特征表示,用当前残差块输出的特征表示与目标特征表示、域特征表示按元素相乘,分别得到目标特征图和域特征图;
    以此类推,对于目标特征和域特征都分别有四个不同层次的特征图,分别为:目标特征1、目标特征2、目标特征3、目标特征4及域特征1、域特征2、域特征3、域特征4,将所有层次的目标特征映射在空间降维后进行拼接,形成多尺度的目标特征和域特征;
    在目标特征的处理分支中,目标特征依次经过1*1滤波的卷积层、全局平均池化层、批处理归一化层和最后的全连接层,得到目标特征向量;
    在域相关特征的处理分支中,域相关特征依次经过1*1滤波的卷积层、全局平均池化层、批处理归一化层和最后的全连接层(FC),得到域特征向量。
  4. 根据权利要求3所述的方法,其特征在于,所述的计算多尺度域适应注意力学习网络的多任务损失,包括:
    对于任意一个域适应的目标重识别任务,设带有标记的源域数据集为
    Figure PCTCN2021095647-appb-100001
    而未标记的目标域数据集为
    Figure PCTCN2021095647-appb-100002
    其中
    Figure PCTCN2021095647-appb-100003
    代表来自源域数据集的图像,
    Figure PCTCN2021095647-appb-100004
    Figure PCTCN2021095647-appb-100005
    对应的身份标签,
    Figure PCTCN2021095647-appb-100006
    代表来自目标域数据集的图像,
    Figure PCTCN2021095647-appb-100007
    Figure PCTCN2021095647-appb-100008
    完全不重叠;
    对于来自源域数据集的图像
    Figure PCTCN2021095647-appb-100009
    其带有硬标签
    Figure PCTCN2021095647-appb-100010
    则计算基于硬标签的交叉熵损失如下:
    Figure PCTCN2021095647-appb-100011
    其中
    Figure PCTCN2021095647-appb-100012
    是输入图像
    Figure PCTCN2021095647-appb-100013
    对应身份是
    Figure PCTCN2021095647-appb-100014
    的概率。
    对于目标域的图像,先计算其软标签,再计算基于软标签的交叉熵损失如下:
    Figure PCTCN2021095647-appb-100015
    对于域特征向量,设计跨数据集与域相关的损失函数如下:
    Figure PCTCN2021095647-appb-100016
    其中,
    Figure PCTCN2021095647-appb-100017
    是输入图像
    Figure PCTCN2021095647-appb-100018
    属于源域D s的概率,
    Figure PCTCN2021095647-appb-100019
    是输入图像
    Figure PCTCN2021095647-appb-100020
    属于目标域D t的概率。
    按照如下函数计算多尺度域适应注意力学习网络的多任务损失:
    Figure PCTCN2021095647-appb-100021
  5. 根据权利要求4所述的方法,其特征在于,计算目标域的图像的软标签的过程包括:
    采用k-相互近邻编码的方法得到图像的目标特征向量的距离矩阵,其中,目标特征向量记为
    Figure PCTCN2021095647-appb-100022
    再采用基于密度的聚类方法DBSCAN将目标域分割成K簇,记为
    Figure PCTCN2021095647-appb-100023
    在迭代过程中,聚类方法DBSCAN更新
    Figure PCTCN2021095647-appb-100024
    其中K是自动计算的,当
    Figure PCTCN2021095647-appb-100025
    属于簇C k时,
    Figure PCTCN2021095647-appb-100026
    对聚类得到的标签
    Figure PCTCN2021095647-appb-100027
    分配权重
    Figure PCTCN2021095647-appb-100028
    其中w i,k的计算公式如下:
    Figure PCTCN2021095647-appb-100029
  6. 根据权利要求1至5任一项所述的方法,其特征在于,所述的在所述多任务损失的值收敛后,得到训练好的多尺度域适应注意力学习网络,包括:
    判断所述多任务损失的值是否收敛,如果是,得到训练好的多尺度域适应注意力学习网络;否则,利用梯度反向传播更新多尺度域适应注意力学习网络的参数,利用源域数据集和目标域数据集对更新后的多尺度域适应注意力学习网络进行训练,计算多尺度域适应注意力学习网络的多任务损失,直到所述多任务损失的值收敛。
  7. 根据权利要求6所述的方法,其特征在于,所述的利用训练好的多尺度域适应注意力学习网络构建无监督域适应的目标重识别模型,利用所述无监督域适应的目标重识别模型对输入的图像进行目标重识别处理,包括:
    利用测试数据集对训练好的多尺度域适应注意力学习网络进行测试,判断测试结果是否达标,如果是,根据训练好的多尺度域适应注意力学习网络中的神经网络的各层的权值和偏置参数,以及多尺度域适应注意力学习网络的结构构建无监督域适应的目标重识别模型;否则,利用梯度反向传播更新多尺度域适应注意力学习网络的参数,对更新后的多尺度域适应注意力学习网络进行训练和测试,直到测试结果达标;
    将待识别的图像输入到无监督域适应的目标重识别模型,该目标重识别模型根据图像的目标特征向量和域特征向量判断不同摄像头下所获取的图像是否属于同一个目标物体或同一个身份的人。
PCT/CN2021/095647 2020-06-28 2021-05-25 一种无监督域适应的目标重识别方法 WO2022001489A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010597480.X 2020-06-28
CN202010597480.XA CN111814854B (zh) 2020-06-28 2020-06-28 一种无监督域适应的目标重识别方法

Publications (1)

Publication Number Publication Date
WO2022001489A1 true WO2022001489A1 (zh) 2022-01-06

Family

ID=72855605

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/095647 WO2022001489A1 (zh) 2020-06-28 2021-05-25 一种无监督域适应的目标重识别方法

Country Status (2)

Country Link
CN (1) CN111814854B (zh)
WO (1) WO2022001489A1 (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359603A (zh) * 2022-02-18 2022-04-15 西北工业大学 一种多模态遥感图像领域自适应无监督匹配方法
CN114548165A (zh) * 2022-02-18 2022-05-27 中国科学技术大学 一种可跨用户的肌电模式分类方法
CN114547249A (zh) * 2022-02-24 2022-05-27 济南融瓴科技发展有限公司 一种基于自然语言和视觉特征的车辆检索方法
CN114565972A (zh) * 2022-02-23 2022-05-31 中国科学技术大学 骨架动作识别方法、系统、设备与存储介质
CN114581769A (zh) * 2022-01-19 2022-06-03 西南交通大学 一种基于无监督聚类的在建房屋识别方法
CN114612702A (zh) * 2022-01-24 2022-06-10 珠高智能科技(深圳)有限公司 基于深度学习的图像数据标注系统及其方法
CN114612961A (zh) * 2022-02-15 2022-06-10 哈尔滨工业大学(深圳) 一种多源跨域表情识别方法、装置及存储介质
CN114693972A (zh) * 2022-03-29 2022-07-01 电子科技大学 一种基于重建的中间域领域自适应方法
CN114758387A (zh) * 2022-04-02 2022-07-15 华南理工大学 基于单帧rgb图像的轻量级人脸反欺诈方法及装置
CN114882325A (zh) * 2022-07-12 2022-08-09 之江实验室 基于二阶段物体检测器的半监督物检测及训练方法、装置
CN114926877A (zh) * 2022-05-10 2022-08-19 西北工业大学 一种基于对比域差异的跨域人脸表情识别方法
CN114926657A (zh) * 2022-06-09 2022-08-19 山东财经大学 显著性目标检测方法及系统
CN114973317A (zh) * 2022-05-13 2022-08-30 杭州像素元科技有限公司 一种基于多尺度邻接交互特征的行人重识别方法
CN114973350A (zh) * 2022-03-24 2022-08-30 西北工业大学 一种源域数据无关的跨域人脸表情识别方法
CN114972920A (zh) * 2022-05-30 2022-08-30 西北工业大学 一种多层次无监督领域自适应目标检测识别方法
CN115050048A (zh) * 2022-05-25 2022-09-13 杭州像素元科技有限公司 一种基于局部细节特征的跨模态行人重识别方法
CN115082955A (zh) * 2022-05-12 2022-09-20 华南理工大学 一种深度学习全局优化方法、识别方法、装置及介质
CN115131961A (zh) * 2022-06-08 2022-09-30 北京理工大学 智能交通感知方法及装置
CN115331216A (zh) * 2022-08-11 2022-11-11 北京林业大学 核桃果实成熟度聚类识别方法、装置及系统和存储介质
CN115392326A (zh) * 2022-10-27 2022-11-25 中国人民解放军国防科技大学 基于联合多模态信息与域对抗神经网络的调制识别方法
CN115457420A (zh) * 2022-11-10 2022-12-09 松立控股集团股份有限公司 一种基于无人机拍摄夜间低对比度的车辆重检测方法
CN115452957A (zh) * 2022-09-01 2022-12-09 北京航空航天大学 基于注意力原型网络的小样本金属损伤识别方法
CN115578593A (zh) * 2022-10-19 2023-01-06 北京建筑大学 一种使用残差注意力模块的域适应方法
CN115661254A (zh) * 2022-12-08 2023-01-31 粤港澳大湾区数字经济研究院(福田) 一种多人姿态估计方法及相关装置
CN115690589A (zh) * 2022-12-30 2023-02-03 松立控股集团股份有限公司 一种基于交叉尺度协同约束的车辆重识别方法
CN115761383A (zh) * 2023-01-06 2023-03-07 北京匠数科技有限公司 一种图像分类方法、装置、电子设备及介质
CN115859837A (zh) * 2023-02-23 2023-03-28 山东大学 基于数字孪生建模的风机叶片动态冲击检测方法及系统
CN115909464A (zh) * 2022-12-26 2023-04-04 淮阴工学院 一种面向行人重识别的自适应弱监督标签标记方法
CN116129473A (zh) * 2023-04-17 2023-05-16 山东省人工智能研究院 基于身份引导的联合学习换衣行人重识别方法及系统
CN116246349A (zh) * 2023-05-06 2023-06-09 山东科技大学 一种基于渐进式子域挖掘的单源域领域泛化步态识别方法
CN116311387A (zh) * 2023-05-25 2023-06-23 浙江工业大学 一种基于特征交集的跨模态行人重识别方法
CN116540204A (zh) * 2023-07-05 2023-08-04 中南大学 一种行为识别方法、装置、终端设备及介质
CN117390685A (zh) * 2023-12-07 2024-01-12 湖北省楚天云有限公司 一种基于遗忘学习的行人重识别数据隐私保护方法和系统
CN117528233A (zh) * 2023-09-28 2024-02-06 哈尔滨航天恒星数据系统科技有限公司 变焦倍数识别及目标重识别数据集制作方法
CN117556866A (zh) * 2024-01-09 2024-02-13 南开大学 一种无源域图的数据域适应网络构建方法
CN117612266A (zh) * 2024-01-24 2024-02-27 南京信息工程大学 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法
CN117528233B (zh) * 2023-09-28 2024-05-17 哈尔滨航天恒星数据系统科技有限公司 变焦倍数识别及目标重识别数据集制作方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11257255B2 (en) * 2019-12-03 2022-02-22 Leica Microsystems Cms Gmbh Domain matching methods for transportable imaging applications
CN111814854B (zh) * 2020-06-28 2023-07-28 北京交通大学 一种无监督域适应的目标重识别方法
CN112528788B (zh) * 2020-12-01 2023-11-21 重庆兆光科技股份有限公司 一种基于域不变特征和时空特征的重识别方法
CN112749734B (zh) * 2020-12-29 2024-01-05 北京环境特性研究所 一种基于可迁移注意力机制的领域自适应的目标检测方法
CN112784772B (zh) * 2021-01-27 2022-05-27 浙江大学 一种基于对比学习的相机内有监督跨相机行人重识别方法
CN113011456B (zh) * 2021-02-05 2022-07-15 中国科学技术大学 用于图像分类的基于类别自适应模型的无监督域适应方法
CN112860936B (zh) * 2021-02-19 2022-11-29 清华大学 一种基于稀疏图相似度迁移的视觉行人重识别方法
CN113221656B (zh) * 2021-04-13 2022-07-22 电子科技大学 基于域不变特征的跨域行人重识别装置及其方法
CN113095263B (zh) * 2021-04-21 2024-02-20 中国矿业大学 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置
CN113158901B (zh) * 2021-04-22 2023-04-07 天津大学 一种域自适应行人重识别方法
CN113112005A (zh) * 2021-04-27 2021-07-13 南京大学 一种基于注意力机制的领域自适应方法
CN113469219B (zh) * 2021-06-08 2022-08-30 中国地质大学(武汉) 基于元迁移学习的复杂工况下的旋转机械故障诊断方法
CN114140826A (zh) * 2021-12-03 2022-03-04 北京交通大学 一种基于相机特征分离的目标重识别方法
CN114821097B (zh) * 2022-04-07 2023-04-18 西南交通大学 一种基于迁移学习的多尺度特征图像分类方法
CN116912889B (zh) * 2023-09-12 2024-01-05 深圳须弥云图空间科技有限公司 行人重识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977918A (zh) * 2019-04-09 2019-07-05 华南理工大学 一种基于无监督域适应的目标检测定位优化方法
US20200082221A1 (en) * 2018-09-06 2020-03-12 Nec Laboratories America, Inc. Domain adaptation for instance detection and segmentation
CN111126360A (zh) * 2019-11-15 2020-05-08 西安电子科技大学 基于无监督联合多损失模型的跨域行人重识别方法
CN111242157A (zh) * 2019-11-22 2020-06-05 北京理工大学 联合深度注意力特征和条件对抗的无监督域自适应方法
CN111325111A (zh) * 2020-01-23 2020-06-23 同济大学 一种融合逆注意力和多尺度深度监督的行人重识别方法
CN111814854A (zh) * 2020-06-28 2020-10-23 北京交通大学 一种无监督域适应的目标重识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145900B (zh) * 2017-04-24 2019-07-26 清华大学 基于一致性约束特征学习的行人再识别方法
US11216954B2 (en) * 2018-04-18 2022-01-04 Tg-17, Inc. Systems and methods for real-time adjustment of neural networks for autonomous tracking and localization of moving subject
CN111259850B (zh) * 2020-01-23 2022-12-16 同济大学 一种融合随机批掩膜和多尺度表征学习的行人重识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200082221A1 (en) * 2018-09-06 2020-03-12 Nec Laboratories America, Inc. Domain adaptation for instance detection and segmentation
CN109977918A (zh) * 2019-04-09 2019-07-05 华南理工大学 一种基于无监督域适应的目标检测定位优化方法
CN111126360A (zh) * 2019-11-15 2020-05-08 西安电子科技大学 基于无监督联合多损失模型的跨域行人重识别方法
CN111242157A (zh) * 2019-11-22 2020-06-05 北京理工大学 联合深度注意力特征和条件对抗的无监督域自适应方法
CN111325111A (zh) * 2020-01-23 2020-06-23 同济大学 一种融合逆注意力和多尺度深度监督的行人重识别方法
CN111814854A (zh) * 2020-06-28 2020-10-23 北京交通大学 一种无监督域适应的目标重识别方法

Cited By (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581769A (zh) * 2022-01-19 2022-06-03 西南交通大学 一种基于无监督聚类的在建房屋识别方法
CN114612702A (zh) * 2022-01-24 2022-06-10 珠高智能科技(深圳)有限公司 基于深度学习的图像数据标注系统及其方法
CN114612961B (zh) * 2022-02-15 2023-04-07 哈尔滨工业大学(深圳) 一种多源跨域表情识别方法、装置及存储介质
CN114612961A (zh) * 2022-02-15 2022-06-10 哈尔滨工业大学(深圳) 一种多源跨域表情识别方法、装置及存储介质
CN114359603A (zh) * 2022-02-18 2022-04-15 西北工业大学 一种多模态遥感图像领域自适应无监督匹配方法
CN114548165A (zh) * 2022-02-18 2022-05-27 中国科学技术大学 一种可跨用户的肌电模式分类方法
CN114359603B (zh) * 2022-02-18 2024-03-15 西北工业大学 一种多模态遥感图像领域自适应无监督匹配方法
CN114548165B (zh) * 2022-02-18 2024-04-02 中国科学技术大学 一种可跨用户的肌电模式分类方法
CN114565972B (zh) * 2022-02-23 2024-04-02 中国科学技术大学 骨架动作识别方法、系统、设备与存储介质
CN114565972A (zh) * 2022-02-23 2022-05-31 中国科学技术大学 骨架动作识别方法、系统、设备与存储介质
CN114547249A (zh) * 2022-02-24 2022-05-27 济南融瓴科技发展有限公司 一种基于自然语言和视觉特征的车辆检索方法
CN114973350B (zh) * 2022-03-24 2024-02-27 西北工业大学 一种源域数据无关的跨域人脸表情识别方法
CN114973350A (zh) * 2022-03-24 2022-08-30 西北工业大学 一种源域数据无关的跨域人脸表情识别方法
CN114693972A (zh) * 2022-03-29 2022-07-01 电子科技大学 一种基于重建的中间域领域自适应方法
CN114693972B (zh) * 2022-03-29 2023-08-29 电子科技大学 一种基于重建的中间域领域自适应方法
CN114758387B (zh) * 2022-04-02 2024-03-29 华南理工大学 基于单帧rgb图像的轻量级人脸反欺诈方法及装置
CN114758387A (zh) * 2022-04-02 2022-07-15 华南理工大学 基于单帧rgb图像的轻量级人脸反欺诈方法及装置
CN114926877A (zh) * 2022-05-10 2022-08-19 西北工业大学 一种基于对比域差异的跨域人脸表情识别方法
CN114926877B (zh) * 2022-05-10 2024-02-20 西北工业大学 一种基于对比域差异的跨域人脸表情识别方法
CN115082955A (zh) * 2022-05-12 2022-09-20 华南理工大学 一种深度学习全局优化方法、识别方法、装置及介质
CN115082955B (zh) * 2022-05-12 2024-04-16 华南理工大学 一种深度学习全局优化方法、识别方法、装置及介质
CN114973317A (zh) * 2022-05-13 2022-08-30 杭州像素元科技有限公司 一种基于多尺度邻接交互特征的行人重识别方法
CN114973317B (zh) * 2022-05-13 2023-04-28 杭州像素元科技有限公司 一种基于多尺度邻接交互特征的行人重识别方法
CN115050048A (zh) * 2022-05-25 2022-09-13 杭州像素元科技有限公司 一种基于局部细节特征的跨模态行人重识别方法
CN114972920A (zh) * 2022-05-30 2022-08-30 西北工业大学 一种多层次无监督领域自适应目标检测识别方法
CN114972920B (zh) * 2022-05-30 2024-03-12 西北工业大学 一种多层次无监督领域自适应目标检测识别方法
CN115131961B (zh) * 2022-06-08 2023-11-10 北京理工大学 智能交通感知方法及装置
CN115131961A (zh) * 2022-06-08 2022-09-30 北京理工大学 智能交通感知方法及装置
CN114926657A (zh) * 2022-06-09 2022-08-19 山东财经大学 显著性目标检测方法及系统
CN114926657B (zh) * 2022-06-09 2023-12-19 山东财经大学 显著性目标检测方法及系统
CN114882325A (zh) * 2022-07-12 2022-08-09 之江实验室 基于二阶段物体检测器的半监督物检测及训练方法、装置
CN114882325B (zh) * 2022-07-12 2022-12-02 之江实验室 基于二阶段物体检测器的半监督物检测及训练方法、装置
CN115331216A (zh) * 2022-08-11 2022-11-11 北京林业大学 核桃果实成熟度聚类识别方法、装置及系统和存储介质
CN115452957B (zh) * 2022-09-01 2024-04-12 北京航空航天大学 基于注意力原型网络的小样本金属损伤识别方法
CN115452957A (zh) * 2022-09-01 2022-12-09 北京航空航天大学 基于注意力原型网络的小样本金属损伤识别方法
CN115578593A (zh) * 2022-10-19 2023-01-06 北京建筑大学 一种使用残差注意力模块的域适应方法
CN115392326B (zh) * 2022-10-27 2024-03-19 中国人民解放军国防科技大学 基于联合多模态信息与域对抗神经网络的调制识别方法
CN115392326A (zh) * 2022-10-27 2022-11-25 中国人民解放军国防科技大学 基于联合多模态信息与域对抗神经网络的调制识别方法
CN115457420A (zh) * 2022-11-10 2022-12-09 松立控股集团股份有限公司 一种基于无人机拍摄夜间低对比度的车辆重检测方法
CN115661254A (zh) * 2022-12-08 2023-01-31 粤港澳大湾区数字经济研究院(福田) 一种多人姿态估计方法及相关装置
CN115661254B (zh) * 2022-12-08 2023-05-16 粤港澳大湾区数字经济研究院(福田) 一种多人姿态估计方法及相关装置
CN115909464A (zh) * 2022-12-26 2023-04-04 淮阴工学院 一种面向行人重识别的自适应弱监督标签标记方法
CN115909464B (zh) * 2022-12-26 2024-03-26 淮阴工学院 一种面向行人重识别的自适应弱监督标签标记方法
CN115690589A (zh) * 2022-12-30 2023-02-03 松立控股集团股份有限公司 一种基于交叉尺度协同约束的车辆重识别方法
CN115690589B (zh) * 2022-12-30 2023-04-04 松立控股集团股份有限公司 一种基于交叉尺度协同约束的车辆重识别方法
CN115761383A (zh) * 2023-01-06 2023-03-07 北京匠数科技有限公司 一种图像分类方法、装置、电子设备及介质
CN115859837A (zh) * 2023-02-23 2023-03-28 山东大学 基于数字孪生建模的风机叶片动态冲击检测方法及系统
CN116129473A (zh) * 2023-04-17 2023-05-16 山东省人工智能研究院 基于身份引导的联合学习换衣行人重识别方法及系统
CN116246349B (zh) * 2023-05-06 2023-08-15 山东科技大学 一种基于渐进式子域挖掘的单源域领域泛化步态识别方法
CN116246349A (zh) * 2023-05-06 2023-06-09 山东科技大学 一种基于渐进式子域挖掘的单源域领域泛化步态识别方法
CN116311387B (zh) * 2023-05-25 2023-09-01 浙江工业大学 一种基于特征交集的跨模态行人重识别方法
CN116311387A (zh) * 2023-05-25 2023-06-23 浙江工业大学 一种基于特征交集的跨模态行人重识别方法
CN116540204A (zh) * 2023-07-05 2023-08-04 中南大学 一种行为识别方法、装置、终端设备及介质
CN116540204B (zh) * 2023-07-05 2023-09-05 中南大学 一种行为识别方法、装置、终端设备及介质
CN117528233B (zh) * 2023-09-28 2024-05-17 哈尔滨航天恒星数据系统科技有限公司 变焦倍数识别及目标重识别数据集制作方法
CN117528233A (zh) * 2023-09-28 2024-02-06 哈尔滨航天恒星数据系统科技有限公司 变焦倍数识别及目标重识别数据集制作方法
CN117390685B (zh) * 2023-12-07 2024-04-05 湖北省楚天云有限公司 一种基于遗忘学习的行人重识别数据隐私保护方法和系统
CN117390685A (zh) * 2023-12-07 2024-01-12 湖北省楚天云有限公司 一种基于遗忘学习的行人重识别数据隐私保护方法和系统
CN117556866B (zh) * 2024-01-09 2024-03-29 南开大学 一种无源域图的数据域适应网络构建方法
CN117556866A (zh) * 2024-01-09 2024-02-13 南开大学 一种无源域图的数据域适应网络构建方法
CN117612266A (zh) * 2024-01-24 2024-02-27 南京信息工程大学 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法
CN117612266B (zh) * 2024-01-24 2024-04-19 南京信息工程大学 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法

Also Published As

Publication number Publication date
CN111814854B (zh) 2023-07-28
CN111814854A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
WO2022001489A1 (zh) 一种无监督域适应的目标重识别方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
Nie et al. Disease inference from health-related questions via sparse deep learning
CN111126574B (zh) 基于内镜图像对机器学习模型进行训练的方法、装置和存储介质
WO2023000574A1 (zh) 一种模型训练方法、装置、设备及可读存储介质
WO2020228525A1 (zh) 地点识别及其模型训练的方法和装置以及电子设备
WO2021139191A1 (zh) 数据标注的方法以及数据标注的装置
Liu et al. Data-free knowledge transfer: A survey
CN112069884B (zh) 一种暴力视频分类方法、系统和存储介质
US20220059117A1 (en) Methods and Systems for Implementing On-Device Non-Semantic Representation Fine-Tuning for Speech Classification
CN110647904A (zh) 一种基于无标记数据迁移的跨模态检索方法及系统
WO2023179429A1 (zh) 一种视频数据的处理方法、装置、电子设备及存储介质
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
WO2021142904A1 (zh) 视频分析方法及其相关的模型训练方法、设备、装置
CN113283368B (zh) 一种模型训练方法、人脸属性分析方法、装置及介质
JP2022548187A (ja) 対象再識別方法および装置、端末並びに記憶媒体
CN115695950B (zh) 一种基于内容感知的视频摘要生成方法
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
WO2022222854A1 (zh) 一种数据处理方法及相关设备
Zhao et al. Deeply supervised active learning for finger bones segmentation
CN110867225A (zh) 字符级临床概念提取命名实体识别方法及系统
He et al. On-device deep multi-task inference via multi-task zipping
CN114048314A (zh) 一种自然语言隐写分析方法
Wu et al. Person re-identification by ranking ensemble representations
CN112380427A (zh) 基于迭代图注意力网络的用户兴趣预测方法及电子装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21834508

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 09.05.2023)

122 Ep: pct application non-entry in european phase

Ref document number: 21834508

Country of ref document: EP

Kind code of ref document: A1