CN111914156A

CN111914156A - 自适应标签感知的图卷积网络跨模态检索方法、系统

Info

Publication number: CN111914156A
Application number: CN202010819729.7A
Authority: CN
Inventors: 徐常胜; 钱胜胜; 方全
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-10
Anticipated expiration: 2040-08-14
Also published as: CN111914156B

Abstract

本发明属于检索领域，具体涉及一种自适应标签感知的图卷积网络跨模态检索方法、系统，旨在为了解决解决现有跨模态检索方法中因忽略标签的底层语义结构带来的检索精准度不高的问题。本发明方法包括：基于第一子网络，获取输入信息的跨模态表示；基于分类器，获得所述输入信息的预测分类；其中，所述第一子网络，配置为对输入信息进行特征提取，并通过模态转换函数，映射到统一空间中，得到输入信息的跨模态表示；所述分类器，通过第二子网络生成；所述第二子网络，配置为基于标签与标签关系构造的图，获取该图的特征矩阵，并基于自适应关联矩阵，通过图卷积网络生成分类器。本发明可以更好地保留底层语义结构，缩小模态鸿沟，提高了跨模态检索的准确度。

Description

自适应标签感知的图卷积网络跨模态检索方法、系统

技术领域

本发明属于检索领域，具体涉及一种自适应标签感知的图卷积网络跨模态检索方法、系统。

背景技术

随着互联网和多媒体的快速发展，文本、图像、视频、音频等多模态数据爆炸式增长，成为知识获取和信息传播的主要形式。单模态检索是用一种模态的数据(如文本)作为查询条件，检索出相同模态(还是文本)的语义相似数据。跨模态搜索是使用一种模态的数据(如文本)作为查询条件，检索出其他模态(如图像)的语义相似数据。跨模态检索具有广泛的应用前景，如多媒体数据管理和智能搜索引擎。

不同模态的数据具有异质性，弥补模态差异的常用方法是表示学习，它将来自不同模态的数据投影到一个共同的特征表示子空间中。跨模态检索的技术方法分为两类：(1)实值表示学习(2)二值表示学习。实值表示学习是将不同模态的数据用一种通用的实数表示方法来表示，通过距离度量(如余弦距离、欧氏距离等)进行相关度排序的方法。二值表示学习是将不同模态的数据投影到一个公共的汉明空间，得到二值哈希码表示，通过度量汉明距离进行相关度排序的方法。这两类方法中有线性的方法也有非线性的方法。深度神经网络是自动学习特征表示的新兴技术，基于深度神经网络的跨模态检索已经成为挖掘非线性关系的活跃研究课题，并取得了很大的性能改进，所以基于深度学习的跨模态检索方法越来越受欢迎。

跨模态检索的核心是如何将不同模态的数据投影到一个可以直接测量不同类型数据之间内容相似度的公共表示空间中。然而，现有的方法通常将每个标签视为独立的个体，而忽略了标签的底层语义结构。近年来，图卷积神经网络(Graph ConvolutionalNetworks,GCN)因其对由元素构成的数据及其依赖关系的出色建模能力而受到越来越多的关注，并在多标签分类任务中取得了优异的表现。受其激发，我们利用GCNs在挖掘关系方面的优势，并根据标签之间的语义相关性来学习分类器。我们通过在公共表示空间中设计实例表示学习分支和标签表示学习分支，提出了一种端到端的自适应标签感知图卷积网络(ALGCN)，该网络可以获得跨模态检索的模态不变和可区分表示。

发明内容

为了解决现有技术中的上述问题，即为了解决现有跨模态检索方法中因忽略标签的底层语义结构带来的检索精准度不高的问题，本发明第一方面，提出了一种自适应标签感知的图卷积网络跨模态检索方法，包括以下步骤：

步骤S100，基于第一子网络，获取输入信息的跨模态表示；

步骤S200，基于分类器，获得所述输入信息的预测分类；

其中，

所述第一子网络，配置为对输入信息进行特征提取，并通过模态转换函数，映射到统一空间中，得到输入信息的跨模态表示；

所述分类器，通过第二子网络生成；所述第二子网络，配置为基于标签与标签关系构造的图，获取该图的特征矩阵，并基于自适应关联矩阵，通过图卷积网络生成分类器。

在一些优选实施例中，所述第一子网络、所述分类器通过联合训练的方式进行优化获得，其训练网络包括第一子网络、第二子网络；

基于第一子网络获取训练输入样本的跨模态表示，基于第二子网络生成的分类器获取预测结果，并基于预设损失函数进行训练，获得训练后的第一子网络、分类器。

在一些优选实施例中，所述预设损失函数通过最小化同类别公共表示的分类损失、最大化不同类别的公共表示的模态不变损失的方法构建。

在一些优选实施例中，所述预设损失函数为

其中，

为分类损失，

为模态不变损失，α为权重系数。

在一些优选实施例中，分类损失

为

其中，n为图像文本对数量，

为第i个图像文本对中图像样本的预测标签，

为第i个图像文本对中文本样本的预测标签，y_i为第i个图像文本对的语义标签向量。

在一些优选实施例中，模态不变损失

为

其中，Γ_ij表示图像模态v_i与文本模态t_j间余弦相似度，

表示图像与文本模态间点积相似度，

表示图像与图像模态内点积相似度，

表示文本与文本模态内点积相似度，

Φ_ij表示文本模态内余弦相似度，

Θ_ij表示图片模态内余弦相似度，

在一些优选实施例中，所述模态转换函数为

其中，v_i为图像模态，t_i为文本模态，d为统一空间的维数，R^d表示d维向量，

表示图像模态的转换函数，其中θ_v为可训练参数集合，

表示文本模态的转换函数，其中θ_t为可训练参数集合。。

在一些优选实施例中，所述自适应关联矩阵为

A＝ReLU(C+γD)

其中，ReLU()为激活函数，D∈R^c×c，D为可训练的关联矩阵，R^c×c为表示c×c的矩阵，C为固定的关联矩阵，γ为权衡参数。

本发明的第二方面，提出了一种自适应标签感知的图卷积网络跨模态检索系统，包括第一模块、第二模块；

所述第一模块，配置为基于第一子网络，获取输入信息的跨模态表示；

所述第二模块，配置为基于分类器，获得所述输入信息的预测分类；

其中，

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的自适应标签感知的图卷积网络跨模态检索方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的自适应标签感知的图卷积网络跨模态检索方法。

本发明的有益效果：

本发明的跨模态检索的公共表示可以更好地保留底层语义结构，缩小模态鸿沟；本发明通过第一子网络、第二子网络构建的联合训练框架，能够保持实例间的跨模态语义关联，挖掘标签潜在的语义结构；本发明的自适应关联矩阵，以数据驱动的方式动态地挖掘标签之间丰富的语义关系，使之更具通用性，以适应跨模态数据。本发明解决了跨模态检索方法中因忽略标签的底层语义结构带来的检索精准度不高的问题，提高了跨模态检索的准确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的自适应标签感知的图卷积网络跨模态检索方法流程示意图；

图2是发明一种实施例中由第一子网络、第二子网络构成的联合训练框架示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明要解决的技术问题有以下几个方面：

(1)现有的方法通常将每个标签视为独立的个体，忽略了标签的潜在语义结构。

在跨模态数据集中，每个样本包含多个标签，其中多个标签之间的语义依赖对跨模态学习很重要。比如，我们可以看到“云”和“天空”一起出现，“海洋”很有可能与“海滩”相邻。在物理世界中，一些标签的组合几乎不可能出现。因此，需要利用标签相关性来获得跨模态协同检索的综合表示。我们通过在公共表示空间中设计实例表示学习分支和标签表示学习分支，提出了一种端到端的自适应标签感知图卷积网络，可以获得模态不变的、有区别的跨模检索表示。

(2)传统的表示学习方法是线性映射，很难捕捉相关性

深度神经网络(deep neural networks)作为一种新兴的自动学习特征表示的技术，越来越多地应用于跨模态检索任务中。基于深度神经网络(DNN)的跨模态检索已经成为利用非线性关系的一个活跃的研究课题，并取得了很大的性能改进。实例表示学习分支和标签表示学习分支采用深度神经网络，通过转换函数将特征映射到统一空间，来捕捉相关性。

(3)GCN网络中关联矩阵是固定的，我们采用自适应关联矩阵

我们引入了一个自适应关联矩阵，以数据驱动的方式动态地挖掘标签之间丰富的语义关系，这可以增加模型的图形构建灵活性，并带来更大的通用性，以适应跨模态数据。

为此，提出了本发明的一种自适应标签感知的图卷积网络跨模态检索方法，如图1所示，包括以下步骤：

步骤S100，基于第一子网络，获取输入信息的跨模态表示；

步骤S200，基于分类器，获得所述输入信息的预测分类；

其中，

为了更清晰地对本发明自适应标签感知的图卷积网络跨模态检索方法进行说明，下面结合附图对本方发明方法一种实施例中各步骤进行展开详述。

在对本发明自适应标签感知的图卷积网络跨模态检索方法进行说明之前，对该方法所依托的网络结构进行说明将更有利于本发明技术方案的说明。

本发明的第一子网络和分类器是基于由第一子网络、第二子网络构成的联合训练框架(如图2所示)，通过样本数据训练获取。

1、第一子网络

第一子网络为实例表示学习分支，其用于得到数据的跨模态表示。将图片和文本的特征，通过模态转换函数，映射到统一空间中，得到数据的跨模态表示。可以在公共表示空间中直接比较不同模态的样本的相似度来进行检索。本实施例中可以采用端到端的自适应标签感知图卷积网络(ALGCN)来学习跨模态检索的公共表示。

(1)样本数据的表示

样本数据(instance)包括图像(image)和文本(text)数据，通过图像文本(image-text)对的方式体现。例如输入信息可以为图2所示图像模态、文本模态。

n个image-text对表示为：

其中，

为第i个instance的image样本特征，

为第i个instance的text样本特征，d_v、d_t分别为图像、文本的特征维度，

表示d_v维的向量、

表示d_t维的向量。

每个图像文本对

分配的语义标签向量y_i为：

y_i＝[y_i1,y_i2,…,y_ic]∈R^c

其中，c为类别数目，R^c表示c维向量。

(2)相似度度量

由于图像、文本的特征向量属于不同的模态，不能直接比较相似度，因此需通过不同模态的转换函数将图像和文本的特征向量映射到一个统一空间，在统一表示空间中直接比较这两个模态的样本的相似度，同一类别样本的相似度大于不同类别样本的相似度。

不同模态的转换函数如下：

其中，v_i为图像模态，t_i为文本模态，d为统一空间的维数，θ_v、θ_t可训练参数，R^d表示d维向量，

表示图像模态的转换函数，其中θ_v为参数集合，

表示文本模态的转换函数，其中θ_t为参数集合。

(3)实例表示学习分支的构成

本实施例中，实例表示学习分支包括两个子网络：图像跨模态表示获取网络(ImgNet)、文本跨模态表示获取网络(TxtNet)。

ImgNet用于图像模态的特征学习。骨干网络为VGGNet的图像卷积网络，输入是原始图像，从VGGNet的fc7层生成4096维特征向量作为图像的高级语义表示

然后应用几个全连接层将

映射到公共空间得到v_i。

其中，1≤i≤n，θ_v＝{θ_cnn,θ_fv}，fc表示全连接层的下标，f_fc()表示实现全连接层的函数，cnn表示提取图像特征的网络，f_cnn()表示实现cnn的函数，θ_cnn为cnn网络参数集合，该参数集合是预训练参数，fv表示全连接层中图像相关参数的下标，θ_fv为全连接层图像相关参数集合，改参数集合是优化参数。

TxtNet用于文本模态的特征学习。骨干网络为多层全连接(Multi-LayerPerception)的文本多层感知机，输入是样本数据集提供的词袋特征，经过多层全连接生成高级语义表示

然后应用几个全连接层将

映射到统一空间得到t_i。

其中，1≤i≤n，θ_t＝{θ_mlp,θ_ft}，mlp为代表多层感知机的下标，mlp网络用来提取文本特征，f_mlp()为实现mlp的函数，θ_mlp为mlp网络参数集合，该参数集合是预训练参数，θ_ft为全连接层文本相关参数集合，该参数集合是优化参数。

2、第二子网络

第二子网络为标签表示学习分支，用于得到分类器。如图2所示，基于标签与标签关系构造的图，获取该图的特征矩阵，并基于自适应关联矩阵，通过图卷积网络(GCN)生成分类器

(1)生成分类器的过程描述

该分支中，将标签(label)构造成一个图G，节点V为标签，边E为标签间的关系：

图的每个节点都与一个特征向量相关联，根据图G得到图的特征矩阵Q如下，其中d₍₀₎维特征矩阵代表所有顶点的特征

其中，q_i为第i个节点的特征，d₍₀₎为label-level wording embedding(标签级别词嵌入向量)的维度，

表示c×d₍₀₎的矩阵。

本发明引入自适应关联矩阵A∈R^c×c(具体实现见下文)，矩阵A为c×c的矩阵，其中每一项为A_ij，代表GCN的权重矩阵，矩阵A和label embedding(标签嵌入向量)经过图卷积网络(GCN)生成分类器：

其中Z是c×d的矩阵。

(2)自适应关联矩阵

自适应关联矩阵A是基于统计信息结合动态自适应矩阵形成的。

首先，计算条件概率P(L_j|L_i)，P(L_j|L_i)表示label L_iL_j共现的可能性：

其中：M_ij为label对的共现频率，即label i和label j的共现频率，N_j为label j的出现频率。

然而P_ij作为关联矩阵时有两个问题：(1)长尾分布造成了一些噪声信息；(2)容易出现过拟合，影响泛化能力。

所以本发明引入二值化过程，得到二值化关联矩阵B_ij，阈值为τ：

同时，为了解决B_ij导致的过度平滑，不同节点的特征难以区分的问题，本发明采用重新加权策略，得到了新的关联矩阵C_ij：

其中，p为决定节点本身及相邻节点的权重，选择合适的p，可以以适当的方式集成来自不同节点的传播信息，p→0时，邻近节点的信息被完全忽略。

但是重新加权策略不能准确地保持标签的语义结构，为了更好的动态更新、优化关联矩阵，本发明引入自适应机制(adaptive)，

最终得到的关联矩阵A的形式如下：

A＝ReLU(C+γD)

其中，ReLU()为激活函数，D∈R^c×c，D为关联矩阵，该矩阵可训练，以数据驱动的方式参数化、优化，R^c×c为表示c×c的矩阵，C为固定的关联矩阵，其中的项为C_ij，γ为权衡参数。

关联矩阵A，可训练，以数据驱动的方式参数化、优化。

3、联合训练框架

基于由第一子网络、第二子网络构建联合训练框架，在训练过程中基于第一子网络得到的数据跨模态表示、和第二子网络得到的分类器共同作用进行预测。

实例表示学习与标签表示学习结合，将标签表示学习得到的分类器Z应用于实例表示学习分支得到的跨模态表示，得到预测分数，如下：

其中，

为第i个image属于第j类的预测分数，

为第i个text属于第j类的预测分数，z_j为分类器

的第j列，代表第j类分类器向量，classifiers为分类器，predicted score为预测得分。

4、损失函数

本实施例的损失函数通过最小化同类别公共表示的分类损失、最大化不同类别的公共表示的模态不变损失的方法构建。

损失函数

可表示为

其中，

为分类损失，

为模态不变损失，α为权重系数。

分类损失

为

其中，n为图像文本对数量，

为第i个图像文本对中图像样本的预测标签，

模态不变损失＝模态间损失+模态内损失。模态不变损失

为

其中，其中，Γ_ij表示图像模态v_i与文本模态t_j间余弦相似度，

表示图像与文本模态间点积相似度，

表示图像与图像模态内点积相似度，

表示文本与文本模态内点积相似度，

Φ_ij表示文本模态内余弦相似度，

Θ_ij表示图片模态内余弦相似度，

模态不变损失中第一项可以写成

当

时，最小化这项相当于最小化Γ_ij，Γ_ij越大

中这项越重要。

基于上述的第一子网络、第二子网络、损失函数，通过训练样本数据进行训练获得训练后的第一子网络、分类器，并基于训练后的第一子网络、分类器构建跨模态检测网络，基于跨模态检测网络，本发明的自适应标签感知的图卷积网络跨模态检索方法包括：

步骤S100，基于第一子网络，获取输入信息的跨模态表示；

步骤S200，基于分类器，获得所述输入信息的预测分类；

步骤S300，选取各预测分类的概率值中最大的作为最终的分类结果。

为了评估本发明，本发明采用NUS_WIDE数据，NUS_WIDE数据库是计算机视觉领域常用的数据库，这是由新加坡国立大学的媒体搜索实验室创建的网络图像数据集。数据集中有269648个image-text对，有label信息的有190421对，共21种类别；Image是224*224的RGB数组；text是维度为1000的tag vector(标签向量)。

表1是本发明实施例的方法与其他方法的比较情况，实验时随机选取2000对作为测试集，其余的作为训练集。我们采用mAP(Mean Average Precision，平均精度均值)作为评价指标：

其中，R为检索结果的个数，N：查询的ground-truth(真实数据)相似实例的数量，P(r)为前r个查询实例的准确率，δ(r)＝1表示第r个查询实例与查询条件相似，δ(r)＝0表示第r个查询实例与查询条件不相似。

表1

其中，Image2Text为用图片搜索文本的任务，Text2Image为用文本搜索图片的任务，Average为计算的到均值；

CFA：Cross-modal Factor Analysis(跨模态因子分析)；

CCA：Canonical Correlation Analysis(典型相关分析)；

PLS-C2A：Partial Least Squares Canonical algorithm(偏最小二乘法)；

JRL：Joint Representation Learning(联合表示学习)；

Multimodal DBN：multimodal Deep Belief Network(多模态深度信念网络)；

Corr-AE：correspondence autoencoder(对应自编码器)；

DCCA：Deep Canonical Correlation Analysis(深度典型相关分析)；

ml-CCA(Multi-Label Canonical Correlation Analysis，多标签典型相关分析)可以利用多标签信息，同时学习两种模态的共同语义空间，解决了CCA无法考虑高级的语义信息，比如数据的类标签的缺点；

ACMR(Adversarial cross-modal retrieval，对抗跨模态检索)将GAN在domainadaptation中的应用借鉴到了跨媒体检索中，让不同模态数据在语义层面(同模态内部、跨模态之间)融合的更好；

DSCMR(Deep Supervised Cross-modal Retrieval，深度监督跨模态检索)是找到一个共同的表示空间，在这个空间中可以直接比较来自不同模式的样本；

ALGCN(Adaptive Label-aware Graph Convolutional Networks for

Cross-Modal Retrieval，自适应标签感知的图卷积网络跨模态检索)是我们的模型，它由实例表示学习分支和标签表示学习分支构建的联合训练框架，它能够保持实例间的跨模态语义关联，挖掘标签潜在的语义结构；此外，还提出了一种自适应关联矩阵，以数据驱动的方式动态地挖掘标签之间丰富的语义关系，使之更具通用性，以适应跨模态数据。

从表1可以看出，相比于其他的方法，本方法ALGCN在跨模态检索中取得显著的效果，我们的方法用GCN了，结合充分利用标签的潜在语义结构，采用灵活的自适应关联矩阵，可以更好的实现跨模态检索。

本发明第二实施例的一种自适应标签感知的图卷积网络跨模态检索系统，包括第一模块、第二模块；

其中，

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的自适应标签感知的图卷积网络跨模态检索系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的自适应标签感知的图卷积网络跨模态检索方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的自适应标签感知的图卷积网络跨模态检索方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。