CN114048851A

CN114048851A - 基于不均衡间隔的语义特征自学习方法、设备及存储介质

Info

Publication number: CN114048851A
Application number: CN202111273715.0A
Authority: CN
Inventors: 胡桃成; 周玉焕; 刘秋荣; 徐龙辉; 邢阳
Original assignee: Guangdong Jma Aluminum Profile Factory Group Co ltd; Foshan JMA Aluminium Co Ltd
Current assignee: Guangdong Jma Aluminum Profile Factory Group Co ltd; Foshan JMA Aluminium Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-02-15
Also published as: WO2023071122A1

Abstract

本发明公开了一种基于不均衡间隔的语义特征自学习方法，包括：构建编码器，所述编码器的约束条件为：增强两相关数据的编码之间的距离，以使两相关数据的编码之间的距离小于两不相关数据的编码之间的距离；采用未标记的训练集驱动所述编码器进行自学习训练。本发明还公开了一种计算机设备及一种计算机可读存储介质。采用本发明，无需标记训练数据,可直接利用原始数据训练编码器，并且提取的特征不特定于具体的特征使用方法，具有更广泛的应用场景。

Description

基于不均衡间隔的语义特征自学习方法、设备及存储介质

技术领域

本发明涉及深度学习及特征工程技术领域，尤其涉及一种基于不均衡间隔的语义特征自学习方法、一种计算机设备及一种计算机可读存储介质。

背景技术

特征工程是机器学习中的重要应用领域,自从深度学习方法提出以来,研究人员将传统的特征工程作为机器学习的重要组成部分,它是将原始数据转化成更好的表达问题本质的特征的过程，该过程直接决定上层应用和算法的性能。

传统的工程过程中,研究人员利用经验、从原始数据提取特征、之后在选取的特征上进行机器学习应用模型和算法的实践，整个过程中特征和应用是分割的。

深度学习，也叫表示学习、特征学习，自从相应概念和方法提出后,特征工程从人工经验过程转变成数据驱动，通常同应用一起、利用模型和算法从原始数据训练中学习内在规律。但是需要说明的是，早期深度学习大多应用在监督情形：原始数据有人工标记的标签，用于引导原始特征的变换，比如朝人类语义特征进化。

目前，完全的无标记特征学习比较困难。虽然，最近几年在MoCo(MomentumContrastive)等算法取得方法上的突破后，逐渐成为深度学习研究的热点。但是，已有特征工程在处理无标记数据特征提取存在的主要问题有：

(1)传统的特征计算方法通常特定于上层应用，应用选择特征依赖研发人员的经验，通常通过实验、相互比较后确定。

(2)一般的深度学习方法虽然包含特征学习，但是特征学习通常作为预训练出现，与算法模型需要解决的具体问题仍存在强耦合。

(3)MoCo等特征自学习方法为无标记数据提取、计算特征，但主要通过缓存保持时空连续性等工程性方法。

发明内容

本发明所要解决的技术问题在于，提供一种基于不均衡间隔的语义特征自学习方法、计算机设备及计算机可读存储介质，无需标记训练数据,可直接利用原始数据训练编码器，并且提取的特征不特定于具体的特征使用方法，具有更广泛的应用场景。

为了解决上述技术问题，本发明提供了一种基于不均衡间隔的语义特征自学习方法，构建编码器，所述编码器的约束条件为：增强两相关数据的编码之间的距离，以使两相关数据的编码之间的距离小于两不相关数据的编码之间的距离；采用未标记的训练集驱动所述编码器进行自学习训练。

作为上述方案的改进，所述编码器的约束条件为：

(1+α₀)d(ENC_θ(x_i),ENC_θ(x′_i))<d(ENC_θ(x_i),ENC_θ(x_j)),

其中，α₀为间隔权重参数且α₀≥0，d为距离函数，ENC为输入数据到特征空间的映射，θ为编码器的深度网络参数，x_i为当前数据，x′_i为与当前数据相关的数据，x_j为与当前数据不相关的数据。

作为上述方案的改进，训练集中的任意两个数据互不相关；对当前数据进行变换处理后生成的数据与所述当前数据相关。

作为上述方案的改进，所述编码器的目标函数为：

所述编码器的约束条件为：

s.t.(1+α₀)d(ENC_θ(x_i),ENC_θ(x′_i))-d(ENC_θ(x_i),ENC_θ(x_j))≤0₊,

作为上述方案的改进，所述编码器的目标函数为：

所述编码器的约束条件为：

s.t.(1+α₀)d(ENC_θ(x_i)，ENC_θ(x′_i))-d(ENC_θ(x_i)，ENC_θ(x_j))-∈_ij＝0∈_ij≤0₊

其中，α₀为间隔权重参数且α₀≥0，λ₀为松弛变量，d为距离函数，ENC为输入数据到特征空间的映射，θ为编码器的深度网络参数，x_i为当前数据，x′_i为与当前数据相关的数据，x_j为与当前数据不相关的数据。

作为上述方案的改进，所述编码器的目标函数为：

作为上述方案的改进，所述编码器的目标函数为：

作为上述方案的改进，所述编码器的目标函数为：

其中，α₀为间隔权重参数且α₀≥0，λ₀为松弛变量，d为距离函数，ENC为输入数据到特征空间的映射，θ为编码器的深度网络参数，x_i为当前数据，x′_i为与当前数据相关的数据，x_j为与当前数据不相关的数据，b₀为基准参数且b₀>0。

作为上述方案的改进，所述基于不均衡间隔的语义特征自学习方法还包括：将基准数据输入训练好的编码器进行处理，以输出与所述基准数据相匹配的目标数据。

相应地，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述基于不均衡间隔的语义特征自学习方法的步骤。

相应地，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述基于不均衡间隔的语义特征自学习方法的步骤。

实施本发明，具有如下有益效果：

本发明无需标记训练数据外,直接利用原始数据训练编码器，并且提取的特征不特定于具体的特征使用方法，具有更广泛的应用场景；

本发明将机器学习优化问题的目标直接定义为最大化间隔,能有效保障训练模型在实际应用中的效果；并通过对间隔构成的分析，在增强数据项上设置额外权重项，以使特征自学习效果更优；

另外，本发明通过消除优化问题大规模不等式约束,变换后的优化问题不含约束,数据间的关联减少,对数值求解非常方便。

附图说明

图1是本发明不均衡间隔的语义特征自学习方法的第一实施例流程图；

图2是本发明中编码器将原始特征点投射至编码特征空间的示意图；

图3是本发明中采用编码特征空间定义未标记原始数据相合性的变换流程；

图4是本发明不均衡间隔的语义特征自学习方法的第二实施例流程图；

图5是图4中各参数的关系示意图；

图6是本发明不均衡间隔的语义特征自学习方法的第三实施例流程图；

图7是本发明不均衡间隔的语义特征自学习方法的第四实施例流程图；

图8是本发明不均衡间隔的语义特征自学习方法的第五实施例流程图；

图9是本发明不均衡间隔的语义特征自学习方法的第六实施例流程图；

图10是本发明不均衡间隔的语义特征自学习方法的第七实施例流程图；

图11是本发明不均衡间隔的语义特征自学习方法的第八实施例流程图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

本发明根据数据驱动的特征工程方法，从待处理数据采样N个代表数据、构造训练集

学习编码器,之后将该编码器应用到所有数据、提取数据的特征。也就是说，本发明的核心任务在于"从输入的原始特征中提取不特定于任务的语义特征"。

参见图1，图1显示了本发明不均衡间隔的语义特征自学习方法的第一实施例，其包括：

S101，构建编码器。

假定最后的特征编码是d维向量，则可知编码器是一个从原始特征空间到d维向量空间的映射:

本发明使用深度网络承载编码器，以使编码器具有较强的表示能力,由于深度网络的结构多样,本发明的方法不限定具体承载编码功能网络的类型。

如图2所示，编码器能将原始特征点投射至编码(值域)特征空间，因此，本发明可将关注点放在编码器输出层面的值域空间。

如图3所示，支持向量机中用y_i·(w^Tx_i+b)度量预测和真实标签的相合性，而该表达式可以处理成增广向量内积形式[w；b]^T(y_i[x_i；1])；相应地，在编码特征空间，可将某个数据的编码等同于支持向量机参数，而将其他数据编码等同于输入支持向量机的数据；同时，将编码后特征空间的距离度量记为d(·,··)，则这个二元映射在给定特征空间的两元素后，可返回一个非负实数值作为输入元素间的距离值，从而可以得到更加一般的、定义相合性的方法，且该方法能够覆盖向量内积的结合方式，使得向量内积的差值本质上即为在指定方向上的投影距离。

因此，本发明在数据驱动的无标记数据特征编码器学习问题中显式利用间隔，引入核心思想“两相关数据编码之间的距离应小于两不相关数据之间的距离”。在此基础上，本发明最直接关心的是：一个特征在各种变化下能够直接对应到原数据。这是内在要求，不同于其他数据有很大的区别外延要求，本发明在原间隔中增加两相关数据的编码之间的距离的权重，并以此作为间隔约束条件。

综上，与现有技术不同的是，本发明在考虑距离的情况下引入了独特的约束条件。具体地，编码器的约束条件为：增强两相关数据的编码之间的距离，以使两相关数据的编码之间的距离小于两不相关数据的编码之间的距离。相应地，本发明将“增强后两相关数据的编码之间的距离”与“两不相关数据的编码之间的距离”之差称为“不均衡间隔”。

优选地，所述数据可以为图像数据，视频数据或音频数据，但不以此为限定，可根据实际需求进行设置。

不同于支持向量机，本发明在数据驱动的无标记数据特征编码器学习问题中显式利用间隔(间隔越大,学习的效果越好)，其的核心思想是：在增强两相关数据的编码之间的距离的情况下，使增强后的两相关数据的编码之间的距离应小于两不相关数据的编码之间的距离。相应地，“相关数据”与“不相关数据”采用以下定义：

(1)训练集中的任意两个数据互不相关。也就是说，当数据为图像时，则训练集中任意两图像都被认为是不相关的。

(2)对当前数据进行变换处理后生成的数据与当前数据相关。也就是说，对当前数据进行增强(通过旋转、平移等刚性变换，也包括缩放等变换)处理后,得到的新数据和当前数据是相关的。

S102，采用未标记的训练集驱动编码器进行自学习训练。

现有技术中，需要根据任务由人工对训练集内的数据一个一个地进行附加标记，很难简化。与现有技术不同的是，本发明采用未标记的训练集对编码器进行训练，数据不需提前标记，不带约束，操作简便。同时，本发明通过增强两相关数据的编码之间的距离，使得训练后的编码器不基于特定的具体应用，经编码器处理后的特征能直接供多种特征使用。也就是说，上层应用可直接使用依据本发明方法生成的特征,规避复杂的特征工程过程。

因此，本发明通过在编码器中构建独特的约束条件，使得本发明可以通过未标记数据，利用数据的自身特性训练编码器，并且提取的特征不特定于具体的特征使用方法，具有更广泛的应用场景；同时，训练好的编码器将数据投射到间隔较大的特征空间，生成不特定于具体应用的特征，并利用这些特征建立数据检索和匹配应用，为大规模数据检索、匹配等高层应用的基础核心技术。

参见图4，图4显示了本发明不均衡间隔的语义特征自学习方法的第二实施例，其包括：

S201，构建编码器。

如图5所示，本发明可将实施例一中的核心思想“增强两相关数据的编码之间的距离，以使两相关数据的编码之间的距离应小于两不相关数据的编码之间的距离”进行形式化，具体地，编码器的约束条件为：

(1+α₀)d(ENC_θ(x_i)，ENC_θ(x′_i))＜d(ENC_θ(x_i)，ENC_θ(x_j))，

其中：

α₀为间隔权重参数且α₀≥0；本实施例中，α₀＝0.5，但不以此为限制，可根据实际情况进行调节。

d为距离函数，本发明记特征空间的距离度量为d(·，·)；

ENC为输入数据到特征空间的映射。假定训练集由N张图像构成

形式化地，编码器是将宽、高、通道数分别为W、H和nChan nels的图像映射为d维度特征向量空间的映射(即

)，可标记为ENC()；

θ为编码器的深度网络参数，本发明使用深度神经网络承载编码器，由于深度神经网络的结构多样，本发明不限定具体的承载编码功能网络的类型，而将深度网络参数统一抽象为符号θ；

x_i为当前数据，下标i的取值范围是1-N的整数指标集合，记为i∈[N]；

x′_i为与当前数据相关的数据，即记变形后的当前数据为x′_j；

x_j为与当前数据不相关的数据，即记训练集中的与当前数据不同的另一个数据为x_j，而下标j的取值范围是1-N的整数指标集合，记为j∈[N]，但j≠i。

由上述约束条件可知，d(ENC_θ(x_i)，ENC_θ(x′_i))项值越小，整体的间隔值(即d(ENC_θ(x_i)，ENC_θ(x′_i))-d(ENC_θ(x_i)，ENC_θ(x_j）））越大；此外，从上层搭建的应用角度出发，本发明最直接关心的是：一个特征在各种变化下能够直接对应到原数据。这是内在要求，不同于其他数据有很大的区别外延要求，本发明在原间隔中增加α₀·d(ENC_θ(x_i)，ENC_θ(x′_i))项，并将新增加的项α₀·d(ENC_θ(x_i)，ENC_θ(x′_i)放入间隔约束条件，且α₀≥0(参见图5)。

相应地，本发明将增加的项α₀·d(ENC_θ(x_i)，ENC_θ(x′_i))与d(ENC_θ(x_i)，ENC_θ(x′_i))归拢在一起，则相关数据x′_i到当前数据x_i距离的权重、和不相关数据x_j到当前数据x_i距离的权重不一样，因此，本发明将这个带有特殊目的的间隔“(1+α₀).d(ENC_θ(x_i)，ENC_θ(x′_i))-d(ENC_θ(x_i)，ENC_θ(x_j))”称为“不均衡间隔”。

S202，采用未标记的训练集驱动编码器进行自学习训练。

因此，本实施例对核心思想进行形式化后，可对编码器的约束条件进行数字化、公式化的衡量，更便于实际应用。

参见图6，图6显示了本发明不均衡间隔的语义特征自学习方法的第三实施例，其包括：

S301，构建编码器。

具体地，本发明期望数据增强前后距离等于0，因此将实施例二中的不等式作为约束条件，并将编码器的深度网络参数θ的范数作为优化的目标函数，即实现将优化引入编码器的选择，具体地：

编码器的目标函数为：向缩小的方向约束

编码器的约束条件为：

s.t.(1+α₀)d(ENC_θ(x_i)，ENC_θ(x′_i))-d(ENC_θ(x_i)，ENC_θ(x_j))≤0₊，

其中：

α₀为间隔权重参数且α₀≥0；

d为距离函数；

ENC为输入数据到特征空间的映射；

θ为编码器的深度网络参数，||θ||_Θ为深度网络参数θ的范数，根据实际需要进行选择；

x_i为当前数据；

x′_i为与当前数据相关的数据；

x_j为与当前数据不相关的数据。

(1+α₀)d(ENC_θ(x_i)，ENC_θ(x′_i))-d(ENC_θ(x_i)，ENC_θ(x_j))用于表征不相关数据的间隔，本发明将实施例二中不等式右边的值设置为0的正部，是由于(1+α₀)d(ENC_θ(x_i)，ENC_θ(x′_i))＜d(ENC_θ(x_i)，ENC_θ(x_j))，而优化问题标准型要求不等式关系为小于等于。

S302，采用未标记的训练集驱动编码器进行自学习训练。

因此，本实施例引入具体的约束方向，进一步对不等式关系进行优化，更便于对编码器实现约束。

参见图7，图7显示了本发明不均衡间隔的语义特征自学习方法的第四实施例，其包括：

S401，构建编码器。

需要说明的是，要求所有相关数据的距离小于不相关数据的距离，在某些时候会使得可行解不存在，相应地，本发明引入松弛变量λ₀处理该问题，具体地：

编码器的目标函数为：

编码器的约束条件为：

s.t.(1+α₀)d(ENC_θ(x_i)，ENC_θ(x′_i))-d(ENC_θ(x_i)，ENC_θ(x_j))-∈_ij＝0

∈_ij≤0₊

其中：

∈_ij用于增加编码器的柔性，以应对″要求所有间隔小于0解不存在″问题；

α₀为间隔权重参数且α₀≥0；

λ₀为松弛变量，由于编码器的深度网络参数θ的范数与间隔不是一种事物，优化问题的目标函数中，深度网络参数θ的范数前的松弛变量λ₀主要用于在编码器的深度网络参数θ和处理数据间隔之间进行权衡；本实施例中，λ₀＝1，但不以此为限制，可根据实际情况进行调节。

d为距离函数；

ENC为输入数据到特征空间的映射；

θ为编码器的深度网络参数；

x_i为当前数据；

x′_i为与当前数据相关的数据；

x_j为与当前数据不相关的数据。

S402，采用未标记的训练集驱动编码器进行自学习训练。

因此，本实施例通过引入松弛变量，可使编码器的约束具有更强鲁棒性，更能识别实际应用。

参见图8，图8显示了本发明不均衡间隔的语义特征自学习方法的第五实施例，其包括：

S501，构建编码器。

结合实施例一至实施例四可知，优化问题中含有大量的约束条件：训练集包含的数据实例规格为O(N)，不等式约束的规格为O(N²)；实际使用的训练集大小通常为百万级，即便是数值求解，处理万亿级别的不等式约束所耗费的开销都是巨大的，因此，有必要建立更简单的的优化问题形式化描述，以方便地转化成数值求解算法得到实际可运行的最优编码器。

本发明利用拉格朗日乘子法，可以得到如下等价(基本不含约束的)对抗式优化问题：

乘子及不同的优化方向替换了原优化问题中的不等式约束条件，且极值时乘子和间隔之积等于0.即：

λ_ij((1+α₀)d(ENC_θ(x_i)，ENC_θ(x′_i))-d(ENC_θ(x_i)，ENC_θ(x_j)))＝0，

因此，定义编码器的目标函数为：

其中：

α₀为间隔权重参数且α₀≥0；

λ₀为松弛变量；

d为距离函数；

ENC为输入数据到特征空间的映射；

θ为编码器的深度网络参数；

x_i为当前数据；

x′_i为与当前数据相关的数据；

x_j为与当前数据不相关的数据。

S502，采用未标记的训练集驱动编码器进行自学习训练。

因此，本实施例利用拉格朗日乘子法对编码器的目标函数做进一步的优化，从而得到更优的编码器。

参见图9，图9显示了本发明不均衡间隔的语义特征自学习方法的第六实施例，其包括：

S601，构建编码器。

从统计意义上而言，训练集中个体由采样随机产生，也就是说，对于当前数据x_i、与当前数据不相关的数据x_j也是随机产生，因此，本发明将″所有两两不相关数据″修正为″与当前数据不相关的M次采样″，从而将间隔的规格从O(N²)降解为O(M N)。因为实际中采样不相关数据的规模在千级别，相对于百万训练集，这一修正处理将计算开销降低到原来的千分之几。

修正后，编码器的目标函数为：

其中：

α₀为间隔权重参数且α₀≥0；

λ₀为松弛变量；

d为距离函数；

ENC为输入数据到特征空间的映射；

θ为编码器的深度网络参数；

x_i为当前数据；

x′_i为与当前数据相关的数据；

x_j为与当前数据不相关的数据。

S602，采用未标记的训练集驱动编码器进行自学习训练。

因此，通过本实施例可有效的降低计算维度，提高技术效率，改善识别速度。

参见图10，图10显示了本发明不均衡间隔的语义特征自学习方法的第七实施例，其包括：

S701，构建编码器。

为了避免出现零这一平凡解，或者期望间隔都能大于某个值，本发明在目标函数中引入基准参数b₀，且b₀＞0，以更快的收敛到最优解。

编码器的目标函数为：

其中：

α₀为间隔权重参数且α₀≥0；

λ₀为松弛变量；

d为距离函数；

ENC为输入数据到特征空间的映射；

θ为编码器的深度网络参数；

x_i为当前数据；

x′_i为与当前数据相关的数据；

x_j为与当前数据不相关的数据；

b₀为基准参数且b₀＞0；本实施例中，b₀＝0.5，但不以此为限制，可根据实际情况进行调节。

S702，采用未标记的训练集驱动编码器进行自学习训练。

因此，本实施例通过引入恰当的基准参数b₀，可有利于更快的收敛到最优解。

参见图11，图11显示了本发明不均衡间隔的语义特征自学习方法的第八实施例，其包括：

S801，构建编码器。

需要说明的是，该编码器可采用实施例一至七中的任意一种约束方式，在此不作具体限定。

S802，采用未标记的训练集驱动编码器进行自学习训练。

S803，将基准数据输入训练好的编码器进行处理，以输出与基准数据相匹配的目标数据。

训练好的编码器可将基准数据投射到间隔较大的特征空间，以输出与基准数据相匹配的目标数据。因此，可利用这些特征建立数据检索和匹配应用，为大规模数据检索、匹配等高层应用的基础核心技术。

综上所述，本发明具有以下优点：

1、无需标记训练数据外,直接利用原始数据训练编码器，并且提取的特征不特定于具体的特征使用方法，具有更广泛的应用场景；

2、将机器学习优化问题的目标直接定义为最大化间隔,能有效保障训练模型在实际应用中的效果；

3、通过对间隔构成的分析，在增强数据项上设置额外权重项，以使特征自学习效果更优；

4、消除优化问题大规模不等式约束,变换后的优化问题不含约束,数据间的关联减少,对数值求解非常方便。

相应地，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述不均衡间隔的语义特征自学习方法的步骤。同时，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述不均衡间隔的语义特征自学习方法的步骤。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。