CN114997275A

CN114997275A - 基于生成式模型的标签标注方法

Info

Publication number: CN114997275A
Application number: CN202210482520.5A
Authority: CN
Inventors: 刘忠; 冯旸赫; 刘世璇; 程光权; 黄金才; 施伟; 陈晓轩; 陈丽
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-09-02
Anticipated expiration: 2042-05-05
Also published as: CN114997275B

Abstract

本发明涉及标签数据领域，公开了一种基于生成式模型的标签标注方法，本发明根据获取Corr‑LDA模型，并根据折棒理论将所述Corr‑LDA模型构建成Corr‑HDP模型；在所述Corr‑HDP模型中将β截断为k维；获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架；将所述半监督学习框架应用至所述Corr‑HDP模型上更新所述半监督学习框架中的每一个样本的似然概率；通过更新后的所有样本的似然概率，加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性，既能对训练集中存在的不完整标注样本进行标签补全，又能对新的完全未标注的样本进行准确的标签预测，实现了解决不完整标注的技术效果。

Description

基于生成式模型的标签标注方法

技术领域

本申请涉及标签数据领域，特别是涉及一种基于生成式模型的标签标注方法。

背景技术

随着数据获取，存储，传输技术的发展，近些年来数据量呈现爆炸性的增长。有效的数据分类和检索方法可以更方便的管理大规模多样化的数据，从中发现有用的信息。值得注意的是，大多数现有的数据多分类的方法，无论是监督学习还是半监督学习，都假设训练数据的标签是完全合适的。本实施例认为在现实中这样的假设是比较难实现的，即使不是不可能实现的，也是不必要的和不切实际的假设。在现实中，多数训练数据的标签其实都是非完美的，存在着不完整标签或者是噪声标签。本实施例主要研究多标签分类中存在的不完整标注问题，并尝试用生成式模型来解决该问题。数据标注是一项既费时又费力的工作，由于人的主观性，不同的关注点，缺乏耐性去标注每一个细节，甚至是由于人的感知而忽略了某些细节，即使努力认真的给数据手工添加标注，一些标签仍然会有缺失。在这种情况下，这些标注的其实是不完整的，那些认为训练集中数据的标注都是完整的假设显然会误导分类学习过程。

因此，如何在标签分类中解决不完整标注成为了一个亟待解决的技术问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种基于生成式模型的标签标注方法，旨在解决现有技术无法解决不完整标注的技术问题。

为实现上述目的，本发明提供了一种基于生成式模型的标签标注方法，所述方法包括：

获取Corr-LDA模型，并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型；

在所述Corr-HDP模型中将β截断为k维；

获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架；

将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率；

通过更新后的所有样本的似然概率，加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性。

可选地，所述获取Corr-LDA模型，并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型的步骤，包括：

获取Corr-LDA模型，使用折棒理论的记号法以获取标记：β～Stick(α)，π～DP(α^π，β)；

设定随机变量y～Uniform(1,…，N_i)来关联同一个样本中的特征和标签；

给定一个样本i，生成个N_i特征b_i,l，

服从以

为参数的多项式分布；

对于M_i个标签中的任一个标签，用y来随机选择N_i个特征中的一个特征，以生成这个特征的隐藏变量z为条件生成相应的标签w_i,j，其中

服从以

为参数的多项式分布。

可选地，所述在所述Corr-HDP模型中将β截断为k维的步骤，包括：

在所述Corr-HDP模型中将β截断为K维，其中π～DP(α^π，β)近似为π～Dirichlet(α^πβ₁，…，α^πβ_K)。

可选地，所述获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架的步骤，包括：

获取不完整标注训练集D，对于每一个标签L_i∈L都存在一个集合对P_j×S_j，其中P_j∈D表示正样本集，S_j∈D表示混合样本集，

w_i,j＝1→I_i∈P_j，w_i,j＝0→I_i∈S_j。

可选地，所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤之前，还包括：

在所述训练集中，D于每一个j∈{1，2，…，M}都可以表示为一个集合对P_j×S_j，因此，设定下列关系式：

I_i∈P_j＝>Pr[w_i,j＝1|b_i]＝1

I_i∈P_j≠>Pr[w_i,j＝1|b_i]＝0

其中

可选地，所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤，包括：

将所述半监督学习框架应用至所述Corr-HDP模型上，更新每一个I_k∈S_j(1≤j≤M)的似然概率Pr[w_k,j＝1|b_k]，同时对每一个I_i∈P_j(1≤j≤M)保持Pr[w_i,j＝1|b_i]＝1。

可选地，所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤之后，还包括：

当某个样本此标签的更新值w_g,j在S_j中所有样本之间属于最小的t％时，将w_g,j置为零。

此外，为实现上述目的，本发明还提出一种基于生成式模型的标签标注装置，所述装置包括：

模型构建模块，用于获取Corr-LDA模型，并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型；

数据截断模块，用于在所述Corr-HDP模型中将β截断为k维；

样本获取模块，用于获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架；

似然概率模块，用于将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率；

标签标注模块，用于通过更新后的所有样本的似然概率，加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性。

此外，为实现上述目的，本发明还提出一种计算机设备，所述计算机设备包括：存储器，处理器以及存储在所述存储器上并可在所述处理器上运行的基于生成式模型的标签标注程序，所述基于生成式模型的标签标注程序配置为实现如上文所述的基于生成式模型的标签标注方法。

此外，为实现上述目的，本发明还提出一种介质，所述介质上存储有基于生成式模型的标签标注程序，所述基于生成式模型的标签标注程序被处理器执行时实现如上文所述的基于生成式模型的标签标注方法的步骤。

本发明根据获取Corr-LDA模型，并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型；在所述Corr-HDP模型中将β截断为k维；获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架；将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率；通过更新后的所有样本的似然概率，加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性，既能对训练集中存在的不完整标注样本进行标签补全，又能对新的完全未标注的样本进行准确的标签预测，实现了解决不完整标注的技术效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的基于生成式模型的标签标注设备的结构示意图；

图2为本发明基于生成式模型的标签标注方法第一实施例的流程示意图；

图3为本发明基于生成式模型的标签标注方法第一实施例Corr-LDA和Corr-HDP的图模型；

图4为本发明基于生成式模型的标签标注方法第一实施例SSC-HDP的图模型。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的基于生成式模型的标签标注设备结构示意图。

如图1所示，该基于生成式模型的标签标注设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对基于生成式模型的标签标注设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及基于生成式模型的标签标注程序。

在图1所示的基于生成式模型的标签标注设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明基于生成式模型的标签标注设备中的处理器1001、存储器1005可以设置在基于生成式模型的标签标注设备中，所述基于生成式模型的标签标注设备通过处理器1001调用存储器1005中存储的基于生成式模型的标签标注程序，并执行本发明实施例提供的基于生成式模型的标签标注方法。

本发明实施例提供了一种基于生成式模型的标签标注方法，参照图2，图2为本发明基于生成式模型的标签标注方法第一实施例的流程示意图。

本实施例中，所述基于生成式模型的标签标注方法包括以下步骤：

步骤S10：获取Corr-LDA模型，并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型。

需要说明的是，本实施例用到的样本主要为图像，本实施例将样本集表示为I，将样本的特征字典表示为V，将标签字典表示为L。本实施例用的形式来表示每个样本点的特征及其所包含的标注。对于每一个样本I_i I_i∈I用一个维的向量b_i b_i＝(b_i,1，b_i,2，…，b_i,N)’做为其特征表示，其中b_i,j表示特征字典中第j个特征V_j∈V在I_i中出现的次数。同时，用一个从M维的向量w_i＝(w_i,1，w_i,2，…，w_i,m)’做为Ii的标注表示，其中w_i,j∈{0,1}表示标签字典中第j个标注字是否在I_i中出现。当I_i是完全标注或者部分标注时，I_i可以被表示为(b_i，w_i)；I_i当人是未标注样本时，I_i可以被表示为b_i。因此，本实施例将包含有D个样本的不完整标注训练集表示为

同时将包含有U个样本的未标注训练集表

进一步地，所述获取Corr-LDA模型，并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型的步骤，包括：获取Corr-LDA模型，使用折棒理论的记号法以获取标记：β～Stick(α)，π～DP(α^π，β)；设定随机变量y～Uniform(1,…，N_i)来关联同一个样本中的特征和标签；给定一个样本i，生成个N_i特征

服从以

为参数的多项式分布；对于M_i个标签中的任一个标签，用y来随机选择N_i个特征中的一个特征，以生成这个特征的隐藏变量z为条件生成相应的标签w_i,j，其中

服从以

为参数的多项式分布。

可以理解的是，Corr-LDA和Corr-HDP的图模型如图3所示。图左边为Corr-LDA模型，图右边为Corr-HDP模型，两个模型之间的区别在于在Corr-HDP中先验β从一个折棒分布(stick-breaking distribution)中得到，而在Corr-LDA中先验从一个有限的狄利克雷分布(Dirichlet distribution)中得到。Corr-HDP的优点在于它能根据训练集而动态自适应的调整隐藏变量的数量，而不是将隐藏变量的数量作为一个先验固定下来。

在具体实施中，从Corr-HDP的图模型中可以看到，样本的特征b和标签w同时和分配变量z相关联，z是从一个以π为参数的多项式分布中得到的。聚类混合变量π是从一个以为β参数的全局分布G₀釆样得到的。折棒(stick-breaking)理论是建立狄利克雷过程(Dirichlet process)的一种有效方法，使用折棒理论的记号法，得到以下标记：β～Stick(α)，π～DP(α^π，β)。对于观测到的样本，我们设定一个随机变量y～Uniform(1,…，N_i)来关联同一个样本中的特征和标签。给定一个样本i首先生成个N_i特征

服从以

为参数的多项式分布。然后，对于M_i个标签中的任一个标签，用y来随机选择N_i个特征中的一个特征，以生成这个特征的隐藏变量z为条件生成相应的标签w_i,j，

服从以

为参数的多项式分布。以下算法描述了Corr-HDP模型的生成过程。

步骤S20：在所述Corr-HDP模型中将β截断为k维。

进一步地，所述在所述Corr-HDP模型中将β截断为k维的步骤，包括：在所述Corr-HDP模型中将β截断为K维，其中π～DP(α^π，β)近似为π～Dirichlet(α^πβ₁，…，α^πβ_K)。

在具体实施中，在实际中为了使参数估计可行，需要将β截断为K维。因此，π～DP(α^π，β)可认近似为π～Dirichlet(α^πβ₁，…，α^πβ_K)。这里需要注意的是，在HDP中将β截断为K维不等同于使用K个固定的主题Corr-LDA模型。使用截断的狄利克雷过程(DP)作为先验可以根据训练集自适应的选择隐藏变量的数目，这个数目可以是小于等于K的任意值。而使用狄利克雷分布作为先验则将隐藏变量的数目固定为了K个。

步骤S30：获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架。

进一步地，所述获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架的步骤，包括：获取不完整标注训练集D，对于每一个标签L_i∈L都存在一个集合对P_j×S_j，其中P_j∈D表示正样本集，S_j∈D表示混合样本集，

w_i,j＝1→I_i∈P_j，w_i,j＝0→I_i∈S_j。

步骤S40：将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率。

进一步地，所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤之前，还包括：在所述训练集中，D于每一个j∈{1，2，…，M}都可以表示为一个集合对P_j×S_j，因此，设定下列关系式：

I_i∈P_j＝>Pr[w_i,j＝1|b_i]＝1

I_i∈P_j≠>Pr[w_i,j＝1|b_i]＝0

其中

进一步地，所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤，包括：将所述半监督学习框架应用至所述Corr-HDP模型上，更新每一个I_k∈S_j(1≤j≤M)的似然概率Pr[w_k,j＝1|b_k]，同时对每一个I_i∈P_j(1≤j≤M)保持Pr[w_i,j＝1|b_i]＝1。

进一步地，所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤之后，还包括：当某个样本此标签的更新值w_g,j在S_j中所有样本之间属于最小的t％时，将w_g,j置为零。

步骤S50：通过更新后的所有样本的似然概率，加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性。

在具体实施中，SSC-HDP的图模型如图4所示。基于理论分析，这里半监督学习的主要思想即是在Corr-HDP的结构下更新每一个I_k∈S_j(1≤j≤M)的似然概率Pr[w_k,j＝1|b_k]，同时对每一个I_i∈P_j(1≤j≤M)保持Pr[w_i,j＝1|b_i]＝1。一下算法详述了SSC-HDP模型的算法。通过更新标签的似然概率，SSC-HDP模型不断的加强标签和特征之间的关联性，最终使得标注分类更加准确和完整。可以看出，未标注数据的信息可以被无缝地添加到SSC-HDP算法中。当初始的Corr-HDP模型建立了之后，利用该模型的参数来计算未标注数据集U中每一个样本的每一个标签的似然概率，并把这些未标注样本全部归并到混合样本集S_j(1≤j≤M)中。未标注数据的信息可以通过混合样本集被利用起来在连续的迭代过程中更新Corr-HDP的参数。

本实施例根据获取Corr-LDA模型，并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型；在所述Corr-HDP模型中将β截断为k维；获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架；将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率；通过更新后的所有样本的似然概率，加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性，既能对训练集中存在的不完整标注样本进行标签补全，又能对新的完全未标注的样本进行准确的标签预测，实现了解决不完整标注的技术效果。

此外，本发明实施例还提出一种介质，所述介质上存储有基于生成式模型的标签标注程序，所述基于生成式模型的标签标注程序被处理器执行时实现如上文所述的基于生成式模型的标签标注方法的步骤。

本发明基于生成式模型的标签标注装置的实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于生成式模型的标签标注方法，其特征在于，所述方法包括：

在所述Corr-HDP模型中将β截断为k维；

2.如权利要求1所述的方法，其特征在于，所述获取Corr-LDA模型，并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型的步骤，包括：

给定一个样本i，生成个N_i特征b_i,l，

服从以

为参数的多项式分布；

服从以

为参数的多项式分布。

3.如权利要求2所述的方法，其特征在于，所述在所述Corr-HDP模型中将β截断为k维的步骤，包括：

4.如权利要求1所述的方法，其特征在于，所述获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架的步骤，包括：

w_i,j＝1→I_i∈P_j，w_i,j＝0→I_i∈S_j。

5.如权利要求4所述的方法，其特征在于，所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤之前，还包括：

I_i∈P_j＝>Pr[w_i,j＝1|b_i]＝1

I_i∈P_j≠>Pr[w_i,j＝1|b_i]＝0

其中

6.如权利要求1至5任一项所述的方法，其特征在于，所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤，包括：

7.如权利要求6所述的方法，其特征在于，所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤之后，还包括：

8.一种基于生成式模型的标签标注装置，其特征在于，所述装置包括：

数据截断模块，用于在所述Corr-HDP模型中将β截断为k维；

9.一种基于生成式模型的标签标注设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于生成式模型的标签标注程序，所述基于生成式模型的标签标注程序配置为实现如权利要求1至7中任一项所述的基于生成式模型的标签标注方法的步骤。

10.一种介质，其特征在于，所述介质上存储有基于生成式模型的标签标注程序，所述基于生成式模型的标签标注程序被处理器执行时实现如权利要求1至7任一项所述的基于生成式模型的标签标注方法的步骤。