CN114997275A - 基于生成式模型的标签标注方法 - Google Patents

基于生成式模型的标签标注方法 Download PDF

Info

Publication number
CN114997275A
CN114997275A CN202210482520.5A CN202210482520A CN114997275A CN 114997275 A CN114997275 A CN 114997275A CN 202210482520 A CN202210482520 A CN 202210482520A CN 114997275 A CN114997275 A CN 114997275A
Authority
CN
China
Prior art keywords
corr
model
sample
semi
supervised learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210482520.5A
Other languages
English (en)
Inventor
刘忠
冯旸赫
刘世璇
程光权
黄金才
施伟
陈晓轩
陈丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210482520.5A priority Critical patent/CN114997275A/zh
Publication of CN114997275A publication Critical patent/CN114997275A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及标签数据领域,公开了一种基于生成式模型的标签标注方法,本发明根据获取Corr‑LDA模型,并根据折棒理论将所述Corr‑LDA模型构建成Corr‑HDP模型;在所述Corr‑HDP模型中将β截断为k维;获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架;将所述半监督学习框架应用至所述Corr‑HDP模型上更新所述半监督学习框架中的每一个样本的似然概率;通过更新后的所有样本的似然概率,加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性,既能对训练集中存在的不完整标注样本进行标签补全,又能对新的完全未标注的样本进行准确的标签预测,实现了解决不完整标注的技术效果。

Description

基于生成式模型的标签标注方法
技术领域
本申请涉及标签数据领域,特别是涉及一种基于生成式模型的标签标注方法。
背景技术
随着数据获取,存储,传输技术的发展,近些年来数据量呈现爆炸性的增长。有效的数据分类和检索方法可以更方便的管理大规模多样化的数据,从中发现有用的信息。值得注意的是,大多数现有的数据多分类的方法,无论是监督学习还是半监督学习,都假设训练数据的标签是完全合适的。本实施例认为在现实中这样的假设是比较难实现的,即使不是不可能实现的,也是不必要的和不切实际的假设。在现实中,多数训练数据的标签其实都是非完美的,存在着不完整标签或者是噪声标签。本实施例主要研究多标签分类中存在的不完整标注问题,并尝试用生成式模型来解决该问题。数据标注是一项既费时又费力的工作,由于人的主观性,不同的关注点,缺乏耐性去标注每一个细节,甚至是由于人的感知而忽略了某些细节,即使努力认真的给数据手工添加标注,一些标签仍然会有缺失。在这种情况下,这些标注的其实是不完整的,那些认为训练集中数据的标注都是完整的假设显然会误导分类学习过程。
因此,如何在标签分类中解决不完整标注成为了一个亟待解决的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种基于生成式模型的标签标注方法,旨在解决现有技术无法解决不完整标注的技术问题。
为实现上述目的,本发明提供了一种基于生成式模型的标签标注方法,所述方法包括:
获取Corr-LDA模型,并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型;
在所述Corr-HDP模型中将β截断为k维;
获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架;
将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率;
通过更新后的所有样本的似然概率,加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性。
可选地,所述获取Corr-LDA模型,并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型的步骤,包括:
获取Corr-LDA模型,使用折棒理论的记号法以获取标记:β~Stick(α),π~DP(α^π,β);
设定随机变量y~Uniform(1,…,Ni)来关联同一个样本中的特征和标签;
给定一个样本i,生成个Ni特征bi,l
Figure BDA0003628404560000021
服从以
Figure BDA0003628404560000022
为参数的多项式分布;
对于Mi个标签中的任一个标签,用y来随机选择Ni个特征中的一个特征,以生成这个特征的隐藏变量z为条件生成相应的标签wi,j,其中
Figure BDA0003628404560000023
Figure BDA0003628404560000024
服从以
Figure BDA0003628404560000025
为参数的多项式分布。
可选地,所述在所述Corr-HDP模型中将β截断为k维的步骤,包括:
在所述Corr-HDP模型中将β截断为K维,其中π~DP(απ,β)近似为π~Dirichlet(απβ1,…,απβK)。
可选地,所述获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架的步骤,包括:
获取不完整标注训练集D,对于每一个标签Li∈L都存在一个集合对Pj×Sj,其中Pj∈D表示正样本集,Sj∈D表示混合样本集,
Figure BDA0003628404560000031
wi,j=1→Ii∈Pj,wi,j=0→Ii∈Sj
可选地,所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤之前,还包括:
在所述训练集中,D于每一个j∈{1,2,…,M}都可以表示为一个集合对Pj×Sj,因此,设定下列关系式:
Ii∈Pj=>Pr[wi,j=1|bi]=1
Ii∈Pj≠>Pr[wi,j=1|bi]=0
其中
Figure BDA0003628404560000032
可选地,所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤,包括:
将所述半监督学习框架应用至所述Corr-HDP模型上,更新每一个Ik∈Sj(1≤j≤M)的似然概率Pr[wk,j=1|bk],同时对每一个Ii∈Pj(1≤j≤M)保持Pr[wi,j=1|bi]=1。
可选地,所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤之后,还包括:
当某个样本此标签的更新值wg,j在Sj中所有样本之间属于最小的t%时,将wg,j置为零。
此外,为实现上述目的,本发明还提出一种基于生成式模型的标签标注装置,所述装置包括:
模型构建模块,用于获取Corr-LDA模型,并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型;
数据截断模块,用于在所述Corr-HDP模型中将β截断为k维;
样本获取模块,用于获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架;
似然概率模块,用于将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率;
标签标注模块,用于通过更新后的所有样本的似然概率,加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性。
此外,为实现上述目的,本发明还提出一种计算机设备,所述计算机设备包括:存储器,处理器以及存储在所述存储器上并可在所述处理器上运行的基于生成式模型的标签标注程序,所述基于生成式模型的标签标注程序配置为实现如上文所述的基于生成式模型的标签标注方法。
此外,为实现上述目的,本发明还提出一种介质,所述介质上存储有基于生成式模型的标签标注程序,所述基于生成式模型的标签标注程序被处理器执行时实现如上文所述的基于生成式模型的标签标注方法的步骤。
本发明根据获取Corr-LDA模型,并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型;在所述Corr-HDP模型中将β截断为k维;获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架;将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率;通过更新后的所有样本的似然概率,加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性,既能对训练集中存在的不完整标注样本进行标签补全,又能对新的完全未标注的样本进行准确的标签预测,实现了解决不完整标注的技术效果。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的基于生成式模型的标签标注设备的结构示意图;
图2为本发明基于生成式模型的标签标注方法第一实施例的流程示意图;
图3为本发明基于生成式模型的标签标注方法第一实施例Corr-LDA和Corr-HDP的图模型;
图4为本发明基于生成式模型的标签标注方法第一实施例SSC-HDP的图模型。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于生成式模型的标签标注设备结构示意图。
如图1所示,该基于生成式模型的标签标注设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对基于生成式模型的标签标注设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及基于生成式模型的标签标注程序。
在图1所示的基于生成式模型的标签标注设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明基于生成式模型的标签标注设备中的处理器1001、存储器1005可以设置在基于生成式模型的标签标注设备中,所述基于生成式模型的标签标注设备通过处理器1001调用存储器1005中存储的基于生成式模型的标签标注程序,并执行本发明实施例提供的基于生成式模型的标签标注方法。
本发明实施例提供了一种基于生成式模型的标签标注方法,参照图2,图2为本发明基于生成式模型的标签标注方法第一实施例的流程示意图。
本实施例中,所述基于生成式模型的标签标注方法包括以下步骤:
步骤S10:获取Corr-LDA模型,并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型。
需要说明的是,本实施例用到的样本主要为图像,本实施例将样本集表示为I,将样本的特征字典表示为V,将标签字典表示为L。本实施例用的形式来表示每个样本点的特征及其所包含的标注。对于每一个样本Ii Ii∈I用一个维的向量bi bi=(bi,1,bi,2,…,bi,N)’做为其特征表示,其中bi,j表示特征字典中第j个特征Vj∈V在Ii中出现的次数。同时,用一个从M维的向量wi=(wi,1,wi,2,…,wi,m)’做为Ii的标注表示,其中wi,j∈{0,1}表示标签字典中第j个标注字是否在Ii中出现。当Ii是完全标注或者部分标注时,Ii可以被表示为(bi,wi);Ii当人是未标注样本时,Ii可以被表示为bi。因此,本实施例将包含有D个样本的不完整标注训练集表示为
Figure BDA0003628404560000061
Figure BDA0003628404560000062
同时将包含有U个样本的未标注训练集表
Figure BDA0003628404560000063
Figure BDA0003628404560000064
进一步地,所述获取Corr-LDA模型,并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型的步骤,包括:获取Corr-LDA模型,使用折棒理论的记号法以获取标记:β~Stick(α),π~DP(α^π,β);设定随机变量y~Uniform(1,…,Ni)来关联同一个样本中的特征和标签;给定一个样本i,生成个Ni特征
Figure BDA0003628404560000065
服从以
Figure BDA0003628404560000066
为参数的多项式分布;对于Mi个标签中的任一个标签,用y来随机选择Ni个特征中的一个特征,以生成这个特征的隐藏变量z为条件生成相应的标签wi,j,其中
Figure BDA0003628404560000067
服从以
Figure BDA0003628404560000068
为参数的多项式分布。
可以理解的是,Corr-LDA和Corr-HDP的图模型如图3所示。图左边为Corr-LDA模型,图右边为Corr-HDP模型,两个模型之间的区别在于在Corr-HDP中先验β从一个折棒分布(stick-breaking distribution)中得到,而在Corr-LDA中先验从一个有限的狄利克雷分布(Dirichlet distribution)中得到。Corr-HDP的优点在于它能根据训练集而动态自适应的调整隐藏变量的数量,而不是将隐藏变量的数量作为一个先验固定下来。
在具体实施中,从Corr-HDP的图模型中可以看到,样本的特征b和标签w同时和分配变量z相关联,z是从一个以π为参数的多项式分布中得到的。聚类混合变量π是从一个以为β参数的全局分布G0釆样得到的。折棒(stick-breaking)理论是建立狄利克雷过程(Dirichlet process)的一种有效方法,使用折棒理论的记号法,得到以下标记:β~Stick(α),π~DP(α^π,β)。对于观测到的样本,我们设定一个随机变量y~Uniform(1,…,Ni)来关联同一个样本中的特征和标签。给定一个样本i首先生成个Ni特征
Figure BDA0003628404560000071
服从以
Figure BDA0003628404560000072
为参数的多项式分布。然后,对于Mi个标签中的任一个标签,用y来随机选择Ni个特征中的一个特征,以生成这个特征的隐藏变量z为条件生成相应的标签wi,j
Figure BDA0003628404560000073
服从以
Figure BDA0003628404560000074
为参数的多项式分布。以下算法描述了Corr-HDP模型的生成过程。
Figure BDA0003628404560000075
Figure BDA0003628404560000081
步骤S20:在所述Corr-HDP模型中将β截断为k维。
进一步地,所述在所述Corr-HDP模型中将β截断为k维的步骤,包括:在所述Corr-HDP模型中将β截断为K维,其中π~DP(απ,β)近似为π~Dirichlet(απβ1,…,απβK)。
在具体实施中,在实际中为了使参数估计可行,需要将β截断为K维。因此,π~DP(απ,β)可认近似为π~Dirichlet(απβ1,…,απβK)。这里需要注意的是,在HDP中将β截断为K维不等同于使用K个固定的主题Corr-LDA模型。使用截断的狄利克雷过程(DP)作为先验可以根据训练集自适应的选择隐藏变量的数目,这个数目可以是小于等于K的任意值。而使用狄利克雷分布作为先验则将隐藏变量的数目固定为了K个。
步骤S30:获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架。
进一步地,所述获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架的步骤,包括:获取不完整标注训练集D,对于每一个标签Li∈L都存在一个集合对Pj×Sj,其中Pj∈D表示正样本集,Sj∈D表示混合样本集,
Figure BDA0003628404560000082
wi,j=1→Ii∈Pj,wi,j=0→Ii∈Sj
步骤S40:将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率。
进一步地,所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤之前,还包括:在所述训练集中,D于每一个j∈{1,2,…,M}都可以表示为一个集合对Pj×Sj,因此,设定下列关系式:
Ii∈Pj=>Pr[wi,j=1|bi]=1
Ii∈Pj≠>Pr[wi,j=1|bi]=0
其中
Figure BDA0003628404560000091
进一步地,所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤,包括:将所述半监督学习框架应用至所述Corr-HDP模型上,更新每一个Ik∈Sj(1≤j≤M)的似然概率Pr[wk,j=1|bk],同时对每一个Ii∈Pj(1≤j≤M)保持Pr[wi,j=1|bi]=1。
进一步地,所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤之后,还包括:当某个样本此标签的更新值wg,j在Sj中所有样本之间属于最小的t%时,将wg,j置为零。
步骤S50:通过更新后的所有样本的似然概率,加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性。
在具体实施中,SSC-HDP的图模型如图4所示。基于理论分析,这里半监督学习的主要思想即是在Corr-HDP的结构下更新每一个Ik∈Sj(1≤j≤M)的似然概率Pr[wk,j=1|bk],同时对每一个Ii∈Pj(1≤j≤M)保持Pr[wi,j=1|bi]=1。一下算法详述了SSC-HDP模型的算法。通过更新标签的似然概率,SSC-HDP模型不断的加强标签和特征之间的关联性,最终使得标注分类更加准确和完整。可以看出,未标注数据的信息可以被无缝地添加到SSC-HDP算法中。当初始的Corr-HDP模型建立了之后,利用该模型的参数来计算未标注数据集U中每一个样本的每一个标签的似然概率,并把这些未标注样本全部归并到混合样本集Sj(1≤j≤M)中。未标注数据的信息可以通过混合样本集被利用起来在连续的迭代过程中更新Corr-HDP的参数。
Figure BDA0003628404560000092
Figure BDA0003628404560000101
本实施例根据获取Corr-LDA模型,并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型;在所述Corr-HDP模型中将β截断为k维;获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架;将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率;通过更新后的所有样本的似然概率,加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性,既能对训练集中存在的不完整标注样本进行标签补全,又能对新的完全未标注的样本进行准确的标签预测,实现了解决不完整标注的技术效果。
此外,本发明实施例还提出一种介质,所述介质上存储有基于生成式模型的标签标注程序,所述基于生成式模型的标签标注程序被处理器执行时实现如上文所述的基于生成式模型的标签标注方法的步骤。
本发明基于生成式模型的标签标注装置的实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于生成式模型的标签标注方法,其特征在于,所述方法包括:
获取Corr-LDA模型,并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型;
在所述Corr-HDP模型中将β截断为k维;
获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架;
将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率;
通过更新后的所有样本的似然概率,加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性。
2.如权利要求1所述的方法,其特征在于,所述获取Corr-LDA模型,并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型的步骤,包括:
获取Corr-LDA模型,使用折棒理论的记号法以获取标记:β~Stick(α),π~DP(α^π,β);
设定随机变量y~Uniform(1,…,Ni)来关联同一个样本中的特征和标签;
给定一个样本i,生成个Ni特征bi,l
Figure FDA0003628404550000011
服从以
Figure FDA0003628404550000012
为参数的多项式分布;
对于Mi个标签中的任一个标签,用y来随机选择Ni个特征中的一个特征,以生成这个特征的隐藏变量z为条件生成相应的标签wi,j,其中
Figure FDA0003628404550000013
Figure FDA0003628404550000014
服从以
Figure FDA0003628404550000015
为参数的多项式分布。
3.如权利要求2所述的方法,其特征在于,所述在所述Corr-HDP模型中将β截断为k维的步骤,包括:
在所述Corr-HDP模型中将β截断为K维,其中π~DP(απ,β)近似为π~Dirichlet(απβ1,…,απβK)。
4.如权利要求1所述的方法,其特征在于,所述获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架的步骤,包括:
获取不完整标注训练集D,对于每一个标签Li∈L都存在一个集合对Pj×Sj,其中Pj∈D表示正样本集,Sj∈D表示混合样本集,
Figure FDA0003628404550000021
wi,j=1→Ii∈Pj,wi,j=0→Ii∈Sj
5.如权利要求4所述的方法,其特征在于,所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤之前,还包括:
在所述训练集中,D于每一个j∈{1,2,…,M}都可以表示为一个集合对Pj×Sj,因此,设定下列关系式:
Ii∈Pj=>Pr[wi,j=1|bi]=1
Ii∈Pj≠>Pr[wi,j=1|bi]=0
其中
Figure FDA0003628404550000022
6.如权利要求1至5任一项所述的方法,其特征在于,所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤,包括:
将所述半监督学习框架应用至所述Corr-HDP模型上,更新每一个Ik∈Sj(1≤j≤M)的似然概率Pr[wk,j=1|bk],同时对每一个Ii∈Pj(1≤j≤M)保持Pr[wi,j=1|bi]=1。
7.如权利要求6所述的方法,其特征在于,所述将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率的步骤之后,还包括:
当某个样本此标签的更新值wg,j在Sj中所有样本之间属于最小的t%时,将wg,j置为零。
8.一种基于生成式模型的标签标注装置,其特征在于,所述装置包括:
模型构建模块,用于获取Corr-LDA模型,并根据折棒理论将所述Corr-LDA模型构建成Corr-HDP模型;
数据截断模块,用于在所述Corr-HDP模型中将β截断为k维;
样本获取模块,用于获取正样本和未标注样本并将所述正样本和未标注样本作为训练集的半监督学习框架;
似然概率模块,用于将所述半监督学习框架应用至所述Corr-HDP模型上更新所述半监督学习框架中的每一个样本的似然概率;
标签标注模块,用于通过更新后的所有样本的似然概率,加强所有标签和特征之间的关联性以实现标注分类的准确性和完整性。
9.一种基于生成式模型的标签标注设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于生成式模型的标签标注程序,所述基于生成式模型的标签标注程序配置为实现如权利要求1至7中任一项所述的基于生成式模型的标签标注方法的步骤。
10.一种介质,其特征在于,所述介质上存储有基于生成式模型的标签标注程序,所述基于生成式模型的标签标注程序被处理器执行时实现如权利要求1至7任一项所述的基于生成式模型的标签标注方法的步骤。
CN202210482520.5A 2022-05-05 2022-05-05 基于生成式模型的标签标注方法 Pending CN114997275A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210482520.5A CN114997275A (zh) 2022-05-05 2022-05-05 基于生成式模型的标签标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210482520.5A CN114997275A (zh) 2022-05-05 2022-05-05 基于生成式模型的标签标注方法

Publications (1)

Publication Number Publication Date
CN114997275A true CN114997275A (zh) 2022-09-02

Family

ID=83024353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210482520.5A Pending CN114997275A (zh) 2022-05-05 2022-05-05 基于生成式模型的标签标注方法

Country Status (1)

Country Link
CN (1) CN114997275A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416370A (zh) * 2018-02-07 2018-08-17 深圳大学 基于半监督深度学习的图像分类方法、装置和存储介质
CN112580343A (zh) * 2020-11-03 2021-03-30 北京字节跳动网络技术有限公司 模型生成方法、问答质量判断方法、装置、设备及介质
KR20210114074A (ko) * 2019-03-21 2021-09-17 삼성전자주식회사 멀티미디어 데이터의 캡셔닝 정보를 생성하는 방법, 장치, 디바이스 및 매체

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416370A (zh) * 2018-02-07 2018-08-17 深圳大学 基于半监督深度学习的图像分类方法、装置和存储介质
KR20210114074A (ko) * 2019-03-21 2021-09-17 삼성전자주식회사 멀티미디어 데이터의 캡셔닝 정보를 생성하는 방법, 장치, 디바이스 및 매체
CN112580343A (zh) * 2020-11-03 2021-03-30 北京字节跳动网络技术有限公司 模型生成方法、问答质量判断方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
梁星星;马扬;冯旸赫;张驭龙;张龙飞;廖世江;刘忠: "基于预测编码的样本自适应行动策略规划", 软件学报, no. 04, 15 April 2022 (2022-04-15) *
王保成;刘利军;黄青松: "基于LDA和卷积神经网络的半监督图像标注方法", 计算机工程与科学, no. 01, 14 January 2022 (2022-01-14) *

Similar Documents

Publication Publication Date Title
CN109522975B (zh) 手写样本生成方法、装置、计算机设备及存储介质
CN114820398B (zh) 基于扩散模型的图片字体替换方法、系统、设备和介质
CN111582348A (zh) 条件生成式对抗网络的训练方法、装置、设备及存储介质
CN111291560B (zh) 样本扩充方法、终端、装置及可读存储介质
CN113741898B (zh) 表单生成方法、装置及设备
CN109033049B (zh) Ppt文档的生成方法及装置、存储介质、终端
CN112712121A (zh) 一种基于深度神经网络的图像识别模型训练方法、装置及存储介质
CN113377964A (zh) 知识图谱链接预测方法、装置、设备及存储介质
CN110909768B (zh) 一种标注数据获取方法及装置
CN116186326A (zh) 视频推荐方法、模型训练方法、电子设备及存储介质
CN112839185B (zh) 用于处理图像的方法、装置、设备和介质
JP2001101227A (ja) 文書分類装置および文書分類方法
CN112948526A (zh) 用户画像的生成方法及装置、电子设备、存储介质
CN114997275A (zh) 基于生成式模型的标签标注方法
CN111401465A (zh) 训练样本优化方法、装置、设备及存储介质
JP2020502710A (ja) ウェブページメイン画像認識方法及び装置
CN114840743B (zh) 一种模型推荐方法、装置、电子设备及可读存储介质
CN114519404B (zh) 一种图像样本分类标注方法、装置、设备、存储介质
CN111754518B (zh) 图像集合的扩充方法、装置及电子设备
CN110163975B (zh) 空间直线的绘制方法、装置、设备及存储介质
CN114528973A (zh) 业务处理模型的生成方法、业务处理方法和装置
CN113221574A (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN118035975B (zh) 基于艺术风格的语义验证码生成方法、装置、设备及介质
CN117218225A (zh) 文本生成图像预处理方法、装置和计算机设备和存储介质
CN115291992B (zh) 图形用户界面图片辅助标注方法、电子设备及储存介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination