CN109447110A - 综合邻居标签相关性特征和样本特征的多标签分类的方法 - Google Patents
综合邻居标签相关性特征和样本特征的多标签分类的方法 Download PDFInfo
- Publication number
- CN109447110A CN109447110A CN201811082265.5A CN201811082265A CN109447110A CN 109447110 A CN109447110 A CN 109447110A CN 201811082265 A CN201811082265 A CN 201811082265A CN 109447110 A CN109447110 A CN 109447110A
- Authority
- CN
- China
- Prior art keywords
- label
- classification
- neighbours
- tag
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种综合邻居标签相关性特征和样本特征的多标签分类的方法,包括:用BR方法将训练数据集D={(xi,yi)}进行二分类,得到m个转换后的数据集{(xi,yik)};基于转后的数据集{(xi,yik)},将邻居标签相关性加入基于样本特征的二分类方法中,训练标签lk对应二分类器gk;采用二分类器gk预测待测实例t是否存在标签lk,并输出结果yk;综合m个输出结果yk,得到待测实例t对应的多标签集合{y1,...,yk,...ym}。本发明提出了从邻居实例中获取标签相关性的方法,综合样本实际特征和标签相关性特征的分类结果,实现对多标签的预测;提出衡量邻居信息可靠性,修正邻居特征的结果,提高分类准确性。
Description
技术领域
本发明属于多标签分类领域,更具体地,涉及一种综合邻居标签相关性特征和样本特征的多标签分类的方法。
背景技术
数据分类是数据挖掘领域研究中的一个重要分支,是解决现实问题的重要方案,受到人们的广泛关注和研究,传统的分类方法是将每个样本分配到一个且仅一个标签。传统监督学习框架在样本充足即训练集足够大的情况下,学习系统利用某种学习算法学得输入空间(示例空间)与输出空间(标签空间)之间的一个映射,基于该映射可以预测未见示例的类别标签。若类别集合中有两个类,样本只能选择其中一类的问题称为二分类。若类别集合中包含多个类别,且样本只能选择其中一类的问题称为多元分类。二分类和多元分类问题中,一个样本只对应一个标签的学习方法统称为单标签学习。
针对每个样本需要考虑每个标签,单标签的学习方法不适用于多标签案例,最近提出了大量的多标签学习算法,按照使用标签信息的不同,将多标签分类方法分为三种策略:1)一阶策略:该类策略忽略标签相关性独立考察每个标签,将多标签学习问题转换成多个独立的二分类问题,每个二分类问题属于单标签分类问题。该类方法效率较高且实现简单,但因其忽略标签之间的相关性,系统的泛化性能较低,代表方法有BR、LP;2)二阶策略:该类多标签学习策略考察两两标签的关联关系,如相关标签与无关标签的排序关系,两两标签间的交互关系等等。由于该类方法在一定程度上考虑了标签相互关系,因此系统泛化性能相对一阶策略有提升,该类策略的代表方法有CC、CLR;3)高阶策略:该类策略的基本假设是所有标签相互关联,考虑标签之间的相互关系,如在多标签学习系统中,考虑任一标签对其它所有标签的影响。该类方法可以较好地反映真实世界实例的标签相关性,同时由于计算复杂度的增加,导致了处理大规模学习问题时速度较慢,代表方法有DBR、RAKEL。后来涌现出一批深入挖掘标签特征的学习方法,如基于邻居特征的逻辑回归方法IBLR-ML,基于标签结构特征的学习方法LIFT,基于标签重要性的学习方法RELIAB、基于补充标签的学习方法MLFE。
然而,上述多标签分类方法均未没有考虑标签之间的关系,预测未见示例的类别标签准确率差。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有技术中多标签分类方法均未没有考虑标签之间的关系,预测未见示例的类别标签准确率差的技术问题。
为实现上述目的,第一方面,本发明实施例提供了一种综合邻居标签相关性特征和样本特征的多标签分类的方法,该方法包括以下步骤:
S0.用BR方法将训练数据集D={(xi,yi)}进行二分类,得到m个转换后的数据集{(xi,yik)};
S1.基于转后的数据集{(xi,yik)},将邻居标签相关性加入基于样本特征的二分类方法中,训练标签lk对应二分类器gk;
S2.采用二分类器gk预测待测实例t是否存在标签lk,并输出结果yk;
S3.综合m个输出结果yk,得到待测实例t对应的多标签集合{y1,...,yk,...ym};
其中,xi为训练实例,yi为训练实例xi对应的类别标签,表示为yi={yi1,...,yik,...yim},1≤i≤N,N为训练数据集中训练实例的个数;多标签集合L={l1,...,lk,...lm},1≤k≤m,m为多标签集合L中标签的个数。
具体地,BR方法选取决策树、随机森林、SVM和神经网络的任一种。
具体地,步骤S1具体如下:
S10.基于训练实例xi的特征向量,预测标签lk在训练实例xi中存在的概率pf;
S11.基于邻居相关性特征,预测标签lk在训练实例xi中存在的概率pr;
S12.计算邻居预测标签lk的可靠性p1(x)和基于样本特征预测标签lk的可靠性p0(x);
S13.基于p1(x)和p0(x),计算邻居预测结果权重ω1和样本特征预测结果权重ω2;
S14.计算综合概率Px=ω1·pr+ω2·pf;
S15.标签lk对应二分类器gk的判断标准如下:
其中,表示标签lk存在于实例,表示标签lk不存在于实例。
具体地,步骤S12具体如下:
S120.计算概率和其中,表示训练实例xi存在标签lk,表示训练实例xi中不存在标签lk;
S121.计算后验概率和表示测试实例xi的K个近邻中有个存在标签lk;
S122.基于概率和计算邻居预测标签lk发生的概率p1(x)和不发生的概率p0(x)。
具体地,概率和的计算公式如下:
其中,N(xi)为测试实例xi的K个邻居实例集合,表示训练实例xi是否有标签lk,若存在,否则,c[j]为训练数据集上有j个邻居有标签lk且该样本也有标签lk的数量。
具体地,p1(x)和p0(x)的计算公式如下:
具体地,步骤S13中ω1和ω2的计算公式如下:
ω2=1-ω1。
具体地,对于待测实例t,采取与步骤S10-S14相同的方式,计算待测实例t的综合概率Px,时,二分类器gk分类结果为+1,表示待测实例t存在标签lk,yk=1;时,二分类器gk分类结果为-1,表示待测实例t不存在标签lk,yk=0。
第二方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面所述的多标签分类的方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
1.本发明提出了从邻居实例中获取标签相关性的方法,寻找相似的邻居样本,从小聚类的相似样本的标签集合中挖掘标签成对出现情况,当作标签相关性特征,用复杂度低且可以并行的单标签分类方法计算标签出现的概率,从标签相关性角度提取标签存在概率,同样的用复杂度低可并行的一阶策略对样本特征分类,综合样本实际特征和标签相关性特征的分类结果,实现对多标签的预测。
2.本发明提出衡量邻居信息可靠性,如果基于邻居特征分类的可靠性较高,邻居特征的预测结果权重选取较大值可以帮助保留好的邻居标签关系,同时调整基于原始特征的结果,如果基于邻居特征分类的可靠性较低,特征向量的预测结果权重可以提高原始特征的影响,帮助纠正邻居特征的错误,因此可以综合邻居标签相关性与基于特征分类结果提高分类性能。
附图说明
图1为本发明提供的一种综合邻居标签相关性特征和样本特征的多标签分类的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
多标签分类的定义:设标签集合L={l1,l2,...lm},该集合由m=|L|个标签组成。对于给定训练数据集D={(xi,yi)},xi为训练实例,包含d个特征,表示为xi=[xi1,xi2,...,xid]T;yi为训练实例xi对应的类别标签,包含m个标签,表示为yi={yi1,yi2,...yim}。若yim=1,表明训练实例xi存在标签lm;若yim=0,表明训练实例xi不存在标签lm。1≤i≤n。多标签分类的目标就是学习一个分类函数f:x→2y,通过分类函数预测测试实例x的标签集合,x∈Rd,代表输入d维特征向量,y={1,0}m代表输出的标签集合。
图1为本发明提供的一种综合邻居标签相关性特征和样本特征的多标签分类的方法流程图。如图1所示,该方法包括以下步骤:
S0.用BR方法将训练数据集D={(xi,yi)}进行二分类,得到m个转换后的数据集{(xi,yik)};
S1.基于转后的数据集{(xi,yik)},将邻居标签相关性加入基于样本特征的二分类方法中,训练标签lk对应二分类器gk;
S2.采用二分类器gk预测待测实例t是否存在标签lk,并输出结果yk;
S3.综合m个输出结果yk,得到待测实例t对应的多标签集合{y1,...,yk,...ym};
其中,xi为训练实例,yi为训练实例xi对应的类别标签,表示为yi={yi1,...,yik,...yim},1≤i≤N,N为训练数据集中训练实例的个数;多标签集合L={l1,...,lk,...lm},1≤k≤m,m为多标签集合L中标签的个数。
步骤S0.用BR(Binary Relevance)方法将训练数据集D={(xi,yi)}进行二分类,得到m个转换后的数据集{(xi,yik)}。
BR方法可选取不同的算法,如决策树、随机森林、SVM和神经网络。若yik=1,表明训练实例xi存在标签lk;若yik=0,表明训练实例xi不存在标签lk。
步骤S1.基于转后的数据集{(xi,yik)},将邻居标签相关性加入基于样本特征的二分类方法中,训练标签lk对应二分类器gk。具体如下:
S10.基于训练实例xi的特征向量,预测标签lk在训练实例xi中存在的概率pf;
S11.基于邻居相关性特征,预测标签lk在训练实例xi中存在的概率pr;
S12.计算邻居预测标签lk的可靠性p1(x)和基于样本特征预测标签lk的可靠性p0(x);
S13.基于p1(x)和p0(x),计算邻居预测结果权重ω1和样本特征预测结果权重ω2;
S14.计算综合概率Px=ω1·pr+ω2·pf;
S15.标签lk对应二分类器gk的判断标准如下
其中,表示标签lk存在于实例,表示标签lk不存在于实例。
步骤S11.基于邻居相关性特征,预测标签lk在训练实例xi中存在的概率pr。
本发明从邻居实例中提取标签相关性信息,考虑所有标签之间的相互关系,提高分类准确率。
本发明提出了从邻居实例中获取标签相关性的方法,主要思路是寻找相似的邻居样本,从小聚类的相似样本的标签集合中挖掘标签成对出现情况,当作标签相关性特征。相似性度量的方法有很多,本发明优选欧氏距离方法,通过计算两点间的距离衡量样本的相似性。局部的相似样本标签具有相关性,样本标签与其邻居样本的大多数相同,相似样本中以高频率同时存在的标签具有相关性。如果两个事物特征越接近,它们的相似性也就越大,相似的样本大概率属于同一种类型,按照样本亲疏远近聚类,聚类的样本标签具有一致性或者相关联,这种相似性的度量结果可以称为“邻居相关性特征”。邻居相关性特征度量的方法有很多,比如BRKNN方法,IBLR-ML方法,RAKEL方法等。
步骤S12.计算邻居预测标签lk的可靠性p1(x)和基于样本特征预测标签lk的可靠性p0(x)。具体如下:
S120.计算概率和其中,表示训练实例xi存在标签lk,表示训练实例xi中不存在标签lk。
等于训练实例xi存在标签lk的样本数除以训练数据集的样本总数:
表示训练实例xi是否有标签lk,若存在,否则,
S121.计算后验概率和表示测试实例xi的K个近邻中有个存在标签lk,N(xi)为测试实例xi的K个邻居实例集合。
首先对每个标签lk,统计整个数据集上有j个邻居有标签lk且该样本也有标签lk的数量c[j],j=0,1,…,K。如果K近邻中有j个邻居有标签lk,则c[j]=c[j]+1。然后统计邻居有j个有标签lk且其自身也有标签lk在整体样本上占的比例。
S122.计算邻居预测标签lk发生的概率p1(x)和不发生的概率p0(x)。
p1(x)用于衡量邻居信息可靠性,进一步修正邻居特征预测结果。
步骤S13.基于p1(x)和p0(x),计算邻居预测结果权重ω1和样本特征预测结果权重ω2。
ω2=1-ω1
S2.采用二分类器gk预测待测实例t是否存在标签lk,并输出结果yk。
对于待测实例t,采取与步骤S10-S14相同的方式,计算待测实例t的综合概率Px。时,二分类器gk分类结果为+1,表示待测实例t存在标签lk,yk=1;时,二分类器gk分类结果为-1,表示待测实例t不存在标签lk,yk=0。
选取3个不同领域的基准多标签数据集,包括音频、图片、生物、视频领域的3个真实数据集,统计信息如表1所示,其中每个数据集的标签基数、标签密度、标签集个数各不相同,代表着多标签的稀疏程度、标签之间的耦合关系不同。
表1
选用常见的基于样本的评价指标,在多标签分类模型中,Hamming loss用来衡量样本对应的标签集与预测后的标签集之间,相关标签未出现在预测标签集中或无关标签出现在预测标签集合中的错误匹配情况,Hamming loss越小,预测的差异程度越小,说明准确率越高,算法的性能越好。
采用神经网络,使用本发明所采用的方法及系统,对比Scene、Yeast、Emotions三个数据集加入邻居特征的和未加入邻居特征的准确率,Scene设置邻居数量、Yeast邻居数量、Emotions数量均为10时,各个评价指标达到最优值,这里设置的迭代次数为1000。三个数据集在“神经网络”和“神经网络+本发明的方法”上的Hamming Loss,Hamming Loss考察相关标签未出现在预测标签集中或无关标签出现在预测标签集合中的错误匹配情况,Hamming Loss取值越小,分类系统性能越优。和原始的神经网络相比可以发现,加入了本发明的方法的神经网络在不同数据集上Hamming Loss值均有下降,其中静态场景分类数据集Scene下降了1.1%,基因功能分类数据集Yeast下降了1.7%,音乐情感分类数据集Emotions下降了0.6%,均得到了性能改进。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (9)
1.一种综合邻居标签相关性特征和样本特征的多标签分类的方法,其特征在于,该方法包括以下步骤:
S0.用BR方法将训练数据集D={(xi,yi)}进行二分类,得到m个转换后的数据集{(xi,yik)};
S1.基于转后的数据集{(xi,yik)},将邻居标签相关性加入基于样本特征的二分类方法中,训练标签lk对应二分类器gk;
S2.采用二分类器gk预测待测实例t是否存在标签lk,并输出结果yk;
S3.综合m个输出结果yk,得到待测实例t对应的多标签集合{y1,...,yk,...ym};
其中,xi为训练实例,yi为训练实例xi对应的类别标签,表示为yi={yi1,...,yik,...yim},1≤i≤N,N为训练数据集中训练实例的个数;多标签集合L={l1,...,lk,...lm},1≤k≤m,m为多标签集合L中标签的个数。
2.如权利要求1所述的多标签分类的方法,其特征在于,BR方法选取决策树、随机森林、SVM和神经网络的任一种。
3.如权利要求1所述的多标签分类的方法,其特征在于,步骤S1具体如下:
S10.基于训练实例xi的特征向量,预测标签lk在训练实例xi中存在的概率pf;
S11.基于邻居相关性特征,预测标签lk在训练实例xi中存在的概率pr;
S12.计算邻居预测标签lk的可靠性p1(x)和基于样本特征预测标签lk的可靠性p0(x);
S13.基于p1(x)和p0(x),计算邻居预测结果权重ω1和样本特征预测结果权重ω2;
S14.计算综合概率Px=ω1·pr+ω2·pf;
S15.标签lk对应二分类器gk的判断标准如下:
其中,表示标签lk存在于实例,表示标签lk不存在于实例。
4.如权利要求3所述的多标签分类的方法,其特征在于,步骤S12具体如下:
S120.计算概率和其中,表示训练实例xi存在标签lk,表示训练实例xi中不存在标签lk;
S121.计算后验概率和 表示测试实例xi的K个近邻中有个存在标签lk;
S122.基于概率和计算邻居预测标签lk发生的概率p1(x)和不发生的概率p0(x)。
5.如权利要求4所述的多标签分类的方法,其特征在于,概率 和的计算公式如下:
其中,N(xi)为测试实例xi的K个邻居实例集合,表示训练实例xi是否有标签lk,若存在,否则,c[j]为训练数据集上有j个邻居有标签lk且该样本也有标签lk的数量。
6.如权利要求4所述的多标签分类的方法,其特征在于,p1(x)和p0(x)的计算公式如下:
7.如权利要求3所述的多标签分类的方法,其特征在于,步骤S13中ω1和ω2的计算公式如下:
ω2=1-ω1。
8.如权利要求3所述的多标签分类的方法,其特征在于,对于待测实例t,采取与步骤S10-S14相同的方式,计算待测实例t的综合概率Px,时,二分类器gk分类结果为+1,表示待测实例t存在标签lk,yk=1;时,二分类器gk分类结果为-1,表示待测实例t不存在标签lk,yk=0。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的多标签分类的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811082265.5A CN109447110A (zh) | 2018-09-17 | 2018-09-17 | 综合邻居标签相关性特征和样本特征的多标签分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811082265.5A CN109447110A (zh) | 2018-09-17 | 2018-09-17 | 综合邻居标签相关性特征和样本特征的多标签分类的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109447110A true CN109447110A (zh) | 2019-03-08 |
Family
ID=65532773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811082265.5A Pending CN109447110A (zh) | 2018-09-17 | 2018-09-17 | 综合邻居标签相关性特征和样本特征的多标签分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109447110A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232403A (zh) * | 2019-05-15 | 2019-09-13 | 腾讯科技(深圳)有限公司 | 一种标签预测方法、装置、电子设备及介质 |
CN111680742A (zh) * | 2020-06-04 | 2020-09-18 | 甘肃电力科学研究院 | 一种应用于新能源厂站网络安全领域的攻击数据标注方法 |
CN111709475A (zh) * | 2020-06-16 | 2020-09-25 | 全球能源互联网研究院有限公司 | 一种基于N-grams的多标签分类方法及装置 |
CN112308115A (zh) * | 2020-09-25 | 2021-02-02 | 安徽工业大学 | 一种多标签图像深度学习分类方法及设备 |
CN113837394A (zh) * | 2021-09-03 | 2021-12-24 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 多特征视图数据标签预测方法、系统与可读存储介质 |
CN114091607A (zh) * | 2021-11-24 | 2022-02-25 | 燕山大学 | 一种基于邻域粗糙集的半监督多标签在线流特征选择算法 |
CN114117040A (zh) * | 2021-11-08 | 2022-03-01 | 重庆邮电大学 | 基于标签特定特征和相关性的文本数据多标签分类方法 |
CN113837394B (zh) * | 2021-09-03 | 2024-07-05 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 多特征视图数据标签预测方法、系统与可读存储介质 |
-
2018
- 2018-09-17 CN CN201811082265.5A patent/CN109447110A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232403A (zh) * | 2019-05-15 | 2019-09-13 | 腾讯科技(深圳)有限公司 | 一种标签预测方法、装置、电子设备及介质 |
CN111680742A (zh) * | 2020-06-04 | 2020-09-18 | 甘肃电力科学研究院 | 一种应用于新能源厂站网络安全领域的攻击数据标注方法 |
CN111709475A (zh) * | 2020-06-16 | 2020-09-25 | 全球能源互联网研究院有限公司 | 一种基于N-grams的多标签分类方法及装置 |
CN111709475B (zh) * | 2020-06-16 | 2024-03-15 | 全球能源互联网研究院有限公司 | 一种基于N-grams的多标签分类方法及装置 |
CN112308115A (zh) * | 2020-09-25 | 2021-02-02 | 安徽工业大学 | 一种多标签图像深度学习分类方法及设备 |
CN112308115B (zh) * | 2020-09-25 | 2023-05-26 | 安徽工业大学 | 一种多标签图像深度学习分类方法及设备 |
CN113837394A (zh) * | 2021-09-03 | 2021-12-24 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 多特征视图数据标签预测方法、系统与可读存储介质 |
CN113837394B (zh) * | 2021-09-03 | 2024-07-05 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 多特征视图数据标签预测方法、系统与可读存储介质 |
CN114117040A (zh) * | 2021-11-08 | 2022-03-01 | 重庆邮电大学 | 基于标签特定特征和相关性的文本数据多标签分类方法 |
CN114091607A (zh) * | 2021-11-24 | 2022-02-25 | 燕山大学 | 一种基于邻域粗糙集的半监督多标签在线流特征选择算法 |
CN114091607B (zh) * | 2021-11-24 | 2024-05-03 | 燕山大学 | 一种基于邻域粗糙集的半监督多标签在线流特征选择方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109447110A (zh) | 综合邻居标签相关性特征和样本特征的多标签分类的方法 | |
CN111339306B (zh) | 分类模型训练方法、分类方法及装置、设备和介质 | |
WO2023065545A1 (zh) | 风险预测方法、装置、设备及存储介质 | |
Tao et al. | Domain-weighted majority voting for crowdsourcing | |
CN109345348B (zh) | 基于旅行社用户的多维信息画像的推荐方法 | |
CN108492200B (zh) | 一种基于卷积神经网络的用户属性推断方法和装置 | |
Shrivastava et al. | Failure prediction of Indian Banks using SMOTE, Lasso regression, bagging and boosting | |
Marqués et al. | On the suitability of resampling techniques for the class imbalance problem in credit scoring | |
CN108647736B (zh) | 一种基于感知损失和匹配注意力机制的图像分类方法 | |
CN105760888B (zh) | 一种基于属性聚类的邻域粗糙集集成学习方法 | |
Ionescu et al. | Overview of the ImageCLEF 2022: Multimedia retrieval in medical, social media and nature applications | |
CN103559504A (zh) | 图像目标类别识别方法及装置 | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
CN106991447A (zh) | 一种嵌入式多类别属性标签动态特征选择算法 | |
CN104573130A (zh) | 基于群体计算的实体解析方法及装置 | |
Straton et al. | Big social data analytics for public health: Predicting facebook post performance using artificial neural networks and deep learning | |
Ibrahim | Forecasting the early market movement in bitcoin using twitter's sentiment analysis: An ensemble-based prediction model | |
CN107220663A (zh) | 一种基于语义场景分类的图像自动标注方法 | |
CN109783805A (zh) | 一种网络社区用户识别方法及装置 | |
Fagni et al. | Fine-grained prediction of political leaning on social media with unsupervised deep learning | |
CN115631008B (zh) | 商品推荐方法、装置、设备及介质 | |
CN103136309A (zh) | 通过基于核的学习对社交强度进行建模 | |
CN102693258A (zh) | 高精度的类似检索系统 | |
Wu et al. | Learning from biased crowdsourced labeling with deep clustering | |
CN114549897A (zh) | 一种分类模型的训练方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190308 |