CN103699628A - 获取多标签的方法及装置 - Google Patents

获取多标签的方法及装置 Download PDF

Info

Publication number
CN103699628A
CN103699628A CN201310712889.1A CN201310712889A CN103699628A CN 103699628 A CN103699628 A CN 103699628A CN 201310712889 A CN201310712889 A CN 201310712889A CN 103699628 A CN103699628 A CN 103699628A
Authority
CN
China
Prior art keywords
sample
label
sigma
evaluated
tau
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310712889.1A
Other languages
English (en)
Other versions
CN103699628B (zh
Inventor
石磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310712889.1A priority Critical patent/CN103699628B/zh
Publication of CN103699628A publication Critical patent/CN103699628A/zh
Application granted granted Critical
Publication of CN103699628B publication Critical patent/CN103699628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种获取多标签的方法及装置,方法包括:获取至少两个包括属性和标签的样本,形成训练样本集合;从所述训练样本集合中筛选出与待评测样本的属性相关的预设数目的样本,形成所述待评测样本的邻近样本集合;分别获取各标签在所述邻近样本集合所包括的样本中的出现次数;分别计算所述待评测样本在带有或不带有各标签的条件下,所述邻近样本集合所包括的样本在各标签上的多项分布概率;根据所述多项分布概率和所述出现次数,按照预设算法计算所述待评测样本在各标签的概率,将概率大于预设概率阈值的标签作为所述待评测样本的标签。本发明能准确获取待评测样本的一个或一个以上的标签。

Description

获取多标签的方法及装置
技术领域
本发明实施例涉及计算机应用技术领域,尤其涉及一种获取多标签的方法及装置。
背景技术
互联网中庞大数据和网站种类的日益增加,针对互联网的分析并在复杂庞大的网络中寻找有针对性的内容是目前急需解决的问题,需要更深入的研究。目前,通过对网站数据进行多标签分类是一种比较直观有效的办法,有助于从多个角度加深对整个网络的理解与认识,能为用户呈现更加清晰的互联网络,具有重要的意义。
对数据的多标签分类本质上是对事物的属性X到多标签Y的二值分类/回归映射,从而给标签未知的海量数据样本打上多标签,实现多个方面的关联分析。其中,Y是多维的,每个维度均是二值的多标签。因此,实现X->Y的映射这个问题,可以被看成一个多目标的分类或回归问题。
现有技术中有多种方法可以实现对数据的多标签分类,但是均具有各种各样的缺点:非线性支持向量机由于需要估计和维护样本量平方大小的核矩阵,因此很难在大量数据上实现;逻辑回归和神经网络可以实现大量数据的非线性多目标分类/回归,但主要有三方面问题:一是收敛速度慢、训练代价大;二是需要适当处理正则化和模型选择,来保证在未知样本上的泛化能力,但找到有效的处理方式是很难的;三是对属性X上的相似度或概率的定义是隐性的,一般需要先对X做出恰当的归一化预处理。
发明内容
有鉴于此,本发明实施例提供一种获取多标签的方法及装置,以准确获取待评测样本的标签。
本发明实施例采用以下技术方案:
第一方面,本发明实施例提供了一种获取多标签的方法,包括:
获取至少两个包括属性和标签的样本,形成训练样本集合;
从所述训练样本集合中筛选出与待评测样本的属性相关的预设数目的样本,形成所述待评测样本的邻近样本集合;
分别获取标签在所述邻近样本集合所包括的样本中的出现次数;
分别计算所述待评测样本在带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率,分别计算所述待评测样本在不带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率;
根据所述多项分布概率和所述出现次数,按照预设算法计算所述待评测样本在标签的概率,将概率大于预设概率阈值的标签作为所述待评测样本的标签。
第二方面,本发明实施例还提供了一种获取多标签的装置,包括:
练样本集合获取单元,用于获取至少两个包括属性和标签的样本,形成训练样本集合;
邻近样本集合筛选单元,用于从所述训练样本集合中筛选出与待评测样本的属性相关的预设数目的样本,形成所述待评测样本的邻近样本集合;
标签出现次数获取单元,用于分别获取标签在所述邻近样本集合所包括的样本中的出现次数;
多项分布概率计算单元,用于分别计算所述待评测样本在带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率,分别计算所述待评测样本在不带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率;
多标签获取单元,用于根据所述多项分布概率和所述出现次数,按照预设算法计算所述待评测样本在标签的概率,将概率大于预设概率阈值的标签作为所述待评测样本的标签。
本发明实施例提出的技术方案的有益技术效果是:
本发明实施例从所获取的训练样本集合中筛选出待评测样本的邻近样本集合,计算邻近样本集合所包括的样本分别在带有或不带有某个标签的条件下,它的邻近样本在标签上的多项分布概率,以及分别获取标签在所述邻近样本集合所包括的样本中的出现次数,根据所述多项分布概率和所述出现次数,按照预设算法计算所述待评测样本在标签的概率,将概率大于预设概率阈值的标签作为所述待评测样本的标签,以准确获取待评测样本的标签。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1是本发明具体实施例一所述的获取多标签的方法流程图;
图2是本发明具体实施例三所述的获取多标签的方法流程图;
图3是本发明具体实施例四所述的获取多标签的装置的结构框图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
实施例一
图1是本发明具体实施例一所述的获取多标签的方法流程图,本实施例可适用于对样本(例如作为销费类型分析对象的网站用户、作为旅游类型分析对象的旅行社的目标消费对象等)进行分析,判断其具有既定的至少两个标签中各标签的概率,从而为所述样本打上一个或一个以上标签的情况,该方法可以由计算机程序来实现,如图1所示,本实施例所述的获取多标签的方法包括:
S101、获取至少两个包括属性和标签的样本,形成训练样本集合。
本实施例仅以标签既定的训练样本作为参考,获取这些标签既定的训练样本作为训练样本集合,其中各标签均包括至少一个属性。
S102、从所述训练样本集合中筛选出与待评测样本的属性相关的预设数目的样本,形成所述待评测样本的邻近样本集合。
上述操作具体方法包括但不限于,根据样本的属性的关联程度,将待评测样本与所述训练样本集合中所包含的各样本进行相关度分析,按相关度从高到低从所述训练样本集合中选择出预设数目的样本作为该待评测样本的邻近样本集合,其包括的样本称为所述待评测样本的邻近样本。
S103、分别获取标签在所述邻近样本集合所包括的样本中的出现次数。
S104、分别计算所述待评测样本在带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率,分别计算所述待评测样本在不带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率。
S105、根据所述多项分布概率和所述出现次数,按照预设算法计算所述待评测样本在标签的概率,将概率大于预设概率阈值的标签作为所述待评测样本的标签。
其中,所述预设概率阈值可根据具体应用需求来设定,为大于0小于1的数,各待评测样本的标签数目不一定相同。
本实施例通过从所获取的训练样本集合中筛选出待评测样本的邻近样本集合,计算邻近样本集合所包括的各样本分别在带有或不带有某个标签的条件下,它的邻近样本在各标签上的多项分布概率,以及分别获取各标签在所述邻近样本集合所包括的样本中的出现次数,根据所述多项分布概率和所述出现次数,按照预设算法计算所述待评测样本在各标签的概率,将概率大于预设概率阈值的标签作为所述待评测样本的标签,以准确获取待评测样本的一个或一个以上的标签。
实施例二
本实施例在实施例一的基础上,优选地将实施例一的操作S105,根据所述多项分布概率和所述出现次数,按照预设算法计算所述待评测样本在各标签的概率的操作可具体化为按照如下公式进行计算:
postP [ i | x ] = Π j ( multP 1 [ j , i ] ) o j Π j ( multP 0 [ j , i ] ) o j + Π j ( multP 1 [ j , i ] ) o j
或者,
postP [ i | x ] = priP 1 [ i ] * Π j ( multP 1 [ j , i ] ) o j priP 0 [ i ] * Π j ( multP 0 [ j , i ] ) o j + priP 1 [ i ] * Π j ( multP 1 [ j , i ] ) o j
其中,postP[i|x]为待评测样本x带有第i个标签的概率;
priP1[i]为所述训练样本集合所包括的样本带有第i个标签的概率;
priP0[i]为所述训练样本集合所包括的样本不带有第i个标签的概率;
oj为第j个标签在所述邻近样本集合所包括的样本中的出现次数。
multP1[j,i]为所述待评测样本在带有第i标签的条件下,所述邻近样本集合所包含的样本在第j标签上的多项分布概率,multP0[j,i]为所述待评测样本在不带有第i标签的条件下,所述邻近样本集合所包含的样本在第j标签上的多项分布概率。
multP1[j,i]和multP0[j,i]的计算方式有多种,优选基于如下公式计算:
具体地, multP 1 [ j , i ] = Σ t I [ i ∈ L ( x t ) ] * Σ x τ ∈ N ( x t ) I [ j ∈ ( x τ ) ] Σ j Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ t I [ i ∈ L ( x t ) ]
multP 0 [ j , i ] = Σ t ( 1 - I [ i ∈ L ( x t ) ] ) * Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ j Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ t ( 1 - I [ i ∈ L ( x t ) ] )
xt表示所述邻近样本集合中第t个样本;
L(xt)表示xt所带的标签的集合;
I[i∈L(xt)]表示是否标签i在L(xt)集合中,若是则为1,否则为0;
N(xt)表示xt的邻近样本集合。
或者,增加狄利克雷先验处理或平滑项处理,具体来说,预先设定一个狄利克雷先验强度(平滑强度)α,计算multP0[j,i]和multP1[j,i]变为
multP 1 [ j , i ] = Σ t I [ i ∈ L ( x t ) ] * α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ j ( α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] ) Σ t I [ i ∈ L ( x t ) ]
multP 0 [ j , i ] = Σ t ( 1 - I [ i ∈ L ( x t ) ] ) * α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ j ( α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] ) Σ t ( 1 - I [ i ∈ L ( x t ) ] )
α为预设的狄利克雷先验强度;
xt表示所述邻近样本集合中第t个样本;
L(xt)表示xt所带的标签的集合;
I[i∈L(xt)]表示是否标签i在L(xt)集合中,若是则为1,否则为0;
N(xt)表示xt的邻近样本集合。
本实施例在实施例一的基础上,将计算所述待评测样本在各标签的概率的公式优选为上述两个公式之一,能进一步提高准确获取对象的至少两个标签的效率。
实施例三
图2是本发明具体实施例三所述的获取多标签的方法流程图,如图2所示,本实施例所述的获取多标签的方法包括:
S201、获取至少两个包括属性和标签的样本数据,形成训练样本集合。
前期的样本数据准备视具体的应用问题而定。当具体问题中已经明确提供了用户属性X和目标多标签Y两者完备的训练数据,则可以直接开始模型的训练及预测。一般的,如果只是定义了多标签的意义、缺少训练样本,则需要抽取与目标相关的用户属性X、以及对应的高置信标签Y,从而形成训练样本集。
S202、根据标签已知的训练样本进行ML-KNN模型训练。
具体为:遍历训练样本集合中所包括的所有训练样本,对每个训练样本寻找其KNN邻近样本集合;接下来,计算每个训练样本在邻近样本中的出现次数,以及该训练样本分别在带有或不带有各标签的条件下,它的邻近样本在各标签上的多项分布概率。
假设邻近样本个数为k,多标签的标签个数为m,本实施例模型训练和预测部分中,对于给定一个样本带或不带有某个标签的条件下,它的k个邻近样本的概率的计算方法如下。
首先,计算两个概率向量priP0和priP1。
priP0[i]为所述训练样本集合所包括的样本带有第i个标签的概率;
priP1[i]为所述训练样本集合所包括的样本不带有第i个标签的概率,即满足priP0[i]+priP1[i]=1。
其次,需要计算两个条件多项分布矩阵multP0和multP1,大小均为m*m。其中矩阵中的向量multP0[*,i]表示给定一个样本不带有第i个标签的条件下、它的k个邻近样本在各个标签上的多项分布概率,即满足 Σ j multP 0 [ j , i ] = 1 ;
矩阵中的向量multP1[*,i]表示给定一个样本带有第i个标签的条件下、它的k个邻近样本在各个标签上的多项分布概率,即满足
Figure BDA0000443080430000082
另外,上述操作中在计算多项分布概率时还可以在所述多项分布上添加Dirichlet(狄利克雷边界条件)先验或平滑项处理,从而在训练阶段估计该多项分布的时候,得到更鲁棒的参数结果。
S203、根据训练后获得的ML-KNN模型,计算待评测样本带有各个标签的概率。
具体为:首先对该测试样本在训练样本集合中寻找其KNN邻近样本;然后,累积计算所找到的各邻近样本在每个标签上的出现次数,最后,根据操作S202中所得到的多项分布概率计算待评测样本带有各个标签的概率。
对于一个待评测样本x,
首先计算出这个样本在训练数据上的k个邻近样本,然后累积得出这k个邻近样本在每个标签上的出现次数,记为向量o=[o1,o2,...om]。
然后对于每个标签i,计算这个待预测样本带标签i的概率:
postP [ i | x ] = priP 1 [ i ] * Π j ( multP 1 [ j , i ] ) o j priP 0 [ i ] * Π j ( multP 0 [ j , i ] ) o j + priP 1 [ i ] * Π j ( multP 1 [ j , i ] ) o j
其中,
Figure BDA0000443080430000092
表示该训练样本的邻近样本在各标签上的多项分布概率;
Figure BDA0000443080430000093
表示该训练样本的邻近样本在各标签上的多项分布概率;oj为训练样本集合中给定一个样本的邻近样本集合所包括的各样本带有第j个标签的个数。
如上所述,本实施例对于概率的描述考虑到了至少两个标签的相关性,把多标签的分布考虑进来了,而不是如文献[1]中那样认为至少两个标签几乎是独立的。
S204、根据得到的概率和预设的概率阈值之间的大小关系给出与所述待评测样本对应的标签。
例如,预先设置概率阈值为0.5,若操作S203中得到的所述概率大于预设的概率阈值例如0.5,则给该待预测样本打上第i个标签,所述概率阈值也可根据需要调整为0.5之外的其他阈值。
本实施例所述方法可用于对现实世界中各种事物的至少两个方面的不同特征进行KNN关联分析,例如对大量人群数据的旅游目的地喜好进行关联分析,所分析的人群数据的属性为旅游目的地,标签为具体的旅游景点,通过应用本发明所述的方法,可以分析海量人群数据中涉及的旅游目的地属性,为人群数据打上若干项具体的旅游景点标签,从而深度挖掘海量人群数据中所蕴含的潜在信息。
实施例四
图3是本发明具体实施例四所述的获取多标签的装置的结构框图,如图3所示,本实施例所述的获取多标签的装置包括:
练样本集合获取单元301,用于获取至少两个包括属性和标签的样本,形成训练样本集合;
邻近样本集合筛选单元302,用于从所述训练样本集合中筛选出与待评测样本的属性相关的预设数目的样本,形成所述待评测样本的邻近样本集合;
标签出现次数获取单元303,用于分别获取标签在所述邻近样本集合所包括的样本中的出现次数;
多项分布概率计算单元304,用于分别计算所述待评测样本在带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率,分别计算所述待评测样本在不带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率;
多标签获取单元305,用于根据所述多项分布概率和所述出现次数,按照预设算法计算所述待评测样本在标签的概率,将概率大于预设概率阈值的标签作为所述待评测样本的标签。
进一步地,所述待评测样本在带有第i标签的条件下,所述邻近样本集合所包含的样本在第j标签上的多项分布概率等于multP1[j,i],所述待评测样本在不带有第i标签的条件下,所述邻近样本集合所包含的样本在第j标签上的多项分布概率等于multP0[j,i],所述多项分布概率计算单元具体用于按照下述公式计算multP1[j,i]和multP0[j,i]:
multP 1 [ j , i ] = Σ t I [ i ∈ L ( x t ) ] * Σ x τ ∈ N ( x t ) I [ j ∈ ( x τ ) ] Σ j Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ t I [ i ∈ L ( x t ) ]
multP 0 [ j , i ] = Σ t ( 1 - I [ i ∈ L ( x t ) ] ) * Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ j Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ t ( 1 - I [ i ∈ L ( x t ) ] )
xt表示所述邻近样本集合中第t个样本;
L(xt)表示xt所带的标签的集合;
I[i∈L(xt)]表示是否标签i在L(xt)集合中,若是则为1,否则为0;
N(xt)表示xt的邻近样本集合。
或者,所述待评测样本在带有第i标签的条件下,所述邻近样本集合所包含的样本在第j标签上的多项分布概率等于multP1[j,i],所述待评测样本在不带有第i标签的条件下,所述邻近样本集合所包含的样本在第j标签上的多项分布概率等于multP0[j,i],所述多项分布概率计算单元具体用于按照下述公式计算multP1[j,i]和multP0[j,i]:
其中, multP 1 [ j , i ] = Σ t I [ i ∈ L ( x t ) ] * α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ j ( α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] ) Σ t I [ i ∈ L ( x t ) ]
multP 0 [ j , i ] = Σ t ( 1 - I [ i ∈ L ( x t ) ] ) * α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ j ( α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] ) Σ t ( 1 - I [ i ∈ L ( x t ) ] )
α为预设的狄利克雷先验强度;
xt表示所述邻近样本集合中第t个样本;
L(xt)表示xt所带的标签的集合;
I[i∈L(xt)]表示是否标签i在L(xt)集合中,若是则为1,否则为0;
N(xt)表示xt的邻近样本集合。
进一步地,所述多标签获取单元具体用于按照下述公式计算所述待评测样本在标签的概率:
postP [ i | x ] = Π j ( multP 1 [ j , i ] ) o j Π j ( multP 0 [ j , i ] ) o j + Π j ( multP 1 [ j , i ] ) o j
其中,postP[i|x]为待评测样本x带有第i个标签的概率;
oj为第j个标签在所述邻近样本集合所包括的样本中的出现次数。
或者,所述多标签获取单元具体用于按照下述公式计算所述待评测样本在标签的概率:
postP [ i | x ] = priP 1 [ i ] * Π j ( multP 1 [ j , i ] ) o j priP 0 [ i ] * Π j ( multP 0 [ j , i ] ) o j + priP 1 [ i ] * Π j ( multP 1 [ j , i ] ) o j
其中,postP[i|x]为待评测样本x带有第i个标签的概率;
priP1[i]为所述训练样本集合所包括的样本带有第i个标签的概率;
priP0[i]为所述训练样本集合所包括的样本不带有第i个标签的概率;
oj为第j个标签在所述邻近样本集合所包括的样本中的出现次数。
本实施例通过从所获取的训练样本集合中筛选出待评测样本的邻近样本集合,计算邻近样本集合所包括的各样本分别在带有或不带有某个标签的条件下,它的邻近样本在各标签上的多项分布概率,以及分别获取各标签在所述邻近样本集合所包括的样本中的出现次数,根据所述多项分布概率和所述出现次数,按照预设算法计算所述待评测样本在各标签的概率,将概率大于预设概率阈值的标签作为所述待评测样本的标签,以准确获取待评测样本的一个或一个以上的标签。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种获取多标签的方法,其特征在于,包括:
获取至少两个包括属性和标签的样本,形成训练样本集合;
从所述训练样本集合中筛选出与待评测样本的属性相关的预设数目的样本,形成所述待评测样本的邻近样本集合;
分别获取标签在所述邻近样本集合所包括的样本中的出现次数;
分别计算所述待评测样本在带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率,分别计算所述待评测样本在不带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率;
根据所述多项分布概率和所述出现次数,按照预设算法计算所述待评测样本在标签的概率,将概率大于预设概率阈值的标签作为所述待评测样本的标签。
2.如权利要求1所述的获取多标签的方法,其特征在于,所述分别计算所述待评测样本在带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率,分别计算所述待评测样本在不带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率包括:
所述待评测样本在带有第i标签的条件下,所述邻近样本集合所包含的样本在第j标签上的多项分布概率等于multP1[j,i];
所述待评测样本在不带有第i标签的条件下,所述邻近样本集合所包含的样本在第j标签上的多项分布概率等于multP0[j,i];
multP1[j,i]和multP0[j,i]按照下述公式计算:
multP 1 [ j , i ] = Σ t I [ i ∈ L ( x t ) ] * Σ x τ ∈ N ( x t ) I [ j ∈ ( x τ ) ] Σ j Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ t I [ i ∈ L ( x t ) ]
multP 0 [ j , i ] = Σ t ( 1 - I [ i ∈ L ( x t ) ] ) * Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ j Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ t ( 1 - I [ i ∈ L ( x t ) ] )
xt表示所述邻近样本集合中第t个样本;
L(xt)表示xt所带的标签的集合;
I[i∈L(xt)]表示是否标签i在L(xt)集合中,若是则为1,否则为0;
N(xt)表示xt的邻近样本集合。
3.如权利要求1所述的获取多标签的方法,其特征在于,所述分别计算所述待评测样本在带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率,分别计算所述待评测样本在不带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率包括:
所述待评测样本在带有第i标签的条件下,所述邻近样本集合所包含的样本在第j标签上的多项分布概率等于multP1[j,i];
所述待评测样本在不带有第i标签的条件下,所述邻近样本集合所包含的样本在第j标签上的多项分布概率等于multP0[j,i];
multP1[j,i]和multP0[j,i]按照下述公式计算:
multP 1 [ j , i ] = Σ t I [ i ∈ L ( x t ) ] * α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ j ( α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] ) Σ t I [ i ∈ L ( x t ) ]
multP 0 [ j , i ] = Σ t ( 1 - I [ i ∈ L ( x t ) ] ) * α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ j ( α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] ) Σ t ( 1 - I [ i ∈ L ( x t ) ] )
α为预设的狄利克雷先验强度;
xt表示所述邻近样本集合中第t个样本;
L(xt)表示xt所带的标签的集合;
I[i∈L(xt)]表示是否标签i在L(xt)集合中,若是则为1,否则为0;
N(xt)表示xt的邻近样本集合。
4.如权利要求2或3所述的获取多标签的方法,其特征在于,所述根据所述多项分布概率和所述出现次数,按照预设算法计算所述待评测样本在标签的概率包括:
根据所述多项分布概率和所述出现次数,按照下述公式计算所述待评测样本在标签的概率:
postP [ i | x ] = Π j ( multP 1 [ j , i ] ) o j Π j ( multP 0 [ j , i ] ) o j + Π j ( multP 1 [ j , i ] ) o j
其中,postP[i|x]为待评测样本x带有第i个标签的概率;
oj为第j个标签在所述邻近样本集合所包括的样本中的出现次数。
5.如权利要求2或3所述的获取多标签的方法,其特征在于,所述根据所述多项分布概率和所述出现次数,按照预设算法计算所述待评测样本在标签的概率包括:
根据所述多项分布概率和所述出现次数,按照下述公式计算所述待评测样本在标签的概率:
postP [ i | x ] = priP 1 [ i ] * Π j ( multP 1 [ j , i ] ) o j priP 0 [ i ] * Π j ( multP 0 [ j , i ] ) o j + priP 1 [ i ] * Π j ( multP 1 [ j , i ] ) o j
其中,postP[i|x]为待评测样本x带有第i个标签的概率;
priP1[i]为所述训练样本集合所包括的样本带有第i个标签的概率;
priP0[i]为所述训练样本集合所包括的样本不带有第i个标签的概率;
oj为第j个标签在所述邻近样本集合所包括的样本中的出现次数。
6.一种获取多标签的装置,其特征在于,包括:
练样本集合获取单元,用于获取至少两个包括属性和标签的样本,形成训练样本集合;
邻近样本集合筛选单元,用于从所述训练样本集合中筛选出与待评测样本的属性相关的预设数目的样本,形成所述待评测样本的邻近样本集合;
标签出现次数获取单元,用于分别获取标签在所述邻近样本集合所包括的样本中的出现次数;
多项分布概率计算单元,用于分别计算所述待评测样本在带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率,分别计算所述待评测样本在不带有标签的条件下,所述邻近样本集合所包括的样本在标签上的多项分布概率;
多标签获取单元,用于根据所述多项分布概率和所述出现次数,按照预设算法计算所述待评测样本在标签的概率,将概率大于预设概率阈值的标签作为所述待评测样本的标签。
7.如权利要求6所述的获取多标签的装置,其特征在于,所述待评测样本在带有第i标签的条件下,所述邻近样本集合所包含的样本在第j标签上的多项分布概率等于multP1[j,i],所述待评测样本在不带有第i标签的条件下,所述邻近样本集合所包含的样本在第j标签上的多项分布概率等于multP0[j,i],所述多项分布概率计算单元具体用于按照下述公式计算multP1[j,i]和multP0[j,i]:
multP 1 [ j , i ] = Σ t I [ i ∈ L ( x t ) ] * Σ x τ ∈ N ( x t ) I [ j ∈ ( x τ ) ] Σ j Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ t I [ i ∈ L ( x t ) ]
multP 0 [ j , i ] = Σ t ( 1 - I [ i ∈ L ( x t ) ] ) * Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ j Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ t ( 1 - I [ i ∈ L ( x t ) ] )
xt表示所述邻近样本集合中第t个样本;
L(xt)表示xt所带的标签的集合;
I[i∈L(xt)]表示是否标签i在L(xt)集合中,若是则为1,否则为0;
N(xt)表示xt的邻近样本集合。
8.如权利要求6所述的获取多标签的装置,其特征在于,所述待评测样本在带有第i标签的条件下,所述邻近样本集合所包含的样本在第j标签上的多项分布概率等于multP1[j,i],所述待评测样本在不带有第i标签的条件下,所述邻近样本集合所包含的样本在第j标签上的多项分布概率等于multP0[j,i],所述多项分布概率计算单元具体用于按照下述公式计算multP1[j,i]和multP0[j,i]:
其中, multP 1 [ j , i ] = Σ t I [ i ∈ L ( x t ) ] * α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ j ( α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] ) Σ t I [ i ∈ L ( x t ) ]
multP 0 [ j , i ] = Σ t ( 1 - I [ i ∈ L ( x t ) ] ) * α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] Σ j ( α + Σ x τ ∈ N ( x t ) I [ j ∈ L ( x τ ) ] ) Σ t ( 1 - I [ i ∈ L ( x t ) ] )
α为预设的狄利克雷先验强度;
xt表示所述邻近样本集合中第t个样本;
L(xt)表示xt所带的标签的集合;
I[i∈L(xt)]表示是否标签i在L(xt)集合中,若是则为1,否则为0;
N(xt)表示xt的邻近样本集合。
9.如权利要求7或8所述的获取多标签的装置,其特征在于,所述多标签获取单元具体用于按照下述公式计算所述待评测样本在标签的概率:
postP [ i | x ] = Π j ( multP 1 [ j , i ] ) o j Π j ( multP 0 [ j , i ] ) o j + Π j ( multP 1 [ j , i ] ) o j
其中,postP[i|x]为待评测样本x带有第i个标签的概率;
oj为第j个标签在所述邻近样本集合所包括的样本中的出现次数。
10.如权利要求7或8所述的获取多标签的装置,其特征在于,所述多标签获取单元具体用于按照下述公式计算所述待评测样本在标签的概率:
postP [ i | x ] = priP 1 [ i ] * Π j ( multP 1 [ j , i ] ) o j priP 0 [ i ] * Π j ( multP 0 [ j , i ] ) o j + priP 1 [ i ] * Π j ( multP 1 [ j , i ] ) o j
其中,postP[i|x]为待评测样本x带有第i个标签的概率;
priP1[i]为所述训练样本集合所包括的样本带有第i个标签的概率;
priP0[i]为所述训练样本集合所包括的样本不带有第i个标签的概率;
oj为第j个标签在所述邻近样本集合所包括的样本中的出现次数。
CN201310712889.1A 2013-12-20 2013-12-20 获取多标签的方法及装置 Active CN103699628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310712889.1A CN103699628B (zh) 2013-12-20 2013-12-20 获取多标签的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310712889.1A CN103699628B (zh) 2013-12-20 2013-12-20 获取多标签的方法及装置

Publications (2)

Publication Number Publication Date
CN103699628A true CN103699628A (zh) 2014-04-02
CN103699628B CN103699628B (zh) 2017-04-05

Family

ID=50361156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310712889.1A Active CN103699628B (zh) 2013-12-20 2013-12-20 获取多标签的方法及装置

Country Status (1)

Country Link
CN (1) CN103699628B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348993A (zh) * 2019-06-28 2019-10-18 北京淇瑀信息科技有限公司 风评模型用标签的确定方法、确定装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289514B (zh) * 2011-09-07 2016-03-30 中国科学院计算技术研究所 社会标签自动标注的方法以及社会标签自动标注器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348993A (zh) * 2019-06-28 2019-10-18 北京淇瑀信息科技有限公司 风评模型用标签的确定方法、确定装置及电子设备
CN110348993B (zh) * 2019-06-28 2023-12-22 北京淇瑀信息科技有限公司 风评模型用标签的确定方法、确定装置及电子设备

Also Published As

Publication number Publication date
CN103699628B (zh) 2017-04-05

Similar Documents

Publication Publication Date Title
Weinmann et al. Distinctive 2D and 3D features for automated large-scale scene analysis in urban areas
Mustafa et al. Comparing support vector machines with logistic regression for calibrating cellular automata land use change models
CN109936582B (zh) 构建基于pu学习的恶意流量检测模型的方法及装置
CN109886719B (zh) 基于网格的数据挖掘处理方法、装置和计算机设备
Sarmadi et al. Regionalizing precipitation in Iran using GPCC gridded data via multivariate analysis and L-moment methods
CN111178533B (zh) 实现自动半监督机器学习的方法及装置
CN114359563B (zh) 模型训练方法、装置、计算机设备和存储介质
EP3443482A1 (en) Classifying entities in digital maps using discrete non-trace positioning data
CN105809090A (zh) 一种人脸性别特征提取的方法及系统
Lindsay et al. Measuring the significance of a divide to local drainage patterns
Oshan et al. A scoping review on the multiplicity of scale in spatial analysis
CN103699628A (zh) 获取多标签的方法及装置
Häkkinen et al. qSNE: quadratic rate t-SNE optimizer with automatic parameter tuning for large datasets
Moumtzidou et al. Discovery of environmental resources based on heatmap recognition
CN108090653B (zh) 一种储层的油藏类型识别方法及装置
Huang et al. A simple depression-filling method for raster and irregular elevation datasets
Dixit et al. An implementation of data pre-processing for small dataset
CN111460272A (zh) 一种文本页面的排序方法及相关设备
CN111428724B (zh) 一种试卷手写统分方法、装置及存储介质
Zagow et al. Identifying urban, transportation, and socioeconomic characteristics across US zip codes affecting CO2 emissions: A decision tree analysis
Abu-Awwad et al. Semiparametric estimation for space-time max-stable processes: an F-madogram-based approach
CN106844720A (zh) 一种搜索数据处理的方法以及装置
CN112926697A (zh) 一种基于语义分割的磨粒图像分类方法及装置
US9141651B1 (en) Adaptive column set composition
Yu et al. Construction of garden landscape design system based on multimodal intelligent computing and deep neural network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant