CN111444350A - 预测用户的身份标签的方法及装置和电子设备 - Google Patents
预测用户的身份标签的方法及装置和电子设备 Download PDFInfo
- Publication number
- CN111444350A CN111444350A CN202010200278.9A CN202010200278A CN111444350A CN 111444350 A CN111444350 A CN 111444350A CN 202010200278 A CN202010200278 A CN 202010200278A CN 111444350 A CN111444350 A CN 111444350A
- Authority
- CN
- China
- Prior art keywords
- identity
- users
- user
- graph model
- labels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000004927 fusion Effects 0.000 claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 59
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000013507 mapping Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 description 15
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 239000002904 solvent Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种预测用户的身份标签的方法包括:获取待预测用户的身份特征;其中,所述身份特征包括指示与其他用户存在社交关系的社交关系特征;将所述待预测用户的身份特征,输入至训练完成的图模型,以将所述待预测用户的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征;其中,所述图模型包括与若干有身份标签用户和若干无身份标签用户的身份特征对应的节点;所述节点之间按照所述有身份标签用户和所述无身份标签用户之间的社交关系进行链接;将所述融合特征,输入训练完成的分类器中进行计算,得到所述待预测用户的身份标签;其中,所述分类器为将若干有身份标签用户和若干无身份标签用户的身份特征作为训练样本训练得到。
Description
技术领域
本说明书实施例涉及互联网技术领域,尤其涉及一种预测用户的身份标签的方法及装置和电子设备。
背景技术
身份标签是用于对用户进行分类的一种标识。一般的,用户的身份标签是由业务人员基于用户的个人基本信息总结归纳确定的。
然而,随着业务不断发展,新增用户的数量会越来越多,而人工标注身份标签的效率较低,往往无法应对不断新增的用户。
发明内容
本说明书实施例提供的一种预测用户的身份标签的方法及装置和电子设备:
根据本说明书实施例的第一方面,提供一种预测用户的身份标签的方法,所述方法包括:
获取待预测用户的身份特征;其中,所述身份特征包括指示与其他用户存在社交关系的社交关系特征;
将所述待预测用户的身份特征,输入至训练完成的图模型,以将所述待预测用户的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征;其中,所述图模型包括与若干有身份标签用户和若干无身份标签用户的身份特征对应的节点;所述节点之间按照所述有身份标签用户和所述无身份标签用户之间的社交关系进行链接;
将所述融合特征,输入训练完成的分类器中进行计算,得到所述待预测用户的身份标签;其中,所述分类器为将若干有身份标签用户和若干无身份标签用户的身份特征作为训练样本训练得到。
可选的,所述图模型通过如下方式训练得到:
获取若干无身份标签用户和若干有身份标签用户的身份特征;
构建与若干无身份标签用户和若干有身份标签用户的身份特征对应的节点,并基于所述无身份标签用户和有身份标签用户之间的社交关系对构建的节点进行链接;
通过图模型训练算法,训练所述图模型中相连节点之间边的权重,以得到所述图模型。
可选的,所述将所述待预测用户的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征,包括:
在所述图模型中确定与所述待预测用户的身份特征对应的目标节点,以及与该目标节点存在链接关系的其它节点;
将所述目标节点对应的身份特征,与所述其它节点对应的的身份特征进行拼接;
将拼接后的身份特征乘以所述目标节点和所述其它节点所在边权重,得到融合后的身份特征。
可选的,所述方法还包括:
确定所述图模型中的权重大于阈值的边;
在得到所述待预测用户的身份标签之后,将所述图模型中的权重大于阈值的边对应的身份特征进行输出,确定作为与该身份标签对应的可解释性结果。
可选的,在将所述待预测用户的身份特征,输入训练完成的图模型之前,还包括:
对所述身份特征进行embedding非线性映射。
可选的,所述图模型包括有向图模型。
可选的,所述分类器包括softmax多分类器。
根据本说明书实施例的第二方面,提供一种预测用户的身份标签的装置,所述装置包括:
获取单元,获取待预测用户的身份特征;其中,所述身份特征包括指示与其他用户存在社交关系的社交关系特征;
融合单元,将所述待预测用户的身份特征,输入至训练完成的图模型,以将所述待预测用户的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征;其中,所述图模型包括与若干有身份标签用户和若干无身份标签用户的身份特征对应的节点;所述节点之间按照所述有身份标签用户和所述无身份标签用户之间的社交关系进行链接;
预测单元,将所述融合特征,输入训练完成的分类器中进行计算,得到所述待预测用户的身份标签;其中,所述分类器为将若干有身份标签用户和若干无身份标签用户的身份特征作为训练样本训练得到。
可选的,所述图模型通过如下训练单元训练得到:
训练单元,获取若干无身份标签用户和若干有身份标签用户的身份特征;构建与若干无身份标签用户和若干有身份标签用户的身份特征对应的节点,并基于所述无身份标签用户和有身份标签用户之间的社交关系对构建的节点进行链接;通过图模型训练算法,训练所述图模型中相连节点之间边的权重,以得到所述图模型。
可选的,所述融合单元中,将所述待预测用户的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征,包括:
在所述图模型中确定与所述待预测用户的身份特征对应的目标节点,以及与该目标节点存在链接关系的其它节点;将所述目标节点对应的身份特征,与所述其它节点对应的的身份特征进行拼接;将拼接后的身份特征乘以所述目标节点和所述其它节点所在边权重,得到融合后的身份特征。
根据本说明书实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为上述任一项预测用户的身份标签的方法。
本说明书实施例,提供了一种预测用户的身份标签的方案,利用图模型技术,将单一用户(待预测用户)的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征,然后基于融合特征来预测用户的身份标签。由于特征融合后的融合特征不仅包含了单一用户的身份特征还包含了与之存在社交关系的其它用户的身份特征,且存在社交关系的用户之间的身份标签趋于一致;因此通过特征融合可以将身份标签趋于一致的其他用户的身份特征补充到单一用户的身份特征中以弥补该单一用户缺失的身份特征,进而提升身份标签预测的准确性。
附图说明
图1是本说明书一实施例提供的预测用户的身份标签的方法的流程图;
图2是本说明书一实施例提供的社交关系的示意图;
图3是本说明书一实施例提供的预测用户的身份标签的装置的硬件结构图;
图4是本说明书一实施例提供的预测用户的身份标签的装置的模块示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本说明书旨在提供了一种预测用户的身份标签的方案,利用图模型技术,将单一用户(待预测用户)的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征,然后基于融合特征来预测用户的身份标签。由于特征融合后的融合特征不仅包含了单一用户的身份特征还包含了与之存在社交关系的其它用户的身份特征,且存在社交关系的用户之间的身份标签趋于一致;因此通过特征融合可以将身份标签趋于一致的其他用户的身份特征补充到单一用户的身份特征中以弥补该单一用户缺失的身份特征,进而提升身份标签预测的准确性。
本说明书中的身份标签具体可以是指用户的一种识别标签,例如用户的职业,再例如用户的圈子等等。这些身份标签一般存在聚集效应,所述聚集效应是指相同身份标签的用户之间往往存在一定的联系。
以下可以参考图1所示的本说明书提供的一种预测用户的身份标签的方法,所述方法应用于身份标签预测的服务端,该服务端可以是预测身份标签的服务器、服务器集群或者由服务器集群构建云平台。所述方法可以包括以下步骤:
步骤110:获取待预测用户的身份特征;其中,所述身份特征包括指示与其他用户存在社交关系的社交关系特征。
步骤120:将所述待预测用户的身份特征,输入至训练完成的图模型,以将所述待预测用户的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征;其中,所述图模型包括与若干有身份标签用户和若干无身份标签用户的身份特征对应的节点;所述节点之间按照所述有身份标签用户和所述无身份标签用户之间的社交关系进行链接;
步骤130:将所述融合特征,输入训练完成的分类器中进行计算,得到所述待预测用户的身份标签;其中,所述分类器为将若干有身份标签用户和若干无身份标签用户的身份特征作为训练样本训练得到。
所述图模型中包括与若干有身份标签用户和若干无身份标签用户的身份特征对应的节点(Vertex),所述节点之间按照所述有身份标签用户和所述无身份标签用户之间的社交关系进行链接;所述节点与节点之间的链接以边(Edge)的形式表示。并且,所述边还对应有权重,所述权重可以表示链接的两个节点代表的身份特征之间相关程度。一般的,所述相关程度可以两个身份特征的条件概率表示,即权重可以是指对应的边所链接的两个身份特征之间的条件概率。所述条件概率具体是指两个节点中,一个节点发生后,另一个节点也发生的概括。例如一个节点的身份特征对应的身份标签为A,那么另一个节点的身份特征对应的身份标签也为A的概率。
本说明书中,所述图模型可以是有向图模型,也可以是无向图模型。
在图模型中的“有向”指的是链接不同节点的边是有方向的。通常所述有方向的边可以表示为箭头,箭头的方向由表示原因的节点指向表示结果的节点。
无向图模型与有向图模型不同的是,无向图模型中节点之间的边不存在方向。也正是由于无向图模型的边不具有方向,因此在训练边的权重时无法采用条件概率。为此,在无向图模型中可以定义能量函数(energy funct ion),边的权重就是对应了所述能量函数。其中,所述能量函数表示的是不同变量(如身份特征)之间共同出现的概率大小。
有向图模型类似于贪心算法,其每次只寻找局部的一个最优解。而无向图模型则需要寻找全局最优解。因此,有向图模型相对于无向图模型的优势在于计算速度快;而无向图模型相对于有向图模型的优势在于计算结果的准确性更高。
本说明书提供的预测用户的身份标签的方案可以分为两个阶段,分别是模型训练阶段和模型应用阶段。
在模型训练阶段,需要训练图模型和分类器。以下介绍本说明书中图模型的训练过程:
获取若干无身份标签用户和若干有身份标签用户的身份特征;
构建与若干无身份标签用户和若干有身份标签用户的身份特征对应的节点,并基于所述无身份标签用户和有身份标签用户之间的社交关系对构建的节点进行链接;
通过图模型训练算法,训练所述图模型中相连节点之间边的权重,以得到所述图模型。
如前所述图模型可以是指有向图模型。在训练有向图图模型时,需要注意的是,基于所述无身份标签用户和有身份标签用户之间的社交关系对构建的节点进行链接所形成的边是由方向,即构建一个有向图。然后,在训练边的权重时,可以采用贝叶斯网络(Beyesian Network)进行训练。通过计算边链接的两个节点对应的身份特征之间的条件概率作为边的权重。需要注意的是,由于是边是有向的,因此箭头的尾部作为条件概率的原因节点,头部作为条件概率的结果节点。例如,节点B和节点A存在边,且边的方向是节点A指向节点B,那么该边的权重可以表示为:P(A|B),即节点A在节点B发生条件下的发生概率。
如前所述图模型也可以是无向图模型。在训练无向图模型时,基于所述无身份标签用户和有身份标签用户之间的社交关系对构建的节点进行链接所形成的边是由没有方向的。在训练边的权重时,可以采用马尔科夫随机场进行训练。通过计算边链接的两个节点对应的身份特征之间的能量函数作为边的权重。
在训练完图模型之后,还需要训练分类器。所述分类器为将若干有身份标签用户和若干无身份标签用户的身份特征作为训练样本训练得到。
所述分类器可以采用业内惯用的分类器算法进行训练。需要说明的是,本说明书可以适用多种分类器,而每种分类器在训练时收敛条件都是不同的,因此分类器的训练过程并不是唯一的,本说明书并不对具体分类器的训练过程进行限定。
由于社交网络中身份标签多种多样,并且随着社会的发展还会新增很多身份标签,也会取消很多身份标签;因此,为了更全面的预测用户的身份标签,所述分类器可以采用softmax多分类器。
值得一提的是,在训练分类器时可以结合已经训练完成的图模型进行训练。具体的,根据所述训练完成的图模型计算有身份标签用户的身份特征与其他存在社交关系的用户的身份特征进行特征融合后的融合特征,将融合特征作为分类器训练的输入。而一般的分类器训练方式下只是将训练样本的身份特征作为分类器训练的输入。而由于融合特征不仅包含了单一用户的身份特征还包含了与之存在社交关系的其它用户的身份特征,因此通过特征融合训练的分类器更为准确。
当然,也可以采用一般的分类器训练方式训练的分类器进行预测。由于在模型应用阶段需要通过图模型进行特征融合,因此最终输入分类器的融合特征相对于单一用户身份特征本身就更为准确,因此即使应用采用采用一般的分类器训练方式训练的分类器也可以提升身份标签预测的准确性。
在将图模型和分类器训练完成后,就可以进入模型应用阶段。模型应用阶段就是使用训练好的图模型和分类器计算待预测用户的身份标签。具体是指将待预测用户的身份特征输入到训练好的图模型中,得到融合特征;再将融合特征输入到训练好的分类器中,得到身份标签的一个过程。
所述待预测用户可以是指未确定身份标签的用户。
在一实施例中,所述待预测用户可以通过已确定身份标签的用户自动地确定。具体包括:将图模型中已有身份标签的用户作为种子用户,将与所述种子用户存在边的无身份标签的用户确定为待预测用户。
以下请参考图2所示的基于社交关系的图模型的示意图。在图2中虚线框内的为已经确定了身份标签的种子用户,与这些种子用户存在边(图2中的连线)的没有确定身份标签的用户即为待预测的用户(图2中虚线框外用户)。
该实施例中,通过给定若干的种子用户,按照这些种子用户的社交关系在关系网的图模型中向外扩展一度;这样扩展出来的没有身份标签的用户可以利用本说明书提供的身份标签识别方案自动且准确地预测出身份标签。在重复多次识别后可以实现对全量用户身份标签的预测识别工作。
本说明书中利用已确定身份标签的用户作为种子用户,按照种子用户的社交关系来确定未确定身份标签的用户为待预测用户,这样做的目的还在于,便于后续图模型的计算。具体原因是,图模型是为了将所述待预测用户的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征。而如果与待预测用户其他存在社交关系的其他用户也都是未确定身份标签的用户,那么可能还是无法预测身份标签;或者已确定身份标签的用户与该待预测用户的关系较为疏远,例如社交关系隔了很多度(例如,朋友的同事的亲属)。过于疏远的身份特征显然会降低预测准确性;为此最好选择与种子用户最近的未确定身份标签的用户为待预测用户,如图2中关系网中一度的社交关系。所以通过种子用户扩展的待预测用户,满足与该待预测用户的身份特征链接的是关系非常近的种子用户的身份特征。利用这样的方式确定的待预测用户,待预测用户的身份特征预测的结果准确性更高。
在一实施例中,本说明书中的身份特征除了指示与其他用户存在社交关系特征外,还可以包括个人属性特征。所述个人属性特征和社交关系特征可以是从用户数据中提取出来的。以下分别就个人属性特征和社交关系特征进行说明。
对个人属性特征,获取待预测用户的个人属性数据;
对所述个人属性数据进行分词,将分词得到的包含身份语义的词语确定为个人属性特征。
针对社交关系特征,获取待预测用户的社交关系数据;
对所述社交关系数据进行分词,将分词得到的包含身份语义的词语确定为社交关系特征。
在实际应用中,软件客户端在由用户授权后可以采集用户终端上存储的通讯录数据,或者社交软件中社交关系数据、个人属性数据等。通常,这些采集的数据中并非全部都是需要的,因此服务端还需要对这些采集的数据进行预处理,以提取出有含义的可以用于后续预测的特征。
该实施例中,通过语义分析技术,可以对采集到的数据进行分词,并分析各个词语表示的语义,将哪些无意义的、与身份标签无关的词语过滤掉;仅保留包含身份语义的词语作为个人属性或社交关系特征。
在一示例性的实施例中,可以从个人属性数据中提取出用户的通讯地址,社交关系中的通讯录昵称、软件社交关系等作为特征。具体地,
过滤预设时长内未被使用的通讯地址,并对过滤后剩余的通讯地址进行分词,将分词得到的包含身份语义的地址词语确定为个人属性特征。
一般的,通讯地址除了表示行政区域的词汇外,还可能包含有可以表示用户身份的地址信息。例如,xxx省xxx市xxx医院xxx科室;通过分词以及语义分析可知,该通讯地址中的xxx省xxx市不属于身份语义过滤掉;而“xxx医院”说明用户可能是医护人员,而“xxx科室”进一步可能就表明用户是医生或者是护士。例如“眼科门诊”那么用户可能是眼科医生,“护理科”用户可能是护士。
一般的,一个用户可能具有多个不同的通讯地址。这些通讯地址可以是不同渠道中归总的,也可以是同一渠道下的。例如,从用户网购平台上采集到的收货地址,从即时通讯平台上采集到的工作地址等。这些通讯地址中有些是用户频繁使用的,有些可能用户好久没有使用;为了使得提取到的特征更为准确,该示例中过滤预设时长内未被使用的通讯地址,从而排除那些可能无效的通讯地址。例如用户跨职业换工作后之前工作的通讯地址中包含的身份语义与当前身份完全不同。
在一示例性的实施例中,可以从社交关系数据中提取出用户的通讯录昵称、社交关系作为特征。
本说明书中,所述通讯录昵称为其它用户的通讯录中对该待预测用户的昵称。由于服务端可以采集各个用户的通讯录数据;通过大数据分析可以从中提取出目标用户被其它存在关系(该用户手机号位于其它用户通讯录中)的用户在通讯录中存的昵称,在汇总目标用户这些通讯录昵称后,就可以进行特征提取处理。具体地,
对所述通讯录昵称进行分词,将分词得到的包含身份语义的昵称词语确定为社交关系特征。
一般的,通讯录昵称除了姓名外,还可能包含有可以表示用户身份的昵称信息。例如,张三医生、李护士、王律师等;通过分词以及语义分析可知,“医生、护士、律师”就属于包含身份语义的昵称词语。
本说明书中,所述社交关系为软件应用中社交关系。例如即时通讯软件中好友之间存在如朋友、同事、同学等关系。一般的,相同身份的用户之间存在高度的聚集效应,即相同身份的用户往往具有社交关系,或者说具有社交关系的用户往往属于相同的身份。因此,基于社交关系也可以提取出特征,例如获取与待预测用户存在社交关系的其它用户中已确定的身份标签,并将该身份标签确定为该待预测用户的社交关系特征。
综上本说明书实施例提供了社交关系特征和个人属性特征结合的身份特征,通过个人属性维度和社交关系维度共同预测身份标签。
在一实施例中,在获取到待预测用户的身份特征之后,在将所述待预测用户的身份特征,输入至训练完成的图模型之前,还可以对所述身份特征进行预处理。需要说明的,如果在模型应用阶段对身份特征进行以下预处理,那么在模型训练阶段也需要对身份特征进行相同的预处理。
所述预处理可以包括对所述身份特征进行embedding非线性映射;将非线性映射后的身份特征输入到图模型中。
如前所述身份特征可以分为不同维度的特征,例如社交关系特征、通讯录昵称特征和收货地址特征这3种不同维度的特征。在实际应用中,由于提取的个人属性特征和社交关系特征一般是一些离散的特征,不适合直接在图模型中进行计算。因此需要通过一些方法将离散特征转换为连续特征。此时可以采用embedding,embedding是一种将离散特征转换为连续特征的方法,非常适合应用于深度学习场景中,而图模型作为深度学习技术的一种,同样可以适用embedding对身份特征进行非线性映射的处理。
需要说明的是,通过embedding非线性映射由于可以实现将高维稀疏特征映射成为低维稠密的特征向量,使得高维稀疏特征上的“精确匹配”转换为低维稠密的特征向量上的“模糊匹配”;从而可以大大降低计算量、提高了算法的性能,将高维稀疏特征的可用性大大提高。此外,embedding非线性映射的作用还体现在将身份特征从语义空间映射到向量空间,同时在向量空间还保留原身份特征在语义空间的关系,例如语义接近的两个身份特征,在向量空间中的位置也会比较接近。
如前所述,在存在通讯录特征、通讯地址特征和社交关系特征时,本步骤用于将待预测用户的通讯录特征、通讯地址特征和社交关系特征分别进行embedding非线性映射,从而得到通讯录特征向量(以下称为通讯录embedding)、通讯地址特征向量(以下称为通讯地址embedding)和社交关系特征向量(以下称为社交关系embedding)。
在获取了待预测用户的身份特征或者预处理的身份特征之后,就可以将该身份特征输入到训练完成的图模型中进行计算。所述图模型的计算过程可以包括:
在所述图模型中确定与所述待预测用户的身份特征对应的目标节点,以及与该目标节点存在链接关系的其它节点;
将所述目标节点对应的身份特征,与所述其它节点对应的的身份特征进行拼接;
将拼接后的身份特征乘以所述目标节点和所述其它节点所在边权重,得到融合后的身份特征。
以下举一个简单的示例为例,假设某个有向图模型的拓扑结构为A->B(a);A->C(b);C->D(c)。其中,“A,B,C,D”表示节点,“->”表示边的方向,“a,b,c”表示权重值。例如A->C(a)表示的是节点A和节点C之间存在边,且该边是由节点A指向节点C,该边的权重为a。
针对这一有向图模型,如果输入的身份特征为A,确定与之存在边的其它身份特征B和C,以及对应的权重a和b。对应的进行特征融合后的融合后身份特征为:a*(AB)+b*(AC)。
在计算出融合后身份特征之后,就可以输入到训练完成的分类器中进行计算。
以softmax多分类器为例,softmax多分类器在计算身份标签时,可以根据输入的融合特征进行计算,并输出该融合特征对应在各个身份标签下的概率。这些概率是以向量的形式输出的。例如,softmax多分类器存在身份A、身份B、身份C、身份D这四种身份标签,那么在输入了融合特征后,可以输出一个表示对应每种身份标签的概率的向量[a,b,c,d];其中该融合特征的用户属于身份A的概率为a,属于身份B的概率为b,属于身份C的概率为c,属于身份D的概率为d。
此外,还需要根据向量中的多个概率,确定的一个或多个身份标签。所述确定基于的规则也可以包含多种情况:
例如,可以为每种身份标签设定一个概率阈值,当向量中的概率大于对应身份标签的概率阈值时,可以将该身份标签确定为用户的身份标签。由于每种身份标签的概率阈值是相互独立的,因此这种情况下可能出现确定二个或二个以上的身份标签。
再例如,可以将输出的向量中概率最大的概率所对应的身份标签确定为用户的身份标签。这种情况下通常只会确定一个身份标签。
再例如,可以将输出的向量中概率从大到小的预设数量个概率所对应的身份标签确定用户身份标签。所述预设数量要远小于向量中概率数量。
本说明书中在最终确定了待预测用户的身份标签后,还可以反过来利用之前图模型进行身份特征融合过程中使用的权重来解释这个身份标签。
具体地,确定所述图模型中的权重大于阈值的边;在得到所述待预测用户的身份标签之后,将所述图模型中的权重大于阈值的边对应的身份特征进行输出,确定作为与该身份标签对应的可解释性结果。
由于权重大的特征对预测结果影响大,因此权重大于阈值的特征正好可以解释身份标签的由来。
举例说明,假设以下身份特征之间边的权重为:“牙科医生”和“牙科大夫”之间边的权重为0.8,“牙科医生”和“蛀牙患者”之间边的权重为0.4;如果预测该用户的身份标签为“医生”,那么可以将权重大于阈值(例如0.5)的身份特征即“牙科医生”、“牙科大夫”用于解释身份标签“医生”;如此,直观地根据“牙科医生”、“牙科大夫”可以明确该用户的“医生”身份,并且还可以细化为牙科,而原本仅凭“医生”这个身份标签是无法获知牙科这个特征的。
值得一提的是,所述预测的身份标签加上对应的可解释性结果,可以应用于其他多种业务场景。
在广告投放场景中,基于用户的身份标签将该身份标签对应的广告池中的广告投放给用户;甚至于进一步基于可解释性结果,再从身份标签的广告池中进一步细化地选取符合该特征的广告投放给用户;如此可以实现广告精准投放,提升投放广告的点击率。
在风控场景中,基于用户的身份标签可以确定该身份标签对应的风控模型,并利用确定的风控模型先进行风险识别。进一步的基于可解释性结果,还可以确定对应的风控模型,将多个风控模型集成为一个强风控模型;使得识别结果更为准确。
综上所述,本说明书利用图模型技术,将单一用户(待预测用户)的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征,然后基于融合特征来预测用户的身份标签。由于特征融合后的融合特征不仅包含了单一用户的身份特征还包含了与之存在社交关系的其它用户的身份特征,且存在社交关系的用户之间的身份标签趋于一致;因此通过特征融合可以将身份标签趋于一致的其他用户的身份特征补充到单一用户的身份特征中以弥补该单一用户缺失的身份特征,进而提升身份标签预测的准确性。
另外,在最终确定了待预测用户的身份标签后,还可以反过来利用之前图模型进行身份特征融合过程中使用到的边的权重和边链接的身份特征来确定用于解释预测的身份标签对应的可解释性结果。
值得一提的是,本说明书实施例采用图模型技术,将图模型中用于标识节点间关联关系设置为社交关系,即利用用户之间的社交关系来构建图模型,如此实现了基于社交关系的身份特征融合。另外还利用图模型中节点之间边存在权重的特点,将该边的权重作为对预测的身份标签进行解释的解释依据(即将所述图模型中的权重大于阈值的边对应的身份特征进行输出,确定作为与该身份标签对应的可解释性结果)。由此可见,本说明书实施例采用图模型技术不仅实现提升了预测身份标签的准确率,而且还提供了用于解释身份标签的可解释性结果。
与前述预测用户的身份标签的方法实施例相对应,本说明书还提供了预测用户的身份标签的装置的实施例。所述装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机业务程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书预测用户的身份标签的装置所在设备的一种硬件结构图,除了图3所示的处理器、网络接口、内存以及非易失性存储器之外,实施例中装置所在的设备通常根据预测用户的身份标签的实际功能,还可以包括其他硬件,对此不再赘述。
请参见图4,为本说明书一实施例提供的预测用户的身份标签的装置的模块图,所述装置对应了图1所示实施例,所述装置包括:
获取单元310,获取待预测用户的身份特征;其中,所述身份特征包括指示与其他用户存在社交关系的社交关系特征;
融合单元320,将所述待预测用户的身份特征,输入至训练完成的图模型,以将所述待预测用户的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征;其中,所述图模型包括与若干有身份标签用户和若干无身份标签用户的身份特征对应的节点;所述节点之间按照所述有身份标签用户和所述无身份标签用户之间的社交关系进行链接;
预测单元330,将所述融合特征,输入训练完成的分类器中进行计算,得到所述待预测用户的身份标签;其中,所述分类器为将若干有身份标签用户和若干无身份标签用户的身份特征作为训练样本训练得到。
可选的,所述图模型通过如下训练单元训练得到:
训练单元,获取若干无身份标签用户和若干有身份标签用户的身份特征;构建与若干无身份标签用户和若干有身份标签用户的身份特征对应的节点,并基于所述无身份标签用户和有身份标签用户之间的社交关系对构建的节点进行链接;通过图模型训练算法,训练所述图模型中相连节点之间边的权重,以得到所述图模型。
可选的,所述融合单元320中,将所述待预测用户的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征,包括:
在所述图模型中确定与所述待预测用户的身份特征对应的目标节点,以及与该目标节点存在链接关系的其它节点;将所述目标节点对应的身份特征,与所述其它节点对应的的身份特征进行拼接;将拼接后的身份特征乘以所述目标节点和所述其它节点所在边权重,得到融合后的身份特征。
可选的,所述装置还包括:
解释单元,确定所述图模型中的权重大于阈值的边;在得到所述待预测用户的身份标签之后,将所述图模型中的权重大于阈值的边对应的身份特征进行输出,确定作为与该身份标签对应的可解释性结果。
可选的,在所述融合单元之前,还包括:
预处理单元,对所述身份特征进行embedding非线性映射。
可选的,所述图模型包括有向图模型。
可选的,所述分类器包括softmax多分类器。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上图4描述了预测用户的身份标签的装置的内部功能模块和结构示意,其实质上的执行主体可以为一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为前述任一项所述预测用户的身份标签的方法。
在上述电子设备的实施例中,应理解,该处理器可以是中央处理单元(英文:Central Process ing Uni t,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digi tal Signal Processor,简称:DSP)、专用集成电路(英文:Appl icat ionSpecific Integrated Circui t,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,而前述的存储器可以是只读存储器(英文:read-onlymemory,缩写:ROM)、随机存取存储器(英文:random access memory,简称:RAM)、快闪存储器、硬盘或者固态硬盘。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
Claims (11)
1.一种预测用户的身份标签的方法,所述方法包括:
获取待预测用户的身份特征;其中,所述身份特征包括指示与其他用户存在社交关系的社交关系特征;
将所述待预测用户的身份特征,输入至训练完成的图模型,以将所述待预测用户的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征;其中,所述图模型包括与若干有身份标签用户和若干无身份标签用户的身份特征对应的节点;所述节点之间按照所述有身份标签用户和所述无身份标签用户之间的社交关系进行链接;
将所述融合特征,输入训练完成的分类器中进行计算,得到所述待预测用户的身份标签;其中,所述分类器为将若干有身份标签用户和若干无身份标签用户的身份特征作为训练样本训练得到。
2.根据权利要求1所述的方法,所述图模型通过如下方式训练得到:
获取若干无身份标签用户和若干有身份标签用户的身份特征;
构建与若干无身份标签用户和若干有身份标签用户的身份特征对应的节点,并基于所述无身份标签用户和有身份标签用户之间的社交关系对构建的节点进行链接;
通过图模型训练算法,训练所述图模型中相连节点之间边的权重,以得到所述图模型。
3.根据权利要求2所述的方法,所述将所述待预测用户的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征,包括:
在所述图模型中确定与所述待预测用户的身份特征对应的目标节点,以及与该目标节点存在链接关系的其它节点;
将所述目标节点对应的身份特征,与所述其它节点对应的的身份特征进行拼接;
将拼接后的身份特征乘以所述目标节点和所述其它节点所在边权重,得到融合后的身份特征。
4.根据权利要求3所述的方法,所述方法还包括:
确定所述图模型中的权重大于阈值的边;
在得到所述待预测用户的身份标签之后,将所述图模型中的权重大于阈值的边对应的身份特征进行输出,确定作为与该身份标签对应的可解释性结果。
5.根据权利要求1所述的方法,在将所述待预测用户的身份特征,输入训练完成的图模型之前,还包括:
对所述身份特征进行embedding非线性映射。
6.根据权利要求1所述的方法,所述图模型包括有向图模型。
7.根据权利要求1所述的方法,所述分类器包括softmax多分类器。
8.一种预测用户的身份标签的装置,所述装置包括:
获取单元,获取待预测用户的身份特征;其中,所述身份特征包括指示与其他用户存在社交关系的社交关系特征;
融合单元,将所述待预测用户的身份特征,输入至训练完成的图模型,以将所述待预测用户的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征;其中,所述图模型包括与若干有身份标签用户和若干无身份标签用户的身份特征对应的节点;所述节点之间按照所述有身份标签用户和所述无身份标签用户之间的社交关系进行链接;
预测单元,将所述融合特征,输入训练完成的分类器中进行计算,得到所述待预测用户的身份标签;其中,所述分类器为将若干有身份标签用户和若干无身份标签用户的身份特征作为训练样本训练得到。
9.根据权利要求8所述的装置,所述图模型通过如下训练单元训练得到:
训练单元,获取若干无身份标签用户和若干有身份标签用户的身份特征;构建与若干无身份标签用户和若干有身份标签用户的身份特征对应的节点,并基于所述无身份标签用户和有身份标签用户之间的社交关系对构建的节点进行链接;通过图模型训练算法,训练所述图模型中相连节点之间边的权重,以得到所述图模型。
10.根据权利要求9所述的装置,所述融合单元中,将所述待预测用户的身份特征与其他存在社交关系的用户的身份特征进行特征融合得到融合特征,包括:
在所述图模型中确定与所述待预测用户的身份特征对应的目标节点,以及与该目标节点存在链接关系的其它节点;将所述目标节点对应的身份特征,与所述其它节点对应的的身份特征进行拼接;将拼接后的身份特征乘以所述目标节点和所述其它节点所在边权重,得到融合后的身份特征。
11.一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为上述权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010200278.9A CN111444350B (zh) | 2020-03-20 | 2020-03-20 | 预测用户的身份标签的方法及装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010200278.9A CN111444350B (zh) | 2020-03-20 | 2020-03-20 | 预测用户的身份标签的方法及装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444350A true CN111444350A (zh) | 2020-07-24 |
CN111444350B CN111444350B (zh) | 2024-06-18 |
Family
ID=71653510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010200278.9A Active CN111444350B (zh) | 2020-03-20 | 2020-03-20 | 预测用户的身份标签的方法及装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444350B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148981A (zh) * | 2020-09-29 | 2020-12-29 | 广州小鹏自动驾驶科技有限公司 | 同人识别方法、装置、设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304935A (zh) * | 2017-05-09 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法、装置和计算机设备 |
-
2020
- 2020-03-20 CN CN202010200278.9A patent/CN111444350B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304935A (zh) * | 2017-05-09 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法、装置和计算机设备 |
Non-Patent Citations (1)
Title |
---|
DAIXIN WANG等: "A Semi-supervised Graph Attentive Network for Financial Fraud Detection" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148981A (zh) * | 2020-09-29 | 2020-12-29 | 广州小鹏自动驾驶科技有限公司 | 同人识别方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111444350B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020125445A1 (zh) | 分类模型训练方法、分类方法、设备及介质 | |
US10936952B2 (en) | Detecting content items in violation of an online system policy using templates based on semantic vectors representing content items | |
EP2461273A2 (en) | Method and system for machine-learning based optimization and customization of document similarities calculation | |
CN111931002B (zh) | 一种匹配方法以及相关设备 | |
CN112883258B (zh) | 信息推荐方法、装置、电子设备及存储介质 | |
CN113762309B (zh) | 对象匹配方法、装置及设备 | |
US11108710B2 (en) | Computerized system and method for multi-factor message classification and delivery | |
CN111666766B (zh) | 数据处理方法、装置和设备 | |
CN111783903B (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN112818227B (zh) | 内容推荐方法、装置、电子设备及存储介质 | |
CN114612743A (zh) | 深度学习模型的训练方法、目标对象识别方法和装置 | |
US11551042B1 (en) | Multimodal sentiment classification | |
CN111507285A (zh) | 人脸属性识别方法、装置、计算机设备和存储介质 | |
CN111538818A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN113128526B (zh) | 图像识别方法、装置、电子设备和计算机可读存储介质 | |
CN111444350B (zh) | 预测用户的身份标签的方法及装置和电子设备 | |
CN114241411A (zh) | 基于目标检测的计数模型处理方法、装置及计算机设备 | |
CN113590752A (zh) | 基于大数据的话题用户画像处理方法及人工智能服务器 | |
CN115248890A (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 | |
CN117171540A (zh) | 一种基于动态流标签的多标签特征选择方法、设备及介质 | |
CN111968753A (zh) | 疫情监控方法、装置、计算机设备和存储介质 | |
WO2021192235A1 (ja) | Sns分析システム、sns分析装置、sns分析方法、及び、sns分析プログラムが格納された記録媒体 | |
JP2015097036A (ja) | 推薦画像提示装置及びプログラム | |
CN114385903B (zh) | 应用账号的识别方法、装置、电子设备及可读存储介质 | |
CN113792163B (zh) | 多媒体推荐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |