CN113822309A - 用户的分类方法、装置和非易失性计算机可读存储介质 - Google Patents
用户的分类方法、装置和非易失性计算机可读存储介质 Download PDFInfo
- Publication number
- CN113822309A CN113822309A CN202011023591.6A CN202011023591A CN113822309A CN 113822309 A CN113822309 A CN 113822309A CN 202011023591 A CN202011023591 A CN 202011023591A CN 113822309 A CN113822309 A CN 113822309A
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- user
- importance
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013145 classification model Methods 0.000 claims abstract description 54
- 238000003066 decision tree Methods 0.000 claims abstract description 38
- 238000005259 measurement Methods 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims abstract description 14
- 230000002596 correlated effect Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 15
- 238000010801 machine learning Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000011269 treatment regimen Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种用户的分类方法、装置和非易失性计算机可读存储介质,涉及计算机技术领域。该方法包括:从多个数据提供方获取用户的相关数据;以从各相关数据中提取的用户特征为节点,建立决策树模型作为第一用户分类模型;根据第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量用于从各节点中筛选重要节点;利用各重要节点建立第二用户分类模型,对用户进行分类。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种用户的分类方法、用户的分类装置和非易失性计算机可读存储介质。
背景技术
近年来,人工智能和大数据等相关技术蓬勃发展并广泛应用。利用各平台(如电商平台、金融机构、社交平台)等提供的用户数据,可以对用户进行大数据分析。基于分析结果可以对用户进行分类,从而对不同用户进行有针对性的处理。
但是,由于海量数据分散在不同企业、组织,出于用户隐私和数据安全原因形成了“数据孤岛”现象。也就是说,各方数据不能直接共享或者交换,使得人工智能等技术的发展陷入瓶颈期。
在相关技术中,基于多个参与方提供的数据,在第三方进行联邦机器学习,从而在保护用户隐私和数据安全的前提下解决“数据孤岛”问题。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:各参与方提供的数据质量良莠不齐,降低了用户分类联邦机器学习模型的性能,从而导致用户分类的准确性低。
鉴于此,本公开提出了一种用户的分类技术方案,能够对各参与方提供的数据进行评估和筛选,提高联邦机器学习模型的性能,从而提高用户分类的准确性。
根据本公开的一些实施例,提供了一种用户的分类方法,包括:从多个数据提供方获取用户的相关数据;以从各相关数据中提取的用户特征为节点,建立决策树模型作为第一用户分类模型;根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量用于从所述各节点中筛选重要节点;利用各重要节点建立第二用户分类模型,对所述用户进行分类。
在一些实施例中,所述根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量包括:根据任一节点在样本空间内的信息增益、所述任一节点指向的其他节点的信息增益、指向其他节点的次数,确定所述重要性度量,所述重要性度量与指向其他节点的次数正相关。
在一些实施例中,所述根据任一节点在样本空间内的信息增益、所述任一节点指向的其他节点的信息增益、指向其他节点的次数,确定所述重要性度量包括:计算各其他节点的信息增益的加权和,任一其他节点的权重与所述任一节点指向该其他节点的次数正相关;根据所述各其他节点的信息增益的加权和与所述任一节点的信息增益的加权和,确定所述重要性度量。
在一些实施例中,所述任一其他节点的权重为N/(N+M),N为所述任一节点指向该其他节点的次数,M为该其他节点指向所述任一节点的次数。
在一些实施例中,所述根据任一节点在样本空间内的信息增益、所述任一节点指向的其他节点的信息增益、指向其他节点的次数,确定所述重要性度量包括:以所述各节点之间的指向关系为有向连接,以所述各节点指向其他节点的次数为有向连接的权重,建立包含所述各节点的指向关系图,所述指向关系图中标注有所述各节点的信息增益;根据所述指向关系图,确定所述重要性度量。
在一些实施例中,所述第一用户分类模型为包含多个决策树模型的集成学习模型;所述根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量包括:在各决策树模型中,分别确定所述各节点的子重要性度量;根据各子重要性度量的加权和,确定所述各节点的重要性度量。
在一些实施例中,所述各节点的重要性度量用于评估相应的数据提供方的贡献度量。
在一些实施例中,所述用户的分类结果用于确定对所述用户的处理策略。
在一些实施例中,在建立实施决策树模型之前分类方法还包括:对获取的各相关数据进行预处理,滤除其中的恶意数据和低效数据。所述恶意数据包含的所有用户特征为空值或者相同值,所述低效数据根据IV判定。
在一些实施例中,所述第一用户分类模型为基于Secure boost算法建立的包含多个梯度提升树模型的分类模型。
在一些实施例中,所述决策树模型中每一个分裂节点对应的用户特征均是在当前样本空间中信息增益最大的用户特征。
在一些实施例中,所述根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量用于从所述各节点中筛选重要节点包括:根据任一决策树模型中所有节点的重要性度量最大值和重要性度量最小值,对该决策树模型中各节点的重要性度量进行标准化处理;根据标准化处理后的重要性度量从所述各节点中筛选重要节点。
根据本公开的另一些实施例,提供一种用户的分类装置,包括:获取单元,用于从多个数据提供方获取用户的相关数据;建立单元,用于以从各相关数据中提取的用户特征为节点,建立决策树模型作为第一用户分类模型;确定单元,用于根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量用于从所述各节点中筛选重要节点;分类单元,用于利用根据各重要节点建立的第二用户分类模型,对所述用户进行分类。
在一些实施例中,确定单元根据任一节点在样本空间内的信息增益、所述任一节点指向的其他节点的信息增益、指向其他节点的次数,确定所述重要性度量,所述重要性度量与指向其他节点的次数正相关。
在一些实施例中,确定单元计算各其他节点的信息增益的加权和,任一其他节点的权重与所述任一节点指向该其他节点的次数正相关;根据所述加权和与所述任一节点的信息增益的加权和,确定所述重要性度量。
在一些实施例中,所述任一其他节点的权重为N/(N+M),N为所述任一节点指向该其他节点的次数,M为该其他节点指向所述任一节点的次数。
在一些实施例中,建立单元以所述各节点之间的指向关系为有向连接,以所述各节点指向其他节点的次数为有向连接的权重,建立包含所述各节点的指向关系图,所述指向关系图中标注有所述各节点的信息增益;确定单元根据所述指向关系图,确定所述重要性度量。
在一些实施例中,所述第一用户分类模型为包含多个决策树模型的集成学习模型;确定单元在各决策树模型中,分别确定所述各节点的子重要性度量,根据各子重要性度量的加权和,确定所述各节点的重要性度量。
在一些实施例中,所述各节点的重要性度量用于评估相应的数据提供方的贡献度量。
在一些实施例中,所述用户的分类结果用于确定对所述用户的处理策略。
在一些实施例中,所述获取单元在建立实施决策树模型之前分类方法对获取的各相关数据进行预处理,滤除其中的恶意数据和低效数据。所述恶意数据包含的所有用户特征为空值或者相同值,所述低效数据根据IV判定。
在一些实施例中,所述第一用户分类模型为基于Secure boost算法建立的包含多个梯度提升树模型的分类模型。
在一些实施例中,所述决策树模型中每一个分裂节点对应的用户特征均是在当前样本空间中信息增益最大的用户特征。
在一些实施例中,所述确定单元根据任一决策树模型中所有节点的重要性度量最大值和重要性度量最小值,对该决策树模型中各节点的重要性度量进行标准化处理;根据标准化处理后的重要性度量从所述各节点中筛选重要节点。
根据本公开的又一些实施例,提供一种用户的分类装置,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例中的用户的分类方法。
根据本公开的再一些实施例,提供一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的用户的分类方法。
在上述实施例中,根据基于全量数据建立的分类模型中各节点指向其他节点的次数筛选出重要节点,并基于重要节点建立优化的分类模型用于用户分类。这样,能够对各参与方提供的数据进行评估和筛选,提高机器学习模型的性能,从而提高用户分类的准确性。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,
其中:
图1示出本公开的用户的分类方法的一些实施例的流程图;
图2a示出本公开的用户的分类方法的一些实施例的示意图;
图2b示出本公开的用户的分类方法的另一些实施例的示意图;
图3示出本公开的用户的分类方法的又一些实施例的示意图;
图4示出本公开的用户的分类装置的又一些实施例的示意图;
图5示出本公开的用户的分类装置的另一些实施例的框图;
图6示出本公开的用户的分类装置的又一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
如前所述,为了提高联邦机器学习模型的性能,需要全面、准确地衡量各特征对联邦机器学习模型的重要程度,从而筛选出能够提高联邦机器学习模型性能的重要特征。例如,可以通过如下的实施例实现本公开的技术方案。
图1示出本公开的用户的分类方法的一些实施例的流程图。
如图1所示,该方法包括:步骤110,获取多个提供方的相关数据;步骤120,建立第一用户分类模型;步骤130,筛选重要节点;和步骤140,建立第二用户分类模型用于分类。
在步骤110中,从多个数据提供方获取用户的相关数据。例如,相关数据包括主键(Key)、标签(Label)、特征(Feature)三部分。
在一些实施例中,主键可以是用户的唯一识别,如身份证号等。
在一些实施例中,标签可以是有监督学习中要预测的目标(如用户分类),是机器学习模型的输出。例如,在二分类场景中(如是否高信用度用户等),标签可以为“是”和“否”;在多分类场景中(如不同信用等级的用户、不同行为习惯的用户等),可以是各分类的描述。
在一些实施例中,特征为用于预测这些标签的机器学习模型的输入。例如,特征可以是用户的基本信息(人年龄、性别、教育水平等)。
在一些实施例中,在联邦学习建模之前可以基于特征工程对各参与方(数据提供方)的数据进行预处理,避免某些参与方提供的低效数据、无效特征数据降低建模的时间和效果。
例如,需要过滤的相关数据包括恶意数据、低效数据等。恶意数据所有样本包含的特征全为空值或者相同值;低效数据包含的特征为基于IV(Information Value,信息值)等指标判定的,对建模目标影响较低的特征。
在一些实施例中,预处理的方式包括线下处理、线上处理。例如,线下处理是各参与方在将数据上传到联邦环境之前,对数据进行过滤;线上处理是各参与方在将数据上传到联邦环境之后,开始联邦建模之前,对数据进行的过滤。可以记录各参与方所提供数据中恶意数据的样本数和特征数,用于评估各参与方的贡献度量。
在步骤120中,以从各相关数据中提取的用户特征为节点,建立决策树模型作为第一用户分类模型。
在一些实施例中,在各参与方上传数据之后,可以基于多方数据以联邦学习的方式建立协同模型(如第一用户分类模型)。例如,第一用户分类模型保存在第三方或者业务方,模型中的特征可以采取匿名的方式以保护用户隐私。这样,任何一个参与方都难以掌握完整的、具体的模型信息。
在一些实施例中,第一用户分类模型为包含多个决策树模型的集成学习模型。例如,第一用户分类模型为基于Secure boost(安全增长)算法建立的分类模型,包含多个梯度提升树模型。任一个树模型中的特征均以编码的形式表示,每一个分裂节点对应的特征均是在当前样本空间中信息增益最大的特征。第一用户分类模型也可以是随机森林模型。
在一些实施例中,可以建立图2中的决策树模型。
图2a示出本公开的用户的分类方法的一些实施例的示意图。
如图2a所示,leaf代表叶子节点,即用户的分类结果;圆圈节点为参与方1提供的相关数据中的用户特征;五边形节点为参与方2提供的相关数据中的用户特征。
在一些实施例,节点中的编码用于标记用户特征的来源和编号。P(Party)代表用户特征的提供方,F(Feature)代表用户特征在相关数据中的编号。例如,P1F3代表参与方1的第3个用户特征。
在建立了全量数据的决策树模型后,可以利用图1中的其他步骤筛选重要节点。
在步骤130中,根据第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量用于从各节点中筛选重要节点。
在一些实施例中,根据任一节点在样本空间内的信息增益、该节点指向的其他节点的信息增益、指向其他节点的次数,确定重要性度量。重要性度量与指向其他节点的次数正相关。
在一些实施例中,以各节点之间的指向关系为有向连接,以各节点指向其他节点的次数为有向连接的权重,建立包含各节点的指向关系图。指向关系图中标注有各节点的信息增益。根据指向关系图,确定重要性度量。
图2b示出本公开的用户的分类方法的另一些实施例的示意图。
如图2b所示,根据第一用户分类模型中的每个树模型建立一个以用户特征作为节点、以用户特征与用户特征之间的指向为有向连接的有向图作为指向关系图。
在一些实施例中,指向关系图中各节点内的值是该特征在本树模型中的信息增益(标准化后)。例如,对于本棵树中出现多次的节点,可以取每次的信息增益的平均值作为最终信息增益。
在一些实施例中,每个有向连接的权重为图2A中同一父节点指向子节点的次数。
在一些实施例中,计算各其他节点的信息增益的加权和。任一其他节点的权重与任一节点指向该其他节点的次数正相关。根据加权和与任一节点的信息增益的加权和,确定重要性度量。例如,任一其他节点的权重为N/(N+M)。N为任一节点指向该其他节点的次数,M为该其他节点指向任一节点的次数。例如,可以基于图3中的指向关系图确定重要性度量。
图3示出本公开的用户的分类方法的又一些实施例的示意图。
如图3所示,指向关系图中的各节点对应的用户特征编号为A、B、C、D。在进行标准化后,各节点在该树模型中的平均信息增益分别为0.3、0.2、0.1和0.4。
在一些实施例中,可以重复执行如下步骤,直到满足迭代条件:计算各其他节点的信息增益的加权和;根据加权和与任一节点的信息增益的加权和,确定重要性度量。例如,迭代条件可以为:根据实际需要设置的迭代次数;相邻两次迭代中所有节点的重要性度量的变化小于阈值等中的至少一项。
∝可以为PageRank的阻尼系数(如0.85)。可以将上述公式写为矩阵形式:
T=[0,1,2/3,1
0,0,0,0
1,0,0,0
0,3/4,1/3,0]
在一些实施例中,第一用户分类模型为包含多个决策树模型的集成学习模型。在这种情况下,在各决策树模型中分别确定各节点的子重要性度量;根据各子重要性度量的加权和,确定各节点的重要性度量。
在一些实施例中,对各决策树模型中各节点的重要性度量X进行min-max标准化处理得到标准化后的重要性度量X*:
Xmax为指向关系图中(即同一决策树中)所有特征的重要性度量中的最大值,Xmin为指向关系图中所有特征的重要性度量中的最小值。这也难怪,可以对特征的原始重要性度量进行线性变换,使标准化重要性度量属于[0,1]。
在一些实施例中,按照特征的编号将每个特征在所有指向关系图中的重要性程度的加权和,作为这个特征在整个第一用户分类模型的重要性度量。
在上述实施例中,利用节点重要性评估机制,实现了准确、高效和公平的对参与联邦建模的各个特征的进行评估。
在一些实施例中,各节点的重要性度量用于评估相应的数据提供方的贡献度量。
基于上一步计算所得的各特征的贡献值我们便可以计算各参与方的贡献度量,即某参与方提供的所有特征的重要性度量的加权和,即为该参与方在此次建模过程中的贡献度量。例如,参与方i的所有特征在整个模型中的重要性度量Xi=∑j=1Xij即为参与方i的贡献度量。
在一些实施例中,考虑到数据提供方可能提供恶意数据,从而影响建模时间和效果,可以将在线上预处理过程中检测到的各方线下预处理后的数据中的恶意数据的数量作为计算贡献度量的参考因素。
例如,参与方i的恶意数据的数量为Yi,包括恶意特征的数量mi和平均每个特征中恶意样本的数量ni。Yi=mi×ni。参与方i的贡献度量为Zi=Xi-α×Yi。α为由业务方设定的惩罚系数。这样,可以对各数据提供方对用户分类的贡献进行量化估计。
在筛选出了重要节点后,可以通过图1中的步骤140对用户进行分类。
在步骤140中,利用各重要节点建立第二用户分类模型,对用户进行分类。
在一些实施例中,用户的分类结果用于确定述用户的处理策略。例如,可以根据金融平台、社交平台等提供的用户数据,将用户划分到不同信用等级的用户类别中,从而对用户的贷款、信用额度等进行相应的处理;可以根据多个电商平台和社交平台等提供的用户数据,将用户划分到不同消费类别中,从而对用户的购物习惯进行相应的分析。这样,可以提高用户数据的分析准确性。
在上述实施例中,综合考虑各个特征在建模过程中使用的次数、使用的顺序、特征间的组合关系和特征的信息增益等多维度因素,全面准确的衡量了各个特征对最终模型的贡献。
既不需要业务方与数据提供方进行额外通信和传输额外内容,也不需要重复多次建模,即可评估特征对建模效果的影响。即,评估特征的通信代价与原始建模的通信代价基本一致即可实现特征评估,降低了通信代价。
使用特征匿名编号的形式对特征进行评估,不需要额外的对各参与方的数据进行分析,很好的保护了各参与方的数据隐私。
图4示出本公开的用户的分类装置的又一些实施例的示意图。
如图4所示,用户的分类装置4包括获取单元41、建立单元42、确定单元43和分类单元44。
获取单元41从多个数据提供方获取用户的相关数据。
建立单元42以从各相关数据中提取的用户特征为节点,建立决策树模型作为第一用户分类模型。
确定单元43根据第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量用于从所述各节点中筛选重要节点。
在一些实施例中,确定单元43根据任一节点在样本空间内的信息增益、任一节点指向的其他节点的信息增益、指向其他节点的次数,确定重要性度量。重要性度量与指向其他节点的次数正相关。
在一些实施例中,确定单元43计算各其他节点的信息增益的加权和。任一其他节点的权重与任一节点指向该其他节点的次数正相关。确定单元43根据加权和与任一节点的信息增益的加权和,确定重要性度量。
在一些实施例中,任一其他节点的权重为N/(N+M)。N为任一节点指向该其他节点的次数,M为该其他节点指向任一节点的次数。
在一些实施例中,建立单元42以各节点之间的指向关系为有向连接,以各节点指向其他节点的次数为有向连接的权重,建立包含各节点的指向关系图。指向关系图中标注有所述各节点的信息增益。确定单元43根据指向关系图,确定重要性度量。
在一些实施例中,第一用户分类模型为包含多个决策树模型的集成学习模型。确定单元43在各决策树模型中,分别确定各节点的子重要性度量,根据各子重要性度量的加权和,确定各节点的重要性度量。
在一些实施例中,各节点的重要性度量用于评估相应的数据提供方的贡献度量。
分类单元44利用根据各重要节点建立的第二用户分类模型,对所述用户进行分类。
在一些实施例中,用户的分类结果用于确定对用户的处理策略。
在一些实施例中,获取单元41在建立实施决策树模型之前分类方法对获取的各相关数据进行预处理,滤除其中的恶意数据和低效数据。恶意数据包含的所有用户特征为空值或者相同值,低效数据根据IV判定。
在一些实施例中,第一用户分类模型为基于Secure boost算法建立的包含多个梯度提升树模型的分类模型。
在一些实施例中,决策树模型中每一个分裂节点对应的用户特征均是在当前样本空间中信息增益最大的用户特征。
在一些实施例中,确定单元43根据任一决策树模型中所有节点的重要性度量最大值和重要性度量最小值,对该决策树模型中各节点的重要性度量进行标准化处理;根据标准化处理后的重要性度量从所述各节点中筛选重要节点。
图5示出本公开的用户的分类装置的另一些实施例的框图。
如图5所示,该实施例的用户的分类装置5包括:存储器51以及耦接至该存储器51的处理器52,处理器52被配置为基于存储在存储器51中的指令,执行本公开中任意一个实施例中的用户的分类方法。
其中,存储器51例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图6示出本公开的用户的分类装置的又一些实施例的框图。
如图6所示,该实施例的用户的分类装置6包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行前述任意一个实施例中的用户的分类方法。
存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
用户的分类装置6还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630、640、650以及存储器610和处理器620之间例如可以通过总线860连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏、麦克、音箱等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的用户的分类方法、用户的分类装置和非易失性计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。
Claims (15)
1.一种用户的分类方法,包括:
从多个数据提供方获取用户的相关数据;
以从各相关数据中提取的用户特征为节点,建立决策树模型作为第一用户分类模型;
根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量用于从所述各节点中筛选重要节点;
利用各重要节点建立第二用户分类模型,对所述用户进行分类。
2.根据权利要求1所述的分类方法,其中,所述根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量包括:
根据任一节点在样本空间内的信息增益、所述任一节点指向的其他节点的信息增益、指向其他节点的次数,确定所述重要性度量,所述重要性度量与指向其他节点的次数正相关。
3.根据权利要求2所述的分类方法,其中,所述根据任一节点在样本空间内的信息增益、所述任一节点指向的其他节点的信息增益、指向其他节点的次数,确定所述重要性度量包括:
计算各其他节点的信息增益的加权和,任一其他节点的权重与所述任一节点指向该其他节点的次数正相关;
根据所述各其他节点的信息增益的加权和与所述任一节点的信息增益的加权和,确定所述重要性度量。
4.根据权利要求3所述的分类方法,其中,
所述任一其他节点的权重为N/(N+M),N为所述任一节点指向该其他节点的次数,M为该其他节点指向所述任一节点的次数。
5.根据权利要求2所述的分类方法,其中,所述根据任一节点在样本空间内的信息增益、所述任一节点指向的其他节点的信息增益、指向其他节点的次数,确定所述重要性度量包括:
以所述各节点之间的指向关系为有向连接,以所述各节点指向其他节点的次数为有向连接的权重,建立包含所述各节点的指向关系图,所述指向关系图中标注有所述各节点的信息增益;
根据所述指向关系图,确定所述重要性度量。
6.根据权利要求1所述的分类方法,其中,
所述第一用户分类模型为包含多个决策树模型的集成学习模型;
所述根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量包括:
在各决策树模型中,分别确定所述各节点的子重要性度量;
根据各子重要性度量的加权和,确定所述各节点的重要性度量。
7.根据权利要求1-6任一项所述的分类方法,其中,
所述各节点的重要性度量用于评估相应的数据提供方的贡献度量。
8.根据权利要求1-6任一项所述的分类方法,其中,
所述用户的分类结果用于确定对所述用户的处理策略。
9.根据权利要求1-6任一项所述的分类方法,在建立实施决策树模型之前还包括:
对获取的各相关数据进行预处理,滤除其中的恶意数据和低效数据,所述恶意数据包含的所有用户特征为空值或者相同值,所述低效数据根据信息值IV判定。
10.根据权利要求1-6任一项所述的分类方法,其中,
所述第一用户分类模型为基于安全增长Secure boost算法建立的包含多个梯度提升树模型的分类模型。
11.根据权利要求1-6任一项所述的分类方法,其中,
所述决策树模型中每一个分裂节点对应的用户特征均是在当前样本空间中信息增益最大的用户特征。
12.根据权利要求1-6任一项所述的分类方法,其中,所述根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量用于从所述各节点中筛选重要节点包括:
根据任一决策树模型中所有节点的重要性度量最大值和重要性度量最小值,对该决策树模型中各节点的重要性度量进行标准化处理;
根据标准化处理后的重要性度量从所述各节点中筛选重要节点。
13.一种用户的分类装置,包括:
获取单元,用于从多个数据提供方获取用户的相关数据;
建立单元,用于以从各相关数据中提取的用户特征为节点,建立决策树模型作为第一用户分类模型;
确定单元,用于根据所述第一用户分类模型中各节点指向其他节点的次数,确定各节点的重要性度量用于从所述各节点中筛选重要节点;
分类单元,用于利用根据各重要节点建立的第二用户分类模型,对所述用户进行分类。
14.一种用户的分类装置,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-12任一项所述的用户的分类方法。
15.一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-12任一项所述的用户的分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011023591.6A CN113822309B (zh) | 2020-09-25 | 2020-09-25 | 用户的分类方法、装置和非易失性计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011023591.6A CN113822309B (zh) | 2020-09-25 | 2020-09-25 | 用户的分类方法、装置和非易失性计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113822309A true CN113822309A (zh) | 2021-12-21 |
CN113822309B CN113822309B (zh) | 2024-04-16 |
Family
ID=78912257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011023591.6A Active CN113822309B (zh) | 2020-09-25 | 2020-09-25 | 用户的分类方法、装置和非易失性计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822309B (zh) |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110307423A1 (en) * | 2010-06-09 | 2011-12-15 | Microsoft Corporation | Distributed decision tree training |
US20140306987A1 (en) * | 2013-04-11 | 2014-10-16 | Snibbe Interactive, Inc. | Methods and Systems for Visualizing and Ranking Connected Media Content |
WO2015184982A1 (en) * | 2014-06-03 | 2015-12-10 | Tencent Technology (Shenzhen) Company Limited | Classifier training method and apparatus, identity authentication method and system |
CN107203774A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 对数据的归属类别进行预测的方法及装置 |
CN107818344A (zh) * | 2017-10-31 | 2018-03-20 | 上海壹账通金融科技有限公司 | 用户行为进行分类和预测的方法和系统 |
CN108108743A (zh) * | 2016-11-24 | 2018-06-01 | 百度在线网络技术(北京)有限公司 | 异常用户识别方法和用于识别异常用户的装置 |
CN108416368A (zh) * | 2018-02-08 | 2018-08-17 | 北京三快在线科技有限公司 | 样本特征重要性的确定方法及装置,电子设备 |
CN108665293A (zh) * | 2017-03-29 | 2018-10-16 | 华为技术有限公司 | 特征重要性获取方法及装置 |
CN109522919A (zh) * | 2018-09-17 | 2019-03-26 | 深圳市佰仟金融服务有限公司 | 一种数据评估方法及装置 |
WO2019061990A1 (zh) * | 2017-09-30 | 2019-04-04 | 平安科技(深圳)有限公司 | 用户意图预测方法、电子设备及计算机可读存储介质 |
CN109885597A (zh) * | 2019-01-07 | 2019-06-14 | 平安科技(深圳)有限公司 | 基于机器学习的用户分群处理方法、装置及电子终端 |
WO2019120023A1 (zh) * | 2017-12-22 | 2019-06-27 | Oppo广东移动通信有限公司 | 性别预测方法、装置、存储介质及电子设备 |
US10482376B1 (en) * | 2018-09-13 | 2019-11-19 | Sas Institute Inc. | User interface for assessment of classification model quality and selection of classification model cut-off score |
CN111143436A (zh) * | 2019-12-27 | 2020-05-12 | 南通沁晨信息科技有限公司 | 用于大数据的数据挖掘方法 |
CN111369258A (zh) * | 2020-03-10 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 实体对象类型的预测方法、装置及设备 |
CN111444944A (zh) * | 2020-03-16 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 基于决策树的信息筛选方法、装置、设备和存储介质 |
CN111461863A (zh) * | 2020-03-30 | 2020-07-28 | 北京三快在线科技有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
US20200242420A1 (en) * | 2019-01-29 | 2020-07-30 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and storage medium for classifying object of interest |
CN111695697A (zh) * | 2020-06-12 | 2020-09-22 | 深圳前海微众银行股份有限公司 | 多方联合决策树构建方法、设备及可读存储介质 |
-
2020
- 2020-09-25 CN CN202011023591.6A patent/CN113822309B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110307423A1 (en) * | 2010-06-09 | 2011-12-15 | Microsoft Corporation | Distributed decision tree training |
US20140306987A1 (en) * | 2013-04-11 | 2014-10-16 | Snibbe Interactive, Inc. | Methods and Systems for Visualizing and Ranking Connected Media Content |
WO2015184982A1 (en) * | 2014-06-03 | 2015-12-10 | Tencent Technology (Shenzhen) Company Limited | Classifier training method and apparatus, identity authentication method and system |
CN107203774A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 对数据的归属类别进行预测的方法及装置 |
CN108108743A (zh) * | 2016-11-24 | 2018-06-01 | 百度在线网络技术(北京)有限公司 | 异常用户识别方法和用于识别异常用户的装置 |
CN108665293A (zh) * | 2017-03-29 | 2018-10-16 | 华为技术有限公司 | 特征重要性获取方法及装置 |
WO2019061990A1 (zh) * | 2017-09-30 | 2019-04-04 | 平安科技(深圳)有限公司 | 用户意图预测方法、电子设备及计算机可读存储介质 |
CN107818344A (zh) * | 2017-10-31 | 2018-03-20 | 上海壹账通金融科技有限公司 | 用户行为进行分类和预测的方法和系统 |
WO2019120023A1 (zh) * | 2017-12-22 | 2019-06-27 | Oppo广东移动通信有限公司 | 性别预测方法、装置、存储介质及电子设备 |
CN108416368A (zh) * | 2018-02-08 | 2018-08-17 | 北京三快在线科技有限公司 | 样本特征重要性的确定方法及装置,电子设备 |
US10482376B1 (en) * | 2018-09-13 | 2019-11-19 | Sas Institute Inc. | User interface for assessment of classification model quality and selection of classification model cut-off score |
CN109522919A (zh) * | 2018-09-17 | 2019-03-26 | 深圳市佰仟金融服务有限公司 | 一种数据评估方法及装置 |
CN109885597A (zh) * | 2019-01-07 | 2019-06-14 | 平安科技(深圳)有限公司 | 基于机器学习的用户分群处理方法、装置及电子终端 |
US20200242420A1 (en) * | 2019-01-29 | 2020-07-30 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and storage medium for classifying object of interest |
CN111143436A (zh) * | 2019-12-27 | 2020-05-12 | 南通沁晨信息科技有限公司 | 用于大数据的数据挖掘方法 |
CN111369258A (zh) * | 2020-03-10 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 实体对象类型的预测方法、装置及设备 |
CN111444944A (zh) * | 2020-03-16 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 基于决策树的信息筛选方法、装置、设备和存储介质 |
CN111461863A (zh) * | 2020-03-30 | 2020-07-28 | 北京三快在线科技有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN111695697A (zh) * | 2020-06-12 | 2020-09-22 | 深圳前海微众银行股份有限公司 | 多方联合决策树构建方法、设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
罗海艳: "移动用户网络行为分析与预测方法研究", 中国博士学位论文全文数据库 信息科技辑, no. 05 * |
胡光武;张平安;马江涛;: "一种基于分类器的社交网络去匿名方法", 深圳信息职业技术学院学报, no. 03 * |
Also Published As
Publication number | Publication date |
---|---|
CN113822309B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107633265B (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
Hayes et al. | Contamination attacks and mitigation in multi-party machine learning | |
CN113240509B (zh) | 一种基于多源数据联邦学习的贷款风险评估方法 | |
CN108985929B (zh) | 训练方法、业务数据分类处理方法及装置、电子设备 | |
US20130346350A1 (en) | Computer-implemented semi-supervised learning systems and methods | |
CN113011889B (zh) | 账号异常识别方法、系统、装置、设备及介质 | |
CN109840413B (zh) | 一种钓鱼网站检测方法及装置 | |
CN112580952A (zh) | 用户行为风险预测方法、装置、电子设备及存储介质 | |
CN114187112A (zh) | 账户风险模型的训练方法和风险用户群体的确定方法 | |
CN111431849B (zh) | 一种网络入侵检测方法及装置 | |
CN113177700B (zh) | 一种风险评估方法、系统、电子设备及存储介质 | |
WO2021174699A1 (zh) | 用户筛选方法、装置、设备及存储介质 | |
CN116485406A (zh) | 账户的检测方法及装置、存储介质和电子设备 | |
Kolodiziev et al. | Automatic machine learning algorithms for fraud detection in digital payment systems | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN112464281B (zh) | 基于隐私分组和情感识别的网络信息分析方法 | |
Vreš et al. | Preventing deception with explanation methods using focused sampling | |
Lokanan | The determinants of investment fraud: A machine learning and artificial intelligence approach | |
CN115204322B (zh) | 行为链路异常识别方法和装置 | |
CN116187760A (zh) | 基于图谱重构的企业关联影响度量及风险识别方法、装置 | |
CN113822309B (zh) | 用户的分类方法、装置和非易失性计算机可读存储介质 | |
Wu et al. | Customer churn prediction for commercial banks using customer-value-weighted machine learning models | |
Lu et al. | “How Does It Detect A Malicious App?” Explaining the Predictions of AI-based Malware Detector | |
CN112926989B (zh) | 一种基于多视图集成学习的银行贷款风险评估方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |