CN106874286B - 一种筛选用户特征的方法及装置 - Google Patents

一种筛选用户特征的方法及装置 Download PDF

Info

Publication number
CN106874286B
CN106874286B CN201510920426.3A CN201510920426A CN106874286B CN 106874286 B CN106874286 B CN 106874286B CN 201510920426 A CN201510920426 A CN 201510920426A CN 106874286 B CN106874286 B CN 106874286B
Authority
CN
China
Prior art keywords
user
correlation
characteristic
feature
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510920426.3A
Other languages
English (en)
Other versions
CN106874286A (zh
Inventor
杜玮
张柯
李文鹏
李屾
姜晓燕
王晓光
谢树坤
俞吴杰
朱训
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510920426.3A priority Critical patent/CN106874286B/zh
Publication of CN106874286A publication Critical patent/CN106874286A/zh
Application granted granted Critical
Publication of CN106874286B publication Critical patent/CN106874286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种筛选用户特征的方法及装置。该方法包括:提取用户特征集合,所述用户特征集合至少包含两个用户特征;针对所述用户特征集合中的每一个用户特征,以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的关联因子;将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选。从而解决了,现有技术在尽可能多的提取的用户特征之后,只能通过人工干预的方式来完成对用户特征的筛选,导致用户特征的筛选效率低的问题。

Description

一种筛选用户特征的方法及装置
技术领域
本申请涉及机器学习技术领域,尤其涉及一种筛选用户特征的方法及装置。
背景技术
随着互联网的蓬勃发展,机器学习(Machine Learning,ML)技术作为一种新的技术,越来越受到人们的重视。机器学习技术通常用来分析和预测用户的行为,在实际应用中可以通过建立各种数学模型来实现。在数学模型的建立过程中,通常需要在网络中收集大量的用户数据,然后对这些用户数据进行分析和处理,从而提取用户数据中能够解释用户行为的用户特征,并将这些用户特征作为解释变量来建立数学模型。
然而,在对网络中收集大量的用户数据进行分析和处理,进而提取用户特征时,由于事先很难知道所要分析的用户行为会和哪些用户特征有关,因此实际应用中通常会尽可能多的提取与所要分析的用户行相关的用户特征,由于用于奖励模型的用户特征增多,从而导致建立数学模型的时间较长,并且所建立的数学模型复杂。例如用于分析用户信用的数学模型中,通常会采集用户的收入信息和学历信息,但是通常收入信息和学历信息会用较强的依赖关系,如果将它们都作为解释变量,将会使该数学模型参数的数量增多,模型的建立时间加长,并且还会对模型的性能有所影响。
现有技术在尽可能多的提取与所要分析的用户行相关的用户特征之后,只能通过人工干预的方式来完成对用户特征的筛选,从而导致用户特征的筛选效率较低。
发明内容
本申请实施例提供一种筛选用户特征的方法及装置,用于解决现有技术筛选用户特征效率低的问题。
本发明实施例提供一种筛选用户特征的方法,所述方法包括:
提取用户特征集合,所述用户特征集合至少包含两个用户特征;
针对所述用户特征集合中的每一个用户特征,以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的关联因子;
将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选。
优选的,所述将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选具体包括:
将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,筛选出所述用户特征集合中关联因子大于预设阈值的用户特征子集合。
优选的,当筛选出的用户特征子集合中至少包含两个用户特征时,所述方法还包括:
通过用户特征子集合中每一个用户特征的标准差以及用户特征子集合中用户特征两两之间的协方差,确定用户特征子集合中用户特征两两之间的相关系数;
将所确定的每一个相关系数取绝对值并分别与预设变量对比,当所述相关系数的绝对值大于所述预设变量时,将所述相关系数以及所述相关系数对应的两个用户特征构建为关联组;
通过所构建的各个关联组,确定构建各个关联组的用户特征的特征相关分;
根据所述特征相关分,筛选出至少一个用户特征。
优选的,当特征相关分越高表示相关关系越强时,所述根据所述特征相关分,筛选出至少一个用户特征具体包括:
提取最高特征相关分所对应的用户特征,并将所述用户特征构建筛选集合;
根据特征相关分从高到低的顺序,针对构建各个关联组的每一个用户特征依次执行如下操作:
获取所述用户特征和所述筛选集合中的每一个用户特征之间的相关系数;
判断所获取的各相关系数的绝对值是否均小于第二阈值,若是,则将所述用户特征放入所述筛选集合;
筛选出筛选集合中的用户特征。
优选的,当所确定的每一个相关系数的绝对值均小于预设变量时,减小所述预设变量并将所确定的每一个相关系数的绝对值分别与减小后的预设变量对比。
优选的,当用户特征集合中每一个用户特征的方差膨胀因子均小于预设阈值时,所述用户特征子集合具体为空集。
优选的,所述以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的方差膨胀因子具体包括:
以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,通过逻辑回归确定所述用户特征的方差膨胀因子。
优选的,所述用户特征用于建立分析用户行为的数学模型。
优选的,所述关联因子具体包括方差膨胀因子。
本发明实施例还提供一种筛选用户特征的装置,所述装置包括:
提取单元、确定单元和筛选单元,其中:
提取单元,用于提取用户特征集合,所述用户特征集合至少包含两个用户特征;
确定单元,用于针对所述用户特征集合中的每一个用户特征,以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的方差膨胀因子;
筛选单元,用于将用户特征集合中每一个用户特征的方差膨胀因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选。
优选的,所述筛选单元包括筛选子单元,用于将用户特征集合中每一个用户特征的方差膨胀因子分别和预设阈值对比,筛选出所述用户特征集合中方差膨胀因子大于预设阈值的用户特征子集合,所述用户特征子集合包括空集。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
根据所确定的每一个用户特征的关联因子,将各关联因子分别和预设阈值进行对比,从而对用户特征集合中的用户特征进行筛选,提高了用户特征的筛选效率。从而解决了,现有技术在尽可能多的提取的用户特征之后,只能通过人工干预的方式来完成对用户特征的筛选,导致用户特征的筛选效率低的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例1提供的一种筛选用户特征的方法的具体实现流程示意图;
图2为本申请实施例2提供的一种筛选用户特征的方法的具体实现流程示意图;
图3为本申请实施例3提供的一种筛选用户特征的方法的具体实现流程示意图;
图4为本申请实施例4提供的一种筛选用户特征的装置的具体结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
实施例1
实施例1提供了一种筛选用户特征的方法,用于解决现有技术只能通过人工干预的方式来完成对用户特征的筛选,导致用户特征的筛选效率低的问题。该方法的具体流程示意图如图1所示,包括下述步骤:
步骤11:提取用户特征集合。
所述用户特征集合至少包含两个用户特征,用户特征是用户各属性抽象的结果,这些属性可以包括年龄、性别、收入等。由于用户特征提取之后用于建立数学模型,所以提取的用户特征集合包含的用户特征可以根据所要建立的模型来确定,例如当建立评估用户信用的模型时,该用户特征集合包含的用户特征至少有用户年龄、用户收入等
一般来说,在提取用户特征集合前先建立用户数据库,然后从用户数据库中提取用户特征集合,不过本申请并不限于这种方式提取用户特征集合,也可以是问卷调查等形式提取用户特征集合,甚至也可以任意的方式选取用户特征集合,提取用户特征集合的方式并不会影响本申请的技术效果。但是,在实际应用中,如果提取用户特征集合的目的最终是用于建立数学模型,用以评估用户行为,用户特征集合中包含的用户特征可以从用户数据库中提取,并且可以根据业务经验从不同的角度提取较多的用户特征。
步骤12:针对所述用户特征集合中的每一个用户特征,以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的关联因子。
关联因子用于衡量各用户特征之间的关联关系。用户特征之间可以存在关联关系,这种关联关系大部分情况下体现为某种函数映射关系,例如两个用户特征分别为收入和学历,学历和收入之间会存在某种函数映射关系,甚至这种函数映射关系在某些情况下,通过以其中的一个为因变量另外的自变量来模拟的。当然关联关系还可以表现为逻辑关系等,在这里用关联因子来衡量各用户特征之间的关联关系。
在实际应用中,为了较方便的衡量各用户特征之间的关联关系,通常将关联关系简化为线性关系,相应的关联因子可以具体为方差膨胀因子(Variance inflationfactor,VIF)。VIF来用于评价用户特征之间的多重共线性,某一用户特征的VIF值为该用户特征存在多重共线性时的方差与不存在多重共线性时的方差之比,VIF的值越大,说明多重共线性越严重。多重共线性(Multicollinearity)是指线性回归模型中的因变量之间由于存在精确相关关系或高度相关关系而使该模型估计失真或难以估计准确。
确定用户特征集合中的每一个用户特征的方差膨胀因子,采用的方式为,分别针对用户特征集合中的每一个用户特征,以该用户特征为因变量,用户特征集合钟的其它用户特征为自变量,通过回归分析来确定该用户特征的方差膨胀因子,实际应用中可以通过逻辑回归确定所述用户特征的方差膨胀因子,由于逻辑回归自变量通常是线性线关系,因此使得运算更加方便。
步骤13:将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选。
预设阈值通常代表模型对特征之间的关联关系所能容忍的极限。将关联因子和预设阈值进行对比,通过对比的结果来筛选用户特征。
在实际应用中,当关联因子表现为方差膨胀因子时,一般来说:当0<VIF<10,不存在多重共线性,也就是说该特征与其它特征不存在线性关系;当10≤VIF<100,存在较强的多重共线性;当VIF≥100,存在严重多重共线性,也就是说该特征可以用其它特征线性表示。预设阈值可以根据模型的具体要求来设定,如果模型要求选取的各用户特征解释性强,并且各参数独立性强,就会对建模的各用户特征要求严格,这时候通常要求建模的各用户特征VIF值小于2(或者2.5)。针对用户特征集合中的每一个用户特征,将该用户特征的方差膨胀因子和预设阈值对比,当该用户特征的方差膨胀因子小于预设阈值时,说明该用户特征与用户特征集合中的其它用户特征之间多重共线性较低,最后根据每一个用户特征方差膨胀因子和预设阈值对比的结果对用户特征进行筛选。
采用实施例1的一种筛选用户特征的方法,用于根据所确定的每一个用户特征的关联因子,将各关联因子分别和预设阈值进行对比,从而对用户特征集合中的用户特征进行筛选,提高了用户特征的筛选效率。从而解决了,现有技术在尽可能多的提取的用户特征之后,只能通过人工干预的方式来完成对用户特征的筛选,导致用户特征的筛选效率较低的问题。
需要说明的是,实施例1所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法的各步骤也可以由不同设备作为执行主体。比如,步骤11和步骤12的执行主体可以为设备1;又比如,步骤11的执行主体可以为设备1,步骤12和的执行主体可以为设备2;等等。
实施例2
实施例2提供了一种筛选用户特征的方法,用于解决现有技术只能通过人工干预的方式来完成对用户特征的筛选,导致用户特征的筛选效率低的问题。该方法的具体流程示意图如图2所示,包括下述步骤:
步骤21:提取用户特征集合。
步骤22:针对所述用户特征集合中的每一个用户特征,以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的关联因子。
步骤21和步骤22分别与实施例1中的步骤11和步骤12相同,这里就不再说明。
步骤23:将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,筛选出所述用户特征集合中关联因子大于预设阈值的用户特征子集合。
在实际应用中,通常将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,筛选出所述用户特征集合中关联因子大于预设阈值的用户特征子集合。特别的,当用户特征集合中的每一个用户特征的关联因子均小于预设阈值,说明该用户特征集合中的每一个用户特征之间的关联关系较低,这时候用户特征子集合为空集。
步骤24:当筛选出的用户特征子集合中至少包含两个用户特征时,通过用户特征子集合中每一个用户特征的标准差以及用户特征子集合中用户特征两两之间的协方差,确定用户特征子集合中用户特征两两之间的相关系数。
每一个用户特征标准差是指,将每一个用户特征分别作为统计量,计算该统计量的标准差。用户特征子集合中用户特征两两之间的协方差,指用户特征子集合中两个不同的用户特征之间的协方差。相关系数是用于研究变量之间线性相关程度的量。由于研究对象的不同,相关系数有如下三种方式:
1、简单相关系数:又叫相关系数或线性相关系数,用来度量两个变量间的线性关系。
2、复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。
3、典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。
在实际应用中,当所构建的模型较复杂时,通常需要从多个角度进行描述,因此用户特征集合中包含的用户特征较多,导致筛选出的用户特征子集合中至少包含两个用户特征。例如在芝麻信用分模型的建模过程中,能够运用到可能与目标有因果关系的用户特征纷繁复杂,种类繁多,具初步统计,能够用来进入芝麻信用分模型训练的用户特征数有上千甚至上万个,因此筛选出的用户特征子集合中通常还包含多个用户特征,另外在金融相关的模型中其它模型与芝麻信用分模型有所类似。然而,关联因子通常具有叠加性,用户特征子集合中可能只需要删除部分用户特征就能够满足要求。因此,可以确定用户特征子集合中用户特征两两之间的简单相关系数,在通过相关系数来对用户特征子集合中的用户特征进行进一步筛选。
步骤25:将所确定的每一个相关系数的绝对值分别与预设变量对比,当所述相关系数的绝对值大于所述预设变量时,将所述相关系数以及所述相关系数对应的两个用户特征构建为关联组。
预设变量是根据要求预先设置的变量,该变量的具体数值可以根据具体情况设定,一般来说,预设变量可以设置为0.7或0.8。关联组由相关系数以及该相关系数所对应的两个用户特征构成。例如用户特征A和用户特征B所确定的相关系数,当该相关系数的绝对值大于预设变量时,将用户特征A和用户特征B以及该相关系数构建为关联组,如表1所示。
表1:关联组示例
特征A 特征B 相关系数
feature1 feature2 0.9
feature3 feature4 -0.87
feature2 feature7 0.85
feature6 feature7 -0.81
feature8 feature9 0.74
将所确定的每一个相关系数的绝对值分别与预设变量对比,当所述相关系数的绝对值大于所述预设变量时,将所述相关系数以及所述相关系数对应的两个用户特征构建为关联组。
将所确定的每一个相关系数的绝对值分别与预设变量对比,当所确定的每一个相关系数的绝对值均小于预设变量时,说明预设变量的值过大,则减小所述预设变量并将所确定的每一个相关系数的绝对值分别与减小后的预设变量对比,直到出现某一个或某一些相关系数的绝对值大于预设变量。减小预设变量的方式可以为将预设变量减去一个正数(例如0.05),也可以为将预设变量除以某个数(例如3),也可以为其它的方式,在这里不做限定。
步骤26:通过所构建的各个关联组,确定构建各个关联组的用户特征的特征相关分。
用户特征的特征相关分用于评价该用户特征与其它用户特征之间的相关关系。根据预设的打分规则,可以用特征相关分越高来表示相关关系越强,也可以用特征相关分越低来表示相关关系越强。
在实际应用中,通常根据预设的打分规则特征相关分越高表示相关关系越强,可以根据下面公式来计算用户特征的特征相关分。
Figure BDA0000874744730000101
公式中,Scorei表示第i个用户特征的相关分,Cij表示第i个用户特征与第j个用户特征之间的相关系数绝对值。
另外,为了更好地计算各用户特征的特征相关分,还可以将各关联组按相关系数绝对值降序排列。
步骤27:根据所述特征相关分,筛选出至少一个用户特征。
计算获取各用户特征的特征相关分之后,结合打分的规则,筛选出至少一个用户特征。例如在实际应用中,当特征相关分越高表示相关关系越强时,筛选出至少一个用户特征可以为,筛选出包括最高特征相关分对应的用户特征在内的至少一个用户特征。
采用实施例2的一种筛选用户特征的方法,用于根据所确定的每一个用户特征的关联因子,将各关联因子分别和预设阈值进行对比,从而筛选出用户特征子集合,然后利用计算的到的相关系数对用户特征子集合中的用户特征进行筛选,从而使得筛选出的用户特征更加精确。
实施例3
实施例2的步骤27中提到根据所述特征相关分,筛选出至少一个用户特征,其实,在实际应用中根据所述特征相关分,筛选出至少一个用户特征的方法有很多,例如当特征相关分越高表示相关关系越强时,可以采用本申请的实时例3的方式进行。如图3所示,实施例3和实施例2相比,除了步骤27之外,其他步骤均相同。
步骤371:提取最高特征相关分所对应的用户特征,并将所述用户特征构建筛选集合。
步骤372:根据特征相关分从高到低的顺序,针对构建各个关联组的每一个用户特征依次执行如下操作:
步骤373:获取所述用户特征和所述筛选集合中的每一个用户特征之间的相关系数。
步骤374:判断所获取的各相关系数的绝对值是否均小于第二阈值,若是,则将所述用户特征放入所述筛选集合;
步骤375:筛选出筛选集合中的用户特征。
在实施例3中,当特征相关分越高表示相关关系越强时,将特征相关分最高的用户特征提出出来,并将该用户特征建立筛选集合。根据这些用户特征的特征相关分从高到低的顺序,针对构建各个关联组的每一个用户特征,执行如下操作:获取该用户特征与筛选集合中每一个用户特征之间的相关系数,然后判断这些相关系数是否均小于第二阈值,如果是,则将该用户特征放入筛选集合,如果否,则可以不将该用户特征放入筛选集合。最后筛选出筛选集合中的用户特征。第二阈值可以根据具体要求来确定,通常情况下第二阈值可以为0.4。
实际应用中,还可以将构建各个关联组的用户特征,按照特征相关分的大小进行排序从而组成预淘汰集合,例如预筛选集合为QA={F2,F3,…,Fn},筛选集合为QB={F1},其中F1,F2,F3,…,Fn为不同的用户特征并且F1的特征相关分最大。将QA中的元素从左至右依次取出进入QB,并遵循以下准入策略:若当前特征与QB中所有特征两两之间的相关系数绝对值都小于第二阈值,则当前特征准入,否则不准入。
若QB中已经存在该当前特征,则当前特征不准入。
采用实施例3提供的一种筛选用户特征的方法,当特征相关分越高表示相关关系越强时,通过将最高特征相关分所对应的用户特征构建筛选集合,并根据相关规则判断其他用户特征是否需要加入筛选集合的方式,使得筛选集合中的用户特征的相关系数低于第二阈值,进一步减少了需要删除的用户特征。
实施例4
基于相同的发明构思,实施例4提供了一种筛选用户特征的装置,用于解决现有技术筛选用户特征,某些追求效率场景下难以实现的问题。如图4所示,该装置400包括:提取单元401、确定单元402和筛选单元403,其中:
提取单元401,用于提取用户特征集合,所述用户特征集合至少包含两个用户特征;
确定单元402,用于针对所述用户特征集合中的每一个用户特征,以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的方差膨胀因子;
筛选单元403,用于将用户特征集合中每一个用户特征的方差膨胀因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选。
该装置提取用户特征集合后,计算用户特征集合中各个用户特征的方差膨胀因子,然后将计算得到的各用户特征的方差膨胀因子和预设阈值进行对比,通过对比的结果来对用户特征进行筛选。
采用实施例4的一种筛选用户特征的装置,用于根据所确定的每一个用户特征的方差膨胀因子,将各方差膨胀因子分别和预设阈值进行对比,从而对用户特征集合中的用户特征进行筛选。从而解决了,现有技术在尽可能多的提取的用户特征之后,只能通过人工干预的方式来完成对用户特征的筛选,导致用户特征的筛选效率低的问题。
特别的,在实际应用中,通常将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,筛选出用户特征集合中关联因子大于预设阈值的全部用户特征,并形成用户特征子集合,当用户特征集合中关联因子均小于预设阈值时,用户特征子集合为空集。因此,所述筛选单元403包括筛选子单元4031,用于将用户特征集合中每一个用户特征的方差膨胀因子分别和预设阈值对比,筛选出所述用户特征集合中方差膨胀因子大于预设阈值的用户特征子集合,所述用户特征子集合包括空集。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (11)

1.一种筛选用户特征的方法,其特征在于,包括:
提取用户特征集合,所述用户特征集合至少包含两个用户特征;
针对所述用户特征集合中的每一个用户特征,以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的关联因子;其中,所述关联因子用于衡量各用户特征之间的关联关系;
将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选,得到筛选后的用户特征子集合;
当所述用户特征子集合中至少包含两个用户特征时,将所述用户特征子集合中用户特征两两之间的相关系数的绝对值大于预设变量的两个用户特征和该相关系数构建为关联组;
根据各个所述关联组中用户特征的特征相关分和设定的特征相关分的打分规则,对用户特征进行筛选。
2.如权利要求1所述的方法,其特征在于,所述将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选具体包括:
将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,筛选出所述用户特征集合中关联因子大于预设阈值的用户特征子集合。
3.如权利要求2所述的方法,其特征在于,所述将所述用户特征子集合中用户特征两两之间的相关系数的绝对值大于预设变量的两个用户特征和该相关系数构建为关联组,包括:
通过用户特征子集合中每一个用户特征的标准差以及用户特征子集合中用户特征两两之间的协方差,确定用户特征子集合中用户特征两两之间的相关系数;
将所确定的每一个相关系数取绝对值并分别与预设变量对比,当所述相关系数的绝对值大于所述预设变量时,将所述相关系数以及所述相关系数对应的两个用户特征构建为关联组;
所述根据各个所述关联组中用户特征的特征相关分和设定的特征相关分的打分规则,对用户特征进行筛选,包括:
通过所构建的各个关联组,确定构建各个关联组的用户特征的特征相关分;
根据所述特征相关分和所述特征相关分的打分规则,筛选出至少一个用户特征。
4.如权利要求3所述的方法,其特征在于,当所述特征相关分的打分规则指示特征相关分越高表示相关关系越强时,所述根据所述特征相关分和所述特征相关分的打分规则,筛选出至少一个用户特征具体包括:
提取最高特征相关分所对应的用户特征,并将所述用户特征构建筛选集合;
根据特征相关分从高到低的顺序,针对构建各个关联组的每一个用户特征依次执行如下操作:
获取所述用户特征和所述筛选集合中的每一个用户特征之间的相关系数;
判断所获取的各相关系数的绝对值是否均小于第二阈值,若是,则将所述用户特征放入所述筛选集合;
筛选出筛选集合中的用户特征。
5.如权利要求3所述的方法,其特征在于,所述方法还包括:当所确定的每一个相关系数的绝对值均小于预设变量时,减小所述预设变量并将所确定的每一个相关系数的绝对值分别与减小后的预设变量对比。
6.如权利要求2所述的方法,其特征在于,当用户特征集合中每一个用户特征的关联因子均小于预设阈值时,所述用户特征子集合具体为空集。
7.如权利要求1所述的方法,其特征在于,所述以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的关联因子具体包括:
以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,通过逻辑回归确定所述用户特征的关联因子。
8.如权利要求1至7任意一项所述的方法,其特征在于,所述用户特征用于建立分析用户行为的数学模型。
9.如权利要求1和2任意一项所述的方法,其特征在于,所述关联因子具体包括方差膨胀因子。
10.一种筛选用户特征的装置,其特征在于,包括:
提取单元、确定单元和筛选单元,其中:
提取单元,用于提取用户特征集合,所述用户特征集合至少包含两个用户特征;
确定单元,用于针对所述用户特征集合中的每一个用户特征,以所述用户特征为因变量,所述用户特征集合中所述用户特征之外的其它用户特征为自变量,确定所述用户特征的关联因子;其中,所述关联因子用于衡量各用户特征之间的关联关系;
筛选单元,用于将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,根据对比的结果对用户特征进行筛选,得到筛选后的用户特征子集合;当所述用户特征子集合中至少包含两个用户特征时,将所述用户特征子集合中用户特征两两之间的相关系数的绝对值大于预设变量的两个用户特征和该相关系数构建为关联组;根据各个所述关联组中用户特征的特征相关分和设定的特征相关分的打分规则,对用户特征进行筛选。
11.如权利要求10所述的装置,其特征在于,所述筛选单元包括筛选子单元,用于将用户特征集合中每一个用户特征的关联因子分别和预设阈值对比,筛选出所述用户特征集合中关联因子大于预设阈值的用户特征子集合,所述用户特征子集合包括空集。
CN201510920426.3A 2015-12-11 2015-12-11 一种筛选用户特征的方法及装置 Active CN106874286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510920426.3A CN106874286B (zh) 2015-12-11 2015-12-11 一种筛选用户特征的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510920426.3A CN106874286B (zh) 2015-12-11 2015-12-11 一种筛选用户特征的方法及装置

Publications (2)

Publication Number Publication Date
CN106874286A CN106874286A (zh) 2017-06-20
CN106874286B true CN106874286B (zh) 2020-07-07

Family

ID=59178025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510920426.3A Active CN106874286B (zh) 2015-12-11 2015-12-11 一种筛选用户特征的方法及装置

Country Status (1)

Country Link
CN (1) CN106874286B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210559B (zh) * 2019-05-31 2021-10-08 北京小米移动软件有限公司 对象筛选方法及装置、存储介质
CN111062487B (zh) * 2019-11-28 2021-04-20 支付宝(杭州)信息技术有限公司 基于数据隐私保护的机器学习模型特征筛选方法及装置
CN111079939B (zh) * 2019-11-28 2021-04-20 支付宝(杭州)信息技术有限公司 基于数据隐私保护的机器学习模型特征筛选方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886385A (zh) * 2014-02-20 2014-06-25 中国林业科学研究院森林生态环境与保护研究所 一种预测森林火灾日发生概率的方法
CN103942403A (zh) * 2013-01-22 2014-07-23 阿里巴巴集团控股有限公司 一种对海量变量进行筛选的方法及设备
CN104574209A (zh) * 2015-01-07 2015-04-29 国家电网公司 一种城网配变重过载中期预警模型的建模方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8583408B2 (en) * 2011-03-17 2013-11-12 Bank Of America Corporation Standardized modeling suite

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942403A (zh) * 2013-01-22 2014-07-23 阿里巴巴集团控股有限公司 一种对海量变量进行筛选的方法及设备
CN103886385A (zh) * 2014-02-20 2014-06-25 中国林业科学研究院森林生态环境与保护研究所 一种预测森林火灾日发生概率的方法
CN104574209A (zh) * 2015-01-07 2015-04-29 国家电网公司 一种城网配变重过载中期预警模型的建模方法

Also Published As

Publication number Publication date
CN106874286A (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
TWI705388B (zh) 用於建構機器學習模型的特徵選取方法、裝置及設備
KR102315497B1 (ko) 채점 모델을 구축하고 사용자 신용을 평가하기 위한 방법 및 디바이스
JP7102344B2 (ja) 機械学習モデルのモデリング方法及びデバイス
WO2019214248A1 (zh) 一种风险评估方法、装置、终端设备及存储介质
CN109543925B (zh) 基于机器学习的风险预测方法、装置、计算机设备和存储介质
CN105718490A (zh) 一种用于更新分类模型的方法及装置
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN108960269B (zh) 数据集的特征获取方法、装置及计算设备
KR102104316B1 (ko) 뉴스를 분석하여 기업의 주가를 예측하는 장치 및 이의 동작 방법
CN111143578A (zh) 基于神经网络抽取事件关系的方法、装置和处理器
CN106874286B (zh) 一种筛选用户特征的方法及装置
CN104598632A (zh) 热点事件检测方法和装置
CN110634060A (zh) 一种用户信用风险的评估方法、系统、装置及存储介质
CN110688433B (zh) 一种基于路径的特征生成方法及装置
CN110472742A (zh) 一种模型变量确定方法、装置及设备
CN111046947B (zh) 分类器的训练系统及方法、异常样本的识别方法
CN111160929A (zh) 一种客户类型的确定方法及装置
CN111325255A (zh) 特定人群圈定方法、装置、电子设备及存储介质
CN116402596A (zh) 数据分析方法、装置、计算机设备及可读存储介质
CN112950350B (zh) 一种基于机器学习的贷款产品推荐方法及系统
CN107092599B (zh) 一种用于为用户提供知识信息的方法与设备
US20140324524A1 (en) Evolving a capped customer linkage model using genetic models
CN113918471A (zh) 测试用例的处理方法、装置及计算机可读存储介质
CN114693428A (zh) 数据确定方法、装置、计算机可读存储介质及电子设备
CN113469696A (zh) 一种用户异常度评估方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant