CN111352962A - 客户画像构建方法及装置 - Google Patents
客户画像构建方法及装置 Download PDFInfo
- Publication number
- CN111352962A CN111352962A CN201811568454.3A CN201811568454A CN111352962A CN 111352962 A CN111352962 A CN 111352962A CN 201811568454 A CN201811568454 A CN 201811568454A CN 111352962 A CN111352962 A CN 111352962A
- Authority
- CN
- China
- Prior art keywords
- label
- sub
- value
- calculating
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000007477 logistic regression Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 102000003712 Complement factor B Human genes 0.000 description 1
- 108090000056 Complement factor B Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种客户画像构建方法及装置,涉及数据处理领域。该客户画像构建方法,包括:获取目标对象的多个数据信息,每个数据信息包括:多个数据维度,每个数据维度包括一个或多个子标签。分别计算各子标签的信息价值IV值,根据各子标签的IV值,选择符合预设条件的数据维度作为入模标签。根据入模标签计算子标签评分,并根据子标签评分分别构建优质客户画像和劣质客户画像。实现了可以根据子标签评分来构建优质客户画像和劣质客户画像,以进一步实现对目标群体进行精准的业务推荐及服务。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种客户画像构建方法及装置。
背景技术
随着互联网技术的不断发展,以及数据挖掘技术的不端提升,人们可以从海量数据中提取感兴趣的数据片段。通过分析工具在海量数据中发现数据片段间的关系,进而运用这些数据片段进行业务以及行业发展的预测。
基于大数据的客户画像的构建,就是把客户分成不同的群体,在每个群体内部,具有非常相似的客户特征。不同群体之间,客户特征的差异较大。通过构建客户画像对不同群体的区分,便可以对每个群体记性有效的管理并进行相应的业务拓展。
但是,在现有技术中,没有提出一种适用于金融领域针对数据业务进行全面的挖掘来构建客户画像,进而实现精准业务推荐的方法。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种客户画像构建方法及装置,以解决现有技术中没有在金融领域中构建客户画像以实现精准业务推荐的问题。
为实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种客户画像构建方法,包括:
获取目标对象的多个数据信息,每个数据信息包括:多个数据维度,每个数据维度包括一个或多个子标签;
分别计算各子标签的信息价值IV值,根据各所述子标签的IV值,选择符合预设条件的数据维度作为入模标签;
根据所述入模标签计算子标签评分,并根据所述子标签评分分别构建优质客户画像和劣质客户画像。
可选地,获取目标对象的多个数据信息,包括:
根据每个数据信息获取多个数据维度;
对多个所述数据维度进行分箱处理,获取每个所述数据维度对应的一个或多个子标签。
可选地,分别计算各子标签的信息价值IV值,包括:
计算各子标签的的证据权重WOE值;
根据所述WOE值以及第一预设算法,计算获取各所述子标签的所述IV值。
可选地,所述根据所述入模标签计算客户评分,包括:
基于逻辑回归模型计算各所述入模标签的比率值;
根据各所述入模标签的比率值、以及第二预设算法,计算各所述入模标签的权重参数;
根据各所述入模标签的权重参数、所述入模标签的子标签的WOE值,计算获取客户评分。
可选地,所述根据各所述入模标签的权重参数、所述入模标签的子标签的WOE值,计算获取客户评分,包括:
根据各所述入模标签的权重参数、所述入模标签的子标签的WOE值,并采用公式:
Score=(A-Bβ0)-(Bβ1w11)δ11-(Bβ1w12)δ12-…(Bβ1w1j)δ1j-(Bβ2w21)δ21-(Bβ2w22)δ22-…-(Bβ2w2j)δ2j-…-(Bβiwij)δij
计算获取客户评分;
其中,A为补偿因子,B为刻度因子,A、B均为常数,βj为第j个变量的权重,wij表示子标签二维矩阵中第i个行第j个变量的WOE值,δij为二元变量,表示变量i取j个值。
第二方面,本发明实施例还提供了一种客户画像构建装置,包括第一方面所述的客户画像构建方法,具体包括:
获取模块,用于获取目标对象的多个数据信息,每个数据信息包括:多个数据维度,每个数据维度包括一个或多个子标签;
计算模块,用于分别计算各子标签的信息价值IV值,根据各所述子标签的IV值,选择符合预设条件的数据维度作为入模标签;
处理模块,用于根据所述入模标签计算子标签评分,并根据所述子标签评分分别构建优质客户画像和劣质客户画像。
可选地,所述获取模块具体用于,根据每个数据信息获取多个数据维度;对多个所述数据维度进行分箱处理,获取每个所述数据维度对应的一个或多个子标签。
可选地,所述计算模块具体用于,计算各子标签的的证据权重WOE值;根据所述WOE值以及第一预设算法,计算获取各所述子标签的所述IV值。
可选地,所述处理模块具体用于,基于逻辑回归模型计算各所述入模标签的比率值;根据各所述入模标签的比率值、以及第二预设算法,计算各所述入模标签的权重参数;根据各所述入模标签的权重参数、所述入模标签的子标签的WOE值,计算获取客户评分。
可选地,计算模块,具体还用于根据各所述入模标签的权重参数、所述入模标签的子标签的WOE值,并采用公式:
Score=(A-Bβ0)-(Bβ1w11)δ11-(Bβ1w12)δ12-…(Bβ1w1j)δ1j-(Bβ2w21)δ21-(Bβ2w22)δ22-…-(Bβ2w2j)δ2j-…-(Bβiwij)δij
计算获取客户评分;
其中,A为补偿因子,B为刻度因子,A、B均为常数,βj为第j个变量的权重,wij表示子标签二维矩阵中第i个行第j个变量的WOE值,δij为二元变量,表示变量i取j个值。
本发明的有益效果是:
本发明提供了一种客户画像构建方法及装置,该方法中获取目标对象的多个数据信息,每个数据信息包括:多个数据维度,每个数据维度包括一个或多个子标签。分别计算各子标签的信息价值IV值,根据各子标签的IV值,选择符合预设条件的数据维度作为入模标签。根据入模标签计算子标签评分,并根据子标签评分分别构建优质客户画像和劣质客户画像。实现了可以根据子标签评分来构建优质客户画像和劣质客户画像,以进一步实现对目标群体进行精准的业务推荐及服务。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例提供的客户画像构建方法流程示意图;
图2为本申请又一实施例提供的客户画像构建方法流程示意图;
图3为本申请另一实施例提供的客户画像构建方法流程示意图;
图4为本申请另一实施例提供的客户画像构建方法流程示意图;
图5为本申请一实施例提供的客户画像构建装置示意图;
图6为本申请另一实施例提供的客户画像构建装置示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
本申请提供一种客户画像构建方法,用于根据业务场景的不同,基于大数据来构建优质客户画像和劣质客户画像。进而使用构建的客户画像进行精准的业务推荐及服务。该方法可以应用于服务行业,例如金融服务、共享服务、出行服务等。
图1为本申请一实施例提供的客户画像构建方法流程示意图;如图1所示,该方法包括:
S110、获取目标对象的多个数据信息,每个数据信息包括:多个数据维度,每个数据维度包括一个或多个子标签。
上述获取的数据信息,可以根据不同应用下的服务平台获取,例如获取各个用户的服务内容、服务反馈、服务使用情况等信息。每个数据信息都可以包括多个不同维度的信息。
以金融领域场景为例,可以从备案系统中获取成千上万个客户的基本信息、多头贷款信息、涉诉信息、运营商信息、出行信息、航空飞行信息及业务的逾期状况等。
每个数据信息包括多个数据维度,以基本信息为例,其下包含的数据维度可以包括:性别、年龄段、学历及籍贯等。以多头贷款信息为例,其包含的数据维度可以包括:多头申请个数、多头驳回个数、多头放款个数及多头放款金额等。以涉诉信息为例,其包含的数据维度可以包括:失信次数、失信金额等。以运营商信息为例,其包含的数据维度可以包括:电话号码运营商类型、电话号码使用年限、网络在线时长等。以出行信息为例,其包含的数据维度可以包括:火车次数、高铁次数、飞机次数、常去城市等。以航空飞行信息为例,其包含的数据维度可以包括:飞行里程、航空公司信息等。以业务的逾期状况为例,其包含的数据维度可以包括:逾期类型、逾期次数、逾期金额等。
每个数据维度包括一个或多个子标签,以多头申请个数为例,其下包含的子标签可以包括:[0,2)、[2,5)及[5,+∞)等。以多头放款金额为例,其下包含的子标签可以包括:[0,5000)、[5000,10000)及[10000,+∞)等。其他数据维度所包含的子标签在此不一一举例,根据实际应用需求进行划分。
需要说明的是,上述子标签并不以上述的划分区间方式为标准,对数据维度下包含的多个子标签进行划分时,需使用分箱算法对数据进行分箱处理,划分区间得到的子标签具体以分箱算法处理的结果为标准。
进一步需要说明的是,获取的数据信息、数据维度以及子标签并不以上述描述的为限制,具体根据业务场景的不同来设定。相应地,数据信息还可以包括消费信息、信用状况等信息,本实施例在此不做限制。
S120、分别计算各子标签的信息价值IV值,根据各子标签的IV值,选择符合预设条件的数据维度作为入模标签。
需要说明的是,IV(information value,信息价值)值,用来衡量某个变量对不同客户区分能力的标准。计算步骤S110中每个子标签的IV值,将每个数据维度下所包含的子标签的IV值加和,按照从大到小的顺序对每个数据维度的IV值排序,取IV值较大的预设个数的数据维度作为入模标签。
其中,预设个数可以是10至20个,也可以是15个至30个,具体的预设个数根据实际情况而定,本实施例不做限制。
S130、根据入模标签计算子标签评分,并根据子标签评分分别构建优质客户画像和劣质客户画像。
选择了入模标签之后,可以采用预设的算法对入模标签的子标签计算标签评分,以进一步评估客户质量。
一种实施例,以多头贷款个数为例,经过分箱算法,其子标签可分为[0,2)、[2,5)、[5,+∞),且经过评分算法对其进行评分计算,经计算,当多头贷款个数在[0,2)个时,分数为15分,当多头贷款个数为[2,5)分数为5分,当多头贷款个数为[5,+∞)个时,分数为-10分。那么将多头贷款个数少于2个作为刻画优质客户画像的一个子标签,将多头贷款个数大于5个作为刻画劣质客户画像的一个子标签。
其中,本步骤需要对步骤S110中包含的多个数据维度中的每一个子标签进行评分计算,进而用每个子标签的最优值来构建优质客户画像,最劣值来构建劣质客户画像。
需要说明的是,上述中经分箱算法得到的子标签及评分分值并不以此为限制,具体根据所获取的数据信息,以及分箱算法及评分算法计算得到。
本申请实施例中,获取目标对象的多个数据信息,每个数据信息包括:多个数据维度,每个数据维度包括一个或多个子标签。分别计算各子标签的信息价值IV值,根据各子标签的IV值,选择符合预设条件的数据维度作为入模标签。根据入模标签计算子标签评分,并根据子标签评分分别构建优质客户画像和劣质客户画像。实现了可以根据子标签评分来构建优质客户画像和劣质客户画像,以进一步实现对目标群体进行精准的业务推荐及服务。
图2为本申请又一实施例提供的客户画像构建方法流程示意图;如图2所示,获取目标对象的多个数据信息,包括:
S210、根据每个数据信息获取多个数据维度。
此过程包含在步骤S110中,在此不多加赘述。
S220、对多个数据维度进行分箱处理,获取每个数据维度对应的一个或多个子标签。
对多个数据维度进行分箱处理的目的是,根据分箱算法将每个数据维度划分为一个或多个区间,将得到的一个或多个区间定义为子标签。
举例说明,使用的分箱算法可以为卡方分箱算法,卡方分箱算法的基本思想为:对于精确的离散化,相对类频率在一个区间内应当完全一致。如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。对应公式为:
请参照图3,图3为本申请另一实施例提供的客户画像构建方法流程示意图,分别计算各子标签的信息价值IV值,包括:
S310、计算各子标签的的证据权重WOE值。
在计算各子标签的IV值之前,还需判断WOE值(weight of Evidence,证据权重),WOE用于表征子标签样本的差异,WOE值越大,差异越大,子标签样本响应的可能性越大,WOE值越小,差异越小,子标签样本响应的可能性越小。
另一种实施例,根据客户是否违约这个业务场景,假设good为优质客户(未违约),bad为劣质客户(违约)。
其中,Pgood代表分箱的子标签中好的比率;Pbad代表分箱的子标签中坏的比率;yi在一个数据维度中分箱的子标签的好样本数;ygood表示一个数据维度中好样本总数;ni表示在一个数据维度中分箱的子标签的坏常样本数;nbad表示一个数据维度中坏样本总数。其中,WOE值越高,代表子标签区间中客户是坏客户的风险越低。
S320、根据WOE值以及第一预设算法,计算获取各子标签的IV值。
每个子标签,均会有一个对应的IV值,以第i个为例,计算公式如下:
当计算完每一个子标签的IV值后,对每个数据维度下的多个子标签进行求和,计算每个数据维度总的IV值,计算公式如下:
其中,i表示在一个数据维度下分箱所得子标签的个数。
需要说明的是,上述第一预设算法可以为对数据维度进行分箱处理时用到的卡方分箱算法。
进一步地,将获得的每个数据维度的IV值进行排序,取步骤S120中所述的符合预设条件的数据维度作为入模标签,根据入模标签计算客户评分。
图4为本申请另一实施例提供的客户画像构建方法流程示意图,如图4所示,根据入模标签计算客户评分的过程包括:
S410、基于逻辑回归模型计算各入模标签的比率值。
比率(ratio)指的是样本或总体中各不同类别数据之间的比值,根据计算出的比率值进一步确定不同数据维度占多个数据信息的权重值。
例如,根据客户是否违约这个业务场景,基于逻辑回归模型,定义客户违约的概率表示为P,则未违约的概率为1-P,由此,可得客户是否违约的比率为:
需要说明的是,步骤S410需对入模标签中的每个子标签根据业务场景进行比率计算。例如:是否贷款、贷款次数是否超过2次、多头贷款是否超过2个等,在此不一一举例。
S420、根据各入模标签的比率值、以及第二预设算法,计算各入模标签的权重参数。
权重是指某一因素或指标相对某一事物的重要程度,其不同于一般的比重,体现的不仅仅是某一因素或者指标所占的百分比,强调的是因素或指标的相对重要程度,倾向于贡献度或重要性。
在步骤S110中获取的多个数据信息中,根据应用领域的不同,每个数据信息所占的权重不同,例如银行贷款时,多头贷款及涉诉信息的权重相比于基本信息的权重大。具体权重的分配根据应用领域的侧重程度及第二预设算法计算而来。
进一步地,根据公式(5),评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义,公式为:
Score=A-Blog(odds) (6)
其中,A为补偿因子,B为刻度因子,A、B均为常数,式中的负号表示违约概率越低,得分越高。通常情况下,表示分值的理想变动,即低分值代表高风险,高分值代表低风险。
上式中A、B可通过将两个已知只或假设的分值代入计算得到。
进一步地,基于逻辑回归模型计算比率,公式为:
log(odds)=β0+β1x1+…+βnxn (7)
其中,用第二预设算法可得到权重参数β0,β1,…,βn,且x1…xn表示进入入模标签的自变量。
需要说明的是,本实施例实用的第二预设算法为建模参数拟合算法。
S430、根据各入模标签的权重参数、入模标签的子标签的WOE值,计算获取客户评分。
将公式(7)代入到公式(6)中可得:
Score=A-B(β0+β1x1+…+βnxn) (8)
将公式(8)中的自变量表示为(βiwij)δij的形式,则公式(8)可以表示为:
Score=A-B{β0+(β1w11)δ11+(β1w12)δ12+…+(β1w1j)δ1j+(β2w21)δ21+(β2w22)δ22+…+(β2w2j)δ2j+…+(βiwij)δij} (9)
式中,wij为子标签二维矩阵第i行第j个变量的WOE值,为已知变量,βi为逻辑回归方程中的系数,为已知变量,δij为二元变量,表示变量i是j个值。
进一步地,将公式(9)重新整理可得:
Score=(A-Bβ0)-(Bβ1w11)δ11-(Bβ1w12)δ12-…(Bβ1w1j)δ1j-(Bβ2w21)δ21-(Bβ2w22)δ22-…-(Bβ2w2j)δ2j-…-(Bβiwij)δij (10)
公式(10)最终评分卡公式,上式可由如下表所示:
由上表可知,最终分值与刻度因子B、逻辑回归方程参数βi及该行的WOE值wij有关。
通过上表可对每一个数据维度下的子标签进行计算打分,根据数据结果,用每一个数据维度分数较高的子标签构建优质客户画像,用同一个数据维度下分数较低的子标签构建劣质客户画像。
图5为本申请一实施例提供的客户画像构建装置示意图,如图5所示,该装置具体包括:获取模块510、计算模块520、处理模块530。其中,
获取模块510,用于获取目标对象的多个数据信息,每个数据信息包括:多个数据维度,每个数据维度包括一个或多个子标签。
计算模块520,用于分别计算各子标签的信息价值IV值,根据各子标签的IV值,选择符合预设条件的数据维度作为入模标签。
处理模块530,用于根据入模标签计算子标签评分,并根据子标签评分分别构建优质客户画像和劣质客户画像。
可选地,获取模块510,具体还用于根据每个数据信息获取多个数据维度。对多个数据维度进行分箱处理,获取每个数据维度对应的一个或多个子标签。
可选地,计算模块520,具体还用于计算各子标签的的证据权重WOE值。根据WOE值以及第一预设算法,计算获取各子标签的所述IV值。
可选地,处理模块530,具体还用于基于逻辑回归模型计算各所述入模标签的比率值。根据各入模标签的比率值、以及第二预设算法,计算各入模标签的权重参数。根据各入模标签的权重参数、入模标签的子标签的WOE值,计算获取客户评分。
可选地,计算模块520,具体还用于根据各入模标签的权重参数、入模标签的子标签的WOE值,并采用公式:
Score=(A-Bβo)-(Bβ1w11)δ11-(Bβ1w12)δ12-…(Bβ1w1j)δ1j-(Bβ2w21)δ21-(Bβ2w22)δ22-…-(Bβ2w2j)δ2j-…-(Bβiwij)δij
计算获取客户评分。
其中,A为补偿因子,B为刻度因子,A、B均为常数,βj为第j个变量的权重,wij表示子标签二维矩阵中第i个行第j个变量的WOE值,δij为二元变量,表示变量i取j个值。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图6为本申请另一实施例提供的客户画像构建装置示意图,该装置可以集成于终端设备或者终端设备的芯片,该终端可以是具备图像处理功能的计算设备。
该装置包括:处理器601、存储器602。
存储器602用于存储程序,处理器601调用存储器602存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本发明还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种客户画像构建方法,其特征在于,包括:
获取目标对象的多个数据信息,每个数据信息包括:多个数据维度,每个数据维度包括一个或多个子标签;
分别计算各子标签的信息价值IV值,根据各所述子标签的IV值,选择符合预设条件的数据维度作为入模标签;
根据所述入模标签计算子标签评分,并根据所述子标签评分分别构建优质客户画像和劣质客户画像。
2.如权利要求1所述的客户画像构建方法,其特征在于,获取目标对象的多个数据信息,包括:
根据每个数据信息获取多个数据维度;
对多个所述数据维度进行分箱处理,获取每个所述数据维度对应的一个或多个子标签。
3.如权利要求2所述的客户画像构建方法,其特征在于,分别计算各子标签的信息价值IV值,包括:
计算各子标签的的证据权重WOE值;
根据所述WOE值以及第一预设算法,计算获取各所述子标签的所述IV值。
4.如权利要求3所述的客户画像构建方法,其特征在于,所述根据所述入模标签计算客户评分,包括:
基于逻辑回归模型计算各所述入模标签的比率值;
根据各所述入模标签的比率值、以及第二预设算法,计算各所述入模标签的权重参数;
根据各所述入模标签的权重参数、所述入模标签的子标签的WOE值,计算获取客户评分。
5.如权利要求4所述的客户画像构建方法,其特征在于,所述根据各所述入模标签的权重参数、所述入模标签的子标签的WOE值,计算获取客户评分,包括:
根据各所述入模标签的权重参数、所述入模标签的子标签的WOE值,并采用公式:
Score=(A-Bβ0)-(Bβ1w11)δ11-(Bβ1w12)δ12-…(Bβ1w1j)δ1j-(Bβ2w21)δ21-(Bβ2w22)δ22-…-(Bβ2w2j)δ2j-…-(Bβiwij)δij
计算获取客户评分;
其中,A为补偿因子,B为刻度因子,A、B均为常数,βj为第j个变量的权重,wij表示子标签二维矩阵中第i个行第j个变量的WOE值,δij为二元变量,表示变量i取j个值。
6.一种客户画像构建装置,其特征在于,包括:
获取模块,用于获取目标对象的多个数据信息,每个数据信息包括:多个数据维度,每个数据维度包括一个或多个子标签;
计算模块,用于分别计算各子标签的信息价值IV值,根据各所述子标签的IV值,选择符合预设条件的数据维度作为入模标签;
处理模块,用于根据所述入模标签计算子标签评分,并根据所述子标签评分分别构建优质客户画像和劣质客户画像。
7.如权利要求6所述的客户画像构建装置,其特征在于,所述获取模块具体用于,根据每个数据信息获取多个数据维度;对多个所述数据维度进行分箱处理,获取每个所述数据维度对应的一个或多个子标签。
8.如权利要求7所述的客户画像构建装置,其特征在于,所述计算模块具体用于,计算各子标签的的证据权重WOE值;根据所述WOE值以及第一预设算法,计算获取各所述子标签的所述IV值。
9.如权利要求8所述的客户画像构建装置,其特征在于,所述处理模块具体用于,基于逻辑回归模型计算各所述入模标签的比率值;根据各所述入模标签的比率值、以及第二预设算法,计算各所述入模标签的权重参数;根据各所述入模标签的权重参数、所述入模标签的子标签的WOE值,计算获取客户评分。
10.如权利要求9所述的客户画像构建装置,其特征在于,计算模块,具体还用于根据各所述入模标签的权重参数、所述入模标签的子标签的WOE值,并采用公式:
Score=(A-Bβ0)-(Bβ1w11)δ11-(Bβ1w12)δ12-…(Bβ1w1j)δ1j-(Bβ2w21)δ21-(Bβ2w22)δ22-…-(Bβ2w2j)δ2j-…-(Bβiwij)δij
计算获取客户评分;
其中,A为补偿因子,B为刻度因子,A、B均为常数,βj为第j个变量的权重,wij表示子标签二维矩阵中第i个行第j个变量的WOE值,δij为二元变量,表示变量i取j个值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811568454.3A CN111352962B (zh) | 2018-12-24 | 2018-12-24 | 客户画像构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811568454.3A CN111352962B (zh) | 2018-12-24 | 2018-12-24 | 客户画像构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111352962A true CN111352962A (zh) | 2020-06-30 |
CN111352962B CN111352962B (zh) | 2024-03-29 |
Family
ID=71195698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811568454.3A Active CN111352962B (zh) | 2018-12-24 | 2018-12-24 | 客户画像构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111352962B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881190A (zh) * | 2020-08-05 | 2020-11-03 | 厦门力含信息技术服务有限公司 | 基于客户画像的关键数据挖掘系统 |
CN111899057A (zh) * | 2020-08-05 | 2020-11-06 | 厦门力含信息技术服务有限公司 | 基于边缘云节点数据收集的客户画像数据聚类分析系统 |
CN112529628A (zh) * | 2020-12-16 | 2021-03-19 | 平安科技(深圳)有限公司 | 客户标签的生成方法、装置、计算机设备及存储介质 |
CN112634033A (zh) * | 2021-01-04 | 2021-04-09 | 深圳前海微众银行股份有限公司 | 基于域分解机的模型构建方法、装置、系统及存储介质 |
WO2021147557A1 (zh) * | 2020-08-28 | 2021-07-29 | 平安科技(深圳)有限公司 | 客户画像方法、装置、计算机可读存储介质及终端设备 |
CN113570259A (zh) * | 2021-07-30 | 2021-10-29 | 北京房江湖科技有限公司 | 基于维度模型的数据评估方法和计算机程序产品 |
CN113923006A (zh) * | 2021-09-30 | 2022-01-11 | 北京淇瑀信息科技有限公司 | 设备数据认证方法、装置及电子设备 |
CN114841570A (zh) * | 2022-05-07 | 2022-08-02 | 金腾科技信息(深圳)有限公司 | 用于客户关系管理系统的数据处理方法、装置、设备及介质 |
WO2022179446A1 (zh) * | 2021-02-26 | 2022-09-01 | 一智科技有限公司 | 施工对象画像标签方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120260209A1 (en) * | 2011-04-11 | 2012-10-11 | Credibility Corp. | Visualization Tools for Reviewing Credibility and Stateful Hierarchical Access to Credibility |
US8341101B1 (en) * | 2012-02-08 | 2012-12-25 | Adam Treiser | Determining relationships between data items and individuals, and dynamically calculating a metric score based on groups of characteristics |
CN104484435A (zh) * | 2014-12-23 | 2015-04-01 | 合一网络技术(北京)有限公司 | 交叉分析用户行为的方法 |
CN106447333A (zh) * | 2016-11-29 | 2017-02-22 | 中国银联股份有限公司 | 一种欺诈交易侦测方法及服务器 |
CN106548375A (zh) * | 2016-11-04 | 2017-03-29 | 东软集团股份有限公司 | 用于构建产品画像的方法和装置 |
CN106600455A (zh) * | 2016-11-25 | 2017-04-26 | 国网河南省电力公司电力科学研究院 | 一种基于逻辑回归的电费敏感度评估方法 |
CN107220852A (zh) * | 2017-05-26 | 2017-09-29 | 北京小度信息科技有限公司 | 用于确定目标推荐用户的方法、装置和服务器 |
CN108416494A (zh) * | 2018-01-29 | 2018-08-17 | 广州越秀金融科技有限公司 | 基于大数据的企业客户画像构建方法及系统实现 |
CN108509626A (zh) * | 2018-04-08 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 用于验证数据的方法和装置 |
CN108805338A (zh) * | 2018-05-21 | 2018-11-13 | 重庆小雨点小额贷款有限公司 | 一种稳定变量确定方法、装置、服务器及存储介质 |
CN108960505A (zh) * | 2018-05-31 | 2018-12-07 | 试金石信用服务有限公司 | 个人金融信用的量化评估方法、装置、系统及存储介质 |
-
2018
- 2018-12-24 CN CN201811568454.3A patent/CN111352962B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120260209A1 (en) * | 2011-04-11 | 2012-10-11 | Credibility Corp. | Visualization Tools for Reviewing Credibility and Stateful Hierarchical Access to Credibility |
US8341101B1 (en) * | 2012-02-08 | 2012-12-25 | Adam Treiser | Determining relationships between data items and individuals, and dynamically calculating a metric score based on groups of characteristics |
CN104484435A (zh) * | 2014-12-23 | 2015-04-01 | 合一网络技术(北京)有限公司 | 交叉分析用户行为的方法 |
CN106548375A (zh) * | 2016-11-04 | 2017-03-29 | 东软集团股份有限公司 | 用于构建产品画像的方法和装置 |
CN106600455A (zh) * | 2016-11-25 | 2017-04-26 | 国网河南省电力公司电力科学研究院 | 一种基于逻辑回归的电费敏感度评估方法 |
CN106447333A (zh) * | 2016-11-29 | 2017-02-22 | 中国银联股份有限公司 | 一种欺诈交易侦测方法及服务器 |
CN107220852A (zh) * | 2017-05-26 | 2017-09-29 | 北京小度信息科技有限公司 | 用于确定目标推荐用户的方法、装置和服务器 |
CN108416494A (zh) * | 2018-01-29 | 2018-08-17 | 广州越秀金融科技有限公司 | 基于大数据的企业客户画像构建方法及系统实现 |
CN108509626A (zh) * | 2018-04-08 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 用于验证数据的方法和装置 |
CN108805338A (zh) * | 2018-05-21 | 2018-11-13 | 重庆小雨点小额贷款有限公司 | 一种稳定变量确定方法、装置、服务器及存储介质 |
CN108960505A (zh) * | 2018-05-31 | 2018-12-07 | 试金石信用服务有限公司 | 个人金融信用的量化评估方法、装置、系统及存储介质 |
Non-Patent Citations (4)
Title |
---|
SHAN LIU等: "Research of news text with word frequency statistics and user information", 《2017 3RD IEEE INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS(ICCC)》 * |
杨旭,汤海京,丁刚毅: "《数据科学导论(第2版)》", vol. 978, 北京:北京理工大学出版社, pages: 138 - 141 * |
王冬羽: "基于移动互联网行为分析的用户画像系统设计", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 * |
钱露: "基于iOS平台的小型社交网络的关键技术研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881190A (zh) * | 2020-08-05 | 2020-11-03 | 厦门力含信息技术服务有限公司 | 基于客户画像的关键数据挖掘系统 |
CN111899057A (zh) * | 2020-08-05 | 2020-11-06 | 厦门力含信息技术服务有限公司 | 基于边缘云节点数据收集的客户画像数据聚类分析系统 |
CN111881190B (zh) * | 2020-08-05 | 2021-10-08 | 厦门南讯股份有限公司 | 基于客户画像的关键数据挖掘系统 |
CN111899057B (zh) * | 2020-08-05 | 2024-05-10 | 厦门慧企互联科技有限公司 | 基于边缘云节点数据收集的客户画像数据聚类分析系统 |
WO2021147557A1 (zh) * | 2020-08-28 | 2021-07-29 | 平安科技(深圳)有限公司 | 客户画像方法、装置、计算机可读存储介质及终端设备 |
CN112529628A (zh) * | 2020-12-16 | 2021-03-19 | 平安科技(深圳)有限公司 | 客户标签的生成方法、装置、计算机设备及存储介质 |
CN112529628B (zh) * | 2020-12-16 | 2024-04-09 | 平安科技(深圳)有限公司 | 客户标签的生成方法、装置、计算机设备及存储介质 |
CN112634033A (zh) * | 2021-01-04 | 2021-04-09 | 深圳前海微众银行股份有限公司 | 基于域分解机的模型构建方法、装置、系统及存储介质 |
WO2022179446A1 (zh) * | 2021-02-26 | 2022-09-01 | 一智科技有限公司 | 施工对象画像标签方法及系统 |
CN113570259A (zh) * | 2021-07-30 | 2021-10-29 | 北京房江湖科技有限公司 | 基于维度模型的数据评估方法和计算机程序产品 |
CN113923006B (zh) * | 2021-09-30 | 2024-02-02 | 北京淇瑀信息科技有限公司 | 设备数据认证方法、装置及电子设备 |
CN113923006A (zh) * | 2021-09-30 | 2022-01-11 | 北京淇瑀信息科技有限公司 | 设备数据认证方法、装置及电子设备 |
CN114841570A (zh) * | 2022-05-07 | 2022-08-02 | 金腾科技信息(深圳)有限公司 | 用于客户关系管理系统的数据处理方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111352962B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111352962A (zh) | 客户画像构建方法及装置 | |
CN107945024B (zh) | 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质 | |
US20220405607A1 (en) | Method for obtaining user portrait and related apparatus | |
CN105225135B (zh) | 潜力客户识别方法以及装置 | |
CN115002200B (zh) | 基于用户画像的消息推送方法、装置、设备及存储介质 | |
CN114663198A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN112861980B (zh) | 一种基于大数据的事历任务表挖掘方法及计算机设备 | |
WO2019242453A1 (zh) | 信息处理方法及装置、存储介质、电子装置 | |
CN113051480A (zh) | 资源推送方法、装置、电子设备及存储介质 | |
Giuly et al. | DP2: Distributed 3D image segmentation using micro-labor workforce | |
CN117522519A (zh) | 产品推荐方法、装置、设备、存储介质和程序产品 | |
CN106897282A (zh) | 一种用户群的分类方法和设备 | |
CN117217710B (zh) | 一种虚拟商品与快捷服务的智能化管理方法及系统 | |
CN113327132A (zh) | 多媒体推荐方法、装置、设备及存储介质 | |
CN110069558A (zh) | 基于深度学习的数据分析方法及终端设备 | |
CN115757909A (zh) | 构建客户、产品与服务的融合画像的方法、装置及终端 | |
CN116795978A (zh) | 一种投诉信息处理方法、装置、电子设备及介质 | |
Li | Naive Bayes algorithm for Twitter sentiment analysis and its implementation in MapReduce | |
CN114996579A (zh) | 信息推送方法、装置、电子设备和计算机可读介质 | |
CN111882339B (zh) | 预测模型训练及响应率预测方法、装置、设备及存储介质 | |
CN113988917A (zh) | 一种基于业务优先级的自助数据标签方法以及装置 | |
CN112651513A (zh) | 一种基于零样本学习的信息抽取方法及系统 | |
Elbaghazaoui et al. | Optimized influencers profiling from social media based on Machine Learning | |
Iswari et al. | User-Generated Content Extraction: A Bibliometric Analysis of the Research Literature (2007–2022) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |