CN111752985A - 一种主体画像生成的方法、装置和存储介质 - Google Patents
一种主体画像生成的方法、装置和存储介质 Download PDFInfo
- Publication number
- CN111752985A CN111752985A CN201910237636.0A CN201910237636A CN111752985A CN 111752985 A CN111752985 A CN 111752985A CN 201910237636 A CN201910237636 A CN 201910237636A CN 111752985 A CN111752985 A CN 111752985A
- Authority
- CN
- China
- Prior art keywords
- portrait
- internal
- label
- subject
- main body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请公开一种主体画像生成的方法、装置和存储介质,包括:获取外部主体的画像标签数据条;将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合,为对应的内部主体生成新的画像标签;根据监督学习算法并利用所述对应的内部主体新的画像标签构建画像模型;针对除了对应的内部主体的其他内部主体,根据构建的画像模型为其生成扩展的画像标签,将扩展的画像标签和其他内部主体的画像标签融合,生成新的画像标签。应用本申请实施例方案,利用已有的成熟的主体画像生成新的主体画像,从而大大缩短画像开发周期,提高工作效率,约了资源。
Description
技术领域
本申请涉及大数据技术领域,特别涉及一种主体画像生成的方法、装置和存储介质。
背景技术
随着互联网技术的发展,几乎各个行业都会利用网络实现业务需求。比如:网络购物、网络金融交易、网络房产交易、网络教育、网络订餐等等。这些业务的终端可能是普通的用户,也可能是公司或者组织机构,还可能是某个商品或物品。不管是哪种角色,都可以称为某项业务的主体。为了更好地的了解主体的特征,会利用一系列的标签对其进行描述,这种描述就是一种对主体进行画像的方法。比如,主体是网络购物的用户,可以根据用户基本属性、生活习惯、行为偏好、消费习性、地址位置、金融偏好等多方面进行分析归纳,抽象化或者构建一种模型,以此为用户生成一系列标签。通过这些简单的标签就可以了解该用户的特征,即画像。这里所说的标签是不同行业自行为主体定义的。比如,对于网络购物的用户来说,其标签可以为手机号码、身份证号码、性别、地理位置、月消费额、消费信用等等。但由于主体的相关数据非常庞大,内容繁杂,从最基础的底层数据开始构建主体画像需要耗费大量的时间和人力,成本非常高昂。比如:需要对底层数据进行清洗、加工和整合,然后根据数据开发各类标签,比如事实类标签、统计类标签、预测类标签等,最后完成主体画像。其中,事实类标签通常是指从生产系统获取数据,定性或定量描述主体的自然属性、产品属性、消费属性、资源属性等,比如性别、年龄、婚姻状态、商品售价、商品上下架日期等等。事实类标签没有复杂的整合逻辑,是对数据本身的一种直观展示。统计类标签不是直接对应数据,需要定义规则通过一定的逻辑组合计算出来的标签,比如近三个月消费金额汇总、近两个月逾期次数等等。预测类标签是对主体属性及行为等属性的抽象和聚类,通过剖析主体的基础数据为主体生成相应的总结概括性标签及指数,比如主体的兴趣、兴趣程度、偏好、偏好程度、需求、需求程度等等。但不管是哪种标签,其开发需要耗费大量的人力成本,而且开发周期非常长。
发明内容
本申请实施例提供了一种主体画像生成的方法,可以避免开发周期的冗长,节约成本。其具体方案为:
一种主体画像生成的方法,该方法包括:
获取外部主体的画像标签数据条,外部主体画像标签数据条包含至少一个外部主体画像标签,所述外部主体画像标签用于表示所属的该外部主体的特征;
将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合,为所述对应的内部主体生成新的画像标签,所述新的画像标签包括所述获取的外部主体的画像标签和对应的内部主体的画像标签;
根据监督学习算法并利用所述对应的内部主体新的画像标签构建画像模型;
针对除了对应的内部主体的其他内部主体,根据构建的画像模型为其生成扩展的画像标签,将所述扩展的画像标签和所述其他内部主体的画像标签融合,为所述其他内部主体生成新的画像标签;
所述对应的内部主体的新的画像标签和所述其他内部主体的新的画像标签构成所有内部主体的画像。
进一步地,所述获取外部主体的画像标签数据条的步骤包括:
根据分层抽样法对自身已有的内部主体进行随机抽样,获得待匹配的内部主体的画像标签数据条;
将所述待匹配的内部主体画像标签数据条和外部主体的画像标签数据条进行匹配,确定匹配成功的外部主体的画像标签数据条和对应的内部主体的画像标签数据条;
输入所述匹配成功的外部主体的画像标签数据条。
进一步地,所述获取匹配成功的外部主体的画像标签数据条的步骤和所述将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合的步骤之间还进一步包括:
根据事先设置的抽样标准验证所述匹配成功的内部主体的画像标签数据条;
根据验证结果判断是否满足所述抽样标准,如果满足,则继续执行所述将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合的步骤;否则,返回所述根据分层抽样法对自身已有的内部主体进行随机抽样的步骤。
进一步地,所述根据监督学习算法并利用所述对应的内部主体新的画像标签构建画像模型的步骤包括:
将所述对应的内部主体新的画像标签按照标签值的情况进行分类,将标签值有两个的作为二分类画像标签,将标签值多于两个的作为多分类画像标签;
对于对应的内部主体所拥有的二分类画像标签,根据二分类监督学习算法构建二分类画像模型;
对于对应的内部主体所拥有的多分类画像标签,根据多分类监督学习算法构建多分类画像模型。
进一步地,所述根据构建的画像模型为其生成扩展的画像标签的步骤包括:
针对所述其他内部主体的每一个内部主体,将该内部主体原有的画像标签作为所述画像模型的输入,将经过所述画像模型计算得到的结果作为画像模型的输出,并将所述画像模型的输出作为扩展的画像标签。
进一步地,所述外部主体的画像标签数据条是来自不同外部系统的主体画像标签数据条,所述将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合,为所述对应的内部主体生成新的画像标签的步骤包括:
将获取的不同外部系统的主体画像标签和对应的内部主体的画像标签进行融合,为所述对应的内部主体生成新的画像标签,所述新的画像标签包括所述获取的不同外部系统的主体画像标签和对应的内部主体的画像标签。
进一步地,所述外部主体的画像标签数据条是来自不同外部系统的主体画像标签数据条,所述将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合,为所述对应的内部主体生成新的画像标签的步骤包括:
将获取的不同外部系统的主体画像标签分别和对应的内部主体画像标签进行融合,分别为所述对应的内部主体生成新的画像标签;
所述根据监督学习算法并利用所述对应的内部主体新的画像标签构建画像模型的步骤为:根据监督学习算法并利用所述新的画像标签分别构建与不同外部系统对应的画像模型;
所述针对除了对应的内部主体的其他内部主体,根据构建的画像模型为其生成扩展的画像标签的步骤包括:
针对除了对应的内部主体的其他内部主体,根据构建的不同外部系统对应的画像模型为其分别生成不同的扩展画像标签,根据事先设置的权重获得最终的扩展画像标签。
本申请实施例还提供一种主体画像生成的装置,可以避免开发周期的冗长,节约成本,该装置包括:
获取模块,用于获取外部主体的画像标签数据条,外部主体画像标签数据条包含至少一个外部主体画像标签,所述外部主体画像标签用于表示所属的该外部主体的特征;
融合模块,用于将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合,为所述对应的内部主体生成新的画像标签,所述新的画像标签包括所述获取的外部主体的画像标签和对应的内部主体的画像标签;
建模模块,用于根据监督学习算法并利用所述对应的内部主体新的画像标签构建画像模型;
扩展模块,用于针对除了对应的内部主体的其他内部主体,根据构建的画像模型为其生成扩展的画像标签,将所述扩展的画像标签和所述其他内部主体的画像标签融合,为所述其他内部主体生成新的画像标签;所述对应的内部主体的新的画像标签和所述其他内部主体的新的画像标签构成所有内部主体的画像。
进一步地,所述获取模块包括:
抽样模块,用于根据分层抽样法对自身已有的内部主体进行随机抽样,获得待匹配的内部主体的画像标签数据条;
匹配模块,用于将所述待匹配的内部主体画像标签数据条和外部主体的画像标签数据条进行匹配,确定匹配成功的外部主体的画像标签数据条和对应的内部主体的画像标签数据条;
输入模块,用于输入所述匹配成功的外部主体的画像标签数据条。
进一步地,其特征在于,该装置进一步包括:
输入检验模块,用于根据事先指定的画像标签检验所述匹配成功的外部主体的画像标签数据条;
输入判别模块,用于根据输入检验模块的验证结果判断是否满足事先设置的抽样标准,如果满足,则触发所述融合模块执行;否则,触发所述抽样模块重新执行。
本申请实施例还公开一种计算机可读存储介质,所述计算机可读存储介质存储指令,其特征在于,所述指令在由处理器执行时使得所述处理器执行如上所述的主体画像生成的方法的步骤。
本申请实施例还公开一种电子设备,其特征在于,该电子设备包括如上所述的计算机可读存储介质,还包括可执行所述计算机可读存储介质的处理器。
可见,本申请实施例提供一种主体画像生成的方法、装置和电子设备,在进行主体画像时,没有从最底层的基础数据进行分析归纳,而是直接利用已有的成熟的内部系统主体画像和外部系统主体画像,可以大大缩短画像的开发周期,节约成本,同时也充分利用了资源。
附图说明
图1是本申请方法实施例一的流程图。
图2是本申请方法实施例二的流程图。
图3是本申请装置实施例一的结构示意图。
图4是本申请装置实施例一的获取模块301中的内部结构示意图。
图5是本申请实施例中电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本申请作进一步详细说明。
现有技术在生成主体画像时需要从基础数据开发,不仅耗费大量的成本,而且开发周期长,效率低。本申请发现,现有的不同行业或企业内部已经生成了成熟的主体画像,如果充分利用则可以省去基础数据清洗、加工和整合以及标签开发的过程,从而提高开发效率。因此本申请提出,在系统内部已经拥有主体画像标签的情况下,可以引入外部系统的主体画像标签,使自身内部已有的主体画像更加丰富,增加其可利用性,而无需重新开发。这里所述的系统内部是指某个主体画像生成系统的内部,是一个独立的系统,可以是一台或多台计算机或服务器构成,这里称为系统A。所述的外部系统是指与该系统A独立的另外的主体画像生成系统,可称为系统B。外部系统可以是一个,也可以是多个,但相对于内部系统A来说,都统称为外部系统。
本申请方法实施例一提出一种主体画像生成的具体方法。该实施例假设内部系统已经为内部主体生成画像,有若干画像标签,外部系统也已经为外部主体生成了画像,有若干画像标签。在已有的内部主体画像基础上生成新的主体画像的方法如图1所示,该方法包括:
步骤101:获取外部主体的画像标签数据条,外部主体画像标签数据条包含至少一个外部主体画像标签,所述外部主体画像标签用于表示所属的该外部主体的特征。
如前所述,画像标签表示主体的特征,也就是通常所说的画像。在实际应用中,为了更好的刻画其画像,一个主体通常会有多个画像标签。一个主体的多个画像标签在本申请实施例中称为一个画像标签数据条。当然,在外部系统或内部系统中存在大量的主体,也就存在大量的画像标签数据条。但每个主体都对应自身的画像标签数据条,每个画像标签数据条都有若干个描述主体特征的画像标签。
步骤102:将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合,为所述对应的内部主体生成新的画像标签,所述新的画像标签包括所述获取的外部主体的画像标签和对应的内部主体的画像标签。
本步骤所述融合其实就是组合的一种方式,组合且不包括重复的画像标签。比如,某个外部主体的画像标签包括A、B、C三种标签,对应的内部主体的画像标签包括A、D、E三种标签,那么融合后的画像标签为A、B、C、D、E共5种标签。即,内部系统中某个主体原来仅有3种标签描述其特征,现在则有5种标签描述其特征,变得更为丰富。
当然,外部主体只有和对应的内部主体才能够融合。比如,这里的画像标签A是标识内部主体或外部主体唯一性的画像标签,就可以认为都含有画像标签A的外部主体和内部主体有对应关系。
步骤103:根据监督学习算法并利用所述对应的内部主体新的画像标签构建画像模型。
本申请实施例中所述监督学习算法是在已有的特征和研究目标之间寻求一种对应关系,从而建立模型,生成函数,将输入映射到合适的输出。现有的监督学习算法包括有逻辑回归、随机森林、GBDT、xgboost、神经网络、支持向量机、最近邻居法、高斯混合模型、朴素贝叶斯方法、决策树和径向基函数分类等等。
步骤104:针对除了对应的内部主体的其他内部主体,根据构建的画像模型为其生成扩展的画像标签,将所述扩展的画像标签和所述其他内部主体的画像标签融合,为所述其他内部主体生成新的画像标签。
在步骤102中,引入的外部主体所对应的内部主体已经得到经过扩展的新的画像标签,但其他内部主体还没有经过扩展。此时,由于步骤103根据和外部主体所对应的内部主体新的画像标签构建了画像模型,该画像模型使得内部主体原有的画像标签和其扩展的画像标签具备对应关系。这样,如果将其他内部主体原有的画像标签作为输入,就可以根据画像模型得到一个输出。这个输出是其他内部主体之前所没有的,而且是直接根据画像模型新扩展出来的。按照这种方法可以得到除对应的内部主体的其他所有内部主体扩展的画像标签。
步骤105:所述对应的内部主体的新的画像标签和所述其他内部主体的新的画像标签构成所有内部主体的画像。
本申请实施例中,由于引入了外部主体的画像标签,得到内部主体新的画像标签,并在新的画像标签基础上构建了画像模型,然后利用画像模型对其他内部主体生成新的画像标签。由于本申请方法实施例一为主体生成新的画像时,并不是从最基础底层的数据进行清洗、加工和整合以及标签开发,而是利用原有的不同系统已有的成熟的主体画像生成新的主体画像,从而大大缩短画像开发周期,提高工作效率,也由于有效利用现有成熟画像而节约了资源。
为了更好地说明本申请方案,下面用方法实施例二进行详细描述。图2是本申请方法实施例二的流程图,如图2所示,该方法包括:
步骤201:根据分层抽样法对自身已有的内部主体进行随机抽样,获得待匹配的内部主体的画像标签数据条。
步骤202:将所述待匹配的内部主体画像标签数据条和外部主体的画像标签数据条进行匹配,确定匹配成功的外部主体的画像标签数据条和对应的内部主体的画像标签数据条。
步骤203:输入所述匹配成功的外部主体的画像标签数据条。
上述步骤201~203描述了如何获取外部主体的画像标签数据条的具体实施方式。在本实施例二中,为了节省资源少引入外部主体的画像标签数据条,同时尽量保证引入的外部主体画像标签数据条对后续建模起到不偏不倚的作用,因此步骤201采用了分层抽样法先对内部主体进行随机抽样。并将这些抽样出来的内部主体和外部主体进行匹配,仅引入匹配成功的外部主体的画像标签数据条。
比如:某个系统A和系统B都已经存在各自成熟的主体画像。其中,系统A按照主体价值将主体分为普通、一般和优质三种层次的主体。如果实际应用中系统A的主体是某个购物平台的用户,则分别为风险用户、普通用户和优质用户。再假设系统B的主体是某个金控公司的主体。也就是说,某个购物平台已经为自身的用户建立了成熟的画像,某个金控公司也为自身的用户建立了成熟的画像,但彼此是完全独立的两个系统。此时,可以分别从购物平台的风险用户、普通用户、优质用户三个层次中分别随机抽取一定数量的用户,将其与金控公司的用户进行匹配,确定匹配成功的用户。比如:购物平台分层随机抽出2万个用户,确定其中有1万个用户可以和金控公司的用户匹配成功,匹配率达到50%,那么据此可以确定匹配成功的金控公司的画像标签数据条和对应的购物平台的画像标签数据条。本申请实施例之所以能将不同系统的主体进行匹配,是因为在各行业大数据背景下,不同行业的主体总是会存在联系。比如:一部分用户会同时成为购物平台的主体和金控公司的主体,都可能含有身份证号或者手机号码等标识主体唯一性的画像标签。此时,就可以根据身份证号或者手机号码等将双方主体进行匹配,以此得到匹配成功的画像标签数据条。
实际应用中,系统也可以按照其他方式为主体分层,比如按照资产等级分层,或者,也可以不分层,实际应用中是否分层、如何分层由应有本申请实施例方案的用户自行确定。另外,上述步骤201~步骤203是为了节省资源,尽量少引入外部主体的画像标签数据条提出的一种实施方式。如果实际应用中不考虑节省资源的情况,也可以引入所有的外部主体画像标签数据条,无需在自身内部主体进行分层抽样以及匹配等操作步骤。
步骤204:根据事先设置的抽样标准验证所述匹配成功的内部主体的画像标签数据条。
步骤205:根据验证结果判断是否满足所述抽样标准,如果满足,则继续执行步骤206;否则,返回执行步骤201。
上述步骤204~205是对抽样情况进行验证的过程,其目的是为了使抽样样本的分布情况与总体情况吻合,使得后续计算出来的画像模型更加具有代表性。比如:上述购物平台中,年龄段为20~30岁的主体占总体30%,如果抽样样本中年龄段为20~30岁的主体也为30%,则说明抽样样本的分布情况与总体情况吻合,抽样是合理的。如果经过验证不合理,则可以返回步骤201重新进行抽样,直到满足抽样标准。这里所述的抽样标准就是年龄段的占比,当然,实际应用中,其抽样标准可以根据情况自行确定,只要反映抽样的合理性即可。
步骤206:将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合,为所述对应的内部主体生成新的画像标签,所述新的画像标签包括所述获取的外部主体的画像标签和对应的内部主体的画像标签。
如上所述,假设购物平台匹配的内部主体画像标签包括:用户手机号、年龄段、性别、购物月消费等,而金控公司对应的外部主体画像标签包括:用户手机号、金融偏好、是否有房产、是否有车等。那么,经过融合,新的画像标签包括:用户手机号、年龄段、性别、购物月消费、金融偏好、是否有房产、是否有车等。也就是说,融合后的新画像标签可以反映该用户更丰富的特征。
步骤207:根据监督学习算法并利用所述对应的内部主体新的画像标签构建画像模型。
实际应用中,根据新的画像标签的情况构建画像模型,其具体处理方式如下:
①将所述对应的内部主体新的画像标签按照标签值的情况进行分类,将标签值有两个的作为二分类画像标签,将标签值多于两个的作为多分类画像标签。
实际应用中,画像标签值通常有两个或多个,两个标签值的如表一示例,多个标签值的如表二所示:
画像标签名称 | 画像标签值 |
性别 | 男/女 |
是否有房 | 是/否 |
是否有车 | 是/否 |
… | … |
表一
表二
进行上述的分类的目的是可以按照不同类型画像标签构建不同的画像模型。
②对于对应的内部主体所拥有的二分类画像标签,根据二分类监督学习算法构建二分类画像模型。
③对于对应的内部主体所拥有的多分类画像标签,根据多分类监督学习算法构建多分类画像模型。
本领域技术人员了解,监督学习算法可以建立二分类或者多分类模型,将画像标签事先分类,有利用建立不同类型的模型。当然,如果实际应用中仅有二分类或者仅有多分类,则无需进行分类,可以直接建模。
与实施例一步骤103描述的相同,本申请实施例中监督学习算法包括有逻辑回归、随机森林、GBDT、xgboost、神经网络、支持向量机、最近邻居法、高斯混合模型、朴素贝叶斯方法、决策树和径向基函数分类等。
步骤208:针对其他内部主体的每一个内部主体,将该内部主体原有的画像标签作为所述画像模型的输入,将经过所述画像模型计算得到的结果作为画像模型的输出,并将所述画像模型的输出作为扩展的画像标签。
本步骤是根据构建的画像模型为其他主体生成扩展的画像标签的具体方法。本实施例的步骤206已经为匹配的内部主体生成了新的画像标签,但还没有为其他内部主体生成新的画像标签。由于仅引入了少量的外部主体画像标签数据条,其他内部主体并没有扩展画像标签的直接基础。本实施例步骤207构建了画像模型,该模型可以反映特征和研究目标之间的对应关系。由于引入的外部主体画像标签和匹配的内部主体画像标签符合这种对应关系,那么有理由认为其他内部主体画像标签也符合这种对应关系。比如:匹配的内部主体在年龄段为30~40岁且为女性的情况下,有较大概率对应了低风险理财这样的画像标签值,那么可以说明这一年龄段的女性有一定经济实力,但是投资比较保守。按照这样的对应关系,构建的画像模型针对其他年龄段在30~40岁且为女性的内部主体,都可为其设置具有低风险理财的画像标签值。即:将内部主体原有的画像标签比如“年龄段(30~40岁)”和“性别(女)”作为输入,经过画像模型的计算,其结果为“金融偏好(低风险理财)”,并作为扩展的画像标签。按照这种方法,可以得到需要扩展的所有画像标签。
需要说明的是,实际应用中,可以根据情况构建不同的画像模型分别得到需要扩展的画像标签。比如可以为“金融偏好”建立画像模型,也可以同时为“是否有房”再建立另一个画像模型。具体建立几个画像模型,或者根据哪些画像标签来建立,都可以由实际情况确定。但不管是哪种情况,都是利用监督学习算法并利用匹配对应的内部主体新的画像标签来构建。
步骤209:所述对应的内部主体的新的画像标签和所述其他内部主体的新的画像标签构成所有内部主体的画像。
这时,不管是对应的内部主体,还是其他内部主体,都已经扩展了画像标签,生成了新的画像标签,那么也就生成了更为丰富的画像。同样,本实施例二利用已经存在的画像标签,而不是从最基础的底层数据进行处理,大大缩短主体画像开发周期,提高了工作效率,节约了资源。
上述方法实施例二仅以一个外部系统为例进行了描述。实际应用中,外部主体的画像标签数据条还可以来自不同外部系统。比如,存在内部系统A、外部系统B和外部系统C。其中,内部系统A可以按照上述实施例方法获得外部系统B的画像标签,还可以按照同样的方法获得外部系统C的画像标签。
这种情况下,内部系统A可以用如下两种方法处理:
第一种:在步骤206中,内部系统A可以将获取的不同外部系统的主体画像标签分别和对应的内部主体画像标签进行融合,分别为所述对应的内部主体生成不同的新的画像标签,所述新的画像标签包括所述获取的不同外部系统的主体画像标签和对应的内部主体的画像标签。比如:仍然假设购物平台匹配的内部主体画像标签包括:用户手机号、年龄段、性别、购物月消费等,而某个金控公司的外部主体画像标签包括:用户手机号、金融偏好、是否有房产、是否有车、资产额度等,同时另一个医疗机构的外部主体画像标签包括:用户手机号、年龄段、健康状况、资产额度等。那么,经过融合,新的画像标签包括:用户手机号、年龄段、性别、购物月消费、金融偏好、是否有房产、是否有车、健康状况等。这种方法其他步骤与实施例二相同。
第二种,在步骤206中,内部系统A可以将获取的不同外部系统的主体画像标签分别和对应的内部主体画像标签进行融合,分别为所述对应的内部主体生成新的画像标签。比如:仍然假设购物平台匹配的内部主体画像标签包括:用户手机号、年龄段、性别、购物月消费等,而某个金控公司的外部主体画像标签包括:用户手机号、金融偏好、是否有房产、是否有车、资产额度等,同时另一个医疗机构的外部主体画像标签包括:用户手机号、年龄段、健康状况、资产额度等。那么,购物平台的主体画像标签和金控公司的主体画像标签融合,得到新的画像标签包括:用户手机号、年龄段、性别、购物月消费、金融偏好、是否有房产、是否有车、资产额度等。同时,购物平台的主体画像标签和医疗机构的画像标签融合,得到新的画像标签包括:用户手机号、年龄段、健康状况、资产额度等。相应地,步骤207会根据监督学习算法并利用所述新的画像标签分别构建与不同外部系统对应的画像模型,比如构建与金控公司对应的画像模型,并构建与医疗机构构建的画像模型。相应地,在步骤208中,针对除了对应的内部主体的其他内部主体,根据构建的不同外部系统对应的画像模型为其分别生成不同的扩展画像标签,根据事先设置的权重获得最终的扩展画像标签。比如,步骤207中分别生成了画像模型1和画像模型2,利用画像模型1为内部主体扩展出画像标签“资产额度X”,利用画像模型2为内部主体扩展出画像标签“资产额度Y”。这种情况下,假设事先为画像模型1设置权重0.8,为画像模型1设置权重0.2,那么根据权重计算得到最终的扩展画像标签“资产额度”的值为:资产额度X*0.8+资产额度Y*0.2。如果需要扩展其他的画像标签,也可以按照方式实现。
按照上述实施例可以为主体生成画像,实际应用中,还可以验证所生成画像的质量。验证方法可以根据不同类型的画像标签采用不同的方式。比如,事实类的画像标签可以进行交叉验证,将内部系统的扩展的主体画像标签和外部系统相应的主体画像标签对比,根据对比结果判断画像质量。比如:内部系统A构建画像模型并为某个主体S扩展了某个事实类标签“性别”为“男”,而外部系统B相应的主体S的事实类标签“性别”却为“女”,则说明画像不准确。其他类型的画像标签也可以进行验证,比如统计类画像标签可以通过抽样的方式验证等。验证后,如果没有达到预先设置的要求,可以对画像模型进行迭代优化处理。
本申请还提供一种主体画像生成的装置,如图3所示,该装置包括:获取模块301、融合模块302、建模模块303、扩展模块304,其中:
获取模块301,用于获取外部主体的画像标签数据条,外部主体画像标签数据条包含至少一个外部主体画像标签,所述外部主体画像标签用于表示所属的该外部主体的特征。
融合模块302,用于将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合,为所述对应的内部主体生成新的画像标签,所述新的画像标签包括所述获取的外部主体的画像标签和对应的内部主体的画像标签。
建模模块303,用于根据监督学习算法并利用所述对应的内部主体新的画像标签构建画像模型。
扩展模块304,用于针对除了对应的内部主体的其他内部主体,根据构建的画像模型为其生成扩展的画像标签,将所述扩展的画像标签和所述其他内部主体的画像标签融合,为所述其他内部主体生成新的画像标签;所述对应的内部主体的新的画像标签和所述其他内部主体的新的画像标签构成所有内部主体的画像。
图4是获取模块301中的内部结构示意图,如图4所示,该获取模块301包括抽样模块3011、匹配模块3012、输入模块3013。其中:
抽样模块3011,用于根据分层抽样法对自身已有的内部主体进行随机抽样,获得待匹配的内部主体的画像标签数据条。
匹配模块3012,用于将所述待匹配的内部主体画像标签数据条和外部主体的画像标签数据条进行匹配,确定匹配成功的外部主体的画像标签数据条和对应的内部主体的画像标签数据条。
输入模块3013,用于输入所述匹配成功的外部主体的画像标签数据条。
在图4中,获取模块301还可以进一步包括输入检验模块305和输入判别模块306,其中:
输入检验模块305,用于根据事先指定的画像标签检验所述匹配成功的外部主体的画像标签数据条。
输入判别模块306,用于根据输入检验模块的验证结果判断是否满足事先设置的抽样标准,如果满足,则触发所述融合模块执行;否则,触发所述抽样模块重新执行。
也就是说,抽样模块3011根据分层抽样法对自身已有的内部主体进行随机抽样,获得待匹配的内部主体的画像标签数据条;匹配模块3012将所述待匹配的内部主体画像标签数据条和外部主体的画像标签数据条进行匹配,确定匹配成功的外部主体的画像标签数据条和对应的内部主体的画像标签数据条;输入模块3013输入所述匹配成功的外部主体的画像标签数据条;输入检验模块305根据事先指定的画像标签检验所述匹配成功的外部主体的画像标签数据条;输入判别模块306根据输入检验模块的验证结果判断是否满足事先设置的抽样标准,如果满足,则触发所述融合模块执行;否则,触发所述抽样模块3011重新执行。融合模块302将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合,为所述对应的内部主体生成新的画像标签,所述新的画像标签包括所述获取的外部主体的画像标签和对应的内部主体的画像标签。建模模块303根据监督学习算法并利用所述对应的内部主体新的画像标签构建画像模型。扩展模块304,用于针对除了对应的内部主体的其他内部主体,根据构建的画像模型为其生成扩展的画像标签,将所述扩展的画像标签和所述其他内部主体的画像标签融合,为所述其他内部主体生成新的画像标签;所述对应的内部主体的新的画像标签和所述其他内部主体的新的画像标签构成所有内部主体的画像。
本申请实施例还提供一种计算机可读介质,所述计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如上所述的主体画像的方法步骤。实际应用中,所述的计算机可读介质可以为RAM、ROM、EPROM、磁盘、光盘等等,并不用于限制本申请保护的范围。
如图5所示,本申请实施例还提供一种电子设备,该电子设备包括上述计算机可读介质501,还包括可执行所述计算机可读存储介质的处理器502。实际应用中,该电子设备可以是一台或多台计算机,只要包括上述计算机可读介质和处理器即可。
应用本申请上述各实施例方案,由于直接利用已有的内部主体的画像标签和外部主体的画像标签重新生成主体画像,并不从最基础的数据开始进行归纳和分析,可以大大提高主体画像生成的效率,节约资源。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (12)
1.一种主体画像生成的方法,其特征在于,该方法包括:
获取外部主体的画像标签数据条,外部主体画像标签数据条包含至少一个外部主体画像标签,所述外部主体画像标签用于表示所属的该外部主体的特征;
将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合,为所述对应的内部主体生成新的画像标签,所述新的画像标签包括所述获取的外部主体的画像标签和对应的内部主体的画像标签;
根据监督学习算法并利用所述对应的内部主体新的画像标签构建画像模型;
针对除了对应的内部主体的其他内部主体,根据构建的画像模型为其生成扩展的画像标签,将所述扩展的画像标签和所述其他内部主体的画像标签融合,为所述其他内部主体生成新的画像标签;
所述对应的内部主体的新的画像标签和所述其他内部主体的新的画像标签构成所有内部主体的画像。
2.根据权利要求1所述的方法,其特征在于,所述获取外部主体的画像标签数据条的步骤包括:
根据分层抽样法对自身已有的内部主体进行随机抽样,获得待匹配的内部主体的画像标签数据条;
将所述待匹配的内部主体画像标签数据条和外部主体的画像标签数据条进行匹配,确定匹配成功的外部主体的画像标签数据条和对应的内部主体的画像标签数据条;
输入所述匹配成功的外部主体的画像标签数据条。
3.根据权利要求2所述的方法,其特征在于,所述获取匹配成功的外部主体的画像标签数据条的步骤和所述将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合的步骤之间还进一步包括:
根据事先设置的抽样标准验证所述匹配成功的内部主体的画像标签数据条;
根据验证结果判断是否满足所述抽样标准,如果满足,则继续执行所述将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合的步骤;否则,返回所述根据分层抽样法对自身已有的内部主体进行随机抽样的步骤。
4.根据权利要求1所述的方法,其特征在于,所述根据监督学习算法并利用所述对应的内部主体新的画像标签构建画像模型的步骤包括:
将所述对应的内部主体新的画像标签按照标签值的情况进行分类,将标签值有两个的作为二分类画像标签,将标签值多于两个的作为多分类画像标签;
对于对应的内部主体所拥有的二分类画像标签,根据二分类监督学习算法构建二分类画像模型;
对于对应的内部主体所拥有的多分类画像标签,根据多分类监督学习算法构建多分类画像模型。
5.根据权利要求1所述的方法,其特征在于,所述根据构建的画像模型为其生成扩展的画像标签的步骤包括:
针对所述其他内部主体的每一个内部主体,将该内部主体原有的画像标签作为所述画像模型的输入,将经过所述画像模型计算得到的结果作为画像模型的输出,并将所述画像模型的输出作为扩展的画像标签。
6.根据权利要求5所述的方法,其特征在于,所述外部主体的画像标签数据条是来自不同外部系统的主体画像标签数据条,所述将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合,为所述对应的内部主体生成新的画像标签的步骤包括:
将获取的不同外部系统的主体画像标签和对应的内部主体的画像标签进行融合,为所述对应的内部主体生成新的画像标签,所述新的画像标签包括所述获取的不同外部系统的主体画像标签和对应的内部主体的画像标签。
7.根据权利要求5所述的方法,其特征在于,所述外部主体的画像标签数据条是来自不同外部系统的主体画像标签数据条,所述将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合,为所述对应的内部主体生成新的画像标签的步骤包括:
将获取的不同外部系统的主体画像标签分别和对应的内部主体画像标签进行融合,分别为所述对应的内部主体生成新的画像标签;
所述根据监督学习算法并利用所述对应的内部主体新的画像标签构建画像模型的步骤为:根据监督学习算法并利用所述新的画像标签分别构建与不同外部系统对应的画像模型;
所述针对除了对应的内部主体的其他内部主体,根据构建的画像模型为其生成扩展的画像标签的步骤包括:
针对除了对应的内部主体的其他内部主体,根据构建的不同外部系统对应的画像模型为其分别生成不同的扩展画像标签,根据事先设置的权重获得最终的扩展画像标签。
8.一种主体画像生成的装置,其特征在于,该装置包括:
获取模块,用于获取外部主体的画像标签数据条,外部主体画像标签数据条包含至少一个外部主体画像标签,所述外部主体画像标签用于表示所属的该外部主体的特征;
融合模块,用于将获取的外部主体的画像标签和对应的内部主体的画像标签进行融合,为所述对应的内部主体生成新的画像标签,所述新的画像标签包括所述获取的外部主体的画像标签和对应的内部主体的画像标签;
建模模块,用于根据监督学习算法并利用所述对应的内部主体新的画像标签构建画像模型;
扩展模块,用于针对除了对应的内部主体的其他内部主体,根据构建的画像模型为其生成扩展的画像标签,将所述扩展的画像标签和所述其他内部主体的画像标签融合,为所述其他内部主体生成新的画像标签;所述对应的内部主体的新的画像标签和所述其他内部主体的新的画像标签构成所有内部主体的画像。
9.根据权利要求8所述的装置,其特征在于,所述获取模块包括:
抽样模块,用于根据分层抽样法对自身已有的内部主体进行随机抽样,获得待匹配的内部主体的画像标签数据条;
匹配模块,用于将所述待匹配的内部主体画像标签数据条和外部主体的画像标签数据条进行匹配,确定匹配成功的外部主体的画像标签数据条和对应的内部主体的画像标签数据条;
输入模块,用于输入所述匹配成功的外部主体的画像标签数据条。
10.根据权利要求9所述的装置,其特征在于,该装置进一步包括:
输入检验模块,用于根据事先指定的画像标签检验所述匹配成功的外部主体的画像标签数据条;
输入判别模块,用于根据输入检验模块的验证结果判断是否满足事先设置的抽样标准,如果满足,则触发所述融合模块执行;否则,触发所述抽样模块重新执行。
11.一种计算机可读存储介质,所述计算机可读存储介质存储指令,其特征在于,所述指令在由处理器执行时使得所述处理器执行如权利要求1~7任一项所述的主体画像生成的方法的步骤。
12.一种电子设备,其特征在于,该电子设备包括如权利要求11所述的计算机可读存储介质,还包括可执行所述计算机可读存储介质的处理器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910237636.0A CN111752985A (zh) | 2019-03-27 | 2019-03-27 | 一种主体画像生成的方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910237636.0A CN111752985A (zh) | 2019-03-27 | 2019-03-27 | 一种主体画像生成的方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111752985A true CN111752985A (zh) | 2020-10-09 |
Family
ID=72671394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910237636.0A Pending CN111752985A (zh) | 2019-03-27 | 2019-03-27 | 一种主体画像生成的方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111752985A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860885A (zh) * | 2021-01-13 | 2021-05-28 | 支付宝(杭州)信息技术有限公司 | 一种文本处理的方法和装置 |
-
2019
- 2019-03-27 CN CN201910237636.0A patent/CN111752985A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860885A (zh) * | 2021-01-13 | 2021-05-28 | 支付宝(杭州)信息技术有限公司 | 一种文本处理的方法和装置 |
CN112860885B (zh) * | 2021-01-13 | 2022-08-09 | 支付宝(杭州)信息技术有限公司 | 一种文本处理的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108021929B (zh) | 基于大数据的移动端电商用户画像建立与分析方法及系统 | |
CN108876600A (zh) | 预警信息推送方法、装置、计算机设备和介质 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN112989059A (zh) | 潜在客户识别方法及装置、设备及可读计算机存储介质 | |
CN113095408A (zh) | 风险的确定方法、装置和服务器 | |
CN111639690A (zh) | 基于关系图谱学习的欺诈分析方法、系统、介质及设备 | |
CN111582932A (zh) | 场景间信息推送方法、装置、计算机设备及存储介质 | |
CN112487284A (zh) | 银行客户画像生成方法、设备、存储介质及装置 | |
CN111429161A (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
CN110197426A (zh) | 一种信用评分模型的建立方法、装置及可读存储介质 | |
CN116823410B (zh) | 数据处理方法、对象处理方法、推荐方法及计算设备 | |
CN113887214A (zh) | 基于人工智能的意愿推测方法、及其相关设备 | |
CN113327132A (zh) | 多媒体推荐方法、装置、设备及存储介质 | |
CN117575773A (zh) | 业务数据的确定方法、装置、计算机设备、存储介质 | |
CN112950347A (zh) | 资源数据处理的优化方法及装置、存储介质、终端 | |
CN111931069A (zh) | 用户兴趣确定方法、装置及计算机设备 | |
CN111752985A (zh) | 一种主体画像生成的方法、装置和存储介质 | |
CN117196630A (zh) | 交易风险预测方法、装置、终端设备以及存储介质 | |
CN116821759A (zh) | 类别标签的识别预测方法、装置和处理器及电子设备 | |
CN116703515A (zh) | 基于人工智能的推荐方法、装置、计算机设备及存储介质 | |
CN111489134B (zh) | 数据模型的构建方法、装置、设备及计算机可读存储介质 | |
Li et al. | Analysis and research of retail customer consumption behavior based on support vector machine | |
CN113822691A (zh) | 用户账号的识别方法、装置、系统和介质 | |
CN111652708A (zh) | 一种应用于房屋抵押贷款产品中的风险评估方法及装置 | |
CN112115258A (zh) | 一种用户的信用评价方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |