CN109711874A - 用户画像生成方法、装置、计算机设备和存储介质 - Google Patents

用户画像生成方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109711874A
CN109711874A CN201811545329.0A CN201811545329A CN109711874A CN 109711874 A CN109711874 A CN 109711874A CN 201811545329 A CN201811545329 A CN 201811545329A CN 109711874 A CN109711874 A CN 109711874A
Authority
CN
China
Prior art keywords
data
user
portrait
characteristic
data cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811545329.0A
Other languages
English (en)
Inventor
吴元新
冯跃东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811545329.0A priority Critical patent/CN109711874A/zh
Publication of CN109711874A publication Critical patent/CN109711874A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Collating Specific Patterns (AREA)

Abstract

本申请涉及一种用户画像生成方法。涉及数据处理领域,该方法包括:从多个子系统拉取数据源;从数据源中提取数据单元,每个数据单元对应唯一的用户身份字段;识别数据单元所包含的数据类型,根据数据单元的数据类型统计对应子系统的数据类型集合;根据数据类型集合确定每个子系统对应的数据转换模型;通过数据转换模型对相应子系统中的数据单元进行特征提取,并将提取的特征数据转换成预先定义的数据格式;将多个子系统之间对应同一用户身份字段的特征数据进行合并,生成每个用户身份字段对应的特征数据集合;根据特征数据集合生成相应用户的用户画像。采用本方法能够提高用户画像的生成效率且生成的用户画像的标签覆盖率更高。

Description

用户画像生成方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种用户画像生成方法、装置、计算机设备和存储介质。
背景技术
随着电子商务的发展,客户服务面对的服务对象类型、服务人数等均在大幅增加,行业竞争日趋激烈,如何更好的为用户提供个性化服务是企业面临的难题。因此,大数据用户画像应运而生,它也称为用户角色。传统应用中都是赖人工的工作经验,通过人工打标签的方式生成用户角色,或者通过对片面数据的简单的规则判断来生成用户角色。无论是人工生成还是简单的规则化生成均存在生成效率低,标签覆盖率低等缺陷。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高用户画像的生成效率且生成的用户画像的标签覆盖率更高的用户画像生成方法、装置、计算机设备和存储介质。
一种用户画像生成方法,所述方法包括:
从多个子系统拉取数据源;
从所述数据源中提取数据单元,每个所述数据单元对应唯一的用户身份字段;
识别所述数据单元所包含的数据类型,根据所述数据单元的数据类型统计对应子系统的数据类型集合;
根据所述数据类型集合确定每个所述子系统对应的数据转换模型;
通过所述数据转换模型对相应子系统中的所述数据单元进行特征提取,并将提取的特征数据转换成预先定义的数据格式;
将所述多个子系统之间对应同一所述用户身份字段的所述特征数据进行合并,生成每个所述用户身份字段对应的特征数据集合;
根据所述特征数据集合生成相应用户的用户画像。
在一个实施例中,所述根据所述特征数据集合生成相应用户的用户画像,包括:将所述特征数据集合输入至标签生成模型中,输出所述特征数据集合对应的特征标签集合,根据所述特征数据集合与所述用户身份字段之间的对应关系,得到每个所述用户身份字段对应的特征标签集合;
根据所述特征标签集合生成相应用户的用户画像。
在一个实施例中,所述从所述数据源中提取数据单元,每个所述数据单元对应唯一的用户身份字段,包括:
将对应同一用户标识的数据组合成数据单元;
查找所述用户标识是否对应用户身份字段,若是,将所述用户身份字段与所述用户标识对应的所述数据单元关联;
若否,将所述用户标识对应的数据单元标记为待实名数据单元;
所述方法还包括:
根据所述待实名数据单元生成待实名用户的用户画像;
从所述用户画像中提取用户特征标签;
查找与所述用户特征标签相匹配的目标用户画像,将所述待实名用户的用户画像与所述目标用户画像进行合并。
在一个实施例中,所述将所述多个子系统之间对应同一所述用户身份字段的所述特征数据进行合并,包括:
当同一所述用户身份字段有两个相同维度的特征数据时,计算两个所述特征数据的相似度,若所述相似度大于设定阈值,则保留其一作为所述特征数据集中的特征数据;若所述相似度小于设定阈值,将组合两个所述特征数据,或者保留两个所述特征数据。
在一个实施例中,在通过所述数据转换模型对相应子系统中的所述数据单元进行特征提取,并将提取的特征数据转换成预先定义的数据格式之后,还包括:
调用规则模型,通过规则模型对所述特征数据进行规则校验;
将被所述规则模型命中的所述特征数据移出对应的所述数据单元。
一种用户画像生成装置,所述装置包括:
数据源拉取模块,用于从多个子系统拉取数据源;
数据单元提取模块,用于从所述数据源中提取数据单元,每个所述数据单元对应唯一的用户身份字段;
数据类型识别模块,用于识别所述数据单元所包含的数据类型,根据所述数据单元的数据类型统计对应子系统的数据类型集合;
数据转换模型确定模块,用于根据所述数据类型集合确定每个所述子系统对应的数据转换模型;
特征转换模型,用于通过所述数据转换模型对相应子系统中的所述数据单元进行特征提取,并将提取的特征数据转换成预先定义的数据格式;
特征合并模块,用于将所述多个子系统之间对应同一所述用户身份字段的所述特征数据进行合并,生成每个所述用户身份字段对应的特征数据集合;
用户画像生成模块,用于根据所述特征数据集合生成相应用户的用户画像。
在一个实施例中,所述用户画像生成模块,还用于将所述特征数据集合输入至标签生成模型中,输出相应所述用户身份字段对应的特征标签集合;根据所述特征标签集合生成相应用户的用户画像。
在一个实施例中,所述数据单元提取模块,还用于将对应同一用户标识的数据组合成数据单元;查找所述用户标识是否对应用户身份字段,若是,将所述用户身份字段与所述用户标识对应的所述数据单元关联;若否,将所述用户标识对应的数据单元标记为待实名数据单元;
所述装置还包括:用户画像合并模块,用于根据所述待实名数据单元生成待实名用户的用户画像;从所述用户画像中提取用户特征标签;查找与所述用户特征标签相匹配的目标用户画像,将所述待实名用户的用户画像与所述目标用户画像进行合并。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法的步骤。
上述用户画像生成方法、装置、计算机设备和存储介质,通过综合多个业务系统中与用户相关的数据得到的用户特征数据更加全面,基于更加全面的特征数据得到的用户特征标签能够全面地、多维度地描述用户,即生成的用户画像的标签覆盖率更高。同时为了能够使多个业务系统中不同表现形式的数据更加高效地、无障碍结合,通过数据转换模型可对不同类型的数据进行更高效的特征提取以及标准化处理,然后在基于处理过的特征数据生成用户画像,用户画像的生成过程更加高效,且实现了高效、批量地生成用户画像。
附图说明
图1为一个实施例中用户画像生成方法的应用场景图;
图2为一个实施例中用户画像生成方法的流程示意图;
图3为一个实施例中特征合并所涉及的原理图;
图4为另一个实施例中用户画像生成方法的流程示意图;
图5为一个实施例中用户画像生成装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的用户画像生成方法,可以应用于如图1所示的应用环境中。其中,服务器102和与服务器连接的多个子系统104,多个子系统104可通过网络与服务器102进行通信。其中,服务器102和子系统106均可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种用户画像生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,从多个子系统拉取数据源。
服务器关联多个子系统,每个子系统可对应一种服务。如金融服务机构一般都提供多种金融服务,一般每个金融服务对应独立的业务服务子系统,也就是金融服务机构是由多个子业务系统构成的。如金融服务机构包括投保业务系统、贷款业务系统、健康医疗业务系统、证券业务系统等。
步骤204,从数据源中提取数据单元,每个数据单元对应唯一的用户身份字段。
子系统的数据源为系统用户在办理业务时所产生的业务数据。服务器从各个子系统中拉取数据源,并逐一地对每个子系统中的数据源进行数据处理。具体为,将对应同一用户标识的业务数据组合成数据单元,即对应同一用户身份字段的数据构成了一个数据单元。用户身份字段是用户身份的唯一标识,其可以是用户唯一的身份编码(身份证号),还可以是用户姓名、性别与身份编码三个字段的组合。
举例来说,在子系统A中的数据单元包括:用户字段1-数据单元m1、用户字段2-数据单元m2…;子系统B中的数据单元包括:用户字段1-数据单元n1、用户字段2-数据单元n2…;子系统C…。
数据单元包括从数据源中出来的,对应某一个用户身份标识的各种业务数据。例如,对于贷款业务系统,数据单元可能包括业务办理时提交的表单数据、上传的人脸图像获取业务办理时上传的视频数据、指纹数据、贷款金额;健康医疗业务系统中,数据可能包括关注或者询问的医疗科室,购买的药物、申请医疗资源时上传的人脸图像、虹膜信息、上传的化验结果(pdf格式或者word格式)诊断结果等。
步骤206,对数据单元中进行数据类型识别,根据每个数据单元对应的数据类型统计对应子系统的数据类型集合。
扫描子系统的所有数据单元,得到每个数据单元所包括的数据类型,根据每个数据单元所包括的数据类型计算该子系统对应的数据类型分布,将分布占比大于设定阈值的数据类型作为子系统对应的数据类型。扫描业务系统A,得到的数据类型分布为:数据类型1:数据类型2、数据类型3、数据类型4、数据类型5…=50%、0.1%、20%、20%、2%…,基于此分布,确定业务系统A对应的数据类型集合为:数据类型1、数据类型3和数据类型4。
在另一个实施例中,还可以逐一扫描子系统数据单元,对扫描出的数据类型进行计数,当该子系统所有的数据单元都扫描完成后,根据数据类型对应的计数得到包括的所有数据类型的占比。举例来说,子系统包括数据单元1、数据单元2和数据单元3,扫描数据单元1,数据单元1包括的数据类型为:类型1、类型2、类型3和类型4,则对类型1、类型2、类型3和类型4均计数为1。接下来扫描数据单元2,数据单元2包括的数据类型包括类型1、类型2、类型4、类型5和类型6;对这些数据类型对应的计数加1。此时,类型1(2)、类型2(2)、类型3(1)、类型4(2)、类型5(1)、类型6(1)。再接下来扫描数据单元3,数据类型3包括类型1、类型2、类型3、类型4和数据类型5,此时类型1(3)、类型2(3)、类型3(2)、类型4(3)、类型5(2)、类型6(1)。去除计数较小的类型6,最终该子系统对应的数据类型集合包括类型1、类型2、类型3、类型4和类型5。还可以去除计数较小的类型6、类型3和类型5,相应的该子系统对应的数据类型集合包括类型1、类型2、类型4。
数据类型包括按照数据的表现形式划分的、按照数据的记录形式划分的、以及人的生物特征数据。其中按照表现形式划分的数据类型可以包括:数字数据:如文字、数字;模拟数据:如声音、图像、视频;按照数据的记录形式划分的数据类型包括:表格、票据、地图;人的生物特征数据包括指纹、虹膜、声纹、脉搏等。
步骤208,根据数据类型集合确定每个子系统的数据转换模型。
预先定义每种数据类型对应的标准化格式,然后针对每种数据类型定义数据转换模型。每个子系统对应一组数据类型,获取每个数据类型对应的数据转换模型,组合每个数据类型对应的数据转换模型得到该子系统对应的数据转换模型。如业务系统A对应的数据类型集合包括表格、视频和图像,分别获取表格转换模型、视频转换模型和图像转换模型。表格转换模型、视频转换模型和图像转换模型构成了业务系统A的数据转换模型。
其中,数据转换模型用于从数据中提取特征数据,并对特征数据进行标准化处理。例如将特征数据从非结构化数据转换成结构化数据;或者从表格、票据、地图中提取特征数据,并将特征数据转换成定义的标准化格式。
如“单据”类型、“图像”类型对应的数据转换模型可以是通过OCR(OpticalCharacter Recognition,光学字符识别算法)和LSTM(Long Short-Term Memory,长短期记忆网络)结合构建的神经网络模型。
如“语音”类型对应的数据转换模型是通过LSTM(Long Short-Term Memory,长短期记忆网络)结合构建的神经网络模型,用于将语音模拟数据转化成文字、数字数据,即进行标准化。又如,通过机器学习模型识别人脸图像数据,提取人脸图像中的特征像素,将特征像素转换成特征向量,即将人脸图像数据转换成特征向量。再如,通过机器学习模型识别指纹数据,提取纹形(由特征点集构成)和纹数,将指纹数据标准化成线形数据和数字数据的等。
步骤210,通过数据转换模型对相应数据单元中的数据进行特征提取,并将提取的特征转换成预先定义的数据格式。
子系统对应的数据转化模型是多个数据转换模型的集合,可对该系统中的数据单元中的数据类型进行针对性的数据转化。数据转化后的数据单元中包括转化后的特征数据。
本实施例中,通过子系统每个数据单元所包括的数据类型,统计该子系统包括的数据类型规律,得到每个子系统对应的数据类型集合。不同的子系统之间所包含的数据类型具有很大的区别。基于子系统对应的数据类型集合选取数据转化器,可保证数据转化器最大限度的与该子系统的数据类型相符合,实现了对子系统中众多数据单元中的众多数据类型进行了高效、准确地转换。
步骤212,将多个子系统之间对应同一用户身份字段的特征数据进行合并,生成每个用户身份字段对应的特征数据集合。
将标准化后的系统间的数据单元进行合并,将对应同一用户身份字段的数据单元进行合并。如图3所示,业务系统A和业务系统B均包括对应用户身份标识字段120225123456的数据单元,则将业务系统A和业务系统B中的对应同一用户身份字段120225123456的两个数据单元进行合并。业务系统A和业务系统B合并后,在将合并后的数据单元与下一个业务系统中的数据单元进行合并,直至合并完所有的业务系统。
合并后每个用户身份字段对应的特征数据集合中的特征数据来源于多个业务系统,也就是说,合并后每个用户身份字段对应的特征数据集合包括更加全面的用户基本特征数据和用户业务数据。
如从业务系统A识别出某一个用户的指纹数据、投保数据,从业务系统B识别出该用户的人脸图像数据、健康数据,从业务系统C中识别出该用户的虹膜数据、人脸图像数据、声纹数据、贷款数据。综合所有业务系统可得到全面的用户数据。
进一步的,将来自于多个子系统的数据单元中的特征数据进行合并时,若来组不同的系统的特征数据是相同维度的特征数据,则判断两个特征数据是否相同(如相似度大于设定值)。若是,则保留其中一个作为用户数据;若否(相似度小于设定值),则判断两个特征是否互相补充。若是,则组合两个特征数据;若否,则保留两个特征数据。
举例来说,如业务系统A和业务系统B的对应用户u的两个数据单元进行组合时,出现两个相似度小于设定值的用户人脸图像(一个用户整容前的人脸头像,另一个是用户整容后的人脸头像)则保留两个人脸头像。再如业务系统A和业务系统B的对应用户u的两个数据单元进行组合时,出现两个相似度极高的指纹特征,则只保留一个。
步骤214,根据特征数据集合生成相应用户的用户画像。
用户画像是用户的多维度的特征标签的集合。从用户特征数据集合中提取用户特征标签,用户特征标签构成了该用户的用户画像。用户画像包括用户基本特征标签和多维度业务特征标签。用户的基本特征标签包括用户姓名、性别、年龄、人脸图像、声纹、指纹、虹膜等。多维度业务特征标签是从多个子系统的业务数据中提取出来的标签。
本实施例中,综合多个业务系统中与用户相关的数据得到的用户特征数据更加全面,基于更加全面的特征数据得到的用户特征标签能够全面地、多维度地描述用户。此外,不同的业务系统数据表现形式,为了能够使多个业务系统中不同表现形式的数据无障碍结合,通过数据转换模型对不同类型的数据进行特征提取以及标准化处理。特征识别以及数据标准化的过程不仅确保了数据的无障碍融合,而且避免了在进行标签模型的特征提取过程,节省了模型预测时间。
在一个实施例中,步骤214,步骤214,根据特征数据集合生成相应用户的用户画像,包括:将特征数据集合输入至标签生成模型中,输出特征数据集合对应的特征标签集合,根据特征数据集合与用户身份字段之间的对应关系,得到每个用户身份字段对应的特征标签集合,根据特征标签集合生成相应用户的用户画像。
标签生成模型可以是机器学习模型,也可以是规则模型。
若标签生成模型是机器学习模型,则预先训练机器学习模型。具体构建方法为:采用上一个实施例中的方法,生成得到步骤214中的特征数据集。将这些特征数据集中的一部分作为训练样本。人工根据特征数据集标注特征标签。将特征数据集作为模型的输入,特征数据集对应的特征标签为模型的输出,有监督训练选定的机器学习模型,确定模型的变量得到标签生成模型。
若标签生成模型是规则模型,则预先定义规则模型。首先定义特征标签,并定义每个特征标签对应的判别规则。如交易金额大于设定阈值,则对应标签1,交易金额小于设定阈值,则对应标签2。
本实施例中,将每个用户身份字段对应的特征数据集合输入到标签生成模型中,标签生成模型输出该用户身份字段对应的特征标签集合,这些特征标签集合即构成了用户画像。通过标签生成模型,可更加高效的进行海量的特征标签集合分析,更加高效地得到海量用户的用户画像。
在一个实施例中,如图4所示,提供了一种用户画像生成方法,具体包括如下步骤:
步骤402,从多个子系统拉取数据源。
步骤404,将对应同一用户标识的数据组合成数据单元,查找用户标识是否对应用户身份字段,若是,将用户身份字段与对应的数据单元关联;若否,将用户标识对应的数据单元标记为待实名数据单元。
用户标识是用户注册时自定义的标识,用户身份字段是描述用户身份的唯一标识,是固定的。一般用户注册时,都会上传用户身份信息进行实名认证。但有些通过快速通道注册的用户,可能并未进行实名认证,也就出现了有的用户标识对应有用户身份字段,而有些用户标识则没有。
对于带有用户身份字段的用户标识,将用户标识对应的数据单元与用户身份字段关联,标记为实名数据单元。对于没有带有用户身份字段的用户标识对应的数据单元,标记为待实名数据单元。
基于上述描述,每个子系统包括实名数据单元和待实名数据单元。
步骤406,获取子系统对应的数据转换模型,数据转换模型对数据单元进行特征提取,将将提取的数据特征转换成预先定义的数据格式。
在第一次进行用户画像生成时,需要根据数据单元的数据类型确定每个子系统对应的数据转换模型。确定后,再次进行用户画像生成时,直接获取子系统对应的数据转换模型即可。
数据转换模型对子系统中的所有实名数据单元和所有待实名数据单元进行特征识别以及数据格式转化。
进一步的,对实名数据单元和非实名数据单元中的数据特征化后,还执行如下步骤:调用规则模型,通过规则模型对特征数据进行规则校验;将被规则模型命中的特征数据移出对应的数据单元。通过规则模型将不符合设定规则的特征数据进行删除。如将特征信息量较少的特征数据移出。将特征数据明显不符合自然规律的移出。可根据实际需要定义规则模型中的规则,进而将不符合设定规则的特征数据移出。
步骤408,将多个子系统之间对应同一用户身份字段的特征数据进行合并,生成每个用户身份字段对应的特征数据集合。
此步骤,仅将实名数据单元对应的特征数据进行系统间合并。待实名数据单元对应的特征数据作为独立的特征数据。将合并的特征数据集关联对应的用户身份表示,待实名的数据单元对应的特征数据为待实名特征数据。
步骤410,将特征数据集合输入至标签生成模型中,得到相应用户身份字段对应的用户画像,将待实名特征数据输入至标签生成模型中,得到待实名用户对应的用户画像。
步骤412,从用户画像中提取用户特征标签,查找与用户特征标签相匹配的目标用户画像,将待实名用户的用户画像与目标用户画像进行合并。
从待实名用户的用户画像中提取待实名用户的用户特征标签,包括人脸图像、声纹、指纹等用户特征信息。基于待实名用户的数据单元生成用户画像时,需要从数据单元中的数据中提取各种特征信息,其中可能包括用户画像,用户的声纹、指纹。例如虽然用户注册时未进行识别任务,但用户在办理业务时上传的人脸图像,录制的语音视频等。通过这些数据可以提取到用户的特征信息。
从待实名用户画像中提取待实名用户的用户特征信息,并查找是否存在带有相同用户特征信息的目标用户画像,如实名的用户画像带有与未实名用户画像相同的用户特征信息,如用户主体的人脸图像相似度超过设定阈值,性别、年龄且声纹相匹配,则待实名用户画像与目标用户画像对应同一人,此时,将目标用户画像与待实名用户画像进行合并。
本实施例中,通过特征识别和特征匹配,使得无名的业务数据也能够为用户画像的构建贡献信息,进一步确保了构建的用户画像的完整性。
应该理解的是,虽然图2和图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种用户画像生成装置,该装置包括:
数据源拉取模块502,用于从多个子系统拉取数据源。
数据单元提取模块504,用于从所述数据源中提取数据单元,每个所述数据单元对应唯一的用户身份字段。
数据类型识别模块506,用于识别所述数据单元所包含的数据类型,根据所述数据单元的数据类型统计对应子系统的数据类型集合。
数据转换模型确定模块508,用于根据所述数据类型集合确定每个所述子系统对应的数据转换模型。
特征转换模型510,用于通过所述数据转换模型对相应子系统中的所述数据单元进行特征提取,并将提取的特征数据转换成预先定义的数据格式。
特征合并模块512,用于将所述多个子系统之间对应同一所述用户身份字段的所述特征数据进行合并,生成每个所述用户身份字段对应的特征数据集合。
用户画像生成模块514,用于根据所述特征数据集合生成相应用户的用户画像。
在一个实施例中,所述用户画像生成模块514,还用于将所述特征数据集合输入至标签生成模型中,输出所述特征数据集合对应的特征标签集合,根据所述特征数据集合与所述用户身份字段之间的对应关系,得到每个所述用户身份字段对应的特征标签集合,根据所述特征标签集合生成相应用户的用户画像。
在一个实施例中,所述数据单元提取模块504,还用于将对应同一用户标识的数据组合成数据单元;查找所述用户标识是否对应用户身份字段,若是,将所述用户身份字段与所述用户标识对应的所述数据单元关联;若否,将所述用户标识对应的数据单元标记为待实名数据单元;
用户画像生成装置还包括:用户画像合并模块,用于根据所述待实名数据单元生成待实名用户的用户画像;从所述用户画像中提取用户特征标签;查找与所述用户特征标签相匹配的目标用户画像,将所述待实名用户的用户画像与所述目标用户画像进行合并。
在一个是实例中,特征合并模块512,还用于当同一所述用户身份字段有两个相同维度的特征数据时,计算两个所述特征数据的相似度,若所述相似度大于设定阈值,则保留其一作为所述特征数据集中的特征数据;若所述相似度小于设定阈值,将组合两个所述特征数据,或者保留两个所述特征数据。
在一个实施例中,用户画像生成装置还包括特征移出模块,用于调用规则模型,通过规则模型对所述特征数据进行规则校验;将被所述规则模型命中的所述特征数据移出对应的所述数据单元。
关于用户画像生成装置的具体限定可以参见上文中对于用户画像生成方法的限定,在此不再赘述。上述用户画像生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据转换模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户画像生成方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:从多个子系统拉取数据源;从所述数据源中提取数据单元,每个所述数据单元对应唯一的用户身份字段;识别所述数据单元所包含的数据类型,根据所述数据单元的数据类型统计对应子系统的数据类型集合;根据所述数据类型集合确定每个所述子系统对应的数据转换模型;通过所述数据转换模型对相应子系统中的所述数据单元进行特征提取,并将提取的特征数据转换成预先定义的数据格式;将所述多个子系统之间对应同一所述用户身份字段的所述特征数据进行合并,生成每个所述用户身份字段对应的特征数据集合;根据所述特征数据集合生成相应用户的用户画像。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将所述特征数据集合输入至标签生成模型中,输出所述特征数据集合对应的特征标签集合,根据所述特征数据集合与所述用户身份字段之间的对应关系,得到每个所述用户身份字段对应的特征标签集合,根据所述特征标签集合生成相应用户的用户画像。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将对应同一用户标识的数据组合成数据单元;查找所述用户标识是否对应用户身份字段,若是,将所述用户身份字段与所述用户标识对应的所述数据单元关联;若否,将所述用户标识对应的数据单元标记为待实名数据单元;
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据所述待实名数据单元生成待实名用户的用户画像;从所述用户画像中提取用户特征标签;查找与所述用户特征标签相匹配的目标用户画像,将所述待实名用户的用户画像与所述目标用户画像进行合并。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当同一所述用户身份字段有两个相同维度的特征数据时,计算两个所述特征数据的相似度,若所述相似度大于设定阈值,则保留其一作为所述特征数据集中的特征数据;若所述相似度小于设定阈值,将组合两个所述特征数据,或者保留两个所述特征数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:调用规则模型,通过规则模型对所述特征数据进行规则校验;将被所述规则模型命中的所述特征数据移出对应的所述数据单元。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:从多个子系统拉取数据源;从所述数据源中提取数据单元,每个所述数据单元对应唯一的用户身份字段;识别所述数据单元所包含的数据类型,根据所述数据单元的数据类型统计对应子系统的数据类型集合;根据所述数据类型集合确定每个所述子系统对应的数据转换模型;通过所述数据转换模型对相应子系统中的所述数据单元进行特征提取,并将提取的特征数据转换成预先定义的数据格式;将所述多个子系统之间对应同一所述用户身份字段的所述特征数据进行合并,生成每个所述用户身份字段对应的特征数据集合;根据所述特征数据集合生成相应用户的用户画像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将所述特征数据集合输入至标签生成模型中,输出所述特征数据集合对应的特征标签集合,根据所述特征数据集合与所述用户身份字段之间的对应关系,得到每个所述用户身份字段对应的特征标签集合,根据所述特征标签集合生成相应用户的用户画像。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将对应同一用户标识的数据组合成数据单元;查找所述用户标识是否对应用户身份字段,若是,将所述用户身份字段与所述用户标识对应的所述数据单元关联;若否,将所述用户标识对应的数据单元标记为待实名数据单元;
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据所述待实名数据单元生成待实名用户的用户画像;从所述用户画像中提取用户特征标签;查找与所述用户特征标签相匹配的目标用户画像,将所述待实名用户的用户画像与所述目标用户画像进行合并。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当同一所述用户身份字段有两个相同维度的特征数据时,计算两个所述特征数据的相似度,若所述相似度大于设定阈值,则保留其一作为所述特征数据集中的特征数据;若所述相似度小于设定阈值,将组合两个所述特征数据,或者保留两个所述特征数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:调用规则模型,通过规则模型对所述特征数据进行规则校验;将被所述规则模型命中的所述特征数据移出对应的所述数据单元。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种用户画像生成方法,所述方法包括:
从多个子系统拉取数据源;
从所述数据源中提取数据单元,每个所述数据单元对应唯一的用户身份字段;
识别所述数据单元所包含的数据类型,根据所述数据单元的数据类型统计对应子系统的数据类型集合;
根据所述数据类型集合确定每个所述子系统对应的数据转换模型;
通过所述数据转换模型对相应子系统中的所述数据单元进行特征提取,并将提取的特征数据转换成预先定义的数据格式;
将多个子系统之间对应同一所述用户身份字段的所述特征数据进行合并,生成每个所述用户身份字段对应的特征数据集合;
根据所述特征数据集合生成相应用户的用户画像。
2.根据权利要求1所述的方法,其特征在于,所述根据所述特征数据集合生成相应用户的用户画像,包括:
将所述特征数据集合输入至标签生成模型中,输出所述特征数据集合对应的特征标签集合,根据所述特征数据集合与所述用户身份字段之间的对应关系,得到每个所述用户身份字段对应的特征标签集合;
根据所述特征标签集合生成相应用户的用户画像。
3.根据权利要求1所述的方法,其特征在于,所述从所述数据源中提取数据单元,每个所述数据单元对应唯一的用户身份字段,包括:
将对应同一用户标识的数据组合成数据单元;
查找所述用户标识是否对应用户身份字段,若是,将所述用户身份字段与所述用户标识对应的所述数据单元关联;
若否,将所述用户标识对应的数据单元标记为待实名数据单元;
所述方法还包括:
根据所述待实名数据单元生成待实名用户的用户画像;
从所述用户画像中提取用户特征标签;
查找与所述用户特征标签相匹配的目标用户画像,将所述待实名用户的用户画像与所述目标用户画像进行合并。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述将所述多个子系统之间对应同一所述用户身份字段的所述特征数据进行合并,包括:
当同一所述用户身份字段有两个相同维度的特征数据时,计算两个所述特征数据的相似度,若所述相似度大于设定阈值,则保留其一作为所述特征数据集中的特征数据;若所述相似度小于设定阈值,将组合两个所述特征数据,或者保留两个所述特征数据。
5.根据权利要求1所述的方法,其特征在于,在通过所述数据转换模型对相应子系统中的所述数据单元进行特征提取,并将提取的特征数据转换成预先定义的数据格式之后,还包括:
调用规则模型,通过规则模型对所述特征数据进行规则校验;
将被所述规则模型命中的所述特征数据移出对应的所述数据单元。
6.一种用户画像生成装置,其特征在于,所述装置包括:
数据源拉取模块,用于从多个子系统拉取数据源;
数据单元提取模块,用于从所述数据源中提取数据单元,每个所述数据单元对应唯一的用户身份字段;
数据类型识别模块,用于识别所述数据单元所包含的数据类型,根据所述数据单元的数据类型统计对应子系统的数据类型集合;
数据转换模型确定模块,用于根据所述数据类型集合确定每个所述子系统对应的数据转换模型;
特征转换模型,用于通过所述数据转换模型对相应子系统中的所述数据单元进行特征提取,并将提取的特征数据转换成预先定义的数据格式;
特征合并模块,用于将所述多个子系统之间对应同一所述用户身份字段的所述特征数据进行合并,生成每个所述用户身份字段对应的特征数据集合;
用户画像生成模块,用于根据所述特征数据集合生成相应用户的用户画像。
7.根据权利要求6所述的装置,其特征在于,所述用户画像生成模块,还用于将所述特征数据集合输入至标签生成模型中,输出所述特征数据集合对应的特征标签集合,根据所述特征数据集合与所述用户身份字段之间的对应关系,得到每个所述用户身份字段对应的特征标签集合;根据所述特征标签集合生成相应用户的用户画像。
8.根据权利要求6所述的装置,其特征在于,所述数据单元提取模块,还用于将对应同一用户标识的数据组合成数据单元;查找所述用户标识是否对应用户身份字段,若是,将所述用户身份字段与所述用户标识对应的所述数据单元关联;若否,将所述用户标识对应的数据单元标记为待实名数据单元;
所述装置还包括:用户画像合并模块,用于根据所述待实名数据单元生成待实名用户的用户画像;从所述用户画像中提取用户特征标签;查找与所述用户特征标签相匹配的目标用户画像,将所述待实名用户的用户画像与所述目标用户画像进行合并。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201811545329.0A 2018-12-17 2018-12-17 用户画像生成方法、装置、计算机设备和存储介质 Pending CN109711874A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811545329.0A CN109711874A (zh) 2018-12-17 2018-12-17 用户画像生成方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811545329.0A CN109711874A (zh) 2018-12-17 2018-12-17 用户画像生成方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN109711874A true CN109711874A (zh) 2019-05-03

Family

ID=66255883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811545329.0A Pending CN109711874A (zh) 2018-12-17 2018-12-17 用户画像生成方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109711874A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276359A (zh) * 2019-05-24 2019-09-24 天津亿玛科技有限公司 一种特征提取方法和装置
CN110334231A (zh) * 2019-06-28 2019-10-15 深圳市商汤科技有限公司 一种信息处理方法及装置、存储介质
CN110399404A (zh) * 2019-07-25 2019-11-01 北京明略软件系统有限公司 一种计算机的用户表示生成方法及装置
CN110737706A (zh) * 2019-09-06 2020-01-31 平安城市建设科技(深圳)有限公司 数据管理方法、装置、设备及计算机可读存储介质
CN110738522A (zh) * 2019-10-15 2020-01-31 卓尔智联(武汉)研究院有限公司 用户画像构建方法、装置、计算机设备和存储介质
CN110766460A (zh) * 2019-10-21 2020-02-07 海南高灯科技有限公司 一种用户画像的方法、装置、存储介质及计算机设备
CN110827934A (zh) * 2019-08-19 2020-02-21 医渡云(北京)技术有限公司 一种crf的监查方法及装置
CN110968584A (zh) * 2019-12-03 2020-04-07 北京明略软件系统有限公司 一种画像生成系统、方法、电子设备及可读存储介质
CN111126324A (zh) * 2019-12-25 2020-05-08 深圳力维智联技术有限公司 一种多源异构数据融合的方法、装置、产品及介质
CN111292152A (zh) * 2018-12-07 2020-06-16 上海云思智慧信息技术有限公司 一种虚拟人物画像构建方法及系统、存储介质及终端
CN111431918A (zh) * 2020-03-31 2020-07-17 杭州溪塔科技有限公司 一种基于区块链确定目标用户状态标签的方法和系统
CN112906365A (zh) * 2021-01-25 2021-06-04 绿瘦健康产业集团有限公司 一种用户画像生成方法、装置、终端设备以及存储介质
CN113064904A (zh) * 2021-04-29 2021-07-02 济南慧天云海信息技术有限公司 一种基于数据自学习的画像构建方法
CN113407843A (zh) * 2021-07-09 2021-09-17 深圳壹账通智能科技有限公司 用户画像生成方法、装置、电子设备及计算机存储介质
CN116501977A (zh) * 2023-06-26 2023-07-28 广东省建设工程质量安全检测总站有限公司 线上检测委托中用户画像的构建方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346377A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 一种基于唯一标识的数据集成和交换方法
CN104933049A (zh) * 2014-03-17 2015-09-23 华为技术有限公司 生成数字人的方法及系统
CN109002490A (zh) * 2018-06-26 2018-12-14 腾讯科技(深圳)有限公司 用户画像生成方法、装置、服务器及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346377A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 一种基于唯一标识的数据集成和交换方法
CN104933049A (zh) * 2014-03-17 2015-09-23 华为技术有限公司 生成数字人的方法及系统
CN109002490A (zh) * 2018-06-26 2018-12-14 腾讯科技(深圳)有限公司 用户画像生成方法、装置、服务器及存储介质

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292152A (zh) * 2018-12-07 2020-06-16 上海云思智慧信息技术有限公司 一种虚拟人物画像构建方法及系统、存储介质及终端
CN110276359A (zh) * 2019-05-24 2019-09-24 天津亿玛科技有限公司 一种特征提取方法和装置
CN110334231A (zh) * 2019-06-28 2019-10-15 深圳市商汤科技有限公司 一种信息处理方法及装置、存储介质
CN110399404A (zh) * 2019-07-25 2019-11-01 北京明略软件系统有限公司 一种计算机的用户表示生成方法及装置
CN110827934A (zh) * 2019-08-19 2020-02-21 医渡云(北京)技术有限公司 一种crf的监查方法及装置
CN110827934B (zh) * 2019-08-19 2023-03-28 医渡云(北京)技术有限公司 一种crf的监查方法及装置
CN110737706A (zh) * 2019-09-06 2020-01-31 平安城市建设科技(深圳)有限公司 数据管理方法、装置、设备及计算机可读存储介质
CN110738522A (zh) * 2019-10-15 2020-01-31 卓尔智联(武汉)研究院有限公司 用户画像构建方法、装置、计算机设备和存储介质
CN110738522B (zh) * 2019-10-15 2022-12-09 卓尔智联(武汉)研究院有限公司 用户画像构建方法、装置、计算机设备和存储介质
CN110766460A (zh) * 2019-10-21 2020-02-07 海南高灯科技有限公司 一种用户画像的方法、装置、存储介质及计算机设备
CN110968584B (zh) * 2019-12-03 2023-03-14 北京明略软件系统有限公司 一种画像生成系统、方法、电子设备及可读存储介质
CN110968584A (zh) * 2019-12-03 2020-04-07 北京明略软件系统有限公司 一种画像生成系统、方法、电子设备及可读存储介质
CN111126324A (zh) * 2019-12-25 2020-05-08 深圳力维智联技术有限公司 一种多源异构数据融合的方法、装置、产品及介质
CN111126324B (zh) * 2019-12-25 2023-09-26 深圳力维智联技术有限公司 一种多源异构数据融合的方法、装置、计算机设备及介质
CN111431918A (zh) * 2020-03-31 2020-07-17 杭州溪塔科技有限公司 一种基于区块链确定目标用户状态标签的方法和系统
CN112906365A (zh) * 2021-01-25 2021-06-04 绿瘦健康产业集团有限公司 一种用户画像生成方法、装置、终端设备以及存储介质
CN113064904A (zh) * 2021-04-29 2021-07-02 济南慧天云海信息技术有限公司 一种基于数据自学习的画像构建方法
CN113064904B (zh) * 2021-04-29 2022-04-08 济南慧天云海信息技术有限公司 一种基于数据自学习的画像构建方法
CN113407843A (zh) * 2021-07-09 2021-09-17 深圳壹账通智能科技有限公司 用户画像生成方法、装置、电子设备及计算机存储介质
CN116501977A (zh) * 2023-06-26 2023-07-28 广东省建设工程质量安全检测总站有限公司 线上检测委托中用户画像的构建方法及系统
CN116501977B (zh) * 2023-06-26 2023-09-01 广东省建设工程质量安全检测总站有限公司 线上检测委托中用户画像的构建方法及系统

Similar Documents

Publication Publication Date Title
CN109711874A (zh) 用户画像生成方法、装置、计算机设备和存储介质
WO2021073417A1 (zh) 表情生成方法、装置、设备及存储介质
CN109740620B (zh) 人群画像分类模型的建立方法、装置、设备和存储介质
CN112613501A (zh) 信息审核分类模型的构建方法和信息审核方法
CN110704633A (zh) 命名实体识别方法、装置、计算机设备及存储介质
CN109767261A (zh) 产品推荐方法、装置、计算机设备和存储介质
CN111191032B (zh) 语料扩充方法、装置、计算机设备和存储介质
CN109408555B (zh) 数据类型识别方法及装置、数据入库方法及装置
CN108985133B (zh) 一种人脸图像的年龄预测方法及装置
CN110399484A (zh) 长文本的情感分析方法、装置、计算机设备和存储介质
US11557149B2 (en) Image synthesis for balanced datasets
CN111428448B (zh) 文本生成方法、装置、计算机设备及可读存储介质
CN114241505B (zh) 化学结构图像的提取方法、装置、存储介质及电子设备
Li et al. Publication date estimation for printed historical documents using convolutional neural networks
CN113723288A (zh) 基于多模态混合模型的业务数据处理方法及装置
CN115909443A (zh) 基于多头注意力机制的表情识别模型及其训练方法
CN116229552A (zh) 一种基于yolov7模型的面向嵌入式硬件的人脸识别方法
CN110796145A (zh) 基于智能决策的多证件分割关联方法及相关设备
CN114266252A (zh) 命名实体识别方法、装置、设备及存储介质
CN113052236A (zh) 一种基于NASNet的肺炎图像分类方法
Talukdar et al. Medical X-ray image classification employing DCGAN and CNN transfer learning techniques
CN112766351A (zh) 一种图像质量的评估方法、系统、计算机设备和存储介质
Fan et al. A medical pre-diagnosis system for histopathological image of breast cancer
CN113343646B (zh) 数据转换方法和装置
CN113033178B (zh) 用于商业计划书的文本评估方法、装置及计算机

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination