CN109684330A - 用户画像库构建方法、装置、计算机设备及存储介质 - Google Patents
用户画像库构建方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN109684330A CN109684330A CN201811542210.8A CN201811542210A CN109684330A CN 109684330 A CN109684330 A CN 109684330A CN 201811542210 A CN201811542210 A CN 201811542210A CN 109684330 A CN109684330 A CN 109684330A
- Authority
- CN
- China
- Prior art keywords
- user
- portrait
- library
- information
- character information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及用户画像库构建方法、装置、计算机设备及存储介质,该方法包括获取来自用户终端的原始特征信息;对原始特征信息进行多维特征分析,以得到分析结果;将分析结果存储于列存储结构的数据库中;采用ID打通算法关联所有数据库内的不同ID信息,以形成多维特征标签库;对多维特征标签库进行聚类分析,以得到关键特征指标;将关键特征指标存储于预留的数据库内,以形成用户画像库。本发明实现打通企业及其客户之间数据通道,以便于高效地构建基础的用户画像库和快速响应客户的多种数据需求服务。
Description
技术领域
本发明涉及用户画像库构建方法,更具体地说是指用户画像库构建方法、装置、计算机设备及存储介质。
背景技术
用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识,通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。由若干个用户画像组合形成的数据库,称为用户画像库。
随着大数据及人工智能的发展,极大的促进了人们对数据重要性的认识,如今,关于数据挖掘及人工智能各种应用场景,也越来越多的出现在各个行业的产品及服务中,而背后支撑这些业务的基础,在于对数据的充分利用。由于数据涉及到企业或组织的信息安全,因此对于数据的应用及挖掘,通常局限在内部的使用,一些企业能够积累的用户数据规模有限,无法利用其不多的维度特征完成完整、有效的用户画像库的构建,目前的数据处理模式无法使得企业及其客户之间数据相通,进而导致企业无法高效地构建基础的用户画像库和快速响应客户的多种数据需求服务。
因此,有必要设计一种新的方法,实现打通企业及其客户之间数据通道,以便于高效地构建基础的用户画像库和快速响应客户的多种数据需求服务。
发明内容
本发明的目的在于克服现有技术的缺陷,提供用户画像库构建方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:用户画像库构建方法,包括:
获取来自用户终端的原始特征信息;
对所述原始特征信息进行多维特征分析,以得到分析结果;
将所述分析结果存储于列存储结构的数据库中;
采用ID打通算法关联所有数据库内的不同ID信息,以形成多维特征标签库;
对所述多维特征标签库进行聚类分析,以得到关键特征指标;
将所述关键特征指标存储于预留的数据库内,以形成用户画像库。
其进一步技术方案为:所述获取来自用户终端的原始特征信息,包括:
获取来自用户终端的可用数据;
采用令牌对可用数据进行验证,以获取原始特征信息。
其进一步技术方案为:所述原始特征信息包括用户身份特征信息、个人特征信息、行为特征信息、社交特征信息及通过协议获取的相关平台活动以及交易信息。
其进一步技术方案为:所述对所述原始特征信息进行多维特征分析,以得到分析结果,包括:
获取原始特征信息中的需要分析的特征;
对需要分析的特征进行常用统计量的计算分析,以得到分析结果。
其进一步技术方案为:所述采用ID打通算法关联所有数据库内的不同ID信息,以形成多维特征标签库,包括:
获取所有数据库的ID关联关系;
根据ID关联关系建立所有数据源的ID信息关系表;
根据ID信息关系表进行所有数据源信息之间的合表操作,以形成多维特征标签库。
本发明还提供了用户画像库构建装置,包括:
信息获取单元,用于获取来自用户终端的原始特征信息;
分析单元,用于对所述原始特征信息进行多维特征分析,以得到分析结果;
存储单元,用于将所述分析结果存储于列存储结构的数据库中;
关联单元,用于采用ID打通算法关联所有数据库内的不同ID信息,以形成多维特征标签库;
指标获取单元,用于对所述多维特征标签库进行分析,以得到关键特征指标;
画像库形成单元,用于将所述关键特征指标存储于预留的数据库内,以形成用户画像库。
其进一步技术方案为:所述信息获取单元包括:
数据获取子单元,用于获取来自用户终端的可用数据;
验证子单元,用于采用令牌对可用数据进行验证,以获取原始特征信息。
其进一步技术方案为:所述分析单元包括:
特征获取子单元,用于获取原始特征信息中的需要分析的特征;
计算分析子单元,用于对需要分析的特征进行常用统计量的计算分析,以得到分析结果。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过从用户终端获取原始特征信息后,进行多维特征的分析,并存储在数据库内,利用数据库与数据库之间的ID信息关联关系,构建所有数据库的关联关系表,并由关联关系表形成多维特征标签库,以打通不同数据库之间的数据通道,对多维特征标签库进行聚类分析后获取关键特征指标,由关键特征指标形成用户画像库,实现打通企业及其客户之间数据通道,以便于高效地构建基础的用户画像库和快速响应客户的多种数据需求服务。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的用户画像库构建方法的应用场景示意图;
图2为本发明实施例提供的用户画像库构建方法的流程示意图;
图3为本发明实施例提供的用户画像库构建方法的子流程示意图;
图4为本发明实施例提供的用户画像库构建方法的子流程示意图;
图5为本发明实施例提供的用户画像库构建方法的子流程示意图;
图6为本发明实施例提供的用户画像库构建装置的示意性框图;
图7为本发明实施例提供的用户画像库构建装置的信息获取单元的示意性框图;
图8为本发明实施例提供的用户画像库构建装置的分析单元的示意性框图;
图9为本发明实施例提供的用户画像库构建装置的关联单元的示意性框图;
图10为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的用户画像库构建方法的应用场景示意图。图2为本发明实施例提供的用户画像库构建方法的示意性流程图。用户画像库构建方法可以运用在服务器内,与用户终端进行交互,获取用户终端的原始特征信息,根据该原始特征信息进行分析和处理,以快速建立用户画像库,且用户终端发出请求后,可及时高效地返回数据。
图2是本发明实施例提供的用户画像库构建方法的流程示意图。如图2所示,该方法包括以下步骤S110至S150。
S110、获取来自用户终端的原始特征信息。
在本实施例中,上述的原始特征信息是指从终端直接获取的用户相关特征信息,包括用户身份特征信息、个人特征信息、行为特征信息、社交特征信息及通过协议获取的相关平台活动以及交易信息。
在一实施例中,如图3所示,上述的步骤S110可包括步骤S111~S112。
S111、获取来自用户终端的可用数据。
在本实施例中,可用数据包括用户身份特征信息、待分析的原始特征信息及模型生成的关键特征指标等。
S112、采用令牌对可用数据进行验证,以获取原始特征信息。
将可用数据以加密通道的方式上传到服务器,由服务器获取,将使用HTTPS加密通道传输可用数据,并设计令牌以进行用户身份认证,而客户数据中标识ID部分的关键字段将使用MD5算法二次加密,以确保传递信息的安全。符合RESTful(架构样式的网络系统,Representational State Transfer)接口规范的服务,将响应通过令牌校验的用户请求,包括:上传、下载用户所需的可用数据。通过多个消息中心消费端对接数据源,获取原始特征信息。通过HTTPS的RESTful API(应用程序编程接口,Application ProgrammingInterface)上传可用数据主要为JSON格式数据,有部分可用数据也可以通过SFTP通道上传。同时,会校验请求中携带的令牌参数,通过校验的数据会重组为消息格式,发送至服务器的Kafka消息中心。
不同的源的可用数据分属不同消息队列,消息中心采用发布-订阅模式管理消息队列,不同的消息队列会向各自的订阅者实时推送接收到的消息,消息中心接收到的原始数据消息,会推送至订阅不同队列的消息消费者中,接收到的用户原始特征信息还包括用户的通常会推送至对接Hive仓库的消费端中的数据。
S120、对所述原始特征信息进行多维特征分析,以得到分析结果。
在本实施例中,分析结果是对原始特征信息采用OLAP(联机分析处理,OnlineAnalytical Processing)进行多维特征分析后得到的结果。
在一实施例中,如图4所示,上述的步骤S120可包括步骤S121~S122。
S121、获取原始特征信息中的需要分析的特征。
在本实施例中,可以通过界面直接选择需要分析的特征。
S122、对需要分析的特征进行常用统计量的计算分析,以得到分析结果。
具体地,采用Kylin、Druid进行分析特征,通过设计预计算任务来扩展对象的特征维度,比如可选择在对象的关键维度上,以时间维度、地点维度或其他重要分类特征,进行常用统计量(如总量、均值和方差等)的计算分析,使用这些OLAP工具时,可根据用户需要,采用对应的SQL语句或使用图形辅助工具,来构建对应的数据源的预计算任务,完成大数据的多维分析。例如,使用Kylin时,可通过自带的图形化界面,在界面上挑选需要进行分析的特征,即可完成预计算任务的建立,Kylin会将预计算分析的结果存储于HBase(分布式存储系统,Hadoop Database)中,这不仅能提高集群后续查询的效率,同时能扩展数据的可视维度,有利于更深度的特征工程。
S130、将所述分析结果存储于列存储结构的数据库中。
基于Hadoop大数据结合Hive和HBase的各自特点,存储不同类型的数据。如从不同数据源获取的可用数据,大多为关系型数据,可视为原始特征信息。此类数据会不断纵向扩展,但很少横向扩展,适合存储于Hive库中;而关键特征指标,此类数据为特征工程或建模生成指标,会不断横向扩展,适合存储于列存储结构的数据库,如HBase中。
S140、采用ID打通算法关联所有数据库内的不同ID信息,以形成多维特征标签库。
在本实施例中,多维特征标签库是指若干个用户多数据源特征表,这些表格都具有分析结果,且这些分析结果与用户的特征有着密不可分的关系。
在一实施例中,如图5所示,上述的步骤S140可包括步骤S141~S143。
S141、获取所有数据库的ID关联关系;
S142、根据ID关联关系建立所有数据源的ID信息关系表;
S143、根据ID信息关系表进行所有数据源信息之间的合表操作,以形成多维特征标签库。
通过ID打通算法构建不同数据源之间的ID映射关系,更有效的利用多源数据,扩展可分析的有效特征数目。ID打通算法在于积累不同数据源之间的ID关联关系,也就是各个数据库的ID关联关系,利用ID关联关系进行合表操作,通过类似于SQL的合表等操作,建立起多数据源ID信息之间的直接或间接关系表。在此基础上,可使用OLAP工具,或通过HQL(查询语言,Hive Query Language)语句完成不同数据源信息之间的合表操作,建立待分析用户的大宽表,构建统一的多维特征标签库;比如根据ID信息是相同用户也就是用户身份特征信息相同,将所有数据库内关于该用户身份特征信息的数据表格进行合表操作,也可以根据其他特征,比如同一交易信息等,可依据实际情况而定,设定多个表格之间的ID关联关系,进而实现多个不同的数据库的打通,使得多个数据库的数据进行共享,提高建立用户画像库的效率。
S150、对所述多维特征标签库进行聚类分析,以得到关键特征指标。
在本实施例中,关键特征指标是指根据不同的业务场景挖掘多维特征标签库以得到的潜在的重要特征。
根据用户的多维特征标签库,可使用多种聚类分析方法,如主成分分析、主题模型的聚类分析或根据实际业务场景的特征建模,来挖掘潜在的重要特征,并以此生成新的关键特征指标。聚类分析可使用无监督的主题聚类方法等,来分析、提取原始重要特征,以此构建关键特征指标;而特征建模使用传统机器学习算法,通过树模型如GBT、XGBoost等,来学习挖掘潜在原始重要特征,重组关键特征指标。
通过特征工程生成用户新消费行为特征指标时,可使用多个数据源原始消费信息的统计值,并根据数据分布情况,使用合适的归一化处理方法后,用生成的数据来指代用户消费方面指标,从而形成关键特征指标。再比如,通过主题模型聚类分析,提取出用户个人价值维度的主题分布情况,再依据该分布的相关参数信息,构建个人价值特征指标,从而形成关键特征指标。关键特征指标会从各个方面,直观的给出用户各种行为的评价分数,以扩充用户画像库,能支持多种用户行为分析的预测及建议。
S160、将所述关键特征指标存储于预留的数据库内,以形成用户画像库。
关键特征指标会通过服务器的消息生产端,发送至消息中心集群,并发送给订阅该消息队列内容的HBase数据库,也可以是服务平台的缓存数据库。
在实际使用过程中,用户发出的请求,在通过令牌校验后,会返回缓存在数据库中的相关数据。数据通常为模型或算法生成的代表用户行为的关键特征指标。
打通企业及其客户之间数据通道,使其客户渠道内的数据能被更加高效的利用及共享,同时帮助具有优秀挖掘算法的企业更高效地构建基础的用户画像库,并迅速完成OLAP处理,使其能快速响应客户的多种数据需求服务
上述的方法不仅考虑了大数据管理、存储和计算等方面的基础问题,更侧重于打通、实现数据的互通,放大数据的可挖掘价值;通过加入基于特征工程和算法建模的指标计算模块,提升了数据的利用率,使得数据中心不单纯的作为一个信息中转站,更参与的数据特征内循环的优化过程。
上述的用户画像库构建方法,通过从用户终端获取原始特征信息后,进行多维特征的分析,并存储在数据库内,利用数据库与数据库之间的ID信息关联关系,构建所有数据库的关联关系表,并由关联关系表形成多维特征标签库,以打通不同数据库之间的数据通道,对多维特征标签库进行聚类分析后获取关键特征指标,由关键特征指标形成用户画像库,实现打通企业及其客户之间数据通道,以便于高效地构建基础的用户画像库和快速响应客户的多种数据需求服务。
图6是本发明实施例提供的一种用户画像库构建装置300的示意性框图。如图6所示,对应于以上用户画像库构建方法,本发明还提供一种用户画像库构建装置300。该用户画像库构建装置300包括用于执行上述用户画像库构建方法的单元,该装置可以被配置于服务器中。
具体地,请参阅图6,该用户画像库构建装置300包括:
信息获取单元301,用于获取来自用户终端的原始特征信息;
分析单元302,用于对所述原始特征信息进行多维特征分析,以得到分析结果;
存储单元303,用于将所述分析结果存储于列存储结构的数据库中;
关联单元304,用于采用ID打通算法关联所有数据库内的不同ID信息,以形成多维特征标签库;
指标获取单元305,用于对所述多维特征标签库进行分析,以得到关键特征指标;
画像库形成单元306,用于将所述关键特征指标存储于预留的数据库内,以形成用户画像库。
在一实施例中,如图7所示,所述信息获取单元301包括:
数据获取子单元3011,用于获取来自用户终端的可用数据;
验证子单元3012,用于采用令牌对可用数据进行验证,以获取原始特征信息。
在一实施例中,如图8所示,所述分析单元302包括:
特征获取子单元3021,用于获取原始特征信息中的需要分析的特征;
计算分析子单元3022,用于对需要分析的特征进行常用统计量的计算分析,以得到分析结果。
在一实施例中,如图9所示,所述关联单元304包括:
关系获取子单元3041,用于获取所有数据库的ID关联关系;
关系表建立子单元3042,用于根据ID关联关系建立所有数据源的ID信息关系表;
合表子单元3043,用于根据ID信息关系表进行所有数据源信息之间的合表操作,以形成多维特征标签库。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述用户画像库构建装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述用户画像库构建装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图10所示的计算机设备上运行。
请参阅图10,图10是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图10,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种用户画像库构建方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种用户画像库构建方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取来自用户终端的原始特征信息;
对所述原始特征信息进行多维特征分析,以得到分析结果;
将所述分析结果存储于列存储结构的数据库中;
采用ID打通算法关联所有数据库内的不同ID信息,以形成多维特征标签库;
对所述多维特征标签库进行聚类分析,以得到关键特征指标;
将所述关键特征指标存储于预留的数据库内,以形成用户画像库。
在一实施例中,处理器502在实现所述获取来自用户终端的原始特征信息步骤时,具体实现如下步骤:
获取来自用户终端的可用数据;
采用令牌对可用数据进行验证,以获取原始特征信息。
其中,所述原始特征信息包括用户身份特征信息、个人特征信息、行为特征信息、社交特征信息及通过协议获取的相关平台活动以及交易信息。
在一实施例中,处理器502在实现所述对所述原始特征信息进行多维特征分析,以得到分析结果步骤时,还实现如下步骤:
获取原始特征信息中的需要分析的特征;
对需要分析的特征进行常用统计量的计算分析,以得到分析结果。
在一实施例中,处理器502在实现所述采用ID打通算法关联所有数据库内的不同ID信息,以形成多维特征标签库步骤时,还实现如下步骤:
获取所有数据库的ID关联关系;
根据ID关联关系建立所有数据源的ID信息关系表;
根据ID信息关系表进行所有数据源信息之间的合表操作,以形成多维特征标签库。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取来自用户终端的原始特征信息;
对所述原始特征信息进行多维特征分析,以得到分析结果;
将所述分析结果存储于列存储结构的数据库中;
采用ID打通算法关联所有数据库内的不同ID信息,以形成多维特征标签库;
对所述多维特征标签库进行聚类分析,以得到关键特征指标;
将所述关键特征指标存储于预留的数据库内,以形成用户画像库。
在一实施例中,所述处理器在执行所述计算机程序而实现所述获取来自用户终端的原始特征信息步骤时,具体实现如下步骤:
获取来自用户终端的可用数据;
采用令牌对可用数据进行验证,以获取原始特征信息。
其中,所述原始特征信息包括用户身份特征信息、个人特征信息、行为特征信息、社交特征信息及通过协议获取的相关平台活动以及交易信息。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述原始特征信息进行多维特征分析,以得到分析结果步骤时,具体实现如下步骤:
获取原始特征信息中的需要分析的特征;
对需要分析的特征进行常用统计量的计算分析,以得到分析结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述采用ID打通算法关联所有数据库内的不同ID信息,以形成多维特征标签库步骤时,具体实现如下步骤:
获取所有数据库的ID关联关系;
根据ID关联关系建立所有数据源的ID信息关系表;
根据ID信息关系表进行所有数据源信息之间的合表操作,以形成多维特征标签库。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.用户画像库构建方法,其特征在于,包括:
获取来自用户终端的原始特征信息;
对所述原始特征信息进行多维特征分析,以得到分析结果;
将所述分析结果存储于列存储结构的数据库中;
采用ID打通算法关联所有数据库内的不同ID信息,以形成多维特征标签库;
对所述多维特征标签库进行聚类分析,以得到关键特征指标;
将所述关键特征指标存储于预留的数据库内,以形成用户画像库。
2.根据权利要求1所述的用户画像库构建方法,其特征在于,所述获取来自用户终端的原始特征信息,包括:
获取来自用户终端的可用数据;
采用令牌对可用数据进行验证,以获取原始特征信息。
3.根据权利要求2所述的用户画像库构建方法,其特征在于,所述原始特征信息包括用户身份特征信息、个人特征信息、行为特征信息、社交特征信息及通过协议获取的相关平台活动以及交易信息。
4.根据权利要求2所述的用户画像库构建方法,其特征在于,所述对所述原始特征信息进行多维特征分析,以得到分析结果,包括:
获取原始特征信息中的需要分析的特征;
对需要分析的特征进行常用统计量的计算分析,以得到分析结果。
5.根据权利要求1所述的用户画像库构建方法,其特征在于,所述采用ID打通算法关联所有数据库内的不同ID信息,以形成多维特征标签库,包括:
获取所有数据库的ID关联关系;
根据ID关联关系建立所有数据源的ID信息关系表;
根据ID信息关系表进行所有数据源信息之间的合表操作,以形成多维特征标签库。
6.用户画像库构建装置,其特征在于,包括:
信息获取单元,用于获取来自用户终端的原始特征信息;
分析单元,用于对所述原始特征信息进行多维特征分析,以得到分析结果;
存储单元,用于将所述分析结果存储于列存储结构的数据库中;
关联单元,用于采用ID打通算法关联所有数据库内的不同ID信息,以形成多维特征标签库;
指标获取单元,用于对所述多维特征标签库进行分析,以得到关键特征指标;
画像库形成单元,用于将所述关键特征指标存储于预留的数据库内,以形成用户画像库。
7.根据权利要求6所述的用户画像库构建装置,其特征在于,所述信息获取单元包括:
数据获取子单元,用于获取来自用户终端的可用数据;
验证子单元,用于采用令牌对可用数据进行验证,以获取原始特征信息。
8.根据权利要求7所述的用户画像库构建装置,其特征在于,所述分析单元包括:
特征获取子单元,用于获取原始特征信息中的需要分析的特征;
计算分析子单元,用于对需要分析的特征进行常用统计量的计算分析,以得到分析结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811542210.8A CN109684330A (zh) | 2018-12-17 | 2018-12-17 | 用户画像库构建方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811542210.8A CN109684330A (zh) | 2018-12-17 | 2018-12-17 | 用户画像库构建方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109684330A true CN109684330A (zh) | 2019-04-26 |
Family
ID=66186149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811542210.8A Pending CN109684330A (zh) | 2018-12-17 | 2018-12-17 | 用户画像库构建方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684330A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458626A (zh) * | 2019-08-16 | 2019-11-15 | 京东数字科技控股有限公司 | 一种信息数据处理方法和装置 |
CN110472998A (zh) * | 2019-07-16 | 2019-11-19 | 第四范式(北京)技术有限公司 | 一种构建用户画像信息的方法、装置及电子设备 |
CN110532309A (zh) * | 2019-07-15 | 2019-12-03 | 浙江工业大学 | 一种高校图书馆用户画像系统的生成方法 |
CN111027854A (zh) * | 2019-12-10 | 2020-04-17 | 重庆撼地大数据有限公司 | 一种基于企业大数据的综合画像指数生成方法及相关设备 |
CN111143697A (zh) * | 2020-01-02 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种内容推荐的方法以及相关装置 |
CN111640436A (zh) * | 2020-05-15 | 2020-09-08 | 北京青牛技术股份有限公司 | 向坐席提供通话对象的动态客户画像的方法 |
CN112487039A (zh) * | 2020-12-16 | 2021-03-12 | 平安养老保险股份有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
CN112579788A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN112784070A (zh) * | 2020-12-31 | 2021-05-11 | 重庆空间视创科技有限公司 | 一种基于大数据的用户画像方法 |
CN113342931A (zh) * | 2021-05-27 | 2021-09-03 | 东风柳州汽车有限公司 | 基于大数据的用户需求分析方法、装置、设备及存储介质 |
CN113396433A (zh) * | 2019-06-11 | 2021-09-14 | 深圳市欢太科技有限公司 | 用户画像构建方法及相关产品 |
CN113763057A (zh) * | 2020-05-28 | 2021-12-07 | 北京金山云网络技术有限公司 | 用户身份画像的数据处理方法和装置 |
CN114841570A (zh) * | 2022-05-07 | 2022-08-02 | 金腾科技信息(深圳)有限公司 | 用于客户关系管理系统的数据处理方法、装置、设备及介质 |
CN115829615A (zh) * | 2023-01-05 | 2023-03-21 | 瓴创(北京)科技有限公司 | 一种基于多数据库的用户分群方法、系统和存储介质 |
CN116304974A (zh) * | 2023-02-17 | 2023-06-23 | 国网浙江省电力有限公司营销服务中心 | 多渠道数据融合方法及系统 |
CN117390289A (zh) * | 2023-12-06 | 2024-01-12 | 深圳市美置乡墅科技有限公司 | 基于用户画像的房屋建造方案推荐方法、装置、设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120253852A1 (en) * | 2011-04-01 | 2012-10-04 | Pourfallah Stacy S | Restricted-use account payment administration apparatuses, methods and systems |
CN104933049A (zh) * | 2014-03-17 | 2015-09-23 | 华为技术有限公司 | 生成数字人的方法及系统 |
CN105608171A (zh) * | 2015-12-22 | 2016-05-25 | 青岛海贝易通信息技术有限公司 | 用户画像构建方法 |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
CN107908606A (zh) * | 2017-10-31 | 2018-04-13 | 上海壹账通金融科技有限公司 | 基于不同信息源自动生成报表的方法和系统 |
CN108021929A (zh) * | 2017-11-16 | 2018-05-11 | 华南理工大学 | 基于大数据的移动端电商用户画像建立与分析方法及系统 |
CN108415965A (zh) * | 2018-02-07 | 2018-08-17 | 五维引力(上海)数据服务有限公司 | 一种基于多数据源的数据处理方法和装置 |
CN108960975A (zh) * | 2018-06-15 | 2018-12-07 | 广州麦优网络科技有限公司 | 基于用户画像的个性化精准营销方法、服务器及存储介质 |
-
2018
- 2018-12-17 CN CN201811542210.8A patent/CN109684330A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120253852A1 (en) * | 2011-04-01 | 2012-10-04 | Pourfallah Stacy S | Restricted-use account payment administration apparatuses, methods and systems |
CN104933049A (zh) * | 2014-03-17 | 2015-09-23 | 华为技术有限公司 | 生成数字人的方法及系统 |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
CN105608171A (zh) * | 2015-12-22 | 2016-05-25 | 青岛海贝易通信息技术有限公司 | 用户画像构建方法 |
CN107908606A (zh) * | 2017-10-31 | 2018-04-13 | 上海壹账通金融科技有限公司 | 基于不同信息源自动生成报表的方法和系统 |
CN108021929A (zh) * | 2017-11-16 | 2018-05-11 | 华南理工大学 | 基于大数据的移动端电商用户画像建立与分析方法及系统 |
CN108415965A (zh) * | 2018-02-07 | 2018-08-17 | 五维引力(上海)数据服务有限公司 | 一种基于多数据源的数据处理方法和装置 |
CN108960975A (zh) * | 2018-06-15 | 2018-12-07 | 广州麦优网络科技有限公司 | 基于用户画像的个性化精准营销方法、服务器及存储介质 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113396433A (zh) * | 2019-06-11 | 2021-09-14 | 深圳市欢太科技有限公司 | 用户画像构建方法及相关产品 |
CN113396433B (zh) * | 2019-06-11 | 2023-12-26 | 深圳市欢太科技有限公司 | 用户画像构建方法及相关产品 |
CN110532309A (zh) * | 2019-07-15 | 2019-12-03 | 浙江工业大学 | 一种高校图书馆用户画像系统的生成方法 |
CN110532309B (zh) * | 2019-07-15 | 2022-05-03 | 浙江工业大学 | 一种高校图书馆用户画像系统的生成方法 |
CN110472998A (zh) * | 2019-07-16 | 2019-11-19 | 第四范式(北京)技术有限公司 | 一种构建用户画像信息的方法、装置及电子设备 |
CN110458626A (zh) * | 2019-08-16 | 2019-11-15 | 京东数字科技控股有限公司 | 一种信息数据处理方法和装置 |
CN112579788A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN111027854A (zh) * | 2019-12-10 | 2020-04-17 | 重庆撼地大数据有限公司 | 一种基于企业大数据的综合画像指数生成方法及相关设备 |
CN111143697B (zh) * | 2020-01-02 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 一种内容推荐的方法以及相关装置 |
CN111143697A (zh) * | 2020-01-02 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种内容推荐的方法以及相关装置 |
CN111640436A (zh) * | 2020-05-15 | 2020-09-08 | 北京青牛技术股份有限公司 | 向坐席提供通话对象的动态客户画像的方法 |
CN111640436B (zh) * | 2020-05-15 | 2024-04-19 | 北京青牛技术股份有限公司 | 向坐席提供通话对象的动态客户画像的方法 |
CN113763057A (zh) * | 2020-05-28 | 2021-12-07 | 北京金山云网络技术有限公司 | 用户身份画像的数据处理方法和装置 |
CN112487039A (zh) * | 2020-12-16 | 2021-03-12 | 平安养老保险股份有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
CN112487039B (zh) * | 2020-12-16 | 2024-04-30 | 平安养老保险股份有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
CN112784070A (zh) * | 2020-12-31 | 2021-05-11 | 重庆空间视创科技有限公司 | 一种基于大数据的用户画像方法 |
CN113342931A (zh) * | 2021-05-27 | 2021-09-03 | 东风柳州汽车有限公司 | 基于大数据的用户需求分析方法、装置、设备及存储介质 |
CN114841570A (zh) * | 2022-05-07 | 2022-08-02 | 金腾科技信息(深圳)有限公司 | 用于客户关系管理系统的数据处理方法、装置、设备及介质 |
CN115829615A (zh) * | 2023-01-05 | 2023-03-21 | 瓴创(北京)科技有限公司 | 一种基于多数据库的用户分群方法、系统和存储介质 |
CN116304974A (zh) * | 2023-02-17 | 2023-06-23 | 国网浙江省电力有限公司营销服务中心 | 多渠道数据融合方法及系统 |
CN116304974B (zh) * | 2023-02-17 | 2023-09-29 | 国网浙江省电力有限公司营销服务中心 | 多渠道数据融合方法及系统 |
CN117390289A (zh) * | 2023-12-06 | 2024-01-12 | 深圳市美置乡墅科技有限公司 | 基于用户画像的房屋建造方案推荐方法、装置、设备 |
CN117390289B (zh) * | 2023-12-06 | 2024-03-08 | 深圳市美置乡墅科技有限公司 | 基于用户画像的房屋建造方案推荐方法、装置、设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684330A (zh) | 用户画像库构建方法、装置、计算机设备及存储介质 | |
Xu et al. | Characterizing destination networks through mobility traces of international tourists—A case study using a nationwide mobile positioning dataset | |
Phaneendra et al. | Big Data-solutions for RDBMS problems-A survey | |
CN108021929A (zh) | 基于大数据的移动端电商用户画像建立与分析方法及系统 | |
US20190303709A1 (en) | Feature information extraction method, apparatus, server cluster, and storage medium | |
US20150134401A1 (en) | In-memory end-to-end process of predictive analytics | |
CN110765272B (zh) | 基于知识图谱的签约方法、装置、计算机设备及计算机存储介质 | |
CN104077723B (zh) | 一种社交网络推荐系统及方法 | |
CN104254865A (zh) | 凭经验的专家确定和问题路由系统和方法 | |
US9882949B1 (en) | Dynamic detection of data correlations based on realtime data | |
US20130246463A1 (en) | Prediction and isolation of patterns across datasets | |
CN111885399A (zh) | 内容分发方法、装置、电子设备以及存储介质 | |
CN105530316A (zh) | 一种基于云计算技术的异构空间信息协同标绘空间系统 | |
Rani et al. | A survey of tools for social network analysis | |
US11704345B2 (en) | Inferring location attributes from data entries | |
Kimball | The evolving role of the enterprise data warehouse in the era of big data analytics | |
Nair et al. | Clustering with apache hadoop | |
CN110062112A (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
Saxena et al. | Business intelligence | |
CN115221337A (zh) | 数据编织处理方法、装置、电子设备及可读存储介质 | |
CN115510116A (zh) | 数据目录构建方法、装置、介质及设备 | |
Rani et al. | Social data provenance framework based on zero-information loss graph database | |
Mathisen et al. | Empirical big data research: A systematic literature mapping | |
Fang et al. | Efficient Top-k Query Processing Algorithms in Highly Distributed Environments. | |
CN111143328A (zh) | 一种敏捷商业智能数据构建方法、系统、设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190426 |
|
RJ01 | Rejection of invention patent application after publication |