CN111881221A - 物流服务里客户画像的方法、装置和设备 - Google Patents
物流服务里客户画像的方法、装置和设备 Download PDFInfo
- Publication number
- CN111881221A CN111881221A CN202010647494.8A CN202010647494A CN111881221A CN 111881221 A CN111881221 A CN 111881221A CN 202010647494 A CN202010647494 A CN 202010647494A CN 111881221 A CN111881221 A CN 111881221A
- Authority
- CN
- China
- Prior art keywords
- information
- offline
- real
- target
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000004931 aggregating effect Effects 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 230000010485 coping Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2372—Updates performed during offline database operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2379—Updates performed during online database operations; commit processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种物流服务里客户画像的方法、装置和设备,获取客户的数据信息,数据信息包括离线信息和实时信息,若数据信息是离线信息,根据数据信息的特征,确定离线汇总周期,按照离线汇总周期,确定离线信息的离线标签。将离线标签聚合到同一张hive表中,并将同一身份识别标识信息的离线标签聚合为一行hive数据,存储在Elastic Search中。若数据信息是实时信息,拉取HBase中与实时信息对应的历史信息,根据实时信息和历史信息确定实时标签,将实时标签写入HBase中。本发明的技术方案每一个标签都独立计算,一个标签的更改不会影响到其他的标签,实现起来简单快捷,而且能针对多场景输出标签,实用性高。
Description
技术领域
本发明涉及物流技术领域,具体涉及一种物流服务里客户画像的方法、装置和设备。
背景技术
近年来随着电商行业的蓬勃发展,快递行业也进入高增速、高竞争的阶段。为了提高客服、快递员服务质量,根据历史用户活动轨迹以及行为,勾画用户的画像的需求应运而生。由于快递行业的数据量特别大的特点,对技术的要求也随着增加。针对不同的业务场景,比如说业务员派件、业务员揽件、客服工单、客服需要不同的客户画像标签、需要不同的应对策略。而大数据技术可以对大量数据进行清洗、分析以及计算出标签以便勾画出用户画像。
现有的方案一般是按照规则生成标签,一个标签的更改可能会影响到其他的标签,需要使用复杂的流程去更新和覆盖,实现起来比较复杂。而且,只能针对单一场景输出标签,实用性较低。
发明内容
有鉴于此,本发明的目的在于提供一种物流服务里客户画像的方法、装置和设备,以克服目前按照规则生成标签,实现起来比较复杂而且只能针对单一场景输出标签,实用性较低的问题。
为实现以上目的,本发明采用如下技术方案:
一种物流服务里客户画像的方法,应用于hadoop集群,所述方法包括:
获取客户的数据信息,所述数据信息包括离线信息和实时信息;
判断所述数据信息是否为所述离线信息;
若所述数据信息是所述离线信息,根据所述离线信息的特征,确定离线汇总周期;
按照所述离线汇总周期,确定所述离线信息的离线标签,其中,所述离线标签携带对应的业务场景信息和身份识别标识信息;
将所述离线标签聚合到同一张hive表中,并将同一所述身份识别标识信息的所述离线标签聚合为一行hive数据;
将所述hive数据存储在Elastic Search中;
若所述数据信息是所述实时信息,拉取HBase中与所述实时信息对应的历史信息;
根据所述实时信息和所述历史信息确定实时标签;其中,所述实时标签也携带对应的所述业务场景信息和所述身份识别标识信息;
将所述实时标签写入所述HBase中。
进一步地,以上所述的物流服务里客户画像的方法,所述获取客户的数据信息,包括:
获取客户的源数据;
对所述源数据进行标准化处理,得到所述数据信息。
进一步地,以上所述的物流服务里客户画像的方法,所述方法还包括:
获取包含目标业务场景信息和目标身份识别标识信息的查询指令;
在所述Elastic Search中查询与所述目标业务场景信息和所述目标身份识别标识信息匹配的目标离线标签,以及,在所述HBase中查询与所述目标业务场景信息和目标身份识别标识信息匹配的目标实时标签;
若存在所述目标离线标签和所述目标实时标签,将所述目标离线标签和所述目标实时标签聚合后输出。
进一步地,以上所述的物流服务里客户画像的方法,将所述目标离线标签和所述目标实时标签聚合后输出,包括:
根据预设的权重对所述目标离线标签和所述目标实时标签进行降序排序后输出;或者
输出所述权重最高的目标离线标签和/或所述目标实时标签。
进一步地,以上所述的物流服务里客户画像的方法,所述方法还包括,根据所述目标离线标签、所述目标实时标签和所述目标业务场景信息生成应对策略并输出。
进一步地,以上所述的物流服务里客户画像的方法,所述查询指令还包括查询者的登陆成功信息。
进一步地,以上所述的物流服务里客户画像的方法,所述将所述hive数据存储在Elastic Search中,包括:
通过data X技术将所述hive数据推送到Kafka中;
通过定义所述Kafka,将所述数据存储在所述Elastic Search中。
进一步地,以上所述的物流服务里客户画像的方法,所述根据所述实时信息和所述历史信息确定实时标签之前,包括:
将所述实时信息推送到Kafka;
利用spark拉取所述Kafka中的所述实时信息。
本发明还提供了一种物流服务里客户画像的装置,包括获取模块、判断模块、确定模块、聚合模块、存储模块和拉取模块;
所述获取模块,用于获取客户的数据信息,所述数据信息包括离线信息和实时信息;
所述判断模块,用于判断所述数据信息是否为所述离线信息;
所述确定模块,用于若所述数据信息是所述离线信息,根据所述离线信息的特征,确定离线汇总周期;
所述确定模块,还用于按照所述离线汇总周期,确定所述离线信息的离线标签,其中,所述离线标签携带对应的业务场景信息和身份识别标识信息;
所述聚合模块,用于将所述离线标签聚合到同一张hive表中,并将同一所述身份识别标识信息的所述离线标签聚合为一行hive数据;
所述存储模块,用于将所述hive数据存储在Elastic Search中;
所述拉取模块,用于若所述数据信息是所述实时信息,拉取HBase中与所述实时信息对应的历史信息;
所述确定模块,还用于根据所述实时信息和所述历史信息确定实时标签;其中,所述实时标签也携带对应的所述业务场景信息和所述身份识别标识信息;
所述存储模块,还用于将所述实时标签写入所述HBase中。
本发明还提供了一种物流服务里客户画像的设备,包括处理器和存储器,所述处理器与存储器相连:
其中,所述处理器,用于调用并执行所述存储器中存储的程序;
所述存储器,用于存储所述程序,所述程序至少用于执行以上任一项所述的物流服务里客户画像的方法。
本发明的物流服务里客户画像的方法、装置和设备,获取客户的数据信息,数据信息包括离线信息和实时信息,若数据信息是离线信息,根据数据信息的特征,确定离线汇总周期,按照离线汇总周期,确定离线信息的离线标签。将离线标签聚合到同一张hive表中,并将同一身份识别标识信息的离线标签聚合为一行hive数据,存储在Elastic Search中。若数据信息是实时信息,拉取HBase中与实时信息对应的历史信息,根据实时信息和历史信息确定实时标签,将实时标签写入HBase中。本发明的技术方案每一个标签都独立计算,一个标签的更改不会影响到其他的标签,实现起来简单快捷,而且能针对多场景输出标签,实用性高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明物流服务里客户画像的方法一种实施例提供的流程图;
图2是本发明物流服务里客户画像的装置一种实施例提供的结构示意图;
图3是本发明物流服务里客户画像的设备一种实施例提供的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
图1是本发明物流服务里客户画像的方法一种实施例提供的流程图。本实施例的物流服务里客户画像应用于hadoop集群,所有的计算都在hadoop集群中进行。请参阅图1,本实施例可以包括以下步骤:
S101、获取客户的数据信息;
本实施例中,需要获取客户的数据信息。具体地,可以先获取客户的源数据,源数据一般为物流系统中客户信息数据,包括业务员派件场景下的客户收件联系方式、客户收件习惯、到件联系方式、累计收件数量等;业务员揽件场景下的揽件方式、揽件客户习惯等;以及,客服工单场景下的客户进线量、进线诉求倾向等。在物流行业中还有其他场景以及其他场景下的源数据,此处不再一一举例。然后,对源数据进行数据源清洗、格式化等标准化处理,例如将错别字、不规范的书写方式等进行修正处理,得到数据信息。
数据信息包括离线信息和实时信息。离线信息一般是对时效性要求较低的数据,不需要马上进行处理,例如某一客户的累计收件情况等,而实时信息一般是对时效性要求较高的数据,需要马上进行处理,例如某一客户重复进线情况等。
需要注意的是,工作人员可以根据实际需求预先设定某一信息具体为离线信息还是实时信息,本实施例不做限定。
S102、判断数据信息是否为离线信息,若是,执行S103,若否,执行S107;
S103、根据离线信息的特征,确定离线汇总周期;
若数据信息是离线信息,根据离线信息的数量特征,进一步确定离线信息的汇总周期。数量较少的离线信息,可以将一天作为一次汇总周期,例如每天汇总一次某一客户的投诉次数;数量较高的离线信息,可以将一月作为一次汇总周期,例如每月汇总一次某一客户的下单量等。工作人员可以根据实际情况对数量的多少进行定义,此处不做限定。
S104、按照离线汇总周期,确定离线信息的携带对应业务场景信息和身份识别标识信息的离线标签;
本实施例中,上述确定离线汇总周期后,即可按照离线汇总周期进行离线汇总。
在进行离线汇总时,需要从离线信息中计算离线标签,以及,确定离线标签对应的业务场景信息和身份识别标识信息。例如,对客户下单量进行月度汇总时,离线信息包括客户的下单地址、手机号和该客户一个月的下单量等,可以计算这个一个月的下单量作为离线标签,若一个月的下单量大于预设标准,则离线标签为高频下单客户,若小于预设标准,则为低频下单客户等。身份识别标识信息为客户的手机号,从“下单”这一动作信息可以确定业务场景信息为业务员揽件场景。
本实施例中,将离线标签分别与业务场景信息和身份识别标识信息关联,以使离线标签携带业务场景信息和身份识别标识信息。
此外,本实施例优选将离线标签采用统一的hive表输出。其中,hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
S105、将离线标签聚合到同一张hive表中,并将同一身份识别标识信息的离线标签聚合为一行hive数据;
具体地,各个标签计算完成之后,将所有的离线标签聚合到一张hive表中,并将同一身份识别标识信息的离线标签聚合为一行hive数据,即将同一个手机号的离线标签聚合为一行hive数据。
S106、将hive数据存储在Elastic Search中;
将得到的hive数据存储在Elastic Search中。Elastic Search是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,设计用于云计算中,能够达到实时搜索,稳定、可靠、快速,安装使用方便。
具体地,可以通过data X技术将hive数据推送到Kafka中,然后通过定义Kafka,将数据存储在Elastic Search中,并供程序查询调用。上述步骤使用依赖关系,只有等前置任务处理完成之后,才会进行当前的任务。
其中,Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。
S107、拉取HBase中与实时信息对应的历史信息;
若数据信息是实时信息,在本步骤之前,监控数据库变更的中间件监控到数据变更后,将实时信息推送到Kafka,利用spark拉取Kafka中的实时信息。
本步骤中,拉取HBase中与实时信息对应的历史信息。其中,HBase是一个分布式的、面向列的开源数据库。历史信息的历史时间一般为24小时,例如,若实时信息为客户的身份识别标识信息(手机号)和工单数据,可以拉取HBase中最近24小时内该身份识别标识信息已经产生的工单数据量。
S108、根据实时信息和历史信息确定携带对应业务场景信息和身份识别标识信息的实时标签;
本实施例中,根据实时信息和历史信息确定实时标签、身份识别标识信息和业务场景信息。
其中,根据实时信息和历史信息确定实时标签可以包括:根据实时信息和历史信息确定该主题信息在历史时间出现的总次数,将总次数与预设的标准次数比对,以确定实时标签。
例如,优选工单数据的标准次数为2,24小时以后实际工单数据量大于等于2则为高频求助标签,小于2不生成标签。若实时信息中工单数据为1,拉取HBase中最近24小时内该身份识别标识信息已经产生的工单数据量为1,那么可以计算该身份识别标识信息对应的客户在24小时以内工单数据量为2,已经打入过2次电话,则确定实时标签为高频求助标签。
可以将确定该实时信息对应的实时标签为高频求助标签,身份识别标识信息为手机号,通过“工单”这一信息,可以确定业务场景信息为“客服工单”。
本实施例中,将实时标签分别与业务场景信息和身份识别标识信息关联,以使实时标签携带业务场景信息和身份识别标识信息。
S109、将实时标签写入HBase中。
将计算好的标签最终写入到HBase中。
本实施例的物流服务里客户画像的方法,获取客户的数据信息,数据信息包括离线信息和实时信息,若数据信息是离线信息,根据数据信息的特征,确定离线汇总周期,按照离线汇总周期,确定离线信息的离线标签。将离线标签聚合到同一张hive表中,并将同一身份识别标识信息的离线标签聚合为一行hive数据,存储在Elastic Search中。若数据信息是实时信息,拉取HBase中与实时信息对应的历史信息,根据实时信息和历史信息确定实时标签,将实时标签写入HBase中。本实施例的技术方案每一个标签都独立计算,一个标签的更改不会影响到其他的标签,实现起来简单快捷,而且能针对多场景输出标签,实用性高。
进一步地,本实施例在以上实施例的基础上,还可以包括标签输出流程。标签输出流程可以包括以下步骤:
获取包含目标业务场景信息和目标身份识别标识信息的查询指令,在ElasticSearch中查询与目标业务场景信息和目标身份识别标识信息匹配的目标离线标签,以及,在HBase中查询与目标业务场景信息和目标身份识别标识信息匹配的目标实时标签,若存在目标离线标签和目标实时标签,将目标离线标签和目标实时标签聚合后输出。
具体地,标签输出流程使用spring boot作为核心框架,使用dubbo作为rpc,查询者通过dubbo调用。查询者调用时需要输入包含目标业务场景信息和目标身份识别标识信息的查询指令,以及登陆成功信息。
本实施例中获取到查询指令后,先在Elastic Search中查询与目标业务场景信息和目标身份识别标识信息匹配的目标离线标签,然后在HBase中查询与目标业务场景信息和目标身份识别标识信息匹配的目标实时标签,如果存在目标离线标签和目标实时标签,将目标离线标签和目标实时标签聚合后输出。若只存在一项,则可以直接输出一项,若均不存在,则输出空白信息,或输出错误提示信息,询问查询者是否将目标业务场景信息和目标身份识别标识信息输错,提示查询者重新输入。
其中,目标身份识别标识信息为手机号、运单号和订单号中的至少一种。通过运单号和订单号可以确定关联的手机号,根据手机号和目标业务场景信息则可以确定对应的目标离线标签和目标实时标签。
此外,可以预先给每类离线标签和实时标签设置权重,根据预设的权重对目标离线标签和目标实时标签进行降序排序后输出。或者,只输出权重最高的标签。
还可以根据目标离线标签、目标实时标签和目标业务场景信息生成应对策略并输出。即,一个手机号有多个标签,可以输出权重最高的标签,并给出具体的业务策略。比如,在派件场景,客户可以要求送货上门或者放到快递柜,还有些用户发生过邮政投诉,则可以根据目标离线标签、目标实时标签中记录的历史行为给出具体的措施,是电联派送还是直接放到快递柜等。另外一种是只输出当前用户所有的标签,由查询者确定采取何种方式。
本发明还提供了一种物流服务里客户画像的装置,用于实现上述方法实施例。图2是本发明物流服务里客户画像的装置一种实施例提供的结构示意图,请参阅图2,本实施例的物流服务里客户画像的装置,包括获取模块11、判断模块12、确定模块13、聚合模块14、存储模块15和拉取模块16;
获取模块11,用于获取客户的数据信息,数据信息包括离线信息和实时信息;
判断模块12,用于判断数据信息是否为离线信息;
确定模块13,用于若数据信息是离线信息,根据离线信息的特征,确定离线汇总周期;
确定模块13,还用于按照离线汇总周期,确定离线信息的离线标签,其中,离线标签携带对应的业务场景信息和身份识别标识信息;
聚合模块14,用于将离线标签聚合到同一张hive表中,并将同一身份识别标识信息的离线标签聚合为一行hive数据;
存储模块15,用于将hive数据存储在Elastic Search中;
拉取模块16,用于若数据信息是实时信息,拉取HBase中与实时信息对应的历史信息;
确定模块13,还用于根据实时信息和历史信息确定实时标签;其中,实时标签也携带对应的业务场景信息和身份识别标识信息;
存储模块15,还用于将实时标签写入HBase中。
本实施例的物流服务里客户画像的装置,获取模块11获取客户的数据信息,若通过判断模块12得到数据信息是离线信息,确定模块13根据数据信息的特征,确定离线汇总周期,按照离线汇总周期,确定离线信息的离线标签。聚合模块14将离线标签聚合到同一张hive表中,并将同一身份识别标识信息的离线标签聚合为一行hive数据,存储模块15将其存储在Elastic Search中。若通过判断模块12得到数据信息是实时信息,拉取模块16拉取HBase中与实时信息对应的历史信息,确定模块13根据实时信息和历史信息确定实时标签,存储模块15将实时标签写入HBase中。本实施例的技术方案每一个标签都独立计算,一个标签的更改不会影响到其他的标签,实现起来简单快捷,而且能针对多场景输出标签,实用性高。
进一步地,本实施例中,获取模块11具体用于获取客户的源数据,对源数据进行标准化处理,得到数据信息。
进一步地,本实施例中,还包括查询模块和输出模块;
获取模块11,还用于获取包含目标业务场景信息和目标身份识别标识信息的查询指令;查询指令还包括查询者的登陆成功信息。
查询模块,用于在Elastic Search中查询与目标业务场景信息和目标身份识别标识信息匹配的目标离线标签,以及,在HBase中查询与目标业务场景信息和目标身份识别标识信息匹配的目标实时标签;
输出模块,用于若存在目标离线标签和目标实时标签,将目标离线标签和目标实时标签聚合后输出。
进一步地,本实施例中,输出模块,具体用于根据预设的权重对目标离线标签和目标实时标签进行降序排序后输出;或者输出权重最高的目标离线标签和/或目标实时标签。
进一步地,本实施例中,输出模块,还用于根据目标离线标签、目标实时标签和目标业务场景信息生成应对策略并输出。
进一步地,本实施例,存储模块15,具体用于通过data X技术将hive数据推送到Kafka中;通过定义Kafka,将数据存储在Elastic Search中。
进一步地,本实施例中还包括推送模块;
推送模块,用于将实时信息推送到Kafka;
拉取模块,还用于利用spark拉取Kafka中的实时信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明还提供了一组物流服务里客户画像的设备,用于实现上述方法实施例。图3是本发明物流服务里客户画像的设备一种实施例提供的结构示意图,本实施例的物流服务里客户画像的设备包括处理器21和存储器22,处理器21与存储器22相连:
其中,处理器21,用于调用并执行存储器22中存储的程序;
存储器22,用于存储所述程序,所述程序至少用于执行以上实施例所述的物流服务里客户画像的方法。本实施例的技术方案每一个标签都独立计算,一个标签的更改不会影响到其他的标签,实现起来简单快捷,而且能针对多场景输出标签,实用性高。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种物流服务里客户画像的方法,其特征在于,应用于hadoop集群,所述方法包括:
获取客户的数据信息,所述数据信息包括离线信息和实时信息;
判断所述数据信息是否为所述离线信息;
若所述数据信息是所述离线信息,根据所述离线信息的特征,确定离线汇总周期;
按照所述离线汇总周期,确定所述离线信息的离线标签,其中,所述离线标签携带对应的业务场景信息和身份识别标识信息;
将所述离线标签聚合到同一张hive表中,并将同一所述身份识别标识信息的所述离线标签聚合为一行hive数据;
将所述hive数据存储在Elastic Search中;
若所述数据信息是所述实时信息,拉取HBase中与所述实时信息对应的历史信息;
根据所述实时信息和所述历史信息确定实时标签;其中,所述实时标签也携带对应的所述业务场景信息和所述身份识别标识信息;
将所述实时标签写入所述HBase中。
2.根据权利要求1所述的物流服务里客户画像的方法,其特征在于,所述获取客户的数据信息,包括:
获取客户的源数据;
对所述源数据进行标准化处理,得到所述数据信息。
3.根据权利要求1所述的物流服务里客户画像的方法,其特征在于,所述方法还包括:
获取包含目标业务场景信息和目标身份识别标识信息的查询指令;
在所述Elastic Search中查询与所述目标业务场景信息和所述目标身份识别标识信息匹配的目标离线标签,以及,在所述HBase中查询与所述目标业务场景信息和目标身份识别标识信息匹配的目标实时标签;
若存在所述目标离线标签和所述目标实时标签,将所述目标离线标签和所述目标实时标签聚合后输出。
4.根据权利要求3所述的物流服务里客户画像的方法,其特征在于,将所述目标离线标签和所述目标实时标签聚合后输出,包括:
根据预设的权重对所述目标离线标签和所述目标实时标签进行降序排序后输出;或者
输出所述权重最高的目标离线标签和/或所述目标实时标签。
5.根据权利要求3所述的物流服务里客户画像的方法,其特征在于,所述方法还包括,根据所述目标离线标签、所述目标实时标签和所述目标业务场景信息生成应对策略并输出。
6.根据权利要求3所述的物流服务里客户画像的方法,其特征在于,所述查询指令还包括查询者的登陆成功信息。
7.根据权利要求1所述的物流服务里客户画像的方法,其特征在于,所述将所述hive数据存储在Elastic Search中,包括:
通过data X技术将所述hive数据推送到Kafka中;
通过定义所述Kafka,将所述数据存储在所述Elastic Search中。
8.根据权利要求7所述的物流服务里客户画像的方法,其特征在于,所述根据所述实时信息和所述历史信息确定实时标签之前,包括:
将所述实时信息推送到Kafka;
利用spark拉取所述Kafka中的所述实时信息。
9.一种物流服务里客户画像的装置,其特征在于,包括获取模块、判断模块、确定模块、聚合模块、存储模块和拉取模块;
所述获取模块,用于获取客户的数据信息,所述数据信息包括离线信息和实时信息;
所述判断模块,用于判断所述数据信息是否为所述离线信息;
所述确定模块,用于若所述数据信息是所述离线信息,根据所述离线信息的特征,确定离线汇总周期;
所述确定模块,还用于按照所述离线汇总周期,确定所述离线信息的离线标签,其中,所述离线标签携带对应的业务场景信息和身份识别标识信息;
所述聚合模块,用于将所述离线标签聚合到同一张hive表中,并将同一所述身份识别标识信息的所述离线标签聚合为一行hive数据;
所述存储模块,用于将所述hive数据存储在Elastic Search中;
所述拉取模块,用于若所述数据信息是所述实时信息,拉取HBase中与所述实时信息对应的历史信息;
所述确定模块,还用于根据所述实时信息和所述历史信息确定实时标签;其中,所述实时标签也携带对应的所述业务场景信息和所述身份识别标识信息;
所述存储模块,还用于将所述实时标签写入所述HBase中。
10.一种物流服务里客户画像的设备,其特征在于,包括处理器和存储器,所述处理器与存储器相连:
其中,所述处理器,用于调用并执行所述存储器中存储的程序;
所述存储器,用于存储所述程序,所述程序至少用于执行权利要求1-8任一项所述的物流服务里客户画像的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010647494.8A CN111881221B (zh) | 2020-07-07 | 2020-07-07 | 物流服务里客户画像的方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010647494.8A CN111881221B (zh) | 2020-07-07 | 2020-07-07 | 物流服务里客户画像的方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881221A true CN111881221A (zh) | 2020-11-03 |
CN111881221B CN111881221B (zh) | 2024-08-06 |
Family
ID=73150557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010647494.8A Active CN111881221B (zh) | 2020-07-07 | 2020-07-07 | 物流服务里客户画像的方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881221B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527881A (zh) * | 2020-12-16 | 2021-03-19 | 国家电网有限公司客户服务中心 | 一种基于hive的数据汇聚方法 |
CN113010536A (zh) * | 2021-04-21 | 2021-06-22 | 中国平安人寿保险股份有限公司 | 基于流式数据处理的用户标签获取方法及装置 |
CN113282393A (zh) * | 2021-06-04 | 2021-08-20 | 银盛支付服务股份有限公司 | 一种解决面向多个画像标签作业调度任务的方法 |
CN113297288A (zh) * | 2021-04-28 | 2021-08-24 | 上海淇玥信息技术有限公司 | 用户的实时标签生成方法、装置及电子设备 |
CN113312553A (zh) * | 2021-06-10 | 2021-08-27 | 北京沃东天骏信息技术有限公司 | 一种用户标签的确定方法和装置 |
CN113392113A (zh) * | 2021-06-20 | 2021-09-14 | 杭州登虹科技有限公司 | 一种云视频开放平台精细化用户画像实时推荐方法 |
CN113947459A (zh) * | 2021-10-21 | 2022-01-18 | 北京沃东天骏信息技术有限公司 | 物品推选方法、装置及存储介质 |
CN116361341A (zh) * | 2023-03-20 | 2023-06-30 | 北京白驹易行科技有限公司 | 一种人群包圈选方法、装置、计算机设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
CN108416620A (zh) * | 2018-02-08 | 2018-08-17 | 杭州浮云网络科技有限公司 | 一种基于大数据的画像数据的智能社交广告投放平台 |
US10163090B1 (en) * | 2011-10-31 | 2018-12-25 | Google Llc | Method and system for tagging of content |
CN109284195A (zh) * | 2018-08-27 | 2019-01-29 | 广东电网有限责任公司信息中心 | 一种实时画像数据计算方法及系统 |
CN110555076A (zh) * | 2019-08-22 | 2019-12-10 | 上海数禾信息科技有限公司 | 数据打标方法、处理方法以及装置 |
-
2020
- 2020-07-07 CN CN202010647494.8A patent/CN111881221B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10163090B1 (en) * | 2011-10-31 | 2018-12-25 | Google Llc | Method and system for tagging of content |
CN106504099A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的系统 |
CN108416620A (zh) * | 2018-02-08 | 2018-08-17 | 杭州浮云网络科技有限公司 | 一种基于大数据的画像数据的智能社交广告投放平台 |
CN109284195A (zh) * | 2018-08-27 | 2019-01-29 | 广东电网有限责任公司信息中心 | 一种实时画像数据计算方法及系统 |
CN110555076A (zh) * | 2019-08-22 | 2019-12-10 | 上海数禾信息科技有限公司 | 数据打标方法、处理方法以及装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527881A (zh) * | 2020-12-16 | 2021-03-19 | 国家电网有限公司客户服务中心 | 一种基于hive的数据汇聚方法 |
CN113010536A (zh) * | 2021-04-21 | 2021-06-22 | 中国平安人寿保险股份有限公司 | 基于流式数据处理的用户标签获取方法及装置 |
CN113010536B (zh) * | 2021-04-21 | 2024-02-06 | 中国平安人寿保险股份有限公司 | 基于流式数据处理的用户标签获取方法及装置 |
CN113297288A (zh) * | 2021-04-28 | 2021-08-24 | 上海淇玥信息技术有限公司 | 用户的实时标签生成方法、装置及电子设备 |
CN113282393A (zh) * | 2021-06-04 | 2021-08-20 | 银盛支付服务股份有限公司 | 一种解决面向多个画像标签作业调度任务的方法 |
CN113312553A (zh) * | 2021-06-10 | 2021-08-27 | 北京沃东天骏信息技术有限公司 | 一种用户标签的确定方法和装置 |
WO2022257604A1 (zh) * | 2021-06-10 | 2022-12-15 | 北京沃东天骏信息技术有限公司 | 一种用户标签的确定方法和装置 |
CN113312553B (zh) * | 2021-06-10 | 2024-06-18 | 北京沃东天骏信息技术有限公司 | 一种用户标签的确定方法和装置 |
CN113392113A (zh) * | 2021-06-20 | 2021-09-14 | 杭州登虹科技有限公司 | 一种云视频开放平台精细化用户画像实时推荐方法 |
CN113947459A (zh) * | 2021-10-21 | 2022-01-18 | 北京沃东天骏信息技术有限公司 | 物品推选方法、装置及存储介质 |
CN116361341A (zh) * | 2023-03-20 | 2023-06-30 | 北京白驹易行科技有限公司 | 一种人群包圈选方法、装置、计算机设备及介质 |
CN116361341B (zh) * | 2023-03-20 | 2024-02-13 | 北京白驹易行科技有限公司 | 一种人群包圈选方法、装置、计算机设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111881221B (zh) | 2024-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111881221A (zh) | 物流服务里客户画像的方法、装置和设备 | |
CN109783512A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN112766907A (zh) | 业务数据的处理方法、装置和服务器 | |
CN110851465A (zh) | 数据查询方法及系统 | |
CN112396462B (zh) | 基于Clickhouse的人群圈选方法及装置 | |
US20130275372A1 (en) | Database Performance Analysis | |
CN111400294B (zh) | 数据异常监测方法、装置及系统 | |
US7606906B2 (en) | Bundling and sending work units to a server based on a weighted cost | |
CN112307004B (zh) | 数据治理方法、装置、设备及存储介质 | |
CN112328688B (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN112148779A (zh) | 确定业务指标的方法、装置及存储介质 | |
CN115202847A (zh) | 任务的调度方法和装置 | |
CN112258244A (zh) | 确定目标物品所属任务的方法、装置、设备及存储介质 | |
US20220222680A1 (en) | Product Return Task Generating Method, Apparatus, and Device, and Storage Medium | |
CN111553749A (zh) | 一种活动推送策略配置方法及装置 | |
CN113722141B (zh) | 数据任务的延迟原因确定方法、装置、电子设备及介质 | |
CN113762819B (zh) | 渠道调度的方法和装置 | |
CN113778976B (zh) | 数据处理方法及装置、电子设备、存储介质 | |
CN113377604B (zh) | 一种数据处理方法、装置、设备和存储介质 | |
CN112288509B (zh) | 订单跟踪方法及装置、计算机可读存储介质及电子设备 | |
CN114860851A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111221837A (zh) | 一种基于b2b商城的实时计算查询系统及方法 | |
CN117972096B (zh) | 一种社交平台互动消息的处理方法及系统 | |
CN113835986B (zh) | 系统冷热日志的动态切换方法、装置及计算机设备 | |
CN118233668A (zh) | 一种基于弹幕消息的交易信息生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |