CN115098572A - 用户画像构建方法、装置和计算机设备 - Google Patents
用户画像构建方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN115098572A CN115098572A CN202210619630.1A CN202210619630A CN115098572A CN 115098572 A CN115098572 A CN 115098572A CN 202210619630 A CN202210619630 A CN 202210619630A CN 115098572 A CN115098572 A CN 115098572A
- Authority
- CN
- China
- Prior art keywords
- information
- user
- historical
- label
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 230000006399 behavior Effects 0.000 claims description 48
- 238000004590 computer program Methods 0.000 claims description 18
- 230000004308 accommodation Effects 0.000 claims description 8
- 238000013461 design Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000000586 desensitisation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种用户画像构建方法、装置和计算机设备。通过获取待构建用户的基础消息以及历史出行消息,并根据基础信息获取对应的事实标签,根据预测规则获取历史出行信息对应的逻辑标签,并根据预设算法,获取历史出行信息对应的预测标签,根据待构建用户的事实标签、逻辑标签以及预测标签,确定待构建用户的标签集合,并根据所述标签集合,构建对应类型的用户画像。相较于传统的针对每个企业架构均进行相应的用户画像方法的构建,本方案通过基于用户的基础信息和历史出行信息确定用户的差旅用户画像,无需针对不同企业进行架构设计,提高了用户画像构建的适用性。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种用户画像构建方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
目前企业差旅成本已成为企业运营中仅次于人力成本的第二大可控成本,目前已有企业开始数字化管控差旅成本,实现这部分成本的透明化、规范化。为了对差旅成本进行透明化、规范化,需要对差旅用户的用户画像进行构建,并通过对用户画像的分析进行差旅成本的管理。目前对差旅用户画像的构建方式通常是基于每个企业的架构确定画像的构建方式。然而,每个企业的架构有所差异,针对每个企业架构均确定出一个构建方法,导致画像构建方法的适用性降低。
因此,目前的差旅用户的画像构建方法存在适用性不足的缺陷。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高适用性的用户画像构建方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种用户画像构建方法,所述方法包括:
获取待构建用户的基础信息以及历史出行信息;
根据所述基础信息获取对应的事实标签,根据预设规则,获取所述历史出行信息对应的逻辑标签,以及根据预设算法,获取所述历史出行信息对应的预测标签;
根据所述待构建用户的所述事实标签、所述逻辑标签以及所述预测标签,确定所述待构建用户的标签集合,并根据所述标签集合,构建对应类型的用户画像。
在其中一个实施例中,所述获取待构建用户的基础信息以及历史出行信息,包括:
获取待构建用户的原始基础信息以及原始历史出行信息;
获取所述原始基础信息中与预设属性标签类型对应的基础信息,获取所述原始历史出行信息中与预设行为标签类型和预设数值标签类型对应的历史出行信息。
在其中一个实施例中,所述获取待构建用户的原始基础信息以及原始历史出行信息,包括:
查询所述待构建用户对应的办公自动化系统,得到原始基础信息;
获取所述待构建用户对应的费用控制系统中的历史订单信息;
在预设出行页面中设置预设埋点,并根据所述预设埋点的触发信息获取所述待构建用户在所述预设出行页面中的历史交易信息;
根据所述历史订单信息以及所述历史交易信息,得到原始历史出行信息。
在其中一个实施例中,所述获取所述原始基础信息中与预设属性标签类型对应的基础信息,获取所述原始历史出行信息中与预设行为标签类型和预设数值标签类型对应的历史出行信息,包括:
获取所述原始基础信息中预设属性标签类型对应的用户性别、用户年龄、用户职业信息以及用户差旅标准等级中的至少一种,作为基础信息;
获取所述原始历史出行信息中预设行为标签类型对应的订单操作行为信息、出行偏好信息以及住宿偏好信息中的至少一种,作为历史出行行为信息;
获取所述原始历史出行信息中预设数值标签类型对应的消费金额、消费频次和消费单价中的至少一种,作为历史出行消费信息;
根据所述历史出行行为信息和所述历史出行消费信息,得到历史出行信息。
在其中一个实施例中,所述获取待构建用户的原始基础信息,包括:
获取所述待构建用户的用户信息;
对所述用户信息进行加密、转码和脱敏处理,得到原始基础信息。
在其中一个实施例中,所述根据预设规则,获取所述历史出行信息对应的逻辑标签,以及根据预设算法,获取所述历史出行信息对应的预测标签,包括:
根据所述历史出行信息与预设数值阈值的比较结果,确定所述历史出行信息对应的出行偏好类型,作为逻辑标签;
将所述历史出行信息输入预设算法,确定所述历史出行信息对应的预测用户类型,作为预测标签。
在其中一个实施例中,所述根据所述标签集合,构建对应类型的用户画像,包括:
对多个标签集合进行聚类处理,得到包含同类事实标签、同类逻辑标签以及同类预测标签的多个同类标签集合;
根据所述多个同类标签集合中均包含的标签的类型,得到该类型用户对应的用户画像。
在其中一个实施例中,所述方法还包括:
将所述事实标签以及所述预测标签存储到预设关系数据库中,并将所述逻辑标签存储到分布式存储系统中,得到存储完成的标签信息。
第二方面,本申请提供了一种用户画像构建装置,所述装置包括:
第一获取模块,用于获取待构建用户的基础信息以及历史出行信息;
第二获取模块,用于根据所述基础信息获取对应的事实标签,根据预设规则,获取所述历史出行信息对应的逻辑标签,以及根据预设算法,获取所述历史出行信息对应的预测标签;
构建模块,用于根据所述待构建用户的所述事实标签、所述逻辑标签以及所述预测标签,确定所述待构建用户的标签集合,并根据所述标签集合,构建对应类型的用户画像。
第三方面,本申请提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
第五方面,本申请提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
通过获取待构建用户的基础消息以及历史出行消息,并根据基础信息获取对应的事实标签,根据预测规则获取历史出行信息对应的逻辑标签,并根据预设算法,获取历史出行信息对应的预测标签,根据待构建用户的事实标签、逻辑标签以及预测标签,确定待构建用户的标签集合,并根据所述标签集合,构建对应类型的用户画像。相较于传统的针对每个企业架构均进行相应的用户画像方法的构建,本方案通过基于用户的基础信息和历史出行信息确定用户的差旅用户画像,无需针对不同企业进行架构设计,提高了用户画像构建的适用性。
附图说明
图1为一个实施例中用户画像构建方法的应用环境图;
图2为一个实施例中用户画像构建方法的流程示意图;
图3为一个实施例中标签获取步骤的结构示意图;
图4为另一个实施例中用户画像构建方法的流程示意图;
图5为又一个实施例中用户画像构建方法的流程示意图;
图6为一个实施例中用户画像构建装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的用户画像构建方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102可以从服务器104中获取到待构建用户的基础信息以及历史出行信息,即服务器104中可以存储有待构建用户的基础信息和出行信息。其中,终端102获取的基础信息和历史出行信息可以是已经公开或用户同意授权后的信息。终端102以基于待构建用户的基础信息和历史出行信息进行用户的标签信息的确定,从而终端102可以基于用户的标签集合构建用户画像。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、平板电脑。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种用户画像构建方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤S202,获取待构建用户的基础信息以及历史出行信息。
其中,待构建用户可以是需要构建用户画像的用户,终端102可以对用户的差旅场景的用户画像进行构建。终端102可以首先采集待构建用户在差旅方面产生的相关信息。例如,终端102可以获取待构建用户的基础信息和历史出行信息。其中,上述基础信息和历史出行信息可以是已经公开的或用户授权同意使用后的信息。需要说明的是,上述待构建用户可以是隐去个人信息后的用户,即待构建用户并不针对某一个人,而是针对该待构建用户的差旅行为来实现对差旅行为的画像构建。
其中,上述待构建用户的基础信息和历史出行信息可以是经过筛选后得到的信息。该筛选可以是基于标签类型的筛选。例如,在一个实施例中,获取待构建用户的基础信息以及历史出行信息,包括:获取待构建用户的原始基础信息以及原始历史出行信息;获取原始基础信息中与预设属性标签类型对应的基础信息,获取原始历史出行信息中与预设行为标签类型和预设数值标签类型对应的历史出行信息。本实施例中,终端102可以获取待构建用户的原始基础信息和原始历史出行信息,并根据预设属性标签类型,获取原始基础信息中与预设属性标签类型对应的基础信息;以及根据预设行为标签类型和预设数值标签类型,获取原始历史出行信息中与预设行为标签类型和预设数值标签类型对应的历史出行信息。其中,原始基础信息和原始历史出行信息可以是待构建用户对应的未经筛选的基础信息和历史出行信息。即上述原始基础信息和原始历史出行信息可以是从待构建用户对应的差旅系统中获取的未经筛选的信息。终端102可以确定预设属性标签类型、预设行为标签类型以及预设数值标签类型,并根据预设属性标签类型对原始基础信息进行数据筛选和提取,得到符合预设属性标签类型的待构建用户的基础信息;终端102可以根据预设行为标签类型和预设数值标签类型对原始历史出行信息进行筛选和提取,得到符合预设行为标签数值和预设数值标签数值的待构建用户的历史出行信息。
步骤S204,根据基础信息获取对应的事实标签,根据预设规则,获取历史出行信息对应的逻辑标签,以及根据预设算法,获取历史出行信息对应的预测标签。
其中,基础信息可以是待构建用户对应的基础属性信息,例如性别、年龄等信息,这些基础信息代表了待构建用户的事实属性。因此,终端102可以根据上述基础信息获取待构建用户对应的事实标签,即终端102可以根据基础信息进行待构建用户事实标签的构建。逻辑标签可以是需要根据一定的规则对历史出行信息进行判断后得到的标签,例如通过设定阈值对历史出行信息中出行的次数进行判断,从而确定用户的出行偏好类型,因此终端102可以根据上述历史出行信息以及预设规则,获取历史出行信息对应的逻辑标签。预测标签可以是基于预设算法对历史出行信息进行预测后得到的标签,例如根据用户的差旅行为确定用户的差旅类型等。因此,终端102可以根据预设算法对历史出行信息进行预测,得到相应的预测标签。即终端102可以根据历史出行信息进行待构建用户逻辑标签和预测标签的生成和获取。
步骤S206,根据待构建用户的事实标签、逻辑标签以及预测标签,确定待构建用户的标签集合,并根据标签集合,构建对应类型的用户画像。
其中,终端102可以根据上述待构建用户的事实标签、逻辑标签以及预测标签,生成对应的标签集合。该标签集合中可以包含一个待构建用户的事实标签、逻辑标签和预测标签的集合,待构建用户的标签集合中可以包括事实标签、逻辑标签和预测标签中的至少一种标签。终端102可以根据上述待构建用户的标签集合,构建标签集合对应类型的用户画像。其中,上述待构建用户可以包括多个,则终端102可以对每个待构建用户均形成一种标签集合,终端102可以根据多个标签集合构建不同类型的用户画像,从而终端102可以得到每种差旅类型用户的用户画像。
上述用户画像构建方法中,通过获取待构建用户的基础消息以及历史出行消息,并根据基础信息获取对应的事实标签,根据预测规则获取历史出行信息对应的逻辑标签,并根据预设算法,获取历史出行信息对应的预测标签,根据待构建用户的事实标签、逻辑标签以及预测标签,确定待构建用户的标签集合,并根据所述标签集合,构建对应类型的用户画像。相较于传统的针对每个企业架构均进行相应的用户画像方法的构建,本方案通过基于用户的基础信息和历史出行信息确定用户的差旅用户画像,无需针对不同企业进行架构设计,提高了用户画像构建的适用性。
在一个实施例中,获取待构建用户的原始基础信息以及原始历史出行信息,包括:查询待构建用户对应的办公自动化系统,得到原始基础信息;获取待构建用户对应的费用控制系统中的历史订单信息;在预设出行页面中设置预设埋点,并根据预设埋点的触发信息获取待构建用户在预设出行页面中的历史交易信息;根据历史订单信息以及历史交易信息,得到原始历史出行信息。
本实施例中,终端102可以从不同的系统中获取上述待构建用户的原始基础信息和原始历史出行信息。对于原始基础信息,终端102可以通过查询待构建用户对应的办公自动化系统,得到待构建用户的原始基础信息。对于原始历史出行信息,终端102可以通过查询待构建用户对应的费用控制系统,获取待构建用户对应的费用控制系统中的历史订单信息;并且,终端102还可以在预设出行页面中设置预设埋点,从而终端102可以根据预设埋点的触发信息获取待构建用户在预设出行页面中的历史交易信息,终端102可以根据上述历史订单信息和历史交易信息,得到待构建用户对应的原始历史出行信息。其中,终端102可以从上述历史订单信息中得到待构建用户在历史出行中的差旅行为,例如选择的酒店、订票、到达的城市等。终端102可以从上述历史交易信息中得到待构建用户在历史出行中的交易信息,例如交易金额、次数等信息。从而终端102可以基于上述的历史订单信息和历史交易信息得到待构建用户的原始历史出行信息。
具体地,上述待构建用户可以是来自企业的用户,上述办公自动化系统、费用控制系统可以是设置在企业的服务器104中的系统。终端102可以从企业的办公自动化系统中获取待构建用户的基础信息,企业的费用控制系统提供员工不同的差旅业务线的差旅订单信息,并且可以通过这预设的出行页面中设置埋点,获得员工的操作日志,另外,终端102还可以通过数据集成操作将上述分散的数据层的源数据整合到ODS(Operational DataStorage,操作数据存储)或者数据仓库中预先进行整合加工,完成多源数据的ETL(Extraction-Transformation-Loading,数据的抽取、清洗、转换、加载)。其中,企业办公自动化系统中的数据,由各个企业的员工提供,如办理入职手续时相关人员创建的账户等。主要包括员工性别、员工年龄、员工职级、职场所在地、岗位等。终端102可以获取具有通用性的数据,保证各个企业都可以提供相关信息。另外,需要说明的是,对于员工的隐私数据,终端102可以对其进行相应去特征化处理后再进行获取。例如,在一个实施例中,获取待构建用户的原始基础信息,包括:获取待构建用户的用户信息;对用户信息进行加密、转码和脱敏处理,得到原始基础信息。本实施例中,对于待构建用户的用户信息,终端102可以对用户信息进行加密、转码和脱敏处理后,从加密、转码和脱敏处理后的用户信息得到原始基础信息。具体地,上述用户信息可能包含用户的隐私信息,对于设置到员工个人信息等隐私度较高的数据,终端102需要进行加密、转码、脱敏处理,例如,终端102可以以待构建用户的员工ID代替员工姓名、对员工的年龄进行分箱泛化等,避免数据工作者识别到具体特定的待构建用户个体,造成隐私的泄露,从而保证企业和企业员工的信息安全。
企业费用控制系统中可以包括企业员工的差旅出行服务、采购订单、福利花费等信息,针对差旅场景,终端102可以获取差旅人员在不同差旅业务线上的订单操作,如差旅计划的预订时间、订单的起始城市/到达城市、订票时间、航司信息、车型信息、酒店地域、订单价格、供应商选择等。终端102还可以通过设置埋点获取数据,主要通过从商旅平台中获取用户的点击、浏览等操作,例如某用户对某个模块的浏览次数、查询次数和点击次数等,该数据能够反映用户的隐藏行为习惯,从而能够确定用户的偏好信息。其中,上述ODS通常与业务系统数据库的数据结构保持一致,可将来源于各个操作型数据库以及其他外部数据源的数据整合到一起,ETL即数据的抽取、清洗、转换、加载,是多源数据从各个业务系统集成到ODS的关键步骤之一。
通过上述实施例,终端102可以从企业的不同系统中分别获取待构建用户的具有通用性的原始基础信息和原始历史出行信息,从而终端102可以根据原始基础信息和原始历史出行信息构建用户的用户画像,提高了用户画像构建的适用性,并且,通过对待构建用户的用户信息进行加密、转码和脱敏处理,能够提高原始基础信息的隐私安全性。
在一个实施例中,获取原始基础信息中与预设属性标签类型对应的基础信息,获取原始历史出行信息中与预设行为标签类型和预设数值标签类型对应的历史出行信息,包括:获取原始基础信息中预设属性标签类型对应的用户性别、用户年龄、用户职业信息以及用户差旅标准等级中的至少一种,作为基础信息;获取原始历史出行信息中预设行为标签类型对应的订单操作行为信息、出行偏好信息以及住宿偏好信息中的至少一种,作为历史出行行为信息;获取原始历史出行信息中预设数值标签类型对应的消费金额、消费频次和消费单价中的至少一种,作为历史出行消费信息;根据历史出行行为信息和历史出行消费信息,得到历史出行信息。
本实施例中,终端102在获取到上述原始基础信息和原始历史出行信息后,可以从原始基础信息中筛选出可以用于构建用户画像的基础信息,并从原始历史出行信息中筛选出能够用来构建用户画像的历史出行信息。例如,终端102可以根据预设属性标签,从原始基础信息中获取与预设属性标签对应的用户性别、用户年龄、用户职业信息以及用户差旅标准等级中的至少一种,作为基础信息。对于历史出行信息,终端102可以根据预设行为标签类型,从原始历史出行信息中获取与预设行为标签类型对应的订单操作行为信息、出行偏好信息以及住宿偏好信息中的至少一种,作为历史出行行为信息。并且,终端102还可以根据预设数值标签类型,从原始历史出行信息中获取与预设数值标签类型对应的消费金额、消费频次和消费单价中的至少一种,作为历史出行消费信息。终端102可以根据历史出行行为信息和历史出行消费信息,得到上述历史出行信息。其中,预设属性标签类型可以是用户的基础属性对应的标签类型,预设行为标签类型可以是用户在差旅系统中产生的行为操作数据对应的标签类型,预设数值标签类型可以是用户在差旅系统中产生的金额交易对应的标签类型。
其中,终端102可以首先构建出用于构建用户画像需要使用的标签类型。如图3所示,图3为一个实施例中标签获取步骤的结构示意图。终端102获取到上述原始基础信息和原始历史出行信息后,可以根据如图3的标签树中的标签指标,对数据进行清洗、加工处理,去除空数据、脏数据、离群值,形成DWM(Data Warehouse Middle,数据仓库中间层)层各中间表,最后拼接成DWS的宽表,为下一步具体标签值的生成提供数据支持。其中,用户画像本质是给用户打标签,形成针对用户信息的标签体系构建,并且标签树是多层级、多维度、并且各层级相互独立的,末端属性的标签值即为用户具体的特征值。如图3所示,上述标签体系中可以包括预设属性标签类型、预设行为标签类型以及预设数值标签类型。从而终端102可以从企业员工的基本属性、行为属性、出行偏好、住宿偏好和消费属性五个方面构建。具体地,上述预设属性标签类型可以是基础属性特征,包括企业员工的性别、年龄、部门、职级、岗位、工作城市等方面的信息;上述预设行为标签属性可以是行为属性特征、出行偏好和住宿偏好等。其中,行为属性特征主要包含差旅计划、机票、火车票、酒店的申请和预订,改签,退订三种操作信息;出行偏好主要从出行方式、时间、供应商选择、提前预订天数、舱位坐席选择几大偏好信息来设置;住宿偏好则是从酒店类型、星级、提前预订天数和供应商四大类型构建;上述预设数值标签类型可以是消费属性,消费属性包括订单的金额、单价、频次、以及消费意愿等信息。从而终端102可以基于上述各个标签类型,从原始基础信息和原始历史出行信息中提取到用于构建用户画像的基础信息和历史出行信息。其中,上述DWM可以用于生成一系列中间表,简化计算流程。
通过本实施例,终端102可以基于设定的标签类型从原始数据中提取出用户构建用户画像的数据,从而能够基于通用性的数据进行用户画像的构建,提高了用户画像构建的使用性。
在一个实施例中,根据预设规则,获取历史出行信息对应的逻辑标签,以及根据预设算法,获取历史出行信息对应的预测标签,包括:根据历史出行信息与预设数值阈值的比较结果,确定历史出行信息对应的出行偏好类型,作为逻辑标签;将历史出行信息输入预设算法,确定历史出行信息对应的预测用户类型,作为预测标签。
本实施例中,终端102可以基于预设规则和预设算法获取历史出行信息中的逻辑标签和预测标签。对于逻辑标签,上述预设规则可以是一种判断规则,终端102可以根据历史出行信息与预设数值阈值的比较结果,确定历史出行信息对应的出行偏好类型,作为逻辑标签。对于预测标签,上述预设算法可以是一种机器学习算法,终端102可以将历史出行信息输出预设算法,确定历史出行信息对应的预测用户类型,作为预测标签。其中,预测用户类型可以是终端102通过机器学习算法预测得到的待构建用户所属的差旅用户的类型。例如是否为差旅异常用户等。
具体地,终端102完成上述基础信息和历史出行信息的采集后,可以根据图3中的标签结构进行标签的创建。终端102创建标签的方式包括但不限于直采统计、规则制定、算法挖掘三种。其中,直采统计可以用于生成上述事实标签,如“男性”、“90后”等一类标签,多为用户的基础属性标签;规则制定生成的标签可以是上述逻辑标签,终端102基于业务逻辑和规则转换生成逻辑标签,例如,若终端102在上述历史出行信息中检测到待构建用户“近1个月申请差旅计划次数>预设数值,例如5次”,则终端102可以得到待构建用户的一个“高频差旅用户”的逻辑标签;算法挖掘可以用于生成上述预测标签。终端102可以利用机器学习算法,从而挖掘预测用户的相关特征,形成预测标签。例如,终端102可以根据用户差旅行为预测其职场所在地,以及判断用户是否为差旅异常用户等,即终端102可以通过上述机器学习算法判断用户的用户类型,形成预测标签。
通过本实施例,终端102可以基于不同的规则确定出上述历史出行信息中的逻辑标签和预测标签,从而终端102可以通过具有通用性的逻辑标签和预测标签以及上述事实标签进行用户画像的构建,提高了用户画像构建的适用性。
在一个实施例中,根据标签集合,构建对应类型的用户画像,包括:对多个标签集合进行聚类处理,得到包含同类事实标签、同类逻辑标签以及同类预测标签的多个同类标签集合;根据多个同类标签集合中均包含的标签的类型,得到该类型用户对应的用户画像。
本实施例中,终端102获取到上述基础信息和历史出行信息对应的各个标签后,可以根据各个标签形成待构建用户的标签集合。其中,上述待构建用户可以有多个,则终端102可以获取每个待构建用户的标签集合,得到多个标签集合。终端102可以根据多个标签集合,确定每种类型的集合对应的用户画像。例如,终端102可以对多个标签集合进行聚类处理,得到包含同类事实标签、同类逻辑标签以及同类预测标签的多个同类标签集合。其中,同类标签集合可以有多个,每个同类标签集合中可以存在相同的同类事实标签、同类逻辑标签以及同类预测标签。终端102可以获取多个同类标签集合中均包含的标签的类型,并根据该类型,得到该类型用户对应的用户画像。具体地,终端102完成标签的创建后,可以根据不同维度标签的标签值进行组合和筛选,或利用聚类算法根据标签值对用户进行聚类,将有共同差旅行为、差旅习惯、出行偏好的用户归为同一个群体,即得到上述多个同类标签集合。从而终端102可以将用户分成不同的特征群体,终端102可以为每组包含多个同类标签集合的群体确定一个特征名保存在画像库中,从而该群体的共同标签,即上述同类标签,构成了该特征群体的用户画像。
通过本实施例,终端102可以根据多个同类标签集合确定一种差旅类型用户的用户画像,提高了用户画像构建的适用性。
在一个实施例中,还包括:将事实标签以及预测标签存储到预设关系数据库中,并将逻辑标签存储到分布式存储系统中,得到存储完成的标签信息。
本实施例中,终端102在生成上述各种类型的标签后,可以将标签进行存储。其中,终端102可以根据生成标签的类型确定标签的存储位置。例如,终端102可以将上述事实标签以及预测标签存储到预设关系数据库中,并将逻辑标签存储到分布式存储系统中,从而得到存储完成的标签信息。具体地,上述事实标签和预测标签可以是一种静态标签,逻辑标签可以是一种动态标签。终端102可以根据不同维度分类、经过数据量级评估,将标签以不同方式存储在标签库中。其中,静态标签选择MySQL数据库存储,动态标签可存储在Hbase(Hadoop Database,hadoop数据库)中,以便于大数据的更新计算。并且,终端102可以将所有标签根据用户个人属性和订单信息,与用户ID相关联,定位到具体用户并定期定时不断更新,形成每个用户的标签值信息集合。其中,MySQL是关系型数据库管理系统;Hbase是一个高可靠性、高性能的分布式存储系统,适合大数据的处理。
通过本实施例,终端102可以按照标签类型的不同将标签存储在不同的位置,将静态标签存储在关系数据库,并将需要更新的动态标签存储在分布式存储系统,从而能够实现提高标签调用效率的效果。
在一个实施例中,如图4所示,图4为另一个实施例中用户画像构建方法的流程示意图。终端102在对用户画像进行构建时,可以对用户画像标签树进行构建。例如,终端102可以搭建企业用户属性标签体系,从企业员工基本属性、差旅行为属性、差旅偏好等多个维度拆分,构成标签树。并且,终端102还可以从多个数据源进行数据采集。其具体数据流向可以如图5所示,图5为又一个实施例中用户画像构建方法的流程示意图。终端102可以采集多个数据源中的用户个人属性数据、差旅订单数据以及企业商旅配置数据等,集成至数据仓库,根据标签树抽取关键指标,清洗合成结构化数据,提供数据支撑。具体地,终端102可以通过企业OA系统、差旅费控系统和埋点采集得到用户的上述数据。终端102采集上述数据后,可以基于已有数据,通过统计方法、规则制定或算法模型,形成单个标签值,为不同差旅特征用户打上不同维度的不同标签。并且,终端102可以根据上述标签的类型不同,存储在不同的标签库中,包括关系型数据库和分布式存储系统;终端102可以将上述各个用户的标签集合与用户的id关联,形成每个用户对应的标签集合,并且终端102可以对各个用户的标签集合中的各个标签进行定时更新。终端102获取到上述标签集合后,可以针对不同用户标签的标签值进行筛选,获取一类用户的群体特征,实现用户分群,并根据每个群体的用户形成该群体的用户画像。
通过本实施例,终端102可以基于用户的基础信息和历史出行信息确定用户的差旅用户画像,无需针对不同企业进行架构设计,提高了用户画像构建的适用性。并且,终端102将根据企业员工个人信息、差旅数据计算生成的标签储存至标签库,通过与用户信息的关联,形成企业用户的标签集合。可解决企业用户信息差异化、标签信息不统一而影响到用户画像构建的问题。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的用户画像构建方法的用户画像构建装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个用户画像构建装置实施例中的具体限定可以参见上文中对于用户画像构建方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种用户画像构建装置,包括:第一获取模块500、第二获取模块502和构建模块504,其中:
第一获取模块500,用于获取待构建用户的基础信息以及历史出行信息。
第二获取模块502,用于根据基础信息获取对应的事实标签,根据预设规则,获取历史出行信息对应的逻辑标签,以及根据预设算法,获取历史出行信息对应的预测标签。
构建模块504,用于根据待构建用户的事实标签、逻辑标签以及预测标签,确定待构建用户的标签集合,并根据标签集合,构建对应类型的用户画像。
在一个实施例中,上述第一获取模块500,具体用于获取待构建用户的原始基础信息以及原始历史出行信息;获取原始基础信息中与预设属性标签类型对应的基础信息,获取原始历史出行信息中与预设行为标签类型和预设数值标签类型对应的历史出行信息。
在一个实施例中,上述第一获取模块500,具体用于查询待构建用户对应的办公自动化系统,得到原始基础信息;获取待构建用户对应的费用控制系统中的历史订单信息;在预设出行页面中设置预设埋点,并根据预设埋点的触发信息获取待构建用户在预设出行页面中的历史交易信息;根据历史订单信息以及历史交易信息,得到原始历史出行信息。
在一个实施例中,上述第一获取模块500,具体用于获取原始基础信息中预设属性标签类型对应的用户性别、用户年龄、用户职业信息以及用户差旅标准等级中的至少一种,作为基础信息;获取原始历史出行信息中预设行为标签类型对应的订单操作行为信息、出行偏好信息以及住宿偏好信息中的至少一种,作为历史出行行为信息;获取原始历史出行信息中预设数值标签类型对应的消费金额、消费频次和消费单价中的至少一种,作为历史出行消费信息;根据历史出行行为信息和历史出行消费信息,得到历史出行信息。
在一个实施例中,上述第一获取模块500,具体用于获取待构建用户的用户信息;对用户信息进行加密、转码和脱敏处理,得到原始基础信息。
在一个实施例中,上述第二获取模块502,具体用于根据历史出行信息与预设数值阈值的比较结果,确定历史出行信息对应的出行偏好类型,作为逻辑标签;将历史出行信息输入预设算法,确定历史出行信息对应的预测用户类型,作为预测标签。
在一个实施例中,上述构建模块504,具体用于对多个标签集合进行聚类处理,得到包含同类事实标签、同类逻辑标签以及同类预测标签的多个同类标签集合;根据多个同类标签集合中均包含的标签的类型,得到该类型用户对应的用户画像。
在一个实施例中,上述装置还包括:存储模块,用于将事实标签以及预测标签存储到预设关系数据库中,并将逻辑标签存储到分布式存储系统中,得到存储完成的标签信息。
上述用户画像构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种用户画像构建方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述的用户画像构建方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的用户画像构建方法。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的用户画像构建方法。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种用户画像构建方法,其特征在于,所述方法包括:
获取待构建用户的基础信息以及历史出行信息;
根据所述基础信息获取对应的事实标签,根据预设规则,获取所述历史出行信息对应的逻辑标签,以及根据预设算法,获取所述历史出行信息对应的预测标签;
根据所述待构建用户的所述事实标签、所述逻辑标签以及所述预测标签,确定所述待构建用户的标签集合,并根据所述标签集合,构建对应类型的用户画像。
2.根据权利要求1所述的方法,其特征在于,所述获取待构建用户的基础信息以及历史出行信息,包括:
获取待构建用户的原始基础信息以及原始历史出行信息;
获取所述原始基础信息中与预设属性标签类型对应的基础信息,获取所述原始历史出行信息中与预设行为标签类型和预设数值标签类型对应的历史出行信息。
3.根据权利要求2所述的方法,其特征在于,所述获取待构建用户的原始基础信息以及原始历史出行信息,包括:
查询所述待构建用户对应的办公自动化系统,得到原始基础信息;
获取所述待构建用户对应的费用控制系统中的历史订单信息;
在预设出行页面中设置预设埋点,并根据所述预设埋点的触发信息获取所述待构建用户在所述预设出行页面中的历史交易信息;
根据所述历史订单信息以及所述历史交易信息,得到原始历史出行信息。
4.根据权利要求2所述的方法,其特征在于,所述获取所述原始基础信息中与预设属性标签类型对应的基础信息,获取所述原始历史出行信息中与预设行为标签类型和预设数值标签类型对应的历史出行信息,包括:
获取所述原始基础信息中预设属性标签类型对应的用户性别、用户年龄、用户职业信息以及用户差旅标准等级中的至少一种,作为基础信息;
获取所述原始历史出行信息中预设行为标签类型对应的订单操作行为信息、出行偏好信息以及住宿偏好信息中的至少一种,作为历史出行行为信息;
获取所述原始历史出行信息中预设数值标签类型对应的消费金额、消费频次和消费单价中的至少一种,作为历史出行消费信息;
根据所述历史出行行为信息和所述历史出行消费信息,得到历史出行信息。
5.根据权利要求2所述的方法,其特征在于,所述获取待构建用户的原始基础信息,包括:
获取所述待构建用户的用户信息;
对所述用户信息进行加密、转码和脱敏处理,得到原始基础信息。
6.根据权利要求1所述的方法,其特征在于,所述根据预设规则,获取所述历史出行信息对应的逻辑标签,以及根据预设算法,获取所述历史出行信息对应的预测标签,包括:
根据所述历史出行信息与预设数值阈值的比较结果,确定所述历史出行信息对应的出行偏好类型,作为逻辑标签;
将所述历史出行信息输入预设算法,确定所述历史出行信息对应的预测用户类型,作为预测标签。
7.根据权利要求1所述的方法,其特征在于,所述根据所述标签集合,构建对应类型的用户画像,包括:
对多个标签集合进行聚类处理,得到包含同类事实标签、同类逻辑标签以及同类预测标签的多个同类标签集合;
根据所述多个同类标签集合中均包含的标签的类型,得到该类型用户对应的用户画像。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述事实标签以及所述预测标签存储到预设关系数据库中,并将所述逻辑标签存储到分布式存储系统中,得到存储完成的标签信息。
9.一种用户画像构建装置,其特征在于,所述装置包括:
第一获取模块,用于获取待构建用户的基础信息以及历史出行信息;
第二获取模块,用于根据所述基础信息获取对应的事实标签,根据预设规则,获取所述历史出行信息对应的逻辑标签,以及根据预设算法,获取所述历史出行信息对应的预测标签;
构建模块,用于根据所述待构建用户的所述事实标签、所述逻辑标签以及所述预测标签,确定所述待构建用户的标签集合,并根据所述标签集合,构建对应类型的用户画像。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210619630.1A CN115098572A (zh) | 2022-06-02 | 2022-06-02 | 用户画像构建方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210619630.1A CN115098572A (zh) | 2022-06-02 | 2022-06-02 | 用户画像构建方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115098572A true CN115098572A (zh) | 2022-09-23 |
Family
ID=83289776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210619630.1A Pending CN115098572A (zh) | 2022-06-02 | 2022-06-02 | 用户画像构建方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115098572A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235586A (zh) * | 2023-11-16 | 2023-12-15 | 青岛小帅智能科技股份有限公司 | 酒店客户画像构建方法、系统、电子设备及存储介质 |
-
2022
- 2022-06-02 CN CN202210619630.1A patent/CN115098572A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235586A (zh) * | 2023-11-16 | 2023-12-15 | 青岛小帅智能科技股份有限公司 | 酒店客户画像构建方法、系统、电子设备及存储介质 |
CN117235586B (zh) * | 2023-11-16 | 2024-02-09 | 青岛小帅智能科技股份有限公司 | 酒店客户画像构建方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220066772A1 (en) | System and Method for Code and Data Versioning in Computerized Data Modeling and Analysis | |
CN105074724B (zh) | 使用列式数据库中的直方图进行有效查询处理 | |
US11593402B2 (en) | System and method for enabling multiple parents with weights in a multidimensional database environment | |
Elgendy et al. | Big data analytics: a literature review paper | |
CN106933956B (zh) | 数据挖掘方法和装置 | |
CN112699175A (zh) | 一种数据治理系统及其方法 | |
US8560491B2 (en) | Massively scalable reasoning architecture | |
US8340995B2 (en) | Method and system of using artifacts to identify elements of a component business model | |
KR102280223B1 (ko) | 빅데이터 기반의 상품구매 의사결정 지원 서비스 제공 방법 및 이를 위한 시스템 | |
CN112396108A (zh) | 业务数据评估方法、装置、设备及计算机可读存储介质 | |
US20100287014A1 (en) | Contextualizing business intelligence reports based on context driven information | |
JP5654655B2 (ja) | 部屋在庫管理システム | |
CN103548019A (zh) | 用于根据数据仓库提供统计信息的方法和系统 | |
US9336245B2 (en) | Systems and methods providing master data management statistics | |
Höpken et al. | Tourism knowledge destination | |
Höpken et al. | Multi-dimensional data modelling for a tourism destination data warehouse | |
US20180246951A1 (en) | Database-management system comprising virtual dynamic representations of taxonomic groups | |
CN116089495A (zh) | 一种基于大数据的自助分析平台 | |
Vinod | Big data in the travel marketplace | |
CN112380454A (zh) | 培训课程推荐方法、装置、设备及介质 | |
CN115098572A (zh) | 用户画像构建方法、装置和计算机设备 | |
CN114741402A (zh) | 业务特征池的处理方法、装置、计算机设备和存储介质 | |
US20140149186A1 (en) | Method and system of using artifacts to identify elements of a component business model | |
CN111179076A (zh) | It系统智能管理方法、装置及计算机可读存储介质 | |
JP2018190382A (ja) | データ参照権限管理装置、データ参照権限管理方法およびデータ参照権限管理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |