CN114238716A - 用户特征的生成方法、装置和电子设备 - Google Patents
用户特征的生成方法、装置和电子设备 Download PDFInfo
- Publication number
- CN114238716A CN114238716A CN202111400010.0A CN202111400010A CN114238716A CN 114238716 A CN114238716 A CN 114238716A CN 202111400010 A CN202111400010 A CN 202111400010A CN 114238716 A CN114238716 A CN 114238716A
- Authority
- CN
- China
- Prior art keywords
- user
- feature
- user data
- dimension
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 7
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000001186 cumulative effect Effects 0.000 description 33
- 235000019580 granularity Nutrition 0.000 description 29
- 238000005516 engineering process Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开关于一种用户特征的生成方法、装置和电子设备,属于大数据数据分析技术领域。其中,该用户特征的生成方法包括:获取用户数据;基于用户特征维度的时间粒度,获取所述用户数据的失效判据;基于失效判据,识别所述用户数据是否失效;基于有效的所述用户数据,生成所述用户在所述用户特征维度下的特征表示。由此,可基于用户特征维度的时间粒度,从用户数据中筛选出有效的用户数据,并仅根据有效的用户数据生成用户在用户特征维度下的特征表示,可大大减少特征表示生成过程中处理的数据量,有助于节省计算资源。
Description
技术领域
本公开涉及大数据数据分析技术领域,尤其涉及一种用户特征的生成方法、装置和电子设备。
背景技术
目前,随着互联网技术的不断发展,网络业务的类型较多,比如银行业务、保险业务、购物业务等,丰富了人们的生活,也大大提高了业务的处理效率。为了向用户提供更优质的业务服务,需要获取用户的特征表示,然而,随着业务种类和用户量的不断增长,数据量较为庞大,生成特征表示需要耗费的计算资源较多。
发明内容
本公开提供一种用户特征的生成方法、装置、电子设备、计算机可读存储介质和计算机程序产品,以至少解决相关技术中生成特征表示需要耗费的计算资源较多的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种用户特征的生成方法,包括:获取用户数据;基于用户特征维度的时间粒度,获取所述用户数据的失效判据;基于所述失效判据,识别所述用户数据是否失效;基于有效的所述用户数据,生成所述用户在所述用户特征维度下的特征表示。
在本公开的一个实施例中,所述失效判据为目标时间范围,所述基于所述失效判据,识别所述用户数据是否失效,包括:获取所述用户数据的获取时间;识别所述获取时间处于所述目标时间范围,确定所述用户数据有效;或者,识别所述获取时间未处于所述目标时间范围,确定所述用户数据失效。
在本公开的一个实施例中,所述失效判据为最大允许存储时长,所述基于所述失效判据,识别所述用户数据是否失效,包括:获取所述用户数据的存储时长;识别所述存储时长小于或者等于所述最大允许存储时长,确定所述用户数据有效;或者,识别所述存储时长大于所述最大允许存储时长,确定所述用户数据失效。
在本公开的一个实施例中,所述获取用户数据之后,还包括:将所述用户数据存储至本地。
在本公开的一个实施例中,所述方法还包括:将失效的所述用户数据从本地存储中删除。
在本公开的一个实施例中,所述基于有效的所述用户数据,生成所述用户在所述用户特征维度下的特征表示,包括:获取所述用户特征维度的优先级;基于所述优先级确定所述用户特征维度对应的特征表示的生成顺序;基于有效的所述用户数据,按照所述生成顺序依次生成所述用户在每个所述用户特征维度下的特征表示。
在本公开的一个实施例中,所述基于有效的所述用户数据,生成所述用户在所述用户特征维度下的特征表示,包括:识别所述用户特征维度之间的层级关系;针对任意一个属于第一层级的第一用户特征维度,获取所述第一用户特征维度对应的属于第二层级的每个第二用户特征维度,其中,属于所述第二层级的第二用户特征维度用于聚合成所述属于第一层级的第一用户特征维度;基于有效的所述用户数据,生成所述用户在所述第二用户特征维度下的特征表示;根据所述用户在每个所述第二用户特征维度下的特征表示,生成所述用户在所述第一用户特征维度下的特征表示。
在本公开的一个实施例中,所述生成所述用户在所述用户特征维度下的特征表示之后,还包括:识别是否满足特征表示的更新条件;响应于满足所述特征表示的更新条件,则返回执行获取所述用户数据及其后续步骤,以更新所述用户在所述用户特征维度下的特征表示。
根据本公开实施例的第二方面,提供一种用户特征的生成装置,包括:第一获取模块,被配置为获取用户数据;第二获取模块,被配置为基于用户特征维度的时间粒度,获取所述用户数据的失效判据;识别模块,被配置为基于所述失效判据,识别所述用户数据是否失效;生成模块,被配置为基于有效的所述用户数据,生成所述用户在所述用户特征维度下的特征表示。
在本公开的一个实施例中,所述失效判据为目标时间范围,所述识别模块,还被配置为:获取所述用户数据的获取时间;识别所述获取时间处于所述目标时间范围,确定所述用户数据有效;或者,识别所述获取时间未处于所述目标时间范围,确定所述用户数据失效。
在本公开的一个实施例中,所述失效判据为最大允许存储时长,所述识别模块,还被配置为:获取所述用户数据的存储时长;识别所述存储时长小于或者等于所述最大允许存储时长,确定所述用户数据有效;或者,识别所述存储时长大于所述最大允许存储时长,确定所述用户数据失效。
在本公开的一个实施例中,所述装置还包括:存储模块,所述存储模块,被配置为将所述用户数据存储至本地。
在本公开的一个实施例中,所述存储模块,还被配置为:将失效的所述用户数据从本地存储中删除。
在本公开的一个实施例中,所述生成模块,还被配置为:获取所述用户特征维度的优先级;基于所述优先级确定所述用户特征维度对应的特征表示的生成顺序;基于有效的所述用户数据,按照所述生成顺序依次生成所述用户在每个所述用户特征维度下的特征表示。
在本公开的一个实施例中,所述生成模块,还被配置为:识别所述用户特征维度之间的层级关系;针对任意一个属于第一层级的第一用户特征维度,获取所述第一用户特征维度对应的属于第二层级的每个第二用户特征维度,其中,属于所述第二层级的第二用户特征维度用于聚合成所述属于第一层级的第一用户特征维度;基于有效的所述用户数据,生成所述用户在所述第二用户特征维度下的特征表示;根据所述用户在每个所述第二用户特征维度下的特征表示,生成所述用户在所述第一用户特征维度下的特征表示。
在本公开的一个实施例中,所述装置还包括:更新模块,所述更新模块,被配置为:识别是否满足特征表示的更新条件;响应于满足所述特征表示的更新条件,则返回执行获取所述用户数据及其后续步骤,以更新所述用户在所述用户特征维度下的特征表示。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如前所述的用户特征的生成方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如前所述的用户特征的生成方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如前所述的用户特征的生成方法。
本公开的实施例提供的技术方案至少带来以下有益效果:可基于用户特征维度的时间粒度,获取用户数据的失效判据,基于失效判据,识别用户数据是否失效,并基于有效的用户数据,生成用户在用户特征维度下的特征表示。由此,可基于用户特征维度的时间粒度,从用户数据中筛选出有效的用户数据,并仅根据有效的用户数据生成用户在用户特征维度下的特征表示,相较于相关技术中根据庞大的数据量生成特征表示,耗费较多的计算资源,特征表示生成的实时性较差的技术问题,本方案可大大减少特征表示生成过程中处理的数据量,有助于节省计算资源,特征表示生成的实时性较好。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据本公开第一实施例的用户特征的生成方法的流程示意图。
图2是根据本公开第二实施例的用户特征的生成方法的流程示意图。
图3是根据本公开第三实施例的用户特征的生成方法的流程示意图。
图4是根据本公开第一实施例的用户特征的生成装置的框图。
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本公开技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
图1是根据本公开第一实施例的用户特征的生成方法的流程示意图。
如图1所示,本公开第一实施例的用户特征的生成方法,包括以下步骤:
在步骤S101中,获取用户数据。
需要说明的是,本公开的用户特征的生成方法的执行主体为电子设备。本公开实施例的用户特征的生成方法可以由本公开实施例的用户特征的生成装置执行,本公开实施例的用户特征的生成装置可以配置在任意电子设备中,以执行本公开实施例的用户特征的生成方法。
本公开的实施例中,可获取用户数据。应说明的是,用户数据的类型可根据实际情况进行设置,这里不做过多限定。例如,用户数据包括但不限于用户生理体征数据和用户行为数据,其中,用户生理体征数据包括但不限于年龄、性别、身高、体重等,用户行为数据包括但不限于用户登录次数、登录时长、资源变化数据等。资源可为交易金额,或者可为用于交易的积分,资源变化数据包括但不限于累计交易金额、累计交易次数、累计消耗积分、累计积分使用次数。
在一种实施方式中,获取用户数据,可包括对用户数据进行连续周期性采样,其中,采样周期可根据实际情况进行设置,这里不做过多限定,例如,采样周期可为2秒。
在一种实施方式中,可采用Flume技术获取用户数据。其中,Flume为一种日志收集系统。
在步骤S102中,基于用户特征维度的时间粒度,获取用户数据的失效判据。
本公开的实施例中,可根据实际情况预先设置用户特征维度,这里不做过多限定。可以理解的是,用户特征维度的数量可为一个或多个。例如,用户特征维度包括但不限于用户年龄、用户性别、用户是否登录、累计登录次数、累计交易金额等。
本公开的实施例中,不同的用户特征维度可对应不同的时间粒度。例如,用户特征维度A为过去一周的累计交易金额,则时间粒度为7天,用户特征维度B为上个月的累计交易金额,则时间粒度为31天。
本公开的实施例中,可基于用户特征维度的时间粒度,获取用户数据的失效判据。应说明的是,失效判据指的是用于判定用户数据是否失效的参数,对失效判据的类别不做过多限定,例如,失效判据包括但不限于目标时间范围、最大允许存储时长等。
在一种实施方式中,基于用户特征维度的时间粒度,获取目标时间范围,可包括基于当前时间和时间粒度,获取目标时间范围。
例如,用户特征维度A为过去一周的累计交易金额,则时间粒度为7天,当天日期为8月10日,则目标时间范围为8月4日至8月10日。
例如,用户特征维度B为上个月的累计交易金额,则时间粒度为31天,当天日期为8月10日,则目标时间范围为7月1日至7月31日。
在一种实施方式中,可基于用户特征维度的时间粒度,获取最大允许存储时长。
例如,用户特征维度A为过去一周的累计交易金额,则时间粒度为7天,最大允许存储时长为7天。
例如,用户特征维度C为过去一个月的累计交易金额,则时间粒度为31天,最大允许存储时长为31天。
在步骤S103中,基于失效判据,识别用户数据是否失效。
在一种实施方式中,失效判据为目标时间范围,则基于失效判据,识别用户数据是否失效,可包括获取用户数据的获取时间,识别获取时间处于目标时间范围,确定用户数据有效;或者,识别获取时间未处于目标时间范围,确定用户数据失效。
可以理解的是,不同的用户数据可对应不同的获取时间。
例如,用户特征维度A为过去一周的累计交易金额,则时间粒度为7天,当天日期为8月10日,则目标时间范围为8月4日至8月10日,用户数据1、2均为交易金额,若用户数据1的获取时间为8月5日,则可识别用户数据1的获取时间处于目标时间范围,确定用户数据1有效;若用户数据2的获取时间为8月2日,则可识别用户数据2的获取时间未处于目标时间范围,确定用户数据2失效。
例如,用户特征维度B为上个月的累计交易金额,则时间粒度为31天,当天日期为8月10日,则目标时间范围为7月1日至7月31日,用户数据1、2均为交易金额,若用户数据1的获取时间为7月5日,则可识别用户数据1的获取时间处于目标时间范围,确定用户数据1有效;若用户数据2的获取时间为6月29日,则可识别用户数据2的获取时间未处于目标时间范围,确定用户数据2失效。
由此,该方法可基于用户数据的获取时间和目标时间范围,识别用户数据是否失效。
在一种实施方式中,失效判据为最大允许存储时长,则基于失效判据,识别用户数据是否失效,可包括获取用户数据的存储时长,识别存储时长小于或者等于最大允许存储时长,确定用户数据有效;或者,识别存储时长大于最大允许存储时长,确定用户数据失效。
可以理解的是,获取用户数据之后,还包括将用户数据存储至本地。
可以理解的是,不同的用户数据可对应不同的存储时长。应说明的是,存储时长为用户数据的获取时间至当前时间的时长。
例如,用户特征维度A为过去一周的累计交易金额,则时间粒度为7天,最大允许存储时长为7天,用户数据1、2均为交易金额,若用户数据1的存储时长为2天,则可识别用户数据1的存储时长小于或者等于最大允许存储时长,确定用户数据1有效;若用户数据2的存储时长为10天,则可识别用户数据2的存储时长大于最大允许存储时长,确定用户数据2失效。
例如,用户特征维度C为过去一个月的累计交易金额,则时间粒度为31天,最大允许存储时长为31天,用户数据1、2均为交易金额,若用户数据1的存储时长为8天,则可识别用户数据1的存储时长小于或者等于最大允许存储时长,确定用户数据1有效;若用户数据2的存储时长为40天,则可识别用户数据2的存储时长大于最大允许存储时长,确定用户数据2失效。
在一种实施方式中,识别用户数据是否失效之后,还可将失效的用户数据从本地存储中删除,从而可保证本地存储中仅存储有效的用户数据,可大大减少本地存储的数据量,有助于节省计算资源。
在步骤S104中,基于有效的用户数据,生成用户在用户特征维度下的特征表示。
本公开的实施例中,可基于有效的用户数据,生成用户在用户特征维度下的特征表示。
例如,用户特征维度1为用户年龄,用户年龄下的特征表示为自然数,若获取用户年龄为26岁,则可生成用户在用户年龄下的特征表示为26。
例如,用户特征维度2为用户性别,用户性别下的特征表示可为0或1,用户性别的特征表示为0,表明用户性别为男,用户性别的特征表示为1,表明用户性别为女。若获取用户性别为男,则可生成用户在用户性别下的特征表示为1。
例如,用户特征维度3为过去一周的累计交易金额,过去一周的累计交易金额下的特征表示为任意数值,当天日期为8月10日,若8月4日至8月10日的累计交易金额为1000元,则可生成用户在过去一周的累计交易金额下的特征表示为1000。
例如,用户特征维度4为过去一周的累计交易金额大于1000元,且过去一周每天的累计交易金额大于10元,且昨天的累计交易次数大于3次,则用户特征维度4下的特征表示为0或1。用户特征维度4下的特征表示为0,表明过去一周的累计交易金额小于或者等于1000元,和/或过去一周存在至少一天的累计交易金额小于或者等于10元,和/或昨天的累计交易次数小于或者等于3次;用户特征维度4下的特征表示为0,表明过去一周的累计交易金额大于1000元,且过去一周每天的累计交易金额大于10元,且昨天的累计交易次数大于3次。
当天日期为8月10日,若8月4日至8月10日的累计交易金额为2000元,且8月4日至8月10日每天的累计交易金额大于10元,8月9日的累计交易次数为5次,则可生成用户在用户特征维度4下的特征表示为1。
当天日期为8月10日,若8月4日至8月10日的累计交易金额为800元,则可生成用户在用户特征维度4下的特征表示为0。
在一种实施方式中,生成用户在用户特征维度下的特征表示之后,还包括识别是否满足特征表示的更新条件,响应于满足特征表示的更新条件,则返回执行获取用户数据及其后续步骤,以更新用户在用户特征维度下的特征表示。由此,该方法可在满足特征表示的更新条件时,重新获取用户在用户特征维度下的特征表示,以对特征表示进行更新,可保证特征表示的时效性。
可以理解的是,特征表示的更新条件可根据实际情况进行设置,这里不做过多限定。不同的用户特征维度下的特征表示可对应不同的更新条件。
例如,用户特征维度A为过去一周的累计交易金额,则对应的更新条件为当前时刻达到预设的第一目标时刻,相邻两个第一目标时刻之间的间隔时长为24小时。例如,第一目标时刻可设置为8点。由此,该方法可保证过去一周的累计交易金额下的特征表示可每天更新。
例如,用户特征维度B为过去一小时的累计交易金额,则对应的更新条件为当前时刻达到预设的第二目标时刻,相邻两个第二目标时刻之间的间隔时长为1小时。第二目标时刻可设置为整点时刻,例如,0点、1点、2点至23点。由此,该方法可保证过去一小时的累计交易金额下的特征表示可每小时更新。
综上,根据本公开实施例提供的用户特征的生成方法,可基于用户特征维度的时间粒度,获取用户数据的失效判据,基于失效判据,识别用户数据是否失效,并基于有效的用户数据,生成用户在用户特征维度下的特征表示。由此,可基于用户特征维度的时间粒度,从用户数据中筛选出有效的用户数据,并仅根据有效的用户数据生成用户在用户特征维度下的特征表示,相较于相关技术中根据庞大的数据量生成特征表示,耗费较多的计算资源,特征表示生成的实时性较差的技术问题,本方案可大大减少特征表示生成过程中处理的数据量,有助于节省计算资源,特征表示生成的实时性较好。
图2是根据本公开第二实施例的用户特征的生成方法的流程示意图。
如图2所示,本公开第二实施例的用户特征的生成方法,包括以下步骤:
在步骤S201中,获取用户数据。
在步骤S202中,基于用户特征维度的时间粒度,获取用户数据的失效判据。
在步骤S203中,基于失效判据,识别用户数据是否失效。
步骤S201-S203的相关内容可参见上述实施例,这里不再赘述。
在步骤S204中,获取用户特征维度的优先级。
本公开的实施例中,可根据实际情况预先设置用户特征维度的优先级。
在一种实施方式中,可预先建立用户特征维度和优先级之间的映射关系或者映射表,在获取到用户特征维度之后,查询上述映射关系或者映射表,可获取用户特征维度映射的优先级,并将其作为用户特征维度的优先级。应说明的是,上述映射关系或者映射表均可根据实际情况进行设置,这里不做过多限定。
在步骤S205中,基于优先级确定用户特征维度对应的特征表示的生成顺序。
本公开的实施例中,可基于优先级确定用户特征维度对应的特征表示的生成顺序。
在一种实施方式中,针对任意两个用户特征维度,其中优先级高的用户特征维度对应的特征表示的生成顺序早于优先级低的用户特征维度对应的特征表示的生成顺序,即优先级高的用户特征维度对应的特征表示的生成顺序较早,优先生成优先级高的用户特征维度对应的特征表示。
在一种实施方式中,优先级相同的用户特征维度对应的特征表示的生成顺序可相同,即优先级相同的用户特征维度对应的特征表示可并行生成。
在一种实施方式中,优先级相同的用户特征维度对应的特征表示的生成顺序可不同,可随机生成优先级相同的用户特征维度对应的特征表示的生成顺序,且优先级相同的用户特征维度对应的特征表示的生成顺序连续。
例如,用户特征维度包括用户特征维度1至5,用户特征维度1至5的优先级分别为3、1、1、2、3,优先级1至3表示的优先级逐渐降低,可知用户特征维度2、3的优先级相同,用户特征维度1、5的优先级相同,用户特征维度2、3的优先级高于用户特征维度4的优先级,用户特征维度4的优先级高于用户特征维度1、5的优先级,则用户特征维度1至5对应的特征表示的生成顺序可为用户特征维度2对应的特征表示、用户特征维度3对应的特征表示、用户特征维度4对应的特征表示、用户特征维度1对应的特征表示、用户特征维度5对应的特征表示,即用户特征维度2对应的特征表示的生成顺序最早,用户特征维度5对应的特征表示的生成顺序最晚。
在步骤S206中,基于有效的用户数据,按照生成顺序依次生成用户在每个用户特征维度下的特征表示。
本公开的实施例中,可基于有效的用户数据,按照生成顺序依次生成用户在每个用户特征维度下的特征表示。
例如,用户特征维度包括用户特征维度1至5,用户特征维度1至5对应的特征表示的生成顺序可为用户特征维度2对应的特征表示、用户特征维度3对应的特征表示、用户特征维度4对应的特征表示、用户特征维度1对应的特征表示、用户特征维度5对应的特征表示,则可基于有效的用户数据,依次生成用户特征维度2对应的特征表示、用户特征维度3对应的特征表示、用户特征维度4对应的特征表示、用户特征维度1对应的特征表示、用户特征维度5对应的特征表示。
综上,根据本公开实施例提供的用户特征的生成方法,可基于用户特征维度的优先级,确定用户特征维度对应的特征表示的生成顺序,并基于有效的用户数据,按照生成顺序依次生成用户在每个用户特征维度下的特征表示,可保证特征表示生成的有序性。
图3是根据本公开第三实施例的用户特征的生成方法的流程示意图。
如图3所示,本公开第三实施例的用户特征的生成方法,包括以下步骤:
在步骤S301中,获取用户数据。
在步骤S302中,基于用户特征维度的时间粒度,获取用户数据的失效判据。
在步骤S303中,基于失效判据,识别用户数据是否失效。
步骤S301-S303的相关内容可参见上述实施例,这里不再赘述。
在步骤S304中,识别用户特征维度之间的层级关系。
本公开的实施例中,可根据实际情况预先设置用户特征维度之间的层级关系。进一步地,可识别用户特征维度之间的层级关系。
在步骤S305中,针对任意一个属于第一层级的第一用户特征维度,获取第一用户特征维度对应的属于第二层级的每个第二用户特征维度。
本公开的实施例中,用户特征维度包括属于第一层级的第一用户特征维度和属于第二层级的第二用户特征维度。其中,属于第二层级的第二用户特征维度用于聚合成属于第一层级的第一用户特征维度。第一用户特征维度和第二用户特征维度之间具有对应关系,不同的第一用户特征维度可对应不同的第二用户特征维度。
例如,用户特征维度1为每天的累计交易金额,用户特征维度2为过去一周的累计交易金额,则用户特征维度1、2之间的层级关系为用户特征维度2为属于第一层级的第一用户特征维度,用户特征维度1为用户特征维度2对应的属于第二层级的第二用户特征维度。
例如,用户特征维度1为过去一周的累计交易金额,用户特征维度2为过去一周每天的累计交易金额,用户特征维度3为昨天的累计交易次数,用户特征维度4为过去一周的累计交易金额大于1000元,且过去一周每天的累计交易金额大于10元,且昨天的累计交易次数大于3次,则用户特征维度1至4之间的层级关系为用户特征维度4为属于第一层级的第一用户特征维度,用户特征维度1至3为用户特征维度4对应的属于第二层级的第二用户特征维度。
在步骤S306中,基于有效的用户数据,生成用户在第二用户特征维度下的特征表示。
步骤S306的相关内容可参见上述实施例,这里不再赘述。
在步骤S307中,根据用户在每个第二用户特征维度下的特征表示,生成用户在第一用户特征维度下的特征表示。
例如,用户特征维度1为每天的累计交易金额,用户特征维度2为过去一周的累计交易金额,当天日期为8月10日,则可获取8月4日至8月10日用户在用户特征维度1下的特征表示,并将8月4日至8月10日用户在用户特征维度1下的特征表示的和值作为用户在用户特征维度2下的特征表示。
例如,用户特征维度1为过去一周的累计交易金额,用户特征维度2为过去一周每天的累计交易金额,用户特征维度3为昨天的累计交易次数,用户特征维度4为过去一周的累计交易金额大于1000元,且过去一周每天的累计交易金额大于10元,且昨天的累计交易次数大于3次。
可获取用户在用户特征维度1下的特征表示为2000元,获取用户在用户特征维度2下的特征表示分别为20、15、20、15、20、30、10,获取用户在用户特征维度3下的特征表示为5次,则生成用户在用户特征维度4下的特征表示为1。
可获取用户在用户特征维度1下的特征表示为800元,则可生成用户在用户特征维度4下的特征表示为0。
综上,根据本公开实施例提供的用户特征的生成方法,可根据用户在第二层级的第二用户特征维度下的特征表示,生成用户在第一用户特征维度下的特征表示,能够利用用户特征维度之间的层级关系生成特征表示,简化了特征表示的生成过程,有助于节省计算资源。
图4为根据本公开第一实施例的用户特征的生成装置的框图。
如图4所示,本公开实施例的用户特征的生成装置400,包括:第一获取模块401、第二获取模块402、识别模块403和生成模块404。
第一获取模块401,被配置为获取用户数据;
第二获取模块402,被配置为基于用户特征维度的时间粒度,获取所述用户数据的失效判据;
识别模块403,被配置为基于失效判据,识别所述用户数据是否失效;
生成模块404,被配置为基于有效的所述用户数据,生成所述用户在所述用户特征维度下的特征表示。
在本公开的一个实施例中,所述失效判据为目标时间范围,所述识别模块403,还被配置为:获取所述用户数据的获取时间;识别所述获取时间处于所述目标时间范围,确定所述用户数据有效;或者,识别所述获取时间未处于所述目标时间范围,确定所述用户数据失效。
在本公开的一个实施例中,所述失效判据为最大允许存储时长,所述识别模块403,还被配置为:获取所述用户数据的存储时长;识别所述存储时长小于或者等于所述最大允许存储时长,确定所述用户数据有效;或者,识别所述存储时长大于所述最大允许存储时长,确定所述用户数据失效。
在本公开的一个实施例中,所述用户特征的生成装置400还包括:存储模块,所述存储模块,被配置为将所述用户数据存储至本地。
在本公开的一个实施例中,所述存储模块,还被配置为:将失效的所述用户数据从本地存储中删除。
在本公开的一个实施例中,所述生成模块404,还被配置为:获取所述用户特征维度的优先级;基于所述优先级确定所述用户特征维度对应的特征表示的生成顺序;基于有效的所述用户数据,按照所述生成顺序依次生成所述用户在每个所述用户特征维度下的特征表示。
在本公开的一个实施例中,所述生成模块404,还被配置为:识别所述用户特征维度之间的层级关系;针对任意一个属于第一层级的第一用户特征维度,获取所述第一用户特征维度对应的属于第二层级的每个第二用户特征维度,其中,属于所述第二层级的第二用户特征维度用于聚合成所述属于第一层级的第一用户特征维度;基于有效的所述用户数据,生成所述用户在所述第二用户特征维度下的特征表示;根据所述用户在每个所述第二用户特征维度下的特征表示,生成所述用户在所述第一用户特征维度下的特征表示。
在本公开的一个实施例中,所述用户特征的生成装置400还包括:更新模块,所述更新模块,被配置为:识别是否满足特征表示的更新条件;响应于满足所述特征表示的更新条件,则返回执行获取所述用户数据及其后续步骤,以更新所述用户在所述用户特征维度下的特征表示。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
综上,本公开实施例提供的用户特征的生成装置,可基于用户特征维度的时间粒度,获取用户数据的失效判据,基于失效判据,识别用户数据是否失效,并基于有效的用户数据,生成用户在用户特征维度下的特征表示。由此,可基于用户特征维度的时间粒度,从用户数据中筛选出有效的用户数据,并仅根据有效的用户数据生成用户在用户特征维度下的特征表示,相较于相关技术中根据庞大的数据量生成特征表示,耗费较多的计算资源,特征表示生成的实时性较差的技术问题,本方案可大大减少特征表示生成过程中处理的数据量,有助于节省计算资源,特征表示生成的实时性较好。
图5是根据一示例性实施例示出的一种电子设备的框图。
如图5所示,上述电子设备500包括:
存储器510及处理器520,连接不同组件(包括存储器510和处理器520)的总线530,存储器510存储有计算机程序,当处理器520执行所述程序时实现本公开实施例所述的用户特征的生成方法。
总线530表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备500典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备500访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器510还可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)540和/或高速缓存存储器550。电子设备500可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统560可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线530相连。存储器510可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。
具有一组(至少一个)程序模块570的程序/实用工具580,可以存储在例如存储器510中,这样的程序模块570包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块570通常执行本公开所描述的实施例中的功能和/或方法。
电子设备500也可以与一个或多个外部设备590(例如键盘、指向设备、显示器591等)通信,还可与一个或者多个使得用户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口592进行。并且,电子设备500还可以通过网络适配器593与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器593通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器520通过运行存储在存储器510中的程序,从而执行各种功能应用以及数据处理。
需要说明的是,本实施例的电子设备的实施过程和技术原理参见前述对本公开实施例的用户特征的生成方法的解释说明,此处不再赘述。
综上,本公开实施例提供的电子设备,可以执行如前所述的用户特征的生成方法,可基于用户特征维度的时间粒度,获取用户数据的失效判据,基于失效判据,识别用户数据是否失效,并基于有效的用户数据,生成用户在用户特征维度下的特征表示。由此,可基于用户特征维度的时间粒度,从用户数据中筛选出有效的用户数据,并仅根据有效的用户数据生成用户在用户特征维度下的特征表示,相较于相关技术中根据庞大的数据量生成特征表示,耗费较多的计算资源,特征表示生成的实时性较差的技术问题,本方案可大大减少特征表示生成过程中处理的数据量,有助于节省计算资源,特征表示生成的实时性较好。
为了实现上述实施例,本公开还提出一种计算机可读存储介质。
其中,该计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如前所述的用户特征的生成方法。可选的,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
为了实现上述实施例,本公开还提供一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如前所述的用户特征的生成方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (19)
1.一种用户特征的生成方法,其特征在于,包括:
获取用户数据;
基于用户特征维度的时间粒度,获取所述用户数据的失效判据;
基于所述失效判据,识别所述用户数据是否失效;
基于有效的所述用户数据,生成所述用户在所述用户特征维度下的特征表示。
2.根据权利要求1所述的方法,其特征在于,所述失效判据为目标时间范围,所述基于所述失效判据,识别所述用户数据是否失效,包括:
获取所述用户数据的获取时间;
识别所述获取时间处于所述目标时间范围,确定所述用户数据有效;或者,
识别所述获取时间未处于所述目标时间范围,确定所述用户数据失效。
3.根据权利要求1所述的方法,其特征在于,所述失效判据为最大允许存储时长,所述基于所述失效判据,识别所述用户数据是否失效,包括:
获取所述用户数据的存储时长;
识别所述存储时长小于或者等于所述最大允许存储时长,确定所述用户数据有效;或者,
识别所述存储时长大于所述最大允许存储时长,确定所述用户数据失效。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述获取用户数据之后,还包括:
将所述用户数据存储至本地。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将失效的所述用户数据从本地存储中删除。
6.根据权利要求1所述的方法,其特征在于,所述基于有效的所述用户数据,生成所述用户在所述用户特征维度下的特征表示,包括:
获取所述用户特征维度的优先级;
基于所述优先级确定所述用户特征维度对应的特征表示的生成顺序;
基于有效的所述用户数据,按照所述生成顺序依次生成所述用户在每个所述用户特征维度下的特征表示。
7.根据权利要求1所述的方法,其特征在于,所述基于有效的所述用户数据,生成所述用户在所述用户特征维度下的特征表示,包括:
识别所述用户特征维度之间的层级关系;
针对任意一个属于第一层级的第一用户特征维度,获取所述第一用户特征维度对应的属于第二层级的每个第二用户特征维度,其中,属于所述第二层级的第二用户特征维度用于聚合成所述属于第一层级的第一用户特征维度;
基于有效的所述用户数据,生成所述用户在所述第二用户特征维度下的特征表示;
根据所述用户在每个所述第二用户特征维度下的特征表示,生成所述用户在所述第一用户特征维度下的特征表示。
8.根据权利要求1所述的方法,其特征在于,所述生成所述用户在所述用户特征维度下的特征表示之后,还包括:
识别是否满足特征表示的更新条件;
响应于满足所述特征表示的更新条件,则返回执行获取所述用户数据及其后续步骤,以更新所述用户在所述用户特征维度下的特征表示。
9.一种用户特征的生成装置,其特征在于,包括:
第一获取模块,被配置为获取用户数据;
第二获取模块,被配置为基于用户特征维度的时间粒度,获取所述用户数据的失效判据;
识别模块,被配置为基于所述失效判据,识别所述用户数据是否失效;
生成模块,被配置为基于有效的所述用户数据,生成所述用户在所述用户特征维度下的特征表示。
10.根据权利要求9所述的装置,其特征在于,所述失效判据为目标时间范围,所述识别模块,还被配置为:
获取所述用户数据的获取时间;
识别所述获取时间处于所述目标时间范围,确定所述用户数据有效;或者,
识别所述获取时间未处于所述目标时间范围,确定所述用户数据失效。
11.根据权利要求9所述的装置,其特征在于,所述失效判据为最大允许存储时长,所述识别模块,还被配置为:
获取所述用户数据的存储时长;
识别所述存储时长小于或者等于所述最大允许存储时长,确定所述用户数据有效;或者,
识别所述存储时长大于所述最大允许存储时长,确定所述用户数据失效。
12.根据权利要求9-11中任一项所述的装置,其特征在于,所述装置还包括:
存储模块,所述存储模块,被配置为将所述用户数据存储至本地。
13.根据权利要求12所述的装置,其特征在于,所述存储模块,还被配置为:
将失效的所述用户数据从本地存储中删除。
14.根据权利要求9所述的装置,其特征在于,所述生成模块,还被配置为:
获取所述用户特征维度的优先级;
基于所述优先级确定所述用户特征维度对应的特征表示的生成顺序;
基于有效的所述用户数据,按照所述生成顺序依次生成所述用户在每个所述用户特征维度下的特征表示。
15.根据权利要求9所述的装置,其特征在于,所述生成模块,还被配置为:
识别所述用户特征维度之间的层级关系;
针对任意一个属于第一层级的第一用户特征维度,获取所述第一用户特征维度对应的属于第二层级的每个第二用户特征维度,其中,属于所述第二层级的第二用户特征维度用于聚合成所述属于第一层级的第一用户特征维度;
基于有效的所述用户数据,生成所述用户在所述第二用户特征维度下的特征表示;
根据所述用户在每个所述第二用户特征维度下的特征表示,生成所述用户在所述第一用户特征维度下的特征表示。
16.根据权利要求9所述的装置,其特征在于,所述装置还包括:更新模块,所述更新模块,被配置为:
识别是否满足特征表示的更新条件;
响应于满足所述特征表示的更新条件,则返回执行获取所述用户数据及其后续步骤,以更新所述用户在所述用户特征维度下的特征表示。
17.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-8中任一项所述的用户特征的生成方法。
18.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-8中任一项所述的用户特征的生成方法。
19.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的用户特征的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111400010.0A CN114238716A (zh) | 2021-11-19 | 2021-11-19 | 用户特征的生成方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111400010.0A CN114238716A (zh) | 2021-11-19 | 2021-11-19 | 用户特征的生成方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114238716A true CN114238716A (zh) | 2022-03-25 |
Family
ID=80750714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111400010.0A Pending CN114238716A (zh) | 2021-11-19 | 2021-11-19 | 用户特征的生成方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114238716A (zh) |
-
2021
- 2021-11-19 CN CN202111400010.0A patent/CN114238716A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7243145B1 (en) | Generation of computer resource utilization data per computer application | |
WO2019062189A1 (zh) | 电子装置、数据表归档处理的方法、系统及存储介质 | |
CN113064897B (zh) | 一种业务指标模型的生成方法、装置、设备及存储介质 | |
CN112417274A (zh) | 一种消息推送方法、装置、电子设备及存储介质 | |
CN113486036A (zh) | 虚拟资源管理方法及装置、电子设备和存储介质 | |
CN115408546A (zh) | 一种时序数据管理方法、装置、设备及存储介质 | |
CN112184138A (zh) | 结合rpa和ai的电网工单处理方法、装置及电子设备 | |
CN115291806A (zh) | 一种处理方法、装置、电子设备及存储介质 | |
CN113626438B (zh) | 一种数据表管理的方法、装置、计算机设备及存储介质 | |
CN114416891A (zh) | 在知识图谱中进行数据处理的方法、系统、装置和介质 | |
CN112016009B (zh) | 数据处理方法、余额获取方法、装置、设备和存储介质 | |
CN112330502A (zh) | 合同审核方法及装置、电子设备、存储介质 | |
CN114238716A (zh) | 用户特征的生成方法、装置和电子设备 | |
CN116342305A (zh) | 一种差旅费报销方法、装置、计算机设备及存储介质 | |
CN110069349A (zh) | 一种基于大数据平台的资源消耗核算系统 | |
CN112015982B (zh) | 定制化新闻生成方法、装置、设备及存储介质 | |
CN114217790A (zh) | 接口编排调度方法、装置、电子设备及介质 | |
CN116303102B (zh) | 测试数据的生成方法、装置、电子设备和存储介质 | |
CN111143328A (zh) | 一种敏捷商业智能数据构建方法、系统、设备、存储介质 | |
CN111131393A (zh) | 用户活跃度数据统计方法、电子装置及存储介质 | |
CN118195707B (zh) | 用户行为分析方法、系统、装置及计算机可读存储介质 | |
CN114254918A (zh) | 指标数据的计算方法、装置、可读介质及电子设备 | |
CN116680263A (zh) | 数据清洗方法、装置、计算机设备及存储介质 | |
CN114819905A (zh) | 文档集的时间合规审查方法、装置、电子设备及存储介质 | |
CN117273782A (zh) | 人群圈选方法、装置和计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |