CN112527851B - 用户特征数据筛选方法、装置及电子设备 - Google Patents

用户特征数据筛选方法、装置及电子设备 Download PDF

Info

Publication number
CN112527851B
CN112527851B CN202110158341.1A CN202110158341A CN112527851B CN 112527851 B CN112527851 B CN 112527851B CN 202110158341 A CN202110158341 A CN 202110158341A CN 112527851 B CN112527851 B CN 112527851B
Authority
CN
China
Prior art keywords
feature
data
characteristic
features
feature data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110158341.1A
Other languages
English (en)
Other versions
CN112527851A (zh
Inventor
张瑞军
丁楠
苏绥绥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qilu Information Technology Co Ltd
Original Assignee
Beijing Qilu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qilu Information Technology Co Ltd filed Critical Beijing Qilu Information Technology Co Ltd
Priority to CN202110158341.1A priority Critical patent/CN112527851B/zh
Publication of CN112527851A publication Critical patent/CN112527851A/zh
Application granted granted Critical
Publication of CN112527851B publication Critical patent/CN112527851B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种用户特征数据筛选方法、装置、电子设备及计算机可读介质。该方法包括:获取多个用户的多个特征数据,所述特征数据中包括多个特征和其对应的特征值;将所述特征数据中的多个特征进行数值类型变换处理;基于变换后的多个特征和其对应的特征值采用并行计算的方式,分别计算每个特征的映射值;基于每个特征的映射值确定所述多个特征数据对应的多个信息量;基于所述信息量由所述多个特征数据中提取目标特征数据。本公开涉及的用户特征数据筛选方法、装置、电子设备及计算机可读介质,能够快速准确的由海量用户特征中挑选出关键特征,进而减少模型训练时间,在实际应用中减少模型计算时间,提高用户体验度、减轻服务器系统压力。

Description

用户特征数据筛选方法、装置及电子设备
技术领域
本公开涉及计算机信息处理领域,具体而言,涉及一种用户特征数据筛选方法、装置、电子设备及计算机可读介质。
背景技术
在现有技术中,特别是金融领域,为了对用户进行风险分析,会由各个渠道获取能反映用户各种特征的特征数据,一个用户的特征经常有1万多个,如此大量的特征如果全部用来进行模型训练的话,会花费大量的时间。通常情况下,不会直接把1万个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这1万个自变量中挑选一些出来,放进模型,形成入模变量列表。
挑选合适的用户特征需要考虑的因素很多,比如:特征的预测能力,特征之间的相关性,特征的简单性,特征的强壮性,特征在业务上的可解释性等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。IV(Information Value)就是这样一种指标,他可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。可通过计算IV值的方式由大量的特征中挑选部分特征进行建模分析。
现有技术中,在计算用户特征的IV值的时候,需要逐一的进行计算挑选,耗费了大量的时间,如何能快速准确的挑选出用户关键特征,是目前亟待解决的问题。
因此,需要一种新的用户特征数据筛选方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种用户特征数据筛选方法、装置、电子设备及计算机可读介质,能够快速准确的由海量用户特征中挑选出用户关键特征,进而减少模型训练时间,在实际应用中减少模型计算时间,提高用户体验度、减轻服务器系统压力。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种用户特征数据筛选方法,该方法包括:获取多个用户的多个特征数据,所述特征数据中包括多个特征和其对应的特征值;将所述特征数据中的多个特征进行数值类型变换处理;基于变换后的多个特征和其对应的特征值采用并行计算的方式,分别计算每个特征的映射值;基于每个特征的映射值确定所述多个特征数据对应的多个信息量;基于所述信息量由所述多个特征数据中提取目标特征数据。
可选地,还包括:基于所述目标特征数据对机器学习模型进行训练,以生成用户风险模型,所述机器学习模型包括逻辑回归模型,决策树模型。
可选地,将所述特征数据中的多个特征进行数值类型变换处理,包括:将所述特征数据中的多个表格型的特征转换为flatmap型数据。
可选地,将所述特征数据中的多个表格型的特征转换为flatmap型数据,包括:以特征标识做基础将特征数据进行全局排序;将所述特征数据的属性、特征值、标签、空白映射值作为列向量;将所述特征数据的特征值由行向量转换为列向量。
可选地,基于变换后的多个特征和其对应的特征值采用并行计算的方式,分别计算每个特征的映射值,包括:将所述变换后的多个特征和其对应的特征值发送到分布式计算系统;分布式计算系统对特征的特征值进行分箱计算生成映射值。
可选地,分布式计算系统对特征的特征值进行分箱计算生成映射值,包括:确定分箱数量为k,k为大于1的正整数;在特征为数值型变量时,采用等频分箱方法将特征值映射到k个分箱中;在特征为类别型变量时,基于类别数量将特征值映射到k个分箱中。
可选地,基于每个特征的映射值确定所述多个特征数据对应的多个信息量,包括:基于每个特征的映射值再次进行并行计算以确定所述多个特征数据对应的多个信息量。
可选地,基于每个特征的映射值再次进行并行计算以确定所述多个特征数据对应的多个信息量,包括:将映射值按照多个分箱值分为多个分箱数据;基于每个分箱数据再次进行并行计算以确定所述多个特征数据对应的多个信息量。
可选地,基于所述信息量由所述多个特征数据中提取目标特征数据,包括:将所述信息量按照大小进行排序;基于所述排序由大至小的提取预设数量的特征作为所述特征数据。
可选地,还包括:基于风险分析模型对当前用户的用户特征数据进行分析,以生成所述当前用户的风险值;基于所述风险值为所述当前用户进行资源分配。
根据本公开的一方面,提出一种用户特征数据筛选装置,该装置包括:特征数据模块,用于获取多个用户的多个特征数据,所述特征数据中包括多个特征和其对应的特征值;类型变换模块,用于将所述特征数据中的多个特征进行数值类型变换处理;并行计算模块,用于基于变换后的多个特征和其对应的特征值采用并行计算的方式,分别计算每个特征的映射值;信息量模块,用于基于每个特征的映射值确定所述多个特征数据对应的多个信息量;提取目标模块,用于基于所述信息量由所述多个特征数据中提取目标特征数据。
可选地,还包括:模型训练模块,用于基于所述目标特征数据对机器学习模型进行训练,以生成用户风险模型,所述机器学习模型包括逻辑回归模型,决策树模型。
可选地,所述类型变换模块,包括:转换单元,用于将所述特征数据中的多个表格型的特征转换为flatmap型数据。
可选地,所述转换单元,还用于以特征标识做基础将特征数据进行全局排序;将所述特征数据的属性、特征值、标签、空白映射值作为列向量;将所述特征数据的特征值由行向量转换为列向量。
可选地,所述并行计算模块,包括:发送单元,用于将所述变换后的多个特征和其对应的特征值发送到分布式计算系统;分箱单元,用于分布式计算系统对特征的特征值进行分箱计算生成映射值。
可选地,所述分箱单元,还用于确定分箱数量为k,k为大于1的正整数;在特征为数值型变量时,采用等频分箱方法将特征值映射到k个分箱中;在特征为类别型变量时,基于类别数量将特征值映射到k个分箱中。
可选地,信息量模块,还用于基于每个特征的映射值再次进行并行计算以确定所述多个特征数据对应的多个信息量。
可选地,所述信息量模块,包括:数据单元,用于将映射值按照多个分箱值分为多个分箱数据;并行单元,用于基于每个分箱数据再次进行并行计算以确定所述多个特征数据对应的多个信息量。
可选地,所述提取目标模块,包括:排序单元,用于将所述信息量按照大小进行排序;提取单元,用于基于所述排序由大至小的提取预设数量的特征作为所述特征数据。
可选地,还包括:资源分配模块,用于基于风险分析模型对当前用户的用户特征数据进行分析,以生成所述当前用户的风险值;基于所述风险值为所述当前用户进行资源分配。
根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本公开的用户特征数据筛选方法、装置、电子设备及计算机可读介质,获取多个用户的多个特征数据,所述特征数据中包括多个特征和其对应的特征值;将所述特征数据中的多个特征进行数值类型变换处理;基于变换后的多个特征和其对应的特征值采用并行计算的方式,分别计算每个特征的映射值;基于每个特征的映射值确定所述多个特征数据对应的多个信息量;基于所述信息量由所述多个特征数据中提取目标特征数据的方式,能够快速准确的由海量用户特征中挑选出用户关键特征,进而减少模型训练时间,在实际应用中减少模型计算时间,提高用户体验度、减轻服务器系统压力。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种用户特征数据筛选方法及装置的系统框图。
图2是根据一示例性实施例示出的一种用户特征数据筛选方法的流程图。
图3是根据另一示例性实施例示出的一种用户特征数据筛选方法的流程图。
图4是根据另一示例性实施例示出的一种用户特征数据筛选方法的流程图。
图5是根据一示例性实施例示出的一种用户特征数据筛选装置的框图。
图6是根据另一示例性实施例示出的一种用户特征数据筛选装置的框图。
图7是根据一示例性实施例示出的一种电子设备的框图。
图8是根据一示例性实施例示出的一种计算机可读介质的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。
本发明中,资源是指任何可被利用的物质、信息、时间,信息资源包括计算资源和各种类型的数据资源。数据资源包括各个领域中的各种专用数据。本发明的创新之处在于如何使用服务器和客户端之间的信息交互技术来使资源分配的过程更加自动化、高效和减小人力成本。由此,从本质上来说,本发明可以应用于各类资源的分配,包括实体的货物、水、电,以及有意义的资料等。但是,为了方便起见,本发明中以金融数据资源为例进行说明资源分配的实施,但本领域技术人员应当理解,本发明亦可以用于其他资源的分配。
为解决上文所述的技术困境,本公开中提出了一种用户特征数据筛选方法,通过分布式并行计算的方式来处理海量用户特征,能够快速准确的得到每个用户特征的IV值,进而缩短模型训练时间。而且,在实际应用中,由于采用了本公开中的方式对用户的特征进行筛选,也缩短了线上对用户进行风险计算的时间,加快了用户分配资源配额的效率,提升了用户满意度。在现有技术中,10w*1w维的用户特征数据,大概需要2周的时间逐一进行计算并筛选出关键特征,而通过本发明中的方法,同样的数据量,大概40分钟即可计算完成。
下面借助于具体的实施例,对本公开中的内容进行详细描述。
图1是根据一示例性实施例示出的一种用户特征数据筛选方法及装置的系统框图。
如图1所示,系统架构10可以包括计算设备101、102、103,网络104和服务器105。网络104用以在计算设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用计算设备101、102、103可通过网络104与服务器105交互,以接收或发送用户特征数据等。计算设备101、102、103上可以安装有各种计算类应用,网页浏览器应用、即时通信工具、邮箱客户端、社交平台软件等。
计算设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,服务器105可以对接收到的用户特征数据进行分析等处理,并将分析结果(例如目标特征数据或风险值)反馈给金融服务网站的管理员和/或用户。
服务器105可例如获取多个用户的多个特征数据,所述特征数据中包括多个特征和其对应的特征值;服务器105可例如将所述特征数据中的多个特征进行数值类型变换处理;服务器105可例如基于变换后的多个特征和其对应的特征值通过计算设备101、102、103进行并行计算,分别计算每个特征的映射值;服务器105可例如基于每个特征的映射值确定所述多个特征数据对应的多个信息量;服务器105可例如基于所述信息量由所述多个特征数据中提取目标特征数据。
服务器105还可例如基于所述目标特征数据对机器学习模型进行训练,以生成用户风险模型,所述机器学习模型包括逻辑回归模型,决策树模型。
服务器105可以是一个实体的服务器,还可例如为多个服务器组成,需要说明的是,本公开实施例所提供的用户特征数据筛选方法可以由服务器105和计算设备101、102、103共同执行,相应地,用户特征数据筛选装置可以设置于服务器105和计算设备101、102、103中。
图2是根据一示例性实施例示出的一种用户特征数据筛选方法的流程图。用户特征数据筛选方法20至少包括步骤S202至S210。
如图2所示,在S202中,获取多个用户的多个特征数据,所述特征数据中包括多个特征和其对应的特征值。其中,特征数据中可包括用户的性别、年龄,所在地、职业、收入、学历、信贷记录等等,特征数据的值可包括离散值和连续值。
在S204中,将所述特征数据中的多个特征进行数值类型变换处理。包括:将所述特征数据中的多个表格型的特征转换为flatmap型数据。
其中,表格型数据,由行和列组成,每列都是一个变量,列表头是变量名称(也可以指定列表头为任意有效的变量名),且每个列变量可以是不同的数据类型但必须有相同的行数,每行也可以指定行名。
其中,flatmap型数据是指经过flatmap变换之后的数据,flatmap变换对于stream中包含的元素使用特定的转换函数进行转换操作,新生成的Stream只包含转换生成的元素。转换得到是Stream对象,会把子Stream中的元素压缩到父集合中。
更具体的,可例如,以特征标识做基础将特征数据进行全局排序;将所述特征数据的属性、特征值、标签、空白的映射值作为列向量;将所述特征数据的特征值由行向量转换为列向量。
转换后的数据如下表所示:其中,特征值部分包括了该特征多个用户的数值,可例如,特征1中包含了10万个用户的工作年限,特征2中包含了10万个用户的收入情况,特征3中包含了10万个用户的实际年龄等等。
属性 特征值 标签 映射值
特征1 整数型 2,4,5,10,…… 1 Null
特征2 离散型 4,5.6,8.1,…… 0 Null
特征3 连续型 5.645,1.4,4.33…… 1 Null
…… …… …… 0 Null
特征n …… …… …… Null
在S206中,基于变换后的多个特征和其对应的特征值采用并行计算的方式,分别计算每个特征的映射值。可将变换后的多个特征和其对应的特征值发送到分布式计算系统;分布式计算系统对特征的特征值进行分箱计算生成映射值。
为了便于后续的特征数据处理,也方便各个特征之间进行综合比较,可将各个特征的特征值进行归一化处理,在本公开中,归一化可把多个特征值均映射为(0,1)之间的小数。可在数据处理时更加便捷快速。而且,把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。
更具体的,可采用分箱的方式,进行数据映射,具体内容将在图3对应的实施例中,进行描述。
分布式计算系统可包括多个计算设备,可将多个特征中的每一个分别发送到不同的计算设备中,还可通过分布式计算系统中的控制服务器进行任务分配,以进行计算。
在S208中,基于每个特征的映射值确定所述多个特征数据对应的多个信息量。分别计算每个特征对应的信息量数值,信息量是预测模型中选择重要变量的方式之一,它能根据预测变量的重要性对预测变量进行排序。
在S210中,基于所述信息量由所述多个特征数据中提取目标特征数据。将所述信息量按照大小进行排序;基于所述排序由大至小的提取预设数量的特征作为所述特征数据。
在一个实施例中,还包括:基于所述目标特征数据对机器学习模型进行训练,以生成用户风险模型,所述机器学习模型包括逻辑回归模型,决策树模型。
在一个实施例中,还包括:基于风险分析模型对当前用户的用户特征数据进行分析,以生成所述当前用户的风险值;基于所述风险值为所述当前用户进行资源分配。
根据本公开的用户特征数据筛选方法,获取多个用户的多个特征数据,所述特征数据中包括多个特征和其对应的特征值;将所述特征数据中的多个特征进行数值类型变换处理;基于变换后的多个特征和其对应的特征值采用并行计算的方式,分别计算每个特征的映射值;基于每个特征的映射值确定所述多个特征数据对应的多个信息量;基于所述信息量由所述多个特征数据中提取目标特征数据的方式,能够快速准确的由海量用户特征中挑选出用户关键特征,进而减少模型训练时间,在实际应用中减少模型计算时间,提高用户体验度、减轻服务器系统压力。
应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。
图3是根据另一示例性实施例示出的一种用户特征数据筛选方法的流程图。图3所示的流程30是对图2所示的流程中S206“ 基于变换后的多个特征和其对应的特征值采用并行计算的方式,分别计算每个特征的映射值”的详细描述。
如图3所示,在S302中,将所述变换后的多个特征和其对应的特征值发送到分布式计算系统。
在S304中,分布式计算系统确定分箱数量为k,k为大于1的正整数。分箱算法,把数据按照不同的规则分到不同的箱子里。其实分箱是特征工程的一种,可以理解为一种连续数据变为离散数据的建模方式。
比如有一组连续数据,比如为25,14,68,43,63。假设数据的分箱逻辑是大于50为0,小于50为1,那么最终数据会变成1,1,0,1,0,数据就离散化了。当然分箱有很多方式,大致作用就是把连续数据按照一定的规则离散化。
在本公开中引入分箱算法可以减少过拟合的风险,因为分箱相当于对于数据去粗粒度描述;增加稀疏数据的概率,减少计算量;减少噪声数据的影响,比如一组数据按照0~100均匀分布,当数据中突然出现一个10000的数据,如果不做分箱的化会对LogisticRegression这种模型的训练造成很大影响;方便特征衍生,因为数据离散化后就可以把特征直接相互做内积提升特征维度;提升模型的鲁棒性。
在S306中,在特征为数值型变量时,采用等频分箱方法将特征值映射到k个分箱中。更具体的,可采用等频分箱的方式,对特征值进行处理,可首先指定分箱数量k。等频分箱是把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当作一个分箱,例如,数值最小的1/k比例的观测形成第一个分箱等。在特征为数值时,不论是整数还是其他的数值,都可采用等频分箱的方式进行分箱。
在S308中,在特征为类别型变量时,基于类别数量将特征值映射到k个分箱中。可例如,用户的特征为地理位置特征时,具体地理位置可为北京、上海、深圳、西安、成都等等各大城市,可按照一线二线的标准进行分享,也可按照大的地区,比如华南、华北这种方式进行分箱。还可按照城市人口进行分箱等等。
图4是根据另一示例性实施例示出的一种用户特征数据筛选方法的流程图。图4所示的流程40是对图2所示的流程中S208“基于每个特征的映射值确定所述多个特征数据对应的多个信息量”的详细描述。
如图4所示,在S402中,将映射值按照多个分箱值分为多个分箱数据。将映射值进行分箱处理之后,每个分箱又对应着大量的分箱数据。可例如,10万个用户年龄数据,分箱k为5时,每个分箱中包含的数据大约为2万个。
在S404中,基于每个分箱数据再次进行并行计算以确定所述多个特征数据对应的多个信息量。可将每个特征的每个分箱的分箱数据再次发送到分布式计算系统中,通过分布式计算系统进行计算,以生成特征数据每个分箱对应的信息量(IV值)后再将每个分箱对应的信息量整合,最终生成每个特征的信息量。
在S406中,将所述信息量按照大小进行排序。将每个特征按照其对应的信息量排序。
在S408中,基于所述排序由大至小的提取预设数量的特征作为所述特征数据。可提取10万个用户特征中的1000个用户特征作为待进行模型仿真的数据,还可根据模型计算精度或者模型训练时间来确定用户特征的数量,本公开不以此为限。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU 执行的计算机程序。在该计算机程序被CPU 执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图5是根据一示例性实施例示出的一种用户特征数据筛选装置的框图。如图5所示,用户特征数据筛选装置50包括:特征数据模块502,类型变换模块504,并行计算模块506,信息量模块508,提取目标模块510。
特征数据模块502用于获取多个用户的多个特征数据,所述特征数据中包括多个特征和其对应的特征值;
类型变换模块504用于将所述特征数据中的多个特征进行数值类型变换处理;所述类型变换模块504包括:转换单元,用于将所述特征数据中的多个表格型的特征转换为flatmap型数据。所述转换单元,还用于以特征标识做基础将特征数据进行全局排序;将所述特征数据的属性、特征值、标签、空白映射值作为列向量;将所述特征数据的特征值由行向量转换为列向量。
并行计算模块506用于基于变换后的多个特征和其对应的特征值采用并行计算的方式,分别计算每个特征的映射值;所述并行计算模块506包括:发送单元,用于将所述变换后的多个特征和其对应的特征值发送到分布式计算系统;分箱单元,用于分布式计算系统对特征的特征值进行分箱计算生成映射值。所述分箱单元,还用于确定分箱数量为k,k为大于1的正整数;在特征为数值型变量时,采用等频分箱方法将特征值映射到k个分箱中;在特征为类别型变量时,基于类别数量将特征值映射到k个分箱中。
信息量模块508用于基于每个特征的映射值确定所述多个特征数据对应的多个信息量;所述信息量模块508还用于基于每个特征的映射值再次进行并行计算以确定所述多个特征数据对应的多个信息量。所述信息量模块508包括:数据单元,用于将映射值按照多个分箱值分为多个分箱数据;并行单元,用于基于每个分箱数据再次进行并行计算以确定所述多个特征数据对应的多个信息量。
提取目标模块510用于基于所述信息量由所述多个特征数据中提取目标特征数据。所述提取目标模块510包括:排序单元,用于将所述信息量按照大小进行排序;提取单元,用于基于所述排序由大至小的提取预设数量的特征作为所述特征数据。
图6是根据另一示例性实施例示出的一种用户特征数据筛选装置的框图。如图6所示,用户特征数据筛选装置60包括:模型训练模块602,资源分配模块604。
模型训练模块602用于基于所述目标特征数据对机器学习模型进行训练,以生成用户风险模型,所述机器学习模型包括逻辑回归模型,决策树模型。
资源分配模块604用于基于风险分析模型对当前用户的用户特征数据进行分析,以生成所述当前用户的风险值;基于所述风险值为所述当前用户进行资源分配。
根据本公开的用户特征数据筛选装置,获取多个用户的多个特征数据,所述特征数据中包括多个特征和其对应的特征值;将所述特征数据中的多个特征进行数值类型变换处理;基于变换后的多个特征和其对应的特征值采用并行计算的方式,分别计算每个特征的映射值;基于每个特征的映射值确定所述多个特征数据对应的多个信息量;基于所述信息量由所述多个特征数据中提取目标特征数据的方式,能够快速准确的由海量用户特征中挑选出用户关键特征,进而减少模型训练时间,在实际应用中减少模型计算时间,提高用户体验度、减轻服务器系统压力。
图7是根据一示例性实施例示出的一种电子设备的框图。
下面参照图7来描述根据本公开的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:至少一个处理单元710、至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元710执行,使得所述处理单元710执行本说明书中的根据本公开各种示例性实施方式的步骤。例如,所述处理单元710可以执行如图2,图3,图4中所示的步骤。
所述存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202,还可以进一步包括只读存储单元(ROM)7203。
所述存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204,这样的程序模块7205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备700’(例如键盘、指向设备、蓝牙设备等)通信,使得用户能与该电子设备700交互的设备通信,和/或该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器760可以通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,如图8所示,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:获取多个用户的多个特征数据,所述特征数据中包括多个特征和其对应的特征值;将所述特征数据中的多个特征进行数值类型变换处理;基于变换后的多个特征和其对应的特征值采用并行计算的方式,分别计算每个特征的映射值;基于每个特征的映射值确定所述多个特征数据对应的多个信息量;基于所述信息量由所述多个特征数据中提取目标特征数据。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims (7)

1.一种用户特征数据筛选方法,其特征在于,包括:
获取多个用户的多个特征数据,所述特征数据中包括多个特征和其对应的特征值;
以特征标识做基础将特征数据进行全局排序;
将所述特征数据的属性、特征值、标签、空白映射值作为列向量;
将所述特征数据的特征值由行向量转换为列向量以将所述特征数据中的多个表格型的特征转换为flatmap型数据;
将所述转 换后的多个特征和其对应的特征值发送到分布式计算系统;
分布式计算系统对特征的特征值进行分箱计算生成映射值,包括:确定分箱数量为k,k为大于1的正整数;在特征为数值型变量时,采用等频分箱方法将特征值映射到k个分箱中;在特征为类别型变量时,基于类别数量将特征值映射到k个分箱中;
基于每个特征的映射值再次进行并行计算以确定所述多个特征数据对应的多个信息量;
基于所述信息量由所述多个特征数据中提取目标特征数据。
2.如权利要求1所述的方法,其特征在于,还包括:
基于所述目标特征数据对机器学习模型进行训练,以生成用户风险模型,所述机器学习模型包括逻辑回归模型,决策树模型。
3.如权利要求1所述的方法,其特征在于,将所述特征数据中的多个特征进行数值类型变换处理,包括:
将所述特征数据中的多个表格型的特征转换为flatmap型数据。
4.如权利要求3所述的方法,其特征在于,将所述特征数据中的多个表格型的特征转换为flatmap型数据,包括:
以特征标识做基础将特征数据进行全局排序;
将所述特征数据的属性、特征值、标签、空白映射值作为列向量;
将所述特征数据的特征值由行向量转换为列向量。
5.一种用户特征数据筛选装置,其特征在于,包括:
特征数据模块,用于获取多个用户的多个特征数据,所述特征数据中包括多个特征和其对应的特征值;
类型变换模块,用于以特征标识做基础将特征数据进行全局排序;将所述特征数据的属性、特征值、标签、空白映射值作为列向量;将所述特征数据的特征值由行向量转换为列向量以将所述特征数据中的多个表格型的特征转换为flatmap型数据;
并行计算模块,用于将所述变换后的多个特征和其对应的特征值发送到分布式计算系统,并进行分箱计算生成映射值,包括:确定分箱数量为k,k为大于1的正整数;在特征为数值型变量时,采用等频分箱方法将特征值映射到k个分箱中;在特征为类别型变量时,基于类别数量将特征值映射到k个分箱中;
信息量模块,用于基于每个特征的映射值再次进行并行计算以确定所述多个特征数据对应的多个信息量;
提取目标模块,用于基于所述信息量由所述多个特征数据中提取目标特征数据。
6.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一项所述的方法。
7.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
CN202110158341.1A 2021-02-05 2021-02-05 用户特征数据筛选方法、装置及电子设备 Active CN112527851B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110158341.1A CN112527851B (zh) 2021-02-05 2021-02-05 用户特征数据筛选方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110158341.1A CN112527851B (zh) 2021-02-05 2021-02-05 用户特征数据筛选方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112527851A CN112527851A (zh) 2021-03-19
CN112527851B true CN112527851B (zh) 2022-02-08

Family

ID=74975457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110158341.1A Active CN112527851B (zh) 2021-02-05 2021-02-05 用户特征数据筛选方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112527851B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177642A (zh) * 2021-05-24 2021-07-27 北京融七牛信息技术有限公司 一种针对数据不平衡的自动建模系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760406A (zh) * 2014-12-19 2016-07-13 中国科学院深圳先进技术研究院 用于在数据挖掘技术中提取特征数据的方法
CN111611204A (zh) * 2020-04-30 2020-09-01 中国舰船研究设计中心 一种分布式任务进度数据采集与分析方法
CN111738824A (zh) * 2020-06-16 2020-10-02 中国建设银行股份有限公司 一种账务数据处理方式筛选方法、装置及系统
CN112070239A (zh) * 2020-11-11 2020-12-11 上海森亿医疗科技有限公司 基于用户数据建模的分析方法、系统、介质及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130007A1 (en) * 2017-10-31 2019-05-02 International Business Machines Corporation Facilitating automatic extract, transform, load (etl) processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760406A (zh) * 2014-12-19 2016-07-13 中国科学院深圳先进技术研究院 用于在数据挖掘技术中提取特征数据的方法
CN111611204A (zh) * 2020-04-30 2020-09-01 中国舰船研究设计中心 一种分布式任务进度数据采集与分析方法
CN111738824A (zh) * 2020-06-16 2020-10-02 中国建设银行股份有限公司 一种账务数据处理方式筛选方法、装置及系统
CN112070239A (zh) * 2020-11-11 2020-12-11 上海森亿医疗科技有限公司 基于用户数据建模的分析方法、系统、介质及设备

Also Published As

Publication number Publication date
CN112527851A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN110363449B (zh) 一种风险识别方法、装置及系统
CN112148987B (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN109492772B (zh) 生成信息的方法和装置
CN110443657B (zh) 客户流量数据处理方法、装置、电子设备及可读介质
CN109509048B (zh) 恶意订单识别方法、装置、电子设备及存储介质
CN111210335A (zh) 用户风险识别方法、装置及电子设备
CN112070577A (zh) 一种商品推荐方法、系统、设备及介质
CN107392259B (zh) 构建不均衡样本分类模型的方法和装置
CN112015562A (zh) 基于迁移学习的资源分配方法、装置及电子设备
CN112016796A (zh) 综合风险评分请求处理方法、装置及电子设备
CN111582314A (zh) 目标用户确定方法、装置及电子设备
CN111967543A (zh) 用户资源配额确定方法、装置及电子设备
CN110796171A (zh) 机器学习模型的未分类样本处理方法、装置及电子设备
CN111191825A (zh) 用户违约预测方法、装置及电子设备
CN111598494A (zh) 资源额度的调整方法、装置及电子设备
CN111210336A (zh) 用户风险模型生成方法、装置及电子设备
CN111582645B (zh) 基于因子分解机的app风险评估方法、装置和电子设备
CN110807129A (zh) 多层用户关系图集合的生成方法、装置及电子设备
CN113298354A (zh) 业务衍生指标的自动生成方法、装置及电子设备
CN111191677A (zh) 用户特征数据生成方法、装置及电子设备
CN112527851B (zh) 用户特征数据筛选方法、装置及电子设备
CN114065063A (zh) 信息处理方法、信息处理装置、存储介质与电子设备
CN110119784B (zh) 一种订单推荐方法及装置
CN112348658A (zh) 资源分配方法、装置及电子设备
CN111966730A (zh) 基于常驻地的风险预测方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant