CN110795424B - 特征工程变量数据请求处理方法、装置及电子设备 - Google Patents
特征工程变量数据请求处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110795424B CN110795424B CN201910939382.7A CN201910939382A CN110795424B CN 110795424 B CN110795424 B CN 110795424B CN 201910939382 A CN201910939382 A CN 201910939382A CN 110795424 B CN110795424 B CN 110795424B
- Authority
- CN
- China
- Prior art keywords
- data
- parameters
- characteristic
- characteristic engineering
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 92
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000010801 machine learning Methods 0.000 claims abstract description 23
- 238000004140 cleaning Methods 0.000 claims description 59
- 238000003860 storage Methods 0.000 claims description 19
- 238000012821 model calculation Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 238000011010 flushing procedure Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010926 purge Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种特征工程变量数据请求处理方法、装置、电子设备及计算机可读介质。该方法包括:接收特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则;基于所述特征规则由工程配置数据库获取特征工程参数;根据所述特征工程参数获取目标特征工程变量数据;以及通过所述目标特征工程变量数据响应所述特征工程变量数据请求。本公开涉及的特征工程变量数据请求处理方法、装置、电子设备及计算机可读介质,能够快速获取计算所需的特征工程变量数据,节约数据服务器的计算量,提高机器学习模型的处理效率。
Description
技术领域
本公开涉及计算机信息处理领域,具体而言,涉及一种特征工程变量数据请求处理方法、装置、电子设备及计算机可读介质。
背景技术
特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。简而言之,特征工程就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能)。从数学的角度来看,特征工程就是人工地去设计输入变量X。
特征通常是建立在原始数据之上的特定表示,它是一个单独的可测量属性,通常用数据集中的列表示。对于一个通用的二维数据集,每个观测值由一行表示,每个特征由一列表示,对于每一个观测具有一个特定的值。特征工程数据提取的过程一般先是获取原始数据;然后利用数据处理技术,从这些数据中获取、处理和提取有意义的特征和属性。特征工程变量数据在提取之后,会输入到机器学期模型中,机器学习模型基于这些数据进行运算,在机器学习模型运算的整个过程中通常会把70%的时间花在特征工程变量数据的准备上。特征工程变量数据的处理时间极大的拖延了整个机器学习模型的计算时间,如果减少特征工程变量数据的处理时间,加快机器学习模型的工作效率,是现在亟待解决的问题。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种特征工程变量数据请求处理方法、装置、电子设备及计算机可读介质,能够快速获取计算所需的特征工程变量数据,节约数据服务器的计算量,提高机器学习模型的处理效率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种特征工程变量数据请求处理方法,该方法包括:接收特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则;基于所述特征规则由工程配置数据库获取特征工程参数;根据所述特征工程参数获取目标特征工程变量数据;以及通过所述目标特征工程变量数据响应所述特征工程变量数据请求。
可选地,还包括:通过多个特征规则和与其对应的多个特征工程参数生成所述工程配置数据库。
可选地,根据所述特征工程参数获取目标特征工程变量数据包括:根据所述特征工程参数对源数据进行处理以获取所述目标特征工程变量数据;和/或根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据。
可选地,所述特征工程参数包括:数据源选择参数和数据加工参数;根据所述特征工程参数对源数据进行处理生成目标特征工程变量数据包括:根据所述数据源选择参数由多个数据源中确定至少一个目标数据源;以及根据所述数据加工参数对所述至少一个目标数据源中的初始特征工程变量数据进行数据加工以生成所述目标特征工程变量参数。
可选地,所述数据加工参数中包括:数据清洗参数和格式化参数;根据所述数据加工参数对所述至少一个目标数据源中的初始特征工程变量数据进行数据加工以生成所述目标特征工程变量参数包括:根据所述数据清洗参数对所述至少一个目标数据源中的所述初始特征工程变量数据进行数据清洗生成清洗数据;以及根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。
可选地,还包括:将所述清洗数据与所述目标特征工程变量参数存储在缓存数据库中。
可选地,根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据包括:根据所述数据源选择参数和所述数据清洗参数由所述缓存数据库中提取清洗数据;以及根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。
可选地,根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据包括:根据所述数据源选择参数、所述数据清洗参数和格式化参数由所述缓存数据库中提取所述目标特征工程变量参数。
可选地,接收特征工程变量数据请求包括:接收由规则引擎发送的特征工程变量数据请求。
可选地,通过所述目标特征工程变量数据响应所述特征工程变量数据请求包括:将所述目标特征工程变量数据推送至所述规则引擎;以及所述规则引擎基于所述特征工程变量数据进行机器学习模型计算。
根据本公开的一方面,提出一种特征工程变量数据请求处理装置,该装置包括:接收模块,用于接收特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则;参数模块,用于基于所述特征规则由工程配置数据库获取特征工程参数;数据模块,用于根据所述特征工程参数获取目标特征工程变量数据;以及响应模块,用于通过所述目标特征工程变量数据响应所述特征工程变量数据请求。
可选地,还包括:数据库模块,用于通过多个特征规则和与其对应的多个特征工程参数生成所述工程配置数据库。
可选地,所述数据模块包括:处理单元,用于根据所述特征工程参数对源数据进行处理以获取所述目标特征工程变量数据;和/或搜索单元,用于根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据。
可选地,所述特征工程参数包括:数据源选择参数和数据加工参数;所述处理单元包括:数据源子单元,用于根据所述数据源选择参数由多个数据源中确定至少一个目标数据源;以及数据加工子单元,用于根据所述数据加工参数对所述至少一个目标数据源中的初始特征工程变量数据进行数据加工以生成所述目标特征工程变量参数。
可选地,所述数据加工参数中包括:数据清洗参数和格式化参数;数据加工子单元,还用于根据所述数据清洗参数对所述至少一个目标数据源中的所述初始特征工程变量数据进行数据清洗生成清洗数据;以及根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。
可选地,还包括:存储单元,用于将所述清洗数据与所述目标特征工程变量参数存储在缓存数据库中。
可选地,所述搜索单元包括:清洗子单元,用于根据所述数据源选择参数和所述数据清洗参数由所述缓存数据库中提取清洗数据;以及格式化子单元,用于根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。
可选地,所述搜索单元包括:提取子单元,用于根据所述数据源选择参数、所述数据清洗参数和格式化参数由所述缓存数据库中提取所述目标特征工程变量参数。
可选地,所述接收模块,还用于接收由规则引擎发送的特征工程变量数据请求。
可选地,所述响应模块包括:推送单元,用于将所述目标特征工程变量数据推送至所述规则引擎;以及计算单元,用于所述规则引擎基于所述特征工程变量数据进行机器学习模型计算。
根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本公开的特征工程变量数据请求处理方法、装置、电子设备及计算机可读介质,基于所述特征规则由工程配置数据库获取特征工程参数;根据所述特征工程参数获取目标特征工程变量数据;以及通过所述目标特征工程变量数据响应特征工程变量数据请求的方式,能够快速获取计算所需的特征工程变量数据,节约数据服务器的计算量,提高机器学习模型的处理效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种特征工程变量数据请求处理方法及装置的应用场景示意图。
图2是根据一示例性实施例示出的一种特征工程变量数据请求处理方法的流程图。
图3是根据另一示例性实施例示出的一种特征工程变量数据请求处理方法的流程图。
图4是根据另一示例性实施例示出的一种特征工程变量数据请求处理方法的流程图。
图5是根据一示例性实施例示出的一种特征工程变量数据请求处理装置的框图。
图6是根据一示例性实施例示出的一种电子设备的框图。
图7是根据一示例性实施例示出的一种计算机可读介质的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。
图1是根据一示例性实施例示出的一种特征工程变量数据请求处理方法及装置的应用场景示意图。
如图1所示,系统架构10可以包括规则引擎101、102、103,网络104、服务器105和数据源106、107、108。网络104用以在规则引擎101、102、103和服务器105之间提供通信链路的介质;网络104还用以在数据源106、107、108和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用规则引擎101、102、103通过网络104与服务器105交互,以接收或发送特征工程变量数据等。规则引擎101、102、103上可以安装有各种数据计算模型或数据计算软件,例如供计算用户金融风险的机器学习模型、辅助为用户推送金融知识的机器学习模型,计算用户广告投放价格的数据计算软件等等。
规则引擎101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
数据源106、107、108通过网络104与服务器105交互,以接收或发送源数据等。数据源106、107、108可为用户存储各种基础数据的数据库,数据源106、107、108上可以安装有各种数据存储软件,数据源106、107、108还可通过不同的格式存储源数据。
服务器105可以是提供各种服务的服务器,例如对用户利用规则引擎101、102、103所提出的机器学习模型进行数据支持的后台管理服务器。后台管理服务器可以对接收到的来自规则引擎101、102、103的特征工程变量数据请求进行处理,并将处理结果(例如目标特征工程变量数据)反馈给规则引擎101、102、103。
服务器105可例如接收特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则;服务器105可例如基于所述特征规则由工程配置数据库获取特征工程参数;服务器105可例如根据所述特征工程参数获取目标特征工程变量数据;服务器105可例如通过所述目标特征工程变量数据响应所述特征工程变量数据请求。
服务器105还可例如通过多个特征规则和与其对应的多个特征工程参数生成所述工程配置数据库。
服务器105可以是一个实体的服务器,还可例如为多个服务器组成,需要说明的是,本公开实施例所提供的特征工程变量数据请求处理方法可以由服务器105执行,相应地,特征工程变量数据请求处理装置可以设置于服务器105中。而提供给用户进行机器学习模型计算的终端一般位于规则引擎101、102、103中。
图2是根据一示例性实施例示出的一种特征工程变量数据请求处理方法的流程图。特征工程变量数据请求处理方法20至少包括步骤S202至S208。
如图2所示,在S202中,接收特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则。可例如,接收由规则引擎发送的特征工程变量数据请求。
其中,规则引擎由推理引擎发展而来,是一种嵌入在应用程序中的组件,实现了将业务决策从应用程序代码中分离出来,并使用预定义的语义模块编写业务决策。接受数据输入,解释业务规则,并根据业务规则做出业务决策。在本公开中,规则引擎可内置机器学习模型,规则引擎接收到的数据可由机器学习模型进行计算,然后规则引擎根据结算结果进行后续处理。
在S204中,基于所述特征规则由工程配置数据库获取特征工程参数。
在一个实施例中,还包括:通过多个特征规则和与其对应的多个特征工程参数生成所述工程配置数据库。不同的特征规则,需要用到不同的特征工程参数。
其中,特征工程参数包括:数据源选择参数和数据加工参数。
其中,可例如计算用户风险的特征规则,可能需要用到的数据源为用户基础数据数据源,数据加工参数为预定的格式,提取预定年龄的用户相关基础数据。
还可例如,计算天气变化的特征规则,可能需要用到的数据源为实时各地天气相关数据,数据加工参数可为预定格式的天气数据,提取的时间范围可为近3天。
在S206中,根据所述特征工程参数获取目标特征工程变量数据。可包括:根据所述特征工程参数对源数据进行处理以获取所述目标特征工程变量数据;和/或根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据。
在一个实施例中,根据所述特征工程参数对源数据进行处理生成目标特征工程变量数据包括:根据所述数据源选择参数由多个数据源中确定至少一个目标数据源;以及根据所述数据加工参数对所述至少一个目标数据源中的初始特征工程变量数据进行数据加工以生成所述目标特征工程变量参数。
在一个实施例中,可将所述清洗数据与所述目标特征工程变量参数存储在缓存数据库中。将处理完毕的中间数据存储在缓存中,以便其他同类条件的特征工程变量数据直接调用。
在一个实施例中,根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据包括:根据所述数据源选择参数和所述数据清洗参数由所述缓存数据库中提取清洗数据;以及根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。
在一个实施例中,根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据包括:根据所述数据源选择参数、所述数据清洗参数和格式化参数由所述缓存数据库中提取所述目标特征工程变量参数。
在S208中,通过所述目标特征工程变量数据响应所述特征工程变量数据请求。包括:将所述目标特征工程变量数据推送至所述规则引擎;以及所述规则引擎基于所述特征工程变量数据进行机器学习模型计算。
根据本公开的特征工程变量数据请求处理方法,基于所述特征规则由工程配置数据库获取特征工程参数;根据所述特征工程参数获取目标特征工程变量数据;以及通过所述目标特征工程变量数据响应特征工程变量数据请求的方式,能够快速获取计算所需的特征工程变量数据,节约数据服务器的计算量,提高机器学习模型的处理效率。
应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。
图3是根据另一示例性实施例示出的一种特征工程变量数据请求处理方法的流程图。图3所示的流程是对图2所示的流程中S206“根据所述特征工程参数获取目标特征工程变量数据”的详细描述。
如图3所示,在S302中,根据所述特征工程参数对源数据进行处理以获取所述目标特征工程变量数据。可例如,在缓存中没有和特征工程参数相匹配的数据的时候,需要由数据源中获取源数据,然后对源数据进行数据处理以获取所述目标特征工程变量数据。
在S304中,根据所述数据源选择参数由多个数据源中确定至少一个目标数据源。数据源可包括不同第三方平台的数据源,可例如,包含用户兴趣特征数据的数据源,包含用户金融风险数据的数据源,还可例如包含用户社交关系的数据源等等。
根据数据源选择参数由以上的数据源中确定出目标数据源。
在S306中,根据所述数据清洗参数对所述至少一个目标数据源中的所述初始特征工程变量数据进行数据清洗生成清洗数据。
数据清洗指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。可按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。在本公开中,数据清洗主要是将无用的数剔除,将冲突的数据合并或者纠错。
在S308中,根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。依据格式化参数的要求,将清洗数据中的每一个都统一为预定的格式,以便于后续计算。
图4是根据另一示例性实施例示出的一种特征工程变量数据请求处理方法的流程图。图4所示的流程是对图2所示的流程中S206“根据所述特征工程参数获取目标特征工程变量数据”的详细描述,
如图4所示,在S402中,根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据。在接收到特征工程变量数据请求的时候,可先根据特征工程参数在缓存中进行查找,以确定是否有可用的中间数据进行复用。
在S404中,根据所述数据源选择参数和所述数据清洗参数由所述缓存数据库中提取清洗数据。可例如,某规则引擎想获取第一数据源的数据,将第一数据源的数据进行第一等级的数据清理。
根据该规则引擎的需求,而在缓存中查找是否有合乎该规则的中间数据,如果有符合的数据,则可直接调用该数据,利用该数据进行后续的计算。
在S406中,根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。按照某规则引擎的参数,对清洗数进行格式化处理。
在S408中,根据所述数据源选择参数、所述数据清洗参数和格式化参数由所述缓存数据库中提取所述目标特征工程变量参数。
如果缓存中存在数据源选择参数、所述数据清洗参数和格式化参数完全一致的数的话,则直接提取该数据作为所述目标特征工程变量参数,并发送给规则引擎端进行处理。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图5是根据一示例性实施例示出的一种特征工程变量数据请求处理装置的框图。如图5所示,特征工程变量数据请求处理装置50包括:接收模块502,参数模块504,数据模块506,响应模块508,以及数据库模块510。
接收模块502用于接收特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则;所述接收模块502还用于接收由规则引擎发送的特征工程变量数据请求。
参数模块504用于基于所述特征规则由工程配置数据库获取特征工程参数;
数据模块506用于根据所述特征工程参数获取目标特征工程变量数据;
所述数据模块506包括:处理单元,用于根据所述特征工程参数对源数据进行处理以获取所述目标特征工程变量数据;所述特征工程参数包括:数据源选择参数和数据加工参数;所述处理单元包括:数据源子单元,用于根据所述数据源选择参数由多个数据源中确定至少一个目标数据源;以及数据加工子单元,用于根据所述数据加工参数对所述至少一个目标数据源中的初始特征工程变量数据进行数据加工以生成所述目标特征工程变量参数。
所述数据加工参数包括:数据清洗参数和格式化参数;数据加工子单元,还用于根据所述数据清洗参数对所述至少一个目标数据源中的所述初始特征工程变量数据进行数据清洗生成清洗数据;以及根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。
所述数据模块506包括:搜索单元,用于根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据。所述搜索单元包括:清洗子单元,用于根据所述数据源选择参数和所述数据清洗参数由所述缓存数据库中提取清洗数据;以及格式化子单元,用于根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。所述搜索单元包括:提取子单元,用于根据所述数据源选择参数、所述数据清洗参数和格式化参数由所述缓存数据库中提取所述目标特征工程变量参数。
所述数据模块506包括:存储单元,用于将所述清洗数据与所述目标特征工程变量参数存储在缓存数据库中。
响应模块508用于通过所述目标特征工程变量数据响应所述特征工程变量数据请求。所述响应模块508包括:推送单元,用于将所述目标特征工程变量数据推送至所述规则引擎;以及计算单元,用于所述规则引擎基于所述特征工程变量数据进行机器学习模型计算。
数据库模块510用于通过多个特征规则和与其对应的多个特征工程参数生成所述工程配置数据库。
根据本公开的特征工程变量数据请求处理装置,基于所述特征规则由工程配置数据库获取特征工程参数;根据所述特征工程参数获取目标特征工程变量数据;以及通过所述目标特征工程变量数据响应特征工程变量数据请求的方式,能够快速获取计算所需的特征工程变量数据,节约数据服务器的计算量,提高机器学习模型的处理效率。
图6是根据一示例性实施例示出的一种电子设备的框图。
下面参照图6来描述根据本公开的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图2,图3,图4中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备600’(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,如图7所示,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:接收特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则;基于所述特征规则由工程配置数据库获取特征工程参数;根据所述特征工程参数获取目标特征工程变量数据;以及通过所述目标特征工程变量数据响应所述特征工程变量数据请求。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (14)
1.一种特征工程变量数据请求处理方法,其特征在于,包括:
接收由规则引擎发送的特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则;
通过多个特征规则和与其对应的多个特征工程参数生成工程配置数据库;基于所述特征规则由工程配置数据库中获取特征工程参数,特征工程参数包括数据源选择参数和数据加工参数;
根据所述特征工程参数获取目标特征工程变量数据包括:根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据,和/或,在缓存中没有和特征工程参数相匹配的数据的时候,需要由数据源中获取源数据,并且,根据所述特征工程参数对源数据进行数据处理而获得所述目标特征工程变量数据;
其中,数据源包括不同的包含用户兴趣特征数据的数据源、包含用户风险数据的数据源、包含用户社交关系的数据源;以及
通过所述目标特征工程变量数据响应所述特征工程变量数据请求包括:将所述目标特征工程变量数据推送至所述规则引擎;以及,所述规则引擎基于所述特征工程变量数据进行机器学习模型计算。
2.如权利要求1所述的方法,其特征在于, 根据所述特征工程参数对源数据进行处理生成目标特征工程变量数据包括:
根据所述数据源选择参数由多个数据源中确定至少一个目标数据源;以及
根据所述数据加工参数对所述至少一个目标数据源中的初始特征工程变量数据进行数据加工以生成所述目标特征工程变量参数。
3.如权利要求2所述的方法,其特征在于,
所述数据加工参数中包括:数据清洗参数和格式化参数;
根据所述数据加工参数对所述至少一个目标数据源中的初始特征工程变量数据进行数据加工以生成所述目标特征工程变量参数包括:根据所述数据清洗参数对所述至少一个目标数据源中的所述初始特征工程变量数据进行数据清洗生成清洗数据;以及根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。
4.如权利要求3所述的方法,其特征在于,还包括:
将所述清洗数据与所述目标特征工程变量参数存储在缓存数据库中。
5.如权利要求4所述的方法,其特征在于,根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据包括:
根据所述数据源选择参数和所述数据清洗参数由所述缓存数据库中提取清洗数据;以及
根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。
6.如权利要求3所述的方法,其特征在于,根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据包括:
根据所述数据源选择参数、所述数据清洗参数和格式化参数由所述缓存数据库中提取所述目标特征工程变量参数。
7.一种特征工程变量数据请求处理装置,其特征在于,包括:
接收模块,用于接收由规则引擎发送的特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则;
数据库模块,用于通过多个特征规则和与其对应的多个特征工程参数生成工程配置数据库;
参数模块,用于基于所述特征规则由工程配置数据库中获取特征工程参数,特征工程参数包括数据源选择参数和数据加工参数;
数据模块,用于根据所述特征工程参数获取目标特征工程变量数据;包括:搜索单元,用于根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据;和/或,处理单元,用于在缓存中没有和特征工程参数相匹配的数据的时候,需要由数据源中获取源数据,根据所述特征工程参数对源数据进行数据处理而获得所述目标特征工程变量数据;其中,数据源包括不同的包含用户兴趣特征数据的数据源、包含用户风险数据的数据源、包含用户社交关系的数据源;以及;
响应模块,用于通过所述目标特征工程变量数据响应所述特征工程变量数据请求,包括:推送单元,用于将所述目标特征工程变量数据推送至所述规则引擎,以及计算单元,用于所述规则引擎基于所述特征工程变量数据进行机器学习模型计算。
8.如权利要求7所述的装置,其特征在于,所述特征工程参数包括:数据源选择参数和数据加工参数;
所述处理单元包括:
数据源子单元,用于根据所述数据源选择参数由多个数据源中确定至少一个目标数据源;以及
数据加工子单元,用于根据所述数据加工参数对所述至少一个目标数据源中的初始特征工程变量数据进行数据加工以生成所述目标特征工程变量参数。
9.如权利要求8所述的装置,其特征在于,所述数据加工参数包括:数据清洗参数和格式化参数;
数据加工子单元,还用于根据所述数据清洗参数对所述至少一个目标数据源中的所述初始特征工程变量数据进行数据清洗生成清洗数据;以及根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。
10.如权利要求9所述的装置,其特征在于,还包括:
存储单元,用于将所述清洗数据与所述目标特征工程变量参数存储在缓存数据库中。
11.如权利要求10所述的装置,其特征在于,所述搜索单元包括:
清洗子单元,用于根据所述数据源选择参数和所述数据清洗参数由所述缓存数据库中提取清洗数据;以及
格式化子单元,用于根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。
12.如权利要求11所述的装置,其特征在于,所述搜索单元包括:
提取子单元,用于根据所述数据源选择参数、所述数据清洗参数和格式化参数由所述缓存数据库中提取所述目标特征工程变量参数。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910939382.7A CN110795424B (zh) | 2019-09-30 | 2019-09-30 | 特征工程变量数据请求处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910939382.7A CN110795424B (zh) | 2019-09-30 | 2019-09-30 | 特征工程变量数据请求处理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110795424A CN110795424A (zh) | 2020-02-14 |
CN110795424B true CN110795424B (zh) | 2024-05-14 |
Family
ID=69439996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910939382.7A Active CN110795424B (zh) | 2019-09-30 | 2019-09-30 | 特征工程变量数据请求处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795424B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113496287A (zh) * | 2020-04-07 | 2021-10-12 | 广州华工弈高科技有限公司 | 一种基于地域数据的自动化特征工程方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677353A (zh) * | 2016-01-08 | 2016-06-15 | 北京物思创想科技有限公司 | 特征抽取方法、机器学习方法及其装置 |
CN107169573A (zh) * | 2017-05-05 | 2017-09-15 | 第四范式(北京)技术有限公司 | 利用复合机器学习模型来执行预测的方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10741285B2 (en) * | 2012-08-16 | 2020-08-11 | Ginger.io, Inc. | Method and system for providing automated conversations |
US10740438B2 (en) * | 2012-08-16 | 2020-08-11 | Ginger.io, Inc. | Method and system for characterizing and/or treating poor sleep behavior |
US20190213522A1 (en) * | 2016-06-29 | 2019-07-11 | ITY Labs Corp. | System and method for determining user metrics |
-
2019
- 2019-09-30 CN CN201910939382.7A patent/CN110795424B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677353A (zh) * | 2016-01-08 | 2016-06-15 | 北京物思创想科技有限公司 | 特征抽取方法、机器学习方法及其装置 |
CN107169573A (zh) * | 2017-05-05 | 2017-09-15 | 第四范式(北京)技术有限公司 | 利用复合机器学习模型来执行预测的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110795424A (zh) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804450B (zh) | 信息推送的方法和装置 | |
JP2021103506A (ja) | 情報を生成するための方法及び装置 | |
CN107908662B (zh) | 搜索系统的实现方法和实现装置 | |
CN113298354B (zh) | 业务衍生指标的自动生成方法、装置及电子设备 | |
CN110059172B (zh) | 基于自然语言理解的推荐答案的方法和装置 | |
JP7309811B2 (ja) | データ注釈方法、装置、電子機器および記憶媒体 | |
CN113297287B (zh) | 用户策略自动部署方法、装置及电子设备 | |
CN110795424B (zh) | 特征工程变量数据请求处理方法、装置及电子设备 | |
CN111199454B (zh) | 实时用户转化评估方法、装置及电子设备 | |
CN114119123A (zh) | 信息推送的方法和装置 | |
CN108768742B (zh) | 网络构建方法及装置、电子设备、存储介质 | |
CN113590447B (zh) | 埋点处理方法和装置 | |
CN109086438A (zh) | 用于查询信息的方法和装置 | |
CN115186738A (zh) | 模型训练方法、装置和存储介质 | |
CN117174279A (zh) | 用于预测信息的方法和装置 | |
CN114625372A (zh) | 组件自动编译方法、装置、计算机设备及存储介质 | |
CN109857838B (zh) | 用于生成信息的方法和装置 | |
CN114117248A (zh) | 数据处理方法、装置及电子设备 | |
CN111753548A (zh) | 信息获取方法及装置、计算机存储介质、电子设备 | |
CN110990528A (zh) | 一种问答方法、装置及电子设备 | |
CN113362097B (zh) | 一种用户确定方法和装置 | |
CN111767290A (zh) | 用于更新用户画像的方法和装置 | |
KR102449831B1 (ko) | 신규 텍스트에 대한 정보를 제공하는 전자 장치, 신규 텍스트를 확인하는 서버 및 그 동작 방법 | |
CN110704291B (zh) | 基于图标属性识别的用户流向获取方法、装置和电子设备 | |
CN113344405B (zh) | 基于知识图谱生成信息的方法、装置、设备、介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |