CN114064976A - 一种数据特征计算的方法、系统、电子装置和存储介质 - Google Patents
一种数据特征计算的方法、系统、电子装置和存储介质 Download PDFInfo
- Publication number
- CN114064976A CN114064976A CN202111237231.0A CN202111237231A CN114064976A CN 114064976 A CN114064976 A CN 114064976A CN 202111237231 A CN202111237231 A CN 202111237231A CN 114064976 A CN114064976 A CN 114064976A
- Authority
- CN
- China
- Prior art keywords
- data
- original data
- tuple
- extracting
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000004590 computer program Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 9
- 230000003068 static effect Effects 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 23
- 238000013461 design Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000000547 structure data Methods 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/81—Indexing, e.g. XML tags; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种数据特征计算的方法、系统、电子装置和存储介质,其中,该方法包括:获取原始数据,对该原始数据进行解析,生成指定的数据对象;接着,将数据对象中的数据项进行不同变量体的特征属性归类,通过特征属性提取业务特征得到标准数据元组,并根据标准数据元组提取出原始数据对应的实例化数据元组;通过实例化数据元组设计衍生逻辑,形成模板,并对模板内的变量设定不同的参数,提取得到衍生特征;最后,根据衍生特征确定对应的原始数据,并以对应的原始数据为基础进行特征计算,得到特征结果。通过本申请,解决了在对数据进行特征计算时,存在的计算准确度不高、计算效率低的问题,提高了特征计算的准确度和计算效率。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据特征计算的方法、系统、电子装置和存储介质。
背景技术
表结构数据指的是数据库结构的数据,其中,表结构数据特征是以字段或记录作为数据的引用、操作及计算的基本单位的数据。现有技术中,表结构数据特征计算过程包括:首先,对表结构数据进行解析,即将半结构化的数据通过不同对象进行拆解落表,然后,基于拆解后的表结构对业务特征进行特征计算。以人民银行金融基础数据库所提供的征信报告为例,使用方进行表结构数据解析是通过对返回XML或Json格式的报文以不同信息单元为不同的数据库表维度拆分数据项,从而形成结构化的数据库表;再基于结构化数据库表进行特征衍生计算。
基于原始数据表结构解析后的特征衍生计算对原始数据和结构化后的数据转换逻辑的数据环境要求高,且拆分逻辑、表命名及字段命名时必须一致,如果数据环境不满足要求,则难以保证数据准确性。此外,还存在的不足之处有:1、不同数据有不同的结构,针对不同来源的数据,需要花费大量时间在数据库表结构设计和数据落盘等工作上,使得数据计算拓展性差;2、存储要求高;3、通用型低,例如,每一个特征的逻辑代码复用率低;4、计算效率较低。
目前针对相关技术中,在对数据进行特征计算时,存在的计算准确度不高、计算效率低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种数据特征计算的方法、系统、电子装置和存储介质,以至少解决相关技术中在对数据进行特征计算时,存在的计算准确度不高、计算效率低的问题。
第一方面,本申请实施例提供了一种数据特征计算的方法,所述方法包括:
获取原始数据,对所述原始数据进行解析,生成指定的数据对象;
将所述数据对象中的数据项进行不同变量体的特征属性归类,通过所述特征属性提取业务特征得到标准数据元组,并根据所述标准数据元组提取出所述原始数据对应的实例化数据元组;
通过所述实例化数据元组设计衍生逻辑,形成模板,并对所述模板内的变量设定不同的参数,提取得到衍生特征;
根据所述衍生特征确定对应的原始数据,并以所述对应的原始数据为基础进行特征计算,得到特征结果。
在其中一些实施例中,所述对所述原始数据进行解析,生成得到指定的数据对象包括:
通过导入所述原始数据生成数据结构,得到相应的数据结构配置,并根据所述数据结构配置自动生成所述指定的数据对象。
在其中一些实施例中,所述通过所述实例化数据元组得到衍生逻辑包括:
通过不同变量体的属性,对动态实例化数据元组或静态实例化数据元组进行提取,得到衍生逻辑。
在其中一些实施例中,所述模板通过自定义代码的方式进行编辑,或者通过可视化界面进行配置显示。
第二方面,本申请实施例提供了一种数据特征计算的系统,所述系统包括:
获取模块,用于获取原始数据,对所述原始数据进行解析,生成指定的数据对象;
特征提取模块,用于将所述数据对象中的数据项进行不同变量体的特征属性归类,通过所述特征属性提取业务特征得到标准数据元组,并根据所述标准数据元组提取出所述原始数据对应的实例化数据元组,
通过所述实例化数据元组设计衍生逻辑,形成模板,并对所述模板内的变量设定不同的参数,提取得到衍生特征;
计算模块,用于根据所述衍生特征确定对应的原始数据,并以所述对应的原始数据为基础进行特征计算,得到特征结果。
在其中一些实施例中,所述获取模块,还用于通过导入所述原始数据生成数据结构,得到相应的数据结构配置,并根据所述数据结构配置自动生成所述指定的数据对象。
在其中一些实施例中,所述特征提取模块,还用于通过不同变量体的属性,对动态实例化数据元组或静态实例化数据元组进行提取,得到衍生逻辑。
在其中一些实施例中,所述模板通过自定义代码的方式进行编辑,或者通过可视化界面进行配置显示。
第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的数据特征计算的方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的数据特征计算的方法。
相比于相关技术,本申请实施例提供的数据特征计算的方法,获取原始数据,对该原始数据进行解析,生成指定的数据对象;接着,将数据对象中的数据项进行不同变量体的特征属性归类,通过该特征属性提取业务特征得到标准数据元组,并根据标准数据元组提取出原始数据对应的实例化数据元组;然后,通过实例化数据元组设计衍生逻辑,形成模板,并对模板内的变量设定不同的参数,提取得到衍生特征;最后,根据衍生特征确定对应的原始数据,并以对应的原始数据为基础进行特征计算,得到特征结果。
本申请对半结构化的原始数据进行解析和提取,可自顶向下演绎及归纳不同的变量体系,并通过不同变量属性,对动、静态的标准数据元组进行提取,得到实例化数据元组,进而设计衍生逻辑得到统一模板,通过该统一模板衍生特征,使得离线批量特征计算和实时特征计算逻辑采用同一套逻辑,保持了不同环境特征的统一性。此外,本申请基于原始数据进行特征加工,避免了原始数据在转表过程中可能存在的错误,保证了数据的准确性,也减少了特征计算的加工流程,缩短了时间,保证了时效性和效率。解决了在对数据进行特征计算时,存在的计算准确度不高、计算效率低的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的数据特征计算的方法的应用环境示意图;
图2是根据本申请实施例的数据特征计算的方法的流程图;
图3是根据本申请实施例的数据结构配置实例示意图;
图4为根据本申请实施例的某一组原始数据的数据对象表结构示意图;
图5为根据图4中的数据对象提炼得到的标准数据元组示意图;
图6为根据图5中的标准数据元组提取得到的实例化数据元组示意图;
图7是根据本申请实施例的衍生逻辑设计示意图;
图8是根据本申请实施例的模板自定义代码编辑界面示意图;
图9是根据本申请实施例的数据特征计算的系统的结构框图;
图10是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供的数据特征计算的方法,可以应用于如图1所示的应用环境中,图1是根据本申请实施例的数据特征计算的方法的应用环境示意图,如图1所示。其中,终端11与服务器10通过网络进行通信。服务器10获取原始数据,对该原始数据进行解析,生成指定的数据对象;接着,将数据对象中的数据项进行不同变量体的特征属性归类,通过该特征属性提取业务特征得到标准数据元组,并根据标准数据元组提取出原始数据对应的实例化数据元组;然后,通过实例化数据元组设计衍生逻辑,形成模板,并对模板内的变量设定不同的参数,提取得到衍生特征,需要说明的是,模板可以可视化界面的形式显示在终端11上;最后,根据衍生特征确定对应的原始数据,并以对应的原始数据为基础进行特征计算,得到特征结果,传入下游系统中。其中,终端11可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器10可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本实施例提供了一种数据特征计算的方法,图2是根据本申请实施例的数据特征计算的方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取原始数据,对原始数据进行解析,生成指定的数据对象;
优选的,本实施例中,通过导入原始数据生成初步的数据结构,得到相应的数据结构配置,并根据该数据结构配置自动生成指定的数据对象。具体地,通过文件导入原始数据或者手动粘贴原始数据,例如,导入的原始数据如下:
<Document>
<PRH>
<PA01>
<PA0lA>
<PA01AI01>2021072114560060766484</PA01AI01>
<PA01AR01>2021-07-21T14:56:00</PA01AR01>
</PA01A>
<PA01B>
<PA01BQ01>宋某某</PA01BQ01><PA01BD01>10</PA01BD01>
<PA01BI01>42112519861011***</PA01BI01>
<PA01BI02>X3205000402826</PA01BI02>
<PA01BD02>02</PA01BI02>
</PA01B>
<PA01E>
<PA01ES01>0</PA01ES01>
</PA01E>
</PA01>
</PRH>
</Document>
继而生成初步的数据结构,图3是根据本申请实施例的数据结构配置实例示意图,如图3所示,形成了一套针对该数据结构的数据结构配置,并根据该数据结构配置自动生成指定的数据对象,例如,自动生成如图3中指定数据对象PA01A下的数据项:PA01AI01、PA01AR01,以及指定数据对象PA01B下的数据项:PA01BQ01、PA01BI01、PA01BI02、PA01BD02,此外,还生成指定数据对象PA01E下数据项:PA01ES01;
步骤S202,将数据对象中的数据项进行不同变量体的特征属性归类,通过特征属性提取业务特征得到标准数据元组,并根据标准数据元组提取出原始数据对应的实例化数据元组;
图4为根据本申请实施例的某一组原始数据的数据对象表结构示意图;图5为根据图4中的数据对象提炼得到的标准数据元组示意图;图6为根据图5中的标准数据元组提取得到的实例化数据元组示意图;具体地,首先,本实施例将通过步骤S201得到的数据对象下的数据项进行不同变量体的特征属性归类,归类得到的特征属性,包括实体标识类型、数值类型、枚举类型,时间类型、字符串类型和算子等属性类型。例如,将步骤S201得到的数据项PA01AI01中的数据,如2021072114560060766484,归类为实体标识类型,将数据项PA01AR01中的数据,如2021-07-21T14:56:00,归类为时间类型,将数据项PA01BQ01、PA01BI01中的数据,如宋某某、42112519861011***,归类为字符类型,将数据项PA01BD02中的数据归类为类别类型,或者将数据项PA01ES01中的数据,如0等,归类为数值类型。利用上述归类方式对不同数据对象中的数据项进行归类,可得到如图4所示的表结构。然后,根据上述特征属性对图4进行业务特征提取,得到如图5所示的标准数据元组,例如,将实体标识和时间组为一个标准数据元组,或者将实体标识、时间和数值变量组为一个标准数据元组;最后,对图5中的标准数据元组进行实例化,提取得到图6中与原始数据对应的实例化数据元组,例如,对一个标准数据元组:实体标识和时间,进行实例化,可以得到实例化数据元组:授信协议标识和生效时间,或者,对一个标准数据元组:实体标识、时间和数值变量,进行实例化,可以得到实例化数据元组:授信协议标识、生效时间和授信额度等;
步骤S203,通过所述实例化数据元组设计衍生逻辑,形成模板,并对模板内的变量设定不同的参数,提取得到衍生特征;
图7是根据本申请实施例的衍生逻辑设计示意图,如图7所示,进一步地,本实施例通过图6中的实例化数据元组对特征进行衍生逻辑的设计,具体地,本实施例通过不同变量体的属性,对动态实例化数据元组或静态实例化数据元组进行提取,得到衍生逻辑,然后形成得到模板;最后,对该模板内的变量设定不同的参数,提取得到衍生特征。例如,模板为:最近[N]个月,账户类型为[C1],还款状态为[C2]的机构数。那么,可衍生得到的特征有:
1.最近1个月,账户类型为信用卡,还款状态为1的机构数;
2.最近2个月,账户类型为准贷记卡,还款状态为2的机构数;
3.最近6个月,账户类型为贷款账户,还款状态为1,2,5的机构数;
以此类推可衍生出多个不同的特征。
图8是根据本申请实施例的模板自定义代码编辑界面示意图,如图8所示,优选的,本实施例中的模板不仅可以为可视化配置,具体地,可通过拖拉拽的形式配置数据结构的相应模板或指标;此外,本实施例的模板还可以通过图8中的自定义代码编辑的方式进行编辑,。在特定复杂情况下,使用该代码编辑方式,可使系统有更强的通用性。
本实施例对半结构化的原始数据进行解析和提取,可自顶向下演绎及归纳不同的变量体系,并通过不同变量属性,对动、静态的标准数据元组进行提取,得到实例化数据元组,进而设计衍生逻辑得到统一模板,通过该统一模板衍生特征,使得离线和实时特征计算逻辑采用同一套逻辑,保持了不同环境特征的统一性。此外,本实施例中的模板可以简化系统使用人员配置量,实现非技术人员也可方便使用;
步骤S204,根据衍生特征确定对应的原始数据,并以对应的原始数据为基础进行特征计算,得到特征结果。
本实施例根据步骤S203中得到的衍生特征确定对应的原始数据,并以对应的原始数据为基础进行特征计算,得到特征结果,并将该特征结果输出给下游系统。例如,某一衍生特征为指定时间周期内某授信额度的机构数,则根据上述衍生特征可以找到对应的原始数据为:授信协议生效时间与报告时间的间隔为N个月内,且授信额度为S的结构数据。本实施实现了由数据衍生的特征逻辑对原始数据进行提取和对应逻辑计算的目的。
通过上述步骤S201至步骤S204,本申请实施例对半结构化的原始数据进行解析和提取,可自顶向下演绎及归纳不同的变量体系,并通过不同变量属性,对动、静态的标准数据元组进行提取,得到实例化数据元组,进而设计衍生逻辑得到统一模板,通过该统一模板衍生特征,使得离线批量计算和实时特征计算逻辑采用同一套逻辑,保持了不同环境特征的统一性。此外,本申请基于原始数据进行特征加工,避免了原始数据在转表过程中可能存在的错误,保证了数据的准确性,也减少了特征计算的加工流程,缩短了时间,保证了时效性和效率。解决了在对数据进行特征计算时,存在的计算准确度不高、计算效率低的问题。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种数据特征计算的系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图9是根据本申请实施例的数据特征计算的系统的结构框图,如图9所示,该系统包括获取模块91、特征提取模块92和计算模块93:
获取模块91,用于获取原始数据,对原始数据进行解析,生成得到指定的数据对象;特征提取模块92,用于将数据对象中的数据项进行不同变量体的特征属性归类,通过特征属性提取业务特征得到标准数据元组,并根据标准数据元组提取出原始数据对应的实例化数据元组,通过实例化数据元组设计衍生逻辑,形成模板,并对模板内的变量设定不同的参数,提取得到衍生特征;计算模块93,用于根据衍生特征确定对应的原始数据,并以对应的原始数据为基础进行特征计算,得到特征结果。
通过上述系统,本申请实施例通过获取模块91对半结构化的原始数据进行解析和提取,通过特征提取模块92可自顶向下演绎及归纳不同的变量体系,并通过不同变量属性,对动、静态的标准数据元组进行提取,得到实例化数据元组,进而设计衍生逻辑得到统一模板,通过该统一模板衍生特征,使得离线和实时特征计算逻辑采用同一套逻辑,保持了不同环境特征的统一性。最后通过计算模块93实现了由数据衍生的特征逻辑对原始数据进行提取和对应逻辑计算。此外,本申请基于原始数据进行特征加工,避免了原始数据在转表过程中可能存在的错误,保证了数据的准确性,也减少了特征计算的加工流程,缩短了时间,保证了时效性和效率。解决了在对数据进行特征计算时,存在的计算准确度不高、计算效率低的问题。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
此外,需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
另外,结合上述实施例中的数据特征计算的方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种数据特征计算的方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据特征计算的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图10是根据本申请实施例的电子设备的内部结构示意图,如图10所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图10所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种数据特征计算的方法,数据库用于存储数据。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据特征计算的方法,其特征在于,所述方法包括:
获取原始数据,对所述原始数据进行解析,生成指定的数据对象;
将所述数据对象中的数据项进行不同变量体的特征属性归类,通过所述特征属性提取业务特征得到标准数据元组,并根据所述标准数据元组提取出所述原始数据对应的实例化数据元组;
通过所述实例化数据元组设计衍生逻辑,形成模板,并对所述模板内的变量设定不同的参数,提取得到衍生特征;
根据所述衍生特征确定对应的原始数据,并以所述对应的原始数据为基础进行计算,得到特征结果。
2.根据权利要求1所述的方法,其特征在于,对所述原始数据进行解析,生成得到指定的数据对象包括:
通过导入所述原始数据生成数据结构,得到相应的数据结构配置,并根据所述数据结构配置自动生成所述指定的数据对象。
3.根据权利要求1所述的方法,其特征在于,通过所述实例化数据元组得到衍生逻辑包括:
通过不同变量体的属性,对动态实例化数据元组或静态实例化数据元组进行提取,得到衍生逻辑。
4.根据权利要求1所述的方法,其特征在于,
所述模板通过自定义代码的方式进行编辑,或者通过可视化界面进行配置显示。
5.一种数据特征计算的系统,其特征在于,所述系统包括:
获取模块,用于获取原始数据,对所述原始数据进行解析,生成指定的数据对象;
特征提取模块,用于将所述数据对象中的数据项进行不同变量体的特征属性归类,通过所述特征属性提取业务特征得到标准数据元组,并根据所述标准数据元组提取出所述原始数据对应的实例化数据元组,
通过所述实例化数据元组设计衍生逻辑,形成模板,并对所述模板内的变量设定不同的参数,提取得到衍生特征;
计算模块,用于根据所述衍生特征确定对应的原始数据,并以所述对应的原始数据为基础进行计算,得到特征结果。
6.根据权利要求5所述的系统,其特征在于,
所述获取模块,还用于通过导入所述原始数据生成数据结构,得到相应的数据结构配置,并根据所述数据结构配置自动生成所述指定的数据对象。
7.根据权利要求5所述的系统,其特征在于,
所述特征提取模块,还用于通过不同变量体的属性,对动态实例化数据元组或静态实例化数据元组进行提取,得到衍生逻辑。
8.根据权利要求5所述的系统,其特征在于,
所述模板通过自定义代码的方式进行编辑,或者通过可视化界面进行配置显示。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至4中任一项所述的数据特征计算的方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至4中任一项所述的数据特征计算的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111237231.0A CN114064976A (zh) | 2021-10-20 | 2021-10-20 | 一种数据特征计算的方法、系统、电子装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111237231.0A CN114064976A (zh) | 2021-10-20 | 2021-10-20 | 一种数据特征计算的方法、系统、电子装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114064976A true CN114064976A (zh) | 2022-02-18 |
Family
ID=80235343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111237231.0A Pending CN114064976A (zh) | 2021-10-20 | 2021-10-20 | 一种数据特征计算的方法、系统、电子装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114064976A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114756938A (zh) * | 2022-04-21 | 2022-07-15 | 广联达科技股份有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562461A (zh) * | 2017-09-08 | 2018-01-09 | 北京京东尚科信息技术有限公司 | 特征计算系统及方法、存储介质和电子设备 |
CN107705199A (zh) * | 2017-08-07 | 2018-02-16 | 阿里巴巴集团控股有限公司 | 特征计算代码的生成方法和装置 |
CN111143639A (zh) * | 2019-12-27 | 2020-05-12 | 同盾(广州)科技有限公司 | 用户亲密度计算方法、装置、设备及介质 |
CN111401671A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种精准营销中衍生特征计算方法、装置和可读存储介质 |
CN111832740A (zh) * | 2019-12-30 | 2020-10-27 | 上海氪信信息技术有限公司 | 一种对结构化数据实时衍生机器学习用特征的方法 |
CN111861750A (zh) * | 2020-07-22 | 2020-10-30 | 北京睿知图远科技有限公司 | 一种基于决策树方法的特征衍生系统及可读存储介质 |
CN112182314A (zh) * | 2020-09-30 | 2021-01-05 | 北京九章云极科技有限公司 | 一种数据处理方法和系统 |
CN112667569A (zh) * | 2020-12-23 | 2021-04-16 | 平安银行股份有限公司 | 特征方法、系统、计算机设备及计算机可读存储介质 |
CN113297185A (zh) * | 2020-02-24 | 2021-08-24 | 中国移动通信有限公司研究院 | 一种特征衍生方法及装置 |
-
2021
- 2021-10-20 CN CN202111237231.0A patent/CN114064976A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705199A (zh) * | 2017-08-07 | 2018-02-16 | 阿里巴巴集团控股有限公司 | 特征计算代码的生成方法和装置 |
CN107562461A (zh) * | 2017-09-08 | 2018-01-09 | 北京京东尚科信息技术有限公司 | 特征计算系统及方法、存储介质和电子设备 |
CN111401671A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种精准营销中衍生特征计算方法、装置和可读存储介质 |
CN111143639A (zh) * | 2019-12-27 | 2020-05-12 | 同盾(广州)科技有限公司 | 用户亲密度计算方法、装置、设备及介质 |
CN111832740A (zh) * | 2019-12-30 | 2020-10-27 | 上海氪信信息技术有限公司 | 一种对结构化数据实时衍生机器学习用特征的方法 |
CN113297185A (zh) * | 2020-02-24 | 2021-08-24 | 中国移动通信有限公司研究院 | 一种特征衍生方法及装置 |
CN111861750A (zh) * | 2020-07-22 | 2020-10-30 | 北京睿知图远科技有限公司 | 一种基于决策树方法的特征衍生系统及可读存储介质 |
CN112182314A (zh) * | 2020-09-30 | 2021-01-05 | 北京九章云极科技有限公司 | 一种数据处理方法和系统 |
CN112667569A (zh) * | 2020-12-23 | 2021-04-16 | 平安银行股份有限公司 | 特征方法、系统、计算机设备及计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114756938A (zh) * | 2022-04-21 | 2022-07-15 | 广联达科技股份有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947789B (zh) | 一种多数据库的数据处理的方法、装置、计算机设备及存储介质 | |
WO2020134991A1 (zh) | 纸质表单的自动录入方法、装置、计算机设备和存储介质 | |
US11416768B2 (en) | Feature processing method and feature processing system for machine learning | |
WO2019222742A1 (en) | Real-time content analysis and ranking | |
CN110263009A (zh) | 日志分类规则的生成方法、装置、设备及可读存储介质 | |
CN110765101B (zh) | 标签的生成方法、装置、计算机可读存储介质及服务器 | |
CN111078776A (zh) | 数据表的标准化方法、装置、设备及存储介质 | |
CN110674131A (zh) | 财务报表数据处理方法、装置、计算机设备和存储介质 | |
CN107729330B (zh) | 获取数据集的方法和装置 | |
CN113095408A (zh) | 风险的确定方法、装置和服务器 | |
CN114035793A (zh) | 页面生成方法、页面生成装置、设备及存储介质 | |
CN112115107A (zh) | 合同文本自动生成方法及装置 | |
CN112347748A (zh) | 数据报表的生成方法、装置、计算机设备及可读存储介质 | |
CN115438740A (zh) | 一种多源数据的汇聚融合方法和系统 | |
CN111625567A (zh) | 数据模型匹配方法、装置、计算机系统及可读存储介质 | |
CN114064976A (zh) | 一种数据特征计算的方法、系统、电子装置和存储介质 | |
CN116450723A (zh) | 数据提取方法、装置、计算机设备及存储介质 | |
US20230317215A1 (en) | Machine learning driven automated design of clinical studies and assessment of pharmaceuticals and medical devices | |
CN114706787A (zh) | 业务测试方法、业务测试装置、设备及存储介质 | |
CN115203339A (zh) | 多数据源整合方法、装置、计算机设备及存储介质 | |
Motohashi et al. | Technological competitiveness of China's internet platformers: comparison of Google and Baidu by using patent text information | |
CN116364223B (zh) | 特征处理方法、装置、计算机设备及存储介质 | |
CN117389607A (zh) | 看板配置方法、装置、计算机设备及存储介质 | |
CN117455670A (zh) | 一种数据处理方法、装置及计算机设备、介质、产品 | |
CN114741437A (zh) | 产品状态显示方法、装置、设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |