CN115131139B - 一种基于结构数据获取目标结果的方法、装置、介质 - Google Patents
一种基于结构数据获取目标结果的方法、装置、介质 Download PDFInfo
- Publication number
- CN115131139B CN115131139B CN202211068228.5A CN202211068228A CN115131139B CN 115131139 B CN115131139 B CN 115131139B CN 202211068228 A CN202211068228 A CN 202211068228A CN 115131139 B CN115131139 B CN 115131139B
- Authority
- CN
- China
- Prior art keywords
- target
- data
- obtaining
- feature
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012545 processing Methods 0.000 claims abstract description 43
- 230000002776 aggregation Effects 0.000 claims abstract description 23
- 238000004220 aggregation Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000006243 chemical reaction Methods 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000009795 derivation Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供一种基于结构数据获取目标结果的方法、装置、介质及电子设备,所述方法包括:根据待分析数据得到目标输入特征,其中,所述待分析数据是采用表格存储的结构化数据,所述目标输入特征是通过构建的算子对所述表格进行数据处理自动生成的特征,所述数据处理包括聚合处理和转换处理中的至少一种,所述表格用于记录目标企业在经营过程中记录的数据;将所述目标输入特征输入目标机器模型,得到针对目标参量的目标结果,其中,所述目标参量用于表征与所述目标企业相关的履约信息。本申请实施例的目的在于提供,通过本申请的一些实施对特征工程的过程进行了流程优化、实现了自动化提取特征。
Description
技术领域
本申请涉及机器学习域,具体而言本申请实施例涉及一种基于结构数据获取目标结果的方法、装置、介质。
背景技术
特征工程是指以已有的数据为基础,根据专业领域的知识和经验,构造新的特征,获取高效准确的模型的过程,这一步可能比实际上是用的模型更为重要,因为一个机器学习算法只能从给定的数据中学习,所以构造和目标相关的特征是至关重要的。而现有的特征工程方法是一个冗长的人工过程,需要一个个手动构造,过分依赖于领域知识、专家经验、直觉和数据操作。
可以理解的是采用手工方式进行特征工程存在如下技术缺陷:
第一,全面理解数据难度大,这是由于手动设计指标需要充分理解数据,数据逻辑复杂,数据关系层级深,每个数据表字段非常多,业务人员很难全面理解字段信息,且数据理解无法留存和传递。
第二,手动设计指标无法充分、有效利用数据的信息且存在如下技术缺陷。根据可用信息设计成指标需要一定的业务经验,例如:两次(逾期行为)事件发生的平均时间间隔,是一个有效指标,但没有设计。复用性差,指标设计、加工是一次性工作,无法推演,没有办法从数据中提取全面的有价值的信息,如:近12个月本金逾期天数发生减少的次数。未拆解。
第三,效率低。需要手动实现定制化的指标开发,复现效率低。
发明内容
本申请实施例的目的在于提供一种基于结构数据获取目标结果的方法、装置、介质,通过本申请的一些实施对特征工程的过程进行了流程优化、实现了自动化提取特征,实现了技术方案与场景的解耦技术方案通用性更好。
第一方面,本申请实施例提供一种基于结构数据获取目标结果的方法,所述方法包括:根据待分析数据得到目标输入特征,其中,所述待分析数据是采用表格存储的结构化数据,所述目标输入特征是通过构建的算子对所述表格进行数据处理自动生成的特征,所述数据处理包括聚合处理和转换处理中的至少一种,所述表格用于记录目标企业在经营过程中记录的数据;将所述目标输入特征输入目标机器模型,得到针对目标参量的目标结果,其中,所述目标参量用于表征与所述目标企业相关的履约信息。
本申请的一些实施例通过预先构建的多个算子对结构化的数据(即多张表格数据)自动进行特征提取,与相关的技术方案相比本申请的一些实施例实现了结构化数据的特征自动提取,且提升了得到目标输入特征的速度和效率。
在一些实施例中,所述根据待分析数据得到目标输入特征,包括:从多张表格中得到一张主表,并获取与所述主表对应的父表和多张子表,其中,所述主表用于存储和所述目标参量对应级别的数据;将所述多个算子与所述主表、所述父表和所述多张子表中的各张表进行匹配得到初始匹配结果,其中,所述子表和聚合类算子匹配,所述主表和转换类算子匹配,所述父表的特征直接引用;将所述初始匹配结果中包括的所有算子的参数与对应表的目标字段匹配,得到目标匹配结果,并根据所述目标匹配结果得到初始输入特征;对所述初始输入特征进行处理得到所述目标输入特征。
本申请的一些实施例通过预先设计的针对表格的多种算子,之后再自动匹配算子与表格,实现了特征自动提取。
在一些实施例中,所述聚合类算子包括:求和、求最小值或者求最大值。
本申请的一些实施例提供了多种可选的聚合类算子。
在一些实施例中,所述根据待分析数据得到目标输入特征,包括:从历史目标输入特征中选择至少部分可作为所述目标输入特征。
本申请的一些实施例为了充分利用历史输入特征数据,还对这些数据进行存储以提升获取本次的目标输入特征数据的速度。
在一些实施例中,所述对所述初始输入特征进行处理得到所述目输入特征,包括:根据缺失值、异常值、协变量相关性对所述初始输入特征进行筛选得到所述目标输入特征。
本申请的一些实施例还通过后处理技术提升得到的目标输入特征的质量。
在一些实施例中,所述算子是对有效指标的加工方式进行抽象得到的,所述有效指标是指与所述表格的各字段对应的字段名称,所述加工方式用于表征对相应表格的多个字段对应的数据之间可执行的计算方式。
本申请的一些实施例提供了一种获取算子的方式,进而提升技术方案的通用性。
在一些实施例中,所述目标结果包括特征解析表以及特征溯源图,其中,所述特征解析表中的任一特征定义包含生成所述任一特征所需的表名、对应的字段名以及特征含义的文字描述,所述特征溯源图表征生成所述任一特征每次聚合用到的目标算子以及列名。
本申请的一些实施例还可以获取特征的描述,可提升技术方案的通用性。
第二方面,本申请的一些实施例提供一种基于结构数据获取目标结果的装置,所述装置包括:输入特征获取模块,被配置为根据待分析数据得到目标输入特征,其中,所述待分析数据采用多张表格进行存储,所述目标输入特征是通过构建的多个算子对所述多张表格进行数据处理自动生成的特征,所述数据处理包括聚合处理和转换处理中的至少一种,所述多张表格用于记录目标企业在经营过程中记录的数据;目标结果预测模块,被配置为将所述目标输入特征输入目标机器模型,得到针对目标参量的分析结果。
第三方面,本申请的一些实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如第一方面任意实施例所述的方法。
第四方面,本申请的一些实施例提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现如第一方面任意实施例所述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的基于结构数据获取目标结果的方法的流程图之一;
图2为本申请实施例提供的基于结构数据获取目标结果的方法的流程图之二;
图3为本申请实施例提供的基于结构数据获取目标结果的方法的流程图之三;
图4为本申请实施例提供的基于结构数据获取目标结果的装置的组成框图;
图5为本申请实施例提供的电子设备组成示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
与相关技术方案不同的是,本申请的一些实施例通过算子匹配的方式,自动挖掘特征,替代手动构造的过程,提升获取特征的准确性以及速度。
可以理解的是,通过本申请的一些实施例实现了流程优化。具体地,本申请的一些实施例通过数据梳理理清数据表的关联关系和每个表的关键字段信息,先生成数量庞大的特征集合,并提供一系列工具和方法做筛选,形成基本可用,且证明对模型有效的特征,然后提供给建模人员和业务人员理解特征含义,分析特征的有效性,降低业务使用门槛,不需要充分理解数据表中的所有字段信息,先生成后验证的方式。
通过本申请的一些实施例实现了结构数据的特征提取自动化。可以理解的是,本申请的一些实施例的复用性好,把有效指标的加工方式抽象成算子,根据实体集关系和算子自动生成特征,算子根据字段类型全量匹配,全面提取数据信息,挖掘数据价值,避免了传统指标开发框架下的想不到和想不全。
本申请的一些实施例与场景解耦,可支持其他场景的开发。本申请的一些实施例的特征提取的效率高:优化流程、沉淀资产、提供自动化方法和工具,从而大大提高了开发效率,实现新场景建模需求的快速验证。通过本申请的一些 实施例实现了资产化:形成了实体集关系、算子库、特征定义长清单。通过本申请的一些实施例得到的模型效果好:ks指标达到0.55、分数分布接近正态分布,区分度高。
请参看图1,图1为本申请实施例提供一种识别履约信用结果的方法,该方法包括:S101,根据待分析数据得到目标输入特征,其中,所述待分析数据是采用表格存储的结构化数据,所述目标输入特征是通过构建的算子对所述表格进行数据处理自动生成的特征,所述数据处理包括聚合处理和转换处理中的至少一种,所述表格用于记录目标企业在经营过程中记录的数据。以及S102,将所述目标输入特征输入目标机器模型,得到针对目标参量的目标结果,其中,所述目标参量用于表征与所述目标企业相关的履约信息。
本申请的一些实施例通过预先构建的多个算子对结构化的数据(即多张表格数据)自动进行特征提取,与相关的技术方案相比本申请的一些实施例实现了结构化数据的特征自动提取,且提升了得到目标输入特征的速度和效率。
例如,在本申请的一些实施例中,所述根据待分析数据得到目标输入特征,包括:从多张表格中得到一张主表,并获取与所述主表对应的父表和多张子表,其中,所述主表用于存储和所述目标参量对应级别的数据;将所述多个算子与所述主表、所述父表和所述多张子表中的各张表进行匹配得到初始匹配结果,其中,所述子表和聚合类算子匹配,所述主表和转换类算子匹配,所述父表的特征直接引用;将所述初始匹配结果中包括的所有算子的参数与对应表的目标字段匹配,得到目标匹配结果,并根据所述目标匹配结果得到初始输入特征;对所述初始输入特征进行处理得到所述目输入特征。
本申请的一些实施例通过预先设计的针对表格的多种算子,之后再自动匹配算子与表格,实现了特征自动提取。
例如,在本申请的一些实施例中,所述聚合类算子包括:求和、求最小值或者求最大值。本申请的一些实施例提供了多种可选的聚合类算子。
例如,在本申请的一些实施例中,S102示例性包括:从历史目标输入特征中选择至少部分可作为所述目标输入特征。本申请的一些实施例为了充分利用历史输入特征数据,还对这些数据进行存储以提升获取本次的目标输入特征数据的速度。
例如,在本申请的一些实施例中,所述对所述初始输入特征进行处理得到所述目输入特征,包括:根据缺失值、异常值、协变量相关性对所述初始输入特征进行筛选得到所述目标输入特征。
本申请的一些实施例还通过后处理技术提升得到的目标输入特征的质量。
例如,在本申请的一些实施例中,所述算子是对有效指标的加工方式进行抽象得到的,所述有效指标是指与所述表格的各字段对应的字段名称,所述加工方式用于表征对相应表格的多个字段对应的数据之间可执行的计算方式。
本申请的一些实施例提供了一种获取算子的方式,进而提升技术方案的通用性。
例如,在本申请的一些实施例中,所述分析结果包括特征解析表以及特征溯源图,其中,所述特征解析表中的任一特征定义包含生成所述任一特征所需的表名、对应的字段名以及特征含义的文字描述,所述特征溯源图表征生成所述任一特征每次聚合用到的目标算子以及列名。
本申请的一些实施例还可以获取特征的描述,可提升技术方案的通用性。
下面结合图2示例性阐述本申请的一些实施例获取针对某个场景的目标输入特征(即S101的实现过程)得到场景指标库的过程。
如图2所示,本申请一些实施例的获取目标输入特征的步骤示例性包括:
第一步,业务场景需求,即通过分析业务场景得到具体的业务场景需求。
第二步,判断历史特征是否满足要求,若满足,则直接从图2的特征库中读取相应的特征作为目标输入特征,否则分别执行下述第三步。
第三步,需要根据该业务场景编写新的算子,将编写算子补入算子库中。进行数据表的增加和调整及进行数据表梳理文档得到图2的实体集关系,该实体集关系中包括多个数据表。
第四步,根据算子库中的算子以及实体集关系中的数据包进行自动特征衍生,得到新的特征,并将这些特征存入图2的特征库中。
第五步,对特征库中的特征进行筛选和建模得到有效特征。
第六步,基于得到的有效特征进行业务分析验证得到满足要求的目标输入特征,将目标输入特征放入场景指标库中。可以理解的是,该指标库中的特征也可以作为相似场景的输入特征。
下面以一个具体场景即以还款行为表和一个算子示例性阐述进行图2的自动特征衍生的过程。
第一步,分析数据表关系,本申请一些实施例的父表与子表是1对n的关系,即一个父表对应一个或者多个子表,根据数据表的关系构建图2的实体集。
第二步,分析关系与特征。
本表(即主表)特征:将表中的现有特征通过转换算子计算为另一类值,如将日期转换成年份、月份、周末等。
关联特征:联合分析两个相关表而得到,这两个表以某种方式相互关联(父或子):
父表特征:将父表中的特征直接作为本表特征:
子表特征:将子表中的特征通过聚合算子计算成一个值,如求和,求最小值,求最大值等。
第三步,分析关系类型匹配算子类型。
算子集合中的算子按照算子类型去匹配数据表:子表和聚合类算子匹配,本表和转换类算子作匹配,父表特征直接引用。
第四步,完成算子参数类型匹配表的字段类型。
当第三步数据表和算子类型匹配完后,在同一类算子下按照算子的输入类型去匹配数据表中的相同类型的字段。如图3所示,图3包括关系型子表以及算子,其中,关系型子表具体为还款行为表,该还款行为表又进一步包括:还款金额、还款渠道、账单金额以及还款时间等字段,图3的算子为用于计算条件总额占比的算子该算子包括条件参数、分子参数以及分母参数这几类,执行本申请的一些实施例实现表类型与算子类型匹配,具体到本示例中即将还款行为表与条件总额占比算子作为一组匹配项,再将表字段类型与算子参数类型匹配,即为算子中的各类型分别匹配上对应还款行为表的相应字段。例如“条件总额占比算子”的“条件参数”与“还款渠道”列匹配成功,“分子参数”与“还款金额”列匹配成功,“分母参数”与“账单金额”匹配成功。
下面结合一个具体场景(即履约信用分场景开发)示例性阐述获取 该场景的机器学习模型的过程。
第一步,标签
在表现期内,分别按信用卡业务和零贷业务对客户进行打标。对信用卡业务,连续发生两次逾期,且逾期间隔天数在一个月内的视为信用卡违约,第二次逾期的时间视为违约时间。对零贷业务,逾期天数大于60天的视为违约,逾期第61天视为违约时间。分别按照信用卡号和贷款合同号筛选出每笔合同以及每张信用卡的最早违约时间。按照身份证号聚合,筛选出每个客户的最早违约时间形成坏客户违约标识。
第二步,建模数据准备
定义活跃用户,在观察时点存在未结清业务的客户为活跃客户,一种是在观察时点有未结清贷款,另一种是信用卡状态正常且透支不等于信用额度。筛选10万活跃客户样本,其中好坏客户比例为4:1。
第三步,自动特征衍生。
构建了50张表组成的实体集,调用100个算子,配置的特征衍生深度为5,生成23万个特征衍生定义,对每个特征定义生成以下两种形式的解析:
特征解析表:每个特征定义包含生成该特征需要的表名、对应的字段名以及特征含义的文字描述。
特征溯源图:生成该特征每次聚合用到的算子以及列名等。
第四步,特征分析和筛选。
通过缺失值,异常值,低方差,唯一性,协变量相关性,目标变量相关性等方法。
第五步,特征分箱。
采用best-ks分箱的方法,该方法衡量好坏样本累计部分之间的差距,ks值越大,表示该变量越能区分好坏样本。
优点:
避免one-hot编码过于稀疏。
降低异常值的影响,分箱离散后的特征对异常数据有更好的鲁棒性。
提高特征的可解释性,特征描述可以很清晰的展现。
简化模型,降低过拟合的风险。
第六步,建模。
采用逻辑回归建模,并按模型的特征重要度排序,保留重要度高的特征。
第七步,模型分析。
在测试样本上做验证,对比新模型和之前的结果,从ks、roc、ar、psi、以及分数分布等几个维度分析模型的效果。
请参考图4,图4示出了本申请实施例提供的基于结构数据获取目标结果的装置,应理解,该装置与上述图1方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置的具体功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。装置包括至少一个能以软件或固件的形式存储于存储器中或固化在装置的操作系统中的软件功能模块,该识别履约信用结果的装置包括:输入特征获取模块101以及目标结果预测模块102。
输入特征获取模块101,被配置为根据待分析数据得到目标输入特征,其中,所述待分析数据采用多张表格进行存储,所述目标输入特征是通过构建的多个算子对所述多张表格进行数据处理自动生成的特征,所述数据处理包括聚合处理和转换处理中的至少一种,所述多张表格用于记录目标企业在经营过程中记录的数据。
目标结果预测模块102,被配置为将所述目标输入特征输入目标机器模型,得到针对目标参量的分析结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
本申请的一些实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如图1任一实施例所述的方法。
如图5所示,本申请的一些实施例提供一种电子设备500,包括存储器510、处理器520以及存储在所述存储器510上并可在所述处理器520上运行的计算机程序,其中,所述处理器520通过总线530从存储器510读取程序并执行所述程序时可实现如上述识别履约信用结果的方法包括的任意实施例所述的方法。
处理器520可以处理数字信号,可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中,处理器520可以是微处理器。
存储器510可以用于存储由处理器520执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码,用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器520可以用于执行存储器510中的指令以实现图1中所示的方法。存储器510包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (9)
1.一种基于结构数据获取目标结果的方法,其特征在于,所述方法包括:
根据待分析数据得到目标输入特征,其中,所述待分析数据是采用表格存储的结构化数据,所述目标输入特征是通过构建的算子对所述表格进行数据处理自动生成的特征,所述数据处理包括聚合处理和转换处理中的至少一种,所述表格用于记录目标企业在经营过程中记录的数据;
将所述目标输入特征输入目标机器模型,得到针对目标参量的目标结果,其中,所述目标参量用于表征与所述目标企业相关的履约信息;
其中,所述根据待分析数据得到目标输入特征,包括:
从多张表格中得到一张主表,并获取与所述主表对应的父表和多张子表,其中,所述主表用于存储和所述目标参量对应级别的数据;
将多个算子与所述主表、所述父表和所述多张子表中的各张表进行匹配得到初始匹配结果,其中,所述子表和聚合类算子匹配,所述主表和转换类算子匹配,所述父表的特征直接引用;
将所述初始匹配结果中包括的所有算子的参数与对应表的目标字段匹配,得到目标匹配结果,并根据所述目标匹配结果得到初始输入特征;
对所述初始输入特征进行处理得到所述目标输入特征。
2.如权利要求1所述的方法,其特征在于,所述聚合类算子包括:求和、求最小值或者求最大值。
3.如权利要求1所述的方法,其特征在于,所述根据待分析数据得到目标输入特征,包括:
从历史目标输入特征中选择至少部分可作为所述目标输入特征。
4.如权利要求1所述的方法,其特征在于,所述对所述初始输入特征进行处理得到所述目标输入特征,包括:根据缺失值、异常值、协变量相关性对所述初始输入特征进行筛选得到所述目标输入特征。
5.如权利要求1所述的方法,其特征在于,所述算子是对有效指标的加工方式进行抽象得到的,所述有效指标是指与所述表格的各字段对应的字段名称,所述加工方式用于表征对相应表格的多个字段对应的数据之间可执行的计算方式。
6.如权利要求1所述的方法,其特征在于,所述目标结果包括特征解析表以及特征溯源图,其中,所述特征解析表中的任一特征定义包含生成所述任一特征所需的表名、对应的字段名以及特征含义的文字描述,所述特征溯源图表征生成所述任一特征每次聚合用到的目标算子以及列名。
7.一种基于结构数据获取目标结果的装置,其特征在于,所述装置包括:
输入特征获取模块,被配置为根据待分析数据得到目标输入特征,其中,所述待分析数据是采用表格存储的结构化数据,所述目标输入特征是通过构建的算子对所述表格进行数据处理自动生成的特征,所述数据处理包括聚合处理和转换处理中的至少一种,所述表格用于记录目标企业在经营过程中记录的数据;
目标结果预测模块,被配置为将所述目标输入特征输入目标机器模型,得到针对目标参量的目标结果,其中,所述目标参量用于表征与所述目标企业相关的履约信息;
其中,
所述输入特征获取模块还被配置为:从多张表格中得到一张主表,并获取与所述主表对应的父表和多张子表,其中,所述主表用于存储和所述目标参量对应级别的数据;将多个算子与所述主表、所述父表和所述多张子表中的各张表进行匹配得到初始匹配结果,其中,所述子表和聚合类算子匹配,所述主表和转换类算子匹配,所述父表的特征直接引用;将所述初始匹配结果中包括的所有算子的参数与对应表的目标字段匹配,得到目标匹配结果,并根据所述目标匹配结果得到初始输入特征;对所述初始输入特征进行处理得到所述目标输入特征。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时可实现权利要求1-6中任意一项权利要求所述的方法。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现权利要求1-6中任意一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211068228.5A CN115131139B (zh) | 2022-09-02 | 2022-09-02 | 一种基于结构数据获取目标结果的方法、装置、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211068228.5A CN115131139B (zh) | 2022-09-02 | 2022-09-02 | 一种基于结构数据获取目标结果的方法、装置、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115131139A CN115131139A (zh) | 2022-09-30 |
CN115131139B true CN115131139B (zh) | 2022-11-22 |
Family
ID=83387759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211068228.5A Active CN115131139B (zh) | 2022-09-02 | 2022-09-02 | 一种基于结构数据获取目标结果的方法、装置、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115131139B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115712691A (zh) * | 2022-11-17 | 2023-02-24 | 创新奇智(重庆)科技有限公司 | 一种数据关系处理方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102012912B (zh) * | 2010-11-19 | 2012-08-22 | 清华大学 | 一种基于云计算环境的非结构化数据的管理方法 |
CN106776639B (zh) * | 2015-11-24 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 基于结构化查询语言的数据处理方法及数据处理装置 |
CN111461344B (zh) * | 2020-03-31 | 2023-04-25 | 上海携程国际旅行社有限公司 | 高阶特征的自动生成方法、系统、设备和介质 |
CN112668944A (zh) * | 2021-01-26 | 2021-04-16 | 天元大数据信用管理有限公司 | 一种基于大数据征信的企业风控方法、装置、设备及介质 |
CN114564480A (zh) * | 2022-03-01 | 2022-05-31 | 奇安信科技集团股份有限公司 | 基于Flink平台的数据处理方法、装置、电子设备和存储介质 |
-
2022
- 2022-09-02 CN CN202211068228.5A patent/CN115131139B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115131139A (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20070255646A1 (en) | Methods and Systems for Multi-Credit Reporting Agency Data Modeling | |
JP2019511037A (ja) | 機械学習モデルのモデリング方法及びデバイス | |
US20230359599A1 (en) | Method and system for managing metadata | |
CN115131139B (zh) | 一种基于结构数据获取目标结果的方法、装置、介质 | |
CN110675078A (zh) | 上市公司风险诊断方法、系统、计算机终端及存储介质 | |
WO2021040871A1 (en) | Quantifiying privacy impact | |
Schaefer et al. | Compositional algorithmic verification of software product lines | |
US20210182877A1 (en) | Method and system to determine business segments associated with merchants | |
Hu | Predicting and improving invoice-to-cash collection through machine learning | |
CN114187082A (zh) | 一种财务记账及报销方法及系统 | |
CN112631889B (zh) | 针对应用系统的画像方法、装置、设备及可读存储介质 | |
CN116739795A (zh) | 基于知识图谱的保险风险评估方法、装置和电子设备 | |
CN115829412A (zh) | 一种基于业务过程的指标数据量化处理方法、系统及介质 | |
Berti et al. | Analyzing interconnected processes: using object-centric process mining to analyze procurement processes | |
CN114693428A (zh) | 数据确定方法、装置、计算机可读存储介质及电子设备 | |
CN115034883A (zh) | 金融业务的风险评估方法、装置、计算机设备和存储介质 | |
CA3092332A1 (en) | System and method for machine learning architecture for interdependence detection | |
Goto et al. | Support of scenario creation by generating event lists from conceptual models | |
Van Asseldonk | A Process Mining-Based Approach to Accounts Payable Recovery Audit | |
US20100088306A1 (en) | Method, Computer Apparatus and Computer Program for Identifying Unusual Combinations of Values in Data | |
CN111310423B (zh) | 一种文本信息生成方法及装置 | |
Leonov et al. | Development of a Model for Identifying High-Risk Operations for AML/CFT Purposes | |
Sadula | Integrating Big Data Analytics with US SEC Financial Statement Datasets and the Critical Examination of the Altman Z’-Score Model | |
US20220253774A1 (en) | Implementing big data and artificial intelligence to determine likelihood of post-acceptance facility or service renunciation | |
JP4258360B2 (ja) | 情報システム投資効果の評価方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 19 / F, building B, Xingzhi science and Technology Park, 6 Xingzhi Road, Nanjing Economic and Technological Development Zone, Jiangsu Province, 210000 Patentee after: AINNOVATION (NANJING) TECHNOLOGY Co.,Ltd. Address before: Floor 19, building B, Xingzhi science and Technology Park, 6 Xingzhi Road, Jiangning Economic and Technological Development Zone, Nanjing, Jiangsu Province Patentee before: AINNOVATION (NANJING) TECHNOLOGY Co.,Ltd. |
|
CP02 | Change in the address of a patent holder |