CN115470304A - 一种特征因果仓库管理方法及系统 - Google Patents

一种特征因果仓库管理方法及系统 Download PDF

Info

Publication number
CN115470304A
CN115470304A CN202211053639.7A CN202211053639A CN115470304A CN 115470304 A CN115470304 A CN 115470304A CN 202211053639 A CN202211053639 A CN 202211053639A CN 115470304 A CN115470304 A CN 115470304A
Authority
CN
China
Prior art keywords
causal
characteristic
feature
processed
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211053639.7A
Other languages
English (en)
Other versions
CN115470304B (zh
Inventor
何刚
杨健
方磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zetyun Tech Co ltd
Original Assignee
Beijing Zetyun Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zetyun Tech Co ltd filed Critical Beijing Zetyun Tech Co ltd
Priority to CN202211053639.7A priority Critical patent/CN115470304B/zh
Publication of CN115470304A publication Critical patent/CN115470304A/zh
Application granted granted Critical
Publication of CN115470304B publication Critical patent/CN115470304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种特征因果仓库管理方法及系统。所述方法包括:获得待处理的特征数据;基于因果发现算法对所述待处理的特征数据进行因果分析,得到所述待处理的特征数据的因果关系;基于所述因果关系构建特征因果仓库。本发明实施例基于因果发现算法对所述特征数据进行因果发现,得到所述特征数据的因果关系;基于所述因果关系构建特征因果仓库,从而实现自动构建特征因果仓库,提高了特征因果仓库的构建效率,且特征因果仓库可以增强特征数据在建模领域的可解释性、可靠性以及适用性。

Description

一种特征因果仓库管理方法及系统
技术领域
本发明涉及大数据分析领域,尤其涉及一种特征因果仓库管理方法及系统。
背景技术
随着人工智能AI和大数据的快速发展,特征数据已经成为一个发展AI技术的企业的主要AI数据资产之一。AI应用场景依赖于特征的加工,现有技术中通常是使用数据集或者数据库管理特征数据,在构建具体模型时,可以直接从数据集或者数据库中获取丰富的特征属性加入到模型中,以降低建模的数据加工耗时,加速AI场景的构建并赋能业务领域。目前构建数据集或者数据库的方式依靠人工构建,以算法人员、数据分析师的经验和业务理解为基础,通过ETL(抽取、转换、加载)的技术手段构建数据集或者数据库。人工构建数据集或者数据库成本高,需要消耗大量人力。另外,后续将构建数据集或者数据库应用于具体建模的特征数据,需要专业人员从大量的数据集或数据库表中人工筛选,特征筛选与加工中耗时长,并且强依赖于专人员的专业性,人工构建的数据集或者数据库可解释性差,利用率低。
发明内容
本发明实施例提供一种特征因果仓库管理方法及系统,解决现有技术人工构建数据集或者数据库成本高,需要消耗大量人力,且人工构建的数据集或者数据库可解释性差,利用率低。
为解决上述技术问题,本发明提供一种特征因果仓库管理方法,所述方法包括:
获得待处理的特征数据;
基于因果发现算法对所述待处理的特征数据进行因果分析,得到所述待处理的特征数据的因果关系;
基于所述因果关系构建特征因果仓库。
可选的,上述方法中,所述获得待处理的特征数据的步骤包括:
获取用户设置的业务场景及对应的数据范围;
基于所述业务场景及数据范围从数据库中获得与所述业务场景对应的特征数据。
可选的,上述方法中,所述基于因果发现算法对所述待处理的特征数据进行因果分析,得到所述待处理的特征数据的因果关系的步骤之前,所述方法还包括:
基于所述待处理的特征数据的属性,确定因果发现算法。
可选的,上述方法中,所述特征数据的属性包括特征数据的数量,所述基于所述待处理的特征数据的属性确定因果发现算法的步骤包括:
获得所述待处理的特征数据的特征数量;
根据所述待处理的特征数据的特征数量,确定因果发现算法。
可选的,上述方法中,所述基于因果发现算法对所述待处理的特征数据进行因果分析,得到所述待处理的特征数据的因果关系的步骤包括:
基于因果发现算法,得到所述待处理的特征数据对应的特征对;
根据所述待处理的特征数据对应的特征对,得到所述待处理的特征数据对应的因果关系。
可选的,上述方法中,所述基于因果发现算法,得到所述待处理的特征数据对应的特征对的步骤包括:
根据因果发现算法得到所述待处理的特征数据的特征因果顺序和特征邻接矩阵;
基于所述特征数据的特征因果顺序和特征邻接矩阵,确定具有关联关系的特征对。
可选的,上述方法中,所述基于所述特征数据的特征因果顺序和特征邻接矩阵,确定具有关联关系的特征对的步骤包括:
基于所述特征因果顺序,获得待处理的特征数据在所述特征邻接矩阵中对应的目标行的所有数值的绝对值之和;
若所述数值绝对值之和大于预设值,则确定所述目标行的非零数值列的列下标对应的特征为因特征,所述目标行的行下标对应的特征为果特征;
基于所述因特征和所述果特征得到所述待处理的特征数据的特征对。
可选的,上述方法中,所述特征因果仓库包括关系数据库,所述方法还包括:
获取所述待处理的特征数据的描述信息;
将所述待处理的特征数据的描述信息存储至所述关系数据库。
可选的,上述方法中,所述特征因果仓库包括图数据库,所述基于所述因果关系构建特征因果仓库的步骤包括:
查询所述图数据库中是否存在与所述待处理的特征数据对应的特征对;
若所述图数据库中已存在与所述待处理的特征数据对应的特征对,且所述特征对的因果关系与待保存的因果关系不同,则采用因果发现算法重新计算所述特征对的因果关系,得到所述待处理的特征数据的真实因果关系;
将所述通过因果算法计算得到的真实因果关系图谱更新至所述图数据库。
可选的,上述方法中,所述基于所述因果关系构建特征因果仓库的步骤之后,所述方法还包括:
获取用户输入的待查询的特征数据以及信息类型;
基于所述待查询的特征数据以及信息类型在所述特征因果仓库进行查询,得到所述对应的特征信息;
其中,所述信息类型包括描述信息或因果信息。
可选的,上述方法中,若所述信息类型包括因果信息,所述因果信息包括查询方向和/或查询深度,所述基于所述待查询的特征数据以及信息类型在所述特征因果仓库进行查询,得到所述对应的特征信息的步骤包括:
基于所述待查询的特征数据、所述查询方向和/或所述查询深度在所述特征因果仓库中进行查询,得到与所述待查询的特征数据、所述查询方向和/或所述查询深度对应的因果关系图谱;
显示所述因果关系图谱。
可选的,上述方法中,所述基于所述因果关系构建特征因果仓库的步骤之后,所述方法还包括:
获取用户输入的待预测目标列特征;
在所述特征因果仓库中搜索与所述待预测目标列特征相关的因果特征;
将所述因果特征作为建模推荐特征,输出所述建模推荐特征清单。
本发明实施例还提供了一种特征因果仓库管理系统,所述系统包括:
第一获取模块,用于获得待处理的特征数据;
因果关系模块,用于基于因果发现算法对所述待处理的特征数据进行因果分析,得到所述待处理的特征数据的因果关系;
构建模块,用于基于所述因果关系构建特征因果仓库。
可选的,上述系统中,所述第一获取模块包括:
第一获取子模块,用于获取用户设置的业务场景及业务场景对应的数据范围;
第二获取子模块,用于基于所述业务场景及数据范围从数据库中获得与所述业务场景对应的特征数据。
可选的,上述系统还包括:
确定模块,用于基于所述待处理的特征数据的属性,确定因果发现算法。
可选的,上述系统中,所述特征数据的属性包括特征数据的数量,所述确定模块包括:
第三获取子模块,用于获得所述待处理的特征数据的特征数量;
第一确定子模块,用于根据所述待处理的特征数据的特征数量,确定因果发现算法。
可选的,上述系统中,所述因果关系模块包括:
第四获取子模块,用于基于因果发现算法,得到所述待处理的特征数据对应的特征对;
第五获取子模块,用于根据所述待处理的特征数据对应的特征对,得到所述待处理的特征数据对应的因果关系。
可选的,上述系统中,所述第四获取子模块包括:
获取子单元,用于根据因果发现算法得到所述待处理的特征数据的特征因果顺序和特征邻接矩阵;
确定子单元,用于基于所述特征数据的特征因果顺序和特征邻接矩阵,确定具有关联关系的特征对。
可选的,上述系统中,所述确定子单元具体用于:
基于所述特征因果顺序,获得待处理的特征数据在所述特征邻接矩阵中对应的目标行的所有数值的绝对值之和;
若所述数值绝对值之和大于预设值,则确定所述目标行的非零数值列的列下标对应的特征为因特征,所述目标行的行下标对应的特征为果特征;
基于所述因特征和所述果特征得到所述待处理的特征数据的特征对。
可选的,上述系统中,所述特征因果仓库包括关系数据库,所述系统还包括:
第二获取模块,用于获取所述待处理的特征数据的描述信息;
第一存储模块,用于将所述待处理的特征数据的描述信息存储至所述关系数据库。
可选的,上述系统中,所述构建模块包括:
第一查询子模块,用于查询所述图数据库中是否存在与所述待处理的特征数据对应的特征对;
计算子模块,用于若所述图数据库中已存在与所述待处理的特征数据对应的特征对,且所述特征对的因果关系与待保存的因果关系不同,则采用因果发现算法重新计算所述特征对的因果关系,得到所述待处理的特征数据的真实因果关系图谱;
存储子模块,用于将通过因果算法计算得到的真实因果关系图谱更新至所述图数据库。
可选的,上述系统还包括:
第三获取模块,用于获取用户输入的待查询的特征数据以及信息类型;
第一查询模块,用于基于所述待查询的特征数据以及信息类型在所述特征因果仓库进行查询,得到所述对应的特征信息;
其中,所述信息类型包括描述信息或因果信息。
可选的,上述系统中,若所述信息类型包括因果信息,所述因果信息包查询方向和/或查询深度,
所述第一查询模块具体包括:
第二查询子模块,用于基于所述待查询的特征数据所述查询方向和/或所述查询深度在所述特征因果仓库中进行查询,得到与所述待查询的特征数据、所述查询方向和/或所述查询深度对应的因果关系图谱;
显示子模块,用于显示所述因果关系图谱。
可选的,上述系统还包括:
第四获取模块,用于获取用户输入的待预测目标列特征;
搜索模块,用于在所述特征因果仓库中搜索与所述待预测目标列特征相关的因果特征;
输出模块,用于将所述因果特征作为建模推荐特征,输出所述建模推荐特征清单。
本发明实施例还提供了一种特征因果仓库管理系统,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的特征因果仓库管理方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述的特征因果仓库管理方法的步骤。
本发明实施例基于因果发现算法对所述特征数据进行因果发现,得到所述特征数据的因果关系;基于所述因果关系构建特征因果仓库,从而实现自动构建特征因果仓库,提高了特征因果仓库的构建效率,且特征因果仓库可以提高特征库的可解释性、可靠性以及适用性。
进一步的,本发明提供的特征因果仓库具有特征数据的因果关系,能够提供具有解释性的特征关系检索功能以及精准的特征推荐,可以解决业务经验盲点问题,降低建模师的特征筛选门槛,特征的选取变得更加自动化,降低了数据加工时间,提高了建模效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的一种特征因果仓库管理方法的流程图;
图2是本发明实施例提供的特征关系图谱的示意图;
图3是本发明实施例提供的因关系查询结果的示意图;
图4是本发明实施例提供的果关系查询结果的示意图;
图5是本发明实施例提供的1阶因果关系查询结果的示意图;
图6是本发明实施例提供的2阶因关系查询结果的示意图;
图7是本发明实施例提供的一种特征因果仓库管理系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的特征因果仓库管理方法的流程图,所述特征因果仓库管理方法应用于特征因果仓库管理系统,如图1所示,特征因果仓库管理方法包括以下步骤:
步骤101,获得待处理的特征数据。
其中,特征数据是建模过程中使用到的数据,例如银行风控场景中,使用的特征数据包括人员存款总额,人员当月交易次数等。
可选的,所述获得待处理的特征数据的步骤包括步骤101包括:
获取用户设置的业务场景及对应的数据范围;
基于所述业务场景及数据范围从数据库中获得与所述业务场景对应的特征数据。
其中,可以由用户自定义业务场景及对应的数据范围。其中,用户自定义数据范围时支持表级或字段级设置。
具体的,不同业务场景关注的业务不同,适用于构建特征因果仓库的特征范围差异很大,因此本发明在构建特征因果仓库时,用户可以根据实际需要设置业务场景以及数据范围,然后根据业务场景从设置的数据范围内选择与该业务场景对应的用于进行因果分析的特征数据。例如,用户可以设置的数据范围为已有的数据仓库,和/或,数据集市或者已有的特征仓库中选择特征数据。示例性的,例如针对银行风控业务场景,在进行特征选取时,可以考虑跟风控业务相关的特征字段为主,包括实体的存款金额、剩余贷款总额、近期交易频率、大额交易频率与额度和历史违约记录等特征。例如针对银行的营销业务场景,在进行特征选取时,可以考虑选择跟营销业务相关的特征字段为主,包括客户已够买产品类别、已购买产品金额、年龄、性别、存款总额等特征。另外,用户还可以根据业务场景在数据仓库、数据集市或者特征因果仓库中选择相应的数据表。
步骤102,基于因果发现算法对所述待处理的特征数据进行因果分析,得到所述待处理的特征数据的因果关系。
其中,所述因果发现算法包括但不限于:线性因果算法(例如:LiNGAM算法、BMLiNGAM等算法),非线性因果发现算法(例如:ANM、NoTears-MLP、NoTears-SOB等算法)。
可选的,在基于因果发现算法对所述待处理的特征数据进行因果发现,得到所述特征数据的因果关系的步骤之前,所述方法还包括:
对所述特征数据进行预处理,所述预处理包括数据清洗、缺失值填充、归一化处理等。
具体的,获取待分析因果关系的数据集,不同特征数据可以保存在不同数据表中,遍历每张数据表,使用因果发现算法计算不同表中的特征数据之间的关系,得到特征数据之间的因果关系。本发明优先的是,在计算多张数据表中的特征数据的因果关系,可以用于基于设置的业务场景获得具有关联关系的多张数据表,采用关联表join操作,使用因果发现算法计算该多张数据表中的特征数据间的因果关系。
可选的,所述基于因果发现算法对所述待处理的特征数据进行因果发现,得到所述待处理的特征数据的因果关系的步骤102之前,所述方法还包括:
基于所述待处理的特征数据的属性,确定因果发现算法。
其中,所述特征数据的属性包括特征数量、特征统计分布等。
可选的,所述特征数据的属性包括特征数据的特征数量,所述基于所述待处理的特征数据的属性确定因果发现算法的步骤包括:
获得所述待处理的特征数据的特征数量;
根据所述待处理的特征数据的特征数量,确定因果发现算法。
进一步来说,为保证采用因果算法能够快速且准确的计算出特征数据之间的因果关系,本发明针对在基于待处理的特征数据的特征数量确定因果发现算法的实现,提供了一种可行的实现方式,具体包括:根据用户设置的业务场景以及待处理的数据特征的特征数量,估算单次特征数据处理量;基于单次特征数据处理量,选择对应的因果发现算法。
具体的,例如单次因果发现计算的特征数量10个以内,可以采用ANM算法两两特征之间进行因果关系计算;如果因果发现单次运算特征数量在20个特征以内,可以采用NoTears算法,批量计算因果特征关系。如果特征数量较多超过20个,可以采用LiNGAM进行计算。如针对银行业务场景,若特征数据包括银行刷卡信息,由于银行刷卡信息收集的主要是时间、地点、刷卡商户、刷卡金额等信息,银行刷卡信息的字段较少,计算这些特征之间的关系可以采用ANM算法。如果是对数据仓库中的客户宽表进行因果关系计算,由于数据宽表包含了大量的特征列,可能在200到600列,这些特征列通常包括个人基本信息例如年龄,教育程度,婚姻,是否金卡用户等,交易基本信息例如本月交易金额、交易次数,上月交易金额、交易次数,连续交易天数等,则可以采用LiNGAM算法进行计算。
可选的,所述特征数据的属性还包括特征数据的特征统计分布情况,所述基于所述待处理的特征数据的属性确定因果发现算法的步骤包括:根据特征数据的统计分布确定因果发现算法。
具体的,若待处理的特征数据呈线性分布,则采用LiNGAM算法批量计算因果特征关系。若待处理的特征数据呈非线性分布,则可以采用NoTears算法或ANM算法计算因果特征关系。
需要说明的是,本发明实施例在确定因果发现算法时,可以基于所述特征数据的特征数量和/或特征统计分布情况,在多个因果发现算法进行适应性选择,来确定因果发现算法,从而能够使得采用该确定出来的因果发现算法计算得到的因果关系更加准确;同时也兼顾因果发现算法的计算复杂度,确保可以在有限时间内完成运算,提高计算效率。
可选的,所述基于因果发现算法对所述待处理的特征数据进行因果发现,得到所述待处理的特征数据的因果关系的步骤102包括:
基于因果发现算法,得到所述待处理的特征数据对应的特征对;
根据所述待处理的特征数据对应的特征对,得到所述待处理的特征数据对应的因果关系。
具体的,可以先采用因果发现算法对待处理的特征数据进行计算,得到待处理的特征数据对应的特征对。然后基于待处理的特征数据对应的特征对,得到所述待处理特征数据对应的因果关系。
可选的,所述基于因果发现算法,得到所述待处理的特征数据对应的特征对的步骤包括:
根据因果发现算法得到所述待处理的特征数据的特征因果顺序和特征邻接矩阵;
基于所述特征数据的特征因果顺序和特征邻接矩阵,确定具有关联关系的特征对。
其中,所述根据因果发现算法得到所述待处理的特征数据的特征因果顺序和特征邻接矩阵的步骤包括:使用所述因果发现算法遍历所述待处理的特征数据,得到所述待处理的特征数据的特征因果顺序和特征邻接矩阵。
可选的,所述基于所述特征数据的特征因果顺序和特征邻接矩阵,确定具有关联关系的特征对的步骤包括:
基于特征因果顺序,计算待处理的特征数据在所述特征邻接矩阵中对应的目标行的所有数值的绝对值之和;
若所述数值绝对值之和大于预设值,则确定所述目标行的非零数值列的列下标对应的特征为因特征,所述目标行的行下标对应的特征为果特征;
基于所述因特征和所述果特征得到所述待处理的特征数据的特征对。
具体的,以银行行业对应的业务场景为例,对基于因果发现算法对所述特征数据进行因果发现,得到所述特征数据的因果关系的步骤进行详细说明。特征数据包括客户年龄、存款总额、交易在几号、开卡年限、VIP等级、逾期天数、上次交易间隔天数,因果发现算法为LiNGAM算法。通过LiNGAM算法对特征数据进行处理的,得到特征因果顺序和特征邻接矩阵。
为便于理解,对特征数据进行编号:编号“0”对应“客户年龄”、编号“1”对应“存款总额”、编号“2”对应“交易在几号”、编号“3”对应“开卡年限”、编号“4”对应“VIP等级”、编号“5”对应“逾期天数”、编号“6”对应“上次交易间隔天数”。并详细说明:利用特征因果顺序和特征临接矩阵的结果,计算特征因果关系的具体实现过程如下:
a)应用因果发现算法例如LiNGAM算法遍历所有特征得到因果特征顺序,特征因果顺序:[6,4,2,0,3,5,1],其中,该特征因果顺序中数字为上述特征对应的编号,如,“6”对应“上次交易间隔天数”,“4”对应“VIP等级”,“2”对应“交易在几号”等。
上述业务场景的待处理特征数据对应的特征邻接矩阵如下:
Figure BDA0003824190370000111
b).如果计算待处理的特征数据在所述特征邻接矩阵中对应的目标行所有数值的绝对值之和大于等于0.05,说明该特征与其他特征有因果关系;将所在行非零数值的列下标对应的特征作为因特征,该行的行下标对应的特征作为果特征,保存下来。
示例性的,待处理的特征数据是“交易在几号”,其特征编号r=2为例进行说明。r=2时,该特征数据在特征邻接矩阵中对应的目标行是行号为2的行,计算特征邻接矩阵行号为2对应的这行所有数值绝对值之和,即|0|+|0|+|0|+|0|+|0.43|+|0|+|-0.17|=0.6,大于0.05,则表明因果特征编号为2的特征与其他特征有因果关系,将计算特征邻接矩阵行号为2这行的非零数值对应的列的下标为4、6作为因,2作为果,即得到(4,2),(6,2)的因果关系。基于因果特征顺序,依次计算出所有因果特征编号对应的因果关系。
(c)上述特征数据经过因果发现可以得到以下因果对应关系(数字为特征的下标):
(4,2),(6,2)
(2,3),(4,3)
(0,5),(2,5),(4,5),(6,5)
(0,1),(2,1),(3,1),(4,1),(6,1)
(d)将结果中的下标转为输入的特征列,从而得到特征数据因果关系对,即特征对,如下所示:
(VIP等级,交易在几号),(上次交易间隔天数,交易在几号)
(交易在几号,开卡年限),(VIP等级,开卡年限)
(客户年龄,逾期天数),(交易在几号,逾期天数),(VIP等级,逾期天数),(上次交易间隔天数,逾期天数)
(客户年龄,存款总额),(交易在几号,存款总额),(开卡年限,存款总额),(VIP等级,存款总额),(上次交易间隔天数,存款总额)。
步骤103,基于所述因果关系构建特征因果仓库。
具体的,如果是对已经构建的特征仓库进行因果发现,可以在该特征仓库的基础上,对特征仓库的特征进行因果发现算法计算,形成特征库完整的因果关系,并存储到特征因果仓库中。
可选的,所述特征因果仓库包括图数据库,所述基于所述因果关系构建特征因果仓库的步骤103包括:
基于所述特征对确定所述待处理的特征数据之间的因果关系;
根据所述待处理的特征数据之间的因果关系建立所述待处理的特征数据的关系图谱;
将所述待处理的特征数据的所述关系图谱存储至图数据库。
具体的,特征因果关系主要表现为不同特征之间的关系图,关系的存储和检索上,图数据库更加适合,具有较强的灵活性,因此本发明实施例可以基于特征对确定待处理的特征数据之间的因果关系,根据因果关系建立关系图谱,关系图谱,如图2所示,图2给出了一种特征关系图谱的示意图;将所述待处理的特征数据的所述关系图谱存储至图数据库特征因果仓库。
可选的,所述特征因果仓库包括关系数据库,所述方法还包括:
获取所述待处理的特征数据的描述信息;
将所述待处理的特征数据的描述信息存储至所述关系数据库。
具体的,除了图数据库外,特征因果仓库还包括关系数据库。获取所述待处理的特征数据的描述信息,所述描述信息包括特征的来源表,字段的类型,字段的长度,字段的说明等。将这些描述信息在关系型数据库中进行存储,便于对于特征的基本描述信息的检索。
可选的,所述基于所述因果关系构建特征因果仓库的步骤103还包括:冲突阶级步骤,具体包括:
查询所述图数据库中是否存在所述待处理的特征数据对应的特征对;
若所述图数据库中已存在所述待处理的特征数据对应的特征对,且所述图数据库的因果关系与待保存的因果关系不同,则采用因果发现算法重新计算所述特征对的因果关系,得到所述待处理的特征数据的真实因果关系图谱;其中该因果发现算法可以为专注两特征因果方向发现算法;
将所述通过因果算法计算得到的真实因果关系图谱更新至所述图数据库;
若所述图数据库中已存在所述待处理的特征数据的对应的特征对,且所述特征对的因果关系与待保存的因果关系相同,则无需更新。
具体的,因果关系存储时可能会遇到关系冲突问题,如待保存的两特征之间的因果关系在图数据库中已经存在,并且图数据库中的因果关系与待保存的因果关系相反,即从前计算为因特征,现在被计算为果特征的情况。因果特征关系保存时,优先根据两节点在图数据库中查询两者关系,即以特征对的方式在图数据库中查询两个特征关系,如发现图数据库中已保存的两个特征的因果关系,可以采用以下两者处理方式之一:
1)已保存的关系与待保存的因果关系相反:此时通过BMLiNGAM算法对两个特征数据进行一次因果关系计算,保存该算法计算的因果关系到图数据库中,BMLiNGAM该算法专注在确定两者有关系的变量之间找出谁是因谁是果;
2)已保存的关系与待保存的因果关系相同:不需要重复保存,以图数据已有关系为准。
本发明实施例通过图数据库存储特征因果关系,具有较强的灵活性,同时在多层级关系的查询上也更加高效。另外,还可以通过两特征的因果发现算法解决因果关系保存时的因果关系冲突。
可选的所述基于所述因果关系构建特征因果仓库的步骤103之后,所述方法还包括:
获取用户输入的待查询的特征数据以及信息类型;
基于所述待查询的特征数据以及信息类型在所述特征因果仓库进行查询,得到所述对应的特征信息;
其中,所述信息类型包括描述信息或因果信息。
具体的,特征因果仓库提供基本的特征检索功能,可以根据特征的名称以及待查询的信息类型查询所有的特征信息。例如信息类型为描述信息,则通过查询关系型数据库的表,获取特征的所有描述信息,包括特征来源表,字段的类型,字段的长度,字段的说明等。例如信息类型为因果信息,则通过查询因果特征仓库中的图数据库,获取的与该特征数据对应的因果关系图数据。
若所述信息类型包括因果信息,所述因果信息包括查询方向和/或查询深度,所述基于所述待查询的特征数据以及信息类型在所述特征因果仓库进行查询,得到所述对应的特征信息的步骤包括:
基于所述待查询的特征数据、所述查询方向和/或所述查询深度在所述特征因果仓库中进行查询,得到与所述待查询的特征数据、所述查询方向和/或所述查询深度对应的因果关系图谱;
显示所述因果关系图谱。
其中,用户输入用于查询的因果信息包括查询方向和/或查询深度,其中,查询方向包括:因关系、果关系或者因果关系;查询深度包括:待查询关系层数。具体的,所述方法包括支持1阶和N阶因果关系的查询深度,N为大于等于1的整数;
本发明提供了一种可行的实施例包括,特征因果仓库管理系统响应于查询请求,显示查询页面,用户在特征因果仓库管理系统查询界面中输入待查询特征标识(例如,名称),指定查询方向,特征因果仓库管理系统根据待查询特征标识(例如,名称)以及指定查询方向,查找对应的目标特征数据。
具体的,若用户在特征因果仓库管理系统的查询页面中指定查询方向包括因关系,查询深度包括1阶,特征因果仓库管理系统在图数据库中查找出与所输入的待查询特征标识对应的1阶因特征并显示。示例性的,输入开卡年限,在特征因果仓库中获取开卡年限的因特征,VIP等级和上次交易间隔天数并显示,如图3所示。
若用户在特征因果仓库管理系统的查询页面中指定查询方向包括果关系,查询深度包括1阶,特征因果仓库管理系统在图数据库中查找出与所输入的待查询特征标识对应的1阶果特征并显示。示例性的,输入开卡年限,在特征因果仓库中获取开卡年限的果特征-存款总额并显示,如图4所示。
若用户在特征因果仓库管理系统的查询页面中查询方向包括因果关系,查询深度包括1阶,特征因果仓库管理系统在图数据库中查找出与所输入的特征有1阶关系(的因特征和果特征。示例性的,如果输入特征为交易在几号,即希望查看到影响交易在几号的直接因素或者交易在几号可能会影响的因素,系统返回:VIP等级、上次交易间隔天数、开卡年限、存款总额等关系,其中VIP等级和上次交易间隔天数是交易在几号的因特征,开卡年限和存款总额是交易在几号的果特征,如图5所示。
进一步的,用户若需要对N阶因关系进行查询,可以在特征因果仓库管理系统的查询页面中指定查询方向包括因关系,查询深度包括N阶,特征因果仓库管理系统在图数据库中查找出与所输入的特征N阶关系以内的因特征,包括作为该特征的因特征并显示。示例性的,以2阶检索为例,如果输入特征为存款总额,即希望查看到影响存款总额的直接或间接因素或者存款总额可能会影响的直接或间接因素,特征因果仓库管理系统返回:1阶特征包括客户年龄,交易在几号,开卡年限,VIP等级,上次交易间隔天数等,2阶特征相当于将1阶特征输入特征因果仓库管理系统再次检索它们的因特征,返回结果包括上次交易间隔天数,VIP等级、交易在几号等,如图6所示。
可选的,所述基于所述因果关系构建特征因果仓库的步骤103之后,所述方法还包括:
获取用户输入的待预测目标列特征;
在所述特征因果仓库中搜索与所述待预测目标列特征相关的因果特征;
将所述因果特征作为建模推荐特征,输出所述建模推荐特征。
具体的,当执行建模时,用户可以输入待预测特征列在特征因果仓库进行搜索,获得与待预测特征数据具有因果关系的因果特征,特征因果仓库管理系统将所述因果特征作为建模推荐特征,输出所述建模推荐特征,以供用户选取和参考。
进一步的,为更加准确的快速查找对与待预测目标列特征相关的特征,在进行搜索之前,还可以设置搜索范围,搜索范围设置包括:设置搜索m阶层,设置影响程度。例如,用户设置搜索1阶层,则在所述特征因果仓库中查找得到该待预测目标列特征的直接特征。
本发明实施例特征因果仓库能够提供具有解释性的特征因果关系检索功能以及精准的特征推荐,可以解决建模人员的业务经验盲点问题,降低建模师的特征筛选门槛,特征的选取变得更加自动化,降低了数据加工时间,提高了建模效率。
基于以上实施例提供的特征因果仓库管理方法,本发明实施例还提供了实施上述方法的特征因果仓库管理系统,请参照图7本发明实施例提供的特征因果仓库管理系统700包括:
第一获取模块701,用于获得待处理的特征数据;
因果关系模块702,用于基于因果发现算法对所述待处理的特征数据进行因果分析,得到所述待处理的特征数据的因果关系;
构建模703块,用于基于所述因果关系构建特征因果仓库。
可选的,所述第一获取模块701包括:
第一获取子模块,用于获取用户设置的业务场景及业务场景对应的数据范围;
第二获取子模块,用于基于所述业务场景及数据范围从数据库中获得与所述业务场景对应的特征数据。
可选的,所述系统还包括:
确定模块,用于基于所述待处理的特征数据的属性,确定因果发现算法。
可选的,所述特征数据的属性包括特征数据的数量,所述确定模块包括:
第三获取子模块,用于获得所述待处理的特征数据的特征数量;
第一确定子模块,用于根据所述待处理的特征数据的特征数量,确定因果发现算法。
可选的,所述因果关系模块702包括:
第四获取子模块,用于基于因果发现算法,得到所述待处理的特征数据对应的特征对;
第五获取子模块,用于根据所述待处理的特征数据对应的特征对,得到所述待处理的特征数据对应的因果关系。
可选的,所述第四获取子模块包括:
获取子单元,用于根据因果发现算法得到所述待处理的特征数据的特征因果顺序和特征邻接矩阵;
确定子单元,用于基于所述特征数据的特征因果顺序和特征邻接矩阵,确定具有关联关系的特征对。
可选的,所述确定子单元具体用于:
基于特征因果顺序,计算待处理的特征数据在所述特征邻接矩阵中对应的目标行的所有数值的绝对值之和;
若所述数值绝对值之和大于预设值,则确定所述目标行的非零数值列的列下标对应的特征为因特征,所述目标行的行下标对应的特征为果特征;
基于所述因特征和所述果特征得到所述待处理的特征数据的特征对。
可选的,所述特征因果仓库包括关系数据库,所述系统还包括:
第二获取模块,用于获取所述待处理的特征数据的描述信息;
第一存储模块,用于将所述待处理的特征数据的描述信息存储至所述关系数据库。
可选的,所述构建模块703包括:
第一查询子模块,用于查询所述图数据库中是否存在与所述待处理的特征数据对应的特征对;
计算子模块,用于若所述图数据库中已存在与所述待处理的特征数据对应的特征对且,所述特征对的因果关系与待保存的因果关系不同,则采用因果发现算法重新计算所述特征对的因果关系,得到所述待处理的特征数据的真实因果关系图谱;
存储子模块,用于将通过因果算法计算得到的真实因果关系图谱更新至所述图数据库。
可选的,所述系统还包括:
第三获取模块,用于获取用户输入的待查询的特征数据以及信息类型;
第一查询模块,用于基于所述待查询的特征数据以及信息类型在所述特征因果仓库进行查询,得到所述对应的特征信息;
其中,所述信息类型包括描述信息或因果信息。
可选的,若所述信息类型包括因果信息,所述因果信息包查询方向和/或查询深度,
所述第一查询模块具体包括:
第二查询子模块,用于基于所述待查询的特征数据所述查询方向和/或所述查询深度在图数据中进行查询,得到与所述待查询的特征数据、所述查询方向和/或所述查询深度对应的因果关系图谱;
显示子模块,用于显示所述因果关系图谱。
可选的,所述系统还包括:
第四获取模块,用于获取用户输入的待预测目标列特征;
搜索模块,用于在所述特征因果仓库中搜索与所述待预测目标列特征相关的因果特征;
输出模块,用于将所述因果特征作为建模推荐特征,输出所述建模推荐特征列表。
本发明实施例提供了一种特征因果仓库管理系统,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述特征因果仓库管理方法的步骤。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述的特征因果仓库管理方法的步骤。
本发明实施例还提供一种可读存储介质,可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述特征因果仓库管理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种特征因果仓库管理方法,其特征在于,所述方法包括:
获得待处理的特征数据;
基于因果发现算法对所述待处理的特征数据进行因果分析,得到所述待处理的特征数据的因果关系;
基于所述因果关系构建特征因果仓库。
2.根据权利要求1所述的特征因果仓库管理方法,其特征在于,所述基于因果发现算法对所述待处理的特征数据进行因果分析,得到所述待处理的特征数据的因果关系的步骤之前,所述方法还包括:
基于所述待处理的特征数据的属性,确定因果发现算法。
3.根据权利要求2所述的特征因果仓库管理方法,其特征在于,所述特征数据的属性包括特征数据的数量,所述基于所述待处理的特征数据的属性确定因果发现算法的步骤包括:
获得所述待处理的特征数据的特征数量;
根据所述待处理的特征数据的特征数量,确定因果发现算法。
4.根据权利要求1-3任一项所述的特征因果仓库管理方法,其特征在于,所述基于因果发现算法对所述待处理的特征数据进行因果分析,得到所述待处理的特征数据的因果关系的步骤包括:
基于因果发现算法,得到所述待处理的特征数据对应的特征对;
根据所述待处理的特征数据对应的特征对,得到所述待处理的特征数据对应的因果关系。
5.根据权利要求1所述的特征因果仓库管理方法,其特征在于,所述基于所述因果关系构建特征因果仓库的步骤之后,所述方法还包括:
获取用户输入的待查询的特征数据以及信息类型;
基于所述待查询的特征数据以及信息类型在所述特征因果仓库进行查询,得到所述对应的特征信息;
其中,所述信息类型包括描述信息或因果信息。
6.一种特征因果仓库管理系统,其特征在于,所述系统包括:
第一获取模块,用于获得待处理的特征数据;
因果关系模块,用于基于因果发现算法对所述待处理的特征数据进行因果分析,得到所述待处理的特征数据的因果关系;
构建模块,用于基于所述因果关系构建特征因果仓库。
7.根据权利要求6所述的特征因果仓库管理系统,其特征在于,所述系统还包括:
确定模块,用于基于所述待处理的特征数据的属性,确定因果发现算法。
8.根据权利要求7所述的特征因果仓库管理系统,其特征在于,所述特征数据的属性包括特征数据的数量,所述确定模块包括:
第三获取子模块,用于获得所述待处理的特征数据的特征数量;
第一确定子模块,用于根据所述待处理的特征数据的特征数量,确定因果发现算法。
9.根据权利要求6-8任一项所述的特征因果仓库管理系统,其特征在于,所述因果关系模块包括:
第四获取子模块,用于基于因果发现算法,得到所述待处理的特征数据对应的特征对;
第五获取子模块,用于根据所述待处理的特征数据对应的特征对,得到所述待处理的特征数据对应的因果关系。
10.根据权利要求6所述的特征因果仓库管理系统,其特征在于,所述系统还包括:
第三获取模块,用于获取用户输入的待查询的特征数据以及信息类型;
第一查询模块,用于基于所述待查询的特征数据以及信息类型在所述特征因果仓库进行查询,得到所述对应的特征信息;
其中,所述信息类型包括描述信息或因果信息。
CN202211053639.7A 2022-08-31 2022-08-31 一种特征因果仓库管理方法及系统 Active CN115470304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211053639.7A CN115470304B (zh) 2022-08-31 2022-08-31 一种特征因果仓库管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211053639.7A CN115470304B (zh) 2022-08-31 2022-08-31 一种特征因果仓库管理方法及系统

Publications (2)

Publication Number Publication Date
CN115470304A true CN115470304A (zh) 2022-12-13
CN115470304B CN115470304B (zh) 2023-08-25

Family

ID=84369127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211053639.7A Active CN115470304B (zh) 2022-08-31 2022-08-31 一种特征因果仓库管理方法及系统

Country Status (1)

Country Link
CN (1) CN115470304B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016192583A1 (zh) * 2015-06-04 2016-12-08 阿里巴巴集团控股有限公司 数据仓库的数据处理方法及装置
CN111104394A (zh) * 2019-12-31 2020-05-05 新奥数能科技有限公司 一种能源数据仓库系统构建方法及装置
CN114842248A (zh) * 2022-04-22 2022-08-02 中国人民解放军国防科技大学 基于因果关联挖掘模型的场景图生成方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016192583A1 (zh) * 2015-06-04 2016-12-08 阿里巴巴集团控股有限公司 数据仓库的数据处理方法及装置
CN111104394A (zh) * 2019-12-31 2020-05-05 新奥数能科技有限公司 一种能源数据仓库系统构建方法及装置
CN114842248A (zh) * 2022-04-22 2022-08-02 中国人民解放军国防科技大学 基于因果关联挖掘模型的场景图生成方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋珊珊 等: "《基于数据挖掘的因果关联知识库构建方法》", pages 102 - 104 *
张浩: "《高维数据下的因果发现算法研究》", pages 1 - 32 *

Also Published As

Publication number Publication date
CN115470304B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN106462583A (zh) 用于快速数据分析的系统和方法
CN105718490A (zh) 一种用于更新分类模型的方法及装置
CN112862593B (zh) 信用评分卡模型训练方法、装置、系统及计算机存储介质
CN115812209A (zh) 机器学习特征推荐
EP3783522A1 (en) Semantic model instantiation method, system and device
CN111724084A (zh) 数据资产的价值显示方法、装置、设备及存储介质
CN112966189A (zh) 一种基金产品推荐系统
CN116401379A (zh) 金融产品数据推送方法、装置、设备及存储介质
CN110263136B (zh) 基于强化学习模型向用户推送对象的方法和装置
CN114004691A (zh) 基于融合算法的额度评分方法、装置、设备及存储介质
CN114493686A (zh) 一种运营内容生成推送方法及装置
CN114140221A (zh) 一种欺诈风险预警方法、装置及设备
CN113177837A (zh) 贷款申请人的贷款额度评估方法、装置、设备及存储介质
CN113205408A (zh) 客户经理能力图谱生成方法及装置
CN112100452A (zh) 数据处理的方法、装置、设备及计算机可读存储介质
CN116977091A (zh) 个股投资组合的确定方法、装置、电子设备及可读存储介质
CN112559868A (zh) 信息召回方法、装置、存储介质及电子设备
CN116542747A (zh) 产品推荐方法、装置、存储介质及电子设备
CN116501979A (zh) 信息推荐方法、装置、计算机设备及计算机可读存储介质
CN115470304B (zh) 一种特征因果仓库管理方法及系统
CN115829722A (zh) 信用风险评分模型的训练方法及信用风险评分方法
CN114897607A (zh) 产品资源的数据处理方法及装置、电子设备、存储介质
CN114943563A (zh) 一种权益推送方法、装置、计算机设备及存储介质
CN117252677A (zh) 信贷额度确定方法和装置、电子设备及存储介质
CN109919811B (zh) 基于大数据的保险代理人培养方案生成方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant