CN116628495A - 数据源重要性的确定方法、装置、电子设备及存储介质 - Google Patents
数据源重要性的确定方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116628495A CN116628495A CN202310539034.7A CN202310539034A CN116628495A CN 116628495 A CN116628495 A CN 116628495A CN 202310539034 A CN202310539034 A CN 202310539034A CN 116628495 A CN116628495 A CN 116628495A
- Authority
- CN
- China
- Prior art keywords
- data source
- importance
- sample
- nodes
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000003066 decision tree Methods 0.000 claims description 60
- 230000000694 effects Effects 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013058 risk prediction model Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Finance (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种数据源重要性的确定方法、装置、电子设备及存储介质。该方法可包括:针对至少两个样本中的每个样本,利用已训练完成的目标模型,处理样本在至少两个数据源中每个数据源下的数据,得到目标模型的输出值;分别确定每个数据源针对输出值的影响程度,并将影响程度作为样本对应的数据源重要性;根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,得到至少一个样本群体,并且针对至少一个样本群体中的每个样本群体,得到样本群体对应的数据源重要性。本发明实施例的技术方案,通过确定每个数据源在样本级别下的数据源重要性,然后基于此划分全体样本,由此得到了每个数据源在样本群体级别下的数据源重要性。
Description
技术领域
本发明实施例涉及计算机领域,尤其涉及一种数据源重要性的确定方法、装置、电子设备及存储介质。
背景技术
定量风险评估是信贷机构最为核心的业务,其本质是利用预先建立的风险预测模型针对用户进行风险预测,即预测用户在风险指标上的风险分数。进而,授信策略可以根据该风险分数进行授信的决策。
在风险预测过程中,通常情况下,需要应用到来源于不同数据源的数据。为了提高风险预测模型的预测准确度,可以预先进行数据源重要性的分析。
在实现本发明的过程中,发明人发现现有技术中存在以下技术问题:无法有效确定不同数据源的数据源重要性。
发明内容
本发明实施例提供了一种数据源重要性的确定方法、装置、电子设备及存储介质,以实现样本群体级别的数据源重要性的有效确定。
根据本发明的一方面,提供了一种数据源重要性的确定方法,可以包括:
针对至少两个样本中的每个样本,利用已训练完成的目标模型,处理样本在至少两个数据源中的每个数据源下的数据,得到目标模型的输出值;
分别确定每个数据源针对输出值的影响程度,并将影响程度作为样本对应的数据源重要性;
根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,得到至少一个样本群体,并且针对至少一个样本群体中的每个样本群体,得到样本群体对应的数据源重要性;
其中,样本群体对应的数据源重要性,根据样本群体内的各样本分别对应的数据源重要性确定,且用于表征在样本群体下每个数据源分别针对目标模型的模型效果的影响程度。
根据本发明的另一方面,提供了一种数据源重要性的确定装置,可以包括:
输出值得到模块,用于针对至少两个样本中的每个样本,利用已训练完成的目标模型,处理样本在至少两个数据源中的每个数据源下的数据,得到目标模型的输出值;
数据源重要性第一确定模块,用于分别确定每个数据源针对输出值的影响程度,并将影响程度作为样本对应的数据源重要性;
数据源重要性第二确定模块,用于根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,得到至少一个样本群体,并针对至少一个样本群体中的每个样本群体,得到样本群体对应的数据源重要性;
其中,样本群体对应的数据源重要性,根据样本群体内的各样本分别对应的数据源重要性确定,且用于表征在样本群体下每个数据源分别针对目标模型的模型效果的影响程度。
根据本发明的另一方面,提供了一种电子设备,可以包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行时实现本发明任意实施例所提供的数据源重要性的确定方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令用于使处理器执行时实现本发明任意实施例所提供的数据源重要性的确定方法。
本发明实施例的技术方案,针对至少两个样本中的每个样本,通过利用已训练完成的目标模型,处理该样本在至少两个数据源中的每个数据源下的数据,得到目标模型的输出值;分别确定每个数据源针对输出值的影响程度,并且将影响程度作为该样本对应的数据源重要性,由此实现了样本级别的不同数据源的数据源重要性的个性化确定的效果;进而,根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,得到至少一个样本群体,并针对至少一个样本群体中的每个样本群体,得到该样本群体对应的数据源重要性,由此实现了样本群体级别的不同数据源的数据源重要性的个性化确定的效果。上述技术方案,通过确定每个数据源在样本级别下的数据源重要性,然后基于此对全体样本进行群体划分,从而得到每个数据源在样本群体级别下的数据源重要性,由此实现了样本群体级别的数据源重要性的有效确定的效果。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或是重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例提供的一种数据源重要性的确定方法的流程图;
图2是根据本发明实施例提供的另一种数据源重要性的确定方法的流程图;
图3是根据本发明实施例提供的另一种数据源重要性的确定方法的流程图;
图4是根据本发明实施例提供的另一种数据源重要性的确定方法的流程图;
图5是根据本发明实施例提供的另一种数据源重要性的确定方法中的可选示例的流程图;
图6是根据本发明实施例提供的另一种数据源重要性的确定方法中决策树构建示例和群体划分示例的示意图;
图7是根据本发明实施例提供的一种数据源重要性的确定装置的结构框图;
图8是实现本发明实施例的数据源重要性的确定方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。“目标”、“原始”等的情况类似,在此不再赘述。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本发明的技术方案中,所涉及到的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面,均符合相关法律法规的规定,被用于合法的用途,且不违背公序良俗。对用户个人信息采取必要措施,从而防止对用户个人信息数据的非法访问,维护用户个人信息安全、网络安全和国家安全。
图1是本发明实施例中所提供的一种数据源重要性的确定方法的流程图。本实施例可适用于分析样本群体级别的数据源重要性的情况,尤其可适用于在客群级别下,分析不同数据源针对风险预测模型的预测效果的影响程度的情况。该方法可以由本发明实施例所提供的数据源重要性的确定装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在电子设备上,该电子设备可以是各种用户终端或是服务器。
参见图1,本发明实施例的方法具体包括如下步骤:
S110、针对至少两个样本中的每个样本,利用训练完成的目标模型,处理该样本在至少两个数据源中的每个数据源下的数据,得到目标模型的输出值。
其中,样本可理解为用于分析不同数据源的数据源重要性的样本,即用于分析不同数据源对于目标模型的模型效果的影响程度的样本。样本的数量可以是两个或是多个,这与实际情况有关,在此未做具体限定。
本发明实施例中应用到的样本的数据可来源于两个或是多个数据源,在此基础上,上述目标模型可理解为已训练完成的用于处理样本在至少两个数据源中的每个数据源下的数据的模型。进一步,输出值可理解为目标模型处理完成这些数据后输出的结果,例如,目标模型为上文中阐述的风险预测模型的情况下,该输出值可以是风险分数;再例如,目标模型为用于确定物品品类的品类分类模型的情况下,该输出值可以是品类标识;等等。
针对至少两个样本中的每个样本,即站在单个样本的角度,利用目标模型,对该样本在至少两个数据源中的每个数据源下的数据进行处理,在实际应用中,可选的,可以将这些数据直接输入到目标模型中,从而通过目标模型处理这些数据;也可以针对该样本在每个数据源下的数据,先对这些数据进行初步处理,得到初步处理结果,然后再将该样本在不同数据源下分别对应的初步处理结果输入到目标模型中,从而通过目标模型对这些初步处理结果进行处理;等等,在此未做具体限定。得到目标模型输出的输出值。
S120、分别确定每个数据源针对输出值的影响程度,并将影响程度作为该样本对应的数据源重要性。
其中,由于输出值是通过目标模型,对该样本在每个数据源下的数据进行处理后得到,因此可分别确定每个数据源在该样本下针对输出值的影响程度,或说每个数据源在该样本下针对目标模型的模型效果的影响程度,这里的影响程度可理解为权重。在实际应用中,可选的,上述模型效果与目标模型的具体功能有关,示例性的,目标模型为风险预测模型的情况下,该模型效果可以是预测效果,例如可以是预测准确度或是预测速度等;再示例性的,目标模型为品类分类模型的情况下,该模型效果可以是分类效果,例如可以是分类准确度或是分类效率等;等等,在此未做具体限定。
进一步,将上述影响程度作为该样本对应的数据源重要性,即该样本对应的数据源重要性,可用于表征在样本级别下,每个数据源分别针对模型效果的影响程度。例如,假设存在A、B和C三个数据源,A对输出值的影响程度是0.3,B对输出值的影响程度是0.45,并且C对输出值的影响程度是0.25,那么该样本对应的数据源重要性可表示为(0.3,0.45,0.25),其可表征出A、B和C三个数据源分别针对模型效果的影响程度。
S130、根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,得到至少一个样本群体,并针对至少一个样本群体中的每个样本群体,得到该样本群体对应的数据源重要性;
其中,每个样本群体分别对应的数据源重要性,根据该样本群体内的各个样本分别对应的数据源重要性确定,并且用于表征在该样本群体下每个数据源分别针对目标模型的模型效果的影响程度。
其中,在经由上述两个步骤处理完成每个样本之后,可得到每个样本分别对应的数据源重要性。但是,上述得到的数据源重要性是样本级别的,其存在分析难度较大,难以得到较为明确的分析结论的问题。
为了解决上述问题,本发明实施例根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,从而将数据源重要性较为相似的各样本划分到同一样本群体中,由此得到了至少一个样本群体。示例性的,继续以上述示例为例,针对数据源重要性为(0.3,0.45,0.25)的样本所在的样本群体中的各样本,A在这些样本下针对模型效果的影响程度均在0.3左右,B在这些样本下针对模型效果的影响程度均在0.45左右,并且C在这些样本下针对模型效果的影响程度均在0.25左右。
进一步,针对至少一个样本群体中的每个样本群体,得到该样本群体对应的数据源重要性,该样本群体对应的数据源重要性可用于表征在该样本群体下,每个数据源分别针对模型效果的影响程度,即是样本群体级别的数据源重要性。需要说明的是,该样本群体对应的数据源重要性,可根据该样本群体内的各个样本分别对应的数据源重要性确定,在实际应用中,可选的,这一确定过程可在群体划分完成后进行,也可在群体划分过程中进行,在此未做具体限定。
至此,可得到不同数据源的数据源重要性,由此达到了个性化分析数据源重要性的效果;而且,上述得到的数据源重要性是样本群体级别的,不是样本级别的,由此达到了降低数据源重要性的分析难度的效果。除此之外,本发明实施例考虑了不同数据源之间的相互影响,最终结果又不受数据源入模顺序的影响,具有很好的解释性和可靠性。
本发明实施例的技术方案,针对至少两个样本中的每个样本,通过利用已训练完成的目标模型,处理该样本在至少两个数据源中的每个数据源下的数据,得到目标模型的输出值;分别确定每个数据源针对输出值的影响程度,并且将影响程度作为该样本对应的数据源重要性,由此实现了样本级别的不同数据源的数据源重要性的个性化确定的效果;进而,根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,得到至少一个样本群体,并针对至少一个样本群体中的每个样本群体,得到该样本群体对应的数据源重要性,由此实现了样本群体级别的不同数据源的数据源重要性的个性化确定的效果。上述技术方案,通过确定每个数据源在样本级别下的数据源重要性,然后基于此对全体样本进行群体划分,从而得到每个数据源在样本群体级别下的数据源重要性,由此实现了样本群体级别的数据源重要性的有效确定的效果。
一种可选的技术方案,上述数据源重要性的确定方法,还包括:根据样本群体对应的数据源重要性,从至少两个数据源中筛选出目标数据源;针对样本群体内的各样本中的每个样本,利用目标模型,对样本在目标数据源下的数据进行处理。其中,针对至少一个样本群体中的每个样本群体,与该样本群体对应的目标数据源,可理解为全部数据源中在该样本群体下数据源重要性较高的数据源,由此可针对不同的样本群体个性化选择数据源。上述技术方案,通过样本群体级别的数据源重要性,针对不同样本群体下的样本筛选出相应的目标数据源进行调用,由此提升了目标模型的稳定性。
图2是本发明实施例中提供的另一种数据源重要性的确定方法的流程图。本实施例以上述各技术方案为基础进行优化。本实施例中,可选的,根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,得到至少一个样本群体,包括:将每个样本分别作为叶子节点,并根据得到的至少两个叶子节点以及每个样本分别对应的数据源重要性,构建得到决策树;根据决策树,对至少两个样本进行群体划分,得到至少一个样本群体。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
参见图2,本实施例的方法具体可以包括如下步骤:
S210、针对至少两个样本中的每个样本,利用训练完成的目标模型,处理该样本在至少两个数据源中的每个数据源下的数据,得到目标模型的输出值。
S220、分别确定每个数据源针对输出值的影响程度,并将影响程度作为该样本对应的数据源重要性。
S230、将每个样本分别作为叶子节点,并且根据得到的至少两个叶子节点以及每个样本分别对应的数据源重要性,构建得到决策树。
其中,将每个样本分别作为叶子节点,并结合每个样本分别对应的数据源重要性,得到全部叶子节点中的每两个叶子节点分别对应的数据源重要性之间的相似性,从而可基于此构建得到决策树。在实际应用中,可选的,结合后续步骤可知,这里构建出的决策树可用于划分群体,即对至少两个样本进行群体分类,因此上述构建出的决策树也可称为分类树(Classification Tree)。
S240、根据决策树对至少两个样本进行群体划分,得到至少一个样本群体。
其中,由于决策树可表征出每两个叶子节点分别对应的数据源重要性之间的相似性,因此可根据决策树进行群体划分,得到至少一个样本群体。
S250、针对至少一个样本群体中的每个样本群体,得到该样本群体对应的数据源重要性,其中,该样本群体对应的数据源重要性,根据该样本群体内各样本分别对应的数据源重要性确定,并且用于表征在该样本群体下每个数据源分别针对目标模型的模型效果的影响程度。
本发明实施例的技术方案,通过每个样本分别对应的叶子节点以及数据源重要性,构建得到可用于表征每两个叶子节点分别对应的数据源重要性之间的相似性的决策树,从而可基于决策树实现至少两个样本的群体划分。
图3是本发明实施例中提供的另一种数据源重要性的确定方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,将每个样本分别作为叶子节点,并且根据得到的至少两个叶子节点以及每个样本分别对应的数据源重要性,构建得到决策树,包括:将每个样本分别作为叶子节点,并基于得到的至少两个叶子节点构建得到初始树,将初始树中的每个叶子节点的数据源重要性,分别初始化为叶子节点所表征的样本对应的数据源重要性;将初始树作为中间树,并且针对中间树中与根节点连接的至少两个第一节点,根据至少两个第一节点的数据源重要性,从至少两个第一节点中确定两个相似节点,生成两个相似节点的父节点;基于中间树中的全部节点和父节点,重新构建并更新中间树,以基于中间树构建得到决策树;根据决策树,对至少两个样本进行群体划分,得到至少一个样本群体,可包括:针对决策树中与根节点连接的每个第二节点,将决策树中的位于第二节点下的各叶子节点分别表征的样本,划分到同一样本群体,以得到至少一个样本群体。其中,与上述各实施例相同或是相应的术语的解释在此不再赘述。
参见图3,本实施例的方法具体可以包括如下步骤:
S310、针对至少两个样本中的每个样本,利用训练完成的目标模型,处理该样本在至少两个数据源中的每个数据源下的数据,得到目标模型的输出值。
S320、分别确定每个数据源针对输出值的影响程度,并将影响程度作为该样本对应的数据源重要性。
S330、将每个样本分别作为叶子节点,并且基于得到的至少两个叶子节点构建得到初始树,将初始树中的每个叶子节点的数据源重要性,分别初始化为叶子节点所表征的样本对应的数据源重要性。
其中,基于至少两个样本分别对应的叶子节点构建得到初始树,该初始树可理解为包括根节点以及至少两个叶子节点的树。进一步,将初始树中的每个叶子节点的数据源重要性,分别初始化为叶子节点所表征的样本对应的数据源重要性,即针对至少两个叶子节点中的每个叶子节点,将该叶子节点所表征的样本对应的数据源重要性,作为该叶子节点的数据源重要性。
S340、将初始树作为中间树,针对中间树中与根节点连接的至少两个第一节点,根据至少两个第一节点的数据源重要性,从至少两个第一节点中确定出两个相似节点,并生成两个相似节点的父节点。
其中,将初始树作为中间树进行应用,这是考虑到后续可能对中间树进行迭代处理。具体的,本步骤中的根节点可理解为中间树中未具有父节点的节点。第一节点可理解为中间树中的与根节点连接的节点,即其为根节点的子节点。第一节点的数量可以是两个或是多个,在此未做具体限定。需要说明的是,在中间树即为初始树的情况下,上述第一节点即为中间树或是说初始树中的叶子节点,即第一节点的数据源重要性,即为叶子节点的数据源重要性。在此基础上,可根据至少两个第一节点中的每个第一节点的数据源重要性,从全部第一节点中确定出两个相似节点,该两个相似节点可理解为全部第一节点中数据源重要性较为相似的两个第一节点。进一步,生成这两个相似节点的父节点,该父节点可理解为在树结构中与两个相似节点连接并且位于它们上面的节点。
S350、基于中间树中的全部节点以及父节点,重新构建并更新中间树,以基于中间树构建得到决策树。
其中,中间树中的全部节点至少包括根节点以及至少一个第一节点,这些第一节点可能是叶子节点,也可能是位于根节点与叶子节点之间的节点,这与实际情况有关,在此未做具体限定。根据中间树中的全部节点以及上述生成的父节点,重新构建得到中间树,此时,父节点在重新构建得到的中间树中连接在根节点与两个相似节点之间。基于重新构建得到的中间树对先前构建得到的中间树进行更新,从而应用最新构建得到的中间树,得到决策树,例如,可以将该中间树直接作为决策树;再例如,可以基于该中间树再次进行构建以得到决策树;等等,在此未做具体限定。
S360、针对决策树中的与根节点连接的每个第二节点,将决策树中的位于第二节点下的各叶子节点分别表征的样本,划分到同一样本群体,以得到至少一个样本群体。
其中,本步骤中的根节点可理解为决策树中的未具有父节点的节点。第二节点可理解为决策树中的与根节点连接的节点,即其为根节点的子节点。第二节点的数量可以是一个、两个或多个,在此未做具体限定。针对这些第二节点中的每个第二节点,根据上文阐述可知,决策树中位于该第二节点下的各叶子节点分别对应的数据源重要性较相似,因此可将这些叶子节点分别表征的样本划分到同一样本群体内,从而得到与每个第二节点分别对应的样本群体。在此基础上,可选的,每个样本群体分别对应的数据源重要性,可通过该样本群体对应的第二节点的数据源重要性进行表示。
S370、针对至少一个样本群体中的每个样本群体,得到该样本群体对应的数据源重要性,其中,该样本群体对应的数据源重要性,根据该样本群体内各样本分别对应的数据源重要性确定,并且用于表征在该样本群体下每个数据源分别针对目标模型的模型效果的影响程度。
本发明实施例的技术方案,针对构建出的中间树中数据源重要性较为相似的两个相似节点,生成该两个相似节点的父节点,从而基于该父节点重新构建并更新中间树,这样一来,基于中间树得到的决策树中位于第二节点下的各个叶子节点分别对应的数据源重要性较为相似,因此可将这些叶子节点分别表征的样本划分到同一样本群体内,实现了至少两个样本的有效划分的效果。
一种可选的技术方案,根据至少两个第一节点的数据源重要性,从至少两个第一节点中确定出两个相似节点,包括:针对至少两个第一节点中的每两个第一节点,确定两个第一节点分别对应的数据源重要性之间的距离;根据得到的各个距离,从至少两个第一节点中确定两个相似节点。
其中,两个第一节点可理解为从至少两个第一节点中随意选择的两个第一节点,示例性的,假设至少两个第一节点包括X、Y和Z,那么两个第一节点可以是X和Y、X和Z或者是Y和Z。针对全部两个第一节点中的每两个第一节点,即这里站在两个第一节点的角度进行处理,确定两个第一节点分别对应的数据源重要性之间的距离,这里的距离可用于表征这两个数据源重要性之间的相似性,具体可通过欧氏距离或是马氏距离等进行表示,在此未做具体限定。示例性的,这里仍以上述示例为例,确定X和Y分别对应的数据源重要性之间的距离D1、X和Z分别对应的数据源重要性之间的距离D2以及Y和Z分别对应的数据源重要性之间的距离D3。进一步,根据得到的各个距离,从至少两个第一节点中确定出两个相似节点,例如可将各个距离中数值最小的距离、或是小于或等于预设距离阈值的距离对应的两个第一节点作为两个相似节点,等等,在此未做具体限定。上述技术方案,实现了相似节点的准确确定的效果。
在此基础上,可选的,根据得到的各个距离,从至少两个第一节点中确定两个相似节点,包括:从得到的各个距离中确定数值最小的最小距离;在最小距离小于或等于预设距离阈值的情况下,将至少两个第一节点中与最小距离对应的两个第一节点,作为两个相似节点。上述技术方案,可以从至少两个第一节点中筛选出在数据源重要性方面最为并且足够相似的两个相似节点。
另一种可选的技术方案,在重新构建并更新中间树后,上述数据源重要性的确定方法,还包括:根据中间树中位于父节点下的各叶子节点的数据源重要性,确定父节点的数据源重要性;以基于中间树构建得到决策树,包括:重复执行针对中间树中与根节点连接的至少两个第一节点的步骤;在未能从至少两个第一节点中确定出两个相似节点的情况下,将当前应用的中间树作为决策树。
其中,根据上文阐述可知,先前生成的父节点是重新构建得到的中间树中的第一节点,这意味着在基于该中间树再次重新构建中间树的情况下,会应用到该父节点的数据源重要性。在实际应用中,可根据该中间树中位于父节点下的各个叶子节点的数据源重要性,确定父节点的数据源重要性,至此,可得到该中间树中的每个第一节点的数据源重要性。进一步,可以通过重复执行上述步骤来重构中间树,并在无法从至少两个第一节点中确定两个相似节点的情况下,这说明最新构建得到的中间树无需再次重构,可将其作为决策树进行应用。
为了更好地理解上述技术方案,现在将其完整阐述如下:
步骤1)将初始树作为中间树进行应用;
步骤2)针对中间树中与根节点连接的至少两个第一节点,根据至少两个第一节点的数据源重要性,从至少两个第一节点中确定出两个相似节点,并且生成两个相似节点的父节点;
步骤3)基于中间树中的全部节点以及父节点,重新构建并更新中间树;
步骤4)根据中间树中的位于父节点下的各个叶子节点的数据源重要性,确定父节点的数据源重要性;
步骤5)重复执行步骤2)-4),并且在未能从至少两个第一节点中确定出两个相似节点的情况下,将当前应用的中间树作为决策树进行应用。
在此基础上,可选的,根据中间树中位于父节点下的各叶子节点的数据源重要性,确定父节点的数据源重要性,包括:根据中间树中位于父节点下的各叶子节点的数据源重要性,得到父节点的初始重要性;根据两个相似节点分别表征的样本对应的输出值以及目标损失函数,对初始重要性进行优化,得到父节点的数据源重要性。
其中,父节点的初始重要性,可以根据中间树中位于父节点下的各个叶子节点的数据源重要性确定,例如可将这些叶子节点的数据源重要性作平均后的单位向量化的结果作为初始重要性;当然,也可基于其余方式确定初始重要性,在此未做具体限定。在此基础上,考虑到初始重要性不一定能够准确地反映出父节点的数据源重要性,为此这里对初始重要性进行进一步优化,从而得到了父节点的更为准确的数据源重要性。具体的,根据两个相似节点分别所表征的样本对应的输出值及目标损失函数,对初始重要性进行优化,例如可以是确定两个相似节点分别表征的样本对应的估计值,在此基础上,结合两个相似节点分别表征的样本对应的输出值以及目标损失函数,优化初始重要性进行优化,从而得到父节点的数据源重要性。在实际应用中,上述目标损失函数可以是L1损失函数、L2损失函数或是带L1正则的最小均方误差损失函数等,在此未做具体限定。上述技术方案,实现了父节点的数据源重要性的准确确定的效果。
图4是本发明实施例中提供的另一种数据源重要性的确定方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,利用已训练完成的目标模型,处理样本在至少两个数据源中的每个数据源下的数据,得到目标模型的输出值,包括:获取针对至少两个数据源中的每个数据源分别建立的数据源模型;针对至少两个数据源中的每个数据源,利用该数据源对应的数据源模型,处理样本在该数据源下的数据,得到数据源模型的输出结果;将样本在每个数据源下分别对应的输出结果,输入到已训练完成的目标模型中,得到目标模型的输出值。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
参见图4,本实施例的方法具体可以包括如下步骤:
S410、获取针对至少两个数据源中的每个数据源分别建立的数据源模型。
其中,针对至少两个数据源中的每个数据源,获取预先针对该数据源构建得到的数据源模型,该数据源模型的具体功能,与目标模型的具体功能类似,例如,在目标模型用于实现风险预测功能的情况下,数据源模型也可用于实现风险预测功能,二者的差别在于,数据源模型根据某样本在该数据源模型对应的数据源下的数据进行风险预测,并且目标模型根据该样本在不同数据源下的数据进行风险预测。在实际应用中,可选的,在数据源模型用于实现预测或是分类功能的情况下,其可以是xgb模型、逻辑回归模型、支持向量机或是随机森林等分类模型,在此未做具体限定。
S420、针对至少两个样本中的每个样本及至少两个数据源中的每个数据源,利用该数据源对应的数据源模型,处理该样本在该数据源下的数据,得到数据源模型的输出结果。
其中,本步骤站在单个样本和单个数据源的角度,利用预先针对该数据源构建得到的数据源模型,对该样本在该数据源下的数据进行处理,从而得到该数据源模型针对该样本输出的输出结果。
S430、将该样本在每个数据源下分别对应的输出结果,输入到已训练完成的目标模型中,得到目标模型的输出值。
其中,本步骤站在单个样本的角度,在得到该样本在每个数据源下分别对应的输出结果的情况下,可将这些输出结果输入到目标模型中,从而利用目标模型对这些输出结果进行处理,得到该样本对应的输出值。
S440、分别确定每个数据源针对输出值的影响程度,并将影响程度作为该样本对应的数据源重要性。
S450、根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,得到至少一个样本群体,并针对至少一个样本群体中的每个样本群体,得到该样本群体对应的数据源重要性;
其中,每个样本群体分别对应的数据源重要性,根据该样本群体内的各个样本分别对应的数据源重要性确定,并且用于表征在该样本群体下每个数据源分别针对目标模型的模型效果的影响程度。
本发明实施例的技术方案,通过分数据源单独建模的方式,可以有效得到每个数据源在每个样本下针对输出值的影响程度。
一种可选的技术方案,分别确定每个数据源针对输出值的影响程度,包括:基于输出值,对每个数据源下分别对应的输出结果进行求导,并将得到的求导结果,作为每个数据源针对输出值的影响程度。其中,考虑到输出值通过目标模型对每个数据源分别对应的输出结果进行处理后得到,因此这里可利用反向传播算法分别计算输出值针对每个输出结果的近似导数,从而可基于这些近似导数,将输出值利用这些输出结果进行表示。在此基础上,根据线性回归思想,可将这些近似导数(即求导结果)作为相应的数据源的权重,该权重可反映出数据源对于输出值的影响程度,由此实现了影响程度的准确确定的效果。在此基础上,可选的,根据上述分析可知,目标模型的主要作用是计算权重,因此这里可将全连接神经网络(Fully connected neural network,FNN)作为目标模型进行应用,其中,FNN的内部结构,例如隐藏层层数、中间神经元数量和激活函数等,可根据FNN的模型效果自行设置,这里未做具体限定。
另一种可选的技术方案,目标模型通过如下步骤预先训练得到:将样本在每个数据源下分别对应的输出结果作为第一训练样本;基于至少两个样本分别对应的第一训练样本,对第一模型进行训练,得到目标模型。本技术方案站在单个样本的角度,将该样本在每个数据源下分别对应的输出结果作为第一训练样本,然后基于至少两个样本分别对应的第一训练样本来训练第一模型,从而训练得到目标模型。需要说明的是,可基于有监督、半监督或是无监督等方式训练得到目标模型,在此未做具体限定。
又一种可选的技术方案,数据源模型通过如下步骤预先建立完成:将样本在数据源模型对应的数据源下的数据作为第二训练样本;基于至少两个样本分别对应的第二训练样本,对第二模型进行训练,得到数据源模型。本技术方案站在单个样本和单个数据源的角度,基于该样本在该数据源下的数据得到第二训练样本,然后基于至少两个样本分别对应的第二训练样本,对第二模型进行训练,得到数据源模型。需要说明的是,可基于有监督、半监督或是无监督等方式训练得到数据源模型,在此未做具体限定。
为了从整体上更好地理解上述的各个技术方案,下面结合具体示例,对其进行示例性说明。示例性的,在风控信贷的数据建模场景中,应用到的数据为用户的多数据源数据,数据的标签为0/1标签,0代表坏用户并且1代表好用户。假定数据集Ω是一个多数据源数据,其中包含了k个数据源的数据。参见图5:步骤1:分数据源单独建模
首先,将数据集Ω按照数据源划分为k个子数据集Ωj(j=1,…,k),每个子数据集只包含一个数据源的数据;然后,针对k个子数据集中的每个子数据集,基于该子数据集中的数据以及相应的标签建立xgb模型,即一个子数据集对应一个xgb模型,由此实现了分数据源单独建模。
进一步,针对全体用户中的每个用户,将该用户在子数据集Ωj中的数据输入到子数据集Ωj对应的xgb模型,得到该用户的预测值由此,在处理完成全体用户在不同子数据集中的数据后,可得到全体用户的k个xgb模型的预测值/>其中xj(j=1,…,k)表征子数据集Ωi建模的结果。步骤2:将k个数据源建模的预测值X输入FNN中进行训练
将步骤1中得到的k个xgb模型的预测值X以及相应的标签作为训练数据(即第一训练样本)输入到FNN中,对FNN进行训练。实际应用中,可选的,由于是分类任务,FNN的最后一层可设置为sigmoid层。
在训练完成FNN之后,针对全体用户中的每个用户,将该用户的k个xgb模型的预测值输入到FNN中,得到FNN针对该用户输出的预测值
步骤3:对FNN的预测值作值域变换
步骤2中得到的预测值为了方便后续的求导计算,作变换/>将其值域转换到(-∞,+∞)上。至此,后文提及的/>均为变换后的/>
步骤4:将预测值利用反向传播算法对X求一阶导数,将导数作为每个用户的各个数据源的权重
预测值实际上是FNN中sigmoid层的输入值,因此可利用反向传播算法计算预测值/>对k个xgb模型的预测值的近似导数,即/> 其中,由反向传播算法计算得来,这样即可将每个用户的预测值/>用k个数据源的预测值线性表示,即根据线性回归思想,可以将/>作为k个数据源的权重。
具体的,计算式子中的i=1,2,…,n表示全体用户中的第i个用户,n表示全体用户的数量。g(i)每个维度的数值表示第i个用户对应的数据源对预测值/>的影响程度,即表示这个数据源的重要性。
步骤5:根据权重构建决策树
根据g(i)和构建决策树(即数据源重要性决策树)。具体的,构建决策树的整体思路是每次在中间树的第二层节点(即第一节点)中筛选出数据源重要性之间的距离最近的两个相似节点,距离可衡量两个第一节点之间的相似性,这样做的目的是筛选出相似度最高的两个第一节点。在筛选出距离最近的两个相似节点后,将这两个相似节点合并生成一个中间节点(即父节点),再通过最小化一种带L1正则的最小均方误差损失函数计算中间节点的数据源重要性。重复这个过程,直到两个第二层节点的最小距离大于预设距离阈值,得到数据源重要性决策树。
示例性的,如图6所示,其通过l表示叶子节点并且通过m表示中间节点。首先给出四个式子,其中的s表示第二层节点:
其中,式(1)的m表示中间节点,表示中间节点的数据源重要性,b为偏置,b和/>均需通过式子(3)进行学习,从而得到最优的/>式(2)将中间节点m下的全部叶子节点的数据源重要性,作平均后单位向量化为中间节点m的初始重要性;这里以l3和l4合并并且生成m1为例,Ωm表示第3个用户和第4个用户在k个数据源下的xgb预测值;式(3)通过最小化L1损失来优化中间节点m的数据源重要性/>λ是L1损失的系数,/>即hm(X(i))表示估计值;式(4)表示两个相似节点的数据源重要性的欧氏距离。
图6所示的过程如下:
1)初始化一颗初始树P0,并将每个用户设置为初始树P0的叶子节点,这样初始树P0有一个根节点和n个叶子节点。初始化每个叶子节点的数据源重要性设定预设距离阈值∈和L1正则系数λ。
2)设置t=0。
3)遍历中间树Pt的第二层节点的节点对(s′,s″),并计算数据源重要性之间的距离d(s′,s″),找到距离最相近的两个相似节点(例如图6中P0上的l3和l4以及P1上的l1和m1所示)。
4)将3)中找到的两个相似节点合并构建得到中间树Pt+1,并且生成一个中间节点m(例如图6中P1上生成的中间节点m1以及P2上生成的中间节点m2)。这里新生成的中间节点没有数据源重要性,需通过上述的式(1)(2)(3)计算得到。
5)t=t+1。
6)重复3)、4)和5)的过程,直到满足终止条件min d(s′,s″)>∈。
7)得到数据源重要性决策树。
步骤6:根据构建得到的决策树划分客群并输出对应客群的数据源重要性
根据决策树的第二层节点对全体用户划分客群,将同一个第二层节点下的全部叶子节点划分为一类客群,即将同一个第二层节点下的用户分为一类客群,并利用这个第二层节点的数据源重要性来表示这类客群的数据源重要性,由此可以实现对不同客群进行个性化数据源选择的目的。
图7为本发明实施例中提供的数据源重要性的确定装置的结构框图,该装置用于执行上述任意实施例所提供的数据源重要性的确定方法。该装置与上述各实施例的数据源重要性的确定方法属于同一个发明构思,在数据源重要性的确定装置的实施例中未详尽描述的细节内容,可以参考上述数据源重要性的确定方法的实施例。参见图7,该装置具体可包括:输出值得到模块510、数据源重要性第一确定模块520以及数据源重要性第二确定模块530。
其中,输出值得到模块510,用于针对至少两个样本中的每个样本,利用已训练完成的目标模型,处理样本在至少两个数据源中的每个数据源下的数据,得到目标模型的输出值;
数据源重要性第一确定模块520,用于分别确定每个数据源针对输出值的影响程度,并将影响程度作为样本对应的数据源重要性;
数据源重要性第二确定模块530,用于根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,得到至少一个样本群体,并针对至少一个样本群体中的每个样本群体,得到样本群体对应的数据源重要性;
其中,样本群体对应的数据源重要性,根据样本群体内的各样本分别对应的数据源重要性确定,且用于表征在样本群体下每个数据源分别针对目标模型的模型效果的影响程度。
可选的,数据源重要性第二确定模块530,可以包括:
决策树构建子模块,用于将每个样本分别作为叶子节点,并且根据得到的至少两个叶子节点以及每个样本分别对应的数据源重要性,构建得到决策树;
样本群体划分子模块,用于根据决策树,对至少两个样本进行群体划分,得到至少一个样本群体。
在此基础上,可选的,决策树构建子模块,可以包括:
数据源重要性初始化单元,用于将每个样本分别作为叶子节点,并基于得到的至少两个叶子节点构建得到初始树,将初始树中的每个叶子节点的数据源重要性,分别初始化为叶子节点所表征的样本对应的数据源重要性;
父节点生成单元,用于将初始树作为中间树,并针对中间树中与根节点连接的至少两个第一节点,根据至少两个第一节点的数据源重要性,从至少两个第一节点中确定两个相似节点,并生成两个相似节点的父节点;
决策树构建单元,用于基于中间树中的全部节点和父节点,重新构建并且更新中间树,以基于中间树构建得到决策树;
样本群体划分子模块,包括:
样本群体划分单元,用于针对决策树中的与根节点连接的每个第二节点,将决策树中的位于第二节点下的各叶子节点分别表征的样本,划分到同一样本群体,以得到至少一个样本群体。
在此基础上,一可选的,父节点生成单元,可以包括:
距离确定子单元,用于针对至少两个第一节点中的每两个第一节点,确定两个第一节点分别对应的数据源重要性之间的距离;
相似节点确定子单元,用于根据得到的各个距离,从至少两个第一节点中确定两个相似节点。
在此基础上,可选的,相似节点确定子单元,具体用于:
从得到的各个距离中确定数值最小的最小距离;
在最小距离小于或等于预设距离阈值的情况下,将至少两个第一节点中与最小距离对应的两个第一节点,作为两个相似节点。
另一可选的,上述决策树构建子模块,还可以包括:
数据源重要性确定单元,用于根据中间树中位于父节点下的各叶子节点的数据源重要性,确定父节点的数据源重要性;
决策树构建单元,可以包括:
重复执行子单元,用于重复执行针对中间树中与根节点连接的至少两个第一节点的步骤;
决策树确定子单元,用于在未能从至少两个第一节点中确定两个相似节点的情况下,将当前应用的中间树作为决策树。
在此基础上,可选的,数据源重要性确定单元,具体用于:
根据中间树中位于父节点下的各叶子节点的数据源重要性,得到父节点的初始重要性;
根据两个相似节点分别表征的样本对应的输出值及目标损失函数,对初始重要性进行优化,得到父节点的数据源重要性。
可选的,输出值得到模块510,可以包括:
数据源模型建立单元,用于获取针对至少两个数据源中的每个数据源分别建立的数据源模型;
输出结果得到单元,用于针对至少两个数据源中的每个数据源,利用数据源对应的数据源模型,对样本在数据源下的数据进行处理,得到数据源模型的输出结果;
输出值得到单元,用于将样本在每个数据源下分别对应的输出结果,输入到已训练完成的目标模型中,得到目标模型的输出值。
在此基础上,一可选的,数据源重要性第一确定模块520,包括:
影响程度确定单元,用于基于输出值,对每个数据源下分别所对应的输出结果进行求导,并将得到的求导结果,作为每个数据源针对输出值的影响程度。
另一可选的,目标模型通过如下模块预先训练得到:
第一训练样本得到模块,用于将样本在每个数据源下分别对应的输出结果作为第一训练样本;
目标模型得到模块,用于基于至少两个样本分别对应的第一训练样本,对第一模型进行训练,得到目标模型。
再一可选的,数据源模型通过如下模块预先建立完成:
第二训练样本得到模块,用于将样本在数据源模型对应的数据源下的数据作为第二训练样本;
数据源模型得到模块,用于基于至少两个样本分别对应的第二训练样本,对第二模型进行训练,得到数据源模型。
可选的,上述数据源重要性的确定装置,还包括:
目标数据源筛选模块,用于根据样本群体对应的数据源重要性,从至少两个数据源中筛选出目标数据源;
数据处理模块,用于针对样本群体内各样本中的每个样本,利用目标模型,对样本在目标数据源下的数据进行处理。
本发明实施例所提供的数据源重要性的确定装置,通过输出值得到模块,针对至少两个样本中的每个样本,利用已训练完成的目标模型,处理该样本在至少两个数据源中的每个数据源下的数据,得到目标模型的输出值;通过数据源重要性第一确定模块,分别确定每个数据源针对输出值的影响程度,并且将影响程度作为该样本对应的数据源重要性,由此实现了样本级别的不同数据源的数据源重要性的个性化确定的效果;进而,通过数据源重要性第二确定模块,根据每个样本分别对应的数据源重要性,对至少两个样本进行群体划分,得到至少一个样本群体,并针对至少一个样本群体中的每个样本群体,得到该样本群体所对应的数据源重要性,由此实现了样本群体级别的不同数据源的数据源重要性的个性化确定的效果。上述装置,通过确定每个数据源在样本级别下的数据源重要性,然后基于此对全体样本进行群体划分,从而得到每个数据源在样本群体级别下的数据源重要性,由此实现了样本群体级别的数据源重要性的有效确定的效果。
本发明实施例所提供的数据源重要性的确定装置可执行本发明任意实施例所提供的数据源重要性的确定方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述数据源重要性的确定装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
图8示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图8所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如数据源重要性的确定方法。
在一些实施例中,数据源重要性的确定方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的数据源重要性的确定方法的一个或多个步骤。备选地,在其他实施例中,处理器11可通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据源重要性的确定方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、以及至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、以及该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或是其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行并且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (15)
1.一种数据源重要性的确定方法,其特征在于,包括:
针对至少两个样本中的每个样本,利用已训练完成的目标模型,处理所述样本在至少两个数据源中的每个数据源下的数据,得到所述目标模型的输出值;
分别确定所述每个数据源针对所述输出值的影响程度,并将所述影响程度作为所述样本对应的数据源重要性;
根据所述每个样本分别对应的数据源重要性,对所述至少两个样本进行群体划分,得到至少一个样本群体,并针对所述至少一个样本群体中的每个样本群体,得到所述样本群体对应的数据源重要性;
其中,所述样本群体对应的数据源重要性,根据所述样本群体内的各样本分别对应的数据源重要性确定,并且用于表征在所述样本群体下所述每个数据源分别针对所述目标模型的模型效果的影响程度。
2.根据权利要求1所述的方法,其特征在于,所述根据所述每个样本分别对应的数据源重要性,对所述至少两个样本进行群体划分,得到至少一个样本群体,包括:
将所述每个样本分别作为叶子节点,并且根据得到的至少两个叶子节点以及所述每个样本分别对应的数据源重要性,构建得到决策树;
根据所述决策树,对所述至少两个样本进行群体划分,得到至少一个样本群体。
3.根据权利要求2所述的方法,其特征在于,所述将所述每个样本分别作为叶子节点,并且根据得到的至少两个叶子节点以及所述每个样本分别对应的数据源重要性,构建得到决策树,包括:
将所述每个样本分别作为叶子节点,并基于得到的至少两个叶子节点构建得到初始树,将所述初始树中的每个叶子节点的数据源重要性,分别初始化为所述叶子节点所表征的样本对应的数据源重要性;
将所述初始树作为中间树,并针对所述中间树中与根节点连接的至少两个第一节点,根据所述至少两个第一节点的数据源重要性,从所述至少两个第一节点中确定两个相似节点,并生成所述两个相似节点的父节点;
基于所述中间树中的全部节点和所述父节点,重新构建并更新所述中间树,以基于所述中间树构建得到决策树;
所述根据所述决策树,对所述至少两个样本进行群体划分,得到至少一个样本群体,包括:
针对所述决策树中的与根节点连接的每个第二节点,将所述决策树中位于所述第二节点下的各叶子节点分别表征的样本,划分到同一样本群体,以得到至少一个样本群体。
4.根据权利要求3所述的方法,其特征在于,所述根据所述至少两个第一节点的数据源重要性,从所述至少两个第一节点中确定两个相似节点,包括:
针对所述至少两个第一节点中的每两个第一节点,确定所述两个第一节点分别对应的数据源重要性之间的距离;
根据得到的各个距离,从所述至少两个第一节点中确定两个相似节点。
5.根据权利要求4所述的方法,其特征在于,所述根据得到的各个距离,从所述至少两个第一节点中确定两个相似节点,包括:
从得到的各个距离中确定数值最小的最小距离;
在所述最小距离小于或等于预设距离阈值的情况下,将所述至少两个第一节点中与所述最小距离对应的两个第一节点,作为两个相似节点。
6.根据权利要求3所述的方法,其特征在于,在所述重新构建并更新所述中间树之后,还包括:
根据所述中间树中位于所述父节点下的各叶子节点的数据源重要性,确定所述父节点的数据源重要性;
所述以基于所述中间树构建得到决策树,包括:
重复执行所述针对所述中间树中与根节点连接的至少两个第一节点的步骤;
在未能从所述至少两个第一节点中确定出所述两个相似节点的情况下,将当前应用的所述中间树作为决策树。
7.根据权利要求6所述的方法,其特征在于,所述根据所述中间树中位于所述父节点下的各叶子节点的数据源重要性,确定所述父节点的数据源重要性,包括:
根据所述中间树中位于所述父节点下的各叶子节点的数据源重要性,得到所述父节点的初始重要性;
根据所述两个相似节点分别表征的样本对应的输出值以及目标损失函数,对所述初始重要性进行优化,得到所述父节点的数据源重要性。
8.根据权利要求1所述的方法,其特征在于,所述利用已训练完成的目标模型,处理所述样本在至少两个数据源中的每个数据源下的数据,得到所述目标模型的输出值,包括:
获取针对至少两个数据源中的每个数据源分别建立的数据源模型;
针对所述至少两个数据源中的每个数据源,利用所述数据源对应的数据源模型,处理所述样本在所述数据源下的数据,得到所述数据源模型的输出结果;
将所述样本在所述每个数据源下分别对应的输出结果,输入到已训练完成的目标模型中,得到所述目标模型的输出值。
9.根据权利要求8所述的方法,其特征在于,所述分别确定所述每个数据源针对所述输出值的影响程度,包括:
基于所述输出值,对所述每个数据源下分别对应的输出结果进行求导,并将得到的求导结果,作为所述每个数据源针对所述输出值的影响程度。
10.根据权利要求8所述的方法,其特征在于,所述目标模型通过如下步骤预先训练得到:
将所述样本在所述每个数据源下分别对应的输出结果作为第一训练样本;
基于所述至少两个样本分别对应的第一训练样本,对第一模型进行训练,得到所述目标模型。
11.根据权利要求8所述的方法,其特征在于,所述数据源模型通过如下步骤预先建立完成:
将所述样本在所述数据源模型对应的数据源下的数据作为第二训练样本;
基于所述至少两个样本分别对应的第二训练样本,对第二模型进行训练,得到所述数据源模型。
12.根据权利要求1所述的方法,其特征在于,还包括:
根据所述样本群体对应的数据源重要性,从所述至少两个数据源中筛选出目标数据源;
针对所述样本群体内的各样本中的每个样本,利用所述目标模型,对所述样本在所述目标数据源下的数据进行处理。
13.一种数据源重要性的确定装置,其特征在于,包括:
输出值得到模块,用于针对至少两个样本中的每个样本,利用已训练完成的目标模型,处理所述样本在至少两个数据源中的每个数据源下的数据,得到所述目标模型的输出值;
数据源重要性第一确定模块,用于分别确定所述每个数据源针对所述输出值的影响程度,并将所述影响程度作为所述样本对应的数据源重要性;
数据源重要性第二确定模块,用于根据所述每个样本分别对应的数据源重要性,对所述至少两个样本进行群体划分,得到至少一个样本群体,针对所述至少一个样本群体中的每个样本群体,得到所述样本群体对应的数据源重要性;
其中,所述样本群体对应的数据源重要性,根据所述样本群体内的各样本分别对应的数据源重要性确定,并且用于表征在所述样本群体下所述每个数据源分别针对所述目标模型的模型效果的影响程度。
14.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-12中任一项所述的数据源重要性的确定方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现如权利要求1-12中任一所述的数据源重要性的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310539034.7A CN116628495A (zh) | 2023-05-12 | 2023-05-12 | 数据源重要性的确定方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310539034.7A CN116628495A (zh) | 2023-05-12 | 2023-05-12 | 数据源重要性的确定方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116628495A true CN116628495A (zh) | 2023-08-22 |
Family
ID=87591261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310539034.7A Pending CN116628495A (zh) | 2023-05-12 | 2023-05-12 | 数据源重要性的确定方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116628495A (zh) |
-
2023
- 2023-05-12 CN CN202310539034.7A patent/CN116628495A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10713597B2 (en) | Systems and methods for preparing data for use by machine learning algorithms | |
CN110390408B (zh) | 交易对象预测方法和装置 | |
US20230196202A1 (en) | System and method for automatic building of learning machines using learning machines | |
US11366806B2 (en) | Automated feature generation for machine learning application | |
CN112580733B (zh) | 分类模型的训练方法、装置、设备以及存储介质 | |
US10678821B2 (en) | Evaluating theses using tree structures | |
CN115329207B (zh) | 智能销售信息推荐方法及系统 | |
CN113642727B (zh) | 神经网络模型的训练方法和多媒体信息的处理方法、装置 | |
WO2022042638A1 (en) | Deterministic learning video scene detection | |
CN111161238A (zh) | 图像质量评价方法及装置、电子设备、存储介质 | |
CN117474669A (zh) | 一种贷款逾期预测方法、装置、设备及存储介质 | |
CN112231299B (zh) | 一种特征库动态调整的方法和装置 | |
CN115905648B (zh) | 基于高斯混合模型的用户群和金融用户群分析方法及装置 | |
WO2023011093A1 (zh) | 任务模型的训练方法、装置、电子设备及存储介质 | |
CN116401372A (zh) | 知识图谱表示学习方法、装置、电子设备及可读存储介质 | |
CN116628495A (zh) | 数据源重要性的确定方法、装置、电子设备及存储介质 | |
US11449743B1 (en) | Dimensionality reduction for statistical modeling | |
US20230419102A1 (en) | Token synthesis for machine learning models | |
US11500864B2 (en) | Generating highlight queries | |
CN114066278B (zh) | 物品召回的评估方法、装置、介质及程序产品 | |
CN114037058B (zh) | 预训练模型的生成方法、装置、电子设备以及存储介质 | |
US20220245469A1 (en) | Decision Making Using Integrated Machine Learning Models and Knowledge Graphs | |
US20240121119A1 (en) | Method and Apparatus for Classifying Blockchain Address | |
US20230195842A1 (en) | Automated feature engineering for predictive modeling using deep reinforcement learning | |
US20230106295A1 (en) | System and method for deriving a performance metric of an artificial intelligence (ai) model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |