CN112215441A - 预测模型训练方法及系统 - Google Patents
预测模型训练方法及系统 Download PDFInfo
- Publication number
- CN112215441A CN112215441A CN202011285086.9A CN202011285086A CN112215441A CN 112215441 A CN112215441 A CN 112215441A CN 202011285086 A CN202011285086 A CN 202011285086A CN 112215441 A CN112215441 A CN 112215441A
- Authority
- CN
- China
- Prior art keywords
- space
- time
- map
- maps
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000003068 static effect Effects 0.000 claims abstract description 95
- 238000007405 data analysis Methods 0.000 claims abstract description 82
- 238000004364 calculation method Methods 0.000 claims abstract description 57
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 53
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 31
- 230000002068 genetic effect Effects 0.000 claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 238000005065 mining Methods 0.000 claims description 16
- 238000005094 computer simulation Methods 0.000 claims description 4
- 238000007418 data mining Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 5
- 238000004220 aggregation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004900 laundering Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013058 risk prediction model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Accounting & Taxation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Bioinformatics & Computational Biology (AREA)
- Genetics & Genomics (AREA)
- Computing Systems (AREA)
- Physiology (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
Abstract
本申请涉及一种预测模型训练方法、系统、计算机设备及可读存储介质,其中,该预测模型训练方法包括:数据获取步骤,用于获取待训练数据;数据分析步骤,用于结合静态图谱及不同时空段的时空图谱对所述待训练数据进行多维度数据分析,得到所述待训练数据的静态图谱、不同时空段的时空图谱、静态图谱的图属性及时空图谱的图属性;计算模型迭代步骤,用于利用遗传算法对所述数据分析步骤得到的所述静态图谱、不同时空段的时空图谱、静态图谱的图属性及时空图谱的图属性进行计算得到至少一基因组合,以对所述至少一基因组合进行分析筛选出最优计算模型。通过本申请,提高预测分析的准确率,提高模型的场景适应能力。
Description
技术领域
本申请涉及互联网技术领域,特别是涉及一种基于时空碰撞的预测模型训练方法及系统。
背景技术
在当前智能反欺诈时代,人工智能和大数据已成为提升反欺诈效果的重要基础。人工智能在金融机构的应用范围非常广泛,最多的是在风控、合规、监管、内控等领域,具体包括交易反欺诈、反洗钱、内控审计和营销反欺诈。
金融反欺诈的技术方式由最初的名单体系、专家规则、再到机器学习建模、关联图谱。在这些场景中,会应用上文提及的机器学习建模或图谱分析客户基本信息,以识别可疑交易、欺诈账户,甚至风险洗钱的团伙等。但是,现有的技术中传统机器学习和图谱应用于上述场景中进行风险预测的结果准确率并不高,因此,需要一种新的计算模型能更好的解决这些场景中的问题。
发明内容
本申请实施例提供了一种基于时空碰撞的预测模型训练方法、系统、计算机设备及可读存储介质,结合静态图谱和动态时空图谱经过多切面多维度的数据分析,利用遗传算法进行迭代,提高预测分析的准确率,提高模型的场景适应能力。
第一方面,本申请实施例提供了一种预测模型训练方法,包括:
数据获取步骤,用于获取待训练数据;
数据分析步骤,用于结合静态图谱及不同时空段的时空图谱对所述待训练数据进行多维度数据分析,得到所述待训练数据的静态图谱、不同时空段的时空图谱、静态图谱的图属性及不同时空段的时空图谱的图属性;
计算模型迭代步骤,用于利用遗传算法对所述数据分析步骤得到的所述静态图谱、不同时空段的时空图谱、静态图谱的图属性及不同时空段的时空图谱的图属性进行计算得到至少一基因组合,以对所述至少一基因组合进行分析筛选出最优计算模型,采用遗传算法迭代具有自我学习,自我迭代的能力,有利于提高预测结果精确度。
通过上述步骤,所述方法结合静态图谱及不同时空段的时空图谱对所述待训练数据的实体、关系及属性进行静态、动态分析,通过时空碰撞分析经数据碰撞后在一时空关系中的特性,可以更加准确的挖掘出待训练数据的关系,提高预测分析准确率。
在其中一些实施例中,所述方法进一步包括:
重复数据分析步骤,用于重复所述数据分析步骤及计算模型迭代步骤计算得到多个所述最优计算模型,并将多个所述最优计算模型根据匹配度输出,基于遗传算法自我学习、自我迭代的特性实现用得越久越准确,通过重复数据分析提高最终计算模型的匹配度,以供使用方进行业务应用。
在其中一些实施例中,所述数据分析步骤进一步包括:
静态图谱数据分析步骤,用于对所述待训练数据进行数据挖掘得到一静态图谱,并对所述静态图谱进行图特征挖掘得到所述静态图谱的图属性,设置一初始化权重用于表示所述静态图谱的关系;
动态时空图谱数据分析步骤,用于通过对所述待训练数据进行时空碰撞得到多个时空图谱,基于所述时空碰撞的次数及时空关系以不同时空段为切面对所述多个时空图谱分别进行图特征挖掘,得到每一时空图谱的图属性。
在其中一些实施例中,所述动态时空图谱数据分析步骤进一步包括:
时空图谱获取步骤,用于配置一时空参照并根据所述时空参照将数据划分为多个不同的时空段,对每一所述时空段数据进行时空碰撞得到与所述时空段对应的时空图谱,设置一碰撞权重以表示在所述时空段产生的时空碰撞;
时空关系获取步骤,用于对多个所述时空图谱进行数据分析,得到所述时空图谱中的时空关系及时空碰撞发生的次数,并设置一关系权重及一次数权重,其中,所述关系权重用于表示所述时空关系,所述次数权重用于表示时空碰撞发生的次数;
时空图谱切面获取步骤,用于以所述时空段为切面对所述时空图谱进行切面分析,设置一时空权重用于表示所述切面图谱中的关系,基于所述时空权重计算每一切面对应的切面图谱的图属性。
在其中一些实施例中,所述计算模型迭代步骤进一步包括:将所述数据分析步骤得到的不同时空段的所述时空图谱互相重组、所述时空图谱与静态图谱之间互相重组后,与所述静态图谱的图属性、时空图谱的图属性及算法参数一并作为所述遗传算法的基因,经所述遗传算法计算得到至少一基因组合,以对所述至少一基因组合进行分析筛选出最优计算模型。
在其中一些实施例中,所述时空权重为所述关系权重与所述次数权重的乘积。
在其中一些实施例中,所述图属性包括中介中心性、接近中心性、度中心性、聚集系数、Pagerank算法。
在其中一些实施例中,所述次数权重采用但不限于线性算法、Sigmoid、逻辑回归算法计算得到,其中,Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线,在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的激活函数,将变量映射到(0,1)之间。
第二方面,本申请实施例提供了一种预测模型训练系统,包括:
一数据获取模块,用于获取待训练数据;
一数据分析模块,用于结合静态图谱及不同时空段的时空图谱对所述待训练数据进行多维度数据分析,得到所述待训练数据的静态图谱、不同时空段的时空图谱、静态图谱的图属性及时空图谱的图属性;
一计算模型迭代模块,用于利用遗传算法对所述数据分析模块得到的所述静态图谱、不同时空段的时空图谱、静态图谱的图属性及时空图谱的图属性进行计算得到至少一基因组合,以对所述至少一基因组合进行分析筛选出最优计算模型,采用遗传算法迭代具有自我学习,自我迭代的能力,有利于提高预测结果精确度。
通过上述结构,所述系统结合静态图谱及不同时空段的时空图谱对所述待训练数据的实体、关系及属性进行静态、动态分析,通过时空碰撞分析经数据碰撞后在一时空关系中的特性,可以更加准确的挖掘出待训练数据的关系,提高预测分析准确率。
在其中一些实施例中,所述系统进一步包括:
一重复数据分析模块,用于重复调用所述数据分析模块及计算模型迭代模块计算得到多个所述最优计算模型,并将多个所述最优计算模型根据匹配度输出,基于遗传算法自我学习、自我迭代的特性实现用得越久越准确,通过重复数据分析提高最终计算模型的匹配度,以供使用方进行业务应用。
在其中一些实施例中,所述数据分析模块进一步包括:
一静态图谱数据分析模块,用于对所述待训练数据进行数据挖掘得到一静态图谱,并对所述静态图谱进行图特征挖掘得到静态图谱的图属性,设置一初始化权重用于表示所述静态图谱的关系;
一动态时空图谱数据分析模块,用于通过对所述待训练数据进行时空碰撞得到多个时空图谱,基于所述时空碰撞的次数及时空关系以不同时空段为切面对多个所述时空图谱分别进行图特征挖掘,得到每一时空图谱的图属性。
在其中一些实施例中,所述动态时空图谱数据分析模块进一步包括:
一时空图谱获取模块,用于配置一时空参照并根据所述时空参照将数据划分为多个不同的时空段,对每一时空段数据进行时空碰撞得到与所述时空段对应的时空图谱,设置一碰撞权重以表示在所述时空段产生的时空碰撞;
一时空关系获取模块,用于对多个所述时空图谱进行数据分析,得到所述时空图谱中的时空关系及时空碰撞发生的次数,并设置一关系权重及一次数权重,其中,所述关系权重用于表示所述时空关系,所述次数权重用于表示时空碰撞发生的次数;
一时空图谱切面获取模块,用于以时空段为切面对所述时空图谱进行切面分析,设置一时空权重用于表示所述切面图谱中的关系,基于所述时空权重计算每一切面对应的切面图谱的图属性。具体的,时空图谱在某一时空段的整个图谱中所有要素的存续及变化状态作为一个切面。
在其中一些实施例中,所述计算模型迭代模块进一步包括:将所述数据分析模块得到的不同时空段的所述时空图谱互相重组、所述时空图谱与静态图谱之间互相重组后,与所述静态图谱的图属性、时空图谱的图属性及算法参数一并作为遗传算法的基因,经所述遗传算法计算得到至少一基因组合,以对所述至少一基因组合进行分析筛选出最优计算模型。
在其中一些实施例中,所述时空权重为所述关系权重与所述次数权重的乘积。
在其中一些实施例中,所述图属性包括中介中心性、接近中心性、度中心性、聚集系数、Pagerank算法。
在其中一些实施例中,所述次数权重采用但不限于线性算法、Sigmoid、逻辑回归算法计算得到。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的预测模型训练方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的预测模型训练方法。
相比于相关技术,本申请实施例提供的基于时空碰撞的预测模型训练方法、系统、计算机设备及可读存储介质,利用传统图谱结合时空碰撞实现对现有技术中传统机器学习和传统图谱不擅长的领域进行更加专业的预测分析;具体的,利用静态图谱结合不同时段的动态时空图以及时空图对应的不同权重,做多种切面的图谱数据分析,从多种维度解析对应的图特征,数据分析过程更全面,所得到的计算模型的预测结果更准确。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的预测模型训练方法的流程示意图;
图2是根据本申请实施例的预测模型训练方法的分步骤流程示意图;
图3是根据本申请实施例的预测模型训练系统的结构示意图;
图4是根据本申请实施例的预测模型训练系统的动态时空图谱数据分析模块结构示意图。
附图说明:
1、数据获取模块;2、数据分析模块;3、计算模型迭代模块;
4、重复数据分析模块;21、静态图谱数据分析模块;
22、动态时空图谱数据分析模块;
221、时空图谱获取模块;222、时空关系获取模块;
223、时空图谱切面获取模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例提供了一种预测模型训练方法。图1至2是根据本申请实施例的预测模型训练方法的流程示意图,参考图1至2所示,该流程包括如下步骤:
数据获取步骤S1,用于获取待训练数据。
数据分析步骤S2,用于结合静态图谱及不同时空段的时空图谱对所述待训练数据进行多维度数据分析,得到待训练数据的静态图谱、不同时空段的时空图谱、静态图谱的图属性及时空图谱的图属性,该图属性可包括中介中心性、接近中心性、度中心性、聚集系数及Pagerank算法,具体的,可包括:
静态图谱数据分析步骤S21,用于对待训练数据进行数据挖掘得到一静态图谱,并对静态图谱进行图特征挖掘得到静态图谱的图属性,设置一初始化权重用于表示静态图谱的关系;
动态时空图谱数据分析步骤S22,用于通过对待训练数据进行时空碰撞得到多个时空图谱,基于时空碰撞的次数及时空关系以不同时空段为切面对多个时空图谱分别进行图特征挖掘,得到每一时空图谱的图属性。
动态时空图谱数据分析步骤S22可主要包括:
时空图谱获取步骤S221,用于配置一时空参照并根据时空参照将数据划分为多个不同的时空段,对每一时空段数据进行时空碰撞得到与时空段对应的时空图谱,设置一碰撞权重以表示在时空段产生的时空碰撞;
时空关系获取步骤S222,用于对多个时空图谱进行数据分析,得到时空图谱中的时空关系及时空碰撞发生的次数,并设置一关系权重及一次数权重,其中,关系权重用于表示时空关系,次数权重用于表示时空碰撞发生的次数,具体的,次数权重的计算可采用但不限于线性算法、Sigmoid、逻辑回归算法;
时空图谱切面获取步骤S223,用于以时空段为切面对时空图谱进行切面分析,设置一时空权重用于表示切面图谱中的关系,基于时空权重计算每一切面对应的切面图谱的图属性,具体的,该时空权重为关系权重与次数权重的乘积。
计算模型迭代步骤S3,用于利用遗传算法对数据分析步骤得到的静态图谱、不同时空段的时空图谱、静态图谱的图属性及时空图谱的图属性进行计算得到至少一基因组合,以对至少一基因组合进行分析筛选出最优计算模型,具体的,将步骤S2得到的不同时空段的时空图谱互相重组、时空图谱与静态图谱之间互相重组后,与静态图谱的图属性、时空图谱的图属性及算法参数一并作为遗传算法的基因进行计算。
重复数据分析步骤S4,用于重复数据分析步骤及计算模型迭代步骤计算得到多个最优计算模型,并将多个最优计算模型根据匹配度输出。
通过上述步骤,方法结合静态图谱及不同时空段的时空图谱对待训练数据的实体、关系及属性进行静态、动态分析,通过时空碰撞分析经数据碰撞后在一时空关系中的特性,可以更加准确的挖掘出待训练数据的关系,提高预测分析准确率;采用遗传算法迭代计算模型,该算法具有自我学习,自我迭代的能力,有利于提高预测结果精确度。同时,基于遗传算法自我学习、自我迭代的特性实现用得越久越准确,通过步骤S4提高最终计算模型的匹配度,以供使用方进行业务应用。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种预测模型训练系统,图3至4是根据本申请实施例的预测模型训练系统的结构示意图。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
参考图3至4所示,该系统包括:数据获取模块1、数据分析模块2、计算模型迭代模块3及重复数据分析模块4;
数据获取模块1用于获取待训练数据;
数据分析模块2用于结合静态图谱及不同时空段的时空图谱对待训练数据进行多维度数据分析,得到待训练数据的静态图谱、不同时空段的时空图谱、静态图谱的图属性及时空图谱的图属性,图属性主要包括:中介中心性、接近中心性、度中心性、聚集系数、Pagerank算法。具体的,数据分析模块2可包括:静态图谱数据分析模块21及动态时空图谱数据分析模块22,
静态图谱数据分析模块21用于对待训练数据进行数据挖掘得到一静态图谱,并对静态图谱进行图特征挖掘得到静态图谱的图属性,设置一初始化权重用于表示静态图谱的关系;
动态时空图谱数据分析模块22用于通过对待训练数据进行时空碰撞得到多个时空图谱,基于时空碰撞的次数及时空关系以不同时空段为切面对多个时空图谱分别进行图特征挖掘,得到每一时空图谱的图属性。
动态时空图谱数据分析模块22可主要包括:时空图谱获取模块221、时空关系获取模块222及时空图谱切面获取模块223;
时空图谱获取模块221用于配置一时空参照并根据时空参照将数据划分为多个不同的时空段,对每一时空段数据进行时空碰撞得到与时空段对应的时空图谱,设置一碰撞权重以表示在时空段产生的时空碰撞;
时空关系获取模块222用于对多个时空图谱进行数据分析,得到时空图谱中的时空关系及时空碰撞发生的次数,并设置一关系权重及一次数权重,其中,关系权重用于表示时空关系,次数权重用于表示时空碰撞发生的次数,可选的,次数权重采用但不限于线性算法、Sigmoid、逻辑回归算法计算得到;
时空图谱切面获取模块223用于以时空段为切面对时空图谱进行切面分析,设置一时空权重用于表示切面图谱中的关系,基于时空权重计算每一切面对应的切面图谱的图属性。具体的,切面图谱用于表示时空图谱在某一时空段的整个图谱中所有要素的存续及变化状态。
计算模型迭代模块3用于利用遗传算法对数据分析模块得到的静态图谱、不同时空段的时空图谱、静态图谱的图属性及时空图谱的图属性进行计算得到至少一基因组合,以对至少一基因组合进行分析筛选出最优计算模型,具体的,将数据分析模块2得到的不同时空段的时空图谱互相重组、时空图谱与静态图谱之间互相重组后,与静态图谱的图属性、时空图谱的图属性及算法参数一并作为遗传算法的基因进行计算。
重复数据分析模块4,用于重复调用数据分析模块2及计算模型迭代模块3计算得到多个最优计算模型,并将多个最优计算模型根据匹配度输出。
通过上述结构,系统结合静态图谱及不同时空段的时空图谱对待训练数据的实体、关系及属性进行静态、动态分析,通过时空碰撞分析经数据碰撞后在一时空关系中的特性,可以更加准确的挖掘出待训练数据的关系,提高预测分析准确率,采用遗传算法迭代计算模型,遗传算法具有自我学习,自我迭代的能力,同时通过重复数据分析模块4重复循环调用数据分析模块2及计算模型迭代模块3进行计算,进一步提高预测结果精确度。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
下面通过优选实施例对本申请实施例进行描述和说明。
对于金融行业的信贷违规等来说,时空碰撞与静态图谱的结合尤为重要,在一个时间段内的时空碰撞比较密集,节点模型分数比较高的时候,则可以认为节点在对应时间段内可能频繁的进行信贷,或者对不同银行信贷,则可能存在一定的信贷风险。应用本申请实施例建立信贷风险预测模型时,
通过步骤S1获取到待训练数据;然后对这批数据进行初步数据挖掘,结果包括但不限于实体:账户、人、公司;关系:人-公司关系,人-账户关系,公司-账户关系、人-资产关系,公司-资产关系;事件:资金往来、资金担保等,并且客户给定具体出现信贷违规的人、公司。
在步骤S2中对待训练数据进行训练,具体的,经步骤S21对上述挖掘出来的实体关系数据转换为静态图谱,对得到的静态图谱挖掘图属性,图属性包括中介中心性、接近中心性、度中心性、聚集系数、Pagerank,同时对不同的关系设置不同的初始化权重。
在步骤S22中优选以月为单位,把信贷逾期人员按照逾期时间按照月划分不同的群体,作为正样本。在这不同的群体里面,分别添加不同的负样本。每个样本分别有自己的逾期时间点。按照这个时间点作为时空参照,不同群体时空参照点不一样,分别向前解析不同的时空图谱,计算出这个时空图谱下的时空碰撞,并设置碰撞权重。不同的时空参考点暂时认为权重是一致的。
然后,对上述时空图谱分别进行分析,挖掘出来各自群体的图特征,不同的时空关系设置不同的关系权重,同时针对时空碰撞发生的次数设置次数权重,发生的次数和次数权重之间可以通过不同的算法计算得出,例如线性算法、Sigmoid、逻辑回归算法等。
最后,对上述时空图谱进行多种切面分析,以不同时空段的时空图谱作为切面,此时每个关系的权重为时空权重,然后携带时空权重,分别计算出切面图谱对应的每组图属性。
在步骤S3中,将不同时空段之间时空图谱互相重组,时空图谱与静态图谱之间互相重组,初始化权重、碰撞权重、次数权重、关系权重以及计算次数权重的各种算法,需要模型预测的机器学习算法,算法的参数等一系列的数据作为遗传算法的基因,遗传到一定的代,算出比较优异的基因组合。根据这些基因组合选择出最优异的模型并将模型落地,待后续预测使用。
经步骤4待训练数据重复执行步骤2、步骤3,最终选择匹配度最高的计算模型并计算出对应的分数,分数大于一定的设定阈值的人员或公司设置为信贷风险人员,其中,客户可以手动去设置是否是信贷风险人员,设置之后,通过算法进行增量计算,根据一定的标准评判此次手动设置是否合理,如果合理则自我增量更新模型。
另外,结合图1至2描述的本申请实施例预测模型训练方法可以由计算机设备来实现。计算机设备可以包括处理器以及存储有计算机程序指令的存储器,存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器所执行的可能的计算机程序指令。处理器通过读取并执行存储器中存储的计算机程序指令,以实现上述实施例中的任意一种预测模型训练方法。
另外,结合上述实施例中的预测模型训练方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种预测模型训练方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种预测模型训练方法,其特征在于,包括:
数据获取步骤,用于获取待训练数据;
数据分析步骤,用于结合静态图谱及不同时空段的时空图谱对所述待训练数据进行多维度数据分析,得到所述待训练数据的静态图谱、不同时空段的时空图谱、静态图谱的图属性及时空图谱的图属性;
计算模型迭代步骤,用于利用遗传算法对所述数据分析步骤得到的所述静态图谱、不同时空段的时空图谱、静态图谱的图属性及时空图谱的图属性进行计算得到至少一基因组合,以对所述至少一基因组合进行分析筛选出最优计算模型。
2.根据所述权利要求1所述的预测模型训练方法,其特征在于,进一步包括:
重复数据分析步骤,用于重复所述数据分析步骤及计算模型迭代步骤计算得到多个所述最优计算模型,并将多个所述最优计算模型根据匹配度输出。
3.根据权利要求1或2所述的预测模型训练方法,其特征在于,所述数据分析步骤进一步包括:
静态图谱数据分析步骤,用于对所述待训练数据进行数据挖掘得到一静态图谱,并对所述静态图谱进行图特征挖掘得到所述静态图谱的图属性,设置一初始化权重用于表示所述静态图谱的关系;
动态时空图谱数据分析步骤,用于通过对所述待训练数据进行时空碰撞得到多个时空图谱,基于所述时空碰撞的次数及时空关系以不同时空段为切面对所述多个所述时空图谱分别进行图特征挖掘,得到每一时空图谱的图属性。
4.根据权利要求3所述的预测模型训练方法,其特征在于,所述动态时空图谱数据分析步骤进一步包括:
时空图谱获取步骤,用于配置一时空参照并根据所述时空参照将数据划分为多个不同的时空段,对每一所述时空段数据进行时空碰撞得到与所述时空段对应的时空图谱,设置一碰撞权重以表示在所述时空段产生的时空碰撞;
时空关系获取步骤,用于对多个所述时空图谱进行数据分析,得到所述时空图谱中的时空关系及时空碰撞发生的次数,并设置一关系权重及一次数权重,其中,所述关系权重用于表示所述时空关系,所述次数权重用于表示时空碰撞发生的次数;
时空图谱切面获取步骤,用于以所述时空段为切面对所述时空图谱进行切面分析,设置一时空权重用于表示所述切面图谱中的关系,基于所述时空权重计算每一切面对应的切面图谱的图属性。
5.根据权利要求4所述的预测模型训练方法,其特征在于,所述计算模型迭代步骤进一步包括:将所述数据分析步骤得到的不同时空段的所述时空图谱互相重组、所述时空图谱与静态图谱之间互相重组后,与所述静态图谱的图属性、时空图谱的图属性及算法参数一并作为所述遗传算法的基因,经所述遗传算法计算得到至少一基因组合,以对所述至少一基因组合进行分析筛选出最优计算模型。
6.一种预测模型训练系统,其特征在于,包括:
一数据获取模块,用于获取待训练数据;
一数据分析模块,用于结合静态图谱及不同时空段的时空图谱对所述待训练数据进行多维度数据分析,得到所述待训练数据的静态图谱、不同时空段的时空图谱、静态图谱的图属性及时空图谱的图属性;
一计算模型迭代模块,用于利用遗传算法对所述数据分析模块得到的所述静态图谱、不同时空段的时空图谱、静态图谱的图属性及时空图谱的图属性进行计算得到至少一基因组合,以对所述至少一基因组合进行分析筛选出最优计算模型。
7.根据权利要求6所述的预测模型训练系统,其特征在于,进一步包括:
一重复数据分析模块,用于重复调用所述数据分析模块及计算模型迭代模块计算得到多个所述最优计算模型,并将多个所述最优计算模型根据匹配度输出。
8.根据权利要求6或7所述的预测模型训练系统,其特征在于,所述数据分析模块进一步包括:
一静态图谱数据分析模块,用于对所述待训练数据进行数据挖掘得到一静态图谱,并对所述静态图谱进行图特征挖掘得到静态图谱的图属性,设置一初始化权重用于表示所述静态图谱的关系;
一动态时空图谱数据分析模块,用于通过对所述待训练数据进行时空碰撞得到多个时空图谱,基于所述时空碰撞的次数及时空关系以不同时空段为切面对多个所述时空图谱分别进行图特征挖掘,得到每一时空图谱的图属性。
9.根据权利要求8所述的预测模型训练系统,其特征在于,所述动态时空图谱数据分析模块进一步包括:
一时空图谱获取模块,用于配置一时空参照并根据所述时空参照将数据划分为多个不同的时空段,对每一时空段数据进行时空碰撞得到与所述时空段对应的时空图谱,设置一碰撞权重以表示在所述时空段产生的时空碰撞;
一时空关系获取模块,用于对多个所述时空图谱进行数据分析,得到所述时空图谱中的时空关系及时空碰撞发生的次数,并设置一关系权重及一次数权重,其中,所述关系权重用于表示所述时空关系,所述次数权重用于表示时空碰撞发生的次数;
一时空图谱切面获取模块,用于以时空段为切面对所述时空图谱进行切面分析,设置一时空权重用于表示所述切面图谱中的关系,基于所述时空权重计算每一切面对应的切面图谱的图属性。
10.根据权利要求9所述的预测模型训练系统,其特征在于,所述计算模型迭代模块进一步包括:将所述数据分析模块得到的不同时空段的所述时空图谱互相重组、所述时空图谱与静态图谱之间互相重组后,与所述静态图谱的图属性、时空图谱的图属性及算法参数一并作为遗传算法的基因,经所述遗传算法计算得到至少一基因组合,以对所述至少一基因组合进行分析筛选出最优计算模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011285086.9A CN112215441A (zh) | 2020-11-17 | 2020-11-17 | 预测模型训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011285086.9A CN112215441A (zh) | 2020-11-17 | 2020-11-17 | 预测模型训练方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112215441A true CN112215441A (zh) | 2021-01-12 |
Family
ID=74058503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011285086.9A Pending CN112215441A (zh) | 2020-11-17 | 2020-11-17 | 预测模型训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215441A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732939A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学院空天信息创新研究院 | 基于GraphDB的时空知识图谱构建方法、装置、介质及设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140350856A1 (en) * | 2013-05-22 | 2014-11-27 | S.S. Papadopulos & Associates, Inc. | Simultaneous multi-event universal kriging methods for spatio-temporal data analysis and mapping |
US20150235143A1 (en) * | 2003-12-30 | 2015-08-20 | Kantrack Llc | Transfer Learning For Predictive Model Development |
US20170286629A1 (en) * | 2014-09-04 | 2017-10-05 | Universite De Rennes 1 | Method for simulating brain stimulation, corresponding device and computer program |
CN108563710A (zh) * | 2018-03-27 | 2018-09-21 | 腾讯科技(深圳)有限公司 | 一种知识图谱构建方法、装置及存储介质 |
CN110458592A (zh) * | 2019-06-18 | 2019-11-15 | 北京海致星图科技有限公司 | 基于知识图谱和机器学习算法挖掘银行潜在授信客户方法 |
CN111221981A (zh) * | 2019-12-31 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 知识图谱嵌入模型的训练方法、装置和计算机存储介质 |
CN111222681A (zh) * | 2019-11-05 | 2020-06-02 | 量子数聚(北京)科技有限公司 | 用于企业破产风险预测的数据处理方法以及装置、设备、存储介质 |
CN111241305A (zh) * | 2020-01-16 | 2020-06-05 | 北京明略软件系统有限公司 | 数据处理方法和装置、电子设备及计算机可读存储介质 |
CN111324643A (zh) * | 2020-03-30 | 2020-06-23 | 北京百度网讯科技有限公司 | 知识图谱的生成方法、关系挖掘方法、装置、设备和介质 |
CN111460048A (zh) * | 2020-03-13 | 2020-07-28 | 中国科学院电子学研究所苏州研究院 | 一种面向时序切面的知识图谱要素组织方法 |
CN111813974A (zh) * | 2020-07-08 | 2020-10-23 | 广州市多米教育科技有限公司 | 一种基于图像语义分析的自适应实践系统 |
-
2020
- 2020-11-17 CN CN202011285086.9A patent/CN112215441A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150235143A1 (en) * | 2003-12-30 | 2015-08-20 | Kantrack Llc | Transfer Learning For Predictive Model Development |
US20140350856A1 (en) * | 2013-05-22 | 2014-11-27 | S.S. Papadopulos & Associates, Inc. | Simultaneous multi-event universal kriging methods for spatio-temporal data analysis and mapping |
US20170286629A1 (en) * | 2014-09-04 | 2017-10-05 | Universite De Rennes 1 | Method for simulating brain stimulation, corresponding device and computer program |
CN108563710A (zh) * | 2018-03-27 | 2018-09-21 | 腾讯科技(深圳)有限公司 | 一种知识图谱构建方法、装置及存储介质 |
CN110458592A (zh) * | 2019-06-18 | 2019-11-15 | 北京海致星图科技有限公司 | 基于知识图谱和机器学习算法挖掘银行潜在授信客户方法 |
CN111222681A (zh) * | 2019-11-05 | 2020-06-02 | 量子数聚(北京)科技有限公司 | 用于企业破产风险预测的数据处理方法以及装置、设备、存储介质 |
CN111221981A (zh) * | 2019-12-31 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 知识图谱嵌入模型的训练方法、装置和计算机存储介质 |
CN111241305A (zh) * | 2020-01-16 | 2020-06-05 | 北京明略软件系统有限公司 | 数据处理方法和装置、电子设备及计算机可读存储介质 |
CN111460048A (zh) * | 2020-03-13 | 2020-07-28 | 中国科学院电子学研究所苏州研究院 | 一种面向时序切面的知识图谱要素组织方法 |
CN111324643A (zh) * | 2020-03-30 | 2020-06-23 | 北京百度网讯科技有限公司 | 知识图谱的生成方法、关系挖掘方法、装置、设备和介质 |
CN111813974A (zh) * | 2020-07-08 | 2020-10-23 | 广州市多米教育科技有限公司 | 一种基于图像语义分析的自适应实践系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732939A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学院空天信息创新研究院 | 基于GraphDB的时空知识图谱构建方法、装置、介质及设备 |
CN112732939B (zh) * | 2021-01-15 | 2022-11-29 | 中国科学院空天信息创新研究院 | 基于GraphDB的时空知识图谱构建方法、装置、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2021232839B2 (en) | Updating Attribute Data Structures to Indicate Trends in Attribute Data Provided to Automated Modelling Systems | |
WO2021164382A1 (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
CN110084610B (zh) | 一种基于孪生神经网络的网络交易欺诈检测系统 | |
CN112989059A (zh) | 潜在客户识别方法及装置、设备及可读计算机存储介质 | |
CN110084468A (zh) | 一种风险识别方法及装置 | |
CN112541575A (zh) | 图神经网络的训练方法及装置 | |
CN111242319A (zh) | 模型预测结果的解释方法和装置 | |
CN110609870A (zh) | 分布式数据处理方法、装置、电子设备及存储介质 | |
CN114219562A (zh) | 模型的训练方法、企业信用评估方法和装置、设备、介质 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN111475158A (zh) | 子领域划分方法、装置、电子设备和计算机可读存储介质 | |
CN111582912A (zh) | 一种基于深度嵌入聚类算法的画像建模方法 | |
CN112215441A (zh) | 预测模型训练方法及系统 | |
Dornaika et al. | Single phase multi-view clustering using unified graph learning and spectral representation | |
CN108765137A (zh) | 一种信贷需求预测方法和系统、存储介质 | |
CN110288002B (zh) | 一种基于稀疏正交神经网络的图像分类方法 | |
CN111967973A (zh) | 银行客户数据处理方法及装置 | |
CN116541792A (zh) | 一种基于图神经网络节点分类进行团伙识别的方法 | |
CN111325578A (zh) | 预测模型的样本确定方法及装置、介质和设备 | |
US11609936B2 (en) | Graph data processing method, device, and computer program product | |
CN113822390B (zh) | 用户画像构建方法、装置、电子设备和存储介质 | |
CN111984842B (zh) | 银行客户数据处理方法及装置 | |
CN112328844B (zh) | 一种处理多类型数据的方法及系统 | |
CN111459990B (zh) | 对象处理方法、系统及计算机可读存储介质和计算机设备 | |
CN112991025A (zh) | 一种保险智能推荐方法、系统、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |