CN114676927A - 风险预测方法和装置、电子设备、计算机可读存储介质 - Google Patents

风险预测方法和装置、电子设备、计算机可读存储介质 Download PDF

Info

Publication number
CN114676927A
CN114676927A CN202210369111.4A CN202210369111A CN114676927A CN 114676927 A CN114676927 A CN 114676927A CN 202210369111 A CN202210369111 A CN 202210369111A CN 114676927 A CN114676927 A CN 114676927A
Authority
CN
China
Prior art keywords
conduction
probability
risk
pair
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210369111.4A
Other languages
English (en)
Inventor
刘朦月
张海滨
赵鹏昊
李曙鹏
施恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210369111.4A priority Critical patent/CN114676927A/zh
Publication of CN114676927A publication Critical patent/CN114676927A/zh
Priority to US18/169,727 priority patent/US20230196245A1/en
Priority to EP23163131.8A priority patent/EP4258193A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Educational Administration (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种风险预测方法和装置,涉及知识图谱、机器学习等技术领域。具体实现方案为:确定待测对象的源生风险概率;构建待测对象与不同关联对象之间的关系图谱;确定关系图谱中任意两个直接关联对象之间的初级传导概率;基于初级传导概率和关系图谱,确定待测对象的多级传导概率;基于源生风险概率和待测对象的多级传导概率,确定待测对象的目标风险概率。该实施方式提高了风险预测的精确度。

Description

风险预测方法和装置、电子设备、计算机可读存储介质
技术领域
本公开涉及计算机技术领域,具体涉及知识图谱、机器学习等技术领域,尤其涉及一种风险预测方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。
背景技术
目前金融行业对企业自身风险预测已经有了比较完善的建模方案,但是对于传导性的风险预测依然没有很好的解决方案。一方面是企业之间的关联关系较为复杂,一个企业往往会与多家企业存在关联关系;另一方面企业的关联关系随着时间会发生变化,并且风险传导具有一定的滞后性,对建模带来了挑战。
目前已有的企业风险传导建模方案主要是对一个阶段的传导进行预测,但是在现实场景中,一方面,企业之间往往存在链路关系,并且可能存在跨级传导的问题。另一方面,企业风险由自身风险和传导风险两部分组成,但是这两个部分无法很好地进行分离,因此在传导边标签的时候,往往是错误的。
发明内容
本公开提供了一种风险预测方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。
根据第一方面,提供了一种风险预测方法,该方法包括:确定待测对象的源生风险概率;构建待测对象与不同关联对象之间的关系图谱;确定关系图谱中任意两个直接关联对象之间的初级传导概率;基于初级传导概率和关系图谱,确定待测对象的多级传导概率;基于源生风险概率和待测对象的多级传导概率,确定待测对象的目标风险概率。
根据第二方面,又提供了一种风险预测装置,该装置包括:源生确定单元,被配置成确定待测对象的源生风险概率;图谱构建单元,被配置成构建待测对象与不同关联对象之间的关系图谱;初始确定单元,被配置成确定关联图谱中任意两个直接关联对象之间的初级传导概率;多级确定单元,被配置成基于初级传导概率和关系图谱,确定待测对象的多级传导概率;概率确定单元,被配置成基于源生风险概率和待测对象的多级传导概率,确定待测对象的目标风险概率。
根据第三方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面任一实现方式描述的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面任一实现方式描述的方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面任一实现方式描述的方法。
本公开的实施例提供的风险预测方法和装置,首先,确定待测对象的源生风险概率;其次,构建待测对象与不同关联对象之间的关系图谱;再次,确定关系图谱中任意两个直接关联对象之间的初级传导概率;从次,基于初级传导概率和关系图谱,确定待测对象的多级传导概率;最后,基于源生风险概率和待测对象的多级传导概率,确定待测对象的目标风险概率。本公开首先预测待测对象的源生风险概率,通过利用多个对象之间的关联关系,预测待测对象与各个对象发生多级风险传导的多级传导概率,最后将源生风险概率与多级传导概率结合,预测待测对象未来发生风险的概率,提高了风险预测的准确度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开风险预测方法的一个实施例的流程图;
图2是本公开实施例中确定待测对象的多级传导概率的结构示意图;
图3是本公开训练传导概率模型方法的一个实施例的流程图;
图4是本公开实施例中采用滑动窗口构建传导样本对的一种结构示意图;
图5是根据本公开风险预测装置的一个实施例的结构示意图;
图6是用来实现本公开实施例的风险预测方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
针对现有企业之间关联关系较为复杂,并且企业自身风险与传导风险较难分离的问题,本公开提出了一种风险预测方法,以通过技术手段提升预测企业发生风险的准确性。图1示出了根据本公开风险预测方法的一个实施例的流程100,上述风险预测方法包括以下步骤:
步骤101,确定待测对象的源生风险概率。
本实施例中,源生风险概率是指因对象自身因素(例如经营不善)发生风险的可能性的概率,该源生风险概率基于对象的目标特征计算得到,其中目标特征是表现对象的本质属性的特征,针对不同种类的对象,对象的目标特征表现形式不同,例如,当对象为企业时,对象的目标特征包括:静态特征、动态特征,其中,静态特征用于表征企业的基本属性,例如企业的注册时间,注册资本等,并且静态特征也是不会随时间的变化而发生变化。动态特征指企业随时间变化的特征,例如,在对象为企业时,动态特征可以是企业的雇员个数,企业的规模等。
由于静态特征不会随时间变换,只需在包括所有的企业的基本信息表中,按照企业ID对整个数据表格进行去重,既可以得到静态信息表,将静态信息表输入预先建立的特征工程,得到静态特征。
对企业的基本信息表中按照企业ID分组,每组为每家企业的所有历史更变记录,根据更变时间对每组数据进行排序,获得有序的更变特征。对于各个更变特征,利用时序特征提取方法进行特征的抽取,得到动态特征,其中,时序特征提取方法例如可以包括计算斜率,方差,更变频次等。
可选地,对象的目标特征还可以包括:行为特征,行为特征为对象进行某些操作的特征,例如,在对象为企业时,行为特征为企业投资的公司的数目、金额、比例等。
可选地,可以基于待测对象的基本信息,确定待测对象的源生风险概率。其中,基本信息是对象参与生产活动而表现的信息,基本信息是用于表征待测对象的属性、特征以及社会关系的信息,例如,基本信息包括:待测对象的类型、数量以及待测对象与多个不同对象之间的关系等。
本实施例中,风险预测方法运行于其上的执行主体可以通过多种方式获取待测对象的基本信息,例如,执行主体可以通过有线连接方式或无线连接方式,从数据库服务器中获取存储于其中的基本信息。再例如,用户可以通过与终端通信,获取终端所收集的待测对象的基本信息。
本实施例中,上述基于待测对象的基本信息,确定待测对象的源生风险概率包括:将待测对象的基本信息输入预先训练完成的源生风险模型,得到源生风险模型输出的源生风险概率,其中,源生风险模型用于表征基本信息与源生风险概率之间的对应关系。
本公开的技术方案中,所涉及的对象的基本信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
在本实施例的一些可选实现方式中,上述确定待测对象的源生风险概率,包括:确定待测对象的静态特征、动态特征和行为特征;拼接静态特征、动态特征和行为特征,得到待测对象的目标特征;将目标特征输入预先训练完成的源风险预测模型,得到源风险预测模型输出的源生风险概率,源风险预测模型用于表征目标特征与源生风险概率之间的对应关系。
本可选实现方式中,源风险预测模型可以是通过自动化建模的方式训练得到的模型,自动化建模是一种全自动的机器学习建模方式,内部集成了Knn(K NearestNeighbors,最近邻规则分类算法),Deepctr(Deep Click-Through-Rate,点击通过率算法)等多个不同模型,自动化建模能够自动进行特征的构建,模型的选择与超参搜索,以及模型的集成,可以达到高精度,高性能等要求。源风险预测模型训练过程为:首先将目标特征对应的样本数据导入到自动化建模的平台中,自动化建模平台在内部不同模型训练完成后,对模型进行部署以及选优,得到最优的源风险预测模型。
本可选实现方式中,将静态特征、动态特征以及行为特征进行拼接,构成待测对象的目标特征,基于该目标特征,预测源生风险概率,提高了待测对象源生风险预测的可靠性。
步骤102,构建待测对象与不同关联对象之间的关系图谱。
本实施例中,基于不同对象所在的场景以及各个对象之间互相作用关系不同,可以选取多个与待测对象具有不同关联关系的关系对象,并根据待测对象与所有关联关系之间业务关系,构建待测对象与不同关联对象之间的关系图谱。关系图谱包括多个节点以及节点之间的关联关系,该关联关系基于关系图谱中节点的性质不同而不同,例如,关联关系包括上下级关系。
上述构建待测对象与不同关联对象之间的关系图谱包括:获取待测对象与不同对象的关联关系,基于关联关系建立关联关系表,基于关联关系表构建关系图谱。
本实施例中,关联关系表是用于表征不同对象之间的多种关联关系的表格,对象的种类不同,呈现的关联关系不同。例如,对象为企业,则关联关系表中关联关系可以是担保关系;对象为个人,则关系关联可以是上下级关系。
对象与对象之间常见的关联关系有以下几种:(1)担保关系,被担保对象发生违约,将会对担保对象产生一定影响。另外还存在闭环担保的问题。一旦某个对象发生风险,将会对担保关系圈内的其他对象造成连锁反应。(2)同一个高管关系,同一个高管可能会出现拆东墙补西墙的行为,因此发生风险传导的概率较高。(3)股权关系,母公司发生风险时,可能会对子公司带来不利影响。(4)集团关系,隶属于同一个集团中的多个对象可能会存在一些隐形关系,产生一定的传导概率。(5)供应链关系,对象发生风险后,对其上下游的对象都会造成不利影响。(7)亲属关系:对象的高管可能是亲属,存在个人借贷等关系。
本实施例中,关系图谱的构建步骤包括:1)基于关联关系表,对对象之间的多种关系进行提取,例如担保关系、同一个高管关系、股权关系、集团关系、供应链关系、亲属关系,并不限于上述关系;2)在图数据库中创建实体,例如实体包括多种不同对象。3)根据步骤1)得到的多种关联关系对,一一在图数据库中创建节点关系,生成具有多个节点的关系图谱。
步骤103,确定关系图谱中任意两个直接关联对象之间的初级传导概率。
本实施例中,初级传导概率为有直接关系两个的对象之间因彼此之间的关联关系产生风险的概率,待测对象的初级传导概率是指因关联对象与待测对象的关系,关联对象向待测对象传播风险的概率,即待测对象因受关联对象的影响产生风险的概率,该初始传导概率可以是基于关系图谱中待测对象与各个关联对象之间的不同关联关系而得到的风险概率。
基于待测对象与关联对象的关联关系的类型不同,初级传导概率的值不同,例如,待测对象与一关联对象之间的关联关系为担保关系,待测对象与另一关联对象之间的关联关系为上下级,则待测对象与一关联对象的初级传导概率大于待测对象与另一关联对象的初级传导概率。
需要说明的是,实际情况中,任意两个直接关联对象之间的初级传导概率是在两个直接关联对象之中有一个关联对象在发生风险之后,会向与它相关的关联对象传导风险的传导概率;若两个直接关联对象之中没有任何一个关联对象发生风险,则该两个直接关联对象之间的初级传导概率为0。
步骤104,基于初级传导概率和关系图谱,确定待测对象的多级传导概率。
本实施例中,通过关系图谱,可以确定关系图谱中与待测对象相关的所有对象,该相关的对象可以包括直接关联对象和间接关联对象,而基于待测对象与各个对象之间的初级传导概率,可以进一步计算已发生风向的对象的风险有没有向待测对象进行多级传导,以及因多级传导计算出的多级传导概率。本实施例中,引起待测对象发生风险的对象除了与待测对象直接相关的对象,还可能有与待测对象间接相关的对象,因此多级传导是风险在不同对象之间的连锁反应现象的表现,而多级传导概率用于量化多级传导风险的大小,本实施例中,对象的多级传导概率用于表征关系图谱中直接关联对象之间的风险传导和间接关联对象之间的风险传导对该对象风险的总影响情况。
待测对象的多级传导概率是基于与待测对象直接相关对象的传导风险概率和与待测对象间接相关对象的传导风险概率进行计算得到的值,具体地,当发生风险的对象为待测对象的直接关联对象时,则待测对象的多级传导概率直接通过直接关联对象的初级传导概率计算得到;当发生风险的对象为待测对象的间接关联对象时,需要基于各个间接相关对象的传导风险概率确定风险是否会进过多级对象向待测对象传导,若会发生多级传导则通过待测对象间接相关对象的传导风险概率计算待测对象的多级传导概率,而根据待测对象与多个风险对象之间的风险传导关系,多级传导概率可以是二级传导概率,三级传导概率,四级传导概率等等。
本实施例中,当关系图谱中任意一个对象发生风险后,为了检测待测对象是否有可能被关系图谱中的其他对象传输风险时,可以首先确定与发生风险的对象连接的下级关联对象,再判断与下级关联对象之间的二级传导概率,基于该二级传导概率,再次判断下级对象的风险会不会向下下级关联对象传输,若会传输,计算三级传导概率,进一步,还可以计算大于三级的多级传导概率,直至判断到传输到的对象为待测对象为止,此时得到待测对象的多级传导概率。
上述基于初级传导概率和关系图谱,确定待测对象的多级传导概率,包括:基于关系图谱,检测与待测对象相关的风险对象是否有多个,响应于与待测对象相关的风险对象只有一个(即单边传导)且该风险对象为直接关联对象,确定待测对象的多级传导概率为与该关联对象之间的初级传导概率,其中,风险对象为关系图谱中历史或当前发生风险的对象。
还可能有多个已经发生风险的风险对象向待测对象传导风险(即多边传导),该风险对象可以是待测对象的直接关联对象或间接关联对象或直接关联对象加间接关联对象,针对与多个风险对象存在关联关系的情况,可以以待测对象为终端,找出与该待测对象关联的所有对象,即传导边,将所有传导边的初级传导概率进行融合,得到并联传导概率。在本实施例的一些可选方式中,基于初级传导概率和关系图谱,确定待测对象的多级传导概率包括:基于关系图谱,检测与待测对象相关的风险对象是否有多个;响应于风险对象有多个,基于初级传导概率,计算风险对象的并联传导概率,并联传导概率用于表征风险对象与该风险对象的多个直接关联对象的初级传导概率的融合;基于并联传导概率、关系图谱和预设的多级传导规则确定待测对象的多级传导概率。
本实施例中,待测对象相关的风险对象为关系图谱中发生风险的对象,也即关系图谱中历史或当前发生风险的对象。
本实施例中,多级传导规则包括检测并联传导概率是否大于等于最大预设阈值,若并联传导概率大于预设阈值确定风险可能进行下级传导,确定待测对象会被多级传导,预设阈值可以基于待测对象相关的所有初级传导概率确定(例如选取最大的初级传导概率作为预设的阈值,或者将最大的初级传导概率乘以固定系数最为预设阈值)。
本可选实现方式中,在风险对象为多个时,通过计算并联传导概率确定进一步计算待测对象的多级传导概率,提高了多级传导概率得到的可靠性。
在本实施例的一些可选实现方式中,上述基于并联传导概率、关系图谱和预设的多级传导规则,确定待测对象的多级传导概率,包括:基于并联传导概率、关系图谱和预设的多级传导规则,检测待测对象是否会被多级传导;响应于待测对象会被多级传导,基于并联传导概率,计算待测对象的多级传导概率。
本可选实现方式中,基于并联传导概率与各级对象之间的初级传导概率乘积可以最终确定风险对象的是否风险是否会向待测对象传播,若并联传导概率与各级对象直至待测对象之间的初级传导概率乘积小于一定值,如0.001,确定待测对象不会被多级传导;若并联传导概率与各级对象直至待测对象之间的初级传导概率乘积不小于该值,将并联传导概率与各级对象直至待测对象之间的初级传导概率乘积作为待测对象的多级传导概率。
本可选实现方式提供的确定多级传导概率的方法,首先检测待测对象是否会被多级传导,在确定待测对象会被多级传导之后,计算待测对象的多级传导概率,保证了多级传导概率计算的可靠性。
可选地,当检测到风险对象只与一个关联对象相关,基于风险对象的初级传导概率,检测待测对象是否会被多级传导;响应于待测对象会被多级传导,通过风险对象与待测对象之间所有对象的初始传导概率,计算待测对象的多级传导概率。需要说明的是,可以通过风险对象与各级关联对象之间的初级传导概率的乘积的大小确定待测对象是否会被多级传导,当自风险对象至待测对象之间的所有初始传导概率的乘积已经非常小,确定待测对象不会被多级传导。
在本实施例的一些可选实现方式中,基于并联传导概率、关系图谱和预设的多级传导规则,检测待测对象是否会被多级传导,包括:检测并联传导概率是否满足传导停止条件;响应于并联传导概率不满足传导停止条件,基于并联传导概率、关系图谱和预设的多级传导规则,检测待测对象是否会被多级传导。
在本可选实现方式中,通过传导停止条件约束并联传导概率,保证了多级传导概率的计算的可靠性。
如图2所示,一个关系图谱中与待测对象F相关的关联对象包括:对象A、对象B、对象C、对象G、对象E,其中,待测对象D为待测对象F的直接关联对象,对象A、对象B、对象C、对象G、对象E为待测对象F的间接关联对象,当对象A、对象B、对象C为发生风险的风险对象时,对象A与对象D的初级传导概率为p(ad),对象B与对象D的初级传导概率为p(bd),对象C与对象D的初级传导概率为p(cd),则风险对象的并联传导概率P通过如式(1)计算得到。
P=1/(1+(n+1)p_sum) (1)
在式(1)中,p_sum为与风险对象直接相关的直接关联对象之间的所有初级传导概率的和,n为直接关联对象的个数。在图2中,P(D)=1/(1+4p(ad)+p(bd)+p(cd))。
进一步地,当P(D)、P(G)中的P(D)大于预设阈值,则确定待测对象D可能会发生二级风险传导,其中,P(G)是通过对象G计算得到对象G的并联传导概率,P(G)是通过p(cg)和p(bg)计算得到,此时可以计算得到待测对象F的二级传导概率为:P(df)=P(D)×p(df),其中,p(df)为待测对象F与传播对象D之间初级传导概率。P(G)小于预设阈值,对象G不会再向下传导风险传导,风险也不会通过对象G传递给对象E。
本可选实现方式中,一个待测对象可能与多个对象存在关联关系,以待测对象为终点,找出与之相关的关联对象,并将待测对象与找到的所有关联对象的初级传导概率进行融合。并联传导概率的计算符合单调递增性,即随着传导边(待测对象与各个关联对象的连线)的增加而增加,并且随着传导边的概率总和增加而升高。
并联传导概率的计算包括但不局限于式(1)所示的计算方式,可选地,还可以根据风险对象与每个直接关联对象之间的传导关系重要程度,为各个与风险对象直接相关的直接关联对象之间设置权重值q,通过该权重值和风险对象的直接关联对象的初级传导概率计算并联传导概率。再以图2为例,并联传导概率可以等于q1*p(ad)+q2*p(bd)+q3*p(cd),其中,q1为风险对象A与对象D之间的权重值,q2为风险对象B与对象D之间的权重值,q3为风险对象C与对象D之间的权重值,q1、q2、q3的具体值由不同风险对象与直接关联对象之间的具体传导关系的重要程度确定。
本可选实现方式中,在风险对象与多个关联对象相关时,计算风险对象的并联传导概率,并检测风险对象的并联传导概率是否满足传导停止条件,在不满足传导停止条件时,检测待测对象是否会被多级传导,在会发生多级传导时,计算待测对象的多级传导概率,提高了待测对象多级传导概率计算的可靠性。
在本实施例的另一个可选实现方式中,上述基于初级传导概率和关系图谱,确定待测对象的多级传导概率还包括:响应于并联传导概率满足传导停止条件,在风险对象与待测对象直接相关时,将并联传导概率作为待测对象的多级传导概率。
本可选实现方式中,在并联传导概率满足传导停止条件时,在风险对象与待测对象直接相关时,将并联传导概率作为多级传导概率,保证了待测对象的多级传导风险的停止的有效性。
可选地,对象风险传导还存在链式传导关系,因此对于具有多个风险对象的多个并联传导概率的多级传导关系,可以将多个并联传导概率,按照不同的阈值进行划分,找到最高的阈值。并以该最高阈值决定对应该最高阈值的对象是否作为传导起点进行下一级的传导,计算与之存在关联关系的下级节点的多级传导概率,其中,以起点的并联传导概率乘于待测对象与该下级节点之间的初级传导概率的运算结果作为下级节点的多级传导概率。
步骤105,基于源生风险概率和待测对象的多级传导概率,确定待测对象的目标风险概率。
本实施例中,可以将源生风险概率与多级传导概率进行加权求和,得到待测对象的目标风险概率。
可选地,还可以采用如式(2)所示的融合公式,得到待测对象的目标风险概率。
P(i)=1-(1-Pc)×(1-Py) (2)
在式(2)中,Pc为待测对象的多级传导概率,Py为待测对象的源生风险概率,P(i)为待测对象的目标风险概率。
本公开的实施例提供的风险预测方法,首先,确定待测对象的源生风险概率;其次,构建待测对象与不同关联对象之间的关系图谱;再次,确定关系图谱中任意两个直接关联对象之间的初级传导概率;从次,基于初级传导概率和关系图谱,确定待测对象的多级传导概率;最后,基于源生风险概率和待测对象的多级传导概率,确定待测对象的目标风险概率。本公开首先预测待测对象的源生风险概率,通过利用多个对象之间的关联关系,预测待测对象与各个对象发生多级风险传导的多级传导概率,最后将源生风险概率与多级传导概率结合,预测待测对象未来发生风险的概率,提高了风险预测的准确度。
在本实施例的一些可选实现方式中,上述确定关系图谱中任意两个直接关联对象之间的初级传导概率,包括:基于关系图谱,确定与待测对象相关的所有关联对象;基于与待测对象相关的所有关联对象,确定具有直接关联关系的传导关系对;基于关系图谱,确定传导关系对的传导边特征;将传导关系对、传导边特征输入预训练完成的传导概率模型,得到传导概率模型输出的直接关联对象之间的初级传导概率;传导概率模型用于表征传导关系对、传导关系对的传导边特征两者与初级传导概率之间的对应关系。
本实施例中,传导关系对是指两个具有直接关联关系的两个关联对象形成的传导关系。其中,关联对象可以是关系图谱中与待测对象具有直接关联关系的直接关联对象,也可以是与待测对象具有间接关联关系的间接关联对象。
本可选实现方式中,首先确定与的关联对象,再确定关系图谱中局域直接关联关系的传导关系对,其中,传导关系对为具有风险传导关系的关系对,该关系对中一方为关系谱中的对象,另一方为与该对象具有直接关联关系的直接关联对象;基于关系图谱,确定传导关系对传导边特征,其中,传导边特征用于反映传导关系对之间的风险传导的特征,如,传导边特征为上下级特征。
本实施例中,将传导关系对、传导边特征输入传导概率模型,可以使传导概率模型实时分析,确定该传导边特征的传导关系对之间的初级传导概率。
本可选实现方式中,确定传导关系对的传导边特征,将传导关系对、传导边特征输入预先训练完成的传导概率模型,得到传导概率模型输出的初始传导概率,提高了初始传导概率的得到的精确性。
在本实施例的一些可选实现方式中,上述传导概率模型通过以下步骤训练得到:基于关系图谱,构建传导样本对;为各个传导样本对进行伪标签标注;基于关系图谱,对标签标注后的传导样本对的传导边进行特征处理,得到传导特征关联对,传导特征关联对包括:多个具有伪标签的传导样本对和对应各个传导样本对的传导边特征;基于传导特征关联对,对预先构建的传导概率网络进行训练,得到训练完成的传导概率模型。
本可选实现方式中,传导样本对仅仅表征了两个对象具有关联关系,但是无法说明传导样本对中的两个对象是何种关系,将标签标注后的传导样本对的传导边进行特征处理,为传导样本对增加传导边特征(如担保时长、担保金额等),保证了传导特征关联对的表现的形式的多样性。
本可选实现方式中,采用通过对传导样本进行特征处理后的传导特征关对训练传导概率模型,可以保证训练得到的传导概率模型的预测结果的可靠性。
在本实施例的一些可选实现方式中,上述传导概率模型通过以下步骤训练得到:基于关系图谱,采用滑动窗口构建传导样本对;基于滑动窗口,为各个传导样本对进行伪标签标注;基于关系图谱,对标签标注后的传导样本对的传导边进行特征处理,得到传导特征关联对,传导特征关联对包括:多个具有伪标签的传导样本对和对应各个传导样本对的传导边特征;基于传导特征关联对,对预先构建的传导概率网络进行训练,得到训练完成的传导概率模型。
本可选实现方式中,传导样本对为具有风险传导关系的两个样本,两个样本是关系图谱中的具有关联关系的两个实体。
本可选实现方式中,滑动窗为滑动时间窗,由于风险传导具有明显的时间属性,因此构建传导样本对和为传导样本对进行伪标签标注时,采用滑动时间窗,可以有效地表征传导样本的时间特性,提高了样本构建和标注的可靠性。
本可选实现方式中,采用滑动窗构建传导样本对、为传导样本对进行伪标签标注,提高了样本构建和标注的可靠性。
在本实施例的一些可选实现方式中,基于传导特征关联对,对预先构建的传导概率网络进行训练包括:对传导特征关联对进行修正;基于修正后的传导特征关联对,对预先构建的传导概率网络进行训练。
本可选实现方式中,对传导特征关联对进行修正可以包括:对传导特征关联对中传导样本对进行修正(例如,去除不具有传导关系的传导样本对)和/或对传导样本对的伪标签的进行修正(例如,基于预设设置的传导样本和标签对应关系,更新当前传导样本对的伪标签,使更新后的标签与传导样本和标签对应关系相符)。
本可选实现方式中,对传导特征关联对进行修正,提高了传导特征关联对的得到的可靠性,为训练可靠的传导概率模型提供了可靠的基础。
图3示出了根据本公开训练传导概率模型方法的一个实施例的流程300,上述训练传导概率模型方法包括以下步骤:
步骤301,基于关系图谱,采用滑动窗口构建传导样本对。
本实施例中,由于风险传导具有明显的实现属性,可以采用滑动窗口的形式构建传导样本对,传导样本对为具有风险传导关系的两个样本,两个样本是关系图谱中的具有关联关系的两个实体。
如图4所示,滑动窗口包括:起始期a和传导期b。其中,设置一段时间作为起始期a,例如起始期a为一个月至一个季度之间的时间段,设置起始期a之后的一段时间为传导期b,例如,传导期b为一个季度至半年之间的时间段。构建传导样本对过程如下:固定滑动窗口,选取出在滑动窗口的风险起始期a的样本作为风险起始点,然后根据关系图谱中的关联关系,找出与该样本相关的实体作为终点,起始点与终点形成一个传导样本对。下一步,将滑动窗口向后滑动一段时间t,如一个月到一个季度之间的时间值,再依次构建传导样本对,可以从滑动多次滑动窗口生成的所有的传导样本对中任意选取多个传导样本作为最终构建的传导样本对。
在本实施例的一些可选实现方式中,上述基于关系图谱,采用滑动窗口构建传导样本对,包括:筛选在起始期发生风险的样本作为起始节点;基于关系图谱,确定在传导期与起始节点相关的终止节点;将起始节点与终止节点作为传导样本对。
可选地,还可以滑动窗口设定时间段,再筛选在新的滑动窗口的起始期发生风险的样本作为起始节点;基于关系图谱,确定在新的滑动窗口的传导期与起始节点相关的终止节点;将起始节点与终止节点作为传导样本对。
本可选实现方式中,起始节点为关系图谱中的一个节点,终止节点为关系图谱中的另一个节点,基于关系图谱中多个节点之间的关联关系和滑动窗口,选取具有关联关系的、且分别位于滑动窗口的起始期和传导期的两个节点作为传导样本对,提高了传导样本对选取的可靠性。
步骤302,基于滑动窗口,为各个传导样本对进行伪标签标注。
本实施例中,由于无法准确区分各个对象之间是由那种风险引起的逾期。因此先基于滑动窗口构建对象与对象之间的传导边的伪标签。由于风险传导具有滞后性,因此滑动窗口的终点发生风险传导的日期必须在起始点发生风险后的一段时间内,这段时间可以称为潜伏期。潜伏期可以根据对象特征进行具体地的时间设置,例如潜伏期可以设置为1-6个月之间,但不限于该时间段。若是在该时间段发生风险,则伪标签为1,若是未发生风险,则伪标签记为0。
可选地,还可以将滑动窗口的传导期作为潜伏期,进行伪标签的标注。在本实施例的一些可选实现方式中,上述基于滑动窗口,为各个传导样本对进行伪标签标注,包括:响应于终止节点在传导期发生风险,则为终止节点进行已传导风险的伪标签标注。
可选地,当滑动窗口的终止节点在传导期未发生任何风险,则为终止节点进行未传导风险的伪标签标注。
本可选实现方式中,在终止节点在传导期发生风险,则为终止节点进行已传导风险的伪标签标注,为样本的标签标注提供了可靠基础。
步骤303,基于关系图谱,对标签标注后的传导样本对的传导边进行特征处理,得到传导特征关联对。
其中,传导特征关联对包括:多个具有伪标签的传导样本对和对应各个传导样本对的传导边特征。
本可选实现方式中,传导样本对仅仅表征了两个对象具有关联关系,但是无法说明传导样本对中的两个对象是何种关系,将标签标注后的传导样本对的传导边进行特征处理,为传导样本对增加传导边特征(如担保时长、担保金额等),保证了传导特征关联对的表现的形式的多样性。
步骤304,对传导特征关联对进行修正。
本实施例中,可以采用预先设置的传导边特征与是否引起风险的标签的对应关系表,对应关系表用户表征各个传导边特征与风险发生的对应关系,上述对传导特征关联对进行修改包括:基于对应关系,确定传导特征关联对的风险标签,将确定的风险标签与该传导特征关联对的伪标签进行对比,响应于确定的风险标签与伪标签不同,去除该传导特征关联。
可选地,上述对传导特征关联对进行修改包括:基于对应关系,确定传导特征关联对的风险标签,将确定的风险标签与该传导特征关联对的伪标签进行对比,响应于确定的风险标签与伪标签不同,将该伪标签修改为确定的风险标签。
在本实施例的一些可选实现方式中,上述对传导特征关联对进行修正,包括:将传导特征关联对中各个传导样本对的伪标签与预先得到的概率预测值进行对比,确定两者的差值;对差值进行异常值检测,并去除传导特征关联对中差值异常的传导样本对,得到修正后的传导特征关联对;将概率预测值作为修正后的传导特征关联对的标签。
本可选实现方式中,概率预测值为采用已经预先训练完成的二分类器对传导特征关联对的传导样本对进行二分类得到的值。
本可选实现方式中,将伪标签与概率预测值进行对比,得到修改正后的传导特征关联对,为修正传导特征关联对提供了一种可靠的得到方式。
在本实施例的一些可选实现方式中,通过以下方式获取概率预测值:采用K折交叉验证算法,将传导特征关联对中的一部分传导样本对作为训练集,将传导特征关联对中除该传导样本对之外的传导样本对作为预测集,采用训练集和预测集对二分类器进行训练以及预测,得到传导特征关联对的概率预测值。
本可选实现方式中,将K折交叉验证算法用于传导概率模型调优,找到使得传导概率模型泛化性能最优的超参值,并在全部训练集上重新训练传导概率模型,并使用独立测试集对传导概率模型的性能做出最终评价。采用K折交叉验证的好处为传导概率模型每次迭代过程中每个样本点只有一次被划入训练集或测试集的机会。
本可选实现方式中,首先可以利用K折交叉验证算法,将传导关系对中的k-1(k>1)部分作为训练集,剩余的一份作为预测集,利用二分类器进行训练预测,经过k次校验之后,得到了每个传导关系对的发生风险的概率预测值。将每个传导关系对的伪标签,与其的概率预测值进行对比,得到两者的差值。对伪标签与预测概率的差值进行异常值检测。其中在异常值检测时,对于一维的数据,可以采用三西格玛准则对异常的数据进行检测,标记存在问题的传导关系对。而对于异常的传导关系对,无法准确明确给予正确的标签,因此这类传导关系对作为噪声样本进行剔除。剩余传导关系对以预测的概率值作为标签,代表传导关系对的传导边的初级传导概率。
三西格玛准则又称为拉依达准则,它是先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。
本可选实现方式中,采用K折交叉验证算法,对传导特征关联对进行修正,提高了传导特征关联对以及传导特征关联对的标签得到的可靠性,进一步保证了传导概率模型的训练的可靠性。
在本实施的一些可选实现方式中,对传导特征关联对进行修正还可以包括:将概率预测值作为修正后的传导特征关联对的标签。
本可选实现方式中,直接将概率预测值作为修改正的传导特征关联对的标签,为传导特征关联对的伪标签修正,提供了一个可靠的实现方式。
步骤305,基于修正后的传导特征关联对,对预先构建的传导概率网络进行训练,得到训练完成的传导概率模型。
其中,传导概率模型用于表征传导关系对、传导关系对的传导边特征两者与初级传导概率之间的对应关系。
本实施例中,传导概率模型可以是通过自动化建模的方式训练得到的模型,自动化建模是一种全自动的机器学习建模方式,自动化建模能够自动进行特征的构建,模型的选择与超参搜索,以及模型的集成,可以达到高精度,高性能等要求。传导概率模型训练过程为:首先将修正后的传导特征关联对对应的样本数据导入到自动化建模的平台中,自动化建模平台在内部不同模型训练完成后,对模型进行部署以及选优,得到最优的传导概率模型。
本实施例提供的训练传导概率模型的方法,通过滑动窗口的方式进行为标签标注,对传导特征关联对进行修正,保证了样本的可靠性,提高了传导概率模型预测的准确性。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了风险预测装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可应用于各种电子设备中。
如图5所示,本实施例提供的风险预测装置500包括:源生确定单元501,图谱构建单元502,初始确定单元503,多级确定单元504,概率确定单元505。其中,上述源生确定单元501,可以被配置成确定待测对象的源生风险概率。上述图谱构建单元502,可以被配置成构建待测对象与不同关联对象之间的关系图谱。上述初始确定单元503,被配置成确定关联图谱中任意两个直接关联对象之间的初级传导概率。上述多级确定单元504,被配置成基于初级传导概率和关系图谱,确定待测对象的多级传导概率。上述概率确定单元505,被配置成基于源生风险概率和待测对象的多级传导概率,确定待测对象的目标风险概率。
在本实施例中,风险预测装置500中:源生确定单元501,图谱构建单元502,初始确定单元503,多级确定单元504,概率确定单元505的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104、步骤105的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述多级确定单元504包括:对象检测子单元(图中未示出),并联计算子单元(图中未示出),传导确定子单元(图中未示出)。其中,上述对象检测子单元,可以被配置成基于关系图谱,检测与待测对象相关的风险对象是否有多个,风险对象为关系图谱中历史或当前发生风险的对象。上述并联计算子单元,可以被配置成响应于风险对象有多个,基于初级传导概率,计算风险对象的并联传导概率,并联传导概率用于表征该风险对象的多个直接关联对象的初级传导概率的融合。上述传导确定子单元,可以被配置成基于并联传导概率、关系图谱和预设的多级传导规则,确定待测对象的多级传导概率。
在本实施例的一些可选实现方式中,上述传导确定子单元包括:传导检测模块(图中未示出),计算模块(图中未示出)。其中,上述上述传导检测模块,可以被配置成基于并联传导概率、关系图谱和预设的多级传导规则,检测待测对象是否会被多级传导。上述计算模块,可以被配置成响应于待测对象会被多级传导,基于并联传导概率,计算待测对象的多级传导概率。
在本实施例的一些可选实现方式中,上述传导检测模块包括:检测子模块(图中未示出),传导子模块(图中未示出)。其中,上述检测子模块,可以被配置成检测并联传导概率是否满足传导停止条件。上述传导子模块,可以被配置成响应于并联传导概率不满足传导停止条件,基于并联传导概率、关系图谱和预设的多级传导规则,检测待测对象是否会被多级传导。
在本实施例的一些可选的实现方式中,上述多级确定单元504还包括:概率作为模块(图中未示出)。其中,上述概率作为模块,可以被配置成响应于并联传导概率满足传导停止条件,在风险对象与待测对象直接相关时,将并联传导概率作为待测对象的多级传导概率。
在本实施例的一些可选的实现方式中,上述初始确定单元503包括:对象确定模块(图中未示出)、关系确定模块(图中未示出)、边特征确定模块(图中未示出)、输入模块(图中未示出)。其中,上述对象确定模块,可以被配置成基于关系图谱,确定与待测对象相关的所有关联对象。上述关系确定模块,可以被配置成基于与待测对象相关的所有关联对象,确定具有直接关联关系的传导关系对。上述边特征确定模块,可以被配置成基于关系图谱,确定传导关系对的传导边特征。上述输入模块,可以被配置成将传导关系对、传导边特征输入预训练完成的传导概率模型,得到传导概率模型输出的直接关联对象之间的初级传导概率;传导概率模型用于表征传导关系对、传导关系对的传导边特征两者与初级传导概率之间的对应关系。
在本实施例的一些可选实现方式中,上述传导概率模型采用以下单元训练得到:样本构建单元(图中未示出)、标注单元(图中未示出)、处理单元(图中未示出)、训练单元(图中未示出)。其中,上述样本构建单元,可以被配置成基于关系图谱,构建传导样本对。上述标注单元,可以被配置成为各个传导样本对进行伪标签标注。上述处理单元,可以被配置成基于关系图谱,对标签标注后的传导样本对的传导边进行特征处理,得到传导特征关联对,传导特征关联对包括:多个具有伪标签的传导样本对和对应各个传导样本对的传导边特征。上述训练单元,可以被配置成基于传导特征关联对,对预先构建的传导概率网络进行训练,得到训练完成的传导概率模型。
在本实施例的一些可选实现方式中,上述样本构建单元进一步被配置成基于关系图谱,采用滑动窗口构建传导样本对;上述标注单元进一步被配置成基于滑动窗口,为各个传导样本对进行伪标签标注。
在本实施例的一些可选实现方式中,上述滑动窗口包括:起始期和传导期;上述样本构建单元包括:筛选模块(图中未示出),节点确定模块(图中未示出),样本作为模块(图中未示出)。其中,上述筛选模块,可以被配置成筛选在起始期发生风险的样本作为起始节点。上述节点确定模块,可以被配置成基于关系图谱,确定在传导期与起始节点相关的终止节点。上述样本作为模块,可以被配置成将起始节点与终止节点作为传导样本对。上述标注单元进一步被配置成:在终止节点在传导期发生风险时,为终止节点进行已传导风险的伪标签标注。
在本实施例的一些可选实现方式中,上述训练单元包括:修正模块(图中未示出),训练模块(图中未示出)。其中,上述修正模块,可以被配置成对传导特征关联对进行修正。上述训练模块,可以被配置成于修正后的传导特征关联对,对预先构建的传导概率网络进行训练。
在本实施例的一些可选实现方式中,上述修正模块包括:对比子模块(图中未示出),异常检测子模块(图中未示出)。其中,上述对比子模块,可以被配置成将传导特征关联对中各个传导样本对的伪标签与预先得到的概率预测值进行对比,确定两者的差值。上述异常检测子模块,可以被配置成对差值进行异常值检测,并去除传导特征关联对中差值异常的传导样本对,得到修正后的传导特征关联对。
在本实施例的一些可选实现方式中,可以通过预测单元(图中未示出)获取概率预测值:上述预测单元,可以被配置成将传导特征关联对中对应的一部分传导样本对作为训练集,将传导特征关联对中对应的除该部分传导样本对之外的传导样本对作为预测集,并采用训练集和预测集对二分类器进行训练以及预测,得到概率预测值。
上述修正模块进一步可以被配置成将概率预测值作为修正后的传导特征关联对的标签。
在本实施例的一些可选实现方式中,上述源生确定单元505包括:特征确定模块(图中未示出),拼接模块(图中未示出),概率得到模块(图中未示出)。其中,上述特征确定模块,可以被配置成确定待测对象的静态特征、动态特征和行为特征。上述拼接模块,可以被配置成拼接静态特征、动态特征以及行为特征,得到待测对象的目标特征。上述概率得到模块,可以被配置成将目标特征输入预先训练完成的源风险预测模型,得到源风险预测模型输出的源生风险概率,源风险预测模型用于表征目标特征与源生风险概率之间的对应关系。
本公开的实施例提供的风险预测装置,首先,源生确定单元501确定待测对象的源生风险概率;其次,图谱构建单元502构建待测对象与不同关联对象之间的关系图谱;再次,初始确定单元503确定关系图谱中任意两个直接关联对象之间的初级传导概率;从次,多级确定单元504基于初级传导概率和关系图谱,确定待测对象的多级传导概率;最后,概率确定单元505基于源生风险概率和待测对象的多级传导概率,确定待测对象的目标风险概率。本公开首先预测待测对象的源生风险概率,通过利用多个对象之间的关联关系,预测待测对象与各个对象发生多级风险传导的多级传导概率,最后将源生风险概率与多级传导概率结合,预测待测对象未来发生风险的概率,提高了风险预测的准确度。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如风险预测方法。例如,在一些实施例中,风险预测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的风险预测方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行风险预测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程风险预测装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (25)

1.一种风险预测方法,所述方法包括:
确定待测对象的源生风险概率;
构建所述待测对象与不同关联对象之间的关系图谱;
确定所述关系图谱中任意两个直接关联对象之间的初级传导概率;
基于所述初级传导概率和所述关系图谱,确定所述待测对象的多级传导概率;
基于所述源生风险概率和所述待测对象的多级传导概率,确定所述待测对象的目标风险概率。
2.根据权利要求1所述的方法,其中,所述基于所述初级传导概率和所述关系图谱,确定所述待测对象的多级传导概率包括:
基于所述关系图谱,检测与所述待测对象相关的风险对象是否有多个,所述风险对象为所述关系图谱中历史或当前发生风险的对象;
响应于所述风险对象有多个,基于所述初级传导概率,计算所述风险对象的并联传导概率,所述并联传导概率用于表征所述风险对象与该风险对象的多个直接关联对象的初级传导概率的融合;
基于所述并联传导概率、所述关系图谱和预设的多级传导规则,确定所述待测对象的多级传导概率。
3.根据权利要求2所述的方法,其中,基于所述并联传导概率、所述关系图谱和预设的多级传导规则,确定所述待测对象的多级传导概率,包括:
基于所述并联传导概率、所述关系图谱和预设的多级传导规则,检测所述待测对象是否会被多级传导;
响应于所述待测对象会被多级传导,基于所述并联传导概率,计算所述待测对象的多级传导概率。
4.根据权利要求3所述的方法,其中,所述基于所述并联传导概率、所述关系图谱和预设的多级传导规则,检测所述待测对象是否会被多级传导,包括:
检测所述并联传导概率是否满足传导停止条件;
响应于所述并联传导概率不满足传导停止条件,基于所述并联传导概率、所述关系图谱和预设的多级传导规则,检测所述待测对象是否会被多级传导。
5.根据权利要求2所述的方法,其中,
所述基于所述初级传导概率和所述关系图谱,确定所述待测对象的多级传导概率还包括:
响应于所述并联传导概率满足传导停止条件,在所述风险对象与所述待测对象直接相关时,将所述并联传导概率作为所述待测对象的多级传导概率。
6.根据权利要求1所述的方法,其中,所述确定关系图谱中任意两个直接关联对象之间的初级传导概率,包括:
基于所述关系图谱,确定与所述待测对象相关的所有关联对象;
基于与所述待测对象相关的所有关联对象,确定具有直接关联关系的传导关系对;
基于所述关系图谱,确定所述传导关系对的传导边特征;
将所述传导关系对、所述传导边特征输入预训练完成的传导概率模型,得到所述传导概率模型输出的直接关联对象之间的初级传导概率;所述传导概率模型用于表征传导关系对、所述传导关系对的传导边特征两者与初级传导概率之间的对应关系。
7.根据权利要求6所述的方法,其中,所述传导概率模型通过以下步骤训练得到:
基于关系图谱,构建传导样本对;
为各个传导样本对进行伪标签标注;
基于所述关系图谱,对标签标注后的传导样本对的传导边进行特征处理,得到传导特征关联对,所述传导特征关联对包括:多个具有伪标签的传导样本对和对应各个传导样本对的传导边特征;
基于所述传导特征关联对,对预先构建的传导概率网络进行训练,得到训练完成的传导概率模型。
8.根据权利要求7所述的方法,其中,
所述基于关系图谱,构建传导样本对,包括:
基于所述关系图谱,采用滑动窗口构建所述传导样本对;
所述为各个传导样本对进行伪标签标注,包括:
基于所述滑动窗口,为各个传导样本对进行伪标签标注。
9.根据权利要求8所述的方法,其中,所述滑动窗口包括:起始期和传导期;基于所述关系图谱,采用滑动窗口构建所述传导样本对,包括:
筛选在所述起始期发生风险的样本作为起始节点;
基于关系图谱,确定在所述传导期与所述起始节点相关的终止节点;
将所述起始节点与所述终止节点作为传导样本对;
基于所述滑动窗口,为各个传导样本对进行伪标签标注,包括:
响应于所述终止节点在所述传导期发生风险,则为所述终止节点进行已传导风险的伪标签标注。
10.根据权利要求7所述的方法,其中,所述基于所述传导特征关联对,对预先构建的传导概率网络进行训练包括:
对所述传导特征关联对进行修正;
基于修正后的传导特征关联对,对预先构建的传导概率网络进行训练。
11.根据权利要求10所述的方法,其中,所述对所述传导特征关联对进行修正,包括:
将所述传导特征关联对中的各个传导样本对的伪标签与预先得到的概率预测值进行对比,确定两者的差值;
对所述差值进行异常值检测,并去除所述传导特征关联对中差值异常的传导样本对,得到修正后的传导特征关联对。
12.根据权利要求11所述的方法,其中,通过以下方式获取所述概率预测值:
将所述传导特征关联对中对应的一部分传导样本对作为训练集,将所述传导特征关联对中对应的除该部分传导样本对之外的传导样本对作为预测集,并采用所述训练集和所述预测集对二分类器进行训练以及预测,得到所述概率预测值。
13.根据权利要求11所述的方法,其中,所述对所述传导特征关联对进行修正,还包括:
将所述概率预测值作为所述修正后的传导特征关联对的标签。
14.根据权利要求1-13之一所述的方法,其中,所述确定待测对象的源生风险概率,包括:
确定所述待测对象的静态特征、动态特征和行为特征;
拼接所述静态特征、所述动态特征以及所述行为特征,得到所述待测对象的目标特征;
将所述目标特征输入预先训练完成的源风险预测模型,得到所述源风险预测模型输出的源生风险概率,所述源风险预测模型用于表征目标特征与源生风险概率之间的对应关系。
15.一种风险预测装置,所述装置包括:
源生确定单元,被配置成确定待测对象的源生风险概率;
图谱构建单元,被配置成构建所述待测对象与不同关联对象之间的关系图谱;
初始确定单元,被配置成确定所述关联图谱中任意两个直接关联对象之间的初级传导概率;
多级确定单元,被配置成基于所述初级传导概率和所述关系图谱,确定所述待测对象的多级传导概率;
概率确定单元,被配置成基于所述源生风险概率和所述待测对象的多级传导概率,确定所述待测对象的目标风险概率。
16.根据权利要求15所述的装置,其中,所述多级确定单元包括:
对象检测子单元,被配置成基于所述关系图谱,检测与所述待测对象相关的风险对象是否有多个,所述风险对象为所述关系图谱中历史或当前发生风险的对象;
并联计算子单元,被配置成响应于所述风险对象有多个,基于所述初级传导概率,计算所述风险对象的并联传导概率,所述并联传导概率用于表征该风险对象的多个直接关联对象的初级传导概率的融合;
传导确定子单元,被配置成基于所述并联传导概率、所述关系图谱和预设的多级传导规则,确定所述待测对象的多级传导概率。
17.根据权利要求16所述的装置,其中,所述传导确定子单元包括:
传导检测模块,被配置成基于所述并联传导概率、所述关系图谱和预设的多级传导规则,检测所述待测对象是否会被多级传导;
计算模块,被配置成响应于所述待测对象会被多级传导,基于所述并联传导概率,计算所述待测对象的多级传导概率。
18.根据权利要求17所述的装置,其中,所述传导检测模块包括:
检测子模块,被配置成检测所述并联传导概率是否满足传导停止条件;
传导子模块,被配置成响应于所述并联传导概率不满足传导停止条件,基于所述并联传导概率、所述关系图谱和预设的多级传导规则,检测所述待测对象是否会被多级传导。
19.根据权利要求16所述的装置,其中,所述多级确定单元还包括:
概率作为模块,被配置成响应于所述并联传导概率满足传导停止条件,在所述风险对象与所述待测对象直接相关时,将所述并联传导概率作为所述待测对象的多级传导概率。
20.根据权利要求15所述的装置,其中,所述初始确定单元包括:
对象确定模块,被配置成基于所述关系图谱,确定与所述待测对象相关的所有关联对象;
关系确定模块,被配置成基于与所述待测对象相关的所有关联对象,确定具有直接关联关系的传导关系对;
边特征确定模块,被配置成基于所述关系图谱,确定所述传导关系对的传导边特征;
输入模块,被配置成将所述传导关系对、所述传导边特征输入预训练完成的传导概率模型,得到所述传导概率模型输出的直接关联对象之间的初级传导概率;所述传导概率模型用于表征传导关系对、所述传导关系对的传导边特征两者与初级传导概率之间的对应关系。
21.根据权利要求20所述的装置,其中,所述传导概率模型采用以下单元训练得到:
样本构建单元,被配置成基于关系图谱,构建传导样本对;
标注单元,被配置成为各个传导样本对进行伪标签标注;
处理单元,被配置成基于所述关系图谱,对标签标注后的传导样本对的传导边进行特征处理,得到传导特征关联对,所述传导特征关联对包括:多个具有伪标签的传导样本对和对应各个传导样本对的传导边特征;
训练单元,被配置成基于所述传导特征关联对,对预先构建的传导概率网络进行训练,得到训练完成的传导概率模型。
22.根据权利要求21所述的装置,其中,所述样本构建单元进一步被配置成基于所述关系图谱,采用滑动窗口构建所述传导样本对;
所述标注单元进一步被配置成基于所述滑动窗口,为各个传导样本对进行伪标签标注。
23.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-14中任一项所述方法。
25.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-14中任一项所述的方法。
CN202210369111.4A 2022-04-08 2022-04-08 风险预测方法和装置、电子设备、计算机可读存储介质 Pending CN114676927A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210369111.4A CN114676927A (zh) 2022-04-08 2022-04-08 风险预测方法和装置、电子设备、计算机可读存储介质
US18/169,727 US20230196245A1 (en) 2022-04-08 2023-02-15 Method and apparatus for predicting risk, electronic device, computer readable storage medium
EP23163131.8A EP4258193A1 (en) 2022-04-08 2023-03-21 Method and apparatus for predicting risk, electronic device, computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210369111.4A CN114676927A (zh) 2022-04-08 2022-04-08 风险预测方法和装置、电子设备、计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114676927A true CN114676927A (zh) 2022-06-28

Family

ID=82078650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210369111.4A Pending CN114676927A (zh) 2022-04-08 2022-04-08 风险预测方法和装置、电子设备、计算机可读存储介质

Country Status (3)

Country Link
US (1) US20230196245A1 (zh)
EP (1) EP4258193A1 (zh)
CN (1) CN114676927A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115115257A (zh) * 2022-07-15 2022-09-27 广东粤财金融云科技股份有限公司 一种基于关系图谱的企业风险预警方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017174405A (ja) * 2016-03-24 2017-09-28 富士通株式会社 オープンデータ及び臨床医の入力を用いて患者の治療リスクを評価するシステム及び方法
CN110717824A (zh) * 2019-10-17 2020-01-21 北京明略软件系统有限公司 基于知识图谱的银行对公客群风险传导测算的方法及装置
US20200202428A1 (en) * 2017-12-15 2020-06-25 Alibaba Group Holding Limited Graphical structure model-based credit risk control
CN111784488A (zh) * 2020-06-28 2020-10-16 中国工商银行股份有限公司 企业资金风险预测方法及装置
CN112364182A (zh) * 2020-12-09 2021-02-12 交通银行股份有限公司 基于图特征的企业风险传导预测方法、设备及存储介质
CN113516553A (zh) * 2021-07-28 2021-10-19 中国建设银行股份有限公司 信用风险的预警方法及装置
CN114048330A (zh) * 2021-11-29 2022-02-15 平安银行股份有限公司 风险传导概率知识图谱生成方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017174405A (ja) * 2016-03-24 2017-09-28 富士通株式会社 オープンデータ及び臨床医の入力を用いて患者の治療リスクを評価するシステム及び方法
US20200202428A1 (en) * 2017-12-15 2020-06-25 Alibaba Group Holding Limited Graphical structure model-based credit risk control
CN110717824A (zh) * 2019-10-17 2020-01-21 北京明略软件系统有限公司 基于知识图谱的银行对公客群风险传导测算的方法及装置
CN111784488A (zh) * 2020-06-28 2020-10-16 中国工商银行股份有限公司 企业资金风险预测方法及装置
CN112364182A (zh) * 2020-12-09 2021-02-12 交通银行股份有限公司 基于图特征的企业风险传导预测方法、设备及存储介质
CN113516553A (zh) * 2021-07-28 2021-10-19 中国建设银行股份有限公司 信用风险的预警方法及装置
CN114048330A (zh) * 2021-11-29 2022-02-15 平安银行股份有限公司 风险传导概率知识图谱生成方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
蒋国萍, 陈英武: "基于面向对象贝叶斯网络的软件项目风险评估", 系统工程与电子技术, no. 02, 20 February 2005 (2005-02-20) *
谭波;滕光进;王浩;: "基于大数据的客户关联关系及风险预警研究", 清华金融评论, no. 08, 5 August 2017 (2017-08-05) *
黄炜;周骏;冯云青;李丽;金杨一叶;王天蓝;: "知识图谱在商业银行风险管理中的应用", 信息技术与标准化, no. 05, 10 May 2020 (2020-05-10) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115115257A (zh) * 2022-07-15 2022-09-27 广东粤财金融云科技股份有限公司 一种基于关系图谱的企业风险预警方法及系统

Also Published As

Publication number Publication date
EP4258193A1 (en) 2023-10-11
US20230196245A1 (en) 2023-06-22

Similar Documents

Publication Publication Date Title
TWI726341B (zh) 樣本屬性評估模型訓練方法、裝置、伺服器及儲存媒體
US8533537B2 (en) Technology infrastructure failure probability predictor
US8230268B2 (en) Technology infrastructure failure predictor
US8676726B2 (en) Automatic variable creation for adaptive analytical models
US8359284B2 (en) Organization-segment-based risk analysis model
US11562372B2 (en) Probabilistic feature engineering technique for anomaly detection
CN111199474B (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN111222976B (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
EP2625628A2 (en) Probabilistic data mining model comparison engine
CN110334208B (zh) 基于贝叶斯信念网络的lkj故障预测诊断方法和系统
WO2023246146A1 (zh) 基于优化规则决策树的目标安全识别方法及装置
US11263224B2 (en) Identifying and scoring data values
EP4258193A1 (en) Method and apparatus for predicting risk, electronic device, computer readable storage medium
CN110889493A (zh) 针对关系网络添加扰动的方法及装置
CN113392920A (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN115391160B (zh) 一种异常变更检测方法、装置、设备及存储介质
CN114741433B (zh) 一种社群挖掘方法、装置、设备及存储介质
WO2023011093A1 (zh) 任务模型的训练方法、装置、电子设备及存储介质
CN107424026A (zh) 商家信誉评价方法和装置
US20190065987A1 (en) Capturing knowledge coverage of machine learning models
KR102320787B1 (ko) 기업 데이터 수집 기반 기업 등급 자동 산출 방법, 장치 및 시스템
CN115545481A (zh) 一种风险等级确定方法、装置、电子设备及存储介质
CN111797994B (zh) 一种风险评估方法、装置、设备及存储介质
CN114358288B (zh) 生成知识图谱的方法、信息推荐方法、装置及电子设备
WO2023045311A1 (zh) 资源的拓扑还原方法、装置、服务器和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination