CN112199510A - 一种欺诈概率确定方法、装置、电子设备及存储介质 - Google Patents
一种欺诈概率确定方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112199510A CN112199510A CN202010981746.0A CN202010981746A CN112199510A CN 112199510 A CN112199510 A CN 112199510A CN 202010981746 A CN202010981746 A CN 202010981746A CN 112199510 A CN112199510 A CN 112199510A
- Authority
- CN
- China
- Prior art keywords
- entity
- fraud
- risk
- determining
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种欺诈概率确定方法、装置、电子设备及存储介质。该方法包括:根据已知标签实体集和未知标签实体集中不同实体之间的关系,确定知识图谱;基于知识图谱,根据已知标签实体集得到新的已知标签实体,并根据新的已知标签实体对已知标签实体集和未知标签实体集和知识图谱进行更新;确定欺诈路径,并根据欺诈路径确定目标类型实体的结构向量信息;根据更新后的已知标签实体集以及目标类型实体的特征向量信息和结构向量信息,确定目标类型实体的欺诈概率。通过运行本发明实施例所提供的技术方案,可以解决由于欺诈是极小概率事件,存在样本不足,信息甄别滞后的问题,实现提高欺诈概率确定的准确性和效率的效果。
Description
技术领域
本发明实施例涉及计算机技术,尤其涉及一种欺诈概率确定方法、装置、电子设备及存储介质。
背景技术
金融行业随着互联网+的发展,线上业务快速发展,金融支付手段不断创新,给客户带来的极致的金融体验,实现便捷、高效、快速金融产品体验,但是与此同时也给欺诈分子可乘之机,欺诈风险日益严峻。
现有技术中,往往基于已有的欺诈风险数据,在知识图谱中进行欺诈标识,并根据已有标识数据进行风险传播分析及预测,然而由于欺诈是极小概率事件,往往存在样本不足,信息甄别滞后等问题。
发明内容
本发明实施例提供一种欺诈概率确定方法、装置、电子设备及存储介质,以实现提高欺诈概率确定的准确性和效率。
第一方面,本发明实施例提供了一种欺诈概率确定方法,该方法包括:
根据已知标签实体集和未知标签实体集中不同实体之间的关系,确定知识图谱;
基于所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体,并根据所述新的已知标签实体对所述已知标签实体集和所述未知标签实体集和所述知识图谱进行更新;
确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径,并根据所述欺诈路径确定所述目标类型实体的结构向量信息;
根据所述更新后的已知标签实体集以及所述目标类型实体的特征向量信息和所述结构向量信息,确定所述目标类型实体的欺诈概率。
第二方面,本发明实施例还提供一种欺诈概率确定装置,该装置包括:
知识图谱确定模块,用于根据已知标签实体集和未知标签实体集中不同实体之间的关系,确定知识图谱;
知识图谱更新模块,用于基于所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体,并根据所述新的已知标签实体对所述已知标签实体集和所述未知标签实体集和所述知识图谱进行更新;
结构向量信息确定模块,用于确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径,并根据所述欺诈路径确定所述目标类型实体的结构向量信息;
欺诈概率确定模块,用于根据所述更新后的已知标签实体集以及所述目标类型实体的特征向量信息和所述结构向量信息,确定所述目标类型实体的欺诈概率。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的欺诈概率确定方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的欺诈概率确定方法。
本发明实施例通过根据已知标签实体集和未知标签实体集中不同实体之间的关系,确定知识图谱;基于所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体,并根据所述新的已知标签实体对所述已知标签实体集和所述未知标签实体集和所述知识图谱进行更新;确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径,并根据所述欺诈路径确定所述目标类型实体的结构向量信息;根据所述更新后的已知标签实体集以及所述目标类型实体的特征向量信息和所述结构向量信息,确定所述目标类型实体的欺诈概率。解决由于欺诈是极小概率事件,存在样本不足,信息甄别滞后的问题,实现提高欺诈概率确定的准确性和效率的效果。
附图说明
图1为本发明实施例一提供的一种欺诈概率确定方法的流程图;
图2为本发明实施例二提供的一种欺诈概率确定方法的流程图;
图3为本发明实施例三提供的一种欺诈概率确定装置的结构示意图;
图4为本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种欺诈概率确定方法的流程图,本实施例可适用于从获取的数据中识别出欺诈信息的情况,该方法可以由本发明实施例所提供的欺诈概率确定装置来执行,该装置可以由软件和/或硬件的方式实现。参见图1,本实施例提供的欺诈概率确定方法,包括:
步骤110、根据已知标签实体集和未知标签实体集中不同实体之间的关系,确定知识图谱。
其中,已知标签实体集为已知标签的实体构成的集合,未知标签实体集为未知标签的实体构成的集合,标签可以为是否与欺诈相关,若相关则标签为正,若不相关则标签为负,本实施例对此不作限制。
可以对指定数据类型进行采集以获取已知标签实体集和未知标签实体集。以银行为例,采集的数据可以包括银行内外部数据,包括:内部的客户基本信息、客户资产信息、客户负债信息、客户内部风险评价数据、客户资金行为数据、客户渠道行为数据等。以及银行外部数据,包括:外部资信信息,如工商数据、征信报告数据等,外部风险关联数据,如学历、亲属关系、社交关系等。
通过从采集的数据中获取的实体以及实体之间的关联关系,并确定数据中的实体是否与欺诈行为相关或不相关,若确定则实体为已知标签实体集中的成员,若不确定则实体为未知标签实体集中的成员,根据已知标签实体集和未知标签实体集中不同实体之间的关系构建知识图谱。
本实施例中,可选的,所述知识图谱为多源异构知识图谱。
其中,多源为数据来源为多种,例如数据源可以为数据库等结构化数据或者文档等非结构化数据,本实施例对此不作限制。
异构为实体类型以及实体与实体之间的关系的类型不唯一。以金融场景为例,实体类型可以包括:个人、企业、账户、设备、位置、联系电话、IP、GPS、渠道(网银、手机银行、微信、网站)、机构、邮箱等;
实体与实体之间的关系的类型可以包括:人与人关系,如亲属、同事等;人与企业关系,如法人、董监高、投资、股东、担保等;企业与企业的关系,如投资、担保等;资金关系,如转账、取现、消费等;行为关系,如登录关系、持有关系等;开户关系,营销及开户关系等。
多源异构知识图谱具有以下特征:
1.异构性:不同类型的实体不同结构,实体的属性空间也不同,数据处理上保留不同构节点的特征,体现不同属性空间的关系特征。
2.语义注意力:异构图中的一个基本结构是元路径结构,对于某个具体任务,不同元路径表达的语义不同,因此对任务的贡献也不同。
3、实体注意力:实体重要性定义,实体多样,邻居实体中包括噪声邻居,针对不同任务,邻居实体的重要性也会有所差异。
通过构建多源异构知识图谱保留了真实世界的客观全貌,实体关系具备例如法人等静态特征与例如登录等动态特征,提高了知识图谱涵盖信息的全面性,从而提高后续欺诈概率确定的准确性。
步骤120、基于所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体,并根据所述新的已知标签实体对所述已知标签实体集和所述未知标签实体集和所述知识图谱进行更新。
根据已知标签实体集确定未知标签实体集中至少一个未知标签实体的标签,并将确定的标签的原未知标签实体从未知标签实体集中作为新的已知标签实体加入已知标签实体集,以更新已知标签实体集、未知标签实体集和知识图谱。
步骤130、确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径,并根据所述欺诈路径确定所述目标类型实体的结构向量信息。
其中,目标类型实体类型为指定的模板实体类型,本实施例中,可选的,所述目标类型实体为企业类型实体。通过对企业类型实体的分析获取企业的欺诈概率,以便针对企业进行欺诈处理。
其中,目标类型实体与其他实体的类型可以相同也可以不同,示例性的,可以为企业与个人之间的欺诈路径,也可以为企业A与企业B之间的欺诈路径。欺诈路径为可能发生欺诈行为的路径。
示例性的,欺诈路径可以包括(企业1)<-[法人]-(个人)-[法人]->(企业2),即企业1和企业2的法人为同一个个人。
欺诈路径为(企业1)-[法人/经理]-(个人)-[夫妻/亲戚]-(个人)-[法人/经理]-(企业2),即企业1和企业2的法人或经理之间存在夫妻关系或亲戚关系。每个实体可能关联不同种类和不止一条欺诈路径,也可能不关联欺诈路径,欺诈路径用于判断实体的欺诈概率,若实体在知识图谱中实际关联的欺诈路径越多,则实体的欺诈概率越大。根据目标类型实体实际关联的欺诈路径的信息确定目标类型实体的结构向量信息。其中结构向量信息用于以向量的形式表示目标类型实体关联的欺诈路径的信息。
本实施例中可选的,确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径,并根据所述欺诈路径确定所述目标类型实体的结构向量信息,包括:
根据预先定义的候选欺诈路径策略,在更新后的知识图谱中随机游走,确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径;
将所述欺诈路径输入词向量产生模型,确定所述目标类型实体的结构向量信息。
其中,预先定义的候选欺诈路径策略,为定义的可能与欺诈行为相关的策略,候选欺诈路径策略为可能的欺诈路径形式,可以由专家经验确定,本实施例对此不作限制。
根据预先定义的候选欺诈路径策略,在更新后的知识图谱中随机游走,确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径,示例性的,关于目标类型实体的候选欺诈路径策略有10种,通过在更新后的知识图谱中随机游走,获取3条目标类型实体与其他实体之间的符合候选欺诈路径策略的欺诈路径。
将欺诈路径输入词向量产生模型,确定所述目标类型实体的结构向量信息。词向量产生模型用于以向量的形式体现实体关联的欺诈信息。可选的,词向量产生模型为Skip-gram模型。
将欺诈路径转化为向量信息输入词向量产生模型,获取结构向量信息。示例性的,若实体符合策略,则标记实体的与该条策略相同的欺诈路径为1,实体符合不符合策略,则标记实体的与该条策略相同的欺诈路径为0,例如路径策略为5条,转换为向量信息,例如[0,1,0,0,0],输入词向量产生模型,获取结构向量信息。将欺诈路径输入词向量产生模型使得知识图谱中的欺诈信息能被包含在一个相对低维的空间向量中,提高后续欺诈概率确定的效率。
本实施例中,可选的,获取预先定义的候选欺诈路径策略,包括:
获取所述更新后知识图谱的已知标签实体中目标标签类型的实体之间的路径关系,并将所述目标标签类型的实体之间的路径关系确定为预先定义的候选欺诈路径策略。
目标标签类型可以为负标签,则获取更新后知识图谱的已知标签实体中目标标签类型的实体之间的路径关系为获取负标签的两个实体之间的路径关系,将所有负标签的两个实体之间的路径关系作为预先定义的候选欺诈路径策略,以扩充预先定义的候选欺诈路径策略的范围,从而提高欺诈概率确定的准确率。并且不完全以专家经验为依托,保证候选欺诈路径策略定义的客观性,增加发现符合未知欺诈路径策略的欺诈信息的可能性。
步骤140、根据所述更新后的已知标签实体集以及所述目标类型实体的特征向量信息和所述结构向量信息,确定所述目标类型实体的欺诈概率。
其中,目标类型实体的特征向量信息为目标类型实体自身相关的信息,以向量的形式体现,示例性的特征信息V(v1,v2…vn)中每个元素代表一种特征的属性值,例如v1代表企业的规模,例如注册资金是500w,则为500。
结构向量信息G(g1,g2,g3,……gn)中每个元素代表与欺诈路径相关的信息,例如g1代表目标类型实体与其他实体之间的欺诈路径1的情况,若存在欺诈路径1,则获得0-1之间的值,若不存在则为0。可以将实体的特征向量信息和结构向量信息以及已知标签实体集的标签信息输入图卷积神经网络等图神经网络模型,通过图卷积神经网络的层层迭代,最开始的时候,每个实体包含了直接邻居的信息,再计算第二层时就能把邻居的邻居的信息包含进来,这样参与运算的信息就更多更充分,层数越多,感受域就更广,参与运算的信息就更多。对更新后的未知标签实体集进行学习,预测未知标签实体集中目标类型实体的欺诈概率。
具体可以通过如下步骤,预测目标类型实体的欺诈概率:
1、根据图神经网络模型的层级结构进行层级扩散,一层一层抽取特征;
2、通过非线性变换,增加图神经网络模型的表达能力;
3、对图神经网络模型在图域上进行自然推广,能同时对目标类型实体的特征向量信息和结构向量信息进行端对端学习。
通过图卷积神经网络的层层迭代,使用更新后已知标签实体集中的正负样本,充分融合图拓扑、多种关系属性权重、实体的特征向量信息和结构向量信息,对更新后的未知标签实体集进行学习,预测未知标签实体集中目标类型实体的欺诈概率,欺诈概率越高,可能发生欺诈行为的可能性越大。
本实施例所提供的技术方案,通过根据已知标签实体集和未知标签实体集中不同实体之间的关系,确定知识图谱;基于所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体,并根据所述新的已知标签实体对所述已知标签实体集和所述未知标签实体集和所述知识图谱进行更新;确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径,并根据所述欺诈路径确定所述目标类型实体的结构向量信息;根据所述更新后的已知标签实体集以及所述目标类型实体的特征向量信息和所述结构向量信息,确定所述目标类型实体的欺诈概率。解决由于欺诈是极小概率事件,存在样本不足,信息甄别滞后的问题,实现提高欺诈概率确定的准确性和效率的效果。
实施例二
图2为本发明实施例二提供的一种欺诈概率确定方法的流程图,本技术方案是针对基于所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体的过程进行补充说明的。与上述方案相比,本方案具体优化为,根据预设配置规则生成所述待发送报文任务对应的报文,包括:
基于所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体,包括:
根据所述已知标签实体集中实体的属性信息和该实体的邻居实体的标签信息,训练标签分类模型;
基于所述标签分类模型和所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体。具体的,欺诈概率确定方法的流程图如图2所示:
步骤210、根据已知标签实体集和未知标签实体集中不同实体之间的关系,确定知识图谱。
步骤220、根据所述已知标签实体集中实体的属性信息和该实体的邻居实体的标签信息,训练标签分类模型。
其中,已知标签实体集中实体的属性信息为与实体自身相关的信息,例如企业类型实体的自身规模、名字、注册资金等。该实体的邻居实体的标签信息为已知标签实体集中实体相关联的邻居节点的标签信息,邻居节点也为已知标签实体集中的实体。
通过已知标签实体集中实体的属性信息和该实体的邻居实体的标签信息,训练出标签分类模型,用于识别未知标签实体集的实体标签,其中,标签分类模型可以为LightGBM分类器,本实施例对此不作限制。
本实施例中,可选的,所述邻居实体的标签信息,包括:邻居实体正样本比例、邻居实体负样本比例、邻居实体正样本数量和邻居实体负样本数量。示例性的,一个已知标签实体集中实体连接有10个邻居实体,其中6个邻居实体的标签为正,4个实体标签为负,则邻居实体正样本比例为百分之六十、邻居实体负样本比例为百分之四十。通过感知已知标签实体集中实体周围邻居实体整体标签情况,提高后续对未知标签实体集中邻居实体标签信息获取的准确性,从而提高确定新的已知标签实体的准确性。
步骤230、基于所述标签分类模型和所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体,并根据所述新的已知标签实体对所述已知标签实体集和所述未知标签实体集和所述知识图谱进行更新。
将未知标签实体集与部分已知标签实体集输入标签分类模型,输入标签分类模型的已知标签实体根据已知标签实体预先设置的标签使用范围确定。将基于标签分类模型获取的未知标签实体的标签信息,作为已知标签信息进行新的迭代分类;若迭代分类次数达到预设次数或知识图谱中的实体的标签收敛,则停止迭代分类过程,得到新的已知标签实体。根据新的已知标签实体对已知标签实体集和未知标签实体集和知识图谱进行更新。
步骤240、确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径,并根据所述欺诈路径确定所述目标类型实体的结构向量信息。
步骤250、根据所述更新后的已知标签实体集以及所述目标类型实体的特征向量信息和所述结构向量信息,确定所述目标类型实体的欺诈概率。
本实施例中,可选的,在确定所述目标类型实体的欺诈概率之后,还包括:
根据所述目标类型实体的欺诈概率确定所述目标类型实体的风险处理方式。
目标类型实体的风险处理方式为根据目标类型实体欺诈概率确定的相应的风险处理措施,当欺诈概率越高,则欺诈的概率越大风险越高,相应的风险处理方式等级越高。
本实施例中,可选的,根据所述目标类型实体的欺诈概率确定所述目标类型实体的风险处理方式,包括:
根据所述目标类型实体的欺诈概率,获取所述目标类型实体的欺诈风险值;
确定所述欺诈风险值中大于欺诈风险标准值的候选欺诈风险值;其中,所述欺诈风险标准值根据所述欺诈风险值和预先设置的欺诈风险标准确定;
按照预设比例区间对所述候选欺诈风险值进行风险类型分类;
根据所述候选欺诈风险值的风险类型,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式。
根据目标类型实体的欺诈概率,获取目标类型实体的欺诈风险值,将概率量化为0-100的分值,作为欺诈风险值。
欺诈风险标准用于确定欺诈风险值的整体分布情况。根据欺诈风险值和预先设置的欺诈风险标准确定欺诈风险标准值,其中,欺诈风险标准可以根据业务要求进行配置。欺诈风险标准值用于筛选符合欺诈风险标准的欺诈风险值,将大于欺诈风险标准值的欺诈风险值作为候选欺诈风险值。
示例性的,欺诈风险标准值为60分,则大于60分的欺诈风险值作为候选欺诈风险值,小于等于60分的欺诈风险值则忽略不处理。
在候选欺诈风险值中,按照预设比例区间对候选欺诈风险值进行风险类型分类,其中预设比例区间为候选欺诈风险值大小排名的比例区间,比例区间范围可以根据业务要求进行配置,本实施例对此不作限制。示例性的,将候选欺诈风险值大小排名分为四个比例区间,前百分之十,前百分之十到前百分之三十,前百分之三十到前百分之五十,前百分之五十到百分之百,每个比例区间关联相应的风险类型分类,根据候选欺诈风险值所在比例区间对进行风险类型分类。
根据候选欺诈风险值分类后的风险类型,确定候选欺诈风险值对应的目标类型实体的风险处理方式。
本实施例中,可选的,所述欺诈风险标准包括:所述欺诈风险值的覆盖率大于百分之五十。
即百分之五十的欺诈风险值大于某个固定值,则将该固定值确定为欺诈风险标准值。提高欺诈风险标准值确定的准确性,避免由于计算所有分散的欺诈风险值而提高计算量,从而提高风险处理的效率。
本实施例中,可选的,所述风险类型包括:高风险区域、高风险警示、中低风险预警和低风险关注;
相应的,根据所述候选欺诈风险值的风险类型,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式,包括:
若候选欺诈风险值的风险类型为超高风险,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式为拒绝交易;
若候选欺诈风险值的风险类型为高风险,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式为交易高风险警示;
若候选欺诈风险值的风险类型为中低风险,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式为交易中低风险提示;
若候选欺诈风险值的风险类型为低风险,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式为风险关注。
示例性的,比例区间一对应的风险类型为高风险区域,比例区间二对应的风险类型为高风险警示,比例区间三对应的风险类型为中低风险预警,比例区间四对应的风险类型为低风险关注。
则根据候选欺诈风险值所在的比例区间,对候选欺诈风险值对应的目标类型实体进行风险处理。
若候选欺诈风险值的风险类型为超高风险,确定候选欺诈风险值对应的目标类型实体的风险处理方式为拒绝交易,示例性的,拒绝交易可以为企业提出贷款申请时直接拒绝交易。
若候选欺诈风险值的风险类型为高风险,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式为交易高风险警示,示例性的,交易高风险警示以为企业提出贷款申请时在申请中进行交易高风险的警示,例如申请信息标红等,以便风控人员进行后续处理。
若候选欺诈风险值的风险类型为中低风险,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式为交易中低风险提示;示例性的,交易中低风险提示可以为企业提出贷款申请时在申请中进行交易中低风险的提示,例如申请信息标黄等,以便风控人员进行后续处理。
若候选欺诈风险值的风险类型为低风险,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式为风险关注。示例性的,风险关注可以为企业提出贷款申请时开始关注,加强对整个贷款流程的风险监控。
通过根据候选欺诈风险值的风险类型,确定候选欺诈风险值对应的目标类型实体的风险处理方式,提高目标类型实体的风险处理效率和适用性。
本发明实施例通过根据已知标签实体集中实体的属性信息和该实体的邻居实体的标签信息,训练标签分类模型;基于标签分类模型和知识图谱,根据已知标签实体集确定未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体,扩充已知标签实体的数量,避免由于已知标签实体集的样本过少导致降低欺诈概率确定的准确性。
实施例三
图3为本发明实施例三提供的一种欺诈概率确定装置的结构示意图。该装置可以由硬件和/或软件的方式来实现,可执行本发明任意实施例所提供的一种欺诈概率确定方法,具备执行方法相应的功能模块和有益效果。如图3所示,该装置包括:
知识图谱确定模块310,用于根据已知标签实体集和未知标签实体集中不同实体之间的关系,确定知识图谱;
知识图谱更新模块320,用于基于所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体,并根据所述新的已知标签实体对所述已知标签实体集和所述未知标签实体集和所述知识图谱进行更新;
结构向量信息确定模块330,用于确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径,并根据所述欺诈路径确定所述目标类型实体的结构向量信息;
欺诈概率确定模块340,用于根据所述更新后的已知标签实体集以及所述目标类型实体的特征向量信息和所述结构向量信息,确定所述目标类型实体的欺诈概率。
本发明实施例通过根据已知标签实体集和未知标签实体集中不同实体之间的关系,确定知识图谱;基于所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体,并根据所述新的已知标签实体对所述已知标签实体集和所述未知标签实体集和所述知识图谱进行更新;确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径,并根据所述欺诈路径确定所述目标类型实体的结构向量信息;根据所述更新后的已知标签实体集以及所述目标类型实体的特征向量信息和所述结构向量信息,确定所述目标类型实体的欺诈概率。解决由于欺诈是极小概率事件,存在样本不足,信息甄别滞后的问题,实现提高欺诈概率确定的准确性和效率的效果。
在上述各技术方案的基础上,可选的,所述知识图谱更新模块,包括:
标签分类模型训练单元,用于根据所述已知标签实体集中实体的属性信息和该实体的邻居实体的标签信息,训练标签分类模型;
实体获取单元,用于基于所述标签分类模型和所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体。
在上述各技术方案的基础上,可选的,所述邻居实体的标签信息,包括:邻居实体正样本比例、邻居实体负样本比例、邻居实体正样本数量和邻居实体负样本数量。
在上述各技术方案的基础上,可选的,所述结构向量信息确定模块,包括:
欺诈路径确定单元,用于根据预先定义的候选欺诈路径策略,在更新后的知识图谱中随机游走,确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径;
结构向量信息确定单元,用于将所述欺诈路径输入词向量产生模型,确定所述目标类型实体的结构向量信息。
在上述各技术方案的基础上,可选的,所述词向量产生模型为Skip-gram模型。
在上述各技术方案的基础上,可选的,所述欺诈路径确定单元还具体用于获取预先定义的候选欺诈路径策略,包括:
候选欺诈路径策略子单元,用于获取所述更新后知识图谱的已知标签实体中目标标签类型的实体之间的路径关系,并将所述目标标签类型的实体之间的路径关系确定为预先定义的候选欺诈路径策略。
在上述各技术方案的基础上,可选的,所述装置还包括:
风险处理方式模块,用于所述欺诈概率之后,确定模块根据所述目标类型实体的欺诈概率确定所述目标类型实体的风险处理方式。
在上述各技术方案的基础上,可选的,所述风险处理方式模块,包括:
欺诈风险值单元,用于根据所述目标类型实体的欺诈概率,获取所述目标类型实体的欺诈风险值;
候选欺诈风险值确定单元,用于确定所述欺诈风险值中大于欺诈风险标准值的候选欺诈风险值;其中,所述欺诈风险标准值根据所述欺诈风险值和预先设置的欺诈风险标准确定;
风险类型分类单元,用于按照预设比例区间对所述候选欺诈风险值进行风险类型分类;
风险处理方式确定单元,用于根据所述候选欺诈风险值的风险类型,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式。
在上述各技术方案的基础上,可选的,所述风险类型包括:高风险区域、高风险警示、中低风险预警和低风险关注;
相应的,所述风险处理方式确定单元,包括:
第一方式确定子单元,用于若候选欺诈风险值的风险类型为超高风险,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式为拒绝交易;
第二方式确定子单元,用于若候选欺诈风险值的风险类型为高风险,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式为交易高风险警示;
第三方式确定子单元,用于若候选欺诈风险值的风险类型为中低风险,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式为交易中低风险提示;
第四方式确定子单元,用于若候选欺诈风险值的风险类型为低风险,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式为风险关注。
在上述各技术方案的基础上,可选的,所述欺诈风险标准包括:所述欺诈风险值的覆盖率大于百分之五十。
在上述各技术方案的基础上,可选的,所述目标类型实体为企业类型实体。
在上述各技术方案的基础上,可选的,所述知识图谱为多源异构知识图谱。
实施例四
图4为本发明实施例四提供的一种电子设备的结构示意图,如图4所示,该电子设备包括处理器40、存储器41、输入装置42和输出装置43;电子设备中处理器40的数量可以是一个或多个,图4中以一个处理器40为例;电子设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的欺诈概率确定方法对应的程序指令/模块。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的欺诈概率确定方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种欺诈概率确定方法,该方法包括:
根据已知标签实体集和未知标签实体集中不同实体之间的关系,确定知识图谱;
基于所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体,并根据所述新的已知标签实体对所述已知标签实体集和所述未知标签实体集和所述知识图谱进行更新;
确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径,并根据所述欺诈路径确定所述目标类型实体的结构向量信息;
根据所述更新后的已知标签实体集以及所述目标类型实体的特征向量信息和所述结构向量信息,确定所述目标类型实体的欺诈概率。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的欺诈概率确定方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述欺诈概率确定装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (16)
1.一种欺诈概率确定方法,其特征在于,包括:
根据已知标签实体集和未知标签实体集中不同实体之间的关系,确定知识图谱;
基于所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体,并根据所述新的已知标签实体对所述已知标签实体集和所述未知标签实体集和所述知识图谱进行更新;
确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径,并根据所述欺诈路径确定所述目标类型实体的结构向量信息;
根据所述更新后的已知标签实体集以及所述目标类型实体的特征向量信息和所述结构向量信息,确定所述目标类型实体的欺诈概率。
2.根据权利要求1所述的方法,其特征在于,基于所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体,包括:
根据所述已知标签实体集中实体的属性信息和该实体的邻居实体的标签信息,训练标签分类模型;
基于所述标签分类模型和所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体。
3.根据权利要求2所述的方法,其特征在于,所述邻居实体的标签信息,包括:邻居实体正样本比例、邻居实体负样本比例、邻居实体正样本数量和邻居实体负样本数量。
4.根据权利要求1所述的方法,其特征在于,确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径,并根据所述欺诈路径确定所述目标类型实体的结构向量信息,包括:
根据预先定义的候选欺诈路径策略,在更新后的知识图谱中随机游走,确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径;
将所述欺诈路径输入词向量产生模型,确定所述目标类型实体的结构向量信息。
5.根据权利要求4所述的方法,其特征在于,所述词向量产生模型为Skip-gram模型。
6.根据权利要求4所述的方法,其特征在于,获取预先定义的候选欺诈路径策略,包括:
获取所述更新后知识图谱的已知标签实体中目标标签类型的实体之间的路径关系,并将所述目标标签类型的实体之间的路径关系确定为预先定义的候选欺诈路径策略。
7.根据权利要求1所述的方法,其特征在于,在确定所述目标类型实体的欺诈概率之后,还包括:
根据所述目标类型实体的欺诈概率确定所述目标类型实体的风险处理方式。
8.根据权利要求7所述的方法,其特征在于,根据所述目标类型实体的欺诈概率确定所述目标类型实体的风险处理方式,包括:
根据所述目标类型实体的欺诈概率,获取所述目标类型实体的欺诈风险值;
确定所述欺诈风险值中大于欺诈风险标准值的候选欺诈风险值;其中,所述欺诈风险标准值根据所述欺诈风险值和预先设置的欺诈风险标准确定;
按照预设比例区间对所述候选欺诈风险值进行风险类型分类;
根据所述候选欺诈风险值的风险类型,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式。
9.根据权利要求8所述的方法,其特征在于,所述风险类型包括:高风险区域、高风险警示、中低风险预警和低风险关注;
相应的,根据所述候选欺诈风险值的风险类型,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式,包括:
若候选欺诈风险值的风险类型为超高风险,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式为拒绝交易;
若候选欺诈风险值的风险类型为高风险,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式为交易高风险警示;
若候选欺诈风险值的风险类型为中低风险,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式为交易中低风险提示;
若候选欺诈风险值的风险类型为低风险,确定所述候选欺诈风险值对应的目标类型实体的风险处理方式为风险关注。
10.根据权利要求1所述的方法,其特征在于,所述欺诈风险标准包括:所述欺诈风险值的覆盖率大于百分之五十。
11.根据权利要求1所述的方法,其特征在于,所述目标类型实体为企业类型实体。
12.根据权利要求1所述的方法,其特征在于,所述知识图谱为多源异构知识图谱。
13.一种欺诈概率确定装置,其特征在于,包括:
知识图谱确定模块,用于根据已知标签实体集和未知标签实体集中不同实体之间的关系,确定知识图谱;
知识图谱更新模块,用于基于所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体,并根据所述新的已知标签实体对所述已知标签实体集和所述未知标签实体集和所述知识图谱进行更新;
结构向量信息确定模块,用于确定更新后的未知标签实体集中目标类型实体与其他实体之间的欺诈路径,并根据所述欺诈路径确定所述目标类型实体的结构向量信息;
欺诈概率确定模块,用于根据所述更新后的已知标签实体集以及所述目标类型实体的特征向量信息和所述结构向量信息,确定所述目标类型实体的欺诈概率。
14.根据权利要求13所述的装置,其特征在于,所述知识图谱更新模块,包括:
标签分类模型训练单元,用于根据所述已知标签实体集中实体的属性信息和该实体的邻居实体的标签信息,训练标签分类模型;
实体获取单元,用于基于所述标签分类模型和所述知识图谱,根据所述已知标签实体集确定所述未知标签实体集中至少一个未知标签实体的标签,得到新的已知标签实体。
15.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一所述的欺诈概率确定方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12中任一所述的欺诈概率确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010981746.0A CN112199510A (zh) | 2020-09-17 | 2020-09-17 | 一种欺诈概率确定方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010981746.0A CN112199510A (zh) | 2020-09-17 | 2020-09-17 | 一种欺诈概率确定方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112199510A true CN112199510A (zh) | 2021-01-08 |
Family
ID=74015345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010981746.0A Pending CN112199510A (zh) | 2020-09-17 | 2020-09-17 | 一种欺诈概率确定方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112199510A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819347A (zh) * | 2021-02-05 | 2021-05-18 | 好活(昆山)网络科技有限公司 | 一种标准确定方法、装置、电子设备及存储介质 |
CN113553446A (zh) * | 2021-07-28 | 2021-10-26 | 厦门国际银行股份有限公司 | 一种基于异构图解构的金融反欺诈方法及装置 |
CN114757760A (zh) * | 2022-04-06 | 2022-07-15 | 神州数码系统集成服务有限公司 | 一种二手车融资担保信息识别方法、系统及介质 |
CN115034520A (zh) * | 2022-08-09 | 2022-09-09 | 太平金融科技服务(上海)有限公司深圳分公司 | 风险预测方法、装置、设备及存储介质 |
CN115344697A (zh) * | 2022-08-03 | 2022-11-15 | 南京审计大学 | 一种在线问答社区中检测欺诈性问答的方法 |
CN115982646A (zh) * | 2023-03-20 | 2023-04-18 | 西安弘捷电子技术有限公司 | 一种基于云平台的多源测试数据的管理方法及系统 |
CN116881914A (zh) * | 2023-09-06 | 2023-10-13 | 国网思极网安科技(北京)有限公司 | 文件系统操作处理方法、系统、设备和计算机可读介质 |
-
2020
- 2020-09-17 CN CN202010981746.0A patent/CN112199510A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819347A (zh) * | 2021-02-05 | 2021-05-18 | 好活(昆山)网络科技有限公司 | 一种标准确定方法、装置、电子设备及存储介质 |
CN112819347B (zh) * | 2021-02-05 | 2022-07-29 | 好活(昆山)网络科技有限公司 | 一种行业主体审核方法、装置、电子设备及存储介质 |
CN113553446A (zh) * | 2021-07-28 | 2021-10-26 | 厦门国际银行股份有限公司 | 一种基于异构图解构的金融反欺诈方法及装置 |
CN113553446B (zh) * | 2021-07-28 | 2022-05-24 | 厦门国际银行股份有限公司 | 一种基于异构图解构的金融反欺诈方法及装置 |
CN114757760A (zh) * | 2022-04-06 | 2022-07-15 | 神州数码系统集成服务有限公司 | 一种二手车融资担保信息识别方法、系统及介质 |
CN115344697A (zh) * | 2022-08-03 | 2022-11-15 | 南京审计大学 | 一种在线问答社区中检测欺诈性问答的方法 |
CN115344697B (zh) * | 2022-08-03 | 2023-06-23 | 南京审计大学 | 一种在线问答社区中检测欺诈性问答的方法 |
CN115034520A (zh) * | 2022-08-09 | 2022-09-09 | 太平金融科技服务(上海)有限公司深圳分公司 | 风险预测方法、装置、设备及存储介质 |
CN115034520B (zh) * | 2022-08-09 | 2023-01-10 | 太平金融科技服务(上海)有限公司深圳分公司 | 风险预测方法、装置、设备及存储介质 |
CN115982646A (zh) * | 2023-03-20 | 2023-04-18 | 西安弘捷电子技术有限公司 | 一种基于云平台的多源测试数据的管理方法及系统 |
CN116881914A (zh) * | 2023-09-06 | 2023-10-13 | 国网思极网安科技(北京)有限公司 | 文件系统操作处理方法、系统、设备和计算机可读介质 |
CN116881914B (zh) * | 2023-09-06 | 2023-11-28 | 国网思极网安科技(北京)有限公司 | 文件系统操作处理方法、系统、设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109272396B (zh) | 客户风险预警方法、装置、计算机设备和介质 | |
CN112199510A (zh) | 一种欺诈概率确定方法、装置、电子设备及存储介质 | |
CN109165840B (zh) | 风险预测处理方法、装置、计算机设备和介质 | |
US20190164015A1 (en) | Machine learning techniques for evaluating entities | |
CN109584048A (zh) | 基于人工智能对申请者进行风险评级的方法和装置 | |
Aziz et al. | AI and machine learning for risk management | |
Van Thiel et al. | Artificial intelligence credit risk prediction: An empirical study of analytical artificial intelligence tools for credit risk prediction in a digital era | |
Rao et al. | Credit risk assessment mechanism of personal auto loan based on PSO-XGBoost Model | |
Wu | Using machine learning approach to evaluate the excessive financialization risks of trading enterprises | |
Sánchez et al. | Improving debt collection via contact center information: A predictive analytics framework | |
Boz et al. | Reassessment and monitoring of loan applications with machine learning | |
Zhou et al. | FinBrain 2.0: when finance meets trustworthy AI | |
Akba et al. | Manipulator detection in cryptocurrency markets based on forecasting anomalies | |
Wang et al. | Multiview Graph Learning for Small‐and Medium‐Sized Enterprises’ Credit Risk Assessment in Supply Chain Finance | |
CN114493853A (zh) | 信用等级评价方法、装置、电子设备及存储介质 | |
CN118096170A (zh) | 风险预测方法及装置、设备、存储介质和程序产品 | |
Nallakaruppan et al. | An Explainable AI framework for credit evaluation and analysis | |
Valli | A succinct synopsis of predictive analytics for fraud detection and credit scoring in BFSI | |
Bari et al. | Ensembles of text and time-series models for automatic generation of financial trading signals from social media content | |
Hossain | Implementation of Big Data Analytics in Credit Risk Management in the Banking and Financial Services Sector: A Contemporary Literature Review | |
CN117575773A (zh) | 业务数据的确定方法、装置、计算机设备、存储介质 | |
CN117196630A (zh) | 交易风险预测方法、装置、终端设备以及存储介质 | |
Huang et al. | Domain adaptation approach for credit risk analysis | |
Lee et al. | Application of machine learning in credit risk scorecard | |
Arifah et al. | Artificial Intelligence in Credit Risk Management of Peer-to-Peer Lending Financial Technology: Systematic Literature Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |