CN116611923A - 基于知识图谱的风险数据获取方法、系统、设备及存储介质 - Google Patents
基于知识图谱的风险数据获取方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN116611923A CN116611923A CN202310553144.9A CN202310553144A CN116611923A CN 116611923 A CN116611923 A CN 116611923A CN 202310553144 A CN202310553144 A CN 202310553144A CN 116611923 A CN116611923 A CN 116611923A
- Authority
- CN
- China
- Prior art keywords
- risk
- data
- business
- knowledge graph
- data acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000003860 storage Methods 0.000 title claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 64
- 238000010276 construction Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 28
- 238000012360 testing method Methods 0.000 claims description 24
- 238000001914 filtration Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 208000025174 PANDAS Diseases 0.000 claims description 7
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 claims description 7
- 235000016496 Panda oleosa Nutrition 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000012502 risk assessment Methods 0.000 claims description 2
- 240000000220 Panda oleosa Species 0.000 claims 1
- 238000007726 management method Methods 0.000 abstract description 24
- 238000013500 data storage Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 17
- 230000008901 benefit Effects 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 12
- 238000005065 mining Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 240000004718 Panda Species 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000033228 biological regulation Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种风险数据获取方法、系统、设备及存储介质,属于计算机技术领域及金融科技领域,通过获取待管控交易业务的业务数据;通过风险识别网络模型识别业务数据,得到第一风险数据;根据第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱;根据风险知识图谱以及图算法工具,得到第二风险数据;第二风险数据包括风险用户以及风险等级。本申请在应用于风险数据获取、识别时,将构建知识图谱之前的业务数据通过识别模型预先进行识别过滤,减少了风险知识图谱构建的工作量,并提高了知识图谱的识别效率;同时在风险知识图谱结合图算法工具下,可以针对具有业务来往关系的团伙进行有效识别,相比现有风险管控增加了对风险团伙的有效预测和风险推断。
Description
技术领域
本申请属于计算机技术领域及金融科技领域,具体地,涉及一种基于知识图谱的风险数据获取方法、系统、设备及存储介质。
背景技术
随着互联网不断推广,网络交易、网络支付和交易激增。互联网交易带给人们便利的同时,其自身的隐患也导致各类风险问题。不仅损害用户自身利益,而且不安全的网络环境诱发更多违法分子投机取巧,另外由于欺诈、将非法所得合法化的行为等交易的隐蔽性、复杂性也给金融公司风险数据获取带来很大挑战。
因此,亟需对风险业务场景制定合理的管控规则,及时有效识别出欺诈支付、将非法所得合法化的行为支付、消费交易并及时识别交易风险、保障消费者切身利益,清除交易支付中投机不法分子,最后维护健康安全的交易支付环境。其中关于支付、交易的平台/系统可以是保险系统、银行系统、交易系统、订单系统。
但是,目前的风险预测只能针对个例交易支付群体,很难挖掘具有风险交易支付业务的团伙,不具有广泛使用性。
发明内容
本发明提出的基于知识图谱的风险数据获取方法、系统、设备及存储介质,可以结合机器学习实现对支付过程中风险团伙支付方的有效预测和风险推断。
根据本申请实施例的第一个方面,提供了一种风险数据获取方法,包括以下步骤:
获取待管控交易业务的业务数据;
通过风险识别网络模型识别业务数据,得到第一风险数据;
根据第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱;
根据风险知识图谱以及图算法工具,得到第二风险数据;风险数据包括风险用户以及风险等级。
在本申请一些实施方式中,通过风险识别网络模型过滤业务数据,得到第一风险数据,具体包括:
通过业务数据测试集,训练风险识别网络得到训练后的风险识别网络模型;
将业务数据,输入风险识别网络模型进行识别,得到不同风险等级的业务数据并确定第一风险数据。
在一些实施方式中,通过业务数据测试集,训练风险识别网络得到训练后的风险识别网络模型,具体包括:
通过第一业务数据测试集,训练风险识别网络进行风险数据识别,得到预训练风险识别网络模型;第一业务数据测试集带有风险数据识别标签;
通过第二业务数据测试集,训练预训练风险识别网络模型进行风险等级划分,得到训练后的风险识别网络模型;第二业务数据带有风险等级标签。
在本申请一些实施方式中,根据第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱,具体包括:
根据待管控交易业务的业务风险属性,确定多个风险特征;业务风险属性包括业务场景、管控节点、风险类型、风险规则和/或业务法律条文;
根据多个风险特征,确定风险节点以及风险节点之间结构关系。
利用pandas矢量化构建函数;得到矢量化的构建函数;
根据矢量化的构建函数、风险节点以及风险节点之间结构关系,得到风险知识图谱。
在本申请一些实施方式中,构建风险知识图谱之后,还包括:
根据用户查询,确定用户查询包含的指定关系以及指定节点;
利用neo4j的cql语句量化评估所述指定节点的节点关系,评级确定风险规则识别率;
根据指定关系、指定节点以及风险规则识别率,得到风险知识图谱的可视化图谱。
在本申请一些实施方式中,图算法工具包括节点相似度算法、社区结构发现算法和/或风险阈值算法。
在本申请一些实施方式中,根据风险知识图谱以及图算法工具,得到第二风险数据,具体包括:
根据风险知识图谱获取第一风险用户;
根据节点相似度算法,得到与第一风险用户相关联的第二风险用户;
和/或,根据社区结构发现算法,得到与第一风险用户处于同一社区的第二风险用户;
和/或,根据风险阈值算法,得到风险概率高于第一风险用户的第三风险用户;所述第二风险数据包括第一风险用户、第二风险用户、第三风险用户以及风险用户关联关系。
根据本申请实施例的第二个方面,提供了一种风险数据获取系统,具体包括:
数据获取单元:用于获取待管控交易业务的业务数据;
数据过滤单元:用于通过风险识别网络模型识别业务数据,得到第一风险数据;
图谱单元:用于根据第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱;
风险识别单元:用于根据风险知识图谱以及图算法工具,得到第二风险数据;风险数据包括风险用户以及风险等级。
根据本申请实施例的第三个方面,提供了一种风险数据获取设备,包括:
存储器:用于存储可执行指令;以及
处理器:用于与存储器连接以执行可执行指令从而完成风险数据获取方法。
根据本申请实施例的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序;计算机程序被处理器执行以实现风险数据获取方法。
采用本申请的风险数据获取方法、系统、设备及存储介质,通过获取待管控交易业务的业务数据;通过风险识别网络模型识别业务数据,得到第一风险数据;根据第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱;根据风险知识图谱以及图算法工具,得到第二风险数据;第二风险数据包括风险用户以及风险等级。本申请在应用于风险数据获取、识别时,将构建知识图谱之前的业务数据通过识别模型预先进行识别过滤,减少了风险知识图谱构建的工作量,并提高了知识图谱的识别效率;同时在风险知识图谱结合图算法工具下,可以针对具有业务来往关系的团伙进行有效识别,相比现有风险管控增加了对风险团伙的有效预测和风险推断。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1中示出了根据本申请实施例的风险数据获取方法的步骤示意图;
图2中示出了根据本申请实施例中得到第一风险数据的步骤示意图;
图3中示出了根据本申请实施例中构建风险知识图谱的步骤示例图;
图4中示出了根据本申请实施例的风险数据获取系统的结构示意图;
图5中示出了根据本申请实施例的风险数据获取设备的结构示意图。
具体实施方式
在实现本申请的过程中,随着科学技术的发展,获取数据并利用数据建模以解决相应的问题,已是非常常见的技术手段。例如,各电商平台会收集用户的商品浏览记录等数据,并根据收集的数据构建商品推荐模型,以向用户推荐商品。发明人发现目前的网络支付和交易中,针对风险预测时只能针对个例交易群体,很难挖掘具有风险交易业务的团伙,不具有广泛使用性。
现有的风险数据获取方案主要从风险管理和专家规则两方面进行风险识别和管控。风险管理:统计分析已发生风险多的业务场景,划分风险类型,挖掘主要风险特征,依据法律条文和规章制度,建立风险数据获取规则体系。专家规则:风险数据获取专家对历史案件特征分析后,归纳评估导致风险的主要因素,风控系统通过配置相应防范措施对线上交易进行实时拦截,最终审核判定是否存在风险。综合来说,现有方案存在不少缺陷,例如:管理规则难量化,因此对风险规则重要性的评估比较困难;管控无法可视化,难以从全局掌控整个管理链路以便后续改进;风险预测只能针对个例交易群体,很难挖掘涉嫌将非法所得合法化的行为交易的团伙,不具有广泛性。
本申请针对风控管控和评估难点,以及团伙性风险挖掘困难等问题,采用neo4j进行风险规则量化评估,结合机器学习、深度学习预测,用技术结合图算法手段来解决风险数据获取及风险识别。
本申请的风险数据获取方案根据管控规则、风险元素及章节条文等风控管理涉及的数据为依据,构建风险知识图谱。同时使用人工智能算法,训练出效果良好的模型。其中采用自定义函数构建neo4j图谱,进行风险数据获取将机器学习预测出的风险高的数据筛选后建立风险数据获取neo4j图谱,挖掘风险团伙。
本申请的风险数据获取方案具有以下有益效果:
1)图谱构建简单高效,利用pandas和numpy数据处理快的优势,自定义函数进行图谱节点和关系构建,避免了大量显式循环,构建简单又快。
2)支持大规模数据构建,利用pandas的数据结构特点,分批次读取数据,避免单次读入数据量超过内存限制,支持大规模数据构造图谱。
3)多模型精准预测,训练机器学习模型lightGBM/catBoost及神经网络CNN/LSTM,通过多模型评估降低单个模型的偏差,提高整体预测精度。
4)采用neo4j结合机器学习实现优势互补,将图数据库善于表达关系特点和AI算法高精度优势有效结合,通过图算法及加入关系型特征训练AI模型,从而更加深入和全面地识别风险。
本申请的风险数据获取方案具体应用场景可以具体描述为:针对商城、交易等不同业务场景,此业务场景下通过风控总结制定多种风险措施,采取不同管控方案,结合国家相关法律条文及公司管控规则,识别和应对相应风险。
本申请可以挖掘差距欺诈、反将非法所得合法化的行为团伙,机器学习预测欺诈、将非法所得合法化的行为交易高的用户,然后构建知识图谱,挖掘出风险团伙。
具体的,本申请的风险数据获取方法、系统、设备及存储介质,通过获取待管控交易业务的业务数据;通过风险识别网络模型过滤业务数据,得到第一风险数据;根据第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱;根据风险知识图谱以及图算法工具,得到风险数据;风险数据包括风险用户以及风险等级。
本申请在应用于风险数据获取、识别时,将构建知识图谱之前的业务数据通过识别模型预先进行识别过滤,减少了风险知识图谱构建的工作量,并提高了知识图谱的识别效率;同时在风险知识图谱结合图算法工具下,可以针对具有业务来往关系的团伙进行有效识别,相比现有风险管控增加了对风险团伙的有效预测和风险推断。为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1
图1中示出了根据本申请实施例的风险数据获取方法的步骤示意图。
如图1所示,本申请实施例的风险数据获取方法,包括以下步骤:
S1:获取待管控交易业务的业务数据。
本申请的风险数据获取方案具体应用场景可以具体描述为:针对商城交易等不同业务场景,此业务场景下通过风控总结制定多种风险措施,采取不同管控方案,结合国家相关法律条文及公司管控规则,识别和应对相应风险。
本申请可以挖掘差距欺诈、反将非法所得合法化的行为团伙,机器学习预测欺诈、将非法所得合法化的行为交易高的用户,然后构建知识图谱,挖掘出风险团伙。
因此,本实施例待管控交易业务具体为商城交易业务。获取待管控交易业务的业务数据时,包括在商城消费用户的交易时间、交易卡号、交易终端以及交易属性等业务数据。
S2:通过风险识别网络模型过滤业务数据,得到第一风险数据;
在步骤S2通过风险识别网络模型过滤业务数据,得到第一风险数据之前,还包括预先训练风险识别网络模型。
图2中示出了根据本申请实施例中得到第一风险数据的步骤示意图。
如图2所示,通过风险识别网络模型过滤业务数据,得到第一风险数据,具体包括:
S21:通过业务数据测试集,训练风险识别网络得到训练后的风险识别网络模型;S22:将业务数据,输入训练后的风险识别网络模型进行识别,得到不同风险等级的业务数据并确定第一风险数据。
其中,通过业务数据测试集,训练风险识别网络得到训练后的风险识别网络模型,具体包括:利通过第一业务数据测试集,训练风险识别网络进行风险数据识别,得到预训练风险识别网络模型;通过第二业务数据测试集,训练预训练风险识别网络模型进行风险等级划分,得到训练后的风险识别网络模型。
具体的,首先,通过数据采样,获取数据集作为业务数据测试集;对数据进行风险数据识别打标签操作,得到第一业务数据测试集,然后将打好标签的第一业务数据测试集输入风险识别网络进行训练,同时构建模型损失函数,当模型参数收敛后得到预训练风险识别网络模型。
接下来,对业务数据测试集的数据进行风险等级打标签操作,得到第二业务数据测试集;然后将打好标签的第二业务数据测试集输入预训练风险识别网络模型进行训练,同时构建模型损失函数,当模型参数收敛后得到训练后的风险识别网络模型。
S3:根据第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱;
图3中示出了根据本申请实施例中构建风险知识图谱的步骤示例图。
如图3所示,具体的,根据第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱,具体包括:
S31:首先,根据待管控交易业务的业务风险属性,确定多个风险特征;业务风险属性包括业务场景、管控节点、风险类型、风险规则和/或业务法律条文。
本申请针对商城、交易等不同业务场景,风控总结制定多种风险措施,采取不同管控方案,依据国家相关法律条文、结合公司管控规则,评估和改进风险规则。为了更好的进行风险数据获取,对业务场景、管控节点、风险类型、风险特征、风险规则及法律条文等构建图谱,通过图谱实现对风险知识的加工归纳,实现风险数据获取可视化和可量化。
在这个过程中,一)首先,通过风险识别识别业务场景中主要的风险特征,不同业务场景面临的主要风险不同,通过识别系统重要性规则,确定应用场景最多、风险覆盖最广且有效性最高的规则。二)通过量化评估确定每个风险特征对总体风险数据获取的影响大小。主要通过量化评估某一条规则缺失后对总体风险数据获取的影响大小。通过以上两个过程进而确定业务场景的多个风险特征。
S32:然后,根据多个风险特征,确定风险节点以及风险节点之间结构关系。
其中,利用pd数据结构清晰明了优势,结合apply高效计算优势,自定义一个节点构建函数。
其中,通过一个转换数据的列表,可以分批次读取数据,极大减少内存。通过脚本定义一个函数,可同时构造节点和关系。
S33:同时,利用pandas矢量化构建函数;具体实施时,采用节点和关系构建分批次操作,可以缓解数据量太大内存和单个批次数据太大的问题。每个批次数据利用pandas矢量化构建函数,大大提高了后续知识图谱的构造效率。
S34:最后,根据构建函数、风险节点以及风险节点之间结构关系,得到风险知识图谱。
优选实施例中,在构建风险知识图谱之后,还包括以下步骤:
首先,根据用户查询,确定用户查询包含的指定关系以及指定节点;其次,利用neo4j的cql语句量化评估指定节点的节点关系,评级确定风险规则识别率;最后,根据指定关系、指定节点以及风险规则识别率,得到风险知识图谱的可视化图谱。其中,利用neo4J善于进行关系计算的特点以及利用cqL语法进行量化评估的计算。例如,假设某个关系又L1至L6六个节点构成,如:L1→L2→L3→L4→L5→L6,通过去掉L5节点后,量化评估L5节点对整体关系的影响,分别计算L5节点去掉前和去掉后的风险识别率,若前后风险识别率超过阈值,则节点L5的影响很大,其影响大小可以量化L5的节点关系,进而可以确定具体的风险规则识别率。
S4:根据风险知识图谱以及图算法工具,得到第二风险数据;风险数据包括风险用户以及风险等级。
具体的,图算法工具包括节点相似度算法、社区结构发现算法和/或风险阈值算法。
在本申请一些实施方式中,根据风险知识图谱以及图算法工具,得到第二风险数据,具体包括:根据风险知识图谱获取第一风险用户;根据节点相似度算法,得到与第一风险用户相关联的第二风险用户;和/或,根据社区结构发现算法,得到与第一风险用户处于同一社区的第二风险用户;和/或,根据风险阈值算法,得到风险概率高于第一风险用户的第三风险用户;所述第二风险数据包括第一风险用户、第二风险用户、第三风险用户以及风险用户关联关系。
优选实施方式中,通过S4得到风险数据之后,还包括:先构建风险团伙特征;风险团伙特征包括高风险团伙特征以及中低风险团伙特征。然后,根据风险团伙特征训练风险识别网络模型,得到具有风险团伙识别能力的风险识别网络模型。
本申请考虑到:AI预测具有精度高优势,可以通过正负样本打标签、数据采样,特征工程等,利用机器学习lightgbm/catBoost,或神经网络dnn/cnn/lstm训练一个测试集表现良好的模型,通过多模型实现高精度预测,但是AI识别阈值设置太低时容易造成误判,若阈值太高又会漏掉风险用户;且只能预测单个用户风险,团伙挖掘方面作用有限;只能预测当前风险,很难和已经预测过的历史风险数据建立关系,进而归纳分析。
本申请还考虑到:知识图谱善于对关系型数据进行归纳计算,方便挖掘出团伙关系。但是存在明显弊端,例如:图谱构造不仅耗时多,而且数据占据很大存储空间。当数据多时候图谱计算效率较低。且图谱识别不及AI预测精度高,误判很大。而风控、反将非法所得合法化的行为风险业务属于极小概率事件,往往不足万分之一,直接构造图谱不仅面临极大的资源浪费,而且查询和计算耗时很长。
基于以上两方面考虑,本申请采用AI预测结合知识图谱挖掘团伙信息,将AI算法和知识图谱结合,在充分发挥AI算法高精度优势同时,还能利用知识图谱善于对关系的归纳总结能力,有效挖掘团伙风险。
本申请优选实施时,通过步骤S2训练出具有高精度、表现良好的机器学习和神经网络模型,对加工好的用户数据进行预测,得到一个风险概率pro,按照pro分布情况依据划分风险等级,如pro∈[0.9,1]为高风险,pro∈[0.8,0.9)中高风险,pro∈[0.7,0.8)中高风险,pro∈[0.6,0.7)中风险,[0.5,0.6)低风险。
一般pro从高风险到低风险,对应区间的数据量急剧减少。因此具有风险隐患的数据大大减少。AI算法提供了一种精准信息,只需要选出pro风险较高部分(如pro>=0.5)少量数据作为第一风险数据。然后利用交易对手、共同设备号、共用手机号等关系构建图谱。
然后,将第一风险数据的风险用户构建好知识图谱后,可以利用neo4j提供的图算法进行风险挖掘,可以采用节点相似度算法、社区结构发现算法或者风险阈值算法挖掘相关联的风险用户。
具体的,关于节点相似度算法,可以根据风险用户连接的节点比较一组节点,如果两个节点共享许多相同的邻居,则被视为相似节点。如a→f,b→f,a和b都指向f,经过计算a和b相似度很高,其中a确认有风险则认为b风险很高。
具体的,关于社区结构发现算法,社区是一种局部性结构,该局部性结构内部连接紧密,而不同的局部性结构之间连接稀疏,这种局部性结构是社区。如我们计算得到不同社区小组,其中A组{a,b,f},由于f确认风险,则认为a、b可疑很高。
具体的,关于中心度计算算法,可以通过子节点风险数或者最大风险值等定义关系属性权重值,然后计算出节点中心度,从而评估风险程度以及团伙中风险高低。若计算得出不同用户重要性从高到底:a>b>f>c>d,其中f确认风险,则比f高的a和b风险也大。再比如风险团伙{a,b,f},由于a风险最高,可以集中对a相关的用户重点挖掘,查找出更多风险相关者。
最后,通过构建关系特征训练模型。
机器学习的一个巨大优势在不必定义具体的流程细节,只需要利用通用的知识和算法结构,利用损失函数的指引在给定的特征空间得到输入数据的有用表示,在指定任务上实现有效预测。
本申请只需要利用知识图谱抽象出较为显著的关系特征,将其转换为一种直观的表示,算法就可以揭示出其中隐含的显示或隐式信息。因此先构建风险团伙特征,然后将风险团伙特征等关系特征加入原来的风险特征,重新训练风险识别模型,使得模型具有对风险团伙识别及风险等级推断的能力。
其中,构建风险团伙特征时,包括:
首选,利用知识图谱挖掘高风险团伙,与高风险用户存在关系的用户,往往能够很快判断后确立风险团伙。
其次,利用知识图谱挖掘中低风险团伙,中低风险用户对应关系分为2种情况。
情况1,与中低风险有关系的用户存在较多高风险用户,可以判断该关系网络风险大。情况2,和中低风险直接联系用户没有高风险用户,但是次一级间接联系的用户存在很多风险用户。如直接联系用户中低风险群体多,进步一挖掘时其间接关系中存在高风险用户,则判断整个关系网有风险。
最后,对风险等级重新推断。
除AI模型预测确定风险等级,还可以利用知识图谱对风险推断。当网络关系中不同风险等级用户较多时,可以利用图谱对风险推断,进而升级风险。
具体实施时,推断1:图谱关系中如果子节点中低风险多,则该节点风险等级升级;如果中高风险多,则升级为高风险。推断2:图谱关系中如果子节点有中高风险/高风险,则该节点风险等级升级为中高风险/高风险。
本申请相比现有风险数据获取、识别方案,其优势在于:利用python特有的数据结构,自定义函数实现对大规模关系型数据分批次构造图谱,构造过程高效,函数定义简洁明了,可移植性很高;通过知识图谱将业务场景和规则,措施和方案等繁琐管控关系有序归纳,实现风险数据获取可视化、可量化,进而达到对风险更好管控评估和改进目的;本申请还通过AI模型结合知识图谱,避免了大量正常用户数据构造图谱的低效及成本浪费,利用neo4j的图算法,为风险团伙挖掘提供了更深入和全面的技术和算法支持;利用知识图谱的归纳推断能力,抽取出关系特征,结合机器学习实现对风险团伙有效预测和风险推断。
最后,采用本申请的风险数据获取方法,通过获取待管控交易业务的业务数据;通过风险识别网络模型过滤业务数据,得到第一风险数据;根据第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱;根据风险知识图谱以及图算法工具,得到第二风险数据;第二风险数据包括风险用户以及风险等级。本申请在应用于风险数据获取、识别时,将构建知识图谱之前的业务数据通过识别模型预先进行识别过滤,减少了风险知识图谱构建的工作量,并提高了知识图谱的识别效率;同时在风险知识图谱结合图算法工具下,可以针对具有业务来往关系的团伙进行有效识别,相比现有风险管控增加了对风险团伙的有效预测和风险推断。
实施例2
本实施例提供了一种风险数据获取系统,对于本实施例的风险数据获取系统中未披露的细节,请参照其它实施例中的风险数据获取方法的具体实施内容。
图4中示出了根据本申请实施例的风险数据获取系统的结构示意图。
如图4所示,本申请实施例的风险数据获取系统,具体包括数据获取单元10、数据过滤单元20、图谱单元30以及风险识别单元40。
具体的,
数据获取单元10:用于获取待管控交易业务的业务数据。
本实施例待管控交易业务具体为商城交易业务。获取待管控交易业务的业务数据时,包括在商城消费用户的交易时间、交易卡号、交易终端以及交易属性等业务数据。
数据过滤单元20:用于通过风险识别网络模型过滤业务数据,得到第一风险数据。
具体包括:利用机器学习或神经网络训练测试集,得到训练后的测试集。
根据训练后的测试集,训练风险识别网络模型进行风险等级划分,得到训练后的风险识别网络模型。通过风险识别网络模型过滤业务数据,得到不同风险等级的业务数据并确定第一风险数据。
图谱单元30:用于根据第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱;
根据第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱。
具体的,根据第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱,具体包括:
首先,根据待管控交易业务的业务风险属性,确定多个风险特征;业务风险属性包括业务场景、管控节点、风险类型、风险规则和/或业务法律条文。
然后,根据多个风险特征,确定风险节点以及风险节点之间结构关系。
其中,利用pd数据结构清晰明了优势,结合apply高效计算优势,自定义一个节点构建函数。
其中,通过一个转换数据的列表,可以分批次读取数据,极大减少内存。通过脚本定义一个函数,可同时构造节点和关系。
同时,利用pandas矢量化构建函数;
最后,根据构建函数、风险节点以及风险节点之间结构关系,得到风险知识图谱。
优选实施例中,在构建风险知识图谱之后,还包括以下步骤:
首先,根据用户查询,确定用户查询包含的指定关系以及指定节点;其次,利用neo4j的cql语句量化评估所述指定节点的节点关系,评级确定风险规则识别率;最后,根据指定关系、指定节点以及风险规则识别率,得到风险知识图谱的可视化图谱。
风险识别单元40:用于根据风险知识图谱以及图算法工具,得到风险数据;风险数据包括风险用户以及风险等级。
具体的,根据风险知识图谱以及图算法工具,得到风险数据,具体包括:获取第一风险用户;根据节点相似度算法,得到与第一风险用户相关联的第二风险用户;和/或,根据社区结构发现算法,得到与第一风险用户处于同一社区的第二风险用户;和/或,根据风险阈值算法,得到风险概率高于第一风险用户的第二风险用户。
优选实施方式中,通过S4得到风险数据之后,还包括:先构建风险团伙特征;风险团伙特征包括高风险团伙特征以及中低风险团伙特征。然后,根据风险团伙特征训练风险识别网络模型,得到具有风险团伙识别能力的风险识别网络模型。
采用本申请的风险数据获取方法,通过数据获取单元10获取待管控交易业务的业务数据;数据过滤单元20通过风险识别网络模型过滤业务数据,得到第一风险数据;图谱单元30根据第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱;风险识别单元40根据风险知识图谱以及图算法工具,得到风险数据;风险数据包括风险用户以及风险等级。本申请在应用于风险数据获取、识别时,将构建知识图谱之前的业务数据通过识别模型预先进行识别过滤,减少了风险知识图谱构建的工作量,并提高了知识图谱的识别效率;同时在风险知识图谱结合图算法工具下,可以针对具有业务来往关系的团伙进行有效识别,相比现有风险管控增加了对风险团伙的有效预测和风险推断。
实施例3
本实施例提供了一种风险数据获取设备,对于本实施例的风险数据获取设备中未披露的细节,请参照其它实施例中的风险数据获取方法或系统具体的实施内容。
图5中示出了根据本申请实施例的风险数据获取设备400的结构示意图。
如图5所示,风险数据获取设备400,包括:
存储器402:用于存储可执行指令;以及
处理器401:用于与存储器402连接以执行可执行指令从而完成运动矢量预测方法。
本领域技术人员可以理解,示意图5仅仅是风险数据获取设备400的示例,并不构成对风险数据获取设备400的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如风险数据获取设备400还可以包括输入输出设备、网络接入设备、总线等。
所称处理器401(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器401也可以是任何常规的处理器等,处理器401是风险数据获取设备400的控制中心,利用各种接口和线路连接整个风险数据获取设备400的各个部分。
存储器402可用于存储计算机可读指令,处理器401通过运行或执行存储在存储器402内的计算机可读指令或模块,以及调用存储在存储器402内的数据,实现风险数据获取设备400的各种功能。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据风险数据获取设备400使用所创建的数据等。此外,存储器402可以包括硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)或其他非易失性/易失性存储器件。
风险数据获取设备400集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序;计算机程序被处理器执行以实现其他实施例中的风险数据获取方法。
本申请实施例的风险数据获取设备及存储介质通过获取待管控交易业务的业务数据;通过风险识别网络模型过滤业务数据,得到第一风险数据;根据第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱;根据风险知识图谱以及图算法工具,得到风险数据;风险数据包括风险用户以及风险等级。本申请在应用于风险数据获取、识别时,将构建知识图谱之前的业务数据通过识别模型预先进行识别过滤,减少了风险知识图谱构建的工作量,并提高了知识图谱的识别效率;同时在风险知识图谱结合图算法工具下,可以针对具有业务来往关系的团伙进行有效识别,相比现有风险管控增加了对风险团伙的有效预测和风险推断。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种风险数据获取方法,其特征在于,包括:
获取待管控交易业务的业务数据;
通过风险识别网络模型识别所述业务数据,得到第一风险数据;
根据所述第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱;
根据所述风险知识图谱以及图算法工具,得到第二风险数据;所述风险数据包括风险用户以及风险等级。
2.根据权利要求1所述的风险数据获取方法,其特征在于,所述通过风险识别网络模型过滤所述业务数据,得到第一风险数据,具体包括:
通过业务数据测试集,训练风险识别网络得到训练后的风险识别网络模型;
将所述业务数据,输入所述训练后的风险识别网络模型进行识别,得到不同风险等级的业务数据并确定第一风险数据。
3.根据权利要求2所述的风险数据获取方法,其特征在于,所述通过业务数据测试集,训练风险识别网络得到训练后的风险识别网络模型,具体包括:
通过第一业务数据测试集训练风险识别网络,得到预训练风险识别网络模型;所述第一业务数据测试集带有风险数据识别标签;
通过第二业务数据测试集,训练所述预训练风险识别网络模型,得到训练后的风险识别网络模型;所述第二业务数据带有风险等级标签。
4.根据权利要求1所述的风险数据获取方法,其特征在于,所述根据所述第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱,具体包括:
根据所述待管控交易业务的业务风险属性,确定多个风险特征;所述业务风险属性包括业务场景、管控节点、风险类型、风险规则和/或业务法律条文;
根据所述多个风险特征,确定风险节点以及风险节点之间结构关系;
利用pandas矢量化构建函数,得到矢量化的构建函数;
根据所述矢量化的构建函数、所述风险节点以及风险节点之间结构关系,得到风险知识图谱。
5.根据权利要求1或4所述的风险数据获取方法,其特征在于,所述构建风险知识图谱之后,还包括:
根据用户查询,确定用户查询包含的指定关系以及指定节点;
利用neo4j的cql语句量化评估所述指定节点的节点关系,评级确定风险规则识别率;
根据所述指定关系、指定节点以及风险规则识别率,得到风险知识图谱的可视化图谱。
6.根据权利要求1所述的风险数据获取方法,其特征在于,所述图算法工具包括节点相似度算法、社区结构发现算法和/或风险阈值算法。
7.根据权利要求6所述的风险数据获取方法,其特征在于,所述根据所述风险知识图谱以及图算法工具,得到第二风险数据,具体包括:
根据风险知识图谱获取第一风险用户;
根据节点相似度算法,得到与所述第一风险用户相关联的第二风险用户;
和/或,根据社区结构发现算法,得到与所述第一风险用户处于同一社区的第二风险用户;
和/或,根据风险阈值算法,得到风险概率高于所述第一风险用户的第三风险用户;所述第二风险数据包括第一风险用户、第二风险用户、第三风险用户以及风险用户关联关系。
8.一种风险数据获取系统,其特征在于,具体包括:
数据获取单元:用于获取待管控交易业务的业务数据;
数据过滤单元:用于通过风险识别网络模型识别所述业务数据,得到第一风险数据;
图谱单元:用于根据所述第一风险数据以及待管控交易业务的业务风险属性,构建风险知识图谱;
风险识别单元:用于根据所述风险知识图谱以及图算法工具,得到第二风险数据;所述风险数据包括风险用户以及风险等级。
9.一种风险数据获取设备,包括:
存储器:用于存储可执行指令;以及
处理器:用于与存储器连接以执行可执行指令从而完成如权利要求1-7任一项所述的风险数据获取方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;计算机程序被处理器执行以实现如权利要求1-7任一项所述的风险数据获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310553144.9A CN116611923A (zh) | 2023-05-16 | 2023-05-16 | 基于知识图谱的风险数据获取方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310553144.9A CN116611923A (zh) | 2023-05-16 | 2023-05-16 | 基于知识图谱的风险数据获取方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116611923A true CN116611923A (zh) | 2023-08-18 |
Family
ID=87679337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310553144.9A Pending CN116611923A (zh) | 2023-05-16 | 2023-05-16 | 基于知识图谱的风险数据获取方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116611923A (zh) |
-
2023
- 2023-05-16 CN CN202310553144.9A patent/CN116611923A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3989131A1 (en) | Method and system for realizing machine learning modeling process | |
WO2021164382A1 (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
US11538044B2 (en) | System and method for generation of case-based data for training machine learning classifiers | |
CN111325619A (zh) | 一种基于联合学习的信用卡欺诈检测模型更新方法及装置 | |
CN111340240A (zh) | 实现自动机器学习的方法及装置 | |
CN112199510A (zh) | 一种欺诈概率确定方法、装置、电子设备及存储介质 | |
CN112528110A (zh) | 确定实体业务属性的方法及装置 | |
CN117391313B (zh) | 基于ai的智能决策方法、系统、设备以及介质 | |
CN113205403A (zh) | 一种企业信用等级的计算方法、装置、存储介质及终端 | |
Li et al. | Explain graph neural networks to understand weighted graph features in node classification | |
CN114782161A (zh) | 识别风险用户的方法、装置、存储介质及电子装置 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN112232950A (zh) | 针对借贷风险的评估方法及装置、设备、计算机可读存储介质 | |
CN112328869A (zh) | 一种用户贷款意愿的预测方法、装置及计算机系统 | |
CN116307671A (zh) | 风险预警方法、装置、计算机设备、存储介质 | |
CN115238815A (zh) | 异常交易数据获取方法、装置、设备、介质和程序产品 | |
CN116993513A (zh) | 金融风控模型解释方法、装置及计算机设备 | |
CN116664306A (zh) | 风控规则的智能推荐方法、装置、电子设备及介质 | |
CN115994331A (zh) | 基于决策树的报文分拣方法及装置 | |
CN116611923A (zh) | 基于知识图谱的风险数据获取方法、系统、设备及存储介质 | |
Gopala Krishnan et al. | Predictive algorithm and criteria to perform big data analytics | |
CN111626887A (zh) | 一种社交关系评估方法及装置 | |
KR102409019B1 (ko) | 금융 거래 위험 평가 시스템과 방법 및 이를 위한 컴퓨터 프로그램 | |
Roa Ballén | Machine Learning Models and Alternative Data in Credit Scoring: Statistical and Financial impact | |
CN117541885A (zh) | 样本数据处理方法、装置、存储介质和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |