CN111553383A - 一种数据风险检测方法、装置及设备 - Google Patents
一种数据风险检测方法、装置及设备 Download PDFInfo
- Publication number
- CN111553383A CN111553383A CN202010234432.4A CN202010234432A CN111553383A CN 111553383 A CN111553383 A CN 111553383A CN 202010234432 A CN202010234432 A CN 202010234432A CN 111553383 A CN111553383 A CN 111553383A
- Authority
- CN
- China
- Prior art keywords
- data
- risk
- layer
- sample data
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Educational Administration (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Technology Law (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请属于数据处理领域,公开了一种数据风险检测方法、装置及设备,能够利用K‑Means算法对调取的各个基金机构的样本数据进行聚类分组,计算各个分组的中值数,并根据该中值数计算每个样本数据的偏差度,然后根据偏差度确定危险区间值,将该危险区间值进行保存进而得到异常风险模型,这样,当用户想要对某个基金数据进行风险监测时,直接将该基金数据输入该异常风险模型,确定该基金数据是否属于危险数据,如果属于,及时提醒用户对该基金数据进行预警处理,如果不属于,证明该基金数据正常,无需进一步处理,这样,能够提高基金异常预警的速率和准确度。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据风险检测方法、装置及设备。
背景技术
一直以来,关于各类基金的费用监管是国家监管部门、人社部等重点监察和工作的重心,如何避免各类基金在特定机构及各级下属部门中出现欺诈滥用、违规浪费是政府部门急切关心的,而传统意义上,无论省级监管部门还是地市监管部门都仅仅在宏观层面对基金费用的疑点进行监测和分析,在面对疑似费用异常问题时,也仅仅针对单一对象进行定点分析和跟踪,例如针对XX地市的基金支出和结余进行报警,针对XX机构的基金待遇支出增幅进行预警……。
然而在实际监管过程中,影响费用波动异常的影响因素方方面面,每一个异常问题的成因也不尽相同,因此从宏观层面对单一对象进行预警,往往是需要后期大量的人力排查成本为代价,预警本身的价值也相应大打折扣。
因此,如何提高基金数据的风险预估的准确性,成为目前亟待解决的技术问题。
发明内容
有鉴于此,本申请提供了一种数据风险检测方法、装置及设备。主要目的在于解决如何提高基金数据的风险预估的准确性的技术问题。
依据本申请的第一方面,提供了一种数据风险检测方法,所述方法的步骤包括:
构建调取层,利用所述调取层从各个基金机构的存储数据库中调取预定时间段内的正常基金数据,将所述正常基金数据作为样本数据;
构建中值数计算层,所述中值数计算层利用K-Means算法对所述样本数据进行聚类分组,并计算各个分组的中值数M;
构建偏差度计算层,计算所述各个分组中每个样本数据与所述中值数M的偏差度P;
构建风险评估层,获取所述样本数据的偏差度P最大值Pmax,将0~Pmax的值域确定为安全区间,将所述安全区间保存在所述风险评估层;
将所述中值数计算层、所述偏差度计算层和所述风险评估层进行组合,形成异常风险模型;
将获取到的待检测的基金数据输入至所述异常风险模型;
所述异常风险模型对所述待检测的基金数据进行处理,经过中值数计算层和偏差度计算层处理之后得到待检测的偏差度,风险评估层判断所述待检测的偏差度是否在所述安全区间内,若不在则形成报警信息并显示。
依据本申请的第二方面,提供了一种数据风险检测装置,所述装置包括:
调取模块,用于构建调取层,利用所述调取层从各个基金机构的存储数据库中调取预定时间段内的正常基金数据,将所述正常基金数据作为样本数据;
计算模块,用于构建中值数计算层,所述中值数计算层利用K-Means算法对所述样本数据进行聚类分组,并计算各个分组的中值数M;
所述计算模块,还用于构建偏差度计算层,计算所述各个分组中每个样本数据与所述中值数M的偏差度P;
风险评估模块,用于获取所述样本数据的偏差度P最大值Pmax,将0~Pmax的值域确定为安全区间,将所述安全区间保存在所述风险评估层;
组合模块,用于将所述中值数计算层、所述偏差度计算层和所述风险评估层进行组合,形成异常风险模型;
输入模块,用于将获取到的待检测的基金数据输入至所述异常风险模型;
处理模块,用于利用所述异常风险模型对所述待检测的基金数据进行处理,经过中值数计算层和偏差度计算层之后得到的待检测的偏差度,风险评估层判断所述待检测的偏差度是否在所述安全区间内,若不在则形成报警信息并显示。
依据本申请的第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的数据风险检测方法的步骤。
依据本申请的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述数据风险检测方法的步骤。
借由上述技术方案,本申请提供的一种数据风险检测方法、装置及设备,能够利用K-Means算法对调取的各个基金机构的样本数据进行聚类分组,计算各个分组的中值数,并根据该中值数计算每个样本数据的偏差度,然后根据偏差度确定危险区间值,将该危险区间值进行保存进而得到异常风险模型,这样,当用户想要对某个基金数据进行风险监测时,直接将该基金数据输入该异常风险模型,确定该基金数据是否属于危险数据,如果属于,及时提醒用户进行处理,如果不属于,证明该基金数据正常,无需进一步处理。通过上述方案,能够准确的判断基金数据的是否存在危险,进而当确定基金数据存在危险后能够及时提醒用户对该基金数据进行预警处理,提高基金异常预警的速率和准确度。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请的数据风险检测方法的一个实施例的流程图;
图2为本申请的数据风险检测装置的一个实施例的结构框图;
图3为本申请的计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例提供了一种数据风险检测方法,能够将K-Means算法嵌入至异常风险模型中,利用K-Means算法进行聚类分组的结果更加准确,进而使得异常风险模型对基金数据的识别判断的准确度得到有效提高,这样用户能够及时对异常风险模型确定的危险基金数据进行预警处理,提高基金异常预警的效率。
如图1所示,本申请实施例提供了一种数据风险检测方法,包括如下步骤:
步骤101,构建调取层,利用调取层从各个基金机构的存储数据库中调取预定时间段内的正常基金数据,将正常基金数据作为样本数据。
在该步骤中,每个基金机构会将各类基金的相关费用和对应的基金购买时间等信息存储至本机构内设置的存储数据库中。例如,医疗基金,将用户使用医疗基金时的,就医时间、就医所用费用、就医的种类等信息存储至医疗机构的存储数据库中。
构建的调取层内设有各个基金机构的存储数据库的网络地址,直接根据该网络地址从各个存储数据库中调取预定时间段(例如,一个月内,一年内)的正常基金数据将调取的正常基金数据作为样本数据。其中,调取的全部是正常基金数据,是为了保证下述对这些正常基金数据进行处理后能够准确的确定安全区间。
步骤102,构建中值数计算层,中值数计算层利用K-Means算法对样本数据进行聚类分组,并计算各个分组的中值数M。
在该步骤中,调取层将调取的样本数据发送至中值数计算层,利用K-Means算法将样本数据划分成若干组,然后以每组中相聚最远的两个数据的距离为直径画圆,该圆的圆心即为中值数M。若划分了R组则对应的中值数有R个。
计算得到的中值数即为表示该组数据的正常值。
步骤103,构建偏差度计算层,计算各个分组中每个样本数据与中值数M的偏差度P。
在该步骤中,偏差度即为各个基金数据与中值数的偏差距离,用来判断各个样本数据与正常值的偏移量,偏差度越大证明该样本数据与正常值的偏移量越大,也就越危险。
步骤104,构建风险评估层,获取样本数据的偏差度P最大值Pmax,将0~Pmax的值域确定为安全区间,将安全区间保存在风险评估层。
在该步骤中,由于样本数据全部是正常基金数据,因此将得到的偏差度最大值Pmax确定为安全区间的最大值,这样就可以确定超出该安全区间的偏差度对应的数据即为危险数据。
然后将得到的安全区间保存在风险评估层,以供后续对偏差度的危险程度进行评估。
另外,如果该安全区间存在误差,用户可以根据自己的实际经验进行调整。
步骤105,将中值数计算层、偏差度计算层和风险评估层进行组合,形成异常风险模型。
在该步骤中,由于在进行基金数据检测时,无需再进行数据调取因此需要将上述得到的调取层进行封存,将剩余各层进行组合,即将中值数计算层的输出口与偏差度计算层的输入口相通,偏差度计算层的输出口与风险评估层的输入口相通,进而得到异常风险模型。
步骤106,将获取到的待检测的基金数据输入至异常风险模型。
在该步骤中,待检测的基金数据可以为一个也可以为多个,若为多个,则按照顺序依次输入至异常风险模型。
步骤107,异常风险模型对待检测的基金数据进行处理,经过中值数计算层和偏差度计算层处理之后得到待检测的偏差度,风险评估层判断待检测的偏差度是否在安全区间内,若不在则形成报警信息并显示。
在该步骤中,得到的异常风险模型若对基金数据的检测结果不够准确,则重新将调取层嵌入至异常风险模型中,将调取层的输出口与中值数计算层的输出口相通。然后调取需要的基金数据按照上述步骤对该异常风险模型进行调整,使得异常风险模型的检测精度得到有效提高。
通过上述方案,能够利用K-Means算法对调取的各个基金机构的样本数据进行聚类分组,计算各个分组的中值数,并根据该中值数计算每个样本数据的偏差度,然后根据偏差度确定危险区间值,将该危险区间值进行保存进而得到异常风险模型,这样,当用户想要对某个基金数据进行风险监测时,直接将该基金数据输入该异常风险模型,确定该基金数据是否属于危险数据,如果属于,及时提醒用户进行处理,如果不属于,证明该基金数据正常,无需进一步处理。这样,能够准确的判断基金数据的是否存在危险,进而当确定基金数据存在危险后能够及时提醒用户对该基金数据进行预警处理,提高基金异常预警的速率和准确度。
在具体实施例中,步骤102具体包括:
步骤1021,从多个样本数据中任意选取K个样本数据作为初始聚类中心。
在该步骤中,数值K可以根据实际需要进行设定。
步骤1022,计算剩余样本数据与各个初始聚类中心的距离。
步骤1023,将剩余样本数据分配至距离最近的初始聚类中心对应的分组中。
在该步骤中,分配完成后得到K个分组,然后将只有初始聚类中心的分组提取出来,计算该初始聚类中心的样本数据与其他初始聚类中心的距离,并将该初始聚类中心的样本数据分配至距离最近的其他初始聚类中心的分组中。这样避免了空值的分组对安全区间计算结果的影响。
步骤1024,计算每组样本数据的中心点,将距离所述中心点最近的样本数据作为聚类中心,计算剩余样本数据与各个聚类中心的距离,将所述剩余样本数据分配至距离最近的聚类中心对应的分组中。
在该步骤中,以每组中相聚最远的两个数据的距离为直径画圆,该圆的圆心即为中心点,将距离中心点最近的样本数据作为聚类中心。
步骤1025,判断所述聚类中心是否发生变化,若改变,重新计算每组聚类后的样本数据的新的中心点,将距离所述新的中心点最近的样本数据作为新的聚类中心,计算剩余样本数据与各个新的聚类中心的距离,将所述剩余样本数据分配至距离最近的新的聚类中心对应的分组中,直至,得到的新的聚类中心不再发生变化为止,若不变,则计算每组聚类后的样本数据的中值数M。
在该步骤中,经过上述方案能够反复的对样本数据进行聚类,这样得到的聚类中心更加准确,并且得到的每组样本数据相似度更高。
在计算中值数M时,以每组中相聚最远的两个数据的距离为直径画圆,该圆的圆心即为中值数M。
上述步骤过程即为K-Means算法的实施过程,将K-Means算法嵌入至异常风险模型中,利用K-Means算法进行聚类分组的结果更加准确,进而使得异常风险模型对基金数据的识别判断的准确度得到有效提高。
在具体实施例中,步骤1022具体包括:
步骤10221,以样本数据中的时间数据为横轴x,数值数据为纵轴y建立坐标系。
步骤10222,将每个样本数据标记在坐标系中。
步骤10223,计算每个样本数据与各个初始聚类中心的欧几里得距离:
通过上述方案,将所有样本数据展现在二维平面中,这样更加便捷快速的进行聚类分组的过程,有效提高K-Means算法的聚类过程,保证聚类分组的准确度。
在具体实施例中,步骤103具体包括:
步骤1031,计算各个分组中每个样本数据F与中值数M的差值△。
步骤1032,计算每个样本数据F的偏差值T=△/M。
步骤1033,利用归一化算法将得到的偏差值T转换成预定值域内的偏差度P。
其中,差值F-M,对该差值取绝对值得到△。
通过上述方案,将偏差度归一化到预定值域内,能够避免由于偏差度P的大小差异较大,而导致偏差度不好比较和计算的问题,能够提高基金数据的评估效率,保证用户能够及时对危险的基金数据进行预警处理。
在具体实施例中,步骤104具体包括:
步骤1041,构建风险评估层,获取样本数据的偏差度P的最大值Pmax。
步骤1042,划分低度风险区间[0,Pmax/2],中度风险区间(Pmax/2,Pmax],以及高度风险区间(Pmax,∞),其中,低度风险区间和中度风险区间均为安全区间,高度风险区间为危险区间。
步骤1043,将低度风险区间、中度风险区间和高度风险区间保存至风险评估层。
通过上述方案,当将待检测的基金数据输入异常风险模型后,经过风险评估层的评估可以将待检测的基金数据确定相应的危险等级。针对低度风险区间内的基金数据,无需进行处理;针对中度风险区间内的基金数据,获取该基金数据的用户联系方式,并通过联系方式对该用户进行预警提示;针对高度风险区间内的基金数据,该基金数据对应的用户存在恶意使用医疗基金的行为,获取用户的个人信息,并对该用户进行冻结,禁止该用户再次使用医疗基金,直至系统对该用户进行解冻为止。
在具体实施例中,样本数据的调取路径有N个,调取层按照N各路径调取的样本数据有N组,N组样本数据对应得到N个异常风险模型,为每个异常风险模型的输入口标记对应的路径,将N个异常风险模型的输入口进行整合。
则步骤106具体为:提取待检测的基金数据的调取路径,根据调取路径选择匹配的输入口,将待检测的基金数据从匹配的输入口输入至匹配的异常风险模型。
上述方案中,不同的路径对应不同的样本数据,一个路径的样本数据经过上述步骤101-106之后得到一个能够识别该路径的基金数据的风险程度的异常预警模型,则若有N个路径对应得到N个异常预警模型。
将每个异常预警模型设定对应的路径标识符,用来区分不同的异常预警模型,将带有路径标识符的N个异常预警模型根据路径标识符的首字母进行排序,并按照该顺序将N个异常预警模型进行整合在一起,作为预警总模型。
这样,在预警总模型的入口处添加路径识别功能,直接根据获取的待检测的基金数据的路径,从预警总模型中调取对应的异常预警模型,将待检测的基金数据输入该异常预警模型进行处理。
通过上述方案,不同的路径对应不同的异常预警模型,这样能够提高异常预警模型的风险检测的精度,以及风险检测的效率。
在具体实施例中,步骤107具体包括:
步骤1071,将待检测的基金数据输入至中值数计算层,将待检测的基金数据与各个分组的值域进行比对,获取待检测的基金数据所在分组的中值数M待检测,将M待检测发送至偏差度计算层。
步骤1072,偏差度计算层计算待检测的基金数据与M待检测的偏差度P待检测,将P待检测发送至风险评估层。
步骤1073,风险评估层将P待检测与危险区间进行比对,当确定待检测的基金数据不在安全区间内,属于危险数据时,则形成报警信息并显示。
通过上述方案,当用户想要对某个基金数据进行风险监测时,直接将该基金数据输入该异常风险模型,确定该基金数据是否属于危险数据,如果属于,及时提醒用户进行处理,如果不属于,证明该基金数据正常,无需进一步处理。
在本申请的另一个实施例的数据风险检测方法中,适用于医疗基金,包括如下步骤:
一、构建异常预警模型
1、第一层,调取层,调取各个机构存储系统中预定时间段内(例如,1个月,6个月或者1年,具体根据用户的实际情况选定)的医保费用支出,和各个机构的总就诊人次。
设定对应的数据选取路径(该路径与第一部分的第一步不同,每个路径对应一组样本):例如:路径A:疾病-机构-科室-检验检查,路径B:疾病-医师-用药,路径C:疾病-机构-科室-医师-诊疗。
根据不同的路径选取样本(注:用户需要检测哪一种或者哪几种路径,就选取几种样本。),样本中包含就诊费用和就诊人数,并且用户根据每个样本数据的实际情况,人为预先为每个样本数据标记对应的风险程度。
其中,每一个路径对应一组样本数据。
2、第二层,中值数计算层,添加K-Means算法进行聚类分组,具体如下:
1)从样本数据对象中任意选择k个对象作为初始聚类中心。
2)计算剩余样本数据与每个初始聚类中心的欧几里得距离,
将剩余样本数据分配至距离最近的聚类中心的组中,得到K个聚类组。
3)重新计算每个组的聚类中心,具体为:计算每组在坐标中所在的坐标范围的中心点,并以距离该中心点距离最近的对象作为该组新的聚类中心。
4)循环2)到3)直到每个聚类组不再发生变化为止。
然后,将聚类后得到的每个聚类组,按照从小到大的顺序排列,并计算每个聚类组的中值数。
例如,对应的分组为A组,B组,C组,D组,得到的中值数为:MedianA,MedianB,MedianC,MedianD。
3、第三层,偏差度计算层,计算各组中每个样本数据F与对应的中值数的差值:△A(x)=FA-MedianA、△B(x)=FB-MedianB、△C(x)=FC-MedianC、△D(x)=FD-MedianD。
计算各组的次均费用的偏差度
TA(x)=△A(x)/MedianA
TB(x)=△B(x)/MedianB
TC(x)=△C(x)/MedianC
TD(x)=△D(x)/MedianD。
并利用归一化算法将偏差度T转换成0-100的数值P。
4、第四层,风险评估层,用户根据自己需要设定危险值的区间,例如,0-50低风险,50-80中度风险,80-100高度风险。
将第四层计算得到的数值P与设定的危险值的区间进行比对,并输出对应的危险程度。
与预先标记的危险程度进行比对,若不同,则重新调整异常预警模型的危险值的区间,进而完成对异常预警模型的矫正。
不同的路径对应不同的样本数据,一个路径的样本数据经过上述步骤1-4之后得到能够识别该路径的医疗数据的风险程度的异常预警模型,则若有N个路径对应得到N个异常预警模型。
将每个异常预警模型设定对应的路径标识符,用来区分不同的异常预警模型;
将带有路径标识符的N个异常预警模型根据路径标识符的首字母进行排序,并按照该顺序将N个异常预警模型进行整合在一起,作为预警总模型。
这样可以根据该医疗数据的路径从预警总模型中选择对应的异常预警进行风险检测。
二、利用异常预警模型进行检测
1、在进行检测时,将上述整合后异常预警模型中的第一层封存。
2、在预警总模型的入口处添加路径识别功能,直接根据获取的待检测的医疗数据X(即,医疗费用)的路径,从预警总模型中根据路径标识符调取对应的异常预警模型,将待检测的医疗数据X输入该异常预警模型。
3、该异常预警模型的第二层将待检测的医疗数据X与该异常预警模型中划分的各组数据的范围进行比对,确定待检测的医疗数据X对应的分组,并获取该分组的中值数M。
4、第二层将待检测的医疗数据X和对应的中值数M发送至第三层,第三层计算待检测的数据与中值数的偏差度T。T=(X-M)/M,利用归一化算法将偏差度T转换成0-100的数值。
5、第四层接收到转换后的数值之后,将其与对应的危险值区间进行比对,确定出待检测的数据的危险程度。
若是高危险程度,则调取待检测的数据对应的机构存储系统,并从存储系统中调取相关信息(例如,待检测的数据的来源、相关人物的个人信息等),进行显示,以供用户及时处理。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种数据风险检测装置,如图2所示,装置包括:依次连接的调取模块21、计算模块22、风险评估模块23、组合模块24、输入模块25和处理模块26。
调取模块21,用于构建调取层,利用调取层从各个基金机构的存储数据库中调取预定时间段内的正常基金数据,将正常基金数据作为样本数据;
计算模块22,用于构建中值数计算层,中值数计算层利用K-Means算法对样本数据进行聚类分组,并计算各个分组的中值数M;
计算模块22,还用于构建偏差度计算层,计算各个分组中每个样本数据与中值数M的偏差度P;
风险评估模块23,用于获取样本数据的偏差度P最大值Pmax,将0~Pmax的值域确定为安全区间,将安全区间保存在风险评估层;
组合模块24,用于将中值数计算层、偏差度计算层和风险评估层进行组合,形成异常风险模型;
输入模块25,用于将获取到的待检测的基金数据输入至异常风险模型;
处理模块26,用于利用异常风险模型对待检测的基金数据进行处理,经过中值数计算层和偏差度计算层之后得到的待检测的偏差度,风险评估层判断待检测的偏差度是否在安全区间内,若不在则形成报警信息并显示。
在具体实施例中,计算模块22包括:
选取单元,用于从多个样本数据中任意选取K个样本数据作为初始聚类中心;
距离计算单元,用于计算剩余样本数据与各个初始聚类中心的距离;
聚类分组单元,用于将剩余样本数据分配至距离最近的初始聚类中心对应的分组中;
聚类分组单元,还用于计算每组样本数据的中心点,将距离中心点最近的样本数据作为聚类中心,计算剩余样本数据与各个聚类中心的距离,将剩余样本数据分配至距离最近的聚类中心对应的分组中;
判断单元,用于判断聚类中心是否发生变化,若改变,重新计算每组聚类后的样本数据的新的中心点,将距离新的中心点最近的样本数据作为新的聚类中心,计算剩余样本数据与各个新的聚类中心的距离,将剩余样本数据分配至距离最近的新的聚类中心对应的分组中,直至,得到的新的聚类中心不再发生变化为止,若不变,则计算每组聚类后的样本数据的中值数M。
在具体实施例中,距离计算单元具体包括:
坐标系建立单元,用于以样本数据中的时间数据为横轴x,数值数据为纵轴y建立坐标系;
标记单元,用于将每个样本数据标记在坐标系中;
欧几里得距离计算单元,用于计算每个样本数据与各个初始聚类中心的欧几里得距离:
在具体实施例中,计算模块22还包括:
差值计算单元,用于计算各个分组中每个样本数据F与中值数M的差值△;
偏差值计算单元,用于计算每个样本数据F的偏差值T=△/M;
归一化单元,用于利用归一化算法将得到的偏差值T转换成预定值域内的偏差度P。
在具体实施例中,风险评估模块23具体包括:
获取单元,用于构建风险评估层,获取样本数据的偏差度P的最大值Pmax;
划分单元,用于划分低度风险区间[0,Pmax/2],中度风险区间(Pmax/2,Pmax],以及高度风险区间(Pmax,∞),其中,低度风险区间和中度风险区间均为安全区间,高度风险区间为危险区间;
保存单元,用于将低度风险区间、中度风险区间和高度风险区间保存至风险评估层。
在具体实施例中,样本数据的调取路径有N个,调取层按照N各路径调取的样本数据有N组,N组样本数据对应得到N个异常风险模型,为每个异常风险模型的输入口标记对应的路径,将N个异常风险模型的输入口进行整合;
则输入模块25具体用于:提取待检测的基金数据的调取路径,根据调取路径选择匹配的输入口,将待检测的基金数据从匹配的输入口输入至匹配的异常风险模型。
在具体实施例中,处理模块26具体包括:
比对单元,用于将待检测的基金数据输入至中值数计算层,将待检测的基金数据与各个分组的值域进行比对,获取待检测的基金数据所在分组的中值数M待检测,将M待检测发送至偏差度计算层;
偏差度计算单元,用于利用偏差度计算层计算待检测的基金数据与M待检测的偏差度P待检测,将P待检测发送至风险评估层;
比对单元,还用于利用风险评估层将P待检测与危险区间进行比对,当确定待检测的基金数据不在安全区间内,属于危险数据时,则形成报警信息并显示。
基于上述图1所示方法和图2所示装置的实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,如图3所示,包括存储器32和处理器31,其中存储器32和处理器31均设置在总线33上存储器32存储有计算机程序,处理器31执行计算机程序时实现图1所示的数据风险检测方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储器(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
可选地,该设备还可以连接用户接口、网络接口、摄像头、射频(Radio Frequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备的结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
基于上述如图1所示方法和图2所示装置的实施例,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1所示的数据风险检测方法。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与计算机设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,能够利用K-Means算法对调取的各个基金机构的样本数据进行聚类分组,计算各个分组的中值数,并根据该中值数计算每个样本数据的偏差度,然后根据偏差度确定危险区间值,将该危险区间值进行保存进而得到异常风险模型,这样,当用户想要对某个基金数据进行风险监测时,直接将该基金数据输入该异常风险模型,确定该基金数据是否属于危险数据,如果属于,及时提醒用户进行处理,如果不属于,证明该基金数据正常,无需进一步处理。这样,能够准确的判断基金数据的是否存在危险,进而当确定基金数据存在危险后能够及时提醒用户对该基金数据进行预警处理,提高基金异常预警的速率和准确度。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种数据风险检测方法,其特征在于,所述方法的步骤包括:
构建调取层,利用所述调取层从各个基金机构的存储数据库中调取预定时间段内的正常基金数据,将所述正常基金数据作为样本数据;
构建中值数计算层,所述中值数计算层利用K-Means算法对所述样本数据进行聚类分组,并计算各个分组的中值数M;
构建偏差度计算层,计算所述各个分组中每个样本数据与所述中值数M的偏差度P;
构建风险评估层,获取所述样本数据的偏差度P最大值Pmax,将0~Pmax的值域确定为安全区间,将所述安全区间保存在所述风险评估层;
将所述中值数计算层、所述偏差度计算层和所述风险评估层进行组合,形成异常风险模型;
将获取到的待检测的基金数据输入至所述异常风险模型;
所述异常风险模型对所述待检测的基金数据进行处理,经过中值数计算层和偏差度计算层处理之后得到待检测的偏差度,风险评估层判断所述待检测的偏差度是否在所述安全区间内,若不在则形成报警信息并显示。
2.根据权利要求1所述的方法,其特征在于,所述构建中值数计算层,所述中值数计算层利用K-Means算法对所述样本数据进行聚类分组,并计算各个分组的中值数M,具体包括:
从多个所述样本数据中任意选取K个样本数据作为初始聚类中心;
计算剩余样本数据与各个初始聚类中心的距离;
将所述剩余样本数据分配至距离最近的初始聚类中心对应的分组中;
计算每组样本数据的中心点,将距离所述中心点最近的样本数据作为聚类中心,计算剩余样本数据与各个聚类中心的距离,将所述剩余样本数据分配至距离最近的聚类中心对应的分组中;
判断所述聚类中心是否发生变化,若改变,重新计算每组聚类后的样本数据的新的中心点,将距离所述新的中心点最近的样本数据作为新的聚类中心,计算剩余样本数据与各个新的聚类中心的距离,将所述剩余样本数据分配至距离最近的新的聚类中心对应的分组中,直至,得到的新的聚类中心不再发生变化为止,若不变,则计算每组聚类后的样本数据的中值数M。
4.根据权利要求1所述的方法,其特征在于,所述构建偏差度计算层,计算所述各个分组中每个样本数据与所述中值数M的偏差度P,具体包括:
计算各个分组中每个样本数据F与所述中值数M的差值△;
计算每个样本数据F的偏差值T=△/M;
利用归一化算法将得到的偏差值T转换成预定值域内的偏差度P。
5.根据权利要求1所述的方法,其特征在于,构建风险评估层,获取所述样本数据的偏差度P最大值Pmax,将0~Pmax的值域确定为安全区间,将所述安全区间保存在所述风险评估层,具体包括:
构建风险评估层,获取所述样本数据的偏差度P的最大值Pmax;
划分低度风险区间[0,Pmax/2],中度风险区间(Pmax/2,Pmax],以及高度风险区间(Pmax,∞),其中,所述低度风险区间和所述中度风险区间均为安全区间,所述高度风险区间为危险区间;
将所述低度风险区间、所述中度风险区间和所述高度风险区间保存至所述风险评估层。
6.根据权利要求1所述的方法,其特征在于,所述样本数据的调取路径有N个,调取层按照N各路径调取的样本数据有N组,N组样本数据对应得到N个异常风险模型,为每个异常风险模型的输入口标记对应的路径,将N个异常风险模型的输入口进行整合;
则所述将获取到的待检测的基金数据输入至所述异常风险模型,具体包括:
提取所述待检测的基金数据的调取路径,根据所述调取路径选择匹配的输入口,将所述待检测的基金数据从所述匹配的输入口输入至匹配的异常风险模型。
7.根据权利要求1所述的方法,其特征在于,所述异常风险模型对所述待检测的基金数据进行处理,经过中值数计算层和偏差度计算层之后得到的待检测的偏差度,风险评估层判断所述待检测的偏差度是否在所述安全区间内,若不在则形成报警信息并显示,具体包括:
将所述待检测的基金数据输入至所述中值数计算层,将所述待检测的基金数据与各个分组的值域进行比对,获取所述待检测的基金数据所在分组的中值数M待检测,将M待检测发送至所述偏差度计算层;
所述偏差度计算层计算所述待检测的基金数据与M待检测的偏差度P待检测,将P待检测发送至所述风险评估层;
所述风险评估层将P待检测与所述危险区间进行比对,当确定所述待检测的基金数据不在所述安全区间内,属于危险数据时,则形成报警信息并显示。
8.一种数据风险检测装置,其特征在于,所述装置包括:
调取模块,用于构建调取层,利用所述调取层从各个基金机构的存储数据库中调取预定时间段内的正常基金数据,将所述正常基金数据作为样本数据;
计算模块,用于构建中值数计算层,所述中值数计算层利用K-Means算法对所述样本数据进行聚类分组,并计算各个分组的中值数M;
所述计算模块,还用于构建偏差度计算层,计算所述各个分组中每个样本数据与所述中值数M的偏差度P;
风险评估模块,用于获取所述样本数据的偏差度P最大值Pmax,将0~Pmax的值域确定为安全区间,将所述安全区间保存在所述风险评估层;
组合模块,用于将所述中值数计算层、所述偏差度计算层和所述风险评估层进行组合,形成异常风险模型;
输入模块,用于将获取到的待检测的基金数据输入至所述异常风险模型;
处理模块,用于利用所述异常风险模型对所述待检测的基金数据进行处理,经过中值数计算层和偏差度计算层之后得到的待检测的偏差度,风险评估层判断所述待检测的偏差度是否在所述安全区间内,若不在则形成报警信息并显示。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的数据风险检测方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的数据风险检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010234432.4A CN111553383A (zh) | 2020-03-30 | 2020-03-30 | 一种数据风险检测方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010234432.4A CN111553383A (zh) | 2020-03-30 | 2020-03-30 | 一种数据风险检测方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111553383A true CN111553383A (zh) | 2020-08-18 |
Family
ID=72007509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010234432.4A Pending CN111553383A (zh) | 2020-03-30 | 2020-03-30 | 一种数据风险检测方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111553383A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465011A (zh) * | 2020-11-25 | 2021-03-09 | 平安医疗健康管理股份有限公司 | 基于项目研发过程的项目风险预测方法和系统 |
-
2020
- 2020-03-30 CN CN202010234432.4A patent/CN111553383A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465011A (zh) * | 2020-11-25 | 2021-03-09 | 平安医疗健康管理股份有限公司 | 基于项目研发过程的项目风险预测方法和系统 |
CN112465011B (zh) * | 2020-11-25 | 2022-08-02 | 深圳平安医疗健康科技服务有限公司 | 基于项目研发过程的项目风险预测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6594044B2 (ja) | 実時系列内の異常を検出するための方法 | |
CN108109700B (zh) | 一种慢性病药物疗效评价方法和装置 | |
CN104751055B (zh) | 一种基于纹理的分布式恶意代码检测方法、装置及系统 | |
US9911066B2 (en) | Classification system for similar objects from digital images | |
CN113592019B (zh) | 基于多模型融合的故障检测方法、装置、设备及介质 | |
CN111785384A (zh) | 基于人工智能的异常数据识别方法及相关设备 | |
CN110399400B (zh) | 检测异常数据的方法、装置、设备以及介质 | |
CN111027531A (zh) | 指针式仪表信息识别方法、装置及电子设备 | |
CN107255825A (zh) | 信号分类方法、装置及卫星信号检测设备 | |
CN111553383A (zh) | 一种数据风险检测方法、装置及设备 | |
CN109997194A (zh) | 异常值显著性评价的系统和方法 | |
CN109767430B (zh) | 有价票据的质量检测方法及质量检测系统 | |
CN108429632B (zh) | 一种业务监控方法和装置 | |
CN113724779B (zh) | 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备 | |
CN109815109B (zh) | 数据模式变更检测方法、装置、设备及可读存储介质 | |
CN114638693A (zh) | 确定银行网点业务类型范围的方法及系统 | |
Arshad et al. | A computational approach to generate highly conserved gene co-expression networks with RNA-seq data | |
CN114240928A (zh) | 板卡质量的分区检测方法、装置、设备及可读存储介质 | |
JP2021193503A (ja) | 分割プログラム、分割方法および情報処理装置 | |
CN112085081A (zh) | 一种污水成分检测方法及系统 | |
CN113436020B (zh) | 违规账户的识别方法、装置、计算机设备和存储介质 | |
Ronquist et al. | 4dnvestigator: a toolbox for the analysis of time series hi-c and rna-seq data | |
CN113327655B (zh) | 多维度数据的离群值检测方法、装置、设备和介质 | |
CN113449309B (zh) | 终端安全状态识别方法、装置、设备及介质 | |
Calciano et al. | A predictive microarray-based biomarker for early detection of Alzheimer’s disease intended for clinical diagnostic application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220527 Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd. Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001 Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd. |
|
TA01 | Transfer of patent application right |