CN111640005A - 数据分析方法、装置、计算机设备及存储介质 - Google Patents

数据分析方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111640005A
CN111640005A CN202010470730.3A CN202010470730A CN111640005A CN 111640005 A CN111640005 A CN 111640005A CN 202010470730 A CN202010470730 A CN 202010470730A CN 111640005 A CN111640005 A CN 111640005A
Authority
CN
China
Prior art keywords
subgraph
density
level high
core
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010470730.3A
Other languages
English (en)
Inventor
赵世泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010470730.3A priority Critical patent/CN111640005A/zh
Publication of CN111640005A publication Critical patent/CN111640005A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明涉及一种大数据,揭露数据分析方法、装置、计算机设备及存储介质。本发明的数据分析方法可根据采集的分析请求获取一级高密子图,其中,一级高密子图为多个关联的贷款数据组成的关系网络;通过对所有一级高密子图进行过滤处理,以过滤掉与分析请求无关的贷款数据,挖掘与本次分析相关的有效数据,进而生成二级高密子图;通过对获取的每一个二级高密子图进行溯源处理,以获取子图核心,基于核心表单中的历史核心分别对每一个二级高密子图的子图核心进行分析,以便于根据子图核心了解与二级高密子图对应的一级高密子图的演化情况,提高贷款数据的风控精准性,生成贷款分析结果。本发明还涉及区块链技术,一级高密子图存储于区块链中。

Description

数据分析方法、装置、计算机设备及存储介质
技术领域
本发明涉及大数据,尤其涉及数据分析方法、装置、计算机设备及存储介质。
背景技术
随着互联网的飞速发展,人类的社会活动越来越网络化。人与人、人与实体之间关系被抽象成图数据,其中顶点表示人或者实体,边表示关系。由于图数据可容纳庞大的数据,以及能够直观的展示数据与数据之间关系的优势,因此图数据被广泛应用于多种领域。现有的信贷网络就是基于大量的贷款数据而生成图数据。但是现有的信贷网络往往只体现了整个数据在某一时刻的表现,给出的结果也是当前信贷网络的状态。
在实际在业务中,信贷网络(图计算)计算往往需要结合时间维度实现指定的业务需求,例如对高密子图的演化进行分析和预测。而目前现有的图计算,往往对高密子图的演化预测仅仅考虑新子图的增长,将所有的历史子图作为数据积累。这样会有一个问题,即如果历史数据的积累过于庞大,会直接影响对当前子图的演化预测,无法有效的挖局有效数据,从而影响预测结果,风控的精准性差。
发明内容
针对现有信贷网络的风控精准性差的问题,现提供一种旨在可提高信贷网络风控精准性的数据分析方法、装置、计算机设备及存储介质。
为实现上述目的,本发明提供一种数据分析方法,包括:
采集分析请求;
根据所述分析请求获取至少一个一级高密子图,所述一级高密子图为多个关联的贷款数据组成的关系网络;
基于所述分析请求对获取的所有所述一级高密子图进行过滤处理,获取相应的二级高密子图;
对获取的每一个所述二级高密子图进行溯源处理,以获取与所述二级高密子图对应的子图核心;
基于核心表单中的历史核心分别对每一个所述二级高密子图的所述子图核心进行分析,生成贷款分析结果。
优选的,所述根据所述分析请求获取至少一个一级高密子图,包括:
根据所述分析请求从数据库中获取所有的所述一级高密子图;或
根据所述分析请求从区块链中获取所有的所述一级高密子图。
优选的,所述一级高密子图包括至少一个第一节点和与所述第一节点关联的至少一个第二节点,所述第一节点和所述第二节点均为贷款数据;
所述基于所述分析请求对获取的所有所述一级高密子图进行过滤处理,获取相应的二级高密子图,包括:
移除每一个所述一级高密子图中不符合预设条件的所述第一节点和所述第二节点,以生成与所述一级高密子图对应的三级高密子图;
采用k核算法分别对获取的每一个所述三级高密子图进行过滤,以生成与所述三级高密子图对应的所述二级高密子图。
优选的,所述预设条件为:
所述一级高密子图中的所述第一节点对应的时间戳大于预设时刻,和
所述一级高密子图中的所述第二节点对应的时间戳大于所述预设时刻。
优选的,所述采用k核算法分别对获取的每一个所述三级高密子图进行过滤,以生成与所述三级高密子图对应的所述二级高密子图,包括:
移除每一个所述三级高密子图中与所述第一节点关联的所述第二节点的个数小于预设阈值的所述第一节点,生成与所述三级高密子图关联的四级高密子图;
移除每一个所述四级高密子图中与所述第一节点关联的所述第二节点的个数小于预设阈值的所述第一节点,生成与所述四级高密子图关联的所述二级高密子图。
优选的,所述对获取的每一个所述二级高密子图进行溯源处理,以获取与所述二级高密子图对应的子图核心,包括:
获取每一个所述二级高密子图中时间戳最小的所述第一节点或所述第二节点,将获得的所述第一节点或所述第二节点作为所述二级高密子图的子图核心。
优选的,所述核心表单包括历史核心、与所述历史核心对应的历史时间戳和所述历史核心对应的一级高密子图信息;
所述基于核心表单中的历史核心分别对每一个所述二级高密子图的所述子图核心进行分析,生成贷款分析结果,包括:
获取所述二级高密子图的所述子图核心对应的所述一级高密子图信息;
在所述核心表单中提取与获取的所述一级高密子图信息关联的所述历史核心以及与所述历史核心对应的所述历史时间戳;
将所述二级高密子图的所述子图核心依据与所述历史核心对应的所述历史时间戳与相应的所述历史核心进行匹配,获取所述子图核心的历史状态,依据所述历史状态生成与所述子图核心对应的所述二级高密子图的贷款分析结果。
为实现上述目的,本发明还提供一种数据分析装置,包括:
采集单元,用于采集分析请求;
获取单元,用于根据所述分析请求获取至少一个一级高密子图,所述一级高密子图为多个关联的贷款数据组成的关系网络;
处理单元,用于基于所述分析请求对获取的所有所述一级高密子图进行过滤处理,获取相应的二级高密子图;
溯源单元,用于对获取的每一个所述二级高密子图进行溯源处理,以获取与所述二级高密子图对应的子图核心;
分析单元,用于基于核心表单中的历史核心分别对每一个所述二级高密子图的所述子图核心进行分析,生成贷款分析结果。
为实现上述目的,本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的数据分析方法、装置、计算机设备及存储介质,可根据采集的分析请求获取一级高密子图,其中,一级高密子图为多个关联的贷款数据组成的关系网络;通过对所有一级高密子图进行过滤处理,以过滤掉与分析请求无关的贷款数据,挖掘与本次分析相关的有效数据,进而生成二级高密子图;通过对获取的每一个二级高密子图进行溯源处理,以获取子图核心,基于核心表单中的历史核心分别对每一个二级高密子图的子图核心进行分析,以便于根据子图核心了解与二级高密子图对应的一级高密子图的演化情况,提高贷款数据的风控精准性,生成贷款分析结果。
附图说明
图1为本发明所述数据分析方法的一种实施例的流程图;
图2为本发明中一级高密子图的一种是实施例的示意图;
图3为本发明中对一级高密子图进行过滤处理的一种实施例的流程图;
图4a-图4c为本发明中采用k核算法对三级高密子图进行过滤的流程示意图;
图5为本发明所述的数据分析装置的一种实施例的模块图;
图6为本发明中处理单元的内部模块图;
图7为本发明计算机设备的一个实施例的硬件架构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明提供的数据分析方法、装置、计算机设备及存储介质,适用于金融及保险等业务领域。本发明可根据采集的分析请求获取一级高密子图,其中,一级高密子图为多个关联的贷款数据组成的关系网络;通过对所有一级高密子图进行过滤处理,以过滤掉与分析请求无关的贷款数据,挖掘与本次分析相关的有效数据,进而生成二级高密子图;通过对获取的每一个二级高密子图进行溯源处理,以获取子图核心,基于核心表单中的历史核心分别对每一个二级高密子图的子图核心进行分析,以便于根据子图核心了解与二级高密子图对应的一级高密子图的演化情况,提高贷款数据的风控精准性,生成贷款分析结果。
实施例一
请参阅图1,本实施例的一种数据分析方法,包括:
S1.采集分析请求;
具体地,分析请求为业务请求可以是以预设周期(例如:1天、一周、一个月等)触发的请求;也可以是用户根据需要自行触发的请求。
S2.根据所述分析请求获取至少一个一级高密子图;
需要说明的是:所述一级高密子图可采用JSON格式。所述一级高密子图为多个关联的贷款数据组成的关系网络;所述一级高密子图包括至少一个第一节点和与所述第一节点关联的至少一个第二节点,所述第一节点和所述第二节点均为贷款数据;
作为举例而非限定,参考图2所示,一级高密子图中的第一节点可以是:手机号码、用户名(如:人名)、公司名称、住址信息等;一级高密子图中的第二节点也可以是:手机号码、用户名、公司名称、住址信息等。第一节点与第二节点之间的关联关系可以是:申请手机号码关联、联系电话关联、公司关联或住址关联等。
具体地,在步骤S2中,根据所述分析请求从数据库中获取所有的所述一级高密子图。
在本实施例中可预先提供一图数据库,所述图数据库用于存储多个一级高密子图;当采集到分析请求时,获取当前时刻Ti存储于图数据库中所有的一级高密子图,及获取当前时刻存储于图数据库的图数据快照。
在实际应用中,可提供一贷款数据库,当接收到分析请求时,从贷款数据库获取贷款数据生成一级高密子图。
具体地,在步骤S2中还可根据所述分析请求从区块链中获取所有的所述一级高密子图。需要强调的是,为进一步保证上述一级高密子图的私密和安全性,上述一级高密子图还可以存储于一区块链的节点中。
S3.基于所述分析请求对获取的所有所述一级高密子图进行过滤处理,获取相应的二级高密子图;
在本实施例中,通过对所有一级高密子图进行过滤处理,以过滤掉与分析请求无关的贷款数据,挖掘与本次分析相关的有效数据,进而生成二级高密子图。
具体地,请参阅图3步骤S3包括:
S31.移除每一个所述一级高密子图中不符合预设条件的所述第一节点和所述第二节点,以生成与所述一级高密子图对应的三级高密子图;
需要说明的是:所述预设条件为:
所述一级高密子图中的所述第一节点对应的时间戳大于预设时刻,和
所述一级高密子图中的所述第二节点对应的时间戳大于所述预设时刻。
本实施例的分析请求可包括预设时刻(如:2012年1月1日0时)。在一级高密子图中剔除早于预设时刻的节点,生成由晚于预设时刻的节点组成的三级高密子图。
预设时刻还可以根据预设周期生成,基于触发分析请求的当前时刻Ti和预设周期D(如:一年、一个月等)计算获得。例如:Ti-D得到预设时刻。
在本实施例中,在一级高密子图中的每一个节点均对应相应的时间戳,若节点的时间戳大于预设时刻表示该节点生成的时刻晚于预设时刻;若节点的时间戳小于预设时刻表示该节点生成的时刻早于预设时刻。当某一个一级高密子图中的所有节点的时间戳均小于预设时刻时,则移除该一级高密子图。
在步骤S31中,移除一级高密子图中时间戳早于预设时刻的节点,后移除孤立的节点,即:不互相关联的节点。
S32.采用k核算法分别对获取的每一个所述三级高密子图进行过滤,以生成与所述三级高密子图对应的所述二级高密子图。
具体的,步骤S32包括:
移除每一个所述三级高密子图中与所述第一节点关联的所述第二节点的个数小于预设阈值的所述第一节点,生成与所述三级高密子图关联的四级高密子图;
移除每一个所述四级高密子图中与所述第一节点关联的所述第二节点的个数小于预设阈值的所述第一节点,生成与所述四级高密子图关联的所述二级高密子图。
例如,参考图4a-4c当预设阈值为3时,移除三级高密子图(图4a)中与第一节点关联的第二节点的个数少于3的第一节点,以及该第一节点的关联关系,生成四级高密子图(图4b);移除四级高密子图中与第一节点关联的第二节点的个数少于3的第一节点,以及该第一节点的关联关系,生成二级高密子图(图4c)。
在本实施例中,通过k核算法获取在当前时刻Ti下图数据快照在预设阈值下的高密子图,实现了对高密子的有效挖掘。
S4.对获取的每一个所述二级高密子图进行溯源处理,以获取与所述二级高密子图对应的子图核心;
具体地,在步骤S4中,获取每一个所述二级高密子图中时间戳最小的所述第一节点或所述第二节点,将获得的所述第一节点或所述第二节点作为所述二级高密子图的子图核心。
在本实施例中,通过对二级高密子图进行溯源,得到二级高密子图中创建时间最早(时间戳最小)的节点,将该节点作为二级高密子图的子图核心。若在步骤S3中得到了m个二级高密子图,则在步骤S4中得到m个子图核心S1,S2,…,Sm,并将得到的所有子图核心存储于核心表单中。
S5.基于核心表单中的历史核心分别对每一个所述二级高密子图的所述子图核心进行分析,生成贷款分析结果。
其中,所述核心表单包括历史核心、与所述历史核心对应的历史时间戳和所述历史核心对应的一级高密子图信息;
进一步地,步骤S5包括:
获取所述二级高密子图的所述子图核心对应的所述一级高密子图信息;
在所述核心表单中提取与获取的所述一级高密子图信息关联的所述历史核心以及与所述历史核心对应的所述历史时间戳;
将所述二级高密子图的所述子图核心依据与所述历史核心对应的所述历史时间戳与相应的所述历史核心进行匹配,获取所述子图核心的历史状态,依据所述历史状态生成与所述子图核心对应的所述二级高密子图的贷款分析结果。
具体地,将二级高密子图的子图核心以及历史时间戳依次与核心表单中相应的历史核心进行匹配,若子图核心在核心表单中曾经出现过,表示与该子图核心对应的高密子图属于低风险。正常的反欺诈引用场景中,贷款的需求不会频发,因此这是一种正常的状态,可标记对应的高密子图为抵风险。
将二级高密子图的子图核心以及历史时间戳依次与核心表单中相应的历史核心进行匹配,若子图核心在核心表单中曾经出现过,后来又消失了,表示与该子图核心对应的高密子图属于低风险。正常的反欺诈引用场景中,贷款的需求不会频发,因此这是一种正常的状态,可标记对应的高密子图为抵风险。
将二级高密子图的子图核心以及历史时间戳依次与核心表单中相应的历史核心进行匹配,若子图核心在核心表单中曾经出现过,后来又消失,再后来又出现,表示该子图核心对应的高密子图的风险状态具有波动性,既用户可能在尝试借款一段时间后,没有借款需求,后来过了段时间又开始借款。如果时间间隔在合理范围内,证明群用户具有规律性的贷款需求,以后可以发展成长期稳定客户。如果时间间隔不在合理范围内,证明有可能是羊毛的在不断变换平台进行恶意贷款,应该标记为高风险。
将二级高密子图的子图核心以及历史时间戳依次与核心表单中相应的历史核心进行匹配,若子图核心在核心表单中一直存在,则表示该子图核心对应的高密子图中的相关团体,一直在平台借款,数据高风险。有可能考虑为羊毛的的攻击,或者恶意贷款。
在本实施例中,数据分析方法可根据采集的分析请求获取一级高密子图,其中,一级高密子图为多个关联的贷款数据组成的关系网络;通过对所有一级高密子图进行过滤处理,以过滤掉与分析请求无关的贷款数据,挖掘与本次分析相关的有效数据,进而生成二级高密子图;通过对获取的每一个二级高密子图进行溯源处理,以获取子图核心,基于核心表单中的历史核心分别对每一个二级高密子图的子图核心进行分析,以便于根据子图核心了解与二级高密子图对应的一级高密子图的演化情况,提高贷款数据的风控精准性,生成贷款分析结果。
在本实施例中,数据分析方法通过预设时刻筛选贷款数据,能够很好的消除历史旧数据对当前业务场景的影响,特别是针对一些时效性要求比较高的场景,还可以极大地降低数据规模,提高高密子图挖掘的性能,如实时欺诈团体识别,通过对历史数据有针对性的削减,能快速准确的识别出当前最新出现的大规模可疑团体;数据分析方法还可周期性的对贷款数据进行分析,能够从时间维度上对历史数据进行时序分析,以应对业务上对未来图数据变化的预测回归。如,预测下个时间段高密子图数,预测下个时间段,哪些高密子图会消失等。通过对高密子图溯源,能够识别出高密子图的演化情况,即高密子图是不是持续活跃,间歇活跃,或者是新增活跃,以将其应用在不同的业务场景中。
实施例二
请参阅图5,本实施例的一种数据分析装置1,包括:采集单元11、获取单元12、处理单元13、溯源单元14和分析单元15,其中:
采集单元11,用于采集分析请求;
具体地,分析请求为业务请求可以是以预设周期(例如:1天、一周、一个月等)触发的请求;也可以是用户根据需要自行触发的请求。
获取单元12,用于根据所述分析请求获取至少一个一级高密子图;
需要说明的是:所述一级高密子图可采用JSON格式。所述一级高密子图为多个关联的贷款数据组成的关系网络;所述一级高密子图包括至少一个第一节点和与所述第一节点关联的至少一个第二节点,所述第一节点和所述第二节点均为贷款数据;
具体地,获取单元12根据所述分析请求从数据库中获取所有的所述一级高密子图。
在本实施例中可预先提供一图数据库,所述图数据库用于存储多个一级高密子图;当采集到分析请求时,获取当前时刻Ti存储于图数据库中所有的一级高密子图,及获取当前时刻存储于图数据库的图数据快照。
在实际应用中,可提供一贷款数据库,当接收到分析请求时,从贷款数据库获取贷款数据生成一级高密子图。
具体地,在获取单元12中还可根据所述分析请求从区块链中获取所有的所述一级高密子图。需要强调的是,为进一步保证上述一级高密子图的私密和安全性,上述一级高密子图还可以存储于一区块链的节点中。
处理单元13,用于基于所述分析请求对获取的所有所述一级高密子图进行过滤处理,获取相应的二级高密子图;
在本实施例中,通过对所有一级高密子图进行过滤处理,以过滤掉与分析请求无关的贷款数据,挖掘与本次分析相关的有效数据,进而生成二级高密子图。
具体地,参考图6处理单元13可包括:移除模块131和过滤模块132;
移除模块131,用于移除每一个所述一级高密子图中不符合预设条件的所述第一节点和所述第二节点,以生成与所述一级高密子图对应的三级高密子图;
需要说明的是:所述预设条件为:
所述一级高密子图中的所述第一节点对应的时间戳大于预设时刻,和
所述一级高密子图中的所述第二节点对应的时间戳大于所述预设时刻。
本实施例的分析请求可包括预设时刻(如:2012年1月1日0时)。在一级高密子图中剔除早于预设时刻的节点,生成由晚于预设时刻的节点组成的三级高密子图。
预设时刻还可以根据预设周期生成,基于触发分析请求的当前时刻Ti和预设周期D(如:一年、一个月等)计算获得。例如:Ti-D得到预设时刻。
在本实施例中,在一级高密子图中的每一个节点均对应相应的时间戳,若节点的时间戳大于预设时刻表示该节点生成的时刻晚于预设时刻;若节点的时间戳小于预设时刻表示该节点生成的时刻早于预设时刻。当某一个一级高密子图中的所有节点的时间戳均小于预设时刻时,则移除该一级高密子图。
移除模块131移除一级高密子图中时间戳早于预设时刻的节点,后移除孤立的节点,即:不互相关联的节点。
过滤模块132,用于采用k核算法分别对获取的每一个所述三级高密子图进行过滤,以生成与所述三级高密子图对应的所述二级高密子图。
具体的,过滤模块132用于移除每一个所述三级高密子图中与所述第一节点关联的所述第二节点的个数小于预设阈值的所述第一节点,生成与所述三级高密子图关联的四级高密子图;移除每一个所述四级高密子图中与所述第一节点关联的所述第二节点的个数小于预设阈值的所述第一节点,生成与所述四级高密子图关联的所述二级高密子图。
例如,参考图4a-4c当预设阈值为3时,移除三级高密子图(图4a)中与第一节点关联的第二节点的个数少于3的第一节点,以及该第一节点的关联关系,生成四级高密子图(图4b);移除四级高密子图中与第一节点关联的第二节点的个数少于3的第一节点,以及该第一节点的关联关系,生成二级高密子图(图4c)。
在本实施例中,通过k核算法获取在当前时刻Ti下图数据快照在预设阈值下的高密子图,实现了对高密子的有效挖掘。
溯源单元14,用于对获取的每一个所述二级高密子图进行溯源处理,以获取与所述二级高密子图对应的子图核心;
具体地,溯源单元14获取每一个所述二级高密子图中时间戳最小的所述第一节点或所述第二节点,将获得的所述第一节点或所述第二节点作为所述二级高密子图的子图核心。
在本实施例中,通过对二级高密子图进行溯源,得到二级高密子图中创建时间最早(时间戳最小)的节点,将该节点作为二级高密子图的子图核心。
分析单元15,用于基于核心表单中的历史核心分别对每一个所述二级高密子图的所述子图核心进行分析,生成贷款分析结果。
其中,所述核心表单包括历史核心、与所述历史核心对应的历史时间戳和所述历史核心对应的一级高密子图信息;
进一步地,分析单元15用于获取所述二级高密子图的所述子图核心对应的所述一级高密子图信息;在所述核心表单中提取与获取的所述一级高密子图信息关联的所述历史核心以及与所述历史核心对应的所述历史时间戳;将所述二级高密子图的所述子图核心依据与所述历史核心对应的所述历史时间戳与相应的所述历史核心进行匹配,获取所述子图核心的历史状态,依据所述历史状态生成与所述子图核心对应的所述二级高密子图的贷款分析结果。
具体地,将二级高密子图的子图核心以及历史时间戳依次与核心表单中相应的历史核心进行匹配,若子图核心在核心表单中曾经出现过,表示与该子图核心对应的高密子图属于低风险。正常的反欺诈引用场景中,贷款的需求不会频发,因此这是一种正常的状态,可标记对应的高密子图为抵风险。
将二级高密子图的子图核心以及历史时间戳依次与核心表单中相应的历史核心进行匹配,若子图核心在核心表单中曾经出现过,后来又消失了,表示与该子图核心对应的高密子图属于低风险。正常的反欺诈引用场景中,贷款的需求不会频发,因此这是一种正常的状态,可标记对应的高密子图为抵风险。
将二级高密子图的子图核心以及历史时间戳依次与核心表单中相应的历史核心进行匹配,若子图核心在核心表单中曾经出现过,后来又消失,再后来又出现,表示该子图核心对应的高密子图的风险状态具有波动性,既用户可能在尝试借款一段时间后,没有借款需求,后来过了段时间又开始借款。如果时间间隔在合理范围内,证明群用户具有规律性的贷款需求,以后可以发展成长期稳定客户。如果时间间隔不在合理范围内,证明有可能是羊毛的在不断变换平台进行恶意贷款,应该标记为高风险。
将二级高密子图的子图核心以及历史时间戳依次与核心表单中相应的历史核心进行匹配,若子图核心在核心表单中一直存在,则表示该子图核心对应的高密子图中的相关团体,一直在平台借款,数据高风险。有可能考虑为羊毛的的攻击,或者恶意贷款。
在本实施例中,数据分析装置1可根据采集的分析请求获取一级高密子图,其中,一级高密子图为多个关联的贷款数据组成的关系网络;通过对所有一级高密子图进行过滤处理,以过滤掉与分析请求无关的贷款数据,挖掘与本次分析相关的有效数据,进而生成二级高密子图;通过对获取的每一个二级高密子图进行溯源处理,以获取子图核心,基于核心表单中的历史核心分别对每一个二级高密子图的子图核心进行分析,以便于根据子图核心了解与二级高密子图对应的一级高密子图的演化情况,提高贷款数据的风控精准性,生成贷款分析结果。
实施例三
为实现上述目的,本发明还提供一种计算机设备2,该计算机设备2包括多个计算机设备2,实施例二的数据分析装置1的组成部分可分散于不同的计算机设备2中,计算机设备2可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备2至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器23、网络接口22以及数据分析装置1(参考图7)。需要指出的是,图7仅示出了具有组件-的计算机设备2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例一的数据分析方法的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器23在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器23通常用于控制计算机设备2的总体操作例如执行与所述计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器23用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的数据分析装置1等。需要强调的是,为进一步保证运行数据分析装置1时一级高密子图的私密和安全性,一级高密子图还可以存储于一区块链的节点中。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所述网络接口22可包括无线网络接口或有线网络接口,该网络接口22通常用于在所述计算机设备2与其他计算机设备2之间建立通信连接。例如,所述网络接口22用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图7仅示出了具有部件21-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述数据分析装置1还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器23)所执行,以完成本发明。
实施例四
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器23执行时实现相应功能。本实施例的计算机可读存储介质用于存储数据分析装置1,被处理器23执行时实现实施例一的数据分析方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种数据分析方法,其特征在于,包括:
采集分析请求;
根据所述分析请求获取至少一个一级高密子图,所述一级高密子图为多个关联的贷款数据组成的关系网络;
基于所述分析请求对获取的所有所述一级高密子图进行过滤处理,获取相应的二级高密子图;
对获取的每一个所述二级高密子图进行溯源处理,以获取与所述二级高密子图对应的子图核心;
基于核心表单中的历史核心分别对每一个所述二级高密子图的所述子图核心进行分析,生成贷款分析结果。
2.根据权利要求1所述的数据分析方法,其特征在于,所述根据所述分析请求获取至少一个一级高密子图,包括:
根据所述分析请求从数据库中获取所有的所述一级高密子图;或
根据所述分析请求从区块链中获取所有的所述一级高密子图。
3.根据权利要求1所述的数据分析方法,其特征在于,所述一级高密子图包括至少一个第一节点和与所述第一节点关联的至少一个第二节点,所述第一节点和所述第二节点均为贷款数据;
所述基于所述分析请求对获取的所有所述一级高密子图进行过滤处理,获取相应的二级高密子图,包括:
移除每一个所述一级高密子图中不符合预设条件的所述第一节点和所述第二节点,以生成与所述一级高密子图对应的三级高密子图;
采用k核算法分别对获取的每一个所述三级高密子图进行过滤,以生成与所述三级高密子图对应的所述二级高密子图。
4.根据权利要求3所述的数据分析方法,其特征在于,所述预设条件为:
所述一级高密子图中的所述第一节点对应的时间戳大于预设时刻,和
所述一级高密子图中的所述第二节点对应的时间戳大于所述预设时刻。
5.根据权利要求3所述的数据分析方法,其特征在于,所述采用k核算法分别对获取的每一个所述三级高密子图进行过滤,以生成与所述三级高密子图对应的所述二级高密子图,包括:
移除每一个所述三级高密子图中与所述第一节点关联的所述第二节点的个数小于预设阈值的所述第一节点,生成与所述三级高密子图关联的四级高密子图;
移除每一个所述四级高密子图中与所述第一节点关联的所述第二节点的个数小于预设阈值的所述第一节点,生成与所述四级高密子图关联的所述二级高密子图。
6.根据权利要求1所述的数据分析方法,其特征在于,所述对获取的每一个所述二级高密子图进行溯源处理,以获取与所述二级高密子图对应的子图核心,包括:
获取每一个所述二级高密子图中时间戳最小的所述第一节点或所述第二节点,将获得的所述第一节点或所述第二节点作为所述二级高密子图的子图核心。
7.根据权利要求1所述的数据分析方法,其特征在于,所述核心表单包括历史核心、与所述历史核心对应的历史时间戳和所述历史核心对应的一级高密子图信息;
所述基于核心表单中的历史核心分别对每一个所述二级高密子图的所述子图核心进行分析,生成贷款分析结果,包括:
获取所述二级高密子图的所述子图核心对应的所述一级高密子图信息;
在所述核心表单中提取与获取的所述一级高密子图信息关联的所述历史核心以及与所述历史核心对应的所述历史时间戳;
将所述二级高密子图的所述子图核心依据与所述历史核心对应的所述历史时间戳与相应的所述历史核心进行匹配,获取所述子图核心的历史状态,依据所述历史状态生成与所述子图核心对应的所述二级高密子图的贷款分析结果。
8.一种数据分析装置,其特征在于,包括:
采集单元,用于采集分析请求;
获取单元,用于根据所述分析请求获取至少一个一级高密子图,所述一级高密子图为多个关联的贷款数据组成的关系网络;
处理单元,用于基于所述分析请求对获取的所有所述一级高密子图进行过滤处理,获取相应的二级高密子图;
溯源单元,用于对获取的每一个所述二级高密子图进行溯源处理,以获取与所述二级高密子图对应的子图核心;
分析单元,用于基于核心表单中的历史核心分别对每一个所述二级高密子图的所述子图核心进行分析,生成贷款分析结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202010470730.3A 2020-05-28 2020-05-28 数据分析方法、装置、计算机设备及存储介质 Pending CN111640005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010470730.3A CN111640005A (zh) 2020-05-28 2020-05-28 数据分析方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010470730.3A CN111640005A (zh) 2020-05-28 2020-05-28 数据分析方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111640005A true CN111640005A (zh) 2020-09-08

Family

ID=72330545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010470730.3A Pending CN111640005A (zh) 2020-05-28 2020-05-28 数据分析方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111640005A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201535A (zh) * 2021-12-14 2022-03-18 平安科技(深圳)有限公司 异常数据的检测方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455487A (zh) * 2012-05-29 2013-12-18 腾讯科技(深圳)有限公司 一种搜索词的提取方法及装置
US20180004751A1 (en) * 2016-06-29 2018-01-04 Intel Corporation Methods and apparatus for subgraph matching in big data analysis
CN108762908A (zh) * 2018-05-31 2018-11-06 阿里巴巴集团控股有限公司 系统调用异常检测方法及装置
CN110210227A (zh) * 2019-06-11 2019-09-06 百度在线网络技术(北京)有限公司 风险检测方法、装置、设备和存储介质
CN110930246A (zh) * 2019-12-04 2020-03-27 深圳市新国都金服技术有限公司 信贷反欺诈识别方法、装置、计算机设备及计算机可读存储介质
CN110992195A (zh) * 2019-11-25 2020-04-10 中山大学 一种结合时间因子的社交网络高影响力用户识别方法
CN111046237A (zh) * 2018-10-10 2020-04-21 北京京东金融科技控股有限公司 用户行为数据处理方法、装置、电子设备及可读介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455487A (zh) * 2012-05-29 2013-12-18 腾讯科技(深圳)有限公司 一种搜索词的提取方法及装置
US20180004751A1 (en) * 2016-06-29 2018-01-04 Intel Corporation Methods and apparatus for subgraph matching in big data analysis
CN108762908A (zh) * 2018-05-31 2018-11-06 阿里巴巴集团控股有限公司 系统调用异常检测方法及装置
CN111046237A (zh) * 2018-10-10 2020-04-21 北京京东金融科技控股有限公司 用户行为数据处理方法、装置、电子设备及可读介质
CN110210227A (zh) * 2019-06-11 2019-09-06 百度在线网络技术(北京)有限公司 风险检测方法、装置、设备和存储介质
CN110992195A (zh) * 2019-11-25 2020-04-10 中山大学 一种结合时间因子的社交网络高影响力用户识别方法
CN110930246A (zh) * 2019-12-04 2020-03-27 深圳市新国都金服技术有限公司 信贷反欺诈识别方法、装置、计算机设备及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201535A (zh) * 2021-12-14 2022-03-18 平安科技(深圳)有限公司 异常数据的检测方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US10733149B2 (en) Template based data reduction for security related information flow data
US20200013065A1 (en) Method and Apparatus of Identifying a Transaction Risk
CN107870981B (zh) 电子装置、数据表归档处理的方法及存储介质
US10277619B1 (en) System and methods of identifying system vulnerabilities
CN104731816A (zh) 一种处理异常业务数据的方法和装置
Jeong et al. Anomaly teletraffic intrusion detection systems on hadoop-based platforms: A survey of some problems and solutions
CN113992340B (zh) 用户异常行为识别方法、装置、设备和存储介质
CN104871171A (zh) 分布式模式发现
CN111382334B (zh) 一种数据处理方法、装置、计算机以及可读存储介质
CN112819611A (zh) 欺诈识别方法、装置、电子设备和计算机可读存储介质
CN110191097B (zh) 登录页面安全性的检测方法、系统、设备及存储介质
CN112437034B (zh) 虚假终端检测方法和装置、存储介质及电子装置
CN111797942A (zh) 用户信息的分类方法及装置、计算机设备、存储介质
CN111640005A (zh) 数据分析方法、装置、计算机设备及存储介质
WO2019095569A1 (zh) 基于微博财经事件的金融分析方法、应用服务器及计算机可读存储介质
CN110851758B (zh) 一种网页访客数量统计方法及装置
CN106708869B (zh) 一种群组数据处理的方法及装置
CN111949696A (zh) 一种全要素关联分析方法及装置
CN114495137B (zh) 票据异常检测模型生成方法与票据异常检测方法
Lee et al. Detecting anomaly teletraffic using stochastic self-similarity based on Hadoop
CN110909263A (zh) 一种身份特征的伴随关系确定方法及装置
CN115827379A (zh) 异常进程检测方法、装置、设备和介质
CN113343577B (zh) 一种基于机器学习的参数优化方法、装置、设备及介质
CN107995014B (zh) 基于告警信息发现功能拓扑的方法及装置
CN114168581A (zh) 数据清洗方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination