CN111984798A - 图谱数据预处理方法及装置 - Google Patents
图谱数据预处理方法及装置 Download PDFInfo
- Publication number
- CN111984798A CN111984798A CN202011033899.9A CN202011033899A CN111984798A CN 111984798 A CN111984798 A CN 111984798A CN 202011033899 A CN202011033899 A CN 202011033899A CN 111984798 A CN111984798 A CN 111984798A
- Authority
- CN
- China
- Prior art keywords
- node
- graph
- information
- item
- merchant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000007781 pre-processing Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Abstract
本公开实施例公开了一种图谱数据预处理方法及装置。其中,该方法包括:确定唯一的节点项目,从原始数据中获取唯一性的项目列表数据和相应的项目属性,生成节点信息;抽取节点关系信息,将与两个以上节点有关的项目通过项目键值建立关联关系表,而将仅与一个节点有关的项目处理为该节点的属性信息;将节点信息和节点关系信息导入图数据库,建立图谱。
Description
技术领域
本公开涉及图数据库技术领域,具体涉及一种图谱数据预处理方法、装置、电子设备及存储介质。
背景技术
随着大数据和人工智能技术的发展,尤其是认知智能技术在近年来的突破,基于关系型数据库的知识图谱技术已经可以在很多应用领域中为用户提供更为专业更加精准的智能分析服务。知识图谱可以帮助识别和理解真实世界中事物之间的关联关系,从而进一步帮助发现某些事物的隐藏特性,现有技术中,进一步结合人工智能技术可以让机器实现对真实事物的自动认知,自动完成复杂业务的处理。
在复杂关系处理上,图数据库更擅长处理点和边组成的复杂关系网络,执行效率远超传统数据库。比如现有的反欺诈识别方案就是基于知识图谱和人工智能技术的结合,在基于知识图谱的人工智能模型中,利用知识图谱构建的关系图,通过对关系网络的构建和挖掘,从而发现隐藏的团伙风险。但不同应用场景的知识图谱也会有不同的特点,比如在个人信贷领域,个人与其他节点之间的联系频次较低,因而可以把个人所有相关的关系信息都输入至图数据库,可以实时调用图数据库中的数据进行反欺诈识别。但在商户反欺诈领域,商户之间的联系除了固定关联之外,动态产生的关联信息量非常大,比如由于商户收单交易的频次非常高,全量的商户交易流水单日可能达到几十万活跃商户上千万笔交易,如果也全部输入图数据库并生产实时图,对每发生一笔交易都重构图数据库,图数据库服务器需要处理的数据量将会非常巨大。
典型地,为挖掘尽可能多的隐藏关系,常见的反欺诈安全系统中通常会分析时间跨度长达60天的关联行为,如果为每次交易在图谱中建立相应的边,60天的交易流水可达到6亿的交易边关系,这使得面向商户的关联图谱是一个非常稠密的图谱。现有技术也有方案是将多次交易进行总结,将商户与交易账户的关系进行汇总,生成一条边关系从而减少边的关系。例如一个交易账户在一定观察时间内在一个商户内有多笔交易,则该方案可仅生成一条边关系,从而将边的关系减少。
然而,发明人在实现本公开实施例相关技术方案的过程中发现,现有技术的图谱处理方式仍存在着明显的缺陷:无论是为每条交易创建边关系的方法还是对商户与交易账户的交易频次进行归总之后的方法,在商户数量达到百万级别的情况下,30-60天交易跨度交易账户也会达到百万级别,再加上商户间其他的关联关系,节点和边的数量更庞大。进一步,如果要对关联图谱进行团伙挖掘的算法实现或查询2度以上的关联信息,则可能导致数据量过于庞大而查询失败。因而现有的知识图谱技术在商户收单交易场景下,会由于交易的频繁而导致商户关联图谱对软硬件的要求过高而性能不佳甚至无法实施。
发明内容
针对现有技术中的上述技术问题,本公开实施例提出了一种图谱数据预处理方法、装置、电子设备及计算机可读存储介质,以解决现有技术中商户关联图谱因数据量过大而影响性能的问题。
本公开实施例的第一方面提供了一种图谱数据预处理方法,包括:
确定唯一的节点项目,从原始数据中获取唯一性的项目列表数据和相应的项目属性,生成节点信息;
抽取节点关系信息,将与两个以上节点有关的项目通过项目键值建立关联关系表,而将仅与一个节点有关的项目处理为该节点的属性信息;
将节点信息和节点关系信息导入图数据库,建立图谱。
在一些实施例中,所述方法还包括:对所述图谱进行至少一种分析算法的处理,获取有任意关联的至少一个节点群体,提取各个群体的特征进行分析。
在一些实施例中,所述唯一的节点项目为商户,所述分析算法包括社群发现算法和/或连通图算法。
在一些实施例中,对特征进行分析至少包括对各个商户群体的可信程度和/或风险程度进行识别。
在一些实施例中,所述方法还包括:对目标节点或目标节点群体进行子图查询,发现所述目标节点或所述目标节点群体的多层关联节点。
本公开实施例的第二方面提供了一种图谱数据预处理装置,包括:
节点信息抽取模块,用于确定唯一的节点项目,从原始数据中获取唯一性的项目列表数据和相应的项目属性,生成节点信息;
节点关系信息抽取模块,用于抽取节点关系信息,将与两个以上节点有关的项目通过项目键值建立关联关系表,而将仅与一个节点有关的项目处理为该节点的属性信息;
图谱建立模块,用于将节点信息和节点关系信息导入图数据库,建立图谱。
在一些实施例中,所述装置还包括:图谱分析模块,用于对所述图谱进行至少一种分析算法的处理,获取有任意关联的至少一个节点群体,提取各个群体的特征进行分析。
在一些实施例中,所述唯一的节点项目为商户,所述分析算法包括社群发现算法和/或连通图算法。
在一些实施例中,对特征进行分析至少包括对各个商户群体的可信程度和/或风险程度进行识别。
在一些实施例中,所述装置还包括:子图查询模块,用于对目标节点或目标节点群体进行子图查询,发现所述目标节点或所述目标节点群体的多层关联节点。
本公开实施例的第三方面提供了一种电子设备,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如前述各实施例所述的方法。
本公开实施例的第四方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如前述各实施例所述的方法。
本公开实施例的第五方面提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,可用来实现如前述各实施例所述的方法。
根据本公开实施例所提出的技术方案,通过在关系数据进入图谱之前进行的预处理,将商户的不同联系分别抽取成边或属性,从而将图谱节点的数据量完全控制在了商户数量上,避免其受高频次交易的影响而大幅增长,从而有效降低了资源的占用,提升了系统性能。
附图说明
通过参考附图会更加清楚的理解本公开的特征和优点,附图是示意性的而不应理解为对本公开进行任何限制,在附图中:
图1是根据本公开的一些实施例所示的一种图谱数据预处理方法流程示意图;
图2是根据现有技术对本公开的一些实施例的示例数据处理后得到的知识图谱示意图;
图3是根据本公开的一些实施例所示的相对于图2优化后的知识图谱示意图;
图4是根据本公开的一些实施例所示的一种图谱数据预处理装置的模块结构示意图;
图5是根据本公开的一些实施例所示的一种电子设备的结构示意图。
具体实施方式
在下面的详细描述中,通过示例阐述了本公开的许多具体细节,以便提供对相关披露的透彻理解。然而,对于本领域的普通技术人员来讲,本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是,本公开中使用“系统”、“装置”、“单元”和/或“模块”术语,是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而,如果其他表达式可以实现相同的目的,这些术语可以被其他表达式替换。
应当理解的是,当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时,其可以直接在另一设备、单元或模块上,连接或耦合到或与其他设备、单元或模块通信,或者可以存在中间设备、单元或模块,除非上下文明确提示例外情形。例如,本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。
本公开所用术语仅为了描述特定实施例,而非限制本公开范围。如本公开说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件,而该类表述并不构成一个排它性的罗列,其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。
参看下面的说明以及附图,本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本公开的保护范围。可以理解的是,附图并非按比例绘制。
本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是,前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。
根据经验,相对于个人信用来说,收单商户的欺诈率通常较低(<1BP),为进行有效的商户反欺诈,需要建立足够长时间跨度的商户关联关系。但长期的高频次关系的记录会导致图数据库信息量过大,实时分析时会给系统软硬件带来极大的压力,使得系统实现的成本极高且性能不佳。
有鉴于此,本公开实施例提供了一种图谱数据预处理方法,通过在关系数据进入图谱之前进行的预处理,将商户的不同联系分别抽取成边或属性,从而将图谱节点的数据量完全控制在了商户数量上,避免其受高频次交易的影响而大幅增长,从而有效降低了资源的占用,提升了系统性能。在本公开的一个实施例中,如图1所示,所述图谱数据预处理方法包括:
S101,确定唯一的节点项目,从原始数据中获取唯一性的项目列表数据和相应的项目属性,生成节点信息。
其中,在本公开的实施例中,以商户作为唯一的节点项目,即知识图谱中仅以商户作为节点,通过商户的唯一识别标识(比如商户号)先来抽取商户的基本信息,生成图谱中的节点信息。作为对照的示例,现有技术中的知识图谱通常是将可以自然存在的事物均按节点处理,比如商户节点、用户节点、法人节点、账户节点等,不同类型的节点之间再案子关联关系生成的边来连接。现有技术的方式可以充分展示事务及其之间的关系,可以支持全面而复杂的关联分析,但同时其数据量和复杂度也明显比较庞大。
进一步以下面表1的一组简化的数据为例,现有技术的知识图谱中会通过交易记录来建立不同节点之间的关联,比如从表1的交易记录中选取商户号、交易账户、营业执照、结算账户和法人身份证字段来建立多种不同类型的节点(从交易记录表中取出数据并去重后,分别对5类节点建数据表管理),然后通过节点之间的关系生成边,从而建立知识图谱。通常情况下,交易记录越多,涉及的商户和交易账户越多,则相应节点数据表越大,关系生成边也越多,知识图谱越复杂。在一个进一步的示例中,采用现有技术的方式对交易记录表进行处理后,得到的一个知识图谱如图2所示。在图2中,5类节点(不同类型的节点应采用不同的颜色表示,限于灰度图的展现能力,图2的不同灰度仅供参考)通过现实的关系形成的边而建立直接或间接的关联。从附图2可以看出,在以商户为中心的知识图谱中,由交易记录而引入的节点(以交易账户为主)和边非常多,但能让商户之间建立间接关联的则相对较少,这使得整个知识图谱显得非常臃肿,也使后续的分析算法(比如社群发现算法、连通图算法等)的实现变得较为复杂,而本公开的技术方案的目标就是降低知识图谱和后续算法的复杂度,使得系统实现难度降低,提升整体的性能和效率。
交易流水编号 | 商户号 | 商户属性1_商户名称 | 交易账户 | 交易类型 | 交易金额 | 营业执照 | 结算账户 | 法人身份证 |
1 | M1 | 超市A | ACCT234 | 消费交易 | 2000 | Y6 | A6 | ID5 |
2 | M2 | 超市B | ACCT70 | 消费交易 | 89 | Y4 | A4 | ID3 |
3 | M3 | 超市C | ACCT70 | 消费交易 | 89 | Y9 | A9 | ID8 |
4 | M4 | 超市D | ACCT163 | 消费交易 | 10000 | Y1 | A1 | ID1 |
5 | M5 | 超市E | ACCT111 | 消费交易 | 89 | Y5 | A5 | ID4 |
表1一组简化的交易记录数据示例
S102,抽取节点关系信息,将与两个以上节点有关的项目通过项目键值(KEY)建立关联关系表,而将仅与一个节点有关的项目处理为该节点的属性信息。
在本公开的实施例中,只有商户能作为图谱中的节点,其他数据项目均会被处理为边或属性信息(包括节点的属性和边的属性)。其中,对于仅与一个节点有关的项目,将其剔除在图关系之外,不再作为图谱中的边对待,而仅作为节点(商户)属性信息保留;对于与两个以上节点有关的项目,通过项目键值(KEY)建立关联关系表来整理和记录,表中每条记录为项目及其关联的节点,后续将作为图谱中一条边出现。继续以表1的简化数据为例,仅以商户作为图谱中的节点,将商户与交易账户、商户与营业执照、商户与结算账户、商户与法人关系数据提取之后,通过中间共同关联的项目KEY得到商户与商户通过哪个项目KEY间接关联起来的数据表。这一步中,仅当项目(交易账户、营业执照、结算账户和法人信息)与2个以上商户有关时才被记录,而只与1个商户有关的项目则被剔除在图关系之外(仍可作为商户属性信息保留,这里不做展开)。
S103,将节点信息和节点关系信息导入图数据库(例如NEO4J),建立图谱。
在本公开的实施例中,知识图谱只显示一种指定类型的节点(商户项目),其他在现有技术中被作为节点处理的项目(交易账户、营业执照、结算账户、法人身份证等)则视其与节点的关联程度分别处理为边或节点属性,边的属性则是作为边的项目的具体信息。采用本公开实施例的技术方案,锁定一个关键的分析项目,在图谱中仅保留商户节点,对现有技术的图谱进行改造,将不连通多个商户的其他项目去掉,而连通多个商户的项目则转化为边的信息,来得到更简单的商户关联图谱,可以大幅缩减图谱中无效节点和边的数量,简化后续分析算法的实现。
典型地,在现有技术的知识图谱中,如附图2所示,虽然商户是分析的主体,但商户与商户之间通过各种其他节点间接关联起来的关系是稀疏的(即存在大量无效的节点和边)。图2仅仅是简化的示例,在商户数量增加到万的级别时,商户相应的营业执照、结算卡、法人等节点数量也都会增加到相应的级别,而与用户交易行为相关的交易账户等节点更是商户数量的10倍甚至百倍以上,显然给后续社群发现算法带来了很大的干扰。而通过本公开的实施例,图2示例的知识图谱可以被处理成图3的形式,从图3可以看出,本公开实施例的技术方案中,图谱里节点的数量大幅缩减,节点的关联关系也更加突出。图3是从图2这一简化的示例而得来的,由于整体图谱规模较小,甚至无需通过进一步的分析算法(比如社群发现算法、连通图算法等)处理,就可以发现图3的图谱中节点形成了自然的聚类,在该优选实施例中,处理后数据可自然得到3组节点群体,分别包含1个、3个和5个商户。基于自然区分的群体,显然可以直接根据其中至少一个节点的可信/风险程度来推断整个群体的可信/风险程度,大大简化了图谱分析的实现复杂度。
当然,本领域相关技术人员应该理解,图3仅仅是本公开的一个简化的示例,其图谱规模较小,所有结论相对比较直观。在实际处理过程中,对于大规模的商户节点和由其得到的知识图谱,为挖掘商户之间的数据关联,还可对图谱实施分析算法,来得到不同的商户群体及各个群体的特征。
具体地,在本公开的一个优选实施例中,所述图谱数据预处理方法还包括步骤:S104,对所述图谱进行至少一种分析算法的处理,获取有任意关联的至少一个节点(商户)群体,提取各个群体的特征进行分析。其中,所述分析算法包括社群发现算法、连通图算法等;对特征进行分析至少包括对各个商户群体的可信/风险程度进行识别。由于本公开实施例中图谱节点的数量与现有技术相比大大减少,社群发现算法等分析算法的效率提升很明显,系统性能得到大幅改进。此外,在本公开的优选实施例中,如果对某一特定商户或商户群体有一定的怀疑,还可对目标商户或者商户群体进行子图查询,发现目标商户或者商户群体的多层关联商户,以进行有针对性的反欺诈识别。商户反欺诈不同于交易反欺诈的地方在于关注商户的风险而非每一笔交易的风险,欺诈团伙之间的关联很可能发生在大规模的欺诈交易之前,因此通过大数据平台进行数据预处理之后再应用开源单机版的Neo4j进行异步商户关联图谱分析成为商户欺诈团伙挖掘的低成本解决方案。
图4是根据本公开的一些实施例所示的一种图谱数据预处理装置示意图。如图4所示,图谱数据预处理装置400包括节点信息抽取模块401、节点关系信息抽取模块402和图谱建立模块403;其中,
节点信息抽取模块401,用于确定唯一的节点项目,从原始数据中获取唯一性的项目列表数据和相应的项目属性,生成节点信息;
节点关系信息抽取模块402,用于抽取节点关系信息,将与两个以上节点有关的项目通过项目键值建立关联关系表,而将仅与一个节点有关的项目处理为该节点的属性信息;
图谱建立模块403,用于将节点信息和节点关系信息导入图数据库,建立图谱。
在一些实施例中,所述装置还包括:图谱分析模块,用于对所述图谱进行至少一种分析算法的处理,获取有任意关联的至少一个节点群体,提取各个群体的特征进行分析。
在一些实施例中,所述唯一的节点项目为商户,所述分析算法包括社群发现算法和/或连通图算法。
在一些实施例中,对特征进行分析至少包括对各个商户群体的可信程度和/或风险程度进行识别。
在一些实施例中,所述装置还包括:子图查询模块,用于对目标节点或目标节点群体进行子图查询,发现所述目标节点或所述目标节点群体的多层关联节点。
参考附图5,为本公开一个实施例提供的电子设备示意图。如图5所示,该电子设备500包括:
存储器530以及一个或多个处理器510;
其中,所述存储器530与所述一个或多个处理器510通信连接,所述存储器530中存储有可被所述一个或多个处理器执行的指令532,所述指令532被所述一个或多个处理器510执行,以使所述一个或多个处理器510执行本公开前述实施例中的方法。
具体地,处理器510和存储器530可以通过总线或者其他方式连接,图5中以通过总线540连接为例。处理器510可以为中央处理器(Central Processing Unit,CPU)。处理器510还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器530作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本公开实施例中的级联渐进网络等。处理器510通过运行存储在存储器530中的非暂态软件程序、指令以及功能模块532,从而执行处理器的各种功能应用以及数据处理。
存储器530可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器510所创建的数据等。此外,存储器530可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器530可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络(比如通过通信接口520)连接至处理器510。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本公开的一个实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被执行后执行本公开前述实施例中的方法。
前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可移动介质。计算机可读取存储介质具体包括,但不限于,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、可擦除可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(DVD)、HD-DVD、蓝光(Blue-Ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。
尽管此处所述的主题是在结合操作系统和应用程序在计算机系统上的执行而执行的一般上下文中提供的,但本领域技术人员可以认识到,还可结合其他类型的程序模块来执行其他实现。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解,此处所述的本主题可以使用其他计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等,也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备的两者中。
本领域普通技术人员可以意识到,结合本文中所本公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。
综上所述,本公开提出了一种图谱数据预处理方法、装置、电子设备及其计算机可读存储介质。本公开实施例通过在关系数据进入图谱之前进行的预处理,将商户的不同联系分别抽取成边或属性,从而将图谱节点的数据量完全控制在了商户数量上,避免其受高频次交易的影响而大幅增长,从而有效降低了资源的占用,提升了系统性能。
应当理解的是,本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理,而不构成对本公开的限制。因此,在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。此外,本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (10)
1.一种图谱数据预处理方法,其特征在于,包括:
确定唯一的节点项目,从原始数据中获取唯一性的项目列表数据和相应的项目属性,生成节点信息;
抽取节点关系信息,将与两个以上节点有关的项目通过项目键值建立关联关系表,而将仅与一个节点有关的项目处理为该节点的属性信息;
将节点信息和节点关系信息导入图数据库,建立图谱。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述图谱进行至少一种分析算法的处理,获取有任意关联的至少一个节点群体,提取各个群体的特征进行分析。
3.根据权利要求2所述的方法,其特征在于,所述唯一的节点项目为商户,所述分析算法包括社群发现算法和/或连通图算法。
4.根据权利要求3所述的方法,其特征在于,对特征进行分析至少包括对各个商户群体的可信程度和/或风险程度进行识别。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对目标节点或目标节点群体进行子图查询,发现所述目标节点或所述目标节点群体的多层关联节点。
6.一种图谱数据预处理装置,其特征在于,包括:
节点信息抽取模块,用于确定唯一的节点项目,从原始数据中获取唯一性的项目列表数据和相应的项目属性,生成节点信息;
节点关系信息抽取模块,用于抽取节点关系信息,将与两个以上节点有关的项目通过项目键值建立关联关系表,而将仅与一个节点有关的项目处理为该节点的属性信息;
图谱建立模块,用于将节点信息和节点关系信息导入图数据库,建立图谱。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
图谱分析模块,用于对所述图谱进行至少一种分析算法的处理,获取有任意关联的至少一个节点群体,提取各个群体的特征进行分析。
8.根据权利要求7所述的装置,其特征在于,所述唯一的节点项目为商户,所述分析算法包括社群发现算法和/或连通图算法。
9.根据权利要求8所述的装置,其特征在于,对特征进行分析至少包括对各个商户群体的可信程度和/或风险程度进行识别。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
子图查询模块,用于对目标节点或目标节点群体进行子图查询,发现所述目标节点或所述目标节点群体的多层关联节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011033899.9A CN111984798A (zh) | 2020-09-27 | 2020-09-27 | 图谱数据预处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011033899.9A CN111984798A (zh) | 2020-09-27 | 2020-09-27 | 图谱数据预处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111984798A true CN111984798A (zh) | 2020-11-24 |
Family
ID=73449539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011033899.9A Pending CN111984798A (zh) | 2020-09-27 | 2020-09-27 | 图谱数据预处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111984798A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112330373A (zh) * | 2020-11-30 | 2021-02-05 | 中国银联股份有限公司 | 用户行为分析方法、装置及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615167A (zh) * | 2018-11-06 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 确定疑似批量风险交易事件的方法、装置和电子设备 |
CN110188198A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种基于知识图谱的反欺诈方法及装置 |
CN110647522A (zh) * | 2019-09-06 | 2020-01-03 | 中国建设银行股份有限公司 | 一种数据挖掘方法、装置及其系统 |
CN111062642A (zh) * | 2019-12-27 | 2020-04-24 | 南京三百云信息科技有限公司 | 对象的行业风险程度识别方法、装置以及电子设备 |
CN111444410A (zh) * | 2020-03-27 | 2020-07-24 | 民生科技有限责任公司 | 一种基于知识图谱的关联交易挖掘识别方法及装置 |
-
2020
- 2020-09-27 CN CN202011033899.9A patent/CN111984798A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615167A (zh) * | 2018-11-06 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 确定疑似批量风险交易事件的方法、装置和电子设备 |
CN110188198A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种基于知识图谱的反欺诈方法及装置 |
CN110647522A (zh) * | 2019-09-06 | 2020-01-03 | 中国建设银行股份有限公司 | 一种数据挖掘方法、装置及其系统 |
CN111062642A (zh) * | 2019-12-27 | 2020-04-24 | 南京三百云信息科技有限公司 | 对象的行业风险程度识别方法、装置以及电子设备 |
CN111444410A (zh) * | 2020-03-27 | 2020-07-24 | 民生科技有限责任公司 | 一种基于知识图谱的关联交易挖掘识别方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112330373A (zh) * | 2020-11-30 | 2021-02-05 | 中国银联股份有限公司 | 用户行为分析方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021164382A1 (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
WO2019019630A1 (zh) | 反欺诈识别方法、存储介质、承载平安脑的服务器及装置 | |
US11694093B2 (en) | Generation of training data to train a classifier to identify distinct physical user devices in a cross-device context | |
CN110415107B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
Hariharakrishnan et al. | Survey of pre-processing techniques for mining big data | |
WO2020177450A1 (zh) | 信息归并方法、交易查询方法、装置、计算机及存储介质 | |
CN111639690A (zh) | 基于关系图谱学习的欺诈分析方法、系统、介质及设备 | |
CN111090780A (zh) | 可疑交易信息的确定方法及装置、存储介质、电子设备 | |
JP6419667B2 (ja) | テストdbデータ生成方法及び装置 | |
CN112950359B (zh) | 一种用户识别方法和装置 | |
CN104965846B (zh) | MapReduce平台上的虚拟人建立方法 | |
CN111984798A (zh) | 图谱数据预处理方法及装置 | |
CN108345582B (zh) | 一种识别社交群从事业务的方法及装置 | |
US10929441B1 (en) | System and techniques for data record merging | |
CN111967521A (zh) | 跨境活跃用户识别方法及装置 | |
CN112991079B (zh) | 多卡共现就医欺诈行为检测方法、系统、云端及介质 | |
CN113869904B (zh) | 可疑数据识别方法、装置、电子设备、介质和计算机程序 | |
CN114331665A (zh) | 用于预定申请人的信用判定模型的训练方法、装置和电子设备 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN112308694A (zh) | 一种欺诈团伙的发现方法及装置 | |
CN113408579A (zh) | 一种基于用户画像的内部威胁预警方法 | |
CN112907254A (zh) | 欺诈交易识别、模型训练方法、装置、设备及存储介质 | |
CN111652708A (zh) | 一种应用于房屋抵押贷款产品中的风险评估方法及装置 | |
CN113987309B (zh) | 个人隐私数据识别方法、装置、计算机设备及存储介质 | |
CN111382343A (zh) | 一种标签体系生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |