CN116484054A - 数据处理方法及相关装置 - Google Patents
数据处理方法及相关装置 Download PDFInfo
- Publication number
- CN116484054A CN116484054A CN202210046273.4A CN202210046273A CN116484054A CN 116484054 A CN116484054 A CN 116484054A CN 202210046273 A CN202210046273 A CN 202210046273A CN 116484054 A CN116484054 A CN 116484054A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge
- graph
- merchant
- transaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 76
- 230000007246 mechanism Effects 0.000 claims abstract description 73
- 238000000034 method Methods 0.000 claims abstract description 71
- 238000012545 processing Methods 0.000 claims description 76
- 230000002159 abnormal effect Effects 0.000 claims description 69
- 238000004590 computer program Methods 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 13
- 239000002131 composite material Substances 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 7
- 238000007499 fusion processing Methods 0.000 claims description 6
- 238000007726 management method Methods 0.000 description 95
- 238000005516 engineering process Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 17
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000012954 risk control Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 230000005856 abnormality Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 238000013024 troubleshooting Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种数据处理方法及相关装置,该方法包括:对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表,非关系型数据表中包含节点和边,一个节点表示数据源中的一个对象,一条边表示数据源中的任意两个对象之间的关联关系;基于非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱;按照第一管理机制对第一知识图谱进行管理,以及按照第二管理机制对第二知识图谱进行管理。通过本申请,可以构建两个知识图谱,以及按照各自的管理机制对相应的知识图谱分别进行管理,从而提高对知识图谱进行管理的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、一种数据处理装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。
背景技术
日常生活中,不同对象(例如商户A和商户B)之间产生的关系数据越来越多。目前,这些关系数据通常存储于关系型数据库(例如数据表)中,并基于存储于关系型数据表中的数据构建对象之间的知识图谱,那么,后续也只会基于这一个知识图谱进行管理。可见,目前对知识图谱的管理方式较为单一,导致对知识图谱管理过程的不够准确。因此,如何提高对知识图谱管理的准确性是当前亟待解决的一个技术问题。
发明内容
本申请实施例提出了一种数据处理方法、装置、计算机设备、计算机可读存储介质及计算机程序产品,可以构建两个知识图谱,以及按照各自的管理机制对相应的知识图谱分别进行管理,从而提高对知识图谱进行管理的准确性。
一方面,本申请实施例提供了一种数据处理方法,该方法包括:
对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表,非关系型数据表中包含节点和边,一个节点表示数据源中的一个对象,一条边表示数据源中的任意两个对象之间的关联关系;
基于非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱;
按照第一管理机制对第一知识图谱进行管理,以及按照第二管理机制对第二知识图谱进行管理。
一方面,本申请实施例提供了一种数据处理装置,该装置包括:
处理单元,用于对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表,非关系型数据表中包含节点和边,一个节点表示数据源中的一个对象,一条边表示数据源中的任意两个对象之间的关联关系;
生成单元,用于基于非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱;
管理单元,用于按照第一管理机制对第一知识图谱进行管理,以及按照第二管理机制对第二知识图谱进行管理。
在一种可能的实现方式中,第一知识图谱为主图谱,第二知识图谱为备用图谱;
管理单元按照第一管理机制对所述第一知识图谱进行管理,用于执行以下操作:
按照第一更新频率对第一知识图谱进行增量更新操作,并按照第二更新频率对第一知识图谱进行全量更新操作;
管理单元按照第二管理机制对第二知识图谱进行管理,用于执行以下操作:
按照第三更新频率对第二知识图谱进行全量更新操作。
在一种可能的实现方式中,第一知识图谱为主图谱;
管理单元按照第一管理机制对所述第一知识图谱进行管理,用于执行以下操作:
对第一知识图谱进行异常检测,异常检测用于检测第一知识图谱中的异常节点和/或异常边;
若第一知识图谱存在异常预警,则将第一知识图谱设为禁用状态,存在异常预警是指第一知识图谱中存在异常节点和/或异常边,且第一知识图谱中的异常节点和/或异常边满足预警条件;
当第一知识图谱消除异常预警时,将第一知识图谱设为启用状态。
在一种可能的实现方式中,第二知识图谱为备用图谱;
管理单元按照第二管理机制对第二知识图谱进行管理,用于执行以下操作:
若第一知识图谱为禁用状态,则将第二知识图谱变更为主图谱;
若第一知识图谱由禁用状态变更为启用状态,则将第二知识图谱重新设为备用图谱。
在一种可能的实现方式中,关联数据包括以下至少一种:注册数据、运营者数据、交易数据;处理单元还用于执行以下操作:
对数据源中多个对象的关联数据进行知识抽取,得到各个对象的关联特征,关联特征用于表示任一对象与关联对象之间的关联关系;
将对象和关联对象确定为节点,将关联特征表征的关联关系确定为边;
将节点的属性特征及边的属性特征写入至非关系型数据表中。
在一种可能的实现方式中,处理单元将节点的属性特征及边的属性特征写入至非关系型数据表中,用于执行以下操作:
对节点的属性特征进行压缩处理,得到节点属性字符串;以及,
对边的属性特征进行压缩处理,得到边属性字符串;
将节点属性字符串及边属性字符串写入至非关系型数据表中。
在一种可能的实现方式中,处理单元还用于执行以下操作:
获取非关系型数据表中的属性的类型;类型包括第一类型及第二类型,第一类型指查询频率高于预设值的类型,第二类型是指查询频率低于预设值的类型;
为第一类型的属性特征添加索引,索引包括复合索引或混合索引,复合索引支持等值查询,混合索引支持范围查询。
在一种可能的实现方式中,数据源中的任一对象表示为第一对象;第一对象的关联对象包括第二对象;第一对象的关联数据包括第一对象的第一交易对象数量;关联特征包括第一对象与二对象之间的共同交易对象关系;
处理单元对第一对象的关联数据进行知识抽取,得到第一对象的关联特征,用于执行以下操作:
获取第二对象的第二交易对象数量;
根据第一对象的第一交易对象数量及第二对象的第二交易对象数量,确定第一对象和第二对象的共同交易对象数量;
根据第一交易对象数量、第二交易对象数量以及共同交易对象数量,确定第一对象与所述第二对象之间的共同交易系数;
基于第一对象与第二对象之间的共同交易系数确定第一对象与第二对象之间的共同交易对象关系。
在一种可能的实现方式中,数据源中的多个对象中的任意一个表示为第一对象;第一对象的关联数据包括第一对象的交易数据;
处理单元还用于执行以下操作:
按照场景需求对第一对象的交易数据进行数据划分处理,得到多个单位交易数据;
对多个单位交易数据中的每个单位交易数据进行知识抽取,得到每个单位交易数据对应的单位交易特征;
基于得到的多个单位交易特征,确定第一对象的第二特征;
将第一对象的第二特征确定第一对象对应的节点的属性特征。
在一种可能的实现方式中,数据源中的任一对象表示为第一对象;第一对象的注册数据存储在关系型数据库中的m个数据表中,m为正整数;
处理单元还用于执行以下操作:
分别对m个数据表中与所述第一对象相关的数据进行知识抽取,得到m个待融合特征;
对m个待融合特征进行融合处理,得到第一对象的第一特征;
将第一对象的第一特征确定为第一对象对应的节点的属性特征。
在一种可能的实现方式中,第一知识图谱为主图谱,且第一知识图谱为启用状态;
处理单元还用于执行以下操作:
接收目标对象发送的信息注册请求,信息注册请求中携带有目标对象的注册数据;
根据目标对象的注册数据,从第一知识图谱中查询与目标商户具有关联关系的目标关联对象;
根据查询到的目标关联对象的属性,对目标对象执行风控处理。
一方面,本申请实施例提供一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的数据处理方法。
一方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的数据处理方法。
一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的数据处理方法。
本申请实施例中,首先,可以获取包括多个对象的关联数据的数据源,并对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表,其中,非关系型数据表中包含节点和边,一个节点表示数据源中的一个对象,一条边表示数据源中的任意两个对象之间的关联关系。然后,基于非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱。最后,按照第一管理机制对第一知识图谱进行管理,以及按照第二管理机制对第二知识图谱进行管理。可见,本申请中是基于非关系型数据表来存储的多个对象的关联数据,相比于基于关系型数据库来存储多个对象的关联数据而言,本申请便于查询对象之间的关联关系。并且,本申请构建了两个知识图谱,并分别按照各自的管理机制对相应的知识图谱进行管理。那么,相比于只构建一个图谱并按照一个管理机制对知识图谱进行管理而言,本申请中丰富多样的管理机制可以更全面的对知识图谱进行管理操作(包括更新操作、异常检测操作等),从而提高对知识图谱进行管理的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理系统的结构示意图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的一种非关系型数据表的结构的示意图;
图4是本申请实施例提供的一种第一知识图谱的示意图;
图5是本申请实施例提供的一种知识图谱的管理流程示意图;
图6是本申请实施例提供一种构建非关系型数据表的流程示意图;
图7是本申请实施例提供的一种知识图谱的应用场景示意图;
图8是本申请实施例提供的一种数据处理装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
本申请实施例提出一种数据处理方案,该方案可以基于非关系型数据表存储多个对象的关联数据,并构建两个知识图谱,以及按照各自的管理机制对相应的知识图谱分别进行管理,从而提高对知识图谱进行管理的准确性。基于本方案所构建的知识图谱可以应用于诸如商户的风险控制管理、商户间的关联关系可视化等应用场景中,具体可以为这些应用场景提供相应的数据支持。其中,该数据处理方案的大致原理如下:首先,可以获取包括多个对象的关联数据的数据源,并对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表,其中,非关系型数据表中包含节点和边,一个节点表示数据源中的一个对象,一条边表示数据源中的任意两个对象之间的关联关系。然后,基于非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱。最后,按照第一管理机制对第一知识图谱进行管理,以及按照第二管理机制对第二知识图谱进行管理。
由此可见,本申请实施例中,是基于非关系型数据表来存储的多个对象的关联数据,相比于基于关系型数据库来存储多个对象的关联数据而言,本申请便于查询多个对象之间的关联关系。并且,本申请构建了两个知识图谱,并分别按照各自的管理机制对相应的知识图谱进行管理。那么,相比于只构建一个图谱并按照一个管理机制对知识图谱进行管理而言,本申请中丰富多样的管理机制可以更全面的对知识图谱进行管理操作(包括更新操作、异常检测操作等),从而提高对知识图谱进行管理的准确性。
接下来,结合本申请涉及的技术术语对上述提及的数据处理方案进行介绍:
一、人工智能:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器阅读理解、机器翻译、机器人问答、知识图谱等技术。
在一种可能的实现方式中,本申请的数据处理方案可以与人工智能领域的自然语言处理技术相结合。例如,可以基于非关系型数据表,利用知识图谱技术生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱。又如,可以基于文本处理、以及语义理解等技术对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表等等。其中,所谓知识图谱(Knowledge Graph)是一套基于语义网络的知识表示、迭代和生长框架,用结构化的形式描述客观世界中的概念,实体及其关系。知识图谱包括图和图计算,其中,图是用于表示对象之间关联关系的一种抽象数据结构,使用节点和边进行描述,顶点表示对象,边表示对象之间的关系。图计算是以图作为数据模型来表达问题并予以解决的这一过程。
二、区块链:
区块链(Blockchain)网络是一种由点对点网络(P2P网络)和区块链所构成的网络,而区块链则是指一种分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,其本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块(或称为区块)。
在一种可能的实现方式中,本申请的数据处理方案可以与区块链技术相结合。例如,可将数据源中多个对象的关联数据等上传至区块链网络的区块链中进行存储,以防止计算机设备的内部数据被篡改,从而提升日志数据的安全性和隐私性。
三、云技术:
云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
在一种可能的实现方式中,在执行本申请的数据处理方案时,基于非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱,这个过程涉及较大规模计算,需要较大的算力和存储空间,因此在本申请的一种可能的实现方式中,可以由计算机设备通过云存储技术获取足够算力和存储空间,进而将本申请中所构建的知识图谱进行存储。
特别需要说明的是,在本申请的后续具体实施方式中,涉及到用户信息(例如第一对象的交易数据中包括用户的身份证号、昵称、地址)等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
基于以上描述,接下来,请参见图1,图1是本申请实施例提供的一种数据处理系统的结构示意图。如图1所示,该数据处理系统的结构示意图中可以包括:服务器140以及终端设备集群,其中,终端设备集群可以包括:终端设备110、终端设备120、...、终端设备130等。终端设备集群中的任一终端设备均可以与服务器140可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制;另外,终端设备集群中的任意两个终端设备的类型可以相同,也可以不相同,本申请在此同样不做限制。
图1所示的服务器140可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。
图1所示的终端设备110、终端设备120、终端设备130可以包括但不限于:手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobile internet device)、智能语音交互设备、车载终端、路边设备、飞行器、可穿戴设备、智能家电、或者例如智能手表、智能手环、计步器等具有数据处理功能的可穿戴设备,等等。
在一种可能的实现方式中,以终端设备110为例,在终端设备110和服务器140共同执行本申请中的数据处理方案时,首先,终端设备110可以获取包括多个对象的关联数据的数据源,然后终端设备110可以将数据源发送至服务器140。服务器140可以对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表,非关系型数据表中包含节点和边,一个节点表示所述数据源中的一个对象,一条边表示数据源中的任意两个对象之间的关联关系。然后,服务器140可以基于非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱。最后,服务器140可以按照第一管理机制对第一知识图谱进行管理,以及按照第二管理机制对第二知识图谱进行管理。
后续,服务器140可以将第一知识图谱发送至终端设备110。后续,终端设备110在接收到图谱获取请求时,可以输出并展示所构建好的第一知识图谱。
应理解的是,上述只是示例性地说明了终端设备110和服务器140所负责执行的各个步骤,本申请实施例并不对此进行限定。在另一种可能的实现方式中,对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表;上述过程也可以由终端设备110来执行,然后终端设备110将构建好的非关系型数据表发送至服务器140,再由服务器140执行基于非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱,并按照第一管理机制对第一知识图谱进行管理,以及按照第二管理机制对第二知识图谱进行管理。在又一种可能的实现方式中,对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表;以及基于非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱;以及按照第一管理机制对第一知识图谱进行管理,以及按照第二管理机制对第二知识图谱进行管理。上述过程均可以由终端设备110来执行,等等。
进一步地,可以将图1所提供的数据处理系统部署在区块链的节点,例如可以将终端设备110、终端设备120和服务器140均当成区块链的节点设备,共同构成区块链网络。因此本申请中所涉及的数据处理流程可以在区块链上执行,这样既可以保证数据处理流程的公平公正化,同时可以使得数据处理流程具备可追溯性,从而提升数据处理流程的安全性。
可以理解的是,本申请实施例描述的系统架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
基于上述数据处理方案的相关描述,本申请实施例提出了一种数据处理方法。参见图2所示,图2是本申请实施例提供的一种数据处理方法的流程示意图,该数据处理方法可由上述所提及的终端设备或服务器执行,也可由上述所提及的终端设备和服务器共同执行。为便于阐述,后续均以计算机设备执行该数据处理方法为例进行说明。其中,该数据处理方法可包括如下步骤S201~S203:
S201:对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表,非关系型数据表中包含节点和边,一个节点表示所述数据源中的一个对象,一条边表示数据源中的任意两个对象之间的关联关系。
本申请实施例中,非关系型数据表是指相较于关系型数据表而言的一种数据结构,非关系型数据表可以存储于非关系型数据库中。其中,非关系型数据库是按照面向检索的列式存储相应的数据,其存储结构为列式结构。并且,非关系型数据库可以包括但不限于:JanusGraph数据库、MongoDB数据库(一个面向文档的开源NoSQL数据库)、Redis数据库。其中,JanusGraph数据库是一种开源的图数据库,它是一种非关系型数据表,应用图形理论存储实体之间的关系信息,其具有高扩展性的分布式存储、高效率的查询多层关联数据、支持多种图分析算法等优势。
其中,数据源中的任一对象可以是指有实体经营场所的商家(也可以称为商户)。例如商户可以包括但不限于:图书馆酒店餐厅酒吧等等商家。另外,在对象为商户的情况下,该商户所对应的运营者可以为企业。为方便说明,本申请后续实施例中,均以对象为商户为例进行相应说明。
在一种可能的实现方式中,非关系型数据表中的一条边可以表示:任意两个商户(如第一商户和第二商户)之间的关联关系。另外,针对任一对象而言,与该对象具有关联关系的对象可以表示为关联对象,其中,关联对象的类型可以与该对象的类型相同,也可以与该对象的类型不同。例如,任一对象表示为第一商户,则第一商户的关联对象可以包括但不限于:第二商户、企业、手机号、公众号、法定代表人等等。因此,非关系型数据表中的一条边还可以表示:任一对象(如第一商户)与关联对象的关联关系。例如,非关系型数据表中的一条边可以表示为:第一商户与第二商户、企业、手机号、公众号、法定代表人等关联对象的关联关系。
举例来说,请参见图3,图3是本申请实施例提供的一种非关系型数据表的结构示意图。如图3所示,节点1例如可以为第一商户,节点2例如可以为第二商户、节点3例如可以为第一企业。节点1对应的任一条边可以表示:节点1(例如第一商户)与任一关联对象的关联关系。例如,节点1对应的第一条边可以表示为:第一商户与第二商户的关联关系;又如,节点1对应的第二条边可以表示为:第一商户与第一企业的关联关系。可以理解的是,每个节点所包括的边是指与该节点具有关联关系的边。
S202:基于非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱。
在一种可能的实现方式中,第一知识图谱的初始内容与第二知识图谱的初始内容相同。所谓初始内容相同是指构建第一知识图谱的原始数据与构建第二知识图谱的原始数据相同。另外,本申请实施例中,可以将第一知识图谱作为主图谱,以及将第二知识图谱作为备份图谱。其中,主图谱可以用于日常分析和建模,备份图谱可以用于当主图谱出现问题的情况下作为备选图谱。
具体来说,针对任一对象为第一商户而言,生成与第一商户相关的知识图谱的过程可以包括:首先,将第一商户和与第一商户具有关联关系的关联对象确定为节点,并按照非关系型数据表中的边所表征的关联关系,构建得到第一知识图谱。请参见如4,图4是本申请实施例提供的一种第一知识图谱的示意图。如图4所示,第一知识图谱中的节点可以包括:第一商户、第二商户、第三商户,以及与第一商户具有关联关联的关联对象(企业、法定代表人、公众号等等)。可以理解的是,本申请实施例所构建的第一知识图谱和第二知识图谱为全量的知识图谱,也就是说,第一知识图谱和第二知识图谱中可以包括多个商户、多个企业、多个法定代表人等等。
S203:按照第一管理机制对第一知识图谱进行管理,以及按照第二管理机制对第二知识图谱进行管理。
本申请实施例中,对第一知识图谱或第二知识图谱进行管理可以包括但不限于:执行增量更新操作、执行全量更新操作、进行异常检测等等操作。请参见图5,图5是本申请实施例提供的一种知识图谱的管理流程示意图。接下来,结合图5分别对第一知识图谱的管理流程和对第二知识图谱的管理流程进行详细说明:
(1)对第一知识图谱(主图谱)的管理流程:
在一种可能的实现方式中,第一知识图谱为主图谱,计算机设备按照第一管理机制对第一知识图谱进行管理,可以包括:按照第一更新频率对第一知识图谱进行增量更新操作,并按照第二更新频率对第一知识图谱进行全量更新操作。具体来说,本申请实施例中,第一管理机制可以是指包括全量更新操作和增量更新操作的机制。其中,所谓增量更新操作是指:对第一知识图谱中增加、减少、删除、更新的节点和边进行更新操作。所谓全量更新处理是指:对第一知识图谱中所有的节点和边均进行更新操作。可以理解的是,全量更新操作的工作量远大于增量更新操作的工作量,因此,增量更新操作所对应的第一更新频率可以大于全量更新操作所对应的第二更新频率。例如,可以每天对第一知识图谱进行一次增量更新操作(即第一更新频率为1天/次),以及每个月2号对第一知识图谱进行一次全量更新操作(即第二更新频率为1月/次)。
在一种可能的实现方式中,第一知识图谱为主图谱;计算机设备按照第一管理机制对第一知识图谱进行管理,还可以包括:对第一知识图谱进行异常检测,异常检测用于检测第一知识图谱中的异常节点和/或异常边;若第一知识图谱存在异常预警,则将第一知识图谱设为禁用状态,存在异常预警是指第一知识图谱中存在异常节点和/或异常边,且第一知识图谱中的异常节点和/或异常边满足预警条件;当第一知识图谱消除异常预警时,将第一知识图谱设为启用状态。其中,所谓禁用状态是指不可以查询或使用第一知识图谱的状态;所谓启用状态是指可以查询或使用第一知识图谱的状态。
其中,所谓异常节点可以包括但不限于:相邻两次更新后量级突增的节点、相邻两次更新后量级突减的节点。另外,所谓的量级突增或量级突减可以按照增加量与原有量之间的比值进行确定,若增加量与原有量之间的比值超过比例阈值,则可以认为量级突增或量级突减。例如,针对知识图谱中的商户节点而言,在第一次更新后的知识图谱中包括100个商户节点,而第二次更新后的知识图谱中包括1000个商户节点,第二次更新后的商户节点比第一次更新后的商户节点增加了900个,假设比例阈值为2,900/100=9>2;则可以认为所增加的900个商户节点为异常节点。又如,针对知识图谱中的企业节点而言,在第一次更新后的知识图谱中包括20个企业节点,而第二次更新后的知识图谱中包括25个企业节点,第二次更新后的企业节点比第一次更新后的企业节点增加了5个,假设比例阈值为10,5/25<10;则可以认为所增加的5个企业节点为正常节点。同理,针对异常边的判定具体可以参考前述描述的确定异常节点的详细过程,本申请实施例在此不再赘述。
其中,所谓预警条件可以包括但不限于:第一知识图谱中的异常节点的数量和异常边的数量均达到预设数量;或者,第一知识图谱中的异常节点的数量或异常边的数量达到预设数量;或者,第一知识图谱中的异常节点的数量达到第一预设数量,异常边的数量达到第二预设数量,其中,第一预设数量和第二预设数量可以相同,也可以不相同。例如,第一知识图谱中的异常节点的数量为10个,第一知识图谱中的异常边的数量为20条,预设数量为8,则确定第一知识图谱中的异常节点和异常边满足预警条件。又如,第一知识图谱中的异常节点的数量为10个,第一知识图谱中的异常边的数量为20条,预设数量为12,则确定第一知识图谱中的异常边满足预警条件。还如,第一知识图谱中的异常节点的数量为10个,第一知识图谱中的异常边的数量为20条,第一预设数量为8,第二预设数量为12,则确定第一知识图谱中的异常节点和异常边满足预警条件。
(2)对第二知识图谱(备份图谱)的管理流程:
在一种可能的实现方式中,第二知识图谱为备份图谱。计算机设备按照第二管理机制对第二知识图谱进行管理,可以包括:按照第三更新频率对第二知识图谱进行全量更新操作。例如,可以每周的星期一对第二知识图谱进行一次全量更新操作(即第三更新频率为1周/次)。可以理解的是,上述所提及的第一更新频率、第二更新频率、以及第三更新频率可以按照场景需求自定义设置;并且,第一更新频率、第二更新频率、以及第三更新频率相互之间可以具有大小关系,也可以不具有大小关系,本申请实施例对此不做具体限定。
在一种可能的实现方式中,第二知识图谱为备用图谱;计算机设备按照第二管理机制对第二知识图谱进行管理,还可以包括:若第一知识图谱为禁用状态,则将第二知识图谱变更为主图谱;若第一知识图谱由禁用状态变更为启用状态,则将第二知识图谱重新设为备用图谱。
可以理解的是,本申请实施例中的第一知识图谱可以用于进行数据分析和数据建模,例如,可以通过对比更新前的第一知识图谱和更新后的第一知识图谱这两个版本的图谱之间的差异,分析不同类型、不同领域的商户间的区别和联系等等;又如,还可以基于对第一知识图谱中的商户进行数据分析,并将数据分析结果作为商户的风控模型的训练数据等等,第二知识图谱作为第一知识图谱的备用图谱,在第一知识图谱出现问题时进行切换操作,以满足数据分析需求。
在一种可能的实现方式中,计算机设备还可以对异常节点和/或异常边发出告警,并生成关于第一知识图谱和/或第二知识图谱的管理报告。例如针对每一次对第一知识图谱和第二图谱执行相应地更新操作之后,统计相邻两次更新后的第一知识图谱和第二知识图谱中存在的异常节点和/或异常边,并记录于管理报告中。其中,管理报告具体可以为周期性管理报告表,周期性管理报告表例如可以参见表1所示:
表1.周期性管理报告表
如上表1所示,周期性管理报告表中可以记录多个更新周期内分别对应的异常节点和/或异常边。并且,周期性管理报告表中还可以记录每次更新处理的具体时间等等详情信息。方便后续对第一知识图谱进行数据分析和完善。
本申请实施例中,首先,可以获取包括多个对象的关联数据的数据源,并对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表,其中,非关系型数据表中包含节点和边,一个节点表示数据源中的一个对象,一条边表示数据源中的任意两个对象之间的关联关系。然后,基于非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱。最后,按照第一管理机制对第一知识图谱进行管理,以及按照第二管理机制对第二知识图谱进行管理。可见,本申请中是基于非关系型数据表来存储的多个对象的关联数据,相比于基于关系型数据库来存储多个对象的关联数据而言,本申请便于查询对象之间的关联关系。并且,本申请构建了两个知识图谱,并分别按照各自的管理机制对相应的知识图谱进行管理。那么,相比于只构建一个图谱并按照一个管理机制对知识图谱进行管理而言,本申请中丰富多样的管理机制可以更全面的对知识图谱进行管理操作(包括更新操作、异常检测操作等),从而提高对知识图谱进行管理的准确性。
请参见图6,图6是本申请实施例提供一种构建非关系型数据表的流程示意图。该非关系型数据表的构建方法可由上述所提及的终端设备或服务器执行,也可由上述所提及的终端设备和服务器共同执行。为便于阐述,后续均以计算机设备执行该非关系型数据表的构建方法为例进行说明。其中,该非关系型数据表的构建方法可包括如下步骤S601~S603:
S601:对数据源中多个对象的关联数据进行知识抽取,得到各个对象的关联特征,关联特征用于表示任一对象与关联对象之间的关联关系。
本申请实施例中,任一对象的关联数据可以包括但不限于以下一种或多种:注册数据、运营者数据、交易数据。需要说明的是,本申请实施例中,为方便阐述,后续均以任一对象为第一商户为例进行相应说明。
例如,第一商户的注册数据可以包括但不限于:注册第一商户对应的银行卡号、法定代表人的身份证号、第一商户所对应的企业统一社会信用代码、公众号和手机号等等数据。在一种可能的实现方式中,计算机设备可以从预设数据库中获取第一商户的注册数据,具体来说,计算机设备可以根据第一商户所属的领域,从与第一商户所属领域相关的商户注册系统的数据库中获取第一商户的注册数据。例如,第一商户为教育领域的商户,则计算机设备可以从教育商户注册系统的数据库中获取该第一商户的注册数据。在另一种可能的实现方式中,计算机设备还可以根据第一商户所处的地址位置,从与第一商户所处的地址位置相匹配的数据库中获取第一商户的注册数据。例如,第一商户位于XXX城市,则计算机设备可以从XXX城市的商户注册系统中获取该第一商户的注册数据。在又一种可能的实现方式中,计算机设备可以从网络渠道获取第一商户的注册信息,等等。
另外,第一商户对应的运营者数据可以包括第一商户对应的企业数据,企业数据可以包括但不限于:企业的基本信息(例如企业名称、营业执照注册编码、组织机构代码、企业类型、企业状态、经营范围等等)、和企业间(例如企业A和企业B)的投资信心等数据。在一种可能的实现方式中,计算机设备可以获取第一商户对应的企业数据可以包括但不限于:计算机设备可以从企业的官网、以及其它网络渠道获取企业数据。或者,计算机设备根据企业类型,从与该企业类型相匹配的数据库中获取企业数据,等等。
另外,第一商户的交易数据可以包括预设周期内(例如一天)的交易日志流水,其中,交易日志流水记录有交易画像(例如可以包括交易时间、交易金额、交易行为、支付渠道等等数据)和交易对象(例如对象1、对象2、对象3等一个或多个对象)等数据。计算机设备获取第一商户的交易数据可以包括但不限于:计算机设备从支付平台的数据库中获取第一商户的交易数据,计算机设备从网络渠道中获取第一商户的交易数据,等等。
可以理解的是,计算机设备获取第一商户的注册数据、获取第一商户对应的运营者数据、以及获取第一商户的交易数据的渠道来源可以相同,也可以不相同,本申请实施例在此不做具体限定。并且,对计算机设备获取第一商户的注册数据、获取第一商户对应的运营者数据、以及获取第一商户的交易数据的时间先后顺序同样不做具体限定。
在一种可能的实现方式中,计算机设备在获取任一对象的关联数据之后,还可以对任一对象的关联数据进行数据清洗。其中,数据清洗可以包括但不限于以下一种或多种:对重复的数据进行删除处理、对无效的数据进行删除处理、对缺失的数据进行补全处理、对错误的数据进行纠正处理等等。通过这种方式,可以提高关联数据的准确性和有效性,从而提高后续数据分析处理(对任一对象的关联数据进行知识抽取)的准确性。
接下来,以计算机设备对第一对象的关联数据进行知识抽取,得到第一对象的关联特征为例进行详细说明。关联特征用于表示任一对象与关联对象之间的关联关系。其中,关联对象的类型可以与第一对象的类型相同,也可以与第一对象的类型不相同。具体来说,若第一对象为第一商户,则第一对象的关联对象可以包括但不限于:第二商户、企业、法定代表人、公众号、身份证号、手机号,等等。并且,多个关联对象中不同类型的关联对象的数量可以相同,也可以不相同。例如,第一商户关联有1个企业,第一商户关联有2个其它商户(例如第二商户和第三商户)。
需要说明的是,本申请实施例中,针对不同类型的数据,其对应的知识抽取方式可以不同,具体来说,针对结构化数据、半结构化数据、以及非结构化数据各自对应的知识抽取方式可以参见表2所示:
表2.不同数据类型的数据分别对应的知识抽取方式
由前述可知,由于计算机设备获取第一对象的注册数据、获取第一对象对应的运营者数据、以及获取第一对象的交易数据的渠道来源可能不相同,因此注册数据、运营者数据、以及交易数据的数据类型也可能不相同。在对第一对象的关联数据进行知识抽取的过程中,可以按照表2所示,针对不同数据类型的数据分别采用对应的知识抽取方式,具体来说,对于结构化数据,可以直接使用抽取工具进行知识抽取,比如D2R、Virtuoso、OracleSW、Morph等抽取工具;对于百科类数据、网页数据等半结构化数据,可以采用包装器的方式实现知识抽取,其中,包装器的生成方法包括手工方法、包装器归纳方法和自动抽取方法这三大类;而对于非结构化数据,可以采用基于深度学习知识提取模型进行知识抽取。通过这种方式,可以提高知识抽取的效率和准确性,从而得到的第一对象的关联特征更加准确。
在一种可能的实现方式中,知识抽取具体可以包括:实体抽取、关系抽取、以及事件抽取。其中,所谓实体抽取可以通过序列标注模型进行抽取处理,序列标注模型可以包括但不限于:隐马尔科夫(Hidden Markov Model,HMM)、条件随机场(Conditional RandomFields,CRF)、基于Transformer的双向编码器表征(Bidirectional EncoderRepresentations from Transformer,BERT)等神经网络模型;关系抽取可以包括但不限于:利用监督学习方式进行抽取处理,或者基于模板匹配的方式进行抽取处理;事件抽取是指抽取出对象感兴趣的信息,并以结构化的形式(例如关系表)呈现出来。
接下来,本申请实施例针对第一对象的注册数据、第一对象的交易数据以及第一对象对应的运营者数据的知识抽取过程分别进行详细介绍:
(1)第一对象的注册数据的知识抽取:
在一种可能的实现方式中,第一对象的注册数据包括m个数据表,任一数据表中记录有与第一对象的属性相关的数据;m为正整数。具体来说,第一对象的关联数据可以包括但不限于:第一商户的商户注册表、商户评级表、商户交易画像表、商户排查表、商户报障表、商户投诉表等等。例如,第一商户的商户注册表中记录有注册第一商户的相关数据;商户评级表中记录有评价第一商户的商户等级的相关数据;商户交易画像表中记录有第一商户的交易金额、交易对象、交易数据等数据;商户排查表中记录有与第一商户信誉度相关的数据;商户投诉表中记录有被投诉的多个商户的相关数据;等等。接下来,计算机设备可以分别对m个数据表中的每个数据表进行知识抽取,得到m个待融合特征;然后,计算机设备可以对m个待融合特征进行融合处理,得到第一对象的第一特征;最后,计算机设备将第一对象的第一特征确定为知识图谱中第一对象对应的节点的属性特征。
举例来说,本申请实施例中,可以基于第一商户的商户注册表、商户评级表、商户交易画像表、商户排查表、商户报障表、商户投诉表等等m个数据表,通过知识抽取的方式以及知识融合方式进行处理后得到的第一商户的第一特征可以包括第一商户的商户特征,第一商户的商户特征可以包括但不限于:商户标识(Identity document,Id),商户名称、商户等级、申请日期、入住日期、交易类型、商户类型、最新排查信息、最新处罚信息、历史排查信息、历史处罚信息、交易信息、投诉信息,等等。可以理解的是,本申请实施例中所抽取出来的第一商户的第一特征可以存储于特征关系表中,特征关系表可以如下表3所示:
表3.第一商户的第一特征
其中,如表3所示,第一商户的最新排查信息、历史排查信息、最新处罚信息、历史处罚信息、以及投诉信息等信息中可以具体包括详细的时间以及原因等。
(2)第一对象的交易数据的知识抽取:
在一种可能的实现方式中,第一对象的关联数据包括第一对象的交易数据。计算机设备可以按照场景需求对第一对象的交易数据进行数据划分处理,得到多个单位交易数据。然后,计算机设备可以对多个单位交易数据中的每个单位交易数据进行知识抽取,得到每个单位交易数据对应的单位交易特征。接下来,计算机设备可以基于得到的多个单位交易特征,确定第一对象的第二特征。最后,计算机设备可以将第一对象的第二特征确定为知识图谱中第一对象对应的节点的属性特征。
具体来说,按照场景需求对第一商户的交易数据进行数据划分处理后,得到的多个单位交易数据可以包括但不限于:男女交易数据(例如男对象A与女对象B之间进行交易所涉及的相关数据)、商业支付交易数据(例如第一商户与第二商户之间进行合作交易所涉及的相关数据)、金融投资交易数据(例如第一商户向第二商户进行了投资交易所涉及的相关数据)、资产拍卖交易数据(例如第一商户将所拥有的某个商品进行资产拍卖所涉及的相关数据)等等。当然,针对不同的场景需求,本申请实施例中还可以进行更细致的数据划分,例如针对男女交易场景,可以对男女交易数据进一步划分为“交易金额”、“交易次数”、“交易所涉及的对象数量”等数据。进一步地,计算机设备可以基于划分得到的多个单位交易数据,分别对每个单位交易数据进行知识抽取,得到每个单位交易数据对应的单位交易特征。需要说明的是,在对每个单位交易数据进行知识抽取的过程中,具体可以参见如表2所示,计算机设备可以根据单位交易数据的数据类型,确定与该数据类型相匹配的知识抽取方式后进行相应的单位交易数据的知识抽取。通过这种方式,可以提高知识抽取的效率和准确性,因此可以保证得到的单位交易特征的准确性和全面性。最后,在确定了每个单位交易数据分别对应的单位交易特征之后,计算机设备基于得到的多个单位交易特征,确定第一对象的第二特征可以包括:对各个单位交易特征进行特征融合处理,将融合后的特征确定为第一对象的第二特征;或者,对各个交易特征进行特征拼接处理,将拼接后的特征确定为第一对象的第二特征;又或者,从各个单位交易特征中筛选出一部分重要的单位交易特征,然后基于筛选处理的单位交易特征,确定得到第一对象的第二特征,等等。可以理解的是,通过上述方式,所确定的第一对象的第二特征例如可以包含120多个特征,并且这120多个特征同样可以存储于特征关系表中。特征关系表可以如下表4所示:
表4.第一商户的第二特征
(3)第一对象对应的运营者数据的知识抽取:
在一种可能的实现方式中,若第一对象为第一商户,则第一对象对应的运营者可以为企业,即第一商户对应的运营者数据可以包括第一商户对应的企业数据。其中,企业数本数据可以包括但不限于:企业主表、企业信息表及个体主表等等,因此计算机设备可以从上述各个表中抽取得到的企业特征可以包括但不限于:企业id、企业名称、企业统一社会信用代码、组织机构代码、营业执照注册编码、税务号、企业类型、企业状态、经营范围、实缴资本、法人姓名,等等。同样可以理解的是,对第一商户的企业数据的知识抽取的方式具体可以参考表2所示的知识抽取方式,本申请实施例在此不再赘述。另外,抽取得到的第一商户对应的企业特征同样可以存储于特征关系表中。
在另一种可能的实现方式中,若第一对象为第一商户,则第一对象对应的运营者还可以为公众号,即第一商户对应的运营者数据可以包括第一商户对应的公众号数据。计算机设备从公众号数据中抽取得到的公众号特征可以包括但不限于:公众号id、公众号名称、对象在公众号下的精选留言信息(所谓精选留言信息可以包括评论区中对象点赞量排名在前n位的信息)和主菜单内容等等。同样可以理解的是,对第一商户的公众号数据的知识抽取的方式具体可以参考表2所示的知识抽取方式,本申请实施例在此不再赘述。另外,抽取得到的第一商户对应的公众号特征同样可以存储于特征关系表中。
需要说明的是,上述所确定的第一商户的第一特征可以确定为知识图谱中第一商户对应的节点的属性特征、上述所确定的第一商户的第二特征也可以确定为知识图谱中第一商户对应的节点的属性特征;第一商户对应的企业特征可以确定为第一商户对应的企业的属性特征。这些特征均可以作为与第一商户具有关联关系的属性特征,可以存储于知识图谱中。
(4)第一对象的关联特征的知识抽取:
需要说明的是,第一对象的关联特征可以用于表示第一对象与一个或多个关联对象之间的关联关系。本申请实施例中,与第一商户具有关联关系的关联对象可以包括但不限于:其它商户(如第二商户)、企业、法定代表人、公众号、身份证号、手机号,等等。具体来说,第一对象的关联特征可以包括但不限于:第一商户和身份证之间的关联关系、第一商户和法定代表人之间的关联关系、第一商户和企业之间的关联关系、第一商户和公众号之间的关联关系、第一商户和手机号之间的关联关系、第一商户和其它商户(如第二商户)的共同交易对象关系等。可以理解的是,“第一商户和身份证之间的关联关系、第一商户和法定代表人之间的关联关系、第一商户和企业之间的关联关系、第一商户和公众号之间的关联关系、以及第一商户和手机号之间的关联关系”,这几种关联特征具体可以根据第一商户的注册数据以及第一商户对应的企业数据中的一种或多种来确定;“第一商户和其它商户(如第二商户)的共同交易对象关系”具体可以根据第一商户的交易数据和其它商户(如第二商户)的交易数据中的一种或多种来确定。
可以理解的是,通过上述方式,所确定的第一对象的关联特征同样可以存储于特征关系表中。特征关系表可以如下表5所示:
表5.第一商户的关联特征
在一种可能的实现方式中,数据源中的任一对象表示为第一对象,第一对象的关联对象包括第二对象;若第一对象为第一商户,则第二对象可以为第二商户。第一商户的关联数据可以包括第一商户的第一交易对象数量,那么,第一商户的关联特征可以包括第一商户与第二商户之间的共同交易对象关系。具体来说,计算机设备确定第一商户与第二商户之间的共同交易对象关系的具体过程可以包括:首先,计算机设备可以获取第二商户的第二交易对象数量,具体的,计算机设备可以从第二商户的交易数据中获取第二交易对象数量。然后,计算机设备可以根据第一商户的第一交易对象数量及第二商户的第二交易对象数量,确定第一商户和第二商户的共同交易对象数量;并根据第一交易对象数量、第二交易对象数量以及共同交易对象数量,确定第一商户与第二商户之间的共同交易系数。最后,计算机设备根据第一商户与第二商户之间的共同交易系数确定第一商户与第二商户之间的共同交易对象关系。需要说明的是,共同交易对象关系是指两个商户之间的共同交易系数大于系数阈值(例如5%)的关系。其中,上述提及的系数阈值可以根据场景需求自定义设置,也可以根据经验值进行设置,本申请实施例对此不做具体限定。
举例来说,第一商户与第二商户之间的共同交易系数的计算公式如公式(1)所示:
其中,公式(1)中,activeWeight表示第一商户与第二商户之间的共同交易系数,commonBuyerNum表示第一商户与第二商户的共同交易对象数量,A.buyer_num表示第一商户的第一交易对象数量,B.buyer_num表示第二商户的第二交易对象数量。例如,计算机设备从第一商户的交易数据中获取到的第一交易对象数量包括:对象1、对象2、对象3等10个对象;计算机设备从第二商户的交易数据中获取到的第二交易对象数量包括:对象1、对象3、对象5等8个对象。那么,第一商户与第二商户的共同交易对象数量可以为对象1和对象3,则可以根据公式1计算得到第一商户与第二商户之间的共同交易系数为:2×2/(10+8)=2/9。进一步地,由于2/9大于5%,因此可以确定第一商户与第二商户之间具有共同交易对象关系。
S602:将对象和关联对象确定为节点,将关联特征表征的关联关系确定为边。
本申请实施例中,非关系型数据表中的数据元素可以包括:节点(Vertex)和边(Edge)。每个节点可以包括标签(label)特征和属性(Property)特征,其中,节点的标签特征可以包括节点的类别,例如节点的类别可以包括但不限于:商户、企业、法定代表人、公众号、身份证号、手机号,等等。节点的属性特征可以根据前述步骤S401中所抽取得到的特征来确定:例如,节点1为第一商户,则节点1的属性特征可以根据第一商户的第一特征和第一商户的第二特征来确定。又如,节点2为第一商户对应的企业,则节点2的属性特征可以根据第一商户对应的企业特征来确定。还如,节点3为公众号,则节点3的属性特征可以根据第一商户对应的公众号特征来确定。
S603:将节点的属性特征及边的属性特征写入至非关系型数据表中。
举例来说,以JanusGraph数据库中的为例,在计算机设备对数据源中多个对象的关联数据进行知识抽取后所构建的非关系型数据表可以存储于JanusGraph数据库中的Hbase存储系统中。请参见图3,图3是本申请实施例提供的一种图数据库的数据结构的示意图。在图3所示的Hbase存储系统中,Row key(行键)表示节点的id(vertex id),对应的行cell中存储节点的属性特征(包括属性名和属性值)和与该节点相关的边(包括节点间的指向关系和时间戳)。例如,第一商户对应的节点可以为节点1(vertex id=1),该节点的行cell中存储有第一商户对应的节点的属性特征,具体来说,一个行cell中的一个属性特征对应一列,每个属性特征可以包括属性名(qualifier)和属性值(value)。如表2所示,第一商户对应的节点的属性特征(Property)例如可以包括:属性名(商户名称)和对应的属性值(XXX有限公司);或者,第一商户对应的节点的属性特征(Property)又如可以包括:属性名(商户等级)和对应的属性值(A),等等。由此可见,前述步骤进行知识抽取所得到的第一商户的第一特征、第二特征等,可以作为第一商户对应的节点的属性特征,并存储于Hbase存储系统中。另外,节点1对应的边中具体存储有:节点1—>节点2,节点1—>节点3,节点4—>节点1。通过这种方式,可以节点为中心,按切边的方式生成知识图谱的邻接列表。具体来说,若节点1对应的边存储有节点1—>节点2,则可以从节点1链接到节点2,若节点2对应的边存储有节点2—>节点3,则可以从节点2链接到节点3,...,以此类推。
同理可知,第一商户对应的企业的节点可以为节点2(vertex id=2),该节点的行cell中存储有第一商户对应的企业的属性特征和边。需要说明的是,此处如何确定第一商户对应的企业的节点的属性特征具体可以参考前述确定第一商户对应的节点的属性特征,本申请实施例在此不再赘述。
在一种可能的实现方式中,计算机设备将节点的属性特征及边的属性特征写入至非关系型数据表中,可以包括:首先,对节点的属性特征进行压缩处理,得到节点属性字符串;以及,对边的属性特征进行压缩处理,得到边属性字符串;最后,将节点属性字符串及边属性字符串写入至非关系型数据表中。
举例来说,非关系型数据表可以如图3所示。如3所示的节点1可以表示商户、节点2可以表示企业、节点3可以表示法定代表人等等。可以理解的是,考虑到Hbase存储系统的性能特点,列数对于数据的存储和查询性能都有很大的影响,从存储看,更多的属性特征(列)消耗更多的内存;从查询看,可以通过输入节点id,返回对应的属性名、属性值和时间戳,当属性特征较多时,属性名会占据大量的内存空间。考虑到本申请实施例中,节点的属性特征较多(例如第一对象的第二特征包括了120多个特征),因此在一种可能的实现方式中,第一对象的第二特征包括k个单位特征,k为正整数。
其中,计算机设备对第二特征进行特征压缩处理,具体可以包括:首先,分别将k个单位特征中的每个单位特征转换为属性字符串,以得到k个属性字符串。然后,对k个属性字符串进行特征压缩处理,得到压缩后的第二特征。最后,将压缩后的第二特征确定为知识图谱中第一对象对应的节点的属性特征。同理,针对其它节点的属性特征同样可以按照需求进行特征压缩处理,例如也可以对第一对象的第一特征中的处罚信息、投诉信息进行特征压缩处理,等等,本申请实施例在此不再赘述。通过这种方式,通过特征压缩处理后,可以将属性特征转换为json字符串的形式,优化了知识图谱的读写性能,既可以节省存储空间,减少节点增加所带来的时间消耗,又可以最大限度地保留了节点的属性特征,便于后续查询操作。
在一种可能的实现方式中,计算机设备获取非关系型数据表中的属性的类型;类型包括第一类型及第二类型,第一类型指查询频率高于预设值的类型;第二类型是指查询频率低于预设值的类型。为第一类型的属性特征添加索引,索引包括复合索引或混合索引;复合索引支持等值查询;混合索引支持范围查询。
具体来说,将知识抽取得到的相关特征(第一商户的第一特征、第一商户的第二特征、第一商户的关联特征等等)存储至janusGraph数据库中的Hbase后,可以根据相应节点的属性特征进行查询操作。在对象查询时,可以针对被频繁查询的属性特征增加索引,具体来说,对于节点id等唯一型的属性特征添加复合索引(即支持等值查询),经营范围等文本类的属性特征添加混合索引(即支持范围查询、地理位置索引等等)。具体来说,本申请实施例中,janusGraph数据库的底层存储选用的是Hbase存储系统,索引(包括复合索引、混合索引)则存储在用于分布式全文检索(Elastic Search,ES)的组件中,这些组件均是已经成熟开发好的组件,因此无需额外安装,可以节省对知识图谱进行存储以及管理的运维成本。举例来说,可以输入节点1的“id”或者“名称”进行查询,查询结果可以包括节点1对应的属性特征、与节点1具有关联关系的其它节点的属性特征、以及每个属性特征对应的时间戳(此处的时间戳具体可以包括相应属性特征写入至Hbase存储系统所对应的时间戳)。
可以理解的是,本申请实施例中,基于上述构建得到的非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱是全量的,即知识图谱是针对多个商户构建得到的。其中,本申请上述实施例中,是以多个商户中的任一商户为例,获取第一商户的关联数据,并对第一商户的关联数据进行分析后,构建得到第一知识图谱。那么,针对其它商户而言,同样可以获取其它商户的关联数据,并基于本申请实施例所提供的数据处理方法,对其它商户的关联数据进行分析后将其它商户作为节点添加至第一知识图谱中。
在一种可能的实现方式中,第一知识图谱为主图谱,且第一知识图谱为启用状态。首先,计算机设备接收目标对象发送的信息注册请求,信息注册请求中携带有目标对象的注册数据;然后,计算机设备根据目标对象的注册数据,从第一知识图谱中查询与目标商户具有关联关系的目标关联对象;最后,计算机设备根据查询到的目标关联对象的属性,对目标对象执行风控处理。
举例来说,请参见图7,图7是本申请实施例提供的一种知识图谱的应用场景示意图。如图7所示,在对商户进行风险控制管理的应用场景中,该应用场景可以适用于风险控制管理系统,其中,风险控制管理系统中可以包括终端设备和服务器,终端设备例如可以为目标商户所使用的设备,服务器可以为商户注册系统,商户注册系统中存储有上述提及的为已成功注册的商户所构建的第一知识图谱。在实际应用场景中,若商户注册系统接收到一个新商户A(目标商户)的信息注册请求时,其中,该信息注册请求中携带有该商户A的注册数据,然后可以商户注册系统可以基于商户A的注册数据(例如可以包括商户A的法人身份证号(即法定代表人的身份证号,后续可简称法人身份证号)、注册公众号、注册手机号、企业统一社会信用代码、商户名称等等),从第一知识图谱中查询与商户A具有关联关系的目标对象。具体来说,例如可以基于商户A的法人身份证号从第一知识图谱中确定查询结果,查询结果可以用于指示该商户A的法人身份证号是否关联有其它已注册的商户,若查询到该商户A的法人身份证号关联有商户B、商户C。进一步地,可以基于商户B和商户C对商户A进行风险控制管理,具体来说,若商户B和商户C均是信用等级较低、或者存在商业风险的商户,因此大概率可以判定该商户A的信誉度较低,可以认为商户A是一个存在潜在风险的商户。接下来,风险控制管理系统则可以拦截该商户A的信息注册请求,即不响应该商户A的信息注册请求。或者,风险控制管理系统可以响应该商户A的信息注册请求,但需要对该商户A加大监管力度。
又如,以商户间的关联关系可视化的应用场景为例,可以基于本申请实施例所构建的第一知识图谱,查询与任一节点具有关联关系的其它节点,并可以将所查询到的该节点以及与该节点具有关联关系的其它节点以知识图谱的形式输出。例如,某对象需要查询与节点1(例如商户1)相关的其它节点,可以基于商户1的标识或者名称,从所构建的全量知识图谱中查找到商户1相关的数据,例如与商户1相关的数据包括但不限于:商户1的法人身份证号、注册公众号、注册手机号、企业统一社会信用代码、商户名称等等,然后基于这些相关数据,还可以输出商户1对应的知识图谱,方便直观形象的观察,从而提升体验感。
在本申请的以上具体实施方式中,涉及到用户信息(例如第一商户的法人身份证号、手机号、银行卡给号)等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请实施例中,基于构建的第一知识图谱和第二知识图谱,可以为商户的风险控制提供了新的分析思路和数据支持,包括但不限于:为关联商户查询、关联关系可视化、节点重要性分析、图嵌入、图神经网络等技术进行多方位的商户风险管控提供数据基础,以及可基于网络结构的知识图谱进行具有风险的商户团伙的识别和挖掘处理。此外,基于具备更多属性特征的节点所构成的知识图谱还可提高关联商户的查询效率,并且可以将查询结果在可视化界面中输出并展示,无需编写代码,方便操作,为审核人员带来了便利。
请参见图8,图8是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置800可应用于上述实施例对应的计算机设备。数据处理装置800可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置800为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。该数据处理装置800可包括:
处理单元801,用于对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表,非关系型数据表中包含节点和边,一个节点表示数据源中的一个对象,一条边表示数据源中的任意两个对象之间的关联关系;
生成单元802,用于基于非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱;
管理单元803,用于按照第一管理机制对第一知识图谱进行管理,以及按照第二管理机制对第二知识图谱进行管理。
在一种可能的实现方式中,第一知识图谱为主图谱,第二知识图谱为备用图谱;
管理单元803按照第一管理机制对所述第一知识图谱进行管理,用于执行以下操作:
按照第一更新频率对第一知识图谱进行增量更新操作,并按照第二更新频率对第一知识图谱进行全量更新操作;
管理单元803按照第二管理机制对第二知识图谱进行管理,用于执行以下操作:
按照第三更新频率对第二知识图谱进行全量更新操作。
在一种可能的实现方式中,第一知识图谱为主图谱;
管理单元803按照第一管理机制对所述第一知识图谱进行管理,用于执行以下操作:
对第一知识图谱进行异常检测,异常检测用于检测第一知识图谱中的异常节点和/或异常边;
若第一知识图谱存在异常预警,则将第一知识图谱设为禁用状态,存在异常预警是指第一知识图谱中存在异常节点和/或异常边,且第一知识图谱中的异常节点和/或异常边满足预警条件;
当第一知识图谱消除异常预警时,将第一知识图谱设为启用状态。
在一种可能的实现方式中,第二知识图谱为备用图谱;
管理单元803按照第二管理机制对第二知识图谱进行管理,用于执行以下操作:
若第一知识图谱为禁用状态,则将第二知识图谱变更为主图谱;
若第一知识图谱由禁用状态变更为启用状态,则将第二知识图谱重新设为备用图谱。
在一种可能的实现方式中,关联数据包括以下至少一种:注册数据、运营者数据、交易数据;
处理单元801还用于执行以下操作:
对数据源中多个对象的关联数据进行知识抽取,得到各个对象的关联特征,关联特征用于表示任一对象与关联对象之间的关联关系;
将对象和关联对象确定为节点,将关联特征表征的关联关系确定为边;
将节点的属性特征及边的属性特征写入至非关系型数据表中。
在一种可能的实现方式中,处理单元801将节点的属性特征及边的属性特征写入至非关系型数据表中,用于执行以下操作:
对节点的属性特征进行压缩处理,得到节点属性字符串;以及,
对边的属性特征进行压缩处理,得到边属性字符串;
将节点属性字符串及边属性字符串写入至非关系型数据表中。
在一种可能的实现方式中,处理单元801还用于执行以下操作:
获取非关系型数据表中的属性的类型;类型包括第一类型及第二类型,第一类型指查询频率高于预设值的类型,第二类型是指查询频率低于预设值的类型;
为第一类型的属性特征添加索引,索引包括复合索引或混合索引,复合索引支持等值查询,混合索引支持范围查询。
在一种可能的实现方式中,数据源中的任一对象表示为第一对象;第一对象的关联对象包括第二对象;第一对象的关联数据包括第一对象的第一交易对象数量;关联特征包括第一对象与二对象之间的共同交易对象关系;
处理单元801对第一对象的关联数据进行知识抽取,得到第一对象的关联特征,用于执行以下操作:
获取第二对象的第二交易对象数量;
根据第一对象的第一交易对象数量及第二对象的第二交易对象数量,确定第一对象和第二对象的共同交易对象数量;
根据第一交易对象数量、第二交易对象数量以及共同交易对象数量,确定第一对象与所述第二对象之间的共同交易系数;
基于第一对象与第二对象之间的共同交易系数确定第一对象与第二对象之间的共同交易对象关系。
在一种可能的实现方式中,数据源中的多个对象中的任意一个表示为第一对象;第一对象的关联数据包括第一对象的交易数据;处理单元801还用于执行以下操作:
按照场景需求对第一对象的交易数据进行数据划分处理,得到多个单位交易数据;
对多个单位交易数据中的每个单位交易数据进行知识抽取,得到每个单位交易数据对应的单位交易特征;
基于得到的多个单位交易特征,确定第一对象的第二特征;
将第一对象的第二特征确定第一对象对应的节点的属性特征。
在一种可能的实现方式中,数据源中的任一对象表示为第一对象;第一对象的注册数据存储在关系型数据库中的m个数据表中,m为正整数;
处理单元801还用于执行以下操作:
分别对m个数据表中与所述第一对象相关的数据进行知识抽取,得到m个待融合特征;
对m个待融合特征进行融合处理,得到第一对象的第一特征;
将第一对象的第一特征确定为第一对象对应的节点的属性特征。
在一种可能的实现方式中,第一知识图谱为主图谱,且第一知识图谱为启用状态;
处理单元801还用于执行以下操作:
接收目标对象发送的信息注册请求,信息注册请求中携带有目标对象的注册数据;
根据目标对象的注册数据,从第一知识图谱中查询与目标商户具有关联关系的目标关联对象;
根据查询到的目标关联对象的属性,对目标对象执行风控处理。
本申请实施例中,首先,可以获取包括多个对象的关联数据的数据源,并对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表,其中,非关系型数据表中包含节点和边,一个节点表示数据源中的一个对象,一条边表示数据源中的任意两个对象之间的关联关系。然后,基于非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱。最后,按照第一管理机制对第一知识图谱进行管理,以及按照第二管理机制对第二知识图谱进行管理。可见,本申请中是基于非关系型数据表来存储的多个对象的关联数据,相比于基于关系型数据库来存储多个对象的关联数据而言,本申请便于查询对象之间的关联关系。并且,本申请构建了两个知识图谱,并分别按照各自的管理机制对相应的知识图谱进行管理。那么,相比于只构建一个图谱并按照一个管理机制对知识图谱进行管理而言,本申请中丰富多样的管理机制可以更全面的对知识图谱进行管理操作(包括更新操作、异常检测操作等),从而提高对知识图谱进行管理的准确性。
请参见图9,图9是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备900用于执行前述方法实施例中计算机设备所执行的步骤,该计算机设备900包括:一个或多个处理器910;一个或多个输入设备920,一个或多个输出设备930和存储器940。上述处理器910、输入设备920、输出设备930和存储器940通过总线950连接。存储器940用于存储计算机程序,所述计算机程序包括程序指令,处理器910用于调用存储器940存储的程序指令,执行以下操作:
对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表,非关系型数据表中包含节点和边,一个节点表示数据源中的一个对象,一条边表示数据源中的任意两个对象之间的关联关系;
基于非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱;
按照第一管理机制对第一知识图谱进行管理,以及按照第二管理机制对第二知识图谱进行管理。
在一种可能的实现方式中,第一知识图谱为主图谱,第二知识图谱为备用图谱;
处理器910按照第一管理机制对所述第一知识图谱进行管理,用于执行以下操作:
按照第一更新频率对第一知识图谱进行增量更新操作,并按照第二更新频率对第一知识图谱进行全量更新操作;
处理器910按照第二管理机制对第二知识图谱进行管理,用于执行以下操作:
按照第三更新频率对第二知识图谱进行全量更新操作。
在一种可能的实现方式中,第一知识图谱为主图谱;处理器910按照第一管理机制对所述第一知识图谱进行管理,用于执行以下操作:
对第一知识图谱进行异常检测,异常检测用于检测第一知识图谱中的异常节点和/或异常边;
若第一知识图谱存在异常预警,则将第一知识图谱设为禁用状态,存在异常预警是指第一知识图谱中存在异常节点和/或异常边,且第一知识图谱中的异常节点和/或异常边满足预警条件;
当第一知识图谱消除异常预警时,将第一知识图谱设为启用状态。
在一种可能的实现方式中,第二知识图谱为备用图谱;
处理器910按照第二管理机制对第二知识图谱进行管理,用于执行以下操作:
若第一知识图谱为禁用状态,则将第二知识图谱变更为主图谱;
若第一知识图谱由禁用状态变更为启用状态,则将第二知识图谱重新设为备用图谱。
在一种可能的实现方式中,关联数据包括以下至少一种:注册数据、运营者数据、交易数据;
处理器910还用于执行以下操作:
对数据源中多个对象的关联数据进行知识抽取,得到各个对象的关联特征,关联特征用于表示任一对象与关联对象之间的关联关系;
将对象和关联对象确定为节点,将关联特征表征的关联关系确定为边;
将节点的属性特征及边的属性特征写入至非关系型数据表中。
在一种可能的实现方式中,处理器910将节点的属性特征及边的属性特征写入至非关系型数据表中,用于执行以下操作:
对节点的属性特征进行压缩处理,得到节点属性字符串;以及,
对边的属性特征进行压缩处理,得到边属性字符串;
将节点属性字符串及边属性字符串写入至非关系型数据表中。
在一种可能的实现方式中,处理器910还用于执行以下操作:
获取非关系型数据表中的属性的类型;类型包括第一类型及第二类型,第一类型指查询频率高于预设值的类型,第二类型是指查询频率低于预设值的类型;
为第一类型的属性特征添加索引,索引包括复合索引或混合索引,复合索引支持等值查询,混合索引支持范围查询。
在一种可能的实现方式中,数据源中的任一对象表示为第一对象;第一对象的关联对象包括第二对象;第一对象的关联数据包括第一对象的第一交易对象数量;关联特征包括第一对象与二对象之间的共同交易对象关系;
处理器910对第一对象的关联数据进行知识抽取,得到第一对象的关联特征,用于执行以下操作:
获取第二对象的第二交易对象数量;
根据第一对象的第一交易对象数量及第二对象的第二交易对象数量,确定第一对象和第二对象的共同交易对象数量;
根据第一交易对象数量、第二交易对象数量以及共同交易对象数量,确定第一对象与所述第二对象之间的共同交易系数;
基于第一对象与第二对象之间的共同交易系数确定第一对象与第二对象之间的共同交易对象关系。
在一种可能的实现方式中,数据源中的多个对象中的任意一个表示为第一对象;第一对象的关联数据包括第一对象的交易数据;
处理器910还用于执行以下操作:
按照场景需求对第一对象的交易数据进行数据划分处理,得到多个单位交易数据;
对多个单位交易数据中的每个单位交易数据进行知识抽取,得到每个单位交易数据对应的单位交易特征;
基于得到的多个单位交易特征,确定第一对象的第二特征;
将第一对象的第二特征确定第一对象对应的节点的属性特征。
在一种可能的实现方式中,数据源中的任一对象表示为第一对象;第一对象的注册数据存储在关系型数据库中的m个数据表中,m为正整数;
处理器910还用于执行以下操作:
分别对m个数据表中与所述第一对象相关的数据进行知识抽取,得到m个待融合特征;
对m个待融合特征进行融合处理,得到第一对象的第一特征;
将第一对象的第一特征确定为第一对象对应的节点的属性特征。
在一种可能的实现方式中,第一知识图谱为主图谱,且第一知识图谱为启用状态;
处理器910还用于执行以下操作:
接收目标对象发送的信息注册请求,信息注册请求中携带有目标对象的注册数据;
根据目标对象的注册数据,从第一知识图谱中查询与目标商户具有关联关系的目标关联对象;
根据查询到的目标关联对象的属性,对目标对象执行风控处理。
本申请实施例中,首先,可以获取包括多个对象的关联数据的数据源,并对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表,其中,非关系型数据表中包含节点和边,一个节点表示数据源中的一个对象,一条边表示数据源中的任意两个对象之间的关联关系。然后,基于非关系型数据表,生成与数据源中的多个对象相关的第一知识图谱和第二知识图谱。最后,按照第一管理机制对第一知识图谱进行管理,以及按照第二管理机制对第二知识图谱进行管理。可见,本申请中是基于非关系型数据表来存储的多个对象的关联数据,相比于基于关系型数据库来存储多个对象的关联数据而言,本申请便于查询对象之间的关联关系。并且,本申请构建了两个知识图谱,并分别按照各自的管理机制对相应的知识图谱进行管理。那么,相比于只构建一个图谱并按照一个管理机制对知识图谱进行管理而言,本申请中丰富多样的管理机制可以更全面的对知识图谱进行管理操作(包括更新操作、异常检测操作等),从而提高对知识图谱进行管理的准确性。
此外,这里需要指出的是:本申请实施例还提供了一种计算机存储介质,且计算机存储介质中存储有计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行前文所对应实施例中的方法,因此,这里将不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行前文所对应实施例中的方法,因此,这里将不再进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (15)
1.一种数据处理方法,其特征在于,包括:
对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表,所述非关系型数据表中包含节点和边,一个节点表示所述数据源中的一个对象,一条边表示所述数据源中的任意两个对象之间的关联关系;
基于所述非关系型数据表,生成与所述数据源中的多个对象相关的第一知识图谱和第二知识图谱;
按照第一管理机制对所述第一知识图谱进行管理,以及按照第二管理机制对所述第二知识图谱进行管理。
2.如权利要求1所述的方法,其特征在于,所述第一知识图谱为主图谱,所述第二知识图谱为备用图谱;所述按照第一管理机制对所述第一知识图谱进行管理,包括:
按照第一更新频率对所述第一知识图谱进行增量更新操作,并按照第二更新频率对所述第一知识图谱进行全量更新操作;
所述按照第二管理机制对所述第二知识图谱进行管理,包括:按照第三更新频率对所述第二知识图谱进行全量更新操作。
3.如权利要求1所述的方法,其特征在于,所述第一知识图谱为主图谱;所述按照第一管理机制对所述第一知识图谱进行管理,包括:
对所述第一知识图谱进行异常检测,所述异常检测用于检测所述第一知识图谱中的异常节点和/或异常边;
若所述第一知识图谱存在异常预警,则将所述第一知识图谱设为禁用状态,所述存在异常预警是指所述第一知识图谱中存在异常节点和/或异常边,且所述第一知识图谱中的异常节点和/或异常边满足预警条件;
当所述第一知识图谱消除异常预警时,将所述第一知识图谱设为启用状态。
4.如权利要求3所述的方法,其特征在于,所述第二知识图谱为备用图谱;所述按照第二管理机制对所述第二知识图谱进行管理,包括:
若所述第一知识图谱为禁用状态,则将所述第二知识图谱变更为主图谱;
若所述第一知识图谱由禁用状态变更为启用状态,则将所述第二知识图谱重新设为备用图谱。
5.如权利要求1-4任一项所述的方法,其特征在于,所述关联数据包括以下至少一种:注册数据、运营者数据、交易数据;
所述对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表,包括:
对所述数据源中多个对象的关联数据进行知识抽取,得到各个对象的关联特征,所述关联特征用于表示任一对象与关联对象之间的关联关系;
将对象和关联对象确定为节点,将所述关联特征表征的关联关系确定为边;
将所述节点的属性特征及所述边的属性特征写入至非关系型数据表中。
6.如权利要求5所述的方法,其特征在于,所述将所述节点的属性特征及所述边的属性特征写入至非关系型数据表中,包括:
对所述节点的属性特征进行压缩处理,得到节点属性字符串;以及,
对所述边的属性特征进行压缩处理,得到边属性字符串;
将所述节点属性字符串及所述边属性字符串写入至非关系型数据表中。
7.如权利要求5所述的方法,其特征在于,所述方法还包括:
获取所述非关系型数据表中的属性的类型;所述类型包括第一类型及第二类型,所述第一类型指查询频率高于预设值的类型,所述第二类型是指查询频率低于预设值的类型;
为第一类型的属性特征添加索引,所述索引包括复合索引或混合索引,所述复合索引支持等值查询,所述混合索引支持范围查询。
8.如权利要求5所述的方法,其特征在于,所述数据源中的任一对象表示为第一对象;所述第一对象的关联对象包括第二对象;所述第一对象的关联数据包括所述第一对象的第一交易对象数量;所述关联特征包括所述第一对象与所述第二对象之间的共同交易对象关系;
对所述数据源中的第一对象的关联数据进行知识抽取,得到所述第一对象的关联特征的流程,包括:
获取所述第二对象的第二交易对象数量;
根据所述第一对象的第一交易对象数量及所述第二对象的第二交易对象数量,确定所述第一对象和所述第二对象的共同交易对象数量;
根据所述第一交易对象数量、所述第二交易对象数量以及所述共同交易对象数量,确定所述第一对象与所述第二对象之间的共同交易系数;
基于所述第一对象与所述第二对象之间的共同交易系数确定所述第一对象与所述第二对象之间的共同交易对象关系。
9.如权利要求5所述的方法,其特征在于,所述数据源中的多个对象中的任意一个表示为第一对象;所述第一对象的关联数据包括所述第一对象的交易数据;所述方法还包括:
按照场景需求对所述第一对象的交易数据进行数据划分处理,得到多个单位交易数据;
对所述多个单位交易数据中的每个单位交易数据进行知识抽取,得到每个单位交易数据对应的单位交易特征;
基于得到的多个单位交易特征,确定所述第一对象的第二特征;
将所述第一对象的第二特征确定第一对象对应的节点的属性特征。
10.如权利要求5所述的方法,其特征在于,所述数据源中的任一对象表示为第一对象;所述第一对象的注册数据存储在关系型数据库中的m个数据表中,m为正整数;所述方法还包括:
分别对所述m个数据表中与所述第一对象相关的数据进行知识抽取,得到m个待融合特征;
对所述m个待融合特征进行融合处理,得到所述第一对象的第一特征;
将所述第一对象的第一特征确定为第一对象对应的节点的属性特征。
11.如权利要求1所述的方法,其特征在于,所述第一知识图谱为主图谱,且所述第一知识图谱为启用状态;所述方法还包括:
接收目标对象发送的信息注册请求,所述信息注册请求中携带有所述目标对象的注册数据;
根据所述目标对象的注册数据,从所述第一知识图谱中查询与所述目标商户具有关联关系的目标关联对象;
根据查询到的所述目标关联对象的属性,对所述目标对象执行风控处理。
12.一种数据处理装置,其特征在于,包括:
处理单元,用于对数据源中多个对象的关联数据进行知识抽取,构建非关系型数据表,所述非关系型数据表中包含节点和边,一个节点表示所述数据源中的一个对象,一条边表示所述数据源中的任意两个对象之间的关联关系;
生成单元,用于基于所述非关系型数据表,生成与所述数据源中的多个对象相关的第一知识图谱和第二知识图谱;
管理单元,用于按照第一管理机制对所述第一知识图谱进行管理,以及按照第二管理机制对所述第二知识图谱进行管理。
13.一种计算机设备,其特征在于,包括:存储装置和处理器;
存储器,所述存储器中存储一条或多条计算机程序;
处理器,用于加载所述一条或多条计算机程序实现如权利要求1-11任一项所述的数据处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于被处理器加载并执行如权利要求1-11任一项所述的数据处理方法。
15.一种计算机程序产品,其特征在于,所述计算程序产品包括计算机程序,所述计算机程序适于被处理器加载并执行如权利要求1-11任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210046273.4A CN116484054A (zh) | 2022-01-13 | 2022-01-13 | 数据处理方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210046273.4A CN116484054A (zh) | 2022-01-13 | 2022-01-13 | 数据处理方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116484054A true CN116484054A (zh) | 2023-07-25 |
Family
ID=87225531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210046273.4A Pending CN116484054A (zh) | 2022-01-13 | 2022-01-13 | 数据处理方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116484054A (zh) |
-
2022
- 2022-01-13 CN CN202210046273.4A patent/CN116484054A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Industrial big data analytics: challenges, methodologies, and applications | |
Poorthuis et al. | Making big data small: strategies to expand urban and geographical research using social media | |
Schintler et al. | Encyclopedia of big data | |
CN105518658A (zh) | 用于将数据记录分组的设备、系统以及方法 | |
CN105556517A (zh) | 智能搜索精细化 | |
KR20210082103A (ko) | 기계 학습 모델을 이용한 부동산 실거래가 예측 기반 부동산 예상 실거래가 산출 장치 및 그 동작 방법 | |
CN113722301A (zh) | 基于教育信息的大数据处理方法、装置及系统、存储介质 | |
CN113592680A (zh) | 基于区域级教育大数据的服务平台 | |
CN107679977A (zh) | 一种基于语义分析的税务管理平台及实现方法 | |
Paiho et al. | Opportunities of collected city data for smart cities | |
Imran et al. | Data provenance | |
Beck et al. | Automated classification metrics for energy modelling of residential buildings in the UK with open algorithms | |
Srinivasa et al. | Network Data Analytics | |
KR100796906B1 (ko) | 데이터베이스 품질관리 방법 | |
Hogan | Data center | |
Veglis | Interactive Data Visualization | |
CN114860819A (zh) | 商业智能系统的构建方法、装置、设备和存储介质 | |
CN116484054A (zh) | 数据处理方法及相关装置 | |
KR100796905B1 (ko) | 데이터베이스 품질관리 시스템 | |
CN113934729A (zh) | 一种基于知识图谱的数据管理方法、相关设备及介质 | |
KR100792322B1 (ko) | 데이터베이스 품질관리 프레임워크 | |
CN109408704B (zh) | 基金数据关联方法、系统、计算机设备和存储介质 | |
Willmes | CRC806-Database: A semantic e-Science infrastructure for an interdisciplinary research centre | |
Wen | Data sharing | |
Blázquez Soriano | Design and Evaluation of Web-Based Economic Indicators: A Big Data Analysis Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |