CN107832407A - 用于生成知识图谱的信息处理方法、装置和可读存储介质 - Google Patents
用于生成知识图谱的信息处理方法、装置和可读存储介质 Download PDFInfo
- Publication number
- CN107832407A CN107832407A CN201711069924.7A CN201711069924A CN107832407A CN 107832407 A CN107832407 A CN 107832407A CN 201711069924 A CN201711069924 A CN 201711069924A CN 107832407 A CN107832407 A CN 107832407A
- Authority
- CN
- China
- Prior art keywords
- entity
- relation
- identifier
- subgraph
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开内容提供了一种用于生成知识图谱的信息处理方法,所述信息处理方法包括:接收从关系型数据库中提取的数据;并行地分析所述数据以获得实体和关系;以及批量上传所述实体和所述关系。其中,批量上传所述实体和所述关系进一步包括根据所述实体和所述关系对所述实体进行分组,其中,每个实体具有与之对应的标识符;以及按照所述分组对所述实体和所述关系进行批量上传。依据本公开内容的用于生成知识图谱的信息处理方法通过并行地分析所述数据以获得实体和关系,从而能够有效地提高实体和关系的获取速度,从而为后续的知识图谱生成提供必要保障;然后,通过批量上传所述实体和所述关系能够进一步提高知识图谱的生成速度。
Description
技术领域
本公开内容涉及反欺诈技术,更为具体地涉及用于生成知识图谱的信息处理方法、用于生成知识图谱的信息处理装置以及相应的用于实施上述方法的有形的计算机可读存储介质。
背景技术
反欺诈是风控中非常重要的一道环节。基于大数据的反欺诈的难点在于如何把不同来源的结构化的和非结构化的数据整合在一起并构建反欺诈引擎,从而有效地识别出欺诈案件,例如身份造假、团体欺诈、代办包装等。此外,由于不少欺诈案件会涉及到复杂的关系网络,所以这也给欺诈审核带来了新的挑战。
作为关系的直接表示方式的知识图谱可以很好地解决以上的问题。首先,知识图谱提供了非常便捷的方式来添加新的数据源。其次,知识图谱本身就是用来表示关系的,这种直观的表示方法可以帮助反欺诈人员更有效地分析复杂关系中存在的特定的潜在风险。
然而,知识图谱系统需要用到图形数据库引擎,而贷款交易数据是存放在关系型数据库中的,因此,这两者的数据库是不同的。反欺诈人员需要把关系型数据库中的贷款交易数据导入图形数据库中才能进行图形查询。因为通常交易数据量很大,在图中有上千万的点和边,而贷款数据需要频繁更新到图库中,才能有效地进行反欺诈查询,所以图库的生成速度是很关键的技术。在保证图库更新比较及时的同时,又希望整个过程能比较简易。因为一旦复杂了,不但增加了开发量,而且容易积累错误。
现有技术中通常会把关系型数据库里筛选出来的数据用多个CSV文件来保存,这样可以对交易系统和知识图谱进行位置的解耦。也就是说,知识图谱放在哪里,只要把CSV文件传输过去即可。传统方法是对CSV文件进行逐行分析,从一行中提取出一个或多个实体并获取实体之间的关系,然后再进行上传操作。具体方法便是:先检查该实体是否在图中已经存在;如果该实体在图中不存在,则将该实体上传到图形数据库中并保存下该实体在图中的唯一标识符(ID)。等实体上传完后,通过之前保存的节点ID,上传实体关系。当把所用文件的所用行都分析上传完毕,知识图谱就生成了。
这样的做法虽然比较直观,但是效率不高,上传100万个点和边会用到将近15个小时以上的时间。所以如果要做到贷款数据每日更新,则需要考虑增量更新,这又将增加反欺诈的复杂性和开发量。
发明内容
由以上论述可知,传统的知识图谱均是通过串行地分析每个CSV文件然后进行节点和关系的上传,这样做效率低而且速度慢,因此这样的解决方案并不能满足当前互联网金融领域需要快速生成知识图谱的要求。
本公开内容的第一方面提供了用于生成知识图谱的信息处理方法,所述信息处理方法包括:接收从关系型数据库中提取的数据;并行地分析所述数据以获得实体和关系;以及批量上传所述实体和所述关系。
优选地,批量上传所述实体和所述关系进一步包括:根据所述实体和所述关系对所述实体进行分组,其中,每个实体具有与之对应的标识符;以及按照所述分组对所述实体和所述关系进行批量上传。进一步优选地,根据所述实体和所述关系对所述实体进行分组进一步包括:将与所述实体中的每个实体相对应的标识符赋值作为所述每个实体的子图标识符;在相互之间有关系的每个实体之间发送每个实体的子图标识符,其中,每个实体的子图标识符被更新为当前的所述每个实体的子图标识符和所有所接收到的子图标识符中最小的值,直至相互之间有关系的每个实体的子图标识符相同时为止;以及将具有相同子图标识符的所有实体组合成一个分组。此外,所述方法还包括:将与所述实体中的每个实体相对应的标识符映射为节点标识符;统计具有相同子图标识符的每个分组的节点数目;以及按照所述节点数目确定每个分组的上传顺序。
本公开内容的第二方面提供了信息处理装置,其包括:处理器;以及存储器,其用于存储指令,当所述指令执行时使得所述处理器执行以下操作:接收从关系型数据库中提取的数据;并行地分析所述数据以获得实体和关系;以及批量上传所述实体和所述关系。
最后,本公开内容的第三方面提供了一种有形的计算机可读存储介质,其具有存储在其上的计算机可读程序指令,所述计算机可读程序指令用于执行根据本公开内容的第一方面所述的方法。
依据本公开内容的用于生成知识图谱的信息处理方法通过并行地分析所述数据以获得实体和关系,从而能够有效地提高实体和关系的获取速度,从而为后续的知识图谱生成提供必要保障;然后,通过批量上传所述实体和所述关系能够进一步提高知识图谱的生成速度。
附图说明
结合附图并参考以下详细说明,本公开的各实施例的特征、优点及其他方面将变得更加明显,在此以示例性而非限制性的方式示出了本公开的若干实施例,在附图中:
图1示出了用于生成知识图谱的信息处理方法的一个实施例的流程图;
图2示出了用于生成知识图谱的信息处理方法的另一个实施例的流程图;
图3示出了依据本公开内容的用于形成子图的实施例的示意图;以及
图4示出依据本公开内容所提出的信息处理装置400的示意性图示。
具体实施方式
以下参考附图详细描述本公开的各个示例性实施例。虽然以下描述示例性方法、装置包括在其它组件当中硬件上执行的软件和/或固件,但应注意,这些示例仅仅是说明性的,不应看作限制。例如,考虑在硬件中独占地、在软件中独占地、或在硬件和软件的任何组合中可以实施任何或所有硬件、软件和固件组件。因此,虽然以下描述示例性方法和装置,但本领域技术人员应容易理解,提供的示例不仅仅是用于实现这些方法和装置方式。
此外,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
在详细介绍依据本发明的具体的技术方案之前,将首先介绍本公开内容所基于的技术问题,即如何从贷款交易数据中提取出有用信息,从而快速生成知识图谱的过程。
接下来介绍图形数据库。流行的图形数据库都提供批量快速上传的功能,如果能利用上,能大大加快全量图谱的生成速度。所以,本公开内容利用了Spark集群进行并行处理,从而对所有CSV文件进行整体分析,进而一次性生成所有实体和关系,然后进行批量上传到图形数据库中。整个个过程带来两点改善:首先,其整体处理速度提升了许多倍;其次,以上并行处理使得开发过程更为简单和结构化,从而使得业务新需求几乎只需要编写SQL就可以满足。
图1示出了依据本公开内容用于快速生成知识图谱的技术方案的流程图,从图1中可以看出,用于生成知识图谱的信息处理方法100包括以下步骤。
首先,在方法在步骤120中可以接收从关系型数据库中提取的数据;然后,在方法步骤130中并行地分析所述数据以获得实体和关系;以及最后在方法步骤140中批量地上传所述实体和所述关系。通过并行地分析所述数据以获得实体和关系,从而能够有效地提高实体和关系的获取速度,从而为后续的知识图谱生成提供必要保障;然后,通过批量上传所述实体和所述关系能够进一步提高知识图谱的生成速度。
图2示出了依据本公开内容的用于生成知识图谱的信息处理方法的方法步骤140的一个优选实施例的示意图,从图中可以看出,图1中的方法步骤140,即批量上传所述实体和所述关系的步骤能够进一步包括:方法步骤142,在该方法步骤中,根据所述实体和所述关系对所述实体进行分组,其中,每个实体具有与之对应的标识符;以及随后的方法步骤144,在该方法步骤中按照所述分组对所述实体和所述关系进行批量上传。进一步优选地,方法步骤142,即根据所述实体和所述关系对所述实体进行分组进一步包括以下子步骤:将与所述实体中的每个实体相对应的标识符赋值作为所述每个实体的子图标识符;在相互之间有关系的每个实体之间发送每个实体的子图标识符,其中,每个实体的子图标识符被更新为当前的所述每个实体的子图标识符和所有所接收到的子图标识符中最小的值,直至相互之间有关系的每个实体的子图标识符相同时为止;以及将具有相同子图标识符的所有实体组合成一个分组。此外,所述方法还包括:将与所述实体中的每个实体相对应的标识符映射为节点标识符;统计具有相同子图标识符的每个分组的节点数目;以及按照所述节点数目确定每个分组的上传顺序。
以下将举一个具体的业务数据来介绍依据本公开内容的用于生成知识图谱的信息处理方法。首先,在图1的步骤120中,从关系型数据库中提取数据生成一批临时表,然后再把临时表存为CSV文件。本领域的技术人员应当了解,其存储为CSV文件仅仅是示例性的而非限制性的,其也能够例如存储为JSON文件格式。这样做的目的如果知识图谱和交易不是部署在同一个地方,只需要把CSV文件传输到知识图谱能访问到的地方就行。然而,如果知识图谱和交易部署在同一个地方,那么能够直接并行地分析从关系型数据库中所提取的数据以获得实体和关系。接下来,在图1的步骤130中,可以利用Spark SQL来分析这批CSV文件。先把每个CSV文件注册为一个临时表,然后编写SQL去从临时表里提取出实体:贷款,贷款人,电话等;和关系:借贷,拥有等。为每个实体生成一个唯一的实体ID,生成规则为<业务实体类型>:<业务唯一ID>,然后进行哈希,例如借贷(Loan)实体的标识符(ID)是“Loan:239899”后的哈希值,即“3957676815198902512”,其中“239899”是贷款编号。每个关系由2个实体的标识符(ID)来定义,并且拥有一个关系属性,例如“5712534794555389592(Person)->3957676815198902512(Loan)”,关系属性是“APPLY”(申请)。用这些实体和边可以先构造一个Spark GraphX的内存图,GraphX的顶点标识符(VertexID)就用实体标识符(ID)。这个图可以用于进行批量的图分析和处理,例如后面提到的互不相连子图的切分。最后,在图1的方法步骤140中其上传的逻辑过程是:首先用本地写磁盘的方式与图形数据库建立连接,以提高大批量节点和边上传的速度。上传时先把实体上传到图库中,每上传一个实体,会得到其在图中对应的节点ID,保存下“实体ID->节点ID”的映射关系。所有实体上传完后,开始上传边。对每条边先对两个顶点做实体标识符到节点标识符的映射,然后上传。边上传完毕,图就生成好了。
其中,在方法步骤140中,如果把整图一次性上传,当实体和关系很多的时候,需要把实体和关系一次性从Spark集群都收集到驱动(driver)端,而且要建立一个很大的实体标识符和节点标识符的映射表。这样会因内存溢出导致上传失败。即使不溢出,也会造成Java虚拟机JVM频繁的收集内存(full GC),这样会使得性能大大下降。通过本公开内容的发明人的研究发现其实整个图是有上千个互不相连的子图(EgoNet)组成,其中,每个EgoNet子图是指该子图的任何点和子图外的其它节点没有边相连,如果把整图切分成若干个互不相连子图,每次上传部分,就能很好地解决这个问题,让内存的占用变得可控。
为了进行子图的分步骤上传,以下将介绍其分组步骤,在此将利用方法步骤130中所生成的GraphX图,进行如下分组切分:即图的每个点先把自己的子图标识符设为自己的顶点标识符VertexID。然后把这个子图标识符发给所有邻居。当节点收到邻居发来的子图标识符后,和自己的进行比较,保留更为小的子图标识符。处理完后,每个节点就有一个子图标识符了。
搜集所有节点的子图标识符,对每个标识符进行包含节点个数的统计,并进行排序(如需要)。然后,把子图标识符传入经过第一步处理后的图进行子图标识符匹配过滤,就能得到该子图标识符对应的EgoNet子图了。最后,EgoNet子图的数量可能会很多(例如>1000),如果一个个子图上传,内存占用问题解决了,但是因为上传一次的准备工作,例如获取连接,比较耗时,其实性能并不高。因此,本公开内容的发明人提出可以把子图合并成更大的部分,每个部分之间还是没有关联的。这样一次上传一个部分,性能大大提升。应该分成多少个部分,可以自己根据实际情况来选。每个部分之间因为没有关联,所以还可以用多线程上传。最后可以使用具有更快磁盘I/O操作的固态硬盘SSD硬盘来进一步提升知识图谱的上传和生成速度。
以下结合图3来进一步说明如何根据GraphX的标识符来进行子图的切分。从图中可以看出,图3中包括两个示例性的分组1和分组2,分组1包括实体标识符分别为1、2、4、8和9的五个实体,而分组2包括实体标识符分别为3、5、6和7的四个实体,之所以这么分组,仅仅是因为实体标识符分别为1、2、4、8和9的五个实体之间存在关系,而实体标识符分别为3、5、6和7的四个实体之间存在关系。具体来看,分组1中的实体1只与实体2具有关系,实体9只与实体8具有关系,而实体2与实体1、实体4和实体8均具有关系,相应地,实体4与实体2和实体8均具有关系,而实体8与实体2、实体4以及实体9均具有关系;分组2中的实体7只与实体6具有关系,而实体3与实体5和实体6均具有关系,相应地,实体5与实体3和实体6均具有关系,而实体6与实体3以及实体5均具有关系。在此仅仅示例性地示出了九个实体,本领域的技术人员应当了解,包含更多个或者更少个实体完全是可能的,当然,通常情况下包括更多个实体,但是无论包括多少个实体,其分组原理都是一样的。
对于分组1来说,由于实体标识符分别为1、2、4、8和9的五个实体之间存在关系,故首先将其子图标识符赋值为其实体标识符,即实体标识符分别为1、2、4、8和9的五个实体的子图标识符首先分别赋值为1、2、4、8和9,然后在具有关系的实体之间发送其各自的子图标识符,每个实体在收到子图标识符之后会判断其收到的子图标识符和其自身之前的子图标识符哪个小,哪个小则更新后的子图标识符为这个更小的值,在进行一番交换子图标识符之后,分组1的五个实体的子图标识符将会统一为1。
类似地,对于分组2来说,由于实体标识符分别为3、5、6和7的四个实体之间存在关系,故首先将其子图标识符赋值为其实体标识符,即实体标识符分别为3、5、6和7的四个实体的子图标识符首先分别赋值为3、5、6和7,然后在具有关系的实体之间发送其各自的子图标识符,每个实体在收到子图标识符之后会判断其收到的子图标识符和其自身之前的子图标识符哪个小,哪个小则更新后的子图标识符为这个更小的值,在进行一番交换子图标识符之后,分组1的五个实体的子图标识符将会统一为3。
之后,通过统计子图标识符则能够确定每个相应的子图标识符所指代的子图中包含多少个实体(即多少个节点),在后续的上传过程中,根据每个子图所包含的节点的数量来分批上传这些节点,从而一方面确保了并行处理所带来的上传速度的提升;另一方面也确保了没批次所上传的节点之间不存在关系,确保了后续知识图谱的生成效果。
由以上论述可知,依据本公开内容的用于生成知识图谱的信息处理方法通过并行地分析所述数据以获得实体和关系,从而能够有效地提高实体和关系的获取速度,从而为后续的知识图谱生成提供必要保障;然后,通过批量上传所述实体和所述关系能够进一步提高知识图谱的生成速度。也就是说,该公开内容能够快速生成贷款人的知识图谱,可扩展性好,使得知识图谱能投入生产,在互联网金融公司里用来进行欺诈预测。
除了以上所提出的用于生成知识图谱的信息处理方法之外,本公开内容还提供了一种信息处理装置,该信息处理装置包括处理器;以及存储器,其用于存储指令,当所述指令执行时使得所述处理器执行以下操作:接收从关系型数据库中提取的数据;并行地分析所述数据以获得实体和关系;以及批量上传所述实体和所述关系。
图4示出依据本公开内容所提出的信息处理装置400的示意性图示。从图中可以看出,该信息处理装置400包括处理器410以及存储器420,在该存储器420上存储有指令,当这些所存储的指令执行时使得处理器410例如优选地通过接口430接收从关系型数据库中提取的数据;然后由处理器410并行地分析所述数据以获得实体和关系(例如如图3所示的实体和关系);以及接下来由处理器410来批量上传这些实体和所述关系。本领域的技术人员应当了解,此处的存储器420包括但不限于便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
优选地,批量上传所述实体和所述关系进一步包括:根据所述实体和所述关系对所述实体进行分组,其中,每个实体具有与之对应的标识符;以及按照所述分组对所述实体和所述关系进行批量上传。更为优选地,根据所述实体和所述关系对所述实体进行分组进一步包括:将与所述实体中的每个实体相对应的标识符赋值作为所述每个实体的子图标识符;在相互之间有关系的每个实体之间发送每个实体的子图标识符,其中,每个实体的子图标识符被更新为当前的所述每个实体的子图标识符和所有所接收到的子图标识符中最小的值,直至相互之间有关系的每个实体的子图标识符相同时为止;以及将具有相同子图标识符的所有实体组合成一个分组。
此外,在该信息处理装置中,当所述指令执行时还使得所述处理器执行以下操作:将与所述实体中的每个实体相对应的标识符映射为节点标识符;统计具有相同子图标识符的每个分组的节点数目;以及按照所述节点数目确定每个分组的上传顺序。
此外,替代地,上述的用于生成知识图谱的信息处理方法能够通过计算机程序产品,即有形的计算机可读存储介质来实现。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开内容的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
此外,用于执行本公开内容的各个方面的计算机可读程序指令或者计算机程序产品也能够存储在云端,在需要调用时,用户能够通过移动互联网、固网或者其他网络访问存储在云端上的用于执行本公开内容的各个方面的计算机可读程序指令,从而实施依据本公开内容的各个方面所公开的技术方案。
以上所述仅为本公开的实施例可选实施例,并不用于限制本公开的实施例,对于本领域的技术人员来说,本公开的实施例可以有各种更改和变化。凡在本公开的实施例的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本公开的实施例的保护范围之内。
虽然已经参考若干具体实施例描述了本公开的实施例,但是应该理解,本公开的实施例并不限于所公开的具体实施例。本公开的实施例旨在涵盖在所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。
Claims (19)
1.一种用于生成知识图谱的信息处理方法,所述信息处理方法包括:
接收从关系型数据库中提取的数据;
并行地分析所述数据以获得实体和关系;以及
批量上传所述实体和所述关系。
2.根据权利要求1所述的方法,其中,批量上传所述实体和所述关系进一步包括:
根据所述实体和所述关系对所述实体进行分组;以及
按照所述分组对所述实体和所述关系进行批量上传。
3.根据权利要求2所述的方法,其中,每个实体具有与之对应的标识符并且根据所述实体和所述关系对所述实体进行分组进一步包括:
将与所述实体中的每个实体相对应的标识符赋值作为所述每个实体的子图标识符;
在相互之间有关系的每个实体之间发送每个实体的子图标识符,其中,每个实体的子图标识符被更新为当前的所述每个实体的子图标识符和所有所接收到的子图标识符中最小的值,直至相互之间有关系的每个实体的子图标识符相同时为止;以及
将具有相同子图标识符的所有实体组合成一个分组。
4.根据权利要求3所述的方法,其中,所述方法还包括:
将与所述实体中的每个实体相对应的标识符映射为节点标识符;
统计具有相同子图标识符的每个分组的节点数目;以及
按照所述节点数目确定每个分组的上传顺序。
5.根据权利要求1所述的方法,其中,所述数据包括格式为第一文件格式的多个文件;并且并行地分析所述数据以获得实体和关系包括并行地分析所述多个文件以获得实体和关系。
6.根据权利要求5所述的方法,所述信息处理方法还包括:
从关系型数据库中提取所述数据;以及
将所提取的数据存储为所述多个文件。
7.根据权利要求5所述的方法,其中,并行地分析所述多个文件以获得实体和关系包括使用SPARK集群来并行地分析所述多个文件以获得所述实体和关系。
8.根据权利要求1所述的方法,其中,所述第一文件格式包括CSV文件格式和JSON文件格式中的一种。
9.根据权利要求1所述的方法,其中,
所述实体包括贷款、贷款人和/或电话号码;并且
所述关系包括借贷关系和/或拥有关系。
10.一种信息处理装置,其包括:
处理器;以及
存储器,其用于存储指令,当所述指令执行时使得所述处理器执行以下操作:
接收从关系型数据库中提取的数据;
并行地分析所述数据以获得实体和关系;以及
批量上传所述实体和所述关系。
11.根据权利要求10所述的信息处理装置,其中,批量上传所述实体和所述关系进一步包括:
根据所述实体和所述关系对所述实体进行分组;以及
按照所述分组对所述实体和所述关系进行批量上传。
12.根据权利要求11所述的信息处理装置,其中,每个实体具有与之对应的标识符并且根据所述实体和所述关系对所述实体进行分组进一步包括:
将与所述实体中的每个实体相对应的标识符赋值作为所述每个实体的子图标识符;
在相互之间有关系的每个实体之间发送每个实体的子图标识符,其中,每个实体的子图标识符被更新为当前的所述每个实体的子图标识符和所有所接收到的子图标识符中最小的值,直至相互之间有关系的每个实体的子图标识符相同时为止;以及
将具有相同子图标识符的所有实体组合成一个分组。
13.根据权利要求12所述的信息处理装置,其中,当所述指令执行时还使得所述处理器执行以下操作:
将与所述实体中的每个实体相对应的标识符映射为节点标识符;
统计具有相同子图标识符的每个分组的节点数目;以及
按照所述节点数目确定每个分组的上传顺序。
14.根据权利要求10所述的信息处理装置,其中,所述数据包括格式为第一文件格式的多个文件;并且并行地分析所述数据以获得实体和关系包括并行地分析所述多个文件以获得实体和关系。
15.根据权利要求14所述的信息处理装置,所述信息处理方法还包括:
从关系型数据库中提取所述数据;以及
将所提取的数据存储为所述多个文件。
16.根据权利要求14所述的信息处理装置,其中,并行地分析所述多个文件以获得实体和关系包括使用SPARK集群来并行地分析所述多个文件以获得所述实体和关系。
17.根据权利要求14所述的信息处理装置,其中,所述第一文件格式包括CSV文件格式和JSON文件格式中的一种。
18.根据权利要求10所述的信息处理装置,其中,
所述实体包括贷款、贷款人和/或电话号码;并且
所述关系包括借贷关系和/或拥有关系。
19.有形的计算机可读存储介质,其具有存储在其上的计算机可读程序指令,所述计算机可读程序指令用于执行根据权利要求1至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711069924.7A CN107832407B (zh) | 2017-11-03 | 2017-11-03 | 用于生成知识图谱的信息处理方法、装置和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711069924.7A CN107832407B (zh) | 2017-11-03 | 2017-11-03 | 用于生成知识图谱的信息处理方法、装置和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107832407A true CN107832407A (zh) | 2018-03-23 |
CN107832407B CN107832407B (zh) | 2020-08-25 |
Family
ID=61654647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711069924.7A Active CN107832407B (zh) | 2017-11-03 | 2017-11-03 | 用于生成知识图谱的信息处理方法、装置和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107832407B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647288A (zh) * | 2018-05-04 | 2018-10-12 | 苏州朗动网络科技有限公司 | 企业关系的挖掘方法、装置、计算机设备及存储介质 |
CN109524065A (zh) * | 2018-11-07 | 2019-03-26 | 平安医疗健康管理股份有限公司 | 医疗数据查询方法、医疗数据平台及相关装置 |
CN109635121A (zh) * | 2018-11-07 | 2019-04-16 | 平安科技(深圳)有限公司 | 医疗知识图谱创建方法及相关装置 |
CN109886806A (zh) * | 2019-03-05 | 2019-06-14 | 湖南衍金征信数据服务有限公司 | 基于知识图谱的人工识别金融反欺诈的方法 |
CN110033279A (zh) * | 2019-04-04 | 2019-07-19 | 银清科技(北京)有限公司 | 基于知识图谱技术的可疑账户交易确认方法及装置 |
CN110162521A (zh) * | 2019-04-28 | 2019-08-23 | 银清科技(北京)有限公司 | 一种支付系统交易数据处理方法及系统 |
CN110188198A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种基于知识图谱的反欺诈方法及装置 |
CN110895548A (zh) * | 2018-08-24 | 2020-03-20 | 百度在线网络技术(北京)有限公司 | 用于处理信息的方法和装置 |
CN111125265A (zh) * | 2019-12-13 | 2020-05-08 | 四川蜀天梦图数据科技有限公司 | 一种基于关系型数据库数据生成图数据的方法和装置 |
CN111178615A (zh) * | 2019-12-24 | 2020-05-19 | 成都数联铭品科技有限公司 | 一种企业风险识别模型的构建方法及系统 |
CN112598428A (zh) * | 2020-12-25 | 2021-04-02 | 北京知因智慧科技有限公司 | 交易数据的处理方法、装置、计算机设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130183649A1 (en) * | 2011-06-15 | 2013-07-18 | Ceresis, Llc | Method for generating visual mapping of knowledge information from parsing of text inputs for subjects and predicates |
CN104462501A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 基于结构化数据的知识图谱构建方法和装置 |
CN105224536A (zh) * | 2014-05-29 | 2016-01-06 | 国际商业机器公司 | 划分数据库的方法和装置 |
CN105956052A (zh) * | 2016-04-27 | 2016-09-21 | 青岛海尔软件有限公司 | 一种基于垂直领域的知识图谱的构建方法 |
CN106156365A (zh) * | 2016-08-03 | 2016-11-23 | 北京智能管家科技有限公司 | 一种知识图谱的生成方法及装置 |
CN106649550A (zh) * | 2016-10-28 | 2017-05-10 | 浙江大学 | 一种基于代价敏感学习的联合知识嵌入方法 |
-
2017
- 2017-11-03 CN CN201711069924.7A patent/CN107832407B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130183649A1 (en) * | 2011-06-15 | 2013-07-18 | Ceresis, Llc | Method for generating visual mapping of knowledge information from parsing of text inputs for subjects and predicates |
CN105224536A (zh) * | 2014-05-29 | 2016-01-06 | 国际商业机器公司 | 划分数据库的方法和装置 |
CN104462501A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 基于结构化数据的知识图谱构建方法和装置 |
CN105956052A (zh) * | 2016-04-27 | 2016-09-21 | 青岛海尔软件有限公司 | 一种基于垂直领域的知识图谱的构建方法 |
CN106156365A (zh) * | 2016-08-03 | 2016-11-23 | 北京智能管家科技有限公司 | 一种知识图谱的生成方法及装置 |
CN106649550A (zh) * | 2016-10-28 | 2017-05-10 | 浙江大学 | 一种基于代价敏感学习的联合知识嵌入方法 |
Non-Patent Citations (1)
Title |
---|
朱继召等: "SparkCRF:一种基于Spark的并行CRFs算法实现", 《计算机研究与发展》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647288A (zh) * | 2018-05-04 | 2018-10-12 | 苏州朗动网络科技有限公司 | 企业关系的挖掘方法、装置、计算机设备及存储介质 |
CN110895548A (zh) * | 2018-08-24 | 2020-03-20 | 百度在线网络技术(北京)有限公司 | 用于处理信息的方法和装置 |
CN109524065A (zh) * | 2018-11-07 | 2019-03-26 | 平安医疗健康管理股份有限公司 | 医疗数据查询方法、医疗数据平台及相关装置 |
CN109635121A (zh) * | 2018-11-07 | 2019-04-16 | 平安科技(深圳)有限公司 | 医疗知识图谱创建方法及相关装置 |
CN109886806A (zh) * | 2019-03-05 | 2019-06-14 | 湖南衍金征信数据服务有限公司 | 基于知识图谱的人工识别金融反欺诈的方法 |
CN110033279A (zh) * | 2019-04-04 | 2019-07-19 | 银清科技(北京)有限公司 | 基于知识图谱技术的可疑账户交易确认方法及装置 |
CN110162521A (zh) * | 2019-04-28 | 2019-08-23 | 银清科技(北京)有限公司 | 一种支付系统交易数据处理方法及系统 |
CN110188198A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种基于知识图谱的反欺诈方法及装置 |
CN110188198B (zh) * | 2019-05-13 | 2021-06-22 | 北京一览群智数据科技有限责任公司 | 一种基于知识图谱的反欺诈方法及装置 |
CN111125265A (zh) * | 2019-12-13 | 2020-05-08 | 四川蜀天梦图数据科技有限公司 | 一种基于关系型数据库数据生成图数据的方法和装置 |
CN111178615A (zh) * | 2019-12-24 | 2020-05-19 | 成都数联铭品科技有限公司 | 一种企业风险识别模型的构建方法及系统 |
CN111178615B (zh) * | 2019-12-24 | 2023-10-27 | 成都数联铭品科技有限公司 | 一种企业风险识别模型的构建方法及系统 |
CN112598428A (zh) * | 2020-12-25 | 2021-04-02 | 北京知因智慧科技有限公司 | 交易数据的处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107832407B (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832407A (zh) | 用于生成知识图谱的信息处理方法、装置和可读存储介质 | |
CN109961204B (zh) | 一种微服务架构下业务质量分析方法和系统 | |
CN105989076B (zh) | 一种数据统计方法以及装置 | |
US20200050968A1 (en) | Interactive interfaces for machine learning model evaluations | |
Di Martino et al. | Big data (lost) in the cloud | |
CN109034993A (zh) | 对账方法、设备、系统及计算机可读存储介质 | |
CN109697456B (zh) | 业务分析方法、装置、设备及存储介质 | |
CN104820708B (zh) | 一种基于云计算平台的大数据聚类方法和装置 | |
US20210049478A1 (en) | Feature relationship recommendation method, apparatus, computing device, and storage medium | |
CN106897930A (zh) | 一种信用评估的方法及装置 | |
CN102880709A (zh) | 数据仓库管理系统和数据仓库管理方法 | |
CN111090780B (zh) | 可疑交易信息的确定方法及装置、存储介质、电子设备 | |
CN109684052A (zh) | 事务分析方法、装置、设备及存储介质 | |
CN111046237A (zh) | 用户行为数据处理方法、装置、电子设备及可读介质 | |
Gupta et al. | Faster as well as early measurements from big data predictive analytics model | |
CN110457505A (zh) | 基于图数据库进行关系挖掘的方法和装置 | |
CN109656898A (zh) | 基于节点度的分布式大规模复杂社团探测方法及装置 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN112822121A (zh) | 流量识别方法、流量确定方法、知识图谱建立方法 | |
CN110222241B (zh) | 一种社区分割方法和装置 | |
CN106796604A (zh) | 用于提供交互式报表的方法和报表服务器 | |
CN108280224B (zh) | 万级维度数据生成方法、装置、设备以及存储介质 | |
US20210176181A1 (en) | Intelligent Conversion of Internet Domain Names to Vector Embeddings | |
CN110442782A (zh) | 一种云资源检索方法与装置 | |
CN109886318A (zh) | 一种信息处理方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |