CN109670089A - 知识图谱系统及其图服务器 - Google Patents
知识图谱系统及其图服务器 Download PDFInfo
- Publication number
- CN109670089A CN109670089A CN201811635242.2A CN201811635242A CN109670089A CN 109670089 A CN109670089 A CN 109670089A CN 201811635242 A CN201811635242 A CN 201811635242A CN 109670089 A CN109670089 A CN 109670089A
- Authority
- CN
- China
- Prior art keywords
- data
- server
- interface
- module
- distributed storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 22
- 238000010586 diagram Methods 0.000 claims abstract description 69
- 238000007781 pre-processing Methods 0.000 claims description 11
- 102100038367 Gremlin-1 Human genes 0.000 claims description 10
- 101001032872 Homo sapiens Gremlin-1 Proteins 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 4
- 239000004744 fabric Substances 0.000 claims description 2
- 230000002045 lasting effect Effects 0.000 claims 1
- 238000013500 data storage Methods 0.000 abstract description 5
- 238000013523 data management Methods 0.000 abstract description 3
- 230000002688 persistence Effects 0.000 description 9
- 230000002085 persistent effect Effects 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种知识图谱系统及其图服务器,所述图服务器包括:用于接收用户的数据操作请求,并根据数据操作请求的类型调用相应的接口实现对分布式数据存储模块操作的图数据库接口;用于根据待写入数据类型创建或更新分布式数据存储模块中的节点或边数据,并返回所述数据在分布式数据存储模块中的唯一索引的图数据写入接口;用于根据查询条件获得存储在分布式数据存储模块中的数据,并按预设的节点和边的数据格式返回给用户的图数据查询接口;以及用于为图服务器提供数据存储和查询服务的分布式数据存储模块。本申请通过上述手段,可有效解决现有图数据库不能适应大数据量场景下的图数据管理和检索的问题。
Description
技术领域
本申请涉及知识图谱处理技术领域,特别地,涉及一种知识图谱系统及其图服务器。
背景技术
知识图谱是一种通过保存现实世界中存在的各种实体及其实体间的关系来实现语义搜索的数据库,以图数据结构存储并查询数据。其中,每个实体用一个全局唯一确定的标识符(ID,IDentifier)来标识,用“属性-属性值”对(PVP,Property Value Pair)来表示实体的内在特性,用关系(Relation)连接两个实体,表示它们之间的关联。知识图谱可被看作是一张巨大的图,图的节点表示实体,边表示节点间的关系(边由属性和关系构成)。
以金融知识图谱为例,其通过将公司、管理层、新闻事件以及使用者个人偏好等都表示为实体并建立实体之间的联系,使金融数据的搜索更加高效,能为投资者提供有针对性的投资建议。
对于知识图谱的数据,采用图数据库进行数据的存储和查询是比较主流的选择。目前,Neo4j是比较先进的原生图查询数据库,可以提供原生的图数据存储,检索和处理。Neo4j对于图的存储经过特别优化,可较大程度地提高图的遍历的效率和速度,Neo4j提供Cypher作为图的查询语言,语义简洁,方便使用。
然而Neo4j在实际应用时比较适合轻量级的场景,在大数据负载情况下,图数据的插入和遍历性能较差;另外,由于软件架构的限制,Neo4j只能在单台机器上工作,系统的扩展性和容错能力都无从谈起。随着企业数据量的快速上升,单机部署下的Neo4j显然已经无法适应知识图谱的数据管理和检索需求。
发明内容
本申请提供一种知识图谱系统及其图服务器,用于解决现有图数据库不能适应大数据量场景下的图数据管理和检索的问题。
本申请公开的一种图服务器,包括图数据库接口、图数据写入接口、图数据查询接口和分布式数据存储模块,其中:所述图数据库接口用于接收用户的数据操作请求,并根据所述数据操作请求的类型调用图数据写入接口或图数据查询接口实现对分布式数据存储模块的操作;所述图数据写入接口用于根据所述数据操作请求中的待写入数据类型,创建或更新分布式数据存储模块中的节点或边的数据,并返回所述数据在分布式数据存储模块中的唯一索引;所述图数据查询接口用于根据所述数据操作请求中的查询条件,获得存储在分布式数据存储模块中的数据,并按预设的节点和边的数据格式返回给用户;分布式数据存储模块为分布式文件系统或分布式数据库,用于为图服务器提供数据存储和查询服务。
优选地,所述图服务器还包括查询拆解模块,用于将复杂度大于预设条件的查询请求拆解为多个子查询请求,按顺序或并发调用图数据查询接口实现用户的数据查询请求。
优选地,所述图服务器还设置有内存缓存,用于缓存用户最近访问的数据和/或查询命中次数大于或等于预设热数据阈值的数据。
优选地,所述图服务器设置有分布式数据存储模块的服务发现机制;所述分布式数据存储模块的每个存储服务器上设置有心跳检测接口,实时向图服务器报告设备状态;当有新存储服务器加入或现有存储服务器退出时,所述图服务器通过所述服务发现机制自动更新分布式数据存储模块的配置,并将存储和查询服务切换到对应的存储服务器上。
优选地,所述图服务器还包括第一数据预处理模块,用于对结构化或非结构化的原始数据进行抽取,并转换为图数据库的节点数据和/或边数据。
本申请公开的一种知识图谱系统,包括客户端和上文所述的图服务器;所述客户端通过网络与所述图服务器连接;所述客户端设置有用户接口,用于接收用户的数据操作请求,并通过网络发送至图服务器的图数据库接口,以及接收并显示图服务器的数据操作结果。
优选地,所述客户端还设置有第二数据预处理模块,用于将结构化或非结构化的原始数据转换为图数据库的节点数据或边数据。
优选地,所述客户端还设置有中间可持久化文件系统,用于暂存所述第二数据预处理模块处理后的节点数据和边数据。
优选地,所述用户接口通过超文本传输协议、websocket协议或远程过程调用协议方式与图服务器建立连接。
优选地,所述数据操作请求采用Gremlin、GSQL或SPARQL语言的语法格式。
与现有技术相比,本申请具有以下优点:
本申请图服务器实施例通过在各个关键点设置接口的方式对系统进行了解耦,存储层可以根据数据量的增长快速横向扩展,在多台机器部署的情况下,可有效解决服务器不可访问或者数据不可获取的问题。灵活的接口定义不仅使系统能够适应各种不同的数据库类型,可以根据业务需要选择合适的存储方式;还可以实现图数据查询接口的多机灵活部署,以适应高并发应用场景。
在进一步的优选实施例中,各接口使用统一的图遍历语言进行交互,无需关心底层的架构实现,从而可保证上层应用的稳定。
附图说明
附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请图服务器一实施例的结构示意图;
图2为本申请知识图谱系统一实施例的结构示意图;
图3为本申请实施例的图数据写入流程示意图;
图4为本申请实施例的图数据查询流程示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。术语“包括”、“包含”及类似术语应该被理解为是开放性的术语,即“包括/包含但不限于”。术语“基于”是“至少部分地基于”。术语“一实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。
本申请的发明构思之一在于:针对现有图数据库的问题,将整个知识图谱系统的架构调整成应用层、查询引擎和底层存储层,实现系统解耦,减少模块之间的依赖关系。其中,底层存储层用于实现图数据存储和查询的通用接口(即虚拟的图数据层);通过将常见的图处理操作封装在图数据层,底层数据库只需要提供增删改查等基本操作即可,从而降低对底层数据库的耦合度,并使得底层数据库可替换;采用分布式存储,使图数据可以扩展和冗余地备份至多台机器组成的文件系统,实现数据的一致性和容错能力,从而使底层存储具有较高的I/O性能和灵活的模式(schema)定义,适用于节点、边及其属性的存储。查询引擎用于解析查询语言,生成图遍历的查询计划,并调用底层存储的接口完成数据的存储和获取;查询引擎解析完查询语言,可针对最短路径规划,数据聚合等操作进行合理优化,实现分布式计算和缓存,能够依据数据量和计算资源,提高查询的性能,提供高并发和短延迟的服务。应用层提供统一的查询语言和连接方式,如可提供超文本传输协议(HTTP,HyperText Transfer Protocol)、websocket(RFC 6455标准定义的一种在单个TCP连接上进行全双工通信的协议)和远程过程调用(RPC,Remote Procedure Call)等协议远程连接到图服务器,并且通过Gremlin、GSQL、SPARQL等图查询语言与查询引擎进行交互。
参照图1,示出了本申请图服务器一实施例的组成结构示意图,包括图数据库接口11、图数据写入接口12、图数据查询接口13和分布式数据存储模块14。
图数据库接口11用于接收用户发出的数据操作请求,并根据所述数据操作请求的类型调用图数据写入接口12或图数据查询接口13实现对分布式数据存储模块14的操作。
其中的数据操作请求的类型包括图数据库节点数据的创建或更新、边数据的创建或更新、图数据库的查询等。具体实施时,发送到图数据库接口11的数据操作请求可以采用Gremlin、GSQL、SPARQL等图数据操作语言的语法格式,以Gremlin为例,假定需要在图数据库g中创建一个节点和一条边,可以采用g.addV()命令发出节点创建请求,采用g.addE()命令发出边创建请求。
图数据写入接口12用于根据所述数据操作请求中的待写入数据类型(包括节点数据和边数据),创建或更新分布式数据存储模块14中的节点数据或边数据,并返回所述数据在分布式数据存储模块14中的唯一索引。
图数据查询接口13用于根据所述数据操作请求中的查询条件,获得存储在分布式数据存储模块14中的数据,并按预设的节点和边的数据格式返回给用户。
例如,对于节点人(person)组成的社交图数据库(g),节点人(person)之间具有朋友(friendship)关系。假如需要查询图对象g中“张三”的2跳(2-hop)邻居,以Gremlin语言为例,可以通过下述程序实现:
=>g.V().has(‘name’,‘张三’)
.repeat(bothE().hasLabel(‘friendship’).otherV().hasLable(‘person’))
.times(2)
上述例子中,定义了从“张三”这个节点出发,通过边friendship的关系找到person类型的节点并且重复两次,即找到“张三”的2跳邻居。
分布式数据存储模块14为分布式文件系统或分布式数据库,用于为图服务器10提供数据存储和查询服务。
具体实施时,可以在图服务器10上设置分布式数据存储模块14的服务发现机制;同时,在分布式数据存储模块14的每个存储服务器上设置心跳检测接口,实时向图服务器10报告设备状态;当有新存储服务器加入或现有存储服务器退出时,图服务器10可以通过上述服务发现机制自动更新分布式数据存储模块的配置,并将存储和查询服务切换到对应的存储服务器上。
本申请通过将常见的图处理操作封装在图数据层(即图数据写入接口12和图数据查询接口13)的手段,使底层数据存储模块只需要提供增删改查等基本操作即可,从而降低对底层数据存储模块的耦合度,并使得底层数据存储模块可替换。
底层数据存储模块可根据自身存储结构,自定义存储的格式。例如,如果底层数据存储模块为关系型数据库,则节点和边可以存储成如下二维结构的表:
节点的存储结构:
节点id | 节点属性1 | 节点属性2 |
边的存储结构:
边id | 源节点id | 目标节点id | 边属性1 | 边属性2 |
如果底层数据存储模块为非结构化数据,则可以采用的存储形式为:
节点
在进一步的优选实施例中,为提高查询性能,所述图服务器还设置有查询拆解模块,用于将复杂度大于预设条件的查询请求拆解为多个子查询请求,按顺序或并发调用图数据查询接口13实现用户的数据查询请求。
例如,对于5步以内的最短路径查询请求,当图数据查询接口13只能完成3步以内的路径查询时,可以将上述请求拆解成二个子查询请求,第二个子查询以第一个子查询的输出结果为输入,而且还可以根据需要将第二个子查询分解成多个对图数据查询接口13的并发调用。
本申请通过上述将复杂查询拆解成对图数据查询接口多次调用的手段,可将能力有限的单台查询,扩展成多个查询服务器并发操作,从而较大程度地提高图数据库的查询效率。
在另一进一步的优选实施例中,为进一步提高图数据的查询响应速度,所述图服务器还设置有内存缓存,用于缓存用户最近访问的数据和/或查询命中次数大于或等于预设热数据阈值的数据。
在高并发场景下,一种优化方式是将所有(或大部分)图数据缓存在内存中。此时分布式数据存储模块的实现可以分为分布式内存数据系统和分布式可持久化存储系统。在写入图数据时,写入持久化系统,并更新至内存缓存中。在查询图数据时,通过分布式内存数据系统完成快速查找和计算,从而实现数据的高效操作。在数据失效或者系统重启时,内存缓存数据可以从持久化系统中恢复,以保证数据安全。
参照图2,示出了本申请知识图谱系统一实施例的组成结构示意图,包括通过网络连接的客户端20和附图1所示的上述图服务器10;其中:
客户端20设置有用户接口21,用于接收用户的数据操作请求,并通过网络发送至图服务器10的图数据库接口,以及接收并显示图服务器10的数据操作结果。
具体实施时,用户接口21可以通过HTTP、websocket或RPC等协议与图服务器10建立连接;所述数据操作请求可以选用Gremlin、GSQL或SPARQL语言的语法格式。
在进一步的优选实施例中,为适应大数据场景下的不同数据格式的原始数据的批量导入,所述知识图谱系统还可以设置数据预处理模块和中间可持久化文件系统,其中:数据预处理模块用于对结构化或非结构化的原始数据进行抽取,并转换为图数据库的节点数据和/或边数据。中间可持久化文件系统,用于暂存所述数据预处理模块处理后的节点数据和边数据。
具体实施时,上述数据预处理模块根据实际需要既可以部署在客户端(第二数据预处理模块),也可以部署在图服务器端(第一数据预处理模块),还可以同时在客户端和图服务器均部署。中间可持久化文件系统可以根据需要选用Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)、简单存储服务系统(S3,Simple Storage Service)或对象存储服务系统(OSS,Object Storage Service)等。
以数据预处理模块部署在客户端为例,对于关系型数据库来源的数据,可以通过表名或者SQL定义节点和边的数据模型,拉取元数据写入中间可持久化文件系统,并通过指定时间戳等方式增量的从原数据库中拉取原始数据产生图数据。对于图数据库可以单独导出节点数据和边数据,写入中间文件系统。然后,读取中间可持久化文件系统中的数据,分别生成节点和边的创建请求,与图服务器建立连接后,通过HTTP等协议方式将请求发送到图服务器,完成节点数据和边数据的写入。
下面,分别结合图3和图4说明本申请知识图谱系统的图数据写入和查询流程。
参考图3,示出了本申请实施例的图数据存储和修改流程,包括:
步骤S31:数据预处理模块对结构化和非结构化的原始数据进行抽取,转换为图数据库形式的节点数据和/或边数据,并存储在中间可持久化文件系统中。
步骤S32:调用图数据库接口,发送创建或者更新节点数据和边数据的请求。
读取中间文件系统中的数据,可以采用Gremlin、GSQL、SPARQL等图数据操作语言的语法格式,生成创建节点和边请求,与服务器端建立连接后,通过HTTP等协议形式将请求发送至图服务器。
步骤S33:图服务器响应并解析请求。
以Gremlin为例,图服务器的图数据库接口接收到客户端的请求后,在当前会话中,通过Gremlin语法解析请求。根据Gemlin语法,请求中可能包括图数据写入、修改或者查询操作。图服务器根据当前请求的操作类型,调用相应的接口(对于图数据写入和修改请求,通过调用图数据写入接口实现;对于图数据查询请求,通过调用图数据查询接口实现)。
图数据写入接口根据写入数据类型(节点、边),将数据持久化,并且返回数据在分布式数据存储模块的唯一索引。
图数据查询接口根据传入查询的条件,找到存储在分布式数据存储模块的数据后,解析成预设数据格式(节点,边)并返回。
图服务器通过当前配置和服务发现机制,在启动时和分布式数据存储模块的各存储服务器建立连接,并动态发送心跳监控检测存储服务器的可用性。当图数据写入接口收到写入操作请求时,将写入信息序列化以后,发送给分布式数据存储模块。
步骤S34:分布式数据存储模块将图数据写入文件系统或其他可持久存储,完成持久化。
设置有存储层接口的任何存储系统都可以作为分布式数据存储模块,例如,可以是分布式数据库,也可以是分布式文件系统。存储服务器在启动后需要向服务发现机制注册(以确保图服务器能够发现自己),并提供心跳检测接口,实时报告设备状态。存储服务器之间实现数据的冗余复制,保证容错能力。在有新的节点接入或者老的节点退出时,通过服务发现机制,图服务器可以自动更新分布式数据存储模块的配置,并切换至相应的存储服务器。
参考图4,示出了本申请实施例的图数据查询流程,包括:
步骤S41:用户通过客户端的用户接口发起图数据查询请求。
步骤S42:图服务器的图数据库接口响应并解析查询请求。
对于复杂查询,图数据库接口可能需要拆解成多次对图数据查询接口的查询调用。例如,对于5步以内的最短路径查询请求,可以拆解成二个子查询请求,第二个子查询以第一个子查询的输出结果为输入。
图数据查询接口根据查询条件和建立的索引条件,访问硬盘或者缓存在内存中的数据。
具体实施时,对于count、avg等聚合操作,可以下推到分布式数据存储模块的数据库中执行计算。但是对于子图(sub-graph)操作、最短路径查询等图计算,需要多次从数据库查询后将数据持久化在内存中再进一步计算。
本申请通过上述构建虚拟图数据层(即图数据写入接口和图数据查询接口),可以降低对底层数据库的数据支持要求,通过将常见的图处理操作封装在图数据层,底层数据库只需要提供增删改查等基本操作即可,从而降低对底层数据库的耦合度,并使得底层数据库可替换。
需要说明的是,上述装置实施例属于优选实施例,所涉及的单元和模块并不一定是本申请所必须的。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。以上所描述的实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,既可以位于一个地方或者也可以分布到多个网络单元上(以上述系统实施例中的数据预处理模块为例,该数据预处理模块根据实际需要既可以部署在客户端,也可以部署在图服务器端,还可以同时在客户端和图服务器端均部署)。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种图服务器,其特征在于,包括图数据库接口、图数据写入接口、图数据查询接口和分布式数据存储模块,其中:
所述图数据库接口用于接收用户的数据操作请求,并根据所述数据操作请求的类型调用图数据写入接口或图数据查询接口实现对分布式数据存储模块的操作;
所述图数据写入接口用于根据所述数据操作请求中的待写入数据类型,创建或更新分布式数据存储模块中的节点或边的数据,并返回所述数据在分布式数据存储模块中的唯一索引;
所述图数据查询接口用于根据所述数据操作请求中的查询条件,获得存储在分布式数据存储模块中的数据,并按预设的节点和边的数据格式返回给用户;
分布式数据存储模块为分布式文件系统或分布式数据库,用于为图服务器提供数据存储和查询服务。
2.根据权利要求1所述的图服务器,其特征在于,所述图服务器还包括查询拆解模块,用于将复杂度大于预设条件的查询请求拆解为多个子查询请求,按顺序或并发调用图数据查询接口实现用户的数据查询请求。
3.根据权利要求1所述的图服务器,其特征在于,所述图服务器还设置有内存缓存,用于缓存用户最近访问的数据和/或查询命中次数大于或等于预设热数据阈值的数据。
4.根据权利要求1所述的图服务器,其特征在于,所述图服务器设置有分布式数据存储模块的服务发现机制;所述分布式数据存储模块的每个存储服务器上设置有心跳检测接口,实时向图服务器报告设备状态;当有新存储服务器加入或现有存储服务器退出时,所述图服务器通过所述服务发现机制自动更新分布式数据存储模块的配置,并将存储和查询服务切换到对应的存储服务器上。
5.根据权利要求1所述的图服务器,其特征在于,所述图服务器还包括第一数据预处理模块,用于对结构化或非结构化的原始数据进行抽取,并转换为图数据库的节点数据和/或边数据。
6.一种知识图谱系统,其特征在于,包括客户端和权利要求1~5任一所述的图服务器;所述客户端通过网络与所述图服务器连接;
所述客户端设置有用户接口,用于接收用户的数据操作请求,并通过网络发送至图服务器的图数据库接口,以及接收并显示图服务器的数据操作结果。
7.根据权利要求6所述的知识图谱系统,其特征在于,所述客户端还设置有第二数据预处理模块,用于将结构化或非结构化的原始数据转换为图数据库的节点数据或边数据。
8.根据权利要求7所述的知识图谱系统,其特征在于,所述客户端还设置有中间可持久化文件系统,用于暂存所述第二数据预处理模块处理后的节点数据和边数据。
9.根据权利要求6所述的知识图谱系统,其特征在于,所述用户接口通过超文本传输协议、websocket协议或远程过程调用协议方式与图服务器建立连接。
10.根据权利要求6所述的知识图谱系统,其特征在于,所述数据操作请求采用Gremlin、GSQL或SPARQL语言的语法格式。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811635242.2A CN109670089A (zh) | 2018-12-29 | 2018-12-29 | 知识图谱系统及其图服务器 |
PCT/CN2019/124555 WO2020135050A1 (zh) | 2018-12-29 | 2019-12-11 | 知识图谱系统及其图服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811635242.2A CN109670089A (zh) | 2018-12-29 | 2018-12-29 | 知识图谱系统及其图服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109670089A true CN109670089A (zh) | 2019-04-23 |
Family
ID=66147029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811635242.2A Pending CN109670089A (zh) | 2018-12-29 | 2018-12-29 | 知识图谱系统及其图服务器 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109670089A (zh) |
WO (1) | WO2020135050A1 (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347711A (zh) * | 2019-07-10 | 2019-10-18 | 北京百度网讯科技有限公司 | 分碎片存储的图数据库查询方法及装置 |
CN110427359A (zh) * | 2019-06-27 | 2019-11-08 | 苏州浪潮智能科技有限公司 | 一种图数据处理方法和装置 |
CN110489986A (zh) * | 2019-08-22 | 2019-11-22 | 网易(杭州)网络有限公司 | 图数据功能的响应方法、系统及电子设备 |
CN110598059A (zh) * | 2019-09-16 | 2019-12-20 | 北京百度网讯科技有限公司 | 数据库操作方法及装置 |
CN110941619A (zh) * | 2019-12-02 | 2020-03-31 | 浪潮软件股份有限公司 | 针对多种使用场景的图数据存储模型和结构的定义方法 |
CN111090653A (zh) * | 2019-12-20 | 2020-05-01 | 东软集团股份有限公司 | 一种数据缓存方法、装置及相关产品 |
CN111177189A (zh) * | 2019-12-20 | 2020-05-19 | 航天云网科技发展有限责任公司 | 一种基于用户行为分析的客户端优化系统及方法 |
CN111177478A (zh) * | 2019-12-24 | 2020-05-19 | 北京明略软件系统有限公司 | 一种查询方法、装置及系统 |
CN111274333A (zh) * | 2020-01-20 | 2020-06-12 | 北京明略软件系统有限公司 | 图谱关系更新方法、装置、服务器和存储介质 |
CN111309750A (zh) * | 2020-03-31 | 2020-06-19 | 中国邮政储蓄银行股份有限公司 | 图数据库的数据更新方法和装置 |
WO2020135050A1 (zh) * | 2018-12-29 | 2020-07-02 | 颖投信息科技(上海)有限公司 | 知识图谱系统及其图服务器 |
CN111538854A (zh) * | 2020-04-27 | 2020-08-14 | 北京百度网讯科技有限公司 | 搜索方法及装置 |
CN111897971A (zh) * | 2020-07-29 | 2020-11-06 | 中国电力科学研究院有限公司 | 一种适用于电网调度控制领域的知识图谱管理方法及系统 |
CN112182238A (zh) * | 2020-09-22 | 2021-01-05 | 苏州浪潮智能科技有限公司 | 一种基于图数据库的知识图谱构建系统和方法 |
CN112256927A (zh) * | 2020-10-21 | 2021-01-22 | 网易(杭州)网络有限公司 | 基于属性图的知识图谱数据处理方法和装置 |
WO2021042528A1 (zh) * | 2019-09-03 | 2021-03-11 | 平安科技(深圳)有限公司 | Noe4j图数据库的更新维护方法、装置及计算机可读存储介质 |
CN113177142A (zh) * | 2021-03-23 | 2021-07-27 | 杭州费尔斯通科技有限公司 | 一种扩展图数据库存储结构方法、系统、设备和储存介质 |
CN113468275A (zh) * | 2021-07-28 | 2021-10-01 | 浙江大华技术股份有限公司 | 图数据库的数据导入方法和装置、存储介质及电子设备 |
CN115203488A (zh) * | 2022-09-15 | 2022-10-18 | 国网智能电网研究院有限公司 | 一种图数据库管理方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6076092A (en) * | 1997-08-19 | 2000-06-13 | Sun Microsystems, Inc. | System and process for providing improved database interfacing using query objects |
CN103425793A (zh) * | 2013-08-28 | 2013-12-04 | 五八同城信息技术有限公司 | 用于即时通讯系统中利用数据库存储层访问数据库的方法 |
CN104573086A (zh) * | 2015-01-28 | 2015-04-29 | 浪潮集团有限公司 | 一种数据库访问构件及一种数据库访问构件的生成方法 |
CN105210058A (zh) * | 2012-12-14 | 2015-12-30 | 微软技术许可有限责任公司 | 使用多个引擎来进行图查询处理 |
CN106354729A (zh) * | 2015-07-16 | 2017-01-25 | 阿里巴巴集团控股有限公司 | 一种图数据处理方法、装置和系统 |
CN106484824A (zh) * | 2016-09-28 | 2017-03-08 | 华东师范大学 | 基于多元数据库支持组件的知识图谱异构存储框架中间件 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10102291B1 (en) * | 2015-07-06 | 2018-10-16 | Google Llc | Computerized systems and methods for building knowledge bases using context clouds |
CN206003092U (zh) * | 2016-05-30 | 2017-03-08 | 深圳市华傲数据技术有限公司 | 图数据库系统 |
CN107832323B (zh) * | 2017-09-14 | 2021-09-17 | 北京知道未来信息技术有限公司 | 一种基于图数据库的分布式实现系统及方法 |
CN109670089A (zh) * | 2018-12-29 | 2019-04-23 | 颖投信息科技(上海)有限公司 | 知识图谱系统及其图服务器 |
-
2018
- 2018-12-29 CN CN201811635242.2A patent/CN109670089A/zh active Pending
-
2019
- 2019-12-11 WO PCT/CN2019/124555 patent/WO2020135050A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6076092A (en) * | 1997-08-19 | 2000-06-13 | Sun Microsystems, Inc. | System and process for providing improved database interfacing using query objects |
CN105210058A (zh) * | 2012-12-14 | 2015-12-30 | 微软技术许可有限责任公司 | 使用多个引擎来进行图查询处理 |
CN103425793A (zh) * | 2013-08-28 | 2013-12-04 | 五八同城信息技术有限公司 | 用于即时通讯系统中利用数据库存储层访问数据库的方法 |
CN104573086A (zh) * | 2015-01-28 | 2015-04-29 | 浪潮集团有限公司 | 一种数据库访问构件及一种数据库访问构件的生成方法 |
CN106354729A (zh) * | 2015-07-16 | 2017-01-25 | 阿里巴巴集团控股有限公司 | 一种图数据处理方法、装置和系统 |
CN106484824A (zh) * | 2016-09-28 | 2017-03-08 | 华东师范大学 | 基于多元数据库支持组件的知识图谱异构存储框架中间件 |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020135050A1 (zh) * | 2018-12-29 | 2020-07-02 | 颖投信息科技(上海)有限公司 | 知识图谱系统及其图服务器 |
CN110427359A (zh) * | 2019-06-27 | 2019-11-08 | 苏州浪潮智能科技有限公司 | 一种图数据处理方法和装置 |
CN110347711A (zh) * | 2019-07-10 | 2019-10-18 | 北京百度网讯科技有限公司 | 分碎片存储的图数据库查询方法及装置 |
CN110347711B (zh) * | 2019-07-10 | 2022-02-08 | 北京百度网讯科技有限公司 | 分碎片存储的图数据库查询方法及装置 |
CN110489986A (zh) * | 2019-08-22 | 2019-11-22 | 网易(杭州)网络有限公司 | 图数据功能的响应方法、系统及电子设备 |
CN110489986B (zh) * | 2019-08-22 | 2021-03-23 | 网易(杭州)网络有限公司 | 图数据功能的响应方法、系统及电子设备 |
WO2021042528A1 (zh) * | 2019-09-03 | 2021-03-11 | 平安科技(深圳)有限公司 | Noe4j图数据库的更新维护方法、装置及计算机可读存储介质 |
CN110598059A (zh) * | 2019-09-16 | 2019-12-20 | 北京百度网讯科技有限公司 | 数据库操作方法及装置 |
CN110598059B (zh) * | 2019-09-16 | 2022-07-05 | 北京百度网讯科技有限公司 | 数据库操作方法及装置 |
CN110941619A (zh) * | 2019-12-02 | 2020-03-31 | 浪潮软件股份有限公司 | 针对多种使用场景的图数据存储模型和结构的定义方法 |
CN110941619B (zh) * | 2019-12-02 | 2023-05-16 | 浪潮软件股份有限公司 | 针对多种使用场景的图数据存储模型和结构的定义方法 |
CN111090653B (zh) * | 2019-12-20 | 2023-12-15 | 东软集团股份有限公司 | 一种数据缓存方法、装置及相关产品 |
CN111177189B (zh) * | 2019-12-20 | 2024-04-05 | 北京航天云路有限公司 | 一种基于用户行为分析的客户端优化系统及方法 |
CN111177189A (zh) * | 2019-12-20 | 2020-05-19 | 航天云网科技发展有限责任公司 | 一种基于用户行为分析的客户端优化系统及方法 |
CN111090653A (zh) * | 2019-12-20 | 2020-05-01 | 东软集团股份有限公司 | 一种数据缓存方法、装置及相关产品 |
CN111177478A (zh) * | 2019-12-24 | 2020-05-19 | 北京明略软件系统有限公司 | 一种查询方法、装置及系统 |
CN111274333A (zh) * | 2020-01-20 | 2020-06-12 | 北京明略软件系统有限公司 | 图谱关系更新方法、装置、服务器和存储介质 |
CN111309750A (zh) * | 2020-03-31 | 2020-06-19 | 中国邮政储蓄银行股份有限公司 | 图数据库的数据更新方法和装置 |
CN111538854A (zh) * | 2020-04-27 | 2020-08-14 | 北京百度网讯科技有限公司 | 搜索方法及装置 |
CN111538854B (zh) * | 2020-04-27 | 2023-08-08 | 北京百度网讯科技有限公司 | 搜索方法及装置 |
CN111897971A (zh) * | 2020-07-29 | 2020-11-06 | 中国电力科学研究院有限公司 | 一种适用于电网调度控制领域的知识图谱管理方法及系统 |
CN111897971B (zh) * | 2020-07-29 | 2023-04-07 | 中国电力科学研究院有限公司 | 一种适用于电网调度控制领域的知识图谱管理方法及系统 |
CN112182238A (zh) * | 2020-09-22 | 2021-01-05 | 苏州浪潮智能科技有限公司 | 一种基于图数据库的知识图谱构建系统和方法 |
CN112182238B (zh) * | 2020-09-22 | 2022-12-27 | 苏州浪潮智能科技有限公司 | 一种基于图数据库的知识图谱构建系统和方法 |
CN112256927A (zh) * | 2020-10-21 | 2021-01-22 | 网易(杭州)网络有限公司 | 基于属性图的知识图谱数据处理方法和装置 |
CN112256927B (zh) * | 2020-10-21 | 2024-06-04 | 网易(杭州)网络有限公司 | 基于属性图的知识图谱数据处理方法和装置 |
CN113177142A (zh) * | 2021-03-23 | 2021-07-27 | 杭州费尔斯通科技有限公司 | 一种扩展图数据库存储结构方法、系统、设备和储存介质 |
CN113468275A (zh) * | 2021-07-28 | 2021-10-01 | 浙江大华技术股份有限公司 | 图数据库的数据导入方法和装置、存储介质及电子设备 |
CN115203488B (zh) * | 2022-09-15 | 2022-12-06 | 国网智能电网研究院有限公司 | 一种图数据库管理方法、装置及电子设备 |
CN115203488A (zh) * | 2022-09-15 | 2022-10-18 | 国网智能电网研究院有限公司 | 一种图数据库管理方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2020135050A1 (zh) | 2020-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670089A (zh) | 知识图谱系统及其图服务器 | |
US11461356B2 (en) | Large scale unstructured database systems | |
EP3365805B1 (en) | Ability to group multiple container databases as a single container database cluster | |
US10803078B2 (en) | Ability to group multiple container databases as a single container database cluster | |
CN102571420B (zh) | 一种网元数据管理方法及系统 | |
CN110196871A (zh) | 数据入库方法和系统 | |
CN105930446B (zh) | 一种基于Hadoop分布式技术的电信客户标签生成方法 | |
CN108664516A (zh) | 查询优化方法及相关装置 | |
US11216455B2 (en) | Supporting synergistic and retrofittable graph queries inside a relational database | |
CN110324177A (zh) | 一种微服务架构下的服务请求处理方法、系统及介质 | |
CN110032604A (zh) | 数据存储装置、转译装置及数据库访问方法 | |
CN103605698A (zh) | 一种用于分布异构数据资源整合的云数据库系统 | |
CN102033912A (zh) | 一种分布式数据库访问方法及系统 | |
CN103761102B (zh) | 一种统一数据服务平台及其实现方法 | |
US10394805B2 (en) | Database management for mobile devices | |
CN104216962A (zh) | 一种基于HBase的海量网管数据索引设计方法 | |
CN110516076B (zh) | 一种基于知识图谱的云计算管理方法及系统 | |
Başca et al. | Querying a messy web of data with avalanche | |
CN109344122A (zh) | 一种基于文件预创策略的分布式元数据管理方法及系统 | |
CN103646051A (zh) | 一种基于列存储的大数据并行处理系统及方法 | |
CN107622055A (zh) | 一种快速实现数据服务发布的方法 | |
CN108282525A (zh) | 基于对等网络的视频资源管理系统和方法 | |
CN107766207A (zh) | 分布式自动监控方法、系统、计算机可读存储介质及终端设备 | |
CN108924215A (zh) | 一种基于树形结构的服务发现处理方法及装置 | |
US20170068703A1 (en) | Local database cache |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190423 |
|
RJ01 | Rejection of invention patent application after publication |