CN115422367A - 用户数据图谱化构建方法、系统、电子设备及存储介质 - Google Patents
用户数据图谱化构建方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115422367A CN115422367A CN202211017274.2A CN202211017274A CN115422367A CN 115422367 A CN115422367 A CN 115422367A CN 202211017274 A CN202211017274 A CN 202211017274A CN 115422367 A CN115422367 A CN 115422367A
- Authority
- CN
- China
- Prior art keywords
- user data
- data
- field
- mapping
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开的用户数据图谱化构建方法、系统、电子设备及存储介质,涉及数据分析技术领域。所述方法包括:对用户数据进行分析,建立与所述用户数据对应的索引和字段属性结构,并针对每一个索引创建主键;其中,所述用户数据包含实体、以及实体与实体之间关系的数据;按照建立的所述索引和字段属性结构,导入所述用户数据;将所述索引及字段属性与图数据库中的预设索引及字段属性进行映射,得到用户数据图谱。本发明便于提高用户数据图谱构建效率,适用于网络资产安全、企业关系、单位内部组织架构等各种数据分析场景中。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种用户数据图谱化构建方法、系统、电子设备及存储介质。
背景技术
图数据库是一种数据存储引擎,它将顶点和边的基本图结构与持久化技术和遍历(查询)语言结合起来,以创建一个用于存储和快速检索高度关联的数据而优化的数据库。目前,已知图数据库包括Neo4j、Hugegraph等都支持csv文件格式等非结构化数据的导入。
但是,本申请的发明人在实现本发明创造的过程中发现:对于上述非结构化数据的导入,一般需要人工手动梳理导出的文件,区分出顶点(Vertex,表征实体)和边(Edge,表征实体之间的关系),并且需要按照图数据库的要求定义出CSV文件中的字段,工作量大,且容易导入错误,致使用户数据图谱构建效率较低。
发明内容
有鉴于此,本发明实施例提供一种用户数据图谱化构建方法、系统、电子设备及存储介质,便于提高用户数据图谱构建效率。
为达到上述发明目的,采用如下技术方案:
第一方面,本发明实施例提供一种用户数据图谱化构建方法,所述方法包括步骤:对用户数据进行分析,建立与所述用户数据对应的索引和字段属性结构,并针对每一个索引创建主键;其中,所述用户数据包含实体以及实体与实体之间关系的数据;
按照建立的所述索引和字段属性结构,导入所述用户数据;
将所述索引及字段属性与图数据库中的预设索引及字段属性进行映射,得到用户数据图谱。
可选地,在对用户数据进行分析之前,所述方法还包括:获取用户数据;所述用户数据包含:非结构化数据;
所述方法还包括:在所述对用户数据进行分析时,判断所述非结构化数据中是否存在增量字段;
若不存在,则添加自增的长整型字段作为增量字段;
根据所述增量字段,确定增量导入的用户数据。
可选地,所述用户数据还包含:存储于标准数据库中的结构化数据;
所述方法还包括:从所述标准数据库中获取所述结构化数据;所述结构化数据以表的形式存储,每张表具有字段,每个字段携带有字段属性;
根据所述表、字段及字段属性,与图数据库中的预设索引及字段属性进行映射,得到所述结构化数据的图谱;所述预设索引以表的形式维护。
可选地,在将所述索引及字段属性与图数据库中的预设索引及字段属性进行映射之前,所述方法还包括:配置所述图数据库中的映射关系;所述映射关系包含:索引及字段属性,所述索引用于表征实体,所述字段属性包含用于表征实体与实体之间关系的外键。
可选地,在配置所述图数据库中的映射关系之后,所述方法还包括:定期向所述图数据库中增量导入用户数据:
在增量导入用户数据时,根据所述映射关系,调用图数据库创建实体接口,给所述实体添加字段属性;
以及,调用图数据库创建实体关系接口,将表征实体与实体之间关系的字段属性添加到图数据库中。
可选地,在得到用户数据图谱之后,所述方法还包括:根据所述用户数据图谱展示或发现实体、实体与实体之间关系的拓扑结构。
第二方面,本发明实施例还提供一种用户数据图谱化构建系统,包括:数据处理程序模块,用于对用户数据进行分析,建立与所述用户数据对应的索引和字段属性结构,并针对每一个索引创建主键;其中,所述用户数据包含实体以及实体与实体之间关系的数据;导入程序模块,用于按照建立的所述索引和字段属性结构,导入所述用户数据;映射程序模块,用于将所述索引及字段属性与图数据库中的预设索引及字段属性进行映射,得到用户数据图谱。
第三方面,本发明实施例提供一种电子设备,包括:一个或者多个处理器;存储器;所述存储器中存储有一个或者多个可执行程序,所述一个或者多个处理器读取存储器中存储的可执行程序代码,运行与所述可执行程序代码对应的程序,以用于执行第一方面任一所述的用户数据图谱化构建方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面任一所述的用户数据图谱化构建方法。
本发明实施例提供的用户数据图谱化构建方法、系统、电子设备及存储介质,当需要基于用户数据构建用户数据图谱时,在接收到用户指令之后,可以自动对用户数据进行分析,建立与所述用户数据对应的索引和字段属性结构,并针对每一个索引创建主键;其中,所述用户数据包含实体以及实体与实体之间关系的数据;按照建立的所述索引和字段属性结构,导入所述用户数据;将所述索引及字段属性与图数据库中的预设索引及字段属性进行映射,得到用户数据图谱。通过上述步骤,自动实现对用户数据的格式化处理、导入和映射,得到用户数据图谱,不容易出错,且便于提高用户数据图谱构建效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一实施例用户数据图谱化构建方法的流程示意图;
图2为本发明另一实施例用户数据图谱化构建方法流程示意图;
图3为本发明一实施例用户数据图结构示意图;
图4为本发明一实施例图数据库中顶点配置映射示意图;
图5为本发明一实施例图数据库中实体与实体关系配置映射示意图;
图6为本发明一实施例用户数据图谱化构建系统架构示意框图;
图7为本发明电子设备的一个实施例架构示意框图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供的用户数据图谱化构建方法,可应用于各种能够以图数据(“图数据”业内也有俗称“图”)对实体及实体关系展示的分析场景中,例如,网络资产安全分析、企业关系分析、单位内部组织架构分析、商业行为分析、网上购物分析等。针对用户提供的CSV文件等非结构化数据无序且无法直接导入图数据库的场景,通过数据清洗服务,将数据先导入到Elasticsearch检索服务器中进行格式化处理,并添加预设图数据库所需的索引和字段,与构建用户数据图谱(也可以理解成是知识图谱)所基于的图数据库中预设索引与字段属性进行映射,便于快速高效构建出用户数据图谱,从而可直观地展示出用户数据中的实体及实体之间的关系,便于分析人员对目标分析客体进行分析,例如对资产安全性进行分析。
需要说明的是,该方法可以以软件的形式固化于某一制造的实体产品中,当用户在使用该产品时,可以再现本申请的方法流程。
在对本发明实施例详细描述之前,为帮助理解本发明实施例技术方案,先对本发明一个或多个实施例中涉及的技术术语或名词进行解释如下:
Neo4j图数据库:Neo4j是一个高性能的NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。
Hugegraph图数据库:HugeGraph是一款由百度开源的图数据库系统,可以存储海量的顶点和边,基于Apache TinkerPop 3框架,支持Gremlin查询语言。
CSV文档:格式为逗号分隔值(CSV,Comma-Separated Values,有时也称为字符分隔值,因为分隔字符也可以不是逗号)的文件,其文件以纯文本形式存储表格数据(数字和文本)。
ElasticSearch搜索服务器,简称ES:Elasticsearch是一个基于Lucene的搜索(检索)服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web(基于REST架构的Web服务器,在前端开发中,可用于替代基于SOAP协议的Web服务器。在RESTful服务系统中,服务器利用URI暴露资源,客户端使用四个Http谓词来访问资源)接口。
图数据库(Figure database):是一种数据存储引擎,它将顶点(表征实体)和边(表征实体与实体之间的关系)的基本图结构与持久化技术和遍历(查询)语言结合起来,以创建一个用于存储和快速检索高度关联的数据而优化的数据库。图数据库可以直观地将数据中实体和实体之间的关系展示出完整结构,易于观察和操作。
图1为本发明一实施例用户数据图谱化构建方法流程示意图;参看图1所示,所述用户数据图谱化构建方法包括步骤:
S110、对用户数据进行分析,建立与所述用户数据对应的索引和字段属性结构,并针对每一个索引创建主键。
其中,所述用户数据包含实体以及实体与实体之间关系的数据。
所述实体(entity)为客观存在并可以相互区分的有形或无形的事物,例如,实体可以为计算机、路由器、计算机软件等,在图数据库中一般以顶点表示。
所述实体与实体之间关系,指不同实体型的实体集之间的联系,实体之间的联系有一对一,一对多,多对多等多种类型;例如,一个部门内分为多台计算机,可以表示成该部门的一个计算机实体集,标记为A;一次攻击事件中,包括前述部门内的计算机遭受到攻击,可以表示成攻击事件中的多个实体及攻击过程实体集,标记为B;则,在A和B之间就可以建立映射关系,用图数据表示出A和B、以及A和B中的实体与实体之间的关系。
索引,本文中该技术术语指ES系统中的术语“索引”,在早期的ES版本中,其类似于Mysql数据库中的库概念,在后来的ES版本去掉了type类的概念,索引又有表的概念,本文中索引可以等同理解为表的概念。简单的说,索引就是文档的容器,是一类文档的集合,逻辑空间上的分类,物理空间上的分片,包含字段及其值域。
例如,在Mysql中的一张表如下:
ID | Name | Age | Sex |
1 | 张三 | 22 | 男 |
2 | 李四 | 35 | 女 |
3 | 王五 | 22 | 女 |
如果在ES中存储上表中的数据,则ES会创建以下的索引:
Term | Posting List |
张三 | 1 |
李四 | 2 |
王五 | 3 |
22 | [1,3] |
35 | 2 |
男 | 1 |
女 | [2,3] |
Term是字段值,Posting List是字段值的值域。
为帮助理解本发明实施例,再次对涉及的技术术语进行简要介绍如下:属性(attribute):实体有很多特性,每一个特性称为属性。每个属性有一个值域,其类型可以是整数型、实数型、字符串型。如:学生(实体)有学号、姓名、年龄、性别等属性,相应值域为字符、字符串、整数和字符串型。
与属性对应,在ES索引(表)中,字段(field):标记实体属性的命名单位称为字段或数据项。它是可以命名的最小信息单位,所以又称为数据元素或初等项。字段的命名往往和实体属性相同,如:学生有学号、姓名、年龄、性别等字段,因此,本文中字段和字段属性有时也混同使用。
记录(record):字段的有序集合称为记录。一般用一个记录描述一个实体,所以记录又可以定义为能完整地描述一个实体的字段集。如:一个学生记录,由有序的字段集(学号、姓名、年龄、性别等)组成。
主键(Primary Key),用于唯一标识索引或表的字段或字段组合。
S120、按照建立的所述索引和字段属性结构,导入所述用户数据。
本实施例中,在根据用户数据建立对应的索引和字段属性结构之后,根据索引和字段属性结构,将用户数据导入对应的索引中。例如,用户数据中包含部门、员工、计算机、中央处理器、内存、软件、漏洞等数据。基于该用户数据中的实体及实体与实体之间的关系,建立相应的索引,并在每一个索引中创建字段及对应的值域标识,将用户数据导入至索引中,形成结构化数据。
S130、将所述索引及字段属性与图数据库中的预设索引及字段属性进行映射,得到用户数据图谱。
所述图数据库可以是百度开源图数据库HugeGraph,在该图数据库中预先配置相应的索引及字段属性等映射关系,在步骤S120形成结构化数据之后,与图数据库中相应索引及字段属性映射,自动将用户数据导入至图数据库中,得到用户数据图谱,这样,可以直观的展示或拓扑发现(简称拓现)实体间的关系。
本发明实施例提供的用户数据图谱化构建方法,当需要基于用户数据构建用户数据图谱时,在接收到用户指令之后,可以自动对用户数据进行分析,建立与所述用户数据对应的索引和字段属性结构,并针对每一个索引创建主键;其中,所述用户数据包含实体以及实体与实体之间关系的数据;按照建立的所述索引和字段属性结构,导入所述用户数据;将所述索引及字段属性与图数据库中的预设索引及字段属性进行映射,得到用户数据图谱。通过上述步骤,自动实现对用户数据的格式化处理、导入和映射,得到用户数据图谱,降低出错概率从而避免导入错误甚至是无法导入的情况出现,且便于提高用户数据图谱构建效率。
请参看图2所示,在对用户数据进行分析之前,所述方法还包括:获取用户数据;所述用户数据包含:非结构化数据;非结构化数据主要以Excel表格或CSV文本格式、或其它文本形式等存在,如果为Excel表格形式,可以将其先转化成CSV格式文件。
本实施例中,在数据获取和清洗阶段,可以采用大数据组件Elasticsearch做数据存储和检索获取,提升了数据检索和匹配的速度,Elasticsearch在检索获取到数据之后,作为数据清洗的中间件,主要功能是负责存储用户待分析的原始数据。
通过Elasticsearch数据清洗工具对用户数据初步的清洗,包括前述数据进行了格式化和规范结构化处理,使数据进一步达到可用、可关联、可分析的目的。
为了在所述对用户数据进行分析时,可以保证数据的唯一性和实时性,还包括:判断所述非结构化数据中是否存在增量字段;若不存在,则添加自增的长整型字段作为增量字段;其中,所涉及增量字段可以是时间(Time)。根据所述增量字段,确定增量导入的用户数据。其中,增量导入是定期将指定字段之间范围内的数据导入到目标数据源中。
本发明实施例中,通过给原始数据增加长整型自增字段的方式来保证数据的唯一性和实时更新,也保证了增量数据写入的可行性。ES检索服务器因为支持分布式部署,可以通过增加节点、磁盘或者内存的方式来提高数据检索及处理性能。
进一步地,在数据转换方面,还可以通过Logstash从多个来源采集数据,转换数据,然后将数据发送到诸如前述Elasticsearch等“存储库”中。进而通过可视化的关联配置,将用户的数据做筛选和匹配,同时可以直观的描述数据的映射是否准确,并支持动态的调整和优化,便于分析人员使用。
请参看图2所示,用户数据一般可以大致分为两类,结构化数据和非结构化数据,对于非结构化数据的处理前面已有述及,就不再赘述。对于所述用户数据还包含:存储于标准数据库中的结构化数据的情况,在一些实施例中,所述方法还包括:从所述标准数据库中获取所述结构化数据;所述结构化数据以表的形式存储,每张表具有字段,每个字段携带有字段属性;根据所述表及字段属性与图数据库中的预设索引及字段属性进行映射,得到所述结构化数据的图谱;所述预设索引以表的形式维护。
所述结构化数据可以为存储于Mysql、PostgreSQL、Oracle、SqlServer等数据库中的用户数据。
本实施例中,支持与多种用户数据源对接,不仅支持非结构化数据、还支持结构化数据的增量导入,实现了增量数据融合处理,并且能够检查数据融合的准确性。
在一些实施例中,在将所述索引及字段属性与图数据库中的预设索引及字段属性进行映射之前,所述方法还包括:配置所述图数据库中的映射关系;所述映射关系包含:索引及字段属性,所述索引用于表征实体,所述字段属性包含用于表征实体与实体之间关系的外键。外键是用来和其他表建立联系用的。
其中,映射是定义文档的过程,文档包含哪些字段,这些字段是否保存,是否索引,是否分词等。
可以理解的是,在添加数据之前必须定义映射,定义映射之后,根据映射关系可以自动将用户数据添加至图数据库中,形成用户数据图谱。
本发明实施例中,配置映射之后,支持将数据源中的字段和图数据库中的字段属性进行映射;同样支持将数据源中的关系进行关联,并将关系与图数据库中的关系进行映射,以实现自动导入用户数据,从而快速构建用户数据图谱。
作为一可选实施例,在配置所述图数据库中的映射关系之后,所述方法还包括:定期向所述图数据库中增量导入用户数据:在增量导入用户数据时,根据所述映射关系,调用图数据库创建实体接口,给所述实体添加字段属性;以及,调用图数据库创建实体关系接口,将表征实体与实体之间关系的字段属性添加到图数据库中。
本实施例中,可以将配置的映射关系添加到系统的计划任务中,系统按照要求执行计划任务,将数据定期的写入图数据库,实现用户数据图谱的更新。
进一步地,请参看图2所示,在得到用户数据图谱之后,所述方法还包括:根据所述用户数据图谱展示或发现实体、实体与实体之间关系的拓扑结构。
本实施例中,可以一次性展示出全部的用户数据图谱,也可以根据需要逐渐发现并展示出来。
为了帮助理解本发明实施例提供的技术方案,以下结合具体示例对本发明实施例的技术方案及其技术效果进行如下详细说明:
假设某企业想通过知识图谱的方式展示企业内部的组织架构、部门、员工、主机的信息以及它们之间的关系,同时需要体现哪些主机有风险。企业以excel表格的方式提供资产信息。
考虑到资产信息中涉及到多个实体及复杂的关联关系,并考虑到查询效率等问题,图数据库采用开源Hugegraph图数据库对用户数据进行存储及展示。
对于用户提供的数据,分两种情况,一种是用户允许本实施例的方法固化于实体产品形成的系统对接他们的标准数据库;另外一种是用户不允许直接连接他们的数据源库,但是能够以Excel格式导出一部分数据,以分析方提供数据的说明和数据之间的关系。
在对用户的Excel数据分析后,明确了所需要展示的实体及实体与实体之间的关系,包括:部门、用户、主机、软件的属性及它们之间的关系。
对于第一种情况(一般即指非结构用户数据的情况),分析方采用Elasticsearch服务支持,该服务支持对数据的存储检索,并且支持分布式部署。对用户文档进行分析后在Elasticsearch中建立对应的索引和字段结构,并针对每个实体都建立主键,然后按照建立的索引和字段结构,利用它自带的工具批量导入用户数据。导入后通过可视化配置将Elasticsearch的索引字段和图数据库中的概念属性进行映射,实现定时数据自动写入,便于提高用户数据图谱构建效率。
对于另一种情况(指允许对接用户采用的标准数据库),分析方通过系统可以支持配置数据源,直接连接数据库,无需进行数据格式处理等操作,并且通过可视化配置可以将数据源中的字段和图数据库中的概念属性进行映射,实现定时数据自动写入,便于提高用户数据图谱构建效率。
其中,图4展示了源数据防火墙与图库中防火墙概念的属性映射关系,右侧源字段来自于源数据字段,显示了防火墙的字段详情,右侧属性来自于图库属性,显示了图库中防火墙概念的字段详情。可以看到源字段和属性是一一对应的关系,这样保证了数据属性映射的准确性。
图5展示了源数据中漏洞和软件的关系,并且将此关系与图库定义的关系做了映射配置。右侧源字段中software_name来自于漏洞的源数据字段,右侧目标字段中的software_name来自于软件的目标数据字段,右侧关系Vulnerability_VulnerAffect_ApplicationSoftware来自于图库关系。可以看到源数据的关系和图库定义的关系一一映射,这样保证了数据关系映射的准确性。
在明确了数据源和图数据结构的基础上,可以通过以上配置将用户数据定时导入到图数据库中,帮助运维人员用知识图谱的方式来分析用户数据。
为了实现用户数据的唯一性和动态更新,可以将用户数据添加主键自增字段后导入到ElasticSearch大数据检索引擎。
前端可以直接在页面配置导入的实体和实体之间的关系,添加到计划任务,按计划时间去执行数据的导入。在生成用户数据图谱之后,在图谱分析界面可以直观的拓现(拓扑发现)实体的关系,如图3所示。
根据用户提供的数据,图3中展示出了用户内部的相关部门、员工、计算机、中央处理器、内存、软件、漏洞等概念,并且示意出了它们之间的关系。在明确了数据源(用户数据)和图数据结构的基础上,就可以通过配置将用户数据定时导入到图数据库中,帮助运维人员用知识图谱的方式来分析用户数据。
本发明实施例提供的用户数据图谱化构建方法,提供了自定义、可配置、可视化的操作方式来自动导入数据,相比手动录入或者手动整理数据后导入到图数据库的方案,便于提高用户数据图谱构建效率。而且针对现有需要先将用户数据导出成CSV格式落地到本地,导出数据速度慢的问题,本发明提供了直接对接用户数据的方法,实时拉取库、表和字段的数据,进一步提高用户数据图谱构建效率。
进一步地,通过对非结构化数据的格式化处理,并在图数据库中配置映射关系,解决了各类用户数据到图数据库的动态融合问题。
进一步地,通过设置自增字段,配置定时写入任务,解决了数据动态写入时内存溢出的问题。进一步地,采用ES检索服务器中的可视化配置工具,解决了数据映射的可见性问题。
实施例二
图6为本发明一实施例用户数据图谱化构建系统架构示意框图,请参看图6所示,基于与前述实施例一中各实施例相同的技术构思,还提供一种用户数据图谱化构建系统,包括:数据处理程序模块210,用于对用户数据进行分析,建立与所述用户数据对应的索引和字段属性结构,并针对每一个索引创建主键;其中,所述用户数据包含实体、以及实体与实体之间关系的数据;导入程序模块220,用于按照建立的所述索引和字段属性结构,导入所述用户数据;映射程序模块230,用于将所述索引及字段属性与图数据库中的预设索引及字段属性进行映射,得到用户数据图谱。
本实施例的系统可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果与实施例一类似,此处不再多赘述,可相互参看。
另外,可以理解的是,图6所示的系统,也适用于实施例一中其它实施例执行步骤流程,具体可参看实施例一中相关描述,在此就不再赘述。
如图2所示,在一些实施例中,所述系统包括:服务器及图数据库。其中,服务器包括运行于其环境中的ES检索服务,图数据库与服务器建立通信连接,服务器与一个或多个用户数据库建立通信连接。服务器可以从标准数据库或ES中获取用户数据,ES对非结构化数据进行格式化处理,并批量导入相应数据。
随后,可执行定时导入任务,以便从数据库中读取待导入数据及其关系并导入到图数据库中,构建出用户数据图谱。当需要展示用户数据中的实体及实体关系时,从所述用户数据图谱中读取,在前端展示相应数据。
本发明实施例提供的用户数据图谱化构建系统,提供了自定义、可配置、可视化的操作方式来自动导入数据,相比手动录入或者手动整理数据后导入到图数据库的方案,便于提高用户数据图谱构建效率。
实施例三
本发明还实施例提供了一种电子设备,包括:一个或者多个处理器;存储器;所述存储器中存储有一个或者多个可执行程序,所述一个或者多个处理器读取存储器中存储的可执行程序代码,运行与可执行程序代码对应的程序,以用于执行实施例一任一所述的用户数据图谱化构建方法。
图7为本发明电子设备一个实施例的结构示意图,其可以实现本发明实施例一任一所述的方法,如图7所示,作为一可选实施例,上述电子设备可以包括:壳体41、处理器42、存储器43、电路板44和电源电路45,其中,电路板44安置在壳体41围成的空间内部,处理器42和存储器43设置在电路板44上;电源电路45,用于为上述电子设备的各个电路或器件供电;存储器43用于存储可执行程序代码;处理器42通过读取存储器43中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述是实施例一中任一所述的用户数据图谱化构建方法。
处理器42对上述步骤的具体执行过程以及处理器42通过运行可执行程序代码来进一步执行的步骤,可以参见本发明用户数据图谱化构建方法实施例一的描述,在此不再赘述。
该电子设备以多种形式存在,包括但不限于:(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放模块(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。(5)其他具有数据交互功能的电子设备。
本发明还实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例一中任一所述的用户数据图谱化构建方法。
综上,根据上述各实施例公开可知,本发明实施例提供的用户数据图谱化构建方法及系统,提供了自定义、可配置、可视化的操作方式来自动导入数据,相比手动录入或者手动整理数据后导入到图数据库的方案,便于提高用户数据图谱构建效率。
进一步地,通过对非结构化数据的格式化处理,并在图数据库中配置映射关系,解决了各类用户数据到图数据库的动态融合问题。
进一步地,通过设置自增字段,配置定时写入任务,解决了数据动态写入时内存溢出的问题。进一步地,采用ES检索服务器中的可视化配置工具,解决了数据映射的可见性问题。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质还可为磁碟、光盘、只读存储记忆体(Read-Oily Memory,ROM)或随机存储记忆体(Raidom AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种用户数据图谱化构建方法,其特征在于,所述方法包括步骤:
对用户数据进行分析,建立与所述用户数据对应的索引和字段属性结构,并针对每一个索引创建主键;其中,所述用户数据包含实体以及实体与实体之间关系的数据;
按照建立的所述索引和字段属性结构,导入所述用户数据;
将所述索引及字段属性与图数据库中的预设索引及字段属性进行映射,得到用户数据图谱。
2.根据权利要求1所述的用户数据图谱化构建方法,其特征在于,在对用户数据进行分析之前,所述方法还包括:获取用户数据;所述用户数据包含:非结构化数据;
在所述对用户数据进行分析时,还包括:判断所述非结构化数据中是否存在增量字段;
若不存在,则添加自增的长整型字段作为增量字段;
根据所述增量字段,确定增量导入的用户数据。
3.根据权利要求1所述的用户数据图谱化构建方法,其特征在于,所述用户数据还包含:存储于标准数据库中的结构化数据;
所述方法还包括:从所述标准数据库中获取所述结构化数据;所述结构化数据以表的形式存储,每张表具有字段,每个字段携带有字段属性;
根据所述表及字段属性与图数据库中的预设索引及字段属性进行映射,得到所述结构化数据的图谱;所述预设索引以表的形式维护。
4.根据权利要求1所述的用户数据图谱化构建方法,其特征在于,在将所述索引及字段属性与图数据库中的预设索引及字段属性进行映射之前,所述方法还包括:配置所述图数据库中的映射关系;所述映射关系包含:索引及字段属性,所述索引用于表征实体,所述字段属性包含用于表征实体与实体之间关系的外键。
5.根据权利要求4所述的用户数据图谱化构建方法,其特征在于,在配置所述图数据库中的映射关系之后,所述方法还包括:定期向所述图数据库中增量导入用户数据:
在增量导入用户数据时,根据所述映射关系,调用图数据库创建实体接口,给所述实体添加字段属性;
以及,调用图数据库创建实体关系接口,将表征实体与实体之间关系的字段属性添加到图数据库中。
6.根据权利要求5所述的用户数据图谱化构建方法,其特征在于,在得到用户数据图谱之后,所述方法还包括:根据所述用户数据图谱展示或发现实体、实体与实体之间关系的拓扑结构。
7.一种用户数据图谱化构建系统,其特征在于,包括:
数据处理程序模块,用于对用户数据进行分析,建立与所述用户数据对应的索引和字段属性结构,并针对每一个索引创建主键;其中,所述用户数据包含实体以及实体与实体之间关系的数据;
导入程序模块,用于按照建立的所述索引和字段属性结构,导入所述用户数据;
映射程序模块,用于将所述索引及字段属性与图数据库中的预设索引及字段属性进行映射,得到用户数据图谱。
8.一种电子设备,其特征在于,包括:一个或者多个处理器;存储器;所述存储器中存储有一个或者多个可执行程序,所述一个或者多个处理器读取存储器中存储的可执行程序代码,运行与所述可执行程序代码对应的程序,以用于执行权利要求1至6任一所述的用户数据图谱化构建方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述权利要求1至6任一所述的用户数据图谱化构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211017274.2A CN115422367A (zh) | 2022-08-23 | 2022-08-23 | 用户数据图谱化构建方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211017274.2A CN115422367A (zh) | 2022-08-23 | 2022-08-23 | 用户数据图谱化构建方法、系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115422367A true CN115422367A (zh) | 2022-12-02 |
Family
ID=84197860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211017274.2A Pending CN115422367A (zh) | 2022-08-23 | 2022-08-23 | 用户数据图谱化构建方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115422367A (zh) |
-
2022
- 2022-08-23 CN CN202211017274.2A patent/CN115422367A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472068B (zh) | 基于异构分布式知识图谱的大数据处理方法、设备及介质 | |
US10671671B2 (en) | Supporting tuples in log-based representations of graph databases | |
US20180144061A1 (en) | Edge store designs for graph databases | |
US9110970B2 (en) | Destructuring and restructuring relational data | |
CN105518658A (zh) | 用于将数据记录分组的设备、系统以及方法 | |
US20230075655A1 (en) | Systems and methods for context-independent database search paths | |
US10445370B2 (en) | Compound indexes for graph databases | |
US10078624B2 (en) | Method of generating hierarchical data structure | |
CN111708805A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN112463991B (zh) | 历史行为数据的处理方法、装置、计算机设备及存储介质 | |
US20210397601A1 (en) | Enforcing path consistency in graph database path query evaluation | |
WO2023160137A1 (zh) | 图数据存储方法、系统及计算机设备 | |
US20180357278A1 (en) | Processing aggregate queries in a graph database | |
CN109885585A (zh) | 支持存储过程、触发器与视图的分布式数据库系统和方法 | |
US20180357328A1 (en) | Functional equivalence of tuples and edges in graph databases | |
US10983997B2 (en) | Path query evaluation in graph databases | |
CN111984745B (zh) | 数据库字段动态扩展方法、装置、设备及存储介质 | |
CN110704635B (zh) | 一种知识图谱中三元组数据的转换方法及装置 | |
US10417230B2 (en) | Transforming and evaluating missing values in graph databases | |
US11531706B2 (en) | Graph search using index vertices | |
US20180144060A1 (en) | Processing deleted edges in graph databases | |
CN115168474B (zh) | 一种基于大数据模型的物联中台系统搭建方法 | |
CN116127154A (zh) | 知识标签推荐方法、装置、电子设备及存储介质 | |
CN115422367A (zh) | 用户数据图谱化构建方法、系统、电子设备及存储介质 | |
CN113761213B (zh) | 一种基于知识图谱的数据查询系统、方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |