CN111782710B - 数据存储方法、装置、计算设备和介质 - Google Patents

数据存储方法、装置、计算设备和介质 Download PDF

Info

Publication number
CN111782710B
CN111782710B CN202010616242.9A CN202010616242A CN111782710B CN 111782710 B CN111782710 B CN 111782710B CN 202010616242 A CN202010616242 A CN 202010616242A CN 111782710 B CN111782710 B CN 111782710B
Authority
CN
China
Prior art keywords
data
processed
description model
node
node element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010616242.9A
Other languages
English (en)
Other versions
CN111782710A (zh
Inventor
谢奕
张阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010616242.9A priority Critical patent/CN111782710B/zh
Publication of CN111782710A publication Critical patent/CN111782710A/zh
Application granted granted Critical
Publication of CN111782710B publication Critical patent/CN111782710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种数据存储方法,涉及人工智能领域,具体地,涉及大数据和数据图谱技术。该方法包括:获取多个待处理数据,每个待处理数据包括多个对象数据和至少一个关联数据,多个对象数据通过至少一个关联数据相关联;以及针对多个待处理数据中的每个待处理数据,将每个待处理数据的多个对象数据和至少一个关联数据填充到预先建立的描述模型,并利用描述模型将每个待处理数据的多个对象数据和至少一个关联数据写入数据图谱中,使得多个待处理数据被关联地存储为数据图谱,以便根据查询信息在数据图谱中进行数据查询。本公开还提供了一种数据存储装置、一种计算设备以及一种计算机可读存储介质。

Description

数据存储方法、装置、计算设备和介质
技术领域
本公开涉及人工智能领域,具体地,涉及大数据和数据图谱技术,更具体地,涉及一种数据存储方法、装置、计算设备以及计算机可读存储介质。
背景技术
在生活中,随着各种行为的发生,产生越来越多的数据。例如,用户在社交、娱乐、出行等各方面的行为均会产生大量的数据。在大数据场景下,可以通过分析大量的数据中的关联关系,以对相关行为进行分析和预测。因此,如何存储大量的数据便于挖掘大量的数据之间的关联成为亟需解决的问题。
针对数据存储,在一方面,相关技术通常通过将大量的数据存储至传统的关系数据库,后续通过查询关系数据库来得到数据的关联。但是,通过查询关系数据库挖掘数据间的关联,需要的计算资源较多,挖掘的效率较低。
在另一方面,相关技术通过将大量的数据存储至数据图谱中。但是,需要人工构建数据图谱,并且针对不同类型的业务均需要构建相应的数据图谱,导致数据存储的人工成本较高。
发明内容
有鉴于此,本公开提供了一种优化的数据存储方法、数据存储装置、计算设备和计算机可读存储介质。
本公开的一个方面提供了一种数据存储方法,包括:获取多个待处理数据,每个所述待处理数据包括多个对象数据和至少一个关联数据,所述多个对象数据通过所述至少一个关联数据相关联,针对所述多个待处理数据中的每个待处理数据,将所述每个待处理数据的所述多个对象数据和所述至少一个关联数据填充到预先建立的描述模型,并利用所述描述模型将所述每个待处理数据的所述多个对象数据和所述至少一个关联数据写入数据图谱中,使得所述多个待处理数据被关联地存储为数据图谱,以便根据查询信息在所述数据图谱中进行数据查询。
根据本公开实施例,上述描述模型包括结点元素集合和边元素集合,所述结点元素集合中的结点元素通过所述边元素集合中的边元素彼此关联,所述将所述每个待处理数据的所述多个对象数据和所述至少一个关联数据填充到预先建立的描述模型包括:将所述每个待处理数据的多个对象数据作为结点元素填充到所述结点元素集合,将所述至少一个关联数据作为边元素填充到所述边元素集合。
根据本公开实施例,上述利用所述描述模型将所述每个待处理数据的所述多个对象数据和所述至少一个关联数据写入数据图谱中包括:对于所述每个待处理数据,将所述描述模型中的结点元素存储为数据图谱中的结点,并且将所述描述模型中的边元素存储为数据图谱中的边,其中对于所述多个待处理数据,具有相同对象数据的结点元素被存储为数据图谱中的同一个结点。
根据本公开实施例,上述多个对象数据中的每个对象数据包括数据类型和数据值,所述多个结点元素集合中的每个结点元素包括结点元素类型和结点元素值。其中,所述将所述待处理数据的多个对象数据作为结点元素填充到所述结点元素集合包括:针对所述多个对象数据中的每个对象数据,在所述结点元素集合中确定具有与所述对象数据的数据类型匹配的结点元素类型的结点元素,将所述对象数据的数据值作为所确定的结点元素的元素值写入所述结点元素集合中。
根据本公开实施例,上述多个待处理数据被划分为多种业务类型,针对每种业务类型的待处理数据预先建立有对应的描述模型,所述方法还包括:在将所述待处理数据的所述多个对象数据和所述至少一个关联数据填充到预先建立的描述模型之前,确定所述待处理数据的业务类型,确定与所述待处理数据所属的业务类型对应的描述模型,以用于填充所述待处理数据的所述多个对象数据和所述至少一个关联数据。
根据本公开实施例,在获取多个待处理数据之前,所述方法还包括:获取多个初始数据,将所述多个初始数据按照业务类型划分为多组,将每一组初始数据转换成数据表格形式的多个待处理数据,所述数据表格包括多栏,每一栏记录一个待处理数据,其中每个数据表格包括表格标签,所述表格标签表征所述数据表格中的多个待处理数据所属的业务类型。
根据本公开实施例,上述数据表格的每一栏包括多个对象数据字段和至少一个关联数据字段,所述将每一组初始数据转换成数据表格形式的多个待处理数据包括:对于所述组初始数据中的每个初始数据,从所述初始数据中提取多个对象数据和至少一个关联数据,将所述多个对象数据和至少一个关联数据存储在相应的一栏中,其中将所述多个对象数据分别存储在所述一栏中的多个对象数据字段,将所述至少一个关联数据分别存储在所述一栏中的至少一个关联数据字段。
根据本公开实施例,上述确定所述待处理数据的业务类型包括:基于所述待处理数据所属的数据表格的表格标签,确定所述待处理数据所属的业务类型。
根据本公开实施例,上述方法还包括:在所述多个待处理数据被关联地存储为数据图谱之后,将所述数据图谱与其他数据图谱进行关联。
本公开的另一个方面提供了一种数据存储装置,包括:获取模块和存储模块。其中,获取模块,获取多个待处理数据,每个所述待处理数据包括多个对象数据和至少一个关联数据,所述多个对象数据通过所述至少一个关联数据相关联。存储模块,针对所述多个待处理数据中的每个待处理数据,将所述每个待处理数据的所述多个对象数据和所述至少一个关联数据填充到预先建立的描述模型,并利用所述描述模型将所述每个待处理数据的所述多个对象数据和所述至少一个关联数据写入数据图谱中,使得所述多个待处理数据被关联地存储为数据图谱,以便根据查询信息在所述数据图谱中进行数据查询。
本公开的另一方面提供了一种计算设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述方法。
根据本公开的实施例,利用本公开实施例的方法可以至少部分地解决相关技术数据存储的成本较高、对数据间的关联的挖掘效率较低的技术问题,并因此可以实现降低数据存储的成本,提高数据挖掘的效率的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的数据存储方法的流程图;
图2示意性示出了根据本公开实施例的系统架构;
图3-图4示意性示出了根据本公开实施例的数据图谱的示意图;
图5-图6示意性示出了根据本公开实施例的关联数据图谱的示意图;
图7A示意性示出了根据本公开另一实施例的数据存储方法的流程图;
图7B示意性示出了根据本公开实施例的数据存储装置的框图;以及
图8示意性示出了根据本公开实施例的适于执行数据存储的计算设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开的实施例提供了一种数据存储方法,该方法包括:获取多个待处理数据,每个待处理数据包括多个对象数据和至少一个关联数据,多个对象数据通过至少一个关联数据相关联。接下来,针对多个待处理数据中的每个待处理数据,将每个待处理数据的多个对象数据和至少一个关联数据填充到预先建立的描述模型,并利用描述模型将每个待处理数据的多个对象数据和至少一个关联数据写入数据图谱中,使得多个待处理数据被关联地存储为数据图谱,以便根据查询信息在数据图谱中进行数据查询。
图1示意性示出了根据本公开实施例的数据存储方法的流程图。如图1所示,本公开实施例的数据存储方法可以包括操作S110和操作S120。
在操作S110,获取多个待处理数据,每个待处理数据包括多个对象数据和至少一个关联数据,多个对象数据通过至少一个关联数据相关联。在操作S120,针对多个待处理数据中的每个待处理数据,将每个待处理数据的多个对象数据和至少一个关联数据填充到预先建立的描述模型,并利用描述模型将每个待处理数据的多个对象数据和至少一个关联数据写入数据图谱中,使得多个待处理数据被关联地存储为数据图谱,以便根据查询信息在数据图谱中进行数据查询。
如图2所示,本公开实施例的多个待处理数据例如存储在ES(ElasticSearch)数据库201中。该ES数据库201支持数据扩展,便于数据的不断加入。其中,待处理数据中的对象数据例如包括用户数据、地点数据或者物品数据等等。关联数据例如表征多个对象数据之间的关系。例如,以待处理数据为“张三2008年1月1日去过北京”为例,该待处理数据中的多个对象数据例如包括“张三”、“北京”,关联数据例如包括“2008年1月1日”。
图2还示出了本公开实施例的数据存储方法的流程图。图1中所示的本公开实施例的操作S120可以包括操作S121的数据处理过程。其中,操作S121关于数据处理过程例如包括从ES数据库201中获取多个待处理数据,并将多个待处理数据关联地存储为数据图谱,并将数据图谱存储自图数据库202中,便于后续通过图数据库202对数据图谱进行数据查询。
根据本公开实施例,由于数据图谱中包括多个结点以及多个结点之间的边,为了实现自动将待处理数据写入数据图谱,需要确定待处理数据中的哪些对象数据需要写入数据图谱中的哪些结点,以及确定待处理数据中的哪些关联数据需要写入数据图谱中的哪些边。本公开实施例通过预先建立描述模型,以便将每个待处理数据的多个对象数据和至少一个关联数据填充到该预先建立的描述模型,并利用该描述模型将每个待处理数据的多个对象数据和至少一个关联数据写入数据图谱中。该描述模型可以是一些处理函数,该描述模型可以存储在描述模型存储区203中。其中,该描述模型中定义了待处理数据中的哪些对象数据需要写入数据图谱中的哪些结点,以及定义了待处理数据中的哪些关联数据需要写入数据图谱中的哪些边。因此,通过该描述模型可以实现自动将待处理数据写入数据图谱中。
可以理解,本公开实施例可以首先将每个待处理数据的多个对象数据和至少一个关联数据填充到预先建立的描述模型,再利用描述模型将对象数据和关联数据写入数据图谱,从而实现了自动将待处理数据写入数据图谱。
根据本公开实施例,描述模型可以包括结点元素集合和边元素集合。其中,结点元素集合中的结点元素通过边元素集合中的边元素彼此关联。
其中,将每个待处理数据的多个对象数据和至少一个关联数据填充到预先建立的描述模型包括:将每个待处理数据的多个对象数据作为结点元素填充到结点元素集合,将至少一个关联数据作为边元素填充到边元素集合。
例如,描述模型的结点元素集合包括结点元素1、结点元素2。边元素集合包括边元素1。可以将多个对象数据中的对象数据“张三”填充到结点元素1,将对象数据“北京”填充到结点元素2,将关联数据“2008年1月1日”填充到边元素1。
根据本公开实施例,多个对象数据中的每个对象数据可以包括数据类型和数据值,多个结点元素集合中的每个结点元素可以包括结点元素类型和结点元素值。
例如,对象数据“张三”的数据类型为用户,数据值为“张三”。对象数据“北京”的数据类型为地点,数据值为“北京”。关联数据“2008年1月1日”的数据类型为时间,数据值为“2008年1月1日”。
根据本公开实施例,将待处理数据的多个对象数据作为结点元素填充到结点元素集合包括:针对多个对象数据中的每个对象数据,在结点元素集合中确定具有与对象数据的数据类型匹配的结点元素类型的结点元素,将对象数据的数据值作为所确定的结点元素的元素值写入结点元素集合中。
例如,针对结点元素集合所包括的结点元素1和结点元素2,结点元素1的结点元素类型为用户,结点元素2的结点元素类型为地点。针对对象数据“张三”,该对象数据的数据类型为用户,确定与该数据类型匹配的结点元素类型的结点元素1,并将对象数据“张三”的数据值“张三”作为结点元素1的元素值写入结点元素集合中。针对对象数据“北京”,该对象数据的数据类型为地点,确定与该数据类型匹配的结点元素类型的结点元素2,并将对象数据“北京”的数据值“北京”作为结点元素2的元素值写入结点元素集合中。另外,将关联数据“2008年1月1日”的数据值“2008年1月1日”作为边元素1的元素值写入结点元素集合中。
在被公开的另一实施例中,两个对象数据之间可以包括多个关联数据。此时,描述模型的边元素集合例如包括多个边元素,每个边元素均具有边元素类型。针对多个关联数据中的每个关联数据,在边元素集合中确定具有与关联数据的数据类型匹配的边元素类型的边元素,将关联数据的数据值作为所确定的边元素的元素值写入边元素集合中。
例如,以待处理数据为“张三2008年1月1日坐飞机去过北京”为例,该待处理数据中的多个对象数据例如包括“张三”、“北京”,多个关联数据例如包括“2008年1月1日”、“飞机”。
此时,描述模型例如包括结点元素1、结点元素2、边元素1、边元素2。结点元素1的结点元素类型为用户,结点元素2的结点元素类型为地点,边元素1的边元素类型为时间,边元素2的边元素类型为出行方式。将对象数据“张三”的数据值“张三”作为结点元素1的元素值写入结点元素集合中。将对象数据“北京”的数据值“北京”作为结点元素2的元素值写入结点元素集合中。将关联数据“2008年1月1日”的数据值“2008年1月1日”作为边元素1的元素值写入边元素集合中。将关联数据“2飞机”的数据值“飞机”作为边元素2的元素值写入边元素集合中。
根据本公开实施例,在获取多个待处理数据之前,可以通过获取多个初始数据,然后将多个初始数据按照业务类型划分为多组。多个初始数据例如存储在图2所示的初始数据存储区204中。
接下来,将每一组初始数据转换成数据表格形式的多个待处理数据。其中,数据表格可以是index表。数据表格包括多栏,每一栏记录一个待处理数据,其中每个数据表格包括表格标签,表格标签表征数据表格中的多个待处理数据所属的业务类型。即,每一个数据表格用于存储一种业务类型的待处理数据。其中,该数据表格可以存储在ES数据库201中。
如图2所示,本公开实施例的数据存储方法还可以包括操作S130的数据转换过程。其中,操作S130中关于数据转换过程例如包括将每一组初始数据转换成数据表格形式的多个待处理数据,并将数据表格存储至ES数据库201中。
以业务类型为出行业务对应的数据表格为例,该数据表格例如以下表1所示。
如表1所示,数据表格的每一栏包括多个对象数据字段和至少一个关联数据字段。以一组初始数据包括“张三2008年1月1日去过北京”、“李四2010年1月1日去过北京”为例。
将每一组初始数据转换成数据表格形式的多个待处理数据包括:对于该组初始数据中的每个初始数据,例如初始数据为“张三2008年1月1日去过北京”,从该初始数据中提取多个对象数据和至少一个关联数据,例如提取多个对象数据为“张三”、“北京”,提取的关联数据为“2008年1月1日”。
然后,将多个对象数据和至少一个关联数据存储在相应的一栏中。例如将多个对象数据分别存储在一栏中的多个对象数据字段,将至少一个关联数据分别存储在一栏中的至少一个关联数据字段。
对于初始数据“李四2010年1月1日去过北京”的处理过程类似。另外,表格数据还可以包括列标题,该列标题表征了每一栏中各个字段的类型。例如,每栏中的第一个字段为对象数据字段,第一个字段的字段类型为用户(该列标题为用户)。第二个字段为对象数据字段,第二个字段的字段类型为地点(该列标题为地点)。第三个字段为关联数据字段,第三个字段的字段类型为时间(该列标题为时间)。
表1
用户 地点 时间
张三 北京 2008年1月1日
李四 北京 2010年1月1日
…… …… ……
根据本公开实施例,在将待处理数据填充入相应的描述模型之前,首先需要确定待处理数据的业务类型。由于待处理数据存储在数据表格中,并且数据表格的表格标签表征了该数据表格中待处理数据所属的业务类型。因此,可以基于待处理数据所属的数据表格的表格标签来确定待处理数据所属的业务类型。
图3-图4示意性示出了根据本公开实施例的数据图谱的示意图。
如图3所示,利用描述模型将每个待处理数据的多个对象数据和至少一个关联数据写入数据图谱中包括:对于每个待处理数据,将描述模型中的结点元素存储为数据图谱中的结点,并且将描述模型中的边元素存储为数据图谱中的边。
在一种实施例中,以一个待处理数据为“张三2008年1月1日去过北京”为例,描述模型中的结点元素包括“张三”、“北京”,边元素包括“2008年1月1日”。如图3所示,将结点元素“张三”存储为数据图谱的结点1,将结点元素“北京”存储为数据图谱的结点2,将边元素“2008年1月1日”存储为数据图谱的边。
在另一实施例中,对于多个待处理数据,具有相同对象数据的结点元素被存储为数据图谱中的同一个结点。例如,以多个待处理数据包括三个待处理数据为例,一个待处理数据为“张三2008年1月1日去过北京”,另一个待处理数据为“张三2009年2月2日去过上海”,再另一个待处理数据为“李四2010年1月1日去过北京”。通过分别将三个待处理数据填充到描述模型,并通过描述模型分别将该三个待处理数据写入数据图谱中,使得该三个待处理数据关联地存储为数据图谱,得到的数据图谱如图4所示。
根据本公开实施例,多个待处理数据可以被划分为多种业务类型,针对每种业务类型的待处理数据预先建立有对应的描述模型。
例如,多种业务类型可以包括出行业务、购物业务等等。例如,待处理数据“张三2008年1月1日去过北京”属于出行业务。待处理数据“王五买了3个电脑”属于购物业务。出行业务对应的描述模型的结点元素类型可以为“用户”、“地点”,边元素类型可以为“时间”。购物业务对应的描述模型的结点元素类型可以为“用户”、“物品”,边元素类型可以为“购买数量”。
针对一个待处理数据,在将待处理数据的多个对象数据和至少一个关联数据填充到预先建立的描述模型之前,可以首先确定待处理数据的业务类型,然后确定与待处理数据所属的业务类型对应的描述模型,以用于填充待处理数据的多个对象数据和至少一个关联数据。例如,当待处理数据为“张三2008年1月1日去过北京”时,确定该待处理数据的业务类型为出行业务,与该业务类型对应的描述模型的结点元素类型为“用户”、“地点”,边元素类型为“时间”。
图5-图6示意性示出了根据本公开实施例的关联数据图谱的示意图。
如图5至图6所示,在多个待处理数据被关联地存储为数据图谱之后,将数据图谱与其他数据图谱进行关联。其他数据图谱例如为已经存储在图数据库202中的数据图谱。
其中,多个待处理数据被关联地存储为数据图谱得到的数据图谱例如为图4所示,其他数据图谱例如为图5所示。将数据图谱与其他数据图谱进行关联得到的关联结果例如为图6所示。数据图谱与其他数据图谱中相同的结点作为关联结果中数据图谱的同一个结点。例如数据图谱与其他数据图谱中相同的结点为“张三”所在的结点。
图7A示意性示出了根据本公开另一实施例的数据存储方法的流程图。
如图7A所示,本公开实施例的数据存储方法可以包括操作S110~操作S120以及操作S210~操作S260。其中,操作S110~操作S120与图1中描述的操作相同或类似,在此不再赘述。
在操作S210,获取多个初始数据。
在操作S220,将多个初始数据按照业务类型划分为多组。
在操作S230,将每一组初始数据转换成数据表格形式的多个待处理数据。
在操作S240,确定待处理数据的业务类型。
在操作S250,确定与待处理数据所属的业务类型对应的描述模型。
在操作S260,在多个待处理数据被关联地存储为数据图谱之后,将数据图谱与其他数据图谱进行关联。
其中,操作S210~操作S260的具体实现过程已在上文中描述,在此不再赘述。
图7B示意性示出了根据本公开实施例的数据存储装置的框图。
如图7B所示,本公开实施例的数据存储装置700例如包括获取模块710以及存储模块720。
获取模块710可以用于获取多个待处理数据,每个待处理数据包括多个对象数据和至少一个关联数据,多个对象数据通过至少一个关联数据相关联。根据本公开实施例,获取模块710例如可以执行上文参考图1描述的操作S110,在此不再赘述。
存储模块720可以用于针对多个待处理数据中的每个待处理数据,将每个待处理数据的多个对象数据和至少一个关联数据填充到预先建立的描述模型,并利用描述模型将每个待处理数据的多个对象数据和至少一个关联数据写入数据图谱中,使得多个待处理数据被关联地存储为数据图谱,以便根据查询信息在数据图谱中进行数据查询。根据本公开实施例,存储模块720例如可以执行上文参考图1描述的操作S120,在此不再赘述。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,获取模块710以及存储模块720中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,获取模块710以及存储模块720中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块710以及存储模块720中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图8示意性示出了根据本公开实施例的适于执行数据存储的计算设备的方框图。图8示出的计算设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,根据本公开实施例的计算设备800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分806加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有计算设备800操作所需的各种程序和数据。处理器801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,计算设备800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。计算设备800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。具体地,计算机程序在被处理器801执行时实现上述的方法。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的计算设备中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是计算机非易失性的计算机可读存储介质,例如可以可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (10)

1.一种数据存储方法,包括:
获取多个初始数据;
将所述多个初始数据按照业务类型划分为多组;
将每一组初始数据转换成数据表格形式的多个待处理数据,所述数据表格包括多栏,每一栏记录一个待处理数据,其中每个数据表格包括表格标签,所述表格标签表征所述数据表格中的多个待处理数据所属的业务类型;
获取多个待处理数据,每个所述待处理数据包括多个对象数据和至少一个关联数据,所述多个对象数据通过所述至少一个关联数据相关联;所述多个待处理数据被划分为多种业务类型,针对每种业务类型的待处理数据预先建立有对应的描述模型;以及
针对所述多个待处理数据中的每个待处理数据,
确定所述待处理数据的业务类型;
确定与所述待处理数据所属的业务类型对应的描述模型,以用于填充所述待处理数据的所述多个对象数据和所述至少一个关联数据;和
将所述每个待处理数据的所述多个对象数据和所述至少一个关联数据填充到预先建立的描述模型,并利用所述描述模型将所述每个待处理数据的所述多个对象数据和所述至少一个关联数据写入数据图谱中,使得所述多个待处理数据被关联地存储为数据图谱,以便根据查询信息在所述数据图谱中进行数据查询。
2.根据权利要求1所述的方法,其中,
所述描述模型包括结点元素集合和边元素集合,所述结点元素集合中的结点元素通过所述边元素集合中的边元素彼此关联;并且
所述将所述每个待处理数据的所述多个对象数据和所述至少一个关联数据填充到预先建立的描述模型包括:将所述每个待处理数据的多个对象数据作为结点元素填充到所述结点元素集合,将所述至少一个关联数据作为边元素填充到所述边元素集合。
3.根据权利要求1所述的方法,其中,所述利用所述描述模型将所述每个待处理数据的所述多个对象数据和所述至少一个关联数据写入数据图谱中包括:
对于所述每个待处理数据,将所述描述模型中的结点元素存储为数据图谱中的结点,并且将所述描述模型中的边元素存储为数据图谱中的边,其中对于所述多个待处理数据,具有相同对象数据的结点元素被存储为数据图谱中的同一个结点。
4.根据权利要求2所述的方法,其中,所述多个对象数据中的每个对象数据包括数据类型和数据值,多个结点元素集合中的每个结点元素包括结点元素类型和结点元素值;
其中,将所述待处理数据的多个对象数据作为结点元素填充到所述结点元素集合包括:针对所述多个对象数据中的每个对象数据,
在所述结点元素集合中确定具有与所述对象数据的数据类型匹配的结点元素类型的结点元素;以及
将所述对象数据的数据值作为所确定的结点元素的元素值写入所述结点元素集合中。
5.根据权利要求1所述的方法,其中,所述数据表格的每一栏包括多个对象数据字段和至少一个关联数据字段,所述将每一组初始数据转换成数据表格形式的多个待处理数据包括:对于所述组初始数据中的每个初始数据,
从所述初始数据中提取多个对象数据和至少一个关联数据;以及
将所述多个对象数据和至少一个关联数据存储在相应的一栏中,其中将所述多个对象数据分别存储在所述一栏中的多个对象数据字段,将所述至少一个关联数据分别存储在所述一栏中的至少一个关联数据字段。
6.根据权利要求1所述的方法,其中,所述确定所述待处理数据的业务类型包括:
基于所述待处理数据所属的数据表格的表格标签,确定所述待处理数据所属的业务类型。
7.根据权利要求1至6中任一项权利要求所述的方法,还包括:
在所述多个待处理数据被关联地存储为数据图谱之后,将所述数据图谱与其他数据图谱进行关联。
8.一种数据存储装置,包括:
初始数据获取模块,用于获取多个初始数据;
划分模块,用于将所述多个初始数据按照业务类型划分为多组;
转换模块,用于将每一组初始数据转换成数据表格形式的多个待处理数据,所述数据表格包括多栏,每一栏记录一个待处理数据,其中每个数据表格包括表格标签,所述表格标签表征所述数据表格中的多个待处理数据所属的业务类型;
获取模块,获取多个待处理数据,每个所述待处理数据包括多个对象数据和至少一个关联数据,所述多个对象数据通过所述至少一个关联数据相关联;所述多个待处理数据被划分为多种业务类型,针对每种业务类型的待处理数据预先建立有对应的描述模型;以及
存储模块,针对所述多个待处理数据中的每个待处理数据,确定所述待处理数据的业务类型;确定与所述待处理数据所属的业务类型对应的描述模型,以用于填充所述待处理数据的所述多个对象数据和所述至少一个关联数据;将所述每个待处理数据的所述多个对象数据和所述至少一个关联数据填充到预先建立的描述模型,并利用所述描述模型将所述每个待处理数据的所述多个对象数据和所述至少一个关联数据写入数据图谱中,使得所述多个待处理数据被关联地存储为数据图谱,以便根据查询信息在所述数据图谱中进行数据查询。
9.一种计算设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现权利要求1至7中任一项所述的方法。
CN202010616242.9A 2020-06-30 2020-06-30 数据存储方法、装置、计算设备和介质 Active CN111782710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010616242.9A CN111782710B (zh) 2020-06-30 2020-06-30 数据存储方法、装置、计算设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010616242.9A CN111782710B (zh) 2020-06-30 2020-06-30 数据存储方法、装置、计算设备和介质

Publications (2)

Publication Number Publication Date
CN111782710A CN111782710A (zh) 2020-10-16
CN111782710B true CN111782710B (zh) 2023-07-25

Family

ID=72761224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010616242.9A Active CN111782710B (zh) 2020-06-30 2020-06-30 数据存储方法、装置、计算设备和介质

Country Status (1)

Country Link
CN (1) CN111782710B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377829A (zh) * 2019-07-24 2019-10-25 中国工商银行股份有限公司 应用于电子设备的功能推荐方法和装置
CN110390465A (zh) * 2019-06-18 2019-10-29 深圳壹账通智能科技有限公司 业务数据的风控分析处理方法、装置和计算机设备
CN110688495A (zh) * 2019-12-09 2020-01-14 武汉中科通达高新技术股份有限公司 一种事件信息的知识图谱模型构建方法、装置、存储介质
CN110716970A (zh) * 2018-06-27 2020-01-21 百度在线网络技术(北京)有限公司 异构数据同构化处理方法、装置、计算机设备及存储介质
US10545982B1 (en) * 2015-04-01 2020-01-28 Palantir Technologies Inc. Federated search of multiple sources with conflict resolution
CN111061859A (zh) * 2019-12-02 2020-04-24 深圳追一科技有限公司 基于知识图谱的数据处理方法、装置和计算机设备
CN111209400A (zh) * 2020-01-03 2020-05-29 北京明略软件系统有限公司 一种数据分析的方法及装置
CN111221785A (zh) * 2018-11-27 2020-06-02 中云开源数据技术(上海)有限公司 一种多源异构数据的语义数据湖构建方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10545982B1 (en) * 2015-04-01 2020-01-28 Palantir Technologies Inc. Federated search of multiple sources with conflict resolution
CN110716970A (zh) * 2018-06-27 2020-01-21 百度在线网络技术(北京)有限公司 异构数据同构化处理方法、装置、计算机设备及存储介质
CN111221785A (zh) * 2018-11-27 2020-06-02 中云开源数据技术(上海)有限公司 一种多源异构数据的语义数据湖构建方法
CN110390465A (zh) * 2019-06-18 2019-10-29 深圳壹账通智能科技有限公司 业务数据的风控分析处理方法、装置和计算机设备
CN110377829A (zh) * 2019-07-24 2019-10-25 中国工商银行股份有限公司 应用于电子设备的功能推荐方法和装置
CN111061859A (zh) * 2019-12-02 2020-04-24 深圳追一科技有限公司 基于知识图谱的数据处理方法、装置和计算机设备
CN110688495A (zh) * 2019-12-09 2020-01-14 武汉中科通达高新技术股份有限公司 一种事件信息的知识图谱模型构建方法、装置、存储介质
CN111209400A (zh) * 2020-01-03 2020-05-29 北京明略软件系统有限公司 一种数据分析的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于知识图谱的人员关系预测方法研究;朱振华;于晓昀;李超;;电脑知识与技术(28);全文 *

Also Published As

Publication number Publication date
CN111782710A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
US10515101B2 (en) Determining clusters of similar activities
CN106254525A (zh) 一种信息推送方法和系统
CN106649331A (zh) 商圈识别方法及设备
CN106202207A (zh) 一种基于HBase‑ORM的索引及检索系统
CN106325756B (zh) 一种数据存储、数据计算方法和设备
CN104679864A (zh) 一种基于gis的嫌疑目标智能跟踪方法和装置
CN104022913B (zh) 用于数据集群的测试方法和装置
CN105550270B (zh) 数据库查询方法和装置
CN102810116B (zh) 一种基于数据库连接的自动路由和负载均衡的方法及系统
JPWO2019069505A1 (ja) 情報処理装置、結合条件生成方法および結合条件生成プログラム
CN104732092A (zh) 一种基于聚类的水文降雨一致区分析方法
US20160370332A1 (en) Generating fine resolution air pollution estimates
CN103049496A (zh) 一种对多个用户进行用户群划分的方法、装置与设备
CN109669995A (zh) 数据存储、质量计算方法、装置、存储介质及服务器
CN106844320B (zh) 一种财务报表整合方法和设备
CN105912601A (zh) 能量管理系统分布式实时内存数据库的分区存储方法
CN112581091A (zh) 公共服务设施的量化评价方法、装置、设备及存储介质
CN115378742A (zh) 一种基于云计算的数据处理方法及装置
CN111782710B (zh) 数据存储方法、装置、计算设备和介质
CN104407970A (zh) 一种新型软件测试用例设计编写方法
US11514062B2 (en) Feature value generation device, feature value generation method, and feature value generation program
CN104050291A (zh) 一种账户余额数据的并行处理方法和系统
CN114022188A (zh) 目标人群圈选方法、装置、设备以及存储介质
CN116611678B (zh) 数据处理方法、装置、计算机设备和存储介质
CN110955743B (zh) 为矢量要素建立空间索引文件的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant