CN116340577A - 面向高阶关联的超图数据库构建方法及装置 - Google Patents

面向高阶关联的超图数据库构建方法及装置 Download PDF

Info

Publication number
CN116340577A
CN116340577A CN202310257006.6A CN202310257006A CN116340577A CN 116340577 A CN116340577 A CN 116340577A CN 202310257006 A CN202310257006 A CN 202310257006A CN 116340577 A CN116340577 A CN 116340577A
Authority
CN
China
Prior art keywords
data
attribute data
order
constructing
hypergraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310257006.6A
Other languages
English (en)
Inventor
高跃
丰一帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202310257006.6A priority Critical patent/CN116340577A/zh
Publication of CN116340577A publication Critical patent/CN116340577A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种面向高阶关联的超图数据库构建方法及装置,其中,方法包括:将原始数据归为三类基础数据格式,其中,三类基础数据格式包括有序属性数据、无序属性数据和高阶关联结构数据;对无序属性数据进行分类存储,并构建相应哈希函数以将无序属性数据映射成满足预设规整条件的数据进行索引;对有序属性数据进行分类存储,并分别构建B+树进行索引;构建交叉双向链表对高阶关联结构数据进行存储,以联合预设超图神经网络算法对高阶关联结构数据进行统计分析。由此,解决了相关技术中在面对复杂的高阶关联结构时,无法直接存储和分析高阶关联结构,降低了数据库系统的建模和信息挖掘能力,并且降低了图数据库的适用性的问题。

Description

面向高阶关联的超图数据库构建方法及装置
技术领域
本申请涉及数据库技术领域,特别涉及一种面向高阶关联的超图数据库构建方法及装置。
背景技术
图数据库由于其在存储和处理非结构化关联数据上的优异性能,逐渐成为了新一代数据库的中坚力量,相比于传统的关系数据库系统,图数据库有着更高的关联拓展响应速度,更适用于关联分析和预测分析。
相关技术中,目前的图数据库可以存储和分析低阶关联,如:简单图、有向图等,并且在面对复杂的高阶关联结构时,图数据可以通过近似的方式来进行存储。
然而,相关技术中在面对复杂的高阶关联结构时,无法直接存储和分析高阶关联结构,降低了数据库系统的建模和信息挖掘能力,并且降低了图数据库的适用性,亟待解决。
发明内容
本申请提供一种面向高阶关联的超图数据库构建方法及装置,以解决相关技术中在面对复杂的高阶关联结构时,无法直接存储和分析高阶关联结构,降低了数据库系统的建模和信息挖掘能力,并且降低了图数据库的适用性的问题。
本申请第一方面实施例提供一种面向高阶关联的超图数据库构建方法,包括以下步骤:将原始数据归为三类基础数据格式,其中,所述三类基础数据格式包括有序属性数据、无序属性数据和高阶关联结构数据;对所述无序属性数据进行分类存储,并构建相应哈希函数以将所述无序属性数据映射成满足预设规整条件的数据进行索引;对所述有序属性数据进行分类存储,并分别构建B+树进行索引;构建交叉双向链表对所述高阶关联结构数据进行存储,以联合预设超图神经网络算法对所述高阶关联结构数据进行统计分析。
可选地,在本申请的一个实施例中,所述将原始数据归为三类基础数据格式,其中,所述三类基础数据格式包括有序属性数据、无序属性数据和高阶关联结构数据,包括:对所述原始数据进行数据清洗,得到清洗后的数据;从所述清洗后的数据中提取所述有序属性数据、所述无序属性数据和所述高阶关联结构数据。
可选地,在本申请的一个实施例中,所述对所述无序属性数据进行分类存储,并构建相应哈希函数以将所述无序属性数据映射成满足预设规整条件的数据进行索引,包括:根据所述无序属性数据的类型构建所述哈希函数;使用所述哈希函数对所述无序属性数据进行映射。
可选地,在本申请的一个实施例中,所述对所述有序属性数据进行分类存储,并分别构建B+树进行索引,包括:根据所述有序属性数据的类型选择B+树的阶数;针对不同的所述有序属性数据,分别构建B+树进行索引。
可选地,在本申请的一个实施例中,所述构建交叉双向链表对所述高阶关联结构数据进行存储,以联合预设超图神经网络算法对所述高阶关联结构数据进行统计分析,包括:构建节点列表和边列表;根据节点与超边的连接关系生成多个高阶关联存储单元,并与对应的节点进行连接,生成节点的双向链表;基于超边与所述节点的连接关系,将每个超边与对应的高阶关联存储单元进行双向链接,得到高阶关联的双向链表。
可选地,在本申请的一个实施例中,所述构建交叉双向链表对所述高阶关联结构数据进行存储,以联合预设超图神经网络算法对所述高阶关联结构数据进行统计分析,还包括:从超图数据存储结构中选择出感兴趣的节点和超边;从所述高阶关联的双向链表中生成对应的超图关联矩阵;从选择的节点属性中生成节点特征,同时从对应的超边属性中生成超边特征,并生成对应的特征矩阵;根据下游任务构建相应的超图神经网络模型,并将所述超图关联矩阵与节点和超边的特征矩阵输入到所述超图神经网络模型,得到最终的预测分数。
本申请第二方面实施例提供一种面向高阶关联的超图数据库构建装置,包括:归类模块,用于将原始数据归为三类基础数据格式,其中,所述三类基础数据格式包括有序属性数据、无序属性数据和高阶关联结构数据;第一分类存储模块,用于对所述无序属性数据进行分类存储,并构建相应哈希函数以将所述无序属性数据映射成满足预设规整条件的数据进行索引;第二分类存储模块,用于对所述有序属性数据进行分类存储,并分别构建B+树进行索引;构建模块,用于构建交叉双向链表对所述高阶关联结构数据进行存储,以联合预设超图神经网络算法对所述高阶关联结构数据进行统计分析。
可选地,在本申请的一个实施例中,所述归类模块包括:清洗单元,用于对所述原始数据进行数据清洗,得到清洗后的数据;提取单元,用于从所述清洗后的数据中提取所述有序属性数据、所述无序属性数据和所述高阶关联结构数据。
可选地,在本申请的一个实施例中,所述第一分类存储模块包括:第一构建单元,用于根据所述无序属性数据的类型构建所述哈希函数;映射单元,用于使用所述哈希函数对所述无序属性数据进行映射。
可选地,在本申请的一个实施例中,所述第二分类存储模块包括:选择单元,用于根据所述有序属性数据的类型选择B+树的阶数;第二构建单元,用于针对不同的所述有序属性数据,分别构建B+树进行索引。
可选地,在本申请的一个实施例中,所述构建模块包括:第三构建单元,用于构建节点列表和边列表;生成单元,用于根据节点与超边的连接关系生成多个高阶关联存储单元,并与对应的节点进行连接,生成节点的双向链表;链接单元,用于基于超边与所述节点的连接关系,将每个超边与对应的高阶关联存储单元进行双向链接,得到高阶关联的双向链表。
可选地,在本申请的一个实施例中,所述构建模块还包括:选择单元,用于从超图数据存储结构中选择出感兴趣的节点和超边;第一生成单元,用于从所述高阶关联的双向链表中生成对应的超图关联矩阵;第二生成单元,用于从选择的节点属性中生成节点特征,同时从对应的超边属性中生成超边特征,并生成对应的特征矩阵;获取单元,用于根据下游任务构建相应的超图神经网络模型,并将所述超图关联矩阵与节点和超边的特征矩阵输入到所述超图神经网络模型,得到最终的预测分数。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的面向高阶关联的超图数据库构建方法。
本申请第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,该程序被处理器执行时实现如上的面向高阶关联的超图数据库构建方法。
本申请实施例可以将原始数据归为有序属性数据、无序属性数据和高阶关联结构数据三类基础数据格式,对无序属性数据进行分类存储,并构建相应哈希函数以将无序属性数据映射成满足规整条件的数据进行索引,对有序属性数据进行分类存储,并分别构建B+树进行索引,并且构建交叉双向链表对高阶关联结构数据进行存储,以联合超图神经网络算法对高阶关联结构数据进行统计分析,从而有效的提升了数据库系统的建模和信息挖掘能力,并且提升了图数据库的适用性。由此,解决了相关技术中在面对复杂的高阶关联结构时,无法直接存储和分析高阶关联结构,降低了数据库系统的建模和信息挖掘能力,并且降低了图数据库的适用性的问题。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种面向高阶关联的超图数据库构建方法的流程图;
图2为本申请一个具体实施例的面向高阶关联的超图数据库系统的存储的结构示意图;
图3为根据本申请实施例提供的面向高阶关联的超图数据库构建装置的结构示意图;
图4为根据本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的面向高阶关联的超图数据库构建方法及装置。针对上述背景技术中心提到的相关技术中在面对复杂的高阶关联结构时,无法直接存储和分析高阶关联结构,降低了数据库系统的建模和信息挖掘能力,并且降低了图数据库的适用性的问题,本申请提供了一种面向高阶关联的超图数据库构建方法,在该方法中,可以将原始数据归为有序属性数据、无序属性数据和高阶关联结构数据三类基础数据格式,对无序属性数据进行分类存储,并构建相应哈希函数以将无序属性数据映射成满足规整条件的数据进行索引,对有序属性数据进行分类存储,并分别构建B+树进行索引,并且构建交叉双向链表对高阶关联结构数据进行存储,以联合超图神经网络算法对高阶关联结构数据进行统计分析,从而有效的提升了数据库系统的建模和信息挖掘能力,并且提升了图数据库的适用性。由此,解决了相关技术中在面对复杂的高阶关联结构时,无法直接存储和分析高阶关联结构,降低了数据库系统的建模和信息挖掘能力,并且降低了图数据库的适用性的问题。
具体而言,图1为本申请实施例所提供的一种面向高阶关联的超图数据库构建方法的流程示意图。
如图1所示,该面向高阶关联的超图数据库构建方法包括以下步骤:
在步骤S101中,将原始数据归为三类基础数据格式,其中,三类基础数据格式包括有序属性数据、无序属性数据和高阶关联结构数据。
可以理解的是,本申请实施例可以将下述步骤中的原始数据归为有序属性数据、无序属性数据和高阶关联结构数据三类基础数据格式,从而有效的提升面向高阶关联的数据系统的可执行性。
可选地,在本申请的一个实施例中,将原始数据归为三类基础数据格式,其中,三类基础数据格式包括有序属性数据、无序属性数据和高阶关联结构数据,包括:对原始数据进行数据清洗,得到清洗后的数据;从清洗后的数据中提取有序属性数据、无序属性数据和高阶关联结构数据。
在实际执行过程中,本申请实施例可以对原始数据进行清洗,即将特殊字符进行转义,将数据转换到合适的数据类型,从而得到清洗后的数据,并从清洗后的数据中提取有序属性数据、无序属性数据和高阶关联结构数据,进而提升了面向高阶关联的数据系统的存储能力。
例如,本申请实施例可以判断数据是否包含有序属性数据,其中,有序属性数据为一类可排序的数据,如整数、浮点数、字符串等,其中,给定有序数据dataordered={o1,o2,…,on},根据有序数据所定义的规则,每个元素之间支持大小比较,因此,可以有o1≤o2≤o3≤…≤on
又例如,本申请实施例还可以判断数据是否包含无序属性数据,其中,无序属性数据为一类不可排序但可枚举的数据,如整数、浮点数、字符串等,其中,给定无序数据dataunorder={u1,u2,…,um},根据无序数据定义,每个元素间支持判断是否等价。
再例如,本申请实施例还可以判断数据是否包含高阶关联数据,其中,高阶关联数据为一种在若干节点及其上关联群组所构建的超图结构,其中,可以定义高阶关联结构(超图)为:
Figure BDA0004130007510000051
其中,
Figure BDA0004130007510000052
表示节点集合,ε表示超边集合。
其中,
Figure BDA0004130007510000053
ε={e1,e2,…,em}。
进一步地,高阶关联结构中的边可以连接任意多个节点,如,e1={v1,v3,v8,v9},代表e1连接了四个节点分别是v1,v3,v8,v9,从而可以使用关联矩阵H表示一个高阶关联结构,其定义如下:
Figure BDA0004130007510000054
其中,v表示节点,e表示超边。
因此,本申请实施例可以同时存储无序属性数据、有序属性数据和高阶关联数据,大大提升了现有数据库系统数据存储能力。
在步骤S102中,对无序属性数据进行分类存储,并构建相应哈希函数以将无序属性数据映射成满足预设规整条件的数据进行索引。
可以理解的是,本申请实施例可以对下述步骤中的无序属性数据进行分类存储,并构建相应哈希函数以将无序属性数据映射成满足规整条件的数据进行索引,从而可以提升数据系统的适用性。
可选地,在本申请的一个实施例中,对无序属性数据进行分类存储,并构建相应哈希函数以将无序属性数据映射成满足预设规整条件的数据进行索引,包括:根据无序属性数据的类型构建哈希函数;使用哈希函数对无序属性数据进行映射。
举例而言,如图2所示,本申请实施例可以根据上述步骤中清洗后的数据中提取的无序属性数据的类型构建哈希函数,并且使用构建的哈希函数对无序属性数据进行映射,以保证数据可以充分利用。
在步骤S103中,对有序属性数据进行分类存储,并分别构建B+树进行索引。
可以理解的是,本申请实施例可以对下述步骤中的有序属性数据进行分类存储,并分别构建B+树进行索引,从而可以提升数据系统的适用性。
可选地,在本申请的一个实施例中,对有序属性数据进行分类存储,并分别构建B+树进行索引,包括:根据有序属性数据的类型选择B+树的阶数;针对不同的有序属性数据,分别构建B+树进行索引。
例如,如图2所示,本申请实施例可以根据有序属性数据的类型选择B+树的阶数m,并且根据不同的有序属性数据,分别构建B+树进行索引,从而有效的提升了数据利用的充分性。
在步骤S104中,构建交叉双向链表对高阶关联结构数据进行存储,以联合预设超图神经网络算法对高阶关联结构数据进行统计分析。
可以理解的是,本申请实施例可以构建下述步骤中的交叉双向链表对高阶关联结构数据进行存储,以联合超图神经网络算法对高阶关联结构数据进行统计分析,从而有效的提升了数据库系统数据存储和建模能力,并且提升面向高阶关联数据的模型的训练速度和推理速度。
可选地,在本申请的一个实施例中,构建交叉双向链表对高阶关联结构数据进行存储,以联合预设超图神经网络算法对高阶关联结构数据进行统计分析,包括:构建节点列表和边列表;根据节点与超边的连接关系生成多个高阶关联存储单元,并与对应的节点进行连接,生成节点的双向链表;基于超边与节点的连接关系,将每个超边与对应的高阶关联存储单元进行双向链接,得到高阶关联的双向链表。
举例而言,本申请实施例可以构建节点列表和边列表,在对原始数据进行预处理后,节点列表和边列表分别定义为listv={v1,v2,…,vn}和liste={e1,e2,…,em}。
进一步地,本申请实施例可以根据节点与超边的连接关系生成若干高阶关联存储单元,并与对应的节点进行连接,生成节点的双向链表,根据构建出的节点列表、超边列表和超图关联矩阵计算出所需高阶关联存储单元的个数,其与超图关联矩阵中非0元素的个数保持一致,如图2所示,为高阶关联存储单元的设计,由四个指针和一个数据位组成,其中,四个指针分别指向上一个节点、下一个节点、上一个超边和下一个超边。
进一步地,如图2所示,本申请实施例可以根据超边与节点的连接关系,将每个超边与对应的高阶关联存储单元进行双向链接,每个节点和超边都直接指向其相邻的超边和节点,通过这样的结构进行高阶关联的存储可以实现常数级别的近邻数据的检索。
可选地,在本申请的一个实施例中,构建交叉双向链表对高阶关联结构数据进行存储,以联合预设超图神经网络算法对高阶关联结构数据进行统计分析,还包括:从超图数据存储结构中选择出感兴趣的节点和超边;从高阶关联的双向链表中生成对应的超图关联矩阵;从选择的节点属性中生成节点特征,同时从对应的超边属性中生成超边特征,并生成对应的特征矩阵;根据下游任务构建相应的超图神经网络模型,并将超图关联矩阵与节点和超边的特征矩阵输入到超图神经网络模型,得到最终的预测分数。
作为一种可能实现的方式,本申请实施例可以从超图数据存储结构中选择出感兴趣的节点和超边,从高阶关联的双向链表中生成对应的超图关联矩阵H,从选择的节点属性中生成节点特征,同时从对应的超边属性中生成超边特征,并生成对应的特征矩阵X和Y,根据下游任务构建相应的超图神经网络模型,并将构建的超图关联矩阵与节点和超边的特征矩阵输入到超图神经网络模型得到最终的预测分数。
其中,超图神经卷积层定义如下:
Figure BDA0004130007510000071
综上,如图2的所示,本申请实施例可以同时存储无序属性数据、有序属性数据、低阶关联数据和高阶关联数据,并且通过融合高阶关联的存储与分析,通过设计面向特定任务的超图神经网络模型,使得数据系统可以实现面向高阶关联数据的更高效的建模和分析能力。
根据本申请实施例提出的面向高阶关联的超图数据库构建方法,可以将原始数据归为有序属性数据、无序属性数据和高阶关联结构数据三类基础数据格式,对无序属性数据进行分类存储,并构建相应哈希函数以将无序属性数据映射成满足规整条件的数据进行索引,对有序属性数据进行分类存储,并分别构建B+树进行索引,并且构建交叉双向链表对高阶关联结构数据进行存储,以联合超图神经网络算法对高阶关联结构数据进行统计分析,从而有效的提升了数据库系统的建模和信息挖掘能力,并且提升了图数据库的适用性。由此,解决了相关技术中在面对复杂的高阶关联结构时,无法直接存储和分析高阶关联结构,降低了数据库系统的建模和信息挖掘能力,并且降低了图数据库的适用性的问题。
其次参照附图描述根据本申请实施例提出的面向高阶关联的超图数据库构建装置。
图3是本申请实施例的面向高阶关联的超图数据库构建装置的方框示意图。
如图3所示,该面向高阶关联的超图数据库构建装置10包括:归类模块100、第一分类存储模块200、第二分类存储模块300和构建模块400。
具体地,归类模块100,用于将原始数据归为三类基础数据格式,其中,三类基础数据格式包括有序属性数据、无序属性数据和高阶关联结构数据。
第一分类存储模块200,用于对无序属性数据进行分类存储,并构建相应哈希函数以将无序属性数据映射成满足预设规整条件的数据进行索引。
第二分类存储模块300,用于对有序属性数据进行分类存储,并分别构建B+树进行索引。
构建模块400,用于构建交叉双向链表对高阶关联结构数据进行存储,以联合预设超图神经网络算法对高阶关联结构数据进行统计分析。
可选地,在本申请的一个实施例中,归类模块100包括:清洗单元和提取单元。
其中,清洗单元,用于对原始数据进行数据清洗,得到清洗后的数据。
提取单元,用于从清洗后的数据中提取有序属性数据、无序属性数据和高阶关联结构数据。
可选地,在本申请的一个实施例中,第一分类存储模块200包括:第一构建单元和映射单元。
其中,第一构建单元,用于根据无序属性数据的类型构建哈希函数。
映射单元,用于使用哈希函数对无序属性数据进行映射。
可选地,在本申请的一个实施例中,第二分类存储模块300包括:选择单元和第二构建单元。
其中,选择单元,用于根据有序属性数据的类型选择B+树的阶数。
第二构建单元,用于针对不同的有序属性数据,分别构建B+树进行索引。
可选地,在本申请的一个实施例中,构建模块400包括:第三构建单元、生成单元和链接单元。
其中,第三构建单元,用于构建节点列表和边列表。
生成单元,用于根据节点与超边的连接关系生成多个高阶关联存储单元,并与对应的节点进行连接,生成节点的双向链表。
链接单元,用于基于超边与节点的连接关系,将每个超边与对应的高阶关联存储单元进行双向链接,得到高阶关联的双向链表。
可选地,在本申请的一个实施例中,构建模块400还包括:选择单元、第一生成单元、第二生成单元和获取单元。
其中,选择单元,用于从超图数据存储结构中选择出感兴趣的节点和超边。
第一生成单元,用于从高阶关联的双向链表中生成对应的超图关联矩阵。
第二生成单元,用于从选择的节点属性中生成节点特征,同时从对应的超边属性中生成超边特征,并生成对应的特征矩阵。
获取单元,用于根据下游任务构建相应的超图神经网络模型,并将超图关联矩阵与节点和超边的特征矩阵输入到超图神经网络模型,得到最终的预测分数。
需要说明的是,前述对面向高阶关联的超图数据库构建方法实施例的解释说明也适用于该实施例的面向高阶关联的超图数据库构建装置,此处不再赘述。
根据本申请实施例提出的面向高阶关联的超图数据库构建装置,可以将原始数据归为有序属性数据、无序属性数据和高阶关联结构数据三类基础数据格式,对无序属性数据进行分类存储,并构建相应哈希函数以将无序属性数据映射成满足规整条件的数据进行索引,对有序属性数据进行分类存储,并分别构建B+树进行索引,并且构建交叉双向链表对高阶关联结构数据进行存储,以联合超图神经网络算法对高阶关联结构数据进行统计分析,从而有效的提升了数据库系统的建模和信息挖掘能力,并且提升了图数据库的适用性。由此,解决了相关技术中在面对复杂的高阶关联结构时,无法直接存储和分析高阶关联结构,降低了数据库系统的建模和信息挖掘能力,并且降低了图数据库的适用性的问题。
图4为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序。
处理器402执行程序时实现上述实施例中提供的面向高阶关联的超图数据库构建方法。
进一步地,电子设备还包括:
通信接口403,用于存储器401和处理器402之间的通信。
存储器401,用于存放可在处理器402上运行的计算机程序。
存储器401可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器401、处理器402和通信接口403独立实现,则通信接口403、存储器401和处理器402可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,在具体实现上,如果存储器401、处理器402及通信接口403,集成在一块芯片上实现,则存储器401、处理器402及通信接口403可以通过内部接口完成相互间的通信。
处理器402可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的面向高阶关联的超图数据库构建方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种面向高阶关联的超图数据库构建方法,其特征在于,包括以下步骤:
将原始数据归为三类基础数据格式,其中,所述三类基础数据格式包括有序属性数据、无序属性数据和高阶关联结构数据;
对所述无序属性数据进行分类存储,并构建相应哈希函数以将所述无序属性数据映射成满足预设规整条件的数据进行索引;
对所述有序属性数据进行分类存储,并分别构建B+树进行索引;以及
构建交叉双向链表对所述高阶关联结构数据进行存储,以联合预设超图神经网络算法对所述高阶关联结构数据进行统计分析。
2.根据权利要求1所述的方法,其特征在于,所述将原始数据归为三类基础数据格式,其中,所述三类基础数据格式包括有序属性数据、无序属性数据和高阶关联结构数据,包括:
对所述原始数据进行数据清洗,得到清洗后的数据;
从所述清洗后的数据中提取所述有序属性数据、所述无序属性数据和所述高阶关联结构数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述无序属性数据进行分类存储,并构建相应哈希函数以将所述无序属性数据映射成满足预设规整条件的数据进行索引,包括:
根据所述无序属性数据的类型构建所述哈希函数;
使用所述哈希函数对所述无序属性数据进行映射。
4.根据权利要求1所述的方法,其特征在于,所述对所述有序属性数据进行分类存储,并分别构建B+树进行索引,包括:
根据所述有序属性数据的类型选择B+树的阶数;
针对不同的所述有序属性数据,分别构建B+树进行索引。
5.根据权利要求1所述的方法,其特征在于,所述构建交叉双向链表对所述高阶关联结构数据进行存储,以联合预设超图神经网络算法对所述高阶关联结构数据进行统计分析,包括:
构建节点列表和边列表;
根据节点与超边的连接关系生成多个高阶关联存储单元,并与对应的节点进行连接,生成节点的双向链表;
基于超边与所述节点的连接关系,将每个超边与对应的高阶关联存储单元进行双向链接,得到高阶关联的双向链表。
6.根据权利要求5所述的方法,其特征在于,所述构建交叉双向链表对所述高阶关联结构数据进行存储,以联合预设超图神经网络算法对所述高阶关联结构数据进行统计分析,还包括:
从超图数据存储结构中选择出感兴趣的节点和超边;
从所述高阶关联的双向链表中生成对应的超图关联矩阵;
从选择的节点属性中生成节点特征,同时从对应的超边属性中生成超边特征,并生成对应的特征矩阵;
根据下游任务构建相应的超图神经网络模型,并将所述超图关联矩阵与节点和超边的特征矩阵输入到所述超图神经网络模型,得到最终的预测分数。
7.一种面向高阶关联的超图数据库构建装置,其特征在于,包括:
归类模块,用于将原始数据归为三类基础数据格式,其中,所述三类基础数据格式包括有序属性数据、无序属性数据和高阶关联结构数据;
第一分类存储模块,用于对所述无序属性数据进行分类存储,并构建相应哈希函数以将所述无序属性数据映射成满足预设规整条件的数据进行索引;
第二分类存储模块,用于对所述有序属性数据进行分类存储,并分别构建B+树进行索引;以及
构建模块,用于构建交叉双向链表对所述高阶关联结构数据进行存储,以联合预设超图神经网络算法对所述高阶关联结构数据进行统计分析。
8.根据权利要求7所述的装置,其特征在于,所述归类模块包括:
清洗单元,用于对所述原始数据进行数据清洗,得到清洗后的数据;
提取单元,用于从所述清洗后的数据中提取所述有序属性数据、所述无序属性数据和所述高阶关联结构数据。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-6任一项所述的面向高阶关联的超图数据库构建方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-6任一项所述的面向高阶关联的超图数据库构建方法。
CN202310257006.6A 2023-03-08 2023-03-08 面向高阶关联的超图数据库构建方法及装置 Pending CN116340577A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310257006.6A CN116340577A (zh) 2023-03-08 2023-03-08 面向高阶关联的超图数据库构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310257006.6A CN116340577A (zh) 2023-03-08 2023-03-08 面向高阶关联的超图数据库构建方法及装置

Publications (1)

Publication Number Publication Date
CN116340577A true CN116340577A (zh) 2023-06-27

Family

ID=86887125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310257006.6A Pending CN116340577A (zh) 2023-03-08 2023-03-08 面向高阶关联的超图数据库构建方法及装置

Country Status (1)

Country Link
CN (1) CN116340577A (zh)

Similar Documents

Publication Publication Date Title
Cao et al. Data mining for business applications
CN112650923A (zh) 新闻事件的舆情处理方法及装置、存储介质、计算机设备
US20120209855A1 (en) Bit-string key classification/distribution apparatus, classification/distribution method, and program
JPH03156572A (ja) 論理回路比較検証システムおよび方法
CN104021161A (zh) 一种聚簇存储方法及装置
JP2004503849A (ja) 電子データを整理する方法および装置
CN114153839B (zh) 多源异构数据的集成方法、装置、设备及存储介质
CN111159184A (zh) 元数据追溯方法、装置及服务器
CN111930797A (zh) 不确定周期性频繁项集挖掘方法及装置
CN112997200A (zh) 用于编码分类的混合机器学习模型
EP3955256A1 (en) Non-redundant gene clustering method and system, and electronic device
CN113268528A (zh) 面向传感数据的多概率阈值频繁项集挖掘方法及装置
JPH0785244B2 (ja) 対角交換連想ル−プメモリを利用した知識検索人口知能システム
Punera et al. Enhanced hierarchical classification via isotonic smoothing
CN115130601A (zh) 基于多维特征融合的二阶段学术数据网页分类方法及系统
CN103699653A (zh) 数据聚类方法和装置
CN109635955A (zh) 一种特征组合方法、装置及设备
CN116166850A (zh) 基于蓝绿树数据结构的事件匹配方法及系统
CN116340577A (zh) 面向高阶关联的超图数据库构建方法及装置
CN115238075B (zh) 一种基于超图池化的文本情感分类方法
Jo et al. Data mining in intelligent SSD: Simulation-based evaluation
CN111598239B (zh) 一种基于图神经网络提取文章的过程体系的方法和装置
Wen et al. Computing k-cores in large uncertain graphs: An index-based optimal approach
CN109740249B (zh) 一种mux树逻辑结构优化方法、模块及存储介质
CN114385845A (zh) 基于图聚类的影像分类管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination