CN115099309A

CN115099309A - 一种为图数据的存储和索引设计代价评估模型的方法

Info

Publication number: CN115099309A
Application number: CN202210598923.6A
Authority: CN
Inventors: 韩珣; 杨曼; 燕钰; 王宏志; 高建杰
Original assignee: Sichuan Police College
Current assignee: Sichuan Police College
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-09-23

Abstract

本发明公开了一种为图数据的存储和索引设计代价评估模型的方法，实现多样化图数据的高效存储索引推荐，可以为不同的图数据应用需求提供个性化的存储和索引推荐，从而帮助用户更好地利用不同数据库的优势，提高查询效率，包括下述步骤：1）特征向量构造，对于不同的数据集和负载，提取数据集和负载的主要特征，并根据存储方案信息，构造包括数据库信息，存储方案，数据集信息和负载信息在内的特征向量；2）训练集生成，根据特征向量生成对应的样本数据，对于每条样本向量映射为对应的数据集和负载到相应的数据库中进行打标签操作，带有负载执行时间的样本则用于构造训练集；3）评估模型设计，利用神经网络构建能够进行主动学习的代价评估模型。

Description

一种为图数据的存储和索引设计代价评估模型的方法

技术领域

本发明涉及图数据处理技术等领域，具体的说，是一种为图数据的存储和索引设计代价评估模型的方法。

背景技术

图数据是具有节点或边等图结构特点的数据，其主要特点为数据集规模通常比较大、数据结构类型多变、应用的场景比较丰富、对于用户来说不同场景下有着不同的查询操作需求。图数据在很多应用和领域变得越来越重要，例如生物数据、知识图谱和社交网络等。随着图数据的逐渐流行扩大和复杂化，如何更高效智能地管理图数据是如今被广泛关注和研究的重点。对于图数据来说，除了原生的图数据库外，在非原生的数据库上的存储也是非常热门的话题，例如对属性图的存储的研究和对RDF数据存储的研究。

而目前主流的单数据模型引擎对于图数据的管理都只能提供部分应用场景上的高效查询性能。以原生的图数据库和关系数据库为例，图数据库因为其独特的图算法优化，使得它在很多图数据处理场景下有较好的性能。然而，很多图数据引擎都因为不够成熟而在实际应用中有着大大小小不同的问题。对关系型数据库来说，依靠其拥有几十年工程积累的优势，可以利用其良好的可拓展性来构建图数据库，但其也不是万能的。本质上是图数据的数据有着高度的关联性，因此在关系数据库中经常会有大量的随机访问，而关系数据库中是靠连接来实现不同数据之间的关联，所以面对应用场景丰富的图数据，在性能方面无法得到保证。

由于图数据在存储方面有各式各样的选择，且对于不同的数据库其特点和优势也不尽相同。所以近年来有一些对图数据的不同数据库的对比评测。例如对Mysql和neo4j分别从成熟度、易用性，灵活性和安全性对原生图数据库和关系数据库做了对比；通过构建的包含维护者、许可证、平台、实现语言、特性、成本、事务性能、内存和磁盘存储、单节点与分布式、基于文本的查询语言支持、内建算法的支持以及所支持的主要遍历和查询风格等内容的评估矩阵，利用有2.56亿条边的合成图上对各种图分析和存储平台进行了测评；还有从数据存储特点数据结构和ACID性质方面对Nosql图数据库的比较。对于不同类型和不同结构的图数据来说，采用不同数据模型进行存储，可以获得更高的查询效率。

现有的对于不同图数据库的对比都没有考虑数据集和负载这些与应用场景密切相关的信息，只是基于数据库层面的系统评估，没有对不同存储方案的评估。且这些对比都是基于人工实现的，没有设计自动化的评估模型。

发明内容

本发明的目的在于提供一种为图数据的存储和索引设计代价评估模型的方法，实现多样化图数据的高效存储索引推荐，通过提取数据和负载的特征进行模型训练，可以为不同的图数据应用需求提供个性化的存储和索引推荐，从而帮助用户更好地利用不同数据库的优势，提高查询效率。

本发明通过下述技术方案实现：一种为图数据的存储和索引设计代价评估模型的方法，包括下述步骤：

1)特征向量构造，对于不同的数据集和负载，提取数据集和负载的主要特征，并根据存储方案信息，构造包括数据库信息，存储方案，数据集信息和负载信息在内的特征向量；

2)训练集生成，根据特征向量生成对应的样本数据集，对于每条样本向量映射为对应的数据集和负载到相应的数据库中进行打标签操作，带有负载执行时间的样本则用于构造训练集；

3)评估模型设计，利用神经网络构建能够进行主动学习的代价评估模型。

进一步的为更好地实现本发明所述的一种为图数据的存储和索引设计代价评估模型的方法，特别采用下述设置方式：所述数据库信息：采用neo4j数据库和titan数据库进行测试，通过one-hot来编码；

所述存储方案：采用数据集的属性的索引信息来描述存储方案，采用二进制形式来编码，0代表该属性没有建立索引，1代表该属性建立索引；当数据集中共有n个属性，则存储方案部分用n+1位来表示，其包括了属性个数以及每一位属性上的索引信息；

所述数据集信息：根据提取的数据集的统计特征构造数据集信息，长度为4，包含节点个数、边个数、节点种类和边的种类信息；

所述负载信息：通过统计每种类型的基本操作在整个负载占据的百分比，并统计所有负载中不同属性出现的频率，据此来表示负载信息。

进一步的为更好地实现本发明所述的一种为图数据的存储和索引设计代价评估模型的方法，特别采用下述设置方式：所述负载分为32种基本操作。

进一步的为更好地实现本发明所述的一种为图数据的存储和索引设计代价评估模型的方法，特别采用下述设置方式：所述步骤2)包括下述具体步骤：

2.1)样本数据生成：统计已有的图数据集的特征，并随机生成一些负载特征和对应的存储方案信息，组合成样本数据集S；

2.2)打标签：根据每条样本数据所表示的数据和相应的存储方案信息将数据存储到对应的数据库中，并执行样本数据中所表示的负载，得到每条样本数据的标签；

2.3)构造训练集，利用样本数据集S中的样本组合新样本，将新样本向量化，形成训练用数据集D；

2.4)训练集预处理：对训练用数据集D的特征进行取整处理，得到新的训练集D’。

进一步的为更好地实现本发明所述的一种为图数据的存储和索引设计代价评估模型的方法，特别采用下述设置方式：所述步骤2.3)的具体步骤为：

2.3.1)对于样本数据集S中的每2个样本数据，当2个向量满足一定条件时，则将2个向量组合构造新样本；

2.3.2)将每条新样本设计为一个定长长度的定长模式。

进一步的为更好地实现本发明所述的一种为图数据的存储和索引设计代价评估模型的方法，特别采用下述设置方式：所述满足一定条件具体为：满足数据集信息相同、负载相同和存储方案不同。

进一步的为更好地实现本发明所述的一种为图数据的存储和索引设计代价评估模型的方法，特别采用下述设置方式：所述新样本的两个特征向量在定长模式下：两个特征向量分别占据一半位置，且实际长度不足设置的定长长度时采用-1进行填充；若第1个特征向量的负载执行时间小于第2个特征向量的负载执行时间，则标签为1，否则标签为0。即标签为1表示第一个存储方案更优，标签为0表示第二个存储方案更优。

进一步的为更好地实现本发明所述的一种为图数据的存储和索引设计代价评估模型的方法，特别采用下述设置方式：所述步骤2.4)具体为：对于节点个数和边的个数，由于单位是M，则相比较节点和边的种类数其取值的变化范围不大，可以直接进行向上取整处理；而对于种类数而言其取值变化范围更大，则进行log处理，使模型更关注其数量级变化。

进一步的为更好地实现本发明所述的一种为图数据的存储和索引设计代价评估模型的方法，特别采用下述设置方式：所述代价评估模型的神经网络采用四层一维卷积神经网络，且该四层一维卷积神经网络的前三层为两个一维卷积层和一个最大池化层，中间三层为两个一维卷积层和一个最大池化层，最后两层为张量层和全连接层。

本发明与现有技术相比，具有以下优点及有益效果：

本发明实现多样化图数据的高效存储索引推荐，可以为不同的图数据应用需求提供个性化的存储和索引推荐，从而帮助用户更好地利用不同数据库的优势，提高查询效率。

本发明采用了深度学习模型实现基于数据集和负载的存储方案的代价评估模型，该模型可以学习与具体应用场景密切相关的数据集和负载的特点，从而更准确地评估不同存储方案的优劣。

本发明实现了对不同存储方案进行评测的代价评估模型:通过提取数据集和负载的特征，以及构造包含这些特征和存储方案信息的特征向量，模型可以从中学习这些比较详细的数据和负载特征与存储之间的联系，从而对不同存储方案进行评估。

本发明利用主动学习减少打标签的开销：通过主动学习的思想在获得一个性能较好的模型和尽可能减小训练集大小之间取得一个平衡，减少了前期构造训练集时收集样本标签的开销；

本发明所生成的代价评估模型可作为对用户进行存储方案推荐时的代价评估工具：目前实现的模型本质是一个二分类器，对于某一个数据集和负载来说，模型可以比较两种存储方案的优劣；当用户期望得到一个存储方案推荐时，该模型可以用来作为扩展时的代价评估模型，决定扩展的方向。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

实施例1：

本发明设计出一种为图数据的存储和索引设计代价评估模型的方法，实现多样化图数据的高效存储索引推荐，可以为不同的图数据应用需求提供个性化的存储和索引推荐，从而帮助用户更好地利用不同数据库的优势，提高查询效率，包括下述步骤：

1)由于输入向量主要由数据集信息、负载信息以及存储方案构成，而不同的存储方案的特征体现在数据库以及存储索引的选择上。因此需要进行数据集特征提取、负载特征提取和存储方案特征提取。作为图数据的特征主要有统计特征和结构特征，其中统计特征包括数据规模、节点个数、边的个数等；结构特征包括节点的种类数、边的种类数、每种节点或边上的属性个数以及属性值等。负载特征主要考虑读写操作、查询的类型(如交互型、分析型和事务型)以及查询涉及的属性信息等。

基于以上情况本发明进行特征向量构造，对于不同的数据集和负载，提取数据集和负载的主要特征，并根据存储方案信息，构造包括数据库信息，存储方案，数据集信息和负载信息在内的特征向量；以便抽取用户提供的数据和负载的详细特征，后续对模型进行训练。

2)训练集生成，根据特征向量生成对应的样本数据，对于每条样本向量映射为对应的数据集和负载到相应的数据库中进行打标签操作，带有负载执行时间的样本则用于构造训练集，以便作为代价评估模型的训练数据集使用；

3)评估模型设计，利用神经网络构建能够进行主动学习的代价评估模型，该代价评估模型经过样本数据的训练，可实现不同存储方案之间的对比。

实施例2：

本实施例是在上述实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明所述的一种为图数据的存储和索引设计代价评估模型的方法，特别采用下述设置方式：所述数据库信息：采用neo4j数据库和titan数据库进行测试，通过one-hot来编码，采用此编码类型的好处是后续方便扩展数据库的个数；

所述存储方案：由于图数据库一般采取在属性上建立索引，因此采用数据集的属性的索引信息来描述存储方案，采用二进制形式来编码，0代表该属性没有建立索引，1代表该属性建立索引；当数据集中共有n个属性，则存储方案部分用n+1位来表示，其包括了属性个数以及每一位属性上的索引信息；

所述负载信息：通过统计每种类型的基本操作在整个负载占据的百分比，并统计所有负载中不同属性出现的频率，据此来表示负载信息；假设数据集中共有n个属性，因为共有32种基本操作，则负载信息部分用32+n位来表示；由于属性的统计信息对索引的建立起到很重要的作用，而索引直接影响负载的执行效率，因此负载和索引是互相作用的；在将负载细分为32种基本操作的基础上，再加上属性的统计信息，可以更详细地描述负载的特点。

实施例3：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明所述的一种为图数据的存储和索引设计代价评估模型的方法，由于代价评估模型中的神经网络本质上是一个二分类器，用于判断对同一数据集和负载来说两种存储方案哪种更好，所以需要对经过测试的数据集进行预处理生成神经网络可用的训练集(即作为代价评估模型的训练数据集使用)，特别采用下述设置方式：所述步骤2)包括下述具体步骤：

2.3)构造训练集，利用样本数据S中的样本组合新样本，将新样本向量化，形成训练用数据集D，其具体步骤为：

2.3.1)对样本数据集S中的每2个样本数据，当2个向量满足以下全部3个条件时：(1)数据集信息相同；(2)负载相同；(3)存储方案不同，则将2个向量组合构造新样本；

2.3.2)为了方便深度神经网络处理数据，将每条新样本设计为一个定长长度的定长模式，优选的长度为400，长度亦可根据实际应用中数据集和负载的特征进行调整；

2.4)训练集预处理：由于数据集D的特征是浮点数表示，为了减小样本空间，加快代价评估模型的训练提升代价评估模型的精度，则对训练用数据集的特征进行取整处理，形成最终的训练数据集D’。

实施例4：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明所述的一种为图数据的存储和索引设计代价评估模型的方法，特别采用下述设置方式：所述新样本的两个特征向量在定长模式下：两个特征向量分别占据一半位置(优选的第一个特征向量占据前半部分长度(即当长度为400时，占据前200个位置，而后200个位置用第二个特征向量赋值))，且实际长度不足设置的定长长度时采用-1进行填充；若第1个特征向量的负载执行时间小于第2个特征向量的负载执行时间，则标签为1，否则标签为0；即标签为1表示第一个存储方案更优，标签为0表示第二个存储方案更优。

实施例5：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明所述的一种为图数据的存储和索引设计代价评估模型的方法，特别采用下述设置方式：所述步骤2.4)具体为：对于节点个数和边的个数，由于单位是M，则相比较节点和边的种类数其取值的变化范围不大，可以直接进行向上取整处理；而对于种类数而言其取值变化范围更大，则进行log处理，使模型更关注其数量级变化。

实施例6：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同部分在此将不再赘述，进一步的为更好地实现本发明所述的一种为图数据的存储和索引设计代价评估模型的方法，特别采用下述设置方式：所述代价评估模型的神经网络采用四层一维卷积神经网络，且该四层一维卷积神经网络的前三层为两个一维卷积层和一个最大池化层，中间三层为两个一维卷积层和一个最大池化层，最后两层为张量层和全连接层。

所述代价评估模型，其核心在于神经网络；所谓主动学习，是指当代价评估模型在当前训练集下的性能指标未达到阈值时，在代价评估模型的学习能力是不差的前提假设下，代价评估模型表现不好的主要原因是没有足够的训练集来帮助模型进行学习，因此需要收集更多的数据来帮助代价评估模型训练。即从样本数据集S中抽取一定比例的样本打标签生成主动学习数据集D”训练模型。

如表1所示为代价评估模型的核心(四层一维卷积神经网络)，采用该神经网络所搭接的代价评估模型可以很好地从输入中提取有效信息，从而不断地学习新知识，进而对存储方案进行更准确地评估。

表1

将最终的训练数据集对代价评估模型进行训练，训练过程中可以根据代价评估模型精度增加新的训练数据来提高代价评估模型的学习能力。对于训练好的代价评估模型，对于用户提供的负载和数据，可以进行对应的存储方案的评估。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种为图数据的存储和索引设计代价评估模型的方法，其特征在于：包括下述步骤：

1）特征向量构造，对于不同的数据集和负载，提取数据集和负载的主要特征，并根据存储方案信息，构造包括数据库信息，存储方案，数据集信息和负载信息在内的特征向量；

2）训练集生成，根据特征向量生成对应的样本数据，对于每条样本向量映射为对应的数据集和负载到相应的数据库中进行打标签操作，带有负载执行时间的样本则用于构造训练集；

3）评估模型设计，利用神经网络构建能够进行主动学习的代价评估模型。

2.根据权利要求1所述的一种为图数据的存储和索引设计代价评估模型的方法，其特征在于：所述数据库信息：采用neo4j数据库和titan数据库进行测试，通过one-hot来编码；

3.根据权利要求2所述的一种为图数据的存储和索引设计代价评估模型的方法，其特征在于：所述负载分为32种基本操作。

4.根据权利要求1或2或3所述的一种为图数据的存储和索引设计代价评估模型的方法，其特征在于：所述步骤2）包括下述具体步骤：

2.1）样本数据生成：统计已有的图数据集的特征，并随机生成一些负载特征和对应的存储方案信息，组合成样本数据集S；

2.2）打标签：根据每条样本数据所表示的数据和相应的存储方案信息将数据存储到对应的数据库中，并执行样本数据中所表示的负载，得到每条样本数据的标签；

2.3）构造训练集，利用样本数据集S中的样本组合新样本，将新样本向量化，形成训练用数据集D；

2.4）训练集预处理：对训练用数据集D的特征进行取整处理，得到新的训练集D’。

5.根据权利要求4所述的一种为图数据的存储和索引设计代价评估模型的方法，其特征在于：所述步骤2.3）的具体步骤为：

2.3.1）对于样本数据集S中的每2个样本数据，当2个向量满足一定条件时，则将2个向量组合构造新样本；

2.3.2）将每条新样本设计为一个定长长度的定长模式。

6.根据权利要求5所述的一种为图数据的存储和索引设计代价评估模型的方法，其特征在于：所述满足一定条件具体为：满足数据集信息相同、负载相同和存储方案不同。

7.根据权利要求5或6所述的一种为图数据的存储和索引设计代价评估模型的方法，其特征在于：所述新样本的两个特征向量在定长模式下：两个特征向量分别占据一半位置，且实际长度不足设置的定长长度时采用-1进行填充；若第1个特征向量的负载执行时间小于第2个特征向量的负载执行时间，则标签为1，否则标签为0。

8.根据权利要求4所述的一种为图数据的存储和索引设计代价评估模型的方法，其特征在于：所述步骤2.4）具体为：对于节点个数和边的个数直接进行向上取整处理；而对于种类数而言其取值变化范围更大，则进行log处理。

9.根据权利要求1~3、5、6、8任一项所述的一种为图数据的存储和索引设计代价评估模型的方法，其特征在于：所述代价评估模型的神经网络采用四层一维卷积神经网络，且该四层一维卷积神经网络的前三层为两个一维卷积层和一个最大池化层，中间三层为两个一维卷积层和一个最大池化层，最后两层为张量层和全连接层。