CN114238268A

CN114238268A - 一种数据存储方法和装置

Info

Publication number: CN114238268A
Application number: CN202111450610.8A
Authority: CN
Inventors: 余志壮; 张雄彪; 熊纯; 李显锋; 张永强
Original assignee: Wuhan Dayun Data Technology Co ltd
Current assignee: Wuhan Dayun Data Technology Co ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-25
Anticipated expiration: 2041-11-29
Also published as: CN114238268B

Abstract

本发明涉及计算机技术领域，提供了一种数据存储方法和装置。其中计算目标数据的数据复杂度；根据目标数据的数据复杂度，判断将目标数据存储到关系数据库还是图数据库中；若确定将目标数据存储到关系数据库，则将目标数据以二维数据表的形式存储到关系数据库中；若确定将目标数据存储到图数据库，则将目标数据以图的形式存储到图数据库中。本发明能够存储多种类型的数据，包括关系数据和非关系数据，并能够根据数据的特性将数据存储到合适的数据库中，以提高数据的读写效率。

Description

一种数据存储方法和装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种数据存储方法和装置。

背景技术

在计算机技术领域中，关系数据库和图数据库是目前主流的两大数据库类型，其中，关系数据库以SQL Server、Oracle为代表，通常以二维数据表的形式存储数据，由于关系数据库本身的存储结构特性，使关系数据库具有了数据结构化、易于集中管理、易于扩充和易于使用等优点。而图数据库以Neo4j为代表，通常以图的方式存储数据，图中以节点和边分别代表实体和关系，这使得图数据库在关系数据的存储方面具有可面向对象存储、可存储大量关系复杂的数据、取用灵活快捷等优点。

由上可知，关系数据库适合存储结构化数据，而图数据库更适用于存储关系数据。由于关系数据库发展历史较久，在长期的发展下其功能已相对完善，且维护方便，性能也相对稳定，而图数据的出现仅仅是2000年左右，其功能仍不完善，使用方式较复杂，维护不方便，性能的稳定性还不及关系数据库。

在实际的应用情况中，往往会出现既需要存储多种类型的数据的情况，其中可能既包含关系数据，也包含非关系数据，此时，若不考虑数据的特性，而选择使用关系数据库或图数据库的其中一种存储数据，可能会将大量非关系数据存储到图数据库中，或将大量关系较复杂的数据存储到了关系数据库中，由此造成数据读写效率低下的问题。

鉴于此，克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。

发明内容

本发明要解决的技术问题是克服现有技术下，需要存储多种类型的数据时，无法根据数据的特性选择将数据存储到关系数据库中或图数据库中的问题。

本发明采用如下技术方案：

第一方面，本发明提供了一种数据存储方法，包括：

计算目标数据的数据复杂度；

根据目标数据的数据复杂度，判断将目标数据存储到关系数据库还是图数据库中；

若确定将目标数据存储到关系数据库，则将目标数据以二维数据表的形式存储到关系数据库中；若确定将目标数据存储到图数据库，则将目标数据以图的形式存储到图数据库中。

优选的，所述计算目标数据的数据复杂度，具体包括：

找到所述目标数据中的用于表征实体的字段，根据所述字段确定目标数据中所包含的实体，若所述目标数据中不包含实体或仅包含一个实体，或所述目标数据中包含多个实体，但多个实体都属于同一类型的实体，则所述目标数据的数据复杂度为第一复杂度；

若所述目标数据中包含多个实体，且多个实体中至少存在一个实体的类型与其他实体的类型不同，则根据所述目标数据中不同类型的实体建立不同的基础实体，其中，根据一种类型的实体建立一个基础实体，判断所建立的基础实体间是否存在关系，若不存在关系，则目标数据的数据复杂度为第一复杂度；否则，找到基础实体间的一段或多段关系，并对每一段关系分别预设一个分值，将所有关系的分值相加，得到所述目标数据的数据复杂度。

优选的，所述根据目标数据的数据复杂度，判断将目标数据存储到关系数据库还是图数据库中，具体包括：

当所述目标数据的数据复杂度小于第二复杂度时，则将所述目标数据存储到关系数据库中；当所述目标数据的数据复杂度大于第三复杂度时，则将所述目标数据存储到图数据库中；当所述目标数据的数据复杂度大于等于第二复杂度且小于等于第三复杂度时，则根据所述目标数据的总数据量大小判断将目标数据存储到关系数据库还是图数据库中。

优选的，所述根据目标数据的总数据量大小判断将目标数据存储到关系数据库还是图数据库中，具体包括：

根据所述目标数据的总数据量大小和目标数据的数据复杂度，预测使用关系数据库存储目标数据时读写目标数据中的全部记录所花费的第一读写时间，以及使用图数据库存储目标数据时读写目标数据中的全部记录的第二读写时间，若所述第一读写时间小于等于第二读写时间，或第一读写时间超出第二读写时间的部分小于预设时间，则将所述目标数据存储到关系数据库中，否则将所述目标数据存储到图数据库中。

优选的，将目标数据以二维数据表的形式存储到关系数据库中，具体包括：

若所述目标数据的总数据量大小超过预设大小，或目标数据中的大字段的数量超出预设数量，则将目标数据存储到单独的数据表中，否则，将目标数据存储到通用存储结构中，所述通用存储结构用于存储多种类型的数据。

优选的，所述将目标数据存储到通用存储结构中，具体包括：

所述通用存储结构将目标数据中的实体与关系分别存储，所述通用存储结构至少包括实体数据表和关系数据表，将目标数据中包含的实体存储到实体数据表中，根据目标数据中包含的实体得到实体间关系，将实体间关系存储到关系数据表中，并在关系数据表中存储存在关系的实体的ID。

优选的，所述方法还包括，根据目标数据的使用情况，判断是否迁移目标数据，具体包括：

记录预设周期内用户读写目标数据的次数和每次读写目标数据所花费的时间，根据所述用户读写目标数据的次数和每次读写目标数据所花费的时间计算得出预设周期内的目标数据的使用系数，根据所述目标数据的使用系数，判断是否将目标数据从关系数据库迁移到图数据库中，或将目标数据从图数据库中迁移到关系数据库中。

优选的，所述根据目标数据的使用系数和目标数据的数据复杂度，判断是否将目标数据从关系数据库迁移到图数据库中，或将目标数据从图数据库中迁移到关系数据库中，具体包括：

若所述目标数据存储在关系数据库中，且目标数据的使用系数超过第一预设系数，则将目标数据迁移到图数据库中，否则，不迁移目标数据；若所述目标数据存储在图数据库中，且目标数据的使用系数低于第二预设系数，则将目标数据迁移到关系数据库中，否则，不迁移目标数据。

优选的，所述将目标数据以图的形式存储到图数据库中，具体包括：

根据所述目标数据的类型，在图数据库中查找是否存在用于存储目标数据的图，若存在，则将目标数据存储到所述图中，否则，在图数据库中创建用于存储目标数据的图，将目标数据存储到所述图中。

第二方面，本发明提供了一种数据存储装置，用于实现第一方面所述的数据存储方法，所述装置包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，用于执行第一方面所述的数据存储方法。

第三方面，本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，用于完成第一方面所述的数据存储方法。

本发明具有以下有益效果：

本发明提供了一种数据存储方法，本方法能够存储多种类型的数据，包括关系数据和非关系数据，并能够根据数据的特性将数据存储到合适的数据库中，以提高数据的读写效率，并且，在优选的方法中，还能够根据数据的实际使用情况调整数据的存储位置，以优化数据的使用和维护。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据存储方法的流程图；

图2是本发明实施例提供的一种数据存储方法的流程图；

图3是本发明实施例提供的一种数据存储方法的流程图；

图4是本发明实施例提供的一种目标数据的示意图；

图5是本发明实施例提供的一种根据基础实体建立的实体关系图；

图6是本发明实施例提供的一种关系分值表图；

图7是本发明实施例提供的一种将目标数据存储到关系数据库的流程图；

图8是本发明实施例提供的SQL Server的数据读写时间曲线；

图9是本发明实施例提供的Neo4j的数据读写时间曲线；

图10是本发明实施例提供的一种通用存储结构中的实体数据表；

图11是本发明实施例提供的一种通用存储结构中的关系数据表；

图12是本发明实施例提供的一种通用存储结构中的属性表；

图13是本发明实施例提供的一种通用存储结构中的实体类型表；

图14是本发明实施例提供的一种通用存储结构中的关系类型表；

图15是本发明实施例提供的一种将目标数据存储到图数据库中所生成的图；

图16是本发明实施例提供的一种数据存储装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明的描述中，术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作，因此不应当理解为对本发明的限制。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1:

本发明实施例1提供了一种数据存储方法，所述方法如图1所示，包括：

在步骤201中，计算目标数据的数据复杂度。

其中，目标数据是待存储的数据，目标数据可以是多种类型的数据，如日志数据、通话话单数据、身份信息数据等，所述数据复杂度是指由目标数据所生成的实体关系图的复杂程度，所述实体关系图的复杂程度能够在一定程度上反映目标数据是否是关系数据。

关系数据中通常包含多个实体，并且多个实体间存在关系，所述多个实体间存在关系主要指在多个实体当中的两个实体之间存在关联，如：在多个实体中包含父亲实体和儿子实体，两个实体间的关系为父子关系，则所述多个实体间存在关系。

实体关系图便是从关系数据中抽取实体和实体之间的关系所建立的图。

具体包括：找到目标数据中的实体数据，根据实体数据判断目标数据中所包含实体的数量和实体的种类，若目标数据中不包含实体或仅所包含的实体的种类仅为一类，则所述目标数据的复杂度为第一复杂度，若目标数据中包含多实体，则判断所述多类实体间是否存在关系，若存在关系，则所述目标数据的复杂度设置为大于第一复杂度的任意值。

其中，第一复杂度是由本领域技术人员根据经验预先设置的，通常将第一复杂度设置为0，所述大于第一复杂度的任意值为1。

在步骤202中，根据目标数据的数据复杂度，判断将目标数据存储到关系数据库还是图数据库中。

由于关系数据库适合存储结构化数据，而图数据库适合存储关系数据，故根据目标数据的数据复杂度判断目标数据是否是关系数据，若目标数据是关系数据，则将目标数据存储到图数据库中，否则，存储到关系数据库中。

具体包括：当目标数据的数据复杂度为第一复杂度时，认为目标数据不是关系数据，将目标数据存储到关系数据库中，若目标数据的数据复杂度大于第一复杂度时，则认为目标数据是关系数据，将目标数据存储到图数据库中。

在步骤203中，若确定将目标数据存储到关系数据库，则将目标数据以二维数据表的形式存储到关系数据库中；若确定将目标数据存储到图数据库，则将目标数据以图的形式存储到图数据库中。

由于目标数据可能以多种形式存在，如json形式的数据、文本形式数据等，想要将目标数据存储到相应的数据库中，需要将目标数据以相应的数据库指定形式存储，即在关系数据库中以二维数据表的形式存储，在图数据库中以图的形式存储。

本实施例通过判断目标数据是否是关系数据，将关系数据存储到图数据库中，将非关系数据存储到关系数据库中，在提供了一种存储多种类型的数据的方法的同时，避免了因存储的数据库不当而带来的读写效率低下问题。

在实际使用情况中，并非绝对地将关系数据存储到图数据库中，而将非关系数据存储到图数据库中，因为关系数据库在存储少量的简单的关系数据时，其数据读写效率与图数据库的数据读写效率差距不大，且又由于关系数据库的稳定性和操作简单、易于维护的特性，将少量的简单的关系数据存储在关系数据库中甚至能够带来更多的优点，在一些情况下，为了保证使用目标数据的程序的稳健性，用户往往会为了目标数据的读写的稳定性和维护的便利性而牺牲部分读写效率，结合本实施例，存在以下优选的实现方式，如图2所示，具体包括：

在步骤301中，找到目标数据中的用于表征实体的字段，根据所述字段确定目标数据中所包含的实体，若目标数据中不包含实体或仅包含一个实体，或目标数据中包含多个实体，但多个实体都属于同一类型的实体，则目标数据的数据复杂度为第一复杂度；

当目标数据的复杂度为第一复杂度时，表明目标数据不是关系数据。

在步骤302中，若目标数据中包含多个实体，且多个实体中至少存在一个实体的类型与其他实体的类型不同，则根据目标数据中不同类型的实体建立不同的基础实体，其中，根据一种类型的实体建立一个基础实体，判断所建立的基础实体间是否存在关系，若不存在关系，则目标数据的数据复杂度为第一复杂度；否则，找到基础实体间的一段或多段关系，并针对每一段关系，根据关系的类型预设分值，将所有关系的分值相加，得到目标数据的数据复杂度。

其中，一个用于表征实体的字段表征一种类型的实体，当有多个用于表征实体的字段时，目标数据中包含多个实体且每个实体的类型不同，当有且仅有一个表征实体的字段时，目标数据中可能包含一个实体或多个实体，但所述一个或多个实体的类型相同；

所述基础实体是不带有任何属性的实体，每个基础实体代表一种类型的实体，所建立的基础实体间存在关系是指所建立的多个基础实体中至少有两个基础实体之间存在关系，基础实体间的一段或多段关系是指在多个基础实体当中，若只有两个基础实体间存在关系，则为一段关系，将存在关系的两个基础实体称为基础实体对，若多个基础实体中存在多个基础实体对，则关系的数量等于基础实体对的数量，一个基础实体能够出现在多个基础实体对中，说明该基础实体与多个基础实体分别存在关系。

以目标数据中的所有类型的实体所建立的基础实体间的关系能够反映目标数据中所有关系的类型，以及各种类型的关系的数量比例。每一段关系对应一个分值，所述分值根据关系的类型确定，同类型的关系的分值相同，不同类型的关系的分值可以相同也可以不同。

由此计算得出的目标数据的数据复杂度能够在一定程度上反应目标数据的关系的复杂程度。

在步骤303中，当目标数据的数据复杂度小于第二复杂度时，则将所述目标数据存储到关系数据库中；当目标数据的数据复杂度大于第三复杂度时，则将所述目标数据存储到图数据库中；当所述目标数据的数据复杂度大于等于第二复杂度且小于等于第三复杂度时，则根据目标数据的总数据量大小判断将目标数据存储到关系数据库还是图数据库中。

其中，第二复杂度、第三复杂度是由本领域技术人员根据经验分析得出的，第三复杂度大于第二复杂度，第二复杂度大于等于第一复杂度。

当目标数据的数据复杂度低于第二复杂度时，则认为目标数据的关系极为简单或目标数据不是关系数据，将目标数据存储到关系数据库中具有更快或与图数据库相当的读写效率，故将目标数据存储到关系数据库中更具优势；当目标数据的数据复杂度高于第三复杂度时，则认为目标数据的关系较复杂，若将目标数据存储到关系数据库中将会使目标数据的读写速率大大降低，用这样的牺牲来换取读写的稳定性和维护的便利性是不可接受的，将目标数据存储到图数据库中更具有优势；当目标数据的复杂度大于等于第二复杂度且小于等于第三复杂度，即位于第二复杂度和第三复杂度之间时，认为按照目前的目标数据的数据复杂度，无法断言将目标数据存储到关系数据库中还是图数据库中更具优势，则再判断目标数据的总数据量大小，根据总数据量大小判断将目标数据存储到关系数据库中还是图数据库中。

在步骤304中，根据目标数据的总数据量大小和目标数据的数据复杂度，预测使用关系数据库存储目标数据时读写目标数据中的全部记录所花费的第一读写时间，以及使用图数据库存储目标数据时读写目标数据中的全部记录的第二读写时间，若第一读写时间小于等于第二读写时间，或第一读写时间超出第二读写时间的部分小于预设时间，则将目标数据存储到关系数据库中，否则将目标数据存储到图数据库中。

其中，目标数据的总数据量大小可以是将目标数据存储到存储介质中时所占用的字节数，也可以是目标数据中记录的条数。所述预设时间由本领域技术人员根据目标数据的使用要求设置的，不同类型的目标数据可以有相同的预设时间，也可以有不同的预设时间。本实施例中的读写效率是指读写目标数据的全部记录时的效率，在此使用读写时间来反映读写效率，读写时间越长，读写效率越低。预测第一读写时间具体包括：根据关系数据库的读写时间受数据复杂度影响的程度及受数据量大小影响的程度不同，找到关系数据库的读写时间受时间复杂度影响的规律和受数据量大小影响的规律，并由此结合目标数据的数据复杂度和总数据量大小预测第一读写时间。

本优选实施例在判断目标数据是否是关系数据的基础上，通过在目标数据的数据复杂度的计算中引入关系的数量和关系的类别，从而得出更加精准地能够反映目标数据的关系的复杂程度的数据复杂度，同时又通过引入了目标数据的数据量大小这一指标，通过预测目标数据存储在关系数据库中还是图数据中更具优势，找到最适合存储目标数据的数据库。

将目标数据存储到图数据库中具体包括：

根据目标数据的类型，在图数据库中查找是否存在用于存储目标数据的图，若存在，则将目标数据存储到所述图中，否则，在图数据库中创建用于存储目标数据的图，将目标数据存储到所述图中。

当以图的形式存储数据时，将一种类型的数据存储到一张图中，能够避免数据的混杂，使后续的数据读写更为方便。

将目标数据存储到关系数据库中具体包括：

若目标数据的总数据量大小超过预设大小，或目标数据中的大字段的数量超出预设数量，则将目标数据存储到单独的数据表中，否则，将目标数据存储到通用存储结构中，所述通用存储结构用于存储多种类型的数据。

通用存储结构用于将不同类型的数据按照同一格式存储到同一张数据表或几张数据表，而不必为每一种类型的数据分配单独的数据表，以防止数据库中数据表的数量过多而造成维护困难。

由于通用存储结构中存储有多种类型的数据，故当目标数据的总数据量大小过大时，将目标数据存储到单独的数据表中，而不与其他数据混合存储在通用存储结构中，能够在读写数据时只读取目标数据所在的数据表，而不必遍历其他类型的数据，以此提高读写效率。当目标数据中的大字段的数量过多，将目标数据存储在通用存储结构中，可能造成在读取其他数据时遍历大字段的次数过多，因此将目标数据单独存储，以提高读写效率。

通过将实体和关系分别存储，能够快速地区分实体和关系，而无需对数据反复分析查找其中的实体和关系，且在一个实体与多个实体存在关系的情况下，将实体和关系分别存储能够避免实体的数据的重复存储，减少存储空间的浪费，也能够为后续可能的数据迁移提供方便。

由于在目标数据中，通常不仅仅包含实体和关系，还可能包含实体的属性和关系的属性，基于此，本发明实施例提供了一种优化的通用存储结构，所述通用存储结构如图10所示，包含实体数据表、关系数据表、属性表、实体类型表和关系类型表。

其中，实体数据表中的字段及格式如图10所示，实体数据表存储实体的ID、实体的类型ID和按照格式存储的一个或多个实体属性值；关系数据表中的字段及格式如图11所示，关系数据表存储关系的ID、关系的类型ID、关系的第一实体ID、关系的第二实体ID和按照格式存储的一个或多个关系属性值；属性表中的字段及格式如图12所示，属性表存储实体属性的ID、关系属性的ID以及对应的属性的名称、数据类型和属性是否按照指定的时间类型存储；实体类型表中的字段及格式如图13所示，实体类型表中存储实体的类型，包括实体类型ID、实体类型、实体类型中文名称，以及该类型的实体中包含的属性的存储格式；关系类型表中的字段及格式如图14所示，关系类型表中存储关系的类型，包括关系类型ID、关系类型、关系类型中文名称、关系的第一实体类型ID、关系的第二实体类型ID，以及该类型的关系中包含的属性的存储格式。当关系不区分方向时，以存在关系的两个实体中的任一实体作为第一实体，另一实体作为第二实体，当关系区分方向时，则将关系的被指向方作为第二实体，另一实体作为第一实体。

将目标数据存储到通用存储结构中具体包括：

将目标数据中的实体存储到实体数据表中，将实体的类型存储到实体类型表中，并将生成的实体类型ID存储到实体数据表中，将目标数据中的实体间关系存储到关系数据表中，关系的两个实体的ID存储在关系数据表中，将关系的类型存储到关系类型表中，将生成的关系类型ID存储在关系数据表中，将实体的属性、关系的属性分别按照对应的格式存储到实体数据表、关系数据表中，并在实体类型表、关系类型表中存储对应的格式，将单个属性的ID及属性格式存储到属性表中。

此通用存储结构能够存储多种不同类型的数据，使在关系数据库中无需为一种类型的数据建立一张数据表，且使用该通用存储结构存储关系数据时，无需找到数据中的实体和关系，也无需关心每个实体的关系的数量，通过遍历查找便能够还原所有与实体相关的关系。

本实施例中的“第一”、“第二”和“第三”等词没有特殊的限定的含义，之所以用其做描述仅仅是为了方便在一类对象中差异出不同的个体进行表述，不应当将其作为顺序或者其他方面带有特殊限定含义解释。

实施例2:

在实际使用情况中，将目标数据存储到关系数据库或图数据库中后，并不会频繁地读写目标数据中的全部记录，而是对目标数据中的部分记录进行读写，在此种情况下，实施例1中以读写目标数据中的全部记录时的效率判断目标数据存储到关系数据库中还是图数据库中的方式可能会导致误判而将目标数据存储到不合适的数据库中，且在一些情况下，主要以目标数据的存储为目的，并不经常读写目标数据，此时，读写效率并不是衡量数据库好坏的唯一标准。

针对此种情况，本发明基于实施例1所描述的方法基础上，提供了在目标数据已存储到关系数据库或图数据库后，根据目标数据的实际使用情况，将目标数据迁移到更优的数据库中的方法，所述方法如图3所示，具体包括：

在步骤401中，记录预设周期内用户读写目标数据的次数和每次读写目标数据所花费的时间，计算得出预设周期内的目标数据的使用系数，根据目标数据的使用系数，判断是否迁移目标数据。

所述预设周期是由本领域技术人员根据经验得出的，通常为几天、几周或几个月。所述每次读写目标数据花费的时间可能是用户读取目标数据中的部分记录时所花费的时间，也可能是读取全部记录时所花费的时间。所述计算得出预设周期内的目标数据的使用系数，具体包括：将每次读写目标数据所花费的时间相加后再除以用户读写目标数据的次数得到平均每次读写目标数据所花费的时间，使用系数为k₁×平均读写时间+k₂×读写目标数据的次数。当用户读写目标数据的次数越多时，用户所能够容忍的数据读写时间越短，当用户读写目标数据的次数越少时，用户能够容忍较长的数据读写时间来换取存储的稳定性，根据此规律经反复测试得出合适的k₁和k₂的值。

在步骤402中，若目标数据存储在关系数据库中，且目标数据的使用系数超过第一预设系数，则确定迁移目标数据，否则，不迁移目标数据；若目标数据存储在图数据库中，且目标数据的使用系数低于第二预设系数，则确定迁移目标数据，否则，不迁移目标数据。

若目标数据的使用系数超过第一预设系数，则认为目标数据存储到关系数据库中的读写效率未能得到满足，则将目标数据迁移到图数据库中，若目标数据的使用系数低于第二预设系数，则认为目标数据的读写频率低或单次读写的记录条数少，每次读取并不会耗费过多时间，则将目标数据迁移到关系数据库中。

所述第一预设系数和第二预设系数是由本领域技术人员根据经验得出的。

所述将目标数据迁移到图数据库中，具体包括：找到目标数据中的实体和关系，以实体作为节点、关系作为边建立图，将图存储到图数据库中；所述将目标数据迁移到关系数据库中，具体包括：根据目标数据量的大小，判断将目标数据存储到单独的数据表中还是通用存储结构中，若存储到单独数据表中，则以每种类型的节点和每种类型的边建立表头，将节点数据和边数据写入对应的字段下，若存储到通用存储结构中，则将节点数据存储到实体数据表中，将边数据存储到关系数据表中。

本发明实施例通过检查是否需要迁移目标数据，能够根据目标数据的真实使用情况动态地调整目标数据存储位置，使目标数据存储在较优的数据库中，以实现目标数据的读写效率、存储稳定性和维护便利性的相互平衡。

实施例3:

本发明基于实施例1和实施例2所描述的方法基础上，结合具体的应用场景，并借由相关场景下的技术表述来阐述本发明特性场景下的实现过程。本发明实施例所使用的关系数据库为SQL Server数据库，所使用的图数据库为Neo4j数据库。

本实施例中的目标数据包含10000条通话话单记录，即目标数据的类型为通话话单数据，目标数据中所包含的字段以及其中两条通话话单记录如图4所示，在目标数据中包含主叫终端IMEI码、主叫号码、被叫号码、被叫终端IMEI码这4个用于表征实体的字段，其中，一个字段表征一种类型的实体，则目标数据中包含4种类型的实体，以这4种类型的实体建立的4个基础实体分别为主叫终端、主叫号码、被叫号码、被叫终端，以这4个基础实体为节点，建立实体关系图，所建立的实体关系图如图5所示，其中，箭头的方向指代关系的方向，关系可以是区分方向的，也可以是不区分方向的，当不区分方向时，则使用不带箭头的线段表示两实体间的关系。在每段代表关系的线段上标明了关系的类型的ID，跟据所述关系的类型的ID，在关系分值表中查找得到每端关系的分值，所述关系分值表如图6所示，所述关系分值表是本领域技术人员根据本发明实施例所应用的场景预先存储的。在所述关系分值表中查询得到在实体关系图中的三段关系的分值分别是1、1、2，将三段关系的分值相加得到目标数据的数据复杂度为1+1+2＝4。

将本次目标数据的数据类型、所包含的字段、所建立的基础实体、所生成的实体关系图以及数据复杂度等信息存储在数据库中，当在后续的使用过程中若发现待存储的数据的数据类型、所包含的字段与目标数据一致时，则直接调用目标数据的数据复杂度，而无需再次计算。

判断用户是否设定了将目标数据存储到关系数据库还是图数据库中，若用户已设定，则根据用户所设定的数据库存储目标数据，若未设定，则根据目标数据的数据复杂度将目标数据存储到关系数据库还是图数据库中。

如图7所示，根据目标数据的数据复杂度将目标数据存储到关系数据库还是图数据库中具体体现为以下流程：

在步骤501中，判断目标数据的数据复杂度是否大于第三复杂度，若目标数据的数据复杂度大于第三复杂度，则进入步骤506，否则，进入步骤502；

在步骤502中，判断目标数据的数据复杂度是否小于第二复杂度，若目标数据的数据复杂度小于第二复杂度，则进入步骤505，否则，进入步骤502；

在步骤503中，预测目标数据在不同数据库中存储时的数据读写时间，关系数据库中的读写时间记为t₀，图数据库中的读写时间记为t₁，进入步骤504；

在步骤504中，判断t₀是否小于等于t₁，或t_0-t₁小于预设时间，若满足t₀是否小于等于t₁或t_0-t₁小于预设时间，则进入步骤505，否则，进入步骤506；

在步骤505中，将目标数据存储到关系数据库中，结束流程；

在步骤506中，将目标数据存储到图数据库中，结束流程；

下面将通过具体的数据来说明该流程的实现过程：

设置第一复杂度为0，第三复杂度为6，第二复杂度为3，若目标数据的数据复杂度小于第二复杂度，则将目标数据存储到关系数据库中，若目标数据的数据复杂度大于第三复杂度，则将目标数据存储到图数据库中，若目标数据的大于等于第二复杂度且小于等于第三复杂度，则根据目标数据的总数据量大小判断将目标数据存储到关系数据库中还是图数据库中。

经计算所得的目标数据的数据复杂度为4，大于等于第二复杂度且小于等于第三复杂度，则再根据目标数据的总数据量大小判断。

数据的读写时间与数据复杂度以及数据量大小基本呈正相关，即数据的数据复杂度越高，则读写时间越长，数据的数据量大小越大，读写时间越长，但不同数据库的数据读写时间受到数据复杂度影响的程度和受到数据量大小的影响程度不同，为了便于比较不同数据库的数据读写时的时间，针对第二复杂度与第三复杂度之间的每一个数据复杂度的值，通过反复的测试，绘制不同数据库下数据量大小对读写时间的影响曲线，所得到的SQLServer的数据读写时间曲线如图8所示，所得到了Neo4j的数据读写时间曲线如图9所示，其中，3、4、5和6是每一条曲线的数据复杂度。

若目标数据存储到存储介质中时所占用的字节数为1200000字节，在SQL Server的数据读写时间曲线和Neo4j的数据读写时间曲线分别找到读取数据复杂度为4且字节数为1200000字节时的数据读写时间，分别为t₀和t₁，设置预设时间为30s，若t₀小于等于t₁或t₁-t₀小于30s，则将目标数据存储到关系数据库中，否则，将目标数据存储到图数据库中。

在确定将目标数据存储到关系数据库中还是图数据库中后，将确定用于存储目标数据的数据库作为配置的数据库存储，在后续的使用过程中若发现待存储的数据数据类型、所包含的字段与目标数据一致且用户未设定数据库时，则直接使用配置的数据库存储数据。

若判断将目标数据存储到关系数据库中，则根据目标数据的总数据量大小及目标数据中的大字段的数量，判断将目标数据存储到单独的数据表中还是通用存储结构中，设置通用存储结构能够允许的目标数据的总数据量大小，即预设大小为2000000字节，目标数据的字节数为1200000字节，小于预设大小，则将目标数据存储到通用数据结构中，具体包括：将主叫终端IMEI码、主叫号码、被叫号码、被叫终端IMEI码存储到通用存储结构的实体数据表中，将通话开始时间、通话时长存储到关系数据表中，并在实体类型表存储主叫终端、被叫终端、主叫号码、被叫号码这4个实体类型，由于主叫终端、被叫终端都属于终端，主叫号码、被叫号码都属于号码，故能够进一步简化为存储终端和号码这2个实体类型，在关系类型表中存储所使用的号码、主被叫关系这2个关系类型，在属性表中存储通话开始时间、通话时长等属性。

若判断将目标数据存储到图数据库中，则以目标数据中的实体为节点，以目标数据中的关系为边，存储到图数据库中，以目标数据中的两条通话话单记录为例存储在图数据库中时如图15所示。

在将目标数据存储到关系数据库或图数据库中后，周期性地判断是否需要迁移目标数据，若用户设定了用于存储目标数据的数据库，则不判断是否需要迁移，若用户未设定，则周期性判断是否需要迁移，判断结束后不立即进行迁移，而是等待系统空闲且目标数据未被使用时迁移目标数据，并告知用户迁移结果，将迁移后的数据库作为配置的数据库存储，在后续的使用过程中若发现待存储的数据数据类型、所包含的字段与目标数据一致且用户未设定数据库时，则直接使用配置的数据库存储数据。

判断是否需要迁移目标数据，具体包括：记录预设周期内用户读写目标数据的次数和每次读写目标数据所花费的时间，此处将预设周期设置为一个月，自存储目标数据后，每间隔一个月，判断是否需要迁移目标数据。设上个月用户读取目标数据的次数为100次，计算得出的平均读写时间为0.48s，计算得到的目标数据的使用系数为0.48k₁+100k₂，如果当前目标数据存储在关系数据库的通用存储结构中，且0.48k₁+100k₂大于第一预设系数，则将目标数据迁移到图数据库中，由于通用存储结构在存储目标数据时，已将目标数据中的实体和关系分别存储，故在将目标数据迁移到图数据库中时，无需针对目标数据找到其中的实体和关系，从实体数据表中即可得到目标数据的实体，以实体在图数据库中建立节点，在关系数据表中找到目标数据的关系，以关系在图数据库中建立边，根据实体类型表、关系类型表、属性表补充节点的属性和边的属性，由此将目标数据迁移到图数据库中。

实施例4:

如图16所示，是本发明实施例的基于人体状态的内容推荐装置的架构示意图。本实施例的基于人体状态的内容推荐装置包括一个或多个处理器21以及存储器22。其中，图16中以一个处理器21为例。

处理器21和存储器22可以通过总线或者其他方式连接，图16中以通过总线连接为例。

存储器22作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序和非易失性计算机可执行程序，如实施例1中的基于人体状态的内容推荐方法。处理器21通过运行存储在存储器22中的非易失性软件程序和指令，从而执行基于人体状态的内容推荐方法。

存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器22可选包括相对于处理器21远程设置的存储器，这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述程序指令/模块存储在所述存储器22中，当被所述一个或者多个处理器21执行时，执行上述实施例1中的基于人体状态的内容推荐方法，例如，执行以上描述的图1-图15所示的各个步骤。

值得说明的是，上述装置和系统内的模块、单元之间的信息交互、执行过程等内容，由于与本发明的处理方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据存储方法，其特征在于，包括：

计算目标数据的数据复杂度；

2.根据权利要求1所述的数据存储方法，其特征在于，所述计算目标数据的数据复杂度，具体包括：

3.根据权利要求1所述的数据存储方法，其特征在于，所述根据目标数据的数据复杂度，判断将目标数据存储到关系数据库还是图数据库中，具体包括：

4.根据权利要求3所述的数据存储方法，其特征在于，所述根据目标数据的总数据量大小判断将目标数据存储到关系数据库还是图数据库中，具体包括：

5.根据权利要求1所述的数据存储方法，其特征在于，将目标数据以二维数据表的形式存储到关系数据库中，具体包括：

6.根据权利要求5所述的数据存储方法，其特征在于，所述将目标数据存储到通用存储结构中，具体包括：

7.根据权利要求1所述的数据存储方法，其特征在于，所述方法还包括，根据目标数据的使用情况，判断是否迁移目标数据，具体包括：

8.根据权利要求7所述的数据存储方法，其特征在于，所述根据目标数据的使用系数和目标数据的数据复杂度，判断是否将目标数据从关系数据库迁移到图数据库中，或将目标数据从图数据库中迁移到关系数据库中，具体包括：

9.根据权利要求1-8任一所述的数据存储方法，其特征在于，所述将目标数据以图的形式存储到图数据库中，具体包括：

10.一种数据存储装置，其特征在于，所述装置包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，用于执行权利要求1-9任一所述的数据存储方法。