CN111177156B

CN111177156B - 一种大数据存储方法及系统

Info

Publication number: CN111177156B
Application number: CN201911414333.8A
Authority: CN
Inventors: 徐晓丽; 廖海生
Original assignee: Guangdong Institute of Science and Technology
Current assignee: Guangdong Institute of Science and Technology
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-10-03
Anticipated expiration: 2039-12-31
Also published as: CN111177156A

Abstract

本发明公开了一种大数据存储方法及系统，涉及信息技术领域，用于实现：通过先抽取数据的相关特征，构建虚拟类，随着特征的增加，虚拟类属性增加到一定阀值，就自动抽取虚拟类中紧密度高的特征构建父类，所有类存入虚拟类库中，之后数据与虚拟类库匹配选举相应的类创建数据对象，然后把每一个对象看做一张表实现行存储。本发明的有益效果为：比传统的存储方法数据管理方便、解决了数据不一致性和安全性问题，提高了数据查询和读写速度，实现大数据高效存储与智能化管理。

Description

一种大数据存储方法及系统

技术领域

本发明涉及信息技术领域，特别涉及一种大数据存储方法及系统。

背景技术

日益增长的海量数据对存储技术的要求越来越高，传统的存储系统已力不从心，因此提出一种新的存储模型——面向对象的存储思想。面向对象存储思想是对传统对象关系数据库的扩展，是由新加坡学者Ling Tok Wang等人提出，最初用于解决图书管理、工程项目管理等半结构化数据管理。

面向对象存储概念一经提出，便得到了存储界的广泛关注，各大研究机构和存储系统供应商纷纷研究和实现了各自的对象存储系统。为了应用大数据，目前有些设计人员将大数据以文件存储在文件系统中，但这种方式数据管理不方便，并存在数据不一致性和安全性问题。另有些设计人员将这些数据存储在传统的数据库表的大对象字段中，这种方式存在数据查询和读写性能问题。不管是哪种存储方法其存储系统中的对象是数据加上一组描述此对象各方面属性的一个组合，是先有对象后有属性，对象是一个真实实体，因此与其相关的属性也只能是局限该实体的属性，反映该对象特征的数据。

而现实中各对象可能有很多相同的属性，采用传统的对象存储思想必将存在巨大数据重复存储，即在一对象中存储了，在另一对象中也存储了，存在极大的冗余性。

同时，为了应用大数据，传统的方法是将大数据以文件存储在文件系统中，但这种方式数据管理不方便，并存在数据不一致性和安全性问题。另有些设计人员将这些数据存储在传统的数据库表的大对象字段中，这种方式存在数据查询和读写性能问题。不管是哪种存储方法其存储系统中的对象是数据加上一组描述此对象各方面属性的一个组合，是先有对象后有属性，对象是一个真实实体，因此与其相关的属性也只能是局限该实体的属性，反映该对象特征的数据。而现实中各对象可能有很多相同的属性，采用传统的对象存储思想必将存在巨大数据重复存储，即在一对象中存储了，在另一对象中也存储了，存在极大的冗余性。

发明内容

为至少解决现有技术中存在的技术问题之一，本发明的目的在于提供一种大数据存储方法及系统，通过先抽取数据的相关特征，构建虚拟类，随着特征的增加，虚拟类属性增加到一定阀值，就自动抽取虚拟类中紧密度高的特征构建父类，所有类存入虚拟类库中，之后数据与虚拟类库匹配选举相应的类创建数据对象，然后把每一个对象看做一张表实现行存储。

本发明解决其问题所采用的技术方案第一方面是：一种大数据存储方法，其特征在于，包括以下步骤：S10、解析数据源的属性，根据基础属性划分对应的数据特征，并构建特征库；S20、遍历所述基础属性，将对应的所述数据特征进行聚集虚拟，得到对应的虚拟类；S30、将所述虚拟类生成一定数量的虚拟对象；S40、将所述数据源与所述虚拟对象进行逐一匹配，将关联度最大的数据与对应虚拟对象进行关联绑定，直到所有数据源的数据遍历完毕。

有益效果：该方法比传统的存储方法数据管理方便、解决了数据不一致性和安全性问题，提高了数据查询和读写速度，实现大数据高效存储与智能化管理。

根据本发明第一方面所述的，基础属性包括文件属性、基本属性、环境属性、行为属性以及内容属性。

根据本发明第一方面所述的，S10包括：S11、设置各个所述属性的优先级，并遍历所述数据源，进行特征抽取；S12、基于所述优先级对所述数据源的各个数据特征进行匹配值计算，将所述匹配值最高值作为参照值；S13、将所述参照值对应的所述属性划分为对应数据的基础属性。

根据本发明第一方面所述的，S12还包括：当所述数据特征对应的属性为非基础属性时，统计该数据特征出现次数；当所述出现次数大于预设阈值时，设置所述数据特征对应的属性为基础属性。

根据本发明第一方面所述的，S20包括：S21、遍历所述数据源的所述数据特征，根据所述数据特征对应属性相同的数据进行两两聚集虚拟，直到所有数据遍历完成，得到多个虚拟类。

根据本发明第一方面所述的，S20包括：S22、遍历所述虚拟类，与所述数据源的属性进行逐一匹配，判断所述虚拟类与所述属性是否匹配；S23、将已匹配到对应属性的所述虚拟类按照指定顺序进行逐一聚集，得到聚集虚拟类；S24、将所述聚集虚拟类对应的所述数据特征虚拟为父类，得到虚拟父类。

根据本发明第一方面所述的，虚拟对象与所述虚拟类一一对应。

根据本发明第一方面所述的，S40还包括：将所述数据源按一定的规则进行切分成多个数据元；将所述数据元与所述虚拟对象逐一进行关联度计算；将关联度最大的数据与对应虚拟对象进行关联绑定，直到所有数据源的数据遍历完毕。

本发明解决其问题所采用的技术方案第二方面是：一种大数据存储系统，其特征在于，包括：特征库，用于解析数据源的属性，根据基础属性划分对应的数据特征；聚集模块，用于遍历所述基础属性，将对应的所述数据特征进行聚集虚拟，得到对应的虚拟类；虚拟模块，用于将所述虚拟类生成一定数量的虚拟对象；关联模块，用于将所述数据源与所述虚拟对象进行逐一匹配，将关联度最大的数据与对应虚拟对象进行关联绑定，直到所有数据源的数据遍历完毕。

有益效果：比传统的存储方法数据管理方便、解决了数据不一致性和安全性问题，提高了数据查询和读写速度，实现大数据高效存储与智能化管理。

根据本发明第二方面所述的，聚集模块还包括：匹配单元，用于遍历所述虚拟类，与所述数据源的属性进行逐一匹配，判断所述虚拟类与所述属性是否匹配；聚集虚拟单元，用于将已匹配到对应属性的所述虚拟类按照指定顺序进行逐一聚集，得到聚集虚拟类；父类虚拟单元，用于将所述聚集虚拟类对应的所述数据特征虚拟为父类，得到虚拟父类。

附图说明

图1是根据本发明实施例的方法流程示意图；

图2是根据本发明实施例的系统结构示意图；

图3是根据本发明实施例的存储对象示意图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。

参照图1，是根据本发明实施例的方法流程示意图，包括以下步骤：S10、解析数据源的属性，根据基础属性划分对应的数据特征，并构建特征库；S20、遍历所述基础属性，将对应的所述数据特征进行聚集虚拟，得到对应的虚拟类；S30、将所述虚拟类生成一定数量的虚拟对象；S40、将所述数据源与所述虚拟对象进行逐一匹配，将关联度最大的数据与对应虚拟对象进行关联绑定，直到所有数据源的数据遍历完毕。

基础属性包括文件属性、基本属性、环境属性、行为属性以及内容属性。

S10包括：S11、设置各个所述属性的优先级，并遍历所述数据源，进行特征抽取；S12、基于所述优先级对所述数据源的各个数据特征进行匹配值计算，将所述匹配值最高值作为参照值；S13、将所述参照值对应的所述属性划分为对应数据的基础属性。

S12还包括：当所述数据特征对应的属性为非基础属性时，统计该数据特征出现次数；当所述出现次数大于预设阈值时，设置所述数据特征对应的属性为基础属性。

S20包括：S21、遍历所述数据源的所述数据特征，根据所述数据特征对应属性相同的数据进行两两聚集虚拟，直到所有数据遍历完成，得到多个虚拟类。

S20包括：S22、遍历所述虚拟类，与所述数据源的属性进行逐一匹配，判断所述虚拟类与所述属性是否匹配；S23、将已匹配到对应属性的所述虚拟类按照指定顺序进行逐一聚集，得到聚集虚拟类；S24、将所述聚集虚拟类对应的所述数据特征虚拟为父类，得到虚拟父类。

虚拟对象与所述虚拟类一一对应。

S40还包括：将所述数据源按一定的规则进行切分成多个数据元；将所述数据元与所述虚拟对象逐一进行关联度计算；将关联度最大的数据与对应虚拟对象进行关联绑定，直到所有数据源的数据遍历完毕。

参照图2，是根据本发明实施例的系统结构示意图，包括：

特征库，用于解析数据源的属性，根据基础属性划分对应的数据特征；

聚集模块，用于遍历所述基础属性，将对应的所述数据特征进行聚集虚拟，得到对应的虚拟类；

虚拟模块，用于将所述虚拟类生成一定数量的虚拟对象；

关联模块，用于将所述数据源与所述虚拟对象进行逐一匹配，将关联度最大的数据与对应虚拟对象进行关联绑定，直到所有数据源的数据遍历完毕。

聚集模块还包括：

匹配单元，用于遍历所述虚拟类，与所述数据源的属性进行逐一匹配，判断所述虚拟类与所述属性是否匹配；

聚集虚拟单元，用于将已匹配到对应属性的所述虚拟类按照指定顺序进行逐一聚集，得到聚集虚拟类；

父类虚拟单元，用于将所述聚集虚拟类对应的所述数据特征虚拟为父类，得到虚拟父类。

抽取数据的相关特征，构建虚拟类，随着特征的增加，虚拟类属性增加到一定阀值，就自动抽取虚拟类中紧密度高的特征构建父类，所有类存入虚拟类库中，之后数据与虚拟类库匹配选举相应的类创建数据对象，然后把每一个对象看做一张表实现行存储

参照图3，是根据本发明实施例的存储对象示意图。

(1)特征库的构建：分析数据源，解析数据源环境属性、基本属性、行为属性、内容属性特性，将各属性特征与特征库进行匹配，如特征库中没有该属性特征，那么就加入该新属性特征，通过不断的自我学习，特征库不断完善。

(2)特征类的虚拟：根据特征库中相近的特征进行聚集虚拟出相对应的类，对各虚拟出来的类进行相似度比较，把相似度大的部分又虚拟出父类。

根据数据源的文件属性、环境属性、基本属性、行为属性、内容属性抽取数据源的数据特征，并与特征库进行匹配，如特征库中没有该数据特征，那么就加入该新数据特征；

数据源分析

(2)特征类的虚拟：根据特征库中相近的特征进行聚集虚拟出相对应的类，对各虚拟出来的类进行相似度比较，把相似度大的部分又虚拟出父类。特征类虚拟算法：

第1步：将特征库中的特征进行分类匹配基本属性、环境属性、行为属性、内容属性，属于相应特征属性的标1，否则标0。如下表2-1所示。

第2步：将表2-1中两两属性标1的聚集虚拟类。

第3步：将第2步的所有虚拟类与各属性特性进行匹配，匹配标1，否则标0，然后按文件属性、环境属性、基本属性、行为属性、内容属性顺序依次逐层将标1的进行聚集，直到全部标0未匹配为止，将最后聚集的虚拟类抽取标1的各项特征虚拟为父类，如下表2-2所示。

特征	文件属性	基本属性	环境属性	行为属性	内容属性
						特征1	1	1	0	1	0
特征2	0	0	1	0	1
						特征3	1	1	1	0	1
特征4	1	1	0	1	0
						......

表2-1特征与属性匹配表

表2-2虚拟类匹配表

3)由虚拟类生成若干个虚拟对象，然后把数据源按着一定的规则进行切分成数据元，然后把与虚拟对象的关联性大的数据元作为该对象的成员，依附到该虚拟对象。

大数据既有非结构化数据也半结构化数据和结构化数据，因此本模型采用了统一存储平台的设计理念，考虑了结构化、半结构化、非结构化数据的存储，主要利用了分类、特征抽取、模式抽取、虚拟类和对象、数据切分等技术。先对大数据进行分类，分为结构化、半结构化和非结构化数据，结构化数据直接采用关系数据库存储；半结构化数据进行模式抽取，然后映射为结构化数据，再采用基于对象的关系数据库存储；非机构化数据先经过特征抽取、虚拟类、创建对象转化为结构化数据存储。

(1)分类：根据规则库对结构化、半结构化、非机构化数据进行分类，规则库规则通过自动学习来获取，一般检测数据的相关属性，如果规则库中没有该数据属性对应的规则，则添加该规则。检测的顺序一般是先检测数据文件的后缀名，再检测数据内容结构，如表、图、树，最后才检测数据特征。

分类实现算法：

①创建三个数组，第一个为后缀名数组A，后缀名数组中元素为各类非结构化数据文件的后缀名；第二个为内容数组B，该数组的元素为数据主题或关键词；第三个为特征数组C，该数组中元素为结构化数据的特征；

②输入数据提取数据的后缀名与A数组匹配，如果找到相同的元数据则数据为非结构化化数据；

③否则，把该后缀名添加到A数组；

④如果数据没有后缀名，那么提取数据的主题或关键词与B数组进行匹配，如果找到相同的元数据则数据为半结构化数据；

⑤否则，把该主题或关键词添加到B数组；

⑥如果该数据主题或关键词不明显，提取数据的特征与C数组进行匹配，如果找到相同的元素则该数据为结构化数据。

(2)模式抽取：是指把非结构化数据通过模式抽取转化结构化数据进行存储，本处采用现有的OEM模型实现[3]。

(3)特征抽取：是指对非结构化数据进行特征抽取，按照表3-1对数据进行特征抽取，从而建立特征库，然后根据不同的属性进行虚拟类，使用虚拟类创建一个虚拟对象，把与虚拟类关联度最大的数据归集在该对象。

实现过程：

①创建数据特征表，分别以文件属性、环境属性、基本属性、行为属性、内容属性作为表的字段，然后把相应的属性写入数据特征表中，每一个字段作为一个类，字段元素为类的成员。

②抽取非结构化数据的特征值，按照特征数据表字段的优先级高低一次进行特征匹配计算其匹配值，匹配值最高的字段即为该数据所归属的类，如果该数据特征值在数据特征表中未匹配成果，则把该特征值存储起来，并设置一个变量来统计其出现的次数，如果次数超过阀值(本案阀值定为10)，即将该特征值添加到相应字段作为该字段的元素。

字段优化级如表3-1所示。匹配值计算规则：如基本属性字段，该字段有5个元素，字段全部匹配为1，匹配1个为0.2。

③当某非结构化数据的特征值与特征数据表字段匹配成功，选取匹配值最高的类，如果该类未创建相同虚拟对象，即用此类创建虚拟对象，然后把该非结构化数据作为该对象成员的值，否则不创建直接把该非结构化数据作为该对象成员的值。

④依次类推其它非结构化数据也按照此方法寻找自己匹配的虚拟对象，把数据作为该对象成员的值。

属性类型	属性	优先级
			文件属性	媒体、文档、音频、视频、图像	5
环境属性	主题热度、相似主体	4
			基本属性	名称、权限、大小、文件源、作用	1
行为属性	上下文、任务、交互信息、操作者、访问度	3
			内容属性	描述、语义	2

表3-1数据特征表

(4)大数据存储：非结构化数据通过归集到虚拟对象然后进行存储，为了适应大数据的海量存储，需要对虚拟对象进行数据切分，切分粒度大小合理和均匀，为了解决该问题，我们在虚拟类的时候就设置一个阀值，当类的大小超过该阀值，系统自动扩展出一个新类。通过对虚拟对象进行切分为更小的元数据，存储到元数据服务，元数据服务器与关系数据库服务器实现映射存储。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种大数据存储方法，其特征在于，包括以下步骤：

S10、解析数据源的属性，根据基础属性划分对应的数据特征，并构建特征库；

S20、遍历所述基础属性，将对应的所述数据特征进行聚集虚拟，得到对应的虚拟类；

S30、将所述虚拟类生成一定数量的虚拟对象；

S40、将所述数据源与所述虚拟对象进行逐一匹配，将关联度最大的数据与对应虚拟对象进行关联绑定，直到所有数据源的数据遍历完毕；

其中，所述S20包括：

S21、遍历所述数据源的所述数据特征，根据所述数据特征对应属性相同的数据进行两两聚集虚拟，直到所有数据遍历完成，得到多个虚拟类；

所述S20还包括：

S22、遍历所述虚拟类，与所述数据源的属性进行逐一匹配，判断所述虚拟类与所述属性是否匹配；

S23、将已匹配到对应属性的所述虚拟类按照指定顺序进行逐一聚集，得到聚集虚拟类；

S24、将所述聚集虚拟类对应的所述数据特征虚拟为父类，得到虚拟父类。

2.根据权利要求1所述的大数据存储方法，其特征在于，所述基础属性包括文件属性、基本属性、环境属性、行为属性以及内容属性。

3.根据权利要求1所述的大数据存储方法，其特征在于，所述S10包括：

S11、设置各个所述属性的优先级，并遍历所述数据源，进行特征抽取；

S12、基于所述优先级对所述数据源的各个数据特征进行匹配值计算，将所述匹配值最高值作为参照值；

S13、将所述参照值对应的所述属性划分为对应数据的基础属性。

4.根据权利要求3所述的大数据存储方法，其特征在于，所述S12还包括：

当所述数据特征对应的属性为非基础属性时，统计该数据特征出现次数；

当所述出现次数大于预设阈值时，设置所述数据特征对应的属性为基础属性。

5.根据权利要求1所述的大数据存储方法，其特征在于，所述虚拟对象与所述虚拟类一一对应。

6.根据权利要求1所述的大数据存储方法，其特征在于，所述S40还包括：

将所述数据源按一定的规则进行切分成多个数据元；

将所述数据元与所述虚拟对象逐一进行关联度计算；

将关联度最大的数据与对应虚拟对象进行关联绑定，直到所有数据源的数据遍历完毕。

7.一种大数据存储系统，其特征在于，包括：

虚拟模块，用于将所述虚拟类生成一定数量的虚拟对象；

关联模块，用于将所述数据源与所述虚拟对象进行逐一匹配，将关联度最大的数据与对应虚拟对象进行关联绑定，直到所有数据源的数据遍历完毕；

其中，所述聚集模块还用于遍历所述数据源的所述数据特征，根据所述数据特征对应属性相同的数据进行两两聚集虚拟，直到所有数据遍历完成，得到多个虚拟类；

所述聚集模块还用于遍历所述虚拟类，与所述数据源的属性进行逐一匹配，判断所述虚拟类与所述属性是否匹配；将已匹配到对应属性的所述虚拟类按照指定顺序进行逐一聚集，得到聚集虚拟类；将所述聚集虚拟类对应的所述数据特征虚拟为父类，得到虚拟父类。

8.根据权利要求7所述的大数据存储系统，其特征在于，所述聚集模块还包括：