CN116701563A

CN116701563A - 基于分布式服务器的非结构化数据处理方法及相关装置

Info

Publication number: CN116701563A
Application number: CN202310988297.6A
Authority: CN
Inventors: 杨胜; 赵保国; 曾海波; 袁平; 唐必成; 黄瑛
Original assignee: Jiaying Technology Co ltd
Current assignee: Jiaying Technology Co ltd
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-09-05

Abstract

本发明公开了一种基于分布式服务器的非结构化数据处理方法及相关装置，涉及数据处理技术领域，所述方法包括：分布式服务器基于数据引擎接口接收客户端上传的非结构化数据；对所述非结构化数据按照数据类型进行分类处理；基于非结构化数据中标注的客户端的MAC地址确定在分布式服务器的存储位置；进行映射关系建立处理，获得关联映射关系；基于关联映射关系将若干个数据项目名称ID与分类后的非结构化数据在存储位置中的对应的多个数据存储节点中进行关联存储处理。在本发明实施例中，实现对非结构化数据分类存储到分布式服务器中，提高了存储性能，并且通过构建映射关系方便后续对存储的非结构化数据的查询。

Description

基于分布式服务器的非结构化数据处理方法及相关装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于分布式服务器的非结构化数据处理方法及相关装置。

背景技术

计算机信息技术以及大数据技术的发展，使得相关的项目数据越来越多，并且为非结构化数据，而对于这些非结构化数据采用传统的数据库集中存储的方式进无法满足存储需求，并且可能降低储存效率；同时传统的存储方式对同属于相同项目名称的非结构化数据之间无法具有相应的关联关系，在对同一个项目名称的非结构化数据进行查询时，将无法快速在数据库中查询多完整的非结构化数据，查询效率较低，无法满足用户的需求。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于分布式服务器的非结构化数据处理方法及相关装置，实现对非结构化数据分类存储到分布式服务器中，提高了存储性能，并且通过构建映射关系方便后续对存储的非结构化数据的查询。

为了解决上述技术问题，本发明提供了一种基于分布式服务器的非结构化数据处理方法，所述方法包括：

分布式服务器基于数据引擎接口接收客户端上传的非结构化数据，所述非结构化数据中标注有所述客户端的MAC地址及所属的数据项目名称ID，且所述数据项目名称ID具有唯一性；

对所述非结构化数据按照数据类型进行分类处理，获得分类后的非结构化数据；

基于所述非结构化数据中标注的所述客户端的MAC地址确定在所述分布式服务器的存储位置；

基于所述非结构化数据中标注的所属的若干个数据项目名称ID与分类后的非结构化数据进行映射关系建立处理，获得若干个数据项目名称ID与分类后的非结构化数据之间的关联映射关系；

基于所述关联映射关系将所述若干个数据项目名称ID与分类后的非结构化数据在所述存储位置中的对应的多个数据存储节点中进行关联存储处理，所述多个数据存储节点为一个数据存储节点用于存储若干个数据项目名称ID，另外的每一个数据存储节点用于存储一个分类后的非结构化数据。

可选的，所述方法还包括：

所述分布式服务器接收请求端基于分配权限生成的数据查询请求，所述数据查询请求中包括查询数据项目名称ID；

所述分布式服务器基于所述数据查询请求中的查询数据项目名称ID利用所述关联映射关系在多个数据存储节点中获得对应的查询非结构化数据，并形成非结构化数据查询列表；

所述分布式服务器将所述非结构化数据查询列表加载至所述请求端。

可选的，所述分布式服务器基于所述数据查询请求中的查询数据项目名称ID利用所述关联映射关系在多个数据存储节点中获得对应的查询非结构化数据，包括：

所述分布式服务器利用所述数据查询请求中的查询数据项目名称ID在所有存储位置的所有用于存储所述数据项目名称ID的数据存储节点中进行检索匹配处理，获得检索匹配的匹配数据项目名称ID；

基于所述匹配数据项目名称ID所对应的关联映射关系在对应的数据存储节点中索引获得对应的查询非结构化数据。

可选的，所述形成非结构化数据查询列表，包括：

基于对应的查询非结构化数据的数据类型进行列表构建处理，获得构建列表；

将对应的查询非结构化数据在若干个数据存储节点中的存储索引路径按照所述的数据类型对应填写至所述构建列表中，形成非结构化数据查询列表。

可选的，所述对所述非结构化数据按照数据类型进行分类处理，获得分类后的非结构化数据，包括：

获得所述非结构化数据中所标记的数据类型；

基于所述非结构化数据中所标记的数据类型按照所属的数据类型进行分类处理，获得分类后的非结构化数据。

可选的，所述基于所述非结构化数据中标注的所属的若干个数据项目名称ID与分类后的非结构化数据进行映射关系建立处理，包括：

获得所述非结构化数据中标注的所属的若干个数据项目名称ID及分类后的非结构化数据所对应的数据项目名称ID；

利用所述非结构化数据中标注的所属的若干个数据项目名称ID中与分类后的非结构化数据所对应的数据项目名称ID中相同的数据项目名称ID所对应的分类后的非结构化数据建立关联映射关系，获得数据项目名称ID与分类后的非结构化数据之间的关联映射关系。

可选的，所述基于所述关联映射关系将所述数据项目名称ID与分类后的非结构化数据在所述存储位置中的对应的多个数据存储节点中进行关联存储处理，包括：

基于分类后的非结构化数据的分类数量在所述存储位置中的分配出在所述分类数量上曾加一个的多个数据存储节点；

基于所述关联映射关系将所述数据项目名称ID与分类后的非结构化数据分别关联存储到对应的多个数据存储节点中。

另外，本发明还提供了一种基于分布式服务器的非结构化数据处理装置，所述装置包括：

数据接收模块：用于分布式服务器基于数据引擎接口接收客户端上传的非结构化数据，所述非结构化数据中标注有所述客户端的MAC地址及所属的数据项目名称ID，且所述数据项目名称ID具有唯一性；

数据分类模块：用于对所述非结构化数据按照数据类型进行分类处理，获得分类后的非结构化数据；

存储位置确定模块：用于基于所述非结构化数据中标注的所述客户端的MAC地址确定在所述分布式服务器的存储位置；

映射关系建立模块：用于基于所述非结构化数据中标注的所属的若干个数据项目名称ID与分类后的非结构化数据进行映射关系建立处理，获得若干个数据项目名称ID与分类后的非结构化数据之间的关联映射关系；

数据存储模块：用于基于所述关联映射关系将所述若干个数据项目名称ID与分类后的非结构化数据在所述存储位置中的对应的多个数据存储节点中进行关联存储处理，所述多个数据存储节点为一个数据存储节点用于存储若干个数据项目名称ID，另外的每一个数据存储节点用于存储一个分类后的非结构化数据。

另外，本发明还提供了一种分布式服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述中任一所述方法的步骤。

另外，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述中任一所述方法的步骤。

在本发明实施例中，通过对非结构化数据按照数据类型进行分类，然后使用非结构化数据所标注的数据项目名称ID与非结构化数据建立关联映射关系，并存储在分布式服务器中的若干个数据存储节点；实现对非结构化数据分类存储到分布式服务器中，提高了存储性能，并且通过构建映射关系方便后续对存储的非结构化数据的查询。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于分布式服务器的非结构化数据处理方法的流程示意图；

图2是本发明实施例中的基于分布式服务器的非结构化数据处理装置的结构组成示意图；

图3是本发明实施例中的分布式服务器的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一，请参阅图1，图1是本发明实施例中的基于分布式服务器的非结构化数据处理方法的流程示意图。

如图1所示，一种基于分布式服务器的非结构化数据处理方法，所述方法包括：

S11：分布式服务器基于数据引擎接口接收客户端上传的非结构化数据，所述非结构化数据中标注有所述客户端的MAC地址及所属的数据项目名称ID，且所述数据项目名称ID具有唯一性；

在本发明具体实施过程中，分布式服务器上设置有数据引擎接口，通过该数据引擎接口与相关的客户端建立连接关系，用于接收客户端上发送的非结构化数据，其中，这些非结构化数据中标注有客户端的MAC地址及所属的数据项目名称ID，且数据项目名称ID具有唯一性；通过客户端的MAC地址确定这些非结构化数据存储在分布式服务器中的位置。

S12：对所述非结构化数据按照数据类型进行分类处理，获得分类后的非结构化数据；

在本发明具体实施过程中，所述对所述非结构化数据按照数据类型进行分类处理，获得分类后的非结构化数据，包括：获得所述非结构化数据中所标记的数据类型；基于所述非结构化数据中所标记的数据类型按照所属的数据类型进行分类处理，获得分类后的非结构化数据。

具体的，首先是获得非结构化数据中的所标记的数据类型，一般在非结构化数据的数据后缀名中标记有数据类型；再通过非结构化数据中所标记的数据类型按照所属的数据类型来进行分类处理，即可获得分类后的非结构化数据；通过该方式，可以将非结构化数据按照其所属的数据类型进行分类，后续可以实现同属于一个数据类型的数据存储在同一个数据存储节点中；这样可以有效的提高存储效率，同时在后续用户对数据查询时，可以提高数据查询的速度，提高数据查询效率。

S13：基于所述非结构化数据中标注的所述客户端的MAC地址确定在所述分布式服务器的存储位置；

在本发明具体实施过程，通过非结构化数据中标注的客户端的MAC地址，确定该客户端所在的位置，为了提高数据存储的效率，减少数据传输的时间，在确定客户端所在的位置之后，匹配出与该位置最相近的分布式服务器中存储位置，即可将该最相近的分布式服务器中的存储为作为该客户端的所上传的非结构化数据的存储位置。

S14：基于所述非结构化数据中标注的所属的若干个数据项目名称ID与分类后的非结构化数据进行映射关系建立处理，获得若干个数据项目名称ID与分类后的非结构化数据之间的关联映射关系；

在本发明具体实施过程，所述基于所述非结构化数据中标注的所属的若干个数据项目名称ID与分类后的非结构化数据进行映射关系建立处理，包括：获得所述非结构化数据中标注的所属的若干个数据项目名称ID及分类后的非结构化数据所对应的数据项目名称ID；利用所述非结构化数据中标注的所属的若干个数据项目名称ID中与分类后的非结构化数据所对应的数据项目名称ID中相同的数据项目名称ID所对应的分类后的非结构化数据建立关联映射关系，获得数据项目名称ID与分类后的非结构化数据之间的关联映射关系。

具体的，通过获得非结构化数据中标注的所属的若干个数据项目名称ID及分类后的非结构化数据所对应的数据项目名称ID；然后利用非结构化数据中标注的所属的若干个数据项目名称ID中与分类后的非结构化数据所对应的数据项目名称ID中相同的数据项目名称ID所对应的分类后的非结构化数据建立关联映射关系，从而获得数据项目名称ID与分类后的非结构化数据之间的关联映射关系；即，所建立的关联映射关系为每一个项目数据名称ID与该项目数据名称ID所对应的分结构化数据建立关联的索引映射关系，后续通过检索到该项目数据名称ID，即可索引到对应的与该项目数据名称ID所相关联的非结构化数据。

S15：基于所述关联映射关系将所述若干个数据项目名称ID与分类后的非结构化数据在所述存储位置中的对应的多个数据存储节点中进行关联存储处理，所述多个数据存储节点为一个数据存储节点用于存储若干个数据项目名称ID，另外的每一个数据存储节点用于存储一个分类后的非结构化数据。

在本发明具体实施过程中，所述基于所述关联映射关系将所述数据项目名称ID与分类后的非结构化数据在所述存储位置中的对应的多个数据存储节点中进行关联存储处理，包括：基于分类后的非结构化数据的分类数量在所述存储位置中的分配出在所述分类数量上曾加一个的多个数据存储节点；基于所述关联映射关系将所述数据项目名称ID与分类后的非结构化数据分别关联存储到对应的多个数据存储节点中。

具体的，通过分类后的非结构化数据的分类数量来在存储位置中匹配出多个数据存储节点，即为多个数据存储节点的具体数量为分类数量的基础上增加一个节点，分类数量所对应的节点用于分别存储对应分类后的非结构化数据，多出的一个节点，用于存储该关联映射关系；即根据关联映射关系将数据项目名称ID与分类后的非结构化数据分别关联存储到对应的多个数据存储节点中；多个数据存储节点为一个数据存储节点用于存储若干个数据项目名称ID及关联映射关系，另外的每一个数据存储节点用于存储一个分类后的非结构化数据。

在本发明具体实施过程中，所述方法还包括：所述分布式服务器接收请求端基于分配权限生成的数据查询请求，所述数据查询请求中包括查询数据项目名称ID；所述分布式服务器基于所述数据查询请求中的查询数据项目名称ID利用所述关联映射关系在多个数据存储节点中获得对应的查询非结构化数据，并形成非结构化数据查询列表；所述分布式服务器将所述非结构化数据查询列表加载至所述请求端。

进一步的，所述分布式服务器基于所述数据查询请求中的查询数据项目名称ID利用所述关联映射关系在多个数据存储节点中获得对应的查询非结构化数据，包括：所述分布式服务器利用所述数据查询请求中的查询数据项目名称ID在所有存储位置的所有用于存储所述数据项目名称ID的数据存储节点中进行检索匹配处理，获得检索匹配的匹配数据项目名称ID；基于所述匹配数据项目名称ID所对应的关联映射关系在对应的数据存储节点中索引获得对应的查询非结构化数据。

进一步的，所述形成非结构化数据查询列表，包括：基于对应的查询非结构化数据的数据类型进行列表构建处理，获得构建列表；将对应的查询非结构化数据在若干个数据存储节点中的存储索引路径按照所述的数据类型对应填写至所述构建列表中，形成非结构化数据查询列表。

具体的，该分布式服务器通过接收请求端根据分配权限生成的数据查询请求，该数据查询请求中包括查询数据项目名称ID；该分布式服务器根据数据查询请求中的查询数据项目名称ID利用关联映射关系在多个数据存储节点中获得对应的查询非结构化数据，然后形成非结构化数据查询列表；同时该分布式服务器将非结构化数据查询列表加载至所述请求端。

即，该分布式服务器利用数据查询请求中的查询数据项目名称ID在所有存储位置的用于存储数据项目名称ID的数据存储节点中进行检索匹配处理，获得检索匹配的匹配数据项目名称ID；再根据匹配数据项目名称ID所对应的关联映射关系在对应的数据存储节点中索引获得对应的查询非结构化数据。

该非结构化数据查询列表是根据对应的查询非结构化数据的数据类型进行列表构建处理，从而获得构建列表；然后将对应的查询非结构化数据在若干个数据存储节点中的存储索引路径按照数据类型对应填写至构建列表中，形成非结构化数据查询列表。

实施例二，请参阅图2，图2是本发明实施例中的基于分布式服务器的非结构化数据处理装置的结构组成示意图。

如图2所示，一种基于分布式服务器的非结构化数据处理装置，所述装置包括：

数据接收模块21：用于分布式服务器基于数据引擎接口接收客户端上传的非结构化数据，所述非结构化数据中标注有所述客户端的MAC地址及所属的数据项目名称ID，且所述数据项目名称ID具有唯一性；

数据分类模块22：用于对所述非结构化数据按照数据类型进行分类处理，获得分类后的非结构化数据；

存储位置确定模块23：用于基于所述非结构化数据中标注的所述客户端的MAC地址确定在所述分布式服务器的存储位置；

映射关系建立模块24：用于基于所述非结构化数据中标注的所属的若干个数据项目名称ID与分类后的非结构化数据进行映射关系建立处理，获得若干个数据项目名称ID与分类后的非结构化数据之间的关联映射关系；

数据存储模块25：用于基于所述关联映射关系将所述若干个数据项目名称ID与分类后的非结构化数据在所述存储位置中的对应的多个数据存储节点中进行关联存储处理，所述多个数据存储节点为一个数据存储节点用于存储若干个数据项目名称ID，另外的每一个数据存储节点用于存储一个分类后的非结构化数据。

本发明实施例提供的一种计算机可读存储介质，所述计算机可读存储介质上存储有应用程序，该程序被处理器执行时实现上述实施例中任意一个实施例的非结构化数据处理方法。其中，所述计算机可读存储介质包括但不限于任何类型的盘（包括软盘、硬盘、光盘、CD-ROM、和磁光盘）、ROM（Read-Only Memory，只读存储器）、RAM（Random AcceSSMemory，随即存储器）、EPROM（EraSable Programmable Read-Only Memory，可擦写可编程只读存储器）、EEPROM（Electrically EraSable ProgrammableRead-Only Memory，电可擦可编程只读存储器）、闪存、磁性卡片或光线卡片。也就是，存储设备包括由设备（例如，计算机、手机）以能够读的形式存储或传输信息的任何介质，可以是只读存储器，磁盘或光盘等。

本发明实施例还提供了一种计算机应用程序，其运行在计算机上，该计算机应用程序用于执行上述中任意一个实施例的非结构化数据处理方法。

此外，图3是本发明实施例中的分布式服务器的结构组成示意图。

本发明实施例还提供了一种分布式服务器，如图3所示。所述分布式服务器包括处理器302、存储器303、输入单元304以及显示单元305等器件。本领域技术人员可以理解，图3示出的分布式服务器结构器件并不构成对所有设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件。存储器303可用于存储应用程序301以及各功能模块，处理器302运行存储在存储器303的应用程序301，从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器，或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程 ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。

输入单元304用于接收信号的输入，以及接收用户输入的关键字。输入单元304可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作），并根据预先设定的程序驱动相应的连接装置；其它输入设备可以包括但不限于物理键盘、功能键（比如播放控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。显示单元305可用于显示用户输入的信息或提供给用户的信息以及终端设备的各种菜单。显示单元305可采用液晶显示器、有机发光二极管等形式。处理器302是终端设备的控制中心，利用各种接口和线路连接整个设备的各个部分，通过运行或执行存储在存储器303内的软件程序和/或模块，以及调用存储在存储器内的数据，执行各种功能和处理数据。

作为一个实施例，所述计算机设备包括：一个或多个处理器302，存储器303，一个或多个应用程序301，其中所述一个或多个应用程序301被存储在存储器303中并被配置为由所述一个或多个处理器302执行，所述一个或多个应用程序301配置用于执行上述实施例中的任意一实施例中的非结构化数据处理方法。

另外，以上对本发明实施例所提供的一种基于分布式服务器的非结构化数据处理方法及相关装置进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于分布式服务器的非结构化数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的非结构化数据处理方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的非结构化数据处理方法，其特征在于，所述分布式服务器基于所述数据查询请求中的查询数据项目名称ID利用所述关联映射关系在多个数据存储节点中获得对应的查询非结构化数据，包括：

所述分布式服务器利用所述数据查询请求中的查询数据项目名称ID在所有存储位置的用于存储所述数据项目名称ID的数据存储节点中进行检索匹配处理，获得检索匹配的匹配数据项目名称ID；

4.根据权利要求2所述的非结构化数据处理方法，其特征在于，所述形成非结构化数据查询列表，包括：

将对应的查询非结构化数据在若干个数据存储节点中的存储索引路径按照数据类型对应填写至所述构建列表中，形成非结构化数据查询列表。

5.根据权利要求1所述的非结构化数据处理方法，其特征在于，所述对所述非结构化数据按照数据类型进行分类处理，获得分类后的非结构化数据，包括：

获得所述非结构化数据中所标记的数据类型；

6.根据权利要求1所述的非结构化数据处理方法，其特征在于，所述基于所述非结构化数据中标注的所属的若干个数据项目名称ID与分类后的非结构化数据进行映射关系建立处理，包括：

7.根据权利要求1所述的非结构化数据处理方法，其特征在于，所述基于所述关联映射关系将所述数据项目名称ID与分类后的非结构化数据在所述存储位置中的对应的多个数据存储节点中进行关联存储处理，包括：

8.一种基于分布式服务器的非结构化数据处理装置，其特征在于，所述装置包括：

9.一种分布式服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。