CN112698988B

CN112698988B - 一种基于分布式系统的解析超大文本文件处理方法

Info

Publication number: CN112698988B
Application number: CN202011603232.8A
Authority: CN
Inventors: 李立强; 吴福全; 王淋淋
Original assignee: Anhui Dike Digital Gold Technology Co ltd
Current assignee: Anhui Dike Digital Gold Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-11-29
Anticipated expiration: 2040-12-30
Also published as: CN112698988A

Abstract

本发明公开了一种基于分布式系统的解析超大文本文件处理方法，获取样本数据和解析分布数据，解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据；对解析分布数据进行分布式分析，得到分布分析数据；根据分布分析数据对样本数据进行划分和分配，得到样本分配集；对样本分配集进行分布式处理，得到样本处理集；将样本处理集进行组合，得到样本解析集；本发明用于解决不能根据分布主机的工作状态和工作能力进行针对性分发数据和处理，使得整体的数据受到节点主机的影响进而使得数据的处理效率不佳的问题，以及不能将整体数据进行均衡划分和分配使得节点主机处理数据的效率达到最佳的问题。

Description

一种基于分布式系统的解析超大文本文件处理方法

技术领域

本发明涉及分布式技术领域，尤其涉及一种基于分布式系统的解析超大文本文件处理方法。

背景技术

当计算机的程序和数据通过网络分布在多于一个的计算机上时，计算就成为“分布式的”。以前的计算通常是由计算中心完成的，尽管仍存在这样的计算中心，大小企业却逐渐将应用程序移至(分布到)企业中能最有效地完成计算的地点进行，通常是桌面工作站、局域网服务器、部门服务器、Web服务器和其他服务器的混合。比较流行的是客户/服务器模式，客户机只具有一定的功能，其他的功能需要从提供服务的服务器那里获得。HTTP协议就是一个例子。在分布式计算环境中，数据的存储和处理可在本地工作站上进行；

超大文本文件(如几十G的txt文件)解析，传统技术容易出现OOM问题，通过分布式系统可以解决超大文本文件处理的弊端，但仍然存在一定的缺陷。

现有的解析超大文本文件处理方法存在的缺陷是：不能根据分布主机的工作状态和工作能力进行针对性分发数据和处理，使得整体的数据受到节点主机的影响进而使得数据的处理效率不佳的问题，以及不能将整体数据进行均衡划分和分配使得节点主机处理数据的效率达到最佳的问题。

发明内容

本发明的目的在于提供一种基于分布式系统的解析超大文本文件处理方法，本发明所要解决的技术问题为：

如何解决现有方案中不能根据分布主机的工作状态和工作能力进行针对性分发数据和处理，使得整体的数据受到节点主机的影响进而使得数据的处理效率不佳的问题，以及不能将整体数据进行均衡划分和分配使得节点主机处理数据的效率达到最佳的问题。

本发明的目的可以通过以下技术方案实现：一种基于分布式系统的解析超大文本文件处理方法，具体的步骤包括：

S1：获取样本数据和解析分布数据，解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据；

S2：对解析分布数据进行分布式分析，得到分布分析数据；

S3：根据分布分析数据对样本数据进行划分和分配，得到样本分配集；

S4：对样本分配集进行分布式处理，得到样本处理集；

S5：将样本处理集进行组合，得到样本解析集。

优选的，对解析分布数据进行分布式分析，得到分布分析数据，包括：

S21：获取解析分布数据中若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据；

S22：设定不同的处理器均对应一个不同的处理预设值，将类型数据中的处理器类型与所有的处理器进行匹配获取对应的处理预设值并标记为CY，获取处理速率数据中的平均处理速率并标记为PC；

S23：获取处理内存数据中的已使用处理内存和未使用处理内存，将已使用处理内存标记为YCN1，将未处理内存标记为WCN1，获取存储内存数据中的已存储内存和未使用存储内存，并将已存储内存标记为YCN2，将未存储内存标记为WCN2；

S24：获取状态数据中若干个主机上一次处理数据的持续时长和间隔时长，设定不同的时长对应不同的时长预设值，将持续时长与所有的时长进行匹配获取对应的时长预设值并标记为第一时预值，将间隔时长与所有的时长进行匹配获取对应的时长预设值并标记为第二时预值；

S25：利用公式获取若干个主机的实运值，该公式为：

其中，Q_sy表示为实运值，μ表示为预设的实运修正因子，g1、g2、g3、g4表示为预设的不同比例系数，YSY表示为第一时预值，ESY表示为第二时预值；

S26：将若干个实运值进行降序排列得到实运排序集；

S27：将标记的处理预设值、平均处理速率、已使用处理内存、未处理内存、已存储内存、未存储内存、第一时预值和第二时预值与实运排序集组合，得到分布分析数据。

优选的，根据分布分析数据对样本数据进行划分和分配，得到样本分配集，包括：

S31：获取分布分析数据中的已使用处理内存、未处理内存、已存储内存、未存储内存；

S32：利用公式获取若干个主机的划分值，该公式为：

其中，Q_hf表示为划分值，β表示为预设的划分修正因子，a1、a2表示为预设的不同比例系数；

S33：将若干个划分值进行降序排列，得到划分排序集，将划分排序集与预设的划分阈值进行匹配，若划分值不小于划分阈值，则判定该划分值有效并将其对应的主机标记为处理主机；若划分值小于划分阈值，则判定该划分值无效并将其对应的主机标记为待机主机，统计处理主机的总数量并标记为划分数量；

S34：获取若干个处理主机的未处理内存的累加值，并计算若干个处理主机的未处理内存与累加值的占比，得到占比系数，将占比系数进行降序排列并标号；

S35：获取样本数据的内存值，将内存值根据占比系数进行划分并降序排列标号，得到样本划分数据；

S36：将样本划分数据根据占比系数与若干个处理主机关联并组合，得到样本分配集。

优选的，对样本分配集进行分布式处理，得到样本处理集，包括：

S41：获取处理主机的分布坐标，根据分布坐标将样本划分数据分发至若干个处理主机，若干个处理主机接收样本划分数据并进行解析，得到样本解析数据；

S42：获取处理主机解析的持续时长和样本解析数据的占用内存，根据持续时长将该处理主机的工作时长进行更新，将样本数据存储至处理主机中进行备份并获取备份路径；

S43：根据样本解析数据的占用内存对处理主机的已存储内存和未存储内存分别进行加减更新，得到更新已存储存储和更新未存储内存；

S44：将若干个备份路径根据处理主机的排序标号和分布坐标进行排列组合，得到路径分配集；

S45：将路径分配集和若干个降序排列的样本解析数据组合，得到样本处理集。

优选的，将样本处理集进行组合，得到样本解析集，包括：

将路径分配集根据降序排列的标号和分布坐标与样本解析数据进行关联，并将若干个样本解析数据根据降序排列的标号进行组合，得到样本解析集。

本发明的有益效果：

本发明公开的若干个方面，获取样本数据和解析分布数据，解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据；通过采集样本数据和解析分布数据并进行处理，从节点主机的类型、处理速率、处理内存和存储内存以及状态等方面综合考虑主机的处理能力，为样本数据的拆分和分配提供了数据支撑；

对解析分布数据进行分布式分析，得到分布分析数据；通过对解析分布数据进行分析，获取各个节点主机的工作状态和处理能力，便于对不同节点的主机分配不同大小的样本数据来提高整体数据的处理效果；可以达到根据分布主机的工作状态和工作能力进行针对性分发数据和处理，消除整体的数据受到节点主机的影响进而使得数据的处理效率提升的目的；

根据分布分析数据对样本数据进行划分和分配，得到样本分配集；对样本分配集进行分布式处理，得到样本处理集；将样本处理集进行组合，得到样本解析集；通过将样本数据根据各个节点主机进行匹配和划分，经过分布式节点主机处理后将数据进行备份和组合，可以将整体数据进行均衡划分和分配使得节点主机处理数据的效率达到最佳的目的。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明一种基于分布式系统的解析超大文本文件处理方法的流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于分布式系统的解析超大文本文件处理方法，具体的步骤包括：

本发明实施例中，样本数据为超大文本文件，解析分布数据为若干个节点的主机信息，包含主机的类型、处理速率、处理内存、存储内存和状态方面数据；

S2：对解析分布数据进行分布式分析，得到分布分析数据；包括：

获取解析分布数据中若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据；

设定不同的处理器均对应一个不同的处理预设值，将类型数据中的处理器类型与所有的处理器进行匹配获取对应的处理预设值并标记为CY，获取处理速率数据中的平均处理速率并标记为PC；

获取处理内存数据中的已使用处理内存和未使用处理内存，将已使用处理内存标记为YCN1，将未处理内存标记为WCN1，获取存储内存数据中的已存储内存和未使用存储内存，并将已存储内存标记为YCN2，将未存储内存标记为WCN2；

获取状态数据中若干个主机上一次处理数据的持续时长和间隔时长，设定不同的时长对应不同的时长预设值，将持续时长与所有的时长进行匹配获取对应的时长预设值并标记为第一时预值，将间隔时长与所有的时长进行匹配获取对应的时长预设值并标记为第二时预值；

利用公式获取若干个主机的实运值，该公式为：

将若干个实运值进行降序排列得到实运排序集；

将标记的处理预设值、平均处理速率、已使用处理内存、未处理内存、已存储内存、未存储内存、第一时预值和第二时预值与实运排序集组合，得到分布分析数据；

S3：根据分布分析数据对样本数据进行划分和分配，得到样本分配集；包括：

获取分布分析数据中的已使用处理内存、未处理内存、已存储内存、未存储内存；

利用公式获取若干个主机的划分值，该公式为：

将若干个划分值进行降序排列，得到划分排序集，将划分排序集与预设的划分阈值进行匹配，若划分值不小于划分阈值，则判定该划分值有效并将其对应的主机标记为处理主机；若划分值小于划分阈值，则判定该划分值无效并将其对应的主机标记为待机主机，统计处理主机的总数量并标记为划分数量；

获取若干个处理主机的未处理内存的累加值，并计算若干个处理主机的未处理内存与累加值的占比，得到占比系数，将占比系数进行降序排列并标号；

获取样本数据的内存值，将内存值根据占比系数进行划分并降序排列标号，得到样本划分数据；

将样本划分数据根据占比系数与若干个处理主机关联并组合，得到样本分配集；

S4：对样本分配集进行分布式处理，得到样本处理集；包括：

获取处理主机的分布坐标，根据分布坐标将样本划分数据分发至若干个处理主机，若干个处理主机接收样本划分数据并进行解析，得到样本解析数据；

获取处理主机解析的持续时长和样本解析数据的占用内存，根据持续时长将该处理主机的工作时长进行更新，将样本数据存储至处理主机中进行备份并获取备份路径；

根据样本解析数据的占用内存对处理主机的已存储内存和未存储内存分别进行加减更新，得到更新已存储存储和更新未存储内存；

将若干个备份路径根据处理主机的排序标号和分布坐标进行排列组合，得到路径分配集；

将路径分配集和若干个降序排列的样本解析数据组合，得到样本处理集；

S5：将样本处理集进行组合，得到样本解析集，包括：

将路径分配集根据降序排列的标号和分布坐标与样本解析数据进行关联，并将若干个样本解析数据根据降序排列的标号进行组合，得到样本解析集；

上述公式均是采集大量数据进行软件模拟得出且选取与真实值接近的一个公式，公式中的系数是由本领域技术人员根据实际情况进行设置。

本发明的工作原理：本发明实施例中，获取样本数据和解析分布数据，解析分布数据包含若干个主机的类型数据、处理速率数据、处理内存数据、存储内存数据和状态数据；通过采集样本数据和解析分布数据并进行处理，从节点主机的类型、处理速率、处理内存和存储内存以及状态等方面综合考虑主机的处理能力，为样本数据的拆分和分配提供了数据支撑；

对解析分布数据进行分布式分析，利用公式

获取若干个主机的实运值；将若干个实运值进行降序排列得到实运排序集，将标记的处理预设值、平均处理速率、已使用处理内存、未处理内存、已存储内存、未存储内存、第一时预值和第二时预值与实运排序集组合，得到分布分析数据；通过对解析分布数据进行分析，获取各个节点主机的工作状态和处理能力，便于对不同节点的主机分配不同大小的样本数据来提高整体数据的处理效果；可以达到根据分布主机的工作状态和工作能力进行针对性分发数据和处理，消除整体的数据受到节点主机的影响进而使得数据的处理效率提升的目的；

根据分布分析数据对样本数据进行划分和分配，利用公式

获取若干个主机的划分值；将若干个划分值进行降序排列，得到划分排序集，将划分排序集与预设的划分阈值进行匹配，若划分值不小于划分阈值，则判定该划分值有效并将其对应的主机标记为处理主机；若划分值小于划分阈值，则判定该划分值无效并将其对应的主机标记为待机主机，统计处理主机的总数量并标记为划分数量；获取若干个处理主机的未处理内存的累加值，并计算若干个处理主机的未处理内存与累加值的占比，得到占比系数，将占比系数进行降序排列并标号；获取样本数据的内存值，将内存值根据占比系数进行划分并降序排列标号，得到样本划分数据；将样本划分数据根据占比系数与若干个处理主机关联并组合，得到样本分配集；对样本分配集进行分布式处理，获取处理主机的分布坐标，根据分布坐标将样本划分数据分发至若干个处理主机，若干个处理主机接收样本划分数据并进行解析，得到样本解析数据；获取处理主机解析的持续时长和样本解析数据的占用内存，根据持续时长将该处理主机的工作时长进行更新，将样本数据存储至处理主机中进行备份并获取备份路径；根据样本解析数据的占用内存对处理主机的已存储内存和未存储内存分别进行加减更新，得到更新已存储存储和更新未存储内存；将若干个备份路径根据处理主机的排序标号和分布坐标进行排列组合，得到路径分配集；将路径分配集和若干个降序排列的样本解析数据组合，得到样本处理集；将样本处理集进行组合，得到样本解析集；通过将样本数据根据各个节点主机进行匹配和划分，经过分布式节点主机处理后将数据进行备份和组合，可以将整体数据进行均衡划分和分配使得节点主机处理数据的效率达到最佳的目的。

在本发明所提供的实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。

另外，在本发明若干个实施例中的各功能模块可以集成在一个控制模块中，也可以是若干个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他模块或步骤，单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.一种基于分布式系统的解析超大文本文件处理方法，其特征在于，具体的步骤包括：

S2：对解析分布数据进行分布式分析，得到分布分析数据；

S4：对样本分配集进行分布式处理，得到样本处理集；

S5：将样本处理集进行组合，得到样本解析集；

对解析分布数据进行分布式分析，得到分布分析数据，包括：

S25：利用公式获取若干个主机的实运值，该公式为：

S26：将若干个实运值进行降序排列得到实运排序集；

S27：将标记的处理预设值、平均处理速率、已使用处理内存、未处理内存、已存储内存、未存储内存、第一时预值和第二时预值与实运排序集组合，得到分布分析数据；

根据分布分析数据对样本数据进行划分和分配，得到样本分配集，包括：

S32：利用公式获取若干个主机的划分值，该公式为：

S36：将样本划分数据根据占比系数与若干个处理主机关联并组合，得到样本分配集；

对样本分配集进行分布式处理，得到样本处理集，包括：

S43：根据样本解析数据的占用内存对处理主机的已存储内存和未存储内存分别进行加减更新，得到更新已存储内存和更新未存储内存；

2.根据权利要求1所述的一种基于分布式系统的解析超大文本文件处理方法，其特征在于，将样本处理集进行组合，得到样本解析集，包括：