CN114328389B

CN114328389B - 一种云计算环境下的大数据文件分析处理系统及方法

Info

Publication number: CN114328389B
Application number: CN202111660782.8A
Authority: CN
Inventors: 姜义凡
Original assignee: Zhejiang Huiding Hualian Technology Co ltd
Current assignee: Zhejiang Huiding Hualian Technology Co ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-06-17
Anticipated expiration: 2041-12-31
Also published as: CN114328389A

Abstract

本发明公开了一种云计算环境下的大数据文件分析处理系统及方法，所述存储类别校准模块根据相同的一级关键词对应的文件片段相应的二级关键词之间的关系，对文件片段对应的存储类别进行校准，并按照各文件片段对应的校准后的存储类别对各个文件片段进行分布式存储。本发明能够根据文件对内存进行规划，在文件内存较大且剩余存储内存较小的情况下，合理分配存储空间，对文件进行有效存储，避免对存储空间造成浪费，同时对文件进行分割，并分别进行保存，有效提高了文件存储的安全性，同时在文件分析结束或者查询结束后，会自动对文件进行清理，在确保数据库内容不受影响的情况下，确保文件不对存储资源造成不良影响。

Description

一种云计算环境下的大数据文件分析处理系统及方法

技术领域

本发明涉及数据分析处理技术领域，具体为一种云计算环境下的大数据文件分析处理系统及方法。

背景技术

随着计算机技术的快速发展，人们对计算机技术的运用越来越广泛，尤其是云计算技术，为人们的生产生活带来了巨大的便利。

通过云计算技术，人们能够实现对大数据文件的快速分析处理，现有的云计算环境下的大数据文件分析处理系统只是侧重的是对文件类型的识别，根据识别出的文件类型，选用相应的文件分析处理软件对文件进行处理；但是对文件的管理却存在较大的缺陷，首先，不能够根据文件对内存进行规划，在文件内存较大且剩余存储内存较小的情况下，可能会导致文件存储失败，进而会影响对文件的分析处理，同时文件的安全性也存在较大的风险。

针对上述情况，我们需要一种云计算环境下的大数据文件分析处理系统及方法。

发明内容

本发明的目的在于提供一种云计算环境下的大数据文件分析处理系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种云计算环境下的大数据文件分析处理系统，包括：

文件获取模块，所述文件获取模块用于对云计算环境下的文件进行获取；

文件云备份模块，所述文件云备份模块根据文件内容对文件进行分布式归类存储；

备份文件校对模块，所述备份文件校对模块将文件获取模块中文件对应的文件名称编号与文件云备份模块中存储的文件名称编号进行匹配，判断文件获取模块中的文件是否在文件云备份模块中成功进行云备份；

文件分析模块，所述文件分析模块文件获取模块获取的且成功进行云备份的文件进行分析，并根据该文件对应的文件名称编号为该文件对应分析结果相应的文件进行命名并保存到指定的数据库中，且文件分析模块将已分析过的该文件从文件获取模块中删除；

文件分析结果查询模块，所述文件分析结果查询模块对应指定文件的分析结果进行查询时，会自动根据该指定文件的文件名称编号，对该指定文件的分析结果对应的文件进行复制提取，并在文件云备份模块中该指定文件对应的备份文件进行复制提取，在查询结束后，文件分析结果查询模块自动将提取的该指定文件及该指定文件的分析结果对应的文件进行删除。

本发明通过各个模块的协同合作，共同实现了对文件的获取、备份、校对、分析、查询功能；且在每次查询时，均会对文件内容及文件的分析结果进行复制提取，确保数据库内的数据不受影响且不发生改变，同时在查询结束以后，会自动将提取的文件进行删除，确保提取的文件不对系统的存储资源造成影响。

进一步的，所述文件云备份模块包括文件片段化处理模块、靶坐标绑定模块、存储类别划分模块及存储类别校准模块，

所述文件片段化处理模块根据各个一级关键词对应的位置将文件进行分割，得到多个文件片段，每个文件片段中至少包含一个一级关键词，且含有多个一级关键词的文件片段中多个一级关键词位于同一个句子中；

所述靶坐标绑定模块根据各个文件片段在分割前的文件中的位置先后顺序，为各个文件片段进行排序，并为每个文件片段绑定一个靶坐标，将第n1个文件片段对应的靶坐标记为(n1，n)，所述n为该文件对应的文件片段的总个数；

所述存储类别划分模块对每个文件片段进行二级关键词提取，并根据每个文件片段中的二级关键词对相应文件片段的存储类别进行划分；

所述存储类别校准模块根据相同的一级关键词对应的文件片段相应的二级关键词之间的关系，对文件片段对应的存储类别进行校准，并按照各文件片段对应的校准后的存储类别对各个文件片段进行分布式存储。

本发明文件云备份模块中的文件片段化处理模块、靶坐标绑定模块、存储类别划分模块及存储类别校准模块分别对应该系统中文件云备份过程中的步骤，通过文件片段化处理模块将文件碎片化，分割成较小的文件片段，便于对文件片段进行存储，尽可能的不造成存储资源的浪费；靶坐标绑定模块通过将靶坐标与文件片段进行绑定，便于获取文件片段的先后顺序，便于后续在对文件备份文件的复制提取后，根据靶坐标快速对文件进行组装复原；存储类别划分模块是为了对文件片段的类别进行划分，不同的类别对应的不同的存储位置或者数据库，实现对文件的分布式存储，同时确保文件碎片化、不造成存储资源浪费的同时，还确保了文件信息的安全。

进一步的，所述文件片段化处理模块对文件片段的方法包括以下步骤：

S1.1、得到文件获取模块获取的文件；

S1.2、通过对比数据库，得到预制的一级关键词集合；

S1.3、检索S1.1中获取的文件中属于预制的一级关键词集合的一级关键词，并对检索出的各个一级关键词通过第一标记方式进行标记；

S1.4、获取文件中通过第一标记方式进行标记的各个一级关键词的位置，并对相邻的两个一级关键词的位置进行判断，

当相邻的两个一级关键词位于同一个句子中，则不对这两个一级关键词所处的句子进行分割，

当相邻的两个一级关键词位于不同的句子中，则将前一个一级关键词所处的句子至后一个关键词所处的句子之前的内容作为一个文件片段。

进一步的，所述存储类别划分模块对文件片段进行二级关键词提取时，

通过对比数据库，得到预制的二级关键词集合，

检索获取的文件片段中属于预制的二级关键词集合的二级关键词，并对检索出的各个二级关键词逐个录入到一个空白集合中，得到该文件片段对应的二级关键词集合，将文件中第n1个文件片段对应的二级关键词集合记为An1，

当预制的二级关键词集合的某个二级关键词在获取的文件片段中出现多次时，该获取的文件片段对应的二级关键词集合中该二级关键词对应的个数为多个；

当预制的二级关键词集合的某个二级关键词在获取的文件片段中出现一次时，该获取的文件片段对应的二级关键词集合中该二级关键词对应的个数为一个。

进一步的，所述存储类别划分模块根据每个文件片段中的二级关键词对相应文件片段的存储类别进行划分的方法包括以下步骤：

S2.1、获取n1为不同值时，文件中第n1个文件片段对应的二级关键词集合An1；

S2.2、统计An1中二级关键词的种类n2、二级关键词的总个数n3及各个种类的二级关键词分别出现的频数，将第i个种类的二级关键词出现的频数记为n4i，得到第i个种类的关键词出现的频率n5i，所述

将An1中不同元素对应的相同二级关键词作为一个二级关键词种类；

S2.3、获取对比数据库中历史数据中每个存储类别中每个二级关键词集合内各个二级关键词出现的频率，将历史数据中第i1个存储类别中第i2个文件片段对应的二级关键词集合记为Ai2_i1，将An1中第i个种类的二级关键词在历史数据中第i1个存储类别中第i2个文件片段对应的二级关键词集合中出现的频率记为

S2.4、计算An1与第i1个存储类别对应的类别偏差值An1_i1，

所述

其中，k_i1表示历史数据中第i1个存储类别中存储的文件片段的总个数；

S2.5、获取i1为不同值时，An1分别对应的各个An1_i1的最小值，并将该最小值对应的存储类别作为文件中第n1个文件片段对应的存储类别。

本发明存储类别划分模块中，在计算An1与第i1个存储类别对应的类别偏差值An1_i1的过程中，计算

是为了得到An1中第i个种类的二级关键词出现的频率与An1中第i个种类的二级关键词在历史数据中第i1个存储类别中第i2个文件片段对应的二级关键词集合中出现的频率的差异值，对

求取绝对值是为了确保得到的结果符号统一，避免获取的差异值相互之间进行抵消；计算

是为了得到在将An1视为第i1个存储类别的情况下，An1中第i个种类的二级关键词在相应二级关键词集合中出现的频率之和，同时还确保了

大于0；计算

是为了得到在将An1视为第i1个存储类别的情况下，An1中第i个种类的二级关键词在相应二级关键词集合中出现的频率的平均值；计算

是为了得到An1中第i个种类的二级关键词与第i1个存储类别中第i2个文件片段之间对应的偏差度；计算

是为了得到An1中第i个种类的二级关键词与第i1个存储类别中各个文件片段之间对应的偏差度的平均值，即An1中第i个种类的二级关键词与第i1个存储类别对应的偏差度。

进一步的，所述存储类别校准模块对文件片段的存储类别进行校准的方法包括以下步骤：

S3.1、将文件中的各个文件片段中的任意两个进行组合，将文件中第j 1个文件片段与第j2个文件片段之间的相似度记为

S3.2、计算文件中每个组合中两个文件片段之间的相似度，分别将每个组合中两个文件片段之间的相似度与第一预设值进行比较，

当组合中两个文件片段之间的相似度大于等于第一预设值时，则对组合中两个文件片段之间的相似度通过第二标记方式进行标记，反之，则不对组合中两个文件片段之间的相似度进行处理；

S3.3、将通过第二标记方式标记的相似度按从小到大的顺序进行排序，并按从小到大的顺序逐个对标记的相似度对应的两个文件片段的存储类别进一步进行校准；

对标记的相似度对应的两个文件片段的存储类别进一步进行校准的方法包括以下步骤：

S3.3.1、获取对标记的相似度对应的两个文件片段，分别记为第g1个文件片段和第g2个文件片段，获取第g1个文件片段与第g2个文件片段重合的二级关键词种类，将不重合的二级关键词种类分别从第g1个文件片段与第g2个文件片段对应的二级关键词集合中剔除，分别得到第g1个文件片段与第g2个文件片段对应的校准后的二级关键词集合，将第g1个文件片段对应的校准后的二级关键词集合记为

将第g2个文件片段对应的校准后的二级关键词集合记为

S3.3.2、将存储类别划分模块中第g1个文件片段对应的存储类别记为g3，将存储类别划分模块中第g2个文件片段对应的存储类别记为g4；

S3.3.3、根据S2.4中类别偏差值的计算公式，

得到

与第g3个类别对应的类别偏差值

得到

与第g4个类别对应的类别偏差值

得到

与第g3个类别对应的类别偏差值

得到

与第g4个类别对应的类别偏差值

S3.3.4、比较

与

的大小关系，

当

时，则判定校准后第g1个文件片段及第g2个文件片段对应的存储类别均为g4，

当

时，则判定校准后第g1个文件片段对应的存储类别均为g3，第g2个文件片段对应的存储类别为g4，

当

时，则判定校准后第g1个文件片段及第g2个文件片段对应的存储类别均为g3。

本发明计算每个组合中两个文件片段之间的相似度，是为了后续进一步缩小需要校准的文件片段范围；将不重合的二级关键词种类分别从第g1个文件片段与第g2个文件片段对应的二级关键词集合中剔除，是为了获取第g1个文件片段与第g2个文件片段对应的二级关键词集合中在只包含相同种类的二级关键词的情况下，对应的类别偏差值，进而为后续对文件片段的存储类别的校准提供参考依据，使得校准结果更加准确。

进一步的，所述存储类别校准模块计算文件中第j1个文件片段与第j2个文件片段之间的相似度的方法包括以下步骤：

S4.1、获取第j1个文件片段与第j2个文件片段重合的二级关键词种类；

S4.2、统计第j1个文件片段中重合的二级关键词种类对应的二级关键词总个数与相应的二级关键词集合中元素的总个数的比值Q1；

S4.3、统计j2个文件片段中重合的二级关键词种类对应的二级关键词总个数与相应的二级关键词集合中元素的总个数的比值Q2；

S4.4、计算Q1与Q2的平均值，所得结果即为文件中第j1个文件片段与第j2个文件片段之间的相似度。

进一步的，所述文件分析模块根据该文件对应的文件名称编号为该文件对应分析结果相应的文件进行命名的方法如下：

所述该文件对应分析结果相应的文件表示保存该文件对应分析结果的文件，

用W1/W2的方式对该文件进行命名，其中，W1表示该文件对应的文件名称编号，W2为固定内容，表示文件的分析结果。

进一步的，用W3+F1/W1/W4+F2的方式对该文件中各个文件片段进行命名，

其中，W3表示文件片段相邻的前一个文件片段对应的靶坐标或者(0，n)，其中W4表示文件片段相邻的后一个文件片段对应的靶坐标或者(n+1，n)，F1表示文件片段相邻的前一个文件片段对应的存储类别，F2表示文件片段相邻的后一个文件片段对应的存储类别，

W3为(0，n)的文件片段为该文件的第一个文件片段，该文件片段不存在相邻的前一个文件片段，同时此时F1对应的存储类别为空，

W4为(n+1，n)的文件片段为该文件的最后一个文件片段，该文件片段不存在相邻的后一个文件片段，同时此时F2对应的存储类别为空。

一种云计算环境下的大数据文件分析处理方法，所述方法包括以下步骤：

S1、通过文件获取模块对云计算环境下的文件进行获取；

S2、在文件云备份模块中，根据文件内容对文件进行分布式归类存储；

S3、通过备份文件校对模块将文件获取模块中文件对应的文件名称编号与文件云备份模块中存储的文件名称编号进行匹配，判断文件获取模块中的文件是否在文件云备份模块中成功进行云备份；

S4、通过文件分析模块对文件获取模块获取的且成功进行云备份的文件进行分析，并根据该文件对应的文件名称编号为该文件对应分析结果相应的文件进行命名并保存到指定的数据库中，且文件分析模块将已分析过的该文件从文件获取模块中删除；

S5、文件分析结果查询模块对应指定文件的分析结果进行查询时，会自动根据该指定文件的文件名称编号，对该指定文件的分析结果对应的文件进行复制提取，并在文件云备份模块中该指定文件对应的备份文件进行复制提取，在查询结束后，文件分析结果查询模块自动将提取的该指定文件及该指定文件的分析结果对应的文件进行删除。

与现有技术相比，本发明所达到的有益效果是：本发明能够根据文件对内存进行规划，在文件内存较大且剩余存储内存较小的情况下，合理分配存储空间，对文件进行有效存储，避免对存储空间造成浪费，同时对文件进行分割，并分别进行保存，有效提高了文件存储的安全性，同时在文件分析结束或者查询结束后，会自动对文件进行清理，在确保数据库内容不受影响的情况下，确保文件不对存储资源造成不良影响。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种云计算环境下的大数据文件分析处理系统的结构示意图；

图2是本发明一种云计算环境下的大数据文件分析处理系统中存储类别划分模块根据每个文件片段中的二级关键词对相应文件片段的存储类别进行划分的方法的流程示意图；

图3是本发明一种云计算环境下的大数据文件分析处理系统中存储类别校准模块对文件片段的存储类别进行校准的方法的流程示意图；

图4是本发明一种云计算环境下的大数据文件分析处理方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图4，本发明提供技术方案：一种云计算环境下的大数据文件分析处理系统，包括：

所述文件云备份模块包括文件片段化处理模块、靶坐标绑定模块、存储类别划分模块及存储类别校准模块，

所述文件片段化处理模块对文件片段的方法包括以下步骤：

S1.1、得到文件获取模块获取的文件；

S1.2、通过对比数据库，得到预制的一级关键词集合；

本实施例中若预制的一级关键词集合为{h1，h2}，获取的文件记为T，

对T进行检索，获取T中包含的所有h1或者h2及其相应的位置，

若一句话中既包含h1又包含h2或者同时包含多个h1或同时包含多个h2，则不对该句子进行处理，

若相邻的两个h1或h2不在同一句话中，则将前一个一级关键词所处的句子至后一个关键词所处的句子之前的内容作为一个文件片段，如“x...h1...x1。x2...h2...x3。”分割后得到的片段为“x...h1...x1。”和“x2...h2...x3。”。

通过对比数据库，得到预制的二级关键词集合，

本实施例中若预制的二级关键词集合为{p1，p2}，预制的二级关键词集合中的p1及p2在文件片段f中出现的个数及位置如下：“...p1...p1...p2...p1...”,

则文件片段f对应的二级关键词集合为{p1，p1，p2，p1}。

所述存储类别划分模块根据每个文件片段中的二级关键词对相应文件片段的存储类别进行划分的方法包括以下步骤：

S2.4、计算An1与第i1个存储类别对应的类别偏差值An1_i1，

所述

本实施例中若{第一个种类的二级关键词，第二个种类的二级关键词，第一个种类的二级关键词}为文件中第3个文件片段对应的二级关键词集合A3，

则第一个种类的二级关键词在A3中出现的频率为

第二个种类的二级关键词在A3中出现的频率为

若历史数据中第3个存储类别存储了两个文件片段，

历史数据中第3个存储类别中第一个文件片段对应的二级关键词集合x1为{第二种类的二级关键词，第二种类的二级关键词}，

历史数据中第3个存储类别中第二个文件片段对应的二级关键词集合x2为{第一种类的二级关键词，第三种类的二级关键词}，

则第一个种类的二级关键词在x1中出现的频率为

第二个种类的二级关键词在x1中出现的频率为

第一个种类的二级关键词在x2中出现的频率为

第二个种类的二级关键词在x2中出现的频率为

则A3与第3个存储类别对应的类别偏差值为

所述

大于0；计算

所述存储类别校准模块对文件片段的存储类别进行校准的方法包括以下步骤：

S3.1、将文件中的各个文件片段中的任意两个进行组合，将文件中第j1个文件片段与第j2个文件片段之间的相似度记为

将第g2个文件片段对应的校准后的二级关键词集合记为

S3.3.3、根据S2.4中类别偏差值的计算公式，

得到

与第g3个类别对应的类别偏差值

得到

与第g4个类别对应的类别偏差值

得到

与第g3个类别对应的类别偏差值

得到

与第g4个类别对应的类别偏差值

S3.3.4、比较

与

的大小关系，

当

当

当

所述存储类别校准模块计算文件中第j1个文件片段与第j2个文件片段之间的相似度的方法包括以下步骤：

所述文件分析模块根据该文件对应的文件名称编号为该文件对应分析结果相应的文件进行命名的方法如下：

用W3+F1/W1/W4+F2的方式对该文件中各个文件片段进行命名，

本实施例中若文件名称编号为000003，且该文件划分为5个文件片段，

该文件中第一个文件片段对应的存储位置为y1，

该文件中第二个文件片段对应的存储位置为y2，

该文件中第三个文件片段对应的存储位置为y3，

该文件中第四个文件片段对应的存储位置为y4，

该文件中第五个文件片段对应的存储位置为y5，

则该文件中第一个文件片段对应的名称为：“(0,5)+/000003/(2,5)+y2”，

该文件中第二个文件片段对应的名称为：“(1,5)+y1/000003/(3,5)+y3”，

该文件中第三个文件片段对应的名称为：“(2,5)+y2/000003/(4,5)+y4”，

该文件中第四个文件片段对应的名称为：“(3,5)+y3/000003/(5,5)+y5”，

该文件中第五个文件片段对应的名称为：“(4,5)+y4/000003/(6,5)+”。

S1、通过文件获取模块对云计算环境下的文件进行获取；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种云计算环境下的大数据文件分析处理系统，其特征在于，包括：

文件分析模块，所述文件分析模块对文件获取模块获取的且成功进行云备份的文件进行分析，并根据该文件对应的文件名称编号为该文件对应分析结果相应的文件进行命名并保存到指定的数据库中，且文件分析模块将已分析过的该文件从文件获取模块中删除；

文件分析结果查询模块，所述文件分析结果查询模块对指定文件的分析结果进行查询时，会自动根据该指定文件的文件名称编号，对该指定文件的分析结果对应的文件进行复制提取，并在文件云备份模块中该指定文件对应的备份文件进行复制提取，在查询结束后，文件分析结果查询模块自动将提取的该指定文件及该指定文件的分析结果对应的文件进行删除；

所述存储类别校准模块将文件中的各个文件片段中的任意两个进行组合，并根据相似度大于等于第一预设值的组合中两个文件片段相应的二级关键词之间的关系，对这两个文件片段对应的存储类别进行校准，并按照各文件片段对应的校准后的存储类别对各个文件片段进行分布式存储。

2.根据权利要求1所述的一种云计算环境下的大数据文件分析处理系统，其特征在于：所述文件片段化处理模块对文件片段的方法包括以下步骤：

S1.1、得到文件获取模块获取的文件；

S1.2、通过对比数据库，得到预制的一级关键词集合；

3.根据权利要求1所述的一种云计算环境下的大数据文件分析处理系统，其特征在于：所述存储类别划分模块对文件片段进行二级关键词提取时，

通过对比数据库，得到预制的二级关键词集合，

4.根据权利要求3所述的一种云计算环境下的大数据文件分析处理系统，其特征在于：所述存储类别划分模块根据每个文件片段中的二级关键词对相应文件片段的存储类别进行划分的方法包括以下步骤：