CN117891411A

CN117891411A - 一种海量档案数据优化存储方法

Info

Publication number: CN117891411A
Application number: CN202410288658.0A
Authority: CN
Inventors: 董婉婷; 户现标; 吴金斌
Original assignee: Jining Snail Software Technology Co ltd
Current assignee: Jining Snail Software Technology Co ltd
Priority date: 2024-03-14
Filing date: 2024-03-14
Publication date: 2024-04-16

Abstract

本发明涉及数据处理技术领域，具体涉及一种海量档案数据优化存储方法。该方法获取数据样本集；将数据样本拆分为词汇，根据词汇出现的频率，获取特征程度值，确定特征词；通过层次聚类算法对数据样本进行聚类，根据任意两个节点的子节点的特征词的特征程度值和在父节点的特征程度值，以及子节点的词袋模型，获取任意两个节点的可聚类值，确定聚类层次树；根据聚类层次树的每个层次中节点内数据样本的相似程度和节点之间的相似程度，获取聚类效果值，确定数据样本类别，对档案数据进行优化存储。本发明通过分析节点的特征词和词袋模型，对节点进行聚类，降低了层次聚类算法的计算量，提高了聚类结果的准确性，实现对档案数据的优化存储。

Description

一种海量档案数据优化存储方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种海量档案数据优化存储方法。

背景技术

在现代信息社会中电子档案数量急剧增多，传统的档案管理模式已经不再适合当今的电子档案管理模式。面对海量的电子档案数据需要考虑如何存储这些档案数据，不同于纸质档案的存储方式，电子档案需要通过压缩、传输等一系列步骤才能实现存储。由于电子档案数据量庞大，直接进行压缩容易导致存储效率低和数据容易丢失的问题，无法确保电子档案的完整性和安全性，为了解决这一问题，现有方法利用层次聚类算法对档案数据进行分类处理，进而针对不同的档案类别选择合适的压缩方式，对电子档案数据进行优化存储。但在实际情况中，层次聚类算法在对海量的档案数据进行分类的过程中，由于档案数据量较大，巨大的计算量导致层次聚类算法的聚类结果不准确，使得档案数据的分类结果不准确，无法实现对档案数据进行优化存储。

发明内容

为了解决巨大的计算量导致层次聚类算法的聚类结果不准确，无法实现对档案数据进行优化存储的技术问题，本发明的目的在于提供一种海量档案数据优化存储方法，所采用的技术方案具体如下：

本发明提出了一种海量档案数据优化存储方法，该方法包括以下步骤：

获取海量档案数据的数据样本集；

将每个数据样本的文本拆分为词汇，根据每个词汇在每个数据样本中出现的频率和在数据样本集中出现的频率，获取每个词汇在每个数据样本中的特征程度值，确定每个数据样本的特征词；

将一个数据样本作为一个节点，通过层次聚类算法对数据样本进行聚类，根据父节点内数据样本的特征词和当前其他节点内数据样本的特征词，获取父节点的特征词；根据任意两个节点的子节点的特征词的特征程度值和在父节点的特征程度值，以及子节点的词袋模型的特征向量的相似程度，获取任意两个节点的可聚类值，确定聚类层次树；

根据聚类层次树的每个层次中每个节点内任意两个数据样本的词袋模型的特征向量的相似程度和任意两个节点的词袋模型的特征向量的相似程度，获取每个层次的聚类效果值；

根据所述聚类效果值，确定最佳聚类层次，获取数据样本类别，对每个数据样本类别中的档案数据进行优化存储。

进一步地，所述特征程度值的计算公式为：

式中，为第a个词汇在第b个数据样本中的特征程度值；/>为第a个词汇在第b个数据样本中出现的次数；/>为第b个数据样本中词汇的总数量；/>为存在第a个词汇的数据样本的数量；M为数据样本的总数量；/>为第a个词汇在第b个数据样本中出现的频率；/>为第a个词汇在数据样本集中出现的频率；norm为归一化函数。

进一步地，所述确定每个数据样本的特征词的方法为：

当所述特征程度值大于预设的特征程度值阈值时，将对应词汇作为对应数据样本的特征词。

进一步地，所述获取父节点的特征词的方法为：

对于任一个父节点，将该父节点内所有数据样本的特征词作为参考特征词；

获取每个参考特征词在该父节点中出现的频率，作为对应参考特征词的第一频率；

获取每个参考特征词在当前所有节点中出现的频率，作为对应参考特征词的第二频率；

将每个参考特征词的第一频率与第二频率的比值，作为对应参考特征词在该父节点的特征程度值；

将在该父节点的特征程度值大于预设的特征程度值阈值的参考特征词，作为该父节点的特征词。

进一步地，所述可聚类值的获取方法为：

当聚类的两个节点均不存在子节点时，根据相同特征词在两个节点的特征程度值的差异和两个节点的词袋模型的特征向量的余弦相似度，获取两个节点的可聚类值；

当聚类的两个节点中只有一个节点存在子节点时，将不存在子节点的节点作为第一节点，将存在子节点的节点作为第二节点；

对于第二节点中的任一个子节点，获取该子节点的每个特征词在第二节点的特征程度值的累加结果，作为该子节点的第一结果；

将该子节点的每个特征词在第二节点的特征程度值与所述第一结果的比值，作为该子节点的对应特征词的贡献程度值；

将该子节点的每个特征词的贡献程度值和特征程度值的乘积，作为该子节点的对应特征词在第二节点的实际参与值；

根据相同特征词在第一节点的特征程度值和在第二节点的实际参与值之间的差异，以及第一节点的词袋模型的特征向量与第二节点的每个子节点的词袋模型的特征向量的余弦相似度，获取两个节点的可聚类值；

当聚类的两个节点均存在子节点时，根据相同特征词在两个节点的实际参与值的差异和两个节点的子节点的词袋模型的特征向量的余弦相似度，获取两个节点的可聚类值。

进一步地，所述可聚类值的计算公式为：

当聚类的两个节点均不存在子节点时：

当聚类的两个节点中只有一个节点存在子节点时：

当聚类的两个节点均存在子节点时：

式中，为第x个节点和第y个节点的可聚类值；K为第x个节点和第y个节点的特征词的种类总数量；/>为第k种特征词在第x个节点中的特征程度值；/>为第k种特征词在第y个节点中的特征程度值；/>为第x个节点的词袋模型的特征向量；/>为第y个节点的词袋模型的特征向量；/>为第x个节点和第y个节点的词袋模型的特征向量的余弦相似度；J为第x个节点和第y个节点的所有子节点的特征词的种类总数量；/>为第j种特征词在第x个节点中的特征程度值；/>为第j种特征词在第y个节点的第v个子节点中的特征程度值；为第y个节点的第v个子节点的第j种特征词在第y个节点中的特征程度值；/>为第y个节点的第v个子节点的第一结果；/>为第y个节点的第v个子节点的第j种特征词的贡献程度值；V为第y个节点的子节点的总数量；/>为第y个节点的第v个子节点的词袋模型的特征向量；T为第x个节点的所有子节点的特征词和第y个节点的所有子节点的特征词的种类总数量；Q为第x个节点的子节点的总数量；/>为第t种特征词在第x个节点的第q个子节点中的特征程度值；/>为第t种特征词在第y个节点的第v个子节点中的特征程度值；/>为第x个节点的第q个子节点的第t种特征词在第x个节点中的特征程度值；/>为第y个节点的第v个子节点的第t种特征词在第y个节点中的特征程度值；/>为第x个节点的第q个子节点的第一结果；/>为第x个节点的第q个子节点的第j种特征词的贡献程度值；/>为第一预设常数，大于0；/>为绝对值函数；/>为取模符号；norm为归一化函数。

进一步地，所述确定聚类层次树的方法为：

获取每个节点与其他任一个节点之间的可聚类值，将最大的可聚类值对应的两个节点进行聚类，直至所有的节点聚类为一个节点，停止聚类，确定层次聚类算法对应的聚类层次树。

进一步地，所述聚类效果值的获取方法为：

获取每个层次中每个节点内任意两个数据样本的词袋模型的特征向量的余弦相似度，作为第一特征值；

获取每个层次中任意两个节点的词袋模型的特征向量的余弦相似度，作为第二特征值；

根据每个层次中第二特征值的方差和每个节点内第一特征值的方差，获取每个层次的聚类效果值。

进一步地，所述聚类效果值的计算公式为：

式中，为第c个层次的聚类效果值；H为第c个层次中节点的总数量；/>为第c个层次中第h个节点内第一特征值的方差；/>为第c个层次中第二特征值的方差；/>为第二预设常数，大于0。

进一步地，所述根据所述聚类效果值，确定最佳聚类层次，获取数据样本类别的方法为：

将最大的聚类效果值对应的层次，作为最佳聚类层次；

将最佳聚类层次上的每个节点作为数据样本类别。

本发明具有如下有益效果：

将每个数据样本的文本拆分为词汇，根据每个词汇在每个数据样本中出现的频率和在数据样本集中出现的频率，获取每个词汇在每个数据样本中的特征程度值，筛选出每个数据样本的特征词，便于分析数据样本之间的相似性，降低计算量；将一个数据样本作为一个节点，通过层次聚类算法对数据样本进行聚类，根据父节点内数据样本的特征词和当前其他节点内数据样本的特征词，获取父节点的特征词，降低对节点进行聚类分析过程中的计算量，提高聚类的效率的准确性；为了提高层次聚类算法的准确性，进而根据任意两个节点的子节点的特征词的特征程度值和在父节点的特征程度值，以及子节点的词袋模型的特征向量的相似程度，获取任意两个节点的可聚类值，准确确定进行聚类的两个节点，将档案数据准确进行类别划分，提高聚类结果的准确性，准确确定聚类层次树；为了筛选出最好的数据样本划分结果，进一步根据聚类层次树的每个层次中每个节点内任意两个数据样本的词袋模型的特征向量的相似程度和任意两个节点的词袋模型的特征向量的相似程度，获取每个层次的聚类效果值，准确筛选出最佳聚类层次，获取划分最好的数据样本类别，将档案数据进行准确划分，进而对每个数据样本类别中的档案数据选择合适的压缩方式进行压缩，对海量档案数据进行优化存储，提供档案数据进行存储的效率和确保档案数据的完整性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种海量档案数据优化存储方法的流程示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种海量档案数据优化存储方法，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种海量档案数据优化存储方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种海量档案数据优化存储方法的流程示意图，该方法包括以下步骤：

步骤S1：获取海量档案数据的数据样本集。

具体的，通过访问开放数据库或在数据集市场进行购买等方式获取所需要的海量档案数据，将海量档案数据构建为一个数据样本集，其中，一个档案数据为一个数据样本。对数据样本集进行清洗，去除数据样本集中的重复数据样本、空白数据样本等异常数据样本。本发明实施例后续出现的数据样本集均为清洗后的数据样本集。其中，对数据样本集进行清洗的方法为现有方法，不再进行赘述。

本发明实施例的具体场景为：海量档案数据均为文本数据，即确保数据样本集中的每个数据样本均为文本数据。

本发明实施例的目的为：在对海量的档案数据进行压缩存储的过程中，由于档案数据的数据样本数量过多且数据样本可能存在多种不同的类型，在对档案数据进行压缩存储的过程中，当数据样本类型与压缩方式不能匹配时，会导致数据样本的压缩效率降低，本发明实施例通过层次聚类算法将数据样本进行分类，再根据不同的数据样本类别进行不同方式的压缩，实现档案数据的优化存储。但由于数据样本的数据量较大，容易在聚类过程中产生误判，导致层次聚类算法的聚类结果不准确，因此，本发明实施例在进行层次聚类的过程中不断提取每个节点中能够表现文本特征的特征词，减少因为节点内数据样本的数量过多所导致的计算量过大问题，进而根据节点的特征词和词袋模型的特征向量，判断节点进行聚类的可能性，获取聚类层次树，最终根据聚类层次树的每个层次中节点之间信息的差异，确定最佳聚类层次，获取数据样本类别，实现对海量档案数据的优化存储。其中，层次聚类算法为公知技术，不再进行赘述。

步骤S2：将每个数据样本的文本拆分为词汇，根据每个词汇在每个数据样本中出现的频率和在数据样本集中出现的频率，获取每个词汇在每个数据样本中的特征程度值，确定每个数据样本的特征词。

具体的，通过NLPIR算法将每个数据样本的文本拆分为词汇，遍历整个数据样本集中的词汇。其中，NLPIR算法为公知技术，不再进行赘述。已知，当某个词汇在某个数据样本中出现的频率越高，但在整体数据样本集中出现的频率越小，则说明该词汇对该数据样本的表现程度越高，该词汇越可能为该数据样本的特征词。因此，分别统计每个词汇在每个数据样本中出现的次数和在数据样本集中出现的次数，根据每个数据样本中不同词汇出现的次数，构建每个数据样本的词袋模型，获取每个词汇在每个数据样本中出现的频率和在数据样本集中出现的频率。其中，词袋模型为公知技术，不再进行赘述。需要说明的是，某个词汇在数据样本集中出现的次数，即为数据样本集中含有该词汇的数据样本的数量。进而根据每个词汇在每个数据样本中出现的频率和在数据样本集中出现的频率，获取每个词汇在每个数据样本中的特征程度值，当特征程度值越大，说明对应词汇越可能为对应数据样本的特征词。

作为一个示例，以第a个词汇在第b个数据样本中为例，为了避免在每个数据样本中均多次出现的对表征数据样本的特征无意义的常规词汇误认为特征词，因此，获取第a个词汇在第b个数据样本中出现的频率与在数据样本集中出现的频率的比值，当比值越大，说明第a个词汇越可能为第b个数据样本的特征词。因此，根据第a个词汇在第b个数据样本中出现的频率与在数据样本集中出现的频率，获取第a个词汇在第b个数据样本中的特征程度值的计算公式为：

需要说明的是，越大，/>越小，说明第a个词汇在第b个数据样本中出现的越多，在数据样本集中出现的越少，第a个词汇越能表征第b个数据样本的特征，/>越大；因此，/>越大，第a个词汇越可能为第b个数据样本的特征词。其中，/>一定大于0。

根据获取第a个词汇在第b个数据样本中的特征程度值的方法，获取每个词汇在每个数据样本中的特征程度值。

已知，特征程度值越大，对应词汇越可能为对应数据样本的特征词，因此，本发明实施例设定预设的特征程度值阈值为0.8，实施者可根据实际情况设定预设的特征程度值阈值的大小，在此不进行限定。当特征程度值大于预设的特征程度值阈值时，将对应词汇作为对应数据样本的特征词。例如，当第a个词汇在第b个数据样本中的特征程度值大于预设的特征程度值阈值时，将第a个词汇作为第b个数据样本的特征词。至此，确定每个数据样本的特征词。

步骤S3：将一个数据样本作为一个节点，通过层次聚类算法对数据样本进行聚类，根据父节点内数据样本的特征词和当前其他节点内数据样本的特征词，获取父节点的特征词；根据任意两个节点的子节点的特征词的特征程度值和在父节点的特征程度值，以及子节点的词袋模型的特征向量的相似程度，获取任意两个节点的可聚类值，确定聚类层次树。

具体的，将一个数据样本作为一个节点，通过多次聚类可以得到节点之间的分类关系，在进行分类的过程中，不断地进行子节点聚类为父节点的过程，使得一个节点所包含的数据样本的数量逐渐增多，从而使得层次聚类算法的计算量上升。为了降低节点在进行聚类分析过程中的计算量，当任意两个子节点聚类为一个父节点时，对父节点重新进行特征词提取，获取父节点的特征词，至此，确定每个节点的特征词。进而根据任意两个节点的子节点的特征词的特征程度值和在父节点的特征程度值，以及子节点的词袋模型的特征向量的相似程度，获取任意两个节点的可聚类值，确定可聚类的两个节点，获得新的节点，直到所有的节点聚类为一个节点，得到数据样本集对应的层次聚类树。其中，获取层次聚类树的具体方法如下：

（1）获取父节点的特征词。

优选地，获取父节点的特征词的方法为：对于任一个父节点，将该父节点内所有数据样本的特征词作为参考特征词；获取每个参考特征词在该父节点中出现的频率，作为对应参考特征词的第一频率；第一频率越大，对应参考特征词越可能为该父节点的特征词。为了避免无意义的参考特征词成为该父节点的特征词，进而获取每个参考特征词在当前所有节点中出现的频率，作为对应参考特征词的第二频率；将每个参考特征词的第一频率与第二频率的比值，作为对应参考特征词在该父节点的特征程度值；将在该父节点的特征程度值大于预设的特征程度值阈值的参考特征词，作为该父节点的特征词。

作为一个示例，以第u个父节点为例，第u个父节点内所有数据样本的特征词即为第u个父节点的参考特征词，获取每个参考特征词出现的次数与参考特征词总数量的比值，即为对应参考特征词的第一频率。对于任一个参考特征词，将当前含有该参考特征词的节点数量与当前节点总数量的比值，即为该参考特征词的第二频率。根据获取该参考特征词的第二频率的方法，获取每个参考特征词的第二频率。进而获取每个参考特征词在第u个父节点的特征程度值，确定第u个父节点的特征词。

根据获取第u个父节点的特征词的方法，获取每个父节点的特征词。

（2）获取可聚类值。

对两个子节点进行聚类后，两个子节点的特征词与对应父节点的特征词可能存在差异，这是由于在进行聚类过程中子节点的特征词具有不同程度的贡献，从而在聚类结束后贡献程度低的特征词在对应父节点中不再具有特征表现能力。为了降低在聚类过程中的计算量，同时提高层次聚类算法的准确性，因此，在对两个节点进行可聚类程度分析时，对两个节点的子节点之间的相似程度进行分析，根据任意两个节点的子节点的特征词的特征程度值和在父节点的特征程度值，以及任意两个节点的子节点的词袋模型的特征向量的相似程度，获取任意两个节点的可聚类值。需要说明的是，若聚类的两个节点中只有一个节点存在子节点时，则将不存在子节点的节点与另一个节点的子节点的特征词和词袋模型的特征向量进行分析，获取两个节点的可聚类值；若聚类的两个节点均不存在子节点时，直接根据两个节点之间的特征词和词袋模型的特征向量进行分析，获取两个节点的可聚类值。其中，可聚类值越大，对应两个节点越可能聚类为一个节点。

优选地，获取可聚类值的方法为：当聚类的两个节点均不存在子节点时，根据相同特征词在两个节点的特征程度值的差异和两个节点的词袋模型的特征向量的余弦相似度，获取两个节点的可聚类值；当聚类的两个节点中只有一个节点存在子节点时，将不存在子节点的节点作为第一节点，将存在子节点的节点作为第二节点；对于第二节点中的任一个子节点，获取该子节点的每个特征词在第二节点的特征程度值的累加结果，作为该子节点的第一结果；将该子节点的每个特征词在第二节点的特征程度值与所述第一结果的比值，作为该子节点的对应特征词的贡献程度值；将该子节点的每个特征词的贡献程度值和特征程度值的乘积，作为该子节点的对应特征词在第二节点的实际参与值；根据相同特征词在第一节点的特征程度值和在第二节点的实际参与值之间的差异，以及第一节点的词袋模型的特征向量与第二节点的每个子节点的词袋模型的特征向量的余弦相似度，获取两个节点的可聚类值；当聚类的两个节点均存在子节点时，根据相同特征词在两个节点的实际参与值的差异和两个节点的子节点的词袋模型的特征向量的余弦相似度，获取两个节点的可聚类值。

作为一个示例，以第x个节点和第y个节点进行聚类为例，当第x个节点和第y个节点均不存在子节点时，获取第x个节点和第y个节点的特征词的种类总数量，例如，当第x个节点的特征词有5个，分别为、/>、/>、/>、/>，第y个节点的特征词有3个，分别为/>、/>、/>，则第x个节点和第y个节点的特征词的种类总数量为6，这6种特征词分别为/>、/>、/>、/>、、/>，确保第x个节点和第y个节点的特征词的种类将第x个节点和第y个节点的特征词均包含进去且不存在重复种类。分别获取/>、/>、/>、/>、/>、/>在第x个节点和第y个节点的特征程度值的差异，作为第一差异。其中，当某个节点的特征词不含某个词汇时，该词汇在该节点的特征程度值默认为0，因此，/>在第x个节点的特征程度值为0，/>、/>和/>在第x个节点的特征程度值为0。当第一差异越小，说明第x个节点和第y个节点中的特征词越相似，第x个节点和第y个节点越可能为同一类别。为了提高层次聚类算法的准确性，进而获取第x个节点和第y个节点的词袋模型的特征向量的余弦相似度，当余弦相似度越大，说明第x个节点和第y个节点越相似，越可能为同一类别，因此，根据第一差异，以及第x个节点和第y个节点的词袋模型的特征向量的余弦相似度，获取第x个节点和第y个节点的可聚类值。

当第x个节点不存在子节点，第y个节点存在子节点时，则第x个节点为第一节点，第y个节点为第二节点，其中，第y个节点的两个子节点分别为和/>。获取第x个节点、子节点/>和子节点/>的特征词的种类总数量，例如，当第x个节点的特征词有5个，分别为/>、、/>、/>、/>，子节点/>的特征词为3个，分别为/>、/>、/>，子节点/>的特征词为4个，分别为/>、/>、/>、/>，则第x个节点、子节点/>和子节点/>的特征词的种类总数量为7，其中，特征词的种类分别为/>、/>、/>、/>、/>、/>、/>。分别获取/>、/>、/>、/>、/>、/>、/>在第一节点的特征程度值，/>、/>、/>、/>、/>、/>、/>在子节点/>中对应的实际参与值和在子节点/>中对应的实际参与值。其中，当某个节点的特征词不含某个词汇时，该词汇在该节点的特征程度值默认为0，因此，/>和/>在第一节点的特征程度值为0，/>、/>、/>和/>在子节点/>中对应的实际参与值为0，/>、/>和/>在子节点/>中对应的实际参与值为0。根据/>、/>、/>、/>、、/>、/>在第一节点的特征程度值与在第二节点的每个子节点中对应的实际参与值之间的差异，以及第一节点的词袋模型的特征向量与第二节点的每个子节点的词袋模型的特征向量的余弦相似度进行累计的结果，获取第x个节点和第y个节点的可聚类值。

当第x个节点和第y个节点均存在子节点时，其中，第x个节点的两个子节点分别为和/>，第y个节点的两个子节点分别为/>和/>。获取子节点/>、子节点/>、子节点/>和子节点/>的特征词的种类总数量，例如，当子节点/>的特征词为3个，分别为/>、/>、/>，子节点/>的特征词为3个，分别为/>、/>、/>，子节点/>的特征词为3个，分别为/>、/>、/>，子节点/>的特征词为4个，分别为/>、/>、/>、/>，则子节点/>、子节点/>、子节点/>和子节点/>的特征词的种类总数量为5，其中，特征词的种类分别为/>、/>、/>、/>、/>。将/>、/>、/>、/>、在子节点/>和子节点/>中对应的实际参与值作为第一参与值，将/>、/>、/>、/>、/>在子节点/>和子节点/>中对应的实际参与值作为第二参与值，当/>、/>、/>、/>、/>分别对应的第一参与值和第二参与值的差异越小时，间接说明第x个节点和第y个节点的特征词越一致。为了更进一步分析第x个节点和第y个节点的相似程度，获取第x个节点的每个子节点的词袋模型的特征向量分别与第y个节点的每个子节点的词袋模型的特征向量的余弦相似度，当余弦相似度越大时，说明第x个节点的子节点和第y个节点的子节点越相似，间接说明第x个节点和第y个节点越相似，第x个节点和第y个节点越可能聚类为同一个节点。因此，根据/>、/>、/>、/>、/>分别对应的第一参与值和第二参与值的差异，以及第x个节点的每个子节点的词袋模型的特征向量分别与第y个节点的每个子节点的词袋模型的特征向量的余弦相似度，获取第x个节点和第y个节点的可聚类值。

因此，获取第x个节点和第y个节点的可聚类值的计算公式为：

当第x个节点和第y个节点均不存在子节点时：

当第x个节点不存在子节点，第y个节点存在子节点时：

当第x个节点和第y个节点均存在子节点时：

/>

本发明实施例将设定为1，避免分母为0，实施者可根据实际情况设定/>的大小，在此不进行限定。

需要说明的是，当第x个节点和第y个节点均不存在子节点时，越小，说明第x个节点和第y个节点的特征词越相似，/>越大，/>越大；/>越大，说明第x个节点和第y个节点整体越相似，/>越大。当第x个节点不存在子节点，第y个节点存在子节点时，/>越小，说明第x个节点与第y个节点的第v个子节点的特征词越相似，间接说明第x个节点与第y个节点的特征词越相似，越大，/>越大；/>越大，说明第x个节点与第y个节点的子节点越相似，间接反应出明第x个节点与第y个节点越相似，/>越大。当第x个节点和第y个节点均存在子节点时，/>越小，说明第x个节点的第q个子节点与第y个节点的第v个子节点的特征词越相似，越小，说明第x个节点的子节点与第y个节点的子节点的特征词的分布越相似，间接说明第x个节点与第y个节点的特征词的分布越相似，/>越大，/>越大；/>越大，说明第x个节点的子节点与第y个节点的子节点越相似，第x个节点与第y个节点越可能聚类为一个节点，/>越大。因此，/>越大，第x个节点与第y个节点中的数据样本越可能为同一类别。

根据获取第x个节点和第y个节点的可聚类值的方法，获取任意两个节点的可聚类值。

（3）获取层次聚类树。

已知，可聚类值越大，说明对应两个节点聚类为同一个节点的聚类效果越好，使得层次聚类算法的聚类效果越准确，因此，获取每个节点与其他任一个节点之间的可聚类值，将最大的可聚类值对应的两个节点进行聚类。以第x个节点为例，获取第x个节点与其他每个节点的可聚类值，将最大的可聚类值对应的第x个节点和另一个节点进行聚类。若第x个节点对应的最大可聚类值至少存在两个，则任选一个最大可聚类值对应的其他节点和第x个节点进行聚类。遍历所有的节点，直至所有的节点聚类为一个节点，停止聚类，确定层次聚类算法对应的聚类层次树。

步骤S4：根据聚类层次树的每个层次中每个节点内任意两个数据样本的词袋模型的特征向量的相似程度和任意两个节点的词袋模型的特征向量的相似程度，获取每个层次的聚类效果值。

具体的，本发明实施例的层次聚类算法是将大量的数据样本逐渐汇聚为一个节点，即最终构建为一个层次聚类树，在层次聚类树中每个层次的聚类效果都存在差异，为了对数据样本进行最好的类别划分，因此，本发明实施例对每个层次的聚类效果进行分析。当在一个层次中每个节点内部的数据样本具有较大的相似程度，在节点之间具有较大的差异，则说明当前层次对数据样本的类别划分越准确。因此，本发明实施例根据每个层次中每个节点内任意两个数据样本的词袋模型的特征向量的相似程度和任意两个节点的词袋模型的特征向量的相似程度，获取每个层次的聚类效果值，确定数据样本类别。

优选地，获取聚类效果值的方法为：获取每个层次中每个节点内任意两个数据样本的词袋模型的特征向量的余弦相似度，作为第一特征值；其中，任意两个数据样本一定不是同一个数据样本。获取每个层次中任意两个节点的词袋模型的特征向量的余弦相似度，作为第二特征值；其中，任意两个节点一定不是同一个节点。获取每个层次中第二特征值的方差，当第二特征值的方差越大时，说明对应层次中节点之间的差异越大，间接说明对应层次的类别划分越准确。获取每个层次中每个节点内第一特征值的方差，当第一特征值的方差越小时，说明对应节点中的数据样本越相似。因此，根据每个层次中第二特征值的方差和每个节点内第一特征值的方差，获取每个层次的聚类效果值。

作为一个示例，以第c个层次为例，获取第c个层次的聚类效果值的计算公式为：

需要说明的是，越小，说明第c个层次中第h个节点内的数据样本越相似，越小，说明第c个层次中每个节点内的数据样本均越可能为同一个类别，间接说明第c个层次的聚类效果越好，/>越大，/>越大；/>越大，说明第c个层次中的节点之间的差异越大，第c个层次中的节点越不可能为同一个类别，间接说明第c个层次中的节点对数据样本的类别划分的越准确，/>越大；因此，/>越大，说明第c个层次的聚类效果越好，第c个层次越可能为最佳聚类层次。

根据获取第c个层次的聚类效果值的方法，获取层次聚类树的每个层次的聚类效果值。

步骤S5：根据所述聚类效果值，确定最佳聚类层次，获取数据样本类别，对每个数据样本类别中的档案数据进行优化存储。

具体的，已知聚类效果值越大，对应层次的聚类结果越准确，因此本发明实施例将最大的聚类效果值对应的层次，作为最佳聚类层次；若最大的聚类效果值至少存在两个，则将最大的聚类效果值对应的层次中最大的层次，作为最佳聚类层次，使得最终的聚类结果越准确。其中，层次聚类树从下到上对应的层次依次增大。将最佳聚类层次上的每个节点作为最终的数据样本类别，即最佳聚类层次上的一个节点为一个数据样本类别。

对每一个数据样本类别中的数据样本的特征进行分析，根据数据样本类别的文本类型和词汇分布特征，在现有压缩算法中选择合适的压缩方式，对每一个数据样本类别中的档案数据进行压缩，使得档案数据的类型与压缩方式相匹配，提高档案数据的压缩效率和完整性，实现对海量档案数据进行优化存储。例如，对于数字数据样本类别，如传感器数据样本、金融数据样本等进行压缩时，采用Huffman编码和算术编码等无损压缩方法对数字数据样本类别中的档案数据进行压缩；对于英文字母和常用字符构成的文本数据样本类别中的档案数据，采用LZW（Lempel-Ziv-Welch）压缩算法进行压缩。其中，Huffman编码、算术编码和LZW（Lempel-Ziv-Welch）压缩算法均为现有技术，不再进行赘述。

至此，本发明完成。

综上所述，本发明实施例获取数据样本集；将数据样本拆分为词汇，根据词汇出现的频率，获取特征程度值，确定特征词；通过层次聚类算法对数据样本进行聚类，根据任意两个节点的子节点的特征词的特征程度值和在父节点的特征程度值，以及子节点的词袋模型，获取任意两个节点的可聚类值，确定聚类层次树；根据聚类层次树的每个层次中节点内数据样本的相似程度和节点之间的相似程度，获取聚类效果值，确定数据样本类别，对档案数据进行优化存储。本发明通过分析节点的特征词和词袋模型，对节点进行聚类，降低了层次聚类算法的计算量，提高了聚类结果的准确性，实现对档案数据的优化存储。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种海量档案数据优化存储方法，其特征在于，该方法包括以下步骤：

获取海量档案数据的数据样本集；

2.如权利要求1所述一种海量档案数据优化存储方法，其特征在于，所述特征程度值的计算公式为：

3.如权利要求1所述一种海量档案数据优化存储方法，其特征在于，所述确定每个数据样本的特征词的方法为：

4.如权利要求3所述一种海量档案数据优化存储方法，其特征在于，所述获取父节点的特征词的方法为：

5.如权利要求1所述一种海量档案数据优化存储方法，其特征在于，所述可聚类值的获取方法为：

6.如权利要求5所述一种海量档案数据优化存储方法，其特征在于，所述可聚类值的计算公式为：

当聚类的两个节点均不存在子节点时：

当聚类的两个节点中只有一个节点存在子节点时：

当聚类的两个节点均存在子节点时：

式中，为第x个节点和第y个节点的可聚类值；K为第x个节点和第y个节点的特征词的种类总数量；/>为第k种特征词在第x个节点中的特征程度值；/>为第k种特征词在第y个节点中的特征程度值；/>为第x个节点的词袋模型的特征向量；/>为第y个节点的词袋模型的特征向量；/>为第x个节点和第y个节点的词袋模型的特征向量的余弦相似度；J为第x个节点和第y个节点的所有子节点的特征词的种类总数量；/>为第j种特征词在第x个节点中的特征程度值；/>为第j种特征词在第y个节点的第v个子节点中的特征程度值；/>为第y个节点的第v个子节点的第j种特征词在第y个节点中的特征程度值；/>为第y个节点的第v个子节点的第一结果；/>为第y个节点的第v个子节点的第j种特征词的贡献程度值；V为第y个节点的子节点的总数量；/>为第y个节点的第v个子节点的词袋模型的特征向量；T为第x个节点的所有子节点的特征词和第y个节点的所有子节点的特征词的种类总数量；Q为第x个节点的子节点的总数量；/>为第t种特征词在第x个节点的第q个子节点中的特征程度值；/>为第t种特征词在第y个节点的第v个子节点中的特征程度值；/>为第x个节点的第q个子节点的第t种特征词在第x个节点中的特征程度值；/>为第y个节点的第v个子节点的第t种特征词在第y个节点中的特征程度值；/>为第x个节点的第q个子节点的第一结果；/>为第x个节点的第q个子节点的第j种特征词的贡献程度值；/>为第一预设常数，大于0；/>为绝对值函数；/>为取模符号；norm为归一化函数。

7.如权利要求1所述一种海量档案数据优化存储方法，其特征在于，所述确定聚类层次树的方法为：

8.如权利要求1所述一种海量档案数据优化存储方法，其特征在于，所述聚类效果值的获取方法为：

9.如权利要求1所述一种海量档案数据优化存储方法，其特征在于，所述聚类效果值的计算公式为：

10.如权利要求1所述一种海量档案数据优化存储方法，其特征在于，所述根据所述聚类效果值，确定最佳聚类层次，获取数据样本类别的方法为：

将最大的聚类效果值对应的层次，作为最佳聚类层次；

将最佳聚类层次上的每个节点作为数据样本类别。