CN116932487B

CN116932487B - 一种基于数据段落划分的量化式数据分析方法及系统

Info

Publication number: CN116932487B
Application number: CN202311189545.7A
Authority: CN
Inventors: 杨桢
Original assignee: Beijing Anliantong Technology Co ltd
Current assignee: Beijing Anliantong Technology Co ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-11-28
Anticipated expiration: 2043-09-15
Also published as: CN116932487A

Abstract

本发明涉及数据处理技术领域，公开了一种基于数据段落划分的量化式数据分析方法及系统，该方法包括以下步骤：获取企业内部的文件数据，并进行异常数据的识别及清理；对预处理后的文件数据中的敏感数据进行脱敏处理；提取每个数据段落的特征，得到变量候选集；计算变量候选集中每个变量的注意力权重，并确定关键变量；计量得到关键变量的计量值并进行标准化处理；确定标准化后的每个关键变量的权重，并计算每个数据段落的综合评分；根据综合评分的排序结果实现对企业内部重要文件的筛选。本发明不仅可以更高效地管理文件数据，节省存储空间，降低存储成本，而且还可以有效地提升决策效率和精准性，更好地满足于企业的使用需求。

Description

一种基于数据段落划分的量化式数据分析方法及系统

技术领域

本发明涉及数据处理技术领域，具体来说，涉及一种基于数据段落划分的量化式数据分析方法及系统。

背景技术

随着企业发展规模的不断扩大，企业内部的文件数据也在持续增加。同时，伴随着无纸化技术的逐步成熟和广泛应用，大多数现代企业已经转向电子文档方式来存储和处理企业内部的文件数据。然而，传统的文件存储方法主要是依据文件的类型进行分类存储，并在每个类别的文件夹中按照名称、大小、项目类型、修改日期等因素对文件进行排列和存储。这种方法，固然在一定程度上方便了文件的检索，但却无法体现每个类别中不同文件的重要性。

由于缺乏对文件重要性的有效评判机制，企业管理者在查找和分析数据文件时，往往无法准确快速地找到各类别中的重要文件。在实际操作中，他们可能需要反复打开和阅览多个文件，通过逐一分析才能判断文件的重要程度。这种方式不仅效率低下，而且可能因为人为因素导致重要文件被遗漏。这种情况严重浪费了资料查询人员的时间，也可能影响到企业决策的效率和准确性。

基于这样的背景，企业对于一种能够进行快速、准确的文件重要性判断的技术需求日益强烈。需要一种能够将大量的文件数据进行有效处理和量化分析的技术，以此提高文件检索的准确性和效率，实现对企业内部重要文件的筛选，为企业决策提供更加精准、高效的支持。

因此，本发明提出来一种基于数据段落划分的量化式数据分析方法及系统。

发明内容

针对相关技术中的问题，本发明提出一种基于数据段落划分的量化式数据分析方法及系统，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

根据本发明的一个方面，提供了一种基于数据段落划分的量化式数据分析方法，该方法包括以下步骤：

S1、获取企业内部的文件数据，并利用COPS算法对文件数据中的异常数据进行识别及清理；

S2、利用BERT语言模型对预处理后的文件数据中的敏感数据进行识别，并进行脱敏处理；

S3、基于数据的特征对脱敏后的文件数据进行划分，并利用双向长短期记忆模型提取每个数据段落的特征，得到变量候选集；

S4、利用多头注意力机制计算变量候选集中每个变量的注意力权重，并根据每个变量的注意力权重确定关键变量；

S5、通过计量法对关键变量进行计量得到关键变量的计量值，并利用标准化法对关键变量的计量值进行标准化处理；

S6、利用注意力机制结合学习模型自动确定标准化后的每个关键变量的权重，并结合神经网络模型计算每个数据段落的综合评分；

S7、对每个数据段落的综合评分进行排序，并根据排序结果实现对企业内部重要文件的筛选。

作为优选地，所述获取企业内部的文件数据，并利用COPS算法对文件数据中的异常数据进行识别及清理包括以下步骤：

S11、获取企业内部的文件数据，得到初始文件数据集；

S12、采用COPS算法对初始文件数据集中的数据进行清洗，识别和移除不良数据和异常值，获得文件数据集；

S13、对清洗后的文件数据集进行分词、去噪及缺失值填充处理。

作为优选地，所述采用COPS算法对初始文件数据集中的数据进行清洗，识别和移除不良数据和异常值，获得文件数据集包括以下步骤：

S121、选取与文件内容和主题相关的特征，并从初始文件数据集的每个文件中提取选定的特征，得到文件的特征向量；

S122、对每个文件的特征向量进行归一化处理，并初始化聚类次数k=n和阈值向量T=T₀，且T₀=0；

S123、基于增量△增大阈值向量T得到不同的聚类划分C^k={C₁,C₂,…,C_k}，并计算相应的聚类有效性指标Q；

S124、重复执行S123，令k=k-1，直至k=1，得到一系列的有效性指标Q，并选取有效性指标Q最小的聚类划分作为最佳聚类结果；

S125、计算每个聚类的聚类中心o_i及其模值|o_i|，则具有最小模值|o_i|的聚类为正常数据件聚类，其余聚类中的数据为异常数据；

S126、移除识别出的异常数据，得到文件数据集。

作为优选地，所述增量△的计算公式为：

所述聚类有效性指标Q的计算公式为：

式中，表示COPS算法精度的参数；/>表示归一化数据的标准偏差，m表示维度；M表示初始状态时的类间分离度；/>和/>表示组合参数；/>表示类内紧凑度；/>表示类间分离度。

作为优选地，所述利用BERT语言模型对预处理后的文件数据中的敏感数据进行识别，并进行脱敏处理包括以下步骤：

S21、采集包含敏感信息的文件并进行敏感信息的标签标注，并利用标注的数据对BERT模型进行训练；

S22、利用训练后的BERT模型对预处理后的文件数据进行预测，得到每个词语被标注为敏感信息的概率；

S23、根据得到的概率确定文件数据中涉及敏感信息的位置和内容，并对确定的敏感信息进行脱敏处理。

作为优选地，所述基于数据的特征对脱敏后的文件数据进行划分，并利用双向长短期记忆模型提取每个数据段落的特征，得到变量候选集包括以下步骤：

S31、利用脱敏后的文件数据中的关键词和主题词构建文件的特征向量；

S32、通过聚类算法基于文件的特征向量进行聚类，并将每个聚类作为一个数据段落；

S33、利用训练好的双向长短期记忆模型提取每个数据段落中语句的特征向量，得到变量候选集。

作为优选地，所述利用多头注意力机制计算变量候选集中每个变量的注意力权重，并根据每个变量的注意力权重确定关键变量包括以下步骤：

S41、对变量候选集中的每个变量进行标准化处理，并将标准化后的变量候选集输入多头注意力机制中；

S42、利用每个注意力头对变量候选集中变量之间的关系进行建模，产生对应的注意力权重；

S43、将各个注意力头产生的权重进行加权平均得到最终的注意力权重；

S44、按照最终注意力权重值由高至低的顺序对每个变量进行排序，并选取前L个变量作为关键变量。

作为优选地，所述利用注意力机制结合学习模型自动确定标准化后的每个关键变量的权重，并结合神经网络模型计算每个数据段落的综合评分包括以下步骤：

S61、利用注意力机制结合学习模型自动确定标准化后的每个关键变量的权重；

S62、利用训练后的神经网络模型输出每个关键变量的评分，并利用加权求和法结合关键变量的权重和评分计算每个数据段落的综合评分。

作为优选地，所述对每个数据段落的综合评分进行排序，并根据排序结果实现对企业内部重要文件的筛选包括以下步骤：

S71、获取每个数据段落的综合评分，并按照评分由高至低的顺序进行排序，得到排序结果；

S72、根据评分排序结果结合预设的评分阈值，选取评分高于阈值的前N个数据段落作为重要数据段落；

S73、统计每个文件数据中重要数据段落的比例，当该比例高于预设的比例阈值时，则确定该文件数据为重要文件。

根据本发明的另一个方面，提供了一种基于数据段落划分的量化式数据分析系统，该系统包括数据清洗模块、数据脱敏模块、变量候选集确定模块、关键变量确定模块、变量计量值计算模块、综合评分模块及数据筛选模块；

其中，所述数据清洗模块用于获取企业内部的文件数据，并利用COPS算法对文件数据中的异常数据进行识别及清理；

所述数据脱敏模块用于利用BERT语言模型对预处理后的文件数据中的敏感数据进行识别，并进行脱敏处理；

所述变量候选集确定模块用于基于数据的特征对脱敏后的文件数据进行划分，并利用双向长短期记忆模型提取每个数据段落的特征，得到变量候选集；

所述关键变量确定模块用于利用多头注意力机制计算变量候选集中每个变量的注意力权重，并根据每个变量的注意力权重确定关键变量；

所述变量计量值计算模块用于通过计量法对关键变量进行计量得到关键变量的计量值，并利用标准化法对关键变量的计量值进行标准化处理；

所述综合评分模块用于利用注意力机制结合学习模型自动确定标准化后的每个关键变量的权重，并结合双向长短期记忆模型计算每个数据段落的综合评分；

所述数据筛选模块用于对每个数据段落的综合评分进行排序，并根据排序结果实现对企业内部重要文件的筛选。

与现有技术相比，本发明提供了基于数据段落划分的量化式数据分析方法及系统，具备以下有益效果：

本发明不仅可以利用COPS算法实现对企业内部文件数据中异常数据的识别和清除，而且还可以基于BERT语言模型识别和脱敏处理敏感信息，有效地保护数据隐私，满足数据安全的要求，从而使得企业可以更高效地管理文件数据，节省存储空间，降低存储成本，同时，本发明还可以利用双向长短期记忆模型、多头注意力机制及神经网络模型来实现对企业内部重要文件的筛选，从而可以根据文件的重要程度对企业内部的文件数据进行存储，使得企业管理者在决策时可以快速准确地找到重要的文件数据，即快速准确的找到决策依据，从而可以有效地提升决策效率和精准性，进而可以更好地满足于企业的使用需求。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本发明实施例的一种基于数据段落划分的量化式数据分析方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种基于数据段落划分的量化式数据分析方法及系统。

现结合附图和具体实施方式对本发明进一步说明，如图1所示，根据本发明的一个实施例，提供了一种基于数据段落划分的量化式数据分析方法，该方法包括以下步骤：

其中，COPS算法是一种改进的DBSCAN算法，它通过迭代的方式确定最佳的聚类结果和聚类数。这种方法可以有效识别出离群点和异常数据，清除这些不良数据后，可以显著提高数据集的质量。而高质量的数据是进行准确的数据分析的基础。所以采用COPS算法清洗数据可以为后续的变量选择、数据段落划分、特征提取等步骤提供更加可靠的数据基础。这有助于产生更加准确和高质量的分析结果。

COPS算法是一个很好的数据清洗方法，它可以有效提高数据的质量，为数据分析方法提供更加准确和可靠的数据基础。采用COPS算法清洗数据可以显著提高基于数据段落划分的量化式数据分析方法的效果和精度。

具体的，所述获取企业内部的文件数据，并利用COPS算法对文件数据中的异常数据进行识别及清理包括以下步骤：

S11、获取企业内部的文件数据，得到初始文件数据集；

所述采用COPS算法对初始文件数据集中的数据进行清洗，识别和移除不良数据和异常值，获得文件数据集包括以下步骤：

S121、选取与文件内容和主题相关的特征，这些特征应能够区分正常数据和异常数据。这些特征可以是文件中的关键词、主题词、命名实体等，并从初始文件数据集的每个文件中提取选定的特征，得到文件的特征向量，对每个文件的特征向量进行归一化处理以便比较；

S122、对每个文件的特征向量进行归一化处理并初始化聚类次数k=n（文件总数）和阈值向量T=T₀（T₀为初始值）；

S123、基于增量△增大阈值向量T（即之后每步给T一个增量△）得到不同的聚类划分C^k={C₁,C₂,…,C_k}，并计算相应的聚类有效性指标Q；

S124、重复执行S123，直至k=1，得到一系列的有效性指标Q，并选取有效性指标Q最小的聚类划分作为最佳聚类结果；

步骤S123和S124实现了COPS算法的主要功能。其算法通过迭代的方式确定最佳的聚类数和聚类结果，这可以有效识别出离群点。但算法结果的准确性还是依赖于特征选择和参数调整。

S126、移除识别出的异常数据，得到文件数据集。在步骤S126中还可以人工对识别结果进行校验，确认结果的准确性。如果有错误识别，则需要返回步骤S122和S123，重新调整算法参数。只有结合人工判断，才能达到较高的识别准确率。

所述增量△的计算公式为：

所述聚类有效性指标Q的计算公式为：

式中，表示COPS算法精度的参数，/>越大，COPS算法的搜索步数就会越少，反之/>越小，算法搜索步数就会越多，结果就更有可能趋于最优结果，但相应时间耗费也会越多；

表示归一化数据的标准偏差，m表示维度；

M表示初始状态时的类间分离度；

和/>表示组合参数，/>=0.4，/>=1.6，用于平衡/>和/>；

表示类内紧凑度；

表示类间分离度；

表示数据x和数据y之间的欧式距离，/>值越小，表明类间越紧凑，值越大，表明类间分离性越强；

表示聚类C_i中包含的数据点个数。

S13、对清洗后的文件数据集进行分词、去噪及缺失值填充处理，填充缺失值的方法通常包括平均数填充、中位数填充、众数填充、使用模型预测填充等。

具体的，在S13完成后还需要再次进行数据质量检查，确保清洗过程没有引入新的问题。

其中，所述利用BERT语言模型对预处理后的文件数据中的敏感数据进行识别，并进行脱敏处理包括以下步骤：

具体的，选取包含敏感信息的文件，通过人工标注的方式获得敏感信息对应的标签。这些文件和标签会作为模型的训练数据。采用BERT模型的架构，使用标注的数据进行模型的预训练。这一步骤的目的是让BERT模型学会识别不同类型的敏感信息。

具体的，对预处理后的文件数据进行分批，每批数据输入到BERT模型中进行预测。BERT模型会对每个输入的文本进行预测，给出每个词被标注为敏感信息的概率。根据这些概率可以确定文本中涉及的敏感信息的位置和内容。

具体的，根据BERT模型的预测结果对文件中的敏感信息进行脱敏处理，如用“***”替换敏感词或删除敏感词等。经过脱敏处理后，文件中的敏感信息已经被隐藏，这有助于保护数据的隐私和安全。此外，本实施例中还可以人工检查BERT模型的预测结果和脱敏效果，确认敏感信息已经被正确识别和处理。如果有不满意的地方需要对模型进行再训练和优化。

S3、基于数据的特征对脱敏后的文件数据进行划分，并利用双向长短期记忆模型（Bi-LSTM模型）提取每个数据段落的特征，得到变量候选集；

其中，所述基于数据的特征对脱敏后的文件数据进行划分，并利用双向长短期记忆模型提取每个数据段落的特征，得到变量候选集包括以下步骤：

S32、通过聚类算法基于文件的特征向量进行聚类，并将每个聚类作为一个数据段落，文件中的句子被划分到不同的聚类中；

上述步骤的目的是基于文件内在的语义特征自动发现数据段落的划分结构。

S33、利用训练好的双向长短期记忆模型提取每个数据段落中语句的特征向量，得到变量候选集，具体包括：

Bi-LSTM模型训练：采用Bi-LSTM的网络结构，使用文件中的句子作为模型的训练数据。Bi-LSTM模型会学习文件中的时序特征和长期依赖关系，为每个句子产生一个特征向量。这一步骤的目的是获得每个句子的语义特征表示，为后续的变量选择提供信息。

特征提取：将文件中的每个句子输入到Bi-LSTM模型中，获得其特征向量。这些特征向量构成了变量候选集，代表了文件中每个句子的语义信息。

该方法利用无监督学习的聚类分析法发现数据的内在结构，实现自动的数据段落划分。同时，采用Bi-LSTM模型提取每个句子的语义特征，为变量选择提供信息。

其中，所述利用多头注意力机制计算变量候选集中每个变量的注意力权重，并根据每个变量的注意力权重确定关键变量包括以下步骤：

S40、定义注意力机制，采用多头注意力机制，它包含多个注意力头，每个头都是一个注意力机制，每个注意力头会学习变量候选集中变量之间的不同关系，产生注意力权重，这些注意力权重通过加权平均得到最终的注意力权重，这种机制可以从多个角度理解变量之间的关系，提高注意力权重的准确性；

S42、利用每个注意力头对变量候选集中变量之间的关系进行建模，产生一组对应的注意力权重；

S43、将各个注意力头产生的权重进行加权平均得到最终的注意力权重，注意力权重越高,表示对应的变量对目标的影响越大；

具体的，根据注意力权重，选择前L个权重最大的变量，作为关键变量。L是一个预设的阈值，可以根据实际情况进行设置。这些关键变量代表数据中最重要和相关的信息，将用于后续的计量、标准化和评分计算。

具体的，通过计量法和标准化法对关键变量进行处理的步骤如下：

确定变量类型：判断关键变量的类型，是定性变量还是定量变量。定性变量需要进行编码，定量变量可以直接使用其原值。

定性变量编码：对于定性变量，需要进行编码以获得其计量值。常用的编码方法有：

计数法：对于二分类变量，可以设置1表示有，0表示无。

哑变量法：对于多分类变量，设置多个虚拟变量，每个变量代表一种类别，有该属性则为1，否则为0。

独热编码：也是为多分类变量设置多个虚拟变量，但每个变量只有一个类别为1，其余为0。

定量变量计量：对于定量变量，可以直接使用其原始值作为计量值。也可以根据需要进行一定的转换，如按区间分组等。

变量标准化：使用标准化方法，将不同变量的计量值转换到同一量纲下，方便比较和加权求和。常用的标准化方法有：

最小-最大标准化：将变量值转换到[0,1]区间。

Z-score标准化：将变量值转换到均值为0，标准差为1的分布下。

小数定标标准化：保留变量原来的量纲，但将绝对值调整到小于1。

上述步骤可以实现对不同类型变量的计量和标准化，使其可以进行比较和加权求和。

其中，所述利用注意力机制结合学习模型自动确定标准化后的每个关键变量的权重，并结合神经网络模型计算每个数据段落的综合评分包括以下步骤：

S60、选择注意力机制，采用门控注意力机制或多头注意力机制等。注意力机制可以自动学习每个关键变量的权重，代表其对评分的影响程度；选择学习算法，选择一个学习算法，如神经网络、随机森林、GBDT等。这个学习算法将用于建立评分模型，产生每个数据段落的评分；

S61、利用注意力机制结合学习模型自动确定标准化后的每个关键变量的权重；具体包括：

构建模型：在学习算法的基础上添加注意力层。注意力层可以自动学习每个关键变量的权重。

模型训练：将标准化后的关键变量作为特征输入学习算法模型。在训练过程中，注意力层会同时学习每个特征的权重，代表其对研究目标的影响程度。学习算法模型和注意力层会相互提高，最终产生学习模型和注意力权重。

S62、利用训练后的神经网络模型输出每个关键变量的评分，并利用加权求和法结合关键变量的权重和评分计算每个数据段落的综合评分，具有包括：

选择神经网络模型：根据数据的特征选择一个神经网络模型，如多层感知机、CNN或RNN等。该模型将用于计算每个关键变量的评分。

模型训练：将关键变量的特征作为输入，神经网络模型的输出作为关键变量的评分。使用标注数据训练神经网络模型，最小化评分的预测误差。训练过程中，模型会学习特征与评分之间的映射关系。

评分预测：将新的数据段落的关键变量特征输入神经网络模型，获得每个变量的评分。

加权求和：将每个关键变量的评分与其权重相乘，得到加权评分。然后对所有关键变量的加权评分进行求和，得到数据段落的综合评分。

其中，所述对每个数据段落的综合评分进行排序，并根据排序结果实现对企业内部重要文件的筛选包括以下步骤：

根据本发明的另一个实施例，提供了一种基于数据段落划分的量化式数据分析系统，该系统包括数据清洗模块、数据脱敏模块、变量候选集确定模块、关键变量确定模块、变量计量值计算模块、综合评分模块及数据筛选模块；

综上所述，借助于本发明的上述技术方案，本发明不仅可以利用COPS算法实现对企业内部文件数据中异常数据的识别和清除，而且还可以基于BERT语言模型识别和脱敏处理敏感信息，有效地保护数据隐私，满足数据安全的要求，从而使得企业可以更高效地管理文件数据，节省存储空间，降低存储成本，同时，本发明还可以利用双向长短期记忆模型、多头注意力机制及神经网络模型来实现对企业内部重要文件的筛选，从而可以根据文件的重要程度对企业内部的文件数据进行存储，使得企业管理者在决策时可以快速准确地找到重要的文件数据，即快速准确的找到决策依据，从而可以有效地提升决策效率和精准性，进而可以更好地满足于企业的使用需求。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括以上方法所述的步骤，所述的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于数据段落划分的量化式数据分析方法，其特征在于，该方法包括以下步骤：

S7、对每个数据段落的综合评分进行排序，并根据排序结果实现对企业内部重要文件的筛选；

所述获取企业内部的文件数据，并利用COPS算法对文件数据中的异常数据进行识别及清理包括以下步骤：

S11、获取企业内部的文件数据，得到初始文件数据集；

S13、对清洗后的文件数据集进行分词、去噪及缺失值填充处理；

S126、移除识别出的异常数据，得到文件数据集；

所述增量△的计算公式为：

；

所述聚类有效性指标Q的计算公式为：

；

式中，表示COPS算法精度的参数；

表示归一化数据的标准偏差，m表示维度；

M表示初始状态时的类间分离度；

和/>表示组合参数；

表示类内紧凑度；

表示类间分离度。

2.根据权利要求1所述的一种基于数据段落划分的量化式数据分析方法，其特征在于，所述利用BERT语言模型对预处理后的文件数据中的敏感数据进行识别，并进行脱敏处理包括以下步骤：

3.根据权利要求1所述的一种基于数据段落划分的量化式数据分析方法，其特征在于，所述基于数据的特征对脱敏后的文件数据进行划分，并利用双向长短期记忆模型提取每个数据段落的特征，得到变量候选集包括以下步骤：

4.根据权利要求1所述的一种基于数据段落划分的量化式数据分析方法，其特征在于，所述利用多头注意力机制计算变量候选集中每个变量的注意力权重，并根据每个变量的注意力权重确定关键变量包括以下步骤：

5.根据权利要求1所述的一种基于数据段落划分的量化式数据分析方法，其特征在于，所述利用注意力机制结合学习模型自动确定标准化后的每个关键变量的权重，并结合神经网络模型计算每个数据段落的综合评分包括以下步骤：

6.根据权利要求1所述的一种基于数据段落划分的量化式数据分析方法，其特征在于，所述对每个数据段落的综合评分进行排序，并根据排序结果实现对企业内部重要文件的筛选包括以下步骤：

7.一种基于数据段落划分的量化式数据分析系统，用于实现权利要求1-6中任一项所述的基于数据段落划分的量化式数据分析方法的步骤，其特征在于，该系统包括数据清洗模块、数据脱敏模块、变量候选集确定模块、关键变量确定模块、变量计量值计算模块、综合评分模块及数据筛选模块；