CN113515597A

CN113515597A - 一种基于关联规则挖掘的档案处理方法

Info

Publication number: CN113515597A
Application number: CN202110684881.3A
Authority: CN
Inventors: 李帅
Original assignee: Zhongdun Innovation Archives Management Beijing Co ltd
Current assignee: Zhongdun Innovation Archives Management Beijing Co ltd
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-10-19
Anticipated expiration: 2041-06-21
Also published as: CN113515597B

Abstract

本发明通过提取档案多个维度的要素，基于线性回归后的云模型序列对所述待追踪档案和记录档案进行相应的相似性度量方法，计算云模型档案维度属性之间的相似度；依照所述待追踪档案与存储的所述记录档案之间的内容关联性，判断存储的所述记录档案是否为所述待追踪档案的父档案；对获取父子档案关系的档案进行未来档案的预测与待追踪档案与存储的所述记录档案之间的有效性的聚类验证。本发明提供的一种基于关联规则挖掘的档案处理方法，可以通过基于关联规则的多层筛选过滤对档案之间的关系进行追踪查找，确定档案的关系，并可通过预测、分类等操作对关系确定方法进行有效性验证与未来档案的潜在关系挖掘。

Description

一种基于关联规则挖掘的档案处理方法

技术领域

本发明实施例涉及文本数据处理领域，尤其涉及一种基于关联规则挖掘的档案处理方法。

背景技术

文本溯源主要应用于学术诚信检测、搜索引擎优化等领域，目的在于判断一个文本的内容是否复制或改编于另一个或多个文本，是指将溯源文本与已有的多个文本进行比较，从而获得同源文本，其原理主要利用文本相似度的比对进行判断。同时，随着数据库的广泛使用以及数据共享的逐步兴起，数据泄露问题越来越严重。并且因为数据往往会共享给多方，因此追溯数据泄露的源头也很困难。如果有能追溯到数据泄露源头的方法并广泛进行使用，对数据泄露者会形成一种威慑，进而缓解数据泄露越演越烈的问题。

现有方案中，通常采用Jaccard相似度或余弦相似度比对方式进行文本溯源，Jaccard相似度是一种衡量有限样本集之间的相似性和差异性的方法，Jaccard系数定义为相比较两者的交集与并集的比值，值越大证明其相似度越高；余弦相似度通过计算向量空间中两个向量夹角的余弦值来衡量两者差异，余弦值越大，两者的相似度越高。

然而，Jaccard相似度在对同一相似词的词频反应不敏感，余弦相似度对向量方向上能做出敏感判断，但其对于数字数据无法做出敏感判断。

因此，现有文本相似度的比对方法功能相对单一，只能在某一方面做出精准判断，而无法对文本进行全方面的比对，导致最终的结果不够精准。

发明内容

本发明提供了一种基于关联规则挖掘的档案处理方法，可以通过基于关联规则的多层筛选过滤对档案之间的关系进行追踪查找，确定档案的关系，并可通过预测、分类等操作对关系确定方法进行有效性验证与未来档案的潜在关系挖掘。

本发明请求保护一种基于关联规则挖掘的档案处理方法，其特征在于，包括：

收集待追踪处理的待追踪档案，并对所述待追踪档案的内容进行要素提取，得到所述待追踪档案对应的多个维度的要素；

基于线性回归后的云模型序列对所述待追踪档案和记录档案进行相应的相似性度量方法，自适应地将一个时间序列线性回归表示为若干个正态云；

运用基于期望曲线的云模型相似性度量算法来计算云模型档案维度属性之间的相似度；

依照所述待追踪档案与存储的所述记录档案之间的内容关联性，判断存储的所述记录档案是否为所述待追踪档案的父档案；

采用基于论域信息线性回归的模糊时间序列预测方法对获取父子档案关系的档案进行未来档案的预测；

在标准数据集进行聚类测试，验证所提出的时间序列信息线性回归方法和时间序列相似性度量方法对于待追踪档案与存储的所述记录档案之间的有效性。

具体的，所述基于线性回归后的云模型序列对所述待追踪档案进行相应的相似性度量方法，自适应地将一个时间序列线性回归表示为若干个正态云之前，还包括：

依照每个维度的要素的权重，从所述多个维度的要素中选取N维度的要素；

依照选取的N维度的要素，确定所述N维度的要素中每个维度的要素对应的要素向量；

依照所述N维度的要素中每个维度的要素对应的要素向量和预定区块链中存储的记录档案对应的每个维度的要素的要素向量，通过预定的关联度算法，确定所述N维度的要素中每个维度的要素与所述记录档案中的相应维度的要素的关联度，所述关联度算法包括k近邻kNN算法、欧拉距离算法或余弦距离算法；

如果所述待追踪档案中与所述记录档案中的相应维度的要素的关联度大于预定关联度阈值的维度的数量大于预定数量阈值，则判定存储的所述记录档案与所述待追踪档案之间的内容关联性大于预定的阈值。

具体的，所述运用基于期望曲线的云模型相似性度量算法来计算云模型档案维度属性之间的相似度，还包括：

获取内容关联性大于预定的阈值的初筛记录档案与所述待追踪档案；

基于波动点的时间序列信息线性回归对所述初筛记录档案与所述待追踪档案进行信息线性回归，包括档案维度属性划分和档案维度属性描述，将时间序列划分成若干个小的子序列，每个子序列称为一个档案维度属性，档案维度属性描述是在划分得到的档案维度属性上，构建描述方法对档案维度属性进行有效的特征描述；

原始时间序列转化为时间序列，获取度量时间序列之间的相似度。

具体的，所述依照所述待追踪档案与存储的所述记录档案之间的内容关联性，判断存储的所述记录档案是否为所述待追踪档案的父档案，还包括：

挖掘外露追踪关系档案间的时间特征，首先确定待追踪档案和记录档案的生命周期关系，一般分为周期包含、周期交叉和周期并列；对比待追踪档案和记录档案的创建时间和结束时间，得到时间特征；

挖掘人员特征，挖掘待追踪档案和记录档案的相关负责人的联系，包括同时参与待追踪档案和记录档案对应的活动的人员；

挖掘已链接记录特征，外露追踪关系档案间存在已链接的记录，挖掘待关联档案和已链接记录之间的关系，提取特征；

其中，待追踪待追踪档案a_i与记录档案b_i，所述度量时间序列之间的相似度大于预设阈值在记录档案b_i之前且与待追踪档案a_i已链接的B类档案集合作为L_pre，L_p为集合中时间与记录档案b_i相隔最近的档案，计算记录档案b_i与L_p的文件重合度N_f＝overlap(document(b_i)，document(L_p))、档案关联性N_t＝sim(des(b_i)，des(L_p))；

其中计算文件重合度的公式为：

overlap(document(a_i)，document(b_i))＝(document(a_i)∩document(b_i))/(document(a_i)∪document(b_i))

document(a_i)为待追踪档案_i涉及到的文件集合，document(b_i)为记录档案_i涉及到的文件集合，document(a_i)∩document(b_i)为两个集合的交集，document(a_i)∪document(b_i)为两个集合的并集；

待追踪档案a_i与记录档案b_i，时间上在记录档案b_i之后且与待追踪档案a_i已链接的B类档案集合作为L_next，L_n为集合中时间与记录档案b_i相隔最近的档案，计算记录档案b_i与L_n的文件重合度N_f＝overlap(document(b_i)，document(L_n))、档案关联性N_t＝sim(des(b_i)，des(L_n))；

挖掘待追踪档案和记录档案之间的结果标签，若待追踪档案a_i可以关联到记录档案b_i，则a_i和b_i之间存在追踪关系，为父子档案关系，否则不是父子档案关系。

具体的，所述采用基于论域信息线性回归的模糊时间序列预测方法对获取父子档案关系的档案进行未来档案的预测，还包括：

基于模糊C均值聚类对获取的父子档案关系的档案的时间序列论域初始划分；

基于模糊信息线性回归的时间序列论域优化，获取时间序列；

基于论域信息线性回归的时间序列预测未来档案。

具体的，所述在标准数据集进行聚类测试，验证所提出的时间序列信息线性回归方法和时间序列相似性度量方法对于待追踪档案与存储的所述记录档案之间的有效性，还包括：

输入单尺度分类变量数据模型，识别所有重复对象；

删除初始数据模型中的所有重复对象，获取分类变量非重复数据聚类结果类；

分配各重复对象至结果类，输出:单尺度分类变量数据模型结果类及尺度特征。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于关联规则挖掘的档案处理方法的工作流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

为了便于管理，可以将待追踪档案对应的多个维度的要素映射到有限维的要素空间内，首先可以确定选取的要素的维度信息(如同过上述步骤S104选取等)，然后可以基于确定的维度信息，将相应的要素对应存储到要素空间内。

例如，如果待追踪档案为A，然后对A的内容进行要素提取，得到A对应的m个维度的要素，可以把m个维度的要素映射到有限维度的要素空间X内，要素空间X的维数是m，m个维度的要素可记为X_0，X_1，...，X_m。其中，m为大于或等于1的整数。假设A的要素集合记为F，则F(A)＝(X_0，X_1，...，X_m)。

将待追踪档案中选取的N维度的要素与区块链中存储的记录档案对应的多个维度的要素进行比对，如果待追踪档案中某维度的要素与记录档案对应的维度的要素相匹配，则表明待追踪档案中的该维度的要素在记录档案中存在，然后，可以对待追踪档案中的下一维度的要素进行上述比对，直到待追踪档案中的所有维度的要素比对完成，可以基于要素相匹配的维度数量和要素不匹配的维度数量等数据，确定待追踪档案与存储的记录档案之间的内容关联性，例如，如果待追踪档案中超过N(如超过总数量的80％或超过总数量的60％等)的维度的要素与记录档案中的相应维度的要素匹配，则确定待追踪档案与存储的记录档案之间的内容关联性较大，否则，确定待追踪档案与存储的记录档案之间的内容关联性较小。

进一步的，每一个维度的要素可以使用N的字节(如4个字节或3个字节等，其中使用的字节的个数可以取决于区块链中的区块的大小)的浮点数来表示。

对原始时间序列进行操作识别出波动点，进而通过波动点将原始时间序列划分为若干个子序列，每个子序列被称为一个档案维度属性

以一条时间序列为例，根据极值点的定义对其进行操作，识别出其极值点，在得到极值点后，对其进行属性标注，其中极大值点的属性为1，极小值点的属性为-1。其次，通过设定阈值对极值点进行筛选。

采用阈值集合的方法，通过对阈值集合中的每个阈值进行迭代筛选，最终获得波动点；对于阈值筛选后的得到的点为备选波动点，备选波动点继承了极值点的属性，但由于去除了极值点序列中部分变化较小的点，因此备选波动点序列中相邻两点间的属性之积不一定为-1，需进一步操作得到波动点。

对于时间序列的极值点序列E＝{e₁，e₂，...e_m}，给定阈值集合ε＝{ε₁，ε₂，...ε_q}，若序列E中的相邻两点e_j-1，e_j存在关系|e_j-1-e_j|＞ε_k，则称点e_j为备选波动点，其中，j＝1，2，3…，m，ε_k∈ε为阈值集合中的某一阈值。同时，一条时间序列的起始节点也被认为是备选波动点.

输入：时间序列X＝{x₁，x₂，...x_n}；

输出：波动点序列F＝{f₁，f₂，...f_n}

按照时间顺序排列构成极值点序列E＝{e₁，e₂，...e_m}，并标注极值点的属性，极大值点的属性为1，极小值点的属性为-1；

设置阈值集合ε＝{ε₁，ε₂，...ε_q}来筛选极值点，对于阈值集合中的每个阈值按照从小到大的顺序执行：

对于极值点序列E＝{e₁，e₂，...e_m}判断关系|e_j-1-e_j|＞ε_k，满足则认为是备选波动点，遍历完成后，按照时间顺序排列构成备选波动点序列C＝{C₁，C₂，...C_P}；

对于备选波动点序列C＝{C₁，C₂，...C_P}判断关系

满足则认为是波动点，不满足则进行相应操作，遍历完成后，按照时间顺序排列构成波动点序列F＝{f₁，f₂，...f_n}。

代表点c_i的属性，

表示点c_i和点c_i-1的属性相反，即一个点为极大值点，另一个点为极小值点。同时，一条时间序列的起始节点也被认为是波动点。

其中计算文件重合度的公式为：

基于论域信息线性回归的时间序列预测未来档案。

横糊C均值聚类算法具体包括：

输入：数据集X＝{x₁，x₂，...x_n}；

输出：划分矩阵U和类原型V；

选择类原型的数量c，模糊化因子m和结束条件ε的值，选择距离函数，初始化划分矩阵U⁰；当迭代次数为l(1＝1，2，…)时，根据当前的划分矩阵U^l-1，更新类原型V^l；

根据类原型，更新划分矩阵U^l；

对于

算法停止，返回划分矩阵和类原型V；否则，l＝l+1，返回迭代。

输入单尺度分类变量数据模型，识别所有重复对象；

业务数据预处理，包括从数据集合中找出所有的高频项集合，数据准备将直接影响到关联规则发现方法的复杂度及其业务目标的实现，输入单尺度分类变量数据模型，识别所有重复对象；

根据业务需求，确足最小支持度与最小可信度参数阈值，删除初始数据模型中的所有重复对象，获取分类变量非重复数据聚类结果类；

用数据挖掘算法发现业务数据中的关联规则，分配各重复对象至结果类，输出：单尺度分类变量数据模型结果类及尺度特征，获取管理决策所需的业务规律。

输入：多尺度分类变量数据模型Ds，尺度变换策略类型(激进型或保守型尺度变换策略)，多尺度数据模型的数据重复度上限阈值μ；

输出：满意类及尺度特征SF，尺度变换路径STP；

(多重复值数据预处理)识别多尺度数据模型的基本尺度层级数据Dc)所有重复对象，将每种重复值仅保留一个代表对象。

(基本尺度层级聚类)利用元聚类分析算法对D₀进行初始聚类，并利用档案关联性偏差GrD对基本尺度层级聚类结果进行评价；

(满意度判定阈值确定)识别基本尺度层级聚类结果中所有满意类，并将所有满意类的最大档案关联性偏差作为满意度判定阈值R₀。若无法找到满意类且未到达最高尺度层级，执行步骤尺度变换；否则，终止运算；

(初始满意类结果输出及数据更新)将重复对象添加至代表对象类中，输出所有满意类及每个类的尺度特征SF，并将各满意类中有对象从中删除。

(尺度变换)利用多尺度数据模型的数据重复度上限阈值μ计算分类变量数据尺度变换率，对数据更新后的D^s中所有未被划分至满意类的对象实施尺度上钴变换。若采用激进尺度变换策略，选取分类变据尺度变换率最大的观测尺实施尺度上钻变换，并得到变换后的单尺度据D’；若采用保守尺度变换策略，选取分类变量数据尺度变换率最小的观测尺实施尺度上钻变换，并得到变换后的单尺度数据D’；若所有观测尺的尺度变换率都相同，则选取任意一个观测尺实施尺度变换；

(多重复值数据预处理)识别D’中所有重复对象，将每种重复值仅保留一个代表对象。

(变换后尺度层级聚类)利用元聚类分析算法对进行聚类，并利用档案关联性偏差GrD对变换后尺度层级聚类结果进行评价.

(满意类自动识别)若满意度判定阈值R₀存在，则识别深度-广度变换后尺度层级聚类结果中所有档案关联性偏差小于或等于R₀的类作为满意类，且当所有类的档案关联性偏差评价结果均大于R₀，直接将HD^s’中的等价类作为满意类；否则，执行步骤满意度判定阈值确定。

(满意类结果输出及数据更新)将重复对象添加至代表对象类中，输出所有满意类及每个类的尺度特征SF，并将各满意类中的所有对象从HD^s’中删除。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关联规则挖掘的档案处理方法，其特征在于，包括：

2.如权利要求1所述的一种基于关联规则挖掘的档案处理方法，其特征在于，所述基于线性回归后的云模型序列对所述待追踪档案进行相应的相似性度量方法，自适应地将一个时间序列线性回归表示为若干个正态云之前，还包括：

3.如权利要求1所述的一种基于关联规则挖掘的档案处理方法，其特征在于，所述运用基于期望曲线的云模型相似性度量算法来计算云模型档案维度属性之间的相似度，还包括：

基于波动点的时间序列信息线性回归对所述初筛记录档案与所述待追踪档案进行信息线性回归，包括档案维度属性划分和档案维度属性描述，将时间序列划分成若干个小的子序列，每个子序列称为一个档案维度属性；档案维度属性描述是在划分得到的档案维度属性上，构建描述方法对档案维度属性进行有效的特征描述；

4.如权利要求1所述的一种基于关联规则挖掘的档案处理方法，其特征在于，所述依照所述待追踪档案与存储的所述记录档案之间的内容关联性，判断存储的所述记录档案是否为所述待追踪档案的父档案，还包括：

其中计算文件重合度的公式为：

待追踪待追踪档案a_i与记录档案b_i，时间上在记录档案b_i之后且与待追踪档案a_i已链接的B类档案集合作为L_next，L_n为集合中时间与记录档案b_i相隔最近的档案，计算记录档案b_i与L_n的文件重合度N_f＝overlap(document(b_i)，document(L_n))、档案关联性N_t＝sim(des(b_i)，des(L_n))；

5.如权利要求1所述的一种基于关联规则挖掘的档案处理方法，其特征在于，所述采用基于论域信息线性回归的模糊时间序列预测方法对获取父子档案关系的档案进行未来档案的预测，还包括：

基于模糊C均值聚类对获取的父子档案关系的档案的时间序列论域初始划分；基于模糊信息线性回归的时间序列论域优化，获取时间序列；

基于论域信息线性回归的时间序列预测未来档案。

6.如权利要求1所述的一种基于关联规则挖掘的档案处理方法，其特征在于，所述在标准数据集进行聚类测试，验证所提出的时间序列信息线性回归方法和时间序列相似性度量方法对于待追踪档案与存储的所述记录档案之间的有效性，还包括：

用数据挖掘算法发现业务数据中的关联规则，分配各重复对象至结果类，输出:单尺度分类变量数据模型结果类及尺度特征，获取管理决策所需的业务规律。