CN110502731A

CN110502731A - 一种基于精化单元格聚类的电子表格缺陷检测方法

Info

Publication number: CN110502731A
Application number: CN201910597185.1A
Authority: CN
Inventors: 许畅; 李达; 王慧妍; 马晓星
Original assignee: Nanjing University
Current assignee: CVIC Software Engineering Co Ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2019-11-26
Anticipated expiration: 2039-07-04
Also published as: CN110502731B

Abstract

一种基于精化单元格聚类的电子表格缺陷检测方法，包括如下步骤：一、利用公式单元格生成种子类：提取公式单元格的强特征，根据强特征相似度进行初步的单元格聚类；二、对步骤一之后的剩余单元格进行聚类：提取单元格的弱特征，根据弱特征相似度将剩余单元格添加到合适的种子类中，形成泛化类；三、精化步骤二中生成的泛化类：利用有效性属性对泛化类进行精化处理，形成精化类；四、定位精化类中的有缺陷的单元格：利用离群点检测技术，标记精化类中的离群点为有缺陷的单元格。本发明能够弥补电子表格缺陷检测技术的不足，利用两阶段的单元格聚类技术，提高聚类的召回率，并利用有效性属性来提高聚类的精度，从而提升电子表格缺陷检测的效果。

Description

一种基于精化单元格聚类的电子表格缺陷检测方法

技术领域

本发明属于电子表格缺陷检测领域，具体涉及一种基于精化单元格聚类的电子表格缺陷检测方法。

背景技术

电子表格缺陷检测技术主要关注电子表格使用过程中，终端用户可能引入的公式缺陷。典型的公式缺陷包括单元格中的公式使用不正确的引用单元格，不正确的运算符，不正确的运算数，以及公式缺失等情况。但电子表格本身并不含有历史信息，因此是否一个公式与自身想要表达的语义不同，难以判断。其他已有方法大多采用基于模式匹配或者类型推导的方式来检测公式缺陷，通常只能局限于特定类型的公式缺陷，泛化性较低。

发明内容

本发明针对现有技术中的不足，提供一种基于精化单元格聚类的电子表格缺陷检测方法。

为实现上述目的，本发明采用以下技术方案：

一种基于精化单元格聚类的电子表格缺陷检测方法，其特征在于，包括如下步骤：

步骤一、利用公式单元格生成种子类：提取公式单元格的强特征，根据强特征相似度进行初步的单元格聚类；

步骤二、对步骤一之后的剩余单元格进行聚类：提取单元格的弱特征，根据弱特征相似度将剩余单元格添加到合适的种子类中，形成泛化类；

步骤三、精化步骤二中生成的泛化类：利用有效性属性对泛化类进行精化处理，形成精化类；

步骤四、定位精化类中的有缺陷的单元格：利用离群点检测技术，标记精化类中的离群点为有缺陷的单元格。

为优化上述技术方案，采取的具体措施还包括：

进一步地，所述电子表格是指一类用于数值、文字编辑的表格管理软件，如MicrosoftExcel；所述单元格是指电子表格中用于编辑的最小单元，用于存储数值、公式和文本数据，如“2019-06-02”、“=A1+5”、“Year”。

进一步地，所述步骤一中，公式单元格是指该单元格用于表达一种具体的计算步骤，如“=A1+5”；公式单元格的强特征是指根据公式形式得到的计算特征；强特征相似度是指根据给定的衡量标准来计算不同公式单元格的强特征相关性；种子类是指由强特征关系得到的公式单元格类。

进一步地，所述步骤一中，根据公式单元格所含的公式，提取出对应的强特征，强特征采用抽象语法树和依赖关系树；利用树编辑距离算法，得出任意两个公式单元格的抽象语法树和依赖关系树的相似度，根据相似度排序，从相似度最高的两个公式开始进行聚类；迭代整个过程，每次选择两个相似度最高的类进行合并，直到最高相似度小于特定的阈值；至此，所有包含至少两个公式的类，被称作种子类。

进一步地，所述步骤二中，剩余单元格是指在执行步骤一后没有被聚类的公式单元格和纯数值单元格；单元格的弱特征是指根据单元格的内容及其所在位置提取出的相关属性，比如单元格的背景色、表头信息；弱特征相似度是指根据给定的衡量标准来计算不同单元格的弱特征相关性；泛化类是指在种子类的基础上，添加了相应的剩余单元格构成的新类。

进一步地，所述步骤二中，根据公式单元格和纯数值单元格的内容信息和位置信息，提取出对应的弱特征，包括公式的所在行列坐标信息、表头信息、单元格阵列信息和间隙模板信息；预先根据种子类内已有的单元格弱特征信息来计算每种弱特征信息在每个种子类中的权重，得到每个种子类的弱特征综合信息；再计算步骤一之后的每个剩余单元格的弱特征信息和每个种子类的弱特征综合信息的相似度；按照相似度排序，尝试将每个剩余单元格加入到弱特征最相似的种子类，如果该相似度大于某个阈值，则将该剩余单元格加入到对应种子类中，最终步骤一中生成的种子类形成了多个泛化类。

进一步地，所述步骤三中，有效性属性是指泛化类中每个单元格自身，多个单元格之间，以及整个泛化类内部应当满足的约束；精化类是指经过有效性属性检验和过滤之后的泛化类。

进一步地，所述步骤三中，采用如下三种用于提升聚类精度的有效性属性检测方法：

第一种有效性属性检测是根据单个单元格自身信息来设计的：采用泛化类中已有的公式经过转换后用于计算泛化类中其他纯数值单元格，如果发现对纯数值单元格的任何一种改写都会引用非法类型，则将这种纯数值单元格从原泛化类中剔除，其中，合法类型的单元格指空单元格、纯数值单元格和公式单元格，其余类型均为非法类型；

第二种有效性属性检测是根据多个单元格之间的信息来设计的：如果在步骤二中添加的单元格不满足如下有效性属性，则将这种单元格从原泛化类中剔除，该有效性属性为：如果原有的公式单元格的引用集合彼此不相交，那么后添加的单元格被填上适当的公式之后，和其他公式单元格的引用集合也彼此不相交；相反地，如果原有的公式单元格的引用集合彼此相交，那么后添加的单元格被填上适当的公式之后，和其他公式单元格的引用集合也彼此相交；其中，原有的公式单元格指的是每个泛化类中最初在种子类中就存在的公式单元格，引用集合指的是被某个公式单元格引用的其他单元格的集合，适当的公式指的是将该泛化类中已有公式改写到对应的单元格中的新公式；

第三种有效性属性检测是针对每个泛化类的信息来设计的：使用泛化类中每个已有的公式来统一计算该泛化类内的所有的单元格，如果新计算的值和原来的值吻合的概率不小于50%，判定该泛化类具有指导意义，可以用于步骤四的缺陷检测；否则，该泛化类则被剔除出步骤四的缺陷检测过程。

进一步地，所述步骤四中，离群点检测技术是指用于辨别类内离群点的通用方法；有缺陷的单元格是指和属于同一个精化类的其他单元格相比，该单元格具有显著差异。

进一步地，所述步骤四中，将精化类中的所有纯数值单元格标记为有缺陷的单元格，具体缺陷为缺失公式；对于剩下的所有公式单元格，提取公式的运算符、运算数以及被引用单元格作为每个公式单元格的特征向量，作为离群点检测技术的输入；当某个公式单元格到特征空间中其他相近单元格的平均距离大于某个阈值时，该公式单元格也被标记为有缺陷的单元格，具体缺陷包括不一致的运算符、运算数以及错误的引用单元格。

本发明的有益效果是：能够弥补电子表格缺陷检测技术的不足，利用两阶段的单元格聚类技术，提高聚类的召回率，并利用有效性属性来提高聚类的精度，从而提升电子表格缺陷检测的效果。

附图说明

图1为本发明系统结构图。

图2为本发明利用强特征生成种子类的工作流程图。

图3为本发明利用弱特征生成泛化类的工作流程图。

图4为本发明利用有效性属性生成精化类的工作流程图。

图5为本发明利用离群点检测技术识别单元格缺陷的工作流程图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

如图1所示，图1为本发明系统结构图。本发明由利用公式单元格生成种子类、对步骤一之后的剩余单元格进行聚类、精化步骤二中生成的泛化类以及定位精化类中的有缺陷的单元格这几部分组成。各部分的完成具体包括以下步骤：

步骤一：利用公式单元格生成种子类。

如图2所示，图2为本发明利用强特征生成种子类的工作流程图。根据公式单元格所含的公式，提取出对应的强特征，本方法实际实现中提取抽象语法树和依赖关系树。利用树编辑距离算法，得出任意两个单元格的抽象语法树和依赖关系树的相似度，根据相似度排序，从相似度最高的两个公式开始进行聚类。迭代整个过程，每次选择两个相似度最高的类进行合并，直到最高相似度小于特定的阈值。至此，所有包含至少两个公式的类，被称作种子类。种子类将在步骤二中被使用。

步骤二：对步骤一之后的剩余单元格进行聚类。

如图3所示，图3为本发明利用弱特征生成泛化类的工作流程图。根据公式单元格和纯数值单元格的内容信息和位置信息，提取出对应的弱特征，本方法实际实现中提出公式的所在行列坐标信息，表头信息，单元格阵列信息，间隙模板信息等。预先根据种子类内已有的单元格弱特征信息来计算每种弱特征信息在每个种子类中的权重，再计算步骤一之后的每个剩余单元格的弱特征信息和每个种子类的弱特征综合信息的相似度。按照相似度排序，尝试将每个剩余单元格加入到弱特征最相似的种子类中。如果该相似度大于某个阈值，则将该剩余单元格加入到对应种子类中，最终步骤一中生成的种子类形成了多个泛化类。泛化类将在步骤三中被使用。

步骤三：精化步骤二中生成的泛化类。

如图4所示，图4为本发明利用有效性属性生成精化类的工作流程图。本方法中设计了三种用于提升聚类精度的有效性属性检测技术。

第一种有效性属性检测是根据单个单元格自身信息来设计的。当某个泛化类中含有纯数值单元格时，由于每个纯数值单元格的值本应该由公式计算得来，并且该潜在公式如果引用其他单元格，则应当引用其他合法类型的单元格，在本方法实际实现中，合法类型的单元格指空单元格、纯数值单元格和公式单元格，其余类型均为非法类型。另外，泛化类中已存在的公式单元格通常能够代表该泛化类应当符合的计算过程。因此，本方法尝试用泛化类中已有的公式经过转换（如适配于行列变化等所进行的转换）后用于计算泛化类中其他纯数值单元格，如果发现对纯数值单元格的任何一种改写（公式单元格去适配纯数值单元格）都会引用非法类型，则将这种纯数值单元格从原泛化类中剔除，进而较大可能地减少步骤四的误报。

第二种有效性属性检测是根据多个单元格之间的信息来设计的。在每个泛化类中，最初在种子类中就存在的公式单元格之间，存在着一个潜在关系。经过观察，如果原有的公式单元格的引用集合彼此不相交，那么后添加的单元格被填上适当的公式之后，和其他公式单元格的引用集合也大概率彼此不相交。相反地，如果原有的公式单元格的引用集合彼此相交，那么后添加的单元格被填上适当的公式之后，和其他公式单元格的引用集合也大概率彼此相交。这里提到的引用集合，指的是被某个公式单元格引用的其他单元格的集合。这里提到的适当的公式，本方法在实现中，使用的是将该泛化类中已有公式改写到对应的单元格中的新公式。如果在步骤二中添加的单元格不满足这个有效性属性，则将这种单元格从原泛化类中剔除，进而较大可能地减小步骤四的误报。

第三种有效性属性检测是针对每个泛化类的信息来设计的。聚类的最初目的是为了找到计算过程接近的单元格，因此步骤二生成的每个泛化类内部应该含有统一的计算过程。经过观察，大多数情况下，表达每个泛化类内部统一的计算过程的公式应当已经包含在改泛化类内。因此，本方法尝试使用每个已有的公式来统一计算该泛化类内的所有的单元格，如果新计算的值和原来的值吻合的概率不小于50%，本方法判定该泛化类具有指导意义，可以用于步骤四的缺陷检测；否则，该泛化类则被剔除出步骤四的缺陷检测过程，进而较大可能地减小步骤四的误报。

这三种有效性属性，属于层层递进的关系，通过检测这三种有效性属性，高效地过滤泛化类中的部分单元格，或者过滤掉整个泛化类，形成精化类。精化类将在步骤四中被使用。

步骤四：定位精化类中的有缺陷的单元格。

如图5所示，图5为本发明利用离群点检测技术识别单元格缺陷的工作流程图。首先，精化类中的所有纯数值单元格标记为有缺陷的单元格，具体缺陷为缺失公式。对于剩下的所有公式单元格，提取公式的运算符、运算数以及被引用单元格作为每个公式单元格的特征向量，作为离群点检测技术的输入。当某个公式单元格到特征空间中其他相近单元格的平均距离大于某个阈值时，该公式单元格也被标记为有缺陷的单元格，具体缺陷可能是不一致的运算符、运算数以及错误的引用单元格。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于精化单元格聚类的电子表格缺陷检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于精化单元格聚类的电子表格缺陷检测方法，其特征在于：

所述电子表格是指一类用于数值、文字编辑的表格管理软件；所述单元格是指电子表格中用于编辑的最小单元，用于存储数值、公式和文本数据。

3.如权利要求1所述的一种基于精化单元格聚类的电子表格缺陷检测方法，其特征在于：

所述步骤一中，公式单元格是指该单元格用于表达一种具体的计算步骤；公式单元格的强特征是指根据公式形式得到的计算特征；强特征相似度是指根据给定的衡量标准来计算不同公式单元格的强特征相关性；种子类是指由强特征关系得到的公式单元格类。

4.如权利要求3所述的一种基于精化单元格聚类的电子表格缺陷检测方法，其特征在于：

所述步骤一中，根据公式单元格所含的公式，提取出对应的强特征，强特征采用抽象语法树和依赖关系树；利用树编辑距离算法，得出任意两个公式单元格的抽象语法树和依赖关系树的相似度，根据相似度排序，从相似度最高的两个公式开始进行聚类；迭代整个过程，每次选择两个相似度最高的类进行合并，直到最高相似度小于特定的阈值；至此，所有包含至少两个公式的类，被称作种子类。

5.如权利要求1所述的一种基于精化单元格聚类的电子表格缺陷检测方法，其特征在于：

所述步骤二中，剩余单元格是指在执行步骤一后没有被聚类的公式单元格和纯数值单元格；单元格的弱特征是指根据单元格的内容及其所在位置提取出的相关属性；弱特征相似度是指根据给定的衡量标准来计算不同单元格的弱特征相关性；泛化类是指在种子类的基础上，添加了相应的剩余单元格构成的新类。

6.如权利要求5所述的一种基于精化单元格聚类的电子表格缺陷检测方法，其特征在于：

所述步骤二中，根据公式单元格和纯数值单元格的内容信息和位置信息，提取出对应的弱特征，包括公式的所在行列坐标信息、表头信息、单元格阵列信息和间隙模板信息；预先根据种子类内已有的单元格弱特征信息来计算每种弱特征信息在每个种子类中的权重，得到每个种子类的弱特征综合信息；再计算步骤一之后的每个剩余单元格的弱特征信息和每个种子类的弱特征综合信息的相似度；按照相似度排序，尝试将每个剩余单元格加入到弱特征最相似的种子类，如果该相似度大于某个阈值，则将该剩余单元格加入到对应种子类中，最终步骤一中生成的种子类形成了多个泛化类。

7.如权利要求1所述的一种基于精化单元格聚类的电子表格缺陷检测方法，其特征在于：

所述步骤三中，有效性属性是指泛化类中每个单元格自身，多个单元格之间，以及整个泛化类内部应当满足的约束；精化类是指经过有效性属性检验和过滤之后的泛化类。

8.如权利要求7所述的一种基于精化单元格聚类的电子表格缺陷检测方法，其特征在于：

所述步骤三中，采用如下三种用于提升聚类精度的有效性属性检测方法：

9.如权利要求1所述的一种基于精化单元格聚类的电子表格缺陷检测方法，其特征在于：

所述步骤四中，离群点检测技术是指用于辨别类内离群点的通用方法；有缺陷的单元格是指和属于同一个精化类的其他单元格相比，该单元格具有显著差异。

10.如权利要求9所述的一种基于精化单元格聚类的电子表格缺陷检测方法，其特征在于：

所述步骤四中，将精化类中的所有纯数值单元格标记为有缺陷的单元格，具体缺陷为缺失公式；对于剩下的所有公式单元格，提取公式的运算符、运算数以及被引用单元格作为每个公式单元格的特征向量，作为离群点检测技术的输入；当某个公式单元格到特征空间中其他相近单元格的平均距离大于某个阈值时，该公式单元格也被标记为有缺陷的单元格，具体缺陷包括不一致的运算符、运算数以及错误的引用单元格。