CN111144256B

CN111144256B - 基于视频动态分析的电子表格公式合成与错误检测方法

Info

Publication number: CN111144256B
Application number: CN201911307014.7A
Authority: CN
Inventors: 许畅; 蒋炎岩; 黄奕诚; 陈钦霖; 石丰民
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2023-04-25
Anticipated expiration: 2039-12-18
Also published as: CN111144256A

Abstract

本发明公开了一种基于视频动态分析的电子表格公式合成与错误检测方法，包括：S1：动态获取视频图像，提取其中所包含的幻灯片，对提取的幻灯片进行仿射变换与对比度增强；S2：从幻灯片中识别表格边框线与各单元格信息，以提取幻灯片中的电子表格；S3：利用公式合成算法对电子表格进行公式合成，恢复电子表格隐藏公式；S4：利用错误检测算法检测恢复隐藏公式后电子表格中是否存在具有缺陷的单元格，如果存在，生成错误定位报告，指出具有潜在公式或数值错误的单元格。本发明能够针对动态视频中的幻灯片和电子表格，高效地进行识别与分析，使用户在会议、课堂等实际场景中快捷检测和定位幻灯片中电子表格的隐藏公式及其潜在错误。

Description

基于视频动态分析的电子表格公式合成与错误检测方法

技术领域

本发明涉及图像识别领域和电子表格公式生成、错误检测技术领域，具体而言涉及一种基于视频动态分析的电子表格公式合成与错误检测方法。

背景技术

目前，用户在会议、课堂等场景中，为了实现更加直观的讲解效果，通常会选择采用幻灯片播放关键资料的形式来辅助讲解。例如，教师在授课时，将授课教材整合成对应的幻灯片，以幻灯片内容为基础对学生进行授课，一方面，提高了授课效率，另一方面，符合当前社会对于无纸化办公以节能减排的呼吁。而学生等听众也经常采用便携式相机(如手机相机)等形式拍摄幻灯片图片，以便后续复习使用。

为了使观众能够最直观的了解所讲述章节，幻灯片通常会选择对应章节最关键的信息内容，以图片或表格等形式展现给用户。而在幻灯片的制作过程中，电子表格里难免会因为格式转换丢失一部分公式，或因为制作失误导致存在潜在错误，为用户后续复习幻灯片时带来困扰。另外，和截屏不同，由于观众拍摄角度不同，最终得到的幻灯片的角度、形状各异，因此，针对幻灯片中电子表格的处理是目前亟需解决的难题。

发明内容

本发明目的在于提供一种基于视频动态分析的电子表格公式合成与错误检测方法，能够针对动态视频中的幻灯片和电子表格，高效地进行识别与分析，使用户在会议、课堂等实际场景中快捷检测和定位幻灯片中电子表格的隐藏公式及其潜在错误。

为达成上述目的，结合图1，本发明提出一种基于视频动态分析的电子表格公式合成与错误检测方法，所述方法包括以下步骤：

S1：动态获取视频图像，提取其中所包含的幻灯片，对提取的幻灯片进行仿射变换与对比度增强；

S2：从步骤S1得到的幻灯片中识别表格边框线与各单元格信息，以提取幻灯片中的电子表格；

S3：利用公式合成算法对步骤S2得到的电子表格进行公式合成，恢复电子表格隐藏公式；

S4：利用错误检测算法检测步骤S3恢复隐藏公式后电子表格中是否存在具有缺陷的单元格，如果存在，生成错误定位报告，指出具有潜在公式或数值错误的单元格。

进一步的实施例中，步骤S1中，所述动态获取视频图像，提取其中所包含的幻灯片，对提取的幻灯片进行仿射变换与对比步骤度增强的过程包括以下步骤：

S11：采用相机动态地获取视频图像，对获取的视频图像进行二值化处理，得到黑白的图像；

S12：在黑白的图像中检测是否存在幻灯片轮廓，如果存在，得到幻灯片的轮廓图像，否则返回步骤S11；

S13：在幻灯片的轮廓图像中搜索轮廓中是否存在四个满足给定的顶点约束条件的有效顶点，如果存在，进入步骤S14，否则返回步骤S11；

S14：将视频图像中四个有效顶点的内部区域仿射变换到相机屏幕全屏区域，得到与相机屏幕等大的方正的幻灯片图像；

S15：对幻灯片图像使用卷积运算进行对比度增强，得到增强后的幻灯片图像。

进一步的实施例中，步骤S2中，所述从步骤S1得到的幻灯片中识别表格边框线与各单元格信息，以提取幻灯片中的电子表格的过程包括以下步骤：

S21：将步骤S1所得的幻灯片图像进行二值化处理与线段检测，得到若干条候选的边框线；

S22：计算每条候选边框线的角度，剔除非水平或竖直的线段，得到方向为横向或纵向的候选边框线；

S23：对得到的横向或纵向的部分候选边框线进行过滤或合并处理，得到最终的表格边框线；

S24：沿边框线划分出若干个单元格，利用文字识别技术识别得到各个单元格中的数据，从而提取出幻灯片图像中的电子表格。

进一步的实施例中，步骤S22中，所述计算每条候选边框线的角度，剔除非水平或竖直的线段包括，

判断计算得到的每条候选边框线与水平方向和竖直方向的夹角中的最小值是否小于设定误差角度阈值，如果是，将其判定为对应的横向或纵向的候选边框线，否则，剔除该候选边框线。

进一步的实施例中，步骤S23中，所述对得到的横向或纵向的部分候选边框线进行过滤或合并处理，得到最终的表格边框线的过程包括以下步骤：

S231：在每条候选边框线上随机撒点取样，通过样本对应的像素颜色是否为给定的颜色来判断该样本是否在该线段上，利用线段对样本的覆盖率过滤掉被误识别为边框线的候选边框线；

S232：将每两条方向相同且距离低于第一距离阈值的候选边框线合并。

进一步的实施例中，步骤S3中，所述利用公式合成算法对步骤S2得到的电子表格进行公式合成，恢复电子表格隐藏公式的过程包括以下步骤：

S31：分析电子表格结构，生成候选引用单元格集合：

S311：将电子表格中同一行或同一列中连续的文本单元格判定为表头，其中，表头是指描述其正右方或正下方若干个数值单元格所表示的语义的文本单元格，包括行表头和列表头；

S312：为电子表格中每一个数值单元格找到离其最近的行表头和列表头，作为该单元格所属的行表头和列表头；

S313：对于每个数值单元格，将与该单元格所属同一个行表头或者同一个列表头，并且与该单元格的距离不超过第二距离阈值的所有数值单元格作为该单元格的候选引用单元格，生成该单元格的候选引用单元格集合；

S32：根据给定的公式语法，生成候选公式模版集合：

S321：利用给定的公式语法，按照由低到高的顺序规定抽象语法树的高度，并枚举所有可以由该高度的抽象语法树描述的候选公式模版；其中，公式语法是指由单元格、常数作为操作数，四则运算符号、电子表格函数作为运算符的表达式语法，具有括号嵌套结构，公式模版是指含有明确的运算符和未定的操作数的电子表格公式；

S322：过滤语法完全相同的候选公式模版，并将各公式模版按其对应的抽象语法树高度由低到高排序，得到有序的候选公式模版集合；

S33：结合候选引用单元格集合和候选公式模版集合，恢复隐藏公式：

按序取候选公式模版集合中的候选公式模版，对电子表格中的每个数值单元格，将该单元格的候选引用单元格和给定的候选常数逐个代入该候选公式模版，得到操作数明确的具体公式，若该具体公式计算得到的数值与该单元格存储的数值相等，则以该具体公式作为该数值单元格的隐藏公式，替换原先数值，否则，取候选公式模版集合中的下一个候选公式模版，直至恢复步骤二得到的电子表格中的所有隐藏公式。

进一步的实施例中，步骤S321中，采用从抽象语法树叶结点开始的自底向上枚举方法以枚举所有可以由该高度的抽象语法树描述的候选公式模版。

进一步的实施例中，步骤S4中，所述利用错误检测算法检测步骤S3恢复隐藏公式后电子表格中是否存在具有缺陷的单元格，如果存在，生成错误定位报告，指出具有潜在公式或数值错误的单元格的过程包括以下步骤：

S41：根据公式单元格所含的公式相似度，对公式单元格进行聚类，得到初步聚类；

S42：获取剩下的数值单元格的相关信息，计算获取的相关信息与初步聚类中各个类的相似度，将对应的单元格归入相似度最高的聚类中，得到最终聚类；

S43：检测每个最终聚类中的离群点，将离群点对应的单元格判定为具有缺陷的单元格；

S44：根据具有缺陷的单元格生成错误定位报告，指出该幻灯片的电子表格中具有潜在公式或数值错误的单元格，在智能手机屏幕上向用户呈现。

进一步的实施例中，所述剩下的数值单元格的相关信息包括数值单元格所包含的内容信息、数值单元格与公式单元格的位置关系。

以上本发明的技术方案，与现有相比，其显著的有益效果在于：

(1)能够针对动态视频中的幻灯片和电子表格，高效地进行识别与分析，使用户在会议、课堂等实际场景中快捷检测和定位幻灯片中电子表格的隐藏公式及其潜在错误。

(2)不受观众拍摄角度影响，对不同角度、形状的幻灯片均能有效处理。

(3)采用多种策略，例如二值化处理、对比度增强、设置误差值阈值、候选边框线再处理等方式，加快了整体的检测速度和检测效果，运算时间短。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外，所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1是本发明的基于视频动态分析的电子表格公式合成与错误检测方法的流程图。

图2是本发明的动态识别视频中的幻灯片的工作流程图。

图3是本发明的识别幻灯片中的电子表格的工作流程图。

图4是本发明的利用公式合成算法恢复电子表格隐藏公式的工作流程图。

图5是本发明的检测电子表格中的错误并生成错误定位报告的工作流程图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本发明中：

电子表格是指一类用于数值、文字存储与编辑的计算机表格管理软件，如Microsoft Excel、Numbers。

视频是指利用智能手机内置相机拍摄的视频图像，随时间与相机方位动态变化。

幻灯片是指由图片、文字、动画特效等元素组成的，用于辅助演讲的演示文稿。

视频图像是指视频中的一帧图像。

仿射变换是指将视频中歪斜呈现的幻灯片变换为与相机屏幕等大的方正图像，同时不失幻灯片中的信息。

对比度增强是指将仿射变换得到的方正图像进行卷积运算，改善视觉效果，利于后续识别。

单元格是指电子表格中用于编辑的最小单元，用于存储数值、公式和文本数据。

表格边框线是指电子表格中用于划分各个单元格的边框线，按方向可划分为横向边框线和纵向边框线。

隐藏公式是指原先存储于电子表格某单元格中的公式，因格式转换等原因，现今丢失公式，呈现为与公式等值的数值，但仍具有原先公式的计算语义。

公式合成是指从电子表格的数值中自动合成出各单元格可能存在的隐藏公式，并将该单元格的数值替换为公式的操作。

具有缺陷的单元格是指未能恢复与其邻近且拥有相似语义的其它单元格一致的隐藏公式的单元格，其中，一致的隐藏公式是指两个隐藏公式结构相同且引用的单元格相对位置相同。

错误定位报告是指标记并描述了电子表格公式或数值错误位置的报告。

如图1所示，图1为本发明的基于视频动态分析的电子表格公式合成与错误检测方法流程图。本发明由动态识别视频中的幻灯片、在步骤一的幻灯片图像中识别电子表格、恢复步骤二中电子表格的隐藏公式以及检测步骤三得到的电子表格的错误并生成错误定位报告这几个步骤组成。

步骤一：动态识别视频中的幻灯片。

如图2所示，图2为本发明动态识别视频中的幻灯片的工作流程图。相机动态地获取视频图像，对视频图像进行二值化处理，得到黑白的图像。在黑白的图像中检测幻灯片轮廓，得到幻灯片的轮廓图像。在幻灯片的轮廓图像中搜索轮廓中尖锐的顶点，依据给定的顶点约束条件来判定是否是有效的顶点，本技术实际实现中顶点约束条件包括存在四个顶点满足它们的两条对角线长度与整个图像对角线长度的比例均大于某一阈值的条件。重复如上步骤直到在某个视频图像中找到代表幻灯片顶点的四个有效顶点。将视频图像中四个有效顶点的内部区域仿射变换到相机屏幕全屏区域，得到与相机屏幕等大的方正的幻灯片图像。对幻灯片图像使用卷积运算进行对比度增强，得到增强后的幻灯片图像。幻灯片图像将在步骤二中被使用。

步骤二：在步骤一的幻灯片图像中识别电子表格。

如图3所示，图3为本发明识别幻灯片中的电子表格的工作流程图。将步骤一所得的幻灯片图像进行二值化处理与线段检测，得到若干条候选的边框线。计算每条候选边框线的角度，剔除非水平或竖直的线段，得到方向为横向或纵向的候选边框线，在本技术实际实现中，允许候选边框线的角度与水平或竖直方向有微小误差，以降低漏判率。在每条候选边框线上随机撒点取样，通过样本对应的像素颜色是否为给定的颜色来判断该样本是否在该线段上，利用线段对样本的覆盖率进一步过滤因文字密集等原因而被误识别为边框线从而导致覆盖率低的候选边框线。将每两条方向相同且距离低于某个阈值的候选边框线合并。至此，得到最终的表格边框线，沿边框线划分出若干个单元格，利用文字识别技术识别得到各个单元格中的数据，从而提取出幻灯片图像中的电子表格。电子表格将在步骤三中被使用。

步骤三：恢复步骤二中电子表格的隐藏公式。

如图4所示，图4为本发明利用公式合成算法恢复电子表格隐藏公式的工作流程图。本技术中设计了用于恢复电子表格隐藏公式的三阶段公式合成算法。

第一个阶段是分析电子表格结构，生成候选引用单元格集合。将电子表格中同一行或同一列中连续的文本单元格判定为表头，其中，表头是指描述其正右方或正下方若干个数值单元格所表示的语义的文本单元格，包括行表头和列表头。为电子表格中每一个数值单元格找到离其最近的行表头和列表头，作为该单元格所属的行表头和列表头，其中，两个单元格之间的距离是指两者行号差值与列号差值之和。本技术实际实现中，某个数值单元格的候选引用单元格是指与该数值单元格所属同一个行表头或者同一个列表头，并且与该单元格的距离不超过某个阈值的所有数值单元格。所有这样的候选引用单元格形成该单元格的候选引用单元格集合，将在第三阶段用于具体公式生成。

第二个阶段是根据给定的公式语法，生成候选公式模版集合。利用给定的公式语法，按照由低到高的顺序规定抽象语法树的高度，并枚举所有可以由该高度的抽象语法树描述的候选公式模版，本技术尝试使用从抽象语法树叶结点开始的自底向上枚举方法。其中，公式语法是指由单元格、常数作为操作数，四则运算符号、电子表格函数作为运算符的表达式语法，具有括号嵌套结构，公式模版是指含有明确的运算符和未定的操作数的电子表格公式，暂不能计算得到实际数值，操作数在后续步骤中确定。在本技术实际实现中，因为某些运算符如加法、乘法具有交换律，枚举过程中可能生成语法完全相同的候选公式模版，为了减小不必要的合成开销，因此过滤语法完全相同的候选公式模版，保证集合中每个候选公式模版语法各不相同。将各公式模版按其对应的抽象语法树高度由低到高排序，得到有序的由简单到复杂的候选公式模版集合，将在第三阶段用于具体公式生成。

第三个阶段是结合候选引用单元格集合和候选公式模版集合，恢复隐藏公式。按序取候选公式模版集合中的候选公式模版，对电子表格中的每个数值单元格，将该单元格的候选引用单元格和给定的候选常数逐个代入该候选公式模版，取代原先未定的操作数，得到操作数明确的具体公式，若该具体公式计算得到的数值与该单元格存储的数值相等，则以该具体公式作为该数值单元格的隐藏公式，替换原先数值。否则，取候选公式模版集合中的下一个候选公式模版。至此，在步骤二得到的电子表格中，数值单元格的隐藏公式得以恢复。

这三个阶段中，第一阶段为第三阶段提供候选引用单元格集合，第二阶段为第三阶段提供候选公式模版集合，通过采用该三阶段公式合成算法，高效地恢复电子表格中的隐藏公式。恢复隐藏公式后的电子表格将在步骤四中被使用。

步骤四：检测步骤三得到的电子表格的错误并生成错误定位报告。

如图5所示，图5为本发明检测电子表格中的错误并生成错误定位报告的工作流程图。首先，根据公式单元格所含的公式相似度，对公式单元格进行聚类，得到初步聚类集合。计算剩下的数值单元格与公式单元格的位置、样式等信息与初步聚类集合中各个类的相似度，将对应的单元格归入相似度最高的聚类中，得到最终聚类集合。其次，利用离群点检测技术检测每个最终聚类中的离群点，将离群点对应的单元格作为具有缺陷的单元格。最后，根据具有缺陷的单元格生成错误定位报告，指出该幻灯片的电子表格中具有潜在公式或数值错误的单元格，在智能手机屏幕上向用户呈现。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定义在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于视频动态分析的电子表格公式合成与错误检测方法，其特征在于，所述方法包括以下步骤：

S4：利用错误检测算法检测步骤S3恢复隐藏公式后电子表格中是否存在具有缺陷的单元格，如果存在，生成错误定位报告，指出具有潜在公式或数值错误的单元格;

步骤S3中，所述利用公式合成算法对步骤S2得到的电子表格进行公式合成，恢复电子表格隐藏公式的过程包括以下步骤：

S31：分析电子表格结构，生成候选引用单元格集合：

S32：根据给定的公式语法，生成候选公式模版集合：

按序取候选公式模版集合中的候选公式模版，对电子表格中的每个数值单元格，将该单元格的候选引用单元格和给定的候选常数逐个代入该候选公式模版，得到操作数明确的具体公式，若该具体公式计算得到的数值与该单元格存储的数值相等，则以该具体公式作为该数值单元格的隐藏公式，替换原先数值，否则，取候选公式模版集合中的下一个候选公式模版，直至恢复步骤S2得到的电子表格中的所有隐藏公式；

步骤S4中，所述利用错误检测算法检测步骤S3恢复隐藏公式后电子表格中是否存在具有缺陷的单元格，如果存在，生成错误定位报告，指出具有潜在公式或数值错误的单元格的过程包括以下步骤：

2.根据权利要求1所述的基于视频动态分析的电子表格公式合成与错误检测方法，其特征在于，步骤S1中，所述动态获取视频图像，提取其中所包含的幻灯片，对提取的幻灯片进行仿射变换与对比步骤度增强的过程包括以下步骤：

3.根据权利要求1所述的基于视频动态分析的电子表格公式合成与错误检测方法，其特征在于，步骤S2中，所述从步骤S1得到的幻灯片中识别表格边框线与各单元格信息，以提取幻灯片中的电子表格的过程包括以下步骤：

4.根据权利要求3所述的基于视频动态分析的电子表格公式合成与错误检测方法，其特征在于，步骤S22中，所述计算每条候选边框线的角度，剔除非水平或竖直的线段包括:

5.根据权利要求3所述的基于视频动态分析的电子表格公式合成与错误检测方法，其特征在于，步骤S23中，所述对得到的横向或纵向的部分候选边框线进行过滤或合并处理，得到最终的表格边框线的过程包括以下步骤：

6.根据权利要求1所述的基于视频动态分析的电子表格公式合成与错误检测方法，其特征在于，步骤S321中，采用从抽象语法树叶结点开始的自底向上枚举方法以枚举所有可以由该高度的抽象语法树描述的候选公式模版。

7.根据权利要求6所述的基于视频动态分析的电子表格公式合成与错误检测方法，其特征在于，所述剩下的数值单元格的相关信息包括数值单元格所包含的内容信息、数值单元格与公式单元格的位置关系。