CN110059760A

CN110059760A - 基于拓扑结构和cnn的几何图形识别方法

Info

Publication number: CN110059760A
Application number: CN201910337675.8A
Authority: CN
Inventors: 付鹏斌; 张旻; 杨惠荣
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-07-26
Anticipated expiration: 2039-04-25
Also published as: CN110059760B

Abstract

本发明涉及一种基于拓扑结构和CNN的几何图形识别方法，用于识别平面几何图形。首先，对原图形进行预处理，得到不包含字母的、前景为白色的几何图形；然后再进行霍夫直线检测，合并检测结果中属于同一条边的线段，提取几何图形的边；接着，计算边与边的交点，得到图形各顶点及形成顶点的边编号；之后，根据顶点与边的关联关系获取顶点间邻接关系，用以表示图形拓扑结构；在保证几何图形拓扑结构不变的前提下，通过在预设容忍度内移动图形顶点构建同构图形库作为基础训练集，并进行扩充；最后，以加深隐藏层层数、增加各层卷积核个数的方式改进LeNet‑5模型，基于同构图形训练集进行自动特征提取和学习，完成对平面几何图形的识别。

Description

基于拓扑结构和CNN的几何图形识别方法

技术领域

本发明涉及图形图像处理、图形识别以及机器学习领域。

背景技术

几何图形识别是实际图像识别中获取目标轮廓属性的关键技术，已有研究集中在对单个封闭图形的识别，包含霍夫变换、形状匹配、参数统计法等方法，可识别单一方程表示的直线、曲线、椭圆，以及三角形、正方形和矩形这类简单的几何形状。中学数学题目中的平面几何图形一般由多个几何形状元素构成，对于这种复杂图形的识别，有研究者提出，可通过图形分割识别单个几何元素，然后求取各元素相对位置和组合方式。但是中学平面几何图形中各几何元素的组合情况复杂且常有交叉的情况，为图形分割和识别带来很大困难。

直线是几何图形中的关键几何元素，为了识别和理解几何图形，有研究者通过处理直线检测结果提取图形的边，识别只包含两条射线、一个夹角的几何图形，并输出夹角度数；有研究者在直线检测基础上实现了直线线段构成的多边形的识别。这些研究可以识别简单的平面几何元素，为机器自动推理和解题提供图形信息，但是无法识别和描述复杂几何图形整体的结构特征。

传统图像识别中，基于SIFT算子的特征匹配算法是一种具有尺度和旋转不变等特性的图像匹配方法。但在灰度化几何图形中，SIFT算子提取到的特征向量值不能唯一地确定特征点，从而造成特征点匹配的错误。与传统图像识别的方法相比，卷积神经网络避免了对图像复杂的前期预处理，可以自主学习图像特征，且最近的识别准确率已经可以超越人类。但卷积神经网络模型的训练依赖于数据集的构建，目前在几何图形图像方面并没有成熟的数据集。

发明内容

针对上述问题，本发明通过处理直线检测结果提取几何图形的拓扑结构，采用具有一定约束条件的拓扑变换构建同构几何图形数据集，并改进LeNet-5实现中学平面几何图形识别。

实现本发明方法的主要步骤如下：首先，对原图形进行预处理，得到不包含字母的、前景为白色的几何图形；然后再进行霍夫直线检测，合并检测结果中属于同一条边的线段，提取几何图形的边；接着，计算边与边的交点，得到图形各顶点及形成顶点的边编号；之后，根据顶点与边的关联关系获取顶点间邻接关系，用以表示图形拓扑结构；在保证几何图形拓扑结构和几何特征不变的前提下，通过移动图形顶点构建同构图形库作为基础训练集，并进行扩充；最后，以加深隐藏层层数、增加各层卷积核个数的方式改进LeNet-5模型，使其能够自主学习同构几何图形的特征，并实现平面几何图形识别。

基于拓扑结构和CNN的几何图形识别方法，包括如下步骤：

步骤一，人工剔除几何图形中的字母，并做反向二值化操作，得到无字母干扰且前景色为白色的二值图；

步骤二，提取待识别几何图形中的边，具体为：首先对步骤1中得到的二值图进行霍夫直线检测，检测结果是待识别几何图形中直线线段集合；然后，根据斜率对集合中的线段进行聚类，合并每类线段可构成一条边或几条平行边，每条边对应一个数组元素，用于保存边的端点坐标；

步骤三，提取待识别几何图形中的顶点，具体为：求边所在直线方程式，计算每两条直线的交点，从计算得到的交点中剔除位于边的延长线上的交点，合并属于同一顶点的多个交点，得到待识别几何图形中的所有顶点，每个顶点对应一个数组元素，用于保存顶点坐标及顶点关联边编号；其中所述的关联边指对于一个顶点v_i，与其具有关联关系的边称作顶点v_i的关联边，所述的关联关系指对于几何图形中的顶点v_i，边e_i会经过v_i，则顶点v_i与边ei是关联关系；

步骤四，提取待识别几何图形的拓朴结构，拓扑结构指待识别几何图形所有顶点之间的关系，其中，顶点之间的关系包括两种，一种是两个顶点之间存在邻接关系，另一种是两个顶点之间不存在邻接关系；所述的邻接关系是指若对于顶点v_i，顶点v_j与v_i之间存在一条边AB，且顶点v_j与顶点v_i直接连接而不存在其他顶点，则两顶点v_j与v_i间存在邻接关系；否则认为属于非邻接关系；

步骤五，构建训练集：首先，在保证待识别几何图形拓扑结构不变的前提下，根据预设容忍度，构建同构图形库；然后，对同构图形加入仿射变换、投影变换、旋转和高斯噪声进行扩充，得到训练集；

步骤六，加深LeNet-5模型的深隐藏层层数、增加各层卷积核个数，构建卷积神经网络结构，并基于同构图形训练集进行自动特征提取和学习，完成对平面几何图形的识别。

与现有技术相比，本发明的方法具有以下优点：

与传统几何图形识别相比，通过对几何图形拓扑结构的提取，可以获取图像整体特征，并且可以通过移动顶点变换拓扑结构图，实现同构几何图形训练集的构造，进而将基于卷积神经网络的图像识别算法引入几何图形识别领域，实现复杂平面几何图形的识别。

附图说明

图1为本发明所涉及方法的流程图；

图2为冗余交点的示意图；

图3为图形顶点提取结果的示意图；

图4为本发明判断顶点移动性和移动范围的流程。

图5为本发明所改进的LeNet-5网络结构；

图6为使用本方法的识别结果。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

本发明所涉及方法的流程包括以下步骤：

(1)几何图形预处理

选取大小在300像素×300像素左右的几何图形，使用PS剔除原几何图形中的字母，通过自适应反向二值化算法输出前景为白色的几何图形，作为霍夫直线检测的输入图形。

(2)合并短线段，提取几何图形的边

使用霍夫直线检测算法检测图形中大于15像素的线段，得到直线线段集合。按照如下步骤进行线段聚类及合并：

a、逐个计算线段斜率k_i，若存在与k_i相同或相近的中心斜率k_c，则将k_i对应的线段加入k_c对应的线段数组；否则，根据k_i形成新的分类。对所有线段完成聚类后执行步骤b。

b、针对同一类线段集合set_i，选取未同时选中过的线段seg_i、seg_j，使用快速排斥方法判断两线段是否有重叠部分，对于有重叠部分的两线段，计算两线段所在平行线间距离D判定两线段是否在同一条边上，若两线段属于同一条边，则合并得到新线段并放回set_i，并将seg_i、seg_j从set_i中删除；对于无重叠部分或距离D的太大的两线段，标记后直接放回set_i。

c、重复执行线段合并操作，直至set_i中无可合并线段时结束。

d、合并每类线段，使用数组保存所有线段的两端点坐标，数组下标为边的编号。

本发明加入线段聚类后，可以避免合并时选取不同斜率线段，减少运算量；加入快速排斥实验后，可以减少同斜率线段距离计算次数。

(3)提取几何图形顶点

已知各边端点坐标，可求取边所在直线的方程式，进而得到所有直线的交点坐标。该方法会产生两种冗余交点，一种是两延长线的交点，如图2中E点所示，另一种是边和延长线的交点如图2中F点所示。

删除白色(背景色)交点即可剔除第一类冗余交点。对于剩余交点，已知产生交点P(x,y)的两直线方程式E₁:y＝k₁×x+b₁、E₂:y＝k₂×x+b₂，选择[x-10,x+10]内的21个整数作为自变量x，分别带入公式E₁和E₂，求得两坐标点集合pos₁、pos₂。若pos₁和pos₂中各存在10个及以上前景像素点(黑色像素点)，则交点P(x,y)是两边交点，可以保留；否则交点P(x,y)属于第二类冗余交点，需要剔除。

剔除两类冗余交点后，计算各交点间距离D，合并D小于5像素的交点，形成顶点数组，保存顶点坐标及形成顶点的关联边的编号，数组下标为顶点编号。

(4)提取几何图形拓扑结构

顶点数组以键值对形式保存顶点编号i_v和其关联边编号集合set_e的对应关系，由上述对应关系可知，set_e中的i_e号边上有i_v号顶点，由此可推导出每条边i_e上的顶点编号集合set_v。以顶点v_i为例，按照如下步骤逐个提取顶点在其每条关联边上的邻接顶点：

a、求取顶点v_i的关联边集合set_e。

b、选取set_e中的编号i_e，从i_e号边上的顶点集合set_v中选择v_i的邻接顶点，当完成对set_e中每条边上的邻接顶点的提取时，结束对v_i的邻接顶点的提取。

c、以键值对形式保存顶点v_i与其邻接顶点集合s_v的对应关系。

以图3中的3号顶点为例，在以2号、5号顶点为端点的边上，有5个候选邻接顶点。在从3号顶点指向2号顶点的方向上，1号顶点是距离3号最近的顶点；在从3号顶点指向5号顶点的方向上，4号顶点是距离3号最近的顶点，故3号顶点在该关联边上的邻接顶点是1号和4号顶点。由图3可知，3号顶点是两条边形成的交点，按上述步骤可得到1号、4号、12号三个邻接顶点。

(5)构建和扩充同构图形训练集

构建同构图形库的原理如下：

通过逐个对顶点进行判断和移动构建同构图形库。为保证生成图形与原图形的拓扑等价关系、在一定容忍度内维持原有几何形状，移动顶点时需遵循以下原则：1、不移动会改变顶点个数、拓扑结构的顶点。2、设计一定大小移动范围以控制几何元素形变程度。3、移动与边端点重合的顶点时，需将边的端点坐标值修改为新的顶点坐标。

生成同构图形的步骤共包含移动性判定、移动范围确定、顶点移动三步。顶点移动性通过关联边移动性和顶点自身移动性判定。顶点v_i移动时，将v_i的关联边称作一级关联边，一级关联边上除端点和v_i外的顶点为一级顶点；一级顶点v_j的关联边称作二级关联边，二级关联边上除端点和v_j外的顶点设为二级顶点，以此类推。

关联边移动性的判定方法是，移动顶点v_i时，若存在一级关联边e_i，满足顶点v_i是边e_i的一个端点，且边e_i上至少存在一个包含三条及以上关联边的一级顶点，则边e_i不可移动。

顶点自身移动性判定方法是，设定顶点在边的位置取值有三种：0、1、center，可分为两类：0和1代表顶点在边的端点处，center代表顶点在边上。统计顶点v_i在center位置的关联边数量，若存在两个及以上关联边的center位置，则顶点不可移动。

具体处理步骤以顶点v_i为例：

a、遍历顶点v_i的关联边，若顶点v_i包含不可移动的关联边，顶点不可移动，该顶点处理完毕，继续处理其他顶点，否则继续下一步；

b、查找顶点v_i在各关联边上的位置，若顶点v_i在关联边的center位置的数量n_c大于等于2，则顶点不可移动，该顶点处理完毕，继续处理其他顶点，否则继续下一步。

c、判断v_i是否具有特定的移动方向，该移动方向可以维持图形结构且形变不会超出预设容忍度。顶点的移动方向是通过判断顶点作为非端点的数量等于0还是等于1决定的，进而采用不同的移动策略，具体流程如图4所示。

d、在各移动方向上确定顶点的移动范围，并移动顶点v_i。顶点v_i每移动一次输出一张同构图形。

在图3所示图形中，2号顶点的关联边是2-11，2-5，且顶点2均为这两条关联边的端点，其中，关联边2-5上的所有非端点的顶点有4个，即1、3、4、0，其中顶点1和顶点0的关联边数量大于2，所以顶点2为不可移动顶点。1号顶点的关联边是2-5，1-11，1-8，且顶点1为1-11，1-8这两条关联边的端点，其中，关联边1-8上的所有非端点的顶点有1个，即14，因为顶点14关联边数量不大于2，所以顶点1为可移动顶点，又因为顶点1在三条关联边中作为非端点的数量等于1，所以顶点1只能在边2-5的方向上移动，移动时不能超过顶点2和3，否则会改变三个顶点之间的相对位置。11号顶点的关联边是11-2，11-1，11-6，11-10，且顶点11为这四条关联边的端点，其中，关联边11-6上的所有非端点的顶点有4个，即14，12、13、9，且这4个顶点的关联边数量都不大于2，所以顶点11为可移动顶点，又因为顶点11在四条关联边中作为非端点的数量等于0，所以顶点11可以在邻域内任意方向移动。

扩充训练集时会加入旋转变换，为了保证旋转图像时几何图形不超出图像边界，先按如下步骤将同构图形库中所有的拓扑结构图转换为128像素×128像素的正方形图像。

a、使用轮廓提取算法得到几何图形拓扑结构图的最外层轮廓，进而得到图形的外接矩形R，其左上角的坐标为P，宽度为W，高度为H，计算其对角线值Diag。

b、新图形边长Side取值为Diag+10像素，生成大小为Side×Side的白色图像。

c、按如下计算方法求取坐标点(x,y)：

d、以(x,y)为起始位置，将外接矩形R包含的图像，复制到新图像中以[x,x+W]为横坐标取值范围、[y,y+H]为纵坐标取值范围的矩形区域内，可保证几何拓扑结构图位于新图像中心位置。将新图像形状缩放为128像素×128像素。

在正方形同构几何图形库上，通过仿射变换、投影变换、旋转和加噪的方法扩充训练集，得到的单个图形训练集大小为1300左右。

(6)改进LeNet-5并实现几何图形识别

基于LeNet-5模型，设计包含4个卷积层、4个池化层、两个全连接层的卷积神经网络如图5所示。输入层需输入64像素×64像素的图片，训练时将训练集中128像素×128像素的图像缩小为64像素×64像素。C1、C3、C5、C7是卷积层，采用3×3大小的卷积核，滑动步长为1，激励函数选用ReLU函数，加入边界填充保留图像边界信息并保证卷积前后图像尺寸不变，具体参数如表1所示。S2、S4、S6、S8是池化层，池化核大小为2×2，步长为2，选用最大池化操作以保证图像的缩放不变性。F9、F10是通道数分别为1024、10的两个连续的全连接层，使用dropout减少过拟合现象。输出层使用Softmax函数输出几何图形识别结果。

表1为改进的LeNet-5网络的结构参数表，主要改进在于增加了卷积层层数及各层卷积核数量。

表1为改进的LeNet-5网络的结构参数表

从一套初中几何练习题汇总文档中截取十张几何图形，使用PS剔除字母后，按步骤(1)-(4)提取各图形拓扑结构，按步骤(5)构建和扩充训练集。

本文使用TensorFlow构建基于LeNet-5模型设计的卷积神经网络结构，迭代次数为4000次，初始化学习率为0.1，Dropout参数为0.8。选取十张包含字母和虚线的图片，分别用0’—9’标识；选取十张包含字母和虚线，且存在位移、形变或噪声的图形，用0”—9”标识，形变包括仿射和投影变换。其中，0”-4”是有一定的移动或扭曲的图形，5”-6”是包含有噪声的图形，7”-9”是同时包含噪声和形变的图形。本发明可以根据图形结构特征，正确识别上述包含字母、虚线、位移、仿射变换、投影变换和噪声的平面几何图形。

如图6所示，9号图是拓扑结构提取结果，9’号图和9”号图是待识别图形，训练时候标签是9，经过本方法两个待识别图形识别结果都是9，说明识别正确。

Claims

1.基于拓扑结构和CNN的几何图形识别方法，其特征在于，包括如下步骤：

步骤二，提取待识别几何图形中的边，具体为：首先对步骤1中得到的二值图进行霍夫直线检测，检测结果是待识别几何图形中直线线段集合；然后，根据斜率对集合中的线段进行聚类，合并每类线段可得到一条边或几条平行边，每条边对应一个数组元素，用于保存边的端点坐标；

步骤三，提取待识别几何图形中的顶点，具体为：求边所在直线方程式，计算每两条直线的交点，从计算得到的交点中剔除位于边的延长线上的交点，合并属于同一顶点的多个交点，得到待识别几何图形中的所有顶点，每个顶点对应一个数组元素，用于保存顶点坐标及顶点关联边编号；其中所述的关联边指对于一个顶点v_i，与其具有关联关系的边称作顶点v_i的关联边，所述的关联关系指对于几何图形中的顶点v_i，边e_i会经过v_i，则顶点v_i与边e_i是关联关系；

步骤四，提取待识别几何图形的拓扑结构，拓扑结构指待识别几何图形所有顶点之间的关系，其中，顶点之间的关系包括两种，一种是两个顶点之间存在邻接关系，另一种是两个顶点之间不存在邻接关系；所述的邻接关系是指若对于顶点v_i，顶点v_j与v_i之间存在一条边AB，且顶点v_j与顶点vi直接连接而不存在其他顶点，则两顶点v_j与v_i间存在邻接关系；否则认为属于非邻接关系；

2.根据权利要求1所述的基于拓扑结构和CNN的几何图形识别方法，其特征在于，步骤二中所述边提取方法具体如下：

a、逐个计算线段集合中的线段斜率k_i，若存在与k_i相同或相近的中心斜率k_c，则将k_i对应的线段加入中心斜率k_c对应的线段；否则，根据k_i形成新的分类，对所有线段完成聚类后执行下一步；

b、针对同一类线段集合set_i，从中选取未同时选中过的线段seg_i、seg_j，使用快速排斥方法判断两线段是否有重叠部分，对于有重叠部分的两线段，计算两线段所在平行线间距离D判定两线段是否在同一条边上，若两线段属于同一条边，则合并得到新线段并放回set_i，并将seg_i、seg_j从set_i中删除；对于无重叠部分或距离D的大于预设值的两线段，标记后直接放回set_i。

c、重复执行步骤b所述线段合并操作，直至set_i中无可合并线段时结束；

d、对聚类之后得到的每类线段进行合并，使用数组保存边的两端点坐标，数组下标为边的编号。

3.根据权利要求1所述的基于拓扑结构和CNN的几何图形识别方法，其特征在于，步骤三中所述的顶点提取方法如下：

已知各边端点坐标，可求取边所在直线的方程式，进而得到所有直线的交点坐标；该方法会产生两种冗余交点，一种是两延长线的交点，另一种是边和延长线的交点，对于第一种冗余交点，删除背景色交点即可剔除，对于剩余交点，已知产生交点P(x,y)的两直线方程式E₁和E₂，选择[x-m,x+m]内的2m+1个整数作为自变量x，10≤m≤15，分别带入公式E₁和E₂，求得两坐标点集合pos₁、pos₂，若pos₁和pos₂中各存在m个及以上前景像素点，则交点P(x,y)是两边交点，可以保留；否则交点P(x,y)属于第二类冗余交点，需要剔除；

剔除两类冗余交点后，计算各交点间距离D，合并D小于n像素的交点，0≤n≤9，形成顶点数组，保存顶点坐标及顶点关联边编号，数组下标为顶点编号。

4.根据权利要求1所述的基于拓扑结构和CNN的几何图形识别方法，其特征在于，步骤四中所述的顶点邻接关系提取方法如下：

顶点数组以键值对形式保存顶点编号i_v和其关联边编号集合set_e的对应关系，由上述对应关系可知，set_e中的i_e号边上有i_v号顶点，由此可推导出每条边i_e上的顶点编号集合set_v。输入上述信息，提取顶点v_i在其每条关联边上的邻接顶点的步骤如下：

a、求取顶点v_i的关联边集合set_e；

b、选取set_e中的编号i_e，从i_e号边上的顶点集合set_v中选择v_i的邻接顶点，当完成对set_e中每条边上的邻接顶点的提取时，结束对v_i的邻接顶点的提取；

5.根据权利要求1所述的基于拓扑结构和CNN的几何图形识别方法，其特征在于，步骤五所述的构建同构图形的方法如下：

a、找到几何图形顶点v_i的关联边，并从这些关联边中进一步找到顶点v_i作为端点的所有关联边E；

b、找到关联边E上的所有非端点的顶点V，并统计V中各顶点关联边数量n_e；

c、如果关联边数量n_e大于2，则顶点v_i不可移动，返回步骤a，判断下一个顶点v_i+1；否则，统计顶点v_i在各关联边上的位置情况P，其中，位置分为端点位置和非端点位置，继续下一步；

d、如果在所有关联边上，顶点v_i作为非端点的数量大于等于2，则顶点v_i不可移动；否则继续下一步；

e、如果顶点v_i作为非端点的数量等于0，则顶点v_i在邻域内任意方向可以移动，邻域大小不大于11×11，且移动距离在5到10之间；如果顶点v_i作为非端点的数量等于1，则顶点v_i在顶点v_i作为非端点的关联边e'的方向上移动，移动距离在5到10之间，且不能改变顶点v_i与关联边e'上其他顶点的位置关系；

f、改变所有可移动顶点的位置，形成同构图形，重复上述步骤，直到遍历所有顶点，形成多幅同构图形。

6.根据权利要求1所述的基于拓扑结构和CNN的几何图形识别方法，其特征在于，所述的步骤五中，扩充训练集时会加入旋转变换，为了保证旋转图像时几何图形不超出图像边界，先按如下步骤将同构图形库中所有的拓扑结构图转换为正方形图像：

c、按如下计算方法求取坐标点(x,y)：

7.根据权利要求1所述的基于拓扑结构和CNN的几何图形识别方法，其特征在于，步骤六中改进的LeNet-5网络具体如下：

基于LeNet-5模型，设计包含4个卷积层、4个池化层、两个全连接层的卷积神经网络，输入层需输入64像素×64像素的图片，训练时将训练集中128像素×128像素的图像缩小为64像素×64像素，C1、C3、C5、C7是卷积层，采用3×3大小的卷积核，滑动步长为1，激励函数选用ReLU函数，加入边界填充保留图像边界信息并保证卷积前后图像尺寸不变，S2、S4、S6、S8是池化层，池化核大小为2×2，步长为2，选用最大池化操作以保证图像的缩放不变性，F9、F10是通道数分别为1024、10的两个连续的全连接层，使用dropout减少过拟合现象，输出层使用Softmax函数输出几何图形识别结果。