CN110472625B

CN110472625B - 一种基于傅里叶描述子的象棋棋子视觉识别方法

Info

Publication number: CN110472625B
Application number: CN201910719407.2A
Authority: CN
Inventors: 刘峰; 王进; 陈建辉; 陆国栋
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2022-12-20
Anticipated expiration: 2039-08-05
Also published as: CN110472625A

Abstract

本发明公开了一种基于傅里叶描述子的象棋棋子视觉识别方法，属于象棋棋子识别与图像处理技术领域。（1）通过工业高清摄像头获取棋盘原始彩色图像；（2）基于棋盘背景图像的角点粗定位；（3）基于HSV空间的棋盘角点状态判定；（4）棋子文字分割与文字轮廓提取；（5）棋子圆轮廓检测；（6）文字轮廓提取；（7）基于棋子文字轮廓图像的文字特征提取；（8）棋子文字分类识别模型及识别；（9）基于多层前馈网络的象棋文字分类识别模型。棋子识别准确率达到99.3%。该算法实现了象棋棋子视觉识别，精度远高于传统的模板匹配。

Description

一种基于傅里叶描述子的象棋棋子视觉识别方法

技术领域

本发明涉及象棋棋子识别与图像处理技术领域，尤其涉及一种基于傅里叶描述子的象棋棋子视觉识别方法。

背景技术

识别棋盘棋子是象棋机器人的基础技术，也是最为关键的技术之一。象棋机器人只有在“看明白”后才能进行“思考”，并完成下棋的动作。随着计算机视觉的发展，利用计算机视觉技术，对所获取的棋盘图像进行处理，最终完成对整个棋盘上各个位置状态的识别，即某个位置是否存在棋子以及棋子的具体身份，并以特定的数据结构表示棋盘状态。识别棋子的身份，本质是识别出象棋上的文字，即文字识别。

象棋文字识别属于文字识别的范畴。文字识别的应用范围广，常见的如印刷体字符识别、手写体字符识别、场景文字识别等。一般地，文字识别通过提取文字特征及设计分类器实现文字的识别过程。不同类型的文字往往具有不同的特征，但大致可以分为统计特征及文字结构特征。如矩特征、投影特征、文字的笔画、方向等结构特征。而在分类器的设计上，随着人工智能技术的快速发展，出现了利用卷积神经网络的文字分类器，支持向量机分类器，最近邻分类器等。近年来，随着深度学习领域的持续发酵，基于深度学习的方法在文字识别尤其是手写字符识别领域取得了令人瞩目的成绩。

在象棋文字识别上，杜俊俐等人基于象棋文字的结构特点，提出了基于文字连通数与孔数的象棋文字识别方法及基于文字年轮统计的象棋文字识别方法。许丰磊提出基于投影法对棋盘交叉点进行检测，通过跟踪对比变化前后的棋盘状态，在不直接识别象棋文字的基础上，间接识别并维护棋盘的状态。曹国强等人根据颜色直方图区分象棋棋子的颜色，提出象棋文字凸包特征识别模型，避免了相机畸变和文字倾斜等问题，识别准确率在95％以上。郭晓峰等人采用霍夫圆检测与最小外接圆二次定位方法对棋子位置进行定位，提出象棋文字旋转差分识别方法，取得了较高的棋子定位精度，棋子识别的准确率达到了98％。伍锡如等人通过高精度工业相机获取象棋棋盘图像，经过对图像进行灰度化、滤波等处理后，利用边界像素检测算法对象棋棋子进行定位并分割目标图像，运用深度卷积神经网络对象棋棋子图像进行识别，在实验环境中象棋识别准确度达到98％。

综上所述，现有研究在象棋文字识别上取得了一定的成果，并且在实验环境下达到了98％左右的识别准确率。然而，对于象棋机器人而言，98％的象棋文字识别准确率并不能保证象棋机器人可以持续稳定工作，因为在识别错误后象棋机器人将无法执行后续操作或执行错误操作。因此象棋识别仍有待深入研究，以提高象棋识别的准确性及鲁棒性，进而使得象棋机器人可以稳定正确地运行。

发明内容

针对现有技术存在的技术问题，本发明提供一种基于傅里叶描述子的象棋棋子视觉识别方法，以解决现有技术在象棋棋子识别时的准确率不够高和效率不高的问题。同时为任何棋牌识别提供了一种指导性的识别方法。

一种基于傅里叶描述子的象棋棋子视觉识别方法，包括以下步骤：

(1)通过工业高清摄像头获取棋盘原始彩色图像；

(2)基于棋盘背景图像的角点粗定位；

(3)基于HSV空间的棋盘角点状态判定；

(4)棋子文字分割与文字轮廓提取；

(5)棋子圆轮廓检测；

(6)文字轮廓提取；

(7)基于棋子文字轮廓图像的文字特征提取；

(8)棋子文字分类识别模型及识别；

(9)基于多层前馈网络的象棋文字分类识别模型。

进一步的，所述步骤(2)的具体方法为：(21)利用边缘检测算法可以得到边缘轮廓图像；(22)对边缘轮廓图像进行膨胀处理；(23)对步骤(22)中处理得到的图像进行轮廓提取，面积最大的轮廓即为棋盘区的外轮廓；(24)根据距离图像矩阵四个角点距离最近的原则，筛选出棋盘区最外围四个角点，再按线性划分的原则求出棋盘90个角点的像素坐标，完成棋盘角点粗定位。

进一步的，通过摄像头采集的象棋棋盘图片为RGB格式的图像，无法直接通过RGB格式的图像区分象棋的颜色类型，先将其转换为HSV空间的图像，根据红黑两种颜色对应的不同统计特征判别角点的状态，即每个角点处是否存在棋子及棋子颜色类型。

进一步的，所述RGB格式图像转换为HSV空间图像的方法为：根据距离最短原则：

其中：N为棋盘外缘轮廓点数量；筛选出轮廓中距图像左上、左下、右上、右下四个点最近的像素点，此即为棋盘的左上、左下、右上、右下四个角点位置；由于棋盘由九列十行横线构成的九十个角点组成，且线与线之间的距离是相等的，考虑到拍摄引起的细微变形，剩余角点的像素位置坐标通过线性划分的方法得到，第一行的中间七个角点位置坐标求取如下：

获取角点坐标后，将图像从RGB空间转换到HSV空间，转换公式如下：

C_max＝max(R,G,B) (2-7)

C_min＝min(R,G,B) (2-8)

Δ＝C_max-C_min (2-9)

V＝C_max (2-12)

进一步的，所述步骤(4)为利用HSV空间不同图像通道亮度和饱和度的明显差异，通过阈值分割法对象棋文字进行分割；对于红色棋子，在S通道图像中，根据公式2-13分割出红色象棋子图像：

对于黑色棋子，在V通道图像中，根据公式2-14分割出黑色象棋子：

进一步的，所述的步骤(6)中文字轮廓提取方法为：利用Hough变换检测到圆，圆心即为象棋中心，利用检测到的圆轮廓圆心o(x,y)及半径r，以圆轮廓圆心为中心，将离圆心距离小于0.85r的邻域分割；以轮廓面积最大的原则对这些检测出来的轮廓进行筛选，最终提取出代表文字特点的特征轮廓。

进一步的，所述步骤(7)以轮廓面积最大的原则对这些检测出来的轮廓进行筛选，最终提取出代表文字特点的特征轮廓，设物体的封闭轮廓曲线由一系列离散点组成，点的总数为N，其坐标序列为{x(n),y(n)|n＝0,1,...,N-1}，坐标序列的复数形式表示为：

z(n)＝x(n)+jy(n),n＝0,1,...,N-1 (2-15)

因此物体的封闭轮廓曲线就可以看作一维离散序列，该离散序列具有周期性，其周期即为N；对封闭轮廓序列进行一维离散傅里叶变换：

根据傅里叶变换的性质，傅里叶描述子会因为封闭轮廓的旋转、缩放、平移而改变，且与封闭轮廓的起始点也有关；对封闭轮廓曲线起始点偏移长度a，缩放或放大r倍，旋转角度θ，平移位移(Δ_x+jΔ_y)，根据离散傅里叶变换的性质有：

式中，x'(l)+iy'(l)＝x(l+a)+iy(l+a) (2-18)

因此，z'(0)＝r·e^jθ·z(0)+F(Δ_x+jΔ_y) (2-19)

从上述四式的推导中看出，当封闭轮廓旋转θ，轮廓起始点偏移a时，傅里叶描述子发生相位变化；当对轮廓进行尺度变化时，会令傅里叶描述子的幅值发生变化；当轮廓发生平移时，改变z(0)分量；

将傅里叶系数z(k)(||z(0)||除外)的幅值||z(k)||除以||z(1)||，从式(2-21)可以看出，

不受封闭轮廓的旋转、平移和尺度变化的影响，并且与轮廓曲线的起点位置的选择无关，

称为归一化的傅里叶描述子；利用归一化傅里叶描述子具有旋转、平移、尺度不变性的性质，提取中国象棋文字轮廓的归一化傅里叶描述子作为象棋文字特征。

进一步的，所述步骤(8)利用归一化傅里叶描述子及象棋文字特征向量的定义，提取象棋文字轮廓的20维归一化傅里叶描述子特征向量，将该特征向量作为中国象棋文字分类识别模型的输入，定义中国象棋文字图像分类识别特征向量为：

归一化傅里叶描述子为：

进一步的，所述步骤(9)利用多层前馈网络构建的棋子文字分类识别模型，基于象棋文字轮廓的20维归一化傅里叶描述子特征向量X＝[x₀,x₁,...,x₁₉]^T作为该网络的输入，网络的输出为七维概率向量P＝[p₀,p₁,p₂,p₃,p₄,p₅,p₆]^T，p_i为网络的输出，代表对应于第i个类别棋子文字的概率，模型最终的分类结果res根据式res＝argmax p_i,i＝0,1,...,6计算得出，res表征分类结果，即文字的类别。

本发明提出的一种基于傅里叶描述子的象棋棋子视觉识别方法，识别率达到99.3％，能够有效提高象棋妻子识别是的准确率和识别效率。

附图说明

图1为棋盘棋子识别流程图；

图2为摄像头获取的图片；

图3为S通道中，红色棋子与背景对比图；

图4为V通道中，黑色棋子与背景对比图；

图5为阈值分割得到的红色象棋子图像；

图6为阈值分割得到的黑色象棋子图像；

图7为象棋圆轮廓检测结果图；

图8为棋子“兵”文字子图像；

图9为棋子“兵”文字特征轮廓图；

图10为红色象棋文字分类识别过程图；

图11为基于多层前馈网络构建的红色棋子文字分类识别模型。

具体实施方式

为了更好地理解本发明的技术方案，以下结合附图图1至图11对本发明的实施方式作进一步的描述：本发明的程序编译平台Windows7系统64位，处理器为AMD FX-SeriesFX-8350八核，显卡为A卡AMD RadeonR9370Series(蓝宝石)，硬盘为三星SSD 850EVO250GB(固态硬盘)，内存为威刚DDR3 1600MHz 8GB。编程开发环境为Microsoft VisualStudio2012，图像处理库为opencv3.4。摄像头为高清工业摄像头，分辨率为3840(H)×1960(V)，最小像素尺寸2.2um×2.2um，CMOS传感器芯片。

技术方案：本发明通过以下技术方案实现。

基于傅里叶描述子的象棋棋子视觉识别方法，包括以下步骤：

通过高清工业摄像头获取棋盘棋子图像。摄像头以可移动支架支撑置于棋盘正上方。拍照时打开电脑中的第三方图像捕获软件，设备相应的参数进行图像的捕获。

为解决棋盘角点状态检测问题，首先基于棋盘背景图像，检测出棋盘图像角点，对每一棋盘角点，计算角点邻域中满足饱和度及亮度要求的像素数占邻域像素总数的比例，判定棋盘角点的状态，即是否存在棋子及棋子的颜色信息。检测出棋盘角点坐标后，对以棋盘角点为中心的子区域进行角点状态检测，确定角点处是否存在棋子，在存在棋子的情况下，再对棋子的颜色进行判别。对存在棋子的角点邻域图像，通过一系列处理完成棋子的在角点邻域中的定位并分割出象棋文字，提取象棋文字特征，将提取出的特征输入训练好的对应颜色类别的基于神经网络的中国象棋文字分类识别模型，对棋子身份进行分类识别。

具体流程如下：(1)利用边缘检测算法可以得到边缘轮廓图像；(2)为解决第(1)步中得到的边缘轮廓不连续的问题，对边缘轮廓图像进行膨胀处理；(3)对步骤(2)中处理得到的图像进行轮廓提取，面积最大的轮廓即为棋盘区的外轮廓；(4)根据距离图像矩阵四个角点距离最近的原则，筛选出棋盘区最外围四个角点，再按线性划分的原则求出棋盘90个角点的像素坐标，完成棋盘角点粗定位。在提取出棋盘外缘轮廓后，遍历轮廓点，根据距离最短原则：

式2-1～式2-4中，N为棋盘外缘轮廓点数量。可以筛选出轮廓中距图像左上、左下、右上、右下四个点最近的像素点，此即为棋盘的左上、左下、右上、右下四个角点位置。由于棋盘由九列十行横线构成的九十个角点组成，且线与线之间的距离是相等的，考虑到拍摄引起的细微变形，剩余角点的像素位置坐标通过线性划分的方法得到。以第一行的中间七个角点位置坐标求取为例：

C_max＝max(R,G,B) (2-7)

C_min＝min(R,G,B) (2-8)

Δ＝C_max-C_min (2-9)

V＝C_max (2-12)

经过角点区域子图像S值及V值统计特征，可以看出，在饱和度S通道图像中，红色棋子的文字与其背景像素的饱和度值相差较大，且有明显的分界；在亮度V通道图像中，黑色棋子的文字与其背景像素的亮度值相差较大，亦有明显的分界。因此可通过统计角点邻域内像素的饱和度及亮度信息，对角点状态进行判别。根据前述检测结果可以得到棋盘图像中棋盘线之间的平均像素距离d，依据角点粗定位坐标，统计以其为中心，大小为1.2d×1.2d的邻域内，饱和度S与亮度V满足一定条件的像素点个数占邻域内像素点总数的比例。

摄像头采集到的图像转换为HSV空间的图像后，不同的图像通道会有明显的差别。在饱和度S通道图像中，红色棋子的文字与其背景像素的饱和度值相差较大，且有明显的分界；在亮度V通道图像中，黑色棋子的文字与其背景像素的亮度值相差较大，亦有明显的分界。因此，可以通过阈值分割的方法对象棋文字进行分割。对于红色棋子，在S通道图像中，根据公式2-13分割出红色象棋子图像：

对棋子文字子图像进行阈值化后，抑制了噪声对于圆轮廓检测的影响。利用Hough变换检测到圆。圆心即为象棋中心。利用检测到的圆轮廓圆心o(x,y)及半径r，以圆轮廓圆心为中心，将离圆心距离小于0.85r的邻域分割。由于文字本身不连续，在图像上体现为不同的不连接的区域，在进行文字轮廓提取时会被识别为不同的子轮廓，此外图像中一些小区域的噪声点也会被识别为轮廓。以轮廓面积最大的原则对这些检测出来的轮廓进行筛选，最终提取出代表文字特点的特征轮廓。

中国象棋棋子在棋盘中的摆放具有位置、方向不确定性，棋子与相机的距离会造成尺度不确定性，且采集到的图像会因为相机本身的畸变使得在图形中棋子具有一定变形。因此为了取得更高的文字识别准确率与提高算法的鲁棒性，需提取具有旋转、平移与缩放不变性的文字特征。傅里叶描述子法在物体形状识别上具有非常高的准确率，该傅里叶描述子法是基于物体轮廓坐标序列实现的。傅里叶描述子的基本思想是当进行一系列处理与变换得到物体的封闭轮廓,假设一个点p(l)沿这条封闭轮廓曲线进行运动，这个点的复数形式坐标可以表示为：x(l)+iy(l)，当点p从轮廓某一起点出发到再次回到轮廓起点时所经历的轮廓周长可以认为是该点的运动周期，因此当点p沿轮廓曲线连续运动时，可以视为周期函数。该周期函数可以通过傅里叶级数形式展开，傅立叶级数中的一系列系数z(k)与封闭轮廓的形状相关，称这一系列系数为轮廓的傅里叶描述子。由于能量倾向集中于低频域，且傅里叶变换的高频分量很小并容易受到高频噪声干扰，因此取一定阶次系数项即可以大致表征封闭轮廓形状，且根据所取的傅里叶系数可以近似恢复物体封闭轮廓形状，因此傅里叶描述子可用于区分不同形状轮廓的基础。

设物体的封闭轮廓曲线由一系列离散点组成，点的总数为N，其坐标序列为{x(n),y(n)|n＝0,1,...,N-1}，坐标序列的复数形式表示为：

z(n)＝x(n)+jy(n),n＝0,1,...,N-1 (2-15)

因此物体的封闭轮廓曲线就可以看作一维离散序列，该离散序列具有周期性，其周期即为N。对封闭轮廓序列进行一维离散傅里叶变换：

根据傅里叶变换的性质，傅里叶描述子会因为封闭轮廓的旋转、缩放、平移而改变，且与封闭轮廓的起始点也有关。对封闭轮廓曲线起始点偏移长度a，缩放或放大r倍，旋转角度θ，平移位移(Δ_x+jΔ_y)，根据离散傅里叶变换的性质有：

式中，x'(l)+iy'(l)＝x(l+a)+iy(l+a) (2-18)

因此，z'(0)＝r·e^jθ·z(0)+F(Δ_x+jΔ_y) (2-19)

从上述四式的推导中看出，当封闭轮廓旋转θ，轮廓起始点偏移a时，傅里叶描述子发生相位变化；当对轮廓进行尺度变化时，会令傅里叶描述子的幅值发生变化；当轮廓发生平移时，改变z(0)分量。

不受封闭轮廓的旋转、平移和尺度变化的影响，并且与轮廓曲线的起点位置的选择无关。

称为归一化的傅里叶描述子。

利用归一化傅里叶描述子具有旋转、平移、尺度不变性的性质，提取中国象棋文字轮廓的归一化傅里叶描述子作为象棋文字特征。考虑到傅里叶变化的能量集中于低频部分，取由前20个归一化傅里叶描述子组成的特征向量作为中国象棋文字图像分类识别模型的输入特征。定义中国象棋文字图像分类识别特征向量为：

如图9所示象棋文字轮廓的归一化傅里叶描述子特征提取结果如下所示：

根据归一化傅里叶描述子及象棋文字特征向量的定义，提取象棋文字轮廓的20维归一化傅里叶描述子特征向量，将该特征向量作为中国象棋文字分类识别模型的输入。

由于中国象棋棋子分为红黑两方，在识别出棋子的颜色以后，通过一系列处理得到棋子文字的轮廓，提取象棋文字轮廓的归一化傅里叶描述子特征。至此，将中国象棋文字识别问题转化为基于象棋文字轮廓特征的象棋文字分类识别问题，分类器通过训练好的网络模型对输入的象棋文字特征向量进行分类判别，完成象棋文字的识别。在分类识别模型的训练阶段，对提取出的红黑两方的象棋文字特征分别制作训练集，利用制作好的训练集进行象棋文字分类识别模型的训练，分别得到红方与黑方棋子的分类识别模型。在识别阶段，对于颜色已经识别成功的棋子，提取出其特征向量，输入对应颜色的象棋文字分类识别模型，进行象棋文字的识别。

基于神经网络模型在分类识别问题上的卓著表现，本发明采用基于多层前馈神经网络构造中国象棋文字识别分类器，该分类器根据输入的中国象棋文字归一化傅里叶描述子特征，对象棋文字进行分类识别。

针对红黑两种颜色的棋子文字，分别构建以文字轮廓归一化傅里叶描述子特征为输入的基于多层前馈网络的文字分类识别模型，并按要求采集数据集，完成模型的训练及测试；在棋子文字的识别阶段，将提取的文字特征输入象棋文字分类识别模型，实现文字的分类识别。实验数据表明，该棋子文字分类识别模型，棋子识别准确率达到99.3％。

Claims

1.一种基于傅里叶描述子的象棋棋子视觉识别方法，其特征在于包括以下步骤：

(1)通过工业高清摄像头获取棋盘原始彩色图像；

(2)基于棋盘背景图像的角点粗定位；

(3)基于HSV空间的棋盘角点状态判定；

(4)棋子文字分割与文字轮廓提取；

(5)棋子圆轮廓检测；

(6)文字轮廓提取；

(7)基于棋子文字轮廓图像的文字特征提取；

(8)棋子文字分类识别模型及识别；

(9)基于多层前馈网络的象棋文字分类识别模型。

2.根据权利要求1所述的一种基于傅里叶描述子的象棋棋子视觉识别方法，其特征在于所述步骤(2)的具体方法为：(21)利用边缘检测算法可以得到边缘轮廓图像；(22)对边缘轮廓图像进行膨胀处理；(23)对步骤(22)中处理得到的图像进行轮廓提取，面积最大的轮廓即为棋盘区的外轮廓；(24)根据距离图像矩阵四个角点距离最近的原则，筛选出棋盘区最外围四个角点，再按线性划分的原则求出棋盘90个角点的像素坐标，完成棋盘角点粗定位。

3.根据权利要求1所述的一种基于傅里叶描述子的象棋棋子视觉识别方法，其特征在于，通过摄像头采集的象棋棋盘图片为RGB格式的图像，无法直接通过RGB格式的图像区分象棋的颜色类型，因此，先将其转换为HSV空间的图像，根据红黑两种颜色对应的不同统计特征判别角点的状态，即每个角点处是否存在棋子及棋子颜色类型。

4.根据权利要求3所述的一种基于傅里叶描述子的象棋棋子视觉识别方法，其特征在于所述RGB格式图像转换为HSV空间图像的方法为：根据距离最短原则：

C_max＝max(R,G,B) (2-7)

C_min＝min(R,G,B) (2-8)

Δ＝C_max-C_min (2-9)

V＝C_max (2-12)。

5.根据权利要求1所述的一种基于傅里叶描述子的象棋棋子视觉识别方法，其特征在于，所述步骤(4)为利用HSV空间不同图像通道亮度和饱和度的明显差异，通过阈值分割法对象棋文字进行分割；对于红色棋子，在S通道图像中，根据公式2-13分割出红色象棋子图像：

6.根据权利要求1所述的一种基于傅里叶描述子的象棋棋子视觉识别方法，其特征在于所述的步骤(6)中文字轮廓提取方法为：利用Hough变换检测到圆，圆心即为象棋中心，利用检测到的圆轮廓圆心o(x,y)及半径r，以圆轮廓圆心为中心，将离圆心距离小于0.85r的邻域分割；以轮廓面积最大的原则对这些检测出来的轮廓进行筛选，最终提取出代表文字特点的特征轮廓。

7.根据权利要求1所述的一种基于傅里叶描述子的象棋棋子视觉识别方法，其特征在于所述步骤(7)以轮廓面积最大的原则对这些检测出来的轮廓进行筛选，最终提取出代表文字特点的特征轮廓，设物体的封闭轮廓曲线由一系列离散点组成，点的总数为N，其坐标序列为{x(n),y(n)|n＝0,1,...,N-1}，坐标序列的复数形式表示为：

z(n)＝x(n)+jy(n),n＝0,1,...,N-1 (2-15)

式中，x'(l)+iy'(l)＝x(l+a)+iy(l+a)(2-18)

因此，z'(0)＝r·e^jθ·z(0)+F(Δ_x+jΔ_y)(2-19)

8.根据权利要求6所述的一种基于傅里叶描述子的象棋棋子视觉识别方法，其特征在于所述步骤(8)利用归一化傅里叶描述子及象棋文字特征向量的定义，提取象棋文字轮廓的20维归一化傅里叶描述子特征向量，将该特征向量作为中国象棋文字分类识别模型的输入，定义中国象棋文字图像分类识别特征向量为：

归一化傅里叶描述子为：

9.根据权利要求1所述的一种基于傅里叶描述子的象棋棋子视觉识别方法，其特征在于所述步骤(9)利用多层前馈网络构建的棋子文字分类识别模型，基于象棋文字轮廓的20维归一化傅里叶描述子特征向量X＝[x₀,x₁,...,x₁₉]^T作为该网络的输入，网络的输出为七维概率向量P＝[p₀,p₁,p₂,p₃,p₄,p₅,p₆]^T，p_i为网络的输出，代表对应于第i个类别棋子文字的概率，模型最终的分类结果res根据式res＝arg max p_i,i＝0,1,...,6计算得出，res表征分类结果，即文字的类别。