CN113920516B

CN113920516B - 一种基于孪生神经网络的书法字骨架匹配方法及系统

Info

Publication number: CN113920516B
Application number: CN202111487332.3A
Authority: CN
Inventors: 徐占洋; 徐益鸣
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Jiangsu Children's Spring Internet Education Technology Co ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-22
Anticipated expiration: 2041-12-08
Also published as: CN113920516A

Abstract

本发明公开了一种基于孪生神经网络的书法字骨架匹配方法及系统，获取待匹配的两张书法字图像；分别对两张书法字图像进行预处理后得到两张预处理图像；对两张预处理图像进行细化，得到两张书法字图像骨架；利用预先训练好的基于孪生神经网络的书法字骨架匹配模型对两张书法字图像骨架进行相似度判断，若相似度大于预先设定的阈值则判定为同一个书法字，若相似度不大于预先设定的阈值则判定为不同的书法字。优点：通过书法字骨架提取与孪生神经网络结合的策略，对两张图片上的书法字进行精准高效相似度匹配；有效区分每个汉字骨架的图像特征，在对海量书法字数据基于内容检索时，检索样本和被检索数据库中的数据进行匹配可以达到更快更精准的效果。

Description

一种基于孪生神经网络的书法字骨架匹配方法及系统

技术领域

本发明涉及一种基于孪生神经网络的书法字骨架匹配方法及系统，属于图像识别技术领域。

背景技术

中国书法是一门中国所特有的艺术形式，在中华上下五千年的悠久历史中，书法经历了由篆书到隶书、草书、楷书以及行书的发展阶段。中国书法不仅反映了我国悠久的历史发展历程，鲜明的民族特色以及深厚的文化传统，是中国美学的基础和中国艺术的灵魂所在，更是世界艺术宝库中一笔珍贵财富。

现阶段文字识别技术已经发展得很成熟了，但对书法字内容进行检索匹配是相对困难的。由于几千年的发展过程，中国书法形成了很多风格，一些书法字只展现其神态而放纵其体态，同时因为简体字的极力推广，除非专业人士，否则有时很难从肉眼判断出所看到的两个书法字是不是同一个字，更不用说计算机。

利用传统图片相似度判定可以一定程度上判断两张图片上的书法字是不是同一个字，但是这样准确度不高，同时在面对海量数据检索匹配时，效率低下。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种基于孪生神经网络的书法字骨架匹配方法及系统，通过书法字骨架有效识别出两张图片上的书法字是否为同一个字，从而提高书法字检索匹配的准确率和效率。

为解决上述技术问题，本发明提供一种基于孪生神经网络的书法字骨架匹配方法，包括：

获取待匹配的两张书法字图像；

分别对两张书法字图像进行预处理后得到两张预处理图像；

对两张预处理图像进行细化，得到两张书法字图像骨架；

利用预先训练好的基于孪生神经网络的书法字骨架匹配模型对两张书法字图像骨架进行相似度判断，若相似度大于预先设定的阈值则判定为同一个书法字，若相似度不大于预先设定的阈值则判定为不同的书法字。

进一步的，所述分别对两张书法字图像进行预处理后得到两张预处理图像，包括：

利用中值滤波法处理书法字图像中的噪声，得到降噪处理后的书法字图像；

利用直方图的方法对降噪处理后的书法字图像进行二值化处理，得到预处理图像。

进一步的，所述对两张预处理图像进行细化，得到两张书法字图像骨架，包括：

S1、对预处理图像中的所有前景像素点进行删除条件一判断，并将符合删除条件一的前景像素点删除，所述删除条件一为：

其中，0表示背景像素，1表示前景像素，N(P1)表示跟某个前景像素点P1相邻的8个像素点中为前景像素点的个数，所述相邻的8个像素点顺时针围绕P1依次表示为P2~P9，S(P1)表示从P2 ～ P9 ～ P2方向的像素中出现的两个相邻像素点依次为0和1的累计次数；

S2、对预处理图像中的所有前景像素点进行删除条件二判断，并将符合删除条件二的前景像素点删除，所述删除条件二为：

S3、循环步骤S1和S2，直到两步中都没有像素被删除为止，输出书法字图像骨架。

进一步的，所述基于孪生神经网络的书法字骨架匹配模型的训练，包括：

构建孪生神经网络，所述孪生神经网络为共享权值的两个VGG16神经网络，有两个输入；

获取预先制作的具有设定标签的书法字骨架数据集，书法字骨架数据集中属于同一个字的书法字骨架图片设定为同一个标签，将所述书法字骨架数据集随机以预设的比例分为训练集和验证集，将训练集随机分为若干个样本，每个样本中包括2N个书法字图像骨架，进行N次输入，若最后一个样本不足2N个，则舍弃最后一个样本；

从2N个书法字骨架图像随机选取两个未被使用的书法字图像骨架，作为输入，输入到孪生神经网络的两个VGG16网络中，获得两个输入的一维向量；

将两个一维向量进行相减，再取绝对值，得到两个一维向量的距离；

对所述距离进行两次全连接，第一次全连接包含1024个神经元，将所述距离与1024个神经元节点分别进行加权运算，第二次全连接包含一个神经元，将上一层1024个神经元分别对最后一个神经元进行加权运算并累加，对这个神经元的结果代入Sigmoid函数，使其值在0-1之间，代表两个书法字图像骨架的相似度，Sigmoid的函数的公式如下：

S(x)表示相似度，x表示所述最后一个神经元的输出结果；

当两个输入指向同一个设定标签的图片时，将所述相似度和二元标签1进行二元类的交叉熵运算，反之则和二元标签0进行二元类的交叉熵运算，得到损失，所述二元类的交叉熵运算的公式如下：

其中，Loss表示损失，y _i是样本中第i个二元标签，二元标签为 0 或者 1，S（y _i）是样本中第i次输入的相似度，i=1,2,...,N；

计算该样本N次输入得到的所有损失Loss的均值；

通过所述均值反向传播迭代更新VGG16网络和全连接层的权重，完成第一个样本的训练；

利用新的权重再进行第二个样本的训练，直到所有样本训练完，得到第一轮训练后的权重，并利用此轮权重在验证集上计算Loss均值；

将所述训练集再随机分为若干个样本，每个样本中包括2N个书法字图像骨架，若最后一个样本不足2N个，则舍弃最后一个样本，利用前一轮最后的权重作为新一轮的初始权重，再进行新一轮中的每个样本的训练，得到新一轮训练后的权重，并利用新一轮训练后的权重在验证集上计算Loss均值；

以此类推，直到连续的若干轮验证集上Loss均值没有进一步降低或者达到预先设定的训练轮数，选取验证集最低的Loss均值对应的权重构建基于孪生神经网络的书法字骨架匹配模型，得到训练好的基于孪生神经网络的书法字骨架匹配模型。

一种基于孪生神经网络的书法字骨架匹配系统，包括：

获取模块，用于获取待匹配的两张书法字图像；

预处理模块，用于分别对两张书法字图像进行预处理后得到两张预处理图像；

细化模块，用于对两张预处理图像进行细化，得到两张书法字图像骨架；

模型处理模块，用于利用预先训练好的基于孪生神经网络的书法字骨架匹配模型对两张书法字图像骨架进行相似度判断，若相似度大于预先设定的阈值则判定为同一个书法字，若相似度不大于预先设定的阈值则判定为不同的书法字。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

一种计算设备，包括，

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

本发明所达到的有益效果：

本发明通过书法字骨架提取与孪生神经网络结合的策略，建立一种新的书法字骨架匹配方法，最终实现对两个不同的书法字骨架精确识别的目的，同时大大提高识别速度，这明显提高了书法字基于内容检索的效率, 使其更具有实用性。与目前基于内容的书法字检索方法相比，基于孪生神经网络的书法字骨架匹配方法改进传统基于骨架相似性的书法字匹配方法，融合孪生神经网络技术，可有效提高书法字两两检索匹配的查准率、查全率和效率。

附图说明

图1是基于孪生神经网络的书法字骨架匹配方法流程图；

图2-1是没有细化的书法字图像；

图2-2是经过细化处理后的书法字图像骨架；

图3是孪生神经网络结构示意图；

图4是VGG16网络结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

因为汉字是由笔画构成，每个汉字有不同的笔画，而中国书法是汉字的艺术表现形式，每个书法字是由线条组成的方块字，是关于线的艺术，书法字的结构，是构成汉字书写艺术中的首要要素。

因此，提供一种基于孪生神经网络的书法字骨架匹配方法，以适当的方式从书法字的骨架来判断两个字是否为同一个字能够一定程度上提高识别准确率，如图1所示，该方法的过程包括：

步骤1，获取待匹配的两张书法字图像，分别为书法字图像A和书法字图像B，分别对书法字图像A和书法字图像B进行预处理后，得到两张预处理图像；

步骤2，对两张预处理图像进行细化，得到两张书法字图像骨架；

步骤3，利用预先训练好的基于孪生神经网络的书法字骨架匹配模型对两张书法字图像骨架进行相似度判断，若相似度大于预先设定的阈值则判定为同一个书法字，若相似度不大于预先设定的阈值则判定为不同的书法字。

所述步骤1中：分别对书法字图像A和书法字图像B进行预处理后，得到两张预处理图像，具体如下：

步骤11：对书法字图像去噪。

选择中值滤波法处理书法字图像中的噪声，中值滤波法不仅可以在滤除书法字图像噪声的同时避免书法字图像出现轮廓模糊的问题，还是在“最小绝对误差”准则下的最优滤波方法。中值滤波法是一种非线性平滑技术，它将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值，它的基本原理是把数字图像或数字序列中一点的值用该点的一个邻域中各点值的中值代替，让周围的像素值接近真实值，从而消除孤立的噪声点。方法是用某种结构的二维滑动模板，将板内像素按照像素值的大小进行排序，生成单调上升（或下降）的为二维数据序列。二维中值滤波输出为：

其中，f(x,y)和g(x,y)分别为原始图像和处理后的图像，k为二维模板的长，l为二维模板的宽，W为二维模板，med表示取窗口中所有像素点的灰度值的中值，这里我们采用是3×3的二维模板。

步骤12：对去噪后的书法字图进行二值化。

采用直方图的方法对去噪后的书法字图像进行二值化处理，即将图像中所有像素点的值变为0或255这两种，使图像变为黑白两色。基于直方图的方法有很多种，我们采用谷底最小值法，此方法适用于双峰明显的直方图的图像，适合书法字图像。将整张图像的灰度值转为直方图，找到直方图中相邻的两个波峰，两个波峰分别代表着图像的前景与背景，选择两个波峰中间的波谷作为阈值，通过这个阈值可以相对精准地区分书法字和背景图像，使用该方法能够有效地减小误差，获取较为准确的书法字二值化图像，即预处理图像；

步骤2：对两张预处理图像进行细化，得到两张书法字图像骨架，包括：

S3、循环步骤S1和S2，直到两步中都没有像素被删除为止，输出书法字图像骨架。图2-1为没有细化的书法字图像，图2-2是经过细化处理后的书法字图像。细化后提取的书法字骨架可以充分展示字的结构，方便描述书法图像特征，便于后续深度学习模型更好地区分开不同的书法字。

步骤3中：基于孪生神经网络的书法字骨架匹配模型的训练过程包括：

步骤31：构建孪生神经网络，孪生神经网络就是“连体的神经网络”，神经网络的“连体”是通过共享权值来实现的。孪生神经网络就是将输入进来的两张图片利用同一个神经网络进行特征提取，然后利用比较网络对这两个特征进行比较，最终输出一个长度为1的一维向量，其值在0~1之间，用于表示输入进来的图片的相似程度。它的结构如图3所示：

步骤32：对于神经网络来讲其最大的特点就是可以提取特征，我们孪生神经网络中神经网络1和神经网络2的主干特征提取网络均采用VGG16。VGG16包括五个卷积部分和一个flatten层，每个卷积部分又由卷积（全部采用3X3的卷积核，步长为1）和最大池化组成，激活函数都使用ReLU。第一个卷积部分经过64个3X3卷积核的2次卷积后，采用1次最大池化；第二个卷积部分经过2次128个3X3卷积核卷积后，采用1次最大池化；第三个卷积部分经过256个3X3卷积核的3次卷积后，采用1次最大池化，第四个卷积部分通过3次512个3X3卷积核卷积后，采用1次最大池化；第五个卷积部分通过3次512个3X3卷积核卷积后，采用1次最大池化，就可以获取到一个多维特征，再使用flatten层将其平铺到一维上，变成一维的数组，即可获得一个一维向量。其结构如图4所示。

其中，使用卷积处理图像，输出的图像的尺寸为：

公式中W _filter和H _filter分别表示卷积核的宽和高，W _in、H _in和W _out、H _out分别代表输入、输出的特征图的宽和高，P为在图像边缘填充的边界像素层数,S为步长。

经过池化层处理的图像，输出的图像的尺寸为：

。

步骤33：使用具有设定标签的书法字骨架数据集对孪生神经网络进行训练，数据集中属于同一个字的书法字骨架图片设定为同一个标签，该书法字骨架数据集包含从3754个书法字提取的56310个不同骨架，每个书法字包含15个书法字骨架，都是从不同风格的同一个书法字中提取出来。

将所述书法字骨架数据集以9比1的比例随机分为训练集和验证集，将训练集随机分为若干个样本，每个样本中包括46个书法字图像骨架，可以每个数据不重复的进行23次输入，若最后一个样本不足46个，则舍弃最后一个样本；

如图3所示，从46个书法字骨架图像随机选取两个未被使用的书法字图像骨架，作为输入，输入到孪生神经网络的两个VGG16网络中，获得两个输入的一维向量；

S(x)表示相似度，x表示所述最后一个神经元的输出结果；

其中，Loss表示损失，y _i是样本中第i个二元标签，二元标签为 0 或者 1，S（y _i）是样本中第i次输入的相似度,i=1,2,...,N；

计算该样本23次输入得到的所有损失Loss的均值；

将训练集再随机分为若干个样本，每个样本中包括46个书法字图像骨架，若最后一个样本不足46个，则舍弃最后一个样本，利用新的权重再进行第二轮中的每个样本的训练，得到第二轮训练后的权重，并利用此轮权重在验证集上计算Loss均值；

以此类推，直到模型在10个轮次内验证集上Loss均值没有进一步降低或者达到预先设定的80次训练轮数，选取验证集最低的Loss均值对应的权重构建基于孪生神经网络的书法字骨架匹配模型，得到训练好的基于孪生神经网络的书法字骨架匹配模型。

当数据集很大时，一次性把所有数据输进网络，会引起内存的爆炸，训练时，分成若干个样本进行训练，可以很好地解决因为数据量太大引起的内存不足问题；重新打乱有利于模型更好地学习数据。

步骤4：使用训练好的基于孪生神经网络的书法字骨架匹配模型对书法字图像A和书法字图像B进行相似度判断，得到它们的相似度，本实施例中相似度大于阈值0.5的为同一个书法字，不大于阈值0.5的为不同的书法字。

相应的本发明还提供一种基于孪生神经网络的书法字骨架匹配系统，包括：

获取模块，用于获取待匹配的两张书法字图像；

相应的本发明还提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

相应的本发明还提供一种计算设备，包括，

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于孪生神经网络的书法字骨架匹配方法，其特征在于，包括：

获取待匹配的两张书法字图像；

分别对两张书法字图像进行预处理后得到两张预处理图像；

对两张预处理图像进行细化，得到两张书法字图像骨架；

利用预先训练好的基于孪生神经网络的书法字骨架匹配模型对两张书法字图像骨架进行相似度判断，若相似度大于预先设定的阈值则判定为同一个书法字，若相似度不大于预先设定的阈值则判定为不同的书法字;

所述基于孪生神经网络的书法字骨架匹配模型的训练，包括：

S(x)表示相似度，x表示所述最后一个神经元的输出结果；

计算该样本N次输入得到的所有损失Loss的均值；

2.根据权利要求1所述的基于孪生神经网络的书法字骨架匹配方法，其特征在于，所述分别对两张书法字图像进行预处理后得到两张预处理图像，包括：

3.根据权利要求1所述的基于孪生神经网络的书法字骨架匹配方法，其特征在于，所述对两张预处理图像进行细化，得到两张书法字图像骨架，包括：

其中，0表示背景像素，1表示前景像素，N(P1)表示跟某个前景像素点P1相邻的8个像素点中为前景像素点的个数，所述相邻的8个像素点顺时针围绕P1依次表示为P2~P9， S(P1)表示从P2 ～ P9 ～ P2方向的像素中出现的两个相邻像素点依次为0和1的累计次数；

4.一种基于孪生神经网络的书法字骨架匹配系统，其特征在于，包括：

获取模块，用于获取待匹配的两张书法字图像；

模型处理模块，用于利用预先训练好的基于孪生神经网络的书法字骨架匹配模型对两张书法字图像骨架进行相似度判断，若相似度大于预先设定的阈值则判定为同一个书法字，若相似度不大于预先设定的阈值则判定为不同的书法字;

S(x)表示相似度，x表示所述最后一个神经元的输出结果；

计算该样本N次输入得到的所有损失Loss的均值；

5.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至3所述的方法中的任一方法。

6.一种计算设备，其特征在于，包括，

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至3所述的方法中的任一方法的指令。