CN112200184B

CN112200184B - 一种自然场景下的书法区域检测及作者识别方法

Info

Publication number: CN112200184B
Application number: CN202011076021.3A
Authority: CN
Inventors: 柯逍; 刘童安; 杜鹏强
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2022-07-08
Anticipated expiration: 2040-10-10
Also published as: CN112200184A

Abstract

本发明涉及一种自然场景下的书法区域检测及作者识别方法，包括以下步骤：步骤S1:采集书法图片，构建书法区域检测与作者信息数据集；步骤S2:对书法区域检测与作者信息数据集进行预处理；步骤S3:基于CornerNet网络结构，构建书法区域检测及作者识别网络，并根据预处理后的数据集进行训练；步骤S4:将待识别的图片送入训练好的书法区域检测及作者识别网络，获取图片中包含书法作品的区域并识别书法作者。本发明能够高效便捷的检测自然场景下的图片包含的书法区域及作者信息。

Description

一种自然场景下的书法区域检测及作者识别方法

技术领域

本发明涉及模式识别与计算机视觉领域，具体涉及一种自然场景下的书法区域检测及作者识别方法。

背景技术

而书法是一门复杂的学问，其涉及文学、历史、美术等多个学科，是一门综合性很强的边缘学科。名家名人的书法作品具有广泛的应用，尤其在设计行业，其可用于服装、杯子、壁纸等生活中常见的物品印花，也可用于电视节目、海报等场景下作为字体、背景使用。

对于普通人来说，在生活中看到了感兴趣的书法作品，想要了解它的详细信息是非常困难的，往往需要向专业人士咨询，对普通人来说需要耗费较多的精力。而通过计算机视觉和深度学习技术，可以利用计算机轻松海量书法作品作者信息，使得普通人也可以利用该方法轻松的获取自然场景下书法作品的作者信息。而获得了作者信息之后，想要了解书法作品详情则简单的多。

发明内容

有鉴于此，本发明的目的在于提供一种自然场景下的书法区域检测及作者识别方法，能够高效便捷的检测自然场景下的图片包含的书法区域及作者信息。

为实现上述目的，本发明采用如下技术方案：

一种自然场景下的书法区域检测及作者识别方法，包括以下步骤：

步骤S1:采集书法图片，构建书法区域检测与作者信息数据集；

步骤S2:对书法区域检测与作者信息数据集进行预处理；

步骤S3:基于CornerNet网络结构，构建书法区域检测及作者识别网络，并根据预处理后的数据集进行训练；

步骤S4:将待识别的图片送入训练好的书法区域检测及作者识别网络，获取图片中包含书法作品的区域并识别书法作者。

进一步的，所述步骤S1具体为：

步骤S11:：收集并整理ta张自然场景下包含书法作品的图片IMG＝{img_ia|ia＝1，2，...，ta}，其中img_ia表示第ia张图片；

步骤S12：对每一张图片进行标注，每张图片包含0个、1个或1个以上的标注，每个标注包含一个区域r＝{rltx，rlty，rwidth，rheight}和一个作者信息w，rltx为区域左上角的x坐标，rlty为区域左上角的y坐标，rwidth为区域宽度，rheight为区域高度；

步骤S13：将每一张图片的任意第ic个区域r_ic和对应的第ic个作者信息w_ic组合，获得第ic个标注first_anno_ic＝{r_ic，w_ic}，最终对于任意img_ia可以获得一个第ia张图片的标注集合first_annos_ia＝{first_anno_ic|ic＝0，1，...，tb_ia}，其中tb_ia为第ia张图片的标注总数；

步骤S14：将所有图片中的所有标注中的作者信息整理为集合W＝{w_id|id＝1，2，...，tw}，其中tw为作者总数，建立作者信息索引满映射fw：WID→W，其中WID＝{1，2，...，tw}；

步骤S15：根据映射fw，用WID中的元素将任意first_annos_ia的所有子集中的w_ic替换为wid_ic，替换后得到新集合annos_ia；

步骤S16：将img_ia和annos_ia组合，获得第ia个样本c_ia＝{img_ia，annos_ia}，作者信息映射关系fw和所有样本组合得到书法区域检测与作者信息数据集C＝{fw，{c_ia|ia＝1，2，...，ta}}。

进一步的，所述步骤S2具体为：对于每一个样本c_ia＝{img_ia，annos_ia},随机进行实行裁剪、旋转和缩放变换，每个样本可以生成若干个子样本，获得包含作者信息映射关系fw和tc个样本的增强数据集C′＝{fw，{c′_if|if＝1，2，...，tc}}，

其中c′_if＝{img′_if，annos′_if}为增强数据集中的第if个样本，img′_if为第if个增强样本的图片，annos′_if为第if个增强样本的标注集。

进一步的，所述书法区域检测及作者识别网络CornerNet的结构为基础结构并对其进行修改，具体如下：

将图片送入一个用于特征提取的Hourglass-104模块获得深度特征；

将特征图送入角点池化层获得角点特征图，再将角点特征图分别送入三个子网络，三个子网络分别用于预测角点对应的物体类别、匹配角点和预测角点在特征图位置与原图位置的偏移量；

将其网络用于提取特征的Hourglass-104替换为基于ResNet-50的FPN；

其中，FPN的上采样方法为双线性插值加卷积。

进一步的，步骤S4具体为：

步骤S41:将一张或多张待检测与识别的td张图片inputimgs送入训练好的书法区域检测及作者识别网络DetNet，获得预测结果output；

步骤S42：对每一张输入图片的预测结果进行后处理，当处理第ig张图片时，对于第ih个预测结果predrw_ih，若predchance_ih＜thresholdA，将其从pred_ig集合中删除，其中thresholdA为阈值参数，ih＝1，2，...，te_ig全被执行后，进入下步；

步骤S43：对于两块区域C、D的IoU计算方式如下：

其中area(X)是计算区域X面积的函数，于是对于第ig张输入图片的任意两个预测结果predrwa∈pred_ig,predrwb∈pred_ig且predrwa≠predrwb，其中predrwa＝{predregiona，predchancea，predwida}，predregiona为预测区域，predchancea为预测准确的概率，predwida为predregiona对应的预测作者索引，predrwb＝{predregionb，predchanceb，predwidb}，predregionb为预测区域，predchanceb为预测准确的概率，predwidb为predregionb对应的预测作者索引,根据计算两块区域predregiona和predregionb的IoU，得到IoU_predregionab；

步骤S44：对于两块区域E、F，较小的区域被较大的区域的覆盖率rc计算方式如下：

其中min(XA，XB)是计算XA,XB最小值的函数，利用上式计算两块区域predregiona和predregionb的rc，得到rc_predregionab，若IoU_predregionab＜thresholdB且predwida＝predwidb且rc_predregiomb＞thresholdC，则将面积小的区域对应的预测结果从pred_ig中删去，其中thresholdB、thresholdC为阈值参数；

步骤S45：若IoU_predregionab≥thresholdD，则将predchancea、predchanceb较小的一个对应的预测结果从pred_ig中删去，其中thresholdD为阈值参数；

步骤S46：重复S43、S44、S45直到pred_ig中任意元素都不能被删去后，继续按S41、S42、S43、S44、S45步骤处理下一张图片的预测结果，直到ig＝1，2，...，td全被处理完毕得到修正后的处理结果output2；

步骤S47：利用作者映射关系fw，将output2子集中的所有作者索引wid恢复为作者信息w，得到最终的书法区域和作者信息。

本发明与现有技术相比具有以下有益效果：

1、本发明能够高效便捷的检测自然场景下的图片包含的书法区域及作者信息；

2、本发明基于CornerNet检测模型进行修改，在保证准确度的情况下，提高了其运行速率，有利于将网络移植到性能一般的便携设备中运行。

3、本发明进一步对误检、重复检测的情况进行后处理，使得得到的结果更简明、精确。

附图说明

图1是本发明方法流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种自然场景下的书法区域检测及作者识别方法，包括以下步骤：

步骤S2:对书法区域检测与作者信息数据集进行预处理；

在本实施例中，所述步骤S1具体为：

在本实施例中，所述步骤S2具体为：对于每一个样本c_ia＝{img_ia，annos_ia},随机进行实行裁剪、旋转和缩放变换，每个样本可以生成若干个子样本，获得包含作者信息映射关系fw和tc个样本的增强数据集C′＝{fw，{c′_if|if＝1，2，...，tc}}，

在本实施例中，所述书法区域检测及作者识别网络CornerNet的结构为基础结构并对其进行修改，具体如下：

将其网络用于提取特征的Hourglass-104替换为基于ResNet-50的FPN；

其中，FPN的上采样方法为双线性插值加卷积。

优选的，修改后的网络的输入为td张一组的图片inputimgs＝{inputimg_ig|ig＝1，2，...，td}，其中td为该组图片的数量，inputimg_ig表示该组图片的第ig张，其对应的输出为output＝{pred_ig|ig＝1，2，...，td}，其中pred_ig表示第ig张输入图片的预测结果，pred_ig＝{predrw_ih|ih＝1，2，...，te_ig}，其中te_ig为第ig张输入图片预测的书法区域数量，predrw_ih为第ih个预测区域作者集，predrw_ih＝{predregion_ih，predwid_ih，predchance_ih}，predregion_ih为第ih个预测区域，predwid_ih为第ih个预测区域对应的预测作者索引，predchance_ih为第ih个预测区域预测正确的概率，其中predregion_ih＝{prltx_ih，prlty_ih，prwidth_ih，prheight_ih}，prltx_ih为预测区域做左上角x坐标，prlty_ih为预测区域左上角的y坐标，prwidth_ih为预测区域宽度，prheight_ih为预测区域高度。

进一步的，步骤S4具体为：

步骤S43：对于两块区域C、D的IoU计算方式如下：

步骤S44：对于两块区域R、F，较小的区域被较大的区域的覆盖率rc计算方式如下：

其中min(XA，XB)是计算XA,XB最小值的函数，利用上式计算两块区域predregiona和predregionb的rc，得到rc_predregionab，若IoU_predregionab＜thresholdB且predwida＝predwidb且rc_predregionab＞thresholdC，则将面积小的区域对应的预测结果从pred_ig中删去，其中thresholdB、thresholdC为阈值参数；进一步去除一些几乎被其他检测区域完全覆盖的重复结果的干扰；

步骤S45：若IoU_predregionab≥thresholdD，则将predchancea、predchanceb较小的一个对应的预测结果从pred_ig中删去，其中thresholdD为阈值参数；进一步去除一些不可靠的检测结果；

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种自然场景下的书法区域检测及作者识别方法，其特征在于，包括以下步骤：

步骤S1：采集书法图片，构建书法区域检测与作者信息数据集；

步骤S2：对书法区域检测与作者信息数据集进行预处理；

步骤S3：基于CornerNet网络结构，构建书法区域检测及作者识别网络，并根据预处理后的数据集进行训练；

步骤S4：将待识别的图片送入训练好的书法区域检测及作者识别网络，获取图片中包含书法作品的区域并识别书法作者；

所述步骤S1具体为：

步骤S11：收集并整理ta张自然场景下包含书法作品的图片IMG＝{img_ia|ia＝1，2，...，ta}，其中img_ia表示第ia张图片；

步骤S13：将每一张图片的任意第ic个区域r_ic和对应的第ic个作者信息w_ic组合，获得第ic个标注first_anno_ic＝{r_ic，w_ic}，最终对于任意img_ia获得一个第ia张图片的标注集合first_annos_ia＝{first_anno_ic|ic＝0，1，...，tb_ia}，其中tb_ia为第ia张图片的标注总数；

步骤S16：将img_ia和annos_ia组合，获得第ia个样本c_ia＝{img_ia，annos_ia}，作者信息映射关系fw和所有样本组合得到书法区域检测与作者信息数据集C＝{fw，{c_ia|ia＝1，2，...，ta}}；

所述步骤S2具体为：对于每一个样本c_ia＝{img_ia，annos_ia}，随机进行实行裁剪、旋转和缩放变换，每个样本生成若干个子样本，获得包含作者信息映射关系fw和tc个样本的增强数据集C′＝{fw，{c_if|if＝1，2，...，tc}}，

其中c′_if＝{img′_if，annos′_if}为增强数据集中的第if个样本，img′_if为第if个增强样本的图片，annos′_if为第if个增强样本的标注集；

步骤S4具体为：

步骤S41：将一张或多张待检测与识别的td张图片inputimgs送入训练好的书法区域检测及作者识别网络DetNet，获得预测结果output；

步骤S43：对于两块区域C、D的IoU计算方式如下：

其中area(X)是计算区域X面积的函数，于是对于第ig张输入图片的任意两个预测结果predrwa∈pred_ig，predrwb∈pred_ig且predrwa≠predrwb，其中predrwa＝{predregiona，predchancea，predwida}，predregiona为预测区域，predchancea为预测准确的概率，predwida为predregiona对应的预测作者索引，predrwb＝{predregionb，predchanceb，predwidb}，predregionb为预测区域，predchanceb为预测准确的概率，predwidb为predregionb对应的预测作者索引，根据计算两块区域predregiona和predregionb的IoU，得到IoU_predregionab；

其中min(XA，XB)是计算XA，XB最小值的函数，利用上式计算两块区域predregiona和predregionb的rc，得到rc_predregionab，若IoU_predregionab＜thresholdB且predwida＝predwidb且rc_predregionab＞thresholdC，则将面积小的区域对应的预测结果从pred_ig中删去，其中thresholdB、thresholdC为阈值参数；

2.根据权利要求1所述的一种自然场景下的书法区域检测及作者识别方法，其特征在于，所述步骤S3，具体如下：

将其网络用于提取特征的Hourglass-104替换为基于ResNet-50的FPN；

其中，FPN的上采样方法为双线性插值加卷积。