CN114444564A

CN114444564A - 一种基于深度神经网络模型的高相似度论文图片比对方法

Info

Publication number: CN114444564A
Application number: CN202111526208.3A
Authority: CN
Inventors: 曾彦儒; 穆卫平; 郭俊杰; 冯文菲
Original assignee: Guangzhou Reagent Information Technology Co ltd
Current assignee: Guangzhou Reagent Information Technology Co ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-05-06

Abstract

本发明公开了一种基于深度神经网络模型的高相似度论文图片比对方法，其中方法包括：获取测试论文和待测论文，通过预设的子图抽取算法，分别抽取两论文中图片的子图；基于预先构建的深度神经网络模型对子图进行处理分析，得到子图的特征数据；将测试论文与待测论文的子图作为两两配对的图片对，根据图片对中两子图各自的特征数据，筛选出符合显示条件的图片对并计算得到其相似度；根据展示规则对筛选后的图片对进行展示。本发明通过预设的子图抽取算法抽取论文图片的子图，进而根据预先构建的深度神经网络模型对抽取的子图进行特征数据的解析，两两比对，筛选高相似度的图片，即实现高效准确地识别出论文中具有潜在复用问题图片的效果。

Description

一种基于深度神经网络模型的高相似度论文图片比对方法

技术领域

本发明属于论文图片查重技术领域，尤其涉及一种基于深度神经网络模型的高相似度论文图片比对方法。

背景技术

论文查重是论文发表前必备的步骤，目前查重仅针对文字，鲜有对图片进行查重的。针对图片的比对，目前，大多数图像识别比对的程序仅基于SIFT(Scale-Invar iantFeature Transform)、SURF(Speeded Up Robust Feature)、ORB(Or iented FAST andRotated BRIEF)和HOG(Histogram of Or iented Grad ient)等特征检测算法提取出的图像特征进行构建，这类基于图像相似度模型的性能往往受限于使用的手动设计特征的表征能力，由于图片类型、色彩的多样性以及图片的非单一性，便无法快速有效地检测论文图片的复用或造假。

发明内容

本发明的目的是提供一种基于深度神经网络模型的高相似度论文图片比对方法，能够实现高效准确地识别出论文中具有潜在复用问题图片的效果。

为了实现上述目的，本发明采用如下技术方案：

一种基于深度神经网络模型的高相似度论文图片比对方法，包括：

获取测试论文和待测论文，通过预设的子图抽取算法，分别抽取测试论文和待测论文中图片的子图；

基于预先构建的深度神经网络模型对抽取的所述子图进行处理分析，得到每个子图的特征数据；

将测试论文的子图与待测论文的子图作为两两配对的图片对，根据所述图片对中两子图各自的所述特征数据，筛选出符合显示条件的图片对并计算得到所述图片对的相似度；

根据展示规则对筛选后的所述图片对进行展示。

进一步地，构建深度神经网络模型包括：

以VGG16结构为骨架框架，构建包括13个卷积层、3个全连接层、5个最大池化层以及一个输出层的网络结构，采用ReLU作为隐藏层的激活函数；

通过参数迁移方法，将所述网络结构在ImageNet数据集训练得到的参数作为初始化参数。

进一步地，还包括，对预先构建的VGG16网络结构进行微调得到所述深度神经网络模型，具体为：

通过预先采集的预设数量的论文图片对网络结构中的所述全连接层进行微调，保持所述卷积层参数不变。

进一步地，基于预先构建的深度神经网络模型对抽取的所述子图进行处理分析，得到每个子图的特征数据，包括：

抽取的所述子图经过所述深度神经网络模型计算，在所述全连接层将所述子图压缩至特征向量，保存所述特征向量作为所述子图的特征数据；

还包括，所述输出层对所述子图的所述特征向量进行多分类判别，得到所述子图的类别。

进一步地，所述子图的类别包括照片、印迹图、组织切片、明场图像、荧光图、散点图、芯片阵列、统计图表、图例、文字以及图标。

进一步地，根据所述图片对中两子图各自的所述特征数据，筛选出符合显示条件的图片对并计算得到所述图片对的相似度，其中筛选包括预处理、初选和精选；

其中预处理为：根据为一维向量的所述特征数据，得到所述图片对中两子图之间的欧氏距离，从欧式距离的递增排序中依次选出对应的第一预设数量的所述图片对；

初选为：剔除预处理后所述欧氏距离小于预设距离值的图片对；

精选为：基于ORB特征点的蛮力比对算法得到初选后图片对的特征点距离和特征点数目，选出符合预设距离值的图片对，根据所述特征点距离和所述特征点数目，得到选出的图片对的相似度。

进一步地，根据展示规则对筛选后的所述图片对进行展示，包括：

当所述图片对的所述相似度达到相似度阈值时，展示所述图片对的相似度及其特征比对示意图；

当所述图片对的所述相似度未达到相似度阈值时，展示所述图片对的相似度。

更进一步地，展示所述图片对的相似度，具体包括：

识别所述图片对中子图的类别，根据所述类别对所述子图进行相似度修正；

根据所述修正后的相似度，计算得到展示相似度用于展示。

更进一步地，所述子图抽取算法包括：

利用MuPDF库从PDF格式图片中抽取出图片；

对抽取出的图片的色彩空间进行标准化处理；

将抽取出的所述图片进行分割得到子图。

进一步地，将抽取出的所述图片进行分割得到子图，具体为：

固定抽取出的所述图片的纵横比对图片进行缩小，对缩小后的图片进行二值化处理；

使用skimage库计算二值化处理后的所述图片的连通域；

计算所述连通域的面积，剔除面积小于缩小后的所述图片的总面积10％的连通域，对保留下来的不规则连通域进行外接矩形的填充；

循环填充完毕所述不规则连通域后，剩余外接矩形形状范围内的图像作为子图。

由以上本申请实施方式提供的技术方案可见，通过预设的子图抽取算法抽取测试论文和待测论文图片的子图，进而根据预先构建的以VGG16结构为骨架框架的深度神经网络模型对抽取的子图进行特征数据的解析获取，两两子图比对，或者将待测论文的子图与基于子图抽取算法得到的参考图片库的子图形成图片对对比，通过根据特征数据计算得到的图片对的相似度，经过预处理、初选和精选精准低运算量地筛选出高相似度的图片对进行展示，即实现高效准确地识别出论文中具有潜在复用问题图片的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例一提供的一种基于深度神经网络模型的高相似度论文图片比对方法的步骤流程示意图；

图2为本发明实施例一提供的一种基于深度神经网络模型的高相似度论文图片比对方法的构建模型的步骤流程示意图；

图3为本发明实施例一提供的一种基于深度神经网络模型的高相似度论文图片比对方法的步骤流程示意图；

图4为本发明实施例一提供的一种基于深度神经网络模型的高相似度论文图片比对方法的展示图片对相似度的步骤流程示意图；

图5为本发明实施例一提供的一种基于深度神经网络模型的高相似度论文图片比对方法的子图抽取算法的算法流程示意图；

图6为本发明另一实施例的计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

本申请的该实施例提供了一种能够实现高效准确地识别出论文中具有潜在复用问题图片的效果的一种基于深度神经网络模型的高相似度论文图片比对方法，如图1所示，其方法步骤包括：

S100，获取测试论文和待测论文，通过预设的子图抽取算法，分别抽取测试论文和待测论文中图片的子图；

S200，基于预先构建的深度神经网络模型对抽取的所述子图进行处理分析，得到每个子图的特征数据；

S300，将测试论文的子图与待测论文的子图作为两两配对的图片对，根据所述图片对中两子图各自的所述特征数据，筛选出符合显示条件的图片对并计算得到所述图片对的相似度；

S400，根据展示规则对筛选后的所述图片对进行展示。

本实施例提供的一种基于深度神经网络模型的高相似度论文图片比对方法，对测试论文和待测论文的图片进行对比，通过子图抽取算法抽取出子图，克服了现有的传统方法无法进一步分割抽取出论文图片的子图的问题，之后在深度神经网络模型中处理分析得到特征数据并两两比对形成图片对，其中图片对由测试论文的子图和待测论文的子图多对多形成，筛选出符合条件的图片对之后计算出其相似度，减少了运算量，可以帮助使用者从海量论文中高效准确地识别检测出其中的图片复用事件。

上述实施例中，在子图的抽取之前，还包括深度神经网络模型的预先构建，如图2所示，其具体包括：

S001，以VGG16结构为骨架框架，构建包括13个卷积层、3个全连接层、5个最大池化层以及一个输出层的网络结构，采用ReLU作为隐藏层的激活函数。

S002，通过参数迁移方法，将所述网络结构在ImageNet数据集训练得到的参数作为初始化参数。即基于上述的设计，使用迁移学习(transfer learning)中的参数迁移方法(parameter transfer)将已经在ImageNet数据集(包含120万张来自1000类别的数据集)上训练好的VGG16网络模型的参数作为上述网络结构模型初始化的参数。

并且在之后还包括，S003，对预先构建的VGG16网络结构进行微调得到所述深度神经网络模型，具体为：通过预先采集的预设数量的论文图片对网络结构中的所述全连接层进行微调(fine-tune)，保持所述卷积层参数不变，减少了模型的过度拟合。

这样保证了网络模型在训练开始时对论文图片具有良好的边缘及色彩特征提取能力，从而使得模型的训练更为平稳迅速，极大地提高了模型的构建效率和性能，并且微调后省去大量计算资源和计算时间，提高了计算效率，甚至提高准确率。

在提供的该实施例中，如图3所示，基于上述构建的模型，实施步骤S200，基于预先构建的深度神经网络模型对抽取的所述子图进行处理分析，得到每个子图的特征数据，其具体包括：

S201，抽取的所述子图经过所述深度神经网络模型计算，在所述全连接层将所述子图压缩至特征向量，保存所述特征向量作为所述子图的特征数据。

抽提的子图数据经过VGG16网络模型的计算后，使用的全连接层将数据压缩至具有1000个数值的特征向量，流动到softmax输出层的1000个数值的数据能够包含从VGG16网络抽提出来的图像特征，也能够将数据维度压缩方便后续运算，将每张子图的此1000个数值的特征向量保存，作为图像的特征数据

同时还包括S202，所述输出层对所述子图的所述特征向量进行多分类判别，得到所述子图的类别。利用训练好的深度卷积神经网络模型判别子图所属图片分类，使用softmax层进行子图的多分类判别，判别结果作为子图的类别。所述子图的类别可以包括照片(photo)、印迹图、明场图像(bright field)、荧光图(fluorescent)、散点图(scatter)、芯片阵列(chip)、统计图表(chart)、图例(illustrate)、文字(text)以及图标(icon)。

并且在步骤S300中，根据所述图片对中两子图各自的所述特征数据，筛选出符合显示条件的图片对并计算得到所述图片对的相似度，进一步地，其中的筛选包括预处理、初选和精选；

其中预处理表现为，S301，根据所述特征数据，得到所述图片对中两子图之间特征数据的欧氏距离，从欧式距离的递增排序中依次选出该图片对中第一预设数量的所述欧氏距离。本申请的该实施例中第一预设数量为30个，即通过图片对中待测子图和测试子图分别经上述计算输出的1000个一维向量特征(分别表示为f1和f2)，根据python的numpy依赖库中的linalg.norm函数计算出图片对中两子图的特征数据之间的欧氏距离，numpy.linalg.norm(f1-f2,axis＝1)，在此之后，最多选取距离值最小的前30个欧氏距离。

初选表现为，S302，剔除预处理后第一预设数量的所述欧氏距离均大于预设距离值的图片对，对剩余的图片对，保留其欧式距离在递增排序中依次选出的第二预设数量的欧氏距离。本申请的该实施例中第二预设数量为10个，即针对预处理后得到的图片对，去除欧氏距离大于预设距离值20的图片对，并对剩余的每个图片对，至多保留其最小的前10个欧氏距离及其对应的特征数据。

精选表现为，S303，基于ORB特征点的蛮力比对算法得到初选后图片对的特征点距离和特征点数目，选出符合预设距离值的图片对，根据所述特征点距离和所述特征点数目，得到选出的图片对的相似度。

具体可以为，利用python-opencv包计算初选后图片对的ORB特征点距离(python-opencv包中cv2.cv2.DescriptorMatcher.DescriptorMatcher.match函数计算的特征点的距离，以d代替)以及特征点数目，其中距离值小于预设距离值65的特征点认为是“良好”的匹配特征点(以g表示)，则将对应的图片对进行相似度的计算，相似度similarity计算为，

其中S₀为相似度，p为待测子图的特征点数目，q为测试子图的特征点数目。

进一步地，步骤S400根据展示规则对筛选后的所述图片对进行展示，其中，展示规则与所述图片对的相似度相关，故步骤具体包括：

S401，当所述图片对的所述相似度达到相似度阈值时，展示所述图片对的相似度及其特征比对示意图。若存在一张待测的子图对多张测试的子图的其中一个的相似度similarity最大的值大于相似度阈值0.1时，则展示所述图片对的相似度及其特征比对示意图。

S402，当所述图片对的所述相似度未达到相似度阈值时，展示所述图片对的相似度。即不展示其特征比对示意图。

并且在本申请提供的该实施例中，如图4所示，步骤S401和步骤S402中的，展示所述图片对的相似度其具体包括：S403，识别所述图片对中子图的类别，根据所述类别对所述子图进行相似度修正。

在所述图片对的所述相似度达到相似度阈值时，若其子图类别为印迹图印迹图，那么修正相似度S_c(corrected_similarity)的计算为

S_c＝min((1-S₀)×20×3+2,20)；

若是印迹图以外的其他类别，修正相似度S_c的计算具体为S_c＝(1-S)×2。

另外在述图片对的所述相似度未达到相似度阈值时，首先将图片对转换到HSV颜色空间，而后计算其卡方距离(chi-square-distance)，剔除卡方距离大于5或初选后得到的第二预设数量的欧式距离向量中最小欧式距离min(D_e)>14的图片对，其中D_e为初选后第二预设数量的欧氏距离值，之后对剩余图片对根据其子图类别进行下列的相似度修正：

min(D_e)<6且为印迹图类别，S_c＝S₀×3+2；

min(D_e)<6且不为印迹图类别，S_c＝S₀；

其他图片类别，S_c＝15。

相似度修正后，S404，根据所述修正后的修正相似度，计算得到展示相似度用于展示。本实施例中，展示相似度

另外，如图5所示，抽取论文图片子图的所述子图抽取算法的算法步骤具体包括：

S500，利用MuPDF库从PDF格式图片中抽取出图片。

S600，对抽取出的图片的色彩空间进行标准化处理。

本实施例中主要为统一成RGB格式，以便不同色彩空间的图片进行比对。并且本实施例中色彩空间的转换利用到了MuPDF库，而因为MuPDF库对于不同色彩空间的图片向RGB格式进行转换时，会出现黑白颠倒，背景填黑等情况，与实际视觉不符合，解决这一问题的标准化处理方式如下表1所示。

表1色彩空间标准化处理

步骤S600之后还包括，将抽取出的所述图片进行分割得到子图，具体为：

S701，固定抽取出的所述图片的纵横比对图片进行缩小，对缩小后的图片进行二值化处理。其中进行二值化处理使用的是opencv-python库，其阈值设置为230(e)，即若图片的灰度值大于230，则对其进行灰度值填充255(黑)；若其灰度值小于等于230，则进行灰度值填充0(白)，而缩小图片能够减少子图分割过程中的运算量，提高处理速度。

S702，使用skimage库计算二值化处理后的所述图片的连通域。

S703，计算所述连通域的面积，剔除面积小于缩小后的所述图片的总面积10％的连通域，对保留下来的不规则连通域进行外接矩形的填充。

S704，循环填充完毕所述不规则连通域后，剩余外接矩形形状范围内的图像作为子图。即执行循环do while操作重复上述步骤S703，直到没有不规则外接形状(除矩形外的形状)的出现则停止重复，剩余外接矩形形状范围内的图像即为抽提的子图。

在本申请的另一实施例中，所述方法还包括：对上传的论文的图片通过所述子图抽取算法进行图片子图的抽提，以所有子图作为参考图片库，供以与所述待测论文提取出的子图配对形成图片对。即使用者可以构建需要的参照图库，将实验结果图片或已发表的论文上传到参考图片库中，用于后续对待测论文或者图片的对比。

通过上述实施例，可以看出本申请，在以VGG16结构为骨架框架构建深度神经网络模型后，将通过预设的子图抽取算法抽取测试论文和待测论文图片的子图导入模型中进行处理分析，得到子图的特征数据，之后两两子图比对，或者将待测论文的子图与基于子图抽取算法得到的参考图片库的子图形成图片对对比，通过初选和精选选择出指定数量的图片对，对其进行基于ORB特征点的蛮力比对计算。低运算量地获得图片对的相似度，选出不同程度的高相似度的图片对进行展示，即实现高效准确地识别出论文中具有潜在复用问题图片的效果。

本发明公开的计算机设备的一个实施例的结构示意图如图5所示，其包括存储器201和处理器202。其中:存储器201可以是磁盘、闪存或其它任何非易失性存储介质。存储器202用于存储上述的一种基于深度神经网络模型的高相似度论文图片比对方法的对应实施例中的指令。处理器202耦接至存储器201,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器202用于执行存储器201中存储的指令,能够实现高效准确地识别出论文中具有潜在复用问题图片的效果。

在另一实施例中，一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现所述的一种基于深度神经网络模型的高相似度论文图片比对方法的步骤。本领域内的技术人员应明白,本发明的实施例可提供为方法、设备、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度神经网络模型的高相似度论文图片比对方法，包括：

根据展示规则对筛选后的所述图片对进行展示。

2.根据权利要求1所述的一种基于深度神经网络模型的高相似度论文图片比对方法，其特征在于，构建深度神经网络模型包括：

3.根据权利要求2所述的一种基于深度神经网络模型的高相似度论文图片比对方法，其特征在于，还包括，对预先构建的VGG16网络结构进行微调得到所述深度神经网络模型，具体为：

4.根据权利要求2所述的一种基于深度神经网络模型的高相似度论文图片比对方法，其特征在于，基于预先构建的深度神经网络模型对抽取的所述子图进行处理分析，得到每个子图的特征数据，包括：

5.根据权利要求4所述的一种基于深度神经网络模型的高相似度论文图片比对方法，其特征在于：所述子图的类别包括照片、印迹图、组织切片、明场图像、荧光图、散点图、芯片阵列、统计图表、图例、文字以及图标。

6.根据权利要求5所述的一种基于深度神经网络模型的高相似度论文图片比对方法，其特征在于：根据所述图片对中两子图各自的所述特征数据，筛选出符合显示条件的图片对并计算得到所述图片对的相似度，其中筛选包括预处理、初选和精选；

其中预处理为：根据所述特征数据，得到所述图片对中两子图之间特征数据的欧氏距离，从欧式距离的递增排序中依次选出该图片对中第一预设数量的欧氏距离；

初选为：剔除预处理后第一预设数量的欧氏距离均大于预设距离值的图片对，对剩余的图片对，保留其欧式距离在递增排序中依次选出的第二预设数量的欧氏距离；

7.根据权利要求6所述的一种基于深度神经网络模型的高相似度论文图片比对方法，其特征在于，根据展示规则对筛选后的所述图片对进行展示，包括：

8.根据权利要求7所述的一种基于深度神经网络模型的高相似度论文图片比对方法，其特征在于，展示所述图片对的相似度，具体包括：

根据所述修正后的相似度，计算得到展示相似度用于展示。

9.根据权利要求1所述的一种基于深度神经网络模型的高相似度论文图片比对方法，其特征在于，所述子图抽取算法包括：

利用MuPDF库从PDF格式图片中抽取出图片；

对抽取出的图片的色彩空间进行标准化处理；

将抽取出的所述图片进行分割得到子图。

10.根据权利要求2所述的一种基于深度神经网络模型的高相似度论文图片比对方法，其特征在于，将抽取出的所述图片进行分割得到子图，具体为：

使用skimage库计算二值化处理后的所述图片的连通域；