CN117058432B

CN117058432B - 图像查重方法、装置、电子设备及可读存储介质

Info

Publication number: CN117058432B
Application number: CN202311311724.3A
Authority: CN
Inventors: 鄂海红; 刘建华; 丁峻鹏; 乔晓东
Original assignee: Beijing Wanfang Data Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Beijing Wanfang Data Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2023-10-11
Filing date: 2023-10-11
Publication date: 2024-01-30
Anticipated expiration: 2043-10-11
Also published as: CN117058432A

Abstract

本申请实施例提供了一种图像查重方法、装置、电子设备及可读存储介质，涉及图像处理技术领域。该方法包括：获取待检测论文的论文图像，通过预设的特征提取模型提取论文图像中待检测子图的子图特征；基于子图检索数据库检索出多个与所述待检测子图的子图特征相匹配的目标子图；将所述各个目标子图中的特征点与待检测子图的特征点进行匹配，基于获取的匹配连线结果确定所述待检测子图的查重结果。本申请实施例实现了在海量样本中高效准确的对目标图像进行查重的效果。

Description

图像查重方法、装置、电子设备及可读存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，本申请涉及一种图像查重方法、装置、电子设备及可读存储介质及计算机程序产品。

背景技术

当前，通过构建海量的科技文献比对资源库，将待检测文献处理成特征文档，与比对数据进行文字角度的相似性比对，输出待检文献与比对库中文献的相似性检测结果的技术已经较为普遍。但是，科技文献中除文字外，还存在大量的学术图像，由于图像篡改、图像复用等带来的科研诚信危机引发了学术界、工业界的高度关注，急需突破相应的技术支撑相应的自动化检测。现有的技术和服务仅能完成对指定的图片的查重检测，很难在海量数据库中进行疑似篡改其他论文中某篇图像的自动筛选工作，学术图像的局部/整体复用或局部篡改后的复用检测技术仍面临着重大挑战。

发明内容

本申请实施例提供了一种图像查重的方法、装置、电子设备及可读存储介质，可以解决在海量数据库中自动筛选疑似篡改其他科研论文图像的问题。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种图像查重的方法，该方法包括：

获取待检测论文的论文图像，通过预设的特征提取模型提取论文图像中待检测子图的子图特征；

基于子图检索数据库检索出多个与所述待检测子图的子图特征相匹配的目标子图；

将所述各个目标子图中的特征点与待检测子图的特征点进行匹配，基于获取的匹配连线结果确定所述待检测子图的查重结果。在一个可能的实现方式中，通过预设的特征提取模型提取论文图像中待检测子图的子图特征，包括：

确定论文图像中待检测子图的图像坐标；

将论文图像和所确定的图像坐标输入预设的特征提取模型，提取待检测子图的子图特征。

在另一个可能的实现方式中，将论文图像和所确定的图像坐标输入预设的特征提取模型，还包括：

将论文图像和所确定的图像坐标输入到图像分类模型，确定待检测子图的图像类别；

从训练好的多个候选特征提取模型中，确定与图像类别对应的特征提取模型。

在又一个可能的实现方式中，子图检索数据库是通过如下方式构建的：

获取多个样本论文的样本论文图像；

通过特征提取模型提取样本论文图像中样本子图的样本子图特征，并确定每一样本子图特征的子图标识；

将样本子图特征作为候选子图特征，基于各个候选子图特征和子图标识构建子图检索数据库。

在又一个可能的实现方式中，基于子图检索数据库检索出多个与所述待检测子图的子图特征相匹配的目标子图，包括：

从所述子图检索数据库检索出多个与所述待检测子图的子图特征相匹配的目标子图特征；

确定目标子图特征对应的子图标识；

基于所确定的子图标识从图像数据库中获取对应的目标子图；图像数据库中包括多个样本子图，和各个样本论文图像分别有对应的子图标识。

在又一个可能的实现方式中，目标子图的特征点是基于如下方式确定的：

将目标图像中每一像素点作为中心像素点，针对中心像素点，将与中心像素点之间的距离小于或等于预设距离内的其他像素点作为周边像素点；

确定每一周边像素点的像素值与中心像素点的像素值之间的差异；

若连续预设数量的周边像素点对应的差异大于或等于预设阈值，将中心像素点作为特征点。

在又一个可能的实现方式中，基于子图检索数据库检索出多个与所述待检测子图的子图特征相匹配的目标子图之后，还包括：

生成针对待检测子图的目标子图标识；

将待检测子图的目标子图特征和目标子图标识更新至子图检索数据库中。

根据本申请实施例的另一个方面，提供了一种图像查重的装置，该装置包括：

提取模块，用于获取待检测论文的论文图像，通过预设的特征提取模型提取论文图像中待检测子图的子图特征；

检索模块，用于基于子图检索数据库检索出多个与所述待检测子图的子图特征相匹配的目标子图；

匹配模块，用于将所述各个目标子图中的特征点与待检测子图的特征点进行匹配，基于获取的匹配连线结果确定所述待检测子图的查重结果。

其中，提取模块中通过预设的特征提取模型提取论文图像中待检测子图的子图特征，包括：

确定论文图像中待检测子图的图像坐标；

其中，提取模块中将论文图像和所确定的图像坐标输入预设的特征提取模型，还包括：

其中，检索模块中包括数据库获取模块，用于构建子图检索数据库，包括：

获取多个样本论文的样本论文图像；

其中，基于子图检索数据库检索出多个与所述待检测子图的子图特征相匹配的目标子图，包括：

确定目标子图特征对应的子图标识；

其中，匹配模块中包括特征点确定模块，用于确定给目标子图的特征点，包括：

其中，检索模块中包括更新模块，用于更新子图检索数据库，包括：

生成针对待检测子图的目标子图标识；

根据本申请实施例的另一个方面，提供了一种电子设备，该电子设备包括：存储器、处理器及存储在存储器上的计算机程序，处理器执行计算机程序以实现实施例任一方面中描述的步骤。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现任一项的图像查重方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

通过针对不同图像类别的论文图像的待检测子图分别训练独立的深度学习模型，即特征提取模型，增强了对相同图像类别的多张论文图像之间细微差别的捕捉和辨别能力，提升了图像查重的准确率。通过在匹配目标子图特征时选择通过向量表示的子图特征匹配向量表示的子图特征，能够缩短子图特征匹配所需的时间，提高图像查重的时间性能。通过在确定并匹配子图间的特征点时，能够通过特征点间的空间对应关系，确定待检测子图是否对目标子图进行复用后复用目标子图，并进一步确定进行何种复用。

同时，通过对论文图像进行分割，得到待检测子图，能够对论文图像进行局部分析，避免在局部复用或替换的情况下识别整张论文图像无法检测复用现象的问题，能够进一步提高图像查重的精确度。进一步的，通过对待检测子图进行图像分类，能够在匹配待检测子图的子图特征对应的目标子图的子图特征时，进一步缩小匹配范围，从而减少匹配数量、缩短匹配时间，实现提高匹配效率的效果；并由于为相同图像类别的子图间进行匹配，能够针对相同图像类别的子图间的细微差别进行辨别，能够进一步提高图像查重系统的准确性。

再者，通过构建子图检索数据库，通过使用子图特征进行匹配，压缩了现有技术中采用图像匹配时需要的空间占用，具备高性能的特点，可将大量数据实时召回并进行匹配处理，并能够支持大量数据的增删改操作和实时查询。

进一步的，通过将上传的论文中论文图像进行图像检测，本次的待检测子图，将作为样本子图，供非本账号用户在下一次上传论文进行图像检测时，与下一次第二论文图像中的第二待检测子图进行匹配。从而实现本系统的动态更新，并同时保证本账号用户多次对同一论文查重时不会被判定为图像复用。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的实现图像查重的系统架构示意图；

图2为本申请实施例提供的一种图像查重方法的流程示意图；

图3为本申请实施例提供的一种图像查重方法的流程示意图；

图4为本申请实施例提供的一种图像查重装置的结构示意图；

图5为本申请实施例提供的一种图像查重的电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”指示实现为“A”，或者实现为“A”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种图像查重方法，该方法可以由安装查重系统的终端设备或服务器系统实现。本申请实施例涉及的图像查重方法，能够解决在海量数据库中自动筛选疑似篡改其他科研论文图像的问题，使得本申请实施例的技术方案能够达到在海量样本中高效准确的对目标图像进行查重的效果。

下面对本申请涉及的术语及相关技术进行说明：

本申请实施例涉及的“查重”也可以称为“论文重复率自动查询”，是指将本人撰写的论文通过论文检测系统资源库的比对，得到与各大论文库的相似度。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

图1为本申请实施例提供的实现图像查重方法的系统架构示意图，其中包括安装有图像查重系统的终端10及图像查重系统20。

用户通过终端10将论文上传至图像查重系统20（以下简称本系统20），本系统20对输入论文进行分析匹配，得到检测结果返回至终端10，作为判定学术不端行为的重要依据，提交至专家或学术诚信委员会进行专家审查。

本申请图像查重系统20可以是安装在终端10上的图像查重系统20。上述应用场景中，终端10和图像查重系统20相互通信，图像查重系统20接收终端10发送的论文图像，终端10接受图像查重系统20返回的检测报告。

本技术领域技术人员可以理解，终端可以是智能手机（如Android手机、iOS手机等）、平板电脑、笔记本电脑、MID（Mobile Internet Devices，移动互联网设备）、PDA（个人数字助理）、台式计算机等，终端可以通过有线或无线通信方式进行直接或间接地连接服务器，但并不局限于此。本发明实施例可应用于各种场景，也可基于实际应用场景需求确定，在此不作限定。

本技术领域技术人员可以理解，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云数据库、云计算、云存储、云通信、网络服务、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）以及大数据和人工智能平台等基础云服务的云服务器或服务器集群。

本申请实施例中提供了一种图像查重的方法，如图2所示，该方法包括：

S201、获取待检测论文的论文图像，通过预设的特征提取模型提取论文图像中待检测子图的子图特征；

其中，获取待检测论文的格式可以为pdf格式，获取pdf格式的论文后，将论文分为文字部分及图像部分并分别对两部分进行查重，本申请特指对图像部分进行查重。

具体可以包括：在识别论文中的图像部分后，将图像部分中需要检测的论文图像的进行分割识别，得到至少一张待检测子图。其中，子图即组成复合图像的独立不可拆分图像，论文图像表示由单个或复数个独立不可拆分的图像（子图）组成的复合图像。

具体的，安装有图像查重系统的终端可以根据待检测子图的图像类别确定对应的特征提取模型。其中，图像类别至少可以包括：统计图、条带图、染色图、示意图、造影图、实物图和其他。针对不同类别的图像训练了相应的特征提取模型，利用相应的特征提取模型提取待检测子图的子图特征，增强了对同类别论文子图之间细微差别的捕捉和辨别能力，提升了图像查重的准确率。

S202、基于子图检索数据库检索出多个与所述待检测子图的子图特征相匹配的目标子图；

其中，目标子图可以包括复用的可能性大于或等于预设阈值的子图，子图特征可以包括通过向量表示的子图特征，子图特征能够反映出子图的位置与类别信息。

具体的，在确定目标子图特征时，可以通过量化方法构建向量索引，基于图像特征的向量相似性，通过向量索引匹配目标子图特征，能够缩短子图特征匹配所需的时间，提高图像查重的时间性能。

其中，子图检索数据库可以包括：已发表或未发表的全部历史论文中，每篇历史论文的部分或全部子图特征的集合。需要注意的是，子图检索数据库中，不存储子图特征对应的具体子图或论文图像，仅储存子图特征对应的论文图像的子图标识、图像坐标、子图的图像类别，根据用户设置，还可以选择在子图检索数据库中储存论文的元数据信息。

需要注意的是，在匹配目标子图特征时，并非通过论文图像匹配论文图像，而是通过向量化的子图特征之间的欧式距离表示子图间的相似度。

S203、将所述各个目标子图中的特征点与所述待检测子图的特征点进行匹配，基于获取的匹配连线结果确定所述待检测子图的查重结果。

其中，待检测子图为本申请需要检测的论文图像中的子图，目标子图为与所述待检测子图相似度大于或等于预设阈值的子图，目标子图对应的论文图像可以与需要检测的论文图像相同，也可以与需要检测的论文图像不同。

其中，特征点为子图中能够表示子图特征的多个像素点，通过匹配目标子图与待检测子图中的像素点，并标记多个像素点的对应关系，能够确定目标子图与待检测子图是否相同；即空间对应关系是否大于等于预设阈值，若大于预设阈值则相同，若小于预设阈值则不相同；且若确定目标子图与待检测子图全部或部分相同，特征点匹配能够进一步确定待检测子图对目标子图做了何种复用；即通过空间对应关系的具体信息进行判断，若对应关系呈发散状则确定待检测子图对目标子图进行了拉伸处理；若对应关系呈交叉状则确定待检测子图对目标子图进行了旋转处理等。

本申请实施例中提供了一种可能的实现方式，S201中通过预设的特征提取模型提取论文图像中待检测子图的子图特征的步骤，可以包括：将输入的论文图像进行缩放，经过子图分割处理得到至少一个待检测子图，将每个待检测子图作为检测“目标”，确定与待检测子图的图像类别对应的特征提取模型，并提取待检测子图的子图特征。

（1）确定论文图像中待检测子图的图像坐标；

其中，待检测子图的图像坐标用于指示图像查重系统：本次检测的“目标”位于论文图像中的具体位置。具体可以包括：将论文图像输入卷积神经网络中，经过卷积层提取子图轮廓，批归一化层统一分散数据，再经过激活层进行加权后，得到能够反映待检测子图的图像坐标。

（2）将论文图像和所确定的图像坐标输入预设的特征提取模型，提取待检测子图的子图特征。

具体的，特征提取模型根据论文图像和图像坐标确定待检测子图，通过图像分类模型得到待检测图像类别，根据图像类别确定对应的特征提取模型，例如：若图像类别为造影图，则确定造影特征提取模型；若图像类别为条带图，则确定条带特征提取模型。

进一步的，（2）中将论文图像和所确定的图像坐标输入预设的特征提取模型的步骤中，特征提取模型的确定方式可以包括：

（2-1）将论文图像和所确定的图像坐标输入到图像分类模型，确定待检测子图的图像类别；

（2-2）从训练好的多个候选特征提取模型中，确定与图像类别对应的特征提取模型。

具体的，图像分类模型通过计算子图置信度，进行预测，并根据预测结果进行分析，得到子图的图像类别。

例如：将输入的论文图像进行缩放，对论文图像全图进行分割，得到若干个单元格，若“目标”的待检测子图的中心点在某一单元格内，则该单元格负责检测待检测子图，并预测边界框及边界框的置信度，置信度包含边界框含有目标的可能性和边界框的准确度，即置信度，根据输出的预测值得到边界框的预测结果，并输出待检测子图的图像类别，生成包含有：待检测子图图像类别、待检测子图在论文图像上的图像坐标、返回及保存提示信息的图像类别检测结果提示。

其中，特征提取模型对应的图像类别可以包括：统计图、条带图、染色图、示意图、造影图、实物图和其他等，七种以上类别的论文子图识别。

通过对论文图像进行分割，得到待检测子图，能够对论文图像进行局部分析，避免在局部复用或替换的情况下识别整张论文图像无法检测复用现象的问题，能够进一步提高图像查重的精确度。进一步的，通过对待检测子图进行图像分类，能够在匹配待检测子图的子图特征对应的目标子图的子图特征时，进一步缩小匹配范围，从而减少匹配数量、缩短匹配时间，实现提高匹配效率的效果；并由于为相同图像类别的子图间进行匹配，能够针对相同图像类别的子图间的细微差别进行辨别，能够进一步提高图像查重系统的准确性。

本申请实施例中提供了一种可能的实现方式，S202中子图检索数据库是通过如下方式构建的：

（1）获取多个样本论文的样本论文图像；

其中，样本论文可以包括已经发表和未经发表的全部历史论文，若某篇论文使用过本图像查重系统（简称“本系统”）进行图像复用检测或论文文字查重，则该片论文将作为样本论文被保存到本系统。

（2）通过特征提取模型提取样本论文图像中样本子图的样本子图特征，并确定每一样本子图特征的子图标识；

其中，子图特征对应的子图标识，为该子图特征唯一对应的标识信息，该标识信息包含子图特征所在的论文图像的标识信息及该子图的图像坐标信息，共同组成该子图的标识信息。

（3）将样本子图特征作为候选子图特征，基于各个候选子图特征和子图标识构建子图检索数据库。

其中，子图检索数据库中存有样本论文的子图特征、子图特征对应的标识信息、图像类别等。需要注意的是，子图检索数据库内不存有具体论文图像。

通过构建子图检索数据库，通过使用子图特征进行匹配，压缩了现有技术中采用图像匹配时需要的空间占用，具备高性能的特点，可将大量数据实时召回并进行匹配处理，并能够支持大量数据的增删改操作和实时查询。并且，由于可以选择在子图检索数据库中储存论文的元数据信息，子图检索数据库可以根据论文元数据信息中的至少一项指标指定检索范围，进一步提升系统效率。其中，论文元数据信息中的指标包括：第一作者姓名、期刊名称、论文领域、发表日期、论文DOII、第一作者所属机构、论文研究领域；其他可供选择的指标包括:图像类别、子图特征、子图标识等。

其中，在S202中基于子图检索数据库检索出多个与所述待检测子图的子图特征相匹配的目标子图的步骤时，可以包括：

（1）从所述子图检索数据库检索出多个与所述待检测子图的子图特征相匹配的目标子图特征；

（2）确定目标子图特征对应的子图标识；

其中，由于子图检索数据库中不存有具体论文图像，故在确定子图特征后，需要获取对应的子图标识，在图像数据库中查询子图标识对应的目标论文图像中的目标子图。

其中，需要注意的是，在确定目标子图时，是通过计算目标子图和待检测子图的向量间的欧氏距离判断目标子图与待检测子图相似度的，即距离越小则相似度越高；通过设置距离阈值，筛选得到相似度较高的几个候选子图，并根据距离进行排序，得到相似度最大的目标子图。

（3）基于所确定的子图标识从图像数据库中获取对应的目标子图；图像数据库中包括多个样本子图，和各个样本论文图像分别有对应的子图标识。

需要注意的是，在论文匹配过程中，需要对待检测子图和目标子图做出的分析、计算和匹配的环节，都是传输子图标识到某模块，需要处理子图的模块根据待检测子图和目标子图的子图标识在图像数据库中获取对应的子图后进行相关操作，并非将待检测子图和目标子图进行传输。

本申请实施例中提供了一种可能的实现方式，S203中目标子图的特征点是基于如下方式确定的：

（1）将目标图像中每一像素点作为中心像素点，针对中心像素点，将与中心像素点之间的距离小于或等于预设距离内的其他像素点作为周边像素点；

（2）确定每一周边像素点的像素值与中心像素点的像素值之间的差异；

其中，差异为匹配正确的概率或匹配错误的概率，差异用于判断该中心像素点是否可以作为描绘该图像内容轮廓的特征点。

（3）若连续预设数量的周边像素点对应的差异大于或等于预设阈值，将中心像素点作为特征点。

其中，一张目标图像中至少应该包含一个特征点。并通过特征点连线，判断该待检测子图的复用方式，具体例如：若待检测子图的包含三个特征点A（i1，j1）、B（i2，j2）、C（i3，j3），目标子图包含三个特征点A’（i4，j4）、B’（i5，j5）、C’（i6，j6），若，A与C’匹配、B与B’匹配、C与A’匹配，即特征点连线后有交叉，则待检测子图为目标子图翻转后得到的图像。

在确定待检测子图的复用方式后，本系统会基于预设模板申城检测报告发送至终端，该报告包括：是否检测到图像服用行为、复用匹配成功的特征点的数量、待检测子图、待检测子图的复用方式、待检测子图与目标子图的相似度、论文元数据、待检测子图的图像类别等。

本申请实施例中提供了一种可能的实现方式，S202中基于子图检索数据库检索出多个与所述待检测子图的子图特征相匹配的目标子图之后，还包括：

（1）生成针对待检测子图的目标子图标识；

（2）将待检测子图的目标子图特征和目标子图标识更新至子图检索数据库中。

通过将上传的论文中论文图像进行图像检测，本次的待检测子图，将作为样本子图，供非本账号用户在下一次上传论文进行图像检测时，与下一次第二论文图像中的第二待检测子图进行匹配。从而实现本系统的动态更新，并同时保证本账号用户多次对同一论文查重时不会被判定为图像复用。

以一种可能的实施方式为例，如图3所示，展示了一种图像查重方案的总体流程图：包括特征提取301流程、特征检索302流程及特征点匹配303流程，具体实施方式如下：

用户在终端将需要检测的论文以pdf格式输入进图像查重系统，图像查重系统执行特征提取301流程：图像查重系统检测到论文输入，对pdf格式的论文进行解析，得到论文图像，并对论文图像进行分割得到多张论文图像的待检测子图及待检测子图在论文图像中的坐标，识别待检测子图的图像类别，确定与图像类别对应的特征提取模型，将待检测子图输入预先训练好的特征提取模型，得到以1024维向量表示的子图特征；提取模块将待检测子图的子图特征发送至检索模块，执行特征检索302流程：根据待检测子图所在论文的元数据，及待检测子图图像类别，科研论文检测系统会指定子图检索数据库，需要注意的是，用户也可以直接指定想要查找的具体子图检索数据库；再根据待检测子图的子图特征，以及待检测子图的子图标识在指定子图检索数据库进行目标子图检索，得到相似度最高的目标子图；检索模块将目标子图的子图标识和待检测子图的子图标识发送至匹配模块，执行特征点匹配303流程：分别提取待检测子图和目标子图的特征点，匹配二者的特征点，若特征点匹配成功的数量小于预设阈值，则确定古代检测子图不存在图像复用行为，生成图像检测结果发送至终端；若特征点匹配成功的数量大于预设阈值，则确定待检测子图存在复用行为，并进一步根据特征点匹配结果确定待检测子图的图像复用类型，并生成图像复用检测报告发送至终端；

本申请实施例提供了一种图像查重装置，如图4所示，该图像查重装置40可以包括：提取模块401、检索模块402以及匹配模块403，其中，

提取模块401，用于获取待检测论文的论文图像，通过预设的特征提取模型提取论文图像中待检测子图的子图特征；

检索模块402，用于基于子图检索数据库检索出多个与所述待检测子图的子图特征相匹配的目标子图；

匹配模块403，用于将所述各个目标子图中的特征点与待检测子图的特征点进行匹配，基于获取的匹配连线结果确定待检测子图的查重结果。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本实施例中的图像查重装置通过针对不同图像类别的论文图像的待检测子图分别训练独立的深度学习模型，即特征提取模型，增强了对相同图像类别的多张论文图像之间细微差别的捕捉和辨别能力，提升了图像查重的准确率。通过在匹配目标子图特征时选择通过向量表示的子图特征匹配向量表示的子图特征，能够缩短子图特征匹配所需的时间，提高图像查重的时间性能。通过在确定并匹配子图间的特征点时，能够通过特征点间的空间对应关系，确定待检测子图是否对目标子图进行复用后复用目标子图，并进一步确定进行何种复用。

其中，提取模块401中通过预设的特征提取模型提取论文图像中待检测子图的子图特征，包括：

确定论文图像中待检测子图的图像坐标；

其中，提取模块401中将论文图像和所确定的图像坐标输入预设的特征提取模型，还包括：

其中，检索模块402中包括数据库获取模块，用于构建子图检索数据库，包括：

获取多个样本论文的样本论文图像；

其中，检索模块402中包含的数据库获取模块，基于子图检索数据库检索出多个与所述待检测子图的子图特征相匹配的目标子图的步骤，包括：

确定目标子图特征对应的子图标识；

其中，匹配模块403中包括特征点确定模块，用于确定给目标子图的特征点，包括：

其中，检索模块402中包括更新模块，用于更新子图检索数据库，包括：

生成针对待检测子图的目标子图标识；

本申请实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现图像查重方法的步骤，与现有技术相比可实现：通过针对不同图像类别的论文图像的待检测子图分别训练独立的深度学习模型，即特征提取模型，增强了对相同图像类别的多张论文图像之间细微差别的捕捉和辨别能力，提升了图像查重的准确率。通过在匹配目标子图特征时选择通过向量表示的子图特征匹配向量表示的子图特征，能够缩短子图特征匹配所需的时间，提高图像查重的时间性能。通过在确定并匹配子图间的特征点时，能够通过特征点间的空间对应关系，确定待检测子图是否对目标子图进行复用后复用目标子图，并进一步确定进行何种复用。

在一个可选实施例中提供了一种电子设备，如图5所示，图5所示的电子设备5000包括：处理器5001和存储器5003。其中，处理器5001和存储器5003相连，如通过总线5002相连。可选地，电子设备5000还可以包括收发器5004，收发器5004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器5004不限于一个，该电子设备5000的结构并不构成对本申请实施例的限定。

处理器5001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器5001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线5002可包括一通路，在上述组件之间传送信息。总线5002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线5002可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器5003可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器5003用于存储执行本申请实施例的计算机程序，并由处理器5001来控制执行。处理器5001用于执行存储器5003中存储的计算机程序，以实现前述方法实施例所示的步骤。

其中，电子设备包括但不限于：能应用上述数据处理方法的终端和服务器。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种图像查重方法，其特征在于，包括：

获取待检测论文的论文图像，通过预设的特征提取模型提取所述论文图像中待检测子图的子图特征；

将各个目标子图中的特征点与待检测子图的特征点进行匹配，基于获取的匹配连线结果确定所述待检测子图的查重结果；所述查重结果包括所述待检测子图的复用方式；

所述方法还包括：

根据所述匹配连线结果，确定所述待检测子图的复用方式；

所述通过预设的特征提取模型提取所述论文图像中待检测子图的子图特征，包括：

确定所述论文图像中待检测子图的图像坐标；

将所述论文图像和所确定的图像坐标输入预设的特征提取模型，提取所述待检测子图的子图特征；

所述将所述论文图像和所确定的图像坐标输入预设的特征提取模型，还包括：

将所述论文图像和所确定的图像坐标输入到图像分类模型，确定待检测子图的图像类别；

2.根据权利要求1所述的图像查重方法，其特征在于，所述子图检索数据库是通过如下方式构建的：

获取多个样本论文的样本论文图像；

通过所述特征提取模型提取所述样本论文图像中样本子图的样本子图特征，并确定每一样本子图特征的子图标识；

将所述样本子图特征作为候选子图特征，基于各个候选子图特征和子图标识构建所述子图检索数据库。

3.根据权利要求1所述的图像查重方法，其特征在于，所述基于子图检索数据库检索出多个与所述待检测子图的子图特征相匹配的目标子图，包括：

确定所述目标子图特征对应的子图标识；

基于所确定的子图标识从图像数据库中获取对应的目标子图；所述图像数据库中包括多个样本子图，和各个样本论文图像分别有对应的子图标识。

4.根据权利要求1所述的图像查重方法，其特征在于，所述目标子图的特征点是基于如下方式确定的：

将目标图像中每一像素点作为中心像素点，针对所述中心像素点，将与所述中心像素点之间的距离小于或等于预设距离内的其他像素点作为周边像素点；

确定每一周边像素点的像素值与所述中心像素点的像素值之间的差异；

若连续预设数量的周边像素点对应的差异大于或等于预设阈值，将所述中心像素点作为所述特征点。

5.根据权利要求1所述的图像查重方法，其特征在于，所述基于子图检索数据库检索出多个与所述待检测子图的子图特征相匹配的目标子图之后，还包括：

生成针对待检测子图的目标子图标识；

将所述待检测子图的目标子图特征和所述目标子图标识更新至所述子图检索数据库中。

6.一种图像查重装置，其特征在于，包括：

提取模块，用于获取待检测论文的论文图像，通过预设的特征提取模型提取所述论文图像中待检测子图的子图特征；

匹配模块，用于将各个目标子图中的特征点与待检测子图的特征点进行匹配，基于获取的匹配连线结果确定所述待检测子图的查重结果；所述查重结果包括所述待检测子图的复用方式；

所述装置还包括：

根据所述匹配连线结果，确定所述待检测子图的复用方式；

确定所述论文图像中待检测子图的图像坐标；

7.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-5任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的图像查重方法的步骤。