CN115205866A - 一种基于区块链的科技论文大数据抄袭检测方法及系统 - Google Patents

一种基于区块链的科技论文大数据抄袭检测方法及系统 Download PDF

Info

Publication number
CN115205866A
CN115205866A CN202211125486.2A CN202211125486A CN115205866A CN 115205866 A CN115205866 A CN 115205866A CN 202211125486 A CN202211125486 A CN 202211125486A CN 115205866 A CN115205866 A CN 115205866A
Authority
CN
China
Prior art keywords
paper
image
detected
similarity
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211125486.2A
Other languages
English (en)
Inventor
于水娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jidaoer Technology Co ltd
Original Assignee
Beijing Jidaoer Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jidaoer Technology Co ltd filed Critical Beijing Jidaoer Technology Co ltd
Priority to CN202211125486.2A priority Critical patent/CN115205866A/zh
Publication of CN115205866A publication Critical patent/CN115205866A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于区块链的科技论文大数据抄袭检测方法及系统,涉及数据处理技术领域。该方法包括:数据上链;获取待检测论文图像;对图表部分进行目标检测;计算基准论文的任意一个图表和待检测论文的任意一个图表之间的相似度,若大于预置的相似度阈值,则认定为疑似抄袭论文图像;反之,则对字符区域部分进行超分辨率重建;计算目标基准论文字符区域图像和目标待检测论文字符区域图像之间的相似度,若大于预置的相似度阈值,则认定为疑似抄袭论文图像。本发明采用多尺度目标检测、基于多特征算子的相似度检测、基于多卷积核的OCR匹配等方法,进行精准的识别检测;结合区块链技术对核心信息进行上链存证,保证数据的真实可靠性。

Description

一种基于区块链的科技论文大数据抄袭检测方法及系统
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种基于区块链的科技论文大数据抄袭检测方法及系统。
背景技术
随着我国科技水平的不断提升,越来越多的科研人员进行了深度的科技研究,也发表了越来越多的科技论文。然而,论文抄袭的情况却屡屡出现,严重损害了科研人员的合法权益。
传统的抄袭检测主要通过人工核查等方式,不仅消耗了巨大的人力资源,而且无法保证较高的精准度。虽然,目前部分科技论文抄袭检测系统已经用到了字符识别、图像比对、目标检测等现代技术,但其仍然无法保持较高的正确率,无法进行精准高效的论文抄袭检测识别。区块链作为近几年新兴的技术,在多个领域发挥了重要的作用,可以为科技论文大数据抄袭检测提供有效的技术支持。因此,如何充分利用区块链技术并深度结合当下的主流信息技术,实现高质量的科技论文大数据抄袭检测成为一个新的问题。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种基于区块链的科技论文大数据抄袭检测方法及系统,采用多尺度目标检测技术、基于多特征算子的相似度检测方法、基于多卷积核的OCR匹配方法等方法,对科技论文图表、文字进行精准的识别检测;同时,结合区块链技术对核心信息进行上链存证,保证数据的真实可靠性。
本发明的实施例是这样实现的:
第一方面,本发明实施例提供一种基于区块链的科技论文大数据抄袭检测方法,包括以下步骤:
获取并将目标用户的科技论文信息上传至区块链中进行存储,上述科技论文信息包括论文完成人身份信息、论文完成时间和科技论文图像;将科技论文图像作为基准论文图像;
获取并将在上述论文完成时间后非目标用户发布的任意一篇论文图像作为待检测论文图像;
利用多尺度目标检测技术分别对基准论文图像和待检测论文图像中的图表部分进行目标检测,以得到基准论文的图表和待检测论文的图表;
利用基于多特征算子的相似度检测方法计算基准论文的任意一个图表和待检测论文的任意一个图表之间的相似度,生成图表相似度结果;
若图表相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则分别对基准论文图像和待检测论文图像的字符区域部分进行超分辨率重建,以得到目标基准论文字符区域图像和目标待检测论文字符区域图像;
利用基于多卷积核的OCR匹配方法计算目标基准论文字符区域图像和目标待检测论文字符区域图像之间的相似度,生成字符相似度结果;
若字符相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则认定对应的待检测论文图像为非抄袭论文图像。
为了解决现有技术中无法进行精准高效的论文抄袭检测识别的技术问题,本发明采用多尺度目标检测技术、基于多特征算子的相似度检测方法、基于多卷积核的OCR匹配方法等方法,对科技论文图表、文字进行精准的识别检测;并结合区块链技术对核心信息进行上链存证,保证数据的真实可靠性。首先,利用多尺度目标检测技术对基准论文和待检测论文中的图表部分进行目标检测,显著地提升了图表区域检测的精准度;然后,利用基于多特征算子的相似度检测方法计算图表之间的相似度,显著地提升了图表间相似度计算的精度。还利用基于多卷积核的OCR匹配方法,将基准论文和待检测论文的字符进行识别比对,显著地提升了字符识别比对的精度。在抄袭检测系统中应用了区块链技术,实现了科技论文相关核心信息的上链存证,显著地提升了检测的可靠性。
基于第一方面,在本发明的一些实施例中,该基于区块链的科技论文大数据抄袭检测方法还包括以下步骤:
获取并根据审查人员的核查结果提取区块链中对应的论文完成人身份信息、论文完成时间和科技论文图像,并生成追责认定信息。
基于第一方面,在本发明的一些实施例中,上述利用基于多特征算子的相似度检测方法计算基准论文的任意一个图表和待检测论文的任意一个图表之间的相似度,生成图表相似度结果的方法包括以下步骤:
利用SIFT特征算子对基准论文的任意一个图表和待检测论文的任意一个图表分别进行表征,并基于表征后的结果利用欧式距离计算对应的基准论文的图表和待检测论文的图表之间的相似度,生成第一图表相似度结果;
利用GIST特征算子对基准论文的任意一个图表和待检测论文的任意一个图表分别进行表征,并基于表征后的结果利用欧式距离计算对应的基准论文的图表和待检测论文的图表之间的相似度,生成第二图表相似度结果;
利用HOG特征算子对基准论文的任意一个图表和待检测论文的任意一个图表分别进行表征,并基于表征后的结果利用欧式距离计算对应的基准论文的图表和待检测论文的图表之间的相似度,生成第三图表相似度结果。
基于第一方面,在本发明的一些实施例中,该基于区块链的科技论文大数据抄袭检测方法还包括以下步骤:
若第一图表相似度结果、第二图表相似度结果和第三图表相似度结果中至少存在一个结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像。
基于第一方面,在本发明的一些实施例中,上述利用基于多卷积核的OCR匹配方法计算目标基准论文字符区域图像和目标待检测论文字符区域图像之间的相似度,生成字符相似度结果的方法包括以下步骤:
利用平滑卷积核对目标基准论文字符区域图像和目标待检测论文字符区域图像分别进行过滤,并对过滤后的目标基准论文字符区域图像和目标待检测论文字符区域图像进行识别,生成并根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度,生成第一字符相似度结果;
利用锐化卷积核对目标基准论文字符区域图像和目标待检测论文字符区域图像分别进行过滤,并对过滤后的目标基准论文字符区域图像和目标待检测论文字符区域图像进行识别,生成并根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度,生成第二字符相似度结果;
利用去噪卷积核对目标基准论文字符区域图像和目标待检测论文字符区域图像分别进行过滤,并对过滤后的目标基准论文字符区域图像和目标待检测论文字符区域图像进行识别,生成并根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度,生成第三字符相似度结果。
基于第一方面,在本发明的一些实施例中,上述根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度的方法包括以下步骤:
将基准字符识别结果中的各个字符和待检测字符识别结果中的各个字符进行匹配,生成匹配结果;
根据匹配结果和预置的匹配比例预置计算基准论文图像和待检测论文图像的字符相似度。
基于第一方面,在本发明的一些实施例中,该基于区块链的科技论文大数据抄袭检测方法还包括以下步骤:
若第一字符相似度结果、第二字符相似度结果和第三字符相似度结果中至少存在一个结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像。
第二方面,本发明实施例提供一种基于区块链的科技论文大数据抄袭检测系统,包括:基准上链模块、待检测获取模块、图表检测模块、图表计算模块、图表判断模块、字符计算模块以及字符判断模块,其中:
基准上链模块,用于获取并将目标用户的科技论文信息上传至区块链中进行存储,上述科技论文信息包括论文完成人身份信息、论文完成时间和科技论文图像;将科技论文图像作为基准论文图像;
待检测获取模块,用于获取并将在上述论文完成时间后非目标用户发布的任意一篇论文图像作为待检测论文图像;
图表检测模块,用于利用多尺度目标检测技术分别对基准论文图像和待检测论文图像中的图表部分进行目标检测,以得到基准论文的图表和待检测论文的图表;
图表计算模块,用于利用基于多特征算子的相似度检测方法计算基准论文的任意一个图表和待检测论文的任意一个图表之间的相似度,生成图表相似度结果;
图表判断模块,用于若图表相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则分别对基准论文图像和待检测论文图像的字符区域部分进行超分辨率重建,以得到目标基准论文字符区域图像和目标待检测论文字符区域图像;
字符计算模块,用于利用基于多卷积核的OCR匹配方法计算目标基准论文字符区域图像和目标待检测论文字符区域图像之间的相似度,生成字符相似度结果;
字符判断模块,用于若字符相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则认定对应的待检测论文图像为非抄袭论文图像。
为了解决现有技术中无法进行精准高效的论文抄袭检测识别的技术问题,本系统通过基准上链模块、待检测获取模块、图表检测模块、图表计算模块、图表判断模块、字符计算模块以及字符判断模块等多个模块的配合,采用多尺度目标检测技术、基于多特征算子的相似度检测方法、基于多卷积核的OCR匹配方法等方法,对科技论文图表、文字进行精准的识别检测;并结合区块链技术对核心信息进行上链存证,保证数据的真实可靠性。首先,利用多尺度目标检测技术对基准论文和待检测论文中的图表部分进行目标检测,显著地提升了图表区域检测的精准度;然后,利用基于多特征算子的相似度检测方法计算图表之间的相似度,显著地提升了图表间相似度计算的精度。还利用基于多卷积核的OCR匹配方法,将基准论文和待检测论文的字符进行识别比对,显著地提升了字符识别比对的精度。在抄袭检测系统中应用了区块链技术,实现了科技论文相关核心信息的上链存证,显著地提升了检测的可靠性。
第三方面,本申请实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器。当一个或多个程序被处理器执行时,实现如上述第一方面中任一项的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
本发明实施例至少具有如下优点或有益效果:
本发明实施例提供一种基于区块链的科技论文大数据抄袭检测方法及系统,解决了现有技术中无法进行精准高效的论文抄袭检测识别的技术问题,本发明采用多尺度目标检测技术、基于多特征算子的相似度检测方法、基于多卷积核的OCR匹配方法等方法,对科技论文图表、文字进行精准的识别检测;并结合区块链技术对核心信息进行上链存证,保证数据的真实可靠性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例一种基于区块链的科技论文大数据抄袭检测方法的流程图;
图2为本发明实施例一种基于区块链的科技论文大数据抄袭检测方法中追责认定的流程图;
图3为本发明实施例一种基于区块链的科技论文大数据抄袭检测方法中字符相似度计算的流程图;
图4为本发明实施例一种基于区块链的科技论文大数据抄袭检测系统的原理框图;
图5为本发明实施例提供的一种电子设备的结构框图。
附图标记说明:100、基准上链模块;200、待检测获取模块;300、图表检测模块;400、图表计算模块;500、图表判断模块;600、字符计算模块;700、字符判断模块;101、存储器;102、处理器;103、通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
实施例:
如图1和图3所示,第一方面,本发明实施例提供一种基于区块链的科技论文大数据抄袭检测方法,包括以下步骤:
S1、获取并将目标用户的科技论文信息上传至区块链中进行存储,上述科技论文信息包括论文完成人身份信息、论文完成时间和科技论文图像;将科技论文图像作为基准论文图像;某一科研人员写完论文之后(例如,张三在XX年XX月XX日写完了论文),直接将论文存成PDF格式或利用扫描设备(手机即可完成)扫描已完成论文,作为基准论文图像;并将论文完成人、论文完成时间、基准论文图像等论文核心信息都记录到区块链系统中,实现核心信息的上链存证,保证数据的安全真实性。
S2、获取并将在上述论文完成时间后非目标用户发布的任意一篇论文图像作为待检测论文图像;
S3、利用多尺度目标检测技术分别对基准论文图像和待检测论文图像中的图表部分进行目标检测,以得到基准论文的图表和待检测论文的图表;
在本发明的一些实施例中,将其它任意一篇论文(其他科研人员在此之后公开的论文)图像作为待检测论文图像;利用多尺度目标检测技术对基准论文和待检测论文中的图表部分进行目标检测。在多个图像尺度下对目标进行检测,如果绝大多数尺度下都能检测到图表,说明图表的检测结果是稳定和可靠的;如果仅在少部分尺度下能检测到图表,说明检测到图表的结果存在偶然性,不认为实际检测到图表;进而筛选得到基准论文的图表和待检测论文的图表。
S4、利用基于多特征算子的相似度检测方法计算基准论文的任意一个图表和待检测论文的任意一个图表之间的相似度,生成图表相似度结果;
进一步地,利用SIFT特征算子对基准论文的任意一个图表和待检测论文的任意一个图表分别进行表征,并基于表征后的结果利用欧式距离计算对应的基准论文的图表和待检测论文的图表之间的相似度,生成第一图表相似度结果;利用GIST特征算子对基准论文的任意一个图表和待检测论文的任意一个图表分别进行表征,并基于表征后的结果利用欧式距离计算对应的基准论文的图表和待检测论文的图表之间的相似度,生成第二图表相似度结果;利用HOG特征算子对基准论文的任意一个图表和待检测论文的任意一个图表分别进行表征,并基于表征后的结果利用欧式距离计算对应的基准论文的图表和待检测论文的图表之间的相似度,生成第三图表相似度结果。若第一图表相似度结果、第二图表相似度结果和第三图表相似度结果中至少存在一个结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像。
S5、若图表相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则分别对基准论文图像和待检测论文图像的字符区域部分进行超分辨率重建,以得到目标基准论文字符区域图像和目标待检测论文字符区域图像;
在本发明的一些实施例中,对于基准论文中的任意一个图表和待检测论文中的任意一个图表,利用基于多特征算子的相似度检测方法计算它们之间的相似度。如果任意一对图表间存在相似度较高的情况,认定有论文抄袭嫌疑;如果任意一对图表间都不存在相似度较高的情况,继续进行下一步,对于基准论文和待检测论文的字符区域(中文字符和英文字符统称为字符)部分,分别进行超分辨率重建。
上述基于多特征算子的相似度计算方法如下(以基准论文中的图表A和对比图像中的图表B为例):
(a)利用SIFT特征算子对基准论文中的图表A和对比图像中的图表B进行表征,并利用欧式距离计算它们之间的相似度;
(b)利用GIST特征算子对基准论文中的图表A和对比图像中的图表B进行表征,并利用欧式距离计算它们之间的相似度;
(c)利用HOG特征算子对基准论文中的图表A和对比图像中的图表B进行表征,并利用欧式距离计算它们之间的相似度;
步骤(a)(b)(c)中有任意一个得到相似度较高的结果,都认为二者相似度较高。
S6、利用基于多卷积核的OCR匹配方法计算目标基准论文字符区域图像和目标待检测论文字符区域图像之间的相似度,生成字符相似度结果;
进一步地,利用平滑卷积核对目标基准论文字符区域图像和目标待检测论文字符区域图像分别进行过滤,并对过滤后的目标基准论文字符区域图像和目标待检测论文字符区域图像进行识别,生成并根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度,生成第一字符相似度结果;利用锐化卷积核对目标基准论文字符区域图像和目标待检测论文字符区域图像分别进行过滤,并对过滤后的目标基准论文字符区域图像和目标待检测论文字符区域图像进行识别,生成并根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度,生成第二字符相似度结果;利用去噪卷积核对目标基准论文字符区域图像和目标待检测论文字符区域图像分别进行过滤,并对过滤后的目标基准论文字符区域图像和目标待检测论文字符区域图像进行识别,生成并根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度,生成第三字符相似度结果。若第一字符相似度结果、第二字符相似度结果和第三字符相似度结果中至少存在一个结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像。
进一步地,如图3所示,包括:
S61、将基准字符识别结果中的各个字符和待检测字符识别结果中的各个字符进行匹配,生成匹配结果;
S62、根据匹配结果和预置的匹配比例预置计算基准论文图像和待检测论文图像的字符相似度。
S7、若字符相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则认定对应的待检测论文图像为非抄袭论文图像。
在本发明的一些实施例中,利用基于多卷积核的 OCR 匹配方法,将基准论文和待检测论文的字符进行识别比对。 如果字符相似度较高,认定存在论文抄袭嫌疑;如果字符相似度较低,认定不存在论文抄袭嫌疑。
上述基于多卷积核的OCR匹配方法如下:
(a)利用平滑卷积核对基准论文和待检测论文的字符区域部分进行过滤,分别得到过滤后的结果并进行识别,计算基准论文和待检测论文的字符相似度;
(b)利用锐化卷积核对基准论文和待检测论文的字符区域部分进行过滤,分别得到过滤后的结果并进行识别,计算基准论文和待检测论文的字符相似度;
(c)利用去噪卷积核对基准论文和待检测论文的字符区域部分进行过滤,分别得到过滤后的结果并进行识别,计算基准论文和待检测论文的字符相似度;
步骤(a)(b)(c)中有任意一个得到相似度较高的结果,都认为二者相似度较高。
为了解决现有技术中无法进行精准高效的论文抄袭检测识别的技术问题,本发明采用多尺度目标检测技术、基于多特征算子的相似度检测方法、基于多卷积核的OCR匹配方法等方法,对科技论文图表、文字进行精准的识别检测;并结合区块链技术对核心信息进行上链存证,保证数据的真实可靠性。首先,利用多尺度目标检测技术对基准论文和待检测论文中的图表部分进行目标检测,显著地提升了图表区域检测的精准度;然后,利用基于多特征算子的相似度检测方法计算图表之间的相似度,显著地提升了图表间相似度计算的精度。还利用基于多卷积核的OCR匹配方法,将基准论文和待检测论文的字符进行识别比对,显著地提升了字符识别比对的精度。在抄袭检测系统中应用了区块链技术,实现了科技论文相关核心信息的上链存证,显著地提升了检测的可靠性。
如图2所示,基于第一方面,在本发明的一些实施例中,该基于区块链的科技论文大数据抄袭检测方法还包括以下步骤:
S8、获取并根据审查人员的核查结果提取区块链中对应的论文完成人身份信息、论文完成时间和科技论文图像,并生成追责认定信息。
若待检测论文被认定存在论文抄袭的嫌疑,再发给专业审查人员进行核查,如果审查人员也认为存在抄袭情况,最终认定为抄袭。认定抄袭之后,则提取区块链中对应的论文完成人身份信息、论文完成时间和科技论文图像,由于基准论文的相关核心信息已经上链存证,链上信息能够证明张三为论文完成人且完成时间在先,可以追究抄袭人的相关责任。基于区块链对数据进行存储,保证了数据的真实性,为追责认定提供了有利的支撑。
利用上述方法,对更多的科技论文之间进行抄袭检验,根据检验结果追究相关人员的责任。
如图4所示,第二方面,本发明实施例提供一种基于区块链的科技论文大数据抄袭检测系统,包括:基准上链模块100、待检测获取模块200、图表检测模块300、图表计算模块400、图表判断模块500、字符计算模块600以及字符判断模块700,其中:
基准上链模块100,用于获取并将目标用户的科技论文信息上传至区块链中进行存储,上述科技论文信息包括论文完成人身份信息、论文完成时间和科技论文图像;将科技论文图像作为基准论文图像;
待检测获取模块200,用于获取并将在上述论文完成时间后非目标用户发布的任意一篇论文图像作为待检测论文图像;
图表检测模块300,用于利用多尺度目标检测技术分别对基准论文图像和待检测论文图像中的图表部分进行目标检测,以得到基准论文的图表和待检测论文的图表;
图表计算模块400,用于利用基于多特征算子的相似度检测方法计算基准论文的任意一个图表和待检测论文的任意一个图表之间的相似度,生成图表相似度结果;
图表判断模块500,用于若图表相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则分别对基准论文图像和待检测论文图像的字符区域部分进行超分辨率重建,以得到目标基准论文字符区域图像和目标待检测论文字符区域图像;
字符计算模块600,用于利用基于多卷积核的OCR匹配方法计算目标基准论文字符区域图像和目标待检测论文字符区域图像之间的相似度,生成字符相似度结果;
字符判断模块700,用于若字符相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则认定对应的待检测论文图像为非抄袭论文图像。
为了解决现有技术中无法进行精准高效的论文抄袭检测识别的技术问题,本系统通过基准上链模块100、待检测获取模块200、图表检测模块300、图表计算模块400、图表判断模块500、字符计算模块600以及字符判断模块700等多个模块的配合,采用多尺度目标检测技术、基于多特征算子的相似度检测方法、基于多卷积核的OCR匹配方法等方法,对科技论文图表、文字进行精准的识别检测;并结合区块链技术对核心信息进行上链存证,保证数据的真实可靠性。首先,利用多尺度目标检测技术对基准论文和待检测论文中的图表部分进行目标检测,显著地提升了图表区域检测的精准度;然后,利用基于多特征算子的相似度检测方法计算图表之间的相似度,显著地提升了图表间相似度计算的精度。还利用基于多卷积核的OCR匹配方法,将基准论文和待检测论文的字符进行识别比对,显著地提升了字符识别比对的精度。在抄袭检测系统中应用了区块链技术,实现了科技论文相关核心信息的上链存证,显著地提升了检测的可靠性。
如图5所示,第三方面,本申请实施例提供一种电子设备,其包括存储器101,用于存储一个或多个程序;处理器102。当一个或多个程序被处理器102执行时,实现如上述第一方面中任一项的方法。
还包括通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请所提供的实施例中,应该理解到,所揭露的方法及系统和方法,也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种基于区块链的科技论文大数据抄袭检测方法,其特征在于,包括以下步骤:
获取并将目标用户的科技论文信息上传至区块链中进行存储,所述科技论文信息包括论文完成人身份信息、论文完成时间和科技论文图像;将科技论文图像作为基准论文图像;
获取并将在上述论文完成时间后非目标用户发布的任意一篇论文图像作为待检测论文图像;
利用多尺度目标检测技术分别对基准论文图像和待检测论文图像中的图表部分进行目标检测,以得到基准论文的图表和待检测论文的图表;
利用基于多特征算子的相似度检测方法计算基准论文的任意一个图表和待检测论文的任意一个图表之间的相似度,生成图表相似度结果;
若图表相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则分别对基准论文图像和待检测论文图像的字符区域部分进行超分辨率重建,以得到目标基准论文字符区域图像和目标待检测论文字符区域图像;
利用基于多卷积核的OCR匹配方法计算目标基准论文字符区域图像和目标待检测论文字符区域图像之间的相似度,生成字符相似度结果;
若字符相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则认定对应的待检测论文图像为非抄袭论文图像。
2.根据权利要求1所述的一种基于区块链的科技论文大数据抄袭检测方法,其特征在于,还包括以下步骤:
获取并根据审查人员的核查结果提取区块链中对应的论文完成人身份信息、论文完成时间和科技论文图像,并生成追责认定信息。
3.根据权利要求1所述的一种基于区块链的科技论文大数据抄袭检测方法,其特征在于,所述利用基于多特征算子的相似度检测方法计算基准论文的任意一个图表和待检测论文的任意一个图表之间的相似度,生成图表相似度结果的方法包括以下步骤:
利用SIFT特征算子对基准论文的任意一个图表和待检测论文的任意一个图表分别进行表征,并基于表征后的结果利用欧式距离计算对应的基准论文的图表和待检测论文的图表之间的相似度,生成第一图表相似度结果;
利用GIST特征算子对基准论文的任意一个图表和待检测论文的任意一个图表分别进行表征,并基于表征后的结果利用欧式距离计算对应的基准论文的图表和待检测论文的图表之间的相似度,生成第二图表相似度结果;
利用HOG特征算子对基准论文的任意一个图表和待检测论文的任意一个图表分别进行表征,并基于表征后的结果利用欧式距离计算对应的基准论文的图表和待检测论文的图表之间的相似度,生成第三图表相似度结果。
4.根据权利要求3所述的一种基于区块链的科技论文大数据抄袭检测方法,其特征在于,还包括以下步骤:
若第一图表相似度结果、第二图表相似度结果和第三图表相似度结果中至少存在一个结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像。
5.根据权利要求1所述的一种基于区块链的科技论文大数据抄袭检测方法,其特征在于,所述利用基于多卷积核的OCR匹配方法计算目标基准论文字符区域图像和目标待检测论文字符区域图像之间的相似度,生成字符相似度结果的方法包括以下步骤:
利用平滑卷积核对目标基准论文字符区域图像和目标待检测论文字符区域图像分别进行过滤,并对过滤后的目标基准论文字符区域图像和目标待检测论文字符区域图像进行识别,生成并根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度,生成第一字符相似度结果;
利用锐化卷积核对目标基准论文字符区域图像和目标待检测论文字符区域图像分别进行过滤,并对过滤后的目标基准论文字符区域图像和目标待检测论文字符区域图像进行识别,生成并根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度,生成第二字符相似度结果;
利用去噪卷积核对目标基准论文字符区域图像和目标待检测论文字符区域图像分别进行过滤,并对过滤后的目标基准论文字符区域图像和目标待检测论文字符区域图像进行识别,生成并根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度,生成第三字符相似度结果。
6.根据权利要求5所述的一种基于区块链的科技论文大数据抄袭检测方法,其特征在于,所述根据基准字符识别结果和待检测字符识别结果计算基准论文图像和待检测论文图像的字符相似度的方法包括以下步骤:
将基准字符识别结果中的各个字符和待检测字符识别结果中的各个字符进行匹配,生成匹配结果;
根据匹配结果和预置的匹配比例预置计算基准论文图像和待检测论文图像的字符相似度。
7.根据权利要求5所述的一种基于区块链的科技论文大数据抄袭检测方法,其特征在于,还包括以下步骤:
若第一字符相似度结果、第二字符相似度结果和第三字符相似度结果中至少存在一个结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像。
8.一种基于区块链的科技论文大数据抄袭检测系统,其特征在于,包括:基准上链模块、待检测获取模块、图表检测模块、图表计算模块、图表判断模块、字符计算模块以及字符判断模块,其中:
基准上链模块,用于获取并将目标用户的科技论文信息上传至区块链中进行存储,所述科技论文信息包括论文完成人身份信息、论文完成时间和科技论文图像;将科技论文图像作为基准论文图像;
待检测获取模块,用于获取并将在上述论文完成时间后非目标用户发布的任意一篇论文图像作为待检测论文图像;
图表检测模块,用于利用多尺度目标检测技术分别对基准论文图像和待检测论文图像中的图表部分进行目标检测,以得到基准论文的图表和待检测论文的图表;
图表计算模块,用于利用基于多特征算子的相似度检测方法计算基准论文的任意一个图表和待检测论文的任意一个图表之间的相似度,生成图表相似度结果;
图表判断模块,用于若图表相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则分别对基准论文图像和待检测论文图像的字符区域部分进行超分辨率重建,以得到目标基准论文字符区域图像和目标待检测论文字符区域图像;
字符计算模块,用于利用基于多卷积核的OCR匹配方法计算目标基准论文字符区域图像和目标待检测论文字符区域图像之间的相似度,生成字符相似度结果;
字符判断模块,用于若字符相似度结果大于预置的相似度阈值,则认定对应的待检测论文图像为疑似抄袭论文图像,并将疑似抄袭论文图像发送给对应的审查人员进行核查;反之,则认定对应的待检测论文图像为非抄袭论文图像。
9.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202211125486.2A 2022-09-16 2022-09-16 一种基于区块链的科技论文大数据抄袭检测方法及系统 Pending CN115205866A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211125486.2A CN115205866A (zh) 2022-09-16 2022-09-16 一种基于区块链的科技论文大数据抄袭检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211125486.2A CN115205866A (zh) 2022-09-16 2022-09-16 一种基于区块链的科技论文大数据抄袭检测方法及系统

Publications (1)

Publication Number Publication Date
CN115205866A true CN115205866A (zh) 2022-10-18

Family

ID=83572005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211125486.2A Pending CN115205866A (zh) 2022-09-16 2022-09-16 一种基于区块链的科技论文大数据抄袭检测方法及系统

Country Status (1)

Country Link
CN (1) CN115205866A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392938A (zh) * 2022-10-26 2022-11-25 北京吉道尔科技有限公司 一种基于区块链的电商平台仿冒商品大数据识别方法
CN117421428A (zh) * 2023-10-31 2024-01-19 中国人民解放军海军大连舰艇学院 基于完整期刊库的论文发表诚信评估分析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199950A (zh) * 2014-09-12 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于图像相似度快速匹配的学术论文搜索方法
CN114444564A (zh) * 2021-12-14 2022-05-06 广州锐竞信息科技有限责任公司 一种基于深度神经网络模型的高相似度论文图片比对方法
CN114463567A (zh) * 2022-04-12 2022-05-10 北京吉道尔科技有限公司 一种基于区块链的智慧教育作业大数据防抄袭方法与系统
CN114913534A (zh) * 2022-07-19 2022-08-16 北京嘉沐安科技有限公司 基于区块链的网络安全异常图像大数据检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199950A (zh) * 2014-09-12 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于图像相似度快速匹配的学术论文搜索方法
CN114444564A (zh) * 2021-12-14 2022-05-06 广州锐竞信息科技有限责任公司 一种基于深度神经网络模型的高相似度论文图片比对方法
CN114463567A (zh) * 2022-04-12 2022-05-10 北京吉道尔科技有限公司 一种基于区块链的智慧教育作业大数据防抄袭方法与系统
CN114913534A (zh) * 2022-07-19 2022-08-16 北京嘉沐安科技有限公司 基于区块链的网络安全异常图像大数据检测方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392938A (zh) * 2022-10-26 2022-11-25 北京吉道尔科技有限公司 一种基于区块链的电商平台仿冒商品大数据识别方法
CN115392938B (zh) * 2022-10-26 2023-06-02 重庆央链数据科技有限公司 一种基于区块链的电商平台仿冒商品大数据识别方法
CN117421428A (zh) * 2023-10-31 2024-01-19 中国人民解放军海军大连舰艇学院 基于完整期刊库的论文发表诚信评估分析方法及系统
CN117421428B (zh) * 2023-10-31 2024-05-17 中国人民解放军海军大连舰艇学院 基于完整期刊库的论文发表诚信评估分析方法及系统

Similar Documents

Publication Publication Date Title
CN109886928B (zh) 一种目标细胞标记方法、装置、存储介质及终端设备
CN107122806B (zh) 一种敏感图像识别方法及装置
CN115205866A (zh) 一种基于区块链的科技论文大数据抄袭检测方法及系统
US9111183B2 (en) Performing a comparison between two images which are scaled to a common resolution
CA3018437C (en) Optical character recognition utilizing hashed templates
CN111583180B (zh) 一种图像的篡改识别方法、装置、计算机设备及存储介质
CN112036295B (zh) 票据图像处理方法、装置、存储介质及电子设备
CN110634223A (zh) 票据校验方法及装置
CN115223022A (zh) 一种图像处理方法、装置、存储介质及设备
CN114785616A (zh) 数据风险检测方法、装置、计算机设备及存储介质
Sharma et al. Piece-wise linearity based method for text frame classification in video
CN111178347B (zh) 证件图像的模糊度检测方法、装置、设备及存储介质
CN113313217A (zh) 一种基于鲁棒性模板的倾角文字精准识别方法及系统
WO2017069741A1 (en) Digitized document classification
CN115114588B (zh) 基于区块链的智慧教育学术成果讨论防剽窃方法及系统
CN109409091B (zh) 检测Web页面的方法、装置、设备以及计算机存储介质
CN114491134B (zh) 一种商标注册成功率分析方法及系统
CN114612919B (zh) 一种票据信息处理系统及方法、装置
Vorozhtsova et al. System approach to development of intellectual information mobile system for electric power metering
CN115830598A (zh) 一种用于标准设备的溯源确认方法、系统、设备及介质
CN111753723B (zh) 一种基于密度校准的指纹识别方法及装置
CN115392938A (zh) 一种基于区块链的电商平台仿冒商品大数据识别方法
CN114943695A (zh) 医学序列影像的异常检测方法、装置、设备及存储介质
CN113807256A (zh) 票据数据处理方法、装置、电子设备和存储介质
CA3021043C (en) Identification of duplicate copies of a form in a document

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221018

RJ01 Rejection of invention patent application after publication