CN108897781B - 论文图形查重系统 - Google Patents
论文图形查重系统 Download PDFInfo
- Publication number
- CN108897781B CN108897781B CN201810574889.2A CN201810574889A CN108897781B CN 108897781 B CN108897781 B CN 108897781B CN 201810574889 A CN201810574889 A CN 201810574889A CN 108897781 B CN108897781 B CN 108897781B
- Authority
- CN
- China
- Prior art keywords
- area
- similarity
- paper
- target
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 239000000284 extract Substances 0.000 claims description 9
- 230000005484 gravity Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000002441 X-ray diffraction Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了论文图形查重系统,包括:论文数据库;获取模块,其获取论文数据库中每篇论文内包含的图形,提取图形的空白封闭区域,并进一步提取空白封闭区域的边缘轮廓,重复提取操作,获得每张图形对应的区域轮廓,并建立区域轮廓数据库;获取模块还获取目标论文内的目标图形,并使用上述方法提取目标图形的区域轮廓,比对模块,其将目标图形的区域轮廓与所述区域轮廓数据库中的所有区域轮廓进行比对,计算相似度,若相似度高于0.6,则在目标论文中目标图形附近标注相似度。本发明能够较快速地对目标论文的图形进行查重,查重准确率较高。
Description
技术领域
本发明涉及论文查重领域。更具体地说,本发明涉及一种论文图形查重系统。
背景技术
科研工作者在发表论文时,或者学生在撰写毕业论文时,都需要对论文进行重复率检测。目前,对于论文的文字查重,已经存在较多的平台,如Paperpass、万方等。对于论文图片的查重,则少有平台涉及,而图片重复的隐蔽性较高,人工比对工作量大,极易造成漏查。因此,亟需设计一种论文图形查重系统。
发明内容
本发明的一个目的是提供一种论文图形查重系统,其能够较快速地对目标论文的图形进行查重,查重准确率较高。
为了实现根据本发明的这些目的和其它优点,提供了论文图形查重系统,包括:
论文数据库;
获取模块,其获取论文数据库中每篇论文内包含的图形,提取图形的空白封闭区域,并进一步提取空白封闭区域的边缘轮廓,重复提取操作,获得每张图形对应的区域轮廓,并建立区域轮廓数据库;获取模块还获取目标论文内的目标图形,并使用上述方法提取目标图形的区域轮廓,
比对模块,其将目标图形的区域轮廓与所述区域轮廓数据库中的所有区域轮廓进行比对,计算相似度,若相似度高于0.6,则在目标论文中目标图形附近标注相似度;若相似度低于0.6,则依次将目标图形的区域轮廓旋转1~360°,并将每次旋转得到的区域轮廓与所述区域轮廓数据库中的所有区域轮廓进行比对,计算相似度,若相似度高于0.6,则在目标论文中目标图形附近标注相似度和旋转角度;若相似度低于0.6,则依次将目标图形的区域轮廓缩放0.1~10倍,并将每次缩放得到的区域轮廓与所述区域轮廓数据库中的所有区域轮廓进行比对,计算相似度,若相似度高于0.6,则在目标论文中目标图形附近标注相似度、旋转角度和缩放倍数;
其中,计算相似度的方法包括:获得目标图形的区域轮廓与所述区域轮廓数据库中的区域轮廓的重心,将两者叠放,并使重心重合,计算重合面积与所述区域轮廓数据库中的区域轮廓面积的商,即为相似度。
优选的是,所述的论文图形查重系统,还包括:
获取模块首先设定线宽分类值,然后获取图形中线宽大于线宽分类值的线条,若大于线宽分类值的线条为闭合线条,则在闭合线条内部提取空白封闭区域,若大于线宽分类值的线条为非闭合线条,则将线条首尾相连,在相连形成的线条内部提取空白封闭区域。
优选的是,所述的论文图形查重系统,根据目标论文的内容检索,获得相关论文,用相关论文建立论文数据库。
优选的是,所述的论文图形查重系统,对比模块将区域轮廓每次旋转5°,每次缩放0.1倍。
优选的是,所述的论文图形查重系统,在计算相似度之前,首先计算目标图形的区域轮廓和所述区域轮廓数据库中的区域轮廓的面积,若两者面积比大于1.5或小于0.5,则直接确定相似度小于0.6。
优选的是,所述的论文图形查重系统,根据颜色梯度差检测空白封闭区域的边缘,进而提取空白封闭区域的边缘轮廓,得到区域轮廓。
优选的是,所述的论文图形查重系统,还包括:
预处理模块,其用于去除论文数据库内论文或目标论文的摘要、表格和参考文献,所述获取模块提取经预处理模块处理的论文的图形。
优选的是,所述的论文图形查重系统,还包括:
报告生成模块,其用于将比对模块得到的比对结果生成查重报告,查重报告还包括相似图形以及相似图形所在论文的下载链接。
优选的是,所述的论文图形查重系统,还包括:
订单模块,其接收目标论文,并对目标论文进行分析,并生成二维码。
优选的是,所述的论文图形查重系统,比对模块还标记区域轮廓数据库内相似度大于0.6的区域轮廓,并且在后续比对过程中优选比对未标记的区域轮廓。
本发明至少包括以下有益效果:
本发明首先根据目标论文的领域建立论文数据库,然后根据论文建立区域轮廓数据库。在对目标论文进行查重时,首先获取目标论文内的图片,提取图片内的空白封闭区域和边缘轮廓,然后与区域轮廓数据库进行比对。相比于图像区域,空白区域的特征更加明显,更容易获取,加快了查重速度,并且空白区域也能够准确地反应图片的特征,提高了查重准确率。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
本发明提供了论文图形查重系统,包括:
论文数据库;
获取模块,其获取论文数据库中每篇论文内包含的图形,提取图形的空白封闭区域,并进一步提取空白封闭区域的边缘轮廓,重复提取操作,获得每张图形对应的区域轮廓,并建立区域轮廓数据库;获取模块还获取目标论文内的目标图形,并使用上述方法提取目标图形的区域轮廓,
比对模块,其将目标图形的区域轮廓与所述区域轮廓数据库中的所有区域轮廓进行比对,计算相似度,若相似度高于0.6,则在目标论文中目标图形附近标注相似度;若相似度低于0.6,则依次将目标图形的区域轮廓旋转1~360°,并将每次旋转得到的区域轮廓与所述区域轮廓数据库中的所有区域轮廓进行比对,计算相似度,若相似度高于0.6,则在目标论文中目标图形附近标注相似度和旋转角度;若相似度低于0.6,则依次将目标图形的区域轮廓缩放0.1~10倍,并将每次缩放得到的区域轮廓与所述区域轮廓数据库中的所有区域轮廓进行比对,计算相似度,若相似度高于0.6,则在目标论文中目标图形附近标注相似度、旋转角度和缩放倍数;
其中,计算相似度的方法包括:获得目标图形的区域轮廓与所述区域轮廓数据库中的区域轮廓的重心,将两者叠放,并使重心重合,计算重合面积与所述区域轮廓数据库中的区域轮廓面积的商,即为相似度。
在上述技术方案中,用检索工具对目标论文进行检索,将检索得到的相关论文组成论文数据库。获取模块对论文数据库内的论文进行处理,首先获取每篇论文的图片,提取图片中特征明显的空白封闭区域及其边缘轮廓,并存储为区域轮廓数据库,空白区域可以根据RGB值选取出来,边缘轮廓可以根据常用的边缘检测方法获得。对于待查重的目标论文也采用类似的处理,获得目标图形的区域轮廓。区域轮廓为各种形状,比如X光图形的空白封闭区域通常为检测物体的轮廓。对比模块对目标图形的区域轮廓与区域轮廓数据库进行比对,计算相似度,若相似度存在高于0.6的情况下,则在目标论文的相应区域进行标注,若相似度低于0.6,则对目标图片的区域轮廓进行旋转、缩放操作,每次旋转和缩放操作后均计算相似度,在相似度高于0.6时,则不再继续旋转和缩放,这时在目标论文的相应区域标注相似度,以及相应的操作,在相似度仍低于0.6时,则继续进行旋转、缩放操作,直到达到旋转和缩放的设定范围,1~360°和0.1~10倍。经过旋转和缩放操作,可以避免对进了简易改动的重复行为的漏检。相似度的计算方法如下:首先确定待比对的两个区域轮廓的重心,将两个区域轮廓平移至叠放,并使重心重合,然后计算重合面积与属于区域轮廓数据库中的区域轮廓面积的商。该种相似度的计算方法能够准确地判断区域轮廓的相似度,并且较适应科技论文图片。可以看出,本技术方案以较容易提取的空白封闭区域轮廓为比对特征,相比于其它具体特征,提取速度快,比对速度快。在计算相似度时,首先将比对的区域轮廓的重心重合,使得相似度能够准确代表图片的相似程度,并且经过旋转和缩放操作,能够检查到比较隐蔽的重复现象。
在另一种技术方案中,所述的论文图形查重系统,还包括:
获取模块首先设定线宽分类值,然后获取图形中线宽大于线宽分类值的线条,若大于线宽分类值的线条为闭合线条,则在闭合线条内部提取空白封闭区域,若大于线宽分类值的线条为非闭合线条,则将线条首尾相连,在相连形成的线条内部提取空白封闭区域。这里,科技论文的图形一般具有较粗的轮廓线,在提取空白区域前,首先确定图形核心部分的大致区域,然后在核心部分内提取空白封闭区域,使得提取的空白封闭区域更能反映图片特征,避免其它非核心部分的干扰。线宽分类值根据统计确定,或直接根据经验确定。闭合线条,直接将内部区域作为核心部分,非闭合线条则首尾相连,同样将内部区域作为核心部分。
在另一种技术方案中,所述的论文图形查重系统,根据目标论文的内容检索,获得相关论文,用相关论文建立论文数据库。这里,提供了论文数据库的建立方法,缩小比对范围,减少计算量。
在另一种技术方案中,所述的论文图形查重系统,对比模块将区域轮廓每次旋转5°,每次缩放0.1倍。这里,提供了每次旋转和缩放的优选步长,该优选步长可以避免计算量过大,也可以较大程度避免漏检。
在另一种技术方案中,所述的论文图形查重系统,在计算相似度之前,首先计算目标图形的区域轮廓和所述区域轮廓数据库中的区域轮廓的面积,若两者面积比大于1.5或小于0.5,则直接确定相似度小于0.6。这里,通过面积的直接比对,避免进一步的相似度计算,因为两者面积相差较大时,两者的相似度不可能很高,而直接进行旋转和缩放操作。
在另一种技术方案中,所述的论文图形查重系统,根据颜色梯度差检测空白封闭区域的边缘,进而提取空白封闭区域的边缘轮廓,得到区域轮廓。这里,提供了获得区域轮廓的优选方法,因为空白封闭区域内部与边缘的颜色差距较大,颜色梯度法比较适合本申请,速度快。
在另一种技术方案中,所述的论文图形查重系统,还包括:
预处理模块,其用于去除论文数据库内论文或目标论文的摘要、表格和参考文献,所述获取模块提取经预处理模块处理的论文的图形。这里,预处理模块根据论文特有的特征,对论文中不需要比对的部分进行处理,减小后续提取的计算量。
在另一种技术方案中,所述的论文图形查重系统,还包括:
报告生成模块,其用于将比对模块得到的比对结果生成查重报告,查重报告还包括相似图形以及相似图形所在论文的下载链接。这里,报告生成模块记录比对过程和结果,方便用户修改和查阅。
在另一种技术方案中,所述的论文图形查重系统,还包括:
订单模块,其接收目标论文,并对目标论文进行分析,并生成二维码。这里,对目标论文的字数、页数进行分析,并给出二维码供用户支付,便于本申请的商业运用。
在另一种技术方案中,所述的论文图形查重系统,比对模块还标记区域轮廓数据库内相似度大于0.6的区域轮廓,并且在后续比对过程中优选比对未标记的区域轮廓。这里,已经与一个图形相似的区域轮廓再与另一个图形相似的可能性较小,故而对未有相似图形的区域轮廓进行优先比对,减少计算量。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的实施例。
Claims (8)
1.一种论文图形查重系统,其特征在于,包括:
论文数据库;
获取模块,其获取论文数据库中每篇论文内包含的图形,提取图形的空白封闭区域,并进一步提取空白封闭区域的边缘轮廓,重复提取操作,获得每张图形对应的区域轮廓,并建立区域轮廓数据库;获取模块还获取目标论文内的目标图形,提取目标图形的空白封闭区域,并进一步提取空白封闭区域的边缘轮廓,获得目标图形的区域轮廓;
比对模块,其将目标图形的区域轮廓与所述区域轮廓数据库中的所有区域轮廓进行比对,计算相似度,若相似度高于0.6,则在目标论文中目标图形附近标注相似度;若相似度低于0.6,则依次将目标图形的区域轮廓旋转1~360°,并将每次旋转得到的区域轮廓与所述区域轮廓数据库中的所有区域轮廓进行比对,计算相似度,若相似度高于0.6,则在目标论文中目标图形附近标注相似度和旋转角度;若相似度低于0.6,则依次将目标图形的区域轮廓缩放0.1~10倍,并将每次缩放得到的区域轮廓与所述区域轮廓数据库中的所有区域轮廓进行比对,计算相似度,若相似度高于0.6,则在目标论文中目标图形附近标注相似度、旋转角度和缩放倍数;
其中,计算相似度的方法包括:获得目标图形的区域轮廓与所述区域轮廓数据库中的区域轮廓的重心,将两者叠放,并使重心重合,计算重合面积与所述区域轮廓数据库中的区域轮廓面积的商,即为相似度;
获取模块首先设定线宽分类值,然后获取图形中线宽大于线宽分类值的线条,若大于线宽分类值的线条为闭合线条,则在闭合线条内部提取空白封闭区域,若大于线宽分类值的线条为非闭合线条,则将线条首尾相连,在相连形成的线条内部提取空白封闭区域;
根据颜色梯度差检测空白封闭区域的边缘,进而提取空白封闭区域的边缘轮廓,得到区域轮廓。
2.如权利要求1所述的论文图形查重系统,其特征在于,根据目标论文的内容检索,获得相关论文,用相关论文建立论文数据库。
3.如权利要求1所述的论文图形查重系统,其特征在于,比对模块将区域轮廓每次旋转5°,每次缩放0.1倍。
4.如权利要求1所述的论文图形查重系统,其特征在于,在计算相似度之前,首先计算目标图形的区域轮廓和所述区域轮廓数据库中的区域轮廓的面积,若两者面积比大于1.5或小于0.5,则直接确定相似度小于0.6。
5.如权利要求1所述的论文图形查重系统,其特征在于,还包括:
预处理模块,其用于去除论文数据库内论文或目标论文的摘要、表格和参考文献,所述获取模块提取经预处理模块处理的论文的图形。
6.如权利要求1所述的论文图形查重系统,其特征在于,还包括:
报告生成模块,其用于将比对模块得到的比对结果生成查重报告,查重报告还包括相似图形以及相似图形所在论文的下载链接。
7.如权利要求1所述的论文图形查重系统,其特征在于,还包括:
订单模块,其接收目标论文,并对目标论文进行分析,并生成二维码。
8.如权利要求1所述的论文图形查重系统,其特征在于,比对模块还标记区域轮廓数据库内相似度大于0.6的区域轮廓,并且在后续比对过程中比对未标记的区域轮廓。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810574889.2A CN108897781B (zh) | 2018-06-06 | 2018-06-06 | 论文图形查重系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810574889.2A CN108897781B (zh) | 2018-06-06 | 2018-06-06 | 论文图形查重系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108897781A CN108897781A (zh) | 2018-11-27 |
CN108897781B true CN108897781B (zh) | 2020-01-07 |
Family
ID=64343974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810574889.2A Active CN108897781B (zh) | 2018-06-06 | 2018-06-06 | 论文图形查重系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108897781B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743105B (zh) * | 2021-09-07 | 2022-05-24 | 深圳海域信息技术有限公司 | 一种基于大数据特征识别的文字近似度检索分析方法 |
CN116579934B (zh) * | 2023-04-06 | 2024-04-16 | 湖南师范大学 | 基于边缘检测的刺绣制版处理方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776880A (zh) * | 2016-11-22 | 2017-05-31 | 广东技术师范学院 | 一种基于图文识别的论文重查系统及其方法 |
CN107038216A (zh) * | 2017-03-09 | 2017-08-11 | 百度在线网络技术(北京)有限公司 | 论文查重方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8792728B2 (en) * | 2010-09-27 | 2014-07-29 | Hewlett-Packard Development Company, L.P. | Near-duplicate image detection |
-
2018
- 2018-06-06 CN CN201810574889.2A patent/CN108897781B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776880A (zh) * | 2016-11-22 | 2017-05-31 | 广东技术师范学院 | 一种基于图文识别的论文重查系统及其方法 |
CN107038216A (zh) * | 2017-03-09 | 2017-08-11 | 百度在线网络技术(北京)有限公司 | 论文查重方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108897781A (zh) | 2018-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101576956B (zh) | 基于机器视觉的在线字符检测方法和系统 | |
Dibeklioglu et al. | 3D facial landmarking under expression, pose, and occlusion variations | |
CA2656425A1 (en) | Recognizing text in images | |
Xia et al. | SSIM-NET: Real-time PCB defect detection based on SSIM and MobileNet-V3 | |
CN111507260B (zh) | 一种视频相似度快速检测方法及检测装置 | |
US10699156B2 (en) | Method and a device for image matching | |
CN108897781B (zh) | 论文图形查重系统 | |
CN106897990A (zh) | 轮胎模具的字符缺陷检测方法 | |
CN111553345B (zh) | 基于Mask RCNN与正交线性回归实现仪表指针读数识别处理的方法 | |
CN106372111A (zh) | 局部特征点筛选方法及系统 | |
CN108664970A (zh) | 一种快速目标检测方法、电子设备、存储介质及系统 | |
CN106296587A (zh) | 轮胎模具图像的拼接方法 | |
CN103854278A (zh) | 基于连通区域质心形状上下文的印刷电路板图像配准方法 | |
CN105139508B (zh) | 一种检测纸币的方法及装置 | |
CN112712058A (zh) | 一种字符识别提取方法 | |
CN110825896A (zh) | 一种商标检索系统及检索方法 | |
Ramirez et al. | Automatic recognition of square notation symbols in western plainchant manuscripts | |
CN117422970A (zh) | 基于YOLOv8改进的缺陷PCB检测方法 | |
CN108764343B (zh) | 一种跟踪算法中的跟踪目标框的定位方法 | |
CN107748897B (zh) | 基于模式识别的大尺寸弯曲零件轮廓度质量检测方法 | |
CN110287943B (zh) | 图像的对象识别方法、装置、电子设备及存储介质 | |
CN115564734A (zh) | 一种产品检测方法、电子设备及存储介质 | |
CN104462111A (zh) | 图像检索数据库建立方法 | |
Jundale et al. | Skew detection of Devanagari script using pixels of axes-parallel rectangle and linear regression | |
CN113029220A (zh) | 一种工业仪表盘的状态识别系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Incubator of National University Science Park, No. 38, Dongfang South Road, Wenzhou City, Zhejiang Province Applicant after: Wenzhou Medical University Address before: 325036 No. 82 College West Road, Zhejiang, Wenzhou Applicant before: Wenzhou Medical University |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |