CN103345466B - 一种基于互联网免费信息的学术论文信息检测方法 - Google Patents

一种基于互联网免费信息的学术论文信息检测方法 Download PDF

Info

Publication number
CN103345466B
CN103345466B CN201310294370.6A CN201310294370A CN103345466B CN 103345466 B CN103345466 B CN 103345466B CN 201310294370 A CN201310294370 A CN 201310294370A CN 103345466 B CN103345466 B CN 103345466B
Authority
CN
China
Prior art keywords
sentence
paper
words
web search
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310294370.6A
Other languages
English (en)
Other versions
CN103345466A (zh
Inventor
唐煜舟
周志俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201310294370.6A priority Critical patent/CN103345466B/zh
Publication of CN103345466A publication Critical patent/CN103345466A/zh
Application granted granted Critical
Publication of CN103345466B publication Critical patent/CN103345466B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于互联网免费信息的学术论文信息检测方法,包括以下步骤:检测网络链接是否正常,若是,则获取待检测论文并保存,若否,则进行网络连接;调用baidu接口,将论文以句子为单位进行网络搜索,并根据阈值判断是否抄袭,若是,则记录抄袭源和原文语句,若否,则调用google接口,将论文以句子为单位进行网络搜索,并根据阈值判断是否抄袭,若是,则记录抄袭源和原文语句,若否,则根据检测结果生成并输出单篇论文查抄报告;完成多篇论文的检测,生成并输出查抄汇总表。与现有技术相比,本发明具有算法简单、费用低、可不依赖检测平台、也不用事先建立庞大的论文数据库,可以允许单机检测、可批量检测等优点。

Description

一种基于互联网免费信息的学术论文信息检测方法
技术领域
本发明涉及一种论文检测方法,尤其是涉及一种基于互联网免费信息的学术论文信息检测方法。
背景技术
学术论文是高校和科研机构衡量学生学术成就的重要依据,一直以来各高校对于学术论文的查抄检验也都很重视,都有一定的要求和规范。对此,国内一直以来进行长期的探索和尝试。例如,中国专利文献公开了一种云检索系统[申请号:201020177813.5],其特征是:用户终端电脑通过网络与数据分类电脑连接,数据分类电脑通过webservice接口连接数据库电脑。还有学术论文检索分析系统[申请号:201220287984.2],通过连接互联网的采集装置,采集不同行业的论文,然后进行比对和检索。
上述方案虽然能够提供检索服务,但是必须依赖拥有一定参考文章的分类数据库,这样只能适用于专业的论文查抄机构,每次检索也必须向查抄机构全额付费。这显然无法满足单个学生或者学校随时进行文章的检索需求。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种算法简单、费用低、可批量检测的基于互联网免费信息的学术论文信息检测方法。
本发明的目的可以通过以下技术方案来实现:
一种基于互联网免费信息的学术论文信息检测方法,包括以下步骤:
1)检测网络链接是否正常,若是,则进行步骤2),若否,则进行网络连接;
2)获取待检测论文并保存;
3)调用baidu接口,将论文以句子为单位进行网络搜索,并根据阈值判断是否抄袭,若是,则记录抄袭源和原文语句,若否,则执行步骤4);
4)调用google接口,将论文以句子为单位进行网络搜索,并根据阈值判断是否抄袭,若是,则记录抄袭源和原文语句,若否,则执行步骤5);
5)根据检测结果生成并输出单篇论文查抄报告;
6)重复步骤3)-5),完成多篇论文的检测,生成并输出查抄汇总表。
进行网络搜索过程中,实时监控网络链接是否正常,若否,则网络搜索停止并输出警报。
所述的根据阈值判断是否抄袭具体为:
将论文的每一句句子按照顺序进行网络搜索,对于句子字数小于或等于38字的,将搜索结果中重复文字与原句进行对比,判断重复文字的比例是否大于设定阈值,若是,则判定该句为抄袭;
对于句子字数大于38字的,将句子的前20个字和后20个字分别进行网络搜索,判断两部分中是否存在重复文字的比例大于设定阈值的情况,若是,则判定该句为抄袭。
所述的设定阈值为80%。
该方法还包括:通过短信平台向用户手机发送单篇论文的检测结果。
与现有技术相比,本发明具有以下优点:
1)利用免费的互联网公开资料,免去了建立大型论文数据库的工作;
2)支持学生和学校利用自己的电脑进行文章检索而不用依赖专门的论文检索机构,也免去了相关费用;
3)既提供单篇检测报告也提供结果汇总表,这样更符合高校批量检测的要求;
4)可不依赖检测平台、也不用事先建立庞大的论文数据库,可以允许单机检测。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,一种基于互联网免费信息的学术论文信息检测方法,获取待检测论文并保存,存入指定的文件夹中,并设定好查抄阈值,执行以下步骤:
步骤401:扫描和读取文件夹中的文件;
步骤402:调用baidu接口,将论文以句子为单位进行网络搜索;
步骤403:进行网络搜索过程中,实时监控网络链接是否正常,若否,则网络搜索停止并输出警报,若是,则执行步骤404;
2)获取待检测论文并保存,存入指定的文件夹中;
步骤404:根据阈值判断是否抄袭,若是,则执行步骤405,若否,则执行步骤406;
步骤405:记录抄袭源和原文语句;
步骤406:调用google接口,将论文以句子为单位进行网络搜索,并根据阈值判断是否抄袭,若是,则执行步骤407;
步骤407:记录抄袭源和原文语句;
步骤408:根据检测结果生成并输出单篇论文查抄报告,如表1所示;
步骤409:完成多篇论文的检测,生成并输出查抄汇总表,如表2所示;
步骤410:根据需要打印输出或通过短信平台向用户手机发送单篇论文的检测结果。
所述的根据阈值判断是否抄袭具体为:
将论文的每一句句子按照顺序进行网络搜索,对于句子字数小于或等于38字的,将搜索结果中重复文字与原句进行对比,判断重复文字的比例是否大于设定阈值(可设定为80%,也可以自行设置和调整),若是,则判定该句为抄袭;
对于句子字数大于38字的,将句子的前20个字和后20个字分别进行网络搜索,判断两部分中是否存在重复文字的比例大于设定阈值的情况,若是,则判定该句为抄袭。
表1
×××毕业论文审查表
表2

Claims (3)

1.一种基于互联网免费信息的学术论文信息检测方法,其特征在于,包括以下步骤:
1)检测网络链接是否正常,若是,则进行步骤2),若否,则进行网络连接;
2)获取待检测论文并保存;
3)调用baidu接口,将论文以句子为单位进行网络搜索,并根据阈值判断是否抄袭,若是,则记录抄袭源和原文语句,若否,则执行步骤4);
4)调用google接口,将论文以句子为单位进行网络搜索,并根据阈值判断是否抄袭,若是,则记录抄袭源和原文语句,若否,则执行步骤5);
5)根据检测结果生成并输出单篇论文查抄报告;
6)重复步骤3)-5),完成多篇论文的检测,生成并输出查抄汇总表;
进行网络搜索过程中,实时监控网络链接是否正常,若否,则网络搜索停止并输出警报;
所述的根据阈值判断是否抄袭具体为:
将论文的每一句句子按照顺序进行网络搜索,对于句子字数小于或等于38字的,将搜索结果中重复文字与原句进行对比,判断重复文字的比例是否大于设定阈值,若是,则判定该句为抄袭;
对于句子字数大于38字的,将句子的前20个字和后20个字分别进行网络搜索,判断两部分中是否存在重复文字的比例大于设定阈值的情况,若是,则判定该句为抄袭。
2.根据权利要求1所述的一种基于互联网免费信息的学术论文信息检测方法,其特征在于,所述的设定阈值为80%。
3.根据权利要求1所述的一种基于互联网免费信息的学术论文信息检测方法,其特征在于,该方法还包括:通过短信平台向用户手机发送单篇论文的检测结果。
CN201310294370.6A 2013-07-12 2013-07-12 一种基于互联网免费信息的学术论文信息检测方法 Expired - Fee Related CN103345466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310294370.6A CN103345466B (zh) 2013-07-12 2013-07-12 一种基于互联网免费信息的学术论文信息检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310294370.6A CN103345466B (zh) 2013-07-12 2013-07-12 一种基于互联网免费信息的学术论文信息检测方法

Publications (2)

Publication Number Publication Date
CN103345466A CN103345466A (zh) 2013-10-09
CN103345466B true CN103345466B (zh) 2016-09-07

Family

ID=49280262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310294370.6A Expired - Fee Related CN103345466B (zh) 2013-07-12 2013-07-12 一种基于互联网免费信息的学术论文信息检测方法

Country Status (1)

Country Link
CN (1) CN103345466B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909535A (zh) * 2015-12-23 2017-06-30 北京国双科技有限公司 相似文本判定方法和装置
CN107038216B (zh) * 2017-03-09 2021-10-26 百度在线网络技术(北京)有限公司 论文查重方法、装置、设备及存储介质
CN107784100A (zh) * 2017-10-26 2018-03-09 苏州赛维新机电检测技术服务有限公司 一种论文检索系统
CN109710834B (zh) * 2018-11-16 2020-01-10 北京字节跳动网络技术有限公司 相似网页检测方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6976170B1 (en) * 2001-10-15 2005-12-13 Kelly Adam V Method for detecting plagiarism
CN101334789A (zh) * 2008-08-04 2008-12-31 福建师范大学 利用搜索引擎鉴定文档抄袭的装置
CN101369279A (zh) * 2008-09-19 2009-02-18 江苏大学 一种基于计算机检索系统的学术论文相似度的检测方法
CN102411564A (zh) * 2011-08-17 2012-04-11 北方工业大学 一种电子作业抄袭检测方法
CN103049467A (zh) * 2011-10-12 2013-04-17 杨纯青 中文数字反抄袭侦测比对系统与方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6976170B1 (en) * 2001-10-15 2005-12-13 Kelly Adam V Method for detecting plagiarism
CN101334789A (zh) * 2008-08-04 2008-12-31 福建师范大学 利用搜索引擎鉴定文档抄袭的装置
CN101369279A (zh) * 2008-09-19 2009-02-18 江苏大学 一种基于计算机检索系统的学术论文相似度的检测方法
CN102411564A (zh) * 2011-08-17 2012-04-11 北方工业大学 一种电子作业抄袭检测方法
CN103049467A (zh) * 2011-10-12 2013-04-17 杨纯青 中文数字反抄袭侦测比对系统与方法

Also Published As

Publication number Publication date
CN103345466A (zh) 2013-10-09

Similar Documents

Publication Publication Date Title
CN109582861A (zh) 一种数据隐私信息检测系统
CN105005594B (zh) 异常微博用户识别方法
CN102054016B (zh) 用于撷取及管理社群智能信息的系统及方法
US8356030B2 (en) Domain-specific sentiment classification
CN108776671A (zh) 一种网络舆情监控系统及方法
US10452725B2 (en) Web page recognizing method and apparatus
CN101751458A (zh) 一种网络舆情监控系统及方法
CN103345466B (zh) 一种基于互联网免费信息的学术论文信息检测方法
CN102567494B (zh) 网站分类方法及装置
BR112014028739B1 (pt) Sistema e método para criar objetos estruturados de evento
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN110263009A (zh) 日志分类规则的生成方法、装置、设备及可读存储介质
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN103902619B (zh) 一种网络舆情监控方法及系统
CN103544307B (zh) 一种不依赖文档库的多搜索引擎自动化对比评测方法
CN105260469B (zh) 一种处理网站地图的方法、装置及设备
CN107766234A (zh) 一种基于移动设备的网页健康度的测评方法、装置及系统
CN102253939A (zh) 一种基于云计算技术的搜索方法及系统
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
CN106445907A (zh) 一种领域词典的生成方法及装置
KR101780377B1 (ko) 뉴스와 sns 데이터로부터 식품 위해 이벤트를 실시간 자동 추출하는 방법 및 이를 위한 시스템
CN112948664A (zh) 一种敏感词自动处理方法和系统
CN108595421A (zh) 一种中文实体关联关系的抽取方法、装置及系统
CN107330076A (zh) 一种网络舆情信息展示系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160907