CN101833579A - 一种自动检测学术不端文献的方法及系统 - Google Patents

一种自动检测学术不端文献的方法及系统 Download PDF

Info

Publication number
CN101833579A
CN101833579A CN201010168294A CN201010168294A CN101833579A CN 101833579 A CN101833579 A CN 101833579A CN 201010168294 A CN201010168294 A CN 201010168294A CN 201010168294 A CN201010168294 A CN 201010168294A CN 101833579 A CN101833579 A CN 101833579A
Authority
CN
China
Prior art keywords
document
feature
literature
academic
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201010168294A
Other languages
English (en)
Other versions
CN101833579B (zh
Inventor
张振海
孙雄勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Original Assignee
TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd filed Critical TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co Ltd
Priority to CN2010101682940A priority Critical patent/CN101833579B/zh
Publication of CN101833579A publication Critical patent/CN101833579A/zh
Application granted granted Critical
Publication of CN101833579B publication Critical patent/CN101833579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自动检测学术不端文献的方法及系统,所述方法将待检测文献的层级内容及文献内表格数据创建特征;对所存有的文献层级内容及文献内的表格数据创建特征;将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存有文献的层级内容特征及所存有文献内的表格特征进行匹配;判断待检测文献中是否含有学术不端内容、不端表格数据及不端内容的类型。所述系统包括待检测文献特征区、待检测文献比对资源区、分层内容特征匹配区及不端学术文献及类型判定区。本发明通过分层多阶特征结构,不仅可以对超长文献进行快速检测,而且,也满足了文献最小特征粒度短句的检测,提高了检准率和检全率;而且该发明还支持文献内表格数据特征的创建及匹配全部文献的一次性匹配。

Description

一种自动检测学术不端文献的方法及系统
技术领域
本发明涉及智能信息处理和计算机技术领域,尤其涉及一种自动检测学术不端文献及文献内表格数据的方法及系统。
背景技术
随着网络的快速发展和迅速普及,目前在互联网上发布的电子文本成为当前知识产权保护的一个重点。由于电子文本易于复制和下载,已成为许多人研究、引用的对象,一些电子文本被大版面的复制而被认为抄袭的案例时有发生。而目前网络上的电子文本保护措施主要通过阻止和检测法。
目前,也出现了电子文本内容剽窃的方法,如专利申请号为“200810232309.8一种检测及定位电子文本内容剽窃的方法”与专利申请号为“03134562.X一种利用计算机程序检测电子文本剽窃的方法”该现有专利主要是通过向计算机系统提交被检测文本,提取特征模块生成项序列,然后从项序列中依次取出每个项映射到已知项表上,生成疑似剽窃队列,获取剽窃证据表;最后计算文本的雷同度,判断被检测文本中是否含有剽窃的内容。上述检测过程只是单层特征的检测,不能针对文献内的表格创建特征;其匹配也不是一篇文献针对多篇文献同时进行匹配,只是一篇针对一篇,两篇文献之间的匹配(如图1所示)浪费了匹配的时间;而且对内容也只是检测抄袭的过程。
发明内容
为解决上述中存在的问题与缺陷,本发明提供了一种不仅支持一篇文献针对多篇文献间的一次性匹配,而且还可检测文献内表格数据、判断不端文献抄袭、篡改、一稿多投类型的自动检测学术不端文献的方法及系统。所述技术方案如下:
一种自动检测学术不端文献的方法,包括:
将待检测文献的层级内容及文献内表格数据创建特征;
对所存有的文献层级内容及文献内的表格数据创建特征;
将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存有文献的层级内容特征及所存有文献内的表格特征进行匹配;
判断待检测文献中是否含有学术不端内容、不端表格数据及不端内容的类型。
一种自动检测学术不端文献的系统,包括:
待检测文献特征区,用于对接收到的待检测文献的层级内容及文献内表格数据创建特征;
待检测文献比对资源区,用于对所存有的文献层级内容及文献内的表格数据创建特征;
分层特征匹配区,用于接收待检测文献特征区创建的文献的层级内容特征及文献内的表格数据特征,并将所述待检测文献的层级内容特征和文献内的表格数据特征与待测文献比对资源区所存有的文献的层级内容特征及文献内的表格特征进行匹配;
不端学术文献及类型判定区,用于判断待检测文献中是否含有学术不端内容、不端表格数据及不端学术内容的类型。
本发明提供的技术方案的有益效果是:
通过分层多阶特征结构,不仅可以对超长文献进行快速检测,而且,也满足了文献最小特征粒度短句的检测,提高了检准率和检全率;而且该发明还支持文献内表格数据特征的创建及匹配全部文献的一次性匹配。
附图说明
图1是现有技术文本内容匹配方法结构图;
图2是检测学术不端文献方法流程图;
图3是学术不端文献匹配方法结构图;
图4是文献多层特征生成方法结构图;
图5是文献内表格数据特征生成方法结构图;
图6是检测学术不端文献系统结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述:
实施例1
本实施例提供了一种自动检测学术不端文献的方法如图2所示,该方法包括:
步骤101将待检测文献的层级内容及文献内表格数据创建特征。
步骤102对所存有的文献层级内容及文献内的表格数据创建特征;
上述待检测文献与所存有的文献是指任意文献,对其文献进行分层处理,按照篇章、段落、句子等层级分别创建唯一特征。
步骤103将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存有文献的层级内容特征及所存有文献内的表格特征进行匹配;
首先是进行篇章级别的特征匹配,如果整个篇章级别匹配成功,则不再对其段落级别进行匹配,如果整个篇章级别匹配不成功的话,则继续对其段落级别进行匹配。如果整个段落级别匹配成功,则不再对其句子级别进行匹配;如果整个段落匹配不成功的话,则继续对其句子级别进行匹配,总之,各层如果匹配成功,则不再进行该特征下更小粒度层的匹配。其对待测文献特征与所存有文献特征库的匹配方法如图3所示,待测文献多层特征库中的特征所存有全部文献特征库集成倒排索引中的特征ID进行相匹配,如果匹配成功则判断出所述文献的ID、特征匹配的数量及特征原始文本的长度。
步骤104判定学术不端文献及类型;
不端文献的类型为抄袭与剽窃、或者篡改、或者一稿多投等学术不端文献类型。
如图4所示,为全文特征、章节特征、段落特征及句子特征的生成方法结构图,其中全文特征提取方法、章节特征提取方法是利用关键词词典对全文分词(对表征文献主题内容具有实质意义的词),只保留关键词词典中的词,全部词排序并统计词频,照词频比例排序,得到词序列表,依据该列表生成全文级别的一个特征,或按照词拼写排序得到一个词序列表,依据该列表生成全文级别的一个特征。段落特征生成方法,利用单元词词典对段落分词,(从文献内容中抽出的最基本的、字面上不能再分的词。如“经济、美国、鲁迅”等无定语的词都是单元词,单元词不包括虚词、介词、连词、助词等无实质表征的词汇)只保留单元词词典中的词,并统计频率,按照词频比例排序,依据该列表生成段落级别的一个特征。句子特征生成方法,利用单元词词典对句子分词,(从文献内容中抽出的最基本的、字面上不能再分的代表实质意义的词。如“经济、美国、鲁迅”等无定语的词都是单元词。单元词不包括虚词、介词、连词、助词等无实质表征的词汇)只保留单元词词典中的词,利用同义词词典更新该列表中词,例如“电脑”一词全部替换为“计算机”“ontology”全部替换为“本体”,针对替换之后的列表按照词形排序。依据排序好的列表生成句子级别的一个特征。
如图5所示,文献内表格数据生成方法结构图,首先是根据文献表格内容提取表格的属性信息,特征库根据表格内容中的标题信息、行数据信息、列数据信息、多行组合信息及多列组合信息来提取表格特征的特征。在提取时,其全部表格内容作为文字处理,数字如果有小数点则循环乘10至转化为整数为止。根据表格列数、行数及列数的多少分别组合多行、多列表格,参见表1和表2。
             表1
行数   组合粒度
<9行   不组合,单行为一个特征单位
>8行<20行   2行组合为一个特征单位
>19行   3行组合为一个特征单位
           表2
列数   组合粒度
<9列   不组合,单列为一个特征单位
>8列<20列   2列组合为一个特征单位
>19列   3列组合为一个特征单位
上述检测学术不端的方法适用于任何语言文献,在检测其它语言特征库时,其特征库的生成方法过程与所用词词典内容有所区别。
实施例2
如图6所示,为检测学术不端文献系统结构图,包括待检测文献特征区、待测文献比对资源区、分层特征匹配区及不端学术文献及类型判定区,其中待测文献特征区,对接收到的待检测文献的层级内容及文献内表格数据创建特征;待测文献比对资源区,用于对所存有的文献层级内容及文献内的表格数据创建特征;要检测的文献来源可以是用户自由指定,实时生成文献多层内容特征加入到文献特征库中;待测文献比对资源区的文献可以是中国学术文献网络出版总库中的文献,也可以来源用户自由指定的文献。分层特征匹配区,用于接收待检测文献特征区创建的文献的层级内容特征及文献内的表格数据特征,并将所述待检测文献的层级内容特征和文献内的表格数据特征与待测文献比对资源区所存有的文献的层级内容特征及文献内的表格特征进行匹配;不端学术文献及类型判定区,用于判断待检测文献中是否含有学术不端内容、不端表格数据及不端学术内容的类型。
所述待检测文献层级内容与所存有文献层级内容创建的特征为唯一特征,其文献层级是按照文献篇幅、段落、句子进行划分,这种分层多阶特征结构,不仅可以满足对超长文献的快速检测,而且也满足了对文献的最小特征粒度的短句。上述文献内表格特征的生成方法是在特征库中通过提取表格的属性信息,即文献的标题信息、行数据信息、列数据信息、多行组合信息及多列组合信息进行提取表格特征。
上述不端学术文献及类型判定区的判断是根据待检测文献与所存有文献中的相似阈值、文献时间属性及文献作者属性,其不端内容的类型包括抄袭与剽窃、篡改及一稿多投。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种自动检测学术不端文献的方法,其特征在于,待检测文献特征与所存全部文献特征同时进行匹配,所述方法具体包括:
将待检测文献的层级内容及文献内表格数据创建特征;
对所存有的文献层级内容及文献内的表格数据创建特征;
将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存有文献的层级内容特征及所存有文献内的表格特征进行匹配;
判断待检测文献中是否含有学术不端内容、不端表格数据及不端内容的类型。
2.根据权利要求1所述的自动检测学术不端文献的方法,其特征在于,所述待检测文献层级内容与所存有文献层级内容创建的特征为唯一特征。
3.根据权利要求1所述的自动检测学术不端文献的方法,其特征在于,所述不端学术文献及类型的判断是根据待检测文献与所存文献中的相似阈值、文献时间属性及文献作者属性,其不端内容的类型包括抄袭与剽窃、篡改及一稿多投。
4.根据权利要求1所述的自动检测学术不端文献的方法,其特征在于,所述待测文献与所存有文献特征间的匹配是进行篇章级别的特征匹配、段落级别的特征匹配及句子级别的特征匹配。
5.根据权利要求1所述的自动检测学术不端文献的方法,其特征在于,所述文献内表格数据特征是通过提取表格的属性信息、表格内容的文字处理及表格的行数和列数进行创建。
6.根据权利要求4所述的自动检测学术不端文献的方法,其特征在于,所述
文献全文篇幅的特征创建,是利用关键词词典对全文分词,保留关键词词典中的词,将全部词排序并统计词频,按照词频比例排序,得到次序列表,依据该列表生成文献全文级别的一个特征;
按照词拼写排序得到一个词序列表,依据该列表生成文献全文级别的一个特征;
段落特征创建,是利用单元词词典对段落分词,只保留单元词词典中的词,并统计频率,按照词频比例排序,依据该列表生成段落级别的一个特征;
所述句子特征创建,是利用单元词词典对句子分词,只保留单元词词典中的词,利用同义词词典更新该列表中词,针对更新之后的列表按照词形排序,依据排序好的列表生成句子级别的一个特征。
7.一种自动检测学术不端文献的系统,其特征在于,包括:
待检测文献特征区,用于对接收到的待检测文献的层级内容及文献内表格数据创建特征;
待检测文献比对资源区,用于对所存有的文献层级内容及文献内的表格数据创建特征;
分层特征匹配区,用于接收待检测文献特征区创建的文献的层级内容特征及文献内的表格数据特征,并将所述待检测文献的层级内容特征和文献内的表格数据特征与待测文献比对资源区所存有的文献的层级内容特征及文献内的表格特征进行匹配;
不端学术文献及类型判定区,用于判断待检测文献中是否含有学术不端内容、不端表格数据及不端学术内容的类型。
8.根据权利要求7所述的自动检测学术不端文献的系统,其特征在于,所述待检测文献层级内容与所存有文献层级创建的特征为唯一特征。
9.根据权利要求7所述的自动检测学术不端文献的系统,其特征在于,所述不端学术文献及类型判定区的判断是根据待检测文献与所存有文献中的相似阈值、文献时间属性及文献作者属性;所述文献内表格数据特征是通过提取表格的属性信息、表格内容的文字处理及表格的行数和列数进行创建;其不端内容的类型包括抄袭与剽窃、篡改及一稿多投。
10.根据权利要求7所述的自动检测学术不端文献的系统,其特征在于,所述文献层级内容是按照文献篇幅、段落、句子进行划分。
CN2010101682940A 2010-05-11 2010-05-11 一种自动检测学术不端文献的方法及系统 Active CN101833579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101682940A CN101833579B (zh) 2010-05-11 2010-05-11 一种自动检测学术不端文献的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101682940A CN101833579B (zh) 2010-05-11 2010-05-11 一种自动检测学术不端文献的方法及系统

Publications (2)

Publication Number Publication Date
CN101833579A true CN101833579A (zh) 2010-09-15
CN101833579B CN101833579B (zh) 2012-09-05

Family

ID=42717648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101682940A Active CN101833579B (zh) 2010-05-11 2010-05-11 一种自动检测学术不端文献的方法及系统

Country Status (1)

Country Link
CN (1) CN101833579B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957864A (zh) * 2010-10-21 2011-01-26 同方知网(北京)技术有限公司 应用于抄袭检测的信息指纹索引方法
CN102156689A (zh) * 2011-03-31 2011-08-17 百度在线网络技术(北京)有限公司 文档检测方法及装置
CN102591976A (zh) * 2012-01-04 2012-07-18 复旦大学 基于句子级别的文本特征提取方法和文档拷贝检测系统
CN102915295A (zh) * 2011-03-31 2013-02-06 百度在线网络技术(北京)有限公司 文档检测方法及装置
CN103093218A (zh) * 2013-01-14 2013-05-08 西南大学 自动识别表格类型的方法及装置
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN108509414A (zh) * 2018-03-09 2018-09-07 黑龙江工程学院 基于排序的抄袭检测文本匹配方法
CN110457438A (zh) * 2019-08-06 2019-11-15 北京如优教育科技有限公司 用于提纲检测的自适应数据库选择系统
CN111381191A (zh) * 2020-05-29 2020-07-07 支付宝(杭州)信息技术有限公司 一种对文本进行同义修改、确定文本创作者的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1492327A (zh) * 2003-09-10 2004-04-28 西安交通大学 一种利用计算机程序检测电子文本剽窃的方法
US20060265594A1 (en) * 2004-03-09 2006-11-23 Bayerische Motoren Werke Documentation of service measures on a motor vehicle
KR100862616B1 (ko) * 2007-04-17 2008-10-09 한국전자통신연구원 인덱스 정보를 이용한 오디오 핑거프린트 검색 시스템 및방법
CN101404037A (zh) * 2008-11-18 2009-04-08 西安交通大学 一种检测及定位电子文本内容剽窃的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1492327A (zh) * 2003-09-10 2004-04-28 西安交通大学 一种利用计算机程序检测电子文本剽窃的方法
US20060265594A1 (en) * 2004-03-09 2006-11-23 Bayerische Motoren Werke Documentation of service measures on a motor vehicle
KR100862616B1 (ko) * 2007-04-17 2008-10-09 한국전자통신연구원 인덱스 정보를 이용한 오디오 핑거프린트 검색 시스템 및방법
CN101404037A (zh) * 2008-11-18 2009-04-08 西安交通大学 一种检测及定位电子文本内容剽窃的方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957864A (zh) * 2010-10-21 2011-01-26 同方知网(北京)技术有限公司 应用于抄袭检测的信息指纹索引方法
CN102156689A (zh) * 2011-03-31 2011-08-17 百度在线网络技术(北京)有限公司 文档检测方法及装置
CN102156689B (zh) * 2011-03-31 2012-11-28 百度在线网络技术(北京)有限公司 文档检测方法及装置
CN102915295A (zh) * 2011-03-31 2013-02-06 百度在线网络技术(北京)有限公司 文档检测方法及装置
CN102591976A (zh) * 2012-01-04 2012-07-18 复旦大学 基于句子级别的文本特征提取方法和文档拷贝检测系统
CN103093218B (zh) * 2013-01-14 2016-04-06 西南大学 自动识别表格类型的方法及装置
CN103093218A (zh) * 2013-01-14 2013-05-08 西南大学 自动识别表格类型的方法及装置
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN103207905B (zh) * 2013-03-28 2015-12-23 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN108509414A (zh) * 2018-03-09 2018-09-07 黑龙江工程学院 基于排序的抄袭检测文本匹配方法
CN108509414B (zh) * 2018-03-09 2021-09-03 黑龙江工程学院 基于排序的抄袭检测文本匹配方法
CN110457438A (zh) * 2019-08-06 2019-11-15 北京如优教育科技有限公司 用于提纲检测的自适应数据库选择系统
CN111381191A (zh) * 2020-05-29 2020-07-07 支付宝(杭州)信息技术有限公司 一种对文本进行同义修改、确定文本创作者的方法
CN111381191B (zh) * 2020-05-29 2020-09-01 支付宝(杭州)信息技术有限公司 一种对文本进行同义修改、确定文本创作者的方法

Also Published As

Publication number Publication date
CN101833579B (zh) 2012-09-05

Similar Documents

Publication Publication Date Title
CN101833579B (zh) 一种自动检测学术不端文献的方法及系统
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
Yang Research and realization of internet public opinion analysis based on improved TF-IDF algorithm
Rousseau et al. Main core retention on graph-of-words for single-document keyword extraction
Sykora et al. Emotive ontology: Extracting fine-grained emotions from terse, informal messages
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
Aisopos et al. Content vs. context for sentiment analysis: a comparative analysis over microblogs
Bellaachia et al. Ne-rank: A novel graph-based keyphrase extraction in twitter
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
CN103390051A (zh) 一种基于微博数据的话题发现与追踪方法
CN102279890A (zh) 基于微博的情感词提取收集方法
CN102609427A (zh) 舆情垂直搜索分析系统及方法
CN103186556A (zh) 得到和搜索结构化语义知识的方法及对应装置
Lytvyn et al. Analysis of statistical methods for stable combinations determination of keywords identification
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
Gupta et al. Sentiment analysis on hadoop with hadoop streaming
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
Brönnimann Multilanguage sentiment-analysis of Twitter data on the example of Swiss politicians
Hong et al. Automatic extraction of new words based on Google News corpora for supporting lexicon-based Chinese word segmentation systems
KR20120038575A (ko) 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법
Sweeney et al. Multi-entity sentiment analysis using entity-level feature extraction and word embeddings approach.
Richardson et al. Topic models: A tutorial with R
Gayen et al. Automatic identification of Bengali noun-noun compounds using random forest
Yang et al. Newly-coined words and emoticon polarity for social emotional opinion decision
Bhagavatula et al. Named entity recognition an aid to improve multilingual entity filling in language-independent approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant