CN117421428B - 基于完整期刊库的论文发表诚信评估分析方法及系统 - Google Patents
基于完整期刊库的论文发表诚信评估分析方法及系统 Download PDFInfo
- Publication number
- CN117421428B CN117421428B CN202311430222.2A CN202311430222A CN117421428B CN 117421428 B CN117421428 B CN 117421428B CN 202311430222 A CN202311430222 A CN 202311430222A CN 117421428 B CN117421428 B CN 117421428B
- Authority
- CN
- China
- Prior art keywords
- journal
- data
- paper
- evaluation
- integrity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 10
- 238000011156 evaluation Methods 0.000 claims abstract description 157
- 230000006399 behavior Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 21
- 230000010076 replication Effects 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000012790 confirmation Methods 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/381—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using identifiers, e.g. barcodes, RFIDs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供一种基于完整期刊库的论文发表诚信评估分析方法及系统,基于完整期刊数据总库构建了用于期刊论文的诚信评估逻辑策略,并基于诚信评估逻辑策略对已经发表的待诚信评估的期刊论文进行诚信评估,确认待诚信评估的论文载体期刊的真假、论文是否为剽窃等诚信度,实现待诚信评估期刊的作者发表论文行为的诚信度;本发明有效解决了由于真假期刊数据数量巨大,而不能有效进行论文发表的真假诚信评估问题。
Description
技术领域
本发明涉及论文发表诚信评估技术领域,尤其涉及一种基于完整期刊库的论文发表诚信评估分析方法及系统。
背景技术
学术诚信是社会发展和创新的根基,但造假、剽窃等学诚信问题长期不能杜绝,假论文大量充斥在学术评价中,人工鉴别难度大,目前国内没有专门的检测软件。
以知网、维普、万方、龙源等为代表的期刊数据公司,其产品主要功能是为使用者提供过往的文献阅读,个别具有为期刊编辑部提供来稿的复制比检测功能。学术业绩竞争激烈、非法期刊暗流涌动的环境下,在普通高校学生、中小学教师、全国医院的医务人员、企事业单位的技术人员等庞大的群体里,年发表非法期刊数据数量特别巨大,假刊、假论文的数量远远高于真刊真论文。国内专家学者以及各群体的学术管理部门、人力资源管理部门都知悉现状,但人工认定的难度大,掌握鉴定技能的人员少。基于完整期刊数据总库的条件下,亟需一种基于完整期刊库的论文发表诚信评估逻辑的制定方法,来有效解决由于期刊数据数量巨大,不能有效进行论文发表诚信的评估问题。
发明内容
本发明提供一种基于完整期刊库的论文发表诚信评估分析方法及系统,以克服上述技术问题。
一种基于完整期刊库的论文发表诚信评估分析方法,包括以下步骤:
S1:根据知网已有的期刊数据建立初始期刊数据库;并从所述初始期刊数据库中获取期刊数据的关键信息;
所述期刊数据的关键信息至少包括期刊刊名与期刊论文数据;所述期刊论文数据包括期刊论文篇名、作者姓名以及期刊论文全文;
S2:根据所述期刊数据的关键信息,将所述期刊数据中各已发表论文建立期刊文献数据集;对所述期刊文献数据集中的期刊数据进行全文遍历,并对全文遍历后的期刊数据进行文本分类,获取期刊分类数据集;
采用向量化形式对所述期刊分类数据集中的已发表论文进行规范化处理,获取优化期刊文献数据集;
并根据所述优化期刊文献数据集构建完整期刊数据总库;
S3:对待诚信评估的期刊数据进行全文遍历,并对遍历后的所述待诚信评估的期刊数据进行文本字符编码,获取待诚信评估数据;
所述待诚信评估数据包括期刊刊名、期刊论文篇名、期刊论文作者以及对应的期刊论文数据;
S4:根据所述完整期刊数据总库,基于诚信评估逻辑策略对所述待诚信评估信息进行诚信评估,确认待诚信评估期刊的作者发表论文行为的诚信度。
进一步的,S4中所述诚信评估逻辑策略具体为:
S41:将所述待诚信评估数据传输至所述完整期刊数据总库,并基于所述完整期刊数据总库检索匹配对应所述待诚信评估数据中的期刊刊名;并判断所述完整期刊数据总库中是否存在对应所述待诚信评估数据中的期刊刊名;
若确认所述完整期刊数据总库存在对应所述待诚信评估数据中的期刊刊名,则执行S42;
若确认所述完整期刊数据总库不存在对应所述待诚信评估数据中的期刊刊名,则执行S43;
S42:基于所述完整期刊数据总库检索匹配对应所述待诚信评估数据中的期刊论文篇名;并判断所述完整期刊数据总库中是否存在对应所述待诚信评估数据中的期刊论文篇名;
若确认所述完整期刊数据总库存在对应所述待诚信评估数据中的期刊论文篇名,则执行S44;
若确认所述完整期刊数据总库不存在对应所述待诚信评估数据中的期刊论文篇名,则执行S43;
S43:基于所述完整期刊数据总库检索匹配对应所述待诚信评估数据中的期刊论文数据;并判断期刊论文数据与所述完整期刊数据总库的文字复制比率;
若所述判断期刊论文数据相对于所述完整期刊数据总库的文字复制比率大于预设文字复制比率阈值,则确认待诚信评估的期刊数据的评估结果为疑似剽窃;
若所述判断期刊论文数据相对于所述完整期刊数据总库的文字复制比率小于等于预设文字复制比率阈值,则确认待诚信评估的期刊数据的评估结果为未录入所述完整期刊数据总库的非正常发表的疑似假期刊载文;
S44:基于所述完整期刊数据总库检索匹配对应所述待诚信评估数据中的期刊论文篇名;并判断所述完整期刊数据总库中是否存在对应所述待诚信评估数据中的期刊论文作者;
若确认所述完整期刊数据总库存在对应所述待诚信评估数据中的期刊论文作者,则确认待诚信评估的期刊数据的评估结果为正常发表;
若确认所述完整期刊数据总库不存在对应所述待诚信评估数据中的期刊论文作者,则确认待诚信评估的期刊数据的评估结果为疑似剽窃。
进一步的,S2中采用向量化形式对所述期刊文献数据集中的已发表论文进行规范化处理,获取优化期刊文献数据集;具体为
根据所述期刊文献数据集中已发表的论文进行各论文字符编码,获取编码数据向量信息;且所述编码数据向量信息至少包括期刊刊名、期刊论文篇名、期刊论文作者以及期刊论文文本;
并根据所述编码数据向量信息设置期刊文献字符链接,所述期刊文献字符链接包括对应编码数据向量信息的期刊刊名字符链接、期刊论文篇名字符链接、期刊论文作者字符链接以及期刊论文字符链接;
并根据所述编码数据向量信息与期刊文献字符链接获取优化期刊文献数据集。
一种基于完整期刊库的论文发表诚信评估分析方法的系统,包括期刊信息输入模块、期刊对比检测模块、期刊索引模块、期刊编录模块以及期刊诚信评估模块;
所述期刊索引模块用于对所述待诚信评估的期刊数据全文遍历,并将全文遍历后的所述待诚信评估的期刊数据传输至所述期刊编录模块;
所述期刊编录模块用于对全文遍历后的所述待诚信评估的期刊数据进行文本分类提取,获取待诚信评估数据,并将所述待诚信评估数据传输至所述期刊信息输入模块;
所述待诚信评估数据包括期刊刊名、期刊论文篇名、期刊论文作者以及对应的期刊论文数据;
所述期刊对比检测模块用于将待诚信评估数据与期刊文献总库中的期刊数据的关键信息进行对比,并将比对结果发送至期刊诚信评估模块;
所述期刊信息输入模块用于将所述待诚信评估数据传输至所述期刊诚信评估模块;且所述期刊诚信评估模块用于调用所述期刊对比检测模块,并基于诚信评估逻辑策略对所述待诚信评估信息进行诚信评估,确认待诚信评估期刊的作者发表论文行为的诚信度。
进一步的,还包括可视化辅助确认模块,所述可视化辅助确认模块用于识别显示所述期刊信息输入模块输入的当前所述待诚信评估数据的期刊刊名、期刊论文篇名以及期刊论文作者的信息是否正确;
若确认当前所述待诚信评估数据的期刊刊名、期刊论文篇名以及期刊论文作者的信息至少有一项信息识别有误,则对识别有误的信息进行人工重新输入正确信息纠错;
并将纠错后的当前所述待诚信评估数据的期刊刊名、期刊论文篇名以及期刊论文作者的信息传输至期刊诚信评估模块;
若确认当前所述待诚信评估数据的期刊刊名、期刊论文篇名以及期刊论文作者的信息识别正确,则将当前所述待诚信评估数据的期刊刊名、期刊论文篇名以及期刊论文作者的信息传输至期刊诚信评估模块。
本发明公开了一种基于完整期刊库的论文发表诚信评估分析方法及系统,基于完整期刊数据总库,并基于诚信评估逻辑策略对所述待诚信评估信息进行诚信评估,确认待诚信评估的期刊的诚信度,有效解决了由于期刊数据数量巨大,不能有效进行论文发表诚信的评估问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于完整期刊库的论文发表诚信评估分析方法的流程图;
图2为本发明基于完整期刊库的论文发表诚信评估逻辑流程图;
图3为图2中不考虑期刊论文原文的诚信评估逻辑流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了实现上述目的,本发明的技术方案是:
一种基于完整期刊库的论文发表诚信评估分析方法,如图1所示,包括以下步骤:
S1:根据知网已有的期刊数据建立初始期刊数据库;并从所述初始期刊数据库中获取期刊数据的关键信息;
所述期刊数据的关键信息至少包括期刊刊名与期刊论文数据;所述期刊论文数据包括期刊论文篇名、作者姓名以及期刊论文全文;
S2:根据所述期刊数据的关键信息,将所述期刊数据中各已发表论文建立期刊文献数据集;对所述期刊文献数据集中的期刊数据进行全文遍历,并对全文遍历后的期刊数据进行文本分类,获取期刊分类数据集;
具体地,文本分类的实现方式为获取期刊数据的特征词,并基于图神经网络技术,根据期刊文献数据集中的所有待分类期刊数据的文本与对应期刊数据的特征词获取图邻接矩阵;且所述图邻接矩阵包括用于表征所述待分类期刊数据的文本节点与用于表征所述期刊数据的特征词的词节点;并将所述图邻接矩阵输入至预设的图神经网络模型,获得每个所述待分类期刊数据的图隐含向量;根据所述图隐含向量与预先获得的待分类文本的语义向量,对所述期刊文献数据集中的所有待分类期刊数据的文本进行类别预测,获得各待分类期刊数据的文本的分类结果;其中,所述语义向量是利用预训练的BERT模型对所述待分类期刊数据的文本进行编码得到。
采用向量化形式对所述期刊分类数据集中的已发表论文进行规范化处理,获取优化期刊文献数据集;
并根据所述优化期刊文献数据集构建完整期刊数据总库;
S3:对待诚信评估的期刊数据进行全文遍历,并对遍历后的所述待诚信评估的期刊数据进行文本字符编码,获取待诚信评估数据;
所述待诚信评估数据包括期刊刊名、期刊论文篇名、期刊论文作者以及对应的期刊论文数据;且所述的对应的期刊论文数据即为期刊论文的正文文字数据;
具体地,所述文本字符编码的方式为通过处理器按照设定的划分方式,对待诚信评估的期刊数据中的待编码字符串进行划分,获得待编码字符序列,所述字符序列包括期刊刊名字符序列、期刊论文篇名字符序列、期刊论文作者字符序列以及对应的期刊论文字符序列;通过设定的编码器对所述待编码字符序列进行编码并存储至预设的字符编码数据集中,且所述字符编码数据集包括期刊刊名编码数据、期刊论文篇名编码数据、期刊论文作者编码数据以及对应的期刊论文编码数据;例如URI根据RFC3986标准规定,可以将URI分段编码。根据RFC3986规定,一个典型的URI结构如下,由协议、主机名、域名、默认端口号、资源路径等组成,顺序与结构均为固定。以上述URI网址https://www.jd.com为例,可依照RFC3986标准划分为“https://”、“www”、“j”、“d”和“.com”字符序列,从而便于对字符串字符序列进行编码并存储;
S4:根据所述完整期刊数据总库,基于诚信评估逻辑策略对所述待诚信评估信息进行诚信评估,确认待诚信评估期刊的作者发表论文行为的诚信度。
本发明基于完整期刊数据总库,构建了用于期刊论文的诚信评估逻辑策略,并基于诚信评估逻辑策略对待诚信评估信息进行诚信评估,确认待诚信评估期刊的作者发表论文行为的诚信度,有效解决由于期刊数据数量巨大,而不能有效进行论文发表的真假诚信评估问题。
在具体实施例中,S4中所述诚信评估逻辑策略具体为:
S41:将所述待诚信评估数据传输至所述完整期刊数据总库,并基于所述完整期刊数据总库检索匹配对应所述待诚信评估数据中的期刊刊名;并判断所述完整期刊数据总库中是否存在对应所述待诚信评估数据中的期刊刊名;
若确认所述完整期刊数据总库存在对应所述待诚信评估数据中的期刊刊名,则执行S42;
若确认所述完整期刊数据总库不存在对应所述待诚信评估数据中的期刊刊名,则执行S43;
S42:基于所述完整期刊数据总库检索匹配对应所述待诚信评估数据中的期刊论文篇名;并判断所述完整期刊数据总库中是否存在对应所述待诚信评估数据中的期刊论文篇名;
若确认所述完整期刊数据总库存在对应所述待诚信评估数据中的期刊论文篇名,则执行S44;
若确认所述完整期刊数据总库不存在对应所述待诚信评估数据中的期刊论文篇名,则执行S43;
S43:基于所述完整期刊数据总库检索匹配对应所述待诚信评估数据中的期刊论文数据;并判断期刊论文数据与所述完整期刊数据总库的文字复制比率;
若所述判断期刊论文数据相对于所述完整期刊数据总库的文字复制比率于预设文字复制比率阈值,且所述预设文字复制比率阈值具体为40%,则确认待诚信评估的期刊数据的评估结果为疑似剽窃;
若所述判断期刊论文数据相对于所述完整期刊数据总库的文字复制大于预设文字复制比率阈值,则确认待诚信评估的期刊数据的评估结果为未录入所述完整期刊数据总库的非正常发表的疑似假期刊数据;即得出的结论是无该论文;
S44:基于所述完整期刊数据总库检索匹配对应所述待诚信评估数据中的期刊论文篇名;并判断所述完整期刊数据总库中是否存在对应所述待诚信评估数据中的期刊论文作者;
若确认所述完整期刊数据总库存在对应所述待诚信评估数据中的期刊论文作者,则确认待诚信评估的期刊数据的评估结果为正常发表;
若确认所述完整期刊数据总库不存在对应所述待诚信评估数据中的期刊论文作者,则确认待诚信评估的期刊数据的评估结果为疑似剽窃。
在具体实施例中,S2中采用向量化形式对所述期刊文献数据集中的已发表论文进行规范化处理,获取优化期刊文献数据集;具体为
根据所述期刊文献数据集中已发表的论文进行字符串编码,获取编码数据向量信息;且所述编码数据向量信息至少包括期刊刊名、期刊论文篇名、期刊论文作者以及期刊论文文本;
并根据所述编码数据向量信息设置期刊文献字符链接,所述期刊文献字符链接包括对应编码数据向量信息的期刊刊名字符链接、期刊论文篇名字符链接、期刊论文作者字符链接以及期刊论文字符链接;
并根据所述编码数据向量信息与期刊文献字符链接获取优化期刊文献数据集。
具体地,将期刊文献数据集中的各期刊文献,对采用向量形式化对已发表的论文进行字符串编码记作编码数据向量A,且所述编码数据向量A=(a,b,c,d,e,f,g,h);其中,a表示期刊文献的标题;b表示期刊文献的作者信息;c表示期刊文献的作者英文说明信息或身份证信息;d表示期刊文献的机构信息;e表示期刊文献的关键词;f表示期刊文献的摘要;g表示期刊文献的发表时间;h表示期刊文献的来源期刊;
一种基于完整期刊库的论文发表诚信评估分析方法的系统,包括期刊信息输入模块、期刊对比检测模块、期刊索引模块、期刊编录模块以及期刊诚信评估模块;
所述期刊索引模块用于对所述待诚信评估的期刊数据全文遍历,并将全文遍历后的所述待诚信评估的期刊数据传输至所述期刊编录模块;
所述期刊编录模块用于对全文遍历后的所述待诚信评估的期刊数据进行文本分类提取,获取待诚信评估数据,并将所述待诚信评估数据传输至所述期刊信息输入模块;
所述待诚信评估数据包括期刊刊名、期刊论文篇名、期刊论文作者以及对应的期刊论文数据;
所述期刊对比检测模块用于将待诚信评估数据与期刊文献总库中的期刊数据的关键信息进行对比,并将比对结果发送至期刊诚信评估模块;
所述期刊信息输入模块用于将所述待诚信评估数据传输至所述期刊诚信评估模块;且所述期刊诚信评估模块用于调用所述期刊对比检测模块,并基于诚信评估逻辑策略对所述待诚信评估信息进行诚信评估,确认待诚信评估的期刊的诚信度。
在具体实施例中,还包括可视化辅助确认模块,例如智能触摸显示屏;所述可视化辅助确认模块用于识别显示所述期刊信息输入模块输入的当前所述待诚信评估数据的期刊刊名、期刊论文篇名以及期刊论文作者的信息是否正确;
若确认当前所述待诚信评估数据的期刊刊名、期刊论文篇名以及期刊论文作者的信息至少有一项信息识别有误,则对识别有误的信息进行人工重新输入正确信息纠错;
并将纠错后的当前所述待诚信评估数据的期刊刊名、期刊论文篇名以及期刊论文作者的信息传输至期刊诚信评估模块;
若确认当前所述待诚信评估数据的期刊刊名、期刊论文篇名以及期刊论文作者的信息识别正确,则将当前所述待诚信评估数据的期刊刊名、期刊论文篇名以及期刊论文作者的信息传输至期刊诚信评估模块。
具体地,如图2所示,首先通过期刊信息输入模块输入待诚信评估信息:所述待诚信评估信息包括期刊载文刊名、论文篇名、作者姓名以及期刊论文文本,并通过可视化辅助确认模块确认;
通过期刊索引模块浏览待诚信评估的完整原文(已经刊出的论文文本)并上传期刊诚信评估模块,所述期刊诚信评估模块,基于完整期刊数据总库调用期刊对比检测模块对输入的待诚信评估信息比对检测,并根据诚信评估逻辑策略输出所述完整期刊数据总库是否有该刊名、是否有该论文、是否为该作者、复制比是否大于40%的诚信评估结果。
如图3所示,为不提供期刊论文文本的诚信评估逻辑策略,即通过期刊信息输入模块输入待诚信评估信息:所述待诚信评估信息包括期刊载文刊名、论文篇名以及作者姓名,并通过可视化辅助确认模块确认;
通过期刊索引模块浏览待诚信评估的完整原文(已经刊出的论文文本)并上传期刊诚信评估模块,所述期刊诚信评估模块,基于完整期刊数据总库调用期刊对比检测模块对输入的待诚信评估信息比对检测,并根据诚信评估逻辑策略输出所述完整期刊数据总库是否有该刊名、是否有该论文以及是否为该作者的诚信评估结果。且根据基于完整期刊总库的论文发表诚信评估逻辑流程图并根据现有的编制软件,建立完整期刊论文数据库的条件下,可判别已经发表的待检测论文是否疑似为非法期刊载文或剽窃,有效解决由于期刊数据数量巨大,不能有效进行论文发表诚信的评估问题。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (5)
1.一种基于完整期刊库的论文发表诚信评估分析方法,其特征在于,包括以下步骤:
S1:根据知网已有的期刊数据建立初始期刊数据库;并从所述初始期刊数据库中获取期刊数据的关键信息;
所述期刊数据的关键信息至少包括期刊刊名与期刊论文数据;所述期刊论文数据包括期刊论文篇名、作者姓名以及期刊论文全文;
S2:根据所述期刊数据的关键信息,将所述期刊数据中各已发表论文建立期刊文献数据集;对所述期刊文献数据集中的期刊数据进行全文遍历,并对全文遍历后的期刊数据进行文本分类,获取期刊分类数据集;
采用向量化形式对所述期刊分类数据集中的已发表论文进行规范化处理,获取优化期刊文献数据集;
并根据所述优化期刊文献数据集构建完整期刊数据总库;
S3:对待诚信评估的期刊数据进行全文遍历,并对遍历后的所述待诚信评估的期刊数据进行文本字符编码,获取待诚信评估数据;
所述待诚信评估数据包括期刊刊名、期刊论文篇名、期刊论文作者以及对应的期刊论文数据,所述对应的期刊论文数据即为期刊论文的正文文字数据;
S4:根据所述完整期刊数据总库,基于诚信评估逻辑策略对所述待诚信评估数据进行诚信评估,确认待诚信评估期刊的作者发表论文行为的诚信度。
2.根据权利要求1所述的一种基于完整期刊库的论文发表诚信评估分析方法,其特征在于,S4中所述诚信评估逻辑策略具体为:
S41:将所述待诚信评估数据传输至所述完整期刊数据总库,并基于所述完整期刊数据总库检索匹配对应所述待诚信评估数据中的期刊刊名;并判断所述完整期刊数据总库中是否存在对应所述待诚信评估数据中的期刊刊名;
若确认所述完整期刊数据总库存在对应所述待诚信评估数据中的期刊刊名,则执行S42;
若确认所述完整期刊数据总库不存在对应所述待诚信评估数据中的期刊刊名,则执行S43;
S42:基于所述完整期刊数据总库检索匹配对应所述待诚信评估数据中的期刊论文篇名;并判断所述完整期刊数据总库中是否存在对应所述待诚信评估数据中的期刊论文篇名;
若确认所述完整期刊数据总库存在对应所述待诚信评估数据中的期刊论文篇名,则执行S44;
若确认所述完整期刊数据总库不存在对应所述待诚信评估数据中的期刊论文篇名,则执行S43;
S43:基于所述完整期刊数据总库检索匹配对应所述待诚信评估数据中的对应的期刊论文数据;并判断对应的期刊论文数据与所述完整期刊数据总库的文字复制比率;
若判断对应的期刊论文数据相对于所述完整期刊数据总库的文字复制比率大于预设文字复制比率阈值,则确认待诚信评估的期刊数据的评估结果为疑似剽窃;
若判断对应的期刊论文数据相对于所述完整期刊数据总库的文字复制比率小于等于预设文字复制比率阈值,则确认待诚信评估的期刊数据的评估结果为未录入所述完整期刊数据总库的非正常发表的疑似假期刊载文;
S44:基于所述完整期刊数据总库检索匹配对应所述待诚信评估数据中的期刊论文篇名;并判断所述完整期刊数据总库中是否存在对应所述待诚信评估数据中的期刊论文作者;
若确认所述完整期刊数据总库存在对应所述待诚信评估数据中的期刊论文作者,则确认待诚信评估的期刊数据的评估结果为正常发表;
若确认所述完整期刊数据总库不存在对应所述待诚信评估数据中的期刊论文作者,则确认待诚信评估的期刊数据的评估结果为疑似剽窃。
3.根据权利要求1所述的一种基于完整期刊库的论文发表诚信评估分析方法,其特征在于,S2中采用向量化形式对所述期刊文献数据集中的已发表论文进行规范化处理,获取优化期刊文献数据集;具体为根据所述期刊文献数据集中已发表的论文进行各论文字符编码,获取编码数据向量信息;且所述编码数据向量信息至少包括期刊刊名、期刊论文篇名、期刊论文作者以及期刊论文文本;
并根据所述编码数据向量信息设置期刊文献字符链接,所述期刊文献字符链接包括对应编码数据向量信息的期刊刊名字符链接、期刊论文篇名字符链接、期刊论文作者字符链接以及期刊论文字符链接;
并根据所述编码数据向量信息与期刊文献字符链接获取优化期刊文献数据集。
4.一种基于权利要求1-3任意一项所述的基于完整期刊库的论文发表诚信评估分析方法的系统,其特征在于,包括期刊信息输入模块、期刊对比检测模块、期刊索引模块、期刊编录模块以及期刊诚信评估模块;
所述期刊索引模块用于对所述待诚信评估的期刊数据全文遍历,并将全文遍历后的所述待诚信评估的期刊数据传输至所述期刊编录模块;
所述期刊编录模块用于对全文遍历后的所述待诚信评估的期刊数据进行文本分类提取,获取待诚信评估数据,并将所述待诚信评估数据传输至所述期刊信息输入模块;
所述待诚信评估数据包括期刊刊名、期刊论文篇名、期刊论文作者以及对应的期刊论文数据;
所述期刊对比检测模块用于将待诚信评估数据与初始期刊数据库中的期刊数据的关键信息进行对比,并将比对结果发送至期刊诚信评估模块;
所述期刊信息输入模块用于将所述待诚信评估数据传输至所述期刊诚信评估模块;且所述期刊诚信评估模块用于调用所述期刊对比检测模块,并基于诚信评估逻辑策略对所述待诚信评估信息进行诚信评估,确认待诚信评估期刊的作者发表论文行为的诚信度。
5.根据权利要求4所述的一种基于完整期刊库的论文发表诚信评估分析方法的系统,其特征在于,还包括可视化辅助确认模块,所述可视化辅助确认模块用于识别显示所述期刊信息输入模块输入的当前所述待诚信评估数据的期刊刊名、期刊论文篇名以及期刊论文作者的信息是否正确;
若确认当前所述待诚信评估数据的期刊刊名、期刊论文篇名以及期刊论文作者的信息至少有一项信息识别有误,则对识别有误的信息进行人工重新输入正确信息纠错;
并将纠错后的当前所述待诚信评估数据的期刊刊名、期刊论文篇名以及期刊论文作者的信息传输至期刊诚信评估模块;
若确认当前所述待诚信评估数据的期刊刊名、期刊论文篇名以及期刊论文作者的信息识别正确,则将当前所述待诚信评估数据的期刊刊名、期刊论文篇名以及期刊论文作者的信息传输至期刊诚信评估模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311430222.2A CN117421428B (zh) | 2023-10-31 | 2023-10-31 | 基于完整期刊库的论文发表诚信评估分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311430222.2A CN117421428B (zh) | 2023-10-31 | 2023-10-31 | 基于完整期刊库的论文发表诚信评估分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117421428A CN117421428A (zh) | 2024-01-19 |
CN117421428B true CN117421428B (zh) | 2024-05-17 |
Family
ID=89524447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311430222.2A Active CN117421428B (zh) | 2023-10-31 | 2023-10-31 | 基于完整期刊库的论文发表诚信评估分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117421428B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1845134A (zh) * | 2006-05-16 | 2006-10-11 | 武汉大学 | 基于计算机网络的防转载或/和反剽窃监控方法 |
WO2012005414A1 (ko) * | 2010-07-09 | 2012-01-12 | 한국과학기술정보연구원 | 참고 문헌 적합성 판정 시스템 및 방법 |
CN105427033A (zh) * | 2015-11-10 | 2016-03-23 | 广州西麦科技股份有限公司 | 一种基于大数据的个人诚信系统 |
CN109189926A (zh) * | 2018-08-28 | 2019-01-11 | 中山大学 | 一种科技论文语料库的构建方法 |
JP2019021011A (ja) * | 2017-07-18 | 2019-02-07 | 国立大学法人 筑波大学 | 評価システム、評価方法及びプログラム |
CN110188161A (zh) * | 2019-06-04 | 2019-08-30 | 广德元瑞生产力促进中心有限公司 | 一种基于大数据的企业信息科技成果评估系统 |
CN111178040A (zh) * | 2019-10-24 | 2020-05-19 | 中央民族大学 | 藏汉跨语言论文剽窃检测方法和系统 |
KR20200062520A (ko) * | 2018-11-27 | 2020-06-04 | (주)아이와즈 | 출처 분석 기반의 뉴스 신뢰성 평가 시스템 및 그 동작 방법 |
KR102156289B1 (ko) * | 2020-03-20 | 2020-09-15 | 주식회사 비네아 | 처방적 분석 기반 지능형 연구정보 고부가 가치화 플랫폼을 이용한 큐레이션 시스템 및 그 방법 |
CN112380834A (zh) * | 2020-08-25 | 2021-02-19 | 中央民族大学 | 藏语论文剽窃检测方法和系统 |
JP2021092834A (ja) * | 2019-12-06 | 2021-06-17 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
CN112989070A (zh) * | 2020-06-17 | 2021-06-18 | 浙江大学 | 基于计算机系统的核心期刊量化评价系统和方法 |
CN113672744A (zh) * | 2021-07-12 | 2021-11-19 | 北京新联财通咨询有限公司 | 文章可触达人次的估算方法、装置及计算机设备 |
CN113918705A (zh) * | 2021-10-11 | 2022-01-11 | 温州市人民医院 | 带有预警和推荐功能的投稿审核方法及系统 |
CN115205866A (zh) * | 2022-09-16 | 2022-10-18 | 北京吉道尔科技有限公司 | 一种基于区块链的科技论文大数据抄袭检测方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080288324A1 (en) * | 2005-08-31 | 2008-11-20 | Marek Graczynski | Computer system and method for evaluating scientific institutions, professional staff and work products |
US20110300520A1 (en) * | 2010-06-04 | 2011-12-08 | Meadwestvaco Corporation | Systems and methods for assisting a user in organizing and writing a research paper |
KR101442518B1 (ko) * | 2014-01-09 | 2014-09-26 | 재단법인 한국연구재단 | 학술지 평가 시스템, 평가 방법 및 평가 프로그램이 기록된 기록 매체 |
-
2023
- 2023-10-31 CN CN202311430222.2A patent/CN117421428B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1845134A (zh) * | 2006-05-16 | 2006-10-11 | 武汉大学 | 基于计算机网络的防转载或/和反剽窃监控方法 |
WO2012005414A1 (ko) * | 2010-07-09 | 2012-01-12 | 한국과학기술정보연구원 | 참고 문헌 적합성 판정 시스템 및 방법 |
CN105427033A (zh) * | 2015-11-10 | 2016-03-23 | 广州西麦科技股份有限公司 | 一种基于大数据的个人诚信系统 |
JP2019021011A (ja) * | 2017-07-18 | 2019-02-07 | 国立大学法人 筑波大学 | 評価システム、評価方法及びプログラム |
CN109189926A (zh) * | 2018-08-28 | 2019-01-11 | 中山大学 | 一种科技论文语料库的构建方法 |
KR20200062520A (ko) * | 2018-11-27 | 2020-06-04 | (주)아이와즈 | 출처 분석 기반의 뉴스 신뢰성 평가 시스템 및 그 동작 방법 |
CN110188161A (zh) * | 2019-06-04 | 2019-08-30 | 广德元瑞生产力促进中心有限公司 | 一种基于大数据的企业信息科技成果评估系统 |
CN111178040A (zh) * | 2019-10-24 | 2020-05-19 | 中央民族大学 | 藏汉跨语言论文剽窃检测方法和系统 |
JP2021092834A (ja) * | 2019-12-06 | 2021-06-17 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
KR102156289B1 (ko) * | 2020-03-20 | 2020-09-15 | 주식회사 비네아 | 처방적 분석 기반 지능형 연구정보 고부가 가치화 플랫폼을 이용한 큐레이션 시스템 및 그 방법 |
CN112989070A (zh) * | 2020-06-17 | 2021-06-18 | 浙江大学 | 基于计算机系统的核心期刊量化评价系统和方法 |
CN112380834A (zh) * | 2020-08-25 | 2021-02-19 | 中央民族大学 | 藏语论文剽窃检测方法和系统 |
CN113672744A (zh) * | 2021-07-12 | 2021-11-19 | 北京新联财通咨询有限公司 | 文章可触达人次的估算方法、装置及计算机设备 |
CN113918705A (zh) * | 2021-10-11 | 2022-01-11 | 温州市人民医院 | 带有预警和推荐功能的投稿审核方法及系统 |
CN115205866A (zh) * | 2022-09-16 | 2022-10-18 | 北京吉道尔科技有限公司 | 一种基于区块链的科技论文大数据抄袭检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117421428A (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10818397B2 (en) | Clinical content analytics engine | |
US10558746B2 (en) | Automated cognitive processing of source agnostic data | |
Talburt | Entity resolution and information quality | |
CN111028934B (zh) | 诊断质检方法、装置、电子设备和存储介质 | |
Ratajczyk et al. | Challenges and opportunities in coding the commons: problems, procedures, and potential solutions in large-N comparative case studies | |
Huo et al. | Semparser: A semantic parser for log analytics | |
CN111597803B (zh) | 一种要素提取方法、装置、电子设备及存储介质 | |
CN113656805B (zh) | 一种面向多源漏洞信息的事件图谱自动构建方法及系统 | |
CN111753496B (zh) | 行业类别识别方法、装置、计算机设备及可读存储介质 | |
CN113065330A (zh) | 一种从非结构化数据中提取敏感信息的方法 | |
Bollé et al. | The role of evaluations in reaching decisions using automated systems supporting forensic analysis | |
CN112734181A (zh) | 业务信息审批方法、装置、计算机设备及存储介质 | |
CN112257441A (zh) | 一种基于反事实生成的命名实体识别增强方法 | |
CN113010679A (zh) | 问答对生成方法、装置、设备及计算机可读存储介质 | |
CN115618085B (zh) | 一种基于动态标签的接口数据暴露探测方法 | |
CN117349437A (zh) | 基于智能ai的政府信息管理系统及其方法 | |
CN116775639A (zh) | 数据处理方法、存储介质及电子设备 | |
Jagdish et al. | Identification of End‐User Economical Relationship Graph Using Lightweight Blockchain‐Based BERT Model | |
Zadeh | Preliminary draft notes on a similarity‐based analysis of time‐series with applications to prediction, decision and diagnostics | |
CN117421428B (zh) | 基于完整期刊库的论文发表诚信评估分析方法及系统 | |
Eghan et al. | The missing link–A semantic web based approach for integrating screencasts with security advisories | |
CN116737947A (zh) | 实体关系图构建方法、装置、设备及存储介质 | |
CN117795581A (zh) | 用于教育和心理建模与评估的系统和方法 | |
Bellandi et al. | Ontology-driven relation extraction by pattern discovery | |
Hettiarachchi et al. | Next generation data classification and linkage: Role of probabilistic models and artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |