CN114357977B - 一种反抄袭实现方法、系统、设备及存储介质 - Google Patents

一种反抄袭实现方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN114357977B
CN114357977B CN202210269811.6A CN202210269811A CN114357977B CN 114357977 B CN114357977 B CN 114357977B CN 202210269811 A CN202210269811 A CN 202210269811A CN 114357977 B CN114357977 B CN 114357977B
Authority
CN
China
Prior art keywords
document
plagiarism
key
layer
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210269811.6A
Other languages
English (en)
Other versions
CN114357977A (zh
Inventor
刘鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Developer Technology Co ltd
Beijing Innovation Lezhi Network Technology Co ltd
Original Assignee
Changsha Developer Technology Co ltd
Beijing Innovation Lezhi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Developer Technology Co ltd, Beijing Innovation Lezhi Network Technology Co ltd filed Critical Changsha Developer Technology Co ltd
Priority to CN202210269811.6A priority Critical patent/CN114357977B/zh
Publication of CN114357977A publication Critical patent/CN114357977A/zh
Application granted granted Critical
Publication of CN114357977B publication Critical patent/CN114357977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种反抄袭实现方法、系统、设备及存储介质,其中,方法包括:步骤1:获取第一文档,并将第一文档提交缓存;步骤2:按照文档分句规则,对第一文档进行分句处理,得到若干子句;步骤3:基于关系型数据库对若干子句进行查询,确定是否存在抄袭;若第一文档存在抄袭,将该结果缓存,且获取第二文档,并基于步骤1‑3,继续对第二文档的抄袭情况进行循环判断,并将循环判断结果进行缓存;若第一文档不存在抄袭,将第一文档入库存储。通过设置关系型数据库,对句子进行查询,可以有效的降低假阳性的出现,提高查询效率。

Description

一种反抄袭实现方法、系统、设备及存储介质
技术领域
本发明涉及数据查询技术领域,尤其涉及一种反抄袭实现方法、系统、设备及存储介质。
背景技术
传统的反抄袭系统通常基于NLP技术和大数据技术栈搭建,应对海量数据的查询时足够有效,但是技术架构复杂,落地成本极高。工程问题复杂,性能优化工作困难。并且因为科技,尤其是关键开发相关的技术文章,词汇高度相似,容易出现假阳性。
因此,本发明提出一种反抄袭实现方法、系统、设备及存储介质。
发明内容
基于此,有必要针对上述问题,提出了一种反抄袭实现方法、系统、设备及存储介质。
本发明提出一种反抄袭实现方法,所述方法包括:
步骤1:获取第一文档,并将所述第一文档提交缓存;
步骤2:按照文档分句规则,对所述第一文档进行分句处理,得到若干子句;
步骤3:基于关系型数据库对所述若干子句进行查询,确定是否存在抄袭;
若所述第一文档存在抄袭,将该结果缓存,且获取第二文档,并基于步骤1-3,继续对所述第二文档的抄袭情况进行循环判断,并将循环判断结果进行缓存;
若所述第一文档不存在抄袭,将所述第一文档入库存储。
优选地,将循环判断结果进行缓存之后,还包括:
确定缓存单元的当前剩余缓存容量;
当所述剩余缓存容量小于预设缓存阈值时,对所述缓存单元中的缓存内容进行分析,判断清理可行性,并执行相应的操作。
优选地,将循环判断结果进行缓存之后,还包括:
建立每次循环的判断结果与对应的循环文档之间的连接关系,并根据所述连接关系,确定对应循环文档的文档主题,并捕捉所述文档主题的查询关键词;
确定所述查询关键词的词组合,确定不同词组合中存在的组合关键词的查询关联度,并按照查询关联度,并对满足预设关联度的词组合进行序列编码,并进行并列排序,并将不满足预设关联度的词组合中的组合关键词,按照对应循环文档的主题相关度进行关键绑定,并按照关键绑定结果向对应词组合中的每个组合关键词进行关键程度标签设定,且标签设定结果以序列编码的形式体现;
基于并列排序结果以及标签设定结果,建立对应循环文档的查询检索子表,进而建立所缓存的所有循环文档的查询检索总表,且所述查询检索总表是由不同组合的序列编码构成;
当接收到查询指令时,获取所述查询指令中的指令关键词并进行序列转换;
将所述转换结果与所述查询检索总表中的并列排序结果进行并列匹配,若匹配成功,则定位到对应的匹配行,调取查询文档以及所述查询文档的循环判断结果,并输出显示;
若匹配失败,获取所述查询指令中的每个输入关键词的输入序列,并与所述查询检索表中的标签设定结果进行一一匹配,调取匹配度前N的查询文档与与对应的循环判断结果,并输出显示。
优选地,若所述第一文档存在抄袭,将该结果缓存,且获取第二文档的过程中,还包括:
当所述第一文档存在抄袭之后,获取所述第一文档的第一子句,并进行标定,同时,分别确定每个第一子句的第一出处;
按照第一次进行分句后的剩余分句规则,依次对所述第一文档进行再次分句,获取若干组子句,分别确定每组子句中存在的第二子句的第二出处,同时,对每组子句中的第二子句进行标定;
按照所述第一出处以及第二出处,构建出处布局,对每个出处的涉及次数进行标注,同时,根据所述第一句子以及第二句子,确定抄袭布局,基于所述出处布局以及抄袭布局,确定抄袭程度;
当所述抄袭程度大于最大设定抄袭值时,将所述第一文档,定义为需要重新撰写文档;
否则,获取所有抄袭子句,并对每个抄袭子句的修改内容进行辅助提示;
获取所有抄袭子句,并对所述抄袭子句的句子属性进行确定,当所述句子属性与文档主题不相关时,向对应子句进行主动修改,并进行缓存;
当所述句子属性与文档主题相关时,获取文档改进点信息,对对应句子进行修改辅助提示,并进行缓存。
优选地,步骤2:按照文档分句规则,对所述第一文档进行分句处理之前,还包括:
获取文档分句规则,具体包括:
获取所述第一文档的文档布局、文档主题、文档关键部分;
基于所述文档布局确定文档关系图,按照所述文档主题以及文档关键部分,构建文档关键图;
将所述文档关系图与文档关键图进行比较,确定重叠点位,并将所述重叠点位在所述文档关系图上进行标注,视为第一关键节点,并获取所述文档关键图的第一剩余点位,并视为第二关键节点,同时,还获取所述文档关系图的第二剩余点位,并视为第三关键节点;
对所述第一关键节点进行编码,获得第一节点信息,对所述第二关键节点进行编码,获得第二节点信息,对所述第三关键节点进行编码,获得第三节点信息;
获取所述第一关键节点基于所述第一文档的位置分布,得到第一分布向量、获取所述第二关键节点基于所述第二文档的位置分布,得到第二分布向量、获取所述第三关键节点基于所述第一文档的位置分布,得到第三分布向量,并从分句数据库中,获取与所述第一分布向量、第二分布向量以及第三分布向量相关的文档分布模型;
基于所述文档分布模型,生成对应的初始分句规则,并根据所述第一节点信息的关键程度对应的分句精度、第二节点信息的关键程度对应的分句精度、所述第三节点信息的关键程度对应的分句精度,对所述初始分句规则进行优化,得到文档分句规则,来对所述第一文档进行分句。
优选地,步骤3:基于关系型数据库对所述若干子句进行查询,确定是否存在抄袭,包括:
获取所述关系型数据库中的初始数据层,并分别确定每层的数据构建网络;
根据预设分析机制,对每层的数据构建网络进行分析,确定是否满足预设查询条件,将第一层进行保留;
否则,确定不满足预设查询条件的第二层;
获取每个第二层的关系中心,并确定所述关系中心的公共特征和特有特征;
将所述第二层的特有特征与相邻层的特有特征进行相似度分析,若分析的相似度大于预设度,将所述第二层与相邻层进行同层合并,实现对所述第二层的更新;
否则,根据所述第二层的公共特征、特有特征以及剩余特征,确定所述第二层的可扩展能力;
当所述可扩展能力大于预设扩展能力时,确定所述第二层的可扩展方向,并对所述可扩展方向的扩展类型进行确定;
根据所述第二层的层属性以及确定结果,从与所述第二层相关的应用服务接口中筛选可扩展接口;
当所述可扩展接口为0时,根据所述第二层的预设数据传输规则,设置与可扩展类型相关的配置接口,并确定所述配置接口基于所述第二层的设置位置以及设置数量;
基于预设接口扩展触发事件,对每个配置接口进行响应检测,当响应检测结果通过时,将对应配置接口保留,对所述第二层进行更新;
否则,基于响应检测结果对配置接口的设置位置以及设置数量进行调整,对所述第二层进行更新;
当所述可扩展接口不为0时,分析所述可扩展接口对应的数据存储单元的剩余存储量,当可扩展量大于剩余存储量时,基于所述可扩展接口添加内部调用窗口,并将可扩展信息存储在基于第二层所建立的扩充数据层中,并建立所述扩充数据层与内部调用窗口的链接关系,对所述第二层进行更新;
基于所有更新后的第二层,以及保留的第一层,对关系型数据库进行调整。
优选地,对所述缓存单元中的缓存内容进行分析,判断清理可行性,包括:
按照循环判断次数,对所述缓存内容进行提取,构建循环-内容列表,同时,基于循环-内容列表,记录外界对循环文档的查询记录;
获取查询记录为大于0的第一待定文档,并判定所述第一待定文档具备清理可行性,并对所述第一待定文档建立索引条;
基于所述索引条代替所述第一待定文档,并将所述索引条设置在缓存单元的固定存储区中;
将所述缓存单元缓存的第一待定文档清理,并将所述第一待定文档传输到服务器进行存储,同时,对所述第二待定文档按照初始状态进行保留;
获取查询记录为0的第二待定文档,并按照完整度判断模板对所述第二待定文档的当前完整程度进行判断;
Figure 544369DEST_PATH_IMAGE001
其中,
Figure 992668DEST_PATH_IMAGE002
表示完整度判断模板中的第i个判断指标的模板信息;
Figure 411886DEST_PATH_IMAGE003
表示所述第二待定文档中与第i个判断指标相关的文档结构信息;
Figure 338253DEST_PATH_IMAGE004
表示第i个判断指标下模板信息与文档结构信息的交集;F表示当前完整度判断结果;
当F=1时,判断所述第二待定文档完整,当F小于1,判断所述第二待定文档不完整,并对不完整部分的内容进行预估,若预估结果为不影响所述第二待定文档的关键内容,将所述第二待定文档进行保留;
否则,对不完整的第二待定文档的清理可行性进行确定;
Figure 559150DEST_PATH_IMAGE005
其中,Y表示不完整的第二待定文档的清理可行值;
Figure 912771DEST_PATH_IMAGE006
表示所述第二待定文档中不完整关键内容的关键序列号;
Figure 586329DEST_PATH_IMAGE007
表示第j个关键序列号对应的不完整关键内容的关键权值;
Figure 316388DEST_PATH_IMAGE008
表示第j个关键序列号对应的不完整关键内容的内容转换值;
Figure 391791DEST_PATH_IMAGE009
表示n1个不完整关键内容所对应的最大关键权值;
Figure 916313DEST_PATH_IMAGE010
表示n1个不完整关键内容所对应的最小关键权值,其中,
Figure 375370DEST_PATH_IMAGE011
,且
Figure 518906DEST_PATH_IMAGE012
;e表示常数,取值为2.7;h表示所述第二待定文档处于全部完整情况下对应的预估关键值;且h大于
Figure 307871DEST_PATH_IMAGE013
当所述清理可行值大于预设可行值,将所述不完整的第二待定文档清理;
否则,预估所述缓存单元的历史时间戳的缓存记录,估计待扩充容量;
基于所述待扩充量,来对所述缓存单元进行扩充,并将对应的不完整的第二待定文档存储在扩充单元中,并对缓存单元进行清理。
本发明提出一种反抄袭实现系统,所述系统包括:
获取模块,用于获取第一文档,并将所述第一文档提交缓存;
分句模块,用于按照文档分句规则,对所述第一文档进行分句处理,得到若干子句;
判断模块,用于基于关系型数据库对所述若干子句进行查询,确定是否存在抄袭;
若所述第一文档存在抄袭,将该结果缓存,且获取第二文档,并继续对所述第二文档的抄袭情况进行循环判断,并将循环判断结果进行缓存;
若所述第一文档不存在抄袭,将所述第一文档入库存储。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
步骤1:获取第一文档,并将所述第一文档提交缓存;
步骤2:按照文档分句规则,对所述第一文档进行分句处理,得到若干子句;
步骤3:基于关系型数据库对所述若干子句进行查询,确定是否存在抄袭;
若所述第一文档存在抄袭,将该结果缓存,且获取第二文档,并基于步骤1-3,继续对所述第二文档的抄袭情况进行循环判断,并将循环判断结果进行缓存;
若所述第一文档不存在抄袭,将所述第一文档入库存储。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
步骤1:获取第一文档,并将所述第一文档提交缓存;
步骤2:按照文档分句规则,对所述第一文档进行分句处理,得到若干子句;
步骤3:基于关系型数据库对所述若干子句进行查询,确定是否存在抄袭;
若所述第一文档存在抄袭,将该结果缓存,且获取第二文档,并基于步骤1-3,继续对所述第二文档的抄袭情况进行循环判断,并将循环判断结果进行缓存;
若所述第一文档不存在抄袭,将所述第一文档入库存储。
与现有技术相比,本申请的有益效果如下:
通过设置关系型数据库,对句子进行查询,可以有效的降低假阳性的出现,提高查询效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中反抄袭实现方法的应用环境图;
图2为一个实施例中反抄袭实现方法的流程图;
图3为一个实施例中反抄袭实现方法的另一流程图;
图4为一个实施例中反抄袭实现系统的结构图;
图5为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为一个实施例中反抄袭实现方法的应用环境图。参照图1,该反抄袭实现方法应用于反抄袭实现系统。该反抄袭实现系统包括终端110和服务器120。终端110和服务器120通过网络连接,终端110具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110和服务器120用于实现对应方法的执行步骤。
如图2所示,在一个实施例中,提供了一种反抄袭实现方法。该方法既可以应用于终端,也可以应用于服务器,本实施例以应用于终端举例说明。该反抄袭实现方法具体包括如下步骤:
步骤1:获取第一文档,并将所述第一文档提交缓存;
步骤2:按照文档分句规则,对所述第一文档进行分句处理,得到若干子句;
步骤3:基于关系型数据库对所述若干子句进行查询,确定是否存在抄袭;
若所述第一文档存在抄袭,将该结果缓存,且获取第二文档,并基于步骤1-3,继续对所述第二文档的抄袭情况进行循环判断,并将循环判断结果进行缓存;
若所述第一文档不存在抄袭,将所述第一文档入库存储。
该实施例中,第一文档和第二文档可以是不一样的文档,且缓存的内容可以是在缓存单元中放置。
对于该实施例,还包括一个普通的反抄袭实现方法,如图3所示。
对于该实施例,当单节点不足以支持句库数据时,可以简单的修改应用层逻辑,从单点读写扩充为“随机写,整体读”的分库架构,平滑的实现升级。
上述技术方案的有益效果是:通过设置关系型数据库,对句子进行查询,可以有效的降低假阳性的出现,提高查询效率。
在一个实施例中,基于实施例1的基础上,将循环判断结果进行缓存之后,还包括:
确定缓存单元的当前剩余缓存容量;
当所述剩余缓存容量小于预设缓存阈值时,对所述缓存单元中的缓存内容进行分析,判断清理可行性,并执行相应的操作。
该实施例中,缓存单元的缓存内容是包括:循环处理、循环工作中产生的各种数据以及循环结果、文档等在内的。
该实施例中,相应操作是包括扩充或者清理操作在内的。
上述技术方案的有益效果是:通过对缓存内容的清理可行性分析,可以有效确定是需要清理还是扩充,进而保证后续循环判断抄袭的正常运行,降低假阳性的出现。
在一个实施例中,将循环判断结果进行缓存之后,还包括:
建立每次循环的判断结果与对应的循环文档之间的连接关系,并根据所述连接关系,确定对应循环文档的文档主题,并捕捉所述文档主题的查询关键词;
确定所述查询关键词的词组合,确定不同词组合中存在的组合关键词的查询关联度,并按照查询关联度,并对满足预设关联度的词组合进行序列编码,并进行并列排序,并将不满足预设关联度的词组合中的组合关键词,按照对应循环文档的主题相关度进行关键绑定,并按照关键绑定结果向对应词组合中的每个组合关键词进行关键程度标签设定,且标签设定结果以序列编码的形式体现;
基于并列排序结果以及标签设定结果,建立对应循环文档的查询检索子表,进而建立所缓存的所有循环文档的查询检索总表,且所述查询检索总表是由不同组合的序列编码构成;
当接收到查询指令时,获取所述查询指令中的指令关键词并进行序列转换;
将所述转换结果与所述查询检索总表中的并列排序结果进行并列匹配,若匹配成功,则定位到对应的匹配行,调取查询文档以及所述查询文档的循环判断结果,并输出显示;
若匹配失败,获取所述查询指令中的每个输入关键词的输入序列,并与所述查询检索表中的标签设定结果进行一一匹配,调取匹配度前N的查询文档与与对应的循环判断结果,并输出显示。
该实施例中,连接关系,是为了建立文档与判断结果(抄袭或抄袭)的关系。
该实施例中,进行缓存之后,可能会对判断的循环文档的结果进行查询,但是此时就需要输入字符串去查询,但是在查询之前,需要对缓存的循环文档进行关键词的设定,一般在筛选时,会一个文件一个文件的匹配筛选,这就会导致筛选结果缓慢,且可能由于关键词不完善、不同用户查询文档的输入关键词不同的情况,导致最后筛选的文档不准确等的情况,因此,通过对每个循环文档设置多个词组合,来设定查询关联度,以此,来确定不同循环文档的可查询组合,并且对满足预设关键程度的词组合进行编码以及并列排序,可以有效的缩短查询时间,提高获取查询文档的效率。
该实施例中,序列编码,比如关键词“神经网络”可以用序列编码00来表示,以此,来降低匹配的时间。
该实施例中,序列转换也是为了将关键词转换为对应的序列,比如01。
上述技术方案的有益效果是:通过将循环文档与判断结果建立联系,便于在查询该文档的时,可以对其的结果有效了解,通过对该循环文档进行关键词设定,来得到不同词组合,且通过对词组合中关键词的关联程度进行确定,来对词组合进行有效区分,且并列设置,可以同一时间进行多个文档的比对,避免对所有循环文档进行一一检索,来得到需要查看到的文档,导致降低查询效率,且通过进行序列编码、序列转换,便于降低匹配的内存损耗,间接提高出查询效率,降低假阳性的出现。
在一个实施例中,若所述第一文档存在抄袭,将该结果缓存,且获取第二文档的过程中,还包括:
当所述第一文档存在抄袭之后,获取所述第一文档的第一子句,并进行标定,同时,分别确定每个第一子句的第一出处;
按照第一次进行分句后的剩余分句规则,依次对所述第一文档进行再次分句,获取若干组子句,分别确定每组子句中存在的第二子句的第二出处,同时,对每组子句中的第二子句进行标定;
按照所述第一出处以及第二出处,构建出处布局,对每个出处的涉及次数进行标注,同时,根据所述第一句子以及第二句子,确定抄袭布局,基于所述出处布局以及抄袭布局,确定抄袭程度;
当所述抄袭程度大于最大设定抄袭值时,将所述第一文档,定义为需要重新撰写文档;
否则,获取所有抄袭子句,并对每个抄袭子句的修改内容进行辅助提示;
获取所有抄袭子句,并对所述抄袭子句的句子属性进行确定,当所述句子属性与文档主题不相关时,向对应子句进行主动修改,并进行缓存;
当所述句子属性与文档主题相关时,获取文档改进点信息,对对应句子进行修改辅助提示,并进行缓存。
该实施例中,比如第一文档是按照A类分句方式进行分句,并执行的后续是否抄袭的判断,此时,通过除去A类的剩余方式进行分句,来获取对应的判断结果,且在每次判断过程中,都会获取到被定义为抄袭的句子(第一子句、第二子句),因此,对其的出处进行标定,以来来构建出处布局,进而确定抄袭程度。
比如,剩余分句规则存在2个,且第一次分句为1个,总共为3个分句规则,此时,句子1的出处有1处,且涉及3次,句子2的出处有1处,且涉及2词,句子3的出处有2处,且分别涉及3次等,以此,来构建出处布局。
该实施例中,抄袭布局指的是,由第一句子以及第二句子构成的初始布局,将每个句子被认定为抄袭的次数附加在初始布局上,得到抄袭布局。
该实施例中,出处布局以及抄袭布局,涉及到的次数越多,对应的抄袭程度越大。
该实施例中,与文档主题不相关的属性,比如是论文末尾最后一章的敬语等。
上述技术方案的有益效果是:通过按照剩余分句规则进行再次分句,来确定每个规则下对应的分句结果以及抄袭结果,且通过确定出处布局以及抄袭布局,来有效确定抄袭程度,进而确定修改建议且缓存,方便查询调取,间接降低抄袭可能性、避免出现假阳性,保证查询修改效率,
在一个实施例中,步骤2:按照文档分句规则,对所述第一文档进行分句处理之前,还包括:
获取文档分句规则,具体包括:
获取所述第一文档的文档布局、文档主题、文档关键部分;
基于所述文档布局确定文档关系图,按照所述文档主题以及文档关键部分,构建文档关键图;
将所述文档关系图与文档关键图进行比较,确定重叠点位,并将所述重叠点位在所述文档关系图上进行标注,视为第一关键节点,并获取所述文档关键图的第一剩余点位,并视为第二关键节点,同时,还获取所述文档关系图的第二剩余点位,并视为第三关键节点;
对所述第一关键节点进行编码,获得第一节点信息,对所述第二关键节点进行编码,获得第二节点信息,对所述第三关键节点进行编码,获得第三节点信息;
获取所述第一关键节点基于所述第一文档的位置分布,得到第一分布向量、获取所述第二关键节点基于所述第二文档的位置分布,得到第二分布向量、获取所述第三关键节点基于所述第一文档的位置分布,得到第三分布向量,并从分句数据库中,获取与所述第一分布向量、第二分布向量以及第三分布向量相关的文档分布模型;
基于所述文档分布模型,生成对应的初始分句规则,并根据所述第一节点信息的关键程度对应的分句精度、第二节点信息的关键程度对应的分句精度、所述第三节点信息的关键程度对应的分句精度,对所述初始分句规则进行优化,得到文档分句规则,来对所述第一文档进行分句。
该实施例中,第一文档的文档布局、文档主题以及文档关键部分,都是可以依据现有的技术确定出来的。
该实施例中,文档布局指的是不同章节之间的衔接关系,进而来得到文档关系图,且文档关系图是按照文档主题在文档中的集中说明位置以及文档关键部分(整个文档的主要改进部分)的位置,来获取该位置构成的文档关键图。
该实施例中,有文档关系图和文档关键图来确定重叠点位,也就是都涉及到的关键部分,并视为第一关键节点,且第一节点信息是包括重叠点位的关键描述在内的。
该实施例中,根据不同关键点的位置分布,来获取分句模型,比如,数据库中若干种类的分句模型都是按照分布位置来确定的,便于对处于不同位置的关键信息进行合理分句。
该实施例中,初始分句规则,是在获取到文档分布模型之后,直接得到的。
该实施例中,第一分布向量、第二分布向量、第三分布向量中的元素都是与位置以及关键信息对应的编码有关。
该实施例中,由于关键程度不同,所以设置不同分分布精度,保证分布的精细化,对关键信息的抄袭情况进行更加精准的分析,进而基于分布精度,来对初始分句规则优化,来对第一文档进行分句。
上述技术方案的有益效果是:通过获取各种信息,来确定两个文档布局图与文档关键图,进而来确定重叠点位、非重叠点位,根据不同点位的分布向量,获取分句模型,进而通过不同点位所对应的分句精度,提高分句的准确性与可靠性,保证对关键技术抄袭判断的精准性,间接避免出现假阳性,提高查询效果。
在一个实施例中,步骤3:基于关系型数据库对所述若干子句进行查询,确定是否存在抄袭,包括:
获取所述关系型数据库中的初始数据层,并分别确定每层的数据构建网络;
根据预设分析机制,对每层的数据构建网络进行分析,确定是否满足预设查询条件,将第一层进行保留;
否则,确定不满足预设查询条件的第二层;
获取每个第二层的关系中心,并确定所述关系中心的公共特征和特有特征;
将所述第二层的特有特征与相邻层的特有特征进行相似度分析,若分析的相似度大于预设度,将所述第二层与相邻层进行同层合并,实现对所述第二层的更新;
否则,根据所述第二层的公共特征、特有特征以及剩余特征,确定所述第二层的可扩展能力;
当所述可扩展能力大于预设扩展能力时,确定所述第二层的可扩展方向,并对所述可扩展方向的扩展类型进行确定;
根据所述第二层的层属性以及确定结果,从与所述第二层相关的应用服务接口中筛选可扩展接口;
当所述可扩展接口为0时,根据所述第二层的预设数据传输规则,设置与可扩展类型相关的配置接口,并确定所述配置接口基于所述第二层的设置位置以及设置数量;
基于预设接口扩展触发事件,对每个配置接口进行响应检测,当响应检测结果通过时,将对应配置接口保留,对所述第二层进行更新;
否则,基于响应检测结果对配置接口的设置位置以及设置数量进行调整,对所述第二层进行更新;
当所述可扩展接口不为0时,分析所述可扩展接口对应的数据存储单元的剩余存储量,当可扩展量大于剩余存储量时,基于所述可扩展接口添加内部调用窗口,并将可扩展信息存储在基于第二层所建立的扩充数据层中,并建立所述扩充数据层与内部调用窗口的链接关系,对所述第二层进行更新;
基于所有更新后的第二层,以及保留的第一层,对关系型数据库进行调整。
该实施例中,关系型数据库是预先确定好的,是用来组织数据的数据库,比如,在查重过程中,用到的查重数据库,都可以视为关系型数据。
该实施例中,关系型数据库是包括,若干不同分类文档的数据在内的,且不同的分类文档对应的数据层不同,且初始数据层,是指的关系型数据库中预先设定好的初始结构,基于该初始结构来确定的初始数据层,且初始结构可以是一个数据模型的结构。
该实施例中,由于数据模型中每层都会有对应的层构建信息,因此,来确定对应层的数据构建网络,进而基于预设分析机制(对该层进行分析,确定是否可以进行数据查询,比如,预设查询条件比如是,是否存在查询口来对数据进行查询,又或者,是否存在设定好的库容数据,来作为样本进行查询)如果可以,进行保留,否则,将该层视为第二层。
该实施例中,关系中心指的是该层主要执行的功能,比如主要供查询的文档类型内容,且公共特征,比如是包括一些普遍的查询内容在内,比如,文章敬语等,特有特征,比如是对类型为人工智能的文档进行查询等。
该实施例中,相似度分析,是为了将两层进行合并,比如特有特征都是与人工智能类的文档相关,来计算相似度,通过相似度判断,来进行同层合并,扩大数据容量。
该实施例中,剩余特征,比如是第二层中,还包括一些推理引言在内的描述,可以视为剩余特征,根据所有特征,来确定可扩展能力,比如,第二层的容量为10,所有特征加起来占用的容量为3,且与该第二层的所有特征关联的其他文档是比较多的,此时,用过剩余容量与其他关联文档的情况,来确定可扩展能力,剩余容量越大、其他关联文档越多,对应的可扩展能力越强。
该实施例中,可扩展方向即为对应的其他关联文档的可扩展类型。
该实施例中,第二层的层属性,比如与人工智能有关,且与人工智能对应的应用服务接口是本身就设置在数据模型上的,为了对模型进行更新,来保证后续查询抄袭与非抄袭的真实性,避免假阳性。
该实施例中,可扩展接口可以指的是可以将其他关联文档作为可扩展信息,来补充到对应数据层中。
该实施例中,预设数据传输规则,是预先设置好的,就是为了将接口与该层进行匹配。
该实施例中,在初步确定设置位置以及设置数量之后,来对确定的接口进行检测,来确定是否保留,且预设接口扩展触发事件就是作为一个触发检测来对新配置的接口进行检测,最后来对第二层进行更新,保证接口更好的融合在第二层上。
该实施例中,可扩展接口与对应层中数据存储单元有关,比如,接口1对应第二层中的存储单元1,且存储单元1的剩余存储量为7,但是可扩展量为8,此时,就需要在可扩展接口添加内部调用窗口,在进行查询时,可以先基于第二层完成查询,完后基于该窗口来到扩展数据层进行再次查询,保证查询的完整性。
上述技术方案的有益效果是:通过对关系型数据库的数据层进行分析,来对数据层的扩展能力进行确定,进而基于扩展能力,来确定需要扩展的接口,当接口为0时,通过传输规则,自动配置接口位置以及接口数量,进而进行响应检测,来对数据层进行更新,当数据不为0时,通过建立扩展数据层,来对第二层进行更新,可以尽可能的扩大查询样本,进而来避免出现假阳性,提高查询效果。
在一个实施例中,对所述缓存单元中的缓存内容进行分析,判断清理可行性,包括:
按照循环判断次数,对所述缓存内容进行提取,构建循环-内容列表,同时,基于循环-内容列表,记录外界对循环文档的查询记录;
获取查询记录为大于0的第一待定文档,并判定所述第一待定文档具备清理可行性,并对所述第一待定文档建立索引条;
基于所述索引条代替所述第一待定文档,并将所述索引条设置在缓存单元的固定存储区中;
将所述缓存单元缓存的第一待定文档清理,并将所述第一待定文档传输到服务器进行存储,同时,对所述第二待定文档按照初始状态进行保留;
获取查询记录为0的第二待定文档,并按照完整度判断模板对所述第二待定文档的当前完整程度进行判断;
Figure 409819DEST_PATH_IMAGE001
其中,
Figure 182603DEST_PATH_IMAGE002
表示完整度判断模板中的第i个判断指标的模板信息;
Figure 598672DEST_PATH_IMAGE003
表示所述第二待定文档中与第i个判断指标相关的文档结构信息;
Figure 773301DEST_PATH_IMAGE004
表示第i个判断指标下模板信息与文档结构信息的交集;F表示当前完整度判断结果;
当F=1时,判断所述第二待定文档完整,当F小于1,判断所述第二待定文档不完整,并对不完整部分的内容进行预估,若预估结果为不影响所述第二待定文档的关键内容,将所述第二待定文档进行保留;
否则,对不完整的第二待定文档的清理可行性进行确定;
Figure 13528DEST_PATH_IMAGE005
其中,Y表示不完整的第二待定文档的清理可行值;
Figure 273608DEST_PATH_IMAGE006
表示所述第二待定文档中不完整关键内容的关键序列号;
Figure 758947DEST_PATH_IMAGE007
表示第j个关键序列号对应的不完整关键内容的关键权值;
Figure 460186DEST_PATH_IMAGE008
表示第j个关键序列号对应的不完整关键内容的内容转换值;
Figure 497413DEST_PATH_IMAGE009
表示n1个不完整关键内容所对应的最大关键权值;
Figure 120155DEST_PATH_IMAGE010
表示n1个不完整关键内容所对应的最小关键权值,其中,
Figure 268239DEST_PATH_IMAGE011
,且
Figure 528713DEST_PATH_IMAGE012
;e表示常数,取值为2.7;h表示所述第二待定文档处于全部完整情况下对应的预估关键值;且h大于
Figure 2420DEST_PATH_IMAGE013
当所述清理可行值大于预设可行值,将所述不完整的第二待定文档清理;
否则,预估所述缓存单元的历史时间戳的缓存记录,估计待扩充容量;
基于所述待扩充量,来对所述缓存单元进行扩充,并将对应的不完整的第二待定文档存储在扩充单元中,并对缓存单元进行清理。
该实施例中,比如存在文档1、文档2和文档3,其中,文档1和文档2的查询记录大于1,将文档1和文档2视为第一待定文档,来建立索引条,将文档3视为第二待定文档,基于完整度判断模型对文档3进行完整度判断。
该实施例中,完整度判断模板是包括:文档中必须保留的文档结构以及文档接口中每部分结构需要存在的信息在内的,且通过公式进行交并比,来确定当前完整度。
该实施例中,通过对文档3的不完整内容进行评估,比如不完整内容是敬语,此时,可以视为与关键内容无关,可以保留。
该实施例中,通过对与缺失关键内容的文档3的清理可行性进行确定,来确定是否需要清理。
比如,第二待定文档中不完整关键内容的关键序列号为1、2、3,表示存在3个不完整关键内容,进而来计算该3个不完整关键内容的相关结果。
该实施例中,预设可行值,一般取值为0.5。
该实施例中,比如历史缓存记录对应的为缓存量为10,此时,对应的待扩充容量可以为8-12。
上述技术方案的有益效果是:通过对查询记录进行初步确定,来确定是否对完整建立索引条,以此,来清理缓存内容,便于保证后续持续循环查询的效率,且通过第二待定文档的当前完整度进行判断,来确定是否完整,进而便于后续继续分析是否将该文档删除,且通过计算清理可行性,来确定是否清理,避免数据丢失,导致后续查询显示失败,且通过设置扩充单元,保证查询成功的可能性。
在一个实施例中,本发明提出一种反抄袭实现系统,如图4所示,所述系统包括:
获取模块,用于获取第一文档,并将所述第一文档提交缓存;
分句模块,用于按照文档分句规则,对所述第一文档进行分句处理,得到若干子句;
判断模块,用于基于关系型数据库对所述若干子句进行查询,确定是否存在抄袭;
若所述第一文档存在抄袭,将该结果缓存,且获取第二文档,并继续对所述第二文档的抄袭情况进行循环判断,并将循环判断结果进行缓存;
若所述第一文档不存在抄袭,将所述第一文档入库存储。
上述技术方案的有益效果是:通过设置关系型数据库,对句子进行查询,可以有效的降低假阳性的出现,提高查询效率。
图5示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图5所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现年龄识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行年龄识别方法。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
步骤1:获取第一文档,并将所述第一文档提交缓存;
步骤2:按照文档分句规则,对所述第一文档进行分句处理,得到若干子句;
步骤3:基于关系型数据库对所述若干子句进行查询,确定是否存在抄袭;
若所述第一文档存在抄袭,将该结果缓存,且获取第二文档,并基于步骤1-3,继续对所述第二文档的抄袭情况进行循环判断,并将循环判断结果进行缓存;
若所述第一文档不存在抄袭,将所述第一文档入库存储。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
步骤1:获取第一文档,并将所述第一文档提交缓存;
步骤2:按照文档分句规则,对所述第一文档进行分句处理,得到若干子句;
步骤3:基于关系型数据库对所述若干子句进行查询,确定是否存在抄袭;
若所述第一文档存在抄袭,将该结果缓存,且获取第二文档,并基于步骤1-3,继续对所述第二文档的抄袭情况进行循环判断,并将循环判断结果进行缓存;
若所述第一文档不存在抄袭,将所述第一文档入库存储。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种反抄袭实现方法,其特征在于,所述方法包括:
步骤1:获取第一文档,并将所述第一文档提交缓存;
步骤2:按照文档分句规则,对所述第一文档进行分句处理,得到若干子句;
步骤3:基于关系型数据库对所述若干子句进行查询,确定是否存在抄袭;
若所述第一文档存在抄袭,将该结果缓存,且获取第二文档,并基于步骤1-3,继续对所述第二文档的抄袭情况进行循环判断,并将循环判断结果进行缓存;
若所述第一文档不存在抄袭,将所述第一文档入库存储;
其中,步骤3:基于关系型数据库对所述若干子句进行查询,确定是否存在抄袭,包括:
获取所述关系型数据库中的初始数据层,并分别确定每层的数据构建网络;
根据预设分析机制,对每层的数据构建网络进行分析,确定是否满足预设查询条件,将第一层进行保留;
否则,确定不满足预设查询条件的第二层;
获取每个第二层的关系中心,并确定所述关系中心的公共特征和特有特征;
将所述第二层的特有特征与相邻层的特有特征进行相似度分析,若分析的相似度大于预设度,将所述第二层与相邻层进行同层合并,实现对所述第二层的更新;
否则,根据所述第二层的公共特征、特有特征以及剩余特征,确定所述第二层的可扩展能力;
当所述可扩展能力大于预设扩展能力时,确定所述第二层的可扩展方向,并对所述可扩展方向的扩展类型进行确定;
根据所述第二层的层属性以及确定结果,从与所述第二层相关的应用服务接口中筛选可扩展接口;
当所述可扩展接口为0时,根据所述第二层的预设数据传输规则,设置与可扩展类型相关的配置接口,并确定所述配置接口基于所述第二层的设置位置以及设置数量;
基于预设接口扩展触发事件,对每个配置接口进行响应检测,当响应检测结果通过时,将对应配置接口保留,对所述第二层进行更新;
否则,基于响应检测结果对配置接口的设置位置以及设置数量进行调整,对所述第二层进行更新;
当所述可扩展接口不为0时,分析所述可扩展接口对应的数据存储单元的剩余存储量,当可扩展量大于剩余存储量时,基于所述可扩展接口添加内部调用窗口,并将可扩展信息存储在基于第二层所建立的扩充数据层中,并建立所述扩充数据层与内部调用窗口的链接关系,对所述第二层进行更新;
基于所有更新后的第二层,以及保留的第一层,对关系型数据库进行调整。
2.如权利要求1所述的反抄袭实现方法,其特征在于,将循环判断结果进行缓存之后,还包括:
确定缓存单元的当前剩余缓存容量;
当所述剩余缓存容量小于预设缓存阈值时,对所述缓存单元中的缓存内容进行分析,判断清理可行性,并执行相应的操作。
3.如权利要求1所述的反抄袭实现方法,其特征在于,将循环判断结果进行缓存之后,还包括:
建立每次循环的判断结果与对应的循环文档之间的连接关系,并根据所述连接关系,确定对应循环文档的文档主题,并捕捉所述文档主题的查询关键词;
确定所述查询关键词的词组合,确定不同词组合中存在的组合关键词的查询关联度,并按照查询关联度,并对满足预设关联度的词组合进行序列编码,并进行并列排序,并将不满足预设关联度的词组合中的组合关键词,按照对应循环文档的主题相关度进行关键绑定,并按照关键绑定结果向对应词组合中的每个组合关键词进行关键程度标签设定,且标签设定结果以序列编码的形式体现;
基于并列排序结果以及标签设定结果,建立对应循环文档的查询检索子表,进而建立所缓存的所有循环文档的查询检索总表,且所述查询检索总表是由不同组合的序列编码构成;
当接收到查询指令时,获取所述查询指令中的指令关键词并进行序列转换;
将所述转换结果与所述查询检索总表中的并列排序结果进行并列匹配,若匹配成功,则定位到对应的匹配行,调取查询文档以及所述查询文档的循环判断结果,并输出显示;
若匹配失败,获取所述查询指令中的每个输入关键词的输入序列,并与所述查询检索总表中的标签设定结果进行一一匹配,调取匹配度前N的查询文档与对应的循环判断结果,并输出显示。
4.如权利要求1所述的反抄袭实现方法,其特征在于,若所述第一文档存在抄袭,将该结果缓存,且获取第二文档的过程中,还包括:
当所述第一文档存在抄袭之后,获取所述第一文档的第一子句,并进行标定,同时,分别确定每个第一子句的第一出处;
按照第一次进行分句后的剩余分句规则,依次对所述第一文档进行再次分句,获取若干组子句,分别确定每组子句中存在的第二子句的第二出处,同时,对每组子句中的第二子句进行标定;
按照所述第一出处以及第二出处,构建出处布局,对每个出处的涉及次数进行标注,同时,根据所述第一句子以及第二句子,确定抄袭布局,基于所述出处布局以及抄袭布局,确定抄袭程度;
当所述抄袭程度大于最大设定抄袭值时,将所述第一文档,定义为需要重新撰写文档;
否则,获取所有抄袭子句,并对每个抄袭子句的修改内容进行辅助提示;
获取所有抄袭子句,并对所述抄袭子句的句子属性进行确定,当所述句子属性与文档主题不相关时,向对应子句进行主动修改,并进行缓存;
当所述句子属性与文档主题相关时,获取文档改进点信息,对对应句子进行修改辅助提示,并进行缓存。
5.如权利要求1所述的反抄袭实现方法,其特征在于,步骤2:按照文档分句规则,对所述第一文档进行分句处理之前,还包括:
获取文档分句规则,具体包括:
获取所述第一文档的文档布局、文档主题、文档关键部分;
基于所述文档布局确定文档关系图,按照所述文档主题以及文档关键部分,构建文档关键图;
将所述文档关系图与文档关键图进行比较,确定重叠点位,并将所述重叠点位在所述文档关系图上进行标注,视为第一关键节点,并获取所述文档关键图的第一剩余点位,并视为第二关键节点,同时,还获取所述文档关系图的第二剩余点位,并视为第三关键节点;
对所述第一关键节点进行编码,获得第一节点信息,对所述第二关键节点进行编码,获得第二节点信息,对所述第三关键节点进行编码,获得第三节点信息;
获取所述第一关键节点基于所述第一文档的位置分布,得到第一分布向量、获取所述第二关键节点基于所述第二文档的位置分布,得到第二分布向量、获取所述第三关键节点基于所述第一文档的位置分布,得到第三分布向量,并从分句数据库中,获取与所述第一分布向量、第二分布向量以及第三分布向量相关的文档分布模型;
基于所述文档分布模型,生成对应的初始分句规则,并根据所述第一节点信息的关键程度对应的分句精度、第二节点信息的关键程度对应的分句精度、所述第三节点信息的关键程度对应的分句精度,对所述初始分句规则进行优化,得到文档分句规则,来对所述第一文档进行分句。
6.如权利要求2所述的反抄袭实现方法,其特征在于,对所述缓存单元中的缓存内容进行分析,判断清理可行性,包括:
按照循环判断次数,对所述缓存内容进行提取,构建循环-内容列表,同时,基于循环-内容列表,记录外界对循环文档的查询记录;
获取查询记录为大于0的第一待定文档,并判定所述第一待定文档具备清理可行性,并对所述第一待定文档建立索引条;
基于所述索引条代替所述第一待定文档,并将所述索引条设置在缓存单元的固定存储区中;
将所述缓存单元缓存的第一待定文档清理,并将所述第一待定文档传输到服务器进行存储,同时,对所述第一待定文档按照初始状态进行保留;
获取查询记录为0的第二待定文档,并按照完整度判断模板对所述第二待定文档的当前完整程度进行判断;
Figure 478176DEST_PATH_IMAGE001
其中,
Figure 864158DEST_PATH_IMAGE002
表示完整度判断模板中的第i个判断指标的模板信息;
Figure 112737DEST_PATH_IMAGE003
表示所述第二待定文档中与第i个判断指标相关的文档结构信息;
Figure 711209DEST_PATH_IMAGE004
表示第i个判断指标下模板信息与文档结构信息的交集;F表示当前完整度判断结果;
当F=1时,判断所述第二待定文档完整,当F小于1,判断所述第二待定文档不完整,并对不完整部分的内容进行预估,若预估结果为不影响所述第二待定文档的关键内容,将所述第二待定文档进行保留;
否则,对不完整的第二待定文档的清理可行性进行确定;
Figure 492958DEST_PATH_IMAGE005
其中,Y表示不完整的第二待定文档的清理可行值;
Figure 580999DEST_PATH_IMAGE006
表示所述第二待定文档中不完整关键内容的关键序列号;
Figure 316874DEST_PATH_IMAGE007
表示第j个关键序列号对应的不完整关键内容的关键权值;
Figure 719037DEST_PATH_IMAGE008
表示第j个关键序列号对应的不完整关键内容的内容转换值;
Figure 856757DEST_PATH_IMAGE009
表示n1个不完整关键内容所对应的最大关键权值;
Figure 115700DEST_PATH_IMAGE010
表示n1个不完整关键内容所对应的最小关键权值,其中,
Figure 338871DEST_PATH_IMAGE011
,且
Figure 279145DEST_PATH_IMAGE012
;e表示常数,取值为2.7;h表示所述第二待定文档处于全部完整情况下对应的预估关键值;且h大于
Figure 271372DEST_PATH_IMAGE013
当所述清理可行值大于预设可行值,将所述不完整的第二待定文档清理;
否则,预估所述缓存单元的历史时间戳的缓存记录,估计待扩充容量;
基于所述待扩充容量,来对所述缓存单元进行扩充,并将对应的不完整的第二待定文档存储在扩充单元中,并对缓存单元进行清理。
7.一种反抄袭实现系统,其特征在于,所述系统用于执行权利要求1-6中任一所述的反抄袭实现方法的步骤。
8.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
CN202210269811.6A 2022-03-18 2022-03-18 一种反抄袭实现方法、系统、设备及存储介质 Active CN114357977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210269811.6A CN114357977B (zh) 2022-03-18 2022-03-18 一种反抄袭实现方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210269811.6A CN114357977B (zh) 2022-03-18 2022-03-18 一种反抄袭实现方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114357977A CN114357977A (zh) 2022-04-15
CN114357977B true CN114357977B (zh) 2022-06-14

Family

ID=81094680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210269811.6A Active CN114357977B (zh) 2022-03-18 2022-03-18 一种反抄袭实现方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114357977B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050299A (zh) * 2014-07-07 2014-09-17 江苏金智教育信息技术有限公司 一种论文查重的方法
CN111985244A (zh) * 2020-07-17 2020-11-24 广州智城科技有限公司 一种针对文档内容的洗稿检测方法及装置
CN112214984A (zh) * 2020-10-10 2021-01-12 北京蚂蜂窝网络科技有限公司 内容抄袭识别方法、装置、设备及存储介质
CN113901783A (zh) * 2021-11-18 2022-01-07 青岛科技大学 面向领域的文档查重方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101577376B1 (ko) * 2014-01-21 2015-12-14 (주) 아워텍 텍스트 기준점 기반의 저작권 침해 판단 시스템 및 그 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050299A (zh) * 2014-07-07 2014-09-17 江苏金智教育信息技术有限公司 一种论文查重的方法
CN111985244A (zh) * 2020-07-17 2020-11-24 广州智城科技有限公司 一种针对文档内容的洗稿检测方法及装置
CN112214984A (zh) * 2020-10-10 2021-01-12 北京蚂蜂窝网络科技有限公司 内容抄袭识别方法、装置、设备及存储介质
CN113901783A (zh) * 2021-11-18 2022-01-07 青岛科技大学 面向领域的文档查重方法及系统

Also Published As

Publication number Publication date
CN114357977A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
US11263262B2 (en) Indexing a dataset based on dataset tags and an ontology
WO2021120627A1 (zh) 数据搜索匹配方法、装置、计算机设备和存储介质
US6477524B1 (en) Method for statistical text analysis
US10289717B2 (en) Semantic search apparatus and method using mobile terminal
JP3170400B2 (ja) 意味パターン認識による文字列検索方法及びその装置
CN110955761A (zh) 文书中问答数据获取方法、装置、计算机设备和存储介质
CN110990565B (zh) 一种用于舆情分析的可扩展文本分析系统及方法
CN110458324B (zh) 风险概率的计算方法、装置和计算机设备
JP3023943B2 (ja) 文書検索装置
CN112115232A (zh) 一种数据纠错方法、装置及服务器
KR102292040B1 (ko) 기계 독해 기반 지식 추출을 위한 시스템 및 방법
US20230081737A1 (en) Determining data categorizations based on an ontology and a machine-learning model
CN112836029A (zh) 一种基于图的文档检索方法、系统及其相关组件
US7346614B2 (en) Information searching method, information searching program, and computer-readable recording medium on which information searching program is recorded
Singh et al. DELTA-LD: A change detection approach for linked datasets
CN112434158A (zh) 一种企业标签的获取方法、获取装置、存储介质和计算机设备
CN115422372A (zh) 一种基于软件测试的知识图谱构建方法和系统
CN113255742A (zh) 一种政策匹配度计算方法、系统、计算机设备和存储介质
CN116383412B (zh) 基于知识图谱的功能点扩增方法和系统
CN114357977B (zh) 一种反抄袭实现方法、系统、设备及存储介质
CN116226681B (zh) 一种文本相似性判定方法、装置、计算机设备和存储介质
CN114385808A (zh) 文本分类模型构建方法与文本分类方法
CN115062619B (zh) 中文实体链接方法、装置、设备及存储介质
CN117076946A (zh) 一种短文本相似度确定方法、装置及终端
CN110781310A (zh) 目标概念图谱的构建方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant