CN108009599A - 一种原创文档判断方法、装置、电子设备及存储介质 - Google Patents

一种原创文档判断方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN108009599A
CN108009599A CN201711444999.9A CN201711444999A CN108009599A CN 108009599 A CN108009599 A CN 108009599A CN 201711444999 A CN201711444999 A CN 201711444999A CN 108009599 A CN108009599 A CN 108009599A
Authority
CN
China
Prior art keywords
document
original document
pending
original
simhash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711444999.9A
Other languages
English (en)
Inventor
沈文策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Cnfol Information Technology Co Ltd
Original Assignee
Fujian Cnfol Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Cnfol Information Technology Co Ltd filed Critical Fujian Cnfol Information Technology Co Ltd
Priority to CN201711444999.9A priority Critical patent/CN108009599A/zh
Publication of CN108009599A publication Critical patent/CN108009599A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本发明实施例提供了一种原创文档判断方法、装置、电子设备及存储介质,方法包括:接收待处理文档,采用simhash算法计算待处理文档的simhash签名;从预设原创文档库中获取第一原创文档的simhash签名,计算待处理文档与第一原创文档的相似度,在待处理文档与第一原创文档的相似度大于第一预设阈值时,获取第一原创文档,与待处理文档全文对比;获取待处理文档中与第一原创文档的相同内容,计算相同内容在第一原创文档中所占比例;在相同内容在第一原创文档中所占比例大于或等于第二预设阈值时,将待处理文档标记为非原创文档,在相同内容在第一原创文档中所占比例小于第二预设阈值时,将待处理文档标记为原创文档。本发明实施例可以提高原创文档确定的准确性。

Description

一种原创文档判断方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,特别是涉及一种原创文档判断方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,使得信息的传播更加方便、快捷。在互联网上,经常会出现各种好的文档,当用户看到好的文档后,往往喜欢对好的文档进行转载,或者对该文档进行部分修改后,作为自己的文档重新发布到互联网上。然而,好的文档,往往是作者通过自我的辛勤创作得到的,其他人对该文档进行简单修改后重新发布,这无疑是对作者劳动成果的不尊重。
为了判断用户发布的目标文档是否为原创文档,现有技术中往往是对原创文档和目标文档进行分词处理,得到两个文档的关键词,然后以两个文档的关键词的相似度来确定该原创文档和目标文档的相似度,从而判断该目标文档是否为原创文档。
然而分词处理得到的关键词的好坏会直接影响相似度计算的结果,当对目标文档进行分词处理,得到的关键词比较差时,会使得原创文档和目标文档的相似度计算结果与实际存在较大偏差。
发明内容
本发明实施例的目的在于提供一种原创文档判断方法、装置、电子设备及存储介质,以提高原创文档确定的准确性。具体技术方案如下:
第一方面,本发明实施例提供了一种原创文档判断方法,该方法包括:
接收用户终端发送的待处理文档,并采用simhash算法计算待处理文档的simhash签名;
从预设原创文档库中获取第一原创文档的simhash签名,根据待处理文档的simhash签名与第一原创文档的simhash签名,计算待处理文档与第一原创文档的相似度,其中,第一原创文档为预设原创文档库中的任一原创文档;
在待处理文档与第一原创文档的相似度大于第一预设阈值时,获取第一原创文档,并与待处理文档进行全文对比;
获取待处理文档中与第一原创文档的相同内容,并计算相同内容在第一原创文档中所占比例;
判断相同内容在第一原创文档中所占比例是否大于或等于第二预设阈值,在相同内容在第一原创文档中所占比例大于或等于第二预设阈值时,将待处理文档标记为非原创文档,在相同内容在第一原创文档中所占比例小于第二预设阈值时,将待处理文档标记为原创文档。
可选的,接收用户终端发送的待处理文档,并采用simhash算法计算待处理文档的simhash签名,包括:
获取用户终端发送的待处理文档,对待处理文档进行分词处理,得到待处理文档的特征词;
对待处理文档的特征词进行去噪处理,并计算去噪处理后的特征词的权重;
通过哈希算法计算去噪处理后的特征词的哈希值,并根据去噪处理后的特征词的哈希值和去噪处理后的特征词的权重,对去噪处理后的特征词的哈希值进行加权处理,得到加权处理后的特征词的哈希值;
对加权处理后的特征词的哈希值进行合并降维处理,得到待处理文档的simhash签名。
可选的,预设原创文档库的构建方法包括:
获取各原创文档,并计算各原创文档的simhash签名;
将各原创文档的simhash签名和各原创文档存储在预设数据库中,得到预设原创文档库。
可选的,在将待处理文档标记为原创文档之后,本发明实施例的一种原创文档判断方法,还包括:
将待处理文档的simhash签名和待处理文档存储在预设原创文档库中。
第二方面,本发明实施例还提供了一种原创文档判断装置,该装置包括:
接收计算模块,用于接收用户终端发送的待处理文档,并采用simhash算法计算待处理文档的simhash签名;
相似度计算模块,用于从预设原创文档库中获取第一原创文档的simhash签名,根据待处理文档的simhash签名与第一原创文档的simhash签名,计算待处理文档与第一原创文档的相似度,其中,第一原创文档为预设原创文档库中的任一原创文档;
对比模块,用于在待处理文档与第一原创文档的相似度大于第一预设阈值时,获取第一原创文档,并与待处理文档进行全文对比;
比例计算模块,用于获取待处理文档中与第一原创文档的相同内容,并计算相同内容在第一原创文档中所占比例;
判断模块,用于判断相同内容在第一原创文档中所占比例是否大于或等于第二预设阈值,在相同内容在第一原创文档中所占比例大于或等于第二预设阈值时,将待处理文档标记为非原创文档,在相同内容在第一原创文档中所占比例小于第二预设阈值时,将待处理文档标记为原创文档。
可选的,接收计算模块,包括:
特征词计算子模块,用于获取用户终端发送的待处理文档,对待处理文档进行分词处理,得到待处理文档的特征词;
权重计算子模块,用于对待处理文档的特征词进行去噪处理,并计算去噪处理后的特征词的权重;
哈希值计算子模块,用于通过哈希算法计算去噪处理后的特征词的哈希值,并根据去噪处理后的特征词的哈希值和去噪处理后的特征词的权重,对去噪处理后的特征词的哈希值进行加权处理,得到加权处理后的特征词的哈希值;
签名计算子模块,用于对加权处理后的特征词的哈希值进行合并降维处理,得到待处理文档的simhash签名。
可选的,本发明实施例的一种原创文档判断装置,还包括:
原创文档获取模块,用于获取各原创文档,并计算各原创文档的simhash签名;
第一存储模块,用于将各原创文档的simhash签名和各原创文档存储在预设数据库中,得到预设原创文档库。
可选的,本发明实施例的一种原创文档判断装置,还包括:
第二存储模块,用于在将待处理文档标记为原创文档之后,将待处理文档的simhash签名和待处理文档存储在预设原创文档库中。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现以上任一所述的一种原创文档判断方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现以上任一所述的一种原创文档判断方法的步骤。
本发明实施例提供的一种原创文档判断方法、装置、电子设备及存储介质,通过首先接收用户终端发送的待处理文档,并采用simhash算法计算待处理文档的simhash签名;然后从预设原创文档库中获取第一原创文档的simhash签名,根据待处理文档的simhash签名与第一原创文档的simhash签名,计算待处理文档与第一原创文档的相似度,在待处理文档与第一原创文档的相似度大于第一预设阈值时,获取第一原创文档,并与待处理文档进行全文对比;获取待处理文档中与第一原创文档的相同内容,并计算相同内容在第一原创文档中所占比例;最后,判断相同内容在第一原创文档中所占比例是否大于或等于第二预设阈值,在相同内容在第一原创文档中所占比例大于或等于第二预设阈值时,将待处理文档标记为非原创文档,在相同内容在第一原创文档中所占比例小于第二预设阈值时,将待处理文档标记为原创文档。本发明实施例可以提高原创文档确定的准确性,还可以提高判断速度,降低判断过程的时间开销。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种原创文档判断方法第一种实施方式的流程图;
图2为本发明实施例的一种原创文档判断方法计算simhash签名的流程图;
图3为本发明实施例的一种原创文档判断方法第二种实施方式的流程图;
图4为本发明实施例的一种原创文档判断装置的结构示意图;
图5为本发明实施例的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术存在的问题,本发明实施例提供了一种原创文档判断方法、装置、电子设备及存储介质,以实现提高原创文档确定的准确性。
下面,对本发明实施例的一种原创文档判断方法进行介绍,如图1所示,为本发明实施例的一种原创文档判断方法第一种实施方式的流程图,该方法可以包括:
S110,接收用户终端发送的待处理文档,并采用simhash算法计算待处理文档的simhash签名。
在一些示例中,当用户提交一个文档后,为了判断用户提交的文档是否为原创文档,应用本发明实施例的一种原创文档判断方法的判断装置可以首先接收用户终端发送的该文档,并将该文档标记为待处理文档,然后可以采用simhash算法计算该待处理文档的simhash签名。
具体的,如图2所示,为本发明实施例的一种原创文档判断方法计算simhash签名的流程图,S110,接收用户终端发送的待处理文档,并采用simhash算法计算待处理文档的simhash签名,可以包括:
S111,获取用户终端发送的待处理文档,对待处理文档进行分词处理,得到待处理文档的特征词。
具体的,上述的判断装置在计算待处理文档的simhash签名时,可以首先采用词库对待处理文档进行分词,得到待处理文档的特征词。
在一些示例中,当待处理文档的内容较多时,在对待处理文档进行分词后,可以选取词频大于预设词频阈值的词作为该待处理文档的特征词。
在一些示例中,当待处理文档的内容较少时,在对待处理文档进行分词后,还可以选取分词后的所有词为该待处理文档的特征词。
S112,对待处理文档的特征词进行去噪处理,并计算去噪处理后的特征词的权重。
具体的,上述的判断装置在得到待处理文档的特征词后,可以去除该特征词中的噪音词,例如:“啊”、“哈”等词,然后可以计算去除噪音词后的特征词的权重。
具体的,上述的判断装置可以采用文档频率法计算去噪处理后的特征词的权重,还可以采用信息增益法计算去噪处理后的特征词的权重。
S113,通过哈希算法计算去噪处理后的特征词的哈希值,并根据去噪处理后的特征词的哈希值和去噪处理后的特征词的权重,对去噪处理后的特征词的哈希值进行加权处理,得到加权处理后的特征词的哈希值。
具体的,上述的判断装置在对待处理文档的特征词进行去噪处理后,可以通过哈希算法计算去噪处理后的特征词的哈希值,然后可以根据去噪处理后的特征词的哈希值和去噪处理后的特征词的权重,对去噪处理后的特征词的哈希值进行加权处理,得到加权处理后的特征词的哈希值。
例如,假设去噪处理后的特征词为“人们”、“生活”、“美好”,特征词“人们”的哈希值为“101110”,权重为4;特征词“生活”的哈希值为“100011”,权重为3;特征词“美好”的哈希值为“110010”,权重为5。特征词“人们”加权处理后的哈希值为“4,-4,4,4,4,-4”,特征词“生活”加权处理后的哈希值为“3,-3,-3,-3,3,3”,特征词“美好”加权处理后的哈希值为“5,5,-5,-5,5,-5”。
S114,对加权处理后的特征词的哈希值进行合并降维处理,得到待处理文档的simhash签名。
具体的,上述的判断装置在计算得到每个特征词加权处理后的哈希值后,在本步骤中,可以对加权处理后的特征词的哈希值进行合并降维处理,从而可以得到该待处理文档的simhash签名。
例如,对特征词“人们”、“生活”、“美好”的加权处理后的哈希值进行合并降维处理。对特征词“人们”、“生活”、“美好”加权处理后的哈希值进行合并后为“12,-2,-4,-4,12,-6”。然后对合并后的哈希值进行降维处理。
具体的,在对合并后的哈希值进行降维处理时,可以将小于0或等于0的数值计为0,将大于0的数计为1,例如对“12,-2,-4,-4,12,-6”进行降维处理后为“1,0,0,0,1,0”。然后可以将降维处理后的“1,0,0,0,1,0”作为待处理文档的simhash签名。
通过本发明实施例的一种原创文档判断方法计算待处理文档的simhash签名,可以使得在后续判断时,能够更快速的进行判断。降低判断过程的时间开销,提高判断效率。
上述的判断装置通过采用simhash算法计算待处理文档的simhash签名,可以在后续计算相似度时,更快速的进行计算。
S120,从预设原创文档库中获取第一原创文档的simhash签名,根据待处理文档的simhash签名与第一原创文档的simhash签名,计算待处理文档与第一原创文档的相似度。
其中,第一原创文档为预设原创文档库中的任一原创文档,预设原创文档库中预先存储有多个原创文档。
具体的,上述的判断装置在计算出待处理文档的simhash签名后,可以从预设原创文档库中随机获取一个第一原创文档的simhash签名,然后根据根据待处理文档的simhash签名与第一原创文档的simhash签名,可以计算上述两个文档的simhash签名的海明距离,作为待处理文档与第一原创文档的相似度。
在本发明实施例的一种可能的实现方式中,本发明实施例的一种原创文档判断方法还提供了一种预设原创文档库的构建方法,该方法可以包括:
A,获取各原创文档,并计算各原创文档的simhash签名。
B,将各原创文档的simhash签名和各原创文档存储在预设数据库中,得到预设原创文档库。
具体的,上述的判断装置可以首先获取各原创文档,然后可以计算各原创文档的simhash签名,在计算出每个原创文档的simhash签名后,可以将各原创文档的simhash签名和各原创文档存储在一个预设数据库中,得到预设原创文档库。
通过本步骤预先构建预设原创文档库,可以在判断待处理文档是否为原创文档时,可以直接从预设原创文档库中获取任一原创文档的simhash签名,减少对原创文档进行处理的过程,提高判断的速度,降低判断过程的时间开销。
在本步骤中,通过采用simhash签名,计算两个文档的海明距离,作为待处理文档与第一原创文档的相似度,可以使得计算相似度的速度更快,减少应用本发明实施例的一种原创文档判断方法的时间开销,提高判断速度。
S130,在待处理文档与第一原创文档的相似度大于第一预设阈值时,获取第一原创文档,并与待处理文档进行全文对比。
其中,该第一预设阈值可以是预先根据经验设置的相似度阈值。
具体的,上述的判断装置在计算出待处理文档与第一原创文档的相似度后,可以判断该相似度是否大于第一预设阈值,当该相似度大于第一预设阈值时,则说明经过初步判断,待处理文档与第一原创文档比较相似,为了进一步确认该待处理文档是否为原创文档,上述的判断装置可以获取该第一原创文档,并与待处理文档进行全文对比。
在一些示例中,上述的判断装置可以根据该第一原创文档的simhash签名获取到该第一原创文档的标识信息,然后通过该第一原创文档的标识信息获取到该第一原创文档。
S140,获取待处理文档中与第一原创文档的相同内容,并计算相同内容在第一原创文档中所占比例。
具体的,上述的判断装置在对第一原创文档和待处理文档进行全文对比后,可以在待处理文档中获取与第一原创文档相同的内容,然后可以计算该相同的内容在第一原创文档中所占的比例。
在一些示例中,在计算该相同的内容在第一原创文档中所占的比例时,可以计算该相同的内容的字数在第一原创文档所有字数中所占的比例。
在一些示例中,还可以计算该相同的内容中的特征词在第一原创文档的所有特征词中所占的比例。
S150,判断相同内容在第一原创文档中所占比例是否大于或等于第二预设阈值,在相同内容在第一原创文档中所占比例大于或等于第二预设阈值时,将待处理文档标记为非原创文档,在相同内容在第一原创文档中所占比例小于第二预设阈值时,将待处理文档标记为原创文档。
其中,该第二预设阈值为预先设置的阈值,可以与第一预设阈值相同,也可以与第一预设阈值不同。
在一些示例中,上述的判断装置在计算出相同内容在第一原创文档中所占比例后,在本步骤中,可以判断该相同内容在第一原创文档中所占比例是否大于第二预设阈值。
具体的,上述的判断装置在判断相同内容在第一原创文档中所占比例大于或等于第二预设阈值时,可以将该待处理文档标记位非原创文档,在判断相同内容在第一原创文档中所占比例小于第二预设阈值时,将待处理文档标记为原创文档。这样,可以快速实现对用户提交的文档进行判断。
本发明实施例提供的一种原创文档判断方法,通过首先接收用户终端发送的待处理文档,并采用simhash算法计算待处理文档的simhash签名;然后从预设原创文档库中获取第一原创文档的simhash签名,根据待处理文档的simhash签名与第一原创文档的simhash签名,计算待处理文档与第一原创文档的相似度,在待处理文档与第一原创文档的相似度大于第一预设阈值时,获取第一原创文档,并与待处理文档进行全文对比;获取待处理文档中与第一原创文档的相同内容,并计算相同内容在第一原创文档中所占比例;最后,判断相同内容在第一原创文档中所占比例是否大于或等于第二预设阈值,在相同内容在第一原创文档中所占比例大于或等于第二预设阈值时,将待处理文档标记为非原创文档,在相同内容在第一原创文档中所占比例小于第二预设阈值时,将待处理文档标记为原创文档。可以提高原创文档确定的准确性,还可以提高判断速度,降低判断过程的时间开销。
在本发明实施例一种可选的实施例中,为了能够收集更多的原创文档,并且提高应用本发明实施例的一种原创文档判断方法的准确性,本发明实施例还提供了一种可选的实施方式,如图3所示,为本发明实施例的一种原创文档判断方法第二种实施方式的流程图,在S150,将待处理文档标记为原创文档之后,本发明实施例的一种原创文档判断方法,还可以包括:
S160,将待处理文档的simhash签名和待处理文档存储在预设原创文档库中。
具体的,当上述的判断装置在判断待处理文档为原创文档后,可以将该待处理文档的simhash签名和该待处理文档存储在预设原创文档库中。
在一些示例中,上述的判断装置可以给该待处理文档设置一个标识信息,然后将该标识信息、待处理文档的simhash签名和待处理文档共同存储在预设原创文档库中,在从预设原创文档库中获取原创文档时,可以根据标识信息获取该原创文档的simhash签名或者该原创文档。
通过本步骤,可以实现对预设原创文档库的丰富,从而可以在对用户提交其他待处理文档进行判断时,提高判断的准确性。
相应于上述方法实施例,本发明实施例还提供了一种原创文档判断装置,如图4所示,为本发明实施例的一种原创文档判断装置的结构示意图,该装置可以包括:
接收计算模块410,用于接收用户终端发送的待处理文档,并采用simhash算法计算待处理文档的simhash签名;
相似度计算模块420,用于从预设原创文档库中获取第一原创文档的simhash签名,根据待处理文档的simhash签名与第一原创文档的simhash签名,计算待处理文档与第一原创文档的相似度,其中,第一原创文档为预设原创文档库中的任一原创文档;
对比模块430,用于在待处理文档与第一原创文档的相似度大于第一预设阈值时,获取第一原创文档,并与待处理文档进行全文对比;
比例计算模块440,用于获取待处理文档中与第一原创文档的相同内容,并计算相同内容在第一原创文档中所占比例;
判断模块450,用于判断相同内容在第一原创文档中所占比例是否大于或等于第二预设阈值,在相同内容在第一原创文档中所占比例大于或等于第二预设阈值时,将待处理文档标记为非原创文档,在相同内容在第一原创文档中所占比例小于第二预设阈值时,将待处理文档标记为原创文档。
本发明实施例提供的一种原创文档判断装置,通过首先接收用户终端发送的待处理文档,并采用simhash算法计算待处理文档的simhash签名;然后从预设原创文档库中获取第一原创文档的simhash签名,根据待处理文档的simhash签名与第一原创文档的simhash签名,计算待处理文档与第一原创文档的相似度,在待处理文档与第一原创文档的相似度大于第一预设阈值时,获取第一原创文档,并与待处理文档进行全文对比;获取待处理文档中与第一原创文档的相同内容,并计算相同内容在第一原创文档中所占比例;最后,判断相同内容在第一原创文档中所占比例是否大于或等于第二预设阈值,在相同内容在第一原创文档中所占比例大于或等于第二预设阈值时,将待处理文档标记为非原创文档,在相同内容在第一原创文档中所占比例小于第二预设阈值时,将待处理文档标记为原创文档。可以提高原创文档确定的准确性,还可以提高判断速度,降低判断过程的时间开销。
具体的,接收计算模块410,包括:
特征词计算子模块,用于获取用户终端发送的待处理文档,对待处理文档进行分词处理,得到待处理文档的特征词;
权重计算子模块,用于对待处理文档的特征词进行去噪处理,并计算去噪处理后的特征词的权重;
哈希值计算子模块,用于通过哈希算法计算去噪处理后的特征词的哈希值,并根据去噪处理后的特征词的哈希值和去噪处理后的特征词的权重,对去噪处理后的特征词的哈希值进行加权处理,得到加权处理后的特征词的哈希值;
签名计算子模块,用于对加权处理后的特征词的哈希值进行合并降维处理,得到待处理文档的simhash签名。
具体的,本发明实施例的一种原创文档判断装置,还可以包括:
原创文档获取模块,用于获取各原创文档,并计算各原创文档的simhash签名;
第一存储模块,用于将各原创文档的simhash签名和各原创文档存储在预设数据库中,得到预设原创文档库。
具体的,本发明实施例的一种原创文档判断装置,还包括:
第二存储模块,用于在将待处理文档标记为原创文档之后,将待处理文档的simhash签名和待处理文档存储在预设原创文档库中。
本发明实施例还提供了一种电子设备,如图5所示,为本发明实施例的一种电子设备的结构示意图,该电子设备可以包括处理器510、通信接口520、存储器530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信,
存储器530,用于存放计算机程序;
处理器510,用于执行存储器530上所存放的程序时,实现如下步骤:
接收用户终端发送的待处理文档,并采用simhash算法计算待处理文档的simhash签名;
从预设原创文档库中获取第一原创文档的simhash签名,根据待处理文档的simhash签名与第一原创文档的simhash签名,计算待处理文档与第一原创文档的相似度,其中,第一原创文档为预设原创文档库中的任一原创文档;
在待处理文档与第一原创文档的相似度大于第一预设阈值时,获取第一原创文档,并与待处理文档进行全文对比;
获取待处理文档中与第一原创文档的相同内容,并计算相同内容在第一原创文档中所占比例;
判断相同内容在第一原创文档中所占比例是否大于或等于第二预设阈值,在相同内容在第一原创文档中所占比例大于或等于第二预设阈值时,将待处理文档标记为非原创文档,在相同内容在第一原创文档中所占比例小于第二预设阈值时,将待处理文档标记为原创文档。
本发明实施例提供的一种电子设备,通过首先接收用户终端发送的待处理文档,并采用simhash算法计算待处理文档的simhash签名;然后从预设原创文档库中获取第一原创文档的simhash签名,根据待处理文档的simhash签名与第一原创文档的simhash签名,计算待处理文档与第一原创文档的相似度,在待处理文档与第一原创文档的相似度大于第一预设阈值时,获取第一原创文档,并与待处理文档进行全文对比;获取待处理文档中与第一原创文档的相同内容,并计算相同内容在第一原创文档中所占比例;最后,判断相同内容在第一原创文档中所占比例是否大于或等于第二预设阈值,在相同内容在第一原创文档中所占比例大于或等于第二预设阈值时,将待处理文档标记为非原创文档,在相同内容在第一原创文档中所占比例小于第二预设阈值时,将待处理文档标记为原创文档。可以提高原创文档确定的准确性,还可以提高判断速度,降低判断过程的时间开销。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现以上任一所述的一种原创文档判断方法的步骤。
本发明实施例提供的一种计算机可读存储介质,通过首先接收用户终端发送的待处理文档,并采用simhash算法计算待处理文档的simhash签名;然后从预设原创文档库中获取第一原创文档的simhash签名,根据待处理文档的simhash签名与第一原创文档的simhash签名,计算待处理文档与第一原创文档的相似度,在待处理文档与第一原创文档的相似度大于第一预设阈值时,获取第一原创文档,并与待处理文档进行全文对比;获取待处理文档中与第一原创文档的相同内容,并计算相同内容在第一原创文档中所占比例;最后,判断相同内容在第一原创文档中所占比例是否大于或等于第二预设阈值,在相同内容在第一原创文档中所占比例大于或等于第二预设阈值时,将待处理文档标记为非原创文档,在相同内容在第一原创文档中所占比例小于第二预设阈值时,将待处理文档标记为原创文档。可以提高原创文档确定的准确性,还可以提高判断速度,降低判断过程的时间开销。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种原创文档判断方法,其特征在于,所述方法包括:
接收用户终端发送的待处理文档,并采用simhash算法计算所述待处理文档的simhash签名;
从预设原创文档库中获取第一原创文档的simhash签名,根据所述待处理文档的simhash签名与所述第一原创文档的simhash签名,计算所述待处理文档与所述第一原创文档的相似度,其中,所述第一原创文档为所述预设原创文档库中的任一原创文档;
在所述待处理文档与所述第一原创文档的相似度大于第一预设阈值时,获取所述第一原创文档,并与所述待处理文档进行全文对比;
获取所述待处理文档中与所述第一原创文档的相同内容,并计算所述相同内容在所述第一原创文档中所占比例;
判断所述相同内容在所述第一原创文档中所占比例是否大于或等于第二预设阈值,在所述相同内容在所述第一原创文档中所占比例大于或等于第二预设阈值时,将所述待处理文档标记为非原创文档,在所述相同内容在所述第一原创文档中所占比例小于第二预设阈值时,将所述待处理文档标记为原创文档。
2.根据权利要求1所述的方法,其特征在于,所述接收用户终端发送的待处理文档,并采用simhash算法计算所述待处理文档的simhash签名,包括:
获取用户终端发送的待处理文档,对所述待处理文档进行分词处理,得到所述待处理文档的特征词;
对所述待处理文档的特征词进行去噪处理,并计算去噪处理后的特征词的权重;
通过哈希算法计算去噪处理后的特征词的哈希值,并根据所述去噪处理后的特征词的哈希值和所述去噪处理后的特征词的权重,对所述去噪处理后的特征词的哈希值进行加权处理,得到加权处理后的特征词的哈希值;
对所述加权处理后的特征词的哈希值进行合并降维处理,得到所述待处理文档的simhash签名。
3.根据权利要求1所述的方法,其特征在于,所述预设原创文档库的构建方法包括:
获取各原创文档,并计算所述各原创文档的simhash签名;
将所述各原创文档的simhash签名和所述各原创文档存储在预设数据库中,得到所述预设原创文档库。
4.根据权利要求1-3任一项所述的方法,其特征在于,在将所述待处理文档标记为原创文档之后,所述方法还包括:
将所述待处理文档的simhash签名和所述待处理文档存储在所述预设原创文档库中。
5.一种原创文档判断装置,其特征在于,所述装置包括:
接收计算模块,用于接收用户终端发送的待处理文档,并采用simhash算法计算所述待处理文档的simhash签名;
相似度计算模块,用于从预设原创文档库中获取第一原创文档的simhash签名,根据所述待处理文档的simhash签名与所述第一原创文档的simhash签名,计算所述待处理文档与所述第一原创文档的相似度,其中,所述第一原创文档为所述预设原创文档库中的任一原创文档;
对比模块,用于在所述待处理文档与所述第一原创文档的相似度大于第一预设阈值时,获取所述第一原创文档,并与所述待处理文档进行全文对比;
比例计算模块,用于获取所述待处理文档中与所述第一原创文档的相同内容,并计算所述相同内容在所述第一原创文档中所占比例;
判断模块,用于判断所述相同内容在所述第一原创文档中所占比例是否大于或等于第二预设阈值,在所述相同内容在所述第一原创文档中所占比例大于或等于第二预设阈值时,将所述待处理文档标记为非原创文档,在所述相同内容在所述第一原创文档中所占比例小于第二预设阈值时,将所述待处理文档标记为原创文档。
6.根据权利要求5所述的装置,其特征在于,所述接收计算模块,包括:
特征词计算子模块,用于获取用户终端发送的待处理文档,对所述待处理文档进行分词处理,得到所述待处理文档的特征词;
权重计算子模块,用于对所述待处理文档的特征词进行去噪处理,并计算去噪处理后的特征词的权重;
哈希值计算子模块,用于通过哈希算法计算去噪处理后的特征词的哈希值,并根据所述去噪处理后的特征词的哈希值和所述去噪处理后的特征词的权重,对所述去噪处理后的特征词的哈希值进行加权处理,得到加权处理后的特征词的哈希值;
签名计算子模块,用于对所述加权处理后的特征词的哈希值进行合并降维处理,得到所述待处理文档的simhash签名。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
原创文档获取模块,用于获取各原创文档,并计算所述各原创文档的simhash签名;
第一存储模块,用于将所述各原创文档的simhash签名和所述各原创文档存储在预设数据库中,得到所述预设原创文档库。
8.根据权利要求5-7任一项所述的装置,其特征在于,所述装置还包括:
第二存储模块,用于在将所述待处理文档标记为原创文档之后,将所述待处理文档的simhash签名和所述待处理文档存储在所述预设原创文档库中。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。
CN201711444999.9A 2017-12-27 2017-12-27 一种原创文档判断方法、装置、电子设备及存储介质 Pending CN108009599A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711444999.9A CN108009599A (zh) 2017-12-27 2017-12-27 一种原创文档判断方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711444999.9A CN108009599A (zh) 2017-12-27 2017-12-27 一种原创文档判断方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN108009599A true CN108009599A (zh) 2018-05-08

Family

ID=62061671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711444999.9A Pending CN108009599A (zh) 2017-12-27 2017-12-27 一种原创文档判断方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN108009599A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067738A (zh) * 2018-07-27 2018-12-21 平安科技(深圳)有限公司 一种端口的漏洞检测方法、终端及计算机可读介质
CN109241505A (zh) * 2018-10-09 2019-01-18 北京奔影网络科技有限公司 文本去重方法及装置
CN110347806A (zh) * 2019-07-23 2019-10-18 深圳前海微众银行股份有限公司 原创文本甄别方法、装置、设备与计算机可读存储介质
CN110765756A (zh) * 2019-10-29 2020-02-07 北京齐尔布莱特科技有限公司 一种文本处理方法、装置、计算设备及介质
CN111143744A (zh) * 2019-12-26 2020-05-12 杭州安恒信息技术股份有限公司 一种web资产检测的方法、装置、设备及可读存储介质
CN111259218A (zh) * 2020-01-09 2020-06-09 中国搜索信息科技股份有限公司 一种原创新闻信息识别方法
CN111444450A (zh) * 2019-01-16 2020-07-24 北大方正集团有限公司 转载数据确定方法及设备
CN113129056A (zh) * 2021-04-15 2021-07-16 微梦创科网络科技(中国)有限公司 一种控制广告投放频次的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315622A (zh) * 2007-05-30 2008-12-03 香港中文大学 检测文件相似度的系统及方法
US20120215853A1 (en) * 2011-02-17 2012-08-23 Microsoft Corporation Managing Unwanted Communications Using Template Generation And Fingerprint Comparison Features
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN106844314A (zh) * 2017-02-21 2017-06-13 北京焦点新干线信息技术有限公司 一种文章的查重方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315622A (zh) * 2007-05-30 2008-12-03 香港中文大学 检测文件相似度的系统及方法
US20120215853A1 (en) * 2011-02-17 2012-08-23 Microsoft Corporation Managing Unwanted Communications Using Template Generation And Fingerprint Comparison Features
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN106844314A (zh) * 2017-02-21 2017-06-13 北京焦点新干线信息技术有限公司 一种文章的查重方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MADUJIN: "浅谈simhash及其python实现", 《HTTPS://BLOG.CSDN.NET/MADUJIN/ARTICLE/DETAILS/53152619》 *
董苑等: "基于语义词典和词频信息的文本相似度计算", 《计算机科学》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067738A (zh) * 2018-07-27 2018-12-21 平安科技(深圳)有限公司 一种端口的漏洞检测方法、终端及计算机可读介质
CN109067738B (zh) * 2018-07-27 2021-06-29 平安科技(深圳)有限公司 一种端口的漏洞检测方法、终端及计算机可读介质
CN109241505A (zh) * 2018-10-09 2019-01-18 北京奔影网络科技有限公司 文本去重方法及装置
CN111444450A (zh) * 2019-01-16 2020-07-24 北大方正集团有限公司 转载数据确定方法及设备
WO2021012958A1 (zh) * 2019-07-23 2021-01-28 深圳前海微众银行股份有限公司 原创文本甄别方法、装置、设备与计算机可读存储介质
CN110347806A (zh) * 2019-07-23 2019-10-18 深圳前海微众银行股份有限公司 原创文本甄别方法、装置、设备与计算机可读存储介质
CN110347806B (zh) * 2019-07-23 2024-02-06 深圳前海微众银行股份有限公司 原创文本甄别方法、装置、设备与计算机可读存储介质
CN110765756A (zh) * 2019-10-29 2020-02-07 北京齐尔布莱特科技有限公司 一种文本处理方法、装置、计算设备及介质
CN110765756B (zh) * 2019-10-29 2023-12-01 北京齐尔布莱特科技有限公司 一种文本处理方法、装置、计算设备及介质
CN111143744A (zh) * 2019-12-26 2020-05-12 杭州安恒信息技术股份有限公司 一种web资产检测的方法、装置、设备及可读存储介质
CN111143744B (zh) * 2019-12-26 2023-10-13 杭州安恒信息技术股份有限公司 一种web资产检测的方法、装置、设备及可读存储介质
CN111259218A (zh) * 2020-01-09 2020-06-09 中国搜索信息科技股份有限公司 一种原创新闻信息识别方法
CN111259218B (zh) * 2020-01-09 2020-10-27 中国搜索信息科技股份有限公司 一种原创新闻信息识别方法
CN113129056A (zh) * 2021-04-15 2021-07-16 微梦创科网络科技(中国)有限公司 一种控制广告投放频次的方法及系统

Similar Documents

Publication Publication Date Title
CN108009599A (zh) 一种原创文档判断方法、装置、电子设备及存储介质
US11086912B2 (en) Automatic questioning and answering processing method and automatic questioning and answering system
US20240073213A1 (en) System and method for handling user requests for web services
US20140122294A1 (en) Determining a characteristic group
CN102306287B (zh) 一种用于识别敏感图像的方法与设备
CN108875040A (zh) 词典更新方法及计算机可读存储介质
CN107133221A (zh) 信息审核方法、装置、计算机可读介质和电子设备
CN106649221A (zh) 重复文本的检测方法及装置
CN108255836B (zh) 一种字符串匹配方法及装置
CN107766467A (zh) 一种信息检测方法、装置、电子设备及存储介质
CN104778283A (zh) 一种基于微博的用户职业分类方法及系统
CN109145116A (zh) 一种文本分类方法、装置、电子设备及存储介质
WO2023029350A1 (zh) 基于点击行为预测的信息推送方法及装置
WO2019114246A1 (zh) 一种身份认证方法、服务器及客户端设备
CN112508200A (zh) 处理机器学习模型文件的方法、装置、设备、介质和程序
CN111177372A (zh) 一种科技成果的分类方法、装置、设备及介质
US11115399B2 (en) Method and apparatus for generating an intelligent primary key facilitating faster object retrieval
CN106951242B (zh) 一种漏洞验证程序的生成方法、设备及计算设备
Itkin et al. Semi-closed form prices of barrier options in the Hull-White model
CN107995167B (zh) 一种设备识别方法及服务器
US11055448B2 (en) Systems and methods for SMT processes using uninterpreted function symbols
CN107665443B (zh) 获取目标用户的方法及装置
Moroşanu et al. ANALYSIS OF STABILITY AND ERROR ESTIMATES FOR THREE METHODS APPROXIMATING A NONLINEAR REACTION-DIFFUSION EQUATION
CN108009168B (zh) 用户帐号识别方法及装置
US20170262904A1 (en) Weighted reviews of applications based on usage history

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180508

RJ01 Rejection of invention patent application after publication