CN112214984A - 内容抄袭识别方法、装置、设备及存储介质 - Google Patents
内容抄袭识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112214984A CN112214984A CN202011077536.5A CN202011077536A CN112214984A CN 112214984 A CN112214984 A CN 112214984A CN 202011077536 A CN202011077536 A CN 202011077536A CN 112214984 A CN112214984 A CN 112214984A
- Authority
- CN
- China
- Prior art keywords
- content
- plagiarism
- identified
- sentence
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims description 124
- 238000012545 processing Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种内容抄袭识别方法、装置、设备及存储介质。该方法包括:获取待识别内容,并提取待识别内容的基础特征,待识别内容包括文本、图片和视频中的至少一种;按照预设数据库中包括的内容的类型,从预设数据库中分别获取每个类型对应的多个候选内容以及每个候选内容的基础特征;根据待识别内容的基础特征和每个候选内容的基础特征,分别确定待识别内容和每个候选内容的对比特征;将待识别内容和每个候选内容的对比特征,分别输入与待识别内容的类型和每个候选内容的类型对应的抄袭识别模型,得到待识别内容对应于每个候选内容的识别结果,识别结果为确定抄袭、疑似抄袭或未抄袭,提高了抄袭识别率。
Description
技术领域
本申请涉及机器学习技术,尤其涉及一种内容抄袭识别方法、装置、设备及存储介质。
背景技术
随着互联网的发展,人们可以在各种内容平台中发表自己的原创内容,而如何保证原创作者的内容不被抄袭,维护原创作者的权益,则是平台运营方需要解决的重要问题。
相关技术中,用户在平台上发表内容时,通常平台仅会对用户发表的内容进行简单的文本重合度的检测,然而,这种方法只有在用户大篇幅抄袭他人文本的情况下,才能够被检测到抄袭。若用户采用一些替换规避手段,则这种简单的文本重合度的检测方法就无法准确识别出抄袭。
发明内容
本申请提供一种内容抄袭识别方法、装置、设备及存储介质,提高了抄袭识别率。
第一方面,本申请提供一种内容抄袭识别方法,包括:
获取待识别内容,并提取所述待识别内容的基础特征,所述待识别内容包括文本、图片和视频中的至少一种;
按照预设数据库中包括的内容的类型,从预设数据库中分别获取每个类型对应的多个候选内容以及每个所述候选内容的基础特征;
根据所述待识别内容的基础特征和每个所述候选内容的基础特征,分别确定所述待识别内容和每个所述候选内容的对比特征;
将所述待识别内容和每个所述候选内容的对比特征,分别输入与所述待识别内容的类型和每个所述候选内容的类型对应的抄袭识别模型,得到所述待识别内容对应于每个所述候选内容的识别结果,所述识别结果为确定抄袭、疑似抄袭或未抄袭。
在一种可行的实现方式中,所述基础特征包括统计类特征和/或非统计类特征;
所述根据所述待识别内容的基础特征和每个所述候选内容的基础特征,分别确定所述待识别内容和每个所述候选内容的对比特征,包括:
若所述基础特征包括统计类特征,则计算所述待识别内容的统计类特征和每个所述候选内容对应的统计类特征的差值,并将所述差值确定为所述对比特征;
若所述基础特征包括非统计类特征,则计算所述待识别内容的非统计类特征和每个所述候选内容对应的非统计类特征的相似度,并将所述相似度确定为所述对比特征。
在一种可行的实现方式中,所述基础特征包括句子向量;所述方法还包括:
根据所述待识别内容中每个句子的句子向量和预设的句子向量库,确定所述待识别内容对应于所述句子向量库的识别结果。
在一种可行的实现方式中,所述根据所述待识别内容中每个句子的句子向量和预设的句子向量库,确定所述待识别内容对应于所述句子向量库的识别结果,包括:
分别计算所述待识别内容中每个句子的句子向量和所述句子向量库中的每个句子向量的距离;
若所述待识别内容中的第一句子的句子向量与所述句子向量库中的目标句子向量的距离小于或等于预设值,则确定所述第一句子为抄袭句子;所述第一句子为所述待识别内容中的任一句子;所述目标句子向量为所述句子向量库中的任一句子向量;
根据所述待识别内容的句子中,抄袭句子的占比确定所述待识别内容对应于所述句子向量库的识别结果。
在一种可行的实现方式中,所述统计类特征包括以下至少一种:文本字数、文本段落数、文本句子数、图片数量、图片尺寸和视频长度。
在一种可行的实现方式中,所述非统计类特征包括以下至少一种:关键词、文本分类、句子向量、哈希值、图片特征向量、信息点和目的地。
在一种可行的实现方式中,所述获取待识别内容之前,所述方法还包括:
获取多个样本数据;每个所述样本数据中包括两篇样本内容和所述两篇样本的抄袭标签,所述抄袭标签为确定抄袭、疑似抄袭或未抄袭;
分别确定每个所述样本数据的对比特征,并采用所述多个样本数据的对比特征对初始抄袭识别模型进行训练,得到所述抄袭识别模型。
第二方面,本申请提供一种内容抄袭识别装置,包括:
第一处理单元,用于获取待识别内容,并提取所述待识别内容的基础特征,所述待识别内容包括文本、图片和视频中的至少一种;
第二处理单元,用于按照预设数据库中包括的内容的类型,从预设数据库中分别获取每个类型对应的多个候选内容以及每个所述候选内容的基础特征;
第三处理单元,用于根据所述待识别内容的基础特征和每个所述候选内容的基础特征,分别确定所述待识别内容和每个所述候选内容的对比特征;
识别单元,用于将所述待识别内容和每个所述候选内容的对比特征,分别输入与所述待识别内容的类型和每个所述候选内容的类型对应的抄袭识别模型,得到所述待识别内容对应于每个所述候选内容的识别结果,所述识别结果为确定抄袭、疑似抄袭或未抄袭。
在一种可行的实现方式中,所述基础特征包括统计类特征和/或非统计类特征;
所述第三处理单元用于:
若所述基础特征包括统计类特征,则计算所述待识别内容的统计类特征和每个所述候选内容对应的统计类特征的差值,并将所述差值确定为所述对比特征;
若所述基础特征包括非统计类特征,则计算所述待识别内容的非统计类特征和每个所述候选内容对应的非统计类特征的相似度,并将所述相似度确定为所述对比特征。
在一种可行的实现方式中,所述基础特征包括句子向量;所述识别单元还用于:
根据所述待识别内容中每个句子的句子向量和预设的句子向量库,确定所述待识别内容对应于所述句子向量库的识别结果。
在一种可行的实现方式中,所述识别单元用于:
分别计算所述待识别内容中每个句子的句子向量和所述句子向量库中的每个句子向量的距离;
若所述待识别内容中的第一句子的句子向量与所述句子向量库中的目标句子向量的距离小于或等于预设值,则确定所述第一句子为抄袭句子;所述第一句子为所述待识别内容中的任一句子;所述目标句子向量为所述句子向量库中的任一句子向量;
根据所述待识别内容的句子中,抄袭句子的占比确定所述待识别内容对应于所述句子向量库的识别结果。
在一种可行的实现方式中,所述统计类特征包括以下至少一种:文本字数、文本段落数、文本句子数、图片数量、图片尺寸和视频长度。
在一种可行的实现方式中,所述非统计类特征包括以下至少一种:关键词、文本分类、句子向量、哈希值、图片特征向量、信息点和目的地。
在一种可行的实现方式中,所述装置还包括训练单元,用于:
获取多个样本数据;每个所述样本数据中包括两篇样本内容和所述两篇样本的抄袭标签,所述抄袭标签为确定抄袭、疑似抄袭或未抄袭;
分别确定每个所述样本数据的对比特征,并采用所述多个样本数据的对比特征对初始抄袭识别模型进行训练,得到所述抄袭识别模型。
第三方面,本申请提供一种电子设备,包括:存储器和处理器;所述存储器和所述处理器分别连接;
所述存储器,用于存储计算机程序;
所述处理器,用于在计算机程序被执行时,实现如上述第一方面中任一项所述的方法。
第四方面,本申请一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如第一方面中任一项所述的方法。
本申请提供一种内容抄袭识别方法、装置、设备及存储介质,通过对内容中可能包括的文本、图片和视频等,提取基础特征进行计算,并获得基础特征之间的对比特征,按照待识别内容和候选内容的类型,采用不同类型的抄袭识别模型分别进行识别,由于基础特征和对比特征融合了内容包括的全部特征,并且多个抄袭识别模型可以实现不同类型的内容的识别,提高了抄袭识别率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种抄袭内容识别方法的流程示意图;
图2为本申请提供的一种抄袭内容识别装置的结构示意图;
图3为本申请提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供的内容抄袭识别方法可以广泛应用于各种内容的抄袭识别,例如新闻、论坛、博客、论文等,也可以是各类内容生态网站自定义的各种类型的内容,例如,在旅行类平台中用户发表的笔记、游记、攻略等。示例的,一篇内容中可以包括文本、图片和视频中的任一种或多种。本申请对内容形式不作具体限定。
在各种内容平台中,很多人为了谋取利益,比如提升自己的账号等级、获取内容收益等,会抄袭其他人发表的原创内容,严重影响了平台的内容生态,损害了原创作者的权益。因此,如何识别出抄袭内容,保障原创作者权益就成了一个重要的问题。
目前,相关技术中所采用的抄袭检测规则通常较为简单,例如进行文本重合度的检测,这种方法只有在用户大篇幅抄袭他人文本的情况下才能够被检测到抄袭,若用户采用一些规避手段,例如调整文本结构、转换相似词语、文本中增加图片、视频等其他内容等,则无法准确识别出抄袭。又如,内容平台上各种内容的类型众多,在内容的形式上存在较大的差异,惯常的抄袭检测往往只针对一种类型的内容,若用户在不同类型的内容之间进行抄袭,也容易无法准确识别。此外,若用户对多篇内容进行拼凑,也容易无法准确识别出抄袭。
为了提高内容抄袭的识别率,本申请提供一种内容抄袭识别方法,考虑到内容类型的多变以及内容丰富性,对待识别内容中可能存在的如文本、图片和视频等各种不同类型媒体内容,提取其基础特征进行计算,并将待识别内容的基础特征与候选内容之间的特征进行计算获得基础特征对应的对比特征,通过对比特征表征待识别内容与候选内容之间的相似度,融合不同类型的基础特征和对比特征进行模型训练,通过模型识别出抄袭标签。
此外,为解决用户对多篇内容进行拼凑的问题,本申请的方法中还加入一个碎片库,将拼凑的碎片化内容与碎片库进行比对,从而识别内容拼凑抄袭的问题。
以下结合实施例对本申请的内容抄袭识别方法进行说明。
图1为本申请提供的一种内容抄袭识别方法的流程示意图。该方法的执行主体为内容抄袭识别装置,该装置可以通过软件和/或硬件的方式实现。示例的,该装置可以为服务器或终端等。本实施例中以用户在内容平台上发表内容,平台服务器对内容是否涉及抄袭进行识别为例。如图1所示,该方法包括:
S101、获取待识别内容,并提取待识别内容的基础特征。
待识别内容包括文本、图片和视频中的至少一种。
用户在内容平台上发表内容时,示例的,用户在用户界面特定区域完成内容编辑,并点击发表按钮,则平台服务器获取到用户编辑的内容,即待识别内容。待识别内容可以包括文本、图片和视频中的一种,也可以包括多种,例如,用户发表一篇旅行攻略,其中包括了文本和图片。
可选的,对于待识别内容中的文本,其基础特征可以包括以下至少一种:文本字数、文本段落数、文本句子数、关键词、文本分类、句子向量和哈希值。
对文本进行基础特征提取时,文本字数、文本段落数、文本句子数通过统计即可获取;而关键词则需要先对文本进行分词,之后进行关键词提取;文本分类即文本标签,例如,滑雪,自驾,潜水等分类标签,可以通过标签模型获得,也可以是用户发表待识别内容时输入的标签。文本的哈希值可以是SIMHASH值,采用SIMHASH可以将文本转换成一个64位的字节。句子向量也可以通过模型获得,可以预先使用平台内已有的全部文本内容,并借助算法,例如word2vec算法,训练一个词向量模型,根据这个词向量模型获得文本中的词向量,再使用句子中出现过的词的词向量相加的方式得到句子向量。此外,平台中所有已发表的内容的句子向量可以构建一个句子向量库,句子向量库包含平台内所有内容的句子向量。
可选的,对于待识别内容中的图片,其基础特征可以包括以下至少一种:图片数量、图片尺寸和图片特征向量。
对图片进行基础特征提取时,图片数量和图片尺寸也可以通过统计获得,可选的,图片尺寸可以是待识别内容中的图片的平均尺寸。图片特征向量是采用算法提取的多维向量,示例的,可以通过image-match算法提取一个648维的图片特征向量。
可选的,对于待识别内容中的视频,首先,可以通过提取关键帧的方式将视频转换成图片,在提取图片的基础特征。因此,待识别内容中的视频的基础特征可以包括以下至少一种:图片数量、图片尺寸、图片特征向量和视频长度。
除了上述基础特征之外,用户发表待识别内容时还可以添加其他相关信息,例如对于旅行类内容,用户发表待识别内容时可以添加信息点和/或目的地,用户添加的信息点和/或目的地也可以作为待识别内容的基础特征。
S102、按照预设数据库中包括的内容的类型,从预设数据库中分别获取每个类型对应的多个候选内容以及每个候选内容的基础特征。
本步骤中预设数据库可以是内容平台的数据库,或者平台服务器可以访问的外部服务器,本实施例对此不作限定。预设数据库中包括的内容的类型根据实际应用确定。示例的,对于旅行类内容平台,其预设数据库中包括了平台中已发表的三种类型的内容,包括笔记、游记和攻略。不同类型的内容中包括的媒体类型可能存在差异,示例的,游记类的内容中包括大量图片和少量文本,笔记类的内容中包括少量图片和大量文本。
尽管不同类型的内容包括的每笔类型可能存在一定差异,但是用户仍然可能在不同类型的内容之间进行抄袭,因此,本实施例中,在进行抄袭识别时,将预设数据库中包括的所有类型的内容均作为可选的候选内容。例如,对于笔记、游记和攻略三种类型的内容,均选取其中的200篇作为候选内容,以与待识别内容进行比对。可选的,在选取候选内容时,可以将待识别内容和预设数据库中的内容进行初步匹配,例如采用文本匹配的方式,选择匹配度较高的多个内容作为候选内容。
此外,还可以从预设数据库中获取每个候选内容的基础特征,示例的,平台中已发表的每个内容的基础特征可以存储在ES数据库中,以便于后续使用中的匹配检索。
S103、根据待识别内容的基础特征和每个候选内容的基础特征,分别确定待识别内容和每个候选内容的对比特征。
对基础特征做进一步说明。在前述步骤中已经提到,待识别内容的部分基础特征是通过统计获得的,部分基础特征是采用算法或模型等方法获得的,即基础特征可以分为统计类特征和/或非统计类特征。
可选的,统计类特征包括以下至少一种:文本字数、文本段落数、文本句子数、图片数量、图片尺寸和视频长度。若基础特征中包括统计类特征,则计算待识别内容的统计类特征和每个候选内容对应的统计类特征的差值,并将差值确定为对比特征。
可选的,非统计类特征包括以下至少一种:关键词、文本分类、句子向量、哈希值、图片特征向量、信息点和目的地。若基础特征包括非统计类特征,则计算待识别内容的非统计类特征和每个候选内容对应的非统计类特征的相似度,并将相似度确定为对比特征。
示例的,对于关键词、文本分类、信息点和目的地等特征,其相似度即重合率,待识别内容和每个候选内容的每个基础特征的重合率可以分别采用如下公式进行计算:
其中,co_rate为重合率,featurenumsim是基础特征重合的数量,例如关键词重合的数量,featurenum1是待识别内容中该基础特征的数量,featurenum2是候选内容中该基础特征的数量。
对于哈希值,以SIMHASH为例,待识别内容和每个候选内容的SIMHASH相似度可以采用如下公式进行计算:
其中,simscoresimhash为SIMHASH相似度,hashcode1为待识别内容的SIMHASH值,hashcode2为候选内容的SIMHASH值,XOR表示异或运算,64为SIMHASH值的特征位数。通过异或运算得到待识别内容和候选内容的SIMHASH值的汉明距离,除以SIMHASH值的特征位数,最终得到相似度。
对于文本本身的对比,可以使用句子级别进行对比,一个是完全重合的句子数目,通过句子字符串是否相等来判断句子是否重合,句子字符串相等的数量即为句子重合的数目。另一个是使用句子向量计算句子和句子的平均相似度。对于待识别内容和候选内容,首先对其所有的句子向量进行相加,得到两个内容对应的两个句子向量和,例如待识别内容的句子向量和为A={a0,a1,…,an-1},候选内容的句子向量和为B={b0,b1,…,bn-1},那么待识别内容和每个候选内容的句子向量平均相似度可以采用如下公式进行计算:
其中,simscoresentence是句子向量平均相似度,sentence_num1是待识别内容的句子数量,sentence_num2是候选内容的句子数量。
除采用上述公式外,也可以先计算待识别内容和每个候选内容的句子向量的平均值,再进一步计算句子向量的平均值的距离,从而确定待识别内容和每个候选内容的句子向量平均相似度。
对于,图片特征向量,例如对于通过image-match算法获得的648维特征,待识别内容和候选内容的图片特征向量的欧式距离,从而确定两张图片的相似度。若距离小于预设的距离阈值,则确定两张图片相似,从而还可以得到待识别内容和候选内容中相似图片的数量。
S104、将待识别内容和每个候选内容的对比特征,分别输入与待识别内容的类型和每个候选内容的类型对应的抄袭识别模型,得到待识别内容对应于每个候选内容的识别结果;识别结果为确定抄袭、疑似抄袭或未抄袭。
本实施例中,不同类型的内容可以对应不同的抄袭识别模型,从而使得待识别内容不仅可以与同类型的候选内容进行比较识别,还可以与不同类型的候选内容进行比较识别。例如,内容的类型包括笔记、游记和攻略,相应的抄袭识别模型包括笔记-笔记、游记-游记、攻略-攻略,笔记-游记、笔记-攻略,游记-攻略这六个模型。示例的,待识别内容的类型为笔记,在步骤S102中获取到的候选内容包括笔记、游记和攻略,则按照待识别内容的类型和每个候选内容的类型,分别将待识别内容和每个候选内容的对比特征输入到笔记-笔记、笔记-游记或笔记-攻略模型中,从而得到待识别内容对应于每个候选内容的识别结果。
本实施例提供的内容抄袭识别方法,对内容中可能存在的文本、图片和视频等,提取基础特征进行计算,并获得基础特征之间的对比特征,按照待识别内容和候选内容的类型,采用不同类型的抄袭识别模型分别进行识别,由于基础特征和对比特征融合了内容包括的全部特征,并且多个抄袭识别模型可以实现不同类型的内容的识别,提高了抄袭识别率。
通过上述实施例的方法,可以确定待识别内容相对于候选内容是否存在抄袭。除此次之外,本申请的方法还包括:根据待识别内容中每个句子的句子向量和预设的句子向量库,确定待识别内容对应于句子向量库的识别结果。
在上述实施例中提到,平台中所有已发表的内容的句子向量可以构建一个预设的句子向量库,而在对待识别内容中的文本进行基础特征提取时,可以提取其文本中每个句子的句子向量,从而可以根据待识别内容中每个句子的句子向量和预设的句子向量库,确定待识别内容对应于句子向量库的识别结果。
示例的,分别计算待识别内容中每个句子的句子向量和句子向量库中的每个句子向量的距离;若待识别内容中的第一句子的句子向量与句子向量库中的目标句子向量的距离小于或等于预设值,则确定第一句子为抄袭句子;其中,第一句子为待识别内容中的任一句子,目标句子向量为句子向量库中的任一句子向量;根据待识别内容的句子中,抄袭句子的占比确定待识别内容对应于句子向量库的识别结果。
例如,抄袭句子的占比大于等于89%,则确定待识别内容对应于句子向量库的识别结果为确定抄袭;抄袭句子的占比大于等于60%且小于89%,则确定待识别内容对应于句子向量库的识别结果为疑似抄袭;抄袭句子的占比小于60%,则确定待识别内容对应于句子向量库的识别结果为未抄袭。其中,确定抄袭、疑似抄袭和未抄袭对应的占比阈值可以根据实际情况进行设置,本申请对此不做限定。
通过上述采用句子向量库的识别,可以识别出拼凑抄袭的内容,进一步提高了抄袭识别率。需要说明的是,在采用抄袭识别模型和句子向量库识别出待识别内容为确定抄袭或疑似抄袭,可以对待识别内容做进一步处理,例如对待识别内容进行删除、限流、封号等操作。对于为未抄袭的情况,则可以对待识别内容进行正常发表。
上述实施例中说明了采用抄袭识别模型进行抄袭识别,那么在使用抄袭识别模型之前,需要进行模型训练。从而本申请的方法还包括:
获取多个样本数据;每个样本数据中包括两篇样本内容和两篇样本的抄袭标签,抄袭标签为确定抄袭、疑似抄袭或未抄袭;分别确定每个样本数据的对比特征,并采用多个样本数据的对比特征对初始抄袭识别模型进行训练,得到抄袭识别模型。
模型训练采用的样本数据为人工标注的数据,其中,抄袭标签为未抄袭的两篇样本内容可以为随机生成的内容,而抄袭标签为确定抄袭或疑似抄袭的两篇样本内容则可以是人工对一篇内容进行修改等方法得到的相似内容。对于每个样本数据,采用图1所示实施例中的方法提取其中的两篇样本内容各自的基础特征,并获取这两篇样本内容的对比特征,采用样本数据的对比特征对初始抄袭识别模型进行训练,示例的,初始抄袭识别模型可以采用xgboost算法,训练得到实际使用的抄袭识别模型。
图2为本申请提供的一种内容抄袭识别装置的结构示意图。如图2所示,内容抄袭识别装置20包括:
第一处理单元201,用于获取待识别内容,并提取待识别内容的基础特征,待识别内容包括文本、图片和视频中的至少一种;
第二处理单元202,用于按照预设数据库中包括的内容的类型,从预设数据库中分别获取每个类型对应的多个候选内容以及每个候选内容的基础特征;
第三处理单元203,用于根据待识别内容的基础特征和每个候选内容的基础特征,分别确定待识别内容和每个候选内容的对比特征;
识别单元204,用于将待识别内容和每个候选内容的对比特征,分别输入与待识别内容的类型和每个候选内容的类型对应的抄袭识别模型,得到待识别内容对应于每个候选内容的识别结果,识别结果为确定抄袭、疑似抄袭或未抄袭。
在一种可行的实现方式中,基础特征包括统计类特征和/或非统计类特征;
第三处理单元203用于:
若基础特征包括统计类特征,则计算待识别内容的统计类特征和每个候选内容对应的统计类特征的差值,并将差值确定为对比特征;
若基础特征包括非统计类特征,则计算待识别内容的非统计类特征和每个候选内容对应的非统计类特征的相似度,并将相似度确定为对比特征。
在一种可行的实现方式中,基础特征包括句子向量;识别单元204还用于:
根据待识别内容中每个句子的句子向量和预设的句子向量库,确定待识别内容对应于句子向量库的识别结果。
在一种可行的实现方式中,识别单元204用于:
分别计算待识别内容中每个句子的句子向量和句子向量库中的每个句子向量的距离;
若待识别内容中的第一句子的句子向量与句子向量库中的目标句子向量的距离小于或等于预设值,则确定第一句子为抄袭句子;第一句子为待识别内容中的任一句子;目标句子向量为句子向量库中的任一句子向量;
根据待识别内容的句子中,抄袭句子的占比确定待识别内容对应于句子向量库的识别结果。
在一种可行的实现方式中,统计类特征包括以下至少一种:文本字数、文本段落数、文本句子数、图片数量、图片尺寸和视频长度。
在一种可行的实现方式中,非统计类特征包括以下至少一种:关键词、文本分类、句子向量、哈希值、图片特征向量、信息点和目的地。
在一种可行的实现方式中,装置还包括训练单元205,用于:
获取多个样本数据;每个样本数据中包括两篇样本内容和两篇样本的抄袭标签,抄袭标签为确定抄袭、疑似抄袭或未抄袭;
分别确定每个样本数据的对比特征,并采用多个样本数据的对比特征对初始抄袭识别模型进行训练,得到抄袭识别模型。
本实施例提供的装置可用于执行上述任一方法实施例中的内容抄袭识别方法,其实现原理和技术效果类似,此处不再赘述。
图3为本申请提供的一种电子设备的结构示意图。如图3所示,电子设备30包括:存储器301和处理器203;存储器301和处理器302通过总线303连接;
存储器301,用于存储计算机程序;
处理器302,用于在计算机程序被执行时,实现如上述任一方法实施例的内容抄袭识别方法。
本申请一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现如上述任一实施例中的内容抄袭识别方法。
可选的,上述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法实施例中的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
在本申请中,术语“包括”及其变形可以指非限制性的包括;术语“或”及其变形可以指“和/或”。本本申请中术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。本申请中,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
Claims (10)
1.一种内容抄袭识别方法,其特征在于,包括:
获取待识别内容,并提取所述待识别内容的基础特征,所述待识别内容包括文本、图片和视频中的至少一种;
按照预设数据库中包括的内容的类型,从所述预设数据库中分别获取每个类型对应的多个候选内容以及每个所述候选内容的基础特征;
根据所述待识别内容的基础特征和每个所述候选内容的基础特征,分别确定所述待识别内容和每个所述候选内容的对比特征;
将所述待识别内容和每个所述候选内容的对比特征,分别输入与所述待识别内容的类型和每个所述候选内容的类型对应的抄袭识别模型,得到所述待识别内容对应于每个所述候选内容的识别结果,所述识别结果为确定抄袭、疑似抄袭或未抄袭。
2.根据权利要求1所述的方法,其特征在于,所述基础特征包括统计类特征和/或非统计类特征;
所述根据所述待识别内容的基础特征和每个所述候选内容的基础特征,分别确定所述待识别内容和每个所述候选内容的对比特征,包括:
若所述基础特征包括统计类特征,则计算所述待识别内容的统计类特征和每个所述候选内容对应的统计类特征的差值,并将所述差值确定为所述对比特征;
若所述基础特征包括非统计类特征,则计算所述待识别内容的非统计类特征和每个所述候选内容对应的非统计类特征的相似度,并将所述相似度确定为所述对比特征。
3.根据权利要求1所述的方法,其特征在于,所述基础特征包括句子向量;所述方法还包括:
根据所述待识别内容中每个句子的句子向量和预设的句子向量库,确定所述待识别内容对应于所述句子向量库的识别结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述待识别内容中每个句子的句子向量和预设的句子向量库,确定所述待识别内容对应于所述句子向量库的识别结果,包括:
分别计算所述待识别内容中每个句子的句子向量和所述句子向量库中的每个句子向量的距离;
若所述待识别内容中的第一句子的句子向量与所述句子向量库中的目标句子向量的距离小于或等于预设值,则确定所述第一句子为抄袭句子;所述第一句子为所述待识别内容中的任一句子;所述目标句子向量为所述句子向量库中的任一句子向量;
根据所述待识别内容的句子中,抄袭句子的占比确定所述待识别内容对应于所述句子向量库的识别结果。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述统计类特征包括以下至少一种:文本字数、文本段落数、文本句子数、图片数量、图片尺寸和视频长度。
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述非统计类特征包括以下至少一种:关键词、文本分类、句子向量、哈希值、图片特征向量、信息点和目的地。
7.根据权利要求1-4中任一项所述的方法,其特征在于,所述获取待识别内容之前,所述方法还包括:
获取多个样本数据;每个所述样本数据中包括两篇样本内容和所述两篇样本的抄袭标签,所述抄袭标签为确定抄袭、疑似抄袭或未抄袭;
分别确定每个所述样本数据的对比特征,并采用所述多个样本数据的对比特征对初始抄袭识别模型进行训练,得到所述抄袭识别模型。
8.一种内容抄袭识别装置,其特征在于,包括:
第一处理单元,用于获取待识别内容,并提取所述待识别内容的基础特征,所述待识别内容包括文本、图片和视频中的至少一种;
第二处理单元,用于按照预设数据库中包括的内容的类型,从预设数据库中分别获取每个类型对应的多个候选内容以及每个所述候选内容的基础特征;
第三处理单元,用于根据所述待识别内容的基础特征和每个所述候选内容的基础特征,分别确定所述待识别内容和每个所述候选内容的对比特征;
识别单元,用于将所述待识别内容和每个所述候选内容的对比特征,分别输入与所述待识别内容的类型和每个所述候选内容的类型对应的抄袭识别模型,得到所述待识别内容对应于每个所述候选内容的识别结果,所述识别结果为确定抄袭、疑似抄袭或未抄袭。
9.一种电子设备,其特征在于,包括:存储器和处理器;所述存储器和所述处理器连接;
所述存储器,用于存储计算机程序;
所述处理器,用于在计算机程序被执行时,实现如上述权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011077536.5A CN112214984A (zh) | 2020-10-10 | 2020-10-10 | 内容抄袭识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011077536.5A CN112214984A (zh) | 2020-10-10 | 2020-10-10 | 内容抄袭识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112214984A true CN112214984A (zh) | 2021-01-12 |
Family
ID=74053058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011077536.5A Pending CN112214984A (zh) | 2020-10-10 | 2020-10-10 | 内容抄袭识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112214984A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821675A (zh) * | 2021-06-30 | 2021-12-21 | 腾讯科技(北京)有限公司 | 视频识别方法、装置、电子设备及计算机可读存储介质 |
CN113821709A (zh) * | 2021-09-26 | 2021-12-21 | 土巴兔集团股份有限公司 | 一种装修案例审核方法及其相关设备 |
CN114357977A (zh) * | 2022-03-18 | 2022-04-15 | 北京创新乐知网络技术有限公司 | 一种反抄袭实现方法、系统、设备及存储介质 |
CN114692006A (zh) * | 2022-06-01 | 2022-07-01 | 深圳市启程教育科技有限公司 | 一种基于大数据的教育资源共享系统及方法 |
CN113821675B (zh) * | 2021-06-30 | 2024-06-07 | 腾讯科技(北京)有限公司 | 视频识别方法、装置、电子设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101599226A (zh) * | 2009-07-08 | 2009-12-09 | 广州市麦氏电子科技有限公司 | 新型交互式电教界面 |
CN106202543A (zh) * | 2016-07-27 | 2016-12-07 | 苏州家佳宝妇幼医疗科技有限公司 | 基于机器学习的本体匹配方法和系统 |
CN107463605A (zh) * | 2017-06-21 | 2017-12-12 | 北京百度网讯科技有限公司 | 低质新闻资源的识别方法及装置、计算机设备及可读介质 |
US20190221204A1 (en) * | 2018-01-18 | 2019-07-18 | Citrix Systems, Inc. | Intelligent short text information retrieve based on deep learning |
-
2020
- 2020-10-10 CN CN202011077536.5A patent/CN112214984A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101599226A (zh) * | 2009-07-08 | 2009-12-09 | 广州市麦氏电子科技有限公司 | 新型交互式电教界面 |
CN106202543A (zh) * | 2016-07-27 | 2016-12-07 | 苏州家佳宝妇幼医疗科技有限公司 | 基于机器学习的本体匹配方法和系统 |
CN107463605A (zh) * | 2017-06-21 | 2017-12-12 | 北京百度网讯科技有限公司 | 低质新闻资源的识别方法及装置、计算机设备及可读介质 |
US20180373751A1 (en) * | 2017-06-21 | 2018-12-27 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for recognizing a low-quality news resource, computer device and readable medium |
US20190221204A1 (en) * | 2018-01-18 | 2019-07-18 | Citrix Systems, Inc. | Intelligent short text information retrieve based on deep learning |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821675A (zh) * | 2021-06-30 | 2021-12-21 | 腾讯科技(北京)有限公司 | 视频识别方法、装置、电子设备及计算机可读存储介质 |
CN113821675B (zh) * | 2021-06-30 | 2024-06-07 | 腾讯科技(北京)有限公司 | 视频识别方法、装置、电子设备及计算机可读存储介质 |
CN113821709A (zh) * | 2021-09-26 | 2021-12-21 | 土巴兔集团股份有限公司 | 一种装修案例审核方法及其相关设备 |
CN114357977A (zh) * | 2022-03-18 | 2022-04-15 | 北京创新乐知网络技术有限公司 | 一种反抄袭实现方法、系统、设备及存储介质 |
CN114357977B (zh) * | 2022-03-18 | 2022-06-14 | 北京创新乐知网络技术有限公司 | 一种反抄袭实现方法、系统、设备及存储介质 |
CN114692006A (zh) * | 2022-06-01 | 2022-07-01 | 深圳市启程教育科技有限公司 | 一种基于大数据的教育资源共享系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112214984A (zh) | 内容抄袭识别方法、装置、设备及存储介质 | |
CN108376129B (zh) | 一种纠错方法及装置 | |
CN112541476B (zh) | 一种基于语义特征提取的恶意网页识别方法 | |
CN103299324A (zh) | 使用潜在子标记来学习用于视频注释的标记 | |
CN112686036B (zh) | 风险文本识别方法、装置、计算机设备及存储介质 | |
Layton et al. | Recentred local profiles for authorship attribution | |
CN115630640B (zh) | 一种智能写作方法、装置、设备及介质 | |
CN112257413B (zh) | 地址参数处理方法及相关设备 | |
CN110175851A (zh) | 一种作弊行为检测方法及装置 | |
CN111552800A (zh) | 摘要生成方法、装置、电子设备及介质 | |
CN112257444B (zh) | 金融信息负面实体发现方法、装置、电子设备及存储介质 | |
CN113469298A (zh) | 模型训练方法及资源推荐方法 | |
CN111651674B (zh) | 双向搜索方法、装置及电子设备 | |
CN113590810A (zh) | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 | |
CN113204956B (zh) | 多模型训练方法、摘要分段方法、文本分段方法及装置 | |
CN115834935A (zh) | 多媒体信息审核方法、广告审核方法、设备及存储介质 | |
CN111125443A (zh) | 一种基于自动去重的试题题库在线更新方法 | |
CN116701641B (zh) | 一种非结构化数据的分级分类方法及装置 | |
CN113297525A (zh) | 网页分类方法、装置、电子设备、及存储介质 | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN115687790B (zh) | 基于大数据的广告推送方法、系统及云平台 | |
CN116186263A (zh) | 文档检测方法、装置、计算机设备及计算机可读存储介质 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN114417860A (zh) | 一种信息检测方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |