CN110162752B - 文章判重处理方法、装置及电子设备 - Google Patents

文章判重处理方法、装置及电子设备 Download PDF

Info

Publication number
CN110162752B
CN110162752B CN201910394044.XA CN201910394044A CN110162752B CN 110162752 B CN110162752 B CN 110162752B CN 201910394044 A CN201910394044 A CN 201910394044A CN 110162752 B CN110162752 B CN 110162752B
Authority
CN
China
Prior art keywords
article
word
processing
feature
processing result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910394044.XA
Other languages
English (en)
Other versions
CN110162752A (zh
Inventor
谭杨
徐源桧
苏强
黄文彬
张玉东
杨宏生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910394044.XA priority Critical patent/CN110162752B/zh
Publication of CN110162752A publication Critical patent/CN110162752A/zh
Application granted granted Critical
Publication of CN110162752B publication Critical patent/CN110162752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种文章判重处理方法、装置及电子设备。该方法包括:根据待发布文章的文章特征,确定待发布文章的相似文章;对待发布文章进行分词处理,得到第一分词结果,以及对相似文章进行分词处理,得到第二分词结果;根据第一分词结果进行目标处理,得到第一处理结果,以及根据第二分词结果进行目标处理,得到第二处理结果;其中,目标处理包括分词拼接处理和/或分词降权处理;根据第一处理结果和第二处理结果,对待发布文章执行判重处理操作。与现有技术相比,在对文章进行判重时,本发明实施例中的判重方式的判重效果更好。

Description

文章判重处理方法、装置及电子设备
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种文章判重处理方法、装置及电子设备。
背景技术
随着互联网自媒体行业的迅速发展,人人都可以参与写作,自媒体作者可以将自己的文章发布在互联网上进行传播,但是,抄袭、洗稿等传统写作的作弊手段在自由发展的互联网行业中变得更加严重,因此,在文章进行发布之前,有必要对文章进行判重。然而,采用现有技术进行判重时,判重效果一般较差,例如,判重的误伤率非常高、判重的准确度非常低等。
发明内容
本发明实施例提供一种文章判重处理方法、装置及电子设备,以解决现有技术中的判重方式的判重效果差的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供一种文章判重处理方法,所述方法包括:
根据待发布文章的文章特征,确定所述待发布文章的相似文章;
对所述待发布文章进行分词处理,得到第一分词结果,以及对所述相似文章进行分词处理,得到第二分词结果;
根据所述第一分词结果进行目标处理,得到第一处理结果,以及根据所述第二分词结果进行目标处理,得到第二处理结果;其中,所述目标处理包括分词拼接处理和/或分词降权处理;
根据所述第一处理结果和所述第二处理结果,对所述待发布文章执行判重处理操作。
第二方面,本发明实施例提供一种文章判重处理方法,所述方法包括:
获取待发布文章的文章特征;其中,所述文章特征中包括所述待发布文章的每个段落的第一段落校验值;
针对所述文章特征中的每个第一段落校验值,在特征库中查找与其相匹配的第二段落校验值;其中,所述特征库中存储有多个段落校验值;
根据目标数量,对所述待发布文章执行判重处理操作;其中,所述目标数量为存在相匹配的第二段落校验值的第一段落校验值的数量。
第三方面,本发明实施例提供一种文章判重处理装置,所述装置包括:
第一确定模块,用于根据待发布文章的文章特征,确定所述待发布文章的相似文章;
第一获得模块,用于对所述待发布文章进行分词处理,得到第一分词结果,以及对所述相似文章进行分词处理,得到第二分词结果;
第二获得模块,用于根据所述第一分词结果进行目标处理,得到第一处理结果,以及根据所述第二分词结果进行目标处理,得到第二处理结果;其中,所述目标处理包括分词拼接处理和/或分词降权处理;
执行模块,用于根据所述第一处理结果和所述第二处理结果,对所述待发布文章执行判重处理操作。
第四方面,本发明实施例提供一种文章判重处理装置,所述装置包括:
获取模块,用于获取待发布文章的文章特征;其中,所述文章特征中包括所述待发布文章的每个段落的第一段落校验值;
查找模块,用于针对所述文章特征中的每个第一段落校验值,在特征库中查找与其相匹配的第二段落校验值;其中,所述特征库中存储有多个段落校验值;
执行模块,用于根据目标数量,对所述待发布文章执行判重处理操作;其中,所述目标数量为存在相匹配的第二段落校验值的第一段落校验值的数量。
第五方面,本发明实施例提供一种电子设备,包括处理器,存储器,存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述第一方面提供的文章判重处理方法的步骤,或者实现上述第二方面提供的文章判重处理方法的步骤。
第六方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面提供的文章判重处理方法的步骤,或者实现上述第二方面提供的文字判重处理方法的步骤。
本发明实施例中,在文章判重流程中,可以先确定待发布文章的相似文章,然后分别对待发布文章和相似文章进行分词处理,以得到第一分词结果和第二分词结果。之后,可以分别对第一分词结果和第二分词结果进行目标处理,并根据进行目标处理得到的第一处理结果和第二处理结果,对待发布文章执行判重处理操作;其中,目标处理包括分词拼接处理和/或分词降权处理。可见,本发明实施例中,文章判重流程中引入了分词拼接处理和分词降权处理中的至少一者,分词拼接处理的引入使得文章判重流程能够考虑到词与词之间的顺序信息,这样能够提高判重结果的准确度;分词降权处理的引入使得文章判重流程能够能够尽可能避免高频词可能造成的误伤情况,这样能够降低判重结果的误伤率,例如,一篇文章中介绍的是一款游戏中的某一人物,这款游戏的名称在这篇文章中出现的非常多,这并不会误伤到介绍该款游戏中的其他人物的文章。因此,与现有技术相比,在对文章进行判重时,本发明实施例中的判重方式的判重效果更好。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的一种文章判重处理方法的流程图;
图2是本发明实施例提供的一种文章判重处理方法的原理图;
图3是本发明实施例提供的另一种文章判重处理方法的流程图;
图4是本发明实施例提供的一种文章判重处理装置的结构框图;
图5是本发明实施例提供的另一种文章判重处理装置的结构框图;
图6是本发明实施例提供的一种电子设备的结构示意图;
图7是本发明实施例提供的另一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
下面首先对本发明实施例提供的文章判重处理方法进行说明。
需要说明的是,本发明实施例提供的文章判重处理方法应用于电子设备。具体地,电子设备可以为服务器,当然,电子设备的类型并不局限于服务器,其也可以为其他类型的,能够用于进行文章判重的设备,本发明实施例对电子设备的类型不做任何限定。
参见图1,图中示出了本发明实施例提供的文章判重处理方法的流程图。如图1所示,该方法包括如下步骤:
步骤101,根据待发布文章的文章特征,确定待发布文章的相似文章。
一般而言,在被发布至互联网上进行传播之前,待发布文章会先进入判重流程。这时,电子设备可以获取待发布文章的文章特征,并根据获取的文章特征,确定待发布文章的相似文章。具体地。待发布文章的相似文章的篇数可以为1篇、3篇、5篇、10篇、20篇或者其他篇数,在此不再一一列举。
步骤102,对待发布文章进行分词处理,得到第一分词结果,以及对相似文章进行分词处理,得到第二分词结果。
这里,分词处理也可以称为切词处理,通过分词处理,能够将一个文本序列切分成一个一个单独的词,切分得到的每一单独的词均可以认为是一个切词。这样,第一分词结果和第二分词结果中均可以包括顺序排列的多个分词。
需要指出的是,对待发布文章进行分词处理,以及对待发布文章的相似文章进行分词处理可以采用相同的分词方法。
步骤103,根据第一分词结果进行目标处理,得到第一处理结果,以及根据第二分词结果进行目标处理,得到第二处理结果;其中,目标处理包括分词拼接处理和/或分词降权处理。
需要指出的是,本发明实施例中的分词降权处理具体为高频词降权处理,例如为高频词log降权处理,高频词降权处理能够降低高频词的权重。
在一种具体实施方式中,目标处理可以包括分词拼接处理和分词降权处理;
根据第一分词结果进行目标处理,得到第一处理结果,包括:
对第一分词结果进行分词拼接处理,得到第三处理结果;其中,第三处理结果中包括多个拼接分词,每一拼接分词由第一分词结果中连续的至少两个分词顺序拼接形成;
对第三处理结果进行分词降权处理,得到第一处理结果;
类似地,根据第二分词结果进行目标处理,得到第二处理结果,包括:
对第二分词结果进行分词拼接处理,得到第四处理结果;其中,第四处理结果中包括多个拼接分词,每一拼接分词由第二分词结果中连续的至少两个分词顺序拼接形成;
对第四处理结果进行分词降权处理,得到第二处理结果。
这里,第一分词结果的拼接方式多样,下面进行举例介绍。
在一种拼接方式中,每个拼接分词可以由连续的两个分词顺序拼接形成。具体地,假设第一分词结果中包括的分词依次有“我”、“爱”、“北京”、“这个”、“城市”,那么,可以对“我”和“爱”进行顺序拼接,以得到“我爱”这个拼接分词;对“爱”和“北京”进行顺序拼接,以得到“爱北京”这个拼接分词;对“北京”和“这个”进行顺序拼接,以得到“北京这个”这个拼接分词;对“这个”和“城市”进行顺序拼接,以得到“这个城市”这个拼接分词。这样,第三处理结果中包括的拼接分词可以依次有“我爱”、“爱北京”、“北京这个”、“这个城市”。
在另一种拼接方式中,每个拼接分词可以由连续的三个分词顺序拼接形成。具体地,假设第一分词结果中包括的分词依次有“我”、“爱”、“北京”、“这个”、“城市”,那么,可以对“我”、“爱”和“北京”进行顺序拼接,以得到“我爱北京”这个拼接分词;对“爱”、“北京”和“这个”进行顺序拼接,以得到“爱北京这个”这个拼接分词;对“北京”、“这个”和“城市”进行顺序拼接,以得到“北京这个城市”这个拼接分词。这样,第三处理结果中包括的拼接分词可以依次有“我爱北京”、“爱北京这个”、“北京这个城市”。
无论采用上述何种拼接方式,在得到包括多个拼接分词的第三处理结果之后,均可以对第三处理结果进行分词降权处理,以得到第一处理结果。
需要指出的是,得到第二处理结果的过程参照上述对得到第一处理结果的过程的说明即可,在此不再赘述。
这种实施方式中,第一处理结果和第二处理结果均是依次经过分词拼接处理和分词降权处理得到的,那么,与第一分词结果相比,第一处理结果中能够携带词与词之间的顺序信息,并且,第一处理结果能够削弱高频词对文章判重结果的影响;与第二分词结果相比,第二处理结果中能够携带词与词之间的顺序信息,并且,第二处理结果能够削弱高频词对文章判重结果的影响。
当然,得到第一处理结果和第二处理结果的方式并不局限于上述实施方式。
例如,在对第一分词结果进行分词拼接处理,得到第三处理结果,以及在对第二分词结果进行分词拼接处理,得到第四处理结果之后,第三处理结果可以直接被作为第一处理结果,第四处理结果可以直接被作为第二处理结果,这也是可行的。这种实施方式中,第一处理结果和第二处理结果中均能够携带词与词之间的顺序信息。
再例如,在得到第一分词结果和第二分词结果之后,可以对第一分词结果进行分词降权处理,以得到第一处理结果,以及对第二分词结果进行分词降权处理,以得到第二处理结果,这也是可行的。这种实施方式中,第一处理结果和第二处理结果均能够削弱高频词对文章判重结果的影响。
步骤104,根据第一处理结果和第二处理结果,对待发布文章执行判重处理操作。
这里,可以根据第一处理结果和第二处理结果,确定待发布文章和相似文章的重复度是否超过设定重复度,并根据确定结果,对待发布文章执行判重处理操作。
具体地,在待发布文章和相似文章的重复度超过设定重复度时,可以判定待发布文章为通过抄袭、洗稿等作弊手段得到的文章,这种情况下对待发布文章执行的判重处理操作可以为:拒绝发布。
在待发布文字和相似文章的重复度未超过设定重复度时,可以判定待发布文章为正常创作的文章,这种情况下对待发布文章执行的判重处理操作可以为:继续发文流程。
本发明实施例中,在文章判重流程中,可以先确定待发布文章的相似文章,然后分别对待发布文章和相似文章进行分词处理,以得到第一分词结果和第二分词结果。之后,可以分别对第一分词结果和第二分词结果进行目标处理,并根据进行目标处理得到的第一处理结果和第二处理结果,对待发布文章执行判重处理操作;其中,目标处理包括分词拼接处理和/或分词降权处理。可见,本发明实施例中,文章判重流程中引入了分词拼接处理和分词降权处理中的至少一者,分词拼接处理的引入使得文章判重流程能够考虑到词与词之间的顺序信息,这样能够提高判重结果的准确度;分词降权处理的引入使得文章判重流程能够能够尽可能避免高频词可能造成的误伤情况,这样能够降低判重结果的误伤率,例如,一篇文章中介绍的是一款游戏中的某一人物,这款游戏的名称在这篇文章中出现的非常多,这并不会误伤到介绍该款游戏中的其他人物的文章。因此,与现有技术相比,在对文章进行判重时,本发明实施例中的判重方式的判重效果更好。
可选地,对第三处理结果进行分词降权处理,得到第一处理结果,包括:
从第三处理结果中确定第一拼接分词;其中,第三处理结果中还包括第二拼接分词,第一拼接分词在第三处理结果中的出现频次大于第二拼接分词;
确定第一拼接分词对应的出现频次,以及确定第二拼接分词对应的出现频次;其中,第一拼接分词对应的出现频次小于其在第三处理结果中的出现频次,第二分词对应的出现频次为其在第三处理结果中的出现频次;
获得第一处理结果;其中,第一处理结果中包括第一分词、第一分词对应的出现频次、第二分词,以及第二分词对应的出现频次。
这里,在得到第三处理结果之后,可以统计分布于第三处理结果中的各拼接分词在第三处理结果中的出现频次,并根据统计结果,从第三处理结果中确定第一拼接分词。具体地,可以将第三处理结果中出现频次最高的拼接分词作为第一拼接分词,并将第三处理结果中的其他拼接分词均作为第二拼接分词;或者,可以将第三处理结果中出现频次最高和第二高的拼接分词均作为第一拼接分词,并将第三处理结果中的其他拼接分词均作为第二拼接分词。为了便于说明,本实施例中均以仅将第三处理结果中出现频次最高的拼接分词作为第一拼接分词的情况为例进行说明。
接下来,可以分别确定第一拼接分词和第二拼接分词对应的出现频次;其中,第一拼接分词对应的出现频次可以通过对其在第三处理结果中的出现频次进行log降权处理得到,第二拼接分词对应的出现频次可以为其在第三处理结果中的出现频次。之后,可以获得包括第一分词、第一分词对应的出现频次、第二分词、第二分词对应的出现频次的第一处理结果,以便于根据第一处理结果,执行后续步骤。
具体地,假设第三处理结果中分布有n个拼接分词,分别为拼接分词1、拼接分词2、……、拼接分词n,且通过统计,确定出拼接分词1在第三处理结果中的出现频次为P1,拼接分词2在第三处理结果中的出现频次为P2,……,拼接分词n在第三处理结果中的出现频次为Pn,那么,通过对P1、P2、……、Pn进行比较,可以从拼接分词1、拼接分词2、……、拼接分词n中,确定出现频次最高的拼接分词。
假设出现频次最高的拼接分词为拼接分词2,那么,拼接分词2可以作为第一拼接分词,拼接分词2、拼接分词n等均可以作为第二拼接分词。接下来,可以分别确定拼接分词1、拼接分词2、……、拼接分词n对应的出现频次;其中,拼接分词2对应的出现频次可以为lg(P2),拼接分词1对应的出现频次为P1,拼接分词n对应的出现频次为Pn。
之后,电子设备能够得到第一处理结果,第一处理结果中可以包括拼接分词与出现频次之间的对应关系,该对应关系中,拼接分词1与P1对应,拼接分词2与lg(P2)对应,……,拼接分词n与Pn对应。
可见,本实施例中,基于拼接分词在第三处理结果中的出现频次,能够非常便捷地确定出第一处理结果。
可选的,根据第一处理结果和第二处理结果,对待发布文章执行判重处理操作,包括:
确定第一处理结果对应的第一词向量,以及确定第二处理结果对应的第二词向量;
计算第一词向量与第二词向量的余弦距离;
根据余弦距离,对待发布文章执行判重处理操作。
这里,可以根据第一处理结果进行向量化处理,具体可以将第一处理结果中的每个拼接分词作为一个维度,每个维度使用相应的出现频次作为权重值,以得到相应的词向量(即第一词向量)。得到第二词向量的过程参照对得到第一词向量的过程的说明即可,在此不再赘述。
接下来,可以计算第一词向量和第二词向量的余弦距离。可以理解的是,余弦距离使用两个向量夹角的余弦值来衡量两个个体间差异的大小。由于第一词向量基于待发布文章得到,第二词向量基于待发布文章的相似文章得到,根据第一词向量和第二词向量的余弦距离,可以确定出待发布文章和相似文章的重复度是否超过设定重复度,之后,可以根据确定结果,决定是拒绝发布待发布文章,还是继续发文流程。
可见,本实施例中,基于词向量的余弦距离,能够非常便捷地确定出对待发布文章执行何种判重处理操作。
可选地,文章特征的数量为至少两种,每种文章特征对应的特征类型互异。
这里,至少两种文章特征对应的特征类型可以包括以下至少两项:
文本特征类型、图片特征类型、视频特征类型。
需要说明的是,文本特征类型可以细分为整体文本特征类型和分段落文本特征类型。为了便于理解,本实施例中均以至少两种文章特征对应的特征类型同时包括文本特征类型、图片特征类型、视频特征类型的情况为例进行说明。
在待判重文章中包含文本的情况下,可以进行文本分析,以得到与文本特征类型对应的文本特征。在待判重文章中包含图片的情况下,可以下载并解析包含的所有图片,以得到与图片特征类型对应的图片特征。在待判重文章包含视频的情况下,可以下载并解析包含的所有视频,以得到与视频特征类型对应的视频特征。之后,可以结合得到的文本特征、图片特征、视频特征,确定待发布文章的相似文章。
本实施例中,可以基于多种特征类型的文章特征,为待发布文章确定相似文章,这样能够避免遗漏相似文章。
可选地,文章特征中包括第一特征数据;
根据待发布文章的文章特征,确定待发布文章的相似文章,包括:
确定文章特征的特征类型对应的特征库;
在特征库中,查找与第一特征数据匹配的第二特征数据;
根据第二特征数据,确定待发布文章的相似文章。
这里,可以预先设置文本特征库、图片特征库和视频特征库;其中,文本特征库可以与文本特征类型对应,文本特征库中可以存储有多个整体文本特征和多个分段落文本特征;图片特征库可以与图片特征类型对应,图片特征库中可以存储有多个图片特征;视频特征库可以与视频特征类型对应,视频特征库中可以存储有多个视频特征。另外,还可以预先设置特征数据与文章之间的对应关系;其中,任一特征数据对应的文章可以为具有该特征数据的文章。
对于待发布文章的整体文本特征和分段落文本特征,可以将其与文本特征库进行交互,以查找与其包括的第一特征数据匹配的第二特征数据,查找到的第二特征数据对应的文章可以认为是:存在与待发布文章中的文本(或者段落)相似的文本(或者段落)的文章,那么,查找到的该文章有可能是待发布文章的相似文章。
对于待发布文章的图片特征,可以将其与图片特征库进行交互,以查找与其包括的第一特征数据匹配的第二特征数据,查找到的第二特征数据对应的文章可以认为是:存在与待发布文章中的图片相似的图片的文章,那么,查找到的该文章有可能是待发布文章的相似文章。
对于待发布文章的视频特征,可以将其与视频特征库进行交互,以查找与其包括的第一特征数据匹配的第二特征数据,查找到的第二特征数据对应的文章可以认为是:存在与待发布文章中的视频相似的视频的文章,那么,查找到的该文章有可能是待发布文章的相似文章。
之后,可以将上述三个查询结果进行综合,以确定待发布文章的相似文章。举例而言,假设某一文章中同时存在与待发布文章中的文本相似的文本,与待发布文章中的图片相似的图片,以及与待发布文章中的视频相似的视频,则可以将该文章确定为待发布文章的相似文章。
可见,本实施例中,通过与特征库的交互,能够非常便捷地确定出待发布文章的相似文章。
可选地,文章特征中包括至少两种第一特征数据,每种第一特征数据采用不同算法得到。
这里,文章特征中包括的第一特征数据的种类可以为2种、3种、4种或者4种以上,在此不再一一列举。
在一种具体实施方式中,文章特征的特征类型为文本特征类型,文章特征中包括待发布文章的第一simhash值、第一关键词组,以及第一标题;特征库中存储有多个simhash值、多个关键词组,以及多个标题;
在特征库中,查找与第一特征数据匹配的第二特征数据,包括:
在特征库中,查找第二simhash值、第二关键词组,以及第二标题;其中,第二simhash值与第一simhash值的汉明距离小于第一预设距离,第二关键词组与第一关键词组的关键词重复率大于预设比例,第二标题与第一标题的相似度大于预设相似度。
这种实施方式中,第一simhash值、第一关键词组,以及第一标题这三个第一特征数据是采用不同算法得到的,具体而言,第一simhash值可以是采用文本的simhash算法得到的,第一关键词组可以是采用文本的实体链接(entity linking)算法得到的,第一标题可以是采用文本的标题提取算法得到的。可以理解的是,simhash算法是谷歌提出的,用来处理海量文本去重的算法。
针对第一simhash值,可以查询文本特征库中是否存在与其的汉明距离小于第一预设距离的simhash值。如果查询结果为存在,则存在的该simhash值即为第二simhash值,第二simhash值可以认为是与第一simhash值匹配的第二特征数据,这时,可以确定第二simhash值对应的文章。
针对第一关键词组,可以查询文本特征库中是否存在与其的关键词重复率大于预设比例(例如60%、70%、80%等)的关键词组。如果查询结果为存在,则存在的该关键词组即为第二关键词组,第二关键词组可以认为是与第一关键词组匹配的第二特征数据,这时,可以确定第二关键词组对应的文章。
针对第一标题,可以查询文本特征库中是否存在与其的相似度大于预设相似度(例如70%、80%、90%等)的标题。如果查询结果为存在,则存在的该标题即为第二标题,第二标题可以认为是与第一标题匹配的第二特征数据,这时,可以确定第二标题对应的文章。
之后,可以根据第二simhash值、第二关键词组、第二标题,确定待发布文章的相似文章。具体地,可以将与第二simhash值、第二关键词组、第二标题中的任一者对应的文章确定为待发布文章的相似文章;或者,可以将与第二simhash值、第二关键词组、第二标题中的至少两者对应的文章确定为待发布文章的相似文章。
需要指出的是,simhash算法可以将文章切词后的向量转化成一个哈希值,通过不同文章的simhash值的汉明距离,可以判断文章是否重复,计算迅速,simhash算法对几乎完全一样且文本足够丰富的文章判重效果很好,但是,其存在一定的缺陷,例如对稍微修改后的文章无法召回,无法适应严峻的抄袭作弊形式,对短文本的判重准确率低等。entitylinking算法通过已有的互联网大量文本语料训练出丰富的关键词集合,对每篇文本提取其关键词集合,存储在文本特征库,这样虽然极大加强了simhash漏召回情况,但是其也存在一定的缺陷,例如无法对短文本文章进行准确识别。
由于simhash算法和entity linking单独使用时均存在一定的缺陷,这里,可以将多个算法结合起来进行使用,即在使用通过simhash算法得到的simhash哈希值,以及通过entity linking算法得到的关键词组的同时,还可以通过对文章的标题进行自动切词后查询相似标题,以查找具有相似标题的文章,从而避免遗漏相似文章。
需要指出的是,得到特征数据所采用的算法并不局限于上述的simhash算法和entity linking算法,具体可以根据实际情况来确定,在此不再一一列举。
由于算法的局限性,在采用单一算法来确定相似文章时,总会存在无法召回某些文章或者召回准确率低的情况,有鉴于此,本实施例中,在确定相似文章时,可以通过不同的算法进行加成,以结合多个算法的优点,从而较好地避免遗漏相似文章,进行保证判重整体的准确率和召回率。
可选地,文章特征的特征类型为图片特征类型,文章特征中包括多个第一特征数据,每个特征数据为一图片的图片校验值;
在特征库中,查找与第一特征数据匹配的第二特征数据,包括:
针对每个第一特征数据,在特征库中查找与其的汉明距离小于第二预设距离的第二特征数据。
这里,文章特征的特征类型为图片特征类型,那么,特征库具体为图片特征库。另外,每个图片校验值可以为对一图片进行校验运算得到,例如进行哈希运算得到,这时,每个图片校验值为计算一图片的像素点特征得到的一个哈希值。
本实施例中,针对文章特征中的每个第一特征数据,可以查询图片特征库中是否存在与其的汉明距离小于第二预设距离的特征数据,如果存在,则存在着的该特征数据作为与该第一特征数据匹配的第二特征数据。
对于查询出的每个第二特征数据,可以分别确定其对应的文章。之后,可以将任意一个第二特征数据对应的文章均确定为待发布文章的相似文章;或者,可以将与一定比例(例如40%、60%、70%等)的第二特征数据同时对应的文章确定为待发布文章的相似文章。
可见,本实施例中,基于待发布文章中的图片,可以非常便捷地确定出待发布文章的相似文章,并且,本实施例适用于待发布文章中包括的是短文本的情况。
下面结合图2,以一个具体的例子,对本实施例的具体实施过程进行详细说明。
如图2所示,对于准备发布的自媒体文章(相当于上文中的待发布文章),可以先对其进行特征分解,以得到待发布文章的整体文本特征、分段落文本特征、图片特征、视频特征。
接下来,可以将整体文本特征和分段落文本特征与文本特征库进行交互,以进行文本判重,这里,针对整体文本特征,可以采用多个算法进行文本判重;可以将图片特征与图片特征库进行交互,以进行图片判重;可以将视频特征与视频特征库进行交互,以进行视频判重。接下来,可以将文本判重、图片判重和视频判重的结果进行综合,以得到待发布文章的相似文章。
之后,可以根据待发布文章和相似文章,进行N-gram重复度计算;其中,N-gram是一种基于统计语言模型的算法。在计算过程中,可以分别对待发布文章和相似文章进行分词处理,以得到第一分词结果和第二分词结果,可以根据第一分词结果进行分词拼接处理和高频词log降权处理,以得到第一处理结果,并根据第二分词结果进行分词拼接处理和高频词log降权处理,以得到第二处理结果。
这样,在后续确定第一处理结果对应的第一词向量,以及确定第二处理结果对应的第二词向量时,第一词向量和第二词向量可以从单纯词向量表示变成词的n-gram表示,比如:“我爱北京这个城市...”词向量转化为“我爱爱北京北京这个这个城市...”,这样就在词向量表示中加入了词和词之间的顺序信息,让重复度的计算更加准确。另外,通过执行高频词log降权处理,能够对词向量中的高频词进行log降权重,比如:一篇文章介绍游戏王者荣耀中的游戏人物,“王者荣耀”词频非常高,计算中会把同样介绍该游戏中其他人物的文章判重误伤,所以对高频词的降权重能有效避免这种误伤。
在得到第一词向量和第二词向量之后,可以根据第一词向量和第二词向量的余弦距离,确定待发布文章和相似文章的重复度是否大于预设重复度。如果确定结果为大于,则针对待发布文章,可以拒绝发布;如果确定结果为小于或等于,则针对待发布文章,可以继续发文流程。
综上,本实施例由现有的单一判重系统,创新性地加入了非常丰富的,多维度特征判重系统,且采用了多种判重算法,这样能够极大地提升判重能力,对重复文章的遗漏得到有效遏制;高准和高时效性判重,能秒级返回准确的重复文章,提升用户体验。
参见图3,图中示出了本发明实施例提供的另一种文章判重处理方法的流程图。如图3所示,该方法包括如下步骤:
步骤301,获取待发布文章的文章特征;其中,文章特征中包括待发布文章的每个段落的第一段落校验值。
一般而言,在被发布至互联网上进行传播之前,待发布文章会先进入判重流程。这时,电子设备可以获取待发布文章的文章特征,该文章特征可以为分段落文本特征。这里,文章特征中的每个第一段落校验值可以为对待发布文章的一个段落进行校验运算得到,例如进行哈希运算得到。
步骤302,针对文章特征中的每个第一段落校验值,在特征库中查找与其相匹配的第二段落校验值;其中,特征库中存储有多个段落校验值。
由于步骤301中的文章特征具体为分段落文本特征,步骤302中的特征库具体可以为文本特征库。
在一种具体实施方式中,每个段落校验值为对一段落进行哈希运算得到;
步骤302,包括:
针对文章特征中的每个第一段落校验值,在特征库中查找与其的汉明距离小于预设距离的第二段落校验值。
这里,只需进行段落校验值间的汉明距离的计算,即可查找到所需的段落校验值,因此,得到所需的段落校验值的操作实施起来非常便捷。
当然,步骤302的具体实施方式并不局限于此,例如,在第一段落校验值通过哈希运算得到的情况下,可以将与第一段落校验值完全相同的段落校验值作为第二校验值,这也是可行的。
步骤303,根据目标数量,对待发布文章执行判重处理操作;其中,目标数量为存在相匹配的第二段落校验值的第一段落校验值的数量。
在执行完步骤302之后,可以计算存在相匹配的第二段落校验值的第一段落校验值的数量(即目标数量),以便于根据目标数量,对待发布文章执行判重处理操作。
在一种具体实施方式中,步骤303,包括:
获得文章特征中的第一段落校验值的总数量,并计算目标数量与总数量的比值;
在比值大于预设比值的情况下,允许发布待发布文章;否则,禁止发布待发布文章。
这里,预设比值可以为50%、60%、70%或者其他取值,在此不再一一列举。
这种实施方式中,基于目标数量,即可便捷地确定出对待发布文章执行何种判重处理操作。
当然,步骤303的具体实施方式并不局限于此。例如,在待判重文章中包含图片的情况下,可以下载并解析包含的所有图片,以得到与图片特征类型对应的图片特征;在待判重文章包含视频的情况下,可以下载并解析包含的所有视频,以得到与视频特征类型对应的视频特征;另外,还可以获取整体文本特征。之后,可以根据待发布文章的图片特征、视频特征和整体文本特征中的至少一者,以及目标数量,对待发布文章执行判重处理操作。下面对根据待发布文章的图片特征、视频特征和整体文本特征中的至少一者,以及目标数量,对待发布文章执行判重处理操作的具体实现形式进行举例介绍。
在一种实现形式中,可以预先设置图片特征库,图片特征库中可以存储有多个图片校验值,图片特征库中的每个图片校验值为对一图片进行校验运算得到,例如进行哈希运算得到,这时,每个图片校验值为计算一图片的像素点特征得到的一个哈希值。
待发布文章的图片特征中可以包括待发布文章的每张图片的第一图片校验值,针对图片特征中的每个第一图片校验值,可以查询图片特征库中是否存在与其的汉明距离小于某一距离(例如上文中的第二预设距离)的图片校验值,如果存在,则存在着的该图片校验值可以作为与该第一图片校验值匹配的第二图片校验值。对于查询出的每个第二图片校验值,可以分别确定其对应的文章;其中,任一图片校验值对应的文章可以为存在具有该图片校验值的图片的文章。之后,可以根据确定结果和目标数量,对待发布文章执行判重处理操作。具体地,可以在目标数量与第一段落校验值的总数量的比值大于预设比值,且第二图片校验值的总数量与第一图片校验值的总数量的比值大于另一比值的情况下,判定待发布文章为通过抄袭、洗稿等作弊手段得到的文章,并禁止发布待发布文章。
在另一种实现形式中,文本特征库中还可以存储有多个simhash值、多个关键词组,以及多个标题。待发布文章的整体文本特征中可以包括待发布文章的第一simhash值、第一关键词组,以及第一标题。其中,第一simhash值、第一关键词组,以及第一标题是采用不同算法得到的,具体而言,第一simhash值可以是采用文本的simhash算法得到的,第一关键词组可以是采用文本的实体链接(entity linking)算法得到的,第一标题可以是采用文本的标题提取算法得到的。可以理解的是,simhash算法是谷歌提出的,用来处理海量文本去重的算法。
针对第一simhash值,可以查询文本特征库中是否存在与其的汉明距离小于某一距离(例如上文中的第一预设距离)的simhash值。如果查询结果为存在,则存在的该simhash值即可作为与第一simhash值匹配的第二simhash值,这时,可以确定第二simhash值对应的文章;其中,第二simhash值对应的文章为:所具有的文本进行simhash运算后,得到的结果为第二simhash值的文章。
针对第一关键词组,可以查询文本特征库中是否存在与其的关键词重复率大于预设比例(例如60%、70%、80%等)的关键词组。如果查询结果为存在,则存在的该关键词组即可作为与第一关键词组匹配的第二关键词组,这时,可以确定第二关键词组对应的文章;其中,第二关键词组对应的文章为:所具有的关键词组包括第二关键词组的文章。
针对第一标题,可以查询文本特征库中是否存在与其的相似度大于预设相似度(例如70%、80%、90%等)的标题。如果查询结果为存在,则存在的该标题即可作为与第一标题匹配的第二标题,这时,可以确定第二标题对应的文章;其中,第二标题对应的文章为:所具有的标题包括第二标题的文章。
之后,可以根据第二simhash值、第二关键词组、第二标题中的至少一者,以及目标数量,对待发布文章执行判重处理操作。具体地,可以在目标数量与第一段落校验值的总数量的比值大于预设比值,且存在与第二simhash值、第二关键词组、第二标题中的至少两者对应的文章的情况下,判定待发布文章为通过抄袭、洗稿等作弊手段得到的文章,并禁止发布待发布文章。
本发明实施例中,在文章判重流程中,可以先获取待发布文章的文章特征;其中,文章特征中包括待发布文章的每个段落的第一段落校验值;接下来,可以针对文章特征中的每个第一段落校验值,在特征库中查找与其相匹配的第二段落校验值;之后,可以根据根据目标数量,对待发布文章执行判重处理操作;其中,目标数量为存在相匹配的第二段落校验值的第一段落校验值的数量。可见,本发明实施例中,文章判重流程中引入了段落判重策略,判重细粒度为段落层面,这样有利于识别出一篇文章抄袭多篇文章的情况,例如文章A抄袭文章B的第一段,抄袭文章C的第二段,抄袭文章D的第三段,具体应用时,能够识别出通过对多篇文章中的笑话段子进行拼凑得到的文章。因此,与现有技术相比,在对文章进行判重时,本发明实施例中的判重方式的判重效果更好。
下面对本发明实施例提供的文章判重处理装置进行说明。
参见图4,图中示出了本发明实施例提供的文章判重处理装置400的结构框图。如图4所示,文章判重处理装置400包括:
第一确定模块401,用于根据待发布文章的文章特征,确定待发布文章的相似文章;
第一获得模块402,用于对待发布文章进行分词处理,得到第一分词结果,以及对相似文章进行分词处理,得到第二分词结果;
第二获得模块403,用于根据第一分词结果进行目标处理,得到第一处理结果,以及根据第二分词结果进行目标处理,得到第二处理结果;其中,目标处理包括分词拼接处理和/或分词降权处理;
执行模块404,用于根据第一处理结果和第二处理结果,对待发布文章执行判重处理操作。
可选地,第二获得模块402,包括:
第一获得单元,用于对第一分词结果进行分词拼接处理,得到第三处理结果;其中,第三处理结果中包括多个拼接分词,每一拼接分词由第一分词结果中连续的至少两个分词顺序拼接形成;
第二获得单元,用于对第三处理结果进行分词降权处理,得到第一处理结果。
可选地,第二获得单元,包括:
第一确定子单元,用于从第三处理结果中确定第一拼接分词;其中,第一处理结果中还包括第二拼接分词,第一拼接分词在第一处理结果中的出现频次大于第二拼接分词;
第二确定子单元,用于确定第一拼接分词对应的出现频次,以及确定第二拼接分词对应的出现频次;其中,第一拼接分词对应的出现频次小于其在第一处理结果中的出现频次,第二分词对应的出现频次为其在第一处理结果中的出现频次;
获得子单元,用于获得第一处理结果;其中,第一处理结果中包括第一分词、第一分词对应的出现频次、第二分词,以及第二分词对应的出现频次。
可选地,执行模块404,包括:
第一确定单元,用于确定第一处理结果对应的第一词向量,以及确定第二处理结果对应的第二词向量;
计算单元,用于计算第一词向量与第二词向量的余弦距离;
执行单元,用于根据余弦距离,对待发布文章执行判重处理操作。
可选地,文章特征的数量为至少两种,每种文章特征对应的特征类型互异。
可选地,至少两种文章特征对应的特征类型包括以下至少两项:
文本特征类型、图片特征类型、视频特征类型。
可选地,文章特征中包括第一特征数据;
第一确定模块401,包括:
第二确定单元,用于确定文章特征的特征类型对应的特征库;
查找单元,用于在特征库中,查找与第一特征数据匹配的第二特征数据;
第三确定单元,用于根据第二特征数据,确定待发布文章的相似文章。
可选地,文章特征中包括至少两种第一特征数据,每种第一特征数据采用不同算法得到。
可选地,文章特征的特征类型为文本特征类型,文章特征中包括待发布文章的第一simhash值、第一关键词组,以及第一标题;特征库中存储有多个simhash值、多个关键词组,以及多个标题;
第三确定单元,具体用于:
在特征库中,查找第二simhash值、第二关键词组,以及第二标题;其中,第二simhash值与第一simhash值的汉明距离小于第一预设距离,第二关键词组与第一关键词组的关键词重复率大于预设比例,第二标题与第一标题的相似度大于预设相似度。
可选地,文章特征的特征类型为分段落文本特征类型,文章特征中包括多个第一特征数据,每个特征数据为一图片的图片校验值;
查找单元,包括:
针对每个第一特征数据,在特征库中查找与其的汉明距离小于第二预设距离的第二特征数据。
可见,本发明实施例中,文章判重流程中引入了分词拼接处理和分词降权处理中的至少一者,分词拼接处理的引入使得文章判重流程能够考虑到词与词之间的顺序信息,这样能够提高判重结果的准确度;分词降权处理的引入使得文章判重流程能够能够尽可能避免高频词可能造成的误伤情况,这样能够降低判重结果的误伤率,例如,一篇文章中介绍的是一款游戏中的某一人物,这款游戏的名称在这篇文章中出现的非常多,这并不会误伤到介绍该款游戏中的其他人物的文章。因此,与现有技术相比,在对文章进行判重时,本发明实施例中的判重方式的判重效果更好。
参见图5,图中示出了本发明实施例提供的文章判重处理装置500的结构框图。如图5所示,文章判重处理装置500包括:
获取模块501,用于获取待发布文章的文章特征;其中,文章特征中包括待发布文章的每个段落的第一段落校验值;
查找模块502,用于针对文章特征中的每个第一段落校验值,在特征库中查找与其相匹配的第二段落校验值;其中,特征库中存储有多个段落校验值;
执行模块503,用于根据目标数量,对待发布文章执行判重处理操作;其中,目标数量为存在相匹配的第二段落校验值的第一段落校验值的数量。
可选地,每一段落校验值为对一段落进行哈希运算得到;
查找模块502,具体用于:
针对所述文章特征中的每个第一段落校验值,在特征库中查找与其的汉明距离小于预设距离的第二段落校验值。
可选地,执行模块503,包括:
第一处理单元,用于获得文章特征中的第一段落校验值的总数量,并计算目标数量与总数量的比值;
第二处理单元,用于在比值大于预设比值的情况下,允许发布待发布文章;否则,禁止发布待发布文章。
可见,本发明实施例中,文章判重流程中引入了段落判重策略,判重细粒度为段落层面,这样有利于识别出一篇文章抄袭多篇文章的情况,例如文章A抄袭文章B的第一段,抄袭文章C的第二段,抄袭文章D的第三段,具体应用时,能够识别出通过对多篇文章中的笑话段子进行拼凑得到的文章。因此,与现有技术相比,在对文章进行判重时,本发明实施例中的判重方式的判重效果更好。
下面对本发明实施例提供的电子设备进行说明。
参见图6,图中示出了本发明实施例提供的电子设备600的结构示意图。如图6所示,电子设备600包括:处理器601、存储器604、用户接口604和总线接口。
处理器601,用于读取存储器604中的程序,执行下列过程:
根据待发布文章的文章特征,确定待发布文章的相似文章;
对待发布文章进行分词处理,得到第一分词结果,以及对相似文章进行分词处理,得到第二分词结果;
根据第一分词结果进行目标处理,得到第一处理结果,以及根据第二分词结果进行目标处理,得到第二处理结果;其中,目标处理包括分词拼接处理和/或分词降权处理;
根据第一处理结果和第二处理结果,对待发布文章执行判重处理操作。
在图6中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器601代表的一个或多个处理器和存储器604代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。针对不同的用户设备,用户接口604还可以是能够外接内接需要设备的接口,连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。
处理器601负责管理总线架构和通常的处理,存储器604可以存储处理器601在执行操作时所使用的数据。
可选地,处理器601,具体用于:
对第一分词结果进行分词拼接处理,得到第三处理结果;其中,第三处理结果中包括多个拼接分词,每一拼接分词由第一分词结果中连续的至少两个分词顺序拼接形成;
对第三处理结果进行分词降权处理,得到第一处理结果。
可选地,处理器601,具体用于:
从第三处理结果中确定第一拼接分词;其中,第一处理结果中还包括第二拼接分词,第一拼接分词在第一处理结果中的出现频次大于第二拼接分词;
确定第一拼接分词对应的出现频次,以及确定第二拼接分词对应的出现频次;其中,第一拼接分词对应的出现频次小于其在第一处理结果中的出现频次,第二分词对应的出现频次为其在第一处理结果中的出现频次;
获得第一处理结果;其中,第一处理结果中包括第一分词、第一分词对应的出现频次、第二分词,以及第二分词对应的出现频次。
可选地,处理器601,具体用于:
确定第一处理结果对应的第一词向量,以及确定第二处理结果对应的第二词向量;
计算第一词向量与第二词向量的余弦距离;
根据余弦距离,对待发布文章执行判重处理操作。
可选地,文章特征的数量为至少两种,每种文章特征对应的特征类型互异。
可选地,至少两种文章特征对应的特征类型包括以下至少两项:
文本特征类型、图片特征类型、视频特征类型。
可选地,文章特征中包括第一特征数据;
处理器601,具体用于:
确定文章特征的特征类型对应的特征库;
在特征库中,查找与第一特征数据匹配的第二特征数据;
根据第二特征数据,确定待发布文章的相似文章。
可选地,文章特征中包括至少两种第一特征数据,每种第一特征数据采用不同算法得到。
可选地,文章特征的特征类型为文本特征类型,文章特征中包括待发布文章的第一simhash值、第一关键词组,以及第一标题;特征库中存储有多个simhash值、多个关键词组,以及多个标题;
处理器601,具体用于:
在特征库中,查找第二simhash值、第二关键词组,以及第二标题;其中,第二simhash值与第一simhash值的汉明距离小于第一预设距离,第二关键词组与第一关键词组的关键词重复率大于预设比例,第二标题与第一标题的相似度大于预设相似度。
可选地,文章特征的特征类型为分段落文本特征类型,文章特征中包括多个第一特征数据,每个特征数据为一图片的图片校验值;
处理器601,具体用于:
针对每个第一特征数据,在特征库中查找与其的汉明距离小于第二预设距离的第二特征数据。
可见,本发明实施例中,文章判重流程中引入了分词拼接处理和分词降权处理中的至少一者,分词拼接处理的引入使得文章判重流程能够考虑到词与词之间的顺序信息,这样能够提高判重结果的准确度;分词降权处理的引入使得文章判重流程能够能够尽可能避免高频词可能造成的误伤情况,这样能够降低判重结果的误伤率,例如,一篇文章中介绍的是一款游戏中的某一人物,这款游戏的名称在这篇文章中出现的非常多,这并不会误伤到介绍该款游戏中的其他人物的文章。因此,与现有技术相比,在对文章进行判重时,本发明实施例中的判重方式的判重效果更好。
优选地,本发明实施例还提供一种电子设备,包括处理器601,存储器604,存储在存储器604上并可在所述处理器601上运行的计算机程序,该计算机程序被处理器601执行时实现上述两种文章判重处理方法中的前一种方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述两种文章判重处理方法中的前一种方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、磁碟或者光盘等。
参见图7,图中示出了本发明实施例提供的电子设备700的结构示意图。如图7所示,电子设备700包括:处理器701、存储器704、用户接口704和总线接口。
处理器701,用于读取存储器704中的程序,执行下列过程:
获取待发布文章的文章特征;其中,文章特征中包括待发布文章的每个段落的第一段落校验值;
针对文章特征中的每个第一段落校验值,在特征库中查找与其相匹配的第二段落校验值;其中,特征库中存储有多个段落校验值;
根据目标数量,对待发布文章执行判重处理操作;其中,目标数量为存在相匹配的第二段落校验值的第一段落校验值的数量。
在图7中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器701代表的一个或多个处理器和存储器704代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。针对不同的用户设备,用户接口704还可以是能够外接内接需要设备的接口,连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。
处理器701负责管理总线架构和通常的处理,存储器704可以存储处理器701在执行操作时所使用的数据。
可选地,每个段落校验值为对一段落进行哈希运算得到;
处理器701,具体用于:
针对文章特征中的每个第一段落校验值,在特征库中查找与其的汉明距离小于预设距离的第二段落校验值。
可选地,处理器701,具体用于:
获得文章特征中的第一段落校验值的总数量,并计算目标数量与总数量的比值;
在比值大于预设比值的情况下,允许发布待发布文章;否则,禁止发布待发布文章。
可见,本发明实施例中,文章判重流程中引入了段落判重策略,判重细粒度为段落层面,这样有利于识别出一篇文章抄袭多篇文章的情况,例如文章A抄袭文章B的第一段,抄袭文章C的第二段,抄袭文章D的第三段,具体应用时,能够识别出通过对多篇文章中的笑话段子进行拼凑得到的文章。因此,与现有技术相比,在对文章进行判重时,本发明实施例中的判重方式的判重效果更好。
优选地,本发明实施例还提供一种电子设备,包括处理器701,存储器704,存储在存储器704上并可在所述处理器701上运行的计算机程序,该计算机程序被处理器701执行时实现上述两种文章判重处理方法中的后一种方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述两种文章判重处理方法中的后一种方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、磁碟或者光盘等。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (18)

1.一种文章判重处理方法,其特征在于,所述方法包括:
根据待发布文章的文章特征,确定所述待发布文章的相似文章;
对所述待发布文章进行分词处理,得到第一分词结果,以及对所述相似文章进行分词处理,得到第二分词结果;
根据所述第一分词结果进行目标处理,得到第一处理结果,以及根据所述第二分词结果进行目标处理,得到第二处理结果;其中,所述目标处理包括分词拼接处理和分词降权处理,其中,所述第一处理结果和所述第二处理结果中均携带词与词之间的顺序关系;
根据所述第一处理结果和所述第二处理结果,对所述待发布文章执行判重处理操作;
所述根据所述第一分词结果进行目标处理,得到第一处理结果,包括:
对所述第一分词结果进行分词拼接处理,得到第三处理结果;其中,所述第三处理结果中包括多个拼接分词,每一拼接分词由所述第一分词结果中连续的至少两个分词顺序拼接形成;
对所述第三处理结果进行分词降权处理,得到第一处理结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述第三处理结果进行分词降权处理,得到第一处理结果,包括:
从所述第三处理结果中确定第一拼接分词;其中,所述第三处理结果中还包括第二拼接分词,所述第一拼接分词在所述第三处理结果中的出现频次大于所述第二拼接分词;
确定所述第一拼接分词对应的出现频次,以及确定所述第二拼接分词对应的出现频次;其中,所述第一拼接分词对应的出现频次小于其在所述第三处理结果中的出现频次,所述第二分词对应的出现频次为其在所述第三处理结果中的出现频次;
获得第一处理结果;其中,所述第一处理结果中包括所述第一分词、所述第一分词对应的出现频次、所述第二分词,以及所述第二分词对应的出现频次。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述第一处理结果和所述第二处理结果,对所述待发布文章执行判重处理操作,包括:
确定所述第一处理结果对应的第一词向量,以及确定所述第二处理结果对应的第二词向量;
计算所述第一词向量与所述第二词向量的余弦距离;
根据所述余弦距离,对所述待发布文章执行判重处理操作。
4.根据权利要求1所述的方法,其特征在于,所述文章特征的数量为至少两种,每种所述文章特征对应的特征类型互异。
5.根据权利要求4所述的方法,其特征在于,至少两种所述文章特征包括以下至少两项:
文本特征类型、图片特征类型、视频特征类型。
6.根据权利要求1所述的方法,其特征在于,所述文章特征中包括第一特征数据;
所述根据待发布文章的文章特征,确定所述待发布文章的相似文章,包括:
确定所述文章特征的特征类型对应的特征库;
在所述特征库中,查找与所述第一特征数据匹配的第二特征数据;
根据所述第二特征数据,确定所述待发布文章的相似文章。
7.根据权利要求6所述的方法,其特征在于,所述文章特征中包括至少两种第一特征数据,每种所述第一特征数据采用不同算法得到。
8.根据权利要求7所述的方法,其特征在于,所述文章特征的特征类型为文本特征类型,所述文章特征中包括所述待发布文章的第一simhash值、第一关键词组,以及第一标题;所述特征库中存储有多个simhash值、多个关键词组,以及多个标题;
所述在所述特征库中,查找与所述第一特征数据匹配的第二特征数据,包括:
在所述特征库中,查找第二simhash值、第二关键词组,以及第二标题;其中,所述第二simhash值与所述第一simhash值的汉明距离小于第一预设距离,所述第二关键词组与所述第一关键词组的关键词重复率大于预设比例,所述第二标题与所述第一标题的相似度大于预设相似度。
9.根据权利要求6所述的方法,其特征在于,所述文章特征的特征类型为图片特征类型,所述文章特征中包括多个第一特征数据,每个特征数据为一图片的图片校验值;
所述在所述特征库中,查找与所述第一特征数据匹配的第二特征数据,包括:
针对每个第一特征数据,在所述特征库中查找与其的汉明距离小于第二预设距离的第二特征数据。
10.一种文章判重处理方法,其特征在于,所述方法包括:
获取待发布文章的文章特征;其中,所述文章特征中包括所述待发布文章的每个段落的第一段落校验值;
针对所述文章特征中的每个第一段落校验值,在特征库中查找与其相匹配的第二段落校验值;其中,所述特征库中存储有多个段落校验值;
根据目标数量,对所述待发布文章执行判重处理操作;其中,所述目标数量为存在相匹配的第二段落校验值的第一段落校验值的数量;
其中,所述根据目标数量,对所述待发布文章执行判重处理操作,包括:
根据所述待发布文章的图片特征、视频特征和整体文本特征中的至少一者,以及所述目标数量,对所述待发布文章执行判重处理操作;
所述根据所述待发布文章的图片特征、视频特征和整体文本特征中的至少一者,以及所述目标数量,对所述待发布文章执行判重处理操作,包括:
在查询到图片特征库中存在与第一图片校验值匹配的第二图片校验值的情况下,确定每个第二图片校验值对应的文章,所述第二图片校验值与所述第一图片校验值的汉明距离小于第二预设距离;
在所述目标数量与第一段落校验值的总数量的比值大于预设比值,且所述第二图片校验值的总数量与所述第一图片校验值的总数量的比值大于另一比值的情况下,禁止所述待发布文章发布;
或者,
在查询到文本特征库中存在与第一simhash值匹配的第二simhash值的情况下,确定所述第二simhash值对应的文章,所述第二simhash值对应的文章为:所具有的文本进行simhash运算后,得到的结果为所述第二simhash值的文章,所述第二simhash值与所述第一simhash值的汉明距离小于第一预预设距离,所述第一simhash值采用文本的simhash算法得到;
在查询到文本特征库中存在与第一关键词组匹配的第二关键词组的情况下,确定所述第二关键词组对应的文章,所述第二关键词组对应的文章为:所具有的关键词组包括所述第二关键词组的文章,所述第二关键词组与所述第一关键词组的关键词重复率大于预设比例,所述第一关键词组采用文本的实体链接算法得到;
在查询到文本特征库中存在与第一标题匹配的第二标题的情况下,确定所述第二标题对应的文章,所述第二标题对应的文章为:所具有的标题包括所述第二标题的文章,所述第二标题与所述第一标题的相似度大于预设相似度,所述第一标题采用文本的标题提取算法得到;
在所述目标数量与第一段落校验值的总数量的比值大于预设比值,且存在与所述第二simhash值、所述第二关键词组和所述第二标题中的至少两者对应的文章的情况下,禁止所述待发布文章发布。
11.根据权利要求10所述的方法,其特征在于,每一段落校验值为对一段落进行哈希运算得到;
所述针对所述文章特征中的每个第一段落校验值,在特征库中查找与其相匹配的第二段落校验值,包括:
针对所述文章特征中的每个第一段落校验值,在特征库中查找与其的汉明距离小于预设距离的第二段落校验值。
12.根据权利要求10所述的方法,其特征在于,所述根据目标数量,对所述待发布文章执行判重处理操作,包括:
获得所述文章特征中的第一段落校验值的总数量,并计算目标数量与所述总数量的比值;
在所述比值大于预设比值的情况下,允许发布所述待发布文章;否则,禁止发布所述待发布文章。
13.一种文章判重处理装置,其特征在于,所述装置包括:
第一确定模块,用于根据待发布文章的文章特征,确定所述待发布文章的相似文章;
第一获得模块,用于对所述待发布文章进行分词处理,得到第一分词结果,以及对所述相似文章进行分词处理,得到第二分词结果;
第二获得模块,用于根据所述第一分词结果进行目标处理,得到第一处理结果,以及根据所述第二分词结果进行目标处理,得到第二处理结果;其中,所述目标处理包括分词拼接处理和分词降权处理,其中,所述第一处理结果和所述第二处理结果中均携带词与词之间的顺序关系;
执行模块,用于根据所述第一处理结果和所述第二处理结果,对所述待发布文章执行判重处理操作;
所述第二获得模块,包括:
第一获得单元,用于对所述第一分词结果进行分词拼接处理,得到第三处理结果;其中,所述第三处理结果中包括多个拼接分词,每一拼接分词由所述第一分词结果中连续的至少两个分词顺序拼接形成;
第二获得单元,用于对所述第三处理结果进行分词降权处理,得到第一处理结果。
14.根据权利要求13所述的装置,其特征在于,所述第二获得单元,包括:
第一确定子单元,用于从所述第三处理结果中确定第一拼接分词;其中,所述第三处理结果中还包括第二拼接分词,所述第一拼接分词在所述第三处理结果中的出现频次大于所述第二拼接分词;
第二确定子单元,用于确定所述第一拼接分词对应的出现频次,以及确定所述第二拼接分词对应的出现频次;其中,所述第一拼接分词对应的出现频次小于其在所述第三处理结果中的出现频次,所述第二分词对应的出现频次为其在所述第三处理结果中的出现频次;
获得子单元,用于获得第一处理结果;其中,所述第一处理结果中包括所述第一分词、所述第一分词对应的出现频次、所述第二分词,以及所述第二分词对应的出现频次。
15.一种文章判重处理装置,其特征在于,所述装置包括:
获取模块,用于获取待发布文章的文章特征;其中,所述文章特征中包括所述待发布文章的每个段落的第一段落校验值;
查找模块,用于针对所述文章特征中的每个第一段落校验值,在特征库中查找与其相匹配的第二段落校验值;其中,所述特征库中存储有多个段落校验值;
执行模块,用于根据目标数量,对所述待发布文章执行判重处理操作;其中,所述目标数量为存在相匹配的第二段落校验值的第一段落校验值的数量;
所述执行模块,还用于根据所述待发布文章的图片特征、视频特征和整体文本特征中的至少一者,以及所述目标数量,对所述待发布文章执行判重处理操作;
所述执行模块,还用于在查询到图片特征库中存在与第一图片校验值匹配的第二图片校验值的情况下,确定每个第二图片校验值对应的文章,所述第二图片校验值与所述第一图片校验值的汉明距离小于第二预设距离;
在所述目标数量与第一段落校验值的总数量的比值大于预设比值,且所述第二图片校验值的总数量与所述第一图片校验值的总数量的比值大于另一比值的情况下,禁止所述待发布文章发布;
或者,
在查询到文本特征库中存在与第一simhash值匹配的第二simhash值的情况下,确定所述第二simhash值对应的文章,所述第二simhash值对应的文章为:所具有的文本进行simhash运算后,得到的结果为所述第二simhash值的文章,所述第二simhash值与所述第一simhash值的汉明距离小于第一预预设距离,所述第一simhash值采用文本的simhash算法得到;
在查询到文本特征库中存在与第一关键词组匹配的第二关键词组的情况下,确定所述第二关键词组对应的文章,所述第二关键词组对应的文章为:所具有的关键词组包括所述第二关键词组的文章,所述第二关键词组与所述第一关键词组的关键词重复率大于预设比例,所述第一关键词组采用文本的实体链接算法得到;
在查询到文本特征库中存在与第一标题匹配的第二标题的情况下,确定所述第二标题对应的文章,所述第二标题对应的文章为:所具有的标题包括所述第二标题的文章,所述第二标题与所述第一标题的相似度大于预设相似度,所述第一标题采用文本的标题提取算法得到;
在所述目标数量与第一段落校验值的总数量的比值大于预设比值,且存在与所述第二simhash值、所述第二关键词组和所述第二标题中的至少两者对应的文章的情况下,禁止所述待发布文章发布。
16.根据权利要求15所述的装置,其特征在于,所述执行模块,包括:
第一处理单元,用于获得所述文章特征中的第一段落校验值的总数量,并计算目标数量与所述总数量的比值;
第二处理单元,用于在所述比值大于预设比值的情况下,允许发布所述待发布文章;否则,禁止发布所述待发布文章。
17.一种电子设备,其特征在于,包括处理器,存储器,存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的文章判重处理方法的步骤,或者执行如权利要求10至12中任一项所述的文章判重处理方法的步骤。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的文章判重处理方法的步骤,或者执行如权利要求10至12中任一项所述的文章判重处理方法的步骤。
CN201910394044.XA 2019-05-13 2019-05-13 文章判重处理方法、装置及电子设备 Active CN110162752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910394044.XA CN110162752B (zh) 2019-05-13 2019-05-13 文章判重处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910394044.XA CN110162752B (zh) 2019-05-13 2019-05-13 文章判重处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110162752A CN110162752A (zh) 2019-08-23
CN110162752B true CN110162752B (zh) 2023-06-27

Family

ID=67634243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910394044.XA Active CN110162752B (zh) 2019-05-13 2019-05-13 文章判重处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110162752B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488555A (zh) * 2020-04-02 2020-08-04 上海七印信息科技有限公司 版权认证方法、装置、计算机设备和存储介质
CN112084448B (zh) * 2020-08-31 2024-05-07 北京金堤征信服务有限公司 相似信息处理方法以及装置
CN112836487B (zh) * 2021-02-07 2023-01-24 四川封面传媒有限责任公司 一种自动评论方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855282A (zh) * 2012-08-01 2013-01-02 北京百度网讯科技有限公司 一种文档推荐方法及装置
CN105718506A (zh) * 2016-01-04 2016-06-29 胡新伟 一种科技项目查重对比的方法
CN107656916A (zh) * 2016-07-25 2018-02-02 长沙有干货网络技术有限公司 一种Simhash算法的海量文档反作弊技术方法
CN108614827A (zh) * 2016-12-12 2018-10-02 阿里巴巴集团控股有限公司 数据切分方法、判重方法及电子设备
CN108804418A (zh) * 2018-05-21 2018-11-13 浪潮软件集团有限公司 一种基于语义分析的文档查重方法和装置
CN109255777A (zh) * 2018-07-27 2019-01-22 昆明理工大学 一种结合小波变换和感知哈希算法的图像相似度计算方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050299A (zh) * 2014-07-07 2014-09-17 江苏金智教育信息技术有限公司 一种论文查重的方法
CN105740266A (zh) * 2014-12-10 2016-07-06 国际商业机器公司 用于数据去重的方法和设备
CN106844314B (zh) * 2017-02-21 2019-10-18 北京焦点新干线信息技术有限公司 一种文章的查重方法及装置
CN108628831A (zh) * 2018-05-04 2018-10-09 中南大学 一种查重方法
CN109359183B (zh) * 2018-10-11 2021-04-23 南京中孚信息技术有限公司 文本信息的查重方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855282A (zh) * 2012-08-01 2013-01-02 北京百度网讯科技有限公司 一种文档推荐方法及装置
CN105718506A (zh) * 2016-01-04 2016-06-29 胡新伟 一种科技项目查重对比的方法
CN107656916A (zh) * 2016-07-25 2018-02-02 长沙有干货网络技术有限公司 一种Simhash算法的海量文档反作弊技术方法
CN108614827A (zh) * 2016-12-12 2018-10-02 阿里巴巴集团控股有限公司 数据切分方法、判重方法及电子设备
CN108804418A (zh) * 2018-05-21 2018-11-13 浪潮软件集团有限公司 一种基于语义分析的文档查重方法和装置
CN109255777A (zh) * 2018-07-27 2019-01-22 昆明理工大学 一种结合小波变换和感知哈希算法的图像相似度计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于分词矩阵模型的模糊匹配查重算法研究;李成龙;杨冬菊;韩燕波;;计算机科学(第S2期);第55-60页 *

Also Published As

Publication number Publication date
CN110162752A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
WO2020143314A1 (zh) 一种基于搜索引擎的问答方法、装置、存储介质及计算机设备
US8326091B1 (en) Ranking of images and image labels
CN110162752B (zh) 文章判重处理方法、装置及电子设备
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
US8661051B1 (en) Contextual n-gram analysis
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN111831804B (zh) 一种关键短语的提取方法、装置、终端设备及存储介质
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
US20180173697A1 (en) Automated discovery using textual analysis
CN106815265B (zh) 裁判文书的搜索方法及装置
CN111144112A (zh) 文本相似度分析方法、装置和存储介质
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
CN116882372A (zh) 文本生成方法、装置、电子设备以及存储介质
JP5079642B2 (ja) 履歴処理装置、履歴処理方法および履歴処理プログラム
CN108388556B (zh) 同类实体的挖掘方法及系统
CN112691379B (zh) 游戏资源文本审核方法及装置、存储介质、计算机设备
CN112395866A (zh) 报关单数据匹配方法及装置
CN109189955A (zh) 一种自动检索关键词的确定方法和装置
CN109325099A (zh) 一种自动检索的方法和装置
US8745078B2 (en) Control computer and file search method using the same
CN112528646B (zh) 词向量生成方法、终端设备及计算机可读存储介质
CN113962221A (zh) 一种文本摘要的提取方法、装置、终端设备和存储介质
EP2780830A1 (en) Fast database matching
CN112948545A (zh) 查重方法、终端设备及计算机可读存储介质
CN113704422A (zh) 一种文本推荐方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant