CN112528114A - 一种文章去重方法、装置、设备及存储介质 - Google Patents

一种文章去重方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112528114A
CN112528114A CN201910877090.5A CN201910877090A CN112528114A CN 112528114 A CN112528114 A CN 112528114A CN 201910877090 A CN201910877090 A CN 201910877090A CN 112528114 A CN112528114 A CN 112528114A
Authority
CN
China
Prior art keywords
article
target
articles
parameters
deduplication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910877090.5A
Other languages
English (en)
Inventor
任志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201910877090.5A priority Critical patent/CN112528114A/zh
Publication of CN112528114A publication Critical patent/CN112528114A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文章去重方法、装置、设备及存储介质,包括:获取待去重的目标文章,并确定出该目标文章中每篇文章所对应的文章属性,该文章属性用于唯一标识文章;根据所确定出的每篇文章对应的文章属性对目标文章进行去重。由于文章属性与文章之间通常是一一对应的关系,因此,基于所确定出的文章属性对目标文章进行去重,可以使得去重后所得到的文章之间互不相同,从而降低了去重后的文章之间的重复率,进而可以提高去重后的文章数据的唯一性,也即提高了文章数据的去重效果。

Description

一种文章去重方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种文章去重方法、装置、设备及存储介质。
背景技术
在对文章数据进行数据处理的过程中,数据的清洗去噪是相对来说较为重要的步骤。文章数据去噪效果的好坏,决定着最终所使用的文章数据的数据质量的高低,进而影响着后续对文章数据进行分析处理时所得到的分析结果的准确性。其中,去重,是指去除文章数据中内容重复的文章,也是对文章数据进行去噪处理过程中的一个重要方面。
现有的文章数据去重方式中,通常是基于文章对应的URL(Uniform ResourceLocator,统一资源定位符)来实现对文章数据的去重,但是,这种去重方式的效果较差,进行去重处理后所得到的文章数据中仍然存在较多内容重复的文章数据。
发明内容
本申请实施例提供了一种文章去重方法、装置、设备及存储介质,以去除重复的文章数据,降低文章数据中的重复率,从而提高文章数据的唯一性。
第一方面,本申请实施例提供了一种文章去重方法,所述方法包括:
获取目标文章,所述目标文章为待去重的文章;
确定目标文章中每篇文章所对应的文章属性,所述文章属性用于唯一标识所述文章;
根据所述文章属性,对所述目标文章进行去重。
在一些可能的实施方式中,文章属性具体可以是文章的特征参数,所述特征参数包括所述文章的发文作者、发文时间以及标题中的至少两种参数,和/或,所述特征参数包括所述文章的摘要、正文内容中的至少一种参数。
在一些可能的实施方式中,所述根据所述文章属性,对所述目标文章进行去重,包括:
对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值;
将哈希值相同的特征参数所对应的文章进行去重。
在一些可能的实施方式中,所述特征参数包括发文作者、发文时间以及标题中至少两种参数,所述对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值,包括:
将所述发文作者、发文时间以及标题中的至少两种参数进行字符串拼接,得到组合字符串;
对所述组合字符串进行哈希运算,得到所述组合字符串的哈希值。
在一些可能的实施方式中,所述文章属性包括第一特征参数以及第二特征参数,所述第一特征参数与所述第二特征参数不同,所述根据所述文章属性,对所述目标文章进行去重,包括:
根据所述目标文章中每篇文章对应的所述第一特征参数,对所述目标文章进行去重,得到初步去重文章;
根据所述初步去重文章中每篇文章对应的第二特征参数,对所述初步去重文章再次进行去重,得到二次去重文章。
在一些可能的实施方式中,所述根据所述文章属性,对所述目标文章进行去重,包括:
分别比较所述目标文章中的任意两篇文章的特征参数之间的相似度,直至完成所述目标文章中全部文章之间的比较;
将所述目标文章中特征参数的相似度不低于预设阈值的文章进行去重。
在一些可能的实施方式中,所述获取目标文章,包括:
获取初始待去重文章以及所述初始待去重文章对应的统一资源定位符URL;
利用所述URL对所述初始待去重文章进行去重,得到所述目标文章。
第二方面,本申请实施例还提供了一种文章去重装置,所述装置包括:
获取模块,用于获取目标文章,所述目标文章为待去重的文章;
确定模块,用于确定目标文章中每篇文章所对应的文章属性,所述文章属性用于唯一标识所述文章;
去重模块,用于根据所述文章属性,对所述目标文章进行去重。
在一些可能的实施方式中,所述文章属性具体为所述文章的特征参数,所述特征参数包括所述文章的发文作者、发文时间以及标题中的至少两种参数,和/或,所述特征参数包括所述文章的摘要、正文内容中的至少一种参数。
在一些可能的实施方式中,所述去重模块,包括:
哈希运算单元,用于对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值;
第一去重单元,用于将哈希值相同的特征参数所对应的文章进行去重。
在一些可能的实施方式中,所述特征参数发文作者、发文时间以及标题中的至少两种参数,所述哈希运算单元,包括:
拼接子单元,用于将所述发文作者、发文时间以及标题中的至少两种参数进行字符串拼接,得到组合字符串;
哈希运算子单元,用于对所述组合字符串进行哈希运算,得到所述组合字符串的哈希值。
在一些可能的实施方式中,所述文章属性包括第一特征参数以及第二特征参数,所述第一特征参数与所述第二特征参数不同,所述去重模块,包括:
初步去重单元,用于根据所述目标文章中每篇文章对应的所述第一特征参数,对所述目标文章进行去重,得到初步去重文章;
二次去重单元,用于根据所述初步去重文章中每篇文章对应的第二特征参数,对所述初步去重文章再次进行去重,得到二次去重文章。
在一些可能的实施方式中,所述去重模块,包括:
比较单元,用于分别比较所述目标文章中的任意两篇文章的特征参数之间的相似度,直至完成所述目标文章中全部文章之间的比较;
第二去重单元,用于将所述目标文章中特征参数的相似度不低于预设阈值的文章进行去重。
在一些可能的实施方式中,所述获取模块,包括:
获取单元,用于获取初始待去重文章以及所述初始待去重文章对应的统一资源定位符URL;
初始去重单元,用于利用所述URL对所述初始待去重文章进行去重,得到所述目标文章。
第三方面,本申请实施例还提供了一种存储介质,其上存储有程序,所述程序被处理器执行时实现上述第一方面中任一种实施方式所述的文章去重方法。
第四方面,本申请实施例还提供了一种设备,所述设备包括至少一个处理器,以及与所述处理器连接的至少一个存储器;
所述存储器用于调用所述存储器中的程序指令,以执行上述第一方面中任一种实施方式所述的文章去重方法。
在本申请实施例的上述实现方式中,通过唯一标识文章的文章属性来实现对文章的去重,以降低文章数据中的重复率,从而提高文章数据的唯一性。具体实现时,可以获取待去重的目标文章,并确定出该目标文章中每篇文章所对应的文章属性,该文章属性用于唯一标识该文章;然后,根据所确定出的每篇文章对应的文章对目标文章进行去重。可以理解,由于文章属性与文章之间是一一对应的关系,因此,基于所确定出的文章属性对目标文章进行去重,可以使得去重后所得到的文章之间互不相同,从而降低了去重后的文章之间的重复率,进而可以提高去重后的文章数据的唯一性,也即提高了文章数据的去重效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一示例性应用场景示意图;
图2为本申请实施例中一种文章去重方法的流程示意图;
图3为本申请实施例中一种文章去重装置的结构示意图;
图4为本申请实施例中一种设备的硬件结构示意图。
具体实施方式
现有的文章数据去重的技术方案中,大多是采用文章数据的URL(具体为URL的字符串)来对文章数据进行去重,但是,这种去重方式所得到的文章数据中文章的重复率较高,即,去重后的文章数据中仍然存在较多内容一致的文章,去重效果较差。
发明人经研究发现,URL与文章内容之间并非是一一对应的。具体的,对于同一篇文章,其可能会存在于网络上的多个位置,比如,一篇文章可能会在多个网络平台上发表等,这使得一篇文章实际上可能对应于多个不同的URL。则,基于URL对文章数据进行去重时,虽然URL不同,但是其所对应的文章内容仍然相同,从而导致去重效果较差的问题。
基于此,本申请书实施例提供了一种文章去重方法,基于能够唯一标识文章的文章属性来实现对文章的去重,以降低文章数据中的重复率,从而提高文章数据的唯一性。具体实现时,可以获取待去重的目标文章,并确定出该目标文章中每篇文章所对应的文章属性,该文章属性用于唯一标识该文章;然后,根据所确定出的每篇文章对应的文章属性对目标文章进行去重。可以理解,由于文章属性与文章之间具有一一对应的关系,即文章属性可以对文章进行唯一标识,因此,基于所确定出的文章属性对目标文章进行去重,可以使得去重后所得到的文章之间互不相同,从而降低了去重后的文章之间的重复率,进而可以提高去重后的文章数据的唯一性,也即提高了文章数据的去重效果。
作为一种示例,本申请实施例可以应用于如图1所示的示例性应用场景。在该场景中,用户101可以在终端102上执行针对于文章数据爬取的触发操作;终端102响应该触发操作,向服务器103发送数据爬取请求;服务器103基于该数据爬取请求,从网络104中爬取文章数据;由于服务器103所爬取到的文章数据中存在较多内容重复的文章,因此,服务器103可以对爬取到的文章数据进行去重处理。具体实现时,服务器103可以确定所爬取到的文章(可以为上述目标文章)中每篇文章所对应的特征参数(该特征参数可以作为上述文章属性),该特征参数包括文章的发文作者、发文时间以及标题中的至少两种参数,和/或,该特征参数包括文章的摘要、正文内容中的至少一种参数;然后,服务器103可以根据所确定出的每篇文章对应的特征参数,对爬取到的文章数据进行去重处理,得到去重后的文章数据;最后,服务器103可以将去重后的文章数据发送给终端102,由终端102将其呈现给用户101。
可以理解的是,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。比如,在其它可能的实施方式中,服务器103所获取的文章数据也可以是第三方平台所提供的数据等;又比如,上述数据爬取以及文章数据去重处理的过程,也可以是由终端102执行等。总之,本申请实施例可以应用于任何可适用的应用场景中,而不限于上述场景示例。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面将结合附图对本申请实施例中的各种非限定性实施方式进行示例性说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
参阅图2,图2示出了本申请实施例中一种文章去重方法的流程示意图,该方法可以应用于图1所示的终端102或者服务器103等,该方法具体可以包括:
S201:获取目标文章,该目标文章为待去重的文章。
本实施例中,当终端或者服务器需要执行针对于文章数据的去重处理时,可以先获取所需待去重的文章,也即为步骤S201中所述的目标文章。
本实施例中,获取目标文章的实施方式存在多种。在一种示例性的实施方式中,可以是由终端或者服务器基于爬虫程序从互联网中爬取所需的文章,也可以从爬虫已爬取的文章集合中选取目标文章。其中,所爬取的文章可以是具有特定类型的文章,比如,可以是微博文章,或者是学术论文等;当然,所爬取的文章也可以是互联网的特定网站中的文章等。
在又一种示例性的实施方式中,也可以是由第三方的数据平台向终端或者服务器提供目标文章,以将该目标文章交由该终端或者服务器进行文章去重。当然,在其它可能的实施方式中,终端或者服务器也可以是对用户所指定的文章数据进行去重,即,终端或者服务器所获取的目标文章,也可以是由用户提供。
实际应用中,本实施例的文章去重方法,可以是在利用URL对文章进行去重的基础上所进行的进一步去重。具体的,在实施本实施例的技术方案之前,还可以先获取初始待去重文章以及该初始待去重文章中每篇文章对应的URL;然后,利用该URL对初始待去重文章进行去重,得到步骤S201中所述的目标文章。从而,在已经利用URL对文章进行去重的基础上,可以实施本实施例的技术方案对该已经完成初步去重的文章进行进一步的去重处理。
S202:确定目标文章中每篇文章所对应的文章属性,该文章属性用于唯一标识文章。
由于文章的URL与文章内容之间并非是一一对应的关系,因此,基于文章的URL对目标文章可能会使得去重后的文章中仍然存在较多内容重复的文章,从而使得文章的去重效果较差。
基于此,本实施例中,是利用文章属性对文章进行去重,由于文章属性可以对文章进行唯一标识,即文章属性与文章内容之间具有一一对应的关系,因此,利用该文章属性对目标文章进行去重后,剩余的文章之间重复率较低,甚至是不存在重复文章。
作为一种示例性的具体实施方式,本实施例中的文章属性具体可以是文章的特征参数。其中,文章的特征参数具体可以是文章的发文作者、发文时间以及标题中的至少两种参数。可以理解,通常情况下,同一发文作者在发表不同文章时,其发文时间或者发文标题通常并不相同,而对于不同发文作者,其在发表文章时,通常发文时间以及发表文章的标题基本不会同时相同。因此,对于实际应用中任意两篇文章,若这两篇文章的发文作者、发文时间以及文章标题中的至少两种参数均不相同,则可以认为这两篇文章的内容通常也不相同;反之,若这两篇文章的发文作者、发文时间以及文章标题中的至少两种参数均相同,则可以认为这两篇文章的内容相同,实际上应该为同一篇文章。为此,本实施例中,可以利用文章的发文作者、发文时间以及标题中的至少两种参数来对目标文章进行去重处理。
在其它可能的实施方式中,作为文章属性的特征参数,也可以是文章的摘要以及文章的正文内容。可以理解,实际应用中,若两篇文章的内容不同,则这两篇文章的摘要以及正文内容通常也不会相同,而当两篇文章的摘要或者正文内容相同,则这两篇文章很有可能具有相同的文章内容,也即这两篇文章实际上为同一篇文章。因此,本实施例中,也可以利用文章的摘要以及正文内容中的至少一种参数,来对该目标文章进行去重处理。
当然,结合上述两种示例性实施方式中,在又一种可能的实施方式中,所确定出的文章的特征参数,也可以在包括文章的发文作者、发文时间以及标题中的至少两种参数的同时,也可以包括文章的摘要以及正文内容中的至少一种参数。
实际应用中,终端或者服务器所获取的目标文章,可以携带有每篇文章所对应的发文作者、发文时间以及标题等特征参数,因此,终端或者服务器在确定目标文章中每篇文章的特征参数时,可以从目标文章提取得到。
S203:根据所确定出的文章属性,对目标文章进行去重。
本实施例中,由于所确定出的文章属性与目标文章中的每篇文章之间具有一一对应关系,因此,根据所确定出的文章属性,对目标文章进行去重后,可以降低去重后所得到的文章的重复率。对于文章内容相同但是URL不同的文章,也可以是基于所确定出的文章属性实现去重,从而可以有效降低去重后的文章的重复率,提高文章的去重效果。
作为一种去重的示例性实施方式,文章属性具体为文章的特征参数,则在对目标文章进行去重时,具体可以是利用特征参数的哈希值来将具有相同内容的文章进行去重。具体的,在确定出特征参数后,可以对该特征参数进行哈希运算,得到该特征参数的哈希值,然后,可以将哈希值相同的特征参数所对应的文章进行去重。可以理解,若特征参数相同,则,对该相同的特征参数进行哈希运算后,所得到的特征参数的哈希值也相同,而哈希值相同的特征参数所对应的文章通常是内容相同的文章,则可以进行去重处理;反之,若特征参数不同,则对不同特征参数进行哈希运算后,所得到的特征参数的哈希值通常也不相同,而对于哈希值不同的特征参数所对应的文章通常是内容不相同的文章,则可以不对其进行去重处理。因此,将特征参数的哈希值相同的文章进行去重后,所得到的去重后的文章中通常不会存在内容重复的文章。
进一步的,当特征参数包括至少两个参数,以包括第一参数以及第二参数两种参数为例,对特征参数进行哈希运算,具体可以是对第一参数以及第二参数所拼接得到的字符串进行哈希运算。具体的,若第一参数以及第二参数为发文作者、发文时间以及标题中的任意两个参数,则可以将该第一参数与第二参数进行字符串拼接,得到组合字符串,然后,可以对该组合字符串进行哈希运算,得到组合字符串的哈希值,该组合字符串的哈希值也即为特征参数的哈希值。
当然,若特征参数包括三个参数,比如,特征参数同时包含发文作者、发文时间以及标题这三种参数,则同样可以将该三种参数进行字符串拼接,得到由发文作者、发文时间以及标题这三种参数所拼接得到的组合字符串,然后,对该组合字符串进行哈希运算,得到组合字符串的哈希值(即特征参数的哈希值)。其中,发文作者、发文时间以及标题这三种参数在进行字符串拼接时,拼接的顺序可以是任意顺序,但是对于目标文章中的每篇文章对应的特征参数,均是按照相同的拼接顺序完成字符串的拼接。比如,假设特征参数同时包括发文作者、发文时间以及标题,则目标文章中的文章1对应的特征参数在按照发文作者、发文时间以及标题这种拼接顺序完成字符串的拼接时,目标文章的文章2、文章3等其它文章对应的特征参数也需要按照发文作者、发文时间以及标题这种拼接顺序完成字符串的拼接。
实际应用中,当特征参数包括多个参数时,也可以是对多个参数对应的字符串分别进行哈希运算,从而得到每个参数对应的哈希值,则在对文章进行去重时,可以将各个参数对应的哈希值均相同的文章进行去重。其中,若两篇文章的各个参数中存在任何一个哈希值不相同,则可以认为这两篇文章的文章内容不相同。
本实施例中,除了上述利用特征参数的哈希值来对文章进行去重的实施方式以外,还可以利用特征参数的相似度来对文章进行去重。具体的,可以比较目标文章中每篇文章的特征与其它文章的特征参数之间的相似度,并且,若目标文章中两篇文章的特征参数的相似度不低于预设阈值,则可以认为这两篇文章为内容相同的文章,进而可以对这两篇文章进行去重处理;若目标文章中两篇文章的特征参数的相似度低于预设阈值,则可以认为这两篇文章为内容不相同的文章,无需对这两篇文章进行去重处理。比如,对于目标文章中的任意两篇文章,可以将这两篇文章的特征参数进行字符比对,从而根据字符比对结果确定特征参数之间的相似度。
值得注意的是,上述预设阈值可以是根据特征参数的不同而被设定成不同值。比如,若特征参数为发文作者以及发文时间时,则,该预设阈值可以为0.999或者为1等;而若该特征参数为发文作者以及标题时,该预设阈值可以为0.98等;而若该特征参数为摘要或者正文内容等,则可以将预设阈值设置为0.8或者0.85等。
实际应用中,当文章对应的文章属性具体为特征参数时,还可以是对文章执行两次去重过程。具体的,对于目标文章中的每篇文章,均可以具有第一特征参数以及第二特征参数,当前,每篇文章对应的第一特征参数与第二特征参数可以不同。在利用特征参数对目标文章进行去重时,可以先利用每篇文章对应的第一特征参数,对目标文章进行一次去重,得到初步去重文章;然后,在利用该初步去重文章中每篇文章对应的第二特征参数,对该初步去重文章再次进行去重,得到二次去重文章。这样,通过对目标文章进行两次递进式的去重过程,可以进一步降低最终去重得到的文章的重复率,提高去重效果。
举例来说,假设第一特征参数具体为文章的标题以及作者,第二特征参数具体为文章的发文作者以及发文时间,则可以利用文章的标题以及作者,对目标文章进行一次去重,得到初步去重文章,所得到的初步去重文章中不同文章之间的标题以及作者并不同时相同;然后,可以再利用文章的发文作者以及发文时间,对初步去重文章再次进行去重,得到二次去重文章,从而可以进一步降低最终去重得到的二次去重文章的重复率,提高去重效果。当然,在其它示例中,第一特征参数也可以是发文作者、发文时间以及标题中的至少两种参数,而第二特征参数可以是文章的摘要或者正文内容中的至少一种参数等。
本实施例中,可以获取待去重的目标文章,并确定出该目标文章中每篇文章所对应的文章属性,文章属性可以用于唯一标识文章,当文章属性具体是特征参数时,该特征参数可以包括文章的发文作者、发文时间以及标题中的至少两种参数,和/或,该特征参数可以包括文章的摘要、正文内容中的至少一种参数;然后,根据所确定出的每篇文章对应的文章属性对目标文章进行去重。可以理解,由于文章属性与文章之间是一一对应的关系,因此,基于所确定出的文章属性对目标文章进行去重,可以使得去重后所得到的文章之间互不相同,从而降低了去重后的文章之间的重复率,进而可以提高去重后的文章数据的唯一性,也即提高了文章数据的去重效果。
此外,本申请实施例还提供了一种文章去重装置。参阅图3,图3示出了本申请实施例中一种文章去重装置,所述装置300包括:
获取模块301,用于获取目标文章,所述目标文章为待去重的文章;
确定模块302,用于确定目标文章中每篇文章所对应的文章属性,所述文章属性用于唯一标识所述文章;
去重模块303,用于根据所述文章属性,对所述目标文章进行去重。
特征参数,其中,该特征参数包括文章的发文作者、发文时间以及标题中的至少两种参数,和/或,该特征参数包括文章的摘要、正文内容中的至少一种参数。
在一些可能的实施方式中,所述去重模块303,包括:
哈希运算单元,用于对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值;
第一去重单元,用于将哈希值相同的特征参数所对应的文章进行去重。
在一些可能的实施方式中,所述特征参数包括所述发文作者、发文时间以及标题中的至少两种参数,所述哈希运算单元,包括:
拼接子单元,用于将所述发文作者、发文时间以及标题中的至少两种参数进行字符串拼接,得到组合字符串;
哈希运算子单元,用于对所述组合字符串进行哈希运算,得到所述组合字符串的哈希值。
在一些可能的实施方式中,所述文章属性包括第一特征参数以及第二特征参数,所述第一特征参数与所述第二特征参数不同,所述去重模块303,包括:
初步去重单元,用于根据所述目标文章中每篇文章对应的所述第一特征参数,对所述目标文章进行去重,得到初步去重文章;
二次去重单元,用于根据所述初步去重文章中每篇文章对应的第二特征参数,对所述初步去重文章再次进行去重,得到二次去重文章。
在一些可能的实施方式中,所述去重模块303,包括:
比较单元,用于比较所述目标文章中的每篇文章的特征参数,与其它文章的特征参数之间的相似度;
第二去重单元,用于将所述目标文章中特征参数的相似度不低于预设阈值的文章进行去重。
在一些可能的实施方式中,所述获取模块301,包括:
,获取单元,用于获取初始待去重文章以及所述初始待去重文章对应的统一资源定位符URL;
初始去重单元,用于利用所述URL对所述初始待去重文章进行去重,得到所述目标文章。
需要说明的是,上述装置各模块、单元以及子单元之间的信息交互、执行过程等内容,由于与本申请实施例中方法实施例属于同一构思,相应的,其带来的技术效果与本申请实施例中方法实施例所具有的技术效果相同,具体内容可参见方法实施例中相关之处的描述,此处不再赘述。
本实施例中,由于文章属性与文章之间是一一对应的关系,因此,基于所确定出的文章属性对目标文章进行去重,可以使得去重后所得到的文章之间互不相同,从而降低了去重后的文章之间的重复率,进而可以提高去重后的文章数据的唯一性,也即提高了文章数据的去重效果。
所述文章去重装置包括处理器和存储器,上述获取模块、确定模块、去重模块、第二获取模块、初步去重单元、二次去重单元、获取单元、初始去重单元、哈希运算单元、第一去重单元、比较单元、第二去重单元、拼接子单元以及哈希运算子单元等均作为程序模块、单元和子单元可以存储在存储器中,由处理器执行存储在存储器中的上述程序模块、单元和子单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序模块、单元和子单元。内核可以设置一个或以上,通过调整内核参数来去除重复的文章数据,降低文章数据中的重复率,从而提高文章数据的唯一性。
本申请实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述文章去重方法。
本申请实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述文章去重方法。
参阅图4,图4示出了本申请实施例提供的一种设备40,该设备40包括至少一个处理器401、以及与处理器401连接的至少一个存储器402、总线403;其中,处理器41、存储器402通过总线403完成相互间的通信;处理器401用于调用存储器402中的程序指令,以执行上述的文章去重方法。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取目标文章,所述目标文章为待去重的文章;
确定目标文章中每篇文章所对应的文章属性,所述文章属性用于唯一标识所述文章;
根据所述特征参数,对所述目标文章进行去重。
在一些可能的实施方式中,文章属性具体可以是文章的特征参数,所述特征参数包括所述文章的发文作者、发文时间以及标题中的至少两种参数,和/或,所述特征参数包括所述文章的摘要、正文内容中的至少一种参数。
在一些可能的实施方式中,当在数据处理设备上执行时,适于具体执行初始化有如下方法步骤的程序:
对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值;
将哈希值相同的特征参数所对应的文章进行去重。
在一些可能的实施方式中,所述特征参数包括所述发文作者、发文时间以及标题中的至少两种参数,则,当在数据处理设备上执行时,适于具体执行初始化有如下方法步骤的程序:
将所述发文作者、发文时间以及标题中的至少两种参数进行字符串拼接,得到组合字符串;
对所述组合字符串进行哈希运算,得到所述组合字符串的哈希值。
在一些可能的实施方式中,所述文章属性包括第一特征参数以及第二特征参数,所述第一特征参数与所述第二特征参数不同,则,当在数据处理设备上执行时,适于具体执行初始化有如下方法步骤的程序:
根据所述目标文章中每篇文章对应的所述第一特征参数,对所述目标文章进行去重,得到初步去重文章;
根据所述初步去重文章中每篇文章对应的第二特征参数,对所述初步去重文章再次进行去重,得到二次去重文章。
在一些可能的实施方式中,当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:
分别比较所述目标文章中的任意两篇文章的特征参数之间的相似度,直至完成所述目标文章中全部文章之间的比较;
将所述目标文章中特征参数的相似度不低于预设阈值的文章进行去重。
在一些可能的实施方式中,当在数据处理设备上执行时,具体适于执行初始化有如下方法步骤的程序:
获取初始待去重文章以及所述初始待去重文章对应的统一资源定位符URL;
利用所述URL对所述初始待去重文章进行去重,得到所述目标文章。
本申请是参照根据本申请实施例的方法、装置、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请实施例中提到的“第一去重单元”、“第一特征参数”等名称中的“第一”只是用来做名字标识,并不代表顺序上的第一。该规则同样适用于“第二”等。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种文章去重方法,其特征在于,所述方法包括:
获取目标文章,所述目标文章为待去重的文章;
确定目标文章中每篇文章所对应的文章属性,所述文章属性用于唯一标识所述文章;
根据所述文章属性,对所述目标文章进行去重。
2.根据权利要求1所述的方法,其特征在于,所述文章属性具体为所述文章的特征参数,所述特征参数包括所述文章的发文作者、发文时间以及标题中的至少两种参数,和/或,所述特征参数包括所述文章的摘要、正文内容中的至少一种参数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述文章属性,对所述目标文章进行去重,包括:
对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值;
将哈希值相同的特征参数所对应的文章进行去重。
4.根据权利要求3所述的方法,其特征在于,所述特征参数包括所述发文作者、发文时间以及标题中的至少两种参数,所述对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值,包括:
将所述发文作者、发文时间以及标题中的至少两种参数进行字符串拼接,得到组合字符串;
对所述组合字符串进行哈希运算,得到所述组合字符串的哈希值。
5.根据权利要求2所述的方法,其特征在于,所述文章属性包括第一特征参数以及第二特征参数,所述第一特征参数与所述第二特征参数不同,所述根据所述文章属性,对所述目标文章进行去重,包括:
根据所述目标文章中每篇文章对应的所述第一特征参数,对所述目标文章进行去重,得到初步去重文章;
根据所述初步去重文章中每篇文章对应的第二特征参数,对所述初步去重文章再次进行去重,得到二次去重文章。
6.根据权利要求2所述的方法,其特征在于,所述根据所述文章属性,对所述目标文章进行去重,包括:
分别比较所述目标文章中的任意两篇文章的特征参数之间的相似度,直至完成所述目标文章中全部文章之间的比较;
将所述目标文章中特征参数的相似度不低于预设阈值的文章进行去重。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述获取目标文章,包括:
获取初始待去重文章以及所述初始待去重文章对应的统一资源定位符URL;
利用所述URL对所述初始待去重文章进行去重,得到所述目标文章。
8.一种文章去重装置,其特征在于,所述装置包括:
获取模块,用于获取目标文章,所述目标文章为待去重的文章;
确定模块,用于确定目标文章中每篇文章所对应的文章属性,所述文章属性用于唯一标识所述文章;
去重模块,用于根据所述文章属性,对所述目标文章进行去重。
9.一种存储介质,其特征在于,其上存储有程序,所述程序被处理器执行时实现所述权利要求1至7任一项所述的文章去重方法。
10.一种设备,其特征在于,所述设备包括至少一个处理器,以及与所述处理器连接的至少一个存储器;
所述存储器用于调用所述存储器中的程序指令,以执行权利要求1至7任一项所述的文章去重方法。
CN201910877090.5A 2019-09-17 2019-09-17 一种文章去重方法、装置、设备及存储介质 Pending CN112528114A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910877090.5A CN112528114A (zh) 2019-09-17 2019-09-17 一种文章去重方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910877090.5A CN112528114A (zh) 2019-09-17 2019-09-17 一种文章去重方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112528114A true CN112528114A (zh) 2021-03-19

Family

ID=74974645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910877090.5A Pending CN112528114A (zh) 2019-09-17 2019-09-17 一种文章去重方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112528114A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130144847A1 (en) * 2011-12-05 2013-06-06 Google Inc. De-Duplication of Featured Content
CN104077377A (zh) * 2014-06-25 2014-10-01 红麦聚信(北京)软件技术有限公司 基于网络文章属性的网络舆情热点发现方法和装置
CN105373605A (zh) * 2015-11-11 2016-03-02 中国农业大学 数据文件批量存储方法及系统
CN105574004A (zh) * 2014-10-10 2016-05-11 阿里巴巴集团控股有限公司 一种网页去重方法和设备
CN110163688A (zh) * 2019-05-30 2019-08-23 复旦大学 商品网络舆情检测系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130144847A1 (en) * 2011-12-05 2013-06-06 Google Inc. De-Duplication of Featured Content
CN104077377A (zh) * 2014-06-25 2014-10-01 红麦聚信(北京)软件技术有限公司 基于网络文章属性的网络舆情热点发现方法和装置
CN105574004A (zh) * 2014-10-10 2016-05-11 阿里巴巴集团控股有限公司 一种网页去重方法和设备
CN105373605A (zh) * 2015-11-11 2016-03-02 中国农业大学 数据文件批量存储方法及系统
CN110163688A (zh) * 2019-05-30 2019-08-23 复旦大学 商品网络舆情检测系统

Similar Documents

Publication Publication Date Title
CN106649346B (zh) 数据重复性校验方法及装置
CN107480205B (zh) 一种进行数据分区的方法和装置
CN107045507B (zh) 网页爬取方法及装置
CN109828780B (zh) 一种开源软件的识别方法及装置
CN112015806A (zh) 区块链存储数据的方法及装置
CN106294886A (zh) 一种从HBase中全量抽取数据的方法及系统
CN111368227A (zh) 一种url处理方法以及装置
CN111124480A (zh) 应用程序包的生成方法、装置、电子设备及存储介质
CN112579623A (zh) 存储数据的方法、装置、存储介质及设备
US9904695B2 (en) Efficient sorting of large data set with duplicate values
CN109558548B (zh) 一种消除css样式冗余的方法及相关产品
CN112287201A (zh) 对爬虫的请求去重的方法、装置、介质以及电子设备
CN117492670A (zh) 日志打印序列的确定方法、装置及电子设备
CN110717036B (zh) 一种统一资源定位符的去重方法、装置及电子设备
CN110019295B (zh) 数据库检索方法、装置、系统以及存储介质
CN112528114A (zh) 一种文章去重方法、装置、设备及存储介质
EP2990983B1 (en) Method and apparatus for scanning files
CN109558549B (zh) 一种消除css样式冗余的方法及相关产品
CN111125087A (zh) 数据的存储方法及装置
CN113792232B (zh) 页面特征计算方法、装置、电子设备、介质及程序产品
CN110858852B (zh) 一种注册域名的获取方法及装置
US20180150752A1 (en) Identifying artificial intelligence content
CN114912111A (zh) 一种云主机病毒检测方法、装置和系统
CN109145220B (zh) 数据处理方法、装置及电子设备
CN108874941B (zh) 基于卷积特征和多重哈希映射的大数据url去重方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination