CN111552864A - 一种资讯去重的方法、系统、存储介质及电子设备 - Google Patents
一种资讯去重的方法、系统、存储介质及电子设备 Download PDFInfo
- Publication number
- CN111552864A CN111552864A CN202010202214.2A CN202010202214A CN111552864A CN 111552864 A CN111552864 A CN 111552864A CN 202010202214 A CN202010202214 A CN 202010202214A CN 111552864 A CN111552864 A CN 111552864A
- Authority
- CN
- China
- Prior art keywords
- information
- title
- content
- repeated
- duplicate removal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Abstract
本发明涉及计算机技术领域,尤其涉及一种资讯去重的方法、系统、存储介质及电子设备,方法包括:对目标资讯的标题与去重库中资讯的标题进行重复判断;若资讯的标题重复,则对标题重复的资讯进行去重处理;若资讯的标题不重复,则对目标资讯的内容与去重库中资讯的内容进行重复判断:获取目标资讯内容的simhash码及去重库中各资讯内容的simhash码,并将各simhash码分为N段M位长度的子码,N、M为大于1的自然数;基于各子码建立去重库中对应资讯的索引;对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断,若资讯的内容重复,则对内容重复的资讯进行去重处理。通过使用本发明,可以快速、准确的实现资讯重复的判断。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种资讯去重的方法、系统、存储介质及电子设备。
背景技术
在当下资讯传播迅速、信息广泛的时代,如何准确有效的获取资讯将是十分重要的。资讯的产生有很多来源,自媒体、地方媒体、公众号、微博、官媒等等,相对于一个热点事件,可能会有千千万万的报道和描述,如果对这些资讯不加以筛选剔除,无论对于存储的经济性来说还是对于资讯推送到前台重复展示给用户的效果,都是不合理的。
针对上述情况,资讯的去重系统应运而生,目前市场上的去重系统普遍存在效率和效果不能共存的问题。有采用相似度的去重系统,效率普遍低下,而采用其他方式的去重系统,例如hash值比较的,效率相对提升,但是效果没有相似度好。
发明内容
为解决上述问题,本发明提出一种资讯去重的方法,目的在于快速、准确的实现资讯去重。本申请还提供了相应的系统、存储介质及电子设备。
一种资讯去重的方法,包括:
对目标资讯的标题与去重库中资讯的标题进行重复判断;
若资讯的标题重复,则对标题重复的资讯进行去重处理;若资讯的标题不重复,则对目标资讯的内容与去重库中资讯的内容进行重复判断:
获取目标资讯内容的simhash码及去重库中各资讯内容的simhash码,并将各simhash码分为N段M位长度的子码,N、M为大于1的自然数;
基于各子码建立去重库中对应资讯的索引;
对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断,若资讯的内容重复,则对内容重复的资讯进行去重处理。
优选的,所述对目标资讯的标题与去重库中资讯的标题进行重复判断包括:
对目标资讯的标题与去重库中资讯的标题进行最短编辑距离计算:若最短编辑距离大于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;
若最短编辑距离小于等于设定阈值,则对目标资讯的标题与去重库中符合最短编辑距离要求的资讯的标题进行向量相似度计算:若向量相似度小于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;若向量相似度大于等于设定阈值,则判断目标资讯的标题与去重库中资讯的标题重复。
优选的,所述对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断包括:
基于获取的目标资讯内容的simhash码及去重库中各资讯内容的simhash码,计算目标资讯内容的simhash码与去重库中相同子码对应的资讯的内容的simhash码的汉明距离,若汉明距离大于设定的汉明距离阈值,则判断资讯内容不重复;
若汉明距离小于或等于设定的汉明距离阈值,则对目标资讯的内容与去重库中相同子码对应的资讯的内容进行余弦相似度检测,若余弦相似度小于设定的余弦相似度阈值,则判断资讯的内容不重复,若余弦相似度大于或等于设定的余弦相似度阈值,则判断资讯的内容重复。
优选的,所述对标题重复的资讯进行去重处理之前还包括:
判断标题重复的资讯主体是否相同:若资讯的主体相同,则对标题重复且主体相同的资讯进行去重处理。
优选的,所述对内容重复的资讯进行去重处理之前还包括:
判断内容重复的资讯主体是否相同:若资讯的主体相同,则对内容重复且主体相同的资讯进行去重处理。
优选的,所述目标资讯的主体与去重库中资讯的主体的提取包括:
对目标资讯或去重库中资讯通过BERT算法处理得到若干词向量;
对若干词向量通过Bi-LSTM算法处理得到对应的预测分值;
对预测分值通过CRF算法处理得到资讯的主体。
一种资讯去重的系统,包括:
标题重复判断模块,用于对目标资讯的标题与去重库中资讯的标题进行重复判断;
内容重复判断模块,用于资讯的标题不重复时,对目标资讯的内容与去重库中资讯的内容进行重复判断;
去重处理模块,用于对标题重复或内容重复的资讯进行去重处理
所述内容重复判断模块包括:
simhash码计算模块,用于获取目标资讯内容的simhash码及去重库中各资讯内容的simhash码,并将各simhash码分为N段M位长度的子码,N、M为大于1的自然数;
索引建立模块,用于基于各子码建立去重库中对应资讯的索引;
子码重复判断模块,用于对目标资讯内容对应的子码与去重库中各资讯内容对应的子码进行判断;
内容重复判断子模块,用于当子码相同时,对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断。
优选的,所述标题重复判断模块包括:
最短编辑距离计算模块,用于对目标资讯的标题与去重库中资讯的标题进行最短编辑距离计算;
向量相似度计算模块,用于若最短编辑距离小于等于设定阈值,则对目标资讯的标题与去重库中符合最短编辑距离要求的资讯的标题进行向量相似度计算;
标题重复判断子模块,用于若最短编辑距离大于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;还用于若向量相似度小于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;若向量相似度大于等于设定阈值,则判断目标资讯的标题与去重库中资讯的标题重复。
优选的,所述内容重复判断子模块还用于:
基于获取的目标资讯内容的simhash码及去重库中各资讯内容的simhash码,计算目标资讯内容的simhash码与去重库中相同子码对应的资讯的内容的simhash码的汉明距离,若汉明距离大于设定的汉明距离阈值,则判断资讯内容不重复;
若汉明距离小于或等于设定的汉明距离阈值,则对目标资讯的内容与去重库中相同子码对应的资讯的内容进行余弦相似度检测,若余弦相似度小于设定的余弦相似度阈值,则判断资讯的内容不重复,若余弦相似度大于或等于设定的余弦相似度阈值,则判断资讯的内容重复。
优选的,还包括:
主体相同判断模块,用于判断资讯主体是否相同;
所述去重处理模块,还用于对标题重复且主体相同,或内容重复且主体相同的资讯进行去重处理。
优选的,还包括:
主体提取模块,用于对目标资讯或去重库中资讯通过BERT算法处理得到若干词向量;对若干词向量通过Bi-LSTM算法处理得到对应的预测分值;对预测分值通过CRF算法处理得到资讯的主体。
一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述一种资讯去重的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行所述的一种资讯去重的方法的步骤。
通过使用本发明,可以实现以下效果:
1.根据资讯特点,通过对资讯标题和资讯内容的独立判断逻辑,能够准确的实现资讯重复的判断;
2.通过获取目标资讯内容的simhash码及去重库中各资讯内容的simhash码,并将各simhash码分为N段M位长度的子码,基于各子码建立去重库中对应资讯的索引,对目标资讯内容对应的子码与去重库中各资讯内容对应的子码进行重复判断,若子码重复,则基于索引在去重库中找到对应的资讯,并对目标资讯的主体与去重库中相同子码对应的资讯的内容进行重复判断,从而实现资讯内容重复的快速判断;
3.对目标资讯的标题采用最短编辑距离、向量相似度、资讯的主体的判断方式,提高判断的准确度;
4.对目标资讯的内容采用改进的simhash算法、余弦相似度、资讯的主体的判断方式,提高判断的准确度;
5.对标题重复的资讯进行去重处理之前以及对内容重复的资讯进行去重处理之前增加资讯主体是否相同的判断,排除资讯标题重复但资讯的主体不重复,以及资讯的内容重复但资讯的主体不重复的情况,提高资讯重复判断的准确度,以实现更好的去重效果。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例一一种资讯去重的方法的整体流程示意图;
图2是本发明实施例二一种资讯去重的方法的整体流程示意图;
图3是本发明实施例二一种资讯去重的方法中步骤S2034的流程示意图;
图4是本发明实施例三一种资讯去重的系统的结构示意图;
图5是本发明实施例三一种资讯去重的系统中标题重复判断模块的结构示意图;
图6是本发明实施例三一种资讯去重的系统中内容重复判断模块的结构示意图;
图7是本发明实施例四一种资讯去重的系统的结构示意图;
图8是本发明实施例六一种电子设备的结构示意图。
具体实施方式
以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
实施例一
本发明的基本思想是提出一种资讯去重的方法,包括对目标资讯的标题与去重库中资讯的标题进行重复判断;若资讯的标题重复,则对标题重复的资讯进行去重处理;若资讯的标题不重复,则对目标资讯的内容与去重库中资讯的内容进行重复判断;若资讯的内容重复,则对内容重复的资讯进行去重处理。所述方法首先对资讯的标题进行重复判断,然后再对资讯的内容进行重复判断,以实现对资讯的去重。在对资讯的内容进行重复判断时,采用改进的simhash算法,将simhash码分为N段M位长度的子码,基于各子码建立去重库中对应资讯的索引,对目标资讯内容对应的子码与去重库中各资讯内容对应的子码进行判断,若子码相同,则基于索引在去重库中找到对应的资讯,对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断,若内容重复,则对内容重复的资讯进行去重处理,最终实现资讯内容的重复判断,改进的simhash算法能够实现更快速、准确的进行资讯内容的判断。
在本实施例中,资讯的标题即为文章的标题,资讯的内容即为新闻资讯平常定义的文章内容。
如图1所示,本发明实施例一提出一种资讯去重的方法,包括以下步骤:S101:对目标资讯的标题与去重库中资讯的标题进行重复判断。
对目标资讯进行重复判断之前,会对目标资讯的标题和内容进行清洗,去除一些非法字符和HTML标签、英文脱敏等操作,防止对后续判断产生影响,从而提高重复判断的准确度。
具体的,如图1所示,对目标资讯的标题与去重库中资讯的标题进行重复判断的方法为:
S1011:对目标资讯的标题与去重库中资讯的标题进行最短编辑距离计算:若最短编辑距离大于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;
S1012:若最短编辑距离小于等于设定阈值,则对目标资讯的标题与去重库中符合最短编辑距离要求的资讯的标题进行向量相似度计算:若向量相似度小于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;若向量相似度大于等于设定阈值,则判断目标资讯的标题与去重库中资讯的标题重复。
在本实施例中,对目标资讯的标题是否重复采用两层判断,第一层为最短编辑距离的判断,第二层为向量相似度的判断,从而能够对目标资讯的标题是否重复实现准确的判断。可以理解的是,采用其中的两层判断或者一层判断或者改变判断的顺序关系,同样能够实现对目标资讯的标题是否重复的判断,而在本实施例中采用的是较优的技术方案。在本实施例中,将最短编辑距离模拟阈值与两标题总长度的若干分之一进行比较,一般为两标题总长度的四分之一,然后取其中的最大值作为最短编辑距离的设定阈值。通过这种方法获取最短编辑距离的设定阈值能够防止标题过长导致最短编辑距离太短没有进入下一层判断,从而导致漏判一些标题过长的资讯。
向量相似度指的是目标标题中所包含的词语与去重库中资讯的标题所包含的词语进行词语向量的计算,从而判断两个词的相似度,最后得到标题的相似度。在本实施例中,向量相似度的计算采用上下文语境的统计描述方法,在通过训练好的词语向量空间模型得到。在最短编辑距离判断的基础上结合向量相似度判断,从而提高标题重复判断的准确度。
S102:若资讯的标题重复,则对标题重复的资讯进行去重处理。
在本实施例中,若资讯的标题重复,则判断该两篇资讯存在重复,进行去重处理。在进行去重处理时,选择其中的一篇资讯进行去重,从而避免了资讯的重复推送,也减小了资讯的缓存。
S103:若资讯的标题不重复,则对目标资讯的内容与去重库中资讯的内容进行重复判断。
在本实施例中,如图1所示,对目标资讯的内容与去重库中资讯的内容进行重复判断的方法为:
S1031:获取目标资讯内容的simhash码及去重库中各资讯内容的simhash码,并将各simhash码分为N段M位长度的子码,N、M为大于1的自然数;
S1032:基于各子码建立去重库中对应资讯的索引;
S1033:对目标资讯内容对应的子码与去重库中各资讯内容对应的子码进行判断,若子码相同,则基于索引在去重库中找到对应的资讯;
S1034:对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断,若资讯的内容重复,则对内容重复的资讯进行去重处理。
在本实施例中,将每一个simhash码都从高位到低位均分成4段,每一段都是16位。在建立倒排索引的过程中,这些截取出来的16位01串的子码,分别作为索引的key值,并将对应位置上具有这个子码的所有文本添加到这个索引的value域中。在所有的索引建立好后,由于相似资讯一定会存在于某一个相同的子码,因此只需要比对对应位置子码相同的资讯,实现资讯内容的相似判断。在后续的资讯重复判断过程中,只需计算目标资讯的simhash码,并均分成4段16位的子码,而不需要对去重库中的资讯再次进行simhash码的计算和划分。总的效果来说,改进的simhash算法速度提升十分明显。
simhash算法的最大特点是将资讯内容映射为一个01串,用01串来表示一篇资讯内容,并且相似资讯内容之间得到的01串也是相似的,只在少数几个位置上的0和1不一样。为了能表征原始资讯内容的相似度,可以计算两个01串之间在多少个位置上不同,这便是汉明距离。通常来说,越相似的资讯内容,对应simhash映射得到的01串之间的汉明距离越小。本发明为了使计算的simhash码对资讯内容更加有代表性,使用textrank算法先提取内容的预先设置好数量的关键字,在计算simhash码时,对关键字的权重进行进一步加重,这样便使计算出来的simhash码更加具有代表性。
在本实施例中,步骤S1034中对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断包括两个步骤:
第一步,基于步骤S1031中获取的目标资讯内容的simhash码及去重库中各资讯内容的simhash码,计算目标资讯内容的simhash码与去重库中相同子码对应的资讯的内容的simhash码的汉明距离,若汉明距离大于设定的汉明距离阈值,则判断资讯内容不重复。
目前经过大量的实验和测试,汉明距离的阈值一般都设置为3较为合理。也就是说,当两个资讯对应的simhash码之间的汉明距离小于或等于3时,这两个资讯很有可能为重复资讯。
第二步,若汉明距离小于或等于设定的汉明距离阈值,则对目标资讯的内容与去重库中相同子码对应的资讯的内容进行余弦相似度检测,若余弦相似度小于设定的余弦相似度阈值,则判断资讯的内容不重复,若余弦相似度大于或等于设定的余弦相似度阈值,则判断资讯的内容重复。
其中余弦相似度的计算方法为:首先提取目标资讯内容中预设数量的关键字,然后与提取自去重库中的样本资讯的关键字进行余弦相似度的计算。
为了提高资讯内容重复判断的准确度,在第一步汉明距离计算的基础上增加余弦相似度检测。需要说明的是,单独的汉明距离计算或者余弦相似度检测同样可以实现资讯内容重复的判断,只是准确度相对较低。
S104:若资讯的内容重复,则对内容重复的资讯进行去重处理。
在本实施例中,若资讯的内容重复,则判断该两篇资讯存在重复,进行去重处理。在进行去重处理时,选择其中的一篇资讯进行去重,从而避免了资讯的重复推送,也减小了资讯的缓存。
实施例二
考虑到资讯标题重复但资讯的主体不重复,以及资讯的内容重复但资讯的主体不重复的情况,作为另一个实施例,在判断资讯的标题重复和/或内容重复之后增加主体是否重复的判断,以提高资讯重复判断的准确度,以实现更好的去重效果。本实施例提出一种资讯去重的方法,如图2所示,包括以下步骤:
S201:对目标资讯的标题与去重库中资讯的标题重复判断,若资讯的标题重复,则判断标题重复的资讯主体是否相同;
S202:若资讯的主体相同,则对标题重复且主体相同的资讯进行去重处理;
S203:若资讯的标题不重复,或者标题重复但主体不相同,则对目标资讯的内容与去重库中资讯的内容进行重复判断,若资讯的内容重复,则判断内容重复的资讯主体是否相同;
S204:若资讯的主体相同,则对内容重复且主体相同的资讯进行去重处理。
可以理解的是,主体即为文章主要所描述的实体,资讯的主体可以是很多类型的实体,可以是公司,可以是上市公司股票名,可以是大豆石油等期货。
具体的,对目标资讯的标题与去重库中资讯的标题进行重复判断,若资讯的标题重复,则判断标题重复的资讯主体是否相同的方法为:
S2011:对目标资讯的标题与去重库中资讯的标题进行最短编辑距离计算:若最短编辑距离大于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;
S2012:若最短编辑距离小于等于设定阈值,则对目标资讯的标题与去重库中符合最短编辑距离要求的资讯的标题进行向量相似度计算:若向量相似度小于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;
S2013:若向量相似度大于等于设定阈值,则对目标资讯的主体与去重库中符合向量相似度要求的资讯的主体进行重复判断:若资讯的主体相同,则判断目标资讯的标题与去重库中资讯的标题重复,并对重复的资讯进行去重处理;若资讯的主体不相同,则判断目标资讯的标题与去重库中资讯的标题不重复。
在本实施例中,对目标资讯的标题是否重复采用三层判断,第一层为最短编辑距离的判断,第二层为向量相似度的判断,第三层为资讯主体的判断,从而能够对目标资讯的标题是否重复实现更准确的判断。可以理解的是,采用其中的多层判断或者单层判断或者改变判断的顺序关系,同样能够实现对目标资讯的标题是否重复的判断,而在本实施例中采用的是最优的技术方案。
具体的,若资讯的标题不重复,或者标题重复但主体不相同,则对目标资讯的内容与去重库中资讯的内容进行重复判断;若资讯的内容重复,则判断内容重复的资讯主体是否相同的方法为:
S2031:获取目标资讯内容的simhash码及去重库中各资讯内容的simhash码,并将各simhash码分为N段M位长度的子码,N、M为大于1的自然数;
S2032:基于各子码建立去重库中对应资讯的索引;
S2033:对目标资讯内容对应的子码与去重库中各资讯内容对应的子码进行判断,若子码相同,则基于索引在去重库中找到对应的资讯;
S2034:对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断,若内容重复,则判断内容重复的资讯主体是否相同。
在本实施例中,如图3所示,步骤S2034中对目标资讯的内容与去重库中相同子码对应的资讯的内容重复判断和主体是否相同判断包括三个步骤:
第一步,基于S2031中获取的目标资讯内容的simhash码及去重库中各资讯内容的simhash码,计算目标资讯内容的simhash码与去重库中相同子码对应的资讯的内容的simhash码的汉明距离,若汉明距离大于设定的汉明距离阈值,则判断资讯内容不重复。
第二步,若汉明距离小于或等于设定的汉明距离阈值,则对目标资讯的内容与去重库中相同子码对应的资讯的内容进行余弦相似度检测,若余弦相似度小于设定的余弦相似度阈值,则判断资讯内容不重复。
第三步,若余弦相似度大于或等于设定的余弦相似度阈值,则判断目标资讯的主体与去重库中相同子码对应的资讯的主体是否相同,若资讯的主体相同,则判断目标资讯的内容与去重库中资讯的内容重复,并对重复的资讯进行去重处理。
在本实施例中,对资讯进行采用BERT+Bi-LSTM+CRF算法训练的深度学习模型的NER识别,提取出资讯的主体。首先对目标资讯或去重库中资讯通过BERT算法处理得到若干词向量,然后对若干词向通过Bi-LSTM算法处理得到对应的预测分值,最后对预测分值通过CRF算法处理得到资讯的主体。
在模型训练的过程中,首先需要准备大量的训练样本,在本实施例中通过人工标注的大量监督学习语料作为训练样本,并基于BERT+Bi-LSTM+CRF算法训练出能够根据上下文的关联,判断识别出资讯主体的判别模型。算法第一层采用BERT输入词向量,BERT作为最新基于词向量的动态表征的方法,相较于传统的word2vec等词向量模型具有更好的文本表示。Bi-LSTM是Bi-directional Long Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成,通过BiLSTM可以更好的捕捉双向的语义依赖。第一层的词向量作为第二层Bi-LSTM的输入,第二层的输出则是NER中每个单元的每个标签的预测分值,例如这个词是人名概率的分值,公司的概率的分值等,这些分值将作为第三层CRF层的输入。CRF中文名称为条件随机场,是给定一组输入序列条件下另一组输出序列的条件概率分布模型。CRF能够从输入的标签中选择正确的标签输出,它的最大优势是可以为最后预测的标签添加一些约束来保证预测的标签是合理的。
资讯主体的重复判断对于相似度非常的高的资讯具有很好的区分度,例如金融领域机器写稿的股票涨跌,短评速报等。这类资讯由于正文模板一样,只是涨跌幅、股票等词不同,导致整体相似度非常高,资讯的主体能够很好的区分资讯是否重复。
实施例三
下述为本公开系统实施例,可以用于执行本公开方法实施例一、二。对于本公开系统实施例中未披露的细节,请参照本公开方法实施例。
实施例三提出了一种资讯去重的系统,如图4所示,包括:标题重复判断模块,用于对目标资讯的标题与去重库中资讯的标题进行重复判断;内容重复判断模块,用于资讯的标题不重复时,对目标资讯的内容与去重库中资讯的内容进行重复判断;去重处理模块,用于对标题重复或内容重复的资讯进行去重处理。
首先,通过标题重复判断模块对目标资讯的标题与去重库中资讯的标题进行重复判断,若重复,则通过去重处理模块对标题重复的资讯进行去重处理;若不重复,则通过内容重复判断模块对目标资讯的内容与去重库中资讯的内容进行重复判断,若重复,则通过去重模块对内容重复的资讯进行去重处理。在本实施例中,分别对目标资讯的标题和内容分别进行重复的判断,相比于资讯整体进行重复判断具有更高的准确度,从而实现更好的去重效果。
如图5所示,标题重复判断模块包括:最短编辑距离计算模块,用于对目标资讯的标题与去重库中资讯的标题进行最短编辑距离计算;向量相似度计算模块,用于若最短编辑距离小于等于设定阈值,则对目标资讯的标题与去重库中符合最短编辑距离要求的资讯的标题进行向量相似度计算;标题重复判断子模块,用于若最短编辑距离大于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;还用于若向量相似度小于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;若向量相似度大于等于设定阈值,则判断目标资讯的标题与去重库中资讯的标题重复。
在本实施例中,通过最短编辑距离计算模块和向量相似度计算模块对目标资讯的标题是否重复采用两层判断,从而能够对目标资讯的标题是否重复实现准确的判断。
如图6所示,内容重复判断模块包括:simhash码计算模块,用于获取目标资讯内容的simhash码及去重库中各资讯内容的simhash码,并将各simhash码分为N段M位长度的子码,N、M为大于1的自然数;索引建立模块,用于基于各子码建立去重库中对应资讯的索引;子码重复判断模块,用于对目标资讯内容对应的子码与去重库中各资讯内容对应的子码进行判断;内容重复判断子模块,用于当子码相同时,对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断。
内容重复判断子模块基于获取的目标资讯内容的simhash码及去重库中各资讯内容的simhash码,计算目标资讯内容的simhash码与去重库中相同子码对应的资讯的内容的simhash码的汉明距离,若汉明距离大于设定的汉明距离阈值,则判断资讯内容不重复;若汉明距离小于或等于设定的汉明距离阈值,则对目标资讯的内容与去重库中相同子码对应的资讯的内容进行余弦相似度检测,若余弦相似度小于设定的余弦相似度阈值,则判断资讯的内容不重复,若余弦相似度大于或等于设定的余弦相似度阈值,则判断资讯的内容重复。
在本实施例中,通过改进的simhash算法,提高了资讯内容重复判断的速度。
实施例四
实施例四提出了一种资讯去重的系统,如图7所示,在实施例三的基础上增加主体相同判断模块,主体相同判断模块用于判断标题重复的资讯主体是否相同;此外,去重处理模块还用于对标题重复且主体相同,或内容重复且主体相同的资讯进行去重处理。
资讯的主体通过主体提取模块提取,首先对目标资讯或去重库中资讯通过BERT算法处理得到若干词向量;对若干词向量通过Bi-LSTM算法处理得到对应的预测分值;对预测分值通过CRF算法处理得到资讯的主体。
在判断资讯的标题重复和/或内容重复之后增加主体是否重复的判断,以提高资讯重复判断的准确度,以实现更好的去重效果。
实施例五
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例中所述资讯去重的方法的步骤。资讯去重的方法的具体步骤可参考前述实施例中关于上述资讯去重各步骤的详细描述,此处不再赘述。所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
实施例六
本发明实施例六提供一种电子设备,该电子设备可以包括处理器以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任一实施例中资讯去重的方法的步骤。该资讯去重的方法的步骤可参考前述方法实施例中的详细描述,此处不再赘述。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
图8示出根据本公开示例实施方式中一种电子设备的示意图。例如,电子设备可以被提供为一服务器或客户端。参照图8,电子设备包括处理组件,其进一步包括一个或多个处理器,以及由存储器所代表的存储器资源,用于存储可由处理组件执行的指令,例如应用程序。存储器中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件被配置为执行指令,以执行上述方法。
电子设备还可以包括一个电源组件被配置为执行电子设备的电源管理,一个有线或无线网络接口被配置为将电子设备连接到网络,和一个输入输出(I/O)接口。电子设备可以操作基于存储在存储器的操作系统,例如Windows Server,Mac OS X,Unix、Linux,FreeBSD或类似。
本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (10)
1.一种资讯去重的方法,其特征在于,包括:
对目标资讯的标题与去重库中资讯的标题进行重复判断;
若资讯的标题重复,则对标题重复的资讯进行去重处理;若资讯的标题不重复,则对目标资讯的内容与去重库中资讯的内容进行重复判断:
获取目标资讯内容的simhash码及去重库中各资讯内容的simhash码,并将各simhash码分为N段M位长度的子码,N、M为大于1的自然数;
基于各子码建立去重库中对应资讯的索引;
对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断,若资讯的内容重复,则对内容重复的资讯进行去重处理。
2.根据权利要求1所述的一种资讯去重的方法,其特征在于,所述对目标资讯的标题与去重库中资讯的标题进行重复判断包括:
对目标资讯的标题与去重库中资讯的标题进行最短编辑距离计算:若最短编辑距离大于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;
若最短编辑距离小于等于设定阈值,则对目标资讯的标题与去重库中符合最短编辑距离要求的资讯的标题进行向量相似度计算:若向量相似度小于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;若向量相似度大于等于设定阈值,则判断目标资讯的标题与去重库中资讯的标题重复。
3.根据权利要求1所述的一种资讯去重的方法,其特征在于,所述对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断包括:
基于获取的目标资讯内容的simhash码及去重库中各资讯内容的simhash码,计算目标资讯内容的simhash码与去重库中相同子码对应的资讯的内容的simhash码的汉明距离,若汉明距离大于设定的汉明距离阈值,则判断资讯内容不重复;
若汉明距离小于或等于设定的汉明距离阈值,则对目标资讯的内容与去重库中相同子码对应的资讯的内容进行余弦相似度检测,若余弦相似度小于设定的余弦相似度阈值,则判断资讯的内容不重复,若余弦相似度大于或等于设定的余弦相似度阈值,则判断资讯的内容重复。
4.根据权利要求1~3任一项所述的一种资讯去重的方法,其特征在于,所述对标题重复的资讯进行去重处理之前还包括:
判断标题重复的资讯主体是否相同:若资讯的主体相同,则对标题重复且主体相同的资讯进行去重处理。
5.根据权利要求4所述的一种资讯去重的方法,其特征在于,所述对内容重复的资讯进行去重处理之前还包括:
判断内容重复的资讯主体是否相同:若资讯的主体相同,则对内容重复且主体相同的资讯进行去重处理。
6.根据权利要求5所述的一种资讯去重的方法,其特征在于,所述目标资讯的主体与去重库中资讯的主体的提取包括:
对目标资讯或去重库中资讯通过BERT算法处理得到若干词向量;
对若干词向量通过Bi-LSTM算法处理得到对应的预测分值;
对预测分值通过CRF算法处理得到资讯的主体。
7.一种资讯去重的系统,其特征在于,包括:
标题重复判断模块,用于对目标资讯的标题与去重库中资讯的标题进行重复判断;
内容重复判断模块,用于资讯的标题不重复时,对目标资讯的内容与去重库中资讯的内容进行重复判断;
去重处理模块,用于对标题重复或内容重复的资讯进行去重处理;
所述内容重复判断模块包括:
simhash码计算模块,用于获取目标资讯内容的simhash码及去重库中各资讯内容的simhash码,并将各simhash码分为N段M位长度的子码,N、M为大于1的自然数;
索引建立模块,用于基于各子码建立去重库中对应资讯的索引;
子码重复判断模块,用于对目标资讯内容对应的子码与去重库中各资讯内容对应的子码进行判断;
内容重复判断子模块,用于当子码相同时,对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断。
8.根据权利要求7所述的一种资讯去重的系统,其特征在于,所述标题重复判断模块包括:
最短编辑距离计算,用于对目标资讯的标题与去重库中资讯的标题进行最短编辑距离计算;
向量相似度计算模块,用于若最短编辑距离小于等于设定阈值,则对目标资讯的标题与去重库中符合最短编辑距离要求的资讯的标题进行向量相似度计算;
标题重复判断子模块,用于若最短编辑距离大于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;还用于若向量相似度小于设定阈值,则判断目标资讯的标题与去重库中资讯的标题不重复;若向量相似度大于等于设定阈值,则判断目标资讯的标题与去重库中资讯的标题重复。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至6任一项所述一种资讯去重的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行根据权利要求1至6任一项所述的一种资讯去重的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010202214.2A CN111552864B (zh) | 2020-03-20 | 2020-03-20 | 一种资讯去重的方法、系统、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010202214.2A CN111552864B (zh) | 2020-03-20 | 2020-03-20 | 一种资讯去重的方法、系统、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111552864A true CN111552864A (zh) | 2020-08-18 |
CN111552864B CN111552864B (zh) | 2023-09-12 |
Family
ID=72004132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010202214.2A Active CN111552864B (zh) | 2020-03-20 | 2020-03-20 | 一种资讯去重的方法、系统、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111552864B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015184992A1 (zh) * | 2014-06-05 | 2015-12-10 | 北京奇虎科技有限公司 | 一种识别重复图片的方法、图片搜索去重方法及其装置 |
CN107590188A (zh) * | 2017-08-08 | 2018-01-16 | 杭州灵皓科技有限公司 | 一种自动化垂直细分领域的爬虫爬取方法及其管理系统 |
CN110321466A (zh) * | 2019-06-14 | 2019-10-11 | 广发证券股份有限公司 | 一种基于语义分析的证券资讯查重方法及系统 |
-
2020
- 2020-03-20 CN CN202010202214.2A patent/CN111552864B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015184992A1 (zh) * | 2014-06-05 | 2015-12-10 | 北京奇虎科技有限公司 | 一种识别重复图片的方法、图片搜索去重方法及其装置 |
CN107590188A (zh) * | 2017-08-08 | 2018-01-16 | 杭州灵皓科技有限公司 | 一种自动化垂直细分领域的爬虫爬取方法及其管理系统 |
CN110321466A (zh) * | 2019-06-14 | 2019-10-11 | 广发证券股份有限公司 | 一种基于语义分析的证券资讯查重方法及系统 |
Non-Patent Citations (1)
Title |
---|
陈学辉;陈少镇;王培彬;蓝汝琪;熊梓韬;: "基于内容推荐的资讯推荐系统的设计与实现" * |
Also Published As
Publication number | Publication date |
---|---|
CN111552864B (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
US8073877B2 (en) | Scalable semi-structured named entity detection | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
CN110321925B (zh) | 一种基于语义聚合指纹的文本多粒度相似度比对方法 | |
CN110851598B (zh) | 文本分类方法、装置、终端设备及存储介质 | |
WO2018201600A1 (zh) | 信息挖掘方法、系统、电子装置及可读存储介质 | |
US8316041B1 (en) | Generation and processing of numerical identifiers | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN108766461B (zh) | 音频特征提取方法及装置 | |
WO2022083094A1 (zh) | 文本语义识别方法、装置、电子设备及存储介质 | |
CN111709243A (zh) | 一种基于深度学习的知识抽取方法与装置 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN111241230A (zh) | 一种基于文本挖掘识别串标风险的方法及系统 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN111190873B (zh) | 一种用于云原生系统日志训练的日志模式提取方法及系统 | |
CN113986950A (zh) | 一种sql语句处理方法、装置、设备及存储介质 | |
Yin et al. | Metadata extraction from bibliographies using bigram HMM | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN105574004B (zh) | 一种网页去重方法和设备 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN112364647A (zh) | 一种基于余弦相似度算法的查重方法 | |
CN117034327A (zh) | 一种电子书内容加密防护方法 | |
CN109902162B (zh) | 基于数字指纹的文本相似性的识别方法、存储介质及装置 | |
Gupta et al. | Songs recommendation using context-based semantic similarity between lyrics | |
CN114792092B (zh) | 一种基于语义增强的文本主题抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |