CN110750963A - 一种新闻文档去重的方法、装置及存储介质 - Google Patents

一种新闻文档去重的方法、装置及存储介质 Download PDF

Info

Publication number
CN110750963A
CN110750963A CN201810710477.7A CN201810710477A CN110750963A CN 110750963 A CN110750963 A CN 110750963A CN 201810710477 A CN201810710477 A CN 201810710477A CN 110750963 A CN110750963 A CN 110750963A
Authority
CN
China
Prior art keywords
road
news
documents
document
road news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810710477.7A
Other languages
English (en)
Other versions
CN110750963B (zh
Inventor
冯博琳
王秋森
刘斌生
吴中恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Navinfo Co Ltd
Original Assignee
Navinfo Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Navinfo Co Ltd filed Critical Navinfo Co Ltd
Priority to CN201810710477.7A priority Critical patent/CN110750963B/zh
Publication of CN110750963A publication Critical patent/CN110750963A/zh
Application granted granted Critical
Publication of CN110750963B publication Critical patent/CN110750963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种新闻文档去重的方法、装置及存储介质,该方法包括:对文档进行分词;计算词项在文档中的权重;根据词项得到文档向量;根据文档向量计算文档之间的相似度;将相似度大于预设值的文档聚类成一个簇,并根据簇中的文档之间的相似度确定簇心;根据簇心标记出重复文档。本申请能够取得的有益效果在于,不需要人工标注训练样本,解决了人工标注训练样本费时费力问题;根据词项在文档中的权重计算相似度;提升命名实体和事件行为词项的权重,解决了受低频噪音词的影响较大问题;将相似度大于预设值的文档聚类成一个簇,每篇文档仅出现于单一簇中,使重复的文档具有唯一性;被标记的重复文档用于去重,避免多次处理重复的文档。

Description

一种新闻文档去重的方法、装置及存储介质
技术领域
本申请涉及自然语言处理技术领域,尤其是涉及一种新闻文档去重的方法、装置及存储介质。
背景技术
随着互联网的发展,网络新闻信息量急剧增长。大量的重复新闻信息被处理多次,降低了信息处理效率。因此,如何对新闻信息去重成为亟待解决的问题。
现有技术采用监督学习和非监督学习提取新闻信息特征。监督学习从文本表述的事件中提取关键词,将其作为事件的表示,之后对这些关键词进行量化,计算不同文档之间的相似度作为聚类依据。以道路领域相关新闻为例,新闻中出现的具体地名是当前新闻区别于其他新闻的一项重要特征。命名实体识别用于解决道路名、地名实体的提取问题,较早主要通过条件随机场(Conditional Random Field,CRF)等模型实现。随着深度学习在自然语言处理(Natural Language Processing,NLP)领域的不断深入,循环神经网络(Recurrent Neural Network,RNN)系列的模型也被用于解决这一类问题,并与早期的CRF等模型进行结合。将文档是否重复转化为分类问题,判断给定文档对是否重复。这种方法需要大量标注样本用于训练模型,尤其是在事件标注和命名实体识别任务中,涉及到的词项和序列标注难以获取,人工标注费时费力。无监督学习往往通过词频-逆向文件频率(termfrequency–inverse document frequency,TFIDF)等一系列类似的改进算法提取事件中的关键词。通过计算词项在文档中的权重,设定相应阈值提取出权重在前K项的词作为事件关键词。从传统的向量空间模型(Vector Space Model,VSM)到基于语义的主题模型(LSA,PLSA,LDA及其变种等等)、基于词向量的表示方法可以用于直接获取文档的表示,之后可通过一系列相似度计算方法(欧式距离、余弦相似、KL距离等等)计算文档之间的相似度。这种方法中TFIDF权重算法倾向于为低频词赋予较高权重,受低频噪音词的影响较大;基于主题的模型适用于较宽泛的文档领域(或类别,比如政治、经济、教育等等)判断。对于文档去重任务来说,其涉及的特征粒度较细,使用主题模型的识别效果不好。监督学习中存在人工标注训练样本费时费力问题,无监督学习中存在受低频噪音词的影响较大问题。
发明内容
本申请实施例提供一种新闻文档去重的方法、装置及存储介质。解决了监督学习中人工标注训练样本费时费力问题,以及无监督学习中受低频噪音词的影响较大问题。
本申请提供了一种新闻文档去重的方法,该方法包括:
对新闻文档集中的每个道路新闻文档进行分词,得到每个道路新闻文档的词项;
计算所述每个道路新闻文档的词项在该道路新闻文档中的权重;
根据具有权重的所述每个道路新闻文档的词项得到每个道路新闻文档向量;
根据所述每个道路新闻文档向量计算所述每个道路新闻文档之间的第一相似度;
将所述第一相似度大于预设相似度阈值的道路新闻文档聚类成一个簇,并根据所述簇中的道路新闻文档之间的第一相似度确定簇心;
根据所述簇的簇心标记出重复道路新闻文档,所述被标记的重复道路新闻文档用于去重。
本申请还提供了一种新闻文档去重的装置,该装置包括:分词模块、计算权重模块、得到道路新闻文档向量模块、计算相似度模块、聚类模块和标记模块;
所述分词模块,用于对新闻文档集中的每个道路新闻文档进行分词,得到每个道路新闻文档的词项;
所述计算权重模块,用于计算所述每个道路新闻文档的词项在该道路新闻文档中的权重;
所述得到道路新闻文档向量模块,用于根据具有权重的所述每个道路新闻文档的词项得到每个道路新闻文档向量;
所述计算相似度模块,用于根据所述每个道路新闻文档向量计算所述每个道路新闻文档之间的第一相似度;
所述聚类模块,用于将所述第一相似度大于预设相似度阈值的道路新闻文档聚类成一个簇,并根据所述簇中的道路新闻文档之间的第一相似度确定簇心;
所述标记模块,用于根据所述簇的簇心标记出重复道路新闻文档,所述被标记的重复道路新闻文档用于去重。
本申请还提供了一种存储介质,其上存储有程序数据,上述程序数据用于被处理器执行时实现上述新闻文档去重的方法。
与现有技术相比,本申请能够取得的有益效果在于,不需要人工标注训练样本,解决了人工标注训练样本费时费力问题;根据词项在文档中的权重计算相似度;将相似度大于预设值的文档聚类成一个簇,每篇文档仅出现于单一簇中,使重复的文档具有唯一性;被标记的重复文档用于去重,避免多次处理重复的文档;此外,通过提升命名实体和事件行为词项的权重,还解决了受低频噪音词的影响较大的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请提供的一种新闻文档去重的方法实施例的流程示意图;
图2为本申请提供的一种新闻文档去重的方法实施例的另一流程示意图;
图3为本申请提供的新闻文档集示例;
图4为本申请提供的重复道路新闻文档示例;
图5为本申请提供的一种新闻文档去重的装置实施例的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请提供的一种新闻文档去重的方法实施例的流程示意图,该流程示意图包括:
步骤105,对新闻文档集中的每个道路新闻文档进行分词,得到每个道路新闻文档的词项;
可选地,新闻文档集中存储的是所属行政区划内的道路新闻文档;根据行政区划将所述新闻文档集归类到所属的行政区划中;进一步地,针对属于同一行政区划内的新闻文档集中的每个道路新闻文档进行分词。如图2步骤210,划分输入的新闻文档集D所属的行政区划,对新闻文档集进行切分处理。行政区划划分到市级下标
Figure BDA0001716425010000042
表示不同城市。对于每个
Figure BDA0001716425010000043
考虑到输入的新闻文档集中可能存在与现有历史库中道路新闻文档存在重复的情况,将与当前行政区划相同的历史新闻文档集也加入到分析样本中,
Figure BDA0001716425010000045
其中,为城市ci的历史新闻文档集,
Figure BDA0001716425010000047
新输入新闻文档集中属于城市ci的新闻文档集。
对分析样本中的道路新闻文档进行分词,得到词项,如图2步骤215所示。上述词项包括命名实体(Named Entity,NE)和事件行为词项(Event Action,EA),事件行为词项如下表1所示。使用哈工大的语言技术平台LTP进行分词和命名实体识别。
表1.事件行为词项表
步骤110,计算所述每个道路新闻文档的词项在该道路新闻文档中的权重;
在本实施例中,改进TFIDF权重算法,提高道路新闻文档中命名实体、事件行为词项的权重,增强道路新闻文档对不同事件的识别能力。
对分析样本
Figure BDA0001716425010000052
中的道路新闻文档进行分词后构建道路新闻文档词项矩阵,矩阵中每行为一篇道路新闻文档,每列为一个词项,每个元素为当前词项在道路新闻文档中所占的权重。可选地,根据公式
Figure BDA0001716425010000053
计算道路新闻文档
Figure BDA0001716425010000054
的第k个词项wk在该道路新闻文档中的权重,其中,
Figure BDA0001716425010000055
Figure BDA0001716425010000056
为新闻文档集
Figure BDA0001716425010000057
中第j篇道路新闻文档,ci表示不同城市,kw(wk)为对提取到的第k个词项wk的权重提升系数,TFIDF()为词频-逆向文件词频权重算法,i、j、k均为正整数。在本实施例中,若wk为命名实体,则第一预设阈值为1.5;若wk为事件行为,则第二预设阈值为1.2。
步骤115,根据具有权重的所述每个道路新闻文档的词项得到每个道路新闻文档向量;
在本实施例中,将具有权重的每个道路新闻文档的词项输入到词袋模型,得到每个道路新闻文档向量。
步骤120,根据所述每个道路新闻文档向量计算所述每个道路新闻文档之间的第一相似度;
可选地,对所述每个道路新闻文档向量进行标准化;根据标准化后的每个道路新闻文档向量计算所述每个道路新闻文档之间的第一相似度;进一步地,使用L2标准化对每个道路新闻文档向量进行标准化处理,计算公式如下式
Figure BDA0001716425010000061
所示,其中,向量V,vi为V中的分量(维度),i为道路新闻文档中词项的序号,n为道路新闻文档中的词项总个数,n和i均为正整数,L2(V)为每个分量的原始数值除以当前向量V的长度(分母,即每个分量的平方和开根号)。计算标准化处理后的每个道路新闻文档之间的第一相似度。
步骤125,将所述第一相似度大于预设相似度阈值的道路新闻文档聚类成一个簇,并根据所述簇中的道路新闻文档之间的第一相似度确定簇心;
在本实施例中,由于聚类方法Canopy存在将一个样本分到多个簇中这种一对多的情况,为唯一确定与当前样本重复的文档,在Canopy的基础上调整Canopy聚类算法,使其更符合当前任务对重复道路新闻文档的唯一性要求(即每篇道路新闻文档至多只与一篇道路新闻文档重复)。调整过程如下:设定预设相似度阈值T,簇元素集CE={},打乱的新闻文档集下标ind,新闻文档集中道路新闻文档对的余弦相似度S;遍历ind,若ind中当前下标所对应的道路新闻文档di不存在于CE,则将di作为簇心,并将S中与di的相似度大于等于T且不存在于CE中的新闻文档集作为当前簇的元素,得到一个新簇
Figure BDA0001716425010000063
将di和
Figure BDA0001716425010000071
中道路新闻文档加入CE中。
Figure BDA0001716425010000072
可为空,则此时di独自作为一个簇,当ind遍历结束或CE大小与整个新闻文档集大小相同时,循环结束。
在本实施例中,所述道路新闻文档包括:历史道路新闻文档和新增道路新闻文档。假设现有如图3所示的10篇道路新闻文档,其中前6篇为历史库中已有的历史道路新闻文档,后4篇为新增道路新闻文档,现需对4篇新增道路新闻文档进行聚类去重操作。假设武汉的城市编号ci=c,则其新闻文档集为
Figure BDA0001716425010000073
其中
Figure BDA0001716425010000074
为武汉历史新闻文档集,为新增新闻文档集;
Figure BDA0001716425010000076
k=0,1…5为武汉历史新闻文档集中的第k篇道路新闻文档,
Figure BDA0001716425010000077
j=0,1…3为武汉新增新闻文档集中的第j篇道路新闻文档。设定预设相似度阈值T=0.5,假设10篇道路新闻文档中,道路新闻文档之间的相似度大于0.5的道路新闻文档对如下:第一篇历史道路新闻文档
Figure BDA0001716425010000078
(“古田四路硚口区法院北行公交站迁移”)与第二篇历史道路新闻文档(武汉古田四路硚口区法院北行多路公交站点迁移);第六篇历史道路新闻文档
Figure BDA00017164250100000710
(“武汉墨水湖北路主体工程开工”)与第一篇新增道路新闻文档
Figure BDA00017164250100000711
(“武汉二环线成环在即墨水湖北路主体工程开工”)。
假设新闻文档集下标ind为按顺序遍历:遍历与其它道路新闻文档的相似度,
Figure BDA00017164250100000713
相似度大于T,于是构成一个簇
Figure BDA00017164250100000715
Figure BDA00017164250100000716
Figure BDA00017164250100000717
加入簇元素CE中;遍历
Figure BDA00017164250100000718
与其它道路新闻文档的相似度,由于已经出现在CE中,于是遍历下一个元素;遍历
Figure BDA00017164250100000720
与其它道路新闻文档的相似度,由于均没有与之相似度大于T的道路新闻文档,则单独成簇
Figure BDA00017164250100000722
并都加入簇元素CE中;遍历
Figure BDA00017164250100000723
与其它道路新闻文档的相似度,
Figure BDA00017164250100000724
与新增道路新闻文档
Figure BDA00017164250100000725
构成一个簇并加入CE;遍历
Figure BDA00017164250100000727
与其它道路新闻文档的相似度,由于
Figure BDA00017164250100000728
已经出现在CE中,于是遍历下一个元素;遍历
Figure BDA00017164250100000729
与其它道路新闻文档的相似度,由于均没有与之相似度大于预设相似度阈值的道路新闻文档,则单独成簇
Figure BDA00017164250100000730
Figure BDA0001716425010000081
聚类结束,得到簇集
Figure BDA0001716425010000082
Figure BDA0001716425010000083
可选地,在所述簇中的道路新闻文档个数大于预设阈值的情况下,将所述簇中每个道路新闻文档与簇中其他道路新闻文档之间的第一相似度分别相加,得到每个道路新闻文档的第二相似度;将具有最大值的第二相似度对应的道路新闻文档作为簇心。
进一步地,在本实施例中,在簇中的道路新闻文档个数大于2的情况下,将簇中每个道路新闻文档与簇中其他道路新闻文档之间的第一相似度分别相加,得到每个道路新闻文档的第二相似度;将具有最大值的第二相似度对应的道路新闻文档作为簇心。再进一步地,簇中的道路新闻文档个数为4个,分别为1、2、3和4,计算1和2、3、4之间的第一相似度,并将第一相似度相加,得到道路新闻文档1的第二相似度为3.2;计算2和1、3、4之间的第一相似度,并将第一相似度相加,得到道路新闻文档2的第二相似度为3.4;计算3和1、2、4之间的第一相似度,并将第一相似度相加,得到道路新闻文档3的第二相似度为3.5,计算4和1、2、3之间的第一相似度,并将第一相似度相加,得到道路新闻文档4的第二相似度为3.8。道路新闻文档4的第二相似度最高,则将道路新闻文档4作为簇心。
步骤130,根据所述簇的簇心标记出重复道路新闻文档,所述被标记的重复道路新闻文档用于去重。
由于人工处理的信息若为重复信息则会花费大量时间且不能产生新情报,所以将重复道路新闻文档标记出来,使其不参与之后的处理流程,从而提高之后的人工处理信息和情报的效率。
聚类结束后查看得到的簇集。通过
Figure BDA0001716425010000084
这个集合中的元素(每一个簇),可得知道路新闻文档之间的重复情况。可选地,若所述簇中的道路新闻文档均为新增道路新闻文档,则保留作为所述簇的簇心的新增道路新闻文档,并将除所述簇心之外的新增道路新闻文档标记为重复道路新闻文档;若所述簇中的道路新闻文档包括历史道路新闻文档和新增道路新闻文档且簇心为历史道路新闻文档,则将新增道路新闻文档标记为重复道路新闻文档;若所述簇中的道路新闻文档包括历史道路新闻文档和新增道路新闻文档且簇心为新增道路新闻文档,则将新增道路新闻文档标记为重复道路新闻文档。
在本实施例中,4篇新增道路新闻文档中,
Figure BDA0001716425010000091
Figure BDA0001716425010000092
标记为重复,其它新增道路新闻文档均未出现重复。
在本实施例中,如图4所示,会将处理结果写入数据库中,对于标记为重复的新增道路新闻文档,会更新数据库中的BIAOSHI和DUPLICATE_ID两个字段,分别表示与之重复的道路新闻文档标题和ID。标记为重复的新增道路新闻文档存储在数据库,未被标记重复的新增道路新闻文档用于之后的人工处理,为用户提供新情报。
与现有技术相比,本实施例能够取得的有益效果在于,不需要人工标注训练样本,解决了人工标注训练样本费时费力问题;根据词项在文档中的权重计算相似度;提升命名实体和事件行为词项的权重,解决了受低频噪音词的影响较大问题;将相似度大于预设值的文档聚类成一个簇,每篇文档仅出现于单一簇中,使重复的文档具有唯一性;被标记的重复文档用于去重,避免多次处理重复的文档。
图5为本申请提供的一种新闻文档去重的装置结构示意图,该结构示意图包括:分词模块505、计算权重模块510、得到道路新闻文档向量模块515、计算相似度模块520、聚类模块525和标记模块530;
所述分词模块505,用于对新闻文档集中的每个道路新闻文档进行分词,得到每个道路新闻文档的词项;
所述计算权重模块510,用于计算所述每个道路新闻文档的词项在该道路新闻文档中的权重;
所述得到道路新闻文档向量模块515,用于根据具有权重的所述每个道路新闻文档的词项得到每个道路新闻文档向量;
所述计算相似度模块520,用于根据所述每个道路新闻文档向量计算所述每个道路新闻文档之间的第一相似度;
所述聚类模块525,用于将所述第一相似度大于预设相似度阈值的道路新闻文档聚类成一个簇,并根据所述簇中的道路新闻文档之间的第一相似度确定簇心;
所述标记模块530,用于根据所述簇的簇心标记出重复道路新闻文档,所述被标记的重复道路新闻文档用于去重。
可选地,新闻文档集中存储的是所属行政区划内的道路新闻文档;所述装置还包括归类模块,用于根据行政区划将所述新闻文档集归类到所属的行政区划中;进一步地,分词模块505针对属于同一行政区划内的新闻文档集中的每个道路新闻文档进行分词;
所述计算权重模块510,具体用于根据公式
Figure BDA0001716425010000101
计算道路新闻文档的第k个词项wk在该道路新闻文档中的权重;其中,
Figure BDA0001716425010000103
为计算出的道路新闻文档的第k个词项wk在该道路新闻文档中的权重,TFIDF()为词频-逆向文件词频权重算法,kw(wk)为对提取到的第k个词项wk的权重提升系数;其中,
Figure BDA0001716425010000106
新闻文档集
Figure BDA0001716425010000107
中第j篇道路新闻文档,ci表示不同城市,i为城市序号,j为道路新闻文档集
Figure BDA0001716425010000108
中道路新闻文档序号,k为道路新闻文档中词项序号,i、j、k均为正整数。
可选地,所述聚类模块525包括确定簇心模块;所述确定簇心模块,具体用于在所述簇中的道路新闻文档个数大于预设阈值的情况下,将所述簇中每个道路新闻文档与簇中其他道路新闻文档之间的第一相似度分别相加,得到每个道路新闻文档的第二相似度;将具有最大值的第二相似度对应的道路新闻文档作为簇心。
可选地,所述道路新闻文档包括:历史道路新闻文档和新增道路新闻文档;所述标记模块530,具体用于若所述簇中的道路新闻文档均为新增道路新闻文档,则保留作为所述簇的簇心的新增道路新闻文档,并将除所述簇心之外的新增道路新闻文档标记为重复道路新闻文档;若所述簇中的道路新闻文档包括历史道路新闻文档和新增道路新闻文档且簇心为历史道路新闻文档,则将新增道路新闻文档标记为重复道路新闻文档;若所述簇中的道路新闻文档包括历史道路新闻文档和新增道路新闻文档且簇心为新增道路新闻文档,则将新增道路新闻文档标记为重复道路新闻文档。
与现有技术相比,本实施例能够取得的有益效果在于,不需要人工标注训练样本,解决了人工标注训练样本费时费力问题;计算权重模块计算词项在文档中的权重,用于计算相似度;聚类模块将相似度大于预设阈值的文档聚类成一个簇,每篇文档仅出现于单一簇中,使重复的文档具有唯一性;被标记的重复文档用于去重,避免多次处理重复的文档。
本申请还提供了一种存储介质,其上存储有程序数据,所述程序数据用于被处理器执行时实现对新闻文档集中的每个道路新闻文档进行分词,得到每个道路新闻文档的词项;计算所述每个道路新闻文档的词项在该道路新闻文档中的权重;根据具有权重的所述每个道路新闻文档的词项得到每个道路新闻文档向量;根据所述每个道路新闻文档向量计算所述每个道路新闻文档之间的第一相似度;将所述第一相似度大于预设相似度阈值的道路新闻文档聚类成一个簇,并根据所述簇中的道路新闻文档之间的第一相似度确定簇心;根据所述簇的簇心标记出重复道路新闻文档,所述被标记的重复道路新闻文档用于去重。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (11)

1.一种新闻文档去重的方法,其特征在于,该方法包括:
对新闻文档集中的每个道路新闻文档进行分词,得到每个道路新闻文档的词项;
计算所述每个道路新闻文档的词项在该道路新闻文档中的权重;
根据具有权重的所述每个道路新闻文档的词项得到每个道路新闻文档向量;
根据所述每个道路新闻文档向量计算所述每个道路新闻文档之间的第一相似度;
将所述第一相似度大于预设相似度阈值的道路新闻文档聚类成一个簇,并根据所述簇中的道路新闻文档之间的第一相似度确定簇心;
根据所述簇的簇心标记出重复道路新闻文档,所述被标记的重复道路新闻文档用于去重。
2.根据权利要求1所述的新闻文档去重的方法,其特征在于,所述新闻文档集中存储的是所属行政区划内的道路新闻文档;该方法还包括:根据行政区划将所述新闻文档集归类到所属的行政区划中;
所述对新闻文档集中的每个道路新闻文档进行分词,具体包括:
针对属于同一行政区划内的新闻文档集中的每个道路新闻文档进行分词。
3.根据权利要求1或2所述的新闻文档去重的方法,其特征在于,所述计算所述每个道路新闻文档的词项在该道路新闻文档中的权重包括:
根据公式
Figure FDA0001716425000000011
计算道路新闻文档
Figure FDA0001716425000000012
的第k个词项wk在该道路新闻文档中的权重;
其中,
Figure FDA0001716425000000013
为计算出的道路新闻文档的第k个词项wk在该道路新闻文档中的权重,TFIDF()为词频-逆向文件词频权重算法,kw(wk)为对提取到的第k个词项wk的权重提升系数;其中,
Figure FDA0001716425000000021
Figure FDA0001716425000000022
为新闻文档集
Figure FDA0001716425000000023
中第j篇道路新闻文档,ci表示不同城市,i为城市序号,j为道路新闻文档集中道路新闻文档序号,k为道路新闻文档中词项序号,i、j、k均为正整数。
4.根据权利要求1所述的新闻文档去重的方法,其特征在于,所述根据所述簇中的道路新闻文档之间的第一相似度确定簇心包括:
在所述簇中的道路新闻文档个数大于预设阈值的情况下,将所述簇中每个道路新闻文档与簇中其他道路新闻文档之间的第一相似度分别相加,得到每个道路新闻文档的第二相似度;
将具有最大值的第二相似度对应的道路新闻文档作为簇心。
5.根据权利要求1所述的新闻文档去重的方法,其特征在于,所述道路新闻文档包括:历史道路新闻文档和新增道路新闻文档;所述根据所述簇的簇心标记出重复道路新闻文档包括:
若所述簇中的道路新闻文档均为新增道路新闻文档,则保留作为所述簇的簇心的新增道路新闻文档,并将除所述簇心之外的新增道路新闻文档标记为重复道路新闻文档;
若所述簇中的道路新闻文档包括历史道路新闻文档和新增道路新闻文档且簇心为历史道路新闻文档,则将新增道路新闻文档标记为重复道路新闻文档;
若所述簇中的道路新闻文档包括历史道路新闻文档和新增道路新闻文档且簇心为新增道路新闻文档,则将新增道路新闻文档标记为重复道路新闻文档。
6.一种新闻文档去重的装置,其特征在于,该装置包括:分词模块、计算权重模块、得到道路新闻文档向量模块、计算相似度模块、聚类模块和标记模块;
所述分词模块,用于对新闻文档集中的每个道路新闻文档进行分词,得到每个道路新闻文档的词项;
所述计算权重模块,用于计算所述每个道路新闻文档的词项在该道路新闻文档中的权重;
所述得到道路新闻文档向量模块,用于根据具有权重的所述每个道路新闻文档的词项得到每个道路新闻文档向量;
所述计算相似度模块,用于根据所述每个道路新闻文档向量计算所述每个道路新闻文档之间的第一相似度;
所述聚类模块,用于将所述第一相似度大于预设相似度阈值的道路新闻文档聚类成一个簇,并根据所述簇中的道路新闻文档之间的第一相似度确定簇心;
所述标记模块,用于根据所述簇的簇心标记出重复道路新闻文档,所述被标记的重复道路新闻文档用于去重。
7.根据权利要求6所述的新闻文档去重的装置,其特征在于,所述新闻文档集中存储的是所属行政区划内的道路新闻文档;所述装置还包括归类模块,用于根据行政区划将所述新闻文档集归类到所属的行政区划中;所述分词模块,具体用于针对属于同一行政区划内的新闻文档集中的每个道路新闻文档进行分词。
8.根据权利要求6或7所述的新闻文档去重的装置,其特征在于,所述计算权重模块,具体用于根据公式
Figure FDA0001716425000000031
计算道路新闻文档
Figure FDA0001716425000000032
的第k个词项wk在该道路新闻文档中的权重;其中,
Figure FDA0001716425000000033
为计算出的道路新闻文档
Figure FDA0001716425000000034
的第k个词项wk在该道路新闻文档中的权重,TFIDF()为词频-逆向文件词频权重算法,kw(wk)为对提取到的第k个词项wk的权重提升系数;其中,
Figure FDA0001716425000000035
Figure FDA0001716425000000036
为新闻文档集
Figure FDA0001716425000000041
中第j篇道路新闻文档,ci表示不同城市,i为城市序号,j为道路新闻文档集
Figure FDA0001716425000000042
中道路新闻文档序号,k为道路新闻文档中词项序号,i、j、k均为正整数。
9.根据权利要求6所述的新闻文档去重的装置,其特征在于,所述聚类模块包括确定簇心模块;所述确定簇心模块,具体用于在所述簇中的道路新闻文档个数大于预设阈值的情况下,将所述簇中每个道路新闻文档与簇中其他道路新闻文档之间的第一相似度分别相加,得到每个道路新闻文档的第二相似度;将具有最大值的第二相似度对应的道路新闻文档作为簇心。
10.根据权利要求6所述的新闻文档去重的装置,其特征在于,所述道路新闻文档包括:历史道路新闻文档和新增道路新闻文档;
所述标记模块,具体用于若所述簇中的道路新闻文档均为新增道路新闻文档,则保留作为所述簇的簇心的新增道路新闻文档,并将除所述簇心之外的新增道路新闻文档标记为重复道路新闻文档;若所述簇中的道路新闻文档包括历史道路新闻文档和新增道路新闻文档且簇心为历史道路新闻文档,则将新增道路新闻文档标记为重复道路新闻文档;若所述簇中的道路新闻文档包括历史道路新闻文档和新增道路新闻文档且簇心为新增道路新闻文档,则将新增道路新闻文档标记为重复道路新闻文档。
11.一种存储介质,其上存储有程序数据,其特征在于,所述程序数据用于被处理器执行时实现权利要求1-5中任一项所述的新闻文档去重的方法。
CN201810710477.7A 2018-07-02 2018-07-02 一种新闻文档去重的方法、装置及存储介质 Active CN110750963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810710477.7A CN110750963B (zh) 2018-07-02 2018-07-02 一种新闻文档去重的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810710477.7A CN110750963B (zh) 2018-07-02 2018-07-02 一种新闻文档去重的方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110750963A true CN110750963A (zh) 2020-02-04
CN110750963B CN110750963B (zh) 2023-09-26

Family

ID=69274667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810710477.7A Active CN110750963B (zh) 2018-07-02 2018-07-02 一种新闻文档去重的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110750963B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011152A (zh) * 2021-03-04 2021-06-22 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN102955857A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种搜索引擎中基于类中心压缩变换的文本聚类方法
US8583648B1 (en) * 2011-09-30 2013-11-12 Google Inc. Merging semantically similar clusters based on cluster labels
CN105718590A (zh) * 2016-01-27 2016-06-29 福州大学 面向多租户的SaaS舆情监控系统及方法
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN106484838A (zh) * 2016-09-30 2017-03-08 中国南方电网有限责任公司 基于数据挖掘的安全检查标准库动态更新方法
US20170235820A1 (en) * 2016-01-29 2017-08-17 Jack G. Conrad System and engine for seeded clustering of news events

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
US8583648B1 (en) * 2011-09-30 2013-11-12 Google Inc. Merging semantically similar clusters based on cluster labels
CN102955857A (zh) * 2012-11-09 2013-03-06 北京航空航天大学 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN105718590A (zh) * 2016-01-27 2016-06-29 福州大学 面向多租户的SaaS舆情监控系统及方法
US20170235820A1 (en) * 2016-01-29 2017-08-17 Jack G. Conrad System and engine for seeded clustering of news events
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN106484838A (zh) * 2016-09-30 2017-03-08 中国南方电网有限责任公司 基于数据挖掘的安全检查标准库动态更新方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
CONGNAN LUO: "Text document clustering based on neighbors", Retrieved from the Internet <URL:https://www.sciencedirect.com/science/article/pii/S0169023X09000974> *
刘嵩;张先飞;李弼程;孙显著;: "基于概念相似度的话题自动检测方法", no. 03 *
张猛, 王大玲, 于戈: "一种基于自动阈值发现的文本聚类方法", 计算机研究与发展, no. 10 *
曲守宁;王钦;邹燕;朱强;: "基于关联规则的文本聚类算法的研究", 计算机应用研究, no. 04 *
樊勇;郑家恒;: "网页去重方法研究", no. 12 *
王丽颖;葛丽娜;张翼鹏;王红;: "增量式聚类的新闻热点话题发现研究", 计算机与现代化, no. 03, pages 1 - 2 *
王丽颖等: "增量式聚类的新闻热点话题发现研究" *
陈雪刚;: "基于大数据技术的微博舆情快速自聚类方法研究", 情报杂志, no. 05 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011152A (zh) * 2021-03-04 2021-06-22 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及计算机可读存储介质
CN113011152B (zh) * 2021-03-04 2022-08-26 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN110750963B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN106599029B (zh) 一种中文短文本聚类方法
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106570708B (zh) 一种智能客服知识库的管理方法及系统
CN102289522B (zh) 一种对于文本智能分类的方法
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
CN108537257B (zh) 基于判别性字典矩阵对的零样本图像分类方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN109388743B (zh) 语言模型的确定方法和装置
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN103559191A (zh) 基于隐空间学习和双向排序学习的跨媒体排序方法
CN111243601B (zh) 声纹聚类方法、装置、电子设备和计算机可读存储介质
CN108829661B (zh) 一种基于模糊匹配的新闻主体名称提取方法
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN110275966B (zh) 一种知识抽取方法及装置
CN107329954B (zh) 一种基于文档内容和相互关系的主题检测方法
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN112241458B (zh) 文本的知识结构化处理方法、装置、设备和可读存储介质
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN108153818B (zh) 一种基于大数据的聚类方法
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN110750963A (zh) 一种新闻文档去重的方法、装置及存储介质
CN109241438B (zh) 基于要素的跨通道热点事件发现方法、装置及存储介质
CN107315807B (zh) 人才推荐方法和装置
CN103389987A (zh) 文本相似性比较方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant