CN110245275B - 一种大规模相似新闻标题快速归一化方法 - Google Patents
一种大规模相似新闻标题快速归一化方法 Download PDFInfo
- Publication number
- CN110245275B CN110245275B CN201910521164.1A CN201910521164A CN110245275B CN 110245275 B CN110245275 B CN 110245275B CN 201910521164 A CN201910521164 A CN 201910521164A CN 110245275 B CN110245275 B CN 110245275B
- Authority
- CN
- China
- Prior art keywords
- news
- news headline
- index
- headline
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010606 normalization Methods 0.000 title claims abstract description 34
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 26
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 229920001971 elastomer Polymers 0.000 claims 1
- 239000000806 elastomer Substances 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大规模相似新闻标题快速归一化方法,所述方法包括:S1、预处理新闻标题数据;S2、将与任意给定新闻标题相关的新闻标题数据进行排序;S3、计算相关新闻标题与该新闻标题之间相似度并排序;S4、比较相关新闻标题中最大相似度值与设定相似度阈值并判断索引中是否存在相似新闻标题,若存在则将最大相似度新闻标题MD5值作为该新闻标题归一化序列码,若不存在则进入步骤S5;S5、计算该新闻标题MD5值,作为其归一化序列码与其内容存入索引中;S6、重复步骤S2和S5,完成所有新闻标题的归一化映射。本发明可以快速找出相关的新闻标题并做出相似性判定,然后将相似新闻标题映射成唯一的归一化序列码,实现了大规模相似新闻标题的快速归一化。
Description
技术领域
本发明涉及计算机科学范围的归一化映射技术领域,尤其涉及一种大规模相似新闻标题快速归一化方法。
背景技术
新闻标题是一篇新闻的“眼睛”,它能准确概括新闻的主题,随着互联网技术的发展,网页新闻已成为人们生活的一部分,并对人们的信息获取产生不可预估的影响。网络新闻由新闻标题、正文内容、发布时间、来源、作者、编辑等主体部分构成。随着网页新闻应用的推广与深化,大量的新闻数据得到积累,这些新闻数据不论是分析还是管理都面临着巨大的压力,需要借助计算机智能分析技术从中进行深度挖掘从而为相关决策提供有力的支持,这种分析具有重要的价值和意义。特别的,相似新闻的挖掘和分析具有很好地应用场景,例如事件的聚焦和相似新闻的快速聚合等热门应用。
从海量的网页新闻标题中分析出相似的新闻标题是一种亟待解决的热点需求,它可以有效的将相似新闻聚集到一起,从而达到对相似新闻数据进行关联分析和挖掘的目的。经过对相似新闻标题的归一化,可以快速将相似的新闻归档到同一个类别,这样可以有效的聚焦相似新闻。对于归档后的新闻数据,再根据新闻发布的时间轴进行升序拼接与组织,这样能让事件相关的新闻串联起来,从而清晰的揭示事件的详细发展轨迹。
目前,对于大规模的相似新闻快速归一化处理求来说,业界缺乏成熟的技术支撑,尤其是面临大规模新闻数据分析任务时,问题尤为突出,而且,面对大规模相似新闻标题归一化任务,如果采用现有的字符串相似度算法直接计算任意两个新闻标题之间的相似度,这种计算效率非常低,根本就无法满足真实的需求。
中国专利CN201110137785公开了一种分布式实时搜索引擎。本发明的分布式实时搜索引擎,其系统构建和运行至少包括以下步骤:A.设计系统的功能性结构,B.设计系统的数据索引结构,C.索引的创建,D.索引的更新,E.索引的检索。本发明的分布式实时搜索引擎能够在系统的内存中同时构建更新时索引和合并时索引,索引检索时通过同时访问更新时索引和合并时索引,当更新时索引的文档数量积累到阈值后,更新索引提交到磁盘索引并变更为合并时索引,原有的合并时索引变更为新的更新时索引,保证了正在更新中的数据也能够被检索到,提高了搜索引擎可检索数据的实时性。本发明是从数据整体出发,完成数据的索引与检索,而没有关注数据中是否存在相似的情况,并且所采用的检索方法一般都是普通的检索排序类,具有无法判定相似性的缺点。
中国专利CN201410323334公开了一种文本相似度计算方法及装置。该文本相似度计算方法包括:通过比较两个文本的节点,计算两个文本的增删距离与替换距离,其中所述增删距离与所述替换距离的和为所述两个文本的编辑距离;根据增删距离与替换距离,计算两个文本的相似度。本发明能够采用一种不依赖于词典、切词以及模型训练的算法,来实现文本之间的相似度的计算,从而可以提高相似度的计算速度。但是本发明仅仅关注了文本的相似性计算,而不能完成归一化处理。
发明内容
本发明的目的是提供一种能够给相似新闻标题快速映射成唯一归一化序列码的方法,所述方法主要是针对大规模相似新闻标题的快速归一化处理需求,通过集成使用索引检索技术和相似度计算方法以及MD5值计算方法实现了潜在相似新闻标题的快速查询与归一化,实现了大规模相似新闻标题的快速归一化任务。
为解决上述技术问题,本发明提供一种大规模相似新闻标题快速归一化方法,所述方法包括以下步骤:
S1、将收集的所有新闻标题数据进行预处理;
S2、任意给定一个新闻标题T,并采用分布式索引方法逐条实时检索与该新闻标题T相关的新闻标题数据,然后将相关的新闻标题数据进行排序;
S3、通过相似度计算方法分别计算所述步骤S2中检索的相关新闻标题数据与新闻标题T之间的相似度并降序排序,然后返回至最大相似度的新闻标题;
S4、设定相似度阈值A并将所述步骤S3中最大相似度值与相似度阈值A进行比较,从而判断索引中是否存在与该新闻标题T相似的新闻标题,若索引中存在相似新闻标题,则将最大相似度新闻标题的归一化序列码赋值给该新闻标题T并作为该新闻标题T的归一化序列码,完成该新闻标题的归一化映射,若索引中不存在相似新闻标题,则进入步骤S5;
S5、计算该新闻标题T的MD5值,并将该新闻标题T的MD5值作为归一化序列码与该新闻标题T的内容存入索引中;
S6、重复步骤S2-S5,直至完成所有新闻标题数据的归一化映射。
优选地,所述步骤S1中将收集的所有新闻标题数据进行预处理的具体实现方式为:去除新闻标题中的一些多余的空格、特殊字符和换行符等。
优选地,所述步骤S2中分布式索引为Elasticsearch分布式索引。
优选地,所述步骤S2中利用分布式索引方法逐条实时检索与该新闻标题T相关的新闻标题数据,然后将相关的新闻标题数据进行排序的具体实现方式包括:
S21、对输入的新闻标题T进行分词,并利用停用词典过滤相应的停用词,得到有效词语列表;
S22、将所述步骤S21中得到的有效词语列表作为真实的查询词语输入;
S23、计算所述步骤S22中查询词语与索引文档之间的检索得分Score(q,d),可用公式表示:
式(1)中,q表示查询词语,d表示索引文档,Wk表示查询词语q中第k个有效词语的逆文档频率,qk表示查询词语q中第k个有效词语,n表示查询词语q中有效词语的总数,R(qk,d)表示查询词语q中第k个有效词语与索引文档d之间的相关性;
其中,N表示索引文档的总数量,n(qi)表示包含查询词语qk的索引文档数量,1表示调节因子;/>h1和h2表示调整系数,fk表示查询词语qk在索引文档d中的频率,qfk表示查询词语qk在查询词语q中的频率,H表示比例系数,/>其中b为调节系数,dl表示当前从索引中取出来与有效检索词语相关的新闻标题的长度,avg(dl)表示从索引中检索出来与当前有效检索词语相关的全部新闻标题的平均长度,从而式(1)可表示为:
S24、根据所述步骤S23计算出来的检索得分Score(q,d)对与新闻标题T相关的新闻标题数据进行排序。
优选地,所述步骤S3中相似度计算方法为改进型Jaro-Winkler短文本相似度计算方法,所述方法的匹配窗口包括强匹配窗口和弱匹配窗口,所述强匹配窗口和弱匹配窗口的值可用公式表示:
WMW=max(L(s1),L(s2))-index (3)
式(2)、(3)中,SMW表示强匹配窗口的值,WMW表示弱匹配窗口的值,s1,s2表示字符串,L(s1)表示字符串s1的长度,L(s2)表示字符串s2的长度,index表示当前强匹配窗口结束位置的值。
优选地,所述步骤S3中相似度Djw计算公式可表示为:
式(4)中,t表示字符串s1或字符串s2中的转置字符数,m表示字符串s1或字符串s2在强匹配窗口和弱匹配窗口中所有字符能够匹配的总次数;
优选地,当所述字符串s1和字符串s2之间存在最长连续匹配字符时,所述相似度Djw需要进行微调,可用公式表示:
D′jw=Djw+(L*p*(1-Djw)) (5)
式(5)中,p表示权重,p=min(0.1,1.0/max(L(s1),L(s2))),L表示字符串s1和字符串s2中最长公共字符串的长度,L=max(C[i,j]),其中,C[i,j]表示字符串s1和字符串s2中公共字符串的长度,可用公式表示:
式(6)中,i表示字符串s1中第i个字符索引,j表示字符串s2中第个j字符索引,xi表示字符串s1的第i个字符,j表示字符串s2的第j个字符。
优选地,所述步骤S4中的相似度阈值A∈[0.6,1.0]。
优选地,所述相似度阈值A=0.8。
优选地,所述强匹配窗口的权重值为1,弱匹配窗口的权重值为0.5。
与现有技术比较,本发明一种大规模相似新闻标题快速归一化方法,采用分布式索引方法建立待分析新闻标题数据的索引结构并快速检索出相关的新闻标题,为潜在相似新闻标题的快速查找提供了解决方案,然后利用改进型相似度计算方法和新闻标题数据MD5值的计算方法实现了潜在相似新闻标题的快速查询与归一化方法,通过本发明的归一化方法可以找出相关的新闻标题数据并做出相似性判定,然后将相似新闻标题数据映射成唯一的归一化序列码,突破了现有技术的瓶颈,实现了大规模相似新闻标题的快速归一化。
附图说明
图1是本发明一种大规模相似新闻标题快速归一化方法流程图,
图2是本发明中所述新闻标题的分布式索引方法流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,下面结合附图对本发明作进一步的详细说明。
参见图1,图1是本发明提供的一种大规模相似新闻标题快速归一化方法流程图。
一种大规模相似新闻标题快速归一化方法,所述方法包括以下步骤:
S1、将收集的所有新闻标题数据进行预处理;
S2、任意给定一个新闻标题T,并采用分布式索引方法逐条实时检索与该新闻标题T相关的新闻标题数据,然后将相关的新闻标题数据进行排序;
S3、通过相似度计算方法分别计算所述步骤S2中检索的相关新闻标题数据与新闻标题T之间的相似度并降序排序,然后返回至最大相似度的新闻标题;
S4、设定相似度阈值A并将所述步骤S3中最大相似度值与相似度阈值A进行比较,从而判断索引中是否存在与该新闻标题T相似的新闻标题,若索引中存在相似新闻标题,则将最大相似度新闻标题的归一化序列码赋值给该新闻标题T并作为该新闻标题T的归一化序列码,完成该相似新闻标题的归一化映射,若索引中不存在相似新闻标题,则进入步骤S5;
S5、计算该新闻标题T的MD5(信息摘要,Message Digest)值,并将该新闻标题T的MD5值作为归一化序列码与新闻标题T的内容存入索引中;
S6、重复步骤S2-S5,直至完成所有新闻标题数据的归一化映射。
本实施例中,通过采用分布式索引方法建立待分析新闻标题数据的索引结构并快速检索出相关的新闻标题,为潜在相似新闻标题的快速查找提供了解决方案,然后利用改进型相似度计算方法和新闻标题数据MD5值的计算方法实现了潜在相似新闻标题的快速查询与归一化方法,所述归一化方法可以准确找出相关的新闻标题并做出相似性判定,然后将相似新闻标题数据映射成唯一的归一化序列码,突破了现有技术的瓶颈,实现了大规模相似新闻标题的快速归一化
本实施例中,当所述步骤S2中任意给定的新闻标题为第一条分析的新闻标题时,此时索引数据为空且该新闻标题没有相应的归一化序列码,则索引数据中检索出来的结果为空,即不存在与该条新闻标题相似的索引记录,直接进入步骤S5计算该新闻标题的MD5值,并将该新闻标题T的MD5值作为归一化序列码与新闻标题T的内容存入索引中,然后进行下一条新闻标题的分析,随着新闻标题数据的实时检索不断进行,该索引数据也会实时发生变化,同时也使得索引数据中所有新闻标题均不相似。
如图1所示,所述步骤S1中将收集的所有新闻标题数据进行预处理的具体实现方式为:去除新闻标题中的一些多余的空格、特殊字符和换行符等。本实施例中,通过对新闻标题进行分析前的预处理,从而有效提高了新闻标题数据后期的处理效率。
如图1所示,所述步骤S2中分布式索引为Elasticsearch分布式索引。本实施例中,采用Elasticsearch(弹性检索)分布式索引来处理新闻标题数据。在其他实施例中,也可以采用Lucene或者solr的倒排索引机制来构建所需要的分布式索引。
如图2所示,所述步骤S2中利用分布式索引方法逐条实时检索与该新闻标题T相关的新闻标题数据,然后将相关的新闻标题数据进行排序的具体实现方式包括:
S21、对输入的新闻标题T进行分词,并利用停用词典过滤相应的停用词,得到有效词语列表;
S22、将所述步骤S21中得到的有效词语列表作为真实的查询词语输入;
S23、计算所述步骤S22中查询词语与索引文档之间的检索得分Score(q,d),可用公式表示:
式(1)中,q表示查询词语,d表示索引文档,Wk表示查询词语q中第k个有效词语的逆文档频率,qk表示查询词语q中第k个有效词语,n表示查询词语q中有效词语的总数,R(qk,d)表示查询词语q中第k个有效词语与索引文档d之间的相关性;
其中,N表示索引文档的总数量,n(qi)表示包含查询词语qk的索引文档数量,1表示调节因子;/>h1和h2表示调整系数,fk表示查询词语qk在索引文档d中的频率,qfk表示查询词语qk在查询词语q中的频率,H表示比例系数,/>其中b为调节系数,dl表示当前从索引中取出来与有效检索词语相关的新闻标题的长度,avg(dl)表示从索引中检索出来与当前有效检索词语相关的全部新闻标题的平均长度,从而式(1)可表示为:
S24、根据所述步骤S23计算出来的检索得分Score(q,d)对与新闻标题T相关的新闻标题数据进行排序。
本实施例中,调节因子1的作用是为了防止分母为零,而计算查询词语q中第k个有效词语与索引文档d之间的相关性公式中的调整系数h1和h2设为1,查询词语q中第k个有效词语的逆文档频率计算公式中的调节系数b取值为0.75。若在其他实施例中,对于输入的新闻标题没有进过前期的预处理,则在计算查询词语与与索引文档之间的检索得分时,需要增加一个用来表示当前检索词语有效性的指示函数,若当前检索词语为有效检索词,则该有效性指示函数取值为1,若当前检索词语为无效检索词,则该有效性指示函数取值为0,从而起到调节作用;由于本实施例中对输入的新闻标题均做了预处理,故该有效性指示函数取值均为1,即在计算查询词语与与索引文档之间的检索得分时去掉了该有效性指示函数。
如图1所示,所述步骤S3中相似度计算方法为改进型Jaro-Winkler短文本相似度计算方法,所述方法的匹配窗口包括强匹配窗口和弱匹配窗口,所述强匹配窗口和弱匹配窗口的值可用公式表示:
WMW=max(L(s1),L(s2))-index (3)
式(2)、(3)中,SMW表示强匹配窗口的值,WMW表示弱匹配窗口的值,s1,s2表示字符串,L(s1)表示字符串s1的长度,L(s2)表示字符串s2的长度,index表示当前强匹配窗口结束位置的值。
本实施例中,通过基于字符改进的Jaro-Winkler短文本相似度计算方法来作为新闻标题之间的相似度判定方法,同时考虑到该方法中匹配窗口大小对相似度判断的影响,为保证待分析的新闻标题数据之间相似度判断的准确性,通过设置强匹配窗口和弱匹配窗口的分层匹配方法来计算并判定其相似度。在其他实施例中,也可以使用基于字符特征相似度的余弦相似度计算方法来实现。
如图1所示,所述步骤S3中相似度Djw计算公式可表示为:
式(4)中,t表示字符串s1或字符串s2中的转置字符数,m表示字符串s1或字符串s2在强匹配窗口和弱匹配窗口中所有字符能够匹配的总次数;
如图1所示,当所述字符串s1和字符串s2之间存在最长连续匹配字符时,所述相似度Djw需要进行微调,可用公式表示:
D′jw=Djw+(L*p*(1-Djw)) (5)
式(5)中,p表示权重,p=min(0.1,1.0/max(L(s1),L(s2))),L表示字符串s1和字符串s2中最长公共字符串的长度,L=max(C[i,j]),其中,C[i,j]表示字符串s1和字符串s2中公共字符串的长度,可用公式表示:
式(6)中,i表示字符串s1中第i个字符索引,j表示字符串s2中第个j字符索引,xi表示字符串s1的第i个字符,j表示字符串s2的第j个字符。
本实施例中,当所述字符串s1和字符串s2之间存在最长连续匹配字符时,通过对Jaro-Winkler方法所计算出来的相似度值进行微调,从而提高新闻标题数据之间相似度判定的准确度。
如图1所示,所述步骤S4中的相似度阈值A∈[0.6,1.0]。
如图1所示,所述步骤S4中的相似度阈值A=0.8。
本实施例中,所述相似度阈值A可以根据不同需求进行自行设置,其取值范围设为[0.6,1.0],更进一步的,相似度阈值A设为0.8,当完成相关新闻标题数据与新闻标题T之间的相似度计算并降序排序后,通过判断排序中最大相似度值是否小于0.8,如果小于0.8,则认为现有索引数据中不存在与当前新闻标题相似的新闻标题,此时进入步骤S5计算当前输入的新闻标题的MD5值,并将该新闻标题的MD5值作为归一化序列码与该新闻标题的内容存入到索引数据中,作为下一个输入新闻标题的比对目标;如果最大相似度值大于等于0.8,则认为当前输入的新闻标题在索引中存在与其相似的新闻标题,此时直接将索引中最大相似度标题所对应的归一化序列码赋值给当前输入的新闻标题,并作为当前输入的新闻标题的归一化序列码,继续输入下一条新闻标题的分析,从而实现了大规模相似新闻标题的快速归一化。
优选地,所述强匹配窗口的权重值为1,弱匹配窗口的权重值为0.5。本实施例中,当两个字符距离小于匹配窗口值时,则认为两个字符匹配,若字符位于强匹配窗口,当两个字符距离小于强匹配窗口值1时,可认为这两个字符匹配;若字符位于弱匹配窗口,当两个字符距离小于弱匹配窗口值0.5时,即也可认为这两个字符匹配。
以上对本发明所提供的一种大规模相似新闻标题快速归一化方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (9)
1.一种大规模相似新闻标题快速归一化方法,其特征在于,所述方法包括以下步骤:
S1、将收集的所有新闻标题数据进行预处理;
S2、任意给定一个新闻标题T,并采用分布式索引方法逐条实时检索与该新闻标题T相关的新闻标题数据,然后将相关的新闻标题数据进行排序;
S3、通过相似度计算方法分别计算所述步骤S2中检索的相关新闻标题数据与新闻标题T之间的相似度并降序排序,然后返回至最大相似度的新闻标题;
S4、设定相似度阈值A并将所述步骤S3中最大相似度值与相似度阈值A进行比较,从而判断索引中是否存在与该新闻标题T相似的新闻标题,若索引中存在相似新闻标题,则将最大相似度新闻标题的归一化序列码赋值给该新闻标题T并作为该新闻标题T的归一化序列码,完成该新闻标题T的归一化映射,若索引中不存在相似新闻标题,则进入步骤S5;
S5、计算该新闻标题T的MD5值,并将该新闻标题T的MD5值作为归一化序列码与该新闻标题T的内容存入索引中;
S6、重复步骤S2-S5,直至完成所有新闻标题数据的归一化映射;
所述步骤S3中相似度计算方法为改进型Jaro-Winkler短文本相似度计算方法,所述方法的匹配窗口包括强匹配窗口和弱匹配窗口,所述强匹配窗口和弱匹配窗口的值可用公式表示:
WMW=max(L(s1),L(s2))-index (3)
式(2)、(3)中,SMW表示强匹配窗口的值,WMW表示弱匹配窗口的值,s1,s2表示字符串,L(s1)表示字符串s1的长度,L(s2)表示字符串s2的长度,index表示当前强匹配窗口结束位置的值。
2.如权利要求1所述的大规模相似新闻标题快速归一化方法,其特征在于,所述步骤S1中将收集的所有新闻标题数据进行预处理的具体实现方式为:去除新闻标题中的一些多余的空格、特殊字符和换行符。
3.如权利要求2所述的大规模相似新闻标题快速归一化方法,其特征在于,所述步骤S2中分布式索引为Elasticsearch分布式索引。
4.如权利要求3所述的大规模相似新闻标题快速归一化方法,其特征在于,所述步骤S2中利用分布式索引方法逐条实时检索与该新闻标题T相关的新闻标题数据,然后将相关的新闻标题数据进行排序的具体实现方式包括:
S21、对输入的新闻标题T进行分词,并利用停用词典过滤相应的停用词,得到有效词语列表;
S22、将所述步骤S21中得到的有效词语列表作为真实的查询词语输入;
S23、计算所述步骤S22中查询词语与索引文档之间的检索得分Score(q,d(,可用公式表示:
式(1)中,q表示查询词语,d表示索引文档,Wk表示查询词语q中第k个有效词语的逆文档频率,qk表示查询词语q中第k个有效词语,n表示查询词语q中有效词语的总数,R(qk,d)表示查询词语q中第k个有效词语与索引文档d之间的相关性;
其中,N表示索引文档的总数量,n(qi)表示包含查询词语qk的索引文档数量,1表示调节因子;/>h1和h2表示调整系数,fk表示查询词语qk在索引文档d中的频率,qfk表示查询词语qk在查询词语q中的频率,H表示比例系数,/>其中b为调节系数,dl表示当前从索引中取出来与有效检索词语相关的新闻标题的长度,avg(dl)表示从索引中检索出来与当前有效检索词语相关的全部新闻标题的平均长度,从而式(1)可表示为:
S24、根据所述步骤S23计算出来的检索得分Score(q,d)对与新闻标题T相关的新闻标题数据进行排序。
5.如权利要求1所述的大规模相似新闻标题快速归一化方法,其特征在于,所述步骤S3中相似度计算公式可表示为:
式(4)中,Djw表示相似度,t表示字符串s1或字符串s2中的转置字符数,m表示字符串s1或字符串s2在强匹配窗口和弱匹配窗口中所有字符能够匹配的总次数。
6.如权利要求5所述的大规模相似新闻标题快速归一化方法,其特征在于,当所述字符串s1和字符串s2之间存在最长连续匹配字符时,所述相似度Djw需要进行微调,可用公式表示:
D′jw=Djw+(L*p*(1-Djw)) (5)
式(5)中,p表示权重,p=min(0.1,1.0/max(L(s1),L(s2))),L表示字符串s1和字符串s2中最长公共字符串的长度,L=max(C[i,j]),其中,C[i,j]表示字符串s1和字符串s2中公共字符串的长度,可用公式表示:
式(6)中,i表示字符串s1中第i个字符索引,j表示字符串s2中第个j字符索引,xi表示字符串s1的第i个字符,j表示字符串s2的第j个字符。
7.如权利要求6所述的大规模相似新闻标题快速归一化方法,其特征在于,所述步骤S4中的相似度阈值A∈[0.6,1.0]。
8.如权利要求7所述的大规模相似新闻标题快速归一化方法,其特征在于,所述步骤S4中的相似度阈值A=0.8。
9.如权利要求8所述的大规模相似新闻标题快速归一化方法,其特征在于,所述强匹配窗口的权重值为1,弱匹配窗口的权重值为0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910521164.1A CN110245275B (zh) | 2019-06-18 | 2019-06-18 | 一种大规模相似新闻标题快速归一化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910521164.1A CN110245275B (zh) | 2019-06-18 | 2019-06-18 | 一种大规模相似新闻标题快速归一化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110245275A CN110245275A (zh) | 2019-09-17 |
CN110245275B true CN110245275B (zh) | 2023-09-01 |
Family
ID=67887520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910521164.1A Active CN110245275B (zh) | 2019-06-18 | 2019-06-18 | 一种大规模相似新闻标题快速归一化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110245275B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084448B (zh) * | 2020-08-31 | 2024-05-07 | 北京金堤征信服务有限公司 | 相似信息处理方法以及装置 |
CN113836886A (zh) * | 2021-08-18 | 2021-12-24 | 北京清博智能科技有限公司 | 一种新闻标题相似度识别方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308496A (zh) * | 2008-07-04 | 2008-11-19 | 沈阳格微软件有限责任公司 | 大规模文本数据的外部聚类方法及系统 |
CN101853272A (zh) * | 2010-04-30 | 2010-10-06 | 华北电力大学(保定) | 基于相关反馈和聚类的搜索引擎技术 |
CN103577418A (zh) * | 2012-07-24 | 2014-02-12 | 北京拓尔思信息技术股份有限公司 | 海量文档分布式检索排重系统和方法 |
CN103699567A (zh) * | 2013-11-04 | 2014-04-02 | 北京中搜网络技术股份有限公司 | 一种基于标题指纹与正文指纹实现相同新闻聚类的方法 |
CN106202057A (zh) * | 2016-08-30 | 2016-12-07 | 东软集团股份有限公司 | 相似新闻信息的识别方法和装置 |
CN106649214A (zh) * | 2016-10-21 | 2017-05-10 | 天津海量信息技术股份有限公司 | 互联网信息内容相似定义方法 |
CN107145568A (zh) * | 2017-05-04 | 2017-09-08 | 成都华栖云科技有限公司 | 一种快速的新闻事件聚类系统及方法 |
CN107423337A (zh) * | 2017-04-27 | 2017-12-01 | 天津大学 | 基于lda融合模型和多层聚类的新闻话题检测方法 |
CN108153818A (zh) * | 2017-11-29 | 2018-06-12 | 成都东方盛行电子有限责任公司 | 一种基于大数据的聚类方法 |
CN108268659A (zh) * | 2018-02-05 | 2018-07-10 | 深圳市比量科技传媒有限公司 | 一种相同新闻信息的归类方法及系统 |
CN108809813A (zh) * | 2018-06-14 | 2018-11-13 | 北京明朝万达科技股份有限公司 | 应用数据防泄漏技术的邮件归档处理方法及系统 |
CN109241274A (zh) * | 2017-07-04 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 文本聚类方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8745055B2 (en) * | 2006-09-28 | 2014-06-03 | Symantec Operating Corporation | Clustering system and method |
US10354257B2 (en) * | 2017-05-05 | 2019-07-16 | Servicenow, Inc. | Identifying clusters for service management operations |
-
2019
- 2019-06-18 CN CN201910521164.1A patent/CN110245275B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308496A (zh) * | 2008-07-04 | 2008-11-19 | 沈阳格微软件有限责任公司 | 大规模文本数据的外部聚类方法及系统 |
CN101853272A (zh) * | 2010-04-30 | 2010-10-06 | 华北电力大学(保定) | 基于相关反馈和聚类的搜索引擎技术 |
CN103577418A (zh) * | 2012-07-24 | 2014-02-12 | 北京拓尔思信息技术股份有限公司 | 海量文档分布式检索排重系统和方法 |
CN103699567A (zh) * | 2013-11-04 | 2014-04-02 | 北京中搜网络技术股份有限公司 | 一种基于标题指纹与正文指纹实现相同新闻聚类的方法 |
CN106202057A (zh) * | 2016-08-30 | 2016-12-07 | 东软集团股份有限公司 | 相似新闻信息的识别方法和装置 |
CN106649214A (zh) * | 2016-10-21 | 2017-05-10 | 天津海量信息技术股份有限公司 | 互联网信息内容相似定义方法 |
CN107423337A (zh) * | 2017-04-27 | 2017-12-01 | 天津大学 | 基于lda融合模型和多层聚类的新闻话题检测方法 |
CN107145568A (zh) * | 2017-05-04 | 2017-09-08 | 成都华栖云科技有限公司 | 一种快速的新闻事件聚类系统及方法 |
CN109241274A (zh) * | 2017-07-04 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 文本聚类方法及装置 |
CN108153818A (zh) * | 2017-11-29 | 2018-06-12 | 成都东方盛行电子有限责任公司 | 一种基于大数据的聚类方法 |
CN108268659A (zh) * | 2018-02-05 | 2018-07-10 | 深圳市比量科技传媒有限公司 | 一种相同新闻信息的归类方法及系统 |
CN108809813A (zh) * | 2018-06-14 | 2018-11-13 | 北京明朝万达科技股份有限公司 | 应用数据防泄漏技术的邮件归档处理方法及系统 |
Non-Patent Citations (1)
Title |
---|
高永兵 等.基于知网的个人微博语义相关度的聚类研究.《计算机工程与科学》.2019,第41卷(第41期),1128-1135. * |
Also Published As
Publication number | Publication date |
---|---|
CN110245275A (zh) | 2019-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241241B (zh) | 基于知识图谱的案件检索方法、装置、设备及存储介质 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
CN109271477B (zh) | 一种借助互联网构建分类语料库的方法及系统 | |
CN110334178B (zh) | 数据检索方法、装置、设备及可读存储介质 | |
CN103838833B (zh) | 基于相关词语语义分析的全文检索系统 | |
CN1728142B (zh) | 信息检索系统中的短语识别方法和设备 | |
KR101176079B1 (ko) | 문서 설명의 문구 기반 생성 | |
JP4881322B2 (ja) | 多重索引に基づく情報検索システム | |
CN103136352B (zh) | 基于双层语义分析的全文检索系统 | |
KR101223172B1 (ko) | 정보 검색 시스템에서의 문구 기반 서치 | |
CN102043851A (zh) | 一种基于频繁项集的多文档自动摘要方法 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN113190687B (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN115796181A (zh) | 一种针对化工领域的文本关系抽取方法 | |
CN101079025A (zh) | 一种文档相关度计算系统和方法 | |
WO2020074017A1 (zh) | 基于深度学习的医学文献中关键词筛选方法及装置 | |
CN113515939B (zh) | 一种勘察报告文本关键信息提取系统和提取方法 | |
CN112487293B (zh) | 一种安全事故案例结构化信息抽取方法、装置及介质 | |
CN112256861A (zh) | 一种基于搜索引擎返回结果的谣言检测方法及电子装置 | |
CN110245275B (zh) | 一种大规模相似新闻标题快速归一化方法 | |
CN114090861A (zh) | 一种基于知识图谱的教育领域搜索引擎构建方法 | |
CN111651675A (zh) | 一种基于ucl的用户兴趣主题挖掘方法及装置 | |
CN115618866A (zh) | 一种工程项目投标文件的段落识别与主题提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |