CN109460500A - 热点事件发现方法、装置、计算机设备和存储介质 - Google Patents

热点事件发现方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109460500A
CN109460500A CN201811246478.7A CN201811246478A CN109460500A CN 109460500 A CN109460500 A CN 109460500A CN 201811246478 A CN201811246478 A CN 201811246478A CN 109460500 A CN109460500 A CN 109460500A
Authority
CN
China
Prior art keywords
processed
webpage
event
web pages
candidate web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811246478.7A
Other languages
English (en)
Other versions
CN109460500B (zh
Inventor
林全智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201811246478.7A priority Critical patent/CN109460500B/zh
Publication of CN109460500A publication Critical patent/CN109460500A/zh
Application granted granted Critical
Publication of CN109460500B publication Critical patent/CN109460500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及热点事件发现方法、装置、计算机设备和存储介质,获取待处理网页的关键词向量,待处理网页包括网页地址数据流中的待处理地址对应的网页;根据已处理网页的关键词向量与待处理网页的关键词向量,确定候选网页,候选网页包括与待处理网页存在相似性的已处理网页;根据待处理网页与候选网页的相似度,确定待处理网页的事件;当事件中的网页满足数量条件时,根据事件确定发现结果。如此,可以大幅度降低需要处理的候选网页的数量,大幅度降低相似度计算的数据量,从而,提高热点事件发现的及时性。

Description

热点事件发现方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据挖掘技术领域,特别是涉及一种热点事件发现方法、装置、计算机设备和存储介质。
背景技术
随着互联网的持续发展,人们的日常生活越来越被互联网所影响,在网上看新闻、购物、互相交流等越来越普遍。比如,当社会上有热点事件发生时,人们总会第一时间在网络上传播和讨论,因此,互联网热点事件的监控变得越来越重要,通过热点事件的监控,政府部门能及早发现突发性事件,从而采取合理的行动,而企业也能通过热点时间的监控发现自己感兴趣的内容,进而制定合乎自己发展的措施。
传统的热点事件发现方法,每隔一段时间,对采集到的网页文本进行预处理,利用TF_IDF算法将网页文本表示成特征向量,利用聚类算法,将相似的网页聚类到一起,每个类别代表一个事件,最后再从这些事件中,过滤出热点事件。
因此,传统的热点事件发现方法,存在及时性较差的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高及时性的热点事件发现方法、装置、计算机设备和存储介质。
一种热点事件发现方法,所述方法包括:
获取待处理网页的关键词向量,所述待处理网页包括网页地址数据流中的待处理地址对应的网页;
根据已处理网页的关键词向量与所述待处理网页的关键词向量,确定候选网页,所述候选网页包括与所述待处理网页存在相似性的所述已处理网页;
根据所述待处理网页与所述候选网页的相似度,确定所述待处理网页的事件;
当所述事件中的网页满足数量条件时,根据所述事件确定发现结果。
一种热点事件发现装置,所述装置包括:
关键向量获取模块,用于获取待处理网页的关键词向量,所述待处理网页包括网页地址数据流中的待处理地址对应的网页;
候选网页确定模块,用于根据已处理网页的关键词向量与所述待处理网页的关键词向量,确定候选网页,所述候选网页包括与所述待处理网页存在相似性的所述已处理网页;
事件确定模块,用于根据所述待处理网页与所述候选网页的相似度,确定所述待处理网页的事件;
发现结果确定模块,用于当所述事件中的网页满足数量条件时,根据所述事件确定发现结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待处理网页的关键词向量,所述待处理网页包括网页地址数据流中的待处理地址对应的网页;
根据已处理网页的关键词向量与所述待处理网页的关键词向量,确定候选网页,所述候选网页包括与所述待处理网页存在相似性的所述已处理网页;
根据所述待处理网页与所述候选网页的相似度,确定所述待处理网页的事件;
当所述事件中的网页满足数量条件时,根据所述事件确定发现结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待处理网页的关键词向量,所述待处理网页包括网页地址数据流中的待处理地址对应的网页;
根据已处理网页的关键词向量与所述待处理网页的关键词向量,确定候选网页,所述候选网页包括与所述待处理网页存在相似性的所述已处理网页;
根据所述待处理网页与所述候选网页的相似度,确定所述待处理网页的事件;
当所述事件中的网页满足数量条件时,根据所述事件确定发现结果。
上述热点事件发现方法、装置、计算机设备和存储介质,获取待处理网页的关键词向量,待处理网页包括网页地址数据流中的待处理地址对应的网页;根据已处理网页的关键词向量与待处理网页的关键词向量,确定候选网页,候选网页包括与待处理网页存在相似性的已处理网页;根据待处理网页与候选网页的相似度,确定待处理网页的事件;当事件中的网页满足数量条件时,根据事件确定发现结果。如此,通过过滤——验证的框架(Filter-and-Refine framework),即先根据已处理网页的关键词向量与待处理网页的关键词向量,确定候选网页,再根据待处理网页与候选网页的相似度,确定待处理网页的事件,大幅度降低需要处理的候选网页的数量。由于相似性的计算对资源和时间的消耗大,在降低需要处理的候选网页的数量之后,可以大幅度降低相似度计算的数据量,从而,提高热点事件发现的及时性。
附图说明
图1为一个实施例中热点事件发现方法的应用环境图;
图2为一个实施例中热点事件发现方法的流程示意图;
图3为一具体实施例中通过热点事件发现方法的流程示意图;
图4为一具体实施例的热点事件发现装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的热点事件发现方法,可用于政府、企业等机构的舆情监控与热点事件的发现,为政府、企业的决策提供帮助。该热点事件发现方可应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。本申请实施例的热点事件发现方法可以运行在终端102上,服务器104可通过网络发送网页地址数据流至终端102,终端102接收该网页地址数据流,获取待处理网页的关键词向量,所述待处理网页包括网页地址数据流中的待处理地址对应的网页;根据已处理网页的关键词向量与所述待处理网页的关键词向量,确定候选网页,所述候选网页包括与所述待处理网页存在相似性的所述已处理网页;根据所述待处理网页与所述候选网页的相似度,确定所述待处理网页的事件;当所述事件中的网页满足数量条件时,根据所述事件确定发现结果。其中,终端102可以但不限于是各种服务器、个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种热点事件发现方法,该方法可以运行于图1中的终端102。该热点事件发现方法,包括以下步骤:
S202,获取待处理网页的关键词向量。待处理网页包括网页地址数据流中的待处理地址对应的网页。
网页地址数据流可以是指互联网中,被访问的网页的网页地址的数据流。网页地址数据流也可以是指互联网中,预设的数据源被访问的网页的网页地址的数据流,如此,可以针对预设的数据源进行热点事件发现,如访问量大于预设值的数据源。预设的数据源为互联网中重要的数据源,如日均访问量大于预设值的数据源,如此,可以在保证热点事件在重要数据源上的监控同时,减少待处理网页的数量。可以理解地,在同一时刻整个互联网中,同时被访问的网页记录十分庞大,待处理地址是指当前待处理的网页地址,即当前对其进行事件分类的网页地址。
对于每一个待处理地址,每当访问网址来临时,提取待处理地址对应的待处理网页的关键词,并根据这些关键词组成关键词向量。
S204,根据已处理网页的关键词向量与待处理网页的关键词向量,确定候选网页。候选网页包括与待处理网页存在相似性的已处理网页。
已处理网页可以为网页地址数据流中,已处理的网页地址的网页,已处理的网页地址可以为网页地址数据流中、已执行过本方法的网页地址。根据已处理网页的关键词向量与待处理网页的关键词向量,可以将与待处理网页存在相似性的已处理网页,作为待处理网页的候选网页。当两个网页的相似度不为0时,可以说这两个网页存在相似性。
可以基于哈希技术将非相似的、不可能成为候选网页的已处理网页过滤掉,使得与待处理网页相似的已处理网页,以很高的概率保留在候选网页中,进而可以在候选网页的基础上进行实际的相似度的计算。
如此,可以将与待处理网页不存在相似性的已处理网页过滤掉,可以大幅度降低需要处理的候选网页的数量。
S206,根据待处理网页与候选网页的相似度,确定待处理网页的事件。
待处理网页与候选网页的相似度,可以根据该待处理网页的关键词向量与该候选网页的关键词向量,进行计算而确定。由于候选网页的数量相对于已处理网页的数量大幅度地减少,因此,可以大幅度降低相似度计算的数据量。
待处理网页的事件即为待处理网页所描述的事件。可以根据相似度最大的候选网页的事件,确定待处理网页的事件。也可以根据各候选网页的相似度,对各候选网页的事件进行加权求和,确定待处理网页的事件。
S208,当该事件中的网页满足数量条件时,根据该事件确定发现结果。
发现结果可以包括网页满足数量条件的事件,还可以包括该事件的关键词。当待处理网页的事件中的网页满足数量条件时,即待处理网页的事件中的网页的数量满足数量条件时,发现结果包括该事件。数量条件可以是网页的数量大于热点阈值,即当该事件中的网页满足数量条件时,根据该事件确定发现结果,包括:当该事件中的网页的数量大于热点阈值时,将该事件作为发现结果。即当该事件中的网页的数量大于热点阈值时,可以将该事件认定为热点事件,因此,将该事件作为发现结果。可以理解地,该数量条件也可以是在预设时间内网页的数量大于预设值。可选地,预设时间为一较短的时间长度,如此,可以保证及时性。
数量条件还可以是各网页的访问数量大于热点阈值,即当该事件中的网页满足数量条件时,根据该事件确定发现结果,包括:当该事件中的网页的访问数量大于热点阈值时,将该事件作为发现结果。即当该事件中的网页的访问数量大于热点阈值时,可以将该事件认定为热点事件,因此,将该事件作为发现结果。可以理解地,该数量条件还可以是在预设时间内网页的访问数量大于预设值。
基于本实施例的热点事件发现方法,获取待处理网页的关键词向量,待处理网页包括网页地址数据流中的待处理地址对应的网页;根据已处理网页的关键词向量与待处理网页的关键词向量,确定候选网页,候选网页包括与待处理网页存在相似性的已处理网页;根据待处理网页与候选网页的相似度,确定待处理网页的事件;当事件中的网页满足数量条件时,根据事件确定发现结果。如此,通过过滤——验证的框架(Filter-and-Refineframework),即先根据已处理网页的关键词向量与待处理网页的关键词向量,确定候选网页,再根据待处理网页与候选网页的相似度,确定待处理网页的事件,大幅度降低需要处理的候选网页的数量。由于相似性的计算对资源和时间的消耗大,在降低需要处理的候选网页的数量之后,可以大幅度降低相似度计算的数据量,从而,提高热点事件发现的及时性。
在其中一实施例中,在根据待处理网页与候选网页的相似度时,相似度可以通过杰卡德相似系数(Jaccard similarity coefficient)或杰卡德(Jaccard)距离来表示。杰卡德(Jaccard)距离是用来衡量两个集合差异性的一种指标,它是杰卡德相似系数的补集,被定义为1减去Jaccard相似系数。杰卡德相似系数,也称杰卡德指数(Jaccard Index),是用来衡量两个集合相似度的一种指标。杰卡德相似系数可被定义为两个集合交集的元素个数除以并集的元素个数,可以表示为:
其中,J(A,B)表示A、B两个集合的杰卡德相似系数。如,A可以为待处理网页的特征集合,B可以为候选网页的特征集合。
在其中一实施例中,根据已处理网页的已处理关键词向量与关键词向量,确定候选网页,包括:根据已处理网页的关键词向量,生成已处理签名矩阵;根据待处理网页的关键词向量,生成待处理签名矩阵;根据已处理签名矩阵及待处理签名矩阵,从已处理网页中筛选与待处理网页存在相似性的候选网页。
关键词向量可以为文本形式的向量,签名矩阵可以为数值形式的向量组成的矩阵。已处理签名矩阵为已处理网页的关键词向量对应的签名矩阵;待处理签名矩阵为待处理网页的关键词向量对应的签名矩阵。在生成已处理签名矩阵及待处理签名矩阵之后,可以根据已处理签名矩阵及待处理签名矩阵,从已处理网页中筛选与待处理网页存在相似性的候选网页。如,可以基于局部敏感哈希(LSH)算法,根据已处理签名矩阵及待处理签名矩阵,从已处理网页中筛选与待处理网页存在相似性的候选网页。
基于本实施例的热点事件发现方法,可以将文本形式的关键词向量转化为数值形式的签名矩阵,如此,可以提高候选网页的确定速度,从而进一步提高热点事件发现的及时性。
进一步地,已处理签名矩阵包括至少1个第一行条,各第一行条包括至少1个第一列向量;待处理签名矩阵包括至少1个第二行条,各第二行条包括至少1个第二列向量。
根据已处理签名矩阵及待处理签名矩阵,确定候选网页,包括:当存在与任一第一列向量具有相同映射结果的第二列向量时,根据已处理签名矩阵对应的已处理网页,确定候选网页。
在本实施例中,将签名矩阵划分为至少一个条行,每一个条行包括至少一行,且每一个条行包括至少一个列向量。该签名矩阵包括已处理签名矩阵及待处理签名矩阵。可以理解地,列向量的元素的个数与条行的行数相同。
当存在与任一第一列向量具有相同映射结果的第二列向量时,说明已处理签名矩阵与待处理签名矩阵具有相似性,也即该已处理矩阵对应的已处理网页与该待处理矩阵对应的待处理网页具有相似性。因此,可以根据该已处理签名矩阵对应的已处理网页,确定候选网页。如,将该已处理签名矩阵对应的已处理网页作为候选网页。
在其中一具体实施例中,对于每个行条,存在一个哈希函数能够将该行条中的每个列向量映射到某个映射结果,可以通过一个桶表示一个映射结果。每个行条的哈希函数可以相同,也可以不同。每个行条采用的桶数组相互独立,各个签名矩阵之间,相互对应的行条采用相同的桶数据。如已处理签名矩阵的第一行条与已处理矩阵的第二行条采用的桶数组不同,已处理签名矩阵的第一行条与待处理矩阵的第一行条采用的桶数据相同。如此,对于已处理签名矩阵中的列向量与待处理签名矩阵的列向量,即便是不对应的行条(如,已处理签名矩阵的第二条行与待处理矩阵的第三条行)中的列向量相同,也不会被映射到同一个桶中,即不会映射到同一个映射结果。当待处理签名矩阵在某个行条中,存在与已处理矩阵对应的行条中的任一列向量,落在相同桶的情况时,则该已处理签名矩阵与该待处理矩阵相似度高的可能很大,因此,可以将该已处理签名矩阵对应的已处理网页将作为候选网页。
在其中一具体实施例中,每个签名矩阵的行条数量可以用b表示,b的取值为不小于1的自然数。如表1所示,b的取值可以为4。每个行条的行数可以用r表示,r的取值为不小于1的自然数。如表1所示,r的取值可以为3。
表1签名矩阵示例
在其中一实施例中,已处理签名矩阵或/及待处理签名矩阵为最小哈希签名矩阵。
该实施例包括以下3种实施方式:
(1)、已处理签名矩阵为最小哈希签名矩阵。
(2)、待处理签名矩阵为最小哈希签名矩阵。
(3)、已处理签名矩阵及待处理签名矩阵为最小哈希签名矩阵。
可以基于最小哈希函数(minihash)算法,将文本的关键词向量生成最小哈希签名矩阵。即,可以基于最小哈希函数算法,根据已处理网页的关键词向量,生成已处理签名矩阵,该已处理签名矩阵为最小哈希签名矩阵。可以基于最小哈希函数算法,根据待处理网页的关键词向量,生成待处理签名矩阵,该待处理签名矩阵为最小哈希签名矩阵。
由于最小哈希签名矩阵可以在保证不影响相似性计算的情况下,可以降低关键词向量的维度,将一个网页通过一个很小的签名矩阵来表示,如此,一方面可以节约内存空间,另一方面可以加快相似性的计算速度。从而,基于本实施例的热点事件发现方法,可进一步提高热点事件发现的及时性。
在其中一实施例中,根据待处理网页与候选网页的相似度,确定待处理网页的事件,之后还包括:
当待处理网页的事件中的网页不满足数量条件时,若该事件中的网页满足时间条件,则删除该事件。
当待处理网页的事件中的网页不满足数量条件时,即待处理网页的事件中的网页的数量不满足数量条件时,继续判断该事件中的网页是否满足时间条件,在满足时间条件的时候,认为该事件为噪音事件,删除该事件。该时间条件可以为网页的加入时间与预设时间的时间间隔大于预设值。预设时间可以为当前时间。如此,将噪音事件删除,可以节约内存使用率,降低计算量,从而进一步提高热点事件发现的及时性。
在其中一实施例中,若事件中的网页满足时间条件,则删除事件,包括:
若事件中最近加入的网页的加入时间,与当前时间的时间间隔大于噪音间隔阈值,则删除事件。
噪音间隔阈值可以为认定为噪音事件的时间间隔的最小值。该噪音间隔阈值可以根据经验或需求确定。在本实施例中,将最近加入网页的加入时间与当前时间的时间间隔大于噪音间隔阈值的事件,认定为噪音事件,并删除该事件。如此,可以节约内存使用率,降低计算量,从而,进一步提高热点事件发现的及时性。
在其中一实施例中,若事件中的网页满足时间条件,则删除事件,包括:
若事件中最近加入的网页的加入时间满足时间条件,且事件中的网页数量小于删除阈值,则删除事件。
在本实施例中,将最近加入网页的加入时间与当前时间的时间间隔大于噪音间隔阈值、且时间中的网页数量小于删除阈值的事件,认定为噪音事件,并删除该事件。可以理解地,该删除阈值小于热点阈值。
如此,可以节约内存使用率,降低计算量,从而,进一步提高热点事件发现的及时性。
在其中一实施例中,根据待处理网页与候选网页的相似度,确定事件,包括:根据待处理网页与候选网页的相似度,确定与待处理网页最相似的候选网页;根据最相似的候选网页,确定待处理网页的事件。
基于本实施例的热点事件发现方法,在根据待处理网页与候选网页的相似度,确定事件时,先根据待处理网页与候选网页的相似度,确定与待处理网页最相似的候选网页;再根据最相似的候选网页,确定待处理网页的事件。可以将最相似的候选网页的事件,确定为待处理网页的事件;还可以根据相似度最大的候选网页与待处理网页的相似度,来确定待处理网页的事件。如此,根据最相似的候选网页,确定待处理网页的事件。
在其中一具体实施例中,对于将最相似的候选网页的事件,确定为待处理网页的事件的情况,可以通过事件聚类模块,根据最相似的候选网页,确定待处理网页的事件。首先查询最相似的候选网页是都已经存在于当前事件聚类中的一个事件(类别)中,如果存在,则将待处理网页也放入该事件(类别)中;如果不存在,则将候选网页和待处理网页归为一个新的事件(类别)。
在其中一实施例中,在根据相似度最大的候选网页与待处理网页的相似度,来确定待处理网页的事件的情况下。根据最相似的候选网页,确定待处理网页的事件,包括:当最相似的候选网页与待处理网页的相似度大于或等于最小相似阈值时,将最相似的候选网页的事件,确定为待处理网页的事件。
最小相似阈值为当两个网页描述同一事件时,该两个网页的最小相似度的值。当最相似的候选网页与待处理网页的相似度大于或等于最小相似阈值时,则认定该最相似的候选网页与待处理网页描述的事件为同一事件,因此,可以将最相似的候选网页的事件,确定为待处理网页的事件。
在另一实施例中,在根据相似度最大的候选网页与待处理网页的相似度,来确定待处理网页的事件的情况下。根据最相似的候选网页,确定待处理网页的事件,包括:当最相似的候选网页与待处理网页的相似度小于最小相似阈值时,新增待处理网页的事件。
当最相似的候选网页与待处理网页的相似度小于最小相似阈值时,则认定该最相似的候选网页与该待处理网页描述的事件是不同的事件,因此,可以新增一个事件,作为待处理网页的事件。如此,根据最相似的候选网页,确定待处理网页的事件。
在其中一实施例中,获取待处理网页的关键词向量,包括:实时获取网页地址数据流中的待处理地址;提取待处理地址对应的待处理网页的关键词,形成关键词向量。
基于本实施例的热点事件发现方法,相较于通过离线方式获取网页地址数据流中的待处理地址,通过实时获取的方式获取网页地址数据流中的待处理地址,可以提高获取待处理网页的关键词向量的及时性,从而可以提高热点事件发现的及时性。
进一步地,提取待处理地址对应的待处理网页的关键词,形成关键词向量,包括:获取待处理地址对应的待处理网页的网页内容;提取网页内容的关键词,形成待处理网页的关键词向量。
可以根据待处理地址爬取待处理网页的网页内容,然后对该网页内容进行解析,从而提取该网页内容中的文本内容。进而,可以对该文本内容进行预处理,如分词、去除停止词等,然后进行关键词提取,找出最能代表网页文本的预设数量个数的关键词,预设数量可以为10。最后,将这些关键词组成关键词向量。如此,提取待处理地址对应的待处理网页的关键词,形成关键词向量。
在其中一实施例中,获取待处理网页的关键词向量,包括:获取待处理网页的网页内容;提取网页内容的关键词,形成待处理网页的关键词向量。
可以通过网络爬虫工具爬取待处理网页的网页内容,然后对该网页内容进行解析,从而提取该网页内容中的文本内容。进而,可以对该文本内容进行预处理,如分词、去除停止词等,然后进行关键词提取,找出最能代表网页文本的预设数量个数的关键词,预设数量可以为10。最后,将这些关键词组成关键词向量。如此,获取待处理网页的关键词向量。
在其中一具体实施例中,如图3所示,热点事件发现方法,包括:实时获取网页地址数据流中的待处理地址;获取待处理地址对应的待处理网页的网页内容;提取网页内容的关键词,形成待处理网页的关键词向量;基于局部敏感哈希(LSH)算法,根据已处理网页的关键词向量与待处理网页的关键词向量,确定候选网页,候选网页包括与待处理网页存在相似性的已处理网页;根据待处理网页与候选网页的相似度,确定与待处理网页最相似的候选网页;通过事件聚类模块根据最相似的候选网页,确定待处理网页的事件;当事件中的网页满足数量条件时,根据事件确定发现结果;当事件中的不网页满足数量条件时,若事件中的网页满足时间条件,则删除事件。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种运行于图1中的终端102的热点事件发现装置,包括:
关键向量获取模块402,用于获取待处理网页的关键词向量,所述待处理网页包括网页地址数据流中的待处理地址对应的网页;
候选网页确定模块404,用于根据已处理网页的关键词向量与所述待处理网页的关键词向量,确定候选网页,所述候选网页包括与所述待处理网页存在相似性的所述已处理网页;
事件确定模块406,用于根据所述待处理网页与所述候选网页的相似度,确定所述待处理网页的事件;
发现结果确定模块408,用于当所述事件中的网页满足数量条件时,根据所述事件确定发现结果。
在其中一实施例中,候选网页确定模块404,包括:
已处理矩阵单元,用于根据已处理网页的关键词向量,生成已处理签名矩阵;
待处理矩阵单元,用于根据所述待处理网页的关键词向量,生成待处理签名矩阵;
候选网页确定单元,用于根据所述已处理签名矩阵及所述待处理签名矩阵,从所述已处理网页中筛选与所述待处理网页存在相似性的候选网页。
在其中一实施例中,所述已处理签名矩阵包括至少1个第一行条,各所述第一行条包括至少1个第一列向量;所述待处理签名矩阵包括至少1个第二行条,各所述第二行条包括至少1个第二列向量;
所述候选网页确定单元,用于当存在与任一所述第一列向量具有相同映射结果的所述第二列向量时,根据所述已处理签名矩阵对应的所述已处理网页,确定候选网页。
在其中一实施例中,所述已处理签名矩阵或/及所述待处理签名矩阵为最小哈希签名矩阵。
在其中一实施例中,所述装置,还包括:
事件删除模块,用于当所述事件中的网页不满足所述数量条件时,若所述事件中的网页满足时间条件,则删除所述事件。
在其中一实施例中,所述事件删除模块,用于当所述事件中的网页不满足所述数量条件时,若所述事件中最近加入的网页的加入时间,与当前时间的时间间隔大于噪音间隔阈值,则删除所述事件。
在其中一实施例中,所述事件删除模块,用于当所述事件中的网页不满足所述数量条件时,若所述事件中最近加入的网页的加入时间满足时间条件,且所述事件中的网页数量小于删除阈值,则删除所述事件。
在其中一实施例中,所述装置,还包括最相似网页确定模块;
最相似网页确定模块,用于根据所述待处理网页与所述候选网页的相似度,确定与所述待处理网页最相似的所述候选网页;
事件确定模块406,用于根据所述最相似的所述候选网页,确定所述待处理网页的事件。
在其中一实施例中,事件确定模块406,用于当所述最相似的所述候选网页与所述待处理网页的相似度大于或等于最小相似阈值时,将最相似的所述候选网页的事件,确定为所述待处理网页的事件。
在其中一实施例中,事件确定模块406,用于当所述最相似的所述候选网页与所述待处理网页的相似度小于最小相似阈值时,新增所述待处理网页的事件。
在其中一实施例中,关键向量获取模块402,包括:
地址获取单元,用于实时获取网页地址数据流中的待处理地址;
向量形成单元,用于提取所述待处理地址对应的待处理网页的关键词,形成关键词向量。
在其中一实施例中,关键向量获取模块402,包括:
内容获取单元,用于获取所述待处理网页的网页内容;
向量形成单元,用于提取所述网页内容的关键词,形成所述待处理网页的关键词向量。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种热点事件发现方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在其中一实施例中,提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述热点事件发现方法的步骤。
在其中一实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述热点事件发现方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (14)

1.一种热点事件发现方法,所述方法包括:
获取待处理网页的关键词向量,所述待处理网页包括网页地址数据流中的待处理地址对应的网页;
根据已处理网页的关键词向量与所述待处理网页的关键词向量,确定候选网页,所述候选网页包括与所述待处理网页存在相似性的所述已处理网页;
根据所述待处理网页与所述候选网页的相似度,确定所述待处理网页的事件;
当所述事件中的网页满足数量条件时,根据所述事件确定发现结果。
2.根据权利要求1所述的方法,其特征在于,所述根据已处理网页的关键词向量与所述待处理网页的关键词向量,确定候选网页,包括:
根据已处理网页的关键词向量,生成已处理签名矩阵;
根据所述待处理网页的关键词向量,生成待处理签名矩阵;
根据所述已处理签名矩阵及所述待处理签名矩阵,从所述已处理网页中筛选与所述待处理网页存在相似性的候选网页。
3.根据权利要求2所述的方法,其特征在于:
所述已处理签名矩阵包括至少1个第一行条,各所述第一行条包括至少1个第一列向量;所述待处理签名矩阵包括至少1个第二行条,各所述第二行条包括至少1个第二列向量;
所述根据所述已处理签名矩阵及所述待处理签名矩阵,确定候选网页,包括:当存在与任一所述第一列向量具有相同映射结果的所述第二列向量时,根据所述已处理签名矩阵对应的所述已处理网页,确定候选网页。
4.根据权利要求2所述的方法,其特征在于,所述已处理签名矩阵或/及所述待处理签名矩阵为最小哈希签名矩阵。
5.根据权利要求1所述的方法,其特征在于,所述根据所述待处理网页与所述候选网页的相似度,确定所述待处理网页的事件,之后还包括:
当所述事件中的网页不满足所述数量条件时,
若所述事件中的网页满足时间条件,则删除所述事件。
6.根据权利要求5所述的方法,其特征在于,所述若所述事件中的网页满足时间条件,则删除所述事件,包括:
若所述事件中最近加入的网页的加入时间,与当前时间的时间间隔大于噪音间隔阈值,则删除所述事件。
7.根据权利要求5所述的方法,其特征在于,所述若所述事件中的网页满足时间条件,则删除所述事件,包括:
若所述事件中最近加入的网页的加入时间满足时间条件,且所述事件中的网页数量小于删除阈值,则删除所述事件。
8.根据权利要求1所述的方法,其特征在于,所述根据所述待处理网页与所述候选网页的相似度,确定所述待处理网页的事件,包括:
根据所述待处理网页与所述候选网页的相似度,确定与所述待处理网页最相似的所述候选网页;
根据所述最相似的所述候选网页,确定所述待处理网页的事件。
9.根据权利要求8所述的方法,其特征在于,所述根据所述最相似的所述候选网页,确定所述待处理网页的事件,包括:
当所述最相似的所述候选网页与所述待处理网页的相似度大于或等于最小相似阈值时,将最相似的所述候选网页的事件,确定为所述待处理网页的事件。
10.根据权利要求8所述的方法,其特征在于,所述根据所述最相似的所述候选网页,确定所述待处理网页的事件,包括:
当所述最相似的所述候选网页与所述待处理网页的相似度小于最小相似阈值时,新增所述待处理网页的事件。
11.根据权利要求1所述的方法,其特征在于,所述获取待处理网页的关键词向量,包括:
实时获取网页地址数据流中的待处理地址;
提取所述待处理地址对应的待处理网页的关键词,形成关键词向量。
12.一种热点事件发现装置,所述装置包括:
关键向量获取模块,用于获取待处理网页的关键词向量,所述待处理网页包括网页地址数据流中的待处理地址对应的网页;
候选网页确定模块,用于根据已处理网页的关键词向量与所述待处理网页的关键词向量,确定候选网页,所述候选网页包括与所述待处理网页存在相似性的所述已处理网页;
事件确定模块,用于根据所述待处理网页与所述候选网页的相似度,确定所述待处理网页的事件;
发现结果确定模块,用于当所述事件中的网页满足数量条件时,根据所述事件确定发现结果。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
CN201811246478.7A 2018-10-24 2018-10-24 热点事件发现方法、装置、计算机设备和存储介质 Active CN109460500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811246478.7A CN109460500B (zh) 2018-10-24 2018-10-24 热点事件发现方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811246478.7A CN109460500B (zh) 2018-10-24 2018-10-24 热点事件发现方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109460500A true CN109460500A (zh) 2019-03-12
CN109460500B CN109460500B (zh) 2020-07-03

Family

ID=65608317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811246478.7A Active CN109460500B (zh) 2018-10-24 2018-10-24 热点事件发现方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109460500B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127766A (zh) * 2019-12-31 2021-07-16 飞书数字科技(上海)有限公司 广告兴趣词的获取方法、装置、存储介质和处理器
CN114911939A (zh) * 2022-05-24 2022-08-16 腾讯科技(深圳)有限公司 热点挖掘方法、装置、电子设备、存储介质及程序产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714132A (zh) * 2013-12-17 2014-04-09 北京本果信息技术有限公司 一种用于基于地域和行业进行热点事件挖掘的方法和设备
CN104778234A (zh) * 2015-03-31 2015-07-15 南京邮电大学 基于局部敏感哈希技术的多标记文件近邻查询方法
CN104866471A (zh) * 2015-06-05 2015-08-26 南开大学 一种基于局部敏感哈希策略的实例匹配方法
CN105279272A (zh) * 2015-10-30 2016-01-27 南京未来网络产业创新有限公司 一种基于分布式网络爬虫的内容聚合方法
US9351116B2 (en) * 2013-05-30 2016-05-24 Hong Kong Baptist University System and method for providing proximity information
CN106202530A (zh) * 2016-07-22 2016-12-07 北京邮电大学 数据处理方法及装置
CN107784010A (zh) * 2016-08-29 2018-03-09 上海掌门科技有限公司 一种用于确定新闻主题的热度信息的方法与设备
CN108595517A (zh) * 2018-03-26 2018-09-28 南京邮电大学 一种大规模文档相似性检测方法
CN108629693A (zh) * 2018-05-08 2018-10-09 平安科技(深圳)有限公司 自动生成投资建议的方法、装置、计算机设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9351116B2 (en) * 2013-05-30 2016-05-24 Hong Kong Baptist University System and method for providing proximity information
CN103714132A (zh) * 2013-12-17 2014-04-09 北京本果信息技术有限公司 一种用于基于地域和行业进行热点事件挖掘的方法和设备
CN104778234A (zh) * 2015-03-31 2015-07-15 南京邮电大学 基于局部敏感哈希技术的多标记文件近邻查询方法
CN104866471A (zh) * 2015-06-05 2015-08-26 南开大学 一种基于局部敏感哈希策略的实例匹配方法
CN105279272A (zh) * 2015-10-30 2016-01-27 南京未来网络产业创新有限公司 一种基于分布式网络爬虫的内容聚合方法
CN106202530A (zh) * 2016-07-22 2016-12-07 北京邮电大学 数据处理方法及装置
CN107784010A (zh) * 2016-08-29 2018-03-09 上海掌门科技有限公司 一种用于确定新闻主题的热度信息的方法与设备
CN108595517A (zh) * 2018-03-26 2018-09-28 南京邮电大学 一种大规模文档相似性检测方法
CN108629693A (zh) * 2018-05-08 2018-10-09 平安科技(深圳)有限公司 自动生成投资建议的方法、装置、计算机设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127766A (zh) * 2019-12-31 2021-07-16 飞书数字科技(上海)有限公司 广告兴趣词的获取方法、装置、存储介质和处理器
CN113127766B (zh) * 2019-12-31 2023-04-14 飞书数字科技(上海)有限公司 广告兴趣词的获取方法、装置、存储介质和处理器
CN114911939A (zh) * 2022-05-24 2022-08-16 腾讯科技(深圳)有限公司 热点挖掘方法、装置、电子设备、存储介质及程序产品
CN114911939B (zh) * 2022-05-24 2024-08-02 腾讯科技(深圳)有限公司 热点挖掘方法、装置、电子设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN109460500B (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
Quick et al. Big forensic data reduction: digital forensic images and electronic evidence
CN106383887B (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
US8862566B2 (en) Systems and methods for intelligent parallel searching
JP5697172B2 (ja) 情報ストリームの情報を処理する方法およびシステム
US20160188723A1 (en) Cloud website recommendation method and system based on terminal access statistics, and related device
US20140207820A1 (en) Method for parallel mining of temporal relations in large event file
JP2012533819A (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
CN113407785B (zh) 一种基于分布式储存系统的数据处理方法和系统
CN105302876A (zh) 基于正则表达式的url过滤方法
CN112434158A (zh) 一种企业标签的获取方法、获取装置、存储介质和计算机设备
CN109460500A (zh) 热点事件发现方法、装置、计算机设备和存储介质
JP2008269069A (ja) 情報処理システム及び情報処理方法
Tan et al. -Based Extraction of News Contents for Text Mining
Khodaei et al. Temporal-textual retrieval: Time and keyword search in web documents
Sachdev et al. A new framework for securing, extracting and analyzing big forensic data
Yin et al. Content‐Based Image Retrial Based on Hadoop
CN108182255B (zh) 产权项目信息推荐方法、装置、存储介质和计算机设备
Xie et al. Design and implementation of the topic-focused crawler based on Scrapy
CN116521729A (zh) 一种基于Elasticsearch的信息分类搜索方法及装置
CN103902687B (zh) 一种搜索结果的生成方法及装置
JP6727097B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN110955855A (zh) 一种信息拦截的方法、装置及终端
CN106776654B (zh) 一种数据搜索方法及装置
Baldauf et al. Getting context on the go: mobile urban exploration with ambient tag clouds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant