CN110232126A - 热点挖掘方法及服务器和计算机可读存储介质 - Google Patents

热点挖掘方法及服务器和计算机可读存储介质 Download PDF

Info

Publication number
CN110232126A
CN110232126A CN201910517806.0A CN201910517806A CN110232126A CN 110232126 A CN110232126 A CN 110232126A CN 201910517806 A CN201910517806 A CN 201910517806A CN 110232126 A CN110232126 A CN 110232126A
Authority
CN
China
Prior art keywords
document
cluster
hot spot
item set
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910517806.0A
Other languages
English (en)
Other versions
CN110232126B (zh
Inventor
唐柯
吕磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910517806.0A priority Critical patent/CN110232126B/zh
Publication of CN110232126A publication Critical patent/CN110232126A/zh
Application granted granted Critical
Publication of CN110232126B publication Critical patent/CN110232126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种热点挖掘方法及一种服务器和计算机可读存储介质,该方法包括:获取当前时间周期的原始文档集;利用所述原始文档集生成频繁项集和每个所述频繁项集对应的文档簇;基于所述文档簇之间的相似性进行文档簇聚类,得到目标文档簇;根据所述目标文档簇确定热点信息。本申请提供的热点挖掘方法,通过构建频繁项集,过滤掉大量未包含频繁项集的文档,这些文档一般都不是热点相关文档,为后续层次聚类节省时间开销,提高了热点挖掘效率。

Description

热点挖掘方法及服务器和计算机可读存储介质
技术领域
本申请涉及热点挖掘技术领域,更具体地说,涉及热点挖掘方法及服务器和计算机可读存储介质。
背景技术
互联网时代,人们获取信息越来越便利。在开放的资讯上,人们通过浏览门户网站、订阅公众号、或者使用新闻类APP(中文全称:手机软件,英文全称:Application)获取信息。但是信息获取变得便利的同时,也造成了信息爆炸的弊端。所以,对于海量资讯新闻进行热点挖掘可以极大地减轻人们获取资讯的负担,使人们可以更快的了解和掌握当前发生的热点事件。
在相关技术中,首先对原始文档进行特征抽取,包括分词,去停用词,区分人名机构等实体词。然后进行文档表示,可以使用词袋集合、tf-idf(中文全称:词频-逆文本频率指数,英文全称:term frequency-inverse document frequency)向量和语义向量等。最后进行层次聚类,初始每个文档组成一个簇,不断迭代选择最相似的两个簇合并,直到小于最低相似阈值得到最终的文档簇,可以根据该文档簇生成热点。
由于标准层次聚类的时间复杂度为O(N2 lg N),N为文档数量,导致了上述热点挖掘方法效率较低。因此,如何提高热点挖掘效率是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种热点挖掘方法、装置及一种服务器和一种计算机可读存储介质,提高了热点挖掘效率。
为实现上述目的,本申请第一方面提供了一种热点挖掘方法,包括:
获取当前时间周期的原始文档集;
利用所述原始文档集生成频繁项集和每个所述频繁项集对应的文档簇;
按照预设标准筛选所述频繁项集,得到目标频繁项集;
基于所述目标频繁项集对应的文档簇之间的文档标识相似性,和/或文档标题相似性,和/或文档内容相似性进行文档簇聚类,得到目标文档簇;
根据所述目标文档簇确定热点信息。
结合本申请第一方面的第一种实施方式,在本申请第一方面的第一种实施方式中,所述按照预设标准筛选所述频繁项集,得到目标频繁项集,包括:
选取包括实体词和非实体词的频繁项集作为候选频繁项集,将相关性大于第二预设值的候选频繁项集确定为所述目标频繁项集;其中,所述相关性为每个所述实体词与每个所述非实体词之间的相关性的平均值;
和/或,利用停用频繁项集过滤所有所述频繁项集,得到所述目标频繁项集;其中,所述停用频繁项集为持续时间周期数大于第三预设值的频繁项集。
结合本申请第一方面、本申请第一方面的第一种实施方式,在本申请第一方面的第二种实施方式中,所述基于所述目标频繁项集对应的文档簇之间的文档标识相似性,和/或文档标题相似性,和/或文档内容相似性进行文档簇聚类,得到目标文档簇,包括:
基于所述目标频繁项集对应的文档簇之间的所述文档标识相似性进行文档簇聚类,得到候选文档簇;
基于所述候选文档簇之间的候选文档标题相似性进行文档簇聚类,得到所述目标文档簇;其中,所述候选文档标题相似性为不同候选文档簇中候选文档标题之间的相似性,每一所述候选文档标题对应的文档数量不小于每一非候选文档标题对应的文档数量。
为实现上述目的,本申请第二方面提供了一种热点挖掘装置,包括:
获取模块,用于获取当前时间周期的原始文档集;
生成模块,用于利用所述原始文档集生成频繁项集和每个所述频繁项集对应的文档簇;
筛选模块,用于按照预设标准筛选所述频繁项集,得到目标频繁项集;
聚类模块,用于基于所述目标频繁项集对应的文档簇之间的文档标识相似性,和/或文档标题相似性,和/或文档内容相似性进行文档簇聚类,得到目标文档簇;
确定模块,用于根据所述目标文档簇确定热点信息。
为实现上述目的,本申请第三方面提供了一种服务器,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获取当前时间周期的原始文档集;
利用所述原始文档集生成频繁项集和每个所述频繁项集对应的文档簇;
按照预设标准筛选所述频繁项集,得到目标频繁项集;
基于所述目标频繁项集对应的文档簇之间的文档标识相似性,和/或文档标题相似性,和/或文档内容相似性进行文档簇聚类,得到目标文档簇;
根据所述目标文档簇确定热点信息。
为实现上述目的,本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述热点挖掘方法的步骤。
通过以上方案可知,本申请提供的一种热点挖掘方法,包括:获取当前时间周期的原始文档集;利用所述原始文档集生成频繁项集和每个所述频繁项集对应的文档簇;按照预设标准筛选所述频繁项集,得到目标频繁项集;基于所述目标频繁项集对应的文档簇之间的文档标识相似性,和/或文档标题相似性,和/或文档内容相似性进行文档簇聚类,得到目标文档簇;根据所述目标文档簇确定热点信息。
频繁项集为支持度大于最小支持度阈值的项集,即频繁项集中的关键词更有可能组成一个热点,频繁项集对应的文档簇中的文档为支持该频繁项集的文档,这些文档更有可能为热点相关文档。因此,本申请提供的热点挖掘方法,通过构建频繁项集,过滤掉大量未包含频繁项集的文档,这些文档一般都不是热点相关文档,为后续层次聚类节省时间开销,提高了热点挖掘效率。同时,由于挖掘到的原始频繁项集并不一定能够构成热点,因此本申请在文档簇聚类之前,对原始频繁项集进行筛选,可以提高热点挖掘的准确度。另外,对频繁项集进行筛选,相当于对其对应的文档簇进行筛选,减少了文档簇聚类的初始文档簇数量,进一步提高了热点挖掘效率。本申请还公开了一种热点挖掘装置及一种服务器和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为本申请实施例提供的一种热点挖掘系统的架构图;
图2为本申请实施例提供的第一种热点挖掘方法的流程图;
图3为一种生成频繁项集的过程图;
图4为一种筛选频繁二项集的过程图;
图5为本申请实施例提供的第二种热点挖掘方法的流程图;
图6为本申请实施例提供的第三种热点挖掘方法的流程图;
图7为在一种应用场景中热点信息的展示图;
图8为在另一种应用场景中热点信息的展示图;
图9为本申请实施例提供的一种热点挖掘装置的结构图;
图10为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解本申请提供的热点挖掘方法,下面对其使用的系统进行介绍。参见图1,其示出了本申请实施例提供的一种热点挖掘系统的架构图,如图1所示,包括服务器10、新闻发布源20和终端30,服务器10与新闻发布源20之间、服务器10与终端30之间通过网络40通信连接。
其中,此处不限定新闻发布源的数量,即新闻发布源20可以包括多个新闻发布源,每个新闻发布源可以理解为一个新闻网站,如搜狐新闻、新华网等,也可以为如微信公众号、微博等资讯媒体。每个新闻发布源都会发布其所维护的文档,新闻网站对应的文档即为新闻,微信公众号对应的文档即为公众号文章,微博对应的文档即为博文,这些文档在后续实施例中统一称为原始文档,其组成的文档集合成为原始文档集。
服务器10通过网络40从新闻发布源20中获取原始文档集,原始文档集中包括多个原始文档,由于每个新闻发布源所发布的原始文档可以相同,也可以不同,相同新闻发布源也可能发布相似的原始文档,因此服务器10需要对获取到的原始文档进行聚类,聚类结果为文档簇,每个文档簇为多篇原始文档的集合。一个文档簇即为一个热点,根据该文档簇中的文档可以生成热点信息,可以通过网络40传输至终端30进行展示。
本申请的申请人经研究发现:由于原始文档的数量众多,导致文档聚类的过程耗时较长,造成热点挖掘效率较低。因此,为了减少文档聚类的初始文档的数量,服务器10通过构建频繁项集,过滤掉大量未包含频繁项集的文档,即与热点无关的文档,后续聚类时直接对频繁项集对应的文档簇进行聚类,相当于减少了层次聚类的初始文档簇数量,节省了聚类的时间开销,提高了热点挖掘效率。
终端30可以为如手机等移动终端或如PC(中文全称:个人计算机,英文全称:personal computer)端等固定终端,其上安装有与新闻相关的应用或网站。终端30会展示当前更新周期的热点信息,用户可以点击任意一热点浏览与该热点相关的文档,当用户选择一文档时,服务器10会向该文档对应的新闻发布源发起请求,新闻发布源响应后,在终端30上显示该文档。
本申请实施例公开了一种热点挖掘方法,提高了热点挖掘效率。
参见图2,本申请实施例提供的第一种热点挖掘方法的流程图,如图2所示,包括:
S101:服务器从新闻发布源获取当前时间周期的原始文档集;
在具体实施中,服务器从新闻发布源获取原始文档集,对原始文档集中的原始文档进行预处理,以便后续步骤进行文档聚类。预处理可以包括分词、去停用词、实体识别等,具体可以采用汉语词法分析系统进行分词、词性标注等,采用角色模型的方法进行包括人名、机构名和地名等的实体识别。在分词和实体识别后,过滤对计算机理解文本无用的停用词,保留名词、动词、名形词、动形词等词性的词,得到关键词集。
本步骤的时间周期为热点的更新周期,可以根据需求设置为一天、一小时等,当然也可以由用户进行手动触发,在此不进行具体限定。具体的,对于新闻网站,可以设置“今日热点”、“一周热点”、“一月热点”的页面,其对应的时间周期分别为一天、一周和一月。对于实时性较高的微博,可以由用户进行手动触发,当用户点击更新按钮时触发本步骤,服务器获取上一次更新时刻至此刻的原始文档集进行热点挖掘。
S102:服务器利用所述原始文档集生成频繁项集和每个所述频繁项集对应的文档簇;
在本步骤中,服务器根据上一步骤得到的关键词集构建频繁项集,并根据获取到的原始文档生成频繁项集对应的文档簇。需要说明的是,k项集为包括k个关键词的项集,频繁项集为支持度大于或等于最小支持度阈值的项集,支持度定义了该项集在所有事务中出现的频率,此处可以使用项集对应的文档簇中的文档数量作为该项集的支持度。可以理解的是,由于频繁项集的支持度大于或等于最小支持度,因此频繁项集中的关键词更有可能表示一个热点,其对应的文档簇中的文档更有可能为热点相关文档,通过构建频繁项集,可以过滤掉大量与热点无关的文档,相当于减少了文档聚类的初始文档数量,后续直接对频繁项集对应的文档簇进行聚类,进而节省了时间开销。
在具体实施中,可以采用Apriori算法、FP-Growth算法或Eclat算法等构建频繁项集。Apriori算法需要多次扫描所有的原始文档,FP-Growth算法通过模式增长挖掘频繁模式,主要步骤包括:构建频繁模式树、构造条件模式基、挖掘频繁模式,需要两次扫描原始文档,采用分治的策略有效降低搜索开销。Eclat算法使用垂直格式挖掘频繁项集,仅需要扫描一次原始文档,并且该算法引入倒排机制,建立了频繁项集与文档簇的索引,有利于后续基于文档簇的文档标识相似性进行文档簇聚类。
Eclat算法的主要流程为:将原始文档以标识信息进行倒排,通过求k项集的交集来获取k+1项集。即本步骤可以包括:根据所述原始文档构建一项集,并生成每个所述一项集对应的文档簇;对每两个k项集进行交集运算得到k+1项集,并生成每个所述k项集对应的文档簇;其中,所述k项集包括k 个关键词;将满足第一预设条件和第二预设条件的k项集确定为所述频繁项集;其中,所述第一预设条件为所述k项集中关键词数量在预设范围内,所述第二预设条件为所述k项集的支持度大于或等于第一预设值。
例如,如图3所示,图中tid为文档标识,item为关键词,fred为项集的支持度,原始文档集包括4篇文档,共包括A、B和C三个关键词。首先构建一项集,即仅包含一个关键词的项集,分别为包含关键词A、B和C的项集,并生成每个一项集对应的文档簇,例如包含关键词为A的项集其对应文档簇中包括id为1、3和4的文档,其支持度为3。取任两个一项集的交集、取任两个一项集对应的文档簇的交集,得到二项集和二项集对应的文档簇,对任两个二项集、任两个二项集对应的文档簇进行交集运算,得到三项集和三项集对应的文档簇,依次类推可以得到k项集和其对应的文档簇。在具体实施中,项集中的关键词可以按顺序排列,方便通过比较前缀从k项集生成 k+1项集,文档簇中的文档也可以按照文档标识进行排序,方便文档簇之间的交集运算。
在选取频繁项集时,可以将其包含的关键词数量限制在预设范围内,即限定k在预设范围内,例如,可以设置k为2或3,由于一个关键词一般无法表示一个热点,而在实际情况中两到三个关键词可以表示一个热点。对于包含关键词数量较多的项集,如四项集、五项集等,由于其包含的关键词数量较多,导致同时包含这些关键词的文档数量较少,即该项集的支持度较低,在进行支持度筛选时,会将这些四项集、五项集甚至k值更大的项集过滤掉,即使没有因支持度较小而被过滤掉,由于对应的文档簇中的文档需要包含所有的关键词,根据文档数量确定热点热度不够准确,影响最终的热点挖掘准确度。因此,为了提高频繁项集的生成效率和热点挖掘的准确度,可以直接不生成k值过大的项集,仅生成关键词数量在预设范围内的项集。另外,频繁项集还需满足支持度大于或等于第一预设值,即上文描述的最小支持度阈值。
例如,将第一预设值设置为2,则图3中fred大于或等于2的项集都为频繁项集,包括(A)、(B)、(C)、(A,B)、(A,C)、(B,C)。在实际处理中,原始文档集中的原始文档数量从几万到几十万不等,决定频繁项集挖掘效率的关键是第一预设值的取值,一般选择范围为10至30之间。可以理解的是,本实施例针对数据模型具有很好的扩展性,可以通过提高第一阈值的方式扩大过滤效果,只保留热点相关文档,相当于减少后续待聚类的文档簇数量,从而可以处理大规模的数据量。
S103:服务器按照预设标准筛选所述频繁项集,得到目标频繁项集;
需要说明的是,由于并不是所有挖掘的频繁项集都能表征一个热点事件,例如(季度,财报,美元),(人名A,人名B)等,因此为了提高热点挖掘的准确度,可以对上一步骤中的频繁项集进行筛选,同时减少其对应的待聚类的文档簇的数量,提高文档簇聚类效率和热点挖掘的准确度。
在一种实施方式中,本步骤可以包括选取包括实体词和非实体词的频繁项集作为候选频繁项集,将相关性大于第二预设值的候选频繁项集确定为所述目标频繁项集;其中,所述相关性为每个所述实体词与每个所述非实体词之间的相关性的平均值。对于包含关键词较少的频繁项集,如频繁二项集,由于其表征的范围较宽泛,可以仅选取包含实体词和非实体词的频繁项集,并计算其中实体词与非实体词的相关性,过滤掉相关性小于第二预设值的频繁项集。此处的相关性可以为每个实体词与每个非实体词之间的所有相关性的平均值,对于频繁二项集,即为其中的实体词和非实体词之间的相关性。
对于一实体词与一非实体词之间的相关性,可以采用卡方测试或互信息等统计方法,在此不进行具体限定。两个关键词互信息的计算公式如下:
其中,w1和w2分别表示两个关键词,在本实施例中分别代表实体词和非实体词,PMI(w1,w2)为关键词w1与关键词w2的互信息,P(w1w2)为关键词w1和关键词w2共同出现的概率,P(w1)为关键词w1单独出现的概率,P(w2)为关键词w2单独出现的概率。在实际应用中,互信息的阈值即上述的第二预设值,可以设置为4至5之间。
例如,如图4所示,第一步通过实体+非实体策略过滤掉了频繁二项集(公司A,人名B)、(人名A,人名B)、(机场,现身)、(花儿,少年),第二步通过互信息策略过滤了互信息值较低的频繁二项集(人名B,一天) 和(公司B,推出)。
在另一种实施方式中,本步骤可以包括利用停用频繁项集过滤所有所述频繁项集,得到所述目标频繁项集;其中,所述停用频繁项集为持续时间周期数大于第三预设值的频繁项集。对于包含关键词较多的频繁项集,如频繁三项集,由于表征的范围更加具体,但还存在少量不能表征热点事件的情况。可以从大规模历史热点数据中挖掘停用频繁项集,此处的热点数据可以包括上一实施例描述的热点信息和热点相关文档等。在具体实施中,可以复用已有的构建频繁项集的流程,从历史热点数据中挖掘频繁项集,将持续时间周期数大于第三预设值的频繁项集作为停用频繁项集。以频繁三项集、时间周期为一天为例,若表1为根据历史热点数据挖掘到的频繁三项集,若将第三预设值设置为20,则在表1中共挖掘到5个停用频繁三项集。
表1
频繁三项集 持续天数
街头 现身 网友 30
人名A 人名B 女星 29
美味 做法 简单 27
娱乐圈 明星 网友 26
机场 粉丝 现身 24
热议 引发 网友 18
散户 股市 中国 17
事故 交通 发生 15
需要说明的是,对于频繁项集,可以单独使用上述任一种筛选方式,也可以同时使用上述两种筛选方式,且不限定各筛选方式的执行顺序。
S104:基于所述目标频繁项集对应的文档簇之间的文档标识相似性,和/ 或文档标题相似性,和/或文档内容相似性进行文档簇聚类,得到目标文档簇;
可以理解的是,同一篇文档可以被多个频繁项集覆盖。如果将每个频繁项集对应的文档簇看作一个热点的话,会有大量重复。例如,对于热点“公司A与公司B电信合作”涉及的关键词为:公司A、公司B、电信、合作,可以构成多个频繁项集,对应多个文档簇,即对应多个热点,因此,需要对当前的文档簇进行聚类。
在本步骤中,服务器将筛选后的目标频繁项集对应的文档簇作为待聚类的文档簇,基于文档簇之间的相似性进行文档簇聚类,得到目标文档簇,每个目标文档簇对应一个热点。由于在上一步骤的筛选过程进一步减少了频繁项集的数量,相当于减少了文档簇聚类的初始文档簇数量,提高了本步骤的文档簇聚类效率。
可以理解的是,文档簇是由多篇文档聚合而成,因此文档簇之间的相似性可以在文档间相似性的基础上进行。对于文档间相似性的度量方式可以采用两个文档之间的文档内容相似性,也可以采用两个文档之间的文档标题相似性。在具体计算过程中,可以使用分词词袋、tf-idf向量或语义向量对文档内容或文档标识进行表示,计算分词词袋的Jaccard相似性、tf-idf向量或语义向量的余弦相似性确定两个文档之间的文档内容相似性或文档标题相似性,在此不进行具体限定。对于文档标题这类的短文本,优选为分词词袋的Jaccard 相似性。
在此基础上,文档簇之间的相似性可以采用下面四种度量方式:
(1)任意取自两个文档簇的两篇文档的最大相似性;
(2)任意取自两个文档簇的两篇文档的最小相似性;
(3)任意取自两个文档簇的两篇文档的两两文档相似性的平均值;
(4)两个文档簇中任意两篇文档的相似性的平均值,与(3)不同的是还包括同一文档簇中文档之间的相似性。
上述的“最大相似性”、“最小相似性”和“相似性的平均值”中的相似性可以包括上文描述的文档内容相似性和文档标题相似性。对于(3),计算公式如下:
其中,C1、C2分别表示两个文档簇,Sim1(C1,C2)为文档簇C1和文档簇C2之间的相似性,d1为文档簇C1中的文档,d2为文档簇C2中的文档,Sim(d1,d2) 为文档d1和文档d2之间的文档标题相似性或文档内容相似性。
另外,对于文档簇之间的相似性,还可以通过文档标识相似性进行度量。为原始文档集中的各文档分配文档标识,每个文档簇可以视为多个文档标识的集合,如图3中的tids。当然,本领域技术人员还可以选择其他度量方式,在此不进行限定。
基于上述文档簇之间的相似性度量方式,不断迭代选择最相似,即相似性最大的两个文档簇进行合并,直到不存在相似性大于设定阈值的两个文档簇,完成文档簇聚类。在具体实施中,为了提高文档簇的聚类效率,可以采用单路径层次聚类的方式,即按顺序处理各文档簇。将第一个文档簇作为已处理的文档簇,后续文档簇与已处理的文档簇进行相似性计算,大于设定阈值则进行合并,否则将其作为已处理的文档簇,直到最后一个文档簇处理完成即完成文档簇聚类。
需要说明的是,对于上述介绍的度量方式,可以依据任意单一的度量方式进行文档簇聚类,为了提高热点挖掘的准确度,也可以依据多个度量方式进行多次文档簇聚类。
S105:服务器根据所述目标文档簇确定热点信息;
可以理解的是,对于聚类后的目标文档簇,一个目标文档簇可以表征一个热点,服务器根据目标文档簇中的文档可以确定热点信息。本实施例不对热点信息的具体内容进行限定,例如可以包括热点标题和热点热度,还可以结合NLP(中文全称:自然语言处理,英文全称:Natural Language Processing) 技术提取包括关键词、热点摘要和相关实体等热点信息,此处也直接将目标文档簇对应的频繁项集中的关键词作为热点的关键词。
对于热点标题,在一种实施方式中,本步骤可以包括选取所述目标文档簇中的目标文档,将所述目标文档的文档标题确定为所述目标文档簇对应的热点标题。在具体实施中,可以在目标文档簇中任选一文档作为目标文档,也可以将权重值最高的文档作为目标文档,即选取所述目标文档簇中的目标文档的步骤可以包括确定所述目标文档簇中所有文档的权重值,并选取所述权重值最高的文档为所述目标文档。具体的,影响文档的权重值的因素可以包括文档的点击率、发布时间、标题在文档簇中的出现次数等,即点击率越高的文档其对应的权重值越高,发布时间越近的的文档其对应的权重值越高,对应的标题在文档簇中的出现次数越高的文档其对应的权重值越高。也就是说,可以将点击率最高的文档的文档标题作为热点标题,或将发布时间最近的文档的文档标题作为热点标题,或将出现次数最多的标题作为热点标题,在此不进行具体限定。
优选的,还可以为上述每个影响因素分配权重系数,确定目标文档簇中所有文档的所有影响因素对应的权重值,根据每个影响因素对应的权重系数和权重值计算每个文档的加权值,将加权值最高的文档确定为目标文档。
例如,标题在文档簇中的出现次数对应的权重系数为0.5,点击率对应的权重系数为0.3,发布时间对应的权重系数为0.2。文档1的文档标题在文档簇中的出现次数为10,点击率为0.8,发布时间为距当前时刻1h,文档2的文档标题在文档簇中的出现次数为5,点击率为0.5,发布时间为距当前时刻 2h。首先根据该文档簇中文档标题出现次数的峰值对文档标题出现次数进行归一化处理,若文档标题出现次数的峰值为100,则文档1的文档标题出现次数的归一化结果为0.1,文档2的文档标题出现次数的归一化结果为0.05。再根据时间周期对发布时间进行归一化处理,若时间周期为1天,则文档1的发布时间的归一化结果为1/24,文档2的发布时间的归一化结果为1/12。综上所述,文档1的加权值为0.5×0.1+0.3×0.8+0.2×1/24=0.33,文档2的加权值为0.5×0.05+0.3×0.5+0.2×1/12=0.26。由此可见,文档1的加权值大于文档2 的加权值,按照上述方式选取加权值最高的文档作为目标文档。
在另一种实施方式中,本步骤可以包括根据所述目标文档簇对应的频繁项集中的关键词生成热点标题。在具体实施中,可以利用NLP技术将频繁项集中的关键词组成一句话,即利用频繁项集中的关键词自动生成热点标题。
对于热点热度,本步骤可以包括根据所述目标文档簇中的文档数量确定热点热度;其中,所述热点热度与所述文档数量呈正相关。在具体实施中,可以将目标文档簇中的文档数量直接作为热点热度,也可以将所有目标文档簇中的文档数量的峰值进行标准化处理,使热点热度的范围在0至100之间。
S106:服务器将所述热点信息发送至终端;
S107:终端展示所述热点信息。
在具体实施中,服务器将热点信息发送至终端,终端可以将其以热点榜单的形式展示在应用或网站的热点页面上。在热点页面中,可以显示热点的热点标题和热点热度,还可以根据热点热度进行分类,当某一热点的热点热度达到一阈值时,将其标为“热”,达到另一阈值时,将其标为显示“爆”。对于实时性较高的微博,可以将当前时间周期的热点挖掘几个与上一个时间周期的热点挖掘结果进行比较,将在当前时间周期新出现的热点标为“新”。
优选的,终端可以对当前周期内的热点按照其热点热度由高至低进行展示,还可以对所有热点进行分类,按照其类别分别展示,每一类别下的热点也可以按照其热点热度由高至低进行排序。每个热点展开时,显示该热点相关的文档和热点信息中的其他内容,如步骤S104中介绍的关键词、热点摘要等,其中,热点相关的文档即该热点对应的目标文档簇中的文档。
频繁项集为支持度大于最小支持度阈值的项集,即频繁项集中的关键词更有可能组成一个热点,频繁项集对应的文档簇中的文档为支持该频繁项集的文档,这些文档更有可能为热点相关文档。因此,本申请实施例提供的热点挖掘方法,通过构建频繁项集,过滤掉大量未包含频繁项集的文档,这些文档一般都不是热点相关文档,为后续层次聚类节省时间开销,提高了热点挖掘效率。同时,由于挖掘到的原始频繁项集并不一定能够构成热点,因此本申请实施例在文档簇聚类之前,对原始频繁项集进行筛选,可以提高热点挖掘的准确度。另外,对频繁项集进行筛选,相当于对其对应的文档簇进行筛选,减少了文档簇聚类的初始文档簇数量,进一步提高了热点挖掘效率。
本实施例将详细介绍一种文档簇聚类的过程,将以图1中的服务器10为执行主体进行说明,具体的,如图5所示,包括:
S201:获取当前时间周期的原始文档集;
S202:利用所述原始文档集生成频繁项集和每个所述频繁项集对应的文档簇;
S203:按照预设标准筛选所述频繁项集,得到目标频繁项集;
S204:基于所述目标频繁项集对应的文档簇之间的所述文档标识相似性进行文档簇聚类,得到候选文档簇;
在本实施例中,首先基于文档簇之间的文档标识相似性进行第一层次的文档簇聚类。在本步骤中,可以将一个文档簇视为文档标识的集合,文档簇聚类的度量标准为两个文档簇的文档标识的重合情况,即文档标识相似性。将文档标识相似性大于最小相似度阈值的文档簇进行合并。优选的,可以采用第一个实施例介绍的单路径层次聚类的策略,即将第一个文档簇作为已处理的文档簇,后续每个文档簇与已处理的文档簇计算文档标识相似性,大于最小相似度阈值则进行合并,否则作为已处理的文档簇。更为优选的,还可以采用贪心策略,每次对文档标识相似性最大的两个文档簇即最相似的文档簇进行合并,直到所有的文档簇之间的文档标识相似性均大于最小相似度阈值,不能合并为止。两个文档簇之间的文档标识相似性计算公式如下:
其中,C1、C2分别表示两个文档簇的文档标识的集合,Sim2(C1,C2)为文档簇C1和文档簇C2之间的文档标识相似性,该公式类似Jaccard相似度,不同在于分母不是并集的大小,而是较小一个集合的大小。在实际应用中,最小相似度阈值可以取0.5,也就是说两个集合重合的数据超过某个集合的一半时则表示相似文档簇,可以进行合并。由于直接通过文档标识的集合来计算两个文档簇之间的相似程度,该层聚类过程非常高效,可以大量减少文档簇的数目,从而减少下一层的计算量。
S205:基于所述候选文档簇之间的候选文档标题相似性进行文档簇聚类,得到所述目标文档簇;其中,所述候选文档标题相似性为不同候选文档簇中候选文档标题之间的相似性,每一所述候选文档标题对应的文档数量不小于每一非候选文档标题对应的文档数量;
在本步骤中,基于候选文档标题相似性进行第二层次的文档簇聚类。由于文档标题为短文本,且为当前时间周期的实时数据,热点在媒体间存在大量相似转载或报道,因此对于上一步骤聚类后的候选文档簇,可以基于候选文档簇之间的候选文档标题相似性进行文档簇聚类,相对于基于文档内容相似性进行文档簇聚类,聚类效率较高。
其中,在每个候选文档簇中,每个候选文档标题对应的文档数量大于或等于每个非候选文档标题对应的文档数量。在候选文档簇中选取候选文档标题的过程可以为:根据候选文档簇中每个文档标题对应的文档数量,将所述文档数量最多的M个文档标题确定为候选文档标题。
例如,一候选文档簇中包括10个文档标题,{标题1、标题2、…、标题 9、标题10},其对应的文档数量分别为{20、1、5、10、8、15、16、9、19、 6},即该候选文档簇中共包括109篇原始文档。若M为5,则选取对应的文档数量排名前5的文档标题作为候选文档标题,该候选文档簇中最终选取的候选文档标题为标题1、标题9、标题7、标题6和标题4。
也可以选取对应的文档数量达到阈值的文档标题作为候选文档标题,在上面举出的例子中,若阈值为15,则该候选文档簇最终选取的候选文档标题为标题1、标题9、标题7和标题6。
当然还可以选取对应的文档数量排名前m%的文档标题作为候选文档标题,在上面举出的例子中,若m%为20%,则该候选文档簇最终选取的候选文档标题数量为2个,即标题1和标题9。
确定每个候选文档簇中的候选文档标题后,基于候选文档标题相似性对候选文档簇进行文档簇的第二层次聚类。此处候选文档标题相似性可以为第一个实施例介绍的四种度量方式的任一种,优选为(3),即计算任意取自两个候选文档簇的两个候选文档标题的两两文档标题相似性的平均值,将平均值大于最小相似度阈值的两个候选文档簇进行合并,此处同样可以采用单路径层次聚类的策略,在此不再赘述。
S305:根据所述目标文档簇确定热点信息。
由此可见,在本实施例中,首先通过文档标识集合进行第一层次的文档簇聚类,可以大量减少文档簇的数目,从而减少第二层次文档簇聚类的计算量。再进行基于候选文档标题相似性的第二层次文档簇聚类,由于文档标题属于短文本,计算相似性的效率较高,进一步提升了文档簇聚类的效率,进而提高了热点挖掘效率。
本申请实施例公开了一种热点挖掘方法,相对于前几个实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
参见图6,本申请实施例提供的第三种热点挖掘方法的流程图,如图6所示,包括:
S301:获取当前时间周期的原始文档集;
S302:利用所述原始文档集构建一项集,并生成每个所述一项集对应的文档簇;
S303:对每两个一项集进行交集运算得到二项集,生成每个所述二项集对应的文档簇,并将支持度大于第一预设值的二项集确定为频繁二项集;
S304:对每两个二项集进行交集运算得到二项集,生成每个所述二项集对应的文档簇,并将支持度大于第一预设值的三项集确定为频繁三项集;
S305:选取包括实体词和非实体词的频繁二项集作为候选频繁二项集;
S306:计算所述候选频繁二项集中所述实体词与所述非实体词之间的相似性作为相关性,将所述相关性大于第二预设值的候选频繁二项集确定为目标频繁二项集;
在本实施例中,对于频繁二项集,采用实体词+非实体词和互信息的筛选策略,过滤了不能表征一个热点事件的频繁二项集,减少了后续层次聚类的初始文档簇数量。步骤S305和S306需要在步骤S303之后进行。
S307:利用停用频繁三项集过滤所有所述频繁三项集,得到目标频繁三项集;其中,所述停用频繁三项集为持续时间周期数大于第三预设值的频繁三项集;
在本实施例中,对于频繁三项集,采用停用频繁三项集的筛选策略,过滤了不能表征一个热点事件的频繁三项集,减少了后续层次聚类的初始文档簇数量。步骤S307需要在步骤S304之后进行。
需要说明的是,对于频繁二项集的筛选和频繁三项集的生成可以并行执行,即按照图7中示出的流程。当然也可以先后执行,且不限定其执行顺序。
S308:基于目标频繁项集对应的文档簇之间的所述文档标识相似性进行文档簇聚类,得到候选文档簇;其中,所述目标频繁项集包括所述目标频繁二项集和所述频繁三项集;
S309:基于所述候选文档簇之间的候选文档标题相似性进行文档簇聚类,得到所述目标文档簇;其中,所述候选文档标题相似性为不同候选文档簇中候选文档标题之间的相似性,每一所述候选文档标题对应的文档数量不小于每一非候选文档标题对应的文档数量;
在本实施例中,采用了基于文档标识相似性和候选文档标题相似性的两层次的文档簇聚类,与相关技术中基于文档内容自底向上的聚类方式相比,相似性的计算更加便捷,效率较高。
S310:根据所述目标文档簇确定热点信息。
由此可见,本实施例仅选取频繁二项集和频繁三项集,且利用了相应的方式对其进行筛选,在保证频繁项集均能够表征一个热点的前提下,提高了频繁项集的生成效率,进而提高了热点挖掘效率。另外,本实施例首先基于文档标识相似性进行第一层文档簇聚类,可以大量减少文档簇的数目,从而减少了第二层文档簇聚类的初始文档簇数量,使得基于候选文档标题相似性进行文档簇聚类效率较高。由于文档标题属于短文本,计算相似性的效率较高,进一步提升了文档簇聚类的效率,进而进一步提高了热点挖掘效率。在实际应用中,本实施例可以实现分钟级别的热点挖掘,提高了热点挖掘的时效性。
在实际测试中,相比于相关技术中自底向上的层次聚类,通过人工抽样评估,在保证准确率相差不大的情况下,效率得到极大提升,对于原始文档数量1w、5w和11w的原始文档集,基于相关技术中自底向上的层次聚类的热点挖掘方法和本实施例的热点挖掘方法的挖掘时间如表2所示:
表2
文档数 层次聚类(s) 本实施例(s)
1w 76 2
5w 1274 29
11w 4366 166
为了便于理解,结合本申请的一种应用场景进行介绍。结合图1,终端30为PC端,其上安装有与新闻相关的网站,新闻发布源20为该网站对应的新闻发布源,可以理解为该网站对应的服务器。
服务器10从新闻发布源20中获取当天的原始新闻集,对其中的原始新闻进行预处理,根据预处理结果提取包括频繁二项集和频繁三项集的频繁项集,采用实体词+非实体词和互信息的筛选策略筛选频繁二项集,采用停用频繁三项集的筛选策略筛选频繁三项集。
对于筛选后的频繁项集,基于文档标识相似性对其对应的文档簇进行第一层合并,基于候选文档标题相似性对第一层合并后的文档簇进行第二层合并,得到目标文档簇。每个目标文档簇对应一个热点,在每个目标文档簇中选择出现次数最多的新闻标题作为该热点的热点标题,对每个目标文档簇中原始新闻的数量进行标准化处理,处理结果在0至100之间,将该处理结果作为该热点的热点热度。服务器10将确定的所有热点的热点标题和热点热度发送至PC端。
PC端根据热点标题对所有的热点进行分类,如图7所示,可以包括政治热点和财经热点,并按照热点热度由大至小的顺序在网站的今日热点页面上对每一类别的热点进行展示,展示的内容包括热点标题和热点热度。用户点击某一热点时,显示该热点对应的目标文档簇中的所有原始新闻,在显示时可以按照各原始新闻的点击率进行排序。
为了便于理解,结合本申请的另一种应用场景进行介绍。结合图1,终端 30为手机端,其上安装有微博APP,新闻发布源20为该微博APP对应的新闻发布源,可以理解为该微博APP对应的服务器。
当用户点击话题榜页面上的刷新按钮时,进行本次热点挖掘。服务器10 从新闻发布源20中获取上一次热点挖掘时刻至当前时刻的微博集,对其中的微博进行预处理,根据预处理结果提取包括频繁二项集和频繁三项集的频繁项集,采用实体词+非实体词和互信息的筛选策略筛选频繁二项集,采用停用频繁三项集的筛选策略筛选频繁三项集。
对于筛选后的频繁项集,基于文档标识相似性对其对应的文档簇进行第一层合并,由于微博的内容往往限制在140字以内,因此为了保证热点挖掘的准确性,可以直接基于文档内容相似性对第一层合并后的文档簇进行第二层合并,得到目标文档簇。每个目标文档簇对应一个热点,将目标文档簇中微博数量作为该热点的热点热度。由于微博的特殊性,在发布微博上时为用户提供携带微博话题的功能,即用户可以在两个“#”号之间输入微博话题,因此热点话题的提取可以在微博话题的基础上进行,在目标文档簇中的各微博中识别微博话题,即识别两个“#”号中间的内容,确定出现次数最多的微博话题,若该微博话题的出现次数大于预设值,则以该微博话题作为热点标题,若不存在出现次数大于预设值的微博话题,说明这些微博话题不具有普遍性,则可以利用NLP技术根据所有的微博话题生成热点标题。服务器10 将确定的所有热点的热点标题和热点热度发送至手机端。
如图8(a)所示,手机端在微博APP的话题榜页面上按照热点热度由大至小的顺序对热点进行展示,当热点热度大于第一预设值时显示为“热”,大于第二预设值时显示为“爆”。另外,与上一次热点挖掘的话题榜进行对比,将本次新上榜的热点显示为“新”。如图8(b)所示,用户点击某一热点时,显示该热点对应的目标文档簇中的所有微博,在显示时可以按照各微博的阅读量进行排序,用户也可以选择按照其实时性进行排序。若热点话题为一微博话题,还可以显示该微博话题的导语、阅读量等。
下面对本申请实施例提供的一种热点挖掘装置进行介绍,下文描述的一种热点挖掘装置与上文描述的一种热点挖掘方法可以相互参照。
参见图9,本申请实施例提供的一种热点挖掘装置的结构图,如图9所示,包括:
获取模块100,用于获取当前时间周期的原始文档集;
生成模块200,用于利用所述原始文档集生成频繁项集和每个所述频繁项集对应的文档簇;
筛选模块300,用于按照预设标准筛选所述频繁项集,得到目标频繁项集;
聚类模块400,用于基于所述目标频繁项集对应的文档簇之间的文档标识相似性,和/或文档标题相似性,和/或文档内容相似性进行文档簇聚类,得到目标文档簇;
确定模块500,用于根据所述目标文档簇确定热点信息。
频繁项集为支持度大于最小支持度阈值的项集,即频繁项集中的关键词更有可能组成一个热点,频繁项集对应的文档簇中的文档为支持该频繁项集的文档,这些文档更有可能为热点相关文档。因此,本申请实施例提供的热点挖掘系统,通过构建频繁项集,过滤掉大量未包含频繁项集的文档,这些文档一般都不是热点相关文档,为后续层次聚类节省时间开销,提高了热点挖掘效率。同时,由于挖掘到的原始频繁项集并不一定能够构成热点,因此本申请实施例在文档簇聚类之前,对原始频繁项集进行筛选,可以提高热点挖掘的准确度。另外,对频繁项集进行筛选,相当于对其对应的文档簇进行筛选,减少了文档簇聚类的初始文档簇数量,进一步提高了热点挖掘效率。
在上述实施例的基础上,作为一种优选实施方式,所述生成模块200包括:
构建单元,用于利用所述原始文档集构建一项集,并生成每个所述一项集对应的文档簇;
交集单元,用于对每两个k项集进行交集运算得到k+1项集,并生成每个所述k项集对应的文档簇;其中,所述k项集包括k个关键词;
第一确定单元,用于将满足第一预设条件和第二预设条件的k项集确定为所述频繁项集;其中,所述第一预设条件为所述k项集中关键词数量在预设范围内,所述第二预设条件为所述k项集的支持度大于或等于第一预设值。
在上述实施例的基础上,作为一种优选实施方式,所述筛选模块300具体为选取包括实体词和非实体词的频繁项集作为候选频繁项集,将相关性大于第二预设值的候选频繁项集确定为所述目标频繁项集,和/或利用停用频繁项集过滤所有所述频繁项集,得到所述目标频繁项集的模块;其中,所述相关性为每个所述实体词与每个所述非实体词之间的相关性的平均值,所述停用频繁项集为持续时间周期数大于第三预设值的频繁项集。
在上述实施例的基础上,作为一种优选实施方式,所述确定模块500具体为选取所述目标文档簇中的目标文档,将所述目标文档的文档标题确定为所述目标文档簇对应的热点标题的模块。
在上述实施例的基础上,作为一种优选实施方式,所述确定模块500具体为确定所述目标文档簇中所有文档的权重值,选取所述权重值最高的文档为所述目标文档,并将所述目标文档的文档标题确定为所述目标文档簇对应的热点标题的模块。
在上述实施例的基础上,作为一种优选实施方式,所述确定模块500具体为根据所述目标文档簇对应的频繁项集中的关键词生成热点标题的模块。
在上述实施例的基础上,作为一种优选实施方式,所述确定模块500具体为根据所述目标文档簇中的文档数量确定热点热度的模块;其中,所述热点热度与所述文档数量呈正相关。
在上述实施例的基础上,作为一种优选实施方式,所述聚类模块300包括:
第一聚类单元,用于基于所述目标频繁项集对应的文档簇之间的所述文档标识相似性进行文档簇聚类,得到候选文档簇;
第二聚类单元,用于基于所述候选文档簇之间的候选文档标题相似性进行文档簇聚类,得到所述目标文档簇;其中,所述候选文档标题相似性为不同候选文档簇中候选文档标题之间的相似性,每一所述候选文档标题对应的文档数量不小于每一非候选文档标题对应的文档数量。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请还提供了一种服务器,参见图10,本申请实施例提供的一种服务器1000的结构图,如图10所示,可以包括处理器1001和存储器1002。
可选的,该服务器还可以包括通信接口1003、输入单元1004和显示器 1005和通信总线1006。
处理器1001、存储器1002、通信接口1003、输入单元1004、显示器1005、均通过通信总线1006完成相互间的通信。
在本申请实施例中,该处理器1001,可以为中央处理器(Central ProcessingUnit,CPU),特定应用集成电路,数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。
该处理器1001可以调用存储器1002中存储的程序。具体的,处理器可以执行上述热点挖掘方法的实施例中的步骤。
存储器1002中用于存放一个或者一个以上程序,程序可以包括程序代码,所述程序代码包括计算机操作指令,在本申请实施例中,该存储器中至少存储有用于实现以下功能的程序:
获取当前时间周期的原始文档集;
利用所述原始文档集生成频繁项集和每个所述频繁项集对应的文档簇;
按照预设标准筛选所述频繁项集,得到目标频繁项集;
基于所述目标频繁项集对应的文档簇之间的文档标识相似性,和/或文档标题相似性,和/或文档内容相似性进行文档簇聚类,得到目标文档簇;
根据所述目标文档簇确定热点信息。
在一种可能的实现方式中,该存储器1002可以包括存储程序区和存储数据区,其中,存储程序区用于存储操作系统、以及至少一个功能(比如热点挖掘功能)所需的应用程序等;存储数据区用于存储根据计算机的使用过程中所创建的数据。此外,存储器1002可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
该通信接口1003可以为通信模块的接口,如GSM模块的接口。本申请实施例提供的服务器1000还可以包括显示器1004和输入单元1005等等。
当然,图10所示的服务器的结构并不构成对本申请实施例中服务器的限定,在实际应用中服务器可以包括比图10所示的更多或更少的部件,或者组合某些部件。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任一实施例服务器所执行的热点挖掘方法的步骤。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种热点挖掘方法,其特征在于,包括:
获取当前时间周期的原始文档集;
利用所述原始文档集生成频繁项集和每个所述频繁项集对应的文档簇;
按照预设标准筛选所述频繁项集,得到目标频繁项集;
基于所述目标频繁项集对应的文档簇之间的文档标识相似性,和/或文档标题相似性,和/或文档内容相似性进行文档簇聚类,得到目标文档簇;
根据所述目标文档簇确定热点信息。
2.根据权利要求1所述热点挖掘方法,其特征在于,所述利用所述原始文档集生成频繁项集和每个所述频繁项集对应的文档簇,包括:
利用所述原始文档集构建一项集,并生成每个所述一项集对应的文档簇;
对每两个k项集进行交集运算得到k+1项集,并生成每个所述k项集对应的文档簇;其中,所述k项集包括k个关键词;
将满足第一预设条件和第二预设条件的k项集确定为所述频繁项集;其中,所述第一预设条件为所述k项集中关键词数量在预设范围内,所述第二预设条件为所述k项集的支持度大于或等于第一预设值。
3.根据权利要求1所述热点挖掘方法,其特征在于,所述按照预设标准筛选所述频繁项集,得到目标频繁项集,包括:
选取包括实体词和非实体词的频繁项集作为候选频繁项集,将相关性大于第二预设值的候选频繁项集确定为所述目标频繁项集;其中,所述相关性为每个所述实体词与每个所述非实体词之间的相关性的平均值;
和/或,利用停用频繁项集过滤所有所述频繁项集,得到所述目标频繁项集;其中,所述停用频繁项集为持续时间周期数大于第三预设值的频繁项集。
4.根据权利要求1所述热点挖掘方法,其特征在于,所述根据所述目标文档簇确定热点信息,包括:
选取所述目标文档簇中的目标文档,将所述目标文档的文档标题确定为所述目标文档簇对应的热点标题。
5.根据权利要求4所述热点挖掘方法,其特征在于,所述选取所述目标文档簇中的目标文档,包括:
确定所述目标文档簇中所有文档的权重值,并选取所述权重值最高的文档为所述目标文档。
6.根据权利要求1所述热点挖掘方法,其特征在于,所述根据所述目标文档簇确定热点信息,包括:
根据所述目标文档簇对应的频繁项集中的关键词生成热点标题。
7.根据权利要求1所述热点挖掘方法,其特征在于,所述根据所述目标文档簇确定热点信息,包括:
根据所述目标文档簇中的文档数量确定热点热度;其中,所述热点热度与所述文档数量呈正相关。
8.根据权利要求1至7中任一项所述热点挖掘方法,其特征在于,所述基于所述目标频繁项集对应的文档簇之间的文档标识相似性,和/或文档标题相似性,和/或文档内容相似性进行文档簇聚类,得到目标文档簇,包括:
基于所述目标频繁项集对应的文档簇之间的所述文档标识相似性进行文档簇聚类,得到候选文档簇;
基于所述候选文档簇之间的候选文档标题相似性进行文档簇聚类,得到所述目标文档簇;其中,所述候选文档标题相似性为不同候选文档簇中候选文档标题之间的相似性,每一所述候选文档标题对应的文档数量不小于每一非候选文档标题对应的文档数量。
9.一种服务器,其特征在于,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获取当前时间周期的原始文档集;
利用所述原始文档集生成频繁项集和每个所述频繁项集对应的文档簇;
按照预设标准筛选所述频繁项集,得到目标频繁项集;
基于所述目标频繁项集对应的文档簇之间的文档标识相似性,和/或文档标题相似性,和/或文档内容相似性进行文档簇聚类,得到目标文档簇;
根据所述目标文档簇确定热点信息。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述热点挖掘方法的步骤。
CN201910517806.0A 2019-06-14 2019-06-14 热点挖掘方法及服务器和计算机可读存储介质 Active CN110232126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910517806.0A CN110232126B (zh) 2019-06-14 2019-06-14 热点挖掘方法及服务器和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910517806.0A CN110232126B (zh) 2019-06-14 2019-06-14 热点挖掘方法及服务器和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110232126A true CN110232126A (zh) 2019-09-13
CN110232126B CN110232126B (zh) 2023-10-24

Family

ID=67859901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910517806.0A Active CN110232126B (zh) 2019-06-14 2019-06-14 热点挖掘方法及服务器和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110232126B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888981A (zh) * 2019-10-30 2020-03-17 深圳价值在线信息科技股份有限公司 基于标题的文档聚类方法、装置、终端设备及介质
CN111104511A (zh) * 2019-11-18 2020-05-05 腾讯科技(深圳)有限公司 一种提取热点话题的方法、装置及存储介质
CN112559821A (zh) * 2020-12-22 2021-03-26 作业帮教育科技(北京)有限公司 高质数据的挖掘方法、生产方法和系统
CN112559745A (zh) * 2020-12-11 2021-03-26 科大讯飞股份有限公司 一种确定热点事件的方法和相关装置
CN113761033A (zh) * 2021-09-13 2021-12-07 江苏楚风信息科技有限公司 基于档案数字化管理的信息整理方法及系统
CN114546258A (zh) * 2021-11-30 2022-05-27 中国科学院深圳先进技术研究院 一种人工智能模型传输方法、系统、终端以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095209A (zh) * 2014-04-21 2015-11-25 北京金山网络科技有限公司 文档聚类方法及装置、网络设备
US20180181988A1 (en) * 2016-12-26 2018-06-28 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for pushing information
CN108874952A (zh) * 2018-05-31 2018-11-23 福建师范大学 一种基于分布式日志的最大频繁序列模式挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095209A (zh) * 2014-04-21 2015-11-25 北京金山网络科技有限公司 文档聚类方法及装置、网络设备
US20180181988A1 (en) * 2016-12-26 2018-06-28 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for pushing information
CN108874952A (zh) * 2018-05-31 2018-11-23 福建师范大学 一种基于分布式日志的最大频繁序列模式挖掘方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888981A (zh) * 2019-10-30 2020-03-17 深圳价值在线信息科技股份有限公司 基于标题的文档聚类方法、装置、终端设备及介质
CN111104511A (zh) * 2019-11-18 2020-05-05 腾讯科技(深圳)有限公司 一种提取热点话题的方法、装置及存储介质
CN112559745A (zh) * 2020-12-11 2021-03-26 科大讯飞股份有限公司 一种确定热点事件的方法和相关装置
CN112559745B (zh) * 2020-12-11 2023-01-17 科大讯飞股份有限公司 一种确定热点事件的方法和相关装置
CN112559821A (zh) * 2020-12-22 2021-03-26 作业帮教育科技(北京)有限公司 高质数据的挖掘方法、生产方法和系统
CN113761033A (zh) * 2021-09-13 2021-12-07 江苏楚风信息科技有限公司 基于档案数字化管理的信息整理方法及系统
CN113761033B (zh) * 2021-09-13 2022-03-25 江苏楚风信息科技有限公司 基于档案数字化管理的信息整理方法及系统
CN114546258A (zh) * 2021-11-30 2022-05-27 中国科学院深圳先进技术研究院 一种人工智能模型传输方法、系统、终端以及存储介质
CN114546258B (zh) * 2021-11-30 2023-08-15 中国科学院深圳先进技术研究院 一种人工智能模型传输方法、系统、终端以及存储介质

Also Published As

Publication number Publication date
CN110232126B (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
US20210397653A1 (en) Method and system for identifying and discovering relationships between disparate datasets from multiple sources
CN110232126A (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN103258000B (zh) 对网页中高频关键词进行聚类的方法及装置
CN102208992B (zh) 面向互联网的不良信息过滤系统及其方法
US8683389B1 (en) Method and apparatus for dynamic information visualization
CN104239373B (zh) 为文档添加标签的方法及装置
Yao et al. Bursty event detection from collaborative tags
CN104915447A (zh) 一种热点话题追踪及关键词确定方法及装置
US20140101557A1 (en) Valence graph tool for custom network maps
US20110264651A1 (en) Large scale entity-specific resource classification
CN103186600B (zh) 互联网舆情的专题分析方法和装置
CN105468605A (zh) 一种实体信息图谱生成方法及装置
EP3918758A1 (en) Real-time event detection on social data streams
CN104021198B (zh) 基于本体语义索引的关系数据库信息检索方法及装置
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN103365924A (zh) 一种搜索信息的方法、装置和终端
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN102880687A (zh) 基于标签技术的个人交互数据检索方法及其系统
CN103617169A (zh) 一种基于Hadoop的微博热点话题提取方法
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
Xu et al. Wikipedia‐based topic clustering for microblogs
US10467255B2 (en) Methods and systems for analyzing reading logs and documents thereof
CN104077415A (zh) 搜索方法及装置
Zheng et al. Collecting event‐related tweets from twitter stream
CN107977420A (zh) 一种演进式文档的摘要提取方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant