CN107784127A

CN107784127A - 一种热点定位方法和装置

Info

Publication number: CN107784127A
Application number: CN201711242587.7A
Authority: CN
Inventors: 徐雄伟
Original assignee: Hangzhou Dt Dream Technology Co Ltd
Current assignee: Hangzhou Dt Dream Technology Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-03-09

Abstract

本申请提供一种热点定位方法和装置。该方法包括：获取待进行热点定位的目标文本；根据预设算法将所述目标文本转换为文本向量；将所述每一目标文本作为单独的初始文本簇，并根据所述目标文本的文本向量，计算任意两个初始文本簇的相似度；若所述相似度满足预设的相似度约束条件，则合并这两个初始文本簇；继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件，迭代至收敛，并将得到的文本簇作为目标文本簇；针对每个目标文本簇，分别计算所述目标文本簇的热度参数；将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。本申请在定位文本热度时，无需人为干预，实现便捷，且准确性较高。

Description

一种热点定位方法和装置

技术领域

本申请涉及互联网技术领域，尤其涉及一种热点定位方法和装置。

背景技术

随着互联网技术的快速发展，信息的传播渠道也趋向多样化，例如：新闻网站、门户网站、搜索引擎、微博、论坛等。在互联网海量的信息中，如何准确定位到当前的热点信息，对舆论感知、舆论监控有着重要意义。

发明内容

有鉴于此，本申请提供一种热点定位方法和装置。

具体地，本申请是通过如下技术方案实现的：

一种热点定位方法，所述方法包括：

获取待进行热点定位的目标文本；

根据预设算法将所述目标文本转换为文本向量；

将所述每一目标文本作为单独的初始文本簇，并根据所述目标文本的文本向量，计算任意两个初始文本簇的相似度；

若所述相似度满足预设的相似度约束条件，则合并这两个初始文本簇；

继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件，迭代至收敛，并将得到的文本簇作为目标文本簇；

针对每个目标文本簇，分别计算所述目标文本簇的热度参数；

将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。

一种热点定位装置，所述装置包括：

文本获取单元，用于获取待进行热点定位的目标文本；

向量转换单元，用于根据预设算法将所述目标文本转换为文本向量；

文本迭代单元，用于将所述每一目标文本作为单独的初始文本簇，并根据所述目标文本的文本向量，计算任意两个初始文本簇的相似度，并在所述相似度满足预设的相似度约束条件时，合并这两个初始文本簇；继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件，迭代至收敛，并将得到的文本簇作为目标文本簇；

热度计算单元，用于针对每个目标文本簇，分别计算所述目标文本簇的热度参数；

热点定位单元，用于将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。

一种热点定位装置，所述装置包括：

处理器；

用于存储机器可执行指令的存储器；

其中，通过读取并执行所述存储器存储的与热点定位逻辑对应的机器可执行指令，所述处理器被促使：

获取待进行热点定位的目标文本；

根据预设算法将所述目标文本转换为文本向量；

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取待进行热点定位的目标文本；

根据预设算法将所述目标文本转换为文本向量；

由以上描述可以看出，本申请可通过预设算法将目标文本转换为文本向量，并将所述每一目标文本作为单独的初始文本簇，根据文本簇之间的相似度对初始文本簇进行合并迭代，直至收敛，以定位目标文本的热度，整个过程无需人为干预，实现便捷，且准确性较高。

附图说明

图1是本申请一示例性实施例示出的一种热点定位方法的流程示意图。

图2是本申请一示例性实施例示出的一种用于热点定位装置的一结构示意图。

图3是本申请一示例性实施例示出的一种热点定位装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

所述热点定位方法可以应用在定位平台中，所述定位平台通常由热点定位服务提供商部署，其物理载体通常为服务器或者服务器集群。

在本实施例中，所述热点定位方法可以应用在互联网舆论热点定位中、也可以应用在各类热点区域的定位中，本说明书对此不作特殊限制。后续以应用在互联网舆论热点定位为例进行描述。

请参考图1，所述热点定位方法可以包括以下步骤：

步骤102，获取待进行热点定位的目标文本。

在本实施例中，可以通过新闻网站、门户网站、搜索引擎、微博、论坛等各种信息传播渠道获取最新的舆论文本，作为目标文本。

其中，所述最新的舆论文本是一个相对的概念，在实际应用中，根据业务需求，可以获取最近1天的舆论文本以对最近1天内的舆论热点进行定位，也可以获取最近7天的舆论文本，以对最近一周的舆论热点进行定位，本实施例对此不作特殊限制。

在本实施例中，在获取到原始的目标文本后，可以对原始的目标文本进行清洗，过滤掉干扰元素，并基于过滤后的目标文本进行舆论热点的定位。

在本实施例中，对原始的目标文本进行清洗可以包括：删除原始目标文本中的URL(Uniform Resource Locator，统一资源定位符)、删除原始目标文本中html格式的数据、删除原始目标文本中特殊格式的数据。其中，所述特殊格式的数据可以包括：表情符号、“哈哈哈哈”、“呵呵”等没有实际意义的数据。

当然，还可以采用其他方式对原始目标文本进行清洗，本实施例对此不作特殊限制。

步骤104，根据预设算法将所述目标文本转换为文本向量。

在本实施例中，为便于计算，针对每个目标文本，可以根据预设算法将其转换为文本向量。

其中，所述预设算法可以包括：词向量模型word2vec算法、LDA(Latent DirichletAllocation，文档主题生成模型)算法等自然语言处理算法，本实施例对此不作特殊限制。

本实施例采用自然语言处理算法将目标文本转换为文本向量，增加了语义识别，可以有效提高后续热点定位的准确性。

步骤106，将所述每一目标文本作为单独的初始文本簇，并根据所述目标文本的文本向量，计算任意两个初始文本簇的相似度。

步骤108，若所述相似度满足预设的相似度约束条件，则合并这两个初始文本簇。

步骤110，继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件，迭代至收敛，并将得到的文本簇作为目标文本簇。

相关技术中，层次聚类算法通常需要预先设置聚类簇的数量。然而，在实际应用中，由于无法预先准确的估计出聚类簇的数量，可能会导致某些聚类簇中的节点差异较大。

针对上述问题，本实施例对传统的层次聚类算法进行改进，无需预先设置聚类簇的数量，基于对节点间相似度的约束进行聚类，可有效避免传统层次聚类算法中节点差异较大的问题。

在本实施例中，为减小聚类后聚类簇中目标文本的差异，也可以采用上述改进的层次聚类算法对目标文本进行聚类。

具体而言，在本实施例中，可以将每个目标文本作为一个独立的聚类簇进行聚类，为便于描述，可以将该聚类簇称为初始文本簇，即，所述初始文本簇中仅包括一个目标文本。

在本实施例中，可以计算任意两个初始文本簇的相似度，即计算任意两个初始文本簇中目标文本的相似度。可选的，本实施例可以计算这两个目标文本对应的文本向量的余弦相似度，以作为所述目标文本的相似度。

当然，在实际应用中，也可以采用其他方式计算所述任意两个初始文本簇的相似度，例如：计算所述文本向量的改进余弦相似度等，本申请对此不作特殊限制。

在计算得到所述任意两个初始文本簇的相似度之后，可以判断该相似度是否满足预设的相似度约束条件，若满足，则可以对这两个初始文本簇进行合并，得到合并后的文本簇。

其中，以采用余弦相似度算法为例，相似度越接近1，说明这两个初始文本簇越相似，上述相似度约束条件可以为相似度大于0.7、或相似度大于0.8等，本申请对此不作特殊限制。

当然，若采用其他的相似度算法，具体可以由开发人员结合相似度算法的特点设置上述相似度约束条件。

在本实施例中，针对所有初始文本簇以及所有合并后的文本簇可以循环执行前述步骤106和步骤108，直至剩余的文本簇中任意两个文本簇的相似度均不满足所述相似度约束条件时，确定迭代结束。

举例来说，假设有6个初始文本簇，分别为初始文本簇1至初始文本簇6，又假设初始文本簇1和初始文本簇2之间的相似度满足所述相似度约束条件，则可以合并初始文本簇1和初始文本簇2，为便于描述，可以将得到的文本簇称为文本簇A。

接着，可以继续判断文本簇A、初始文本簇3至初始文本簇6这5个文本簇中任意两个文本簇的相似度是否满足所述相似度约束条件。例如，继续判断文本簇A和初始文本簇3的相似度是否满足所述相似度约束条件，若满足，则可以继续合并。直至剩余的所有文本簇中任意两个文本簇的相似度均不满足所述相似度约束条件。

在本实施例中，当聚类过程中，剩余的任意两个文本簇的相似度均不满足上述相似度约束条件时，可以确定迭代收敛，即聚类结束，并可以将剩余的文本簇称为目标文本簇。

在本实施例中，采用改进的层次聚类算法，在聚类的过程中根据相似度进行约束，无需预先设置聚类簇数量，可有效避免聚类簇数量设置不准确所导致的聚类结果不准确等问题，有效提高后续热点定位的准确性。

步骤112，针对每个目标文本簇，分别计算所述目标文本簇的热度参数。

基于前述步骤110，针对聚类得到的每个目标文本簇，可以分别计算该目标文本簇的热度参数。

在本实施例中，可以采用对目标文本簇在多维度下的热度特征进行加权的方式计算所述目标文本簇的热度参数。

所述多维度下的热度特征可以由开发人员预先进行指定，每个维度的热度特征都可以在一定程度上表示出该目标文本簇的热度。所述多维度下的热度特征可以包括：目标文本簇中目标文本的数量、目标文本簇中各目标文本的来源热度、目标文本簇中各目标文本的作者热度、目标文本簇中各目标文本的评论热度、目标文本簇中各目标文本的阅读热度等。

以目标文本簇中目标文本的数量为例，假设某目标文本簇中有5个目标文本，则该目标文本簇中目标文本数量维度下的热度特征是5。

以目标文本簇中各目标文本的来源热度为例，所述目标文本的来源热度通常是指获取到目标文本的传播渠道的热度。举例来说，假设某目标文本簇中的某个目标文本来自新浪门户网站，则可将新浪门户网站的热度作为该目标文本的来源热度，例如：新浪门户网站的评分等。当所述目标文本簇中包括有多个目标文本时，可以计算所有目标文本的来源热度的平均值，作为该目标文本簇中各目标文本来源维度下的热度特征。

以目标文本簇中各目标文本的作者热度为例，所述目标文本的作者热度可以为该作者的评分等参数。当所述目标文本簇中包括有多个目标文本时，也可以计算所有目标文本的作者热度的平均值，作为该目标文本簇中各目标文本的作者维度下的热度特征。

以目标文本簇中各目标文本的评论热度为例，所述目标文本的评论热度可以为该目标文本的评论数量等参数。当所述目标文本簇中包括有多个目标文本时，也可以计算所有目标文本的评论数量的平均值，作为该目标文本簇中各目标文本的评论维度下的热度特征。

类似的，以目标文本簇中各目标文本的阅读热度为例，所述目标文本的阅读热度可以为该目标文本的阅读数量等参数。当所述目标文本簇中包括有多个目标文本时，也可以计算所有目标文本的阅读数量的平均值，作为该目标文本簇中各目标文本的阅读维度下的热度特征。

上述来源热度、作者热度、评论热度、阅读热度等数据可以在获取目标文本时一同获取，也可以在后续获取，本实施例对此不作特殊限制。

当然，在实际应用中，还可以获取目标文本簇在其他维度下的热度特征，本实施例对此不作特殊限制。值得注意的是，当获取到的热度特征不是数值时，可以将其进行数值化，以便于后续计算。

在本实施例中，可以对所述目标文本簇在多个维度下的热度特征进行加权计算，例如：加权求和、加权平均等，并可将得到的数值作为所述目标文本簇的热度参数。其中，各维度热度特征的权重可以由开发人员预先进行设置，本实施例对此不作特殊限制。

步骤114，将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。

基于前述步骤112，在计算得到各个目标文本簇的热度参数后，可以先确定热度参数满足所述热度条件的目标文本簇，然后再确定所述目标文本簇的关键词，并可以将该关键词作为目标文本的热点。

其中，所述热度条件也可以预先设置，例如：热度参数排名前三、排名前十等。

在确定出满足所述热度条件的一个或多个目标文本簇后，可以根据TF-IDF(termfrequency–inverse document frequency)等算法计算所述目标文本簇的关键词，并将所述目标文本簇的关键词作为前述步骤102中获取到的目标文本的热点，可参考表1所示的舆论热点示意图。

排序	目标文本簇ID	关键词	热度参数
				1	e80bfe	观致、3万、综艺、营销	79
2	lhuuf	乐视、贾跃亭、危机、离职	41
				3	145ds	马云、楼市、风云	33

表1

由以上描述可以看出，本申请可通过预设算法将目标文本转换为文本向量，并基于改进的层次聚类算法对目标文本进行聚类，以定位目标文本的热度，整个过程无需人为干预，实现便捷，且准确性较高。

与前述热点定位方法的实施例相对应，本申请还提供了热点定位装置的实施例。

本申请热点定位装置的实施例可以应用在服务器上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图2所示，为本申请热点定位装置所在服务器的一种硬件结构图，除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的服务器通常根据该服务器的实际功能，还可以包括其他硬件，对此不再赘述。

请参考图3，所述热点定位装置300可以应用在前述图3所示的服务器中，包括有：文本获取单元301、向量转换单元302、文本迭代单元303、热度计算单元304以及热点定位单元305。

其中，文本获取单元301，用于获取待进行热点定位的目标文本；

向量转换单元302，用于根据预设算法将所述目标文本转换为文本向量；

文本迭代单元303，用于将所述每一目标文本作为单独的初始文本簇，并根据所述目标文本的文本向量，计算任意两个初始文本簇的相似度，并在所述相似度满足预设的相似度约束条件时，合并这两个初始文本簇；继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件，迭代至收敛，并将得到的文本簇作为目标文本簇；

热度计算单元304，用于针对每个目标文本簇，分别计算所述目标文本簇的热度参数；

热点定位单元305，用于将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。

可选的，所述文本迭代单元303，还用于在任意两个文本簇的相似度均不满足所述相似度约束条件时，确定迭代收敛。

可选的，所述文本迭代单元303，用于计算所述任意两个初始文本簇的文本向量之间的余弦相似度，作为所述任意两个初始文本簇的相似度；

所述相似度约束条件包括：余弦相似度大于阈值。

可选的，所述热度计算单元304：

获取所述目标文本簇在多个维度下的热度特征；

对所述多维度下的热度特征进行加权计算，得到所述目标文本簇的热度参数。

可选的，所述多维度下的热度特征包括以下一种或多种：

所述目标文本簇中目标文本的数量、目标文本的来源热度、目标文本的作者热度、目标文本的评论热度、目标文本的阅读热度。

可选的，所述预设算法为自然语言处理算法，包括：word2vec算法、LDA算法。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

与前述热点定位方法的实施例相对应，本说明书还提供一种热点定位装置，该热点定位装置包括：处理器以及用于存储机器可执行指令的存储器。其中，处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中，所述设备还可能包括外部接口，以能够与其他设备或者部件进行通信。

在本实施例中，通过读取并执行所述存储器存储的与热点定位逻辑对应的机器可执行指令，所述处理器被促使：

获取待进行热点定位的目标文本；

根据预设算法将所述目标文本转换为文本向量；

可选的，在所述将所述每一目标文本作为单独的初始文本簇，并根据所述目标文本的文本向量，计算任意两个初始文本簇的相似度时，所述处理器还被促使：

若任意两个文本簇的相似度均不满足所述相似度约束条件，则确定迭代收敛。

可选的，在根据所述目标文本的文本向量，计算任意两个初始文本簇的相似度时，所述处理器被促使：

计算所述任意两个初始文本簇的文本向量之间的余弦相似度，作为所述任意两个初始文本簇的相似度；

所述相似度约束条件包括：余弦相似度大于阈值。

可选的，在计算所述目标文本簇的热度参数时，所述处理器被促使：

获取所述目标文本簇在多个维度下的热度特征；

可选的，所述多维度下的热度特征包括以下一种或多种：

与前述热点定位方法的实施例相对应，本说明书还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取待进行热点定位的目标文本；

根据预设算法将所述目标文本转换为文本向量；

可选的，所述将所述每一目标文本作为单独的初始文本簇，并根据所述目标文本的文本向量，计算任意两个初始文本簇的相似度，还包括：

可选的，所述根据所述目标文本的文本向量，计算任意两个初始文本簇的相似度，包括：

所述相似度约束条件包括：余弦相似度大于阈值。

可选的，所述基于所述目标文本的文本向量，采用改进的层次聚类算法对所述目标文本进行聚类，包括：

将所述目标文本作为初始文本簇，并根据所述目标文本的文本向量，计算任意两个初始文本簇的相似度；

若任意两个文本簇的相似度均不满足所述相似度约束条件，则确定聚类结束，并将得到的文本簇确定为目标文本簇。

可选的，所述计算所述目标文本簇的热度参数，包括：

获取所述目标文本簇在多个维度下的热度特征；

可选的，所述多维度下的热度特征包括以下一种或多种：

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种热点定位方法，其特征在于，所述方法包括：

获取待进行热点定位的目标文本；

根据预设算法将所述目标文本转换为文本向量；

2.根据权利要求1所述的方法，其特征在于，所述将所述每一目标文本作为单独的初始文本簇，并根据所述目标文本的文本向量，计算任意两个初始文本簇的相似度，还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述目标文本的文本向量，计算任意两个初始文本簇的相似度，包括：

所述相似度约束条件包括：余弦相似度大于阈值。

4.根据权利要求1所述的方法，其特征在于，所述计算所述目标文本簇的热度参数，包括：

获取所述目标文本簇在多个维度下的热度特征；

5.根据权利要求4所述的方法，其特征在于，所述多维度下的热度特征包括以下一种或多种：

6.根据权利要求1所述的方法，其特征在于，

所述预设算法为自然语言处理算法，包括：词向量模型word2vec算法、文档主题生成模型LDA算法。

7.一种热点定位装置，其特征在于，所述装置包括：

文本获取单元，用于获取待进行热点定位的目标文本；

8.根据权利要求7所述的装置，其特征在于，

所述文本迭代单元：还用于在任意两个文本簇的相似度均不满足所述相似度约束条件时，确定迭代收敛。

9.根据权利要求7或8所述的装置，其特征在于，

所述文本迭代单元，用于计算所述任意两个初始文本簇的文本向量之间的余弦相似度，作为所述任意两个初始文本簇的相似度；

所述相似度约束条件包括：余弦相似度大于阈值。

10.根据权利要求7所述的装置，其特征在于，所述热度计算单元：

获取所述目标文本簇在多个维度下的热度特征；

11.根据权利要求10所述的装置，其特征在于，所述多维度下的热度特征包括以下一种或多种：

12.根据权利要求6所述的装置，其特征在于，

13.一种热点定位装置，其特征在于，所述装置包括：

处理器；

用于存储机器可执行指令的存储器；

获取待进行热点定位的目标文本；

根据预设算法将所述目标文本转换为文本向量；

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取待进行热点定位的目标文本；

根据预设算法将所述目标文本转换为文本向量；