CN107784127A - 一种热点定位方法和装置 - Google Patents
一种热点定位方法和装置 Download PDFInfo
- Publication number
- CN107784127A CN107784127A CN201711242587.7A CN201711242587A CN107784127A CN 107784127 A CN107784127 A CN 107784127A CN 201711242587 A CN201711242587 A CN 201711242587A CN 107784127 A CN107784127 A CN 107784127A
- Authority
- CN
- China
- Prior art keywords
- text
- target text
- cluster
- similarity
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种热点定位方法和装置。该方法包括:获取待进行热点定位的目标文本;根据预设算法将所述目标文本转换为文本向量;将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度;若所述相似度满足预设的相似度约束条件,则合并这两个初始文本簇;继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件,迭代至收敛,并将得到的文本簇作为目标文本簇;针对每个目标文本簇,分别计算所述目标文本簇的热度参数;将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。本申请在定位文本热度时,无需人为干预,实现便捷,且准确性较高。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种热点定位方法和装置。
背景技术
随着互联网技术的快速发展,信息的传播渠道也趋向多样化,例如:新闻网站、门户网站、搜索引擎、微博、论坛等。在互联网海量的信息中,如何准确定位到当前的热点信息,对舆论感知、舆论监控有着重要意义。
发明内容
有鉴于此,本申请提供一种热点定位方法和装置。
具体地,本申请是通过如下技术方案实现的:
一种热点定位方法,所述方法包括:
获取待进行热点定位的目标文本;
根据预设算法将所述目标文本转换为文本向量;
将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度;
若所述相似度满足预设的相似度约束条件,则合并这两个初始文本簇;
继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件,迭代至收敛,并将得到的文本簇作为目标文本簇;
针对每个目标文本簇,分别计算所述目标文本簇的热度参数;
将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。
一种热点定位装置,所述装置包括:
文本获取单元,用于获取待进行热点定位的目标文本;
向量转换单元,用于根据预设算法将所述目标文本转换为文本向量;
文本迭代单元,用于将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度,并在所述相似度满足预设的相似度约束条件时,合并这两个初始文本簇;继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件,迭代至收敛,并将得到的文本簇作为目标文本簇;
热度计算单元,用于针对每个目标文本簇,分别计算所述目标文本簇的热度参数;
热点定位单元,用于将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。
一种热点定位装置,所述装置包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与热点定位逻辑对应的机器可执行指令,所述处理器被促使:
获取待进行热点定位的目标文本;
根据预设算法将所述目标文本转换为文本向量;
将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度;
若所述相似度满足预设的相似度约束条件,则合并这两个初始文本簇;
继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件,迭代至收敛,并将得到的文本簇作为目标文本簇;
针对每个目标文本簇,分别计算所述目标文本簇的热度参数;
将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取待进行热点定位的目标文本;
根据预设算法将所述目标文本转换为文本向量;
将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度;
若所述相似度满足预设的相似度约束条件,则合并这两个初始文本簇;
继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件,迭代至收敛,并将得到的文本簇作为目标文本簇;
针对每个目标文本簇,分别计算所述目标文本簇的热度参数;
将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。
由以上描述可以看出,本申请可通过预设算法将目标文本转换为文本向量,并将所述每一目标文本作为单独的初始文本簇,根据文本簇之间的相似度对初始文本簇进行合并迭代,直至收敛,以定位目标文本的热度,整个过程无需人为干预,实现便捷,且准确性较高。
附图说明
图1是本申请一示例性实施例示出的一种热点定位方法的流程示意图。
图2是本申请一示例性实施例示出的一种用于热点定位装置的一结构示意图。
图3是本申请一示例性实施例示出的一种热点定位装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是本申请一示例性实施例示出的一种热点定位方法的流程示意图。
所述热点定位方法可以应用在定位平台中,所述定位平台通常由热点定位服务提供商部署,其物理载体通常为服务器或者服务器集群。
在本实施例中,所述热点定位方法可以应用在互联网舆论热点定位中、也可以应用在各类热点区域的定位中,本说明书对此不作特殊限制。后续以应用在互联网舆论热点定位为例进行描述。
请参考图1,所述热点定位方法可以包括以下步骤:
步骤102,获取待进行热点定位的目标文本。
在本实施例中,可以通过新闻网站、门户网站、搜索引擎、微博、论坛等各种信息传播渠道获取最新的舆论文本,作为目标文本。
其中,所述最新的舆论文本是一个相对的概念,在实际应用中,根据业务需求,可以获取最近1天的舆论文本以对最近1天内的舆论热点进行定位,也可以获取最近7天的舆论文本,以对最近一周的舆论热点进行定位,本实施例对此不作特殊限制。
在本实施例中,在获取到原始的目标文本后,可以对原始的目标文本进行清洗,过滤掉干扰元素,并基于过滤后的目标文本进行舆论热点的定位。
在本实施例中,对原始的目标文本进行清洗可以包括:删除原始目标文本中的URL(Uniform Resource Locator,统一资源定位符)、删除原始目标文本中html格式的数据、删除原始目标文本中特殊格式的数据。其中,所述特殊格式的数据可以包括:表情符号、“哈哈哈哈”、“呵呵”等没有实际意义的数据。
当然,还可以采用其他方式对原始目标文本进行清洗,本实施例对此不作特殊限制。
步骤104,根据预设算法将所述目标文本转换为文本向量。
在本实施例中,为便于计算,针对每个目标文本,可以根据预设算法将其转换为文本向量。
其中,所述预设算法可以包括:词向量模型word2vec算法、LDA(Latent DirichletAllocation,文档主题生成模型)算法等自然语言处理算法,本实施例对此不作特殊限制。
本实施例采用自然语言处理算法将目标文本转换为文本向量,增加了语义识别,可以有效提高后续热点定位的准确性。
步骤106,将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度。
步骤108,若所述相似度满足预设的相似度约束条件,则合并这两个初始文本簇。
步骤110,继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件,迭代至收敛,并将得到的文本簇作为目标文本簇。
相关技术中,层次聚类算法通常需要预先设置聚类簇的数量。然而,在实际应用中,由于无法预先准确的估计出聚类簇的数量,可能会导致某些聚类簇中的节点差异较大。
针对上述问题,本实施例对传统的层次聚类算法进行改进,无需预先设置聚类簇的数量,基于对节点间相似度的约束进行聚类,可有效避免传统层次聚类算法中节点差异较大的问题。
在本实施例中,为减小聚类后聚类簇中目标文本的差异,也可以采用上述改进的层次聚类算法对目标文本进行聚类。
具体而言,在本实施例中,可以将每个目标文本作为一个独立的聚类簇进行聚类,为便于描述,可以将该聚类簇称为初始文本簇,即,所述初始文本簇中仅包括一个目标文本。
在本实施例中,可以计算任意两个初始文本簇的相似度,即计算任意两个初始文本簇中目标文本的相似度。可选的,本实施例可以计算这两个目标文本对应的文本向量的余弦相似度,以作为所述目标文本的相似度。
当然,在实际应用中,也可以采用其他方式计算所述任意两个初始文本簇的相似度,例如:计算所述文本向量的改进余弦相似度等,本申请对此不作特殊限制。
在计算得到所述任意两个初始文本簇的相似度之后,可以判断该相似度是否满足预设的相似度约束条件,若满足,则可以对这两个初始文本簇进行合并,得到合并后的文本簇。
其中,以采用余弦相似度算法为例,相似度越接近1,说明这两个初始文本簇越相似,上述相似度约束条件可以为相似度大于0.7、或相似度大于0.8等,本申请对此不作特殊限制。
当然,若采用其他的相似度算法,具体可以由开发人员结合相似度算法的特点设置上述相似度约束条件。
在本实施例中,针对所有初始文本簇以及所有合并后的文本簇可以循环执行前述步骤106和步骤108,直至剩余的文本簇中任意两个文本簇的相似度均不满足所述相似度约束条件时,确定迭代结束。
举例来说,假设有6个初始文本簇,分别为初始文本簇1至初始文本簇6,又假设初始文本簇1和初始文本簇2之间的相似度满足所述相似度约束条件,则可以合并初始文本簇1和初始文本簇2,为便于描述,可以将得到的文本簇称为文本簇A。
接着,可以继续判断文本簇A、初始文本簇3至初始文本簇6这5个文本簇中任意两个文本簇的相似度是否满足所述相似度约束条件。例如,继续判断文本簇A和初始文本簇3的相似度是否满足所述相似度约束条件,若满足,则可以继续合并。直至剩余的所有文本簇中任意两个文本簇的相似度均不满足所述相似度约束条件。
在本实施例中,当聚类过程中,剩余的任意两个文本簇的相似度均不满足上述相似度约束条件时,可以确定迭代收敛,即聚类结束,并可以将剩余的文本簇称为目标文本簇。
在本实施例中,采用改进的层次聚类算法,在聚类的过程中根据相似度进行约束,无需预先设置聚类簇数量,可有效避免聚类簇数量设置不准确所导致的聚类结果不准确等问题,有效提高后续热点定位的准确性。
步骤112,针对每个目标文本簇,分别计算所述目标文本簇的热度参数。
基于前述步骤110,针对聚类得到的每个目标文本簇,可以分别计算该目标文本簇的热度参数。
在本实施例中,可以采用对目标文本簇在多维度下的热度特征进行加权的方式计算所述目标文本簇的热度参数。
所述多维度下的热度特征可以由开发人员预先进行指定,每个维度的热度特征都可以在一定程度上表示出该目标文本簇的热度。所述多维度下的热度特征可以包括:目标文本簇中目标文本的数量、目标文本簇中各目标文本的来源热度、目标文本簇中各目标文本的作者热度、目标文本簇中各目标文本的评论热度、目标文本簇中各目标文本的阅读热度等。
以目标文本簇中目标文本的数量为例,假设某目标文本簇中有5个目标文本,则该目标文本簇中目标文本数量维度下的热度特征是5。
以目标文本簇中各目标文本的来源热度为例,所述目标文本的来源热度通常是指获取到目标文本的传播渠道的热度。举例来说,假设某目标文本簇中的某个目标文本来自新浪门户网站,则可将新浪门户网站的热度作为该目标文本的来源热度,例如:新浪门户网站的评分等。当所述目标文本簇中包括有多个目标文本时,可以计算所有目标文本的来源热度的平均值,作为该目标文本簇中各目标文本来源维度下的热度特征。
以目标文本簇中各目标文本的作者热度为例,所述目标文本的作者热度可以为该作者的评分等参数。当所述目标文本簇中包括有多个目标文本时,也可以计算所有目标文本的作者热度的平均值,作为该目标文本簇中各目标文本的作者维度下的热度特征。
以目标文本簇中各目标文本的评论热度为例,所述目标文本的评论热度可以为该目标文本的评论数量等参数。当所述目标文本簇中包括有多个目标文本时,也可以计算所有目标文本的评论数量的平均值,作为该目标文本簇中各目标文本的评论维度下的热度特征。
类似的,以目标文本簇中各目标文本的阅读热度为例,所述目标文本的阅读热度可以为该目标文本的阅读数量等参数。当所述目标文本簇中包括有多个目标文本时,也可以计算所有目标文本的阅读数量的平均值,作为该目标文本簇中各目标文本的阅读维度下的热度特征。
上述来源热度、作者热度、评论热度、阅读热度等数据可以在获取目标文本时一同获取,也可以在后续获取,本实施例对此不作特殊限制。
当然,在实际应用中,还可以获取目标文本簇在其他维度下的热度特征,本实施例对此不作特殊限制。值得注意的是,当获取到的热度特征不是数值时,可以将其进行数值化,以便于后续计算。
在本实施例中,可以对所述目标文本簇在多个维度下的热度特征进行加权计算,例如:加权求和、加权平均等,并可将得到的数值作为所述目标文本簇的热度参数。其中,各维度热度特征的权重可以由开发人员预先进行设置,本实施例对此不作特殊限制。
步骤114,将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。
基于前述步骤112,在计算得到各个目标文本簇的热度参数后,可以先确定热度参数满足所述热度条件的目标文本簇,然后再确定所述目标文本簇的关键词,并可以将该关键词作为目标文本的热点。
其中,所述热度条件也可以预先设置,例如:热度参数排名前三、排名前十等。
在确定出满足所述热度条件的一个或多个目标文本簇后,可以根据TF-IDF(termfrequency–inverse document frequency)等算法计算所述目标文本簇的关键词,并将所述目标文本簇的关键词作为前述步骤102中获取到的目标文本的热点,可参考表1所示的舆论热点示意图。
排序 | 目标文本簇ID | 关键词 | 热度参数 |
1 | e80bfe | 观致、3万、综艺、营销 | 79 |
2 | lhuuf | 乐视、贾跃亭、危机、离职 | 41 |
3 | 145ds | 马云、楼市、风云 | 33 |
表1
由以上描述可以看出,本申请可通过预设算法将目标文本转换为文本向量,并基于改进的层次聚类算法对目标文本进行聚类,以定位目标文本的热度,整个过程无需人为干预,实现便捷,且准确性较高。
与前述热点定位方法的实施例相对应,本申请还提供了热点定位装置的实施例。
本申请热点定位装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图2所示,为本申请热点定位装置所在服务器的一种硬件结构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图3是本申请一示例性实施例示出的一种热点定位装置的框图。
请参考图3,所述热点定位装置300可以应用在前述图3所示的服务器中,包括有:文本获取单元301、向量转换单元302、文本迭代单元303、热度计算单元304以及热点定位单元305。
其中,文本获取单元301,用于获取待进行热点定位的目标文本;
向量转换单元302,用于根据预设算法将所述目标文本转换为文本向量;
文本迭代单元303,用于将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度,并在所述相似度满足预设的相似度约束条件时,合并这两个初始文本簇;继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件,迭代至收敛,并将得到的文本簇作为目标文本簇;
热度计算单元304,用于针对每个目标文本簇,分别计算所述目标文本簇的热度参数;
热点定位单元305,用于将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。
可选的,所述文本迭代单元303,还用于在任意两个文本簇的相似度均不满足所述相似度约束条件时,确定迭代收敛。
可选的,所述文本迭代单元303,用于计算所述任意两个初始文本簇的文本向量之间的余弦相似度,作为所述任意两个初始文本簇的相似度;
所述相似度约束条件包括:余弦相似度大于阈值。
可选的,所述热度计算单元304:
获取所述目标文本簇在多个维度下的热度特征;
对所述多维度下的热度特征进行加权计算,得到所述目标文本簇的热度参数。
可选的,所述多维度下的热度特征包括以下一种或多种:
所述目标文本簇中目标文本的数量、目标文本的来源热度、目标文本的作者热度、目标文本的评论热度、目标文本的阅读热度。
可选的,所述预设算法为自然语言处理算法,包括:word2vec算法、LDA算法。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述热点定位方法的实施例相对应,本说明书还提供一种热点定位装置,该热点定位装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与热点定位逻辑对应的机器可执行指令,所述处理器被促使:
获取待进行热点定位的目标文本;
根据预设算法将所述目标文本转换为文本向量;
将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度;
若所述相似度满足预设的相似度约束条件,则合并这两个初始文本簇;
继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件,迭代至收敛,并将得到的文本簇作为目标文本簇;
针对每个目标文本簇,分别计算所述目标文本簇的热度参数;
将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。
可选的,在所述将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度时,所述处理器还被促使:
若任意两个文本簇的相似度均不满足所述相似度约束条件,则确定迭代收敛。
可选的,在根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度时,所述处理器被促使:
计算所述任意两个初始文本簇的文本向量之间的余弦相似度,作为所述任意两个初始文本簇的相似度;
所述相似度约束条件包括:余弦相似度大于阈值。
可选的,在计算所述目标文本簇的热度参数时,所述处理器被促使:
获取所述目标文本簇在多个维度下的热度特征;
对所述多维度下的热度特征进行加权计算,得到所述目标文本簇的热度参数。
可选的,所述多维度下的热度特征包括以下一种或多种:
所述目标文本簇中目标文本的数量、目标文本的来源热度、目标文本的作者热度、目标文本的评论热度、目标文本的阅读热度。
可选的,所述预设算法为自然语言处理算法,包括:word2vec算法、LDA算法。
与前述热点定位方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取待进行热点定位的目标文本;
根据预设算法将所述目标文本转换为文本向量;
将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度;
若所述相似度满足预设的相似度约束条件,则合并这两个初始文本簇;
继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件,迭代至收敛,并将得到的文本簇作为目标文本簇;
针对每个目标文本簇,分别计算所述目标文本簇的热度参数;
将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。
可选的,所述将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度,还包括:
若任意两个文本簇的相似度均不满足所述相似度约束条件,则确定迭代收敛。
可选的,所述根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度,包括:
计算所述任意两个初始文本簇的文本向量之间的余弦相似度,作为所述任意两个初始文本簇的相似度;
所述相似度约束条件包括:余弦相似度大于阈值。
可选的,所述基于所述目标文本的文本向量,采用改进的层次聚类算法对所述目标文本进行聚类,包括:
将所述目标文本作为初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度;
若所述相似度满足预设的相似度约束条件,则合并这两个初始文本簇;
若任意两个文本簇的相似度均不满足所述相似度约束条件,则确定聚类结束,并将得到的文本簇确定为目标文本簇。
可选的,所述计算所述目标文本簇的热度参数,包括:
获取所述目标文本簇在多个维度下的热度特征;
对所述多维度下的热度特征进行加权计算,得到所述目标文本簇的热度参数。
可选的,所述多维度下的热度特征包括以下一种或多种:
所述目标文本簇中目标文本的数量、目标文本的来源热度、目标文本的作者热度、目标文本的评论热度、目标文本的阅读热度。
可选的,所述预设算法为自然语言处理算法,包括:word2vec算法、LDA算法。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (14)
1.一种热点定位方法,其特征在于,所述方法包括:
获取待进行热点定位的目标文本;
根据预设算法将所述目标文本转换为文本向量;
将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度;
若所述相似度满足预设的相似度约束条件,则合并这两个初始文本簇;
继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件,迭代至收敛,并将得到的文本簇作为目标文本簇;
针对每个目标文本簇,分别计算所述目标文本簇的热度参数;
将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。
2.根据权利要求1所述的方法,其特征在于,所述将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度,还包括:
若任意两个文本簇的相似度均不满足所述相似度约束条件,则确定迭代收敛。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度,包括:
计算所述任意两个初始文本簇的文本向量之间的余弦相似度,作为所述任意两个初始文本簇的相似度;
所述相似度约束条件包括:余弦相似度大于阈值。
4.根据权利要求1所述的方法,其特征在于,所述计算所述目标文本簇的热度参数,包括:
获取所述目标文本簇在多个维度下的热度特征;
对所述多维度下的热度特征进行加权计算,得到所述目标文本簇的热度参数。
5.根据权利要求4所述的方法,其特征在于,所述多维度下的热度特征包括以下一种或多种:
所述目标文本簇中目标文本的数量、目标文本的来源热度、目标文本的作者热度、目标文本的评论热度、目标文本的阅读热度。
6.根据权利要求1所述的方法,其特征在于,
所述预设算法为自然语言处理算法,包括:词向量模型word2vec算法、文档主题生成模型LDA算法。
7.一种热点定位装置,其特征在于,所述装置包括:
文本获取单元,用于获取待进行热点定位的目标文本;
向量转换单元,用于根据预设算法将所述目标文本转换为文本向量;
文本迭代单元,用于将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度,并在所述相似度满足预设的相似度约束条件时,合并这两个初始文本簇;继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件,迭代至收敛,并将得到的文本簇作为目标文本簇;
热度计算单元,用于针对每个目标文本簇,分别计算所述目标文本簇的热度参数;
热点定位单元,用于将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。
8.根据权利要求7所述的装置,其特征在于,
所述文本迭代单元:还用于在任意两个文本簇的相似度均不满足所述相似度约束条件时,确定迭代收敛。
9.根据权利要求7或8所述的装置,其特征在于,
所述文本迭代单元,用于计算所述任意两个初始文本簇的文本向量之间的余弦相似度,作为所述任意两个初始文本簇的相似度;
所述相似度约束条件包括:余弦相似度大于阈值。
10.根据权利要求7所述的装置,其特征在于,所述热度计算单元:
获取所述目标文本簇在多个维度下的热度特征;
对所述多维度下的热度特征进行加权计算,得到所述目标文本簇的热度参数。
11.根据权利要求10所述的装置,其特征在于,所述多维度下的热度特征包括以下一种或多种:
所述目标文本簇中目标文本的数量、目标文本的来源热度、目标文本的作者热度、目标文本的评论热度、目标文本的阅读热度。
12.根据权利要求6所述的装置,其特征在于,
所述预设算法为自然语言处理算法,包括:词向量模型word2vec算法、文档主题生成模型LDA算法。
13.一种热点定位装置,其特征在于,所述装置包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与热点定位逻辑对应的机器可执行指令,所述处理器被促使:
获取待进行热点定位的目标文本;
根据预设算法将所述目标文本转换为文本向量;
将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度;
若所述相似度满足预设的相似度约束条件,则合并这两个初始文本簇;
继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件,迭代至收敛,并将得到的文本簇作为目标文本簇;
针对每个目标文本簇,分别计算所述目标文本簇的热度参数;
将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取待进行热点定位的目标文本;
根据预设算法将所述目标文本转换为文本向量;
将所述每一目标文本作为单独的初始文本簇,并根据所述目标文本的文本向量,计算任意两个初始文本簇的相似度;
若所述相似度满足预设的相似度约束条件,则合并这两个初始文本簇;
继续判断剩余的任意两个文本簇的相似度是否满足所述相似度约束条件,迭代至收敛,并将得到的文本簇作为目标文本簇;
针对每个目标文本簇,分别计算所述目标文本簇的热度参数;
将热度参数满足预设的热度条件的目标文本簇的关键词确定为所述目标文本的热点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711242587.7A CN107784127A (zh) | 2017-11-30 | 2017-11-30 | 一种热点定位方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711242587.7A CN107784127A (zh) | 2017-11-30 | 2017-11-30 | 一种热点定位方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107784127A true CN107784127A (zh) | 2018-03-09 |
Family
ID=61429710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711242587.7A Pending CN107784127A (zh) | 2017-11-30 | 2017-11-30 | 一种热点定位方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107784127A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739975A (zh) * | 2018-11-15 | 2019-05-10 | 东软集团股份有限公司 | 热点事件抽取方法、装置、可读存储介质及电子设备 |
CN111984789A (zh) * | 2020-08-26 | 2020-11-24 | 普信恒业科技发展(北京)有限公司 | 一种语料分类方法、装置及服务器 |
CN112101008A (zh) * | 2020-09-27 | 2020-12-18 | 北京百度网讯科技有限公司 | 一种文本热度确定方法、装置、电子设备和存储介质 |
CN113569563A (zh) * | 2021-06-25 | 2021-10-29 | 北京房江湖科技有限公司 | 热点朋友圈文本的识别方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246499A (zh) * | 2008-03-27 | 2008-08-20 | 腾讯科技(深圳)有限公司 | 网络信息搜索方法及系统 |
CN101620596A (zh) * | 2008-06-30 | 2010-01-06 | 东北大学 | 一种面向查询的多文档自动摘要方法 |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN102945290A (zh) * | 2012-12-03 | 2013-02-27 | 北京奇虎科技有限公司 | 微博热点话题挖掘装置及方法 |
CN103177090A (zh) * | 2013-03-08 | 2013-06-26 | 亿赞普(北京)科技有限公司 | 一种基于大数据的话题检测方法及装置 |
CN103218435A (zh) * | 2013-04-15 | 2013-07-24 | 上海嘉之道企业管理咨询有限公司 | 一种中文文本数据聚类方法及系统 |
US20140087765A1 (en) * | 2004-12-13 | 2014-03-27 | Verizon Laboratories, Inc. | Systems and methods for providing connection status and location information in a wireless networking environment |
CN106599181A (zh) * | 2016-12-13 | 2017-04-26 | 浙江网新恒天软件有限公司 | 一种基于主题模型的新闻热点检测方法 |
-
2017
- 2017-11-30 CN CN201711242587.7A patent/CN107784127A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140087765A1 (en) * | 2004-12-13 | 2014-03-27 | Verizon Laboratories, Inc. | Systems and methods for providing connection status and location information in a wireless networking environment |
CN101246499A (zh) * | 2008-03-27 | 2008-08-20 | 腾讯科技(深圳)有限公司 | 网络信息搜索方法及系统 |
CN101620596A (zh) * | 2008-06-30 | 2010-01-06 | 东北大学 | 一种面向查询的多文档自动摘要方法 |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN102945290A (zh) * | 2012-12-03 | 2013-02-27 | 北京奇虎科技有限公司 | 微博热点话题挖掘装置及方法 |
CN103177090A (zh) * | 2013-03-08 | 2013-06-26 | 亿赞普(北京)科技有限公司 | 一种基于大数据的话题检测方法及装置 |
CN103218435A (zh) * | 2013-04-15 | 2013-07-24 | 上海嘉之道企业管理咨询有限公司 | 一种中文文本数据聚类方法及系统 |
CN106599181A (zh) * | 2016-12-13 | 2017-04-26 | 浙江网新恒天软件有限公司 | 一种基于主题模型的新闻热点检测方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739975A (zh) * | 2018-11-15 | 2019-05-10 | 东软集团股份有限公司 | 热点事件抽取方法、装置、可读存储介质及电子设备 |
CN109739975B (zh) * | 2018-11-15 | 2021-03-09 | 东软集团股份有限公司 | 热点事件抽取方法、装置、可读存储介质及电子设备 |
CN111984789A (zh) * | 2020-08-26 | 2020-11-24 | 普信恒业科技发展(北京)有限公司 | 一种语料分类方法、装置及服务器 |
CN111984789B (zh) * | 2020-08-26 | 2024-01-30 | 普信恒业科技发展(北京)有限公司 | 一种语料分类方法、装置及服务器 |
CN112101008A (zh) * | 2020-09-27 | 2020-12-18 | 北京百度网讯科技有限公司 | 一种文本热度确定方法、装置、电子设备和存储介质 |
CN113569563A (zh) * | 2021-06-25 | 2021-10-29 | 北京房江湖科技有限公司 | 热点朋友圈文本的识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zamani et al. | Situational context for ranking in personal search | |
US9785888B2 (en) | Information processing apparatus, information processing method, and program for prediction model generated based on evaluation information | |
CN109299994B (zh) | 推荐方法、装置、设备及可读存储介质 | |
CN107784010B (zh) | 一种用于确定新闻主题的热度信息的方法与设备 | |
WO2015192667A1 (zh) | 推荐广告的方法及广告推荐服务器 | |
US20150081431A1 (en) | Posterior probability calculating apparatus, posterior probability calculating method, and non-transitory computer-readable recording medium | |
CN107784127A (zh) | 一种热点定位方法和装置 | |
CN106940705A (zh) | 一种用于构建用户画像的方法与设备 | |
CN109889430A (zh) | 消息推送方法、装置、计算机设备及存储介质 | |
US11263664B2 (en) | Computerized system and method for augmenting search terms for increased efficiency and effectiveness in identifying content | |
KR20160058896A (ko) | 소셜 커뮤니케이션 데이터를 분석하고 송신하는 시스템 및 방법 | |
WO2016105803A1 (en) | Hybrid technique for sentiment analysis | |
US20130198240A1 (en) | Social Network Analysis | |
CN106227834A (zh) | 多媒体资源的推荐方法及装置 | |
CN113220657B (zh) | 数据处理方法、装置及计算机设备 | |
Lu et al. | Knowledge enhanced personalized search | |
Gao et al. | SeCo-LDA: Mining service co-occurrence topics for composition recommendation | |
JP2017059057A (ja) | 推定装置、推定方法及び推定プログラム | |
Zhang et al. | Inferring continuous dynamic social influence and personal preference for temporal behavior prediction | |
CN106952111B (zh) | 个性化推荐方法及装置 | |
Kim et al. | Task Relation-aware Continual User Representation Learning | |
JP2017059255A (ja) | 推定装置、推定方法及び推定プログラム | |
CN109948056A (zh) | 一种推荐系统的评估方法及装置 | |
CN106909571B (zh) | 网站的访问路径的分析方法及装置 | |
CN108205554A (zh) | 数组对象的排序方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180309 |
|
RJ01 | Rejection of invention patent application after publication |