CN110069635A

CN110069635A - 一种热度词的确定方法及装置

Info

Publication number: CN110069635A
Application number: CN201910364424.9A
Authority: CN
Inventors: 王千; 黄楷; 梁新敏
Original assignee: Miaozhen Systems Information Technology Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd; Miaozhen Systems Information Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-07-30

Abstract

本申请提供了一种热度词的确定方法及装置，其中，该确定方法包括获取连续多个预设时间段中每个预设时间段对应的热度词向量；将连续多个预设时间段对应的多个热度词向量进行聚合处理，得到连续多个预设时间段的热度词。本申请提供的热度词的确定方法中，首先获取连续多个预设时间段对应的热度词向量，其中，每个预设时间段对应的热度词向量为预先计算得到的；然后将连续多个预设时间段对应的多个热度词向量进行聚合处理，得到连续多个预设时间段的热度词，相比于利用LDA模型直接在连续多个预设时间段中预推定子文本分布，并通过抽样操作实现热度词的计算，效率较高，同时也提高了热度词的实时性。

Description

一种热度词的确定方法及装置

技术领域

本申请涉及数据挖掘技术领域，具体而言，涉及一种热度词的确定方法及装置。

背景技术

用户在微信、微博、论坛等互联网平台发表的评议、讨论等文本信息，反映了当前舆情对于某些事件、活动的关注热度。基于这些文本信息，能够发掘出用户的兴趣区间以及热度事件的热度词。

但是由于事件、活动等具备时效性，不同时间区间的用户原创内容(UserGenerated Content，UGC)聚焦的热度词，会由于高热度事件的高关注度使得用户发表的评议或言论远高于其他零散事件，从而该时间区间提取的热度词会呈现出高热度覆盖低热度。因此，基于某个时间区间的文本信息，难以准确、快速地提取出该时间区间低热度事件对应的热度词。

现有技术中，采用隐含狄利克雷模型(Latent Dirichlet Allocation，LDA)提取出文本的热度词的。但是，LDA模型考虑了全局词之间的共现关系，涉及大量抽样操作，再进行拟合生成该预设时间段内的热度词，耗时较长。

发明内容

有鉴于此，本申请实施例的目的在于提供一种热度词的确定方法及装置，能够提高确定热度词的效率，实时性高。

第一方面，本申请实施例提供了一种热度词的确定方法，其中，包括：

获取连续多个预设时间段中每个预设时间段对应的热度词向量；

将所述连续多个预设时间段对应的多个热度词向量进行聚合处理，得到所述连续多个预设时间段的热度词。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，所述连续多个预设时间段对应的多个热度词向量进行聚合处理，得到所述连续多个预设时间段的热度词，包括：

针对每个热度词向量，将所述热度词向量进行标准化处理，得到标准热度词向量；

利用多时区聚合算法对所述多个标准热度词向量进行计算，得到最终热度词向量；

根据所述最终热度词向量，确定所述连续多个预设时间段的热度词。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第二种可能的实施方式，其中，所述将所述热度词的向量进行标准化处理，得到标准热度词向量，包括：

将所述热度词向量中的每个初始元素按照如下公式进行计算，得到该元素对应的替换元素；其中，所述初始元素为所述预设时间段的热度词的权值；

其中，所述公式如下：

X＝(x-μ)/σ；

其中，所述X表示所述替换元素，所述x表示所述初始元素，所述μ表示向量平均值，所述σ表示向量标准差；

将所述替换元素对所述初始元素进行替换，得到所述标准热度词向量。

结合第一方面，本申请实施例提供了第一方面的第三种可能的实施方式，其中，在获取连续多个预设时间段中每个预设时间段对应的热度词向量之前，还包括：

获取预设时间段对应的多个目标文本；

针对每个目标文本，基于词汇之间的共现关系，得到所述目标文本的热度词及每个热度词概率；

基于所述目标文本的热度词及每个热度词概率，确定该目标文本对应的热度词向量；

将所述预设时间段对应的多个热度词向量进行聚合处理，得到所述预设时间段的热度词。

结合第一方面的第三种可能的实施方式，本申请实施例提供了第一方面的第四种可能的实施方式，其中，所述目标文本包括短文本；所述基于词汇之间的共现关系，得到所述目标文本的热度词及每个热度词概率，包括：

从所述目标文本中筛选出文本字符个数小于第一预设阈值的文本，作为短文本；

基于所述短文本包括的词汇之间的共现关系，得到所述预设时间段的热度词及每个热度词概率。

结合第一方面的第三种可能的实施方式，本申请实施例提供了第一方面的第五种可能的实施方式，其中，所述目标文本包括长文本；所述基于词汇之间的共现关系，得到所述目标文本的热度词及每个热度词概率，包括：

从所述目标文本中筛选出文本字符个数大于或等于第一预设阈值的文本，作为长文本；

基于所述长文本包括的词汇之间的共现关系，得到所述预设时间段的热度词及每个热度词概率。

第二方面，本申请实施例还提供了一种热度词的确定装置，其中，包括：

获取模块，用于获取连续多个预设时间段中每个预设时间段对应的热度词向量；

聚合模块，用于将所述连续多个预设时间段对应的多个热度词向量进行聚合处理，得到所述连续多个预设时间段的热度词。

结合第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，其中，所述聚合模块包括：

标准化单元，用于针对每个热度词向量，将所述热度词向量进行标准化处理，得到标准热度词向量；

硬聚类单元，用于利用多时区聚合算法对所述多个标准热度词向量进行计算，得到最终热度词向量；

确定单元，用于根据所述最终热度词向量，确定所述连续多个预设时间段的热度词。

结合第二方面的第一种可能的实施方式，本申请实施例提供了第二方面的第二种可能的实施方式，其中，所述标准化单元，具体用于：

其中，所述公式如下：

X＝(x-μ)/σ；

结合第二方面，本申请实施例提供了第二方面的第三种可能的实施方式，其中，还包括：

确定模块，用于获取预设时间段对应的多个目标文本；

本申请实施例提供的一种热度词的确定方法及装置，其中，该确定方法包括获取连续多个预设时间段对应的热度词向量；将连续多个预设时间段对应的多个热度词向量进行聚合处理，得到连续多个预设时间段的热度词。本申请提供的热度词的确定方法中，首先获取连续多个预设时间段对应的热度词向量，其中，每个预设时间段对应的热度词向量为预先计算得到的；然后将连续多个预设时间段对应的多个热度词向量进行聚合处理，得到连续多个预设时间段的热度词，相比于利用LDA模型直接在连续多个预设时间段中预推定子文本分布，并通过抽样操作实现热度词的计算，效率较高，同时也提高了热度词的实时性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种热度词的确定方法的流程图；

图2示出了本申请实施例所提供的另一种热度词的确定方法的流程图；

图3示出了本申请实施例所提供的另一种热度词的确定方法的流程图；

图4示出了本申请实施例所提供的一种热度词的确定装置的结构示意图；

图5示出了本申请实施例所提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，采用LDA模型提取出文本的热度词的。但是，LDA模型考虑了全局词之间的共现关系，涉及大量抽样操作，再进行拟合生成该预设时间段内的热度词，耗时较长。针对上述问题，本申请实施例提供的一种热度词的确定方法及装置，能够提高确定热度词的效率，实时性高。

为便于对本申请实施例进行理解，首先对本申请实施例所公开的一种热度词的确定方法进行详细介绍。

如图1所示，为本申请实施例以服务器为执行主体时热度词的确定方法的流程图，具体步骤如下：

S101，获取连续多个预设时间段中每个预设时间段对应的热度词向量。

在具体实施中，预设时间段可以是一周，还可以是一个月。

针对每个预设时间段，均可以获取该预设时间段内的热度词，进而了解社会关注的热点话题。

在确定每个预设时间段的热度词时，同时可以得到该预设时间段对应的热度词向量，具体的计算方法，在后文中进行详细阐述，在此不做过多赘述。

服务器可以将每个预设时间段对应的热度词向量进行存储，其中，可以按照计算时间的先后顺序进行存储。

S102，将连续多个预设时间段对应的多个热度词向量进行聚合处理，得到连续多个预设时间段的热度词。

在服务器获取到连续多个预设时间段对应的热度词向量之后，服务器将按照预设算法将连续多个预设时间段对应的热度词向量进行聚合处理，得到该连续多个预设时间段的热度词。

例如，预设时间段设置为10天时，获取2019年4月1号至2019年4月10号对应的热度词向量，2019年4月11号至2019年4月20号对应的热度词向量，2019年4月21号至2019年4月30号对应的热度词向量，将上述三个热度词向量进行聚合处理，便可以得到2019年4月1号至2019年4月30号的热度词。相比于利用LDA模型从2019年4月1号至2019年4月30号内进行抽样操作，再进行拟合生成2019年4月1号至2019年4月30号的热度词，效率较高，同时也提高了热度词的实时性。

值得说明的是，各预设时间段的热度词向量是可以并行计算的，相对于逐个对预设时间段的热度词向量进行计算，在一定程度上提高了效率。利用本申请实施例提供的方法，不仅可以实时计算截止至当前时间点的热度词，还可以根据用户需求，计算任意时间段以及任意时间段长度的热度词，例如，可以计算2018年4-6月的热度词，还可以计算2018年5-8月的热度词等，便捷快速。

如图2所示，为将连续多个预设时间段对应的多个热度词向量进行聚合处理的方法，其中，具体步骤如下：

S201，针对每个热度词向量，将热度词向量进行标准化处理，得到标准热度词向量；

S202，利用多时区聚合算法对多个标准热度词向量进行计算，得到最终热度词向量；

S203，根据最终热度词向量，确定连续多个预设时间段的热度词。

在具体实施中，对热度词向量进行标准化处理时，可以针对每个热度词向量中包括的每个元素进行处理。

具体的，将热度词向量中的每个初始元素按照如下公式进行计算，得到该元素对应的替换元素；其中，初始元素为预设时间段的热度词的权值；

其中，公式如下：

X＝(x-μ)/σ；

其中，X表示替换元素，x表示初始元素，μ表示向量平均值，σ表示向量标准差；

将替换元素对初始元素进行替换，便可以得到标准热度词向量。

在具体实施中，通过将热度词向量进行标准化处理，可以减小热度词向量中的极大值或极小值对确定热度词产生的影响，可以精确地筛选出预设时间段内的热度词。

在计算出标准热度词向量之后，利用多时区聚合算法对多个标准热度词向量进行计算，将每个热度词进行编码，将每个热度词及对应的权值组成坐标值，将预设时间段内所有的热度词对应的坐标值，按照多时区聚合算法计算得到多个热度词组。其中，得到的热度词组的个数与目标文本的个数可以相同，也可以不同。

将每个热度词组中每个热度词的权值按照从高到低进行排列，利用Softmax函数，对热度词组中包括的每个热度词的权值进行归一化操作，得到最终热度词向量。

基于编码与热度词之间的对应关系，根据最终热度词向量确定该连续多个预设时间段的热度词。

本申请实施例基于连续多个预设时间段对应的多个热度词向量，将各预设时间段对应的热度词向量进行聚合处理，便可确定连续多个预设时间段内的热度词，不仅提高了确定热度词的效率，还提高了热度词的实时性。

在获取连续多个预设时间段对应的热度词向量之前，按照图3的方法计算每个预设时间段对应的热度词向量，其中，具体步骤如下：

S301，获取预设时间段对应的多个目标文本。

在具体实施中，针对某一平台，例如微博，可以每天获取多个热度较高的微博文本，将其作为目标文本。在预设时间段内则得到该预设时间段对应的多个目标文本。

S302，针对每个目标文本，基于词汇之间的共现关系，得到目标文本的热度词及每个热度词概率。

这里，在对每个目标文本进行分析时，首先将目标文本包括的所有词汇进行清洗，包括去除昵称词汇(包括你、我、他等)，利用固定词汇将目标文本中的表情、网址、手机号码、座机号码、恶意词汇等进行替换，利用目标文本对应的行业词典将目标文本进行分词处理等。

在一篇文章中出现的两个词汇之间，一定具有某种共现关系，在本申请实施例中，针对该目标文本中包括的多个词汇中，利用词汇与词汇之间的共现关系，计算目标文本中的词汇，得到该目标文本的热度词及每个词概率。

在具体实施中，目标文本包括短文本和/或长文本，其中，短文本为文本字符个数小于第一预设阈值的文本，长文本为文本字符个数大于或等于第一预设阈值的文本。

在目标文本仅包括短文本时，从目标文本中筛选出文本字符个数小于第一预设阈值的文本，作为短文本；利用词汇与词汇之间的共现关系，计算短文本中的词汇，得到该短文本的热度词及每个词概率，该短文本的热度词及每个词概率即为目标文本的热度词及每个词概率。

在目标文本仅包括长文本时，从目标文本中筛选出文本字符个数大于或等于第一预设阈值的文本，作为长文本；利用词汇与词汇之间的共现关系，计算长文本中的词汇，得到该长文本的热度词及每个词概率，该长文本的热度词及每个词概率即为目标文本的热度词及每个词概率。

其中，在目标文本既包括短文本，又包括长文本时，将短文本的热度词和长文本的热度词的集合，作为目标文本的热度词。

值得说明的是，在具体实施中可以利用预先LDA模型来筛选出每个目标文本的热度词，该LDA模型在训练时，均利用预设时间段内的多个目标文本样本来进行训练的，以使得利用LDA模型在实际应用中精确度较高。

并且，针对短文本，可以训练对应的短文本LDA模型，针对长文本，同样训练对应的长文本LDA模型，以使得更加合理、有效的提取出目标文本的热度词。

S303，基于目标文本的热度词及每个热度词概率，确定该目标文本对应的热度词向量。

在具体实施中，得到目标文本的热度词以及每个热度词概率之后，计算该目标文本包括的子文本条数，将热度词概率与目标文本包括的词汇个数进行乘法计算，得到该热度词的权值，即该热度词在该目标文本中出现的次数。其中，每个目标文本中包括多个子文本条数。

基于目标文本的热度词的权值，确定该目标文本对应的热度词向量。例如，该预设时间段对应有两个目标文本，分别为文本A和文本B，并且根据上述方法得到每个目标文本为两个热度词，分别为A1，A2，B1，B2，其中，A1的权值为58，A2的权值为70，B1的权值为61，B2的权值为67。则文本A对应热度词向量为(58，70，0，0)，文本B对应热度词向量为(0，0，61，67)。

S304，将预设时间段对应的多个热度词向量进行聚合处理，得到预设时间段的热度词。

在具体实施中，将预设时间段对应的多个热度词向量进行聚合处理的具体方法可以按照上述聚合方法进行聚合，在此不做过多赘述。

在对多个热度词向量进行聚合处理之后，便可以得到该预设时间段的热度词。

基于同一发明构思，本申请实施例还提供了与热度词的确定方法对应的热度词的确定装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述热度词的确定方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参见图4所示，本申请又一实施例所提供的热度词的确定装置包括：

获取模块401，用于获取连续多个预设时间段中每个预设时间段对应的热度词向量；

聚合模块402，用于将所述连续多个预设时间段对应的多个热度词向量进行聚合处理，得到所述连续多个预设时间段的热度词。

在一种实施方式中，所述所述聚合模块402包括：

标准化单元4021，用于针对每个热度词向量，将所述热度词向量进行标准化处理，得到标准热度词向量；

硬聚类单元4022，用于利用多时区聚合算法对所述多个标准热度词向量进行计算，得到最终热度词向量；

确定单元4023，用于根据所述最终热度词向量，确定所述连续多个预设时间段的热度词。。

在另一种实施方式中，所述标准化单元4021，具体用于：

其中，所述公式如下：

X＝(x-μ)/σ；

在又一种实施方式中，上述热度词的确定装置还包括：

确定模块403，用于获取预设时间段对应的多个目标文本；

在再一种实施方式中，所述目标文本包括短文本；上述确定模块403，还具体用于：

图5描述了本发明实施例提供的一种电子设备500的结构，该电子设备500包括：至少一个处理器501，至少一个网络接口504或者其他用户接口503，存储器505，至少一个通信总线502。通信总线502用于实现这些组件之间的连接通信。该电子设备500可选的包含用户接口503，包括显示器(例如，触摸屏、LCD、CRT、全息成像(Holographic)或者投影(Projector)等)，键盘或者点击设备(例如，鼠标，轨迹球(trackball)，触感板或者触摸屏等)。

存储器505可以包括只读存储器和随机存取存储器，并向处理器501提供指令和数据。存储器505的一部分还可以包括非易失性随机存取存储器(NVRAM)。

在一些实施方式中，存储器505存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：

操作系统5051，包含各种系统程序，用于实现各种基础业务以及处理基于硬件的任务；

应用程序模块5052，包含各种应用程序，例如桌面(launcher)、媒体播放器(MediaPlayer)、浏览器(Browser)等，用于实现各种应用业务。

在本发明实施例中，通过调用存储器505存储的程序或指令，处理器501用于：

可选地，处理器501执行的方法中，所述连续多个预设时间段对应的多个热度词向量进行聚合处理，得到所述连续多个预设时间段的热度词，包括：

可选地，处理器501执行的方法中，所述将所述热度词的向量进行标准化处理，得到标准热度词向量，包括：

其中，所述公式如下：

X＝(x-μ)/σ；

可选地，处理器501执行的方法中，在获取连续多个预设时间段中每个预设时间段对应的热度词向量之前，还包括：

获取预设时间段对应的多个目标文本；

可选地，处理器501执行的方法中，所述目标文本包括短文本；所述基于词汇之间的共现关系，得到所述目标文本的热度词及每个热度词概率，包括：

可选地，处理器501执行的方法中，所述目标文本包括长文本；所述基于词汇之间的共现关系，得到所述目标文本的热度词及每个热度词概率，包括：

本申请实施例所提供的热度词的确定方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够提高确定热度词的效率，实时性高。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种热度词的确定方法，其特征在于，包括：

2.根据权利要求1所述的确定方法，其特征在于，所述连续多个预设时间段对应的多个热度词向量进行聚合处理，得到所述连续多个预设时间段的热度词，包括：

利用多时区聚合算法对多个标准热度词向量进行计算，得到最终热度词向量；

3.根据权利要求2所述的确定方法，其特征在于，所述将所述热度词的向量进行标准化处理，得到标准热度词向量，包括：

其中，所述公式如下：

X＝(x-μ)/σ；

4.根据权利要求1所述的确定方法，其特征在于，在获取连续多个预设时间段中每个预设时间段对应的热度词向量之前，还包括：

获取预设时间段对应的多个目标文本；

5.根据权利要求4所述的确定方法，其特征在于，所述目标文本包括短文本；所述基于词汇之间的共现关系，得到所述目标文本的热度词及每个热度词概率，包括：

6.根据权利要求4所述的确定方法，其特征在于，所述目标文本包括长文本；所述基于词汇之间的共现关系，得到所述目标文本的热度词及每个热度词概率，包括：

7.一种热度词的确定装置，其特征在于，包括：

8.根据权利要求7所述的确定装置，其特征在于，所述聚合模块包括：

9.根据权利要求8述的确定装置，其特征在于，所述标准化单元，具体用于：

其中，所述公式如下：

X＝(x-μ)/σ；

10.根据权利要求7所述的确定装置，其特征在于，还包括：

确定模块，用于获取预设时间段对应的多个目标文本；