CN112667814A

CN112667814A - 热词的发现方法及系统

Info

Publication number: CN112667814A
Application number: CN202011623116.2A
Authority: CN
Inventors: 章鹏
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-16

Abstract

本发明实施例提供一种热词的发现方法。该方法包括：对文本数据进行隐含狄利克雷分布聚类，挖掘出多个关键词；从多个关键词中确定高频的关键词作为热词。本发明实施例还提供一种热词的发现系统。本发明实施例将聚类算法用于关键词的挖掘，而不是作为分类算法，消除无监督的聚类算法准确率低对热词发现带来的影响，可以挖掘出不固定的关键词作为热词的获取基础。进一步地够直接达到的效果就是能够挖掘出一定时间段内新增的热词，从更深层次的角度来说，通过新增热词的挖掘，可以发现一定时间段内突发的热点或是激增的用户反馈信息，可以用来进行新增热点的获取，也可以作为预警系统的核心单元，对于激增的用户需求进行及时处理并解决问题。

Description

热词的发现方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种热词的发现方法及系统。

背景技术

热词作为一种词汇现象，反映了一个地区在一个时期人们普遍关注的问题和事物。因此有效的提取出热词是十分必要的。为了挖掘出热词通常会使用以下方法：

1、基于排位差的热词挖掘方法和系统：通过TF-IDF挖掘文本关键词，记录各个关键词的词频，并记录每天的关键词词频排位，相邻两个时间段排位变化最大的前N个词作为热词进行输出。

2、基于词频加权变化率的热词提取方法和系统：获取关键词的历史词频和当前词频，结合关键词所在文本的平均热度权重计算当前热词的词频加权变化率，选取变化率达到第一阈值的关键词作为热词，然后获取热词的频繁项集，对频繁项集进行递归合并处理，得到能够代表热点事件的热词词组。

3、基于大数据的热词发现方法及系统：通过基于CRF(conditional randomfield，条件随机场)的中文国防科技术语抽取模型获取文本中的热词候选集合，通过牛顿冷却法对候选集合进行热度排序，输出热词集合，然后输入分类模型，输出热词类别信息。

4、基于词汇出现频率和突发性的热词挖掘系统及方法：从文本筛选候选热词序列，根据候选热词集合，考虑候选热词在当前时刻和给定历史时间窗口内的出现频率和突发性，计算每个候选热词的生命力，筛选出热词集合；根据筛选出的热词集合，计算热词相关性，构造热词共现网络；根据热词共现网络，使用基于多标签传播热词聚类算法对热词集合进行划分，获得热点话题集。

5、基于预设词库权重和词频的热词挖掘方法与装置：预先设置热词库并对热词库中的各热词设置相应的热词权重，根据热词在文档中的词频以及热词库中设置的热词权重，将文档用热词库中热词进行表示；将用热词库中热词进行表示的文档聚类为预设数目的文档类，对预设数目的文档类进行重新排序，过滤掉文档类重心值小于预先设置的重心阈值的文档类，对过滤后的文档类按照预先设置的热词选取策略进行热词选取。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

1、基于排位差的热词挖掘方法和系统：数据量大时，经过一定时间的积累，关键词的数量会非常庞大，此时就需要选择维护的历史关键词的范围，如果维护范围过大，除了计算压力，还会丧失热词应该具有的高频属性，如果维护的范围过小，就有可能丢失对于原本排名底部但快速上升的词汇和部分新增词汇的统计，导致热词挖掘效果受到影响；只考虑相邻两个时间段，前一时间段词频略少的词汇会被误挖掘为热词。

2、基于词频加权变化率的热词提取方法和系统：关键词的获取范围有限，加权变化率超过阈值的关键词被选为热词，导致热词的获取情况极大依赖于阈值的设定。

3、基于大数据的热词发现方法及系统：使用牛顿冷却法完成核心的热词排序功能，此模型主要体现目标的热度成长情况，并且对参数敏感，初始值的设定会影响后续的热度值，并且该系统的设计很难对突发的热点进行挖掘。

4、基于词汇出现频率和突发性的热词挖掘系统及方法：同时考虑历史频率和突发性，适用于统计一定时间段内的热词，无法对突发热点中的新增热词进行有效的挖掘并与长期存在的热词进行区分。

5、基于预设词库权重和词频的热词挖掘方法与装置：热词挖掘的结果受到预设的热词库权重影响，对于预设热词库的依赖导致很难对突发热点相关的新增热词进行挖掘。

发明内容

为了至少解决现有技术中各种热词挖掘方法的缺陷。

第一方面，本发明实施例提供一种热词的发现方法，包括：

对文本数据进行隐含狄利克雷分布聚类，挖掘出多个关键词；

从所述多个关键词中确定高频的关键词作为热词。

第二方面，本发明实施例提供一种新增热词的发现方法，包括：

利用热词的发现从当前文本数据中确定当前热词；

基于历史热词库对所述当前热词进行过滤，确定出不存在于所述历史热词库中的新增热词。

第三方面，本发明实施例提供一种热词的发现系统，包括：

关键词挖掘程序模块，用于对文本数据进行隐含狄利克雷分布聚类，挖掘出多个关键词；

热词确定程序模块，用于从所述多个关键词中确定高频的关键词作为热词。

第四方面，本发明实施例提供一种新增热词的发现系统，包括：

热词确定程序模块，用于利用热词的发现从当前文本数据中确定当前热词；

过滤程序模块，用于基于历史热词库对所述当前热词进行过滤，确定出不存在于所述历史热词库中的新增热词。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的热词的发现方法的步骤。

第六方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的热词的发现方法的步骤。

本发明实施例的有益效果在于：将聚类算法用于关键词的挖掘，而不是作为分类算法，消除无监督的聚类算法准确率低对热词发现带来的影响，可以挖掘出不固定的关键词作为热词的获取基础。进一步地够直接达到的效果就是能够挖掘出一定时间段内新增的热词，从更深层次的角度来说，通过新增热词的挖掘，可以发现一定时间段内突发的热点或是激增的用户反馈信息，一方面可以用来进行新增热点的获取，一方面也可以作为预警系统的核心单元，对于激增的用户需求进行及时处理，及时发现问题并解决问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种热词的发现方法的流程图；

图2是本发明一实施例提供的一种新增热词的发现方法的流程图；

图3是本发明一实施例提供的一种新增热词的发现方法的系统架构图；

图4是本发明一实施例提供的一种新增热词的发现方法的流程图；

图5是本发明一实施例提供的一种新增热词的发现方法的Day06新增热词词频统计图；

图6是本发明一实施例提供的一种新增热词的发现方法的Day06新增热词词频涨幅图；

图7是本发明一实施例提供的一种新增热词的发现方法的Day07新增热词词频统计图；

图8是本发明一实施例提供的一种新增热词的发现方法的Day07新增热词词频涨幅图；

图9是本发明一实施例提供的一种新增热词的发现方法的Day06新增热词词频统计图；

图10是本发明一实施例提供的一种新增热词的发现方法的Day07新增热词词频涨幅图；

图11是本发明一实施例提供的一种热词的发现系统的结构示意图；

图12是本发明一实施例提供的一种新增热词的发现系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种热词的发现方法的流程图，包括如下步骤：

S11：对文本数据进行隐含狄利克雷分布聚类，挖掘出多个关键词；

S12：从所述多个关键词中确定高频的关键词作为热词。

在本实施方式中，通过整理在指令领域的真实数据，例如，某一时间段内客服收到的对话，或者某一时段内用户的搜索内容。通过在时间段内对上述数据不断的采集，从而确定需要发现热词的文本数据。

对于步骤S11，考虑到将聚类算法用于关键词的挖掘，而不是作为分类算法，消除无监督的聚类算法准确率低和具有随机性对热词发现带来的影响，由于利用聚类操作每次聚类结果的不确定性，挖掘更多的关键词。具体实施中，LDA(Latent DirichletAllocation，隐含狄利克雷分布)算法可以从不同角度挖掘出更多的关键词。其中，LDA要干的事情简单来说就是为一堆文档进行聚类(所以是非监督学习)，一种topic就是一类，要聚成的topic数目是事先指定的。聚类的结果是一个概率，而不是布尔型的100％属于某个类。

对需要热词发现的文本数据进行预处理，在实际使用中，预处理非常重要，可以根据历史数据构建转用的切词自定义词典和停用词词典，用于提升专用领域的切词效果，进而提升关键词的提取效果。

通过隐含狄利克雷分布算法对预处理后的文本数据进行挖掘，由于隐含狄利克雷分布算法聚类的结果是一个概率，因此可以获得多个不同的关键词。

对于步骤S12，虽然聚类挖掘了一些词语，但是这些词语，可能并不是全部都“热”。可以选取多个不同的关键词，较为高频的关键词作为热词。这样，就可以在挖掘出某一时间段内指令领域的热词。

通过该实施方式可以看出，将聚类算法用于关键词的挖掘，而不是作为分类算法，消除无监督的聚类算法准确率低对热词发现带来的影响，可以挖掘出不固定的关键词作为热词的获取基础。进一步地够直接达到的效果就是能够挖掘出一定时间段内新增的热词，从更深层次的角度来说，通过新增热词的挖掘，可以发现一定时间段内突发的热点或是激增的用户反馈信息，一方面可以用来进行新增热点的获取，一方面也可以作为预警系统的核心单元，对于激增的用户需求进行及时处理，及时发现问题并解决问题。

作为一种实施方式，在本实施例中，所述从所述多个关键词中确定高频的关键词作为热词包括：

确定所述文本数据中的高频词；

将所述关键词中属于所述高频词的词语确定为热词。

所述高频词由中位数的方式确定。

在本实施方式中，单纯的多个不同的关键词中寻找高频词语也是需要定义高频预设参数的，这样如果预设参数的值设置不佳，会严重影响热词挖掘效果。

考虑到这一点，期望高频的判断更加贴合文本数据，首先从文本数据中确定高频词，对于高频词的获取使用了中位数的方式，避免了由于不同时间段数据量不同导致词频阈值设置不合理的情况。

作为一种实施方式，在本实施例中，所述对文本数据进行隐含狄利克雷分布聚类，挖掘出多个关键词包括：

对文本数据多次进行隐含狄利克雷分布聚类；

对多次聚类挖掘出的多个关键词进行汇总去重，得到汇总去重后的多个关键词。

在本实施方式中，考虑到挖掘的效率，可以挖掘出更多的热词，进行了多次聚类，例如，可以选出三次。对于关键词的提取使用了三次LDA主题聚类结果汇总的方式，这一点是利用了LDA主题聚类每次聚类的结果具有不固定性，对于关键词挖掘的侧重点也不同，借此可以更全面的进行关键词的挖掘。

由于多次聚类的结果可能会出现词语重合，因此，在聚类后还需要进行汇总去重，例如，第一次聚类的过程中，挖掘出“快递丢失”，第二次聚类过程中，挖掘出“快递柜损坏”，第三次聚类过程中，挖掘出“快递丢失”，因此，需要将“快递丢失”进行汇总去重。

通过该实施方式可以看出，将聚类算法用于关键词的挖掘，而不是作为分类算法，消除无监督的聚类算法准确率低对热词发现带来的影响，可以挖掘出不固定的关键词作为热词的获取基础，在此基础上利用多次LDA聚类的随机性挖掘更为广泛的关键词信息。

如图2所示为本发明一实施例提供的一种新增热词的发现方法的流程图，包括如下步骤：

S21：利用热词的发现方法从当前文本数据中确定当前热词；

S22：基于历史热词库对所述当前热词进行过滤，确定出不存在于所述历史热词库中的新增热词。

所述历史热词库由历史关键词库、历史高频词库确定。

在本实施方式中，虽然确定了热词，但是发现的热词可能是已经有的热词，考虑到希望发现最新出的热词，所以还需要从多个角度来限制新增热词的选取。

对于步骤S21，利用热词发现方法，从当前文本数据中确定出当前的热词，例如，继续以上述实例为例，发现的热词为“快递丢失”。

对于步骤S22，由于要过滤掉历史热词，所以基于历史热词库对当前热词进行过滤。与热词的发现方法结合，整体的结构架构图如图3所示，整体的流程图如图4所示。

历史热词库由历史关键词库、历史高频词库确定。使用历史文本进行历史热词库和历史高频词库初始化，对历史文本数据进行预处理，然后输入LDA聚类算法中进行多次聚类(在实际操作中，可以选取三次，在此，次数不做限定。聚类的次数越多，可以利用多次聚类的随机性挖掘出更为广泛的关键词信息，可以根据实际使用进行适应调整)，记录每一次的聚类关键词，将多次聚类的关键词进行汇总，并去重保存；对历史文本数据统计高频词；对汇总并去重后的关键词进行过滤，将不属于历史高频词的关键词滤除，剩余的高频关键词作为历史热词库的初始化值，高频词作为历史高频词库的初始化值，历史热词库和历史高频词库的初始化只执行一次，后续周期性进行更新。

同样的，热词的发现步骤如下：对新文本数据进行预处理，然后输入LDA聚类算法中进行多次聚类，记录每一次的聚类关键词，将多次聚类的关键词进行汇总，并去重保存，对新文本数据统计高频词，对汇总并去重后的关键词进行过滤，得到热词。

在判断是否为新增热词时，使用多个角度限制新增热词的选择，例如，由历史关键词库、历史高频词库确定的历史热词库，要求选择的新增热词不存在与历史热词库中，并且为高频词。

对本方法进行具体试验，在验证实验中，我们整理了快递场景人工客服7天的线上真实数据(day01-day7，共52328条数据)，每一条数据记录了一通客服电话中用户提出的需求，例如查件、下单、快递柜损坏、快递丢失、投诉等需求，选取day01-day05的数据(共36461条数据)作为历史文本数据，用于进行历史热词库和历史高频词库的初始化，选取day06(共6280条)和day07(共9587条)的数据作为实验数据，目标是发现这两天每天新增的热词。

实验结果：

使用本系统对day06的数据进行分析时，day06有新增热词“写字楼”和“赠送”，这两个词在day06的出现频率如图5所示。

为了验证结果的有效性，对“写字楼”和“赠送”两个词在day01-day05出现频率之和与day06的出现频率进行了对比，如图6所示。

根据图6可知，day06发现的新增热词“写字楼”和“赠送”在day01-day05的频率总和仅有5个和11个，在day06这两个词的词频快速增长到了68个和154个，由于两个词是高频关键词，并且没有在历史热词中出现过，因此被作为新增热词输出。

使用新增热词发现系统对day07的数据进行分析时，day07有新增热词“公告”，这两个词在day07的出现频率如图7所示。

为了验证结果的有效性，对“公告”在day01-day05出现频率之和与day06、day07的出现频率进行了对比，如图8所示。

根据图8可知，day07发现的新增热词“公告”在day01-day05的频率总和仅有13个，在day06增长到了56个，但是增长幅度较小，因此未作为新增热词，在day07时“公告”的词频快速增加到了138个，因此被作为新增热词输出。

为了再次验证新增热词发现系统对于突发热点对应的新增热词能够有效挖掘，我们人为在day06的数据中加入“打赏”相关的语料，将扩充后的day06语料输入新增热词发现系统，可以得到3个新增热词，分别为“写字楼”，“赠送”，“打赏”，词频统计如图9所示。

对新增热词在day01-day05出现频率之和与day06、的出现频率进行了对比，如图10所示。

如图10所示，新增热词发现系统不但挖掘出了实际日志中的新增热词，还成功挖掘到了手动增加的新增热词“打赏”。

综上所述，本方法通过关键词的挖掘和筛选，能够有效的挖掘指定时间段范围内的新增热词。

如图11所示为本发明一实施例提供的一种热词的发现系统的结构示意图，该系统可执行上述任意实施例所述的热词的发现方法，并配置在终端中。

本实施例提供的一种热词的发现系统10包括：关键词挖掘程序模块11和热词确定程序模块12。

其中，关键词挖掘程序模块11用于对文本数据进行隐含狄利克雷分布聚类，挖掘出多个关键词；热词确定程序模块12用于从所述多个关键词中确定高频的关键词作为热词。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的热词的发现方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

从所述多个关键词中确定高频的关键词作为热词。

如图12所示为本发明一实施例提供的一种新增热词的发现系统的结构示意图，该系统可执行上述任意实施例所述的新增热词的发现方法，并配置在终端中。

本实施例提供的一种新增热词的发现系统20包括：热词确定程序模块21和过滤程序模块22。

其中，热词确定程序模块21用于利用热词发现的系统从当前文本数据中确定当前热词；热词确定程序模块22用于基于历史热词库对所述当前热词进行过滤，确定出不存在于所述历史热词库中的新增热词。

利用热词的发现方法从当前文本数据中确定当前热词；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的热词的发现方法以及新增热词的发现方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的热词的发现方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种热词的发现方法，包括：

从所述多个关键词中确定高频的关键词作为热词。

2.根据权利要求1所述的方法，其中，所述从所述多个关键词中确定高频的关键词作为热词包括：

确定所述文本数据中的高频词；

将所述关键词中属于所述高频词的词语确定为热词。

3.根据权利要求1所述的方法，其中，所述对文本数据进行隐含狄利克雷分布聚类，挖掘出多个关键词包括：

对文本数据多次进行隐含狄利克雷分布聚类；

4.根据权利要求2所述的方法，其中，所述高频词由中位数的方式确定。

5.一种新增热词的发现方法，包括：

利用权利要求1-4中任一项所述的方法从当前文本数据中确定当前热词；

6.根据权利要求1所述的方法，其中，所述历史热词库由历史关键词库、历史高频词库确定。

7.一种热词的发现系统，包括：

8.一种新增热词的发现系统，包括：

热词确定程序模块，用于利用权利要求7所述的系统从当前文本数据中确定当前热词；

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。