CN107168943B

CN107168943B - 话题预警的方法和装置

Info

Publication number: CN107168943B
Application number: CN201710225685.3A
Authority: CN
Inventors: 王健宗; 黄章成; 吴天博; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2018-07-03
Anticipated expiration: 2037-04-07
Also published as: CN107168943A; TW201837755A; SG11201809697YA; US20210224481A1; TWI663520B; WO2018184306A1; US11205046B2

Abstract

本发明提出了一种话题预警的方法，所述方法包括：获取自定义关键词；计算所述自定义关键词与语料库中每个词语之间的相似度，根据所述相似度从语料库中获取与所述自定义关键词相关的扩展关键词；根据所述扩展关键词的类型和所述扩展关键词与所述自定义关键词之间的相似度从所述扩展关键词中筛选出目标关键词，加入目标关键词列表；根据所述目标关键词列表中的目标关键词进行实时监听；当监听到目标关键词所对应的话题量达到预设阈值时，进行话题预警。该方法不仅能够实时进行监听预警，而且满足了个性化的监听预警需求。此外，还提出了一种话题预警的装置。

Description

话题预警的方法和装置

技术领域

本发明涉及计算机处理领域，特别是涉及一种话题预警的方法和装置。

背景技术

随着社交媒体的发展，社交网站、在线社区、微博等已逐渐成为人们生活中不可或缺的一部分，也是当今时代信息传播的主要渠道，与此同时，社交媒体也是舆情传播的重要途径。通过对社交媒体的话题监听预警，能够为决策者提供科学化的信息支持。传统的对社交媒体话题监听预警是通过对获取到的历史数据进行分析，然后针对不同的话题进行标签分级。由于话题更新速度非常快，仅仅针对历史数据进行分析得出的结果显然不够准确，且传统的话题监听是针对所有的话题进行监听，没有考虑到用户的个性化需求。

发明内容

基于此，有必要针对上述问题，提出一种可以实现实时监听且能够满足用户个性化需求的话题预警的方法和装置。

一种话题预警的方法，所述方法包括：获取自定义关键词；计算所述自定义关键词与语料库中每个词语之间的相似度，根据所述相似度从语料库中获取与所述自定义关键词相关的扩展关键词；根据所述扩展关键词的类型和所述扩展关键词与所述自定义关键词之间的相似度从所述扩展关键词中筛选出目标关键词，加入目标关键词列表；根据所述目标关键词列表中的目标关键词进行实时监听；当监听到目标关键词所对应的话题量达到预设阈值时，进行话题预警。

在其中一个实施例中，所述根据所述扩展关键词的类型和所述扩展关键词与所述自定义关键词之间的相似度从所述扩展关键词中筛选出目标关键词，加入目标关键词列表的步骤包括：将所述扩展关键词按照预设的类型进行分类；从每一类的扩展关键词中筛选出与所述自定义关键词相似度最高的前h个扩展关键词作为目标关键词，其中，h为大于0的正整数；将每一类筛选出来的目标关键词进行聚合，生成用于监听的目标关键词列表。

在其中一个实施例中，在获取自定义关键词的步骤之后还包括：计算所述自定义关键词对应的词向量；所述计算所述自定义关键词与语料库中每个词语之间的相似度，根据所述相似度从语料库中获取与所述自定义关键词相关的扩展关键词的步骤包括：计算自定义关键词的词向量与所述语料库中每个词语的词向量之间的相似度；根据词向量之间的相似度从语料库中获取与所述自定义关键词相关的扩展关键词。

在其中一个实施例中，所述计算所述自定义关键词与语料库中每个词语之间的相似度，根据相似度从语料库中获取与所述自定义关键词相关的扩展关键词的步骤包括：采用皮尔森相关系数方法计算所述自定义关键词与语料库中每个词语之间的相似度；获取与所述自定义关键词相似度最高的前K个词语作为所述自定义关键词的扩展关键词，其中，K为大于0的正整数。

在其中一个实施例中，所述根据所述目标关键词列表中的目标关键词进行实时监听的步骤包括：采用滑动窗口的形式对所述目标关键词列表中的每一个目标关键词进行实时监听。

一种话题预警的装置，所述装置包括：自定义关键词获取模块，用于获取自定义关键词；扩展关键词获取模块，用于计算所述自定义关键词与语料库中每个词语之间的相似度，根据所述相似度从语料库中获取与所述自定义关键词相关的扩展关键词；目标关键词筛选模块，用于根据所述扩展关键词的类型和所述扩展关键词与所述自定义关键词之间的相似度从所述扩展关键词中筛选出目标关键词，加入目标关键词列表；监听模块，用于根据所述目标关键词列表中的目标关键词进行实时监听；预警模块，用于当监听所述目标关键词所对应的话题量达到预设阈值时，进行话题预警。

在其中一个实施例中，所述目标关键词筛选模块包括：分类模块，用于将所述扩展关键词按照预设的类型进行分类；筛选模块，用于从每一类的扩展关键词中筛选出与所述自定义关键词相似度最高的前h个扩展关键词作为目标关键词，其中，h为大于0的正整数；聚合模块，用于将每一类筛选出来的目标关键词进行聚合，生成用于监听的目标关键词列表。

在其中一个实施例中，所述装置还包括：计算模块，用于计算所述自定义关键词对应的词向量；扩展关键词获取模块还用于计算自定义关键词的词向量与所述语料库中每个词语的词向量之间的相似度，根据词向量之间的相似度从语料库中获取与所述自定义关键词相关的扩展关键词。

在其中一个实施例中，所述扩展词获取模块还用于采用皮尔森相关系数方法计算所述自定义关键词与语料库中每个词语之间的相似度，获取与所述自定义关键词相似度最高的前K个词语作为所述自定义关键词的扩展关键词，其中，K为大于0的正整数。

在其中一个实施例中，所述预警模块还用于采用滑动窗口的形式对所述目标关键词列表中的每一个目标关键词进行实时监听。

上述话题预警的方法和装置，通过获取用户自定义关键词，然后在语料库中根据相似度对该自定义关键词进行扩展，获取相关的扩展关键词，再根据扩展关键词的类型和相似度进行筛选，筛选出最终用于监听的目标关键词，之后在社交媒体上根据该目标关键词进行实时监听，当监听到目标关键词的话题量达到预设阈值时，进行话题预警。该方法和装置不仅能够实时对话题进行监听，而且可以基于用户自定义的关键词有针对性的进行监控，满足了用户的个性化监听预警的需求。通过对用户所要监控的自定义关键词进行扩展和筛选，保证了监听的多样性和全面性。

附图说明

图1为一个实施例中终端的内部结构框图；

图2为一个实施例中服务器的内部结构框图；

图3为一个实施例中话题预警的方法流程图；

图4为一个实施例中根据扩展关键词的类型和扩展关键词与自定义关键词之间的相似度从扩展关键词中筛选出目标关键词的方法流程图；

图5为另一个实施例中话题预警的方法流程图；

图6为一个实施例中计算自定义关键词与语料库中每个词语之间的相似度，根据相似度从语料库中获取扩展关键词的方法流程图；

图7为一个实施例中话题预警的装置结构框图；

图8为一个实施例中目标关键词筛选模块的结构框图；

图9为另一个实施例中话题预警的装置结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，在一个实施例中，终端102的内部结构如图1所示，包括通过系统总线连接的处理器、非易失性存储介质、内存储器、网络接口、显示屏和输入装置。其中，终端102的处理器用于提供计算和控制能力，支撑整个终端102的运行。非易失性存储介质存储有操作系统，还包括一种话题预警的装置，该话题预警的装置用于实现一种话题预警的方法。终端102中的内存储器为非易失性存储介质中的话题预警的装置的运行提供环境，该内存储器中存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种话题预警的方法。网络接口用于连接到网络进行通信。终端102的显示屏可以是液晶显示屏或者电子墨水显示屏等，输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，也可以是外接的键盘、触控板或鼠标等。该终端102可以是平板电脑、笔记本电脑、台式计算机等。本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图2所示，在一个实施例中，服务器104的内部结构如图2所示，包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中，该服务器104的处理器用于提供计算和控制能力，支撑整个服务器的运行。该非易失存储介质包括操作系统和话题预警的装置。该话题预警的装置用于实现一种话题预警的方法，该服务器104的内存储器为非易失性存储介质中的话题预警的装置的运行提供环境，该内存储器中可储存有计算机可读指令，该计算机可读指令被所述处理器执行时，可使得所述处理器执行一种话题预警的方法。该服务器的网络接口用于与外部的服务器和终端通过网络连接通信。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图3所示，在一个实施例中，提出了一种话题预警的方法，该方法可应用于终端或服务器中，具体包括以下步骤：

步骤302，获取自定义关键词。

在本实施例中，自定义关键词是指用户给出的符合用户监听需求的关键词。为了能够满足用户的个性化的监听需求，监听关键词的设定是根据用户自定义关键词来设定的。由于大数据时代的社交媒体信息错综复杂，主体多种多样，而不同的用户所关注的话题不尽相同，自定义关键词不仅能带来友好的用户交互，更多的是能够实现用户监听需求的个性化以及多元化。

步骤304，计算自定义关键词与语料库中每个词语之间的相似度，根据相似度从语料库中获取与自定义关键词相关的扩展关键词。

在本实施例中，由于用户给定的自定义关键词往往不够完整和全面，因此有必要对该自定义关键词进行一定的扩展。获取与该自定义关键词相关的扩展关键词，有利于保证用户对所需要监听的话题更加全面和完整，从而保证监听结果的完整性和多样性。通过计算自定义关键词与语料库中每个词语之间的相似度，从语料库中选取与自定义关键词相似度比较大的词语作为扩展关键词。相似度越大，说明该词语与自定义关键词的语义越相近。词语相似度的计算方法有多种，比如，可以采用同义词词林的方式计算词语之间的相似度，也采用皮尔森相关系数来计算词语之间的相似度。这里并不对词语相似度的计算方法进行限定。

在一个实施例中，相似度的计算是通过计算词向量之间的相似度得到的。首先，采用word2vec模型计算自定义关键词对应的词向量，其中，word2vec是一款将词表征为实数值向量的高效工具，其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为k维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。具体地，将自定义关键词作为word2vec模型的输入，输出该自定义关键词的词向量表示。获取到自定义关键词的词向量表示之后，通过计算词向量之间的相似度从语料库中筛选出自定义关键词的扩展关键词。为了能够更快的获取到与自定义关键词相关的扩展关键词，可以将语料库中的词语均以词向量的形式存储。在一个实施例中，采用皮尔森相关系数(Pearson Correlation Coefficient)来计算词向量之间的相似度。假设自定义关键词的向量表示为W＝(w₁,w₂,…,w_n)，语料库中任一词语的向量表示为X＝(x₁,x₂,…,x_n)，那么它们之间的相似度s(W,X)为：

其中，n表示词向量的第n个词向量特征，i表示词向量中的第i个词向量特征。通过计算自定义关键词与语料库中每个词语的相似度筛选出与自定义关键词相关的扩展关键词。具体地，可以将相似度按照从高到低的顺序进行排列，选出出相似度最高的前k个词语作为自定义关键词的扩展关键词。将自定义关键词进行扩展，使得关键词更具多样性，保证了话题监听结果具有与相似关键词的对比性，便于为决策者提供更丰富的信息。

步骤306，根据扩展关键词的类型和扩展关键词与自定义关键词之间的相似度从扩展关键词中筛选出目标关键词，加入目标关键词列表。

在本实施例中，如果对步骤204得到的扩展关键词全部监听，将会使得信息错杂冗乱。所以为了保证信息的清楚，需要对获取到的扩展关键词进行进一步的筛选。根据扩展关键词的类型和扩展关键词与自定义关键词之间的相似度从扩展关键词中筛选出目标关键词的方法有多种。在一个实施例中，首先，将获取到的全部扩展关键词进行分类，然后从每一类中选取出与自定义关键词相似度最高的前h个扩展关键词作为目标关键词，其中，h为大于0的正整数，将每一类筛选出来的目标关键词进行聚合，生成用于监听的目标关键词列表。在另一个实施例中，首先，获取全部扩展词对应的类型，然后将相同类型的关键词分为一组。分别获取每一类扩展关键词对应的扩展词数目，以扩展词数目最少的类型为基准，假设扩展词数目最少的类型对应的数目为X个，那么分别从其他每一类型中也筛选出X个扩展关键词作为目标关键词，其中，从其他每一类型中筛选出X个扩展关键词是根据相似度的大小进行筛选的，分别筛选出其他每一类扩展关键词中相似度最高的前X个扩展关键词作为目标关键词，加入目标关键词列表。

步骤308，根据目标关键词列表中的目标关键词进行实时监听。

在本实施例中，当确定了目标关键词列表后，根据目标关键词列表中的目标关键词进行实时监听。由于社交媒体数据每时每刻都在产生，迅速而规模庞大，形成了庞大的网络数据流。为了更好的对话题进行监听，可以采用基于滑动窗口的时序管理框架。基于滑动窗口的时序管理框架的主要思想是：对于目标监听列表中的每一个目标关键词，以滑动窗口的形式对话题数据流进行管理，每个目标关键词维护一个一定大小的缓存，每过一个时间片(为了实时监听，时间片的设置通常很小，比如5分钟)，数据窗口进行滑动，然后对缓存中的数据进行处理。

步骤310，当监听到目标关键词所对应的话题量达到预设阈值时，进行话题预警。

在本实施例中，良好的监听必定需要预警，通过监听目标关键词所对应的话题量是否达到预设阈值，对话题进行预警。预警可以从两个方面来进行考虑，第一，对预设的时间片内的话题量进行监听预警。由于时间片是一个较短的时间，所以通过对短时间内的话题监听，能够对短时间内的突发事件进行预警。第二，对于一段时间段的话题进行预警，很多时候事件的发生或舆情的走势并不一定是急剧的，因此，考察一段时间内话题的热点能够帮助决策者发现事件的兴起或舆情的逐渐走势。具体地，采用两种评价策略进行关键词的实时预警，一种是采用话题热度进行预警，通过分析大量的关键词的热度变化趋势及其生命周期，以经验的方式确定热度临界阈值，当监听的目标关键词在一个滑动窗口的时间片内出现的频率大于该热度临界阈值时，进行预警响应。一种是采用情感极性比率进行预警，对监听的目标关键词列表相关的社会网络文本进行情感极性分析，主要包括正面、中性和负面三个方面的情感极性，当负面情感在所有该目标关键词对应的话题量中占的比率大于情感极性阈值时，进行预警。该话题预警的方法可以应用于很多领域，尤其是可以应用于金融领域。以应用于金融产品为例，说明一下该话题预警的益处。首先，互联网与金融产业息息相关，根据对互联网数据的监控可以为金融产品避免诸多损失。其次，与金融相关的关键词比较有规律，而且相对比较固定，通过对金融产品相关的话题进行监听预警，可以实现快速响应而不失准确率。

在本实施例中，通过获取用户自定义关键词，然后在语料库中根据相似度对该自定义关键词进行扩展，获取相关的扩展关键词，再根据扩展关键词的类型和相似度进行筛选，筛选出最终用于监听的目标关键词，之后在社交媒体上根据该目标关键词进行实时监听，当监听到目标关键词的话题量达到预设阈值时，进行话题预警。该方法不仅能够实时对话题进行监听，而且可以基于用户自定义的关键词有针对性的进行监控，满足了用户的个性化监听预警的需求。通过对用户所要监控的自定义关键词进行扩展和筛选，保证了监听的多样性和全面性。

如图4所示，在一个实施例中，根据扩展关键词的类型和扩展关键词与自定义关键词之间的相似度从扩展关键词中筛选出目标关键词，加入目标关键词列表的步骤包括：

步骤306A，将扩展关键词按照预设的类型进行分类。

在本实施例中，为了对基于自定义关键词的监听能够监听的更加全面和平衡化。首先，需要对扩展关键词按照预设的类型进行分类，比如，将扩展关键词按照“品牌”、“产品”、“竞品”分为三类。这样，便于后续针对每一类挑选出相同个数的目标关键词进行监听，有利于保证监听信息的清楚和平衡。

步骤306B，从每一类的扩展关键词中筛选出与自定义关键词相似度最高的前h个扩展关键词作为目标关键词，其中，h为大于0的正整数。

在本实施例中，将扩展关键词按照预设的类型进行分类后，采用众包策略从每一类的扩展关键词中筛选出与自定义关键词相似度最高的前h个扩展关键词作为目标关键词。例如，从每一类中挑选出与自定义关键词相似度最高的前5个词语，最后将挑选出的每一类的目标关键词进行聚合。

步骤306C，将每一类筛选出来的目标关键词进行聚合，生成用于监听的目标关键词列表。

在本实施例中，通过从每一类的扩展关键词中筛选出与自定义关键词相似度最高的前h个扩展关键词作为目标关键词后，将每一类筛选出来的目标关键词聚集起来，放在同一张列表中，即生成目标关键词列表，后续便于根据该目标关键词列表中的目标关键词进行实时监听。比如，若将扩展关键词按照“品牌”、“产品”、“竞品”分为三类。若每一类都挑选出5个目标关键词，那么将总共挑选出15个目标关键词进行监听。通过将扩展关键词进行分类，然后再针对每一类进行筛选有利于监听的内容更加清晰和全面，不会出现偏激化的结果。

如图5所示，在一个实施例中，提出了一种话题预警的方法，该方法包括：

步骤502，获取自定义关键词。

步骤504，计算自定义关键词对应的词向量。

步骤506，计算自定义关键词的词向量与语料库中每个词语的词向量之间的相似度，根据词向量之间的相似度从语料库中获取与自定义关键词相关的扩展关键词。

步骤508，根据扩展关键词的类型和扩展关键词与自定义关键词之间的相似度从扩展关键词中筛选出目标关键词，加入目标关键词列表。

步骤510，根据目标关键词列表中的目标关键词进行实时监听。

步骤512，当监听到目标关键词所对应的话题量达到预设阈值时，进行话题预警。

在本实施例中，当获取到自定义关键词后，为了后续计算词向量之间的相似度，首先需要计算该自定义关键词对应的词向量，通过将自定义关键词作为word2vec模型的输入，生成与该自定义关键词对应的词向量并输出。为了监听的更加全面，需要对自定义关键词进行扩展，即找出相关的与该自定义关键词语义相近的词语表示。通过计算自定义关键词与语料库中的每个词语之间的相似度来获取与自定义关键词相关的扩展关键词，其中，相似度越高，说明与自定义关键词的语义越相近。具体地，可以采用皮尔森相关系数(Pearson Correlation Coefficient)方法计算自定义关键词的词向量与语料库中每个词语的词向量之间的相似度，从中挑选出与自定义关键词相似度最高的前K个(比如，设K＝50)词语作为扩展关键词。如果对挑选出来的扩展关键词全部进行监听，将会使得信息显得冗杂，为了解决这一问题，还需要对挑选出来的扩展关键词进行进一步的筛选。基于众包策略对扩展关键词进行进一步的筛选，首先对挑选出来的扩展关键词进行分类，比如，按照“品牌”、“产品”、“竞品”分为三类。分类完成后，针对每一类，根据之前计算得到的每个扩展关键词与自定义关键词之间的相似度，每一类选出与自定义关键词相似度最高的前h个词语作为目标关键词，然后将每一类筛选出来的目标关键词进行汇总，放在同一个列表中，即都加入目标关键词列表。之后根据该目标关键词列表进行监听，并进行相应的预警。该方法通过对用户自定义关键词进行扩展，保证了监听的多样性和全面性，结合众包技术对扩展关键词进行进一步甄选保证了监听结果不具有偏激化。

如图6所示，在一个实施例中，计算自定义关键词与语料库中每个词语之间的相似度，根据相似度从语料库中获取与自定义关键词相关的扩展关键词的步骤包括：

步骤304A，采用皮尔森相关系数方法计算自定义关键词与语料库中每个词语之间的相似度。

在本实施例中，为了对自定义关键词进行扩展，找出与自定义关键词语义相近的扩展关键词，通过采用皮尔森相关系数方法来计算自定义关键词与语料库中每个词语之间的相似度。相似度越大，语义越相近。具体地，首先，获取自定义关键词的词向量表示，可以通过word2vec方法计算得到。然后计算自定义关键词的词向量与语料库中词语的词向量之间的相似度。为了能够更加快捷的计算自定义关键词与语料库中词语之间的相似度，在语料库中，词语是以词向量的形式存在的。假设自定义关键词的词向量表示为W＝(w₁,w₂,…,w_n)，语料库中任一词语的词向量表示为X＝(x₁,x₂,…,x_n)，那么它们之间的相似度s(W,X)为：

步骤304B，获取与自定义关键词相似度最高的前K个词语作为自定义关键词的扩展关键词，其中，K为大于0的正整数。

在本实施例中，显然，对自定义关键词进行无限扩展是不切实际的，所以需要从语料库中筛选出相似度比较大的词语作为扩展关键词。具体地，采用贪心策略选择与自定义关键词相似度最高的前K个词语作为自定义关键词的扩展，设扩展关键词集合为ES(W)，那么ES(W)＝{X|s(W,X)≥s(W,X_k)}，其中，W表示自定义关键词，X_k表示与自定义关键词相似度第K大的词汇，比如，可以设置K＝50，即选取与自定义关键词相似度最高的前50个词汇作为其扩展关键词集合。

在一个实施例中，根据目标关键词列表中的目标关键词进行实时监听的步骤包括：采用滑动窗口的形式对目标关键词列表中的每一个目标关键词进行实时监听。

在本实施例中由于社交媒体数据每时每刻都在产生，且迅速而规模庞大，为了达到对话题进行实时监听，需要解决如何在数据流的环境下进行话题的实时监听。在该实施例中，通过采用基于滑动窗口的形式对目标关键词列中的每一个目标关键词进行实时监听。即以滑动窗口的形式对话题数据流进行管理，每个目标关键词维护一个一定大小的缓存，每过一个时间片，数据窗口进行滑动，然后对缓存中的数据进行处理，从而实现了对每个目标关键词进行实时监听。

如图7所示，在一个实施例中，提出了一种话题预警的装置700，该装置包括：

自定义关键词获取模块702，用于获取自定义关键词。

扩展关键词获取模块704，用于计算自定义关键词与语料库中每个词语之间的相似度，根据相似度从语料库中获取与自定义关键词相关的扩展关键词。

目标关键词筛选模块706，用于根据扩展关键词的类型和扩展关键词与自定义关键词之间的相似度从扩展关键词中筛选出目标关键词，加入目标关键词列表。

监听模块708，用于根据目标关键词列表中的目标关键词进行实时监听。

预警模块710，用于当监听目标关键词所对应的话题量达到预设阈值时，进行话题预警。

如图8所示，在一个实施例中，目标关键词筛选模块706包括：

分类模块706A，用于将扩展关键词按照预设的类型进行分类。

筛选模块706B，用于从每一类的扩展关键词中筛选出与自定义关键词相似度最高的前h个扩展关键词作为目标关键词，其中，h为大于0的正整数。

聚合模块706C，用于将每一类筛选出来的目标关键词进行聚合，生成用于监听的目标关键词列表。

如图9所示，在一个实施例中，提出了一种话题预警的装置900，除了包括上述模块702-710，还包括：

计算模块703，用于计算自定义关键词对应的词向量。

扩展关键词获取模块704还用于计算自定义关键词的词向量与语料库中每个词语的词向量之间的相似度，根据词向量之间的相似度从语料库中获取与自定义关键词相关的扩展关键词。

在一个实施例中，扩展词获取模块还用于采用皮尔森相关系数方法计算自定义关键词与语料库中每个词语之间的相似度，获取与自定义关键词相似度最高的前K个词语作为自定义关键词的扩展关键词，其中，K为大于0的正整数。

在一个实施例中，预警模块还用于采用滑动窗口的形式对目标关键词列表中的每一个目标关键词进行实时监听。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种话题预警的方法，所述方法包括：

获取自定义关键词；

计算所述自定义关键词与语料库中每个词语之间的相似度，根据所述相似度从语料库中获取与所述自定义关键词相关的扩展关键词，具体地，采用皮尔森相关系数方法计算所述自定义关键词与语料库中每个词语之间的相似度；采用贪心策略选择与自定义关键词相似度最高的前K个词语作为自定义关键词的扩展关键词，设扩展关键词集合为ES(W)，那么,ES(W)＝{X|s(W,X)≥s(W,X_K)}，其中，s(W,X)表示相似度，W表示自定义关键词，X_K表示与自定义关键词相似度第K大的词汇，K＝50；

根据所述扩展关键词的类型和所述扩展关键词与所述自定义关键词之间的相似度从所述扩展关键词中筛选出目标关键词，加入目标关键词列表，包括：将所述扩展关键词按照预设的品牌、产品、竞品类型进行分类，所述分类用于针对每一类挑选出相同个数的目标关键词进行监听；从每一类的扩展关键词中筛选出与所述自定义关键词相似度最高的前h个扩展关键词作为目标关键词，其中，h为大于0的正整数，将每一类筛选出来的目标关键词进行聚合，生成用于监听的目标关键词列表；

根据所述目标关键词列表中的目标关键词进行实时监听，包括：采用滑动窗口的形式对所述目标关键词列表中的每一个目标关键词进行实时监听，其中，每个目标关键词维护一个缓存，每过一个时间片，数据窗口进行滑动，对缓存中的数据进行处理；

当监听到目标关键词所对应的话题量达到预设阈值时，进行话题预警，包括：两个方面的预警，第一，对预设时间片内的话题量进行监听预警；第二，对一个时间段的话题进行预警，具体地，采用两种评价策略进行关键词的实时预警，一种是采用话题热度进行预警，当监听的目标关键词在一个滑动窗口的时间片内出现的频率大于预设热度临界阈值时，进行预警，一种是采用情感极性比率进行预警，对监听的目标关键词列表相关的社会网络文本进行情感极性分析，情感极性包括正面、中性和负面情感，当负面情感在所有所述目标关键词对应的话题量中占的比率大于情感极性阈值时，进行预警。

2.根据权利要求1所述的话题预警的方法，其特征在于，在获取自定义关键词的步骤之后还包括：

计算所述自定义关键词对应的词向量；

所述计算所述自定义关键词与语料库中每个词语之间的相似度，根据所述相似度从语料库中获取与所述自定义关键词相关的扩展关键词的步骤包括：

计算自定义关键词的词向量与所述语料库中每个词语的词向量之间的相似度；

根据词向量之间的相似度从语料库中获取与所述自定义关键词相关的扩展关键词。

3.一种话题预警的装置，其特征在于，所述装置包括：

自定义关键词获取模块，用于获取自定义关键词；

扩展关键词获取模块，用于计算所述自定义关键词与语料库中每个词语之间的相似度，根据所述相似度从语料库中获取与所述自定义关键词相关的扩展关键词,具体地，采用皮尔森相关系数方法计算所述自定义关键词与语料库中每个词语之间的相似度；采用贪心策略选择与自定义关键词相似度最高的前K个词语作为自定义关键词的扩展关键词，设扩展关键词集合为ES(W)，那么,ES(W)＝{X|s(W,X)≥s(W,X_K)}，其中，s(W,X)表示相似度，W表示自定义关键词，X_K表示与自定义关键词相似度第K大的词汇，K＝50；

目标关键词筛选模块，用于根据所述扩展关键词的类型和所述扩展关键词与所述自定义关键词之间的相似度从所述扩展关键词中筛选出目标关键词，加入目标关键词列表；

监听模块，用于根据所述目标关键词列表中的目标关键词进行实时监听，包括：采用滑动窗口的形式对所述目标关键词列表中的每一个目标关键词进行实时监听，包括：每个目标关键词维护一个缓存，每过一个时间片，数据窗口进行滑动，对缓存中的数据进行处理；

预警模块，用于当监听所述目标关键词所对应的话题量达到预设阈值时，进行话题预警，包括：两个方面的预警，第一，对预设时间片内的话题量进行监听预警；第二，对一个时间段的话题进行预警，具体地，采用两种评价策略进行关键词的实时预警，一种是采用话题热度进行预警，当监听的目标关键词在一个滑动窗口的时间片内出现的频率大于预设热度临界阈值时，进行预警，一种是采用情感极性比率进行预警，对监听的目标关键词列表相关的社会网络文本进行情感极性分析，所述情感包括正面、中性和负面情感，当负面情感在所有所述目标关键词对应的话题量中占的比率大于情感极性阈值时，进行预警；

所述目标关键词筛选模块包括：

分类模块，用于将所述扩展关键词按照预设的品牌、产品、竞品类型进行分类，所述分类用于针对每一类挑选出相同个数的目标关键词进行监听；

筛选模块，用于从每一类的扩展关键词中筛选出与所述自定义关键词相似度最高的前h个扩展关键词作为目标关键词，其中，h为大于0的正整数；

聚合模块，用于将每一类筛选出来的目标关键词进行聚合，生成用于监听的目标关键词列表。

4.根据权利要求3所述的话题预警的装置，其特征在于，所述装置还包括：

计算模块，用于计算所述自定义关键词对应的词向量；

扩展关键词获取模块还用于计算自定义关键词的词向量与所述语料库中每个词语的词向量之间的相似度，根据词向量之间的相似度从语料库中获取与所述自定义关键词相关的扩展关键词。