CN110457595B

CN110457595B - 突发事件报警方法、装置、系统、电子设备及存储介质

Info

Publication number: CN110457595B
Application number: CN201910708734.8A
Authority: CN
Inventors: 徐灿; 李铮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2023-07-04
Anticipated expiration: 2039-08-01
Also published as: CN110457595A

Abstract

本申请涉及计算机技术领域，公开了一种突发事件报警方法、装置、系统、电子设备及存储介质，该方法包括：对待处理的文本数据进行分词处理，得到若干个候选词；针对每个候选词，根据当前时间窗口内产生的文本数据，确定候选词的第一占比值，根据预设数量个历史时间窗口内产生的文本数据，确定候选词的预测占比值和波动性特征值，根据候选词的第一占比值、预测占比值和波动性特征值，确定候选词的波动性得分，波动性得分用于表征候选词的第一占比值相对于预测占比值的增长率；根据波动性得分从高到低的排序，选择K个候选词确定出至少一个突发事件，对确定出的至少一个突发事件进行报警处理。本申请提供的技术方案能够提高突发事件的报警准确率。

Description

突发事件报警方法、装置、系统、电子设备及存储介质

技术领域

本申请计算机技术，特别涉及数据处理技术，尤其涉及一种突发事件报警方法、装置、系统、电子设备及存储介质。

背景技术

随着论坛、贴吧、社交网络等网络交流渠道的日益流行，越来越多的人通过网络发表各种观点言论，发布问题、回答问题等，基于这些UGC(User Generated Content，用户生成内容)数据可以挖掘出当前正在发生的各种突发事件，可以应用于突发热点新闻发现及追踪、实时决策、灾难预警、故障报警等多种领域。

现有的检测突发事件的方法通常是，基于UGC数据确定出候选词，统计候选词在多个历史时间窗口内的词频，然后计算这多个词频的平均值，作为候选词在当前时间窗口内的预测词频，统计候选词在当前时间窗口内的真实词频，若预测词频与真实词频的差值超过设定的异常阈值，则确定该候选词为异常词，基于异常词确定出突发事件。

现有通过计算平均值预测词频的方法，仅仅考虑了当前时间窗口的情况，影响了异常词检测和突发事件报警的准确率。

发明内容

本申请实施例提供一种突发事件报警方法、装置、系统、电子设备及存储介质，以提高突发事件报警的准确率。

一方面，本申请一实施例提供了一种突发事件报警方法，包括：

获取待处理的文本数据，所述待处理的文本数据包括当前时间窗口内产生的文本数据和所述当前时间窗口之前的预设数量个历史时间窗口内产生的文本数据；

对所述待处理的文本数据进行分词处理，得到若干个候选词；

针对每个候选词，根据所述当前时间窗口内产生的文本数据，确定所述候选词的第一占比值，所述第一占比值为所述当前时间窗口内包含所述候选词的文本的数量与所述当前时间窗口内的文本总数之比；

针对每个候选词，根据预设数量个历史时间窗口内产生的文本数据，确定所述候选词的预测占比值和波动性特征值；

针对每个候选词，根据所述候选词的第一占比值、预测占比值和波动性特征值，确定所述候选词的波动性得分，所述波动性得分用于表征所述候选词的第一占比值相对于预测占比值的增长率；

根据波动性得分从高到低的排序，选择K个候选词确定出至少一个突发事件；

对确定出的至少一个突发事件进行报警处理。

可选地，所述根据所述当前时间窗口内产生的文本数据，确定所述候选词的第一占比值，具体包括：

将所述当前时间窗口内包含所述候选词的文本的数量除以所述当前时间窗口内的文本总数，得到所述候选词的第三占比值；

针对与所述候选词互为同义词的每个分词片段，将所述当前时间窗口内包含所述分词片段的文本的数量除以所述当前时间窗口内的文本总数，得到所述分词片段的第四占比值；

将所述第三占比值和所述第四占比值之和确定为所述候选词的第一占比值。

可选地，所述确定所述候选词在所述历史时间窗口内的第二占比值，具体包括：

将所述历史时间窗口内包含所述候选词的文本的数量除以所述历史时间窗口内的文本总数，得到所述候选词的第五占比值；

针对与所述候选词互为同义词的每个分词片段，将所述历史时间窗口内包含所述分词片段的文本的数量除以所述历史时间窗口内的文本总数，得到所述分词片段的第六占比值；

将所述第五占比值和所述第六占比值之和确定为所述候选词在所述历史时间窗口内的第二占比值。

可选地，所述对确定出的至少一个突发事件进行报警处理，具体包括：

根据所述突发事件对应的共现概率矩阵，展示所述突发事件对应的关联图，所述关联图中的一个节点对应一个异常词，所述关联图中的一条边对应所述共现概率矩阵中一个大于概率阈值的共现概率。

可选地，所述获取待处理的文本数据，具体包括：

获取待处理数据，所述待处理数据包括当前时间窗口内产生的数据和所述当前时间窗口之前的预设数量个历史时间窗口内产生的数据；

对所述待处理数据进行清洗和过滤；

根据关键词库，从清洗过滤后的数据中筛选出包含关键词的文本数据，作为所述待处理的文本数据。

一方面，本申请一实施例提供了一种突发事件报警装置，包括：

获取模块，用于获取待处理的文本数据，所述待处理的文本数据包括当前时间窗口内产生的文本数据和所述当前时间窗口之前的预设数量个历史时间窗口内产生的文本数据；

分词模块，用于对所述待处理的文本数据进行分词处理，得到若干个候选词；

处理模块，用于针对每个候选词，根据所述当前时间窗口内产生的文本数据，确定所述候选词的第一占比值，所述第一占比值为所述当前时间窗口内包含所述候选词的文本的数量与所述当前时间窗口内的文本总数之比，根据预设数量个历史时间窗口内产生的文本数据，确定所述候选词的预测占比值和波动性特征值，根据所述候选词的第一占比值、预测占比值和波动性特征值，确定所述候选词的波动性得分，所述波动性得分用于表征所述候选词的第一占比值相对于预测占比值的增长率；

确定模块，用于根据波动性得分从高到低的排序，选择K个候选词确定出至少一个突发事件；

报警模块，用于对确定出的至少一个突发事件进行报警处理。

可选地，所述处理模块，具体用于：

针对每个历史时间窗口，确定所述候选词在所述历史时间窗口内的第二占比值，所述第二占比值为所述历史时间窗口内包含所述候选词的文本的数量与所述历史时间窗口内的文本总数之比；

对所述候选词对应的预设数量个第二占比值进行加权平均，得到所述候选词在所述当前时间窗口内的预测占比值，其中，每个第二占比值对应的权重根据其对应的历史时间窗口与所述当前时间窗口之间的时序关系确定。

可选地，所述处理模块，具体用于：

计算所述候选词对应的预测占比值和预设数量个第二占比值之间的加权方差值，确定为所述候选词的波动性特征值，其中，每个第二占比值对应的权重根据其对应的历史时间窗口与所述当前时间窗口之间的时序关系确定。

可选地，所述分词模块，具体用于：

对所述待处理的文本数据进行分词处理，得到若干个分词片段；

根据同义词表，将互为同义词的多个分词片段中的任一分词片段确定为一个候选词，将不存在同义词的分词片段确定为一个候选词。

可选地，所述处理模块，具体用于：

可选地，所述确定模块，具体用于：

沿着分词序列移动第一滑动窗口，并统计K个异常词中任意两个异常词在所述第一滑动窗口内共现的次数，得到共现矩阵，所述分词序列为对所述待处理的文本数据进行分词处理后得到的分词片段组成的序列；

对所述共现矩阵的每一行数据进行归一化处理，得到共现概率矩阵，所述共现概率矩阵中大于概率阈值的共现概率对应的两个异常词相互关联；

根据所述共现概率矩阵，将相互关联的异常词聚类成一个突发事件。

可选地，所述报警模块，用于根据所述突发事件对应的共现概率矩阵，展示所述突发事件对应的关联图，所述关联图中的一个节点对应一个异常词，所述关联图中的一条边对应所述共现概率矩阵中一个大于概率阈值的共现概率。

可选地，所述报警模块具体用于：

针对每个异常词，沿着所述分词序列移动第二滑动窗口，若所述第二滑动窗口中出现所述异常词，则提取所述第二滑动窗口中的分词片段，组成一个候选词组；

针对每个异常词，确定所述异常词对应的各候选词组的熵值，所述熵值等于所述候选词组的左熵值和右熵值中最小的一个值；

针对每个异常词，根据熵值从高到低的排序，选择M个候选词组，确定为所述异常词的摘要。

可选地，所述获取模块，具体用于：

对所述待处理数据进行清洗和过滤；

一方面，本申请一实施例提供了一种突发事件报警系统，包括：存储子系统、处理子系统和报警子系统；

所述存储子系统，用于存储文本数据；

所述处理子系统，用于从存储子系统中获取待处理的文本数据，并根据上述任一种方法确定出至少一个突发事件；

所述报警子系统，用于对所述处理子系统确定出的至少一个突发事件进行报警处理。

一方面，本申请一实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述任一种方法的步骤。

一方面，本申请一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

本申请实施例提供的技术方案，通过多个历史时间窗口内产生的文本数据组成的序列，确定出了表征候选词在时间维度上动态变化的波动性特征值，然后基于各候选词的波动性特征值确定各候选词的波动性得分，通过上述方法获得的波动性得分能够自适应不同序列的波动性，提高检测异常词以及突发事件的准确率，从而提高针对突发事件的报警准确率。且通过波动性特征值计算得到的波动性得分实际表征的是候选词的第一占比值相对于预测占比值的增长率，相当于利用各候选词的波动性特征值，对各候选词的真实占比值相对于预测占比值的增长值进行了归一化，因此，针对出现基数不同的候选词，可采用统一的异常阈值进行处理，提高了突发事件报警方法的通用性，能够很好地应用到各个领域中。此外，与词频相比，本申请采用的占比值来进行预测以及计算波动性得分，能有效缓解数据周期性变化的影响，提高预测准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的突发事件报警方法的应用场景示意图；

图2为本申请一实施例提供的突发事件报警方法的流程示意图；

图3为本申请一实施例提供的获取待处理的文本数据的流程示意图；

图4为本申请一实施例提供的根据异常词确定出至少一个突发事件的流程示意图；

图5为本申请一实施例提供的共现矩阵的一个示例；

图6为将突发事件可视化后得到的关联图；

图7为本申请一实施例提供的确定该异常词的摘要的流程示意图；

图8A为候选词的真实占比值和预测占比值的对比图；

图8B为不同时间段内候选词的波动性特征值的变化图；

图8C为不同时间段内候选词的波动性得分的变化图；

图9为本申请一实施例提供的突发事件报警装置的结构示意图；

图10为本申请一实施例提供的突发事件报警系统的结构示意图；

图11为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

为了方便理解，下面对本申请实施例中涉及的名词进行解释：

终端设备，是指可以安装各类应用，并且能够将已安装的应用中提供的对象进行显示的设备，该电子设备可以是移动的，也可以是固定的。例如，手机、平板电脑、各类可穿戴设备、车载设备、个人数字助理(personal digital assistant，PDA)、销售终端(pointof sales，POS)或其它能够实现上述功能的电子设备等。

应用，即应用程序，可以完成某项或多项业务的计算机程序，一般具有可视的显示界面，能与用户进行交互，比如电子地图和微信等都可以称为应用。其中，有些应用需要用户安装到所使用的终端设备上才可以使用，有些则并不需要进行应用安装，例如，微信中的各个小程序。小程序不需要下载安装即可使用，用户扫一扫或者搜一下即可打开应用。

UGC(User Generated Content)，也就是用户生成内容，即用户原创内容，比如用户贴吧、各大论坛、应用商店、社交网络发表的言论等。

停用词(Stop Words)，是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。

附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

在具体实践过程中，检测突发事件的方法通常是，从UGC数据中提取出可用的文本数据，并基于提取出的文本数据确定出候选词，统计候选词在多个历史时间窗口内的词频，然后计算这多个词频的平均值，作为候选词在当前时间窗口内的预测词频，统计候选词在前时间窗口内的真实词频，若预测词频与真实词频的差值超过设定的异常阈值，则确定该候选词为异常词，基于异常词确定出突发事件。但是，通过计算平均值预测词频的方法，没有考虑词频随着时间的动态变化，降低了异常词检测的准确率，从而降低了突发事件报警的准确率。此外，不同的候选词对误差容忍程度不同，比如“游戏”这个词出现的基数很大(例如每小时出现的次数为10000次)，即在未发生任何突发事件的情况下，用户发布的UGC数据中就包含大量“游戏”这个词，因此，就算“游戏”的词频突然增加100，也在正常的波动范围内，不算发生异常情况；但是，“闪退”这个词出现的基数较小(例如每小时出现的次数为10次)，当“闪退”这个词的词频突然增加100时，肯定是系统或应用发生了异常情况。因此，如果对所有候选词都采用相同的异常阈值，显然会降低异常词检测的准确率，这就需要针对不同的候选词设置不同的异常阈值，这使得现有的检测方法难以较好地应用到各个领域中，通用性较差。

为此，本申请的发明人考虑到，针对根据待处理的文本数据确定出的每个候选词，根据当前时间窗口内产生的文本数据，确定候选词的第一占比值，其中，第一占比值为当前时间窗口内包含候选词的文本的数量与当前时间窗口内的文本总数之比，根据当前时间窗口之前的预设数量个历史时间窗口内产生的文本数据，确定候选词的预测占比值和波动性特征值，根据候选词的第一占比值、预测占比值和波动性特征值，确定该候选词的波动性得分，其中，波动性得分用于表征该候选词的第一占比值相对于预测占比值的增长率；然后，根据波动性得分从高到低的排序，选择K个候选词作为异常词，根据选出的异常词确定出至少一个突发事件；最后，对确定出的至少一个突发事件进行报警处理。本申请提供的上述方法，通过多个历史时间窗口内产生的文本数据组成的序列，确定出了表征候选词在时间维度上动态变化的波动性特征值，然后基于各候选词的波动性特征值确定各候选词的波动性得分，通过上述方法获得的波动性得分能够自适应不同序列的波动性，提高检测异常词以及突发事件的准确率，从而提高针对突发事件的报警准确率；且通过波动性特征值计算得到的波动性得分实际表征的是候选词的第一占比值相对于预测占比值的增长率，相当于利用各候选词的波动性特征值，对各候选词的真实占比值(即第一占比值)相对于预测占比值的增长值进行了归一化，因此，针对出现基数不同的候选词，可采用统一的阈值进行处理，提高了突发事件报警方法的通用性，能够很好地应用到各个领域中。此外，本申请中采用的占比值为任一时间窗口内包含候选词的文本的数量与该时间窗口内的文本总数之比，与词频相比，采用占比值作为对候选词的预测指标，能有效缓解数据周期性变化的影响，提高预测准确率。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

首先参考图1，其为本申请实施例提供的突发事件报警方法的应用场景示意图。该应用场景包括多个终端设备101(包括终端设备101-1、……终端设备101-n)、应用服务器102、数据存储服务器103、检测服务器104和报警子系统105。其中，终端设备101、应用服务器102、数据存储服务器103和检测服务器104之间通过无线或有线网络连接，终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视等电子设备。应用服务器102、数据存储服务器103和检测服务器104均可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。当然，图1所示的应用服务器102、数据存储服务器103和检测服务器104也可以布设在同一个服务器或服务器集群中。报警子系统105可以包括报警服务器1051和报警终端1052，报警服务器1051可以是一台服务器、若干台服务器组成的服务器集群或云计算中心，报警终端1052可以是专用的报警设备，或运维人员、监管人员等使用的终端设备。

图1所示的终端设备101中安装有浏览器或应用，其中，终端设备101中的应用为社交平台、贴吧、论坛、电商平台等对应的应用，用户可通过终端设备101内的浏览器或应用，登录社交平台、贴吧或论坛，并发表各种观点言论、发布问题、回答问题等，或者通过电商平台购买商品(包括物品和服务)，并对购买的商品进行评论。用户通过终端设备101发表的上述各种数据均作为UGC数据存储在数据存储服务器103内，各应用对应的UGC数据可存储在同一数据存储服务器103内，也可以存储在其专用的数据存储服务器103内。检测服务器104从数据存储服务器103中获取当前时刻之前一段时间内产生的数据作为待处理数据，对获取的待处理数据进行清洗、过滤等预处理，筛选出待处理的文本数据，对待处理的文本数据进行分词处理，得到若干个候选词，针对每个候选词，根据当前时间窗口内产生的文本数据，确定候选词的第一占比值，并根据当前时间窗口之前的预设数量个历史时间窗口内产生的文本数据，确定候选词的预测占比值和波动性特征值，根据候选词的第一占比值、预测占比值和波动性特征值，确定该候选词的波动性得分，然后，根据波动性得分从高到低的排序，选择K个候选词作为异常词，最后，根据选出的异常词确定出至少一个突发事件。检测服务器104确定出突发事件后发送给报警服务器1051，报警服务器1051生成突发事件的报警信息，将报警信息发送给预先配置好的接收报警信息的报警终端1052。例如，针对不同类型的突发事件可预先配置不同的报警终端，以将报警信息发送给相关的运维人员或监管人员。

本申请实施例的突发事件报警方法可应用于热点事件检测、舆论监管与引导、产品故障报警、产品口碑调查等应用场景。需要说明的是，针对不同的应用场景，待处理数据的来源不同，具体来源可根据实际需求确定，本申请实施例不作限定。例如，针对热点事件检测，可从社交平台、贴吧、论坛等获取待处理数据；针对舆论监管与引导，可从待监管的社交平台、贴吧、论坛等获取待处理数据；针对产品故障报警或产品口碑调查，可从使用该产品的用户经常登录的论坛、贴吧或售卖该产品的电商平台获取待处理数据。

本申请实施例中所指的产品包括但不限于：各种在线或离线的应用软件(如游戏、多媒体播放器、办公软件等)、物品(如汽车、手机、食品等)、服务(如家政服务、法律咨询服务等)等，本申请实施例不作限定。

当然，本申请实施例提供的方法并不限用于图1所示的应用场景中，还可以用于其它可能的应用场景，本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

下面结合图1所示的应用场景，对本申请实施例提供的技术方案进行说明。

参考图2，本申请实施例提供一种突发事件报警方法，包括以下步骤：

S201、获取待处理的文本数据，待处理的文本数据包括当前时间窗口内产生的文本数据和当前时间窗口之前的预设数量个历史时间窗口内产生的文本数据。

本申请实施例中，当前时间窗口是指当前时刻之前的预设时长至当前时刻的时间段，当前时间窗口的时间长度等于预设时长，获取当前时间窗口内产生的文本数据，得到文本数据集合T₀。例如，预设时长为1小时，则获取当前时刻前1小时至当前时刻内产生的文本数据。其中，预设时长可根据实际检测需求确定，可以是1分钟、1小时或1天，本申请实施例不作限定。

本申请实施例中，历史时间窗口是指在当前时间窗口之前的时间段。为了保证预测数据的准确性，通常历史时间窗口的时间长度与当前时间窗口的时间长度一致，各历史时间窗口互不重叠，从当前时间窗口的起始时刻开始，每隔预设时长即为一个历史时间窗口，依次获取历史时间窗口内产生的文本数据，得到每个历史时间窗口对应的文本数据集合，按历史时间窗口的时序关系获得文本数据集合组成的序列{T₁,T₂,……,T_n}，n为预设数量。其中，预设数量n可根据实际检测需求确定，本申请实施例不作限定。

例如，预设数量为12，当前时间窗口和历史时间窗口的时间长度均为1小时，此时，获取当前时刻前1小时内(即当前时间窗口内)产生的文本数据，得到文本数据集合T₀；获取当前时刻前1小时至2小时内(即第1个历史时间窗口内)产生的文本数据，得到文本数据集合T₁；获取当前时刻前2小时至3小时内(即第2个历史时间窗口内)产生的文本数据，得到文本数据集合T₂；以此类推，直至获取到当前时刻前12小时至13小时内(即第12个历史时间窗口内)产生的文本数据，得到文本数据集合T₁₂。这样，总共获取到1个当前时间窗口内产生的文本数据和12个历史时间窗口内产生的文本数据，12个历史时间窗口组成的序列为{T₁,T₂,……,T₁₂}。

S202、对待处理的文本数据进行分词处理，得到若干个候选词。

具体实施时，可通过中文语料库训练分词工具(例如Jieba分词)对文本数据集合T₀,T₁,T₂,……,T_n中的每个文本数据进行分词，得到每个文本数据对应的若干个分词片段，从得到的分词片段中确定出候选词。具体地，对经分词处理获得的所有分词片段进行去重处理，得到候选词，例如，获得的分词片段包括100个“游戏”、10个“闪退”、12个“进不去”、20个“更新”，则确定候选词包括“游戏”、“闪退”、“进不去”、“更新”。

具体地，分词过程中，还可以选择滤除标点符号、停用词、无意义词等无用信息，例如，“这”、“的”等词。停用词和无意义词具体包括哪些词，可由本领域技术人员根据实际需求并结合经验确定，本申请实施例不作限定。

S203、针对每个候选词，根据当前时间窗口内产生的文本数据，确定候选词的第一占比值，该第一占比值为当前时间窗口内包含候选词的文本的数量与当前时间窗口内的文本总数之比。

本申请实施例中的第一占比值，即候选词在当前时间窗口内的真实占比值。

具体实施时，针对经步骤S202确定出的每个候选词，统计文本数据集合T₀中包含该候选词的文本的数量m₀，文本数据集合T₀中包含的文本总数为M₀，则该候选词的第一占比值Y₀＝m₀/M₀。

S204、针对每个候选词，根据预设数量个历史时间窗口内产生的文本数据，确定候选词的预测占比值和波动性特征值。

本申请实施例中的预测占比值，即基于历史时间窗口内产生的文本数据(即序列{T₁,T₂,……,T_n})，对候选词在当前时间窗口内进行预测得到的占比值。

本申请实施例中的波动性特征值，即基于历史时间窗口内产生的文本数据(即序列{T₁,T₂,……,T_n})确定出的表征候选词在时间维度上动态变化的特征值，引入的波动性特征值充分考虑了各个候选词在序列中的动态变化，以适应具有不同基数的候选词之间千差万别的变化幅度。

具体实施时，针对经步骤S202确定出的每个候选词，可分别统计序列{T₁,T₂,……,T_n}中的每个文本数据集合中包含该候选词的文本的数量m₁、m₂、……m_n，序列{T₁,T₂,……,T_n}中的每个文本数据集合中包含的文本总数为M₁、M₁……M₃，则该候选词在各个历史时间窗口内的第二占比值Y_i＝m_i/M_i，其中，i＝1,2…,n，即第二占比值为历史时间窗口内包含该候选词的文本的数量与历史时间窗口内的文本总数之比。然后，根据候选词对应的所有第二占比值，确定该候选的预测占比值和波动性特征值。

作为一种可能的实施方式，可通过如下方法确定各候选词的预测占比值：针对每个历史时间窗口，确定该候选词在该历史时间窗口内的第二占比值；对该候选词对应的预设数量个第二占比值进行加权平均，得到该候选词在当前时间窗口内的预测占比值，其中，每个第二占比值对应的权重根据其对应的历史时间窗口与当前时间窗口之间的时序关系确定，具体地，与当前时间窗口相距越近的历史时间窗口对应的权重越大，与当前时间窗口相距越远的历史时间窗口对应的权重越大，这样可以提高序列{T₁,T₂,……,T_n}中距当前时间窗口较近的时间段内产生的文本数据对预测占比值的影响。

具体地，可通过如下公式确定每个候选词的预测占比值：

其中，EWMA为候选词的预测占比值，X_i为候选词在第i个历史时间窗口内的第二占比值，W_i为X_i对应的权重，n为历史时间窗口的数量，α为预设参数，α的具体取值可由本领域技术人员根据应用需求结合实际测试结果确定，本申请实施例不作限定。

当然，实际应用中还可以采用其他的方法或公式确定候选词的预测占比值，例如，计算候选词对应的n个第二占比值的平均值，作为该候选词的预测占比值，或者可采用其他公式确定每个第二占比值的权重，此处不再一一列举。

作为一种可能的实施方式，可通过如下方法确定各候选词的波动性特征值：计算该候选词对应的预测占比值和预设数量个第二占比值之间的加权方差值，确定为该候选词的波动性特征值，其中，每个第二占比值对应的权重根据其对应的历史时间窗口与当前时间窗口之间的时序关系确定。

具体地，可通过如下公式确定每个候选词的波动性特征值EWMVar：

当然，实际应用中还可以采用其他的方法或公式确定候选词的波动性特征值，此处不再一一列举。

S205、针对每个候选词，根据候选词的第一占比值、预测占比值和波动性特征值，确定候选词的波动性得分，波动性得分用于表征候选词的第一占比值相对于预测占比值的增长率。

本申请实施例中的波动性得分为用于描述候选词的第一占比值相对于预测占比值的增长率的物理量。具体地，可通过如下公式确定每个候选词的波动性得分：

其中，Sig(Y₀)为候选词的波动性得分；Y₀为候选词在当前时间窗口内的真实占比值；β是最小占词比，用于过滤噪音候选词。

S206、根据波动性得分从高到低的排序，选择K个候选词确定出至少一个突发事件。

具体实施时，还可以设置波动阈值，对波动性得分超过波动阈值的候选词，按波动性得分从高到低进行排序，选择排序靠前的K个候选词作为异常词；若波动性得分超过波动阈值的候选词的数量小于或等于K，则将所有波动性得分超过波动阈值的候选词作为异常词。然后，根据异常词确定出至少一个突发事件。

S207、对确定出的至少一个突发事件进行报警处理。

具体实施时，可通过报警服务器生成每个突发事件的报警信息，将报警信息发送给对应的报警终端。

本申请实施例提供的突发事件报警方法，通过多个历史时间窗口内产生的文本数据组成的序列，确定出了表征候选词在时间维度上动态变化的波动性特征值，然后基于各候选词的波动性特征值确定各候选词的波动性得分，通过上述方法获得的波动性得分能够自适应不同序列的波动性，提高检测异常词以及突发事件的准确率，从而提高突发事件的报警准确率。且通过波动性特征值计算得到的波动性得分实际表征的是候选词的第一占比值相对于预测占比值的增长率，相当于利用各候选词的波动性特征值，对各候选词的真实占比值相对于预测占比值的增长值进行了归一化，因此，针对出现基数不同的候选词，可采用统一的异常阈值进行处理，提高了突发事件报警方法的通用性，能够很好地应用到各个领域中。此外，与词频相比，本申请采用的占比值来进行预测以及计算波动性得分，能有效缓解数据周期性变化的影响，提高预测准确率。

具体实施时，可从数据存储服务器获取需要的待处理数据。其中，待处理数据可以是来源于从社交平台、贴吧、论坛、应用商店、电商平台等的UGC数据，针对不同的应用场景，从数据存储服务器获取对应来源的UGC数据作为待处理数据。

实际应用中，从数据存储服务器获取的待处理数据的数据质量较差，需要进行清洗和过滤后才可以使用。具体地，参考图3，可通过以下方式获取待处理的文本数据：

S301、获取待处理数据，该待处理数据包括当前时间窗口内产生的数据和当前时间窗口之前的预设数量个历史时间窗口内产生的数据。

本步骤中，具体可参考步骤S201的具体实施方式，获取到当前时间窗口内产生的数据组成的数据集合S₀，以及n个历史时间窗口内产生的数据组成的序列{S₁,S₂,……,S_n}。

S302、对待处理数据进行清洗。

本步骤中，可采用现有的数据清洗(Data cleaning)方法对步骤S301获取的待处理数据进行清洗，以去除待处理数据中的网址、表情、特殊符号(如HTML标签)等，仅保留下文本数据。

S303、对清洗后的待处理数据进行过滤。

本步骤中，被过滤掉的数据包括乱码、广告等垃圾数据。

具体实施时，针对不同的应用场景，被过滤掉的数据还可以包括版主帖、公告、官方回复等。例如，针对产品故障报警或产品口碑调查，需要过滤掉版主帖、公告、官方回复等数据，保证待处理的文本数据中仅包含用户作出的评论，减少版主帖、公告、官方回复等数据带来的干扰。

针对非特定事件的检测，例如热点事件检测、舆论监管与引导等，不具有先验信息，此时，可直接经步骤S303过滤后的数据，作为待处理的文本数据。即，通过上述步骤S302和S303对数据集合S₀中的数据进行清洗和过滤，得到当前时间窗口内产生的文本数据的集合T₀，采用同样的方法对序列{S₁,S₂,……,S_n}中的数据进行清洗和过滤，得到序列{T₁,T₂,……,T_n}。

进一步地，一些应用场景下需要检测的是特定事件，特定事件检测一般有先验信息，可基于先验信息对经步骤S303过滤后的待处理数据进行筛选，过滤掉与特定事件无关的数据，将筛选出的数据作为待处理的文本数据，有效提高数据的针对性。例如，针对产品故障报警，可预先构建问题词库和问题模板，筛选出可能是反馈产品问题的文本数据，作为待处理的文本数据。例如，针对产品口碑调查，可预先确定出关键词库，其中，关键词可以是产品相关的属性(如名称、别名、型号等)、评价该产品常用的词等，从清洗过滤后的数据中筛选出包含关键词的文本数据，作为待处理的文本数据。例如，针对游戏监管，预先确定出关键词库，其中，关键词可以是外挂、作弊、bug等，以筛选出与游戏相关的数据，作为待处理的文本数据。

实际应用中，针对同一突发事件，存在多种不同的表达方式，例如，同样是反馈游戏卡顿的问题，可能存在“卡顿”、“太卡了”、“卡死了”等多种表述。现有的方式是分别统计各个词对应的词频，而单独统计时，每个词的波动性都很小，这样会降低该突发事件对应的增长率，可能导致无法检测出突发事件。

为此，在上述任一实施例的基础上，在确定候选词的过程中，对分词片段中的同义词合并，即互为同义词的分词片段对应一个候选词，并在后续统计占比值(包括第一占比值和第二占比值)的过程中，将互动同义词的分词片段对应的占比值相加，作为对应候选词的占比值。具体地，步骤S202具体包括如下步骤：对待处理的文本数据进行分词处理，得到若干个分词片段；根据同义词表，将互为同义词的多个分词片段中的任一分词片段确定为一个候选词，将不存在同义词的分词片段确定为一个候选词。

本申请实施例中，同义词表中预先记录了互为同义词的多个词，例如，“卡顿”、“太卡了”和“卡死了”互为同义词，“登录不了”、“无法登录”互为同义词。同义词表可根据具体的应用场景预先配置，本申请实施例不作具体限定。

具体实施时，可通过中文语料库训练分词工具(例如Jieba分词)对文本数据集合T₀,T₁,T₂,……,T_n中的每个文本数据进行分词，得到每个文本数据对应的若干个分词片段。具体地，对经分词处理获得的所有分词片段进行去重处理，例如，获得的分词片段包括100个“游戏”、10个“闪退”、12个“进不去”、20个“更新”，则去重后的分词片段包括“游戏”、“闪退”、“进不去”、“更新”。然后，根据同义词表，对去重后的分词片段进行合并。具体地，若多个分词片段互为同义词，则从这多个分词片段中选取一个分词片段作为一个候选词；若某一分词片段与其他分词片段均不互为同义词，则将该分词片段作为一个候选词。例如，分词片段“卡顿”、“太卡了”和“卡死了”互为同义词，则可以将“卡顿”作为候选词，分词结果中不存在分词片段“更新”的同义词，则将“更新”作为候选词。

在合并同义词的基础上，针对不存在同义词的候选词，可直接采用步骤S203确定对应的第一占比值，可直接采用步骤S204中的具体实施方式确定对应的第二占比值。

在合并同义词的基础上，针对具有同义词的候选词，可通过如下方式确定候选词的第一占比值：将当前时间窗口内包含候选词的文本的数量除以当前时间窗口内的文本总数，得到候选词的第三占比值；针对与候选词互为同义词的每个分词片段，将当前时间窗口内包含分词片段的文本的数量除以当前时间窗口内的文本总数，得到分词片段的第四占比值；将第三占比值和第四占比值之和确定为候选词的第一占比值。

其中，第三占比值和第四占比值的确定方法，可参考步骤S203的具体实施方式，不再赘述。

以前述候选词“卡顿”为例，与“卡顿”互为同义词的分词片段包括“太卡了”和“卡死了”，则分别统计“卡顿”、“太卡了”和“卡死了”在当前时间窗口内的占比值，将“卡顿”、“太卡了”和“卡死了”对应的占比值相加，得到候选词“卡顿”的第一占比值。

在合并同义词的基础上，针对具有同义词的候选词，可通过如下方式确定候选词在历史时间窗口内的第二占比值：将历史时间窗口内包含候选词的文本的数量除以历史时间窗口内的文本总数，得到候选词的第五占比值；针对与候选词互为同义词的每个分词片段，将历史时间窗口内包含分词片段的文本的数量除以历史时间窗口内的文本总数，得到分词片段的第六占比值；将第五占比值和第六占比值之和确定为候选词在历史时间窗口内的第二占比值。

其中，第五占比值和第六占比值的确定方法，可参考步骤S204的具体实施方式，不再赘述。

以前述候选词“卡顿”为例，与“卡顿”互为同义词的分词片段包括“太卡了”和“卡死了”，针对每个历史时间窗口，分别统计“卡顿”、“太卡了”和“卡死了”在该历史时间窗口内的占比值，将“卡顿”、“太卡了”和“卡死了”在该历史时间窗口内的占比值相加，得到候选词“卡顿”在该历史时间窗口内的第二占比值。

通过将候选词中的同义词进行合并，并将同义词的占比值相加，以增强候选词的波动性特征值，提高召回率。

具体实施时，可对确定出的K个异常词进行聚类，得到至少一个簇，每个簇中包括至少一个异常词，将一个簇确定为一个突发事件，即一个簇中的异常词组成一个突发事件。

作为一种可能的实施方式，参考图4，可通过以下方式根据K个异常词确定出至少一个突发事件：

S401、沿着分词序列移动第一滑动窗口，并统计K个异常词中任意两个异常词在第一滑动窗口内共现的次数，得到共现矩阵，其中，分词序列为对待处理的文本数据进行分词处理后得到的分词片段组成的序列。

本步骤中的K个异常词即为步骤S206中选取的K个候选词。

具体实施时，通过中文语料库训练分词工具(例如Jieba分词)对文本数据集合T₀,T₁,T₂,……,T_n中的每个文本数据进行分词，得到每个文本数据对应的若干个分词片段，将这若干个分词片段按照在文本数据中的位置排列，得到每个文本数据对应的分词序列。例如，对文本数据“游戏更新完就闪退”进行分词处理，得到的分词片段包括“游戏”、“更新”、“完”、“就”、“闪退”，则该文本数据对应的分词序列为{游戏，更新，完，就，闪退}。分词过程中还可以去除停用词和无意义词，例如，“就”就是一个无意义词，则去除无意义词后，文本数据“游戏更新完就闪退”对应的分词序列为{游戏，更新，完，闪退}。

具体实施时，第一滑动窗口的长度L₁可根据实际检测需求确定，本申请实施例不作限定。第一滑动窗口的长度L₁是指，第一滑动窗口中同时包含的分词片段的数量，例如，L₁＝3，则第一滑动窗口在分词序列上滑动时，第一滑动窗口中同时包含分词序列中的3个分词片段。

具体实施时，针对每个文本数据对应的分词序列，从分词序列中的第一个词开始，移动第一滑动窗口，第一滑动窗口每次移动的距离为一个分词片段，获取第一滑动窗口内的子分词序列，统计K个异常词中任意两个异常词在子分词序列内共现的次数，即这两个异常词在第一滑动窗口中的共现次数。例如，分词序列为{游戏，更新，完，闪退}，L₁＝3，异常词包括“更新”和“闪退”，则通过第一滑动窗口获取到的子分词序列包括{游戏，更新，完}和{更新，完，闪退}，异常词“更新”和“闪退”同时在子分词序列中出现的次数为1次。通过上述方式，完成对所有的文本数据对应的分词序列的统计，得到共现矩阵。

共现矩阵中的每一行和每一列分别对应一个异常词，假设确定出10个异常词，则对应的共现矩阵为一个10×10大小的矩阵。参考图5，为共现矩阵的一个示例，图5中的共现矩阵是基于文本数据“我喜欢唱歌跳舞”、“我喜欢潜水”、“我爱游泳”，第一滑动窗口的长度为3，则可得到“我”和“喜欢”的共现次数为2次。

S402、对共现矩阵的每一行数据进行归一化处理，得到共现概率矩阵，共现概率矩阵中大于概率阈值的共现概率对应的两个异常词相互关联。

具体实施时，概率阈值可根据实际检测需求确定，本申请实施例不作限定。

例如，共现矩阵为

其中，K为异常词的数量，则分别对共现矩阵的每一行数据进行归一化处理，得到共现概率矩阵/>

其中，

P_i,j为第i个异常词和第j个异常词之间的共现概率。

S403、根据共现概率矩阵，将相互关联的异常词聚类成一个突发事件。

具体实施时，若P_i,j大于概率阈值，则确定第i个异常词和第j个异常词相互关联，将相互关联的异常词聚成一个突发事件。例如，异常词包括“更新”、“闪退”、“游戏”、“进不去”、“卡顿”，假设根据共现概率矩阵可确定“闪退”和“更新”、“闪退”和“进不去”、“闪退”和“游戏”、“游戏”和“更新”以及“更新”和“进不去”之间相互关联，则将“闪退”和“更新”、“闪退”和“进不去”聚类为一个突发事件，而异常词“卡顿”与其他异常词不关联，则将“卡顿”作为一个突发事件。

具体实施时，为了方便运维人员或监管人员更直观地从报警信息中获知具体的突发事件，可根据突发事件对应的共现概率矩阵，生成突发事件对应的关联图，并通过报警终端展示该关联图，关联图中的一个节点对应一个异常词，关联图中的一条边对应共现概率矩阵中一个大于概率阈值的共现概率。

具体实施时，可将共现概率矩阵看做一个邻接矩阵，每个异常词作为一个节点，邻接矩阵中的大于概率阈值的共现概率对应一条边，在邻接矩阵中查找连通子图，每一个连通子图对应一个突发事件，然后将连通子图作为该突发事件的关联图进行展示，以提高突发事件的可视性。

参考图6，其为将突发事件可视化后得到的关联图，通过关联图运维人员或监管人员可直观地了解突发事件的具体信息，进而快速地作出应对措施，例如，根据图6中的关联图，可很快确定出游戏更新时出现了闪退的问题。

进一步地，还可以利用上下文信息，确定每个异常词的摘要，以提高关联图的可读性，让运维人员或监管人员更方便快捷获知突发事件的具体内容。尤其是针对产品故障报警应用场景，基于摘要可以帮助产品维护人员尽快定位到问题所在。

具体地，参考图7，针对每个异常词，可通过以下方法确定该异常词的摘要：

S701、沿着分词序列移动第二滑动窗口，若第二滑动窗口中出现异常词，则提取第二滑动窗口中的分词片段，组成一个候选词组。

具体实施时，第二滑动窗口的长度L₂可根据实际检测需求确定，本申请实施例不作限定。第二滑动窗口的长度L₂是指，第二滑动窗口中同时包含的分词片段的数量，例如，L₂＝3，则第二滑动窗口在分词序列上移动时，第二滑动窗口中同时包含分词序列中的3个分词片段。

例如，文本数据“游戏更新完就闪退”对应的分词序列为{游戏，更新，完，闪退}，L₂＝3，异常词包括“更新”和“闪退”，移动第二滑动窗口，第二滑动窗口中依次呈现的分词片段包括{游戏，更新，完}和{更新，完，闪退}，{游戏，更新，完}和{更新，完，闪退}中均出现了异常词，则将{游戏，更新，完}作为一个候选词组，{更新，完，闪退}也作为一个候选词组。

S702、确定异常词对应的各候选词组的熵值，熵值等于候选词组的左熵值和右熵值中最小的一个值。

本申请实施例中，左熵值是词组左边界的熵值，右熵值是词组右边界的熵值。可通过如下公式计算候选词组W的左熵值E_L(W)和右熵值E_R(W):

其中，A为所有出现在候选词组W左边的词的集合，B为所有出现在候选词组W右边的词的集合。

S703、根据熵值从高到低的排序，选择M个候选词组，确定为异常词的摘要。

具体实施时，还可以设置左右熵阈值，针对每个异常词，对该异常词对应的各候选词组中超过左右熵阈值的候选词组，按熵值从高到低进行排序，选择排序靠前的M个候选词组作为异常词的摘要；若熵值超过左右熵阈值的候选词组的数量小于或等于M，则将所有熵值超过左右熵阈值的候选词组，均作为异常词的摘要。

确定出各异常词的摘要可展示在关联图中的相应位置，以让用户更方便快捷获知突发事件的具体内容。摘要的具体展示方式可参考图6，例如图6中，异常词“更新”的摘要包括4个词组“更新_完_闪退”、“闪退_更新_完”、“更新_完_游戏”、“新版本_更新_后”，每个词组后的数值为对应的熵值，通过摘要可确定出用户反馈的问题为：游戏版本更新后出现闪退的问题。

图8A-图8C为针对某游戏在一个月内产生的文本数据，采用本申请的方法得到的候选词“闪退”的各项指标的统计结果。图8A-图8C的横坐标为时间(单位：天)，图8A为“闪退”的真实占比值和预测占比值的对比，图8B为“闪退”的波动性特征值EWMVar，图8C为“闪退”的波动性得分。参考图8A，真实占比值和预测占比值基本一致，因此，本申请的方法能够较准确地预测出候选词在下一时刻的预测占比值。参考图8C，明显看出波动性得分能够准确反映出候选词随时间的真实波动情况。参考图8A，第17天，候选词“闪退”的真实占比值突然增大，表明用户在讨论该游戏的闪退问题，图8C中的第17天对应的候选词“闪退”的波动性得分增大，可将“闪退”作为异常词，从而确定出“闪退”这一突发事件。

如图9所示，基于与上述突发事件报警方法相同的发明构思，本申请实施例还提供了一种突发事件报警装置90，包括获取模块901、分词模块902、处理模块903、确定模块904和报警模块905。

获取模块901，用于获取待处理的文本数据，所述待处理的文本数据包括当前时间窗口内产生的文本数据和所述当前时间窗口之前的预设数量个历史时间窗口内产生的文本数据。

分词模块902，用于对所述待处理的文本数据进行分词处理，得到若干个候选词。

处理模块903，用于针对每个候选词，根据所述当前时间窗口内产生的文本数据，确定所述候选词的第一占比值，所述第一占比值为所述当前时间窗口内包含所述候选词的文本的数量与所述当前时间窗口内的文本总数之比，根据预设数量个历史时间窗口内产生的文本数据，确定所述候选词的预测占比值和波动性特征值，根据所述候选词的第一占比值、预测占比值和波动性特征值，确定所述候选词的波动性得分，所述波动性得分用于表征所述候选词的第一占比值相对于预测占比值的增长率。

确定模块904，用于根据波动性得分从高到低的排序，选择K个候选词确定出至少一个突发事件；

报警模块905，用于对确定出的至少一个突发事件进行报警处理。

可选地，处理模块903，具体用于：针对每个历史时间窗口，确定所述候选词在所述历史时间窗口内的第二占比值，所述第二占比值为所述历史时间窗口内包含所述候选词的文本的数量与所述历史时间窗口内的文本总数之比；对所述候选词对应的预设数量个第二占比值进行加权平均，得到所述候选词在所述当前时间窗口内的预测占比值，其中，每个第二占比值对应的权重根据其对应的历史时间窗口与所述当前时间窗口之间的时序关系确定。

可选地，处理模块903，具体用于计算所述候选词对应的预测占比值和预设数量个第二占比值之间的加权方差值，确定为所述候选词的波动性特征值，其中，每个第二占比值对应的权重根据其对应的历史时间窗口与所述当前时间窗口之间的时序关系确定。

可选地，分词模块902，具体用于：对所述待处理的文本数据进行分词处理，得到若干个分词片段；根据同义词表，将互为同义词的多个分词片段中的任一分词片段确定为一个候选词，将不存在同义词的分词片段确定为一个候选词。

相应地，处理模块903，具体用于：将所述当前时间窗口内包含所述候选词的文本的数量除以所述当前时间窗口内的文本总数，得到所述候选词的第三占比值；针对与所述候选词互为同义词的每个分词片段，将所述当前时间窗口内包含所述分词片段的文本的数量除以所述当前时间窗口内的文本总数，得到所述分词片段的第四占比值；将所述第三占比值和所述第四占比值之和确定为所述候选词的第一占比值。

可选地，处理模块903，具体用于：将所述历史时间窗口内包含所述候选词的文本的数量除以所述历史时间窗口内的文本总数，得到所述候选词的第五占比值；针对与所述候选词互为同义词的每个分词片段，将所述历史时间窗口内包含所述分词片段的文本的数量除以所述历史时间窗口内的文本总数，得到所述分词片段的第六占比值；将所述第五占比值和所述第六占比值之和确定为所述候选词在所述历史时间窗口内的第二占比值。

可选地，确定模块904，具体用于：沿着分词序列移动第一滑动窗口，并统计K个异常词中任意两个异常词在所述第一滑动窗口内共现的次数，得到共现矩阵，所述分词序列为对所述待处理的文本数据进行分词处理后得到的分词片段组成的序列；对所述共现矩阵的每一行数据进行归一化处理，得到共现概率矩阵，所述共现概率矩阵中大于概率阈值的共现概率对应的两个异常词相互关联；根据所述共现概率矩阵，将相互关联的异常词聚类成一个突发事件。

可选地，报警模块905，具体用于根据所述突发事件对应的共现概率矩阵，展示所述突发事件对应的关联图，所述关联图中的一个节点对应一个异常词，所述关联图中的一条边对应所述共现概率矩阵中一个大于概率阈值的共现概率。

可选地，报警模块905具体用于：

可选地，获取模块901，具体用于：

对所述待处理数据进行清洗和过滤；

本申请实施例提的突发事件报警装置与上述突发事件报警方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

参考图10，基于与上述突发事件报警方法相同的发明构思，本申请实施例还提供了一种突发事件报警系统100，包括：存储子系统1001、处理子系统1002和报警子系统1003。

存储子系统1001，用于存储文本数据。

具体地，存储子系统1001可从数据存储服务器中获取待处理数据，并对待处理数据进行清洗和过滤，以获取到可用的文本数据，具体过程可参考图3所示的方式，不再赘述。

具体实施时，存储子系统1001可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

处理子系统1002，用于根据上述突发事件报警方法确定出至少一个突发事件。具体实施方式已在方法实施中详细介绍，不再赘述。

具体实施时，处理子系统1002可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

报警子系统1003，用于对处理子系统确定出的至少一个突发事件进行报警处理。

具体实施时，报警子系统1003可以包括报警服务器10031和报警终端10032，报警服务器10031可以是一台服务器、若干台服务器组成的服务器集群或云计算中心，报警终端10032可以是专用的报警设备，或运维人员、监管人员等使用的终端设备。处理子系统1002确定出突发事件后发送给报警服务器10031，报警服务器10031生成突发事件的报警信息，将报警信息发送给预先配置好的接收报警信息的报警终端10032，报警终端10032展示接收到的报警信息。其中，生成突发事件的报警信息的具体方式可采用图6或图7对应的方式。

具体实施时，若报警终端10032为专用的报警设备，可直接在报警设备的显示屏上弹出报警窗口，在报警窗口中展示突发事件对应的关联图，同时可通过终端设备发出报警提示音。若报警终端10032为运维人员、监管人员等使用的终端设备，如智能手机等，可通过邮件、短信、电话等任意一种通讯方式将报警信息发送至报警终端10032，以提醒运维人员或监管人员尽快进行相关处理，运维人员或监管人员可通过邮件、短信中的内容查看到突发事件对应的关联图。

具体地，报警服务器10031中可预先配置好各种类型的突发事件对应的报警终端，以将报警信息发送给相关的运维人员或监管人员。

基于与上述突发事件报警方法相同的发明构思，本申请实施例还提供了一种电子设备，该电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、服务器等。如图11所示，该电子设备110可以包括处理器1101和存储器1102。

处理器1101可以是通用处理器，例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1102作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1102还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

本申请实施例提供了一种计算机可读存储介质，用于储存为上述电子设备所用的计算机程序指令，其包含用于执行上述弹幕处理方法的程序。

上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

以上，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本申请实施例的方法，不应理解为对本申请实施例的限制。本技术领域的技术人员可轻易想到的变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种突发事件报警方法，其特征在于，包括：

针对每个候选词，根据预设数量个历史时间窗口内产生的文本数据，确定所述候选词的预测占比值和波动性特征值，所述预测占比值为基于历史时间窗口内产生的文本数据，对所述候选词在所述当前时间窗口内进行预测得到的占比值，所述波动性特征值为基于所述历史时间窗口内产生的文本数据确定出的表征所述候选词在时间维度上动态变化的特征值；

对确定出的至少一个突发事件进行报警处理；

其中，根据预设数量个历史时间窗口内产生的文本数据，确定所述候选词的预测占比值，具体包括：针对每个历史时间窗口，确定所述候选词在所述历史时间窗口内的第二占比值，所述第二占比值为所述历史时间窗口内包含所述候选词的文本的数量与所述历史时间窗口内的文本总数之比，以及对所述候选词对应的预设数量个第二占比值进行加权平均，得到所述候选词在所述当前时间窗口内的预测占比值，其中，每个第二占比值对应的权重根据其对应的历史时间窗口与所述当前时间窗口之间的时序关系确定；

其中，根据预设数量个历史时间窗口内产生的文本数据，确定所述候选词的波动性特征值，具体包括：计算所述候选词对应的预测占比值和预设数量个第二占比值之间的加权方差值，确定为所述候选词的波动性特征值，其中，每个第二占比值对应的权重根据其对应的历史时间窗口与所述当前时间窗口之间的时序关系确定。

2.根据权利要求1所述的方法，其特征在于，对所述待处理的文本数据进行分词处理，得到若干个候选词，具体包括：

3.根据权利要求1或2所述的方法，其特征在于，通过以下方式根据K个候选词确定出至少一个突发事件：

4.根据权利要求3所述的方法，其特征在于，还包括：

5.一种突发事件报警装置，其特征在于，包括：

处理模块，用于针对每个候选词，根据所述当前时间窗口内产生的文本数据，确定所述候选词的第一占比值，所述第一占比值为所述当前时间窗口内包含所述候选词的文本的数量与所述当前时间窗口内的文本总数之比，根据预设数量个历史时间窗口内产生的文本数据，确定所述候选词的预测占比值和波动性特征值，所述预测占比值为基于历史时间窗口内产生的文本数据，对所述候选词在所述当前时间窗口内进行预测得到的占比值，所述波动性特征值为基于所述历史时间窗口内产生的文本数据确定出的表征所述候选词在时间维度上动态变化的特征值，以及根据所述候选词的第一占比值、预测占比值和波动性特征值，确定所述候选词的波动性得分，所述波动性得分用于表征所述候选词的第一占比值相对于预测占比值的增长率；

其中，所述处理模块，具体用于：针对每个历史时间窗口，确定所述候选词在所述历史时间窗口内的第二占比值，所述第二占比值为所述历史时间窗口内包含所述候选词的文本的数量与所述历史时间窗口内的文本总数之比；对所述候选词对应的预设数量个第二占比值进行加权平均，得到所述候选词在所述当前时间窗口内的预测占比值，其中，每个第二占比值对应的权重根据其对应的历史时间窗口与所述当前时间窗口之间的时序关系确定；

其中，所述处理模块，还具体用于：计算所述候选词对应的预测占比值和预设数量个第二占比值之间的加权方差值，确定为所述候选词的波动性特征值，其中，每个第二占比值对应的权重根据其对应的历史时间窗口与所述当前时间窗口之间的时序关系确定；

6.根据权利要求5所述的装置，其特征在于，所述分词模块，具体用于：

7.根据权利要求5或6所述的装置，其特征在于，所述确定模块，具体用于：

8.一种突发事件报警系统，其特征在于，包括：存储子系统、处理子系统和报警子系统；

所述存储子系统，用于存储文本数据；

所述处理子系统，用于从存储子系统中获取待处理的文本数据，并根据权利要求1～4任一项所述的方法确定出至少一个突发事件；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～4任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1～4任一项所述方法的步骤。