CN113127716A

CN113127716A - 一种基于显著性图的情感时间序列异常检测方法

Info

Publication number: CN113127716A
Application number: CN202110474305.6A
Authority: CN
Inventors: 商琳; 吴静怡
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-16
Anticipated expiration: 2041-04-29
Also published as: CN113127716B

Abstract

本发明提供了一种基于显著性图的情感时间序列异常检测方法，包括：(1)获取社交平台中的话题文本数据，生成对应的原始情感时间序列曲线；(2)对原始情感时间序列进行分解，保留序列残差项；(3)对序列残差项两端的部分未知数据进行预测和补充，得到待测时间序列；(4)划分待测时间序列，利用谱残差方法生成时间子序列的显著性图；(5)根据显著性图确定异常判定结果。

Description

一种基于显著性图的情感时间序列异常检测方法

技术领域

本发明涉及一种基于显著性图的情感时间序列异常检测方法。

背景技术

随着网络社交平台的迅速发展，人们逐渐形成了在网络平台中表达对热点事件的观点态度的习惯，海量与事件相关的文本数据在社交平台中迅速涌现。通过挖掘用户发布的关于特定话题的文本数据，能够了解用户的立场和态度，帮助政府、公司等组织制定和实施相关的决策。

情感时间序列由归属于各个时间片的文本集合的累积情感值按照时间顺序连接而成，是一种能够将文本数据形式化为时间序列的有效工具。情感时间序列能够反映用户情感随时间变化的特点，通过分析序列中的变化模式，能够对引起用户情感变化的关键事件进行挖掘。

基于情感时间序列的异常检测存在许多挑战。对于情感时间序列而言，异常点比例往往较小，序列频率较低，长度较短，异常点总数量较少。由于缺少标签数据，有监督的异常检测方法在这类问题中难以适用。此外，和大多数异常检测问题一样，异常点与非异常点的数量间还存在类别不平衡问题。先前的工作中对于情感变化和事件的关联性分析都较为简单，例如仅依据明显的短期上升或下降趋势，或人为挑选出部分尖峰点分析与现实事件的关联性，少有将数据挖掘算法应用于情感时间序列分析过程的方法。

发明内容

发明目的：本发明的目的在于提出一种基于显著性图的情感时间序列异常检测方法，提升检测的准确性。

发明步骤：本发明的步骤包括：1)爬取社交平台中的话题文本数据并进行预处理；2)对文本进行情感分类，生成原始情感时间序列曲线；3)对原始情感时间序列进行分解保留残差项，并对两端的部分未知数据进行预测和补充；4)划分时间序列，利用谱残差方法生成时间子序列的显著性图，根据显著性图确定异常判定结果。具体的步骤如下：

包括如下步骤：

步骤1，获取社交平台中的话题文本数据，生成对应的原始情感时间序列曲线；

步骤2，对原始情感时间序列进行分解，保留序列残差项；

步骤3，对序列残差项两端的未知数据进行预测和补充，得到待测时间序列；

步骤4，划分待测时间序列，利用谱残差方法生成时间子序列的显著性图；

步骤5，根据显著性图确定异常判定结果。

步骤1：

步骤1-1，按照预先设定的时间跨度和话题关键词，从社交平台的关键词搜索结果页面中爬取文本数据，保存在本地数据库中；

步骤1-2，采用基于规则的方法对无效文本和重复文本进行过滤；

步骤1-3，采用基于分类模型的方法对无关和中立文本进行过滤；

步骤1-4，按照预设的时间片长度划分时间区间，将文本按照发表时间划分到不同的时间片中，每个时间片对应一个文本集合；

步骤1-5，基于情感分类器得到每条文本的情感值，对每个时间片所属文本集合的情感值进行累加，作为该时间片的对应情感值；

步骤1-6，将各时间点对应的情感值按照时间先后顺序连接得到原始情感时间序列曲线。

步骤1-1包括：

所述预先设定的时间跨度和话题关键词根据实际数据挖掘任务背景人为设定。

步骤1-2包括：

根据预先设定的过滤规则与文本进行匹配，从步骤1-1所述数据集中去除与规则匹配的文本；

根据预先设定的过滤词库，将文本数据中包含的过滤词汇进行去除；

对文本两两之间计算相似度，将相似度大于预设阈值的文本进行去重处理。

预先设定的过滤规则包括对文本中的地址、链接、投票等信息进行匹配和过滤；所述预先设定的过滤词库为经由人工标注得到的无效词库，如“转发”、“转发微博”等；所述预设阈值基于经验进行设置，通常设定为0.9。

步骤1-3包括：

从数据集中随机抽样出N1(一般取值为1000)条文本，基于人工标注将其标记为与话题相关或无关的文本，标记结果由多位(三位及以上，奇数位)标注者的多数选择结果得到(即如果有一半以上的标注者认为文本与话题相关，则将其标记为与话题相关的文本，反之亦然)；组成训练集D1利用基于深度变换器的双向编码器表征(BidirectionalEncoderRepresentations from Transformers，BERT)分类模型进行训练，得到分类器C1；

利用分类器C1对所有文本进行分类，去除数据集中分类结果为与话题不相关的文本；

从数据集中随机抽样出N2(一般取值为1000)条文本，基于人工标注将其标记为包含情感倾向或客观中立的文本，标记结果由多位(三位及以上，奇数位)标注者的多数选择结果得到(即如果有一半以上的标注者认为文本包含情感倾向，则将其标记为包含情感倾向的文本，反之亦然)；组成训练集D2基于BERT分类模型进行训练，得到分类器C2；

利用分类器C2对所有文本进行分类，去除数据集中分类结果为客观中立的文本。

步骤1-4包括：

所述预设的时间片长度根据文本发表时间的总跨度长度进行设定，通常取12小时或1天为单位时间片长度。

步骤1-5包括：

从数据集中随机抽样出N3(一般取值为1000)条文本，基于人工标注将其标记为情感积极或消极的文本，标记结果由多位(三位及以上，奇数位)标注者的多数选择结果得到(即如果有一半以上的标注者认为文本包含积极情感，则将其标记为情感积极的文本，反之亦然)；组成训练集对文本分类模型进行训练，得到分类器C3；

利用分类器C3对所有文本进行分类，如果文本的分类结果为积极，则将文本的情感分数值记为+1；如果文本的分类结果为消极，则将文本的情感分数值记为-1。

步骤2包括：

步骤2-1，对原始情感时间序列应用经典时间序列分解方法，基于移动平均方法得到趋势项，将趋势项从原始情感时间序列中除去，得到去趋势序列；

步骤2-2，根据序列时间跨度设定其周期长度，设定周期(通常以1周或1月为周期)，计算去趋势序列周期内每个时间点的平均项，得到周期项；

步骤2-3，计算原始情感时间序列的中位数项；

步骤2-4，从原始情感时间序列中除去周期项和中位数项，得到序列残差项。

步骤3包括：

步骤3-1，采用时序预测模型，对情感时间序列最前端和最末端的未知时间点数据进行预测，预测长度l为预设周期长度T的一半；

步骤3-2，将步骤3-1预测得到的数据值补充在情感时间序列的两侧，得到的待测时间序列用X＝{x_-l，x_-l+1，x₀，x₁，…，x_n-1，…，x_n+l-1}表示，每个x_i对应一个时间片的情感值，其中{x₀，…，x_n-1}为原始序列数据，{x_-l，…，x_-1}和{x_n，…，x_n+l-1}为基于时序预测得到的补充值。

步骤3-1中，所述时序预测模型包括：

位置编码层(Positional Embedding)，用于对每个数据点在情感时间序列中的位置进行编码；

编码器单元(Encoder)，由三层编码层堆叠组成；

解码器单元(Decoder)，由三层解码层堆叠组成；

其中位置编码层、编码器单元、解码器单元都采用和深度变换器Transformer模型相同的结构；

时序预测模型以历史时间点数据为输入，首先经过位置编码层进行编码，然后输入到编码器单元得到数据的中间隐含表示，再结合历史数据和编码器单元的输出，输入到解码器单元得到后续时间点数据的预测结果。

步骤4包括：

步骤4-1，将待测时间序列根据预设窗口的大小和步长划分为两个以上子序列；

步骤4-2，对子序列X进行傅立叶变换

并得到序列的振幅谱A(f)和相位谱P(f)：

其中Amplitude表示取振幅谱运算，Phrase表示取相位谱运算。

步骤4-3，对振幅谱A(f)取对数表达得到对数振幅谱L(f)：L(f)＝log(A(f))

其中log表示对数运算。

步骤4-4，对对数振幅谱L(f)进行基于h_q(f)的局部卷积得到均值谱AL(f)：AL(f)＝h_q(f).L(f)

其中h_q(f)为定义如下形状为q×q的矩阵，其中q定义了局部卷积区域的尺寸大小，通常设置为3：

步骤4-5，从对数振幅谱L(f)中减去均值谱AL(f)即得到残差谱R(f)：R(f)＝L(f)-AL(f)

步骤4-6，使用傅立叶逆变换

将序列重新转换回空间域，得到显著性图S(X)；

其中R(f)为振幅谱的残差谱，P(f)为原相位谱，i为虚数单位，exp为以自然常数为底的指数运算。

步骤4-7，对每个子序列重复步骤4-2～步骤4-6，依次得到每个子序列的显著性图。

步骤4-1包括：

预设窗口的大小和步长由时间跨度、时间片长度和周期长度综合设定，例如当时间片长度为1天，周期长度为一周时，窗口的大小设定为7，步长设定为1。

步骤5包括：

步骤5-1，对于每个目标时间点，首先计算其显著性图中的双侧局部均值

由时间范围为i-k到i+k的2k+1个数据点S(x_t)的均值得到：

步骤5-2，将目标数据点值与双侧局部均值进行比较，得到异常分数D(x_i)；

步骤5-3，将目标数据点的异常分数D(x_i)与预设阈值τ进行比较，，如果异常分数大于阈值，则确定目标数据点为异常点，得到最终的异常判定结果：

预设阈值τ取值通常为1。

步骤5-4，对每个目标时间点重复步骤5-1～步骤5-3，依次得到每个目标数据点的异常判定结果。

有益效果：本发明方法使用谱残差方法得到时间序列子序列中的显著性图，能够增强显著性区域的突出程度，突出异常时间点的显著程度。在滑动窗口的设计方面，采用有重合的滑动模式，使得目标时间点能够位于窗口的中间位置；在异常判定过程中，综合双侧局部均值进行综合判定，对前后数据点的异常判定信息进行了充分利用，能够得到更为准确的异常检测效果。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明的总体流程图。

图2则是本发明方法流程的细节图。

图3是时间序列预测模型的结构图。

图4是异常检测排序结果的可视化示意图。

具体实施方式

如图1所示，本模型包含了两个模块，分别是情感时间序列生成和异常检测模块，前者根据文本数据划分时间片生成情感时间序列，后者经过时间序列分解、预测和显著性图生成等过程得到异常判定结果。接下来结合步骤做具体说明：

步骤2，对原始情感时间序列进行分解，保留序列残差项；

步骤3，对序列残差项两端的部分未知数据进行预测和补充，得到待测时间序列；

步骤5，根据显著性图确定异常判定结果。

所述获取社交平台中的话题文本数据，生成对应的情感时间序列曲线包括：

步骤1-5，基于情感分类器得到每条文本的情感值，对每个时间片所属文本集合的情感值进行累加，作为该时间点的对应情感值；

所述基于规则的方法对无效文本和重复文本进行过滤包括：

根据预先设定的过滤规则与文本进行匹配，从数据集中去除与规则匹配的文本；

根据预先设定的过滤词库，将文本中包含的过滤词汇进行去除；

所述基于分类模型的方法对无关文本和中立文本进行过滤包括：

从数据集中随机抽样出部分文本，标注为与话题相关或无关的文本，组成训练集对文本分类模型进行训练，得到分类器C1；

从数据集中随机抽样出部分文本，标注为包含情感倾向或客观中立的文本，组成训练集对文本分类模型进行训练，得到分类器C2；

所述基于情感分类器得到每条文本的情感值包括：

从数据集中随机抽样出部分文本，标注为情感积极或消极的文本，组成训练集对文本分类模型进行训练，得到分类器C3；

利用分类器C3对所有文本进行分类，若分类结果为积极，则该条文本的情感分数值记为+1；若结果为消极，则情感分数值记为-1。

所述对情感时间序列进行分解，得到残差项包括：

步骤2-1，对原始情感时间序列应用经典时间序列分解方法，基于移动平均方法(Moving Average)得到趋势项，将其从序列中除去，得到去趋势序列；

步骤2-2，计算去趋势序列周期内每个节点的平均项，得到周期项；

步骤2-3，计算原始情感时间序列的中位数项；

对情感时间序列两端的部分未知数据进行预测和补充包括：

步骤3-2，将预测得到的数据值补充在原情感时间序列的两侧，得到的待测时间序列用X＝{x_-l,x_-l+1,x₀,x₁,…,x_n-1,…,x_n+l-1}表示。

划分时间序列，利用谱残差方法生成时间子序列的显著性图包括：

步骤4-1，将待测时间序列根据预设窗口的大小和步长划分为多个子序列；

步骤4-2，对子序列进行傅立叶变换，并得到序列的振幅谱A(f)和相位谱P(f)：

步骤4-3，对振幅谱取对数表达：L(f)＝log(A(f))

步骤4-4，对对数振幅谱进行局部卷积得到平均频谱：

AL(f)＝h_g(f)·L(f)，其中h_q(f)定义为：

步骤4-5，从对数频谱中减去均值谱即得到谱残差：R(f)＝L(f)-AL(f)

步骤4-6，使用傅立叶逆变换将序列重新转换回空间域，得到显著性图S(X)；

对所述根据显著性图确定异常判定结果包括：

步骤5-1，对于每个目标时间点，首先计算其显著性图中的双侧局部均值：

步骤5-2，将目标时间点值与双侧局部均值进行比较，得到异常分数；

步骤5-3，将目标数据点的异常分数与预设阈值τ进行比较，若异常分数大于阈值，则确定目标数据点为异常点，得到最终的异常判定结果。

步骤5-4，对每个目标时间点重复步骤5-1～步骤5-3，依次得到每个目标时间点的异常判定结果。

实施例

本发明可以用于社交平台话题数据的信息挖掘中，基于话题数据构建情感时间序列曲线，通过分析序列中的变化模式，能够对引起用户情感变化的关键事件进行挖掘。

为了验证本发明的有效性，将本发明在微博平台爬取的“权力的游戏”话题数据集上进行了应用。该数据集为微博平台用户于2019年4月1日至2019年5月31日期间发表的包含话题“权力的游戏”的所有文本数据，经过预处理后共保留了118316条文本用于生成情感时间序列，生成的时间片单位长度为1天。在异常数据的标注方面，联系现实发生的热议事件进行标注，最终在序列中共定义了7个日期作为异常时间点，包括4月1日，4月15日，4月22日，4月29日，5月6日，5月13日和5月20日。

方法中的一些模型及参数设置如下，预处理过程中使用的分类模型及情感分类模型均采用BERT模型作为分类器，时序预测采用基于Transformer的预测的模型，其结构如图3所示。时间序列的预设滑动窗口大小为7，步长为1，两端预测序列长度为3，异常判断阈值设置为1。

本实施例在上述数据集中的效果如下表1所示，其中S-H-ESD为一种基于统计学习的异常检测方法，SR为应用于工业界数据异常检测的原始方法，SR-BO为本申请的方法，其中SR-B和SR-O分别代表仅使用双侧(Bidirectional)局部均值和仅使用重合(Overlapped)窗口的模式：

表1

表格中的ERR指标为分类错误率，即分类错误时间点在所有时间点中的占比；AP-ad指标用于反映对于所有真实异常时间点的整体检测性能。

从分类错误率可以看出，本发明方法能够找出所有的异常点并过滤所有的非异常点，相较于其它方法取得了最优的效果，且重合窗口和双侧局部均值的设计都带来了效果的提升。从AP-ad指标结果可以看出，本发明方法提升了各异常点检测的整体准确性。

此外，将每个异常检测算法在各时间点上得到的异常程度值按照强弱程度进行排序，对排序结果进行可视化展示，如图4所示。对于S-H-ESD方法，将算法得到的异常点和非异常点分别按照算法检测的先后顺序进行排序，在异常点和非异常点中间使用黑色竖虚线进行划分。对于SR相关方法，包括SR、SR-BO、SR-O、SR-B，根据各时间点对应的异常程度值，按照从大到小的顺序进行排序。图4中每个色块代表一个时间数据点，其中绿色代表真实异常时间点，灰色代表非真实异常时间点，黑色虚线处标明了异常检测算法判断时间点异常与否的划分界限，即虚线之前的时间点为算法检测得到的异常点，之后为算法认为非异常的时间点(由于说明书附图只能是灰度图，所以无法看出颜色，特此说明)。从时间点的异常程度排序变化及异常划分界限变化可以看出，相较于其它方法，本发明方法成功提升了假负例数据点的异常程度排序(如图4中(c)和图4中(d)中的“04-22”数据点、图4中(b)中的“04-15”、“05-13”等数据点，在图4中(e)中被正确判定为异常点)，且降低了假正例点的排序顺序(如图4中(a)中的“04-30”数据点、图4(b)中的“04-12”数据点、图4中(c)中的“05-11”数据点，在图4中(e)不再被识别为异常点)，说明了方法及引入重合窗口和双侧局部均值机制的有效性。

发明提供了一种基于显著性图的情感时间序列异常检测方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于显著性图的情感时间序列异常检测方法，其特征在于，包括如下步骤：

步骤2，对原始情感时间序列进行分解，保留序列残差项；

步骤5，根据显著性图确定异常判定结果。

2.根据权利要求1所述的方法，其特征在于，步骤1包括：

步骤1-1，按照预先设定的时间跨度和话题关键词，从社交平台的关键词搜索结果页面中爬取文本数据集，保存在本地数据库中；

3.根据权利要求2所述的方法，步骤1-2包括：

根据预先设定的过滤规则与文本进行匹配，从步骤1-1中所述数据集中去除与规则匹配的文本；

4.根据权利要求3所述的方法，其特征在于，步骤1-3包括：

从数据集中随机抽样出N1条文本，基于标注将其标记为与话题相关或无关的文本，组成训练集D1利用基于深度变换器的双向编码器表征分类模型进行训练，得到分类器C1；

从数据集中随机抽样出N2条文本，基于标注将其标记为包含情感倾向或客观中立的文本，组成训练集D2基于BERT分类模型进行训练，得到分类器C2；

5.根据权利要求4所述的方法，步骤1-5包括：

从数据集中随机抽样出N3条文本，基于标注将其标记为情感积极或消极的文本，组成训练集D3基于BERT分类模型进行训练，得到分类器C3；

6.根据权利要求5所述的方法，其特征在于，步骤2包括：

步骤2-2，根据序列时间跨度设定其周期长度，设定周期，计算去趋势序列周期内每个时间点的平均项，得到周期项；

步骤2-3，计算原始情感时间序列的中位数项；

7.根据权利要求6所述的方法，其特征在于，步骤3包括：

步骤3-2，将步骤3-1预测得到的数据值补充在情感时间序列的两侧，得到的待测时间序列用X＝{x_-l,x_-l+1,x₀,x₁,…,x_n-1,…,x_n+l-1}表示，每个x_i对应一个时间片的情感值，其中{x₀,…,x_n-1}为原始序列数据，{x_-l,…,x_-1}和{x_n,…,x_n+l-1}为基于时序预测得到的补充值。

8.根据权利要求7所述的方法，其特征在于，步骤3-1中，所述时序预测模型包括：

位置编码层，用于对每个数据点在情感时间序列中的位置进行编码；

编码器单元，由三层编码层堆叠组成；

解码器单元，由三层解码层堆叠组成；

9.根据权利要求8所述的方法，其特征在于，步骤4包括：

步骤4-2，对子序列X进行傅立叶变换