CN113127716A - 一种基于显著性图的情感时间序列异常检测方法 - Google Patents
一种基于显著性图的情感时间序列异常检测方法 Download PDFInfo
- Publication number
- CN113127716A CN113127716A CN202110474305.6A CN202110474305A CN113127716A CN 113127716 A CN113127716 A CN 113127716A CN 202110474305 A CN202110474305 A CN 202110474305A CN 113127716 A CN113127716 A CN 113127716A
- Authority
- CN
- China
- Prior art keywords
- texts
- time
- emotion
- sequence
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title abstract description 19
- 230000008451 emotion Effects 0.000 claims abstract description 81
- 238000000034 method Methods 0.000 claims abstract description 54
- 230000002159 abnormal effect Effects 0.000 claims abstract description 46
- 238000001228 spectrum Methods 0.000 claims abstract description 43
- 230000005856 abnormality Effects 0.000 claims abstract description 12
- 230000001502 supplementing effect Effects 0.000 claims abstract description 7
- 238000001914 filtration Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 17
- 238000013145 classification model Methods 0.000 claims description 15
- 230000007935 neutral effect Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 230000002996 emotional effect Effects 0.000 claims description 7
- 230000002146 bilateral effect Effects 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于显著性图的情感时间序列异常检测方法,包括:(1)获取社交平台中的话题文本数据,生成对应的原始情感时间序列曲线;(2)对原始情感时间序列进行分解,保留序列残差项;(3)对序列残差项两端的部分未知数据进行预测和补充,得到待测时间序列;(4)划分待测时间序列,利用谱残差方法生成时间子序列的显著性图;(5)根据显著性图确定异常判定结果。
Description
技术领域
本发明涉及一种基于显著性图的情感时间序列异常检测方法。
背景技术
随着网络社交平台的迅速发展,人们逐渐形成了在网络平台中表达对热点事件的观点态度的习惯,海量与事件相关的文本数据在社交平台中迅速涌现。通过挖掘用户发布的关于特定话题的文本数据,能够了解用户的立场和态度,帮助政府、公司等组织制定和实施相关的决策。
情感时间序列由归属于各个时间片的文本集合的累积情感值按照时间顺序连接而成,是一种能够将文本数据形式化为时间序列的有效工具。情感时间序列能够反映用户情感随时间变化的特点,通过分析序列中的变化模式,能够对引起用户情感变化的关键事件进行挖掘。
基于情感时间序列的异常检测存在许多挑战。对于情感时间序列而言,异常点比例往往较小,序列频率较低,长度较短,异常点总数量较少。由于缺少标签数据,有监督的异常检测方法在这类问题中难以适用。此外,和大多数异常检测问题一样,异常点与非异常点的数量间还存在类别不平衡问题。先前的工作中对于情感变化和事件的关联性分析都较为简单,例如仅依据明显的短期上升或下降趋势,或人为挑选出部分尖峰点分析与现实事件的关联性,少有将数据挖掘算法应用于情感时间序列分析过程的方法。
发明内容
发明目的:本发明的目的在于提出一种基于显著性图的情感时间序列异常检测方法,提升检测的准确性。
发明步骤:本发明的步骤包括:1)爬取社交平台中的话题文本数据并进行预处理;2)对文本进行情感分类,生成原始情感时间序列曲线;3)对原始情感时间序列进行分解保留残差项,并对两端的部分未知数据进行预测和补充;4)划分时间序列,利用谱残差方法生成时间子序列的显著性图,根据显著性图确定异常判定结果。具体的步骤如下:
包括如下步骤:
步骤1,获取社交平台中的话题文本数据,生成对应的原始情感时间序列曲线;
步骤2,对原始情感时间序列进行分解,保留序列残差项;
步骤3,对序列残差项两端的未知数据进行预测和补充,得到待测时间序列;
步骤4,划分待测时间序列,利用谱残差方法生成时间子序列的显著性图;
步骤5,根据显著性图确定异常判定结果。
步骤1:
步骤1-1,按照预先设定的时间跨度和话题关键词,从社交平台的关键词搜索结果页面中爬取文本数据,保存在本地数据库中;
步骤1-2,采用基于规则的方法对无效文本和重复文本进行过滤;
步骤1-3,采用基于分类模型的方法对无关和中立文本进行过滤;
步骤1-4,按照预设的时间片长度划分时间区间,将文本按照发表时间划分到不同的时间片中,每个时间片对应一个文本集合;
步骤1-5,基于情感分类器得到每条文本的情感值,对每个时间片所属文本集合的情感值进行累加,作为该时间片的对应情感值;
步骤1-6,将各时间点对应的情感值按照时间先后顺序连接得到原始情感时间序列曲线。
步骤1-1包括:
所述预先设定的时间跨度和话题关键词根据实际数据挖掘任务背景人为设定。
步骤1-2包括:
根据预先设定的过滤规则与文本进行匹配,从步骤1-1所述数据集中去除与规则匹配的文本;
根据预先设定的过滤词库,将文本数据中包含的过滤词汇进行去除;
对文本两两之间计算相似度,将相似度大于预设阈值的文本进行去重处理。
预先设定的过滤规则包括对文本中的地址、链接、投票等信息进行匹配和过滤;所述预先设定的过滤词库为经由人工标注得到的无效词库,如“转发”、“转发微博”等;所述预设阈值基于经验进行设置,通常设定为0.9。
步骤1-3包括:
从数据集中随机抽样出N1(一般取值为1000)条文本,基于人工标注将其标记为与话题相关或无关的文本,标记结果由多位(三位及以上,奇数位)标注者的多数选择结果得到(即如果有一半以上的标注者认为文本与话题相关,则将其标记为与话题相关的文本,反之亦然);组成训练集D1利用基于深度变换器的双向编码器表征(BidirectionalEncoderRepresentations from Transformers,BERT)分类模型进行训练,得到分类器C1;
利用分类器C1对所有文本进行分类,去除数据集中分类结果为与话题不相关的文本;
从数据集中随机抽样出N2(一般取值为1000)条文本,基于人工标注将其标记为包含情感倾向或客观中立的文本,标记结果由多位(三位及以上,奇数位)标注者的多数选择结果得到(即如果有一半以上的标注者认为文本包含情感倾向,则将其标记为包含情感倾向的文本,反之亦然);组成训练集D2基于BERT分类模型进行训练,得到分类器C2;
利用分类器C2对所有文本进行分类,去除数据集中分类结果为客观中立的文本。
步骤1-4包括:
所述预设的时间片长度根据文本发表时间的总跨度长度进行设定,通常取12小时或1天为单位时间片长度。
步骤1-5包括:
从数据集中随机抽样出N3(一般取值为1000)条文本,基于人工标注将其标记为情感积极或消极的文本,标记结果由多位(三位及以上,奇数位)标注者的多数选择结果得到(即如果有一半以上的标注者认为文本包含积极情感,则将其标记为情感积极的文本,反之亦然);组成训练集对文本分类模型进行训练,得到分类器C3;
利用分类器C3对所有文本进行分类,如果文本的分类结果为积极,则将文本的情感分数值记为+1;如果文本的分类结果为消极,则将文本的情感分数值记为-1。
步骤2包括:
步骤2-1,对原始情感时间序列应用经典时间序列分解方法,基于移动平均方法得到趋势项,将趋势项从原始情感时间序列中除去,得到去趋势序列;
步骤2-2,根据序列时间跨度设定其周期长度,设定周期(通常以1周或1月为周期),计算去趋势序列周期内每个时间点的平均项,得到周期项;
步骤2-3,计算原始情感时间序列的中位数项;
步骤2-4,从原始情感时间序列中除去周期项和中位数项,得到序列残差项。
步骤3包括:
步骤3-1,采用时序预测模型,对情感时间序列最前端和最末端的未知时间点数据进行预测,预测长度l为预设周期长度T的一半;
步骤3-2,将步骤3-1预测得到的数据值补充在情感时间序列的两侧,得到的待测时间序列用X={x-l,x-l+1,x0,x1,…,xn-1,…,xn+l-1}表示,每个xi对应一个时间片的情感值,其中{x0,…,xn-1}为原始序列数据,{x-l,…,x-1}和{xn,…,xn+l-1}为基于时序预测得到的补充值。
步骤3-1中,所述时序预测模型包括:
位置编码层(Positional Embedding),用于对每个数据点在情感时间序列中的位置进行编码;
编码器单元(Encoder),由三层编码层堆叠组成;
解码器单元(Decoder),由三层解码层堆叠组成;
其中位置编码层、编码器单元、解码器单元都采用和深度变换器Transformer模型相同的结构;
时序预测模型以历史时间点数据为输入,首先经过位置编码层进行编码,然后输入到编码器单元得到数据的中间隐含表示,再结合历史数据和编码器单元的输出,输入到解码器单元得到后续时间点数据的预测结果。
步骤4包括:
步骤4-1,将待测时间序列根据预设窗口的大小和步长划分为两个以上子序列;
其中Amplitude表示取振幅谱运算,Phrase表示取相位谱运算。
步骤4-3,对振幅谱A(f)取对数表达得到对数振幅谱L(f):L(f)=log(A(f))
其中log表示对数运算。
步骤4-4,对对数振幅谱L(f)进行基于hq(f)的局部卷积得到均值谱AL(f):AL(f)=hq(f).L(f)
其中hq(f)为定义如下形状为q×q的矩阵,其中q定义了局部卷积区域的尺寸大小,通常设置为3:
步骤4-5,从对数振幅谱L(f)中减去均值谱AL(f)即得到残差谱R(f):R(f)=L(f)-AL(f)
其中R(f)为振幅谱的残差谱,P(f)为原相位谱,i为虚数单位,exp为以自然常数为底的指数运算。
步骤4-7,对每个子序列重复步骤4-2~步骤4-6,依次得到每个子序列的显著性图。
步骤4-1包括:
预设窗口的大小和步长由时间跨度、时间片长度和周期长度综合设定,例如当时间片长度为1天,周期长度为一周时,窗口的大小设定为7,步长设定为1。
步骤5包括:
步骤5-2,将目标数据点值与双侧局部均值进行比较,得到异常分数D(xi);
步骤5-3,将目标数据点的异常分数D(xi)与预设阈值τ进行比较,,如果异常分数大于阈值,则确定目标数据点为异常点,得到最终的异常判定结果:
预设阈值τ取值通常为1。
步骤5-4,对每个目标时间点重复步骤5-1~步骤5-3,依次得到每个目标数据点的异常判定结果。
有益效果:本发明方法使用谱残差方法得到时间序列子序列中的显著性图,能够增强显著性区域的突出程度,突出异常时间点的显著程度。在滑动窗口的设计方面,采用有重合的滑动模式,使得目标时间点能够位于窗口的中间位置;在异常判定过程中,综合双侧局部均值进行综合判定,对前后数据点的异常判定信息进行了充分利用,能够得到更为准确的异常检测效果。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的总体流程图。
图2则是本发明方法流程的细节图。
图3是时间序列预测模型的结构图。
图4是异常检测排序结果的可视化示意图。
具体实施方式
如图1所示,本模型包含了两个模块,分别是情感时间序列生成和异常检测模块,前者根据文本数据划分时间片生成情感时间序列,后者经过时间序列分解、预测和显著性图生成等过程得到异常判定结果。接下来结合步骤做具体说明:
步骤1,获取社交平台中的话题文本数据,生成对应的原始情感时间序列曲线;
步骤2,对原始情感时间序列进行分解,保留序列残差项;
步骤3,对序列残差项两端的部分未知数据进行预测和补充,得到待测时间序列;
步骤4,划分待测时间序列,利用谱残差方法生成时间子序列的显著性图;
步骤5,根据显著性图确定异常判定结果。
所述获取社交平台中的话题文本数据,生成对应的情感时间序列曲线包括:
步骤1-1,按照预先设定的时间跨度和话题关键词,从社交平台的关键词搜索结果页面中爬取文本数据,保存在本地数据库中;
步骤1-2,采用基于规则的方法对无效文本和重复文本进行过滤;
步骤1-3,采用基于分类模型的方法对无关和中立文本进行过滤;
步骤1-4,按照预设的时间片长度划分时间区间,将文本按照发表时间划分到不同的时间片中,每个时间片对应一个文本集合;
步骤1-5,基于情感分类器得到每条文本的情感值,对每个时间片所属文本集合的情感值进行累加,作为该时间点的对应情感值;
步骤1-6,将各时间点对应的情感值按照时间先后顺序连接得到原始情感时间序列曲线。
所述基于规则的方法对无效文本和重复文本进行过滤包括:
根据预先设定的过滤规则与文本进行匹配,从数据集中去除与规则匹配的文本;
根据预先设定的过滤词库,将文本中包含的过滤词汇进行去除;
对文本两两之间计算相似度,将相似度大于预设阈值的文本进行去重处理。
所述基于分类模型的方法对无关文本和中立文本进行过滤包括:
从数据集中随机抽样出部分文本,标注为与话题相关或无关的文本,组成训练集对文本分类模型进行训练,得到分类器C1;
利用分类器C1对所有文本进行分类,去除数据集中分类结果为与话题不相关的文本;
从数据集中随机抽样出部分文本,标注为包含情感倾向或客观中立的文本,组成训练集对文本分类模型进行训练,得到分类器C2;
利用分类器C2对所有文本进行分类,去除数据集中分类结果为客观中立的文本。
所述基于情感分类器得到每条文本的情感值包括:
从数据集中随机抽样出部分文本,标注为情感积极或消极的文本,组成训练集对文本分类模型进行训练,得到分类器C3;
利用分类器C3对所有文本进行分类,若分类结果为积极,则该条文本的情感分数值记为+1;若结果为消极,则情感分数值记为-1。
所述对情感时间序列进行分解,得到残差项包括:
步骤2-1,对原始情感时间序列应用经典时间序列分解方法,基于移动平均方法(Moving Average)得到趋势项,将其从序列中除去,得到去趋势序列;
步骤2-2,计算去趋势序列周期内每个节点的平均项,得到周期项;
步骤2-3,计算原始情感时间序列的中位数项;
步骤2-4,从原始情感时间序列中除去周期项和中位数项,得到序列残差项。
对情感时间序列两端的部分未知数据进行预测和补充包括:
步骤3-1,采用时序预测模型,对情感时间序列最前端和最末端的未知时间点数据进行预测,预测长度l为预设周期长度T的一半;
步骤3-2,将预测得到的数据值补充在原情感时间序列的两侧,得到的待测时间序列用X={x-l,x-l+1,x0,x1,…,xn-1,…,xn+l-1}表示。
划分时间序列,利用谱残差方法生成时间子序列的显著性图包括:
步骤4-1,将待测时间序列根据预设窗口的大小和步长划分为多个子序列;
步骤4-2,对子序列进行傅立叶变换,并得到序列的振幅谱A(f)和相位谱P(f):
步骤4-3,对振幅谱取对数表达:L(f)=log(A(f))
步骤4-4,对对数振幅谱进行局部卷积得到平均频谱:
AL(f)=hg(f)·L(f),其中hq(f)定义为:
步骤4-5,从对数频谱中减去均值谱即得到谱残差:R(f)=L(f)-AL(f)
步骤4-6,使用傅立叶逆变换将序列重新转换回空间域,得到显著性图S(X);
步骤4-7,对每个子序列重复步骤4-2~步骤4-6,依次得到每个子序列的显著性图。
对所述根据显著性图确定异常判定结果包括:
步骤5-1,对于每个目标时间点,首先计算其显著性图中的双侧局部均值:
步骤5-2,将目标时间点值与双侧局部均值进行比较,得到异常分数;
步骤5-3,将目标数据点的异常分数与预设阈值τ进行比较,若异常分数大于阈值,则确定目标数据点为异常点,得到最终的异常判定结果。
步骤5-4,对每个目标时间点重复步骤5-1~步骤5-3,依次得到每个目标时间点的异常判定结果。
实施例
本发明可以用于社交平台话题数据的信息挖掘中,基于话题数据构建情感时间序列曲线,通过分析序列中的变化模式,能够对引起用户情感变化的关键事件进行挖掘。
为了验证本发明的有效性,将本发明在微博平台爬取的“权力的游戏”话题数据集上进行了应用。该数据集为微博平台用户于2019年4月1日至2019年5月31日期间发表的包含话题“权力的游戏”的所有文本数据,经过预处理后共保留了118316条文本用于生成情感时间序列,生成的时间片单位长度为1天。在异常数据的标注方面,联系现实发生的热议事件进行标注,最终在序列中共定义了7个日期作为异常时间点,包括4月1日,4月15日,4月22日,4月29日,5月6日,5月13日和5月20日。
方法中的一些模型及参数设置如下,预处理过程中使用的分类模型及情感分类模型均采用BERT模型作为分类器,时序预测采用基于Transformer的预测的模型,其结构如图3所示。时间序列的预设滑动窗口大小为7,步长为1,两端预测序列长度为3,异常判断阈值设置为1。
本实施例在上述数据集中的效果如下表1所示,其中S-H-ESD为一种基于统计学习的异常检测方法,SR为应用于工业界数据异常检测的原始方法,SR-BO为本申请的方法,其中SR-B和SR-O分别代表仅使用双侧(Bidirectional)局部均值和仅使用重合(Overlapped)窗口的模式:
表1
表格中的ERR指标为分类错误率,即分类错误时间点在所有时间点中的占比;AP-ad指标用于反映对于所有真实异常时间点的整体检测性能。
从分类错误率可以看出,本发明方法能够找出所有的异常点并过滤所有的非异常点,相较于其它方法取得了最优的效果,且重合窗口和双侧局部均值的设计都带来了效果的提升。从AP-ad指标结果可以看出,本发明方法提升了各异常点检测的整体准确性。
此外,将每个异常检测算法在各时间点上得到的异常程度值按照强弱程度进行排序,对排序结果进行可视化展示,如图4所示。对于S-H-ESD方法,将算法得到的异常点和非异常点分别按照算法检测的先后顺序进行排序,在异常点和非异常点中间使用黑色竖虚线进行划分。对于SR相关方法,包括SR、SR-BO、SR-O、SR-B,根据各时间点对应的异常程度值,按照从大到小的顺序进行排序。图4中每个色块代表一个时间数据点,其中绿色代表真实异常时间点,灰色代表非真实异常时间点,黑色虚线处标明了异常检测算法判断时间点异常与否的划分界限,即虚线之前的时间点为算法检测得到的异常点,之后为算法认为非异常的时间点(由于说明书附图只能是灰度图,所以无法看出颜色,特此说明)。从时间点的异常程度排序变化及异常划分界限变化可以看出,相较于其它方法,本发明方法成功提升了假负例数据点的异常程度排序(如图4中(c)和图4中(d)中的“04-22”数据点、图4中(b)中的“04-15”、“05-13”等数据点,在图4中(e)中被正确判定为异常点),且降低了假正例点的排序顺序(如图4中(a)中的“04-30”数据点、图4(b)中的“04-12”数据点、图4中(c)中的“05-11”数据点,在图4中(e)不再被识别为异常点),说明了方法及引入重合窗口和双侧局部均值机制的有效性。
发明提供了一种基于显著性图的情感时间序列异常检测方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (10)
1.一种基于显著性图的情感时间序列异常检测方法,其特征在于,包括如下步骤:
步骤1,获取社交平台中的话题文本数据,生成对应的原始情感时间序列曲线;
步骤2,对原始情感时间序列进行分解,保留序列残差项;
步骤3,对序列残差项两端的未知数据进行预测和补充,得到待测时间序列;
步骤4,划分待测时间序列,利用谱残差方法生成时间子序列的显著性图;
步骤5,根据显著性图确定异常判定结果。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
步骤1-1,按照预先设定的时间跨度和话题关键词,从社交平台的关键词搜索结果页面中爬取文本数据集,保存在本地数据库中;
步骤1-2,采用基于规则的方法对无效文本和重复文本进行过滤;
步骤1-3,采用基于分类模型的方法对无关和中立文本进行过滤;
步骤1-4,按照预设的时间片长度划分时间区间,将文本按照发表时间划分到不同的时间片中,每个时间片对应一个文本集合;
步骤1-5,基于情感分类器得到每条文本的情感值,对每个时间片所属文本集合的情感值进行累加,作为该时间片的对应情感值;
步骤1-6,将各时间点对应的情感值按照时间先后顺序连接得到原始情感时间序列曲线。
3.根据权利要求2所述的方法,步骤1-2包括:
根据预先设定的过滤规则与文本进行匹配,从步骤1-1中所述数据集中去除与规则匹配的文本;
根据预先设定的过滤词库,将文本数据中包含的过滤词汇进行去除;
对文本两两之间计算相似度,将相似度大于预设阈值的文本进行去重处理。
4.根据权利要求3所述的方法,其特征在于,步骤1-3包括:
从数据集中随机抽样出N1条文本,基于标注将其标记为与话题相关或无关的文本,组成训练集D1利用基于深度变换器的双向编码器表征分类模型进行训练,得到分类器C1;
利用分类器C1对所有文本进行分类,去除数据集中分类结果为与话题不相关的文本;
从数据集中随机抽样出N2条文本,基于标注将其标记为包含情感倾向或客观中立的文本,组成训练集D2基于BERT分类模型进行训练,得到分类器C2;
利用分类器C2对所有文本进行分类,去除数据集中分类结果为客观中立的文本。
5.根据权利要求4所述的方法,步骤1-5包括:
从数据集中随机抽样出N3条文本,基于标注将其标记为情感积极或消极的文本,组成训练集D3基于BERT分类模型进行训练,得到分类器C3;
利用分类器C3对所有文本进行分类,如果文本的分类结果为积极,则将文本的情感分数值记为+1;如果文本的分类结果为消极,则将文本的情感分数值记为-1。
6.根据权利要求5所述的方法,其特征在于,步骤2包括:
步骤2-1,对原始情感时间序列应用经典时间序列分解方法,基于移动平均方法得到趋势项,将趋势项从原始情感时间序列中除去,得到去趋势序列;
步骤2-2,根据序列时间跨度设定其周期长度,设定周期,计算去趋势序列周期内每个时间点的平均项,得到周期项;
步骤2-3,计算原始情感时间序列的中位数项;
步骤2-4,从原始情感时间序列中除去周期项和中位数项,得到序列残差项。
7.根据权利要求6所述的方法,其特征在于,步骤3包括:
步骤3-1,采用时序预测模型,对情感时间序列最前端和最末端的未知时间点数据进行预测,预测长度l为预设周期长度T的一半;
步骤3-2,将步骤3-1预测得到的数据值补充在情感时间序列的两侧,得到的待测时间序列用X={x-l,x-l+1,x0,x1,…,xn-1,…,xn+l-1}表示,每个xi对应一个时间片的情感值,其中{x0,…,xn-1}为原始序列数据,{x-l,…,x-1}和{xn,…,xn+l-1}为基于时序预测得到的补充值。
8.根据权利要求7所述的方法,其特征在于,步骤3-1中,所述时序预测模型包括:
位置编码层,用于对每个数据点在情感时间序列中的位置进行编码;
编码器单元,由三层编码层堆叠组成;
解码器单元,由三层解码层堆叠组成;
其中位置编码层、编码器单元、解码器单元都采用和深度变换器Transformer模型相同的结构;
时序预测模型以历史时间点数据为输入,首先经过位置编码层进行编码,然后输入到编码器单元得到数据的中间隐含表示,再结合历史数据和编码器单元的输出,输入到解码器单元得到后续时间点数据的预测结果。
9.根据权利要求8所述的方法,其特征在于,步骤4包括:
步骤4-1,将待测时间序列根据预设窗口的大小和步长划分为两个以上子序列;
其中Amplitude表示取振幅谱运算,Phrase表示取相位谱运算;
步骤4-3,对振幅谱A(f)取对数表达得到对数振幅谱L(f):L(f)=log(A(f))
其中log表示对数运算;
步骤4-4,对对数振幅谱L(f)进行基于hq(f)的局部卷积得到均值谱AL(f):
AL(f)=hq(f)·L(f)
其中hq(f)为定义如下形状为q×q的矩阵,其中q定义了局部卷积区域的尺寸大小:
步骤4-5,从对数振幅谱L(f)中减去均值谱AL()即得到残差谱R(f):R(f)=L(f)-AL(f)
其中R(f)为振幅谱的残差谱,P(f)为原相位谱,i为虚数单位,exp为以自然常数为底的指数运算;
步骤4-7,对每个子序列重复步骤4-2~步骤4-6,依次得到每个子序列的显著性图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110474305.6A CN113127716B (zh) | 2021-04-29 | 2021-04-29 | 一种基于显著性图的情感时间序列异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110474305.6A CN113127716B (zh) | 2021-04-29 | 2021-04-29 | 一种基于显著性图的情感时间序列异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113127716A true CN113127716A (zh) | 2021-07-16 |
CN113127716B CN113127716B (zh) | 2023-07-28 |
Family
ID=76780488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110474305.6A Active CN113127716B (zh) | 2021-04-29 | 2021-04-29 | 一种基于显著性图的情感时间序列异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113127716B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168586A (zh) * | 2022-02-10 | 2022-03-11 | 北京宝兰德软件股份有限公司 | 一种异常点检测的方法和装置 |
CN114844796A (zh) * | 2022-04-29 | 2022-08-02 | 济南浪潮数据技术有限公司 | 一种对时序kpi的异常检测的方法、装置及介质 |
CN117076258A (zh) * | 2023-10-15 | 2023-11-17 | 江苏全天软件有限公司 | 一种基于互联网云端的远程监控方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107123113A (zh) * | 2017-04-20 | 2017-09-01 | 北京工业大学 | 一种基于格拉布斯准则与arima的gwac光变曲线异常检测方法 |
CN108446584A (zh) * | 2018-01-30 | 2018-08-24 | 中国航天电子技术研究院 | 一种无人机侦察视频图像目标自动检测方法 |
CN108845230A (zh) * | 2018-06-22 | 2018-11-20 | 国网陕西省电力公司电力科学研究院 | 一种次同步振荡随机时变模态辨识方法 |
CN110442846A (zh) * | 2019-07-18 | 2019-11-12 | 北京航空航天大学 | 一种新型多尺度注意力机制的序列数据预测系统 |
US20200007566A1 (en) * | 2016-12-29 | 2020-01-02 | NSFOCUS Information Technology Co., Ltd. | Network traffic anomaly detection method and apparatus |
CN110909046A (zh) * | 2019-12-02 | 2020-03-24 | 上海舵敏智能科技有限公司 | 时间序列的异常检测方法及装置、电子设备、存储介质 |
US20200210393A1 (en) * | 2018-09-14 | 2020-07-02 | Verint Americas Inc. | Framework and method for the automated determination of classes and anomaly detection methods for time series |
CN111444168A (zh) * | 2020-03-26 | 2020-07-24 | 易电务(北京)科技有限公司 | 一种配电室变压器日最大负荷异常数据检测处理方法 |
CN111523410A (zh) * | 2020-04-09 | 2020-08-11 | 哈尔滨工业大学 | 一种基于注意力机制的视频显著性目标检测方法 |
CN111679949A (zh) * | 2020-04-23 | 2020-09-18 | 平安科技(深圳)有限公司 | 基于设备指标数据的异常检测方法及相关设备 |
CN111695639A (zh) * | 2020-06-17 | 2020-09-22 | 浙江经贸职业技术学院 | 一种基于机器学习的电力用户用电异常检测方法 |
US20200342968A1 (en) * | 2019-04-24 | 2020-10-29 | GE Precision Healthcare LLC | Visualization of medical device event processing |
CN112395120A (zh) * | 2019-08-14 | 2021-02-23 | 阿里巴巴集团控股有限公司 | 异常点检测方法、装置、设备及存储介质 |
CN112634615A (zh) * | 2020-12-15 | 2021-04-09 | 合肥工业大学 | 一种动态交通流量预测系统 |
-
2021
- 2021-04-29 CN CN202110474305.6A patent/CN113127716B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200007566A1 (en) * | 2016-12-29 | 2020-01-02 | NSFOCUS Information Technology Co., Ltd. | Network traffic anomaly detection method and apparatus |
CN107123113A (zh) * | 2017-04-20 | 2017-09-01 | 北京工业大学 | 一种基于格拉布斯准则与arima的gwac光变曲线异常检测方法 |
CN108446584A (zh) * | 2018-01-30 | 2018-08-24 | 中国航天电子技术研究院 | 一种无人机侦察视频图像目标自动检测方法 |
CN108845230A (zh) * | 2018-06-22 | 2018-11-20 | 国网陕西省电力公司电力科学研究院 | 一种次同步振荡随机时变模态辨识方法 |
US20200210393A1 (en) * | 2018-09-14 | 2020-07-02 | Verint Americas Inc. | Framework and method for the automated determination of classes and anomaly detection methods for time series |
US20200342968A1 (en) * | 2019-04-24 | 2020-10-29 | GE Precision Healthcare LLC | Visualization of medical device event processing |
CN110442846A (zh) * | 2019-07-18 | 2019-11-12 | 北京航空航天大学 | 一种新型多尺度注意力机制的序列数据预测系统 |
CN112395120A (zh) * | 2019-08-14 | 2021-02-23 | 阿里巴巴集团控股有限公司 | 异常点检测方法、装置、设备及存储介质 |
CN110909046A (zh) * | 2019-12-02 | 2020-03-24 | 上海舵敏智能科技有限公司 | 时间序列的异常检测方法及装置、电子设备、存储介质 |
CN111444168A (zh) * | 2020-03-26 | 2020-07-24 | 易电务(北京)科技有限公司 | 一种配电室变压器日最大负荷异常数据检测处理方法 |
CN111523410A (zh) * | 2020-04-09 | 2020-08-11 | 哈尔滨工业大学 | 一种基于注意力机制的视频显著性目标检测方法 |
CN111679949A (zh) * | 2020-04-23 | 2020-09-18 | 平安科技(深圳)有限公司 | 基于设备指标数据的异常检测方法及相关设备 |
CN111695639A (zh) * | 2020-06-17 | 2020-09-22 | 浙江经贸职业技术学院 | 一种基于机器学习的电力用户用电异常检测方法 |
CN112634615A (zh) * | 2020-12-15 | 2021-04-09 | 合肥工业大学 | 一种动态交通流量预测系统 |
Non-Patent Citations (2)
Title |
---|
HANSHENG REN等: "Time-Series Anomaly Detection Service at Microsoft", PROCEEDINGS OF THE 25TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY & DATA MINING, pages 3009 - 3017 * |
王宇鹏等: "基于改进HTM模型的时间序列异常检测", 计算机应用与软件, vol. 37, no. 8, pages 296 - 299 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168586A (zh) * | 2022-02-10 | 2022-03-11 | 北京宝兰德软件股份有限公司 | 一种异常点检测的方法和装置 |
CN114844796A (zh) * | 2022-04-29 | 2022-08-02 | 济南浪潮数据技术有限公司 | 一种对时序kpi的异常检测的方法、装置及介质 |
CN117076258A (zh) * | 2023-10-15 | 2023-11-17 | 江苏全天软件有限公司 | 一种基于互联网云端的远程监控方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113127716B (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984724B (zh) | 利用高维表示提高特定属性情感分类准确率方法 | |
CN113642330B (zh) | 基于目录主题分类的轨道交通规范实体识别方法 | |
CN110990564B (zh) | 一种基于情感计算与多头注意力机制的负面新闻识别方法 | |
CN113127716A (zh) | 一种基于显著性图的情感时间序列异常检测方法 | |
CN111079430B (zh) | 一种组合深度学习和概念图谱的电力故障事件抽取方法 | |
CN113221567A (zh) | 司法领域命名实体及关系联合抽取方法 | |
CN111159407A (zh) | 训练实体识别和关系分类模型的方法、装置、设备及介质 | |
CN110851176B (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
CN105205124A (zh) | 一种基于随机特征子空间的半监督文本情感分类方法 | |
CN113779260B (zh) | 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 | |
CN113065356B (zh) | 一种基于语义分析算法的it设备运维故障建议处理方法 | |
CN104699614B (zh) | 一种软件缺陷组件预测的方法 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
CN104462408A (zh) | 一种基于主题建模的多粒度情感分析方法 | |
CN113836891A (zh) | 基于多元标注策略的结构化信息抽取方法和装置 | |
CN113553831A (zh) | 基于bagcnn模型的方面级别情感分析方法和系统 | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 | |
CN116342167B (zh) | 基于序列标注命名实体识别的智能成本度量方法和装置 | |
CN113157918A (zh) | 一种基于注意力机制的商品名称短文本分类方法和系统 | |
CN117151222A (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN114610871B (zh) | 基于人工智能算法的情报系统建模分析方法 | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 | |
CN109189893A (zh) | 一种自动检索的方法和装置 | |
WO2022227196A1 (zh) | 一种数据分析方法、装置、计算机设备及存储介质 | |
Gao et al. | Mining and Visualizing Cost and Schedule Risks from News Articles with NLP and Network Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |