CN113326472B - 一种基于时序多变量数据的模式提取与演化可视分析方法 - Google Patents

一种基于时序多变量数据的模式提取与演化可视分析方法 Download PDF

Info

Publication number
CN113326472B
CN113326472B CN202110594978.5A CN202110594978A CN113326472B CN 113326472 B CN113326472 B CN 113326472B CN 202110594978 A CN202110594978 A CN 202110594978A CN 113326472 B CN113326472 B CN 113326472B
Authority
CN
China
Prior art keywords
time
data
abnormal
evolution
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110594978.5A
Other languages
English (en)
Other versions
CN113326472A (zh
Inventor
张慧杰
吕程
任珂
付佳
蔺依铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Normal University
Original Assignee
Northeast Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Normal University filed Critical Northeast Normal University
Priority to CN202110594978.5A priority Critical patent/CN113326472B/zh
Publication of CN113326472A publication Critical patent/CN113326472A/zh
Application granted granted Critical
Publication of CN113326472B publication Critical patent/CN113326472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据可视化与可视分析领域,目的是提供一种基于时序多变量数据的模式提取与演化可视分析方法,包含下列步骤:S1:将待处理的数据样本点进行处理,建立时序多变量数据集合,通过异常检测算法筛选出常规点和异常点,执行步骤2;S2:对常规点通过常规模式提取,对异常点通过异常模式下选择,执行步骤3;S3:通过可视分析系统PEVis建立多个相互联动视图,通过前端交互进行展示,在保持数据中模式与异常的时间一致性基础上,设计新颖的可视化表达方案,帮助用户直观感知常规模式和异常事件的演化规律。

Description

一种基于时序多变量数据的模式提取与演化可视分析方法
技术领域
本发明涉及数据可视化与可视分析技术领域,具体涉及一种基于时序多变量数据的模式提取与演化可视分析方法。
背景技术
随着城市信息化的不断完善和大数据时代的来临,社会发展与人类生活产生的数据被广泛记录与收集。多变量数据是一种十分常见的数据类型,其数据样本拥有多个属性特征,譬如包含多种指标的环境监测数据,包含多种信息的个人档案等等,通常包含多个特征变量,并随时间不断变化,被称为时序多变量数据,分析时序多变量数据中蕴含的潜在模式能够从很大程度上反映现实世界中事物的变化规律。
此外,在反作弊、伪基站、金融诈骗等领域,专家则更关注于时序多变量数据中的异常现象,这能帮助他们更好地理解可疑行为,提高金融系统的安全性和稳健性。然而,数据变量之间存在复杂的关联关系及时序变化的特点,导致重要特征难以跟踪和分析,用户难以对其进行理解及比较,信息认知面临较大的挑战。
现有的公开专利中,CN202010230486.3,专利名称为基于经验模态分解和前馈神经网络对时序数据的预测方法,由对数据集缺失值处理、独热编码处理、主成分分析方法降维、经验模态分解、数据标准化处理、前馈神经网络训练、对测试集测试步骤组成。该发明采用了主成分分析方法降维和经验模态分解方法,通过降维减少预测变量的个数,得到的数据包含了原始数据的大部分信息,保证降维后得到的数据中每个变量不包含重复的原始数据信息,在前馈神经网络训练时,用本征模函数代替原始时序数据进行训练,输入降维后的数据集,减少了变量个数,获得了准确的结果,训练时间大幅度减少,可用于对时序数据预测。
上述的方法是将不同时间片的数据一起降维到同一空间,但是由于数据规模过大,导致计算效率低下,而且不同时间片之间的冗余信息会降低分析精度。另外一种做法是将不同时间片上的数据单独降维,但会导致不同时间片的数据点属于不同空间,结果难以比较。因此,目前尚缺乏一种能够处理时变特征的降维方法,为分析时序多变量数据中的模式和异常奠定基础。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于时序多变量数据的模式提取与演化可视分析方法,包括潜在模式提取与异常检测,时序多变量数据演化规律的感知策略以及针对时序多变量数据的交互式可视分析系统。
通过以下技术方案来实现的:一方面,包含下列步骤:
S1:将待处理的数据样本点进行处理,建立时序多变量数据集合,通过异常检测算法筛选出常规点和异常点,执行步骤2;
S2:对常规点通过常规模式提取,对异常点通过异常模式下选择,执行步骤3;
S3:通过可视分析系统PEVis建立多个相互联动视图,通过前端交互进行展示。
优选的,所述S1,时序多变量实例X是一个向量序列,
X=[x1,x2,...,xT]∈RD×T
其中,D是时序多变量实例中的变量个数,T是时间片长度,时序多变量数据
Figure GDA0003646168230000021
是由多个时序多变量实例组成的集合,
Figure GDA0003646168230000022
其中Xi是一个时序多变量实例,N是数据集中实例的个数,其中,
Figure GDA0003646168230000023
表示为一个具有实例轴、属性轴和时间片轴的3D数组,
Figure GDA0003646168230000024
优选的,所述S1中,所述异常检测算法包括有使用了三种异常检测算法,分别是基于距离的k近邻异常检测算法,基于密度的局部异常因子检测算法,以及基于集成学习的孤立森林算法。
优选的,所述S2中,对常规点进行聚类,聚类能根据变量间相似性将常规的样本点划分成不同的簇,将每个簇定义为一种常规模式;针对异常点,对全局时间片进行切片,在不同的时间片上,为异常点分类,选择最接近的一种常规模式作为当前时间片上的潜在模式。
优选的,所述S3中,PEVis支持对时序多变量数据进行潜在模式提取与解释,通过设计目标建立全局概览投影视图和异常指标选择视图、潜在模式演化视图、特征时变视图和特征分布视图。
优选的,所述S3中,系统PEVis还包括有聚焦、刷选、放缩移动、参数设置和信息展示的交互功能。
另一方面,计算机可读存储介质,所述计算机可读存储介质上存储有一个或多个计算机程序,所述一个或多个计算机程序被一个或多个处理器执行时实现如上的基于时序多变量数据的模式提取与演化可视分析方法。
另一方面,一种基于时序多变量数据的模式提取与演化可视分析装置,包括:一个或多个处理器;计算机可读存储介质,其存储有一个或多个计算机程序;所述一个或多个所述计算机程序被所述一个或多个处理器执行时实现如上的基于时序多变量数据的模式提取与演化可视分析方法。
另一方面,一种基于时序多变量数据的模式提取与演化可视分析系统,系统包括数据处理单元、视图合成单元和交互单元,通过数据处理单元构建时序多变量数据集合并分类常规点和异常点,通过视图合成单元分别对常规点和异常点处理进行视图的整合,通过交互单元展示各个视图并向用户提供交互功能,
系统预存在处理器中,计算机内包含有一个或多个处理器;计算机可读存储介质,其存储有一个或多个计算机程序;所述一个或多个所述计算机程序被所述一个或多个处理器执行时实现如上所述的基于时序多变量数据的模式提取与演化可视分析方法。
另一方面,如上所述的基于时序多变量数据的模式提取与演化可视分析方法用于空气质量指数监测数据集、居民消费价格指数数据集、金融数据集的挖掘和演化用途。
本发明的有益效果是:
(1)在平衡美观性和可用性的基础上,我们的系统包含五个彼此联动并带有丰富交互的可视化视图。
(2)多变量数据可视化通常用于帮助用户理解和判断自动检测到的异常值是否满足特定领域的需求。
附图说明
图1为本发明潜在模式提取方法的框架图;
图2为本发明的时序多变量数据
Figure GDA0003646168230000031
的数据格式转变过程图;
图3为本发明实施例中降维空间时间一致性融合视图;
图4a为本发明实施例中全局概览投影视图;
图4b为本发明实施例中异常指标选择视图;
图4c为本发明实施例中PEVis系统的软件界面的视图;
图4d为本发明实施例中潜在模式演化视图;
图4e为本发明实施例中特征时变视图;
图4f为本发明实施例中特征分布视图;
图5为本发明实施例中CPI潜在模式时变视图;
图6为本发明实施例中CPI特征时变视图;
图7为本发明实施例中北京市特征时变视图。
具体实施方式
下面结合本发明的附图1~7,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施。
在本发明的描述中,需要理解的是,术语“逆时针”、“顺时针”“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例1:请参照图1,
常规模式:将在所有时间片上类别保持不变的一组数据称之为常规模式,其中,不同的类别确定不同的常规模式。
但对于时序多变量数据的异常值,到目前为止并没有一个有效的定义。基于已有的一些异常检测工作,我们在异常模式探索方面,从常规模式的对立面出发,综合考虑了多种数据的时变模式。根据异常在时序上的波动,分为稳定式异常和跳跃式异常;根据异常在邻域上的变化,分为孤立式异常和协同式异常。结合数据在时序和邻域上的异常特点,我们提取出四种异常模式;稳定式孤立异常:将在所有时间片上,始终偏离于其他大部分数据的样本点,称为稳定式孤立异常。稳定式协同异常:将在所有时间片上,少部分一起协同变化的样本点,称为稳定式协同异常。跳跃式孤立异常:将在不同时间片上,跳跃归属于不同常规模式的样本点,称为跳跃式孤立异常。跳跃式协同异常:将在不同时间片上,少部分一起协同变化、跳跃归属于不同常规模式的样本点,称为跳跃式协同异常。
定义1时序多变量实例X:时序多变量实例X是一个向量序列,X=[x1,x2,...,xT]∈RD×T,其中,D是时序多变量实例中的变量个数(维度、属性个数),T是时间片长度。
定义2时序多变量数据
Figure GDA0003646168230000051
时序多变量数据
Figure GDA0003646168230000052
是由多个时序多变量实例组成的集合,
Figure GDA0003646168230000053
其中Xi是一个时序多变量实例,N是数据集中实例的个数。
对于时序多变量数据
Figure GDA0003646168230000054
通常,我们将其表示为一个具有实例轴、属性轴和时间片轴的3D数组,
Figure GDA0003646168230000055
为有效地对时序多变量数据
Figure GDA0003646168230000056
提取潜在模式,我们使用时间片拼接的方法,将
Figure GDA0003646168230000057
由3D数组转变为2D数组。如图1,我们对一个N×D×T的数据,保留N(实例)轴,通过将T(时间片)轴上的数据依次拼接到D(属性)轴上,得到一个行数为N,而列数为D×T的2D数组,请参照图2,图中具体字符仅为计算过程中的符号,这里不赘述。
基于上述时间片拼接的方法,我们将一个3D数据
Figure GDA0003646168230000058
压缩表示为一个2D数据Z,其中,
Figure GDA0003646168230000059
D′=D×T。
我们在提取时序异常点时,融合了不同异常检测算法对数据分布感知的能力,使用了三种异常检测算法。分别是基于距离的k近邻异常检测算法,基于密度的局部异常因子检测算法,以及基于集成学习的孤立森林算法。除此之外,在整个分析系统的探索方面,我们同样会涵盖其他类型异常检测方式,如基于统计的方法和基于分类的思想等。
为了进一步挖掘数据模式,我们对正常的样本点进行聚类操作,聚类能根据变量间相似性将样本点划分成不同的簇,将每个簇定义为一种常规模式。在机器学习领域,有很多经典的聚类算法,如基于距离的K-means算法、基于密度的DBSCAN算法、基于层次的层次聚类算法等。我们选择K-means算法来对数据样本点进行聚类,使用单个样本点来对簇进行建模,采用欧式距离来衡量样本与各个簇的相似度,样本点只属于与其距离最近的簇。
基于上述提取到的常规模式和异常模式,请参照图1,图中的字符均是本领域多时序数据处理的常用字符,这里不赘述,我们提出一种基于正交普氏分析的时序多变量数据感知策略,实现不同时间片降维空间的有效融合,保持数据中模式与异常的时间一致性。同时,引入因子分析方法,提取能够区分模式的关键特征,设计一维与二维相结合的可视化隐喻方案,直观展示数据分布和特征贡献。帮助用户感知常规模式和异常事件的演化规律。
数据降维是一种常见的多变量数据可视化技术。在保证数据的原始特征与数据之间相关性的前提下,将高维数据投影至低维可视空间。在低维可视空间中,结合人的视觉能力,根据原始数据中的相关性识别数据中的簇和异常点,以及进一步对数据进行建模,挖掘其模式。常用的降维方法有PCA、MDS和t-SNE等等。
在我们的时序多变量数据模式演化中,如图3,图中字符均为本领域常用指代字符,这里不赘述,我们将每个时间片上的二维数据对齐于第一个时间片,以此来实现不同时间片降维空间的有效融合,保持数据中模式与异常的时间一致性,方便后续可视分析探索,
我们对T个时间片上,共计K×T个集群簇进行因子分析,其中K是聚类算法中簇的个数。得到K×T组多变量数据特征权重向量,其中特征权重即载荷,表示特征对因子的解释程度。载荷范围为[-1,1]。接近于-1或1的载荷表明特征对因子的影响非常强,对该因子所表示的常规模式影响权重较高,属于该模式的主要特征。接近于0的载荷表明特征对因子的影响很弱,即对模式影响较弱,不属于该模式的主要特征。综上所述,在模式提取方面,融合多种异常检测算法对数据集进行分析,筛选出常规点和异常点。然后对所有常规点进行聚类划分类别提取常规模式,最后在不同时间片上对异常点进行潜在模式选择。在时序多变量数据演化规律感知上,基于正交普氏分析融合不同降维空间,并结合因子分析方法,设计新颖的模式演化视图。为模式演化探索提供技术支持。
下面介绍实现的时序多变量数据模式演化可视分析系统PEVis。对于多时间片、多变量的大规模数据集,我们通过可视化隐喻的方法将数据的潜在时变模式提取、解释融入进可视分析流程中,进而提出一个具有多个相互联动视图的可视分析系统,帮助用户对时序多变量数据进行全面且深入的分析。系统包括两个主要的任务:一部分是数据处理部分,包括数据的清洗、异常值提取、异常模式与常规模式的构建。另一部分是:可视分析部分,即系统的前端交互,包括五个带有丰富关联的视图,通过联动视图,系统支持用户对时序多变量数据的可视分析过程,对演化模式提供可解释性分析。
本发明的一种基于时序多变量数据的模式提取与演化可视分析装置包括:处理器和计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现能够本发明的模式提取与演化可视分析方法。其中,由于各个步骤的程序逻辑不同,可采用专用处理器或通用芯片来执行相应的步骤,以提高整个程序的处理效率,并合理地控制成本。因此,本领域技术人员可根据具体应用情况,对本发明用于时序多变量数据的模式提取与演化可视分析中的处理器和计算机程序的数量进行适应性地设计与调整。
基于对可解释性的机器学习、数据挖掘和人机交互领域论文的文献回顾,以及对时序多变量数据潜在模式的构建,我们提炼出以下设计目标。
G1:对于时序多变量数据,构建异常模式和常规模式,支持对不同模式的交互式探索和验证。传统的数据挖掘方法如异常检测、聚类、降维等机器学习技术,大部分致力于提高计算效率和准确度。然而,实验结果往往只包含了数据间的整体关系而忽略了变量间的关系,导致结果难以理解。例如,对于降维技术低维嵌入空间中两个位置相距甚远的点,我们可以清楚的知道他们所代表的原始高维数据不同,但是哪个维度导致的这一差异却无从得知。因此,我们期望设计一个支持交互的可视分析系统,允许用户从数据本身出发,结合可视分析的技术,辅以机器学习的方法,动态地探测数据中不同的潜在模式,辅助用户从多个角度识别并解释数据间的关系。
G2:对于异常模式,从不同角度强调其与正常模式的区别,理解并验证异常原因。对于时序多变量数据,我们在进行数据预处理分析时,根据已有的技术方法先将3D数据转化为2D数据后再进行异常检测,因此每个数据点有两种不同类型的变量:时间片和特征属性。在进行异常检测计算数据点与点之间的差异性时,两种变量混合在一起,因此很难确定哪些时间片或者特征属性与异常模式的出现高度相关。因此我们需要从时间片和特征属性不同的角度来解释数据点的异常原因。此外,由于异常值和正常数据之间的边界通常是模糊的,因此用户需要从不同的角度检查异常值是如何表现的,探究异常值是否以及如何在某些属性上偏离正常数据。
G3:对于异常模式,比较不同的异常检测算法检测出的异常模式区别。由于不同的异常检测算法对异常值特征的假设不同,因此检测到的异常值通常会有所不同。用户通常需要根据领域知识对检测到的结果进行选择与过滤,而不是将所有结果都盲目地视作异常值。然而,手动逐个过滤异常值是一项极为耗时的工作。由于使用同一算法检测到的异常值可能共享相似的异常模式,因此,一种更合理的方法是首先观察不同算法对异常值的定义标准,然后排除不适用的结果,用户可以缩小到较少的数据项子集,以进行进一步的探索和分析。因此,在筛选不同领域上的异常值时,必须比较检测用到的不同算法。
G4:对于正常模式,探究不同集群数据的关键特征演化规律。常规模式的时变探索主要是识别集群并理解它们的特征变化。虽然现阶段存在许多自动的方法(如K-means,DBSCAN等)识别聚类,但仍缺乏有效的理解聚类特征的方法。聚类的主要特征是原始特征值的分布,当数据维度很大时,查看特征值的分布并不是一项简单的任务,因此,我们需要提供一种特征选择方法,可以帮助用户更好的识别不同集群簇的主要特征,对聚类结果进行可解释性分析。
PEVis支持对时序多变量数据进行潜在模式提取与解释,并能支持上述提出的四个设计目标。系统包括五个可视化视图,参照图4,分别为:全局概览投影视图(图4-a)和异常指标选择视图(图4-b)、潜在模式演化视图(图4-d)、特征时变视图(图4-e)和特征分布视图(图4-f),图4-c为PEVis系统的软件界面的视图,通过该视图选择查看的类型。
在本申请中,我们将时序多变量数据的潜在模式提取定义为寻求常规模式和以上四种异常模式。由此,我们对时序多变量数据潜在模式演化展开数据分析的过程。
PEVis系统提供了以下交互功能,允许用户实时设置算法参数以及自由切换视图,实现交互式探索潜在模式的时序变化与异常解释。
聚焦:PEVis支持对单个样本点的详细探索。当用户点击全局概览视图中的样本点时,潜在模式演化视图自动绘制该样本点的时变模式;当用户在潜在模式演化视图中,在感兴趣的时间片和模式中点击样本点时,特征时变视图和特征分布视图自动绘制该样本点的相关信息,悬停样本点时,该点在其他时间片坐标也自动放大突出显示。
刷选:PEVis在视图中增加刷选功能。在异常指标选择视图中,用户可根据不同的异常指标层层刷选,不断缩小对异常点的选择范围。待用户选定感兴趣的样本点或样本点集合后,潜在模式演化视图自动绘制选定点的时变信息。
放缩移动:PEVis支持对样本点的放缩功能和移动功能。在全局概览视图和潜在模式演化视图两个散点图中,为避免大规模数据的遮挡问题,PEVis提供鼠标滚轮放缩功能和鼠标拖拽移动功能,方便用户细粒度查看样本点。
参数设置:PEVis支持可视化部分的实时参数调节。在系统的控制面板中,用户可以自由设置不同异常检测算法的组合方式,异常指标选择视图实时响应用户操作,过滤冗余信息,以探索不同算法对异常判定的区别。用户也可实时调节样本点和时间片信息,特征时变视图和特征分布视图根据用户选择自动更新。
信息展示:PEVis支持样本点信息的展示。如全局概览视图和特征时变视图,用户鼠标悬停自动展示样本点的名称、特征值等信息,提升用户对样本点的感知能力。
实施例2:
系统在个人计算机上开发完成,具体环境为windows10 64位操作系统、16GB运行内存、AMD Ryzen 7 4800H with Radeon Graphics 2.90GHz处理器、GeForce GTX 1650显卡。系统的数据分析部分使用Python语言撰写,前端可视化界面使用D3.js数据可视化图形库、Echarts交互式图表和浏览器可视化库。在实验评估过程中,我们使用分辨率为1920×1080的三星显示器,并使用Chrome浏览器作为前端展示应用。
使用的数据集为全国居民消费价格指数(consumer price index,CPI)数据,下载自网站国家统计局(https://data.stats.gov.cn/),CPI度量指定的消费商品和服务随着时间的变动,价格发生的变动,反映居民购买消费品及服务价格水平变动情况的相对数(指数的基期数值定为一百)。它是进行经济分析和决策、价格总水平监测和调控及国民经济核算的重要指标。
该数据集对全国31个省市地区(不含港澳台地区)同比上年同月(上年同月=100)CPI的月份统计。按照我国最新统计制度规定,CPI分为食品烟酒、衣着、居住、生活用品及服务、交通通信、教育文化娱乐、医疗保健、其他用品及服务8个大类。我们选取的统计周期为2019年12月——2020年11月共计12个月的数据。因此,我们得到的3D数据规格为31×8×12,进一步可转化为31×96格式的2D数据,送进我们的系统。
全国总体消费指数演化分析:我们遵循先整体分析再细节探索的原则对居民消费年度趋势进行探索,如图5。(一)整体上看,从2019年12月份到2020年11月,我们各省市消费指数时变趋势可分为三类,但这三类在每个月份上排列较为紧密,这表明在过去的一年中,我国虽遭受疫情带来的不确定性冲击,但在市场经济宏观调控下,各省市地区消费情况均衡发展,并未产生严格分化情况。(二)、从各个集群簇来看,最底部的簇主要包含山东省、湖北省和四川省等省份地区,环比上年同月份,该类省份在我们选取的时间片上环比上年同月波动最大的特征是食品烟酒类,该类消费在2020年1-11月始终具备较高的权重;而以甘肃省、宁夏回族自治区和内蒙古自治区等地区为代表的中间集群簇的主要特征由12月、1月的衣着类转换为后期的医疗保健类,其中7、8月份短暂转换为教育文化娱乐类;以吉林省、辽宁省、黑龙江省为代表的东三省及福建省、浙江省为代表的我国东南沿海省份为代表的最顶部集群簇,在时变趋势上各项支出较为均衡,但也大致反映出食品烟酒类和医疗保健类权重较高的趋势。
我们结合特征时变视图(图6)进行分析,认为影响三个簇的主要区别在于食品烟酒类(food),可以发现顶部的簇在该类支出增长幅度最大,中间的簇次之,底部的簇最小,但均远超上年同月在该类别上的支出。其他类别消费支出未见明显区别。
北京市消费指数分析:我们在控制面板中选择被多种异常算法均标记为异常地区的北京市进行分析,观察其时变趋势(图7),发现北京市在12个月份以来,在疫情严重的1-8月份属于顶部的簇,其他月份属于中间的簇,属于跳跃式孤立异常。虽然北京市跳跃归属于几种不同的类别,但整体各项消费指数与其他地区趋势一致,只是北京作为我国的经济政治文化中心,在各项支出上更具突出代表作用。我们可以发现,北京市变化强烈的几项消费类别指数依次为:医疗保健类(medical)、其他用品及服务(else)、食品烟酒(food)、教育文化娱乐(edu)和交通通信(traffic),而生活用品及服务(life)、衣着(clothes)和居住(lives)与全国整体趋势并无太大差异,且始终保持在上年同月的100基数附近,这表明疫情对北京市人民在日常生活用品和居住条件上的消费并未带来较大冲击。针对于前几种变化强烈的消费类别,我们可以看出医疗保健类、食品烟酒类和教育文化娱乐类在疫情初期消费较高,随着7、8月份以来疫情得到有效控制,“囤口罩”和“囤粮食”的热度褪去,该两类支出在逐渐减少并恢复至往年水平,教育文化娱乐类也随着学校校门的重新打开由网课的形式逐渐恢复正常。而疫情好转,旅游业寒冬也即将过去,虽然截止到2020年11月,北京市交通通信类支出比去年同月仍低3.7个百分点(北京市当月指数96.3),但整体消费指数朝上发展,预计会很快达到疫情前的水平。总体来看,北京市的整体居民消费价格指数发展趋势与全国总体发展趋势结论一致。
综上所述,我们基于可视化设计原则,“先总览信息,再缩放和过滤信息,最后按需查看细节”,首先通过全局概览进行数据初探,然后按实际需求进行模式探索与解释,分析疫情持续期间CPI随时间的变化,评估疫情对于国民生活方式带来的影响,为国家及各级政府宏观经济调控提供决策依据,使用全国居民消费价格指数数据集进行案例分析评估了我们时序多变量数据潜在模式提取与解释可视分析系统的有效性。

Claims (7)

1.一种基于时序多变量数据的模式提取与演化可视分析方法,其特征在于,包含下列步骤:
S1:将待处理的数据样本点进行处理,建立时序多变量数据集合,通过异常检测算法筛选出常规点和异常点,所述S1,时序多变量实例X是一个向量序列,
X=[x1,x2,...,xT]∈RD×T
其中,D是时序多变量实例中的变量个数,T是时间片长度,时序多变量数据
Figure FDA0003646168220000011
是由多个时序多变量实例组成的集合,
Figure FDA0003646168220000012
其中Xi是一个时序多变量实例,N是数据集中实例的个数,其中,
Figure FDA0003646168220000013
表示为一个具有实例轴、属性轴和时间片轴的3D数组,
Figure FDA0003646168220000014
执行步骤2;
S2:对常规点通过常规模式提取,对异常点通过异常模式下选择,执行步骤3;
S3:通过可视分析系统PEVis建立多个相互联动视图,通过前端交互进行展示;
所述S1中,所述异常检测算法包括有使用了三种异常检测算法,分别是基于距离的k近邻异常检测算法,基于密度的局部异常因子检测算法,以及基于集成学习的孤立森林算法;所述S3中,PEVis支持对时序多变量数据进行潜在模式提取与解释,通过设计目标建立全局概览投影视图和异常指标选择视图、潜在模式演化视图、特征时变视图和特征分布视图。
2.根据权利要求1所述的一种基于时序多变量数据的模式提取与演化可视分析方法,其特征在于,所述S2中,对常规点进行聚类,聚类能根据变量间相似性将常规的样本点划分成不同的簇,将每个簇定义为一种常规模式;针对异常点,对全局时间片进行切片,在不同的时间片上,为异常点分类,选择最接近的一种常规模式作为当前时间片上的潜在模式。
3.根据权利要求1所述的一种基于时序多变量数据的模式提取与演化可视分析方法,其特征在于,所述S3中,系统PEVis还包括有聚焦、刷选、放缩移动、参数设置和信息展示的交互功能。
4.根据权利要求1~3中任一项所述的基于时序多变量数据的模式提取与演化可视分析方法,其特征在于,所述方法用于空气质量指数监测数据集、居民消费价格指数数据集、金融数据集的挖掘和演化用途。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有一个或多个计算机程序,所述一个或多个计算机程序被一个或多个处理器执行时实现如权利要求1~4任一项所述的基于时序多变量数据的模式提取与演化可视分析方法。
6.一种基于时序多变量数据的模式提取与演化可视分析装置,其特征在于,包括:
一个或多个处理器;
计算机可读存储介质,其存储有一个或多个计算机程序;所述一个或多个所述计算机程序被所述一个或多个处理器执行时实现如权利要求1~4任一项所述的基于时序多变量数据的模式提取与演化可视分析方法。
7.一种基于时序多变量数据的模式提取与演化可视分析系统,其特征在于,系统包括数据处理单元、视图合成单元和交互单元,
通过数据处理单元构建时序多变量数据集合并分类常规点和异常点,
通过视图合成单元分别对常规点和异常点处理进行视图的整合,
通过交互单元展示各个视图并向用户提供交互功能,
系统预存在处理器中,计算机内包含有一个或多个处理器;
计算机可读存储介质,其存储有一个或多个计算机程序;所述一个或多个所述计算机程序被所述一个或多个处理器执行时实现如权利要求1~4任一项所述的基于时序多变量数据的模式提取与演化可视分析方法。
CN202110594978.5A 2021-05-28 2021-05-28 一种基于时序多变量数据的模式提取与演化可视分析方法 Active CN113326472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110594978.5A CN113326472B (zh) 2021-05-28 2021-05-28 一种基于时序多变量数据的模式提取与演化可视分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110594978.5A CN113326472B (zh) 2021-05-28 2021-05-28 一种基于时序多变量数据的模式提取与演化可视分析方法

Publications (2)

Publication Number Publication Date
CN113326472A CN113326472A (zh) 2021-08-31
CN113326472B true CN113326472B (zh) 2022-07-15

Family

ID=77422433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110594978.5A Active CN113326472B (zh) 2021-05-28 2021-05-28 一种基于时序多变量数据的模式提取与演化可视分析方法

Country Status (1)

Country Link
CN (1) CN113326472B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780618B (zh) * 2022-05-17 2024-10-15 上海海洋大学 面向海洋数据异常检测的多视图协同可视分析方法
CN115061196B (zh) * 2022-08-17 2022-11-15 成都川油瑞飞科技有限责任公司 基于经验模态分解imf引导的微震信号识别方法
CN116579906A (zh) * 2023-07-13 2023-08-11 天禹文化集团有限公司 一种基于物联网的博物馆智能管理方法及系统
CN118364160B (zh) * 2024-06-19 2024-08-13 东北师范大学 一种交互式动态网络社区演化模式可视分析系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109687875A (zh) * 2018-11-20 2019-04-26 成都四方伟业软件股份有限公司 一种时序数据处理方法
CN110363115A (zh) * 2019-06-28 2019-10-22 上海交通大学 基于ais轨迹数据的船舶作业异常半监督实时检测方法
CN110389982A (zh) * 2019-07-25 2019-10-29 东北师范大学 一种基于空气质量数据的时空模式可视分析系统及方法
CN111639243A (zh) * 2020-06-04 2020-09-08 东北师范大学 时空数据渐进式多维模式提取与异常检测可视分析方法
CN112579728A (zh) * 2020-12-18 2021-03-30 成都民航西南凯亚有限责任公司 基于海量数据全文检索的行为异常识别方法及装置
CN112836720A (zh) * 2020-12-16 2021-05-25 博锐尚格科技股份有限公司 建筑运维设备异常诊断方法、系统及计算机可读存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003254737B8 (en) * 1999-06-30 2005-12-08 Silverbrook Research Pty Ltd Method and systems for collaborative document markup using processing
CN104462184B (zh) * 2014-10-13 2018-04-10 北京系统工程研究所 一种基于双向抽样组合的大规模数据异常识别方法
CN106230613A (zh) * 2016-07-17 2016-12-14 合肥赑歌数据科技有限公司 一种基于异类挖掘的故障预警算法
CN108304851A (zh) * 2017-01-13 2018-07-20 重庆邮电大学 一种高维数据流异常点识别方法
CN108363797B (zh) * 2018-01-04 2020-07-10 北京工商大学 一种基于变换的关联图可视分析方法及其系统
CN109254984B (zh) * 2018-10-16 2020-10-23 杭州电子科技大学 基于od数据感知城市动态结构演化规律的可视分析方法
CN109542952A (zh) * 2018-11-23 2019-03-29 中国民用航空上海航空器适航审定中心 一种时间序列异常点的检测方法
CN110427533B (zh) * 2019-07-25 2023-04-18 东北师范大学 基于时序粒子跟踪的污染传播模式可视分析方法及系统
CN110750745B (zh) * 2019-10-16 2022-06-14 四川大学 基于旅游ugc的目的地形象可视化方法
CN111428201B (zh) * 2020-03-27 2023-04-11 陕西师范大学 基于经验模态分解和前馈神经网络对时序数据的预测方法
CN111738309B (zh) * 2020-06-03 2024-07-12 哈尔滨工业大学 多尺度分析和集成学习的气敏传感器故障模式识别方法
CN112200237B (zh) * 2020-10-05 2024-02-02 武汉理工大学 一种结构健康监测系统时序监测数据异常诊断方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109687875A (zh) * 2018-11-20 2019-04-26 成都四方伟业软件股份有限公司 一种时序数据处理方法
CN110363115A (zh) * 2019-06-28 2019-10-22 上海交通大学 基于ais轨迹数据的船舶作业异常半监督实时检测方法
CN110389982A (zh) * 2019-07-25 2019-10-29 东北师范大学 一种基于空气质量数据的时空模式可视分析系统及方法
CN111639243A (zh) * 2020-06-04 2020-09-08 东北师范大学 时空数据渐进式多维模式提取与异常检测可视分析方法
CN112836720A (zh) * 2020-12-16 2021-05-25 博锐尚格科技股份有限公司 建筑运维设备异常诊断方法、系统及计算机可读存储介质
CN112579728A (zh) * 2020-12-18 2021-03-30 成都民航西南凯亚有限责任公司 基于海量数据全文检索的行为异常识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向时序数据的离群点异常检测技术应用研究;刘雷;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20191115;I137-17 *

Also Published As

Publication number Publication date
CN113326472A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN113326472B (zh) 一种基于时序多变量数据的模式提取与演化可视分析方法
Xu et al. Ensemblelens: Ensemble-based visual exploration of anomaly detection algorithms with multidimensional data
Billari et al. Timing, sequencing, and quantum of life course events: A machine learning approach
CN111639243B (zh) 时空数据渐进式多维模式提取与异常检测可视分析方法
Deng et al. Support high-order tensor data description for outlier detection in high-dimensional big sensor data
Li et al. Exploring the technology emergence related to artificial intelligence: A perspective of coupling analyses
Hagenauer et al. SPAWNN: A toolkit for spatial analysis with self‐organizing neural networks
CN117314006A (zh) 一种智能化数据分析方法及系统
Velu et al. Data mining in predicting liver patients using classification model
CN114693367A (zh) 一种农产品价格大数据监测与可视化系统及方法
Dias et al. Visualization Techniques: Which is the Most Appropriate in the Process of Knowledge Discovery in Data Base?
Zhang et al. Multi-hierarchical spatial clustering for characteristic towns in China: An Orange-based framework to integrate GIS and Geodetector
Sileryte et al. Supporting exploration of design alternatives using multivariate analysis algorithms
Kontokosta et al. Energyviz: Web-based eco-visualization of urban energy use from building benchmarking data
Poccia et al. SIMDMS: Data management and analysis to support decision making through large simulation ensembles
Tang et al. Treeroses: outlier-centric monitoring and analysis of periodic time series data
Zhou et al. VisCI: A visualization framework for anomaly detection and interactive optimization of composite index
Barbu et al. Data mining tool for academic data exploitation: Publication report on engineering students profiles
Luo et al. Air quality visualization analysis based on multivariate time series data feature extraction
Müller et al. A framework for evaluation and exploration of clustering algorithms in subspaces of high dimensional databases
Prada et al. Data mining tool for academic data exploitation: Graphical data analysis and visualization
Wilhelm Data and knowledge mining
Gao et al. GBDT4CTRVis: visual analytics of gradient boosting decision tree for advertisement click-through rate prediction
Wang et al. Interactive selection of multivariate features in large spatiotemporal data
Machado et al. On Generating Representative Data for Multiple Aspects Trajectory Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant