CN108710628B

CN108710628B - 一种基于草图交互的面向多模态数据的可视分析方法和系统

Info

Publication number: CN108710628B
Application number: CN201810272683.4A
Authority: CN
Inventors: 滕东兴; 朱丽; 马翠霞; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2022-06-17
Anticipated expiration: 2038-03-29
Also published as: CN108710628A

Abstract

本发明公开一种基于草图交互的面向多模态数据的可视分析方法和系统。该方法包括：1)将原始数据集分为多种可视化数据结构；2)进行可视化数据结构与可视形态的匹配；3)根据原始数据集到可视化数据结构到可视形态的映射关系，将原始数据集分解为具有关联的多个信息侧面，每个信息侧面通过一种可视形态呈现于一个视图中，并结合用户选择的布局信息，生成多视角关联视图；4)识别用户根据目标分析需求在多视角关联视图进行草图圈选操作时绘制的草图符号，进而分析由草图符号组成的草图手势的含义，根据草图手势的含义生成新的视图。本发明基于草图交互辅助用户进行多模态数据的可视分析，能够帮助用户快速获取数据知识，挖掘数据关联规律。

Description

一种基于草图交互的面向多模态数据的可视分析方法和系统

技术领域

本发明属于人机交互领域，具体涉及一种基于草图交互的面向多模态数据的可视分析方法和系统。

背景技术

我们处在一个信息爆炸的时代，新的数据不断产生，而且产生的速度越来越快，规模越来越大。多模态是指一种信息交流上的社会符号，通过图像、文本、语音、视频等多种数据形式来描述数据信息(Kress,Gunther(2010).Multimodality:A Social SemioticApproach to Contemporary Communication.New York:Routledge.p.79.ISBN0415320607.)。在过去几年里,数据量快速增长，而数据的种类也在不断增多，在带给人们丰富的数据资源的同时，也带来了更艰巨的挑战，人们该如何快速理解海量数据中的信息，该如何从海量信息里找到自己所需的信息，都已成为对多模态信息数据进行可视分析的迫切需求。多模态数据的分析难点在于，第一，多模态数据往往都是非结构化的数据，包括直接描述的文本数据、随时间变化的持续性数据、拍摄形成的图像数据等；第二，这些数据之间往往具有内部关联关系，静态展现难以表现出数据的内在复杂结构、关系和规律。

随着数字多媒体技术、网络技术的发展，人们从早期的被动接收信息转化为自主选择获取信息，如何帮助用户更加高效地发现和挖掘数据信息，催生出众多的可视分析技术，对多模态数据的可视化展示需要体现出其海量、异构、多源的外部特征以及高维度、多尺度、非平稳的内部特征。由于多模态数据的内部组织结构多样、数据结构复杂、尺度不一致，同时在数据的可视化过程中，受限于二维平面的限制，时间、空间和其他属性数据很难同时在同一个可视化形态中表现出来，将不同类型的数据用统一的方式进行可视化，会带来信息的混乱和缺失(参考文献：T Von Landesberger,A Kuijper,T Schreck,Kohlhammer,et al.,Visual Analysis of Large Graphs:State-of-the-Art and FutureResearch Challenges.Computer Graphics Forum,2011.30(6):p.1719-1749.)。数据的可视分析，需要实现包括数据转换、可视映射、视图转换等多个功能步骤。随着人们通过数据的可视分析来探求数据背后的信息与知识的需求愈发迫切，可视化开发所需的总成本越来越多。

草图是人类一种自然而直接的思路外化和交流方式，草图能够使用简单的形状来表达人们抽象的思维意图，基于草图交互的可视分析，可以允许用户通过自然操作挖掘数据的核心信息及信息背后隐藏的规律。通过自由手绘草图的自然交互方式，使用户在进行探索式数据分析时更加流畅自然，通过对多个数据视图的直接操作来直观地探索数据，分析数据内部规律，辅助用户决策。

发明内容

本发明的目的在于开发实现一种基于草图交互的面向多模态数据的可视分析方法和系统，草图作为一种抽象的形象化语言，可以有效描述用户意图，基于草图交互方式，能够给用户提供自然直观的交互方法，便于用户分析数据间的关联关系，挖掘数据发展规律。

本发明所实现的功能主要包括多模态数据的信息变换组织方法、多视图关联、数据关联关系挖掘、支持可视图表关联分析的草图交互技术实现等。目标是基于草图交互，从不同角度结合多种可视形态，将数据从不同信息侧面以可视化图表的方式展现出来，降低用户的认知负担，从而便于用户直观全面的了解复杂信息的发展过程。基于草图交互的面向多模态数据的可视分析系统的优势在于：通过可视形态映射，有序实现数据的可视化管理；基于视图关联，便于用户从多角度筛选目标数据，进而观察理解数据特征；支持用户通过自由手绘的草图自然交互方式实现对数据的探索分析。

为实现上述发明目的，本发明采用如下的技术方案：

一种基于草图交互的面向多模态数据的可视分析方法，其步骤为：

1)将原始数据集分为一维、二维、多维、层次、时序等可视化数据结构，其中可视化数据结构是指能够描述信息可视化中常见抽象信息类型的一类数据结构；

2)将原始数据集分类得到的多个可视化数据结构的特征与各类可视形态的常用数据特征进行相似度对比，进而进行可视化数据结构与可视形态的匹配；

3)结合1)和2)完成了从原始数据集到可视化数据结构到可视形态的映射过程，每一种可视化数据结构即反映原始数据信息的一个信息侧面，每个信息侧面将通过一种可视形态呈现于一个视图中(以此能根据原始数据集中所包含的空间、时序、维度统计信息等)，从不同的信息侧面做可视化呈现，并结合用户选择的布局信息，生成多视角关联视图；

4)识别用户根据目标分析需求在多视角关联视图进行草图圈选操作时绘制的草图符号，进而分析由草图符号组成的草图手势的含义，根据草图手势的含义生成新的视图。

进一步地，步骤4)通过对可视化视图中属性的草图圈选操作，实现对信息的动态过滤，产生结果数据，关联更新可视化视图；通过草图符号选取可视化视图的部分区域，实现区域放大；通过草图符号连接一个可视化视图或多个可视化视图的属性信息，生成所选数据的关联回归分析可视化视图，辅助用户获取知识分析数据。

进一步的，步骤1)根据原始数据的类别属性、数值属性，结合Shneiderman分类方法(Shneiderman B.The eyes have it:A task by data type taxonomy forinformation visualizations[C]Visual Languages,1996.Proceedings.IEEE Symposiumon.IEEE,1996:336-343)，将原始数据按照结构类型分为一维结构、二维结构、多维结构、层次结构、地理位置结构、时序结构等可视结构类型。以汽车的销量数据集为例，其中包含的时间、销量属性则形成销量的时序可视化数据结构，其中包含的地域信息、销量属性则形成销量的空间可视化数据结构。

进一步的，步骤2)将可视化数据结构的特征与可视形态的常用数据特征进行相似度对比，可视形态是指数据最终的不同呈现形式，主要包括统计图(如折线图、柱状图等)、时序图、层次图、地图、网络图等；二者采用余弦相似度作为度量标准，进行可视化结构与可视形态的映射匹配。

进一步的，步骤3)根据可视化数据结构与可视形态映射结果，将数据信息分解为具有关联的多个信息侧面，每个信息侧面是目标数据信息的不同方面。例如，在空间层面，每个区域按照地理位置信息，根据用户的目标度量属性进行统计计算，并将结果信息反馈到界面地图上，反映出数据的地理空间分布特征；在时间层面，按照时间的先后顺序依次排列，按照时间点信息统计数据，反映出数据的时序发展特征。生成的多视角关联视图的内部关联性主要体现在，每个视图分别展现数据的不同信息侧面，当一个视图中的一个或多个数据信息被选中时，另外的视图中相应的数据就会根据所选信息进行过滤，产生新的数据信息视图。

进一步的，根据多个信息侧面的可视形态和可视形态的空间布局信息，采用Echarts和d3.js实现可视化视图，结合crossfilter.js和dc.js，实现针对同一数据集，不同视图角度间的关联，通过多个具有关联的视图，为多模态数据信息的分析提供多角度的支持，促进用户对可视化信息的认识。

进一步的，面向多模态数据的关联关系挖掘主要体现在两方面，一方面是指多视角视图的关联，多视图关联将不同种类的视图组合起来，允许用户进行交互分析，对同一个数据对象在不同视图中采用不同的可视化表达，使用户可以同时观察数据的不同属性，在不同的角度和不同的显示方式下分析数据；另一方面指用户选择数据属性，分析所选属性间的关系方程，并做出可视化展示。

进一步的，分析属性间的关联关系时，采用线性回归方法分析数据关联关系，定义最终得到的回归方程为

h(x)＝θ₀+θ₁x

其中，

h(x)为自变量与因变量最终形成的关系方程式，θ_j(j＝0/1)为相关参数；J(θ)为误差函数，x⁽ⁱ⁾、y⁽ⁱ⁾为多组真实数据值，m为已知数据量的个数；采用最小二乘损失函数表现h(x)和真实值之间的差距；a为迭代步长，采用梯度下降法对θ_j进行迭代更新。

进一步的，用户通过视图操作，包括平移、缩放、过滤、排序、重置、上钻/下钻等，查看视图的细节信息，通过尺度控制，改变数据信息的焦点位置及呈现尺度，给出分析结果，从不同角度、层面、细节程度对数据进行分析。

进一步的，用户调整可视化查询参数，采用动态过滤技术对数据的过滤条件及搜索结果进行呈现；提供时间信息过滤组件、层次维度信息过滤组件、度量选择组件，其中针对层次化的维度信息，先采用智能过滤，即根据用户选择，通过层次关联过滤相关选择项，避免无效操作。以遥感数据为例，数据包含遥感拍摄图像、飞机统计数据等，用户在数据统计视图中选择部分飞机型号，则视图重新针对所选型号进行统计展示，同时根据型号选择在遥感图像上对所选型号进行标注，使用户的目标焦点聚集在所选的飞机型号数据分析上。

进一步的，针对地图类可视形态，在地图加载时，采取分层加载的方法，在地图上只显示当前缩放级别下的主要区域，在改变缩放级别时，会加载新的区域或替换新的地图，以此提高地图的加载绘制速度。

进一步的，面向多模态数据的草图交互，首先通过PaleoSketch(Paulson B,Hammond T.PaleoSketch:accurate primitive sketch recognition andbeautification[C]//International Conference on Intelligent User Interfaces,January 13-16,2008,Gran Canaria,Canary Islands,Spain.DBLP,2008:1-10.)对草图符号进行识别，判断用户绘制的草图符号为圆、矩形等区域类或者连线、箭头等关联类有效草图符号，并产生形状的规范化版本，否则将草图符号定义为无意义，提示用户重新交互操作。

进一步的，确定草图符号类型后，结合草图选择区域坐标与可视化视图区域坐标分析草图选择的内容信息，主要采取以下三种方式分析交互行为：1)针对单独的区域类草图符号，如果草图符号坐标在可视化视图的图例区域，则草图的圈选部分属性信息，根据草图选择对数据信息进行动态过滤，产生结果数据，生成新的可视化视图，例如针对汽车数据的多个品牌销量间的对比视图，在图例区域通过草图符号选择部分品牌，则新生成所选品牌的销量可视化视图，未被选择的品牌数据信息不参与分析；2)针对单独的区域类草图符号，如果草图符号坐标在可视化视图展现区域，则通过草图符号选取目标焦点区域，以草图的规范化结果，确定草图区域边界，实现对草图区域放大，产生更多细节信息；3)针对多个区域类草图符号以及关联类草图符号，分析区域类草图符号的坐标位置在可视化视图的属性区域后，通过草图连接符号，分析草图关联，结合关联类草图符号，生成所选属性间的关联回归分析可视化视图。

与上面方法对应地，本发明还提供一种基于草图交互的面向多模态数据的可视分析系统，其包括：

可视化数据结构划分模块，负责根据数据信息的特征，将原始数据集分为多种可视化数据结构；

可视形态匹配模块，负责将可视化数据结构的特征与可视形态的常用数据特征进行相似度对比，进而进行可视化数据结构与可视形态的匹配；

多视角关联视图生成模块，负责根据形成的原始数据集到可视化数据结构到可视形态的映射关系，将原始数据集分解为具有关联的多个信息侧面，每个信息侧面通过一种可视形态呈现于一个视图中，并结合用户选择的布局信息，生成多视角关联视图；

草图手势分析模块，负责识别用户根据目标分析需求在多视角关联视图进行草图圈选操作时绘制的草图符号，进而分析由草图符号组成的草图手势的含义，根据草图手势的含义生成新的视图。

综上，和现有技术相比，本发明具有的优点和积极效果如下：

1、本发明提供了一种多模态数据的处理组织方法，通过对多模态数据主题语义信息的提取，将其处理为统一的关系数据模式，根据数据属性类型，映射为可视数据结构，降低信息的复杂度，并与可视形态匹配，实现数据到视图的自适应组织方式，减少用户操作；

2、本发明实现了多角度视图间的关联分析，每个可视形态对数据集的不同信息侧面进行呈现，提供回归分析的数据挖掘算法，结合用户交互，实时反馈关联分析结果，便于用户从不同视角观察了解数据规律；

3、本发明将草图交互用于面向多模态数据的可视分析中，利用草图交互直观自然的特点，能够允许用户在数据分析上有更大的自由度，有效的通过草图符号的识别与草图手势的信息分析，辅助用户进行数据分析，挖掘数据规律。

附图说明

图1.本发明方法的步骤流程图；

图2.多模态数据组织方法示意图；

图3.多模态数据可视分析系统图；

图4.草图手势含义识别中草图区域与可视视图相对位置图示；其中(a)为属性过滤含义的区域类草图符号与可视视图相对位置图示；(b)为区域放大含义的区域类草图符号与可视视图相对位置图示；(c)为关联分析含义的区域类草图符号与可视视图相对位置图示；

图5.动态过滤和缩放交互的可视分析效果图；

图6.基于草图交互进行关联分析的可视分析效果图。

具体实施方式

为了更好的理解本发明，以下结合实施例和附图进一步详细描述本发明，但不构成对本发明的限制。

图1是本发明方法的步骤流程图。该方法首先将原始数据集分为多种可视化数据结构，然后根据可视化数据结构与可视形态的常用数据特征进行相似度对比，完成从原始数据到可视形态的映射关系；然后根据原始数据的可视形态映射结果，将数据信息分解为具有关联的多个信息侧面，结合用户选择的布局信息，生成多视角关联视图；基于视图关联，用户可以从多角度筛选目标数据，观察理解数据特征；识别用户绘制草图符号，经过坐标定位分析计算，得到用户草图手势含义，进而生成新的可视分析视图。

本发明的主要内容包括：

1、多模态数据的组织方法

在信息网络兴起发展的今天，获知信息的渠道已趋于多样化，人们希望从多角度了解一个事件的细节，挖掘事件背后的信息规律。围绕多模态数据的可视分析和处理，主要针对不同模态数据之间的潜在关联性以及相同模态数据间低层特征分布不一致性。不同模态数据间因为表现形式和方式的不同，会出现“语义鸿沟”的问题，这是制约多模态数据分析的问题之一，由于数据采集设备的提升，在数据海量增长的同时，也使不同模态数据间具有了潜在的关联关系，例如遥感拍摄的图片数据也具有相应的空间地理信息。本研究提出一种多模态数据的组织方法，对原始的多模态数据，提取主题语义信息，整理后根据类型进行属性分类，并根据属性特征划分为可视数据结构，进行可视形态匹配，继而为后续可视化视图的生成做准备。

针对多模态数据的首要处理，是从多模态数据中提取出相同或相关联的语义信息，本质是解决多模态数据的语义鸿沟，利用多模态数据间彼此的相互关系，进行主题提取及语义分析。采用tr-mmLDA(topic-regression multi-modal Latent DirichletAllocation，多模态主题回归生成模型)(Putthividhya D,Attias H T,Nagarajan SS.Topic regression multi-modal Latent Dirichlet Allocation for imageannotation[C].CVPR,2010.)算法，进行主题信息提取。针对从多模态数据获取的主题信息，将其处理为统一的关系数据表集合，以便于各种可视化技术对数据进行处理。采用Card提出关系数据表(Relation)结构，将数据组织的元数据(Metadata)定义为一种关系模式<Variable_x,Variable_y,…>，以此元数据刻画关系数据表的基本结构。其中<Value_ix,Value_iy,…>是关系模式<Variable_x,Variable_y,…>的第i个元组，Value_ix是第i个元组中的属性Variable_x的值。属性Variable_x具有三种基本类型，分别是名词型(Nominal)、顺序型(Ordinal)、数值型(Quantitative)。

在属性类型划分的基础上，结合Shneiderman分类方法，将数据映射为可视数据结构，可视数据结构能够描述信息可视化中常见的抽象信息类型，如一维结构、二维结构、多维结构、层次结构、时序结构等。当原始数据集映射为各个可视数据结构后，即将原始数据集作为信息多面体，分解为具有关联的多个信息侧面，将各个信息侧面对应的可视结构对应可视形态置于视图中，视图作为显示可视结构的容器，通过可视结构传达信息侧面的内容。每个信息多面体包含的一组信息侧面的关系数据表集合分别映射为一组视图的集合，而信息侧面之间的关系即关系数据表之间的关系同时需要映射为视图之间的关联关系，以保证任一个视图的变化能够影响与之关联的视图随之变化，维持视图背后的信息侧面之间的语义关系。

2、数据关联关系分析

由于多模态数据内部之间具有关联，数据的静态展现难以表现出数据的内在复杂结构、关系和规律，因此采用基于关联分析的可视化方法表现数据间的关联关系。通过数据间的关联分析，能得出数据间的频繁模式、相关性、因果关系等，从而挖掘出数据集内在所隐藏的相互作用关系。在多模态数据的可视分析过程中，用户通过对数据利用关联进行挖掘分析，能找出不同模态数据间的联系，发现数据规律，并在此基础上进一步探索分析数据。

多元回归分析是统计学中基本的分析方法，回归分析主要研究多个数据变量间的数量关系，通过回归分析可以准确地计量各个因素之间的相关程度与回归拟合程度的高低，提高预测方程式的效果，直观反映数据关联程度。同时回归分析模型在时间复杂度上要求较低，能够提供数据计算的实时反馈，支持用户多角度的频繁探索，给用户进行数据的多方面关联分析提供便利。例如在针对销售数据的分析中，由于GDP与当地经济水平紧密相关，经济发展促使人们对生活品质要求的提高，进而反馈到交通便利上，因此用户根据两者的时序曲线相似性可能推测GDP在一定程度上能影响到汽车的销量，由此结合各地域的GDP信息、汽车销量数据和GDP对消费的延时性考虑，进行回归分析，可便于观测GDP对汽车销量的影响，并结合当前获取的GDP数据，能辅助用户对未来的汽车销量进行预测分析。

本研究主要采用线性回归方法。在选定要进行关联回归分析的数据后，设定最终得到的回归方程为h(x)＝θ₀+θ₁x，通过采用最小二乘损失函数来表现h(x)和真实值之间的差距，定义回归方程的误差函数为

其中，m为已知数据量的个数，x⁽ⁱ⁾、y⁽ⁱ⁾为多组数据值。因此回归分析的计算目标位选择最优的θ，使得h(x)最接近真实值，即J(θ)取得最小。采用梯度下降法对θ进行迭代，使J(θ)得取值不断变小，迭代公式为

经过迭代计算后，最终拟合得到的回归方程，并将回归方程进行的可视化展示，进一步可以将此回归方程应用到数据中，辅助用户挖掘数据发展规律进行预测。

3、支持图表可视分析的草图交互方式

支持图表分析的草图交互，以草图符号进行交互，利用草图直观自然的特性，符合用户交互习惯，使用户在数据选择方式上具有更大的自由度。

(a)草图符号识别

本发明在PaleoSketch工作的基础上，对草图符号进行识别。首先对草图数据做识别前的预处理，删除草图笔画中重复的点，接着计算草图中一系列的笔画信息，包括方向、速度、曲率和角度等。利用方向极值点间的标准化距离(normalized distance betweendirection extremes,NDDE)计算思想为采用方向变化的极大值点(y的变化超过x的变化)和极小值点计算这两点之间的长度，然后将这个长度除以整个草图笔迹的长度，据此给出了在两个方向极值路程的百分比。对于弧线，极大值和极小值通常为草图笔迹的端点，因此具有较高的NDDE值，折线段则常常具有一个或多个尖峰，导致极大值和极小值不再靠近端点，因此折线段的NDDE值较低。同时结合方向改变率(direction change ratio,DCR)计算思想为用斜率变化的极大值除以平均的变化值，折线段通常具有较大的方向改变，而在弧线的方向改变则较为平滑，因此，多段线通常具有比弧线笔划更高的DCR值。进一步根据草图方向，计算方向的总旋转，与2π比较，同时计算端点之间的距离并将其除以路程长度，为了使笔迹形成闭环，该比率必须处于一定区间内。

根据NDDE和DCR计算所得判断草图笔迹的方向曲率，结合草图符号的特性，确定相关系数阈值，对基本的草图图元识别划分，例如针对椭圆的识别要求，首先草图笔迹需要通过封闭形状测试，其次草图的NDDE值必须较高，最后通过草图笔迹中心点到笔迹点距离识别长短轴得到规范化椭圆区域，比较规范化区域与草图区域的大小，在一定误差范围内，则可识别为椭圆。本发明中主要识别区域类草图符号，包括多边形、椭圆、圆等，以及关联类草图符号，包括线段、箭头等。

(b)草图手势分析

手势是一种具有特定含义的草绘笔划，主要用于激发一个具有某种功能的命令。在草图符号识别的基础上，通过组合形成草图手势，对草图手势进行分析，生成草图手势描述sketch_mean(id,viewid,operation_type,filter_value,region_value,correlation_value)。其中id是草图手势描述的唯一标识，viewid为草图交互对应的可视化视图的标号；operation_type为草图交互的目标类型，结合用户主要的分析需求，将交互目标主要分为属性过滤、区域放大和关联分析三种；filter_value为二元组，第一部分为过滤的属性列，第二部分为过滤条件即具体的过滤属性值；region_value为四元组，通过区域顶点坐标x,y以及区域宽高width,height进行区域放大；correlation_value为二元组，是进行关联回归分析的两个属性列，前者为自变量，后者为因变量。

根据系统设计的三种草图交互行为，对内容的分析主要基于坐标区域定位，首先确定每个视图的坐标view(id,name,x,y,width,height)存放在位置矩阵中，每个草图符号识别确认后，确定草图结构的区域坐标sketch(id,x,y,width,height)，当cover(sketch,view)＝1时，锁定草图交互影响的视图，其中cover(sketch,view)代表sketch区域是否在view区域内。锁定视图后，获取视图内部的元素具体坐标element(id,type,x,y,width,height)，根据element与sketch的位置确定草图手势的operation_type，并根据operation_type完善存储sketch_mean的各项信息。其中如果sketch区域位置对应的element类型分析为坐标轴属性区域，则此草图手势的operation_type为属性过滤，在sketch_mean中存储过滤条件的属性值；如果sketch区域位置对应的element类型分析为视图区域，则此草图手势的operation_type为区域放大，在sketch_mean中存储草图区域坐标；如果sketch区域对应一个或多个视图，且存在关联类草图符号，则根据箭头标识，在sketch_mean中存储对应的属性变量。

针对草图手势含义以及其对应的可视视图，对应进行后台数据处理，将分析结果对应到新的可视视图中。

下面提供一个具体实例，包括以下步骤：

1、选定要进行分析的数据集，本示例中从现有汽车销量数据中选取了2011年到2017年每个月经销商的销量数据作为对象；

2、采用前面步骤1所述的方法将该数据集分为多种可视化类型，并进行可视形态的映射，如图2；

3、采用前面步骤3中所述的方法绘制多视角关联视图，如附图3所示。图3为信息的可视呈现视图，包括从地域信息对销量的统计地图((a)图)、从时序上对销量的统计折线图((b)图)、不同品牌销量的对比柱状图((c)图)，及不同品牌销量占总量比例的饼状图((d)图)。另外还可以增加过滤组件视图，与图3的可视视图一起显示。该过滤组件视图可采用现有技术实现。

4、采用前面步骤4中所述的方法进行动态过滤以及缩放交互，产生新的可视化视图，如附图5所示。图5中(a)图表示用户在初始地图上选择了西部区域查看此区域下各省市的销量图按照区间划分，销量按照不同数值区间的颜色匹配显示，每个数值区间后面括号内的数字代表在此视图中处于此块数值区间的区域数量，(b)图表示在经过对汽车品牌的筛选后(图中表现为只选中Acar，故只显示Acar曲线)产生的视图效果；同时由于视图关联，因而地图上数据的统计由最开始界面上设定的201609-201706时间段ACar和BCar在西部各省的销量，更新为201611-201703时间段内ACar在各省的销量；在时序图上，也由全国各区域的销量统计，更新为西部地区省市的销量统计。

5、采用前面步骤5所述的方法，通过草图手势交互，识别草图符号，分析草图手势含义，产生新的目标数据视图或数据回归分析关联视图，如图6所示。图6展示了用户对GDP和销量数据进行关联分析新产生的视图，横坐标为GDP，纵坐标(volume)为此GDP下对应汽车的销量，为降低运算复杂度对二者进行了归一化操作，GDP以及销量数据都根据时间段进行统计，因而图中的数据点为同一时间点下的GDP和汽车销量，y＝1.69x+3.01表示通过回归分析得到的拟合方程，据此可根据新获得的GDP数据对汽车的销售进行预测。

图4为草图手势含义识别中草图区域与可视视图相对位置图示。其中，(a)图为属性过滤含义的区域类草图符号与可视视图相对位置图示；(b)图为区域放大含义的区域类草图符号与可视视图相对位置图示；(c)图为关联分析含义的区域类草图符号与可视视图相对位置图示。视图中Date代表时间，Volume代表汽车销量，Discount代表折扣信息，Acar和Bcar为进行对比的两类汽车类型，考虑到数据隐私使用了代称。

本发明另一实施例提供一种基于草图交互的面向多模态数据的可视分析系统，其包括：

以上对本发明所述的一种基于草图交互的面向多模态数据的可视分析系统进行了详细的说明，但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说，在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims

1.一种基于草图交互的面向多模态数据的可视分析方法，其特征在于，包括以下步骤：

1)根据数据信息的特征，将原始数据集分为多种可视化数据结构；

2)将可视化数据结构的特征与可视形态的常用数据特征进行相似度对比，进而进行可视化数据结构与可视形态的匹配；

3)根据步骤1)、步骤2)形成的原始数据集到可视化数据结构到可视形态的映射关系，将原始数据集分解为具有关联的多个信息侧面，每个信息侧面通过一种可视形态呈现于一个视图中，并结合用户选择的布局信息，生成多视角关联视图；

4)识别用户根据目标分析需求在多视角关联视图中绘制的草图符号，进而分析由草图符号组成的草图手势的含义，根据草图手势的含义生成新的视图；

其中，步骤4)所述分析由草图符号组成的草图手势的含义，包括：

通过草图手势区域与可视化视图区域的对比，分析草图手势含义，形成草图手势含义结构sketch_mean(id,viewid,operation_type,filter_value,region_value,correlation_value)，其中id是草图手势描述的唯一标识，viewid为草图交互对应的可视化视图的标号；operation_type为草图交互的目标类型，结合用户主要的分析需求，将交互目标主要分为属性过滤、区域放大和关联分析三种；filter_value为二元组，第一部分为过滤的属性列，第二部分为过滤条件即具体的过滤属性值；region_value为四元组，通过区域顶点坐标x,y以及区域宽高width,height进行区域放大；correlation_value为二元组，是进行关联回归分析的两个属性列，前者为自变量，后者为因变量；

根据可视视图区域坐标view(id,name,x,y,width,height)和草图区域坐标sketch(id,x,y,width,height)，当cover(sketch,view)＝1时，锁定草图交互影响的可视视图，其中cover(sketch,view)代表sketch区域是否在view区域内；根据视图内部元素坐标element(id,type,x,y,width,height)，草图区域坐标sketch，确定草图含义结构的operation_type；

如果sketch区域对应的element区域为坐标轴属性，则此草图手势的operation_type为属性过滤；如果sketch区域对应的element区域为视图区域，则此草图手势的operation_type为区域放大；如果sketch区域对应一个或多个视图，且存在关联类草图符号，则此草图手势的operation_type为关联分析。

2.如权利要求1所述的方法，其特征在于，步骤1)采用Shneiderman分类方法将原始数据集划分为可视化数据结构；不同的可视化数据结构反映数据的不同信息侧面。

3.如权利要求1所述的方法，其特征在于，所述多视角关联视图对数据的空间、时序、维度统计做可视化呈现；不同信息侧面反应的数据内容在可视形态的展示上具有相互关联，用户进行可视分析时，针对一个可视视图的操作，通过数据底层的联系，能同时影响相互关联的多个可视视图。

4.如权利要求1所述的方法，其特征在于，利用所述多视角关联视图，通过交互调整可视化查询参数，进行动态过滤，满足用户针对的具体目标问题；通过交互进行视图缩放，查看数据信息整体分布或具体细节。

5.如权利要求1所述的方法，其特征在于，步骤4)基于草图手势交互进行数据的可视分析；首先识别草图符号，确定其有效性，进而通过区域坐标判断草图手势含义，结合草图自然直观的特性，使用户在交互上具有更大的自由度。

6.如权利要求1所述方法，其特征在于，对于通过草图手势交互选择的要进行关联分析的数据，采用线性回归法分析数据关联，包括：

a)最终的回归方程为h(x)＝θ₀+θ₁x，采用最小二乘损失函数计算回归误差

衡量回归方程与真实数据差距；采用梯度下降法进行迭代

使误差最小，得到回归方程；其中，h(x)为自变量与因变量最终形成的关系方程式，θ_j(j＝0/1)为相关参数；J(θ)为误差函数，x⁽ⁱ⁾、y⁽ⁱ⁾为多组真实数据值，m为已知数据量的个数；a为迭代步长，采用梯度下降法对θ_j进行迭代更新；

b)将所述回归方程应用到数据中，辅助用户挖掘数据发展规律进行预测。

7.一种采用权利要求1～6中任一权利要求所述方法的基于草图交互的面向多模态数据的可视分析系统，其特征在于，包括：

草图手势分析模块，负责识别用户根据目标分析需求在多视角关联视图中绘制的草图符号，进而分析由草图符号组成的草图手势的含义，根据草图手势的含义生成新的视图。