CN111931092B

CN111931092B - 一种基于Scrollytelling技术的数据可视化探索系统

Info

Publication number: CN111931092B
Application number: CN202010647378.6A
Authority: CN
Inventors: 陈为; 陆俊华; 王杰; 叶慧; 顾宇辉
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2022-07-12
Anticipated expiration: 2040-07-07
Also published as: CN111931092A

Abstract

本发明涉及一种基于Scrollytelling技术的数据可视化探索系统，属于数据可视化、数据分析及数据新闻技术领域。包括：数据预处理模块，对多维度表格型数据集进行数据事实提取并打分，选择打分高的数据事实组织为数据事实候选集；用户配置模块，用户选择一个所述表格型数据集进行数据预览，并选择感兴趣的属性、事实类型以及故事长度作为故事生成模块的输入；故事生成模块，利用上述输入，在所述数据事实候选集中提取数据事实后对所有数据事实进行排序，并对每组排序进行打分，选择打分高的排序组成若干故事的序列供用户选择；故事展示模块，使用可视化图形和叙事性文字描述展示每个故事序列，并为可视化图形添加可视编码以及过渡动画。

Description

一种基于Scrollytelling技术的数据可视化探索系统

技术领域

本发明涉及数据可视化、数据分析及数据新闻技术领域，具体地说，涉及一种基于Scrollytelling技术的数据可视化探索系统。

背景技术

在数据可视化领域中，开发者通常设计一种可视化系统，其对用户感兴趣的数据采用一些数据分析手段提取出数据的有趣特征，并使用可视化手段为用户讲述故事，故事包含数据展示和数据见解。

数据可视化技术在新闻报道、大众科普、网站制作、商业智能等领域被广泛使用。

随着互联网时代的发展，Web技术和移动设备技术越来越成熟，人们习惯上下滚动电脑网页或者手机屏幕来查看内容。随之而生的，被称为Scrollytelling的数据可视化技术已经成为一种流行且功能强大的故事讲述技巧。

该技术广泛用于网页设计，将设计者想要讲述的故事内容划分成前后关联的多页，其中每一页包含可视化的图表、伴随的叙述文字，有时还有音频/视频。当用户上下滚动页面时，平滑的切换动画展示了上下文的过渡关系。

根据用户互动给定的输入，Scrollytelling将生成富有表现力的可视化故事，为他们提供简单易懂、内容丰富的数据见解，使得用户能更加轻松的观察、理解数据中蕴含的复杂的有趣特征。

目前该技术已成功应用于与公众沟通的一些重要话题之中。例如濒危物种(Visualizing Shark Numbers，Kantar Information is Beautiful Awards 2019)，环境污染(The race to save the river Ganges，Kantar Information is Beautiful Awards2019，Data Journalism Awards 2019)，社会正义(Homan Square:A portrait ofChicago’s detainees，Data Journalism Awards 2015)等等。

Scrollytelling技术的优势是可以展示数据不同方面的有趣特征，通过编排适当的叙事结构，能够循序渐进的展示观点，增加读者的数据理解能力。每个观点都是随着相关数据事实通过渐进式叙述而逐渐展现出来的，而精心安排视图之间的过渡可以进一步帮助读者理解数据的认知过程。

但是，创建包含数据驱动的Scrollytelling页面是一项艰巨的任务。此任务通常涉及一个劳动密集型过程，其中包含诸如挖掘数据事实、开发叙述结构、设计视觉图形、创作文字描述、协调视觉和内容，以及页面之间的过渡等。数据分析、数据可视化上的复杂性和挑战使得Scrollytelling的创作是一项只有专业设计师才能完成的艰巨任务。系统用户无法设定自己对数据的偏好兴趣生成可视化故事。

发明内容

本发明的目的是提供一种基于Scrollytelling技术的数据可视化探索系统，使得普通用户可以参与到Scrollytelling的创作过程中。系统允许用户设定自己对数据的偏好兴趣，快速地生成可视化故事，并且能够采用Scrollytelling上下滚动页面的方式轻松自然地阅读有趣的数据故事。

为了实现上述目的，本发明提供的基于Scrollytelling技术的数据可视化探索系统包括：

数据预处理模块，对多维度表格型数据集进行数据事实提取并打分，选择打分高的数据事实组织为数据事实候选集；

用户配置模块，用户选择一个所述表格型数据集进行数据预览，并选择感兴趣的属性、事实类型以及故事长度作为故事生成模块的输入；

故事生成模块，利用上述输入，在所述数据事实候选集中提取数据事实后对所有数据事实进行排序，并对每组排序进行打分，选择打分高的排序组成若干故事的序列供用户选择；

故事展示模块，使用可视化图形和叙事性文字描述展示每个故事序列，并为可视化图形添加可视编码以及过渡动画。

上述技术方案中，采用一系列基于数据挖掘、数据分析的技术用于生成Scrollytelling页面。首先遍历不同层面的观察视角，从原始数据中提取出数据事实。其次为每项数据事实打分，并串联出叙事结构，其包含得分优异的数据事实和流畅自然的过渡顺序。最后，系统将几种候选的优秀叙事推荐给用户。

所述可视化图形使用单元可视化的形式展现，每个单元用一个圆形标记表示，每个圆形标记代表了所选的表格数据集中的一条唯一的数据。若干个单元可以组成圆形或者矩形区域，并进而组合成直方图、柱状图、树图等布局形式。

所述叙事性文字展示了故事如何随着滚动交互而移动和改变，显示在单元可视化的右侧，总结或描述了当前页面的数据子集的重要信息，并使用加粗字体以及彩色字体的形式突出显示这一页单元可视化中的关键信息。

所述过渡动画帮助用户在页面切换间更好地保持对故事理解的连贯性，由用户滚动触发。过渡动画可以有不同的形式，通常由页面间的关系决定。

与现有技术相比，本发明的有益之处在于：

通过本发明可以帮助用户仅需经过简单的几次点击操作，就可以按照自己的兴趣，利用原始的表格型数据自动生成直观且优美的滚动故事；采用单元可视化形式，并佐以可视化编码和过渡动画，帮助用户更好地理解故事的内容；用户可以对故事的文字进行编辑，帮助用户更好地表达故事的内容。系统易于使用和学习，交互简单，生成的可视化和过渡动画易于理解且具有视觉吸引力。

附图说明

图1为本发明实施例中所用的表格型数据集的示意图；

图2为本发明实施例中可视化故事的层次结构示意图；

图3为本发明实施例的数据预处理模块中的数据观察表格示意图；

图4为本发明实施例的数据预处理模块中的递归维度树的示意图；

图5为本发明系统的数据预处理模块中的数据事实立方体示意图；

图6为本发明实施例的故事生成模块中的数据主题示意图；

图7为本发明实施例的用户配置模块中的用户配置界面示意图，包含数据集选择、数据预览、属性选择、事实类型选择、故事长度调整等配置栏以及生成后的故事序列选择栏；

图8为本发明实施例的用户配置模块中的数据预览表格示意图；

图9为本发明实施例的故事展示模块中的可视化图形和叙事性文字展示界面示意图，其中，通过鼠标悬停可显示某一点的详细信息；

图10为本发明实施例的系统双击文字后显示文字编辑界面的示意图；

图11为本发明实施例的系统中完成文字编辑后的新页面的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合实施例及其附图对本发明作进一步说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

实施例

本实施例的基于Scrollytelling技术的数据可视化探索系统包括：

数据预览中使用一个表格弹窗展示所选数据集的详细信息，表格弹窗中的每一行代表所选数据集中的一个数据项，每一列展示了所选数据集中属性的全部值，每一列的第一行用可视化的形式展示该数据属性的分布，便于熟练的数据分析人员更好地进行接下来的配置。

可视化图形使用单元可视化的形式展现，每个单元用一个圆形标记表示，每个圆形标记代表了所选的表格数据集中的一条唯一的数据。若干个单元可以组成圆形或者矩形区域，并进而组合成直方图、柱状图、树图等布局形式。可视化图形中的每个圆形标记可以使用鼠标悬停，查看这个圆形标记代表的数据单元的详细属性信息，并对圆形标记使用可视编码。可视化图形中的圆形或者矩形区域的中圆形标记的数量与数据项总数成正比，可直观地进行视觉比较。可视编码包括颜色、大小、透明度等，根据类别型属性，使用颜色对圆形标记进行编码，并在可视化图形的侧面使用图例或直接在上述叙事性文字中进行颜色编码含义的说明，同时，使用高亮色或者透明度对比的可视编码方式对数据集中重要部分进行突出展示。

叙事性文字展示了故事如何随着滚动交互而移动和改变，显示在单元可视化的右侧，总结或描述了当前页面的数据子集的重要信息，并使用加粗字体以及彩色字体的形式突出显示这一页单元可视化中的关键信息。叙事性文本的内容以及加粗和彩色字体的关键字可以由用户双击文本显示区域进行编辑，编辑成用户自己想要展示的文本。叙事性文本的彩色字体的颜色编码与可视化图形中的圆形标记采用的颜色编码是一致的。叙事性文本的右侧还有一组展现阅读进度的圆点，黑色圆点表示当前阅读进度，用户可以通过单击某个圆点跳转至指定页面。

过渡动画帮助用户在页面间切换时更好地保持对故事理解的连贯性，由用户滚动触发。过渡动画可以有不同的形式，通常由页面间的关系决定。根据不同的页面间关系，过渡动画有不同的形式：

通常圆形标记不断改变位置来组成不同的形状和布局，另外，追踪可视化单元的移动可以直观地进行可视化比较；

突变的过渡动画(前一页的可视化单元全部消失，新的可视化单元出现)用于页面间的突然变化；

高亮动画展示数据中要注意的新的事实或在两页之间进行视觉比较；过滤动画展示了数据粒度的改变，被过滤掉的数据对应的可视化单元逐渐消失。

本实施例的原始数据集：系统在使用时，首先需要获得用户想要查看的原始数据集。该原始数据集仅要求为一种多维数据集，其可以表示为一张多维数据表格。

以鲨鱼袭击事件(Shark Arracks)数据集为例，如图1所示，每一个数据项为一起鲨鱼袭击人类的事件。从表格上看，第一行为数据集的属性，包含袭击事件的年份、地理位置、被袭击者当时的活动类型、性别、是否致死等，之后每一行代表一个数据项。这些数据类型主要是数值型和分类型。

叙事结构分析：Scrollytelling技术将要阐述的故事组织为线性结构的数据事实，并体现其过渡的流畅性。将叙事分解为多级结构，如图2所示，自顶向下分别为数据层面-数据主题-数据事实。

数据层面Facet，其代表一些观察数据的视角，是某一方面的一个完整故事。一个数据层面包含多个相近的数据主题。

数据主题Data Topic，其代表观察数据的一个视角，如在某种数据维度下的多个有趣特征，或者多个数据维度下的一种有趣特征。一个数据主题包含多个相近的数据事实。

数据事实Data Fact，其代表观察数据的最小单位，只讲述一个有趣发现，即为Scrollytelling可视化中的一个页面。

以鲨鱼袭击数据集为例，如“在美国，被袭击者性别为男的鲨鱼袭击事件有1262起，性别为女的事件有230起，其差异很大”，即为一个比较显著的数据事实，其特征是“分布的差异”。

而“在美国，鲨鱼袭击事件中性别的分布很不均匀”和“在美国，鲨鱼袭击事件中年份的分布很不均匀”这两个数据事实，组成了一个“分布”特征的数据主题。

进一步的，“在美国，”的“分布”特征的数据主题、“极值”特征的数据主题、“离群值”特征的数据主题，又可以组成一个对特征进行排比的数据层面。

评估Scrollytelling故事的指标为：1.每一个单独页面内讲述的数据发现足够有趣，数据特征显著；2.每两个页面之间的过渡流畅自然，能够形成上下文关联的叙事效果。

因此，系统要求计算生成的叙事结构，其每一个数据事实的有趣得分要尽可能高，且相邻的数据事实、数据主题之间的关联性要尽可能高。

在具体实现上，本系统将通过构建数据预处理模块、用户配置模块、故事生成模块，自底向上的生成叙事结构所需的最优序列。

本实施例中，建立的数据预处理模块如下：

对于给定的多维数据表格D＝{x₁,x₂,…,x_m}，其有d个维度A＝{a₁,a₂,…,a_d}，其有m＝|D|个数据项。其中的每个数据项可以表示为x_i＝{a₁＝x_i1,a₂＝x_i2,…,a_d＝x_id}。

首先，本系统采用近似OLAP的一种枚举方法，生成所有有待评估得分的数据观察data observation，如图3所示。一个数据观察对应多个用到同一数据集合的数据事实。

其中，数据观察包括数据子集data subspace及观察维度observed attribute，将其定义为一个2元组：

observation：＝＜subspace,observed_attr.>

以数据事实“在美国发生的鲨鱼袭击事件中，性别为男的有262起，性别为女的有30起，其分布差异很大”为例进行分析。

数据子集data subspace用于描述选定筛选条件的集合的特性，即对某一维度指定其分类值：

举例中的数据子集为subspace：＝{country:USA}。如果没有做筛选，即选中数据全集，则写作subspace：＝all。当数据子集从subspace：＝all到subspace：＝{country:USA}时，系统在data cube上进行了一次数据切片；当其切换到subspace：＝{country:China}时，即进行了一次同一维度下的数据切片移动；当其切换到subspace：＝{country:China,sex:male}时，即进行了一次数据下钻。对于用户来说，数据子集的变换相当于从局部数据中寻找有趣特征。

观察维度observed attribute用于描述需要展示的度量值，如举例中的观察维度为sex，其分类值为sex：＝{male,female}。本系统限定了展示的数据事实为计数事实，即满足筛选条件后的数据项的个数，在该例子中，系统将遍历sex属性的所有分类值，并分别计算数据项的个数，得到结果为{sex:male＝262,sex:female＝30}。得到的计数值将在可视化中映射为柱形图、圆圈图等图表元素。

数据子集和观察维度的生成是完全自动的。通过一棵递归维度树，如图4所示，系统可以自动的生成所有数据子集的取值情况。而观察维度就是数据表格中的属性值集合。将生成的数据子集集合和观察维度集合两两交叉后，就枚举得到了所有可能的数据观察取值。

在某些情况下，如给定的数据子集和观察维度中间出现重合的维度(同一个维度不能又用于数据切片，又作为展示维度)，或者给定的筛选条件得到的数据项计数为0，这些无效的数据观察将被系统自动抛去。

对于每一个数据观察，有许多种事实类型Fact type可以加以评估。

如在“在美国发生的鲨鱼袭击事件中，性别为男的有262起，性别为女的有30起”这一数据观察中，可以得出“分布：男性案件比女性高很多”；“极值：男性案件最多”；“比例：男性案件为89.7％，女性为10.2％”等等不同的发现。

数据观察加上一种事实类型即构成一个数据事实。由此，本实施例中系统采用以下10种最常见、用户最易感知的数据事实类型：

为了能够量化的比较不同事实类型的有趣性，采用一种基于p-value的重要性度量方法来为所有数据事实打分。p-value度量基于零假设H₀，其得分的取值范围为0到1，越高的得分表明越高的重要性。

该方法中只有计算型的事实类型可以进行量化打分，而如数值、比例等展示型的事实类型将在之后故事展示模块中以可视化图表的形式采用。

本实施例使用的5种计算型的事实类型及其打分方式如下：

该打分是针对其事实类型是否足够有趣进行度量，即给出了该数据事实的显著性significance得分。此外，显然的，如果某个数据事实含有的数据点越多，其重要性importance得分越高。

根据已有研究，我们为显著性和重要性赋予权重，给出的数据事实打分公式为：

score＝ω_s·score_significance+ω_i·score_importance

其中权重ω_s＝0.75，权重ω_i＝0.25。由此，对于每一个数据观察observation：＝＜subspace,observed_attr.>，系统将逐个计算适用的事实类型(分布、趋势、极值、离群值等)，并为其打分，每种事实类型生成一个数据事实，表示为一个三元组：

Data Fact：＝＜subspace,observed_attr.,fact_type>

一个数据观察可以生成多个得分各不相同的数据事实。

此处，引入一个三维立方体用于阐述概念，其维度分别是数据子集、观察维度和事实类型，如图5所示，称作数据事实立方体Data Fact Cube。

每一个数据事实就是立方体上的一个小方块，如上文所提样例为

Data Fact：＝＜subspace{country:USA},observed_attr：＝sex,fact_type：＝distribution>

自然的，有些小方块是无效的数据事实，比如数据缺失(其选定的数据项个数为0)，或者事实类型应用错误(如对于观察维度只有一个取值的数据事实，其事实类型不能是离群值)等，这些数据事实将被系统自动抛去。

此外，差异类型将在分布的事实类型之间展开计算，因为其涉及两个维度。比如，计算“性别为男的事件在年份上的分布”和“性别为女的事件在年份上的分布”这两个数据事实之间的“差异”的得分。它们的观察维度、事实类型一致，但是其数据子集分别是同一个维度的两个取值。计算差异的得分可以衡量性别和年份这两个维度是否在整个数据集中有较高的相关性。

经过以上步骤后，系统枚举生成了所有的数据事实，并逐个打分。对于某一个数据集来说，生成的数据事实数量和内容是固定的。因此，从工程角度出发，为了减少用户使用时的响应时间，可以预先计算所有数据事实，并存放在系统内。如此，每当用户需要系统生成叙事故事时，只需要执行从数据事实中生成故事序列的操作。

本实施例中，建立的用户配置模块如下：

从用户的偏好和个性化定制角度出发，系统为用户提供了一个参数输入栏，可以生成带有用户偏好的可视化故事。

在生成故事之前，用户可以指定其感兴趣的数据属性名称、数据事实类型。这个操作将在预计算的数据事实集合中筛选符合条件的数据事实。

此外，用户可以指定页面长度，其决定最终展示的数据事实的个数。经过调查，我们设定5、10、15为短、中、长的初始的页面长度。

由于每个数据事实是一个三元组(数据子集、观察维度、事实类型)，系统将保留以下数据事实，其数据子集和观察维度处在用户指定的数据属性中，其事实类型处在用户指定的事实类型中。此后，根据用户指定的页面长度n，系统将保留得分最高的前n个数据事实，作为生成故事序列的基础。

由此，本系统在用户给定了带有个人偏好的设置后，在预计算的数据事实立方体中选取出候选的数据事实集合，其中每个数据事实的得分很高，且满足用户给定偏好的标准。

本实施例中，建立的故事生成模块如下：

如前所述的叙事结构分析中所指出，每个Scrollytelling故事都包含几个数据层面，每个层面有几个数据主题，而每个主题有几个数据事实。在已得到候选数据事实后，本系统采用自底向上的方法来汇总事实以生成故事序列。

首先，将数据事实合并为数据主题。观察建立的数据事实立方体，从三个维度上沿着维度轴出发，总结出三种数据主题的规则，如图6所示。

基于观察维度attribute-based的数据主题，其描述了同一数据子集下，不同事实类型的多个数据事实，具有相同的观察属性。如对于＜subspace：＝{country:USA},observed_attr：＝sex>，可以连续展示事实类型为“分布、极值、离群值”的数据事实。

对事实类型fact_type-based的数据主题，描述了同一数据子集下不同观察维度的多个数据事实，具有相同的事实类型。如对于＜subspace：＝{country:USA},fact_type：＝distribution>，可以连续展示观察维度为“性别、年份、活动类型”的数据事实。

基于数据子集subspace-based的数据主题，描述了两个拥有相同观察维度、事实类型的数据事实，其数据子集是同一个维度下的两个不同的取值。如＜subspace：＝{country:USA},observed_attr：＝sex,fact_type：＝distribution>和＜subspace：＝{country:China},observed_attr：＝sex,fact_type：＝distribution>的对比。如前所示，此数据主题由称作差异的事实类型进行打分。

第四种数据主题是平铺直叙主题，即当候选的数据事实无法构成以上三种具有关联性的主题时，每一个数据子集内的数据事实构成一个平铺直叙主题。

考虑到Scrollytelling的另一个目标是尽量提高数据事实之间的过渡优美性，以上四种数据主题规则都确保其中的数据事实都有相同的数据子集。这使得同一个主题内的页面切换时其展示的数据点的数量将保持一致，以降低用户的理解成本。

对于已有的候选数据事实集合，有多种组合方式来生成以上的四种主题，因此系统可以提供多种候选的数据主题集合。

其次，将数据主题合并为数据层面。基于数据主题的特性，我们总结了三种数据层面的规则。

观察维度排比parallelattribute-based的数据层面，其包含多个同一数据子集下的基于观察维度的数据主题。如在subspace：＝{country:USA}下，展示了observed_attr：＝sex的主题后接着展示observed_attr：＝year的主题。

事实类型排比parallelfact_type-based的数据层面，其包含多个同一数据子集下的基于事实类型的数据主题。如都在subspace：＝{country:USA}下，展示了fact_type：＝distribution的主题后接着展示fact_type：＝extreme的主题。

同样的，最后是平铺直叙的数据层面，其将每一个数据子集内的数据主题组合起来。

当完成数据主题和数据层面的组合后，主题内部的数据事实和层面内部的数据主题仍然是无序的。我们采用了一些优化方式，使得调整数据事实、数据主题的顺序后能使故事序列的总体得分最高。

用户感知的一致性与数据子空间的变化有关。典型的Scrollytelling故事从概述开始，在数据全集中展示数据特征，随之讲述最具代表性的某个维度内的数据特征，而后续主题的维度也会与前文有较大相关性。因此，可以考察维度之间的语义相关性和数值相关性，来确保不同数据子集间的数据层面过渡时最为关联。

本实施例中追求序列最优化的方法是用尽量降低序列内的代价来实现的。

在页面切换时，关于数据子集的变化有四种不同的情况：保持同一个数据子集；在同一个维度的不同取值之间切换(如性别：男和性别：女)；下钻到更细致的数据子集(如性别：男下钻到性别：男且国家：美国)；无关联。这些情况的过渡优美性是依次递减的，可以为其设置granularity_cost＝{0,1,5,10}。

此外，对于无关联的数据子集变化情况，可以考察维度之间的语义相关性和数值相关性。通过fastText工具预计算的词向量(word vector)来评估语义相关性；通过计算两个维度属性之间的互信息(Entory)来评估数值相关性。

具体的，从数据集中的每个数据项提取单词，例如鲨鱼袭击数据每个数据项代表一个“事件”，所有其他属性对应的词根据与这个“事件”单词之间通过向量的相似性来导出距离。然后我们计算每个属性对应数据的熵。我们用熵和单词距离的加权和作为度量指标，最大的那个属性作为顺序第一的属性。其余属性用和第一个属性的语义相似性和互信息的加权和进行排序，最终得到一个基本序列base_seq。

对于任意一个自动生成的序列，用Kendallτ系数计算它与基本序列的相似性τ(seq,base_seq)。

如此，每当生成一个有序故事序列，就可以计算其代价，如下：

理论上枚举所有序列的可能，就能得到最优解。为了时间效率考虑，本系统采用了模拟退火算法来加速序列内部的有序化，其将在较短的时间内逼近最优解。

模拟退火算法的输入是随机的有序序列，其在不同的运行轮次下将得到不同的较优解，因此最终本系统将提供几种得分较高、排序各不相同的故事序列，提供给用户查看。

本实施例中，建立的故事展示模块如下：

当叙事序列确定下来后，需要将每个数据事实映射为Scrollytelling形式的可视化图表和说明文字。

在以下列表中，总结了一些事实类型到可视化图表的规则：

事实类型	可视化图表
		数值、排序	一个圆或矩形区域
分布、趋势	直方图(多个矩形区域)
		分布、趋势(带有时间戳)	直方图(升序或者降序)
分布	多个圆区域
		极值、离群点、数值、排序	多个圆或者矩形区域(高亮一个圆或者矩形)
比例	树状图
		比例	一个圆或矩形区域(高亮部分圆或者矩形)
分布的差异	两个相同可视化图表的页面
		属性的关联	颜色编码其中一个维度

为了实现可视化图表表达的有效性和一致性，进一步的，考虑了故事结构一致性和属性一致性。

故事结构一致性规定，类似的数据事实将采用相同的图表布局，属于相同基于观察维度主题或者基于数据子集主题的数据事实将采用相同的可视化图表。

属性一致性规定颜色编码的一致性，当可视化图表中需要采用高亮手段时，采用透明度的方式来强调高亮部分。当数据子空间下钻时，颜色编码将不再使用。

直观详细的说明文字将提高用户对数据事实的理解。文字将反映当前页的数据事实，同时包含上下文的丰富信息。例如，系统自动生成说明文字“the number of theattacked male shows a rising trend along years.(被攻击的男性数量随着年份呈现增长趋势。)”包含“attacked male(被攻击的男性)”(数据子集)、“years(年份)”(观察维度)、“rising trend(增长趋势)”(事实类型)。

为了提高文字的多样性，系统为分布、极值、离群点内置了一些可替换的文字模板。

对于上下文关系，如果当前页的数据子集和上一页面的不相同，则将在该页的基本文字叙述前加入新子空间的明确描述。此外，像差异这种会跨页互相比较的事实类型，在后一页的文字叙述中添加与前一页的比较说明。对于极值和离群点等强调某几个取值的特殊性的事实类型，将在文字描述的末尾添加其计数值的比例。

生成的文字将形式多样且信息丰富，此外本系统为用户提供了交互手段，可以在文字说明处自行编辑加入自己的数据见解。

本实施例的系统的操作内容如下：

在用户配置模块中：单击数据集下拉菜单栏进行数据集的选择，并通过单击右侧预览数据按钮，弹出该数据集的表格，展示数据集的详细信息以及各个属性的分布情况。

单击数据属性下拉菜单栏进行感兴趣的数据属性选择，通过单击右侧开关选择是否在选择数据属性时按感兴趣程度对选择的数据属性进行了排序，默认为排序状态。

同样，单击事实类型下拉菜单栏选择事实类型。通过滑动滑条选择生成的故事的长短，默认为中等长度(10页)。

完成上述配置后，单击生成按钮会生成一个包含若干个备选故事序列的列表，按照序列的打分降序排序，单击对应故事序列的播放按钮进行故事的预览。

在故事展示模块中：可视化图形使用单元可视化展示，鼠标悬停在某个圆形标记上时，展示该圆形标记对应的数据单元的详细属性信息。滚动鼠标滑动页面来查看故事，文字随页面滑动，滚动到两个页面间的分界线时，会触发过渡动画，切换到该页面的可视化图形。单击文字右侧表示阅读进度的的圆点，可跳转至任意页面。

双击文字区域，可编辑右侧展示的文字，在弹出的编辑界面中，输入对应的文字以及要加粗的关键字，完成对文字内容以及文字加粗的自定义。

本实施例的系统的分析内容如下：

1.分析原始数据集的数据项个数、属性种类、每个属性值的分类值等基础信息。

2.对于指定的数据集，生成所有可能的数据事实，分析每一个数据事实的显著性和重要性。

3.分析在选定的维度集合、事实类型集合、故事长度下，最优的故事序列方案。

4.用户可以与系统进行交互。在生成其偏好的故事序列后，用户自行查看可视化结果，在文字说明处可以修改添加其子集的见解。

本实施例的系统的操作过程如下：

首先进行故事的配置，用户选择感兴趣的数据集，可以针对选择的数据集进行数据的预览，进一步选择感兴趣的数据属性、事实类型、故事长度。

完成上述配置后，单击生成按钮，在按钮下方生成一个包含若干个备选故事序列的列表。

点击每个序列的前面的播放按钮可以查看这个故事序列，每个故事序列包含可视化图形和叙事性文字两部分，其展示内容上面已有介绍，鼠标悬停可以查看可视化图形中的某个数据单元的详细属性。

这些备选故事序列使用同一个数据集，是根据用户选择的配置生成的不同打分的故事序列，在页面的组织、页面的可视化图形和叙事性文字上有所不同，用户可以在查看这些备选的故事序列后，选择其中最符合其可视化需求的故事，并通过编辑自动生成的叙事性文字对故事内容进一步完善。

通过指定数据集、数据属性、事实类型、故事长度等，在数据集中自动探索符合用户偏好的最佳数据事实，生成多个候选的最佳滚动故事序列，不需要读者对数据的任何知识，且适用于任何想要探索和快速理解数据的用户。系统易于使用和学习，交互简单，生成的可视化和过渡动画易于理解且具有视觉吸引力。

应用例

以A国的流感病例作为本应用例的数据集，数据集共包含1012个病例数据，对每个病例记录了其性别、年龄、病例报告日期、健康状态、流行病学分类等属性，用户可以结合自己的兴趣使用本发明的系统对该数据集进行可视化的探索。

如图7～11所示，本应用例采用上述基于Scrollytelling技术的数据可视化探索系统进行数据可视化操作，包括以下步骤：

数据预处理部分：

步骤S1：数据预处理。对于上述数据集，系统分析其有7个属性，包括1个时间属性(报告日期)，统计各个属性取值并生成递归维度树。枚举生成1462个数据事实，并抛去343个异常节点，得到1119个候选的数据事实，并按照得分高低排序，存储于系统内。

故事生成部分：

步骤S2：数据预览。图7是用户进行配置的面板，用户首先选择A国的流感病例的数据集，并点击数据预览按钮，在图8所示的界面查看数据预览表格，结合该集合中数据的各个属性的分布情况(如图8表格第一行)以及属性的详细值进行数据的初步探索。

步骤S3：用户配置。图7所示的配置面板中，还包含数据属性、事实类型、故事长度三个配置项。根据步骤2中的数据预览结果，用户可以找到自己感兴趣的属性，并在属性配置栏中，按照感兴趣程度依次选择性别、健康状态、年龄段、病例报告日期、流行病学分类等属性；在事实类型配置栏中，选择数值、分布、极值、离群值、趋势、对比等事实类型；在故事长度配置栏中，滑动滑条选择故事长度，默认设置为中等长度。配置完成后点击生成按钮，在按钮下方随即展示根据以上配置生成的4个打分最高的故事序列，点击第一个序列的播放按钮即可对这个故事序列进行查看。

这里的生成故事序列中，系统提取得分前10的数据事实，随机生成一种排序，使用模拟退火算法反复调优、降低代价，最终得到4种得分最佳、各不相同的故事序列输出。

故事展示部分：

步骤S4：查看故事序列。用户滚动鼠标可以逐页查看步骤3中选择的故事序列，如图9和图11所示，在叙事性文字展示区域的右侧有一列圆点用于展示阅读进度，其中的黑色圆点标识了该故事序列的当前阅读进度。

图9中展示了所选滚动故事序列的其中一页，包含可视化图形和叙事性文字两部分。

图9的左侧为可视化图形，每个圆形标记表示一个A国流感病例，通过对这些圆形标记进行组合与布局，展示了住院、痊愈、死亡这三种健康状态的病例的分布情况，并对这三种健康状态分别使用蓝色、绿色、红色进行编码，帮助更直观地进行数据的分类，鼠标悬停在某一个点上可以查看该点代表的病例的各项属性值，了解这个病例的详细情况。从可视化图形中可以看出，所有病例中住院和出院病例较多，而死亡病例很少；

图9的右侧为叙事性文字，通过简短明了的文字介绍这一页的可视化图形包含的故事内容，对于文字中的关键字进行加粗强调，并对用作颜色编码的分类属性名称，使用与左侧可视化图形中相同的颜色编码，帮助用户更快速地将该属性名称、可视化图形以及其具体数值对应起来。通过结合这段文字，我们可以更直观地了解到具体的数值，A国流感病例中，包含住院549例，出院459例，而死亡非常少，只有4例。

步骤S5：文字编辑。在图10所示页面，用户观察后发现，1月～2月的疫情较轻，疫情在3月开始爆发直至3-27日达到了最高峰，此后疫情受到了有效的控制，病例数量逐渐下降，其中3-18至4-08、4-10日期的病例数量是偏高的离群值，并使用透明度的对比对该部分数据进行了高亮。由此，用户对疫情的变化趋势有了清楚的认知后，双击右侧文字显示区域，弹出如图10所示的文字编辑弹窗，用户可对文字进行编辑，添加自己的见解，完成文字编辑后的该页如图11所示。

通过上述步骤，用户结合自己的兴趣进行故事生成配置和故事文字内容的自定义，对A国流感病例数据集完成了一次可视化的探索，并生成了一个包含自己见解的美观的滚动故事页面。

Claims

1.一种基于Scrollytelling技术的数据可视化探索系统，其特征在于，包括：

数据预处理模块，对多维度表格型数据集进行数据事实提取并打分，选择打分高的数据事实组织为数据事实候选集，所述数据事实包括数据观察和事实类型：

所述数据观察，包括数据子集和观察维度；

所述事实类型，包括数值、比例、差异、分布、趋势、排序、聚合、关联、极值和离群点；

2.根据权利要求1所述的基于Scrollytelling技术的数据可视化探索系统，其特征在于，所述的数据预处理模块中，对于给定的多维度表格型数据集D＝{x₁,x₂,…,x_m}，其有d个维度A＝{a₁,a₂,…,a_d}，其有m＝|D|个数据项，每个数据项表示为x_i＝{a₁＝x_i1,a₂＝x_i2,…,a_d＝x_id}。

3.根据权利要求1所述的基于Scrollytelling技术的数据可视化探索系统，其特征在于，所述的故事生成模块中，每个故事都包含若干个数据层面，每个数据层面有若干个数据主题，而每个数据主题有若干个数据事实；在得到数据事实候选集后，采用自底向上的方法来汇总事实以生成一组排序。

4.根据权利要求1所述的基于Scrollytelling技术的数据可视化探索系统，其特征在于，所述的故事生成模块中，选择排序的连贯性和流畅性作为打分标准。

5.根据权利要求1所述的基于Scrollytelling技术的数据可视化探索系统，其特征在于，所述的用户配置模块中，进行数据预览时使用一个表格弹窗展示所选数据集的详细信息，所述表格弹窗中的每一行代表所选数据集中的一个数据项，每一列展示了所选数据集中属性的全部值，每一列的第一行用可视化的形式展示该数据属性的分布。

6.根据权利要求1所述的基于Scrollytelling技术的数据可视化探索系统，其特征在于，所述可视化图形使用单元可视化的形式展现，每个单元用一个圆形标记表示，每个圆形标记代表了所选的表格型数据集中的一条唯一的数据；若干个单元组成圆形或者矩形区域，并进而组合成直方图、柱状图或树图，所述的可视化图形中的每个圆形标记可以使用鼠标悬停，查看这个标记代表的数据单元的详细属性信息，并对标记使用可视编码。

7.根据权利要求6所述的基于Scrollytelling技术的数据可视化探索系统，其特征在于，所述的可视编码包括颜色、大小和透明度，根据类别型属性，使用颜色对标记进行编码，并在可视化图形的侧面使用图例或直接在上述叙事性文字中进行颜色编码含义的说明，同时，使用高亮色或者透明度对比的可视编码方式对数据集中重要部分进行突出展示。

8.根据权利要求1所述的基于Scrollytelling技术的数据可视化探索系统，其特征在于，所述的叙事性文字中的关键字由用户进行编辑，编辑成用户自己想要展示的文本。

9.根据权利要求1所述的基于Scrollytelling技术的数据可视化探索系统，其特征在于，根据不同的页面间关系，所述过渡动画有不同的形式：

突变的过渡动画用于页面间的突然变化；

高亮动画展示数据中，过滤动画展示了数据粒度的改变，被过滤掉的数据对应的可视化单元逐渐消失。