CN111291243A

CN111291243A - 一种人物事件的时空信息不确定性的可视化推理方法

Info

Publication number: CN111291243A
Application number: CN201911394875.3A
Authority: CN
Inventors: 陈为; 张玮; 谭思危
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-06-16
Anticipated expiration: 2039-12-30
Also published as: CN111291243B

Abstract

本发明公开了一种人物事件的时空信息不确定性的可视化推理方法，属于数据可视化技术领域，包括：1)建立搜索空间，将人物信息数据和人物生平事件数据存入所述搜索空间中；2)利用所述搜索空间中数据的时间、位置和事件描述，构建包含人物、事件、地点和时间为节点的异构信息网络关系图；3)使用图嵌入模型生成所述异构信息网络关系图中节点的向量表达；4)基于步骤3)得到的向量表达，计算节点间的相似性，并推测不确定时空信息的可能值，得到搜索空间中的辅助线索，为数据中丢失或冲突的信息推荐相关节点信息；5)对步骤4)中得到的相关节点信息进行筛选，并提供时空维度和人物关系维度的可视交叉分析界面。

Description

一种人物事件的时空信息不确定性的可视化推理方法

技术领域

本发明涉及数据可视化技术领域，具体地说，涉及一种人物事件的时空信息不确定性的可视化推理方法。

背景技术

年谱是纪传和编年二体史书的一种演变和发展，它肇始于宋代，兴盛于明、清，至今存世的各种年谱约有四、五千种，其中以清代年谱居多，还包括不少善本、孤本、稿本和手钞本。

关于年谱的价值，清初学者全祖望在施愚山先生年谱序中说：“年谱之学，别为一家。要以巨公魁儒事迹繁多，大而国史，小而家傅墓文，容不能无舛谬，所借年谱以正之。”见鲒埼亭集卷三十二。清季学者孙诒让在昌巢民先生年谱序中也更为详尽的阐述。他说：“自北榟人以陶、杜之诗，韩、柳之文，按年为谱，后贤踵作，缀辑事迹以为书者日多。于是编年之例通于纪傅，年经月纬，始末昭焯，此唐以前家史所未有也。盖名贤魁士一生从事于学问，论撰之间，其道德文章既与年俱进，而生平遭际之隆污夷险，又各随所遇而不同，非有谱以精考其年，无由得其详实。

年谱是以谱主为核心，以年月为经纬，将一切有关活动均以介绍。自宋代已有年谱，清代达到鼎盛，有800多种1000余卷。

而年谱研究是一种社会学研究，尤其是历史研究中非常重要的研究方法，年谱将事件按照发生时间进行排序。在历史研究领域，历史学家非常关注历史人物的年谱(以下缩写为年谱)，它通过时间、地点、人物、事件四个元素来格式化地记录并讲述了特定人物的生平。在年谱研究中，历史学家常常通过研究历史人物的兴衰，发掘当时的历史背景、人物所居住地的历史以及文学流派和政党等社会关系。

现有的年谱研究包含了两个主要挑战：首先，文本形式对于历史学家来说不能直观有效地构建人物的生平概述；其次，大多数年谱信息存在不确定性，这给分析历史数据带来了困难。这些不确定性包括了数据缺失，冲突以及空间、时间维度和人际关系描述的粗粒度。

目前在可视化领域的研究成果主要集中在不确定性的呈现上，缺乏一种好的手段减少不确定性。同时，数据挖掘的方法，只是推理算法如TransE算法，很难让用户介入推理过程并结合领域知识进行辅助推理，导致难以识别错误的推理结果并进行修正。可视化是解决此类问题的最有效的工具之一，可视化可以提供一个对整体规律的可视化表示，进而快速地帮助人们理解数据里面包含的有效信息。因此需要针对数据挖掘的结果设计一种相适应的可视化方法，对结果进行展示、分析和理解。

发明内容

本发明的目的为提供一种人物事件的时空信息不确定性的可视化推理方法，可以呈现被研究者的人生起伏，通过基于图嵌入的相似事件推荐和多维度信息的交叉推理方法，允许迭代地推理并解决事件数据中的不确定性问题，从而更好的研究年谱数据。

为了实现上述目的，本发明提供的人物事件的时空信息不确定性的可视化推理方法，包括以下步骤：

步骤1)建立搜索空间，将人物信息数据和人物生平事件数据存入所述搜索空间中；

步骤2)利用所述搜索空间中数据的时间、位置和事件描述，构建包含人物、事件、地点和时间为节点的异构信息网络关系图；

步骤3)使用图嵌入模型生成所述异构信息网络关系图中节点的向量表达；

步骤4)基于步骤3)得到的向量表达，计算节点间的相似性，并推测不确定时空信息的可能值，得到搜索空间中的辅助线索，为数据中丢失或冲突的信息推荐相关节点信息；

步骤5)对步骤4)中得到的相关节点信息进行筛选，并提供时空维度和人物关系维度的可视交叉分析界面。

优选的，可视交叉分析界面包括：

人物事件时间轴视图：利用基于词典的情感分析算法，基于词典的情感分析采用的是给句子中的每个单词一个打分，然后计算单词的打分和得到句子的情感，在界面中则是对事件进行打分，计算人生的打分值，按时间顺序呈现人物事件，利用基于词典的情感分析算法展示人物生平的起伏，并使用点标记确定时间事件的时间和不确定时间事件的可能时间，用户可以选择事件进行分析或对多人的时间轴进行比较；

地图视图：地图上以饼图形式呈现了每个地点确定地点事件和不确定地点事件的比例，饼图的大小编码了事件的数量，地点之间使用连线展示了人物的轨迹；

交叉推理视图：包含推理内容视图和推理规则视图两个主要组成部分，完成不确定性的推理过程；推理内容视图，通过投影算法展示了用户感兴趣的异构信息网络中的节点及与其相关的节点；在推理规则视图中，用户可以制定节点之间的分析推理规则，交互式的进一步展示节点之间的深层关系，从而逐步确定不精确数据的时空信息，然后通过筛选和添加辅助信息等方式进行信息补全和完善；同时可以将推理内容投影到其他的视图上进行观察；

关系矩阵视图：矩阵分布的每一行和列代表人物，行和列之间交叉的方块表示人物之间存在关系；矩阵有三类颜色可切换，分别代表关系的数量、情感倾向、类型；

控制面板：用户可以在控制面板选择其他视图要呈现的人物和事件类型；事件的类型被人工分成政治、文学、社交、学术、宗教、军事和其他七类，用户可以筛选想关注的类型的事件。

优选的，步骤3)中，图嵌入的具体过程如下：

将所有的实体，包括人物、事件、地点和时间的唯一标识符看作单词，然后为了对网络中的节点进行向量化，采用随机游走节点的方式生成句子，每个节点的转移概率如下：

其中，V_t是实体集，

是V_t周围的节点数，vⁱ⁺¹表示第i+1步的节点，E表示所有的边的集合，t表示节点的类型；它保证在网络的随机游走中，路径更偏向高度可见的节点(即主要路径数多的节点)和集中节点(即具有高度数的节点)。随机游走的输出是实体序列，其可以用作图嵌入模型的输入。

图嵌入模型的建模方法采用skip-gram模型，其建立过程包括：

skip-gram模型通过中心词来预测上下文词，输入是中心词的one-hot编码，求其与上下文词的词向量矩阵和投影，然后经过一层softmax得到输出；softmax层的输入是中心词的one-hot的编码的向量，输出是预测词的one-hot编码的向量，隐含层是一个单词数*特征数的权重矩阵，通过神经网络隐含层的计算，中心词从one-hot变成1x特征数的向量，输出层是一个softmax回归分类器，它的每个结点将会输出一个0～1之间的值，即概率，所有输出层神经元结点的概率之和为1。训练目的使概率尽量接近随机游走生成的句子的情况。训练结束后权重矩阵每行1x特征数的向量就是对应词的向量化表达。

优选的，步骤4)中，

计算节点间的相似性的方法为：

基于skip-gram模型多得的每个节点的向量，通过cos距离计算得到的，距离越近相似度越大。

可能值的计算采用如下方法：

对于包含不确定地点或时间的事件，对于包含不确定地点或时间的事件，寻找与其最相似的(Cos距离)的包含确定信息的其他事件，当相似事件的地点或时间作为该事件的时间地点。

辅助线索是指可以推荐k个与该事件相近的事件实体，后基于这k个事件实体提出建议，例如对于不确定时间的事件，可以将最相近的确定事件的时间当做推理结果推荐给用户，图嵌入可以在很大程度上减少寻找类似实体的搜索空间；同时基于这些事件实体和他们相似的时间、地点和事件描述，系统通过可视化界面并结合领域知识进行推理挖掘。

优选的，人物事件时间轴视图中，人物生平起伏的建模过程如下：

模型采用了简单且易于非计算机领域用户理解的时变评分形式；

模型的输入是从异构信息网络中提取的人物的多方面事件；为了反映不同人生时刻的起伏，或者说是人生状态，模型基于词典的情感分析算法；

一个长度为t年的滑动窗口被用于截取事件集合来计算人物生平中某个时刻的总分数，系统中t为5年，公式表示为：

Score(t)＝ΣI(E_i)*Score(E_i)/ΣI(E_i)

E表示时间范围类事件的集合，I(E_i)衡量了事件E_i在人生中的重要性，函数Score(E_i)用于计算公式中特定事件E_i的得分：

p是事件涉及人的集合,r是被评价人在E_i中的角色，通过领域通用的Pagerank算法计算人物在知识图谱中的重要度即事件对人生的影响程度；Emotion(E_i,r)是由专家针对目标人物在事件中的角色和事件的标签打分的值，打分依据是事件对角色人生影响的程度，分数的值域为[-10，10]；例如，如果被奖励或晋升，则分数较高。相反，如果受到批评或降级，那么评分就会较低；

作为Score(E_i)的权重，I(E_i)是对滑动窗口中事件E_i的重要性的度量，公式为：

其中，f(t)定义为指数衰减函数，表示对特定时间距离t的事件的衰减值：

f(t)＝f(0)e^-t/T

其中，T是窗口大小，f(0)＝1，函数

采用文本挖掘中的TF-IDF方法，计算一生中各类型的事件的重要性，以排除常见事件大量出现的影响，并突出生平中不常发生的事件，如出生和婚姻；q(E_i,type)是特定事件类型的权重，由用户在交互界面中调节。

优选的，交叉推理视图的结构如下：

所述交叉推理视图中的推理内容包括中心事件(所选择的事件，center event缩写为CE)和提供重要推理线索的补充事件(supplementary event缩写为SE)，将中心事件定义为CE，补充事件定义为SE；

使用与CE最相似的前200个SE作为默认值，在控制面板中调整此阈值；CE和SE位于中间圆形区域，CE位于中心，由SE围绕；SE中提取的实体在中间区域外以径向布局排列；不同类型的实体位于不同的象限中，每个实体与CE之间的距离表示所有包含该实体的SE与CE之间相似性的最小值；较小的距离表示此SE和CE相关的可能性更高；为了让SE之间的布局也存在相关性，通过将SE的一维t-SNE投影映射到[0，90]顺时针范围，给每个实体一个唯一角度，并且等距排布减少遮挡，对于SE的位置，则是该SE包含的实体为顶点组成的多边形的重心。

交叉推理视图中推理规则是指用户定义的规则，用于过滤推理内容中显示的SE和实体。视图支持两个规则：

1)选取多个实体的交集，保留包含该集合中任一实体的SE；

2)选取多个实体的并集，选择同时包含所有实体的SE。还可从推理内容中拖动实体来添加规则，通过拖动操作选择实体，然后通过曲线连接实体制定规则，曲线上的圆形节点表示规则，红色节点表示交集，绿色节点表示并集。特别是可以在之前的规则基础上添加新规则，最终制定规则树。

推理过程是迭代的，推理步骤由一系列的推理内容呈现和推理规则制定组成，一个完整的推理过程常常会包含多个步骤。可以逐步地通过滤实体来定义新规则，来找到最相关的一个或者一系列SE，然后基于这些SE合理地假设CE的不确定实体。最终将假设的结果补充到数据库中。

本发明方法还提供交互式操作，包括选择、时间刷、排序和视图之间数据的映射，可以完成多种分析任务，如对事件按重要度或者事件的数据缺失情况进行排序，方便快速浏览获得人物生平事件的概览以及将推理内容中涉及的人物投影到关系矩阵视图上浏览他们互相之间的关系。

时间刷：用户可以在控制面板选择数据的时间段，如宋朝、唐朝的人物事件。

本发明方法用于研究和探索历史人物和时空事件中不确定性的可视化推理：

在控制面板中选中一个人物后，人物事件时间轴视图会显示相应人物的年谱及不确定事件，用户选择其中一件不确定性事件显示在交叉推理视图上，并结合地理视图和关系矩阵视图进行交叉推理。用户可以迭代地解决事件中的不确定性。

与现有技术相比，本发明的有益效果为：

本发明的人物事件的时空信息不确定性的可视化推理方法，从历史数据库中提取构建了实体的异构信息网络，作为解决不确定性的基础。基于提出方法的可视化分析系统采用年谱视图，地图视图，人际关系矩阵视图来描述事件的异构信息，利用不确定性推理视图来支持丢失的时段/地点标记，并允许用户迭代地解决事件中的不确定性。整个工作流程通过辅助信息推荐进行可视化呈现并与专家知识结合，最后通过历史专家的评估和案例研究进行验证。

附图说明

图1为本发明实施例中人物事件的时空信息不确定性的可视化推理方法的流程示意图；

图2为本发明实施例中可视化推理方法得到的显示界面图；

图3为图2中c部分即交叉推理视图的放大示意图；

图4为图3中进行推理规则制定的放大示意图；

图5为图3中进行迭代推理区域的放大示意图；

图6为图1中地图视图的放大示意图；

图7为图1中关系矩阵的放大示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合实施例及其附图对本发明作进一步说明。

实施例

参见图1，本实施例的人物事件的时空信息不确定性的可视化推理方法，包括以下步骤：

步骤S100，收集多源异构的人物事件信息，并对数据属性进行分类，将事件描述分成五类：

事件时间：记录事件发生的时间或者时间段；

事件地点：记录事件发生的地点；

事件人物和角色：记录事件涉及的人物和人物对应的角色；

事件描述：记录事件的具体类型；

补充信息：记录事件类型的补充信息。

步骤S101，基于事件和事件描述建立异构信息网络

把所有的实体，包括人，空间，时间、地点和事件描述的唯一标识符看作单词。然后为了对网络中的节点进行向量化，我们采用随机游走节点的方式生成句子，每个节点的转移概率如下：

其中，V_t是实体集，

是V_t周围的节点数，vⁱ⁺¹表示第i+1步的节点，E表示所有的边的集合，t表示节点的类型。它保证在网络的随机游走中，路径更偏向高度可见的节点(即主要路径数多的节点)和集中节点(即具有高度数的节点)。随机游走的输出是实体序列，其可以用作skip-gram模型的输入。

步骤S102，由步骤S101获得了一个输入时实体的唯一标识符，输出是实体向量的模型，基于实体的向量，可以找到特定实体的cos距离最小的相邻实体，将这些相邻实体作为辅助信息推荐给用户。

步骤S200，建立基于相似度事件推荐和原子推理的事件不确定性推理模型。

原子推理是迭代的筛选找到最适合支持不确定性解决的相关事件中的一次步骤。一次原子查询包括两个部分，一个是推理内容，一个是推理规则，如图2和图3所示，在原子推理中用户需要浏览推理内容视图中的四个维度的数据(时间、地点、事件描述和事件人物)，通过选择数据设置交集和并集的关系来获得下一次原子推理的内容。

步骤S300，组合原子推理和将事件映射到其他视图形成推理序列来完成复杂的递推步骤。最后得到精确的事件时间或者地点。

例如推理“苏轼为范正写墓志铭”这个事件的时间，如图4所示，具体包括以下步骤：

通过浏览推理内容视图中相关事件的各维度信息，可以看到实体“died(死亡)”最接近中心事件，表明墓志铭事件和“死亡”之间存在密切关系。用户认为“为友人写墓志铭”这件事一般发生在友人去世后不久。因此，用户在推理规则视图中添加一个过滤器来查找实体范正和实体死亡的交集。过滤后只剩下一个事件，即范正在1088年去世。由此可以合理地假设苏轼在1088年为范正写了一个墓志铭。

又例如要推理事件“苏轼反对王安石的政策”的时间和地点，如图5所示，具体包括以下步骤：

1)用户选择“苏轼反对王安石的政策”，将其变为推理视图的中心事件。选择苏轼和王安石，制定筛选规则(苏轼和王安石的交集)，及获得苏轼和王安石共同参与的事件，将两人投影到年谱视图上，筛选只看政治事件，可以看他们政治生涯重叠的时间为1057至1086，由此将时间范围缩小到1057-1086。

2)用户选择选取所有和反对王安石的政策相同的事件类型，如政治攻讦，通过筛选得到所有与王安石相关的政敌事件。可以看到王安石在1080年遭到一群人的政治攻击。选择这些人在矩阵视图中生成关系矩阵，如图7，我们发现苏轼也在这个群体中。基于这些发现，我们假设“苏轼反对王安石的政策”发生在1080年。

3)基于假设用户把事件修改为“1080年，苏轼反对王安石的政策”，然后为了查询事件发生的地点，通过搜索1080年左右发生的事件，用户发现王安石在1077年担任江宁府官员，苏轼则在1079年至1980年担任湖州的州军事。通过在地图上交叉比较，如图6所示，可以确认王安石在大约1080年基本上都留在江宁府。因此，假设事件有两个可能的位置：江宁府和湖州。

基于web的前后端之间的协作：本实施例中，前端是一个基于javascript和D3.js制作的界面，在处理每个用户交互动作时，前端都会根据实际操作的内容，生成相应的查询语句，向后端发送数据请求。后端是基于python的处理模块，接受并处理前端的数据请求，对每个请求都向数据库发送相应的查询语句。这些请求都是通过ajax异步地进行的，当后端数据查询完成的时候，前端就把交互结果显示在屏幕上适当的视图上，呈现给用户。

Claims

1.一种人物事件的时空信息不确定性的可视化推理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的人物事件的时空信息不确定性的可视化推理方法，其特征在于，步骤3)中，图嵌入的具体过程如下：

其中，V_t是实体集，

是V_t周围的节点数，vⁱ⁺¹表示第i+1步的节点，E表示所有的边的集合，t表示节点的类型；随机游走的输出是实体序列，其可以用作所述图嵌入模型的输入。

3.根据权利要求2所述的人物事件的时空信息不确定性的可视化推理方法，其特征在于，步骤3)中，所述的图嵌入模型的建模方法采用skip-gram模型，其建立过程包括：

skip-gram模型通过中心词来预测上下文词，输入是中心词的one-hot编码，求其与上下文词的词向量矩阵和投影，然后经过一层softmax得到输出；

softmax层的输入是中心词的one-hot的编码的向量，输出是预测词的one-hot编码的向量，隐含层是一个单词数*特征数的权重矩阵，通过神经网络隐含层的计算，中心词从one-hot变成1x特征数的向量，输出层是一个softmax回归分类器，它的每个结点将会输出一个0～1之间的值，即概率，所有输出层神经元结点的概率之和为1。

4.根据权利要求2所述的人物事件的时空信息不确定性的可视化推理方法，其特征在于，步骤4)中，计算节点间的相似性的方法为：

基于所述skip-gram模型多得的每个节点的向量，通过cos距离计算得到的，距离越近相似度越大。

所述的可能值的计算采用如下方法：

对于包含不确定地点或时间的事件，寻找与其最相似的包含确定信息的其他事件，将相似的其他事件的地点或时间作为该事件的时间地点；

所述的辅助线索是指可以推荐k个与该事件相近的事件实体，后基于这k个事件实体提出建议，例如对于不确定时间的事件，可以将最相近的确定事件的时间当做推理结果推荐给用户，同时基于这些事件实体和他们相似的时间、地点和事件描述，系统通过可视化界面并结合领域知识进行推理挖掘。

5.根据权利要求1所述的人物事件的时空信息不确定性的可视化推理方法，其特征在于，步骤5)中，所述的可视交叉分析界面包括：

人物事件时间轴视图：利用基于词典的情感分析算法，按照时间顺序展示人物生平起伏，并使用墨痕隐喻影响人生起伏的事件；

地图视图：基于地图，用带有地理位置的饼图呈现每个区域内空间位置信息精确的事件和不精确的事件的比例，饼图的大小编码了事件的数量，地点之间使用连线展示人物的人生轨迹；

交叉推理视图：包含推理内容视图和推理规则视图两部分，完成不确定性的推理过程；

关系矩阵视图：矩阵的每一行和列代表人物，行和列之间交叉表示人物之间存在的关系；

6.根据权利要求5所述的人物事件的时空信息不确定性的可视化推理方法，其特征在于，所述的推理内容视图，通过投影算法展示了用户感兴趣的异构信息网络中的节点及与其相关的节点。

7.根据权利要求5所述的人物事件的时空信息不确定性的可视化推理方法，其特征在于，所述的推理规则视图，用户可以制定节点之间的分析推理规则，交互式的进一步展示节点之间的深层关系，确定不精确数据的时空信息，并通过筛选和添加辅助信息的方式进行信息补全和完善。

8.根据权利要求5所述的人物事件的时空信息不确定性的可视化推理方法，其特征在于，所述的矩阵有三类颜色编码进行切换，分别代表关系的数量、情感倾向和类型。

9.根据权利要求5所述的人物事件的时空信息不确定性的可视化推理方法，其特征在于，所述的人物事件时间轴视图中，人物生平起伏的展示过程如下：

长度为t年的滑动窗口被用于截取事件集合来计算人物生平中某个时刻的总分数，公式表示为：

Score(t)＝ΣI(E_i)*Score(E_i)/ΣI(E_i)

p是事件涉及人的集合,r是被评价人在E_i中的角色，通过领域通用的Pagerank算法计算人物在知识图谱中的重要度即事件对人生的影响程度；Emotion(E_i,r)是由专家针对目标人物在事件中的角色和事件的标签打分的值，打分依据是事件对角色人生影响的程度，分数的值域为[-10，10]；

f(t)＝f(0)e^-t/T

其中，T是窗口大小，f(0)＝1，函数

10.根据权利要求5所述的人物事件的时空信息不确定性的可视化推理方法，其特征在于，所述的交叉推理视图的结构如下：

所述交叉推理视图中的推理内容包括中心事件和提供重要推理线索的补充事件，将中心事件定义为CE，补充事件定义为SE；