CN115168601A

CN115168601A - 一种针对时序知识图谱的可视化分析系统和方法

Info

Publication number: CN115168601A
Application number: CN202210724550.2A
Authority: CN
Inventors: 巫英才; 刘玉亭; 傅四维
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-10-11

Abstract

本发明公开一种针对时序知识图谱的可视化分析系统和方法，用户迭代式地选择时序知识图谱中感兴趣的实体、关系、时间点，系统依据用户选择自动生成故事线与点线图相结合的可视化图表，向用户展示图谱中相应实体与关系的拓扑结构及其时序变化，同时生成描述性文本作为可视化图表的补充。本发明满足了时序知识图谱的可视化需求，能有效降低时序知识图谱的探索难度，同时增强用户对图谱中时序变化的感知，促进了时序知识图谱的研究与应用。

Description

一种针对时序知识图谱的可视化分析系统和方法

技术领域

本发明涉及时序知识图谱可视化领域，尤其涉及一种针对时序知识图谱的可视化分析系统和方法。

背景技术

知识图谱是人工智能的重要分支，实现机器认知智能的基石。2012年，Google发布面向互联网搜索的大规模知识图谱，知识图谱诞生。随后短短数年内，大量理论与技术研究成果涌现，数据分析、智能推荐、决策支持等上层应用都对知识图谱提出了需求，电商(如阿里巴巴电商知识图谱)、医疗(如Linked Life Data项目)、金融(如Kensho金融知识引擎)等诸多领域均有知识图谱的成果落地，知识图谱研究焕发出勃勃生机。

随着知识图谱技术的飞速发展，知识图谱可视化的需求也应运而生。知识图谱可视化，通过展示知识图谱的内在拓扑结构，帮助人们更直观地理解实体间的关系。现有的知识图谱可视化技术一般是先对知识图谱中的三元组信息进行图建模，随后使用力导布局等图布局算法进行布局，最后将布局结果渲染出来作为知识图谱的可视化呈现。

近年来，知识图谱研究者发现知识图谱中的时间信息非常重要。一方面，部分结构化知识只在特定的时间段内有效；另一方面，知识图谱中有许多事实会随时间发展发生动态变化。充分利用这些时间信息，能更好地建模实体间的动态拓扑结构，理解实体与关系的时序变化趋势，有利于知识图谱的构建、补全与推理。为此，知识图谱研究者提出由(主体，关系，客体，时间信息)四元组构成的时序知识图谱，并从时序信息编码、时序关系依赖、时序逻辑推理等诸多角度展开研究。

然而，现有的知识图谱可视化技术大多针对静态知识图谱，未充分利用知识图谱中的时间信息或针对时序知识图谱进行改进。

时序知识图谱可视化的基线方案是使用静态知识图谱可视化技术对时序知识图谱进行建模与布局，最后将时间信息直接添加到对应布局结果上。

此外，申请公布号CN114036311A公布了一种基于知识图谱的时序可视化开发方法，其步骤包括：获取数据请求；通过查询模板将所述数据请求生成查询语句，并基于所述查询语句进行查询；将查询得到的结果按照时间节点进行排序，根据时间序列渲染时间轴；获取所述时间轴上的时间节点的数据请求，并查询符合所述时间节点的数据；对查询到的所述时间节点对应的数据进行索引标记，并对所述数据进行可视化渲染；输出所述渲染后的数据。

上述方法都具有以下局限性：

其一，不同时间节点的图谱差异不明显，因而不便于观察实体与关系的变化趋势，用户难以发现变化趋势强相关的拓扑结构。

其二，要求用户本身对待分析的图谱结构有所了解，上手难度较高，不利于用户探索陌生的知识图谱。

发明内容

针对现有技术的不足，本发明提出一种针对时序知识图谱的可视化分析系统和方法，用户可迭代式选择时序知识图谱中感兴趣的实体、关系、时间点，系统依据用户选择自动生成故事线与点线图相结合的可视化图表，向用户展示图谱中相应实体与关系的拓扑结构及其时序变化，同时生成描述性文本作为可视化图表的补充。

本发明的目的是通过以下技术方案来实现的：

一种针对时序知识图谱的可视化分析系统，该系统包括：

概览生成模块，该模块基于概览配置数据生成数据集概览；

故事线生成模块，该模块基于故事线配置数据生成故事线；

文本生成模块，该模块基于故事线配置数据生成描述性文本；

画板模块，该模块展示系统生成的概览、故事线和文本，并响应用户交互，更新概览配置数据和故事线配置数据；其分为配置面板、概览面板和故事线面板；

其中，配置面板用于接收用户对概览配置数据及故事线配置数据的修改；

概览面板用于展示概览视图，接收用户选择的实体，并初始化故事线配置数据；

故事线面板用于展示故事线视图，接收用户对实体、关系、时间点的交互操作。

进一步地，所述故事线面板又分为时间轴、静态部分和时序部分，静态部分用于展示静态关系，时序部分用于展示时序关系和事件关系。

一种针对时序知识图谱的可视化分析方法，该方法基于可视化分析系统来实现，该方法包括：

系统根据用户输入的概览配置数据，生成概览视图，展示给用户；

系统根据用户在概览视图选择的实体，初始化故事线配置数据；再根据故事线配置数据生成故事线视图和描述性文本，展示给用户；

系统根据用户在故事线视图上对实体、关系、时间点的交互操作，更新故事线配置数据，再根据故事线配置数据生成故事线视图和描述性文本，展示给用户。

进一步地，所述概览配置数据包括时间跨度分段方式、实体编码方式、面积图编码方式；

所述故事线配置数据包括监测状态标志、选中实体集、监测实体集、可见实体集、选中关系集、可见关系集、选中时间点集、可见时间点集、操控时间点。

进一步地，系统根据用户输入的概览配置数据，生成概览视图，具体包括：

首先对数据集的总体时间跨度进行分段，分出的时间段映射到y轴上；随后对每一时间段内的信息进行面积编码，编码值映射到x轴上，绘制出面积图；最后对每一时间段内存在的实体进行编码，编码值映射为文本大小，实体类别映射为文本颜色，在面积图对应时间段的内部绘制出词云。

进一步地，根据故事线配置数据生成故事线视图的具体子步骤如下：

(1)计算可见集；

①使用选中实体集初始化可见实体集、选中关系集初始化可见关系集、选中时间点集初始化可见时间点集；

②若当前处于监测状态，则将监测实体集中所有实体及其关联非静态关系的开始时间、开始时间-单位时间、结束时间、结束时间+单位时间加入可见时间点集；将监测实体集中所有实体及扩展步长内可达的实体加入可见实体集；将可见实体集中所有实体两两间的关系加入可见关系集；

③将选中关系集中所有关系的主体和客体加入可见实体集；

(2)计算故事线；

计算实体故事线的线条次序；计算所有故事线的线条次序；计算故事线布局；扩展故事线布局。

(3)计算故事线上的图布局；

按时间顺序遍历可见时间点集，在任一时间点，需布局的子图包含可见关系集中在该时间点新出现或在下一时间点消失的所有关系及这些关系的关联实体，经若干次移动实体位置或关系位置，在满足约束条件下使得目标函数最小的情况下，得到该时间点故事线上的图布局。

其中，每一个关系均对应从主体位置到关系位置的线段及从关系位置到客体位置的线段，所述约束条件为：需布局的实体或关系在y轴上落于其故事线在该时间点的对应位置，在x轴上落于限定宽度内；所述限定宽度为每个子图的宽度；所述目标函数为：需布局的关系对应的两条线段与其他关系对应的两条线段，及其他需布局的实体或关系对应的包围盒的交叉数量之和；

(4)计算静态图布局

静态图需布局的子图包含可见关系集中所有静态关系及这些关系的关联实体，对这些关系在y轴上的位置不做约束；而实体若为静态实体，则实体在y轴上的位置不做约束；否则实体落于其故事线在操控时间点的对应y轴位置，若对应故事线不存在于操控时间点上，则依据对应故事线是未出现还是已消失，令实体落于内部画布的上方或下方；其余约束条件与优化目标函数与计算故事线上的图布局相同。

进一步地，根据故事线配置数据生成描述性文本的子步骤如下：

(1)预处理：对各选中集进行整理与补充，得到文本生成开始时间点、文本生成结束时间点、文本生成实体集、文本生成关系集，若数据不足以生成文本则结束文本生成；

(2)序列化：依据时间信息、图拓扑结构、用户操作顺序，对文本生成实体集和文本生成关系集中的实体与关系进行排序，得到有序的实体及实体关联关系列表，使得最终生成的文本有序、有条理且与用户意图相符

(3)模板填充：使用给定的模板及组合规则将序列化结果转化为描述性文本。

进一步地，所述序列化的具体子步骤如下：

(a)计算实体、关系与时序无关的优先级；

对于文本生成实体集中的每一个实体，其权重为(中心度-选中次序/文本生成实体集大小)，权重高者优先级高，权重相同则选中次序在前者优先级高；对于文本生成关系集中的每一类关系，文本生成关系集中同类关系数量少者优先级高；对于文本生成关系集中的每一个关系，选中次序在前者优先级高；

(b)将文本生成实体集中的实体划分为若干簇；

每一个非静态实体为一个独立的簇；由静态关系关联的两个静态实体划分至同一个簇；每个簇中优先级最高的实体为该簇的根实体；

(c)计算时间点集，并将非静态实体与非静态关系分入若干个时间点桶；

列出文本生成实体集与文本生成关系集中所有实体与关系关联的、在文本生成开始时间点与文本生成结束时间点构成的时间跨度内的时间点；以这些时间点为桶，将文本生成实体集与文本生成关系集中的非静态实体与非静态关系归入与之关联的时间点桶内，若关联多个时间点则归入时序在前者；

(d)按时间顺序依次处理每个时间点桶；

将桶内的实体与关系再次分入若干个实体桶；

按对应实体的优先级依次处理每个实体桶。

进一步地，将桶内的实体与关系再次分入若干个实体桶的具体子步骤如下：

实体分入本身对应的桶；关系依附于其主、客体中所在簇的根实体优先级较高者，并归入簇的根实体对应的桶内，若不存在则新增对应实体桶。

进一步地，按对应实体的优先级依次处理每个实体桶的子步骤如下：

若当前实体桶对应实体不可依附，则跳转(d.2.4)处理不可依附的实体桶；否则，若当前实体桶对应实体在当前时间点桶内，则跳转(d.2.2)处理静态实体桶；否则，跳转(d.2.1)处理非静态实体桶；

当前实体桶对应实体可依附指的是实体在当前时间点桶内或实体为未访问的静态实体；

(d.2.0)处理关系的流程为：

给定一个实体及若干关系，先按关系类别对关系进行分组，另一关联实体相同的不同类别关系并入一组，组间按类别优先级排序，组内按关系本身优先级排序，最后将给定的实体与关系序列组成的元组加入序列化结果，并标记给定的关系已访问。

(d.2.1)处理非静态实体桶的流程为：

待处理的关系为归入当前实体桶内的若干关系、以当前实体桶对应实体为主体的若干静态关系、及以当前实体桶对应实体为客体且主体为静态实体的若干静态关系；使用(d.2.0)处理关系的方法处理待处理关系；扩展实体为待处理关系关联的另一实体，且这些实体是未被访问的静态实体，其所在簇的根实体不能为待处理实体桶；跳转(d.2.3)处理扩展实体；

(d.2.2)处理静态实体桶的流程为：

若桶内存在关系且所有关系依附于同一实体，或桶内不存在关系且存在唯一实体，则记该实体为入口实体，否则记当前实体桶对应实体为入口实体；记当前实体桶对应实体所在簇为当前簇；将入口实体加入候选集，当前簇的其余实体加入残余集；从候选集中取优先级最高的实体，记该实体已访问，待处理的关系为关联该实体的、未被访问的、在当前实体桶中的关系，及关联该实体与当前簇内另一实体的、未被访问的静态关系，使用(d.2.0)处理关系的方法处理上述待处理关系，将上述待处理关系关联且在残余集内的实体从残余集移除并加入候选集；重复上述操作直至候选集为空；扩展实体为实体桶内关系关联的另一实体，且这些实体是未被访问的静态实体，其所在簇的根实体不能为待处理实体桶；跳转(d.2.3)处理扩展实体；

(d.2.3)处理扩展的静态实体的流程为：

对于若干个待处理的静态实体，所在簇相同的实体归入同一个桶，再次划分成若干个静态实体桶；采用步骤(d.2.2)按对应实体优先级依次处理每个静态实体桶；

(d.2.4)处理不可依附的实体桶的流程为：

对于实体桶内的若干关系，若关系关联的另一实体对应的簇的根实体可以依附，则将关系归入对应实体桶内，若对应实体桶不存在，则新增对应实体桶并加入待处理的实体桶序列；对于剩余的未被归入其他实体桶的若干关系，先按关系所依附的实体分组、并按实体对应的优先级进行组间排序，随后使用(d.2.0)处理关系的方法依次处理每组关系；最后结束当前实体桶处理流程。

本发明的有益效果如下：

本发明利用故事线与节点链接图相结合的可视化形式向用户展示时序知识图谱，突出不同时间节点的图谱差异，有助于用户观察实体与关系的变化趋势，发现变化趋势强相关的拓扑结构；本发明基于用户交互生成语序合理、逻辑清晰的描述性文本，降低了对图谱结构的理解门槛，帮助用户快速理解陌生领域的知识图谱。

附图说明

图1为针对时序知识图谱的可视化分析系统的系统面板示意图；

图2为针对时序知识图谱的可视化分析方法流程图；

图3为序列化算法流程图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“关联”等类似的词语，意指出现该词前后的两个实体分别为某一关系的主、客体，或出现在该词前后的实体为出现在该词前后的关系的主体或客体，或出现在该词前后的实体或关系的开始时间或结束时间为出现在该词前后的时间点。

需要说明的是，本实施例需构造特定的数据格式。

本实施例所需数据可分为实体数据和关系数据两类，实体数据的基本属性为开始时间和结束时间；关系数据的基本属性为开始时间、结束时间、主体和客体。实体数据和关系数据均又分为静态、时序、事件三个子类。

其中：

静态实体是一直存在的、不带有时间信息的实体，其开始时间和结束时间未定义；如月球；

时序实体是存在于某一时间段内的、带有时间信息的实体，其基本属性定义一个开始时间和/或一个结束时间；如尼尔·奥尔登·阿姆斯特朗，存在于1930年8月5日至2012年8月25日；

事件实体是只存在于某一时间点上的、带有时间信息的实体，其开始时间和结束时间在同一个时间点上，一般由某个事件抽象而成，如阿姆斯特朗登月事件，发生于1969年7月20日；

静态关系是一直存在的、不带有时间信息的关系，即其开始时间和结束时间未定义；

如(尼尔·奥尔登·阿姆斯特朗，国籍，美国)；

时序关系是存在于某一时间段内的、带有时间信息的关系，其基本属性定义一个开始时间和/或一个结束时间，如(尼尔·奥尔登·阿姆斯特朗，任航空工程学教授，辛辛那提大学)，存在于1971年至1979年；

事件关系是只存在于某一时间点上的、带有时间信息的关系，即其开始时间和结束时间在同一个时间点上，如(尼尔·奥尔登·阿姆斯特朗，登陆，月球)，存在于1969年7月20日。

每类数据所需的基本属性如下：

现有的知识图谱有很多种数据结构，采用本发明的针对时序知识图谱的可视化分析系统和方法时，需先将现有的知识图谱转换成本发明所需的数据结构。这里以以(主体，关系，客体，时间信息)四元组格式构造的时序知识图谱和以(主体，关系，客体)三元组格式构造的、带有时间信息的一般知识图谱这两类知识图谱提供一种可行的数据结构转换方式。

对于以(主体，关系，客体，时间信息)四元组格式构造的时序知识图谱，可以通过以下步骤转换为所需数据格式：提取所有原始实体为于负无穷时间点开始、正无穷时间点结束的时序实体，提取所有原始关系为时序关系。

对于以(主体，关系，客体)三元组格式构造的、带有时间信息的一般知识图谱，可以通过以下步骤转换为所需数据格式：确定提取为实体的原始实体的类、提取为关系的原始实体的类，确定关联时间信息的原始关系、关联主体与关系的原始关系、关联客体与关系的原始关系。依上述信息将部分原始实体提取为实体并补充其时间信息，将部分原始实体提取为关系、指明其主体、客体并补充其时间信息。

下面对本发明的系统和方法涉及到的一些技术术语的含义进行解释。

监测状态标志：标记用户是否处于监测状态；

选中实体集：被选中的实体的集合；

监测实体集：被监测的实体的集合；

可见实体集：当前展示给用户的实体的集合；

选中关系集：被选中的关系的集合；

可见关系集：当前展示给用户的关系的集合；

选中时间点集：被用户选中的时间点的集合；

可见时间点集：当前展示给用户的时间点的集合；

操控时间点：故事线面板中时序部分用户可见的最早的时间点，用来操控静态部分的图布局，随着用户滚动时间轴发生变化。

本发明的针对时序知识图谱的可视化分析系统包括如下模块：

(1)概览生成模块，该模块基于概览配置数据生成数据集概览；

(2)故事线生成模块，该模块基于故事线配置数据生成故事线；

(3)文本生成模块，该模块基于故事线配置数据生成描述性文本；

(4)画板模块，该模块展示系统生成的概览、故事线和文本，并响应用户交互，更新概览配置数据和故事线配置数据；如图1所示，其分为配置面板、概览面板和故事线面板；配置面板用于接收用户对概览配置数据及故事线配置数据的修改；概览面板用于展示概览视图，接收用户选择的实体，并初始化故事线配置数据；故事线面板用于展示故事线视图，接收用户对实体、关系、时间点的交互操作。故事线面板又分为时间轴、静态部分和时序部分，静态部分用于展示静态关系，时序部分用于展示时序关系和事件关系。用户可在该视图点击实体、关系、时间点以修改选中实体集、监测实体集、选中关系集、选中时间点集，滚动时间轴以修改操控时间点。

本发明的针对时序知识图谱的可视化分析方法如图2所示，包括以下步骤：

步骤一：系统根据用户输入的概览配置数据，生成概览视图，展示给用户；

步骤二：系统根据用户在概览视图选择的实体，初始化故事线配置数据；再根据故事线配置数据生成故事线视图和描述性文本，展示给用户；

步骤三：系统根据用户在故事线视图上对实体、关系、时间点的交互操作，更新故事线配置数据，再根据故事线配置数据生成故事线视图和描述性文本，展示给用户。

示例的，本实施例中，概览配置数据包括时间跨度分段方式、实体编码方式、面积图编码方式等。

示例的，本实施例中，时间跨度分段方式可选将数据集的时间跨度等分为指定数目段，或按指定步长进行分段；实体编码方式为实体在时间段内存在的非静态关系数量；面积图编码方式为时间段内存在的非静态关系数量。

步骤一中系统根据用户输入的概览配置数据，生成概览视图的子步骤如下：

首先对数据集的总体时间跨度进行分段，分出的时间段映射到y轴上；随后对每一时间段内的信息进行面积编码，编码值映射到x轴上，绘制出面积图；最后对每一时间段内存在的实体进行编码，编码值映射为文本大小，实体类别映射为文本颜色，在面积图对应时间段的内部使用wordcloud2.js绘制出词云。

所述的故事线配置数据包括监测状态标志、选中实体集、监测实体集、可见实体集、选中关系集、可见关系集、选中时间点集、可见时间点集、操控时间点。

步骤二：系统根据用户在概览视图选择的实体，初始化故事线配置数据的操作如下：

系统清空选中实体集、监测实体集、选中关系集、选中时间点集，将用户在概览视图中选中的实体加入选中实体集与监测实体集，并设置监测状态标志为真。

步骤二和步骤三中系统故事线配置数据生成故事线视图的方法如下：

(3-1.1)计算可见集：

(3-1.1.1)使用选中实体集初始化可见实体集、选中关系集初始化可见关系集、选中时间点集初始化可见时间点集。

(3-1.1.2)若处于监测状态，则将监测实体集中所有实体及其关联非静态关系的开始时间、开始时间-单位时间、结束时间、结束时间+单位时间加入可见时间点集；将监测实体集中所有实体及扩展步长内可达的实体加入可见实体集；将可见实体集中所有实体两两间的关系加入可见关系集。

优选地，令扩展步长为1。扩展步长为用户给定的一个实体到另一个实体所需要经过的最少的关系数量，用户可以在配置面板上定义。

(3-1.1.3)将选中关系集中所有关系的主体和客体加入可见实体集。

(3-1.2)计算故事线：

(3-1.2.1)计算实体故事线的线条次序：

令可见实体集中的每一个实体各自属于一个组。按时间顺序遍历可见时间点集,在任一时间点：

(a)若可见实体集中的两个实体间存在新出现(在上一时间点不存在)或即将消失(在下一时间点不存在)的关系，则将这两个实体对应的两个组并为一个组；

(b)若可见实体集中的两个实体间在上一时间点存在关系，且该关系在本时间点消失，则将在上一时间点因此合并到同一组的两个组重新分裂为两个组；

(c)记录当前分组情况作为该时间点的分组信息。

使用申请公布号CN109068152A公布的一种故事线可视化布局的生成方法中线条移动交互步骤给出的方法，具体为若干次移动故事线，在满足每一时间点上同一分组实体对应的故事线次序连续的限制下，使得所有故事线的交叉数最少，即可得到可见实体集中各实体作为故事线在垂直方向上的线条次序。

(3-1.2.2)计算所有故事线的线条次序：

按时间顺序遍历可见时间点集，在任一时间点，以实体故事线的线条次序为基础，对于任一实体故事线，若可见关系集中存在以该实体为主体的若干非静态关系，则这些关系对应的故事线依照其客体对应的故事线次序及相对该实体故事线的位置，依次插入该实体故事线的前后。

示例地，若某一时间点实体故事线的线条次序为[E₁,E₂,E₃,E₄]，可见关系集中存在非静态关系R₁:(E₃,r₁,E₁),R₂:(E₃,r₂,E₂),R₃:(E₃,r₃,E₄),则插入关系故事线后的线条次序为[E₁,E₂,R₁,R₂,E₃,R₃,E₄]。其中，R表示关系，括号中的第一个E表示主体，r表示关系R的关系类别，第二个E表示客体。

(3-1.2.3)计算故事线布局：

经若干次移动故事线，在满足布局高度小于h，任意两条故事线间距大于等于d_l，不同组的任意两条故事线间距大于等于d_g，且故事线次序保持不变的限制下，使相邻时间点故事线弯曲次数最少，即可得到故事线布局。

优选的，d_g＝2d_l，h＝max(故事线数量*d_l+分组数量*d_g*2)。

其中，d_l为组内间距，d_g为组间间距，这两个参数可由用户在配置面板中定义。h为系统给定的内部画布高度。

(3-1.2.4)扩展故事线布局：

记当前绘制时间线的画布为内部画布，上下各扩展一定高度的空白区域用于绘制扩展故事线。

按时间顺序遍历可见时间点集，在任一时间点，若存在于下一时间点新出现的若干故事线，则将对应故事线延长至本时间点，按对应故事线在下一时间点的次序、d_l的故事线间距布局于内部画布上方；若存在于上一时间点存在、于本时间点消失的若干故事线，则将对应故事线延长至本时间点，按对应故事线在上一时间点的次序、d_l的故事线间距布局于内部画布下方。

(3-1.3)计算故事线上的图布局：

其中，

约束条件为：需布局的实体或关系在y轴上落于其故事线在该时间点的对应位置，在x轴上落于限定宽度内。限定宽度为每个子图的宽度，可由用户在配置面板中设定。

因每一个关系均对应从主体位置到关系位置的线段及从关系位置到客体位置的线段。

目标函数为：

需布局的关系对应的两条线段与其他关系对应的两条线段，及其他需布局的实体或关系对应的包围盒的交叉数量之和。

(3-1.4)计算静态图布局

静态图需布局的子图包含可见关系集中所有静态关系及这些关系的关联实体，对这些关系在y轴上的位置不做约束。而实体若为静态实体，则实体在y轴上的位置不做约束；否则实体落于其故事线在操控时间点的对应y轴位置，若对应故事线不存在于操控时间点上，则依据对应故事线是未出现还是已消失，令实体落于内部画布的上方或下方。其余约束与优化目标与步骤(3-1.3)相同，使用步骤(3-1.3)的方法计算静态图布局。

步骤三中所述的描述性文本生成方法如下：

(3-2.1)预处理：对各选中集进行整理与补充，得到文本生成开始时间点、文本生成结束时间点、文本生成实体集、文本生成关系集等数据，若数据不足以生成文本，则结束文本生成。

示例地，本实施例中的预处理流程为：分别记选中时间点集中的最早时间点与最晚时间点为开始时间点与结束时间点，若选中时间点集为空则记数据集的最早时间点与最晚时间点为开始时间点与结束时间点；使用选中实体集初始化文本生成实体集、选中关系集初始化文本生成关系集；若文本生成关系集为空，则将文本生成实体集中所有实体的关联关系加入文本生成关系集；将文本生成关系集中所有关系的主体和客体加入文本生成实体集；若文本生成实体集为空，则不做文本生成，结束步骤三。

(3-2.2)序列化：依据时间信息、图拓扑结构、用户操作顺序，对文本生成实体集和文本生成关系集中的实体与关系进行排序，得到有序的实体及实体关联关系列表，使得最终生成的文本有序、有条理且与用户意图相符。

本实施例中的序列化算法如图3所示：

(a)计算实体、关系与时序无关的优先级：

对于文本生成实体集中的每一个实体，其权重为：中心度-选中次序/文本生成实体集大小，权重高者优先级高，权重相同则选中次序在前者优先级高；

对于文本生成关系集中的每一类关系，文本生成关系集中同类关系数量少者优先级高；

对于文本生成关系集中的每一个关系，选中次序在前者优先级高。

对同一类关系进行举例，(法喜寺，位于，杭州)和(西湖，位于，杭州)属于同一类关系。

(b)将文本生成实体集中的实体划分为若干簇：

每一个非静态实体为一个独立的簇；由静态关系关联的两个静态实体划分至同一个簇。每个簇中优先级最高的实体为该簇的根实体。

(c)计算时间点集，并将非静态实体与非静态关系分入若干个时间点桶：

列出文本生成实体集与文本生成关系集中所有实体及所有关系关联的时间点，保留其中在文本生成开始时间点与文本生成结束时间点构成的时间跨度内的时间点。以上述时间点为桶，将文本生成实体集与文本生成关系集中的非静态实体与非静态关系归入与之关联的时间点桶内，若关联多个时间点则归入时序在前者。

(d)按时间顺序依次处理每个时间点桶：

(d.1)将桶内的实体与关系再次分入若干个实体桶：

(d.2)按对应实体的优先级依次处理每个实体桶：

若当前实体桶对应实体不可依附，则跳转(d.2.4)；若当前实体桶对应实体可依附，判断当前实体桶对应实体是否在当前时间点桶内，若在，则跳转(d.2.2)，若不在，则跳转(d.2.1)。

当前实体桶对应实体可依附指的是实体在当前时间点桶内或实体为未访问的静态实体。

(d.2.0)处理关系：

(d.2.1)处理非静态实体桶：

非静态实体桶包括对应的实体和桶内待处理的关系。

待处理的关系为归入当前实体桶内的若干关系、以当前实体桶对应实体为主体的若干静态关系、及以当前实体桶对应实体为客体且主体为静态实体的若干静态关系。使用(d.2.0)的方法处理待处理关系。

扩展实体为待处理关系关联的另一实体，且这些实体是未被访问的静态实体，其所在簇的根实体不能为待处理实体桶；跳转(d.2.3)处理扩展实体。

(d.2.2)处理静态实体桶：

若桶内存在关系且所有关系依附于同一实体，或桶内不存在关系且存在唯一实体，则记该实体为入口实体，否则记当前实体桶对应实体为入口实体。记当前实体桶对应实体所在簇为当前簇。

①将入口实体加入候选集，当前簇的其余实体加入残余集。

②从候选集中取优先级最高的实体，记该实体已访问，待处理的关系为关联该实体的、未被访问的、在当前实体桶中的关系，及关联该实体与当前簇内另一实体的、未被访问的静态关系，使用(d.2.0)的方法处理上述待处理关系；

③将与上述待处理关系关联且在残余集内的实体从残余集移除并加入候选集。

④重复步骤②和③，直至候选集为空。

此时，扩展实体为实体桶内关系关联的另一实体，且这些实体是未被访问的静态实体，其所在簇的根实体不能为待处理实体桶。跳转(d.2.3)处理扩展实体。

(d.2.3)处理扩展实体：

扩展实体为若干个待处理的静态实体，将所在簇相同的实体归入同一个桶，再次划分成若干个静态实体桶；按对应实体优先级依次处理每个静态实体桶，处理方法同(d.2.2)。结束当前实体桶处理流程。

(d.2.4)处理不可依附的实体桶：

对于实体桶内的若干关系，若关系关联的另一实体对应的簇的根实体可以依附，则将关系归入对应实体桶内，即使没有对应实体桶，也新增对应实体桶并加入待处理的实体桶序列，从而使得关系都能归入对应实体桶。

对于剩余的未被归入其他实体桶的若干关系，先按关系关联的另一实体分组，并按实体对应的优先级进行组间排序，随后使用(d.2.0)的方法依次处理每组关系。结束当前实体桶处理流程。

(3-2.3)模板填充：使用给定的模板及组合规则将序列化结果转化为描述性文本。

模板及组合规则需根据数据集定制。

示例地，对于关系(A,任航空工程学教授,B,ST-ED),可对应模板“A于ST至ED任B的航空工程学教授”；对于序列化结果

可经模板及组合规则生成描述性文本“尼尔·奥尔登·阿姆斯特朗，美国人，于1971年至1979年任辛辛那提大学的航空工程学教授。”。

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims

1.一种针对时序知识图谱的可视化分析系统，其特征在于，该系统包括：

概览生成模块，该模块基于概览配置数据生成数据集概览；

故事线生成模块，该模块基于故事线配置数据生成故事线；

2.根据权利要求1所述的针对时序知识图谱的可视化分析系统，其特征在于，所述故事线面板又分为时间轴、静态部分和时序部分，静态部分用于展示静态关系，时序部分用于展示时序关系和事件关系。

3.一种针对时序知识图谱的可视化分析方法，其特征在于，该方法基于权利要求1～2中任意一项的可视化分析系统来实现，该方法包括：

4.根据权利要求3所述的针对时序知识图谱的可视化分析方法，其特征在于，所述概览配置数据包括时间跨度分段方式、实体编码方式、面积图编码方式；

5.根据权利要求3所述的针对时序知识图谱的可视化分析方法，其特征在于，

系统根据用户输入的概览配置数据，生成概览视图，具体包括：

6.根据权利要求3所述的针对时序知识图谱的可视化分析方法，其特征在于，根据故事线配置数据生成故事线视图的具体子步骤如下：