CN110059073B - 基于子图同构的web数据自动可视化方法 - Google Patents

基于子图同构的web数据自动可视化方法 Download PDF

Info

Publication number
CN110059073B
CN110059073B CN201910201466.0A CN201910201466A CN110059073B CN 110059073 B CN110059073 B CN 110059073B CN 201910201466 A CN201910201466 A CN 201910201466A CN 110059073 B CN110059073 B CN 110059073B
Authority
CN
China
Prior art keywords
node
data
value
type
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910201466.0A
Other languages
English (en)
Other versions
CN110059073A (zh
Inventor
陆佳炜
高燕煦
赵伟
程振波
徐俊
肖刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910201466.0A priority Critical patent/CN110059073B/zh
Publication of CN110059073A publication Critical patent/CN110059073A/zh
Application granted granted Critical
Publication of CN110059073B publication Critical patent/CN110059073B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于子图同构的web数据自动可视化方法,包括以下步骤:第一步:构建服务数据可视化建模与匹配方法的架构;第二步:定义元数据树MDT;第三步:读取调用的REST API所返回的JSON数据,将JSON数据集ds作为建模算法的输入,对ds进行树形结构建模;第四步:通过剪枝的方法,保留基本的数据结构信息;第五步:对可视化图形进行分类;第六步:先用降维方法对MDT进行降维操作,生成元结构树MST,再进行匹配查询,调用基于子图同构的匹配方法查找MST中与VT的各个StructModel匹配的片段,并根据Mapping信息进行数据映射生成可视化图形。本发明将模型进行自动化匹配,以实现数据的自动可视化。

Description

基于子图同构的web数据自动可视化方法
技术领域
本发明涉及一种基于子图同构的web数据自动可视化方法。
背景技术
REST(Representational State Transfer)架构风格于2000年发布于国际会议ICSE上,它是一种Web体系结构的抽象模型,用于指导重新设计和定义超文本传输协议和统一资源标识符。至今仍然能够根据这种架构风格的应用来了解万维网的工作方式与原理,这对于大规模软件架构的理解与发展有重要意义。Roy T.Fielding博士提出REST架构风格的论文在谷歌学术上统计已经被引用超过7000次,发布于ICSE/TOIT的论文被引用超过2000次。
REST服务的流行使得网络上出现了大量的轻量级数据服务,并持续保持爆炸性指数增长,国际上网站上也出现了大量服务供应商,致力于网络服务的集中供应与质量保障。大型在线web服务网站ProgrammableWeb聚集了各个领域大量的API信息,目前其收集的API数量已超过两万,其中REST架构风格的服务占80%以上;各大网络科技公司也有自己的API公开平台,如:Google、YouTube、Facebook、百度、阿里巴巴;还有许多个人开发的API公布在GitHub和个人BLOG上。
ProgrammableWeb所收集的服务中,响应格式种类繁多,其中以JSON与XML格式为主。XML(可扩展标记语言)是最古老的数据格式之一。它由W3C(万维网联盟)定义,并基于较旧的SGML(标准通用标记语言)格式。在XML中,数据使用元素和属性进行结构化。JSON(JavaScript Object Notation)是一种轻量级的数据交换格式。易于人阅读和编写,同时也易于机器解析和生成。JSON采用完全独立于语言的文本格式,是一种理想的数据交换语言。相比之下,XML有大量的冗余元素,重复的元素名称导致数据体量增大。JSON则没有重复元素名称所带来的数据冗余,数据传输速率更高,解析效率与查找效率都高于XML。近年来开发者更倾向于使用JSON作为数据响应格式。在ProgrammableWeb收集的REST服务中,响应格式支持JSON的服务占据了90%以上的比例。
多样化的服务催生了巨量的数据信息,而数据信息创造的真正价值在于数据分析。数据可视化可以通过交互式可视化界面及数据-图像转换技术来辅助用户对数据进行分析理解。研究人员研发了多种可视化平台,试图实现数据自动或半自动可视化。Roth提出的SAGE是经典的可视化设计系统,可以根据数据的特性,在用户指定相关约束的情况下,自动生成可视化;Satyanarayan提出的Lyra系统在数据管道中选择数据区域后,根据用户选定的可视化图形及参数实现数据可视化;Ren提出的iVisDesigner系统提供了统一界面进行交互式可视化创建、编辑操作,由固定模式定义的数据集在转换为内部元素后用于可视化映射;Viegas设计的Many Eyes在用户上传数据后,先指定可视化方法,并在此基础上进行各种配置,最终生成交互式可视化结果。在上述可视化系统中,为了尽可能实现数据与图形的自动化匹配,都对数据结构与格式有固定的要求。数据结构与可视图形结构的匹配问题可以抽象为子图同构问题,现已有多种算法针对该问题提出了解决方案。Ullmann算法是一种深度递归算法,也是第一个行之有效的子图同构搜索算法。该算法建立了一个部分匹配结果集,通过不断地增加或删除其中的元素来查找确定正确的匹配结果。近年来还有很多算法在Ullmann算法的理念基础上进行改良,得到更有效的子图同构算法。VF2算法和GraphQL算法通过建立剪枝规则来剪除不符合条件的候选节点,从而减小候选集的大小;QuickSI算法尝试尽可能早访问具有不常见标签的顶点和不常见的相邻边标签的顶点;GADDI算法结合相邻子距(the neighboring discriminating substructure(NDS)distance)理念,设计了独特的剪枝规则来缩小候选集的大小;SPath算法通过匹配每个调用的路径来最小化递归树的深度,从而提高查找效率。现有的可视化系统虽然不同程度上化简了数据可视化的操作,但是仍然需要用户参与指导,尤其对于复杂数据需要手工编排以保障更好的可视化效果;没有匹配算法的支持令成图的结果限制于人工设置的范围内,无法充分体现自动可视化的优势。
发明内容
为了尽可能实现Web数据的自动可视化,本发明提出了一种基于子图同构的web数据自动可视化方法,通过对JSON数据进行树形结构建模及对常见可视化图形进行结构建模来构建标准化通用模型,并基于子图同构算法,给出了一种改进的降维匹配算法将模型进行自动化匹配,以实现数据的自动可视化。
本发明所采用的技术方案是:
一种基于子图同构的web数据自动可视化方法,所述方法包括以下步骤:
第一步:构建服务数据可视化建模与匹配方法的架构,包括三个模块:数据建模(Data Modeling)、图形建模(Graphics Modeling)、降维匹配(Dimensionality-reductionMatching);
第二步:定义元数据树(Metadata_Tree,简写为MDT),包括根节点(Tree_Root,简写为TRoot)、索引节点(Index_Node,简写为INode)、数据节点(Data_Node,简写为DNode),同时用深度(level)来表示节点在树结构中的层数,根节点默认为第一层,即level=1;
第三步:读取调用的REST API所返回的JSON数据,将JSON数据集ds作为建模算法的输入,对ds进行树形结构建模;
第四步:由于JSON数据集中可能存在批量数据,批量数据通常以相同的数据结构形式存在,在数据集中常用数组的形式表现。若是用户的对于JSON数据分析的重点不在于数据的定位、查询,而是针对数据结构的分析,在上述JSON数据解析建模的方法基础上,可以通过剪枝的方法,保留基本的数据结构信息,剪除相同的重复数据结构,缩小模型的体量,但仍然保留基础的数据结构,降低JSON数据结构所带来的查询开销;
第五步:对可视化图形进行分类,归纳总结各类图形的属性及结构特征,通过建模创建一种可视模型树(Visualization Tree,简称VT),来形式化地表述各类图形信息;
第六步:子图同构是一个在查询图中查找查询子图,判断查询图中是否包含了查询子图的问题;本步骤中先用降维方法对MDT进行降维操作,生成元结构树(MetaStructure_Tree,简称MST),再将可视模型树VT与MST进行匹配查询,调用基于子图同构的匹配方法查找MST中与VT的各个StructModel匹配的片段,并根据Mapping信息进行数据映射,生成可视化图形。
进一步,所述第一步的过程如下:
1.1、数据建模:从Internet获取的REST服务经解析器(REST Service Parser)解析后进行注册,存储于缓存cache或数据库Database中,自动调用后所获取的基于JSON的REST服务数据,通过服务数据建模(Service Data Modeling)将服务数据转变为标准化模型,并抽取出主要数据结构生成元数据树MDT;
1.2、图形建模:对多种配置型可视化工具所支持的图形进行数据结构分析与归纳(Structural Analysis),整理出主要图形的通用数据结构及数据映射关系,再根据上述信息进行可视化图形建模(Visual Graphics Modeling),创建描述性可视模型——VisualModel Tree(简称VT);
1.3、降维匹配:调取数据建模所生成的MDT,通过降维算法(ProcedureDimReduction)对其进行结构降维,获得包含源数据基础数据结构的元结构树MST,然后通过VT解析器(VT Parser)提取出VT中的图形结构模型(Structure Model of VT),在MST中使用基于子图同构的匹配算法(Procedure Match)来搜索与图形结构模型匹配的数据结构片段,最后输出源数据可生成的图形种类(VType Array)及MST中的匹配片段(Matchedsubstructure);
1.4、图像生成:根据所属1.3输出的图形种类及MST中的匹配片段,将其按照VT解析器提取出的映射关系(Mapping Model of VT)通过映射处理器(Mapping Parser)来自动化生成可视化图形(Visual Graphics);
再进一步,所述第二步的过程如下:
2.1、根节点:MDT的根节点,即MDT的起始节点;
2.2、索引节点:代表JSON数据中每一个关键字(KEY),但不包括JSON数据中最内层的“键-值”对的关键字,索引节点为非根节点、非叶子节点;
2.3、数据节点:代表JSON数据中最内层的“键-值”对,存储为叶子节点。
所述2.1中,所述根节点内包含以下信息:
2.1.1、星标(isMark):记录JSON数据中最外层结构是否为数组类型,若是用1标记,若否用0标记;isMark形式化定义表述如(1)(2),isMark的数据类型为数字(NUMBER),若JSON数据中“键-值”对中的值(VALUE)为数组(ARRAY),则isMark=1,否则isMark=0;“#”为数据类型定义符,“::=”为赋值符,〖A→condition⊕<B>:<C>〗表示若A符合条件condition,则该式值为B,否则该式值为C;
(1)、“isMark”#<NUMBER>
(2)、“isMark”::=〖“VALUE”→ARRAY⊕<1>:<0>〗
2.1.2、元素数量(arrayNum):若当前节点的isMark为1,则记录数组元素个数,若当前节点的isMark为0,则用0标记;arrayNum形式化定义表述如(3)(4),arrayNum属性值为数字(NUMBER)类型,若JSON数据中“键-值”对中的值(VALUE)为ARRAY,则arrayNum等于VALUE数组的长度,否则arrayNum=0;
(3)、“arrayNum”#<NUMBER>
(4)、
Figure BDA0001997578730000041
所述2.2中,所述索引节点内包含以下信息:
2.2.1、节点名称(name):name的数据类型为字符串(STRING),name属性值为JSON数据中“键-值”对中的关键字(KEY);name形式化定义表述如(5)(6);
(5)、“name”#<STRING>
(6)、“name”::=<KEY>
2.2.2、节点值类型(vType):vType是JSON数据中“键-值”对中的值(VALUE)的数据类型,属性值为对象(OBJECT)、数组(ARRAY)、字符串(STRING)、数字(NUMBER)、TRUE、FALSE之一;vType形式化定义表述如(7);
(7)、“vType”::=[OBJECT|ARRAY|STRING|NUMBER|TRUE|FALSE]
2.2.3、星标(isMark):记录JSON数据中,以当前节点名称(name)作为关键字的“键-值”对中的值(VALUE)是否为数组类型,若是用1标记,若否用0标记;isMark形式化定义表述同步骤2.1.1中的(1)(2);
2.2.4、元素数量(arrayNum):若当前节点的isMark为1,则记录“键-值”对中的值(VALUE)的数组元素个数,若当前节点的isMark为0,则用0标记;arrayNum形式化定义表述同步骤2.1.2中的(3)(4)
所述2.3中,所述数据节点内包含以下信息:
2.3.1、节点名称(name):保存JSON数据中“键-值”对中的关键字(KEY),数据类型为字符串(STRING);name形式化定义表述同步骤2.2.1中的(5)(6);
2.3.2、节点值(nValue):nValue的数据类型为STRING,属性值为JSON数据中“键-值”对中的值(VALUE);nValue形式化定义表述如(8)(9);
(8)、“nValue”#<STRING>
(9)、“nValue”::=<VALUE>
2.3.3、节点类型(type):保存JSON数据中“键-值”对中的值(VALUE)的数据类型,为“str”、“num”或NULL,其中“str”代表type的数据类型为STRING,“num”代表type的数据类型为NUMBER,NULL表示type的属性值为空;type形式化定义表述如(10);
(10)、“type”::=[“str”|“num”|NULL]。
更进一步,所述第三步的步骤如下:
3.1、创建一棵根节点为TRoot的MDT,TRoot是起始节点,根节点的深度(level)默认为1;
3.2、读取JSON数据集ds,如果是首次读取ds,设置ds的第一个元素为当前元素,元素包括关键字(KEY)及其值(VALUE);否则设置ds的下一个元素为当前元素;若JSON数据最外层就是ARRAY,则TRoot的isMark=1,元素数量(arrayNum)为ARRAY元素个数。
优选的,所述步骤3.2的过程如下:
3.2.1、若VALUE的数据类型非OBJECT,同时非ARRAY,创建深度为level+1的数据节点,节点名称(name)为关键字(KEY),节点值(nValue)为值(VALUE),节点类型(type)为值(VALUE)的数据类型;完成后跳转至步骤3.2;
3.2.2、若VALUE的数据类型为ARRAY,创建深度level’=level+1的索引节点,节点名称(name)为关键字(KEY),节点值类型(vType)为ARRAY,isMark=1,元素数量(arrayNum)为当前VALUE数组中的元素个数;
3.2.2.1、若所述3.2.2中的VALUE数组的元素不是OBJECT类型,则创建level”=level’+1的数据节点,节点名称(name)为关键字(KEY),节点值(nValue)为值(VALUE),节点类型(type)为值(VALUE)的数据类型;完成后跳转至步骤3.2;
3.2.2.2、若所述3.2.2中的VALUE数组的元素是OBJECT类型,则创建level”=level’+1的索引节点,节点名称(name)为每个OBJECT元素中的关键字(KEY),节点值类型(vType)为每个OBJECT元素中的值(VALUE)的数据类型。若当前vType为ARRAY,则isMark=1,元素数量(arrayNum)为当前VALUE数组中的元素个数;若当前vType不为ARRAY,则isMark=0,arrayNum=0;
3.2.2.3、将步骤3.2.2.2中VALUE数组作为新的JSON数据集ds’,跳转至步骤3.2;
3.2.3、若VALUE的数据类型为OBJECT,创建深度level’=level+1的索引节点,节点名称(name)为每个OBJECT元素中的关键字(KEY),节点值类型(vType)为每个OBJECT元素中的值(VALUE)的数据类型。若当前vType为ARRAY,则isMark=1,元素数量(arrayNum)为当前VALUE数组中的元素个数;若当前vType不为ARRAY,则isMark=0,arrayNum=0;
3.2.4、将步骤3.2.3中VALUE数组作为新的JSON数据集ds’,跳转至步骤3.2。
所述第四步的步骤如下:
4.1、从level=1的TRoot开始,按广度优先策略,按层遍历MDT的根节点与索引节点;广度优先策略将按level逐层遍历MDT,从level=1的第一层开始遍历,当level层的节点遍历完成后,再继续遍历level+1层的节点;
4.2、将MDT的TRoot存入遍历队列;
4.3、按遍历队列顺序,读取每个节点的isMark属性;
4.3.1、若遍历到的节点的isMark属性值为1,则保留当前节点的第一个子节点,剪除其余的子节点及其子节点的子树结构,跳转至步骤4.3.4;
4.3.2、若遍历到的节点的isMark属性值为0,则不进行任何操作,跳转至步骤4.3.4;
4.3.3、若遍历到的节点为数据节点,将当前节点从遍历队列中删除,跳转至步骤4.3;
4.3.4、将当前遍历到的节点的子节点加入遍历队列,并将当前节点从遍历队列中删除,再跳转至步骤4.3;
4.4、当遍历队列中全部为数据节点时或遍历队列为空时,停止遍历,结束方法;
4.5、输出剪枝后的MDT。
所述第五步的过程如下:
5.1、定义VT包括基础属性(BASICATTRIBUTE)和可视结构(DVSCHEMA)两个部分,形式化定义如(11),其中BASICATTRIBUTE保存了图形标题、副标题及其他文本样式的通用信息;
(11)、VisualModel::=<BASICATTRIBUTE><DVSCHEMA>
5.2、BASICATTRIBUTE包括三个属性:标题(title)、子标题(subtitle)、属性(attributes),形式化定义如(12),title用于保存最终生成的可视化图形的标题,subtitle用于保存最终生成的可视化图形的子标题,attributes用于保存最终生成的可视化图形的位置、颜色组合、字体、字号设置参数;
(12)、BASICATTRIBUTE::=<title><subtitle><attributes>
5.3、BASICATTRIBUTE根据图形所需的数据类型、图形数据结构、图形维度将常见的可视化图形归纳为四种基础类别:一般图形(General)、拓扑图(Topology)、地图(Map)、文本图形(Text),形式化定义如(13);
(13)、DVSCHEMA::=<General><Topology><Map><Text>
5.4、步骤5.3中的四种基础类别下属均分别包含两个属性:图形类型(VType)和图形结构(StructModel),VType保存了该类别所属图形种类,StructModel保存了该类别所属图形的基本可视化结构,形式化定义如(14),“A::B”表示“A包含了属性B”;
(14)、DVSCHEMA::=<General><Topology><Map><Text>::<VType><StructModel>
所述5.4中,四种基础类别的VType属性的所属图形如下:
5.4.1、General包括柱状图(BarChart)、折线图(LineChart)、饼图(PieChart)、雷达图(RadarChart)、散点图(ScatterChart);
5.4.2、Topology包括网络图(NetworkChart)、树图(TreeMap)、面积树图(TreeMapChart);
5.4.3、Map包括地区地图(AreaMapChart)、国家地图(CountryMapChart)、世界地图(WorldMapChart);
5.4.4、Text包括词云(WorldCloudChart);
5.5、步骤5.4中四种基础类别均有各自的映射关系(Mapping),描述了各类图形的数据结构、数据维度、图形结构关系、数据映射位置信息;根据Mapping信息并结合图形的数据结构,可以抽象出各类图形的基本可视化结构StructModel,步骤三中所生成的MDT将与StructModel进行匹配,来判断REST API的返回数据能够生成何种可视化图形。
所述步骤5.5的过程如下:
5.5.1、General类型中的图形通常用于表示二维数据或三维数据,可用二元组(XAxis,YAxis)或三元组(XAxis,YAxis,ZAxis)来表示信息,此类图形的Mapping结构如(15),其中LegendName表示图例名称,以ARRAY类型来存储各分组信息;根据Mapping结构可抽象出基础StructModel的结构如(16),StructModel的子节点为临时根节点Root,Root包含两个子节点:键值对K_V与图例节点LegendNode;
(15)、Mapping::=<XAxis,YAxis,[ZAxis]><LegendName>
(16)、StructModel::=<Root::<K_V><LegendNode>>
5.5.2、Topology类型中的图形通常用于表示拓扑关系数据,树图与面积树图可用嵌套的键值对{key:value,children:{key:value}}来表示属性结构,Mapping结构如(17);网络图可用节点集合(Nodes)和边集合(Links)来表示图结构,Mapping结构如(18),其中source表示一条边link的起始节点,target表示该条边link的指向节点;根据Mapping结构可抽象出基础StructModel的结构如(19),StructModel有两个子结构,Root1和Root2分别为两个子结构的临时根节点,Root1包含两个子节点:键值对K_V和孩子节点children,children的子结构为键值对K_V;Root2包含两个子节点:节点集合Nodes和边集合Links,节点集合的子节点为关键字key和值value,其中value可能为空,边集合的子节点为起点source和目标target;
(17)、Mapping::=<K_V><children::<K_V>>
(18)、Mapping::=<Nodes::<key,[value]><Links::<source><target>>
(19)、StructModel::=<Root1::<K_V><children::<K_V>>><Root2::<Nodes::<key,[value]>,<Links::<source><target>>>
5.5.3、Map类型中的图形通常用于表示地图信息,用键值对数组[{PlaceName:value}]或三元组数组[{lng,lat,value}]来表示地图信息,此类图形的Mapping结构如(20),其中PlaceName表示地名,lng表示纬度,lat表示经度;根据Mapping结构可抽象出基础StructModel的结构如(21),StructModel有两个子结构,Root1和Root2分别为两个子结构的临时根节点,Root1包含子子节点键值对K_V;Root2包含了三个子节点:经度lat,纬度lng,数值value;
(20)、Mapping::=<Data1::<PlaceName><value>><Data2::<lng><lat><value>>
(21)、StructModel::=<Root1::<K_V>>,<Root2::<lng>,<lat>,<value>>
5.5.4、Text类型中的图形常用二元组(Keyword,frequency)来表示关键字频率,此类图形的Mapping结构如(22),其中Keyword为文本中提取出的词汇,frequency表示该词汇在文本中的出现频率;根据Mapping结构可抽象出基础StructModel的结构如(23),StructModel的子节点为临时根节点Root,Root包含了键值对K_V;
(22)、Mapping::=<Keyword><frequency>
(23)、StructModel::=<Root::<K_V>>。
所述第六步的过程如下:
6.1、定义元结构树(MST),包括子树根节点(subtree_root,简称STRoot)、子结构(Substruct),形式化定义如(24),MST用于保存降维后的MDT;其中子结构Substruct由引导节点(guide_node,简称GNode)和数据节点(leaf_node,简称LNode)两部分构成,形式化定义如(25);根节点STRoot内包含的信息同2.1.1至2.1.2;引导节点GNode内包含的信息同2.2.1至2.2.4;叶子节点LNode内包含的信息同2.3.1至2.3.3;同时用深度(level)来表示节点在树结构中的层数,STRoot默认为第一层,即level=1;
(24)、MST::=<subtree_root><Substruct>
(25)、Substruct::=<guide_node><leaf_node>
6.2、解析VT中四种基础类别的StructModel,提取每种StructModel中的临时根节点及其子结构,每一个临时根节点及其子结构构成的树结构片段将作为查询子图,根据步骤5.5.1至5.5.4可以提取出六个查询子图:General类型的StructModel的下属Root为起点的子结构,Topology类型的StructModel的下属分别以Root1和Root2为起点的两个子结构,Map类型的StructModel的下属分别以Root1和Root2为起点的两个子结构,Text类型的StructModel的下属Root为起点的子结构;
6.3、定义基于子图同构的匹配方法Match(MST),以MST作为输入,将步骤6.2中的六个查询子图用StructModelk表示,与每个StructModelk同属于一个大类(General、Topology、Map、Text之一)的VType用VTypek表示;
6.4、基于子图同构的降维匹配算法通过对MDT进行降维操作生成MST后,调用步骤6.3中定义的基于子图同构的匹配方法Match(MST)进行自动化匹配,将MDT作为输入,最后输出源数据可生成的图形种类及MST中的匹配片段;
6.5、根据Match(MST)方法输出的匹配片段从源数据中提取数据,并将数据根据Mapping结构映射到输出的对应类型的图形结构中,从而生成可视化图形。
所述步骤6.3的过程如下:
6.3.1、按照广度优先策略,按层遍历MST,将MST的节点从STRoot开始,按层数从小到大的顺序,将STRoot和所有GNode存入遍历队列Q;
6.3.2、设置节点s为StructModelk的根节点;
6.3.3、按遍历队列Q的顺序,将当前Q中遍历到的节点xi与节点s进行比较,判断xi与s的isMark属性值是否相等;
6.3.3.1、若xi与s的isMark属性值相等,将xi加入集合P,设置i=i+1,跳转至步骤6.3.3;
6.3.3.2、若xi与s的isMark属性值不相等,设置i=i+1,跳转至步骤6.3.3;
6.3.4、当Q遍历完成后,遍历集合P中的节点pj,判断pj与s的父子节点关系是否一致;
6.3.4.1、若pj与s的父子节点关系不一致,设置j=j+1,跳转至步骤6.3.4;
6.3.4.2、若pj与s的父子节点关系一致,将pi加入集合M,跳转至步骤6.3.5;
6.3.5、判断集合M与StructModelk的结构是否一致;
6.3.5.1、若M与StructModelk的结构一致,输出集合M和StructModelk对应的VTypek;清空集合P,设置k=k+1,设置xi为Q的第一个节点,跳转至步骤6.3.2;
6.3.5.2、若M与StructModelk的结构不一致,将s设置为它在StructModelk中的下一个节点,清空集合P,设置k=k+1,设置xi为Q的第一个节点,跳转至步骤6.3.3;
6.3.6、当六个查询子图均完成查询后,结束方法Match(MST),输出源数据可生成的图形种类(VTypek)及MST中匹配片段的集合M;
所述步骤6.4的过程如下:
6.4.1、按照广度优先策略,按层遍历MDT,将MDT的节点从TRoot开始,按层数从小到大的顺序,将TRoot和所有INode存入遍历队列L;
6.4.2、按遍历队列L的顺序,对当前遍历到的节点ma的isMark属性和m的子节点的type属性进行判断,是否符合isMark=1且type=”num”;
6.4.2.1、若isMark=1且type=”num”,将ma加入集合S,设置a=a+1,跳转至步骤6.4.2;
6.4.2.2、若不符合isMark=1且type=”num”,设置a=a+1,跳转至步骤6.4.2;
6.4.3、当L遍历完成后,按集合S中节点加入顺序的逆序来遍历集合S,当前遍历到的节点用nb表示;
6.4.4、如果在S中没有其他节点与nb有相同的父节点,将nb和它的子结构存储为临时子树subtree,将subtree加入MST,作为STRoot的子结构,再从MDT中剪除subtree,并将nb从集合S中删除,调用步骤6.3中定义的基于子图同构的匹配方法Match(MST),跳转至步骤6.5;
6.4.5、如果在S中存在其他节点与nb有相同的父节点,将nb加入集合U;
6.4.6、按顺序遍历集合U,对遍历到的节点uc的arrayNum属性值进行判断;
6.4.6.1、若arrayNum>2,将uc和它的子结构存储为临时子树subtree,将subtree加入MST,作为STRoot的子结构,再从MDT中剪除subtree,并将uc从集合U中删除,调用步骤6.3中定义的基于子图同构的匹配方法Match(MST),跳转至步骤6.5;
6.4.6.2、若arrayNum<=2,在U中查找出其他的arrayNum<=2节点d,将uc的父节点、uc、d、uc的子节点、d的子节点存储为总层数为3的临时子树subtree,若subtree与Topology类中StructModel的两个子结构之一结构相同,则将该subtree存入MST,以uc的父节点为STRoot,再从MDT中剪除subtree,并将nb和d从集合U与S中删除,调用步骤6.3中定义的基于子图同构的匹配方法Match(MST),跳转至步骤6.5;
6.4.6.3、若arrayNum<=2,在U中没有其他的arrayNum<=2节点,将uc和它的子结构存储为临时子树subtree,将subtree加入MST,作为STRoot的子结构,再从MDT中剪除subtree,并将uc从集合U中删除,调用步骤6.3中定义的基于子图同构的匹配方法Match(MST),跳转至步骤6.5。
本发明的有益效果表现在:本方法能够智能地理解服务响应的JSON数据,对其进行树形结构建模,生成标准化数据结构,无需人工对数据格式进行编排,也无需预先设置数据模板;自动构建的数据模型可与常用的可视化图形模型——可视模型树VT进行匹配,在匹配过程中使用基于子图同构的降维匹配算法能够缩减查询图体量,减小查询范围,匹配过程中优化了候选集,剪除不符合候选条件的节点,达到了优化自动查找匹配结构过程的目的,提高了查询效率,降低查询开销与成本;在自动可视化整体过程中减少了人工编辑操作,化简数据可视化流程。
附图说明
图1示出了web数据可视化建模与匹配方法的架构图
图2示出了2018世界杯REST API所返回的JSON数据结构图。
图3示出了JSON数据转化的树形结构图。
图4示出了JSON数据剪枝后的树形结构图。
图5示出了可视模型树VT的结构图
图6示出了基于子图同构的web数据自动可视化系统功能模块图
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图5,一种基于子图同构的web数据自动可视化方法,包括以下步骤:
第一步:构建服务数据可视化建模与匹配方法的架构,参照图1,包括三个模块:数据建模(Data Modeling)、图形建模(Graphics Modeling)、降维匹配(Dimensionality-reduction Matching)。
1.1、数据建模:从Internet获取的REST服务经解析器(REST Service Parser)解析后进行注册,存储于缓存cache或数据库Database中,自动调用后所获取的基于JSON的REST服务数据,通过服务数据建模(Service Data Modeling)将服务数据转变为标准化模型,并抽取出主要数据结构生成元数据树MDT;
1.2、图形建模:对多种配置型可视化工具所支持的图形进行数据结构分析与归纳(Structural Analysis),整理出主要图形的通用数据结构及数据映射关系,再根据上述信息进行可视化图形建模(Visual Graphics Modeling),创建描述性可视模型——VisualModel Tree(简称VT);
1.3、降维匹配:调取数据建模所生成的MDT,通过降维算法(ProcedureDimReduction)对其进行结构降维,获得包含源数据基础数据结构的元结构树MST,然后通过VT解析器(VT Parser)提取出VT中的图形结构模型(Structure Model of VT),在MST中使用基于子图同构的匹配算法(Procedure Match)来搜索与图形结构模型匹配的数据结构片段,最后输出源数据可生成的图形种类(VType Array)及MST中的匹配片段(Matchedsubstructure)。
1.4、图像生成:根据所属1.3输出的图形种类及MST中的匹配片段,将其按照VT解析器提取出的映射关系(Mapping Model of VT)通过映射处理器(Mapping Parser)来自动化生成可视化图形(Visual Graphics)。
第二步:定义元数据树(Metadata_Tree,简写为MDT),包括根节点(Tree_Root,简写为TRoot)、索引节点(Index_Node,简写为INode)、数据节点(Data_Node,简写为DNode),同时用深度(level)来表示节点在树结构中的层数,根节点默认为第一层,即level=1;
2.1、根节点:MDT的根节点,即MDT的起始节点;
2.2、索引节点:代表JSON数据中每一个关键字(KEY),但不包括JSON数据中最内层的“键-值”对的关键字,索引节点为非根节点、非叶子节点;
2.3、数据节点:代表JSON数据中最内层的“键-值”对,存储为叶子节点;
所述2.1中,所述根节点内包含以下信息:
2.1.1、星标(isMark):记录JSON数据中最外层结构是否为数组类型,若是用1标记,若否用0标记;isMark形式化定义表述如(1)(2),isMark的数据类型为数字(NUMBER),若JSON数据中“键-值”对中的值(VALUE)为数组(ARRAY),则isMark=1,否则isMark=0;“#”为数据类型定义符,“::=”为赋值符,〖A→condition⊕<B>:<C>〗表示若A符合条件condition,则该式值为B,否则该式值为C;
(1)、“isMark”#<NUMBER>
(2)、“isMark”::=〖“VALUE”→ARRAY⊕<1>:<0>〗
2.1.2、元素数量(arrayNum):若当前节点的isMark为1,则记录数组元素个数,若当前节点的isMark为0,则用0标记;arrayNum形式化定义表述如(3)(4),arrayNum属性值为数字(NUMBER)类型,若JSON数据中“键-值”对中的值(VALUE)为ARRAY,则arrayNum等于VALUE数组的长度,否则arrayNum=0;
(3)、“arrayNum”#<NUMBER>
(4)、“arrayNum”::=〖“VALUE”→ARRAY⊕<ARRAY.length>:<0>〗
所述2.2中,所述索引节点内包含以下信息:
2.2.1、节点名称(name):name的数据类型为字符串(STRING),name属性值为JSON数据中“键-值”对中的关键字(KEY);name形式化定义表述如(5)(6);
(5)、“name”#<STRING>
(6)、“name”::=<KEY>
2.2.2、节点值类型(vType):vType是JSON数据中“键-值”对中的值(VALUE)的数据类型,属性值为对象(OBJECT)、数组(ARRAY)、字符串(STRING)、数字(NUMBER)、TRUE、FALSE之一;vType形式化定义表述如(7);
(7)、“vType”::=[OBJECT|ARRAY|STRING|NUMBER|TRUE|FALSE]
2.2.3、星标(isMark):记录JSON数据中,以当前节点名称(name)作为关键字的“键-值”对中的值(VALUE)是否为数组类型,若是用1标记,若否用0标记;isMark形式化定义表述同步骤2.1.1中的(1)(2);
2.2.4、元素数量(arrayNum):若当前节点的isMark为1,则记录“键-值”对中的值(VALUE)的数组元素个数,若当前节点的isMark为0,则用0标记;arrayNum形式化定义表述同步骤2.1.2中的(3)(4)
所述2.3中,所述数据节点内包含以下信息:
2.3.1、节点名称(name):保存JSON数据中“键-值”对中的关键字(KEY),数据类型为字符串(STRING);name形式化定义表述同步骤2.2.1中的(5)(6);
2.3.2、节点值(nValue):nValue的数据类型为STRING,属性值为JSON数据中“键-值”对中的值(VALUE);nValue形式化定义表述如(8)(9);
(8)、“nValue”#<STRING>
(9)、“nValue”::=<VALUE>
2.3.3、节点类型(type):保存JSON数据中“键-值”对中的值(VALUE)的数据类型,为“str”、“num”或NULL,其中“str”代表type的数据类型为STRING,“num”代表type的数据类型为NUMBER,NULL表示type的属性值为空;type形式化定义表述如(10);
(10)、“type”::=[“str”|“num”|NULL]
第三步:读取调用的REST API所返回的JSON数据,将JSON数据集ds作为建模算法的输入,对ds进行树形结构建模,步骤如下:
3.1、创建一棵根节点为TRoot的MDT,TRoot是起始节点,根节点的深度(level)默认为1;
3.2、读取JSON数据集ds,如果是首次读取ds,设置ds的第一个元素为当前元素,元素包括关键字(KEY)及其值(VALUE);否则设置ds的下一个元素为当前元素;若JSON数据最外层就是ARRAY,则TRoot的isMark=1,元素数量(arrayNum)为ARRAY元素个数;
3.2.1、若VALUE的数据类型非OBJECT,同时非ARRAY,创建深度为level+1的数据节点,节点名称(name)为关键字(KEY),节点值(nValue)为值(VALUE),节点类型(type)为值(VALUE)的数据类型;完成后跳转至步骤3.2;
3.2.2、若VALUE的数据类型为ARRAY,创建深度level’=level+1的索引节点,节点名称(name)为关键字(KEY),节点值类型(vType)为ARRAY,isMark=1,元素数量(arrayNum)为当前VALUE数组中的元素个数;
3.2.2.1、若所述3.2.2中的VALUE数组的元素不是OBJECT类型,则创建level”=level’+1的数据节点,节点名称(name)为关键字(KEY),节点值(nValue)为值(VALUE),节点类型(type)为值(VALUE)的数据类型;完成后跳转至步骤3.2;
3.2.2.2、若所述3.2.2中的VALUE数组的元素是OBJECT类型,则创建level”=level’+1的索引节点,节点名称(name)为每个OBJECT元素中的关键字(KEY),节点值类型(vType)为每个OBJECT元素中的值(VALUE)的数据类型。若当前vType为ARRAY,则isMark=1,元素数量(arrayNum)为当前VALUE数组中的元素个数;若当前vType不为ARRAY,则isMark=0,arrayNum=0;
3.2.2.3、将步骤3.2.2.2中VALUE数组作为新的JSON数据集ds’,跳转至步骤3.2;
3.2.3、若VALUE的数据类型为OBJECT,创建深度level’=level+1的索引节点,节点名称(name)为每个OBJECT元素中的关键字(KEY),节点值类型(vType)为每个OBJECT元素中的值(VALUE)的数据类型。若当前vType为ARRAY,则isMark=1,元素数量(arrayNum)为当前VALUE数组中的元素个数;若当前vType不为ARRAY,则isMark=0,arrayNum=0;
3.2.4、将步骤3.2.3中VALUE数组作为新的JSON数据集ds’,跳转至步骤3.2。
第四步:由于JSON数据集中可能存在批量数据,批量数据通常以相同的数据结构形式存在,在数据集中常用数组的形式表现。若是用户的对于JSON数据分析的重点不在于数据的定位、查询,而是针对数据结构的分析,在上述JSON数据解析建模的方法基础上,可以通过剪枝的方法,保留基本的数据结构信息,剪除相同的重复数据结构,缩小模型的体量,但仍然保留基础的数据结构,降低JSON数据结构所带来的查询开销,方法步骤如下:
4.1、从level=1的TRoot开始,按广度优先策略,按层遍历MDT的根节点与索引节点;广度优先策略将按level逐层遍历MDT,从level=1的第一层开始遍历,当level层的节点遍历完成后,再继续遍历level+1层的节点;
4.2、将MDT的TRoot存入遍历队列;
4.3、按遍历队列顺序,读取每个节点的isMark属性;
4.3.1、若遍历到的节点的isMark属性值为1,则保留当前节点的第一个子节点,剪除其余的子节点及其子节点的子树结构,跳转至步骤4.3.4;
4.3.2、若遍历到的节点的isMark属性值为0,则不进行任何操作,跳转至步骤4.3.4;
4.3.3、若遍历到的节点为数据节点,将当前节点从遍历队列中删除,跳转至步骤4.3;
4.3.4、将当前遍历到的节点的子节点加入遍历队列,并将当前节点从遍历队列中删除,再跳转至步骤4.3;
4.4、当遍历队列中全部为数据节点时或遍历队列为空时,停止遍历,结束方法;
4.5、输出剪枝后的MDT。
第五步:参照图5,对可视化图形进行分类,归纳总结各类图形的属性及结构特征,通过建模创建一种可视模型树(Visualization Tree,简称VT),来形式化地表述各类图形信息。
5.1、定义VT包括基础属性(BASICATTRIBUTE)和可视结构(DVSCHEMA)两个部分,形式化定义如(11),其中BASICATTRIBUTE保存了图形标题、副标题及其他文本样式的通用信息;
(11)、VisualModel::=<BASICATTRIBUTE><DVSCHEMA>
5.2、BASICATTRIBUTE包括三个属性:标题(title)、子标题(subtitle)、属性(attributes),形式化定义如(12),title用于保存最终生成的可视化图形的标题,subtitle用于保存最终生成的可视化图形的子标题,attributes用于保存最终生成的可视化图形的位置、颜色组合、字体、字号设置参数;
(12)、BASICATTRIBUTE::=<title><subtitle><attributes>
5.3、BASICATTRIBUTE根据图形所需的数据类型、图形数据结构、图形维度将常见的可视化图形归纳为四种基础类别:一般图形(General)、拓扑图(Topology)、地图(Map)、文本图形(Text),形式化定义如(13);
(13)、DVSCHEMA::=<General><Topology><Map><Text>
5.4、步骤5.3中的四种基础类别下属均分别包含两个属性:图形类型(VType)和图形结构(StructModel),VType保存了该类别所属图形种类,StructModel保存了该类别所属图形的基本可视化结构,形式化定义如(14),“A::B”表示“A包含了属性B”;
(14)、DVSCHEMA::=<General><Topology><Map><Text>::<VType><StructModel>
所述5.4中,四种基础类别的VType属性的所属图形如下:
5.4.1、General包括柱状图(BarChart)、折线图(LineChart)、饼图(PieChart)、雷达图(RadarChart)、散点图(ScatterChart);
5.4.2、Topology包括网络图(NetworkChart)、树图(TreeMap)、面积树图(TreeMapChart);
5.4.3、Map包括地区地图(AreaMapChart)、国家地图(CountryMapChart)、世界地图(WorldMapChart);
5.4.4、Text包括词云(WorldCloudChart);
5.5、步骤5.4中四种基础类别均有各自的映射关系(Mapping),描述了各类图形的数据结构、数据维度、图形结构关系、数据映射位置信息;根据Mapping信息并结合图形的数据结构,可以抽象出各类图形的基本可视化结构StructModel,步骤三中所生成的MDT将与StructModel进行匹配,来判断REST API的返回数据能够生成何种可视化图形;
5.5.1、General类型中的图形通常用于表示二维数据或三维数据,可用二元组(XAxis,YAxis)或三元组(XAxis,YAxis,ZAxis)来表示信息,此类图形的Mapping结构如(15),其中LegendName表示图例名称,以ARRAY类型来存储各分组信息;根据Mapping结构可抽象出基础StructModel的结构如(16),StructModel的子节点为临时根节点Root,Root包含两个子节点:键值对K_V与图例节点LegendNode;
(15)、Mapping::=<XAxis,YAxis,[ZAxis]><LegendName>
(16)、StructModel::=<Root::<K_V><LegendNode>>
5.5.2、Topology类型中的图形通常用于表示拓扑关系数据,树图与面积树图可用嵌套的键值对{key:value,children:{key:value}}来表示属性结构,Mapping结构如(17);网络图可用节点集合(Nodes)和边集合(Links)来表示图结构,Mapping结构如(18),其中source表示一条边link的起始节点,target表示该条边link的指向节点;根据Mapping结构可抽象出基础StructModel的结构如(19),StructModel有两个子结构,Root1和Root2分别为两个子结构的临时根节点,Root1包含两个子节点:键值对K_V和孩子节点children,children的子结构为键值对K_V;Root2包含两个子节点:节点集合Nodes和边集合Links,节点集合的子节点为关键字key和值value,其中value可能为空,边集合的子节点为起点source和目标target;
(17)、Mapping::=<K_V><children::<K_V>>
(18)、Mapping::=<Nodes::<key,[value]><Links::<source><target>>
(19)、StructModel::=<Root1::<K_V><children::<K_V>>><Root2::<Nodes::<key,[value]>,<Links::<source><target>>>
5.5.3、Map类型中的图形通常用于表示地图信息,用键值对数组[{PlaceName:value}]或三元组数组[{lng,lat,value}]来表示地图信息,此类图形的Mapping结构如(20),其中PlaceName表示地名,lng表示纬度,lat表示经度;根据Mapping结构可抽象出基础StructModel的结构如(21),StructModel有两个子结构,Root1和Root2分别为两个子结构的临时根节点,Root1包含子子节点键值对K_V;Root2包含了三个子节点:经度lat,纬度lng,数值value;
(20)、Mapping::=<Data1::<PlaceName><value>><Data2::<lng><lat><value>>
(21)、StructModel::=<Root1::<K_V>>,<Root2::<lng>,<lat>,<value>>
5.5.4、Text类型中的图形常用二元组(Keyword,frequency)来表示关键字频率,此类图形的Mapping结构如(22),其中Keyword为文本中提取出的词汇,frequency表示该词汇在文本中的出现频率;根据Mapping结构可抽象出基础StructModel的结构如(23),StructModel的子节点为临时根节点Root,Root包含了键值对K_V;
(22)、Mapping::=<Keyword><frequency>
(23)、StructModel::=<Root::<K_V>>
第六步:子图同构是一个在查询图中查找查询子图,判断查询图中是否包含了查询子图的问题;本步骤中用降维方法对MDT进行降维操作,生成元结构树(MetaStructure_Tree,简称MST),再将可视模型树VT与MST进行匹配查询,调用基于子图同构的匹配方法查找MST中与VT的各个StructModel匹配的片段,并根据Mapping信息进行数据映射,生成可视化图形;
6.1、定义元结构树(MST),包括子树根节点(subtree_root,简称STRoot)、子结构(Substruct),形式化定义如(24),MST用于保存降维后的MDT;其中子结构Substruct由引导节点(guide_node,简称GNode)和数据节点(leaf_node,简称LNode)两部分构成,形式化定义如(25);根节点STRoot内包含的信息同2.1.1至2.1.2;引导节点GNode内包含的信息同2.2.1至2.2.4;叶子节点LNode内包含的信息同2.3.1至2.3.3;同时用深度(level)来表示节点在树结构中的层数,STRoot默认为第一层,即level=1;
(24)、MST::=<subtree_root><Substruct>
(25)、Substruct::=<guide_node><leaf_node>
6.2、解析VT中四种基础类别的StructModel,提取每种StructModel中的临时根节点及其子结构,每一个临时根节点及其子结构构成的树结构片段将作为查询子图,根据步骤5.5.1至5.5.4可以提取出六个查询子图:General类型的StructModel的下属Root为起点的子结构,Topology类型的StructModel的下属分别以Root1和Root2为起点的两个子结构,Map类型的StructModel的下属分别以Root1和Root2为起点的两个子结构,Text类型的StructModel的下属Root为起点的子结构;
6.3、定义基于子图同构的匹配方法Match(MST),以MST作为输入,将步骤6.2中的六个查询子图用StructModelk表示,与每个StructModelk同属于一个大类(General、Topology、Map、Text之一)的VType用VTypek表示;
6.3.1、按照广度优先策略,按层遍历MST,将MST的节点从STRoot开始,按层数从小到大的顺序,将STRoot和所有GNode存入遍历队列Q;
6.3.2、设置节点s为StructModelk的根节点;
6.3.3、按遍历队列Q的顺序,将当前Q中遍历到的节点xi与节点s进行比较,判断xi与s的isMark属性值是否相等;
6.3.3.1、若xi与s的isMark属性值相等,将xi加入集合P,设置i=i+1,跳转至步骤6.3.3;
6.3.3.2、若xi与s的isMark属性值不相等,设置i=i+1,跳转至步骤6.3.3;
6.3.4、当Q遍历完成后,遍历集合P中的节点pj,判断pj与s的父子节点关系是否一致;
6.3.4.1、若pj与s的父子节点关系不一致,设置j=j+1,跳转至步骤6.3.4;
6.3.4.2、若pj与s的父子节点关系一致,将pi加入集合M,跳转至步骤6.3.5;
6.3.5、判断集合M与StructModelk的结构是否一致;
6.3.5.1、若M与StructModelk的结构一致,输出集合M和StructModelk对应的VTypek;清空集合P,设置k=k+1,设置xi为Q的第一个节点,跳转至步骤6.3.2;
6.3.5.2、若M与StructModelk的结构不一致,将s设置为它在StructModelk中的下一个节点,清空集合P,设置k=k+1,设置xi为Q的第一个节点,跳转至步骤6.3.3;
6.3.6、当六个查询子图均完成查询后,结束方法Match(MST),输出源数据可生成的图形种类(VTypek)及MST中匹配片段的集合M;
6.4、基于子图同构的降维匹配算法通过对MDT进行降维操作生成MST后,调用步骤6.3中定义的基于子图同构的匹配方法Match(MST)进行自动化匹配,将MDT作为输入,最后输出源数据可生成的图形种类及MST中的匹配片段;
6.4.1、按照广度优先策略,按层遍历MDT,将MDT的节点从TRoot开始,按层数从小到大的顺序,将TRoot和所有INode存入遍历队列L;
6.4.2、按遍历队列L的顺序,对当前遍历到的节点ma的isMark属性和m的子节点的type属性进行判断,是否符合isMark=1且type=”num”;
6.4.2.1、若isMark=1且type=”num”,将ma加入集合S,设置a=a+1,跳转至步骤6.4.2;
6.4.2.2、若不符合isMark=1且type=”num”,设置a=a+1,跳转至步骤6.4.2;
6.4.3、当L遍历完成后,按集合S中节点加入顺序的逆序来遍历集合S,当前遍历到的节点用nb表示;
6.4.4、如果在S中没有其他节点与nb有相同的父节点,将nb和它的子结构存储为临时子树subtree,将subtree加入MST,作为STRoot的子结构,再从MDT中剪除subtree,并将nb从集合S中删除,调用步骤6.3中定义的基于子图同构的匹配方法Match(MST),跳转至步骤6.5;
6.4.5、如果在S中存在其他节点与nb有相同的父节点,将nb加入集合U;
6.4.6、按顺序遍历集合U,对遍历到的节点uc的arrayNum属性值进行判断;
6.4.6.1、若arrayNum>2,将uc和它的子结构存储为临时子树subtree,将subtree加入MST,作为STRoot的子结构,再从MDT中剪除subtree,并将uc从集合U中删除,调用步骤6.3中定义的基于子图同构的匹配方法Match(MST),跳转至步骤6.5;
6.4.6.2、若arrayNum<=2,在U中查找出其他的arrayNum<=2节点d,将uc的父节点、uc、d、uc的子节点、d的子节点存储为总层数为3的临时子树subtree,若subtree与Topology类中StructModel的两个子结构之一结构相同,则将该subtree存入MST,以uc的父节点为STRoot,再从MDT中剪除subtree,并将nb和d从集合U与S中删除,调用步骤6.3中定义的基于子图同构的匹配方法Match(MST),跳转至步骤6.5;
6.4.6.3、若arrayNum<=2,在U中没有其他的arrayNum<=2节点,将uc和它的子结构存储为临时子树subtree,将subtree加入MST,作为STRoot的子结构,再从MDT中剪除subtree,并将uc从集合U中删除,调用步骤6.3中定义的基于子图同构的匹配方法Match(MST),跳转至步骤6.5;
6.5、根据Match(MST)方法输出的匹配片段从源数据中提取数据,并将数据根据Mapping结构映射到输出的对应类型的图形结构中,从而生成可视化图形。
实例:图2示出了2018世界杯REST API所返回的JSON数据结构图。World Cup inJSON API的供应商为Software For Good,这是一个体育类的API,它的发布主页为http://worldcup.sfg.io,文档主页URL为https://github.com/estiens/world_cup_json。在所示JSON数据结构中展示了2018世界杯第一场比赛信息,fifa_id标注了比赛的ID,weather包含了比赛当天的比赛地区的天气信息,attendance表示该场比赛的观众人数,officials包含了该场比赛的工作人员名单,home_team和away_team介绍了该场比赛两支对阵队伍的信息,home_team_events和away_team_events包含了比赛中对阵双方的判、罚事件,home_team_statistics和away_team_statistics包含了在该场比赛中对阵队伍的比赛数据统计信息。
图3是基于我们的方法步骤二得到的JSON数据转化的树形结构图。图中tree_root为MDT的根节点(TRoot),index_node为索引节点(INode),data_node为数据节点(DNode)。在level为1的根节点TRoot下,level=2的每一个INode都包含了一场比赛的信息,下层的每一个节点代表一个属性和它的值。其中,level=3的home_team_statistics属性,包含了on_target、off_target、blocked、offsides属性,则在home_team_statistics节点下创建level=4的on_target、off_target、blocked、offsides节点作为DNode。在图2的MDT中,TRoot的属性isMark=1,因为2018世界杯的64场比赛信息以数组形式返回;除根节点外,有子节点的节点为索引节点,即JSON数据中,VALUE为ARRAY类型或OBJECT类型的节点均为索引节点;MDT中的叶子节点为数据节点,即JSON数据中,VALUE不为ARRAY类型,也不为OBJECT类型的节点均为数据节点。图2展示的就是2018世界杯JSON数据的树形模型。
图4示出了JSON数据剪枝后的树形结构图。“比赛1”至“比赛64”的信息以数组形式返回,即TRoot的isMark属性值为1。每一场比赛数据中都包含了相同的属性,即每场比赛数据的子结构是一致的,只需保留一场比赛的信息结构,就能知道所有比赛的信息结构,所以保留“比赛1”分支,剪除其余分支信息。在“比赛1”分支下的home_team_event属性中,每一事件都作为一个数组元素,每个事件都包含了id、type_of_event、player、time四个属性,只需保留一个数组元素,就能知道所有事件的信息结构,所以保留第一个事件的分支,剪除其余分支信息。依次对于所有isMark=1的节点都进行如步骤三的剪枝,就能获得化简后的MDT。
使用本方法能够生成2018世界杯数据的多种图形,如第一轮小组赛信息汇总的柱状图:横轴为attempts_on_goal、on_target、off_target、blocked、wookwork、corners、offsides、ball_possession、pass_accuracy、distance_covered、balls_recovered、tackles、clearances、yellow_cards、red_cards、fouls_committed,纵轴为数值,图例为参赛的32个国家的名称,此柱状图可以表现出各个国家队在各个指标中的表现情况,并能明显地对比国家间的水平;也能够生成半决赛信息汇总的饼图:图例为参加半决赛的法国、英格兰、比利时、克罗地亚,其中八张饼图的比较指标为:射门次数、进球数、铲球次数、抢断次数、传球准确率、守门成功次数,每张图中根据国家对应的图例颜色占比的大小,可以了解每支队伍在该方面的表现情况;还能够生成决赛信息汇总的雷达图:极轴为attempts_on_goal、on_target、off_target、blocked、offsides、corners、ball_possession、pass_accuracy、distance_covered、balls_recovered、tackles、clearances、fouls_committed,图例为法国和克罗地亚,此雷达图可以表现出两支队伍在各个指标中的能力分布情况,法国队的守门员在防守上非常出色,克罗地亚队在进攻射门上非常猛烈。
图6示出了基于子图同构的web数据自动可视化系统功能模块图。可视化系统功能模块说明如下:
(1)可视化平台PC端
(1.1)用户端
(1.1.1)WEB服务查看:用户可对平台上现有的所有WEB服务信息进行查看,选择符合需求的服务;
(1.1.2)WEB服务调用:用户根据需求选择服务后,查看供应商提供的使用协议及资费要求,若同意使用规则并支付资费后,页面将显示WEB服务的授权,用户在页面上选择“调用”即可;
(1.1.3)可视化参数设置:用户在页面上设置可视化图形的标题、副标题、文本样式信息,并确认调用;
(1.1.4)可视化结果查看:在可视化结果页面用户可查看调用的服务所生成的所有可视化图像,并提供下载功能;
(1.2)供应商端
(1.2.1)WEB服务列表:供应商可对平台上现有的所有WEB服务信息进行查看,并可以对自己上传的WEB服务进行增删改查;
(1.2.2)WEB服务上传:供应商在页面上填写WEB服务信息、使用协议、调用方法及密钥、授权要求及方法,还有其他备注信息后,可以上传WEB服务,待管理员审核完成后,新上传的服务将发布于用户端;
(1.2.3)WEB服务测试:供应商可对自己上传的通过审核的WEB服务进行在线测试,确定服务的可用性及正确性;
(1.3)管理员端
(1.3.1)WEB服务管理:管理员可对平台上的所有WEB服务信息进行增删改查;对新上传的服务进行服务信息、服务内容及安全性检查,对符合要求与规范条例的服务予以发布;对通过审核的服务进行服务注册,并配置在线调用方法;查看平台上所有的服务使用情况,确保所有服务的正常使用;
(1.3.2)可视化结果管理:管理员可以对平台上所有使用可视化功能使用结果的反馈意见进行管理,及时了解平台性能效果及可视化结果的使用情况;
(1.3.3)用户/供应商管理:对用户及供应商的信息及资质权限进行管理;
(2)可视化服务器
(2.1)WEB服务注册:在服务器上注册WEB服务,存储服务信息;
(2.2)WEB服务监控:监控记录WEB服务的每一次调用信息、使用情况、调用者信息;
(2.3)数据建模:存储自动化调用的WEB服务所返回的JSON数据,并对其
进行数据建模生成MDT;
(2.4)可视化图形建模:对常用可视化图形进行建模,归纳总结各类图形的属性及结构特征;当有新图形纳入可视化结构时,更新可视化模型;
(2.5)自动化匹配:使用基于子图同构的降维匹配算法对数据模型及可视化模型进行自动化匹配,查找匹配数据片段及可生成的可视化图形结构;
(2.6)自动化映射成图:根据匹配的数据片段提取源数据片段并进行数据编排,根据Mapping结构将编排好的数据映射至可视化图形中,返回最终生成的可视化图形信息至前端页面生成图像。

Claims (10)

1.一种基于子图同构的web数据自动可视化方法,其特征在于,所述方法包括以下步骤:
第一步:构建服务数据可视化建模与匹配方法的架构,包括三个模块:数据建模、图形建模和降维匹配;
第二步:定义元数据树MDT,包括根节点TRoot、索引节点INode、数据节点DNode,同时用深度level来表示节点在树结构中的层数,根节点默认为第一层,即level=1;
第三步:读取调用的REST API所返回的JSON数据,将JSON数据集ds作为建模算法的输入,对ds进行树形结构建模;
第四步:由于JSON数据集中存在批量数据,批量数据以相同的数据结构形式存在,在数据集中数组的形式表现;若是用户的对于JSON数据分析的重点不在于数据的定位、查询,而是针对数据结构的分析,在上述JSON数据解析建模的方法基础上,可以通过剪枝的方法,保留数据结构信息,剪除相同的重复数据结构,缩小模型的体量,但仍然保留数据结构,降低JSON数据结构所带来的查询开销;
第五步:对可视化图形进行分类,归纳总结各类图形的属性及结构特征,通过建模创建一种可视模型树VT,来形式化地表述各类图形信息;
第六步:子图同构是一个在查询图中查找查询子图,判断查询图中是否包含了查询子图的问题;先用降维方法对MDT进行降维操作,生成元结构树MST,再将可视模型树VT与MST进行匹配查询,调用基于子图同构的匹配方法查找MST中与VT的各个StructModel匹配的片段,并根据Mapping信息进行数据映射,生成可视化图形。
2.如权利要求1所述的基于子图同构的web数据自动可视化方法,其特征在于,所述第一步的过程如下:
1.1、数据建模:从Internet获取的REST服务经解析器解析后进行注册,存储于缓存cache或数据库Database中,自动调用后所获取的基于JSON的REST服务数据,通过服务数据建模将服务数据转变为标准化模型,并抽取出主要数据结构生成元数据树MDT;
1.2、图形建模:对多种配置型可视化工具所支持的图形进行数据结构分析与归纳,整理出主要图形的通用数据结构及数据映射关系,再根据上述信息进行可视化图形建模,创建描述性可视模型VT;
1.3、降维匹配:调取数据建模所生成的MDT,通过降维算法对其进行结构降维,获得包含源数据基础数据结构的元结构树MST,然后通过VT解析器提取出VT中的图形结构模型,在MST中使用基于子图同构的匹配算法来搜索与图形结构模型匹配的数据结构片段,最后输出源数据可生成的图形种类及MST中的匹配片段;
1.4、图像生成:根据所属1.3输出的图形种类及MST中的匹配片段,将其按照VT解析器提取出的映射关系通过映射处理器来自动化生成可视化图形。
3.如权利要求1或2所述的基于子图同构的web数据自动可视化方法,其特征在于,所述第二步的过程如下:
2.1、根节点:MDT的根节点,即MDT的起始节点;
2.2、索引节点:代表JSON数据中每一个关键字KEY,但不包括JSON数据中最内层的“键-值”对的关键字,索引节点为非根节点、非叶子节点;
2.3、数据节点:代表JSON数据中最内层的“键-值”对,存储为叶子节点;
所述2.1中,所述根节点内包含以下信息:
2.1.1、星标isMark:记录JSON数据中最外层结构是否为数组类型,若是用1标记,若否用0标记;isMark形式化定义表述如(1)(2),isMark的数据类型为数字NUMBER,若JSON数据中“键-值”对中的值VALUE为数组ARRAY,则isMark=1,否则isMark=0;“#”为数据类型定义符,“::=”为赋值符,〖A→condition⊕<B>:<C>〗表示若A符合条件condition,则该式值为B,否则该式值为C;
(1)、“isMark”#<NUMBER>
(2)、“isMark”::=〖“VALUE”→ARRAY⊕<1>:<0>〗
2.1.2、元素数量arrayNum:若当前节点的isMark为1,则记录数组元素个数,若当前节点的isMark为0,则用0标记;arrayNum形式化定义表述如(3)(4),arrayNum属性值为数字NUMBER类型,若JSON数据中“键-值”对中的值VALUE为ARRAY,则arrayNum等于VALUE数组的长度,否则arrayNum=0;
(3)、“arrayNum”#<NUMBER>
(4)、“arrayNum”::=〖“VALUE”→ARRAY⊕<ARRAY.length>:<0>〗
所述2.2中,所述索引节点内包含以下信息:
2.2.1、节点名称name:name的数据类型为字符串STRING,name属性值为JSON数据中“键-值”对中的关键字KEY;name形式化定义表述如(5)(6);
(5)、“name”#<STRING>
(6)、“name”::=<KEY>
2.2.2、节点值类型vType:vType是JSON数据中“键-值”对中的值VALUE的数据类型,属性值为对象OBJECT、数组ARRAY、字符串STRING、数字NUMBER、TRUE、FALSE之一;vType形式化定义表述如(7);
(7)、“vType”::=[OBJECT|ARRAY|STRING|NUMBER|TRUE|FALSE]
2.2.3、星标isMark:记录JSON数据中,以当前节点名称name作为关键字的“键-值”对中的值VALUE是否为数组类型,若是用1标记,若否用0标记;isMark形式化定义表述同步骤2.1.1中的(1)(2);
2.2.4、元素数量arrayNum:若当前节点的isMark为1,则记录“键-值”对中的值VALUE的数组元素个数,若当前节点的isMark为0,则用0标记;arrayNum形式化定义表述同步骤2.1.2中的(3)(4);
所述2.3中,所述数据节点内包含以下信息:
2.3.1、节点名称name:保存JSON数据中“键-值”对中的关键字KEY,数据类型为字符串STRING;name形式化定义表述同步骤2.2.1中的(5)(6);
2.3.2、节点值nValue:nValue的数据类型为STRING,属性值为JSON数据中“键-值”对中的值VALUE;nValue形式化定义表述如(8)(9);
(8)、“nValue”#<STRING>
(9)、“nValue”::=<VALUE>
2.3.3、节点类型type:保存JSON数据中“键-值”对中的值VALUE的数据类型,为“str”、“num”或NULL,其中“str”代表type的数据类型为STRING,“num”代表type的数据类型为NUMBER,NULL表示type的属性值为空;type形式化定义表述如(10);
(10)、“type”::=[“str”|“num”|NULL]。
4.如权利要求1或2所述的基于子图同构的web数据自动可视化方法,其特征在于,所述第三步的步骤如下:
3.1、创建一棵根节点为TRoot的MDT,TRoot是起始节点,根节点的深度level默认为1;
3.2、读取JSON数据集ds,如果是首次读取ds,设置ds的第一个元素为当前元素,元素包括关键字KEY及其值VALUE;否则设置ds的下一个元素为当前元素;若JSON数据最外层就是ARRAY,则TRoot的isMark=1,元素数量arrayNum为ARRAY元素个数。
5.如权利要求4所述的基于子图同构的web数据自动可视化方法,其特征在于,所述步骤3.2的过程如下:
3.2.1、若VALUE的数据类型非OBJECT,同时非ARRAY,创建深度为level+1的数据节点,节点名称name为关键字KEY,节点值nValue为值VALUE,节点类型type为值VALUE的数据类型;完成后跳转至步骤3.2;
3.2.2、若VALUE的数据类型为ARRAY,创建深度level’=level+1的索引节点,节点名称name为关键字KEY,节点值类型vType为ARRAY,isMark=1,元素数量arrayNum为当前VALUE数组中的元素个数;
3.2.2.1、若所述3.2.2中的VALUE数组的元素不是OBJECT类型,则创建level”=level’+1的数据节点,节点名称name为关键字KEY,节点值nValue为值VALUE,节点类型type为值VALUE的数据类型;完成后跳转至步骤3.2;
3.2.2.2、若所述3.2.2中的VALUE数组的元素是OBJECT类型,则创建level”=level’+1的索引节点,节点名称(name)为每个OBJECT元素中的关键字KEY,节点值类型vType为每个OBJECT元素中的值VALUE的数据类型;若当前vType为ARRAY,则isMark=1,元素数量arrayNum为当前VALUE数组中的元素个数;若当前vType不为ARRAY,则isMark=0,arrayNum=0;
3.2.2.3、将步骤3.2.2.2中VALUE数组作为新的JSON数据集ds’,跳转至步骤3.2;
3.2.3、若VALUE的数据类型为OBJECT,创建深度level’=level+1的索引节点,节点名称name为每个OBJECT元素中的关键字KEY,节点值类型vType为每个OBJECT元素中的值VALUE的数据类型;若当前vType为ARRAY,则isMark=1,元素数量arrayNum为当前VALUE数组中的元素个数;若当前vType不为ARRAY,则isMark=0,arrayNum=0;
3.2.4、将步骤3.2.3中VALUE数组作为新的JSON数据集ds’,跳转至步骤3.2。
6.如权利要求1或2所述的基于子图同构的web数据自动可视化方法,其特征在于,所述第四步的步骤如下:
4.1、从level=1的TRoot开始,按广度优先策略,按层遍历MDT的根节点与索引节点;广度优先策略将按level逐层遍历MDT,从level=1的第一层开始遍历,当level层的节点遍历完成后,再继续遍历level+1层的节点;
4.2、将MDT的TRoot存入遍历队列;
4.3、按遍历队列顺序,读取每个节点的isMark属性;过程如下:
4.3.1、若遍历到的节点的isMark属性值为1,则保留当前节点的第一个子节点,剪除其余的子节点及其子节点的子树结构,跳转至步骤4.3.4;
4.3.2、若遍历到的节点的isMark属性值为0,则不进行任何操作,跳转至步骤4.3.4;
4.3.3、若遍历到的节点为数据节点,将当前节点从遍历队列中删除,跳转至步骤4.3;
4.3.4、将当前遍历到的节点的子节点加入遍历队列,并将当前节点从遍历队列中删除,再跳转至步骤4.3;
4.4、当遍历队列中全部为数据节点时或遍历队列为空时,停止遍历,结束方法;
4.5、输出剪枝后的MDT。
7.如权利要求1或2所述的基于子图同构的web数据自动可视化方法,其特征在于,所述第五步的过程如下:
5.1、定义VT包括基础属性BASICATTRIBUTE和可视结构DVSCHEMA两个部分,形式化定义如(11),其中BASICATTRIBUTE保存了图形标题和副标题;
(11)、VisualModel::=<BASICATTRIBUTE><DVSCHEMA>
5.2、BASICATTRIBUTE包括三个属性:标题title、子标题subtitle、属性attributes,形式化定义如(12),title用于保存最终生成的可视化图形的标题,subtitle用于保存最终生成的可视化图形的子标题,attributes用于保存最终生成的可视化图形的位置、颜色组合、字体、字号设置参数;
(12)、BASICATTRIBUTE::=<title><subtitle><attributes>
5.3、BASICATTRIBUTE根据图形所需的数据类型、图形数据结构、图形维度将常见的可视化图形归纳为四种基础类别:一般图形General、拓扑图Topology、地图Map、文本图形Text,形式化定义如(13);
(13)、DVSCHEMA::=<General><Topology><Map><Text>
5.4、步骤5.3中的四种基础类别下属均分别包含两个属性:图形类型VType和图形结构StructModel,VType保存了该类别所属图形种类,StructModel保存了该类别所属图形的可视化结构,形式化定义如(14),“A::B”表示“A包含了属性B”;
(14)、DVSCHEMA::=<General><Topology><Map><Text>::<VType><StructModel>
所述5.4中,四种基础类别的VType属性的所属图形如下:
5.4.1、General包括柱状图BarChart、折线图LineChart、饼图PieChart、雷达图RadarChart、散点图ScatterChart;
5.4.2、Topology包括网络图NetworkChart、树图TreeMap、面积树图TreeMapChart;
5.4.3、Map包括地区地图AreaMapChart、国家地图CountryMapChart、世界地图WorldMapChart;
5.4.4、Text包括词云WorldCloudChart;
5.5、步骤5.4中四种基础类别均有各自的映射关系Mapping,描述了各类图形的数据结构、数据维度、图形结构关系、数据映射位置信息;根据Mapping信息并结合图形的数据结构,可以抽象出各类图形的可视化结构StructModel,步骤三中所生成的MDT将与StructModel进行匹配,来判断REST API的返回数据能够生成何种可视化图形。
8.如权利要求7所述的基于子图同构的web数据自动可视化方法,其特征在于,所述步骤5.5的过程如下:
5.5.1、General类型中的图形通常用于表示二维数据或三维数据,可用二元组(XAxis,YAxis)或三元组(XAxis,YAxis,ZAxis)来表示信息,此类图形的Mapping结构如(15),其中LegendName表示图例名称,以ARRAY类型来存储各分组信息;根据Mapping结构可抽象出基础StructModel的结构如(16),StructModel的子节点为临时根节点Root,Root包含两个子节点:键值对K_V与图例节点LegendNode;
(15)、Mapping::=<XAxis,YAxis,[ZAxis]><LegendName>
(16)、StructModel::=<Root::<K_V><LegendNode>>
5.5.2、Topology类型中的图形通常用于表示拓扑关系数据,树图与面积树图可用嵌套的键值对{key:value,children:{key:value}}来表示属性结构,Mapping结构如(17);网络图可用节点集合Nodes和边集合Links来表示图结构,Mapping结构如(18),其中source表示一条边link的起始节点,target表示该条边link的指向节点;根据Mapping结构可抽象出基础StructModel的结构如(19),StructModel有两个子结构,Root1和Root2分别为两个子结构的临时根节点,Root1包含两个子节点:键值对K_V和孩子节点children,children的子结构为键值对K_V;Root2包含两个子节点:节点集合Nodes和边集合Links,节点集合的子节点为关键字key和值value,其中value为空,边集合的子节点为起点source和目标target;
(17)、Mapping::=<K_V><children::<K_V>>
(18)、Mapping::=<Nodes::<key,[value]><Links::<source><target>>
(19)、StructModel::=<Root1::<K_V><children::<K_V>>><Root2::<Nodes::<key,[value]>,<Links::<source><target>>>
5.5.3、Map类型中的图形用于表示地图信息,用键值对数组[{PlaceName:value}]或三元组数组[{lng,lat,value}]来表示地图信息,此类图形的Mapping结构如(20),其中PlaceName表示地名,lng表示纬度,lat表示经度;根据Mapping结构可抽象出基础StructModel的结构如(21),StructModel有两个子结构,Root1和Root2分别为两个子结构的临时根节点,Root1包含子子节点键值对K_V;Root2包含了三个子节点:经度lat,纬度lng,数值value;
(20)、Mapping::=<Data1::<PlaceName><value>><Data2::<lng><lat><value>>
(21)、StructModel::=<Root1::<K_V>>,<Root2::<lng>,<lat>,<value>>
5.5.4、Text类型中的图形常用二元组(Keyword,frequency)来表示关键字频率,此类图形的Mapping结构如(22),其中Keyword为文本中提取出的词汇,frequency表示该词汇在文本中的出现频率;根据Mapping结构可抽象出基础StructModel的结构如(23),StructModel的子节点为临时根节点Root,Root包含了键值对K_V;
(22)、Mapping::=<Keyword><frequency>
(23)、StructModel::=<Root::<K_V>>。
9.如权利要求1或2所述的基于子图同构的web数据自动可视化方法,其特征在于,所述第六步的过程如下:
6.1、定义元结构树MST,包括子树根节点STRoot、子结构Substruct,形式化定义如(24),MST用于保存降维后的MDT;其中子结构Substruct由引导节点GNode和数据节点LNode两部分构成,形式化定义如(25);根节点STRoot内包含的信息同2.1.1至2.1.2;引导节点GNode内包含的信息同2.2.1至2.2.4;叶子节点LNode内包含的信息同2.3.1至2.3.3;同时用深度(level)来表示节点在树结构中的层数,STRoot默认为第一层,即level=1;
(24)、MST::=<subtree_root><Substruct>
(25)、Substruct::=<guide_node><leaf_node>
6.2、解析VT中四种基础类别的StructModel,提取每种StructModel中的临时根节点及其子结构,每一个临时根节点及其子结构构成的树结构片段将作为查询子图,根据步骤5.5.1至5.5.4可以提取出六个查询子图:General类型的StructModel的下属Root为起点的子结构,Topology类型的StructModel的下属分别以Root1和Root2为起点的两个子结构,Map类型的StructModel的下属分别以Root1和Root2为起点的两个子结构,Text类型的StructModel的下属Root为起点的子结构;
6.3、定义基于子图同构的匹配方法Match(MST),以MST作为输入,将步骤6.2中的六个查询子图用StructModelk表示,与每个StructModelk同属于一个大类,即General、Topology、Map、Text之一的VType用VTypek表示;
6.4、基于子图同构的降维匹配算法通过对MDT进行降维操作生成MST后,调用步骤6.3中定义的基于子图同构的匹配方法Match(MST)进行自动化匹配,将MDT作为输入,最后输出源数据可生成的图形种类及MST中的匹配片段;
6.5、根据Match(MST)方法输出的匹配片段从源数据中提取数据,并将数据根据Mapping结构映射到输出的对应类型的图形结构中,从而生成可视化图形。
10.如权利要求9所述的基于子图同构的web数据自动可视化方法,其特征在于,所述步骤6.3的过程如下:
6.3.1、按照广度优先策略,按层遍历MST,将MST的节点从STRoot开始,按层数从小到大的顺序,将STRoot和所有GNode存入遍历队列Q;
6.3.2、设置节点s为StructModelk的根节点;
6.3.3、按遍历队列Q的顺序,将当前Q中遍历到的节点xi与节点s进行比较,判断xi与s的isMark属性值是否相等;
6.3.3.1、若xi与s的isMark属性值相等,将xi加入集合P,设置i=i+1,跳转至步骤6.3.3;
6.3.3.2、若xi与s的isMark属性值不相等,设置i=i+1,跳转至步骤6.3.3;
6.3.4、当Q遍历完成后,遍历集合P中的节点pj,判断pj与s的父子节点关系是否一致;
6.3.4.1、若pj与s的父子节点关系不一致,设置j=j+1,跳转至步骤6.3.4;
6.3.4.2、若pj与s的父子节点关系一致,将pi加入集合M,跳转至步骤6.3.5;
6.3.5、判断集合M与StructModelk的结构是否一致;
6.3.5.1、若M与StructModelk的结构一致,输出集合M和StructModelk对应的VTypek;清空集合P,设置k=k+1,设置xi为Q的第一个节点,跳转至步骤6.3.2;
6.3.5.2、若M与StructModelk的结构不一致,将s设置为它在StructModelk中的下一个节点,清空集合P,设置k=k+1,设置xi为Q的第一个节点,跳转至步骤6.3.3;
6.3.6、当六个查询子图均完成查询后,结束方法Match(MST),输出源数据可生成的图形种类VTypek及MST中匹配片段的集合M;
所述步骤6.4的过程如下:
6.4.1、按照广度优先策略,按层遍历MDT,将MDT的节点从TRoot开始,按层数从小到大的顺序,将TRoot和所有INode存入遍历队列L;
6.4.2、按遍历队列L的顺序,对当前遍历到的节点ma的isMark属性和m的子节点的type属性进行判断,是否符合isMark=1且type=”num”;
6.4.2.1、若isMark=1且type=”num”,将ma加入集合S,设置a=a+1,跳转至步骤6.4.2;
6.4.2.2、若不符合isMark=1且type=”num”,设置a=a+1,跳转至步骤6.4.2;
6.4.3、当L遍历完成后,按集合S中节点加入顺序的逆序来遍历集合S,当前遍历到的节点用nb表示;
6.4.4、如果在S中没有其他节点与nb有相同的父节点,将nb和它的子结构存储为临时子树subtree,将subtree加入MST,作为STRoot的子结构,再从MDT中剪除subtree,并将nb从集合S中删除,调用步骤6.3中定义的基于子图同构的匹配方法Match(MST),跳转至步骤6.5;
6.4.5、如果在S中存在其他节点与nb有相同的父节点,将nb加入集合U;
6.4.6、按顺序遍历集合U,对遍历到的节点uc的arrayNum属性值进行判断;
6.4.6.1、若arrayNum>2,将uc和它的子结构存储为临时子树subtree,将subtree加入MST,作为STRoot的子结构,再从MDT中剪除subtree,并将uc从集合U中删除,调用步骤6.3中定义的基于子图同构的匹配方法Match(MST),跳转至步骤6.5;
6.4.6.2、若arrayNum<=2,在U中查找出其他的arrayNum<=2节点d,将uc的父节点、uc、d、uc的子节点、d的子节点存储为总层数为3的临时子树subtree,若subtree与Topology类中StructModel的两个子结构之一结构相同,则将该subtree存入MST,以uc的父节点为STRoot,再从MDT中剪除subtree,并将nb和d从集合U与S中删除,调用步骤6.3中定义的基于子图同构的匹配方法Match(MST),跳转至步骤6.5;
6.4.6.3、若arrayNum<=2,在U中没有其他的arrayNum<=2节点,将uc和它的子结构存储为临时子树subtree,将subtree加入MST,作为STRoot的子结构,再从MDT中剪除subtree,并将uc从集合U中删除,调用步骤6.3中定义的基于子图同构的匹配方法Match(MST),跳转至步骤6.5。
CN201910201466.0A 2019-03-18 2019-03-18 基于子图同构的web数据自动可视化方法 Active CN110059073B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910201466.0A CN110059073B (zh) 2019-03-18 2019-03-18 基于子图同构的web数据自动可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910201466.0A CN110059073B (zh) 2019-03-18 2019-03-18 基于子图同构的web数据自动可视化方法

Publications (2)

Publication Number Publication Date
CN110059073A CN110059073A (zh) 2019-07-26
CN110059073B true CN110059073B (zh) 2021-04-06

Family

ID=67316166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910201466.0A Active CN110059073B (zh) 2019-03-18 2019-03-18 基于子图同构的web数据自动可视化方法

Country Status (1)

Country Link
CN (1) CN110059073B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825738B (zh) * 2019-10-22 2023-04-25 天津大学 一种基于分布式rdf的数据存储、查询方法及装置
CN110851926B (zh) * 2019-10-31 2023-09-01 武汉科技大学 一种基于遍历环路的行星轮系同构判定方法、系统和介质
CN110826214B (zh) * 2019-10-31 2023-08-11 武汉科技大学 一种基于素数分层的行星轮系同构判定方法、系统和介质
CN111031095B (zh) * 2019-11-11 2023-05-30 南京理工大学 基于代数规约的Web服务测试执行方法
CN111190900B (zh) * 2019-12-10 2022-06-10 优网云计算有限公司 一种云计算模式下json数据可视化优化方法
CN113064911B (zh) * 2020-01-02 2024-04-19 北京中关村科金技术有限公司 查询方法、装置以及存储介质
CN111552840A (zh) * 2020-05-06 2020-08-18 山东汇贸电子口岸有限公司 一种json数据转成树形层级数据的方法
CN114063868A (zh) * 2021-11-18 2022-02-18 神州数码系统集成服务有限公司 一种ai拖拽建模系统、方法、计算机设备及应用

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446143A (zh) * 2016-09-21 2017-02-22 四川长虹电器股份有限公司 基于图结构匹配的智能推荐系统及方法
CN107153606A (zh) * 2016-03-04 2017-09-12 郭德贵 一种程序分析过程可视化方法及系统
CN107610221A (zh) * 2017-09-11 2018-01-19 南京大学 一种基于同构模型表示的三维模型生成方法
CN108701257A (zh) * 2016-08-22 2018-10-23 甲骨文国际公司 用于实时可视模拟内的动态、增量推荐的系统和方法
CN108710625A (zh) * 2018-03-16 2018-10-26 电子科技大学成都研究院 一种专题知识自动挖掘系统及方法
CN109325203A (zh) * 2018-09-10 2019-02-12 北京亚鸿世纪科技发展有限公司 一种自动化实现Web系统可视化复用的装置
CN109474607A (zh) * 2018-12-06 2019-03-15 连云港杰瑞深软科技有限公司 一种工业控制网络安全保护监测系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018125939A1 (en) * 2016-12-30 2018-07-05 DeepMap Inc. Visual odometry and pairwise alignment for high definition map creation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153606A (zh) * 2016-03-04 2017-09-12 郭德贵 一种程序分析过程可视化方法及系统
CN108701257A (zh) * 2016-08-22 2018-10-23 甲骨文国际公司 用于实时可视模拟内的动态、增量推荐的系统和方法
CN106446143A (zh) * 2016-09-21 2017-02-22 四川长虹电器股份有限公司 基于图结构匹配的智能推荐系统及方法
CN107610221A (zh) * 2017-09-11 2018-01-19 南京大学 一种基于同构模型表示的三维模型生成方法
CN108710625A (zh) * 2018-03-16 2018-10-26 电子科技大学成都研究院 一种专题知识自动挖掘系统及方法
CN109325203A (zh) * 2018-09-10 2019-02-12 北京亚鸿世纪科技发展有限公司 一种自动化实现Web系统可视化复用的装置
CN109474607A (zh) * 2018-12-06 2019-03-15 连云港杰瑞深软科技有限公司 一种工业控制网络安全保护监测系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
一种基于JSON的异构数据查询方法;倪睿熙;《无线电通信技术》;20130218(第02期);73-76 *
一种轻量级企业应用Web2.0开发框架-ehive_ExtJs_Json;来天平等;《实验技术与管理》;20110420;第28卷(第4期);296-298,310 *
基于WebGIS的自动站数据可视化综合应用系统;季刚等;《自动化技术与应用》;20190125;第38卷(第1期);160-164,168 *
基于全局依赖网的Web服务组合自动演化方法研究;张元鸣等;《电子学报》;20170215;第45卷(第2期);267-277 *
网络安全数据可视化与自动告警系统研究;胡亮青;《大众科技》;20170420;第19卷(第212期);5-7 *

Also Published As

Publication number Publication date
CN110059073A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN110059073B (zh) 基于子图同构的web数据自动可视化方法
Liu et al. A survey of scholarly data visualization
US7941420B2 (en) Method for organizing structurally similar web pages from a web site
US10726052B2 (en) Path generation and selection tool for database objects
US10235421B2 (en) Systems and methods for facilitating the gathering of open source intelligence
CN105912666B (zh) 一种面向云平台的混合结构数据高性能存储、查询方法
Poisot et al. mangal–making ecological network analysis simple
JP3842577B2 (ja) 構造化文書検索方法および構造化文書検索装置およびプログラム
CN110162593A (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN110059085B (zh) 一种面向Web 2.0的JSON数据解析与建模方法
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
CN111708774B (zh) 一种基于大数据的产业分析系统
US11170306B2 (en) Rich entities for knowledge bases
CN110909364B (zh) 面向源代码双极性软件安全漏洞图谱构建方法
US11263187B2 (en) Schema alignment and structural data mapping of database objects
CN103678436B (zh) 信息处理系统和信息处理方法
CN105260300B (zh) 基于会计准则通用分类标准应用平台的业务测试方法
CN111192176A (zh) 一种支持教育信息化评估的在线数据采集方法及装置
CN109902434B (zh) 云计算环境下面向rest架构风格的服务数据可视化建模与匹配方法
US10901987B2 (en) Dynamic automatic generation of database views
US11144549B2 (en) Dynamic generation of join statements for database operations
CN103294791A (zh) 一种可扩展标记语言模式匹配方法
CN102460440B (zh) 搜索方法和设备
CN109857952A (zh) 一种具有分类显示的搜索引擎及快速检索方法
JP3914081B2 (ja) アクセス権限設定方法および構造化文書管理システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant