CN107169119A - 基于数据结构识别的自动化可视化呈现方法与系统 - Google Patents

基于数据结构识别的自动化可视化呈现方法与系统 Download PDF

Info

Publication number
CN107169119A
CN107169119A CN201710383104.9A CN201710383104A CN107169119A CN 107169119 A CN107169119 A CN 107169119A CN 201710383104 A CN201710383104 A CN 201710383104A CN 107169119 A CN107169119 A CN 107169119A
Authority
CN
China
Prior art keywords
data structure
chart
mrow
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710383104.9A
Other languages
English (en)
Inventor
何毅荣
陈成
郑建全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nine Fangda Data Information Group Co Ltd
Original Assignee
Nine Fangda Data Information Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nine Fangda Data Information Group Co Ltd filed Critical Nine Fangda Data Information Group Co Ltd
Priority to CN201710383104.9A priority Critical patent/CN107169119A/zh
Publication of CN107169119A publication Critical patent/CN107169119A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于数据结构识别的自动化可视化呈现方法,包括如下步骤:接收数据输入,通过数据结构描述规则生成输入数据的数据结构描述信息;根据该数据结构描述信息,提取数据的结构特征向量信息;对提取的数据结构特征向量信息进行识别,并以此得出与该特性向量匹配的图表配置;根据图表配置信息生成多图表布局并得出可视化图形。另一方面本发明还提供了实现该方法的呈现系统,无需用户预先依据经验选择数据的可视化表现形式,从分析结果的数据结构入手,通过对数据结构中各个维度的类型、内容等信息进行识别匹配,自动对图表进行合理化配置,自动规划布局,解决传统的分析结果可视化呈现方法中存在的易用性问题。

Description

基于数据结构识别的自动化可视化呈现方法与系统
技术领域
本发明涉及海量数据分析工具技术领域,具体为一种基于数据结构识别的自动化可视化呈现方法,以及基于数据结构识别的自动化可视化呈现系统。
背景技术
随着全球信息化过程的逐渐完善,以及计算资源的日益廉价,社会各界越发关注海量数据的内在联系和数据分析挖掘技术的巨大应用前景,市场中涌现了大量的商业智能系统,其中的优秀产品提供了强大的数据存储、数据处理、建模分析与丰富的可视化呈现能力,极大地降低了普通用户发掘自身数据资源价值的门槛。
然而对于最终用户而言,其更关注于使用预定义的分析场景得出结论以辅助决策,而非深入学习底层复杂的数据分析模型结构和系统的运作机制;同时视觉又占据人类获取信息途经的绝对首位,因此一套良好的分析结果呈现界面是所有商业智能产品所必备的组成部分,甚至其设计的好坏是整个系统成败的关键。
当前市面上的商业智能系统均提供了允许用户自定义布局与内容的可视化呈现界面,但均需用户自行配置,一般采用如下的两种方式:
1、由用户选择图表类型(饼图、柱图)以及样式,并选择该图表所使用分析结果中的字段信息(如图1-1所示);
2、提供多个计算维度,允许用户向XY两个呈现维度任意放置数据维度,并选取相应的测量指标,依据固定规则生成图表(如图1-2所示);
前者对用户的专业性要求很高,仅适合专业人员,不便于普通用户使用,后者虽针对用户选择的不同观测维度实现了一定的自动化可视化能力,但依赖固定的模式,仍需要用户手动选择布局形式,且生成的可视化呈现单一,冗长,不具备基本的联想功能,同样需要用户具备一定的可视化图形经验。
有鉴于此,特提出本发明。
发明内容
本发明要解决的技术问题在于克服现有技术的不足,提供一种基于数据结构识别的自动化可视化呈现方法,通过分析处理数据结构,自动匹配合理的图表配置,降低操作难度,保证准确性;另一方面本发明还提供了基于数据结构识别的自动化可视化呈现系统。
为解决上述技术问题,本发明采用技术方案的基本构思是:
一种基于数据结构识别的自动化可视化呈现方法,包括如下步骤:
接收数据输入,通过数据结构描述规则生成输入数据的数据结构描述信息;
根据该数据结构描述信息,提取数据的结构特征向量信息;
对提取的数据结构特征向量信息进行识别,并以此得出与该特性向量匹配的图表配置;
根据图表配置信息生成多图表布局并得出可视化图形。
进一步的,上述基于数据结构识别的自动化可视化呈现方法中,还包括
将数据结构特征向量以及与之匹配的多种图表配置存储起来形成图表配置与数据结构模型库;
根据提取的数据结构特征向量信息在模型库中识别出与之相似的结构特征向量,基于识别得到的存储在模型库中的结构特征向量检索得到与该特性向量匹配度大于阈值的图表配置信息。
进一步的,上述基于数据结构识别的自动化可视化呈现方法中,所述数据结构描述规则包括:对数据中的列信息进行如下定义:
(1)列号,定义当前列在数据所有列中的序号;
(2)列名,定义当前列的原始名称;
(3)列类型,定义当前列的数据类型;
(4)列格式,定义当前列的数据格式;
(5)列权重,定义当前列在数据所有列中的权重;
对数据中的行信息进行如下定义:
(6)行号,定义当前行在数据所有行中的序号。
进一步的,上述基于数据结构识别的自动化可视化呈现方法中,所述根据该数据结构描述信息,提取数据的结构特征向量信息包括:
以数据结构描述信息中的列信息为参数,通过映射函数转换为多维特征向量输出。
进一步的,上述基于数据结构识别的自动化可视化呈现方法中,所述映射函数表示为:
f(x)=(x[0],x[1],...,x[n]);
以数据结构描述信息x中的列类型、列格式与列权重作为该映射函数的参数,通过针对不同列类型和列格式计算离散值,将数据结构描述信息映射为n维离散向量,列权重可用于进行加权干预与调整。
进一步的,上述基于数据结构识别的自动化可视化呈现方法中,所述根据提取的数据结构特征向量信息在模型库中识别出与之相似的结构特征向量包括:
通过数据结构特征相似度识别函数f(x1,x2),计算输入的两个结构特征向量的相似度并返回;其中输入参数x1、x2分别为提取的数据结构特征向量和数据库中的结构特性向量;该识别函数f(x1,x2)如下所示:
f(x1,x2)=d12*cos(θ)
其中,d12为x1、x2之间的距离,n为向量维度,k为参数序号;
d12值越小,两个结构特征向量越相似。
进一步的,上述基于数据结构识别的自动化可视化呈现方法中,所述基于识别得到的存储在模型库中的结构特征向量检索得到与该特性向量匹配度大于阈值的图表配置信息包括:
通过图表配置推荐函数f(x,φ)在模型库中查找与指定结构特征向量相似度高于指定阈值的所有特征向量;φ作为相似度阈值,x为输入的数据结构特征向量,具体查找步骤为:遍历模型库中的所有的数据结构特征向量x’,调用所述结构特征相似度识别函数计算x与x’的相似度,如果相似度超过阈值φ,则x’作为候选,直至遍历结束;将所有候选x’依据其与x的相似度进行倒序排序,选择相似度最大的x’所对应的图表配置作为最终的推荐结果。
进一步的,上述基于数据结构识别的自动化可视化呈现方法中,所述根据图表配置信息生成多图表布局包括:
预设图像矩形定义以及空间切分与布局算法,根据得到的图表配置信息,将配置的图表生成多图表布局。
进一步的,上述基于数据结构识别的自动化可视化呈现方法中,图像矩形定义规则如下:
(1)图像的序号,以标记图表的次序;
(2)图像最小宽度,以标记图表在布局中的最小宽度;
(3)图像常规宽度,以标记图表在布局中的常规宽度;
(4)图像最小高度,以标记图表在布局中的最小高度;
(5)图像常规高度,以标记图表在布局中的常规高度;
(6)图像最小宽高比,以标记图表在布局中的最小宽高比;
(7)图像最大宽高比,以标记图表在布局中的最大宽高比;
(8)图像常规宽高比,以标记图表在布局中的常规宽高比;
(9)图像相关性系数,以标记图表间的相关性系数。
进一步的,上述基于数据结构识别的自动化可视化呈现方法中,所述空间切分与布局算法通过函数f(x0,x1,...,xn),接受一个或多个图像矩形定义集合同时输入,并依据所输入的所有图像矩形定义集合对全体图表进行重新排布,具体包括:
将宽W高H的图形空间在水平方向与垂直方向上划分为n和m等份,即形成nxm个宽为w=W/n、高为h=H/m的子空间;每个子空间依据行列序号进行编码,其中行序号记作i,取值从1至m,列序号记作j,取值从1至n,任意子空间可记作P(i,j);设置行游标ix与列游标jx,依次遍历图像矩形定义集合,并取出元素,通过图像矩形定义的宽和高判定图表应占用的连续子空间规模,并以此来移动行列游标,计算出合适的行列游标,以及待占用的子空间,并将所占用的子空间均标记为已占用,继续下一个元素重复过程,直到遍历完成,对全体图表进行排布,生成多图表布局。
第二方面,本发明提供了一种基于数据结构识别的自动化可视化呈现系统,包括:
结构信息描述生成模块:被配置为接收数据输入,通过数据结构描述规则生成输入数据的数据结构描述信息;
数据结构特征提取模块:被配置为根据数据结构描述信息,提取数据的结构特征向量信息;
数据结构特征相似度识别与推荐模块:被配置为对提取的数据结构特征向量信息进行识别,并以此得出与该特性向量匹配度大于阈值的图表配置;
自动化布局模块:被配置为将得出的图表配置信息生成多图表布局;
图表呈现模块:被配置为对所述多图表布局进行可视化呈现。
进一步的,上述基于数据结构识别的自动化可视化呈现系统还包括
图表配置与数据结构模型库:被配置为存储数据结构特征向量以及与之匹配的多种图表配置;所述数据结构特征相似度识别与推荐模块根据提取的数据结构特征向量信息在模型库中识别出与之相似的结构特征向量,基于识别得到的存储在模型库中的结构特征向量检索得到与该特性向量匹配度大于阈值的图表配置信息
采用上述技术方案后,本发明与现有技术相比具有以下有益效果:
一方面,本发明基于数据结构识别的自动化可视化呈现方法步骤简单,通过采用数据结构识别技术实现自动化的数据可视化呈现,避免了传统系统中较高专业性知识要求与复杂配置对用户所造成的使用问题,在数据分析产品中应用,可极大地降低用户操作难度,提高数据图表使用的准确性、合理性与有效性;
另一方面,本发明基于数据结构识别的自动化可视化呈现系统架构合理,各模块分工明确,无需用户预先依据经验选择数据的可视化表现形式,从分析结果的数据结构入手,通过对数据结构中各个维度的类型、内容等信息进行识别,在检索库中寻找模式匹配度较高的表现形式,自动对图表进行合理化配置,并在多个图表的场合依据易读、美观、实用等原则自动规划布局,解决传统的分析结果可视化呈现方法中存在的易用性问题。
附图说明
图1-1是现有技术中需要用户选择图表类型的图表配置方式示意图;
图1-2是现有技术中允许用户向XY两个维度放置数据的图表配置方式示意图;
图2是本发明一种基于数据结构识别的自动化可视化呈现方法中图表配置与数据结构构建成的稀疏矩阵图;
图3是本发明一种基于数据结构识别的自动化可视化呈现系统的结构框图;
图4是图3中所示各模块的配合示意图;
具体实施方式
下面结合附图和具体实施例,对本发明作进一步说明,以助于理解本发明的内容。
第一方面,本发明提供了一种基于数据结构识别的自动化可视化呈现方法,包括如下步骤:
接收数据输入,通过数据结构描述规则生成输入数据的数据结构描述信息;
根据该数据结构描述信息,提取数据的结构特征向量信息;
对提取的数据结构特征向量信息进行识别,并检索出与该特性向量匹配度大于阈值的图表配置;
根据所述图表配置信息生成多图表布局并得出可视化图形。
具体的,上述步骤实施中:
S1.首先将接收的输入数据,按照预定义的数据结构描述规则进行处理,生成形式统一的数据结构描述信息以便于后续流程中进行数据结构特征提取操作和相应处理。本发明中该数据结构描述规则作为描述输入数据本身信息内容的标准规则,基于XML(Extensible Markup Language,可扩展标记语言)格式进行扩展,所有的输入数据均抽象为行列形式,其中针对数据中的列信息进行如下内容的定义:
(1)列号,定义当前列在数据所有列中的序号;
(2)列名,定义当前列的原始名称;
(3)列类型,定义当前列的数据类型,如时间、字符串、整型、浮点型、结构体等;
(4)列格式,定义当前列的数据格式,如针对时间的格式有yyyy-MM-dd等;
(5)列权重,定义当前列在数据所有列中的权重。
针对数据中的行信息进行如下内容的定义:
(6)行号,定义当前行在数据所有行中的序号。
故基于输入数据本身内容,通过上述定义将数据转换为抽象的行列形式,可详细描述任意输入数据的结构描述信息。
S2.依据生成的数据结构描述信息,来提取数据结构特征向量信息;数据结构特征向量信息是指数据结构辨识信息,特征指数据的数据类型与结构描述信息,由设定的映射函数将数据特征转换为多维特征向量;数据结构特征向量信息也是后续图表配置推荐的基础。
在提取数据结构特征向量信息时,主要基于数据结构描述信息中的列信息,本发明实施例中,设定一套映射函数f(x),将输入数据的结构描述信息x中的列信息映射为n维离散向量,其中n等于数据中列信息的总和,将此n维离散向量作为输入数据结构的特征向量,可为后续流程提供识别基础。该映射函数f(x)如下所示:
f(x)=(x[0],x[1],...,x[n]);
在该函数f(x)的内部以列类型、列格式与列权重作为映射函数的参数,通过针对不同列类型和列格式计算离散值,可将数据映射为n维离散向量,同时列权重可用于针对特殊数据结构作加权干预与调整。
S3.将数据结构特征向量以及与之匹配的多种图表配置存储起来形成图表配置与数据结构模型库,根据提取的数据结构特征向量信息在模型库中识别出与之相似的结构特征向量,基于识别得到的存储在模型库中的结构特征向量检索,得到与该特性向量匹配度大于阈值的图表配置信息。
将常见的数据结构特征向量以及与其匹配的多种图表配置,其中包括二者之间的映射关系,存储起来形成模型库,为后续流程中相似度匹配提供特征样本,供识别参考。所述图表配置包括图表类型以及通过使用一定信息压缩的映射矩阵,可高效的进行关联信息的存储与检索。
在模型库中,数据结构特征的存储形式为多维向量,图表配置为NoSQL结构体,两者能够构建起一套稀疏矩阵图,如图2所示,为结构特征向量与图表配置之间的相关指数(即匹配度)。
在匹配过程中,根据数据结构特征向量信息进行识别,再利用预设的算法进行检索,在所述模型库中检索与识别的特征向量匹配度大于阈值的图表配置,阈值根据实际情况设定。
本发明实施例中提供的两套函数:结构特征相似度识别函数f(x1,x2)和图表配置推荐函数f(x,φ)。在数据结构特征相似度识别函数f(x1,x2)中,输入参数x1、x2分别为所述提取的数据结构特征向量和参考向量,参考向量x2为数据库中的结构特性向量,用于判断步骤S2中得到的数据结构特征向量x1是否与之相似来达到识别的目的。
该函数结合欧氏距离与余弦相似度算法计算输入的两个结构特征向量的相似度并返回。该识别函数f(x1,x2)如下所示:
f(x1,x2)=d12*cos(θ);
其中,d12为x1、x2之间的距离,n为向量维度,k为参数序号。
d12值越小,两个结构特征向量越相似,以此为基础后续得到的结果越准确。
图表配置推荐函数f(x,φ)的输入参数为指定的结构特征向量(即上述需要识别的结构特征向量)与相似度阈值,该函数可通过在前述模型库中查找与指定结构特征向量相似度高于指定阈值的所有特征向量,从而得出所有匹配的图表配置信息。
在f(x,φ)函数中,φ作为相似度阈值,可依据实际场合进行调整,如设置为0.618,x为输入的数据结构特征向量,具体查找步骤为:遍历模型库中的所有的数据结构特征向量x’,调用上述结构特征相似度识别函数计算x与x’的相似度,如果相似度超过阈值φ,则x’作为候选,直至遍历结束;将所有候选x’依据其与x的相似度进行倒序排序,选择相似度最大的x’所对应的图表配置作为最终的推荐结果。
S4.预设图像矩形定义以及空间切分与布局算法,根据上述得到的图表配置信息,将配置的图表生成多图表布局。其中,图像矩形定义规则进行了如下的描述:
(1)图像的序号,以标记图表的次序;
(2)图像最小宽度,以标记图表在布局中的最小宽度;
(3)图像常规宽度,以标记图表在布局中的常规宽度;
(4)图像最小高度,以标记图表在布局中的最小高度;
(5)图像常规高度,以标记图表在布局中的常规高度;
(6)图像最小宽高比,以标记图表在布局中的最小宽高比;
(7)图像最大宽高比,以标记图表在布局中的最大宽高比;
(8)图像常规宽高比,以标记图表在布局中的常规宽高比;
(9)图像相关性系数,以标记图表间的相关性系数。
所述空间切分与布局算法提供一套函数f(x0,x1,...,xn),接受多个图像矩形定义集合同时输入,并依据所输入的所有图像矩形定义集合对全体图表进行重新排布。最后将生成的多图表布局绘制渲染得出全部可视化图形。
函数具备如下执行过程:将抽象的图形空间(宽W高H)在水平方向与垂直方向上划分为n和m等份,即形成nxm个宽为w=W/n高为h=H/m的子空间;每个子空间依据行列序号进行编码,其中行序号记作i,取值从1至m,列序号记作j,取值从1至n,任意子空间可记作P(i,j);设置行游标ix与列游标jx,依次遍历图像矩形定义集合,并取出元素(即图表),通过图像矩形定义的宽和高判定图表应占用的连续子空间规模,并以此来移动行列游标,最终计算出合适的行列游标,以及待占用的子空间,并将所占用的子空间均标记为已占用,继续下一个元素重复过程,直到遍历完成,对全体图表进行排布,生成多图表布局,多图表布局进行绘制渲染得出全部可视化图形。
第二方面,本发明还提供了一种基于数据结构识别的自动化可视化呈现系统,如图3、4所示,包括:
结构信息描述生成模块1:被配置为接收数据输入,通过数据结构描述规则生成输入数据的数据结构描述信息;
数据结构特征提取模块2:被配置为根据数据结构描述信息,提取数据的结构特征向量信息。生成数据结构描述信息后,数据结构特征提取模块被调用,通过对输入数据的结构描述信息进行特征抽取,主要基于结构描述信息的列信息,通过映射函数生成离散的多为特征向量信息序列输出;执行上述步骤S2。
图表配置与数据结构模型库3:被配置为存储数据结构特征向量以及与之匹配的多种图表配置,其中包括二者之间的相关指数(即匹配度);图表配置包括图表类型以及通过经一定信息压缩的映射矩阵,来与相匹配的结构特征向量进行关联映射,一个结构特征向量可能对应多种图表类型。
数据结构特征相似度识别与推荐模块4:被配置为对提取的数据结构特征向量信息进行识别,根据识别出的数据结构特征向量在所述模型库中进行检索匹配,并以此得出与该特性向量匹配度大于阈值的所有图表配置。具体实施时,该模块能够对输入数据生成的结构特征向量与模型库中存储的结构特征向量(下称参考向量)进行相似度判断,通过结构特征相似度识别函数进行识别,查找出在所述模型库中与需要识别的结构特征向量相似度最高的结构特征向量,然后基于存储在模型库中结构特征向量与图表配置之间的相关性,通过图表配置推荐函数得到与该识别得到的参考向量匹配的所有图表配置信息。如果输入数据生成的结构特征向量与数据库存储的某结构特征向量相似度越高,则以此最终得到的图表配置信息越准确,具体相似度识别与推荐过程参考上述步骤S3。
自动化布局模块5:被配置为将得出的所有图表配置信息生成多图表布局;具体实施时,该模块对数据结构特征相似度识别与推荐模块匹配出的所有图表进行图像矩形定义,以此通过空间切分与布局算法对所有图表进行重新排布,参考上述步骤S4。
图表呈现模块6:被配置为对所述多图表布局进行可视化呈现,将上述重新布局的多图表进行绘制渲染得出全部可视化图形,图表的绘制渲染是本领域成熟技术,此处不做赘述。
本发明系统中还包括人机交互界面7,以提供完整的图形化界面供用户进行数据输入,并调用自动化布局模块和图表呈现模块完成图表的自动化布局与呈现,实现人机交互功能。
本发明的基于数据结构识别的自动化可视化呈现系统构思巧妙、合理,操作方便,可基于识别与匹配技术实现计算机对任意数据结果自动化选择可视化表现形式,从而避免了较多专业性知识要求与复杂配置对用户所造成的使用问题,在数据分析产品中应用,可极大地降低用户操作难度,提高数据图表使用的准确性、合理性与有效性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种基于数据结构识别的自动化可视化呈现方法,其特征在于:包括如下步骤:
接收数据输入,通过数据结构描述规则生成输入数据的数据结构描述信息;
根据该数据结构描述信息,提取数据的结构特征向量信息;
对提取的数据结构特征向量信息进行识别,并以此得出与该特性向量匹配的图表配置;
根据图表配置信息生成多图表布局并得出可视化图形。
2.根据权利要求1所述的基于数据结构识别的自动化可视化呈现方法,其特征在于:还包括
将数据结构特征向量以及与之匹配的多种图表配置存储起来形成图表配置与数据结构模型库;
根据提取的数据结构特征向量信息在模型库中识别出与之相似的结构特征向量,基于识别得到的存储在模型库中的结构特征向量检索得到与该特性向量匹配度大于阈值的图表配置信息。
3.根据权利要求1所述的基于数据结构识别的自动化可视化呈现方法,其特征在于:所述数据结构描述规则包括:对数据中的列信息进行如下定义:
(1)列号,定义当前列在数据所有列中的序号;
(2)列名,定义当前列的原始名称;
(3)列类型,定义当前列的数据类型;
(4)列格式,定义当前列的数据格式;
(5)列权重,定义当前列在数据所有列中的权重;
对数据中的行信息进行如下定义:
(6)行号,定义当前行在数据所有行中的序号。
4.根据权利要求3所述的基于数据结构识别的自动化可视化呈现方法,其特征在于:所述根据该数据结构描述信息,提取数据的结构特征向量信息包括:
以数据结构描述信息中的列信息为参数,通过映射函数转换为多维特征向量输出。
5.根据权利要求4所述的基于数据结构识别的自动化可视化呈现方法,其特征在于:所述映射函数表示为:
f(x)=(x[0],x[1],...,x[n]);
以数据结构描述信息x中的列类型、列格式与列权重作为该映射函数的参数,通过针对不同列类型和列格式计算离散值,将数据结构描述信息映射为n维离散向量,列权重可用于进行加权干预与调整。
6.根据权利要求2所述的基于数据结构识别的自动化可视化呈现方法,其特征在于:所述根据提取的数据结构特征向量信息在模型库中识别出与之相似的结构特征向量包括:
通过数据结构特征相似度识别函数f(x1,x2),计算输入的两个结构特征向量的相似度并返回;其中输入参数x1、x2分别为提取的数据结构特征向量和数据库中的结构特性向量;该识别函数f(x1,x2)如下所示:
<mrow> <msub> <mi>d</mi> <mn>12</mn> </msub> <mo>=</mo> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mn>1</mn> <mi>k</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> 1
<mrow> <mi>cos</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>x</mi> <mrow> <mn>1</mn> <mi>k</mi> </mrow> </msub> <msub> <mi>x</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </msub> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <msub> <mi>x</mi> <mrow> <mn>1</mn> <mi>k</mi> </mrow> </msub> <mn>2</mn> </msup> </mrow> </msqrt> <msqrt> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <msub> <mi>x</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </msub> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> </mrow>
f(x1,x2)=d12*cos(θ)
其中,d12为x1、x2之间的距离,n为向量维度,k为参数序号;
d12值越小,两个结构特征向量越相似。
7.根据权利要求6所述的基于数据结构识别的自动化可视化呈现方法,其特征在于:所述基于识别得到的存储在模型库中的结构特征向量检索得到与该特性向量匹配度大于阈值的图表配置信息包括:
通过图表配置推荐函数f(x,φ)在模型库中查找与指定结构特征向量相似度高于指定阈值的所有特征向量;φ作为相似度阈值,x为输入的数据结构特征向量,具体查找步骤为:遍历模型库中的所有的数据结构特征向量x’,调用所述结构特征相似度识别函数计算x与x’的相似度,如果相似度超过阈值φ,则x’作为候选,直至遍历结束;将所有候选x’依据其与x的相似度进行倒序排序,选择相似度最大的x’所对应的图表配置作为最终的推荐结果。
8.根据权利要求7所述的基于数据结构识别的自动化可视化呈现方法,其特征在于:所述根据图表配置信息生成多图表布局包括:
预设图像矩形定义以及空间切分与布局算法,根据得到的图表配置信息,将配置的图表生成多图表布局。
9.根据权利要求8所述的基于数据结构识别的自动化可视化呈现方法,其特征在于:
图像矩形定义规则如下:
(1)图像的序号,以标记图表的次序;
(2)图像最小宽度,以标记图表在布局中的最小宽度;
(3)图像常规宽度,以标记图表在布局中的常规宽度;
(4)图像最小高度,以标记图表在布局中的最小高度;
(5)图像常规高度,以标记图表在布局中的常规高度;
(6)图像最小宽高比,以标记图表在布局中的最小宽高比;
(7)图像最大宽高比,以标记图表在布局中的最大宽高比;
(8)图像常规宽高比,以标记图表在布局中的常规宽高比;
(9)图像相关性系数,以标记图表间的相关性系数。
10.根据权利要求9所述的基于数据结构识别的自动化可视化呈现方法,其特征在于:
所述空间切分与布局算法通过函数f(x0,x1,...,xn),接受多个图像矩形定义集合同时输入,并依据所输入的所有图像矩形定义集合对全体图表进行重新排布,具体包括:
将宽W高H的图形空间在水平方向与垂直方向上划分为n和m等份,即形成nxm个宽为w=W/n、高为h=H/m的子空间;每个子空间依据行列序号进行编码,其中行序号记作i,取值从1至m,列序号记作j,取值从1至n,任意子空间可记作P(i,j);设置行游标ix与列游标jx,依次遍历图像矩形定义集合,并取出元素,通过图像矩形定义的宽和高判定图表应占用的连续子空间规模,并以此来移动行列游标,计算出合适的行列游标,以及待占用的子空间,并将所占用的子空间均标记为已占用,继续下一个元素重复过程,直到遍历完成,对全体图表进行排布,生成多图表布局。
11.一种基于数据结构识别的自动化可视化呈现系统,其特征在于:包括:
结构信息描述生成模块:被配置为接收数据输入,通过数据结构描述规则生成输入数据的数据结构描述信息;
数据结构特征提取模块:被配置为根据数据结构描述信息,提取数据的结构特征向量信息;
数据结构特征相似度识别与推荐模块:被配置为对提取的数据结构特征向量信息进行识别,并以此得出与该特性向量匹配度大于阈值的图表配置;
自动化布局模块:被配置为将得出的图表配置信息生成多图表布局;
图表呈现模块:被配置为对所述多图表布局进行可视化呈现。
12.根据权利要求11所述的基于数据结构识别的自动化可视化呈现系统,其特征在于:还包括
图表配置与数据结构模型库:被配置为存储数据结构特征向量以及与之匹配的多种图表配置;所述数据结构特征相似度识别与推荐模块根据提取的数据结构特征向量信息在模型库中识别出与之相似的结构特征向量,基于识别得到的存储在模型库中的结构特征向量检索得到与该特性向量匹配度大于阈值的图表配置信息。
CN201710383104.9A 2017-05-26 2017-05-26 基于数据结构识别的自动化可视化呈现方法与系统 Pending CN107169119A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710383104.9A CN107169119A (zh) 2017-05-26 2017-05-26 基于数据结构识别的自动化可视化呈现方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710383104.9A CN107169119A (zh) 2017-05-26 2017-05-26 基于数据结构识别的自动化可视化呈现方法与系统

Publications (1)

Publication Number Publication Date
CN107169119A true CN107169119A (zh) 2017-09-15

Family

ID=59822413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710383104.9A Pending CN107169119A (zh) 2017-05-26 2017-05-26 基于数据结构识别的自动化可视化呈现方法与系统

Country Status (1)

Country Link
CN (1) CN107169119A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241268A (zh) * 2018-07-05 2019-01-18 腾讯科技(深圳)有限公司 一种相似信息推荐方法、装置、设备及存储介质
CN112130845A (zh) * 2020-09-21 2020-12-25 厦门南讯股份有限公司 一种基于人工智能的图表智能化生成方法
CN112307109A (zh) * 2020-10-28 2021-02-02 北京锐安科技有限公司 可视化图表生成方法、装置、电子设备和存储介质
CN113127555A (zh) * 2019-12-30 2021-07-16 北京阿博茨科技有限公司 一种数据可视化画法匹配装置及方法
CN113139102A (zh) * 2021-05-18 2021-07-20 北京深演智能科技股份有限公司 数据处理方法、装置、非易失性存储介质及处理器
CN113486102A (zh) * 2021-07-05 2021-10-08 成都运达科技股份有限公司 一种站场示意图配置方法及配置系统
CN116244369A (zh) * 2023-05-12 2023-06-09 山东云力信息科技有限公司 一种基于大数据可视化的数据挖掘方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211344A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 文本信息遍历的快速四维可视化方法
CN103761288A (zh) * 2014-01-14 2014-04-30 国家电网公司 可视化图表自定义生成系统及方法
CN104166681A (zh) * 2014-07-15 2014-11-26 中电科华云信息技术有限公司 可视化匹配及实时展现的实现方法和系统
CN106484667A (zh) * 2016-10-13 2017-03-08 广州视源电子科技股份有限公司 展示数据的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211344A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 文本信息遍历的快速四维可视化方法
CN103761288A (zh) * 2014-01-14 2014-04-30 国家电网公司 可视化图表自定义生成系统及方法
CN104166681A (zh) * 2014-07-15 2014-11-26 中电科华云信息技术有限公司 可视化匹配及实时展现的实现方法和系统
CN106484667A (zh) * 2016-10-13 2017-03-08 广州视源电子科技股份有限公司 展示数据的方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241268A (zh) * 2018-07-05 2019-01-18 腾讯科技(深圳)有限公司 一种相似信息推荐方法、装置、设备及存储介质
CN109241268B (zh) * 2018-07-05 2020-08-18 腾讯科技(深圳)有限公司 一种相似信息推荐方法、装置、设备及存储介质
CN113127555A (zh) * 2019-12-30 2021-07-16 北京阿博茨科技有限公司 一种数据可视化画法匹配装置及方法
CN112130845A (zh) * 2020-09-21 2020-12-25 厦门南讯股份有限公司 一种基于人工智能的图表智能化生成方法
CN112130845B (zh) * 2020-09-21 2022-05-24 厦门南讯股份有限公司 一种基于人工智能的图表智能化生成方法
CN112307109A (zh) * 2020-10-28 2021-02-02 北京锐安科技有限公司 可视化图表生成方法、装置、电子设备和存储介质
CN113139102A (zh) * 2021-05-18 2021-07-20 北京深演智能科技股份有限公司 数据处理方法、装置、非易失性存储介质及处理器
CN113139102B (zh) * 2021-05-18 2024-06-11 北京深演智能科技股份有限公司 数据处理方法、装置、非易失性存储介质及处理器
CN113486102A (zh) * 2021-07-05 2021-10-08 成都运达科技股份有限公司 一种站场示意图配置方法及配置系统
CN116244369A (zh) * 2023-05-12 2023-06-09 山东云力信息科技有限公司 一种基于大数据可视化的数据挖掘方法及系统

Similar Documents

Publication Publication Date Title
CN107169119A (zh) 基于数据结构识别的自动化可视化呈现方法与系统
CN111858954B (zh) 面向任务的文本生成图像网络模型
US11080918B2 (en) Method and system for predicting garment attributes using deep learning
CN104978762B (zh) 服装三维模型生成方法及系统
CN110428428A (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN112529768B (zh) 一种基于生成对抗网络的服装编辑和生成方法
CN111784845B (zh) 基于人工智能的虚拟试穿方法、装置、服务器及存储介质
CN107944443A (zh) 一种基于端到端深度学习进行对象一致性检测方法
CN106991386A (zh) 一种基于深度残差网络的手势识别方法
CN110399809A (zh) 多特征融合的人脸关键点检测方法及装置
CN111967533B (zh) 一种基于场景识别的草图图像翻译方法
CN106971404A (zh) 一种鲁棒surf无人机彩色遥感图像配准方法
EP4184413A1 (en) Spatial image analysis-based color scheme recommendation apparatus and method
CN103678593B (zh) 一种基于空间场景草图描述的交互式空间场景检索方法
CN112085072A (zh) 基于时空特征信息的草图检索三维模型的跨模态检索方法
CN110956213A (zh) 遥感影像特征库生成、遥感影像检索方法及装置
CN113392244A (zh) 一种基于深度度量学习的三维模型检索方法及系统
CN105808682A (zh) 一种关系图展示的方法和装置
CN104361347A (zh) 一种基于单一图像的数控机床设计模块三维模型检索方法
CN110197200A (zh) 一种基于机器视觉的服装电子标签生成方法
CN116226487B (zh) 一种基于图形识别的数据大屏可视化方法及系统
Sprute et al. Learning virtual borders through semantic scene understanding and augmented reality
CN112612900A (zh) 一种知识图谱指导的多张场景图像生成方法
CN115169448A (zh) 一种基于深度学习的三维描述生成和视觉定位的统一方法
CN116468886A (zh) 一种基于笔画的场景草图语义分割方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170915