CN105868310A - 一种数据处理方法、装置及电子设备 - Google Patents

一种数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN105868310A
CN105868310A CN201610179336.8A CN201610179336A CN105868310A CN 105868310 A CN105868310 A CN 105868310A CN 201610179336 A CN201610179336 A CN 201610179336A CN 105868310 A CN105868310 A CN 105868310A
Authority
CN
China
Prior art keywords
data
target data
object diagram
diagram
described target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610179336.8A
Other languages
English (en)
Other versions
CN105868310B (zh
Inventor
胡长建
苏亮
王文莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201610179336.8A priority Critical patent/CN105868310B/zh
Publication of CN105868310A publication Critical patent/CN105868310A/zh
Application granted granted Critical
Publication of CN105868310B publication Critical patent/CN105868310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法、装置及电子设备,所述方法包括:获得目标数据;基于所述目标数据,获得目标图表数据组;基于所述目标图表数据组,生成所述目标数据对应的目标图表。本发明中通过对目标数据进行图表数据组分析并获得,进而基于这些目标图表数据组,生成该目标数据对应的可视化的图表,这一过程中无需人工设置数据检索内容以及图标等,也无需数据经验丰富的数据分析师了解可视化工具的原理,由此,减少可视化处理操作流程,节省操作时间,明显提高数据的可视化处理效率。

Description

一种数据处理方法、装置及电子设备
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据处理方法、装置及电子设备。
背景技术
数据可视化是数据转变成洞见的重要途径,为此,现有技术中存在多种可视化工具如pentaho、tableu、qlik view、athena view等来实现数据可视化。这些工具架构在关系数据库或者分布式数据仓库智商,方便的允许人来将对应的数据方便的呈现出来。
而所有这些工具都需要人工设置数据检索内容及对应图标参数来产生需要的图标,但是这些内容不仅需要经验丰富的数据分析师,还需要对这些可视化工具有比较熟悉的了解,由此导致对数据可视化处理的效率较低。
发明内容
有鉴于此,本发明提供了一种数据处理方法、装置及电子设备,用以解决现有技术中对数据进行可视化处理效率较低的技术问题。
本发明提供了一种数据处理方法,包括:
获得目标数据;
基于所述目标数据,获得目标图表数据组;
基于所述目标图表数据组,生成所述目标数据对应的目标图表。
上述方法,优选的,所述基于所述目标数据,获得目标图表数据组,包括:
解析所述目标数据中各个数据表的数据表头及数据内容;
基于所述数据表头及所述数据内容,对各个所述数据表进行分类;
对不同类型的数据表以相应的构建方法进行索引构建,以得到所述目标数据的目标数据模型;
对所述目标数据模型,利用与其对应的目标数据分析方法进行图表数据抽取,得到目标图表数据组;
其中,所述目标数据分析方法在数据分析方法集合中选取,且所述数据分析方法集合基于历史网络数据获得。
上述方法,优选的,对所述目标数据模型,利用与其对应的目标数据分析方法进行图标数据抽取,得到目标图表数据组,包括:
将所述目标数据模型与所述数据分析方法集合中的方法关键字进行匹配,以确定匹配的关键字及其对应的目标数据分析方法;
对所述目标数据模型,执行所述目标数据分析方法,生成所述目标数据模型对应的目标图表数据组。
上述方法,优选的,所述基于所述目标图表数据组,生成所述目标数据对应的目标图表,包括:
基于当前的可视化系统接口,对所述目标图表数据组中的数据框进行解析,以生成所述目标图表数据组对应的图表绘制命令集合;
运行所述图表绘制命令集合中的命令,生成所述目标数据对应的目标图表。
上述方法,优选的,运行所述图表绘制命令集合中的命令,生成所述目标数据对应的目标图表,包括:
接收用户的输入操作,所述输入操作包括:待绘制图表的特征信息;
结合所述待绘制图表的特征信息,运行所述图表绘制命令集合中的命令,得到所述目标数据对应的目标图表。
本发明还提供了一种数据处理装置,包括:处理器及存储器,其中:
所述处理器,用于获得目标数据,基于所述目标数据,获得目标图表数据组,并基于所述目标图表数据组,生成所述目标数据对应的目标图表;
所述存储器,用于存储所述处理器运行所需要的数据。
上述装置,优选的,还包括:
输入接口,用于接收用户的输入操作,所述输入操作包括:待绘制图表的特征信息;
则,所述处理器在基于所述目标图表数据组,生成所述目标数据对应的目标图表时,具体结合所述待绘制图表的特征信息,运行所述图表绘制命令集合中的命令,得到所述目标数据对应的目标图表。
上述装置,优选的,所述数据处理装置与显示器相连接,其中:
所述显示器,用于将所述目标图表进行显示。
本发明还提供了一种电子设备,包括:数据处理装置及显示器,其中:
所述数据处理装置,用于获得目标数据,基于所述目标数据,获得目标图表数据组,并基于所述目标图表数据组,生成所述目标数据对应的目标图表;
所述显示器,用于将所述目标图表进行显示。
上述电子设备,优选的,还包括:
输入设备,用于采集用户的输入操作,所述输入操作包括:待绘制图表的特征信息;
则所述数据处理装置在基于所述目标图表数据组,生成所述目标数据对应的目标图表时,具体通过接收所述输入操作,并结合所述待绘制图表的特征信息,运行所述图表绘制命令集合中的命令,以得到所述目标数据对应的目标图表。
由上述方案可知,本发明提供的一种数据处理方法、装置及电子设备,通过对目标数据进行图表数据组分析并获得,进而基于这些目标图表数据组,生成该目标数据对应的可视化的图表,这一过程中无需人工设置数据检索内容以及图标等,也无需数据经验丰富的数据分析师了解可视化工具的原理,由此,减少可视化处理操作流程,节省操作时间,明显提高数据的可视化处理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例一提供的一种数据处理方法的流程图;
图2为本发明实施例二提供的一种数据处理方法的部分流程图;
图3为本发明实施例的另一部分流程图;
图4为本发明实施例三提供的一种数据处理方法的部分流程图;
图5为本发明实施例三的另一部分流程图;
图6为本发明实施例四提供的一种数据处理装置的结构示意图;
图7为本发明实施例五提供的一种数据处理装置的结构示意图;
图8为本发明实施例六提供的一种数据处理装置的结构示意图;
图9为本发明实施例七提供的一种电子设备的结构示意图;
图10为本发明实施例八提供的一种电子设备的结构示意图;
图11为本发明实施例八的部分结构示意图;
图12~图14分别为本发明实施例八的应用示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1,为本发明实施例一提供的一种数据处理方法的实现流程图,其中,所述方法适用于对数据进行可视化处理,得到该数据的图表数据,从而能够展示给用户。
具体的,本实施例中,所述方法可以包括以下步骤实现:
步骤101:获得目标数据。
其中,所述目标数据即为需要进行可视化处理的数据。
需要说明的是,所述目标数据中可以包括有多个数据内容,每个数据内容可以描述成一个二维数据表,即数据内容D=<H,T>,其中,H对应数据表的表头,而T对应数据表的数据内容。具体的,可以从数据库、数据表文件(excel,csv,格式化text)等中进行数据导入得到目标数据,并保存到临时存储区域中。
具体的,所述目标数据中,数据表头中任何一个H对应包含如下信息h={name,type,group},其中,name对应数据表的数据字段名称,type对应数据表的数据类型,这里的数据类型通常包括有三种:分类数据、顺序数据及数值型数据,而group则对应数据表的数据字段的组别。
步骤102:基于所述目标数据,获得目标图表数据组。
其中,本实施例中可以通过对所述目标数据利用相应的数据对象的分析方法进行数据加工,以形成新的数据框、对应的维度及测量、还有对应的操作过程信息,最终获得所述目标数据的目标图表数据组。
需要说明的是,所述目标图表数据组DG具体有以下数据结构:DG=<DF,Dims,Mrs,DFInfo>,其中,DF对应图表数据组中的数据框DataFrame,通常为矩阵形式的数据,但矩阵各列可以是不同类型的,数据框的每列是一个变量,每行是一个观测,而观测可以为一个公式;Dims对应数据框中的维度数据,Mrs对应观测信息;DFInfo对应数据组的描述信息,例如,描述该数据组为普通的罗列、或者是一个对比或者是一个异常分析的数据组。
步骤103:基于所述目标图表数据组,生成所述目标数据对应的目标图表。
其中,本实施例中可以利用首先基于所述目标图表数据组生成相应的绘制命令,进而执行这些命令,生成所述目标数据对应的目标图表,该目标图表能够对用户进行展示,实现所述目标数据的可视化处理。
由上述方案可知,本发明实施例一提供的一种数据处理方法,通过对目标数据进行图表数据组分析并获得,进而基于这些目标图表数据组,生成该目标数据对应的可视化的图表,这一过程对数据的图表进行自动生成,无需人工设置数据检索内容以及图标等,也无需数据经验丰富的数据分析师了解可视化工具的原理,由此,有效降低不必要的多次人工交互调整流程,节省操作时间,明显提高数据的可视化处理效率。
参考图2,为本发明实施例二提供的一种数据处理方法中所述步骤102的实现流程图,其中,所述步骤102具体可以通过以下步骤实现:
步骤121:解析所述目标数据中各个数据表的数据表头及数据内容。
步骤122:基于所述数据表头及所述数据内容,对各个所述数据表进行分类。
例如,本实施例中,根据获得的目标数据D,自动对比各个D中的H信息,如果名称相同自动建立关联,如果不同则根据其数据T分析数据表类型:分类、顺序和数值。
步骤123:对不同类型的数据表以相应的构建方法进行索引构建,以得到所述目标数据的目标数据模型。
具体的,本实施例中对所述目标数据D中的分类数据列进行比对,如果分类数据集合存在包含关系,则建立关联并产生提醒命令信息,再将数据列中分类型统一标记为维度,顺序型统一标记为序列,数值型统一标记为度量,进而根据上述标记分类情况,对任意度量进行正向索引和倒排索引;对顺序和数值建立trie数索引,并对序列和数值计算其统计分位数据和对应的数量信息,最终形成所述目标数据模型M=<RD,Idx,Dims,Mrs,Funcs>,并进行保存,如保存到数据库中。其中,RD为原始数据,对应所述目标数据的数据内容的集合;Idx则是数据结构索引,将RD进行结构和关联;Dims对应其所属数据描述的维度集合,而Mrs则是对应的实体测量值;Funcs对应数据的计算行为action。
步骤124:对所述目标数据模型,利用与其对应的目标数据分析方法进行图表数据抽取,得到目标图表数据组。
其中,所述目标数据分析方法在数据分析方法集合中选取,且所述数据分析方法集合基于历史网络数据获得。
需要说明的是,所述历史网络数据可以为利用外部网页爬虫等工具,跟踪各种数据发布网站和相关的数据分析信息,比如跟踪国家统计局的对外信息等,进而提取到的数据,如相关分析论文等,进而本实施例中借助数据源建立关联,形成包含各种数据分析方法的集合,其中,相应的数据分析方法的关键词AnalyticalContext=<DObj,Action>,其中,DObj是数据实体,比如销售数据,人事考勤等,对应具体实体会包含一些具体的字段名称,字段类型,Dobj={fieldname,fieldtype};Action则对应着对应数据分析方法,即数据对象的方希方法,比如趋势分析,异常分析,最优最差等。
其中,本实施例中可以根据网络爬取的数据,借助于语义分析和关联分析,提取对应的数据对象内容,形成对应的数据对象和对应的分析方法关联集合,同时根据对应网页的一些客观数据(比如访问次数、网页权威性)对这些提取到的数据做可行度度量,最终形成AnalyticalContext=<DObj,Action>,也可以保存到数据库中。需要特别说明的是,已经存在并记录的分析结构直接记入该数据对象集合。
具体的,参考图3,为本发明实施例的另一部分流程图,其中,所述步骤124可以通过以下步骤实现:
步骤301:将所述目标数据模型与所述数据分析方法集合中的方法关键字进行匹配,以确定匹配的关键字及其对应的目标数据分析方法。
步骤302:对所述目标数据模型,执行所述目标数据分析方法,生成所述目标数据模型对应的目标图表数据组。
也就是说,本实施例中在所述数据分析方法集合中对所述目标数据模型进行方法关键字或关键词的匹配,进而匹配相关的数据对象,并提取对应的action执行对应的数据分析方法,形成对应数据框,并记录相关的维度和度量以及分析的过程信息,比如,如果是异常分析,则会记录异常的标示信息(如发生时间点数据),最终形成DG=<DF,Dims,Mrs,DFInfo>,并保存到本地。
参考图4,为本发明实施例三提供的一种数据处理方法中所示步骤103的实现流程图,其中,所述步骤103可以通过以下步骤实现:
步骤131:基于当前的可视化系统接口,对所述目标图表数据组中的数据框进行解析,以生成所述目标图表数据组对应的图表绘制命令集合。
具体的,本实施例中根据对接的可视化工具(参考DFInfo和实际可视化系统接口函数对应的结果),建立所述图表数据组中数据框和图表名称的映射,主要根据数据框和操作类型建立映射,比如,如果数据框对应的数据时序列数据,那么曲线图就对应序列图,如果序列图中还记录了趋势内容,对应的对于曲线图就有了能够显示趋势的特性要求,即借助于数据框的形成方法及分析逻辑,参考对接可视化接口的能力,生成对应的图表绘制命令ChartCmd={DF,ChartType,AxisMap,ChartParams},组成相应的命令集合并缓存到内存中。其中,DF对应数据框DataFrame,它通常是矩阵形式的数据,但矩阵各列可以是不同类型的,数据框每列是一个变量,每行是一个观测;ChartType则是图表类型,比如是Barchart、dotchart、Linechart等;AxisMap记录数据和图表维度的映射关系;ChartParams则记录一些附加图表参数,比如子图表是否对齐,是否绘制趋势线等。
步骤132:运行所述图表绘制命令集合中的命令,生成所述目标数据对应的目标图表。
具体的,如图5中所示,所述步骤132可以通过以下步骤实现:
步骤501:接收用户的输入操作。
其中,所述输入操作包括:待绘制图表的特征信息。本实施例中可以通过输入接口来接收输入设备所采集到的所述输入操作。
而所述待绘制图表的特征信息可以为维度特征信息、测量特征信息。
步骤502:结合所述待绘制图表的特征信息,运行所述图表绘制命令集合中的命令,得到所述目标数据对应的目标图表。
也就是说,本实施例中将图表命令和对应系统对接形成图表,同时,提供交互方法允许用户在不同命令之间切换和调整,最终形成目标图表,并记录选择的过程,形成反馈保存下来,用于后续优化推荐的依据,而这一过程中虽然需要用户进行操作,但用户也只是进行最终特征的选择操作,不影响本实施例对可视化数据的处理效率的提高。
例如,本实施例中根据用户的上下文信息,自动推荐相关的图表名称生成方式,比如,用户选择了特定维度,那么关于这个维度的相关命令就会自动浮现,当用户选择后就会自动生成对应的图表,同时图表旁边会浮现切换按钮,允许用户预览查看其它图表命令的内容以及选择生成对应图表。
另外,本实施例中考虑到实际数据对象的差异性以及实际业务的特殊性,对于推荐的图表用户会做对应的偏好选择,同时用户在不同的大背景下(比如已经绘制了一些其他数据图表)会有对应的约束,为此将这些信息记录下来并保存,用于在后续应用中进行系统优化,推荐用户最适宜的图表命令和生成对应的图表,进而提高本实施例的整体体验。
参考图6,为本发明实施例四提供的一种数据处理装置的结构示意图,其中,所述数据处理装置适用于对数据进行可视化处理,得到该数据的图表数据,从而展示给用户。
具体的,本实施例中,所述装置可以包括处理器601及存储器602,其中:
所述处理器601,用于获得目标数据,基于所述目标数据,获得目标图表数据组,并基于所述目标图表数据组,生成所述目标数据对应的目标图表。
其中,所述目标数据即为需要进行可视化处理的数据,所述目标数据中可以包括有多个数据内容,每个数据内容可以描述成一个二维数据表,即数据内容D=<H,T>,其中,H对应数据表的表头,而T对应数据表的数据内容。具体的,可以从数据库、数据表文件(excel,csv,格式化text)等中进行数据导入得到目标数据,并保存到临时存储区域中。具体的,所述目标数据中,数据表头中任何一个H对应包含如下信息h={name,type,group},其中,name对应数据表的数据字段名称,type对应数据表的数据类型,这里的数据类型通常包括有三种:分类数据、顺序数据及数值型数据,而group则对应数据表的数据字段的组别。
相应的,本实施例中可以通过对所述目标数据利用相应的数据对象的分析方法进行数据加工,以形成新的数据框、对应的维度及测量、还有对应的操作过程信息,最终获得所述目标数据的目标图表数据组。
需要说明的是,所述目标图表数据组DG具体有以下数据结构:DG=<DF,Dims,Mrs,DFInfo>,其中,DF对应图表数据组中的数据框DataFrame,通常为矩阵形式的数据,但矩阵各列可以是不同类型的,数据框的每列是一个变量,每行是一个观测,而观测可以为一个公式;Dims对应数据框中的维度数据,Mrs对应观测信息;DFInfo对应数据组的描述信息,例如,描述该数据组为普通的罗列、或者是一个对比或者是一个异常分析的数据组。
进而,本实施例中可以利用首先基于所述目标图表数据组生成相应的绘制命令,进而执行这些命令,生成所述目标数据对应的目标图表,该目标图表能够对用户进行展示,实现所述目标数据的可视化处理。
所述存储器602,用于存储所述处理器运行所需要的数据。
由上述方案可知,本发明实施例四提供的一种数据处理装置,通过对目标数据进行图表数据组分析并获得,进而基于这些目标图表数据组,生成该目标数据对应的可视化的图表,这一过程中无需人工设置数据检索内容以及图标等,也无需数据经验丰富的数据分析师了解可视化工具的原理,由此,减少可视化处理操作流程,节省操作时间,明显提高数据的可视化处理效率。
需要说明的是,所述数据处理装置的具体实现方式及功能描述可以参考前文中相关实施例,此处不再详述。
参考图7,为本发明实施例五提供的一种数据处理装置的结构示意图,其中,所述装置还可以包括以下结构:
输入接口603,用于接收用户的输入操作,所述输入操作包括:待绘制图表的特征信息。具体的,所述输入接口603接收输入设备所采集到的输入操作,进而所述处理器601在基于所述目标图表数据组,生成所述目标数据对应的目标图表时,具体结合所述输入接口接收到的待绘制图表的特征信息,运行所述图表绘制命令集合中的命令,得到所述目标数据对应的目标图表。
参考图8,为本发明实施例六提供的一种数据处理装置的结构示意图,其中,所述数据处理装置与显示器604相连接,相应的:
所述显示器604与所述处理器601相连接,用于将所述处理器601所生成的目标图表进行显示。
其中,所述显示器604可以液晶屏实现。
参考图9,为本发明实施例七提供的一种电子设备的结构示意图,其中,所述电子设备可以为手机、pad、笔记本等设备,相应的,所述电子设备可以包括以下结构:
数据处理装置901及显示器902,其中:
所述数据处理装置901,用于获得目标数据,基于所述目标数据,获得目标图表数据组,并基于所述目标图表数据组,生成所述目标数据对应的目标图表。
所述显示器902,用于将所述目标图表进行显示。
由上述方案可知,本发明实施例七提供的一种电子设备,通过数据处理装置对目标数据进行图表数据组分析并获得,进而基于这些目标图表数据组,生成该目标数据对应的可视化的图表,并在显示器上展示这些图标,而这一过程中无需人工设置数据检索内容以及图标等,也无需数据经验丰富的数据分析师了解可视化工具的原理,由此,减少可视化处理操作流程,节省操作时间,明显提高数据的可视化处理效率。
参考图10,为本发明实施例八提供的一种电子设备的结构示意图,其中,所述电子设备还可以包括以下结构:
输入设备903,用于采集用户的输入操作,所述输入操作包括:待绘制图表的特征信息。
其中,所述输入设备903可以为鼠标与键盘等输入设备,用户通过所述输入设备输入所述待绘制图表的特征信息。
则所述数据处理装置901在基于所述目标图表数据组,生成所述目标数据对应的目标图表时,具体通过接收所述输入设备903所接收到的所述输入操作,并结合所述待绘制图表的特征信息,运行所述图表绘制命令集合中的命令,以得到所述目标数据对应的目标图表。
需要说明的是,所述数据处理装置901中可以包含有多个功能模块实现其相应的功能,具体的,如图11中所示,所述数据处理装置901可以具有以下功能模块:数据导入模块、网络爬虫、数据模型构建模块、数据对象提取模块、图表数据组生成模块、图表命令生成模块、图表推荐绘制模块及优化学习模块等。
具体的,各个功能模块主要功能及工作流如下:
数据导入模块:允许用户将数据导入,可以从数据库,数据表文件(excel,csv,格式化text)等,将数据D导入,并保存到临时存储中。
网页爬虫:从公开的互联网上爬取数据集合和关于这些数据集合的处理分析方法相关信息,并保存到数据库中。
数据模型构建模块:根据导入的数据D,自动对比各个D中的H信息,如果名称相同自动建立关联;如果不同则根据其数据T分析其类型,归为三类:分类,顺序和数值;对于分类数据列进行对比,如果分类集合存在包含关系,自动建立关联并产生提醒命令信息;将数据列对应为分类类型的统一标记为维度,顺序型的对应组织成序列,数值型的统一标记为度量;根据上述分类对任意度量进行正向索引,和倒排索引;对于顺序和数值的建立Trie数索引,并对序列和数值计算其统计分位数据和对应的数量信息;最终形成数据模型M=<RD,Idx,Dims,Mrs,Funcs>,保存到数据库中。
数据对象提取模块:根据网络爬取的数据,借助于语义分析和关联分析,提取对应的数据对象内容,形成对应的数据对象和对应的分析方法关联集合,同时根据对应网页的一些客观数据(比如访问次数,网页权威性)对这些提取做可行度度量,最终形成AnalyticalContext=<DObj,Action>,也保存到数据库中。这里需要说明的是,以前记录的分析结果直接记入该数据对象集合。
图表数据组生成模块:结合上述数据模型,匹配相关的数据对象,并提取对应的Action执行对应的数据分析,形成对应的数据框,分别记录相关的维度和度量以及分析的一些过程信息(比如,如果是异常分析,则会记录一些异常的标示信息,比如发生时间点数据),最终形成DG=<DF,Dims,Mrs,DFInfo>,并保存到本地。
图表命令生成模块:根据对接的可视化工具,建立数据框和图表名称的映射,主要根据数据框和操作类型,比如如果数据框对应的数据是序列数据,那么曲线图就会对应,如果序列图中还记录了趋势内容,对应地对于曲线图就有了能够显示趋势的特性要求,而这些{DF,ChartType,AxisMap,ChartParams}将自动地生成,并缓存到内存中。
图表推荐绘制模块:根据用户的上下文信息,自动推荐相关的图表名称生成方式,比如用户选择了特定维度,那么关于这个维度的一些相关命令就会自动浮现,当用户选择后就自动在画布上生成对应的图表,同时图表旁边会浮现切换按钮,允许用户预览查看其它图表命令的内容以及选择生成对应的图表。
优化学习模块:考虑到实际数据对象的差异性,以及实际业务的特殊性,对于推荐的图表用户会做对应的偏好选择,同时用户在不同的大背景下(比如已经绘制了一些其他数据图表)会有对应的约束,为此将这些信息记录下来,并保存,用于进行系统优化,推荐用户最适宜的图表命令和生成对应的图表,提高系统的整体体验。
以下为利用本发明的上述技术方案对数据进行可视化处理的示例描述:
1、借助数据导入模块,获取导入的数据内容D=<H,T>,比如一个数据表:数据源d1,对应数据内容如下表1中所示:
表1
年份 总额 初级产品 饮料及烟类
1990 181.18 91.14 0.78
1991 273.50 138.28 1.06
1992 719.10 161.45 5.29
上述数据对应的就头h=(年份,总额,初级产品,饮料及烟类),对应的数据t(年份)=(1990,1991,1992)。
数据源d2,对应数据内容如下表2中所示:
表2
年份 总额 非食用原料 工业制成品
1990 181.18 17.11 90.5
1991 273.50 26.53 135.22
1992 719.10 34.86 556.98
上述数据对应的就头h=(年份,总额,非食用原料,工业制成品),对应的数据t(总额)=(181.18,273.50,719.10)。
2、借助于网络爬虫,可以爬取相关的数据,比如从国家统计局获取一般公共预算收支的内容,对应网站页面如图12中所示。
根据其他相关检索,比如查询“中国出口货物分析”,可能会对应得到如下内容“中国对外贸易出口结构研究”,其中提到“成分分析”,“上升最快”,“出口主导产品”,对应的网页内容可能如图13中所示。
3、根据导入的数据D,数据模型构建模块就会自动形成数据模型。首先会对对应的数据的Header进行分类,比如年份为顺序数据,其他对应的类型为数值数据,对应的维度就只有年份(同时为序列),其他都是度量,而对应的索引会为维度分别创建,同时提醒用户是否要对顺序数据标记标签,默认为“年份”。对应的数据模型如下描述:
M=<RD=“d1,d2”,Idx=“对年份建立索引”,Dims=“年份”,Mrs=(“总额,初级产品,饮料及烟类,非食用原料,工业制成品”),Funcs=“notify(序列=年份,Label=?)”>
4、基于网络爬虫爬取的网页数据,数据对象提取模块就可以分析对应的数据对象,就上面给的例子来说,借助于文本分析和对应的关联分析可以得到:
AnalyticalContext=<DObj=“出口货物”,Action=(“上升最快”,“出口主导产品”)>
5、有了数据模型和上述数据对象集合,就可以进行语义匹配,就如上例所述,给定上述数据模型,对应的可以采用的Action包括(“上升最快”,“出口主导产品”),比如对于“上升最快”就会进行趋势分析,分析不同出口货物种类的趋势图,最终形成对应的图表数据组内容:DG=<DF,Dims,Mrs,DFInfo>,例如,DF1如下表3为例:
表3
种类 趋势
初级产品 a1x+b1
饮料及烟类 a2x+b2
非食用原料 a2x+b4
工业制成品 a1x+b2
需要说明的是,上述趋势公式是使用线性拟合制作,也可以使用多项式拟合来完成。
对应的Dims=(“种类”)
Mrs=(“趋势”)
DFInfo=(“type=趋势,method=线性,sequence=(1990,1991,1992)”)
6、根据上述生成的图表数据组,借助于可视化工具,比如说使用AthenaView存在Line组件,那么对应的图表命令就可以生成如下:
ChartCmd={DF,ChartType,AxisMap,ChartParams}
其中DF对应上述的DF1,
ChartType=line
AxisMap={xaxis=sequence(1990,1991,1992),yaxis=趋势公式*xaxis,ylabel=t(种类)}
ChartParams={工业制成品使用粗线突出,标示出拐点1992}//因为从数据中得到工业制成品上升速度最快。
7、有了上述图表生成命令,系统会根据计算分值来推荐给对应的绘制系统,绘制系统会对应地自动绘制图表如图14中所示。
图14中用户可以选择切换按钮来调用其他图表绘制命令来完成其他绘图的生成。
8、用户最终选择的内容,会自动记录下来,比如说用户选择了推荐的图表绘制命令推荐,对应地对比和选取会进行相关的记录,比如就上述例子来说,由于匹配一直,那么这条命令对应的分值会增加,同时细节参数也会调整,最终会影响推荐的分值计算。本方案中,借助于学习分析模块,可以更好地适应用户的习惯,减少不必要的挑选调整工作量,最终整体提高提示整个体验。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据处理方法,包括:
获得目标数据;
基于所述目标数据,获得目标图表数据组;
基于所述目标图表数据组,生成所述目标数据对应的目标图表。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标数据,获得目标图表数据组,包括:
解析所述目标数据中各个数据表的数据表头及数据内容;
基于所述数据表头及所述数据内容,对各个所述数据表进行分类;
对不同类型的数据表以相应的构建方法进行索引构建,以得到所述目标数据的目标数据模型;
对所述目标数据模型,利用与其对应的目标数据分析方法进行图表数据抽取,得到目标图表数据组;
其中,所述目标数据分析方法在数据分析方法集合中选取,且所述数据分析方法集合基于历史网络数据获得。
3.根据权利要求2所述的方法,其特征在于,对所述目标数据模型,利用与其对应的目标数据分析方法进行图标数据抽取,得到目标图表数据组,包括:
将所述目标数据模型与所述数据分析方法集合中的方法关键字进行匹配,以确定匹配的关键字及其对应的目标数据分析方法;
对所述目标数据模型,执行所述目标数据分析方法,生成所述目标数据模型对应的目标图表数据组。
4.根据权利要求1或2所述的方法,其特征在于,所述基于所述目标图表数据组,生成所述目标数据对应的目标图表,包括:
基于当前的可视化系统接口,对所述目标图表数据组中的数据框进行解析,以生成所述目标图表数据组对应的图表绘制命令集合;
运行所述图表绘制命令集合中的命令,生成所述目标数据对应的目标图表。
5.根据权利要求4所述的方法,其特征在于,运行所述图表绘制命令集合中的命令,生成所述目标数据对应的目标图表,包括:
接收用户的输入操作,所述输入操作包括:待绘制图表的特征信息;
结合所述待绘制图表的特征信息,运行所述图表绘制命令集合中的命令,得到所述目标数据对应的目标图表。
6.一种数据处理装置,包括:处理器及存储器,其中:
所述处理器,用于获得目标数据,基于所述目标数据,获得目标图表数据组,并基于所述目标图表数据组,生成所述目标数据对应的目标图表;
所述存储器,用于存储所述处理器运行所需要的数据。
7.根据权利要求6所述的装置,其特征在于,还包括:
输入接口,用于接收用户的输入操作,所述输入操作包括:待绘制图表的特征信息;
则,所述处理器在基于所述目标图表数据组,生成所述目标数据对应的目标图表时,具体结合所述待绘制图表的特征信息,运行所述图表绘制命令集合中的命令,得到所述目标数据对应的目标图表。
8.根据权利要求6所述的装置,其特征在于,所述数据处理装置与显示器相连接,其中:
所述显示器,用于将所述目标图表进行显示。
9.一种电子设备,包括:数据处理装置及显示器,其中:
所述数据处理装置,用于获得目标数据,基于所述目标数据,获得目标图表数据组,并基于所述目标图表数据组,生成所述目标数据对应的目标图表;
所述显示器,用于将所述目标图表进行显示。
10.根据权利要求9所述的电子设备,其特征在于,还包括:
输入设备,用于采集用户的输入操作,所述输入操作包括:待绘制图表的特征信息;
则所述数据处理装置在基于所述目标图表数据组,生成所述目标数据对应的目标图表时,具体通过接收所述输入操作,并结合所述待绘制图表的特征信息,运行所述图表绘制命令集合中的命令,以得到所述目标数据对应的目标图表。
CN201610179336.8A 2016-03-25 2016-03-25 一种数据处理方法、装置及电子设备 Active CN105868310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610179336.8A CN105868310B (zh) 2016-03-25 2016-03-25 一种数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610179336.8A CN105868310B (zh) 2016-03-25 2016-03-25 一种数据处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN105868310A true CN105868310A (zh) 2016-08-17
CN105868310B CN105868310B (zh) 2020-05-26

Family

ID=56624744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610179336.8A Active CN105868310B (zh) 2016-03-25 2016-03-25 一种数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN105868310B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484667A (zh) * 2016-10-13 2017-03-08 广州视源电子科技股份有限公司 展示数据的方法及装置
CN106980642A (zh) * 2017-02-13 2017-07-25 上海瀚之友信息技术服务有限公司 一种业务数据实时展示系统及方法
CN107066614A (zh) * 2017-05-09 2017-08-18 北京京东尚科信息技术有限公司 数据生成方法和装置
CN107085602A (zh) * 2017-03-31 2017-08-22 北京知聚科技有限公司 统计图的生成方法与计算机存储介质
CN107180117A (zh) * 2017-06-30 2017-09-19 东软集团股份有限公司 图表推荐方法、装置和计算机设备
CN107562821A (zh) * 2017-08-17 2018-01-09 平安科技(深圳)有限公司 基于数据库的数据透视方法、装置和计算机存储介质
CN107870854A (zh) * 2016-09-27 2018-04-03 北京京东尚科信息技术有限公司 图表库数据准确性测试方法和测试装置
CN108614928A (zh) * 2018-04-16 2018-10-02 北京航空航天大学 数字飞行器仿真报告中图的人工智能生成方法和装置
CN109739947A (zh) * 2018-12-26 2019-05-10 广东工业大学 一种数据处理装置、方法、电子设备和存储介质
CN109977380A (zh) * 2019-01-08 2019-07-05 平安科技(深圳)有限公司 图表生成方法、装置、计算机设备及存储介质
CN112182074A (zh) * 2020-09-27 2021-01-05 中国建设银行股份有限公司 一种数据可视化方法、装置、电子设备及可读存储介质
CN112343656A (zh) * 2020-07-30 2021-02-09 中国煤炭地质总局地球物理勘探研究院 一种煤矿大数据下预测煤层底板标高应用方法与系统
CN112651216A (zh) * 2020-12-31 2021-04-13 中国农业银行股份有限公司 一种图表创建方法和相关装置
CN113642298A (zh) * 2021-08-13 2021-11-12 上海电信科技发展有限公司 综合化运维管理报表处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239508A1 (en) * 2006-04-07 2007-10-11 Cognos Incorporated Report management system
CN101794280A (zh) * 2010-03-11 2010-08-04 北京中科辅龙计算机技术股份有限公司 一种基于表格模板集的表格自动生成方法及系统
CN103064689A (zh) * 2013-01-04 2013-04-24 大唐软件技术股份有限公司 一种动态生成报表页面的实现方法及系统
CN103559292A (zh) * 2013-11-07 2014-02-05 大连东方之星信息技术有限公司 一种自定义动态创建并显示多级表格的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239508A1 (en) * 2006-04-07 2007-10-11 Cognos Incorporated Report management system
CN101794280A (zh) * 2010-03-11 2010-08-04 北京中科辅龙计算机技术股份有限公司 一种基于表格模板集的表格自动生成方法及系统
CN103064689A (zh) * 2013-01-04 2013-04-24 大唐软件技术股份有限公司 一种动态生成报表页面的实现方法及系统
CN103559292A (zh) * 2013-11-07 2014-02-05 大连东方之星信息技术有限公司 一种自定义动态创建并显示多级表格的方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107870854A (zh) * 2016-09-27 2018-04-03 北京京东尚科信息技术有限公司 图表库数据准确性测试方法和测试装置
CN107870854B (zh) * 2016-09-27 2020-06-30 北京京东尚科信息技术有限公司 图表库数据准确性测试方法和测试装置
CN106484667A (zh) * 2016-10-13 2017-03-08 广州视源电子科技股份有限公司 展示数据的方法及装置
CN106980642A (zh) * 2017-02-13 2017-07-25 上海瀚之友信息技术服务有限公司 一种业务数据实时展示系统及方法
CN107085602A (zh) * 2017-03-31 2017-08-22 北京知聚科技有限公司 统计图的生成方法与计算机存储介质
CN107066614A (zh) * 2017-05-09 2017-08-18 北京京东尚科信息技术有限公司 数据生成方法和装置
CN107180117A (zh) * 2017-06-30 2017-09-19 东软集团股份有限公司 图表推荐方法、装置和计算机设备
CN107562821A (zh) * 2017-08-17 2018-01-09 平安科技(深圳)有限公司 基于数据库的数据透视方法、装置和计算机存储介质
CN108614928A (zh) * 2018-04-16 2018-10-02 北京航空航天大学 数字飞行器仿真报告中图的人工智能生成方法和装置
CN109739947A (zh) * 2018-12-26 2019-05-10 广东工业大学 一种数据处理装置、方法、电子设备和存储介质
CN109977380A (zh) * 2019-01-08 2019-07-05 平安科技(深圳)有限公司 图表生成方法、装置、计算机设备及存储介质
CN112343656A (zh) * 2020-07-30 2021-02-09 中国煤炭地质总局地球物理勘探研究院 一种煤矿大数据下预测煤层底板标高应用方法与系统
CN112182074A (zh) * 2020-09-27 2021-01-05 中国建设银行股份有限公司 一种数据可视化方法、装置、电子设备及可读存储介质
CN112651216A (zh) * 2020-12-31 2021-04-13 中国农业银行股份有限公司 一种图表创建方法和相关装置
CN113642298A (zh) * 2021-08-13 2021-11-12 上海电信科技发展有限公司 综合化运维管理报表处理方法及系统

Also Published As

Publication number Publication date
CN105868310B (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
CN105868310A (zh) 一种数据处理方法、装置及电子设备
Meindl et al. The four smarts of Industry 4.0: Evolution of ten years of research and future perspectives
Fahimnia et al. Quantitative models for managing supply chain risks: A review
US7730023B2 (en) Apparatus and method for strategy map validation and visualization
US10452698B2 (en) Unstructured data analytics systems and methods
Ghosh et al. A comprehensive review of tools for exploratory analysis of tabular industrial datasets
US9135242B1 (en) Methods and systems for the analysis of large text corpora
CN102541975B (zh) 诸如利益和提供者合同之类的对象结构的分析
Huang et al. Expertise visualization: An implementation and study based on cognitive fit theory
Behbahani et al. A case-based reasoning system development for statistical process control: Case representation and retrieval
Xia Learning behavior mining and decision recommendation based on association rules in interactive learning environment
Pozzi et al. Linking data science to lean production: a model to support lean practices
CN110674206A (zh) 一种应用于企业知识共享平台
Tešendić et al. Business intelligence in the service of libraries
Chen et al. Exploring technology opportunities and evolution of IoT-related logistics services with text mining
Henning et al. Building compatible and dynamic character matrices–Current and future use of specimen-based character data
Ramanujan et al. Generating contextual design for environment principles in sustainable manufacturing using visual analytics
Shi et al. Data science and productivity: A bibliometric review of data science applications and approaches in productivity evaluations
CN107368506A (zh) 非结构化数据分析系统和方法
Mohamadina et al. Business intelligence: concepts, issues and current systems
Escobedo et al. Business intelligence and data analytics (BI&DA) to support the operation of smart grid
CN116595418A (zh) 一种科技成果多维画像构建方法
Sopan et al. Exploring data distributions: Visual design and evaluation
Yan et al. Digital technology and enterprise knowledge management: literature review and theoretical framework construction
Patil A Case Study-Visual Analysis of Sales Records Using TABLEAU

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant