CN105893574B - 一种数据处理方法及电子设备 - Google Patents

一种数据处理方法及电子设备 Download PDF

Info

Publication number
CN105893574B
CN105893574B CN201610203155.4A CN201610203155A CN105893574B CN 105893574 B CN105893574 B CN 105893574B CN 201610203155 A CN201610203155 A CN 201610203155A CN 105893574 B CN105893574 B CN 105893574B
Authority
CN
China
Prior art keywords
chart
target
mapping
data
sentence pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610203155.4A
Other languages
English (en)
Other versions
CN105893574A (zh
Inventor
胡长建
王文莉
苏亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201610203155.4A priority Critical patent/CN105893574B/zh
Publication of CN105893574A publication Critical patent/CN105893574A/zh
Application granted granted Critical
Publication of CN105893574B publication Critical patent/CN105893574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Abstract

本发明公开了一种数据处理方法及电子设备,所述方法包括:获得目标图表,所述目标图表包括:可视化组件;基于所述可视化组件,获得映射集合中与所述目标图表中的可视化组件相对应的目标映射关系,所述目标映射关系为:所述可视化组件与相应的句式模式之间的映射关系;依据所述目标映射关系中的目标句式模式,确定所述目标图表中的图表标示。本发明中无需人工进行标示的设置,而是通过对预先获得的映射集合中的映射关系找到与待标注的可视化组件相对应的句式模式,进而匹配到该可视化组件对应的图表标示,这一过程中无需人工设置操作,而是自动匹配完成,明显提高后续的图表生成效率。

Description

一种数据处理方法及电子设备
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据处理方法及电子设备。
背景技术
数据可视化是数据转变成洞见的重要途径,为此,现有技术中存在多种可视化工具如pentaho、tableu、qlik view、athena view等来将数据转换成图表格式,实现数据可视化。这些工具架构在关系数据库或者分布式数据仓库智商,方便的允许人来将对应的数据方便的呈现出来。
而所有这些工具中,仍然需要人工设置数据检索内容及对应图标参数来标注图表中的标示,导致后续图表的生成效率较低。
发明内容
有鉴于此,本发明提供了一种数据处理方法及电子设备,用以解决现有技术中图表的标示需要人工设置,导致后续图表的生成效率较低的技术问题。
本发明提供了一种数据处理方法,包括:
获得目标图表,所述目标图表包括:可视化组件;
基于所述可视化组件,获得映射集合中与所述目标图表中的可视化组件相对应的目标映射关系,所述目标映射关系为:所述可视化组件与相应的句式模式之间的映射关系;
依据所述目标映射关系中的目标句式模式,确定所述目标图表中的图表标示。
上述方法,优选的,所述映射集合基于采集到的历史图表数据及历史网页数据获得,所述映射集合中包括所述历史图表数据及历史网页数据中的可视化组件与相应的句式模式之间的映射关系。
上述方法,优选的,获得所述映射集合,包括:
对采集到的历史图表数据及历史网页数据进行结构和语义解析,以得到所述历史图表数据及历史网页数据中的可视化组件及图表标题信息;
基于所述可视化组件及所述图表标题信息,获得图表页面集合,所述图表页面集合包括:图表块,所述图表块包括可视化组件、标题信息及标注信息;
对所述图表块中的标题信息及标注信息进行句式分解,以得到与该图表块中可视化组件相对应的句式模式,进而得到映射集合;
其中,所述映射集合中包括所述图表块中的可视化组件与相应的句式模式之间的映射关系。
上述方法,优选的,所述基于所述可视化组件,获得映射集合与所述目标图表中的可视化组件相对应的目标映射关系,包括:
基于所述映射集合中的映射关系,查找具有与所述目标图表中的可视化组件相一致的目标可视化组件;
确定所述目标可视化组件所属的映射关系为目标映射关系,所述目标映射关系为:所述目标可视化组件与相应的句式模式之间的映射关系。
上述方法,优选的,依据所述目标映射关系中的目标句式模式,确定所述目标图表中的图表标示,包括:
提取所述目标句式模式中的目标图表标示作为所述目标图表的图表标示,所述图表标示与所述目标图表中的可视化组件相对应。
上述方法,优选的,依据所述目标映射关系中的目标句式模式,确定所述目标图表中的图表标示,包括:
接收用户的输入操作,所述输入操作为用户基于所述目标句式模式相关的提示信息进行输入所产生;
确定所述输入操作对应的目标图表标示作为所述目标图表的图表标示,所述图表标示与所述目标图表中的可视化组件相对应。
本发明还提供了一种电子设备,包括处理器和存储器,其中:
所述处理器,用于获得目标图表,所述目标图表包括:可视化组件,基于所述可视化组件,获得映射集合中与所述目标图表中的可视化组件相对应的目标映射关系,所述目标映射关系为:所述可视化组件与相应的句式模式之间的映射关系,再依据所述目标映射关系中的目标句式模式,确定所述目标图表中的图表标示;
所述存储器,用于存储所述处理器运行程序所需的数据。
上述电子设备,优选的,还包括:
显示器,用于将所述处理器输出的图表标示及所述目标图表进行显示。
由上述方案可知,本发明提供的一种数据处理方法及电子设备,通过对预设的映射集合中查找到与待标注的图表中的可视化组件相对应的映射关系,进而找到该可视化组件所对应的句式模式,进而依据该句式模式中的句式结构或句式内容来确定图表中可视化组件的图表标示,实现本发明目的。本发明中无需人工进行标示的设置,而是通过对预先获得的映射集合中的映射关系找到与待标注的可视化组件相对应的句式模式,进而匹配到该可视化组件对应的图表标示,这一过程中无需人工设置操作,而是自动匹配完成,明显提高后续的图表生成效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例一提供的一种数据处理方法的实现流程图;
图2及图3分别为本发明实施例一的部分流程图;
图4为本发明实施例二提供的一种电子设备的结构示意图;
图5为本发明实施例二的另一结构示意图;
图6为本发明实施例二的部分结构示意图;
图7~图9分别为本发明实施例的应用示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1,为本发明实施例一提供的一种数据处理方法的实现流程图,其中,所述方法用于确定待标注的目标图表中可视化组件的图表标示。
在本实施例中,所述方法可以包括以下步骤:
步骤101:获得目标图表。
其中,所述目标图表中至少包括有:可视化组件,本实施例中需要对所述目标图表中的可视化组件进行标示的标注,这里的标示可以理解为图表的标题及备注信息等内容。
需要说明的是,本实施例中,所述目标图表的数据具有以下图表数据格式:G=<V,R>。其中,V对应图表呈现块,简称图表块,而图表块V具有以下数据格式V={comp,data,title,notes},即一个图表呈现块包括可视化组件即呈现组件、呈现块数据及图表呈现块的标题和标注;R对应着不同图表呈现块之间的关系,相应的,R具有以下数据格式:R={vi,vj,connection},一个关系包括关联的两个图表呈现块及他们之间的关系,所谓的关系是指:数据模型的关系,比如说,vi和vj是统一维度,但是不同测量,或者是不同数据抽象层面的关系。
步骤102:基于所述可视化组件,获得映射集合中与所述目标图表的可视化组件相对应的目标映射关系。
其中,所述目标映射关系为:所述可视化组件与相应的句式模式之间的映射关系。
需要说明的是,所述映射集合为预先获得,所述映射集合中除了包括一个或多个映射关系之外,还包括每个所述映射关系所对应的可视化组件及相应的句式模式,这些可视化组件组成可视化组件集合,这些句式模式组成句式模式集合,也就是说,所述映射集合中包括:可视化组件集合、句式模式集合以及可视化组件及句式模式之间的映射关系。其数据结构:P=<C,S,RX>,其中,C为可视化组件集合;S为句式模式集合,其中的每个句式模式包括一系列的模式化句子,比如“@a整体趋势上比@b更有竞争力”,还包括param对应着参数的描述和定义,例如:@a和@b分别为两个数据对象;RX对应着句式模式和可视化组件的映射关系,其数据结构RX={comp,s,strength},其中,strength表明组件和描述之间关联的强度。
而在实现本实施例时,可以在所述映射集合中,获得与所述目标图表中的可视化组件相对应的目标映射关系,而所述目标映射关系为所述可视化组件与其对应的目标句式模式之间的映射关系。
步骤103:依据所述目标映射关系中的目标句式模式,确定所述目标图表中的图表标示。
其中,本实施例中可以通过对所述目标句式模式进行解析,提取出该目标句式模式中的标题信息及标注信息等,进而确定所述目标图表中可视化组件的图表标示。
由上述方案可知,本发明实施例一提供的一种数据处理方法,通过对预设的映射集合中查找到与待标注的图表中的可视化组件相对应的映射关系,进而找到该可视化组件所对应的句式模式,进而依据该句式模式中的句式结构或句式内容来确定图表中可视化组件的图表标示,实现本实施例目的。本实施例中无需人工进行标示的设置,而是通过对预先获得的映射集合中的映射关系找到与待标注的可视化组件相对应的句式模式,进而匹配到该可视化组件对应的图表标示,这一过程中无需人工设置操作,而是自动匹配完成,明显提高后续的图表生成效率。
需要说明的是,上文中的映射集合可以基于预先采集到的历史图表数据及历史网页数据获得,所述映射集合中包括:所述历史图图表数据及所述历史网页数据中的可视化组件与相应的句式模式之间的映射关系。
具体的,如图2中所示,为本发明实施例中,获得所述映射集合可以通过以下步骤实现:
步骤201:对采集到的历史图表数据及历史网页数据进行结构和语义解析,以得到所述历史图表数据及历史网页数据中的可视化组件及图表标题信息。
其中,在本实施例中可以通过网络爬虫等工具采集网络上的历史图表数据及历史网页数据,例如提取数据库中的电子图表文档集合进行保存,并在公开的互联网上爬取包含图表内容的网页进行保存,之后再对这些历史图表数据及历史网页数据借助网页结构分析和语义关联分析,以提取到所述历史图表数据及历史网页数据中的图表内容,进而得到这些图表内容中可视化组件及相关的图表标题信息及描述信息(标注)等。
步骤202:基于所述可视化组件及所述图表标题信息,获得图表页面集合,所述图表页面集合包括:图表块,所述图表块包括可视化组件、标题信息及标注信息。
具体的,本实施例中可以借助于可视化组件的信息从图表组件提供商的数据库中进行组件类型定位,进而确定所述历史图表数据和历史网页数据的可视化组件的组件类型,进而建立图表页面集合,其中包括多个图表页面:W=<VX,source>,其中,VX对应着图表块,VX={comp,title,notes},一个图表页面的图表块通常会包括组件、标题和标注,而source对应着该图表块的来源。其中,comp可以表现为三元组<type,vendor>,其中type对应着可视化组件的类型,包括折现图、柱状图及散点图等类型。
步骤203:对所述图表块中的标题信息及标注信息进行句式分解,以得到与该图表块中可视化组件相对应的句式模式,进而得到映射集合。
其中,所述映射集合中包括所述图表块中的可视化组件与相应的句式模式之间的映射关系。
具体的,本实施例中对所述图表页面集合进行分析,对每个图表块中的title和notes进行句式分析,从句子中分析描述对象和描述内容,进而将对应的描述对象和描述内容进行参数化形成对应的句式表述模式,即句式模式,最终形成映射集合P=<C,S,RX>。
由上述方案可知,本实施例获得映射集合的所有数据来自公开的Web和其他电子材料,对应样本丰富,能够比较丰富地提取描述样本,并且考虑到发表的内容大都是经过仔细推敲的,因此描述是比较容易理解和接受的描述,因此对应生成的内容可读性和实用性都较强。
具体的,本实施例中在基于所述可视化组件,获得映射集合与所述目标图表中的可视化组件相对应的目标映射关系时,具体可以通过以下步骤实现,如图3中所示:
步骤301:基于所述映射集合中的映射关系,查找具有与所述目标图表中的可视化组件相一致的目标可视化组件。
也就是说,在所述映射集合中的所有映射关系的内容如可视化组件、句式模式及之间的对应关系中,确定与所述目标图表中的可视化组件相一致的目标可视化组件。
步骤302:确定所述目标可视化组件所属的映射关系为目标映射关系,所述目标映射关系为:所述目标可视化组件与相应的句式模式之间的映射关系。
相应的,基于前述实现,所述步骤103可以通过以下方式实现:
提取所述目标句式模式中的目标图表标示作为所述目标图表的图表标示,所述图表标示与所述目标图表中的可视化组件相对应。
也就是说,本实施例中直接将所述目标句式模式中的图表标示作为所述目标图表中可视化组件的图表标示进行设置,进而使得后续得到的目标图表中可视化组件能够具有较为准确的图表标示。
或者,所述步骤103也可以通过以下方式实现:
接收用户的输入操作,所述输入操作为用户基于所述目标句式模式相关的提示信息进行输入所产生,之后,确定该输入操作对应的目标图表标示作为所述目标图表的图表标示,所述图表标示与所述目标图表中的可视化组件相对应。
也就是说,本实施例中在得到所述目标句式模式之后,通过显示界面提示给用户,由用户对所述目标句式模式中的图表标示进行选择或确认的输入操作,进而本实施例在接收到所述输入操作之后,可以通过解析该输入操作来确定用户所选择的目标图表标示,该目标图表标示即为所述目标图表中可视化组件的图表标示。由此,利用本实施例能够实现对用户图表制作中标题和备注提示的自动辅助实现,提升图表制作中呈现的效果,协助数据分析师快速实现高水平的数据图表制作和诠释,降低了数据图表制作的难度,能够加速企业基于数据驱动的转型。
进一步的,在本实施例中确定所述目标图表的图表标示之后,可以将用户的输入操作等能够表明用户选择意向信息及对应的图表标示进行保存,进而丰富所述映射集合中的映射关系,形成自我学习用户的图表表述或绘制的偏好,进而在后续中可以对本实施例中的目标句式模式选择的方案进行改进或修正,进而降低用户图表描述的个性化,提高图表绘制的准确性,改善用户体验。
参考图4,为本发明实施例二提供的一种电子设备的结构示意图,其中,所述电子设备可以包括以下结构:处理器401和存储器402,其中:
所述处理器401,用于获得目标图表,所述目标图表包括:可视化组件,基于所述可视化组件,获得映射集合中与所述目标图表中的可视化组件相对应的目标映射关系,所述目标映射关系为:所述可视化组件与相应的句式模式之间的映射关系,再依据所述目标映射关系中的目标句式模式,确定所述目标图表中的图表标示。
其中,所述处理器401的具体实现结构及实现方式可以参考前文中相关的实施例内容,此处不再详述。
所述存储器402,用于存储所述处理器运行程序所需的数据。
其中,所述存储器402可以为硬盘、磁盘、SD卡等存储设备,用以存储所述处理器401运行程序所使用的数据以及运行程序过程中所产生的数据。
由上述方案可知,本发明实施例二提供的一种电子设备,通过对预设的映射集合中查找到与待标注的图表中的可视化组件相对应的映射关系,进而找到该可视化组件所对应的句式模式,进而依据该句式模式中的句式结构或句式内容来确定图表中可视化组件的图表标示,实现本实施例目的。本实施例中无需人工进行标示的设置,而是通过对预先获得的映射集合中的映射关系找到与待标注的可视化组件相对应的句式模式,进而匹配到该可视化组件对应的图表标示,这一过程中无需人工设置操作,而是自动匹配完成,明显提高后续的图表生成效率。
基于上述实施例,所述电子设备还可以包括以下结构,如图5中所示:
显示器403,用于将所述处理器401输出的图表标示及所述目标图表进行显示。
其中,所述显示器403可以为液晶显示器或投影显示器等设备实现。
需要说明的是,在实际应用中,上述处理器401中可以包括多个功能模式实现其相应的功能,具体的,如图6中所示,所述处理器401可以具有以下功能模块:电子文档管理模块、网络爬虫、图表页面识别模块、句式表述模式提取模块、用户制表插件、图表标注推荐模块及自学习优化模块等。
具体的,各个功能模块主要功能及工作流如下:
电子文档管理模块,用于提取电子图表文档集合并保存到对应的数据库中。
网页爬虫,用于从公开的互联网上爬取包含图表内容的网页,并将相关数据存放到数据库中。
图表页面识别模块,用于基于电子图表文档和网页,借助于结构分析和语义关联分析,提取出组件和相关的标题以及描述,借助于组件的信息从图表组件提供商进行组件类型定位,形成图表页面集合W=<VX,Source>并保存到数据库中。
句式表述模式提取模块,用于根据图表内容W,借助于句式分析参数化描述实体和描述内容,形成句式表述模式集合即映射集合的提取,其中和组件的关联强度除去考虑数量也考虑对应数据源的可信度,综合建立对应的强度关联,最终形成P=<C,S,RX>,并保存到数据库中。
用户制作插件,用于根据用户的图表制作工具,提供当前对应的制作状态和图表和相关的数据内容,并形成用户制表上下文信息,包括图表组件,图表数据对象和当前制作状态。
图表标注推荐模块,用于根据用户制作上下文信息,当用户完成图表绘制和属性选择后,当用户有一定停留后,即所述目标图表中的可视化组件已经绘制完成需要进行标题及标注的设置,此时,确定目标句式模式之后,触发表述的描述推荐,即:根据组件和表述的关联强度,结合数据实体进行对句式表述模式集合即映射集合进行检索,得到目标句式模式中的内容推荐给用户,由用户进行选择,并辅助用户进行编辑,最终形成用户图表表述内容。
自学习优化模块,用于根据用户对表述模式(句式模式)的选择和对应编辑修改的记录,了解用户的习惯和个性化特点,进行调整优化算法和后续编写的主动提示,提高易用性和用户体验。
以下为利用本发明的上述技术方案获得目标图表的图表标示的示例详述:
根据电子文档管理和网页提取,获得一系列原始数据,电子图表文档,或者网页,如下:
Docs={doc1,doc2,..,docm},其中每一个对应一个电子图表文档;
Web={web’1,web2,…web’n},其中每一个对应着一个网页信息;
其中每个网页信息保留其数据源,对应数据源可以自动或者人工标注其权威性SA。
图表页面识别模块,根据上述提取的网页和文档,借助于结构和语义管理分析,建立图表组件和标题和内容的提取,并根据数量和数据源权威信息SA,建立初步的关系强度加权,其中标题和标注的提取可以借助于图表环绕相关相近,还有网页的标题的关键字(通常对应描述的内容),借助于这个关键字寻找相关的语义关联词(比如网页关键词为污染,燃煤对应的污染源,事件,地点等就是这个关联词),借助于关联词定位到对应的段落,再结合定位词的具体实体识别,最终选择对应的文字段落,最终形成对图表页面集合W=<VX,Source>,如图7中所示。
句式表述模式提取模块,根据W提取的内容,进行句式分析,提取描述对象和描述内容,并进行参数化,比如提取的语句如下:“从污染源来看,冬季取暖产生的比汽车产生的要大得多(高20%)”,对应句法分析将提取:数据对象-污染源,数据对象实体1-冬季取暖,数据对象实体2-汽车,数据对比-高20%。将上述内容进行参数化,形成如下句式模板:从@objectclass来看,@objecta产生的比@objectb产生的要大得多(@difference),如图8中所示。
之后,对于上述句式可以再进一步压缩,所谓压缩就是同义词的聚合,比如上边的“大得多”可以和“显著得多”合并。进而对于模式就存在对应组件和对应表述的一个计数,再结合数据源的权威性SA,最终形成组件和表述之间的对应关系强度,最终形成P=<C,S,RX>。
然后,提取用户标注制作上下文,当用户完成图表的表现调整,比如用户连续调整图表存在一定时间的空闲,则触发对应的推荐,并提取用户的编辑上下文,比如编辑的图表类型,图表数据实体的个数,对应关键的差异内容(比如趋势,突起点,平均值等)。比如:当前用户的上下文为:
{折线图,2个数据实体-Yoga3和Gaming 600的销售,销售增量速度,相差10个度量}
图表标注推荐模块,根据用户的上下午从句式表述模式集合中根据图表类型,数据实体个数还有表述差别提取合适的句式表达模式,并按照关联性进行排序,比如最终选定句式表达模式如下(从系统角度上可以增加一个整体切换模块):
从@objectclass来看,@objecta产生的比@objectb产生的要大得多(@difference)。
系统会自动进行对应内容映射,并将对应的部分默认置为可选择,如图9中所示。
而当用户编辑完成后,对应的内容将自动入库,并再次解析完成对应的句式模式库,并增加用户的信息和偏好,如果用户存在行业特色,这些信息将一并进入,最终会根据用户的背景和个人习惯,优化推荐喜欢,更重要的是根据行业信息自动从互联网提取行业术语,优化句式模式数据库,使得标注更专业,提示整个体验,尽量减少用户的再次编辑。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种数据处理方法,包括:
获得待标注的目标图表,所述目标图表的数据包括:图表块,所述图表块包括可视化组件、图表呈现块数据以及图表呈现块的标题和标注;
基于所述可视化组件,获得映射集合中与所述目标图表中的可视化组件相对应的目标映射关系,所述目标映射关系为:所述可视化组件与相应的句式模式之间的映射关系;每个句式模式包括一系列的模式化句子;
依据所述目标映射关系中的目标句式模式,确定所述目标图表中的图表标示,包括:提取所述目标句式模式中的目标图表标示作为所述目标图表的图表标示,所述图表标示与所述目标图表中的可视化组件相对应,所述图表标示包括图表的标题信息及标注信息,利用所述标题信息及标注信息分别对待标注的目标图表中的标题和标注进行标示,以生成图表。
2.根据权利要求1所述的方法,其特征在于,所述映射集合基于采集到的历史图表数据及历史网页数据获得,所述映射集合中包括所述历史图表数据及历史网页数据中的可视化组件与相应的句式模式之间的映射关系。
3.根据权利要求2所述的方法,其特征在于,获得所述映射集合,包括:
对采集到的历史图表数据及历史网页数据进行结构和语义解析,以得到所述历史图表数据及历史网页数据中的可视化组件及图表标题信息;
基于所述可视化组件及所述图表标题信息,获得图表页面集合,所述图表页面集合包括:图表块,所述图表块包括可视化组件、标题信息及标注信息;
对所述图表块中的标题信息及标注信息进行句式分解,以得到与该图表块中可视化组件相对应的句式模式,进而得到映射集合;
其中,所述映射集合中包括所述图表块中的可视化组件与相应的句式模式之间的映射关系。
4.根据权利要求3所述的方法,其特征在于,所述基于所述可视化组件,获得映射集合与所述目标图表中的可视化组件相对应的目标映射关系,包括:
基于所述映射集合中的映射关系,查找具有与所述目标图表中的可视化组件相一致的目标可视化组件;
确定所述目标可视化组件所属的映射关系为目标映射关系,所述目标映射关系为:所述目标可视化组件与相应的句式模式之间的映射关系。
5.根据权利要求1、2、3或4所述的方法,其特征在于,依据所述目标映射关系中的目标句式模式,确定所述目标图表中的图表标示,包括:
接收用户的输入操作,所述输入操作为用户基于所述目标句式模式相关的提示信息进行输入所产生;
确定所述输入操作对应的目标图表标示作为所述目标图表的图表标示,所述图表标示与所述目标图表中的可视化组件相对应。
6.一种电子设备,包括处理器和存储器,其中:
所述处理器,用于获得待标注的目标图表,所述目标图表的数据包括:图表块,所述图表块包括可视化组件、图表呈现块数据以及图表呈现块的标题和标注;基于所述可视化组件,获得映射集合中与所述目标图表中的可视化组件相对应的目标映射关系,所述目标映射关系为:所述可视化组件与相应的句式模式之间的映射关系,每个句式模式包括一系列的模式化句子;
再依据所述目标映射关系中的目标句式模式,确定所述目标图表中的图表标示,包括:提取所述目标句式模式中的目标图表标示作为所述目标图表的图表标示,所述图表标示与所述目标图表中的可视化组件相对应,所述图表标示包括图表的标题信息及标注信息,利用所述标题信息及标注信息分别对待标注的目标图表中的标题和标注进行标示,以生成图表;
所述存储器,用于存储所述处理器运行程序所需的数据。
7.根据权利要求6所述的电子设备,其特征在于,还包括:
显示器,用于将所述处理器输出的图表标示及所述目标图表进行显示。
CN201610203155.4A 2016-03-31 2016-03-31 一种数据处理方法及电子设备 Active CN105893574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610203155.4A CN105893574B (zh) 2016-03-31 2016-03-31 一种数据处理方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610203155.4A CN105893574B (zh) 2016-03-31 2016-03-31 一种数据处理方法及电子设备

Publications (2)

Publication Number Publication Date
CN105893574A CN105893574A (zh) 2016-08-24
CN105893574B true CN105893574B (zh) 2020-05-26

Family

ID=57012139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610203155.4A Active CN105893574B (zh) 2016-03-31 2016-03-31 一种数据处理方法及电子设备

Country Status (1)

Country Link
CN (1) CN105893574B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427671B (zh) * 2018-01-25 2021-06-25 腾讯科技(深圳)有限公司 信息转换方法和装置、存储介质及电子装置
CN108710628B (zh) * 2018-03-29 2022-06-17 中国科学院软件研究所 一种基于草图交互的面向多模态数据的可视分析方法和系统
CN110196891B (zh) * 2018-11-15 2024-03-15 腾讯大地通途(北京)科技有限公司 街区类型的确定方法、装置、存储介质及电子装置
CN112306589A (zh) * 2019-07-29 2021-02-02 阿里巴巴集团控股有限公司 数据处理方法、系统及设备
CN112214557B (zh) * 2020-10-21 2023-08-22 中国银行股份有限公司 数据匹配分类方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1794234A (zh) * 2004-12-20 2006-06-28 富士通株式会社 数据语义化器
CN103902516A (zh) * 2014-04-23 2014-07-02 国家电网公司 一种数据生成方法及装置
CN105243469A (zh) * 2015-09-17 2016-01-13 上海寰信网络信息技术有限公司 一种多维空间映射到低维空间的方法及其展示方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1794234A (zh) * 2004-12-20 2006-06-28 富士通株式会社 数据语义化器
CN103902516A (zh) * 2014-04-23 2014-07-02 国家电网公司 一种数据生成方法及装置
CN105243469A (zh) * 2015-09-17 2016-01-13 上海寰信网络信息技术有限公司 一种多维空间映射到低维空间的方法及其展示方法和系统

Also Published As

Publication number Publication date
CN105893574A (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN105893574B (zh) 一种数据处理方法及电子设备
US7555480B2 (en) Comparatively crawling web page data records relative to a template
US9015175B2 (en) Method and system for filtering an information resource displayed with an electronic device
CN110968782B (zh) 一种面向学者的用户画像构建及应用方法
US20090157630A1 (en) Method of extracting data and recommending and generating visual displays
US20070022072A1 (en) Text differentiation methods, systems, and computer program products for content analysis
CN104487936B (zh) 用于对来自应用程序数据文件的信息进行计算机辅助消费的方法和系统
DE102012221251A1 (de) Semantisches und kontextbezogenes Durchsuchen von Wissensspeichern
US20150269138A1 (en) Publication Scope Visualization and Analysis
US8260772B2 (en) Apparatus and method for displaying documents relevant to the content of a website
WO2013134200A1 (en) Digital resource set integration methods, interface and outputs
Schulz et al. Practical Web data extraction: are we there yet?-a short survey
US8204895B2 (en) Apparatus and method for receiving a report
US8615733B2 (en) Building a component to display documents relevant to the content of a website
JP2010049372A (ja) コンテンツ検索装置
EP1814048A2 (en) Content analytics of unstructured documents
CN114564938A (zh) 文档的解析方法及装置、存储介质和处理器
CN107622125B (zh) 一种信息爬取方法和装置、电子设备
Ganapathy et al. EASY URLS IN THE CONTENT MANAGEMENT SYSTEM WITH CRAWLERS FOR ADDED SECURITY
CN113407678B (zh) 知识图谱构建方法、装置和设备
JP2020067987A (ja) 要約作成装置、要約作成方法、及びプログラム
CN115238662A (zh) 一种招投标文件快速编辑方法及系统
Zhang et al. Harnessing the wisdom of the crowds for accurate web page clipping
US20100125496A1 (en) System and method for automated generation of advertising
US10162877B1 (en) Automated compilation of content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant