CN104077303B - 用于呈现数据的方法和装置 - Google Patents

用于呈现数据的方法和装置 Download PDF

Info

Publication number
CN104077303B
CN104077303B CN201310104829.1A CN201310104829A CN104077303B CN 104077303 B CN104077303 B CN 104077303B CN 201310104829 A CN201310104829 A CN 201310104829A CN 104077303 B CN104077303 B CN 104077303B
Authority
CN
China
Prior art keywords
data
dimensional data
presented
dimensional
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310104829.1A
Other languages
English (en)
Other versions
CN104077303A (zh
Inventor
张超
严骏驰
王瑜
赵乾坤
张欣
田春华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201310104829.1A priority Critical patent/CN104077303B/zh
Publication of CN104077303A publication Critical patent/CN104077303A/zh
Application granted granted Critical
Publication of CN104077303B publication Critical patent/CN104077303B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的各实施方式提供了用于呈现数据的方法和装置。具体地,在本发明的一个实施方式中,提供了一种用于呈现数据的方法,包括:从数据源的第一数据集合获取第一原始数据、以及转换自第一原始数据的第一三维数据;提取将第一原始数据转换为第一三维数据的转换规则;响应于从数据源的第二数据集合获取第二原始数据,基于转换规则将第二原始数据转换为第二三维数据;以及呈现第二三维数据的可视化表示;其中第一原始数据和第二原始数据的维度大于三维。在本发明的一个实施方式中,提供了用于呈现数据的装置。采用本发明所述的方法和装置,可以利用自动化处理代替人工操作,快速准确地将高维数据转换为低维数据,进而以可视化方式呈现。

Description

用于呈现数据的方法和装置
技术领域
本发明的各实施方式涉及数据处理,更具体地,涉及用于将高维数据转换为低维数据并以可视化方式进行呈现的方法和装置。
背景技术
随着计算机硬件技术以及软件技术的发展,越来越多的行业已经实现了基于计算机的自动化处理。随着办公自动化的普及,业务处理期间涉及的各种数据可以以诸如二维表格等方式存储在数据存储系统中。通常,根据行业的不同,这些数据通常会涉及方方面面的数据,并且以相当高的维度表示。
具体地,仅以电子产品行业为例,当电子产品提供商建立数据库时,需要采集关于客户的诸多方面的信息。在本发明的上下文中,可以将这些方面称为“维度”。例如,在描述客户属性时,可以包括但不限于如下维度,姓名、年龄、血型、职业、婚姻状况、收入等方面的信息;例如,对于出售的各种商品而言,可能会涉及商品名称、型号、价格、折扣、销量、生产日期、保修期等方面的信息。当记录购买事件的内容时,则需要包括客户属性、商品属性以及购买发生的时间、地点等等更多维度。在上文中仅以示例方式示出了数据中可能涉及的多个维度的示例,应当理解,在实际应用环境中,数据的维度可能会达到数十甚至上百的数量级。
目前的常规处理是,以二维表格的形式将数据的各个维度打印在诸如纸张上或者在显示器上显示。当数据维度较低(例如,小于5维)时,可以较为方便地以二维表格形式呈现,然而当数据的维度达到一定数量级时,根本不能以常规方式来呈现这些数据。
数据立方体技术是数据处理领域中的一种新型的技术方案,立方体可以以更为直观的方式存储和显示多维数据。该技术方案可以将高维的原始数据转换为三维数据并进行显示。目前,如何基于数据立方体技术来以更有效的方式将高维数据转换为低维数据,并进行可视化显示已经成为一个研究重点。
尽管目前已经开发出一些基于数据立方体技术来对降低数据维度的技术方案,然而实现这些技术方案的基础是,假定待处理数据可以全面地反映所在领域的数据分布规律,即,只有当待处理数据能够展示原始数据在整个样本空间内的常规分布规律时,才能够准确地降低这些待处理数据的维度。
然而目前所面临的问题在于,在许多领域中实现办公自动化的时间并不长,所采集到的原始数据在数量上并不充分,并且有可能不能够全面反映该领域中的一般分布规律。例如,仅以电子产品行业为例,电子产品在A国还属于新兴行业,并且根据目前在A国市场中所采集到的数据,客户可能主要集中在20-40岁的年龄段;然而根据发达国家的统计数据,电子产品的主要客户可能会集中在例如15-50岁的年龄区间。
应当注意,待处理数据本身会随着时间而逐渐丰富,并且逐渐趋向于反映数据自身的真实分布规律,如果在初始时基于所采集到的“非典型”数据来开发数据立方体模型,则很可能会因为该数据模型不够准确等原因,造成该数据模型不再适用于处理未来的数据,甚至造成必须放弃已经付出劳动并重新构造数据模型等不良结果。另一方面,新兴行业中的技术人员的专业素质有待提高,无法以有效的方式处理数据。因而,面对从不成熟数据源采集到的并不能准确反映数据的一般分布规律的原始数据,如何以适当方式进行处理成为一项亟待解决的问题。
发明内容
因而,期望开发出一种数据转换的技术方案,期望该技术方案能够对来自不成熟数据源的原始数据进行合理处理,进而将该原始数据从复杂的高维数据转换为较低维度的数据,并且还期望可以以易于识别的方式向用户呈现该数据的可视化表现。
在本发明的一个实施方式中,提供了一种用于呈现数据的方法,包括:从数据源的第一数据集合获取第一原始数据、以及转换自第一原始数据的第一三维数据;提取将第一原始数据转换为第一三维数据的转换规则;响应于从数据源的第二数据集合获取第二原始数据,基于转换规则将第二原始数据转换为第二三维数据;以及呈现第二三维数据的可视化表示;其中第一原始数据和第二原始数据的维度大于三维。
在本发明的一个实施方式中,呈现第二三维数据的可视化表示包括:根据第二三维数据的三个维度,将第二三维数据划分为多个空间;以及在第二三维数据的三个维度中呈现多个空间。
在本发明的一个实施方式中,在第二三维数据的三个维度中呈现多个空间包括:将多个空间之一内的一部分第二三维数据聚类为多个类别;以及在空间内呈现多个类别。
在本发明的一个实施方式中,提供了一种用于呈现数据的装置,包括:获取模块,配置用于从数据源的第一数据集合获取第一原始数据、以及转换自第一原始数据的第一三维数据;提取模块,配置用于提取将第一原始数据转换为第一三维数据的转换规则;转换模块,配置用于响应于从数据源的第二数据集合获取第二原始数据,基于转换规则将第二原始数据转换为第二三维数据;以及呈现模块,配置用于呈现第二三维数据的可视化表示;其中第一原始数据和第二原始数据的维度大于三维。
在本发明的一个实施方式中,呈现模块包括:划分模块,配置用于根据第二三维数据的三个维度,将第二三维数据划分为多个空间;以及空间呈现模块,配置用于在第二三维数据的三个维度中呈现多个空间。
在本发明的一个实施方式中,空间呈现模块包括:聚类模块,配置用于将多个空间之一内的一部分第二三维数据聚类为多个类别;以及聚类呈现模块,配置用于在空间内呈现多个类别。
采用本发明的各个实施方式所述的技术方案,可以基于适用于成熟数据源的数据处理的数据模型,来将来自不成熟数据源的原始数据进行自动处理。进一步,可以在业务发展初期利用计算机的自动化处理代替人工操作,从而快速准确地将高维数据转换为低维数据,进而以可视化方式呈现。
附图说明
结合附图并参考以下详细说明,本发明各实施方式的特征、优点及其他方面将变得更加明显,在此以示例性而非限制性的方式示出了本发明的若干实施方式。在附图中:
图1示意性示出了适于实现本发明实施方式的示例性计算系统的框图;
图2示意性示出了根据一个技术方案的用于呈现数据的系统的架构图;
图3示意性示出了根据一个实施方式的用于呈现数据的方法的流程图;
图4示意性示出了神经网络模型的示意图;
图5示意性示出了根据一个实施方式所呈现的数据立方体的图示;
图6A-图6C分别示意性示出了根据一个实施方式的对三维数据进行聚类的图示;以及
图7示意性示出了根据一个实施方式的用于呈现数据的装置的框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品(manufacture)。
也可以把计算机程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其他可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其他模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在本发明的上下文中,将以上文所述的表示购买事件的数据为具体示例进行描述。该数据例如可以包括多个维度,例如,姓名、年龄、血型、商品名称、型号、价格、购买时间、地点,等等。本领域技术人员还可以基于下文中所描述的方法来对包括其他维度的原始数据进行数据。
图2示意性示出了根据一个技术方案的用于呈现数据的系统的架构图200。在此技术方案中,从数据源210中采集到的数据是高维数据(如箭头A所示)。继而,在方框220处,可以通过分析高维数据中的各个数据维度之间的关系,寻找适当的映射方式来将高维数据降低维度,并输出低维数据(如箭头B所示,例如三维数据)。接着,在方框230处,可以基于低维数据来建立数据立方体,并形成数据的可视化表示(如箭头C所示)。
应当注意,在此技术方案中在方框220处所示“降低维度”是指将原始的高维数据降低到少数的几个维度,同时保持原有数据的信息。另外,在方框230处所示的步骤是基于降维后的数据来形成的,这两个步骤在很大程度上依赖于技术人员的专业经验,并且需要大量的人工分析和处理,才能够生成可视化表示。换言之,在图2所示的技术方案中,方框240中的步骤主要依赖于人工处理。由于不同技术人员的经验不同,所输出的结果也会有所不同。
另外,采用如图2所示的技术方案的另一问题在于,当数据源210中的数据样本本身的是不成熟数据时,即使技术人员具有丰富的专业经验,在如方框240所示的步骤也很可能并不适合。
本发明的各个实施方式的一个应用环境在于,假设电子产品市场在A国刚刚起步,并且相关的客户、商品、以及购买行为的数据并不充分(即,尽管每个数据样本的维度都较高,但是数据样本的数量很少)。则从A国采集的数据无法代表该国真正的数据空间分布,因而无法进行后续的降低维度和构建数据立方体的处理。假设B国是发达国家,一方面,电子产品行业发展成熟,数据整理和记录完善;另一方面,某些数据仓库拥有者还可能已经针对电子产品行业的数据建立了数据立方体。此时,期望可以利用目前已有的数据集(来自B国的数据)来辅助建立当前数据集(来自A国的数据)的数据立方体,从而避免A国数据不充分的时期难以构建数据立方体的难题。
基于上述思想,本发明提供了一种用于呈现数据的方法。该方法包括:从数据源的第一数据集合获取第一原始数据、以及转换自第一原始数据的第一三维数据;提取将第一原始数据转换为第一三维数据的转换规则;响应于从数据源的第二数据集合获取第二原始数据,基于转换规则将第二原始数据转换为第二三维数据;以及呈现第二三维数据的可视化表示;其中第一原始数据和第二原始数据的维度大于三维。
图3示意性示出了根据一个实施方式的用于呈现数据的方法的流程图300。具体地,在步骤S302处,从数据源的第一数据集合获取第一原始数据、以及转换自第一原始数据的第一三维数据。在本发明的上下文中,数据源是指提供待处理数据的来源,例如,可以将来自全球电子产品市场的数据称为数据源。应当注意,数据源可以包括多个数据集合,例如,可以将来自B国的数据称为第一数据集合,并将来自A国的数据成为第二数据集合。或者,除了按照空间位置关系来划分第一数据集合和第二数据集合以外,还可以按照其他标准来进行划分。
在此实施方式中,来自第一数据集合中的第一原始数据是成熟数据,并且已经针对这些成熟数据进行了降维处理,因而还可以获得转换自第一原始数据的第一三维数据。应当注意,目前已经出现了许多数据仓库的提供者,这些提供者针对各行各业的原始数据进行采集和分析,并且以免费或者付费的方式来向外界提供处理后的数据立方体。在本发明的实施方式中,并不限定如何获取第一原始数据和第一三维数据的具体方式。
在此实施方式中,第一原始数据例如可以包括n个维度,并且每个数据样本可以表示为Xi=[x1,x2,...,xn],第一三维数据例如可以表示为xi=[a,b,c]。在上文所述的电子产品行业的实施方式中,第一三维数据例如可以表示[客户购买力,客户身体状况,商品性价比]三方面的内容。
在步骤S304处,提取将第一原始数据转换为第一三维数据的转换规则。本领域技术人员可以采用多种方式来从第一原始数据Xi=[x1,x2,...,xn]和第一三维数据xi=[a,b,c]中提取转换规则。例如,可以构造一个映射函数,并使得该映射函数可以将第一原始数据中的高维数据(例如,n维)转换为第一三维数据中的低维数据(例如,三维)。应当注意,在此实施方式中,第一原始数据可以是来自成熟市场的成熟数据,第一三维数据可以是经验丰富的专业人员构建的,因而认为从上述数据提取的转换规则可以作为指导针对从数据源的其他数据集合采集的原始数据的转换标准。
在步骤S306处,响应于从数据源的第二数据集合获取第二原始数据,基于转换规则将第二原始数据转换为第二三维数据。在已经获得了将高维数据转换为三维数据的转换规则的情况下,即可基于该转换规则来处理来自第二数据集合的第二原始数据。
应当注意,从数据源的第二数据集合获取的第二原始数据的维度可以不同于从数据源的第一数据集合获取的第一原始数据的维度,例如,第二原始数据可以具有m个维度并且可以表示为Yi=[y1,y2,...,ym],此时转换所得的第二三维数据可以表示为pred(Yi)=[apred,bpred,cpred]。在此“pred”可以表示预测的含义。
以此方式可以获得第二三维数据(即,降维后的数据),第二三维数据被映射至新的特征空间。通过步骤S306的处理,可以实现特征空间的学习,即,基于数据源的第二数据集合中的第二原始数据构建的数据立方体可以模仿基于数据源的第一数据集合中的第一原始数据构建的数据立方体。换言之,在基于不成熟数据构建数据立方体时,学习了基于成熟数据构建数据立方体的可靠经验。此时,第二三维数据也可以表示[客户购买力,客户身体状况,商品性价比]三方面的内容。
在步骤S308处,呈现第二三维数据的可视化表示,其中第一原始数据和第二原始数据的维度大于三维。基于上文的步骤S302-S308,可以获得三维立方体数据pred(Yi)=[apred,bpred,cpred],继而可以以可视化的方式呈现该第二三维数据。例如,可以按照第二三维数据中的每个数据在三个维度的坐标中的数值大小关系,来呈现所获得的第二三维数据。
在本发明的一个实施方式中,提取将第一原始数据转换为第一三维数据的转换规则包括:基于第一原始数据和第一三维数据构造神经网络模型;针对神经网络模型进行训练;以及基于训练后的神经网络模型生成转换规则。
在此实施方式中,可以基于神经网络来提取转换规则。图4示意性示出了神经网络模型的示意图400。神经网络是一种描述人类神经网络行为特征、进行分布式并行信息处理算法的数学模型。神经网络通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。神经网络可以反映人脑功能的若干基本特性,并且对传统的计算机结构和人工智能提供有力的支持。
在神经网络中,可以包括输入层节点410、中间层节点420以及输出层节点430。在本发明的应用环境下,输入层节点410可以对应于高维数据,输出层节点430可以对应于三维数据,而中间层节点420可以对应于转换规则。
例如,转换规则可以是映射函数的形式:
上文公式中Q可以是调整激励函数形式的Sigmoid参数,并且转换原理如下:将样本的输入/输出问题转换为非线性优化问题,例如可以使用梯度下降法来实现。
在此实施方式中,提取转换规则的过程可以对应于如何训练神经网络模型,以使经该神经网络模型处理后的第一原始数据能够逼近于第一三维数据的过程;继而可以基于训练后的神经网络模型生成转换规则。具体地,基于第一原始数据和第一三维数据构造的神经网络模型可以是一个初始模型,经由该模型输出的三维数据可能会与第一三维数据存在一定差异,因而需要后续的“训练”步骤来逐渐降低甚至消除该差异。
在本发明的一个实施方式中,经由训练后的神经网络模型输出的三维数据与第一三维数据之间的差异最小化。在此实施方式中,可以在多个轮次中进行训练,可以通过修改各层神经元的权值,使网络的输出与预期值相符,即通过修改权值,来使得经由该映射函数生成的输出更好地适合于第一三维数据。例如,可以在经由训练后的神经网络模型输出的三维数据与第一三维数据之间的差异达到一定阈值时,结束训练过程。
在本发明的一个实施方式中,呈现第二三维数据的可视化表示包括:根据第二三维数据的三个维度,将第二三维数据划分为多个空间;以及在第二三维数据的三个维度中呈现多个空间。
具体地,例如在上文中已经将数据源的第二原始数据转换为第二三维数据,此时,第二三维数据也涉及[客户购买力,客户身体状况,商品性价比]三方面的内容。可以在这三个维度上将第二三维数据进行进一步的细化,即,提供更精细粒度的划分。例如,在客户购买力这一维度中,可以按照“高”、“中”、“低”将数据划分为三个空间;在客户身体状况和商品性价比这两个维度中,也可以将数据按照“高”、“中”、“低”划分为三个空间。此时,在三个维度中,都存在相对应的三个细化的空间。因而在数据立方体的第一层级中,可以存在3×3×3=27个细化的空间。
在本发明的一个实施方式中,在第二三维数据的三个维度中呈现多个空间包括:将多个空间之一内的一部分第二三维数据聚类为多个类别;以及在该空间内呈现多个类别。
在此实施方式中,在立方体数据的第二层级,还可以将每个空间内的数据进行进一步的划分。例如,针对客户购买力这一维度,在被分类为“高”的空间内,还可以进行进一步的细分,例如聚类为“高”、“中”、“低”三个类别,或者,还可以聚类为其他数量的类别。又例如,在被分类为“低”的空间内,还可以进一步聚类为“高”、“中”、“低”三个类别。
图5示意性示出了根据一个实施方式的所呈现的数据立方体的图示500。在图5中,三维坐标系XYZ例如可以表示上文所述的三个维度[客户购买力,客户身体状况,商品性价比]。在此示例中,每个维度中的数据都被划分为“高”、“中”、“低”的三个空间(分别如附图标记520、530和540所示),在此所示的每个小立方体即为第一层级处的空间。在图5中,以空间560为示例示出了如何在第二层级中进一步细分。例如在此示例中,空间560又被聚类为“高”、“中”、“低”三个类别。
在本发明的一个实施方式中,可以使用“K均值算法”来进行聚类。具体地,将多个空间之一内的一部分第二三维数据聚类为多个类别包括:选择一部分第二三维数据中的多个对象作为多个中心对象;在至少一个轮次中执行如下步骤直至多个点群不再变化,计算一部分第二三维数据中的每个对象与中心对象的距离;按照距离将每个对象划分为多个点群;将多个中心对象分别移至点群的中心;基于多个点群来形成多个类别。
现在将参见图6描述聚类步骤的详细细节。图6A-图6C分别示意性示出了根据一个实施方式的对三维数据进行聚类的图示600A-600C。在图6A-图6C中仅以示例方式示出了数据对象A-E。本领域技术人员可以基于所示出的原理来实现将更多数量的数据进行聚类。具体步骤如下:
步骤1,选择一部分第二三维数据中的多个对象(例如,对象610A和620A)作为多个中心对象。
步骤2,计算一部分第二三维数据中的每个对象(对象A-E)与中心对象(对象610A和620A)的距离。应当注意,尽管在图6A-6C中在二维平面中示出了第二三维数据中的对象A-E,本领域技术人员可以理解,在求解每个对象与中心对象之间的距离时,可以基于三维坐标计算。例如,假设对象A的坐标为(x1,y1,z1),对象610的坐标为(x2,y2,z2),则两者之间的距离为:
步骤3,按照距离大小将每个对象划分为多个点群,如图6B所示,假设对象A与中心对象610的距离小于与中心对象620的距离,则可以将对象A划分至对应于对象610的点群1。类似地,还可以将其他对象B-E划分至点群1或者点群2。最终,点群1可以包括对象A和C,而点群2可以包括对象B、D和E。
步骤4,如图6C所示,将多个中心对象(对象610A和620A)分别移至点群(点群1和点群2)的中心位置。在此步骤中,可以对点群中所包括的对象的坐标求取平均以计算中心位置的坐标。
步骤5,重复上文所述的步骤2-4,直到生成的点群不再改变。
步骤6,基于多个点群来形成多个类别。
采用上文所述的步骤1-6,即可实现聚类操作。在本发明的一个实施方式中,将多个空间之一内的一部分第二三维数据聚类为多个类别包括:迭代地对多个类别中的一类别进行聚类,以形成多个子类别。在此“迭代”的含义在于,还可以将特定类别划分为更细的粒度,例如,将如图5中所示的空间560中的“高”、“中”、“低”的三个类别中的任一项进行进一步的划分。
在本发明的一个实施方式中,所述多个类别的数量是基于所述第一原始数据和所述第一三维数据来确定的。在来自数据源的第二数据集合的第二原始数据并不能充分反映真实数据分布的情况下,还可以参考从第一原始数据构建数据立方体时的标准,来确定将一个空间内的一部分第二三维数据聚类为多少个类别。换言之,可以参考已有的立方体数据来指导K均值算法,进而实现聚类。
具体地,类似于上文所述的提取将所述第一原始数据转换为所述第一三维数据的转换规则的方法,在此实施方式中,还可以例如采用神经网络来生成将第一三维数据进行聚类时所遵循的标准。例如,假设在现有的B国的数据立方体中,在“客户购买力”这一维度上,已经将被分类为“高”的空间进一步细分为“高”、“中”、“低”三个类别,则在处理来自A国的原始数据时,可以将所述多个空间之一内的一部分第二三维数据聚类为三个类别(即,“高”、“中”、“低”)。
在本发明的一个实施方式中,在空间内呈现多个类别包括:响应于空间被选择,呈现空间范围内的多个类别。例如对于图5中所示的可视化呈现,可以仅在空间560被选择时才呈现该空间内的进一步类别,以避免干扰用户查看数据立方体时受到干扰。
在本发明的一个实施方式中,第一原始数据和第二原始数据的分布趋势相一致。在此实施方式中,第一原始数据可以是来自成熟市场的均匀分布的成熟数据,第二原始数据可原始来自不成熟市场的数据。尽管在初始时第二原始数据的样本数量可能较少并且样本分布也有可能不能反映真实分布规律,然而随着时间的推移和样本数量的增加,第二原始数据将逐步反映出真实的分布规律,即,趋向于与第一原始数据的分布规律相一致。由于第一三维数据可以是经验丰富的专业人员构建的,因而所提取的转换规则可以指导将从数据源的其他数据集合采集的原始数据降低至三维数据。
图7示意性示出了根据一个实施方式的用于呈现数据的装置的框图700。具体地,提供了一种用于呈现数据的装置,包括:获取模块710,配置用于从数据源的第一数据集合获取第一原始数据、以及转换自第一原始数据的第一三维数据;提取模块720,配置用于提取将第一原始数据转换为第一三维数据的转换规则;转换模块730,配置用于响应于从数据源的第二数据集合获取第二原始数据,基于转换规则将第二原始数据转换为第二三维数据;及呈现模块740,配置用于呈现第二三维数据的可视化表示;其中第一原始数据和第二原始数据的维度大于三维。
在本发明的一个实施方式中,提取模块720包括:构造模块,配置用于基于第一原始数据和第一三维数据构造神经网络模型;训练模块,配置用于针对神经网络模型进行训练;以及生成模块,配置用于基于训练后的神经网络模型生成转换规则。
在本发明的一个实施方式中,经由训练后的神经网络模型输出的三维数据与第一三维数据之间的差异最小化。
在本发明的一个实施方式中,呈现模块740包括:划分模块,配置用于根据第二三维数据的三个维度,将第二三维数据划分为多个空间;以及空间呈现模块,配置用于在第二三维数据的三个维度中呈现多个空间。
在本发明的一个实施方式中,空间呈现模块740包括:聚类模块,配置用于将多个空间之一内的一部分第二三维数据聚类为多个类别;以及聚类呈现模块,配置用于在空间内呈现多个类别。
在本发明的一个实施方式中,聚类模块包括:指定模块,配置用于选择一部分第二三维数据中的多个对象作为多个中心对象;执行模块,配置用于在至少一个轮次中执行如下步骤直至多个点群不再变化,计算一部分第二三维数据中的每个对象与中心对象的距离;按照距离将每个对象划分为多个点群;将多个中心对象分别移至点群的中心;形成模块,配置用于基于多个点群来形成多个类别。
在本发明的一个实施方式中,聚类模块包括:迭代模块,配置用于迭代地对多个类别中的一类别进行聚类,以形成多个子类别。
在本发明的一个实施方式中,所述多个类别的数量是基于所述第一原始数据和所述第一三维数据来确定的。
在本发明的一个实施方式中,呈现模块740包括:展开模块,配置用于响应于空间被选择,呈现空间范围内的多个类别。
在本发明的一个实施方式中,第一原始数据是均匀分布的。
采用本发明的各个实施方式,可以在无不需要人工干预和操作的情况下,自动、有效地实现数据的降维(构建数据立方体)和聚类(在多个层级中细分数据);并且能够根据数据源的具体情况,从不成熟的高维的原始数据来生成数据立方体,并进行后续聚类。
附图中的流程图和框图显示了根据本发明的多个实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施方式,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施方式。在不偏离所说明的各实施方式的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施方式的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施方式。

Claims (18)

1.一种用于呈现数据的方法,包括:
从数据源的第一数据集合获取第一原始数据、以及转换自所述第一原始数据的第一三维数据;
提取将所述第一原始数据转换为所述第一三维数据的转换规则;
响应于从所述数据源的第二数据集合获取第二原始数据,基于所述转换规则将所述第二原始数据转换为第二三维数据;以及
呈现所述第二三维数据的可视化表示,
其中所述第一原始数据和所述第二原始数据的维度大于三维,
其中提取将所述第一原始数据转换为所述第一三维数据的转换规则包括:基于所述第一原始数据和所述第一三维数据构造神经网络模型;针对所述神经网络模型进行训练;以及基于所述训练后的神经网络模型生成所述转换规则。
2.根据权利要求1所述的方法,其中经由所述训练后的神经网络模型输出的三维数据与所述第一三维数据之间的差异最小化。
3.根据权利要求1-2中任一项所述的方法,其中呈现所述第二三维数据的可视化表示包括:
根据所述第二三维数据的三个维度,将所述第二三维数据划分为多个空间;以及
在所述第二三维数据的三个维度中呈现所述多个空间。
4.根据权利要求3所述的方法,其中在所述第二三维数据的三个维度中呈现所述多个空间包括:
将所述多个空间之一内的一部分第二三维数据聚类为多个类别;以及
在所述空间内呈现所述多个类别。
5.根据权利要求4所述的方法,其中将所述多个空间之一内的 一部分第二三维数据聚类为多个类别包括:
选择所述一部分第二三维数据中的多个对象作为多个中心对象;
在至少一个轮次中执行如下步骤直至多个点群不再变化,
计算所述一部分第二三维数据中的每个对象与所述中心对象的距离;
按照所述距离的大小将每个对象划分为所述多个点群;
将所述多个中心对象分别移至所述点群的中心位置;
基于所述多个点群来形成所述多个类别。
6.根据权利要求4所述的方法,其中所述多个类别的数量是基于所述第一原始数据和所述第一三维数据来确定的。
7.根据权利要求4所述的方法,其中将所述多个空间之一内的一部分第二三维数据聚类为多个类别包括:
迭代地对所述多个类别中的一类别进行聚类,以形成多个子类别。
8.根据权利要求4所述的方法,其中在所述空间内呈现所述多个类别包括:
响应于所述空间被选择,呈现所述空间范围内的多个类别。
9.根据权利要求1所述的方法,其中所述第一原始数据和所述第二原始数据的分布趋势相一致。
10.一种用于呈现数据的装置,包括:
获取模块,配置用于从数据源的第一数据集合获取第一原始数据、以及转换自所述第一原始数据的第一三维数据;
提取模块,配置用于提取将所述第一原始数据转换为所述第一三维数据的转换规则;
转换模块,配置用于响应于从所述数据源的第二数据集合获取第二原始数据,基于所述转换规则将所述第二原始数据转换为第二三维数据;以及
呈现模块,配置用于呈现所述第二三维数据的可视化表示,
其中所述第一原始数据和所述第二原始数据的维度大于三维;
其中所述提取模块包括:
构造模块,配置用于基于所述第一原始数据和所述第一三维数据构造神经网络模型;
训练模块,配置用于针对所述神经网络模型进行训练;以及
生成模块,配置用于基于所述训练后的神经网络模型生成所述转换规则。
11.根据权利要求10所述的装置,其中经由所述训练后的神经网络模型输出的三维数据与所述第一三维数据之间的差异最小化。
12.根据权利要求10-11中任一项所述的装置,其中所述呈现模块包括:
划分模块,配置用于根据所述第二三维数据的三个维度,将所述第二三维数据划分为多个空间;以及
空间呈现模块,配置用于在所述第二三维数据的三个维度中呈现所述多个空间。
13.根据权利要求12所述的装置,其中所述空间呈现模块包括:
聚类模块,配置用于将所述多个空间之一内的一部分第二三维数据聚类为多个类别;以及
聚类呈现模块,配置用于在所述空间内呈现所述多个类别。
14.根据权利要求13所述的装置,其中所述聚类模块包括:
指定模块,配置用于选择所述一部分第二三维数据中的多个对象作为多个中心对象;
执行模块,配置用于在至少一个轮次中执行如下步骤直至多个点群不再变化,
计算所述一部分第二三维数据中的每个对象与所述中心对象的距离;
按照所述距离的大小将每个对象划分为所述多个点群;
将所述多个中心对象分别移至所述点群的中心位置;
形成模块,配置用于基于所述多个点群来形成所述多个类别。
15.根据权利要求13所述的装置,其中所述多个类别的数量是基于所述第一原始数据和所述第一三维数据来确定的。
16.根据权利要求13所述的装置,其中所述聚类模块包括:
迭代模块,配置用于迭代地对所述多个类别中的一类别进行聚类,以形成多个子类别。
17.根据权利要求13所述的装置,其中所述呈现模块包括:
展开模块,配置用于响应于所述空间被选择,呈现所述空间范围内的多个类别。
18.根据权利要求10所述的装置,其中所述第一原始数据和所述第二原始数据的分布趋势相一致。
CN201310104829.1A 2013-03-28 2013-03-28 用于呈现数据的方法和装置 Expired - Fee Related CN104077303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310104829.1A CN104077303B (zh) 2013-03-28 2013-03-28 用于呈现数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310104829.1A CN104077303B (zh) 2013-03-28 2013-03-28 用于呈现数据的方法和装置

Publications (2)

Publication Number Publication Date
CN104077303A CN104077303A (zh) 2014-10-01
CN104077303B true CN104077303B (zh) 2017-07-28

Family

ID=51598563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310104829.1A Expired - Fee Related CN104077303B (zh) 2013-03-28 2013-03-28 用于呈现数据的方法和装置

Country Status (1)

Country Link
CN (1) CN104077303B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740241B (zh) * 2014-12-07 2018-12-18 成都复晓科技有限公司 一种表达维度的方法和装置
CN104462444A (zh) * 2014-12-15 2015-03-25 北京国双科技有限公司 基于数据立方体的可视化数据显示方法和装置
CN104408187A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 基于数据立方体的可视化数据显示方法和装置
CN104462440A (zh) * 2014-12-15 2015-03-25 北京国双科技有限公司 基于数据立方体的可视化数据的二维显示方法和装置
CN104462453A (zh) * 2014-12-15 2015-03-25 北京国双科技有限公司 基于数据立方体的可视化数据显示方法和装置
CN104462449A (zh) * 2014-12-15 2015-03-25 北京国双科技有限公司 基于数据立方体的可视化数据的二维显示方法和装置
CN105243469A (zh) * 2015-09-17 2016-01-13 上海寰信网络信息技术有限公司 一种多维空间映射到低维空间的方法及其展示方法和系统
CN107292641A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 一种数据管控的方法及系统
CN107808098B (zh) 2017-09-07 2020-08-21 阿里巴巴集团控股有限公司 一种模型安全检测方法、装置以及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751461A (zh) * 2009-12-30 2010-06-23 中兴通讯股份有限公司 一种文档转换方法和装置
CN102982077A (zh) * 2012-10-30 2013-03-20 中国联合网络通信集团有限公司 用户数据处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539903A (zh) * 2008-03-18 2009-09-23 北京书生国际信息技术有限公司 一种兼容不同格式文档的软件实现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751461A (zh) * 2009-12-30 2010-06-23 中兴通讯股份有限公司 一种文档转换方法和装置
CN102982077A (zh) * 2012-10-30 2013-03-20 中国联合网络通信集团有限公司 用户数据处理方法及装置

Also Published As

Publication number Publication date
CN104077303A (zh) 2014-10-01

Similar Documents

Publication Publication Date Title
CN104077303B (zh) 用于呈现数据的方法和装置
Kotu et al. Predictive analytics and data mining: concepts and practice with rapidminer
CN110869943B (zh) Gpu增强的图形模型构建和评分引擎
US20210279642A1 (en) Mixed-initiative machine learning systems and methods for determining segmentations
Ciaburro MATLAB for machine learning
CN104516897B (zh) 一种针对应用对象进行排序的方法和装置
CN107220217A (zh) 基于逻辑回归的特征系数训练方法和装置
CN107016068A (zh) 知识图谱构建方法及装置
CN110995459B (zh) 异常对象识别方法、装置、介质及电子设备
CN111008693B (zh) 一种基于数据压缩的网络模型构建方法、系统和介质
Sorkun et al. ChemPlot, a Python library for chemical space visualization
US20210279643A1 (en) Method and system for generating best performing data models for datasets in a computing environment
US20210157819A1 (en) Determining a collection of data visualizations
CN111338897A (zh) 应用主机中异常节点的识别方法、监测设备和电子设备
Hussain et al. Artificial intelligence for big data: Potential and relevance
CN104598449A (zh) 基于偏好的聚类
CN111931790A (zh) 一种激光点云提取方法及装置
CN110334720A (zh) 业务数据的特征提取方法、装置、服务器和存储介质
US10769162B2 (en) Generating business intelligence analytics data visualizations with genomically defined genetic selection
CN109583712B (zh) 一种数据指标分析方法及装置、存储介质
CN111126629A (zh) 模型的生成方法、刷单行为识别方法、系统、设备和介质
Anderson Visual Data Mining: The VisMiner Approach
Huerta et al. Data mining: Application of digital marketing in education
CN107368506A (zh) 非结构化数据分析系统和方法
CN109101631A (zh) 数据建模方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170728

Termination date: 20210328

CF01 Termination of patent right due to non-payment of annual fee