CN106874447A - 一种数据展示方法及装置 - Google Patents

一种数据展示方法及装置 Download PDF

Info

Publication number
CN106874447A
CN106874447A CN201710073595.7A CN201710073595A CN106874447A CN 106874447 A CN106874447 A CN 106874447A CN 201710073595 A CN201710073595 A CN 201710073595A CN 106874447 A CN106874447 A CN 106874447A
Authority
CN
China
Prior art keywords
data
target
concentrated
target data
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710073595.7A
Other languages
English (en)
Other versions
CN106874447B (zh
Inventor
孙浩
邹存璐
刘志鹏
高睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201710073595.7A priority Critical patent/CN106874447B/zh
Publication of CN106874447A publication Critical patent/CN106874447A/zh
Application granted granted Critical
Publication of CN106874447B publication Critical patent/CN106874447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据展示方法及装置,该方法包括:判断当前页面是否展示了所述目标数据集中的数据;如果当前页面未展示所述目标数据集中的数据,则从所述目标数据集中抽取部分数据,并展示被抽取的数据;如果当前页面展示了所述目标数据集中的部分数据,则从所述目标数据集中未被展示的数据中抽取部分数据,并在当前已展示数据的基础上展示被抽取的数据,得到更新后的页面。本发明能够保证大数据量的正常展示。

Description

一种数据展示方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据展示方法及装置。
背景技术
大数据量的数据可视化,指的是上GB级以及上TB级乃至上PB级数据的可视化。用户通常对多维度展现这些数据有着强烈的需求,希望实现数据的视觉化展示,以便获取数据之间的内在联系以及相关性等可用指标,乃至发现数据中未知的信息。
然而,目前的计算机系统,尤其受到浏览器的处理能力的限制,经常无法展示上GB级及以上的数据,甚至于几百兆的数据都无法正常展现,从而造成浏览器卡死甚至系统卡死的问题,最终导致基于数据展示的相关服务无法正常使用。
发明内容
有鉴于此,本发明实施例的主要目的在于提供一种数据展示方法及装置,能够保证大数据量的正常展示。
本发明实施例提供了一种数据展示方法,包括:
判断当前页面是否展示了所述目标数据集中的数据;
如果当前页面未展示所述目标数据集中的数据,则从所述目标数据集中抽取部分数据,并展示被抽取的数据;如果当前页面展示了所述目标数据集中的部分数据,则从所述目标数据集中未被展示的数据中抽取部分数据,并在当前已展示数据的基础上展示被抽取的数据,得到更新后的页面。
可选的,所述方法还包括:
响应于用户请求撤销加载的操作,展示当前页面的上一页面,所述上一页面为当前页面被更新之前的页面。
可选的,所述方法还包括:
将所述目标数据集划分为至少两个数据子集;
采用树状结构表示每一数据子集,其中,所述树状结构的每一节点对应一个数据块、且每一节点对应的数据块包含在自己父节点对应的数据块中;
则,所述从所述目标数据集中抽取部分数据,包括:
从每一数据子集的根节点对应的数据块中分别抽取至少一个数据;
所述从所述目标数据集中未被展示的数据中抽取部分数据,包括:
确定最近加载数据对应的节点层级,将所确定的层级称为当前层级;
确定每一数据子集的所述当前层级的下一层级,并从所述下一层级中每一节点对应的各个数据块中,分别抽取至少一个未被展示的数据。
可选的,所述将所述目标数据集划分为至少两个数据子集,包括:
如果所述目标数据集服从一高斯分布,则计算所述高斯分布的均值μ1和标准差σ1;
将数据区间[Min=μ1-3σ1,Max=μ1+3σ1]划分成至少两个子区间,使属于每一子区间的数据形成一个数据子集。
可选的,所述将所述目标数据集划分为至少两个数据子集,包括:
如果所述目标数据集不服从一高斯分布,则根据所述目标数据集构建高斯混合模型,得到形成所述高斯混合模型的每一单高斯模型的均值μ2和标准差σ2;
将每一单高斯模型对应的数据区间[Min=μ2-3σ2,Max=μ2+3σ2]划分成至少两个子区间,使属于每一子区间的数据形成一个数据子集。
可选的,所述得到形成所述高斯混合模型的每一单高斯模型的均值μ2和标准差σ2,包括:
采用最大期望EM算法,得到形成所述高斯混合模型的每一单高斯模型的均值μ2和标准差σ2。
可选的,所述方法还包括:
确定最近加载的数据在所述树状结构中所属的目标层级;
检测用户请求从局部数据块中加载数据的操作,所述局部数据块为所述目标层级中的至少一个节点分别对应的数据块;
当检测到所述操作后,从所述局部数据块中的每一数据块中抽取至少一个未被展示的数据,并在当前已展示数据的基础上展示被抽取的数据。
可选的,所述从所述目标数据集中抽取部分数据,包括:
按照预设采样方式,从所述目标数据集中抽取部分数据,所述预设采样方式为取模采样方式、或随机采样方式、或均匀采样方式;
所述从所述目标数据集中未被展示的数据中抽取部分数据,包括:
按照所述预设采样方式,从所述目标数据集中未被展示的数据中抽取部分数据。
本发明实施例还提供了一种数据展示装置,包括:
页面判断单元,用于判断当前页面是否展示了所述目标数据集中的数据;
加载展示单元,用于如果当前页面未展示所述目标数据集中的数据,则从所述目标数据集中抽取部分数据,并展示被抽取的数据;如果当前页面展示了所述目标数据集中的部分数据,则从所述目标数据集中未被展示的数据中抽取部分数据,并在当前已展示数据的基础上展示被抽取的数据,得到更新后的页面。
可选的,所述装置还包括:
展示回退单元,用于响应于用户请求撤销加载的操作,展示当前页面的上一页面,所述上一页面为当前页面被更新之前的页面。
可选的,所述装置还包括:
集合划分单元,用于将所述目标数据集划分为至少两个数据子集;
树状构建单元,用于采用树状结构表示每一数据子集,其中,所述树状结构的每一节点对应一个数据块、且每一节点对应的数据块包含在自己父节点对应的数据块中;
则,所述加载展示单元包括:
第一展示子单元,用于如果当前页面未展示所述目标数据集中的数据,则从每一数据子集的根节点对应的数据块中分别抽取至少一个数据,并展示被抽取的数据;
第二展示子单元,用于如果当前页面展示了所述目标数据集中的数据,则确定最近加载数据对应的节点层级,将所确定的层级称为当前层级;确定每一数据子集的所述当前层级的下一层级,并从所述下一层级中每一节点对应的各个数据块中,分别抽取至少一个未被展示的数据,并在当前已展示数据的基础上展示被抽取的数据,得到更新后的页面。
可选的,所述集合划分单元包括:
第一参数计算子单元,用于如果所述目标数据集服从一高斯分布,则计算所述高斯分布的均值μ1和标准差σ1;
第一子集形成子单元,用于将数据区间[Min=μ1-3σ1,Max=μ1+3σ1]划分成至少两个子区间,使属于每一子区间的数据形成一个数据子集。
可选的,所述集合划分单元包括:
第二参数计算子单元,用于如果所述目标数据集不服从一高斯分布,则根据所述目标数据集构建高斯混合模型,得到形成所述高斯混合模型的每一单高斯模型的均值μ2和标准差σ2;
第二子集形成子单元,用于将每一单高斯模型对应的数据区间[Min=μ2-3σ2,Max=μ2+3σ2]划分成至少两个子区间,使属于每一子区间的数据形成一个数据子集。
可选的,所述第二参数计算子单元,具体用于采用最大期望EM算法,得到形成所述高斯混合模型的每一单高斯模型的均值μ2和标准差σ2。
可选的,所述装置还包括:
目标层级确定单元,用于确定最近加载的数据在所述树状结构中所属的目标层级;
请求操作检测单元,用于检测用户请求从局部数据块中加载数据的操作,所述局部数据块为所述目标层级中的至少一个节点分别对应的数据块;
局部数据抽取单元,用于当检测到所述操作后,从所述局部数据块中的每一数据块中抽取至少一个未被展示的数据,并在当前已展示数据的基础上展示被抽取的数据。
可选的,所述加载展示单元包括:
第三展示子单元,用于如果当前页面未展示所述目标数据集中的数据,则按照预设采样方式从所述目标数据集中抽取部分数据,并展示被抽取的数据,其中,所述预设采样方式为取模采样方式、或随机采样方式、或均匀采样方式;
第四展示子单元,用于如果当前页面展示了所述目标数据集中的数据,则按照所述预设采样方式,从所述目标数据集中未被展示的数据中抽取部分数据,并在当前已展示数据的基础上展示被抽取的数据,得到更新后的页面。
本发明实施例提供的数据展示方法及装置,如果当前页面未展示目标数据集中的数据,则从目标数据集中抽取部分数据,并展示被抽取的数据;如果当前页面展示了目标数据集中的部分数据,则从目标数据集中未被展示的数据中抽取部分数据,并在当前已展示数据的基础上展示被抽取的数据,从而得到更新后的页面。可见,本发明可以实现大数据的可视化分级展示,即,当目标数据集的数据量较大、且需要展示目标数据集中的数据时,对其中的数据进行异步加载,这样,每次只加载部分数据可以降低对网络传输的依赖,同时,浏览器每次也只展示加载的部分数据,可以降低浏览器的负担,最终保证了大数据量的正常展示。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A为本发明提供的数据展示方法的流程示意图之一;
图1B为本发明提供的数据展示方法的流程示意图之二;
图2为本发明提供的数据关系建立方法的流程示意图;
图3为本发明提供的高斯分布示意图;
图4为本发明提供的混合高斯分布示意图;
图5为本发明提供的树状结构示意图;
图6A为本发明提供的数据展示装置的组成示意图之一;
图6B为本发明提供的数据展示装置的组成示意图之二。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的数据展示方法,实现了大数据量的数据可视化展示,保证了大数据量数据可以在浏览器中正常显示以及显示效率大幅提升,避免了出现浏览器僵死甚至出现系统死机等问题。
参见图1A,为本发明实施例提供的数据展示方法的流程示意图,该方法包括步骤S101-S102:
S101:判断当前页面是否展示了所述目标数据集中的数据。
在本实施例中,是采用逐次加载数据以逐次增加展示数据的方式,完成大数据量的展示,即,对于用户触发的或数据展示程序自动触发的每一次加载请求,只加载目标数据集中的部分数据。因此,对于当前触发的加载请求,如果是第一次加载请求,用户所浏览的当前页面将没有数据展示;如果是第二、第三次等加载请求,用户所浏览的当前页面将展示之前已经加载的数据。
在每次的加载请求被触发后,浏览器会将该请求发送至服务器,服务器接收到该请求后,需要定位目标数据集的存储位置并从中抽取部分数据,然后返回至浏览器侧,这样浏览器便准备好了即将展示的新数据。具体的,所述目标数据集可以采用分布式存储方式并存储在内存中,服务器在获取基于该存储方式的目标数据集中的数据时,尤其是在获取较大数据量时,获取效率要比一般的关系型数据库以及基于磁盘存储的数据集获取效率高出10多倍。
S102:如果当前页面未展示所述目标数据集中的数据,则从所述目标数据集中抽取部分数据,并展示被抽取的数据;如果当前页面展示了所述目标数据集中的数据,则从所述目标数据集中未被展示的数据中抽取部分数据,并在当前已展示数据的基础上展示被抽取的数据,得到更新后的页面。
在本实施例中,浏览器准备好了即将展示的新数据后,便可以在已经展出的数据的基础上增加展示所述新数据,从而得到一个包括之前已展示数据和所述新数据的更新页面。通过多次加载目标数据集中的部分未加载数据,最终可以展示出目标数据集中的全部数据。
在进行数据展示时,可以根据目标数据集的数量级确定即将被展示的图表样式,比如,散点图、柱状图等图表样式。浏览器可以动态创建数据集展现模型,用于对目标数据集进行相关的预处理和数据标记,以及对图表样式进行相关的优化,以保证目标数据集以相应的图表样式参数进行最优的匹配。
本发明实施例提供的数据展示方法,如果当前页面未展示目标数据集中的数据,则从目标数据集中抽取部分数据,并展示被抽取的数据;如果当前页面展示了目标数据集中的部分数据,则从目标数据集中未被展示的数据中抽取部分数据,并在当前已展示数据的基础上展示被抽取的数据,从而得到更新后的页面。可见,本发明可以实现大数据的可视化分级展示,即,当目标数据集的数据量较大、且需要展示目标数据集中的数据时,对其中的数据进行异步加载,这样,每次只加载部分数据可以降低对网络传输的依赖,同时,浏览器每次也只展示加载的部分数据,可以降低浏览器的负担,最终保证了大数据量的正常展示。
进一步地,在一些实施方式中,本发明还具有展示回退功能,参见图1B,本方法还可以包括步骤S103:
S103:响应于用户请求撤销加载的操作,展示当前页面的上一页面,所述上一页面为当前页面被更新之前的页面。
例如,在步骤S102中,假设当前页面称为页面A,增加新抽取数据后的更新页面称为页面B。在步骤S103中,如果当前页面是页面B,如果用户请求撤销加载,则展示页面B的上一页面,即展示页面A。
需要说明的是,对于第一次加载请求以外的加载请求,如果用户使用的客户端设备采用了触摸屏,比如智能手机,用户可以在屏幕上利用手指进行放大操作来触发加载请求,当然,还可以利用手指进行缩小操作来触发撤销加载的请求;如果用户使用的客户端设备是具有键盘和/或鼠标等外接部件的设备,比如台式电脑或笔记本电脑,用户可以通过键盘或鼠标来触发加载或撤销加载的请求。对于采用何种方式触发请求,本发明不作限制。
还需要说明的是,本发明实施例不限制步骤S101-S102与步骤S103的执行顺序和次数,比如,可以执行一次或多次S101-S102后再执行一次或多次S103,只要可以进行页面的回退显示,还可以执行一次或多次S103后再执行一次或多次S101-S102,等等。
下面对步骤S102的具体实现过程进行介绍。
参见图2所示的数据关系建立方法的流程示意图,为了实现S102,可以预先将目标数据集划分成多个数据块,并按照数据块之间的归属关系构建树状图,对此,具体包括以下步骤S201-S202:
S201:将所述目标数据集划分为至少两个数据子集;
S202:采用树状结构表示每一数据子集,其中,所述树状结构的每一节点对应一个数据块、且每一节点对应的数据块包含在自己父节点对应的数据块中。
在本实施例中,可以采用以下两种实施方式之一来实现步骤S201。
在第一种实施方式中,步骤S201,即“将所述目标数据集划分为至少两个数据子集”,可以包括步骤A1-A2:
A1:如果所述目标数据集服从一高斯分布,则计算所述高斯分布的均值μ1和标准差σ1。
“小概率事件”通常指发生的概率小于5%的事件,即认为在一次试验中该事件是几乎不可能发生的。对于服从高斯分布(即正态分布)的随机变量,随机变量落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中,通常认为相应的事件是不会发生的,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量实际可能的取值区间,这称之为正态分布的“3σ”原则。
因此,当目标数据集中的数据X服从某高斯分布时,可以计算该高斯分布的均值μ1和标准差σ1,得到数据X的取值区间(μ1-3σ1,μ1+3σ1)。
A2:将数据区间[Min=μ1-3σ1,Max=μ1+3σ1]划分成至少两个子区间,使属于每一子区间的数据形成一个数据子集。
参见图3所示的高斯分布示意图,横轴区间[μ1-3σ1,μ1+3σ1]内的面积为99.730020%,即,P{|X-μ1|<3σ1}=2Φ(3)-1=0.9974,几乎覆盖了目标事件的所有取值。
假设目标数据集中的数据X为人(男或女)的身高,μ1即为平均身高,μ1附近的数据代表接近平均身高的身高值,其数量相对较大,属于大概率事件;μ1-3σ1左侧以及μ1+3σ1右侧的身高数据代表较小或较大的身高值,其数量相对较小,相对于大概率事件来说,属于小概率事件。
基于高斯分布的特点,本实施例可以将[μ1-3σ1,μ1+3σ1]划分成n份,可以均匀划分,也可以不均匀划分,从而得到n个子区间,这样,属于每一子区间的数据X便形成了一个数据子集。例如,假设[μ1-3σ1,μ1+3σ1]=[140,190],将该区间均匀划分成n=5份,则得到5个数据子集[140,150]、(150,160]、(160,170]、(170,180]、(180,190],其中,(160,170]范围内的数据量较大,(150,160]与(170,180]范围内的数据量较少,[140,150]与(180,190]范围内的数据量更少些。
当采用上述方式形成n个数据子集后,再执行步骤S202,即采用树状结构表示每一数据子集。具体来讲,当将[μ1-3σ1,μ1+3σ1]划分成n份,得到子区间1、子区间2、……子区间n后,再将每个子区间划分为n'份,其中,每个子区间划分的份数n'可以相同也可以不同、可以均匀划分也可以不均匀划分;对于子区间1,将其划分成n'份,得到子区间11、子区间12、……子区间1n',然后,建立子区间1与这n'个子区间之间的索引关系(即父子关系),使得子区间1的索引值对应根节点,子区间11、子区间12、……子区间1n'的各个索引值对应根节点的子节点,可见,子区间1对应的数据块即为这n'个子区间对应的数据块总和;此外,其它子区间,即子区间2、……子区间n也按照上述方式建立节点关系,在此不再赘述,这样,n个根节点便是第一层级的节点,每个根节点的n'个子节点便是第二层级的节点;然后,按照上述方式继续对第二层级中各个节点对应的数据子区间进行划分,可以划分成多个层级,具体的层级数量可以根据目标数据集的数据量预先设定,最终采用树状结构表示目标数据集的每一数据子集。
在第二种实施方式中,步骤S201,即“将所述目标数据集划分为至少两个数据子集”,可以包括步骤B1-B2:
B1:如果所述目标数据集不服从一高斯分布,则根据所述目标数据集构建高斯混合模型,得到形成所述高斯混合模型的每一单高斯模型的均值μ2和标准差σ2。
具体的,可以采用最大期望(Expectation Maximum,简称EM)算法,得到形成所述高斯混合模型的每一单高斯模型的均值μ2和标准差σ2,具体实现如下。
对于多波峰以及不规则的数据分布,可以采用Mixtures of Gaussians(高斯混合模型)来处理,高斯混合模型是单一高斯概率密度函数的延伸。假设目标数据集为X={x1,x2,......xn},数据个数为n,如果这些数据在d维空间中的分布不是椭球状,那么就不适合以一个单一的高斯密度函数来描述这些数据点的概率密度函数,此时可以采用一个变通方案,假设目标数据集X中的每个数据均由一个单高斯分布生成,而这一批数据X共由M个单高斯模型生成,具体某个数据xi属于哪个单高斯模型是未知的,且每个单高斯模型在高斯混合模型中占的比例αj也是未知的,将所有来自不同单高斯分布的数据点混在一起,该分布称为高斯混合分布。比如,图4所示的混合高斯分布示意图,其涉及两个单高斯分布。
从数学上讲,认为目标数据集中的每个数据xi的概率分布密度函数可以通过加权函数表示:
其中,Nj(xij,Cj)表示第j个单高斯模型(Single Gaussians Model,简称SGM)的概率密度函数(probability density function,简称PDF),μj表示第j个单高斯模型的均值,Cj表示第j个单高斯模型的协方差,αj表示第j个单高斯模型在高斯混合模型中占的比例。
Nj(xij,Cj)的计算公式如下:
其中,n为目标数据集中的数据个数。
高斯混合模型(GMM),就是数据可以看作是根据多个单高斯分布生成的,因此,GMM本身其实也是可以变得任意复杂的,也就是说,通过增加单高斯模型的个数,可以任意地逼近任何连续的概率密度分布。
具体的,令一个单高斯模型SGM的参数为由于高斯混合模型GMM共有M个SGM,则GMM的参数为需要通过目标数据集中的数据X来估计GMM的所有参数Φ,数据X的概率公式为:
其中,n为目标数据集中的数据个数。
下面对GMM参数进行估计:
(1)、初始化
方案1:第j个单高斯模型的均值μj0设为随机数;第j个单高斯模型的协方差矩阵Cj0设为单位矩阵;第j个单高斯模型在混合高斯模型中占的比例,取其先验概率αj0=1/M。
方案2:由K均值(k-means)聚类算法对目标数据集中的数据进行聚类,得到M类数据,利用第j类数据的均值作为第j个单高斯模型的均值μj0;计算第j个单高斯模型的协方差矩阵Cj0;第j个单高斯模型在混合高斯模型中占的比例αj0,为第j类数据占目标数据集总数的比例。
(2)、估计步骤
令αj的后验概率为:
其中,n为目标数据集的数据个数。
(3)、最大化步骤
更新权值(比例):
更新均值:
更新协方差矩阵:
(4)、收敛条件
不断地迭代步骤(2)和(3),重复更新(3)中的三个值,直到|P(X|Φ)-P(X|Φ)'|<ε,其中,P(X|Φ)为更新参数前计算的值,P(X|Φ)'为更新参数后计算的值,即前后两次迭代得到的结果变化小于一定程度则终止迭代,通常ε=10-5
通过以上计算,便得到了混合高斯模型中每一单高斯模型的参数了。
从上述内容可知,在对数据X进行分类时,采用的是k-means的硬指定方式,下面介绍一种软指定方式,并基于这种软指定方式介绍GMM参数的获取方法。
假设目标数据集为X={x(1),x(2),......x(m)},数据个数为m,可以将数据x(i)可能的类别用隐含类别变量z(i)表示。与k-means的硬指定不同,首先认为z(i)是满足一定的概率分布的,这里认为满足多项式分布,即z(i)~Multinomial(φ),其中,P(z(i)=j)=φj,φj≥0,有k个类别{1,…,k}可以选取(每个值对应一个单高斯分布)。而且认为在给定z(i)后,x(i)满足多值高斯分布,即(x(i)|z(i)=j)~N(μj,Cj),由此可以得到联合概率分布P(x(i),z(i))=P(x(i)|z(i))P(z(i))。
整个高斯混合模型简单描述为,对于每个数据x(i),先从k个类别中按多项式分布抽取一个z(i),然后根据所对应的k个多值高斯分布中的一个生成样例x(i),整个过程形成了高斯混合模型。需要注意的是,这里的z(i)仍然是隐含随机变量,模型中还有三个变量φ、μ和C。最大似然估计为P(x,z),对数化后如下:
其中,m为目标数据集中的数据个数。
这个式子的最大值是不能通过求导数为0的方法解决的,因为求的结果不是闭型close form。但是,如果假设知道了每个数据x(i)所属的类别z(i),那么上式可以简化为:
这时候再对φ、μ和C进行求导,得到:
φj是数据类别中z(i)=j的比率,即第j个单高斯模型在混合高斯模型中占的比例;μj是类别为j的所有数据x(i)的均值,即第j个单高斯模型的均值;Cj是类别为j的所有数据x(i)的协方差矩阵,即第j个单高斯模型的协方差。
实际上,当知道z(i)后,最大似然估计就近似于高斯判别分析模型(Gaussiandiscriminant analysis model)了。所不同的是,GDA中类别y服从伯努利分布,而这里的z(i)服从多项式分布,还有这里的每个数据x(i)都有不同的协方差矩阵,而GDA中认为只有一个。
由于之前假设给定了z(i),实际上z(i)是未知的,此时考虑之前提到的EM算法的思想,第一步是猜测隐含类别变量z,第二步是更新其他参数,以获得最大的最大似然估计。具体如下:
循环下面步骤,直到收敛:{
(E步)、对于每一个i和j,计算:
其中,的具体计算公式如下:
(M步)、更新参数
}
在E步中,将其他参数φ,μ,C看作常量,计算z(i)的后验概率,也就是估计隐含类别变量z(i)。估计好后,利用M步中的公式重新计算其他参数,利用这些参数再计算时,如果本次计算结果与之前的计算结果差别很大,则需要重新计算,周而复始不断地迭代E步和M步,直至收敛。
可见,与K-means硬指定的方式不同,这里采用了“软”指定方式来指定数据的类别,因此,为每个x(i)分配的类别是有一定的概率的,同时计算量也变大了,需要为每个x(i)都要计算属于每一个类别j的概率。与K-means相同的是,结果仍然是局部最优解。
通过以上计算,便得到高斯混合模型中的K个单高斯模型分别对应的参数了。
接下来,对于每一单高斯模型,利用其参数便可以计算得到该单高斯模型的标准差σj,这样便得到每一单高斯模型的均值μ2=μj和方差σ2=σj了。
B2:将每一单高斯模型对应的数据区间[Min=μ2-3σ2,Max=μ2+3σ2]划分成至少两个子区间,使属于每一子区间的数据形成一个数据子集。
对于每一单高斯模型,其数据子集的形成可以参照上述第一种实施方式中对步骤A2的相关介绍,以及步骤S202(即采用树状结构表示每一数据子集)的相关介绍也可以参见第一种实施方式中的相关内容,在此不再赘述。
基于上述两种实施方式之一,在步骤S102中,即“从所述目标数据集中抽取部分数据”,可以包括:从每一数据子集的根节点对应的数据块中分别抽取至少一个数据。例如,参见图5所示的树状结构示意图,如果有3个数据子集,这3个数据子集分别对应一个树状结构,分别从每一树状结构的根节点中取出数据,即从根节点1、根节点2、根节点3对应的数据块中取一个或多个数据,可以随机抽取数据或是按照其它方式抽取数据,每次加载请求时,从各个数据块抽取的数据个数可以相同也可以不同,本发明对此不作限定。
同样的,在步骤S102中,即“从所述目标数据集中未被展示的数据中抽取部分数据”,可以包括:确定最近加载数据对应的节点层级,将所确定的层级称为当前层级;确定每一数据子集的所述当前层级的下一层级,并从所述下一层级中每一节点对应的各个数据块中,分别抽取至少一个未被展示的数据。具体的,由于每次加载数据时,均加载每一数据子集中属于同一层级的数据,例如,当加载并展示完属于第1层节点(根节点)的数据时,如果又接收到用户触发的加载请求,则从第2层节点中取数据,即从子节点11、子节点12、子节点13、子节点21、子节点22、子节点23、子节点31、子节点32、子节点33分别对应的数据块中取一个或多个数据,可以随机抽取数据或是按照其它方式抽取数据,每次加载请求时,从各个数据块抽取的数据个数可以相同也可以不同,本发明对此不作限定。
需要说明的是,目前传统的视图展示采样方法,无法满足小概率的数据集被合理采样到,而上述方式解决了该技术问题,即,对于上述第一种实施方式中满足单高斯分布的目标数据集、以及上述第二种实施方式中满足混合高斯分布(存在多个单高斯分布)的目标数据集,通过将单高斯分布图中左右两侧的小概率数据集形成了一个或多个数据子集,通过对每一数据子集建立树状图并从中抽取数据,均可以抽取出小概率数据并被展示出来,使得展示出的数据基本覆盖了不同发生概率下的数据。
此外,步骤S102除了可以采用上述方式实现之外,还可以采用以下三种实施方式之一实现。
在第一种实施方式中,在步骤S102中,即“从所述目标数据集中抽取部分数据”可以包括:按照取模采样方式,从所述目标数据集中抽取部分数据。同样的,在步骤S102中,即“从所述目标数据集中未被展示的数据中抽取部分数据”可以包括:按照取模采样方式,从所述目标数据集中未被展示的数据中抽取部分数据。
例如,假设目标数据集的数据范围为10~100,则计算100-10=90,并进行取模运算,即90%p=0,比如,p=5,则取模采样结果为10+5n,其中,n=0、1、……。当模数足够大时,可以将采样数大幅减少,减少客户端开销,实现顺利出图。
在第二种实施方式中,在步骤S102中,即“从所述目标数据集中抽取部分数据”可以包括:按照随机采样方式,从所述目标数据集中抽取部分数据。同样的,在步骤S102中,即“从所述目标数据集中未被展示的数据中抽取部分数据”可以包括:按照随机采样方式,从所述目标数据集中未被展示的数据中抽取部分数据。
在第三种实施方式中,在步骤S102中,即“从所述目标数据集中抽取部分数据”可以包括:按照均匀采样方式,从所述目标数据集中抽取部分数据。同样的,在步骤S102中,即“从所述目标数据集中未被展示的数据中抽取部分数据”可以包括:按照均匀采样方式,从所述目标数据集中未被展示的数据中抽取部分数据。
需要说明的是,对于上述三种采样方式,小概率数据集可能取不到,而上述基于高斯分布的采样方式,可以有效增加小概率数据集被采集到的概率,从而提高了数据展示的完整性。
进一步地,在本发明的一个实施例中,还可以根据用户需求,在已展示数据的基础上增加展示用户感兴趣的未展示数据,具体可以包括步骤C1-C3:
C1:确定最近加载的数据在所述树状结构中所属的目标层级。
在本实施例中,需要确定最近加载数据所属的层级,例如,假设最近加载数据所属层级为图5所示树状结构的第二层级,该第二层级即为所述目标层级,其中,最近加载的数据即为:从子区间11、子区间12、子区间13、子区间21、子区间22、子区间23、子区间31、子区间32、子区间33(共9个子区间)各自对应的数据块中分别抽取的未展示数据。
C2:检测用户请求从局部数据块中加载数据的操作,所述局部数据块为所述目标层级中的至少一个节点分别对应的数据块。
在本实施例中,用户请求加载数据的操作可以是用户输入一个数值或一个数据区间。基于上述例子,当用户输入一个数值a时,确定该数值a属于上述9个子区间中的哪个子区间,确定出的子区间即为所述局部数据块;当用户输入一个数据区间[a、b]时,确定数值a、b分别属于上述9个子区间中的哪个子区间,a和b所属的同一个子区间或所属的不同的两个子区间即为所述局部数据块。
在本实施例中,用户请求加载数据的操作,还可以是用户利用鼠标或是其它方式点击数据图表展示区域,当检测到这个点击操作后,计算被点击位置对应的数据值c,然后确定该数值c属于上述9个子区间中的哪个子区间,确定出的子区间即为所述局部数据块。
需要说明的是,关于步骤C1中的用户请求操作的具体方式,本实施例不限于上述列举方式。
C3:当检测到所述操作后,从所述局部数据块中的每一数据块中抽取至少一个未被展示的数据,并在当前已展示数据的基础上展示被抽取的数据。
基于上述例子,假设所述局部数据块包括子区间11和子区间12,则从子区间11和子区间12中分别抽取一个或多个未被展示的数据,并在展示图表中的已展示数据的基础上,增加展示从所述局部数据块中抽取的数据。
需要说明的是,在从数据块中抽取数据时,可以随机抽取数据或是按照其它方式抽取数据,每次加载请求时,从各个数据块抽取的数据个数可以相同也可以不同,本实施例对此不做限制。
可见,通过上述方式,可以根据用户需求,在当前已展示数据的基础上,增加展示特定数据段内的数据。
参见图6A所示的数据展示装置的组成示意图之一,该装置可以是客户端设备,所述装置包括:
页面判断单元601,用于判断当前页面是否展示了所述目标数据集中的数据;
加载展示单元602,用于如果当前页面未展示所述目标数据集中的数据,则从所述目标数据集中抽取部分数据,并展示被抽取的数据;如果当前页面展示了所述目标数据集中的部分数据,则从所述目标数据集中未被展示的数据中抽取部分数据,并在当前已展示数据的基础上展示被抽取的数据,得到更新后的页面。
进一步地,参见图6B所示的数据展示装置的组成示意图之二,所述装置还可以包括:
展示回退单元603,用于响应于用户请求撤销加载的操作,展示当前页面的上一页面,所述上一页面为当前页面被更新之前的页面。
进一步地,所述装置还可以包括:
集合划分单元,用于将所述目标数据集划分为至少两个数据子集;
树状构建单元,用于采用树状结构表示每一数据子集,其中,所述树状结构的每一节点对应一个数据块、且每一节点对应的数据块包含在自己父节点对应的数据块中;
则,在一些实施方式中,所述加载展示单元602可以包括:
第一展示子单元,用于如果当前页面未展示所述目标数据集中的数据,则从每一数据子集的根节点对应的数据块中分别抽取至少一个数据,并展示被抽取的数据;
第二展示子单元,用于如果当前页面展示了所述目标数据集中的数据,则确定最近加载数据对应的节点层级,将所确定的层级称为当前层级;确定每一数据子集的所述当前层级的下一层级,并从所述下一层级中每一节点对应的各个数据块中,分别抽取至少一个未被展示的数据,并在当前已展示数据的基础上展示被抽取的数据,得到更新后的页面。
在一些实施方式中,所述集合划分单元可以包括:
第一参数计算子单元,用于如果所述目标数据集服从一高斯分布,则计算所述高斯分布的均值μ1和标准差σ1;
第一子集形成子单元,用于将数据区间[Min=μ1-3σ1,Max=μ1+3σ1]划分成至少两个子区间,使属于每一子区间的数据形成一个数据子集。
在一些实施方式中,所述集合划分单元可以包括:
第二参数计算子单元,用于如果所述目标数据集不服从一高斯分布,则根据所述目标数据集构建高斯混合模型,得到形成所述高斯混合模型的每一单高斯模型的均值μ2和标准差σ2;
第二子集形成子单元,用于将每一单高斯模型对应的数据区间[Min=μ2-3σ2,Max=μ2+3σ2]划分成至少两个子区间,使属于每一子区间的数据形成一个数据子集。
在一些实施方式中,所述第二参数计算子单元,具体用于采用最大期望EM算法,得到形成所述高斯混合模型的每一单高斯模型的均值μ2和标准差σ2。
在一些实施方式中,所述装置还可以包括:
目标层级确定单元,用于确定最近加载的数据在所述树状结构中所属的目标层级;
请求操作检测单元,用于检测用户请求从局部数据块中加载数据的操作,所述局部数据块为所述目标层级中的至少一个节点分别对应的数据块;
局部数据抽取单元,用于当检测到所述操作后,从所述局部数据块中的每一数据块中抽取至少一个未被展示的数据,并在当前已展示数据的基础上展示被抽取的数据。
在一些实施方式中,所述加载展示单元602可以包括:
第三展示子单元,用于如果当前页面未展示所述目标数据集中的数据,则按照预设采样方式从所述目标数据集中抽取部分数据,并展示被抽取的数据,其中,所述预设采样方式为取模采样方式、或随机采样方式、或均匀采样方式;
第四展示子单元,用于如果当前页面展示了所述目标数据集中的数据,则按照所述预设采样方式,从所述目标数据集中未被展示的数据中抽取部分数据,并在当前已展示数据的基础上展示被抽取的数据,得到更新后的页面。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本发明各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据展示方法,其特征在于,包括:
判断当前页面是否展示了所述目标数据集中的数据;
如果当前页面未展示所述目标数据集中的数据,则从所述目标数据集中抽取部分数据,并展示被抽取的数据;如果当前页面展示了所述目标数据集中的部分数据,则从所述目标数据集中未被展示的数据中抽取部分数据,并在当前已展示数据的基础上展示被抽取的数据,得到更新后的页面。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于用户请求撤销加载的操作,展示当前页面的上一页面,所述上一页面为当前页面被更新之前的页面。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
将所述目标数据集划分为至少两个数据子集;
采用树状结构表示每一数据子集,其中,所述树状结构的每一节点对应一个数据块、且每一节点对应的数据块包含在自己父节点对应的数据块中;
则,所述从所述目标数据集中抽取部分数据,包括:
从每一数据子集的根节点对应的数据块中分别抽取至少一个数据;
所述从所述目标数据集中未被展示的数据中抽取部分数据,包括:
确定最近加载数据对应的节点层级,将所确定的层级称为当前层级;
确定每一数据子集的所述当前层级的下一层级,并从所述下一层级中每一节点对应的各个数据块中,分别抽取至少一个未被展示的数据。
4.根据权利要求3所述的方法,其特征在于,所述将所述目标数据集划分为至少两个数据子集,包括:
如果所述目标数据集服从一高斯分布,则计算所述高斯分布的均值μ1和标准差σ1;
将数据区间[Min=μ1-3σ1,Max=μ1+3σ1]划分成至少两个子区间,使属于每一子区间的数据形成一个数据子集。
5.根据权利要求3所述的方法,其特征在于,所述将所述目标数据集划分为至少两个数据子集,包括:
如果所述目标数据集不服从一高斯分布,则根据所述目标数据集构建高斯混合模型,得到形成所述高斯混合模型的每一单高斯模型的均值μ2和标准差σ2;
将每一单高斯模型对应的数据区间[Min=μ2-3σ2,Max=μ2+3σ2]划分成至少两个子区间,使属于每一子区间的数据形成一个数据子集。
6.根据权利要求5所述的方法,其特征在于,所述得到形成所述高斯混合模型的每一单高斯模型的均值μ2和标准差σ2,包括:
采用最大期望EM算法,得到形成所述高斯混合模型的每一单高斯模型的均值μ2和标准差σ2。
7.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定最近加载的数据在所述树状结构中所属的目标层级;
检测用户请求从局部数据块中加载数据的操作,所述局部数据块为所述目标层级中的至少一个节点分别对应的数据块;
当检测到所述操作后,从所述局部数据块中的每一数据块中抽取至少一个未被展示的数据,并在当前已展示数据的基础上展示被抽取的数据。
8.根据权利要求1或2所述的方法,其特征在于,
所述从所述目标数据集中抽取部分数据,包括:
按照预设采样方式,从所述目标数据集中抽取部分数据,所述预设采样方式为取模采样方式、或随机采样方式、或均匀采样方式;
所述从所述目标数据集中未被展示的数据中抽取部分数据,包括:
按照所述预设采样方式,从所述目标数据集中未被展示的数据中抽取部分数据。
9.一种数据展示装置,其特征在于,包括:
页面判断单元,用于判断当前页面是否展示了所述目标数据集中的数据;
加载展示单元,用于如果当前页面未展示所述目标数据集中的数据,则从所述目标数据集中抽取部分数据,并展示被抽取的数据;如果当前页面展示了所述目标数据集中的部分数据,则从所述目标数据集中未被展示的数据中抽取部分数据,并在当前已展示数据的基础上展示被抽取的数据,得到更新后的页面。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
展示回退单元,用于响应于用户请求撤销加载的操作,展示当前页面的上一页面,所述上一页面为当前页面被更新之前的页面。
CN201710073595.7A 2017-02-10 2017-02-10 一种数据展示方法及装置 Active CN106874447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710073595.7A CN106874447B (zh) 2017-02-10 2017-02-10 一种数据展示方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710073595.7A CN106874447B (zh) 2017-02-10 2017-02-10 一种数据展示方法及装置

Publications (2)

Publication Number Publication Date
CN106874447A true CN106874447A (zh) 2017-06-20
CN106874447B CN106874447B (zh) 2019-08-27

Family

ID=59166975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710073595.7A Active CN106874447B (zh) 2017-02-10 2017-02-10 一种数据展示方法及装置

Country Status (1)

Country Link
CN (1) CN106874447B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399266A (zh) * 2018-03-23 2018-08-14 广州爱九游信息技术有限公司 数据抽取方法、装置、电子设备及计算机可读存储介质
CN109726317A (zh) * 2018-12-20 2019-05-07 国网北京市电力公司 展示数据的方法和装置
CN111625678A (zh) * 2019-02-28 2020-09-04 北京字节跳动网络技术有限公司 信息处理方法、装置和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819558A (zh) * 2012-06-28 2012-12-12 用友软件股份有限公司 数据展示装置和数据展示方法
CN104881425A (zh) * 2014-11-13 2015-09-02 安徽四创电子股份有限公司 一种WebGIS地图优化分级加载数万级摄像头的方法
CN106162069A (zh) * 2015-04-22 2016-11-23 杭州海康威视系统技术有限公司 一种获取、提供视频资源的方法、客户端和服务器
CN106375382A (zh) * 2016-08-26 2017-02-01 苏州蓝海彤翔系统科技有限公司 数据分配的方法、系统、控制服务器及节点客户端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819558A (zh) * 2012-06-28 2012-12-12 用友软件股份有限公司 数据展示装置和数据展示方法
CN104881425A (zh) * 2014-11-13 2015-09-02 安徽四创电子股份有限公司 一种WebGIS地图优化分级加载数万级摄像头的方法
CN106162069A (zh) * 2015-04-22 2016-11-23 杭州海康威视系统技术有限公司 一种获取、提供视频资源的方法、客户端和服务器
CN106375382A (zh) * 2016-08-26 2017-02-01 苏州蓝海彤翔系统科技有限公司 数据分配的方法、系统、控制服务器及节点客户端

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399266A (zh) * 2018-03-23 2018-08-14 广州爱九游信息技术有限公司 数据抽取方法、装置、电子设备及计算机可读存储介质
CN108399266B (zh) * 2018-03-23 2022-01-07 阿里巴巴(中国)有限公司 数据抽取方法、装置、电子设备及计算机可读存储介质
CN109726317A (zh) * 2018-12-20 2019-05-07 国网北京市电力公司 展示数据的方法和装置
CN109726317B (zh) * 2018-12-20 2021-06-22 国网北京市电力公司 展示数据的方法和装置
CN111625678A (zh) * 2019-02-28 2020-09-04 北京字节跳动网络技术有限公司 信息处理方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
CN106874447B (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
Jumadi Dehotman Sitompul et al. Enhancement clustering evaluation result of davies-bouldin index with determining initial centroid of k-means algorithm
Kahng et al. Visual exploration of machine learning results using data cube analysis
Yu et al. Outlier-eliminated k-means clustering algorithm based on differential privacy preservation
WO2023097932A1 (zh) 一种工程机械多仿真结果筛选方法及系统
Zhang et al. Three-way decisions of rough vague sets from the perspective of fuzziness
CN106874447B (zh) 一种数据展示方法及装置
CN101315644A (zh) 基于可拓聚类的零件分类方法
Xin et al. An overlapping semantic community detection algorithm base on the ARTs multiple sampling models
CN107590735A (zh) 用于信用评估的数据挖掘方法及装置
Sandhu et al. An improvement in apriori algorithm using profit and quantity
CN113591947A (zh) 基于用电行为的电力数据聚类方法、装置和存储介质
CN112052140A (zh) 一种基于模糊Petri网的信息系统安全态势评估方法
CN108153818A (zh) 一种基于大数据的聚类方法
CN104102716A (zh) 基于聚类分层抽样补偿逻辑回归的失衡数据预测方法
Yuan Representing spatiotemporal processes to support knowledge discovery in GIS databases
CN104239430B (zh) 基于项权值变化的教育数据关联规则挖掘方法及其系统
CN104462480B (zh) 基于典型性的评论大数据挖掘方法
Liu et al. A learning-based system for predicting sport injuries
Jia et al. Clustering-based method for locating critical slip surface using the strength reduction method
Lewis et al. X-μ fuzzy association rule method
Qin et al. Load combination feedback of fracture in concrete dams based on monitoring data with simplified fuzzy association rules
Mathai et al. An Efficient Data Mining Algorithm Based on Item Sets Frequency and Priority Using Distribution Model
Zhang et al. The nearest neighbor algorithm of filling missing data based on cluster analysis
CN109960702A (zh) 基于f函数和改进kd树的犯罪大数据点模式分析方法
Changala et al. Statistical models in data mining: a bayesian classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant