CN105404664B - 一种针对海量数据可配置的多重索引及回放方法及其系统 - Google Patents

一种针对海量数据可配置的多重索引及回放方法及其系统 Download PDF

Info

Publication number
CN105404664B
CN105404664B CN201510759972.3A CN201510759972A CN105404664B CN 105404664 B CN105404664 B CN 105404664B CN 201510759972 A CN201510759972 A CN 201510759972A CN 105404664 B CN105404664 B CN 105404664B
Authority
CN
China
Prior art keywords
data
index
indexed
level
datas
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510759972.3A
Other languages
English (en)
Other versions
CN105404664A (zh
Inventor
曾美霞
郑金松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sunyee Measurement And Control Technology Co Ltd
Original Assignee
Shanghai Sunyee Measurement And Control Technology Co Ltd
Filing date
Publication date
Application filed by Shanghai Sunyee Measurement And Control Technology Co Ltd filed Critical Shanghai Sunyee Measurement And Control Technology Co Ltd
Priority to CN201510759972.3A priority Critical patent/CN105404664B/zh
Publication of CN105404664A publication Critical patent/CN105404664A/zh
Application granted granted Critical
Publication of CN105404664B publication Critical patent/CN105404664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种针对海量数据可配置的多重索引及回放方法及其系统,所述方法包括数据索引步骤和数据回放步骤,通过数据索引步骤形成多级索引数据,通过数据回放步骤实现对所需部分原始数据进行呈现,该方法可以有效地提取海量数据中的特征值,通过特征值反映数据的整体走势,当用户对局部数据感兴趣时可以通过局部放大的方式对局部数据进行还原与放大,从而方便用户进行海量数据回放。

Description

一种针对海量数据可配置的多重索引及回放方法及其系统
技术领域
本发明涉及数据处理技术,尤其涉及对海量数据进行处理的方法。
背景技术
在测量数据回放时经常会遇到海量数据回放的要求。如汽车发动机应力测试中,如果传感器采样频率为1MHz,单一数据为8字节浮点数,通过4个通道连接4个应力传感器进行数据采集,经过10分钟的测试后获取的数据总量为1M * 8B * 4 * 60 s * 10m = 19200MB = 18.75GB。如果用户希望将测试数据呈现在屏幕上显示数据走势,介于庞大的数据量加载过程无法完成(受制于单一进程的内存容量限制)或加载结束之后将导致满屏幕都是数据曲线,无法看清数据特征状况,本发明正是基于上述目的而展开的研究开发。
发明内容
本发明是为了克服现有技术的不足而提供一种对海量数据进行预处理使其根据需要呈现相应部分数据并避免数据文件太大无法读取或打开的索引及回放方法。
为达到上述目的,本发明采用的技术方案是:一种针对海量数据的可配置的多重索引及回放方法,它包括数据索引算法和数据回放方法,其中,
所述的数据索引算法包括:
(11)用户根据需要从每N个相邻的海量原始数据中提取至少两个特征数据,所述的N称为特征值抽样率N,所提取的每组特征数据构成了一级索引数据;
(12)按照步骤(11)的方式,在所述一级索引数据中仍以特征值抽样率N为一组提取至少两个特征数据,所提取的每组特征数据构成了二级索引数据;
(13)以此类推,通过n级索引数据获取n+1级索引数据,即为最高层级的索引数据;
所述的数据回放方法包括:
(21)所述的最高层级的索引数据以图形的方式呈现,其代表整体数据概略;
(22)当用户针对局部数据查看时,判断其选中的区域数据的上一级索引所对应的数据读出后有没有超出系统预设的最长长度数据值,如果没有超出,则将与所选数据区间对应的上一级索引的数据呈现在图形中;如果超出预设的最长长度数据值,则对所选区域中本级索引的数据所形成的图形做局部放大;
(23)以此类推,直至将用户感兴趣的原始数据呈现在图形上。
进一步地,所述的步骤(22)中,所述的上一级索引中为了获取其对应的数据值,在其相邻层级数据间以及索引数据与原始数据间建立有数据投影关系,所述的数据投影关系建立包括如下步骤:
(221)对于一级索引,利用两列数据分别记录特征数据以及该特征数据在原始数据中所对应的数据位置;
(222)对于二级索引,利用三列数据分别记录二级特征数据、二级特征数据在一级索引数据中所对应的位置以及该二级特征数据在原始数据中所对应的位置;
(223)对于n级索引,需要n+1列数据分别记录特征数据、该数据在n-1级索引中所对应的位置、该数据在n-2级索引中所对应的位置、以此类推直至记录该数据在原始文件中所对应的位置。
优化地,所述的特征数据为每级索引数据中每组N个数据中的最大值和最小值。
优化地,所述索引数据的层级数量根据原始数据的大小进行动态选择。
优化地,所述的原始数据为m维数据,当m大于1时,将m维数据当作m组一维数据进行处理。
本发明还提供一种可配置海量数据的多重索引及回放系统,其包括索引器和回放器,所述的索引器对未曾索引的数据进行特征值提取并形成索引数据,并标识原始数据为“已索引”,所述的回放器用于面对用户对所需数据进行图形显示。
进一步地,所述的索引器定期对指定路径下的数据文件进行查询,当发现该路径下存在未曾索引的数据文件时便对其进行索引。
优化地,所述的索引器以守护进程或Windows服务的方式进行部署。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:本发明可配置海量数据多重索引法可以有效地提取海量数据中的特征值,通过特征值反映数据的整体走势,当用户对局部数据感兴趣时可以通过局部放大的方式对局部数据进行还原与放大,从而方便用户进行海量数据回放。
附图说明
附图1为本发明可配置海量数据的多重索引及回放系统原理图。
附图2为本发明一具体实施例原始数据回放图。
附图3为基于附图2原始数据的二级索引数据回放图。
具体实施方式
本发明可配置海量数据的多重索引及回放方法,其主要包括数据索引方法和数据回放方法,下面对其进行详细介绍:
一、数据索引方法:
首先,用户根据自己需要设置“特征值抽样率”,在本方法中,从每N个相邻的原始数据中提取两个特征数据,则“特征值抽样率”为N;
然后,根据用户设置的“特征值抽样率”N在每N个数据中选择一个最大值和一个最小值,并将所选的特征值记录在一级索引数据中;
接着,按照上述的方式从一级索引数据中分别以特征值抽样率N再次提取多组特征数据,形成二级索引数据。
以此类推,通过n层索引数据可获取n+1层索引数据。
上述过程中,索引层级的数量可以根据原始数据的大小进行动态选择(边界值可以让用户配置)。
同时,对于m维数据,可以将其按照m组一维数据进行处理。
二、数据回放方法:
当用户需要查看整体数据概略时可以将最高层级的索引数据呈现在图形中。当用户需要针对局部数据查看详情时,如果所选中区域数据的上一级索引所对应的数据读出后没有超过系统预设的数据最长长度值则将与所选区域数据所对应的上一级索引的数据呈现在图形中,否则对所选区域中的本级索引所形成的图形做局部图形放大。该过程可以递归进行直至系统可以将用户感兴趣的原始数据呈现在图形上为止。
为了支持对于任意给定数据均可在上一级索引中获取其对应的数据值必须在相邻层级数据间以及索引数据与原始数据间建立投影关系。具体数据投影方法如下:
步骤1:对于第一级索引,利用两列数据分别记录特征数据以及该特征数据在原始数据中所对应的数据位置;
步骤2:对于第二级索引,利用三列数据分别记录二级特征数据,该二级特征数据在一级索引数据中所对应的位置以及该二级特征数据在原始数据中所对应的位置。
步骤3:对于n级索引,需要n+1列数据分别记录特征数据,该数据在n-1级索引中所对应的位置,该数据在n-2级索引中所对应的位置,以此类推直至记录该数据在原始文件中所对应的位置。
利用上述多重索引法进行特征数据提取与回放可以采用如图1所示的系统结构。索引器对未曾索引的数据进行特征值提取形成索引数据,并标识原始数据为“已索引”。索引器定期对指定路径下的文件进行查询,当发现该路径下存在未曾索引的数据文件时便对其进行索引。
索引器可以以守护进程或Windows服务的方式进行部署以方便利用计算机闲暇时间对大数据进行索引。
下面给出一具体数据例以达到进一步说明:
以特征值抽样率N=4,索引级别n=2建立索引:
对于以下单通道原始数据:
每四个相邻点中抽取一个最大值与一个最小值按照上述所述数据索引方法先建立一级索引形成如下数据:
再以一级索引为基础每四点再提取一个最大和一个最小数据形成二级索引如下:
上述说明举例描述了索引数据的提取方法与存储格式。下面采用一段实际数,通过对原始数据直接回放与通过本发明中所描述的索引方法处理过后的数据回放进行比较,对两种情形下的图形效果与回放效率加以对比。参见图2和图3所示。其中,图2是对原始数据直接回放,图3是使用本发明中描述的索引方法对原始数据进行二级索引处理后的回放时效果。通过图2和图3的对比可见,本发明所提出的方法可以较好的展示原始数据的特征,同时可以将数据加载时间进行大幅度的提高。对比中原始数据的加载时间为37.156307毫秒,采用本发明所描述的索引方法处理后的数据加载时间为0.519581毫秒。
本发明可配置海量数据多重索引法可以有效地提取海量数据中的特征值,通过特征值反映数据的整体走势,当用户对局部数据感兴趣时可以通过局部放大的方式对局部数据进行还原与放大,从而方便用户进行海量数据回放。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围,凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种针对海量数据可配置的多重索引及回放方法,其特征在于:它包括数据索引算法和数据回放方法,其中,
所述的数据索引算法如下:
(11)用户根据需要从每N个相邻的海量原始数据中提取至少两个特征数据,所述的N称为特征值抽样率N,所提取的每组特征数据构成了一级索引数据;
(12)按照步骤(11)的方式,在所述一级索引数据中仍以特征值抽样率N为一组提取至少两个特征数据,所提取的每组特征数据构成了二级索引数据;
(13)以此类推,通过n级索引数据获取n+1级索引数据,即为最高层级的索引数据;
所述的数据回放方法包括:
(21)所述的最高层级的索引数据以图形的方式呈现,其代表整体数据概略;
(22)当用户针对局部数据查看时,判断其选中的区域数据的上一级索引所对应的数据读出后有没有超出系统预设的最长长度数据值,如果没有超出,则将与所选数据区间对应的上一级索引的数据呈现在图形中;如果超出预设的最长长度数据值,则对当前所选区域的数据在图形中做局部放大;
(23)以此类推,直至将用户感兴趣的原始数据呈现在图形上;
所述的步骤(22)中,所述的上一级索引中为了获取其对应的数据值,在其相邻层级数据间以及索引数据与原始数据间建立有数据投影关系,所述的数据投影关系建立包括如下步骤:
(221)对于一级索引,利用两列数据分别记录特征数据以及该特征数据在原始数据中所对应的数据位置;
(222)对于二级索引,利用三列数据分别记录二级特征数据、二级特征数据在一级索引数据中所对应的位置以及该二级特征数据在原始数据中所对应的位置;
(223)对于n级索引,需要n+1列数据分别记录特征数据、该数据在n-1级索引中所对应的位置、该数据在n-2级索引中所对应的位置、以此类推直至记录该数据在原始文件中所对应的位置。
2.根据权利要求1所述的针对海量数据可配置的多重索引及回放方法,其特征在于:所述的特征数据为每级索引数据中每组N个数据中的最大值和最小值。
3.根据权利要求1所述的针对海量数据可配置的多重索引及回放方法,其特征在于:所述索引数据的层级数量根据原始数据的大小进行动态选择。
4.根据权利要求1所述的针对海量数据可配置的多重索引及回放方法,其特征在于:所述的原始数据为m维数据,当m大于1时,将m维数据当作m组一维数据进行处理。
5.一种采用权利要求1所述的针对海量数据可配置的多重索引及回放方法的系统,特征在于:其包括索引器和回放器,所述的索引器对未曾索引的数据进行特征值提取并形成索引数据,并标识原始数据为“已索引”,所述的回放器用于面对用户对所需数据进行图形显示。
6.根据权利要求5所述的针对海量数据可配置的多重索引及回放系统,其特征在于:所述的索引器定期对指定路径下的数据文件进行查询,当发现该路径下存在未曾索引的数据文件时便对其进行索引。
7.根据权利要求5或6所述的针对海量数据可配置的多重索引及回放系统,其特征在于:所述的索引器以守护进程或Windows服务的方式进行部署。
CN201510759972.3A 2015-11-10 一种针对海量数据可配置的多重索引及回放方法及其系统 Active CN105404664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510759972.3A CN105404664B (zh) 2015-11-10 一种针对海量数据可配置的多重索引及回放方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510759972.3A CN105404664B (zh) 2015-11-10 一种针对海量数据可配置的多重索引及回放方法及其系统

Publications (2)

Publication Number Publication Date
CN105404664A CN105404664A (zh) 2016-03-16
CN105404664B true CN105404664B (zh) 2018-08-31

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902715A (zh) * 2012-08-22 2013-01-30 中国铁道科学研究院 一种应用于回放系统的快速数据处理方法及装置
CN103488709A (zh) * 2013-09-09 2014-01-01 东软集团股份有限公司 一种索引建立方法及系统、检索方法及系统
CN103970605A (zh) * 2013-02-06 2014-08-06 珠海世纪鼎利通信科技股份有限公司 一种基于低性能终端的数据分析方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902715A (zh) * 2012-08-22 2013-01-30 中国铁道科学研究院 一种应用于回放系统的快速数据处理方法及装置
CN103970605A (zh) * 2013-02-06 2014-08-06 珠海世纪鼎利通信科技股份有限公司 一种基于低性能终端的数据分析方法及装置
CN103488709A (zh) * 2013-09-09 2014-01-01 东软集团股份有限公司 一种索引建立方法及系统、检索方法及系统

Similar Documents

Publication Publication Date Title
CN103970722B (zh) 一种文本内容去重的方法
JP4859595B2 (ja) 記憶システム、そのデータ再配置方法、データ再配置プログラム
CN101248421B (zh) 数据存储系统及数据存储方法
CN109189991A (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN106201916B (zh) 一种面向ssd的非易失缓存方法
CN106021031B (zh) 一种btrfs文件系统的删除数据恢复方法和装置
CN102708774B (zh) 字符串显示方法和系统
CN106651877A (zh) 实例分割方法及装置
CN107145482A (zh) 基于人工智能的文章生成方法及装置、设备与可读介质
CN106295502A (zh) 一种人脸检测方法及装置
CN107220348A (zh) 一种基于Flume与Alluxio的数据收集方法
CN104635266B (zh) 一种基于偏移距‑方位角域的多维道集显示方法以及系统
CN102486379B (zh) 一种导航地图处理方法及装置
Kumar et al. Discovering knowledge landscapes: an epistemic analysis of business and management field in Malaysia
CN108734304A (zh) 一种数据模型的训练方法、装置、及计算机设备
US7584173B2 (en) Edit distance string search
CN103812877A (zh) 基于Bigtable分布式存储系统的数据压缩方法
CN105404664B (zh) 一种针对海量数据可配置的多重索引及回放方法及其系统
CN103955517B (zh) 将文档型数据库的数据转换至关系型数据库的方法及系统
JP2011158640A (ja) 地図データ
CN104298739B (zh) 一种数据处理方法及装置
CN103176753B (zh) 存储设备及其数据管理方法
Yule The enigmatic San Gorgonio Pass
CN104239329A (zh) 地图道路形状点数据的保存和加载方法及装置
Razafimandimbison et al. Phylogeny of the Madagascar-centred tribe Danaideae (Rubiaceae) as a precursor to taxonomic revision: insights into its generic and species limits, affinities and distribution

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 201500 Shanghai Jinshan District exhibition pavilion Lin Zhen Jin Road No. 2229 Building No. 5 room 185

Patentee after: SHANGHAI SUNYEE MEASUREMENT AND CONTROL TECHNOLOGY Co.,Ltd.

Address before: 201315, room 205, building 10, Zhongtian hi tech business park, 787 Cambridge Road, Shanghai, Pudong New Area

Patentee before: SHANGHAI SUNYEE MEASUREMENT AND CONTROL TECHNOLOGY Co.,Ltd.