CN105404664A - 一种针对海量数据可配置的多重索引及回放方法及其系统 - Google Patents

一种针对海量数据可配置的多重索引及回放方法及其系统 Download PDF

Info

Publication number
CN105404664A
CN105404664A CN201510759972.3A CN201510759972A CN105404664A CN 105404664 A CN105404664 A CN 105404664A CN 201510759972 A CN201510759972 A CN 201510759972A CN 105404664 A CN105404664 A CN 105404664A
Authority
CN
China
Prior art keywords
data
index
level
configurable
mass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510759972.3A
Other languages
English (en)
Other versions
CN105404664B (zh
Inventor
曾美霞
郑金松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sunyee Measurement And Control Technology Co Ltd
Original Assignee
Shanghai Sunyee Measurement And Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sunyee Measurement And Control Technology Co Ltd filed Critical Shanghai Sunyee Measurement And Control Technology Co Ltd
Priority to CN201510759972.3A priority Critical patent/CN105404664B/zh
Priority claimed from CN201510759972.3A external-priority patent/CN105404664B/zh
Publication of CN105404664A publication Critical patent/CN105404664A/zh
Application granted granted Critical
Publication of CN105404664B publication Critical patent/CN105404664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种针对海量数据可配置的多重索引及回放方法及其系统,所述方法包括数据索引步骤和数据回放步骤,通过数据索引步骤形成多级索引数据,通过数据回放步骤实现对所需部分原始数据进行呈现,该方法可以有效地提取海量数据中的特征值,通过特征值反映数据的整体走势,当用户对局部数据感兴趣时可以通过局部放大的方式对局部数据进行还原与放大,从而方便用户进行海量数据回放。

Description

一种针对海量数据可配置的多重索引及回放方法及其系统
技术领域
本发明涉及数据处理技术,尤其涉及对海量数据进行处理的方法。
背景技术
在测量数据回放时经常会遇到海量数据回放的要求。如汽车发动机应力测试中,如果传感器采样频率为1MHz,单一数据为8字节浮点数,通过4个通道连接4个应力传感器进行数据采集,经过10分钟的测试后获取的数据总量为1M*8B*4*60s*10m=19200MB=18.75GB。如果用户希望将测试数据呈现在屏幕上显示数据走势,介于庞大的数据量加载过程无法完成(受制于单一进程的内存容量限制)或加载结束之后将导致满屏幕都是数据曲线,无法看清数据特征状况,本发明正是基于上述目的而展开的研究开发。
发明内容
本发明是为了克服现有技术的不足而提供一种对海量数据进行预处理使其根据需要呈现相应部分数据并避免数据文件太大无法读取或打开的索引及回放方法。
为达到上述目的,本发明采用的技术方案是:一种针对海量数据的可配置的多重索引及回放方法,它包括数据索引算法和数据回放方法,其中,
所述的数据索引算法包括:
(11)用户根据需要从每N个相邻的海量原始数据中提取至少两个特征数据,所述的N称为特征值抽样率N,所提取的每组特征数据构成了一级索引数据;
(12)按照步骤(11)的方式,在所述一级索引数据中仍以特征值抽样率N为一组提取至少两个特征数据,所提取的每组特征数据构成了二级索引数据;
(13)以此类推,通过n级索引数据获取n+1级索引数据,即为最高层级的索引数据;
所述的数据回放方法包括:
(21)所述的最高层级的索引数据以图形的方式呈现,其代表整体数据概略;
(22)当用户针对局部数据查看时,判断其选中的区域数据的上一级索引所对应的数据读出后有没有超出系统预设的最长长度数据值,如果没有超出,则将与所选数据区间对应的上一级索引的数据呈现在图形中;如果超出预设的最长长度数据值,则对所选区域中本级索引的数据所形成的图形做局部放大;
(23)以此类推,直至将用户感兴趣的原始数据呈现在图形上。
进一步地,所述的步骤(22)中,所述的上一级索引中为了获取其对应的数据值,在其相邻层级数据间以及索引数据与原始数据间建立有数据投影关系,所述的数据投影关系建立包括如下步骤:
(221)对于一级索引,利用两列数据分别记录特征数据以及该特征数据在原始数据中所对应的数据位置;
(222)对于二级索引,利用三列数据分别记录二级特征数据、二级特征数据在一级索引数据中所对应的位置以及该二级特征数据在原始数据中所对应的位置;
(223)对于n级索引,需要n+1列数据分别记录特征数据、该数据在n-1级索引中所对应的位置、该数据在n-2级索引中所对应的位置、以此类推直至记录该数据在原始文件中所对应的位置。
优化地,所述的特征数据为每级索引数据中每组N个数据中的最大值和最小值。
优化地,所述索引数据的层级数量根据原始数据的大小进行动态选择。
优化地,所述的原始数据为m维数据,当m大于1时,将m维数据当作m组一维数据进行处理。
本发明还提供一种可配置海量数据的多重索引及回放系统,其包括索引器和回放器,所述的索引器对未曾索引的数据进行特征值提取并形成索引数据,并标识原始数据为“已索引”,所述的回放器用于面对用户对所需数据进行图形显示。
进一步地,所述的索引器定期对指定路径下的数据文件进行查询,当发现该路径下存在未曾索引的数据文件时便对其进行索引。
优化地,所述的索引器以守护进程或Windows服务的方式进行部署。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:本发明可配置海量数据多重索引法可以有效地提取海量数据中的特征值,通过特征值反映数据的整体走势,当用户对局部数据感兴趣时可以通过局部放大的方式对局部数据进行还原与放大,从而方便用户进行海量数据回放。
附图说明
附图1为本发明可配置海量数据的多重索引及回放系统原理图。
附图2为本发明一具体实施例原始数据回放图。
附图3为基于附图2原始数据的二级索引数据回放图。
具体实施方式
本发明可配置海量数据的多重索引及回放方法,其主要包括数据索引方法和数据回放方法,下面对其进行详细介绍:
一、数据索引方法:
首先,用户根据自己需要设置“特征值抽样率”,在本方法中,从每N个相邻的原始数据中提取两个特征数据,则“特征值抽样率”为N;
然后,根据用户设置的“特征值抽样率”N在每N个数据中选择一个最大值和一个最小值,并将所选的特征值记录在一级索引数据中;
接着,按照上述的方式从一级索引数据中分别以特征值抽样率N再次提取多组特征数据,形成二级索引数据。
以此类推,通过n层索引数据可获取n+1层索引数据。
上述过程中,索引层级的数量可以根据原始数据的大小进行动态选择(边界值可以让用户配置)。
同时,对于m维数据,可以将其按照m组一维数据进行处理。
二、数据回放方法:
当用户需要查看整体数据概略时可以将最高层级的索引数据呈现在图形中。当用户需要针对局部数据查看详情时,如果所选中区域数据的上一级索引所对应的数据读出后没有超过系统预设的数据最长长度值则将与所选区域数据所对应的上一级索引的数据呈现在图形中,否则对所选区域中的本级索引所形成的图形做局部图形放大。该过程可以递归进行直至系统可以将用户感兴趣的原始数据呈现在图形上为止。
为了支持对于任意给定数据均可在上一级索引中获取其对应的数据值必须在相邻层级数据间以及索引数据与原始数据间建立投影关系。具体数据投影方法如下:
步骤1:对于第一级索引,利用两列数据分别记录特征数据以及该特征数据在原始数据中所对应的数据位置;
步骤2:对于第二级索引,利用三列数据分别记录二级特征数据,该二级特征数据在一级索引数据中所对应的位置以及该二级特征数据在原始数据中所对应的位置。
步骤3:对于n级索引,需要n+1列数据分别记录特征数据,该数据在n-1级索引中所对应的位置,该数据在n-2级索引中所对应的位置,以此类推直至记录该数据在原始文件中所对应的位置。
利用上述多重索引法进行特征数据提取与回放可以采用如图1所示的系统结构。索引器对未曾索引的数据进行特征值提取形成索引数据,并标识原始数据为“已索引”。索引器定期对指定路径下的文件进行查询,当发现该路径下存在未曾索引的数据文件时便对其进行索引。
索引器可以以守护进程或Windows服务的方式进行部署以方便利用计算机闲暇时间对大数据进行索引。
下面给出一具体数据例以达到进一步说明:
以特征值抽样率N=4,索引级别n=2建立索引:
对于以下单通道原始数据:
每四个相邻点中抽取一个最大值与一个最小值按照上述所述数据索引方法先建立一级索引形成如下数据:
再以一级索引为基础每四点再提取一个最大和一个最小数据形成二级索引如下:
上述说明举例描述了索引数据的提取方法与存储格式。下面采用一段实际数,通过对原始数据直接回放与通过本发明中所描述的索引方法处理过后的数据回放进行比较,对两种情形下的图形效果与回放效率加以对比。参见图2和图3所示。其中,图2是对原始数据直接回放,图3是使用本发明中描述的索引方法对原始数据进行二级索引处理后的回放时效果。通过图2和图3的对比可见,本发明所提出的方法可以较好的展示原始数据的特征,同时可以将数据加载时间进行大幅度的提高。对比中原始数据的加载时间为37.156307毫秒,采用本发明所描述的索引方法处理后的数据加载时间为0.519581毫秒。
本发明可配置海量数据多重索引法可以有效地提取海量数据中的特征值,通过特征值反映数据的整体走势,当用户对局部数据感兴趣时可以通过局部放大的方式对局部数据进行还原与放大,从而方便用户进行海量数据回放。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围,凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种针对海量数据可配置的多重索引及回放方法,其特征在于:它包括数据索引算法和数据回放方法,其中,
所述的数据索引算法如下:
(11)用户根据需要从每N个相邻的海量原始数据中提取至少两个特征数据,所述的N称为特征值抽样率N,所提取的每组特征数据构成了一级索引数据;
(12)按照步骤(11)的方式,在所述一级索引数据中仍以特征值抽样率N为一组提取至少两个特征数据,所提取的每组特征数据构成了二级索引数据;
(13)以此类推,通过n级索引数据获取n+1级索引数据,即为最高层级的索引数据;
所述的数据回放方法包括:
(21)所述的最高层级的索引数据以图形的方式呈现,其代表整体数据概略;
(22)当用户针对局部数据查看时,判断其选中的区域数据的上一级索引所对应的数据读出后有没有超出系统预设的最长长度数据值,如果没有超出,则将与所选数据区间对应的上一级索引的数据呈现在图形中;如果超出预设的最长长度数据值,则对当前所选区域的数据在图形中做局部放大;
(23)以此类推,直至将用户感兴趣的原始数据呈现在图形上。
2.根据权利要求1所述的针对海量数据可配置的多重索引及回放方法,其特征在于:所述的步骤(22)中,所述的上一级索引中为了获取其对应的数据值,在其相邻层级数据间以及索引数据与原始数据间建立有数据投影关系,所述的数据投影关系建立包括如下步骤:
(221)对于一级索引,利用两列数据分别记录特征数据以及该特征数据在原始数据中所对应的数据位置;
(222)对于二级索引,利用三列数据分别记录二级特征数据、二级特征数据在一级索引数据中所对应的位置以及该二级特征数据在原始数据中所对应的位置;
(223)对于n级索引,需要n+1列数据分别记录特征数据、该数据在n-1级索引中所对应的位置、该数据在n-2级索引中所对应的位置、以此类推直至记录该数据在原始文件中所对应的位置。
3.根据权利要求1或2所述的针对海量数据可配置的多重索引及回放方法,其特征在于:所述的特征数据为每级索引数据中每组N个数据中的最大值和最小值。
4.根据权利要求1所述的针对海量数据可配置的多重索引及回放方法,其特征在于:所述索引数据的层级数量根据原始数据的大小进行动态选择。
5.根据权利要求1所述的针对海量数据可配置的多重索引及回放方法,其特征在于:所述的原始数据为m维数据,当m大于1时,将m维数据当作m组一维数据进行处理。
6.一种采用权利要求1所述的针对海量数据可配置的多重索引及回放方法的系统,特征在于:其包括索引器和回放器,所述的索引器对未曾索引的数据进行特征值提取并形成索引数据,并标识原始数据为“已索引”,所述的回放器用于面对用户对所需数据进行图形显示。
7.根据权利要求6所述的针对海量数据可配置的多重索引及回放系统,其特征在于:所述的索引器定期对指定路径下的数据文件进行查询,当发现该路径下存在未曾索引的数据文件时便对其进行索引。
8.根据权利要求6或7所述的针对海量数据可配置的多重索引及回放系统,其特征在于:所述的索引器以守护进程或Windows服务的方式进行部署。
CN201510759972.3A 2015-11-10 一种针对海量数据可配置的多重索引及回放方法及其系统 Active CN105404664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510759972.3A CN105404664B (zh) 2015-11-10 一种针对海量数据可配置的多重索引及回放方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510759972.3A CN105404664B (zh) 2015-11-10 一种针对海量数据可配置的多重索引及回放方法及其系统

Publications (2)

Publication Number Publication Date
CN105404664A true CN105404664A (zh) 2016-03-16
CN105404664B CN105404664B (zh) 2018-08-31

Family

ID=

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776733A (zh) * 2016-11-22 2017-05-31 北京航天自动控制研究所 数据处理系统中的数据分级抽样方法
CN108334845A (zh) * 2018-02-06 2018-07-27 北京华睿集成科技有限公司 数据定位方法和数据定位系统
CN108536759A (zh) * 2018-03-20 2018-09-14 阿里巴巴集团控股有限公司 一种样本回放数据存取方法及装置
CN116455956A (zh) * 2023-06-16 2023-07-18 中国人民解放军国防科技大学 一种基于消息中间件的数据采集和数据回放的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090110376A1 (en) * 2007-10-25 2009-04-30 Sony Corporation Data conversion method and data conversion device, data recording device, data playing device, and computer program
CN102902715A (zh) * 2012-08-22 2013-01-30 中国铁道科学研究院 一种应用于回放系统的快速数据处理方法及装置
CN103488709A (zh) * 2013-09-09 2014-01-01 东软集团股份有限公司 一种索引建立方法及系统、检索方法及系统
CN103970605A (zh) * 2013-02-06 2014-08-06 珠海世纪鼎利通信科技股份有限公司 一种基于低性能终端的数据分析方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090110376A1 (en) * 2007-10-25 2009-04-30 Sony Corporation Data conversion method and data conversion device, data recording device, data playing device, and computer program
CN102902715A (zh) * 2012-08-22 2013-01-30 中国铁道科学研究院 一种应用于回放系统的快速数据处理方法及装置
CN103970605A (zh) * 2013-02-06 2014-08-06 珠海世纪鼎利通信科技股份有限公司 一种基于低性能终端的数据分析方法及装置
CN103488709A (zh) * 2013-09-09 2014-01-01 东软集团股份有限公司 一种索引建立方法及系统、检索方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776733A (zh) * 2016-11-22 2017-05-31 北京航天自动控制研究所 数据处理系统中的数据分级抽样方法
CN108334845A (zh) * 2018-02-06 2018-07-27 北京华睿集成科技有限公司 数据定位方法和数据定位系统
CN108536759A (zh) * 2018-03-20 2018-09-14 阿里巴巴集团控股有限公司 一种样本回放数据存取方法及装置
CN108536759B (zh) * 2018-03-20 2020-08-04 阿里巴巴集团控股有限公司 一种样本回放数据存取方法及装置
CN116455956A (zh) * 2023-06-16 2023-07-18 中国人民解放军国防科技大学 一种基于消息中间件的数据采集和数据回放的方法和系统
CN116455956B (zh) * 2023-06-16 2023-08-15 中国人民解放军国防科技大学 一种基于消息中间件的数据采集和数据回放的方法和系统

Similar Documents

Publication Publication Date Title
CN104134046B (zh) 加密方法和装置
CN107145482A (zh) 基于人工智能的文章生成方法及装置、设备与可读介质
RU2009148314A (ru) Указатель на основе графических мозаичных элементов с расширением ячеек
CN106991179B (zh) 数据删除方法、装置及移动终端
CN103631589B (zh) 应用识别方法与装置
ATE372544T1 (de) Löschen eines gespeicherten datenmusters auf einem speicherungsmedium
CN106557571A (zh) 一种基于k‑v存储引擎的数据去重方法及装置
JP2017532690A (ja) 重複ウェブページを除去する方法および装置
CN105760084B (zh) 语音输入的控制方法和装置
CN105006002A (zh) 自动图像抠图方法和装置
JP2011070558A (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
CN103746705A (zh) 一种压缩矢量数据的方法
CN102609531A (zh) 一种根据关键字反查文件的方法
CN105426116B (zh) 控制器及存储器存取方法
CN105404664A (zh) 一种针对海量数据可配置的多重索引及回放方法及其系统
CN106446133A (zh) 同时对接两个数据库的方法及装置
CN101826070A (zh) 一种基于关键点的数据序列线性拟合方法
US20080126432A1 (en) Method and apparatus for shortening file name
CN104834549B (zh) 移动终端的应用程序文件更新方法及装置
CN105404664B (zh) 一种针对海量数据可配置的多重索引及回放方法及其系统
CN103677566A (zh) 图片编辑方法和装置
CN111984600B (zh) 一种文件聚合方法、装置、设备及可读存储介质
CN106156660A (zh) 一种存储设备的数据销毁方法及系统
CN105653123A (zh) 一种图标分组方法及终端设备
CN106598769A (zh) Emmc烧录文件检验的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 201500 Shanghai Jinshan District exhibition pavilion Lin Zhen Jin Road No. 2229 Building No. 5 room 185

Patentee after: SHANGHAI SUNYEE MEASUREMENT AND CONTROL TECHNOLOGY Co.,Ltd.

Address before: 201315, room 205, building 10, Zhongtian hi tech business park, 787 Cambridge Road, Shanghai, Pudong New Area

Patentee before: SHANGHAI SUNYEE MEASUREMENT AND CONTROL TECHNOLOGY Co.,Ltd.