CN104331446A - 一种基于内存映射的海量数据预处理方法 - Google Patents

一种基于内存映射的海量数据预处理方法 Download PDF

Info

Publication number
CN104331446A
CN104331446A CN201410587559.9A CN201410587559A CN104331446A CN 104331446 A CN104331446 A CN 104331446A CN 201410587559 A CN201410587559 A CN 201410587559A CN 104331446 A CN104331446 A CN 104331446A
Authority
CN
China
Prior art keywords
data
parameter
information
file
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410587559.9A
Other languages
English (en)
Other versions
CN104331446B (zh
Inventor
窦小明
杨飞
吴晓蕊
谭佳琳
李亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Launch Vehicle Technology CALT
Beijing Institute of Near Space Vehicles System Engineering
Original Assignee
China Academy of Launch Vehicle Technology CALT
Beijing Institute of Near Space Vehicles System Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Launch Vehicle Technology CALT, Beijing Institute of Near Space Vehicles System Engineering filed Critical China Academy of Launch Vehicle Technology CALT
Priority to CN201410587559.9A priority Critical patent/CN104331446B/zh
Publication of CN104331446A publication Critical patent/CN104331446A/zh
Application granted granted Critical
Publication of CN104331446B publication Critical patent/CN104331446B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/24569Query processing with adaptation to specific hardware, e.g. adapted for using GPUs or SSDs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于航空航天的数据库读写方法,具体涉及一种基于内存映射的海量数据预处理方法。它包括数据表生成模块、海量数据快速导入模块、海量数据快速预处理模块及海量数据快速检索模块,其中,海量数据快速导入模块中包含内存映射子模块。本发明的优点是,为航天器海量数据预处理建立合理高效的读写方式及数据库结构,根据试验状态为各次遥测信息生成带标识的数据表并建立索引,便于数据库中指定参数的快速检索及读取;航天器千兆级信息按照分系统、参数名称、参数类型等分类依次快速插入对应数据库中,插入完成时间量级为秒。

Description

一种基于内存映射的海量数据预处理方法
技术领域
本发明属于航空航天的数据库读写方法,具体涉及一种基于内存映射的海量数据预处理方法。
背景技术
随着空间技术的不断发展,航天器的功能和结构越来越复杂,采样频率越来越高,飞行时间越来越长,导致航天器运行过程中产生的交换信息及监测信息亦越来越多。对信息判读工作而言,采用传统的文本存储及读取方法,判读人员在海量数据中定位故障点越来越困难,数据预处理在判读过程中所占比重越来越大,严重影响判读效率,且不利于判读自动化工具的开发,因此,判读工作开始前进行大数据预处理对提高判读效率显得尤为重要。对本地文件进行I/O操作进行数据预处理效率低下,内存映射通过映射本地文件到内存中,用内存操作取代I/O操作,从而极大提高原始数据存取速率。此外,数据库是目前广泛采用的管理大数据的有效工具,通过合理设计数据库结构及数据批处理方式,可以有效提高大数据预处理效率。因此,为航天器运行过程中产生的大量数据设计基于内存映射的海量数据预处理方法,可有效提高数据读写及处理效率,减小数据读写及处理在数据判读过程中所占比重,并为自动判读工作提供管理有序的数据源。
从文献中看,国内外航天器采用数据库管理的的数据量级在百兆,尚无针对航天器千兆级海量数据预处理方法设计的实例,因此,开发一种采用数据库管理的基于内存映射的具有高可靠性、适用于航天器系统的千兆海量数据预处理方法具有重要意义和实用价值。
发明内容
本发明的目的是提供了一种基于内存映射的海量数据预处理方法,依托数据库数据管理优势,有效提高千兆数据导入、数据预处理及数据读取效率,降低数据预处理时间在判读过程中的比重,高效可靠地在数据层面为判读工作提供数据依据,从而为提高数据判读效率及判读结果的有效性提供保障。
本发明是这样实现的,一种基于内存映射的海量数据预处理方法,它包括数据表生成模块、海量数据快速导入模块、海量数据快速预处理模块及海量数据快速检索模块,其中,海量数据快速导入模块中包含内存映射子模块。
所述的数据表生成模块的流程为:
(1)获取航天器本次试验信息,如型号、批次、试验地点及试验名称等文本信息,分别检索型号检索获表、批次检索表及试验地点检索表获取型号、批次、试验地点ID信息;
(2)判断上述ID信息是否非0,非0表示ID查询正常,将其插入数据库信息检索表,并根据ID信息生成对应且唯一的检索信息即试验ID;
(3)步骤(2)中,ID信息至少一个为0表示ID查询异常,跳出数据表生成模块;
(4)查询数据库配置信息,在配置信息中遍历数据模版表的名称及属性,当表属性为复制表时,记录当前表名称;
(5)遍历数据模版表后获得需要复制的数据表名,调用数据库脚本复制表名、字符集、排序规则、字段数量、字段名称等信息生成新表;
(6)查询信息检索表提取当次试验检索信息加入新表表名,表名格式为模版表名_检索信息,新表表名生成后跳出数据表生成模块。
所述的海量数据快速导入模块的流程为:
(1)获取当次试验数据在本地的存储路径,数据分类记录在不同名称的文本文件中,存储在本地统一路径文件架中;
(2)检索数据库配置信息中需要导入数据库的文件名;
(3)判断获取的文件名是否为NULL,若文件名非NULL,表明应导入数据库的文件尚未导入完成,继续执行步骤5;
(4)步骤(3)中,若文件名为NULL,表明应导入数据库的文件已完成导入,退出海量数据快速导入模块,为海量数据快速预处理模块进行数据处理完成数据准备;
(5)检索数据库中文件名配置信息,遍历表中文件名字段,若文件名与表中某字段内容一致,则获取该字段对应的数据表名;
(6)步骤(5)中,若文件名与文件名配置信息表中所有字段均不一致,表明数据库配置文件有误,退出海量数据快速导入模块,为海量数据快速预处理模块进行数据处理完成数据准备;
(7)内存映射子模块通过步骤(1)、步骤(2)中获取的文件存储路径及文件名,将文件中数据、分隔符、分段符等信息快速映射到本地内存中,内存操作速度远大于文件I/O操作,从而为数据快速提取并插入数据库提供基础;
(8)根据指定分段符从内存映射区域获取一行包括数据、分隔符的数据信息,若获取数据不为NULL,则根据指定分隔符提取当前行数据并依次插入对应数据表中;
(9)步骤(8)中,若获取数据为NULL,表明本次文件从内存映射区域中已读取完毕并全部插入对应数据表,则退出海量数据快速导入模块,为海量数据快速预处理模块进行数据处理完成数据准备。
所述的海量数据快速预处理模块的流程为:
(1)检索数据库中参数信息表,若检索结果不为空,表明海量数据快速预处理未结束;
(2)步骤(1)中,若检索结果为NULL,表明海量数据快速预处理已结束,各参数处理结果已写入对应数据表中,为海量数据快速检索提供数据依据;
(3)根据步骤(1)中检索结果,获取参数原始数据信息,包括参数字段名称、原始数据存储表等,从对应数据表中提取参数原始数据写入内存指定区域;
(4)遍历内存指定区域的原始数据,获取参数最大值及最小值,同时完成参数均值运算,最值及均值运算结果写入对应数据表中;
(5)判断当前参数处理类型,若为时标参数,时标原始数据为正值-0点-正值,遍历数据并提取时标0点前所有正值数据,各数据减固定值后,整个时标处理为负值-0点-正值,且时标从负到正依次增大,步长固定。处理完毕的时标作为新参数写入对应数据表中。
(6)步骤(5)中,若为累加和参数,根据累加时间间隔及数据步长,计算单次累加帧数,从数据第一帧开始计算单次累加帧数之和,计算完毕结果插入对应数据表中,累加帧整体后移一帧直至计算完毕;
(7)步骤(5)中,若为状态参数,检索状态判据表,根据步骤1中获取的参数检索信息从判据表中获取位判据,并对参数各位表示状态依次进行判断,判断结果以字符串类型写入参数解析表中;
(8)步骤(5)中,若为非步骤(5)、(6)、(7)中所述参数类型,不进行参数处理。
所述的海量数据快速检索模块的流程为:
(1)根据输入的试验及参数名称,分别在试验信息表及参数属性表中遍历名称,若与输入名称一致,则提取试验及参数信息;
(2)步骤(1)中,若输入名称与查询名称均不一致,表明试验及参数名称输入有误,退出海量数据快速检索模块;
(3)根据试验信息及参数信息中的原始数据表名、参数字段名,从对应数据表中提取参数原始数据;
(4)根据试验信息及参数信息中的参数ID、处理类型从对应数据表中提取参数处理结果数据,汇同步骤(3)中获取的参数原始数据作为检索结果输出。
所述的内存映射子模块的流程为:
(1)从海量数据导入模块获取导入文件的路径及文件名信息,根据路径及文件名创建映射文件句柄,作为获取映射文件信息的标志;
(2)根据文件句柄获取当前文件的大小;
(3)根据文件句柄创建可读写的文件内存映射句柄,该句柄作为获取映射数据的标志,可根据该句柄获取文件在内存中的位置;
(4)通过文件内存映射句柄,将本地文件中的数据一次性映射到内存中,内存地址通过文件内存映射句柄确定,为快速获取并导入数据到数据库提供基础;
(5)已映射到内存中的数据经过进程映射,输出内存首地址给进程,进城通过内存首地址及文件大小,即可在内存中获取映射文件的所有数据。
本发明的优点是,(1)通过本发明提供的适用于航天器海量信息数据库管理的基于内存映射的海量数据预处理方法,为航天器海量数据预处理建立合理高效的读写方式及数据库结构,根据试验状态为各次遥测信息生成带标识的数据表并建立索引,便于数据库中指定参数的快速检索及读取;(2)航天器千兆级信息按照分系统、参数名称、参数类型等分类依次快速插入对应数据库中,插入完成时间量级为秒;(3)根据航天器信息数据预处理要求对插入数据进行预处理,分别完成时标递增处理、参数最值计算、单位时间内累加和计算及参数位状态解析,预处理结果根据数据库配置表插入对应表;(4)根据试验标识及参数ID快速检索数据库,读取指定参数原始数据、最值、均值及其它相关预处理结果。检索完成时间量级为百毫秒级。通过本发明可显著提高千兆级海量数据预处理及数据库中的读写速度,有效降低数据预处理及读取时间占判读时间的比重,进一步提高判读效率,并为判读结果的有效性提供依据。因此,将该技术应用于工程实际具有重要意义。
附图说明
图1为本发明所提供的一种基于内存映射的海量数据预处理方法流程图;
图2数据表生成模块工作流程图;
图3海量数据快速导入模块工作流程图;
图4海量数据快速预处理工作流程图;
图5海量数据快速检索模块工作流程图;
图6内存映射子模块工作流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细介绍:
如图1所示,一种基于内存映射的海量数据预处理方法,它包括数据表生成模块、海量数据快速导入模块、海量数据快速预处理模块及海量数据快速检索模块。其中,海量数据快速导入模块中包含内存映射子模块。
数据表生成模块根据设计的数据表格式复制新的数据存储表,根据试验信息在数据库索引表中自动生成当次数据索引信息,该索引信息作为海量数据快速检索的依据和基础。
数据导入开始后,海量数据快速导入模块读取原始数据地址,根据数据库中原始文件配置表,依次读取原始TXT文件,通过适用于海量数据快速导入的数据导入方式从本地硬盘提取原始数据,根据原始文件配置表中的配置信息,依次将原始数据写入到对应数据表中直至所有原始数据全部写入数据库。
数据导入完成后,首先完成从数据库提取各参数,完成参数最值及均值运算,根据数据库中参数配置信息,选择已提取数据中需要进行二次处理的参数,分别进行时标递增处理、单位时间内累加和计算及参数位状态解析,处理结果加索引信息写入数据库中;
当外部需要检索指定参数原始数据或处理信息时,海量数据快速索引模块根据参数名称及检索信息在数据库中快速检索并提取数据。
如图2所示,数据表生成模块的流程为:
(1)获取航天器本次试验信息,如型号、批次、试验地点及试验名称等文本信息,分别检索型号检索获表、批次检索表及试验地点检索表获取型号、批次、试验地点ID信息;
(2)判断上述ID信息是否非0,非0表示ID查询正常,将其插入数据库信息检索表,并根据ID信息生成对应且唯一的检索信息即试验ID;
(3)步骤(2)中,ID信息至少一个为0表示ID查询异常,跳出数据表生成模块;
(4)查询数据库配置信息,在配置信息中遍历数据模版表的名称及属性,当表属性为复制表时,记录当前表名称;
(5)遍历数据模版表后获得需要复制的数据表名,调用数据库脚本复制表名、字符集、排序规则、字段数量、字段名称等信息生成新表;
(6)查询信息检索表提取当次试验检索信息加入新表表名,表名格式为模版表名_检索信息,新表表名生成后跳出数据表生成模块。
如图3所示,海量数据快速导入模块的流程为:
(1)获取当次试验数据在本地的存储路径,数据分类记录在不同名称的文本文件中,存储在本地统一路径文件架中;
(2)检索数据库配置信息中需要导入数据库的文件名;
(3)判断获取的文件名是否为NULL,若文件名非NULL,表明应导入数据库的文件尚未导入完成,继续执行步骤5;
(4)步骤(3)中,若文件名为NULL,表明应导入数据库的文件已完成导入,退出海量数据快速导入模块,为海量数据快速预处理模块进行数据处理完成数据准备;
(5)检索数据库中文件名配置信息,遍历表中文件名字段,若文件名与表中某字段内容一致,则获取该字段对应的数据表名;
(6)步骤(5)中,若文件名与文件名配置信息表中所有字段均不一致,表明数据库配置文件有误,退出海量数据快速导入模块,为海量数据快速预处理模块进行数据处理完成数据准备;
(7)内存映射子模块通过步骤(1)、步骤(2)中获取的文件存储路径及文件名,将文件中数据、分隔符、分段符等信息快速映射到本地内存中,内存操作速度远大于文件I/O操作,从而为数据快速提取并插入数据库提供基础;
(8)根据指定分段符从内存映射区域获取一行包括数据、分隔符的数据信息,若获取数据不为NULL,则根据指定分隔符提取当前行数据并依次插入对应数据表中;
(9)步骤(8)中,若获取数据为NULL,表明本次文件从内存映射区域中已读取完毕并全部插入对应数据表,则退出海量数据快速导入模块,为海量数据快速预处理模块进行数据处理完成数据准备。
如图4所示,海量数据快速预处理模块的流程为:
(1)检索数据库中参数信息表,若检索结果不为空,表明海量数据快速预处理未结束;
(2)步骤(1)中,若检索结果为NULL,表明海量数据快速预处理已结束,各参数处理结果已写入对应数据表中,为海量数据快速检索提供数据依据;
(3)根据步骤(1)中检索结果,获取参数原始数据信息,包括参数字段名称、原始数据存储表等,从对应数据表中提取参数原始数据写入内存指定区域;
(4)遍历内存指定区域的原始数据,获取参数最大值及最小值,同时完成参数均值运算,最值及均值运算结果写入对应数据表中;
(5)判断当前参数处理类型,若为时标参数,时标原始数据为正值-0点-正值,遍历数据并提取时标0点前所有正值数据,各数据减固定值后,整个时标处理为负值-0点-正值,且时标从负到正依次增大,步长固定。处理完毕的时标作为新参数写入对应数据表中。
(6)步骤(5)中,若为累加和参数,根据累加时间间隔及数据步长,计算单次累加帧数,从数据第一帧开始计算单次累加帧数之和,计算完毕结果插入对应数据表中,累加帧整体后移一帧直至计算完毕;
(7)步骤(5)中,若为状态参数,检索状态判据表,根据步骤1中获取的参数检索信息从判据表中获取位判据,并对参数各位表示状态依次进行判断,判断结果以字符串类型写入参数解析表中;
(8)步骤(5)中,若为非步骤(5)、(6)、(7)中所述参数类型,不进行参数处理。
如图5所示,海量数据快速检索模块的流程为:
(1)根据输入的试验及参数名称,分别在试验信息表及参数属性表中遍历名称,若与输入名称一致,则提取试验及参数信息;
(2)步骤(1)中,若输入名称与查询名称均不一致,表明试验及参数名称输入有误,退出海量数据快速检索模块;
(3)根据试验信息及参数信息中的原始数据表名、参数字段名,从对应数据表中提取参数原始数据;
(4)根据试验信息及参数信息中的参数ID、处理类型从对应数据表中提取参数处理结果数据,汇同步骤(3)中获取的参数原始数据作为检索结果输出。
如图6所示,内存映射子模块的流程为:
(1)从海量数据导入模块获取导入文件的路径及文件名信息,根据路径及文件名创建映射文件句柄,作为获取映射文件信息的标志;
(2)根据文件句柄获取当前文件的大小;
(3)根据文件句柄创建可读写的文件内存映射句柄,该句柄作为获取映射数据的标志,可根据该句柄获取文件在内存中的位置;
(4)通过文件内存映射句柄,将本地文件中的数据一次性映射到内存中,内存地址通过文件内存映射句柄确定,为快速获取并导入数据到数据库提供基础;
(5)已映射到内存中的数据经过进程映射,输出内存首地址给进程,进城通过内存首地址及文件大小,即可在内存中获取映射文件的所有数据。

Claims (6)

1.一种基于内存映射的海量数据预处理方法,其特征在于:它包括数据表生成模块、海量数据快速导入模块、海量数据快速预处理模块及海量数据快速检索模块,其中,海量数据快速导入模块中包含内存映射子模块。
2.如权利要求1所述的一种基于内存映射的海量数据预处理方法,其特征在于:所述的数据表生成模块的流程为:
(1)获取航天器本次试验信息,如型号、批次、试验地点及试验名称等文本信息,分别检索型号检索获表、批次检索表及试验地点检索表获取型号、批次、试验地点ID信息;
(2)判断上述ID信息是否非0,非0表示ID查询正常,将其插入数据库信息检索表,并根据ID信息生成对应且唯一的检索信息即试验ID;
(3)步骤(2)中,ID信息至少一个为0表示ID查询异常,跳出数据表生成模块;
(4)查询数据库配置信息,在配置信息中遍历数据模版表的名称及属性,当表属性为复制表时,记录当前表名称;
(5)遍历数据模版表后获得需要复制的数据表名,调用数据库脚本复制表名、字符集、排序规则、字段数量、字段名称等信息生成新表;
(6)查询信息检索表提取当次试验检索信息加入新表表名,表名格式为模版表名_检索信息,新表表名生成后跳出数据表生成模块。
3.如权利要求1所述的一种基于内存映射的海量数据预处理方法,其特征在于:所述的海量数据快速导入模块的流程为:
(1)获取当次试验数据在本地的存储路径,数据分类记录在不同名称的文本文件中,存储在本地统一路径文件架中;
(2)检索数据库配置信息中需要导入数据库的文件名;
(3)判断获取的文件名是否为NULL,若文件名非NULL,表明应导入数据库的文件尚未导入完成,继续执行步骤5;
(4)步骤(3)中,若文件名为NULL,表明应导入数据库的文件已完成导入,退出海量数据快速导入模块,为海量数据快速预处理模块进行数据处理完成数据准备;
(5)检索数据库中文件名配置信息,遍历表中文件名字段,若文件名与表中某字段内容一致,则获取该字段对应的数据表名;
(6)步骤(5)中,若文件名与文件名配置信息表中所有字段均不一致,表明数据库配置文件有误,退出海量数据快速导入模块,为海量数据快速预处理模块进行数据处理完成数据准备;
(7)内存映射子模块通过步骤(1)、步骤(2)中获取的文件存储路径及文件名,将文件中数据、分隔符、分段符等信息快速映射到本地内存中,内存操作速度远大于文件I/O操作,从而为数据快速提取并插入数据库提供基础;
(8)根据指定分段符从内存映射区域获取一行包括数据、分隔符的数据信息,若获取数据不为NULL,则根据指定分隔符提取当前行数据并依次插入对应数据表中;
(9)步骤(8)中,若获取数据为NULL,表明本次文件从内存映射区域中已读取完毕并全部插入对应数据表,则退出海量数据快速导入模块,为海量数据快速预处理模块进行数据处理完成数据准备。
4.如权利要求1所述的一种基于内存映射的海量数据预处理方法,其特征在于:所述的海量数据快速预处理模块的流程为:
(1)检索数据库中参数信息表,若检索结果不为空,表明海量数据快速预处理未结束;
(2)步骤(1)中,若检索结果为NULL,表明海量数据快速预处理已结束,各参数处理结果已写入对应数据表中,为海量数据快速检索提供数据依据;
(3)根据步骤(1)中检索结果,获取参数原始数据信息,包括参数字段名称、原始数据存储表等,从对应数据表中提取参数原始数据写入内存指定区域;
(4)遍历内存指定区域的原始数据,获取参数最大值及最小值,同时完成参数均值运算,最值及均值运算结果写入对应数据表中;
(5)判断当前参数处理类型,若为时标参数,时标原始数据为正值-0点-正值,遍历数据并提取时标0点前所有正值数据,各数据减固定值后,整个时标处理为负值-0点-正值,且时标从负到正依次增大,步长固定。处理完毕的时标作为新参数写入对应数据表中。
(6)步骤(5)中,若为累加和参数,根据累加时间间隔及数据步长,计算单次累加帧数,从数据第一帧开始计算单次累加帧数之和,计算完毕结果插入对应数据表中,累加帧整体后移一帧直至计算完毕;
(7)步骤(5)中,若为状态参数,检索状态判据表,根据步骤1中获取的参数检索信息从判据表中获取位判据,并对参数各位表示状态依次进行判断,判断结果以字符串类型写入参数解析表中;
(8)步骤(5)中,若为非步骤(5)、(6)、(7)中所述参数类型,不进行参数处理。
5.如权利要求1所述的一种基于内存映射的海量数据预处理方法,其特征在于:所述的海量数据快速检索模块的流程为:
(1)根据输入的试验及参数名称,分别在试验信息表及参数属性表中遍历名称,若与输入名称一致,则提取试验及参数信息;
(2)步骤(1)中,若输入名称与查询名称均不一致,表明试验及参数名称输入有误,退出海量数据快速检索模块;
(3)根据试验信息及参数信息中的原始数据表名、参数字段名,从对应数据表中提取参数原始数据;
(4)根据试验信息及参数信息中的参数ID、处理类型从对应数据表中提取参数处理结果数据,汇同步骤(3)中获取的参数原始数据作为检索结果输出。
6.如权利要求1所述的一种基于内存映射的海量数据预处理方法,其特征在于:所述的内存映射子模块的流程为:
(1)从海量数据导入模块获取导入文件的路径及文件名信息,根据路径及文件名创建映射文件句柄,作为获取映射文件信息的标志;
(2)根据文件句柄获取当前文件的大小;
(3)根据文件句柄创建可读写的文件内存映射句柄,该句柄作为获取映射数据的标志,可根据该句柄获取文件在内存中的位置;
(4)通过文件内存映射句柄,将本地文件中的数据一次性映射到内存中,内存地址通过文件内存映射句柄确定,为快速获取并导入数据到数据库提供基础;
(5)已映射到内存中的数据经过进程映射,输出内存首地址给进程,进城通过内存首地址及文件大小,即可在内存中获取映射文件的所有数据。
CN201410587559.9A 2014-10-28 2014-10-28 一种基于内存映射的海量数据预处理方法 Active CN104331446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410587559.9A CN104331446B (zh) 2014-10-28 2014-10-28 一种基于内存映射的海量数据预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410587559.9A CN104331446B (zh) 2014-10-28 2014-10-28 一种基于内存映射的海量数据预处理方法

Publications (2)

Publication Number Publication Date
CN104331446A true CN104331446A (zh) 2015-02-04
CN104331446B CN104331446B (zh) 2017-07-18

Family

ID=52406173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410587559.9A Active CN104331446B (zh) 2014-10-28 2014-10-28 一种基于内存映射的海量数据预处理方法

Country Status (1)

Country Link
CN (1) CN104331446B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038289A (zh) * 2017-03-23 2017-08-11 西安飞机工业(集团)有限责任公司 一种飞机载荷设计中原始数据的处理方法
CN107329920A (zh) * 2017-07-06 2017-11-07 中国航空工业集团公司西安飞机设计研究所 一种反射内存的公共接口框架设计方法
CN107967360A (zh) * 2017-12-22 2018-04-27 广东雅达电子股份有限公司 一种实时数据库文件存储方法
CN108509625A (zh) * 2018-04-08 2018-09-07 中国人民解放军63601部队 一种数据静态表位置定位方法
CN109241040A (zh) * 2017-07-10 2019-01-18 北京京东尚科信息技术有限公司 数据清洗的方法和装置
CN109522238A (zh) * 2018-09-30 2019-03-26 上海恺英网络科技有限公司 一种排序方法及设备
CN109597831A (zh) * 2018-12-11 2019-04-09 北京达佳互联信息技术有限公司 检索文件的方法、装置、设备及可读存储介质
CN110032595A (zh) * 2019-04-15 2019-07-19 广东电网有限责任公司 一种数据处理方法、系统、设备及存储介质
CN110147354A (zh) * 2019-04-19 2019-08-20 平安科技(深圳)有限公司 批量数据编辑方法、装置、计算机设备及存储介质
CN112559096A (zh) * 2020-12-23 2021-03-26 中国科学院长春光学精密机械与物理研究所 一种空间载荷输入数据解析系统及方法
CN113138987A (zh) * 2021-04-28 2021-07-20 深圳软牛科技有限公司 基于内存数据的数据处理方法和相关设备
CN113220698A (zh) * 2021-06-08 2021-08-06 星河动力(北京)空间科技有限公司 试验数据处理方法、装置、设备及计算机可读存储介质
CN113254475A (zh) * 2021-07-14 2021-08-13 武汉中原电子信息有限公司 用于分支线路监测终端的历史数据查询采集方法
CN113377550A (zh) * 2020-02-25 2021-09-10 西安诺瓦星云科技股份有限公司 用于内容复用的引擎工具、引擎系统及编辑工具
CN113377721A (zh) * 2021-07-02 2021-09-10 电信科学技术第五研究所有限公司 一种数据库中存储文件的文件表设计方法
CN115374225A (zh) * 2022-07-26 2022-11-22 中船重工奥蓝托无锡软件技术有限公司 空间环境效应数据库和数据库工作方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221565A (zh) * 2007-12-20 2008-07-16 康佳集团股份有限公司 一种利用嵌入式数据库对flash数据进行管理的方法
CN102508832A (zh) * 2011-09-20 2012-06-20 北京空间飞行器总体设计部 一种航天器在轨数据统一存储方法
CN102752548A (zh) * 2011-05-17 2012-10-24 新奥特(北京)视频技术有限公司 一种字幕机本地预览的方法
EP2605139A2 (en) * 2011-12-12 2013-06-19 Apple Inc. Mount-time reconciliation of data availability
US20140129584A1 (en) * 2012-11-05 2014-05-08 International Business Machines Corporation Local context search results improvements

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221565A (zh) * 2007-12-20 2008-07-16 康佳集团股份有限公司 一种利用嵌入式数据库对flash数据进行管理的方法
CN102752548A (zh) * 2011-05-17 2012-10-24 新奥特(北京)视频技术有限公司 一种字幕机本地预览的方法
CN102508832A (zh) * 2011-09-20 2012-06-20 北京空间飞行器总体设计部 一种航天器在轨数据统一存储方法
EP2605139A2 (en) * 2011-12-12 2013-06-19 Apple Inc. Mount-time reconciliation of data availability
US20140129584A1 (en) * 2012-11-05 2014-05-08 International Business Machines Corporation Local context search results improvements

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038289A (zh) * 2017-03-23 2017-08-11 西安飞机工业(集团)有限责任公司 一种飞机载荷设计中原始数据的处理方法
CN107329920B (zh) * 2017-07-06 2020-09-18 中国航空工业集团公司西安飞机设计研究所 一种反射内存的公共接口框架设计方法
CN107329920A (zh) * 2017-07-06 2017-11-07 中国航空工业集团公司西安飞机设计研究所 一种反射内存的公共接口框架设计方法
CN109241040A (zh) * 2017-07-10 2019-01-18 北京京东尚科信息技术有限公司 数据清洗的方法和装置
CN109241040B (zh) * 2017-07-10 2021-05-25 北京京东尚科信息技术有限公司 数据清洗的方法和装置
CN107967360A (zh) * 2017-12-22 2018-04-27 广东雅达电子股份有限公司 一种实时数据库文件存储方法
CN108509625A (zh) * 2018-04-08 2018-09-07 中国人民解放军63601部队 一种数据静态表位置定位方法
CN109522238A (zh) * 2018-09-30 2019-03-26 上海恺英网络科技有限公司 一种排序方法及设备
CN109522238B (zh) * 2018-09-30 2020-01-03 上海恺英网络科技有限公司 一种排序方法及设备
CN109597831A (zh) * 2018-12-11 2019-04-09 北京达佳互联信息技术有限公司 检索文件的方法、装置、设备及可读存储介质
CN110032595A (zh) * 2019-04-15 2019-07-19 广东电网有限责任公司 一种数据处理方法、系统、设备及存储介质
CN110032595B (zh) * 2019-04-15 2023-07-14 广东电网有限责任公司 一种数据处理方法、系统、设备及存储介质
CN110147354A (zh) * 2019-04-19 2019-08-20 平安科技(深圳)有限公司 批量数据编辑方法、装置、计算机设备及存储介质
CN110147354B (zh) * 2019-04-19 2023-06-02 平安科技(深圳)有限公司 批量数据编辑方法、装置、计算机设备及存储介质
CN113377550A (zh) * 2020-02-25 2021-09-10 西安诺瓦星云科技股份有限公司 用于内容复用的引擎工具、引擎系统及编辑工具
CN112559096B (zh) * 2020-12-23 2022-10-14 中国科学院长春光学精密机械与物理研究所 一种空间载荷输入数据解析系统及方法
CN112559096A (zh) * 2020-12-23 2021-03-26 中国科学院长春光学精密机械与物理研究所 一种空间载荷输入数据解析系统及方法
CN113138987A (zh) * 2021-04-28 2021-07-20 深圳软牛科技有限公司 基于内存数据的数据处理方法和相关设备
CN113220698A (zh) * 2021-06-08 2021-08-06 星河动力(北京)空间科技有限公司 试验数据处理方法、装置、设备及计算机可读存储介质
CN113377721A (zh) * 2021-07-02 2021-09-10 电信科学技术第五研究所有限公司 一种数据库中存储文件的文件表设计方法
CN113254475A (zh) * 2021-07-14 2021-08-13 武汉中原电子信息有限公司 用于分支线路监测终端的历史数据查询采集方法
CN115374225A (zh) * 2022-07-26 2022-11-22 中船重工奥蓝托无锡软件技术有限公司 空间环境效应数据库和数据库工作方法
CN115374225B (zh) * 2022-07-26 2023-08-25 中船奥蓝托无锡软件技术有限公司 空间环境效应数据库和数据库工作方法

Also Published As

Publication number Publication date
CN104331446B (zh) 2017-07-18

Similar Documents

Publication Publication Date Title
CN104331446A (zh) 一种基于内存映射的海量数据预处理方法
CN105701098B (zh) 针对数据库中的表生成索引的方法和装置
US6931408B2 (en) Method of storing, maintaining and distributing computer intelligible electronic data
CN102982076B (zh) 基于语义标签库的多维度内容标注方法
CN104166651B (zh) 基于对同类数据对象整合的数据搜索的方法和装置
CN102156711B (zh) 一种基于云存储的电力全文检索方法及系统
CN107958057A (zh) 一种用于异构数据库中数据迁移的代码生成方法及装置
CN103186639B (zh) 数据生成方法及系统
Gentile et al. Unsupervised wrapper induction using linked data
CN105912609A (zh) 一种数据文件处理方法和装置
CN107491487A (zh) 一种全文数据库架构及位图索引创建、数据查询方法、服务器及介质
CN105389344A (zh) 一种自助式查新方法及系统
CN106250393A (zh) 一种基于知识图谱的短文本理解方法及装置
CN102004775A (zh) 一种基于智能搜索的福富企业搜索引擎技术
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN102110102A (zh) 数据处理方法及装置、文件识别方法及工具
CN103955514A (zh) 一种基于Lucene倒排索引的图像特征索引方法
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN107436955A (zh) 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置
CN106250552A (zh) 在搜索引擎结果页面上聚集web页面
CN102508901A (zh) 基于内容的海量图像检索方法和系统
CN104391908A (zh) 一种图上基于局部敏感哈希的多关键字索引方法
CN107526795B (zh) 知识库的构建方法及装置、存储介质、计算设备
CN103365960A (zh) 电力多级调度管理结构化数据的离线搜索方法
CN110321351A (zh) 一种基于模糊匹配的厂家名称规范方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant