CN112596851A - 仿真平台的多源异构数据批量抽取方法和分析方法 - Google Patents

仿真平台的多源异构数据批量抽取方法和分析方法 Download PDF

Info

Publication number
CN112596851A
CN112596851A CN202011401684.8A CN202011401684A CN112596851A CN 112596851 A CN112596851 A CN 112596851A CN 202011401684 A CN202011401684 A CN 202011401684A CN 112596851 A CN112596851 A CN 112596851A
Authority
CN
China
Prior art keywords
file
data
type
feature
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011401684.8A
Other languages
English (en)
Inventor
杨萍
陈浩
刘伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
63921 Troops of PLA
Original Assignee
63921 Troops of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 63921 Troops of PLA filed Critical 63921 Troops of PLA
Priority to CN202011401684.8A priority Critical patent/CN112596851A/zh
Publication of CN112596851A publication Critical patent/CN112596851A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45504Abstract machines for programme code execution, e.g. Java virtual machine [JVM], interpreters, emulators
    • G06F9/45508Runtime interpretation or emulation, e g. emulator loops, bytecode interpretation

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种仿真平台的多源异构数据批量抽取方法和分析方法,包括:判断仿真任务的全部数据文件中每个文件是否为第一类型文件,根据第一类型抽取模型对文件进行批量抽取得到CSV格式文件,或根据对应的脚本类型的抽取模型对文件进行批量抽取得到CSV格式文件;然后根据数据标识符特征属性或目标特征,将所有CSV格式文件中信息进行特征匹配融合;基于相关分析算法模型对融合后的数据集进行相关性分析,得到特征字段与目标特征的相关性分析结果。本发明面向较大规模复杂仿真系统平台的多源异构数据,可以同时实现多种不同结构形式的数据文件的批量且灵活高效的数据抽取和数据分析,对于数据分析人员具有重要的实用价值。

Description

仿真平台的多源异构数据批量抽取方法和分析方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种仿真平台的多源异构数据批量抽取方法和分析方法。
背景技术
针对大量数据资源的仿真平台,多源异构数据的统一批量的数据抽取采集一直是数据工程应用领域极为关注的重要问题,在此行业领域内不少研究人员进行了长期深入的研究,取得许多研究成果,但由于工作环境或是客观条件的限制,实际有效应用的工具和手段还是较为匮乏。
对于较大规模复杂仿真推演系统平台的仿真分析人员,如何灵活高效的对系统平台输出的大量多源异构数据文件资源进行数据抽取、融合,是进一步实现数据挖掘分析和知识规律的获取的重大瓶颈问题,严重制约仿真任务质量和能力水平的提高,同时也造成大量宝贵数据的浪费。
对于通用数据抽取工具,无法高效的同时实现不同表单结构的数据文件和脚本文件的特征数据和参数的抽取,也无法实现不同类型数据文件中数据集的匹配和融合。更为重要的是较大规模复杂仿真推演系统平台由于任务需求的变化,造成数据表单结构和脚本文件属性标签结构的变化,这一点决定了很难有一款通用软件很好的解决数据抽取和融合的问题。
发明内容
本发明实施例提供一种仿真平台的多源异构数据批量抽取方法和分析方法。
根据本发明实施例的第一方面,提供一种仿真平台的多源异构数据批量抽取方法,包括:
获取仿真任务的全部数据文件,并将所述全部数据文件加载到目标文件目录中;
判断所述目标文件目录中每个目标文件是否为第一类型文件;
在所述目标文件为所述第一类型文件时,根据第一类型抽取模型对所述第一类型文件进行批量抽取,得到CSV格式文件;
在所述目标文件不是所述第一类型文件时,确定所述目标文件的脚本类型,并根据对应的所述脚本类型的抽取模型对所述目标文件进行批量抽取,得到CSV格式文件。
可选的,所述第一类型文件为DAT类型文件。
可选的,所述在所述目标文件为所述第一类型文件时,根据第一类型抽取模型对所述第一类型文件进行批量抽取,得到CSV格式文件,包括:
在所述目标文件为所述第一类型文件时,确定所述第一类型文件的表单结构类型;
根据所述表单结构类型确定对应的所述第一类型抽取模型,并确定所述第一类型文件中的特征字段;
根据所述特征字段对所述第一类型抽取模型的参数进行初始化配置,并根据配置后的所述第一类型抽取模型对所述第一类型文件进行批量抽取,得到CSV格式文件。
可选的,所述在所述目标文件不是所述第一类型文件时,确定所述目标文件的脚本类型,并根据对应的所述脚本类型的抽取模型对所述目标文件进行批量抽取,得到CSV格式文件,包括:
在所述目标文件不是所述第一类型文件时,确定所述目标文件是否为脚本类型文件;
若所述目标文件为脚本类型文件,确定所述目标文件的参数名称和数值类型,并确定与所述脚本类型文件对应的抽取模型;
根据所述参数名称和数值类型对与所述脚本类型文件对应的抽取模型进行初始化配置,并根据配置后的所述抽取模型对所述脚本类型文件进行批量抽取,得到CSV格式文件。
可选的,所述CSV格式文件包括:对应类型文件的特征字段,以及所述对应类型文件对应的数据标识符特征属性。
可选的,所述数据标识符特征属性根据对应类型文件内的信息和预设编号规则生成。
根据本发明实施例的第二方面,提供一种仿真平台的多源异构数据分析方法,基于实施例的第一方面提供的任一项所述的仿真平台的多源异构数据批量抽取方法,包括:
获取CSV格式文件的数据集,以及仿真任务中的CSV数据文件;其中,所述CSV格式文件包括:对应类型文件的特征字段以及与所述对应类型文件对应的数据标识符特征属性;
根据所述数据标识符特征属性或目标特征,将所述CSV格式文件的数据集与所述CSV数据文件中所有信息进行特征匹配融合,得到仿真任务全特征数据集;
基于相关分析算法模型对所述仿真任务全特征数据集进行特征间的相关性分析,得到所述特征字段与所述目标特征的相关性分析量化结果。
可选的,所述方法还包括:
根据数据集行数、特征项维度、数据项数值缺失情况和统计指标中任一种,对所述仿真任务全特征数据集进行数据质量评估。
根据本发明实施例的第三方面,提供一种仿真平台的多源异构数据批量抽取装置,包括:
第一文件获取模块,用于获取仿真任务的全部数据文件,并将所述全部数据文件加载到目标文件目录中;
判断模块,用于判断所述目标文件目录中每个目标文件是否为第一类型文件;
第一类型文件抽取模块,用于在所述目标文件为所述第一类型文件时,根据第一类型抽取模型对所述第一类型文件进行批量抽取,得到CSV格式文件;
脚本文件抽取模块,用于在所述目标文件不是所述第一类型文件时,确定所述目标文件的脚本类型,并根据对应的所述脚本类型的抽取模型对所述目标文件进行批量抽取,得到CSV格式文件。
根据本发明实施例的第四方面,提供一种仿真平台的多源异构数据分析装置,基于实施例的第三方面提供的仿真平台的多源异构数据批量抽取装置,包括:
第二文件获取模块,用于获取CSV格式文件的数据集,以及仿真任务中的CSV数据文件;其中,所述CSV格式文件包括:对应类型文件的特征字段以及与所述对应类型文件对应的数据标识符特征属性;
数据融合模块,用于根据所述数据标识符特征属性或目标特征,将所述CSV格式文件的数据集与所述CSV数据文件中所有信息进行特征匹配融合,得到仿真任务全特征数据集;
相关性分析模块,用于基于相关分析算法模型对所述仿真任务全特征数据集进行特征间的相关性分析,得到所述特征字段与所述目标特征的相关性分析量化结果。
本发明实施例的仿真平台的多源异构数据批量抽取方法和分析方法与现有技术相比存在的有益效果是:
数据批量抽取:判断仿真任务的全部数据文件中每个文件是否为第一类型文件,根据第一类型抽取模型对文件进行批量抽取得到CSV格式文件,或根据对应的脚本类型的抽取模型对文件进行批量抽取得到CSV格式文件,解决了现有技术中仅能完成单一类型表格数据文件的导入的问题,实现了多种不同结构形式的数据文件的批量且灵活高效的数据抽取,对于数据分析人员具有重要的实用价值。
数据批量分析:根据数据标识符特征属性或目标特征,将所有CSV格式文件中信息进行特征匹配融合;基于相关分析算法模型对融合后的数据集进行相关性分析,得到特征字段与目标特征的相关性分析结果,面向较大规模复杂仿真系统平台的多源异构数据,实现了多种不同结构形式的数据文件的批量且灵活高效的数据分析,对于数据分析人员具有重要的实用价值。
附图说明
图1是本发明实施例提供的一种仿真平台的多源异构数据批量抽取方法的实现流程示意图;
图2是图1中步骤S103的具体实现流程示意图;
图3是图1中步骤S104的具体实现流程示意图;
图4是本发明实施例提供的一种仿真平台的多源异构数据分析方法的实现流程示意图;
图5是本发明实施例提供的另一种仿真平台的多源异构数据分析方法的实现流程示意图;
图6是本发明实施例提供的又一种仿真平台的多源异构数据分析方法的实现流程示意图;
图7是本发明实施例提供的一种仿真平台的多源异构数据批量抽取装置的结构示意图;
图8是本发明实施例提供的一种仿真平台的多源异构数据分析装置的结构示意图;
图9是本发明实施例提供的一种终端的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
参见图1,为本实施例提供的仿真平台的多源异构数据批量抽取方法的一个实施例实现流程示意图.本发明为一种面向较大规模复杂仿真系统平台的多源异构数据的批量结构化数据抽取融合及分析处理方法,属于数据抽取应用技术、数据处理技术、数据分析挖掘技术、软件应用开发技术等交叉应用的技术领域,详述如下:
步骤S101,获取仿真任务的全部数据文件,并将所述全部数据文件加载到目标文件目录中。
当前通用数据分析系统平台普遍面临:无法满足对不同表单结构类型的.dat数据文件进行解析抽取,无法对包含仿真任务参数及任务事件设计信息的脚本文件进行任务规划参数信息的解析抽取,以及无法实现自动批量并且高效灵活的多源异构数据的结构化抽取和数据融合等问题。另外,当前通用数据分析系统平台的数据集导入功能模块通常仅支持.csv等表格文件,也有部分同时支持处理纵向表单结构的.dat数据文件,但对横向表单结构的.dat数据文件无法提供读取和解析支持。
因此,本发实施例提供了一种面向较大规模复杂仿真系统平台输出的多源异构数据进行批量结构化数据抽取融合及分析处理的方法,主要目的在于对大规模仿真任务输出的几种不同结构形式的数据文件进行批量且灵活高效的数据抽取和数据融合,同时满足所获大数据集中数据质量水平的评估和数据特征项之间相关性分析的快速判断,极大提高了结构化数据抽取及数据质量评估的效率,为进一步的业务分析和数据挖掘分析提供了条件和基础。
具体的,本实施例先汇集仿真任务系统输出的全部数据资源文件到目标文件目录。其中,多源异构数据主要是指通过仿真平台获得的不同表单结构类型的*.dat文件、*.csv文件、*.slsx文件以及*.scpn等多种后缀类型的系统脚本文件,数据文件中通常包括数值型数据、字符型数据、文本类数据、特殊标识数据及各种异常值数据。
步骤S102,判断所述目标文件目录中每个目标文件是否为第一类型文件。
可选的,本实施例的第一类型文件为DAT类型文件,即判断目标文件目录中每个目标文件是否为DAT类型文件。
步骤S103,在所述目标文件为所述第一类型文件时,根据第一类型抽取模型对所述第一类型文件进行批量抽取,得到CSV格式文件。
步骤S104,在所述目标文件不是所述第一类型文件时,确定所述目标文件的脚本类型,并根据对应的所述脚本类型的抽取模型对所述目标文件进行批量抽取,得到CSV格式文件。
本实施例的数据抽取方法在实现过程,主要是基于不同文件类型及结构类型而定制开发的不同类型数据抽取模型,通过不同类型数据抽取模型进行批量提取,高效且灵活。其中,CSV格式文件为通用分析系统平台最为广泛支持的数据文件。
实际应用中,本实施例方法的流程应用是基于python3开发环境实现,采用可动态扩展的个性化模板库式的解决方案,其过程中主要涉及PyQt5、pandas、os、collections、pyMySQL、sklearn等功能库模块的使用。
可选的,第一类型文件的判断和脚本文件的确定过程可以是同步交叉进行,也可以是并列的两个过程,如图6所示。
在一个实施例中,参见图2,步骤S103的具体实现流程包括:
步骤S201,在所述目标文件为所述第一类型文件时,确定所述第一类型文件的表单结构类型。
步骤S202,根据所述表单结构类型确定对应的所述第一类型抽取模型,并确定所述第一类型文件中的特征字段。
步骤S203,根据所述特征字段对所述第一类型抽取模型的参数进行初始化配置,并根据配置后的所述第一类型抽取模型对所述第一类型文件进行批量抽取,得到CSV格式文件。
示例性的,如果目标文件是.dat类型文件,则进一步判别仿真平台输出的.dat数据文件的表单结构类型,基于当前结构化数据抽取模板库,根据表单结构类型选择对应的.dat类型抽取模型,并确定.dat类型文件数据集中根据实际需要所关注的特征字段。然后根据对应的.dat类型抽取模型对该.dat类型文件的数据集进行批量结构化数据抽取,获得新增数据ID特征属性的.csv格式的数据集文件。应理解,目本实施例可以同时判断目标文件目录中所有目标文件的文件类型,即如果多个目标文件为.dat类型文件,则多个.dat类型文件组成.dat类型文件数据集,进一步将所有相同结构类型的.dat类型文件批量抽取,最终生成一个大的.csv格式的数据集文件。
可选的,本实施例的表单结构类型包括:横向结构类型和纵向结构类型。
可选的,本实施例还根据.dat数据文件的不同表单结构(横向结构和纵向结构)以及根据需要关注的仿真事件类型的不同,从数据抽取模型库中选择结构匹配的数据抽取模型,同时设置或选取所关注的不同特征(字段)项进行数据抽取,运行并输出新增数据ID特征属性的.csv格式的数据集文件,其中,.csv格式的数据集文件中新增ID特征属性项是根据任务文件信息和自定义编号规则生成。
其中,自定义编号可以为对应类型文件的索引序号和当前数据行号的组合,即所述.csv格式的数据集文件中新增ID特征属性项是结合当前文件名称中包含的仿真任务信息、当前文件索引值以及当前特征字段所在的数据行的索引值。
在一个实施例中,参见图3,步骤S104的具体实现流程包括:
步骤S301,在所述目标文件不是所述第一类型文件时,确定所述目标文件是否为脚本类型文件。
步骤S302,若所述目标文件为脚本类型文件,确定所述目标文件的参数名称和数值类型,并确定与所述脚本类型文件对应的抽取模型。
步骤S303,根据所述参数名称和数值类型对与所述脚本类型文件对应的抽取模型进行初始化配置,并根据配置后的所述抽取模型对所述脚本类型文件进行批量抽取,得到CSV格式文件。
示例性的,本实施例在确定所述目标文件不是.dat文件类型后,继续判断是否为脚本类型文件,如果目标文件为脚本类型文件后,根据系统平台输出的仿真运行脚本文件中仿真设计参数名称及数值类型,选择对应脚本文件的数据抽取程模型,并初始化配置对应脚本文件的数据抽取模型,然后根据配置后的所述抽取模型对所述脚本类型文件进行批量抽取,得到新增数据ID特征属性的.csv格式的数据集文件。
可选的,所述CSV格式文件包括:对应类型文件的特征字段,以及所述对应类型文件对应的数据标识符特征属性。所述数据标识符特征属性根据对应类型文件内的信息和预设编号规则生成。
示例性的,将本实施例的仿真平台多源异构数据的批量结构化数据抽取方法,应用于对大量横向表单结构中仿真事件类型的.dat数据文件的批量结构化数据,具体数据提取过程如下:
S11:通过指定源数据文件目标路径,自动遍历并获的该路径下所有.dat类型的数据文件名称。
S12:判别仿真平台输出的.dat数据文件的表单结构类型及关注的仿真事件类型,基于当前结构化数据抽取模板库,本实施例选择横向表单结构的dat数据文件对应的数据抽取模型,并选取数据集中关注特征字段(项)进行模型的初始化配置。其中,用户可以根据需求或关注点自行选择抽取模板,并根据特征字段配置抽取模型。
S13:遍历并解析数据文件名称获取任务文件信息,结合自定义编号规则生成数据ID属性项。如果遇到数据文件内容为空则直接略过,否则,开始逐行遍历数据文件内容,同时判断数据行是否为所关注的仿真事件类型信息,如判断该行数据信息为所需数据信息,则将该进行字符清理后,存储到该数据文件对应的所需数据信息存储列表中,否则,直接略过。
S14:遍历数据文件对应的所需数据信息存储列表,将列表存储的所需数据行文本内容,通过空格或制表符等标志符号进行字符剪切和识别,并将每行剪切后的数据特征名称和对应的特征数值存储到行数据内容列表中。
对于横向结构dat表单文件,可以通过空格或制表符等标志符号来读取并解析出字符文本,对应数据特征名称的下一个列表元素就是对应的特征数值解析出来的字符文本,接着进行数据类型转换并存入相应数组。
S15:通过配置的特征项名称为索引,搜索获取对应特征项的数值,经过字符清理后存入到各特征项数据列表中。
本实施例中所涉及的特征字段名称和特征项名称为相同制定,通常表单格式文件中称为特征字段名称,而在数据集处理时称为特征项名称。表单文件中每行的内容,经过解析后都存入列表,列表中通过特征字段名称为索引,获得特征数据值。
此处,字符清理针对列表元素前后通常还会存在空格或制表符等字符的情况,对该字符进行清理,具体可以包括字符数据的格式化等数据处理操作。
S16:通过各数据特征项名称数值列表,构建具有顺序记录功能的数据词典。通过该数据词典构建DataFrame表单数据结构,并基于pandas库的csv文件写入功能,按照DataFrame表单数据结构写入指定csv类型的数据文件。
这里的顺序可以根据用户设计需求形成。
S17:通过pandas功能库中merge()函数和contact()函数,实现基于数据ID特征属性或共同关键特征项的表单数据集的特征匹配和融合,还可以实现数据集特征的纵向数据拼接及基于指定特征组合的数据集排序。
S18:通过SQL遍历查询的功能对数据文件中数据行数、特征项维度及数据项数值缺失情况进行统计,并依据四分位数、中位数、平均值、标准差等统计分析指标对数据集质量进行等级评价,还可以基于sklearn库中相关关联分析算法模型(例如,灰色关联分析算法)调用,获得数据集中其它特征数据项对指定的主特征项的影响程度分析结果。
示例性的,将本实施例的数据抽取方法应用于对大量纵向表单结构中仿真事件类型的.dat数据文件的批量结构化数据,具体数据提取过程如下:
S11:通过指定源数据文件目标路径,自动遍历并获的该路径下所有.dat类型的数据文件名称。
S12:判别仿真平台输出的.dat数据文件的表单结构类型及关注的仿真事件类型,基于当前结构化数据抽取模板库,本实施例选择纵向表单结构的dat数据文件对应的数据抽取模型,并选取数据集中关注特征字段(项)进行模型的初始化配置。
S13:遍历并解析数据文件名称获取任务文件信息,结合自定义编号规则生成数据ID属性项。如遇到数据文件内容为空则直接略过。否则,开始逐行遍历数据文件内容,同时将每行数据信息经过字符清理后,存储到该数据文件对应的所需数据信息存储列表中。
S14:遍历数据文件对应的所需数据信息存储列表,将列表存储的所需数据行文本内容通过空格或制表符等标志符号进行字符剪切,并将每行剪切后的数据特征名称和对应的特征数值存储到行数据内容列表中。
S15:通过配置的特征项名称为索引,搜索获取对应特征项的数值,经过字符清理、格式转换后存入到各特征项数据列表中。
S16:通过所选取的数据特征项名称数值列表,构建具有顺序记录功能的数据词典,并通过该数据词典构建DataFrame表单数据结构,接着基于pandas库的csv文件写入功能,按照构建DataFrame表单数据结构写入指定csv类型的数据文件。
S17:通过pandas功能库中merge()函数和contact()函数,实现基于数据ID特征属性或共同关键特征项的表单数据集的特征匹配和融合,还可以实现数据集特征的纵向数据拼接及基于指定特征组合的数据集排序。
S18:通过SQL遍历查询的功能对数据文件中数据行数、特征项维度及数据项数值缺失情况进行统计,并依据统计分析指标对数据集质量进行等级评价。接着基于sklearn库中相关关联分析算法模型调用,获得数据集中其它特征数据项对指定的主特征项的影响程度分析结果。
上述仿真平台的多源异构数据批量抽取方法,解决了现有大多数数据抽取及数据融合方法,仅能完成单一类型表格数据文件的导入,更无法同时实现仿真平台的多源异构数据批量化抽取和数据集的匹配融合的问题,可以同时实现多种不同结构形式的数据文件的批量且灵活高效的数据抽取,并且数据抽取模型库的不断丰富完善和个性化定制,完全满足表单结构配置可选、数据抽取的结构形式可持续改善增长的功能需求。
基于上述实施例所述的仿真平台的多源异构数据批量抽取方法,本实施还提供了一种仿真平台的多源异构数据分析方法,参见图4,为本实施例提供的仿真平台的多源异构数据分析方法的一个实施例实现流程示意图,详述如下:
步骤S401,获取CSV格式文件的数据集,以及仿真任务中的CSV数据文件;其中,所述CSV格式文件包括:对应类型文件的特征字段以及与所述对应类型文件对应的数据标识符特征属性。
具体的,遍历步骤S103和步骤S104中获得的csv格式的数据集文件,以及仿真平台直接输出的包含仿真任务统计信息的.csv数据文件。
步骤S402,根据所述数据标识符特征属性或目标特征,将所述CSV格式文件的数据集与所述CSV数据文件中所有信息进行特征匹配融合,得到仿真任务全特征数据集。
通过选择.csv数据文件匹配融合模型,实现基于数据ID特征属性或共同关键特征项的数据集特征数据匹配和融合。
可选的,本实施例根据匹配结果还可以实现数据集特征的纵向数据拼接。
该方法能够实现指定目标路径下的不同表单结构类型的*.dat文件、*.csv文件、*.slsx文件以及*.scpn等多种后缀类型的系统脚本文件的一键式自动批量的结构化数据抽取及数据集匹配融合。
本实施例不限制同时并行数据集匹配、融合的数量,可在融合函数中调用多个数据集文件进行同步数据融合。
步骤S403,基于相关分析算法模型对所述仿真任务全特征数据集进行特征间的相关性分析,得到所述特征字段与所述目标特征的相关性分析量化结果。
较大规模复杂仿真推演系统平台由于任务需求的变化,造成数据表单结构和脚本文件属性标签结构的变化,这一点决定了很难有一款通用软件很好的解决数据抽取和融合。另外,对于抽取融合得到庞大的数据集来说,进行及时有效的数据质量水平的评估和数据特征项之间相关性分析快判也是尤为重要的问题
因此,本实施例提供了一种多源异构数据分析方法,基于特征关联分析算法模型,进行数据集中特征间的相关性分析,获得数据集中输入特征对主特征的相关性量化分析结果。
在一个实施例中,所述方法还包括:
根据数据集行数、特征项维度、数据项数值缺失情况和统计指标中任一种,对所述仿真任务全特征数据集进行数据质量评估。
本实施例主要基于不同文件类型及结构类型而定制开发的不同类型数据匹配融合模型和通用数据集统计分析模型。通过集成的数据集统计分析模型,对数据集行数、特征项维度、特征数据项数值缺失情况及常用统计指标进行统计分析,实现对数据集质量等级评估。
上述仿真平台的多源异构数据分析方法,可以同时实现多种不同结构形式的数据文件的批量且灵活高效的数据集匹配融合,及时有效的数据质量水平的评估和数据特征项之间相关性分析快判能力对于数据分析人员也具有重要的实用价值。
基于上述实施例所述的仿真平台的多源异构数据批量抽取方法姐分析方法,本实施还提供了一种仿真平台的多源异构数据分析方法,参见图5,为本实施例提供的仿真平台的多源异构数据分析方法的一个实施例实现流程示意图,详述如下:
步骤S501,获取仿真任务的全部数据文件,并将所述全部数据文件加载到目标文件目录中。
步骤S502,判断所述目标文件目录中每个目标文件是否为第一类型文件。
步骤S503,在所述目标文件为所述第一类型文件时,根据第一类型抽取模型对所述第一类型文件进行批量抽取,得到CSV格式文件。
步骤S504,在所述目标文件不是所述第一类型文件时,确定所述目标文件的脚本类型,并根据对应的所述脚本类型的抽取模型对所述目标文件进行批量抽取,得到CSV格式文件。
步骤S505,获取CSV格式文件的数据集,以及仿真任务中的CSV数据文件;其中,所述CSV格式文件包括:对应类型文件的特征字段以及与所述对应类型文件对应的数据标识符特征属性。
步骤S506,根据所述数据标识符特征属性或目标特征,将所述CSV格式文件的数据集与所述CSV数据文件中所有信息进行特征匹配融合,得到仿真任务全特征数据集。
步骤S507,基于相关分析算法模型对所述仿真任务全特征数据集进行特征间的相关性分析,得到所述特征字段与所述目标特征的相关性分析量化结果。
如图6所示,本实施例提供了一种面向较大规模复杂仿真系统平台输出的多源异构数据分析方法,针对大量不同编码格式及不同结构类型的数据资源文件,能够自动并且高效率的对多种不同结构类型和文件类型的数据文件中所关注的特征(字段)项数值进行抽取,进一步基于解析数据文件名称获取的任务文件信息,结合自定义编号规则生成数据ID属性项,并通过生成的数据ID特征属性或是共同的关键特征项执行表单进行数据集融合操作,生成*.csv文件格式的结构化数据集文件。
在获得的结构化数据集文件基础上,通过SQL遍历查询的操作指令对文件中数据集行数、特征项维度及数据项数值缺失情况进行统计,并依据四分位数、中位数、平均值、标准差等统计分析指标对数据集质量进行等级评价,即本发明集成了相关关联分析算法模型,能够实现数据集中其它特征数据项(输入特征)对指定的主特征项(目标特征)的重要性分析,并获得量化的影响性分析结果。
本领域技术人员可以理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的仿真平台的多源异构数据批量抽取方法,本实施例提供了一种仿真平台的多源异构数据批量抽取装置。具体参见图7,为本实施例中仿真平台的多源异构数据批量抽取装置的结构示意图。为了便于说明,仅示出了与本实施例相关的部分。
所述仿真平台的多源异构数据批量抽取装置包括:第一文件获取模块110、判断模块120、第一类型文件抽取模块130和脚本文件抽取模块140。
第一文件获取模块110用于获取仿真任务的全部数据文件,并将所述全部数据文件加载到目标文件目录中。
判断模块120用于判断所述目标文件目录中每个目标文件是否为第一类型文件。
第一类型文件抽取模块130用于在所述目标文件为所述第一类型文件时,根据第一类型抽取模型对所述第一类型文件进行批量抽取,得到CSV格式文件。
脚本文件抽取模块140用于在所述目标文件不是所述第一类型文件时,确定所述目标文件的脚本类型,并根据对应的所述脚本类型的抽取模型对所述目标文件进行批量抽取,得到CSV格式文件。
对应于上文实施例所述的仿真平台的多源异构数据分析方法,本实施例提供了一种仿真平台的多源异构数据分析装置。具体参见图8,为本实施例中仿真平台的多源异构数据分析装置的结构示意图。为了便于说明,仅示出了与本实施例相关的部分。
所述仿真平台的多源异构数据分析装置包括:第二文件获取模块210、数据融合模块220和相关性分析模块230。
第二文件获取模块210用于获取CSV格式文件的数据集,以及仿真任务中的CSV数据文件;其中,所述CSV格式文件包括:对应类型文件的特征字段以及与所述对应类型文件对应的数据标识符特征属性。
数据融合模块220用于根据所述数据标识符特征属性或目标特征,将所述CSV格式文件的数据集与所述CSV数据文件中所有信息进行特征匹配融合,得到仿真任务全特征数据集。
相关性分析模块230用于基于相关分析算法模型对所述仿真任务全特征数据集进行特征间的相关性分析,得到所述特征字段与所述目标特征的相关性分析量化结果。
本实施例还提供了一种终端100的示意图。如图9所示,该实施例的终端100包括:处理器150、存储器160以及存储在所述存储器160中并可在所述处理器150上运行的计算机程序161,例如仿真平台的多源异构数据批量抽取方法和分析方法的程序。
其中,处理器150在执行存储器160上所述计算机程序161时实现上述仿真平台的多源异构数据批量抽取方法和分析方法实施例中的步骤,例如图1所示的步骤S101至S104,以及图4所示的步骤S401至S403。或者,所述处理器150执行所述计算机程序161时实现上述各装置实施例中各模块/单元的功能,例如图7所示模块110至140的功能,以及图8所示模块210至230的功能。
示例性的,所述计算机程序161可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器160中,并由所述处理器150执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序161在所述终端100中的执行过程。例如,所述计算机程序161可以被分割成第一文件获取模块110、判断模块120、第一类型文件抽取模块130和脚本文件抽取模块140,各模块具体功能如下:
第一文件获取模块110用于获取仿真任务的全部数据文件,并将所述全部数据文件加载到目标文件目录中。
判断模块120用于判断所述目标文件目录中每个目标文件是否为第一类型文件。
第一类型文件抽取模块130用于在所述目标文件为所述第一类型文件时,根据第一类型抽取模型对所述第一类型文件进行批量抽取,得到CSV格式文件。
脚本文件抽取模块140用于在所述目标文件不是所述第一类型文件时,确定所述目标文件的脚本类型,并根据对应的所述脚本类型的抽取模型对所述目标文件进行批量抽取,得到CSV格式文件。
或者,所述计算机程序161可以被分割成第二文件获取模块210、数据融合模块220和相关性分析模块230,各模块具体功能如下:
第二文件获取模块210用于获取CSV格式文件的数据集,以及仿真任务中的CSV数据文件;其中,所述CSV格式文件包括:对应类型文件的特征字段以及与所述对应类型文件对应的数据标识符特征属性。
数据融合模块220用于根据所述数据标识符特征属性或目标特征,将所述CSV格式文件的数据集与所述CSV数据文件中所有信息进行特征匹配融合,得到仿真任务全特征数据集。
相关性分析模块230用于基于相关分析算法模型对所述仿真任务全特征数据集进行特征间的相关性分析,得到所述特征字段与所述目标特征的相关性分析量化结果。
所述终端100可包括,但不仅限于处理器150、存储器160。本领域技术人员可以理解,图9仅仅是终端100的示例,并不构成对终端100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端100还可以包括输入输出设备、网络接入设备、总线等。
所述处理器150可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器160可以是所述终端100的内部存储单元,例如终端100的硬盘或内存。所述存储器160也可以是所述终端100的外部存储设备,例如所述终端100上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器160还可以既包括所述终端100的内部存储单元也包括外部存储设备。所述存储器160用于存储所述计算机程序以及所述终端100所需的其他程序和数据。所述存储器160还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模型的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种仿真平台的多源异构数据批量抽取方法,其特征在于,包括:
获取仿真任务的全部数据文件,并将所述全部数据文件加载到目标文件目录中;
判断所述目标文件目录中每个目标文件是否为第一类型文件;
在所述目标文件为所述第一类型文件时,根据第一类型抽取模型对所述第一类型文件进行批量抽取,得到CSV格式文件;
在所述目标文件不是所述第一类型文件时,确定所述目标文件的脚本类型,并根据对应的所述脚本类型的抽取模型对所述目标文件进行批量抽取,得到CSV格式文件。
2.如权利要求1所述的仿真平台的多源异构数据批量抽取方法,其特征在于,所述第一类型文件为DAT类型文件。
3.如权利要求1所述的仿真平台的多源异构数据批量抽取方法,其特征在于,所述在所述目标文件为所述第一类型文件时,根据第一类型抽取模型对所述第一类型文件进行批量抽取,得到CSV格式文件,包括:
在所述目标文件为所述第一类型文件时,确定所述第一类型文件的表单结构类型;
根据所述表单结构类型确定对应的所述第一类型抽取模型,并确定所述第一类型文件中的特征字段;
根据所述特征字段对所述第一类型抽取模型的参数进行初始化配置,并根据配置后的所述第一类型抽取模型对所述第一类型文件进行批量抽取,得到CSV格式文件。
4.如权利要求1所述的仿真平台的多源异构数据批量抽取方法,其特征在于,所述在所述目标文件不是所述第一类型文件时,确定所述目标文件的脚本类型,并根据对应的所述脚本类型的抽取模型对所述目标文件进行批量抽取,得到CSV格式文件,包括:
在所述目标文件不是所述第一类型文件时,确定所述目标文件是否为脚本类型文件;
若所述目标文件为脚本类型文件,确定所述目标文件的参数名称和数值类型,并确定与所述脚本类型文件对应的抽取模型;
根据所述参数名称和数值类型对与所述脚本类型文件对应的抽取模型进行初始化配置,并根据配置后的所述抽取模型对所述脚本类型文件进行批量抽取,得到CSV格式文件。
5.如权利要求1所述的仿真平台的多源异构数据批量抽取方法,其特征在于,所述CSV格式文件包括:对应类型文件的特征字段,以及所述对应类型文件对应的数据标识符特征属性。
6.如权利要求5所述的仿真平台的多源异构数据批量抽取方法,其特征在于,所述数据标识符特征属性根据对应类型文件内的信息和预设编号规则生成。
7.一种仿真平台的多源异构数据分析方法,基于权利要求1至6任一项所述的仿真平台的多源异构数据批量抽取方法,其特征在于,包括:
获取CSV格式文件的数据集,以及仿真任务中的CSV数据文件;其中,所述CSV格式文件包括:对应类型文件的特征字段以及与所述对应类型文件对应的数据标识符特征属性;
根据所述数据标识符特征属性或目标特征,将所述CSV格式文件的数据集与所述CSV数据文件中所有信息进行特征匹配融合,得到仿真任务全特征数据集;
基于相关分析算法模型对所述仿真任务全特征数据集进行特征间的相关性分析,得到所述特征字段与所述目标特征的相关性分析量化结果。
8.如权利要求7所述的仿真平台的多源异构数据批分析方法,其特征在于,所述方法还包括:
根据数据集行数、特征项维度、数据项数值缺失情况和统计指标中任一种,对所述仿真任务全特征数据集进行数据质量评估。
9.一种仿真平台的多源异构数据批量抽取装置,其特征在于,包括:
第一文件获取模块,用于获取仿真任务的全部数据文件,并将所述全部数据文件加载到目标文件目录中;
判断模块,用于判断所述目标文件目录中每个目标文件是否为第一类型文件;
第一类型文件抽取模块,用于在所述目标文件为所述第一类型文件时,根据第一类型抽取模型对所述第一类型文件进行批量抽取,得到CSV格式文件;
脚本文件抽取模块,用于在所述目标文件不是所述第一类型文件时,确定所述目标文件的脚本类型,并根据对应的所述脚本类型的抽取模型对所述目标文件进行批量抽取,得到CSV格式文件。
10.一种仿真平台的多源异构数据分析装置,基于权利要求9所述的仿真平台的多源异构数据批量抽取装置,其特征在于,包括:
第二文件获取模块,用于获取CSV格式文件的数据集,以及仿真任务中的CSV数据文件;其中,所述CSV格式文件包括:对应类型文件的特征字段以及与所述对应类型文件对应的数据标识符特征属性;
数据融合模块,用于根据所述数据标识符特征属性或目标特征,将所述CSV格式文件的数据集与所述CSV数据文件中所有信息进行特征匹配融合,得到仿真任务全特征数据集;
相关性分析模块,用于基于相关分析算法模型对所述仿真任务全特征数据集进行特征间的相关性分析,得到所述特征字段与所述目标特征的相关性分析量化结果。
CN202011401684.8A 2020-12-02 2020-12-02 仿真平台的多源异构数据批量抽取方法和分析方法 Pending CN112596851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011401684.8A CN112596851A (zh) 2020-12-02 2020-12-02 仿真平台的多源异构数据批量抽取方法和分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011401684.8A CN112596851A (zh) 2020-12-02 2020-12-02 仿真平台的多源异构数据批量抽取方法和分析方法

Publications (1)

Publication Number Publication Date
CN112596851A true CN112596851A (zh) 2021-04-02

Family

ID=75188066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011401684.8A Pending CN112596851A (zh) 2020-12-02 2020-12-02 仿真平台的多源异构数据批量抽取方法和分析方法

Country Status (1)

Country Link
CN (1) CN112596851A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880295A (zh) * 2022-07-06 2022-08-09 国网浙江省电力有限公司 适用于数字文件柜的异构文件存档方法
CN117171991A (zh) * 2023-08-30 2023-12-05 中国人民解放军63921部队 一种用于外部非规则体模型的质点离散方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060167911A1 (en) * 2005-01-24 2006-07-27 Stephane Le Cam Automatic data pattern recognition and extraction
CN106886535A (zh) * 2015-12-16 2017-06-23 大唐软件技术股份有限公司 一种适配多种数据源的数据抽取方法和装置
CN110750588A (zh) * 2019-10-29 2020-02-04 珠海格力电器股份有限公司 面向多源异构的数据融合方法、系统、装置及存储介质
EP3722968A1 (en) * 2019-04-12 2020-10-14 Basf Se Data extraction system
CN111813849A (zh) * 2020-09-14 2020-10-23 杭州数梦工场科技有限公司 数据抽取方法、装置及设备、存储介质
CN111881126A (zh) * 2020-08-04 2020-11-03 广东省信息工程有限公司 一种大数据管理系统
CN111897781A (zh) * 2020-08-03 2020-11-06 厦门渊亭信息科技有限公司 一种知识图谱数据抽取方法和系统
CN111897863A (zh) * 2020-07-31 2020-11-06 珠海市新德汇信息技术有限公司 多源异构数据融合汇聚方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060167911A1 (en) * 2005-01-24 2006-07-27 Stephane Le Cam Automatic data pattern recognition and extraction
CN106886535A (zh) * 2015-12-16 2017-06-23 大唐软件技术股份有限公司 一种适配多种数据源的数据抽取方法和装置
EP3722968A1 (en) * 2019-04-12 2020-10-14 Basf Se Data extraction system
CN110750588A (zh) * 2019-10-29 2020-02-04 珠海格力电器股份有限公司 面向多源异构的数据融合方法、系统、装置及存储介质
CN111897863A (zh) * 2020-07-31 2020-11-06 珠海市新德汇信息技术有限公司 多源异构数据融合汇聚方法
CN111897781A (zh) * 2020-08-03 2020-11-06 厦门渊亭信息科技有限公司 一种知识图谱数据抽取方法和系统
CN111881126A (zh) * 2020-08-04 2020-11-03 广东省信息工程有限公司 一种大数据管理系统
CN111813849A (zh) * 2020-09-14 2020-10-23 杭州数梦工场科技有限公司 数据抽取方法、装置及设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEILING123: "Python读取dat文件数据并构成Dataframe对象", pages 1 - 82, Retrieved from the Internet <URL:https://blog.csdn.net/WEILING123/article/details/105958901> *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880295A (zh) * 2022-07-06 2022-08-09 国网浙江省电力有限公司 适用于数字文件柜的异构文件存档方法
CN114880295B (zh) * 2022-07-06 2022-09-23 国网浙江省电力有限公司 适用于数字文件柜的异构文件存档方法
CN117171991A (zh) * 2023-08-30 2023-12-05 中国人民解放军63921部队 一种用于外部非规则体模型的质点离散方法及系统
CN117171991B (zh) * 2023-08-30 2024-03-26 中国人民解放军63921部队 一种用于外部非规则体模型的质点离散方法及系统

Similar Documents

Publication Publication Date Title
Harris et al. Improved representation of sequence bloom trees
CN107451149B (zh) 流量数据查询任务的监控方法及其装置
CN112052138A (zh) 业务数据质量检测方法、装置、计算机设备及存储介质
CN102314460A (zh) 数据分析方法、系统及服务器
CN115061721A (zh) 一种报表生成方法、装置、计算机设备及存储介质
CN111752955A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN111460011A (zh) 页面数据展示方法、装置、服务器及存储介质
CN112596851A (zh) 仿真平台的多源异构数据批量抽取方法和分析方法
CN112364014B (zh) 数据查询方法、装置、服务器及存储介质
CN107145538B (zh) 表格数据查询方法、装置与系统
CN111061758A (zh) 数据存储方法、装置及存储介质
CN113672628A (zh) 数据血缘分析方法、终端设备及介质
CN114741392A (zh) 数据查询方法、装置、电子设备及存储介质
CN113760891A (zh) 一种数据表的生成方法、装置、设备和存储介质
CN111723122A (zh) 数据间关联规则的确定方法、装置、设备及可读存储介质
CN116186116A (zh) 一种基于等保测评的资产问题分析方法
CN111984625B (zh) 数据库负载特征处理方法、装置、介质和电子设备
CN111913860B (zh) 一种操作行为分析方法及装置
CN113344023A (zh) 一种代码推荐方法、装置及系统
CN113468866A (zh) 非标准json串的解析方法及装置
CN112667682A (zh) 数据处理方法、装置、计算机设备和存储介质
CN111125483A (zh) 一种网页数据抽取模板的生成方法、装置、计算机装置及计算机可读存储介质
CN110765100B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN113392105B (zh) 业务数据处理方法和终端设备
WO2024082754A1 (zh) 见解数据生成的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination