CN111427845B - 一种交互式建模分析算子数据交换方法 - Google Patents

一种交互式建模分析算子数据交换方法 Download PDF

Info

Publication number
CN111427845B
CN111427845B CN202010126140.9A CN202010126140A CN111427845B CN 111427845 B CN111427845 B CN 111427845B CN 202010126140 A CN202010126140 A CN 202010126140A CN 111427845 B CN111427845 B CN 111427845B
Authority
CN
China
Prior art keywords
data
file
data exchange
interface component
modeling analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010126140.9A
Other languages
English (en)
Other versions
CN111427845A (zh
Inventor
汤国防
张寒雪
姚尚
胡长城
高瑞明
闫双平
闫永恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN202010126140.9A priority Critical patent/CN111427845B/zh
Publication of CN111427845A publication Critical patent/CN111427845A/zh
Application granted granted Critical
Publication of CN111427845B publication Critical patent/CN111427845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种交互式建模分析算子数据交换方法,针对交互式建模分析平台算子间数据交换在应对大数据量时存在数据内容庞大、数据交换传输效率低的问题,本发明提出的一种交互式建模分析算子数据交换方法,一方面通过设计基于“数据配置文件+数据集文件”作为数据交换数据文件介质,实现了对交换数据中的冗余信息的去除,极大的降低了数据交换文件的大小;另一方面构建基于FTP服务的高性能的数据交换装置,实现算子间的输入、输出数据集中存储交换;通过上述方法能够显著提高算子间的数据传输交换效率,适用于武器装备试验、大数据科学计算等海量数据建模分析应用场景。

Description

一种交互式建模分析算子数据交换方法
技术领域
本发明属于交互式建模技术领域,具体涉及一种交互式建模分析算子数据交换方法。
背景技术
随着大数据、机器学习研究和工程应用,构建交互式建模分析平台已经成为支撑数据灵活分析应用的有效途径。在实际工程应用中,如武器试验数据处理、工业智能制造等领域,数据特征多、数据规模大、数据网络间传输交换成为制约交数据分析计算性能的主要瓶颈。通常采用基于SOA的XML文件、基于REST服务的数据流等方式进行数据交换方式,当数据特征多达数十个、数据记录达到千万乃至数亿以上量级时,XML文件或REST服务数据流规模达数十GB,数据文件或数据流极为臃肿庞大,算子间通过网络进行数据交换时产生非常大的时间消耗,严重影响数据交换效率和整个数据处理过程的执行效率。
发明内容
有鉴于此,本发明的目的是提供一种交互式建模分析算子数据交换方法,可降低数据交换文件大小,提高交换效率。
一种交互式建模分析算子数据交换方法,构建数据交换装置、数据交换配置文件和数据交换接口组件,其中:
数据交换配置文件用于描述交互式建模分析算子的输入数据配置和输出数据配置,包括数据名称、数据属性标签、数据格式标签、文件路径及数据文件名称;
数据交换接口组件包含数据下载模块、数据上传模块、数据集文件读写模块和数据交换装置访问配置文件;
当交互式建模分析算子根据其输入数据配置文件获取算子的输入数据时,需通过数据交换接口组件获取数据,具体方法步骤为:
101:交互式建模分析算子读取输入数据对应的数据交换配置文件,将数据交换配置文件字符串作为参数传递给数据交换接口组件;
102:数据交换接口组件的数据下载模块解析数据交换配置文件字符串中的配置信息,得到对应的数据名称、数据属性标签、数据格式标签、文件路径、数据集文件名称;
103:数据交换接口组件的数据下载模块根据数据交换装置访问配置文件存储的数据交换装置的FTP服务地址,以及数据交换配置文件的文件路径、数据集文件名称,按照“FTP服务地址+相对文件路径+数据集文件名称”为目标文件发起FTP下载请求,从数据交换装置下载获取数据文件;
104:数据交换接口组件的数据集文件读写模块根据数据属性标签、数据格式标签,按顺序从数据集文件中读取二进制数据,并转换为对应格式的数据变量,全部数据读取完成后,将全部数据封装为完整的数据集合变量;
105:数据交换接口组件向交互式建模分析算子返回数据集合变量,作为交互式建模分析算子可处理的输入数据。
较佳的,当交互式建模分析算子完成数据计算后,所得到的输出数据通过数据交换接口组件进行数据集文件封装和上传,同时得到输出数据对应的数据交换配置文件,具体方法为:
201:交互式建模分析算子将输出数据对应的数据集合变量作为参数传递给数据交换接口组件的数据上传模块;
202:数据交换接口组件的数据上传模块根据数据集合变量的属性列、以及每个属性列对应的数据格式,分别创建数据属性标签、数据格式标签;同时创建一个空白的数据集文件,文件命名为系统随机函数生成的一串32位长度的随机字符串;
203:数据交换接口组件的数据上传模块调度数据集文件读写模块,将数据集合中的数据内容写入至数据集文件;数据集文件读写模块根据数据格式标签,将数据集合中的每一行数据的每一项数据,按照对应的数据格式顺序以二进制格式写入数据集文件;完成全部数据写入后,保存并关闭该数据集文件;
204:数据交换接口组件的数据上传模块将该数据集文件上传至数据交换装置的FTP服务目录中,所上传的目录相对路径以当前任务ID、当前流程ID分别建立目录,格式为“FTP根目录/当前任务ID/当前流程ID/数据集文件名称”;
205:数据交换接口组件的数据上传模块完成数据上传后,创建一个数据交换配置文件,以“当前任务ID/当前流程ID”作为数据交换配置文件的文件路径属性,所上传的数据集文件名称作为数据集文件名称属性,同时写入202步骤中的数据属性标签、数据格式标签,保存数据交换配置文件,作为当前算子输出数据项对应的数据交换配置文件。
进一步的,还包括:
206:根据整个数据分析模型中交互式建模分析算子的关联关系,找到当前算子输出数据关联的其他算子,以步骤205中得到的数据交换配置文件分别作为关联算子输入数据项的数据交换配置文件。
较佳的,所述数据交换接口组件的数据交换装置访问配置文件为XML格式文件。
较佳的,所述数据交换接口组件的数据交换装置访问配置文件还配置有数据交换装置的密码和FTP根目录信息。
较佳的,所述输入数据和输出数据的文件格式采用按照数据项顺序存储的二进制文件。
本发明具有如下有益效果:
针对交互式建模分析平台算子间数据交换在应对大数据量时存在数据内容庞大、数据交换传输效率低的问题,本发明提出的一种交互式建模分析算子数据交换方法,一方面通过设计基于“数据配置文件+数据集文件”作为数据交换数据文件介质,实现了对交换数据中的冗余信息的去除,极大的降低了数据交换文件的大小;另一方面构建基于FTP服务的高性能的数据交换装置,实现算子间的输入、输出数据集中存储交换;通过上述方法能够显著提高算子间的数据传输交换效率,适用于武器装备试验、大数据科学计算等海量数据建模分析应用场景。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
一种交互式建模分析算子数据交换方法,如图1所示,首先为交互式建模分析算子构建数据交换装置、数据交换配置文件和数据交换接口组件。其中:数据交换装置可采用存储服务器或同类装置并配置启用FTP文件传输服务,提供交换数据的存储和基于FTP的数据上传下载服务;数据交换配置文件用于算子间数据交换的数据配置文件,采用XML格式文件,XML文件中的配置信息包含有数据名称、数据属性标签、数据类型、相对FTP根目录的文件路径、数据文件名称;数据交换接口组件包含数据下载模块、数据上传模块、数据集文件读写模块和数据交换装置访问配置文件,能够与交互式建模分析算子集成,并为其提供数据获取和上传服务。数据集文件格式采用按照数据项顺序存储的二进制文件数据文件格式,数据集文件中仅存储数据内容,不存储数据描述信息或其他信息。
数据交换装置:
数据交换装置采用存储服务器或同类装置,配置启用FTP文件传输服务,提供交换数据文件的存储和基于FTP的数据上传下载服务。
数据交换配置文件:
数据交换配置文件用来描述交互式建模分析算子的输入数据配置和输出数据配置,且每一项输入数据或输出数据均对应唯一的数据交换配置文件。数据交换配置文件格式采用XML格式,属性如表1:
表1 输入输出数据元数据项定义
Figure BDA0002394432650000041
数据交换接口组件:
数据交换接口组件包含数据下载模块、数据上传模块、数据集文件读写模块和数据交换装置访问配置文件,数据交换接口组件能够与交互式建模分析算子集成,并为其提供数据获取和上传服务。当交互式建模分析算子根据其输入数据配置文件获取算子的输入数据时,需通过数据交换接口组件获取数据,具体方法步骤为:
001:交互式建模分析算子读取输入数据对应的数据交换配置文件,将数据交换配置文件字符串作为参数传递给数据交换接口组件;
002:数据交换接口组件的数据下载模块解析数据交换配置文件字符串中的配置信息,得到对应的数据名称、数据属性标签、数据格式标签、文件路径、数据集文件名称;
003:数据交换接口组件的数据下载模块根据数据交换装置访问配置文件存储的数据交换装置的FTP服务地址,以及数据交换配置文件的文件路径、数据集文件名称,按照“FTP服务地址+相对文件路径+数据集文件名称”为目标文件发起FTP下载请求,从数据交换装置下载获取数据集文件;
004:数据交换接口组件的数据集文件读写模块根据数据属性标签、数据格式标签,按顺序从数据集文件中读取二进制数据,并转换为对应格式的数据变量,全部数据读取完成后,将全部数据封装为完整的数据集合变量;
005:数据交换接口组件向交互式建模分析算子返回数据集合变量,作为交互式建模分析算子可处理的输入数据。
当交互式建模分析算子完成数据计算后,所得到的输出数据通过数据交换接口组件进行数据集文件封装和上传,同时得到输出数据对应的数据交换配置文件,具体方法为:
001:交互式建模分析算子将输出数据对应的数据集合变量作为参数传递给数据交换接口组件的数据上传模块;
002:数据交换接口组件的数据上传模块根据数据集合变量的属性列、以及每个属性列对应的数据格式,分别创建数据属性标签、数据格式标签;同时创建一个空白的数据集文件,文件命名为系统随机函数生成的一串32位长度的随机字符串;
003:数据交换接口组件的数据上传模块调度数据集文件读写模块,将数据集合中的数据内容写入至数据集文件;数据集文件读写模块根据数据格式标签,将数据集合中的每一行数据的每一项数据,按照对应的数据格式顺序以二进制格式写入数据集文件;完成全部数据写入后,保存并关闭该数据集文件;
004:数据交换接口组件的数据上传模块将该数据集文件上传至数据交换装置的FTP服务目录中,所上传的目录相对路径以当前任务ID、当前流程ID分别建立目录,格式为“FTP根目录/当前任务ID/当前流程ID/数据集文件名称”;
005:数据交换接口组件的数据上传模块完成数据上传后,创建一个数据交换配置文件,以“当前任务ID/当前流程ID”作为数据交换配置文件的文件路径属性,所上传的数据集文件名称作为数据集文件名称属性,同时写入002步骤中的数据属性标签属性、数据格式标签属性,保存数据交换配置文件,作为当前算子输出数据项对应的数据交换配置文件。
006:更进一步的,根据整个数据分析模型中交互式建模分析算子的关联关系,找到当前算子输出数据关联的其他算子,以步骤005中得到的数据交换配置文件分别作为关联算子输入数据项的数据交换配置文件。
数据交换接口组件的数据交换装置访问配置文件为XML格式文件,配置了数据交换装置的网络地址、FTP服务用户名、密码和FTP根目录信息。
数据集文件格式采用按照数据项顺序存储的二进制文件数据文件,不包含数据描述信息及其他信息。
实施例:
数据交换接口组件的数据交换装置访问配置文件为XML格式文件,配置了数据交换装置的网络地址、FTP服务用户名、密码和FTP根目录信息。数据交换装置访问配置文件实例如下:
<?xml version="1.0"encoding="gb2312"?>
<root>
<ftp ServerIP="127.0.0.1"UserName="zhxxcl"Password="p@ssw0rd"FtpRootPath=""/>
</root>
数据集文件格式采用按照数据项顺序存储的二进制文件数据文件,不包含数据描述信息。例如,一个数据集合包含1000万条记录,每条记录中包含的数据属性为“T|X|Y|Z”,对应的数据格式分别为“S|S|D|F”(S为String数据,D表示Double数据,F表示Float数据),所生成的数据集文件的内容格式为:
SSDFSSDFSSDFSSDFSSDFSSDFSSDFSSDFSSDFSSDF…(包含1000万组SSDF格式的二进制数据)
相比XML格式的数据文件或REST服务的数据流,数据集文件中完全为数据内容,无任何数据描述信息、数据格式信息,数据文件大小可降低95%以上。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种交互式建模分析算子数据交换方法,其特征在于,构建数据交换装置、数据交换配置文件和数据交换接口组件,其中:
数据交换配置文件用于描述交互式建模分析算子的输入数据配置和输出数据配置,包括数据名称、数据属性标签、数据格式标签、文件路径及数据文件名称;
数据交换接口组件包含数据下载模块、数据上传模块、数据集文件读写模块和数据交换装置访问配置文件;
当交互式建模分析算子根据其输入数据配置文件获取算子的输入数据时,需通过数据交换接口组件获取数据,具体方法步骤为:
101:交互式建模分析算子读取输入数据对应的数据交换配置文件,将数据交换配置文件字符串作为参数传递给数据交换接口组件;
102:数据交换接口组件的数据下载模块解析数据交换配置文件字符串中的配置信息,得到对应的数据名称、数据属性标签、数据格式标签、文件路径、数据集文件名称;
103:数据交换接口组件的数据下载模块根据数据交换装置访问配置文件存储的数据交换装置的FTP服务地址,以及数据交换配置文件的文件路径、数据集文件名称,按照“FTP服务地址+相对文件路径+数据集文件名称”为目标文件发起FTP下载请求,从数据交换装置下载获取数据文件;
104:数据交换接口组件的数据集文件读写模块根据数据属性标签、数据格式标签,按顺序从数据集文件中读取二进制数据,并转换为对应格式的数据变量,全部数据读取完成后,将全部数据封装为完整的数据集合变量;
105:数据交换接口组件向交互式建模分析算子返回数据集合变量,作为交互式建模分析算子可处理的输入数据。
2.如权利要求1所述的一种交互式建模分析算子数据交换方法,其特征在于,当交互式建模分析算子完成数据计算后,所得到的输出数据通过数据交换接口组件进行数据集文件封装和上传,同时得到输出数据对应的数据交换配置文件,具体方法为:
201:交互式建模分析算子将输出数据对应的数据集合变量作为参数传递给数据交换接口组件的数据上传模块;
202:数据交换接口组件的数据上传模块根据数据集合变量的属性列、以及每个属性列对应的数据格式,分别创建数据属性标签、数据格式标签;同时创建一个空白的数据集文件,文件命名为系统随机函数生成的一串32位长度的随机字符串;
203:数据交换接口组件的数据上传模块调度数据集文件读写模块,将数据集合中的数据内容写入至数据集文件;数据集文件读写模块根据数据格式标签,将数据集合中的每一行数据的每一项数据,按照对应的数据格式顺序以二进制格式写入数据集文件;完成全部数据写入后,保存并关闭该数据集文件;
204:数据交换接口组件的数据上传模块将该数据集文件上传至数据交换装置的FTP服务目录中,所上传的目录相对路径以当前任务ID、当前流程ID分别建立目录,格式为“FTP根目录/当前任务ID/当前流程ID/数据集文件名称”;
205:数据交换接口组件的数据上传模块完成数据上传后,创建一个数据交换配置文件,以“当前任务ID/当前流程ID”作为数据交换配置文件的文件路径属性,所上传的数据集文件名称作为数据集文件名称属性,同时写入202步骤中的数据属性标签、数据格式标签,保存数据交换配置文件,作为当前算子输出数据项对应的数据交换配置文件。
3.如权利要求2所述的一种交互式建模分析算子数据交换方法,其特征在于,还包括:
206:根据整个数据分析模型中交互式建模分析算子的关联关系,找到当前算子输出数据关联的其他算子,以步骤205中得到的数据交换配置文件分别作为关联算子输入数据项的数据交换配置文件。
4.如权利要求1所述的一种交互式建模分析算子数据交换方法,其特征在于,所述数据交换接口组件的数据交换装置访问配置文件为XML格式文件。
5.如权利要求1所述的一种交互式建模分析算子数据交换方法,其特征在于,所述数据交换接口组件的数据交换装置访问配置文件还配置有数据交换装置的密码和FTP根目录信息。
6.如权利要求1所述的一种交互式建模分析算子数据交换方法,其特征在于,所述输入数据和输出数据的文件格式采用按照数据项顺序存储的二进制文件。
CN202010126140.9A 2020-02-28 2020-02-28 一种交互式建模分析算子数据交换方法 Active CN111427845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010126140.9A CN111427845B (zh) 2020-02-28 2020-02-28 一种交互式建模分析算子数据交换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010126140.9A CN111427845B (zh) 2020-02-28 2020-02-28 一种交互式建模分析算子数据交换方法

Publications (2)

Publication Number Publication Date
CN111427845A CN111427845A (zh) 2020-07-17
CN111427845B true CN111427845B (zh) 2022-12-09

Family

ID=71547805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010126140.9A Active CN111427845B (zh) 2020-02-28 2020-02-28 一种交互式建模分析算子数据交换方法

Country Status (1)

Country Link
CN (1) CN111427845B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114063868A (zh) * 2021-11-18 2022-02-18 神州数码系统集成服务有限公司 一种ai拖拽建模系统、方法、计算机设备及应用
CN114186678B (zh) * 2021-12-10 2023-04-07 北京百度网讯科技有限公司 基于深度学习的硬件适配装置和方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739452A (zh) * 2009-12-17 2010-06-16 中国电力科学研究院 一种数据交换接口及其实现方法
CN104104738B (zh) * 2014-08-06 2018-02-02 江苏瑞中数据股份有限公司 一种基于ftp的数据交换系统
CN104573068A (zh) * 2015-01-23 2015-04-29 四川中科腾信科技有限公司 一种基于大数据的信息处理方法

Also Published As

Publication number Publication date
CN111427845A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN106980669B (zh) 一种数据的存储、获取方法及装置
TWI735545B (zh) 一種模型的訓練方法和裝置
JPH0679317B2 (ja) データベース・システムにおけるデータ交換方法及びシステム
CN111427845B (zh) 一种交互式建模分析算子数据交换方法
CN101344881A (zh) 海量文件型数据的索引生成方法及装置和搜索系统
CN108038213A (zh) 一种数据处理的方法、客户端、服务器及系统
CN101589372A (zh) 编码解码装置、方法、程序、记录介质
CN104809183A (zh) 一种数据读取及写入的方法和装置
CN108280056A (zh) 一种Excel文件解析方法
CN103002061A (zh) 一种长域名与短域名互相转化的方法及装置
CN112860777A (zh) 数据处理方法、装置及设备
CN107025115B (zh) 一种适配多种接口采集的方法
CN111625520A (zh) 一种通用的异构数据库字段类型的映射方法及系统
CN115033569A (zh) 一种自定义遥感影像元数据入库方法
CN104090920A (zh) 一种实现数字内容跨终端出版的系统
CN101963993B (zh) 一种数据库单表记录快速查找的方法
CN107423321A (zh) 适用大批量小文件云存储的方法及其装置
US9350595B1 (en) System and method for serializing and deserializing data objects into a single binary stream
CN109271456A (zh) 主机数据库文件导出方法及装置
CN111898351A (zh) 基于Aviator的Excel数据自动导入方法、装置、终端设备及存储介质
KR100762712B1 (ko) 규칙기반의 전자문서 변환방법 및 그 시스템
CN104331517A (zh) 一种检索方法及装置
CN107357919A (zh) 行为日志查询系统及方法
CN109828953A (zh) 基于分布式内存数据库的图片检索系统及其方法
CN110109866A (zh) 一种文件系统目录的管理方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant