CN105868169B - 一种数据采集装置、数据采集方法和系统 - Google Patents
一种数据采集装置、数据采集方法和系统 Download PDFInfo
- Publication number
- CN105868169B CN105868169B CN201610210602.9A CN201610210602A CN105868169B CN 105868169 B CN105868169 B CN 105868169B CN 201610210602 A CN201610210602 A CN 201610210602A CN 105868169 B CN105868169 B CN 105868169B
- Authority
- CN
- China
- Prior art keywords
- file
- interface unit
- sub
- data
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据采集装置、数据采集方法和系统,该数据采集装置,其特征在于,包括:至少两种文件格式的采集子接口单元,其中,每一种文件格式的采集子接口单元,用于配置至少一种采集算法,根据所述至少一种采集算法,为每一组配置参数形成对应的数据采集规则,根据所述数据采集规则,接收外设的数据源发送端发送的源数据文件,并采集所述源数据文件中的目标数据。本发明提供的方案实现了数据采集接口的通用性。
Description
技术领域
本发明涉及计算机应用技术领域,特别涉及一种数据采集装置、数据采集方法和系统。
背景技术
在大数据时代,数据管理系统常常需要采集数据,以从采集的数据中分析出有用信息。
目前,数据的采集方式主要是,为每一种数据格式和采集方式编写各自对应的采集程序,并采集程序为生成对应的数据采集接口,当采集方式或者数据格式发生变化时,需要重新编写采集程序,并重新生成新的数据采集接口。例如:当前需要通过采集方式A从实验设备中采集word文件中的数据,则为该采集方式A和word文件生成数据采集接口1,当需要采集excel文件中的数据时,需要通过重新编写采集程序的方式,为该excel文件生成数据采集接口2,另外当上述采集方式由A变为B时,仍然需要通过重新编写采集程序的方式,为采集方式B重新生成数据采集接口3。因此,现有的这种数据采集方式,造成数据采集接口不能通用性。
发明内容
本发明实施例提供了一种数据采集装置、数据采集方法和系统,实现了数据采集接口的通用性。
一种数据采集装置,包括:至少两种文件格式的采集子接口单元,其中,每一种文件格式的采集子接口单元,用于配置至少一种采集算法,根据所述至少一种采集算法,为每一组配置参数形成对应的数据采集规则,根据所述数据采集规则,接收外设的数据源发送端发送的源数据文件,并采集所述源数据文件中的目标数据。
优选地,上述数据采集装置,进一步包括:文件生成单元和接口调用单元,其中,
所述文件生成单元,用于接收至少一组配置参数,并为每一组配置参数生成对应的脚本文件,将所述至少一个脚本文件发送给所述接口调用单元;
所述接口调用单元,用于接收所述文件生成单元发送的至少一个脚本文件,并运行所述至少一个脚本文件,根据所述至少一个脚本文件中的格式标识符,调用该脚本文件对应的文件格式的采集子接口单元;
所述每一种文件格式的采集子接口单元,用于在接收到所述接口调用单元的调用时,在所述接口调用单元运行的所述至少一个脚本文件中截取至少一组配置参数,根据所述至少一种采集算法,为所述脚本文件中的每一组配置参数形成对应的数据采集规则。
优选地,所述至少两种文件格式的采集子接口单元,包括:word文件采集子接口单元;相应地,所述接口调用单元,进一步用于定义word文件采集子接口单元的格式标识符表征为d,并定义所述d对应的至少一种采集算法的第一算法名称取值,该第一算法名称取值包括:extract Chart By Attribute、extract Table By Attribute、extract BeijingChart By Attribute、extract Beijing Table By Attribute中的任意一个或多个;根据所述至少一个脚本文件中的格式标识符d,调用所述word文件采集子接口单元;
相应地,所述word文件采集子接口单元对应的脚本文件,包括:word文件格式标识符d,第一算法名称取值及源数据文件参数中任意一个或多个,其中,所述源数据文件参数,包括:源数据文件名字符串、索引图片关键字、索引表格关键字及索引下标中的任意一个或多个;
相应地,所述word文件采集子接口单元,包括:提取图片子接口单元和提取表格子接口单元中任意一个或两个,其中,
所述提取图片子接口单元,用于截取脚本文件中第一算法名称取值、源数据文件名字符串、索引图片关键字及索引图片关键字对应的索引下标中的任意一个和多个,根据所述第一算法名称取值确定word文件图片采集算法,根据所述源数据文件名字符串,确定word文件,并根据所述索引图片关键字及索引下标,确定目标图片区域,利用所述图片采集算法,从所述word文件中采集目标图片区域中的图片;
所述提取表格子接口单元,用于截取第一算法名称取值、源数据文件名字符串、索引表格关键字及索引表格关键字对应的索引下标中的任意一个和多个,根据所述第一算法名称取值确定word文件表格采集算法,根据所述源数据文件名字符串,确定word文件,并根据所述索引表格关键字及索引表格关键字对应的索引下标,确定目标表格区域,利用所述表格采集算法,从所述word文件中采集目标表格区域中的表格中的目标数据。
优选地,所述至少两种文件格式的采集子接口单元,包括:excel文件采集子接口单元;相应地,所述接口调用单元,进一步用于定义excel文件采集子接口单元的格式标识符表征为e,并定义所述e对应的至少一种采集算法的第二算法名称取值,该第二算法名称取值包括:extract Table By Name、extract Value By Name、extract Value List ByName、extract 0x Value List By Name、extract String By Name、extract Map FromSheet、extract P Table From Sheet、extract Chart From Excel中的任意一个或多个;根据所述至少一个脚本文件中的格式标识符e,调用所述excel文件采集子接口单元;
相应地,所述excel文件采集子接口单元对应的脚本文件,包括:excel文件格式标识符e,第二算法名称取值及源数据文件参数中任意一个或多个,其中,所述源数据文件参数,包括:源数据文件名字符串、num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号中的任意一个或多个;
相应地,所述excel文件采集子接口单元,包括:至少一个excel提取子接口单元;所述至少一个excel提取子接口单元,包括:提取excel表格子接口单元、提取单值子接口单元、提取多值子接口单元、提取十六进制值子接口单元、提取字符串子接口单元、提取map子接口单元、提取PTable子接口单元和提取excel图片子接口单元中任意一个或两个;
相应地,每一个excel提取子接口单元,用于截取脚本文件中第二算法名称取值、源数据文件名字符串、num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号中的任意一个和多个,根据所述第二算法名称取值确定excel文件中数据采集算法,根据所述源数据文件名字符串,确定excel文件,并根据所述num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号中的任意一个和多个,确定目标数据区域,利用所述excel数据采集算法,从所述excel文件中采集目标数据区域中的目标数据。
优选地,所述至少两种文件格式的采集子接口单元,包括:TXT文件采集子接口单元;相应地,所述接口调用单元,进一步用于定义TXT文件采集子接口单元的格式标识符表征为x,并定义所述x对应的采集算法的名称取值为extract Table From Txt;根据所述至少一个脚本文件中的格式标识符x,调用所述TXT文件采集子接口单元;
相应地,所述TXT文件采集子接口单元对应的脚本文件,包括:TXT文件格式标识符x,extract Table From Txt及源数据文件参数中任意一个或多个,其中,所述源数据文件参数,包括:源数据文件名字符串和分隔符中的任意一个或两个;
相应地,所述TXT文件采集子接口单元,包括:提取TXT表格子接口单元;
相应地,所述提取表格子接口单元,用于截取所述extract Table From Txt、源数据文件名字符串和分隔符中的任意一个和多个,根据所述extract Table From Txt确定TXT文件中表格采集算法,根据所述源数据文件名字符串,确定TXT文件,利用所述extractTable From Txt对应的表格采集算法,根据所述分隔符,从所述TXT文件中采集目标表格。
优选地,所述每一组配置参数,进一步包括:输出文件的格式、输出文件的文件名、输出文件的存储根目录及输出文件中数据的存储格式中的任意一个或多个;
所述每一种文件格式的采集子接口单元,用于根据所述输出文件的格式、输出文件的文件名、输出文件的存储目录及输出文件中数据的存储格式中的任意一个或多个,为所述目标数据生成目标输出文件,并将所述目标输出文件发送给外设的数据管理系统。
优选地,上述数据采集装置,进一步包括:至少一种数据处理子接口单元,每一个数据处理子接口单元包含至少一种运算,所述运算包括:提取表格中最大值、提取表格中行最大值、提取表格中列最大值、重命名图片、转换图片格式、计算最大值、计算最小值、计算商、计算平均值、计算和、计算差及计算次方中的任意一个或多个;
所述每一种文件格式的采集子接口单元,用于将采集到的所述目标数据发送给所述至少一种数据处理子接口单元;
所述至少一种数据处理子接口单元中,每一种数据处理子接口单元,用于截取脚本文件中的目标运算,接收所述每一种文件格式的采集子接口单元发送的所述目标数据/接收外设的数据源发送端发送的源数据文件中的目标数据,并对所述目标数据进行所述目标运算。
一种利用上述任一所述的数据采集装置实现的数据采集方法,设置至少两种文件格式的采集子接口单元,并在每一种文件格式的采集子接口单元中配置至少一种采集算法;还包括:
确定至少一种目标文件格式的采集子接口单元和至少一组配置参数;
在所述至少一种目标文件格式的采集子接口单元中,根据所述至少一种采集算法,为每一组配置参数形成对应的数据采集规则;
根据所述数据采集规则,接收外设的数据源端发送的源数据文件,并利用所述至少一种目标文件格式的采集子接口单元采集所述源数据文件中的目标数据。
优选地,上述方法进一步包括:接收至少一组配置参数,并为每一组配置参数生成对应的脚本文件,并运行所述至少一个脚本文件;
所述确定至少一种目标文件格式的采集子接口单元和至少一组配置参数,包括:根据所述至少一个脚本文件中的格式标识符,调用该脚本文件对应的目标文件格式的采集子接口单元,并从所述至少一个脚本文件中截取至少一组配置参数。
优选地,当所述至少两种文件格式的采集子接口单元,包括:word文件采集子接口单元时,相应地,上述方法进一步包括:定义word文件采集子接口单元的格式标识符表征为d,并定义所述d对应的至少一种采集算法的第一算法名称取值,该第一算法名称取值包括:extract Chart By Attribute、extract Table By Attribute、extract Beijing ChartBy Attribute、extract Beijing Table By Attribute中的任意一个或多个;
相应地,所述确定至少一种目标文件格式的采集子接口单元,包括:根据所述脚本文件中的格式标识符d,调用所述word文件采集子接口单元,所述word文件采集子接口单元,包括:提取图片子接口单元和提取表格子接口单元中任意一个或两个;
相应地,所述接收外设的数据源端发送的源数据文件,并利用所述至少一种目标文件格式的采集子接口单元采集所述源数据文件中的目标数据,包括:
利用所述提取图片子接口单元截取脚本文件中第一算法名称取值、源数据文件名字符串、索引图片关键字及索引图片关键字对应的索引下标中的任意一个和多个,根据所述第一算法名称取值确定word文件图片采集算法,根据所述源数据文件名字符串,确定word文件,并根据所述索引图片关键字及索引下标,确定目标图片区域,利用所述图片采集算法,从所述word文件中采集目标图片区域中的图片;
利用所述提取表格子接口单元截取第一算法名称取值、源数据文件名字符串、索引表格关键字及索引表格关键字对应的索引下标中的任意一个和多个,根据所述第一算法名称取值确定word文件表格采集算法,根据所述源数据文件名字符串,确定word文件,并根据所述索引表格关键字及索引表格关键字对应的索引下标,确定目标表格区域,利用所述表格采集算法,从所述word文件中采集目标表格区域中的表格中的目标数据。
优选地,当所述至少两种文件格式的采集子接口单元,包括:excel文件采集子接口单元时,相应地,上述方法进一步包括:定义excel文件采集子接口单元的格式标识符表征为e,并定义所述e对应的至少一种采集算法的第二算法名称取值,该第二算法名称取值包括:extract Table By Name、extract Value By Name、extract Value List By Name、extract 0x Value List By Name、extract String By Name、extract Map From Sheet、extract P Table From Sheet、extract Chart From Excel中的任意一个或多个;
相应地,所述确定至少一种目标文件格式的采集子接口单元,包括:根据所述至少一个脚本文件中的格式标识符e,调用所述excel文件采集子接口单元,所述excel文件采集子接口单元,包括:至少一个excel提取子接口单元;所述至少一个excel提取子接口单元,包括:提取excel表格子接口单元、提取单值子接口单元、提取多值子接口单元、提取十六进制值子接口单元、提取字符串子接口单元、提取map子接口单元、提取PTable子接口单元和提取excel图片子接口单元中任意一个或两个;
相应地,所述接收外设的数据源端发送的源数据文件,并利用所述至少一种目标文件格式的采集子接口单元采集所述源数据文件中的目标数据,包括:
利用每一个excel提取子接口单元截取脚本文件中第二算法名称取值、源数据文件名字符串、num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号中的任意一个和多个,根据所述第二算法名称取值确定excel文件中数据采集算法,根据所述源数据文件名字符串,确定excel文件,并根据所述num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号中的任意一个和多个,确定目标数据区域,利用所述excel数据采集算法,从所述excel文件中采集目标数据区域中的目标数据。
优选地,当所述至少两种文件格式的采集子接口单元,包括:TXT文件采集子接口单元时,相应地,上述方法进一步包括:定义TXT文件采集子接口单元的格式标识符表征为x,并定义所述x对应的采集算法的名称取值为extract Table From Txt;
相应地,所述确定至少一种目标文件格式的采集子接口单元,包括:根据所述至少一个脚本文件中的格式标识符x,调用所述TXT文件采集子接口单元,所述TXT文件采集子接口单元,包括:提取TXT表格子接口单元;
相应地,所述接收外设的数据源端发送的源数据文件,并利用所述至少一种目标文件格式的采集子接口单元采集所述源数据文件中的目标数据,包括:
利用所述提取表格子接口单元截取所述extract Table From Txt、源数据文件名字符串和分隔符中的任意一个和多个,根据所述extract Table From Txt确定TXT文件中表格采集算法,根据所述源数据文件名字符串,确定TXT文件,利用所述extract TableFrom Txt对应的表格采集算法,根据所述分隔符,从所述TXT文件中采集目标表格。
优选地,上述方法进一步包括:利用所述每一种文件格式的采集子接口单元截取脚本文件中的输出文件的格式、输出文件的文件名、输出文件的存储目录及输出文件中数据的存储格式中的任意一个或多个,为所述目标数据生成目标输出文件,并将所述目标输出文件发送给外设的数据管理系统。
优选地,上述方法进一步包括:设置至少一种数据处理子接口单元,为每一个数据处理子接口单元配置至少一种运算,所述运算包括:提取表格中最大值、提取表格中行最大值、提取表格中列最大值、重命名图片、转换图片格式、计算最大值、计算最小值、计算商、计算平均值、计算和、计算差及计算次方中的任意一个或多个;
利用所述至少一种数据处理子接口单元截取脚本文件中的目标运算,接收所述每一种文件格式的采集子接口单元发送的所述目标数据/接收外设的数据源发送端发送的源数据文件中的目标数据,并对所述目标数据进行所述目标运算。
一种数据采集系统,包括:至少一个数据源发送端、上述任一所述的数据采集装置和数据管理系统,其中,
每一个数据源发送端,与所述数据采集装置相连,用于发送源数据文件给所述数据采集装置;
所述数据采集装置,封装到所述数据管理系统中,用于根据截取到的输出文件的格式、输出文件的文件名及输出文件中数据的存储格式中的任意一个或多个,将采集的目标数据生成对应的目标输出文件,并根据截取到的输出文件的存储根目录,将所述目标输出文件发送给所述数据管理系统;
所述数据管理系统,用于接收所述数据采集装置发送的所述目标输出文件,直接存储所述目标输出文件/对所述目标输出文件中的数据进行二次处理,并存储经过所述二次处理后的目标输出文件。
本发明实施例提供了一种数据采集装置、数据采集方法和系统,该数据采集装置包括:至少两种文件格式的采集子接口单元,使得该数据采集装置能够接收至少两种文件格式的源数据文件,通过每一种文件格式的采集子接口单元设置至少一种采集算法,每一种文件格式的采集子接口单元当接收到至少一组配置参数时,根据至少一种采集算法,为每一组配置参数形成对应的数据采集规则,根据数据采集规则,接收外设的数据源发送端发送的源数据文件,并采集源数据文件中的目标数据,那么当一个文件格式的采集子接口单元接收到多组配置参数时,一个文件格式的采集子接口单元可以包含多种数据采集规则,则一个文件格式的采集子接口单元可以采集到多种目标数据,一方面该数据采集装置能够接收至少两种文件格式的源数据文件,另一方面对于同一种文件格式的源数据文件,同一文件格式的采集子接口单元可以根据多种数据采集规则,采集多种目标数据,实现了数据采集接口的通用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种数据采集装置的结构示意图;
图2是本发明另一个实施例提供的一种数据采集装置的结构示意图;
图3是本发明又一个实施例提供的一种数据采集装置的结构示意图;
图4是本发明一个实施例提供的一种数据采集方法的流程图;
图5是本发明一个实施例提供的一种数据采集系统的结构示意图;
图6是本发明另一个实施例提供的一种数据采集系统的结构示意图;
图7是本发明又一个实施例提供的一种数据采集方法的流程图;
图8是本发明另一个实施例提供的一种数据采集方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据采集装置,该数据采集装置10可以包括:
至少两种文件格式的采集子接口单元101,其中,
每一种文件格式的采集子接口单元101,用于配置至少一种采集算法,根据至少一种采集算法,为每一组配置参数形成对应的数据采集规则,根据数据采集规则,接收外设的数据源发送端发送的源数据文件,并采集源数据文件中的目标数据。
在图1所示的实施例中,通过每一种文件格式的采集子接口单元设置至少一种采集算法,每一种文件格式的采集子接口单元当接收到至少一组配置参数时,根据至少一种采集算法,为每一组配置参数形成对应的数据采集规则,根据数据采集规则,接收外设的数据源发送端发送的源数据文件,并采集源数据文件中的目标数据,那么当一个文件格式的采集子接口单元接收到多组配置参数时,一个文件格式的采集子接口单元可以包含多种数据采集规则,则一个文件格式的采集子接口单元可以采集到多种目标数据,一方面该数据采集装置能够接收至少两种文件格式的源数据文件,另一方面对于同一种文件格式的源数据文件,同一文件格式的采集子接口单元可以根据多种数据采集规则,采集多种目标数据,实现了数据采集装置的通用性。
如图2所示,在本发明另一实施例中,上述数据采集装置10可以进一步包括:文件生成单元201和接口调用单元202,其中,
文件生成单元201,用于接收至少一组配置参数,并为每一组配置参数生成对应的脚本文件,将至少一个脚本文件发送给接口调用单元202;
接口调用单元202,用于接收文件生成单元201发送的至少一个脚本文件,并运行至少一个脚本文件,根据至少一个脚本文件中的格式标识符,调用该脚本文件对应的文件格式的采集子接口单元101;
每一种文件格式的采集子接口单元101,用于在接收到接口调用单元202的调用时,在接口调用单元202运行的至少一个脚本文件中截取至少一组配置参数,根据至少一种采集算法,为脚本文件中的每一组配置参数形成对应的数据采集规则。
在本发明另一实施例中,至少两种文件格式的采集子接口单元101,包括:word文件采集子接口单元(图中未示出);
接口调用单元202,进一步用于定义word文件采集子接口单元的格式标识符表征为d,并定义d对应的至少一种采集算法的第一算法名称取值,该第一算法名称取值包括:extract Chart By Attribute、extract Table By Attribute、extract Beijing ChartBy Attribute、extract Beijing Table By Attribute中的任意一个或多个;根据至少一个脚本文件中的格式标识符d,调用word文件采集子接口单元;
word文件采集子接口单元对应的脚本文件,包括:word文件格式标识符d,第一算法名称取值及源数据文件参数中任意一个或多个,其中,源数据文件参数,包括:源数据文件名字符串、索引图片关键字、索引表格关键字及索引下标中的任意一个或多个;
word文件采集子接口单元,包括:提取图片子接口单元和提取表格子接口单元中任意一个或两个,其中,
提取图片子接口单元,用于截取脚本文件中第一算法名称取值、源数据文件名字符串、索引图片关键字及索引图片关键字对应的索引下标,根据第一算法名称取值确定word文件图片采集算法,根据源数据文件名字符串,确定word文件,并根据索引图片关键字及索引下标,确定目标图片区域,利用图片采集算法,从word文件中采集目标图片区域中的图片;
提取表格子接口单元,用于截取第一算法名称取值、源数据文件名字符串、索引表格关键字及索引表格关键字对应的索引下标,根据第一算法名称取值确定word文件表格采集算法,根据源数据文件名字符串,确定word文件,并根据索引表格关键字及索引表格关键字对应的索引下标,确定目标表格区域,利用表格采集算法,从word文件中采集目标表格区域中的表格中的目标数据。
在本发明又一实施例中,至少两种文件格式的采集子接口单元101,包括:excel文件采集子接口单元(图中未示出);
接口调用单元202,进一步用于定义excel文件采集子接口单元的格式标识符表征为e,并定义e对应的至少一种采集算法的第二算法名称取值,该第二算法名称取值包括:extract Table By Name、extract Value By Name、extract Value List By Name、extract 0x Value List By Name、extract String By Name、extract Map From Sheet、extract P Table From Sheet、extract Chart From Excel中的任意一个或多个;根据至少一个脚本文件中的格式标识符e,调用excel文件采集子接口单元;
excel文件采集子接口单元对应的脚本文件,包括:excel文件格式标识符e,第二算法名称取值及源数据文件参数中任意一个或多个,其中,源数据文件参数,包括:源数据文件名字符串、num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号中的任意一个或多个;
excel文件采集子接口单元,包括:至少一个excel提取子接口单元;至少一个excel提取子接口单元,包括:提取excel表格子接口单元、提取单值子接口单元、提取多值子接口单元、提取十六进制值子接口单元、提取字符串子接口单元、提取map子接口单元、提取PTable子接口单元和提取excel图片子接口单元中任意一个或两个;
每一个excel提取子接口单元,用于截取脚本文件中第二算法名称取值、源数据文件名字符串、num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号,根据第二算法名称取值确定excel文件中数据采集算法,根据源数据文件名字符串,确定excel文件,并根据num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号,确定目标数据区域,利用excel数据采集算法,从excel文件中采集目标数据区域中的目标数据。
在本发明又一实施例中,至少两种文件格式的采集子接口单元101,包括:TXT文件采集子接口单元(图中未示出);
接口调用单元202,进一步用于定义TXT文件采集子接口单元的格式标识符表征为x,并定义x对应的采集算法的名称取值为extract Table From Txt;根据至少一个脚本文件中的格式标识符x,调用TXT文件采集子接口单元;
TXT文件采集子接口单元对应的脚本文件,包括:TXT文件格式标识符x,extractTable From Txt及源数据文件参数中任意一个或多个,其中,源数据文件参数,包括:源数据文件名字符串和分隔符中的任意一个或两个;
TXT文件采集子接口单元,包括:提取TXT表格子接口单元;
提取表格子接口单元,用于截取extract Table From Txt、源数据文件名字符串和分隔符,根据extract Table From Txt确定TXT文件中表格采集算法,根据源数据文件名字符串,确定TXT文件,利用extract Table From Txt对应的表格采集算法,根据分隔符,从TXT文件中采集目标表格。
在本发明又一实施例中,每一组配置参数,进一步包括:输出文件的格式、输出文件的文件名、输出文件的存储根目录及输出文件中数据的存储格式中的任意一个或多个;
每一种文件格式的采集子接口单元101,用于根据输出文件的格式、输出文件的文件名、输出文件的存储目录及输出文件中数据的存储格式中的任意一个或多个,为目标数据生成目标输出文件,并将目标输出文件发送给外设的数据管理系统。
对于word文件采集子接口单元来说,输出文件的格式和输出文件的文件名配置参数包括:chart_开头的字符串或者tbl_开头的字符串;
相应地,提取图片子接口单元,进一步用于截取chart_开头的字符串,并根据chart_开头的字符串,将采集的目标图片区域中的图片生成图片格式文件;
提取表格子接口单元,进一步用于截取tbl_开头的字符串,并根据tbl_开头的字符串,将采集的表格区域中的表格中的目标数据生成表格格式文件。
对于excel文件采集子接口单元来说,输出文件的格式和输出文件的文件名配置参数输出文件的格式和输出文件的文件名配置参数包括:chart_开头的字符串、tbl_开头的字符串、num_开头的字符串、str_开头的字符串、map_开头的字符串、ptbl_开头的字符串及chart_开头的字符串中任意一个;
提取excel表格子接口单元,进一步用于截取tbl_开头的字符串,并根据tbl_开头的字符串,将采集的表格区域中的表格中的目标数据生成表格格式文件;
提取单值子接口单元,进一步用于截取num_开头的字符串,并根据num_开头的字符串,为采集的excel表中的单值命名;
提取多值子接口单元,进一步用于截取多个num_开头的字符串,并根据多个num_开头的字符串,为采集的excel表中的多值中每一个值命名;
十六进制值子接口单元,进一步用于截取num_开头的字符串,并根据num_开头的字符串,为采集的excel表中的十六进制值命名;
提取字符串子接口单元,进一步用于截取str_开头的字符串,并根据str_开头的字符串,为采集的excel表中的字符串命名;
提取map子接口单元,进一步用于截取map_开头的字符串,并根据map_开头的字符串,为采集的excel表中的map命名;
提取PTable子接口单元,进一步用于截取ptbl_开头的字符串,并根据ptbl_开头的字符串,为采集的excel表中的Processible Table命名;
提取excel图片子接口单元,进一步用于截取chart_开头的字符串,并根据chart_开头的字符串,将采集的目标图片区域中的图片生成图片格式文件。
如图3所示,在本发明又一实施例中,上述数据采集装置,进一步包括:至少一种数据处理子接口单元301,每一个数据处理子接口单元301包含至少一种运算,运算包括:提取表格中最大值、提取表格中行最大值、提取表格中列最大值、重命名图片、转换图片格式、计算最大值、计算最小值、计算商、计算平均值、计算和、计算差及计算次方中的任意一个或多个;
每一种文件格式的采集子接口单元101,用于将采集到的目标数据发送给至少一种数据处理子接口单元301;
至少一种数据处理子接口单元中,每一种数据处理子接口单元301,用于截取脚本文件中的目标运算,接收每一种文件格式的采集子接口单元101发送的目标数据/接收外设的数据源发送端发送的源数据文件中的目标数据,并对目标数据进行目标运算。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见下述本发明方法实施例中的叙述。
如图4所示,本发明实施例提供一种利用上述任意一种数据采集装置实现的数据采集方法,该数据采集方法包括:
步骤401:设置至少两种文件格式的采集子接口单元,并在每一种文件格式的采集子接口单元中配置至少一种采集算法;
步骤402:确定至少一种目标文件格式的采集子接口单元和至少一组配置参数;
步骤403:在至少一种目标文件格式的采集子接口单元中,根据至少一种采集算法,为每一组配置参数形成对应的数据采集规则;
步骤404:根据数据采集规则,接收外设的数据源端发送的源数据文件,并利用至少一种目标文件格式的采集子接口单元采集源数据文件中的目标数据。
在本发明一个实施例中,为了能够实现对配置参数的管理,保证接口截取到配置参数,上述方法进一步包括:接收至少一组配置参数,并为每一组配置参数生成对应的脚本文件,并运行至少一个脚本文件;步骤402的具体实施方式,包括:根据至少一个脚本文件中的格式标识符,调用该脚本文件对应的目标文件格式的采集子接口单元,并从至少一个脚本文件中截取至少一组配置参数。
在本发明一个实施例中,定义word文件采集子接口单元的格式标识符表征为d,并定义d对应的至少一种采集算法的第一算法名称取值,该第一算法名称取值包括:extractChart By Attribute、extract Table By Attribute、extract Beijing Chart ByAttribute、extract Beijing Table By Attribute中的任意一个或多个;步骤402的具体实施方式,包括:根据脚本文件中的格式标识符d,调用word文件采集子接口单元,word文件采集子接口单元,包括:提取图片子接口单元和提取表格子接口单元中任意一个或两个;相应地,步骤404的具体实施方式,包括:截取脚本文件中第一算法名称取值、源数据文件名字符串、索引关键字及索引关键字对应的索引下标,根据第一算法名称取值确定word文件采集算法,根据源数据文件名字符串,确定word文件,并根据索引关键字及索引下标,确定目标区域,利用采集算法,从word文件中采集目标区域中的数据。
在本发明一个实施例中,定义excel文件采集子接口单元的格式标识符表征为e,并定义e对应的至少一种采集算法的第二算法名称取值,该第二算法名称取值包括:extract Table By Name、extract Value By Name、extract Value List By Name、extract 0x Value List By Name、extract String By Name、extract Map From Sheet、extract P Table From Sheet、extract Chart From Excel中的任意一个或多个;相应地,步骤402的具体实施方式,包括:根据至少一个脚本文件中的格式标识符e,调用excel文件采集子接口单元,excel文件采集子接口单元,包括:提取excel表格子接口单元、提取单值子接口单元、提取多值子接口单元、提取十六进制值子接口单元、提取字符串子接口单元、提取map子接口单元、提取PTable子接口单元和提取excel图片子接口单元中任意一个或两个;步骤404的具体实施方式,包括:截取脚本文件中第二算法名称取值、源数据文件名字符串、num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号
,根据第二算法名称取值确定excel文件中数据采集算法,根据源数据文件名字符串,确定excel文件,并根据num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号,确定目标数据区域,利用excel数据采集算法,从excel文件中采集目标数据区域中的目标数据。
在本发明一个实施例中,定义TXT文件采集子接口单元的格式标识符表征为x,并定义x对应的采集算法的名称取值为extract Table From Txt;相应地,步骤402的具体实施方式,包括:根据至少一个脚本文件中的格式标识符x,调用TXT文件采集子接口单元,TXT文件采集子接口单元,包括:提取TXT表格子接口单元;步骤404的具体实施方式,包括:利用提取表格子接口单元截取extract Table From Txt、源数据文件名字符串和分隔符,根据extract Table From Txt确定TXT文件中表格采集算法,根据源数据文件名字符串,确定TXT文件,利用extract Table From Txt对应的表格采集算法,根据分隔符,从TXT文件中采集目标表格。
在本发明一个实施例中,设置至少一种数据处理子接口单元,为每一个数据处理子接口单元配置至少一种运算,运算包括:提取表格中最大值、提取表格中行最大值、提取表格中列最大值、重命名图片、转换图片格式、计算最大值、计算最小值、计算商、计算平均值、计算和、计算差及计算次方中的任意一个或多个;截取脚本文件中的目标运算,接收每一种文件格式的采集子接口单元发送的目标数据/接收外设的数据源发送端发送的源数据文件中的目标数据,并对目标数据进行目标运算。
如图5所示,本发明实施例提供一种数据采集系统,该数据采集系统包括:上述任意一种数据采集装置501、至少一个数据源发送端502和数据管理系统503,其中,
每一个数据源发送端502,与数据采集装置501相连,用于发送源数据文件给数据采集装置501;
数据采集装置501,封装到数据管理系统503中,用于根据截取到的输出文件的格式、输出文件的文件名及输出文件中数据的存储格式中的任意一个或多个,将采集的目标数据生成对应的目标输出文件,并根据截取到的输出文件的存储根目录,将目标输出文件发送给数据管理系统503;
数据管理系统503,用于接收数据采集装置501发送的目标输出文件,直接存储目标输出文件/对目标输出文件中的数据进行二次处理,并存储经过二次处理后的目标输出文件。
为使本发明的目的、技术方案和优点更加清楚,下面结合图6所示的数据采集系统,以对word文件中图片和表格数据的采集为例,展开说明数据采集方法,如图7所示,该数据采集方法可以包括如下步骤:
步骤701:设置word文件采集子接口单元及至少一种数据处理子接口单元;
如图6所示,在数据采集装置601中,设置word文件采集子接口单元6011,并在word文件采集子接口单元6011中设置提取图片子接口单元60111和提取表格子接口单元60112,同时,在数据采集装置601中,设置了至少一个数据处理子接口单元6015。
步骤702:定义word文件采集子接口单元的格式标识符表征为d,并定义d对应的至少一种采集算法的第一算法名称取值;
在该步骤中,格式标识符能够用于唯一的表征文件格式。该第一算法名称取值包括:extract Chart By Attribute、extract Table By Attribute、extract BeijingChart By Attribute、extract Beijing Table By Attribute中的任意一个或多个;通过设置这些,使得用户在配置参数过程中,只需要配置格式标识符和算法取值,而无需编写程序。
步骤703:接收至少一组配置参数,并为每一组配置参数生成对应的脚本文件,运行至少一个脚本文件;
在该步骤中,脚本文件可以为as文件,一个业务可以配置一个对应的脚本文件,另外,为了实现as文件的正常启动,可以通过建立xml文件,在该xml文件中包括:project.input.format、project.algorithm.script和project.output.-format,构建as文件与输入文件之间的关系,通过xml文件启动as文件。
步骤704:根据至少一个脚本文件中的格式标识符d,调用该脚本文件对应的word文件采集子接口单元;
上面已经提及格式标识符d表征为word文件采集子接口单元,从图6中可以看出,word文件采集子接口单元6011,包括:提取图片子接口单元60111和提取表格子接口单元60112。
步骤705:利用word文件采集子接口单元截取脚本文件中第一算法名称取值、源数据文件名字符串、索引关键字及索引关键字对应的索引下标,当采集word文件中的图片时,执行步骤706;当采集word文件中的表格时,执行步骤712;
在该步骤中,对于提取图片子接口单元来说,索引关键字及索引关键字对应的索引下标分别为索引图片关键字及索引图片关键字的索引下标;对于提取表格子接口单元来说,索引关键字及索引关键字对应的索引下标分别为索引表格关键字及索引表格关键字的索引下标,其中,步骤706至步骤711是提取图片子接口单元对word文件中图片的提取和输出的过程;步骤712至步骤720是提取表格子接口单元对word文件中表格的提取、表格数据处理和输出的过程。
步骤706:根据第一算法名称取值确定word文件图片采集算法;
步骤707:根据源数据文件名字符串,确定word文件;
步骤708:根据索引图片关键字及索引下标,确定目标图片区域;
步骤709:利用图片采集算法,从word文件中采集目标图片区域中的图片;
步骤710:利用提取图片子接口单元截取脚本文件中的chart_开头的字符串,并根据chart_开头的字符串,将采集的目标图片区域中的图片生成图片格式文件;
步骤711:将图片格式文件发送给外设的数据管理系统,并结束当前流程;
步骤712:根据第一算法名称取值确定word文件表格采集算法;
步骤713:根据源数据文件名字符串,确定word文件;
步骤714:根据索引表格关键字及索引表格关键字对应的索引下标,确定目标表格区域;
步骤715:利用表格采集算法,从word文件中采集目标表格区域中的表格中的目标数据,当需要对目标数据进行二次处理时,执行步骤716;当不需要对目标数据进行二次处理时,执行步骤719;
步骤716:利用至少一种数据处理子接口单元截取脚本文件中的目标运算,接收word文件采集子接口单元发送的目标数据;
运算包括:提取表格中最大值、提取表格中行最大值、提取表格中列最大值、重命名图片、转换图片格式、计算最大值、计算最小值、计算商、计算平均值、计算和、计算差及计算次方中的任意一个或多个;
步骤717:对目标数据进行目标运算;
步骤718:将目标运算结果发送给外设的数据管理系统,并结束当前流程;
步骤719:利用word文件采集子接口单元截取tbl_开头的字符串,并根据tbl_开头的字符串,将采集的表格区域中的表格中的目标数据生成表格格式文件;
步骤720:将表格格式文件发送给外设的数据管理系统。
为使本发明的目的、技术方案和优点更加清楚,下面结合图6所示的数据采集系统,以对excel文件中图片和表格数据的采集为例,展开说明数据采集方法,如图8所示,该数据采集方法可以包括如下步骤:
步骤801:设置excel文件采集子接口单元及至少一种数据处理子接口单元;
如图6所示,在数据采集装置601中,设置excel文件采集子接口单元6012,并在excel文件采集子接口单元6012中设置提取excel表格子接口单元60121、提取单值子接口单元60122、提取多值子接口单元60123、提取十六进制值子接口单元60124、提取字符串子接口单元60125、提取map子接口单元60126、提取PTable子接口单元60127和提取excel图片子接口单元60128,同时,在数据采集装置601中,设置了至少一个数据处理子接口单元6015。
步骤802:定义excel文件采集子接口单元的格式标识符表征为e,并定义e对应的至少一种采集算法的第二算法名称取值;
在该步骤中,该第二算法名称取值包括:extract Table By Name、extract ValueBy Name、extract Value List By Name、extract 0x Value List By Name、extractString By Name、extract Map From Sheet、extract P Table From Sheet、extractChart From Excel中的任意一个或多个;
步骤803:接收至少一组配置参数,并为每一组配置参数生成对应的脚本文件,运行至少一个脚本文件;
在该步骤中,脚本文件可以为as文件,一个业务可以配置一个对应的脚本文件,另外,为了实现as文件的正常启动,可以通过建立xml文件,在该xml文件中构建as文件与输入文件之间的关系,通过xml文件启动as文件。
步骤804:根据至少一个脚本文件中的格式标识符e,调用该脚本文件对应的excel文件采集子接口单元;
步骤805:利用每一个excel提取子接口单元截取脚本文件中的配置参数;
在该步骤中,配置参数一般包括:第二算法名称取值、源数据文件名字符串、num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号,通过这些参数不仅能够确定算法,而且能够确定提取数据的位置。
步骤806:根据配置参数中的第二算法名称取值确定excel文件中数据采集算法;
步骤807:根据配置参数中的源数据文件名字符串,确定excel文件;
步骤808:根据配置参数中的num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号,确定目标数据区域;
步骤809:利用excel数据采集算法,从excel文件中采集目标数据区域中的目标数据,当需要对目标数据进行二次处理时,执行步骤810;当不需要对目标数据进行二次处理时,执行步骤813;
步骤810:利用至少一种数据处理子接口单元截取脚本文件中的目标运算,接收excel文件采集子接口单元发送的目标数据;
运算包括:提取表格中最大值、提取表格中行最大值、提取表格中列最大值、重命名图片、转换图片格式、计算最大值、计算最小值、计算商、计算平均值、计算和、计算差及计算次方中的任意一个或多个,该运算的过程仍然可以通过在数据处理子接口单元中设置运算子接口单元如提取表格中最大值子接口单元、转换图片格式子接口单元、计算商子接口单元等等。
步骤811:对目标数据进行目标运算;
例如:将两个数据相加,则是对两个数据进行计算和运算。
步骤812:将目标运算结果发送给外设的数据管理系统,并结束当前流程;
步骤813:利用excel提取子接口单元截取tbl_开头的字符串,并根据tbl_开头的字符串,将采集的表格区域中的表格中的目标数据生成表格格式文件;
值得说明的是,利用提取单值子接口单元截取num_开头的字符串,并根据num_开头的字符串,为采集的excel表中的单值命名;利用提取多值子接口单元截取多个num_开头的字符串,并根据多个num_开头的字符串,为采集的excel表中的多值中每一个值命名;利用十六进制值子接口单元截取num_开头的字符串,并根据num_开头的字符串,为采集的excel表中的十六进制值命名;利用提取字符串子接口单元截取str_开头的字符串,并根据str_开头的字符串,为采集的excel表中的字符串命名;利用提取map子接口单元截取map_开头的字符串,并根据map_开头的字符串,为采集的excel表中的map命名;利用提取PTable子接口单元截取ptbl_开头的字符串,并根据ptbl_开头的字符串,为采集的excel表中的Processible Table命名;利用提取excel图片子接口单元截取chart_开头的字符串,并根据chart_开头的字符串,将采集的目标图片区域中的图片生成图片格式文件。
步骤814:将表格格式文件发送给外设的数据管理系统。
对于图6所示的TXT文件采集子接口单元6013来说,其包括提取TXT表格子接口单元60131,其用于提取TXT文件中的表格,数据采集的过程与上述excel文件数据采集过程相似,只不过TXT文件采集子接口单元的格式标识符为x,x对应的采集算法的名称取值为extract Table From Txt,其主要对.m文件进行提取,输出的文件也为.m文件。
值得说明的是,数据源文件数据可以来源于各行各业如农业数据、餐饮数据、医疗数据、金融业数据等等。数据采集装置输出的文件数据可以在数据管理系统中进行其他运算,也可以直接存储到数据管理系统的数据库中。另外,在数据采集装置中,实现数据采集装置运行的上下文包括:
AlgorithmContext类、SimpleTable类、MergedTable类及ProcessibleTable类,通过这些类配合配置的参数实现数据采集。各个类的内容如下表所示:
根据上述方案,本发明的各实施例,至少具有如下有益效果:
1.本发明实施例提供的数据采集装置包括:至少两种文件格式的采集子接口单元,能够接收至少两种文件格式的源数据文件,通过每一种文件格式的采集子接口单元设置至少一种采集算法,每一种文件格式的采集子接口单元当接收到至少一组配置参数时,根据至少一种采集算法,为每一组配置参数形成对应的数据采集规则,根据数据采集规则,接收外设的数据源发送端发送的源数据文件,并采集源数据文件中的目标数据,那么当一个文件格式的采集子接口单元接收到多组配置参数时,一个文件格式的采集子接口单元可以包含多种数据采集规则,则一个文件格式的采集子接口单元可以采集到多种目标数据,一方面该数据采集装置能够接收至少两种文件格式的源数据文件,另一方面对于同一种文件格式的源数据文件,同一文件格式的采集子接口单元可以根据多种数据采集规则,采集多种目标数据,实现了数据采集接口的通用性。
2.在本发明实施例中,数据采集装置通过文件生成单元接收至少一组配置参数,并为每一组配置参数生成对应的脚本文件,将至少一个脚本文件发送给接口调用单元;通过接口调用单元接收文件生成单元发送的至少一个脚本文件,并运行至少一个脚本文件,根据至少一个脚本文件中的格式标识符,调用该脚本文件对应的文件格式的采集子接口单元;通过每一种文件格式的采集子接口单元在接收到接口调用单元的调用时,在接口调用单元运行的至少一个脚本文件中截取至少一组配置参数,根据至少一种采集算法,为脚本文件中的每一组配置参数形成对应的数据采集规则,一方面通过配置参数实现对数据采集规则的设置,当某一用户或某项业务需要某一种数据采集方式,只需要配置相应的配置参数,而无须重新编写程序,实现了根据用户和业务需求,自由配置,另一方面通过生成脚本文件,实现了管理配置参数的管理。
3.在本发明实施例中,至少两种文件格式的采集子接口单元可以包括:word文件采集子接口单元、excel文件采集子接口单元及TXT文件采集子接口单元,一方面实现了对word文件、excel文件及TXT文件中数据的采集,另一方面增加了数据采集装置的实用性。
4.在本发明实施例中,数据采集装置包括:至少一种数据处理子接口单元,每一个数据处理子接口单元包含至少一种运算,该运算包括:提取表格中最大值、提取表格中行最大值、提取表格中列最大值、重命名图片、转换图片格式、计算最大值、计算最小值、计算商、计算平均值、计算和、计算差及计算次方;通过采集子接口单元将采集到的目标数据发送给至少一种数据处理子接口单元;在至少一种数据处理子接口单元中,通过数据处理子接口单元截取脚本文件中的目标运算,接收采集子接口单元发送的目标数据/接收外设的数据源发送端发送的源数据文件中的目标数据,并对目标数据进行目标运算,实现了对采集数据的二次处理,提高了数据采集装置的应用范围。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃····〃”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (9)
1.一种数据采集装置,其特征在于,包括:至少两种文件格式的采集子接口单元,其中,
每一种文件格式的采集子接口单元用于配置至少一种采集算法,根据所述至少一种采集算法,为每一组配置参数形成对应的数据采集规则,根据所述数据采集规则,接收外设的数据源发送端发送的源数据文件,并采集所述源数据文件中的目标数据;
该装置进一步包括文件生成单元和接口调用单元,其中,
所述文件生成单元用于接收至少一组配置参数,并为每一组配置参数生成对应的脚本文件,将至少一个脚本文件发送给所述接口调用单元;
所述接口调用单元用于接收所述文件生成单元发送的至少一个脚本文件,并运行至少一个脚本文件,根据至少一个脚本文件中的格式标识符,调用脚本文件对应的文件格式的采集子接口单元;
所述每一种文件格式的采集子接口单元用于在接收到所述接口调用单元的调用时,在所述接口调用单元运行的至少一个脚本文件中截取至少一组配置参数,根据所述至少一种采集算法,为所述脚本文件中的每一组配置参数形成对应的数据采集规则。
2.根据权利要求1所述的数据采集装置,其特征在于,
所述至少两种文件格式的采集子接口单元包括word文件采集子接口单元;
相应地,所述接口调用单元进一步用于定义word文件采集子接口单元的格式标识符表征为d,并定义所述d对应的至少一种采集算法的第一算法名称取值,该第一算法名称取值包括extract Chart By Attribute、extract Table By Attribute、extract BeijingChart By Attribute、extract Beijing Table By Attribute;根据至少一个脚本文件中的格式标识符d,调用所述word文件采集子接口单元;
相应地,所述word文件采集子接口单元对应的脚本文件包括word文件格式标识符d,第一算法名称取值及源数据文件参数,其中,所述源数据文件参数包括源数据文件名字符串、索引图片关键字、索引表格关键字及索引下标;
相应地,所述word文件采集子接口单元包括提取图片子接口单元和提取表格子接口单元,其中,
所述提取图片子接口单元用于截取脚本文件中第一算法名称取值、源数据文件名字符串、索引图片关键字及索引图片关键字对应的索引下标,根据所述第一算法名称取值确定word文件图片采集算法,根据所述源数据文件名字符串,确定word文件,并根据所述索引图片关键字及索引下标,确定目标图片区域,利用所述图片采集算法,从所述word文件中采集目标图片区域中的图片;
所述提取表格子接口单元用于截取第一算法名称取值、源数据文件名字符串、索引表格关键字及索引表格关键字对应的索引下标,根据所述第一算法名称取值确定word文件表格采集算法,根据所述源数据文件名字符串,确定word文件,并根据所述索引表格关键字及索引表格关键字对应的索引下标,确定目标表格区域,利用所述表格采集算法,从所述word文件中采集目标表格区域中的表格中的目标数据;
和/或,
所述至少两种文件格式的采集子接口单元包括excel文件采集子接口单元;
相应地,所述接口调用单元进一步用于定义excel文件采集子接口单元的格式标识符表征为e,并定义所述e对应的至少一种采集算法的第二算法名称取值,该第二算法名称取值包括extract Table By Name、extract Value By Name、extract Value List By Name、extract 0x Value List By Name、extract String By Name、extract Map From Sheet、extract P Table From Sheet、extract Chart From Excel;根据至少一个脚本文件中的格式标识符e,调用所述excel文件采集子接口单元;
相应地,所述excel文件采集子接口单元对应的脚本文件包括excel文件格式标识符e,第二算法名称取值及源数据文件参数,其中,所述源数据文件参数包括源数据文件名字符串、num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号;
相应地,所述excel文件采集子接口单元包括至少一个excel提取子接口单元;所述至少一个excel提取子接口单元包括提取excel表格子接口单元、提取单值子接口单元、提取多值子接口单元、提取十六进制值子接口单元、提取字符串子接口单元、提取map子接口单元、提取PTable子接口单元和提取excel图片子接口单元;
相应地,每一个excel提取子接口单元用于截取脚本文件中第二算法名称取值、源数据文件名字符串、num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号,根据所述第二算法名称取值确定excel文件中数据采集算法,根据所述源数据文件名字符串,确定excel文件,并根据所述num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号,确定目标数据区域,利用excel数据采集算法,从所述excel文件中采集目标数据区域中的目标数据;
和/或,
所述至少两种文件格式的采集子接口单元包括TXT文件采集子接口单元;
相应地,所述接口调用单元进一步用于定义TXT文件采集子接口单元的格式标识符表征为x,并定义所述x对应的采集算法的名称取值为extract Table From Txt;根据至少一个脚本文件中的格式标识符x,调用所述TXT 文件采集子接口单元;
相应地,所述TXT文件采集子接口单元对应的脚本文件包括TXT文件格式标识符x,extract Table From Txt及源数据文件参数,其中,所述源数据文件参数包括源数据文件名字符串和分隔符;
相应地,所述TXT文件采集子接口单元包括提取TXT表格子接口单元;
相应地,提取TXT表格子接口单元用于截取所述extract Table From Txt、源数据文件名字符串和分隔符,根据所述extract Table From Txt确定TXT文件中表格采集算法,根据所述源数据文件名字符串,确定TXT文件,利用所述extract Table From Txt对应的表格采集算法,根据所述分隔符,从所述TXT文件中采集目标表格。
3.根据权利要求1或2任一所述的数据采集装置,其特征在于,
所述每一组配置参数进一步包括输出文件的格式、输出文件的文件名、输出文件的存储根目录及输出文件中数据的存储格式;
所述每一种文件格式的采集子接口单元用于根据所述输出文件的格式、输出文件的文件名、输出文件的存储目录及输出文件中数据的存储格式,为所述目标数据生成目标输出文件,并将所述目标输出文件发送给外设的数据管理系统。
4.根据权利要求1或2任一所述的数据采集装置,其特征在于,该装置进一步包括至少一种数据处理子接口单元,每一个数据处理子接口单元包含至少一种运算,所述运算包括提取表格中最大值、提取表格中行最大值、提取表格中列最大值、重命名图片、转换图片格式、计算最大值、计算最小值、计算商、计算平均值、计算和、计算差及计算次方;
所述每一种文件格式的采集子接口单元用于将采集到的所述目标数据发送给所述至少一种数据处理子接口单元;
所述至少一种数据处理子接口单元中,每一种数据处理子接口单元用于截取脚本文件中的目标运算,接收所述每一种文件格式的采集子接口单元发送的所述目标数据/接收外设的数据源发送端发送的源数据文件中的目标数据,并对所述目标数据进行所述目标运算。
5.一种利用权利要求1至4任一所述的数据采集装置实现的数据采集方法,其特征在于,设置至少两种文件格式的采集子接口单元,并在每一种文件格式的采集子接口单元中配置至少一种采集算法;还包括:
确定至少一种目标文件格式的采集子接口单元和至少一组配置参数;
在所述至少一种目标文件格式的采集子接口单元中,根据所述至少一种采集算法,为每一组配置参数形成对应的数据采集规则;
根据所述数据采集规则,接收外设的数据源端发送的源数据文件,并利用所述至少一种目标文件格式的采集子接口单元采集所述源数据文件中的目标数据。
6.根据权利要求5所述的方法,其特征在于,
该方法进一步包括接收至少一组配置参数,并为每一组配置参数生成对应的脚本文件,并运行至少一个脚本文件;
所述确定至少一种目标文件格式的采集子接口单元和至少一组配置参数包括根据至少一个脚本文件中的格式标识符,调用该脚本文件对应的目标文件格式的采集子接口单元,并从至少一个脚本文件中截取至少一组配置参数。
7.根据权利要求6所述的方法,其特征在于,
当所述至少两种文件格式的采集子接口单元包括word文件采集子接口单元时,
相应地,该方法进一步包括定义word文件采集子接口单元的格式标识符表征为d,并定义所述d对应的至少一种采集算法的第一算法名称取值,该第一算法名称取值包括extractChart By Attribute、extract Table By Attribute、extract Beijing Chart ByAttribute、extract Beijing Table By Attribute;
相应地,所述确定至少一种目标文件格式的采集子接口单元包括根据所述脚本文件中的格式标识符d,调用所述word文件采集子接口单元,所述word文件采集子接口单元包括提取图片子接口单元和提取表格子接口单元;
相应地,所述接收外设的数据源端发送的源数据文件,并利用所述至少一种目标文件格式的采集子接口单元采集所述源数据文件中的目标数据包括利用所述提取图片子接口单元截取脚本文件中第一算法名称取值、源数据文件名字符串、索引图片关键字及索引图片关键字对应的索引下标,根据所述第一算法名称取值确定word文件图片采集算法,根据所述源数据文件名字符串,确定word文件,并根据所述索引图片关键字及索引下标,确定目标图片区域,利用所述图片采集算法,从所述word文件中采集目标图片区域中的图片;利用所述提取表格子接口单元截取第一算法名称取值、源数据文件名字符串、索引表格关键字及索引表格关键字对应的索引下标,根据所述第一算法名称取值确定word文件表格采集算法,根据所述源数据文件名字符串,确定word文件,并根据所述索引表格关键字及索引表格关键字对应的索引下标,确定目标表格区域,利用所述表格采集算法,从所述word文件中采集目标表格区域中的表格中的目标数据;
和/或,
当所述至少两种文件格式的采集子接口单元包括excel文件采集子接口单元时,
相应地,该方法进一步包括定义excel文件采集子接口单元的格式标识符表征为e,并定义所述e对应的至少一种采集算法的第二算法名称取值,该第二算法名称取值包括extract Table By Name、extract Value By Name、extract Value List By Name、extract 0x Value List By Name、extract String By Name、extract Map From Sheet、extract P Table From Sheet、extract Chart From Excel;
相应地,所述确定至少一种目标文件格式的采集子接口单元包括根据至少一个脚本文件中的格式标识符e,调用所述excel文件采集子接口单元,所述excel文件采集子接口单元包括至少一个excel提取子接口单元;所述至少一个excel提取子接口单元包括提取excel表格子接口单元、提取单值子接口单元、提取多值子接口单元、提取十六进制值子接口单元、提取字符串子接口单元、提取map子接口单元、提取PTable子接口单元和提取excel图片子接口单元;
相应地,所述接收外设的数据源端发送的源数据文件,并利用所述至少一种目标文件格式的采集子接口单元采集所述源数据文件中的目标数据,包括利用每一个excel提取子接口单元截取脚本文件中第二算法名称取值、源数据文件名字符串、num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号,根据所述第二算法名称取值确定excel文件中数据采集算法,根据所述源数据文件名字符串,确定excel文件,并根据所述num_和sheet序列号组成的字符串、sheet名称字符串、行名称字符串、列名称字符串、左上角字符串、右下角字符串和图片序号,确定目标数据区域,利用excel数据采集算法,从所述excel文件中采集目标数据区域中的目标数据;
和/或,
当所述至少两种文件格式的采集子接口单元包括TXT文件采集子接口单元时,
相应地,该方法进一步包括定义TXT文件采集子接口单元的格式标识符表征为x,并定义所述x对应的采集算法的名称取值为extract Table From Txt;
相应地,所述确定至少一种目标文件格式的采集子接口单元包括根据至少一个脚本文件中的格式标识符x,调用所述TXT文件采集子接口单元,所述TXT文件采集子接口单元包括提取TXT表格子接口单元;
相应地,所述接收外设的数据源端发送的源数据文件,并利用所述至少一种目标文件格式的采集子接口单元采集所述源数据文件中的目标数据,包括利用提取TXT表格子接口单元截取所述extract Table From Txt、源数据文件名字符串和分隔符,根据所述extractTable From Txt确定TXT文件中表格采集算法,根据所述源数据文件名字符串,确定TXT文件,利用所述extract Table From Txt对应的表格采集算法,根据所述分隔符,从所述TXT文件中采集目标表格。
8.根据权利要求6或7任一所述的方法,其特征在于,
该方法进一步包括利用所述每一种文件格式的采集子接口单元截取脚本文件中的输出文件的格式、输出文件的文件名、输出文件的存储目录及输出文件中数据的存储格式,为所述目标数据生成目标输出文件,并将所述目标输出文件发送给外设的数据管理系统;
和/或,
该方法进一步包括设置至少一种数据处理子接口单元,为每一个数据处理子接口单元配置至少一种运算,所述运算包括提取表格中最大值、提取表格中行最大值、提取表格中列最大值、重命名图片、转换图片格式、计算最大值、计算最小值、计算商、计算平均值、计算和、计算差及计算次方;
利用所述至少一种数据处理子接口单元截取脚本文件中的目标运算,接收所述每一种文件格式的采集子接口单元发送的所述目标数据/接收外设的数据源发送端发送的源数据文件中的目标数据,并对所述目标数据进行所述目标运算。
9.一种数据采集系统,其特征在于,包括:至少一个数据源发送端、权利要求1至4任一所述的数据采集装置和数据管理系统,其中,
每一个数据源发送端与所述数据采集装置相连,用于发送源数据文件给所述数据采集装置;
所述数据采集装置封装到所述数据管理系统中,用于根据截取到的输出文件的格式、输出文件的文件名及输出文件中数据的存储格式中的任意一个或多个,将采集的目标数据生成对应的目标输出文件,并根据截取到的输出文件的存储根目录,将所述目标输出文件发送给所述数据管理系统;
所述数据管理系统用于接收所述数据采集装置发送的所述目标输出文件,直接存储所述目标输出文件/对所述目标输出文件中的数据进行二次处理,并存储经过所述二次处理后的目标输出文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610210602.9A CN105868169B (zh) | 2016-04-06 | 2016-04-06 | 一种数据采集装置、数据采集方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610210602.9A CN105868169B (zh) | 2016-04-06 | 2016-04-06 | 一种数据采集装置、数据采集方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105868169A CN105868169A (zh) | 2016-08-17 |
CN105868169B true CN105868169B (zh) | 2019-04-30 |
Family
ID=56636111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610210602.9A Active CN105868169B (zh) | 2016-04-06 | 2016-04-06 | 一种数据采集装置、数据采集方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105868169B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111863041A (zh) * | 2020-07-17 | 2020-10-30 | 东软集团股份有限公司 | 一种声音信号处理方法、装置及设备 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110084052B (zh) * | 2019-05-05 | 2021-02-09 | 黑龙江亿林网络股份有限公司 | 一种数据用多端口加密型采集系统 |
CN111125004B (zh) * | 2019-12-03 | 2021-09-17 | 中盈优创资讯科技有限公司 | 文件采集方法及装置 |
CN111090396A (zh) * | 2019-12-10 | 2020-05-01 | 联想(北京)有限公司 | 一种文件的处理方法、装置及电子设备 |
CN111506543A (zh) * | 2020-04-22 | 2020-08-07 | 北京奕为汽车科技有限公司 | 一种m文件生成方法及装置 |
CN112989254B (zh) * | 2021-04-13 | 2023-03-07 | 郑州悉知信息科技股份有限公司 | 一种图片处理方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101047549A (zh) * | 2006-04-10 | 2007-10-03 | 华为技术有限公司 | 数据同步系统及其方法 |
CN103092817A (zh) * | 2013-01-18 | 2013-05-08 | 五八同城信息技术有限公司 | 一种基于脚本引擎的数据采集方法和装置 |
CN104933104A (zh) * | 2015-05-29 | 2015-09-23 | 数据堂(北京)科技股份有限公司 | 一种元数据采集方法和系统 |
-
2016
- 2016-04-06 CN CN201610210602.9A patent/CN105868169B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101047549A (zh) * | 2006-04-10 | 2007-10-03 | 华为技术有限公司 | 数据同步系统及其方法 |
CN103092817A (zh) * | 2013-01-18 | 2013-05-08 | 五八同城信息技术有限公司 | 一种基于脚本引擎的数据采集方法和装置 |
CN104933104A (zh) * | 2015-05-29 | 2015-09-23 | 数据堂(北京)科技股份有限公司 | 一种元数据采集方法和系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111863041A (zh) * | 2020-07-17 | 2020-10-30 | 东软集团股份有限公司 | 一种声音信号处理方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105868169A (zh) | 2016-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105868169B (zh) | 一种数据采集装置、数据采集方法和系统 | |
CN104809117B (zh) | 视频数据聚合处理方法、聚合系统及视频搜索平台 | |
CN104376053B (zh) | 一种基于海量气象数据的存储与检索方法 | |
CN109347798A (zh) | 网络安全知识图谱的生成方法、装置、设备及存储介质 | |
WO2019237532A1 (zh) | 一种业务数据的监控方法、存储介质、终端设备及装置 | |
EP3174264A1 (en) | Apparatus and method for automatically generating detection rule | |
CN107092639A (zh) | 一种搜索引擎系统 | |
CN105162627B (zh) | 发现与呈现网络应用访问信息的方法和系统 | |
CN110222008A (zh) | 一种数据格式的转换方法、系统、介质及电子设备 | |
CN105677661A (zh) | 一种检测社交媒体重复数据的方法 | |
CN108491715A (zh) | 终端指纹库的生成方法、装置和服务器 | |
US20230092159A1 (en) | Label guided unsupervised learning based network-level application signature generation | |
WO2014073941A1 (ko) | 전자 서식 변환 장치 및 방법 | |
CN107870814A (zh) | 用于内容管理批处理的方法和设备 | |
KR20190058141A (ko) | 문서로부터 추출되는 데이터를 생성하는 방법 및 그 장치 | |
CN108206788A (zh) | 一种流量的业务识别方法及相关设备 | |
CN105488405A (zh) | 一种基于pdb调试信息的恶意代码分析方法及系统 | |
CN103955517B (zh) | 将文档型数据库的数据转换至关系型数据库的方法及系统 | |
CN103514284B (zh) | 数据显示系统和数据显示方法 | |
CN110008462A (zh) | 一种命令序列检测方法及命令序列处理方法 | |
CN107612969A (zh) | 基于B‑Tree布隆过滤器的云存储数据完整性审计方法 | |
CN103425648B (zh) | 关系圈的处理方法和系统 | |
CN106802958A (zh) | Cad数据到gis数据的转换方法及系统 | |
CN112131288B (zh) | 数据源接入处理方法和装置 | |
CN110830416A (zh) | 网络入侵检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210812 Address after: 712000 No. 10107, building bdef, airport international business center, airport new town, Xixian New District, Xi'an City, Shaanxi Province - No. 01, zone I Patentee after: Shaanxi Zhonglang Enterprise Management Consulting Co.,Ltd. Address before: 710071 Xi'an University of Electronic Science and technology, No. 2, Taibai South Road, Yanta District, Xi'an City, Shaanxi Province Patentee before: XIDIAN University |
|
TR01 | Transfer of patent right |