CN107977440B - 一种解析数据文件的方法、装置和系统 - Google Patents

一种解析数据文件的方法、装置和系统 Download PDF

Info

Publication number
CN107977440B
CN107977440B CN201711287705.6A CN201711287705A CN107977440B CN 107977440 B CN107977440 B CN 107977440B CN 201711287705 A CN201711287705 A CN 201711287705A CN 107977440 B CN107977440 B CN 107977440B
Authority
CN
China
Prior art keywords
data
data file
meaning
comment field
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711287705.6A
Other languages
English (en)
Other versions
CN107977440A (zh
Inventor
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wangsu Science and Technology Co Ltd
Original Assignee
Wangsu Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wangsu Science and Technology Co Ltd filed Critical Wangsu Science and Technology Co Ltd
Priority to CN201711287705.6A priority Critical patent/CN107977440B/zh
Publication of CN107977440A publication Critical patent/CN107977440A/zh
Application granted granted Critical
Publication of CN107977440B publication Critical patent/CN107977440B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种解析数据文件的方法、装置和系统,属于数据处理领域。所述方法包括:接收端获取待发送的数据文件;在所述数据文件中添加注释字段,所述注释字段包含所述数据文件中每个数据串的含义标识;向接收端发送添加有所述注释字段的数据文件,以使所述接收端根据所述每个数据串的含义标识,对所述数据文件进行解析。采用本发明,可以提高对数据文件进行解析处理的成功率。

Description

一种解析数据文件的方法、装置和系统
技术领域
本发明涉及数据处理领域,特别涉及一种解析数据文件的方法、装置和系统。
背景技术
随着CDN技术的不断发展,CDN系统提供的业务日渐复杂化、多样化,相应的,CDN系统在运行过程中产生的运行数据的种类也越来越多。
CDN系统中一般包含有数据采集设备,用于采集运行数据,并生成相应的数据文件,将数据文件发送给CDN系统中的数据处理设备。数据处理设备中一般预先存储有文件类型和解析格式的对应关系,这样,在数据处理设备接收到数据文件后,可以基于数据文件的文件类型,确定出相应的解析格式,之后则可以按照该解析格式对数据文件进行解析处理。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
技术人员需要预先定义各种文件类型对应的解析格式,当CDN系统每次扩充新的文件类型或者修改已有的文件类型的解析格式时,都需要在数据采集设备和数据处理设备处进行同步扩充或者对预先定义好的对应关系进行修改,而一旦出现忘记添加新的文件类型对应的解析格式,或者忘记修改旧的解析格式等情况,则无法对数据文件进行解析处理,这样,对数据文件进行解析处理的成功率较低。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种解析数据文件的方法、装置和系统。所述技术方案如下:
第一方面,提供了一种解析数据文件的方法,所述方法包括:
获取待发送的数据文件;
在所述数据文件中添加注释字段,所述注释字段包含所述数据文件中每个数据串的含义标识;
向接收端发送添加有所述注释字段的数据文件,以使所述接收端根据所述每个数据串的含义标识,对所述数据文件进行解析。
可选的,所述向接收端发送添加有所述注释字段的数据文件之前,还包括:
如果所述数据文件中的目标数据串包含多个数据段,则在所述多个数据段间添加分隔符,并将所述分隔符写入所述注释字段。
可选的,所述注释字段包含所述多个数据段中每个数据段的含义标识。
可选的,所述方法还包括:
当检测到对所述数据文件中的数据串的修改操作时,根据所述修改操作调整所述注释字段。
第二方面,提供了一种解析数据文件的方法,所述方法包括:
接收发送端发送的数据文件;
获取所述数据文件中由所述发送端添加的注释字段,所述注释字段包含所述数据文件中每个数据串的含义标识;
根据所述每个数据串的含义标识,对所述数据文件进行解析。
可选的,所述根据所述多个数据串的含义标识,对所述数据文件进行解析,包括:
根据本地预先存储的含义标识和解析格式的对应关系,以及所述每个数据串的含义标识,分别确定所述每个数据串的解析格式;
基于所述每个数据串的解析格式,对所述数据文件进行解析。
可选的,所述注释字段包括分隔符;
所述根据所述每个数据串的含义标识,对所述数据文件进行解析之前,还包括:
在所述数据文件中查找添加有所述分隔符的目标数据串,通过所述分隔符确定所述目标数据串包含的多个数据段。
可选的,所述注释字段包含所述多个数据段中每个数据段的含义标识;
所述根据所述每个数据串的含义标识,对所述数据文件进行解析,包括:
根据所述每个数据段的含义标识,对所述目标数据串进行解析。
第三方面,提供了一种解析数据文件的装置,所述装置包括:
获取模块,用于获取待发送的数据文件;
添加模块,用于在所述数据文件中添加注释字段,所述注释字段包含所述数据文件中每个数据串的含义标识;
发送模块,用于向接收端发送添加有所述注释字段的数据文件,以使所述接收端根据所述每个数据串的含义标识,对所述数据文件进行解析。
可选的,所述添加模块,还用于:
如果所述数据文件中的目标数据串包含多个数据段,则在所述多个数据段间添加分隔符,并将所述分隔符写入所述注释字段。
可选的,所述注释字段包含所述多个数据段中每个数据段的含义标识。
可选的,所述装置还包括:
调整模块,用于当检测到对所述数据文件中的数据串的修改操作时,根据所述修改操作调整所述注释字段。
第四方面,提供了一种解析数据文件的装置,所述装置包括:
接收模块,用于接收发送端发送的数据文件;
获取模块,用于获取所述数据文件中由所述发送端添加的注释字段,所述注释字段包含所述数据文件中每个数据串的含义标识;
解析模块,用于根据所述每个数据串的含义标识,对所述数据文件进行解析。
可选的,所述解析模块,具体用于:
根据本地预先存储的含义标识和解析格式的对应关系,以及所述每个数据串的含义标识,分别确定所述每个数据串的解析格式;
基于所述每个数据串的解析格式,对所述数据文件进行解析。
可选的,所述注释字段包括分隔符;
所述装置还包括:
确定模块,用于在所述数据文件中查找添加有所述分隔符的目标数据串,通过所述分隔符确定所述目标数据串包含的多个数据段。
可选的,所述注释字段包含所述多个数据段中每个数据段的含义标识;
所述解析模块,用于:
根据所述每个数据段的含义标识,对所述目标数据串进行解析。
第五方面,提供了一种解析数据文件的系统,所述系统包括发送端和接收端,其中:
所述发送端,用于获取待发送的数据文件,在所述数据文件中添加注释字段,所述注释字段包含所述数据文件中每个数据串的含义标识,向所述接收端发送添加有所述注释字段的数据文件;
所述接收端,用于接收所述发送端发送的数据文件,获取所述数据文件中添加的注释字段,根据所述每个数据串的含义标识,对所述数据文件进行解析。
第六方面,提供了一种发送端,所述发送端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至4任一所述的解析数据文件的方法。
第七方面,提供了一种接收端,所述接收端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求5至8任一所述的解析数据文件的方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例中,数据采集设备获取待发送的数据文件,在数据文件中添加注释字段,注释字段包含数据文件中每个数据串的含义标识,向数据处理设备发送添加有注释字段的数据文件,以使数据处理设备根据所述每个数据串的含义标识,对所述数据文件进行解析。这样,数据处理设备可以直接根据注释字段对数据文件进行解析,即使数据文件的文件类型发生了变化,只要在数据采集设备处相应的修改注释字段,数据处理设备即可成功对数据文件进行解析,从而可以提高对数据文件进行解析处理的成功率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种解析数据文件的场景示意图;
图2是本发明实施例提供的一种解析数据文件的方法流程图;
图3是本发明实施例提供的一种解析数据文件的装置结构示意图;
图4是本发明实施例提供的一种解析数据文件的装置结构示意图;
图5是本发明实施例提供的一种解析数据文件的装置结构示意图;
图6是本发明实施例提供的一种解析数据文件的装置结构示意图;
图7是本发明实施例提供的一种网络设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种解析数据文件的方法,该方法的执行主体为网络设备。其中,网络设备可以包括数据文件的发送端和接收端,数据文件的发送端可以是CDN系统中的数据采集设备,用于采集每个节点服务器上的运行数据,如节点服务器的带宽、工作时长,与节点服务器连接的客户端的IP地址、计费数据等等;数据文件的接收端可以是CDN系统中的数据处理设备,用于汇总CDN系统中所有数据采集设备发来的数据文件,并对这些数据文件进行解析处理,如图1所示。上述网络设备中可以包括处理器、存储器、收发器,处理器可以用于进行下述流程中的解析数据文件的处理,存储器可以用于存储下述处理过程中需要的数据以及产生的数据,收发器可以用于接收和发送下述处理过程中的相关数据。
下面将结合具体实施方式,对图2所示的处理流程进行详细的说明,内容可以如下:
步骤201,发送端获取待发送的数据文件。
在实施中,CDN系统中可以设置有用于采集各个节点服务器的运行数据的网络设备(即数据采集设备),一个网络设备可以服务于一个或多个节点服务器。节点服务器在运行的过程中,可以周期性地或者实时地将产生的运行数据发送给上述网络设备,这样,数据采集设备则可以将接收到的运行数据按照数据类型进行整理,从而数据采集设备可以获取到待发送的数据文件。或者,节点服务器可以先在本地对运行数据进行整理生成数据文件,然后再将数据文件发送至数据采集设备。可以理解,不同的运行数据,将生成不同的数据文件,其各自的格式也不尽相同。
步骤202,发送端在数据文件中添加注释字段。
其中,注释字段包含数据文件中每个数据串的含义标识。
在实施中,数据采集设备在获取到待发送的数据文件后,可以通过添加注释字段的方式对数据文件中每个数据串的含义进行标注,如数据文件中包括三个数据串,分别为“2017/7/10”、“192.168.1.1”、“www.zisj.com”,则可以在数据文件中添加注释字段Field:Date、IP、URL。此处,为了便于描述,引入数据组的概念,即数据文件由多个数据组组成,每个数据组包括多个数据串,故而,不难理解,每个数据组均可以对应一个注释字段。进一步的,如果多个连续的数据组的注释字段相同,则可以共同对应同一个注释字段,例如,第一个数据组包括三个数据串:“2017/7/10”、“192.168.1.1”、“www.zisj.com”,第二个数据组包括三个数据串:“2017/7/11”、“192.168.1.2”、“www.zisj.com”,第三个数据组包括三个数据串:“19:20”、“13811102932”、“200K”,则第一个数据组和第二个数据组可以共同对应注释字段Field1:Date、IP、URL,第三个数据组对应注释字段Field2:Time、Tel、Rom Size。值得一提的是,在一个数据组内,如果最后几个数据串对应的含义标识连续一致,则注释字段中对应该最后几个数据串可以只存在一个含义标识,例如,数据组包括5个数据串:“2017/7/10”、“192.168.1.1”、“www.zisj.com”、“www.sadq.com”、“www.qwrf.com”,则注释字段可以为Field:Date、IP、URL,即“URL”同时为“www.zisj.com”、“www.sadq.com”、“www.qwrf.com”三个数据串的含义标识。
为了便于理解,结合现有的数据文件组织格式,可以将数据组理解为数据文件中的行,数据串则可以理解为一行中的一列,则注释字段中包含数据文件的一行数据中每一列数据的含义标识。
在实施中,数据文件中的一个数据串可以由多个数据整合而成,即一个数据串包含多个数据段。可选的,一个数据串可以是多个数据的整合结果,相应的,在执行下一步骤(即步骤203)之前,还可以包括如下处理:如果数据文件中的目标数据串包含多个数据段,数据采集设备则在多个数据段间添加分隔符,并将分隔符写入注释字段。这样,如果数据文件中的目标数据串包含多个数据段,则可以在该目标数据串的多个数据段中添加分隔符,然后将该分隔符写入步骤202中已在数据文件中添加的注释字段中。例如,目标数据串为“192.168.1.1 1.88.96.127255.1.3.177”,其中实际包含了“192.168.1.1”、“1.88.96.127”、“255.1.3.177”三个数据段,则可以在三个数据段中添加分隔符“@”,进而,目标数据串变为“192.168.1.1@1.88.96.127@255.1.3.177”,然后可以将分隔符写入注释字段,即在注释字段中添加Field_Splice:@。需要说明的是,分隔符的类型可以任意选择,多个数据串中包含的分隔符的类型可以相同,也可以不同,同样,一个数据串中包含的多个分隔符的类型可以相同,也可以不同,只需将新的分隔符写入注释字段即可。例如数据组为“2017/7/10@2017/7/11”、“192.168.1.1@1.88.96.127¥255.1.3.177”、“www.zisj.com#www.sadq.com#www.qwrf.com”,则可以将分隔符写入注释字段Field_Splice:@、¥、#。
可选的,一个数据串中可以包含多个含义标识不同的数据段,相应的,注释字段包含多个数据段中每个数据段的含义标识。
在实施中,一个数据串可以由多个含义标识相同的数据段组成,也可以由多个含义标识不同的数据段组成。当多个数据段的含义标识相同时,注释字段中可以包含多个数据段的统一的含义标识,也可以包含多个数据段中每个数据段的含义标识,如数据串为“192.168.1.1@1.88.96.127@255.1.3.177”,则可以对应注释字段Field:IP,或者对应注释字段Field:IP、IP、IP;当多个数据段的含义标识不完全相同时,注释字段则包含多个数据段中每个数据段的含义标识,如数据串为“192.168.1.1@2017/7/10@19:20”,则可以对应注释字段Field:IP、Date、Time。
步骤203,发送端向接收端发送添加有注释字段的数据文件。
在实施中,数据采集设备在数据文件中添加完注释字段后,可以将该数据文件发送给数据处理设备。
可选的,当检测到对数据文件中的数据串的修改操作时,发送端根据修改操作调整注释字段。
在实施中,数据采集设备的技术人员可以对待发送的数据文件中的数据串进行修改操作,该修改操作可以是在数据文件中添加数据串,或者是删除数据文件中已有的数据串,或者是将数据文件中某个数据串合并至其它数据串中,或者将某个数据串拆分为多个数据串等等。当数据采集设备检测到对数据文件中的数据串进行的上述修改操作时,可以相应的根据修改操作调整注释字段。例如,修改操作为添加或删减某个数据串时,则可以在注释字段中的相应位置添加或者删减该数据串的含义标识,如果该数据串包括多个数据段,则可以同样添加或者删减相应的分隔符。
步骤204,接收端接收发送端发送的数据文件。
在实施中,在数据采集设备向数据处理设备发送添加有注释字段的数据文件后,数据处理设备可以相应的接收到该数据文件。
步骤205,接收端获取数据文件中由发送端添加的注释字段。
其中,注释字段包含数据文件中每个数据串的含义标识。
在实施中,数据处理设备接收到由发送端添加有注释字段的数据文件后,如果数据文件包括多个数据组,则可以对多个数据组逐个进行处理,具体的,可以读取数据文件中添加的某个数据组的注释字段,然后确定出该数据组中每个数据串的含义标识。如数据组中包含“2017/7/10”、“192.168.1.1”、“www.zisj.com”,注释字段为Field:Date、IP、URL,则可以确定“2017/7/10”的含义标识为“Date”,“192.168.1.1”的含义标识为“IP”,“www.zisj.com”的含义标识为“URL”。同理,基于步骤202连续多个数据组对应同一个注释字段的处理,如果数据处理设备在处理某个数据组时,未发现其单独对应一个注释字段,则将上一数据组的多个数据串的含义标识按顺序应用到该数据组的多个数据串。同样,如果注释字段中存在N个含义标识,而其对应的数据组包含N+X个数据串,则该数据组中最后X+1个数据串同时对应注释字段中的第N个含义标识。
可选的,基于上述注释字段包括分隔符的处理,在执行下一步骤(即步骤206)之前,可以有如下处理:接收端在数据文件中查找添加有分隔符的目标数据串,通过分隔符确定目标数据串包含的多个数据段。
在实施中,数据处理设备在获取数据文件中添加的注释字段后,如果该注释字段中包括分隔符,则可以在该注释字段对应的数据组中查找添加有分隔符的目标数据串,然后通过分隔符确定出目标数据串中包含的多个数据段。例如,目标数据串变为“192.168.1.1@1.88.96.127@255.1.3.177”,分隔符为“@”,则可以确定出“192.168.1.1”、“1.88.96.127”、“255.1.3.177”三个数据段。
步骤206,接收端根据每个数据串的含义标识,对数据文件进行解析。
在实施中,数据处理设备从数据文件中添加的注释字段中获取到每个数据串的含义标识后,可以根据该含义标识,对数据文件进行解析。本实施例中不对解析的顺序进行解析,可以是先解析同一数据组内的数据串、也可以先解析同一含义标识的数据串。
值得一提的是,数据处理设备接收到数据文件后,可以先检测该数据文件中是否添加有注释字段,如果是,则可以按照步骤201至步骤206的方法处理解析数据文件,如果否,则可以先获取数据文件的文件类型,然后根据本地预先存储的文件类型和解析格式的对应关系,确定数据文件的文件类型对应的解析格式,进而可以基于数据文件的解析格式,对数据文件进行解析。
可选的,可以按照预设解析格式对每个数据串进行解析,相应的,步骤206的处理如下:接收端根据本地预先存储的含义标识和解析格式的对应关系,以及每个数据串的含义标识,分别确定每个数据串的解析格式;基于每个数据串的解析格式,对数据文件进行解析。
在实施中,技术人员可以预先定义各种含义标识下数据串的解析格式,如含义标识为“Date”的数据串,则可以认为字符串中连续的4位数字代表年份,剩余的4位数字中前2位数字代表月份,后2位数字代表日期等。然后技术人员可以建立含义标识和解析格式的对应关系,并将该对应关系存储至数据处理设备中。这样,数据处理设备获取到数据文件中每个数据串的含义标识后,可以在本地预先存储的含义标识和解析格式的对应关系中,确定每个数据串的含义标识对应的解析格式。进而,数据处理设备可以基于每个数据串的解析格式,对数据文件进行解析。
可选的,基于上述注释字段包含多个数据段中每个数据段的含义标识的处理,步骤206可以包括如下处理:接收端根据每个数据段的含义标识,对目标数据串进行解析。
在实施中,数据处理设备确定了目标数据串包含的多个数据段后,可以在注释字段中查找该多个数据段中每个数据段的含义标识,具体的,可以先确定目标数据串所在的数据组,然后获取相应的注释字段,按照目标数据串在数据组中的顺序编号,确定其对应的含义标识,例如目标数据串是数据组中的第三个数据串,且前两个数据串仅包含一个数据段,且目标数据串中包含三个含义标识不同的数据段,则目标数据串对应有三个含义标识,即注释字段中第3个至第5个含义标识。对于多个数据段含义标识相同的情况,则需要由数据处理设备和数据采集设备预先约定多个数据段共同对应一个含义标识,或者每个数据段独自对应一个含义标识,进而再确定每个数据段的含义标识。最后,则可以根据确定出的每个数据段的含义标识,对目标数据串进行解析。
本发明实施例中,数据采集设备获取待发送的数据文件,在数据文件中添加注释字段,注释字段包含数据文件中每个数据串的含义标识,向数据处理设备发送添加有注释字段的数据文件,以使数据处理设备根据所述每个数据串的含义标识,对所述数据文件进行解析。这样,数据处理设备可以直接根据注释字段对数据文件进行解析,即使数据文件的文件类型发生了变化,只要在数据采集设备处相应的修改注释字段,数据处理设备即可成功对数据文件进行解析,从而可以提高对数据文件进行解析处理的成功率。
基于相同的技术构思,本发明实施例还提供了一种解析数据文件的装置,如图3所示,该装置包括:
获取模块301,用于获取待发送的数据文件;
添加模块302,用于在所述数据文件中添加注释字段,所述注释字段包含所述数据文件中每个数据串的含义标识;
发送模块303,用于向接收端发送添加有所述注释字段的数据文件,以使所述接收端根据所述每个数据串的含义标识,对所述数据文件进行解析。
可选的,所述添加模块302,还用于:
如果所述数据文件中的目标数据串包含多个数据段,则在所述多个数据段间添加分隔符,并将所述分隔符写入所述注释字段。
可选的,所述注释字段包含所述多个数据段中每个数据段的含义标识。
可选的,如图4所示,解析数据文件的装置还包括:
调整模块304,用于当检测到对所述数据文件中的数据串的修改操作时,根据所述修改操作调整所述注释字段。
基于相同的技术构思,本发明实施例还提供了一种解析数据文件的装置,如图5所示,该装置包括:
接收模块501,用于接收发送端发送的数据文件;
获取模块502,用于获取所述数据文件中由所述发送端添加的注释字段,所述注释字段包含所述数据文件中每个数据串的含义标识;
解析模块503,用于根据所述每个数据串的含义标识,对所述数据文件进行解析。
可选的,所述解析模块503,具体用于:
根据本地预先存储的含义标识和解析格式的对应关系,以及所述每个数据串的含义标识,分别确定所述每个数据串的解析格式;
基于所述每个数据串的解析格式,对所述数据文件进行解析。
可选的,所述注释字段包括分隔符;
如图6所示,解析数据文件的装置还包括:
确定模块504,用于在所述数据文件中查找添加有所述分隔符的目标数据串,通过所述分隔符确定所述目标数据串包含的多个数据段。
可选的,所述注释字段包含所述多个数据段中每个数据段的含义标识;
所述解析模块503,用于:
根据所述每个数据段的含义标识,对所述目标数据串进行解析。
本发明实施例中,数据采集设备获取待发送的数据文件,在数据文件中添加注释字段,注释字段包含数据文件中每个数据串的含义标识,向数据处理设备发送添加有注释字段的数据文件,以使数据处理设备根据所述每个数据串的含义标识,对所述数据文件进行解析。这样,数据处理设备可以直接根据注释字段对数据文件进行解析,即使数据文件的文件类型发生了变化,只要在数据采集设备处相应的修改注释字段,数据处理设备即可成功对数据文件进行解析,从而可以提高对数据文件进行解析处理的成功率。
需要说明的是:上述实施例提供的解析数据文件的装置在解析数据文件时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的解析数据文件的装置与解析数据文件的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于相同的技术构思,本发明实施例还提供了一种解析数据文件的系统,所述系统包括发送端和接收端,其中:
所述发送端,用于获取待发送的数据文件,在所述数据文件中添加注释字段,所述注释字段包含所述数据文件中每个数据串的含义标识,向所述接收端发送添加有所述注释字段的数据文件;
所述接收端,用于接收所述发送端发送的数据文件,获取所述数据文件中添加的注释字段,根据所述每个数据串的含义标识,对所述数据文件进行解析。
本发明实施例中,数据采集设备获取待发送的数据文件,在数据文件中添加注释字段,注释字段包含数据文件中每个数据串的含义标识,向数据处理设备发送添加有注释字段的数据文件,以使数据处理设备根据所述每个数据串的含义标识,对所述数据文件进行解析。这样,数据处理设备可以直接根据注释字段对数据文件进行解析,即使数据文件的文件类型发生了变化,只要在数据采集设备处相应的修改注释字段,数据处理设备即可成功对数据文件进行解析,从而可以提高对数据文件进行解析处理的成功率。
图7是本发明实施例提供的网络设备的结构示意图。该网络设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务端中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在网络设备700上执行存储介质730中的一系列指令操作。
网络设备700还可以包括一个或一个以上电源729,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,一个或一个以上键盘756,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
网络设备700可以包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行上述解析数据文件的指令。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (19)

1.一种解析数据文件的方法,其特征在于,所述方法包括:
获取待发送的数据文件;
在所述数据文件中添加注释字段,所述注释字段包含所述数据文件中每个数据串的含义标识;
向接收端发送添加有所述注释字段的数据文件,以使所述接收端根据所述每个数据串的含义标识,对所述数据文件进行解析;
其中,所述数据文件由多个数据组组成,每个数据组包括多个数据串,每个数据组对应一个注释字段;
如果多个连续的数据组的注释字段相同,则共同对应同一个注释字段;
在一个数据组内,如果最后几个数据串对应的含义标识连续一致,则注释字段中最后几个数据串对应一个含义标识。
2.根据权利要求1所述的方法,其特征在于,所述向接收端发送添加有所述注释字段的数据文件之前,还包括:
如果所述数据文件中的目标数据串包含多个数据段,则在所述多个数据段间添加分隔符,并将所述分隔符写入所述注释字段。
3.根据权利要求2所述的方法,其特征在于,所述注释字段包含所述多个数据段中每个数据段的含义标识。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当检测到对所述数据文件中的数据串的修改操作时,根据所述修改操作调整所述注释字段。
5.一种解析数据文件的方法,其特征在于,所述方法包括:
接收发送端发送的数据文件;
获取所述数据文件中由所述发送端添加的注释字段,所述注释字段包含所述数据文件中每个数据串的含义标识;
根据所述每个数据串的含义标识,对所述数据文件进行解析;
其中,如果数据文件包括多个数据组,则逐个读取每个所述数据组的注释字段,确定所述数据组中每个数据串的含义标识;
如果在处理目标数据组时,未发现所述目标数据组单独对应一个注释字段,则将上一数据组的多个数据串的含义标识按顺序应用到所述目标数据组的多个数据串;
如果注释字段中存在N个含义标识,对应的数据组包含N+X个数据串,则数据组中最后X+1个数据串同时对应注释字段中的第N个含义标识。
6.根据权利要求5所述的方法,其特征在于,所述根据所述多个数据串的含义标识,对所述数据文件进行解析,包括:
根据本地预先存储的含义标识和解析格式的对应关系,以及所述每个数据串的含义标识,分别确定所述每个数据串的解析格式;
基于所述每个数据串的解析格式,对所述数据文件进行解析。
7.根据权利要求5所述的方法,其特征在于,所述注释字段包括分隔符;
所述根据所述每个数据串的含义标识,对所述数据文件进行解析之前,还包括:
在所述数据文件中查找添加有所述分隔符的目标数据串,通过所述分隔符确定所述目标数据串包含的多个数据段。
8.根据权利要求7所述的方法,其特征在于,所述注释字段包含所述多个数据段中每个数据段的含义标识;
所述根据所述每个数据串的含义标识,对所述数据文件进行解析,包括:
根据所述每个数据段的含义标识,对所述目标数据串进行解析。
9.一种解析数据文件的装置,其特征在于,所述装置包括:
获取模块,用于获取待发送的数据文件;
添加模块,用于在所述数据文件中添加注释字段,所述注释字段包含所述数据文件中每个数据串的含义标识;
发送模块,用于向接收端发送添加有所述注释字段的数据文件,以使所述接收端根据所述每个数据串的含义标识,对所述数据文件进行解析;
其中,所述数据文件由多个数据组组成,每个数据组包括多个数据串,每个数据组对应一个注释字段;
如果多个连续的数据组的注释字段相同,则共同对应同一个注释字段;
在一个数据组内,如果最后几个数据串对应的含义标识连续一致,则注释字段中最后几个数据串对应一个含义标识。
10.根据权利要求9所述的装置,其特征在于,所述添加模块,还用于:
如果所述数据文件中的目标数据串包含多个数据段,则在所述多个数据段间添加分隔符,并将所述分隔符写入所述注释字段。
11.根据权利要求10所述的装置,其特征在于,所述注释字段包含所述多个数据段中每个数据段的含义标识。
12.根据权利要求9-11任一所述的装置,其特征在于,所述装置还包括:
调整模块,用于当检测到对所述数据文件中的数据串的修改操作时,根据所述修改操作调整所述注释字段。
13.一种解析数据文件的装置,其特征在于,所述装置包括:
接收模块,用于接收发送端发送的数据文件;
获取模块,用于获取所述数据文件中由所述发送端添加的注释字段,所述注释字段包含所述数据文件中每个数据串的含义标识;
解析模块,用于根据所述每个数据串的含义标识,对所述数据文件进行解析;
其中,如果数据文件包括多个数据组,则逐个读取每个所述数据组的注释字段,确定所述数据组中每个数据串的含义标识;
如果在处理目标数据组时,未发现所述目标数据组单独对应一个注释字段,则将上一数据组的多个数据串的含义标识按顺序应用到所述目标数据组的多个数据串;
如果注释字段中存在N个含义标识,对应的数据组包含N+X个数据串,则数据组中最后X+1个数据串同时对应注释字段中的第N个含义标识。
14.根据权利要求13所述的装置,其特征在于,所述解析模块,具体用于:
根据本地预先存储的含义标识和解析格式的对应关系,以及所述每个数据串的含义标识,分别确定所述每个数据串的解析格式;
基于所述每个数据串的解析格式,对所述数据文件进行解析。
15.根据权利要求13所述的装置,其特征在于,所述注释字段包括分隔符;
所述装置还包括:
确定模块,用于在所述数据文件中查找添加有所述分隔符的目标数据串,通过所述分隔符确定所述目标数据串包含的多个数据段。
16.根据权利要求13所述的装置,其特征在于,所述注释字段包含所述多个数据段中每个数据段的含义标识;
所述解析模块,用于:
根据所述每个数据段的含义标识,对所述目标数据串进行解析。
17.一种解析数据文件的系统,其特征在于,所述系统包括发送端和接收端,其中:
所述发送端,用于获取待发送的数据文件,在所述数据文件中添加注释字段,所述注释字段包含所述数据文件中每个数据串的含义标识,向所述接收端发送添加有所述注释字段的数据文件;
其中,所述数据文件由多个数据组组成,每个数据组包括多个数据串,每个数据组对应一个注释字段;
如果多个连续的数据组的注释字段相同,则共同对应同一个注释字段;
在一个数据组内,如果最后几个数据串对应的含义标识连续一致,则注释字段中最后几个数据串对应一个含义标识;
所述接收端,用于接收所述发送端发送的数据文件,获取所述数据文件中添加的注释字段,根据所述每个数据串的含义标识,对所述数据文件进行解析;
所述接收端,具体用于逐个读取每个所述数据组的注释字段,确定所述数据组中每个数据串的含义标识;
如果在处理目标数据组时,未发现所述目标数据组单独对应一个注释字段,则将上一数据组的多个数据串的含义标识按顺序应用到所述目标数据组的多个数据串;
如果注释字段中存在N个含义标识,对应的数据组包含N+X个数据串,则数据组中最后X+1个数据串同时对应注释字段中的第N个含义标识。
18.一种发送端,其特征在于,所述发送端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至4任一所述的解析数据文件的方法。
19.一种接收端,其特征在于,所述接收端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求5至8任一所述的解析数据文件的方法。
CN201711287705.6A 2017-12-07 2017-12-07 一种解析数据文件的方法、装置和系统 Expired - Fee Related CN107977440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711287705.6A CN107977440B (zh) 2017-12-07 2017-12-07 一种解析数据文件的方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711287705.6A CN107977440B (zh) 2017-12-07 2017-12-07 一种解析数据文件的方法、装置和系统

Publications (2)

Publication Number Publication Date
CN107977440A CN107977440A (zh) 2018-05-01
CN107977440B true CN107977440B (zh) 2020-11-27

Family

ID=62009621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711287705.6A Expired - Fee Related CN107977440B (zh) 2017-12-07 2017-12-07 一种解析数据文件的方法、装置和系统

Country Status (1)

Country Link
CN (1) CN107977440B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804585B (zh) * 2018-05-25 2021-11-02 网宿科技股份有限公司 一种cdn系统中的数据处理方法和装置
CN110825376B (zh) * 2018-08-07 2024-03-12 深圳Tcl数字技术有限公司 一种解析带注释json文件的方法、存储介质及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8051060B1 (en) * 2009-02-13 2011-11-01 At&T Intellectual Property I, L.P. Automatic detection of separators for compression
CN102968286A (zh) * 2011-09-01 2013-03-13 重庆重邮信科通信技术有限公司 一种数据传输跟踪方法、装置和系统
CN105574164A (zh) * 2015-12-16 2016-05-11 北京华傲达数据技术有限公司 Excel文档的数据解析方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7761459B1 (en) * 2002-10-15 2010-07-20 Ximpleware, Inc. Processing structured data
CN103294652B (zh) * 2012-02-27 2018-03-20 腾讯科技(深圳)有限公司 一种数据转换方法及系统
CN103455471B (zh) * 2012-06-01 2016-12-14 阿里巴巴集团控股有限公司 一种将文本解析成键值对的方法和装置
US20140279864A1 (en) * 2013-03-14 2014-09-18 Google Inc. Generating data records based on parsing
CN106201643B (zh) * 2016-07-14 2019-11-05 北京邮电大学 数据解析方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8051060B1 (en) * 2009-02-13 2011-11-01 At&T Intellectual Property I, L.P. Automatic detection of separators for compression
CN102968286A (zh) * 2011-09-01 2013-03-13 重庆重邮信科通信技术有限公司 一种数据传输跟踪方法、装置和系统
CN105574164A (zh) * 2015-12-16 2016-05-11 北京华傲达数据技术有限公司 Excel文档的数据解析方法及装置

Also Published As

Publication number Publication date
CN107977440A (zh) 2018-05-01

Similar Documents

Publication Publication Date Title
CN113067883B (zh) 数据传输方法、装置、计算机设备及存储介质
US10887171B2 (en) Routing configuration method of view files, storage medium, terminal device and apparatus
CN111683066B (zh) 异构系统集成方法、装置、计算机设备和存储介质
CN106997431B (zh) 一种数据处理方法及装置
CN102780619B (zh) 一种处理报文的方法及装置
CN102647414A (zh) 协议解析方法、设备及系统
CN104378234A (zh) 跨数据中心的数据传输处理方法及系统
CN101950312A (zh) 一种互联网网页内容解析方法
CN107977440B (zh) 一种解析数据文件的方法、装置和系统
CN109815112B (zh) 基于功能测试的数据调试方法、装置及终端设备
CN110460668B (zh) 一种文件上传方法、装置、计算机设备和存储介质
CN107277087B (zh) 数据处理方法及装置
CN112395307A (zh) 执行语句的方法、装置、服务器及存储介质
CN110309364B (zh) 一种信息抽取方法及装置
CN110442439B (zh) 任务进程处理方法、装置和计算机设备
CN111367916B (zh) 一种数据存储方法及装置
CN106250437A (zh) 一种电子监察前端数据采集方法及系统
CN107871021B (zh) 一种获得网页搜索关键字的标识特征的方法及装置
US20150088958A1 (en) Information Processing System and Distributed Processing Method
CN107977381B (zh) 数据配置方法、索引管理方法、相关装置以及计算设备
CN112003736B (zh) 一种多节点配置信息确定方法、装置及存储介质
CN101520861A (zh) 数据事件发送方法和装置以及事件处理系统
CN108874856A (zh) 一种页面生成系统、方法及服务器
CN112835901A (zh) 文件存储方法及装置、计算机设备、计算机可读存储介质
KR101650316B1 (ko) 분산 병렬 처리 기반의 html5 문서 수집 및 분석 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201127

CF01 Termination of patent right due to non-payment of annual fee