CN106649496A - 一种政务数据采集共享系统与方法 - Google Patents
一种政务数据采集共享系统与方法 Download PDFInfo
- Publication number
- CN106649496A CN106649496A CN201610885370.7A CN201610885370A CN106649496A CN 106649496 A CN106649496 A CN 106649496A CN 201610885370 A CN201610885370 A CN 201610885370A CN 106649496 A CN106649496 A CN 106649496A
- Authority
- CN
- China
- Prior art keywords
- data
- unit
- packet
- transmission
- transmission queue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/2871—Implementation details of single intermediate entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/50—Queue scheduling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/06—Notations for structuring of protocol data, e.g. abstract syntax notation one [ASN.1]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种政务数据采集系统,包括数据采集客户端、传输中间件和数据采集服务端,数据采集客户端设置有适配器、数据预处理单元、数据拆包单元和数据传输队列单元;数据采集服务端包括数据传输队列单元、数据组包单元、数据处理单元、数据分类单元和数据存储单元,其中,数据采集客户端采集的数据经传输中间件发送给数据采集服务端。本发明能够高效率的采集政务数据,可同时针对多种数据源的多种数据类型进行并发采集,并自动校验数据,生成数据的描述信息,打包存储转发,适合大规模进行数据采集。
Description
技术领域
本发明涉及数据采集领域,具体涉及一种政务数据采集系统及其方法。
背景技术
随着电子办公化的普及,各政府部门也加入了此行列。由于政府部门常常需要通过网络发布各种与人们日常生活息息相关的信息,因此,与政府部门相关的政务数据采集成为政府部门有效开展工作的重要工作。
目前,各级地方政府的数据不是统一开放的,政务数据的采集存在多源头、多类型和多渠道等问题,难以有效的进行政务数据的采集。
发明内容
针对上述技术问题,本发明提供一种能够有效进行政务数据采集的政务数据采集系统及其方法。
本发明采用的技术方案为:
本发明的一实施例提供一种政务数据采集系统,包括数据采集客户端、传输中间件和数据采集服务端,数据采集客户端设置有多个具有不同接入方式的适配器、数据预处理单元、数据拆包单元和第一数据传输队列单元;数据采集服务端包括第二数据传输队列单元、数据组包单元、数据处理单元、数据分类单元和数据存储单元,其中,多个适配器用于同时采集具有不同的数据传输协议的多种数据源,采集的数据源依次经过数据预处理单元、数据拆包单元和第一数据传输队列单元处理后,由传输中间件发送给数据采集服务端的第二数据传输队列单元,并依次通过数据组包单元、数据处理单元、数据分类单元和数据存储单元进行处理。
可选地,数据预处理单元用于过滤掉采集的数据源中的无效数据和脏数据并将有效数据进行缓存;数据拆包单元用于将经数据预处理单元处理后的数据按照预设拆包协议格式进行拆分,拆分成多个个体较小的的数据包,并记录整个数据包的描述信息以及每个拆分后小数据包的描述信息,最终将这些描述信息与拆分后的数据包一并发送到第一数据传输队列单元;第一数据传输队列单元用于将经数据拆包单元处理后的数据进行排队并发送到传输中间件。
可选地,整个数据包的描述信息包括数据标识、数据名称、数据内容描述、数据发布时间、数据所属分类信息、数据关键字信息、数据定义版本、数据更新版本、数据提供单位、数据提供机构信息和数据定义信息、唯一ID值和整个数据包的MD5值;小数据包的描述信息包括所属整个数据包的UUID值、小数据包的MD5值、小数据包所属整个数据包的顺序、小数据包的名称、小数据包的大小。
可选地,传输中间件通过多线程的异步非阻塞方式将数据采集客户端的第一数据传输队列单元中的数据包发往数据采集服务端的第二数据传输队列单元中。
可选地,第二数据传输队列单元用于接收由传输中间件传输过来的数据包;数据组包单元用于将第二数据传输队列单元接收的零散的数据包按照预设组包协议格式进行组装成原数据包;数据处理单元用于将数据组包单元组装的原数据包进行数据业务关联,形成价值数据;数据分类单元用于将经数据处理单元处理后的数据分为结构化数据、半结构化数据和非结构化数据;数据存储单元用于将不同类型的数据分类进行分布式异构存储,其中,结构化数据采用关系型数据库,半结构化数据采用Mongodb和NFS方式进行存储,非结构化数据采用Hadoop集群的方式进行存储。
本发明的另一实施例提供一种政务数据采集方法,包括以下步骤:
S100:数据采集客户端通过具有多种接入方式的适配器同时采集具有不同数据传输协议的多种数据源,并将采集的数据源依次经历数据预处理、数据拆包和数据传输队列,并将处理后的数据源发送给传输中间件发进行发送;S200:数据采集服务端接收传输中间件发送的数据源,并将接收的数据源依次经历数据传输队列、数据组包、数据处理、数据分类和数据存储。
可选地,数据预处理用于过滤掉采集的数据源中的无效数据和脏数据并将有效数据进行缓存;数据拆包用于将经数据预处理单元处理后的数据按照预设拆包协议格式进行拆分,拆分成多个个体较小的的数据包,并记录整个数据包的描述信息以及每个拆分后小数据包的描述信息,最终将这些描述信息与拆分后的数据包一并发送到数据传输队列单元;数据采集客户端的数据传输队列用于将经数据拆包单元处理后的数据进行排队并发送到传输中间件。
可选地,整个数据包的描述信息包括数据标识、数据名称、数据内容描述、数据发布时间、数据所属分类信息、数据关键字信息、数据定义版本、数据更新版本、数据提供单位、数据提供机构信息和数据定义信息、唯一ID值和整个数据包的MD5值;小数据包的描述信息包括所属整个数据包的UUID值、小数据包的MD5值、小数据包所属整个数据包的顺序、小数据包的名称、小数据包的大小。可选地,传输中间件通过多线程的异步非阻塞方式将数据采集客户端的数据传输队列中的数据包发往数据采集服务端的数据传输队列中。
可选地,数据采集服务端的数据传输队列用于接收由传输中间件传输过来的数据包;数据组包用于将数据采集服务端的数据传输队列接收的零散的数据包按照预设组包协议格式进行组装成原数据包;数据处理用于将经数据组包组装的原数据包进行数据业务关联,形成价值数据;数据分类用于将经数据处理后的数据分为结构化数据、半结构化数据和非结构化数据;数据存储用于将不同类型的数据分类进行分布式异构存储,其中,结构化数据采用关系型数据库,半结构化数据采用Mongodb和NFS方式进行存储,非结构化数据采用Hadoop集群的方式进行存储。
本发明提供的政务数据采集系统及其方法,能够高效率的采集政务数据,可同时针对多种数据源的多种数据类型进行并发采集,并自动校验数据,生成数据的描述信息,打包存储转发,适合大规模进行数据采集。
附图说明
图1为本发明实施例提供的政务数据采集系统的结构示意图。
图2为本发明实施例提供的政务数据采集方法的流程示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行描述。
【实施例1】政务数据采集系统
图1为本发明实施例提供的政务数据采集系统的结构示意图。如图1所示,本发明提供的数据采集系统包括数据采集客户端、传输中间件和数据采集服务端。数据采集客户端用于采集政务数据并对采集的处理进行预处理、拆包和排队,然后将拆分处理后的数据发送给传输中间件,传输中间件将数据发送给数据采集服务端,数据采集服务端将接收的数据进行排队、组包、处理、分类和存储。
具体地,数据采集客户端针对不同的数据传输协议,如Http、FTP、TCP/IP以及WebService等提供多个具有不同接入方式的适配器,并设置有数据预处理单元、数据拆包单元和数据传输队列单元。多个适配器中的每个适配器适用于采集一种数据传输协议的数据,因此,通过多个适配器进行并发同时采集,能够将不同渠道、不同类型的数据源采集到数据采集客户端中来,可通过网络爬虫来采集相关数据。数据预处理单元用于过滤掉采集的数据源中的无效数据和脏数据并将有效数据进行缓存,例如,可使用大数据算法,如使用多重插补、单重插补、随机森林和多元回归算法等,针对汇集的数据进行去除无效性、删除重复性、纠正错误性等“脏数据”等。数据拆包单元用于将经数据预处理单元处理后的数据按照预设拆包协议格式进行拆分,拆分成多个个体较小的的数据包,并记录整个数据包的描述信息以及每个拆分后小数据包的描述信息,最终将这些描述信息与拆分后的数据包一并发送到数据传输队列单元,例如,客户端在启动的时候通过配置项设置相应参数,如拆分小包大小、拆分小包名称细则、拆分小包的顺序等,拆包时可采用多线程技术对文件按配置参数中的小包大小进行二进制拆分,将拆分的小包按配置参数中的名称细则进行命名,并按配置参数中的顺序细则进行存储。整个数据包的描述信息可包括数据标识、数据名称、数据内容描述、数据发布时间、数据所属分类信息、数据关键字信息、数据定义版本、数据更新版本、数据提供单位、数据提供机构信息和数据定义信息,如数据名字规则、填写规则、数据文件类型和规格等,以及数据唯一Id值(采用UUID生成)、整个数据包的MD5值等。小数据包的描述信息包括所属整个数据包的UUID值、小包的MD5值、小包所属整个数据包的顺序(int值)、小包的名称、小包的大小等。数据传输队列单元用于将经数据拆包单元处理后的数据进行排队并发送到传输中间件。一般,数据传输队列按照时间顺序将拆分后的数据包进行发送,然而,数据传输队列也可根据接收int类型的优先级参数来按照优先级来发送数据。可通过Netty技术、非阻塞IO技术等将数据发送给传输中间件,但并不局限于此。
传输中间件可通过多线程的异步非阻塞方式将数据采集客户端的数据传输队列单元中的数据包发往数据采集服务端的数据传输队列单元中,并保证数据的唯一准确的发送,同时支持断点续传以及错误补传等功能。由于整个数据包的描述信息中存有整个数据包的MD5,如果数据采集服务端接收到的数据的MD5在服务端数据库中已存在,则数据不会再次接收;如果不存在,则通知数据采集客户端发送拆分后的小数据包,每个小数据包被数据采集服务端接收后都有各自的MD5校验,验证完整性,如果中途传输失败,则数据采集服务端会在数据库中记录标记,同时要求数据采集客户端重传些小数据包,并支持断点续传,直到所有小数据包都传输完成并校验通过,通过数据组包单元完成组包操作,形成整个数据包,进而保证了数据的为准确的发送。数据采集客户端发送的小数据包在数据采集服务端会进行临时存储,并且在传输结束或中断的时候数据采集服务端会在服务器记录传完的小数据包的大小,及传输校验标志。当校验失败后,数据采集服务端会通知数据采集客户端重传此小数据包,同时会将此小数据包的相关描述信息以及当前的大小传输到客户端,数据采集客户端通过描述信息定位到此小数据包,并跳过数据采集服务端传过来的字节数,继续传输。补发有两种方式,第一种为,数据采集服务端会定时轮循数据库中检验失败的小包然后发送给数据采集客户端,如果三次还没有成功则放弃此小包的再次传输;第二种方式为,数据采集客户端可以通过页面检索到失败的小数据包的相关信息,然后手动出发此小数据包的再次补发传输,进而实现支持断点续传以及错误补传的功能。
数据采集服务端可包括数据传输队列单元、数组组包单元、数据处理单元、数据分类单元和数据存储单元。数据传输队列单元用于接收由传输中间件传输过来的数据包。数据组包单元对应于数据采集客户端中的数据拆包单元,执行数据拆包的逆过程,用于将数据传输队列单元接收的零散的数据包按照预设组包协议格式进行组装成原数据包,例如,当所有小数据包传输按MD5校验成功后,根据每个小数据包所携带的描述信息中的所属整个数据包的顺序以二进制的方式通过IO流进行拼接。数据处理单元用于将数据组包单元组装的原数据包进行数据业务关联,形成价值数据,例如,针对整个数据包描述文件中的数据所属分类信息(指定了行业细分)、数据关键字信息、数据提供单位、数据提供机构等相应参数进行相关业务数据汇集,形成有价值的数据集合;数据分类单元用于将经数据处理单元处理后的数据分为结构化数据、半结构化数据和非结构化数据,例如,可通过手动操作来将数据划分为不同类型的数据,其中,非结构化数据是指没有固定结构的数据,例如,所有格式的办公文档、文本、图片、各类报表、图像和音频、视频信息;半结构化数据是指数据具有隐含结构但又不是以二维表之类的形式存在的,介于结构化和非结构化知识源之间的一种知识源,例如,存储员工的简历、类似XML、HTML、JSON等文件;结构化数据是指传统的关系数据模型、行数据,存储于数据库,可用二维表结构表示的数据,例如,存储于csv,excel的数据、二维表等。数据存储单元用于将不同类型的数据分类进行分布式异构存储,其中,结构化数据可采用关系型数据库,半结构化数据可采用Mongodb和NFS(Network File System:网络文件系统)方式进行存储,非结构化数据可采用Hadoop集群的方式进行存储,但并不局限于此。
在数据采集后,相关政务部门可通过发送相应的数据请求指令来从数据采集服务端的数据存储单元中获取相应的数据。
【实施例2】政务数据采集方法
图2为本发明实施例提供的政务数据采集方法的流程示意图。如图2所示,本发明的另一实施例提供一种政务数据采集方法,包括以下步骤:
S100:数据采集客户端通过具有多种接入方式的适配器同时采集具有不同数据传输协议的多种数据源,并将采集的数据源依次经历数据预处理、数据拆包和数据传输队列,并将处理后的数据源发送给传输中间件发进行发送。
在S100步骤中,针对不同的数据传输协议,如Http、FTP、TCP/IP以及WebService等提供多个具有不同接入方式的适配器,即每个适配器采集数据传输协议与其接入方式相适配的数据源,可通过网络爬虫来采集相关数据。数据预处理用于过滤掉采集的数据源中的无效数据和脏数据并将有效数据进行缓存;数据拆包用于将经数据预处理单元处理后的数据按照预设拆包协议格式进行拆分,拆分成多个个体较小的的数据包,并记录整个数据包的描述信息以及每个拆分后小数据包的描述信息,最终将这些描述信息与拆分后的数据包一并发送到数据传输队列单元,例如,客户端在启动的时候通过配置项设置相应参数,如拆分小包大小、拆分小包名称细则、拆分小包的顺序等,拆包时可采用多线程技术对文件按配置参数中的小包大小进行二进制拆分,将拆分的小包按配置参数中的名称细则进行命名,并按配置参数中的顺序细则进行存储。整个数据包的描述信息可包括数据标识、数据名称、数据内容描述、数据发布时间、数据所属分类信息、数据关键字信息、数据定义版本、数据更新版本、数据提供单位、数据提供机构信息和数据定义信息,如数据名字规则、填写规则、数据文件类型和规格等,以及数据唯一Id值(采用UUID生成)、整个数据包的MD5值等。小数据包的描述信息包括所属整个数据包的UUID值、小包的MD5值、小包所属整个数据包的顺序(int值)、小包的名称、小包的大小等。数据采集客户端的数据传输队列用于将经数据拆包单元处理后的数据进行排队并发送到传输中间件。一般,数据传输队列按照时间顺序将拆分后的数据包进行发送,然而,数据传输队列也可根据接收int类型的优先级参数来按照优先级来发送数据。可通过Netty技术、非阻塞IO技术等将数据发送给传输中间件,但并不局限于此。
传输中间件可通过多线程的异步非阻塞方式将数据采集客户端的数据传输队列中的数据包发往数据采集服务端的数据传输队列中。由于整个数据包的描述信息中存有整个数据包的MD5,如果数据采集服务端接收到的数据的MD5在服务端数据库中已存在,则数据不会再次接收;如果不存在,则通知数据采集客户端发送拆分后的小数据包,每个小数据包被数据采集服务端接收后都有各自的MD5校验,验证完整性,如果中途传输失败,则数据采集服务端会在数据库中记录标记,同时要求数据采集客户端重传些小数据包,并支持断点续传,直到所有小数据包都传输完成并校验通过,通过数据组包单元完成组包操作,形成整个数据包,进而保证了数据的为准确的发送。数据采集客户端发送的小数据包在数据采集服务端会进行临时存储,并且在传输结束或中断的时候数据采集服务端会在服务器记录传完的小数据包的大小,及传输校验标志。当校验失败后,数据采集服务端会通知数据采集客户端重传此小数据包,同时会将此小数据包的相关描述信息以及当前的大小传输到客户端,数据采集客户端通过描述信息定位到此小数据包,并跳过数据采集服务端传过来的字节数,继续传输。补发有两种方式,第一种为,数据采集服务端会定时轮循数据库中检验失败的小包然后发送给数据采集客户端,如果三次还没有成功则放弃此小包的再次传输;第二种方式为,数据采集客户端可以通过页面检索到失败的小数据包的相关信息,然后手动出发此小数据包的再次补发传输,进而实现支持断点续传以及错误补传的功能。
S200:数据采集服务端接收传输中间件发送的数据源,并将接收的数据源依次经历数据传输队列、数据组包、数据处理、数据分类和数据存储。
具体地,数据采集服务端的数据传输队列用于接收由传输中间件传输过来的数据包。数据组包对应于数据采集客户端中的数据拆包,执行数据拆包的逆过程,用于将数据传输队列接收的零散的数据包按照预设组包协议格式进行组装成原数据包,例如,当所有小数据包传输按MD5校验成功后,根据每个小数据包所携带的描述信息中的所属整个数据包的顺序以二进制的方式通过IO流进行拼接。数据处理用于将数据组包组装的原数据包进行数据业务关联,形成价值数据,例如,针对整个数据包描述文件中的数据所属分类信息(指定了行业细分)、数据关键字信息、数据提供单位、数据提供机构等相应参数进行相关业务数据汇集,形成有价值的数据集合。数据分类用于将经数据处理处理后的数据分为结构化数据、半结构化数据和非结构化数据,例如,可通过手动操作来将数据划分为不同类型的数据,其中,非结构化数据是指没有固定结构的数据,例如,所有格式的办公文档、文本、图片、各类报表、图像和音频、视频信息;半结构化数据是指数据具有隐含结构但又不是以二维表之类的形式存在的,介于结构化和非结构化知识源之间的一种知识源,例如,存储员工的简历、类似XML、HTML、JSON等文件;结构化数据是指传统的关系数据模型、行数据,存储于数据库,可用二维表结构表示的数据,例如,存储于csv,excel的数据、二维表等。数据存储用于将不同类型的数据分类进行分布式异构存储,其中,结构化数据可采用关系型数据库,半结构化数据可采用Mongodb和NFS方式进行存储,非结构化数据可采用Hadoop集群的方式进行存储,但并不局限于此。
在数据采集后,相关政务部门可通过发送相应的数据请求指令来从数据采集服务端中获取相应的数据。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种政务数据采集系统,其特征在于,包括数据采集客户端、传输中间件和数据采集服务端,数据采集客户端设置有多个具有不同接入方式的适配器、数据预处理单元、数据拆包单元和第一数据传输队列单元;数据采集服务端包括第二数据传输队列单元、数据组包单元、数据处理单元、数据分类单元和数据存储单元,其中,多个适配器用于同时采集具有不同的数据传输协议的多种数据源,采集的数据源依次经过数据预处理单元、数据拆包单元和第一数据传输队列单元处理后,由传输中间件发送给数据采集服务端的第二数据传输队列单元,并依次通过数据组包单元、数据处理单元、数据分类单元和数据存储单元进行处理。
2.根据权利要求1的政务数据采集系统,其特征在于,数据预处理单元用于过滤掉采集的数据源中的无效数据和脏数据并将有效数据进行缓存;
数据拆包单元用于将经数据预处理单元处理后的数据按照预设拆包格式协议进行拆分,拆分成多个个体较小的的数据包,并记录整个数据包的描述信息以及每个拆分后小数据包的描述信息,最终将这些描述信息与拆分后的数据包一并发送到第一数据传输队列单元;
第一数据传输队列单元用于将经数据拆包单元处理后的数据进行排队并发送到传输中间件。
3.根据权利要求2的政务数据采集系统,其特征在于,整个数据包的描述信息包括数据标识、数据名称、数据内容描述、数据发布时间、数据所属分类信息、数据关键字信息、数据定义版本、数据更新版本、数据提供单位、数据提供机构信息和数据定义信息、唯一ID值和整个数据包的MD5值;小数据包的描述信息包括所属整个数据包的UUID值、小数据包的MD5值、小数据包所属整个数据包的顺序、小数据包的名称、小数据包的大小。
4.根据权利要求1的政务数据采集系统,其特征在于,传输中间件通过多线程的异步非阻塞方式将数据采集客户端的第一数据传输队列单元中的数据包发往数据采集服务端的第二数据传输队列单元中。
5.根据权利要求1的政务数据采集系统,其特征在于,第二数据传输队列单元用于接收由传输中间件传输过来的数据包;
数据组包单元用于将第二数据传输队列单元接收的零散的数据包按照预设组包协议格式进行组装成原数据包;
数据处理单元用于将数据组包单元组装的原数据包进行数据业务关联,形成价值数据;
数据分类单元用于将经数据处理单元处理后的数据分为结构化数据、半结构化数据和非结构化数据;
数据存储单元用于将不同类型的数据分类进行分布式异构存储,其中,结构化数据采用关系型数据库,半结构化数据采用Mongodb和NFS方式进行存储,非结构化数据采用Hadoop集群的方式进行存储。
6.一种政务数据采集方法,其特征在于,包括以下步骤:
S100:数据采集客户端通过具有多种接入方式的适配器同时采集具有不同数据传输协议的多种数据源,并将采集的数据源依次经历数据预处理、数据拆包和数据传输队列,并将处理后的数据源发送给传输中间件发进行发送;
S200:数据采集服务端接收传输中间件发送的数据源,并将接收的数据源依次经历数据传输队列、数据组包、数据处理、数据分类和数据存储。
7.根据权利要求1的政务数据采集方法,其特征在于,数据预处理用于过滤掉采集的数据源中的无效数据和脏数据并将有效数据进行缓存;
数据拆包用于将经数据预处理单元处理后的数据按照预设拆包协议格式进行拆分,拆分成多个个体较小的的数据包,并记录整个数据包的描述信息以及每个拆分后小数据包的描述信息,最终将这些描述信息与拆分后的数据包一并发送到数据传输队列单元;
数据采集客户端的数据传输队列用于将经数据拆包单元处理后的数据进行排队并发送到传输中间件。
8.根据权利要求7的政务数据采集方法,其特征在于,
整个数据包的描述信息包括数据标识、数据名称、数据内容描述、数据发布时间、数据所属分类信息、数据关键字信息、数据定义版本、数据更新版本、数据提供单位、数据提供机构信息和数据定义信息、唯一ID值和整个数据包的MD5值;小数据包的描述信息包括所属整个数据包的UUID值、小数据包的MD5值、小数据包所属整个数据包的顺序、小数据包的名称、小数据包的大小。
9.根据权利要求6的政务数据采集方法,其特征在于,传输中间件通过多线程的异步非阻塞方式将数据采集客户端的数据传输队列中的数据包发往数据采集服务端的数据传输队列中。
10.根据权利要求6的政务数据采集方法,其特征在于,数据采集服务端的数据传输队列用于接收由传输中间件传输过来的数据包;
数据组包用于将数据采集服务端的数据传输队列接收的零散的数据包按照预设组包协议格式进行组装成原数据包;
数据处理用于将经数据组包组装的原数据包进行数据业务关联,形成价值数据;
数据分类用于将经数据处理后的数据分为结构化数据、半结构化数据和非结构化数据;
数据存储用于将不同类型的数据分类进行分布式异构存储,其中,结构化数据采用关系型数据库,半结构化数据采用Mongodb和NFS方式进行存储,非结构化数据采用Hadoop集群的方式进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610885370.7A CN106649496B (zh) | 2016-10-10 | 2016-10-10 | 一种政务数据采集共享系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610885370.7A CN106649496B (zh) | 2016-10-10 | 2016-10-10 | 一种政务数据采集共享系统与方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106649496A true CN106649496A (zh) | 2017-05-10 |
CN106649496B CN106649496B (zh) | 2020-03-17 |
Family
ID=58854785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610885370.7A Active CN106649496B (zh) | 2016-10-10 | 2016-10-10 | 一种政务数据采集共享系统与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649496B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491549A (zh) * | 2017-08-29 | 2017-12-19 | 云熠信息科技有限公司 | 一种数据处理方法及系统 |
CN109639708A (zh) * | 2018-12-28 | 2019-04-16 | 东莞见达信息技术有限公司 | 深度学习数据访问控制方法及装置 |
CN109815292A (zh) * | 2019-01-03 | 2019-05-28 | 广州中软信息技术有限公司 | 一种基于异步消息机制的涉税数据采集系统 |
CN109919746A (zh) * | 2019-02-01 | 2019-06-21 | 王亚萍 | 一种基于限定性税务业务类别的电子税务局数据预处理方法 |
CN110134674A (zh) * | 2019-05-22 | 2019-08-16 | 中国人民银行成都分行 | 一种货币信贷大数据监测分析系统 |
CN110489690A (zh) * | 2019-06-26 | 2019-11-22 | 中电万维信息技术有限责任公司 | 监控政务服务应用系统的方法、服务器、设备及存储介质 |
CN110868349A (zh) * | 2019-11-27 | 2020-03-06 | 河钢数字技术股份有限公司 | 物联网环境下分布式高并发数据采集与处理方法及系统 |
CN111291143A (zh) * | 2020-01-16 | 2020-06-16 | 深圳市华傲数据技术有限公司 | 网格数据采集方法以及系统 |
CN111414355A (zh) * | 2020-03-19 | 2020-07-14 | 中国能源建设集团广东省电力设计研究院有限公司 | 一种海上风电场数据监测存储系统及方法、装置 |
CN111460025A (zh) * | 2020-01-17 | 2020-07-28 | 华中科技大学 | 一种基于Labview的变量可调的数据采集方法和系统 |
CN111949612A (zh) * | 2020-07-31 | 2020-11-17 | 广西美立方工程咨询有限公司 | 基于hadoop的非结构化数据存储中间件系统以及其使用方法 |
CN112017766A (zh) * | 2020-08-26 | 2020-12-01 | 上海申挚医疗科技有限公司 | 能实现各医院数据连通的数据处理系统 |
CN112153148A (zh) * | 2020-09-27 | 2020-12-29 | 中国建设银行股份有限公司 | 基于消息接收端的消息堆积处理方法及装置 |
CN112422613A (zh) * | 2020-09-16 | 2021-02-26 | 北京中兵数字科技集团有限公司 | 数据处理方法、数据处理平台和计算机可读存储介质 |
CN113034326A (zh) * | 2021-03-09 | 2021-06-25 | 广东金赋科技股份有限公司 | 一种基于政务服务体系的管理平台 |
CN113595977A (zh) * | 2021-06-17 | 2021-11-02 | 国网上海能源互联网研究院有限公司 | 一种基于电力隔离装置的大数据云穿越方法及系统 |
CN115190036A (zh) * | 2022-06-02 | 2022-10-14 | 国能网信科技(北京)有限公司 | 一种实时数据汇聚的一致性校验方法及系统 |
CN115348333A (zh) * | 2022-08-16 | 2022-11-15 | 南方电网电力科技股份有限公司 | 基于udp双端通信交互的数据传输方法、系统及设备 |
CN116155844A (zh) * | 2023-04-21 | 2023-05-23 | 天津帕克耐科技有限公司 | 一种idc资源管理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120151318A1 (en) * | 2010-12-10 | 2012-06-14 | Jim Hays Construction and Consulting | Method and system for generating inspection data and using the inspection data for recording observations of an inspection site |
CN102523103A (zh) * | 2011-11-10 | 2012-06-27 | 浙江工业大学 | 一种工业监控网络数据采集结点 |
CN103400226A (zh) * | 2013-07-31 | 2013-11-20 | 湖南省烟草公司永州市公司 | 一种烟草行业信息安全运维一体化应用平台系统 |
CN105809606A (zh) * | 2016-03-08 | 2016-07-27 | 贵州省邮电规划设计院有限公司 | 大数据应用平台系统 |
-
2016
- 2016-10-10 CN CN201610885370.7A patent/CN106649496B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120151318A1 (en) * | 2010-12-10 | 2012-06-14 | Jim Hays Construction and Consulting | Method and system for generating inspection data and using the inspection data for recording observations of an inspection site |
CN102523103A (zh) * | 2011-11-10 | 2012-06-27 | 浙江工业大学 | 一种工业监控网络数据采集结点 |
CN103400226A (zh) * | 2013-07-31 | 2013-11-20 | 湖南省烟草公司永州市公司 | 一种烟草行业信息安全运维一体化应用平台系统 |
CN105809606A (zh) * | 2016-03-08 | 2016-07-27 | 贵州省邮电规划设计院有限公司 | 大数据应用平台系统 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491549A (zh) * | 2017-08-29 | 2017-12-19 | 云熠信息科技有限公司 | 一种数据处理方法及系统 |
CN109639708A (zh) * | 2018-12-28 | 2019-04-16 | 东莞见达信息技术有限公司 | 深度学习数据访问控制方法及装置 |
CN109639708B (zh) * | 2018-12-28 | 2022-03-18 | 东莞见达信息技术有限公司 | 深度学习数据访问控制方法及装置 |
CN109815292A (zh) * | 2019-01-03 | 2019-05-28 | 广州中软信息技术有限公司 | 一种基于异步消息机制的涉税数据采集系统 |
CN109919746A (zh) * | 2019-02-01 | 2019-06-21 | 王亚萍 | 一种基于限定性税务业务类别的电子税务局数据预处理方法 |
CN110134674A (zh) * | 2019-05-22 | 2019-08-16 | 中国人民银行成都分行 | 一种货币信贷大数据监测分析系统 |
CN110134674B (zh) * | 2019-05-22 | 2022-09-13 | 中国人民银行成都分行 | 一种货币信贷大数据监测分析系统 |
CN110489690A (zh) * | 2019-06-26 | 2019-11-22 | 中电万维信息技术有限责任公司 | 监控政务服务应用系统的方法、服务器、设备及存储介质 |
CN110489690B (zh) * | 2019-06-26 | 2022-10-25 | 中电万维信息技术有限责任公司 | 监控政务服务应用系统的方法、服务器、设备及存储介质 |
CN110868349B (zh) * | 2019-11-27 | 2021-07-09 | 河钢数字技术股份有限公司 | 物联网环境下分布式高并发数据采集与处理方法及系统 |
CN110868349A (zh) * | 2019-11-27 | 2020-03-06 | 河钢数字技术股份有限公司 | 物联网环境下分布式高并发数据采集与处理方法及系统 |
CN111291143A (zh) * | 2020-01-16 | 2020-06-16 | 深圳市华傲数据技术有限公司 | 网格数据采集方法以及系统 |
CN111460025A (zh) * | 2020-01-17 | 2020-07-28 | 华中科技大学 | 一种基于Labview的变量可调的数据采集方法和系统 |
CN111414355A (zh) * | 2020-03-19 | 2020-07-14 | 中国能源建设集团广东省电力设计研究院有限公司 | 一种海上风电场数据监测存储系统及方法、装置 |
CN111949612A (zh) * | 2020-07-31 | 2020-11-17 | 广西美立方工程咨询有限公司 | 基于hadoop的非结构化数据存储中间件系统以及其使用方法 |
CN111949612B (zh) * | 2020-07-31 | 2023-02-28 | 广西美立方工程咨询有限公司 | 基于hadoop的非结构化数据存储中间件系统以及其使用方法 |
CN112017766A (zh) * | 2020-08-26 | 2020-12-01 | 上海申挚医疗科技有限公司 | 能实现各医院数据连通的数据处理系统 |
CN112017766B (zh) * | 2020-08-26 | 2024-03-12 | 上海申挚医疗科技有限公司 | 能实现各医院数据连通的数据处理系统 |
CN112422613A (zh) * | 2020-09-16 | 2021-02-26 | 北京中兵数字科技集团有限公司 | 数据处理方法、数据处理平台和计算机可读存储介质 |
CN112422613B (zh) * | 2020-09-16 | 2022-02-01 | 北京中兵数字科技集团有限公司 | 数据处理方法、数据处理平台和计算机可读存储介质 |
CN112153148A (zh) * | 2020-09-27 | 2020-12-29 | 中国建设银行股份有限公司 | 基于消息接收端的消息堆积处理方法及装置 |
CN113034326B (zh) * | 2021-03-09 | 2023-12-15 | 广东金赋科技股份有限公司 | 一种基于政务服务体系的管理平台 |
CN113034326A (zh) * | 2021-03-09 | 2021-06-25 | 广东金赋科技股份有限公司 | 一种基于政务服务体系的管理平台 |
CN113595977A (zh) * | 2021-06-17 | 2021-11-02 | 国网上海能源互联网研究院有限公司 | 一种基于电力隔离装置的大数据云穿越方法及系统 |
CN115190036A (zh) * | 2022-06-02 | 2022-10-14 | 国能网信科技(北京)有限公司 | 一种实时数据汇聚的一致性校验方法及系统 |
CN115190036B (zh) * | 2022-06-02 | 2024-01-16 | 国能数智科技开发(北京)有限公司 | 一种实时数据汇聚的一致性校验方法及系统 |
CN115348333A (zh) * | 2022-08-16 | 2022-11-15 | 南方电网电力科技股份有限公司 | 基于udp双端通信交互的数据传输方法、系统及设备 |
CN116155844A (zh) * | 2023-04-21 | 2023-05-23 | 天津帕克耐科技有限公司 | 一种idc资源管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106649496B (zh) | 2020-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649496A (zh) | 一种政务数据采集共享系统与方法 | |
US11113353B1 (en) | Visual programming for iterative message processing system | |
US11194552B1 (en) | Assisted visual programming for iterative message processing system | |
US11615084B1 (en) | Unified data processing across streaming and indexed data sets | |
US10775976B1 (en) | Visual previews for programming an iterative publish-subscribe message processing system | |
CN105824744B (zh) | 一种基于b2b平台的实时日志采集分析方法 | |
CN104077402B (zh) | 数据处理方法和数据处理系统 | |
CN105608203B (zh) | 一种基于Hadoop平台的物联网日志处理方法和装置 | |
US20090327250A1 (en) | Method and apparatus for searching and resource discovery in a distributed enterprise system | |
CN103942210A (zh) | 海量日志信息的处理方法、装置与系统 | |
CN102770879A (zh) | 自动化包装系统中自动跟踪包装的方法和系统 | |
CN108023764A (zh) | 异常处理方法和装置 | |
CN102937984B (zh) | 一种收集数据的系统、客户端和方法 | |
US11450419B1 (en) | Medication security and healthcare privacy systems | |
CN110222253A (zh) | 一种数据采集方法、设备及计算机可读存储介质 | |
CN107911466A (zh) | 一种多层架构下应用关联方法 | |
CN110493053A (zh) | 融合内容分发网络的监控方法、装置、终端和存储介质 | |
CN106941458A (zh) | 数据传输的方法及装置 | |
US11334592B2 (en) | Self-orchestrated system for extraction, analysis, and presentation of entity data | |
US9003054B2 (en) | Compressing null columns in rows of the tabular data stream protocol | |
CN102055620B (zh) | 监控用户体验的方法和系统 | |
CN109783330A (zh) | 日志处理方法、显示方法和相关装置、系统 | |
CN110109890A (zh) | 非结构化数据处理方法和非结构化数据处理系统 | |
US11843622B1 (en) | Providing machine learning models for classifying domain names for malware detection | |
CN109902215A (zh) | 一种交易匹配的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 100070, No. 101-8, building 1, 31, zone 188, South Fourth Ring Road, Beijing, Fengtai District Patentee after: Guoxin Youyi Data Co., Ltd Address before: 100070 Beijing city Fengtai District South Fourth Ring Road No. 188 (ABP) B headquarters mansion 9 floor Patentee before: SIC YOUE DATA Co.,Ltd. |
|
CP03 | Change of name, title or address |