CN110990351A - 非结构化数据采集方法、装置、系统和计算机设备 - Google Patents

非结构化数据采集方法、装置、系统和计算机设备 Download PDF

Info

Publication number
CN110990351A
CN110990351A CN201911234297.7A CN201911234297A CN110990351A CN 110990351 A CN110990351 A CN 110990351A CN 201911234297 A CN201911234297 A CN 201911234297A CN 110990351 A CN110990351 A CN 110990351A
Authority
CN
China
Prior art keywords
acquisition
file server
target file
unstructured data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911234297.7A
Other languages
English (en)
Other versions
CN110990351B (zh
Inventor
张世良
唐良运
邹文景
甘莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Digital Platform Technology Guangdong Co ltd
Original Assignee
Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Power Grid Digital Grid Research Institute Co Ltd filed Critical Southern Power Grid Digital Grid Research Institute Co Ltd
Priority to CN201911234297.7A priority Critical patent/CN110990351B/zh
Publication of CN110990351A publication Critical patent/CN110990351A/zh
Application granted granted Critical
Publication of CN110990351B publication Critical patent/CN110990351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种非结构化数据采集方法、装置、系统、计算机设备和存储介质。所述方法包括:当检测到结构化数据发生变化时,获取采集任务;根据所述采集任务确定文件服务器类型;从多源端文件服务器中,确定与所述文件服务器类型对应的目标文件服务器;从变化后的结构化数据中,获取所述目标文件服务器的访问路径信息;基于所述访问路径信息,访问所述目标文件服务器,以采集所述目标文件服务器存储的非结构化数据。采用本方法能够实现了对于具有多种文件存储架构的多源端系统,自动识别文件服务器类型,进而采集非结构化数据,从而,解决了传统的非结构化数据采集工具适用性差、难以扩展的问题。

Description

非结构化数据采集方法、装置、系统和计算机设备
技术领域
本申请涉及数据处理技术领域,特别是涉及一种非结构化数据的采集方法、装置、系统、计算机设备和存储介质。
背景技术
非结构化数据是指无法用二维表结构化表示的一种数据类型,主要包括文本、音频、视频、图像、网页等。在企业信息化建设过程中产生的数据,一般能够采用关系型数据库处理的结构化数据约占企业数据总量的20%,而其他80%的非结构化数据无法完全采用关系型数据库来处理,且伴随信息化建设和多年信息管理平台运行积累,企业每年非结构化数据的增长量已达到PB级别,因此对企业非结构化数据进行统一采集存储、集中管理和深化应用,将会对企业经营管理产生巨大影响。
非结构化数据由于数据格式多样、没有固定的结构、存储分散,同时企业对非结构化数据管理及应用起步较晚,没有建立统一采集、存储及应用标准,常见的采集方式有:(1)对于类似SAN的直接挂载磁盘阵列的存储架构,通过开发采集客户端对源系统文件服务器中的文件进行自动获取文件变动信息,实现增量实时采集;(2)对于类似FTP、NAS等非直接挂载磁盘的存储架构,无法从操作系统或文件系统中自动获取文件变动信息,则通过远程全量采集,适用于存量非结构化数据一次的迁移。以上两种方式,均仅适用于数据管理用户对非结构化数据检索、应用要求不高的情况,局限性较大。
此外,企业中各类业务系统的文件存储架构多种多样,有FTP、SAN、NAS、CEPH等,常见的采集工具只能针对相对应的文件存储架构采集非结构化数据,适用性差、难以扩展。
发明内容
基于此,有必要针对上述采集工具只能针对相对应的文件存储架构采集非结构化数据,适用性差、难以扩展的技术问题,提供一种非结构化数据采集方法、装置、系统、计算机设备和存储介质。
一种非结构化数据采集方法,所述方法包括:
当检测到结构化数据发生变化时,获取采集任务;
从多源端文件服务器中,确定与所述采集任务对应的目标文件服务器;
从变化后的结构化数据中,获取所述目标文件服务器的访问路径信息;
基于所述访问路径信息,访问所述目标文件服务器,以采集所述目标文件服务器存储的非结构化数据。
在其中一个实施例中,在所述获取采集任务之前,还包括:
从消息中间件中获取所述结构化数据的变化信息;所述消息中间件,用于准实时采集所述结构化数据;
根据所述变化信息,检测所述结构化数据是否发生变化。
在其中一个实施例中,在所述从变化后的结构化数据中,获取所述目标文件服务器的访问路径信息之前,还包括:
向所述消息中间件发送数据获取请求,以使所述消息中间件根据所述数据获取请求,获取所述变化后的结构化数据;
接收所述消息中间件返回的所述变化后的结构化数据。
在其中一个实施例中,所述确定与所述采集任务对应的目标文件服务器,包括:
从任务策略数据库中获取与所述采集任务对应的采集策略;
根据所述采集策略确定所述目标文件服务器。
在其中一个实施例中,在所述基于所述访问路径信息,访问所述目标文件服务器,以采集所述目标文件服务器存储的非结构化数据之后,还包括:
通过索引服务器搜索所述非结构化数据是否存储在对象存储中;
若否,则将所述非结构化数据上传至所述对象存储中进行存储,并将所述非结构化数据对应的文件属性上传至所述索引服务器。
在其中一个实施例中,在所述基于所述访问路径信息,访问所述目标文件服务器,以采集所述目标文件服务器存储的非结构化数据之后,还包括:
当所述非结构化数据采集失败,且失败次数大于阈值时,重新获取所述采集任务。
一种非结构化数据采集装置,所述装置包括:
任务获取模块,用于当检测到结构化数据发生变化时,获取采集任务;
服务器确定模块,用于从多源端文件服务器中,确定与所述采集任务对应的目标文件服务器;
路径获取模块,用于从变化后的结构化数据中,获取所述目标文件服务器的访问路径信息;
数据采集模块,用于基于所述访问路径信息,访问所述目标文件服务器,以采集所述目标文件服务器存储的非结构化数据。
一种非结构化数据采集系统,所述系统包括:消息中间件、采集客户端和采集服务端;其中,
所述消息中间件,用于准实时采集结构化数据;
所述采集服务端,用于检测所述消息中间件采集的结构化数据是否发生变化,当所述结构化数据发生变化时,发送采集任务给所述采集客户端;
所述采集客户端,用于接收所述采集任务,根据所述采集任务从多源端文件服务器中,确定与所述采集任务对应的目标文件服务器,从变化后的结构化数据中,获取所述目标文件服务器的访问路径信息,基于所述访问路径信息,访问所述目标文件服务器,以采集所述目标文件服务器存储的非结构化数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
当检测到结构化数据发生变化时,获取采集任务;从多源端文件服务器中,确定与所述采集任务对应的目标文件服务器;从变化后的结构化数据中,获取所述目标文件服务器的访问路径信息;基于所述访问路径信息,访问所述目标文件服务器,以采集所述目标文件服务器存储的非结构化数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
当检测到结构化数据发生变化时,获取采集任务;从多源端文件服务器中,确定与所述采集任务对应的目标文件服务器;从变化后的结构化数据中,获取所述目标文件服务器的访问路径信息;基于所述访问路径信息,访问所述目标文件服务器,以采集所述目标文件服务器存储的非结构化数据。
上述非结构化数据采集方法、装置、系统、计算机设备和存储介质,通过当检测到结构化数据发生变化时,获取采集任务,进而根据采集任务确定文件服务器类型,实现在结构化数据发生变化时,可获知存储非结构化数据的文件服务器类型。进一步从多源端文件服务器中确定出目标文件服务器,并从变化后的结构化数据中,获取目标文件服务器的访问路径信息,进而完成对非结构化数据的采集。该方法实现了对于具有多种文件存储架构的多源端系统,自动识别文件服务器类型,进而采集非结构化数据,无需对不同的文件存储架构进行分类,采用不同的采集工具去采集,从而,解决了传统的非结构化数据采集工具适用性差、难以扩展的问题。
附图说明
图1为一个实施例中非结构化数据采集方法的应用场景图;
图2为一个实施例中非结构化数据采集方法的流程示意图;
图3为一个实施例中采集策略的示意图;
图4为一个实施例中应用非结构化数据采集方法的流程示意图;
图5为一个实施例中非结构化数据采集装置的结构框图;
图6为一个实施例中非结构化数据采集系统的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的非结构化数据采集方法,可以应用于如图1所示的应用环境中。其中,采集服务端102与采集客户端104通过网络进行通信,采集客户端104与文件服务器106通过网络进行通信。当采集服务端102检测到结构化数据发生变化时,生成采集任务,发送给采集客户端104,采集客户端104接收采集任务,并根据采集任务确定文件服务器类型,进一步从多源端文件服务器中,确定与该文件服务器类型对应的目标文件服务器。然后,采集客户端104先采集结构化数据,并从中获取目标文件服务器的访问路径信息,便可访问目标文件服务器,最后采集目标文件服务器中存储的非结构化数据。
在一个实施例中,如图2所示,提供了一种非结构化数据的采集方法,包括以下步骤:
步骤S202,当检测到结构化数据发生变化时,获取采集任务。
其中,结构化数据表示可以使用关系型数据库表示和存储,表现为二维形式的数据,例如数字、符号、日期、文件名等。
具体实现中,采集服务端102与消息中间件通过网络进行通信。采集服务端102可以定时从消息中间件中获取结构化数据的变化信息。当检测到结构化数据发生变化时,由采集服务端102生成采集任务,并将采集任务下发给采集客户端104。
实际应用中,可将业务系统源库中存储的结构化数据同步到数据中心贴源库中,OGG(Oracle Golden Gate,一种基于日志的结构化数据复制备份软件)利用抽取进程(Extract Process)在数据中心贴源库中读取日志,并对日志进行解析,提取其中结构化数据的变化信息,例如增、删、改等操作,再利用传输进程将提取的变化信息实时发送到如kafka等的消息中间件,消息中间件接收到传输过来的数据变化信息后,可以创建对应的SQL语句,执行并获取结构化数据,进而使采集服务端102可从消息中间件中获取结构化数据的变化信息。
步骤S204,从多源端文件服务器中,确定与采集任务对应的目标文件服务器。
其中,多源端文件服务器可以包括FTP文件服务器、NAS文件服务器、SAN文件服务器、CEPH文件服务器中的至少两种。
其中,文件服务器可用于存储非结构化数据,非结构化数据可以具有多种类型,例如:FTP、NAS、SAN、CEPH等。
具体实现中,采集任务携带有与采集策略相对应的ID标识,根据该ID标识可确定采集策略。采集客户端104在接收采集任务后,根据采集任务携带的ID标识,可从任务策略数据库中获取与采集任务对应的采集策略。其中,采集策略指采集前在web端配置的采集参数,包括文件服务器类型参数。进而根据采集策略便可确定文件服务器类型。如图3所示,图3为一个实施例中采集策略的示意图,从图中可知,采集策略包含主题名、消费用户组、数据源名称、消息中间件相关参数(kafka broker列表、kafkazookeeper列表)、文件服务器类型、IP、端口、用户名、密码、纠错次数等内容。由此,根据采集策略中的参数,即文件服务器类型,便可确定与采集任务对应的文件服务器类型。进而,在确定文件服务器类型后,采集客户端104便可从多源端文件服务器中,查找到与所确定的文件服务器类型对应的文件服务器,作为目标文件服务器。
步骤S206,从变化后的结构化数据中,获取目标文件服务器的访问路径信息。
具体实现中,采集客户端104在接收采集任务后,还需要获取变化的结构化数据。更具体地,采集客户端104首先向消息中间件发送数据获取请求,消息中间件接收该数据获取请求后,将变化后的结构化数据提取出来,返回给采集客户端104。根据变化后的结构化数据中的文件路径信息,便可确定非结构化数据的存储路径,且非结构化数据存储在文件服务器中,从而,从变化后的结构化数据中,便可获取目标文件服务器的访问路径信息。
步骤S208,基于访问路径信息,访问目标文件服务器,以采集目标文件服务器存储的非结构化数据。
其中,非结构化数据指无法用数据库二维逻辑表来表现的数据,例如所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等。而结构化数据是该非结构化数据的属性信息,根据结构化数据,可确定非结构化数据的存储路径。
具体实现中,采集客户端104在获取目标文件服务器的访问路径信息后,即确定了非结构化数据的存储路径。采集客户端104先连接多源端文件服务器106,进而基于该访问路径信息,访问目标文件服务器。其中,采集客户端104中配置有多种文件存储架构的jar包,根据不同的文件服务器类型,选择对应的jar包。进一步地,采集客户端104便可基于非结构化数据的存储路径,调用与文件服务器类型对应的jar包,根据jar包中的采集方法,采集目标文件服务器中存储的非结构化数据。
上述非结构化数据采集方法中,通过当检测到结构化数据发生变化时,获取采集任务,进而根据采集任务确定文件服务器类型,实现在结构化数据发生变化时,可获知存储非结构化数据的文件服务器类型。进一步从多源端文件服务器中确定出目标文件服务器,并从变化后的结构化数据中,获取目标文件服务器的访问路径信息,进而完成对非结构化数据的采集。该方法实现了对于具有多种文件存储架构的多源端系统,自动识别文件服务器类型,进而采集非结构化数据,无需对不同的文件存储架构进行分类,采用不同的采集工具去采集,从而,解决了传统的非结构化数据采集工具适用性差、难以扩展的问题。
在一个实施例中,在获取采集任务之前,还包括:从消息中间件中获取结构化数据的变化信息;消息中间件用于准实时采集结构化数据;根据变化信息,检测结构化数据是否发生变化。
其中,准实时表示允许超时,例如,准实时任务表示该任务可以超时执行,准实时采集则可表示消息中间件采集结构化数据时,可以超时进行采集。
其中,消息中间件中的消费后的消息位置称为偏移量,用来记录未被消费过的信息。例如,采集客户端104从消息中间件中读取结构化数据后,将提交最后一次读取结构化数据的位置,即偏移量。再次读取结构化数据时,便可从该偏移量处继续读取。
具体实现中,采集服务端102定时获取消息中间件中结构化数据的变化信息,确定产生变化信息后消息中间件中结构化数据的偏移量,记为变化后偏移量。以及,将采集客户端104上一次提交的偏移量,记为读取后偏移量,用于记录未被采集客户端104读取过的结构化数据。当变化后偏移量大于读取后偏移量时,判定消息中间件中的结构化数据发生变化,则采集服务端102下发采集任务给采集客户端104;当变化后偏移量未超过读取后偏移量时,判定消息中间件中的结构化数据未发生变化,则采集服务端102无需下发采集任务。
其中,采集服务端102与采集客户端104保持心跳连接,当有多个采集客户端104时,采集服务端102下发采集任务前,需监听采集客户端104的状态(如忙碌状态、空闲状态、离线状态),若采集客户端104处于空闲状态,则可发送采集任务;若处于忙碌状态或离线状态,则将采集任务发送给其它采集客户端。
本实施例中,通过结构化数据的变化信息,确定是否有增量的结构化数据,进而判断结构化数据是否发生变化,以便于采集服务端根据判断结果判断是否需要下发采集任务给采集客户端。
在一个实施例中,在从变化后的结构化数据中,获取目标文件服务器的访问路径信息之前,还包括:向消息中间件发送数据获取请求,以使消息中间件根据数据获取请求,获取变化后的结构化数据;接收消息中间件返回的变化后的结构化数据。
具体实现中,采集客户端104在获取采集任务后,根据采集任务向消息中间件发送数据获取请求,消息中间件接收该数据获取请求后,将变化后的结构化数据提取出来,返回给采集客户端104。采集客户端104接收消息中间件返回的变化后的结构化数据,进而从该变化后的结构化数据中,获取目标文件服务器的访问路径信息。
本实施例中,通过消息中间件实现了对结构化数据的准实时采集,然后采集客户端从消息中间件中获取变化后的结构化数据,以便于根据变化后的结构化数据,准实时的去采集非结构化数据,提高了非结构化数据的采集效率,从而,解决了传统方法中用ETL(Extract-Transform-Load,将数据从源端经过抽取、转换、加载至目的端的过程)对结构化数据进行定时采集,在完成结构化数据的采集后,再完成非结构化数据的采集,耗时较长,限制了企业对非结构化数据利用的问题。
在一个实施例中,确定与采集任务对应的目标文件服务器,包括:从任务策略数据库中获取与采集任务对应的采集策略;根据采集策略确定目标文件服务器。
其中,任务策略数据库用于存储多个采集策略,与不同的采集任务相对应。
其中,采集策略表示采集非结构化数据前在web配置的采集参数,包括文件服务器类型、IP、端口、用户名等参数。每种文件存储架构对应一种采集策略。
具体实现中,采集客户端104在获取采集任务后,根据采集任务所携带的与采集策略所匹配的ID标识,从任务策略数据库中获取与采集任务相对应的采集策略,进而根据采集策略中的文件服务器类型确定目标文件服务器。
本实施例中,通过采集任务所携带的标识获取采集策略,进而根据采集策略确定对应的目标文件服务器,便于采集客户端从目标文件服务器中,采集非结构化数据。
在一个实施例中,在基于访问路径信息,访问目标文件服务器,以采集目标文件服务器存储的非结构化数据之后,还包括:通过索引服务器搜索非结构化数据是否存储在对象存储中;若否,则将非结构化数据上传至对象存储中进行存储,并将非结构化数据对应的文件属性上传至索引服务器。
其中,对象存储表示一种网络存储架构,以一个弹性的可自定义的数据对象为基本的存储单元,基于数据对象的唯一ID索引,并形成虚拟文件组织结构。用于存储采集客户端所采集的非结构化数据。
具体实现中,采集客户端104采集非结构化数据后,先将非结构化数据的提取至本地服务器,然后通过索引服务器搜索该非结构化数据是否存储在对象存储中。若否,则调用S3接口将非结构化数据上传到对象存储;若该非结构化数据已存在于对象存储中,则无需再将该非结构化数据进行上传。并且,将非结构化数据对应的文件属性,例如文件名、文件类型、文件大小、文件标签等上传至索引服务器中。
实际应用中,采集客户端104通过HTTP消息与索引服务器,例如ES(Elasticsearch,分布式可扩展的实时搜索和分析引擎)进行通讯,进而通过索引服务器进行搜索。其中,若非结构化数据所在的文件容量较大,则可以分片将非结构化数据文件进行上传。
本实施例中,通过将非结构化数据上传至对象存储中进行存储的同时,将非结构化数据对应的文件属性上传至索引服务器中,实现了非结构化数据与其文件属性信息的融合,便于对非结构化数据进行检索和应用分析,从而,解决了传统采集方法中,只能获取文件物理信息,难以获取更多的文件属性来为非结构化数据标记业务标签的问题。
在一个实施例中,在基于访问路径信息,访问目标文件服务器,以采集目标文件服务器存储的非结构化数据之后,还包括:当非结构化数据采集失败,且失败次数大于阈值时,重新获取采集任务。
具体实现中,在采集客户端104采集非结构化数据时,将生成采集日志,采集任务完成后,采集客户端104将采集日志返回给采集服务端102。其中采集日志可包含采集主题、成功次数、失败次数、采集时间等信息。若在采集过程中,对非结构化数据采集失败,且采集失败次数超过预先设定的阈值时,将采集失败记录的详细信息写入采集失败文件中,以使采集服务端102重新下发采集任务。
本实施例中,通过为非结构化数据采集失败的阈值,当采集失败次数大于阈值时,将重新获取采集任务,减少非结构化数据的遗漏,保证了非结构化数据采集的全面性。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
为了更清晰阐明本申请实施例提供的技术方案,以下将结合图4对该方案进行说明,图4为一个应用实例中非结构化数据采集方法的流程示意图,该方法的具体流程如下:
在消息中间件上:
接收OGG发送的结构化数据的变化信息,并创建对应的SQL语句,执行并获取结构化数据,以实现结构化数据的采集;接收采集客户端的数据获取请求,将变化后的结构化数据提取出来返回给采集客户端。
在采集服务端上:
首先根据待采集源端的基础信息(IP端口、文件服务器类型等)创建不同的采集策略;以及,定时从消息中间件获取结构化数据的偏移信息和结构化数据的总数,当检测到结构化数据发生变化时,生成采集任务;以及,与采集客户端保持心跳连接,实时获取采集客户端的状态信息,当监测到采集客户端空闲时,将采集任务发送给采集客户端。
在采集客户端上:
接收采集任务,根据采集任务从任务策略数据库中获取采集策略,根据采集策略确定文件服务器类型;以及,发送数据获取请求给消息中间件,并接收消息中间件返回的结构化数据,进而从结构化数据中,获取目标文件服务器的访问路径信息,基于该访问路径信息,去多源端文件服务器中采集目标文件服务器存储的非结构化数据;当采集完成时,生成采集日志,并将采集日志返回给采集服务端;并将非结构化数据上传至对象存储,同时将非结构化数据的文件属性信息上传至索引服务器,实现非结构化数据与其文件属性信息的融合,便于之后进行检索和应用分析。
在一个实施例中,如图5所示,提供了一种非结构化数据采集装置,包括:任务获取模块502、服务器确定模块504、路径获取模块506和数据采集模块508,其中:
任务获取模块502,用于当检测到结构化数据发生变化时,获取采集任务;
服务器确定模块504,用于从多源端文件服务器中,确定与采集任务对应的目标文件服务器;
路径获取模块506,用于从变化后的结构化数据中,获取目标文件服务器的访问路径信息;
数据采集模块508,用于基于访问路径信息,访问目标文件服务器,以采集目标文件服务器存储的非结构化数据。
在一个实施例中,上述装置还包括:
信息获取模块,用于从消息中间件中获取结构化数据的变化信息;消息中间件,用于准实时采集结构化数据;
判断模块,用于根据变化信息,检测结构化数据是否发生变化。
在一个实施例中,上述装置还包括:
请求发送模块,用于向消息中间件发送数据获取请求,以使消息中间件根据所述数据获取请求,获取变化后的结构化数据;
数据接收模块,用于接收消息中间件返回的变化后的结构化数据。
在一个实施例中,上述服务器确定模块504具体用于:
从任务策略数据库中获取与采集任务对应的采集策略;
根据采集策略确定目标文件服务器。
在一个实施例中,上述装置还包括:
搜索模块,用于通过索引服务器搜索非结构化数据是否存储在对象存储中;
存储模块,用于未搜索到时,将非结构化数据上传至对象存储中进行存储,并将非结构化数据对应的文件属性上传至索引服务器。
在一个实施例中,上述装置还包括:
任务重新获取模块,用于当非结构化数据采集失败,且失败次数大于阈值时,重新获取采集任务。
需要说明的是,本申请的非结构化数据采集装置与本申请的非结构化数据采集方法一一对应,在上述非结构化数据采集方法的实施例阐述的技术特征及其有益效果均适用于非结构化数据采集装置的实施例中,具体内容可参见本申请方法实施例中的叙述,此处不再赘述,特此声明。
此外,上述非结构化数据采集装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图6所示,提供了一种非结构化数据采集系统,包括:消息中间件602、采集服务端604和采集客户端606,其中:
消息中间件602,用于准实时采集结构化数据;
采集服务端604,用于检测消息中间件602采集的结构化数据是否发生变化,当结构化数据发生变化时,发送采集任务给采集客户端606;
采集客户端606,用于接收采集任务,根据采集任务,从多源端文件服务器中,确定对应的目标文件服务器,从变化后的结构化数据中,获取目标文件服务器的访问路径信息,基于访问路径信息,访问目标文件服务器,以采集目标文件服务器存储的非结构化数据。
上述提供的非结构化数据采集系统可用于执行上述任意实施例提供的非结构化数据采集方法,具备相应的功能和有益效果。
关于非结构化数据采集系统的具体限定可以参见上文中对于非结构化数据采集方法的限定,在此不再赘述。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储非结构化数据采集过程中产生的数据。该计算机设备的网络接口用于与外部的终端或其他服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种非结构化数据采集方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
当检测到结构化数据发生变化时,获取采集任务;
从多源端文件服务器中,确定与采集任务对应的目标文件服务器;
从变化后的结构化数据中,获取目标文件服务器的访问路径信息;
基于访问路径信息,访问目标文件服务器,以采集目标文件服务器存储的非结构化数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从消息中间件中获取结构化数据的变化信息;消息中间件用于准实时采集结构化数据;根据变化信息,检测结构化数据是否发生变化。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:向消息中间件发送数据获取请求,以使消息中间件根据所述数据获取请求,获取变化后的结构化数据;接收消息中间件返回的变化后的结构化数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从任务策略数据库中获取与采集任务对应的采集策略;根据采集策略确定目标文件服务器。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过索引服务器搜索非结构化数据是否存储在对象存储中;若否,则将非结构化数据上传至对象存储中进行存储,并将非结构化数据对应的文件属性上传至索引服务器。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当非结构化数据采集失败,且失败次数大于阈值时,重新获取采集任务。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
当检测到结构化数据发生变化时,获取采集任务;
从多源端文件服务器中,确定与采集任务对应的目标文件服务器;
从变化后的结构化数据中,获取目标文件服务器的访问路径信息;
基于访问路径信息,访问目标文件服务器,以采集目标文件服务器存储的非结构化数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从消息中间件中获取结构化数据的变化信息;消息中间件用于准实时采集结构化数据;根据变化信息,检测结构化数据是否发生变化。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:向消息中间件发送数据获取请求,以使消息中间件根据所述数据获取请求,获取变化后的结构化数据;接收消息中间件返回的变化后的结构化数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从任务策略数据库中获取与采集任务对应的采集策略;根据采集策略确定目标文件服务器。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过索引服务器搜索非结构化数据是否存储在对象存储中;若否,则将非结构化数据上传至对象存储中进行存储,并将非结构化数据对应的文件属性上传至索引服务器。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当非结构化数据采集失败,且失败次数大于阈值时,重新获取采集任务。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请发明构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种非结构化数据采集方法,其特征在于,所述方法包括:
当检测到结构化数据发生变化时,获取采集任务;
从多源端文件服务器中,确定与所述采集任务对应的目标文件服务器;
从变化后的结构化数据中,获取所述目标文件服务器的访问路径信息;
基于所述访问路径信息,访问所述目标文件服务器,以采集所述目标文件服务器存储的非结构化数据。
2.根据权利要求1所述的方法,其特征在于,在所述获取采集任务之前,还包括:
从消息中间件中获取所述结构化数据的变化信息;所述消息中间件用于准实时采集所述结构化数据;
根据所述变化信息,检测所述结构化数据是否发生变化。
3.根据权利要求1所述的方法,其特征在于,在所述从变化后的结构化数据中,获取所述目标文件服务器的访问路径信息之前,还包括:
向所述消息中间件发送数据获取请求,以使所述消息中间件根据所述数据获取请求,获取所述变化后的结构化数据;
接收所述消息中间件返回的所述变化后的结构化数据。
4.根据权利要求1所述的方法,其特征在于,所述确定与所述采集任务对应的目标文件服务器,包括:
从任务策略数据库中获取与所述采集任务对应的采集策略;
根据所述采集策略确定所述目标文件服务器。
5.根据权利要求1所述的方法,其特征在于,在所述基于所述访问路径信息,访问所述目标文件服务器,以采集所述目标文件服务器存储的非结构化数据之后,还包括:
通过索引服务器搜索所述非结构化数据是否存储在对象存储中;
若否,则将所述非结构化数据上传至所述对象存储中进行存储,并将所述非结构化数据对应的文件属性上传至所述索引服务器。
6.根据权利要求1所述的方法,其特征在于,在所述基于所述访问路径信息,访问所述目标文件服务器,以采集所述目标文件服务器存储的非结构化数据之后,还包括:
当所述非结构化数据采集失败,且失败次数大于阈值时,重新获取所述采集任务。
7.一种非结构化数据采集装置,其特征在于,所述装置包括:
任务获取模块,用于当检测到结构化数据发生变化时,获取采集任务;
服务器确定模块,用于从多源端文件服务器中,确定与所述采集任务对应的目标文件服务器;
路径获取模块,用于从变化后的结构化数据中,获取所述目标文件服务器的访问路径信息;
数据采集模块,用于基于所述访问路径信息,访问所述目标文件服务器,以采集所述目标文件服务器存储的非结构化数据。
8.一种非结构化数据采集系统,其特征在于,所述系统包括:消息中间件、采集客户端和采集服务端;其中,
所述消息中间件,用于准实时采集结构化数据;
所述采集服务端,用于检测所述消息中间件采集的结构化数据是否发生变化,当所述结构化数据发生变化时,发送采集任务给所述采集客户端;
所述采集客户端,用于接收所述采集任务,根据所述采集任务从多源端文件服务器中,确定对应的目标文件服务器,从变化后的结构化数据中,获取所述目标文件服务器的访问路径信息,基于所述访问路径信息,访问所述目标文件服务器,以采集所述目标文件服务器存储的非结构化数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201911234297.7A 2019-12-05 2019-12-05 非结构化数据采集方法、装置、系统和计算机设备 Active CN110990351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911234297.7A CN110990351B (zh) 2019-12-05 2019-12-05 非结构化数据采集方法、装置、系统和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911234297.7A CN110990351B (zh) 2019-12-05 2019-12-05 非结构化数据采集方法、装置、系统和计算机设备

Publications (2)

Publication Number Publication Date
CN110990351A true CN110990351A (zh) 2020-04-10
CN110990351B CN110990351B (zh) 2020-09-04

Family

ID=70090350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911234297.7A Active CN110990351B (zh) 2019-12-05 2019-12-05 非结构化数据采集方法、装置、系统和计算机设备

Country Status (1)

Country Link
CN (1) CN110990351B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695000A (zh) * 2020-06-16 2020-09-22 山东蓝海领航大数据发展有限公司 一种多源大数据加载方法及系统
CN111858479A (zh) * 2020-07-29 2020-10-30 湖南泛联新安信息科技有限公司 一种基于目标装备的软件样本便携式采集方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013086113A2 (en) * 2011-12-09 2013-06-13 Tiversa Ip, Inc. System for forensic analysis of search terms
CN105956932A (zh) * 2016-04-29 2016-09-21 中国南方电网有限责任公司电网技术研究中心 配用电数据融合方法和系统
CN106992518A (zh) * 2017-05-02 2017-07-28 华北电力大学 基于态势感知的电网智能控制方法及监控终端系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013086113A2 (en) * 2011-12-09 2013-06-13 Tiversa Ip, Inc. System for forensic analysis of search terms
CN105956932A (zh) * 2016-04-29 2016-09-21 中国南方电网有限责任公司电网技术研究中心 配用电数据融合方法和系统
CN106992518A (zh) * 2017-05-02 2017-07-28 华北电力大学 基于态势感知的电网智能控制方法及监控终端系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695000A (zh) * 2020-06-16 2020-09-22 山东蓝海领航大数据发展有限公司 一种多源大数据加载方法及系统
CN111858479A (zh) * 2020-07-29 2020-10-30 湖南泛联新安信息科技有限公司 一种基于目标装备的软件样本便携式采集方法

Also Published As

Publication number Publication date
CN110990351B (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN109408746B (zh) 画像信息查询方法、装置、计算机设备和存储介质
US7809910B2 (en) Backup archive management
EP2649750B1 (en) Providing transparent failover in a file system
US11263194B2 (en) File block addressing for backups
CN105824744A (zh) 一种基于b2b平台的实时日志采集分析方法
EP3862883B1 (en) Data backup method and apparatus, and system
CN104679772A (zh) 分布式数据仓库中删除文件的方法、装置、设备及系统
CN110990351B (zh) 非结构化数据采集方法、装置、系统和计算机设备
BRPI0714328A2 (pt) processamento de dados atravÉs de bancos de dados muito grandes
CN101208665A (zh) 以可重复方式遍历数据
CN106980699A (zh) 一种数据处理平台和系统
US20190087437A1 (en) Scheduling database compaction in ip drives
CN112015820A (zh) 分布式图数据库实现的方法、系统、电子装置和存储介质
US20110302138A1 (en) Network aware storage device
US20180032567A1 (en) Method and device for processing data blocks in a distributed database
US9069681B1 (en) Real-time log joining on a continuous stream of events that are approximately ordered
US10133820B2 (en) Techniques for performing intelligent content indexing
CN1963821A (zh) 一种实现数据库访问的方法、系统和装置
CN111078975B (zh) 一种多节点增量式数据采集系统及采集方法
US9626378B2 (en) Method for handling requests in a storage system and a storage node for a storage system
JP2023531751A (ja) 車載データ記憶方法およびシステム
CN105245624B (zh) 一种云存储文件系统
US9852031B2 (en) Computer system and method of identifying a failure
CN115454773A (zh) 数据采集方法、装置、电子设备和存储介质
EP4325365A1 (en) Monitoring energy consumption associated with users of a distributed computing system using tracing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230802

Address after: 518000 building 501, 502, 601, 602, building D, wisdom Plaza, Qiaoxiang Road, Gaofa community, Shahe street, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: China Southern Power Grid Digital Platform Technology (Guangdong) Co.,Ltd.

Address before: Room 1301, Chengtou building, No. 106, Fengze East Road, Nansha District, Guangzhou City, Guangdong Province

Patentee before: Southern Power Grid Digital Grid Research Institute Co.,Ltd.

TR01 Transfer of patent right