CN114090673A - 一种多数据源的数据处理方法、设备及存储介质 - Google Patents

一种多数据源的数据处理方法、设备及存储介质 Download PDF

Info

Publication number
CN114090673A
CN114090673A CN202111399623.7A CN202111399623A CN114090673A CN 114090673 A CN114090673 A CN 114090673A CN 202111399623 A CN202111399623 A CN 202111399623A CN 114090673 A CN114090673 A CN 114090673A
Authority
CN
China
Prior art keywords
data
extraction
content
preset
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111399623.7A
Other languages
English (en)
Inventor
孙强
王金国
陈钰锴
张雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ZHONGFU TAIHE TECHNOLOGY DEVELOPMENT CO LTD
Nanjing Zhongfu Information Technology Co Ltd
Zhongfu Information Co Ltd
Zhongfu Safety Technology Co Ltd
Original Assignee
BEIJING ZHONGFU TAIHE TECHNOLOGY DEVELOPMENT CO LTD
Nanjing Zhongfu Information Technology Co Ltd
Zhongfu Information Co Ltd
Zhongfu Safety Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING ZHONGFU TAIHE TECHNOLOGY DEVELOPMENT CO LTD, Nanjing Zhongfu Information Technology Co Ltd, Zhongfu Information Co Ltd, Zhongfu Safety Technology Co Ltd filed Critical BEIJING ZHONGFU TAIHE TECHNOLOGY DEVELOPMENT CO LTD
Priority to CN202111399623.7A priority Critical patent/CN114090673A/zh
Publication of CN114090673A publication Critical patent/CN114090673A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种多数据源的数据处理方法、设备及存储介质,涉及数据处理技术领域。该数据处理方法包括:根据预设数据提取策略以及数据源的数据库类型,对数据源进行内容提取,获取提取数据;根据提取数据的数据类型以及预设过滤策略,获取过滤后的数据;采用预设分析策略,对过滤后的数据进行分析匹配,获取符合预设分析策略要求的内容并进行存储。从而提高了数据处理精度,降低了服务器的消耗。

Description

一种多数据源的数据处理方法、设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种多数据源的数据处理方法、设备及存储介质。
背景技术
随着大数据时代的到来,数据中往往存在着大量可用的信息,这些大量可用的信息都需要我们从数据中去提取并归档,以便于我们能获得数据中有用的内容。
现有的数据处理中,有很多的数据ETL(extract transform load,抽取、转换、加载)工具,实现的方式也是各种各样。但是由于数据源的种类、版本以及实现方式的都各不相同,导致在数据提取转换的过程中,有用数据可能无法被更好地保留,而数据中很多并没有实际作用的数据却被保留下来。
可见,现有的处理方法中,数据处理精准度降低,且大量的无价值数据将给服务器带来更多的消耗。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种多数据源的数据处理方法、设备及存储介质,以解决现有技术中数据处理精准度降低,且大量的无价值数据将给服务器带来更多的消耗等问题。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供一种多数据源的数据处理方法包括:
根据预设数据提取策略以及数据源的数据库类型,对数据源进行内容提取,获取提取数据;
根据所述提取数据的数据类型以及预设过滤策略,获取过滤后的数据;
采用预设分析策略,对所述过滤后的数据进行分析匹配,获取符合所述预设分析策略要求的内容并进行存储。
可选地,所述根据预设数据提取策略以及数据源的数据库类型,对数据源进行内容提取,获取提取数据,包括:
若所述数据源为关系型数据库,对所述数据源中的多张表进行切分,得到切分数据;
若所述数据源为非关系型数据库,对所述数据源中的每张表中的内容进行切分,得到切分数据;
对每一份所述切分数据进行内容提取,得到所述提取数据。
可选地,所述对每一份所述切分数据进行内容提取,得到所述提取数据,包括:
每次对一份所述切分数据进行内容提取后,获取并保存每份所述切分数据对应的数据信息;
若内容提取中断,则根据已保存的数据信息,继续执行内容提取,直至所有所述切分数据提取完成,获取所有所述切分数据对应的提取数据。
可选地,所述若内容提取中断,则根据已保存的提取信息,继续执行内容提取,直至所有所述切分数据提取完成,获取所有切分数据对应的提取数据,包括:
若所述数据源为关系型数据库,当所述内容提取中断时,根据中断表的位置信息继续执行内容提取,直至所有所述切分数据提取完成,获取所有所述切分数据对应的提取数据,其中,所述中断表的位置信息用于记录上次提取的位置;
若所述数据源为非关系型数据库,根据所述中断表的主键继续执行内容提取,直至所有所述切分数据提取完成,获取所有所述切分数据对应的提取数据,其中,所述中断表中的主键用于记录上次提取的位置。
可选地,所述数据类型包括:文本类型或文件类型;
所述文本类型对应的所述预设过滤策略包括:根据指定字段过滤;
所述文件类型对应的所述预设过滤策略包括下述任一种:根据文件大小进行过滤、根据文件格式进行过滤、根据存储时间进行过滤。
可选地,所述过滤后的数据包括:文本类型或文件类型;
所述采用预设分析策略,对所述过滤后的数据进行分析匹配,获取符合所述预设分析策略要求的内容并进行存储,包括:
若所述数据源为文本类型,根据所述过滤后的数据中的字段匹配所述预设分析策略中的关键词,获取符合所述预设分析策略要求的内容并进行存储;
若所述数据源为文件类型,提取所述文件类型的所述过滤后的数据对应的字段,匹配所述预设分析策略中的关键词,获取符合所述预设分析策略要求的内容并进行存储。
可选地,在所述根据预设数据提取策略以及数据源的数据库类型,对数据源进行内容提取,获取提取数据,还包括:
获取多个所述数据源中文件数据对应的二进制数据,以及多个所述数据源中文本数据对应的字符数据。
第二方面,本申请实施例提供一种多数据源的数据处理装置,包括:
提取模块,用于根据预设数据提取策略以及数据源的数据库类型,对数据源进行内容提取,获取提取数据;
过滤模块,用于根据所述提取数据的数据类型以及预设过滤策略,获取过滤后的数据;
分析模块,用于采用预设分析策略,对所述过滤后的数据进行分析匹配,获取符合所述预设分析策略要求的内容并进行存储。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储介质,所述存储介质存储可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序,以执行上述第一方面中任一所述的方法。
第一方面,本申请实施例提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面中任一所述的方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请提供了一种多数据源的数据处理方法、设备及存储介质。该数据处理方法中:首先,根据预设数据提取策略以及数据源的数据库类型,对数据源进行内容提取,获取提取数据;其次,根据提取数据的数据类型以及预设过滤策略,获取过滤后的数据;最后,采用预设分析策略,对过滤后的数据进行分析匹配,获取符合预设分析策略要求的内容并进行存储。实现了按照不同的数据库类型以及不同的数据类型,对数据进行提取、过滤、分析,使得有用地数据更好地被保留,提高了数据处理精度,降低了服务器的消耗。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种多数据源的数据处理方法的流程示意图;
图2为本申请实施例提供的一种不同类型数据源的数据切分方法的流程示意图;
图3为本申请实施例提供的一种数据断点续传方法的流程示意图;
图4为本申请实施例提供的一种不同类型数据源的数据断点续传方法的流程示意图;
图5为本申请实施例提供的一种数据分析方法的流程示意图;
图6为本申请实施例提供的一种多数据源的数据处理装置的示意图;
图7为本申请实施例提供的一种电子设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
在数据处理中,为了使有用的数据尽可能多地保存,无用的数据尽可能地被剔除。本申请的方案中,提供了一种多数据源的数据处理方法,提高了数据处理精度,减小了服务器的消耗。
如下先通过具体示例,对本申请实施例所提供的多数据源的数据处理方法进行解释说明。图1为本申请实施例提供的一种多数据源的数据处理方法的流程示意图,该方法的执行主体可以是数据处理设备,该数据处理设备可以为具有计算处理功能的设备,如台式电脑、笔记本电脑、平板电脑等。如图1所示,该方法包括:
S101、根据预设数据提取策略以及数据源的数据库类型,对数据源进行内容提取,获取提取数据。
根据处理需求确定预设数据提取策略,预设数据提取策略可以指示预提取数据的位置信息或者其他特征。示例的,预提取位于某个数据源中的某个数据库、某个数据源中的某个数据库中的某个数据表、某个数据源中的某个数据库中的某个数据表中的某些字段的数据,例如:Mysql数据源中Test库中的User表中id(INT)、name(VARCHAR)及content(BLOB)字段。可选地,本实施例所提供的方案中可同时提取多个数据源中的数据。
可选地,工程师可以通过可视化界面输入预设数据提取策略,完成对预提取数据的选择或设置。获取到预设数据提取策略之后,分析预设数据提取策略,确定预设数据提取策略中所提取的数据源的数据库类型,根据不同的数据库类型,完成对数据源的内容提取,获取提取数据。
S102、根据提取数据的数据类型以及预设过滤策略,获取过滤后的数据。
根据数据处理需求确定预设过滤策略,预设过滤策略中设置多个过滤条件。例如可以通过可视化界面输入预设过滤策略中的多个过滤条件,以根据过滤条件过滤出提取数据中符合预设过滤策略、有价值的内容。其中,根据提取数据的类型不同,预设过滤策略设置的过滤条件也不同。因此,根据提取数据的数据类型以及预设过滤策略,将满足预设过滤策略的提取数据作为过滤后的数据,将不满足预设过滤策略的提取数据舍弃。
S103、采用预设分析策略,对过滤后的数据进行分析匹配,获取符合预设分析策略要求的内容并进行存储。
根据数据处理需求确定预设分析策略,预设分析策略为分析过滤后的数据是否满足分析策略要求。跟前述方式类似,也可以通过可视化界面输入预设分析策略,根据预设分析策略中的要求,对过滤后的数据进行分析匹配,若满足预设分析策略要求,则将其获取并保存,若不满足预设分析策略要求,则将其舍弃,更加精准地获取到符合预设分析策略要求的内容。
至此,整个数据提取、数据过滤、数据分析过程完成,将得到符合预设数据提取策略、预设过滤策略、预设分析策略的内容保存至本地数据库。
综上,本申请实施例提供的多数据源的数据处理方法,通过根据预设数据提取策略以及数据源的数据库类型,对数据源进行内容提取,获取提取数据;进而根据提取数据的数据类型以及预设过滤策略,获取过滤后的数据;最后采用预设分析策略,对过滤后的数据进行分析匹配,获取符合预设分析策略要求的内容并进行存储。实现了可以按照不同的数据库类型以及不同的数据类型,对数据进行提取、过滤、分析,使得有用地数据更好地被保留,无用的数据被过滤,提高了数据处理精度,降低了服务器的消耗。
在上述图1所述的多数据源的数据处理方法的基础上,本申请实施例还提供了不同类型数据源的数据切分方法。图2为本申请实施例提供的一种不同类型数据源的数据切分方法的流程示意图,上述数据库类型可以包括关系型数据库、非关系型数据库,如图2所示,S101中根据预设数据提取策略以及数据源的数据库类型,对数据源进行内容提取,获取提取数据,包括:
S201、若数据源为关系型数据库,对数据源中的多张表进行切分,得到切分数据。
需要说明的是,关系型数据库的数据库以行和列的形式存储数据,一系列的行和一系列的列构成了表,一组表组成了数据库。由于这类数据库的所存储的数据具有较强的一致性和完整性,一旦处理该类数据库中的大量数据时,由于数据涉及到多张表,多张表之间存在着复杂的关系,随着表数量的增加,数据处理效率就会变得很差,特别是遇到高并发读写的时候,处理性能就会下降得非常厉害。
因此,当所处理的数据源为关系型数据库时,为了减少多线程间的上下文切换,提高数据处理效率,对数据源中的多张表进行切分,得到切分数据。在数据提取的过程中,根据所勾选的表的总数进行线程的申请,满足服务器所能开启的最优先线程数,以保证稳定性。
S202、若数据源为非关系型数据库,对数据源中的每张表中的内容进行切分,得到切分数据。
非关系数据库中的数据之间无关系,这样就相对比较容易扩展。无形之间也在架构的层面上带来了可扩展的能力。由于非关系型数据库的无关系性,数据库的结构简单,因此使用该类型数据库存储数量级较大的数据,且非关系数据库大都有自己所维护的一套主键,很容易获取非关系数据库中的数据总量。
因此,当所处理的数据源为非关系型数据库时,为更加充分地发挥数据处理能力,对数据源中的每张表中的内容进行切分,得到切分数据。值得说明的是,此处不限定将每张表所切分的份数,可由用户根据实际情况而设定,切分的程度只要在服务器所能处理的范围内即可。
S203、对每一份切分数据进行内容提取,得到提取数据。
在内容提取的过程中,为了防止由于目录过于复杂导致遍历切分数据速度慢,可以采用生产者消费者模型,例如一个生产者线程用于枚举切分数据,多个消费者线程用于提取切分数据,主线程用于监控两者的完成情况,进行统一线程调度。以此,对每一份切分数据枚举,并进行内容提取,得到提取数据。
综上,本申请实施例提供的一种不同类型数据源的数据切分方法,若数据源为关系型数据库,对数据源中的多张表进行切分,得到切分数据;若数据源为非关系型数据库,对数据源中的每张表中的内容进行切分,得到切分数据;对每一份切分数据进行内容提取,得到提取数据。从而对关系型数据库与非关系型数据库进行不同的切分,以使得后续的数据处理更加精准。
继续参照图2,在进行内容提取时,获取多个数据源中文件数据对应的二进制数据,以及多个数据源中文本数据对应的字符数据。以保障获取的数据源的格式一致。
本实施例中,文件数据中有效信息的存放格式为二进制格式,因此,获取多个数据源中文件数据对应的二进制数据,在后续对文件数据进行处理时,可直接将文件数据对应的二进制数据转化为文件数据的内容,即可完成对文件数据的内容提取。
文本数据中只存储有效字符信息,因此,获取多个数据源中文本数据对应的字符数据,即可完成对文本数据的内容提取。
从而实现了通过统一地数据格式进行内容提取,提高了数据处理的扩展性,满足了大多数的数据源。
在上述图2所述的不同类型数据源的数据切分方法的基础上,本申请实施例还提供了一种数据断点续传方法。图3为本申请实施例提供的一种数据断点续传方法的流程示意图,如图3所示,S203中对每一份切分数据进行内容提取,得到提取数据,包括:
S301、每次对一份切分数据进行内容提取后,获取并保存每份切分数据对应的数据信息。
在对切分数据提取的过程中,采用边枚举边提取的模式进行提取,且枚举时按照顺序进行的,当提取到某一份切分数据时,将该切分数据对应的数据信息保存,数据信息用于确定切分数据在所有切分数据顺序中的位置。
S302、若内容提取中断,则根据已保存的数据信息,继续执行内容提取,直至所有切分数据提取完成,获取所有切分数据对应的提取数据。
若在内容提取过程中,出现异常导致提取中断,重新进行内容提取时,可根据已经保存的数据信息获知中断的切分数据位置。需要说明的是,由于提取过程是按照顺序进行的,从而根据中断的切分数据位置可确定已提取的切分数据,也即无需重头进行内容提取,而是从中断的地方继续执行内容提取,直至所有切分数据提取完成,获取所有切分数据对应的提取数据。
示例地,由于每种数据源产生的不同异常对应不同的操作。例如,若存在当前提取任务无权限访问数据源所提供的库、表、文档、目录等内容时,可对针对性地跳过该内容的提取。最终,将导致无法提取的原因与该提取任务进行绑定,最终输出到整个提取任务的结果报告中,提供给用户进行合理的处理,针对不同的异常,做出不同的反应,最大程度上保证任务平稳正常运行。
综上,本申请实施例提供的一种数据断点续传方法,每次对一份切分数据进行内容提取后,获取并保存每份切分数据对应的数据信息;若内容提取中断,则根据已保存的数据信息,继续执行内容提取,直至所有切分数据提取完成,获取所有切分数据对应的提取数据。从而在数据处理的过程中,及时发生提取中断,也能准确地在断点位置继续提取,提高了数据提取的效率。
在上述图3所述的数据断点续传方法的基础上,本申请实施例还提供了一种不同类型数据源的数据断点续传方法。图4为本申请实施例提供的一种不同类型数据源的数据断点续传方法的流程示意图,如图4所示,S302中若内容提取中断,则根据已保存的提取信息,继续执行内容提取,直至所有切分数据提取完成,获取所有切分数据对应的提取数据,包括:
S401、若数据源为关系型数据库,当内容提取中断时,根据中断表的位置信息继续执行内容提取,直至所有切分数据提取完成,获取所有切分数据对应的提取数据。
其中,中断表的信息用于记录上次提取的位置,例如,中断表是某个数据源中的某个数据库中的某个数据表,可确定终端表在提取顺序中的位置。由于关系型数据库的表中可能不存在主键,并且切分数据是针对表进行切分的,因此每当提取完成一个表后,需将所提取完成的表的位置信息保存,当后续的提取过程中出现中断时,将中断时保存的最后一个表作为中断表,由于提取过程是按照顺序进行的,根据中断表的位置信息确定中断表在提取顺序中的位置,从而根据中断表的位置可剔除掉已提取的切分数据,从中断表的位置继续执行内容提取,直至所有切分数据提取完成,获取所有切分数据对应的提取数据。
在上述对关系型数据库的中断处理方法中,虽然可能会重复提取中断表,但避免了对已提取的多个表进行重复提取,大大减少了重复提取所带来的开销。
S402、若数据源为非关系型数据库,当内容提取中断时,根据中断表的主键继续执行内容提取,直至所有切分数据提取完成,获取所有切分数据对应的提取数据。
其中,中断表中的主键用于记录上次提取的位置。非关系型数据库中的表存在主键,每当提取完一份切分数据,将该切分数据所在表的主键保存,当内容提取中断时,将中断时保存的最后一个表作为中断表,由于提取过程是按照顺序进行的,根据中断表的主键确定中断表在提取顺序中的位置,从而根据中断表的位置可剔除掉已提取的切分数据,从中断表的位置继续执行内容提取,直至所有切分数据提取完成,获取所有切分数据对应的提取数据。
可选地,若非关系型数据库中的表不存在主键,保存所提取完成的表的位置信息保存,当内容提取中断时,根据中断表的位置信息继续执行内容提取,直至所有切分数据提取完成,获取所有切分数据对应的提取数据。具体内容与上述关系型数据库提取中断处理方法相同,此处不再赘述。
在上述对非关系型数据库的中断处理方法中,虽然可能会重复提取中断表中的多个切分数据、存在误差,但避免了对已提取的多个表进行重复提取,大大减少了重复提取所带来的开销。
综上,本申请实施例提供的一种不同类型数据源的数据断点续传方法,若数据源为关系型数据库,当内容提取中断时,根据中断表的位置信息继续执行内容提取,直至所有切分数据提取完成,获取所有切分数据对应的提取数据;若数据源为非关系型数据库,当内容提取中断时,根据中断表的主键继续执行内容提取,直至所有切分数据提取完成,获取所有切分数据对应的提取数据。从而在不同类型的数据库遇到提取中断的情况时,能精准地在断点位置继续完成提取,提高了数据提取效率。
在上述图1所述的多数据源的数据处理方法的基础上,其中,数据类型包括:文本类型、文件类型。
文本类型数据对应的预设过滤策略包括:根据指定字段过滤,确定指定字段,抽取文本类型数据中的指定字段,将抽取到的指定字段过滤。其中,指定字段中的内容无有用价值,可直接过滤掉,将剩余的有用内容保留并下载。示例地,若预设过滤策略为:根据数字型数据过滤,则将文本类型数据中的所有数字字段过滤掉。
文件类型数据对应的预设过滤策略包括:根据文件大小进行过滤、根据文件内容进行过滤、根据存储时间进行过滤。
上述根据文件大小进行过滤,例如,设定文件的内存过滤阈值(例如,5M),当文件的大小等于或小于该过滤阈值时,则将文件保留并下载;若文件的大小大于该过滤阈值时,将文件过滤。
上述根据文件内容进行过滤,可以是先设定文件格式类型,例如,设定的文件格式类型为jpg、png,当文件的格式为jpg或png时,则将文件保留并下载;若文件格式不是jpg或png时,将文件过滤。可选地,为了不浪费大量的资源,可以只获取文件的二进制数据中部分字节的数据,例如可以设定获取前1024字节,根据文件的前1024字节确定文件的格式类型。此外,若根据文件的前1024字节无法确定文件的格式类型,则将该文件继续保留,值得说明的是,无法确定格式类型的文件数量较少,不影响正常的数据处理流程。
根据存储时间进行过滤,可以是设定时间区间,并确定文件的更改时间,若文件的最后存储时间在该时间区间范围内,则将文件保留并下载;若文件的最后存储时间不在该时间区间范围内,将文件过滤。
除上述预设过滤策略之外,无论数据类型为文本类型还是文件类型,预设过滤策略还可以包括:限制宽带。由于在对数据源完成内容提取的过程中,可能导致带宽占用过高,会影响系统的正常使用,导致数据源无法使用,因此可通过对网卡限速来解决该问题,也即超过预设带宽的数据会被过滤掉。
综上,通过设置不同类型数据对应的不同过滤策略,使得数据过滤精准,得到用户真正需求的数据。
在上述图1所述的多数据源的数据处理方法的基础上,本申请实施例还提供了一种数据分析方法。图5为本申请实施例提供的一种数据分析方法的流程示意图,如图5所示,S103中采用预设分析策略,对过滤后的数据进行分析匹配,获取符合预设分析策略要求的内容并进行存储,包括:
S501、若数据源为文本类型,根据过滤后的数据中的字段匹配预设分析策略中的关键词,获取符合预设分析策略要求的内容并进行存储。
预设分析策略中包括:关键字、预设匹配度。若数据源为文本类型,将过滤后的数据中的字段与关键字匹配,采用预设的匹配度计算方法计算它们之间的匹配度。将该匹配度和预设匹配度进行比较,若该匹配度大于或等于预设匹配度,则获取该过滤后的数据作为符合预设分析策略要求的内容,并保存至本地数据库;若该匹配度小于预设匹配度,则将该过滤后的数据舍弃。
S502、若数据源为文件类型,提取文件类型的过滤后的数据对应的字段,匹配预设分析策略中的关键词,获取符合预设分析策略要求的内容并进行存储。
在对文件类型数据分析之前,由于过滤后的数据中仍存在一些无法确定格式的文件,需要获取该类文件中的所有字节,以确定该文件的格式,判断是否满足预设的文件格式。无法确定格式类型的文件数量较少,获取该类文件中的所有字节,对数据处理速度影响较小。
若数据源为文件类型,需要获取该文件对应的二进制数据,将二进制数据转换为文件的实际内容,根据文件的实际内容提取该文件类型的过滤后的数据对应的字段。例如,文件类型为图片时,需要获取图片文件对应的二进制数据,将二进制数据转换为图片文件的实际图片,再需要通过识别图片内容得到文件内容中的字段。
将文件内容中的字段与关键字匹配,采用预设的匹配度计算方法计算它们之间的匹配度。将该匹配度和预设匹配度进行比较,若该匹配度大于或等于预设匹配度,则获取该过滤后的数据作为符合预设分析策略要求的内容,并保存至本地数据库;若该匹配度小于预设匹配度,则将该过滤后的数据舍弃。
综上,本申请实施例提供的一种数据分析方法,若数据源为文本类型,根据过滤后的数据中的字段匹配预设分析策略中的关键词,获取符合预设分析策略要求的内容并进行存储;若数据源为文件类型,提取文件类型的过滤后的数据对应的字段,匹配预设分析策略中的关键词,获取符合预设分析策略要求的内容并进行存储。从而根据不同的数据类型进行不同的数据分析,并使用关键字进行分析匹配,使得最终得到的分析后的数据更加精准。
下述对用以执行的本申请所提供的多数据源的数据处理装置、设备及存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
图6为本申请实施例提供的一种多数据源的数据处理装置的示意图,如图6所示,该仿真装置600可包括:
提取模块601,用于根据预设数据提取策略以及数据源的数据库类型,对数据源进行内容提取,获取提取数据;
过滤模块602,用于根据提取数据的数据类型以及预设过滤策略,获取过滤后的数据;
分析模块603,用于采用预设分析策略,对过滤后的数据进行分析匹配,获取符合预设分析策略要求的内容并进行存储。
进一步地,提取模块601,具体用于若数据源为关系型数据库,对数据源中的多张表进行切分,得到切分数据;或者,若数据源为非关系型数据库,对数据源中的每张表中的内容进行切分,得到切分数据;对每一份切分数据进行内容提取,得到提取数据。
进一步地,提取模块601,具体还用于每次对一份切分数据进行内容提取后,获取并保存每份切分数据对应的数据信息;若内容提取中断,则根据已保存的数据信息,继续执行内容提取,直至所有切分数据提取完成,获取所有切分数据对应的提取数据。
进一步地,提取模块601,具体还用于若数据源为关系型数据库,当内容提取中断时,根据中断表的位置信息继续执行内容提取,直至所有切分数据提取完成,获取所有切分数据对应的提取数据;若数据源为非关系型数据库,根据中断表的主键继续执行内容提取,直至所有切分数据提取完成,获取所有切分数据对应的提取数据。
进一步地,分析模块603,具体用于若数据源为文本类型,根据过滤后的数据中的字段匹配预设分析策略中的关键词,获取符合预设分析策略要求的内容并进行存储;若数据源为文件类型,提取文件类型的过滤后的数据对应的字段,匹配预设分析策略中的关键词,获取符合预设分析策略要求的内容并进行存储。
进一步地,提取模块601,具体还用于获取多个数据源中文件数据对应的二进制数据,以及多个数据源中文本数据对应的字符数据。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图7为本申请实施例提供的一种电子设备的示意图,该电子设备可以是具备计算处理功能的设备。
该电子设备700包括:处理器701、存储介质702。处理器701和存储介质702通过总线连接。
存储介质702用于存储程序,处理器701调用存储介质702存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本发明还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种多数据源的数据处理方法,其特征在于,包括:
根据预设数据提取策略以及数据源的数据库类型,对数据源进行内容提取,获取提取数据;
根据所述提取数据的数据类型以及预设过滤策略,获取过滤后的数据;
采用预设分析策略,对所述过滤后的数据进行分析匹配,获取符合所述预设分析策略要求的内容并进行存储。
2.根据权利要求1所述的方法,其特征在于,所述根据预设数据提取策略以及数据源的数据库类型,对数据源进行内容提取,获取提取数据,包括:
若所述数据源为关系型数据库,对所述数据源中的多张表进行切分,得到切分数据;或者,
若所述数据源为非关系型数据库,对所述数据源中的每张表中的内容进行切分,得到切分数据;
对每一份所述切分数据进行内容提取,得到所述提取数据。
3.根据权利要求2所述的方法,其特征在于,所述对每一份所述切分数据进行内容提取,得到所述提取数据,包括:
每次对一份所述切分数据进行内容提取后,获取并保存每份所述切分数据对应的数据信息;
若内容提取中断,则根据已保存的数据信息,继续执行内容提取,直至所有所述切分数据提取完成,获取所有所述切分数据对应的提取数据。
4.根据权利要求3所述的方法,其特征在于,所述若内容提取中断,则根据已保存的提取信息,继续执行内容提取,直至所有所述切分数据提取完成,获取所有切分数据对应的提取数据,包括:
若所述数据源为关系型数据库,当所述内容提取中断时,根据中断表的位置信息继续执行内容提取,直至所有所述切分数据提取完成,获取所有所述切分数据对应的提取数据,其中,所述中断表的位置信息用于记录上次提取的位置;
若所述数据源为非关系型数据库,根据所述中断表的主键继续执行内容提取,直至所有所述切分数据提取完成,获取所有所述切分数据对应的提取数据,其中,所述中断表中的主键用于记录上次提取的位置。
5.根据权利要求1所述的方法,其特征在于,所述数据类型包括:文本类型或文件类型;
所述文本类型对应的所述预设过滤策略包括:根据指定字段过滤;
所述文件类型对应的所述预设过滤策略包括下述任一种:根据文件大小进行过滤、根据文件格式进行过滤、根据存储时间进行过滤。
6.根据权利要求1所述的方法,其特征在于,所述过滤后的数据包括:文本类型或文件类型;
所述采用预设分析策略,对所述过滤后的数据进行分析匹配,获取符合所述预设分析策略要求的内容并进行存储,包括:
若所述数据源为文本类型,根据所述过滤后的数据中的字段匹配所述预设分析策略中的关键词,获取符合所述预设分析策略要求的内容并进行存储;
若所述数据源为文件类型,提取所述文件类型的所述过滤后的数据对应的字段,匹配所述预设分析策略中的关键词,获取符合所述预设分析策略要求的内容并进行存储。
7.根据权利要求1所述的方法,其特征在于,在所述根据预设数据提取策略以及数据源的数据库类型,对数据源进行内容提取,获取提取数据,还包括:
获取多个所述数据源中文件数据对应的二进制数据,以及多个所述数据源中文本数据对应的字符数据。
8.一种多数据源的数据处理装置,其特征在于,包括:
提取模块,用于根据预设数据提取策略以及数据源的数据库类型,对数据源进行内容提取,获取提取数据;
过滤模块,用于根据所述提取数据的数据类型以及预设过滤策略,获取过滤后的数据;
分析模块,用于采用预设分析策略,对所述过滤后的数据进行分析匹配,获取符合所述预设分析策略要求的内容并进行存储。
9.一种电子设备,其特征在于,包括:处理器、存储介质,所述存储介质存储可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序,以执行上述权利要求1-8中任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述权利要求1-8中任一所述的方法。
CN202111399623.7A 2021-11-24 2021-11-24 一种多数据源的数据处理方法、设备及存储介质 Pending CN114090673A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111399623.7A CN114090673A (zh) 2021-11-24 2021-11-24 一种多数据源的数据处理方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111399623.7A CN114090673A (zh) 2021-11-24 2021-11-24 一种多数据源的数据处理方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114090673A true CN114090673A (zh) 2022-02-25

Family

ID=80303719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111399623.7A Pending CN114090673A (zh) 2021-11-24 2021-11-24 一种多数据源的数据处理方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114090673A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186023A (zh) * 2022-09-07 2022-10-14 杭州安恒信息技术股份有限公司 一种数据集生成方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186023A (zh) * 2022-09-07 2022-10-14 杭州安恒信息技术股份有限公司 一种数据集生成方法、装置、设备及介质
CN115186023B (zh) * 2022-09-07 2022-12-06 杭州安恒信息技术股份有限公司 一种数据集生成方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110019218B (zh) 数据存储与查询方法及设备
CN107704539B (zh) 大规模文本信息批量结构化的方法及装置
CN111241389B (zh) 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN110737689B (zh) 数据标准符合性检测方法、装置、系统及存储介质
CN110795287A (zh) 数据恢复方法、系统、电子设备及计算机存储介质
CN111400288A (zh) 数据质量检查方法及系统
CN108121774B (zh) 一种数据表备份方法及终端设备
CN114090673A (zh) 一种多数据源的数据处理方法、设备及存储介质
CN114490554A (zh) 数据同步方法及其装置、电子设备及存储介质
CN113377719B (zh) 一种系统异常关机时间获取方法及系统
CN108228592B (zh) 基于二进制日志的数据归档方法及数据归档装置
CN110909112B (zh) 数据提取方法、装置、终端设备及介质
CN114461762A (zh) 档案变更识别方法、装置、设备及存储介质
CN113138974A (zh) 数据库合规检测的方法和装置
CN113722296A (zh) 一种农业信息处理方法、装置、电子设备及存储介质
CN112612773A (zh) 数据库同步测试方法、装置、计算机设备及存储介质
CN111045983A (zh) 核电站电子文件管理方法、装置、终端设备及介质
CN112559195B (zh) 数据库死锁的检测方法、装置、测试终端及介质
CN110119406B (zh) 实时任务记录的核对方法及装置
CN117389980B (zh) 日志文件分析方法及装置、计算机设备和可读存储介质
CN112347095B (zh) 数据表的处理方法、装置和服务器
CN115391284B (zh) 基因数据文件快速识别方法、系统和计算机可读存储介质
CN117493385B (zh) 数据处理方法、装置、设备及存储介质
CN113553320B (zh) 数据质量监控方法及装置
CN113051278B (zh) 一种数据复制进程延时的处理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination