CN110032559A - 一种数据抽取方法及装置 - Google Patents

一种数据抽取方法及装置 Download PDF

Info

Publication number
CN110032559A
CN110032559A CN201910318311.5A CN201910318311A CN110032559A CN 110032559 A CN110032559 A CN 110032559A CN 201910318311 A CN201910318311 A CN 201910318311A CN 110032559 A CN110032559 A CN 110032559A
Authority
CN
China
Prior art keywords
data
extracted
database
language
subregion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910318311.5A
Other languages
English (en)
Inventor
颜怀柏
刘雄兵
赖文文
李晓刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sefon Software Co Ltd
Original Assignee
Chengdu Sefon Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sefon Software Co Ltd filed Critical Chengdu Sefon Software Co Ltd
Priority to CN201910318311.5A priority Critical patent/CN110032559A/zh
Publication of CN110032559A publication Critical patent/CN110032559A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种数据抽取方法及装置,所述方法包括:获取待抽取数据库的数据库语言,根据数据库语言对待抽取数据库进行分区操作,并对应将计算机设备的处理线程分为同等数量的目标线程。通过目标线程对各个分区进行数据抽取操作,得到分区数据,然后将抽取出来的分区数据发送到目标查询引擎中进行数据处理,将处理后的数据进行数据清洗,得到目标数据。采用本申请提供的数据抽取方法,能够实现对数据的快速抽取,提高了工作效率。

Description

一种数据抽取方法及装置
技术领域
本申请涉及大数据处理领域,具体而言,涉及一种数据抽取方法及装置。
背景技术
目前,大数据的时代已经来临,不论是个人用户还是企业级用户,存储的数据数量已经变得十分巨大。而数据本身具备不可阅读性和抽象性,需要现将数据抽取到查询引擎中,才能进行进一步操作。而现有技术中,不论数据量的大小,都只会用一条线程进行数据抽取,当数据量过大时,需要大量时间才能完成数据抽取,导致用户的工作效率低下。
有鉴于此,如何提高数据抽取的抽取效率,是目前需要解决的问题。
发明内容
本申请提供一种数据抽取方法及装置。
第一方面,本申请提供一种数据抽取方法,应用于计算机设备,所述方法包括:
获取待抽取数据库的数据库语言;
根据所述数据库语言,将所述待抽取数据库划分为多个分区;
根据所述多个分区的数量,将所述计算机设备的处理线程分为对应数量的目标线程;
采用所述对应数量的目标线程对所述多个分区分别进行数据抽取,得到分区数据;
将所述分区数据发送至目标查询引擎进行数据处理;
将处理后的所述分区数据进行数据清洗,得到目标数据。
可选地,所述获取待抽取数据库的数据库语言,包括:
根据所述待抽取数据库的名称,从预存的数据库对照表中,获取所述待抽取数据库的类型;
根据所述待抽取数据库的类型,得到所述待抽取数据的数据库语言。
可选地,所述根据所述数据库语言,将所述待抽取数据库划分为多个分区,包括:
获取所述待抽取数据库中待抽取数据的分布信息;
根据所述待抽取数据的分布信息,采用所述数据库语言将所述待抽取数据库划分为多个数据量差值小于预设阈值的分区。
可选地,所述采用所述对应数量的目标线程对所述多个分区分别进行数据抽取,得到分区数据,包括:
采用所述对应数量的目标线程根据预设对应关系,抽取对应分区的待抽取数据,得到各个目标线程对应的分区数据。
可选地,所述将所述分区数据发送至目标查询引擎进行数据处理,包括:
获取所述目标查询引擎的引擎语言;
根据所述引擎语言,对所述分区数据进行数据处理。
第二方面,本申请提供一种数据抽取装置,应用于计算机设备,所述装置包括:
获取模块,用于获取待抽取数据库的数据库语言;
分区模块,用于根据所述数据库语言,将所述待抽取数据库划分为多个分区;
分线程模块,用于根据所述多个分区的数量,将所述计算机设备的处理线程分为对应数量的目标线程;
抽取模块,用于采用所述对应数量的目标线程对所述多个分区分别进行数据抽取,得到分区数据;
处理模块,用于将所述分区数据发送至目标查询引擎进行数据处理;
清洗模块,用于将处理后的所述分区数据进行数据清洗,得到目标数据。
可选地,所述获取模块具体用于:
根据所述待抽取数据库的名称,从预存的数据库对照表中,获取所述待抽取数据库的类型;
根据所述待抽取数据库的类型,得到所述待抽取数据的数据库语言。
可选地,所述分区模块具体用于:
获取所述待抽取数据库中待抽取数据的分布信息;
根据所述待抽取数据的分布信息,采用所述数据库语言将所述待抽取数据库划分为多个数据量差值小于预设阈值的分区。
可选地,所述抽取模块具体用于:
采用所述对应数量的目标线程根据预设对应关系,抽取对应分区的待抽取数据,得到各个目标线程对应的分区数据。
可选地,所述处理模块具体用于:
获取所述目标查询引擎的引擎语言;
根据所述引擎语言,对所述分区数据进行数据处理。
本申请实施例提供一种数据抽取方法及装置,所述方法包括:获取待抽取数据库的数据库语言,根据数据库语言对待抽取数据库进行分区操作,并对应将计算机设备的处理线程分为同等数量的目标线程。通过目标线程对各个分区进行数据抽取操作,得到分区数据,然后将抽取出来的分区数据发送到目标查询引擎中进行数据处理,将处理后的数据进行数据清洗,得到目标数据。采用本申请提供的数据抽取方法,能够实现对数据的快速抽取,提高了工作效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的计算机设备的结构框图;
图2为本申请实施例提供的数据抽取方法的步骤流程示意框图;
图3为图2中步骤S201的子步骤流程示意框图;
图4为图2中步骤S202的子步骤流程示意框图;
图5为图2中步骤S205的子步骤流程示意框图;
图6为本申请实施例提供的数据抽取装置的结构示意框图。
图标:100-计算机设备;110-数据抽取装置;111-存储器;112-处理器;113-通行单元;1101-获取模块;1102-分区模块;1103-分线程模块;1104-抽取模块;1105-处理模块;1106-清洗模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
下面结合附图,对本申请的具体实施方式进行详细说明。
请参照图1,图1为本申请实施例提供的计算机设备的结构框图。所述计算机设备100包括数据抽取装置110、存储器111、处理器112及通信单元113。
所述存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据抽取装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器111中或固化在所述计算机设备100的操作系统(operating system,OS)中的软件功能模块。所述处理器112用于执行所述存储器111中存储的可执行模块,例如所述数据抽取装置110所包括的软件功能模块及计算机程序等。
其中,所述存储器111可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器111用于存储程序或者数据。
请参照图2,图2为本申请实施例提供的数据抽取方法的步骤流程示意框图。所述方法包括步骤S201、步骤S202、步骤S203、步骤S204、步骤S205和步骤S206。
步骤S201,获取待抽取数据库的数据库语言。
步骤S202,根据所述数据库语言,将所述待抽取数据库划分为多个分区。
步骤S203,根据所述多个分区的数量,将所述计算机设备的处理线程分为对应数量的目标线程。
步骤S204,采用所述对应数量的目标线程对所述多个分区分别进行数据抽取,得到分区数据。
步骤S205,将所述分区数据发送至目标查询引擎进行数据处理。
步骤S206,将处理后的所述分区数据进行数据清洗,得到目标数据。
在本实施中,可以对处理后的分区数据进行数据清洗,可以包括检测不完整的数据、检测错误数据、删除重复数据。例如,处理后的数据可以包括年龄数据,在数据清洗时,发现缺少了10-25岁年龄段的数据,可以提醒用户进行检测是否有缺失数据。例如,发现在20-25岁年龄段的人数为-1人,人数一般不表示为-1,所以可以提示用户数据出现错误。例如,在数据清洗时,发现30-35岁年龄段的数据重复出现了两次,此时可以将重复的数据删除。在其他实施例中,对处理后的数据进行数据清洗还可以有其他方式。
请参照图3,图3为图2中步骤S201的子步骤流程示意框图。在本实施例中,步骤S201可以包括子步骤S2011和子步骤S2012。
步骤S2011,根据所述待抽取数据库的名称,从预存的数据库对照表中,获取所述待抽取数据库的类型。
步骤S2012,根据所述待抽取数据库的类型,得到所述待抽取数据的数据库语言。
在本实施例中,可以在预存的数据库对照表中,记录待抽取数据库的名称对应的待抽取数据库的类型,待抽取数据库的类型可以是MySQL、Microsoft Office Access和FoxPro中的一种。应当理解的是,不同类型的数据库之间的数据库语言(即结构化查询语言,Structured Query Language,简称SQL)是不同的,在本实施例中,在得到待抽取数据库的数据库语言后(即待抽取数据库的原生SQL),采用该数据库语言对待抽取数据库进行分区操作,可以实现快速分区的效果,不需要做进一步的转化,即可完成分区操作。在其他实施例中,待抽取数据库的类型也可以是其他类型,可以对应着不同的数据库语言。
请参照图4,图4为图2中步骤S202的子步骤流程示意框图。在本实施例中,步骤S202可以包括子步骤2021和子步骤S2022。
步骤S2021,获取所述待抽取数据库中待抽取数据的分布信息。
步骤S2022,根据所述待抽取数据的分布信息,采用所述数据库语言将所述待抽取数据库划分为多个数据量差值小于预设阈值的分区。
进一步地,所述采用所述对应数量的目标线程对所述多个分区分别进行数据抽取,得到分区数据,包括:
采用所述对应数量的目标线程根据预设对应关系,抽取对应分区的待抽取数据,得到各个目标线程对应的分区数据。
在本实施例中,可以先获取待抽取数据库中待抽取数据的分布信息,然后根据分布信息来决定如何分区。例如,待抽取数据库为年龄数据库,获取年龄数据库的分布信息为共有人数100人,其中,0-10岁有10人,10-20岁有10人,20-30岁有10人,30-35岁有35人,35-45岁有30人,45-55岁有5人。在本实施例中,可以根据各个年龄段具体的人数来分区,多个数据量差值的最小阈值可以是10人,可以将0-35岁的人分在一起,将30-35岁的人分在一起,将35-55岁的人分在一起,此时各个分区的人数分别为30、35和35,他们之间的差值小于最小阈值10,因此可以采用三条线程分别对三个分区的待抽取数据进行抽取,各个分区的数据量差值都小于最小阈值,三条线程抽取消耗时间接近,避免了各个线程之间出现某些线程抽取数据量过多或者过少的问题,保证了数据抽取的效率。
应当理解的是,在本实施例中,各个目标线程在分别对多个分区进行数据抽取的时候,仅对自己负责的分区进行数据抽取,不会对其他分区进行操作。
请参照图5,图5为图2中步骤S205的子步骤流程示意框图。在本实施例中,步骤S205可以包括子步骤S2051和子步骤S2052。
步骤S2051,获取所述目标查询引擎的引擎语言。
步骤S2052,根据所述引擎语言,对所述分区数据进行数据处理。
应当理解的是,在本实施例中,数据库的类型可以是前述的数据库类型,其数据库语言与目标查询引擎的引擎语言不是共通的。可以先由前述步骤S202至步骤S204描述,待抽取数据库利用其自身的数据库语言完成分区和抽取的操作,即采用待抽取数据库的原生Java DataBase Connectivity(简称JDBC)完成,避免了数据库语言和引擎语言之间的转化。在本实施例中,目标查询引擎可以是Presto,可以在接收到分区数据后,用于使用自己的引擎语言提供给用户对分区数据进行查询和处理的功能。
请参照图6,图6为本申请实施例提供的数据抽取装置110的结构示意框图。所述装置包括:
获取模块1101,用于获取待抽取数据库的数据库语言。
分区模块1102,用于根据所述数据库语言,将所述待抽取数据库划分为多个分区。
分线程模块1103,用于根据所述多个分区的数量,将所述计算机设备的处理线程分为对应数量的目标线程。
抽取模块1104,用于采用所述对应数量的目标线程对所述多个分区分别进行数据抽取,得到分区数据。
处理模块1105,用于将所述分区数据发送至目标查询引擎进行数据处理。
清洗模块1106,用于将处理后的所述分区数据进行数据清洗,得到目标数据。
进一步地,所述获取模块1101具体用于:
根据所述待抽取数据库的名称,从预存的数据库对照表中,获取所述待抽取数据库的类型;
根据所述待抽取数据库的类型,得到所述待抽取数据的数据库语言。
进一步地,所述分区模块1102具体用于:
获取所述待抽取数据库中待抽取数据的分布信息。
根据所述待抽取数据的分布信息,采用所述数据库语言将所述待抽取数据库划分为多个数据量差值小于预设阈值的分区。
进一步地,所述抽取模块1104具体用于:
采用所述对应数量的目标线程根据预设对应关系,抽取对应分区的待抽取数据,得到各个目标线程对应的分区数据。
进一步地,所述处理模块1105具体用于:
获取所述目标查询引擎的引擎语言。
根据所述引擎语言,对所述分区数据进行数据处理。
在本实施例中,数据抽取装置110的具体实现原理请参照前述数据抽取方法的实现原理,在此不再赘述。
综上所述,采用本申请提供的数据抽取方法,能够实现对数据的快速抽取,提高了工作效率。并且采用了待抽取数据库本身的数据库语言实现了快速分区和抽取的操作,不需要进行数据库语言和引擎语言之间的转化。然后将已经分区完成的分区数据给目标查询引擎进行处理,满足用户需求,缩短了数据库从分区到抽取最后进行处理整个流程的时间。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据抽取方法,其特征在于,应用于计算机设备,所述方法包括:
获取待抽取数据库的数据库语言;
根据所述数据库语言,将所述待抽取数据库划分为多个分区;
根据所述多个分区的数量,将所述计算机设备的处理线程分为对应数量的目标线程;
采用所述对应数量的目标线程对所述多个分区分别进行数据抽取,得到分区数据;
将所述分区数据发送至目标查询引擎进行数据处理;
将处理后的所述分区数据进行数据清洗,得到目标数据。
2.根据权利要求1所述的方法,其特征在于,所述获取待抽取数据库的数据库语言,包括:
根据所述待抽取数据库的名称,从预存的数据库对照表中,获取所述待抽取数据库的类型;
根据所述待抽取数据库的类型,得到所述待抽取数据的数据库语言。
3.根据权利要求1所述的方法,其特征在于,所述根据所述数据库语言,将所述待抽取数据库划分为多个分区,包括:
获取所述待抽取数据库中待抽取数据的分布信息;
根据所述待抽取数据的分布信息,采用所述数据库语言将所述待抽取数据库划分为多个数据量差值小于预设阈值的分区。
4.根据权利要求1所述的方法,其特征在于,所述采用所述对应数量的目标线程对所述多个分区分别进行数据抽取,得到分区数据,包括:
采用所述对应数量的目标线程根据预设对应关系,抽取对应分区的待抽取数据,得到各个目标线程对应的分区数据。
5.根据权利要求1所述的方法,其特征在于,所述将所述分区数据发送至目标查询引擎进行数据处理,包括:
获取所述目标查询引擎的引擎语言;
根据所述引擎语言,对所述分区数据进行数据处理。
6.一种数据抽取装置,其特征在于,应用于计算机设备,所述装置包括:
获取模块,用于获取待抽取数据库的数据库语言;
分区模块,用于根据所述数据库语言,将所述待抽取数据库划分为多个分区;
分线程模块,用于根据所述多个分区的数量,将所述计算机设备的处理线程分为对应数量的目标线程;
抽取模块,用于采用所述对应数量的目标线程对所述多个分区分别进行数据抽取,得到分区数据;
处理模块,用于将所述分区数据发送至目标查询引擎进行数据处理;
清洗模块,用于将处理后的所述分区数据进行数据清洗,得到目标数据。
7.根据权利要求6所述的装置,其特征在于,所述获取模块具体用于:
根据所述待抽取数据库的名称,从预存的数据库对照表中,获取所述待抽取数据库的类型;
根据所述待抽取数据库的类型,得到所述待抽取数据的数据库语言。
8.根据权利要求6所述的装置,其特征在于,所述分区模块具体用于:
获取所述待抽取数据库中待抽取数据的分布信息;
根据所述待抽取数据的分布信息,采用所述数据库语言将所述待抽取数据库划分为多个数据量差值小于预设阈值的分区。
9.根据权利要求6所述的装置,其特征在于,所述抽取模块具体用于:
采用所述对应数量的目标线程根据预设对应关系,抽取对应分区的待抽取数据,得到各个目标线程对应的分区数据。
10.根据权利要求6所述的装置,其特征在于,所述处理模块具体用于:
获取所述目标查询引擎的引擎语言;
根据所述引擎语言,对所述分区数据进行数据处理。
CN201910318311.5A 2019-04-19 2019-04-19 一种数据抽取方法及装置 Pending CN110032559A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910318311.5A CN110032559A (zh) 2019-04-19 2019-04-19 一种数据抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910318311.5A CN110032559A (zh) 2019-04-19 2019-04-19 一种数据抽取方法及装置

Publications (1)

Publication Number Publication Date
CN110032559A true CN110032559A (zh) 2019-07-19

Family

ID=67239272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910318311.5A Pending CN110032559A (zh) 2019-04-19 2019-04-19 一种数据抽取方法及装置

Country Status (1)

Country Link
CN (1) CN110032559A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868301A (zh) * 2021-12-02 2021-12-31 昆仑智汇数据科技(北京)有限公司 一种工业设备数据抽取的方法、装置及设备
CN113987049A (zh) * 2021-12-27 2022-01-28 北京安华金和科技有限公司 一种敏感数据发现处理方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329676A (zh) * 2007-06-20 2008-12-24 华为技术有限公司 一种数据并行抽取方法、装置和数据库系统
US20110161379A1 (en) * 2009-06-30 2011-06-30 Hasso-Plattner-Institut Fur Softwaresystemtechnik Gmbh Lifecycle-Based Horizontal Partitioning
CN102663020A (zh) * 2012-03-21 2012-09-12 北京英孚斯迈特信息技术有限公司 一种cdc数据分发方法和装置
CN103106253A (zh) * 2013-01-16 2013-05-15 西安交通大学 一种MapReduce计算模型中基于遗传算法的数据平衡方法
CN104182502A (zh) * 2014-08-18 2014-12-03 浪潮(北京)电子信息产业有限公司 一种数据抽取方法及装置
CN108228908A (zh) * 2018-02-09 2018-06-29 中国银行股份有限公司 一种数据抽取方法及装置
CN109325034A (zh) * 2018-10-12 2019-02-12 平安科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329676A (zh) * 2007-06-20 2008-12-24 华为技术有限公司 一种数据并行抽取方法、装置和数据库系统
US20110161379A1 (en) * 2009-06-30 2011-06-30 Hasso-Plattner-Institut Fur Softwaresystemtechnik Gmbh Lifecycle-Based Horizontal Partitioning
CN102663020A (zh) * 2012-03-21 2012-09-12 北京英孚斯迈特信息技术有限公司 一种cdc数据分发方法和装置
CN103106253A (zh) * 2013-01-16 2013-05-15 西安交通大学 一种MapReduce计算模型中基于遗传算法的数据平衡方法
CN104182502A (zh) * 2014-08-18 2014-12-03 浪潮(北京)电子信息产业有限公司 一种数据抽取方法及装置
CN108228908A (zh) * 2018-02-09 2018-06-29 中国银行股份有限公司 一种数据抽取方法及装置
CN109325034A (zh) * 2018-10-12 2019-02-12 平安科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868301A (zh) * 2021-12-02 2021-12-31 昆仑智汇数据科技(北京)有限公司 一种工业设备数据抽取的方法、装置及设备
CN113868301B (zh) * 2021-12-02 2022-06-07 昆仑智汇数据科技(北京)有限公司 一种工业设备数据抽取的方法、装置及设备
CN113987049A (zh) * 2021-12-27 2022-01-28 北京安华金和科技有限公司 一种敏感数据发现处理方法和系统

Similar Documents

Publication Publication Date Title
An et al. Characterizing and mining the citation graph of the computer science literature
CN107273540A (zh) 分布式搜索及索引更新方法、系统、服务器及计算机设备
CN105426375A (zh) 一种关系网络的计算方法及装置
CN105787058B (zh) 一种用户标签系统及基于用户标签系统的数据推送系统
CN105808653B (zh) 一种基于用户标签系统的数据处理方法及装置
CN109542247A (zh) 句式推荐方法及装置、电子设备、存储介质
CN112559631B (zh) 分布式图数据库的数据处理方法、装置以及电子设备
CN110032559A (zh) 一种数据抽取方法及装置
CN108132831A (zh) 任务的处理方法和处理装置
CN112311571A (zh) 网络拓扑生成方法及装置、电子设备和非暂态存储介质
CN112559717A (zh) 搜索匹配方法、装置、电子设备以及存储介质
CN109710603A (zh) 数据清洗方法、系统、存储介质及电子设备
CN112287082A (zh) 结合rpa与ai的数据的处理方法、装置、设备及存储介质
CN114595242A (zh) 一种数据操作方法、装置、计算机设备和存储介质
CN113868434A (zh) 图数据库的数据处理方法、设备和存储介质
CN113392212A (zh) 一种服务知识图谱构建方法、装置、电子设备及存储介质
CN114172793A (zh) 一种网络配置知识图谱构建方法及装置
CN109491679A (zh) 一种cpld在线升级方法及装置
CN117079712A (zh) 一种生物合成基因簇的挖掘方法、装置、设备及介质
CN109101595B (zh) 一种信息查询方法、装置、设备及计算机可读存储介质
CN107180024A (zh) 一种中心连通子图的多源异构数据实体识别方法及系统
CN117093628A (zh) 向量检索方法、装置、设备和存储介质
CN112860811B (zh) 数据血缘关系的确定方法、装置、电子设备和存储介质
CN109460416A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN111045735A (zh) 个性化引导页推送方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190719

RJ01 Rejection of invention patent application after publication