CN110795468A - 数据抽取方法及装置 - Google Patents
数据抽取方法及装置 Download PDFInfo
- Publication number
- CN110795468A CN110795468A CN201910956869.6A CN201910956869A CN110795468A CN 110795468 A CN110795468 A CN 110795468A CN 201910956869 A CN201910956869 A CN 201910956869A CN 110795468 A CN110795468 A CN 110795468A
- Authority
- CN
- China
- Prior art keywords
- data extraction
- data
- extraction operation
- target data
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种数据抽取方法及装置,方法包括:获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息。本发明能够提高数据挖掘的效率,实现复杂的数据的筛选条件以及数据集合的复杂操作;可以选择任意一个或者多个数据抽取操作步骤,以及任意组合多个步骤组成新的数据操作步骤,实现数据的筛选条件的复用,进而提高了数据挖掘的效率,以及提高抽取数据的灵活性。
Description
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种数据抽取方法及装置。
背景技术
在基于大数据建模的过程中,需要对大数据进行数据挖掘,抽取需要的数据组成的数据集,并基于组成的数据集进行建模。数据挖掘是指从一个大量的数据中通过算法搜索隐藏于其中信息的过程。在数据挖掘过程中,根据数据挖掘目的或实际业务需求,需要使用不同的数据挖掘算法,得到符合数据挖掘目的或实际业务需求的数据集。
现有的数据挖掘采用的是编写并执行SQL脚本,得到需要的结果数据集,然后查看结果数据集是否满足要求,若不满足,再次修改并执行SQL脚本,如此反复直到结果数据集满足要求。
但是,为了获得目标结果数据集,需要不断地修改SQL脚本,导致挖掘数据的效率低下,而且每次SQL脚本执行后的结果无法重复利用,进而每次编辑的SQL脚本不能复用,变相的降低了挖掘数据的效率。
发明内容
针对现有技术中的问题,本发明提供一种数据抽取方法及装置,能够有效提高数据挖掘的效率,进而提高基于挖掘数据建立的模型的准确性。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种数据抽取方法,包括:
获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预设的数据抽取操作步骤;
基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;
对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息。
进一步的,在所述得到结果数据集之后,还包括:
将所述结果数据集进行存储以及对所述结果数据集进行预览的可视化处理。
进一步的,在所述得到结果数据集之后,还包括:
存储所述目标数据抽取操作规则至数据表中的历史数据抽取操作规则;其中,所述存储表用于存储预设的数据抽取操作步骤以及历史数据抽取操作规则;
相对应的,所述确定该目标数据集对应的目标数据抽取操作规则,包括:
在所述数据表中确定至少两个预设的数据抽取操作步骤构成所述目标数据集对应的目标数据抽取操作规则,或者,在所述数据表中确定历史数据抽取操作规则为所述目标数据集对应的目标数据抽取操作规则。
其中,所述集合运算包括:交集、并集、相对补集、绝对补集和差集中至少一种。
第二方面,本发明提供一种数据抽取装置,包括:
获取单元,用于获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预设的数据抽取操作步骤;
抽取单元,用于基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;
运算单元,用于对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息。
进一步的,还包括:
可视化单元,用于将所述结果数据集进行存储以及对所述结果数据集进行预览的可视化处理。
进一步的,还包括:
数据表单元,用于存储所述目标数据抽取操作规则至数据表中的历史数据抽取操作规则;其中,所述存储表用于存储预设的数据抽取操作步骤以及历史数据抽取操作规则;
相对应的,所述获取单元,还包括:
获取子单元,用于在所述数据表中确定至少两个预设的数据抽取操作步骤构成所述目标数据集对应的目标数据抽取操作规则,或者,在所述数据表中确定历史数据抽取操作规则为所述目标数据集对应的目标数据抽取操作规则。
其中,所述集合运算包括:交集、并集、相对补集、绝对补集和差集中至少一种。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的数据抽取方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的数据抽取方法的步骤。
由上述技术方案可知,本发明提供一种数据抽取方法及装置,通过获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预设的数据抽取操作步骤;基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息,能够提高了数据挖掘的效率,通过组合数据抽取操作步骤和集合运算,实现复杂的数据的筛选条件以及数据集合的复杂操作;可以选择任意一个或者多个数据抽取操作步骤,以及任意组合多个步骤组成新的数据操作步骤,实现数据的筛选条件的复用,进而提高了数据挖掘的效率,以及提高抽取数据的灵活性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的数据抽取方法的第一种流程示意图。
图2为本发明实施例中的数据抽取方法的第二种流程示意图。
图3为本发明实施例中的数据抽取方法的第三种流程示意图。
图4为本发明实施例中的数据抽取装置的第一种结构示意图。
图5为本发明实施例中的数据抽取装置的第二种结构示意图。
图6为本发明实施例中的数据抽取装置的第三种结构示意图。
图7为本发明实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种数据抽取方法的实施例,参见图1,所述数据抽取方法具体包含有如下内容:
S101:获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预设的数据抽取操作步骤;
可以理解的是,数据集是具有多条记录的一个数据集合。例如:一个人有身高、体重、性别等信息,把一个人的这些信息作为一条记录,多个人的这些信息就组成一个数据集。
在进行数据抽取之前需要确定基本数据集,基本数据集是覆盖此次要探索的所有数据,基本数据集从一个或多个数据库表,通过配置关联条件、结果字段和筛选条件,得到一个数据结果集,数据结果集中需要探索的数据范围为目标数据集。
在确定目标数据集对应的目标数据抽取操作规则时,选取预先设置的数据抽取操作步骤,根据选取的数据抽取操作步骤构成目标数据集对应的目标数据抽取操作规则。
需要说明的是,确定目标数据集对应的目标数据抽取操作规则,包括:
1、从预先设置的数据抽取操作步骤中选取至少2个构成目标数据集对应的目标数据抽取操作规则。
2、从历史数据抽取操作规则中确定目标数据集对应的目标数据抽取操作规则。
3、通过设置过滤筛选条件生成新的数据抽取操作步骤,由生成的新的数据抽取操作步骤构成目标数据集对应的目标数据抽取操作规则,例如:确定两个过滤筛选条件,然后定义交集运算,则新的数据抽取操作步骤就是取这两个过滤筛选条件的结果数据的交集。
通过预设的数据抽取操作步骤,可灵活的选取任意一个数据抽取操作步骤,任意组合多个数据抽取操作步骤生成目标数据集对应的目标数据抽取操作规则,实现数据抽取操作步骤的复用性,提高了数据抽取的灵活性和效率。
S102:基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;
在本步骤中,基于获取目标数据集,采用确定的目标数据抽取操作规则对目标数据集中的数据进行抽取,若目标数据抽取操作规则包括N个数据抽取操作步骤,则按照各个数据抽取操作步骤对目标数据集中的数据进行抽取,得到各个数据抽取操作步骤对应的数据集和。其中,N为大于1的整数。
S103:对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息。
在本步骤中,集合运算包括:交集、并集、相对补集、绝对补集和差集中至少一种。
需要说明的是,交集相当于数据库SQL脚本中的AND运算条件语句,取多个数据集合之间共有的数据;并集相当于OR运算条件语句,取多个数据集合的所有数据;差集相当于NOT EXIST运算语句,从基本数据集取不在结果数据集的数据。
通过把数据集当成数据集合,用集合运算的方法,实现灵活抽取数据,提高了数据抽取的效率。最后,在进行集合运算后得到结果数据集,以应用该结果数据集获取对应的数据抽取信息。
从上述描述可知,本发明实施例提供的一种数据抽取方法,通过获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预设的数据抽取操作步骤;基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息,能够提高了数据挖掘的效率,通过组合数据抽取操作步骤和集合运算,实现复杂的数据的筛选条件以及数据集合的复杂操作;可以选择任意一个或者多个数据抽取操作步骤,以及任意组合多个步骤组成新的数据操作步骤,实现数据的筛选条件的复用,进而提高了数据挖掘的效率,以及提高抽取数据的灵活性。
在本发明的一实施例中,参见图2,所述数据抽取方法的步骤S103之后还包括步骤S104,具体包含有如下内容:
S104:将所述结果数据集进行存储以及对所述结果数据集进行预览的可视化处理。
在本步骤中,在得到结果数据集,对该结果数据集进行可视化处理,以便能够进行预览。可预览结果数据集预览的结果数据集保存在内存,如果退出,则预览的数据就不存在了;如果希望保存为数据库物理表,可选择保存成数据库物理表,保存后的数据库物理表可在下一次数据抽取中作为定义基本数据集的基础数据库表。
在本发明的一实施例中,参见图3,所述数据抽取方法的步骤S103之后还包括步骤S105,具体包含有如下内容:
S105:存储所述目标数据抽取操作规则至数据表中的历史数据抽取操作规则;其中,所述存储表用于存储预设的数据抽取操作步骤以及历史数据抽取操作规则;
相对应的,所述确定该目标数据集对应的目标数据抽取操作规则,包括:
S100:在所述数据表中确定至少两个预设的数据抽取操作步骤构成所述目标数据集对应的目标数据抽取操作规则,或者,在所述数据表中确定历史数据抽取操作规则为所述目标数据集对应的目标数据抽取操作规则。
在本步骤中,将目标数据抽取操作规则进行存储并形成历史目标数据抽取操作规则,若有同样结构的数据要进行同样的操作,可直接从历史目标数据抽取才做规则,并对有同样结构的数据进行数据抽取。通过存储目标数据抽取操作规则,实现数据抽取才做规则的复用,进而提高了数据挖掘的效率。
从上述描述可知,本发明实施例提供的一种数据抽取方法,通过预设的数据抽取操作步骤,可灵活的选取任意一个数据抽取操作步骤,任意组合多个数据抽取操作步骤生成目标数据集对应的目标数据抽取操作规则,实现数据抽取操作步骤的复用性,提高了数据抽取的灵活性和效率。各个数据抽取操作步骤各自对应一个数据集,通过把数据集当成数据集合,用集合运算的方法,实现灵活抽取数据,进一步的提高了数据抽取的效率。
本发明实施例提供上述数据抽取方法的具体应用实例,包括:
S1:获取维修统计数据;
S2:通过上述实施例中的数据抽取方法获取结果数据集,并确定结果数据集对应的数据抽取信息;
S3:对数据抽取信息进行解析,得到各个部件的维修数据;
S4:根据各个部件的维修数据有针对性的对各个部件进行性能的提升他,以降低各个部件的维修次数。
本发明实施例提供一种能够实现所述数据抽取方法中全部内容的数据抽取装置的具体实施方式,参见图4,所述数据抽取装置具体包括如下内容:
获取单元10,用于获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预设的数据抽取操作步骤;
抽取单元20,用于基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;
运算单元30,用于对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息。
其中,所述集合运算包括:交集、并集、相对补集、绝对补集和差集中至少一种。
在本发明的一实施例中,参见图5,数据抽取装置,还包括:
可视化单元40,用于将所述结果数据集进行存储以及对所述结果数据集进行预览的可视化处理。
在本发明的一实施例中,参见图6,数据抽取装置,还包括:
数据表单元50,用于存储所述目标数据抽取操作规则至数据表中的历史数据抽取操作规则;其中,所述存储表用于存储预设的数据抽取操作步骤以及历史数据抽取操作规则;
相对应的,所述获取单元,还包括:
获取子单元,用于在所述数据表中确定至少两个预设的数据抽取操作步骤构成所述目标数据集对应的目标数据抽取操作规则,或者,在所述数据表中确定历史数据抽取操作规则为所述目标数据集对应的目标数据抽取操作规则。
本发明提供的数据抽取装置的实施例具体可以用于执行上述实施例中的数据抽取方法的实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
从上述描述可知,本发明实施例提供的数据抽取装置,通过获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预设的数据抽取操作步骤;基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息,能够提高了数据挖掘的效率,通过组合数据抽取操作步骤和集合运算,实现复杂的数据的筛选条件以及数据集合的复杂操作;可以选择任意一个或者多个数据抽取操作步骤,以及任意组合多个步骤组成新的数据操作步骤,实现数据的筛选条件的复用,进而提高了数据挖掘的效率,以及提高抽取数据的灵活性。
本申请提供一种用于实现所述数据抽取方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现所述数据抽取方法的实施例及用于实现所述数据抽取装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图7为本申请实施例的电子设备9600的系统构成的示意框图。如图7所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图7是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,数据抽取功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:通过获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预设的数据抽取操作步骤;基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息。
从上述描述可知,本申请的实施例提供的电子设备,获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预设的数据抽取操作步骤;基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息,能够提高了数据挖掘的效率,通过组合数据抽取操作步骤和集合运算,实现复杂的数据的筛选条件以及数据集合的复杂操作;可以选择任意一个或者多个数据抽取操作步骤,以及任意组合多个步骤组成新的数据操作步骤,实现数据的筛选条件的复用,进而提高了数据挖掘的效率,以及提高抽取数据的灵活性。
在另一个实施方式中,数据抽取装置可以与中央处理器9100分开配置,例如可以将数据抽取配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现数据抽取功能。
如图7所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图7中所示的所有部件;此外,电子设备9600还可以包括图7中没有示出的部件,可以参考现有技术。
如图7所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本发明的实施例还提供能够实现上述实施例中的数据抽取方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的数据抽取方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预设的数据抽取操作步骤;基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息。
从上述描述可知,本发明实施例提供的计算机可读存储介质,通过获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预设的数据抽取操作步骤;基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息,能够提高了数据挖掘的效率,通过组合数据抽取操作步骤和集合运算,实现复杂的数据的筛选条件以及数据集合的复杂操作;可以选择任意一个或者多个数据抽取操作步骤,以及任意组合多个步骤组成新的数据操作步骤,实现数据的筛选条件的复用,进而提高了数据挖掘的效率,以及提高抽取数据的灵活性。
虽然本发明提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本领域技术人员应明白,本说明书的实施例可提供为方法、装置(系统)或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种数据抽取方法,其特征在于,包括:
获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预设的数据抽取操作步骤;
基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;
对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息。
2.根据权利要求1所述的数据抽取方法,其特征在于,在所述得到结果数据集之后,还包括:
将所述结果数据集进行存储以及对所述结果数据集进行预览的可视化处理。
3.根据权利要求2所述的数据抽取方法,其特征在于,在所述得到结果数据集之后,还包括:
存储所述目标数据抽取操作规则至数据表中的历史数据抽取操作规则;其中,所述存储表用于存储预设的数据抽取操作步骤以及历史数据抽取操作规则;
相对应的,所述确定该目标数据集对应的目标数据抽取操作规则,包括:
在所述数据表中确定至少两个预设的数据抽取操作步骤构成所述目标数据集对应的目标数据抽取操作规则,或者,在所述数据表中确定历史数据抽取操作规则为所述目标数据集对应的目标数据抽取操作规则。
4.根据权利要求1所述的数据抽取方法,其特征在于,所述集合运算包括:交集、并集、相对补集、绝对补集和差集中至少一种。
5.一种数据抽取装置,其特征在于,包括:
获取单元,用于获取目标数据集以及确定该目标数据集对应的目标数据抽取操作规则;其中,所述目标数据抽取操作规则包括:至少两个预设的数据抽取操作步骤;
抽取单元,用于基于所述至少两个预设的数据抽取操作步骤对所述目标数据集进行提取处理得到至少两个预设的数据抽取操作步骤各自对应的数据集合;
运算单元,用于对至少两个预设的数据抽取操作步骤各自对应的数据集合进行集合运算,得到结果数据集,以应用该结果数据集获取对应的数据抽取信息。
6.根据权利要求5所述的数据抽取装置,其特征在于,还包括:
可视化单元,用于将所述结果数据集进行存储以及对所述结果数据集进行预览的可视化处理。
7.根据权利要求6所述的数据抽取装置,其特征在于,还包括:
数据表单元,用于存储所述目标数据抽取操作规则至数据表中的历史数据抽取操作规则;其中,所述存储表用于存储预设的数据抽取操作步骤以及历史数据抽取操作规则;
相对应的,所述获取单元,还包括:
获取子单元,用于在所述数据表中确定至少两个预设的数据抽取操作步骤构成所述目标数据集对应的目标数据抽取操作规则,或者,在所述数据表中确定历史数据抽取操作规则为所述目标数据集对应的目标数据抽取操作规则。
8.根据权利要求5所述的数据抽取装置,其特征在于,所述集合运算包括:交集、并集、相对补集、绝对补集和差集中至少一种。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的数据抽取方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的数据抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910956869.6A CN110795468A (zh) | 2019-10-10 | 2019-10-10 | 数据抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910956869.6A CN110795468A (zh) | 2019-10-10 | 2019-10-10 | 数据抽取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110795468A true CN110795468A (zh) | 2020-02-14 |
Family
ID=69440103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910956869.6A Pending CN110795468A (zh) | 2019-10-10 | 2019-10-10 | 数据抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795468A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182071A (zh) * | 2020-12-02 | 2021-01-05 | 零犀(北京)科技有限公司 | 数据关联关系挖掘方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160275180A1 (en) * | 2015-03-19 | 2016-09-22 | Abbyy Infopoisk Llc | System and method for storing and searching data extracted from text documents |
CN107943911A (zh) * | 2017-11-20 | 2018-04-20 | 北京大学深圳研究院 | 数据抽取方法、装置、计算机设备及可读存储介质 |
CN108614814A (zh) * | 2018-04-20 | 2018-10-02 | 广东工业大学 | 一种评价信息的抽取方法、装置及设备 |
US10331948B1 (en) * | 2015-05-08 | 2019-06-25 | EMC IP Holding Company LLC | Rules based data extraction |
CN110262904A (zh) * | 2019-05-17 | 2019-09-20 | 北京达佳互联信息技术有限公司 | 数据采集方法及装置 |
-
2019
- 2019-10-10 CN CN201910956869.6A patent/CN110795468A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160275180A1 (en) * | 2015-03-19 | 2016-09-22 | Abbyy Infopoisk Llc | System and method for storing and searching data extracted from text documents |
US10331948B1 (en) * | 2015-05-08 | 2019-06-25 | EMC IP Holding Company LLC | Rules based data extraction |
CN107943911A (zh) * | 2017-11-20 | 2018-04-20 | 北京大学深圳研究院 | 数据抽取方法、装置、计算机设备及可读存储介质 |
CN108614814A (zh) * | 2018-04-20 | 2018-10-02 | 广东工业大学 | 一种评价信息的抽取方法、装置及设备 |
CN110262904A (zh) * | 2019-05-17 | 2019-09-20 | 北京达佳互联信息技术有限公司 | 数据采集方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182071A (zh) * | 2020-12-02 | 2021-01-05 | 零犀(北京)科技有限公司 | 数据关联关系挖掘方法、装置、电子设备及存储介质 |
CN112182071B (zh) * | 2020-12-02 | 2021-04-06 | 零犀(北京)科技有限公司 | 数据关联关系挖掘方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105701122B (zh) | 一种日志收集方法、装置及系统 | |
CN106681698B (zh) | 动态列表的生成方法及装置 | |
CN111708557B (zh) | 更新配置文件的方法、设备及存储介质 | |
CN112784112A (zh) | 报文校验方法及装置 | |
CN110795468A (zh) | 数据抽取方法及装置 | |
CN113672488A (zh) | 日志文本处理方法及装置 | |
CN112884599A (zh) | 定制家具工厂匹配方法、装置和计算机设备 | |
CN112882685A (zh) | 面向对象编程语言的对象的扩展方法及装置 | |
CN108153845B (zh) | 一种实现后台图像数据导出的方法及装置 | |
CN111859041B (zh) | 数据报送方法及装置 | |
CN112035162B (zh) | 配置文件批量修改方法及装置 | |
CN110297807B (zh) | 一种二维码管理方法和装置 | |
CN111598539B (zh) | 基于业务建模的cics联机程序业务处理方法及系统 | |
CN112579618B (zh) | 特征库的升级方法、装置、存储介质及计算机设备 | |
CN113190460A (zh) | 一种测试案例自动生成方法及装置 | |
CN108664507B (zh) | 用户信息处理方法和装置 | |
CN111339100A (zh) | 数据核对方法及装置 | |
CN117974280A (zh) | 银行金融交易风险特征库的建立方法及装置 | |
CN109710254B (zh) | 页面视图的构建方法、装置及存储介质 | |
CN110888898A (zh) | 集群资源使用情况处理方法、装置及电子设备 | |
CN112052026B (zh) | 系统间交互关系确定方法及装置 | |
CN111179376B (zh) | 流程节点图生成方法,装置,存储介质及电子设备 | |
CN112905623A (zh) | 一种业务数据组合展示方法及装置 | |
CN113934555A (zh) | 签名控件调用方法及装置 | |
CN113592564A (zh) | 前端参数处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220914 Address after: 25 Financial Street, Xicheng District, Beijing 100033 Applicant after: CHINA CONSTRUCTION BANK Corp. Address before: 25 Financial Street, Xicheng District, Beijing 100033 Applicant before: CHINA CONSTRUCTION BANK Corp. Applicant before: Jianxin Financial Science and Technology Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200214 |