CN112860743A

CN112860743A - 用于数据提取的方法、装置及设备

Info

Publication number: CN112860743A
Application number: CN202110102601.3A
Authority: CN
Inventors: 李殊仪; 魏烽
Original assignee: Enyike Beijing Data Technology Co ltd
Current assignee: Enyike Beijing Data Technology Co ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-28

Abstract

本申请涉及数据处理技术领域，公开一种用于数据提取的方法。该方法包括：获取第一数据表的字段，获取若干个第二数据表；根据所述第一数据表的字段确定数据提取规则；将各所述第二数据表的数据按照所述提取规则提取到所述第一数据表对应的字段。通过获取若干个第二数据表，并根据第一数据表的字段确定数据提取规则，按照提取规则将各第二数据表的数据提取到第一数据表对应的字段，以能够按照不同数据提取规则对不同字段进行数据提取，降低在待提取的数据存在冲突的情况下数据提取错漏的几率。本申请还公开一种用于数据提取的装置及设备。

Description

用于数据提取的方法、装置及设备

技术领域

本申请涉及数据处理技术领域，例如涉及一种用于数据提取的方法、装置及设备。

背景技术

企业、商家或用户在进行数据处理时，通常是直接从海量、冗余、异构、不规范、含有大量噪声的数据日志中大规模地进行数据提取，并形成结构化数据格式输出。

在实现本公开实施例的过程中，发现相关技术中至少存在如下问题：现有技术中从多张源数据表中提取数据到目标数据表只能对源数据表中所有字段按照同一个提取规则进行数据提取，在从源数据表中提取的数据存在冲突的情况下，容易导致提取的数据存在错漏。

发明内容

为了对披露的实施例的一些方面有基本的理解，下面给出了简单的概括。所述概括不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围，而是作为后面的详细说明的序言。

本公开实施例提供了一种用于数据提取的方法、装置及设备，以能够按照不同数据提取规则对不同字段进行数据提取。

在一些实施例中，所述用于数据提取的方法，包括：

确定第一数据表的字段并获取若干个第二数据表；

根据所述第一数据表的字段确定数据提取规则；

将各所述第二数据表的数据按照所述提取规则提取到所述第一数据表对应的字段。

在一些实施例中，所述装置包括：处理器和存储有程序指令的存储器，所述处理器被配置为在执行所述程序指令时，执行上述的用于数据提取的方法。

本公开实施例提供的用于数据提取的方法、装置及设备，可以实现以下技术效果：通过获取若干个第二数据表，并根据第一数据表的字段确定数据提取规则，按照提取规则将各第二数据表的数据提取到第一数据表对应的字段，以能够按照不同数据提取规则对不同字段进行数据提取，降低在待提取的数据存在冲突的情况下数据提取错漏的几率。

以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本申请。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说明，这些示例性说明和附图并不构成对实施例的限定，附图中具有相同参考数字标号的元件示为类似的元件，附图不构成比例限制，并且其中：

图1是本公开实施例提供的一个用于数据提取的方法的示意图；

图2是本公开实施例提供的一个用于数据提取的装置的示意图。

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容，下面结合附图对本公开实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本公开实施例。在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。然而，在没有这些细节的情况下，一个或多个实施例仍然可以实施。在其它情况下，为简化附图，熟知的结构和装置可以简化展示。

本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开实施例的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

除非另有说明，术语“多个”表示两个或两个以上。

本公开实施例中，字符“/”表示前后对象是一种“或”的关系。例如，A/B表示：A或B。

术语“和/或”是一种描述对象的关联关系，表示可以存在三种关系。例如，A和/或B，表示：A或B，或，A和B这三种关系。

结合图1所示，本公开实施例提供一种用于数据提取的方法，包括：

步骤S101，获取第一数据表的字段，获取若干个第二数据表；

步骤S102，根据第一数据表的字段确定数据提取规则；

步骤S103，将各第二数据表的数据按照提取规则提取到第一数据表对应的字段。

采用本公开实施例提供的用于数据提取的方法，通过获取若干个第二数据表，并根据第一数据表的字段确定数据提取规则，按照提取规则将各第二数据表的数据提取到第一数据表对应的字段，以能够按照不同数据提取规则对不同字段进行数据提取，降低在待提取的数据存在冲突的情况下数据提取错漏的几率。

可选地，获取若干个第二数据表，包括：获取数据日志；对数据日志中的数据进行提取、清洗、转换和加载得到第二数据表。

可选地，数据日志包括：用户的行为数据和用户的属性数据。

可选地，用户的行为数据为用户与商家的互动行为数据。例如：用户在2020年1月1日进行了线上线索留资，留资车系为车系A。

可选地，用户的属性数据为年龄、性别、常住地、会员注册时间、手机号等。

在一些实施例中，数据日志存储在原始数据层中。可选地，通过ETL(ExtractTransform Load，提取转换加载)技术对数据日志中的数据进行提取，然后对提取出的数据进行清洗、转换，将清洗、转换后的数据进行加载得到若干个第二数据表。在一些实施例中，第二数据表存储在数据仓库层中。

可选地，根据第一数据表的字段确定数据提取规则，包括：在第一数据表的字段为单渠道属性的情况下，确定数据提取规则为：从第二数据表中直接提取与第一数据表的字段对应的数据。

可选地，第一数据表的字段为单渠道属性，包括：第一数据表的字段对应需要提取的数据来源于一张第二数据表。

可选地，第一数据表中的字段包括：唯一ID(Identity document，身份标识)字段、属性字段和时间字段等。

在一些实施例中，在同一用户存在多个用户ID的情况下，将多个用户ID进行关联打通，生成该用户的唯一ID。用户ID包括：用户的身份证、手机号、APP(Application，手机软件)登录号、cookie(储存在用户本地终端上的数据)等。可选地，属性字段包括：手机号、身份证号码、性别、年龄等。可选地，时间字段包括：数据更新时间、数据创建时间等。

在一些实施例中，获取用户的用户ID，并将该用户的所有用户ID进行关联打通，生成该用户的唯一ID；在第一数据表中的字段为单渠道属性，例如用户的会员等级的情况下，从包括该用户的会员等级字段的第二数据表中提取对应的用户的会员等级，存储到第一数据表中的用户的会员等级字段中。在一些实施例中，会员等级字段仅从会员属性表中进行数据提取，会员等级包括普通会员、铂金会员、高级会员等。

可选地，根据第一数据表的字段确定数据提取规则，包括：在第一数据表的字段为多渠道属性的情况下，确定数据提取规则为：在至少两张第二数据表中均提取与字段对应的数据。可选地，将在至少两张第二数据表中均提取与字段对应的数据进行合并，存入第一数据表中对应的字段。

可选地，第一数据表的字段为多渠道属性的数据，包括：第一数据表的字段对应需要提取的数据来源于至少两张第二数据表。

在一些实施例中，获取用户的用户ID，并将该用户的所有用户ID进行关联打通，生成该用户的唯一ID；在第一数据表中的字段为多渠道属性，例如：用户的手机号的情况下；从包括该用户的手机号的第二数据表中提取对应的用户的手机号，存储到第一数据表中的用户手机号字段中。

在一些实施例中，第二数据表包括微信属性表、会员表、售后服务表等。在一些实施例中，表1为售后服务表，表2为会员表，表3为第一数据表。将表1中唯一ID1的手机号字段中的‘1*****123’和表2中唯一ID1的手机号字段中的‘1*****789’进行提取并合并存入到表3中唯一ID1的手机号字段。如表1、表2和表3所示，表1和表2均为第二数据表的示例表，表3为第一数据表的示例表。

唯一ID	公开ID	手机号	性别	创建时间	更新时间
						唯一ID1	公开ID1	1*****123	男	2020/1/1	2020/1/1
唯一ID2	公开ID2	1*****456	女	2020/1/3	2020/1/3

表1

唯一ID	手机号	性别	入会时间	创建时间	更新时间
						唯一ID1	1*****789	女	2020/2/1	2020/2/1	2020/2/1
唯一ID2	1*****456	null	2020/2/2	2020/2/2	2020/2/2

表2

表3

可选地，根据第一数据表的字段确定数据提取规则，包括：在第一数据表的字段的属性为多渠道属性的情况下，确定数据提取规则为：在至少两张第二数据表中确定出与字段对应的且优先级最高的数据，对其进行提取。

可选地，依据预设的业务经验对提取的数据的优先级进行判断。在一些实施例中，各类型的第二数据表优先级排序为：售后服务表＞会员表；售后服务表＞微信属性表等。可选地，若优先级最高的第二数据表中的数据为空，则对数据不为空的第二数据表中优先级最高的数据进行提取。

在一些实施例中，获取用户的用户ID，并将该用户的所有用户ID进行关联打通，生成该用户的唯一ID；在第一数据表中的字段为多渠道属性，例如：用户的性别的情况下；从包括该用户的性别的第二数据表中确定出优先级最高的数据，对优先级最高的数据进行提取，存储到第一数据表中的用户的性别字段中。

在一些实施例中，表1为售后服务表，表2为会员表，表3为第一数据表。表2的优先级高于表1，但表2中性别字段为空，则将表1中唯一ID2的性别字段‘女’提取到表3中唯一ID2的性别字段中。

可选地，将各第二数据表的数据按照提取规则提取到第一数据表对应的字段，包括：根据该提取规则生成数据提取脚本；通过运行数据提取脚本对第二数据表中的数据进行提取。

在一些实施例中，运行数据提取脚本对第二数据表中的数据进行提取，包括：获取用户的所有用户ID，并将该用户的所有用户ID进行关联打通，生成该用户的唯一ID；从第二数据表中直接提取与第一数据表中的字段对应的数据；在至少两张第二数据表中均提取与第一数据表中的字段对应的数据；在至少两张第二数据表中确定出与第一数据表中的字段对应的且优先级最高的数据，对其进行提取；若优先级最高的第二数据表中的数据为空，则对数据不为空的第二数据表中优先级最高的数据进行提取。这样，通过运行数据提取脚本能够实现对数据的自动化提取。

可选地，运行数据提取脚本对第二数据表的数据进行提取，包括：对数据提取脚本进行安全检测；在数据提取脚本满足预设条件的情况下，运行数据提取脚本对第二数据表的数据进行提取。

可选地，数据提取脚本满足预设条件，包括：在数据提取脚本的内容中不包含shell(壳)注入、hdfs(Hadoop Distributed File System，分布式文件系统)连接注入、socket(套接字)注入、数据库连接注入等注入风险的情况下，则确定该数据提取脚本满足预设条件，即该数据提取脚本安全性满足要求。

可选地，在数据提取脚本不满足预设条件的情况下，停止运行该数据提取脚本。可选地，在数据提取脚本的内容中不包含shell注入、hdfs连接注入、socket注入、数据库连接注入等注入风险中的一种或多种的情况下，则确定该数据提取脚本不满足预设条件，即该数据提取脚本安全性不满足要求。

可选地，将各第二数据表的数据按照提取规则提取到第一数据表对应的字段后，还包括：获取与第一数据表对应的标签。

可选地，根据第一数据表中的用户数据从预设的数据库中匹配出与第一数据表中的用户数据对应的标签；预设的数据库中存储有第一数据表中的用户数据与标签之间的对应关系。可选地，标签包括购买能力高、购买能力中、购买能力低等。可选地，第一数据表中的用户数据包括用户的行为数据和用户的属性数据。

可选地，每过预设时间段对所述第二数据表和第一数据表进行更新。在一些实施例中，预设时间段为每天。

这样，通过获取若干个第二数据表，并根据第一数据表的字段确定数据提取规则，按照提取规则将各第二数据表的数据提取到第一数据表对应的字段，以能够按照不同数据提取规则对不同字段进行数据提取，降低在待提取的数据存在冲突的情况下数据提取错漏的几率。

结合图2所示，本公开实施例提供一种用于数据提取的装置，包括处理器(processor)100和存储有程序指令的存储器(memory)101。可选地，该装置还可以包括通信接口(Communication Interface)102和总线103。其中，处理器100、通信接口102、存储器101可以通过总线103完成相互间的通信。通信接口102可以用于信息传输。处理器100可以调用存储器101中的程序指令，以执行上述实施例的数据提取的方法。

此外，上述的存储器101中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器101作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令/模块。处理器100通过运行存储在存储器101中的程序指令/模块，从而执行功能应用以及数据处理，即实现上述实施例中用于数据提取的方法。

存储器101可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器101可以包括高速随机存取存储器，还可以包括非易失性存储器。

采用本公开实施例提供的用于数据提取的装置，通过获取若干个第二数据表，并根据第一数据表的字段确定数据提取规则，按照提取规则将各第二数据表的数据提取到第一数据表对应的字段，以能够按照不同数据提取规则对不同字段进行数据提取，降低在待提取的数据存在冲突的情况下数据提取错漏的几率。

本公开实施例提供了一种设备，包含上述的用于数据提取的装置。该设备通过获取若干个第二数据表，并根据第一数据表的字段确定数据提取规则，按照提取规则将各第二数据表的数据提取到第一数据表对应的字段，以能够按照不同数据提取规则对不同字段进行数据提取，降低在待提取的数据存在冲突的情况下数据提取错漏的几率。

可选地，所述设备为电脑、平板、智能手机等。

本公开实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令设置为执行上述用于数据提取的方法。

本公开实施例提供了一种计算机程序产品，计算机程序产品包括存储在计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述用于数据提取的方法。

上述的计算机可读存储介质可以是暂态计算机可读存储介质，也可以是非暂态计算机可读存储介质。

本公开实施例的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括一个或多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质，包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

以上描述和附图充分地示出了本公开的实施例，以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且，本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地，如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本申请中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中，每个实施例重点说明的可以是与其他实施例的不同之处，各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言，如果其与实施例公开的方法部分相对应，那么相关之处可以参见方法部分的描述。

本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能，但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本文所披露的实施例中，所揭露的方法、产品(包括但不限于装置、设备等)，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，可以仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外，在本公开实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中，不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生，有时不同的操作或步骤之间不存在特定的顺序。例如，两个连续的操作或步骤实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种用于数据提取的方法，其特征在于，包括：

获取第一数据表的字段，获取若干个第二数据表；

根据所述第一数据表的字段确定数据提取规则；

2.根据权利要求1所述的方法，其特征在于，所述获取若干个第二数据表，包括：

获取数据日志；

对所述数据日志中的数据进行提取、清洗、转换和加载得到所述第二数据表。

3.根据权利要求1所述的方法，其特征在于，根据所述第一数据表的字段确定数据提取规则，包括：

在所述第一数据表的字段为单渠道属性的情况下，确定数据提取规则为：从所述第二数据表中直接提取与所述字段对应的数据。

4.根据权利要求1所述的方法，其特征在于，根据所述第一数据表的字段确定数据提取规则，包括：

在所述第一数据表的字段为多渠道属性的情况下，确定数据提取规则为：在至少两张所述第二数据表中均提取与所述字段对应的数据。

5.根据权利要求1所述的方法，其特征在于，根据所述第一数据表的字段确定数据提取规则，包括：

在所述第一数据表的字段的属性为多渠道属性的情况下，确定数据提取规则为：在至少两张所述第二数据表中确定出与所述字段对应的且优先级最高的数据，对其进行提取。

6.根据权利要求1所述的方法，其特征在于，将各所述第二数据表的数据按照所述提取规则提取到所述第一数据表对应的字段，包括：

根据所述提取规则生成数据提取脚本；

运行所述数据提取脚本对所述第二数据表的数据进行提取。

7.根据权利要求6所述的方法，其特征在于，运行所述数据提取脚本对所述第二数据表的数据进行提取，包括：

对所述数据提取脚本进行安全检测；

在所述数据提取脚本满足预设条件的情况下，运行所述数据提取脚本对所述第二数据表的数据进行提取。

8.根据权利要求1至7任一项所述的方法，将各所述第二数据表的数据按照所述提取规则提取到所述第一数据表对应的字段后，还包括：

获取与所述第一数据表对应的标签。

9.一种数据提取的装置，包括处理器和存储有程序指令的存储器，其特征在于，所述处理器被配置为在执行所述程序指令时，执行如权利要求1至8任一项所述的数据提取的方法。

10.一种设备，其特征在于，包括如权利要求9所述的数据提取的装置。