CN112131258B

CN112131258B - 数据拼接方法、装置、设备及计算机存储介质

Info

Publication number: CN112131258B
Application number: CN202011007016.7A
Authority: CN
Inventors: 王建华; 周杰
Original assignee: Ainnovation Chongqing Technology Co ltd
Current assignee: Ainnovation Chongqing Technology Co ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2023-03-24
Anticipated expiration: 2040-09-23
Also published as: CN112131258A

Abstract

本申请提供一种数据拼接方法、装置、设备及计算机存储介质，其中，数据拼接方法包括步骤：对数据表中的具有相同用户ID的数据记录进行字段的类别特征聚合，得到字段的类别特征聚合结果；对数据表中的具有相同用户ID的数据记录进行字段的数值特征聚合，得到字段的数值特征聚合结果；对数据表中的具有相同用户ID的数据记录进行字段的数值类别特征聚合，得到字段的数值类别特征聚合结果；根据用户ID将字段的类别特征聚合结果、字段的数值特征聚合结果、字段的数值类别特征聚合结果进行拼接，以得到具有相同用户ID的数据特征拼接结果。本申请能够在完成数据拼接的同时，提高多条数据记录中的有效信息的保留度，以提高拼接后的数据的使用效果。

Description

数据拼接方法、装置、设备及计算机存储介质

技术领域

本申请涉及数据处理领域，具体而言，涉及一种数据拼接方法、装置、设备及计算机存储介质。

背景技术

目前，针对用户的信息一般会存放在多个表中，例如“基本信息数据表”存放用户的个人基本信息，每个用户在表中对应一条记录，每条记录包含性别，年龄，职业，学历等字段，“信用卡信息表”存放用户的信用卡信息，每个用户的每张卡对应表中的一条记录，记录中包含发卡机构，发卡时间，授信额度，还款状态等字段，“贷款信息表”存放的是用户的贷款信息，每个用户的每一笔贷款对应表中的一条记录，记录中包含“贷款机构”，“发放日期”，“币种”，“本月还款”等字段，其他的还包括“信息查询记录表”，“个人资产信息表”等等。

在某些应用场景下，需要将多个数据表中的数据进行拼接，而传统的处理方法是在拼接的过程中针对数据表中同一个ID的多条记录只取一条进行拼接，其余的数据丢弃掉，这种处理方式存在有效信息大量丢失的缺点，影响后续的数据应用效果，例如降低了基于数据拼接的模型学习效果。

发明内容

本申请实施例的目的在于提供一种数据拼接方法、装置、设备及计算机存储介质，用以在完成数据拼接的同时，能够提高多条数据记录中的有效信息的保留度，以提高拼接后的数据的使用效果。

为此，本申请第一方面公开一种数据拼接方法，所述方法包括步骤：

对数据表中的具有相同用户ID的数据记录进行字段的类别特征聚合，得到所述字段的类别特征聚合结果；

对所述数据表中的所述具有相同用户ID的数据记录进行字段的数值特征聚合，得到所述字段的数值特征聚合结果；

对所述数据表中的所述具有相同用户ID的数据记录进行字段的数值类别特征聚合，得到所述字段的数值类别特征聚合结果；

根据所述用户ID将所述字段的类别特征聚合结果、所述字段的数值特征聚合结果、所述字段的数值类别特征聚合结果进行拼接，以得到所述具有相同用户ID的数据特征拼接结果。

在本申请第一方面中，通过对有相同用户ID的数据记录进行字段的类别特征、字段的数值特征、字段的数值类别特征的聚合能够在对相同用户ID的数据记录进行拼接时，提高有效数据的保留，降低有效数据的损失。

在本申请第一方面中，作为一种可选的实施方式，所述对数据表中的具有相同用户ID的数据记录进行字段的类别特征聚合，得到所述字段的类别特征聚合结果，包括子步骤：

根据所述字段的类别总数确定编码序列的位个数；

根据所述字段在所述数据记录的类别对所述编码序列中进行编码，其中，编码后的所述编码序列包一个有效编码位，所述有效编码位的位值为1；

将所述具有相同用户ID的数据记录中每条所述数据记录的所述编码序列进行位值累加运算，以得到总编码序列；

将所述总编码序列作为所述字段的类别特征聚合结果。

在本可选的实施方式中，通过One-Hot编码机制可得到字段的类别特征聚合结果，其中，进而能够包括多条数据记录中字段的类别特征，以便于后续基于字段的类别特征对数据记录进行运用。

在本申请第一方面中，作为一种可选的实施方式，所述对所述数据表中的所述具有相同用户ID的数据记录进行字段的数值特征聚合，得到所述字段的数值特征聚合结果，包括：

比较确定出所述具有相同用户ID的数据记录中字段的最大值、最小值；

计算所述具有相同用户ID的数据记录中字段的数值的均值及方差；

将所述最大值、所述最小值、所述均值及所述方差作为所述字段的数值特征聚合结果。

在本可选的实施方式中，通过比较多条数据记录可确定字段的最大值、最小值，另一方面通过计算出字段的多个数值的均值及方差，可进一步保留字段的数值特征。

在本申请第一方面中，作为一种可选的实施方式，所述对所述数据表中的所述具有相同用户ID的数据记录进行字段的数值类别特征聚合，得到所述字段的数值类别特征聚合结果，包括：

根据所述最大值的所属数值区域确定所述最大值的数值类型；

根据所述最小值的所属数值区域确定所述最小值的数值类型；

根据所述均值的所属数值区域确定所述均值的数值类型；

将所述最大值的数值类型、所述最小值的数值类型、所述均值的数值类型作为所述字段的数值类别特征聚合结果。

在本可选的实施方式中，通过确定字段的最大值的数值类型、最小值的数值类型、均值的数值类型，可进一步保留字段的数值特征。

在本申请第一方面中，作为一种可选的实施方式，所述字段的数值特征聚合结果还包括字段的数值个数；

以及，所述对所述数据表中的所述具有相同用户ID的数据记录进行字段的数值特征聚合，得到所述字段的数值特征聚合结果，还包括：

统计具有相同用户ID的数据记录中的数据记录条数；

根据所述数据记录条数确定所述字段的数值个数。

在本可选的实施方式中，通过根据数据记录条数确定字段的数值个数，进而可进一步保留字段的数值特征。

在本申请第一方面中，作为一种可选的实施方式，字段的数值特征聚合结果还包括字段的数值的中位数。

在本可选的实施方式中，通过保留字段的多个数值的中位数，可进一步保留字段的数值特征。

在本申请第一方面中，作为一种可选的实施方式，在根据用户ID将字段的类别特征聚合结果、字段的数值特征聚合结果、字段的数值类别特征聚合结果进行拼接，以得到具有相同用户ID的数据特征拼接结果之后，本申请实施例的方法还包括：

根据ID将至少两个数据表的数据特征拼接结果进行拼接，以拼接至少两个数据表。

在本可选的实施方式中，在对一个数据表中的多条数据记录进行数据拼接后，还能够将两个数据表的数据拼接结果进行再次拼接，进而可提高两个数据表中的有效数据的保留度。

本申请第二方面公开一种数据拼接装置，该装置包括：

第一聚合模块，用于对数据表中的具有相同用户ID的数据记录进行字段的类别特征聚合，得到字段的类别特征聚合结果；

第二聚合模块，对数据表中的具有相同用户ID的数据记录进行字段的数值特征聚合，得到字段的数值特征聚合结果；

第三聚合模块，对数据表中的具有相同用户ID的数据记录进行字段的数值类别特征聚合，得到字段的数值类别特征聚合结果；

第一拼接模块，根据用户ID将字段的类别特征聚合结果、字段的数值特征聚合结果、字段的数值类别特征聚合结果进行拼接，以得到具有相同用户ID的数据特征拼接结果。

本申请第二方面的装置通过执行数据拼接方法，能够对有相同用户ID的数据记录进行字段的类别特征、字段的数值特征、字段的数值类别特征的聚合，进而能够在对相同用户ID的数据记录进行拼接时，提高有效数据的保留，降低有效数据的损失。

本申请第三方面公开一种数据拼接设备，该设备包括：

处理器；以及

存储器，配置用于存储机器可读指令，指令在由处理器执行时，执行本申请的数据拼接方法。

本申请第三方面的设备通过执行数据拼接方法，能够对有相同用户ID的数据记录进行字段的类别特征、字段的数值特征、字段的数值类别特征的聚合，进而能够在对相同用户ID的数据记录进行拼接时，提高有效数据的保留，降低有效数据的损失。

本申请第四方面公开一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序被处理器执行本申请的数据拼接方法。

本申请第四方面的计算机存储介质通过执行数据拼接方法，能够对有相同用户ID的数据记录进行字段的类别特征、字段的数值特征、字段的数值类别特征的聚合，进而能够在对相同用户ID的数据记录进行拼接时，提高有效数据的保留，降低有效数据的损失。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例公开的一种数据拼接方法的流程示意图；

图2是本申请实施例公开的一种字段的类别特征聚合过程示意图；

图3是本申请实施例公开的一种字段的数值特征聚合过程示意图；

图4是本申请实施例公开的一种字段的数值类别特征聚合过程示意图；

图5是本申请实施例公开的一种两个数据表拼接过程示意图；

图6是本申请实施例公开的一种数据特征拼接结果的结构示意图；

图7是本申请实施例公开的一种数据拼接装置的结构示意图；

图8是本申请实施例公开的一种数据拼接设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

实施例一

请参阅图1，图1是本申请实施例公开的一种数据拼接方法的流程示意图。如图1所示，该数据拼接方法包括步骤：

101、对数据表中的具有相同用户ID的数据记录进行字段的类别特征聚合，得到字段的类别特征聚合结果；

102、对数据表中的具有相同用户ID的数据记录进行字段的数值特征聚合，得到字段的数值特征聚合结果；

103、对数据表中的具有相同用户ID的数据记录进行字段的数值类别特征聚合，得到字段的数值类别特征聚合结果；

104、根据用户ID将字段的类别特征聚合结果、字段的数值特征聚合结果、字段的数值类别特征聚合结果进行拼接，以得到具有相同用户ID的数据特征拼接结果。

在本申请实施例中，通过对有相同用户ID的数据记录进行字段的类别特征、字段的数值特征、字段的数值类别特征的聚合能够在对相同用户ID的数据记录进行拼接时，提高有效数据的保留，降低有效数据的损失。

在本申请实施例中，作为一种可选的实施方式，步骤101：对数据表中的具有相同用户ID的数据记录进行字段的类别特征聚合，得到字段的类别特征聚合结果，包括子步骤：

根据字段的类别总数确定编码序列的位个数；

根据字段在数据记录的类别对编码序列中进行编码，其中，编码后的编码序列包一个有效编码位，有效编码位的位值为1；

将具有相同用户ID的数据记录中每条数据记录的编码序列进行位值累加运算，以得到总编码序列；

将总编码序列作为字段的类别特征聚合结果。

示例性地，如图2所示，可将表A中的4条具有相同用户ID的数据记录进行字段的类别特征聚合。再示例性地，可将表B中的4条具有相同用户ID的数据记录进行字段的类别特征聚合。

在本申请实施例中，作为一种可选的实施方式，步骤102：对数据表中的具有相同用户ID的数据记录进行字段的数值特征聚合，得到字段的数值特征聚合结果，包括子步骤：

比较确定出具有相同用户ID的数据记录中字段的最大值、最小值；

计算具有相同用户ID的数据记录中字段的数值的均值及方差；

将最大值、最小值、均值及方差作为字段的数值特征聚合结果。

示例性地，如图3所示，可将4条具有相同用户ID的数据记录进行字段的数值特征聚合。

在本申请实施例中，作为一种可选的实施方式，步骤103：对数据表中的具有相同用户ID的数据记录进行字段的数值类别特征聚合，得到字段的数值类别特征聚合结果，包括子步骤：

根据最大值的所属数值区域确定最大值的数值类型；

根据最小值的所属数值区域确定最小值的数值类型；

根据均值的所属数值区域确定均值的数值类型；

将最大值的数值类型、最小值的数值类型、均值的数值类型作为字段的数值类别特征聚合结果。

示例性地，如图4所示，假设数据表中包括4条具有相同用户ID的数据记录，其中，4条具有相同用户ID的数据记录中的某一个字段的数值分别为“100”、“200”、“300”、“100”，进而确定4条数据记录中最小值和、最大值及均值的数值类别分别为“1”、“3”、“2”。

在本申请实施例中，作为一种可选的实施方式，字段的数值特征聚合结果还包括字段的数值个数；

以及，步骤102：对数据表中的具有相同用户ID的数据记录进行字段的数值特征聚合，得到字段的数值特征聚合结果，还包括子步骤：

统计具有相同用户ID的数据记录中的数据记录条数；

根据数据记录条数确定字段的数值个数。

在本申请实施例中，作为一种可选的实施方式，字段的数值特征聚合结果还包括字段的数值的中位数。

在本申请实施例中，作为一种可选的实施方式，在根据用户ID将字段的类别特征聚合结果、字段的数值特征聚合结果、字段的数值类别特征聚合结果进行拼接，以得到具有相同用户ID的数据特征拼接结果之后，本申请实施例的方法还包括步骤：

在本可选的实施方式中，如图5所示，在对一个数据表中的多条数据记录进行数据拼接后，还能够将两个数据表的数据拼接结果进行再次拼接，进而可提高两个数据表中的有效数据的保留度。与此同时，本申请实施例的两个数据表中的数据记录拼接方式，可避免直接拼接数据造成的数据爆炸这一类问题。

需要说明的是，本申请实施例获得的数据特征拼接结果如图6所示。

实施例二

请参阅图7，图7是本申请实施例公开的一种数据拼接装置的结构示意图。如图7所示，该数据拼接装置包括：

第一聚合模块201，用于对数据表中的具有相同用户ID的数据记录进行字段的类别特征聚合，得到字段的类别特征聚合结果；

第二聚合模块202，对数据表中的具有相同用户ID的数据记录进行字段的数值特征聚合，得到字段的数值特征聚合结果；

第三聚合模块203，对数据表中的具有相同用户ID的数据记录进行字段的数值类别特征聚合，得到字段的数值类别特征聚合结果；

第一拼接模块204，根据用户ID将字段的类别特征聚合结果、字段的数值特征聚合结果、字段的数值类别特征聚合结果进行拼接，以得到具有相同用户ID的数据特征拼接结果。

本申请实施例的装置通过执行数据拼接方法，能够对有相同用户ID的数据记录进行字段的类别特征、字段的数值特征、字段的数值类别特征的聚合，进而能够在对相同用户ID的数据记录进行拼接时，提高有效数据的保留，降低有效数据的损失。

在本申请实施例中，作为一种可选的实施方式，第一聚合模块201执行对数据表中的具有相同用户ID的数据记录进行字段的类别特征聚合，得到字段的类别特征聚合结果的具体方式为：

根据字段的类别总数确定编码序列的位个数；

将总编码序列作为字段的类别特征聚合结果。

在本申请实施例中，作为一种可选的实施方式，第二聚合模块202执行对数据表中的具有相同用户ID的数据记录进行字段的数值特征聚合，得到字段的数值特征聚合结果的具体方式为：

在本申请实施例中，作为一种可选的实施方式，第三聚合模块203执行对数据表中的具有相同用户ID的数据记录进行字段的数值类别特征聚合，得到字段的数值类别特征聚合结果的具体方式为：

根据最大值的所属数值区域确定最大值的数值类型；

根据最小值的所属数值区域确定最小值的数值类型；

根据均值的所属数值区域确定均值的数值类型；

以及，第二聚合模块202执行对数据表中的具有相同用户ID的数据记录进行字段的数值特征聚合，得到字段的数值特征聚合结果的具体方式还包括：

统计具有相同用户ID的数据记录中的数据记录条数；

根据数据记录条数确定字段的数值个数。

实施例三

请参阅图8，图8是本申请实施例公开的一种数据拼接设备的结构示意图。如图8所示，该数据拼接设备包括：

处理器401；以及

存储器402，配置用于存储机器可读指令，指令在由处理器401执行时，执行本申请实施例一的数据拼接方法。

本申请实施例的设备通过执行数据拼接方法，能够对有相同用户ID的数据记录进行字段的类别特征、字段的数值特征、字段的数值类别特征的聚合，进而能够在对相同用户ID的数据记录进行拼接时，提高有效数据的保留，降低有效数据的损失。

实施例四

本申请实施例公开一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序被处理器执行本申请实施例一的数据拼接方法。

本申请实施例的计算机存储介质通过执行数据拼接方法，能够对有相同用户ID的数据记录进行字段的类别特征、字段的数值特征、字段的数值类别特征的聚合，进而能够在对相同用户ID的数据记录进行拼接时，提高有效数据的保留，降低有效数据的损失。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

需要说明的是，功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据拼接方法，其特征在于，所述方法包括：

根据所述用户ID将所述字段的类别特征聚合结果、所述字段的数值特征聚合结果、所述字段的数值类别特征聚合结果进行拼接，以得到所述具有相同用户ID的数据特征拼接结果；

以及，所述对数据表中的具有相同用户ID的数据记录进行字段的类别特征聚合，得到所述字段的类别特征聚合结果，包括：

根据所述字段的类别总数确定编码序列的位个数；

将所述总编码序列作为所述字段的类别特征聚合结果；

将所述最大值、所述最小值、所述均值及所述方差作为所述字段的数值特征聚合结果；

以及，所述对所述数据表中的所述具有相同用户ID的数据记录进行字段的数值类别特征聚合，得到所述字段的数值类别特征聚合结果，包括：

根据所述均值的所属数值区域确定所述均值的数值类型；

2.如权利要求1所述的数据拼接方法，其特征在于，所述字段的数值特征聚合结果还包括字段的数值个数；

统计具有相同用户ID的数据记录中的数据记录条数；

根据所述数据记录条数确定所述字段的数值个数。

3.如权利要求1所述的数据拼接方法，其特征在于，所述字段的数值特征聚合结果还包括字段的数值的中位数。

4.如权利要求1所述的数据拼接方法，其特征在于，在所述根据所述用户ID将所述字段的类别特征聚合结果、所述字段的数值特征聚合结果、所述字段的数值类别特征聚合结果进行拼接，以得到所述具有相同用户ID的数据特征拼接结果之后，所述方法还包括：

根据ID将至少两个数据表的数据特征拼接结果进行拼接，以拼接所述至少两个数据表。

5.一种数据拼接装置，其特征在于，包括：

第一聚合模块，用于对数据表中的具有相同用户ID的数据记录进行字段的类别特征聚合，得到所述字段的类别特征聚合结果；

第二聚合模块，对所述数据表中的所述具有相同用户ID的数据记录进行字段的数值特征聚合，得到所述字段的数值特征聚合结果；

第三聚合模块，对所述数据表中的所述具有相同用户ID的数据记录进行字段的数值类别特征聚合，得到所述字段的数值类别特征聚合结果；

第一拼接模块，根据所述用户ID将所述字段的类别特征聚合结果、所述字段的数值特征聚合结果、所述字段的数值类别特征聚合结果进行拼接，以得到所述具有相同用户ID的数据特征拼接结果；

以及，第一拼接模块具体用于根据所述字段的类别总数确定编码序列的位个数；

将所述总编码序列作为所述字段的类别特征聚合结果；

以及，所述第一拼接模块具体用于：

根据所述均值的所属数值区域确定所述均值的数值类型；

6.一种数据拼接设备，其特征在于，包括：

处理器；以及

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，执行如权利要求1-4任一项所述的数据拼接方法。

7.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行如权利要求1-4任一项所述的数据拼接方法。