CN116303459A - 处理数据表的方法及系统 - Google Patents

处理数据表的方法及系统 Download PDF

Info

Publication number
CN116303459A
CN116303459A CN202310273245.0A CN202310273245A CN116303459A CN 116303459 A CN116303459 A CN 116303459A CN 202310273245 A CN202310273245 A CN 202310273245A CN 116303459 A CN116303459 A CN 116303459A
Authority
CN
China
Prior art keywords
field
layer
data
sample
basic sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310273245.0A
Other languages
English (en)
Inventor
秦川
周振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN202310273245.0A priority Critical patent/CN116303459A/zh
Publication of CN116303459A publication Critical patent/CN116303459A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供了一种处理数据表的方法及系统。所述处理数据表的方法包括:获取基础样本表和至少一个关联数据表;针对基础样本表中的每条基础样本,使用特定结构的神经网络对所述至少一个关联数据表中的与该条基础样本关联的数据进行处理,得到与该条基础样本对应的特征。根据所述处理数据表的方法及系统,能够使用神经网络来实现数据表拼接及特征提取。

Description

处理数据表的方法及系统
本申请是申请日为2019年11月28日、申请号为201911189241.4、题为“处理数据表的方法及系统”的专利申请的分案申请。
技术领域
本发明总体说来涉及数据处理领域,更具体地讲,涉及一种处理数据表的方法及系统。
背景技术
随着各行业海量数据的出现,需要在越来越多的场景下对数据进行各种处理,例如,数据表拼接、特征提取等处理。
神经网络虽然在图像、语音、文本等输入较为标准的领域比较通用,但对于数据集多样、数据表较多的场景下的机器学习问题依然没有通用的方案,通常需要人工手动进行多表拼接、特征提取,然后再基于提取的特征使用神经网络进行机器学习模型训练或机器学习模型预测。
发明内容
本发明的示例性实施例在于提供一种处理数据表的方法及系统,其能够使用特定结构的神经网络来实现数据表拼接及特征提取。
根据本发明的示例性实施例,提供一种处理数据表的方法,包括:获取基础样本表和至少一个关联数据表;针对基础样本表中的每条基础样本,使用特定结构的神经网络对所述至少一个关联数据表中的与该条基础样本关联的数据进行处理,得到与该条基础样本对应的特征。
可选地,所述至少一个关联数据表包括:至少一个静态表和/或至少一个流水表。
可选地,基础样本表中的字段包括:至少一个主体ID字段、时间字段和标签字段;所述至少一个静态表的主键是主体ID字段;所述至少一个流水表的主键是主体ID字段和时间字段。
可选地,所述特定结构的神经网络包括:多个隐藏层、第一拼接层、第二拼接层和融合层,其中,针对基础样本表中的每条基础样本,使用特定结构的神经网络对所述至少一个关联数据表中的与该条基础样本关联的数据进行处理,得到与该条基础样本对应的特征的步骤包括:针对基础样本表中的每条基础样本,将每个静态表中与该条基础样本对应的数据记录中属于每种字段类型的字段的字段值,输入到所述多个隐藏层之中与该字段类型对应的隐藏层,其中,与所述至少一个静态表中的各个字段类型一一对应的隐藏层的输出作为第一拼接层的输入;针对基础样本表中的每条基础样本,将每个流水表中与该条基础样本对应的数据记录中属于每种字段类型的字段的字段值,输入到所述多个隐藏层之中与该字段类型对应的隐藏层,其中,与所述至少一个流水表中的各个字段类型一一对应的隐藏层的输出经由第二拼接层作为所述多个隐藏层中的特定隐藏层的输入;将所述融合层输出的向量作为:与基础样本表中的每条基础样本对应的特征,其中,第一拼接层的输出和所述特定隐藏层的输出作为所述融合层的输入,其中,所述特定隐藏层的输入为向量序列,且输出为固定维度的向量。
可选地,与所述至少一个静态表中的类别型字段对应的隐藏层为:第一嵌入层,其中,第一嵌入层的输出为嵌入向量;与所述至少一个静态表中的时间字段对应的隐藏层为:做差层,其中,所述做差层用于将静态表中的时间字段的字段值与基础样本表中的时间字段的字段值做差;与所述至少一个流水表中的类别型字段对应的隐藏层为:第二嵌入层,其中,第二嵌入层的输出为嵌入向量。
可选地,与所述至少一个静态表中的数值型字段对应的隐藏层为:第一全连接层;与所述至少一个流水表中的数值型字段对应的隐藏层为:第二全连接层。
可选地,将每个流水表中与该条基础样本对应的数据记录中属于每种字段类型的字段的字段值,输入到所述多个隐藏层之中与该字段类型对应的隐藏层的步骤包括:针对基础样本表中的每条基础样本,针对每个流水表将该流水表之中至少一个主体ID字段的字段值与该条基础样本的相同的数据记录按照其时间字段值进行排序,并从排序后的数据记录中确定时间字段值在该条基础样本的时间字段值之前的N条数据记录;针对该流水表中的每个类别型字段,按照所述N条数据记录的排序,将所述N条数据记录中该类别型字段的字段值排序为对应的时间序列,并将得到的时间序列输入到第二嵌入层;针对该流水表中的每个数值型字段,按照所述N条数据记录的排序,将所述N条数据记录中该数值型字段的字段值排序为对应的时间序列,并将得到的时间序列输入到第二全连接层。
可选地,所述特定隐藏层为由长短期记忆网络LSTM构成的隐藏层。
可选地,所述特定结构的神经网络还包括:第三全连接层和输出层,其中,所述融合层的输出经由第三全连接层作为输出层的输入,其中,输出层用于输出预测的结果。
可选地,基础样本表中的主体ID字段包括用户ID字段,标签字段指示信用卡申请评分;所述至少一个静态表包括以下项之中的至少一项:用户信息表、资产表、人行征信信息表;所述至少一个流水表包括:银行交易流水表。
可选地,基础样本表中的主体ID字段包括用户ID字段和商品ID字段,标签字段指示用户是否会购买该商品;所述至少一个静态表包括以下项之中的至少一项:用户信息表和商品信息表;所述至少一个流水表包括:互联网用户行为记录表。
根据本发明的另一示例性实施例,提供一种处理数据表的系统,包括:数据表获取装置,适于获取基础样本表和至少一个关联数据表;数据表处理装置,适于针对基础样本表中的每条基础样本,使用特定结构的神经网络对所述至少一个关联数据表中的与该条基础样本关联的数据进行处理,得到与该条基础样本对应的特征。
可选地,所述至少一个关联数据表包括:至少一个静态表和/或至少一个流水表。
可选地,基础样本表中的字段包括:至少一个主体ID字段、时间字段和标签字段;所述至少一个静态表的主键是主体ID字段;所述至少一个流水表的主键是主体ID字段和时间字段。
可选地,所述特定结构的神经网络包括:多个隐藏层、第一拼接层、第二拼接层和融合层,其中,数据表处理装置适于针对基础样本表中的每条基础样本,将每个静态表中与该条基础样本对应的数据记录中属于每种字段类型的字段的字段值,输入到所述多个隐藏层之中与该字段类型对应的隐藏层,其中,与所述至少一个静态表中的各个字段类型一一对应的隐藏层的输出作为第一拼接层的输入;数据表处理装置适于针对基础样本表中的每条基础样本,将每个流水表中与该条基础样本对应的数据记录中属于每种字段类型的字段的字段值,输入到所述多个隐藏层之中与该字段类型对应的隐藏层,其中,与所述至少一个流水表中的各个字段类型一一对应的隐藏层的输出经由第二拼接层作为所述多个隐藏层中的特定隐藏层的输入;数据表处理装置适于将所述融合层输出的向量作为:与基础样本表中的每条基础样本对应的特征,其中,第一拼接层的输出和所述特定隐藏层的输出作为所述融合层的输入,其中,所述特定隐藏层的输入为向量序列,且输出为固定维度的向量。
可选地,与所述至少一个静态表中的类别型字段对应的隐藏层为:第一嵌入层,其中,第一嵌入层的输出为嵌入向量;与所述至少一个静态表中的时间字段对应的隐藏层为:做差层,其中,所述做差层用于将静态表中的时间字段的字段值与基础样本表中的时间字段的字段值做差;与所述至少一个流水表中的类别型字段对应的隐藏层为:第二嵌入层,其中,第二嵌入层的输出为嵌入向量。
可选地,与所述至少一个静态表中的数值型字段对应的隐藏层为:第一全连接层;与所述至少一个流水表中的数值型字段对应的隐藏层为:第二全连接层。
可选地,数据表处理装置适于针对基础样本表中的每条基础样本,针对每个流水表将该流水表之中至少一个主体ID字段的字段值与该条基础样本的相同的数据记录按照其时间字段值进行排序,并从排序后的数据记录中确定时间字段值在该条基础样本的时间字段值之前的N条数据记录;针对该流水表中的每个类别型字段,按照所述N条数据记录的排序,将所述N条数据记录中该类别型字段的字段值排序为对应的时间序列,并将得到的时间序列输入到第二嵌入层;并针对该流水表中的每个数值型字段,按照所述N条数据记录的排序,将所述N条数据记录中该数值型字段的字段值排序为对应的时间序列,并将得到的时间序列输入到第二全连接层。
可选地,所述特定隐藏层为由长短期记忆网络LSTM构成的隐藏层。
可选地,所述特定结构的神经网络还包括:第三全连接层和输出层,其中,所述融合层的输出经由第三全连接层作为输出层的输入,其中,输出层用于输出预测的结果。
可选地,基础样本表中的主体ID字段包括用户ID字段,标签字段指示信用卡申请评分;所述至少一个静态表包括以下项之中的至少一项:用户信息表、资产表、人行征信信息表;所述至少一个流水表包括:银行交易流水表。
可选地,基础样本表中的主体ID字段包括用户ID字段和商品ID字段,标签字段指示用户是否会购买该商品;所述至少一个静态表包括以下项之中的至少一项:用户信息表和商品信息表;所述至少一个流水表包括:互联网用户行为记录表。
根据本发明的另一示例性实施例,提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的处理数据表的方法。
根据本发明的另一示例性实施例,提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的处理数据表的方法。
根据本发明示例性实施例的处理数据表的方法及系统,通过使用特定结构的神经网络来实现数据表拼接及特征提取。进一步地,通过将数据表拼接及特征提取步骤融入到神经网络的结构中,能够实现基于指定的数据表通过神经网络自动生成机器学习模型或进行机器学习模型预测。
将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本发明示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本发明示例性实施例的处理数据表的方法的流程图;
图2示出根据本发明示例性实施例的特定结构的神经网络的示例;
图3示出根据本发明示例性实施例的特定结构的神经网络的另一示例;
图4示出根据本发明示例性实施例的处理数据表的系统的框图。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
图1示出根据本发明示例性实施例的处理数据表的方法的流程图。
参照图1,在步骤S10,获取基础样本表和至少一个关联数据表。
这里,所述至少一个关联数据表与基础样本表相关联,例如,所述至少一个关联数据表的主键的字段值包括基础样本表中的主体ID字段的字段值。
作为示例,基础样本表中的字段可包括:至少一个主体ID字段、时间字段和标签(label)字段。这里,标签字段即使用机器学习技术要预测的目标;时间字段可指示对应的基础样本的预测时间点。例如,针对回归问题,标签字段的字段值可为一个或多个数值;针对分类问题,标签字段的字段值可为类别编号。
作为示例,所述至少一个关联数据表可包括:至少一个静态表和/或至少一个流水表。
作为示例,所述至少一个静态表可用于描述主体ID的属性信息。作为示例,所述至少一个静态表的主键可以是主体ID字段。
作为示例,所述至少一个流水表的主键可以是主体ID字段和时间字段。例如,流水表可以是银行交易流水表,或者,互联网用户行为记录表。
在步骤S20,针对基础样本表中的每条基础样本,使用特定结构的神经网络对所述至少一个关联数据表中的与该条基础样本关联的数据进行处理,得到与该条基础样本对应的特征。
即,以基础样本表中的每条基础样本为索引来将所述至少一个关联数据表中与该条基础样本相关联的数据输入到所述特定结构的神经网络,以通过所述特定结构的神经网络得到与该条基础样本对应的特征,从而达到与执行下述操作相一致的效果:将所述至少一个关联数据表拼接到基础样本表,并对拼接得到的数据表进行特征提取。
作为示例,所述至少一个关联数据表中的与每条基础样本关联的数据可包括:所述至少一个关联数据表中的与该条基础样本对应的数据记录中的字段值。例如,每个静态表中与每条基础样本对应的数据记录可为:该静态表之中主体ID字段的字段值与该条基础样本的主体ID字段的字段值相同的数据记录。
作为示例,所述至少一个关联数据表之中不同类型的数据表的数据可输入到所述特定结构的神经网络中的不同隐藏层。作为示例,所述至少一个关联数据表之中不同类型的字段的字段值可输入到所述特定结构的神经网络中的不同隐藏层。
作为示例,后续可基于由每条基础样本中的标签字段的字段值和得到的与该条基础样本对应的特征组成的机器学习样本来自动训练对应的机器学习模型。
作为另一示例,后续可将得到的与每条基础样本对应的特征输入到训练好的机器学习模型,来得到对应的预测结果。
作为示例,根据本发明示例性实施例的处理数据表的方法可应用于推荐(例如,商品推荐等)场景、信用卡申请场景等需要使用数据表进行机器学习的场景。
作为示例,当根据本发明示例性实施例的处理数据表的方法应用于信用卡申请场景时,基础样本表中的主体ID字段可包括用户ID字段,标签字段可指示信用卡申请评分;所述至少一个静态表可包括以下项之中的至少一项:用户信息表、资产表、人行征信信息表;所述至少一个流水表可包括:银行交易流水表。
作为另一示例,当根据本发明示例性实施例的处理数据表的方法应用于商品推荐场景时,基础样本表中的主体ID字段可包括用户ID字段和商品ID字段这两个主体ID字段,标签字段可指示用户是否会购买该商品;所述至少一个静态表可包括以下项之中的至少一项:用户信息表和商品信息表;所述至少一个流水表可包括:互联网用户行为记录表。互联网用户行为记录表中的字段可包括:用户ID字段、商品ID字段、时间字段、行为字段(指示浏览、购买等行为)、以及其他的用于描述该次行为的属性字段(例如,金额字段等)。
图2示出根据本发明示例性实施例的特定结构的神经网络的示例。
如图2所示,所述特定结构的神经网络可包括:多个隐藏层、第一拼接层、第二拼接层和融合层;与所述至少一个静态表中的各个字段类型一一对应的隐藏层的输出作为第一拼接层的输入;与所述至少一个流水表中的各个字段类型一一对应的隐藏层的输出经由第二拼接层作为所述多个隐藏层中的特定隐藏层的输入;第一拼接层的输出和所述特定隐藏层的输出作为所述融合层的输入。
相应地,步骤S20可包括:针对基础样本表中的每条基础样本,将每个静态表中与该条基础样本对应的数据记录中属于每种字段类型的字段的字段值,输入到所述多个隐藏层之中与该字段类型对应的隐藏层;针对基础样本表中的每条基础样本,将每个流水表中与该条基础样本对应的数据记录中属于每种字段类型的字段的字段值,输入到所述多个隐藏层之中与该字段类型对应的隐藏层;并将所述融合层输出的向量作为:与基础样本表中的每条基础样本对应的特征。
作为示例,字段类型可包括:类别型字段、数值型字段和时间字段。具体说来,类别型字段可指字段的字段值用于指示无序类别(例如,性别、职业、地区等),类别型字段的字段值没有大小之分;数值型字段可指字段具有作为连续性数值的字段值(例如,年龄值、金额等);时间字段可指字段的字段值用于指示时间(例如,银行卡的注册日期、生日等)。
作为示例,可将所述至少一个关联数据表中的类别型字段的字段值输入到所述特定结构的神经网络中的嵌入层(Embedding),其中,嵌入层的输出为嵌入向量。嵌入层能够利用固定维度的向量来表示高维度的类别特征。
具体地,作为示例,与所述至少一个静态表中的类别型字段对应的隐藏层可为:第一嵌入层;与所述至少一个流水表中的类别型字段对应的隐藏层可为:第二嵌入层。
作为示例,可将所述至少一个关联数据表中的数值型字段的字段值输入到所述特定结构的神经网络中的全连接层(Dense)。全连接层的输入和输出可为指定大小的向量。数值型字段的字段值在输入全连接层之前,不需要妆化成向量,这是因为数据表本身就是结构化数据,假设有m行、n个字段值需要输入到全连接层,那么输入就是m*n大小的二维向量。
具体地,作为示例,与所述至少一个静态表中的数值型字段对应的隐藏层可为:第一全连接层;与所述至少一个流水表中的数值型字段对应的隐藏层可为:第二全连接层。
作为示例,与所述至少一个静态表中的时间字段对应的隐藏层可为:做差层,其中,所述做差层用于将静态表中的时间字段的字段值与基础样本表中的时间字段的字段值做差。例如,针对基础样本表中的每条基础样本,所述做差层可将每个静态表中与该条基础样本对应的数据记录中的时间字段值与该条基础样本中的时间字段值做差。
作为示例,所述特定隐藏层的输入可为向量序列,且输出可为固定维度的向量,从而能够携带时序信息。
作为示例,所述特定隐藏层可为由长短期记忆网络(Long Short-Term Memory,LSTM)构成的隐藏层。长短期记忆网络结构能够将向量序列转换为一个固定维度的向量,使得得到的固定维度的向量中包含序列信息。应该理解,所述特定隐藏层也可由其他类型的神经网络构成,例如,循环神经网络(Recurrent Neural Networks,RNN)、卷积神经网络(Convolutional Neural Networks,CNN),本发明对此不作限制。
作为示例,所述特定结构的神经网络中的拼接层(Concat)的输入可以是多个向量,输出可以是将所述多个向量拼接起来而形成的新向量。
作为示例,所述特定结构的神经网络中的融合层(Merge)可采用以下融合方式中的至少一种来对向量进行融合:拼接、加法、减法。应该理解,也可采用其他适合的融合方式。
作为示例,针对基础样本表中的每条基础样本,将每个流水表中与该条基础样本对应的数据记录中属于每种字段类型的字段的字段值,输入到所述多个隐藏层之中与该字段类型对应的隐藏层的步骤可包括:针对基础样本表中的每条基础样本,针对每个流水表将该流水表之中至少一个主体ID字段的字段值与该条基础样本的相同的至少一条数据记录按照该数据记录的时间字段值由先至后进行排序,并从排序后的数据记录中确定时间字段值在该条基础样本的时间字段值之前且距该时间字段值最近的N条数据记录;针对该流水表中的每个类别型字段,按照所述N条数据记录的排序,将所述N条数据记录中该类别型字段的字段值排序为对应的时间序列,并将得到的时间序列输入到第二嵌入层;并针对该流水表中的每个数值型字段,按照所述N条数据记录的排序,将所述N条数据记录中该数值型字段的字段值排序为对应的时间序列,并将得到的时间序列输入到第二全连接层。应该理解,上述时间序列输入到所述特定结构的神经网络后,能够得到相应的时序特征。
作为示例,由于基础样本表可包括:一个或多个主体ID字段,当基础样本表包括多个主体ID字段时,可定义关于多个主体ID字段的不同主体组合。例如,当基础样本表包括:主体ID1字段和主体ID2字段时,不同主体组合可包括:(主体ID1字段)、(主体ID2字段)以及(主体ID1字段,主体ID2字段)。相应地,可针对基础样本表中的每条基础样本,分别针对每种主体组合,将每个流水表之中该种主体组合对应的字段值与该条基础样本的相同的至少一条数据记录按照其时间字段值由先至后进行排序,再基于排序后的数据记录来得到对应的时间序列。
作为示例,当所述至少一个关联数据表仅包括静态表时,述特定结构的神经网络可仅包括:第一嵌入层、第一全连接层、做差层、第一拼接层和融合层。例如,当所述至少一个关联数据表仅包括一个静态表时,融合层也可省略。
作为另一示例,当所述至少一个关联数据表仅包括流水表时,述特定结构的神经网络可仅包括:第二嵌入层、第二全连接层、第二拼接层、所述特定隐藏层和融合层。例如,当所述至少一个关联数据表仅包括一个流水表时,融合层也可省略。
图3示出根据本发明示例性实施例的特定结构的神经网络的另一示例。
如图3所示,所述特定结构的神经网络除可包括参照图2所描述的多个隐藏层、第一拼接层、第二拼接层和融合层之外,还可包括:第三全连接层和输出层(Output),其中,所述融合层的输出经由第三全连接层作为输出层的输入,其中,输出层用于输出预测的结果。例如,针对分类问题,预测的结果可包括属于每个类别的概率;针对回归问题,预测的结果可包括回归值。应该理解,第三全连接层也可为其他网络结构,本发明对此不作限制。根据本发明的示例性实施例,能够实现基于指定的数据表通过神经网络自动完成机器学习训练或预测的整个过程。
图4示出根据本发明示例性实施例的处理数据表的系统的框图。
如图4所示,根据本发明示例性实施例的处理数据表的系统包括:数据表获取装置10和数据表处理装置20。
具体说来,数据表获取装置10适于获取基础样本表和至少一个关联数据表。
作为示例,所述至少一个关联数据表可包括:至少一个静态表和/或至少一个流水表。
作为示例,基础样本表中的字段可包括:至少一个主体ID字段、时间字段和标签字段;所述至少一个静态表的主键可以是主体ID字段;所述至少一个流水表的主键可以是主体ID字段和时间字段。
数据表处理装置20适于针对基础样本表中的每条基础样本,使用特定结构的神经网络对所述至少一个关联数据表中的与该条基础样本关联的数据进行处理,得到与该条基础样本对应的特征。
作为示例,所述特定结构的神经网络可包括:多个隐藏层、第一拼接层、第二拼接层和融合层,其中,数据表处理装置20可适于针对基础样本表中的每条基础样本,将每个静态表中与该条基础样本对应的数据记录中属于每种字段类型的字段的字段值,输入到所述多个隐藏层之中与该字段类型对应的隐藏层,其中,与所述至少一个静态表中的各个字段类型一一对应的隐藏层的输出作为第一拼接层的输入;数据表处理装置20可适于针对基础样本表中的每条基础样本,将每个流水表中与该条基础样本对应的数据记录中属于每种字段类型的字段的字段值,输入到所述多个隐藏层之中与该字段类型对应的隐藏层,其中,与所述至少一个流水表中的各个字段类型一一对应的隐藏层的输出经由第二拼接层作为所述多个隐藏层中的特定隐藏层的输入;数据表处理装置20可适于将所述融合层输出的向量作为:与基础样本表中的每条基础样本对应的特征,其中,第一拼接层的输出和所述特定隐藏层的输出作为所述融合层的输入,其中,所述特定隐藏层的输入为向量序列,且输出为固定维度的向量。
作为示例,与所述至少一个静态表中的类别型字段对应的隐藏层可为:第一嵌入层,其中,第一嵌入层的输出为嵌入向量;与所述至少一个静态表中的时间字段对应的隐藏层可为:做差层,其中,所述做差层用于将静态表中的时间字段的字段值与基础样本表中的时间字段的字段值做差;与所述至少一个流水表中的类别型字段对应的隐藏层可为:第二嵌入层,其中,第二嵌入层的输出为嵌入向量。
作为示例,与所述至少一个静态表中的数值型字段对应的隐藏层可为:第一全连接层;与所述至少一个流水表中的数值型字段对应的隐藏层可为:第二全连接层。
作为示例,所述特定隐藏层可为由长短期记忆网络LSTM构成的隐藏层。
作为示例,数据表处理装置20可适于针对基础样本表中的每条基础样本,针对每个流水表将该流水表之中至少一个主体ID字段的字段值与该条基础样本的相同的数据记录按照其时间字段值进行排序,并从排序后的数据记录中确定时间字段值在该条基础样本的时间字段值之前的N条数据记录;针对该流水表中的每个类别型字段,按照所述N条数据记录的排序,将所述N条数据记录中该类别型字段的字段值排序为对应的时间序列,并将得到的时间序列输入到第二嵌入层;并针对该流水表中的每个数值型字段,按照所述N条数据记录的排序,将所述N条数据记录中该数值型字段的字段值排序为对应的时间序列,并将得到的时间序列输入到第二全连接层。
作为示例,所述特定结构的神经网络还可包括:第三全连接层和输出层,其中,所述融合层的输出经由第三全连接层作为输出层的输入,其中,输出层用于输出预测的结果。
作为示例,基础样本表中的主体ID字段可包括用户ID字段,标签字段可指示信用卡申请评分;所述至少一个静态表可包括以下项之中的至少一项:用户信息表、资产表、人行征信信息表;所述至少一个流水表可包括:银行交易流水表。
作为示例,基础样本表中的主体ID字段可包括用户ID字段和商品ID字段,标签字段可指示用户是否会购买该商品;所述至少一个静态表可包括以下项之中的至少一项:用户信息表和商品信息表;所述至少一个流水表可包括:互联网用户行为记录表。
应该理解,根据本发明示例性实施例的处理数据表的系统的具体实现方式可参照结合图1至图3描述的相关具体实现方式来实现,在此不再赘述。
根据本发明示例性实施例的处理数据表的系统所包括的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
应理解,根据本发明示例性实施例的处理数据表的方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种处理数据表的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:获取基础样本表和至少一个关联数据表;针对基础样本表中的每条基础样本,使用特定结构的神经网络对所述至少一个关联数据表中的与该条基础样本关联的数据进行处理,得到与该条基础样本对应的特征。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1至图3进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本发明示例性实施例的处理数据表的系统可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,根据本发明示例性实施例的处理数据表的系统所包括的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本发明的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行处理数据表的方法。
具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本发明示例性实施例的处理数据表的方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本发明示例性实施例的处理数据表的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本发明示例性实施例的处理数据表的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:获取基础样本表和至少一个关联数据表;针对基础样本表中的每条基础样本,使用特定结构的神经网络对所述至少一个关联数据表中的与该条基础样本关联的数据进行处理,得到与该条基础样本对应的特征。
以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。

Claims (10)

1.一种处理数据表的方法,包括:
获取基础样本表和至少一个关联数据表;
针对基础样本表中的每条基础样本,使用特定结构的神经网络对所述至少一个关联数据表中的与该条基础样本关联的数据进行处理,得到与该条基础样本对应的特征。
2.如权利要求1所述的方法,其中,
所述至少一个关联数据表包括:至少一个静态表和/或至少一个流水表。
3.如权利要求2所述的方法,其中,
基础样本表中的字段包括:至少一个主体ID字段、时间字段和标签字段;
所述至少一个静态表的主键是主体ID字段;
所述至少一个流水表的主键是主体ID字段和时间字段。
4.如权利要求2所述的方法,其中,所述特定结构的神经网络包括:多个隐藏层、第一拼接层、第二拼接层和融合层,
其中,针对基础样本表中的每条基础样本,使用特定结构的神经网络对所述至少一个关联数据表中的与该条基础样本关联的数据进行处理,得到与该条基础样本对应的特征的步骤包括:
针对基础样本表中的每条基础样本,将每个静态表中与该条基础样本对应的数据记录中属于每种字段类型的字段的字段值,输入到所述多个隐藏层之中与该字段类型对应的隐藏层,其中,与所述至少一个静态表中的各个字段类型一一对应的隐藏层的输出作为第一拼接层的输入;
针对基础样本表中的每条基础样本,将每个流水表中与该条基础样本对应的数据记录中属于每种字段类型的字段的字段值,输入到所述多个隐藏层之中与该字段类型对应的隐藏层,其中,与所述至少一个流水表中的各个字段类型一一对应的隐藏层的输出经由第二拼接层作为所述多个隐藏层中的特定隐藏层的输入;
将所述融合层输出的向量作为:与基础样本表中的每条基础样本对应的特征,其中,第一拼接层的输出和所述特定隐藏层的输出作为所述融合层的输入,
其中,所述特定隐藏层的输入为向量序列,且输出为固定维度的向量。
5.如权利要求4所述的方法,其中,
与所述至少一个静态表中的类别型字段对应的隐藏层为:第一嵌入层,其中,第一嵌入层的输出为嵌入向量;
与所述至少一个静态表中的时间字段对应的隐藏层为:做差层,其中,所述做差层用于将静态表中的时间字段的字段值与基础样本表中的时间字段的字段值做差;
与所述至少一个流水表中的类别型字段对应的隐藏层为:第二嵌入层,其中,第二嵌入层的输出为嵌入向量。
6.如权利要求5所述的方法,其中,
与所述至少一个静态表中的数值型字段对应的隐藏层为:第一全连接层;
与所述至少一个流水表中的数值型字段对应的隐藏层为:第二全连接层。
7.如权利要求6所述的方法,其中,针对基础样本表中的每条基础样本,将每个流水表中与该条基础样本对应的数据记录中属于每种字段类型的字段的字段值,输入到所述多个隐藏层之中与该字段类型对应的隐藏层的步骤包括:
针对基础样本表中的每条基础样本,针对每个流水表将该流水表之中至少一个主体ID字段的字段值与该条基础样本的相同的数据记录按照其时间字段值进行排序,并从排序后的数据记录中确定时间字段值在该条基础样本的时间字段值之前的N条数据记录;
针对该流水表中的每个类别型字段,按照所述N条数据记录的排序,将所述N条数据记录中该类别型字段的字段值排序为对应的时间序列,并将得到的时间序列输入到第二嵌入层;
针对该流水表中的每个数值型字段,按照所述N条数据记录的排序,将所述N条数据记录中该数值型字段的字段值排序为对应的时间序列,并将得到的时间序列输入到第二全连接层。
8.一种处理数据表的系统,包括:
数据表获取装置,适于获取基础样本表和至少一个关联数据表;
数据表处理装置,适于针对基础样本表中的每条基础样本,使用特定结构的神经网络对所述至少一个关联数据表中的与该条基础样本关联的数据进行处理,得到与该条基础样本对应的特征。
9.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的处理数据表的方法。
10.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的处理数据表的方法。
CN202310273245.0A 2019-11-28 2019-11-28 处理数据表的方法及系统 Pending CN116303459A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310273245.0A CN116303459A (zh) 2019-11-28 2019-11-28 处理数据表的方法及系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202310273245.0A CN116303459A (zh) 2019-11-28 2019-11-28 处理数据表的方法及系统
CN201911189241.4A CN110955659B (zh) 2019-11-28 2019-11-28 处理数据表的方法及系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201911189241.4A Division CN110955659B (zh) 2019-11-28 2019-11-28 处理数据表的方法及系统

Publications (1)

Publication Number Publication Date
CN116303459A true CN116303459A (zh) 2023-06-23

Family

ID=69978760

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310273245.0A Pending CN116303459A (zh) 2019-11-28 2019-11-28 处理数据表的方法及系统
CN201911189241.4A Active CN110955659B (zh) 2019-11-28 2019-11-28 处理数据表的方法及系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201911189241.4A Active CN110955659B (zh) 2019-11-28 2019-11-28 处理数据表的方法及系统

Country Status (1)

Country Link
CN (2) CN116303459A (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115137A (zh) * 2020-08-17 2020-12-22 贝壳技术有限公司 数据配置方法及装置
CN112035582A (zh) * 2020-08-28 2020-12-04 光大科技有限公司 结构化数据的分类方法及装置、存储介质、电子装置
CN114443639A (zh) * 2020-11-02 2022-05-06 第四范式(北京)技术有限公司 处理数据表及自动训练机器学习模型的方法和系统
CN112347102B (zh) * 2020-11-03 2024-05-07 第四范式(北京)技术有限公司 多表拼接方法和多表拼接装置
CN112434032B (zh) * 2020-11-17 2024-04-05 北京融七牛信息技术有限公司 一种自动特征生成系统和方法
CN112927012A (zh) * 2021-02-23 2021-06-08 第四范式(北京)技术有限公司 营销数据的处理方法及装置、营销模型的训练方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087206B2 (en) * 2017-04-28 2021-08-10 Intel Corporation Smart memory handling and data management for machine learning networks
US10762111B2 (en) * 2017-09-25 2020-09-01 International Business Machines Corporation Automatic feature learning from a relational database for predictive modelling
CN108334638B (zh) * 2018-03-20 2020-07-28 桂林电子科技大学 基于长短期记忆神经网络与兴趣迁移的项目评分预测方法
CN109697066B (zh) * 2018-12-28 2021-02-05 第四范式(北京)技术有限公司 实现数据表拼接及自动训练机器学习模型的方法和系统
CN110119413A (zh) * 2019-04-30 2019-08-13 京东城市(南京)科技有限公司 数据融合的方法和装置
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN110275903A (zh) * 2019-06-28 2019-09-24 第四范式(北京)技术有限公司 提高机器学习样本的特征生成效率的方法及系统

Also Published As

Publication number Publication date
CN110955659A (zh) 2020-04-03
CN110955659B (zh) 2023-02-21

Similar Documents

Publication Publication Date Title
CN110955659B (zh) 处理数据表的方法及系统
Bell Machine learning: hands-on for developers and technical professionals
James Pattern recognition
CN112100387B (zh) 用于文本分类的神经网络系统的训练方法及装置
CN114155543A (zh) 神经网络训练方法、文档图像理解方法、装置和设备
CN108062377A (zh) 标签图片集的建立、标签的确定方法、装置、设备及介质
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN106096028A (zh) 基于图像识别的文物索引方法及装置
Del Rincón et al. Common-sense reasoning for human action recognition
CN110781925A (zh) 软件页面的分类方法、装置、电子设备及存储介质
CN113592605A (zh) 基于相似产品的产品推荐方法、装置、设备及存储介质
CN115018588A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN113468421A (zh) 基于向量匹配技术的产品推荐方法、装置、设备及介质
CN117251761A (zh) 数据对象分类方法、装置、存储介质及电子装置
CN116662538A (zh) 基于多任务学习的文本摘要生成方法、装置、设备及介质
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
US20220172271A1 (en) Method, device and system for recommending information, and storage medium
CN114581177A (zh) 产品推荐方法、装置、设备及存储介质
CN114637636A (zh) 基于人工智能的ui界面校验方法、装置、设备及介质
CN113807920A (zh) 基于人工智能的产品推荐方法、装置、设备及存储介质
KR102648613B1 (ko) 입력 이미지를 기반으로 인터넷 쇼핑몰에 전시되는 상품 이미지를 생성하는 방법, 장치 및 컴퓨터-판독 가능 기록 매체
CN118071434A (zh) 一种商品检索方法、装置、电子设备及存储介质
CN114090904A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN114565879A (zh) 特征融合方法及装置、视频抖动消除方法及装置
KR20230155370A (ko) 음성 메시지 및 물품 이미지 분석을 통한 대상물품 식별 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination