CN111797135A - 一种基于实体嵌入的结构化数据处理方法 - Google Patents

一种基于实体嵌入的结构化数据处理方法 Download PDF

Info

Publication number
CN111797135A
CN111797135A CN202010585299.7A CN202010585299A CN111797135A CN 111797135 A CN111797135 A CN 111797135A CN 202010585299 A CN202010585299 A CN 202010585299A CN 111797135 A CN111797135 A CN 111797135A
Authority
CN
China
Prior art keywords
data
layer
feature data
neural network
entity embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010585299.7A
Other languages
English (en)
Inventor
金陆骅
符鸿飞
程帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010585299.7A priority Critical patent/CN111797135A/zh
Publication of CN111797135A publication Critical patent/CN111797135A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种基于实体嵌入的结构化数据处理方法,包括以下步骤:1)获得包含结构化数据的数据集作为原始数据集;2)对原始数据集进行预处理;3)将预处理后原始数据集中的数据用于基于实体嵌入的神经网络模型的训练;4)将测试数据输入训练好的神经网络模型中,输出预测结果。与现有技术相比,本发明具有无需特征工程、针对类别数据效果好等优点。

Description

一种基于实体嵌入的结构化数据处理方法
技术领域
本发明涉及数据处理系统技术领域,尤其是涉及一种基于实体嵌入的结构化数据处理方法。
背景技术
随着信息技术的日趋进步,结构化数据规模越来越大,特征越来越复杂,这给结构化数据的处理带来了很大的挑战,在处理结构化数据的过程中,往往需要进行特征工程,对特征与预测目标的关系以及特征与特征之间的关系进行分析,特征工程的质量,依赖于特征工程专家的经验,随着特征数量的增加,进行特征工程的人力成本也大大增加,神经网络虽然在非结构化数据的处理上取得了显著的效果,但对于包含类别特征数据的结构化数据,则无法很好地进行处理,现有神经网络模型方法需要将类别特征数据先转化为整数,将其视为数值特征数据输入到模型中进行训练,但这一方法存在问题,差别小的类别对预测目标的影响相似,差别大的类别对预测目标的影响不同,将类别特征转化为整数,无法量化不同类别对预测目标的影响,使得不同类别间的差别信息产生损失,神经网络会将其视为一般的数值特征,却无法学习到类别间的差别信息。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于实体嵌入的结构化数据处理方法。
本发明的目的可以通过以下技术方案来实现:
一种基于实体嵌入的结构化数据处理方法,包括以下步骤:
1)获得包含结构化数据的数据集作为原始数据集;
2)对原始数据集进行预处理;
3)将预处理后原始数据集中的数据用于基于实体嵌入的神经网络模型的训练;
4)将测试数据输入训练好的神经网络模型中,输出预测结果。
所述的步骤1)中,包含结构化数据的数据集包括公开竞赛的数据集、大学公开的数据集和企业公开的数据集,所述的公开竞赛的数据集具体为Kaggle和KDD竞赛网站上的数据集,所述的大学公开的数据集具体为加州大学欧文分校公开的数据集,所述的企业公开的数据集具体为微软和雅虎企业公开的数据集。
所述的步骤2)具体包括以下步骤:
21)从原始数据中划分特征数据和目标标签数据;
22)根据特征数据的类型对缺失值进行补全;
23)对类别特征数据进行数值编码,将类别特征数据转化为整数类型数据,使得同一类别对应相同整数;
24)重新排列特征数据顺序。
所述的步骤22)中,特征数据的类型包括数值特征数据与类别特征数据,对于数值特征数据取训练数据中未缺失的数据的平均值,代替原有的缺失值,完成补全,对于类别特征数据使用标记字符“Missing_Value”,代替原有的缺失值。
所述的步骤24)中,重新排列特征数据顺序具体为:
以数值特征数据在前,类别特征数据在后的顺序对特征数据进行重新排序。
所述的步骤3)具体包括以下步骤:
31)构建基于实体嵌入的神经网络模型,其具体网络结构包括实体嵌入层、两个全连接层和输出层;
31)向基于实体嵌入的神经网络模型输入预处理后的数据进行训练得到网络参数。
在实体嵌入层中,对于数值特征数据分别构建一个神经元个数为1的全连接层,对于类别特征数据分别构建一个映射到
Figure BDA0002554422830000021
维向量的嵌入层,N为类别总数,实体嵌入层的规模根据输入的类别特征数据的规模动态变化。
在两个全连接层中,对于二分类和多分类目标,第一全连接层的神经元个数为2000,第二全连接层的神经元个数为1000,对于回归目标,第一全连接层的神经元个数为1000,第二全连接层的神经元个数为500,两个全连接层的激活函数均为relu。
在输出层中,对于二分类目标,输出层输出维数为1,激活函数为sigmoid,对于多分类目标,输出层输出维数为分类标签数,激活函数为softmax,对于回归目标,输出层输出维数为1,无激活函数。
所述的步骤31)中,基于实体嵌入的神经网络模型训练的损失函数和优化器的具体选择为:
对于二分类目标,损失函数为binary crossentropy,优化器为Adam优化器;
对于多分类目标,损失函数为categorical crossentropy,优化器为Adam优化器;
对于回归目标,损失函数为最小平方误差,优化器为RMSprop。
与现有技术相比,本发明具有以下优点:
1)本发明采用了神经网络的方法,比传统的结构化数据处理方法相比,神经网络通过动态调整各隐藏层参数,能够自动学习到特征与预测目标、特征与特征间的关系,省去了特征工程的步骤,降低了人力成本。
2)本发明采用了基于实体嵌入的神经网络模型,相比现有的神经网络方法,通过嵌入层对类别数据进行实体嵌入,不是使用一个整数,而是使用一个向量来代表一个类别,能够量化不同类别对预测目标的影响,并学习到不同类别间的差别信息,在处理类别特征数据上能得到更好的效果。
3)本发明能够处理二分类、多分类和回归问题,可以通过调整损失函数与优化器的类别来处理不同的目标标签,可拓展性强。
4)本发明具有商业意义,不仅能处理公开数据集,也可以推广到企业内部业务数据的处理中。
附图说明
图1为本发明的方法流程图。
图2为本发明预处理和训练的流程图。
图3为基于实体嵌入的神经网络结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
为了更加清晰、详尽地解释本发明的目的、技术方案和要点,本发明将进一步进行详细的阐述。应当理解,此处描述的实施方法仅仅用于解释本发明的具体方法,而并非限定本发明。本领域的技术人员可以根据本发明阐述的原理进行实施和推广,根据需要处理的结构化数据集进行简单的修改,即可将本发明推广到类似的应用场景。
如图1所示,本发明提供一种基于实体嵌入的结构化数据处理方法,具体为:本发明首先对原始数据进行预处理,然后使用预处理后的数据对基于实体嵌入的神经网络进行训练,最后训练好的神经网络根据测试数据对目标标签进行预测,具体包括预处理阶段、训练模型阶段和使用模型三个阶段。
1)预处理阶段:获得包含结构化数据的数据集作为原始数据集并对原始数据进行预处理。
首先根据数据集的任务,从原始数据中划分出特征数据与目标标签数据。然后,根据特征数据类型对特征数据中的缺失值进行补全。具体地,对于数值特征数据,取训练数据中未缺失的数据的平均值,代替原有的缺失值;对于类别特征数据,使用特殊的标记字符,代替原有的缺失值。接着,对类别数据进行数值编码,具体地,使用Pythonsklearn.preprocessing库中的LabelEncoder来将类别数据转化为整数类型数据,同一类别对应相同整数。最后,重新排列特征数据顺序,以数值特征数据在前,类别特征数据在后的顺序对特征数据进行重新排序。
2)训练模型阶段
首先构建基于实体嵌入的神经网络模型,具体为实体嵌入层、两个全连接层和输出层构成网络结构,如图3所示。实体嵌入层的规模会根据输入数据的规模动态变化,对于数值特征数据,通过一个神经元个数为1的全连接层0,得到一个1维的向量;对于类别特征数据,通过一个嵌入层,将其映射为
Figure BDA0002554422830000041
(N为类别数量)维向量。
本例中,使用一个向量来代表一个类别,向量间的距离包含了不同类别间的差别信息。向量维数过大,会大幅提高训练的时间和存储空间成本,且易造成过拟合;向量维数过小,对于类别较多的特征,无法完全学习到类别间的差别信息,因此取
Figure BDA0002554422830000042
(N为类别数量)作为向量的维数,能保证向量维数随着类别数量动态增加,但又能防止向量维数过大带来的过拟合并降低训练成本。
然后,将实体嵌入层得到的向量依次连接,完成向量合并。接着,通过两个全连接层,具体地,对于二分类和多分类目标,全连接层1的神经元个数为2000,全连接层2的神经元个数为1000;对于回归目标,全连接层1的神经元个数为1000,全连接层2的神经元个数为500,两个全连接层的激活函数均为relu。最后输出层将全连接层2得到的向量映射到对应的预测标签,具体地,二分类目标,输出层输出维数为1,激活函数为sigmoid;多分类目标,输出层输出维数为分类标签数,激活函数为softmax;回归目标,输出层输出维数为1,无激活函数。
向基于实体嵌入的神经网络模型输入预处理后的数据进行训练得到网络参数。训练的损失函数和优化器根据预测目标的不同,也有所不同。具体地,二分类目标,损失函数为binary crossentropy,优化器为Adam优化器;多分类目标,损失函数为categoricalcrossentropy,优化器为Adam优化器;回归目标,损失函数为最小平方误差(MSE),优化器为RMSprop。
3)使用模型阶段
将测试数据输入训练好的神经网络模型中,根据2)阶段中的基于实体嵌入的神经网络模型,输出预测的结果。
本发明使用了基于实体嵌入的神经网络模型,克服了传统结构化数据处理方法需要特征工程的问题,同时也优化了神经网络在类别特征数据上效果不好的问题,降低了人力成本,能够更好地为处理结构化数据提供帮助。
本领域的技术人员可以很容易地理解上述过程,以上的过程只是本发明的一个具体实例,在实际工业生产中,本领域的技术人员可以根据上述的介绍,根据实际数据集的情况,修改、改进部分细节,使得具体操作更适合实际应用场景。

Claims (10)

1.一种基于实体嵌入的结构化数据处理方法,其特征在于,包括以下步骤:
1)获得包含结构化数据的数据集作为原始数据集;
2)对原始数据集进行预处理;
3)将预处理后原始数据集中的数据用于基于实体嵌入的神经网络模型的训练;
4)将测试数据输入训练好的神经网络模型中,输出预测结果。
2.根据权利要求1所述的一种基于实体嵌入的结构化数据处理方法,其特征在于,所述的步骤1)中,包含结构化数据的数据集包括公开竞赛的数据集、大学公开的数据集和企业公开的数据集,所述的公开竞赛的数据集具体为Kaggle和KDD竞赛网站上的数据集,所述的大学公开的数据集具体为加州大学欧文分校公开的数据集,所述的企业公开的数据集具体为微软和雅虎企业公开的数据集。
3.根据权利要求1所述的一种基于实体嵌入的结构化数据处理方法,其特征在于,所述的步骤2)具体包括以下步骤:
21)从原始数据中划分特征数据和目标标签数据;
22)根据特征数据的类型对缺失值进行补全;
23)对类别特征数据进行数值编码,将类别特征数据转化为整数类型数据,使得同一类别对应相同整数;
24)重新排列特征数据顺序。
4.根据权利要求3所述的一种基于实体嵌入的结构化数据处理方法,其特征在于,所述的步骤22)中,特征数据的类型包括数值特征数据与类别特征数据,对于数值特征数据取训练数据中未缺失的数据的平均值,代替原有的缺失值,完成补全,对于类别特征数据使用标记字符,代替原有的缺失值。
5.根据权利要求3所述的一种基于实体嵌入的结构化数据处理方法,其特征在于,所述的步骤24)中,重新排列特征数据顺序具体为:
以数值特征数据在前,类别特征数据在后的顺序对特征数据进行重新排序。
6.根据权利要求1所述的一种基于实体嵌入的结构化数据处理方法,其特征在于,所述的步骤3)具体包括以下步骤:
31)构建基于实体嵌入的神经网络模型,其具体网络结构包括实体嵌入层、两个全连接层和输出层;
31)向基于实体嵌入的神经网络模型输入预处理后的数据进行训练得到网络参数。
7.根据权利要求6所述的一种基于实体嵌入的结构化数据处理方法,其特征在于,在实体嵌入层中,对于数值特征数据分别构建一个神经元个数为1的全连接层,对于类别特征数据分别构建一个映射到
Figure FDA0002554422820000021
维向量的嵌入层,为类别总数,实体嵌入层的规模根据输入的类别特征数据的规模动态变化。
8.根据权利要求6所述的一种基于实体嵌入的结构化数据处理方法,其特征在于,在两个全连接层中,对于二分类和多分类目标,第一全连接层的神经元个数为2000,第二全连接层的神经元个数为1000,对于回归目标,第一全连接层的神经元个数为1000,第二全连接层的神经元个数为500,两个全连接层的激活函数均为relu。
9.根据权利要求6所述的一种基于实体嵌入的结构化数据处理方法,其特征在于,在输出层中,对于二分类目标,输出层输出维数为1,激活函数为sigmoid,对于多分类目标,输出层输出维数为分类标签数,激活函数为softmax,对于回归目标,输出层输出维数为1,无激活函数。
10.根据权利要求6所述的一种基于实体嵌入的结构化数据处理方法,其特征在于,所述的步骤31)中,基于实体嵌入的神经网络模型训练的损失函数和优化器的具体选择为:
对于二分类目标,损失函数为binary crossentropy,优化器为Adam优化器;
对于多分类目标,损失函数为categorical crossentropy,优化器为Adam优化器;
对于回归目标,损失函数为最小平方误差,优化器为RMSprop。
CN202010585299.7A 2020-06-24 2020-06-24 一种基于实体嵌入的结构化数据处理方法 Pending CN111797135A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010585299.7A CN111797135A (zh) 2020-06-24 2020-06-24 一种基于实体嵌入的结构化数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010585299.7A CN111797135A (zh) 2020-06-24 2020-06-24 一种基于实体嵌入的结构化数据处理方法

Publications (1)

Publication Number Publication Date
CN111797135A true CN111797135A (zh) 2020-10-20

Family

ID=72804584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010585299.7A Pending CN111797135A (zh) 2020-06-24 2020-06-24 一种基于实体嵌入的结构化数据处理方法

Country Status (1)

Country Link
CN (1) CN111797135A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743512A (zh) * 2021-09-07 2021-12-03 上海观安信息技术股份有限公司 一种安全告警事件自主学习判定方法及系统
CN115394435A (zh) * 2022-09-09 2022-11-25 北京大学 基于深度学习的关键临床指标实体识别方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743512A (zh) * 2021-09-07 2021-12-03 上海观安信息技术股份有限公司 一种安全告警事件自主学习判定方法及系统
CN115394435A (zh) * 2022-09-09 2022-11-25 北京大学 基于深度学习的关键临床指标实体识别方法和系统

Similar Documents

Publication Publication Date Title
CN113905391B (zh) 集成学习网络流量预测方法、系统、设备、终端、介质
CN109508634B (zh) 基于迁移学习的船舶类型识别方法及系统
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
CN112465226B (zh) 一种基于特征交互和图神经网络的用户行为预测方法
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN112395466A (zh) 一种基于图嵌入表示和循环神经网络的欺诈节点识别方法
CN111797135A (zh) 一种基于实体嵌入的结构化数据处理方法
CN113255844B (zh) 基于图卷积神经网络交互的推荐方法及系统
CN112597766A (zh) 一种基于BERT-base网络的带噪半监督文本分类方法
CN113591971A (zh) 基于dpi时间序列词嵌入向量的用户个性行为预测方法
CN111598187A (zh) 一种基于核宽度学习系统的渐进式集成分类方法
CN111368087A (zh) 基于多输入注意力网络的中文文本分类方法
CN111340107A (zh) 基于卷积神经网络代价敏感学习的故障诊断方法及系统
CN112965968B (zh) 一种基于注意力机制的异构数据模式匹配方法
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN111753995A (zh) 一种基于梯度提升树的局部可解释方法
CN110705650B (zh) 一种基于深度学习的钣金布局方法
CN111814468B (zh) 一种自适应架构语义分布文本理解方法及系统
CN110287124B (zh) 一种自动标记软件错误报告并进行严重性识别的方法
CN114758141A (zh) 一种协同学习的带噪声标签图像分类方法
CN113658109A (zh) 一种基于领域损失预测主动学习的玻璃缺陷检测方法
CN112699271A (zh) 一种提升用户在视频网站留存时间的视频推荐系统方法
CN113673555B (zh) 一种基于记忆体的无监督域适应图片分类方法
CN113435480B (zh) 通道顺序切换自监督提升长尾分布视觉识别能力的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination