CN111523420B

CN111523420B - 基于多任务深度神经网络的表头分类与表头列语义识别方法

Info

Publication number: CN111523420B
Application number: CN202010288807.5A
Authority: CN
Inventors: 汤鲲; 高永伟; 李曙光; 姜广栋; 宋万军
Original assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Current assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2023-07-07
Anticipated expiration: 2040-04-14
Also published as: CN111523420A

Abstract

本发明公开了一种基于多任务深度神经网络的表头分类与表头列语义识别方法，属于自然语言处理技术领域，使用深度学习来进行表格场景分类和表头列映射，将表格场景分类任务转成了文本分类任务，将表格列映射任务转成了序列标注任务，使用Bert预训练模型增强了语义表示能力，使用多任务的结构将上述两个任务结合到一起，在训练的过程中，两个的任务的损失函数会合并到一起，互相提升对方的效果。

Description

基于多任务深度神经网络的表头分类与表头列语义识别方法

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种基于多任务深度神经网络的表头分类与表头列语义识别方法。

背景技术

现在的Excel表格的半结构化提取技术是首先采用表头中包含的关键词判断表格的场景，然后利用建立字典库的方式，将各表头列映射到某些定义好的字段中，从而提取Excel表格中各列对应的数据到我们定义好的关系数据库中相相应的字段中。这里的字段是指我们定义的关系型数据库表格的字段，而表头列是Excel表格的列名。

现有的技术在判断表格所属的场景上面，只是采用了关键词进行分类，而表头列映射到数据库表格字段则是采用了建立字典库映射的方式，无法满足复杂的实际场景。同时，在一个完整的表头中，会出现重复的表头列，但是它们表达了不同的含义，这时需要依赖于这些表头列的前一列或者后一列去判断它真实的含义，而原先使用字典库映射表头列是无法依据表头列的上下文来判断它真实的含义。同时原先的表格场景分类的方式泛化能力较低，且无法利用表头列映射的过程进行反馈表格场景分类。

发明内容

本发明所要解决的技术问题是针对背景技术的不足提供一种基于多任务深度神经网络的表头分类与表头列语义识别方法，使用深度学习来进行表格场景分类和表头列映射，将表格场景分类任务转成了文本分类任务，将表格列映射任务转成了序列标注任务，使用Bert预训练模型增强了语义表示能力，使用多任务的结构将上述两个任务结合到一起，在训练的过程中，两个的任务的损失函数会合并到一起，互相提升对方的效果。

本发明为解决上述技术问题采用以下技术方案：

基于多任务深度神经网络的表头分类与表头列语义识别方法，具体包含如下步骤；

步骤1，给表头样本库中的全部表头标注上已定义好的场景，包含网购订单场景、物流运输场景，同时给表头列标注上各场景需要提取的自定义标准信息字段，包含网购场景的订单号、买家姓名、卖家姓名；

步骤2，将标注好的表头样本进行预处理，进而形成模型向量；具体如下：

步骤2.1，根据表头样本库包含的所有互不相同的字构建字典，对表头中的字利用字典映射成字典位置，并把表头变成向量序列，具体如下，若表头样本库包含V个互不相同的字{w₁,w₂...w_v}，则字典就是{w₁:1,w₂:2...w_v:v},若某个表头样本是由m个字构成的序列{w_k1,w_k2...w_km}，则该表头的向量序列就是{k₁,k₂...k_m}；

步骤2.2，对表头的场景标签和表头列的映射字段标签也制作对应的字典，建立场景类别标签和场景序列标签的向量序列；

步骤2.3，将场景序列标签按照全部的场景数目进行扩充，若表头不属于该场景，则使用O作为序列填充值；

步骤3，将预处理完的样本输入到模型中；其中，模型采用深度学习框架tensorflow实现：具体如下：

步骤3.1，将表头利用bert模型进行语义embedding，对输入表头的向量进行语义表示，包括表头的池化向量和字词序列向量；

步骤3.2，将表头的池化向量输入到文本分类模型里面，用于处理表头场景分类任务，表头场景分类任务损失函数采用神经网络里的多标签分类损失函数,可得到表头场景分类任务的损失函数值classifyloss；

步骤3.3，将字词序列向量输入到序列标注模型里面，用于处理表头列映射任务；序列标注模型对每个场景单独建立了一个序列标注分支，每个序列标注分支计算出来的损失函数[loss₁,loss₂...loss_N]同场景类别标签[label₁,label₂...label_N]做一个点乘，然后求和，只留下表头所在场景的序列损失函数值sequenceloss，即

步骤3.4，将表头场景分类任务和表头列映射任务的损失函数求和，进而获取最终需要在神经网络里面要优化的损失函数值,即loss＝classifyloss+sequenceloss；

步骤4，优化训练损失函数值loss；

步骤5，输出同时处理表头场景分类和表头列映射的统一模型。

作为本发明基于多任务深度神经网络的表头分类与表头列语义识别方法的进一步优选方案，在步骤2.2中，场景类别标签采用one-hot编码，one-hot编码的含义是，若有n个场景，则建立一个n维向量用来表示该表头的场景标签，其中，n维向量的每个位置表示一个约定好的场景，若该位置元素为1，则表示表头拥有这个场景的标签，若为0则表示没有,具体如下，若定义N个场景{scene₁,scene₂...scene_N}，则场景字典为{scene₁:1,scene₂:2...scene_N:N},若某个表头样本包含了如下Y个场景{scene_f1,scene_f2...scene_fy}，那么则该样本的场景标签的向量序列为[0,0...1...1...1...0]，其中，向量序列长度为N，向量在f₁,f₂...f_y位置的元素是1，在其余位置元素为0。

作为本发明基于多任务深度神经网络的表头分类与表头列语义识别方法的进一步优选方案，在步骤2.2中，场景序列标签采用BIO标注体系，其中，BIO标注体系是指对一个句子序列的标注方式，句子中实体的开头以B-{实体}标注，实体的其余部分以I-{实体名称}标注，其中，实体在这里就是指我们需要映射到数据库字段名；对于不需要映射的表头列，以O标注该表头列的每个字。

作为本发明基于多任务深度神经网络的表头分类与表头列语义识别方法的进一步优选方案，在步骤4中，神经网络训练过程的参数可设置为4轮迭代，每次输入模型中的样本数目可设置为16，以此优化损失函数值loss。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明使用深度学习来进行表格场景分类和表头列映射，将表格场景分类任务转成了文本分类任务，将表格列映射任务转成了序列标注任务；

2、本发明使用Bert预训练模型增强了语义表示能力；

3、本发明使用多任务的结构将上述两个任务结合到一起，在训练的过程中，两个的任务的损失函数会合并到一起，互相提升对方的效果。

附图说明

图1是本发明的方法流程图；

图2是本发明多任务神经网络模型的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，基于多任务深度神经网络的表头分类与表头列语义识别方法，具体包含如下步骤；

步骤1，给表头标注上已定义好的场景，包含网购订单场景、物流运输场景，同时给表头列标注上各场景需要提取的自定义标准信息字段，包含网购场景的订单号、买家姓名、卖家姓名；

步骤2.1，根据表头样本库包含的字，根据样本里面包含的词汇构建字典，对表头中的字利用字典映射成字典位置，并把表头变成向量序列，具体如下，若表头样本库包含V个互不相同的字{w₁,w₂...w_v}，则字典就是{w₁:1,w₂:2...w_v:v},若某个表头样本是由m个字构成的序列{w_k1,w_k2...w_km}，则表头的向量序列就是{k₁,k₂...k_m}；

场景类别标签采用one-hot编码，one-hot编码的含义是，若有n个场景，则建立一个n维向量用来表示该表头的场景标签，其中，n维向量的每个位置表示一个约定好的场景，若该位置元素为1，则表示表头拥有这个场景的标签，若为0则表示没有,具体如下，若定义N个场景{scene₁,scene₂...scene_N}，则场景字典为{scene₁:1,scene₂:2...scene_N:N},若某个表头样本包含了如下Y个场景{scene_f1,scene_f2...scene_fy}，那么则该样本的场景标签的向量序列为[0,0...1...1...1...0]，其中向量序列长度为N，向量在f₁,f₂...f_y位置的元素是1，在其余位置元素为0。

场景序列标签采用BIO标注体系，其中，BIO标注体系是指对一个句子序列的标注方式，句子中实体的开头以B-{实体}标注，实体的其余部分以I-{实体名称}标注，其中，实体在这里就是指我们需要映射到数据库字段名；对于不需要映射的表头列，以O标注该表头列的每个字。

步骤2.3，上述为某一表头建立的场景序列标签只有该表头所属的场景才有对应的，这里要将场景序列标签按照全部的场景数目进行扩充，若这个表头不属于该场景，则使用O作为序列填充值；

步骤3，将预处理完的样本输入到模型中，模型采用深度学习框架tensorflow实现，深度学习框架有tensorflow和pytorch，这里我用的tensorflow框架来实现的，pytorch没有经过测试：具体如下：

步骤3.2，将表头的池化向量输入到文本分类模型里面，用于处理表头场景分类任务，池化向量和字词序列向量属于bert模型的；表头场景分类任务损失函数采用神经网络里的多标签分类损失函数,可以得到表头场景分类任务的损失函数值classifyloss；

步骤3.4，将表头场景分类任务和表头列映射任务的损失函数求和，进而获取最终需要在神经网络里面要优化的损失函数值,即loss＝classifyloss+sequenceloss。

步骤4，神经网络训练过程的参数可以设置为4轮迭代，每次输入模型中的样本数目可设置为16，以此优化损失函数值loss。

步骤5，等待训练结束之后，可得到一个能够同时处理表头场景分类和表头列映射的统一模型。

多任务神经网络模型的结构：如图2所示，图2中表头(输入)对应着步骤2.1，图2中表头场景类别标签(输入)步骤2.2，图2中扩展合并标签序列对应着步骤2.3的过程，图2中的Bert方块对应中步骤3.1引入Bert预训练语言模型的过程，图2中文本分类和序列标注分别对应着步骤3.2和步骤3.3的过程，图2中最终损失函数对应着步骤3.4的过程。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。上面对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.基于多任务深度神经网络的表头分类与表头列语义识别方法，其特征在于：具体包含如下步骤；

步骤4，优化训练损失函数值loss；

步骤5，输出同时处理表头场景分类和表头列映射的统一模型；

在步骤2.2中，场景类别标签采用one-hot编码，one-hot编码的含义是，若有n个场景，则建立一个n维向量用来表示该表头的场景标签，其中，n维向量的每个位置表示一个约定好的场景，若该位置元素为1，则表示表头拥有这个场景的标签，若为0则表示没有,具体如下，若定义N个场景{scene₁,scene₂...scene_N}，则场景字典为{scene₁:1,scene₂:2...scene_N:N},若某个表头样本包含了如下y个场景{scene_f1,scene_f2...scene_fy}，那么则该样本的场景标签的向量序列为[0,0...1...1...1...0]，其中，向量序列长度为N，向量在f₁,f₂...f_y位置的元素是1，在其余位置元素为0；

在步骤2.2中，场景序列标签采用BIO标注体系，其中，BIO标注体系是指对一个句子序列的标注方式，句子中实体的开头以B-{实体}标注，实体的其余部分以I-{实体名称}标注，其中，实体在这里就是指我们需要映射到数据库字段名；对于不需要映射的表头列，以O标注该表头列的每个字。

2.根据权利要求1所述的基于多任务深度神经网络的表头分类与表头列语义识别方法，其特征在于：在步骤4中，神经网络训练过程的参数可设置为4轮迭代，每次输入模型中的样本数目可设置为16，以此优化损失函数值loss。