CN111523420A - 基于多任务深度神经网络的表头分类与表头列语义识别方法 - Google Patents

基于多任务深度神经网络的表头分类与表头列语义识别方法 Download PDF

Info

Publication number
CN111523420A
CN111523420A CN202010288807.5A CN202010288807A CN111523420A CN 111523420 A CN111523420 A CN 111523420A CN 202010288807 A CN202010288807 A CN 202010288807A CN 111523420 A CN111523420 A CN 111523420A
Authority
CN
China
Prior art keywords
header
scene
sequence
vector
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010288807.5A
Other languages
English (en)
Other versions
CN111523420B (zh
Inventor
汤鲲
高永伟
李曙光
姜广栋
宋万军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Fiberhome Telecommunication Technologies Co ltd
Original Assignee
Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Fiberhome Telecommunication Technologies Co ltd filed Critical Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority to CN202010288807.5A priority Critical patent/CN111523420B/zh
Publication of CN111523420A publication Critical patent/CN111523420A/zh
Application granted granted Critical
Publication of CN111523420B publication Critical patent/CN111523420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多任务深度神经网络的表头分类与表头列语义识别方法,属于自然语言处理技术领域,使用深度学习来进行表格场景分类和表头列映射,将表格场景分类任务转成了文本分类任务,将表格列映射任务转成了序列标注任务,使用Bert预训练模型增强了语义表示能力,使用多任务的结构将上述两个任务结合到一起,在训练的过程中,两个的任务的损失函数会合并到一起,互相提升对方的效果。

Description

基于多任务深度神经网络的表头分类与表头列语义识别方法
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于多任务深度神经网络的表头分类与表头列语义识别方法。
背景技术
现在的Excel表格的半结构化提取技术是首先采用表头中包含的关键词判断表格的场景,然后利用建立字典库的方式,将各表头列映射到某些定义好的字段中,从而提取Excel表格中各列对应的数据到我们定义好的关系数据库中相相应的字段中。这里的字段是指我们定义的关系型数据库表格的字段,而表头列是Excel表格的列名。
现有的技术在判断表格所属的场景上面,只是采用了关键词进行分类,而表头列映射到数据库表格字段则是采用了建立字典库映射的方式,无法满足复杂的实际场景。同时,在一个完整的表头中,会出现重复的表头列,但是它们表达了不同的含义,这时需要依赖于这些表头列的前一列或者后一列去判断它真实的含义,而原先使用字典库映射表头列是无法依据表头列的上下文来判断它真实的含义。同时原先的表格场景分类的方式泛化能力较低,且无法利用表头列映射的过程进行反馈表格场景分类。
发明内容
本发明所要解决的技术问题是针对背景技术的不足提供一种基于多任务深度神经网络的表头分类与表头列语义识别方法,使用深度学习来进行表格场景分类和表头列映射,将表格场景分类任务转成了文本分类任务,将表格列映射任务转成了序列标注任务,使用Bert预训练模型增强了语义表示能力,使用多任务的结构将上述两个任务结合到一起,在训练的过程中,两个的任务的损失函数会合并到一起,互相提升对方的效果。
本发明为解决上述技术问题采用以下技术方案:
基于多任务深度神经网络的表头分类与表头列语义识别方法,具体包含如下步骤;
步骤1,给表头样本库中的全部表头标注上已定义好的场景,包含网购订单场景、物流运输场景,同时给表头列标注上各场景需要提取的自定义标准信息字段,包含网购场景的订单号、买家姓名、卖家姓名;
步骤2,将标注好的表头样本进行预处理,进而形成模型向量;具体如下:
步骤2.1,根据表头样本库包含的所有互不相同的字构建字典,对表头中的字利用字典映射成字典位置,并把表头变成向量序列,具体如下,若表头样本库包含V个互不相同的字{w1,w2...wv},则字典就是{w1:1,w2:2...wv:v},若某个表头样本是由m个字构成的序列{wk1,wk2...wkm},则该表头的向量序列就是{k1,k2...km};
步骤2.2,对表头的场景标签和表头列的映射字段标签也制作对应的字典,建立场景类别标签和场景序列标签的向量序列;
步骤2.3,将场景序列标签按照全部的场景数目进行扩充,若表头不属于该场景,则使用O作为序列填充值;
步骤3,将预处理完的样本输入到模型中;其中,模型采用深度学习框架tensorflow实现:具体如下:
步骤3.1,将表头利用bert模型进行语义embedding,对输入表头的向量进行语义表示,包括表头的池化向量和字词序列向量;
步骤3.2,将表头的池化向量输入到文本分类模型里面,用于处理表头场景分类任务,表头场景分类任务损失函数采用神经网络里的多标签分类损失函数,可得到表头场景分类任务的损失函数值classifyloss;
步骤3.3,将字词序列向量输入到序列标注模型里面,用于处理表头列映射任务;序列标注模型对每个场景单独建立了一个序列标注分支,每个序列标注分支计算出来的损失函数[loss1,loss2...lossN]同场景类别标签[label1,label2...labelN]做一个点乘,然后求和,只留下表头所在场景的序列损失函数值sequenceloss,即
Figure BDA0002449607360000021
步骤3.4,将表头场景分类任务和表头列映射任务的损失函数求和,进而获取最终需要在神经网络里面要优化的损失函数值,即loss=classifyloss+sequenceloss;
步骤4,优化训练损失函数值loss;
步骤5,输出同时处理表头场景分类和表头列映射的统一模型。
作为本发明基于多任务深度神经网络的表头分类与表头列语义识别方法的进一步优选方案,在步骤2.2中,场景类别标签采用one-hot编码,one-hot编码的含义是,若有n个场景,则建立一个n维向量用来表示该表头的场景标签,其中,n维向量的每个位置表示一个约定好的场景,若该位置元素为1,则表示表头拥有这个场景的标签,若为0则表示没有,具体如下,若定义N个场景{scene1,scene2...sceneN},则场景字典为{scene1:1,scene2:2...sceneN:N},若某个表头样本包含了如下Y个场景{scenef1,scenef2...scenefy},那么则该样本的场景标签的向量序列为[0,0...1...1...1...0],其中,向量序列长度为N,向量在f1,f2...fy位置的元素是1,在其余位置元素为0。
作为本发明基于多任务深度神经网络的表头分类与表头列语义识别方法的进一步优选方案,在步骤2.2中,场景序列标签采用BIO标注体系,其中,BIO标注体系是指对一个句子序列的标注方式,句子中实体的开头以B-{实体}标注,实体的其余部分以I-{实体名称}标注,其中,实体在这里就是指我们需要映射到数据库字段名;对于不需要映射的表头列,以O标注该表头列的每个字。
作为本发明基于多任务深度神经网络的表头分类与表头列语义识别方法的进一步优选方案,在步骤4中,神经网络训练过程的参数可设置为4轮迭代,每次输入模型中的样本数目可设置为16,以此优化损失函数值loss。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明使用深度学习来进行表格场景分类和表头列映射,将表格场景分类任务转成了文本分类任务,将表格列映射任务转成了序列标注任务;
2、本发明使用Bert预训练模型增强了语义表示能力;
3、本发明使用多任务的结构将上述两个任务结合到一起,在训练的过程中,两个的任务的损失函数会合并到一起,互相提升对方的效果。
附图说明
图1是本发明的方法流程图;
图2是本发明多任务神经网络模型的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,基于多任务深度神经网络的表头分类与表头列语义识别方法,具体包含如下步骤;
步骤1,给表头标注上已定义好的场景,包含网购订单场景、物流运输场景,同时给表头列标注上各场景需要提取的自定义标准信息字段,包含网购场景的订单号、买家姓名、卖家姓名;
步骤2,将标注好的表头样本进行预处理,进而形成模型向量;具体如下:
步骤2.1,根据表头样本库包含的字,根据样本里面包含的词汇构建字典,对表头中的字利用字典映射成字典位置,并把表头变成向量序列,具体如下,若表头样本库包含V个互不相同的字{w1,w2...wv},则字典就是{w1:1,w2:2...wv:v},若某个表头样本是由m个字构成的序列{wk1,wk2...wkm},则表头的向量序列就是{k1,k2...km};
步骤2.2,对表头的场景标签和表头列的映射字段标签也制作对应的字典,建立场景类别标签和场景序列标签的向量序列;
场景类别标签采用one-hot编码,one-hot编码的含义是,若有n个场景,则建立一个n维向量用来表示该表头的场景标签,其中,n维向量的每个位置表示一个约定好的场景,若该位置元素为1,则表示表头拥有这个场景的标签,若为0则表示没有,具体如下,若定义N个场景{scene1,scene2...sceneN},则场景字典为{scene1:1,scene2:2...sceneN:N},若某个表头样本包含了如下Y个场景{scenef1,scenef2...scenefy},那么则该样本的场景标签的向量序列为[0,0...1...1...1...0],其中向量序列长度为N,向量在f1,f2...fy位置的元素是1,在其余位置元素为0。
场景序列标签采用BIO标注体系,其中,BIO标注体系是指对一个句子序列的标注方式,句子中实体的开头以B-{实体}标注,实体的其余部分以I-{实体名称}标注,其中,实体在这里就是指我们需要映射到数据库字段名;对于不需要映射的表头列,以O标注该表头列的每个字。
步骤2.3,上述为某一表头建立的场景序列标签只有该表头所属的场景才有对应的,这里要将场景序列标签按照全部的场景数目进行扩充,若这个表头不属于该场景,则使用O作为序列填充值;
步骤3,将预处理完的样本输入到模型中,模型采用深度学习框架tensorflow实现,深度学习框架有tensorflow和pytorch,这里我用的tensorflow框架来实现的,pytorch没有经过测试:具体如下:
步骤3.1,将表头利用bert模型进行语义embedding,对输入表头的向量进行语义表示,包括表头的池化向量和字词序列向量;
步骤3.2,将表头的池化向量输入到文本分类模型里面,用于处理表头场景分类任务,池化向量和字词序列向量属于bert模型的;表头场景分类任务损失函数采用神经网络里的多标签分类损失函数,可以得到表头场景分类任务的损失函数值classifyloss;
步骤3.3,将字词序列向量输入到序列标注模型里面,用于处理表头列映射任务;序列标注模型对每个场景单独建立了一个序列标注分支,每个序列标注分支计算出来的损失函数[loss1,loss2...lossN]同场景类别标签[label1,label2...labelN]做一个点乘,然后求和,只留下表头所在场景的序列损失函数值sequenceloss,即
Figure BDA0002449607360000051
步骤3.4,将表头场景分类任务和表头列映射任务的损失函数求和,进而获取最终需要在神经网络里面要优化的损失函数值,即loss=classifyloss+sequenceloss。
步骤4,神经网络训练过程的参数可以设置为4轮迭代,每次输入模型中的样本数目可设置为16,以此优化损失函数值loss。
步骤5,等待训练结束之后,可得到一个能够同时处理表头场景分类和表头列映射的统一模型。
多任务神经网络模型的结构:如图2所示,图2中表头(输入)对应着步骤2.1,图2中表头场景类别标签(输入)步骤2.2,图2中扩展合并标签序列对应着步骤2.3的过程,图2中的Bert方块对应中步骤3.1引入Bert预训练语言模型的过程,图2中文本分类和序列标注分别对应着步骤3.2和步骤3.3的过程,图2中最终损失函数对应着步骤3.4的过程。
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。上面对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (4)

1.基于多任务深度神经网络的表头分类与表头列语义识别方法,其特征在于:具体包含如下步骤;
步骤1,给表头样本库中的全部表头标注上已定义好的场景,包含网购订单场景、物流运输场景,同时给表头列标注上各场景需要提取的自定义标准信息字段,包含网购场景的订单号、买家姓名、卖家姓名;
步骤2,将标注好的表头样本进行预处理,进而形成模型向量;具体如下:
步骤2.1,根据表头样本库包含的所有互不相同的字构建字典,对表头中的字利用字典映射成字典位置,并把表头变成向量序列,具体如下,若表头样本库包含V个互不相同的字{w1,w2...wv},则字典就是{w1:1,w2:2...wv:v},若某个表头样本是由m个字构成的序列{wk1,wk2...wkm},则该表头的向量序列就是{k1,k2...km};
步骤2.2,对表头的场景标签和表头列的映射字段标签也制作对应的字典,建立场景类别标签和场景序列标签的向量序列;
步骤2.3,将场景序列标签按照全部的场景数目进行扩充,若表头不属于该场景,则使用O作为序列填充值;
步骤3,将预处理完的样本输入到模型中;其中,模型采用深度学习框架tensorflow实现:具体如下:
步骤3.1,将表头利用bert模型进行语义embedding,对输入表头的向量进行语义表示,包括表头的池化向量和字词序列向量;
步骤3.2,将表头的池化向量输入到文本分类模型里面,用于处理表头场景分类任务,表头场景分类任务损失函数采用神经网络里的多标签分类损失函数,可得到表头场景分类任务的损失函数值classifyloss;
步骤3.3,将字词序列向量输入到序列标注模型里面,用于处理表头列映射任务;序列标注模型对每个场景单独建立了一个序列标注分支,每个序列标注分支计算出来的损失函数[loss1,loss2...lossN]同场景类别标签[label1,label2...labelN]做一个点乘,然后求和,只留下表头所在场景的序列损失函数值sequenceloss,即
Figure FDA0002449607350000011
步骤3.4,将表头场景分类任务和表头列映射任务的损失函数求和,进而获取最终需要在神经网络里面要优化的损失函数值,即loss=classifyloss+sequenceloss;
步骤4,优化训练损失函数值loss;
步骤5,输出同时处理表头场景分类和表头列映射的统一模型。
2.根据权利要求1所述的基于多任务深度神经网络的表头分类与表头列语义识别方法,其特征在于:在步骤2.2中,场景类别标签采用one-hot编码,one-hot编码的含义是,若有n个场景,则建立一个n维向量用来表示该表头的场景标签,其中,n维向量的每个位置表示一个约定好的场景,若该位置元素为1,则表示表头拥有这个场景的标签,若为0则表示没有,具体如下,若定义N个场景{scene1,scene2...sceneN},则场景字典为{scene1:1,scene2:2...sceneN:N},若某个表头样本包含了如下Y个场景{scenef1,scenef2...scenefy},那么则该样本的场景标签的向量序列为[0,0...1...1...1...0],其中,向量序列长度为N,向量在f1,f2...fy位置的元素是1,在其余位置元素为0。
3.根据权利要求2所述的基于多任务深度神经网络的表头分类与表头列语义识别方法,其特征在于:在步骤2.2中,场景序列标签采用BIO标注体系,其中,BIO标注体系是指对一个句子序列的标注方式,句子中实体的开头以B-{实体}标注,实体的其余部分以I-{实体名称}标注,其中,实体在这里就是指我们需要映射到数据库字段名;对于不需要映射的表头列,以O标注该表头列的每个字。
4.根据权利要求2所述的基于多任务深度神经网络的表头分类与表头列语义识别方法,其特征在于:在步骤4中,神经网络训练过程的参数可设置为4轮迭代,每次输入模型中的样本数目可设置为16,以此优化损失函数值loss。
CN202010288807.5A 2020-04-14 2020-04-14 基于多任务深度神经网络的表头分类与表头列语义识别方法 Active CN111523420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010288807.5A CN111523420B (zh) 2020-04-14 2020-04-14 基于多任务深度神经网络的表头分类与表头列语义识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010288807.5A CN111523420B (zh) 2020-04-14 2020-04-14 基于多任务深度神经网络的表头分类与表头列语义识别方法

Publications (2)

Publication Number Publication Date
CN111523420A true CN111523420A (zh) 2020-08-11
CN111523420B CN111523420B (zh) 2023-07-07

Family

ID=71910724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010288807.5A Active CN111523420B (zh) 2020-04-14 2020-04-14 基于多任务深度神经网络的表头分类与表头列语义识别方法

Country Status (1)

Country Link
CN (1) CN111523420B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100993A (zh) * 2020-09-21 2020-12-18 珠海格力电器股份有限公司 表单构建方法、装置、存储介质及电子设备
CN112100390A (zh) * 2020-11-18 2020-12-18 智者四海(北京)技术有限公司 基于场景的文本分类模型、文本分类方法及装置
CN113010503A (zh) * 2021-03-01 2021-06-22 广州智筑信息技术有限公司 一种基于深度学习的工程造价数据智能解析方法及系统
CN113177124A (zh) * 2021-05-11 2021-07-27 北京邮电大学 一种垂直领域知识图谱构建方法及系统
CN113486177A (zh) * 2021-07-12 2021-10-08 贵州电网有限责任公司 一种基于文本分类的电力领域表格列标注方法
CN113627350A (zh) * 2021-08-12 2021-11-09 北京百度网讯科技有限公司 一种表格检测方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189789A (zh) * 2018-08-22 2019-01-11 郑州云海信息技术有限公司 一种用于显示表格的方法和装置
US20190026884A1 (en) * 2016-03-30 2019-01-24 Institute Of Automation, Chinese Academy Of Sciences Method for assessing aesthetic quality of natural image based on multi-task deep learning
CN110362620A (zh) * 2019-07-11 2019-10-22 南京烽火星空通信发展有限公司 一种基于机器学习的表格数据结构化方法
CN110378265A (zh) * 2019-07-08 2019-10-25 创新奇智(成都)科技有限公司 一种早期火灾检测方法、计算机可读介质及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190026884A1 (en) * 2016-03-30 2019-01-24 Institute Of Automation, Chinese Academy Of Sciences Method for assessing aesthetic quality of natural image based on multi-task deep learning
CN109189789A (zh) * 2018-08-22 2019-01-11 郑州云海信息技术有限公司 一种用于显示表格的方法和装置
CN110378265A (zh) * 2019-07-08 2019-10-25 创新奇智(成都)科技有限公司 一种早期火灾检测方法、计算机可读介质及系统
CN110362620A (zh) * 2019-07-11 2019-10-22 南京烽火星空通信发展有限公司 一种基于机器学习的表格数据结构化方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100993A (zh) * 2020-09-21 2020-12-18 珠海格力电器股份有限公司 表单构建方法、装置、存储介质及电子设备
CN112100390A (zh) * 2020-11-18 2020-12-18 智者四海(北京)技术有限公司 基于场景的文本分类模型、文本分类方法及装置
CN112100390B (zh) * 2020-11-18 2021-05-07 智者四海(北京)技术有限公司 基于场景的文本分类模型、文本分类方法及装置
CN113010503A (zh) * 2021-03-01 2021-06-22 广州智筑信息技术有限公司 一种基于深度学习的工程造价数据智能解析方法及系统
CN113177124A (zh) * 2021-05-11 2021-07-27 北京邮电大学 一种垂直领域知识图谱构建方法及系统
CN113486177A (zh) * 2021-07-12 2021-10-08 贵州电网有限责任公司 一种基于文本分类的电力领域表格列标注方法
CN113627350A (zh) * 2021-08-12 2021-11-09 北京百度网讯科技有限公司 一种表格检测方法、装置、设备以及存储介质
CN113627350B (zh) * 2021-08-12 2022-08-02 北京百度网讯科技有限公司 一种表格检测方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN111523420B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN111523420B (zh) 基于多任务深度神经网络的表头分类与表头列语义识别方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN108614875B (zh) 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
CN110674305B (zh) 一种基于深层特征融合模型的商品信息分类方法
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN110196913A (zh) 基于文本生成式的多实体关系联合抽取方法和装置
CN107729309A (zh) 一种基于深度学习的中文语义分析的方法及装置
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN111881262A (zh) 基于多通道神经网络的文本情感分析方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN113298151A (zh) 一种基于多级特征融合的遥感图像语义描述方法
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN114298121A (zh) 基于多模态的文本生成方法、模型训练方法和装置
CN112905739A (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN113312453A (zh) 一种面向跨语言对话理解的模型预训练系统
CN115131698A (zh) 视频属性确定方法、装置、设备及存储介质
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN114445832A (zh) 基于全局语义的文字图像识别方法、装置及计算机设备
CN117033609A (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN112905793A (zh) 一种基于Bilstm+Attention文本分类的案例推荐方法及系统
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN114840680A (zh) 一种实体关系联合抽取方法、装置、存储介质及终端
CN114297408A (zh) 一种基于级联二进制标注框架的关系三元组抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant