CN111523420B - 基于多任务深度神经网络的表头分类与表头列语义识别方法 - Google Patents
基于多任务深度神经网络的表头分类与表头列语义识别方法 Download PDFInfo
- Publication number
- CN111523420B CN111523420B CN202010288807.5A CN202010288807A CN111523420B CN 111523420 B CN111523420 B CN 111523420B CN 202010288807 A CN202010288807 A CN 202010288807A CN 111523420 B CN111523420 B CN 111523420B
- Authority
- CN
- China
- Prior art keywords
- header
- scene
- sequence
- classification
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多任务深度神经网络的表头分类与表头列语义识别方法,属于自然语言处理技术领域,使用深度学习来进行表格场景分类和表头列映射,将表格场景分类任务转成了文本分类任务,将表格列映射任务转成了序列标注任务,使用Bert预训练模型增强了语义表示能力,使用多任务的结构将上述两个任务结合到一起,在训练的过程中,两个的任务的损失函数会合并到一起,互相提升对方的效果。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于多任务深度神经网络的表头分类与表头列语义识别方法。
背景技术
现在的Excel表格的半结构化提取技术是首先采用表头中包含的关键词判断表格的场景,然后利用建立字典库的方式,将各表头列映射到某些定义好的字段中,从而提取Excel表格中各列对应的数据到我们定义好的关系数据库中相相应的字段中。这里的字段是指我们定义的关系型数据库表格的字段,而表头列是Excel表格的列名。
现有的技术在判断表格所属的场景上面,只是采用了关键词进行分类,而表头列映射到数据库表格字段则是采用了建立字典库映射的方式,无法满足复杂的实际场景。同时,在一个完整的表头中,会出现重复的表头列,但是它们表达了不同的含义,这时需要依赖于这些表头列的前一列或者后一列去判断它真实的含义,而原先使用字典库映射表头列是无法依据表头列的上下文来判断它真实的含义。同时原先的表格场景分类的方式泛化能力较低,且无法利用表头列映射的过程进行反馈表格场景分类。
发明内容
本发明所要解决的技术问题是针对背景技术的不足提供一种基于多任务深度神经网络的表头分类与表头列语义识别方法,使用深度学习来进行表格场景分类和表头列映射,将表格场景分类任务转成了文本分类任务,将表格列映射任务转成了序列标注任务,使用Bert预训练模型增强了语义表示能力,使用多任务的结构将上述两个任务结合到一起,在训练的过程中,两个的任务的损失函数会合并到一起,互相提升对方的效果。
本发明为解决上述技术问题采用以下技术方案:
基于多任务深度神经网络的表头分类与表头列语义识别方法,具体包含如下步骤;
步骤1,给表头样本库中的全部表头标注上已定义好的场景,包含网购订单场景、物流运输场景,同时给表头列标注上各场景需要提取的自定义标准信息字段,包含网购场景的订单号、买家姓名、卖家姓名;
步骤2,将标注好的表头样本进行预处理,进而形成模型向量;具体如下:
步骤2.1,根据表头样本库包含的所有互不相同的字构建字典,对表头中的字利用字典映射成字典位置,并把表头变成向量序列,具体如下,若表头样本库包含V个互不相同的字{w1,w2...wv},则字典就是{w1:1,w2:2...wv:v},若某个表头样本是由m个字构成的序列{wk1,wk2...wkm},则该表头的向量序列就是{k1,k2...km};
步骤2.2,对表头的场景标签和表头列的映射字段标签也制作对应的字典,建立场景类别标签和场景序列标签的向量序列;
步骤2.3,将场景序列标签按照全部的场景数目进行扩充,若表头不属于该场景,则使用O作为序列填充值;
步骤3,将预处理完的样本输入到模型中;其中,模型采用深度学习框架tensorflow实现:具体如下:
步骤3.1,将表头利用bert模型进行语义embedding,对输入表头的向量进行语义表示,包括表头的池化向量和字词序列向量;
步骤3.2,将表头的池化向量输入到文本分类模型里面,用于处理表头场景分类任务,表头场景分类任务损失函数采用神经网络里的多标签分类损失函数,可得到表头场景分类任务的损失函数值classifyloss;
步骤3.3,将字词序列向量输入到序列标注模型里面,用于处理表头列映射任务;序列标注模型对每个场景单独建立了一个序列标注分支,每个序列标注分支计算出来的损失函数[loss1,loss2...lossN]同场景类别标签[label1,label2...labelN]做一个点乘,然后求和,只留下表头所在场景的序列损失函数值sequenceloss,即
步骤3.4,将表头场景分类任务和表头列映射任务的损失函数求和,进而获取最终需要在神经网络里面要优化的损失函数值,即loss=classifyloss+sequenceloss;
步骤4,优化训练损失函数值loss;
步骤5,输出同时处理表头场景分类和表头列映射的统一模型。
作为本发明基于多任务深度神经网络的表头分类与表头列语义识别方法的进一步优选方案,在步骤2.2中,场景类别标签采用one-hot编码,one-hot编码的含义是,若有n个场景,则建立一个n维向量用来表示该表头的场景标签,其中,n维向量的每个位置表示一个约定好的场景,若该位置元素为1,则表示表头拥有这个场景的标签,若为0则表示没有,具体如下,若定义N个场景{scene1,scene2...sceneN},则场景字典为{scene1:1,scene2:2...sceneN:N},若某个表头样本包含了如下Y个场景{scenef1,scenef2...scenefy},那么则该样本的场景标签的向量序列为[0,0...1...1...1...0],其中,向量序列长度为N,向量在f1,f2...fy位置的元素是1,在其余位置元素为0。
作为本发明基于多任务深度神经网络的表头分类与表头列语义识别方法的进一步优选方案,在步骤2.2中,场景序列标签采用BIO标注体系,其中,BIO标注体系是指对一个句子序列的标注方式,句子中实体的开头以B-{实体}标注,实体的其余部分以I-{实体名称}标注,其中,实体在这里就是指我们需要映射到数据库字段名;对于不需要映射的表头列,以O标注该表头列的每个字。
作为本发明基于多任务深度神经网络的表头分类与表头列语义识别方法的进一步优选方案,在步骤4中,神经网络训练过程的参数可设置为4轮迭代,每次输入模型中的样本数目可设置为16,以此优化损失函数值loss。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明使用深度学习来进行表格场景分类和表头列映射,将表格场景分类任务转成了文本分类任务,将表格列映射任务转成了序列标注任务;
2、本发明使用Bert预训练模型增强了语义表示能力;
3、本发明使用多任务的结构将上述两个任务结合到一起,在训练的过程中,两个的任务的损失函数会合并到一起,互相提升对方的效果。
附图说明
图1是本发明的方法流程图;
图2是本发明多任务神经网络模型的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,基于多任务深度神经网络的表头分类与表头列语义识别方法,具体包含如下步骤;
步骤1,给表头标注上已定义好的场景,包含网购订单场景、物流运输场景,同时给表头列标注上各场景需要提取的自定义标准信息字段,包含网购场景的订单号、买家姓名、卖家姓名;
步骤2,将标注好的表头样本进行预处理,进而形成模型向量;具体如下:
步骤2.1,根据表头样本库包含的字,根据样本里面包含的词汇构建字典,对表头中的字利用字典映射成字典位置,并把表头变成向量序列,具体如下,若表头样本库包含V个互不相同的字{w1,w2...wv},则字典就是{w1:1,w2:2...wv:v},若某个表头样本是由m个字构成的序列{wk1,wk2...wkm},则表头的向量序列就是{k1,k2...km};
步骤2.2,对表头的场景标签和表头列的映射字段标签也制作对应的字典,建立场景类别标签和场景序列标签的向量序列;
场景类别标签采用one-hot编码,one-hot编码的含义是,若有n个场景,则建立一个n维向量用来表示该表头的场景标签,其中,n维向量的每个位置表示一个约定好的场景,若该位置元素为1,则表示表头拥有这个场景的标签,若为0则表示没有,具体如下,若定义N个场景{scene1,scene2...sceneN},则场景字典为{scene1:1,scene2:2...sceneN:N},若某个表头样本包含了如下Y个场景{scenef1,scenef2...scenefy},那么则该样本的场景标签的向量序列为[0,0...1...1...1...0],其中向量序列长度为N,向量在f1,f2...fy位置的元素是1,在其余位置元素为0。
场景序列标签采用BIO标注体系,其中,BIO标注体系是指对一个句子序列的标注方式,句子中实体的开头以B-{实体}标注,实体的其余部分以I-{实体名称}标注,其中,实体在这里就是指我们需要映射到数据库字段名;对于不需要映射的表头列,以O标注该表头列的每个字。
步骤2.3,上述为某一表头建立的场景序列标签只有该表头所属的场景才有对应的,这里要将场景序列标签按照全部的场景数目进行扩充,若这个表头不属于该场景,则使用O作为序列填充值;
步骤3,将预处理完的样本输入到模型中,模型采用深度学习框架tensorflow实现,深度学习框架有tensorflow和pytorch,这里我用的tensorflow框架来实现的,pytorch没有经过测试:具体如下:
步骤3.1,将表头利用bert模型进行语义embedding,对输入表头的向量进行语义表示,包括表头的池化向量和字词序列向量;
步骤3.2,将表头的池化向量输入到文本分类模型里面,用于处理表头场景分类任务,池化向量和字词序列向量属于bert模型的;表头场景分类任务损失函数采用神经网络里的多标签分类损失函数,可以得到表头场景分类任务的损失函数值classifyloss;
步骤3.3,将字词序列向量输入到序列标注模型里面,用于处理表头列映射任务;序列标注模型对每个场景单独建立了一个序列标注分支,每个序列标注分支计算出来的损失函数[loss1,loss2...lossN]同场景类别标签[label1,label2...labelN]做一个点乘,然后求和,只留下表头所在场景的序列损失函数值sequenceloss,即
步骤3.4,将表头场景分类任务和表头列映射任务的损失函数求和,进而获取最终需要在神经网络里面要优化的损失函数值,即loss=classifyloss+sequenceloss。
步骤4,神经网络训练过程的参数可以设置为4轮迭代,每次输入模型中的样本数目可设置为16,以此优化损失函数值loss。
步骤5,等待训练结束之后,可得到一个能够同时处理表头场景分类和表头列映射的统一模型。
多任务神经网络模型的结构:如图2所示,图2中表头(输入)对应着步骤2.1,图2中表头场景类别标签(输入)步骤2.2,图2中扩展合并标签序列对应着步骤2.3的过程,图2中的Bert方块对应中步骤3.1引入Bert预训练语言模型的过程,图2中文本分类和序列标注分别对应着步骤3.2和步骤3.3的过程,图2中最终损失函数对应着步骤3.4的过程。
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。上面对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (2)
1.基于多任务深度神经网络的表头分类与表头列语义识别方法,其特征在于:具体包含如下步骤;
步骤1,给表头样本库中的全部表头标注上已定义好的场景,包含网购订单场景、物流运输场景,同时给表头列标注上各场景需要提取的自定义标准信息字段,包含网购场景的订单号、买家姓名、卖家姓名;
步骤2,将标注好的表头样本进行预处理,进而形成模型向量;具体如下:
步骤2.1,根据表头样本库包含的所有互不相同的字构建字典,对表头中的字利用字典映射成字典位置,并把表头变成向量序列,具体如下,若表头样本库包含V个互不相同的字{w1,w2...wv},则字典就是{w1:1,w2:2...wv:v},若某个表头样本是由m个字构成的序列{wk1,wk2...wkm},则该表头的向量序列就是{k1,k2...km};
步骤2.2,对表头的场景标签和表头列的映射字段标签也制作对应的字典,建立场景类别标签和场景序列标签的向量序列;
步骤2.3,将场景序列标签按照全部的场景数目进行扩充,若表头不属于该场景,则使用O作为序列填充值;
步骤3,将预处理完的样本输入到模型中;其中,模型采用深度学习框架tensorflow实现:具体如下:
步骤3.1,将表头利用bert模型进行语义embedding,对输入表头的向量进行语义表示,包括表头的池化向量和字词序列向量;
步骤3.2,将表头的池化向量输入到文本分类模型里面,用于处理表头场景分类任务,表头场景分类任务损失函数采用神经网络里的多标签分类损失函数,可得到表头场景分类任务的损失函数值classifyloss;
步骤3.3,将字词序列向量输入到序列标注模型里面,用于处理表头列映射任务;序列标注模型对每个场景单独建立了一个序列标注分支,每个序列标注分支计算出来的损失函数[loss1,loss2...lossN]同场景类别标签[label1,label2...labelN]做一个点乘,然后求和,只留下表头所在场景的序列损失函数值sequenceloss,即
步骤3.4,将表头场景分类任务和表头列映射任务的损失函数求和,进而获取最终需要在神经网络里面要优化的损失函数值,即loss=classifyloss+sequenceloss;
步骤4,优化训练损失函数值loss;
步骤5,输出同时处理表头场景分类和表头列映射的统一模型;
在步骤2.2中,场景类别标签采用one-hot编码,one-hot编码的含义是,若有n个场景,则建立一个n维向量用来表示该表头的场景标签,其中,n维向量的每个位置表示一个约定好的场景,若该位置元素为1,则表示表头拥有这个场景的标签,若为0则表示没有,具体如下,若定义N个场景{scene1,scene2...sceneN},则场景字典为{scene1:1,scene2:2...sceneN:N},若某个表头样本包含了如下y个场景{scenef1,scenef2...scenefy},那么则该样本的场景标签的向量序列为[0,0...1...1...1...0],其中,向量序列长度为N,向量在f1,f2...fy位置的元素是1,在其余位置元素为0;
在步骤2.2中,场景序列标签采用BIO标注体系,其中,BIO标注体系是指对一个句子序列的标注方式,句子中实体的开头以B-{实体}标注,实体的其余部分以I-{实体名称}标注,其中,实体在这里就是指我们需要映射到数据库字段名;对于不需要映射的表头列,以O标注该表头列的每个字。
2.根据权利要求1所述的基于多任务深度神经网络的表头分类与表头列语义识别方法,其特征在于:在步骤4中,神经网络训练过程的参数可设置为4轮迭代,每次输入模型中的样本数目可设置为16,以此优化损失函数值loss。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010288807.5A CN111523420B (zh) | 2020-04-14 | 2020-04-14 | 基于多任务深度神经网络的表头分类与表头列语义识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010288807.5A CN111523420B (zh) | 2020-04-14 | 2020-04-14 | 基于多任务深度神经网络的表头分类与表头列语义识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111523420A CN111523420A (zh) | 2020-08-11 |
CN111523420B true CN111523420B (zh) | 2023-07-07 |
Family
ID=71910724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010288807.5A Active CN111523420B (zh) | 2020-04-14 | 2020-04-14 | 基于多任务深度神经网络的表头分类与表头列语义识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523420B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100993B (zh) * | 2020-09-21 | 2024-09-20 | 珠海格力电器股份有限公司 | 表单构建方法、装置、存储介质及电子设备 |
CN112100390B (zh) * | 2020-11-18 | 2021-05-07 | 智者四海(北京)技术有限公司 | 基于场景的文本分类模型、文本分类方法及装置 |
CN113010503B (zh) * | 2021-03-01 | 2024-07-19 | 广州智筑信息技术有限公司 | 一种基于深度学习的工程造价数据智能解析方法及系统 |
CN113177124B (zh) * | 2021-05-11 | 2023-05-02 | 北京邮电大学 | 一种垂直领域知识图谱构建方法及系统 |
CN113486177A (zh) * | 2021-07-12 | 2021-10-08 | 贵州电网有限责任公司 | 一种基于文本分类的电力领域表格列标注方法 |
CN113627350B (zh) * | 2021-08-12 | 2022-08-02 | 北京百度网讯科技有限公司 | 一种表格检测方法、装置、设备以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189789A (zh) * | 2018-08-22 | 2019-01-11 | 郑州云海信息技术有限公司 | 一种用于显示表格的方法和装置 |
CN110362620A (zh) * | 2019-07-11 | 2019-10-22 | 南京烽火星空通信发展有限公司 | 一种基于机器学习的表格数据结构化方法 |
CN110378265A (zh) * | 2019-07-08 | 2019-10-25 | 创新奇智(成都)科技有限公司 | 一种早期火灾检测方法、计算机可读介质及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017166137A1 (zh) * | 2016-03-30 | 2017-10-05 | 中国科学院自动化研究所 | 基于多任务深度学习的自然图像美感质量评估方法 |
-
2020
- 2020-04-14 CN CN202010288807.5A patent/CN111523420B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189789A (zh) * | 2018-08-22 | 2019-01-11 | 郑州云海信息技术有限公司 | 一种用于显示表格的方法和装置 |
CN110378265A (zh) * | 2019-07-08 | 2019-10-25 | 创新奇智(成都)科技有限公司 | 一种早期火灾检测方法、计算机可读介质及系统 |
CN110362620A (zh) * | 2019-07-11 | 2019-10-22 | 南京烽火星空通信发展有限公司 | 一种基于机器学习的表格数据结构化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111523420A (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111523420B (zh) | 基于多任务深度神经网络的表头分类与表头列语义识别方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110232192A (zh) | 电力术语命名实体识别方法及装置 | |
CN112733866A (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
CN113298151A (zh) | 一种基于多级特征融合的遥感图像语义描述方法 | |
CN114298121A (zh) | 基于多模态的文本生成方法、模型训练方法和装置 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN113342933A (zh) | 一种类双塔模型的多特征交互网络招聘文本分类方法 | |
CN118171149B (zh) | 标签分类方法、装置、设备、存储介质和计算机程序产品 | |
CN116150367A (zh) | 一种基于方面的情感分析方法及系统 | |
CN114328934A (zh) | 一种基于注意力机制的多标签文本分类方法及系统 | |
CN115131698A (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN115374786A (zh) | 实体和关系联合抽取方法及装置、存储介质和终端 | |
CN117689963B (zh) | 一种基于多模态预训练模型的视觉实体链接方法 | |
CN114780725A (zh) | 一种基于深度聚类的文本分类算法 | |
CN111737951A (zh) | 一种文本语言关联关系标注方法和装置 | |
CN109242020A (zh) | 一种基于fastText和CRF的音乐领域命令理解方法 | |
CN114818711B (zh) | 基于神经网络的多信息融合命名实体识别方法 | |
CN114821563B (zh) | 一种基于多尺度融合crnn模型的文本识别方法 | |
CN115934966A (zh) | 基于遥感影像推荐信息的自动标注方法 | |
CN111339303B (zh) | 一种基于聚类与自动摘要的文本意图归纳方法及装置 | |
CN114969341A (zh) | 一种针对餐饮行业评论的细粒度情感分析方法及装置 | |
CN115359486A (zh) | 一种文档图像中自定义信息的确定方法及系统 | |
CN111046934B (zh) | 一种swift报文软条款识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |