CN115512374A - 针对表格文本的深度学习特征提取分类方法及装置 - Google Patents

针对表格文本的深度学习特征提取分类方法及装置 Download PDF

Info

Publication number
CN115512374A
CN115512374A CN202110624050.7A CN202110624050A CN115512374A CN 115512374 A CN115512374 A CN 115512374A CN 202110624050 A CN202110624050 A CN 202110624050A CN 115512374 A CN115512374 A CN 115512374A
Authority
CN
China
Prior art keywords
classification
network model
text
feature extraction
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110624050.7A
Other languages
English (en)
Inventor
刘佳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Xiongan ICT Co Ltd
China Mobile System Integration Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Xiongan ICT Co Ltd
China Mobile System Integration Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Xiongan ICT Co Ltd, China Mobile System Integration Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110624050.7A priority Critical patent/CN115512374A/zh
Publication of CN115512374A publication Critical patent/CN115512374A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明提供一种针对表格文本的深度学习特征提取分类方法及装置。该方法包括:将表格文本输入到自然语言特征提取网络模型中对所述表格文本的每个单元格内容进行特征提取,得到对应的内容特征向量;根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵;将所述表格语义结构特征矩阵输入到卷积神经网络模型中对全局矩阵进行特征提取,得到对应语义信息和结构信息的目标特征向量;将所述目标特征向量输入到分类网络模型中,得到所述分类网络模型输出的分类结果。采用本发明公开的方法,能够提升表格类型文本文件特征的表达能力,有效提高了表格文本的分类精度和效率。

Description

针对表格文本的深度学习特征提取分类方法及装置
技术领域
本发明涉及计算机应用技术领域,具体涉及一种针对表格文本的深度学习特征提取分类方法和装置。另外,还涉及一种电子设备及处理器可读存储介质。
背景技术
近年来,随着计算机技术的快速发展,借助互联网实现的业务处理越来越多,如何保障相关业务文本的特征提取及分类效率是当前面临的主要问题。在人工智能领域,自然语言处理随着大规模注意力机制网络的发明,已经达到了新的能力高度。文本特征提取是自然语言处理的一项基础任务,也是应用最广的领域。然而,通常情况下的特征提取任务聚焦在连续的短句、长文章等文本形式。对于一些特定领域来说,文本的形式可以是表单、表格等形式,这些特殊形式的文本特征提取和分类的需求也越来越高。
目前利用深度学习对表格形式的文本文件做特征提取和分类的方法主要分为两种途径。第一种是,将表格文件的文本内容提取出来,直接拼接成普通的连续文本,使用一般的文本分类算法对其进行训练和分类。例如CN112100387B,其重点在于针对普通连续文本采用多次特征提取以提升文本分类精度。然而,此类方法一般假设输入数据是普通连续文本,主要创新点在其假设的输入条件下改变算法使得分类精度更高。此类方法没有针对表格文本这类特定领域进行优化提升。第二种是,在表格文件内根据单元格前后位置关系进行内容补全或合并已完成表格内部关系发掘或表格的识别。例如CN112232048A,其可以获取表格中跨越页面的单元格并提取各自内容,判断其是否属于同一分类标签,标签一样的将被合并更新表格,最后对表格进行重建。其解决的问题重点是在输入文件为非表格标准格式的情况下,如何将表格信息化识别重建。所描述方案对于内容分类是基于单元格内普通连续文本的分类,目的是为了发现同类的单元格内容,并非针对整个表格进行类别识别。
然而,在文本文件分类的场景下,仅仅针对文章,连续语句这些一般文本的分类在很多时候已经无法满足生产需求。其原因在于,实际生产环境中大量文本文件是以表格形式存在的,涉及的大量文件都是表格形式。现有技术较多的关注了一般文本的分类,而忽略了表格这种特殊却常见的文本形式。因此,如何针对表格设计一种精确、高效的特征提取及分类方案成为本领域研究的重要课题。
发明内容
为此,本发明提供一种针对表格文本的深度学习特征提取分类方法及装置,以解决现有技术中存在的针对表格文本的分类方案精度和效率较差的问题。
第一方面,本发明提供一种针对表格文本的深度学习特征提取分类方法,包括:
将表格文本输入到自然语言特征提取网络模型中对所述表格文本的每个单元格内容进行特征提取,得到对应的内容特征向量;
根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵;
将所述表格语义结构特征矩阵输入到卷积神经网络模型中对全局矩阵进行特征提取,得到对应语义信息和结构信息的目标特征向量;
将所述目标特征向量输入到分类网络模型中,得到所述分类网络模型输出的分类结果。
在一个实施例中,根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵,具体包括:
根据所述表格文本所包含单元格的大小信息,对所述内容特征向量做形状变换,将所述内容特征向量转换成大小与每个单元格的大小相对应的内容特征矩阵;
根据所述表格文本所包含单元格的相对位置,对所述内容特征矩阵进行排布,得到表格语义结构特征矩阵。
在一个实施例中,所述自然语言特征提取网络模型、所述卷积神经网络模型以及所述分类网络模型是分别基于样本文本、所述样本文本对应的分类推断结果以及真实结果训练得到的。
在一个实施例中,所述的针对表格文本的深度学习特征提取分类方法,还包括:在训练过程中,利用预设的最小化损失函数确定所述分类推断结果与所述真实结果的损失反馈参数调整信息,并通过所述分类网络模型、所述卷积神经网络模型、所述自然语言特征提取网络模型依次梯度回传所述损失反馈参数调整信息,以实现调整网络模型参数。
在一个实施例中,所述卷积神经网络模型用于基于对所述样本文本中相邻位置单元格之间的关联信息进行特征提取得到的表示特征,对所述表格文本进行特征提取,并输出相应的包含语义信息和结构信息的目标特征向量。
在一个实施例中,所述的针对表格文本的深度学习特征提取分类方法,还包括:若所述表格文本所包含的单元格跨越多行多列,则对所述内容特征矩阵进行上采样处理,以使所述内容特征矩阵的相对位置和大小与单元格在所述表格文本中的相对位置和大小保持一致,得到表格语义结构特征矩阵。
第二方面,本发明还提供一种针对表格文本的深度学习特征提取分类装置,包括:
内容特征向量获得单元,用于将表格文本输入到自然语言特征提取网络模型中对所述表格文本的每个单元格内容进行特征提取,得到对应的内容特征向量;
表格语义结构特征矩阵获得单元,用于根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵;
目标特征向量获得单元,用于将所述表格语义结构特征矩阵输入到卷积神经网络模型中对全局矩阵进行特征提取,得到对应语义信息和结构信息的目标特征向量;
分类处理单元,用于将所述目标特征向量输入到分类网络模型中,得到所述分类网络模型输出的分类结果。
在一个实施例中,所述表格语义结构特征矩阵获得单元,具体用于:根据所述表格文本所包含单元格的大小信息,对所述内容特征向量做形状变换,将所述内容特征向量转换成大小与每个单元格的大小相对应的内容特征矩阵;根据所述表格文本所包含单元格的相对位置,对所述内容特征矩阵进行排布,得到表格语义结构特征矩阵。
在一个实施例中,所述自然语言特征提取网络模型、所述卷积神经网络模型以及所述分类网络模型是分别基于样本文本、所述样本文本对应的分类推断结果以及真实结果训练得到的。
在一个实施例中,所述的针对表格文本的深度学习特征提取分类装置,还包括:模型参数调整单元,用于在训练过程中,利用预设的最小化损失函数确定所述分类推断结果与所述真实结果的损失反馈参数调整信息,并通过所述分类网络模型、所述卷积神经网络模型、所述自然语言特征提取网络模型依次梯度回传所述损失反馈参数调整信息,以实现调整网络模型参数。
在一个实施例中,所述卷积神经网络模型用于基于对所述样本文本中相邻位置单元格之间的关联信息进行特征提取得到的表示特征,对所述表格文本进行特征提取,并输出相应的包含语义信息和结构信息的目标特征向量。
在一个实施例中,所述表格语义结构特征矩阵获得单元,具体还用于:若所述表格文本所包含的单元格跨越多行多列,则对所述内容特征矩阵进行上采样处理,以使所述内容特征矩阵的相对位置和大小与单元格在所述表格文本中的相对位置和大小保持一致,得到表格语义结构特征矩阵。
第三方面,本发明还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的针对表格文本的深度学习特征提取分类方法的步骤。
第四方面,本发明还提供一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的针对表格文本的深度学习特征提取分类方法的步骤。
采用本发明所述的针对表格文本的深度学习特征提取分类方法,充分利用了表格所包含的单元格相对位置和大小信息,通过自然语言特征提取网络模型提取表格语义内容信息,并通过卷积神经网络模型基于位置相邻单元格之间的关联信息提取表格结构语义信息,能够提升表格类型文本文件特征的表达能力,有效提高了表格文本的分类精度和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1为本发明实施例提供的针对表格文本的深度学习特征提取分类方法的流程示意图;
图2为本发明实施例提供的针对表格文本的深度学习特征提取分类方法的完整流程示意图;
图3为本发明实施例提供的针对表格文本的深度学习特征提取分类装置的结构示意图;
图4为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
下面基于本发明所述的针对表格文本的深度学习特征提取分类方法,对其实施例进行详细描述。如图1所示,其为本发明实施例提供的针对表格文本的深度学习特征提取分类方法的流程示意图,具体实现过程包括以下步骤:
步骤101:将表格文本输入到自然语言特征提取网络模型中对所述表格文本的每个单元格内容进行特征提取,得到对应的内容特征向量。其中,所述表格文本为表单、表格等特殊形式的文本文件。
具体的,在表格内容语义信息提取阶段:本发明考虑到表格形式文件的特殊结构,即每个单元格与其四周相邻单元格的内容之间存在关联信息,采用了特殊的特征提取方式。也就是,针对所述表格文本中每一个单元格的文字信息内容,使用预设的自然语言特征提取网络模型提取内容特征向量,此时每个单元格的内容特征向量形状为1*n维,随后将内容特征向量变形为形状为
Figure BDA0003101368920000071
的特征矩阵形式,即内容特征向量提取后对应的将表格内容全部变为大小相等的特征矩阵。其中,所述自然语言特征提取网络模型是基于相应的样本文本、所述样本文本对应的分类推断结果以及真实结果训练得到的。
步骤102:根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵。
具体的,在表格结构语义信息提取阶段,还可根据所述表格文本所包含单元格的大小信息,对所述内容特征向量做形状变换,将所述内容特征向量转换成大小与每个单元格的大小相对应的内容特征矩阵,并进一步的根据所述表格文本所包含单元格的相对位置,对所述内容特征矩阵进行排布,得到表格语义结构特征矩阵。
需要说明的是,若所述表格文本所包含的单元格跨越多行多列,则对所述内容特征矩阵进行上采样处理,以使所述内容特征矩阵的相对位置和大小与单元格在所述表格文本中的相对位置和大小保持一致,得到表格语义结构特征矩阵。即按照表格文本的单元格相对位置和大小组成一个相对位置和大小相同的语义结构矩阵(即得到的表格语义结构特征矩阵)。
步骤103:将所述表格语义结构特征矩阵输入到卷积神经网络模型中对全局矩阵进行特征提取,得到对应语义信息和结构信息的目标特征向量。
在得到表格语义结构特征矩阵后,使用所述卷积神经网络模型对所述表格语义结构特征矩阵进行进一步特征提取,并得到最终全局语义信息,即对应语义信息和结构信息的目标特征向量,用于最后分类。其中,所述卷积神经网络模型是基于相应的样本文本、所述样本文本对应的分类推断结果以及真实结果训练得到的。该卷积神经网络模型用于基于对所述样本文本中相邻位置单元格之间的关联信息进行特征提取得到的表示特征,对所述表格文本进行特征提取,并输出相应的包含语义信息和结构信息的目标特征向量。
步骤104:将所述目标特征向量输入到分类网络模型中,得到所述分类网络模型输出的分类结果。
在本发明实施例中,所述分类网络模型也是基于相应的样本文本、所述样本文本对应的分类推断结果以及真实结果训练得到的。其中,具体训练过程中,利用预设的最小化损失函数确定所述分类推断结果与所述真实结果的损失反馈参数调整信息,并通过所述分类网络模型、所述卷积神经网络模型、所述自然语言特征提取网络模型依次梯度回传所述损失反馈参数调整信息,以实现调整网络模型参数,得到最终满足应用需要的所述分类网络模型、所述卷积神经网络模型、所述自然语言特征提取网络模型。这些网络模型通过统一的损失计算、梯度传递完成了端到端的统一参数调整训练过程。
在表格结构语义信息提取中:首先构造表格的表格语义结构特征矩阵。经过前文介绍可知,内容特征向量提取后表格文本内容全部变为大小相等的特征矩阵,随后将特征矩阵按照表格的单元格相对位置组成一个大小相同的表格语义结构特征矩阵。具体的,如果有单元格跨越多行多列,则会将特征矩阵进行上采样使其在语义结构矩阵的相对大小和位置与单元格在表格中的相对大小、位置保持一致。在得到表格语义结构特征矩阵后,使用卷积神经网络模型对全局矩阵进行进一步的特征提取,并达到最终全局语义信息用于最后分类。其中,通过卷积神经网络可以提取到位置相邻单元格之间得关联信息。
如图2所示,该流程图展示是表格信息深度学习网络结构。从表格文本输入网络模型架构,经过主要的三个网络模型,最终输出分类结果。同时三个网络模型使用一个损失函数来同步完成各自的参数调整,从而实现同步训练。
具体实现流程如下:接收到文字内容组成的表格文本,将表格文本输入到自然语言特征提取网络模型中,利用自然语言特征提取网络模型将每个单元格内的内容特提取为相应的内容特征向量。对每个内容特征向量做形状变换或上采样处理,转成相对大小对应原始的表格文本中单元格大小的特征矩阵。将特征矩阵按照原始的表格文本中单元格的相对位置排布,组织成表格语义结构特征矩阵。将所述表格语义结构特征矩阵输入到卷积神经网络模型中,利用卷积神经网络模型针对表格语义结构特征矩阵进行卷积等操作,提取包含了语义和结构信息的目标特征向量(即语义结构向量)。将所述目标特征向量输入到分类网络模型中,利用分类网络模型将目标特征向量进行分类,并输出分类结果。需要说明的是,在训练中,分类推断结果与真实结果经过损失函数计算损失并经过分类网络模型、卷积神经网络魔心、自然语言特征提取网络模型依次梯度回传,调整网络模型的参数,从而实现反向网络参数调整操作。
在本发明实施例中,可针对表格的单元格内容分别提取特征向量,并按照表格原有结构将单元格的内容特征向量拼接成新的特征矩阵。利用自然语言特征提取网络模型对表格文本提取特征向量建立特征矩阵后使用卷积神经网络模型对其进行进一步特征提取,从而实现正向特征提取。
采用本发明实施例所述的针对表格文本的深度学习特征提取分类方法,充分利用了表格所包含的单元格相对位置和大小信息,通过自然语言特征提取网络模型提取表格语义内容信息,并通过卷积神经网络模型基于位置相邻单元格之间的关联信息提取表格结构语义信息,能够提升表格类型文本文件特征的表达能力,有效提高了表格文本的分类精度和效率。
与上述提供的一种针对表格文本的深度学习特征提取分类方法相对应,本发明还提供一种针对表格文本的深度学习特征提取分类装置。由于该装置的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的针对表格文本的深度学习特征提取分类装置的实施例仅是示意性的。请参考图3所示,其为本发明实施例提供的一种针对表格文本的深度学习特征提取分类装置的结构示意图。
本发明所述的一种针对表格文本的深度学习特征提取分类装置具体包括如下部分:
内容特征向量获得单元301,用于将表格文本输入到自然语言特征提取网络模型中对所述表格文本的每个单元格内容进行特征提取,得到对应的内容特征向量;
表格语义结构特征矩阵获得单元302,用于根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵;
目标特征向量获得单元303,用于将所述表格语义结构特征矩阵输入到卷积神经网络模型中对全局矩阵进行特征提取,得到对应语义信息和结构信息的目标特征向量;
分类处理单元304,用于将所述目标特征向量输入到分类网络模型中,得到所述分类网络模型输出的分类结果。
采用本发明实施例所述的针对表格文本的深度学习特征提取分类装置,充分利用了表格所包含的单元格相对位置和大小信息,通过自然语言特征提取网络模型提取表格语义内容信息,并通过卷积神经网络模型基于位置相邻单元格之间的关联信息提取表格结构语义信息,能够提升表格类型文本文件特征的表达能力,有效提高了表格文本的分类精度和效率。
与上述提供的针对表格文本的深度学习特征提取分类方法相对应,本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的电子设备仅是示意性的。如图4所示,其为本发明实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括:处理器(processor)401、存储器(memory)402和通信总线403,其中,处理器401,存储器402通过通信总线403完成相互间的通信,通过通信接口404与外部进行通信。处理器401可以调用存储器402中的逻辑指令,以执行针对表格文本的深度学习特征提取分类方法,该方法包括:将表格文本输入到自然语言特征提取网络模型中对所述表格文本的每个单元格内容进行特征提取,得到对应的内容特征向量;根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵;将所述表格语义结构特征矩阵输入到卷积神经网络模型中对全局矩阵进行特征提取,得到对应语义信息和结构信息的目标特征向量;将所述目标特征向量输入到分类网络模型中,得到所述分类网络模型输出的分类结果。
此外,上述的存储器402中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:存储芯片、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在处理器可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的针对表格文本的深度学习特征提取分类方法,该方法包括:将表格文本输入到自然语言特征提取网络模型中对所述表格文本的每个单元格内容进行特征提取,得到对应的内容特征向量;根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵;将所述表格语义结构特征矩阵输入到卷积神经网络模型中对全局矩阵进行特征提取,得到对应语义信息和结构信息的目标特征向量;将所述目标特征向量输入到分类网络模型中,得到所述分类网络模型输出的分类结果。
又一方面,本发明实施例还提供一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的针对表格文本的深度学习特征提取分类方法,该方法包括:将表格文本输入到自然语言特征提取网络模型中对所述表格文本的每个单元格内容进行特征提取,得到对应的内容特征向量;根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵;将所述表格语义结构特征矩阵输入到卷积神经网络模型中对全局矩阵进行特征提取,得到对应语义信息和结构信息的目标特征向量;将所述目标特征向量输入到分类网络模型中,得到所述分类网络模型输出的分类结果。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种针对表格文本的深度学习特征提取分类方法,其特征在于,包括:
将表格文本输入到自然语言特征提取网络模型中对所述表格文本的每个单元格内容进行特征提取,得到对应的内容特征向量;
根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵;
将所述表格语义结构特征矩阵输入到卷积神经网络模型中对全局矩阵进行特征提取,得到对应语义信息和结构信息的目标特征向量;
将所述目标特征向量输入到分类网络模型中,得到所述分类网络模型输出的分类结果。
2.根据权利要求1所述的针对表格文本的深度学习特征提取分类方法,其特征在于,根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵,具体包括:
根据所述表格文本所包含单元格的大小信息,对所述内容特征向量做形状变换,将所述内容特征向量转换成大小与每个单元格的大小相对应的内容特征矩阵;
根据所述表格文本所包含单元格的相对位置,对所述内容特征矩阵进行排布,得到表格语义结构特征矩阵。
3.根据权利要求1所述的针对表格文本的深度学习特征提取分类方法,其特征在于,所述自然语言特征提取网络模型、所述卷积神经网络模型以及所述分类网络模型是分别基于样本文本、所述样本文本对应的分类推断结果以及真实结果训练得到的。
4.根据权利要求3所述的针对表格文本的深度学习特征提取分类方法,其特征在于,还包括:在训练过程中,利用预设的最小化损失函数确定所述分类推断结果与所述真实结果的损失反馈参数调整信息,并通过所述分类网络模型、所述卷积神经网络模型、所述自然语言特征提取网络模型依次梯度回传所述损失反馈参数调整信息,以实现调整网络模型参数。
5.根据权利要求3所述的针对表格文本的深度学习特征提取分类方法,其特征在于,所述卷积神经网络模型用于基于对所述样本文本中相邻位置单元格之间的关联信息进行特征提取得到的表示特征,对所述表格文本进行特征提取,并输出相应的包含语义信息和结构信息的目标特征向量。
6.根据权利要求2所述的针对表格文本的深度学习特征提取分类方法,其特征在于,还包括:若所述表格文本所包含的单元格跨越多行多列,则对所述内容特征矩阵进行上采样处理,以使所述内容特征矩阵的相对位置和大小与单元格在所述表格文本中的相对位置和大小保持一致,得到表格语义结构特征矩阵。
7.一种针对表格文本的深度学习特征提取分类装置,其特征在于,包括:
内容特征向量获得单元,用于将表格文本输入到自然语言特征提取网络模型中对所述表格文本的每个单元格内容进行特征提取,得到对应的内容特征向量;
表格语义结构特征矩阵获得单元,用于根据所述表格文本所包含单元格的相对位置和大小信息,对所述内容特征向量进行处理,得到表格语义结构特征矩阵;
目标特征向量获得单元,用于将所述表格语义结构特征矩阵输入到卷积神经网络模型中对全局矩阵进行特征提取,得到对应语义信息和结构信息的目标特征向量;
分类处理单元,用于将所述目标特征向量输入到分类网络模型中,得到所述分类网络模型输出的分类结果。
8.根据权利要求7所述的针对表格文本的深度学习特征提取分类装置,其特征在于,所述表格语义结构特征矩阵获得单元,具体用于:根据所述表格文本所包含单元格的大小信息,对所述内容特征向量做形状变换,将所述内容特征向量转换成大小与每个单元格的大小相对应的内容特征矩阵;根据所述表格文本所包含单元格的相对位置,对所述内容特征矩阵进行排布,得到表格语义结构特征矩阵。
9.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任意一项所述的针对表格文本的深度学习特征提取分类方法的步骤。
10.一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6任意一项所述的针对表格文本的深度学习特征提取分类方法的步骤。
CN202110624050.7A 2021-06-04 2021-06-04 针对表格文本的深度学习特征提取分类方法及装置 Pending CN115512374A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110624050.7A CN115512374A (zh) 2021-06-04 2021-06-04 针对表格文本的深度学习特征提取分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110624050.7A CN115512374A (zh) 2021-06-04 2021-06-04 针对表格文本的深度学习特征提取分类方法及装置

Publications (1)

Publication Number Publication Date
CN115512374A true CN115512374A (zh) 2022-12-23

Family

ID=84499535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110624050.7A Pending CN115512374A (zh) 2021-06-04 2021-06-04 针对表格文本的深度学习特征提取分类方法及装置

Country Status (1)

Country Link
CN (1) CN115512374A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983237A (zh) * 2023-03-21 2023-04-18 北京亚信数据有限公司 表格类型识别模型训练、预测及表格数据推荐方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983237A (zh) * 2023-03-21 2023-04-18 北京亚信数据有限公司 表格类型识别模型训练、预测及表格数据推荐方法和装置

Similar Documents

Publication Publication Date Title
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
JP2020520492A (ja) 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体
CN109726298B (zh) 适用于科技文献的知识图谱构建方法、系统、终端及介质
CN111221944B (zh) 文本意图识别方法、装置、设备和存储介质
EP3926531A1 (en) Method and system for visio-linguistic understanding using contextual language model reasoners
CN111967264B (zh) 一种命名实体识别方法
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
Banik et al. Gru based named entity recognition system for bangla online newspapers
CN111353303A (zh) 词向量构建方法、装置、电子设备及存储介质
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
CN116956835B (zh) 一种基于预训练语言模型的文书生成方法
JPWO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
US11615247B1 (en) Labeling method and apparatus for named entity recognition of legal instrument
KR102608867B1 (ko) 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램
CN110598210B (zh) 实体识别模型训练、实体识别方法、装置、设备及介质
US11270085B2 (en) Generating method, generating device, and recording medium
CN115512374A (zh) 针对表格文本的深度学习特征提取分类方法及装置
CN111091001B (zh) 一种词语的词向量的生成方法、装置及设备
CN113535912A (zh) 基于图卷积网络和注意力机制的文本关联方法及相关设备
CN112765976A (zh) 文本相似度计算方法、装置、设备及存储介质
CN113128557A (zh) 基于胶囊网络融合模型的新闻文本分类方法、系统及介质
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN115994524A (zh) 表格预训练模型的训练方法、装置、设备及介质
CN110275957B (zh) 姓名消歧方法、装置、电子设备及计算机可读存储介质
JPWO2018066083A1 (ja) 学習プログラム、情報処理装置および学習方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination