CN116452707B - 基于表格的文本生成方法、装置及其应用 - Google Patents
基于表格的文本生成方法、装置及其应用 Download PDFInfo
- Publication number
- CN116452707B CN116452707B CN202310730648.3A CN202310730648A CN116452707B CN 116452707 B CN116452707 B CN 116452707B CN 202310730648 A CN202310730648 A CN 202310730648A CN 116452707 B CN116452707 B CN 116452707B
- Authority
- CN
- China
- Prior art keywords
- text
- expression
- model
- attention
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000014509 gene expression Effects 0.000 claims abstract description 160
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000001514 detection method Methods 0.000 claims abstract description 23
- 238000013145 classification model Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000019771 cognition Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 230000003930 cognitive ability Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract 1
- 230000003247 decreasing effect Effects 0.000 description 7
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 101000779415 Homo sapiens Alanine aminotransferase 2 Proteins 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 2
- 240000004718 Panda Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000021018 plums Nutrition 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 108091028732 Concatemer Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/206—Drawing of charts or graphs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本申请提出了基于表格的文本生成方法、装置及其应用,包括以下步骤:S00、提取目标表格的表格信息并转换成CSV格式;S10、将CSV格式的表格转换成图像形式;S20、利用图像分类模型和图像检测模型,将图像形式的表格标准化处理;S30、根据不同的表格类型的不同表述文本模板生成第一表格表述文本,并将该第一表格表述文本输入到文本到文本的预训练语言模型中生成第二表格表述文本;S40、将第一表格表述文本、第二表格表述文本以及引用文本输入到融合交叉注意力模型和自注意力的表格表述文本生成模型,得到第三表述文本。本申请具有节省计算资源、输出结果更符合表格表述的优点。
Description
技术领域
本申请涉及人工智能技术领域,特别是一种涉及基于表格的文本生成方法、装置及其应用。
背景技术
基于表格的文本生成是指将半结构化的表格数据转换为自然语言文本的过程。这是自然语言处理中的一个重要任务,有很多应用场景,比如生成新闻、报告、摘要等。虽然表格数据能够直观、有效地表示信息,但是可读性不高,将表格数据转换成文本数据可以提升数据的可读性和可理解性,通过文本表述可以对数据进行解释、分析和评价,更能让读者理解数据的含义,抓住主要信息。
近年来,随着深度学习的发展,基于神经网络的方法在基于表格的文本生成任务上取得了很好的效果。例如基于编码器-解码器的方法是使用一个编码器将表格数据编码为一个向量表示,然后使用一个解码器根据向量表示生成文本,编码器和解码器通常使用循环神经网络或者Transformer等结构。基于注意力机制的方法是在编码器-解码器的基础上增加了注意力机制,使得解码器在生成每个词时可以关注到表格数据中最相关的部分,注意力机制可以提高文本的准确性和流畅性。基于预训练语言模型的方法是使用一些大规模的预训练语言模型,如BERT、GPT等,作为编码器或者解码器的初始化参数,然后在特定的表格数据和文本上进行微调,预训练语言模型可以提高文本的质量和多样性。
然而由于表格具有不同的形式,对于复杂表格直接将半结构化表格数据通过模型转换成自然语言文本需要大量的标注,且模型难以理解复杂表格的语义信息,生成的文本不能够正确表述表格的含义。而且由于预训练语言模型的训练数据是非结构化的语言数据,和半结构化表格数据不同,预训练语言模型和半结构化的表格数据存在语义差异,直接利用预训练语言模型来提高表格到文本生成的效果,会存在以下的问题:
1.表格的结构化输入和预训练语言模型的自然语言输入之间的差距较大;
2.预训练语言模型缺乏对表格结构的建模,生成的文本可信度不高,不能有效地选择和组织表格数据中最重要和最相关的信息。
因此,亟待基于表格的文本生成方法、装置及其应用,以解决现有技术存在的问题。
发明内容
本申请实施例提供了基于表格的文本生成方法、装置及其应用,针对目前技术存在的和预训练语言模型的自然语言输入之间的差距较大、生成的文本可信度不高等问题。
本发明核心技术主要是提取表格信息转换成CSV格式,再将csv格式表格转换成图像形式,利用成熟的图像分类和图像检测技术,将复杂表格数据进行标准化。然后将标准化的表格数据转换成第一表格表述文本,利用文本到文本的预训练语言模型生成第二表格表述文本,将第一表格表述文本、第二表格表述文本和引用文本输入到融合交叉注意力和自注意力的表格表述文本生成模型得到作为最终输出的第三表格表述文本。
第一方面,本申请提供了基于表格的文本生成方法,所述方法包括以下步骤:
S00、提取目标表格的表格信息并转换成CSV格式;
S10、将CSV格式的表格转换成图像形式;
S20、利用图像分类模型和图像检测模型,将图像形式的表格标准化处理;
S30、根据不同的表格类型的不同表述文本模板生成第一表格表述文本,并将该第一表格表述文本输入到文本到文本的预训练语言模型中生成第二表格表述文本;
其中,第一表格表述文本为反映表格事实的描述性文本;
S40、将第一表格表述文本、第二表格表述文本以及引用文本输入到融合交叉注意力模型和自注意力的表格表述文本生成模型,得到第三表述文本;
其中,引用文本为人工通过分析表格数据编写的表格表述文本。
进一步地,S40步骤中,融合交叉注意力模型和自注意力的表格表述文本生成模型通过将第一表格表述文本、第二表格表述文本和引用文本分别进行编码得到第一表格表述文本向量、第二表格表述文本向量和引用文本向量;
通过交叉注意力模块将第一表格表述文本向量作为查询输入,第二表格表述文本向量作为键输入K,引用文本向量作为值输入V,提取交叉注意力特征,学习不同表格表述文本之间的相关性,以提升模型对不同表格表述的认知能力;
将第二表格表述文本向量输入到自注意力模块得到自注意力特征,学习第二表格表述文本本身的相关性,以提升模型对第二表格表述文本的认知能力;
将交叉注意力特征和自注意力特征输入到concate层进行特征融合得到融合特征,将融合特征再输入到Transformer解码器中获取第三表格表述文本。
进一步地,S00步骤中,图像分类模型为已训练完成的表格类别分类模型,通过该表格类别分类模型获取图像形式的表格的类别。
进一步地,表格的类别包括单行表头表格、单列表头表格、单行列表头表格、多行表头表格、多列表头表格、多行列表头表格。
进一步地,S00步骤中,图像检测模型为表格表头值检测模型,通过该表格表头值检测模型获取图像形式的表格的表头值。
进一步地,S20步骤中,对CSV格式的表格中空缺表头进行单元格填充。
进一步地,通过PDF工具包提取目标表格的表格信息并转换成CSV格式。
第二方面,本申请提供了一种基于表格的文本生成装置,包括:
输入模块,用于输入目标表格;
提取转换模块,用于提取目标表格的表格信息并转换成CSV格式;
图像转换模块,用于将CSV格式的表格转换成图像形式;
标准化模块,用于利用图像分类模型和图像检测模型,将图像形式的表格标准化处理;用于根据不同的表格类型的不同表述文本模板生成第一表格表述文本;其中,第一表格表述文本为反映表格事实的描述性文本;
预训练语言模块,用于将第一表格表述文本输入到文本到文本的预训练语言模型中生成第二表格表述文本;
融合交叉注意力模型和自注意力的表格表述文本生成模块,将第一表格表述文本、第二表格表述文本以及引用文本输入到融合交叉注意力模型和自注意力的表格表述文本生成模型,得到第三表述文本;
其中,引用文本为人工通过分析表格数据编写的表格表述文本;
输出模块,用于输出第三表述文本。
第三方面,本申请提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述的基于表格的文本生成方法。
第四方面,本申请提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括用于控制过程以执行过程的程序代码,过程包括根据上述的基于表格的文本生成方法。
本发明的主要贡献和创新点如下:1、由于有些表格数据较为复杂,无法直接基于固定模板表述成第一表格表述文本,因此本发明通过(优选PDF工具包)提取表格信息转换成csv格式,再将csv格式表格转换成图像形式,利用成熟的图像分类和图像检测技术,将复杂表格数据进行标准化,解决复杂表格数据的模型理解问题,并根据不同的表格类型的不同表述文本模板生成第一表格表述文本,如此得到的第一表格表述文本是可以反映表格事实的描述性文本,能够充分利用文本到文本的预训练语言模型;
2、由于表格数据和文本数据存在较大差异,如果直接转换,需要大量数据训练表格到文本的预训练模型,考虑利用现有的文本到文本的预训练语言模型,本发明将表格数据先转换成第一表格表述文本,解决文本到文本的预训练语言模型的输入数据文本数据和半结构化的表格数据之间的语义差异问题,从而不需要大量数据训练表格到文本的预训练语言模型,而文本到文本的预训练语言模型可以快速输出第二表格表述文本,显著节省了计算资源,且技术成熟,实现难度低;
3、由于直接使用文本到文本的预训练语言模型,生成的第二表格表述文本表述较为通用,并不符合表格文本表达的概括性、总结性,目前通用做法是直接对文本到文本的预训练语言模型进行下游任务的微调,从而适应表格文本表述的能力,但是,文本到文本的预训练语言模型较大,直接对模型进行微调需要大量的计算资源和训练数据,且直接对下游任务进行微调,会损害原预训练语言模型的通用能力,因此本发明提出一种融合交叉注意力和自注意力的推理模型,来实现表格表述文本的进一步规范,生成更加符合表格表述的文本,从而得到了更加精准的表格表述文本。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于表格的文本生成方法的流程;
图2是根据本申请实施例的第三表格表述文本生成流程图;
图3是表1经过处理后部分步骤的示意图;
图4是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
由于表格具有不同的形式,对于复杂表格直接将半结构化表格数据通过模型转换成自然语言文本需要大量的标注,且模型难以理解复杂表格的语义信息,生成的文本不能够正确表述表格的含义。由于预训练语言模型的训练数据是非结构化的语言数据和半结构化表格数据不同,预训练语言模型和半结构化的表格数据存在语义差异,直接利用预训练语言模型来提高表格到文本生成的效果,会存在以下的问题:表格的结构化输入和预训练语言模型的自然语言输入之间的差距较大,预训练语言模型缺乏对表格结构的建模,生成的文本可信度不高,不能有效地选择和组织表格数据中最重要和最相关的信息。
基于此,本发明基于多次转换表格数据来解决现有技术存在的问题。
实施例一
本申请旨在提出一种基于表格的文本生成方法,具体地,参考图1,所述方法包括以下步骤:
S00、提取目标表格的表格信息并转换成CSV格式;
在本实施例中,使用Camelot工具从PDF文件中提取表格数据,将PDF中的表格转换成Pandas的DateFrame数据结构保存为csv数据格式,Camelot工具是一个Python工具包用于PDF文档提取表格数据,Pandas是Python语言的扩展程序库,用于数据分析,DataFrame是一个表格型的数据结构。优选地,不同的格式的表格文件对应不同的工具,这里不再赘述。
由于表格的形式具有多样性,包括单行表头、单列表头、单行列表头、多行表头、多列表头、多行列表头。对于单行表头、单列表头、单行列表头的表格,Camelot提取的表头数据没有空格,而对于多行表头、多列表头、多行列表头的表格,Camelot提取的表头数据是包含空格的。因此,需要进行后续进一步的处理。
S10、将CSV格式的表格转换成图像形式(表格图像数据);
优选地,可采用以下步骤实现:
S11、导入CSV数据:使用编程语言(如Python)中的CSV库或数据处理库,读取CSV文件中的数据并加载到内存中。将数据解析为表格形式,可以使用列表、数组或数据框等数据结构。
S12、使用可视化库:选择合适的可视化库(如Matplotlib、Seaborn等),将数据转换为表格图像。这些库提供了绘制表格的功能,可以根据数据的特点和需求进行适当的定制。
S13、绘制表格:使用选定的可视化库,设置表格的样式、颜色、边框等属性,以及单元格的内容、字体、对齐方式等。根据数据的行列结构,使用绘图函数绘制表格,并将数据填充到相应的单元格中。
S14、导出表格图像:使用可视化库提供的导出功能,将绘制好的表格图像保存为图像文件(如PNG、JPEG等格式),或直接显示在屏幕上。
S20、利用图像分类模型和图像检测模型,将图像形式的表格标准化处理;
在本实施例中,将得到的图像数据输入到训练好的表格类别分类模型获取表格的类别。
S21、下面是表格类别分类模型的训练方法:
获取不同类型的表格数据,通过PDF工具包提取表格信息转换成csv格式,再经过csv格式转换成图像数据,构成表格图像原始数据集,图像数据包含表格线;
对获取的表格图像原始数据集进行标注,表格图像类别包括单行表头表格、单列表头表格、单行列表头表格、多行表头表格、多列表头表格、多行列表头表格6类,获取表格图像标注数据集;
将表格图像标注数据集输入到通用的分类模型RestNet50中进行训练,得到表格类别分类模型,RestNet50是一个卷积神经网络,有50层,其中48层是卷积层,1层是最大池化层,1层是平均池化层。RestNet50还是一种残差神经网络,通过堆叠残差块来构建网络。残差块的作用是让网络可以更容易地学习恒等映射,从而缓解深度网络的退化问题。RestNet50有两种基本的残差块,分别叫做Conv Block和Identity Block。Conv Block的输入和输出的维度是不一样的,它用于改变网络的维度;Identity Block的输入和输出的维度相同,它用于加深网络的深度。
S22、将得到的图像数据输入到表格表头值检测模型;
将步骤S21中获取的表格图像原始数据集根据表格线进行标注,包括每个单元格的坐标点以及每个单元格的类别分别为表头或者值,获取表格图像表头值标注数据集;
将表格图像表头值标注数据集输入到通用的目标检测模型YOLOv7进行训练得到表格表头值检测模型,YOLOv7的网络结构是基于Darknet-53的,它是一个由53层卷积层组成的特征提取器。Darknet-53参考了ResNet的残差连接,可以提高网络的深度和表达能力。在Darknet-53的基础上,YOLOv7又增加了53层卷积层,形成了一个106层的全卷积网络。YOLOv7没有使用任何全连接层或池化层,而是通过步长为2的卷积层来降采样图像。
其中,YOLOv7的网络结构可以分为三个部分:特征提取器、特征融合和预测头。
特征提取器:负责从输入图像中提取高层次的语义特征,用于后续的目标检测任务,由Darknet-53组成,输出三个不同尺度的特征图,分别对应于13x13、26x26和52x52的网格大小;
特征融合:将不同尺度的特征图进行上采样和融合,以增强特征的多尺度性能,使用了跳跃连接和元素级相加操作来实现特征融合
预测头:对每个网格单元进行目标检测,输出边界框和类别概率,由三个预测头组成,分别对应于不同尺度的特征图,每个预测头都使用了一个1x1卷积层来输出预测结果。
本申请中的RestNet50和YOLOv7均为优选的模型,这里不做限定,当然也可以是其他效果更好的模型。
优选地,由于多行表头表格、多列表头表格、多行列表头表格的表头存在空缺的情况,对空缺的表格进行填充操作,对于多行表头表格的csv格式数据,若每个值单元格所在行的表头单元格类型为其他,则用上方的单元格的表头数据进行填充,若每个值单元格所在列的表头单元格类型为其他,则用左侧单元格的表头数据进行填充。
S30、根据不同的表格类型的不同表述文本模板生成第一表格表述文本,并将该第一表格表述文本输入到文本到文本的预训练语言模型中生成第二表格表述文本;
其中,第一表格表述文本为反映表格事实的描述性文本;
本实施例中,将提取的表格数据的每一个单元表示成ci,j,表示表格的第i行第j列数据,若表格单元为表头则表示为hi,j,若表格单元为值则表示为vi,j,
将不同的表格类型依据相应类型的模板进行表述成文本,其中row表示表的行数,col表示表的列数,rowv表示值单元格的最小行的下标,colv表示值单元格的最小列下标 ,i,j为整数:
单行表头表格的表述文本模板如下伪代码所示:
表述文本 = 表名,
for i in(1,row):
for j in(0,col):
表述文本 = 表述文本 + h0,j是vi,j
单列表头表格的表述文本模板如下伪代码所示:
表述文本 = 表名,
for j in(1,col):
for i in (0,row):
表述文本 = 表述文本 + hi,0是vi,j
单行列表头表格、多行表头表格、多列表头表格、多行列表头表格的表述文本模板如下伪代码所示:(根据值vi,j找相同行和相同列的表头进行拼接)
表述文本 = 表名
for i in rang(rowv,row):
forj in rang(colv,col):
表头文本 =‘’
for m in rang(0,colv):
表头文本 =表头文本 + hi,m
for k in rang(0,rowv):
表头文本 = 表头文本 + hk,j
表述文本 = 表述文本 +表头文本 是 vi,j
例如,图3的目标表1中的表述文本为:某公司第一季度员工不同渠道的销售额,张三,1月份(百万),销售方式,线上是80;张三,1月份(百万),销售方式,线下是20;张三,2月份(百万),销售方式,线上是100;张三,2月份(百万),销售方式,线下是50;张三,3月份(百万),销售方式,线上是60;张三,3月份(百万),销售方式,线下是20;李四,1月份(百万),销售方式,线上是100;李四,1月份(百万),销售方式,线下是20;李四,2月份(百万),销售方式,线上是80;李四,2月份(百万),销售方式,线下是20;李四,3月份(百万),销售方式,线上是120;李四,3月份(百万),销售方式,线下是30。
在本实施例中,文本到文本的预训练语言模型采用GPT2,是OpenAI发布的预训练语言模型,GPT-2的模型网络结构是基于Transformer的,它由多层自注意力和前馈网络组成。每一层都有残差连接和层归一化。GPT-2使用了多头注意力,每个头部都有一个缩放点积注意力。GPT-2还使用了位置编码来表示输入序列中的单词的相对位置。GPT-2的输出层是一个线性变换,然后经过一个SoftMax函数,得到下一个单词的概率分布。当然可以是更先进的GPT3.5或GPT4,可提供更加强大的上下文理解能力等等,尤其是无论是GPT2还是GPT3.5等等均为现有的成熟的语言模型,不再需要再进行额外的训练。
例如,图3中的目标表1第一表格表述文本经过文本到文本的预训练语言模型,生成的第二表格表述文本为:表1显示了某公司第一季度员工张三和李四通过不同渠道的销售额。张三的线上销售额在1月份为80百万,2月份达到了100百万,3月份则下降到了60百万;而他的线下销售额在1月份为20百万,2月份增加到了50百万,3月份又降低到了20百万。李四的线上销售额在1月份为100百万,2月份减少到了80百万,3月份又增长到了120百万;而他的线下销售额在1月份和2月份都为20百万,3月份稍微提高到了30百万。
S40、如图2所示,将第一表格表述文本、第二表格表述文本以及引用文本输入到融合交叉注意力模型和自注意力的表格表述文本生成模型,得到第三表述文本;
其中,引用文本为人工通过分析表格数据编写的表格表述文本。
例如表1的引用文本为:张三的线上销售额从1月份的8千万到2月份的1亿,增长了25%,然后到3月份的6千万,下降了40%;张三的线下销售额从1月份的2千万到2月份的5千万增长了150%,然后到3月份的2千万,又下降了60%;李四的线上销售额从1月份的1亿到2月份的8千万,下降了20%,然后到3月份的1.2亿又增长了50%;李四的线下销售额在1月份和2月份都为2千万,3月份到3千万,增长了50%。从表中可以看出,张三的线上销售额呈现先升后降的趋势,而他的线下销售额则比较波动;李四的线上销售额则呈现先降后升的趋势,而他的线下销售额则比较稳定,只有在3月份有轻微的增加。
优选地,融合交叉注意力和自注意力的表格表述文本生成模型如下:
将第一表格表述文本、第二表格表述文本和引用文本分别进行编码得到第一表格表述文本向量、第二表格表述文本向量和引用文本向量;
交叉注意力模块将第一表格表述文本向量作为Q即查询输入,第二表格表述文本向量作为K即键输入,引用文本向量作为V即值输入,提取交叉注意力特征,学习不同表格表述文本之间的相关性,提升模型对不同表格表述的认知能力;
将第二表格表述文本编码得到的第二表格表述文本向量输入到自注意力模块得到自注意力特征,学习第二表格表述文本本身的相关性,提升模型对第二表格表述文本的认知能力,将交叉注意力特征和自注意力特征输入到concate层进行特征融合得到融合特征,将融合特征再输入到Transformer解码器中获取第三表格表述文本,交叉注意力和自注意力计算过程相同,只是Q、K、V不同,计算过程如下:
其中,Q表示查询输入、K表示键输入、V表示值输入,交叉注意力的Q、K、V分别为第一表格表述文本向量、第二表格表述文本向量、引用文本向量,自注意力的Q、K、V计算如下:
其中,X表示第二表格表述文本向量,Wq、Wk、Wv(∈RC×d)是线性可学习矩阵,C是嵌入维数,d是K、T、V的维数。
即最终,第三表格表述文本为例如:表1反映了某公司第一季度员工张三和李四的线上和线下销售业绩。从表中可以看出,张三的线上销售额从1月份的80百万增长了25%到2月份的100百万,然后又下降了40%到3月份的60百万;而他的线下销售额则从1月份的20百万增长了150%到2月份的50百万,然后又下降了60%到3月份的20百万。李四的线上销售额则从1月份的100百万下降了20%到2月份的80百万,然后又增长了50%到3月份的120百万;而他的线下销售额则在1月份和2月份都为20百万,3月份稍微提高了50%到30百万。总体来说,李四的线上销售额高于张三,两人的线下销售额相差不大。
实施例二
基于相同的构思,本申请还提出了一种基于表格的文本生成装置,包括:
输入模块,用于输入目标表格;
提取转换模块,用于提取目标表格的表格信息并转换成CSV格式;
图像转换模块,用于将CSV格式的表格转换成图像形式;
标准化模块,用于利用图像分类模型和图像检测模型,将图像形式的表格标准化处理;用于根据不同的表格类型的不同表述文本模板生成第一表格表述文本;其中,第一表格表述文本为反映表格事实的描述性文本;
预训练语言模块,用于将第一表格表述文本输入到文本到文本的预训练语言模型中生成第二表格表述文本;
融合交叉注意力模型和自注意力的表格表述文本生成模块,将第一表格表述文本、第二表格表述文本以及引用文本输入到融合交叉注意力模型和自注意力的表格表述文本生成模型,得到第三表述文本;
其中,引用文本为人工通过分析表格数据编写的表格表述文本;
输出模块,用于输出第三表述文本。
实施例三
本实施例还提供了一种电子装置,参考图4,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意基于表格的文本生成方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是目标表格等,输出的信息可以是第三表格表述文本等。
实施例四
本实施例还提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括用于控制过程以执行过程的程序代码,过程包括根据实施例一的基于表格的文本生成方法。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以作出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (7)
1.基于表格的文本生成方法,其特征在于,包括以下步骤:
S00、提取目标表格的表格信息并转换成CSV格式;
S10、将CSV格式的表格转换成图像形式;
S20、利用图像分类模型和图像检测模型,将图像形式的表格标准化处理;
其中,所述图像分类模型为已训练完成的表格类别分类模型,通过该表格类别分类模型获取图像形式的表格的类别;所述图像检测模型为表格表头值检测模型,通过该表格表头值检测模型获取图像形式的表格的表头值;
S30、根据不同的表格类型的不同表述文本模板生成第一表格表述文本,并将该第一表格表述文本输入到文本到文本的预训练语言模型中生成第二表格表述文本;
其中,所述第一表格表述文本为反映表格事实的描述性文本;
S40、将所述第一表格表述文本、所述第二表格表述文本以及引用文本输入到融合交叉注意力和自注意力的表格表述文本生成模型,得到第三表述文本;
其中,所述引用文本为人工通过分析表格数据编写的表格表述文本;
所述融合交叉注意力和自注意力的表格表述文本生成模型通过将所述第一表格表述文本、所述第二表格表述文本和所述引用文本分别进行编码得到第一表格表述文本向量、第二表格表述文本向量和引用文本向量;
通过交叉注意力模块将所述第一表格表述文本向量作为查询输入,所述第二表格表述文本向量作为键输入K,所述引用文本向量作为值输入V,提取交叉注意力特征,学习不同表格表述文本之间的相关性,以提升模型对不同表格表述的认知能力;
将所述第二表格表述文本向量输入到自注意力模块得到自注意力特征,学习第二表格表述文本本身的相关性,以提升模型对第二表格表述文本的认知能力;
将所述交叉注意力特征和所述自注意力特征输入到concate层进行特征融合得到融合特征,将融合特征再输入到Transformer解码器中获取第三表格表述文本。
2.如权利要求1所述的基于表格的文本生成方法,其特征在于,所述表格的类别包括单行表头表格、单列表头表格、单行列表头表格、多行表头表格、多列表头表格、多行列表头表格。
3.如权利要求1-2任意一项所述的基于表格的文本生成方法,其特征在于,S20步骤中,对CSV格式的表格中空缺表头进行单元格填充。
4.如权利要求3所述的基于表格的文本生成方法,其特征在于,通过PDF工具包提取目标表格的表格信息并转换成CSV格式。
5.一种基于表格的文本生成装置,其特征在于,包括:
输入模块,用于输入目标表格;
提取转换模块,用于提取目标表格的表格信息并转换成CSV格式;
图像转换模块,用于将CSV格式的表格转换成图像形式;
标准化模块,用于利用图像分类模型和图像检测模型,将图像形式的表格标准化处理;用于根据不同的表格类型的不同表述文本模板生成第一表格表述文本;其中,第一表格表述文本为反映表格事实的描述性文本;
其中,所述图像分类模型为已训练完成的表格类别分类模型,通过该表格类别分类模型获取图像形式的表格的类别;所述图像检测模型为表格表头值检测模型,通过该表格表头值检测模型获取图像形式的表格的表头值;
预训练语言模块,用于将第一表格表述文本输入到文本到文本的预训练语言模型中生成第二表格表述文本;
融合交叉注意力和自注意力的表格表述文本生成模块,将第一表格表述文本、第二表格表述文本以及引用文本输入到融合交叉注意力和自注意力的表格表述文本生成模型,得到第三表述文本;
其中,引用文本为人工通过分析表格数据编写的表格表述文本;
所述融合交叉注意力和自注意力的表格表述文本生成模型通过将所述第一表格表述文本、所述第二表格表述文本和所述引用文本分别进行编码得到第一表格表述文本向量、第二表格表述文本向量和引用文本向量;
通过交叉注意力模块将所述第一表格表述文本向量作为查询输入,所述第二表格表述文本向量作为键输入K,所述引用文本向量作为值输入V,提取交叉注意力特征,学习不同表格表述文本之间的相关性,以提升模型对不同表格表述的认知能力;
将所述第二表格表述文本向量输入到自注意力模块得到自注意力特征,学习第二表格表述文本本身的相关性,以提升模型对第二表格表述文本的认知能力;
将所述交叉注意力特征和所述自注意力特征输入到concate层进行特征融合得到融合特征,将融合特征再输入到Transformer解码器中获取第三表格表述文本;
输出模块,用于输出第三表述文本。
6.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至4任一项所述的基于表格的文本生成方法。
7.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1至4任一项所述的基于表格的文本生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310730648.3A CN116452707B (zh) | 2023-06-20 | 2023-06-20 | 基于表格的文本生成方法、装置及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310730648.3A CN116452707B (zh) | 2023-06-20 | 2023-06-20 | 基于表格的文本生成方法、装置及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116452707A CN116452707A (zh) | 2023-07-18 |
CN116452707B true CN116452707B (zh) | 2023-09-12 |
Family
ID=87122389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310730648.3A Active CN116452707B (zh) | 2023-06-20 | 2023-06-20 | 基于表格的文本生成方法、装置及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452707B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116991877B (zh) * | 2023-09-25 | 2024-01-02 | 城云科技(中国)有限公司 | 一种结构化查询语句的生成方法、装置及应用 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569840A (zh) * | 2021-08-31 | 2021-10-29 | 平安医疗健康管理股份有限公司 | 基于自注意力机制的表单识别方法、装置及存储介质 |
CN114328536A (zh) * | 2021-12-30 | 2022-04-12 | 浙江核新同花顺网络信息股份有限公司 | 一种表格处理方法和系统 |
CN115115913A (zh) * | 2022-06-02 | 2022-09-27 | 北京科技大学 | 一种数据处理方法、装置、电子设备及存储介质 |
CN115222066A (zh) * | 2022-07-21 | 2022-10-21 | 中国平安人寿保险股份有限公司 | 模型训练方法和装置、行为预测方法、设备及存储介质 |
CN115424282A (zh) * | 2022-09-28 | 2022-12-02 | 山东省计算中心(国家超级计算济南中心) | 一种非结构化文本表格识别方法和系统 |
WO2022261570A1 (en) * | 2021-08-04 | 2022-12-15 | Innopeak Technology, Inc. | Cross-attention system and method for fast video-text retrieval task with image clip |
CN116050374A (zh) * | 2023-01-03 | 2023-05-02 | 武汉大学 | 一种跨域跨源的数据对齐方法、系统及电子设备 |
CN116152833A (zh) * | 2022-12-30 | 2023-05-23 | 北京百度网讯科技有限公司 | 基于图像的表格还原模型的训练方法及表格还原方法 |
CN116259064A (zh) * | 2023-03-09 | 2023-06-13 | 北京百度网讯科技有限公司 | 表格结构识别方法、表格结构识别模型的训练方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11886815B2 (en) * | 2021-05-28 | 2024-01-30 | Adobe Inc. | Self-supervised document representation learning |
-
2023
- 2023-06-20 CN CN202310730648.3A patent/CN116452707B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022261570A1 (en) * | 2021-08-04 | 2022-12-15 | Innopeak Technology, Inc. | Cross-attention system and method for fast video-text retrieval task with image clip |
CN113569840A (zh) * | 2021-08-31 | 2021-10-29 | 平安医疗健康管理股份有限公司 | 基于自注意力机制的表单识别方法、装置及存储介质 |
CN114328536A (zh) * | 2021-12-30 | 2022-04-12 | 浙江核新同花顺网络信息股份有限公司 | 一种表格处理方法和系统 |
CN115115913A (zh) * | 2022-06-02 | 2022-09-27 | 北京科技大学 | 一种数据处理方法、装置、电子设备及存储介质 |
CN115222066A (zh) * | 2022-07-21 | 2022-10-21 | 中国平安人寿保险股份有限公司 | 模型训练方法和装置、行为预测方法、设备及存储介质 |
CN115424282A (zh) * | 2022-09-28 | 2022-12-02 | 山东省计算中心(国家超级计算济南中心) | 一种非结构化文本表格识别方法和系统 |
CN116152833A (zh) * | 2022-12-30 | 2023-05-23 | 北京百度网讯科技有限公司 | 基于图像的表格还原模型的训练方法及表格还原方法 |
CN116050374A (zh) * | 2023-01-03 | 2023-05-02 | 武汉大学 | 一种跨域跨源的数据对齐方法、系统及电子设备 |
CN116259064A (zh) * | 2023-03-09 | 2023-06-13 | 北京百度网讯科技有限公司 | 表格结构识别方法、表格结构识别模型的训练方法及装置 |
Non-Patent Citations (1)
Title |
---|
文档图像的表格结构识别研究;薛文元;《万方数据库》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116452707A (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022088672A1 (zh) | 基于bert的机器阅读理解方法、装置、设备及存储介质 | |
CN110245227B (zh) | 文本分类的融合分类器的训练方法及设备 | |
CN116452707B (zh) | 基于表格的文本生成方法、装置及其应用 | |
CN113010638B (zh) | 实体识别模型生成方法及装置、实体提取方法及装置 | |
US11763583B2 (en) | Identifying matching fonts utilizing deep learning | |
US20180365594A1 (en) | Systems and methods for generative learning | |
JP7174812B2 (ja) | 非構造化文書からのセマンティックデータの照会 | |
CN112395412B (zh) | 文本分类的方法、装置以及计算机可读介质 | |
CN114647732B (zh) | 一种面向弱监督文本分类系统、方法和装置 | |
KR20210023385A (ko) | 신경망을 이용한 데이터 처리 방법 | |
JP2020061136A (ja) | アクセス可能な機械学習バックエンド | |
CN116955210B (zh) | 一种测试用例的生成方法、装置、电子设备及存储介质 | |
US11494431B2 (en) | Generating accurate and natural captions for figures | |
CN113642569A (zh) | 非结构化数据文档处理方法及相关设备 | |
CN115454423A (zh) | 静态网页的生成方法、生成装置、电子设备及存储介质 | |
CN115617961A (zh) | 问题解答方法及装置 | |
CN111553442A (zh) | 一种分类器链标签序列的优化方法及系统 | |
US11514233B2 (en) | Automated nonparametric content analysis for information management and retrieval | |
US20220058842A1 (en) | Generating handwriting via decoupled style descriptors | |
CN115238645A (zh) | 资产数据识别方法、装置、电子设备和计算机存储介质 | |
CN111159397B (zh) | 文本分类方法和装置、服务器 | |
CN115512374A (zh) | 针对表格文本的深度学习特征提取分类方法及装置 | |
CN111046934A (zh) | 一种swift报文软条款识别方法及装置 | |
CN116991877B (zh) | 一种结构化查询语句的生成方法、装置及应用 | |
CN112700880B (zh) | 优化方法、训练方法、模型、处理装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |