CN117216245A - 一种基于深度学习的表格摘要生成方法 - Google Patents
一种基于深度学习的表格摘要生成方法 Download PDFInfo
- Publication number
- CN117216245A CN117216245A CN202311482529.7A CN202311482529A CN117216245A CN 117216245 A CN117216245 A CN 117216245A CN 202311482529 A CN202311482529 A CN 202311482529A CN 117216245 A CN117216245 A CN 117216245A
- Authority
- CN
- China
- Prior art keywords
- content
- text
- row
- combined
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000010187 selection method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 230000001427 coherent effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的表格摘要生成方法,包括以下步骤:步骤1,将表格的参考摘要进行切分,通过匹配算法得到表格对应的内容行;步骤2,将表格对应的内容行进行两两配对,得到独立内容行与合并内容行;步骤3,获取所述独立内容行与所述合并内容行分别对应的文本摘要;步骤4,将所述分别对应的文本摘要融合在一起,形成整个表格的文本摘要作为最终模型的输出;通过对表格进行跨行合并和将内容行逐行生成摘要的方式,解决了表格存在跨行较多以及单元格数目较多时效果不佳的问题,从而提高了表格生成摘要的鲁棒性和准确性。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于深度学习的表格摘要生成方法。
背景技术
表格是一个对数据可以进行很好地汇总,并且方便我们阅读的数据类型,它已经应用在了我们生活的各个方面,可以说我们的生活和学习已经离不开表格的使用了。但是,在我们的日常生活中,我们一般采用人为处理表格的方式,但是这样会给我们带来很多的问题与困扰:①由于处理的表格数量众多,而且种类参差不齐,这可能导致我们在人为处理的时候导致很多的问题。一旦出现一些人为的错误,不仅排查难度较大,而且十分耗费时间,并且成功率极低。②在某些情况,表格的文件格式可能让我们人为难以处理和提取。③人工提取会浪费很大的财力和人力,给我们带来许多不必要的支出。所以,如何对表格进行一个高效快捷的处理,是意义重大的。
表格摘要生成任务是指在给定一个表格的情况下,生成一段包含表格关键信息的文本,生成文本必须符合表格实际情况,且语法使用正确、表达简洁清晰以及语义自然连贯,如何从表格中提取关键信息以及如何生成流畅准确的摘要文本是表格摘要生成任务的两大难点。
目前,表格摘要生成任务的解决方式大致分为两种。第一种是基于内容规划和摘要生成两阶段任务的,首先通过内容规划模块得到表格的关键文本,再通过摘要生成模块得到最后的摘要,但是该方法在表格存在跨行情况以及单元格数目较多时效果不佳;第二种是在给定表格关键单元格的情况下,生成最后的表格摘要,该方法没有考虑到如何提取表格关键信息,从而限制了该类方法的性能。
综上所述,现有的表格摘要生成方法针对存在跨行情况以及单元格数目很多的情况处理效果还很不理想,因此,需要一种鲁棒性更强、准确性更高的表格摘要生成方法。
发明内容
(1)要解决的技术问题
本发明提供了一种基于深度学习的表格摘要生成方法,旨在解决表格存在跨行较多以及单元格数目较多时效果不佳的问题,从而提高了表格生成摘要的鲁棒性和准确性。
(2)技术方案
一种基于深度学习的表格摘要生成方法,其特征在于,包括以下步骤:
步骤1,将表格的参考摘要进行切分,通过匹配算法得到表格对应的内容行;
步骤2,将表格对应的内容行进行两两配对,得到独立内容行与合并内容行;
步骤3,获取独立内容行与合并内容行分别对应的文本摘要;
步骤4,将分别对应的文本摘要融合在一起,形成整个表格的文本摘要作为最终模型的输出。
进一步地,步骤1包括以下步骤:
步骤101,对表格的参考摘要进行切分,根据分号和句号将句子切分为多个子句,得到所有子句的列表;
步骤102,对所有子句的列表进行遍历,对于每一个子句,以单个字符为单位,分别切分子句得到每个子句的n-gram列表,即依次选中一个子句的一个字符作为开头,该字符连续往后选取(n-1)个字符进行切分,得到n个字符为一组的文字内容,切分后有若干组,若干组形成的列表称为n-gram列表;其中,n指按顺序选取n个字符为一组进行切分,通常设定n=2或3或4,gram为小组字符的文本内容;
步骤103,对所有内容行的文本内容进行合并操作,得到每一行所有单元格合并起来的文本,以得到该行的内容行文本,并且对于没有文本意义的单元格不进行合并;
步骤104,对所有子句的n-gram列表与所有内容行文本进行分数匹配算法,得到每个子句对于不同的内容行文本的匹配分数,并将这些分数存到字典中;
步骤105,对存有匹配分数的字典进行遍历,找到某一内容行文本得分最高的子句,确立该子句与该内容行文本是匹配的,最后得到每一个子句与其匹配的内容行作为用于模型训练的标签进行模型训练。
进一步地,步骤104中,对所有子句的n-gram列表与所有内容行文本进行分数匹配,包括以下步骤:
步骤10401,先选中一个内容行文本,对一个n-gram列表进行遍历,查询列表中的每一个gram是否在该内容行文本中,若n-gram列表中的某个gram在该内容行文本中,则对匹配分数进行加值操作;n=2或3或4时,匹配分数分别增加1分、3分和5分;再选下一个内容行文本进行上述操作,直至该n-gram列表匹配完所有内容行文本;
步骤10402,重复执行步骤10401的操作,直到得到所有子句对不同内容行文本的匹配分数。
进一步地,步骤105中,所述确立该子句与该内容行文本是匹配的,具体方法包括以下步骤:
步骤10501,对于每一个子句,创建一个字典来保存对于不同内容行文本的匹配分数,字典的键是内容行的行号,键对应的值是该子句在各行号所对应的内容行文本所得到的匹配分数,得到所有子句的字典;
步骤10502,对所有字典中相同的键所对应的数值进行比对,找到得分最高的键所在的字典,并认为该字典所对应的子句与键所对应的内容行是匹配的;
步骤10503,对所有字典的所有键执行上述操作,最终得到所有子句与其匹配的内容行。
进一步地,步骤2包括以下步骤:
步骤201,使用跨行组合的方式,对表格中所有的内容行进行两两配对组合,得到所有内容行组合,其中/>分别代表表格的行号,/>为内容行;
步骤202,使用Bert-base-chinese模型文本分类的方法,判断内容行组合是否需要合并;
步骤203,使用双向关系选择的方法,判断内容行组合是否需要合并得到最终的合并结果;
步骤204,通过合并结果得出独立内容行与合并内容行。
进一步地,步骤202中,Bert-base-chinese模型文本分类的方法,包括以下步骤:
将内容行组合采用模板的方式转化为Bert-base-chinese模型的输入形式;
具体的,将内容行组合进行编码;
将得到的内容行编码送入Bert-base-chinese模型,得到相应的内容表征;
内容表征经过可学习的线性层输出两个内容行是否为同一行的结果,若是同一行则需要合并,若不是同一行则不需要合并;并通过步骤104的匹配算法得到训练标签进行生成文本监督。
进一步地,步骤203中,双向关系选择的方法,包括以下步骤:
采用两种组合方式对同两个内容行进行编码;
具体地,分别以和/>的方式对同两个内容行进行配对;
采用Bert-base-chinese模型判断内容行组合是否需要合并,输出两种组合方式是否需要合并的结果;
当两种组合方式合并的结果,均为合并时,则该两个内容行需要合并,否则该两个内容行不需要合并。
进一步地,步骤3包括以下步骤:
步骤301,分别将独立内容行与合并内容行进行模板化得到输入文本;
步骤302,将输入文本通过T5-PEGASUS模型得到各自的摘要文本。
进一步地,步骤301中模板化,包括以下步骤:
步骤30101:对独立内容行进行模板化,包括以下步骤:
首先,获取表格标题X,并用[表格标题]X[/表格标题]进行表示;
然后,遍历表格每一行的单元格,得到每一个单元格的值与其对应列的标题/>,其中/>为单元格对应行的列号,/>M,M为每一行单元格的总数,即列数,每一个单元格模板/>用如下:
:[单元格]/>[标题]/>[/标题][/单元格];
最后,将表格标题与单元格模板进行合并,得到表格的每一行的最终输入文本:
[表格标题]X[/表格标题][表格][/表格]。
步骤30102:对合并内容行进行模板化,包括以下步骤:
首先,获取表格标题X,并用[表格标题]X[/表格标题]进行表示;
然后,遍历表格需要合并的每一行的单元格,得到每一个单元格的值与其对应列的标题/>,其中/>为单元格对应的列号,i=1,…,M,M为每一行单元格的总数,即列数,其中j表格对应的行号,j=1,…,N,N为需要合并的表格总行数,每一个单元格模板/>用如下:
:[单元格]/>[分隔]/>[分隔]/>[标题]/>[/标题][/单元格];
若对于需要合并的表格行,第i个单元格的值都相同,则用如下:
:[单元格]/>[标题]/>[/标题][/单元格];
最后,将表格标题与单元格模板进行合并,得到表格的每一行的最终输入文本:
[表格标题]X[/表格标题][表格][/表格]。
进一步地,步骤302中,将输入文本通过T5-PEGASUS模型得到最后的摘要文本,包括以下步骤:
步骤30201,将输入文本通过token编码后得到:
其中,token编码:表示为文本通过事先定义好的词表token化以后,文本中每一个汉字获得对应的序号;为token编码以后的id,/>为编码层,大小为,50008代表词表的大小,768代表特征的维度;
步骤30202,经过自注意力层后得到/>;
其中,为自注意力层,由 layernorm、SelfAttention以及残差连接三步组成;
步骤30203, 将输入到后续层后得到编码器Encoder的结果:
其中,代表后续层,由layernorm、DenseReluDense以及残差连接组成;/>算法:随机将一些特征变为0,防止模型过度拟合;
步骤30204,将输入到Decoder层得到/>:
其中,代表Decoder层,由自注意力层、交叉注意力层以及Feed Forward层组成;
步骤30205,将输出的id对应到词表,最终生成各自的文本摘要,并通过步骤104中的匹配算法得到训练标签进行生成文本监督。
进一步地,步骤4包括以下步骤:
步骤401,按照表格行号从小到大的顺序,将各独立内容行与合并内容行的文本摘要进行排序;
步骤402,将各独立内容行与合并内容行的文本摘要内容拼接在一起,并用标点符号连接,得到最终表格的文本摘要内容,作为模型的最终输出。
有益效果
与现有技术相比,本发明的有益效果在于,通过对表格进行跨行合并和将内容行逐行生成摘要的方式,解决了表格存在跨行较多以及单元格数目较多时效果不佳的问题,从而提高了表格生成摘要的鲁棒性和准确性。
附图说明
图1示出了本发明实施方法的流程示意图;
图2示出了本发明步骤1的流程示意图;
图3示出了本发明步骤102的流程示意图;
图4示出了本发明步骤10401的流程示意图;
图5示出了本发明步骤105的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了更好地理解本实施例的技术内容,先介绍一下本实施例中涉及到的术语解释。
表格摘要:包含表格关键信息的文本,生成文本必须符合表格实际情况,且语法使用正确、表达简洁清晰以及语义自然连贯。
内容行:指表格内位于同一行的单元格内容文本的合集。
表格跨行合并:指内容行之间如果某些单元格的内容相同,则这些内容行需要合并为一个内容行。
独立内容行:指与其他内容行不存在跨行合并的内容行。
合并内容行:存在跨行合并的内容行的集合。
语言模型:在跨行合并时采用的预训练语言模型是Bert-base-chinese,在摘要生成时使用的预训练语言模型是T5-PEGASUS。
Bert-base-chinese模型:是一种采用中文数据进行预训练的TransformerEncoder模型,用于处理中文场景下的自然语言处理任务。
T5-PEGASUS模型:是一种在中文语料上进行伪摘要预训练的TransformerEncoder-Decoder模型,用于进行中文场景下的摘要生成任务。
图1示出了本发明实施例的流程示意图。一种基于深度学习的表格摘要生成方法,包括以下步骤:
步骤1,将表格的参考摘要进行切分,通过匹配算法得到表格对应的内容行;
上述步骤1仅用于模型学习阶段和训练阶段;
如在实际应用中步骤1仅需要将具有内容行信息的表格准备好,即:
步骤1,将有内容行的表格准备好;
在模型学习阶段和训练阶段,参考摘要相当于给模型制定一个标准答案,模型根据标准答案解析出对应的内容行,再利用这些内容行重新生成新摘要,通过对参考摘要和新摘要的比对,从而达到模型学习的目的;而在实际应用中,则无需利用参考摘要解析得到对应的内容行,只需给模型提供具有内容行信息的表格即可生成新摘要。
需要说明的是,在模型训练阶段与实际应用阶段仅步骤1不同,其他步骤相同。
步骤2,将表格对应的内容行进行两两配对,得到独立内容行与合并内容行;
步骤3,获取独立内容行与合并内容分别对应的文本摘要;
步骤4,将分别对应的文本摘要融合在一起,形成整个表格的文本摘要作为最终模型的输出。
下面结合实施例具体说明表格摘要生成过程。
执行步骤1(参考图2),
具体的,将表格的参考摘要进行切分,并通过匹配算法得到表格对应的内容行作为用于模型训练的标签进行模型训练,包括以下步骤:
步骤101,对表格的参考摘要进行切分,根据分号和句号将句子切分为多个子句,得到所有子句的列表;
步骤102,对所有子句的列表进行遍历,对于每一个子句,以单个字符为单位,分别切分子句得到每个子句的n-gram列表,即依次选中一个子句的一个字符作为开头,该字符连续往后选取(n-1)个字符进行切分,得到n个字符为一组的文字内容,切分后有若干组,若干组形成的列表称为n-gram列表;其中,n指按顺序选取n个字符为一组进行切分,通常设定n=2或3或4,gram为小组字符的文本内容;
如图3所示,例如子句“一二三四五六七八九十”,依次选取子句的字符“一、二、三、四、五、...”分别作为n-gram的首字符,当n=2时,选取的该字符与其连续往后取1个字符为一组进行切分,得到2个字符为一组的文字内容,得到形如“一二、二三、三四、...”的2-gram列表;
当n=3时,选取的该字符与其连续往后取2个字符为一组进行切分,得到2个字符为一组的文字内容,得到形如“一二三、二三四、...”的3-gram列表;
当n=4时,选取的该字符与其连续往后取3个字符为一组进行切分,得到2个字符为一组的文字内容,得到形如“一二三四、二三四五、...”的4-gram列表。
步骤103,对所有内容行的文本内容进行合并操作,得到每一行所有单元格合并起来的文本,以得到该行的内容行文本,并且对于没有文本意义的单元格不进行合并;
步骤104,对所有子句的n-gram列表与所有内容行文本进行分数匹配算法,得到每个子句对于不同的内容行文本的匹配分数,并将这些分数存到字典中;
步骤105,对存有匹配分数的字典进行遍历,找到某一内容行文本得分最高的子句,确立该子句与该内容行文本是匹配的,最后得到每一个子句与其匹配的内容行作为用于模型训练的标签进行模型训练。
具体的,步骤104中对所有子句的n-gram列表与所有内容行文本进行分数匹配,包括以下步骤:
步骤10401,先选中一个内容行文本,对一个n-gram列表进行遍历,查询列表中的每一个gram是否在该内容行文本中,若n-gram列表中的某个gram在该内容行文本中,则对匹配分数进行加值操作;n=2或3或4时,匹配分数分别增加1分、3分和5分;再选下一个内容行文本进行上述操作,直至该n-gram列表匹配完所有内容行文本;
如图4所示,当n=2时,2-gram列表为“一二、二三、三四、四五”,“一二”存在于内容行文本1中,所以加1分,同理“二三、三四、四五”均存在于内容行文本1中,所以内容行文本1对应该子句的得分为4分;“一二、二三、三四、四五”均不存在于内容行文本2“六七八九十”中,所以内容行文本2对应该子句的得分为0分;
当n取3时,匹配上一个gram得3分;当n取4时,匹配上一个gram得5分。本实施例中n=2或3或4只是对实施例的说明,并不是对本技术方案的限定,理论上n可以等于任何自然数。
步骤10402,重复执行步骤10401的操作,直到得到所有子句对不同内容行文本的匹配分数。
具体的,步骤105中(如图5所示)确立该子句与该内容行文本是匹配的,具体方法包括以下步骤:
步骤10501,对于每一个子句,创建一个字典来保存对于不同内容行文本的匹配分数,字典的键是内容行的行号,键对应的值是该子句在各行号所对应的内容行文本所得到的匹配分数,得到所有子句的字典;
步骤10502,对所有字典中相同的键所对应的数值进行比对,找到得分最高的键所在的字典,并认为该字典所对应的子句与键所对应的内容行是匹配的;
步骤10503,对所有字典的所有键执行上述操作,最终得到所有子句与其匹配的内容行。
执行步骤2,
具体的,通过使用Bert-base-chinese模型将表格对应的内容行进行两两配对,判断内容行是否需要进行跨行合并,得到独立内容行与合并内容行,包括以下步骤:
步骤201,使用跨行组合的方式,对表格中所有的内容行进行两两配对组合,得到所有内容行组合,其中/>分别代表表格的行号,/>为内容行;
步骤202,使用Bert-base-chinese模型文本分类的方法,判断内容行组合是否需要合并;
具体的,Bert-base-chinese模型文本分类的方法,包括以下步骤:
将内容行组合采用模板的方式转化为Bert-base-chinese模型的输入形式;
具体的,将内容行组合进行编码;
将得到的内容行编码送入Bert-base-chinese模型,得到相应的内容表征;
内容表征经过可学习的线性层输出两个内容行是否为同一行的结果,若是同一行则需要合并,若不是同一行则不需要合并;并通过步骤104的匹配算法得到训练标签进行生成文本监督。
步骤203,使用双向关系选择的方法,判断内容行组合是否需要合并得到最终的合并结果;
具体的,双向关系选择的方法,包括以下步骤:
采用两种组合方式对同两个内容行进行编码;
具体地,分别以和/>的方式对同两个内容行进行配对;
采用Bert-base-chinese模型判断内容行组合是否需要合并,输出两种组合方式是否需要合并的结果;
当两种组合方式合并的结果,均为合并时,则该两个内容行需要合并,否则该两个内容行不需要合并;
步骤204,通过合并结果得出独立内容行与合并内容行。
执行步骤3,
具体的,将表格中各独立内容行与合并内容行分别通过T5-PEGASUS模型,得到各自的文本摘要,包括以下步骤:
步骤301,分别将独立内容行与合并内容行进行模板化得到输入文本;
步骤302,将输入文本通过T5-PEGASUS模型得到各自的摘要文本;
具体的,步骤301中所述模板化,包括以下步骤:
步骤30101:对独立内容行进行模板化,包括以下步骤:
首先,获取表格标题X,并用[表格标题]X[/表格标题]进行表示;
然后,遍历表格每一行的单元格,得到每一个单元格的值与其对应列的标题/>,其中/>为单元格对应行的列号,/>M,M为每一行单元格的总数,即列数,每一个单元格模板/>用如下:
:[单元格]/>[标题]/>[/标题][/单元格];
最后,将表格标题与单元格模板进行合并,得到表格的每一行的最终输入文本:
[表格标题]X[/表格标题][表格][/表格]。
步骤30102:对合并内容行进行模板化,包括以下步骤:
首先,获取表格标题X,并用[表格标题]X[/表格标题]进行表示;
然后,遍历表格需要合并的每一行的单元格,得到每一个单元格的值与其对应列的标题/>,其中i为单元格对应的列号,i=1,…,M,M为每一行单元格的总数,即列数,其中j表格对应的行号,j=1,…,N,N为需要合并的表格总行数,每一个单元格模板/>用如下:
:[单元格]/>[分隔]/>[分隔]/>[标题]/>[/标题][/单元格];
若对于需要合并的表格行,第i个单元格的值都相同,则用如下:
:[单元格]/>[标题]/>[/标题][/单元格];
最后,将表格标题与单元格模板进行合并,得到表格的每一行的最终输入文本:
[表格标题]X[/表格标题][表格][/表格]。
具体的,步骤302中所述将输入文本通过T5-PEGASUS模型得到最后的摘要文本,包括以下步骤:
步骤30201,将输入文本通过token编码后得到:
其中,token编码:表示为文本通过事先定义好的词表token化以后,文本中每一个汉字获得对应的序号;为token编码以后的id,/>为编码层,大小为,50008代表词表的大小,768代表特征的维度;
步骤30202,经过自注意力层后得到/>:
其中,为自注意力层,由 layernorm、SelfAttention以及残差连接三步组成;
步骤30203, 将输入到后续层后得到编码器Encoder的结果:
其中,代表后续层,由layernorm、DenseReluDense以及残差连接组成;/>算法:随机将一些特征变为0,防止模型过度拟合;
步骤30204,将输入到Decoder层得到/>:
其中,代表Decoder层,由自注意力层、交叉注意力层以及Feed Forward层组成;
步骤30205,将输出的id对应到词表,最终生成各自的文本摘要,并通过步骤104中的匹配算法得到训练标签进行生成文本监督。
执行步骤4,
具体的,通过行号对分别对应的文本摘要拼接,形成整个表格的文本摘要作为最终模型的输出,包括以下步骤:
步骤401,按照表格行号从小到大的顺序,将各独立内容行与合并内容行的文本摘要进行排序;
步骤402,将各独立内容行与合并内容行的文本摘要内容拼接在一起,并用标点符号连接,得到最终表格的文本摘要内容,作为模型的最终输出。
本发明方法的技术原理是:先通过对表格中现有的参考摘要进行切分,利用匹配算法得到表格中对应的内容行用于模型的学习和训练;然后对该内容行进行匹配合并后得到独立内容行和合并内容行;再将独立内容行和合并内容行分别提取出对应的内容行文本摘要;最后通过融合所有文本摘要得到最终的文本摘要。
通过对表格进行跨行合并和将内容行逐行生成摘要的方式,解决了表格存在跨行较多以及单元格数目较多时效果不佳的问题,从而提高了表格生成摘要的鲁棒性和准确性。
在本发明中,所处理的表格是多行多列的复杂表格,表格之间存在跨行合并的情况。表格的第一行是标题(如序号、时间、地点、人物、物体类型、动作等),从第二行开始是标题所对应的内容,表格每一行对应一个个体。所生成的表格摘要是一段包含表格关键信息的文本,摘要内容忠于表格,语法使用正确、表达简洁清晰且语义自然连贯,是对表格每一行内容总结的总和。通过本发明,可以将复杂的表格内容进行凝练总结,得到让人更加易懂的表格摘要。
以上实施例的各技术特征或步骤可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征或步骤所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (11)
1.一种基于深度学习的表格摘要生成方法,其特征在于,包括以下步骤:
步骤1,将表格的参考摘要进行切分,通过匹配算法得到表格对应的内容行;
步骤2,将所述表格对应的内容行进行两两配对,得到独立内容行与合并内容行;
步骤3,获取所述独立内容行与所述合并内容行分别对应的文本摘要;
步骤4,将所述分别对应的文本摘要融合在一起,形成整个表格的文本摘要作为最终模型的输出。
2.根据权利要求1所述的一种基于深度学习的表格摘要生成方法,其特征在于,所述步骤1,包括以下步骤:
步骤101,对表格的参考摘要进行切分,根据分号和句号将句子切分为多个子句,得到所有子句的列表;
步骤102,对所有子句的列表进行遍历,对于每一个子句,以单个字符为单位,分别切分子句得到每个子句的n-gram列表,即依次选中一个子句的一个字符作为开头,该字符连续往后选取(n-1)个字符进行切分,得到n个字符为一组的文字内容,切分后有若干组,若干组形成的列表称为n-gram列表;其中,n指按顺序选取n个字符为一组进行切分,通常设定n=2或3或4,gram为小组字符的文本内容;
步骤103,对所有内容行的文本内容进行合并操作,得到每一行所有单元格合并起来的文本,以得到该行的内容行文本,并且对于没有文本意义的单元格不进行合并;
步骤104,对所有子句的n-gram列表与所有内容行文本进行分数匹配算法,得到每个子句对于不同的内容行文本的匹配分数,并将这些分数存到字典中;
步骤105,对存有匹配分数的字典进行遍历,找到某一内容行文本得分最高的子句,确立该子句与该内容行文本是匹配的,最后得到每一个子句与其匹配的内容行作为用于模型训练的标签进行模型训练。
3.根据权利要求2所述的一种基于深度学习的表格摘要生成方法,其特征在于,所述步骤104中,对所有子句的n-gram列表与所有内容行文本进行分数匹配,包括以下步骤:
步骤10401,先选中一个内容行文本,对一个n-gram列表进行遍历,查询列表中的每一个gram是否在该内容行文本中,若n-gram列表中的某个gram在该内容行文本中,则对匹配分数进行加值操作;n=2或3或4时,匹配分数分别增加1分、3分和5分;再选下一个内容行文本进行上述操作,直至该n-gram列表匹配完所有内容行文本;
步骤10402,重复执行步骤10401的操作,直到得到所有子句对不同内容行文本的匹配分数。
4.根据权利要求2所述的一种基于深度学习的表格摘要生成方法,其特征在于,所述步骤105中,所述确立该子句与该内容行文本是匹配的,具体方法包括以下步骤:
步骤10501,对于每一个子句,创建一个字典来保存对于不同内容行文本的匹配分数,字典的键是内容行的行号,键对应的值是该子句在各行号所对应的内容行文本所得到的匹配分数,得到所有子句的字典;
步骤10502,对所有字典中相同的键所对应的数值进行比对,找到得分最高的键所在的字典,并认为该字典所对应的子句与键所对应的内容行是匹配的;
步骤10503,对所有字典的所有键执行上述操作,最终得到所有子句与其匹配的内容行。
5.根据权利要求1所述的一种基于深度学习的表格摘要生成方法,其特征在于,所述步骤2中,包括以下步骤:
步骤201,使用跨行组合的方式,对表格中所有的内容行进行两两配对组合,得到所有内容行组合,其中/>分别代表表格的行号,/>为内容行;
步骤202,使用Bert-base-chinese模型文本分类的方法,判断内容行组合是否需要合并;
步骤203,使用双向关系选择的方法,判断内容行组合是否需要合并得到最终的合并结果;
步骤204,通过合并结果得出独立内容行与合并内容行。
6.根据权利要求5所述的一种基于深度学习的表格摘要生成方法,其特征在于,所述步骤202中,Bert-base-chinese模型文本分类的方法,包括以下步骤:
将内容行组合采用模板的方式转化为Bert-base-chinese模型的输入形式;
具体的,将内容行组合进行编码;
将得到的内容行编码送入Bert-base-chinese模型,得到相应的内容表征;
内容表征经过可学习的线性层输出两个内容行是否为同一行的结果,若是同一行则需要合并,若不是同一行则不需要合并;并通过步骤104的匹配算法得到训练标签进行生成文本监督。
7.根据权利要求5所述的一种基于深度学习的表格摘要生成方法,其特征在于,所述步骤203中,双向关系选择的方法,包括以下步骤:
采用两种组合方式对同两个内容行进行编码;
具体地,分别以和/>的方式对同两个内容行进行配对;
采用Bert-base-chinese模型判断内容行组合是否需要合并,输出两种组合方式是否需要合并的结果;
当两种组合方式合并的结果,均为合并时,则该两个内容行需要合并,否则该两个内容行不需要合并。
8.根据权利要求1所述的一种基于深度学习的表格摘要生成方法,其特征在于,所述步骤3中,包括以下步骤:
步骤301,分别将独立内容行与合并内容行进行模板化得到输入文本;
步骤302,将输入文本通过T5-PEGASUS模型得到各自的摘要文本。
9.根据权利要求8所述的一种基于深度学习的表格摘要生成方法,其特征在于,所述步骤301中,所述模板化,包括以下步骤:
步骤30101:对独立内容行进行模板化,包括以下步骤:
首先,获取表格标题X,并用[表格标题]X[/表格标题]进行表示;
然后,遍历表格每一行的单元格,得到每一个单元格的值与其对应列的标题/>,其中为单元格对应行的列号,/>M,M为每一行单元格的总数,即列数,每一个单元格模板/>用如下:
:[单元格]/>[标题]/>[/标题][/单元格];
最后,将表格标题与单元格模板进行合并,得到表格的每一行的最终输入文本:
[表格标题]X[/表格标题][表格][/表格];
步骤30102:对合并内容行进行模板化,包括以下步骤:
首先,获取表格标题X,并用[表格标题]X[/表格标题]进行表示;
然后,遍历表格需要合并的每一行的单元格,得到每一个单元格的值与其对应列的标题/>,其中/>为单元格对应的列号,i=1,…,M,M为每一行单元格的总数,即列数,其中j表格对应的行号,j=1,…,N,N为需要合并的表格总行数,每一个单元格模板/>用如下:
:[单元格]/>[分隔]/>[分隔]/>[标题]/>[/标题][/单元格];
若对于需要合并的表格行,第i个单元格的值都相同,则用如下:
:[单元格]/>[标题]/>[/标题][/单元格];
最后,将表格标题与单元格模板进行合并,得到表格的每一行的最终输入文本:
[表格标题]X[/表格标题][表格][/表格]。
10.根据权利要求8所述的一种基于深度学习的表格摘要生成方法,其特征在于,所述步骤302中,所述将输入文本通过T5-PEGASUS模型得到最后的摘要文本,包括以下步骤:
步骤30201,将输入文本通过token编码后得到:
;
其中,token编码:表示为文本通过事先定义好的词表token化以后,文本中每一个汉字获得对应的序号;为token编码以后的id,/>为编码层,大小为,50008代表词表的大小,768代表特征的维度;
步骤30202,经过自注意力层后得到/>;
;
其中,为自注意力层,由 layernorm、SelfAttention以及残差连接三步组成;
步骤30203, 将输入到后续层后得到编码器Encoder的结果:
;
其中,代表后续层,由layernorm、DenseReluDense以及残差连接组成;算法:随机将一些特征变为0,防止模型过度拟合;
步骤30204,将输入到Decoder层得到/>:
;
其中,代表Decoder层,由自注意力层、交叉注意力层以及Feed Forward 层组成;
步骤30205,将输出的id对应到词表,最终生成各自的文本摘要,并通过步骤104中的匹配算法得到训练标签进行生成文本监督。
11.根据权利要求1所述的一种基于深度学习的表格摘要生成方法,其特征在于,所述步骤4中,包括以下步骤:
步骤401,按照表格行号从小到大的顺序,将各独立内容行与合并内容行的文本摘要进行排序;
步骤402,将各独立内容行与合并内容行的文本摘要内容拼接在一起,并用标点符号连接,得到最终表格的文本摘要内容,作为模型的最终输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311482529.7A CN117216245B (zh) | 2023-11-09 | 2023-11-09 | 一种基于深度学习的表格摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311482529.7A CN117216245B (zh) | 2023-11-09 | 2023-11-09 | 一种基于深度学习的表格摘要生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117216245A true CN117216245A (zh) | 2023-12-12 |
CN117216245B CN117216245B (zh) | 2024-01-26 |
Family
ID=89046671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311482529.7A Active CN117216245B (zh) | 2023-11-09 | 2023-11-09 | 一种基于深度学习的表格摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117216245B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180203924A1 (en) * | 2017-01-18 | 2018-07-19 | Google Inc. | Systems and methods for processing a natural language query in data tables |
CN110069622A (zh) * | 2017-08-01 | 2019-07-30 | 武汉楚鼎信息技术有限公司 | 一种个股公告摘要智能提取方法 |
CN111639174A (zh) * | 2020-05-15 | 2020-09-08 | 民生科技有限责任公司 | 文本摘要生成系统、方法、装置及计算机可读存储介质 |
WO2022094724A1 (en) * | 2020-11-09 | 2022-05-12 | Moore & Gasperecz Global Inc. | System and method for generating regulatory content requirement descriptions |
CN115357710A (zh) * | 2022-08-18 | 2022-11-18 | 百度在线网络技术(北京)有限公司 | 表格描述文本生成模型的训练方法、装置及电子设备 |
-
2023
- 2023-11-09 CN CN202311482529.7A patent/CN117216245B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180203924A1 (en) * | 2017-01-18 | 2018-07-19 | Google Inc. | Systems and methods for processing a natural language query in data tables |
CN110069622A (zh) * | 2017-08-01 | 2019-07-30 | 武汉楚鼎信息技术有限公司 | 一种个股公告摘要智能提取方法 |
CN111639174A (zh) * | 2020-05-15 | 2020-09-08 | 民生科技有限责任公司 | 文本摘要生成系统、方法、装置及计算机可读存储介质 |
WO2022094724A1 (en) * | 2020-11-09 | 2022-05-12 | Moore & Gasperecz Global Inc. | System and method for generating regulatory content requirement descriptions |
CN115357710A (zh) * | 2022-08-18 | 2022-11-18 | 百度在线网络技术(北京)有限公司 | 表格描述文本生成模型的训练方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
欧阳能良;温冬梅;黄福达;王伟佳;兰海丽;张秀明;: "临床实验室电子化记录管理软件模块的建立与应用", 临床检验杂志, no. 04, pages 305 - 306 * |
Also Published As
Publication number | Publication date |
---|---|
CN117216245B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5903858A (en) | Translation machine for editing a original text by rewriting the same and translating the rewrote one | |
Nguyen et al. | Fast and accurate capitalization and punctuation for automatic speech recognition using transformer and chunk merging | |
CN105243056B (zh) | 一种基于标点符号处理的汉语句法分析方法及装置 | |
CN114065738B (zh) | 基于多任务学习的中文拼写纠错方法 | |
CN106383814A (zh) | 一种英文社交媒体短文本分词方法 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN100361124C (zh) | 用于词分析的系统和方法 | |
Anastasopoulos | Computational tools for endangered language documentation | |
CN115618883A (zh) | 一种业务语义识别方法及装置 | |
Antit et al. | TunRoBERTa: a Tunisian robustly optimized BERT approach model for sentiment analysis | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 | |
Rani et al. | MHE: Code-mixed corpora for similar language identification | |
Mahata et al. | JUNLP@ Dravidian-CodeMix-FIRE2020: Sentiment classification of code-mixed tweets using bi-directional RNN and language tags | |
CN117216245B (zh) | 一种基于深度学习的表格摘要生成方法 | |
CN115204164B (zh) | 一种电力系统通信敏感信息识别方法、系统及存储介质 | |
Xiang et al. | A cross-guidance cross-lingual model on generated parallel corpus for classical Chinese machine reading comprehension | |
Ghosh | End-to-End discourse parsing with cascaded structured prediction | |
CN114969312A (zh) | 基于变分自编码器的营销案例主题提取方法及系统 | |
Alemu et al. | A corpus-based word sense disambiguation for geez language | |
CN109960720B (zh) | 针对半结构化文本的信息抽取方法 | |
Das et al. | Language identification of Bengali-English code-mixed data using character & phonetic based LSTM models | |
Pankratz | qxoRef 1.0: A coreference corpus and mention-pair baseline for coreference resolution in Conchucos Quechua | |
CN117035064B (zh) | 一种检索增强语言模型的联合训练方法及存储介质 | |
Sodhar et al. | Word by Word Labelling of Romanized Sindhi Text by using Online Python Tool | |
Chen et al. | Changing the Narrative Perspective: From Ranking to Prompt-Based Generation of Entity Mentions. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |