CN110334331A

CN110334331A - 基于排序模型筛选表格的方法、装置和计算机设备

Info

Publication number: CN110334331A
Application number: CN201910463153.2A
Authority: CN
Inventors: 谭瑞; 权佳成; 李钢; 张瑜; 车驰; 秦鹏
Original assignee: Chongqing Financial Assets Exchange LLC
Current assignee: Chongqing Financial Assets Exchange LLC
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-10-15

Abstract

本申请揭示了一种基于排序模型筛选表格的方法、装置和计算机设备，其中方法包括：获取待处理的报告文档；提取出报告文档内包括的所有表格；从所有表格中分别提取出各表格对应的参考信息；将各参考信息输入至预先训练好的排序模型；根据各参考信息，通过排序模型分别计算各表格相对于预设指标的相关性得分；筛选相关性得分大于预设的相关性得分阈值的指定表格。通过本申请可以快速地从报告文档中筛选出与预设指标相关的多个指定表格，而不需要用户从待处理的报告文档的所有表格人工筛选出该指定表格，有效地节省了对报告文档的处理时间，提高了得到指定表格的效率。

Description

基于排序模型筛选表格的方法、装置和计算机设备

技术领域

本申请涉及计算机领域，具体涉及一种基于排序模型筛选表格的方法、装置和计算机设备。

背景技术

财承报告文档记录有与财承相关的数据，且财承报告文档通常会存在大量的表格数据。当工作人员需要对与财承相关的人工填报表格进行审核时，则需要从财承报告文档的所有表格中查找出包含有与财承相关的重要信息的相关表格，而现有的查找上述相关表格的手段是通过人工对财承报告文档内的所有表格进行一一筛选处理来获取该相关表格，这样需要消耗很多的人力和时间，工作人员的处理效率低。

发明内容

本申请的主要目的为提供一种基于排序模型筛选表格的方法、装置和计算机设备，旨在解决现有的查找财承报告文档内的相关表格的手段是通过人工对财承报告文档内的所有表格进行一一筛选处理来获取该相关表格，工作人员的处理效率低的技术问题。

本申请提出一种基于排序模型筛选表格的方法，所述方法包括步骤：

获取待处理的报告文档；

提取出所述报告文档内包括的所有表格；

从所有所述表格中分别提取出各所述表格对应的参考信息；

将各所述参考信息输入至预先训练好的排序模型；

根据各所述参考信息，通过所述排序模型分别计算各所述表格相对于预设指标的相关性得分；

筛选所述相关性得分大于预设的相关性得分阈值的指定表格，其中所述指定表格包含于所述报告文档内包括的所有表格。

可选地，所述根据各所述参考信息，通过所述排序模型分别计算各所述表格相对于预设指标的相关性得分的步骤，包括：

通过所述排序模型对第一参考信息进行分词处理，得到所述第一参考信息对应的各分词，其中，所述第一参考信息包含于所有所述表格对应的所有参考信息；

从预设的分词文本库中获取与各所述分词分别对应的参数值；

根据各所述参数值，通过预设的相关性得分计算公式计算所述第一参考信息对应表格的相关性得分。

可选地，所述从预设的分词文本库中获取与各所述分词分别对应的参数值的步骤之前，包括：

接收用户输入的文本库数据，其中，所述文本库数据包括多个预设指标，和/或与各所述预设指标分别对应的近义语句；

按照预设的分词方法对所述文本库数据进行标签提取，分别得到与各所述预设指标分别对应的第一标签，以及与各所述预设指标分别对应的近义语句的第二标签；

通过预设的权重参数计算公式分别计算所述第一标签对应的第一权重参数，以及所述第二标签对应的第二权重参数；

将各所述第一标签与各所述第一权重参数一一对应的存储于所述分词文本库，以及将各所述第二标签与各所述第二权重参数一一对应的存储于所述分词文本库。

可选地，所述从所有所述表格中分别提取各所述表格对应的参考信息的步骤，包括：

判断当前待提取参考信息的第一表格的表格形式是否符合预设的标准表格形式，其中所述标准表格形式为横表形式，所述第一表格包括于所述报告文档内包括的所有表格；

若所述第一表格的表格形式符合预设的标准表格形式，则根据预设提取方式从所述第一表格中提取对应的参考信息。

可选地，所述判断当前待提取参考信息的第一表格的表格形式是否符合预设的标准表格形式的步骤之后，包括：

若所述第一表格的表格形式不符合预设的标准表格形式，则复制所述第一表格，得到对应的第一表格副本；

对所述第一表格副本进行转置处理，得到转置后的第一表格副本；

使用所述转置后的第一表格副本替换所述第一表格。

可选地，所述第一表格存在表头，所述根据预设提取方式从所述第一表格中提取对应的参考信息的步骤，包括：

提取所述第一表格对应的表头，以及所述第一表格对应的列表头；

将所述第一表格对应的表头与所述第一表格对应的列表头，作为所述第一表格的参考信息。

可选地，所述第一表格不存在表头，所述根据预设提取方式从所述第一表格中提取对应的参考信息的步骤，包括：

从所述报告文档内提取出与所述第一表格相关的指定文本；

提取所述第一表格对应的列表头；

将所述指定文本与所述第一表格对应的列表头，作为所述第一表格的参考信息。

本申请还提供一种基于排序模型筛选表格的装置，包括：

第一获取模块，用于获取待处理的报告文档；

第一提取模块，用于提取出所述报告文档内包括的所有表格；

第二提取模块，用于从所有所述表格中分别提取各所述表格对应的参考信息；

输入模块，用于将各所述参考信息输入至预先训练好的排序模型；

第一计算模块，用于根据各所述参考信息，通过所述排序模型分别计算各所述表格相对于预设指标的相关性得分；

筛选模块，用于筛选所述相关性得分大于预设的相关性得分阈值的指定表格，其中所述指定表格包含于所述报告文档内包括的所有表格。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本申请中提供的基于排序模型筛选表格的方法、装置和计算机设备，具有以下有益效果：

本申请中提供的基于排序模型筛选表格的方法、装置和计算机设备，获取待处理的报告文档；提取出所述报告文档内包括的所有表格；从所有所述表格中分别提取出各所述表格对应的参考信息；将各所述参考信息输入至预先训练好的排序模型；根据各所述参考信息，通过所述排序模型分别计算各所述表格相对于预设指标的相关性得分；筛选所述相关性得分大于预设的相关性得分阈值的指定表格，其中所述指定表格包含于所述报告文档内包括的所有表格。本申请通过将待处理的报告文档内所有表格的参考信息输入到预设的排序模型来得到每一个表格分别对应的相关性得分，从而可以筛选出相关性得分大于预设的相关性得分阈值的指定表格，即可以快速地得到与预设指标相关的多个指定表格，而不需要用户从待处理的报告文档的所有表格人工筛选出该指定表格，有效地节省了对报告文档的处理时间，提高了得到指定表格的效率。

附图说明

图1是本申请一实施例的基于排序模型筛选表格的方法的流程示意图；

图2是本申请一实施例的基于排序模型筛选表格的装置的结构示意图；

图3是本申请一实施例的计算机设备的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用于解释本申请，并不用于限定本申请。

需要说明，本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变，所述的连接可以是直接连接，也可以是间接连接。

参照图1，本申请一实施例的基于排序模型筛选表格的方法，包括：

S1：获取待处理的报告文档；

S2：提取出所述报告文档内包括的所有表格；

S3：从所有所述表格中分别提取出各所述表格对应的参考信息；

S4：将各所述参考信息输入至预先训练好的排序模型；

S5：根据各所述参考信息，通过所述排序模型分别计算各所述表格相对于预设指标的相关性得分；

S6：筛选所述相关性得分大于预设的相关性得分阈值的指定表格，其中所述指定表格包含于所述报告文档内包括的所有表格。

如上述步骤S1和S2所述，本申请的执行主体为基于排序模型筛选表格的装置。报告文档通常是指集成了已公开的一种或多种信息而生成的报告性质的文档。在本实施例，上述报告文档具体指代的是财承报告文档，且以下的所有实施例会以报告文档为财承报告文档作为例子进行具体的阐述说明。上述财承是指财政承受能力，财政承受能力是识别、测算PPP(Public-Private Partnership，政府和社会资本合作)项目各项财政支出责任，科学评估项目实施对当前及今后年度财政支出影响，为PPP项目财政管理提供依据的测算数据。其中，上述报告文档记录有与财承相关的数据，且一般报告文档的文件内容很多，通常会存在大量的表格数据，而存储有预设指标的数据往往只出现在其中的某几个表格，另外，上述预设指标具体指代的是财承官方指标，且以下的所有实施例会以预设指标为财承官方指标作为例子进行具体的阐述说明。上述财承官方指标为与财政承受能力直接相关的字段，且同一个财承官方指标可能对应存在多种表达方式。当对财承报告文档进行审核时，则需要从财承报告文档内所有的表格中筛选出包含财承官方指标的数据的指定表格，并进一步借助指定表格内的数据进行审核。本实施例在获取到用户输入的待处理的财承报告文档后，由于该待处理的财承报告文档内包含有大量的文本内容与大量的表格，首先需要提选出该财承报告文档内包括的所有表格，其中，对上述财承报告文档的格式不做限定，例如上述财承报告文档的格式为PDF文件。另外，上述提取出财承报告文档内包括的所有表格的过程可包括：首先获取上述财承报告文档的矢量流信息，并从上述财承报告文档的矢量流信息中提取字符信息和直线信息，然后根据提取出的字符信息和直线信息来定位出财承报告文档中的表格区域，最后根据该表格区域便来提取出与表格区域对应的财承报告文档内包含的所有表格，此外也可通过其他方式来提取出财承报告文档内的表格，在此不一一列举。

如上述步骤S3至S6所述，在提取出上述财承报告文档内的所有表格后，再从所有该表格中分别提取出每一个表格对应的参考信息，并将各上述参考信息输入至预先训练好的排序模型中，以通过排序模型计算各上述表格相对于财承官方指标的相关性得分，最后筛选出相关性得分大于预设的相关性得分阈值的指定表格。其中上述参考信息包括表格的表头与列表头，上述指定表格包含于财承报告文档内包括的所有表格。具体地，在将各表格的参考信息输入到上述排序模型后，该排序模型会根据各参考信息来计算出每一个表格分别对应的相关性得分，然后将得到的每一个相关性得分与预设的相关性得分阈值进行比较，来得到相关性得分大于预设阈值的指定表格。其中，可预先设置一个与相关性得分对应的相关性得分阈值，并按照实际情况设置该预设阈值的相关性得分阈值。进一步可按照上述相关性得分从大到小的顺序输出各上述指定表格，并向用户推送包含有该指定表格的输出结果。在本申请，通过将待处理的财承报告文档内所有表格的参考信息输入到预设的排序模型来得到每一个表格分别对应的相关性得分，从而可以筛选出相关性得分大于预设的相关性得分阈值的指定表格，即可以快速地得到与财承官方指标相关的多个指定表格，而不需要用户从待处理的财承报告文档的所有表格人工筛选出该指定表格，有效地节省了对财承报告文档的处理时间，提高了得到指定表格的效率。

进一步地，本申请一实施例中，上述步骤S5，包括：

S500：通过所述排序模型对第一参考信息进行分词处理，得到所述第一参考信息对应的各分词，其中所述第一参考信息包含于所有所述表格对应的所有参考信息；

S501：从预设的分词文本库中获取与各所述分词分别对应的参数值；

S502：根据各所述参数值，通过预设的相关性得分计算公式计算所述第一参考信息对应表格的相关性得分。

如上述步骤S500至S502所述，上述预设指标具体为财承官方指标，上述排序模型对于输入的各表格的参考信息进行处理后，得到各表格相对于财承官方指标的相关性得分的过程，具体为：上述排序模型首先会对输入的第一参考信息进行分词处理，来得到上述第一参考信息对应的各分词，其中上述第一参考信息包含于所有上述表格对应的所有参考信息，即该第一参考信息为所有参考信息中的任意一个参考信息。然后从预设的分词文本库中获取与各上述分词分别对应的参数值，具体地，通过将各上述参考标签与预设的分词文本库内预存储的与上述预设指标(即财承官方指标)对应的预设标签进行一一匹配，并根据匹配结果得到各上述分词的参数值。其中，上述排序模型会通过预设的分词规则来对输入的参考信息进行分词处理，该分词规则可采用ansj自定义分词方法，另外，上述的分词文本库内存储有多个预设标签，以及与预设标签一一对应的多个权重参数，如果上述匹配结果为匹配失败，则对应的分词的参数值的取值为0，而如果上述匹配结果为匹配成功，则对应的分词的参数值的取值为与该分词相匹配的预设标签所对应的权重参数。进一步地，在得到了第一参考信息中所有的分词对应的参数值后，再根据预设的相关性得分计算公式来上述第一参考信息对应表格的相关性得分，上述相关性得分计算公式为：其中n为分词的个数；x_i表示所有分词中的第i个分词是否有对应的参数值，即表示第i个分词与分词文本库内所有的预设标签的匹配结果，若匹配成功则值取1，若匹配失败则值取0；w_i为所有分词中的第i个分词对应的参数值，初始值为0；l_str为分词结果，即分词的个数，与存在匹配的预设标签的指定分词的个数的和值。举例地，若当前输入的第一参考信息为“运营成本增加金额，股权投资支出”，进行分词处理后得到的分词为：“运营、成本、增加、金额、股权投资、支出”，即包含了6个分词，通过查阅上述分词文本库可得上述“运营”存在匹配的预设标签，且“运营”的权重参数为0.7，上述“股权投资”存在匹配的预设标签，且“股权投资”的权重参数为2.0，上述“支出”存在匹配的预设标签，且“支出”的权重参数为0.7，而上述“成本”、“增加”“金额”这3个分词不存在匹配的预设标签，则它们对应的参数值取值为0，因此根据上述相关性得分计算公式可计算出对应的相关性得分为(0.7*1+0*0+0*0+0*0+2.0*1+0.7*1)/(6+3)＝0.378。

进一步地，本申请一实施例中，上述步骤S501之前，包括：

S5010：接收用户输入的文本库数据，其中，所述文本库数据包括多个预设指标，和/或与各所述预设指标分别对应的近义语句；

S5011：按照预设的分词方法对所述文本库数据进行标签提取，分别得到与各所述预设指标分别对应的第一标签，以及与各所述预设指标分别对应的近义语句的第二标签；

S5012：通过预设的权重参数计算公式分别计算所述第一标签对应的第一权重参数，以及所述第二标签对应的第二权重参数；

S5013：将各所述第一标签与各所述第一权重参数一一对应的存储于所述分词文本库，以及将各所述第二标签与各所述第二权重参数一一对应的存储于所述分词文本库。

如上述步骤S5010至S5013所述，上述报告文档具体为财承报告文档，上述预设指标具体为财承官方指标，在通过上述排序模型对输入的各表格的参考信息进行处理的步骤之前，还包括构建上述分词文本库的过程。对于上述财承官方指标，在不同的PPP项目的财承报告文档对该财承官方指标可能有多种不同的描述方式，且本实施例的财承官方指标具体可包括：股权投资支出责任，运营补贴支出责任，风险承担支出责任，配套投入支出责任和政府性基金预算支出数额。举例地，如果财承官方指标为运营补贴支出责任，则与运营补贴支出责任对应的其它描述方式，即与运营补贴支出责任对应的近义语句可包括运营补贴、财政补贴支出、可行性缺口补助、政府付费额等，因此需要通过人工收集出与所有预设的财承官方指标相对应的所有近义语句。在本实施例，首先接收用户输入的文本库数据，其中上述文本库数据包括多个财承官方指标，和/或与各上述财承官方指标分别对应的近义语句，并将上述财承官方指标以及上述与财承官方指标分别对应的近义语句存储于预设分词文本库内。进一步地，通过自定义分词的分词方法对分词文本库内存储的文本库数据进行标签提取，分别得到与各上述财承官方指标分别对应的第一标签，以及与各上述财承官方指标分别对应的近义语句的第二标签。之后通过预设的权重参数计算公式分别计算上述第一标签对应的第一权重参数，以及上述第二标签对应的第二权重参数，并将上述第一标签与第一标签统称为上述预设标签。具体地，上述权重参数计算公式为：w＝fr*len/A，其中fr为任一官方标签在分词文本库中所有的官方标签中出现的频率，len为官方标签的长度，A为衰减参数，且A取值为10。在计算出每一个官方标签对应的权重参数后，再将各上述第一标签与各上述第一权重参数一一对应的存储于上述分词文本库，以及将各上述第二标签与各上述第二权重参数一一对应的存储于上述分词文本库，以便后续从分词文本库内提取出权重参数来完成对各上述表格的相关性得分的计算。

进一步地，本申请一实施例中，上述步骤S4之前，包括：

S400：获取预设数量的样本语句，其中所述样本语句由采用预设的分词规则进行了标注的多个词语组成；

S401：将所有所述样本语句按照预设比例分为训练集和评估集，并将所述训练集对应的样本语句输入到神经网络模型进行模型训练，以通过预设的相关性得分计算公式计算出各所述样本语句的第一相关性得分；

S402：在预设时间间隔内，使用训练得到的模型对所述评估集对应的样本语句计算第二相关性得分，并将所述第二相关性得分与所述第一相关性得分进行比对，以评估模型的计算误差；

S403：若训练得到的模型的计算误差出现发散，则调整预设的训练参数并对所述训练得到的模型进行重新训练，直至所述训练得到的模型的计算误差收敛后，结束模型训练，并得到训练好的模型；

S404：将所述训练好的模型确定为所述排序模型。

如上述步骤S400和S404所述，在通过上述排序模型对于输入的各表格的参考信息进行处理的步骤之前，还包括创建排序模型的过程，具体地，首先获取预设数量的的样本语句，其中上述样本语句由采用预设的分词规则进行了标注的多个词语组成，上述预设数量为可设为2000，上述分词规则可采用ansj自定义分词方法来完成对于样本语句的长句分词，例如根据分词规则对样本语句“运营成本增加金额，股权投资支出”进行分词处理后，得到的分词结果为“运营、成本、增加、金额、股权投资、支出”。之后基于交叉验证法(cross-validation)将样本数据按照一定的比例划分为训练集、评估集，例如将80％的样本数据作为训练集，20％的样本数据作为评估集，然后将上述训练集对应的样本语句输入到神经网络模型进行模型训练，在训练过程中通过预设的排序算法计算出各上述样本语句的第一相关性得分。然后，在预设的时间间隔内(例如每进行1000次迭代)，使用训练得到的模型对上述评估集的样本语句计算第二相关性得分，并将上述第二相关性得分与上述第一相关性得分进行比对，以评估模型的计算误差，具体地，在分析计算误差时，若训练得到的模型的计算误差出现发散，则调整预设的训练参数并重新训练，例如可对LSTM层数、输入输出的变量维度等训练参数进行调整后再进行训练，直至使得训练得到的模型的计算误差能够收敛，当训练得到的模型的计算误差收敛后，则结束模型训练，并将得到的训练好的模型确定为上述排序模型。

进一步地，本申请一实施例中，上述步骤S3，包括：

S300：判断当前待提取参考信息的第一表格的表格形式是否符合预设的标准表格形式，其中所述标准表格形式为横表形式，所述第一表格包括于所述报告文档内包括的所有表格；

S301：若所述第一表格的表格形式符合预设的标准表格形式，则根据预设提取方式从所述第一表格中提取对应的参考信息。

如上述步骤S300和S301所述，上述报告文档具体为财承报告文档，在财承报告文档中可能存在不同形式的表格，上述形式可为横表与竖表。由于上述参考信息包含了表格的表头和列表头，而不同形式的表格对应的列表头的含义不同，因此在从所有表格分别提取出上述各表格内的参考信息之前，为了使得提取出的各表格对应的参考信息的含义是正确的，即参考信息能够有效地表达对应的表格的描述对象，还需要确保表格的形式是与参考信息相对应的，即需要保证每一个表格都是标准表格形式，其中，上述标准表格形式为横表形式。在本实施例，当提取出上述财承报告文档内包括的所有表格后，在对当前待提取参考信息的第一表格进行提取参考信息的过程中，首先判断第一表格的表格形式是否符合预设的标准表格形式，其中上述第一表格包括于上述财承报告文档内包括的所有表格，即第一表格为财承报告文档内包括的所有表格中的任意一个。如果第一表格的表格形式符合预设的标准表格形式，则根据预设提取方式从上述第一表格中提取对应的参考信息。本实施通过在判定当前的第一表格为标准表格形式后，再进行参考信息的提取，从而保证后续提取的参考信息能够有效地表达对应的表格的描述对象，有利于向排序模型输入准确的参考信息，并能根据准确的参考信息来筛选出精确度高的指定表格。

进一步地，本申请一实施例中，上述步骤S300之后，包括：

S302：若所述第一表格的表格形式不符合预设的标准表格形式，则复制所述第一表格，得到对应的第一表格副本；

S303：对所述第一表格副本进行转置处理，得到转置后的第一表格副本；

S304：使用所述转置后的第一表格副本替换所述第一表格。

如上述步骤S302至S304所述，在上述判断当前待提取参考信息的第一表格的表格形式是否符合预设的标准表格形式的过程中，如果第一表格的表格形式不符合预设的标准表格形式，即表示第一表格为竖表，则需要将第一表格的形式转换为标准表格形式(横表)，再将对为标准表格形式的第一表格进行提取第一参考信息的处理。其中，上述将第一表格的形式转换为标准表格形式的步骤，具体可包括：首先复制上述第一表格，得到对应的第一表格副本，然后对上述第一表格副本进行转置处理，得到转置后的第一表格副本。其中对上述第一表格副本进行转置处理的步骤具体为：将第一表格副本的所有元素绕着一条从第1行第1列元素出发的右下方45度的射线作镜面反转，从而将第一表格副本内沿第一维度依次排列的行栏的栏框内的信息转置于第一表格副本内沿第二维度依次排列的列栏的栏框内，以及将第一表格副本内沿第二维度依次排列的列栏的栏框内的信息转置于第一表格副本内沿第一维度依次排列的行栏的栏框内，以完成对第一表格副本的转置处理，得到转置后的第一表格副本。最后使用上述转置后的第一表格副本替换上述第一表格。本实施例通过将所有表格中不为标准表格形式的特殊表格转换为标准表格形式，使得所有表格都为标准表格形式后再进行参考信息的提取，从而保证后续提取的参考信息能够有效地表达对应的表格的描述对象，有利于向排序模型输入准确的参考信息，并能根据准确的参考信息来筛选出精确度高的指定表格。

进一步地，本申请一实施例中，所述第一表格存在表头，上述步骤S301，包括：

S3010：提取所述第一表格对应的表头，以及所述第一表格对应的列表头；

S3011：将所述第一表格对应的表头与所述第一表格对应的列表头，作为所述第一表格的参考信息。

如上述步骤S3010和S3011所述，常用的表格的结构是由表头、行表头、列表头和表格数据组成。其中表头是表格的开头部分，用于对表格大体归类，列表头表示该列数据所对应的对象，行表头表示该行数据所对应的对象，列表头与行表头具体指数据的某一维度，表格数据是指与行表头及列表头共同对应的数据。由于表格数据只是具体的数据，无法有效的表达表格描述对象的，且表格一般列表头对应的含义通常指代了表格的重要的描述内容。根据表头和列表头的含义，两者的结合能有效表达对应的表格的描述对象，因此可采用表格的表头和列表头作为对应的表格的参考信息。在本实施例，在从第一表格中提取对应的参考信息的过程中，首先判断第一表格是否存在表头，如果第一表格存在表头，则提取上述第一表格对应的表头，以及提取出上述第一表格对应的列表头，然后将上述第一表格对应的表头与上述第一表格对应的列表头作为上述第一表格的参考信息。本实施例通过将第一表格对应的表头与对应的列表头作为其参考信息，使得第一表格的参考信息能够准确的表达出第一表格的描述对象，有利于向排序模型输入对应于第一表格准确的参考信息，进而提高了计算出第一表格的相关性得分的准确性。

进一步地，本申请一实施例中，所述第一表格不存在表头，上述步骤S301，包括：

S3012：从所述报告文档内提取出与所述第一表格相关的指定文本；

S3013：提取所述第一表格对应的列表头；

S3014：将所述指定文本与所述第一表格对应的列表头，作为所述第一表格的参考信息。

如上述步骤S3012至S3014所述，上述报告文档具体为财承报告文档，在对财承报告文档内的所有表格进行参考信息的提取过程中，对于财承报告文档内的所有表格，可能会存在一些不包含表头的特殊的表格，这些特殊的表格会造成后续无法提取出表头，从而会对参考信息的提取造成影响。但与这些特殊的表格相邻的指定文本会提及到与该特殊的表格相对应的相关信息，例如与特殊的表格相邻的之前的一段文本的最后一句话提及了该特殊的表格相关信息，或者与特殊的表格相邻的之后的一段文本的第一句话提及了该特殊的表格相关信息。在本实施例，在从第一表格中提取对应的参考信息的过程中，首先判断第一表格是否存在表头，如果第一表格不存在表头，则从上述财承报告文档内提取出与上述第一表格相关的指定文本，并提取上述第一表格对应的列表头，然后将上述指定文本与上述第一表格对应的列表头，作为上述第一表格的参考信息本实施例在第一表格不存在表头的情况下，能够智能地从上述财承报告文档内提取与上述第一表格相关的指定文本来作为表头，并将该指定文本与第一表格对应的列表头作为第一表格的参考信息，有效的保证了对第一表格的参考信息的正常提取。

进一步地，本申请一实施例中，上述步骤S6之后，包括：

S600：根据预设的评价公式计算出所述排序模型对应的评价得分；

S601：判断所述评价得分是否小于预设的评价得分阈值；

S602：若所述评价得分小于预设的评价得分阈值，则通过预设的机器学习排序技术对所述排序模型进行优化。

如上述步骤S600至S602所述，上述报告文档具体为财承报告文档，在通过上述排序模型对待处理的财承报告文档进行处理，并得到相关性得分大于预设的相关性得分阈值的指定表格后，可引入评价指标，即上述的评价得分来对该排序模型的好坏进行评估。在本实施例，先根据预设的评价公式计算出所述排序模型对应的评价得分，具体地，可通过NDCG评价公式，来对排序模型输出的识别结果求取NDCG指标，即上述的评价得分，上述NDCG评价公式为：NDCG＝rel_DCG/nor_DCG其中上述上述rel_i表示对上述指定表格按照相关性得分从大到小的顺序进行排序后得到的相关性排序中的第i个相关性得分，nor_i表示理想的第i个结果得分，该nor₁由人工标注得到，n表示上述相关性排序中各指定表格在所有表格中的位置序号，例如指定表格共有6个，且它们在所有表格中的位置序号分别为表16、3、15、9、6、20。根据上述NDCG评价公式可知，排序模型输出的识别结果在最理想的情况下，NDCG的值为1，而如果NDCG的值太小，则表明排序模型输出的指定表格不准确，对指定表格的筛选效果不佳。预先设置一个评价得分阈值，且对该评价得分阈值的具体数值不作限定，例如可设为0.9，如果通过上述NDCG评价公式计算得到排序模型的评价得分大于该评价得分阈值(0.9)，则表明排序模型输出的指定表格较为理想，后续可直接使用该排序模型对新输入的待处理的财承报告文档进行处理。而如果通过上述NDCG评价公式计算得到排序模型的评价得分值小于该评价得分阈值(0.9)，则后续需要采用预设的机器学习排序技术来对该排序模型进行优化，例如可采用LambdaMART机器学习排序技术来对分词文本库内的官方标签对应的参数权重进行调整，进而生成优化后的排序模型。之后再通过优化后的排序模型对新输入的待处理财承报告文档进行处理，使得优化后的排序模型在对新输入的待处理数据进行处理后，能够输出筛选效果较为理想的指定表格，从而提高从所有表格中筛选出指定表格的准确性。

参照图2，本申请一实施例中还提供了一种基于排序模型筛选表格的装置，包括：

第一获取模块1，用于获取待处理的报告文档；

第一提取模块2，用于提取出所述报告文档内包括的所有表格；

第二提取模块3，用于从所有所述表格中分别提取各所述表格对应的参考信息；

输入模块4，用于将各所述参考信息输入至预先训练好的排序模型；

第一计算模块5，用于根据各所述参考信息，通过所述排序模型分别计算各所述表格相对于预设指标的相关性得分；

筛选模块6，用于筛选所述相关性得分大于预设的相关性得分阈值的指定表格，其中所述指定表格包含于所述报告文档内包括的所有表格。

本实施例中，上述基于排序模型筛选表格的装置中的第一获取模块、第一提取模块、第二提取模块、输入模块、第一计算模块与筛选模块的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S1-S6的实现过程，在此不再赘述。

进一步地，本申请一实施例中，上述第一计算模块，包括：

分词单元，用于通过所述排序模型对第一参考信息进行分词处理，得到所述第一参考信息对应的各分词，其中所述第一参考信息包含于所有所述表格对应的所有参考信息；

获取单元，用于从预设的分词文本库中获取与各所述分词分别对应的参数值；

第一计算单元，用于根据各所述参数值，通过预设的相关性得分计算公式计算所述第一参考信息对应表格的相关性得分。

本实施例中，上述基于排序模型筛选表格的装置中的第一计算模块内包括的分词单元、获取单元与第一计算单元的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S500-S502的实现过程，在此不再赘述。

进一步地，本申请一实施例中，上述第一计算模块，还包括：

接收单元，用于接收用户输入的文本库数据，其中，所述文本库数据包括多个预设指标，和/或与各所述预设指标分别对应的近义语句；

第一提取单元，用于按照预设的分词方法对所述文本库数据进行标签提取，分别得到与各所述预设指标分别对应的第一标签，以及与各所述预设指标分别对应的近义语句的第二标签；

计算单元，用于通过预设的权重参数计算公式分别计算所述第一标签对应的第一权重参数，以及所述第二标签对应的第二权重参数；

存储单元，用于将各所述第一标签与各所述第一权重参数一一对应的存储于所述分词文本库，以及将各所述第二标签与各所述第二权重参数一一对应的存储于所述分词文本库。

本实施例中，上述基于排序模型筛选表格的装置中的第一计算模块内包括的接收单元、第一提取单元、计算单元与存储单元的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S5010-S5013的实现过程，在此不再赘述。

进一步地，本申请一实施例中，上述筛选表格的装置，包括：

第二获取模块，用于获取预设数量的样本语句，其中所述样本语句由采用预设的分词规则进行了标注的多个词语组成；

划分模块，用于将所有所述样本语句按照预设比例分为训练集和评估集，并将所述训练集对应的样本语句输入到神经网络模型进行模型训练，以通过预设的相关性得分计算公式计算出各所述样本语句的第一相关性得分；

比对模块，用于在预设时间间隔内，使用训练得到的模型对所述评估集对应的样本语句计算第二相关性得分，并将所述第二相关性得分与所述第一相关性得分进行比对，以评估模型的计算误差；

调整模块，用于若训练得到的模型的计算误差出现发散，则调整预设的训练参数并对所述训练得到的模型进行重新训练，直至所述训练得到的模型的计算误差收敛后，结束模型训练，并得到训练好的模型；

确定模块，用于将所述训练好的模型确定为所述排序模型。

上述基于排序模型筛选表格的装置中的第二获取模块、划分模块、比对模块、调整模块、与确定模块的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S400-S404的实现过程，在此不再赘述。

进一步地，本申请一实施例中，上述第二提取模块，包括：

判断单元，用于判断当前待提取参考信息的第一表格的表格形式是否符合预设的标准表格形式，其中所述标准表格形式为横表形式，所述第一表格包括于所述报告文档内包括的所有表格；

第二提取单元，用于若所述第一表格的表格形式符合预设的标准表格形式，则根据预设提取方式从所述第一表格中提取对应的参考信息。

本实施例中，上述基于排序模型筛选表格的装置中的第二提取模块内包括的判断单元与第二提取单元的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S300-S301的实现过程，在此不再赘述。

进一步地，本申请一实施例中，上述第二提取模块，还包括：

复制单元，用于若所述第一表格的表格形式不符合预设的标准表格形式，则复制所述第一表格，得到对应的第一表格副本；

转置单元，用于对所述第一表格副本进行转置处理，得到转置后的第一表格副本；

替换单元，用于使用所述转置后的第一表格副本替换所述第一表格。

本实施例中，上述基于排序模型筛选表格的装置中的第二提取模块内包括的复制单元、转置单元与替换单元的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S302-S304的实现过程，在此不再赘述。

进一步地，本申请一实施例中，所述第一表格存在表头，上述第二提取单元，包括：

第一提取子单元，用于提取所述第一表格对应的表头，以及所述第一表格对应的列表头；

第一确定子单元，用于将所述第一表格对应的表头与所述第一表格对应的列表头，作为所述第一表格的参考信息。

本实施例中，上述基于排序模型筛选表格的装置中的第二提取单元内包括的第一提取子单元与第一确定子单元的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S3010-S3011的实现过程，在此不再赘述。

进一步地，本申请一实施例中，所述第一表格不存在表头，上述第二提取单元，包括：

第二提取子单元，用于从所述报告文档内提取出与所述第一表格相关的指定文本；

第三提取子单元，用于提取所述第一表格对应的列表头；

第二确定子单元，用于将所述指定文本与所述第一表格对应的列表头，作为所述第一表格的参考信息。

本实施例中，上述基于排序模型筛选表格的装置中的第二提取单元内包括的第二提取子单元、第三提取子单元与第二确定子单元的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S3012-S3014的实现过程，在此不再赘述。

第二计算模块，用于根据预设的评价公式计算出所述排序模型对应的评价得分；

判断模块，用于判断所述评价得分是否小于预设的评价得分阈值；

优化模块，用于若所述评价得分小于预设的评价得分阈值，则通过预设的机器学习排序技术对所述排序模型进行优化。

本实施例中，上述基于排序模型筛选表格的装置中的第二计算模块、判断模块与优化模块的功能和作用的实现过程具体详见上述基于深度学习的表格生成方法中对应步骤S600-S602的实现过程，在此不再赘述。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储参考信息以及相关性得分等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一个示例性实施例所示出的筛选表格的方法。

上述处理器执行上述基于排序模型筛选表格的方法的步骤：

获取待处理的报告文档；

提取出所述报告文档内包括的所有表格；

从所有所述表格中分别提取出各所述表格对应的参考信息；

将各所述参考信息输入至预先训练好的排序模型；

在一实施例，所述根据各所述参考信息，通过所述排序模型分别计算各所述表格相对于预设指标的相关性得分的步骤，包括：

在一实施例，所述从预设的分词文本库中获取与各所述分词分别对应的参数值的步骤之前，包括：

在一实施例，所述从所有所述表格中分别提取各所述表格对应的参考信息的步骤，包括：

在一实施例，所述判断当前待提取参考信息的第一表格的表格形式是否符合预设的标准表格形式的步骤之后，包括：

使用所述转置后的第一表格副本替换所述第一表格。

在一实施例，所述第一表格存在表头，所述根据预设提取方式从所述第一表格中提取对应的参考信息的步骤，包括：

在一实施例，所述第一表格不存在表头，所述根据预设提取方式从所述第一表格中提取对应的参考信息的步骤，包括：

从所述报告文档内提取出与所述第一表格相关的指定文本；

提取所述第一表格对应的列表头；

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的装置、计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被一个或多个处理器执行时，使得一个或多个处理器执行时实现上述基于排序模型筛选表格的方法实施例中的步骤。

计算机程序被处理器执行时实现一种基于排序模型筛选表格的方法，具体为：

获取待处理的报告文档；

提取出所述报告文档内包括的所有表格；

从所有所述表格中分别提取出各所述表格对应的参考信息；

将各所述参考信息输入至预先训练好的排序模型；

使用所述转置后的第一表格副本替换所述第一表格。

从所述报告文档内提取出与所述第一表格相关的指定文本；

提取所述第一表格对应的列表头；

综上所述，本申请实施例中提供的基于排序模型筛选表格的方法、装置和计算机设备，获取待处理的报告文档；提取出所述报告文档内包括的所有表格；从所有所述表格中分别提取出各所述表格对应的参考信息；将各所述参考信息输入至预先训练好的排序模型；根据各所述参考信息，通过所述排序模型分别计算各所述表格相对于预设指标的相关性得分；筛选所述相关性得分大于预设的相关性得分阈值的指定表格，其中所述指定表格包含于所述报告文档内包括的所有表格。本申请通过将待处理的报告文档内所有表格的参考信息输入到预设的排序模型来得到每一个表格分别对应的相关性得分，从而可以筛选出相关性得分大于预设的相关性得分阈值的指定表格，即可以快速地得到与预设指标相关的多个指定表格，而不需要用户从待处理的报告文档的所有表格人工筛选出该指定表格，有效地节省了对报告文档的处理时间，提高了得到指定表格的效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于排序模型筛选表格的方法，其特征在于，包括：

获取待处理的报告文档；

提取出所述报告文档内包括的所有表格；

从所有所述表格中分别提取出各所述表格对应的参考信息；

将各所述参考信息输入至预先训练好的排序模型；

2.根据权利要求1所述的基于排序模型筛选表格的方法，其特征在于，所述根据各所述参考信息，通过所述排序模型分别计算各所述表格相对于预设指标的相关性得分的步骤，包括：

通过所述排序模型对第一参考信息进行分词处理，得到所述第一参考信息对应的各分词，其中所述第一参考信息包含于所有所述表格对应的所有参考信息；

3.根据权利要求2所述的基于排序模型筛选表格的方法，其特征在于，所述从预设的分词文本库中获取与各所述分词分别对应的参数值的步骤之前，包括：

4.根据权利要求1所述的基于排序模型筛选表格的方法，其特征在于，所述从所有所述表格中分别提取各所述表格对应的参考信息的步骤，包括：

5.根据权利要求4所述的基于排序模型筛选表格的方法，其特征在于，所述判断当前待提取参考信息的第一表格的表格形式是否符合预设的标准表格形式的步骤之后，包括：

使用所述转置后的第一表格副本替换所述第一表格。

6.根据权利要求4所述的基于排序模型筛选表格的方法，其特征在于，所述第一表格存在表头，所述根据预设提取方式从所述第一表格中提取对应的参考信息的步骤，包括：

7.根据权利要求4所述的基于排序模型筛选表格的方法，其特征在于，所述第一表格不存在表头，所述根据预设提取方式从所述第一表格中提取对应的参考信息的步骤，包括：

从所述报告文档内提取出与所述第一表格相关的指定文本；

提取所述第一表格对应的列表头；

8.一种基于排序模型筛选表格的装置，其特征在于，包括：

第一获取模块，用于获取待处理的报告文档；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。