CN111797356A

CN111797356A - 网页表格信息抽取方法及装置

Info

Publication number: CN111797356A
Application number: CN202010641036.3A
Authority: CN
Inventors: 顾凌云; 陈波; 王健健
Original assignee: Shanghai IceKredit Inc
Current assignee: Shanghai IceKredit Inc
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-20
Anticipated expiration: 2040-07-06
Also published as: CN111797356B

Abstract

本发明提供的网页表格信息抽取方法及装置，涉及数据信息处理技术领域。首先，清洗网页数据，检测清洗的网页数据中是否存在web表格；接着，在存在web表格时，识别web表格的样式，并根据web表格的样式抽取表格信息；最后，采用实体识别模型对抽取的表格信息进行识别，筛选出web表格包括的实体对象。根据web表格的样式抽取表格信息，抽取的信息会更加准确；另外，通过实体识别模型对抽取信息进行进一步的识别和清洗，可以减少抽取信息中的干扰信息。

Description

网页表格信息抽取方法及装置

技术领域

本发明涉及数据信息处理技术领域，具体而言，涉及一种网页表格信息抽取方法及装置。

背景技术

在大数据时代，互联网上有海量公开的半结构化数据和非结构化数据，其中网页表格数据这种半结构化数据，往往具有较高的价值。然而，网页表格样式复杂，数据干扰项也多，极大地增加了信息抽取的难度。

现有的网页表格数据抽取方法，一般是通过网页表格解析器获取含有table标记的DOM树，再结合针对特定页面的过滤规则或通过手工标记来进行表格数据抽取。然而，对于由横向表格（表头在首行）和纵行表格（表头在首列）结合的复合表格抽取数据的效果就不好。而且，上述抽取方法，主要是基于规则，对于提取后的表格单元中的信息未进行清洗，导致抽取的内容含有较多的干扰项。

发明内容

为了改善上述问题，本发明提供了一种网页表格信息抽取方法及装置。

本发明的第一方面，提供一种网页表格信息抽取方法，应用于计算机设备，所述方法包括：

对获取的网页数据进行数据清洗，得到清洗后的网页数据；

检测所述清洗后的网页数据中是否存在web表格；

在所述清洗后的网页数据中存在web 表格时，通过识别所述web表格的结构，识别出所述web表格的样式，其中，所述web表格的样式包括简单表格和复合表格；

根据所述web表格的样式，抽取出所述web表格的表格信息；

采用优化的实体识别模型对抽取的表格信息进行识别，得到所述web表格中包括的实体对象。

进一步地，所述通过识别所述web表格的结构，识别出所述web表格的样式的步骤包括：

对所述web表格进行检测，在检测的所述web表格的表格区域依据行标记遍历所述web表格每一行的单元格；

若当前行的单元格数量与上一行的单元格数量不相同，则确定所述web表格为复合表格；若所述web表格中所有行的单元格数量相同，则确定所述web表格为简单表格。

进一步地，若所述web表格的样式为复合表格，所述抽取出所述web表格的表格信息的步骤包括：

将所述web表格拆分为多个简单表格；

遍历每个拆分后的简单表格在每行上的单元格，通过表头特征词库对所述每行上的单元格内容进行文本匹配，统计匹配成功的行单元格数量；

遍历每个拆分后的简单表格在每列上的单元格，通过表头特征词库对所述每列上的单元格内容进行文本匹配，统计匹配成功的列单元格数量；

根据统计的行单元格数量及列单元格数量，判断所述每个拆分后的简单表格的类型，所述简单表格的类型包括横向表格和纵向表格；

根据所述每个拆分后的简单表格的类型，通过所述表头特征词库从所述每个拆分后的简单表格中抽取表格信息。

进一步地，所述根据所述每个拆分后的简单表格的类型，通过所述表头特征词库从所述每个拆分后的简单表格中抽取表格信息的步骤包括：

若拆分后的简单表格的类型为横向表格，将单元格内容与所述表头特征词库中的关键字匹配的单元格作为表头单元格，抽取位于所述表头单元格右侧的单元格的内容，得到所述抽取表格信息；

若拆分后的简单表格的类型为纵向表格，将单元格内容与所述表头特征词库中的关键字匹配的单元格作为表头单元格，抽取位于所述表头单元格下方的单元格的内容，得到所述抽取表格信息。

进一步地，所述方法还包括对所述实体识别模型进行训练的步骤，该步骤包括：

获取标注数据中的训练集，其中，所述训练集包括已经进行文本标注的训练实体对象；

将所述训练实体对象输入所述实体识别模型中进行训练，得到所述实体识别模型的损失函数值，将该损失函数值与设定的损失函数阈值进行比较，在该损失函数值不小于所述设定的损失函数阈值时，调整所述实体识别模型的参数，重复上述步骤，直到所述实体识别模型的损失函数值小于所述设定的损失函数阈值，得到训练好的实体识别模型。

进一步地，所述方法还包括对所述训练好的实体识别模型进行优化的步骤，该步骤包括：

获取标注数据中的测试集，其中，所述测试集包括已经进行文本标注的测试实体；

将所述测试实体输入到所述训练好的实体识别模型进行测试，根据所述训练好的实体识别模型输出的输出标注以及该测试实体已标注的文本标注，计算所述训练好的实体识别模型的平衡F分数；

调整所述训练好的实体识别模型的参数，重复上述步骤，找到所述训练好的实体识别模型在不同参数下的平衡F分数；

将平衡F分数最大时对应的实体识别模型，作为所述优化的实体识别模型。

本发明的第二方面，提供了一种网页表格信息抽取装置，应用于计算机设备，所述装置包括：

清洗模块，用于对获取的网页数据进行数据清洗，得到清洗后的网页数据；

检测模块，用于检测所述清洗后的网页数据中是否存在web表格；

表格样式识别模块，用于在所述清洗后的网页数据中存在web 表格时，通过识别所述web表格的结构，识别出所述web表格的样式，其中，所述web表格的样式包括简单表格和复合表格；

抽取模块，用于根据所述web表格的样式，抽取出所述web表格的表格信息；

实体对象识别模块，用于采用优化的实体识别模型对抽取的表格信息进行识别，得到所述web表格中包括的实体对象。

进一步地，所述表格样式识别模块具体用于：

进一步地，若所述web表格的样式为复合表格，所述抽取模块具体用于：

将所述web表格拆分为多个简单表格；

进一步地，所述抽取模块还具体用于：

本发明提供的网页表格信息抽取方法及装置，根据web表格的样式抽取表格信息，抽取的信息会更加准确。同时，通过实体识别模型对抽取信息进行进一步的抽取和清洗，可以减少抽取信息中的干扰信息。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例所提供的一种计算机设备的结构示意图。

图2为本发明实施例所提供的一种网页表格信息抽取方法的流程图。

图3为本发明实施例所提供的一种网页表格信息抽取装置的模块框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，本发明中附图仅起到说明和描述的目的，并不用于限定本发明的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本发明中使用的流程图示出了根据本发明实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本发明内容的指引下，可以向流程图添加一个或多个其它操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，可以理解地是，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了解决背景技术所提及的技术问题，发明人创新性的提出以下技术方案。

请参照图1，图1为本发明实施例提供的一种用于实现本发明具体技术方案的计算机设备100的结构示意图。计算机设备100包括网页表格信息抽取装置110、存储器111及处理器112。

存储器111及处理器112各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，存储器111用于存储程序，处理器112在接收到执行指令后，执行程序。

网页表格信息抽取装置110包括至少一个可以软件或固件的形式存储于存储器111中或固化在所述计算机设备100的操作系统中的软件功能模块。处理器112用于执行存储器111中存储的可执行模块，例如网页表格信息抽取装置110所包括的软件功能模块及计算机程序等。

应当理解的是，图1所示的结构仅为示意，计算机设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请参照图2，图2为本发明实施例提供的网页表格信息抽取方法的流程示意图，下面结合图2对该网页表格信息抽取方法进行详细的描述。

步骤S210，对获取的网页数据进行数据清洗，得到清洗后的网页数据。

一般来说，获取的网页数据包括很多与抽取表格信息无关的信息，比如javascript脚本和css脚本，这些无关的信息会干扰后续表格信息的抽取。在本发明实施例中，可以通过正则表达式或网页解析BeautifulSoup将这些无关的信息去掉，并去掉网页数据中的乱码，其中，BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库。

步骤S220，检测清洗后的网页数据中是否存在web表格。

W3C组织定义的Web表格由 <table>、</table>标记，Web表格由一个标题Caption和若干个行元素组成，其中，行元素用<tr>标记。Caption元素必须紧接着<table>开始标记。每个行元素由若干单元组成，这些单元包含th元素(表示头信息)和td元素(表示数据信息)。

在本发明实施例中，可以通过将网页数据转化为DOM树结构，从DOM树中提取包含<table>标记的部分，并通过检测包含<table>标记的部分是否满足预设的表格规则，判断网页数据中是否存在web表格。

具体地，预设的表格规则可以包括以下规则。

规则1，表格的大小至少是2行2列，如果表格只有一行或只有一列，则判定其是非数据表格。

规则2，如果包含<table>标记的部分中包含<caption>、<th>或<td>标记,则该表格是一个数据表格。

规则3，如果包括<table>标记的部分中包含大量的超链接、图片、框架、表单、脚本标记，则该表格为非数据表格。很多的非数据表格被用来进行页面布局的，其中必然包含了很多的<img>、<frame>、<form>、<script>等标记。

规则4，若Web表格中去除HTML标记后得到的字符串中，中文字符的数量小于阈值，则该表格是非数据表格。

规则5，如果外层< table >标记嵌套其他的子< table >标记，且子< table >标记下有数据表格，则该子< table >标记的所有外层< table >标记均为非数据表格；否则，去除这些非数据表格的子< table >标记后再进行判断。

步骤S230，在清洗后的网页数据中存在web 表格时，通过识别web表格的结构，识别出所述web表格的样式。

在本发明实施例中，web表格的样式包括简单表格和复合表格，其中，复合表格由横向表格和纵行表格结合得到。

步骤S240，根据web表格的样式，抽取出web表格的表格信息。

依据表格样式，对应表头单元格，提取web表格中表头下方或右方对应单元格的信息和数据，得到表格信息。

步骤S250，采用优化的实体识别模型对抽取的表格信息进行识别，得到web表格中包括的实体对象。

在本发明实施例中，可以采用BILSTM+CRF模型作为实体识别模型，对抽取的表格信息进行识别，从抽取的表格信息中识别出实体对象，以除去表格信息中的干扰信息。实体对象是指客观存在的并且可以相互区别的事物，可以具体到人、事及物。比如，表格信息可能有“拍卖人：张三”或者“拍品所有人：张三”，但真正需要的是信息是“张三”，因此应用实体识别模型可以识别出人名、组织名、金额等实体对象。

上述方案，根据web表格的样式抽取表格信息，抽取的信息会更加准确。另外，通过实体识别模型对抽取信息进行进一步的抽取和清洗可以减少抽取信息中的干扰信息。

进一步地，在本发明实施例中，步骤S230可以通过以下方式实现。

对web表格进行检测，在检测的web表格的表格区域依据行标记遍历所述web表格每一行的单元格；

若当前行的单元格数量与上一行的单元格数量不相同，则确定web表格为复合表格；若web表格中所有行的单元格数量相同，则确定web表格为简单表格。

具体地，在定位的表格区域依据tr元素遍历表格的每一行，当发现当前行td元素单元格数目和上一行的td元素单元格数目有变化的时候，就是多个表格组合的位置点，可以按这个位置点将表格进行分开，依次类推将复合表格拆分为多个简单表格。如果没有表格组合的位置点则整个表格为简单表格。

在本发明实施例中，若web表格的样式为复合表格，步骤S240可以通过以下方式实现。

首先，将web表格拆分为多个简单表格。

接着，遍历每个拆分后的简单表格在每行上的单元格，通过表头特征词库对每行上的单元格内容进行文本匹配，统计匹配成功的行单元格数量match_col_count和匹配单元格对应的索引col_index。

再接着，遍历每个拆分后的简单表格在每列上的单元格，通过表头特征词库对所述每列上的单元格内容进行文本匹配，统计匹配成功的列单元格数量match_row_count和匹配单元格对应的索引row_index。

再接着，根据统计的行单元格数量及列单元格数量，判断每个拆分后的简单表格的类型，简单表格的类型包括横向表格和纵向表格。

具体地，若match_col_count/cols >= match_row_count/rows，则是纵向表格，如果match_col_count/cols < match_row_count/rows，则是横向表格。其中，cols为表格的总行数，rows为表格的总列数，同时，可以通过索引row_index或索引col_index获得对应简单表格的表头。

最后，根据每个拆分后的简单表格的类型，通过表头特征词库从每个拆分后的简单表格中抽取表格信息。

具体地，若拆分后的简单表格的类型为横向表格，将单元格内容与表头特征词库中的关键字匹配的单元格作为表头单元格，抽取位于表头单元右侧的单元格的内容，得到抽取表格信息。

若拆分后的简单表格的类型为纵向表格，将单元格内容与表头特征词库中的关键字匹配的单元格作为表头单元格，抽取位于表头单元下方的单元格的内容，得到抽取表格信息。

在本申请实施例中，web表格的表头书写形式多样，往往一种字段可能会有多种表述形式，因此可以构建抽取字段和表头关键词映射的表头特征词库。比如“中标单位”这种可能会有多种表达方式例如“中标人”，“中标单位”等等。“中标金额”会有“中标金额”、“中标总额”、“中标价格”等多种表述形式。通过尽可能全的搜集领域内web表格的表述形式，构建比较完备的表头特征词库，为后续表格信息的抽取提供更全更准确的数据内容。

在本发明实施例中，网页表格信息抽取方法还可以包括对实体识别模型进行训练的步骤，该步骤可以通过以下方式实现。

首先，获取标注数据中的训练集。

训练集包括已经进行文本标注的训练实体对象，具体地，在本申请实例中还需预先进行数据标注得到标注数据，可选地，进行数据标注的过程可以如下：获取大量表格网页，去除表格网页中的网页标签，得到文本数据，然后对目标字段进行文本标注，比如标注上：人名、组织名、金额、时间；构建大约5万条的样本作为标注数据，并按照预设比例将标注数据分为测试集和训练集。

接着，将训练实体对象输入到实体识别模型中进行训练，得到实体识别模型在训练过程中的损失函数值；将该损失函数值与设定的损失函数阈值进行比较判断实体识别模型是否收敛；在损失函数值不小于设定的损失函数阈值时，调整实体识别模型的参数，重复上述过程，直到实体识别模型的损失函数值小于设定的损失函数阈值，保存当前实体识别模型，得到训练好的实体识别模型。

在本发明实施例中，网页表格信息抽取方法还可以对训练好的实体识别模型进行优化的步骤，具体地，该步骤包括以下内容。

首先，获取标注数据中的测试集，其中，测试集包括已经进行文本标注的测试实体。

接着，将测试实体输入到训练好的实体识别模型进行测试，根据训练好的实体识别模型输出的输出标注以及该测试实体已标注的文本标注，计算训练好的实体识别模型的平衡F分数（F1-score）。

F1-score是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1-score可以看作是模型精确率和召回率的一种调和平均，它的最大值是1，最小值是0。具体地，F1-score等于精确率与召回率的2倍乘积，与精确率与召回率和值的比值；其中，精确率即查准率，正确预测为正的占全部预测为正的比例；召回率即查全率，即正确预测为正的占全部实际为正的比例。

再接着，调整所述训练好的实体识别模型的参数，重复上述步骤，找到所述训练好的实体识别模型在不同参数下的平衡F分数。

最后，将平衡F分数最优时对应的实体识别模型，作为优化后的层次实体识别模型。

上述技术方案，可以将复合表格拆分成简单表格，并根据简单表格的类型抽取表格信息，抽取的信息会更加准确，同时，通过实体识别模型对抽取信息进行进一步的抽取和清洗，可以减少抽取信息中的干扰信息。

在上述基础上，请结合参阅图3，为本发明实施例所提供的网页表格信息抽取装置110的模块框图，所述网页表格信息抽取装置110可以包括企业名称清洗模块1101、检测模块1102、表格样式识别模块1103、抽取模块1104、实体对象识别模块1105。

清洗模块1101，用于对获取的网页数据进行数据清洗，得到清洗后的网页数据。

获取的网页数据包括很多与抽取表格信息无关的信息，比如javascript脚本和css脚本，这些无关的信息会干扰后续表格信息的抽取。在本发明实施例中，清洗模块1101可以通过正则表达式或网页解析BeautifulSoup将这些无关的信息去掉，并去掉网页数据中的乱码，其中，BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库。

检测模块1102，用于检测清洗后的网页数据中是否存在web表格。

具体地，预设的表格规则可以包括以下规则。

规则3，如果包含<table>标记的部分中包含大量的超链接、图片、框架、表单、脚本标记，则该表格为非数据表格。很多的非数据表格被用来进行页面布局的，其中必然包含了很多的<img>、<frame>、<form>、<script>等标记。

表格样式识别模块1103，用于在清洗后的网页数据中存在web 表格时，通过识别web表格的结构，识别出web表格的样式，其中， web表格的样式包括简单表格和复合表格。

抽取模块1104，用于根据web表格的样式，抽取出web表格的表格信息。

抽取模块1104可以依据表格样式，对应表头单元格，提取web表格中表头对应的下方或右方对应单元格的信息和数据，得到表格信息。

实体对象识别模块1105，用于采用优化的实体识别模型对抽取的表格信息进行识别，得到web表格中包括的实体对象。

实体对象识别模块1105可以从抽取的表格信息中识别出实体对象，以除去表格信息中的干扰信息。实体对象是指客观存在的并且可以相互区别的事物，可以具体到人、事及物。比如，表格信息可能有“拍卖人：张三”或者“拍品所有人：张三”，但真正需要的是信息是“张三”，因此应用实体识别模型可以识别出人名、组织名、金额等实体对象。

在本发明实施例中，表格样式识别模块1103具体用于：

对所述web表格进行检测，在检测的所述web表格的表格区域依据行标记遍历所述web表格每一行的单元格。

在本申请实施例中，若所述web表格的样式为复合表格，所述抽取模块1104具体用于：

将所述web表格拆分为多个简单表格；

在本申请实施例中，所述抽取模块1104还具体用于：

若拆分后的简单表格的类型为横向表格，将单元格内容与所述表头特征词库中的关键字匹配的单元格作为表头单元格，抽取位于所述表头单元右侧的单元格的内容，得到所述抽取表格信息；

若拆分后的简单表格的类型为纵向表格，将单元格内容与所述表头特征词库中的关键字匹配的单元格作为表头单元格，抽取位于所述表头单元下方的单元格的内容，得到所述抽取表格信息。

综上所述，本发明提供的网页表格信息抽取方法及装置。首先，清洗网页数据，检测清洗的网页数据中是否存在web表格；接着，在存在web表格时，识别web表格的样式，并根据web表格的样式抽取表格信息；最后，采用实体识别模型对抽取的表格信息进行识别，筛选出web表格包括的实体对象。在上述方案中，可以将复合表格拆分成简单表格，并根据简单表格的类型抽取表格信息，抽取的信息会更加准确。另外，通过实体识别模型对抽取信息进行进一步的抽取和清洗，可以减少抽取信息中的干扰信息。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种网页表格信息抽取方法，其特征在于，应用于计算机设备，所述方法包括：

对获取的网页数据进行数据清洗，得到清洗后的网页数据；

检测所述清洗后的网页数据中是否存在web表格；

根据所述web表格的样式，抽取出所述web表格的表格信息；

2.如权利要求1所述的网页表格信息抽取方法，其特征在于，所述通过识别所述web表格的结构，识别出所述web表格的样式的步骤包括：

3.如权利要求2所述的网页表格信息抽取方法，其特征在于，若所述web表格的样式为复合表格，所述抽取出所述web表格的表格信息的步骤包括：

将所述web表格拆分为多个简单表格；

4.如权利要求3所述的网页表格信息抽取方法，其特征在于，所述根据所述每个拆分后的简单表格的类型，通过所述表头特征词库从所述每个拆分后的简单表格中抽取表格信息的步骤包括：

5.如权利要求1-4中任意一项所述的网页表格信息抽取方法，其特征在于，所述方法还包括对所述实体识别模型进行训练的步骤，该步骤包括：

6.如权利要求5所述的网页表格信息抽取方法，其特征在于，所述方法还包括对所述训练好的实体识别模型进行优化的步骤，该步骤包括：

将平衡F分数最优时对应的实体识别模型，作为所述优化的实体识别模型。

7.一种网页表格信息抽取装置，其特征在于，应用于计算机设备，所述装置包括：

8.如权利要求7所述的网页表格信息抽取装置，其特征在于，所述表格样式识别模块具体用于：

9.如权利要求8所述的网页表格信息抽取装置，其特征在于，若所述web表格的样式为复合表格，所述抽取模块具体用于：

将所述web表格拆分为多个简单表格；

10.如权利要求9所述的网页表格信息抽取装置，其特征在于，所述抽取模块还具体用于：