CN108052619A

CN108052619A - 一种基于配置信息匹配及相似度提取网页信息的方法

Info

Publication number: CN108052619A
Application number: CN201711346436.6A
Authority: CN
Inventors: 尚保林; 王明兴; 徐晓松
Original assignee: Beijing Sea - Induced Star Map Technology Co Ltd
Current assignee: Beijing Sea - Induced Star Map Technology Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-05-18

Abstract

本发明公开了一种基于配置信息匹配及相似度提取网页信息的方法，提出了基于配置信息文本匹配及相似度计算实现的未知网页表格信息提取方法，利用新颖技术手段实现对未知网页表格细粒度的解析，通过自定义配置文件，获取用户想要的信息以及屏蔽不想要的信息，通过任意配置的外部文件，实现通用表格解析；提取网页中的最小表格，通过利用现今自然语言处理领域的文本间匹配以及相似度计算方式，抽取目标信息、弃丢无效信息，直接通过文本计算的方式实现信息获取，优于传统技术只能处理标准表格的方案，实现了对多种特殊表格的处理。

Description

一种基于配置信息匹配及相似度提取网页信息的方法

技术领域

本发明涉及查询方法技术领域，尤其涉及一种基于配置信息匹配及相似度提取网页信息的方法。

背景技术

知识图谱与图数据挖掘中经常需要挖掘满足给定结构的所有子图，这个问题通常称之为子图同构、子图匹配或子图查询。当前的子图匹配算法多是基于单机的，效率比较低，不能使用多台机器并行处理，能力有限，难以处理大规模数据。

发明内容

本发明的目的就在于为了解决上述问题而提供一种基于配置信息匹配及相似度提取网页信息的方法。

本发明通过以下技术方案来实现上述目的：

本发明包括以下步骤：

S1：用户自定义与表格解析过程相关的配置文件；

S2：顺序读取未知网页URL，查询数据库中是否已存在相关配置文件以及网页URL，若存在，直接读取数据；若不存在，存储其网页源码，利用JAVA中的Jsoup包将源码解析为Document对象；

S3：从根节点处深度递归遍历所有含table标签的表格，寻找所有非重复最小表格；

S4：遍历表格的第一行、第一列字段分别保存，获取配置文件中用户给出的字段列表，通过投票机制确定该表格属性为横向或者纵向。得到所有表格属性并保存；

S5：将每个最小表格作为处理单位，将标签table作为根节点root；

S6：若该表格为纵向表格，获取root第一个非空子节点的标签rowspan值，此值为表头所占行数，根据表头所占行数，获取所有表头字段propertyStr；

S7：遍历表头节点的所有非空兄弟节点，遍历每一个兄弟节点的非空子节点，并记录每一个兄弟节点子节点的个数，将数值取为最大的子节点个数；

S8：以表头节点的兄弟节点个数与设计对应的二维矩阵，分别读取兄弟节点子节点的字段，将其存储于二维矩阵，形成表头propertyStr字段与二维矩阵列一一对应；

S9：若所有子节点的个数与表头字段propertyStr长度相同，执行步骤S11；

S10：若子节点的个数与表头字段长度不同，找出与表头字段propertyStr长度不同的兄弟节点对应的二维矩阵的行，认为其可能是另一个表头，对所有表头以及表头字段对应二维矩阵的字段值执行步骤S18、S19与S20；

S11：若该表格为横向表格，取出root第一个非空子节点，遍历该节点的所有子节点，取出其字段值保存，记为第一类字段；遍历root的所有子节点，取出这些节点的第一个子节点，取出字段值保存，记为第二类字段；获取配置文件中用户给出的字段列表，计算出字段列表与上述两类字段的文本相似度，分别记为权重和；

S12：若，取出第一类字段列表序号为奇数所有字段分别与配置文件中用户给出的正面字段名／正面字段列表进行文本正则化匹配；若未匹配到，跳至步骤S13；若匹配到，执行步骤S6-S10；

S13：取出根节点root非空子节点trElement的标签rowspan值；

S14：若rowspan =1，遍历上述节点trElement的所有子节点，取出所有子节点的字段值记为strString，计算strString元素个数size；

S15：若size为偶数，从0开始到size-1遍历strString，偶数序号作为表头，奇数序号作为字段值，执行步骤S18、S19与S20；

S16：若size为奇数，从0开始到size-1遍历strString，0序号作为表头，后序字段拼接作为总字段值，执行步骤S18、S19与S20；

S17：若rowspan >1，取出根节点root下的rowsapan个子节点，将子节点的第一个非空子节点作为表头，后序字段拼接作为总字段值，执行步骤S18、S19与S20；

S18：遍历每一个表头字段与配置文件中用户给出的正面字段名／正面字段列表进行文本正则化匹配，若未匹配到，继续遍历下一个表头字段；若匹配到，将该表头字段与用户给出的负面字段名／负面字段列表进行文本正则化匹配，若匹配到，结束，继续遍历下一个表头字段，若未匹配到，记录被匹配字段列表所属的正面字段名，形成匹配到的表头字段与正面字段名一一对应的列表；

S19：找出与匹配到的表头字段对应的字段值，数量为n；

S20：设计数据结构R包含name和value属性，将R.name属性记为被匹配到的正面字段名，将R.value属性记为上述获取的字段值；产生n对数据结构R，保存到数据库；

S21：将数据库中获得的所有数据结构R取出，进行清洗、保存；

S22：读入下一个表格，返回步骤S3开始执行，当所有表格读取完毕，查询数据库中是否有对应的用户配置文件，URL以及获得的所有对数据结构R，若没有将其导入入数据库，方便快速查询；

S23：读取下一个URL，返回步骤S2开始执行。

本发明优选地，根据步骤S1，

所述用户配置文件为properties类型或其他JAVA系统可以读取的文件；所述配置文件一般有两种内容：正面字段名／正面字段列表，负面字段名／负面字段列表；

所述正面字段名为用户主观意愿得到的信息；正面字段列表为用户主观认为与欲提取的信息接近的词汇或语法；

所述负面字段名为用户主观不希望得到的信息；负面字段列表为用户主观认为与欲提取的信息无法共生的词汇或语法；

所述正面字段名／正面字段列表，负面字段名／负面字段列表均为用户配置，与待解析表格中是否存在、相同、相异均无关。

本发明优选地，根据步骤S4，所述纵向表格是指整体来看表格的表头为行的表格；所述横向表格是指整体来看表格的表头为列的表格。

本发明的有益效果在于：

本发明提供一种基于配置信息匹配及相似度提取网页信息的方法，提出了基于配置信息文本匹配及相似度计算实现的未知网页表格信息提取方法，利用新颖技术手段实现对未知网页表格细粒度的解析，通过自定义配置文件，获取用户想要的信息以及屏蔽不想要的信息，通过任意配置的外部文件，实现通用表格解析；提取网页中的最小表格，通过利用现今自然语言处理领域的文本间匹配以及相似度计算方式，抽取目标信息、弃丢无效信息，直接通过文本计算的方式实现信息获取，优于传统技术只能处理标准表格的方案，实现了对多种特殊表格的处理。

附图说明

图1是本发明所述一种基于配置信息匹配及相似度提取网页信息的方法的流程图；

图2是本发明所述处理横向表格的流程图；

图3是本发明所述处理纵向表格的流程图；

图4是本发明所述文本匹配及相似度计算流程图。

具体实施方式

下面结合附图对本发明作进一步说明：

如图1所示，本发明包括以下步骤：

S1：用户自定义与表格解析过程相关的配置文件；

所述用户配置文件为properties类型；

所述配置文件一般有两种内容：正面字段名／正面字段列表，负面字段名／负面字段列表；例如，正面字段名／正面字段列表：“中标金额:中标.*金，中标.*价，成交价，采购总.*，采购价，采购金，合同.*额”，“招标机构:招标人，采购人，招标单位，采购单位”；负面字段名／负面字段列表：“负面类别:资格，资质，地址，电话，联系，备注”；

所述正面字段名／正面字段列表，负面字段名／负面字段列表均为用户配置，与待解析表格中是否存在、相同、相异均无关；

所述非重复是指递归过程产生的新表格不存在于已产生的表格序列里；

所述最小表格是指不包含内部或外部嵌套的表格。例如表格B嵌套表格A，表格A不嵌套任何其他表格，那么最小表格为A和C =B-A；

S4：遍历表格的第一行、第一列字段分别保存，获取配置文件中用户给出的“中标金额”与“招标机构”字段列表，通过投票机制确定该表格属性为横向或者纵向，得到所有表格属性并保存；

上述投票机制是指计算出所有“中标金额”与“招标机构”列表与表格中的行列字段列表的文本相似度，分别得到行列字段列表的总体权重，行字段列表总体权重越大，则为纵向表格，列字段列表总体权重越大，则为横向表格；

上述纵向表格是指整体来看表格的表头为行的表格；上述横向表格是指整体来看表格的表头为列的表格；

S6：若该表格为纵向表格，如图2所示，获取root第一个非空子节点的标签rowspan值，此值为表头所占行数，根据表头所占行数，获取所有表头字段propertyStr；

S8：以表头节点的兄弟节点个数与设计对应的二维矩阵，分别读取兄弟节点子节点的字段值，将其存储于二维矩阵，形成表头propertyStr字段与二维矩阵列一一对应；

上述表头通常为“中标总金额”、“招标单位”、“项目预算”或“代理机构”等；

上述一一对应字段值：具体中标金额，如100万元；具体招标机构，如XXX有限公司；具体项目预算，如95万元；具体代理公司，如YYY代理公司等；

S9：若所有子节点的个数与表头字段propertyStr长度相同，则为图3所示的标准表，执行步骤S18、S19与S20；

S10：若子节点的个数与表头字段长度不同，则为图3所示的多表头情况，找出与表头字段propertyStr长度不同的兄弟节点对应的二维矩阵的行，认为其可能是另一个表头。对所有表头以及表头字段对应二维矩阵的字段值执行步骤S18、S19与S20；

S11：若该表格为横向表格，如图2所示。取出root第一个非空子节点，遍历该节点的所有子节点，取出其字段值保存，记为第一类字段；遍历root的所有子节点，取出这些节点的第一个子节点，取出字段值保存，记为第二类字段；获取配置文件中用户给出的字段列表“中标金额”与“招标机构”列表，计算出列表与上述两类字段的文本相似度，分别记为权重和；

下述表头通常为“中标总金额”、“招标单位”、“项目预算”或“代理机构”等；

下述一一对应字段值：具体中标金额，如100万元；具体招标机构，如XXX有限公司；具体项目预算，如95万元；具体代理公司，如YYY代理公司等；

S12：若，取出第一类字段列表序号为奇数所有字段分别与配置文件中用户给出的“中标金额”与“招标机构”字段列表进行文本正则化匹配；若未匹配到，跳至步骤S13；若匹配到，则为图2所示的纵向格式，跳转执行步骤S6-S10；

S13：取出根节点root非空子节点trElement的标签rowspan值；

S14：若rowspan =1，如图3所示，表头为单行；遍历上述节点trElement的所有子节点，取出所有子节点的字段值记为strString，计算strString元素个数size；

S17：若rowspan >1，如图3所示，表头为多行；取出根节点root下的rowsapan个子节点，将子节点的第一个非空子节点作为表头，后序字段拼接作为总字段值，执行步骤S18、S19与S20；

S18：图4所示为文本匹配与相似度计算流程图；具体步骤如下：遍历每一个表头字段与配置文件中用户给出的“中标金额”或“招标机构”列表进行文本正则化匹配，若未匹配到，继续遍历下一个表头字段；若匹配到，将该表头字段与用户给出的“负面类别”列表进行文本正则化匹配，若匹配到，结束，继续遍历下一个表头字段，若未匹配到，记录被匹配字段所属于“中标金额”还是“招标机构”，形成该表头字段与“中标金额”或“招标机构”一一对应的列表；

S19：找出与匹配到的表头字段一一对应的字段值，数量为n；

S20：通过匹配到的表头字段，形成“中标金额”或“招标机构”与字段值一一对应列表；设计数据结构R包含name和value属性，将R.name属性记为“中标金额”或“招标机构”，将R.value属性记为上述获取的字段值；产生n对数据结构R，保存到数据库；

上述清洗是指去重、规范化中标金额，例如：元、万元、百万、亿等统一单位；

S22：读入下一个表格，返回S3开始执行，当所有表格读取完毕，查询数据库中是否有对应的用户配置文件，URL以及获得的所有对数据结构R，若没有将其导入入数据库，方便快速查询；

S23：读取下一个URL，返回S2开始执行。

综上所述，本发明提供一种基于配置信息匹配及相似度提取网页信息的方法，通过读取配置文件，利用自然语言处理领域的文本间匹配以及相似度计算方式，抽取目标信息、弃丢无效信息，实现对未知网页表格多层次、细粒度地解析。相比现有技术，本发明方法新颖，解析速度快，平均耗时25ms，信息提取效果好，利于推广应用。

本领域技术人员不脱离本发明的实质和精神，可以有多种变形方案实现本发明，以上所述仅为本发明较佳可行的实施例而已，并非因此局限本发明的权利范围，凡运用本发明说明书及附图内容所作的等效结构变化，均包含于本发明的权利范围之内。

Claims

1.一种基于配置信息匹配及相似度提取网页信息的方法，其特征在于：包括以下步骤：

S1：用户自定义与表格解析过程相关的配置文件；

S4：遍历表格的第一行、第一列字段分别保存，获取配置文件中用户给出的字段列表，通过投票机制确定该表格属性为横向或者纵向；得到所有表格属性并保存；

S13：取出根节点root非空子节点trElement的标签rowspan值；

S19：找出与匹配到的表头字段对应的字段值，数量为n；

S23：读取下一个URL，返回步骤S2开始执行。

2.根据权利要求1所述的一种基于配置信息匹配及相似度提取网页信息的方法，其特征在于：根据步骤S1，

3.根据权利要求1所述的一种基于配置信息匹配及相似度提取网页信息的方法，其特征在于：根据步骤S4，所述纵向表格是指整体来看表格的表头为行的表格；所述横向表格是指整体来看表格的表头为列的表格。