CN109408825A

CN109408825A - 一种基于命名实体识别的中标数据提取方法

Info

Publication number: CN109408825A
Application number: CN201811313636.6A
Authority: CN
Inventors: 杨红飞
Original assignee: Hangzhou Firestone Technology Co Ltd
Current assignee: Hangzhou Firestone Technology Co Ltd
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2019-03-01

Abstract

本发明公开了一种基于命名实体识别的中标数据提取方法，从中标公告网页的HTML解析成文本，到文本中提取所需的关键信息，再到提取结果校对，最后校对结果再反哺到提取上，形成一个闭环流程；在提取信息中结合了命名实体识别与规则筛选，提高中标机构的提取率，且针对不同的数据源，所需的改动较少；该方法在把难以处理的表格数据转为易于识别的普通文本数据的同时，尽可能保留了与信息提取相关的各个单元格间的关系，这是后续中标机构、中标标的与中标金额得以高准确率提取的主要因素。该方法可操作性强，随着处理过的数据量的增长，最终会得到较高的提取率与准确率。

Description

一种基于命名实体识别的中标数据提取方法

技术领域

本发明涉及数据处理领域，尤其涉及一种基于命名实体识别的中标数据提取方法。

背景技术

中标数据提取是一类高效利用文本数据的任务，随着各级政府进一步加大信息公开力度，越来越的中标数据处于可利用状态，也由于数据量大，且数据呈现形式众多，这一类数据还有待进一步加工利用。

当前有通过DOM树对HTML数据直接进行解析的方法(参考专利：一种基于DOM树的招标网站中标信息抽取方法)，所需的信息都提取于DOM树的节点上；其中，DOM是文档对象化模型(Document Object Model)的简称，DOM Tree指通过DOM将HTML页面进行解析，并生成的HTML tree树状结构和对应访问方法。

也有利用二阶HMM对中标网页进行命名实体提取的方法(参考专利：一种基于二阶HMM的中标网页命名实体抽取方法)，其通过文本上下文及HTML标签作为数据，使用二阶HMM进行序列标注；其中，命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等；隐马尔可夫模型(Hidden Markov Model，HMM)是一种统计模型，用来描述一个含有隐含未知参数的马尔可夫过程。

现有的中标数据提取方法一般都缺乏系统性，很难有持续迭代优化的趋势，且使用条件较为限制，从而导致通用性较差。

发明内容

在中标数据提取任务中，现有的方法或依赖于规则提取，或侧重于算法提取，这直接反映在提取效果不够好，且没有持续优化的趋势，本发明针对以上问题提出一种基于命名实体识别的中标数据提取方法，从HTML解析成文本，到文本中提取所需的关键信息，再到提取结果校对，最后校对结果再反哺到提取上，形成一个闭环流程；在提取信息中结合了命名实体识别与规则筛选，提高中标机构的提取率，且针对不同的数据源，所需的改动较少。

本发明的目的是通过以下技术方案来实现的：一种基于命名实体识别的中标数据提取方法，该方法包括以下步骤：

步骤1：获取中标公告网页的HTML；

步骤2：解析HTML：

2.1)针对HTML中的文本，获取标题和其他纯文本；

2.2)针对HTML中的表格，首先将其解析为嵌套列表，然后采取如下规则将其解析为纯文本：

a)如果首行单元格同时满足如下三个条件，则更新除首行外的单元格内容：单元格内容＝首行单元格内容+“是”+单元格内容；

A.没有冒号

B.没有特定词

C.没有机构实体

b)依次对每行的单元格以“；”进行拼接；再对所有行以“。”进行拼接；

2.3)将解析得到的标题、纯文本和解析后的表格按其出现顺序拼接为全文；

步骤3：从步骤2得到的标题中提取项目名称以及公告类型；从标题下文提取公告时间；从步骤2得到的全文中提取中标总金额；

步骤4：根据文本顺序，依次扫描每句话：

4.1)通过命名实体识别与机构实体后缀规则筛选提取中标机构；

4.2)在步骤4.1)提取的中标机构上下文提取中标标的与中标金额；

步骤5：按照步骤1到步骤4解析若干个中标公告后，进行人工抽样校验，依次分析随机抽取的中标公告提取结果，如果某个中标公告提取出错，则进行如下操作：

5.1)如果有中标机构没有被提取出，则增加该机构实体到命名实体识别的机构实体库中，同时增加该中标机构对应的机构实体后缀规则；

5.2)如果其他信息提取出错，则更新其正则提取规则；

步骤6：人工校验结束后计算人工校验准确率，如果人工校验准确率没有到达设定准确率阈值，则对该批次的所有中标公告重新提取；在达到设定准确率阈值后，停止提取。

进一步地，所述步骤2.1)中，通过Python模块BeautifulSoup获取标题和其他纯文本。

进一步地，所述步骤2.2)中，通过Python模块pandas将表格解析为嵌套列表。

进一步地，所述步骤4中，命名实体识别采用哈尔滨工业大学开源的Python模块pyltp。

进一步地，所述步骤5人工抽样校验中，抽取1％作为校验样本，所述步骤6中，准确率阈值设置为85％。

本发明的有益效果是：

1.本发明提供的是一个具有逐步优化功能的系统性中标数据提取方法，可操作性强，意味着，随着处理过的数据量的增长，该方案最终会得到较高的提取率与准确率。

2.本发明将表格数据转为普通文本数据，进而结合命名实体识别与正则规则筛选，可以达到较高的中标机构、中标标的与中标金额的提取准确率。

3.本发明提供的中标数据提取方法，不依赖于中标数据源，也不局限于命名实体识别所使用的技术，其中的组件是可以用具有相似功能的方法进行替换的，比如，将哈尔滨工业大学开源的Python模块pyltp命名实体识别更改为其他命名实体识别的算法。

附图说明

图1为本发明一种基于命名实体识别的中标数据提取方法流程图；

图2为将表格解析为纯文本的流程图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。

如图1所示，本发明提供的一种基于命名实体识别的中标数据提取方法，该方法包括以下步骤：

步骤1：获取中标公告网页的HTML。

步骤2：解析HTML：

2.1)针对HTML中的文本，通过Python模块BeautifulSoup获取标题和其他纯文本；

2.2)针对HTML中的表格，如图2所示，首先通过Python模块pandas将其解析为嵌套列表，然后采取如下规则将其解析为纯文本：

A.没有冒号

B.没有特定词(特定词为自定义的本文，如，公告信息、联系人等)

C.没有机构实体

以下以一个具体实例说明表格的解析流程：

1.原始表格：

2.更新单元格内容后：

3.以“；”拼接每行的单元格后得到：

设备名称；中标人；中标金额；地址

设备名称是彩色多普勒超声诊断仪；中标人是广州渤林医疗科技有限公司；中标金额是￥578,800.00；地址是广州市海珠区昌岗中路172号自编1017房

设备名称是电外科手术系统；中标人是广州渤林医疗科技有限公司；中标金额是￥655,000.00；地址是江西省上高县敖山镇工业园区218-2号

设备名称是电子支气管系统；中标人是广州康劲医疗科技有限公司；中标金额是￥779,000.00；地址是广州市海珠区新港东路高教外街24号

4.以“。”拼接所有行后得到：

设备名称；中标人；中标金额；地址。设备名称是彩色多普勒超声诊断仪；中标人是广州渤林医疗科技有限公司；中标金额是￥578,800.00；地址是广州市海珠区昌岗中路172号自编1017房。设备名称是电外科手术系统；中标人是广州渤林医疗科技有限公司；中标金额是￥655,000.00；地址是江西省上高县敖山镇工业园区218-2号。设备名称是电子支气管系统；中标人是广州康劲医疗科技有限公司；中标金额是￥779,000.00；地址是广州市海珠区新港东路高教外街24号

2.3)将解析得到的标题、纯文本和解析后的表格按其出现顺序拼接为全文。

步骤3：项目名称、公告类型、公告时间以及中标总金额，这几个信息的上下文形式较为工整，可以通过正则匹配。具体地，从步骤2得到的标题中提取项目名称以及公告类型(分为流标、预公告、中标和招标)；从标题下文提取公告时间；从步骤2得到的全文中提取中标总金额。

步骤4：根据文本顺序，依次扫描每句话(便于提取每条中标记录，并能将中标标的、中标机构与中标金额匹配上)：

4.1)通过命名实体识别(这里使用哈尔滨工业大学开源的Python模块pyltp)与机构实体后缀规则(如，机构实体必须是以公司、厂、所、处、院等词结尾的)筛选提取中标机构；

4.2)在步骤4.1)提取的中标机构上下文提取中标标的与中标金额。

步骤5：按照步骤1到步骤4解析若干个(如，一万个中标公告)中标公告后，进行人工抽样校验(如，抽取1％作为校验样本)，依次分析随机抽取的中标公告提取结果，如果某个中标公告提取出错，则进行如下操作：

5.2)如果其他信息提取出错，则更新其正则提取规则；

步骤6：人工校验结束后计算人工校验准确率，如果人工校验准确率没有到达设定准确率阈值(如，85％)，则对该批次的所有中标公告重新提取；在达到设定准确率阈值后，停止提取。

本发明提供的是一个系统性的中标数据提取闭环方案，各个组件的衔接保证了较高提取率与准确率，同时还让该提取方案具备提取性能逐步提升的趋势。本发明对表格数据解析提供了一种将格式化数据转为普通文本数据的方案，该方案在把难以处理的表格数据转为易于识别的普通文本数据的同时，尽可能保留了与信息提取相关的各个单元格间的关系，这是后续中标机构、中标标的与中标金额得以高准确率提取的主要因素。

以上所述仅为本发明的较佳实施举例，并不用于限制本发明，凡在本发明精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于命名实体识别的中标数据提取方法，其特征在于，该方法包括以下步骤：

步骤1：获取中标公告网页的HTML；

步骤2：解析HTML：

2.1)针对HTML中的文本，获取标题和其他纯文本；

a)如果首行单元格没有冒号、没有特定词且没有机构实体，则更新除首行外的单元格内容：单元格内容＝首行单元格内容+“是”+单元格内容；

步骤4：根据文本顺序，依次扫描每句话：

5.2)如果其他信息提取出错，则更新其正则提取规则；

2.根据权利要求1所述的一种基于命名实体识别的中标数据提取方法，其特征在于，所述步骤2.1)中，通过Python模块BeautifulSoup获取标题和其他纯文本。

3.根据权利要求1所述的一种基于命名实体识别的中标数据提取方法，其特征在于，所述步骤2.2)中，通过Python模块pandas将表格解析为嵌套列表。

4.根据权利要求1所述的一种基于命名实体识别的中标数据提取方法，其特征在于，所述步骤4中，命名实体识别采用哈尔滨工业大学开源的Python模块pyltp。

5.根据权利要求1所述的一种基于命名实体识别的中标数据提取方法，其特征在于，所述步骤5人工抽样校验中，抽取1％作为校验样本，所述步骤6中，准确率阈值设置为85％。