CN109408825A - 一种基于命名实体识别的中标数据提取方法 - Google Patents
一种基于命名实体识别的中标数据提取方法 Download PDFInfo
- Publication number
- CN109408825A CN109408825A CN201811313636.6A CN201811313636A CN109408825A CN 109408825 A CN109408825 A CN 109408825A CN 201811313636 A CN201811313636 A CN 201811313636A CN 109408825 A CN109408825 A CN 109408825A
- Authority
- CN
- China
- Prior art keywords
- acceptance
- bid
- entity recognition
- extracted
- name entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013075 data extraction Methods 0.000 title claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 239000000284 extract Substances 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 208000025174 PANDAS Diseases 0.000 claims description 3
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 claims description 3
- 235000016496 Panda oleosa Nutrition 0.000 claims description 3
- 210000001072 colon Anatomy 0.000 claims description 3
- 240000000220 Panda oleosa Species 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 4
- 238000011084 recovery Methods 0.000 abstract description 4
- 230000008859 change Effects 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 description 3
- 240000004718 Panda Species 0.000 description 2
- 210000000621 bronchi Anatomy 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于命名实体识别的中标数据提取方法,从中标公告网页的HTML解析成文本,到文本中提取所需的关键信息,再到提取结果校对,最后校对结果再反哺到提取上,形成一个闭环流程;在提取信息中结合了命名实体识别与规则筛选,提高中标机构的提取率,且针对不同的数据源,所需的改动较少;该方法在把难以处理的表格数据转为易于识别的普通文本数据的同时,尽可能保留了与信息提取相关的各个单元格间的关系,这是后续中标机构、中标标的与中标金额得以高准确率提取的主要因素。该方法可操作性强,随着处理过的数据量的增长,最终会得到较高的提取率与准确率。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基于命名实体识别的中标数据提取方法。
背景技术
中标数据提取是一类高效利用文本数据的任务,随着各级政府进一步加大信息公开力度,越来越的中标数据处于可利用状态,也由于数据量大,且数据呈现形式众多,这一类数据还有待进一步加工利用。
当前有通过DOM树对HTML数据直接进行解析的方法(参考专利:一种基于DOM树的招标网站中标信息抽取方法),所需的信息都提取于DOM树的节点上;其中,DOM是文档对象化模型(Document Object Model)的简称,DOM Tree指通过DOM将HTML页面进行解析,并生成的HTML tree树状结构和对应访问方法。
也有利用二阶HMM对中标网页进行命名实体提取的方法(参考专利:一种基于二阶HMM的中标网页命名实体抽取方法),其通过文本上下文及HTML标签作为数据,使用二阶HMM进行序列标注;其中,命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等;隐马尔可夫模型(Hidden Markov Model,HMM)是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。
现有的中标数据提取方法一般都缺乏系统性,很难有持续迭代优化的趋势,且使用条件较为限制,从而导致通用性较差。
发明内容
在中标数据提取任务中,现有的方法或依赖于规则提取,或侧重于算法提取,这直接反映在提取效果不够好,且没有持续优化的趋势,本发明针对以上问题提出一种基于命名实体识别的中标数据提取方法,从HTML解析成文本,到文本中提取所需的关键信息,再到提取结果校对,最后校对结果再反哺到提取上,形成一个闭环流程;在提取信息中结合了命名实体识别与规则筛选,提高中标机构的提取率,且针对不同的数据源,所需的改动较少。
本发明的目的是通过以下技术方案来实现的:一种基于命名实体识别的中标数据提取方法,该方法包括以下步骤:
步骤1:获取中标公告网页的HTML;
步骤2:解析HTML:
2.1)针对HTML中的文本,获取标题和其他纯文本;
2.2)针对HTML中的表格,首先将其解析为嵌套列表,然后采取如下规则将其解析为纯文本:
a)如果首行单元格同时满足如下三个条件,则更新除首行外的单元格内容:单元格内容=首行单元格内容+“是”+单元格内容;
A.没有冒号
B.没有特定词
C.没有机构实体
b)依次对每行的单元格以“;”进行拼接;再对所有行以“。”进行拼接;
2.3)将解析得到的标题、纯文本和解析后的表格按其出现顺序拼接为全文;
步骤3:从步骤2得到的标题中提取项目名称以及公告类型;从标题下文提取公告时间;从步骤2得到的全文中提取中标总金额;
步骤4:根据文本顺序,依次扫描每句话:
4.1)通过命名实体识别与机构实体后缀规则筛选提取中标机构;
4.2)在步骤4.1)提取的中标机构上下文提取中标标的与中标金额;
步骤5:按照步骤1到步骤4解析若干个中标公告后,进行人工抽样校验,依次分析随机抽取的中标公告提取结果,如果某个中标公告提取出错,则进行如下操作:
5.1)如果有中标机构没有被提取出,则增加该机构实体到命名实体识别的机构实体库中,同时增加该中标机构对应的机构实体后缀规则;
5.2)如果其他信息提取出错,则更新其正则提取规则;
步骤6:人工校验结束后计算人工校验准确率,如果人工校验准确率没有到达设定准确率阈值,则对该批次的所有中标公告重新提取;在达到设定准确率阈值后,停止提取。
进一步地,所述步骤2.1)中,通过Python模块BeautifulSoup获取标题和其他纯文本。
进一步地,所述步骤2.2)中,通过Python模块pandas将表格解析为嵌套列表。
进一步地,所述步骤4中,命名实体识别采用哈尔滨工业大学开源的Python模块pyltp。
进一步地,所述步骤5人工抽样校验中,抽取1%作为校验样本,所述步骤6中,准确率阈值设置为85%。
本发明的有益效果是:
1.本发明提供的是一个具有逐步优化功能的系统性中标数据提取方法,可操作性强,意味着,随着处理过的数据量的增长,该方案最终会得到较高的提取率与准确率。
2.本发明将表格数据转为普通文本数据,进而结合命名实体识别与正则规则筛选,可以达到较高的中标机构、中标标的与中标金额的提取准确率。
3.本发明提供的中标数据提取方法,不依赖于中标数据源,也不局限于命名实体识别所使用的技术,其中的组件是可以用具有相似功能的方法进行替换的,比如,将哈尔滨工业大学开源的Python模块pyltp命名实体识别更改为其他命名实体识别的算法。
附图说明
图1为本发明一种基于命名实体识别的中标数据提取方法流程图;
图2为将表格解析为纯文本的流程图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明提供的一种基于命名实体识别的中标数据提取方法,该方法包括以下步骤:
步骤1:获取中标公告网页的HTML。
步骤2:解析HTML:
2.1)针对HTML中的文本,通过Python模块BeautifulSoup获取标题和其他纯文本;
2.2)针对HTML中的表格,如图2所示,首先通过Python模块pandas将其解析为嵌套列表,然后采取如下规则将其解析为纯文本:
a)如果首行单元格同时满足如下三个条件,则更新除首行外的单元格内容:单元格内容=首行单元格内容+“是”+单元格内容;
A.没有冒号
B.没有特定词(特定词为自定义的本文,如,公告信息、联系人等)
C.没有机构实体
b)依次对每行的单元格以“;”进行拼接;再对所有行以“。”进行拼接;
以下以一个具体实例说明表格的解析流程:
1.原始表格:
2.更新单元格内容后:
3.以“;”拼接每行的单元格后得到:
设备名称;中标人;中标金额;地址
设备名称是彩色多普勒超声诊断仪;中标人是广州渤林医疗科技有限公司;中标金额是¥578,800.00;地址是广州市海珠区昌岗中路172号自编1017房
设备名称是电外科手术系统;中标人是广州渤林医疗科技有限公司;中标金额是¥655,000.00;地址是江西省上高县敖山镇工业园区218-2号
设备名称是电子支气管系统;中标人是广州康劲医疗科技有限公司;中标金额是¥779,000.00;地址是广州市海珠区新港东路高教外街24号
4.以“。”拼接所有行后得到:
设备名称;中标人;中标金额;地址。设备名称是彩色多普勒超声诊断仪;中标人是广州渤林医疗科技有限公司;中标金额是¥578,800.00;地址是广州市海珠区昌岗中路172号自编1017房。设备名称是电外科手术系统;中标人是广州渤林医疗科技有限公司;中标金额是¥655,000.00;地址是江西省上高县敖山镇工业园区218-2号。设备名称是电子支气管系统;中标人是广州康劲医疗科技有限公司;中标金额是¥779,000.00;地址是广州市海珠区新港东路高教外街24号
2.3)将解析得到的标题、纯文本和解析后的表格按其出现顺序拼接为全文。
步骤3:项目名称、公告类型、公告时间以及中标总金额,这几个信息的上下文形式较为工整,可以通过正则匹配。具体地,从步骤2得到的标题中提取项目名称以及公告类型(分为流标、预公告、中标和招标);从标题下文提取公告时间;从步骤2得到的全文中提取中标总金额。
步骤4:根据文本顺序,依次扫描每句话(便于提取每条中标记录,并能将中标标的、中标机构与中标金额匹配上):
4.1)通过命名实体识别(这里使用哈尔滨工业大学开源的Python模块pyltp)与机构实体后缀规则(如,机构实体必须是以公司、厂、所、处、院等词结尾的)筛选提取中标机构;
4.2)在步骤4.1)提取的中标机构上下文提取中标标的与中标金额。
步骤5:按照步骤1到步骤4解析若干个(如,一万个中标公告)中标公告后,进行人工抽样校验(如,抽取1%作为校验样本),依次分析随机抽取的中标公告提取结果,如果某个中标公告提取出错,则进行如下操作:
5.1)如果有中标机构没有被提取出,则增加该机构实体到命名实体识别的机构实体库中,同时增加该中标机构对应的机构实体后缀规则;
5.2)如果其他信息提取出错,则更新其正则提取规则;
步骤6:人工校验结束后计算人工校验准确率,如果人工校验准确率没有到达设定准确率阈值(如,85%),则对该批次的所有中标公告重新提取;在达到设定准确率阈值后,停止提取。
本发明提供的是一个系统性的中标数据提取闭环方案,各个组件的衔接保证了较高提取率与准确率,同时还让该提取方案具备提取性能逐步提升的趋势。本发明对表格数据解析提供了一种将格式化数据转为普通文本数据的方案,该方案在把难以处理的表格数据转为易于识别的普通文本数据的同时,尽可能保留了与信息提取相关的各个单元格间的关系,这是后续中标机构、中标标的与中标金额得以高准确率提取的主要因素。
以上所述仅为本发明的较佳实施举例,并不用于限制本发明,凡在本发明精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于命名实体识别的中标数据提取方法,其特征在于,该方法包括以下步骤:
步骤1:获取中标公告网页的HTML;
步骤2:解析HTML:
2.1)针对HTML中的文本,获取标题和其他纯文本;
2.2)针对HTML中的表格,首先将其解析为嵌套列表,然后采取如下规则将其解析为纯文本:
a)如果首行单元格没有冒号、没有特定词且没有机构实体,则更新除首行外的单元格内容:单元格内容=首行单元格内容+“是”+单元格内容;
b)依次对每行的单元格以“;”进行拼接;再对所有行以“。”进行拼接;
2.3)将解析得到的标题、纯文本和解析后的表格按其出现顺序拼接为全文;
步骤3:从步骤2得到的标题中提取项目名称以及公告类型;从标题下文提取公告时间;从步骤2得到的全文中提取中标总金额;
步骤4:根据文本顺序,依次扫描每句话:
4.1)通过命名实体识别与机构实体后缀规则筛选提取中标机构;
4.2)在步骤4.1)提取的中标机构上下文提取中标标的与中标金额;
步骤5:按照步骤1到步骤4解析若干个中标公告后,进行人工抽样校验,依次分析随机抽取的中标公告提取结果,如果某个中标公告提取出错,则进行如下操作:
5.1)如果有中标机构没有被提取出,则增加该机构实体到命名实体识别的机构实体库中,同时增加该中标机构对应的机构实体后缀规则;
5.2)如果其他信息提取出错,则更新其正则提取规则;
步骤6:人工校验结束后计算人工校验准确率,如果人工校验准确率没有到达设定准确率阈值,则对该批次的所有中标公告重新提取;在达到设定准确率阈值后,停止提取。
2.根据权利要求1所述的一种基于命名实体识别的中标数据提取方法,其特征在于,所述步骤2.1)中,通过Python模块BeautifulSoup获取标题和其他纯文本。
3.根据权利要求1所述的一种基于命名实体识别的中标数据提取方法,其特征在于,所述步骤2.2)中,通过Python模块pandas将表格解析为嵌套列表。
4.根据权利要求1所述的一种基于命名实体识别的中标数据提取方法,其特征在于,所述步骤4中,命名实体识别采用哈尔滨工业大学开源的Python模块pyltp。
5.根据权利要求1所述的一种基于命名实体识别的中标数据提取方法,其特征在于,所述步骤5人工抽样校验中,抽取1%作为校验样本,所述步骤6中,准确率阈值设置为85%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811313636.6A CN109408825A (zh) | 2018-11-06 | 2018-11-06 | 一种基于命名实体识别的中标数据提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811313636.6A CN109408825A (zh) | 2018-11-06 | 2018-11-06 | 一种基于命名实体识别的中标数据提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109408825A true CN109408825A (zh) | 2019-03-01 |
Family
ID=65471916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811313636.6A Pending CN109408825A (zh) | 2018-11-06 | 2018-11-06 | 一种基于命名实体识别的中标数据提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109408825A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111726336A (zh) * | 2020-05-14 | 2020-09-29 | 北京邮电大学 | 一种联网智能设备识别信息提取方法及系统 |
CN111797356A (zh) * | 2020-07-06 | 2020-10-20 | 上海冰鉴信息科技有限公司 | 网页表格信息抽取方法及装置 |
CN112990845A (zh) * | 2021-01-04 | 2021-06-18 | 江苏省测绘地理信息局信息中心 | 测绘市场项目智能化获取方法 |
CN113221539A (zh) * | 2021-07-08 | 2021-08-06 | 华东交通大学 | 一种集成句法信息的嵌套命名实体识别方法与系统 |
CN115203309A (zh) * | 2022-09-15 | 2022-10-18 | 北京信立方科技发展股份有限公司 | 网页中标数据结构化方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719122A (zh) * | 2009-12-04 | 2010-06-02 | 中国人民解放军信息工程大学 | 一种从文本数据中提取中文命名实体的方法 |
CN104915334A (zh) * | 2015-05-29 | 2015-09-16 | 浪潮软件集团有限公司 | 一种基于语义分析的招投标项目关键信息自动化提取方法 |
US20170133010A1 (en) * | 2013-05-30 | 2017-05-11 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
CN106776538A (zh) * | 2016-11-23 | 2017-05-31 | 国网福建省电力有限公司 | 企业非标准格式文档的信息提取方法 |
CN108509423A (zh) * | 2018-04-04 | 2018-09-07 | 福州大学 | 一种基于二阶hmm的中标网页命名实体抽取方法 |
-
2018
- 2018-11-06 CN CN201811313636.6A patent/CN109408825A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719122A (zh) * | 2009-12-04 | 2010-06-02 | 中国人民解放军信息工程大学 | 一种从文本数据中提取中文命名实体的方法 |
US20170133010A1 (en) * | 2013-05-30 | 2017-05-11 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
CN104915334A (zh) * | 2015-05-29 | 2015-09-16 | 浪潮软件集团有限公司 | 一种基于语义分析的招投标项目关键信息自动化提取方法 |
CN106776538A (zh) * | 2016-11-23 | 2017-05-31 | 国网福建省电力有限公司 | 企业非标准格式文档的信息提取方法 |
CN108509423A (zh) * | 2018-04-04 | 2018-09-07 | 福州大学 | 一种基于二阶hmm的中标网页命名实体抽取方法 |
Non-Patent Citations (3)
Title |
---|
孙誉侨: "面向招标数据的命名实体识别方法研究及应用", 《中国优秀硕士论文全文数据库 信息科技辑》 * |
张悦: "人名识别技术在中国招中标领域的应用", 《北京信息科技大学学报》 * |
闫俊英: "信息抽取技术综述", 《福建电脑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111726336A (zh) * | 2020-05-14 | 2020-09-29 | 北京邮电大学 | 一种联网智能设备识别信息提取方法及系统 |
CN111797356A (zh) * | 2020-07-06 | 2020-10-20 | 上海冰鉴信息科技有限公司 | 网页表格信息抽取方法及装置 |
CN111797356B (zh) * | 2020-07-06 | 2023-08-08 | 上海冰鉴信息科技有限公司 | 网页表格信息抽取方法及装置 |
CN112990845A (zh) * | 2021-01-04 | 2021-06-18 | 江苏省测绘地理信息局信息中心 | 测绘市场项目智能化获取方法 |
CN113221539A (zh) * | 2021-07-08 | 2021-08-06 | 华东交通大学 | 一种集成句法信息的嵌套命名实体识别方法与系统 |
CN115203309A (zh) * | 2022-09-15 | 2022-10-18 | 北京信立方科技发展股份有限公司 | 网页中标数据结构化方法及装置 |
CN115203309B (zh) * | 2022-09-15 | 2022-11-29 | 北京信立方科技发展股份有限公司 | 网页中标数据结构化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408825A (zh) | 一种基于命名实体识别的中标数据提取方法 | |
Lita et al. | Truecasing | |
CN107688803B (zh) | 字符识别中识别结果的校验方法和装置 | |
Peshkin et al. | Bayesian information extraction network | |
WO2011131785A1 (en) | Normalisation of noisy typewritten texts | |
CN105244029A (zh) | 语音识别后处理方法及系统 | |
JP2005084681A (ja) | 意味的言語モデル化および信頼性測定のための方法およびシステム | |
Khasawneh et al. | Sentiment analysis of Arabic social media content: a comparative study | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
US11636266B2 (en) | Systems and methods for unsupervised neologism normalization of electronic content using embedding space mapping | |
US8484229B2 (en) | Method and system for identifying traditional arabic poems | |
CN109101518A (zh) | 语音转录文本质量评估方法、装置、终端及可读存储介质 | |
Zayats et al. | Multi-domain disfluency and repair detection. | |
CN108491512A (zh) | 新闻标题的摘要方法及装置 | |
Xafopoulos et al. | Language identification in web documents using discrete HMMs | |
CN110929520A (zh) | 非命名实体对象抽取方法、装置、电子设备及存储介质 | |
US8335681B2 (en) | Machine-translation apparatus using multi-stage verbal-phrase patterns, methods for applying and extracting multi-stage verbal-phrase patterns | |
CN108363700A (zh) | 新闻标题的质量评估方法及装置 | |
CN114528418B (zh) | 一种文本处理方法、系统和存储介质 | |
CN110263345A (zh) | 关键词提取方法、装置及存储介质 | |
Khan et al. | Enhancement of text analysis using context-aware normalization of social media informal text | |
Palmer et al. | Robust information extraction from automatically generated speech transcriptions | |
KR20010075848A (ko) | 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치및 그 방법 | |
Vogel et al. | Computational Stylometry: Who’s in a Play? | |
CN115526176A (zh) | 文本识别方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190301 |