CN111611794A - 一种基于行业规则和TextCNN模型的通用工程信息提取的方法 - Google Patents

一种基于行业规则和TextCNN模型的通用工程信息提取的方法 Download PDF

Info

Publication number
CN111611794A
CN111611794A CN202010417610.7A CN202010417610A CN111611794A CN 111611794 A CN111611794 A CN 111611794A CN 202010417610 A CN202010417610 A CN 202010417610A CN 111611794 A CN111611794 A CN 111611794A
Authority
CN
China
Prior art keywords
engineering
information
textcnn
layer
engineering information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010417610.7A
Other languages
English (en)
Inventor
巫怀政
王艺
贾高阳
郑龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Joint Digital Technology Co ltd
Original Assignee
Joint Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Joint Digital Technology Co ltd filed Critical Joint Digital Technology Co ltd
Priority to CN202010417610.7A priority Critical patent/CN111611794A/zh
Publication of CN111611794A publication Critical patent/CN111611794A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于行业规则和TextCNN模型的通用工程信息提取的方法,包括以下步骤:对工程招标文件内容中的主要工程信息进行标注,训练一个textCNN深度学习模型,实现对未标注的工程招标文件中的主要工程信息的识别与提取;对样本数据进行预处理,使用BRAT或YEDA文本标注工具,将关键信息标注出来;利用embedding层,将每个词转成相同长度的向量;接入卷积层;接着是池化层,使用max pooling,取每个特征图的最大值作为输出;最后是softmax层,输出层设为多个神经元。采用TextCNN的方式进行信息提取,其结构很简单,参数也较少,非常适合行业内的场景中只有关键信息部分的语序需要考虑的问题。

Description

一种基于行业规则和TextCNN模型的通用工程信息提取的 方法
技术领域
本发明涉及一种一种基于行业规则和TextCNN模型的通用工程信息提取的方法,属于软件技术领域。
背景技术
现有的工程主要信息识别与提取技术几乎都是通过正则方式,不同的工程信息使用不同的匹配规则,从工程招标内容中依次获取。虽然工程招标文件内容格式具有强规则特点,但传统的正则方式依然会导致下列问题:1、需要花费大量时间研究招标文件,设计匹配规则;2、无法利用语义信息获得所需信息;3、具有较高的遗漏率;4、针对新的内容需要不断维护和更新匹配规则,进而规则系统将越来越复杂,规则之间也会相互依赖,最终出现无法匹配的情况出现。
发明内容
本发明的目的是为了解决上述问题,提供一种基于行业规则和TextCNN模型的通用工程信息提取的方法。
为了实现上述目的,本发明的技术方案如下,一种基于行业规则和TextCNN模型的通用工程信息提取的方法,包括以下步骤:
(1)通过对工程招标文件内容中的主要工程信息进行标注,训练一个textCNN深度学习模型,实现对未标注的工程招标文件中的主要工程信息的识别与提取。
(2)先对样本数据进行预处理,包括但不限于去除标点,英文,分词等操作。
(3)使用BRAT或YEDA文本标注工具,将关键信息标注出来。
(4)先利用embedding 层,将每个词转成相同长度的向量,这样就将文本转换成了矩阵的形式。
(5)然后接入卷积层,filter 的长度可自定义,宽度等于词向量的长度。这样处理,每次计算 n 个词向量的卷积,类似于 n-gram 模型,考虑了多个词之间的顺序信息。
(6)接着是池化层,使用max pooling,取每个特征图的最大值作为输出。
(7)最后是softmax 层,由于是多分类问题,输出层设为多个神经元。
有益效果:
本发明的信息提取方法可以让业务人员更全面的了解工程信息,从而判断是否存在商机可能性以及去现场谈判的必要性,替代了传统的查询政府官网的建筑类信息,已有的工地承包商和人工走访工地的方式,减少了业务人员的时间精力消耗以及交通费;使用TextCNN的方式进行信息提取,其结构很简单,参数也较少,非常适合行业内的场景中只有关键信息部分的语序需要考虑的问题,TextCNN通过合理的filter设置恰好可以做到这一点。可以自动提取关键信息 不需要匹配标签等强匹配。
附图说明
图1为本发明的流程图。
具体实施方式
为了加深对本发明的理解,下面结合具体实施例做详细的说明。
如图1所示,为本发明的流程图,本发明公开的一种基于行业规则和TextCNN模型的通用工程信息提取的方法,包括以下步骤:
(1)通过对工程招标文件内容中的主要工程信息进行标注,训练一个textCNN深度学习模型,实现对未标注的工程招标文件中的主要工程信息的识别与提取。
(2)先对样本数据进行预处理,包括但不限于去除标点,英文,分词等操作。
(3)使用BRAT或YEDA文本标注工具,将关键信息标注出来。
(4)先利用embedding 层,将每个词转成相同长度的向量,这样就将文本转换成了矩阵的形式。
(5)然后接入卷积层,filter 的长度可自定义,宽度等于词向量的长度。这样处理,每次计算 n 个词向量的卷积,类似于 n-gram 模型,考虑了多个词之间的顺序信息。
(6)接着是池化层,使用max pooling,取每个特征图的最大值作为输出。
(7)最后是softmax 层,由于是多分类问题,输出层设为多个神经元。
下面是本申请处理数据输出结果的方法实施例。
一段包含工程信息的文本:
项目概况与招标范围
2.1 建设地点:走马镇
2.2 建设规模:本次走马镇慈云村(1、6、7社)土地整治区配套工程场地总面积约363亩,共包含1块地块,地块净用地面积约244亩,其余为边坡用地。土地整治配套工程拟建设管理用房(包含大门、围墙、岗亭、车辆冲洗场、回车场)、弱电智能化、安全防护措施、降噪防尘设备等所有配套设施、已建道路修补、边坡防护、临时道路、排水和交安设施等所涉及的所有配套设施。具体工作内容以招标人提供的施工图和工程量清单为准。
2.3本次招标项目工程总投资额:
本次招标项目合同估算金额: 3000万元
2.4 招标范围:走马镇慈云村(1、6、7社)土地整治区配套工程施工图范围内土石方工程、边坡工程、附属设施工程、交通工程、电气工程等工作内容。具体详见招标人提供的施工图和工程量清单。
2.5 工期要求:工期 720日历天,缺陷责任期 24 个月
2.6 标段划分:/
2.7 其他:/
通过去标点,去英文,分词后,将文本转换成词语列表,再将其向量化,输入到训练好的模型中,模型将符合标注特征的词语输出,并打上对应标签。
结果返回如下
[[“走马镇慈云村”,“地址”],[“363亩”,“建筑面积”],[“走马镇慈云村”,“投资金额”],[“720日历天”,“工期”]]。
需要说明的是上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述技术方案的基础上做出的等同替换或者替代均属于本发明的保护范围。

Claims (1)

1.一种基于行业规则和TextCNN模型的通用工程信息提取的方法,其特征在于,包括以下步骤:
(1)对工程招标文件内容中的主要工程信息进行标注,训练一个textCNN深度学习模型,实现对未标注的工程招标文件中的主要工程信息的识别与提取;
(2)先对样本数据进行预处理,包括去除标点,英文,分词;
(3)使用BRAT或YEDA文本标注工具,将关键信息标注出来;
(4)先利用embedding 层,将每个词转成相同长度的向量;
(5)然后接入卷积层,filter 的长度可自定义,宽度等于词向量的长度;
(6)接着是池化层,使用max pooling,取每个特征图的最大值作为输出;
(7)最后是softmax 层,输出层设为多个神经元。
CN202010417610.7A 2020-05-18 2020-05-18 一种基于行业规则和TextCNN模型的通用工程信息提取的方法 Pending CN111611794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010417610.7A CN111611794A (zh) 2020-05-18 2020-05-18 一种基于行业规则和TextCNN模型的通用工程信息提取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010417610.7A CN111611794A (zh) 2020-05-18 2020-05-18 一种基于行业规则和TextCNN模型的通用工程信息提取的方法

Publications (1)

Publication Number Publication Date
CN111611794A true CN111611794A (zh) 2020-09-01

Family

ID=72194364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010417610.7A Pending CN111611794A (zh) 2020-05-18 2020-05-18 一种基于行业规则和TextCNN模型的通用工程信息提取的方法

Country Status (1)

Country Link
CN (1) CN111611794A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040194009A1 (en) * 2003-03-27 2004-09-30 Lacomb Christina Automated understanding, extraction and structured reformatting of information in electronic files
CN103136624A (zh) * 2011-11-29 2013-06-05 北京建龙重工集团有限公司 工程项目招标、投标、评标的在线管理方法
CN108874771A (zh) * 2018-05-25 2018-11-23 福州大学 一种面向招标文本的信息抽取方法
CN108920656A (zh) * 2018-07-03 2018-11-30 龙马智芯(珠海横琴)科技有限公司 文档属性描述内容提取方法和装置
CN109815339A (zh) * 2019-01-02 2019-05-28 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN110163257A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 抽取结构化信息的方法、装置、设备和计算机存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040194009A1 (en) * 2003-03-27 2004-09-30 Lacomb Christina Automated understanding, extraction and structured reformatting of information in electronic files
CN103136624A (zh) * 2011-11-29 2013-06-05 北京建龙重工集团有限公司 工程项目招标、投标、评标的在线管理方法
CN108874771A (zh) * 2018-05-25 2018-11-23 福州大学 一种面向招标文本的信息抽取方法
CN108920656A (zh) * 2018-07-03 2018-11-30 龙马智芯(珠海横琴)科技有限公司 文档属性描述内容提取方法和装置
CN109815339A (zh) * 2019-01-02 2019-05-28 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN110163257A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 抽取结构化信息的方法、装置、设备和计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李勇等: "复杂情感分析方法及其应用", vol. 978, 北京:冶金工业出版社, pages: 98 - 104 *

Similar Documents

Publication Publication Date Title
CN102929959B (zh) 一种基于用户行为的图书推荐方法
CN102722709B (zh) 一种垃圾图片识别方法和装置
CN106934536A (zh) 建设行业工程量计价清单数据自动编码与识别方法及系统
CN111709244B (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN106777644A (zh) 电厂标识系统编码的自动生成方法及装置
CN106339455A (zh) 基于文本标签特征挖掘的网页正文提取方法
CN104598573A (zh) 一种用户的生活圈提取方法及系统
CN105183710A (zh) 一种文档摘要自动生成的方法
CN113298435A (zh) 建筑业施工方案智能编制方法及其系统
CN112905868A (zh) 事件抽取方法、装置、设备及存储介质
CN115687331A (zh) 一种工程造价定额智能匹配方法与系统
CN115331102A (zh) 一种基于深度学习的遥感影像河湖岸线智能监测方法
CN111859779A (zh) 一种燃气管网防第三方施工破坏风险预警的方法及装置
CN111611794A (zh) 一种基于行业规则和TextCNN模型的通用工程信息提取的方法
CN112906382B (zh) 基于图神经网络的政策文本多标签标注方法及系统
CN117131856A (zh) 一种基于问题引导的交通事故文本因果关系抽取方法
CN112257425A (zh) 一种基于数据分级模型的电力数据分析方法及系统
CN115329169B (zh) 一种基于深度神经模型的档案归档计算方法
CN113449526B (zh) 一种钢结构生产调度策略的适用性分析方法及系统
CN112070429B (zh) 一种地址合并方法及系统
CN111950875A (zh) 一种合同智能评审方法
CN105184514A (zh) 一种基于序列标注的电网设计指标抽取方法
van Duin et al. The near future of parcel delivery: Selecting sustainable solutions for parcel delivery
CN116501897B (zh) 基于模糊匹配构建知识图谱的方法
CN115292791B (zh) Jsl-路线专家设计数据向通用数据格式转换的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination